CN103793523A - 一种基于内容相似度计算的自动搜索引擎构建方法 - Google Patents

一种基于内容相似度计算的自动搜索引擎构建方法 Download PDF

Info

Publication number
CN103793523A
CN103793523A CN201410059196.1A CN201410059196A CN103793523A CN 103793523 A CN103793523 A CN 103793523A CN 201410059196 A CN201410059196 A CN 201410059196A CN 103793523 A CN103793523 A CN 103793523A
Authority
CN
China
Prior art keywords
webpage
content
dif
word
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410059196.1A
Other languages
English (en)
Other versions
CN103793523B (zh
Inventor
刘峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410059196.1A priority Critical patent/CN103793523B/zh
Publication of CN103793523A publication Critical patent/CN103793523A/zh
Application granted granted Critical
Publication of CN103793523B publication Critical patent/CN103793523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于内容相似度计算的自动搜索引擎构建方法,本发明在现有技术搜索引擎基础上,采用“最大熵和”、“最小熵差”来计算网页内容差异度,为每个网页建立相似内容索引,搜索引擎可自动搜索相似内容网页。当用户输入关键词后,不仅搜索出包含关键词的网页,同时还为每个搜索出的网页,再自动搜索相似内容网页并进行聚类显示;当用户在搜索结果中点击链接浏览时,自动搜索相似内容网页并进行信息推送;自动跟踪用户浏览网页、搜索相似内容网页进行信息推送。用本发明构建的搜索引擎,实现了智能化主动搜索,使用户更容易找到相关内容网页,提高了搜索引擎的自动化、智能化水平。

Description

一种基于内容相似度计算的自动搜索引擎构建方法
技术领域
应用于文本相似度计算及各种信息搜索领域。
背景技术
现有技术搜索引擎如百度、Google等,只能被动地按用户输入关键词进行搜索,不能主动为每个搜索结果中的网页自动搜索相似内容网页,其缺陷主要体现在:
1、用户在搜索引擎上输入关键词后,虽然搜索出的网页包含关键词,但内容并不相同,没有相似内容聚类显示,用户需要在众多内容不同的搜索结果中仔细观察和筛选查找感兴趣信息,不方便用户确定选择搜索结果;
2、用户在搜索结果中找到感兴趣的网页后,如要继续查找相同内容网页,还需返回众多内容不同的搜索结果中,继续进行人工观察与筛选;
3、搜索引擎不能控制搜索到不在其站内网页的显示,当用户点击搜索结果的链接后,如果该网页不是搜索引擎站内的网页,浏览器的显示控制权将交给链接网页,因此,搜索引擎不能在链接网页上推送相似内容网页,不能继续跟踪用户浏览网页的内容变化而自动搜索相似内容网页。
4、没有考虑站内搜索相似内容网页的自动推送,不能实现站内相似内容网页无触发自动搜索与推送。
为解决上述问题,本发明在现有技术基础上,采用“最大熵和”、“最小熵差”来计算网页内容差异度,为每个网页建立相似内容索引Sim-Index,利用Sim-Index自动进行相似内容搜索;通过改进现有技术搜索结果链接显示方法,自动跟踪用户浏览网页内容的变化,主动搜索相似内容网页并进行信息推送;通过与站内网页结合,进行站内无触发自动搜索。实现了搜索引擎智能化主动搜索与信息推送,用户更容易找到关注内容网页,提高了搜索引擎的自动化、智能化水平。
发明内容
为解决现有技术存在的问题,本发明目的是提供了一种基于内容相似度计算的自动搜索引擎构建方法。
为实现本发明目的所采用的技术方案是:
一种网页内容相似度计算方法,利用蜘蛛程序爬取网页、分词;
(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj,Wj=TF/Dt
(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为所爬取的网页数,m≥2,1≤j≤m;
(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;
(4)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空
Figure BDA0000467916690000024
时,直接判定两网页内容不相似,结束计算;
(5)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空
Figure BDA0000467916690000025
计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重Wj之差的绝对值的和为内容差异度
Figure BDA0000467916690000021
其中
Figure BDA0000467916690000026
为交集PWk∩i中的第j个词在PWi中的词权重Wj
Figure BDA0000467916690000027
为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;
(6)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,结束计算;
(7)当Dif(k,i)≠0、f≠m时,
Figure BDA0000467916690000022
其中PWi-k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集 PW i - k = PW i - PW k ( χ ∈ PW i | χ ∉ PW k ) , Σ j = 1 t PW i - k j 为相对补集PWi-k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为相对补集PWi-k中的元素数量。
所述的内容差异度Dif(k,i)计算方法,还可以考虑交集中的词数量f与代表词组PWi中的词数量m对内容差异度Dif(k,i)的影响,方法为:
(1)如果交集不为空
Figure BDA0000467916690000029
计算完Dif(k,i)后,当Dif(k,i)≠0、f≠m时,乘以惩罚函数(1-f/m),Dif(k,i)=Dis(k,i)×(1-f/m),以此来体现交集PWk∩i中元素数f越少、Dif(k,i)内容差异度越大;
(2)如果交集不为空
Figure BDA00004679166900000210
计算完内容差异度Dif(k,i)后,当Dif(k,i)≠0、f=m时,内容差异度Dif(k,i)不乘以惩罚函数(1-f/m),而是乘以一个系数r,Dif(k,i)=Dis(k,i)×r,r是一个0<r<0.1之间的小数。
一种基于内容相似度计算的自动搜索引擎构建方法,通过蜘蛛程序爬取网页、分词、建立词索引,按用户输入关键词进行搜索,显示包含关键词网页的标题和摘要,在此基础上,为爬取的每个网页建立相似内容索引、提供智能化主动搜索机制:
(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj=TF/Dt
(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为网页数,m≥2,1≤j≤m;
(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;
(4)用内容差异度Dif(k,i)为每个网页Pi建立其它网页Pk对本网页Pi的相似内容索引Sim-Index;
(5)搜索方法为,用户输入关键词进行搜索时,先在词索引中搜索包含关键词的网页,然后为每个搜索出的网页在Sim-Index中搜索相似内容网页;
(6)搜索结果显示方法为,在现有技术搜索结果显示方法基础上,为每个搜索出包含关键词的网页Pi,显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要;
(7)自动搜索与信息推送方法为,当用户输入关键词搜索后,在搜索结果中选择链接网页Pi时,在Sim-Index中搜索网页Pi的相似内容网页,在显示网页Pi时,推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题,继续重复上述“在搜索结果中选择链接网页Pi时”以后的过程。
所述的分词、计算词权重Wj、建立词索引、选择代表词组PWi和相似内容索引Sim-Index要进行判断:
(1)对没有具体内容全部为链接标题所组成的导航网页不进行分词、不计算词权重Wj、不建立词索引、不选择代表词组PWi,不参与相似内容索引Sim-Index;
(2)对非导航网页中链接标题中出现的文本,不进行分词、不计算词权重Wj、不建立词索引、不选择代表词组PWi
所述的内容差异度Dif(k,i)计算方法为:
(1)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空
Figure BDA0000467916690000031
时,直接判定两网页内容不相似,网页Pk不加入到网页Pi的Sim-Index中,结束计算;
(2)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空
Figure BDA0000467916690000046
计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重Wj之差的绝对值的和为内容差异度
Figure BDA0000467916690000041
其中
Figure BDA0000467916690000042
为交集PWk∩i中的第j个词在PWi中的词权重Wj
Figure BDA0000467916690000043
为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;
(3)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,将网页Pk加入到网页Pi的Sim-Index中,结束计算;
(4)当f≠m、Dif(k,i)≠0时,其中PWi-k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集 PW i - k = PW i - PW k ( χ ∈ PW i | χ ∉ PW k ) , Σ j = 1 t PW i - k j 为相对补集PWi-k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为相对补集PWi-k中的元素数量。
所述的内容差异度Dif(k,i)计算方法,还可以考虑交集中元素数量f与代表词组PWi中的词数量m对内容差异度Dif(k,i)的影响,方法为:
(1)如果交集不为空
Figure BDA0000467916690000048
计算完Dif(k,i)后,当Dif(k,i)≠0、f≠m时,乘以惩罚函数(1-f/m),Dif(k,i)=Dis(k,i)×(1-f/m),以此来体现交集PWk∩i中元素数f越少、内容差异度Dif(k,i)越大;
(2)如果交集不为空
Figure BDA0000467916690000049
计算完Dif(k,i)后,当Dif(k,i)≠0、f=m时,Dif(k,i)不乘以惩罚函数(1-f/m),而是乘以一个系数r,Dif(k,i)=Dis(k,i)×r,r是一个0<r<0.1之间的小数。
所述的自动搜索与信息推送方法:
(1)当用户输入关键词进行搜索后,在搜索结果中选择链接网页时,不直接链接该网页进行显示,而是搜索引擎自己创建一个显示页面Show-Page,在Show-Page中显示搜索结果链接网页;
(2)Show-Page由两个独立部分组成,一部分为“搜索结果链接网页显示窗口”,用于显示用户输入关键词搜索后、在搜索结果中选择的链接网页,另一部分为“推送信息窗口”,用于显示相似内容网页推送信息;
(3)当关闭“搜索结果链接网页显示窗口”时,“推送信息窗口”自动随之关闭;
自动搜索与信息推送方法,其中所述的“搜索结果链接网页显示窗口”的构建方法为:在Show-Page中有一个内联框架,在内联框架中显示用户输入关键词搜索出若干搜索结果后、在搜索结果中选择的链接网页。
所述“推送信息窗口”展示与用户交互方法为:
(1)“推送信息窗口”为Show-Page上的一个弹出窗口,里面显示“相似内容网页列表”,列表中的内容为若干条按内容差异度Dif(k,i)值由小到大排序的、在Sim-Index中为用户选择搜索结果链接网页Pi搜索出的相似内容网页的标题和摘要;
(2)用户点击“相似内容网页列表中”的标题,重复“推送信息窗口”构建和显示过程;
(3)“信息推送窗口”为浮动窗口,可以被拖拽移动、隐藏、展开。
所述的自动搜索与信息推送方法,对于站内搜索:
(1)在每个网页链接请求中加一段代码,目的是向搜索引擎发送本网页的链接请求,使请求跳转到搜索引擎而不直接链接本网页进行显示;
(2)当用户点击网页时,请求跳转到搜索引擎,搜索引擎根据上述网页链接请求中所加的代码,确定网页并在Sim-Index中搜索相似内容网页,搜索引擎自己创建一个显示页面Show-Page,Show-Page由两个独立部分组成,一部分为用内联框架创建的“网页显示窗口”,用来显示本网页,另一部分为“推送信息窗口”,用来推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题,按“推送信息窗口”方法处理。
本发明的优点:
1、相似内容自动搜索与聚类显示,帮助用户确定搜索范围、减少输入关键词操作;
现有技术搜索引擎按关键词进行搜索,虽然可搜索出包含关键词网页,但内容并不相同。在百度上输入“荷花”,会搜出各种内容包含“荷花”的网页,如:关于养殖花卉内容的网页、关于农业种植莲藕内容的网页、关于道德“出污泥而不染”内容的网页...等。可见,虽然搜索的结果都包含关键词,但内容不同,也没有排列规律。因此,即便是用户仔细观察和筛选,也不容易确定那个网页包含其所感兴趣的内容,通常需要反复输入关键词组合多次进行搜索,才能找到其所需要内容网页。
由于本发明为每个搜索结果网页自动搜索相似内容网页,因此,如附图1所示,在用户输入关键词后,不仅列出包含搜索词的网页,同时为每个搜索出的网页,再自动进行相似内容网页搜索,并按内容差异度由小到大显示标题和内容摘要,将现有技术搜索结果显示包含相同关键词、但内容不同的孤立记录“信息条”,变成了显示相似内容网页聚类“信息群”,因此,用户可以通过相似内容网页聚类“信息群”,看到多条相似内容记录、有较多的参考信息来确定其搜索范围,更容易作出判断、直接点击链接,而不必再反复输入关键词进行试验来确定搜索范围。
2、搜索引擎主动理解用户搜索意图,自动抽取搜索关键词组,主动进行相似内容网页搜索;
搜索引擎能够准确帮助用户找到需要信息的前提是,正确理解用户想搜索什么?现有技术搜索引擎理解用户搜索意图的唯一途径是用户输入的关键词,而通常用户并不清楚,用哪些关键词可以找到其想要的内容,因此,需要在搜索引擎上反复输入关键词进行观察、筛选来确定搜索范围。
搜索关键词是对搜索内容的高度概括,尤其对于小信息量的网页,可用有限的关键词进行高度概括。但对于大多数使用搜索引擎的普通人来说,搜索并非是思量很久的事情,只是临时查找信息而已,不容易在短时间内抽取对搜索内容高度概括的关键词,并且,用户事先也不能确定具体什么内容的网页是其要查找的信息,不可能高度概括出合适的搜索关键词组。
由于本法明已为每个网页选择了m个权重最大的词为网页内容高度概括词组,因此,如附图2所示,当用户在搜索结果中点击某个网页时,系统自动将m个权重最大的词作为用户输入的关键词,主动进行智能化搜索和搜索结果自动推送,无需用户再盲目输入关键词进行搜索,搜索范围会更小,搜索结果的内容会更加统一。
3、相似内容自动搜索、信息过滤与智能推送;
现有技术搜索引擎只能通过用户输入关键词来被动地进行搜索和信息过滤,不能进行主动搜索和信息过滤,更不能自动进行相似内容网页主动推送,当用户选择某个网页浏览后,如果要再浏览其它相似内容网页,必须再返回数量众多、内容不相同的搜索结果中进行人工观察和查找。
虽然百度等搜索引擎也可以进行相似标题内容推荐,但仅限于其自己网站内的知道、文库等栏目,不能对搜索结果中的其它外站的链接进行内容推荐。
由于本发明采用的自动搜索与信息推送方法,因此,如附图2所示,当用户点击搜索结果链接网页时,可自动搜索与推送与本网页相似内容的网页,并随用户浏览自动跟踪用户关注内容的变化来搜索相似内容网页,连续不断地自动进行关键词提取,主动进行搜索、信息过滤和智能推送,减少了用户人工筛选网页的工作量,用户更容易找到关注内容网页,提高了搜索引擎的自动化、智能化水平。
4、非排他性相似内容聚类,可进行多重索引;
虽然本发明的网页内容差异度Dif(k,i)计算,类似于现有技术的文本聚类,但又有所不同。因为,现有技术的文本聚类是将网页分成若干类,具有排他性,即,如果某个网页Pi属于A类,就一定不属于其它类,这对网页内容相似性计算并不适合。因为,就网页内容相似性而言,Pi网页即可以与网页A相似、也可以与其它网页相似,只是相似度不同而已,需要建立多重索引,如果采用现有技术的文本聚类计算,将不能进行多重索引。
由于本发明为每个网页建立相似内容索引,相似计算不同于现有技术的排他性文本聚类,某个网页Pi的内容即可以与网页A相似,也可以与其它网页相似,因此,消除了现有技术文本聚类在智能搜索引擎中应用的缺陷。
5、可控制的链接网页显示,实现了自动跟踪用户关注内容、智能化主动搜索与推送机制;
现有技术搜索引擎如果用户在搜索结果中选择浏览不是搜索网站内的网页,浏览器跳转链接网页后不能控制链接网页的显示,因此,不能实现本发明所实现的用自动跟踪户关注内容、智能化主动搜索与推送机制。
由于本发明当用户点击某个搜索结果链接时,不直接链接网页进行显示,而是显示一个搜索引擎自己创建的页面Show-Page,该页面分成两个部分,其中一部分用来显示与搜索结果链接网页相似内容网页的标题和内容摘要列表,另外一部分中里面显示搜索结果链接网页的内容。因此,浏览器的显示仍受控于搜索引擎,所以,用本发明所构建的搜索引擎,可以自动跟踪用户浏览内容的变化,实现智能化主动搜索与推送机制。
6、相似度数学描述简洁,计算简单、快速;
现有技术采用空间向量“距离法”、“余弦夹角法”、“支持向量机”等算法来计算文本相似度,不仅计算量大,而且对内容相似性的数学描述也不够简洁。
本发明采用“最大熵和”来抽取网页内容,前m个权重最大的词包含了网页内容最重要的信息;用“最小熵差”来计算内容差异度;当两个网页交集为空
Figure BDA0000467916690000071
时,直接判定网页Pk与网页Pi的内容不相似;当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异是重复网页,不再进行其它计算。因此,本发明的网页内容相似性数学描述更加简洁,相似度计算简单、快速。
7、导航网页与无效文本过滤;
使用现有技术搜索,会遇到搜索到网页中包含关键词,但在网页中没有具体内容,具体内容在包含关键词文本的链接网页中,存在无效搜索和搜索噪声问题。
由于本发明采用了“导航网页与无效文本过滤”,因此,克服了现有技术搜索引擎存在的无效搜索缺陷。
8、站内无触发相似内容网页自动搜索;
由于本发明在应用于站内搜索时,采用在站内网页链接中加入跳转连接代码,因此,本发明可以实现“站内无触发相似内容网页自动搜索”,现有技术搜索引擎不能实现相同的功能。
附图说明
图1、为本发明的一个可选的搜索结果显示方案网页。
图2、为本发明的一个可选的自动搜索与信息推送方案网页之一。
图3、为本发明的一个可选的自动搜索与信息推送方案网页之二。
图4、为本发明的一个可选的自动搜索与信息推送方案网页之三。
具体实施方式
结合附图1-4对本发明进一步详细介绍。
一种网页内容相似度计算方法,利用蜘蛛程序爬取网页、分词;
(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj,Wj=TF/Dt
(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为所爬取的网页数,m≥2,1≤j≤m;
(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;
(4)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空
Figure BDA0000467916690000086
时,直接判定两网页内容不相似,结束计算;
(5)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空
Figure BDA0000467916690000087
计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重Wj之差的绝对值的和为内容差异度
Figure BDA0000467916690000081
其中为交集PWk∩i中的第j个词在PWi中的词权重Wj为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;
(6)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,结束计算;
(7)当Dif(k,i)≠0、f≠m时,
Figure BDA0000467916690000084
其中PWi-k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集 PW i - k = PW i - PW k ( χ ∈ PW i | χ ∉ PW k ) , Σ j = 1 t PW i - k j 为相对补集PWi-k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为相对补集PWi-k中的元素数量。
所述的内容差异度Dif(k,i)计算方法,还可以考虑交集中的词数量f与代表词组PWi中的词数量m对内容差异度Dif(k,i)的影响,方法为:
(1)如果交集不为空
Figure BDA0000467916690000089
计算完Dif(k,i)后,当Dif(k,i)≠0、f≠m时,乘以惩罚函数(1-f/m),Dif(k,i)=Dis(k,i)×(1-f/m),以此来体现交集PWk∩i中元素数f越少、Dif(k,i)内容差异度越大;
(2)如果交集不为空
Figure BDA00004679166900000810
计算完内容差异度Dif(k,i)后,当Dif(k,i)≠0、f=m时,内容差异度Dif(k,i)不乘以惩罚函数(1-f/m),而是乘以一个系数r,Dif(k,i)=Dis(k,i)×r,r是一个0<r<0.1之间的小数;
一种基于内容相似度计算的自动搜索引擎构建方法,通过蜘蛛程序爬取网页、分词、建立词索引,按用户输入关键词进行搜索,显示包含关键词网页的标题和摘要,在此基础上,为爬取的每个网页建立相似内容索引、提供智能化主动搜索机制:
(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj=TF/Dt
(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为网页数,m≥2,1≤j≤m;
(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;
(4)用内容差异度Dif(k,i)为每个网页Pi建立其它网页Pk对本网页Pi的相似内容索引Sim-Index;
(5)搜索方法为,用户输入关键词进行搜索时,先在词索引中搜索包含关键词的网页,然后为每个搜索出的网页在Sim-Index中搜索相似内容网页;
(6)搜索结果显示方法为,在现有技术搜索结果显示方法基础上,为每个搜索出包含关键词的网页Pi,显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要;
(7)自动搜索与信息推送方法为,当用户输入关键词搜索后,在搜索结果中选择链接网页Pi时,在Sim-Index中搜索网页Pi的相似内容网页,在显示网页Pi时,推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题,继续重复上述“在搜索结果中选择链接网页Pi时”以后的过程。
所述的分词、计算词权重Wj、建立词索引、选择代表词组PWi和相似内容索引Sim-Index要进行判断:
(1)对没有具体内容全部为链接标题所组成的导航网页不进行分词、不计算词权重Wj、不建立词索引、不选择代表词组PWi,不参与相似内容索引Sim-Index;
(2)对非导航网页中链接标题中出现的文本,不进行分词、不计算词权重Wj、不建立词索引、不选择代表词组PWi
所述的内容差异度Dif(k,i)计算方法为:
(1)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空
Figure BDA0000467916690000106
时,直接判定两网页内容不相似,网页Pk不加入到网页Pi的Sim-Index中,结束计算;
(2)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空
Figure BDA0000467916690000107
计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重Wj之差的绝对值的和为内容差异度
Figure BDA0000467916690000101
其中
Figure BDA0000467916690000102
为交集PWk∩i中的第j个词在PWi中的词权重Wj
Figure BDA0000467916690000103
为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;
(3)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,将网页Pk加入到网页Pi的Sim-Index中,结束计算;
(4)当f≠m、Dif(k,i)≠0时,
Figure BDA0000467916690000104
其中PWi-k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集 PW i - k = PW i - PW k ( χ ∈ PW i | χ ∉ PW k ) , Σ j = 1 t PW i - k j 为相对补集PWi-k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为相对补集PWi-k中的元素数量。
所述的内容差异度Dif(k,i)计算方法,还可以考虑交集中元素数量f与代表词组PWi中的词数量m对内容差异度Dif(k,i)的影响,方法为:
(1)如果交集不为空
Figure BDA0000467916690000109
计算完Dif(k,i)后,当Dif(k,i)≠0、f≠m时,乘以惩罚函数(1-f/m),Dif(k,i)=Dis(k,i)×(1-f/m),以此来体现交集PWk∩i中元素数f越少、内容差异度Dif(k,i)越大;
(2)如果交集不为空
Figure BDA00004679166900001010
计算完Dif(k,i)后,当Dif(k,i)≠0、f=m时,Dif(k,i)不乘以惩罚函数(1-f/m),而是乘以一个系数r,Dif(k,i)=Dis(k,i)×r,r是一个0<r<0.1之间的小数。
所述的自动搜索与信息推送方法:
(1)当用户输入关键词进行搜索后,在搜索结果中选择链接网页时,不直接链接该网页进行显示,而是搜索引擎自己创建一个显示页面Show-Page,在Show-Page中显示搜索结果链接网页;
(2)Show-Page由两个独立部分组成,一部分为“搜索结果链接网页显示窗口”,用于显示用户输入关键词搜索后、在搜索结果中选择的链接网页,另一部分为“推送信息窗口”,用于显示相似内容网页推送信息;
(3)当关闭“搜索结果链接网页显示窗口”时,“推送信息窗口”自动随之关闭;
自动搜索与信息推送方法,其中所述的“搜索结果链接网页显示窗口”的构建方法为:在Show-Page中有一个内联框架,在内联框架中显示用户输入关键词搜索出若干搜索结果后、在搜索结果中选择的链接网页。
所述“推送信息窗口”展示与用户交互方法为:
(1)“推送信息窗口”为Show-Page上的一个弹出窗口,里面显示“相似内容网页列表”,列表中的内容为若干条按内容差异度Dif(k,i)值由小到大排序的、在Sim-Index中为用户选择搜索结果链接网页Pi搜索出的相似内容网页的标题和摘要;
(2)用户点击“相似内容网页列表中”的标题,重复“推送信息窗口”构建和显示过程;
(3)“信息推送窗口”为浮动窗口,可以被拖拽移动、隐藏、展开。
所述的自动搜索与信息推送方法,对于站内搜索:
(1)在每个网页链接请求中加一段代码,目的是向搜索引擎发送本网页的链接请求,使请求跳转到搜索引擎而不直接链接本网页进行显示;
(2)当用户点击网页时,请求跳转到搜索引擎,搜索引擎根据上述网页链接请求中所加的代码,确定网页并在Sim-Index中搜索相似内容网页,搜索引擎自己创建一个显示页面Show-Page,Show-Page由两个独立部分组成,一部分为用内联框架创建的“网页显示窗口”,用来显示本网页,另一部分为“推送信息窗口”,用来推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题,按“推送信息窗口”方法处理。
实施例
一、系统建设方法:
步骤一、过滤导航网页及非导航网中的无效文本;
用现有技术实现蜘蛛程序爬取网页,在爬取网页过程中,过滤导航网页及非导航网中的无效文本。具体方法如下:
1、过滤导航网页;
所谓导航网页为:没有具体内容、全部为标题链接所组成的网页,如:搜狐、新浪等门户网站的首页及各频道的首页等。Internet上很多网站的首页都是导航网页,在这些网页中,没有具体内容,全部是标题链接。
如果对导航网页进行分词、计算词权重Wj、建立词索引、选择代表词组和计算内容差异度,不仅浪费计算资源,而且对搜索也是噪声。因为,通过关键词搜索到导航网页,虽然里面包含搜索关键词,但看不到具体内容,具体内容在链接网页中,需要再点击链接、方可看到具体内容,而具体内容网页已经被蜘蛛程序爬取到,也会被关键词搜索出来。
如果判断网页全部为诸如<a href=URL>等之类的链接标记所组成的导航网页,不进行分词、不计算词权重Wj、不建立词索引,不选取代表词组、不进行相似度计算。
2、过滤非导航网页中的无效文本;
所谓无效文本包括:链接标题文本、广告链接文本、相关索引标题等,在这些文本中只有一行链接标题,没有具体内容。导航网页中的文本全部都是无效文本,在非导航网页中也有很多文本不是正文而是链接标题,没有具体内容,点击后再跳转到相应的链接网页。如果对这些文本进行分词、建立词索引、计算词权重Wj、选择代表词组、计算内容差异度,不仅浪费计算资源,而且对用户搜索也是噪声。因为,虽然无效文本中包含搜索关键词,但看不到具体内容,具体内容在链接网页中,需要点击链接方可看到,而具体内容网页已经被蜘蛛程序爬取到,也会被输入关键词搜索出来。
对于非导航网页中诸如<a href=URL>等之类的链接中出现的文本,不进行分词、不计算词权重Wj、不建立词索引,其中的词也不能被选为代表词组PWi中的词。
步骤二、为网页选取代表词组;
完成过滤导航网页及非导航网页中无效文本后,用现有技术进行分词、建立词索引,在此基础上,为每个网页建立相似内容索引Sim-Index。首先,为每个网页选取代表词组,具体方法如下:
1、用现有技术对每个网页Pi(1≤i≤n,n为网页数)进行分词,剔除停用词(介词、形容词、副词等无区分意义的词);
2、计算词权重Wj,用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj,Wj=TF/Dt,其中:
TF = T i j / n i ,
Figure BDA0000467916690000122
为所爬取网页中第i个网页中的第j个词出现次数,
ni为第i个网页中的总词数,
Dt为所有爬取网页中出现过该词的网页数,
词权重Wj为: W j = TF / D t = ( T i j / n i ) / D t .
例如:爬取网页中第i个网页的总词数ni=100,“奶粉”出现了3次那么“奶粉”一词在该网页中的
词频数 TF = T i j / n i = 3 / 100 = 0.03 ,
如果所爬取网页中有1000个网页中出现过“奶粉”一词,Di=1000,
词权重 W j = TF / D t = ( T i j / n i ) / D t = 0.003 / 1000 .
3、选取前m个词权重Wj(1≤j≤m)最大的词为网页代表词组PWi(1≤i≤n,n为网页数),其中m≥2,可根据应用环境设置合适的m值。
例如,假设通过分词得到网页Pi有6个词:
{“AA”,“BB”,“CC”,“DD”,“EE”,“FF”},
通过计算每个词的词权重 W i j = ( T i j / n i ) / D t , ( 1 &le; j &le; 6 ) 得:
W i 1 = 0.3 , W i 2 = 0.15 , W i 3 = 0.1 , W i 4 = 0.2 , W i 5 = 0.4 , W i 6 = 0 . 11 .
设,m=3,选择前3个词权重Wj最大的词为代表词组:
PW i = { W i 5 = 0.4 , W i 1 = 0.3 , W i 4 = 0.2 } .
步骤三、计算内容差异度Dif(k,i);
用每个网页Pi的代表词组PWi,计算其它网页Pk(k≠i,1≤k≤n)的代表词组PWk对本网页差异度Dif(k,i)为网页内容差异度。
可采用任何方法来计算内容差异度Dif(k,i),如:采用向量空间距离法,Dif(k,i)的值越小、表示网页Pk与网页Pi的内容差异度越小;如:采用余弦夹角法,Dif(k,i)的值越大、表示网页Pk与网页Pi的相似度度越大等。
本发明采用“最大熵和”、“最小熵差”来计算网页内容差异度Dif(k,i)。
所谓“最大熵和”为:信息论中的“熵”是反映事物不确定性的度量单位,“熵”的大小代表了事物复杂程度的信息量,词权重Wj=TF/Dt反映了词在网页及全体样本中的“熵”。本发明选择前m个词权重Wj最大的词为网页代表词组,来代表网页内容的“最大熵和”。
所谓“最小熵差”为:用交集中的词在两个网页代表词组中的词权重Wj之差的绝对值、加上相对补集中词权重Wj之和为两个网页的“熵差”,以此作为内容差异度Dif(k,i),“最小熵差”Dif(k,i)=0,表示网页内容没有差异。其数学意义为:两个网页“最大熵和”之差Dif(k,i)的值越小,说明熵越接近、内容也越接近,当Dif(k,i)=0表示网页内容没有差异;当交集为空时,内容差异为无限大Dif(k,i)=∞,表示内容完全不相似。
具体计算方法如下:
1、求两网页代表词组的交集;
求两个网页代表词组PWk与PWi的交集PWk∩i=PWk∩PWi,当交集为空
Figure BDA0000467916690000134
时,直接判定两网页内容不相似,网页Pk不加入到网页Pi的相似内容索引Sim-Index中,结束计算。
例如:设m=3,Pi与Pk的代表词组分别为:
PWi={“AA”,“BB”,“CC”},
PWk={“DD”,“EE”,“FF”},
Figure BDA0000467916690000135
交集为空,
直接判定网页Pk与网页Pi的内容不相似,网页Pk不加入到网页Pi的Sim-Index中,结束计算,否则往下进行其它计算。
2、计算交集中的词,在两个网页组代表词组中词权重Wj之差的和;
如果交集PWk∩i不为空需要计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中“词权重Wj”之差的绝对值的和,
Dif ( k , i ) = &Sigma; j = 1 f | W k j - W i j | ,
其中
Figure BDA0000467916690000142
为交集PWk∩i中的第j个词在PWi中的词权重Wj
Figure BDA0000467916690000143
为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量。
例如:设,m=3,假设Pi与Pk的代表词组分别为:
PWi={“AA”,“BB”,“CC”},
PWk={“BB”,“CC”,“FF”},
交集中的元素数量f=2,
设,词“BB”在PWi中的词权重Wj值为0.3、在PWk中的词权重Wj值为0.2;词“CC”在PWi中的词权重Wj值为0.1、在PWk中的词权重Wj值为0.4,
Dif ( k , i ) = &Sigma; j = 1 2 | W k j - W i j | = | 0.2 - 0.3 | + | 0.4 - 0.1 | = 0.4 .
3、判断Dif(k,i)=0否?f=m否?
当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,将网页Pk加入到网页Pi的Sim-Index中,停止计算,不再进行后续计算。
例如,设m=3,假设网页Pi与Pk的代表词组分别为:
PWi={“AA”,“BB”,“CC”},
PWk={“AA”,“BB”,“CC”},
PWi∩k=PWi∩PWk={“AA”,“BB”,“CC”},
PWi∩k中的元素数量f=m=3,
设,词“AA”、“BB”、“CC”在PWi和PWk中的词权重Wj值都相等,
则, Dif ( k , i ) = &Sigma; j = 1 3 | W k j - W i j | = 0 .
因为,Dif(k,i)=0、f=m=3,所以,判定网页Pi与Pk的内容没有差异,将网页Pk加入到网页Pi的Sim-Index中,结束计算,不再进行后续计算。
4、计算相对补集中词权重Wj之和;
如果仅考虑交集PWk∩i中的词在两个代表词组中的词权重Wj之差的绝对值和,则PWk∩i中的元素数量f越少、内容差异度Dif(k,i)值也会越小,这背离了本发明“最大熵和”、“最小熵差”设计思想。实际上,存在于网页代表词组PWi中、但不在交集PWk∩i中的词,相当于该词在网页代表词组PWk中的词权重Wj为0,是代表词组PWk在代表词组PWi中的相对补集,而补集中的词越多、内容差异度Dif(k,i)的值就越大、网页内容也越不相似,符合本发明“最大熵和”、“最小熵差”设计思想。为此,将补集中的词权重Wj加入到差异度Dif(k,i)计算模型中。具体计算方法为:
如果Dif(k,i)≠0且f≠m,继续计算,
Dis ( k , i ) = Dis ( k , i ) + &Sigma; j = 1 t P W i - k j ,
其中PWi-k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集 PW i - k = PW i - PW k ( &chi; &Element; PW i | &chi; &NotElement; PW k ) , &Sigma; j = 1 t PW i - k j 为相对补集PWi-k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为补集PWi-k中的元素数量。
因此,内容差异度Dif(k,i)计算公式为:
Dif ( k , i ) = &Sigma; j = 1 f | W k j - W i j | + &Sigma; j = 1 t PW i - k j .
例如:
设,m=4,假设Pi与Pk的代表词组分别为:
PWi={“AA”,“BB”,“CC”,“DD”},
PWk={“BB”,“CC”,“FF”,“EE”},
Figure BDA0000467916690000158
网页Pk代表词组PWk在网页Pi代表词组PWi中的相对补集为:
PW i - k = PW i - PW k ( &chi; &Element; PW i | &chi; &NotElement; PW k ) = { ' AA ' , ' DD ' } ,
交集PWi∩k中的元素数量f=2≠m,
相对补集PWi-k中的元素数量t=2,
设,词“AA”在PWi中的词权重Wj为0.12、词“DD”在PWi中的词权重Wj为0.1,
则, &Sigma; j = 1 t PW i - k j = &Sigma; j = 1 2 PW i - k j = 0.12 + 0.1 = 0.22 ;
假设,交集PWi∩k中的词权重Wj之差的绝对值和为:
Figure BDA0000467916690000155
则, Dis ( k , i ) = 0.4 + &Sigma; j = 1 t P W i - k j ;
Dis(k,i)=0.4+0.22=0.62。
5、如果Dis(k,i)≠0且f≠m;
为体现交集中元素数量f与网页代表词组PWi中的词数量m对内容差异度Dif(k,i)的影响,还可以进行如下计算:
当Dis(k,i)≠0且f≠m时,Dif(k,i)=Dis(k,i)×(1-f/m)。其中(1-f/m)为惩罚函数,其目的为体现交集PWi∩k中的元素越少(f值越小)、两个网页的内容差异度Dif(k,i)越大。
例如:
设,Dis(k,i)=0.4,f=2,m=3,
则,Dif(k,i)=Dis(k,i)×(1-f/m)=0.4×(1-2/3)。
6、如果Dis(k,i)≠0且f=m;
当Dis(k,i)≠0、f=m时,说明两个网页代表词组中的词全部相同,但由于词权重Wj不同导致Dis(k,i)≠0。在此情况下,如果Dis(k,i)再乘以惩罚函数(1-f/m),由于f=m,(1-f/m)=(1-1)=0,将导致Dis(k,i)×0=0。
为防止出现Dis(k,i)×0=0,保证Dis(k,i)≠0的值不被忽略,当Dis(k,i)≠0、f=m时,Dif(k,i)不再乘以惩罚函数(1-f/m),而是乘以一个系数r。
通常r是一个0<r<0.1之间足够小的小数,使之能够保证当f=m时,Dif(k,i)的值要小于当f<m时Dif(k,i)的值。
例如:
设,Dis(k,i)=0.4,f=3,m=3,
因为,Dis(k,i)=0.4≠0,f=m=3,
所以,Dif(k,i)不再乘以惩罚函数(1-f/m),
设r=0.01,
则,Dif(k,i)=Dis(k,i)×r=0.4×0.01。
步骤四、按内容差异度Dif(k,i)建立索引;
计算完所有n个网页Pi(1≤i≤n)的其它网页Pk(k≠i,1≤k≤n)对本网页的内容差异度Dif(k,i)后,用内容差异度Dif(k,i)为每个网页Pi,建立其它网页Pk对本网页Pi的内容相似度索引Sim-Index。
二、搜索与搜索结果显示方法:
1、搜索方法;
当用户在搜索引擎上输入关键词进行搜索时,先在词索引中搜索包含关键词的网页,然后为每个搜索出包含关键词的网页,在Sim-Index中搜索相似内容网页。
2、搜索结果显示方法;
在现有技术搜索结果显示方法基础上,在显示搜索出包含关键词的网页Pi的标题和摘要的同时,为每个搜索出包含关键词的网页Pi,显示一组按Dif(k,i)值索引由小到大排序的相似内容网页的标题和摘要。
如图1所示,在搜索引擎上输入“智能电视”后,先在词索引中搜索出若干条包含“智能电视”的网页Pi,在每个网页Pi的下面,都有2条(也可以更多条)从相似内容索引Sim-Index中搜索出的相似内容网页,按Dif(k,i)值索引由小到大进行排序显示的标题和摘要。
应该理解附图1只是一个可选的搜索结果显示方案,但不限于此显示方案,还可以使用其它方法来达到上述技术方案目的。
三、自动搜索与信息推送方法;
当用户输入关键词进行搜索后,在搜索结果中选择网页Pi时,在Sim-Index中搜索Pi的相似内容网页,在显示网页Pi时,推送显示一组按Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题继续此过程,具体方法为:
1、Show-Page创建方法;
当用户输入关键词进行搜索后,在搜索结果中选择网页Pi时,不直接链接该网页进行显示,而是搜索引擎自己创建一个网页Show-Page,例如,可使用HTML标记语言DIV将Show-Page分成两个独立部分:其一部分为“推送信息窗口”,另一部分是“搜索链接网页显示窗口”。例如,可采用下列代码片段来实现:
<!DOCTYPE HTML PUBLIC"-//W3C//DTD HTML4.01Transitional//EN">
<html>
<head>
<title></title>
</head>
<body>
<div id="draggable">
//此处为弹出“推送信息窗口”
</div>
<div id="bgurl">
//下面的代码在页面中添加一个框架iframe,里面显示具体的URL为“搜索链接网页显示窗口”
<iframe style=\"width:100%;height:100%;border:solid0px#ccc;\"SCROLLING=\"auto\"
src='http://energy.people.com.cn/n/2014/0110/c71661-24079224.html'></iframe>
</div>
</body>
</html>
应该理解上述代码片段不是一种限定,仅是一种可选的实施方法,还可以使用其它编程方法来达到上述目的。
2、“搜索结果链接网页显示窗口”创建与显示方法;
如上述代码片段,在Show-Page中用iframe创建一个内联框架,里面放置当用户输入关键词进行搜索后,在搜索结果中选择链接网页Pi的URL,在内联框架内显示Pi,该区域为“搜索结果链接网页显示窗口”。
3、“推送信息窗口”创建方法;
如上述代码片段,在Show-Page上弹出窗口为“信息推送窗口”,里面显示“相似内容网页列表”,列表中的内容为若干条按内容差异度Dif(k,i)值由小到大排序的、在Sim-Index中为搜索结果链接网页搜索出的相似内容网页的标题和摘要。
如附图1所示,用户在搜索上输入“智能电视”后,得出若干条搜索结果记录。用户在搜索结果中选择第1条记录为“2013中国智能电视产业白皮书”,显示结果如附图2所示,为搜索引擎创建的Show-Page网页,而不是直接链接搜索结果网页,在Show-Page上面浮动的窗口为“推送信息窗口”,显示“相似内容网页列表”,列表中有3条自动搜索出的相似内容网页:“了解就能为你省钱智能…”、“家里就有好老师47吋…”、“谁说智能就奢侈大尺寸…”,浮动窗口的后面是“搜索链接网页显示窗口”,显示链接网页“2013中国智能电视产业白皮书”,
用户点击“推送信息窗口”中“相似内容网页列表”中的标题,浏览相似内容网页,继续重复上述过程。如附图2所示,用户在“推送信息窗口”点击“了解就能为你省钱智能…”,显示附图4。
4、窗口关闭方法;
“推送信息窗口”是“搜索结果链接网页显示窗口”上弹出的子窗口,当关闭“搜索结果链接网页显示窗口”时,“推送信息窗口”自动随之关闭。
这样设计的有益效果为:因为每个“推送信息窗口”都是“搜索结果链接网页显示窗口”显示网页对应的相似内容网页推送信息,如果关闭“搜索结果链接网页显示窗口”而不关闭“推送信息窗口”,将留下大量没有对应关系的“推送信息窗口”,会干扰用户后续浏览。
5、息推送窗口操作方法;
“信息推送窗口”为一个弹出的、独立的浮动显示窗口,可进行如下操作:
如附图2所示,点击“信息推送窗口”中的“隐藏”,“信息推送窗口”被隐藏到网页的左边,显示为“相似内容网页”;
如附图3所示,点击“相似内容网页”展开“信息推送窗口”;
如附图2所示,“信息推送窗口”为浮动窗口,用鼠标左键按住“信息推送窗口”上面的“移动图标”,可拖拽移动“信息推送窗口”;
如附图4所示,用户在附图2“信息推送窗口”上点击“了解就能为你省钱智能…”显示效果附图4。
应该理解上述只是一个可选的相似内容网页推送显示方案,但不限于此显示方案,上述自动搜索与信息推送方法不是一种限定,仅是一种可选的实施方案,还可以使用其它编程方法来达到上述目的。
四、对于站内搜索,相似内容网页自动搜索与信息推送方法;
对于站内搜索,可进行无触发相似内容网页自动搜索,即,在用户没有向搜索引擎提出搜索请求的情况下,只要某个网页被用户点击显示,该网页的链接将自动触发相似内容网页搜索,具体实现方法为:
1、在每个网页链接请求中加一段代码;
在每个网页链接请求中加入一段代码,例如:
原链接为:
<a
href="http://politics.people.com.cn/n/2014/0131/c1001-24269594.html"target='_blank'>假日办春节期间上班:平时不上班法定节日才上班</a>,
加入代码后的链接为:
<a
href="http://www.bi-c.net/lu_test/jump_same.jsp?keys=http://politics.people.com.cn/n/2014/0131/c1001-24269594.html"
target='_blank'>假日办春节期间上班:平时不上班法定节日才上班</a>
其中前面所加的代码:
“http://www.bi-c.net/lu_test/jump_same.jsp?keys”
为搜索引擎地址,后面的代码还是原链接代码。
加上述代码目的是:向搜索引擎发送本网页的链接请求,使请求跳转到搜索引擎、并嵌入到搜索引擎创建的Show-Page中进行显示,而不直接显示链接网页。
2、网页显示;
当用户点击网页时,请求跳转到搜索引擎,搜索引擎根据上述网页链接请求中所加的代码,确定网页并在Sim-Index中搜索相似内容网页,搜索引擎自己创建一个显示页面Show-Page,Show-Page由两个独立部分组成,一部分为用内联框架创建的“网页显示窗口”,用来显示本网页,另一部分为“推送信息窗口”,用于显示相似内容网页推送信息,如附图2所示,在显示网页时推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题,按“推送信息窗口”方法处理。
其有意效果为:只要用户点击网页浏览,就自动触发了相似内容网页搜索,相当于自动向搜索引擎提出对该网页进行相似内容网页搜索请求,实现了用户没有在搜索引擎上进行操作情况下,进行无触发相似内容网页自动搜索。
应该理解上述加入的代码不是一种限定,仅是一种可选的实施方法,还可以使用其它编程方法来达到上述目的。

Claims (10)

1.一种网页内容相似度计算方法,利用蜘蛛程序爬取网页、分词,其特征在于:
(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj,Wj=TF/Dt
(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为所爬取的网页数,m≥2,1≤j≤m;
(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;
(4)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空
Figure FDA0000467916680000011
时,直接判定两网页内容不相似,结束计算;
(5)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空
Figure FDA0000467916680000012
计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重Wj之差的绝对值的和为内容差异度
Figure FDA0000467916680000013
其中
Figure FDA0000467916680000014
为交集PWk∩i中的第j个词在PWi中的词权重Wj
Figure FDA0000467916680000015
为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;
(6)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,结束计算;
(7)当Dif(k,i)≠0、f≠m时,
Figure FDA0000467916680000016
其中PWi-k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集 PW i - k = PW i - PW k ( &chi; &Element; PW i | &chi; &NotElement; PW k ) , &Sigma; j = 1 t PW i - k j 为相对补集PWi-k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为相对补集PWi-k中的元素数量。
2.权利要求1中所述的一种网页内容相似度计算方法,其特征在于:所述的内容差异度Dif(k,i)计算方法,还可以考虑交集中的词数量f与代表词组PWi中的词数量m对内容差异度Dif(k,i)的影响,方法为:
(1)如果交集不为空
Figure FDA0000467916680000022
计算完Dif(k,i)后,当Dif(k,i)≠0、f≠m时,乘以惩罚函数(1-f/m),Dif(k,i)=Dis(k,i)×(1-f/m),以此来体现交集PWk∩i中元素数f越少、Dif(k,i)内容差异度越大;
(2)如果交集不为空
Figure FDA0000467916680000021
计算完内容差异度Dif(k,i)后,当Dif(k,i)≠0、f=m时,内容差异度Dif(k,i)不乘以惩罚函数(1-f/m),而是乘以一个系数r,Dif(k,i)=Dis(k,i)×r,r是一个0<r<0.1之间的小数。
3.一种基于内容相似度计算的自动搜索引擎构建方法,通过蜘蛛程序爬取网页、分词、建立词索引,按用户输入关键词进行搜索,显示包含关键词网页的标题和摘要,在此基础上,为爬取的每个网页建立相似内容索引、提供智能化主动搜索机制,其特征在于:
(1)用词频数TF除以所有爬取网页中包含该词的网页数Dt为词权重Wj=TF/Dt
(2)从每个网页Pi的标题和正文中,选出前m个词权重Wj最大的词,作为每个网页Pi的代表词组PWi,其中1≤i≤n,n为网页数,m≥2,1≤j≤m;
(3)计算每个网页Pi的代表词组PWi与其它网页Pk代表词组PWk之间的差异度Dif(k,i)为网页内容差异度,其中k≠i,1≤k≤n;
(4)用内容差异度Dif(k,i)为每个网页Pi建立其它网页Pk对本网页Pi的相似内容索引Sim-Index;
(5)搜索方法为,用户输入关键词进行搜索时,先在词索引中搜索包含关键词的网页,然后为每个搜索出的网页在Sim-Index中搜索相似内容网页;
(6)搜索结果显示方法为,在现有技术搜索结果显示方法基础上,为每个搜索出包含关键词的网页Pi,显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要;
(7)自动搜索与信息推送方法为,当用户输入关键词搜索后,在搜索结果中选择链接网页Pi时,在Sim-Index中搜索网页Pi的相似内容网页,在显示网页Pi时,推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题,继续重复上述“在搜索结果中选择链接网页Pi时”以后的过程。
4.按权利要求3所述的一种基于内容相似度计算的自动搜索引擎构建方法,其特征在于:所述的分词、计算词权重Wj、建立词索引、选择代表词组PWi和相似内容索引Sim-Index要进行判断:
(1)对没有具体内容全部为链接标题所组成的导航网页不进行分词、不计算词权重Wj、不建立词索引、不选择代表词组PWi,不参与相似内容索引Sim-Index;
(2)对非导航网页中链接标题中出现的文本,不进行分词、不计算词权重Wj、不建立词索引、不选择代表词组PWi
5.按权利要求3所述的一种基于内容相似度计算的自动搜索引擎构建方法,其特征在于:所述的内容差异度Dif(k,i)计算方法为:
(1)在计算两个网页Pi与Pk内容差异度Dif(k,i)之前,先求两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi,当交集为空
Figure FDA0000467916680000034
时,直接判定两网页内容不相似,网页Pk不加入到网页Pi的Sim-Index中,结束计算;
(2)如果两个网页代表词组PWi与PWk的交集PWk∩i=PWk∩PWi不为空
Figure FDA0000467916680000035
计算交集PWk∩i中的词在两个网页代表词组PWk与PWi中的词权重Wj之差的绝对值的和为内容差异度
Figure FDA0000467916680000031
其中
Figure FDA0000467916680000039
为交集PWk∩i中的第j个词在PWi中的词权重Wj为交集PWk∩i中的第j个词在PWk中的词权重Wj,f为交集PWk∩i中的元素数量;
(3)当Dif(k,i)=0且f=m时,直接判定两网页Pi与Pk的内容没有差异,将网页Pk加入到网页Pi的Sim-Index中,结束计算;
(4)当f≠m、Dif(k,i)≠0时,
Figure FDA0000467916680000032
其中PWi-k为网页Pk的代表词组PWk在网页Pi的代表词组PWi中的相对补集 PW i - k = PW i - PW k ( &chi; &Element; PW i | &chi; &NotElement; PW k ) , &Sigma; j = 1 t PW i - k j 为相对补集PWi-k中的词在网页Pi代表词组PWi中的词权重Wj之和,t为相对补集PWi-k中的元素数量。
6.按权利要求3所述的一种基于内容相似度计算的自动搜索引擎构建方法,其特征在于:所述的内容差异度Dif(k,i)计算方法,还可以考虑交集中元素数量f与代表词组PWi中的词数量m对内容差异度Dif(k,i)的影响,方法为:
(1)如果交集不为空
Figure FDA0000467916680000041
计算完Dif(k,i)后,当Dif(k,i)≠0、f≠m时,乘以惩罚函数(1-f/m),Dif(k,i)=Dis(k,i)×(1-f/m),以此来体现交集PWk∩i中元素数f越少、内容差异度Dif(k,i)越大;
(2)如果交集不为空
Figure FDA0000467916680000042
计算完Dif(k,i)后,当Dif(k,i)≠0、f=m时,Dif(k,i)不乘以惩罚函数(1-f/m),而是乘以一个系数r,Dif(k,i)=Dis(k,i)×r,r是一个0<r<0.1之间的小数。
7.按权利要求3所述的一种基于内容相似度计算的自动搜索引擎构建方法,其特征在于:所述的自动搜索与信息推送方法:
(1)当用户输入关键词进行搜索后,在搜索结果中选择链接网页时,不直接链接该网页进行显示,而是搜索引擎自己创建一个显示页面Show-Page,在Show-Page中显示搜索结果链接网页;
(2)Show-Page由两个独立部分组成,一部分为“搜索结果链接网页显示窗口”,用于显示用户输入关键词搜索后、在搜索结果中选择的链接网页,另一部分为“推送信息窗口”,用于显示相似内容网页推送信息;
(3)当关闭“搜索结果链接网页显示窗口”时,“推送信息窗口”自动随之关闭。
8.按权利要求7所述的一种基于内容相似度计算的自动搜索引擎构建方法,其特征在于:自动搜索与信息推送方法,其中所述的“搜索结果链接网页显示窗口”的构建方法为:在Show-Page中有一个内联框架,在内联框架中显示用户输入关键词搜索出若干搜索结果后、在搜索结果中选择的链接网页。
9.按权利要求7所述的一种基于内容相似度计算的自动搜索引擎构建方法,其特征在于:所述“推送信息窗口”展示与用户交互方法为:
(1)“推送信息窗口”为Show-Page上的一个弹出窗口,里面显示“相似内容网页列表”,列表中的内容为若干条按内容差异度Dif(k,i)值由小到大排序的、在Sim-Index中为用户选择搜索结果链接网页Pi搜索出的相似内容网页的标题和摘要;
(2)用户点击“相似内容网页列表中”的标题,重复“推送信息窗口”构建和显示过程;
(3)“信息推送窗口”为浮动窗口,可以被拖拽移动、隐藏、展开。
10.按权利要求3所述的一种基于内容相似度计算的自动搜索引擎构建方法,其特征在于:所述的自动搜索与信息推送方法,对于站内搜索:
(1)在每个网页链接请求中加一段代码,目的是向搜索引擎发送本网页的链接请求,使请求跳转到搜索引擎而不直接链接本网页进行显示;
(2)当用户点击网页时,请求跳转到搜索引擎,搜索引擎根据上述网页链接请求中所加的代码,确定网页并在Sim-Index中搜索相似内容网页,搜索引擎自己创建一个显示页面Show-Page,Show-Page由两个独立部分组成,一部分为用内联框架创建的“网页显示窗口”,用来显示本网页,另一部分为“推送信息窗口”,用来推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表,用户点击列表中的标题,按“推送信息窗口”方法处理。
CN201410059196.1A 2014-02-20 2014-02-20 一种基于内容相似度计算的自动搜索引擎构建方法 Active CN103793523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410059196.1A CN103793523B (zh) 2014-02-20 2014-02-20 一种基于内容相似度计算的自动搜索引擎构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410059196.1A CN103793523B (zh) 2014-02-20 2014-02-20 一种基于内容相似度计算的自动搜索引擎构建方法

Publications (2)

Publication Number Publication Date
CN103793523A true CN103793523A (zh) 2014-05-14
CN103793523B CN103793523B (zh) 2017-02-08

Family

ID=50669189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410059196.1A Active CN103793523B (zh) 2014-02-20 2014-02-20 一种基于内容相似度计算的自动搜索引擎构建方法

Country Status (1)

Country Link
CN (1) CN103793523B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930442A (zh) * 2016-04-19 2016-09-07 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统
CN106294861A (zh) * 2016-08-23 2017-01-04 武汉烽火普天信息技术有限公司 面向大规模数据的情报系统中文本聚合及展现方法及系统
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN109325230A (zh) * 2018-09-21 2019-02-12 广西师范大学 一种基于维基百科双向链接的词语语义相关度判断方法
CN110309403A (zh) * 2018-03-05 2019-10-08 百度在线网络技术(北京)有限公司 用于抓取数据的方法和装置
CN110390044A (zh) * 2019-06-11 2019-10-29 平安科技(深圳)有限公司 一种相似网络页面的搜索方法及设备
CN112464639A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种搜索文本折叠处理系统及其方法
CN114817521A (zh) * 2021-01-20 2022-07-29 华为技术有限公司 搜索方法和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065842A1 (en) * 2000-07-27 2002-05-30 Ibm System and media for simplifying web contents, and method thereof
CN103218358A (zh) * 2012-01-18 2013-07-24 百度在线网络技术(北京)有限公司 一种Diff打分方法以及系统
CN103365967A (zh) * 2013-06-21 2013-10-23 百度在线网络技术(北京)有限公司 一种基于爬虫的自动化差异检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065842A1 (en) * 2000-07-27 2002-05-30 Ibm System and media for simplifying web contents, and method thereof
CN103218358A (zh) * 2012-01-18 2013-07-24 百度在线网络技术(北京)有限公司 一种Diff打分方法以及系统
CN103365967A (zh) * 2013-06-21 2013-10-23 百度在线网络技术(北京)有限公司 一种基于爬虫的自动化差异检测方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107015961B (zh) * 2016-01-27 2021-06-25 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN105930442A (zh) * 2016-04-19 2016-09-07 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统
CN105930442B (zh) * 2016-04-19 2019-06-18 广州天趣网络科技有限公司 一种基于统计计算的网站搜索引擎优化方法及系统
CN106294861A (zh) * 2016-08-23 2017-01-04 武汉烽火普天信息技术有限公司 面向大规模数据的情报系统中文本聚合及展现方法及系统
CN106294861B (zh) * 2016-08-23 2019-08-09 武汉烽火普天信息技术有限公司 面向大规模数据的情报系统中文本聚合及展现方法及系统
CN110309403A (zh) * 2018-03-05 2019-10-08 百度在线网络技术(北京)有限公司 用于抓取数据的方法和装置
CN110309403B (zh) * 2018-03-05 2022-11-04 百度在线网络技术(北京)有限公司 用于抓取数据的方法和装置
CN109325230A (zh) * 2018-09-21 2019-02-12 广西师范大学 一种基于维基百科双向链接的词语语义相关度判断方法
WO2020248379A1 (zh) * 2019-06-11 2020-12-17 平安科技(深圳)有限公司 一种相似网络页面的搜索方法及设备
CN110390044A (zh) * 2019-06-11 2019-10-29 平安科技(深圳)有限公司 一种相似网络页面的搜索方法及设备
CN110390044B (zh) * 2019-06-11 2024-03-19 平安科技(深圳)有限公司 一种相似网络页面的搜索方法及设备
CN112464639A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种搜索文本折叠处理系统及其方法
CN114817521A (zh) * 2021-01-20 2022-07-29 华为技术有限公司 搜索方法和电子设备
CN114817521B (zh) * 2021-01-20 2024-05-14 华为技术有限公司 搜索方法和电子设备

Also Published As

Publication number Publication date
CN103793523B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103793523A (zh) 一种基于内容相似度计算的自动搜索引擎构建方法
JP6416150B2 (ja) 検索方法、検索システム及びコンピュータプログラム
CN102609433B (zh) 基于用户日志进行查询推荐的方法及系统
CN100476830C (zh) 一种网络资源检索方法及系统
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
Zhang Towards efficient and effective semantic table interpretation
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN103023714B (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN102831199A (zh) 建立兴趣模型的方法及装置
TWI695277B (zh) 自動化網站資料蒐集方法
CN102054004A (zh) 一种网页推荐方法和装置
CN103577566B (zh) 一种网页阅读内容加载方法和装置
CN104036038A (zh) 新闻推荐方法和系统
CN101802776A (zh) 应用语义向量和关键字分析关联数据集的方法和装置
CN102163213B (zh) 一种语音浏览方法及浏览器
CN103853831A (zh) 一种基于用户兴趣的个性化搜索实现方法
CN106354844B (zh) 基于文本挖掘的服务组合包推荐系统及方法
US20100211927A1 (en) Website design pattern modeling
CN102722501A (zh) 搜索引擎及其实现方法
CN102722499A (zh) 搜索引擎及其实现方法
CN105740460A (zh) 网页搜集推荐方法和装置
US20110029500A1 (en) System and method for floating index navigation
Della Penna et al. Visual extraction of information from web pages
Ganguly et al. Performance optimization of focused web crawling using content block segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant