CN103793523A

CN103793523A - 一种基于内容相似度计算的自动搜索引擎构建方法

Info

Publication number: CN103793523A
Application number: CN201410059196.1A
Authority: CN
Inventors: 刘峰
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-02-20
Filing date: 2014-02-20
Publication date: 2014-05-14
Anticipated expiration: 2034-02-20
Also published as: CN103793523B

Abstract

本发明公开了一种基于内容相似度计算的自动搜索引擎构建方法，本发明在现有技术搜索引擎基础上，采用“最大熵和”、“最小熵差”来计算网页内容差异度，为每个网页建立相似内容索引，搜索引擎可自动搜索相似内容网页。当用户输入关键词后，不仅搜索出包含关键词的网页，同时还为每个搜索出的网页，再自动搜索相似内容网页并进行聚类显示；当用户在搜索结果中点击链接浏览时，自动搜索相似内容网页并进行信息推送；自动跟踪用户浏览网页、搜索相似内容网页进行信息推送。用本发明构建的搜索引擎，实现了智能化主动搜索，使用户更容易找到相关内容网页，提高了搜索引擎的自动化、智能化水平。

Description

一种基于内容相似度计算的自动搜索引擎构建方法

技术领域

应用于文本相似度计算及各种信息搜索领域。

背景技术

现有技术搜索引擎如百度、Google等，只能被动地按用户输入关键词进行搜索，不能主动为每个搜索结果中的网页自动搜索相似内容网页，其缺陷主要体现在：

1、用户在搜索引擎上输入关键词后，虽然搜索出的网页包含关键词，但内容并不相同，没有相似内容聚类显示，用户需要在众多内容不同的搜索结果中仔细观察和筛选查找感兴趣信息，不方便用户确定选择搜索结果；

2、用户在搜索结果中找到感兴趣的网页后，如要继续查找相同内容网页，还需返回众多内容不同的搜索结果中，继续进行人工观察与筛选；

3、搜索引擎不能控制搜索到不在其站内网页的显示，当用户点击搜索结果的链接后，如果该网页不是搜索引擎站内的网页，浏览器的显示控制权将交给链接网页，因此，搜索引擎不能在链接网页上推送相似内容网页，不能继续跟踪用户浏览网页的内容变化而自动搜索相似内容网页。

4、没有考虑站内搜索相似内容网页的自动推送，不能实现站内相似内容网页无触发自动搜索与推送。

为解决上述问题，本发明在现有技术基础上，采用“最大熵和”、“最小熵差”来计算网页内容差异度，为每个网页建立相似内容索引Sim-Index，利用Sim-Index自动进行相似内容搜索；通过改进现有技术搜索结果链接显示方法，自动跟踪用户浏览网页内容的变化，主动搜索相似内容网页并进行信息推送；通过与站内网页结合，进行站内无触发自动搜索。实现了搜索引擎智能化主动搜索与信息推送，用户更容易找到关注内容网页，提高了搜索引擎的自动化、智能化水平。

发明内容

为解决现有技术存在的问题，本发明目的是提供了一种基于内容相似度计算的自动搜索引擎构建方法。

为实现本发明目的所采用的技术方案是：

一种网页内容相似度计算方法，利用蜘蛛程序爬取网页、分词；

（1）用词频数TF除以所有爬取网页中包含该词的网页数D_t为词权重W^j，W^j＝TF/D_t；

（2）从每个网页P_i的标题和正文中，选出前m个词权重W^j最大的词，作为每个网页P_i的代表词组PW_i，其中1≤i≤n，n为所爬取的网页数，m≥2，1≤j≤m；

（3）计算每个网页P_i的代表词组PW_i与其它网页P_k代表词组PW_k之间的差异度Dif(k,i)为网页内容差异度，其中k≠i，1≤k≤n；

（4）在计算两个网页P_i与P_k内容差异度Dif(k,i)之前，先求两个网页代表词组PW_i与PW_k的交集PW_k∩i＝PW_k∩PW_i，当交集为空

时，直接判定两网页内容不相似，结束计算；

（5）如果两个网页代表词组PW_i与PW_k的交集PW_k∩i＝PW_k∩PW_i不为空

计算交集PW_k∩i中的词在两个网页代表词组PW_k与PW_i中的词权重W^j之差的绝对值的和为内容差异度

其中

为交集PW_k∩i中的第j个词在PW_i中的词权重W^j，

为交集PW_k∩i中的第j个词在PW_k中的词权重W^j，f为交集PW_k∩i中的元素数量；

（6）当Dif(k,i)＝0且f＝m时，直接判定两网页P_i与P_k的内容没有差异，结束计算；

（7）当Dif(k,i)≠0、f≠m时，

其中PW_i-k为网页P_k的代表词组PW_k在网页P_i的代表词组PW_i中的相对补集

{PW}_{i - k} = {PW}_{i} - {PW}_{k} (χ &Element; {PW}_{i} | χ &NotElement; {PW}_{k}), Σ_{j = 1}^{t} {PW}_{i - k}^{j}

为相对补集PW_i-k中的词在网页P_i代表词组PW_i中的词权重W^j之和，t为相对补集PW_i-k中的元素数量。

所述的内容差异度Dif(k,i)计算方法，还可以考虑交集中的词数量f与代表词组PW_i中的词数量m对内容差异度Dif(k,i)的影响，方法为：

（1）如果交集不为空

计算完Dif(k,i)后，当Dif(k,i)≠0、f≠m时，乘以惩罚函数(1-f/m)，Dif(k,i)＝Dis(k,i)×(1-f/m)，以此来体现交集PW_k∩i中元素数f越少、Dif(k,i)内容差异度越大；

（2）如果交集不为空

计算完内容差异度Dif(k,i)后，当Dif(k,i)≠0、f＝m时，内容差异度Dif(k,i)不乘以惩罚函数(1-f/m)，而是乘以一个系数r，Dif(k,i)＝Dis(k,i)×r，r是一个0＜r＜0.1之间的小数。

一种基于内容相似度计算的自动搜索引擎构建方法，通过蜘蛛程序爬取网页、分词、建立词索引，按用户输入关键词进行搜索，显示包含关键词网页的标题和摘要，在此基础上，为爬取的每个网页建立相似内容索引、提供智能化主动搜索机制：

（1）用词频数TF除以所有爬取网页中包含该词的网页数D_t为词权重W^j＝TF/D_t；

（2）从每个网页P_i的标题和正文中，选出前m个词权重W^j最大的词，作为每个网页P_i的代表词组PW_i，其中1≤i≤n，n为网页数，m≥2，1≤j≤m；

（4）用内容差异度Dif(k,i)为每个网页P_i建立其它网页P_k对本网页P_i的相似内容索引Sim-Index；

（5）搜索方法为，用户输入关键词进行搜索时，先在词索引中搜索包含关键词的网页，然后为每个搜索出的网页在Sim-Index中搜索相似内容网页；

（6）搜索结果显示方法为，在现有技术搜索结果显示方法基础上，为每个搜索出包含关键词的网页P_i，显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要；

（7）自动搜索与信息推送方法为，当用户输入关键词搜索后，在搜索结果中选择链接网页P_i时，在Sim-Index中搜索网页P_i的相似内容网页，在显示网页P_i时，推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表，用户点击列表中的标题，继续重复上述“在搜索结果中选择链接网页P_i时”以后的过程。

所述的分词、计算词权重W^j、建立词索引、选择代表词组PW_i和相似内容索引Sim-Index要进行判断：

（1）对没有具体内容全部为链接标题所组成的导航网页不进行分词、不计算词权重W^j、不建立词索引、不选择代表词组PW_i，不参与相似内容索引Sim-Index；

（2）对非导航网页中链接标题中出现的文本，不进行分词、不计算词权重W^j、不建立词索引、不选择代表词组PW_i。

所述的内容差异度Dif(k,i)计算方法为：

（1）在计算两个网页P_i与P_k内容差异度Dif(k,i)之前，先求两个网页代表词组PW_i与PW_k的交集PW_k∩i＝PW_k∩PW_i，当交集为空

时，直接判定两网页内容不相似，网页P_k不加入到网页P_i的Sim-Index中，结束计算；

（2）如果两个网页代表词组PW_i与PW_k的交集PW_k∩i＝PW_k∩PW_i不为空

其中

为交集PW_k∩i中的第j个词在PW_i中的词权重W^j，

（3）当Dif(k,i)＝0且f＝m时，直接判定两网页P_i与P_k的内容没有差异，将网页P_k加入到网页P_i的Sim-Index中，结束计算；

（4）当f≠m、Dif(k,i)≠0时，其中PW_i-k为网页P_k的代表词组PW_k在网页P_i的代表词组PW_i中的相对补集

{PW}_{i - k} = {PW}_{i} - {PW}_{k} (χ &Element; {PW}_{i} | χ &NotElement; {PW}_{k}), Σ_{j = 1}^{t} {PW}_{i - k}^{j}

所述的内容差异度Dif(k,i)计算方法，还可以考虑交集中元素数量f与代表词组PW_i中的词数量m对内容差异度Dif(k,i)的影响，方法为：

（1）如果交集不为空

计算完Dif(k,i)后，当Dif(k,i)≠0、f≠m时，乘以惩罚函数(1-f/m)，Dif(k,i)＝Dis(k,i)×(1-f/m)，以此来体现交集PW_k∩i中元素数f越少、内容差异度Dif(k,i)越大；

（2）如果交集不为空

计算完Dif(k,i)后，当Dif(k,i)≠0、f＝m时，Dif(k,i)不乘以惩罚函数(1-f/m)，而是乘以一个系数r，Dif(k,i)＝Dis(k,i)×r，r是一个0＜r＜0.1之间的小数。

所述的自动搜索与信息推送方法：

（1）当用户输入关键词进行搜索后，在搜索结果中选择链接网页时，不直接链接该网页进行显示，而是搜索引擎自己创建一个显示页面Show-Page，在Show-Page中显示搜索结果链接网页；

（2）Show-Page由两个独立部分组成，一部分为“搜索结果链接网页显示窗口”，用于显示用户输入关键词搜索后、在搜索结果中选择的链接网页，另一部分为“推送信息窗口”，用于显示相似内容网页推送信息；

（3）当关闭“搜索结果链接网页显示窗口”时，“推送信息窗口”自动随之关闭；

自动搜索与信息推送方法，其中所述的“搜索结果链接网页显示窗口”的构建方法为：在Show-Page中有一个内联框架，在内联框架中显示用户输入关键词搜索出若干搜索结果后、在搜索结果中选择的链接网页。

所述“推送信息窗口”展示与用户交互方法为：

（1）“推送信息窗口”为Show-Page上的一个弹出窗口，里面显示“相似内容网页列表”，列表中的内容为若干条按内容差异度Dif(k,i)值由小到大排序的、在Sim-Index中为用户选择搜索结果链接网页P_i搜索出的相似内容网页的标题和摘要；

（2）用户点击“相似内容网页列表中”的标题，重复“推送信息窗口”构建和显示过程；

（3）“信息推送窗口”为浮动窗口，可以被拖拽移动、隐藏、展开。

所述的自动搜索与信息推送方法，对于站内搜索：

（1）在每个网页链接请求中加一段代码，目的是向搜索引擎发送本网页的链接请求，使请求跳转到搜索引擎而不直接链接本网页进行显示；

（2）当用户点击网页时，请求跳转到搜索引擎，搜索引擎根据上述网页链接请求中所加的代码，确定网页并在Sim-Index中搜索相似内容网页，搜索引擎自己创建一个显示页面Show-Page，Show-Page由两个独立部分组成，一部分为用内联框架创建的“网页显示窗口”，用来显示本网页，另一部分为“推送信息窗口”，用来推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表，用户点击列表中的标题，按“推送信息窗口”方法处理。

本发明的优点：

1、相似内容自动搜索与聚类显示，帮助用户确定搜索范围、减少输入关键词操作；

现有技术搜索引擎按关键词进行搜索，虽然可搜索出包含关键词网页，但内容并不相同。在百度上输入“荷花”，会搜出各种内容包含“荷花”的网页，如：关于养殖花卉内容的网页、关于农业种植莲藕内容的网页、关于道德“出污泥而不染”内容的网页...等。可见，虽然搜索的结果都包含关键词，但内容不同，也没有排列规律。因此，即便是用户仔细观察和筛选，也不容易确定那个网页包含其所感兴趣的内容，通常需要反复输入关键词组合多次进行搜索，才能找到其所需要内容网页。

由于本发明为每个搜索结果网页自动搜索相似内容网页，因此，如附图1所示，在用户输入关键词后，不仅列出包含搜索词的网页，同时为每个搜索出的网页，再自动进行相似内容网页搜索，并按内容差异度由小到大显示标题和内容摘要，将现有技术搜索结果显示包含相同关键词、但内容不同的孤立记录“信息条”，变成了显示相似内容网页聚类“信息群”，因此，用户可以通过相似内容网页聚类“信息群”，看到多条相似内容记录、有较多的参考信息来确定其搜索范围，更容易作出判断、直接点击链接，而不必再反复输入关键词进行试验来确定搜索范围。

2、搜索引擎主动理解用户搜索意图，自动抽取搜索关键词组，主动进行相似内容网页搜索；

搜索引擎能够准确帮助用户找到需要信息的前提是，正确理解用户想搜索什么？现有技术搜索引擎理解用户搜索意图的唯一途径是用户输入的关键词，而通常用户并不清楚，用哪些关键词可以找到其想要的内容，因此，需要在搜索引擎上反复输入关键词进行观察、筛选来确定搜索范围。

搜索关键词是对搜索内容的高度概括，尤其对于小信息量的网页，可用有限的关键词进行高度概括。但对于大多数使用搜索引擎的普通人来说，搜索并非是思量很久的事情，只是临时查找信息而已，不容易在短时间内抽取对搜索内容高度概括的关键词，并且，用户事先也不能确定具体什么内容的网页是其要查找的信息，不可能高度概括出合适的搜索关键词组。

由于本法明已为每个网页选择了m个权重最大的词为网页内容高度概括词组，因此，如附图2所示,当用户在搜索结果中点击某个网页时，系统自动将m个权重最大的词作为用户输入的关键词，主动进行智能化搜索和搜索结果自动推送，无需用户再盲目输入关键词进行搜索，搜索范围会更小，搜索结果的内容会更加统一。

3、相似内容自动搜索、信息过滤与智能推送；

现有技术搜索引擎只能通过用户输入关键词来被动地进行搜索和信息过滤，不能进行主动搜索和信息过滤，更不能自动进行相似内容网页主动推送，当用户选择某个网页浏览后，如果要再浏览其它相似内容网页，必须再返回数量众多、内容不相同的搜索结果中进行人工观察和查找。

虽然百度等搜索引擎也可以进行相似标题内容推荐，但仅限于其自己网站内的知道、文库等栏目，不能对搜索结果中的其它外站的链接进行内容推荐。

由于本发明采用的自动搜索与信息推送方法，因此，如附图2所示，当用户点击搜索结果链接网页时，可自动搜索与推送与本网页相似内容的网页，并随用户浏览自动跟踪用户关注内容的变化来搜索相似内容网页，连续不断地自动进行关键词提取，主动进行搜索、信息过滤和智能推送，减少了用户人工筛选网页的工作量，用户更容易找到关注内容网页，提高了搜索引擎的自动化、智能化水平。

4、非排他性相似内容聚类，可进行多重索引；

虽然本发明的网页内容差异度Dif(k,i)计算，类似于现有技术的文本聚类，但又有所不同。因为，现有技术的文本聚类是将网页分成若干类，具有排他性，即，如果某个网页P_i属于A类，就一定不属于其它类，这对网页内容相似性计算并不适合。因为，就网页内容相似性而言，P_i网页即可以与网页A相似、也可以与其它网页相似，只是相似度不同而已，需要建立多重索引，如果采用现有技术的文本聚类计算，将不能进行多重索引。

由于本发明为每个网页建立相似内容索引，相似计算不同于现有技术的排他性文本聚类，某个网页P_i的内容即可以与网页A相似，也可以与其它网页相似，因此，消除了现有技术文本聚类在智能搜索引擎中应用的缺陷。

5、可控制的链接网页显示，实现了自动跟踪用户关注内容、智能化主动搜索与推送机制；

现有技术搜索引擎如果用户在搜索结果中选择浏览不是搜索网站内的网页，浏览器跳转链接网页后不能控制链接网页的显示，因此，不能实现本发明所实现的用自动跟踪户关注内容、智能化主动搜索与推送机制。

由于本发明当用户点击某个搜索结果链接时，不直接链接网页进行显示，而是显示一个搜索引擎自己创建的页面Show-Page，该页面分成两个部分，其中一部分用来显示与搜索结果链接网页相似内容网页的标题和内容摘要列表，另外一部分中里面显示搜索结果链接网页的内容。因此，浏览器的显示仍受控于搜索引擎，所以，用本发明所构建的搜索引擎，可以自动跟踪用户浏览内容的变化，实现智能化主动搜索与推送机制。

6、相似度数学描述简洁，计算简单、快速；

现有技术采用空间向量“距离法”、“余弦夹角法”、“支持向量机”等算法来计算文本相似度，不仅计算量大，而且对内容相似性的数学描述也不够简洁。

本发明采用“最大熵和”来抽取网页内容，前m个权重最大的词包含了网页内容最重要的信息；用“最小熵差”来计算内容差异度；当两个网页交集为空

时，直接判定网页P_k与网页P_i的内容不相似；当Dif(k,i)＝0且f＝m时，直接判定两网页P_i与P_k的内容没有差异是重复网页，不再进行其它计算。因此，本发明的网页内容相似性数学描述更加简洁，相似度计算简单、快速。

7、导航网页与无效文本过滤；

使用现有技术搜索，会遇到搜索到网页中包含关键词，但在网页中没有具体内容，具体内容在包含关键词文本的链接网页中，存在无效搜索和搜索噪声问题。

由于本发明采用了“导航网页与无效文本过滤”，因此，克服了现有技术搜索引擎存在的无效搜索缺陷。

8、站内无触发相似内容网页自动搜索；

由于本发明在应用于站内搜索时，采用在站内网页链接中加入跳转连接代码，因此，本发明可以实现“站内无触发相似内容网页自动搜索”，现有技术搜索引擎不能实现相同的功能。

附图说明

图1、为本发明的一个可选的搜索结果显示方案网页。

图2、为本发明的一个可选的自动搜索与信息推送方案网页之一。

图3、为本发明的一个可选的自动搜索与信息推送方案网页之二。

图4、为本发明的一个可选的自动搜索与信息推送方案网页之三。

具体实施方式

结合附图1-4对本发明进一步详细介绍。

时，直接判定两网页内容不相似，结束计算；

其中为交集PW_k∩i中的第j个词在PW_i中的词权重W^j，为交集PW_k∩i中的第j个词在PW_k中的词权重W^j，f为交集PW_k∩i中的元素数量；

（7）当Dif(k,i)≠0、f≠m时，

{PW}_{i - k} = {PW}_{i} - {PW}_{k} (χ &Element; {PW}_{i} | χ &NotElement; {PW}_{k}), Σ_{j = 1}^{t} {PW}_{i - k}^{j}

（1）如果交集不为空

（2）如果交集不为空

计算完内容差异度Dif(k,i)后，当Dif(k,i)≠0、f＝m时，内容差异度Dif(k,i)不乘以惩罚函数(1-f/m)，而是乘以一个系数r，Dif(k,i)＝Dis(k,i)×r，r是一个0＜r＜0.1之间的小数；

所述的内容差异度Dif(k,i)计算方法为：

其中

为交集PW_k∩i中的第j个词在PW_i中的词权重W^j，

（4）当f≠m、Dif(k,i)≠0时，

{PW}_{i - k} = {PW}_{i} - {PW}_{k} (χ &Element; {PW}_{i} | χ &NotElement; {PW}_{k}), Σ_{j = 1}^{t} {PW}_{i - k}^{j}

（1）如果交集不为空

（2）如果交集不为空

所述的自动搜索与信息推送方法：

所述“推送信息窗口”展示与用户交互方法为：

所述的自动搜索与信息推送方法，对于站内搜索：

实施例

一、系统建设方法：

步骤一、过滤导航网页及非导航网中的无效文本；

用现有技术实现蜘蛛程序爬取网页，在爬取网页过程中，过滤导航网页及非导航网中的无效文本。具体方法如下：

1、过滤导航网页；

所谓导航网页为：没有具体内容、全部为标题链接所组成的网页，如：搜狐、新浪等门户网站的首页及各频道的首页等。Internet上很多网站的首页都是导航网页，在这些网页中，没有具体内容，全部是标题链接。

如果对导航网页进行分词、计算词权重W^j、建立词索引、选择代表词组和计算内容差异度，不仅浪费计算资源，而且对搜索也是噪声。因为，通过关键词搜索到导航网页，虽然里面包含搜索关键词，但看不到具体内容，具体内容在链接网页中，需要再点击链接、方可看到具体内容，而具体内容网页已经被蜘蛛程序爬取到，也会被关键词搜索出来。

如果判断网页全部为诸如<a href＝URL>等之类的链接标记所组成的导航网页，不进行分词、不计算词权重W^j、不建立词索引，不选取代表词组、不进行相似度计算。

2、过滤非导航网页中的无效文本；

所谓无效文本包括：链接标题文本、广告链接文本、相关索引标题等，在这些文本中只有一行链接标题，没有具体内容。导航网页中的文本全部都是无效文本，在非导航网页中也有很多文本不是正文而是链接标题，没有具体内容，点击后再跳转到相应的链接网页。如果对这些文本进行分词、建立词索引、计算词权重W^j、选择代表词组、计算内容差异度，不仅浪费计算资源，而且对用户搜索也是噪声。因为，虽然无效文本中包含搜索关键词，但看不到具体内容，具体内容在链接网页中，需要点击链接方可看到，而具体内容网页已经被蜘蛛程序爬取到，也会被输入关键词搜索出来。

对于非导航网页中诸如<a href＝URL>等之类的链接中出现的文本，不进行分词、不计算词权重W^j、不建立词索引，其中的词也不能被选为代表词组PW_i中的词。

步骤二、为网页选取代表词组；

完成过滤导航网页及非导航网页中无效文本后，用现有技术进行分词、建立词索引，在此基础上，为每个网页建立相似内容索引Sim-Index。首先，为每个网页选取代表词组，具体方法如下：

1、用现有技术对每个网页P_i（1≤i≤n，n为网页数）进行分词，剔除停用词（介词、形容词、副词等无区分意义的词）；

2、计算词权重W^j，用词频数TF除以所有爬取网页中包含该词的网页数D_t为词权重W^j，W^j＝TF/D_t，其中：

TF = T_{i}^{j} / n_{i},

为所爬取网页中第i个网页中的第j个词出现次数，

n_i为第i个网页中的总词数，

D_t为所有爬取网页中出现过该词的网页数，

词权重W^j为：

W_{j} = TF / D_{t} = (T_{i}^{j} / n_{i}) / D_{t} .

例如：爬取网页中第i个网页的总词数n_i＝100，“奶粉”出现了3次那么“奶粉”一词在该网页中的

词频数

TF = T_{i}^{j} / n_{i} = 3 / 100 = 0.03,

如果所爬取网页中有1000个网页中出现过“奶粉”一词，D_i＝1000，

词权重

W_{j} = TF / D_{t} = (T_{i}^{j} / n_{i}) / D_{t} = 0.003 / 1000 .

3、选取前m个词权重W^j（1≤j≤m）最大的词为网页代表词组PW_i（1≤i≤n，n为网页数），其中m≥2，可根据应用环境设置合适的m值。

例如，假设通过分词得到网页P_i有6个词：

{“AA”,“BB”,“CC”,“DD”,“EE”,“FF”}，

通过计算每个词的词权重

W_{i}^{j} = (T_{i}^{j} / n_{i}) / D_{t}, (1 \leq j \leq 6)

得：

W_{i}^{1} = 0.3, W_{i}^{2} = 0.15, W_{i}^{3} = 0.1, W_{i}^{4} = 0.2, W_{i}^{5} = 0.4, W_{i}^{6} = 0.11 .

设，m＝3，选择前3个词权重W^j最大的词为代表词组：

{PW}_{i} = {W_{i}^{5} = 0.4, W_{i}^{1} = 0.3, W_{i}^{4} = 0.2} .

步骤三、计算内容差异度Dif(k,i)；

用每个网页P_i的代表词组PW_i，计算其它网页P_k（k≠i，1≤k≤n）的代表词组PW_k对本网页差异度Dif(k,i)为网页内容差异度。

可采用任何方法来计算内容差异度Dif(k,i)，如：采用向量空间距离法，Dif(k,i)的值越小、表示网页P_k与网页P_i的内容差异度越小；如：采用余弦夹角法，Dif(k,i)的值越大、表示网页P_k与网页P_i的相似度度越大等。

本发明采用“最大熵和”、“最小熵差”来计算网页内容差异度Dif(k,i)。

所谓“最大熵和”为：信息论中的“熵”是反映事物不确定性的度量单位，“熵”的大小代表了事物复杂程度的信息量，词权重W^j＝TF/D_t反映了词在网页及全体样本中的“熵”。本发明选择前m个词权重W^j最大的词为网页代表词组，来代表网页内容的“最大熵和”。

所谓“最小熵差”为：用交集中的词在两个网页代表词组中的词权重W^j之差的绝对值、加上相对补集中词权重W^j之和为两个网页的“熵差”，以此作为内容差异度Dif(k,i)，“最小熵差”Dif(k,i)＝0，表示网页内容没有差异。其数学意义为：两个网页“最大熵和”之差Dif(k,i)的值越小，说明熵越接近、内容也越接近，当Dif(k,i)＝0表示网页内容没有差异；当交集为空时，内容差异为无限大Dif(k,i)＝∞，表示内容完全不相似。

具体计算方法如下：

1、求两网页代表词组的交集；

求两个网页代表词组PW_k与PW_i的交集PW_k∩i＝PW_k∩PW_i，当交集为空

时，直接判定两网页内容不相似，网页P_k不加入到网页P_i的相似内容索引Sim-Index中，结束计算。

例如：设m＝3，P_i与P_k的代表词组分别为：

PW_i＝{“AA”，“BB”，“CC”}，

PW_k＝{“DD”，“EE”，“FF”}，

交集为空，

直接判定网页P_k与网页P_i的内容不相似，网页P_k不加入到网页P_i的Sim-Index中，结束计算，否则往下进行其它计算。

2、计算交集中的词，在两个网页组代表词组中词权重W^j之差的和；

如果交集PW_k∩i不为空需要计算交集PW_k∩i中的词在两个网页代表词组PW_k与PW_i中“词权重W^j”之差的绝对值的和，

Dif (k, i) = Σ_{j = 1}^{f} | W_{k}^{j} - W_{i}^{j} |,

其中

为交集PW_k∩i中的第j个词在PW_i中的词权重W^j，

为交集PW_k∩i中的第j个词在PW_k中的词权重W^j，f为交集PW_k∩i中的元素数量。

例如：设，m＝3，假设P_i与P_k的代表词组分别为：

PW_i＝{“AA”，“BB”，“CC”}，

PW_k＝{“BB”，“CC”，“FF”}，

交集中的元素数量f＝2，

设，词“BB”在PW_i中的词权重W^j值为0.3、在PW_k中的词权重W^j值为0.2；词“CC”在PW_i中的词权重W^j值为0.1、在PW_k中的词权重W^j值为0.4，

Dif (k, i) = Σ_{j = 1}^{2} | W_{k}^{j} - W_{i}^{j} | = | 0.2 - 0.3 | + | 0.4 - 0.1 | = 0.4 .

3、判断Dif(k,i)＝0否？f＝m否？

当Dif(k,i)＝0且f＝m时，直接判定两网页P_i与P_k的内容没有差异，将网页P_k加入到网页P_i的Sim-Index中，停止计算，不再进行后续计算。

例如，设m＝3，假设网页P_i与P_k的代表词组分别为：

PW_i＝{“AA”，“BB”，“CC”}，

PW_k＝{“AA”，“BB”，“CC”}，

PW_i∩k＝PW_i∩PW_k＝{“AA”，“BB”，“CC”}，

PW_i∩k中的元素数量f＝m＝3，

设，词“AA”、“BB”、“CC”在PW_i和PW_k中的词权重W^j值都相等，

则，

Dif (k, i) = Σ_{j = 1}^{3} | W_{k}^{j} - W_{i}^{j} | = 0 .

因为，Dif(k,i)＝0、f＝m＝3，所以，判定网页P_i与P_k的内容没有差异，将网页P_k加入到网页P_i的Sim-Index中，结束计算，不再进行后续计算。

4、计算相对补集中词权重W^j之和；

如果仅考虑交集PW_k∩i中的词在两个代表词组中的词权重W^j之差的绝对值和，则PW_k∩i中的元素数量f越少、内容差异度Dif(k,i)值也会越小，这背离了本发明“最大熵和”、“最小熵差”设计思想。实际上，存在于网页代表词组PW_i中、但不在交集PW_k∩i中的词，相当于该词在网页代表词组PW_k中的词权重W^j为0，是代表词组PW_k在代表词组PW_i中的相对补集，而补集中的词越多、内容差异度Dif(k,i)的值就越大、网页内容也越不相似，符合本发明“最大熵和”、“最小熵差”设计思想。为此，将补集中的词权重W^j加入到差异度Dif(k,i)计算模型中。具体计算方法为：

如果Dif(k,i)≠0且f≠m，继续计算，

Dis (k, i) = Dis (k, i) + Σ_{j = 1}^{t} P W_{i - k}^{j},

{PW}_{i - k} = {PW}_{i} - {PW}_{k} (χ &Element; {PW}_{i} | χ &NotElement; {PW}_{k}), Σ_{j = 1}^{t} {PW}_{i - k}^{j}

为相对补集PW_i-k中的词在网页P_i代表词组PW_i中的词权重W^j之和，t为补集PW_i-k中的元素数量。

因此，内容差异度Dif(k,i)计算公式为：

Dif (k, i) = Σ_{j = 1}^{f} | W_{k}^{j} - W_{i}^{j} | + Σ_{j = 1}^{t} {PW}_{i - k}^{j} .

例如：

设，m＝4，假设P_i与P_k的代表词组分别为：

PW_i＝{“AA”，“BB”，“CC”，“DD”}，

PW_k＝{“BB”，“CC”，“FF”，“EE”}，

网页P_k代表词组PW_k在网页P_i代表词组PW_i中的相对补集为：

{PW}_{i - k} = {PW}_{i} - {PW}_{k} (χ &Element; {PW}_{i} | χ &NotElement; {PW}_{k}) = {' AA',' DD'},

交集PW_i∩k中的元素数量f＝2≠m，

相对补集PW_i-k中的元素数量t＝2，

设，词“AA”在PW_i中的词权重W^j为0.12、词“DD”在PW_i中的词权重W^j为0.1，

则，

Σ_{j = 1}^{t} {PW}_{i - k}^{j} = Σ_{j = 1}^{2} {PW}_{i - k}^{j} = 0.12 + 0.1 = 0.22;

假设，交集PW_i∩k中的词权重W^j之差的绝对值和为：

则，

Dis (k, i) = 0.4 + Σ_{j = 1}^{t} P W_{i - k}^{j};

Dis(k,i)＝0.4＋0.22＝0.62。

5、如果Dis(k,i)≠0且f≠m；

为体现交集中元素数量f与网页代表词组PW_i中的词数量m对内容差异度Dif(k,i)的影响，还可以进行如下计算：

当Dis(k,i)≠0且f≠m时，Dif(k,i)＝Dis(k,i)×(1-f/m)。其中(1-f/m)为惩罚函数，其目的为体现交集PW_i∩k中的元素越少(f值越小)、两个网页的内容差异度Dif(k,i)越大。

例如：

设，Dis(k,i)＝0.4，f＝2,m＝3,

则，Dif(k,i)＝Dis(k,i)×(1-f/m)＝0.4×(1-2/3)。

6、如果Dis(k,i)≠0且f＝m；

当Dis(k,i)≠0、f＝m时，说明两个网页代表词组中的词全部相同，但由于词权重W^j不同导致Dis(k,i)≠0。在此情况下，如果Dis(k,i)再乘以惩罚函数(1-f/m)，由于f＝m,(1-f/m)＝(1-1)＝0，将导致Dis(k,i)×0＝0。

为防止出现Dis(k,i)×0＝0，保证Dis(k,i)≠0的值不被忽略，当Dis(k,i)≠0、f＝m时，Dif(k,i)不再乘以惩罚函数(1-f/m)，而是乘以一个系数r。

通常r是一个0＜r＜0.1之间足够小的小数，使之能够保证当f＝m时，Dif(k,i)的值要小于当f＜m时Dif(k,i)的值。

例如：

设，Dis(k,i)＝0.4，f＝3，m＝3，

因为，Dis(k,i)＝0.4≠0，f＝m＝3，

所以，Dif(k,i)不再乘以惩罚函数(1-f/m)，

设r＝0.01，

则，Dif(k,i)＝Dis(k,i)×r＝0.4×0.01。

步骤四、按内容差异度Dif(k,i)建立索引；

计算完所有n个网页P_i（1≤i≤n）的其它网页P_k（k≠i，1≤k≤n）对本网页的内容差异度Dif(k,i)后，用内容差异度Dif(k,i)为每个网页P_i，建立其它网页P_k对本网页P_i的内容相似度索引Sim-Index。

二、搜索与搜索结果显示方法：

1、搜索方法；

当用户在搜索引擎上输入关键词进行搜索时，先在词索引中搜索包含关键词的网页，然后为每个搜索出包含关键词的网页，在Sim-Index中搜索相似内容网页。

2、搜索结果显示方法；

在现有技术搜索结果显示方法基础上，在显示搜索出包含关键词的网页P_i的标题和摘要的同时，为每个搜索出包含关键词的网页P_i，显示一组按Dif(k,i)值索引由小到大排序的相似内容网页的标题和摘要。

如图1所示，在搜索引擎上输入“智能电视”后，先在词索引中搜索出若干条包含“智能电视”的网页P_i，在每个网页P_i的下面，都有2条（也可以更多条）从相似内容索引Sim-Index中搜索出的相似内容网页，按Dif(k,i)值索引由小到大进行排序显示的标题和摘要。

应该理解附图1只是一个可选的搜索结果显示方案，但不限于此显示方案，还可以使用其它方法来达到上述技术方案目的。

三、自动搜索与信息推送方法；

当用户输入关键词进行搜索后，在搜索结果中选择网页P_i时，在Sim-Index中搜索P_i的相似内容网页，在显示网页P_i时，推送显示一组按Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表，用户点击列表中的标题继续此过程，具体方法为：

1、Show-Page创建方法；

当用户输入关键词进行搜索后，在搜索结果中选择网页P_i时，不直接链接该网页进行显示，而是搜索引擎自己创建一个网页Show-Page，例如，可使用HTML标记语言DIV将Show-Page分成两个独立部分：其一部分为“推送信息窗口”，另一部分是“搜索链接网页显示窗口”。例如，可采用下列代码片段来实现：

<!DOCTYPE HTML PUBLIC"-//W3C//DTD HTML4.01Transitional//EN">

<html>

<head>

</head>

<body>

//此处为弹出“推送信息窗口”

</div>

//下面的代码在页面中添加一个框架iframe，里面显示具体的URL为“搜索链接网页显示窗口”

src＝'http://energy.people.com.cn/n/2014/0110/c71661-24079224.html'></iframe>

</div>

</body>

</html>

应该理解上述代码片段不是一种限定，仅是一种可选的实施方法，还可以使用其它编程方法来达到上述目的。

2、“搜索结果链接网页显示窗口”创建与显示方法；

如上述代码片段，在Show-Page中用iframe创建一个内联框架，里面放置当用户输入关键词进行搜索后，在搜索结果中选择链接网页P_i的URL，在内联框架内显示P_i，该区域为“搜索结果链接网页显示窗口”。

3、“推送信息窗口”创建方法；

如上述代码片段，在Show-Page上弹出窗口为“信息推送窗口”，里面显示“相似内容网页列表”，列表中的内容为若干条按内容差异度Dif(k,i)值由小到大排序的、在Sim-Index中为搜索结果链接网页搜索出的相似内容网页的标题和摘要。

如附图1所示，用户在搜索上输入“智能电视”后，得出若干条搜索结果记录。用户在搜索结果中选择第1条记录为“2013中国智能电视产业白皮书”，显示结果如附图2所示，为搜索引擎创建的Show-Page网页，而不是直接链接搜索结果网页，在Show-Page上面浮动的窗口为“推送信息窗口”，显示“相似内容网页列表”，列表中有3条自动搜索出的相似内容网页：“了解就能为你省钱智能…”、“家里就有好老师47吋…”、“谁说智能就奢侈大尺寸…”,浮动窗口的后面是“搜索链接网页显示窗口”，显示链接网页“2013中国智能电视产业白皮书”，

用户点击“推送信息窗口”中“相似内容网页列表”中的标题，浏览相似内容网页，继续重复上述过程。如附图2所示，用户在“推送信息窗口”点击“了解就能为你省钱智能…”，显示附图4。

4、窗口关闭方法；

“推送信息窗口”是“搜索结果链接网页显示窗口”上弹出的子窗口，当关闭“搜索结果链接网页显示窗口”时，“推送信息窗口”自动随之关闭。

这样设计的有益效果为：因为每个“推送信息窗口”都是“搜索结果链接网页显示窗口”显示网页对应的相似内容网页推送信息，如果关闭“搜索结果链接网页显示窗口”而不关闭“推送信息窗口”，将留下大量没有对应关系的“推送信息窗口”，会干扰用户后续浏览。

5、息推送窗口操作方法；

“信息推送窗口”为一个弹出的、独立的浮动显示窗口，可进行如下操作：

如附图2所示，点击“信息推送窗口”中的“隐藏”，“信息推送窗口”被隐藏到网页的左边，显示为“相似内容网页”；

如附图3所示，点击“相似内容网页”展开“信息推送窗口”；

如附图2所示，“信息推送窗口”为浮动窗口，用鼠标左键按住“信息推送窗口”上面的“移动图标”，可拖拽移动“信息推送窗口”；

如附图4所示，用户在附图2“信息推送窗口”上点击“了解就能为你省钱智能…”显示效果附图4。

应该理解上述只是一个可选的相似内容网页推送显示方案，但不限于此显示方案，上述自动搜索与信息推送方法不是一种限定，仅是一种可选的实施方案，还可以使用其它编程方法来达到上述目的。

四、对于站内搜索，相似内容网页自动搜索与信息推送方法；

对于站内搜索，可进行无触发相似内容网页自动搜索，即，在用户没有向搜索引擎提出搜索请求的情况下，只要某个网页被用户点击显示，该网页的链接将自动触发相似内容网页搜索，具体实现方法为：

1、在每个网页链接请求中加一段代码；

在每个网页链接请求中加入一段代码，例如：

原链接为：

<a

href＝"http://politics.people.com.cn/n/2014/0131/c1001-24269594.html"target＝'_blank'>假日办春节期间上班:平时不上班法定节日才上班</a>，

加入代码后的链接为：

<a

href＝"http://www.bi-c.net/lu_test/jump_same.jsp?keys＝http://politics.people.com.cn/n/2014/0131/c1001-24269594.html"

target＝'_blank'>假日办春节期间上班:平时不上班法定节日才上班</a>

其中前面所加的代码：

“http://www.bi-c.net/lu_test/jump_same.jsp?keys”

为搜索引擎地址，后面的代码还是原链接代码。

加上述代码目的是：向搜索引擎发送本网页的链接请求，使请求跳转到搜索引擎、并嵌入到搜索引擎创建的Show-Page中进行显示，而不直接显示链接网页。

2、网页显示；

当用户点击网页时，请求跳转到搜索引擎，搜索引擎根据上述网页链接请求中所加的代码，确定网页并在Sim-Index中搜索相似内容网页，搜索引擎自己创建一个显示页面Show-Page，Show-Page由两个独立部分组成，一部分为用内联框架创建的“网页显示窗口”，用来显示本网页，另一部分为“推送信息窗口”，用于显示相似内容网页推送信息，如附图2所示，在显示网页时推送显示一组按内容差异度Dif(k,i)值由小到大排序的相似内容网页的标题和摘要列表，用户点击列表中的标题，按“推送信息窗口”方法处理。

其有意效果为：只要用户点击网页浏览，就自动触发了相似内容网页搜索，相当于自动向搜索引擎提出对该网页进行相似内容网页搜索请求，实现了用户没有在搜索引擎上进行操作情况下，进行无触发相似内容网页自动搜索。

应该理解上述加入的代码不是一种限定，仅是一种可选的实施方法，还可以使用其它编程方法来达到上述目的。