CN101350032A

CN101350032A - 判断网页内容是否相同的方法

Info

Publication number: CN101350032A
Application number: CNA2008102116670A
Authority: CN
Inventors: 胡辉
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-09-23
Filing date: 2008-09-23
Publication date: 2009-01-21

Abstract

判断网页内容是否相同的方法，可用于搜索引擎技术领域，过滤网页内容相同的查询结果。根据计算网页标题的相似度和网页正文内容的相似度，根据网页的标题和正文内容的相似度来判断其是否为相同内容。如果二者的相似度达到一定阀值，那么就判定为相同内容的网页，否则就判定为不同内容的网页。

Description

判断网页内容是否相同的方法

技术领域

本发明涉及一种判断具有相同内容的网页的方法，能有助于过滤搜索引擎中出现的重复的搜索结果。

背景技术

目前，搜索引擎是将所有与关键词相关的页面根据其特定算法排序后都显示给用户，但由于网络上很多网站会相互转载一些内容相同的文章、新闻等，并且搜索引擎并未对这些内容相同的网页进行过滤，从而导致搜索引擎会返回很多这样的文章内容相同的网页结果给用户，使得用户不得不在大量的冗余结果中寻找有用结果，带来使用上的不便。有的搜索引擎将来自同一网站的相关网页(域名相同，URL不同)归为一组结果，相邻在一起显示出来，但并没有能够将来自不同网站而内容相同的文章、新闻等网页识别并过滤出来。

发明内容

目前，有的搜索引擎可以把来自同一网站的相关网页过滤出来，合并为一组相似结果显示出来，但并没有能够将来白不同网站而内容相同的网页识别并过滤出来。本发明提供了一种判断相同内容网页的方法。这个方法能解决的问题时：可以过滤掉搜索引擎返回的重复结果，降低查询结果的信息冗余度，更方便用户查看搜索结果。

本发明所采用的技术方案是：计算网页标题的相似度和网页正文内容的相似度，根据网页的标题和正文内容的相似度来判断其是否为相同内容，如果二者的相似度达到一定阀值，那么就判定为相同内容的网页。下面分别描述这些方法：

1.网页标题相似度的计算方法

1.1对于具有相同域名或目录的所有网页的标题(命为OriginSameTitle)，去除其公共前缀(即位于标题最开头的相同的公共字符串)或公共后缀(即位于标题最末尾的相同的公共字符串)部分，剩下的内容作为真正的标题(RealSameTitle)。这里说的域名相同是指完整域名(FQDN)都相同。优先去除相同域名的URL网页标题的公共字符，然后再去除相同目录的网页标题公共字符。比如以下几个URL的网页就属于域名相同，都是news.sina.com.cn：

http://news.sina.com.cn/c/2008-09-05/062716236203.shtml，

http://news.sina.com.cn/c/2008-08-27/221716184284.shtml，

http://news.sina.com.cn/w/2008-08-28/040716186003.shtml。

并且前面两个URL属于相同目录：http://news.s ina.com.cn/c/。

所以先去除上述3个域名同为news.sina.com.cn的标题公共后缀：“_新闻中心_新浪网”，然后再看前面两个网页标题是否还有其他标题公共前缀或后缀，如果有也可以去掉。这里只是以3个网页为例，实际处理必须以所有符合上述条件的网页为基础，去除所有这些网页标题的公共前缀或后缀。

而如下几个URL就不属于域名相同：

http://news.sina.com.cn/c/2008-08-27/221716184284.shtml，其域名为news.sina.com.cn；

http://sports.sina.com.cn/o/2008-08-28/08143907467.shtml，其域名为sports.sina.com.cn；

http://www.google.cn/intl/zh-CN/ads/，其域名为www.google.cn。

1.2对所有网页的标题(OriginTitle，也包括经过方法1.1处理后得到的RealSameTitle)进行清除HTML标记的处理，使得标题中不再包含任何HTML标记(HTML标记就是HTML TAG，诸如<html></html><body></body><font></font>等，参见w3c组织颁布的最新HTML标准)。这个清除HTML标记的处理是可选的，不是必须的。

1.3对经过方法1.1和1.2处理后的网页标题内容进行切割，可以任选如下字符中的一个或多个来作为分隔符，将标题切割为多个部分：

1)空格：空格：(该分隔符只适用于字符集为中文的网页)

2)减号：-

3)中文的破折号：—

4)下划线：_

5)英文冒号：:

6)中文冒号：：

7)英文逗号：,

8)中文逗号：，

9)竖线：|

10)英文点号：.

11)中文点号：。

12)英文圆括号：()

13)中文圆括号：()

14)英文方括号：[]

15)中文方括号：[]

16)中文粗括号：【】

17)英文大括弧：{}

18)中文大括弧：{}

19)英文尖括号：<>

20)中文尖括号：《》

21)以及所有上述的字符对应的半角和全角字符形式

22)所有上述的字符的HTML编码形式，比如：&nbsp；代表空格，&gt；代表尖括号，等等。

1.4在用户提交搜索请求时，在通过方法1.3和1.4切割出来的各个部分中：

1)如果其中只有一部分包含用户查询关键词(经过搜索引擎分词处理后的关键词)，那么就将这部分作为该网页的真实标题(RealTitle)；

2)如果该标题分隔后两部分或多个部分都含有用户查询关键词，那么就以靠近标题左侧的那部分内容作为RealTitle，或者选择内容更长的部分作为RealTitle，也可以选择任意一部分为RealTitle；

3)如果各部分都不包含用户查询关键词，则选择内容更长的部分作为RealTitle，或选择任意一部分为RealTitle。

1.5计算出RealTitle的相似度ST，ST计算方式如下：

假设有两个RealTitle：RTa，RTb。首先将RTa和RTb都统一转换为UTF-8字符集。Ls代表RTa和RTb中包含的相同字符(或公共字符)的字符数长度，而La和Lb分别代表RTa和RTb的字符数长度，STab即作为网页A和网页B之间的标题相似度。那么：

STab＝|LTs/LTa-LTs/LTb|

其中，字符数长度的计算方式是将文本内容统一转换为UTF-8字符集后的字节数。

2.网页正文相似度判定方法

2.1网页正文(命名为OriginBody)中包含有很多段被HTML标记分隔开的文字内容，可以选择其中长度最长的一段内容作为代表该网页的真正内容(RealBody)；或者找出包含用户查询关键词的这些段落，并将其中长度最长的一段内容作为RealBody。

2.2计算RealBody相似度，其计算方法与RealTitle相似度类似。

RealBody相似度计算方式如下：

假设有两个RealBody：RBa，RBb。首先将RBa和RBb都统一转换为UTF-8字符集。LBs代表RBa和RBb中包含的相同字符(或公共字符)的字符数长度，而LBa和LBb分别代表RBa和RBb的字符数长度，SBab作为网页A和网页B之间的正文相似度。那么：

SBab＝|LBs/LBa-LBs/LBb|

3.根据网页标题相似度和网页正文相似度，可以判断出两个网页A和B是否内容相同。判断方法如下：

(1)如果STab小于或等于k1，则判定为内容相同的网页，否则为不同内容；其中，k1是预先设定的阀值，比如k1＝0.1。伪代码如下：

If(STab＜＝k1)

Then A＝B

Else A！＝B

(2)或者，如果SBab小于或等于k2，则判定为内容相同的网页，否则为不同内容；其中，k2是预先设定的阀值，比如k2＝0.1。伪代码如下：

If(SBab＜＝k2)

Then A＝B

Else A！＝B

(3)或者，如果STab小于或等于k1，并且SBab小于或等于k2，则判定为内容相同的网页，否则为不同内容；其中，k1，k2是预先设定的阀值，比如k1＝0.1，k2＝0.2。伪代码如下：

If((STab＜＝k1)&&(SBab＜＝k2))

Then A＝B

E1se A！＝B

方法(1)、(2)、(3)可任选其一。

本发明的有益效果是，可以过滤掉搜索引擎查询结果中重复内容的网页，减少冗于结果页面，使得用户能够更方便快捷地查看有用查询结果。

附图说明

图1是计算网页标题相似度的流程图；

图2是计算网页正文相似度的流程图；

图3是根据网页标题相似度和网页正文相似度判断网页内容是否相同的流程图；

图4是网页A的URL及其在IE浏览器中的显示效果图；

图5是网页B的URL及其在IE浏览器中的显示效果图；

图6是网页A的HTML源码文件缩略图；

图7是网页B的HTML源码文件缩略图；

具体实施方式

下面结合附图和实例对本发明作进一步详细的说明。

以如下两个网页A和B为例，其中：

网页A的URL参见图4中的410，网页A在IE浏览器中的显示效果参见图4中的420，网页A的HTML源码文件缩略内容参见图6；

网页B的URL参见图5中的510，网页B在IE浏览器中的显示效果参见图5中的520，网页B的HTML源码文件缩略内容参见图7；

如图1所示，我们首先计算网页A和B的标题相似度。

110是从网页HTML源文件中提取网页标题内容的处理，其提取方式是在源文件中找到<title>和</title>标记(不区分大小写)，位于这两个标记之间的内容就是网页标题。对于网页A而言，其网页标题就是图6中的610，其内容为：记住，妈妈爱你_新华网。对于网页B而言，其网页标题就是图7中的710，其内容为：关注5.12地震：记住，妈妈爱你。

在115中我们选择否，即不去除标题公共前缀或后缀，进入135的处理。

135是进行标题切割的处理，由于A和B的标题中分别包含有下划线、逗号和冒号、点号的分隔符。具体切割可以借助正则表达式匹配函数或字符串匹配函数来完成。所以进行切割后，网页A分为如下几个部分：

1)记住

2)妈妈爱你

3)新华网

网页B分为如下几个部分：

1)关注5

2)12地震

3)记住

4)妈妈爱你

140是从135切割出来的各个部分中选出一个作为RealTitle。这里我们选择方法是采用最长部分作为RealTitle。因此在145，我们得到网页A和B的RealTitle都为：妈妈爱你。

因此，155中LTs＝4×3＝12，160中计算出来LTa＝LTb＝LTs，从而165中计算出来STab＝|LTs/LTa LTs/LTb|＝0。

接下来我们再计算A和B的网页正文相似度，如图2所示。

210是按照HTML标记作为分隔符，将网页HTML源文件切割为很多不含HTML标记的段落。具体切割可以借助正则表达式匹配函数或字符串匹配函数来完成。

在220中我们仍然采用最长选择准则，即选出其中最长的文本块作为RealBody。因此得到网页A的RealBody为图6中的620，网页B的RealBody为图7中的720。

240中计算出LBs＝135×3＝405，250计算出来LBa＝LBb＝LBs，从而260中计算出来SBab＝|LBs/LBa-LBs/LBb|＝0。

最后，我们来判断A和B是否内容相同，如图3所示。

在310中，我们选择第一种判断方式M＝1，即同时使用STab和SBab。在340中，我们设定k1和k2阀值均为0.1。由于STab和SBab都为0，且都小于0.1。因此

(STab＜＝k1)&&(SBab＜＝k2)

即

(0＜＝0.1)&&(0＜＝0.1)

条件为真，所以进入350，即A和B相同。

Claims

1.一种能够判断具有相同文章内容的网页的方法，其特征在于，包含：

对于任意两个网页，

(1)计算二者之间的网页标题相似度；

(2)计算二者之间的网页正文相似度；

(3)根据网页标题相似度和网页正文相似度，按照特定算法判断两个网页是否内容相同。

2.根据权利要求1所述的方法，其特征在于，其(1)中计算网页标题相似度的方法包含：

(1)从网页中提取出网页标题的内容；

(2)删除标题中的公共前缀和后缀；

(3)提取出真正代表这篇网页文章的真实标题RealTitle；

(4)按照特定算法计算出网页标题相似度ST。

3.根据权利要求2所述的方法，其特征在于，其(1)中提取网页标题的方法包含：提取出网页HTML源文件中位于HTML标记<title>和HTML标记</title>之间的内容，这里的HTML标记<title>和</title>是不区分大小写的。

4.根据权利要求2所述的方法，其特征在于，其(2)中删除标题公共前缀或后缀的方法包含：

(1)识别标题的公共前缀：即所指定的各网页中，位于标题最开头部分的相同的连续的公共字符串。

(2)识别标题的公共后缀：即所指定的各网页中，位于标题最末尾部分的相同的连续的公共字符串。

(3)删除标题的公共前缀和后缀：

对于具有相同域名或目录的所有网页的标题(命为OriginSameTitle)，去除其公共前缀或公共后缀部分，剩下的内容作为真正的标题(RealSameTitle)。

这里说的域名相同是指完整域名(FQDN)都相同。优先去除具有相同域名的网页标题的公共前缀或后缀，然后再去除具有相同目录的网页标题的公共前缀或后缀。举例如下：

比如以下几个URL的网页就属于域名相同，都是news.sina.com.cn：

I)http://news.sina.com.cn/c/2008-09-05/062716236203.shtml，其标题为：反垄断第一案被法院裁定不予受理_新闻中心_新浪网

II)http://news.sina.com.cn/c/2008-08-27/221716184284.shtml，其标题为：审计发现国开行58亿贷款违规进入股市楼市_新闻中心_新浪网

III)http://news.sina.com.cn/w/2008-08-28/040716186003.shtml。其标题为：格鲁吉亚准备与俄罗斯单方面断绝外交关系_新闻中心_新浪网

并且前面两个URL属于相同目录：http://news.sina.com.cn/c/。所以先去掉上述3个域名同为news.sina.com.cn的标题公共后缀：“_新闻中心_新浪网”，分别得到如下三个标题：“反垄断第一案被法院裁定不予受理”、“审计发现国开行58亿贷款违规进入股市楼市”、“格鲁吉亚准备与俄罗斯单方面断绝外交关系”。

然后再看前面两个具有相同目录的网页的标题是否还有其他公共前缀或后缀，如果有也可以去掉。这里只是以3个网页为例，实际处理以所有符合上述条件的网页为基础，删除所有这些网页标题的公共前缀或后缀。

而如下几个URL就不属于域名相同：

I)http://news.sina.com.cn/c/2008-08-27/221716184284.shtml，其域名为news.sina.com.cn；

II)http://sports.sina.com.cn/o/2008-08-28/08143907467.shtml，其域名为sports.sina.com.cn；

III)http://www.google.cn/intl/zh-CN/ads/，其域名为www.google.cn。

根据权利要求2所述的方法，其特征在于，其(3)中提取出真实标题(RealTitle)的方法包含：

(1)对所有网页的标题(也包括经过权力要求4所述方法处理后得到的RealSameTitle)进行清除HTML标记的处理，使得标题中不再包含任何HTML标记(HTML标记就是HTML TAG，诸如<html></html><body></body><font></font>等，参见w3c组织颁布的最新HTML标准)。

这个方法是可选的，不是必须的。

(2)对所有网页标题(包括经过上述方法(1)或权力要求4所述方法处理后的网页标题)内容进行切割，可以任选如下字符中的一个或多个来作为分隔符，将标题切割为多个部分：

1)空格：(该分隔符只适用于字符集为中文、日文、韩文的网页)

2)减号：-

3)中文的破折号：—

4)下划线：_

5)英文冒号：:

6)中文冒号：：

7)英文逗号：,

8)中文逗号：，

9)竖线：|

10)英文点号：.

11)中文点号：。

12)英文圆括号：()

13)中文圆括号：（）

14)英文方括号：[]

15)中文方括号：［］

16)中文粗括号：【】

17)英文大括弧：{}

18)中文大括弧：｛｝

19)英文尖括号：<>

20)中文尖括号：《》

21)以及所有上述的字符对应的半角和全角字符形式

(3)在通过方法(2)切割出来的标题的各个部分中：

i.如果其中只有一部分包含指定的关键词(比如搜索引擎所定义词库中的关键词)，那么就将这部分作为该网页的真实标题(RealTitle)；

ii.如果其中有两部分或多个部分都含有指定的关键词，那么就以靠近标题左侧的那部分内容作为RealTitle，或者选择内容更长的部分作为RealTitle，也可以选择任意一部分为RealTitle；

iii.如果各部分都不包含指定的关键词，则选择内容更长的部分作为RealTitle，或选择任意一部分为RealTitle。

(4)直接将权利要求4所述方法得到的标题内容作为RealTitle。

这个方法是可选的，不是必须的。

这里方法(3)、(4)可以任选其一。

6.根据权利要求2所述的方法，其特征在于，其(4)中计算网页标题相似度ST的方法包含：

假设有两个RealTitle：RTa，RTb。首先将RTa和RTb都统一转换为UTF-8字符集。LTs代表RTa和RTb中包含的相同字符(或公共字符)的字符数长度，而LTa和LTb分别代表RTa和RTb的字符数长度，STab即作为网页A和网页B之间的标题相似度。那么：

STab＝|LTs/LTa-LTs/LTb|

7.根据权利要求1所述的方法，其特征在于，其(2)中计算网页正文相似度的方法包含：

(1)从网页中提取出被HTML标记所分隔的所有文本内容块，选出其中的一个或几个内容块作为代表本网页的核心内容RealBody；

(2)计算出RealBody的相似度，作为网页正文相似度。

8.根据权利要求7所述的方法，其特征在于，其(1)中获取RealBody的方法是：

(1)网页正文(命名为OriginBody)是HTML源码文件中位于HTML标记<body>和</body>之间的内容，这里的<body>和</body>是不区分大小写的。OriginBody中包含有很多段被各种HTML标记分隔开的文本内容块，分别提取出这些文本内容块Block1，Block2…Blockn；

(2)选择其中长度最长的文本内容块BlockLongest作为代表该网页的真正内容(RealBody)；这是可选的，不是必须的。

(3)从方法(1)得到的文本内容块中找出包含指定关键词(比如搜索引擎所定义词库中的关键词)的文本内容块，并从中选择任意一个或长度最长的文本内容块作为RealBody。这是可选的，不是必须的。

方法(2)、(3)可任选其一。

9.根据权利要求7所述的方法，其特征在于，其(2)中计算RealBody相似度SB的方法包含：

SBab＝|LBs/LBa-LBs/LBb|

10.根据权利要求1所述的方法，其特征在于，其(3)中判断网页A和B内容相同的方法包含：

(1)如果STab小于或等于k1，则判定为内容相同的网页，否则为不同内容；

其中，k1是预先设定的阀值，比如k1＝0.1。伪代码如下：

If(STab＜＝k1)

Then A＝B

Else A！＝B

If(SBab＜＝k2)

Then A＝B

Else A！＝B

If((STab＜＝k1)&&(SBab＜＝k2))

Then A＝B

Else A！＝B

方法(1)、(2)、(3)可任选其一。

11.根据权利要求1所述的方法，其特征在于，其中方法(1)和方法(2)可以任选其一，也可以同时使用。