CN102945244A

CN102945244A - 基于句号特征字串的中文网页重复文档检测和过滤方法

Info

Publication number: CN102945244A
Application number: CN201210359942XA
Authority: CN
Inventors: 黄宜华; 袁春风; 韦永壮; 刘玉龙; 张建
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2012-09-24
Filing date: 2012-09-24
Publication date: 2013-02-27

Abstract

本发明公开了一种基于句号特征字串的中文网页重复文档检测和过滤方法，包括如下步骤：提取待检测网页的句号特征字串；利用所述句号特征字串对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容；计算所述网页主题文本内容的相似度，判定网页之间的重复关系和包含关系；将具有重复关系和包含关系的网页进行聚类。本发明针对中文网页，尤其是中文新闻网页，首先寻找有效的检测特征，能有效检测出网页上的有效正文部分，过滤掉网页上的广告等与主题正文内容无关的噪音部分；在此基础上，解决两两文档之间的相似性度量问题以及文档重复检测问题；最后解决大规模重复文档检测时的并行化处理问题。

Description

基于句号特征字串的中文网页重复文档检测和过滤方法

技术领域

本发明涉及一种文档检测方法，特别涉及一种基于句号特征字串的中文网页重复文档检测和过滤方法。

背景技术

互联网中存在着大量的近似重复的网页(据统计，中文网页的重复率达29％)，给搜索引擎带来了很多问题，大大增加了网页爬取、索引建立、空间存储的开销和负担，并大幅影响搜索引擎用户的使用体验、降低了用户的满意度。

两个完全相同的网页的检测是比较容易的，然而在实际的情况中，几乎很少有完全相同的网页。重复网页检测的第一个主要难点是，首先很多网站尤其是新闻网站，会转载同一篇报道或文章，因此，这些网页内的主题内容是完全相同的，但各个网站的网页上同时会加入一些其他的不同内容，比如广告、网站联系信息等，这些与主题内容无关的数据会成为文档检测时的噪音降低文档的相似性比较的准确性；此外，也有一些网页的主题内容的文字描述不完全相同，但在实际所描述的内容上是相同的，对此就要能提取出适当的文档语义特征而不能完全依赖于文档字符串的直接比较。因此，重复网页检测需要能识别出这些看似不同、但实际上内容是相同的网页。重复网页检测的第二个难点是，由于涉及到在数以百万计的文档中进行比较，同时由于每个文档都具有较大的长度，在一定的时间限度内完成海量的文档间的相互比较是一个非常耗时的计算过程，计算时间太长则无法满足搜索引擎需要定期爬取和尽快更新搜索网页的实际使用需求。

现有的重复网页检测方法难以在检测精度和计算性能上同时达到理想的处理效果。Shingling检测方法，处理速度很快，检测精度很差；Random Projection方法在性能上也有很大优势，但在精度上也未能提升太多；Imatch方法通过强化文档的语义信息提高检测精度，但其计算量过大，处理速度难以满足搜索引擎实时文档检测处理需求；SpotSigs使用了英文中的停词作为区分网页主题内容和无关内容的特征，但中文中缺少类似于英文的停词特征。

此外，虽然上述提出的方法在一定程度上可以借鉴来解决中文网页的重复检测问题，但是由于中文与英文之间在语法和语义上存在的显著差别，使得中文处理方法与英文处理方法有着很大的不同，尤其在新闻网页的处理上，因此，这些现有方法都不能适用与对中文网页的重复文档检测。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种基于句号特征字串的中文网页重复文档检测和过滤方法，针对中文网页，尤其是中文新闻网页，首先寻找有效的检测特征，能有效检测出网页上的有效正文部分，过滤掉网页上的广告等与主题正文内容无关的噪音部分；在此基础上，解决两两文档之间的相似性度量问题。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于句号特征字串的中文网页重复文档检测和过滤方法，包括如下步骤：

(1)提取待检测网页的句号特征字串；

(2)利用所述句号特征字串对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容；

(3)计算所述网页主题文本内容的相似度，判定网页之间的重复关系和包含关系；

(4)将具有重复关系和包含关系的网页进行聚类。

优选地，所述句号特征字串由如下步骤定义：

1)将网页中句号前固定长度的字符串作为该句号的特征字串抽取出来；

2)如果网页中连续出现的两个句号之间的字符串长度小于该固定长度，那么取后一个句号到前一个句号之间的字符作为后一个句号的特征字串；

3)如果网页中连续出现的两个句号之间的字符串长度为0，则忽略后一个句号的特征字串。

优选地，所述步骤(1)中，还包括过滤噪音句号特征字串的步骤，计算每个句号特征字串的反文档词频值，并设定一阈值，将小于该阈值的反文档词频值对应的句号特征字串视为噪音句号特征字串，并过滤掉。

优选地，所述步骤(3)中，判定多个网页之间的重复关系和包含关系，包括如下步骤：

①为所有待比较的网页主题文本建立句号特征字串倒排索引，如果某个句号特征字串在多个文本中出现，则将这些文本信息链接到同一链表中，并以该句号特征字串为链表的表头，同时文本信息中包含该文本所拥有的句号特征字串的个数，以便最后进行相似度的计算；

②将同一个链表中的所有文本分别与其它文本配对并标记为第一标记，每一对标记为第一标记的文本对表示这两个文本拥有一个相同的句号特征字串；

③合并有相同的句号特征字串的文本对，并将文本对的标记改为相同的句号特征字串的个数。

更优选地，所述步骤(3)包括：

假设集合a，b分别为网页A和网页B的句号特征字串集合，定义网页A、B的公共包含相似性CCS(a，b)为：

CCS (a, b) = \frac{| a \cap b |}{\min {| a |, | b |}}

其中，|a|、|b|和|a∩b|分别表示集合a、b和ab交集中句号特征的个数；进一步，定义句号特征字串集合a和b的公共长度比CLR(a,b)为：

CLR (a, b) = \frac{\min {| a |, | b |}}{\max {| a |, | b |}}

然后，通过如下方式判定网页A，B之间的重复关系和包含关系：

若CCS(a，b)<Tccs，则网页A和B不具有任何重复或包含关系；

若CCS(a，b)>=Tccs且CLR(a，b)<Tclr，则网页A和B为包含关系；

若CCS(a，b)>=Tccs且CLR(a，b)>Tclr，则网页A和B为重复关系；

其中，Tccs和Tclr分别为为CCS(a，b)和CLR(a，b)所设置的判定阈值。

优选地，所述步骤(4)包括如下步骤：

(A)为所有的网页创建无向图结构：每个网页视为一个结点，若网页A和网页B之间已被步骤(3)判定为具有重复关系或包含关系，则为A，B结点在无向图中创建一条边，则形成连同一连通分量的网页结点属于同一重复类；

(B)找出无向图中满足如下关系的所有连通子图：对于无向图中的某一结点A，以A为中心点，找出与A相连通且连通路径上的边数小于等于2的所有结点，这些结点与A构成一个连通子图，则属于同一连通子图的网页结点构成一个重复类；

(C)保留其中网页数最多的那个重复类作为该网页结点的重复类。

进一步的，所述基于句号特征字串的中文网页重复文档检测和过滤方法采用并行化处理实现。

有益效果：针对搜索引擎对中文重复网页检测和过滤功能的需求，根据句号在中文文档中的使用和统计特征，本发明提出一种基于句号特征字串来提取网页主题内容并进行重复文档相似性检测的简明有效的方法。该方法首先提取新闻网页中的句号特征，然后利用该句号特征对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容；然后继续利用主题文本内容中的句号特征，定义一种称为“公共包含相似度”的新的网页相似度度量模型和方法，以有效地度量网页之间的重复关系和包含关系；基于该度量模型和方法，进一步完成重复文档的检测；最后对检测出的重复文档进行聚类，把相同类别的重复文档分别归并到一起，以此在用户搜索网页时能像用户显示经过重复文档检测和过滤的结果网页。本发明作用在中文新闻网页上的准确性高达99％，比目前精确度最高的IMatch方法的精确度要高一倍以上；而其计算性能上，由于使用了简洁的句号特征字串完成正文内容的过滤和提取，方法简便易行，实现代价低，计算速度快，计算性能可以达到Shingling等快速方法的速度，其简洁有效的实现为搜索引擎的实时性检测处理带来很大方便。因此，本方法将能为中文搜索引擎用户、尤其是中文新闻网页搜索带来全新的搜索体验，使用户能更快的搜索到更多的有效信息。

附图说明

图1为搜索引擎中重复文档检测处理流程图；

图2为不同网站但内容重复的两个新闻网页；

图3为网页中带有句号成为噪音句号特征的模板内容(分属图2两个网页)；

图4为计算多个文档相似度的处理过程图；

图5为y＝1-(1-r)(1-r²)ⁿ的折线图，其中r=0.8；

图6为原型搜索引擎系统功能模块和处理流程图；

图7为原型系统的索引设计与检索过程图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明中的中文重复文档检测方法的主要设计思想和处理过程是：为了对搜索引擎响应用户的一次搜索请求后所搜索出来的巨量网页进行重复文档检测，我们提出并使用一种简洁有效的中文句号特征，利用中文句号在网页文本中的使用特性和统计特征，完成网页主题内容的过滤以及网页主题内容的相似性比对；在文档两两比对确定了相似性程度之后，再利用文档聚类方法把相同的重复文档归类到一起，以便在用户进行网页搜索时能向用户返回不重复的网页结果，总体流程图如图1所示。

1.中文句号特征字串和网页主题内容提取

1.1中文句号的特性和在重复文档检测中的作用

当显示一条新闻或文章时，每个网站都会基于自己的网页模板显示该新闻或文章，而网页模板除包含主题文档内容外，通常还会有一些超链文本、广告、读者回复评论、网站信息等，因此，如图2所示，即使是转载自同一来源的一条新闻，在不同网站上显示时网页内容也会不同。而这些来自不同网站的不同的模板信息在在进行网页文档相似性比对时会形成噪音，从而大大降低文档相似性检测的准确性。为此，在对来自不同网站的网页进行相似性比较之前，我们首先需要设法去除网页上那些构成噪音的模板信息，保留和提取出网页的主题新闻或文章的正文信息。因此，能否有效地过滤掉模板信息并提取出主题正文信息，将决定最终的重复文档检测的准确性。

根据TF-IDF词频统计的思想，IMatch方法通过计算文本中每个单词(或者token)的IDF值并把IDF值较高的单词过滤掉，以此达到去除模板内容的目的，但这种方法所得到的主题内容仍可能包含模板中的内容，因此实际上仍然会包含很多噪音。SpotSigs试图以停词为特征提取出网页上的主题内容，由于模板内容中也存在不少的停词，因此这种方法仍然很难准确的提取出网页的主题内容；此外，与英文网页不同，中文网页缺少像英文网页那样的明显和频繁的停词特征，因此，SpoSigs方法也难以适用于中文重复文档的检测。Shingling方法采用“叠瓦”方法从文档中选择特征并进行特征空间压缩，这种方法计算速度快，但完全没有考虑噪音模板信息的过滤，因此，其针对Web文档的检测准确性也很低。

我们的研究发现，在中文网页中句号的使用和出现具有较为显著的统计特性。由于句号通常用来表示一个完整句子的结束，而网页模板中的菜单、超链接文本、网站信息等非主题性模板内容，通常都不是完整的句子，因此，与网页上的主题正文相比，这些网页模板信息很少使用标点符号，尤其是几乎不会使用句号，如图2中的“首页”、“新闻”、“军事”、“体育”等栏目菜单和下部的超链接文本都是不包含句号的文本。因此，通过提取和统计网页各部分的句号特征，就能有效区分出网页上的主题正文内容和非主题性的模板信息。因此，我们可以充分利用句号的这一特征，将模板内容与主题内容有效地区分开来，以完成网页主题内容的提取，以此减少重复网页检测时模板信息对检测准确性的影响。

进一步的分析发现，句号不仅可以用来区分主题内容与模板内容，在对提取出的主题内容文本进行相似性比对时，具有一定重复性的两个文档之间，句号及句号前的文本字串的出现的相似性可以在很大程度上反应出两个文档间的相似性。之所以需要同时使用句号和句号前的文本字串，是因为如果仅仅使用句号，在进行文档相似性比对时，单纯的句号不具有足够的准确识别文档相似性的能力，因此，需要结合句号前部的文本字串一起考虑，以此增强文档语义特征对相似性比对的作用。

1.2句号特征字串的定义和提取与噪音句号特征字串的过滤

基于以上的分析和设计思想，针对网页主题内容提取和主题文本相似性比对的共同需求，我们联合使用句号特征和句号前部的文本字串，定义以下的句号特征字串(简称“句号特征”)：

（1）将网页中句号前若干个固定长度(比如10)的字符串作为这个句号的特征值抽取出来。

（2）如果网页中连续出现的两个句号之间的字符串长度小于所指定的固定长度，那么取后者到前者之间的字符作为后者的特征值。

（3）如果网页中连续出现的两个句号之间的字符串长度为0，则忽略后者的特征值。

基于这种句号特征字串的定义，在进行后续的文档主题内容提取和相似性比对之前，我们将先对待比对的每个网页进行句号特征字串提取的预处理。

基于句号特征字串提取新闻网页主题内容的方法在一些情况下仍然会带有少量的噪音特征，例如图3中属于模板信息的新闻内容下部可能包含句号。显然，这些内容如果作为网页的特征提取出来，必然影响网页主题内容正文之间的相似度计算。为了过滤这些来自模板内容的噪音句号特征，我们采用计算每个句号特征值的IDF(Inverse Document Frequency，反文档频率)方法，IDF值小于一定阈值则视其为模板内容并过滤掉。

假设N为所有网页文档的个数，n为出现某个特征值的网页文档的次数，则这个特征值的IDF值计算如下：

IDF＝log₂(N/n)

显然，类似图3中的句子会在所有与它们具有相同模板的网页中出现，因此，这些句子所提取的句号特征的n值会很大，而他们的IDF值就很小。通过设定合理的阈值，忽略那些IDF值小于阈值的特征值，可以很好的过滤那些噪音句号特征。

1.3基于句号特征字串的网页主题内容提取

如前所述，网页文档中的句号特征可以用来区分网页的主题内容和模板信息。由于区分出网页主题内容之后的一个步骤将对网页主题内容进行相似性比对，而这个相似性比对也是基于句号特征进行的，因此在实际的程序实现和数据处理上，我们并不需要真的去进行主题内容文本的提取。由于句号特征字串提取处理中包含了噪音句号特征过滤处理，也就是说最后保留下来的句号特征字串刚好就是网页主题文本内容所包含的特征，这些句号特征字串恰好代表了网页主题内容。因此，我们可以利用句号特征提取处理后所得到的句号特征，直接用来进行后一步的主题内容相似性比对。从这个意义上说，我们的文档检测过程中所说的网页主题内容提取和模板信息过滤处理已经与句号特征提取处理合二为一了，因而网页主题内容提取和模板信息过滤仅仅是一个慨念性的步骤，在实际的程序实现和数据处理上是不需要额外考虑和实现的。

2.基于公共包含相似性度量模型的重复文档检测

2.1基于句号字串特征的公共包含相似性度量模型

在完成了句号特征字串提取后，我们将开始利用所获得的句号字串特征来近似计算文档的相似度。一般来说，如果两个文档具有重复关系或者包含关系，则这两个文档的绝大部分句子都是相同的，因为句子是语言中表达相对完整意义的最小单位。因此，我们可以直接通过句号特征来近似计算文本主题内容的相似度。为此，首先需要基于网页主题文本的句号字串特征建立一个有效的文档相似性度量模型。

重复网页检测问题一般来说主要有两个任务：一个是找出主要内容完全重复或者基本重复的网页，一个是找出主要内容是包含关系的网页。图2即为主要内容重复的两个网页，其中虚线框部分的内容是网页的主题内容，其它部分内容均称为网页模板内容，包括网页广告、网页标题、超链接文本、时间戳等。而文档包含关系是指两个文档不同，但其中一个文档的内容是另一个文档的子集，比如一个网站对另一个网站的某篇新闻稿进行剪辑和简报式的报道，此时被包含的文档在主题内容上保持与原始文档是一致的，这种包含关系的文档也应被作为重复文档检测出来。

为了衡量网页之间的重复关系或者包含关系，传统方法通常基于文本相似性来度量网页的重复关系，如Jaccard相似性和Cosine相似性，或者基于公共子序列来度量包含关系，如最长公共子序列LCS或公共子序列CS。但这些度量模型都比较单一，难以适应于对不同类型重复文档的有效检测。为了能够同时得到文本的重复关系和包含关系，又能区分两者的不同，我们提出一种联合定义重复关系和包含关系的共性相似性度量模型和方法。假设集合a和集合b分别是网页A和网页B的句号特征字串集合，定义公共包含相似性CCS(a,b)为(CCS，CommonContainment Similarity)：

CCS (a, b) = \frac{| a \cap b |}{\min {| a |, | b |}}

不难看出，无论集合a，b是重复关系还是包含关系(我们称之为公共包含关系)，CCS(a，b)的值均会很高。因此，通过设定一个CCS的合理阈值，即可找出网页之间的不同包含关系。但是，为了能够进一步区分重复关系和包含关系的不同，我们进一步定义a，b集合的公共长度比CLR(a,b)为(CLR，Common LengthRatio)：

CLR (a, b) = \frac{\min {| a |, | b |}}{\max {| a |, | b |}}

显然，如果a，b是重复关系，a，b集合的长度会很相近，即CLR(a，b)接近1.0；如果a，b是包含关系，则它们的长度一定相差较远，即CLR(a，b)值远小于1.0。因此，通过如下方式可判定网页A，B之间的重复关系和包含关系：

若CCS(a，b)<Tccs 则网页A和B不具有任何重复和包含关系

若CCS(a，b)>=Tccs且CLR(a，b)<Tclr 则网页A和B为包含关系

若CCS(a，b)>=Tccs且CLR(a，b)>Tclr 则网页A和B为重复关系

其中，Tccs和Tclr分别为为CCS和CLR所设置的判定阈值。

2.2重复文档检测处理方法和过程

利用句号特征字串，基于上述所定义的公共包含相似性度量模型，我们可进一步对所提取出的网页主题文本进行重复文档检测处理。实际处理大量网页文档的相似性比对时，并不是两两逐个比较，而是多个文档同时进行计算和处理。

图4即为计算多个文档相似度的处理过程，图中dn表示一个网页文档标识号，ti表示一个特定的句号特征字串。多文档相似度计算主要分为以下三个步步骤：

第一步，为所有待比较的网页主题文本建立句号特征倒排索引，如果某个句号特征字串在多个文本中出现，则将这些文本信息链接到同一链表中，并以句号特征字串为链表的表头。同时文本信息中要包含该文本所拥有的句号特征个数，以便最后进行相似度的计算。这一步得到图4-b所示数据结构。

第二步，将同一个链表中的所有文本分别与其它文本配对并标记为1，每一对标记为1的文本对表示这两个文本拥有一个相同的句号特征字串。这一步得到图4-c所示数据结构。

第三步，合并有相同的句号特征字串的文本对，并将文本对的标记改为相同的句号特征字串的个数。

通过第三步得到的信息，即可根据CCS和CLR公式进行计算来判定文本对是否为重复或者包含关系。设文本D1，D2的句号特征字串集合分别为d1和d2，则两个文本间的相似关系可通过如下方式判断：

CCS(d₁,d₂)＝|d₁∩d₂|/min{|d₁|,|d₂|}＝2/min{4,2}＝2/2＝1

CLR(d₁,d₂)＝min{|d₁|,|d₂|}/max{|d₁|,|d₂|}＝min{4,2}/max{4,2}＝2/4＝0.5

根据统计结果，如果我们将CCS的阈值设为0.7，CLR的阈值设为0.8，则可判定d1和d2具有重复或者包含关系。

3.重复网页的聚类

对于用户发出的一个搜索请求，在搜索引擎后台服务器可能会搜索出数以百万计的结果网页，对这些网页经过前述的基于句号特征的主题内容提取和重复文档检测后，系统可以确定所有文档两两之间的重复关系。进一步我们需要根据检测出的重复关系对所有重复文档进行聚类，然后每个不同的重复文档聚类集合只向用户显示一个代表性的结果网页(允许用户在需要时展开一个重复文档集合中的所有来自不同网站的重复性文档)，以此大大减少搜索引擎结果页面的重复信息。

常用的数据挖掘中的文本聚类方法(如k-means等)通常需要经过较为复杂的过程才能在Hadoop并行个分布式环境下顺利完成，增加了搜索引擎的后台处理时间。我们将采用一种简单而有效的文本聚类方法，对具有重复关系和包含关系(即共性包含关系)的文档进行聚类。聚类过程如下：

首先，为所有的网页创建无向图结构：每个网页视为一个结点，若两个网页A，B之间已被上述步骤判定为具有公共包含关系，则为A，B结点在无向图中创建一条边。分析发现，形成连同一连通分量的网页结点属于同一重复类。

其次，找出无向图中满足如下关系的所有连通子图：对于无向图中的某一结点A，以A为中心点，找出与A相连通且连通路径上的边数小于等于2的所有结点，这些结点与A构成一个连通子图。分析发现，属于同一连通子图的网页结点构成一个重复类。

最后，一个结点可能同时属于多个连通子图，即一个网页可能同时属于多个重复类，因此，保留其中网页数最多的那个(如果有多个，则任选一个)重复类作为该网页结点的重复类。

值得注意的是，对于第二步寻找连通子图的方法，算法得到连通子图并不一定是连通分量，而有可能是连通分量的子图，因为我们的约束条件要求连通子图的中心点到其它点的连通路径长度最多为2，以此简化处理过程。但是对于寻找网页重复类这一特定问题来说，只要前述检测重复网页的方法准确率够高，我们的方法就足以把绝大多数重复的网页聚在一起。

假设经过人为判定，网页A与B是重复类，而我们的方法判定A与B是重复类的准确率是r，且有n个网页与A和B属于同一重复类。则A与B被聚在一起的概率为：

1-(1-r)(1-r²)ⁿ

即A与B被聚在一起的的情况有两种：

1）A与B之间有边，概率为r；

2）A与B经过n个点中某一个点相连通，概率为r²。

则以上两种情况中至少有一种情况发生的概率可通过如上公式求得。

由图5可知，当r值相对较高时，y＝1-(1-r)(1-r²)ⁿ的值会随着n的增大逐渐接近1，即便n值较小，y值也会很高。因此，当重复检测方法的精确性较高时，通过我们的方法把两个真实重复网页A与B聚在一起的概率会很高。

4.完整的重复检测方法CCDet的设计与并行化实现

4.1网页重复检测方法及其MapReduce并行化的主要实现过程

基于以上的设计思想和处理过程，我们可以设计出完整的网页重复检测方法。

虽然已经完成了以上的重复文档检测算法和基本处理过程的设计，但由于在实际的搜索引擎应用中每次搜索出的结果网页会高达数十万、数百万个，对如此巨量的结果网页要在可接受的时间内完成重复文档检测和过滤处理，仅仅有以上的串行化方法是远远无法满足要求的。很显然，在可接受时间内完成如此巨量的文档检测处理，唯一可行和有效的办法就是并行化处理。

目前Web海量数据并行化处理最有效的方法就是Google公司发明的MapReduce海量数据并行处理技术。因此，我们将采用Google MapReduce的开源实现软件Hadoop海量数据分布式存储和并行处理系统来完成以上整个重复文档检测和过滤方法的并行化设计和实现。

我们将系统运行于Hadoop分布和并行计算集群环境下，所有任务均以MapReduce并行计算框架实现。CCDet的主要方法及其并行化编程实现的主要处理步骤如下：

第一步，提取和过滤句号特征字串。该步骤首先并行的遍历所有文档，并将文档中出现的句号特征提取出来；然后计算每个句号特征的IDF值；最后将IDF值不满足阈值的过滤掉。

第二步，根据提取的句号特征字串计算网页主题文本内容的相似度。该步骤首先统计网页对拥有的相同的句号特征的个数，然后计算网页对的CCS和CLR值并判定他们的关系。

第三步，将具有重复关系和包含关系的网页进行聚类。

4.2句号特征字串提取的MapReduce并行化程序设计实现

本步骤的主要任务是对大量待检测的网页进行句号特征字串的提取的并行化处理，该步骤需要2个独立的MapReduce作业来完成，分别完成网页文档句号特征字串的IDF值计算、以及噪音句号特征字串的过滤。

1)句号特征字串IDF计算MapReduce程序

Map输入：<IndexDoc,Signatures>,其中IndexDoc为保存的网页文档信息，包括docID，urlID，以及文档总数maxDoc等，Signatures为对应提取的“句号”特征集合。

Map处理过程：输出每一个<句号特征，网页文档标识>键值对

对(IndexDoc key，Signatures value)做如下处理：

For any Signature in value

Omit<Signature，key＞;

Shuffle和Sort过程：

将Signature相同的key-value对发射到同一个Reduce节点上。

Reduce处理过程：根据句号特征计算文档的IDF值

对(Signature key，Iterator<IndexDoc>value)做如下处理:

统计value个数n;

IDF＝log₂(key.maxDoc/n);

If(IDF>threshold)

Output<key，value>;

Reduce输出：<Signature,IndexDoc>

2)噪音句号特征字串过滤MapReduce程序

Map输入：<Signature，IndexDoc>，即Job1的Reduce输出。

Map处理过程：将<句号特征,网页文档标识>键值对对调一下

对于<Signature key，IndexDoc value>做如下处理：

Omit<value，key>；

Shuffle和Sort过程：将IndexDoc.docID相同的key-value对发射到同一个Reduce节点上

Reduce处理过程：把保留下来的句号特征存入网页文档索引表中

对于(IndexDoc key，Iterator<Signature>value)做如下处理；

Reduce输出：<IndexDoc,NullWritable>

4.3基于公共包含相似性模型的网页相似性比对

该步骤需要2个独立的MapReduce作业来完成，分别统计网页对拥有的相同的句号特征的个数并计算每对网页之间的CCS值和CLR值,并判定网页对的关系。

1)统计网页对拥有的相同的句号特征的个数

Map输入：<IndexDoc,NullWritable>，即上一步Job2的Reduce输出。

Map处理过程：输出存放在文档索引表中的句号特征

对于<IndexDoc key，NullWritable value>做如下处理：

For any Signature in key.signatures

Omit<Signature,key>;

Shuffle和Sort过程：

将Signature相同的key-value对发射到同一个Reduce节点上。

Reduce处理过程：检查和输出包含相同句号特征的文档对

对于<Signature key，Iterator<IndexDoc>value>做如下处理;

Reduce输出：<DocPair,IntWritable>,DocPair 表示网页文档对。

2)计算每对网页之间的CCS值和CLR值,并判定网页对的关系

Map输入：<DocPair,IntWritable>，即Job1的Reduce输出。

Map处理过程：

对于<DocPair key，IntWritable value>做如下处理

Omit<key，value>

Shuffle和Sort过程：将DocPair中两个IndexDoc的docID都相同的key-value对发射到相同的Reduce节点上。

Reduce处理过程：计算相似性值CSS和CLR

对于<DocPair key，Iterator<IntWritable>value>做如下处理;

统计value的个数n;

n₁=getLength(key.getDoc1().signatures);

n₂=getLength(key.getDoc2().signatures);

CCS＝n/min(n₁，n₂);

CLR＝min(n₁，n₂)/max(n₁，n₂);

If(IsSatisfy(CCS,CLR))

Output<key，new NullWritable()>；

Reduce输出：<DocPair,NullWritable>

4.4重复网页的聚类

重复网页聚类需要4个独立的MapReduce程序完成，包括找出可通过最多一个网页相连通的网页对，找出可通过最多两个网页相连通的网页对，将可连通的所有网页合并成一个集合、并为每个集合中的网页打上唯一的标记，如果一个网页属于多个集合，则取元素最多的那个集合的标记作为这个网页的标记。

1)第一次迭代，找出可通过最多一个网页相连通的网页对

Map输入：<DocPair,NullWritable>，即上一步Job2的Reduce输出。

Map处理过程：输出两个文档对的不同组合

对于(DocPair key，NullWritable value)做如下处理：

Shuffle和Sort过程：

将IndexDoc.docID相同的key-value对发射到同一个Reduce节点上。

Reduce处理过程：找出可通过最多一个网页相连通的网页对

对于(IndexDoc key，Iterator<IndexDoc>value)做如下处理：

Reduce输出：<DocPair,NullWritable>

2)第二次迭代，找出可通过最多两个网页相连通的网页对

Map输入：Job1的输出。

Map处理过程：同Job1。

Shuffle和Sort过程：同Job1。

Reduce处理过程：同Job1。

Reduce输出：同Job1.

3)将可连通的所有网页合并成一个集合，并为每个集合中的网页打上唯一的标记

Map输入：Job1的输出。

Map处理过程：同Job1。

Shuffle和Sort过程：同Job1。

Reduce处理过程：

对于(IndexDoc key，Iterator<IndexDoc>value)做如下处理：

Reduce输出：<IndexDoc,NullWritable>

4)如果一个网页属于多个集合，则取元素最多的那个集合的标记作为这个网页的标记

Map输入：<IndexDoc,NullWritable>，即Job3输出。

Map处理过程：

对于<IndexDoc key，NullWritable value>做如下处理：

Omit<key.docID,key＞；

Shuffle和Sort过程：

将docID相同的key-value对发射到同一个Reduce节点上。

Reduce处理过程：

对于(IndexDoc key，Iterator<IndexDoc>value)做如下处理：

Reduce输出：<IndexDoc,NullWritable>

5.实验结果

为了测试本方法的有效性，我们将本方法作用于3000多个中文新闻网页信息上，并将检测出的重复网页按成对的形式进行统计，计算出所检测出的具有公共包含关系的网页对的精确度和有效个数。

表1实验结果

关系类型	总数	正确数	精确度
				公共包含	719	695	0.967
重复	393	392	0．997
				包含	326	303	0.93

表1显示，方法在重复性检测精度上达到0.997，在包含关系检测精度上达到0.93，在整体的公共包含关系检测精度上达到0.967，均达到很高的精确度。

同时，为了与其他方法进行检测精确度和效果比较，我们还分别实现了两个经典的重复网页检测方法IMatch和SpotSigs，并将他们作用于相同的数据上与本方法进行比较。由于本方法不仅找出了内容重复的网页，还找出了具有包含关系的网页，而IMatch和SpotSigs方法只用于检测内容重复的网页，因此，我们只提取本方法找出的内容重复的网页与IMatch和SpotSigs进行比较。

对于IMatch，我们采用计算Jaccard相似性的方法度量网页之间的相似性，阈值取0.7。对于SpotSigs，我们选择1200多个中文停词(如“的”，“哎”，“哎哟”等)作为特征进行抽取，相似性度量方法同样采用Jaccard相似性，阈值取0.7。

表2即为本方法与其它方法的实验结果比较。其中，IMatch和SpotSigs的准确性均很低，且他们找出的重复对的个数也远远低于本方法。此外，IMatch的精确度要比SpotSigs要高。由此得出，本方法在中文重复网页检测处理上效果要显著高于现有的其他方法。

表2CCDet，IMathc和SpotSigs实验结果比较

算法	重复对的个数	正确个数	精确度
				CCDet	393	392	0.997
IMatch	131	53	0.405
				SpotSigs	1030	47	0.045

6.带重复文档检测过滤功能的验证演示性原型系统的设计实现

为了验证本发明中的重复文档检测方法的有效性，同时为试图使用本项技术的搜索引擎展示如何在其系统中具体集成和使用该项技术，我们设计实现了较为完整的原型搜索引擎系统。图6为原型系统的功能模块和处理流程。为了实现搜索引擎的网页搜索功能，首先，系统需要对爬取的网页文本库进行文档搜索时的倒排文档索引建立。与此同时，系统采用CCDet算法对所有网页进行重复文档检测处理，属于同一重复类的网页会得到相同的标记。当系统根据用户提交的搜索关键词返回搜索结果时，如果搜索结果中包含相同标记的网页，则将这些网页进行简单的聚类并只将其中一个网页的索引显示在首页上，其它网页索引可以通过某一链接进行查看。

原型系统的索引设计

原型搜索引擎系统的倒排文档索引设计基于Nutch-1.2之上，包括词典及词典索引信息、文档号与词频信息、词位置信息、段与域的信息等。除此之外，基于这些索引结构，为了能标记出不同类别的重复网页，我们在文档索引中添加一个keywords域来标记重复网页，相互重复的网页之间的keywords值是相同的。keywords值在进行重复文档检测处理最后的聚类处理时产生，keywords标记与网页文本内容、url信息等一同存储在索引结构表中。

而在用户进行联机检索时，如图7所示，系统首先根据检索词获得相关结果网页的索引信息，这些索引信息包括标题文本、网页的summary信息、网页的url和keywords值。然后将网页索引信息按照keywords进行简单的聚类，由于这一过程只是简单的比较keywords是否相同，因此不需要消耗太多时间。最后系统会将聚类以后的索引信息的标题文本，summary信息和url信息显示给用户。

Claims

1.一种基于句号特征字串的中文网页重复文档检测和过滤方法，包括如下步骤：

(1)提取待检测网页的句号特征字串；

(4)将具有重复关系和包含关系的网页进行聚类。

2.根据权利要求1所述基于句号特征字串的中文网页重复文档检测和过滤方法，其特征在于：所述句号特征字串由如下步骤定义：

3.根据权利要求1所述基于句号特征字串的中文网页重复文档检测和过滤方法，其特征在于：所述步骤(1)中，还包括过滤噪音句号特征字串的步骤，计算每个句号特征字串的反文档词频值，并设定一阈值，将小于该阈值的反文档词频值对应的句号特征字串视为噪音句号特征字串，并过滤掉。

4.根据权利要求1所述基于句号特征字串的中文网页重复文档检测和过滤方法，其特征在于：所述步骤(3)中，判定多个网页之间的重复关系和包含关系，包括如下步骤：

5.根据权利要求4所述基于句号特征字串的中文网页重复文档检测和过滤方法，其特征在于：所述步骤(3)包括：

CCS (a, b) = \frac{| a \cap b |}{\min {| a |, | b |}}

CLR (a, b) = \frac{\min {| a |, | b |}}{\max {| a |, | b |}}

若CCS(a，b)<Tccs，则网页A和B不具有任何重复或包含关系；

若CCS(a，b)>=Tccs且CLR(a，b)<Tclr，则网页A和B为包含关系；

若CCS(a，b)>=Tccs且CLR(a，b)>Tclr，则网页A和B为重复关系；

6.根据权利要求1所述基于句号特征字串的中文网页重复文档检测和过滤方法，其特征在于：所述步骤(4)包括如下步骤：

7.根据权利要求1所述基于句号特征字串的中文网页重复文档检测和过滤方法，其特征在于：所述基于句号特征字串的中文网页重复文档检测和过滤方法采用并行化处理实现。