CN102402537A

CN102402537A - 中文网页文本除重系统及方法

Info

Publication number: CN102402537A
Application number: CN2010102817150A
Authority: CN
Inventors: 陈运文
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shengle Information Technolpogy Shanghai Co Ltd
Priority date: 2010-09-15
Filing date: 2010-09-15
Publication date: 2012-04-04

Abstract

本发明公开了一种中文网页文本除重系统及方法。该除重系统包括索引服务器和检索服务器，索引服务器包括网页文本预处理模块、组合特征句提取模块以及数字签名计算模块，检索服务器包括网页文本抓取模块和哈希查询模块。该除重方法包括：网页文本的归一化处理；提取文本的组合特征句；计算组合特征句的数字签名；与哈希表中已存在的数字签名比对，判定是否重复。该除重系统及方法可以帮助搜索引擎快速、准确地判定并去除互联网中大量内容重复的中文网页。当搜索引擎抓到新网页后，计算该网页的数字签名，通过与搜索引擎已保存网页的数字签名比对，判定该网页是否重复，若重复则放弃保存，从而避免了存储空间的浪费，同时提高了搜索引擎的检索精度。

Description

中文网页文本除重系统及方法

技术领域

本发明涉及一种中文网页文本除重系统，本发明还涉及一种利用上述除重系统去除重复中文网页的方法。

背景技术

目前，互联网中的信息数量正在以爆炸式的速度增长，用户必须借助搜索引擎才能在互联网海量的信息中查找到自己想要的信息。全文搜索引擎，如google、百度等，是真正意义上的搜索引擎，它通常会定期派出“蜘蛛”(spider)程序，按照一定规则抓取互联网上的网页，保存到本地存储系统中，当用户在搜索引擎的检索界面输入查询关键词后，搜索引擎就在本地的网页数据库中查找与查询条件匹配的记录，并按照一定的排序规则将检索结果返回给用户。

但是，由于互联网上的信息经常被互相转载，导致信息的重复率很高，这使得搜索引擎检索出的网页中往往存在大量内容相同的重复网页。重复网页有多种表现形式，有的是没有一点改动的拷贝；有的在内容上稍作了修改，比如，增加少量点评，删除少许文字，或改变文字段落顺序；有的则进行了细微的格式变化，比如，改变字体，修改标点，改变文字大小写等。据统计，互联网的网页中，内容大部分相同的页面占29％，而主体内容完全相同的页面占22％，也就是说，互联网上的全部网页中，约有1/4是重复的网页。

对于搜索引擎来说，这些存在于互联网中的数量庞大的重复网页，会带来很多问题。由于搜索引擎会将spider程序抓取到的网页下载并保存到本地存储系统中，而存储系统的容量是有限制的，大量重复网页会浪费搜索引擎的资源，挤占其他有价值网页的存储空间，此外，搜索引擎的检索效率也会因为本地网页数据库数据量的增加而降低，如此不仅浪费了用户的时间，也影响了用户的搜索体验。

网页除重，即去除互联网上的重复网页，是解决上述问题的有效方法，但是，由于搜索引擎收录的网页数量极其庞大，约在千万页以上，像google这种大型搜索引擎收录的网页数量更是多达几十亿，而且网页的存在形式也很复杂多样，如果直接将spider程序新抓取的一个网页和搜索引擎系统中已收录的海量网页逐一进行比对，计算的复杂度会非常高，例如，假设搜索引擎收录的文档数为n，文档平均长度为m，如果相似度计算的复杂度是T，T是m的函数，即T＝T(m)，文档两两比较的复杂度是0(n^2)，则合起来的复杂度就是0(n^2×T(m))，这样的复杂度，对于搜索引擎这种需要处理海量数据的系统，显然是难以接受的。

发明内容

本发明要解决的技术问题是提供一种中文网页文本除重系统，它可以快速、准确地识别并去除互联网中大量内容重复的中文网页。

为解决上述技术问题，本发明的中文网页文本除重系统，包括：

索引服务器，用于计算中文网页的数字签名，该索引服务器进一步包括网页文本预处理模块、组合特征句提取模块以及数字签名计算模块，该网页文本预处理模块用于对中文网页文本进行归一化处理；该组合特征句提取模块用于提取经网页文本预处理模块处理后的文本的组合特征句；该数字签名计算模块用于计算组合特征句的数字签名，并将计算得到的数字签名传给检索服务器；

检索服务器，用于判断中文网页是否重复，该检索服务器进一步包括网页文本抓取模块和哈希查询模块，该网页文本抓取模块用于抓取互联网上的中文网页文本，并传给索引服务器；该哈希查询模块中包含有用于存放搜索引擎系统已保存网页的数字签名的哈希表，该哈希查询模块用于查询待判定网页的数字签名是否与哈希表中的值存在重复，如果不存在重复，则将该待判定网页的数字签名加入到哈希表中。

本发明要解决的另一技术问题是提供一种利用上述除重系统进行中文网页文本除重的方法。

为解决上述技术问题，本发明的中文网页文本除重方法，包括如下步骤：

1)网页文本归一化处理，即对文本的编码，文本中的全角、半角字符以及大、小写字符进行一致性转换；

2)提取文本的组合特征句；

3)计算组合特征句的数字签名；

4)查找哈希表，判定数字签名是否与哈希表中的值存在重复，若存在重复，则去除该网页；若不存在重复，则将该网页保存到搜索引擎系统中，并将其数字签名添加到哈希表中；

5)重复步骤1)至4)，判定下一个待处理网页文本；

所述步骤2)进一步包括如下步骤：

21)判定文本的长度，若小于文本长度阈值，则从该文本中提取特征字符，作为组合特征句；若大于或者等于文本长度阈值，则转到步骤22)；

22)设置特征句分隔符列表，该特征句分隔符列表中的字符定义为分隔符；

23)依次遍历文本，提取候选组合特征句；

24)判断候选组合特征句的长度，若小于组合特征句长度阈值，则从该文本中提取特征字符，作为组合特征句；若大于或者等于组合特征句长度阈值，则以该候选组合特征句为组合特征句。

所述步骤23)进一步包括如下步骤：

231)遍历文本，提取当前特征句；

232)提取当前特征句中的特征字符，构成当前组合特征句，计算该当前组合特征句的长度；

233)判定是否已存在候选组合特征句，若存在，则计算候选组合特征句的长度；若不存在，则将候选组合特征句的长度设为0；

234)比较当前组合特征句与候选组合特征句的长度，若当前组合特征句的长度小于或者等于候选组合特征句的长度，则丢弃当前组合特征句；若当前组合特征句的长度大于候选组合特征句的长度，则用当前组合特征句替换原候选组合特征句，成为新的候选组合特征句；

235)重复步骤231)至234)直到到达文本尾部。

所述步骤231)进一步包括如下步骤：

2311)按照如下方法设定指针的起始位置：首次设定时，以文本头部的首字符为起始位置；再次设定时，以前次遍历时指针的结束位置的下一个字符为起始位置；

2312)从起始位置开始依次遍历后续字符，判定是否存在分隔符，若存在，则以该分隔符所在位置为指针的结束位置；若不存在，则以文本尾端的字符为指针的结束位置；

2313)把由指针的起始位置到结束位置之间的文本段保存为当前特征句。

所述特征字符，按照如下步骤进行提取：

去除空格；

提取文本编码中的中文字符；

提取数字0～9；

提取英文字符a～z。

本发明的中文网页文本除重系统及方法，提取了网页文本中最具代表性的内容来计算文本的数字签名，如此生成的数字签名不仅能保证文本特征的唯一性，而且具有一定的鲁棒性(robustness)，能够抵抗文本中少量文字的修改、对换等扰动，当搜索引擎抓取到一个新网页时，只要将该网页文本的数字签名和搜索引擎已有网页的文本的数字签名比对，即可快速、有效地判定新网页是否重复，从而避免了搜索引擎存储空间的浪费，同时，辅助提高了搜索引擎的检索精度和检索效率。

附图说明

下面结合附图与具体实施方式对本发明作进一步详细的说明：

图1是本发明的中文网页文本除重系统的模块结构示意图；

图2是本发明的中文网页文本除重方法的流程图。

具体实施方式

为对本发明的技术内容、特点与功效有更具体的了解，现结合图示的实施方式，详述如下：

如图1所示，本发明的中文网页文本除重系统，主要包括索引服务器和检索服务器两大部分，其中：

索引服务器，用于计算中文网页的数字签名。该索引服务器又进一步包括网页文本预处理模块、组合特征句提取模块以及数字签名计算模块。网页文本预处理模块用于对检索服务器传来的待判定网页文本进行归一化处理；组合特征句提取模块用于提取经网页文本预处理模块处理后的文本的组合特征句；数字签名计算模块用于计算组合特征句的数字签名，并将计算得到的数字签名传给检索服务器。

检索服务器，用于判断中文网页是否重复。该检索服务器又进一步包括网页文本抓取模块和哈希查询模块。网页文本抓取模块用于抓取互联网上的中文网页原始文本，作为待判定网页文本传给索引服务器；哈希查询模块包含有哈希表，该哈希表用于存放搜索引擎系统已保存网页的数字签名，该哈希查询模块用于查询待判定网页的数字签名是否与哈希表中的值(即已保存网页的数字签名)存在重复，如果不存在重复，则将此待判定网页的数字签名加入到哈希表中。

利用上述除重系统对互联网上的中文网页进行除重时，使用组合特征句签名法，即提取网页文本的组合特征句，计算其数字签名，利用数字签名建立哈希表，当搜索引擎抓取到新网页时，同样用前述方法计算数字签名，并与哈希表中已存在的数字签名比对，如果存在重复，表明该新网页内容重复，不需要保留，如果哈希表中不存在同样的数字签名，就把该新网页保存到搜索引擎系统中，同时把其数字签名加入到哈希表中。

下面以本发明的一个较佳实施例为例，并结合图1和图2，对本发明的中文网页文本除重方法做一详细说明。

(1)首先，网页文本抓取模块将新抓取到的中文网页的原始文本传给索引服务器，由网页文本预处理模块对该原始文本进行归一化处理，将其编码统一转换为UTF-8编码(Universal Character Set Transformation Format，8位通用字集转换格式)，同时将文本中的全角字符统一转换为半角字符，大写字符统一转换为小写字符，以避免因编码或大小写不一致带来的文本重复误判。由于网页文本有多种编码方式，例如ANSI编码，Unicode编码等等，因此把文本的编码统一转换为其他编码形式也是可以的。

(2)设定文本长度阈值，本实施例中，设定此阈值为80个字符。判定经上述归一化处理后的文本的长度，若其长度小于文本长度阈值，则从该文本中提取特征字符，依次放入字符串中，成为组合特征句，然后转到步骤(7)；若其长度大于或者等于文本长度阈值，则转到步骤(3)。前述提取特征字符的方法是：

去除空格；

提取UTF-8编码中的中文字符；

提取数字0～9；

提取英文字符a～z。

(3)设置特征句分隔符列表，该特征句分隔符列表中的字符定义为分隔符，分隔符使用UTF-8编码，且为半角字符，以与经归一化处理后的文本一致。为了能根据文本特点，更灵活地使用分隔符获取合适长度的特征句，本实施例将分隔符设置为A类和B类两类分隔符，A类分隔符包括以下4类字符：！？。；，B类分隔符包括以下20类字符：，：-+＝～‘“[]{}()《》<>/\。

(4)以文本头部的首字符作为指针的起始位置，依次遍历后续字符，寻找是否存在分隔符，同时记录已遍历文本的长度。如果存在分隔符，则以该分隔符作为指针的结束位置；如果遍历完该文本的所有字符，仍未发现分隔符，则以文本尾端的字符作为指针的结束位置。与步骤(3)相对应的，为了得到长度适当的特征句，本实施例预先设定一个阈值，在已遍历文本的长度小于或者等于此阈值时，只寻找是否存在A类分隔符，而一旦已遍历文本的长度超过此阈值，就将分隔符上升为A类和B类分隔符的总合，即寻找是否存在A类或者B类分隔符，只要出现A类或者B类分隔符，就以该分隔符所在的位置作为指针的结束位置；经测试，上述阈值被设定为1200个字符时，除重效果较理想。

(5)将指针起始位置至结束位置之间的文本段保存为当前特征句，并按照步骤(2)所述的提取特征字符的方法，提取该当前特征句中的特征字符，依次放入字符串中，形成当前组合特征句，并计算其长度。

系统中预先设置有一初值为空的字符串，用于存储候选组合特征句，该候选组合特征句的长度的初值即为0。

比较当前组合特征句和候选组合特征句的长度大小，若当前组合特征句的长度小于或者等于候选组合特征句的长度，则丢弃当前组合特征句，若当前组合特征句的长度大于候选组合特征句的长度，则以当前组合特征句替换候选组合特征句，保存为新的候选组合特征句。

(6)如果前次遍历尚未到达文本尾端，则重复步骤(4)至(5)，以前次遍历时，指针结束位置的下一个字符为起始位置，继续遍历后续文本，提取候选组合特征句，直到遍历完文本的全部字符。

然后，计算最后保留下来的候选组合特征句的长度，并判断长度是否低于预先设定的组合特征句长度阈值，如果低于该阈值，则从归一化处理后的文本中，按照步骤(2)所述的提取特征字符的方法，提取特征字符，形成组合特征句；如果大于或者等于该阈值，则以最后保留下来的候选组合特征句作为该文本的组合特征句。经测试，该组合特征句长度阈值被设定为100个字符时，除重的效果比较理想。

上述步骤(2)至(6)由组合特征句提取模块来完成。

(7)数字签名计算模块计算最后得到的组合特征句的MD5(message-digestalgorithm 5，信息-摘要算法)码，生成该文本的数字签名，即一个128位散列值。

(8)利用上述数字签名生成一张哈希表。然后，对所有需要判定的中文网页，都按照上述步骤(1)至(7)计算出数字签名，传给检索服务器，由哈希查询模块将待判定网页的数字签名与哈希表中已有的值(即搜索引擎系统已保存网页的数字签名)进行比对，判断数字签名是否存在重复，如果存在重复，则表示当前网页是重复网页，就不再保留，如果哈希表中不存在同样的签名，则表示当前网页非重复网页，需要将该网页保存到本地存储系统中，同时，将其数字签名添加到哈希表中。

综上所述，本发明的中文网页文本除重系统及方法，通过计算网页文本的数字签名来判定网页是否重复，由于用于计算数字签名的字符串是网页文本中最具代表性的内容，即组合特征句，因此，计算生成的数字签名能保证文本特征的唯一性，并具有一定的鲁棒性(robustness)，不会因为文本中出现的少量文字的修改、对换等扰动而发生数值上的变化，从而能够帮助搜索引擎识别出重复的网页，经测试，在上述较佳阈值条件下，使用该除重系统和除重方法对搜索引擎所抓取的20万网页进行去重操作的准确率达95％。

Claims

1.一种中文网页文本除重方法，其特征在于，包括如下步骤：

1)网页文本归一化处理，包括对文本的编码，文本中的全角、半角字符以及大、小写字符进行一致性转换；

2)提取文本的组合特征句；

3)计算组合特征句的数字签名；

5)重复步骤1)至4)，判定下一个待处理网页文本；

所述步骤2)进一步包括如下步骤：

23)依次遍历文本，提取候选组合特征句；

2.如权利要求1所述的中文网页文本除重方法，其特征在于，所述步骤1)中的一致性转换包括：将文本的编码转换为UTF-8编码；将文本中的全角字符转换为半角字符；以及将文本中的大写字符转换为小写字符。

3.如权利要求1所述的中文网页文本除重方法，其特征在于，所述步骤23)进一步包括如下步骤：

231)遍历文本，提取当前特征句；

235)重复步骤231)至234)直到到达文本尾部。

4.如权利要求3所述的中文网页文本除重方法，其特征在于，所述步骤231)进一步包括如下步骤：

5.如权利要求4所述的中文网页文本除重方法，其特征在于：所述步骤2312)中的分隔符，在已遍历的文本长度小于或者等于阈值时，为A类分隔符；在已遍历的文本长度大于阈值时，为A类或者B类分隔符的总和；该A类分隔符包括以下4类字符：！？。；，该B类分隔符包括以下20类字符：，：-+＝～‘“[]{}()《》<>/\。

6.如权利要求5所述的中文网页文本除重方法，其特征在于：所述阈值为1200个字符。

7.如权利要求1或3所述的中文网页文本除重方法，其特征在于，所述特征字符，按照如下步骤进行提取：

去除空格；

提取文本编码中的中文字符；

提取数字0～9；

提取英文字符a～z。

8.如权利要求1所述的中文网页文本除重方法，其特征在于：所述步骤24)中，组合特征句长度阈值为100个字符。

9.如权利要求1所述的中文网页文本除重方法，其特征在于：所述步骤3)中的数字签名采用MD5码。

10.一种中文网页文本除重系统，其特征在于，包括：