CN105574004A

CN105574004A - 一种网页去重方法和设备

Info

Publication number: CN105574004A
Application number: CN201410532559.9A
Authority: CN
Inventors: 唐小棚; 游永胜
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2014-10-10
Filing date: 2014-10-10
Publication date: 2016-05-11
Anticipated expiration: 2034-10-10
Also published as: HK1224049A1; CN105574004B

Abstract

本申请公开了一种网页去重方法和设备，包括：提取需要处理的网页的特征码；将所述特征码转换为key值，并在存储空间中查找是否存在所述key值；若存在，判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求；若判断结果为满足，则确定所述需要处理的网页重复；本申请能实现对内容相同的网页进行有效的去重，同时能节约存储资源，并提高用户的检索体验。

Description

一种网页去重方法和设备

技术领域

本申请涉及互联网领域，特别涉及一种网页去重方法和设备。

背景技术

目前网页检索结果中，用户经常会得到内容相同的冗余页面，它们不但浪费了存储资源，并给用户的检索带来诸多不便

但目前中文网页去重的方法还不是很多，且方法并不完备，其中主要中文网页去重的方法有：基于聚类的方法、排除相同URL的方法、基于关键词位置序列的方法、基于特征句抽取的方法等；以下对此进行简要分析：

一、聚类的方法

聚类是将一个对象的集合分割成几个类，每个类内的对象之间是相似的，但与其他类的对象是不相似的；其中，评判聚类好坏的标准:1、能够适用于大数据量；2、能应付不同的数据类型；3、能够发现不同类型的聚类；4、使对专业知识的要求降到最低；5、能应付脏数据；6、对于数据不同的顺序不敏感；7、能应付很多类型的数据；8、模型可解释，可使用。

去除重复网页的问题可以看成是一个特殊的聚类问题。因此可以采用一般的聚类方法来处理，我们可以用6763个汉字做成一个向量，将各个汉字在网页正文中出现的个数填入向量中，以该向量作为这个网页的一个特征，通过计算网页向量与聚类中心向量的夹角余弦值，两向量的模的大小关系，来判断这个网页是否应该归为该类。由于只有两个网页完全相同才归属于一类，因此网页向量与聚类中心向量的夹角应该非常小，而且向量的模应该基本相同。

但由于一般的聚类问题是把在某些特征上相似的元素聚为一类，而且聚类后总的类别数不会很多，且一般都有一定的限制。而这个问题的特殊性在于不是要把相似的元素聚成一类，而是把完全相同的元素聚成一类。另外，由于不同的网页占有很大的比例，它们都各自成为一类，聚类后总的类别数会特别大，且没有具体的限制。因为一般的聚类方法会比较每个元素到各个聚类中心的距离，当类别较少时，这种计算是可行的，但当类别数很大的时候，比较的次数就会大大增加，当要处理的数据很大时，这种算法所消耗的时间将会很长，从而导致在计算效率上的低下。可以计算这种方法的时间复杂度是O(n2)的，当数据量较大时(比如几十万网页)，这种方法是不可行的。另外，在计算网页相似度时很难取得合适的阈值使得能够保证网页内容的完全相同。因此，实际应用中难以适用。

二、排除相同URL方法

排除相同URL方法是目前各种元搜索引擎去重的主要方法。它分析来自不同搜索引擎的网页URL,将相同的URL认为是相同的网页给予去除。这种方法的特点是方法简单,易于实现,可去除一部分相同网页。但不足之处是未利用网页的文本内容结构信息,不能对转载造成的重复网页去重。

三、基于关键词位置序列的方法

要使用这种算法，首先需要考虑的是基本关键词如何获取，以便使用关键词列表判断文章是否重复。常用的方法是针对已知文档样本进行频度扫描。当对各个方面的文档进行分词和词汇频度计算后，常常可以获得高频词、中频词和低频词三种词汇段的数据。由于关键词的提取在搜索引擎系统中由相应的模块完成，因此，报文经过处理后会产生相应的关键词列表，列表中包含关键词、出现位置、频度等信息。该算法重点针对当两篇文档完全相同时可以获得相同的关键词命中序列，因此，属于严格意义上的报文重复。

但是，从算法的准确率而言，有两种情况需要避免。一种是两篇文档关键词三元组的信息相同但实际内容不同的情况，这样会造成算法的误判。另外一种情况，即关键词二元组没有匹配，但文档内容基本相同，仅仅是文档的内容次序发生了变化，这就改变了关键词二元组的次序，造成了文档的不匹配。

四、基于特征句抽取的方法

该方法首先要选取网页正文的特征句，将两篇网页是否重复的问题转化为求两篇网页的最长公共子序列的问题。并根据语言的直觉，当两篇网页的最长公共子序列的长度大于等于这两篇网页中较长的文本长度的95％时，认为这两篇网页重复的概率很大。

首先需要从文章中取出特征词，然后根据该特征词第一次出现的位置确定该篇网页文档的特征句，再将整篇文本的最长公共子序列的比较转换为两个句子的最长公共子序列的比较。为了抽取每个网页的特征词，考虑每个词语的词频信息、位置信息、是否在标题中出现以及其他一些特殊的标识性信息。综合考虑上述四个选项，分别赋予不同的比例，计算得到特征词的权值。文中四个特征按1：1：1：1的比例分配。算法步骤如下：

Step1：读网页文本，预处理；

Step2：计算每个词的权值；

Step3：取权值最大的词作为特征词；

Step4：根据特征词找特征句；

Step5：利用LCS算法进行特征句匹配；

Step6：进行下一个网页处理。

该算法的第1步主要是进行一些预处理的工作，先将一个待进行去重识别的网页文本读入，对其进行分词(仅针对汉语和部分东方语言)，然后去除对于词频统计没有作用的停用词，并将网页文本表示为向量。算法的第2，第3步计算向量中每个词的权值，并从中找出权值最大的词语。算法的第4步根据前面找到的该网页的特征词，在网页正文中寻找该特征词第一次出现的位置，以其第一次出现所在的句子作为该网页的特征句。算法的第5步则利用LCS算法在重复网页数据库中计算该特征句与数据库中每个特征句的匹配度，当匹配度达到设定的阈值时(根据对一些语料的统计暂定为0.85)，则认为该网页与重复网页数据库中的网页重复，将该网页与原网页合并，如果整个网页数据库中都没有与之重复的网页，则将该网页加入到网页数据库中。至此，该算法对一个网页的处理进行完毕，转到算法的开始进行下一个网页的处理。

该算法将两篇文本的全文比较转化成数个单词和句子的比较，一定程度的降低了算法的时间复杂度和空间复杂度，但对于大规模的网页去重也不是很理想，因为其最长公共子序列的寻找会花费大量的时间。

综上分析表明，现有技术中的网页去重算法各有其优点，但也均存在着不足；其中，例如聚类的方法效率低下，排除相同URL方法不能对相同文本内容网页进行去重；其他的方法也都存在各种缺陷，因此现有技术中并没有能很好的解决网页去重的技术问题。

发明内容

本申请提供了一种网页去重方法和设备，能有效去除内容重复的网页，能很好地节约存储资源，同时提高用户的检索体验。

为了达到上述目的，本申请公开了一种网页去重方法，包括：

提取需要处理的网页的特征码；

将所述特征码转换为key值，并在存储空间中查找是否存在所述key值；

若存在，判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求；

若判断结果为满足，则确定所述需要处理的网页重复。

具体的，在所述提取需要进行处理的网页的特征码之前，还包括：

确定得到的网页的类型；

若所述得到的网页为主题型网页，对所述得到的网页的正文内容进行统一编辑，并将编辑后的网页作为所述需要处理的网页。

优选的，所述提取需要处理的网页的特征码，包括：

将所述需要处理的网页的正文内容放在二维矩阵中；

提取所述二维矩阵中预设区域内的内容作为特征码。

具体的，所述将所述特征码转换为key值，包括：

将所述特征码通过散列函数转换为散列值作为key值。

优选的，所述判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求，包括：

通过公式来计算S值，其中，A为所述需要处理的网页的字符数；B为存储空间中所述key值对应的网页的字符数；

当S值大于所述预设条件中的阈值时，则判断结果为不满足预设要求；

当S值小于等于所述阈值时，则判断结果为满足预设要求。

优选的，在所述在存储空间中查找是否存在所述key值之后，还包括：

若存储空间中不存在所述key值，将不存在于所述存储空间中的key值存入所述存储空间，并记录下所述需要处理的网页的字符数。

优选的，在所述判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求之后，还包括：

若所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间不满足预设要求，则将所述需要处理的网页的字符数关联到所述key值，并存入所述存储空间。

另一方面，本申请还公开了一种网页去重设备，包括：

提取模块，用于提取需要处理的网页的特征码；

转换模块，用于将所述特征码转换为key值；

查找模块，用于在存储空间中查找是否存在所述key值；

判断模块，用于在所述查找模块确定所述存储空间中存在所述key值时，判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求；

去重模块，用于在所述判断模块确定满足预设条件时，确定所述需要处理的网页重复。

具体的，该设备还包括：

确定模块，用于确定得到的网页的类型；

处理模块，用于当所述得到的网页为主题型网页，对所述得到的网页的正文内容进行统一编辑，并将编辑后的网页作为所述需要处理的网页。

优选的，所述提取模块，具体用于将所述需要处理的网页的正文内容放在二维矩阵中，以提取所述二维矩阵中预设区域内的内容作为特征码。

优选的，所述转换模块，具体用于将所述特征码通过散列函数转换为散列值作为key值。

优选的，所述判断模块，具体用于通过公式来计算S值，其中，A为所述需要处理的网页的字符数；B为存储空间中所述key值对应的网页的字符数；

当S值小于等于所述阈值时，则判断结果为满足预设要求。

优选的，所述设备还包括：记录模块，用于当所述查找模块确定存储空间中不存在所述key值时，将不存在于所述存储空间中的key值存入所述存储空间，并记录下所述需要处理的网页的字符数。

优选的，所述设备还包括：存储模块，用于当所述判断模块确定不满足预设要求时，将所述需要处理的网页的字符数关联到所述key值，并存入所述存储空间。

与现有技术相比，本申请所提出的技术方案具有以下优点：通过应用本申请的技术方案，通过提取需要处理的网页的特征码；将所述特征码转换为key值，并在存储空间中查找是否存在所述key值；若存在，判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求；若判断结果为满足，则确定所述需要处理的网页重复，有效地对内容重复的网页进行了去重处理，节约了存储资源，同时提高了用户检索的体验。

附图说明

图1为本申请实施例中的一种网页去重方法的流程示意图；

图2为本申请实施例中的一种提取特征码的示意图；

图3为本申请实施例中的一种转换特征码的示意图；

图4为本申请实施例中的一种网页去重设备的结构示意图。

具体实施方式

本申请的目的是提供一种网页去重方法和设备，用以对内容相同的网页进行有效地去重，节约存储资源，提高用户的检索体验。

为达到以上技术目的，如图1所示，本申请实施例一提供了一种网页去重方法，具体包括以下步骤：

步骤101，提取需要处理的网页的特征码；

具体的，在步骤101之前，还包括：确定得到的网页的类型；若所述得到的网页为主题型网页(即包含有正文内容的网页)，对所述得到的网页的正文内容进行统一编辑，并将编辑后的网页作为所述需要处理的网页。

具体的，当确定得到的网页为主题型网页之后，由于得到的网页的正文内容所采用的编辑格式可能不一致，本申请中对其正文内容进行统一的编辑(例如采用相同的格式进行编辑)，并将编辑后的网页作为需要处理的网页；这样，可以使得若是正文内容一致，则会在该相同正文内容的任何位置或区域的内容也是相同的；当然，若所述得到的网页为其他类型的网页，比如导航型网页，由于其仅有目录或标题，并没有正文的内容，因此对于这种类型网页不需要考虑重复。

由此，本申请中的步骤101，所述提取需要处理的网页的特征码，具体可以包括：将所述需要处理的网页的正文内容放在二维矩阵中；提取所述二维矩阵中预设区域内的内容作为特征码。

具体的，由于之前已经对需要处理的网页的正文内容进行了统一的编辑，将其正文内容放在二维矩阵中，并提取该二维矩阵中预设的区域内的内容作为特征码(如图2所示)，该特征码具体是预设区域中包含的具有前后顺序的汉字，一般以取10个汉字作为该预设的区域大小的选取标准(特征码太长会给存储、计算带来较大的开销，特征码太短又会降低其区分能力)，当然，也并不要求一定是10个汉字，也可以是9个，11个等，预设的区域大小可以根据具体的需要来选择，以选择预设的区域内有10汉字为例，由于该10个汉字还具有前后顺序，因此如果按照6763个汉字(已经可以包括常用汉字及专业用语汉字)计算，这个特征码的重复概率大约为1/(6763)¹⁰，因此也就保证了该特征码在不同网页中几乎是不可能重复的，也即不同网页出现相同的该特征码的可能性是极小的，可以认为是不可能，当然为了进一步提高准确率，除了扩大预设的范围，还可以在不同的位置进行多次特征码的提取。

步骤102，将所述特征码转换为key值，并在存储空间中查找是否存在所述key值；

具体的，所述将所述特征码转换为key值，可以是将所述特征码通过散列函数转换为散列值作为key值；其中具体是散列函数可以为hashCode散列函数，当然，也并不限于该hashCode散列函数，只要可以将不同的特征码转换为不同的散列值就行，该散列函数就是可以的，其中，以JAVAString类中hashCode散列函数为例，其转换过程如图3所示，该hashCode散列函数能将字符串转换为散列值(具体为hash值)，从程序中可以看出散列值是由字符串的高位*31+低位构成。由于JAVA中int类型的范围是-2147483648～2147483647，覆盖范围达到了40多亿，因此是不会有不同的字符串得到同一个hash值的情况出现，保证了每一个不同的特征码会有一个对应的不同的hash值；以此将得到的散列值作为key值，后续再在存储空间(对应具体hashCode散列函数则为hashtable，其中该hashtable可以是一个数据库，具体在硬件上，在网页去重的过程中，可以置于内存中，以便能尽快实现读取，提高网页去重的效率)中查找是否存在该key值相同的值，事先可以先存储一部分不同的特征码到存储空间内。

步骤103，若在存储空间中存在相同的key值，判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求；

具体的，当在存储空间中存在相同的key值，则继续判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数代入公式来计算S值，其中，A为所述需要处理的网页的字符数；B为存储空间中所述key值对应的网页的字符数；

当S值小于等于所述阈值时，则判断结果为满足预设要求。

其中，该阈值可以为0.1，当然也可以是其他的值，与阈值的比较是为了判断需要处理的网页的字符数与存储空间中所述key值对应的网页的字符数是否相差过大，这是考虑到网页本身的结构很复杂，有标题信息，导航信息和正文等；而由于不同的网站在转载信息的时候，通常会在信息中添加不同题注，编辑等信息，同时还会视需要对文章进行不同的删节，改动，分页显示或者添加相应的其他信息；本申请中把相同网页定义为正文内容基本相同的网页，即如果转载后的文章产生了节略或者内容增加，那么就认为它和原网页是不同的，面对这种情况，单纯的特征码方法对这种错误无能为力(因为很可能特征码是一致的，但实际内容不同)，因此为了提高相同的网页去重的准确率，需要考虑和其他方法相结合，还考虑了与网页的其他特征相结合的分类方法，本申请中考虑到通常对于内容有差别的两个网页来说，其差别不只是体现在内容上面，在正文的长度上也会体现出差别，因此网页正文的长度也是区分不同网页的一个非常好的特征，对此还进一步会判断来两个网页的字符数是否差距过大，以进一步提高判断的准确率。

当然，在步骤103之后，判断结果为存储空间中不存在所述key值，还可以将不存在于所述存储空间中的key值存入所述存储空间，并记录下所述需要处理的网页的字符数；以此可以对存储空间中的key值进行实时自动更新，以便在后续的过程中，能对相同内容的网页的进行更好地判断。

步骤104，若步骤103的判断结果为满足，也即所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间满足预设条件，则确定所述需要处理的网页重复。

另外，具体的，在步骤103的判断结果为不满足预设要求时，可以将所述需要处理的网页的字符数关联到所述key值，并存入所述存储空间；这也是对存储空间中的数据进行不断的更新，使得后续能更好地对相同内容的网页做出判断。

与现有技术相比，本申请实施例所提出的技术方案通过应用本申请的技术方案，通过提取需要处理的网页的特征码；将所述特征码转换为key值，并在存储空间中查找是否存在所述key值；若存在，判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求；若判断结果为满足，则确定所述需要处理的网页重复，有效地对内容重复的网页进行了去重处理，节约了存储资源，同时提高了用户检索的体验。

为了更好对本申请的方案进行说明，如图4所示，本申请实施例二提供了一种网页去重设备，包括：

提取模块401，用于提取需要处理的网页的特征码；

转换模块402，用于将所述特征码转换为key值；

查找模块403，用于在存储空间中查找是否存在所述key值；

判断模块404，用于在所述查找模块确定所述存储空间中存在所述key值时，判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求；

去重模块405，用于在所述判断模块确定满足预设条件时，确定所述需要处理的网页重复。

具体的，该设备还可以包括：

确定模块406，用于确定得到的网页的类型；

处理模块407，用于当所述得到的网页为主题型网页，对所述得到的网页的正文内容进行统一编辑，并将编辑后的网页作为所述需要处理的网页。

具体的，所述提取模块401，具体用于将所述需要处理的网页的正文内容放在二维矩阵中，以提取所述二维矩阵中预设区域内的内容作为特征码。

所述转换模块402，具体用于将所述特征码通过散列函数转换为散列值作为key值。

所述判断模块404，具体用于通过公式来计算S值，其中，A为所述需要处理的网页的字符数；B为存储空间中所述key值对应的网页的字符数；

当S值小于等于所述阈值时，则判断结果为满足预设要求。

具体的，该设备还可以包括：

记录模块408，用于当所述查找模块确定存储空间中不存在所述key值时，将不存在于所述存储空间中的key值存入所述存储空间，并记录下所述需要处理的网页的字符数；和/或

存储模块409，用于当所述判断模块确定不满足预设要求时，将所述需要处理的网页的字符数关联到所述key值，并存入所述存储空间。

与现有技术相比，本申请实施例所提出的技术方案通过应用本申请的技术方案，通过提取需要处理的网页的特征码；将所述特征码转换为key值，并在存储空间中查找是否存在所述key值；若存在，判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求；若判断结果为满足，则确定所述需要处理的网页重复，有效地对内容重复的网页进行了去重处理，节约了存储资源，同时提高了用户检索的体验

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种网页去重方法，其特征在于，包括：

提取需要处理的网页的特征码；

若判断结果为满足，则确定所述需要处理的网页重复。

2.如权利要求1所述的方法，其特征在于，在所述提取需要进行处理的网页的特征码之前，还包括：

确定得到的网页的类型；

3.如权利要求2所述的方法，其特征在于，所述提取需要处理的网页的特征码，包括：

将所述需要处理的网页的正文内容放在二维矩阵中；

提取所述二维矩阵中预设区域内的内容作为特征码。

4.如权利要求1所述的方法，其特征在于，所述将所述特征码转换为key值，包括：

将所述特征码通过散列函数转换为散列值作为key值。

5.如权利要求1所述的方法，其特征在于，所述判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求，包括：

当S值小于等于所述阈值时，则判断结果为满足预设要求。

6.如权利要求1所述的方法，其特征在于，在所述在存储空间中查找是否存在所述key值之后，还包括：

7.如权利要求1所述的方法，其特征在于，在所述判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求之后，还包括：

8.一种网页去重设备，其特征在于，包括：

提取模块，用于提取需要处理的网页的特征码；

转换模块，用于将所述特征码转换为key值；

查找模块，用于在存储空间中查找是否存在所述key值；

9.如权利要求8所述的设备，其特征在于，还包括：

确定模块，用于确定得到的网页的类型；

10.如权利要求9所述的设备，其特征在于，

所述提取模块，具体用于将所述需要处理的网页的正文内容放在二维矩阵中，以提取所述二维矩阵中预设区域内的内容作为特征码。

11.如权利要求8所述的设备，其特征在于，

所述转换模块，具体用于将所述特征码通过散列函数转换为散列值作为key值。

12.如权利要求8所述的设备，其特征在于，

所述判断模块，具体用于通过公式来计算S值，其中，A为所述需要处理的网页的字符数；B为存储空间中所述key值对应的网页的字符数；

当S值小于等于所述阈值时，则判断结果为满足预设要求。

13.如权利要求8所述的设备，其特征在于，还包括：

记录模块，用于当所述查找模块确定存储空间中不存在所述key值时，将不存在于所述存储空间中的key值存入所述存储空间，并记录下所述需要处理的网页的字符数。

14.如权利要求8所述的设备，其特征在于，还包括：

存储模块，用于当所述判断模块确定不满足预设要求时，将所述需要处理的网页的字符数关联到所述key值，并存入所述存储空间。