CN105574004A - 一种网页去重方法和设备 - Google Patents

一种网页去重方法和设备 Download PDF

Info

Publication number
CN105574004A
CN105574004A CN201410532559.9A CN201410532559A CN105574004A CN 105574004 A CN105574004 A CN 105574004A CN 201410532559 A CN201410532559 A CN 201410532559A CN 105574004 A CN105574004 A CN 105574004A
Authority
CN
China
Prior art keywords
webpage
processed
storage space
characters
key value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410532559.9A
Other languages
English (en)
Other versions
CN105574004B (zh
Inventor
唐小棚
游永胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201410532559.9A priority Critical patent/CN105574004B/zh
Publication of CN105574004A publication Critical patent/CN105574004A/zh
Priority to HK16112217.4A priority patent/HK1224049A1/zh
Application granted granted Critical
Publication of CN105574004B publication Critical patent/CN105574004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网页去重方法和设备,包括:提取需要处理的网页的特征码;将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;若存在,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;若判断结果为满足,则确定所述需要处理的网页重复;本申请能实现对内容相同的网页进行有效的去重,同时能节约存储资源,并提高用户的检索体验。

Description

一种网页去重方法和设备
技术领域
本申请涉及互联网领域,特别涉及一种网页去重方法和设备。
背景技术
目前网页检索结果中,用户经常会得到内容相同的冗余页面,它们不但浪费了存储资源,并给用户的检索带来诸多不便
但目前中文网页去重的方法还不是很多,且方法并不完备,其中主要中文网页去重的方法有:基于聚类的方法、排除相同URL的方法、基于关键词位置序列的方法、基于特征句抽取的方法等;以下对此进行简要分析:
一、聚类的方法
聚类是将一个对象的集合分割成几个类,每个类内的对象之间是相似的,但与其他类的对象是不相似的;其中,评判聚类好坏的标准:1、能够适用于大数据量;2、能应付不同的数据类型;3、能够发现不同类型的聚类;4、使对专业知识的要求降到最低;5、能应付脏数据;6、对于数据不同的顺序不敏感;7、能应付很多类型的数据;8、模型可解释,可使用。
去除重复网页的问题可以看成是一个特殊的聚类问题。因此可以采用一般的聚类方法来处理,我们可以用6763个汉字做成一个向量,将各个汉字在网页正文中出现的个数填入向量中,以该向量作为这个网页的一个特征,通过计算网页向量与聚类中心向量的夹角余弦值,两向量的模的大小关系,来判断这个网页是否应该归为该类。由于只有两个网页完全相同才归属于一类,因此网页向量与聚类中心向量的夹角应该非常小,而且向量的模应该基本相同。
但由于一般的聚类问题是把在某些特征上相似的元素聚为一类,而且聚类后总的类别数不会很多,且一般都有一定的限制。而这个问题的特殊性在于不是要把相似的元素聚成一类,而是把完全相同的元素聚成一类。另外,由于不同的网页占有很大的比例,它们都各自成为一类,聚类后总的类别数会特别大,且没有具体的限制。因为一般的聚类方法会比较每个元素到各个聚类中心的距离,当类别较少时,这种计算是可行的,但当类别数很大的时候,比较的次数就会大大增加,当要处理的数据很大时,这种算法所消耗的时间将会很长,从而导致在计算效率上的低下。可以计算这种方法的时间复杂度是O(n2)的,当数据量较大时(比如几十万网页),这种方法是不可行的。另外,在计算网页相似度时很难取得合适的阈值使得能够保证网页内容的完全相同。因此,实际应用中难以适用。
二、排除相同URL方法
排除相同URL方法是目前各种元搜索引擎去重的主要方法。它分析来自不同搜索引擎的网页URL,将相同的URL认为是相同的网页给予去除。这种方法的特点是方法简单,易于实现,可去除一部分相同网页。但不足之处是未利用网页的文本内容结构信息,不能对转载造成的重复网页去重。
三、基于关键词位置序列的方法
要使用这种算法,首先需要考虑的是基本关键词如何获取,以便使用关键词列表判断文章是否重复。常用的方法是针对已知文档样本进行频度扫描。当对各个方面的文档进行分词和词汇频度计算后,常常可以获得高频词、中频词和低频词三种词汇段的数据。由于关键词的提取在搜索引擎系统中由相应的模块完成,因此,报文经过处理后会产生相应的关键词列表,列表中包含关键词、出现位置、频度等信息。该算法重点针对当两篇文档完全相同时可以获得相同的关键词命中序列,因此,属于严格意义上的报文重复。
但是,从算法的准确率而言,有两种情况需要避免。一种是两篇文档关键词三元组的信息相同但实际内容不同的情况,这样会造成算法的误判。另外一种情况,即关键词二元组没有匹配,但文档内容基本相同,仅仅是文档的内容次序发生了变化,这就改变了关键词二元组的次序,造成了文档的不匹配。
四、基于特征句抽取的方法
该方法首先要选取网页正文的特征句,将两篇网页是否重复的问题转化为求两篇网页的最长公共子序列的问题。并根据语言的直觉,当两篇网页的最长公共子序列的长度大于等于这两篇网页中较长的文本长度的95%时,认为这两篇网页重复的概率很大。
首先需要从文章中取出特征词,然后根据该特征词第一次出现的位置确定该篇网页文档的特征句,再将整篇文本的最长公共子序列的比较转换为两个句子的最长公共子序列的比较。为了抽取每个网页的特征词,考虑每个词语的词频信息、位置信息、是否在标题中出现以及其他一些特殊的标识性信息。综合考虑上述四个选项,分别赋予不同的比例,计算得到特征词的权值。文中四个特征按1:1:1:1的比例分配。算法步骤如下:
Step1:读网页文本,预处理;
Step2:计算每个词的权值;
Step3:取权值最大的词作为特征词;
Step4:根据特征词找特征句;
Step5:利用LCS算法进行特征句匹配;
Step6:进行下一个网页处理。
该算法的第1步主要是进行一些预处理的工作,先将一个待进行去重识别的网页文本读入,对其进行分词(仅针对汉语和部分东方语言),然后去除对于词频统计没有作用的停用词,并将网页文本表示为向量。算法的第2,第3步计算向量中每个词的权值,并从中找出权值最大的词语。算法的第4步根据前面找到的该网页的特征词,在网页正文中寻找该特征词第一次出现的位置,以其第一次出现所在的句子作为该网页的特征句。算法的第5步则利用LCS算法在重复网页数据库中计算该特征句与数据库中每个特征句的匹配度,当匹配度达到设定的阈值时(根据对一些语料的统计暂定为0.85),则认为该网页与重复网页数据库中的网页重复,将该网页与原网页合并,如果整个网页数据库中都没有与之重复的网页,则将该网页加入到网页数据库中。至此,该算法对一个网页的处理进行完毕,转到算法的开始进行下一个网页的处理。
该算法将两篇文本的全文比较转化成数个单词和句子的比较,一定程度的降低了算法的时间复杂度和空间复杂度,但对于大规模的网页去重也不是很理想,因为其最长公共子序列的寻找会花费大量的时间。
综上分析表明,现有技术中的网页去重算法各有其优点,但也均存在着不足;其中,例如聚类的方法效率低下,排除相同URL方法不能对相同文本内容网页进行去重;其他的方法也都存在各种缺陷,因此现有技术中并没有能很好的解决网页去重的技术问题。
发明内容
本申请提供了一种网页去重方法和设备,能有效去除内容重复的网页,能很好地节约存储资源,同时提高用户的检索体验。
为了达到上述目的,本申请公开了一种网页去重方法,包括:
提取需要处理的网页的特征码;
将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;
若存在,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;
若判断结果为满足,则确定所述需要处理的网页重复。
具体的,在所述提取需要进行处理的网页的特征码之前,还包括:
确定得到的网页的类型;
若所述得到的网页为主题型网页,对所述得到的网页的正文内容进行统一编辑,并将编辑后的网页作为所述需要处理的网页。
优选的,所述提取需要处理的网页的特征码,包括:
将所述需要处理的网页的正文内容放在二维矩阵中;
提取所述二维矩阵中预设区域内的内容作为特征码。
具体的,所述将所述特征码转换为key值,包括:
将所述特征码通过散列函数转换为散列值作为key值。
优选的,所述判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求,包括:
通过公式来计算S值,其中,A为所述需要处理的网页的字符数;B为存储空间中所述key值对应的网页的字符数;
当S值大于所述预设条件中的阈值时,则判断结果为不满足预设要求;
当S值小于等于所述阈值时,则判断结果为满足预设要求。
优选的,在所述在存储空间中查找是否存在所述key值之后,还包括:
若存储空间中不存在所述key值,将不存在于所述存储空间中的key值存入所述存储空间,并记录下所述需要处理的网页的字符数。
优选的,在所述判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求之后,还包括:
若所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间不满足预设要求,则将所述需要处理的网页的字符数关联到所述key值,并存入所述存储空间。
另一方面,本申请还公开了一种网页去重设备,包括:
提取模块,用于提取需要处理的网页的特征码;
转换模块,用于将所述特征码转换为key值;
查找模块,用于在存储空间中查找是否存在所述key值;
判断模块,用于在所述查找模块确定所述存储空间中存在所述key值时,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;
去重模块,用于在所述判断模块确定满足预设条件时,确定所述需要处理的网页重复。
具体的,该设备还包括:
确定模块,用于确定得到的网页的类型;
处理模块,用于当所述得到的网页为主题型网页,对所述得到的网页的正文内容进行统一编辑,并将编辑后的网页作为所述需要处理的网页。
优选的,所述提取模块,具体用于将所述需要处理的网页的正文内容放在二维矩阵中,以提取所述二维矩阵中预设区域内的内容作为特征码。
优选的,所述转换模块,具体用于将所述特征码通过散列函数转换为散列值作为key值。
优选的,所述判断模块,具体用于通过公式来计算S值,其中,A为所述需要处理的网页的字符数;B为存储空间中所述key值对应的网页的字符数;
当S值大于所述预设条件中的阈值时,则判断结果为不满足预设要求;
当S值小于等于所述阈值时,则判断结果为满足预设要求。
优选的,所述设备还包括:记录模块,用于当所述查找模块确定存储空间中不存在所述key值时,将不存在于所述存储空间中的key值存入所述存储空间,并记录下所述需要处理的网页的字符数。
优选的,所述设备还包括:存储模块,用于当所述判断模块确定不满足预设要求时,将所述需要处理的网页的字符数关联到所述key值,并存入所述存储空间。
与现有技术相比,本申请所提出的技术方案具有以下优点:通过应用本申请的技术方案,通过提取需要处理的网页的特征码;将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;若存在,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;若判断结果为满足,则确定所述需要处理的网页重复,有效地对内容重复的网页进行了去重处理,节约了存储资源,同时提高了用户检索的体验。
附图说明
图1为本申请实施例中的一种网页去重方法的流程示意图;
图2为本申请实施例中的一种提取特征码的示意图;
图3为本申请实施例中的一种转换特征码的示意图;
图4为本申请实施例中的一种网页去重设备的结构示意图。
具体实施方式
本申请的目的是提供一种网页去重方法和设备,用以对内容相同的网页进行有效地去重,节约存储资源,提高用户的检索体验。
为达到以上技术目的,如图1所示,本申请实施例一提供了一种网页去重方法,具体包括以下步骤:
步骤101,提取需要处理的网页的特征码;
具体的,在步骤101之前,还包括:确定得到的网页的类型;若所述得到的网页为主题型网页(即包含有正文内容的网页),对所述得到的网页的正文内容进行统一编辑,并将编辑后的网页作为所述需要处理的网页。
具体的,当确定得到的网页为主题型网页之后,由于得到的网页的正文内容所采用的编辑格式可能不一致,本申请中对其正文内容进行统一的编辑(例如采用相同的格式进行编辑),并将编辑后的网页作为需要处理的网页;这样,可以使得若是正文内容一致,则会在该相同正文内容的任何位置或区域的内容也是相同的;当然,若所述得到的网页为其他类型的网页,比如导航型网页,由于其仅有目录或标题,并没有正文的内容,因此对于这种类型网页不需要考虑重复。
由此,本申请中的步骤101,所述提取需要处理的网页的特征码,具体可以包括:将所述需要处理的网页的正文内容放在二维矩阵中;提取所述二维矩阵中预设区域内的内容作为特征码。
具体的,由于之前已经对需要处理的网页的正文内容进行了统一的编辑,将其正文内容放在二维矩阵中,并提取该二维矩阵中预设的区域内的内容作为特征码(如图2所示),该特征码具体是预设区域中包含的具有前后顺序的汉字,一般以取10个汉字作为该预设的区域大小的选取标准(特征码太长会给存储、计算带来较大的开销,特征码太短又会降低其区分能力),当然,也并不要求一定是10个汉字,也可以是9个,11个等,预设的区域大小可以根据具体的需要来选择,以选择预设的区域内有10汉字为例,由于该10个汉字还具有前后顺序,因此如果按照6763个汉字(已经可以包括常用汉字及专业用语汉字)计算,这个特征码的重复概率大约为1/(6763)10,因此也就保证了该特征码在不同网页中几乎是不可能重复的,也即不同网页出现相同的该特征码的可能性是极小的,可以认为是不可能,当然为了进一步提高准确率,除了扩大预设的范围,还可以在不同的位置进行多次特征码的提取。
步骤102,将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;
具体的,所述将所述特征码转换为key值,可以是将所述特征码通过散列函数转换为散列值作为key值;其中具体是散列函数可以为hashCode散列函数,当然,也并不限于该hashCode散列函数,只要可以将不同的特征码转换为不同的散列值就行,该散列函数就是可以的,其中,以JAVAString类中hashCode散列函数为例,其转换过程如图3所示,该hashCode散列函数能将字符串转换为散列值(具体为hash值),从程序中可以看出散列值是由字符串的高位*31+低位构成。由于JAVA中int类型的范围是-2147483648~2147483647,覆盖范围达到了40多亿,因此是不会有不同的字符串得到同一个hash值的情况出现,保证了每一个不同的特征码会有一个对应的不同的hash值;以此将得到的散列值作为key值,后续再在存储空间(对应具体hashCode散列函数则为hashtable,其中该hashtable可以是一个数据库,具体在硬件上,在网页去重的过程中,可以置于内存中,以便能尽快实现读取,提高网页去重的效率)中查找是否存在该key值相同的值,事先可以先存储一部分不同的特征码到存储空间内。
步骤103,若在存储空间中存在相同的key值,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;
具体的,当在存储空间中存在相同的key值,则继续判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数代入公式来计算S值,其中,A为所述需要处理的网页的字符数;B为存储空间中所述key值对应的网页的字符数;
当S值大于所述预设条件中的阈值时,则判断结果为不满足预设要求;
当S值小于等于所述阈值时,则判断结果为满足预设要求。
其中,该阈值可以为0.1,当然也可以是其他的值,与阈值的比较是为了判断需要处理的网页的字符数与存储空间中所述key值对应的网页的字符数是否相差过大,这是考虑到网页本身的结构很复杂,有标题信息,导航信息和正文等;而由于不同的网站在转载信息的时候,通常会在信息中添加不同题注,编辑等信息,同时还会视需要对文章进行不同的删节,改动,分页显示或者添加相应的其他信息;本申请中把相同网页定义为正文内容基本相同的网页,即如果转载后的文章产生了节略或者内容增加,那么就认为它和原网页是不同的,面对这种情况,单纯的特征码方法对这种错误无能为力(因为很可能特征码是一致的,但实际内容不同),因此为了提高相同的网页去重的准确率,需要考虑和其他方法相结合,还考虑了与网页的其他特征相结合的分类方法,本申请中考虑到通常对于内容有差别的两个网页来说,其差别不只是体现在内容上面,在正文的长度上也会体现出差别,因此网页正文的长度也是区分不同网页的一个非常好的特征,对此还进一步会判断来两个网页的字符数是否差距过大,以进一步提高判断的准确率。
当然,在步骤103之后,判断结果为存储空间中不存在所述key值,还可以将不存在于所述存储空间中的key值存入所述存储空间,并记录下所述需要处理的网页的字符数;以此可以对存储空间中的key值进行实时自动更新,以便在后续的过程中,能对相同内容的网页的进行更好地判断。
步骤104,若步骤103的判断结果为满足,也即所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间满足预设条件,则确定所述需要处理的网页重复。
另外,具体的,在步骤103的判断结果为不满足预设要求时,可以将所述需要处理的网页的字符数关联到所述key值,并存入所述存储空间;这也是对存储空间中的数据进行不断的更新,使得后续能更好地对相同内容的网页做出判断。
与现有技术相比,本申请实施例所提出的技术方案通过应用本申请的技术方案,通过提取需要处理的网页的特征码;将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;若存在,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;若判断结果为满足,则确定所述需要处理的网页重复,有效地对内容重复的网页进行了去重处理,节约了存储资源,同时提高了用户检索的体验。
为了更好对本申请的方案进行说明,如图4所示,本申请实施例二提供了一种网页去重设备,包括:
提取模块401,用于提取需要处理的网页的特征码;
转换模块402,用于将所述特征码转换为key值;
查找模块403,用于在存储空间中查找是否存在所述key值;
判断模块404,用于在所述查找模块确定所述存储空间中存在所述key值时,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;
去重模块405,用于在所述判断模块确定满足预设条件时,确定所述需要处理的网页重复。
具体的,该设备还可以包括:
确定模块406,用于确定得到的网页的类型;
处理模块407,用于当所述得到的网页为主题型网页,对所述得到的网页的正文内容进行统一编辑,并将编辑后的网页作为所述需要处理的网页。
具体的,所述提取模块401,具体用于将所述需要处理的网页的正文内容放在二维矩阵中,以提取所述二维矩阵中预设区域内的内容作为特征码。
所述转换模块402,具体用于将所述特征码通过散列函数转换为散列值作为key值。
所述判断模块404,具体用于通过公式来计算S值,其中,A为所述需要处理的网页的字符数;B为存储空间中所述key值对应的网页的字符数;
当S值大于所述预设条件中的阈值时,则判断结果为不满足预设要求;
当S值小于等于所述阈值时,则判断结果为满足预设要求。
具体的,该设备还可以包括:
记录模块408,用于当所述查找模块确定存储空间中不存在所述key值时,将不存在于所述存储空间中的key值存入所述存储空间,并记录下所述需要处理的网页的字符数;和/或
存储模块409,用于当所述判断模块确定不满足预设要求时,将所述需要处理的网页的字符数关联到所述key值,并存入所述存储空间。
与现有技术相比,本申请实施例所提出的技术方案通过应用本申请的技术方案,通过提取需要处理的网页的特征码;将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;若存在,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;若判断结果为满足,则确定所述需要处理的网页重复,有效地对内容重复的网页进行了去重处理,节约了存储资源,同时提高了用户检索的体验
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (14)

1.一种网页去重方法,其特征在于,包括:
提取需要处理的网页的特征码;
将所述特征码转换为key值,并在存储空间中查找是否存在所述key值;
若存在,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;
若判断结果为满足,则确定所述需要处理的网页重复。
2.如权利要求1所述的方法,其特征在于,在所述提取需要进行处理的网页的特征码之前,还包括:
确定得到的网页的类型;
若所述得到的网页为主题型网页,对所述得到的网页的正文内容进行统一编辑,并将编辑后的网页作为所述需要处理的网页。
3.如权利要求2所述的方法,其特征在于,所述提取需要处理的网页的特征码,包括:
将所述需要处理的网页的正文内容放在二维矩阵中;
提取所述二维矩阵中预设区域内的内容作为特征码。
4.如权利要求1所述的方法,其特征在于,所述将所述特征码转换为key值,包括:
将所述特征码通过散列函数转换为散列值作为key值。
5.如权利要求1所述的方法,其特征在于,所述判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求,包括:
通过公式来计算S值,其中,A为所述需要处理的网页的字符数;B为存储空间中所述key值对应的网页的字符数;
当S值大于所述预设条件中的阈值时,则判断结果为不满足预设要求;
当S值小于等于所述阈值时,则判断结果为满足预设要求。
6.如权利要求1所述的方法,其特征在于,在所述在存储空间中查找是否存在所述key值之后,还包括:
若存储空间中不存在所述key值,将不存在于所述存储空间中的key值存入所述存储空间,并记录下所述需要处理的网页的字符数。
7.如权利要求1所述的方法,其特征在于,在所述判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求之后,还包括:
若所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间不满足预设要求,则将所述需要处理的网页的字符数关联到所述key值,并存入所述存储空间。
8.一种网页去重设备,其特征在于,包括:
提取模块,用于提取需要处理的网页的特征码;
转换模块,用于将所述特征码转换为key值;
查找模块,用于在存储空间中查找是否存在所述key值;
判断模块,用于在所述查找模块确定所述存储空间中存在所述key值时,判断所述需要处理的网页的字符数与所述存储空间中所述key值对应的网页的字符数之间是否满足预设要求;
去重模块,用于在所述判断模块确定满足预设条件时,确定所述需要处理的网页重复。
9.如权利要求8所述的设备,其特征在于,还包括:
确定模块,用于确定得到的网页的类型;
处理模块,用于当所述得到的网页为主题型网页,对所述得到的网页的正文内容进行统一编辑,并将编辑后的网页作为所述需要处理的网页。
10.如权利要求9所述的设备,其特征在于,
所述提取模块,具体用于将所述需要处理的网页的正文内容放在二维矩阵中,以提取所述二维矩阵中预设区域内的内容作为特征码。
11.如权利要求8所述的设备,其特征在于,
所述转换模块,具体用于将所述特征码通过散列函数转换为散列值作为key值。
12.如权利要求8所述的设备,其特征在于,
所述判断模块,具体用于通过公式来计算S值,其中,A为所述需要处理的网页的字符数;B为存储空间中所述key值对应的网页的字符数;
当S值大于所述预设条件中的阈值时,则判断结果为不满足预设要求;
当S值小于等于所述阈值时,则判断结果为满足预设要求。
13.如权利要求8所述的设备,其特征在于,还包括:
记录模块,用于当所述查找模块确定存储空间中不存在所述key值时,将不存在于所述存储空间中的key值存入所述存储空间,并记录下所述需要处理的网页的字符数。
14.如权利要求8所述的设备,其特征在于,还包括:
存储模块,用于当所述判断模块确定不满足预设要求时,将所述需要处理的网页的字符数关联到所述key值,并存入所述存储空间。
CN201410532559.9A 2014-10-10 2014-10-10 一种网页去重方法和设备 Active CN105574004B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410532559.9A CN105574004B (zh) 2014-10-10 2014-10-10 一种网页去重方法和设备
HK16112217.4A HK1224049A1 (zh) 2014-10-10 2016-10-25 種網頁去重方法和設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410532559.9A CN105574004B (zh) 2014-10-10 2014-10-10 一种网页去重方法和设备

Publications (2)

Publication Number Publication Date
CN105574004A true CN105574004A (zh) 2016-05-11
CN105574004B CN105574004B (zh) 2019-06-21

Family

ID=55884152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410532559.9A Active CN105574004B (zh) 2014-10-10 2014-10-10 一种网页去重方法和设备

Country Status (2)

Country Link
CN (1) CN105574004B (zh)
HK (1) HK1224049A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729343A (zh) * 2017-07-24 2018-02-23 上海壹账通金融科技有限公司 资源提取方法、计算机可读存储介质及电子设备
CN109471852A (zh) * 2018-05-29 2019-03-15 平安医疗健康管理股份有限公司 医疗数据库建立方法、装置、计算机设备和存储介质
CN109981659A (zh) * 2019-03-29 2019-07-05 郑州工程技术学院 基于数据去重技术的网络资源预取方法以及系统
CN112528114A (zh) * 2019-09-17 2021-03-19 北京国双科技有限公司 一种文章去重方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267915A1 (en) * 2004-05-24 2005-12-01 Fujitsu Limited Method and apparatus for recognizing specific type of information files
CN101950312A (zh) * 2010-08-18 2011-01-19 赵清政 一种互联网网页内容解析方法
CN102163213A (zh) * 2011-02-25 2011-08-24 中国科学院计算技术研究所 一种语音浏览方法及浏览器
CN102402537A (zh) * 2010-09-15 2012-04-04 盛乐信息技术(上海)有限公司 中文网页文本除重系统及方法
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法
CN103049562A (zh) * 2012-12-31 2013-04-17 华为技术有限公司 一种识别相似网页的方法及装置
CN103294671A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 文档的检测方法及系统
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267915A1 (en) * 2004-05-24 2005-12-01 Fujitsu Limited Method and apparatus for recognizing specific type of information files
CN101950312A (zh) * 2010-08-18 2011-01-19 赵清政 一种互联网网页内容解析方法
CN102402537A (zh) * 2010-09-15 2012-04-04 盛乐信息技术(上海)有限公司 中文网页文本除重系统及方法
CN102163213A (zh) * 2011-02-25 2011-08-24 中国科学院计算技术研究所 一种语音浏览方法及浏览器
CN103294671A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 文档的检测方法及系统
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法
CN103049562A (zh) * 2012-12-31 2013-04-17 华为技术有限公司 一种识别相似网页的方法及装置
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729343A (zh) * 2017-07-24 2018-02-23 上海壹账通金融科技有限公司 资源提取方法、计算机可读存储介质及电子设备
WO2019019619A1 (zh) * 2017-07-24 2019-01-31 深圳壹账通智能科技有限公司 资源提取方法、计算机可读存储介质及电子设备
CN109471852A (zh) * 2018-05-29 2019-03-15 平安医疗健康管理股份有限公司 医疗数据库建立方法、装置、计算机设备和存储介质
CN109471852B (zh) * 2018-05-29 2023-08-01 深圳平安医疗健康科技服务有限公司 医疗数据库建立方法、装置、计算机设备和存储介质
CN109981659A (zh) * 2019-03-29 2019-07-05 郑州工程技术学院 基于数据去重技术的网络资源预取方法以及系统
CN109981659B (zh) * 2019-03-29 2021-07-09 郑州工程技术学院 基于数据去重技术的网络资源预取方法以及系统
CN112528114A (zh) * 2019-09-17 2021-03-19 北京国双科技有限公司 一种文章去重方法、装置、设备及存储介质

Also Published As

Publication number Publication date
HK1224049A1 (zh) 2017-08-11
CN105574004B (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN108763333B (zh) 一种基于社会媒体的事件图谱构建方法
US7937338B2 (en) System and method for identifying document structure and associated metainformation
KR20200067180A (ko) 대형 데이터베이스들에서의 시맨틱 검색을 위한 방법들 및 시스템
CN104598577B (zh) 一种网页正文的提取方法
CN102955857B (zh) 一种搜索引擎中基于类中心压缩变换的文本聚类方法
CN102999625A (zh) 一种检索请求语义扩展方法
CN101620608A (zh) 信息采集方法及系统
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN102915299A (zh) 一种分词方法及装置
CN102760142A (zh) 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN103678412A (zh) 一种文档检索的方法及装置
CN105005564A (zh) 一种基于问答平台的数据处理方法和装置
US8090720B2 (en) Method for merging document clusters
CN104317834A (zh) 一种基于深度神经网络的跨媒体排序方法
CN105912662A (zh) 基于Coreseek的垂直搜索引擎研究与优化的方法
CN103793434A (zh) 一种基于内容的图片搜索方法和装置
CN106484797A (zh) 基于稀疏学习的突发事件摘要抽取方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
Mahdabi et al. The effect of citation analysis on query expansion for patent retrieval
CN105447169A (zh) 文献归一方法、文献搜索方法及对应装置
CN105574004A (zh) 一种网页去重方法和设备
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN104657376A (zh) 基于节目关系的视频节目的搜索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1224049

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201010

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right