CN103778163A - 一种基于指纹的网页快速去重算法 - Google Patents

一种基于指纹的网页快速去重算法 Download PDF

Info

Publication number
CN103778163A
CN103778163A CN201210414947.8A CN201210414947A CN103778163A CN 103778163 A CN103778163 A CN 103778163A CN 201210414947 A CN201210414947 A CN 201210414947A CN 103778163 A CN103778163 A CN 103778163A
Authority
CN
China
Prior art keywords
webpage
fingerprint
algorithm
fingerprints
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210414947.8A
Other languages
English (en)
Inventor
李旭日
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU BANGFU SOFTWARE Co Ltd
Original Assignee
GUANGZHOU BANGFU SOFTWARE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU BANGFU SOFTWARE Co Ltd filed Critical GUANGZHOU BANGFU SOFTWARE Co Ltd
Priority to CN201210414947.8A priority Critical patent/CN103778163A/zh
Publication of CN103778163A publication Critical patent/CN103778163A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于指纹的网页快速去重算法,该算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取,再将关键词序列利用散列算法生成唯一的指纹;如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在;采用本技术方法的去重算法可以有效的应对在标题或者内容后添加随时码,或者对标题内容进行部分删减以及调整段落位置的情况,能够有效的提高性能。

Description

一种基于指纹的网页快速去重算法
技术领域
本发明涉及互联网技术领域,特别是基于指纹的网页快速去重算法。
背景技术
随着互联网的发展,信息量迅速膨胀。导致了很多重复性的网页数据,对人们的阅读以及知识整理带来了很大的不便。在搜索引擎领域,大量的重复数据则会极大的影响搜索结果质量。
网页去重技术正是识别这类大量的重复性数据的关键技术。
目前网页去重主要采用的方法是基于标题是否相同进行比对,如果相同则视为重复,不同则视为一篇新的网页。
此外还搭配基于内容的编辑距离算法进行相似度比对。编辑距离的概念是两篇网页,修改其中一篇,使其达到另外一篇,去重准确度不高。
很多网站会对相同的新闻或者帖子进行二次编辑,对标题进行修改。这导致哪怕是修改了一点的网页都将视为不同的网页。
基于网页内容的编辑距离算法进行相似度比对。编辑距离的概念是两篇网页,修改其中一篇,使其跟另外一篇一模一样,一共需要多少步,去重准确度比技术一稍高,但是一旦交换网页的部分段落位置,该算法就会失效。
该技术性能低下,尤其在海量网页数据的前提下,需要将新入数据与已有数据进行一一比对运算,性能极端低下。
发明内容
本发明的目的是解决以上问题,提供一种能够有较高准确性的去重算法,能够识别经过一定修改的网页内容。同时性能优异,能够适应于海量网页数据的去重。
为达到上述目的,本发明所采用的技术方案是:一种基于指纹的网页快速去重算法,该本算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取。再将关键词序列利用散列算法生成唯一的指纹。指纹需要的空间很小,能够有效的节约内存,极大的提高效率。
本算法采用以下步骤:
1、取出一篇网页,将网页的内容和标题进行分词。
2、对每个分出来的词进行次数统计。
3、对每个分出来的词计算其词频和逆词频,并计算出用词频乘以逆词频的分值。
4、按照每个词的分值进行从大到小排序。
5、取排列在前5个的词,用逗号拼接。并用MD5算法计算出MD5值。
6、该MD5值即该网页的指纹。
7、如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在。
在步骤5中,取的个数可以视情况而定,拼接符可以任意。
采用本技术方法的去重算法可以有效的应对在标题或者内容后添加随时码,或者对标题内容进行部分删减以及调整段落位置的情况,能够有效的提高性能。
具体实施方式:
为使本发明的技术方案便于理解,以下结合具体实施方式对本发明作进一步的说明。
实施例:一种基于指纹的网页快速去重算法,该本算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取。再将关键词序列利用散列算法生成唯一的指纹。指纹需要的空间很小,能够有效的节约内存,极大的提高效率。
本算法采用以下步骤:
1、取出一篇网页,将网页的内容和标题进行分词。
2、对每个分出来的词进行次数统计。
3、对每个分出来的词计算其词频和逆词频,并计算出用词频乘以逆词频的分值。
4、按照每个词的分值进行从大到小排序。
5、取排列在前5个的词,用逗号拼接。并用MD5算法计算出MD5值。
6、该MD5值即该网页的指纹。
7、如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在。
在步骤5中,取的个数可以视情况而定,拼接符可以任意,
采用本技术方法的去重算法可以有效的应对在标题或者内容后添加随时码,或者对标题内容进行部分删减以及调整段落位置的情况,能够有效的提高性能。
以上所述,仅为本发明的较佳实施例,并非对本发明作任何形式上和实质上的限制,凡熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用以上所揭示的技术内容,而作出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。

Claims (3)

1.一种基于指纹的网页快速去重算法,其特征在于:该算法采用基于内容特征提取的方式来进行去重,内容特征的提取方式主要基于代表内容含义的关键词序列提取,再将关键词序列利用散列算法生成唯一的指纹;算法采用以下步骤:
1、取出一篇网页,将网页的内容和标题进行分词。
2、对每个分出来的词进行次数统计。
3、对每个分出来的词计算其词频和逆词频,并计算出用词频乘以逆词频的分值。
4、按照每个词的分值进行从大到小排序。
5、取排列在前5个的词,用逗号拼接。并用MD5算法计算出MD5值。
6、该MD5值即该网页的指纹。
2.根据权利要求1所述的基于指纹的网页快速去重算法,其特征在于:所述如果指纹库为空,则将该指纹添加入指纹库。如果不为空,则将跟指纹与指纹库对比。如果存在相同指纹,则代表该网页已经有雷同网页存在。
3.根据权利要求1所述的基于指纹的网页快速去重算法,其特征在于:所述在步骤5中,取的个数可以视情况而定,拼接符可以任意。
CN201210414947.8A 2012-10-26 2012-10-26 一种基于指纹的网页快速去重算法 Pending CN103778163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210414947.8A CN103778163A (zh) 2012-10-26 2012-10-26 一种基于指纹的网页快速去重算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210414947.8A CN103778163A (zh) 2012-10-26 2012-10-26 一种基于指纹的网页快速去重算法

Publications (1)

Publication Number Publication Date
CN103778163A true CN103778163A (zh) 2014-05-07

Family

ID=50570405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210414947.8A Pending CN103778163A (zh) 2012-10-26 2012-10-26 一种基于指纹的网页快速去重算法

Country Status (1)

Country Link
CN (1) CN103778163A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528351A (zh) * 2014-09-29 2016-04-27 中国电信股份有限公司 一种移动终端获取互联网信息的内容去重方法及系统
CN106528666A (zh) * 2016-10-21 2017-03-22 合网络技术(北京)有限公司 内容采集方法和装置
CN106547780A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 文章转载量的统计方法及装置
CN106547764A (zh) * 2015-09-18 2017-03-29 北京国双科技有限公司 网页数据去重的方法及装置
CN108520066A (zh) * 2018-04-12 2018-09-11 深圳市比量科技传媒有限公司 一种搜索结果消重方法及系统
CN110083832A (zh) * 2019-04-17 2019-08-02 北大方正集团有限公司 文章转载关系的识别方法、装置、设备及可读存储介质
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN112084448A (zh) * 2020-08-31 2020-12-15 北京金堤征信服务有限公司 相似信息处理方法以及装置
CN116263792A (zh) * 2023-04-21 2023-06-16 云目未来科技(湖南)有限公司 一种复杂互联网数据爬取的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162478A1 (en) * 2001-01-24 2008-07-03 William Pugh Detecting duplicate and near-duplicate files
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080162478A1 (en) * 2001-01-24 2008-07-03 William Pugh Detecting duplicate and near-duplicate files
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN102024065A (zh) * 2011-01-18 2011-04-20 中南大学 基于simd优化的网页去重并行方法
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528351A (zh) * 2014-09-29 2016-04-27 中国电信股份有限公司 一种移动终端获取互联网信息的内容去重方法及系统
CN106547764A (zh) * 2015-09-18 2017-03-29 北京国双科技有限公司 网页数据去重的方法及装置
CN106547780A (zh) * 2015-09-21 2017-03-29 北京国双科技有限公司 文章转载量的统计方法及装置
CN106528666A (zh) * 2016-10-21 2017-03-22 合网络技术(北京)有限公司 内容采集方法和装置
CN108520066A (zh) * 2018-04-12 2018-09-11 深圳市比量科技传媒有限公司 一种搜索结果消重方法及系统
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN110083832A (zh) * 2019-04-17 2019-08-02 北大方正集团有限公司 文章转载关系的识别方法、装置、设备及可读存储介质
CN112084448A (zh) * 2020-08-31 2020-12-15 北京金堤征信服务有限公司 相似信息处理方法以及装置
CN112084448B (zh) * 2020-08-31 2024-05-07 北京金堤征信服务有限公司 相似信息处理方法以及装置
CN116263792A (zh) * 2023-04-21 2023-06-16 云目未来科技(湖南)有限公司 一种复杂互联网数据爬取的方法及系统
CN116263792B (zh) * 2023-04-21 2023-07-18 云目未来科技(湖南)有限公司 一种复杂互联网数据爬取的方法及系统

Similar Documents

Publication Publication Date Title
CN103778163A (zh) 一种基于指纹的网页快速去重算法
CN102799647B (zh) 网页去重方法和设备
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN104063384A (zh) 一种数据检索方法及装置
CN105224518A (zh) 文本相似度的计算方法及系统、相似文本的查找方法及系统
CN105426426A (zh) 一种基于改进的K-Medoids的KNN文本分类方法
CN101620616A (zh) 一种基于小世界特性的中文近似网页去重方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
Chen et al. Template detection for large scale search engines
CN110543595A (zh) 一种站内搜索系统及方法
CN103279551A (zh) 一种基于欧氏距离的高维数据准确近邻快速检索方法
CN103366120A (zh) 基于脚本的漏洞攻击图生成方法
CN102541910A (zh) 提取关键字的方法
CN101826099A (zh) 一种相似文档识别、文档扩散度确定的方法及系统
CN103207864A (zh) 一种网络小说内容近似度比对方法
CN103902619A (zh) 一种网络舆情监控方法及系统
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN104572720A (zh) 一种网页信息排重的方法、装置及计算机可读存储介质
CN105574004B (zh) 一种网页去重方法和设备
Bollegala et al. Mining for personal name aliases on the web
CN104408097A (zh) 一种基于字符段热更新的混合索引方法及系统
CN108228802B (zh) 一种输入联想的推荐方法及装置
CN107133317B (zh) 一种通过新词抽取网络舆情主题的方法
Zhang et al. Hyperlink-aware object retrieval
Zhang et al. An improved DOM-based algorithm for Web information extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140507

WD01 Invention patent application deemed withdrawn after publication