CN102567313A - 递进式网页库去重系统及其实现方法 - Google Patents

递进式网页库去重系统及其实现方法 Download PDF

Info

Publication number
CN102567313A
CN102567313A CN2010105767312A CN201010576731A CN102567313A CN 102567313 A CN102567313 A CN 102567313A CN 2010105767312 A CN2010105767312 A CN 2010105767312A CN 201010576731 A CN201010576731 A CN 201010576731A CN 102567313 A CN102567313 A CN 102567313A
Authority
CN
China
Prior art keywords
webpage
web page
library
storehouse
page library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105767312A
Other languages
English (en)
Other versions
CN102567313B (zh
Inventor
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhangmen Science and Technology Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN201010576731.2A priority Critical patent/CN102567313B/zh
Publication of CN102567313A publication Critical patent/CN102567313A/zh
Application granted granted Critical
Publication of CN102567313B publication Critical patent/CN102567313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种递进式网页库去重系统及其实现方法,从互联网上抓取的网页库,采用分周期的方式经比较、判断后有选择地导入到外部网页库中。每次只需要考察新抓取网页与已有的内部、外部网页的重复。本发明所述方法能够保证外部网页库中所有资源两两之间不存在任何重复。并且该方法使得去重操作的运算开销能按时间平均分摊,即每次只处理一个周期内的少量新增的网页,能够使系统流畅的运转,完成网页库的去重操作。

Description

递进式网页库去重系统及其实现方法
技术领域
本发明涉及一种互联网搜索引擎的优化方法。
背景技术
互联网搜索引擎都有网页抓取程序,这些网页抓取程序一般称为网络爬虫(Crawler)或网络蜘蛛(Spider)。这些网页抓取程序日以继夜地从互联网上抓取各种网页,为各自搜索引擎形成一个逐步膨胀的网页库。可是,一方面网页库的容量存在上限,无法承受无限制的内容增加;另一方面互联网上有大量重复网页,这些内容重复的网页不仅占用了搜索引擎存储网页库的空间,也会导致网页库的查询性能下降。如何在网页库中寻找出、并去除掉内容重复的网页,就成为一个值得研究的问题。
传统搜索引擎的网页库去重工作,是将网页库中全部数据依次取出,与新抓取网页进行遍历对比,并去除重复数据,这种方法运算量大,并且去重的实时性差(先出现重复,再进行去重)。
发明内容
本发明所要解决的技术问题是提供一种互联网搜索引擎的网页库去重系统。为此,本发明还提供所述网页库去重系统的实现方法,所谓去重就是当具有多个重复的网页时仅保留其中之一而去除其他。
为解决上述技术问题,本发明提供了互联网搜索引擎的递进式网页库去重系统,包括:
网页抓取模块,该模块将互联网上的网页抓取并下载;
结构化特征提取模块,该模块对网页抓取模块所抓取的每个网页进行解析,提取出多个特征字段;
所述递进式网页库包括内部网页库和外部网页库;所述内部网页库为本网站内部网页所形成的网页库;所述外部网页库为网页抓取模块从除本网站以外的互联网抓取的网页所形成的网页库。
上述递进式网页库去重系统的实现方法,所述递进式网页库包括内部网页库和外部网页库,内部网页库为本网站内部网页所形成的网页库,外部网页库为网页抓取程序从除本网站以外的互联网抓取的网页所形成的网页库;所述递进式网页库去重方法包括如下步骤:
第1步,网页抓取模块定期将新抓取网页传输给结构化特征提取模块;
第2步,结构化特征提取模块从每个新抓取网页中提取多个特征字段;
第3步,将每个新抓取网页与内部网页库中的所有网页进行比较,当新抓取网页的每个特征字段都与内部网页库中的一个网页的一个特征字段相同时,判断该新抓取网页与内部网页库中的该网页重复,删除该新抓取网页;
当该新抓取网页与内部网页库中的所有网页都不重复,进入第4步;
第4步,将每个新抓取网页的网址与外部网页库中的所有网页的网址进行比较,如果有相同现象,则以该新抓取网页替代外部网页库中的相同网址的网页;否则进入第5步;
第5步,将每个新抓取网页与外部网页库中的所有网页进行比较,当新抓取网页的每个特征字段都与外部网页库中的一个网页的一个特征字段相同时,判断该新抓取网页与外部网页库中的该网页重复,进入第6步;
当该新抓取网页与外部网页库中的所有网页都不重复,将该新抓取网页存储至外部网页库中;
第6步,将该新抓取网页的特征字段数量设为a,将外部网页库中与之重复的网页的特征字段数量设为b;当a<b,则删除该新抓取网页;当a≥b,则以该新抓取网页替代外部网页库中与之重复的网页。
本发明递进式网页库去重系统及其实现方法,在去重时并不对网页库的所有网页数据进行比较,这样对性能的消耗过大。而是采用递进式方法,该方法将已有网页库分为内部资料库、外部资料库两种,每次只需要考察给定周期内新抓取的网页,将这些网页进行特征提取,并分别进行比对。对存在重复的网页,根据重复的类型进行不同操作,从而大大节省了系统资源。
附图说明
图1是本发明所述递进式网页库去重系统的示意图;
图2是本发明所述递进式网页库去重方法的流程图。
具体实施方式
请参阅图1,本发明提供了互联网搜索引擎的递进式网页库去重系统。搜索引擎都具有网页抓取模块,该模块将互联网上的网页抓取并下载。搜索引擎还具有结构化特征提取模块,该模块对网页抓取模块所抓取的每个网页进行解析,提取出多个特征字段。特征字段和搜索引擎对应的应用紧密相关。例如搜索引擎应用于网络书目信息的抓取应用,网页抓取模块从当当网等网络售书站点进行网页抓取后,结构化特征提取模块从网页中提取书名、作者、ISBN、价格、出版社、书籍简介等信息。
本发明所述递进式网页库包括内部网页库和外部网页库。内部网页库为本网站内部网页所形成的网页库,由于数据来自自身,因而具有数据质量高、资源稳定(不会被轻易删除)、内容完整的特点,因此在去重时要优先保留。外部网页库为网页抓取模块从除本网站以外的互联网抓取的网页所形成的网页库,它具有如下特点:外部网页库中的数据可靠性和数据质量比内部网页库低;外部网页库中的网页可能会被更新;外部网页库中的网页内容可能重复。
请参阅图2,本发明所述递进式网页库去重方法包括如下步骤:
第1步,网页抓取模块定期(例如每6个小时)将新抓取网页传输给结构化特征提取模块。这样处理的优点是每次只需要对该周期内新抓取的网页进行重复判断。
第2步,结构化特征提取模块从每个新抓取网页中提取多个特征字段。
第3步,将每个新抓取网页与内部网页库中的所有网页进行比较。当新抓取网页的每个特征字段都与内部网页库中的一个网页的一个特征字段相同时,判断该新抓取网页与内部网页库中的该网页重复,删除该新抓取网页(即去重时优先保留内部网页库中的数据)。当该新抓取网页与内部网页库中的所有网页都不重复,进入第4步。
例如新抓取网页有两个特征字段,内部网页库中的一个网页有三个特征字段且其中有两个特征字段与该新抓取网页的两个特征字段相同,那么就认为该新抓取网页与内部网页库中的该网页重复。
第4步,将每个新抓取网页的网址与外部网页库中的所有网页的网址进行比较。如果有相同现象,则以该新抓取网页替代外部网页库中的相同网址的网页。因为外部网页库中的网页可能有更新,因此总是用新的网页替代旧的。否则进入第5步。
第5步,将每个新抓取网页与外部网页库中的所有网页进行比较。当新抓取网页的每个特征字段都与外部网页库中的一个网页的一个特征字段相同时,判断该新抓取网页与外部网页库中的该网页重复,进入第6步。当该新抓取网页与外部网页库中的所有网页都不重复,将该新抓取网页存储至外部网页库中。
例如新抓取网页有两个特征字段,外部网页库中的一个网页有三个特征字段且其中有两个特征字段与该新抓取网页的两个特征字段相同,那么就认为该新抓取网页与外部网页库中的该网页重复。
第6步,将该新抓取网页的特征字段数量设为a,将外部网页库中与之重复的网页的特征字段数量设为b。当a<b,则删除该新抓取网页。当a≥b,则以该新抓取网页替代外部网页库中与之重复的网页。这一步实际上是在判断相重复的新抓取网页和外部网页库中的一个网页哪个质量高,保留质量高的网页;当质量相同时,则保留较新的网页(即a=b时,也以该新抓取网页替代外部网页库中与之重复的网页)。
本发明递进式网页去重系统及其实现方法,从互联网上抓取的网页库,采用分周期的方式经比较、判断后有选择地导入到外部网页库中。每次只需要考察新抓取网页与已有的内部、外部网页的重复。本发明所述方法能够保证外部网页库中所有资源两两之间不存在任何重复。并且该方法使得去重操作的运算开销能按时间平均分摊(每次只处理一个周期内的少量新增的网页),能够使系统流畅的运转,完成网页库的去重操作。

Claims (2)

1.一种递进式网页库去重系统,其特征是,包括:
网页抓取模块,该模块将互联网上的网页抓取并下载;
结构化特征提取模块,该模块对网页抓取模块所抓取的每个网页进行解析,提取出多个特征字段;
所述递进式网页库包括内部网页库和外部网页库;所述内部网页库为本网站内部网页所形成的网页库;所述外部网页库为网页抓取模块从除本网站以外的互联网抓取的网页所形成的网页库。
2.如权利要求1所述的递进式网页库去重系统的实现方法,其特征是,所述递进式网页库包括内部网页库和外部网页库,内部网页库为本网站内部网页所形成的网页库,外部网页库为网页抓取程序从除本网站以外的互联网抓取的网页所形成的网页库;所述递进式网页库去重方法包括如下步骤:
第1步,网页抓取模块定期将新抓取网页传输给结构化特征提取模块;
第2步,结构化特征提取模块从每个新抓取网页中提取多个特征字段;
第3步,将每个新抓取网页与内部网页库中的所有网页进行比较,当新抓取网页的每个特征字段都与内部网页库中的一个网页的一个特征字段相同时,判断该新抓取网页与内部网页库中的该网页重复,删除该新抓取网页;
当该新抓取网页与内部网页库中的所有网页都不重复,进入第4步;
第4步,将每个新抓取网页的网址与外部网页库中的所有网页的网址进行比较,如果有相同现象,则以该新抓取网页替代外部网页库中的相同网址的网页;否则进入第5步;
第5步,将每个新抓取网页与外部网页库中的所有网页进行比较,当新抓取网页的每个特征字段都与外部网页库中的一个网页的一个特征字段相同时,判断该新抓取网页与外部网页库中的该网页重复,进入第6步;
当该新抓取网页与外部网页库中的所有网页都不重复,将该新抓取网页存储至外部网页库中;
第6步,将该新抓取网页的特征字段数量设为a,将外部网页库中与之重复的网页的特征字段数量设为b;当a<b,则删除该新抓取网页;当a≥b,则以该新抓取网页替代外部网页库中与之重复的网页。
CN201010576731.2A 2010-12-07 2010-12-07 递进式网页库去重系统及其实现方法 Active CN102567313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010576731.2A CN102567313B (zh) 2010-12-07 2010-12-07 递进式网页库去重系统及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010576731.2A CN102567313B (zh) 2010-12-07 2010-12-07 递进式网页库去重系统及其实现方法

Publications (2)

Publication Number Publication Date
CN102567313A true CN102567313A (zh) 2012-07-11
CN102567313B CN102567313B (zh) 2016-08-24

Family

ID=46412754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010576731.2A Active CN102567313B (zh) 2010-12-07 2010-12-07 递进式网页库去重系统及其实现方法

Country Status (1)

Country Link
CN (1) CN102567313B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544283A (zh) * 2013-10-24 2014-01-29 青岛英网资讯股份有限公司 网站信息合并去重方法
CN106302797A (zh) * 2016-08-31 2017-01-04 北京锐安科技有限公司 一种cookie访问去重方法和装置
CN106326236A (zh) * 2015-06-18 2017-01-11 天脉聚源(北京)科技有限公司 一种网页内容识别方法和系统
CN106919691A (zh) * 2017-03-06 2017-07-04 广东神马搜索科技有限公司 基于网页库进行检索的方法、装置及检索系统
CN109213824A (zh) * 2017-06-29 2019-01-15 北京京东尚科信息技术有限公司 数据抓取系统、方法和装置
WO2019019619A1 (zh) * 2017-07-24 2019-01-31 深圳壹账通智能科技有限公司 资源提取方法、计算机可读存储介质及电子设备
CN110930678A (zh) * 2019-12-17 2020-03-27 金华送变电工程有限公司 采用电力专网实现作业终端数据采集和传输的系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136263A1 (en) * 2005-12-14 2007-06-14 Microsoft Corporation Discovering web-based multimedia using search toolbar data
US20070208744A1 (en) * 2006-03-01 2007-09-06 Oracle International Corporation Flexible Authentication Framework
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN101226533A (zh) * 2007-12-28 2008-07-23 腾讯科技(北京)有限公司 一种网页的排重方法及排重系统
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
US20080256046A1 (en) * 2006-03-29 2008-10-16 Blackman David L System and method for prioritizing websites during a webcrawling process
CN101441636A (zh) * 2007-11-21 2009-05-27 中国科学院自动化研究所 一种基于知识库的医院信息搜索引擎及系统
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
US20100058440A1 (en) * 2008-08-27 2010-03-04 Yahoo! Inc. Interaction with desktop and online corpus
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070136263A1 (en) * 2005-12-14 2007-06-14 Microsoft Corporation Discovering web-based multimedia using search toolbar data
US20070208744A1 (en) * 2006-03-01 2007-09-06 Oracle International Corporation Flexible Authentication Framework
US20080256046A1 (en) * 2006-03-29 2008-10-16 Blackman David L System and method for prioritizing websites during a webcrawling process
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法
CN101441636A (zh) * 2007-11-21 2009-05-27 中国科学院自动化研究所 一种基于知识库的医院信息搜索引擎及系统
CN101226533A (zh) * 2007-12-28 2008-07-23 腾讯科技(北京)有限公司 一种网页的排重方法及排重系统
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
US20100058440A1 (en) * 2008-08-27 2010-03-04 Yahoo! Inc. Interaction with desktop and online corpus
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN101694658A (zh) * 2009-10-20 2010-04-14 浙江大学 基于新闻去重的网页爬虫的构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴宝贵等: "《基于Map/Reduce的分布式搜索引擎研究》", 《知识组织与知识管理》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544283A (zh) * 2013-10-24 2014-01-29 青岛英网资讯股份有限公司 网站信息合并去重方法
CN103544283B (zh) * 2013-10-24 2017-02-01 青岛英网资讯股份有限公司 网站信息合并去重方法
CN106326236A (zh) * 2015-06-18 2017-01-11 天脉聚源(北京)科技有限公司 一种网页内容识别方法和系统
CN106302797A (zh) * 2016-08-31 2017-01-04 北京锐安科技有限公司 一种cookie访问去重方法和装置
CN106919691A (zh) * 2017-03-06 2017-07-04 广东神马搜索科技有限公司 基于网页库进行检索的方法、装置及检索系统
CN109213824A (zh) * 2017-06-29 2019-01-15 北京京东尚科信息技术有限公司 数据抓取系统、方法和装置
WO2019019619A1 (zh) * 2017-07-24 2019-01-31 深圳壹账通智能科技有限公司 资源提取方法、计算机可读存储介质及电子设备
CN110930678A (zh) * 2019-12-17 2020-03-27 金华送变电工程有限公司 采用电力专网实现作业终端数据采集和传输的系统

Also Published As

Publication number Publication date
CN102567313B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN102567313A (zh) 递进式网页库去重系统及其实现方法
Jifa et al. Data, DIKW, big data and data science
CN101694658A (zh) 基于新闻去重的网页爬虫的构建方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
CN105159987B (zh) 一种数据存储、查找方法及装置
CN104850601A (zh) 基于图数据库的警务实时分析应用平台及其构建方法
Kumar et al. Discovering knowledge landscapes: an epistemic analysis of business and management field in Malaysia
CN105302876A (zh) 基于正则表达式的url过滤方法
CN103544283A (zh) 网站信息合并去重方法
CN102567521B (zh) 网页数据抓取过滤方法
CN103559258A (zh) 基于云计算的网页排序方法
CN103745006A (zh) 一种互联网信息搜索系统及方法
CN105468618A (zh) 一种网络爬虫论文查重法
CN110347390A (zh) 一种快速生成web页面的方法、存储介质、设备及系统
Bakshi Technologies for Big Data
CN106547774B (zh) 网站内容的检测方法及装置
CN104408097A (zh) 一种基于字符段热更新的混合索引方法及系统
CN105207852A (zh) 一种基于分布式网络数据定向采集的方法
CN104156458A (zh) 一种信息的提取方法及装置
CN105808761A (zh) 一种基于大数据Solr网页排序优化方法
Priya et al. An implementation of web personalization using web mining techniques
CN108470046B (zh) 基于新闻事件搜索语句的新闻事件排序方法及系统
Rao et al. A novel and efficient method for protecting internet usage from unauthorized access using map reduce
CN106202556B (zh) 一种基于Spark的海量文本关键词快速提取方法
Holzmann et al. Universal distant reading through metadata proxies with archivespark

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190222

Address after: 201203 7, 1 Lane 666 lane, Zhang Heng Road, Pudong New Area, Shanghai.

Patentee after: SHANGHAI ZHANGMEN TECHNOLOGY CO., LTD.

Address before: 201203 No. 356 GuoShoujing Road, Pudong New Area, Shanghai

Patentee before: Shengle Information Technology (Shanghai) Co., Ltd.