CN102567313A

CN102567313A - 递进式网页库去重系统及其实现方法

Info

Publication number: CN102567313A
Application number: CN2010105767312A
Authority: CN
Inventors: 陈运文
Original assignee: Shengle Information Technolpogy Shanghai Co Ltd
Current assignee: Shanghai Zhangmen Science and Technology Co Ltd
Priority date: 2010-12-07
Filing date: 2010-12-07
Publication date: 2012-07-11
Anticipated expiration: 2030-12-07
Also published as: CN102567313B

Abstract

本发明公开了一种递进式网页库去重系统及其实现方法，从互联网上抓取的网页库，采用分周期的方式经比较、判断后有选择地导入到外部网页库中。每次只需要考察新抓取网页与已有的内部、外部网页的重复。本发明所述方法能够保证外部网页库中所有资源两两之间不存在任何重复。并且该方法使得去重操作的运算开销能按时间平均分摊，即每次只处理一个周期内的少量新增的网页，能够使系统流畅的运转，完成网页库的去重操作。

Description

递进式网页库去重系统及其实现方法

技术领域

本发明涉及一种互联网搜索引擎的优化方法。

背景技术

互联网搜索引擎都有网页抓取程序，这些网页抓取程序一般称为网络爬虫(Crawler)或网络蜘蛛(Spider)。这些网页抓取程序日以继夜地从互联网上抓取各种网页，为各自搜索引擎形成一个逐步膨胀的网页库。可是，一方面网页库的容量存在上限，无法承受无限制的内容增加；另一方面互联网上有大量重复网页，这些内容重复的网页不仅占用了搜索引擎存储网页库的空间，也会导致网页库的查询性能下降。如何在网页库中寻找出、并去除掉内容重复的网页，就成为一个值得研究的问题。

传统搜索引擎的网页库去重工作，是将网页库中全部数据依次取出，与新抓取网页进行遍历对比，并去除重复数据，这种方法运算量大，并且去重的实时性差(先出现重复，再进行去重)。

发明内容

本发明所要解决的技术问题是提供一种互联网搜索引擎的网页库去重系统。为此，本发明还提供所述网页库去重系统的实现方法，所谓去重就是当具有多个重复的网页时仅保留其中之一而去除其他。

为解决上述技术问题，本发明提供了互联网搜索引擎的递进式网页库去重系统，包括：

网页抓取模块，该模块将互联网上的网页抓取并下载；

结构化特征提取模块，该模块对网页抓取模块所抓取的每个网页进行解析，提取出多个特征字段；

所述递进式网页库包括内部网页库和外部网页库；所述内部网页库为本网站内部网页所形成的网页库；所述外部网页库为网页抓取模块从除本网站以外的互联网抓取的网页所形成的网页库。

上述递进式网页库去重系统的实现方法，所述递进式网页库包括内部网页库和外部网页库，内部网页库为本网站内部网页所形成的网页库，外部网页库为网页抓取程序从除本网站以外的互联网抓取的网页所形成的网页库；所述递进式网页库去重方法包括如下步骤：

第1步，网页抓取模块定期将新抓取网页传输给结构化特征提取模块；

第2步，结构化特征提取模块从每个新抓取网页中提取多个特征字段；

第3步，将每个新抓取网页与内部网页库中的所有网页进行比较，当新抓取网页的每个特征字段都与内部网页库中的一个网页的一个特征字段相同时，判断该新抓取网页与内部网页库中的该网页重复，删除该新抓取网页；

当该新抓取网页与内部网页库中的所有网页都不重复，进入第4步；

第4步，将每个新抓取网页的网址与外部网页库中的所有网页的网址进行比较，如果有相同现象，则以该新抓取网页替代外部网页库中的相同网址的网页；否则进入第5步；

第5步，将每个新抓取网页与外部网页库中的所有网页进行比较，当新抓取网页的每个特征字段都与外部网页库中的一个网页的一个特征字段相同时，判断该新抓取网页与外部网页库中的该网页重复，进入第6步；

当该新抓取网页与外部网页库中的所有网页都不重复，将该新抓取网页存储至外部网页库中；

第6步，将该新抓取网页的特征字段数量设为a，将外部网页库中与之重复的网页的特征字段数量设为b；当a＜b，则删除该新抓取网页；当a≥b，则以该新抓取网页替代外部网页库中与之重复的网页。

本发明递进式网页库去重系统及其实现方法，在去重时并不对网页库的所有网页数据进行比较，这样对性能的消耗过大。而是采用递进式方法，该方法将已有网页库分为内部资料库、外部资料库两种，每次只需要考察给定周期内新抓取的网页，将这些网页进行特征提取，并分别进行比对。对存在重复的网页，根据重复的类型进行不同操作，从而大大节省了系统资源。

附图说明

图1是本发明所述递进式网页库去重系统的示意图；

图2是本发明所述递进式网页库去重方法的流程图。

具体实施方式

请参阅图1，本发明提供了互联网搜索引擎的递进式网页库去重系统。搜索引擎都具有网页抓取模块，该模块将互联网上的网页抓取并下载。搜索引擎还具有结构化特征提取模块，该模块对网页抓取模块所抓取的每个网页进行解析，提取出多个特征字段。特征字段和搜索引擎对应的应用紧密相关。例如搜索引擎应用于网络书目信息的抓取应用，网页抓取模块从当当网等网络售书站点进行网页抓取后，结构化特征提取模块从网页中提取书名、作者、ISBN、价格、出版社、书籍简介等信息。

本发明所述递进式网页库包括内部网页库和外部网页库。内部网页库为本网站内部网页所形成的网页库，由于数据来自自身，因而具有数据质量高、资源稳定(不会被轻易删除)、内容完整的特点，因此在去重时要优先保留。外部网页库为网页抓取模块从除本网站以外的互联网抓取的网页所形成的网页库，它具有如下特点：外部网页库中的数据可靠性和数据质量比内部网页库低；外部网页库中的网页可能会被更新；外部网页库中的网页内容可能重复。

请参阅图2，本发明所述递进式网页库去重方法包括如下步骤：

第1步，网页抓取模块定期(例如每6个小时)将新抓取网页传输给结构化特征提取模块。这样处理的优点是每次只需要对该周期内新抓取的网页进行重复判断。

第2步，结构化特征提取模块从每个新抓取网页中提取多个特征字段。

第3步，将每个新抓取网页与内部网页库中的所有网页进行比较。当新抓取网页的每个特征字段都与内部网页库中的一个网页的一个特征字段相同时，判断该新抓取网页与内部网页库中的该网页重复，删除该新抓取网页(即去重时优先保留内部网页库中的数据)。当该新抓取网页与内部网页库中的所有网页都不重复，进入第4步。

例如新抓取网页有两个特征字段，内部网页库中的一个网页有三个特征字段且其中有两个特征字段与该新抓取网页的两个特征字段相同，那么就认为该新抓取网页与内部网页库中的该网页重复。

第4步，将每个新抓取网页的网址与外部网页库中的所有网页的网址进行比较。如果有相同现象，则以该新抓取网页替代外部网页库中的相同网址的网页。因为外部网页库中的网页可能有更新，因此总是用新的网页替代旧的。否则进入第5步。

第5步，将每个新抓取网页与外部网页库中的所有网页进行比较。当新抓取网页的每个特征字段都与外部网页库中的一个网页的一个特征字段相同时，判断该新抓取网页与外部网页库中的该网页重复，进入第6步。当该新抓取网页与外部网页库中的所有网页都不重复，将该新抓取网页存储至外部网页库中。

例如新抓取网页有两个特征字段，外部网页库中的一个网页有三个特征字段且其中有两个特征字段与该新抓取网页的两个特征字段相同，那么就认为该新抓取网页与外部网页库中的该网页重复。

第6步，将该新抓取网页的特征字段数量设为a，将外部网页库中与之重复的网页的特征字段数量设为b。当a＜b，则删除该新抓取网页。当a≥b，则以该新抓取网页替代外部网页库中与之重复的网页。这一步实际上是在判断相重复的新抓取网页和外部网页库中的一个网页哪个质量高，保留质量高的网页；当质量相同时，则保留较新的网页(即a＝b时，也以该新抓取网页替代外部网页库中与之重复的网页)。

本发明递进式网页去重系统及其实现方法，从互联网上抓取的网页库，采用分周期的方式经比较、判断后有选择地导入到外部网页库中。每次只需要考察新抓取网页与已有的内部、外部网页的重复。本发明所述方法能够保证外部网页库中所有资源两两之间不存在任何重复。并且该方法使得去重操作的运算开销能按时间平均分摊(每次只处理一个周期内的少量新增的网页)，能够使系统流畅的运转，完成网页库的去重操作。

Claims

1.一种递进式网页库去重系统，其特征是，包括：

网页抓取模块，该模块将互联网上的网页抓取并下载；

2.如权利要求1所述的递进式网页库去重系统的实现方法，其特征是，所述递进式网页库包括内部网页库和外部网页库，内部网页库为本网站内部网页所形成的网页库，外部网页库为网页抓取程序从除本网站以外的互联网抓取的网页所形成的网页库；所述递进式网页库去重方法包括如下步骤：