CN109977285B

CN109977285B - 一种面向Deep Web的自适应增量数据采集方法

Info

Publication number: CN109977285B
Application number: CN201910215453.9A
Authority: CN
Inventors: 裘嵘; 杨俊杰; 张祖平; 罗律
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2023-03-10
Anticipated expiration: 2039-03-21
Also published as: CN109977285A

Abstract

本发明公开了一种面向Deep Web的自适应增量数据采集方法，包括以下步骤：步骤1：对给定的结构化的DeepWeb数据源进行多个周期的全量采集；步骤2：利用位于本地数据仓库的初始收集到的数据进行数据源聚类；步骤3：分别统计各个类别中数据源的数量，得到抽样数据源的采样数据；步骤4：对采样数据进行分析预测；步骤5：调度器根据对各数据源s的下载概率

的计算，在每个数据采集周期选择平均下载概率最高的类，并调度下载器进行数据下载，将增量更新的结果加入到本地数据仓库；步骤6：在每一个数据采集周期结束后，需要对各次下载结果进行评估(计算

的值)，用于在步骤4中影响数据源s的采集概率

Description

一种面向Deep Web的自适应增量数据采集方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种面向Deep Web的自适应增量数据采集方法。

背景技术

近二十多年来，互联网随着通信技术的迅速发展而蓬勃壮大，它在当今时代的高度普及与广泛应用使网络(Web)成为世界上信息体量最大的可公开访问数据库，作为大数据时代的一座信息巨矿，蕴含在网络中的信息资源却完全没有被充分有效地挖掘并利用。

网络数据挖掘的用途十分广泛，根据挖掘对象和目的的不同，可以将其分为被网络内容挖掘、网络结构挖掘、网络使用挖掘等，网络内容挖掘主要是从网页或搜索结果页面的文档内容及描述中提取隐含知识并理解文档的内容和结构，网络结构挖掘则主要是通过分析页面之间的连接，分析各个页面的权重并提取网站结构的相关信息，网络使用挖掘分为一般访问模式跟踪和个性化访问模式跟踪，使用数据挖掘的技术分析理解用户的访问模式和访问趋势。

通过Web获取和访问信息，传统的方式是通过Baidu、Google及Bing这类的标准搜索引擎来进行内容检索，这些通过超链接互相连接并能够被通用搜索引擎索引到的网络部分被称之为浅网(Surface Web)，这部分网络信息比较容易获取，但在通常情况下，其内容的结构化程度不高，信息主题分散，而信息量更丰富、结构化程度更好、主题性更强的网络信息通常在浅网之下，这部分的网络被称为深网(Deep Web)。深网的信息数据通常存储在网络数据库(Web Database)，网络数据库是指那些在互联网中只能通过网络查询接口访问到的数据库资源，因此，获取深网的数据内容只能通过向网络数据库提交查询表单得到。

网络爬虫是数据技术搜集信息的基础，常用自动访问和爬取网站数据内容，通过爬取目标网站或网络数据库的资料，就可以分析和建立应用了。传统的通用爬虫只能爬取浅网站点的静态页面，通过逆向分析的手段或使用标准的基于浏览器自动化测试框架(如selenium和PhantomJs)也能对浅网站点的动态页面的内容进行采集，对于只能通过在查询接口提交查询表单的方式访问的深网资源却无能为力。同时，提交一次查询表单只能返回一次结果页面，这显然不能满足在网络资源爆炸式增长的情况下，对不断更新的互联网资源进行可持续性获取的要求。而且网络数据的更新与增长速度是高度动态变化的，对于许多应用场景来说，网络信息的无规律频繁更新，给信息的及时获取与同步造成困难，因此及时监控并保持与动态更新的网络数据的同步更新是当今网络数据挖掘中一个重要的挑战。

对于可持续信息采集，通常分为全量采集和增量采集，全量采集对所以目标页面进行完全的数据采集，虽然这种采集方式能够获得更加全面的数据，但是这种采集方式由于资源消耗特别大，所有每次只能在一个较长的时间周期内重复工作采集数据，这种周期等待会导致获取到的信息具有很大的滞后性。而实践效果比较好的是增量爬虫技术，增量爬虫采集效率高，采集时间灵活，能够更好地保持网络数据内容的时新性。

目前已有的增量爬虫主要分为两种：一种为设置爬虫固定周期定时重爬，但是web资源的更新具有不确定性，爬虫效率依赖极度对人为设定的周期值，如果周期时间设定过长，则不能保证爬取到的资源的新鲜度，如果周期值设定过低，虽然能够保持采集到数据的时新性，对网络带宽和硬件资源的浪费以及对资源提供者的服务器的负担也是巨大的。另一种根据历史爬取记录，计算网页的更新周期，并根据该周期设置重爬时间，但是由于DeepWeb数据源的动态性与自治性，仅根据一段时期的历史记录计算得出的固定更新周期显然是不可靠的。

发明内容

针对上述技术问题，本发明设计的网络数据自适应增量采集方法不同于以往研究中简单地计算更新周期，而是针对Deep Web数据源数量庞杂的特点，首先根据数据源的数据内容、数据网址和数据间链接关系等特征对数据源进行聚类，然后对聚类结果中的数据源进行分层采样，计算该类别数据更新的频率，最后，对每次采集后的结果进行评估，将评估结果直接反馈到增量爬虫的预测与调度系统，使得该系统能够根据实际情况自适应地调整自身模型参数。

本发明旨在至少解决现有技术中存在的技术问题。为此，本发明公开了一种面向Deep Web的自适应增量数据采集方法，包括以下步骤：

步骤1：对给定的结构化的DeepWeb数据源进行多个周期的全量采集；

步骤2：利用位于本地数据仓库的初始收集到的数据进行数据源聚类；

步骤3：分别统计各个类别中数据源的数量，采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量，然后向下载器发出采样请求，得到抽样数据源的采样数据；

步骤4：对所述采样数据进行分析预测；

步骤5：调度器根据对各数据源s的下载概率

的计算，在每个数据采集周期选择平均下载概率最高的类，并调度下载器进行数据下载，将增量更新的结果加入到本地数据仓库；

步骤6：在每一个数据采集周期结束后，需要对各次下载结果进行评估(计算

的值)，用于在步骤4中影响数据源s的采集概率

更进一步地，步骤2进一步包括：聚类时所用到的数据特征为内容特征、网址特征和链接关系特征；内容特征包括数据内容的标题，内容的类型(text/html、text/plain)，内容的长度，图表的数量；网址特征包括网址的深度，url的长度；链接关系特征包括外链网址的数量和内链网址的数量。

更进一步地，步骤2进一步包括：提取数据仓库中所有数据的上述特征将数据描述为特征向量，通过无监督的K-Means聚类算法对数据源进行聚类。

更进一步地，步骤4进一步包括：对于一个特定的数据源s，其历史数据更新频率为λ_s，假定T为其下一次发生更新的时间，则T的概率密度函数为：

因此数据源s在时间段(0,t]内更新可能性，即概率分布函数为：

而对于调度器来说，下载数据源s的概率

取决与两个因素:前几次数据采集周期中的平均更新可能性

以及在前几次采集周期中根据结果评估计算得到的调节系数

因此，数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算(假定根据前k次数据采集周期计算)：

其中α为反馈调节系数，用于决定反馈调节的权重大小，r_p,i为每次采集时两个不同的连续版本中的实际更新率，w_i是根据数据更新概率计算的历次更新的权重值。

更进一步地，所述步骤5进一步包括：

各个类C的平均下载概率

的计算公式如下：

其中S_C为类别C在所述步骤3中得到的数据抽样。

更进一步地，所述步骤6进一步包括：

由步骤4可知

的值取决于r_p,i，对于不同的数据源s，r_p,i的计算方法如下：

上述公式中，a为数据源s在连续多个采集周期中都没有被下载的次数，b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数。上述方法计算出的值将被直接反馈于增量采集系统，并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。

本发明提出的增量采集方法不但能更快地获取到最新地增量数据，也能最大程度地减少数据采集过程的网络资源与硬件资源的耗费。此外，增量采集系统本身也将随着网络变化的实际趋势动态调整，使得整个自适应增来给你爬虫最终获得最佳的准确度与调度效率。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的自适应增量数据采集系统的基本工作流程图；

图2是本发明一实施例中的自适应增量数据采集方法的流程图。

具体实施方式

实施例一

下面将结合附图和实施例对本发明做进一步的说明。

一种面向Deep Web的自适应增量数据采集系统，其基本工作流程如图1所示，具体包括以下步骤：

步骤1:对于给定的结构化的DeepWeb数据源，前期由于冷启动系统没有初始数据，因此需要对数据源进行多个周期的全量采集。

步骤2：利用位于本地数据仓库的初始收集到的数据进行数据源聚类，聚类时所用到的数据特征为内容特征、网址特征和链接关系特征。内容特征包括数据内容的标题，内容的类型(如text/html、text/plain等)，内容的长度，图表的数量等；网址特征包括网址的深度，url的长度等；链接关系特征包括外链网址的数量和内链网址的数量。提取数据仓库中所有数据的上述特征，将数据描述为特征向量，由于不能预先知道数据源的类别数量，因此采用无监督的K-Means聚类算法对数据源进行聚类。

步骤3：步骤2聚类完成后，对与每一个类别，分别统计各个类别中数据源的数量，采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量，然后向下载器发出采样请求，得到抽样数据源的采样数据。

步骤4：对得到的采样数据进行分析预测，由于网络数据的更新服从泊松分布，对于一个特定的数据源s，其历史数据更新频率为λ_s，假定T为其下一次发生更新的时间，则T的概率密度函数为：

而对于调度器来说，下载数据源s的概率

取决与两个因素:前几次数据采集周期中的平均更新可能性

以及在前几次采集周期中根据结果评估计算得到的调节系数

步骤5：调度器根据对各数据源s的下载概率

的计算，在每个数据采集周期选择平均下载概率最高的类，并调度下载器进行数据下载，将增量更新的结果加入到本地数据仓库。各个类C的平均下载概率

的计算公式如下：

其中S_C为类别C在步骤3中得到的数据抽样。

步骤6：在每一个数据采集周期结束后，需要对各次下载结果进行评估，即计算

的值，用于在步骤4中影响数据源s的采集概率

由步骤4可知

实施例二

如图2所示的一种面向Deep Web的自适应增量数据采集方法，包括以下步骤：

步骤4：对所述采样数据进行分析预测；

步骤5：调度器根据对各数据源s的下载概率

的值)，用于在步骤4中影响数据源s的采集概率

而对于调度器来说，下载数据源s的概率

取决与两个因素:前几次数据采集周期中的平均更新可能性

以及在前几次采集周期中根据结果评估计算得到的调节系数

更进一步地，所述步骤5进一步包括：

各个类C的平均下载概率

的计算公式如下：

其中S_C为类别C在所述步骤3中得到的数据抽样。

更进一步地，所述步骤6进一步包括：

由步骤4可知

据此，该增量数据采集系统利用对数据源的聚类，将具有相同特征和更新频率的数据源整合在一起，每次对各个类别进行分层采集并计算出最大概率要采集的类，采集后的反馈结果也直接作用于下一次的采集，实现了增量采集系统的自适应调节，并能够在多次实际采集工作中逐渐将系统调节到更加精准和稳定的状态。

根据数据源特征对数据源进行聚类，以类为单位而不是以数据源为单位进行增量采集，能够有效地提高数据采集效率。

在抽样计算各类别更新概率的过程中，调度器的计算结果不仅依赖于各个数据源当前的自身属性，采集结果的有效性也作为一个重要标准动态地调节调度器的调度结果。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。