CN109977285B - 一种面向Deep Web的自适应增量数据采集方法 - Google Patents
一种面向Deep Web的自适应增量数据采集方法 Download PDFInfo
- Publication number
- CN109977285B CN109977285B CN201910215453.9A CN201910215453A CN109977285B CN 109977285 B CN109977285 B CN 109977285B CN 201910215453 A CN201910215453 A CN 201910215453A CN 109977285 B CN109977285 B CN 109977285B
- Authority
- CN
- China
- Prior art keywords
- data
- probability
- acquisition
- data source
- update
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种面向Deep Web的自适应增量数据采集方法。
背景技术
近二十多年来,互联网随着通信技术的迅速发展而蓬勃壮大,它在当今时代的高度普及与广泛应用使网络(Web)成为世界上信息体量最大的可公开访问数据库,作为大数据时代的一座信息巨矿,蕴含在网络中的信息资源却完全没有被充分有效地挖掘并利用。
网络数据挖掘的用途十分广泛,根据挖掘对象和目的的不同,可以将其分为被网络内容挖掘、网络结构挖掘、网络使用挖掘等,网络内容挖掘主要是从网页或搜索结果页面的文档内容及描述中提取隐含知识并理解文档的内容和结构,网络结构挖掘则主要是通过分析页面之间的连接,分析各个页面的权重并提取网站结构的相关信息,网络使用挖掘分为一般访问模式跟踪和个性化访问模式跟踪,使用数据挖掘的技术分析理解用户的访问模式和访问趋势。
通过Web获取和访问信息,传统的方式是通过Baidu、Google及Bing这类的标准搜索引擎来进行内容检索,这些通过超链接互相连接并能够被通用搜索引擎索引到的网络部分被称之为浅网(Surface Web),这部分网络信息比较容易获取,但在通常情况下,其内容的结构化程度不高,信息主题分散,而信息量更丰富、结构化程度更好、主题性更强的网络信息通常在浅网之下,这部分的网络被称为深网(Deep Web)。深网的信息数据通常存储在网络数据库(Web Database),网络数据库是指那些在互联网中只能通过网络查询接口访问到的数据库资源,因此,获取深网的数据内容只能通过向网络数据库提交查询表单得到。
网络爬虫是数据技术搜集信息的基础,常用自动访问和爬取网站数据内容,通过爬取目标网站或网络数据库的资料,就可以分析和建立应用了。传统的通用爬虫只能爬取浅网站点的静态页面,通过逆向分析的手段或使用标准的基于浏览器自动化测试框架(如selenium和PhantomJs)也能对浅网站点的动态页面的内容进行采集,对于只能通过在查询接口提交查询表单的方式访问的深网资源却无能为力。同时,提交一次查询表单只能返回一次结果页面,这显然不能满足在网络资源爆炸式增长的情况下,对不断更新的互联网资源进行可持续性获取的要求。而且网络数据的更新与增长速度是高度动态变化的,对于许多应用场景来说,网络信息的无规律频繁更新,给信息的及时获取与同步造成困难,因此及时监控并保持与动态更新的网络数据的同步更新是当今网络数据挖掘中一个重要的挑战。
对于可持续信息采集,通常分为全量采集和增量采集,全量采集对所以目标页面进行完全的数据采集,虽然这种采集方式能够获得更加全面的数据,但是这种采集方式由于资源消耗特别大,所有每次只能在一个较长的时间周期内重复工作采集数据,这种周期等待会导致获取到的信息具有很大的滞后性。而实践效果比较好的是增量爬虫技术,增量爬虫采集效率高,采集时间灵活,能够更好地保持网络数据内容的时新性。
目前已有的增量爬虫主要分为两种:一种为设置爬虫固定周期定时重爬,但是web资源的更新具有不确定性,爬虫效率依赖极度对人为设定的周期值,如果周期时间设定过长,则不能保证爬取到的资源的新鲜度,如果周期值设定过低,虽然能够保持采集到数据的时新性,对网络带宽和硬件资源的浪费以及对资源提供者的服务器的负担也是巨大的。另一种根据历史爬取记录,计算网页的更新周期,并根据该周期设置重爬时间,但是由于DeepWeb数据源的动态性与自治性,仅根据一段时期的历史记录计算得出的固定更新周期显然是不可靠的。
发明内容
针对上述技术问题,本发明设计的网络数据自适应增量采集方法不同于以往研究中简单地计算更新周期,而是针对Deep Web数据源数量庞杂的特点,首先根据数据源的数据内容、数据网址和数据间链接关系等特征对数据源进行聚类,然后对聚类结果中的数据源进行分层采样,计算该类别数据更新的频率,最后,对每次采集后的结果进行评估,将评估结果直接反馈到增量爬虫的预测与调度系统,使得该系统能够根据实际情况自适应地调整自身模型参数。
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明公开了一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:
步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;
步骤3:分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据;
步骤4:对所述采样数据进行分析预测;
更进一步地,步骤2进一步包括:聚类时所用到的数据特征为内容特征、网址特征和链接关系特征;内容特征包括数据内容的标题,内容的类型(text/html、text/plain),内容的长度,图表的数量;网址特征包括网址的深度,url的长度;链接关系特征包括外链网址的数量和内链网址的数量。
更进一步地,步骤2进一步包括:提取数据仓库中所有数据的上述特征将数据描述为特征向量,通过无监督的K-Means聚类算法对数据源进行聚类。
更进一步地,步骤4进一步包括:对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算(假定根据前k次数据采集周期计算):
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值。
更进一步地,所述步骤5进一步包括:
其中SC为类别C在所述步骤3中得到的数据抽样。
更进一步地,所述步骤6进一步包括:
上述公式中,a为数据源s在连续多个采集周期中都没有被下载的次数,b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数。上述方法计算出的值将被直接反馈于增量采集系统,并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。
本发明提出的增量采集方法不但能更快地获取到最新地增量数据,也能最大程度地减少数据采集过程的网络资源与硬件资源的耗费。此外,增量采集系统本身也将随着网络变化的实际趋势动态调整,使得整个自适应增来给你爬虫最终获得最佳的准确度与调度效率。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的自适应增量数据采集系统的基本工作流程图;
图2是本发明一实施例中的自适应增量数据采集方法的流程图。
具体实施方式
实施例一
下面将结合附图和实施例对本发明做进一步的说明。
一种面向Deep Web的自适应增量数据采集系统,其基本工作流程如图1所示,具体包括以下步骤:
步骤1:对于给定的结构化的DeepWeb数据源,前期由于冷启动系统没有初始数据,因此需要对数据源进行多个周期的全量采集。
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类,聚类时所用到的数据特征为内容特征、网址特征和链接关系特征。内容特征包括数据内容的标题,内容的类型(如text/html、text/plain等),内容的长度,图表的数量等;网址特征包括网址的深度,url的长度等;链接关系特征包括外链网址的数量和内链网址的数量。提取数据仓库中所有数据的上述特征,将数据描述为特征向量,由于不能预先知道数据源的类别数量,因此采用无监督的K-Means聚类算法对数据源进行聚类。
步骤3:步骤2聚类完成后,对与每一个类别,分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据。
步骤4:对得到的采样数据进行分析预测,由于网络数据的更新服从泊松分布,对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算(假定根据前k次数据采集周期计算):
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值。
其中SC为类别C在步骤3中得到的数据抽样。
上述公式中,a为数据源s在连续多个采集周期中都没有被下载的次数,b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数。上述方法计算出的值将被直接反馈于增量采集系统,并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。
实施例二
如图2所示的一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:
步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;
步骤3:分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据;
步骤4:对所述采样数据进行分析预测;
更进一步地,步骤2进一步包括:聚类时所用到的数据特征为内容特征、网址特征和链接关系特征;内容特征包括数据内容的标题,内容的类型(text/html、text/plain),内容的长度,图表的数量;网址特征包括网址的深度,url的长度;链接关系特征包括外链网址的数量和内链网址的数量。
更进一步地,步骤2进一步包括:提取数据仓库中所有数据的上述特征将数据描述为特征向量,通过无监督的K-Means聚类算法对数据源进行聚类。
更进一步地,步骤4进一步包括:对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算(假定根据前k次数据采集周期计算):
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值。
更进一步地,所述步骤5进一步包括:
其中SC为类别C在所述步骤3中得到的数据抽样。
更进一步地,所述步骤6进一步包括:
上述公式中,a为数据源s在连续多个采集周期中都没有被下载的次数,b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数。上述方法计算出的值将被直接反馈于增量采集系统,并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。
据此,该增量数据采集系统利用对数据源的聚类,将具有相同特征和更新频率的数据源整合在一起,每次对各个类别进行分层采集并计算出最大概率要采集的类,采集后的反馈结果也直接作用于下一次的采集,实现了增量采集系统的自适应调节,并能够在多次实际采集工作中逐渐将系统调节到更加精准和稳定的状态。
根据数据源特征对数据源进行聚类,以类为单位而不是以数据源为单位进行增量采集,能够有效地提高数据采集效率。
在抽样计算各类别更新概率的过程中,调度器的计算结果不仅依赖于各个数据源当前的自身属性,采集结果的有效性也作为一个重要标准动态地调节调度器的调度结果。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (5)
1.一种面向Deep Web的自适应增量数据采集方法,其特征在于,包括以下步骤:
步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;
步骤3:分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据;
步骤4:对所述采样数据进行分析预测;
其中,步骤4进一步包括:对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算,假定根据前k次数据采集周期计算:
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值;
2.如权利要求1所述的方法,其特征在于,步骤2进一步包括:聚类时所用到的数据特征为内容特征、网址特征和链接关系特征;内容特征包括数据内容的标题,内容的类型,内容的长度,图表的数量;网址特征包括网址的深度,url的长度;链接关系特征包括外链网址的数量和内链网址的数量。
3.如权利要求2所述的方法,其特征在于,步骤2进一步包括:提取数据仓库中所有数据的上述特征将数据描述为特征向量,通过无监督的K-Means聚类算法对数据源进行聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910215453.9A CN109977285B (zh) | 2019-03-21 | 2019-03-21 | 一种面向Deep Web的自适应增量数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910215453.9A CN109977285B (zh) | 2019-03-21 | 2019-03-21 | 一种面向Deep Web的自适应增量数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977285A CN109977285A (zh) | 2019-07-05 |
CN109977285B true CN109977285B (zh) | 2023-03-10 |
Family
ID=67079796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910215453.9A Active CN109977285B (zh) | 2019-03-21 | 2019-03-21 | 一种面向Deep Web的自适应增量数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977285B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111767446A (zh) * | 2020-07-09 | 2020-10-13 | 北京鼎泰智源科技有限公司 | 一种基于大数据的数据采集方法 |
CN112100472B (zh) * | 2020-09-11 | 2023-11-28 | 深圳市科盾科技有限公司 | 爬虫调度方法、装置、终端设备和可读存储介质 |
CN113326417B (zh) * | 2021-06-17 | 2023-08-01 | 北京百度网讯科技有限公司 | 用于更新网页库的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840432A (zh) * | 2010-05-11 | 2010-09-22 | 同方知网(北京)技术有限公司 | 一种基于Deep Web深层动态数据的数据挖掘装置及方法 |
CN103714149A (zh) * | 2013-12-26 | 2014-04-09 | 华中科技大学 | 一种自适应增量式的深层网络数据源发现方法 |
CN106066875A (zh) * | 2016-05-30 | 2016-11-02 | 深圳市华傲数据技术有限公司 | 一种基于深网爬虫的高效数据采集方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020065857A1 (en) * | 2000-10-04 | 2002-05-30 | Zbigniew Michalewicz | System and method for analysis and clustering of documents for search engine |
-
2019
- 2019-03-21 CN CN201910215453.9A patent/CN109977285B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840432A (zh) * | 2010-05-11 | 2010-09-22 | 同方知网(北京)技术有限公司 | 一种基于Deep Web深层动态数据的数据挖掘装置及方法 |
CN103714149A (zh) * | 2013-12-26 | 2014-04-09 | 华中科技大学 | 一种自适应增量式的深层网络数据源发现方法 |
CN106066875A (zh) * | 2016-05-30 | 2016-11-02 | 深圳市华傲数据技术有限公司 | 一种基于深网爬虫的高效数据采集方法及系统 |
Non-Patent Citations (2)
Title |
---|
Deep Web Databases Sampling Approach Based on Probability Selection and Rule Mining;Yang Xu;《2009 International Conference on Computational Intelligence and Software Engineering》;20091228;全文 * |
基于动态数据源的Deep Web信息集成框架研究;束长波等;《无线通信技术》;20150215(第01期);第52-56、61页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109977285A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102750334B (zh) | 一种基于dm的农业信息精准推送的方法 | |
KR101366408B1 (ko) | 컴퓨터 실행 가능 컴포넌트를 포함하는 컴퓨터 구현된 시스템 | |
KR101171405B1 (ko) | 검색 결과에서 배치 내용 정렬의 맞춤화 | |
US8745183B2 (en) | System and method for adaptively refreshing a web page | |
US7739270B2 (en) | Entity-specific tuned searching | |
CN109977285B (zh) | 一种面向Deep Web的自适应增量数据采集方法 | |
US8645367B1 (en) | Predicting data for document attributes based on aggregated data for repeated URL patterns | |
CN102262661B (zh) | 一种基于k阶混合马尔可夫模型的Web页面访问预测方法 | |
Senkul et al. | Improving pattern quality in web usage mining by using semantic information | |
US20090157643A1 (en) | Semi-supervised part-of-speech tagging | |
US20100205168A1 (en) | Thread-Based Incremental Web Forum Crawling | |
US9466021B1 (en) | Task driven context-aware search | |
US20120016857A1 (en) | System and method for providing search engine optimization analysis | |
JP2008538149A (ja) | 格付け方法、検索結果組織化方法、格付けシステム及び検索結果組織化システム | |
KR20070098505A (ko) | 파일 시스템에 대한 검색 순위부여 방법 및 관련된 검색엔진 | |
CN1930566A (zh) | 用于使用倾向分析进行搜索查询处理的系统和方法 | |
CN108710672B (zh) | 一种基于增量贝叶斯算法的主题爬虫方法 | |
Singh et al. | A comparative study of page ranking algorithms for information retrieval | |
Anandhi et al. | Prediction of user’s type and navigation pattern using clustering and classification algorithms | |
Yan et al. | Designing focused crawler based on improved genetic algorithm | |
Oo | Pattern discovery using association rule mining on clustered data | |
Khonsha et al. | New hybrid web personalization framework | |
Horincar et al. | Online refresh strategies for content based feed aggregation | |
CN109597928B (zh) | 支持用户策略配置的基于Web网络的非结构化文本获取方法 | |
Maratea et al. | An heuristic approach to page recommendation in web usage mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |