CN109977285A - 一种面向Deep Web的自适应增量数据采集方法 - Google Patents

一种面向Deep Web的自适应增量数据采集方法 Download PDF

Info

Publication number
CN109977285A
CN109977285A CN201910215453.9A CN201910215453A CN109977285A CN 109977285 A CN109977285 A CN 109977285A CN 201910215453 A CN201910215453 A CN 201910215453A CN 109977285 A CN109977285 A CN 109977285A
Authority
CN
China
Prior art keywords
data
probability
data source
source
downloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910215453.9A
Other languages
English (en)
Other versions
CN109977285B (zh
Inventor
裘嵘
杨俊杰
张祖平
罗律
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910215453.9A priority Critical patent/CN109977285B/zh
Publication of CN109977285A publication Critical patent/CN109977285A/zh
Application granted granted Critical
Publication of CN109977285B publication Critical patent/CN109977285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;步骤3:分别统计各个类别中数据源的数量,得到抽样数据源的采样数据;步骤4:对采样数据进行分析预测;步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估(计算的值),用于在步骤4中影响数据源s的采集概率

Description

一种面向Deep Web的自适应增量数据采集方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种面向Deep Web的自适应增量数据采集方法。
背景技术
近二十多年来,互联网随着通信技术的迅速发展而蓬勃壮大,它在当今时代的高度普及与广泛应用使网络(Web)成为世界上信息体量最大的可公开访问数据库,作为大数据时代的一座信息巨矿,蕴含在网络中的信息资源却完全没有被充分有效地挖掘并利用。
网络数据挖掘的用途十分广泛,根据挖掘对象和目的的不同,可以将其分为被网络内容挖掘、网络结构挖掘、网络使用挖掘等,网络内容挖掘主要是从网页或搜索结果页面的文档内容及描述中提取隐含知识并理解文档的内容和结构,网络结构挖掘则主要是通过分析页面之间的连接,分析各个页面的权重并提取网站结构的相关信息,网络使用挖掘分为一般访问模式跟踪和个性化访问模式跟踪,使用数据挖掘的技术分析理解用户的访问模式和访问趋势。
通过Web获取和访问信息,传统的方式是通过Baidu、Google及Bing这类的标准搜索引擎来进行内容检索,这些通过超链接互相连接并能够被通用搜索引擎索引到的网络部分被称之为浅网(Surface Web),这部分网络信息比较容易获取,但在通常情况下,其内容的结构化程度不高,信息主题分散,而信息量更丰富、结构化程度更好、主题性更强的网络信息通常在浅网之下,这部分的网络被称为深网(Deep Web)。深网的信息数据通常存储在网络数据库(Web Database),网络数据库是指那些在互联网中只能通过网络查询接口访问到的数据库资源,因此,获取深网的数据内容只能通过向网络数据库提交查询表单得到。
网络爬虫是数据技术搜集信息的基础,常用自动访问和爬取网站数据内容,通过爬取目标网站或网络数据库的资料,就可以分析和建立应用了。传统的通用爬虫只能爬取浅网站点的静态页面,通过逆向分析的手段或使用标准的基于浏览器自动化测试框架(如selenium和PhantomJs)也能对浅网站点的动态页面的内容进行采集,对于只能通过在查询接口提交查询表单的方式访问的深网资源却无能为力。同时,提交一次查询表单只能返回一次结果页面,这显然不能满足在网络资源爆炸式增长的情况下,对不断更新的互联网资源进行可持续性获取的要求。而且网络数据的更新与增长速度是高度动态变化的,对于许多应用场景来说,网络信息的无规律频繁更新,给信息的及时获取与同步造成困难,因此及时监控并保持与动态更新的网络数据的同步更新是当今网络数据挖掘中一个重要的挑战。
对于可持续信息采集,通常分为全量采集和增量采集,全量采集对所以目标页面进行完全的数据采集,虽然这种采集方式能够获得更加全面的数据,但是这种采集方式由于资源消耗特别大,所有每次只能在一个较长的时间周期内重复工作采集数据,这种周期等待会导致获取到的信息具有很大的滞后性。而实践效果比较好的是增量爬虫技术,增量爬虫采集效率高,采集时间灵活,能够更好地保持网络数据内容的时新性。
目前已有的增量爬虫主要分为两种:一种为设置爬虫固定周期定时重爬,但是web资源的更新具有不确定性,爬虫效率依赖极度对人为设定的周期值,如果周期时间设定过长,则不能保证爬取到的资源的新鲜度,如果周期值设定过低,虽然能够保持采集到数据的时新性,对网络带宽和硬件资源的浪费以及对资源提供者的服务器的负担也是巨大的。另一种根据历史爬取记录,计算网页的更新周期,并根据该周期设置重爬时间,但是由于DeepWeb数据源的动态性与自治性,仅根据一段时期的历史记录计算得出的固定更新周期显然是不可靠的。
发明内容
针对上述技术问题,本发明设计的网络数据自适应增量采集方法不同于以往研究中简单地计算更新周期,而是针对Deep Web数据源数量庞杂的特点,首先根据数据源的数据内容、数据网址和数据间链接关系等特征对数据源进行聚类,然后对聚类结果中的数据源进行分层采样,计算该类别数据更新的频率,最后,对每次采集后的结果进行评估,将评估结果直接反馈到增量爬虫的预测与调度系统,使得该系统能够根据实际情况自适应地调整自身模型参数。
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明公开了一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:
步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;
步骤3:分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据;
步骤4:对所述采样数据进行分析预测;
步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;
步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估(计算的值),用于在步骤4中影响数据源s的采集概率
更进一步地,步骤2进一步包括:聚类时所用到的数据特征为内容特征、网址特征和链接关系特征;内容特征包括数据内容的标题,内容的类型(text/html、text/plain),内容的长度,图表的数量;网址特征包括网址的深度,url的长度;链接关系特征包括外链网址的数量和内链网址的数量。
更进一步地,步骤2进一步包括:提取数据仓库中所有数据的上述特征将数据描述为特征向量,通过无监督的K-Means聚类算法对数据源进行聚类。
更进一步地,步骤4进一步包括:对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算(假定根据前k次数据采集周期计算):
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值。
更进一步地,所述步骤5进一步包括:
各个类C的平均下载概率的计算公式如下:
其中SC为类别C在所述步骤3中得到的数据抽样。
更进一步地,所述步骤6进一步包括:
由步骤4可知的值取决于rp,i,对于不同的数据源s,rp,i的计算方法如下:
上述公式中,a为数据源s在连续多个采集周期中都没有被下载的次数,b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数。上述方法计算出的值将被直接反馈于增量采集系统,并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。
本发明提出的增量采集方法不但能更快地获取到最新地增量数据,也能最大程度地减少数据采集过程的网络资源与硬件资源的耗费。此外,增量采集系统本身也将随着网络变化的实际趋势动态调整,使得整个自适应增来给你爬虫最终获得最佳的准确度与调度效率。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的自适应增量数据采集系统的基本工作流程图;
图2是本发明一实施例中的自适应增量数据采集方法的流程图。
具体实施方式
实施例一
下面将结合附图和实施例对本发明做进一步的说明。
一种面向Deep Web的自适应增量数据采集系统,其基本工作流程如图1所示,具体包括以下步骤:
步骤1:对于给定的结构化的DeepWeb数据源,前期由于冷启动系统没有初始数据,因此需要对数据源进行多个周期的全量采集。
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类,聚类时所用到的数据特征为内容特征、网址特征和链接关系特征。内容特征包括数据内容的标题,内容的类型(如text/html、text/plain等),内容的长度,图表的数量等;网址特征包括网址的深度,url的长度等;链接关系特征包括外链网址的数量和内链网址的数量。提取数据仓库中所有数据的上述特征,将数据描述为特征向量,由于不能预先知道数据源的类别数量,因此采用无监督的K-Means聚类算法对数据源进行聚类。
步骤3:步骤2聚类完成后,对与每一个类别,分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据。
步骤4:对得到的采样数据进行分析预测,由于网络数据的更新服从泊松分布,对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算(假定根据前k次数据采集周期计算):
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值。
步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库。各个类C的平均下载概率的计算公式如下:
其中SC为类别C在步骤3中得到的数据抽样。
步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估,即计算的值,用于在步骤4中影响数据源s的采集概率由步骤4可知的值取决于rp,i,对于不同的数据源s,rp,i的计算方法如下:
上述公式中,a为数据源s在连续多个采集周期中都没有被下载的次数,b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数。上述方法计算出的值将被直接反馈于增量采集系统,并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。
实施例二
如图2所示的一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:
步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;
步骤3:分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据;
步骤4:对所述采样数据进行分析预测;
步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;
步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估(计算的值),用于在步骤4中影响数据源s的采集概率
更进一步地,步骤2进一步包括:聚类时所用到的数据特征为内容特征、网址特征和链接关系特征;内容特征包括数据内容的标题,内容的类型(text/html、text/plain),内容的长度,图表的数量;网址特征包括网址的深度,url的长度;链接关系特征包括外链网址的数量和内链网址的数量。
更进一步地,步骤2进一步包括:提取数据仓库中所有数据的上述特征将数据描述为特征向量,通过无监督的K-Means聚类算法对数据源进行聚类。
更进一步地,步骤4进一步包括:对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算(假定根据前k次数据采集周期计算):
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值。
更进一步地,所述步骤5进一步包括:
各个类C的平均下载概率的计算公式如下:
其中SC为类别C在所述步骤3中得到的数据抽样。
更进一步地,所述步骤6进一步包括:
由步骤4可知的值取决于rp,i,对于不同的数据源s,rp,i的计算方法如下:
上述公式中,a为数据源s在连续多个采集周期中都没有被下载的次数,b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数。上述方法计算出的值将被直接反馈于增量采集系统,并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。
据此,该增量数据采集系统利用对数据源的聚类,将具有相同特征和更新频率的数据源整合在一起,每次对各个类别进行分层采集并计算出最大概率要采集的类,采集后的反馈结果也直接作用于下一次的采集,实现了增量采集系统的自适应调节,并能够在多次实际采集工作中逐渐将系统调节到更加精准和稳定的状态。
根据数据源特征对数据源进行聚类,以类为单位而不是以数据源为单位进行增量采集,能够有效地提高数据采集效率。
在抽样计算各类别更新概率的过程中,调度器的计算结果不仅依赖于各个数据源当前的自身属性,采集结果的有效性也作为一个重要标准动态地调节调度器的调度结果。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种面向Deep Web的自适应增量数据采集方法,其特征在于,包括以下步骤:
步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;
步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;
步骤3:分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据;
步骤4:对所述采样数据进行分析预测;
步骤5:调度器根据对各数据源s的下载概率的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;
步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估(计算的值),用于在步骤4中影响数据源s的采集概率
2.如权利要求1所述的方法,其特征在于,步骤2进一步包括:聚类时所用到的数据特征为内容特征、网址特征和链接关系特征;内容特征包括数据内容的标题,内容的类型(text/html、text/plain),内容的长度,图表的数量;网址特征包括网址的深度,url的长度;链接关系特征包括外链网址的数量和内链网址的数量。
3.如权利要求2所述的方法,其特征在于,步骤2进一步包括:提取数据仓库中所有数据的上述特征将数据描述为特征向量,通过无监督的K-Means聚类算法对数据源进行聚类。
4.如权利要求3所述的方法,其特征在于,步骤4进一步包括:对于一个特定的数据源s,其历史数据更新频率为λs,假定T为其下一次发生更新的时间,则T的概率密度函数为:
因此数据源s在时间段(0,t]内更新可能性,即概率分布函数为:
而对于调度器来说,下载数据源s的概率取决与两个因素:前几次数据采集周期中的平均更新可能性以及在前几次采集周期中根据结果评估计算得到的调节系数因此,数据源s在接下来n次数据采集周期中被下载的概率使用如下方法计算(假定根据前k次数据采集周期计算):
其中α为反馈调节系数,用于决定反馈调节的权重大小,rp,i为每次采集时两个不同的连续版本中的实际更新率,wi是根据数据更新概率计算的历次更新的权重值。
5.如权利要求4所述的方法,其特征在于,所述步骤5进一步包括:
各个类C的平均下载概率的计算公式如下:
其中SC为类别C在所述步骤3中得到的数据抽样。
6.如权利要求5所述的方法,其特征在于,所述步骤6进一步包括:
由步骤4可知的值取决于rp,i,对于不同的数据源s,rp,i的计算方法如下:
上述公式中,a为数据源s在连续多个采集周期中都没有被下载的次数,b为数据源s在连续多个采集周期中都被下载其都发生数据更新的次数,上述方法计算出的值将被直接反馈于增量采集系统,并在下一次数据采集周期之前被纳入下一轮的数据采集预测计算。
CN201910215453.9A 2019-03-21 2019-03-21 一种面向Deep Web的自适应增量数据采集方法 Active CN109977285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910215453.9A CN109977285B (zh) 2019-03-21 2019-03-21 一种面向Deep Web的自适应增量数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910215453.9A CN109977285B (zh) 2019-03-21 2019-03-21 一种面向Deep Web的自适应增量数据采集方法

Publications (2)

Publication Number Publication Date
CN109977285A true CN109977285A (zh) 2019-07-05
CN109977285B CN109977285B (zh) 2023-03-10

Family

ID=67079796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910215453.9A Active CN109977285B (zh) 2019-03-21 2019-03-21 一种面向Deep Web的自适应增量数据采集方法

Country Status (1)

Country Link
CN (1) CN109977285B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767446A (zh) * 2020-07-09 2020-10-13 北京鼎泰智源科技有限公司 一种基于大数据的数据采集方法
CN112100472A (zh) * 2020-09-11 2020-12-18 深圳市科盾科技有限公司 爬虫调度方法、装置、终端设备和可读存储介质
CN113326417A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 用于更新网页库的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065857A1 (en) * 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
CN101840432A (zh) * 2010-05-11 2010-09-22 同方知网(北京)技术有限公司 一种基于Deep Web深层动态数据的数据挖掘装置及方法
CN103714149A (zh) * 2013-12-26 2014-04-09 华中科技大学 一种自适应增量式的深层网络数据源发现方法
CN106066875A (zh) * 2016-05-30 2016-11-02 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065857A1 (en) * 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
CN101840432A (zh) * 2010-05-11 2010-09-22 同方知网(北京)技术有限公司 一种基于Deep Web深层动态数据的数据挖掘装置及方法
CN103714149A (zh) * 2013-12-26 2014-04-09 华中科技大学 一种自适应增量式的深层网络数据源发现方法
CN106066875A (zh) * 2016-05-30 2016-11-02 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG XU: "Deep Web Databases Sampling Approach Based on Probability Selection and Rule Mining", 《2009 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SOFTWARE ENGINEERING》 *
束长波等: "基于动态数据源的Deep Web信息集成框架研究", 《无线通信技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767446A (zh) * 2020-07-09 2020-10-13 北京鼎泰智源科技有限公司 一种基于大数据的数据采集方法
CN112100472A (zh) * 2020-09-11 2020-12-18 深圳市科盾科技有限公司 爬虫调度方法、装置、终端设备和可读存储介质
CN112100472B (zh) * 2020-09-11 2023-11-28 深圳市科盾科技有限公司 爬虫调度方法、装置、终端设备和可读存储介质
CN113326417A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 用于更新网页库的方法和装置
CN113326417B (zh) * 2021-06-17 2023-08-01 北京百度网讯科技有限公司 用于更新网页库的方法和装置

Also Published As

Publication number Publication date
CN109977285B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN102750334B (zh) 一种基于dm的农业信息精准推送的方法
Menczer et al. Topical web crawlers: Evaluating adaptive algorithms
CN100401292C (zh) 用于使用倾向分析进行搜索查询处理的系统和方法
AU2005200231B2 (en) Decision-theoretic web-crawling and predicting web-page change
De et al. Clustering web transactions using rough approximation
CN109977285A (zh) 一种面向Deep Web的自适应增量数据采集方法
CN102103636B (zh) 一种面向深层网页的增量信息获取方法
CN102316166B (zh) 网站推荐方法和系统以及网络服务器
CN105282565A (zh) 一种视频推荐方法和装置
CN103177090A (zh) 一种基于大数据的话题检测方法及装置
Nasraoui et al. A framework for mining evolving trends in web data streams using dynamic learning and retrospective validation
CN103309960A (zh) 一种网络舆情事件多维信息提取的方法及装置
CN102163230B (zh) 实现定制隐私保护的个性化信息检索系统的方法
CN108804576A (zh) 一种基于链接分析的域名层级结构探测方法
CN101901247A (zh) 一种领域本体约束的垂直搜索引擎方法及系统
CN103546326A (zh) 一种网站流量统计的方法
CN101833587A (zh) 网络视频搜索系统
CN109634924A (zh) 基于机器学习的文件系统参数自动调优方法及系统
CN106126688A (zh) 基于web内容和结构挖掘的智能网络信息采集系统、方法
CN103412903A (zh) 基于兴趣对象预测的物联网实时搜索方法及系统
CN112765374A (zh) 一种用于信息推送的教育资源筛选系统及其方法
CN113792041B (zh) 基于Hive和Spark的遥感数据服务离线批处理系统及方法
CN104281693A (zh) 一种语义搜索方法及系统
CN109597928B (zh) 支持用户策略配置的基于Web网络的非结构化文本获取方法
CN111858702B (zh) 一种用于动态画像的用户行为数据采集和加权方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant