CN110069692B

CN110069692B - 一种面向开源信息采集的资源更新时间预测方法及系统

Info

Publication number: CN110069692B
Application number: CN201910371392.5A
Authority: CN
Inventors: 姚晗; 晏裕生; 孙孟阳; 董文轩; 江洋
Original assignee: China Institute Of Marine Technology & Economy
Current assignee: China Institute Of Marine Technology & Economy
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2021-04-20
Anticipated expiration: 2039-05-06
Also published as: CN110069692A

Abstract

本发明公开了一种面向开源信息采集的资源更新时间预测方法及系统。所述方法通过CART决策树算法建立网站资源更新时间和资源更新数量的CART决策树模型，并采用十折交叉法确定所述CART决策树模型的准确性，如果模型准确性满足要求，就可以采用建立的CART决策树模型预测网站未来的更新时间及资源更新数量，从而可以根据预测更新时间自动设置爬虫系统的资源采集时间，定时从目标网站采集所需要的信息资源，有效解决了数据采集过程中难以设置采集频率的问题，同时也避免了人工设置采集时间过于密集导致的对目标网站多次频繁采集的问题，节省了数据采集的计算资源。

Description

一种面向开源信息采集的资源更新时间预测方法及系统

技术领域

本发明涉及网络信息采集技术领域，特别是涉及一种面向开源信息采集的资源更新时间预测方法及系统。

背景技术

开源信息采集是指通过网络爬虫等技术，自动从目标网站中获取所需要的信息资源的一种方法。当前开源信息采集业务主要由人工根据经验设置采集时间，由于目标网站的更新时间存在不确定性，为了保证信息采集的时效性，采集时间一般都设置的比较密集，从而消耗甚至浪费大量的计算资源。因此，如何根据网站的历史数据预测未来的资源更新时间，从而保证在设置采集时间时既保证采集数据时效性，同时又降低采集计算资源消耗，是本领域急需解决的问题。

发明内容

本发明的目的是提供一种面向开源信息采集的资源更新时间预测方法及系统，以解决人工设置信息采集时间消耗资源过大的问题。

为实现上述目的，本发明提供了如下方案：

一种面向开源信息采集的资源更新时间预测方法，所述方法包括：

获取目标网站的历史数据；所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量；

采用十折交叉法将所述历史数据划分为训练集和测试集；

根据所述训练集建立CART决策树模型；

根据所述测试集确定所述CART决策树模型的准确性；

判断所述准确性是否满足要求，获得第一判断结果；

若所述第一判断结果为所述准确性满足要求，采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量；

若所述第一判断结果所述准确性不满足要求，返回所述采用十折交叉法将所述历史数据划分为训练集和测试集的步骤。

可选的，所述根据所述训练集建立CART决策树模型，具体包括：

统计所述训练集中所有历史更新时间作为定义域；所述训练集中包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量；

对所述定义域进行递归划分，将所述定义域划分为M个集合R₁,R₂,...,R_M；

根据所述M个集合R₁,R₂,...,R_M建立CART决策树模型

其中x_i为更新时间；R_m表示所述M个集合中的第m个集合；

1≤m≤M；N_m表示第m个集合R_m中的元素个数；y_i为更新时间x_i对应的历史资源更新数量；f(x_i)为更新时间x_i对应的预测资源更新数量。

可选的，所述对所述定义域进行递归划分，将所述定义域划分为M个集合R₁,R₂,...,R_M，具体包括：

确定所述定义域的最优切分变量与最优切分点；

采用所述最优切分点将所述定义域划分为两个子区域；

将两个所述子区域分别作为所述定义域，返回所述确定所述定义域的最优切分变量与最优切分点的步骤，对所述定义域进行递归划分，直到满足终止条件，将所述定义域划分为M个集合R₁,R₂,...,R_M。

可选的，所述根据所述测试集确定所述CART决策树模型的准确性，具体包括：

根据所述测试集中的多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量，采用公式

计算所述CART决策树模型的准确性；其中t_s为平均误差，N为定义域的元素个数，f(x_i)为通过所述CART决策树模型计算出来的预测资源更新数量，y_i为所述测试集中的历史更新时间x_i对应的历史资源更新数量。

可选的，所述判断所述准确性是否满足要求，获得第一判断结果，具体包括：

判断所述平均误差t_s是否小于误差阈值，获得第二判断结果；

若所述第二判断结果为所述平均误差t_s小于误差阈值，确定所述第一判断结果为所述准确性满足要求；

若所述第二判断结果为所述平均误差t_s不小于误差阈值，确定所述第一判断结果为所述准确性不满足要求。

一种面向开源信息采集的资源更新时间预测系统，所述系统包括：

历史数据获取模块，用于获取目标网站的历史数据；所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量；

历史数据划分模块，用于采用十折交叉法将所述历史数据划分为训练集和测试集；

决策树模型建立模块，用于根据所述训练集建立CART决策树模型；

模型准确性确定模块，用于根据所述测试集确定所述CART决策树模型的准确性；

模型准确性判断模块，用于判断所述准确性是否满足要求，获得第一判断结果；

资源更新时间预测模块，用于若所述第一判断结果为所述准确性满足要求，采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量；

决策树模型重建模块，用于若所述第一判断结果所述准确性不满足要求，返回所述历史数据划分模块。

可选的，所述决策树模型建立模块具体包括：

定义域确定单元，用于统计所述训练集中所有历史更新时间作为定义域；所述训练集中包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量；

定义域递归划分单元，用于对所述定义域进行递归划分，将所述定义域划分为M个集合R₁,R₂,...,R_M；

决策树模型建立单元，用于根据所述M个集合R₁,R₂,...,R_M建立CART决策树模型

其中x_i为更新时间；R_m表示所述M个集合中的第m个集合；

可选的，所述定义域递归划分单元具体包括：

最优参数确定子单元，用于确定所述定义域的最优切分变量与最优切分点；

定义域划分子单元，用于采用所述最优切分点将所述定义域划分为两个子区域；

递归划分子单元，用于将两个所述子区域分别作为所述定义域，返回所述定义域划分子单元，对所述定义域进行递归划分，直到满足终止条件，将所述定义域划分为M个集合R₁,R₂,...,R_M。

可选的，所述模型准确性确定模块具体包括：

模型准确性确定单元，用于根据所述测试集中的多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量，采用公式

可选的，所述模型准确性判断模块具体包括：

模型准确性判断单元，用于判断所述平均误差t_s是否小于误差阈值，获得第二判断结果；

第一判断结果确定单元，用于若所述第二判断结果为所述平均误差t_s小于误差阈值，确定所述第一判断结果为所述准确性满足要求；

第二判断结果确定单元，用于若所述第二判断结果为所述平均误差t_s不小于误差阈值，确定所述第一判断结果为所述准确性不满足要求。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种面向开源信息采集的资源更新时间预测方法及系统，通过CART决策树算法建立网站资源更新时间和资源更新数量的CART决策树模型，并采用十折交叉法确定所述CART决策树模型的准确性，如果模型准确性满足要求，就可以采用建立的CART决策树模型预测网站未来的更新时间及资源更新数量，从而可以根据预测更新时间自动设置爬虫系统的资源采集时间，定时从目标网站采集所需要的信息资源，有效解决了数据采集过程中难以设置采集频率的问题，同时也避免了人工设置采集时间过于密集导致的对目标网站多次频繁采集的问题，节省了数据采集的计算资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的面向开源信息采集的资源更新时间预测方法的方法流程图；

图2为本发明实施例提供的采用CART决策树算法生成的回归树的示意图；

图3为本发明实施例提供的采集时间点示意图；

图4为本发明提供的面向开源信息采集的资源更新时间预测系统的系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明提供的面向开源信息采集的资源更新时间预测方法的方法流程图。参见图1，本发明提供的面向开源信息采集的资源更新时间预测方法具体包括：

步骤101：获取目标网站的历史数据；所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量。

为了采集目标网站的历史数据，需要建立基于Scrapy(一个为遍历爬行网站，分解获取数据而设计的应用程序框架)的爬虫系统进行网站数据采集，按照人工经验设置采集频率和采集策略，将目标网站采集到的数据资源的采集时间和资源更新时间存储在数据库中，如下表1所示(仅作示例)：

表1目标网站采集到的数据资源的采集时间和资源更新时间

序号	采集时间	资源更新时间
			1	2:00	22:50,22:51,22:52,22:53
2	6:00	无更新
			3	10:00	9:00,9:01,9:02,9:03,9:04
4	14:00	无更新
			5	18:00	17:30,17:31,17:32
6	22:00	无更新

按照人工经验设置的采集策略一般是根据网站以往的资源更新时间推断网站更新时间，从而由人工确定更新频率，例如如果网站大概每天8点多更新，就9点采集一次，如果网站每周一更新，就周二凌晨采集一次等等。如果网站更新时间完全没有规律，可以选择4小时采集一次或2小时采集一次，例如表1中的数据就是每4小时采集一次得到。

对从目标网站采集到的数据资源的采集时间和资源更新时间进行处理，按预设时间间隔统计预设时间段内的资源更新数量，得到多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量。例如按10分钟的时间间隔统计表1中的更新数量，得到结果如下表2所示(仅作示例)，作为历史数据供步骤102使用：

表2目标网站的历史更新时间及对应的资源更新数量

序号	更新时间	资源更新数量
			1	23:00	4
3	9:10	5
			5	17:40	3

本发明中，定义网站的更新时间为x_i，资源更新数量y_i是每个更新时间点x_i作为自变量x产生的因变量y。

步骤102：采用十折交叉法将所述历史数据划分为训练集和测试集。

本发明采用十折交叉法将所述历史数据分为十份，轮流将其中9份作为训练集数据，1份作为测试集数据，分别用于进行模型训练和模型的准确性评估。本发明采用CART(Classification And Regression Tree，分类与回归树)决策树算法对步骤101的结果进行回归分析，用来预测未来目标网站的更新频率。在算法执行过程中，首先统计步骤101采集的所有时间节点及对应的资源更新数量作为历史数据集，然后将所有历史数据划分为训练集和测试集，所述训练集和所述测试集中均分别包括多个历史更新时间x_i以及多个所述历史更新时间x_i对应的历史资源更新数量y_i。所述训练集中的数据用于训练CART决策树模型，所述测试集中的数据用于验证所述CART决策树模型的准确性。

步骤103：根据所述训练集建立CART决策树模型。

统计所述训练集中所有历史更新时间x_i作为定义域X；所述训练集中包括多个历史更新时间x_i以及多个所述历史更新时间x_i对应的历史资源更新数量y_i。

选定一个切分点s，将定义域X划分为R₁和R₂两个集合。例如假设整个定义域X是一天0:00-23：50，切分点s是8：10，那么集合R₁和R₂对应的就是0:00-8:10和8:10-23:50。

计算集合R₁和R₂对应的回归值c₁和c₂，计算过程为：

其中，N₁和N₂分别为集合R₁和R₂中的元素个数，y_i为x_i对应的值。

由于CART决策树算法是递归执行的，即，划分出集合R₁和R₂后，再对集合R₁和R₂进行划分，直到满足算法终止条件，将所述定义域X划分为M个集合R₁,R₂,...,R_M。所以在递归执行过程中，定义域在不断变化，第一次划分定义域时，是将训练集中所有更新时间点的集合作为定义域，采用最优切分点将所述定义域划分为两个子区域R₁和R₂；第二次划分定义域时，是将子区域R₁或R₂作为定义域，采用重新计算后的最优切分变量与最优切分点将R₁或R₂再划分为两个子区域...按照此种方式对所述定义域进行递归划分，直到满足算法终止条件，就可以将所述定义域划分为M个集合R₁,R₂,...,R_M。

本发明中CART决策树算法的终止条件为达到预定的误差要求或达到最大迭代次数。在模型训练阶段，一般选取不同的终止条件训练出不同的模型，计算出各个模型的效果，选取效果最好的终止条件作为模型训练的终止条件。本发明中，当|最值-平均值|<平均值*0.1时，则可认为达到预定误差要求。其中最值是指在划分的定义域R_m中，更新时间x_i对应的值域y_i的最大值与最小值。平均值是指y_i的平均值，即回归值c_m。误差判断即计算原始值与预测值的最大误差，若最大误差小于平均值的10％，则可认为达到预定误差要求。

最大迭代次数的选取与定义域的大小有关，一般取定义域中元素个数的20％作为最大迭代次数，如一天共144个时间节点，则最大迭代次数取29。

在选择最优切分点和最优切分变量时，首先遍历定义域中的每个点作为切分点s，计算使得平方误差

结果最小的切分点s及其对应的切分变量j作为本次递归过程的最优切分点和最优切分变量。其中R₁(j,s)指采用切分点s及切分变量j划分定义域时对应的集合R₁，R₁(j,s)＝{x_i|x_i≤s}；R₂(j,s)指采用切分点s及切分变量j划分定义域时对应的集合R₂，R₁(j,s)＝{x_i|x_i＞s}。

用选定的最优切分点和最优切分变量将定义域划分为两个子区域R₁(j,s)和R₂(j,s)，并确定两个子区域对应的回归值：

其中N_m表示集合R_m中的元素个数，m取1或2；采用划分后的子区域R_m的平均值作为对应的回归值c_m。

对所述定义域进行递归划分，将所述定义域划分为M个集合R₁,R₂,...,R_M后，根据所述M个集合R₁,R₂,...,R_M及其对应的回归值建立CART决策树模型：

其中x_i为更新时间；R_m表示所述M个集合中的第m个集合；

所述CART决策树模型的输入为更新时间x_i，输出为更新时间x_i对应的预测资源更新数量f(x_i)，因此可以采用所述CART决策树模型预测目标网站的信息资源更新时间及对应的资源更新数量。

步骤104：根据所述测试集确定所述CART决策树模型的准确性。

本发明采用十折交叉法进行模型准确性评估，具体方法为：将所述历史数据分为十份，轮流将其中9份作为训练数据，1份作为测试数据。根据所述测试集中的数据，采用以下公式计算所述CART决策树模型的准确性：

其中t_s为平均误差，N为定义域的元素个数，f(x_i)为通过所述CART决策树模型计算出来的预测资源更新数量，y_i为所述测试集中的历史更新时间x_i对应的历史资源更新数量。

本发明采用平均误差t_s来评判所述CART决策树模型的准确性，在算法实现过程中，平均误差t_s小于定义域平均值的10％，即认为模型准确性满足要求。

步骤105：判断所述准确性是否满足要求，获得第一判断结果；具体包括：

判断所述平均误差t_s是否小于误差阈值，获得第二判断结果；其中所述误差阈值为定义域中所有元素平均值的10％；

步骤106：若所述第一判断结果为所述准确性满足要求，采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量。

最终生成的所述CART决策树模型(5)是一个分段函数，其输入是时间节点，输出是对应的数量，时间节点可以是未来的时间节点，因此可以用于预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量。本发明方法假定所有网站更新都是有一定的周期性的，通过对网站历史数据进行分析，形成回归模型，通过周期性特点预测未来时间节点的更新数量。

采用步骤103构建的CART决策树模型，预测目标网站未来的更新时间及资源更新数量，作为信息采集时间的设定依据。以更新时间x_i为横坐标，以更新时间x_i对应的预测资源更新数量f(x_i)为纵坐标，建立如图2所示的回归树，统计所述回归树中所有位于极小值的点，计算每两个极小值点之间的资源更新数量；如果两个极小值点之间的资源更新数量大于当天总更新数量的10％，则将该极小值点靠后的点作为一个采集时间点进行目标网站的数据采集。如图3中圆圈圈出的点即为一个极小值点靠后的点，可以通过爬虫系统自动在该点对应的时间采集目标网站的信息资源，完成目标网站的开源信息采集任务。此外，还可以根据该采集时间点对应的资源更新数量分配计算资源，或者提前规划采集信息的存储空间，实现计算资源的合理分配和利用。

步骤107：若所述第一判断结果所述准确性不满足要求，返回所述采用十折交叉法将所述历史数据划分为训练集和测试集的步骤。

如果所述步骤103建立的所述CART决策树模型准确性性不高，不满足算法要求，则分析原因，改进步骤103所述模型的构建过程和步骤102所述历史数据集的划分方式，重新进行十折交叉法的划分，将历史数据重新划分训练集和测试集进行模型训练和测试，即重新将原始数据分为10份，不断迭代训练和评估模型，最终生成达到目标准确性的CART决策树模型。

本发明方法将资源的更新时间转换为一段时间的资源更新数量进行，通过CART决策树算法生成回归树，预测未来一段时间内的资源更新数量，从而进行开源信息采集时间的设置，相比人工设置采集时间的方式更加科学、准确，既能保证采集数据的时效性，同时又能降低采集资源信息的计算资源消耗，广泛适用于各领域各类网站的开源信息采集。此外，本发明采用十折交叉法计算模型准确性，优化模型效果，能够保证预测更新时间及资源更新数量的准确性。

基于本发明提供的方法，本发明还提供一种面向开源信息采集的资源更新时间预测系统，参见图4，所述系统包括：

历史数据获取模块401，用于获取目标网站的历史数据；所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量；

历史数据划分模块402，用于采用十折交叉法将所述历史数据划分为训练集和测试集；

决策树模型建立模块403，用于根据所述训练集建立CART决策树模型；

模型准确性确定模块404，用于根据所述测试集确定所述CART决策树模型的准确性；

模型准确性判断模块405，用于判断所述准确性是否满足要求，获得第一判断结果；

资源更新时间预测模块406，用于若所述第一判断结果为所述准确性满足要求，采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量；

决策树模型重建模块407，用于若所述第一判断结果所述准确性不满足要求，返回所述历史数据划分模块。

其中，所述决策树模型建立模块403具体包括：

其中x_i为更新时间；R_m表示所述M个集合中的第m个集合；

所述定义域递归划分单元具体包括：

所述模型准确性确定模块404具体包括：

所述模型准确性判断模块405具体包括：

本发明通过CART决策树算法建立回归树模型，来预测网站更新频率及更新数量，自动设置爬虫系统的资源采集时间进行信息采集，有效解决了数据采集过程中难以设置采集频率的问题，同时也避免了对目标网站多次频繁采集造成的计算资源浪费，节省了数据采集的计算资源。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向开源信息采集的资源更新时间预测方法，其特征在于，所述方法包括：

采用十折交叉法将所述历史数据划分为训练集和测试集；

根据所述训练集建立分类与回归树CART决策树模型；

所述根据所述训练集建立分类与回归树CART决策树模型，具体包括：

确定所述定义域的最优切分变量与最优切分点；

采用所述最优切分点将所述定义域划分为两个子区域；

将两个所述子区域分别作为所述定义域，返回所述对所述定义域进行递归划分，将所述定义域划分为M个集合R₁,R₂,...,R_M的步骤，对所述定义域进行递归划分，直到满足终止条件，将所述定义域划分为M个集合R₁,R₂,...,R_M；

根据所述M个集合R₁,R₂,...,R_M建立CART决策树模型

其中x_i为历史更新时间；R_m表示所述M个集合中的第m个集合；

C_m为第m个集合R_m的回归值；N_m表示第m个集合R_m中的元素个数；y_i为历史更新时间x_i对应的历史资源更新数量；f(x_i)为与历史更新时间x_i对应的更新时间所对应的预测资源更新数量；

根据所述测试集确定所述CART决策树模型的准确性；

根据所述测试集中的数据，采用公式

计算所述CART决策树模型的准确性；

其中t_s为平均误差，N为定义域的元素个数，f(x_i)为通过所述CART决策树模型计算出来的预测资源更新数量，y_i为所述测试集中的历史更新时间x_i对应的历史资源更新数量；

判断所述准确性是否满足要求，获得第一判断结果；

若所述第一判断结果为所述准确性不满足要求，返回所述采用十折交叉法将所述历史数据划分为训练集和测试集的步骤。

2.根据权利要求1所述的资源更新时间预测方法，其特征在于，所述判断所述准确性是否满足要求，获得第一判断结果，具体包括：

3.一种面向开源信息采集的资源更新时间预测系统，其特征在于，所述系统包括：

决策树模型建立模块，用于根据所述训练集建立分类与回归树CART决策树模型；

所述决策树模型建立模块具体包括：

递归划分子单元，用于将两个所述子区域分别作为所述定义域，返回所述定义域递归划分子单元，对所述定义域进行递归划分，直到满足终止条件，将所述定义域划分为M个集合R₁,R₂,...,R_M；

根据所述测试集中的数据，采用公式

计算所述CART决策树模型的准确性；

决策树模型重建模块，用于若所述第一判断结果为所述准确性不满足要求，返回所述历史数据划分模块。

4.根据权利要求3所述的资源更新时间预测系统，其特征在于，所述模型准确性判断模块具体包括：