CN110069692B - 一种面向开源信息采集的资源更新时间预测方法及系统 - Google Patents

一种面向开源信息采集的资源更新时间预测方法及系统 Download PDF

Info

Publication number
CN110069692B
CN110069692B CN201910371392.5A CN201910371392A CN110069692B CN 110069692 B CN110069692 B CN 110069692B CN 201910371392 A CN201910371392 A CN 201910371392A CN 110069692 B CN110069692 B CN 110069692B
Authority
CN
China
Prior art keywords
updating
historical
decision tree
accuracy
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910371392.5A
Other languages
English (en)
Other versions
CN110069692A (zh
Inventor
姚晗
晏裕生
孙孟阳
董文轩
江洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute Of Marine Technology & Economy
Original Assignee
China Institute Of Marine Technology & Economy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute Of Marine Technology & Economy filed Critical China Institute Of Marine Technology & Economy
Priority to CN201910371392.5A priority Critical patent/CN110069692B/zh
Publication of CN110069692A publication Critical patent/CN110069692A/zh
Application granted granted Critical
Publication of CN110069692B publication Critical patent/CN110069692B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向开源信息采集的资源更新时间预测方法及系统。所述方法通过CART决策树算法建立网站资源更新时间和资源更新数量的CART决策树模型,并采用十折交叉法确定所述CART决策树模型的准确性,如果模型准确性满足要求,就可以采用建立的CART决策树模型预测网站未来的更新时间及资源更新数量,从而可以根据预测更新时间自动设置爬虫系统的资源采集时间,定时从目标网站采集所需要的信息资源,有效解决了数据采集过程中难以设置采集频率的问题,同时也避免了人工设置采集时间过于密集导致的对目标网站多次频繁采集的问题,节省了数据采集的计算资源。

Description

一种面向开源信息采集的资源更新时间预测方法及系统
技术领域
本发明涉及网络信息采集技术领域,特别是涉及一种面向开源信息采集的资源更新时间预测方法及系统。
背景技术
开源信息采集是指通过网络爬虫等技术,自动从目标网站中获取所需要的信息资源的一种方法。当前开源信息采集业务主要由人工根据经验设置采集时间,由于目标网站的更新时间存在不确定性,为了保证信息采集的时效性,采集时间一般都设置的比较密集,从而消耗甚至浪费大量的计算资源。因此,如何根据网站的历史数据预测未来的资源更新时间,从而保证在设置采集时间时既保证采集数据时效性,同时又降低采集计算资源消耗,是本领域急需解决的问题。
发明内容
本发明的目的是提供一种面向开源信息采集的资源更新时间预测方法及系统,以解决人工设置信息采集时间消耗资源过大的问题。
为实现上述目的,本发明提供了如下方案:
一种面向开源信息采集的资源更新时间预测方法,所述方法包括:
获取目标网站的历史数据;所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
采用十折交叉法将所述历史数据划分为训练集和测试集;
根据所述训练集建立CART决策树模型;
根据所述测试集确定所述CART决策树模型的准确性;
判断所述准确性是否满足要求,获得第一判断结果;
若所述第一判断结果为所述准确性满足要求,采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量;
若所述第一判断结果所述准确性不满足要求,返回所述采用十折交叉法将所述历史数据划分为训练集和测试集的步骤。
可选的,所述根据所述训练集建立CART决策树模型,具体包括:
统计所述训练集中所有历史更新时间作为定义域;所述训练集中包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
对所述定义域进行递归划分,将所述定义域划分为M个集合R1,R2,...,RM
根据所述M个集合R1,R2,...,RM建立CART决策树模型
Figure BDA0002050084370000021
其中xi为更新时间;Rm表示所述M个集合中的第m个集合;
Figure BDA0002050084370000022
1≤m≤M;Nm表示第m个集合Rm中的元素个数;yi为更新时间xi对应的历史资源更新数量;f(xi)为更新时间xi对应的预测资源更新数量。
可选的,所述对所述定义域进行递归划分,将所述定义域划分为M个集合R1,R2,...,RM,具体包括:
确定所述定义域的最优切分变量与最优切分点;
采用所述最优切分点将所述定义域划分为两个子区域;
将两个所述子区域分别作为所述定义域,返回所述确定所述定义域的最优切分变量与最优切分点的步骤,对所述定义域进行递归划分,直到满足终止条件,将所述定义域划分为M个集合R1,R2,...,RM
可选的,所述根据所述测试集确定所述CART决策树模型的准确性,具体包括:
根据所述测试集中的多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量,采用公式
Figure BDA0002050084370000023
计算所述CART决策树模型的准确性;其中ts为平均误差,N为定义域的元素个数,f(xi)为通过所述CART决策树模型计算出来的预测资源更新数量,yi为所述测试集中的历史更新时间xi对应的历史资源更新数量。
可选的,所述判断所述准确性是否满足要求,获得第一判断结果,具体包括:
判断所述平均误差ts是否小于误差阈值,获得第二判断结果;
若所述第二判断结果为所述平均误差ts小于误差阈值,确定所述第一判断结果为所述准确性满足要求;
若所述第二判断结果为所述平均误差ts不小于误差阈值,确定所述第一判断结果为所述准确性不满足要求。
一种面向开源信息采集的资源更新时间预测系统,所述系统包括:
历史数据获取模块,用于获取目标网站的历史数据;所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
历史数据划分模块,用于采用十折交叉法将所述历史数据划分为训练集和测试集;
决策树模型建立模块,用于根据所述训练集建立CART决策树模型;
模型准确性确定模块,用于根据所述测试集确定所述CART决策树模型的准确性;
模型准确性判断模块,用于判断所述准确性是否满足要求,获得第一判断结果;
资源更新时间预测模块,用于若所述第一判断结果为所述准确性满足要求,采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量;
决策树模型重建模块,用于若所述第一判断结果所述准确性不满足要求,返回所述历史数据划分模块。
可选的,所述决策树模型建立模块具体包括:
定义域确定单元,用于统计所述训练集中所有历史更新时间作为定义域;所述训练集中包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
定义域递归划分单元,用于对所述定义域进行递归划分,将所述定义域划分为M个集合R1,R2,...,RM
决策树模型建立单元,用于根据所述M个集合R1,R2,...,RM建立CART决策树模型
Figure BDA0002050084370000041
其中xi为更新时间;Rm表示所述M个集合中的第m个集合;
Figure BDA0002050084370000042
1≤m≤M;Nm表示第m个集合Rm中的元素个数;yi为更新时间xi对应的历史资源更新数量;f(xi)为更新时间xi对应的预测资源更新数量。
可选的,所述定义域递归划分单元具体包括:
最优参数确定子单元,用于确定所述定义域的最优切分变量与最优切分点;
定义域划分子单元,用于采用所述最优切分点将所述定义域划分为两个子区域;
递归划分子单元,用于将两个所述子区域分别作为所述定义域,返回所述定义域划分子单元,对所述定义域进行递归划分,直到满足终止条件,将所述定义域划分为M个集合R1,R2,...,RM
可选的,所述模型准确性确定模块具体包括:
模型准确性确定单元,用于根据所述测试集中的多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量,采用公式
Figure BDA0002050084370000043
计算所述CART决策树模型的准确性;其中ts为平均误差,N为定义域的元素个数,f(xi)为通过所述CART决策树模型计算出来的预测资源更新数量,yi为所述测试集中的历史更新时间xi对应的历史资源更新数量。
可选的,所述模型准确性判断模块具体包括:
模型准确性判断单元,用于判断所述平均误差ts是否小于误差阈值,获得第二判断结果;
第一判断结果确定单元,用于若所述第二判断结果为所述平均误差ts小于误差阈值,确定所述第一判断结果为所述准确性满足要求;
第二判断结果确定单元,用于若所述第二判断结果为所述平均误差ts不小于误差阈值,确定所述第一判断结果为所述准确性不满足要求。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种面向开源信息采集的资源更新时间预测方法及系统,通过CART决策树算法建立网站资源更新时间和资源更新数量的CART决策树模型,并采用十折交叉法确定所述CART决策树模型的准确性,如果模型准确性满足要求,就可以采用建立的CART决策树模型预测网站未来的更新时间及资源更新数量,从而可以根据预测更新时间自动设置爬虫系统的资源采集时间,定时从目标网站采集所需要的信息资源,有效解决了数据采集过程中难以设置采集频率的问题,同时也避免了人工设置采集时间过于密集导致的对目标网站多次频繁采集的问题,节省了数据采集的计算资源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的面向开源信息采集的资源更新时间预测方法的方法流程图;
图2为本发明实施例提供的采用CART决策树算法生成的回归树的示意图;
图3为本发明实施例提供的采集时间点示意图;
图4为本发明提供的面向开源信息采集的资源更新时间预测系统的系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向开源信息采集的资源更新时间预测方法及系统,以解决人工设置信息采集时间消耗资源过大的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明提供的面向开源信息采集的资源更新时间预测方法的方法流程图。参见图1,本发明提供的面向开源信息采集的资源更新时间预测方法具体包括:
步骤101:获取目标网站的历史数据;所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量。
为了采集目标网站的历史数据,需要建立基于Scrapy(一个为遍历爬行网站,分解获取数据而设计的应用程序框架)的爬虫系统进行网站数据采集,按照人工经验设置采集频率和采集策略,将目标网站采集到的数据资源的采集时间和资源更新时间存储在数据库中,如下表1所示(仅作示例):
表1目标网站采集到的数据资源的采集时间和资源更新时间
序号 采集时间 资源更新时间
1 2:00 22:50,22:51,22:52,22:53
2 6:00 无更新
3 10:00 9:00,9:01,9:02,9:03,9:04
4 14:00 无更新
5 18:00 17:30,17:31,17:32
6 22:00 无更新
按照人工经验设置的采集策略一般是根据网站以往的资源更新时间推断网站更新时间,从而由人工确定更新频率,例如如果网站大概每天8点多更新,就9点采集一次,如果网站每周一更新,就周二凌晨采集一次等等。如果网站更新时间完全没有规律,可以选择4小时采集一次或2小时采集一次,例如表1中的数据就是每4小时采集一次得到。
对从目标网站采集到的数据资源的采集时间和资源更新时间进行处理,按预设时间间隔统计预设时间段内的资源更新数量,得到多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量。例如按10分钟的时间间隔统计表1中的更新数量,得到结果如下表2所示(仅作示例),作为历史数据供步骤102使用:
表2目标网站的历史更新时间及对应的资源更新数量
序号 更新时间 资源更新数量
1 23:00 4
3 9:10 5
5 17:40 3
本发明中,定义网站的更新时间为xi,资源更新数量yi是每个更新时间点xi作为自变量x产生的因变量y。
步骤102:采用十折交叉法将所述历史数据划分为训练集和测试集。
本发明采用十折交叉法将所述历史数据分为十份,轮流将其中9份作为训练集数据,1份作为测试集数据,分别用于进行模型训练和模型的准确性评估。本发明采用CART(Classification And Regression Tree,分类与回归树)决策树算法对步骤101的结果进行回归分析,用来预测未来目标网站的更新频率。在算法执行过程中,首先统计步骤101采集的所有时间节点及对应的资源更新数量作为历史数据集,然后将所有历史数据划分为训练集和测试集,所述训练集和所述测试集中均分别包括多个历史更新时间xi以及多个所述历史更新时间xi对应的历史资源更新数量yi。所述训练集中的数据用于训练CART决策树模型,所述测试集中的数据用于验证所述CART决策树模型的准确性。
步骤103:根据所述训练集建立CART决策树模型。
统计所述训练集中所有历史更新时间xi作为定义域X;所述训练集中包括多个历史更新时间xi以及多个所述历史更新时间xi对应的历史资源更新数量yi
选定一个切分点s,将定义域X划分为R1和R2两个集合。例如假设整个定义域X是一天0:00-23:50,切分点s是8:10,那么集合R1和R2对应的就是0:00-8:10和8:10-23:50。
计算集合R1和R2对应的回归值c1和c2,计算过程为:
Figure BDA0002050084370000071
Figure BDA0002050084370000081
其中,N1和N2分别为集合R1和R2中的元素个数,yi为xi对应的值。
由于CART决策树算法是递归执行的,即,划分出集合R1和R2后,再对集合R1和R2进行划分,直到满足算法终止条件,将所述定义域X划分为M个集合R1,R2,...,RM。所以在递归执行过程中,定义域在不断变化,第一次划分定义域时,是将训练集中所有更新时间点的集合作为定义域,采用最优切分点将所述定义域划分为两个子区域R1和R2;第二次划分定义域时,是将子区域R1或R2作为定义域,采用重新计算后的最优切分变量与最优切分点将R1或R2再划分为两个子区域...按照此种方式对所述定义域进行递归划分,直到满足算法终止条件,就可以将所述定义域划分为M个集合R1,R2,...,RM
本发明中CART决策树算法的终止条件为达到预定的误差要求或达到最大迭代次数。在模型训练阶段,一般选取不同的终止条件训练出不同的模型,计算出各个模型的效果,选取效果最好的终止条件作为模型训练的终止条件。本发明中,当|最值-平均值|<平均值*0.1时,则可认为达到预定误差要求。其中最值是指在划分的定义域Rm中,更新时间xi对应的值域yi的最大值与最小值。平均值是指yi的平均值,即回归值cm。误差判断即计算原始值与预测值的最大误差,若最大误差小于平均值的10%,则可认为达到预定误差要求。
最大迭代次数的选取与定义域的大小有关,一般取定义域中元素个数的20%作为最大迭代次数,如一天共144个时间节点,则最大迭代次数取29。
在选择最优切分点和最优切分变量时,首先遍历定义域中的每个点作为切分点s,计算使得平方误差
Figure BDA0002050084370000082
结果最小的切分点s及其对应的切分变量j作为本次递归过程的最优切分点和最优切分变量。其中R1(j,s)指采用切分点s及切分变量j划分定义域时对应的集合R1,R1(j,s)={xi|xi≤s};R2(j,s)指采用切分点s及切分变量j划分定义域时对应的集合R2,R1(j,s)={xi|xi>s}。
用选定的最优切分点和最优切分变量将定义域划分为两个子区域R1(j,s)和R2(j,s),并确定两个子区域对应的回归值:
Figure BDA0002050084370000091
其中Nm表示集合Rm中的元素个数,m取1或2;采用划分后的子区域Rm的平均值作为对应的回归值cm
对所述定义域进行递归划分,将所述定义域划分为M个集合R1,R2,...,RM后,根据所述M个集合R1,R2,...,RM及其对应的回归值建立CART决策树模型:
Figure BDA0002050084370000092
其中xi为更新时间;Rm表示所述M个集合中的第m个集合;
Figure BDA0002050084370000093
1≤m≤M;Nm表示第m个集合Rm中的元素个数;yi为更新时间xi对应的历史资源更新数量;f(xi)为更新时间xi对应的预测资源更新数量。
所述CART决策树模型的输入为更新时间xi,输出为更新时间xi对应的预测资源更新数量f(xi),因此可以采用所述CART决策树模型预测目标网站的信息资源更新时间及对应的资源更新数量。
步骤104:根据所述测试集确定所述CART决策树模型的准确性。
本发明采用十折交叉法进行模型准确性评估,具体方法为:将所述历史数据分为十份,轮流将其中9份作为训练数据,1份作为测试数据。根据所述测试集中的数据,采用以下公式计算所述CART决策树模型的准确性:
Figure BDA0002050084370000094
其中ts为平均误差,N为定义域的元素个数,f(xi)为通过所述CART决策树模型计算出来的预测资源更新数量,yi为所述测试集中的历史更新时间xi对应的历史资源更新数量。
本发明采用平均误差ts来评判所述CART决策树模型的准确性,在算法实现过程中,平均误差ts小于定义域平均值的10%,即认为模型准确性满足要求。
步骤105:判断所述准确性是否满足要求,获得第一判断结果;具体包括:
判断所述平均误差ts是否小于误差阈值,获得第二判断结果;其中所述误差阈值为定义域中所有元素平均值的10%;
若所述第二判断结果为所述平均误差ts小于误差阈值,确定所述第一判断结果为所述准确性满足要求;
若所述第二判断结果为所述平均误差ts不小于误差阈值,确定所述第一判断结果为所述准确性不满足要求。
步骤106:若所述第一判断结果为所述准确性满足要求,采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量。
最终生成的所述CART决策树模型(5)是一个分段函数,其输入是时间节点,输出是对应的数量,时间节点可以是未来的时间节点,因此可以用于预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量。本发明方法假定所有网站更新都是有一定的周期性的,通过对网站历史数据进行分析,形成回归模型,通过周期性特点预测未来时间节点的更新数量。
采用步骤103构建的CART决策树模型,预测目标网站未来的更新时间及资源更新数量,作为信息采集时间的设定依据。以更新时间xi为横坐标,以更新时间xi对应的预测资源更新数量f(xi)为纵坐标,建立如图2所示的回归树,统计所述回归树中所有位于极小值的点,计算每两个极小值点之间的资源更新数量;如果两个极小值点之间的资源更新数量大于当天总更新数量的10%,则将该极小值点靠后的点作为一个采集时间点进行目标网站的数据采集。如图3中圆圈圈出的点即为一个极小值点靠后的点,可以通过爬虫系统自动在该点对应的时间采集目标网站的信息资源,完成目标网站的开源信息采集任务。此外,还可以根据该采集时间点对应的资源更新数量分配计算资源,或者提前规划采集信息的存储空间,实现计算资源的合理分配和利用。
步骤107:若所述第一判断结果所述准确性不满足要求,返回所述采用十折交叉法将所述历史数据划分为训练集和测试集的步骤。
如果所述步骤103建立的所述CART决策树模型准确性性不高,不满足算法要求,则分析原因,改进步骤103所述模型的构建过程和步骤102所述历史数据集的划分方式,重新进行十折交叉法的划分,将历史数据重新划分训练集和测试集进行模型训练和测试,即重新将原始数据分为10份,不断迭代训练和评估模型,最终生成达到目标准确性的CART决策树模型。
本发明方法将资源的更新时间转换为一段时间的资源更新数量进行,通过CART决策树算法生成回归树,预测未来一段时间内的资源更新数量,从而进行开源信息采集时间的设置,相比人工设置采集时间的方式更加科学、准确,既能保证采集数据的时效性,同时又能降低采集资源信息的计算资源消耗,广泛适用于各领域各类网站的开源信息采集。此外,本发明采用十折交叉法计算模型准确性,优化模型效果,能够保证预测更新时间及资源更新数量的准确性。
基于本发明提供的方法,本发明还提供一种面向开源信息采集的资源更新时间预测系统,参见图4,所述系统包括:
历史数据获取模块401,用于获取目标网站的历史数据;所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
历史数据划分模块402,用于采用十折交叉法将所述历史数据划分为训练集和测试集;
决策树模型建立模块403,用于根据所述训练集建立CART决策树模型;
模型准确性确定模块404,用于根据所述测试集确定所述CART决策树模型的准确性;
模型准确性判断模块405,用于判断所述准确性是否满足要求,获得第一判断结果;
资源更新时间预测模块406,用于若所述第一判断结果为所述准确性满足要求,采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量;
决策树模型重建模块407,用于若所述第一判断结果所述准确性不满足要求,返回所述历史数据划分模块。
其中,所述决策树模型建立模块403具体包括:
定义域确定单元,用于统计所述训练集中所有历史更新时间作为定义域;所述训练集中包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
定义域递归划分单元,用于对所述定义域进行递归划分,将所述定义域划分为M个集合R1,R2,...,RM
决策树模型建立单元,用于根据所述M个集合R1,R2,...,RM建立CART决策树模型
Figure BDA0002050084370000121
其中xi为更新时间;Rm表示所述M个集合中的第m个集合;
Figure BDA0002050084370000122
1≤m≤M;Nm表示第m个集合Rm中的元素个数;yi为更新时间xi对应的历史资源更新数量;f(xi)为更新时间xi对应的预测资源更新数量。
所述定义域递归划分单元具体包括:
最优参数确定子单元,用于确定所述定义域的最优切分变量与最优切分点;
定义域划分子单元,用于采用所述最优切分点将所述定义域划分为两个子区域;
递归划分子单元,用于将两个所述子区域分别作为所述定义域,返回所述定义域划分子单元,对所述定义域进行递归划分,直到满足终止条件,将所述定义域划分为M个集合R1,R2,...,RM
所述模型准确性确定模块404具体包括:
模型准确性确定单元,用于根据所述测试集中的多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量,采用公式
Figure BDA0002050084370000123
计算所述CART决策树模型的准确性;其中ts为平均误差,N为定义域的元素个数,f(xi)为通过所述CART决策树模型计算出来的预测资源更新数量,yi为所述测试集中的历史更新时间xi对应的历史资源更新数量。
所述模型准确性判断模块405具体包括:
模型准确性判断单元,用于判断所述平均误差ts是否小于误差阈值,获得第二判断结果;
第一判断结果确定单元,用于若所述第二判断结果为所述平均误差ts小于误差阈值,确定所述第一判断结果为所述准确性满足要求;
第二判断结果确定单元,用于若所述第二判断结果为所述平均误差ts不小于误差阈值,确定所述第一判断结果为所述准确性不满足要求。
本发明通过CART决策树算法建立回归树模型,来预测网站更新频率及更新数量,自动设置爬虫系统的资源采集时间进行信息采集,有效解决了数据采集过程中难以设置采集频率的问题,同时也避免了对目标网站多次频繁采集造成的计算资源浪费,节省了数据采集的计算资源。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种面向开源信息采集的资源更新时间预测方法,其特征在于,所述方法包括:
获取目标网站的历史数据;所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
采用十折交叉法将所述历史数据划分为训练集和测试集;
根据所述训练集建立分类与回归树CART决策树模型;
所述根据所述训练集建立分类与回归树CART决策树模型,具体包括:
统计所述训练集中所有历史更新时间作为定义域;所述训练集中包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
对所述定义域进行递归划分,将所述定义域划分为M个集合R1,R2,...,RM
确定所述定义域的最优切分变量与最优切分点;
采用所述最优切分点将所述定义域划分为两个子区域;
将两个所述子区域分别作为所述定义域,返回所述对所述定义域进行递归划分,将所述定义域划分为M个集合R1,R2,...,RM的步骤,对所述定义域进行递归划分,直到满足终止条件,将所述定义域划分为M个集合R1,R2,...,RM
根据所述M个集合R1,R2,...,RM建立CART决策树模型
Figure FDA0002965624070000011
其中xi为历史更新时间;Rm表示所述M个集合中的第m个集合;
Figure FDA0002965624070000012
Cm为第m个集合Rm的回归值;Nm表示第m个集合Rm中的元素个数;yi为历史更新时间xi对应的历史资源更新数量;f(xi)为与历史更新时间xi对应的更新时间所对应的预测资源更新数量;
根据所述测试集确定所述CART决策树模型的准确性;
根据所述测试集中的数据,采用公式
Figure FDA0002965624070000021
计算所述CART决策树模型的准确性;
其中ts为平均误差,N为定义域的元素个数,f(xi)为通过所述CART决策树模型计算出来的预测资源更新数量,yi为所述测试集中的历史更新时间xi对应的历史资源更新数量;
判断所述准确性是否满足要求,获得第一判断结果;
若所述第一判断结果为所述准确性满足要求,采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量;
若所述第一判断结果为所述准确性不满足要求,返回所述采用十折交叉法将所述历史数据划分为训练集和测试集的步骤。
2.根据权利要求1所述的资源更新时间预测方法,其特征在于,所述判断所述准确性是否满足要求,获得第一判断结果,具体包括:
判断所述平均误差ts是否小于误差阈值,获得第二判断结果;
若所述第二判断结果为所述平均误差ts小于误差阈值,确定所述第一判断结果为所述准确性满足要求;
若所述第二判断结果为所述平均误差ts不小于误差阈值,确定所述第一判断结果为所述准确性不满足要求。
3.一种面向开源信息采集的资源更新时间预测系统,其特征在于,所述系统包括:
历史数据获取模块,用于获取目标网站的历史数据;所述历史数据包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
历史数据划分模块,用于采用十折交叉法将所述历史数据划分为训练集和测试集;
决策树模型建立模块,用于根据所述训练集建立分类与回归树CART决策树模型;
所述决策树模型建立模块具体包括:
定义域确定单元,用于统计所述训练集中所有历史更新时间作为定义域;所述训练集中包括多个历史更新时间以及多个所述历史更新时间对应的历史资源更新数量;
定义域递归划分单元,用于对所述定义域进行递归划分,将所述定义域划分为M个集合R1,R2,...,RM
最优参数确定子单元,用于确定所述定义域的最优切分变量与最优切分点;
定义域划分子单元,用于采用所述最优切分点将所述定义域划分为两个子区域;
递归划分子单元,用于将两个所述子区域分别作为所述定义域,返回所述定义域递归划分子单元,对所述定义域进行递归划分,直到满足终止条件,将所述定义域划分为M个集合R1,R2,...,RM
决策树模型建立单元,用于根据所述M个集合R1,R2,...,RM建立CART决策树模型
Figure FDA0002965624070000031
其中xi为历史更新时间;Rm表示所述M个集合中的第m个集合;
Figure FDA0002965624070000032
Figure FDA0002965624070000033
Cm为第m个集合Rm的回归值;Nm表示第m个集合Rm中的元素个数;yi为历史更新时间xi对应的历史资源更新数量;f(xi)为与历史更新时间xi对应的更新时间所对应的预测资源更新数量;
模型准确性确定模块,用于根据所述测试集确定所述CART决策树模型的准确性;
根据所述测试集中的数据,采用公式
Figure FDA0002965624070000034
计算所述CART决策树模型的准确性;
其中ts为平均误差,N为定义域的元素个数,f(xi)为通过所述CART决策树模型计算出来的预测资源更新数量,yi为所述测试集中的历史更新时间xi对应的历史资源更新数量;
模型准确性判断模块,用于判断所述准确性是否满足要求,获得第一判断结果;
资源更新时间预测模块,用于若所述第一判断结果为所述准确性满足要求,采用所述CART决策树模型预测所述目标网站的更新时间以及所述更新时间对应的资源更新数量;
决策树模型重建模块,用于若所述第一判断结果为所述准确性不满足要求,返回所述历史数据划分模块。
4.根据权利要求3所述的资源更新时间预测系统,其特征在于,所述模型准确性判断模块具体包括:
模型准确性判断单元,用于判断所述平均误差ts是否小于误差阈值,获得第二判断结果;
第一判断结果确定单元,用于若所述第二判断结果为所述平均误差ts小于误差阈值,确定所述第一判断结果为所述准确性满足要求;
第二判断结果确定单元,用于若所述第二判断结果为所述平均误差ts不小于误差阈值,确定所述第一判断结果为所述准确性不满足要求。
CN201910371392.5A 2019-05-06 2019-05-06 一种面向开源信息采集的资源更新时间预测方法及系统 Expired - Fee Related CN110069692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910371392.5A CN110069692B (zh) 2019-05-06 2019-05-06 一种面向开源信息采集的资源更新时间预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910371392.5A CN110069692B (zh) 2019-05-06 2019-05-06 一种面向开源信息采集的资源更新时间预测方法及系统

Publications (2)

Publication Number Publication Date
CN110069692A CN110069692A (zh) 2019-07-30
CN110069692B true CN110069692B (zh) 2021-04-20

Family

ID=67370216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910371392.5A Expired - Fee Related CN110069692B (zh) 2019-05-06 2019-05-06 一种面向开源信息采集的资源更新时间预测方法及系统

Country Status (1)

Country Link
CN (1) CN110069692B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835931A (zh) * 2019-11-22 2021-05-25 珠海格力电器股份有限公司 一种确定数据获取频率的方法及装置
CN112768039A (zh) * 2020-12-31 2021-05-07 平安国际智慧城市科技股份有限公司 基于人工智能的信息监控方法、装置、计算机设备及介质
CN113312526A (zh) * 2021-06-29 2021-08-27 平安资产管理有限责任公司 网络信息动态采集方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945576A (zh) * 2006-10-31 2007-04-11 上海态格文化传播有限公司 自适应网页更新时间预测方法
US9313177B2 (en) * 2014-02-21 2016-04-12 TruSTAR Technology, LLC Anonymous information sharing
CN105528416B (zh) * 2015-12-07 2018-03-09 中南大学 一种网站更新内容的监测方法及系统
CN109523090A (zh) * 2018-12-04 2019-03-26 国网湖南省电力有限公司 一种输电线路暴雨滑坡预测方法及系统

Also Published As

Publication number Publication date
CN110069692A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110069692B (zh) 一种面向开源信息采集的资源更新时间预测方法及系统
CN108038040B (zh) 计算机集群性能指标检测方法、电子设备及存储介质
CN104516784B (zh) 一种预测任务资源等待时间的方法及系统
CN110858973B (zh) 小区网络流量预测方法及装置
Bublyk et al. Structuring the fuzzy knowledge base of the IT industry impact factors
CN112116149B (zh) 一种考虑预报不确定性关联演化特征的多站中长期径流滚动概率预测方法
Ventrucci et al. Multiple testing on standardized mortality ratios: a Bayesian hierarchical model for FDR estimation
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN111898831A (zh) 一种实时洪水概率预报实用化方法
CN106507406A (zh) 一种无线网络的设备接入数的预测方法及设备
CN111415027A (zh) 构建件量预测模型的方法和装置
CN112181659A (zh) 云仿真内存资源预测模型构建方法与内存资源预测方法
CN116503206A (zh) 一种入库径流重构方法、计算机设备及介质
Skitmore Identifying non-competitive bids in construction contract auctions
CN113379156A (zh) 速度预测方法、装置、设备及存储介质
CN112070129B (zh) 地面沉降风险识别方法、装置以及系统
CN113869599A (zh) 鱼类疫病发展预测方法、系统、设备及介质
Bozoğlu et al. Entropy based regional precipitation prediction in the case of Gediz River basin
Ehsanifar et al. A simulation approach to evaluate performance indices of fuzzy exponential queuing system (An M/M/C model in a banking case study)
Sang et al. Wavelet neural modeling for hydrologic time series forecasting with uncertainty evaluation
CN115936264A (zh) 单日工程量计算方法、阶段性工程量预测方法及预测装置
Niedzielski et al. HydroProg: a system for hydraulic forecasting in real time, based on the multimodelling approach
CN114564487A (zh) 预报预测相结合的气象栅格数据更新方法
Lee et al. A local-EM algorithm for spatio-temporal disease mapping with aggregated data
CN114238106A (zh) 测试时间预测方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210420

CF01 Termination of patent right due to non-payment of annual fee