CN106202383A - 一种应用于网络爬虫的网络带宽占比动态预测方法与系统 - Google Patents

一种应用于网络爬虫的网络带宽占比动态预测方法与系统 Download PDF

Info

Publication number
CN106202383A
CN106202383A CN201610536833.9A CN201610536833A CN106202383A CN 106202383 A CN106202383 A CN 106202383A CN 201610536833 A CN201610536833 A CN 201610536833A CN 106202383 A CN106202383 A CN 106202383A
Authority
CN
China
Prior art keywords
data
time period
forecast model
website
network bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610536833.9A
Other languages
English (en)
Other versions
CN106202383B (zh
Inventor
杨绪升
金俏
朱卫平
朱文鹏
杜海坤
崔晓晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN FENGHUO PUTIAN IT Co Ltd
Original Assignee
WUHAN FENGHUO PUTIAN IT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN FENGHUO PUTIAN IT Co Ltd filed Critical WUHAN FENGHUO PUTIAN IT Co Ltd
Priority to CN201610536833.9A priority Critical patent/CN106202383B/zh
Publication of CN106202383A publication Critical patent/CN106202383A/zh
Application granted granted Critical
Publication of CN106202383B publication Critical patent/CN106202383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于网络爬虫的网络带宽占比动态预测方法与系统,所述方法包括以下步骤:S1、通过爬虫网络爬取到的各网站发布信息量进行时间段划分;S2、统计分析得到每个时间段内的各网站的发布信息量数据;S3、对数据进行时间序列分析,得到网站发布信息量与时间段关系的预测模型;S4、根据预测模型预测网络带宽各个时间段内的发布信息量;本发明主要通过对多个同时运行的针对不同数据源的爬虫程序的带宽根据历史数据进行时间序列分析,建立起信息更新模型,实现预测未来一段时间的各数据源带宽占用率这一目的。

Description

一种应用于网络爬虫的网络带宽占比动态预测方法与系统
技术领域
本发明涉及网络信息处理技术领域,更具体的说,是涉及一种应用于网络爬虫的网络带宽占比动态预测方法与系统。
背景技术
在当前从网络上海量数据源中获取信息的系统中,尤其是对及时性要求较高的系统,下载带宽是制约爬取效率的主要瓶颈之一。
以新闻数据爬取为例,由于海量的数据源,如各个新闻门户网站、政府网站、微博等需要同时采集,顺序化的数据采集的方式,网络带宽有限等原因,重要的数据无法及时地呈现到用户眼前,无法做到实时分析。
在同时运行多个针对不同站点的爬虫以同时爬取大量信息时,由于各个数据源各自的特点,往往会形成各自的更新模式,我们可以通过对爬取信息的历史数据的统计对这种更新模式进行分析和拟合,对其建立预测模型。最终实现对各爬虫间需要的带宽进行动态地进行预测,作为动态带宽分配的依据。
发明内容
有鉴于此,有必要针对上述问题,提供一种应用于网络爬虫的网络带宽占比动态预测方法与系统,对不同的网站,工作日、周末等多种不同的情况分别使用不同的模型,预测准确率较高。
为了实现上述目的,本发明的技术方案如下:
一种基于网络爬虫的网络带宽占比动态预测方法,包括以下步骤:
S1、对网络爬虫爬取到的各网站的每一条信息按照其发布时间进行时间段划分;
S2、统计分析得到每个时间段内的各网站的发布信息量数据;
S3、对数据进行时间序列分析,得到网站发布信息量与时间段关系的预测模型;
S4、根据预测模型预测未来一段时间内各个网站各个时间段内的发布信息量。
作为优选的,所述步骤S3中,所述预测模型包括工作日和周末两类数据以天为周期的预测模型,以及每天内以小时为周期的预测模型。
作为优选的,所述步骤S2具体包括:
S201、以天为单位对历史数据进行时间段划分;
S202、将数据按照工作日和周末划分为两类数据。
作为优选的,所述步骤S3具体包括:
S301、对每天内的数据按照小时进行时间段划分,对发布信息变化模式进行时间序列建模,通过线性自回归和一阶指数平滑进行拟合测试,根据拟合测试的结果建立以小时为周期的预测模型;
S302、根据预测模型计算发布信息数量在一天的时间段内的变化规律,定义为季节因子;
S303、对工作日和周末两类数据进行建模,得到适用于两类数据的以天为周期的预测模型,除去季节因子,得到处理后的数据;
作为优选的,所述步骤S4具体包括:
S401、按照工作日或周末,分别使用处理后的数据和各自的以天为单位的预测模型预测全天的数据量;
S402、采用部分历史数据,计算以小时为单位的预测模型预测到的数据与实际历史数据的误差,选取误差最小的模型作为最终预测模型;
S403、依据工作日或周末,使用处理后的数据和最终预测模型,根据季节因子获得全天各个时间段的预测发布信息。
一种根据上述方法进行网络带宽占比动态预测的系统,包括采集模块、分析模块、处理模块和预测模块;
所述采集模块用于通过爬虫程序实时爬取各网站的发布信息;
所述分析模块用于统计分析得到每个时间段内的各网站的发布信息量数据;
所述处理模块用于对数据进行时间序列分析,得到网站发布信息量与时间段关系的预测模型;
所述预测模块用于根据预测模型预测各个数据源(网站)未来一段时间内各个时间段内的发布信息量。
与现有技术相比,本发明的有益效果在于:
1、根据各个网站的历史数据建立起信息发布模型,计算信息更新周期性,实现对多个爬虫动态带宽占比的预测;
2、对不同的网站,工作日、周末等多种不同的情况分别使用不同的模型,预测准确率较高。
附图说明
图1为本发明实施例的方法流程框图;
图2为本发明实施例的系统结构框图。
具体实施方式
下面结合附图和实施例对本发明所述的一种应用于网络爬虫的网络带宽占比动态预测方法与系统作进一步说明。
以下是本发明所述的一种应用于网络爬虫的网络带宽占比动态预测方法与系统的最佳实例,并不因此限定本发明的保护范围。
图1示出了一种应用于网络爬虫的网络带宽占比动态预测方法,包括以下步骤:
一种基于网络爬虫的网络带宽占比动态预测方法,包括以下步骤:
S1、通过对网络爬虫爬取到的各网站的每一条信息按照其发布时间进行时间段划分;
S2、统计分析得到每个时间段内的各网站的发布信息量数据;
S3、对数据进行时间序列分析,得到网站发布信息量与时间段关系的预测模型;
S4、根据预测模型预测各个数据源(网站)在未来一段时间内的各个时间段内的发布信息量。
作为优选的,所述步骤S3中,所述预测模型包括工作日和周末两类数据以天为周期的预测模型,以及每天内以小时为周期的预测模型。
具体而言,本发明采用如下的技术方案:
带宽占比预测:
带宽占比预测算法的思路是通过对爬取到的各网站的信息进行时间段划分,统计得到每个时间段内的发布信息数量,将收集整理好的数据进行时间序列分析,得到预测模型,预测未来一天内某一固定时段的信息发布。
具体而言,首先以天为单位对历史数据进行时间段划分,再将数据按照工作日(周一至周五)和周末划分为两类分别进行下边的计算。
首先对每天内的数据按照小时进行进一步时间段划分,对发布信息变化模式进行时间序列建模,也就是通过线性自回归和一阶指数平滑进行拟合测试,根据拟合的结果建立预测模型。
随后通过该模型计算发布信息数量在一天的时间段内的变化规律,称之为季节因子。
通过对工作日和周末两类数据进行建模,可以得到适用于两类数据的以天为周期的预测模型。去除季节因子,获得处理后的数据。对未来的某一天,按照是工作日或者周末,分别使用处理后的数据和各自的预测模型首先预测全天的数据量。
采用部分历史数据,计算通过线性自回归和一阶指数平滑得到的预测模型预测到数据与实际历史数据的误差,选取误差小的模型作为最终的预测模型。
对未来的某一天,依据是工作日或者周末,使用处理后的数据和最终的预测模型,然后根据季节因子获得全天各个时段内的预测发布信息量作为最终的预测结果。
在同时运行多个针对不同站点的爬虫以同时爬取大量信息时,由于各个数据源各自的特点,往往会形成各自的更新模式,我们可以通过对爬取信息的历史数据的统计对这种更新模式进行分析和拟合,对其建立预测模型。最终实现对各爬虫间需要的带宽进行动态地进行预测,作为动态带宽分配的依据。
面对上述技术问题,本发明主要通过对多个同时运行的针对不同数据源的爬虫程序的带宽根据历史数据进行时间序列分析,建立起信息更新模型,实现预测未来一段时间的带宽占用率这一目的。
本实施例中还提供了一种根据上述方法进行带宽占比动态预测的系统,包括采集模块、分析模块、处理模块和预测模块;
所述采集模块用于通过爬虫程序实时爬取各网站的发布信息;
所述分析模块用于统计分析得到每个时间段内的各网站的发布信息量数据;
所述处理模块用于对数据进行时间序列分析,得到网站发布信息量与时间段关系的预测模型;
所述预测模块用于根据预测模型预测网络带宽各个时间段内的发布信息量。
和现有技术相比,本发明具有以下优点和有益效果:
1、根据各个网站的历史数据建立起信息发布模型,计算信息更新周期性,实现对多个爬虫动态带宽占比的预测。
2、对不同的网站,工作日、周末等多种不同的情况分别使用不同的模型,预测准确率较高。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于网络爬虫的网络带宽占比动态预测方法,其特征在于,包括以下步骤:
S1、对网络爬虫爬取到的各网站的每一条信息按照其发布时间进行时间段划分;
S2、统计分析得到每个时间段内的各网站的发布信息量数据;
S3、对数据进行时间序列分析,得到网站发布信息量与时间段关系的预测模型;
S4、根据预测模型预测未来一段时间内各个网站各个时间段内的发布信息量。
2.根据权利要求1所述的基于网络爬虫的网络带宽占比动态预测方法,其特征在于,所述步骤S3中,所述预测模型包括工作日和周末两类数据以天为周期的预测模型,以及每天内以小时为周期的预测模型。
3.根据权利要求2所述的基于网络爬虫的网络带宽占比动态预测方法,其特征在于,所述步骤S2具体包括:
S201、以天为单位对历史数据进行时间段划分;
S202、将数据按照工作日和周末划分为两类数据。
4.根据权利要求3所述的基于网络爬虫的网络带宽占比动态预测方法,其特征在于,所述步骤S3具体包括:
S301、对每天内的数据按照小时进行时间段划分,对发布信息变化模式进行时间序列建模,通过线性自回归和一阶指数平滑进行拟合测试,根据拟合测试的结果建立以小时为周期的预测模型;
S302、根据预测模型计算发布信息数量在一天的时间段内的变化规律,定 义为季节因子;
S303、对工作日和周末两类数据进行建模,得到适用于两类数据的以天为周期的预测模型,除去季节因子,得到处理后的数据。
5.根据权利要求4所述的基于网络爬虫的网络带宽占比动态预测方法,其特征在于,所述步骤S4具体包括:
S401、按照工作日或周末,分别使用处理后的数据和各自的以天为单位的预测模型预测全天的数据量;
S402、采用部分历史数据,计算以小时为单位的预测模型预测到的数据与实际历史数据的误差,选取误差最小的模型作为最终预测模型;
S403、依据工作日或周末,使用处理后的数据和最终预测模型,根据季节因子获得全天各个时间段的预测发布信息。
6.一种根据权利要求1至5任一所述的方法进行网络带宽占比动态预测的系统,其特征在于,包括采集模块、分析模块、处理模块和预测模块;
所述采集模块用于通过爬虫程序实时爬取各网站的发布信息;
所述分析模块用于统计分析得到每个时间段内的各网站的发布信息量数据;
所述处理模块用于对数据进行时间序列分析,得到网站发布信息量与时间段关系的预测模型;
所述预测模块用于根据预测模型得到不同数据源各个时间段内的发布信息量。
CN201610536833.9A 2016-07-08 2016-07-08 一种应用于网络爬虫的网络带宽占比动态预测方法与系统 Active CN106202383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610536833.9A CN106202383B (zh) 2016-07-08 2016-07-08 一种应用于网络爬虫的网络带宽占比动态预测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610536833.9A CN106202383B (zh) 2016-07-08 2016-07-08 一种应用于网络爬虫的网络带宽占比动态预测方法与系统

Publications (2)

Publication Number Publication Date
CN106202383A true CN106202383A (zh) 2016-12-07
CN106202383B CN106202383B (zh) 2019-11-19

Family

ID=57473839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610536833.9A Active CN106202383B (zh) 2016-07-08 2016-07-08 一种应用于网络爬虫的网络带宽占比动态预测方法与系统

Country Status (1)

Country Link
CN (1) CN106202383B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886459A (zh) * 2017-01-24 2017-06-23 浙江工商大学 一种基于实测带宽的多智能体互联网数据采集任务分配方法
CN107818179A (zh) * 2017-11-23 2018-03-20 成都知道创宇信息技术有限公司 一种基于信息量理论的爬虫识别方法
CN108876458A (zh) * 2018-06-19 2018-11-23 湖北国网华中科技开发有限责任公司 一种基于网络爬虫的商品动态预测方法及系统
CN110990674A (zh) * 2019-11-25 2020-04-10 创新奇智(青岛)科技有限公司 一种文章阅读量的预测方法及系统
CN114338429A (zh) * 2021-12-30 2022-04-12 中国工商银行股份有限公司 网络带宽的确定方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN105392154A (zh) * 2014-09-05 2016-03-09 中兴通讯股份有限公司 一种资源占用量的预测方法与预测系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176985A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种及时高效的互联网信息爬取方法
CN105392154A (zh) * 2014-09-05 2016-03-09 中兴通讯股份有限公司 一种资源占用量的预测方法与预测系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886459A (zh) * 2017-01-24 2017-06-23 浙江工商大学 一种基于实测带宽的多智能体互联网数据采集任务分配方法
CN106886459B (zh) * 2017-01-24 2019-07-23 浙江工商大学 一种基于实测带宽的多智能体互联网数据采集任务分配方法
CN107818179A (zh) * 2017-11-23 2018-03-20 成都知道创宇信息技术有限公司 一种基于信息量理论的爬虫识别方法
CN107818179B (zh) * 2017-11-23 2021-06-18 成都知道创宇信息技术有限公司 一种基于信息量理论的爬虫识别方法
CN108876458A (zh) * 2018-06-19 2018-11-23 湖北国网华中科技开发有限责任公司 一种基于网络爬虫的商品动态预测方法及系统
CN110990674A (zh) * 2019-11-25 2020-04-10 创新奇智(青岛)科技有限公司 一种文章阅读量的预测方法及系统
CN114338429A (zh) * 2021-12-30 2022-04-12 中国工商银行股份有限公司 网络带宽的确定方法、装置及电子设备
CN114338429B (zh) * 2021-12-30 2024-01-30 中国工商银行股份有限公司 网络带宽的确定方法、装置及电子设备

Also Published As

Publication number Publication date
CN106202383B (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN106202383A (zh) 一种应用于网络爬虫的网络带宽占比动态预测方法与系统
Whitt Approximating a point process by a renewal process, I: Two basic methods
Gupta et al. Job shop scheduling techniques in semiconductor manufacturing
CN105069524B (zh) 基于大数据分析的计划调度优化方法
Huang et al. An internet-of-things-based production logistics optimisation method for discrete manufacturing
CN102609875B (zh) 一种动态并行处理银行数据的方法及系统
CN103473122B (zh) 一种云计算环境中的工作流系统资源调度方法
Pang et al. Optimization of total energy consumption in flexible manufacturing systems using weighted p-timed Petri nets and dynamic programming
CN106373030B (zh) 一种流域梯级水电站优化调度的方法
CN105719221A (zh) 针对多任务的路径协同规划方法和装置
Gu et al. Hidden maintenance opportunities in discrete and complex production lines
CN104462657B (zh) 基于Petri网复杂系统多设计方案的选择方法
Veeger et al. Predicting cycle time distributions for integrated processing workstations: an aggregate modeling approach
CN106021391B (zh) 基于Storm的产品评论信息实时采集方法
CN105138650A (zh) 一种基于孤立点挖掘的Hadoop数据清洗方法及系统
CN104756022A (zh) 用于生产流水线中的能量需求管理的方法
Ehrenberg et al. Simulation-based optimization in make-to-order production: scheduling for a special-purpose glass manufacturer
Lujic et al. Resilient edge data management framework
Brochado et al. A data-driven model with minimal information for bottleneck detection-application at Bosch thermotechnology
Hung et al. A production planning approach based on iterations of linear programming optimization and flow time prediction
Hu et al. Construction phase oriented dynamic simulation: taking RCC dam placement process as an example
CN102509177B (zh) 一种基于云平台的局部加权线性回归预测运算的方法
Ke et al. Algorithmic analysis of the multi-server system with a modified Bernoulli vacation schedule
CN109857817A (zh) 全网域电子式互感器高频度计量数据甄别及数据处理方法
Dehghanimohammadabadi et al. Tradeoffs between objective measures and execution speed in Iterative Optimization-based Simulation (IOS)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant