CN106202383A

CN106202383A - 一种应用于网络爬虫的网络带宽占比动态预测方法与系统

Info

Publication number: CN106202383A
Application number: CN201610536833.9A
Authority: CN
Inventors: 杨绪升; 金俏; 朱卫平; 朱文鹏; 杜海坤; 崔晓晖
Original assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Current assignee: WUHAN FENGHUO PUTIAN IT Co Ltd
Priority date: 2016-07-08
Filing date: 2016-07-08
Publication date: 2016-12-07
Anticipated expiration: 2036-07-08
Also published as: CN106202383B

Abstract

本发明涉及一种基于网络爬虫的网络带宽占比动态预测方法与系统，所述方法包括以下步骤：S1、通过爬虫网络爬取到的各网站发布信息量进行时间段划分；S2、统计分析得到每个时间段内的各网站的发布信息量数据；S3、对数据进行时间序列分析，得到网站发布信息量与时间段关系的预测模型；S4、根据预测模型预测网络带宽各个时间段内的发布信息量；本发明主要通过对多个同时运行的针对不同数据源的爬虫程序的带宽根据历史数据进行时间序列分析，建立起信息更新模型，实现预测未来一段时间的各数据源带宽占用率这一目的。

Description

一种应用于网络爬虫的网络带宽占比动态预测方法与系统

技术领域

本发明涉及网络信息处理技术领域，更具体的说，是涉及一种应用于网络爬虫的网络带宽占比动态预测方法与系统。

背景技术

在当前从网络上海量数据源中获取信息的系统中，尤其是对及时性要求较高的系统，下载带宽是制约爬取效率的主要瓶颈之一。

以新闻数据爬取为例，由于海量的数据源，如各个新闻门户网站、政府网站、微博等需要同时采集，顺序化的数据采集的方式，网络带宽有限等原因，重要的数据无法及时地呈现到用户眼前，无法做到实时分析。

在同时运行多个针对不同站点的爬虫以同时爬取大量信息时，由于各个数据源各自的特点，往往会形成各自的更新模式，我们可以通过对爬取信息的历史数据的统计对这种更新模式进行分析和拟合，对其建立预测模型。最终实现对各爬虫间需要的带宽进行动态地进行预测，作为动态带宽分配的依据。

发明内容

有鉴于此，有必要针对上述问题，提供一种应用于网络爬虫的网络带宽占比动态预测方法与系统，对不同的网站，工作日、周末等多种不同的情况分别使用不同的模型，预测准确率较高。

为了实现上述目的，本发明的技术方案如下：

一种基于网络爬虫的网络带宽占比动态预测方法，包括以下步骤：

S1、对网络爬虫爬取到的各网站的每一条信息按照其发布时间进行时间段划分；

S2、统计分析得到每个时间段内的各网站的发布信息量数据；

S3、对数据进行时间序列分析，得到网站发布信息量与时间段关系的预测模型；

S4、根据预测模型预测未来一段时间内各个网站各个时间段内的发布信息量。

作为优选的，所述步骤S3中，所述预测模型包括工作日和周末两类数据以天为周期的预测模型，以及每天内以小时为周期的预测模型。

作为优选的，所述步骤S2具体包括：

S201、以天为单位对历史数据进行时间段划分；

S202、将数据按照工作日和周末划分为两类数据。

作为优选的，所述步骤S3具体包括：

S301、对每天内的数据按照小时进行时间段划分，对发布信息变化模式进行时间序列建模，通过线性自回归和一阶指数平滑进行拟合测试，根据拟合测试的结果建立以小时为周期的预测模型；

S302、根据预测模型计算发布信息数量在一天的时间段内的变化规律，定义为季节因子；

S303、对工作日和周末两类数据进行建模，得到适用于两类数据的以天为周期的预测模型，除去季节因子，得到处理后的数据；

作为优选的，所述步骤S4具体包括：

S401、按照工作日或周末，分别使用处理后的数据和各自的以天为单位的预测模型预测全天的数据量；

S402、采用部分历史数据，计算以小时为单位的预测模型预测到的数据与实际历史数据的误差，选取误差最小的模型作为最终预测模型；

S403、依据工作日或周末，使用处理后的数据和最终预测模型，根据季节因子获得全天各个时间段的预测发布信息。

一种根据上述方法进行网络带宽占比动态预测的系统，包括采集模块、分析模块、处理模块和预测模块；

所述采集模块用于通过爬虫程序实时爬取各网站的发布信息；

所述分析模块用于统计分析得到每个时间段内的各网站的发布信息量数据；

所述处理模块用于对数据进行时间序列分析，得到网站发布信息量与时间段关系的预测模型；

所述预测模块用于根据预测模型预测各个数据源(网站)未来一段时间内各个时间段内的发布信息量。

与现有技术相比，本发明的有益效果在于：

1、根据各个网站的历史数据建立起信息发布模型，计算信息更新周期性，实现对多个爬虫动态带宽占比的预测；

2、对不同的网站，工作日、周末等多种不同的情况分别使用不同的模型，预测准确率较高。

附图说明

图1为本发明实施例的方法流程框图；

图2为本发明实施例的系统结构框图。

具体实施方式

下面结合附图和实施例对本发明所述的一种应用于网络爬虫的网络带宽占比动态预测方法与系统作进一步说明。

以下是本发明所述的一种应用于网络爬虫的网络带宽占比动态预测方法与系统的最佳实例，并不因此限定本发明的保护范围。

图1示出了一种应用于网络爬虫的网络带宽占比动态预测方法，包括以下步骤：

S1、通过对网络爬虫爬取到的各网站的每一条信息按照其发布时间进行时间段划分；

S4、根据预测模型预测各个数据源(网站)在未来一段时间内的各个时间段内的发布信息量。

具体而言，本发明采用如下的技术方案：

带宽占比预测：

带宽占比预测算法的思路是通过对爬取到的各网站的信息进行时间段划分，统计得到每个时间段内的发布信息数量，将收集整理好的数据进行时间序列分析，得到预测模型，预测未来一天内某一固定时段的信息发布。

具体而言，首先以天为单位对历史数据进行时间段划分，再将数据按照工作日(周一至周五)和周末划分为两类分别进行下边的计算。

首先对每天内的数据按照小时进行进一步时间段划分，对发布信息变化模式进行时间序列建模，也就是通过线性自回归和一阶指数平滑进行拟合测试，根据拟合的结果建立预测模型。

随后通过该模型计算发布信息数量在一天的时间段内的变化规律，称之为季节因子。

通过对工作日和周末两类数据进行建模，可以得到适用于两类数据的以天为周期的预测模型。去除季节因子，获得处理后的数据。对未来的某一天，按照是工作日或者周末，分别使用处理后的数据和各自的预测模型首先预测全天的数据量。

采用部分历史数据，计算通过线性自回归和一阶指数平滑得到的预测模型预测到数据与实际历史数据的误差，选取误差小的模型作为最终的预测模型。

对未来的某一天，依据是工作日或者周末，使用处理后的数据和最终的预测模型，然后根据季节因子获得全天各个时段内的预测发布信息量作为最终的预测结果。

面对上述技术问题，本发明主要通过对多个同时运行的针对不同数据源的爬虫程序的带宽根据历史数据进行时间序列分析，建立起信息更新模型，实现预测未来一段时间的带宽占用率这一目的。

本实施例中还提供了一种根据上述方法进行带宽占比动态预测的系统，包括采集模块、分析模块、处理模块和预测模块；

所述预测模块用于根据预测模型预测网络带宽各个时间段内的发布信息量。

和现有技术相比，本发明具有以下优点和有益效果：

1、根据各个网站的历史数据建立起信息发布模型，计算信息更新周期性，实现对多个爬虫动态带宽占比的预测。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于网络爬虫的网络带宽占比动态预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于网络爬虫的网络带宽占比动态预测方法，其特征在于，所述步骤S3中，所述预测模型包括工作日和周末两类数据以天为周期的预测模型，以及每天内以小时为周期的预测模型。

3.根据权利要求2所述的基于网络爬虫的网络带宽占比动态预测方法，其特征在于，所述步骤S2具体包括：

S201、以天为单位对历史数据进行时间段划分；

S202、将数据按照工作日和周末划分为两类数据。

4.根据权利要求3所述的基于网络爬虫的网络带宽占比动态预测方法，其特征在于，所述步骤S3具体包括：

S303、对工作日和周末两类数据进行建模，得到适用于两类数据的以天为周期的预测模型，除去季节因子，得到处理后的数据。

5.根据权利要求4所述的基于网络爬虫的网络带宽占比动态预测方法，其特征在于，所述步骤S4具体包括：

6.一种根据权利要求1至5任一所述的方法进行网络带宽占比动态预测的系统，其特征在于，包括采集模块、分析模块、处理模块和预测模块；

所述预测模块用于根据预测模型得到不同数据源各个时间段内的发布信息量。