CN106909990A

CN106909990A - 一种基于历史数据的预测方法及装置

Info

Publication number: CN106909990A
Application number: CN201710117390.4A
Authority: CN
Inventors: 雷航; 洪楷; 刘伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2017-06-30

Abstract

本申请实施例公开了一种基于历史数据的预测方法及装置，有效提高了预测结果的精确度。其中，所述方法包括：获取预测项的历史数据，并利用神经网络系统对所述历史数据进行训练，得到预测模型，所述历史数据包括所述预测项的自身历史数据和所述预测项的相关历史数据，所述预测模型反映了所述自身历史数据与相关历史数据之间的关系；获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测。

Description

一种基于历史数据的预测方法及装置

技术领域

本申请涉及数据处理领域，尤其涉及一种基于历史数据的预测方法及装置。

背景技术

目前有很多应用场景需要按照一定规律基于历史数据对未来的数据进行预测，例如基于应用程序的历史上线人数预测未来某个时间点或某些时间点的上线人数，以便适应性的增加或减少相应的计算机资源，或者推送某些业务等等。再例如，基于历史网络流量数据预测未来网络流量数据，或基于历史网络延迟数据预测未来的网络延迟数据。

现有的比较流行的预测方法是回归分析法，通过分析找到历史的预测数据与其相关的历史数据的函数表达式，即回归函数。当进行实际预测时，将与实际预测数据相关的数据代入到回归函数中，求出实际预测数据。

然而，回归分析法进行预测的精确度取决于回归函数，当历史数据的规律较为复杂时，可能无法找到拟合度较高的回归函数，这种情况下回归预测结果的精确度就不够理想。

发明内容

为了解决现有技术存在的技术问题，本申请提供了一种基于历史数据的预测方法及装置，有效提高了预测结果的精确度。

本申请实施例提供了一种基于历史数据的预测方法，所述方法包括：

获取预测项的历史数据，并利用神经网络系统对所述历史数据进行训练，得到预测模型，所述历史数据包括所述预测项的自身历史数据和所述预测项的相关历史数据，所述预测模型反映了所述自身历史数据与相关历史数据之间的关系；

获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测，所述相关实际数据的时间点在所述自身实际数据的时间点之前。

可选的，所述预测项的相关历史数据包括以下至少一种：

与所述自身历史数据相邻的第一预设个数的时间点的历史数据、所述自身历史数据的时间点与相邻的第一预设个数的时间点的历史数据差值、与所述自身历史数据相邻的第二预设个数的时间点的历史数据之间的差值。

可选的，所述神经网络系统包括输入层、隐藏层和输出层；

所述利用神经网络系统对所述历史数据进行训练，得到预测模型包括：

将所述预测项的相关历史数据输入到所述输入层，并经过与所述隐藏层各节点对应的激活函数的计算，输出中间预测值；

利用所述中间预测值与所述预测项的自身历史数据之间的差值，以及优化算法对所述激活函数中的权重进行反复修正，直到所述中间预测值与所述自身历史数据之间的差值在预设范围之内，得到训练完成的各节点的激活函数。

可选的，所述激活函数包括：sigmoid函数、tanh函数、relu函数、leakyrule函数或maxout函数。

可选的，所述优化算法包括：adam算法、SGD算法或Momentum算法。

本申请实施例还提供了一种基于历史数据的预测装置，所述装置包括：

历史数据获取单元、训练单元以及预测单元；

其中，所述历史数据获取单元，用于获取预测项的历史数据；

所述训练单元，用于利用神经网络系统对所述历史数据进行训练，得到预测模型，所述历史数据包括所述预测项的自身历史数据和所述预测项的相关历史数据，所述预测模型反映了所述自身历史数据与相关历史数据之间的关系；

所述预测单元，用于获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测，所述相关实际数据的时间点在所述自身实际数据的时间点之前。

可选的，所述预测项的相关历史数据包括以下至少一种：

可选的，所述神经网络系统包括输入层、隐藏层和输出层；

所述训练单元包括：计算单元和修正单元；

所述计算单元，用于将所述预测项的相关历史数据输入到所述输入层，并经过与所述隐藏层各节点对应的激活函数的计算，输出中间预测值；

所述修正单元，用于利用所述中间预测值与所述预测项的自身历史数据之间的差值，以及优化算法对所述激活函数中的权重进行反复修正，直到所述中间预测值与所述自身历史数据之间的差值在预设范围之内，得到训练完成的各节点的激活函数。

可选的，所述激活函数包括：sigmoid函数、tanh函数、relu函数、leaky rule函数或maxout函数。

本申请通过获取预测项的历史数据，并利用神经网络系统对所述历史数据进行训练，得到预测模型。然后获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测。相对于现有技术采用回归分析法进行预测的技术方案，本申请得到的预测结果更为准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例一提供的一种基于历史数据的预测方法的流程图；

图2为本申请实施例一中神经网络系统中隐藏层单个节点的示意图；

图3为本申请实施例一中通过神经网络系统预测得到的各个时间点的在线人数以及各个时间点的真实在线人数的曲线图；

图4为本申请实施例二提供的一种基于历史数据的预测装置的结构框图；

图5为本申请实施例三提供的一种终端设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一：

参见图1，该图为本申请实施例一提供的一种基于历史数据的预测方法的流程图。

本实施例提供的基于历史数据的预测方法包括如下步骤：

步骤S101：获取预测项的历史数据，并利用神经网络系统对所述历史数据进行训练，得到预测模型。

在本实施例中，所述预测项是指需要对未来数据进行预测的某个项或某些项，例如预测在线人数、网络流量、网络延迟时间等。本实施例根据预测项的历史数据来预测未来的数据。所述历史数据包括所述预测项的自身历史数据和所述预测项的相关历史数据，所述自身历史数据就是预测项自己的历史数据，自身历史数据可以是一个，也可以是多个；相关历史数据是指与预测项相关的历史数据。所述相关历史数据可以包括以下至少一种：与所述自身历史数据相邻的第一预设个数的时间点的历史数据、所述自身历史数据与相邻的第一预设个数的时间点的历史数据差值、与所述自身历史数据相邻的第二预设个数的时间点的历史数据之间的差值等等。通常情况下，自身历史数据具有一个时间点，与自身历史数据相邻的时间点可以是自身历史数据相邻的之前的时间点，也可以是之后的时间点。第一预设个数可以是一个，也可以是多个。所述第二预设个数至少为两个。

若t时刻的自身历史数据表示为y_t，t为自身历史数据的时间点。

自身历史数据的时间点与相邻的第一预设个数的时间点的历史数据差值表示如下：

其中T_i为前i个周期的相邻的第一预设个数的时间点与自身历史数据的时间点的时间差。所谓周期可以是天、周、月、年等，本申请不作具体限定。

与自身历史数据相邻的第二预设个数的时间点的历史数据之间的差值表示如下：

y_t-i-y_t-i-1,y_t-i+1-y_t-i,...,y_t-1-y_t-2

其中i为第二预设个数。

举个例子，假设预测项为未来一周每天中午12点的在线人数，那么预测项的自身历史数据可以是今天中午12点的在线人数，也可以是最近一周每天中午12点的在线人数。

如果是前者，相关历史数据是与自身历史数据相邻的第一预设个数的时间点，假设第一预设个数为1，且相邻的时间点为之前一个小时，那么预测项的相关历史数据可以为今天上午11点的在线人数；若相邻的时间点为之后一个小时，那么预测项的相关历史数据可以为今天下午1点的在线人数。

如果是后者，相关历史数据的条件不变，那么预测项的相关历史数据可以为最近一周每天上午11点的在线人数，或最近一周每天下午1的在线人数。

当相关历史数据包括所述自身历史数据的时间点与相邻的第一预设个数的时间点的历史数据差值，且第一预设个数为1时，那么相关历史数据可以为最近一个月每天中午12点的在线人数与上午11点或下午1点的在线人数之间的差值。

若相关历史数据为与所述自身历史数据相邻的第二预设个数的时间点的历史数据之间的差值，且假设第二预设个数为三个，与所述自身历史数据相邻的三个时间点均为自身历史数据之前的时间点，那么相关历史数据可以是最近一个月每天中午12点的在线人数与上午11点在线人数之间的差值、上午11点在线人数与上午10点在线人数之间的差值以及上午10点在线人数与上午9点在线人数之间的差值。

再举个例子，参见表1，该表为在线人数的历史数据。

表1

	1月1日	1月2日	1月3日	1月4日	1月5日
						12:00	100	110	105	100	110
13:00	120	110	115	120	120
						14:00	130	125	130	135	130
15:00	140	135	140	150	？

假设预测项为1月5日的在线人数。那么，

预测项的自身历史数据可以仅仅包括1月4日15:00的在线人数，即150人，也可以还包括1月3日15:00的在线人数(140人)、1月2日15:00的在线人数(135人)和/或1月1日15:00的在线人数(140人)。

预测项的相关历史数据可以包括一下至少一项：

1、与所述自身历史数据相邻的前一个的时间点的历史数据：

因为自身历史数据包括1月4日15:00的在线人数，那么相邻的前一个时间点的历史数据为1月4日14:00的在线人数，即135人。

若自身历史数据还包括1月3日15:00的在线人数、1月2日15:00的在线人数和/或1月1日15:00的在线人数，那么相邻的前一个时间点的历史数据还分别包括：1月3日14:00的在线人数(130人)、1月2日14:00的在线人数(125人)和/或1月1日14:00的在线人数(130人)。

2、自身历史数据的时间点(15:00)与相邻前一个时间点(14:00)的历史差值数据：10人(140-130)(1月3日)、10人(135-125)(1月2日)、10人(140-130)(1月1日)。

3、与自身历史数据的时间点相邻的前三个的时间点的历史数据之间的差值：1月4日14:00、13:00和12:00之间的差值，即15人(135-120)和20人(120-100)。

本实施例在获取到预测项的历史数据后，利用神经网络系统对所述历史数据进行训练，得到预测模型。

神经网络(Neural Networks，简写为NNs)系统指的是人工神经网络，启发自人类大脑处理信息的生物神经网络，假设我们有训练样本集(x(ⁱ)，y(ⁱ))，那么神经网络算法能够提供一种复杂且非线性的假设模型h_W，b(x)，它具有参数W，b，可以以此参数来拟合我们的数据。本实施例中用到的神经网络也叫前馈神经网络，它包括输入层、隐藏层和输出层，相应的包括三种节点(神经网络的基本单元)：输入节点、隐藏节点和输出节点，输入节点从外部世界获取信息；隐藏节点和外部世界没有直接联系，这些节点利用激活函数进行计算，并将信息从输入节点传递到输出节点；输出节点用于向外部世界传递信息。

其中，激活函数是指为神经网络系统提供非线性建模能力，一般而言是非线性函数。常见激活函数有sigmoid函数、tanh函数、relu(Rectified Linear Units，线性修改单元)函数等。所述sigmoid函数的公式表示为也叫做S型激活函数，输出的是0至1之间的值。tanh函数的公式表示为也叫做双曲正切函数，输出的是[-1,1]之间的值。Rule函数的公式为f(x)＝max(o,x)，输出的是实数。

以隐藏层中的单个节点为例，参见图2，输入层的输入节点包括x1和x2，对应的权重分别为w1和w2，权重b(称为偏置)的输入为1，输入节点为Y，那么Y＝f(w1*x1+w2*x2+b)，其中f为激活函数。另外，输入层和输出层的个数通常均为一个，隐藏层可以由多层构成。

在本实施例中，当进行训练时，输入层的输入节点用于输入预测项的相关历史数据，并经过隐藏层的各个隐藏节点对应的激活函数的计算，从输出节点输出预测项的中间预测值，然后利用所述中间预测值与所述预测项的自身历史数据之间的差值，以及优化算法对所述激活函数中的权重进行反复修正，直到所述中间预测值与所述自身历史数据之间的差值在预设范围之内，得到训练完成的各节点的激活函数，即得到预测模型。也就是说，所述预测模型反映了所述自身历史数据与相关历史数据之间的关系。

以前文提到的预测在线人数的例子为例，在训练阶段，输入的数据为上述历史相关数据，中间预测值为1月4日15:00的数据，根据中间预测值与自身历史数据(1月4日15:00的在线人数，即150人)之间的差值对激活函数中的权重进行调整，直到满足预设范围的条件，得到预测模型。

所述优化算法用于通过对激活函数中权重的修正来实现对结果的优化，目前常用的包括Adam(Adaptive Moment Estimation，自适应矩估计)算法、SGD(stochasticgradient descent随机梯度下降)算法、Momentum算法等。

其中，Adam算法是一种基于一阶梯度来优化随机目标函数的算法，它根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。Adam也是基于梯度下降的方法，但是每次迭代参数的学习步长都有一个确定的范围，不会因为很大的梯度导致很大的学习步长，参数的值比较稳定。

SGD算法对于训练数据集，我们首先将其分成n个batch，每个batch包含m个样本。我们每次更新都利用一个batch的数据，而非整个训练集。即：

xt+1＝xt+Δxt

Δxt＝-ηgt

其中，η为学习率，gt为x在t时刻的梯度。

SGD方法的一个缺点是，其更新方向完全依赖于当前的batch，因而其更新十分不稳定。解决这一问题的一个简单的做法便是引入Momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力：

Δxt＝ρΔxt-1-ηgt

其中，ρ即momentum，表示要在多大程度上保留原来的更新方向，这个值在0-1之间，在训练开始时，由于梯度可能会很大，所以初始值一般选为0.5；当梯度不那么大时，改为0.9。η是学习率，即当前batch的梯度多大程度上影响最终更新方向，跟普通的SGD含义相同。ρ与η之和不一定为1。

步骤S102：获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测，所述相关实际数据的时间点在所述自身实际数据的时间点之前。

在训练完成后，获取预测项的相关实际数据，所述相关实际数据是指与预测项的自身实际数据匹配的相关数据，自身实际数据是指预测项要预测的目标数据。相关实际数据与自身实际数据之间的关系，和相关历史数据与自身历史数据之间的关系是相同或相似的。

仍然以预测在线人数为例，假设预测项的自身实际数据为1月5日15:00的数据，那么相关实际数据可以包括以下至少其一：

1、与所述自身实际数据相邻的前一个的时间点的实际数据：

1月5日14:00的在线人数，即130人。

2、自身实际数据的时间点(15:00)与相邻前一个时间点(14:00)的历史差值数据：

15人(150-135)(1月4日)、10人(140-130)(1月3日)、10人(135-125)(1月2日).

3、与自身实际数据的时间点相邻的前三个的时间点的历史数据之间的差值：

1月5日14:00、13:00和12:00之间的差值，即10人(130-120)和10人(120-110)。

通过将相关实际数据输入到输入层的输入节点中，并经过隐藏层的计算，最终输入预测项的自身实际数据。

为了检测通过本申请提供的基于历史数据的预测方法的技术效果，发明人采用神经网络为Python scikit-learn的MLPRegressor库，scikit-learn版本0.18.1对600条在线人数的历史数据进行训练，并预测了200条不同时间点的数据，其中MLPRegressor库使用默认参数，激活函数为relu函数，优化算法为adam算法。

参见图3，该图为通过神经网络系统预测得到的各个时间点的在线人数(虚线表示)以及各个时间点的真实在线人数(实线表示)的曲线图。从该图中可以看出，预测得到的数据与真实数据之间的差距很小，预测精确度较高。参见表2，该表为从1：00至17:00得到的真实在线人数的相关参数(平均值、标准差、最小值、最大值)以及与根据预测得到的在线人数的相关参数之间的误差统计。从该中可以看出，误差比例均小于0.1，再次表明预测精度较高。

表2

	真实在线人数	误差	误差/真实在线人数
				平均数	3118	18	0.007
标准差	1801	16	0.005
				最小值	1148	0	0
最大值	6025	92	0.030

综上所述，本申请通过获取预测项的历史数据，并利用神经网络系统对所述历史数据进行训练，得到预测模型。然后获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测。相对于现有技术采用回归分析法进行预测的技术方案，本申请得到的预测结果更为准确。而且，采用回归分析法一般需要所有历史数据，数据量较大，效率通常较低。但是本实施例中选择的历史数据，尤其是相关历史数据，可以部分历史数据，数据量较少，减少了计算量，提高了预测效率。

基于以上实施例提供的一种基于历史数据的预测方法，本申请实施例还提供了一种基于历史数据的预测装置，下面结合附图来详细说明其工作原理。

实施例二

参见图4，该图为本申请实施例二提供的一种基于历史数据的预测装置的结构框图。

本实施例提供的基于历史数据的预测装置包括：历史数据获取单元101、训练单元102以及预测单元103；

其中，所述历史数据获取单元101，用于获取预测项的历史数据；

所述训练单元102，用于利用神经网络系统对所述历史数据进行训练，得到预测模型，所述历史数据包括所述预测项的自身历史数据和所述预测项的相关历史数据，所述预测模型反映了所述自身历史数据与相关历史数据之间的关系；

所述预测单元103，用于获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测，所述相关实际数据的时间点在所述自身实际数据的时间点之前。

本申请通过获取预测项的历史数据，并利用神经网络系统对所述历史数据进行训练，得到预测模型。然后获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测。相对于现有技术采用回归分析法进行预测的技术方案，本申请得到的预测结果更为准确。而且，采用回归分析法一般需要所有历史数据，数据量较大，效率通常较低。但是本实施例中选择的历史数据，尤其是相关历史数据，可以部分历史数据，数据量较少，减少了计算量，提高了预测效率。

可选的，所述预测项的相关历史数据包括以下至少一种：

可选的，所述神经网络系统包括输入层、隐藏层和输出层；

所述训练单元包括：计算单元和修正单元；

可选的，所述激活函数包括relu函数。

可选的，所述优化算法包括adam算法。

实施例三

相应的，本申请实施例还提供一种终端设备，参见图5所示，所述终端设备可以包括：

处理器1001、存储器1002、输入装置1003和输出装置1004。

终端设备中的处理器1001的数量可以一个或多个，图5中以一个处理器为例。在本申请的一些实施例中，处理器1001、存储器1002、输入装置1003和输出装置1004可通过总线或其它方式连接，其中，图5中以通过总线连接为例。

存储器1002可用于存储软件程序以及模块，处理器1001通过运行存储在存储器1002的软件程序以及模块，从而执行终端设备的各种功能应用以及数据处理。存储器1002可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置1003可用于接收输入的数字或字符信息，以及产生与浏览器服务器的用户设置以及功能控制有关的键信号输入。

具体在本实施例中，处理器1001会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1002中，并由处理器1001来运行存储在存储器1002中的应用程序，从而实现如下功能：

获取预测项的相关实际数据，并根据所述相关实际数据以及所述预测模型得到所述预测项的自身实际数据，实现基于所述预测项的历史数据对自身实际数据的预测。

当介绍本申请的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于历史数据的预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预测项的相关历史数据包括以下至少一种：

3.根据权利要求1或2所述的方法，其特征在于，所述神经网络系统包括输入层、隐藏层和输出层；

4.根据权利要求3所述的方法，其特征在于，所述激活函数包括：sigmoid函数、tanh函数、relu函数、leaky rule函数或maxout函数。

5.根据权利要求3所述的方法，其特征在于，所述优化算法包括：adam算法、SGD算法或Momentum算法。

6.一种基于历史数据的预测装置，其特征在于，所述装置包括：

历史数据获取单元、训练单元以及预测单元；

7.根据权利要求6所述的装置，其特征在于，所述预测项的相关历史数据包括以下至少一种：

8.根据权利要求1或2所述的装置，其特征在于，所述神经网络系统包括输入层、隐藏层和输出层；

所述训练单元包括：计算单元和修正单元；

9.根据权利要求8所述的装置，其特征在于，所述激活函数包括：sigmoid函数、tanh函数、relu函数、leaky rule函数或maxout函数。

10.根据权利要求8所述的装置，其特征在于，所述优化算法包括：adam算法、SGD算法或Momentum算法。