CN112070270B

CN112070270B - 一种时序预测的网络模型及使用方法

Info

Publication number: CN112070270B
Application number: CN202010780183.9A
Authority: CN
Inventors: 白彧; 李克勤; 麻志毅
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2022-12-20
Anticipated expiration: 2040-08-05
Also published as: CN112070270A

Abstract

本发明公开了一种时序预测的网络模型及使用方法，模型包括：编码器和解码器，编码器包括n个预设时间步长的输入，解码器包括m个预设时间步长的输出；编码器包括至少一个LSTM单元，解码器包括至少一个LSTM单元和输出转换层；网络模型的损失函数包括双曲余弦函数和正则项函数。通过采用基于seq2seq架构，使得输入序列和输出序列的长度不同，可以预测未来一段时间的数据，进而克服循环预测中的误差传递问题，能够更好的学习数据之间的时序关系。并通过调整损失函数，即使用双曲余弦函数消除异常点数据对模型训练的影响，让模型的预测性能更具有鲁棒性，并加入正则项函数，通过调整正则项函数的惩罚系数让模型预测结果更符合业务需要。

Description

一种时序预测的网络模型及使用方法

技术领域

本发明涉及计算机技术领域，具体涉及一种时序预测的网络模型及使用方法。

背景技术

时序预测是基于历史统计数据，去预知未来一段时间内研究对象变化的数据分析过程。随着深度学习的发展，使用神经网络模型根据历史的变化趋势预测未来的发展越来越广泛。

目前常用的方法有基于时间序列法和基于LSTM(Long Short-Term Memory，长短期记忆网络)方法，但是对于时间序列法，是对数据的线性关系进行学习从而作出预测的模型，但在研究对象的变化趋势中存在着大量非线性关系，因此该方法的预测精度比较低；对于基于LSTM方法，虽然可以学习研究对象变化的非线性关系，但其损失函数一般采用均方误差(MSE，Mean Squared Error)或平均绝对误差(MAE，Mean Absolute Error)，MSE容易受到异常点影响，MAE收敛速度慢，容易对模型造成不必要的震荡。

发明内容

本发明的目的是针对上述现有技术的不足提出的一种时序预测的网络模型及使用方法，该目的是通过以下技术方案实现的。

本发明的第一方面提出了一种时序预测的网络模型，包括：编码器和解码器，所述编码器包括n个预设时间步长的输入，所述解码器包括m个预设时间步长的输出；所述编码器包括至少一个第一LSTM单元；所述解码器包括至少一个第二LSTM单元和输出转换层；

其中，所述编码器用于通过所述至少一个第一LSTM单元将长度为n的输入序列编码为一组向量；所述解码器用于通过所述至少一个第二LSTM单元和输出转换层将所述向量解码为长度为m的输出序列输出；

所述网络模型的损失函数包括双曲余弦Log-cosh函数和正则项函数。

基于上述第一方面所述的网络模型，具有以下有益效果：

通过采用基于seq2seq架构的编码器和解码器的网络结构，使得输入序列和输出序列的长度不同，可以预测未来一段时间的数据，进而克服循环预测中的误差传递问题，能够更好的学习数据之间的时序关系。并通过调整损失函数，即使用Log-Cosh函数消除异常点数据对模型训练的影响，让模型的预测性能更具有鲁棒性，并加入正则项函数，通过调整正则项函数的惩罚系数让模型预测结果更符合业务需要。

本发明的第二方面提出了一种如上述第一方面所述的网络模型的使用方法，所述方法包括：

获取待预测对象在历史时间段的采样点数据；

将获取的采样点数据转换为样本集，并利用所述样本集对所述网络模型进行训练，所述样本集中的每一样本包括n个预设时间步长的采样点数据；

获取与待预测时间点最接近的n个采样点数据并输入训练好的网络模型，以使所述网络模型预测输出所述待预测时间点之后m个预设时间步长的数据。

基于上述第二方面所述的网络模型的使用方法，具有以下有益效果：

对于时序预测的网络模型训练时所使用的训练数据来源于待预测对象的历史采样数据，使用训练好的网络模型对待预测对象的未来数据进行预测时，输入又是待预测对象近期实时的采样数据，这样可以对待预测对象未来的数据实现精准预测。

本发明的第三方面提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述第二方面所述方法的步骤。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为LSTM单元的结构示意图；

图2为本发明根据一示例性实施例示出的一种时序预测的网络模型结构示意图；

图3为本发明根据一示例性实施例示出的一种ReLU激活函数与tanh激活函数对模型训练错误率下降过程的花费时间对比示意图；

图4为本发明根据一示例性实施例示出的一种网络模型的使用方法的实施例流程图；

图5为本发明示出的一种人群流量预测流程示意图；

图6为本发明根据一示例性实施例示出的一种电子设备的硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以预测人群流量场景为例，对现有技术方案中采用的基于时间序列法和基于LSTM方法的缺陷分析如下：

基于时间序列法的预测模型是根据人群流量序列，通过平稳性处理、建立数据间线性关系和参数估计来完成模型训练，随后预测未来一段时间的人群流量序列。存在的问题有：第一，时序数据经过平稳性处理后要满足平稳性要求，一般平稳性处理是通过差分(公式1)来实现，平稳性检测通过ADF(Augmented Dickey-Fuller，增广迪基-福勒检验)检测来完成，但是在不同时段的人群流量序列，其差分的阶数会发生较大变化，从而导致模型的预测性能出现较大的波动。第二，时间序列法学习的是时序数据之间的线性关系，而人群流量序列存在大量的非线性特征，从而导致模型的预测精度较差。

基于LSTM的预测模型是通过将历史人群流量序列转变为样本集，其中的每一样本含有n个时间步长的采样数据，然后将样本集按比例分割为训练样本集和测试样本集，利用训练样本集对模型进行训练，用测试样本集对模型进行过拟合判断。由于基于LSTM的预测模型1个样本输入只能预测未来1个采样点的人群流量(1个时间步长)，如果需要预测未来多个采样点的人群流量时，需要循环地将预测出的数据作为模型的输入来进行预测。存在的问题：第一，循环预测方式可能会由于前面预测偏差导致后面的预测出现更大的偏差。第二，其损失函数一般采用MSE或MAE(公式2)。由于MSE对误差取了平方，训练时如果数据中存在异常点，就会导致MSE的值很大，进而通过反向传播传递给模型参数较大的梯度，最终影响到模型的收敛；而采用MAE作为损失函数，虽然可降低数据中异常点的影响，但是其收敛速度慢，容易对模型造成不必要的震荡。

参见图1所示，LSTM神经网络的结构由遗忘门、输入门、输出门三部分组成，遗忘门负责输入信息的取舍，输入门负责新信息的加入，输出门负责输出信息的过滤，三者彼此相互协同工作。LSTM是循环神经网络(RNN，Recurrent Neural Network)的变体，能够改善普通RNN梯度消失和梯度爆炸的问题，在时间序列处理方面具有较好的表现。

为解决上述技术问题，本申请提出一种改进的时序预测的网络模型，参见图2所示，该网络模型包括编码器和解码器，编码器包括n个预设时间步长的输入x1～xn，解码器包括m个预设时间步长的输出y1～ym；编码器包括至少一个第一LSTM单元LSTM1，解码器包括至少一个第二LSTM单元LSTM2和输出转换层(图2中编码器和解码器均示出的是1个LSTM)。

其中，编码器用于通过LSTM1将长度为n的输入序列编码为一组向量；解码器用于通过LSTM2和输出转换层将所述向量解码为长度为m的输出序列输出。

针对编码器的编码原理：n个预设时间步长的输入序列x1～xn依次输入编码器中的LSTM1，输入x1时，LSTM1基于初始状态h0和x1可得到新的隐藏层状态h1，输入x2时，LSTM1基于隐藏层状态h1和x2可得到新的隐藏层状态h2，以此类推，直至输入xn时，LSTM1可得到隐藏层状态hn，并输出该隐藏层状态hn，即固定长度的向量c，该向量c编码了所有输入序列x1～xn的信息；

针对解码器的解码原理：LSTM2接收到向量c后，LSTM2基于初始状态h0’和向量c可得到新的隐藏层状态h1’输出给输出转换层，输出转换层根据h1’输出y1，LSTM2再基于隐藏层状态h1’、向量c和前一个输出y1可得到新的隐藏层状态h2’输出给输出转换层，输出转换层根据h2’输出y2，以此类推，直至输出转换层输出m个序列时停止。

其中，LSTM2通过公式3对向量c进行解码，得到m个输出序列h1’～hm’：

h_t＝f(h_t-1,y_t-1,c) 公式3

其中，h_t表示t时刻LSTM2的隐藏层状态，y_t-1表示t-1时刻输出转换层的输出值，f[]表示LSTM计算。

输出转换层的函数公式为y_t＝g(h_t)。

需要说明的是，编码器和解码器中的LSTM单元的个数可以相同，也可以不相同，并且编码器和解码器中的多个LSTM单元的关系为级联关系，即第一个LSTM接收输入得到一个隐藏层状态后传递给下一个LSTM，以此类推，直至最后一个LSTM得到的隐藏层状态作为该输入对应的最终状态。

需要进一步说明的是，在训练网络模型过程中，网络模型的损失函数为公式4，第一项为Log-cosh函数，第二项为用于修正预测值均值的正则项函数：

l＝log(cosh(y^p-y))+C·R(y^p,y) 公式4

其中，y^p为解码器输出的维度为m的预测向量，即y1～ym，y为训练样本标注的维度为m的实际值向量，C为正则项函数的惩罚系数，正则项函数公式5如下：

对于该正则项函数，如果y^p<y，则其惩罚力度与|y^p-y|和惩罚系数C的值成正比，因此说明该正则项函数能够起到调整网络模型预测结果的作用。

以人群流量预测场景为例，预测目标是预测的人群流量应该尽量高于实际的人群流量，这样可以在一定程度上降低人群流量告警漏报率，假设预测模型对随机3个地点从2016年1月到2019年6月的人群流量数据进行训练，然后对2019年7月到2019年12月的人群流量进行预测，评估指标为预测值比实际值少的比例，惩罚系数C分别取0.2、0.06和0.02，评估结果如表1所示，预测值比实际值少的比例随惩罚系数C的增大而降低。

地点	0.2	0.06	0.02
				A路段	26.23％	31.15％	36.07％
B路段	28.42％	29.51％	37.70％
				C路段	28.70％	33.45％	40.98％

表1

由此可见，惩罚系数C的选取可以起到调整模型预测结果的作用，在训练模型时，需要根据实验对比多个取值进行选取。

基于上述描述的网络模型构成，本申请通过采用基于seq2seq架构的编码器和解码器的网络结构，使得输入序列和输出序列的长度不同，可以预测未来一段时间的数据，进而克服循环预测中的误差传递问题，能够更好的学习数据之间的时序关系。并通过调整损失函数，即使用Log-Cosh函数消除异常点数据对模型训练的影响，让模型的预测性能更具有鲁棒性，并加入正则项函数，通过调整惩罚系数让模型预测结果更符合业务需要。

在一实施例中，为了提升模型的训练效率，通过将解码器中的LSTM2的激活函数由传统的tanh激活函数更换为ReLU激活函数，在进行反向传播时能更好的传递梯度，加快模型训练的收敛速度。

经过实验测试，ReLU激活函数在反向传播过程中减轻了梯度弥散的问题，神经网络前几层的参数可以很快得到更新，参见图3所示，是在4层卷积神经网络中，模型的训练错误率从75％降低到25％所花费的时间对比，采用ReLU激活函数(图3中实线所示)比采用tanh激活函数(图3中虚线所示)快了6倍多。

在进一步实施例中，对于采用基于seq2seq架构的编码器和解码器的网络结构来学习序列，如果不对ReLU激活函数进行最大值限制，则训练时会出现输出爆炸，经实验测试，在训练到第2个epoch时就会出现输出爆炸，因此为了防止模型训练出现输出爆炸的问题，可以对输出进行最大值限制，ReLU激活函数公式6如下：

其中，x为输入编码器的维度为n的输入向量，max和α为预设常量。

需要说明的是，为了提高网络模型的预测准确度，对于网络模型的n和m的大小关系，需要n>m，其中n和m均为大于1的正整数。

举例说明，上述图2所示的网络模型可以用于预测某一地点单方向的未来时间的人群流量，也可以用于预测银行某自动柜员机未来时间的交易金额。

下面以具体实施例说明上述图2所示的网络模型的使用方法进行详细说明。

图4为本发明根据一示例性实施例示出的一种网络模型的使用方法的实施例流程图，该使用方法可以应用在电子设备上，如图4所示，该使用方法包括如下步骤：

步骤301：获取待预测对象在历史时间段的采样点数据。

在一实施例中，可以获取在历史时间段内已采集的待预测对象的采样点数据，由于机器故障，在采样过程中会出现记录缺失的情况，因此需要对获取的采样点数据中的缺失数据进行填补，得到连续的预设时间步长的采样点数据，再对连续的预设时间步长的采样点数据中的每一采样点数据进行归一化处理。其中，采样点数据的采样间隔为预设时间步长。

需要说明的是，针对缺失数据填补的过程，通常待预测对象的数据会呈现一定的周期性，因此可以通过获取缺失数据对应的同时期已采集的采样点数据，并将同时期已采集的采样点数据的均值作为填补值进行填补。

例如，待预测对象是某地点的人群流量，假设历史时间段为2020年5月30日至6月15日的采样点数据，其中缺少2020年6月4日的数据，可以利用其它月份中4号的采样点数据的均值进行填补。

进一步地，在进行归一化时，为了突出预测值越大其危险性越大的特性，归一化处理公式7如下：

其中，x和x′分别为归一化前的采样点数据和归一化后的采样点数据，x_min和x_max分别为所述连续的预设时间步长的采样点数据中的最小值和最大值。

步骤302：将获取的采样点数据转换为样本集，并利用样本集对网络模型进行训练。

其中，由于网络模型的输入为n个预设时间步长，因此在生成样本集时，可以利用n个预设时间步长大小的滑动窗进行转换，从而得到的样本集中的每一样本包括n个预设时间步长的采样点数据。

利用样本集对网络模型进行训练过程中，采用的损失函数即为上述公式4和公式5所示的公式。

步骤303：获取与待预测时间点最接近的n个采样点数据并输入训练好的网络模型，以使网络模型预测输出待预测时间点之后m个预设时间步长的数据。

需要说明的是，为了保证网络模型的预测准确性，在人群流量预测场景中，待预测对象要具体到某个地点某个方向的人群流量；在自动柜员机现金调度场景中，待预测对象要具体到银行某个机器编号的自动柜员机的交易金额。

以人群流量预测场景为例，要预测的对象是路段A向北方向上午8点以后60分钟内的人群流量，时间步长为10分钟，那么输出序列长度m＝6，参见图5所示的人群流量预测流程图，先从历史人群流量数据中查询某一历史时间段内路段A向北方向的历史人群流量数据，并对查询到的历史人群流量数据进行处理后，生成样本集，并利用样本集训练网络模型，其中，路段A向北方向的人群流量数据的采样时间间隔为10分钟，然后获取与上午8点最接近的在路段A向北方向采集的n＝20个实时人群流量数据输入训练好的网络模型，使得网络模型输出路段A向北方向上午8:00以后60分钟内的未来人群流量数据，如表2所示。

时间	8:10	8:20	8:30	8:40	8:50	9:00
							流量	35.3	28.2	26.3	20.8	21.5	23.6

表2

以自动柜员机交易金额预测场景为例，要预测的对象是某一机器编号的自动取款机(机器类型为ATM)未来7天的取款交易序列，时间步长为1天，那么输出序列长度m＝7，先利用该机器每天的历史取款交易金额数据训练网络模块，然后获取与当前时间最接近的20天该机器的取款交易金额数据输入训练好的网络模型，使得网络模型输出该机器在未来7天的取款交易金额数据，如表3所示。

表3

假设该机器目前的备付金量为9万元，由于(9-10.21)<0，因此需要告警，提示用户次日会出现备付金不足的情况。

对于存取款机一体的机器类型(机器类型为CRS)，未来的交易金额预测可以将取款和存款分开用两个模型进行预测，不再赘述。

至此，完成上述图4所示的使用流程，对于时序预测的网络模型训练时所使用的训练数据来源于待预测对象的历史采样数据，使用训练好的网络模型对待预测对象的未来数据进行预测时，输入又是待预测对象近期实时的采样数据，这样可以对待预测对象未来的数据实现精准预测。

图6为本发明根据一示例性实施例示出的一种电子设备的硬件结构图，该电子设备包括：通信接口401、处理器402、机器可读存储介质403和总线404；其中，通信接口401、处理器402和机器可读存储介质403通过总线404完成相互间的通信。处理器402通过读取并执行机器可读存储介质403中与网络模型的使用方法的控制逻辑对应的机器可执行指令，可执行上文描述的网络模型的使用方法，该方法的具体内容参见上述实施例，此处不再累述。

本发明中提到的机器可读存储介质403可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，机器可读存储介质403可以是RAM(Radom Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于预测未来人群流量的网络系统，其特征在于，包括：编码器和解码器，所述编码器包括至少一个第一长短期记忆网络LSTM单元，所述解码器包括至少一个第二LSTM单元和输出转换层；

所述编码器，用于接收在历史时间采集的预设地点预设方向上的n个预设时间步长的历史人群流量数据后，通过至少一个第一LSTM单元将长度为n的历史人群流量数据编码为一组向量；

所述解码器，用于通过至少一个第二LSTM单元和输出转换层将所述向量解码为长度为m的输出序列输出，所述输出序列为预设地点预设方向上在未来m个预设时间步长的预测人群流量数据；

所述网络系统的损失函数包括双曲余弦Log-cosh函数和正则项函数；

其中，所述损失函数公式如下：

l＝log(cosh(y^p-y))+C·R(y^p,y)

其中，log(cosh(y^p-y))为Log-cosh函数，y^p为所述解码器输出的维度为m向量，y为训练样本标注的维度为m的实际值向量；C·R(y^p,y)为正则项函数，C为惩罚系数，

2.根据权利要求1所述的网络系统，其特征在于，所述第二LSTM单元的激活函数为线性整流ReLU函数；

所述ReLU函数公式如下：

其中，x为输入所述编码器的维度为n的输入向量，max和α为预设常量。

3.一种人群流量预测方法，其特征在于，所述方法包括：

获取历史时间段内预设地点预设方向的历史人群流量数据作为采样点数据；

将获取的采样点数据转换为样本集，并利用所述样本集对如上述权利要求1～2任一项所述网络系统进行训练，所述样本集中的每一样本包括n个预设时间步长的采样点数据；

获取与待预测时间点最接近的n个采样点数据并输入训练好的网络系统，以使所述网络系统预测输出所述待预测时间点之后m个预设时间步长的数据作为未来人群流量数据。

4.根据权利要求3所述的方法，其特征在于，获取历史时间段内预设地点预设方向的历史人群流量数据作为采样点数据，包括：

获取在历史时间段内已采集的预设地点预设方向上的历史人群流量数据作为采样点数据，所述采样点数据的采样间隔为预设时间步长；

对获取的采样点数据中的缺失数据进行填补，得到连续的预设时间步长的采样点数据；

对所述连续的预设时间步长的采样点数据中的每一采样点数据进行归一化处理。

5.根据权利要求4所述的方法，其特征在于，所述归一化处理公式如下：

6.根据权利要求4所述的方法，其特征在于，对获取的采样点数据中的缺失数据进行填补，包括：

获取所述缺失数据对应的同时期已采集的采样点数据；

将所述同时期已采集的采样点数据的均值作为填补值进行填补。

7.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求3-6任一项所述方法的步骤。