CN111353620A

CN111353620A - 构建网点件量预测模型的方法、装置、设备及存储介质

Info

Publication number: CN111353620A
Application number: CN201811563990.4A
Authority: CN
Inventors: 化文文; 王本玉; 湛长兰; 许胜�; 苏德嘉; 金晶
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2020-06-30

Abstract

本申请公开了一种构建网点件量预测模型的方法、装置、设备及存储介质，该方法包括：获取网点历史件量的数据，其中，所述网点历史件量的数据包括所述网点历史件量的数量和时间序列；根据所述网点历史件量的时间序列得到所述网点用于训练的历史件量数据和用于测试的件量数据；基于所述用于训练的历史件量数据建立多个训练集和/或验证集；通过所述多个训练集和/或验证集对初始Seq2seq模型进行优化以得到所述网点件量预测模型。本技术方案增加计算效率；在解码阶段，重新初始化训练参数，能够避免预测误差积累。

Description

构建网点件量预测模型的方法、装置、设备及存储介质

技术领域

本发明一般涉及物流技术领域，具体涉及构建网点件量预测模型的方法、装置、设备及存储介质。

背景技术

随着社会发展及网络的便捷性，网络购物成为大众消费的重要方式，近年来物流行业高速发展，同时各物流公司对本行业的资源投入也日益增长。越来越多的物流公司对快递件量预测的精准度要求越来越高。

现今的件量预测方面，传统的预测方法主要包含回归模型(AR)，移动平均模型(MA)，自回归移动平均模型(ARIMA)等，这些方法在件量预测时依赖前一期的预测值，预测误差的累积将会导致长期预测不准确。神经网络预测方法包括循环神经网络(RNN)，长短期记忆网络(LSTM)，但是此类神经网络较为复杂，循环连接的网络结构使得隐含层网络层次增加时，训练的参数急剧增加，计算耗时，并且经典的RNN结构要求输入和输出序列必须等长，应用场景也比较有限。

因此，如何快速准确的对网点进行件量预测是亟待解决的问题。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种准确的、简单的、计算速度快的网点件量预测方法。

第一方面，本申请实施例提供了一种构建网点件量预测模型的方法，所述方法步骤如下:

获取网点历史件量的数据，其中，所述网点历史件量的数据包括所述网点历史件量的数量和时间序列；

根据所述网点历史件量的时间序列得到所述网点用于训练的历史件量数据和用于测试的件量数据；

基于所述用于训练的历史件量数据建立多个训练集和/或验证集；

通过所述多个训练集和/或验证集对初始Seq2seq模型进行优化以得到所述网点件量预测模型。

可选的，所述获取网点历史件量的数据之前，包括:

选择网点业务区的件量样本数量；

根据所述样本确定历史数据时间序列范围；

确定所述历史数据时间序列对应的预测时间范围。

可选的，所述获取网点历史件量的数据之后，包括:

将获取的网点历史件量的数据的缺失值进行填补，检测每条流向序列的异常数据并进行相应的替换。

可选的，所述基于所述用于训练的历史件量数据建立多个训练集和/或验证集，包括：

采取不同时间序列划分方式对每条样本的网点历史件量数据进行划分，针对每条时间序列得到相应的预测模型。

可选的，所述的构建网点件量预测模型的方法，还包括：所述初始Seq2seq模型中使用Wavenet网络。

可选的，该方法还包括：

根据所述预测结果分别对所述预测模型进行训练和优化。

另一方面，本申请实施例提供了一种构建网点件量预测模型的装置，所述装置包括：

获取模块，用于获取网点历史件量的数据，其中，所述网点历史件量的数据包括所述网点历史件量的数量和时间序列；

分类模块，用于根据所述网点历史件量的时间序列得到所述网点用于训练的历史件量数据和用于测试的件量数据；

训练模块，用于基于所述用于训练的历史件量数据建立多个训练集和/或验证集；

预测模块，用于通过所述多个训练集和/或验证集对初始Seq2seq 模型进行优化以得到所述网点件量预测模型。

可选的，所述训练模块进一步用于：

可选的，所述预测模块的初始Seq2seq模型中使用Wavenet网络。

第三方面，本申请实施例提供了一种设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过对所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行任一项所述的方法。

第四方面，本申请实施例提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使得所述计算机执行任一项所述的方法。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明的实施例提供的一种构建网点件量预测模型的方法的流程示意图；

图2为本发明的实施例提供的一种构建网点件量预测模型的装置的结构框图；

图3为示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

如背景技术中提到的，现有技术中在件量预测方面，传统的预测方法包括回归模型(AR)，移动平均模型(MA)，自回归移动平均模型(ARIMA)等，这些方法在件量预测时依赖前一期的预测值，预测误差的累计将会导致长期预测不准确，神经网络预测方面包括循环神经网络(RNN)，长短期记忆网络(LSTM)等等，但该类神经网络结构复杂，循环连接的网络结构使得隐含层网络层数增加时，需要训练的参数急剧增加，计算非常耗时，并且经典的RNN结构需要输入和输出序列必须等长，应用场景也比较有限。本文引入seq2seq模型，它实现了从一个序列到另外一个序列的转换，并且与经典RNN结构相反，seq2seq模型不再限制输入与输出序列等长。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括：

步骤11，获取网点历史件量的数据，其中，网点历史件量的数据包括网点历史件量的数量和时间序列。

本申请实施例中，获取网点件量流向的历史数据，考虑到60+业务区，可以选择业务区到业务区之间共有3600+条序列范围，确定历史数据的时间序列范围，例如选择2016.07.01≤t≤2018.09.10；确定预测时间范围，例如每条序列预测外推61天数据，例如2018.19.11≤t_pre≤2018.11.11；例如可以选择010Y-734Y，或者010Y-752Y，或者010Y-755Y，以及010Y-769Y，或者010Y-797Y，时间选择为 2016/7/1，2016/7/2，2016/7/3，2018/9/10等等，提取每条业务流向每日的件量数据，此处不再进行深入的阐述。xxxY表述业务区代码， xxxY-xxxY表示一条快件的业务流向，以010Y-734Y为例：表示从业务区010Y发往业务区734Y的件量数据。

步骤12，根据网点历史件量的时间序列得到网点用于训练的历史件量数据和用于测试的件量数据。

本申请实施例中，根据获取的网点历史件量的时间序列，选择用于进行模型训练的各网点的历史件量的数据，和用于测试的件量数据。

步骤13，基于用于训练的历史件量数据建立多个训练集和/或验证集。

本申请实施例中，将步骤12中的数据选择样本容量，例如 N＝3600+，一般时间序列预测模型数据集划分，对所有样本采取相同的时间划分方式，例如可以使用对全部样本均使用20170101-20170910 之间的数据作为训练集或验证集，使用20180101后的数据作为测试集。在本模型中，对所有样本采取不同的时间划分方式，即针对每一条时间序列样本采取不同截取的方式获取训练集或验证集，例如可以使用20160101之后的数据做测试集。

步骤14，通过所述多个训练集和/或验证集对初始Seq2seq模型进行优化以得到所述网点件量预测模型。

本申请实施例中，例如在模型训练和验证阶段选择2016-07-01至 2018-07-11之间的数据，随机抽取全部样本的96％用作模型训练，剩余5％用作模型验证。记x_i为第i条序列的原始数据，记m为日期 2017-07-11至2018-07-11之间的随机数，则训练集(验证集)中第i条序列的历史数据x_{i new}和预测数据y_{i new}构成如下：

x_{i new}＝[x_i[20160701：m]，0]_1×740；

y_{i new}＝x_i[m+1：m+61]_1×61；

进一步的，在模型测试阶段可以选择2016-07-01至2018-09-10之间的数据作为历史数据，预测2018-09-11至2018-11-11之间的数据，测试集中x_i的历史数据x_{i new}和预测数据y_{i new}构成如下：

x_{i new}＝x_i[20160701：20180910]_1×801；

y_{i new}＝[](待预测)；

本申请实施例构建新的预测模型，一般时间序列预测模型包括平均自回归模型，prophet模型，树模型(xgboost)，循环神经网络，以及卷积神经网络等，本模型是基于seq2seq的模型框架，在编码阶段和解码阶段进行网络结构的改变。

可选的，获取网点历史件量的数据之前，包括:

步骤111：选择网点业务区的件量样本数量。

步骤112：根据样本确定历史数据时间序列范围。

步骤113：确定历史数据时间序列对应的预测时间范围。

具体的，网点历史件量时间序列的数据长度由网点运营的时间决定，在历史件量时间序列数据中，最常用的是以天作为时间间隔的件量数据(以星期、月份、季度等作为时间间隔的件量数据可以由以天作为时间间隔的件量数据得到)，即每天的收件量(或发件量)是多少件，所以，新增网点与现有网点的区别可以由网点的运营天数确定，运营天数小于由件量预测模型进行预测所限定的数据长度(以天作为时间间隔，例如90天)的网点被定义为新增网点，运营天数不小于由件量预测进行预测所限定的数据长度的网点被定义为现有网点。确定现有网点和新增网点业务区件量样本数量。

因为每个网点的历史件量的时间序列长度往往不统一，因此采取每条时间序列选择对应的预测时间范围。同时，及时历史件量时间序列的长度统一，不同时间的变化也有所不用，不同时间的数据之间(如 6月和11月之间，夏季和秋季之间，前年春季和今年春季之间的等等)。

可选的，获取网点历史件量的数据之后，包括：

将获取的网点历史件量的数据的缺失值进行填补，采用统计学方法检测每条流向序列的异常数据并进行相应的替换。

具体的，由于空值数据会使建模过程造成不可靠的输出，所以对上述历史数据中的缺失值选择使用前七天的均值填补：

采用统计上的3σ原则检测每条流向序列的异常数据，并对异常数据进行替换，具体替换方式如缺失值处理。

可选的，基于用于训练的历史件量数据建立多个训练集和/或验证集，包括:

具体的，每一条时间序列就可以得到相应的一个预测模型，因此划分时间序列的方式不同，预测模型也存在差异。

可选的，预测模型中初始Seq2seq模型中使用Wavenet网络。

具体的，seq2seq模型是简单的翻译模型，把一个语言序列翻译成另一种语言序列，整个处理过程是通过使用深度神经网络(LSTM) 或者RNN(递归神经网络)将一个序列作为输入影射为另外一个输出序列。encoder-decoder模型虽然非常经典，但是局限性也非常大。最大的局限性就在于编码和解码之间的唯一联系就是一个固定长度的语义向量C，也就是说编码器要将整个序列的信息压缩进一个固定长度的向量中去。大部分情况下，使用Seq2Seq模型是基于RNN构成的，虽然取得了不错的效果，但也有一些学者发现使用CNN(神经网络模型)来替代Seq2Seq中的encoder或decoder可以达到更好的效果。

Wavenet对每个预测的分布都基于前面的样本分布。在TTS的应用中，能达到好的效果，听觉感受上优于其余系统。同时系统还可以生成音乐，进行识别。Wavenet模型是一种序列生成模型，可以用于语音生成建模。在语音合成的声学模型建模中，Wavenet可以直接学习到采样值序列的映射，因此具有很好的合成效果。目前wavenet在语音合成声学模型建模，vocoder方面都有应用，在语音合成领域有很大的潜力。

Wavenet模型主要成分是这种卷积网络，每个卷积层都对前一层进行卷积，卷积核越大，层数越多，时域上的感知能力越强，感知范围越大。在生成过程中，每生成一个点，把该点放到输入层最后一个点继续迭代生成即可。由于语音的采样率高，时域上对感知范围要求大，采用了Dilated convolutions这种模型。Dilated convolutions加入了dilation这个概念，根据dilation大小选择连接的节点，比如dilation＝1 的时候，第二层只会使用第t，t-2，t-4......。

传统的预测模型在编码器和解码器处使用循环神经网络，但是这种网络结构使得模型需要训练的参数骤增，模型训练速度降低。本模型在Seq2seq框架下，编码器和解码器中使用wavenet网络，该网络避免循环连接，减少训练参数，提高训练速度。除此之外编码器解码器的使用能够避免长期预测时误差积累，与原来的循环神经网络相比， wavenet网络的计算速度明显降低，预测误差也明显降低。

在训练模型时输入编码器的数据x_i由所有时间序列第i天的历史数据构成，在本申请实施例中Seq2seq模型中每一个Wavenet网络均是 24层的网络结构，卷积扩大因子分别为1，2，4，8，16，32，64，128， 256，1，2，4，8，16，32，64，128，256，1，2，4，8，16，32，64， 128，256。

将seq2seq模型与wavenet网络结构进行组合，传统的移动自平均预测模型在长期时间序列预测时很容易造成误差积累，而seq2seq中编码器解码器的使用能够避免长期预测时误差积累；其次，传统的 seq2seq模型中使用的是循环神经网络，网络结构复杂，参数较多，训练时间较长，而本文使用的wavenet网络能够大大降低网络参数，提升训练速度；最后基于seq2seq和wavenet组合的件量预测模型可以明显降低预测误差。

可选的，构建网点件量预测模型的方法，还包括：

根据预测结果分别对所述预测模型进行训练和优化。

具体的，在训练模型时解码器输出的y₁...y_m分别为61天的预测数据y_hat，与真实数据y对比，计算预测误差：

seq2seq模型以预测误差和L2正则项之和作为损失函数(目标函数)，即：

loss＝smape+L2_norm

使用自适应时刻估计方法(Adaptive Moment Estimation)优化模型参数，最终得到一个较优的seq2seq模型。例如模型测试时，使用训练阶段的得到的模型，例如输入所有序列在2016-07-01至 2018-09-10之间的数据，那么输出即为2018-09-11至2018-11-11之间的预测数据。

另一方面，本申请实施例示出一种构建网点件量预测模型的装置的结构框图。

请参考图2，该构建网点件量预测模型的装置20包括：

获取模块21，用于获取网点历史件量的数据，其中，网点历史件量的数据包括网点历史件量的数量和时间序列；

分类模块22，用于根据网点历史件量的时间序列得到网点用于训练的历史件量数据和用于测试的件量数据；

训练模块23，用于基于用于训练的历史件量数据建立多个训练集和/或验证集；

预测模块24，用于通过多个训练集和/或验证集对初始Seq2seq模型进行优化以得到网点件量预测模型。

可选的，训练模块23进一步用于：

可选的，预测模块中初始Seq2seq模型中使用Wavenet网络。

应当理解，上述装置中记载的诸单元或模块与参考图1描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于上述装置及其中包含的单元，在此不再赘述。

下面参考图3，其示出了适用于用来实现本申请实施例的服务器的计算机系统的结构示意图。

如图3所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608 加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM602以及RAM603通过总线604彼此相连。输入/ 输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口 605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，上述计算机程序包含用于执行图1的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。

作为另外一方面，本申请还提供一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存在有一个或者一个以上程序，前述程度被一个或者一个以上的处理器用来执行描述于本申请的无人机航线预警的方案。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于) 具有类似功能的技术特征进行互相替换而形成的技术方案

通过以上描述可知：本领域技术人员可以清楚地了解到本申请必须借助硬件后台方式来实现。基于此理解，本申请的技术方案本质上可以说对现有技术做出贡献的部分借助计算机的开发程序形式体现出来，包括若干指令使得一台计算机设备(个人计算，服务器，或者网络设备等)执行本申请实施例的某些部分所述方法。

Claims

1.一种构建网点件量预测模型的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的构建网点件量预测模型的方法，其特征在于，所述获取网点历史件量的数据之前，包括:

选择网点业务区的件量样本数量；

根据所述样本确定历史数据时间序列范围；

确定所述历史数据时间序列对应的预测时间范围。

3.根据权利要求2所述的构建网点件量预测模型的方法，其特征在于，所述获取网点历史件量的数据之后，包括：

4.根据权利要求3所述的构建网点件量预测模型的方法，其特征在于，所述基于所述用于训练的历史件量数据建立多个训练集和/或验证集，包括：

5.根据权利要求1所述的构建网点件量预测模型的方法，其特征在于，所述初始Seq2seq模型中使用Wavenet网络。

6.根据权利要求1所述的构建网点件量预测模型的方法，其特征在于，还包括：

根据所述预测结果分别对所述预测模型进行训练和优化。

7.一种构建网点件量预测模型的装置，其特征在于，包括：

预测模块，用于通过所述多个训练集和/或验证集对初始Seq2seq模型进行优化以得到所述网点件量预测模型。

8.根据权利要求7所述的构建网点件量预测模型的装置，其特征在于，所述训练模块进一步用于：

9.根据权利要求7所述的构建网点件量预测模型的装置，其特征在于，所述预测模块中初始Seq2seq模型中使用Wavenet网络。

10.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行1-6任一项所述的方法。

11.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使得所述计算机执行如权利要求1-6任一项所述的方法。