CN114186711A

CN114186711A - 一种基于多任务时序学习的工业原料消耗量预测方法

Info

Publication number: CN114186711A
Application number: CN202111258599.5A
Authority: CN
Inventors: 余建兴; 林妙培; 王世祺; 印鉴
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-03-15

Abstract

本发明提供一种基于多任务时序学习的工业原料消耗量预测方法，该方法首先获取所有原料的历史消耗量时间序列集合作为模型的输入，并对原始单时序集合进行聚类，进一步将原料分为具正相关或负相关关系的不同组，作为预测模型的先验约束。然后，本专利基于多任务学习思想，构建预测远期和近期未来发展趋势的辅助任务，基于神经网络的预测模型针对所有任务充分提取时间序列的空间和时间维度特征，在此过程中共享不同任务之间学习到的数据特征，以帮助主任务融合更多的时序信息，并基于组合模型思想结合自回归模型预测各种原料在未来一段时间内的消耗量。

Description

一种基于多任务时序学习的工业原料消耗量预测方法

技术领域

本发明涉及时序预测领域，更具体地，涉及一种基于多任务时序学习的工业原料消耗量预测方法。

背景技术

在实际的工业生产中，由于原料消耗量预测不准确，生产中可能出现库存过剩或原料不足的情况，为了保障生产的正常进行，企业通常会超量备货，但这会引起成本的增加。准确的原料需求预测能够为企业确定采购计划和制定生产计划，进而为管理原料库存提供科学有效的决策支持，实现了合适的库存来节省企业成本。因此，对工业生产原料未来一段时间的消耗量预测具有十分重要的经济价值。然而，由于受到机器状态、产品市场需求、供应链效率等各种内外因素的影响，原料的消耗量往往存在很大的无规则波动性。这给消耗量预测的任务带来巨大的挑战。

传统方法一般把原料消耗量视为单一的时间序列，如时间序列分析方法、灰色预测方法以及统计学习方法，它们会根据消耗量的前后时间依赖关系进行预测。这种方法把时序的波动看成是一种线性或者非线性的拟合问题，用时间相关的影响因子来刻画单个波动的特征。然而，原料的消耗量并不是一个孤立体，而是多种类型原料消耗量的聚合统计值。不同类型原料消耗量之间存在相互影响。传统方法忽略了捕捉多个时序之间的特征以及关联关系，导致预测准确度不高。以羽绒服工厂为例，羽绒服的原料分为主料和辅料，不同原料之间的相关性主要体现在两方面，一方面，扣件、缝纫线、拉链、弹力松紧绳、魔术贴等辅料的消耗量随着主料羽绒和涂层织物消耗量的增减而同步增减；另一方面，涂层织物一般可以为丝绸、棉布、棉涤等材料，一般一种羽绒服中只需要其中一种作为涂层织物，因此三者的消耗量存在此消彼长的变化趋势。由于忽略不同类型原料消耗量之间的关联性，也缺乏有效的机制来捕捉关联规律，传统方法的预测性能通常不如人意。

针对现有预测方法存在的问题，本专利提出一种基于多任务时序学习的原料消耗量预测的新方法，把原料消耗量预测看成是一个多元时序预测问题。将原料消耗的时序数据分解为多个内部变量紧密相关的时间序列，通过协同地预测多个相关的任务来提升原料消耗整体预测的准确率；利用卷积网络捕捉每个任务的时序特征，并提出了一种新的自增强机制来精细地捕捉任务之间的相关特征。通过多任务学习，该模型能够利用紧密相关的时间序列的互补信息，有效地提高预测准确度。本专利可应用于工业中原材料消耗量的预测，从而帮助企业合理控制库存，满足生产的及时供应，节省生产成本，具有极大的应用价值。

据调研，目前没有直接进行原料消耗量预测的相关方法。针对时序预测这一课题，传统方法可以归纳为以下三类。

第一类方法为移动平均、指数平滑等传统的时间序列分析方法，它的前提是假定事物的过去延续到未来，对时序数据进行统计分析，总结历史数据的发展趋势，进而预测未来的发展。譬如，移动平均法用特定长度数据的均值作为预测结果。这类方法难以处理非线性的拟合。由于工业原料消耗量是一个多个时序的聚合量，会受到多种因素的影响，具有比较复杂的非线性关系；因此，这类方法不适合本任务。

第二类方法为灰色预测方法，灰色预测模型适用于样本极少的情况，通过对原始数据进行处理生成有较强规律性的数据序列，然后建立相应的微分方程，从而预测时间序列未来的发展趋势。该模型适用于预测呈指数增长的序列，只能描述单调递增或单调递减的变化过程，而对于变化过程较多的时序数据，灰色预测的预测准确度则不高。在工业信息化的背景下，原料消耗量的时序数据变化过程比较复杂，非简单的单调递增或单调递减序列，灰色预测模型无法精准地进行描述；

第三类方法为回归模型、最小二乘支持向量机等传统机器学习方法，这类方法需要通过人工构造预测特征，如选择时序数据中当前时间点前一周消耗量的最大值、最小值及其差值等特征，然后利用统计模型预测消耗量。这类方法依赖于大量的特征工程，人力成本很高，不适合跨领域部署。

由于原料消耗量数据是一种时序数据，因此可以将原料消耗量预测视为一个时序预测问题，考虑采用上述传统方法进行预测。然而，上述各类方法一般把原料消耗量视为单一的时间序列，根据消耗量的前后时间依赖关系进行预测。由于忽略不同类型原料消耗量之间的关联性，也缺乏有效的机制来捕捉其关联规律，传统方法的预测精度通常不如人意，无法满足工业上对原料消耗量预测的高精度、低成本需求。据调研，目前缺乏有效的方法来准确预测原料消耗量。为了有效解决上述方法的不足，本专利提出了一种多元时序预测的方法，考虑多个原料消耗量的相互影响，基于多任务时序学习来预测工业原料消耗量。它将原料消耗的时序数据分解为多个时间序列，进而构建多个相关的预测任务，融合时间序列远近期的发展趋势，捕捉时序数据多个波动之间的特征以及关联关系；采用神经网络构建预测模型，自动提取数据的有效特征，学习数据特征的能力更加优越，从而提高未来消耗量预测的准确度，节省工业生产的成本。

发明内容

本发明提供一种较为精确的基于多任务时序学习的工业原料消耗量预测方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于多任务时序学习的工业原料消耗量预测方法，包括以下步骤：

S1：对原料的历史消耗量时间单序列进行聚类得到多元时间序列集；

S2：对步骤S1得到的多元时间序列集构建对应的预测任务；

S3：针对步骤S2得到的预测任务进行工业原料消耗量预测得到最终的工业原料消耗量预测值。

进一步地，所述步骤S1中，对于给定的原料消耗量单时间序列集γ＝{Y₁,Y₂,...,Y_w}，其中Y_j(j∈{1,2,...,w})表示第j种原材料收集频率为天的历史消耗量时间序列，w为原料种类的总数目；对于该时间序列集，一种原料的时间序列作为一个样本，由m个点组成，表示为Y_j＝(Y_j1,Y_j2,...,Y_jm)，首先采用基于DTW距离的KMeans聚类，得到k个类内相似度高的时间序列集合{C₁,C₂,...,C_k}，每个类内的时间序列将被进一步处理为一个多元时间序列，得到多元时间序列集{χ₁,χ₂,...,χ_k}；对于每个多元时间序列χ＝{X_t-p+1,...,X_t}，其中

且n为变量的维度，即该多元时间序列的原料种类数目，预测未来某一确定时刻的序列值，即预测X_t+h，其中h≥1为当前时间的预测视野，也即当前时间未来的预测窗口大小。

进一步地，所述步骤S1中，得到多元时间序列集的过程是：

1)、采用“手肘法”确定聚类数目k值：输入时间序列集γ＝{Y₁,Y₂,...,Y_w}和k值集合，输出不同k值与样本间DTW距离平均值的关系折线图，该图呈现“手肘型”，肘部对应的k值则为最优的聚类数目；

2)、构建K-Means聚类模型：对于输入数据集γ，随机选取k个样本作为初始聚类中心；对于集合中其他样本，分别计算每个样本Y_i与每个聚类中心Y_j的DTW距离D(Y_i,Y_j)并分配剩余的样本到DTW距离最小的聚类中心所在的簇中；分配完成后，计算每个簇中的样本均值即质心，若m_j是簇C_j中的样本个数，则簇C_j的质心由下列公式计算：

将质心作为每个簇新的聚类中心；迭代以上步骤，直至到达迭代次数上限或者前后两次迭代得到的簇是相同的，得到每个样本所属的簇类别；

3)、生成多元时间序列集：对于形成的k个聚类，将每个类中每个时间序列样本作为一个变量，组成一个多元即多变量时间序列，最终形成一个具有k个样本的多元时间序列集{χ₁,χ₂,...,χ_k}。

进一步地，所述步骤S2中，对于每个多元时间序列χ＝{X_t-p+1,...,X_t}，其中

且n为变量的维度，即该多元时间序列的原料种类数目，预测未来某一确定时刻的序列值，即预测X_t+h，其中h≥1为当前时间的预测视野，也即当前时间的预测窗口大小；

为了构建多任务学习框架，定义了两个参数f_sp和f_sd，0pf_sp·f_sdph，其中前者称为未来跨度，表示在预测点之前和之后分别构建辅助任务的个数；后者称为未来跨步，表示每个任务预测未来的间隔时刻数，以预测t+h时刻的序列值为主任务的同时，构建预测：

{t+h-(f_sp·f_sd),...,t+h-f_sd,t+h+f_sd,...,t+h+(f_sp·f_sd)}时刻的序列值作为辅助任务以协助主任务的训练。

进一步地，所述步骤S2中，

当f_sp＝2，f_sd＝1时，假设{X_t-p+1,...,X_t}满足条件，将并行预测{X_t+h-2,X_t+h-1,X_t+h,X_t+h+1,X_t+h+2}的值，在这5个任务中，预测X_t+h为主任务，预测X_t+h-2和X_t+h-1考虑了时间序列距当前时间点较近的未来的发展趋势，预测X_t+h-1，X_t+h-2考虑了时间序列距当前时间点较远的未来的发展趋势，通过多任务训练框架，辅助任务将学习到的远近期的原料消耗量未来趋势信息共享给主任务，从而充分挖掘时间序列隐含的信息，更准确地发现数据的模式。

进一步地，所述步骤S3中，首先利用卷积网络模块提取时序数据的特征，将得到的特征作为循环神经网络模块的输入，循环神经网络模块以两个LSTM分别针对主任务和辅助任务进行时序数据时间维度特征的提取，并与自回归模块组合预测消耗量。

进一步地，所述步骤S3中，对于预测任务

C_t+h-1＝f₂(C_t+h-2)、C_t+h＝f₃(C_t+h-1)、C_t+h+1＝f₄(C_t+h)和C_t+h+2＝f₅(C_t+h+1)，

其中

是给定的多元时间序列矩阵，n是变量的数量，p是时间点的数量：

是带有m个卷积核的二维卷积层，二维卷积层对输入数据作卷积运算，它能够提取输入数据的特征，输出特征图；f_i+1比f_i更深，即f_i+1以f_i输出的特征图作为输入，在此基础上进一步提取特征，能够得到更抽象和复杂的特征；

是提取出的分别用于预测X_t+h-2,...,X_t+h+2任务的特征，通过这5个解释特征，从空间角度多层次地表征输入数据

这些特征将被输入到循环神经网络模块为后续每个预测任务提供不同的特征；

同时，为了防止深度神经网络的过拟合和梯度消失问题，还采用了优化操作随机失活，在训练过程中，随机选取隐含层的一些权重和输出置零，这相当于实现神经网络的正则化，降低了其结构风险；

CNN里的每个卷积核都是

其中n是多元时间序列中变量的数量，也就是说，卷积核的高度设置为多元时间序列的变量数目，第k个滤波器输入矩阵X并且生成：

c_k＝Act(W_k*X+b_k)

其中*表示卷积操作，c_k为输出向量，b_k为偏置，Act为激活函数，是神经网络实现非线性建模能力的关键所在，本模块选用：

作为激活函数，该函数是最常用的激活函数ReLU的一个变体，相比于Sigmoid和tanh，该函数只需要简单的判断和计算，效率更高，同时，当输入值为负时，它会将输入值乘以一个非零值，从而解决了ReLU函数可能输出为0的问题，为了保持输出与输入维度相同，通过对输入矩阵X进行零填充使得c_k之后的长度为p。

进一步地，所述步骤S3中，从不同层次的卷积神经网络提取的消耗量时间序列特征C_t+h-2,...,C_t+h+2将被逐个被用于循环神经网络模块的进一步学习中，以获取消耗量时间序列的长期相关性，循环神经网络模块由两个LSTM组成，分别为共享LSTM和目标LSTM，形成编码器-解码器架构，共享LSTM编码出融合特征序列，目标LSTM预测输出序列；

共享LSTM以卷积神经网络提取的时间序列的特征作为输入，完成所有预测任务的学习，通过共享权重和偏置对不同任务之间的相互作用进行建模，为每个预测任务产生输入数据的融合特征，对于第k次特征提取，在时间τ上的循环单元的隐藏状态计算如下：

其中：k∈{t+h-2,t+h-1,...,t+h+2}，1≤τ≤p；

和

共同实现τ时刻神经元输入门的作用，

和

分别表示τ时刻神经元的遗忘门和输出门，σ表示sigmoid函数，W和b分别表示当前LSTM的权重矩阵和偏置矩阵；

表示输入到τ时刻神经元的从卷积神经网络提取的消耗量时间序列特征，

表示τ-1时刻神经元的最终隐藏状态；

表示提取的特征C_k的第τ行，

表示τ时刻神经元的最终输出的隐藏状态，且⊙表示元素级别的点乘；

默认初始隐藏状态

和初始单元状态

设置为0，共享LSTM通过在所有预测任务中共享权重和偏置，融合了远期和近期的消耗量的未来趋势信息，在训练完成之后，这些融合信息被存储在共享的变量中，以将学到的关于数据的知识共享到目标LSTM中；在测试阶段，这些融合信息将为每个预测任务产生输入数据的融合特征

目标LSTM的任务是根据针对主任务从卷积神经网络提取的消耗量时间序列特征C_t+h和来自共享LSTM输出的对于主任务的特征序列

和

预测主任务的输出序列

也就是说，目标LSTM仅针对主任务设计，具体地，输出序列的计算如下：

其中TargetLSTM即目标LSTM，它具有与共享LSTM相同的结构，但是初始隐藏状态和单元状态分别设置为

和

为了让主任务和辅助任务的输出维度相同，使用一个密集层对齐共享LSTM和目标LSTM的输出，得到神经网络模型对于每个任务的预测结果：

其中k∈{t+h-2,t+h-1,...,t+h+2}，

为神经网络模型在X_k上的预测结果，

和

为密集层的权重和偏置。

进一步地，所述步骤S3中，自回归模型利用历史若干时刻点的值的线性组合来预测未来某时刻该变量的情况，能够很好地建模数据的线性部分，具体地，通过下列公式计算出自回归的预测值：

其中，s^a∈N表示回归步长，也就是以过去s^a个时点的值来预测当前值，

和

分别表示

和

的第i个元素，

和

为AR模型的权重向量和偏置向量。

进一步地，所述步骤S3中，神经网络循环神经网络模块和自回归模块对各个任务的预测值，得到所有任务的最终预测结果，具体地，将神经网络的输出

和自回归模型的输出

相加，得到每个任务最终的预测结果：

其中k∈{t+h-2,t+h-1,...,t+h+2}，

为模型对多元时间序列X_k上的最终预测值，

是5个预测任务的最终预测值矩阵。

与现有技术相比，本发明技术方案的有益效果是：

1、相比于现有把消耗量数据看成是单一的时间序列的传统方法，本方法将多种类型原料消耗量看作一个聚合统计值，考虑了不同原料消耗量之间的关联性，有效丰富了预测模型的约束，提升模型性能；譬如，生产羽绒服时，扣件、缝纫线、拉链、弹力松紧绳、魔术贴等辅料的消耗量随着主料羽绒和涂层织物消耗量的增减而同步增减，辅料与主料的发展趋势是具有相关性的，本方法能够利用这种相关性，更精准地预测原料消耗量；

2、本方法基于多任务学习的思想，构建相关的辅助预测任务，在预测模型中将辅助任务学习到的数据特征共享到主任务，从而融合时间序列远近期未来发展趋势信息，增加主任务预测模型的约束，以帮助主任务的预测，提升消耗量预测的准确性；

3、本方法基于组合预测思想，采用神经网络捕捉时序数据的非线性模式，同时采用空洞卷积网络和循环神经网络深度挖掘时序数据的空间和时间维度的特征，并结合传统的自回归模型捕捉时序数据的线性模式，提升模型对数据的解释能力。

附图说明

图1为本发明方法流程框图；

图2为本发明中消耗量预测流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，本专利提供一种基于多任务时序学习的工业原料消耗量预测方法，该方法包括以下步骤：

(1)任务的形式化定义

对于给定的原料消耗量单时间序列集γ＝{Y₁,Y₂,...,Y_w}，其中Y_j(j∈{1,2,...,w})表示第j种原材料收集频率为天的历史消耗量时间序列，w为原料种类的总数目。对于该时间序列集，一种原料的时间序列作为一个样本，由m个点组成，表示为Y_j＝(Y_j1,Y_j2,...,Y_jm)，首先采用基于DTW(Dynamic Time Warping，动态时间规整)距离的KMeans聚类(KMeans是一种经典的聚类方法)，得到k个类内相似度高的时间序列集合{C₁,C₂,...,C_k}，每个类内的时间序列将被进一步处理为一个多元时间序列，得到多元时间序列集{χ₁,χ₂,...,χ_k}。对于每个多元时间序列χ＝{X_t-p+1,...,X_t}，其中

且n为变量的维度，即该多元时间序列的原料种类数目，该模型的目的是要预测未来某一确定时刻的序列值，即预测X_t+h，其中h≥1为当前时间的预测视野，也即当前时间未来的预测窗口大小。实际应用时，h的值可以根据需求设置，譬如，当预测未来7天内每种原料每天的消耗量，则将h设置为7。

(2)单元101：原材料聚类

工业中，一种产品的生产通常涉及多种原料，某些原料的消耗量之间可能存在着相互影响。本专利方法考虑了不同原料消耗量的这种相关性，将多种相关原料的历史消耗量作为多元时间序列的变量，用以预测这些原料未来一段时间的消耗量。对于给定的一定长度的原料消耗量时间序列集合，本单元将时序集合进行聚类，分为正相关和负相关的不同组，作为预测模型的先验约束，从而帮助模型更快速更准确地求解未知参数值，提升模型的预测性能。

为了将具有正负不同相关性的原料分开，聚类单元以给定的原料消耗量单时间序列集γ＝{Y₁,Y₂,...,Y_W}作为输入，其中Y_j(j∈{1,2,...,w})表示第j种原材料收集频率为天的历史消耗量时间序列，w为原料种类的总数目，通过K-Means聚类找到一组簇集合C＝{C₁,C₂,...,C_k}，使得簇内的样本尽可能相似，簇间的样本尽可能不相似。K-Means聚类(K-Means是一种经典的聚类方法)通过迭代的过程，把样本集中的样本点，基于特定距离公式计算得到的距离，划分为k个类别，其中k为人为设定的超参数。本专利采用DTW距离作为两个样本点的距离，DTW可用于衡量两个时间序列之间的相似度，属于弹性差异度量方法的一种，其主要思想是根据动态规划原理进行时间序列的“扭曲”，从而把时间序列进行必要的“错位”对齐，计算出最合适的距离。具体来说，通过以下三个步骤进行聚类并生成多元时间序列集：

采用“手肘法”确定聚类数目k值：输入时间序列集γ＝{Y₁,Y₂,...Y_W}和k值集合，输出不同k值与样本间DTW距离平均值的关系折线图，该图一般呈现“手肘型”，肘部对应的k值则为最优的聚类数目。

构建K-Means聚类模型：对于输入数据集γ，随机选取k个样本作为初始聚类中心；对于集合中其他样本，分别计算每个样本Y_i与每个聚类中心Y_j的DTW距离D(Y_i,Y_j)并分配剩余的样本到DTW距离最小的聚类中心所在的簇中；分配完成后，计算每个簇中的样本均值(即质心)，若m_j是簇C_j中的样本个数，则簇C_j的质心由下列公式计算：

将质心作为每个簇新的聚类中心；迭代以上步骤，直至到达迭代次数上限或者前后两次迭代得到的簇是相同的，得到每个样本所属的簇类别。

生成多元时间序列集：对于形成的k个聚类，将每个类中每个时间序列样本作为一个变量，组成一个多元(即多变量)时间序列，最终形成一个具有k个样本的多元时间序列集{χ₁,χ₂,...,χ_k}。

(3)单元102：多任务构建

对于单元101得到的多元时间序列集中每个多元时间序列的预测任务，本单元基于多任务学习的思想，在原预测任务的基础上，构建多个相关的预测任务，譬如，原预测任务为预测未来7天的消耗量，则构建相关的任务预测未来5、6、8、9天的消耗量，这些任务之所以相关，是因为时序数据的发展具有延续性，相邻时间点的数据存在相关关系，通过在相关任务中共享学习到的输入数据的特征，达到融合远期和近期时间序列发展趋势信息的目的。

具体地，对于每个多元时间序列χ＝{X_t-p+1,...,X_t}，其中

且n为变量的维度，即该多元时间序列的原料种类数目，该模型的目的是要预测未来某一确定时刻的序列值，即预测X_t+h，其中h≥1为当前时间的预测视野，也即当前时间的预测窗口大小。

为了构建多任务学习框架，本模型定义了两个参数f_sp和f_sd，0πf_sp·f_sdπh，其中前者称为未来跨度，表示在预测点之前和之后分别构建辅助任务的个数；后者称为未来跨步，表示每个任务预测未来的间隔时刻数。模型以预测t+h时刻的序列值为主任务的同时，构建预测{t+h-(f_sp·f_sd),...,t+h-f_sd,t+h+f_sd,...,t+h+(f_sp·f_sd)}时刻的序列值作为辅助任务以协助主任务的训练。例如，当f_sp＝2，f_sd＝1时，假设{X_t-p+1,...,X_t}满足条件，则模型将并行预测{X_t+h-2,X_t+h-1,X_t+h,X_t+h+1,X_t+h+2}的值。在这5个任务中，预测X_t+h为主任务，预测X_t+h-2和X_t+h-1考虑了时间序列距当前时间点较近的未来的发展趋势，预测X_t+h+1，X_t+h+2考虑了时间序列距当前时间点较远的未来的发展趋势，通过多任务训练框架，辅助任务将学习到的远近期的原料消耗量未来趋势信息共享给主任务，从而使模型充分挖掘时间序列隐含的信息，更准确地发现数据的模式。

(4)单元103：消耗量预测

消耗量预测单元首先利用卷积网络模块尽可能多地提取时序数据的空间特征，将学习到的特征作为循环神经网络模块的输入，循环神经网络模块以两个LSTM分别针对主任务和辅助任务进行时序数据时间维度特征的提取，并与自回归模块组合预测消耗量，提升模型的学习和预测能力。本单元由卷积网络模块、循环神经网络模块以及自回归模块组成，其整体流程如图2所示。下文将详细阐述各模块内部结构。

1)模块201：卷积网络模块

本模块使用多层的空洞卷积网络学习变量之间的局部依赖关系，从空间维度提取不同位置的特征。CNN(Convolutional Neural Networks,卷积神经网络)用特征值映射一定范围的输入数据，具有提取特征、表征数据的能力。空洞卷积(Dilated Convolutions)也称扩张卷积，它与传统的卷积不同之处在于引入了一个用于定义卷积核处理数据时各值间距的新参数，称为“扩张率(dilation rate)”，其效果是，通过跳过特定步长，将卷积核应用于更大的区域，也就是说，每个特征值能够映射更大的数据范围。

具体来说，采用多层的空洞卷积网络，一方面，不同层的卷积网络从输入数据中提取不同抽象程度的特征，越深的网络层会生成更抽象的信息，并为后续每个预测任务提供不同的特征；另一方面，相比于普通的CNN采用损失信息的池化操作，空洞卷积能够通过扩张率，增大卷积核处理数据时值的间距而指数级地加大感受野(感受野是指网络特征图上的特征值所映射的输入数据的范围，也即所提取的每个特征点所获取的输入数据上的信息范围)，使得卷积操作能够捕获更远的历史消耗量信息。在实际应用中，卷积网络的层数可以根据需求设定。对于上述5个预测任务，卷积网络模块分别创建了5个不同的解释特征，以用于后续的学习。

C_t+h-1＝f₂(C_t+h-2)

C_t+h＝f₃(C_t+h-1)

C_t+h+1＝f₄(C_t+h)

C_t+h+2＝f₅(C_t+h+1)

其中：

是给定的多元时间序列矩阵，n是变量的数量，p是时间点的数量。

是带有m个卷积核的二维卷积层，二维卷积层对输入数据作卷积运算，它能够提取输入数据的特征，输出特征图(一个二维数组)。f_i+1比f_i更深，即f_i+1以f_i输出的特征图作为输入，在此基础上进一步提取特征，能够得到更抽象和复杂的特征。

是提取出的分别用于预测X_t+h-2,...,X_t+h+2任务的特征。通过这5个解释特征，能从空间角度多层次地表征输入数据

这些特征将被输入到循环神经网络模块为后续每个预测任务提供不同的特征。

同时，为了防止深度神经网络的过拟合和梯度消失问题，还采用了优化操作随机失活(dropout)，在训练过程中，随机选取隐含层的一些权重和输出置零，这相当于实现神经网络的正则化，降低了其结构风险。

CNN里的每个卷积核都是

其中n是多元时间序列中变量的数量，也就是说，卷积核的高度设置为多元时间序列的变量数目。第k个滤波器输入矩阵X并且生成

c_k＝Act(W_k*X+b_k)

其中*表示卷积操作，c_k为输出向量，b_k为偏置。Act为激活函数，是神经网络实现非线性建模能力的关键所在，本模块选用

作为激活函数，该函数是最常用的激活函数ReLU的一个变体，相比于Sigmoid和tanh，该函数只需要简单的判断和计算，效率更高。同时，当输入值为负时，它会将输入值乘以一个非零值，从而解决了ReLU函数可能输出为0的问题。为了保持输出与输入维度相同，通过对输入矩阵X进行零填充使得c_k之后的长度为p。

2)模块202：循环神经网络模块

从不同层次的卷积神经网络提取的消耗量时间序列特征C_t+h-2,...,C_t+h+2将被逐个被用于循环神经网络模块的进一步学习中，以获取消耗量时间序列的长期相关性。循环神经网络模块由两个LSTM(Long Short-Term Memory，长短期记忆神经网络)组成，分别为共享LSTM和目标LSTM，形成编码器-解码器架构，共享LSTM编码出融合特征序列，目标LSTM预测输出序列。

LSTM能够有效捕捉序列数据的长期依赖关系，根据依赖关系对输入的序列数据进行重新编码，输出包含丰富相关信息的编码向量。LSTM对标准RNN的神经元结构进行改进，增加了三个门结构来控制保护和控制神经元状态，解决了梯度消失问题。LSTM的神经元首先通过遗忘门决定要从上一神经元所转移的细胞状态中遗忘什么信息，下一步是通过输入门决定从上一神经元传递过来的哪些信息输入到当前神经元，最后通过输出门决定当前神经元的哪些信息将被输出到下一神经元。本专利中设置LSTM遗忘门、输入门和输出门的激活函数为

隐藏层状态输出的激活函数则为

部分1：共享LSTM

共享LSTM以卷积神经网络提取的时间序列的特征作为输入，完成所有预测任务的学习，通过共享权重和偏置对不同任务之间的相互作用进行建模，为每个预测任务产生输入数据的融合特征。对于第k次特征提取，在时间τ上的循环单元的隐藏状态计算如下：

其中：k∈{t+h-2,t+h-1,...,t+h+2}，1≤τ≤p；

和

共同实现τ时刻神经元输入门的作用，

和

表示τ-1时刻神经元的最终隐藏状态；

表示提取的特征C_k的第τ行，

表示τ时刻神经元的最终输出的隐藏状态，且⊙表示元素级别的点乘。

默认初始隐藏状态

和初始单元状态

设置为0。共享LSTM通过在所有预测任务中共享权重和偏置，融合了远期和近期的消耗量的未来趋势信息。在训练完成之后，这些融合信息被存储在共享的变量中，以将学到的关于数据的知识共享到目标LSTM中。在测试阶段，这些融合信息将为每个预测任务产生输入数据的融合特征

部分2：目标LSTM

和

预测主任务的输出序列

也就是说，目标LSTM仅针对主任务设计。具体地，输出序列的计算如下：

和

为了让主任务和辅助任务的输出维度相同，模型使用一个密集层对齐共享LSTM和目标LSTM的输出，得到神经网络模型对于每个任务的预测结果：

其中k∈{t+h-2,t+h-1,...,t+h+2}，

为神经网络模型在X_k上的预测结果，

和

为密集层的权重和偏置。

3)203模块：自回归模块

大量理论和实证结果都表明，组合预测方法时序预测任务上往往比纯方法的效果更好。实际工业应用中原料消耗量的时间序列通常是包含线性和非线性模式的，这种情况下，CNN和LSTM这种非线性模型可能无法很好地对其线性部分建模。为了解决该问题，采用组合模型分别针对时序数据的线性部分和非线性部分建模，线性模型采用AR模型(Autoregressive Model，自回归模型)。AR模型将变量自身作为回归变量，根据该变量过去的规律来预测该变量未来的变化。对于每一个预测任务，自回归模型利用历史若干时刻点的值的线性组合来预测未来某时刻该变量的情况，能够很好地建模数据的线性部分。具体地，通过下列公式计算出自回归的预测值：

其中，s^a∈N表示回归步长，也就是以过去s^a个时点的值来预测当前值。

和

分别表示

和

的第i个元素，

和

为AR模型的权重向量和偏置向量。

4)204模块：组合预测模块

该模块组合神经网络循环神经网络模块和自回归模块对各个任务的预测值，得到所有任务的最终预测结果。具体地，将神经网络的输出

和自回归模型的输出

相加，得到每个任务最终的预测结果：

其中k∈{t+h-2,t+h-1,...,t+h+2}，

为模型对多元时间序列X_k上的最终预测值。

是5个预测任务的最终预测值矩阵。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多任务时序学习的工业原料消耗量预测方法，其特征在于，包括以下步骤：

S2：对步骤S1得到的多元时间序列集构建对应的预测任务；

2.根据权利要求1所述的基于多任务时序学习的工业原料消耗量预测方法，其特征在于，所述步骤S1中，对于给定的原料消耗量单时间序列集γ＝{Y₁,Y₂,...,Y_w}，其中Y_j(j∈{1,2,...,w})表示第j种原材料收集频率为天的历史消耗量时间序列，w为原料种类的总数目；对于该时间序列集，一种原料的时间序列作为一个样本，由m个点组成，表示为Y_j＝(Y_j1,Y_j2,...,Y_jm)，首先采用基于DTW距离的KMeans聚类，得到k个类内相似度高的时间序列集合{C₁,C₂,...,C_k}，每个类内的时间序列将被进一步处理为一个多元时间序列，得到多元时间序列集{χ₁,χ₂,...,χ_k}；对于每个多元时间序列χ＝{X_t-p+1,...,X_t}，其中

3.根据权利要求2所述的基于多任务时序学习的工业原料消耗量预测方法，其特征在于，所述步骤S1中，得到多元时间序列集的过程是：

4.根据权利要求3所述的基于多任务时序学习的工业原料消耗量预测方法，其特征在于，所述步骤S2中，对于每个多元时间序列χ＝{X_t-p+1,...,X_t}，其中

为了构建多任务学习框架，定义了两个参数f_sp和f_sd，0p f_sp·f_sd p h，其中前者称为未来跨度，表示在预测点之前和之后分别构建辅助任务的个数；后者称为未来跨步，表示每个任务预测未来的间隔时刻数，以预测t+h时刻的序列值为主任务的同时，构建预测：

5.根据权利要求4所述的基于多任务时序学习的工业原料消耗量预测方法，其特征在于，所述步骤S2中，

6.根据权利要求5所述的基于多任务时序学习的工业原料消耗量预测方法，其特征在于，所述步骤S3中，首先利用卷积网络模块提取时序数据的特征，将得到的特征作为循环神经网络模块的输入，循环神经网络模块以两个LSTM分别针对主任务和辅助任务进行时序数据时间维度特征的提取，并与自回归模块组合预测消耗量。

7.根据权利要求6所述的基于多任务时序学习的工业原料消耗量预测方法，其特征在于，所述步骤S3中，对于预测任务

其中

CNN里的每个卷积核都是

c_k＝Act(W_k*X+b_k)

8.根据权利要求7所述的基于多任务时序学习的工业原料消耗量预测方法，其特征在于，所述步骤S3中，从不同层次的卷积神经网络提取的消耗量时间序列特征C_t+h-2,...,C_t+h+2将被逐个被用于循环神经网络模块的进一步学习中，以获取消耗量时间序列的长期相关性，循环神经网络模块由两个LSTM组成，分别为共享LSTM和目标LSTM，形成编码器-解码器架构，共享LSTM编码出融合特征序列，目标LSTM预测输出序列；