CN114186711A - 一种基于多任务时序学习的工业原料消耗量预测方法 - Google Patents

一种基于多任务时序学习的工业原料消耗量预测方法 Download PDF

Info

Publication number
CN114186711A
CN114186711A CN202111258599.5A CN202111258599A CN114186711A CN 114186711 A CN114186711 A CN 114186711A CN 202111258599 A CN202111258599 A CN 202111258599A CN 114186711 A CN114186711 A CN 114186711A
Authority
CN
China
Prior art keywords
time
prediction
task
consumption
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111258599.5A
Other languages
English (en)
Inventor
余建兴
林妙培
王世祺
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111258599.5A priority Critical patent/CN114186711A/zh
Publication of CN114186711A publication Critical patent/CN114186711A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • G06Q10/0875Itemisation or classification of parts, supplies or services, e.g. bill of materials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Manufacturing & Machinery (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于多任务时序学习的工业原料消耗量预测方法,该方法首先获取所有原料的历史消耗量时间序列集合作为模型的输入,并对原始单时序集合进行聚类,进一步将原料分为具正相关或负相关关系的不同组,作为预测模型的先验约束。然后,本专利基于多任务学习思想,构建预测远期和近期未来发展趋势的辅助任务,基于神经网络的预测模型针对所有任务充分提取时间序列的空间和时间维度特征,在此过程中共享不同任务之间学习到的数据特征,以帮助主任务融合更多的时序信息,并基于组合模型思想结合自回归模型预测各种原料在未来一段时间内的消耗量。

Description

一种基于多任务时序学习的工业原料消耗量预测方法
技术领域
本发明涉及时序预测领域,更具体地,涉及一种基于多任务时序学习的工业原料消耗量预测方法。
背景技术
在实际的工业生产中,由于原料消耗量预测不准确,生产中可能出现库存过剩或原料不足的情况,为了保障生产的正常进行,企业通常会超量备货,但这会引起成本的增加。准确的原料需求预测能够为企业确定采购计划和制定生产计划,进而为管理原料库存提供科学有效的决策支持,实现了合适的库存来节省企业成本。因此,对工业生产原料未来一段时间的消耗量预测具有十分重要的经济价值。然而,由于受到机器状态、产品市场需求、供应链效率等各种内外因素的影响,原料的消耗量往往存在很大的无规则波动性。这给消耗量预测的任务带来巨大的挑战。
传统方法一般把原料消耗量视为单一的时间序列,如时间序列分析方法、灰色预测方法以及统计学习方法,它们会根据消耗量的前后时间依赖关系进行预测。这种方法把时序的波动看成是一种线性或者非线性的拟合问题,用时间相关的影响因子来刻画单个波动的特征。然而,原料的消耗量并不是一个孤立体,而是多种类型原料消耗量的聚合统计值。不同类型原料消耗量之间存在相互影响。传统方法忽略了捕捉多个时序之间的特征以及关联关系,导致预测准确度不高。以羽绒服工厂为例,羽绒服的原料分为主料和辅料,不同原料之间的相关性主要体现在两方面,一方面,扣件、缝纫线、拉链、弹力松紧绳、魔术贴等辅料的消耗量随着主料羽绒和涂层织物消耗量的增减而同步增减;另一方面,涂层织物一般可以为丝绸、棉布、棉涤等材料,一般一种羽绒服中只需要其中一种作为涂层织物,因此三者的消耗量存在此消彼长的变化趋势。由于忽略不同类型原料消耗量之间的关联性,也缺乏有效的机制来捕捉关联规律,传统方法的预测性能通常不如人意。
针对现有预测方法存在的问题,本专利提出一种基于多任务时序学习的原料消耗量预测的新方法,把原料消耗量预测看成是一个多元时序预测问题。将原料消耗的时序数据分解为多个内部变量紧密相关的时间序列,通过协同地预测多个相关的任务来提升原料消耗整体预测的准确率;利用卷积网络捕捉每个任务的时序特征,并提出了一种新的自增强机制来精细地捕捉任务之间的相关特征。通过多任务学习,该模型能够利用紧密相关的时间序列的互补信息,有效地提高预测准确度。本专利可应用于工业中原材料消耗量的预测,从而帮助企业合理控制库存,满足生产的及时供应,节省生产成本,具有极大的应用价值。
据调研,目前没有直接进行原料消耗量预测的相关方法。针对时序预测这一课题,传统方法可以归纳为以下三类。
第一类方法为移动平均、指数平滑等传统的时间序列分析方法,它的前提是假定事物的过去延续到未来,对时序数据进行统计分析,总结历史数据的发展趋势,进而预测未来的发展。譬如,移动平均法用特定长度数据的均值作为预测结果。这类方法难以处理非线性的拟合。由于工业原料消耗量是一个多个时序的聚合量,会受到多种因素的影响,具有比较复杂的非线性关系;因此,这类方法不适合本任务。
第二类方法为灰色预测方法,灰色预测模型适用于样本极少的情况,通过对原始数据进行处理生成有较强规律性的数据序列,然后建立相应的微分方程,从而预测时间序列未来的发展趋势。该模型适用于预测呈指数增长的序列,只能描述单调递增或单调递减的变化过程,而对于变化过程较多的时序数据,灰色预测的预测准确度则不高。在工业信息化的背景下,原料消耗量的时序数据变化过程比较复杂,非简单的单调递增或单调递减序列,灰色预测模型无法精准地进行描述;
第三类方法为回归模型、最小二乘支持向量机等传统机器学习方法,这类方法需要通过人工构造预测特征,如选择时序数据中当前时间点前一周消耗量的最大值、最小值及其差值等特征,然后利用统计模型预测消耗量。这类方法依赖于大量的特征工程,人力成本很高,不适合跨领域部署。
由于原料消耗量数据是一种时序数据,因此可以将原料消耗量预测视为一个时序预测问题,考虑采用上述传统方法进行预测。然而,上述各类方法一般把原料消耗量视为单一的时间序列,根据消耗量的前后时间依赖关系进行预测。由于忽略不同类型原料消耗量之间的关联性,也缺乏有效的机制来捕捉其关联规律,传统方法的预测精度通常不如人意,无法满足工业上对原料消耗量预测的高精度、低成本需求。据调研,目前缺乏有效的方法来准确预测原料消耗量。为了有效解决上述方法的不足,本专利提出了一种多元时序预测的方法,考虑多个原料消耗量的相互影响,基于多任务时序学习来预测工业原料消耗量。它将原料消耗的时序数据分解为多个时间序列,进而构建多个相关的预测任务,融合时间序列远近期的发展趋势,捕捉时序数据多个波动之间的特征以及关联关系;采用神经网络构建预测模型,自动提取数据的有效特征,学习数据特征的能力更加优越,从而提高未来消耗量预测的准确度,节省工业生产的成本。
发明内容
本发明提供一种较为精确的基于多任务时序学习的工业原料消耗量预测方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于多任务时序学习的工业原料消耗量预测方法,包括以下步骤:
S1:对原料的历史消耗量时间单序列进行聚类得到多元时间序列集;
S2:对步骤S1得到的多元时间序列集构建对应的预测任务;
S3:针对步骤S2得到的预测任务进行工业原料消耗量预测得到最终的工业原料消耗量预测值。
进一步地,所述步骤S1中,对于给定的原料消耗量单时间序列集γ={Y1,Y2,...,Yw},其中Yj(j∈{1,2,...,w})表示第j种原材料收集频率为天的历史消耗量时间序列,w为原料种类的总数目;对于该时间序列集,一种原料的时间序列作为一个样本,由m个点组成,表示为Yj=(Yj1,Yj2,...,Yjm),首先采用基于DTW距离的KMeans聚类,得到k个类内相似度高的时间序列集合{C1,C2,...,Ck},每个类内的时间序列将被进一步处理为一个多元时间序列,得到多元时间序列集{χ12,...,χk};对于每个多元时间序列χ={Xt-p+1,...,Xt},其中
Figure BDA0003324794340000031
且n为变量的维度,即该多元时间序列的原料种类数目,预测未来某一确定时刻的序列值,即预测Xt+h,其中h≥1为当前时间的预测视野,也即当前时间未来的预测窗口大小。
进一步地,所述步骤S1中,得到多元时间序列集的过程是:
1)、采用“手肘法”确定聚类数目k值:输入时间序列集γ={Y1,Y2,...,Yw}和k值集合,输出不同k值与样本间DTW距离平均值的关系折线图,该图呈现“手肘型”,肘部对应的k值则为最优的聚类数目;
2)、构建K-Means聚类模型:对于输入数据集γ,随机选取k个样本作为初始聚类中心;对于集合中其他样本,分别计算每个样本Yi与每个聚类中心Yj的DTW距离D(Yi,Yj)并分配剩余的样本到DTW距离最小的聚类中心所在的簇中;分配完成后,计算每个簇中的样本均值即质心,若mj是簇Cj中的样本个数,则簇Cj的质心由下列公式计算:
Figure BDA0003324794340000041
将质心作为每个簇新的聚类中心;迭代以上步骤,直至到达迭代次数上限或者前后两次迭代得到的簇是相同的,得到每个样本所属的簇类别;
3)、生成多元时间序列集:对于形成的k个聚类,将每个类中每个时间序列样本作为一个变量,组成一个多元即多变量时间序列,最终形成一个具有k个样本的多元时间序列集{χ12,...,χk}。
进一步地,所述步骤S2中,对于每个多元时间序列χ={Xt-p+1,...,Xt},其中
Figure BDA0003324794340000042
且n为变量的维度,即该多元时间序列的原料种类数目,预测未来某一确定时刻的序列值,即预测Xt+h,其中h≥1为当前时间的预测视野,也即当前时间的预测窗口大小;
为了构建多任务学习框架,定义了两个参数fsp和fsd,0pfsp·fsdph,其中前者称为未来跨度,表示在预测点之前和之后分别构建辅助任务的个数;后者称为未来跨步,表示每个任务预测未来的间隔时刻数,以预测t+h时刻的序列值为主任务的同时,构建预测:
{t+h-(fsp·fsd),...,t+h-fsd,t+h+fsd,...,t+h+(fsp·fsd)}时刻的序列值作为辅助任务以协助主任务的训练。
进一步地,所述步骤S2中,
当fsp=2,fsd=1时,假设{Xt-p+1,...,Xt}满足条件,将并行预测{Xt+h-2,Xt+h-1,Xt+h,Xt+h+1,Xt+h+2}的值,在这5个任务中,预测Xt+h为主任务,预测Xt+h-2和Xt+h-1考虑了时间序列距当前时间点较近的未来的发展趋势,预测Xt+h-1,Xt+h-2考虑了时间序列距当前时间点较远的未来的发展趋势,通过多任务训练框架,辅助任务将学习到的远近期的原料消耗量未来趋势信息共享给主任务,从而充分挖掘时间序列隐含的信息,更准确地发现数据的模式。
进一步地,所述步骤S3中,首先利用卷积网络模块提取时序数据的特征,将得到的特征作为循环神经网络模块的输入,循环神经网络模块以两个LSTM分别针对主任务和辅助任务进行时序数据时间维度特征的提取,并与自回归模块组合预测消耗量。
进一步地,所述步骤S3中,对于预测任务
Figure BDA0003324794340000051
Ct+h-1=f2(Ct+h-2)、Ct+h=f3(Ct+h-1)、Ct+h+1=f4(Ct+h)和Ct+h+2=f5(Ct+h+1),
其中
Figure BDA0003324794340000052
是给定的多元时间序列矩阵,n是变量的数量,p是时间点的数量:
Figure BDA0003324794340000053
是带有m个卷积核的二维卷积层,二维卷积层对输入数据作卷积运算,它能够提取输入数据的特征,输出特征图;fi+1比fi更深,即fi+1以fi输出的特征图作为输入,在此基础上进一步提取特征,能够得到更抽象和复杂的特征;
Figure BDA0003324794340000054
是提取出的分别用于预测Xt+h-2,...,Xt+h+2任务的特征,通过这5个解释特征,从空间角度多层次地表征输入数据
Figure BDA0003324794340000055
这些特征将被输入到循环神经网络模块为后续每个预测任务提供不同的特征;
同时,为了防止深度神经网络的过拟合和梯度消失问题,还采用了优化操作随机失活,在训练过程中,随机选取隐含层的一些权重和输出置零,这相当于实现神经网络的正则化,降低了其结构风险;
CNN里的每个卷积核都是
Figure BDA0003324794340000056
其中n是多元时间序列中变量的数量,也就是说,卷积核的高度设置为多元时间序列的变量数目,第k个滤波器输入矩阵X并且生成:
ck=Act(Wk*X+bk)
其中*表示卷积操作,ck为输出向量,bk为偏置,Act为激活函数,是神经网络实现非线性建模能力的关键所在,本模块选用:
Figure BDA0003324794340000057
作为激活函数,该函数是最常用的激活函数ReLU的一个变体,相比于Sigmoid和tanh,该函数只需要简单的判断和计算,效率更高,同时,当输入值为负时,它会将输入值乘以一个非零值,从而解决了ReLU函数可能输出为0的问题,为了保持输出与输入维度相同,通过对输入矩阵X进行零填充使得ck之后的长度为p。
进一步地,所述步骤S3中,从不同层次的卷积神经网络提取的消耗量时间序列特征Ct+h-2,...,Ct+h+2将被逐个被用于循环神经网络模块的进一步学习中,以获取消耗量时间序列的长期相关性,循环神经网络模块由两个LSTM组成,分别为共享LSTM和目标LSTM,形成编码器-解码器架构,共享LSTM编码出融合特征序列,目标LSTM预测输出序列;
共享LSTM以卷积神经网络提取的时间序列的特征作为输入,完成所有预测任务的学习,通过共享权重和偏置对不同任务之间的相互作用进行建模,为每个预测任务产生输入数据的融合特征,对于第k次特征提取,在时间τ上的循环单元的隐藏状态计算如下:
Figure BDA0003324794340000061
Figure BDA0003324794340000062
Figure BDA0003324794340000063
Figure BDA0003324794340000064
Figure BDA0003324794340000065
Figure BDA0003324794340000066
其中:k∈{t+h-2,t+h-1,...,t+h+2},1≤τ≤p;
Figure BDA0003324794340000067
Figure BDA0003324794340000068
共同实现τ时刻神经元输入门的作用,
Figure BDA0003324794340000069
Figure BDA00033247943400000610
分别表示τ时刻神经元的遗忘门和输出门,σ表示sigmoid函数,W和b分别表示当前LSTM的权重矩阵和偏置矩阵;
Figure BDA00033247943400000611
表示输入到τ时刻神经元的从卷积神经网络提取的消耗量时间序列特征,
Figure BDA00033247943400000612
表示τ-1时刻神经元的最终隐藏状态;
Figure BDA00033247943400000613
表示提取的特征Ck的第τ行,
Figure BDA00033247943400000614
表示τ时刻神经元的最终输出的隐藏状态,且⊙表示元素级别的点乘;
默认初始隐藏状态
Figure BDA00033247943400000615
和初始单元状态
Figure BDA00033247943400000616
设置为0,共享LSTM通过在所有预测任务中共享权重和偏置,融合了远期和近期的消耗量的未来趋势信息,在训练完成之后,这些融合信息被存储在共享的变量中,以将学到的关于数据的知识共享到目标LSTM中;在测试阶段,这些融合信息将为每个预测任务产生输入数据的融合特征
Figure BDA00033247943400000617
目标LSTM的任务是根据针对主任务从卷积神经网络提取的消耗量时间序列特征Ct+h和来自共享LSTM输出的对于主任务的特征序列
Figure BDA00033247943400000618
Figure BDA00033247943400000619
预测主任务的输出序列
Figure BDA00033247943400000620
也就是说,目标LSTM仅针对主任务设计,具体地,输出序列的计算如下:
Figure BDA0003324794340000071
其中TargetLSTM即目标LSTM,它具有与共享LSTM相同的结构,但是初始隐藏状态和单元状态分别设置为
Figure BDA0003324794340000072
Figure BDA0003324794340000073
为了让主任务和辅助任务的输出维度相同,使用一个密集层对齐共享LSTM和目标LSTM的输出,得到神经网络模型对于每个任务的预测结果:
Figure BDA0003324794340000074
其中k∈{t+h-2,t+h-1,...,t+h+2},
Figure BDA0003324794340000075
为神经网络模型在Xk上的预测结果,
Figure BDA0003324794340000076
Figure BDA0003324794340000077
为密集层的权重和偏置。
进一步地,所述步骤S3中,自回归模型利用历史若干时刻点的值的线性组合来预测未来某时刻该变量的情况,能够很好地建模数据的线性部分,具体地,通过下列公式计算出自回归的预测值:
Figure BDA0003324794340000078
其中,sa∈N表示回归步长,也就是以过去sa个时点的值来预测当前值,
Figure BDA0003324794340000079
Figure BDA00033247943400000710
Figure BDA00033247943400000711
分别表示
Figure BDA00033247943400000712
Figure BDA00033247943400000713
的第i个元素,
Figure BDA00033247943400000714
Figure BDA00033247943400000715
为AR模型的权重向量和偏置向量。
进一步地,所述步骤S3中,神经网络循环神经网络模块和自回归模块对各个任务的预测值,得到所有任务的最终预测结果,具体地,将神经网络的输出
Figure BDA00033247943400000716
和自回归模型的输出
Figure BDA00033247943400000717
相加,得到每个任务最终的预测结果:
Figure BDA00033247943400000718
其中k∈{t+h-2,t+h-1,...,t+h+2},
Figure BDA00033247943400000719
为模型对多元时间序列Xk上的最终预测值,
Figure BDA00033247943400000720
是5个预测任务的最终预测值矩阵。
与现有技术相比,本发明技术方案的有益效果是:
1、相比于现有把消耗量数据看成是单一的时间序列的传统方法,本方法将多种类型原料消耗量看作一个聚合统计值,考虑了不同原料消耗量之间的关联性,有效丰富了预测模型的约束,提升模型性能;譬如,生产羽绒服时,扣件、缝纫线、拉链、弹力松紧绳、魔术贴等辅料的消耗量随着主料羽绒和涂层织物消耗量的增减而同步增减,辅料与主料的发展趋势是具有相关性的,本方法能够利用这种相关性,更精准地预测原料消耗量;
2、本方法基于多任务学习的思想,构建相关的辅助预测任务,在预测模型中将辅助任务学习到的数据特征共享到主任务,从而融合时间序列远近期未来发展趋势信息,增加主任务预测模型的约束,以帮助主任务的预测,提升消耗量预测的准确性;
3、本方法基于组合预测思想,采用神经网络捕捉时序数据的非线性模式,同时采用空洞卷积网络和循环神经网络深度挖掘时序数据的空间和时间维度的特征,并结合传统的自回归模型捕捉时序数据的线性模式,提升模型对数据的解释能力。
附图说明
图1为本发明方法流程框图;
图2为本发明中消耗量预测流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,本专利提供一种基于多任务时序学习的工业原料消耗量预测方法,该方法包括以下步骤:
(1)任务的形式化定义
对于给定的原料消耗量单时间序列集γ={Y1,Y2,...,Yw},其中Yj(j∈{1,2,...,w})表示第j种原材料收集频率为天的历史消耗量时间序列,w为原料种类的总数目。对于该时间序列集,一种原料的时间序列作为一个样本,由m个点组成,表示为Yj=(Yj1,Yj2,...,Yjm),首先采用基于DTW(Dynamic Time Warping,动态时间规整)距离的KMeans聚类(KMeans是一种经典的聚类方法),得到k个类内相似度高的时间序列集合{C1,C2,...,Ck},每个类内的时间序列将被进一步处理为一个多元时间序列,得到多元时间序列集{χ12,...,χk}。对于每个多元时间序列χ={Xt-p+1,...,Xt},其中
Figure BDA0003324794340000091
且n为变量的维度,即该多元时间序列的原料种类数目,该模型的目的是要预测未来某一确定时刻的序列值,即预测Xt+h,其中h≥1为当前时间的预测视野,也即当前时间未来的预测窗口大小。实际应用时,h的值可以根据需求设置,譬如,当预测未来7天内每种原料每天的消耗量,则将h设置为7。
(2)单元101:原材料聚类
工业中,一种产品的生产通常涉及多种原料,某些原料的消耗量之间可能存在着相互影响。本专利方法考虑了不同原料消耗量的这种相关性,将多种相关原料的历史消耗量作为多元时间序列的变量,用以预测这些原料未来一段时间的消耗量。对于给定的一定长度的原料消耗量时间序列集合,本单元将时序集合进行聚类,分为正相关和负相关的不同组,作为预测模型的先验约束,从而帮助模型更快速更准确地求解未知参数值,提升模型的预测性能。
为了将具有正负不同相关性的原料分开,聚类单元以给定的原料消耗量单时间序列集γ={Y1,Y2,...,YW}作为输入,其中Yj(j∈{1,2,...,w})表示第j种原材料收集频率为天的历史消耗量时间序列,w为原料种类的总数目,通过K-Means聚类找到一组簇集合C={C1,C2,...,Ck},使得簇内的样本尽可能相似,簇间的样本尽可能不相似。K-Means聚类(K-Means是一种经典的聚类方法)通过迭代的过程,把样本集中的样本点,基于特定距离公式计算得到的距离,划分为k个类别,其中k为人为设定的超参数。本专利采用DTW距离作为两个样本点的距离,DTW可用于衡量两个时间序列之间的相似度,属于弹性差异度量方法的一种,其主要思想是根据动态规划原理进行时间序列的“扭曲”,从而把时间序列进行必要的“错位”对齐,计算出最合适的距离。具体来说,通过以下三个步骤进行聚类并生成多元时间序列集:
采用“手肘法”确定聚类数目k值:输入时间序列集γ={Y1,Y2,...YW}和k值集合,输出不同k值与样本间DTW距离平均值的关系折线图,该图一般呈现“手肘型”,肘部对应的k值则为最优的聚类数目。
构建K-Means聚类模型:对于输入数据集γ,随机选取k个样本作为初始聚类中心;对于集合中其他样本,分别计算每个样本Yi与每个聚类中心Yj的DTW距离D(Yi,Yj)并分配剩余的样本到DTW距离最小的聚类中心所在的簇中;分配完成后,计算每个簇中的样本均值(即质心),若mj是簇Cj中的样本个数,则簇Cj的质心由下列公式计算:
Figure BDA0003324794340000101
将质心作为每个簇新的聚类中心;迭代以上步骤,直至到达迭代次数上限或者前后两次迭代得到的簇是相同的,得到每个样本所属的簇类别。
生成多元时间序列集:对于形成的k个聚类,将每个类中每个时间序列样本作为一个变量,组成一个多元(即多变量)时间序列,最终形成一个具有k个样本的多元时间序列集{χ12,...,χk}。
(3)单元102:多任务构建
对于单元101得到的多元时间序列集中每个多元时间序列的预测任务,本单元基于多任务学习的思想,在原预测任务的基础上,构建多个相关的预测任务,譬如,原预测任务为预测未来7天的消耗量,则构建相关的任务预测未来5、6、8、9天的消耗量,这些任务之所以相关,是因为时序数据的发展具有延续性,相邻时间点的数据存在相关关系,通过在相关任务中共享学习到的输入数据的特征,达到融合远期和近期时间序列发展趋势信息的目的。
具体地,对于每个多元时间序列χ={Xt-p+1,...,Xt},其中
Figure BDA0003324794340000102
且n为变量的维度,即该多元时间序列的原料种类数目,该模型的目的是要预测未来某一确定时刻的序列值,即预测Xt+h,其中h≥1为当前时间的预测视野,也即当前时间的预测窗口大小。
为了构建多任务学习框架,本模型定义了两个参数fsp和fsd,0πfsp·fsdπh,其中前者称为未来跨度,表示在预测点之前和之后分别构建辅助任务的个数;后者称为未来跨步,表示每个任务预测未来的间隔时刻数。模型以预测t+h时刻的序列值为主任务的同时,构建预测{t+h-(fsp·fsd),...,t+h-fsd,t+h+fsd,...,t+h+(fsp·fsd)}时刻的序列值作为辅助任务以协助主任务的训练。例如,当fsp=2,fsd=1时,假设{Xt-p+1,...,Xt}满足条件,则模型将并行预测{Xt+h-2,Xt+h-1,Xt+h,Xt+h+1,Xt+h+2}的值。在这5个任务中,预测Xt+h为主任务,预测Xt+h-2和Xt+h-1考虑了时间序列距当前时间点较近的未来的发展趋势,预测Xt+h+1,Xt+h+2考虑了时间序列距当前时间点较远的未来的发展趋势,通过多任务训练框架,辅助任务将学习到的远近期的原料消耗量未来趋势信息共享给主任务,从而使模型充分挖掘时间序列隐含的信息,更准确地发现数据的模式。
(4)单元103:消耗量预测
消耗量预测单元首先利用卷积网络模块尽可能多地提取时序数据的空间特征,将学习到的特征作为循环神经网络模块的输入,循环神经网络模块以两个LSTM分别针对主任务和辅助任务进行时序数据时间维度特征的提取,并与自回归模块组合预测消耗量,提升模型的学习和预测能力。本单元由卷积网络模块、循环神经网络模块以及自回归模块组成,其整体流程如图2所示。下文将详细阐述各模块内部结构。
1)模块201:卷积网络模块
本模块使用多层的空洞卷积网络学习变量之间的局部依赖关系,从空间维度提取不同位置的特征。CNN(Convolutional Neural Networks,卷积神经网络)用特征值映射一定范围的输入数据,具有提取特征、表征数据的能力。空洞卷积(Dilated Convolutions)也称扩张卷积,它与传统的卷积不同之处在于引入了一个用于定义卷积核处理数据时各值间距的新参数,称为“扩张率(dilation rate)”,其效果是,通过跳过特定步长,将卷积核应用于更大的区域,也就是说,每个特征值能够映射更大的数据范围。
具体来说,采用多层的空洞卷积网络,一方面,不同层的卷积网络从输入数据中提取不同抽象程度的特征,越深的网络层会生成更抽象的信息,并为后续每个预测任务提供不同的特征;另一方面,相比于普通的CNN采用损失信息的池化操作,空洞卷积能够通过扩张率,增大卷积核处理数据时值的间距而指数级地加大感受野(感受野是指网络特征图上的特征值所映射的输入数据的范围,也即所提取的每个特征点所获取的输入数据上的信息范围),使得卷积操作能够捕获更远的历史消耗量信息。在实际应用中,卷积网络的层数可以根据需求设定。对于上述5个预测任务,卷积网络模块分别创建了5个不同的解释特征,以用于后续的学习。
Figure BDA0003324794340000111
Ct+h-1=f2(Ct+h-2)
Ct+h=f3(Ct+h-1)
Ct+h+1=f4(Ct+h)
Ct+h+2=f5(Ct+h+1)
其中:
Figure BDA0003324794340000121
是给定的多元时间序列矩阵,n是变量的数量,p是时间点的数量。
Figure BDA0003324794340000122
是带有m个卷积核的二维卷积层,二维卷积层对输入数据作卷积运算,它能够提取输入数据的特征,输出特征图(一个二维数组)。fi+1比fi更深,即fi+1以fi输出的特征图作为输入,在此基础上进一步提取特征,能够得到更抽象和复杂的特征。
Figure BDA0003324794340000123
是提取出的分别用于预测Xt+h-2,...,Xt+h+2任务的特征。通过这5个解释特征,能从空间角度多层次地表征输入数据
Figure BDA0003324794340000124
这些特征将被输入到循环神经网络模块为后续每个预测任务提供不同的特征。
同时,为了防止深度神经网络的过拟合和梯度消失问题,还采用了优化操作随机失活(dropout),在训练过程中,随机选取隐含层的一些权重和输出置零,这相当于实现神经网络的正则化,降低了其结构风险。
CNN里的每个卷积核都是
Figure BDA0003324794340000125
其中n是多元时间序列中变量的数量,也就是说,卷积核的高度设置为多元时间序列的变量数目。第k个滤波器输入矩阵X并且生成
ck=Act(Wk*X+bk)
其中*表示卷积操作,ck为输出向量,bk为偏置。Act为激活函数,是神经网络实现非线性建模能力的关键所在,本模块选用
Figure BDA0003324794340000126
作为激活函数,该函数是最常用的激活函数ReLU的一个变体,相比于Sigmoid和tanh,该函数只需要简单的判断和计算,效率更高。同时,当输入值为负时,它会将输入值乘以一个非零值,从而解决了ReLU函数可能输出为0的问题。为了保持输出与输入维度相同,通过对输入矩阵X进行零填充使得ck之后的长度为p。
2)模块202:循环神经网络模块
从不同层次的卷积神经网络提取的消耗量时间序列特征Ct+h-2,...,Ct+h+2将被逐个被用于循环神经网络模块的进一步学习中,以获取消耗量时间序列的长期相关性。循环神经网络模块由两个LSTM(Long Short-Term Memory,长短期记忆神经网络)组成,分别为共享LSTM和目标LSTM,形成编码器-解码器架构,共享LSTM编码出融合特征序列,目标LSTM预测输出序列。
LSTM能够有效捕捉序列数据的长期依赖关系,根据依赖关系对输入的序列数据进行重新编码,输出包含丰富相关信息的编码向量。LSTM对标准RNN的神经元结构进行改进,增加了三个门结构来控制保护和控制神经元状态,解决了梯度消失问题。LSTM的神经元首先通过遗忘门决定要从上一神经元所转移的细胞状态中遗忘什么信息,下一步是通过输入门决定从上一神经元传递过来的哪些信息输入到当前神经元,最后通过输出门决定当前神经元的哪些信息将被输出到下一神经元。本专利中设置LSTM遗忘门、输入门和输出门的激活函数为
Figure BDA0003324794340000131
隐藏层状态输出的激活函数则为
Figure BDA0003324794340000132
部分1:共享LSTM
共享LSTM以卷积神经网络提取的时间序列的特征作为输入,完成所有预测任务的学习,通过共享权重和偏置对不同任务之间的相互作用进行建模,为每个预测任务产生输入数据的融合特征。对于第k次特征提取,在时间τ上的循环单元的隐藏状态计算如下:
Figure BDA0003324794340000133
Figure BDA0003324794340000134
Figure BDA0003324794340000135
Figure BDA0003324794340000136
Figure BDA0003324794340000137
Figure BDA0003324794340000138
其中:k∈{t+h-2,t+h-1,...,t+h+2},1≤τ≤p;
Figure BDA0003324794340000139
Figure BDA00033247943400001310
共同实现τ时刻神经元输入门的作用,
Figure BDA00033247943400001312
Figure BDA00033247943400001311
分别表示τ时刻神经元的遗忘门和输出门,σ表示sigmoid函数,W和b分别表示当前LSTM的权重矩阵和偏置矩阵;
Figure BDA00033247943400001313
表示输入到τ时刻神经元的从卷积神经网络提取的消耗量时间序列特征,
Figure BDA0003324794340000141
表示τ-1时刻神经元的最终隐藏状态;
Figure BDA0003324794340000142
表示提取的特征Ck的第τ行,
Figure BDA0003324794340000143
表示τ时刻神经元的最终输出的隐藏状态,且⊙表示元素级别的点乘。
默认初始隐藏状态
Figure BDA0003324794340000144
和初始单元状态
Figure BDA0003324794340000145
设置为0。共享LSTM通过在所有预测任务中共享权重和偏置,融合了远期和近期的消耗量的未来趋势信息。在训练完成之后,这些融合信息被存储在共享的变量中,以将学到的关于数据的知识共享到目标LSTM中。在测试阶段,这些融合信息将为每个预测任务产生输入数据的融合特征
Figure BDA0003324794340000146
部分2:目标LSTM
目标LSTM的任务是根据针对主任务从卷积神经网络提取的消耗量时间序列特征Ct+h和来自共享LSTM输出的对于主任务的特征序列
Figure BDA0003324794340000147
Figure BDA0003324794340000148
预测主任务的输出序列
Figure BDA0003324794340000149
也就是说,目标LSTM仅针对主任务设计。具体地,输出序列的计算如下:
Figure BDA00033247943400001410
其中TargetLSTM即目标LSTM,它具有与共享LSTM相同的结构,但是初始隐藏状态和单元状态分别设置为
Figure BDA00033247943400001411
Figure BDA00033247943400001412
为了让主任务和辅助任务的输出维度相同,模型使用一个密集层对齐共享LSTM和目标LSTM的输出,得到神经网络模型对于每个任务的预测结果:
Figure BDA00033247943400001413
其中k∈{t+h-2,t+h-1,...,t+h+2},
Figure BDA00033247943400001414
为神经网络模型在Xk上的预测结果,
Figure BDA00033247943400001415
Figure BDA00033247943400001416
为密集层的权重和偏置。
3)203模块:自回归模块
大量理论和实证结果都表明,组合预测方法时序预测任务上往往比纯方法的效果更好。实际工业应用中原料消耗量的时间序列通常是包含线性和非线性模式的,这种情况下,CNN和LSTM这种非线性模型可能无法很好地对其线性部分建模。为了解决该问题,采用组合模型分别针对时序数据的线性部分和非线性部分建模,线性模型采用AR模型(Autoregressive Model,自回归模型)。AR模型将变量自身作为回归变量,根据该变量过去的规律来预测该变量未来的变化。对于每一个预测任务,自回归模型利用历史若干时刻点的值的线性组合来预测未来某时刻该变量的情况,能够很好地建模数据的线性部分。具体地,通过下列公式计算出自回归的预测值:
Figure BDA0003324794340000151
其中,sa∈N表示回归步长,也就是以过去sa个时点的值来预测当前值。
Figure BDA0003324794340000152
Figure BDA0003324794340000153
Figure BDA0003324794340000154
分别表示
Figure BDA0003324794340000155
Figure BDA0003324794340000156
的第i个元素,
Figure BDA0003324794340000157
Figure BDA0003324794340000158
为AR模型的权重向量和偏置向量。
4)204模块:组合预测模块
该模块组合神经网络循环神经网络模块和自回归模块对各个任务的预测值,得到所有任务的最终预测结果。具体地,将神经网络的输出
Figure BDA0003324794340000159
和自回归模型的输出
Figure BDA00033247943400001510
相加,得到每个任务最终的预测结果:
Figure BDA00033247943400001511
其中k∈{t+h-2,t+h-1,...,t+h+2},
Figure BDA00033247943400001512
为模型对多元时间序列Xk上的最终预测值。
Figure BDA00033247943400001513
是5个预测任务的最终预测值矩阵。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于多任务时序学习的工业原料消耗量预测方法,其特征在于,包括以下步骤:
S1:对原料的历史消耗量时间单序列进行聚类得到多元时间序列集;
S2:对步骤S1得到的多元时间序列集构建对应的预测任务;
S3:针对步骤S2得到的预测任务进行工业原料消耗量预测得到最终的工业原料消耗量预测值。
2.根据权利要求1所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S1中,对于给定的原料消耗量单时间序列集γ={Y1,Y2,...,Yw},其中Yj(j∈{1,2,...,w})表示第j种原材料收集频率为天的历史消耗量时间序列,w为原料种类的总数目;对于该时间序列集,一种原料的时间序列作为一个样本,由m个点组成,表示为Yj=(Yj1,Yj2,...,Yjm),首先采用基于DTW距离的KMeans聚类,得到k个类内相似度高的时间序列集合{C1,C2,...,Ck},每个类内的时间序列将被进一步处理为一个多元时间序列,得到多元时间序列集{χ12,...,χk};对于每个多元时间序列χ={Xt-p+1,...,Xt},其中
Figure FDA0003324794330000011
且n为变量的维度,即该多元时间序列的原料种类数目,预测未来某一确定时刻的序列值,即预测Xt+h,其中h≥1为当前时间的预测视野,也即当前时间未来的预测窗口大小。
3.根据权利要求2所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S1中,得到多元时间序列集的过程是:
1)、采用“手肘法”确定聚类数目k值:输入时间序列集γ={Y1,Y2,...,Yw}和k值集合,输出不同k值与样本间DTW距离平均值的关系折线图,该图呈现“手肘型”,肘部对应的k值则为最优的聚类数目;
2)、构建K-Means聚类模型:对于输入数据集γ,随机选取k个样本作为初始聚类中心;对于集合中其他样本,分别计算每个样本Yi与每个聚类中心Yj的DTW距离D(Yi,Yj)并分配剩余的样本到DTW距离最小的聚类中心所在的簇中;分配完成后,计算每个簇中的样本均值即质心,若mj是簇Cj中的样本个数,则簇Cj的质心由下列公式计算:
Figure FDA0003324794330000012
将质心作为每个簇新的聚类中心;迭代以上步骤,直至到达迭代次数上限或者前后两次迭代得到的簇是相同的,得到每个样本所属的簇类别;
3)、生成多元时间序列集:对于形成的k个聚类,将每个类中每个时间序列样本作为一个变量,组成一个多元即多变量时间序列,最终形成一个具有k个样本的多元时间序列集{χ12,...,χk}。
4.根据权利要求3所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S2中,对于每个多元时间序列χ={Xt-p+1,...,Xt},其中
Figure FDA0003324794330000021
且n为变量的维度,即该多元时间序列的原料种类数目,预测未来某一确定时刻的序列值,即预测Xt+h,其中h≥1为当前时间的预测视野,也即当前时间的预测窗口大小;
为了构建多任务学习框架,定义了两个参数fsp和fsd,0p fsp·fsd p h,其中前者称为未来跨度,表示在预测点之前和之后分别构建辅助任务的个数;后者称为未来跨步,表示每个任务预测未来的间隔时刻数,以预测t+h时刻的序列值为主任务的同时,构建预测:
{t+h-(fsp·fsd),...,t+h-fsd,t+h+fsd,...,t+h+(fsp·fsd)}时刻的序列值作为辅助任务以协助主任务的训练。
5.根据权利要求4所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S2中,
当fsp=2,fsd=1时,假设{Xt-p+1,...,Xt}满足条件,将并行预测{Xt+h-2,Xt+h-1,Xt+h,Xt+h+1,Xt+h+2}的值,在这5个任务中,预测Xt+h为主任务,预测Xt+h-2和Xt+h-1考虑了时间序列距当前时间点较近的未来的发展趋势,预测Xt+h-1,Xt+h-2考虑了时间序列距当前时间点较远的未来的发展趋势,通过多任务训练框架,辅助任务将学习到的远近期的原料消耗量未来趋势信息共享给主任务,从而充分挖掘时间序列隐含的信息,更准确地发现数据的模式。
6.根据权利要求5所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S3中,首先利用卷积网络模块提取时序数据的特征,将得到的特征作为循环神经网络模块的输入,循环神经网络模块以两个LSTM分别针对主任务和辅助任务进行时序数据时间维度特征的提取,并与自回归模块组合预测消耗量。
7.根据权利要求6所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S3中,对于预测任务
Figure FDA0003324794330000031
Ct+h-1=f2(Ct+h-2)、Ct+h=f3(Ct+h-1)、Ct+h+1=f4(Ct+h)和Ct+h+2=f5(Ct+h+1),
其中
Figure FDA0003324794330000032
是给定的多元时间序列矩阵,n是变量的数量,p是时间点的数量:
Figure FDA0003324794330000033
是带有m个卷积核的二维卷积层,二维卷积层对输入数据作卷积运算,它能够提取输入数据的特征,输出特征图;fi+1比fi更深,即fi+1以fi输出的特征图作为输入,在此基础上进一步提取特征,能够得到更抽象和复杂的特征;
Figure FDA0003324794330000034
是提取出的分别用于预测Xt+h-2,...,Xt+h+2任务的特征,通过这5个解释特征,从空间角度多层次地表征输入数据
Figure FDA0003324794330000037
这些特征将被输入到循环神经网络模块为后续每个预测任务提供不同的特征;
同时,为了防止深度神经网络的过拟合和梯度消失问题,还采用了优化操作随机失活,在训练过程中,随机选取隐含层的一些权重和输出置零,这相当于实现神经网络的正则化,降低了其结构风险;
CNN里的每个卷积核都是
Figure FDA0003324794330000035
其中n是多元时间序列中变量的数量,也就是说,卷积核的高度设置为多元时间序列的变量数目,第k个滤波器输入矩阵X并且生成:
ck=Act(Wk*X+bk)
其中*表示卷积操作,ck为输出向量,bk为偏置,Act为激活函数,是神经网络实现非线性建模能力的关键所在,本模块选用:
Figure FDA0003324794330000036
作为激活函数,该函数是最常用的激活函数ReLU的一个变体,相比于Sigmoid和tanh,该函数只需要简单的判断和计算,效率更高,同时,当输入值为负时,它会将输入值乘以一个非零值,从而解决了ReLU函数可能输出为0的问题,为了保持输出与输入维度相同,通过对输入矩阵X进行零填充使得ck之后的长度为p。
8.根据权利要求7所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S3中,从不同层次的卷积神经网络提取的消耗量时间序列特征Ct+h-2,...,Ct+h+2将被逐个被用于循环神经网络模块的进一步学习中,以获取消耗量时间序列的长期相关性,循环神经网络模块由两个LSTM组成,分别为共享LSTM和目标LSTM,形成编码器-解码器架构,共享LSTM编码出融合特征序列,目标LSTM预测输出序列;
共享LSTM以卷积神经网络提取的时间序列的特征作为输入,完成所有预测任务的学习,通过共享权重和偏置对不同任务之间的相互作用进行建模,为每个预测任务产生输入数据的融合特征,对于第k次特征提取,在时间τ上的循环单元的隐藏状态计算如下:
Figure FDA0003324794330000041
Figure FDA0003324794330000042
Figure FDA0003324794330000043
Figure FDA0003324794330000044
Figure FDA0003324794330000045
Figure FDA0003324794330000046
其中:k∈{t+h-2,t+h-1,...,t+h+2},1≤τ≤p;
Figure FDA0003324794330000047
Figure FDA0003324794330000048
共同实现τ时刻神经元输入门的作用,
Figure FDA0003324794330000049
Figure FDA00033247943300000410
分别表示τ时刻神经元的遗忘门和输出门,σ表示sigmoid函数,W和b分别表示当前LSTM的权重矩阵和偏置矩阵;
Figure FDA00033247943300000411
表示输入到τ时刻神经元的从卷积神经网络提取的消耗量时间序列特征,
Figure FDA00033247943300000412
表示τ-1时刻神经元的最终隐藏状态;
Figure FDA00033247943300000413
表示提取的特征Ck的第τ行,
Figure FDA00033247943300000414
表示τ时刻神经元的最终输出的隐藏状态,且⊙表示元素级别的点乘;
默认初始隐藏状态
Figure FDA00033247943300000415
和初始单元状态
Figure FDA00033247943300000416
设置为0,共享LSTM通过在所有预测任务中共享权重和偏置,融合了远期和近期的消耗量的未来趋势信息,在训练完成之后,这些融合信息被存储在共享的变量中,以将学到的关于数据的知识共享到目标LSTM中;在测试阶段,这些融合信息将为每个预测任务产生输入数据的融合特征
Figure FDA00033247943300000417
目标LSTM的任务是根据针对主任务从卷积神经网络提取的消耗量时间序列特征Ct+h和来自共享LSTM输出的对于主任务的特征序列
Figure FDA00033247943300000418
Figure FDA00033247943300000419
预测主任务的输出序列
Figure FDA00033247943300000420
也就是说,目标LSTM仅针对主任务设计,具体地,输出序列的计算如下:
Figure FDA00033247943300000421
其中TargetLSTM即目标LSTM,它具有与共享LSTM相同的结构,但是初始隐藏状态和单元状态分别设置为
Figure FDA0003324794330000051
Figure FDA0003324794330000052
为了让主任务和辅助任务的输出维度相同,使用一个密集层对齐共享LSTM和目标LSTM的输出,得到神经网络模型对于每个任务的预测结果:
Figure FDA0003324794330000053
其中k∈{t+h-2,t+h-1,...,t+h+2},
Figure FDA0003324794330000054
为神经网络模型在Xk上的预测结果,
Figure FDA0003324794330000055
Figure FDA0003324794330000056
为密集层的权重和偏置。
9.根据权利要求8所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S3中,自回归模型利用历史若干时刻点的值的线性组合来预测未来某时刻该变量的情况,能够很好地建模数据的线性部分,具体地,通过下列公式计算出自回归的预测值:
Figure FDA0003324794330000057
其中,sa∈N表示回归步长,也就是以过去sa个时点的值来预测当前值,
Figure FDA0003324794330000058
q∈{1,2,3,4,5},k=t+h-3+q,1≤i≤n,
Figure FDA0003324794330000059
Figure FDA00033247943300000510
分别表示
Figure FDA00033247943300000511
Figure FDA00033247943300000512
的第i个元素,
Figure FDA00033247943300000513
Figure FDA00033247943300000514
为AR模型的权重向量和偏置向量。
10.根据权利要求9所述的基于多任务时序学习的工业原料消耗量预测方法,其特征在于,所述步骤S3中,神经网络循环神经网络模块和自回归模块对各个任务的预测值,得到所有任务的最终预测结果,具体地,将神经网络的输出
Figure FDA00033247943300000515
和自回归模型的输出
Figure FDA00033247943300000516
相加,得到每个任务最终的预测结果:
Figure FDA00033247943300000517
其中k∈{t+h-2,t+h-1,...,t+h+2},
Figure FDA00033247943300000518
为模型对多元时间序列Xk上的最终预测值,
Figure FDA00033247943300000519
是5个预测任务的最终预测值矩阵。
CN202111258599.5A 2021-10-27 2021-10-27 一种基于多任务时序学习的工业原料消耗量预测方法 Pending CN114186711A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111258599.5A CN114186711A (zh) 2021-10-27 2021-10-27 一种基于多任务时序学习的工业原料消耗量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111258599.5A CN114186711A (zh) 2021-10-27 2021-10-27 一种基于多任务时序学习的工业原料消耗量预测方法

Publications (1)

Publication Number Publication Date
CN114186711A true CN114186711A (zh) 2022-03-15

Family

ID=80601609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111258599.5A Pending CN114186711A (zh) 2021-10-27 2021-10-27 一种基于多任务时序学习的工业原料消耗量预测方法

Country Status (1)

Country Link
CN (1) CN114186711A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937486A (zh) * 2022-06-22 2022-08-23 肾泰网健康科技(南京)有限公司 Idh预测及干预措施推荐多任务模型的构建方法及应用
CN117369282A (zh) * 2023-11-17 2024-01-09 上海四方无锡锅炉工程有限公司 一种自适应性分级送风的控制方法及其固废cfb锅炉

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715292A (zh) * 2015-03-27 2015-06-17 上海交通大学 基于最小二乘支持向量机模型的城市短期用水量预测方法
CN106997509A (zh) * 2017-03-28 2017-08-01 南京航空航天大学 一种不确定信息融合的应急物资分布需求预测方法
CN107895214A (zh) * 2017-12-08 2018-04-10 北京邮电大学 一种多元时间序列预测方法
CN109685252A (zh) * 2018-11-30 2019-04-26 西安工程大学 基于循环神经网络和多任务学习模型的建筑能耗预测方法
CN110363354A (zh) * 2019-07-16 2019-10-22 上海交通大学 风场风功率预测方法、电子装置及存储介质
CN111815348A (zh) * 2020-05-28 2020-10-23 杭州览众数据科技有限公司 一种基于各门店商品相似度聚类的区域商品生产计划方法
CN111950810A (zh) * 2020-08-27 2020-11-17 南京大学 一种基于自演化预训练的多变量时间序列预测方法和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715292A (zh) * 2015-03-27 2015-06-17 上海交通大学 基于最小二乘支持向量机模型的城市短期用水量预测方法
CN106997509A (zh) * 2017-03-28 2017-08-01 南京航空航天大学 一种不确定信息融合的应急物资分布需求预测方法
CN107895214A (zh) * 2017-12-08 2018-04-10 北京邮电大学 一种多元时间序列预测方法
CN109685252A (zh) * 2018-11-30 2019-04-26 西安工程大学 基于循环神经网络和多任务学习模型的建筑能耗预测方法
CN110363354A (zh) * 2019-07-16 2019-10-22 上海交通大学 风场风功率预测方法、电子装置及存储介质
CN111815348A (zh) * 2020-05-28 2020-10-23 杭州览众数据科技有限公司 一种基于各门店商品相似度聚类的区域商品生产计划方法
CN111950810A (zh) * 2020-08-27 2020-11-17 南京大学 一种基于自演化预训练的多变量时间序列预测方法和设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937486A (zh) * 2022-06-22 2022-08-23 肾泰网健康科技(南京)有限公司 Idh预测及干预措施推荐多任务模型的构建方法及应用
CN114937486B (zh) * 2022-06-22 2023-09-26 肾泰网健康科技(南京)有限公司 Idh预测及干预措施推荐多任务模型的构建方法及应用
CN117369282A (zh) * 2023-11-17 2024-01-09 上海四方无锡锅炉工程有限公司 一种自适应性分级送风的控制方法及其固废cfb锅炉
CN117369282B (zh) * 2023-11-17 2024-04-19 上海四方无锡锅炉工程有限公司 一种自适应性分级送风的控制方法及其固废cfb锅炉

Similar Documents

Publication Publication Date Title
Guo et al. Learning dynamics and heterogeneity of spatial-temporal graph data for traffic forecasting
Xuan et al. Multi-model fusion short-term load forecasting based on random forest feature selection and hybrid neural network
Ahmad et al. Trees vs Neurons: Comparison between random forest and ANN for high-resolution prediction of building energy consumption
Dudek Neural networks for pattern-based short-term load forecasting: A comparative study
Wang et al. A grey prediction-based evolutionary algorithm for dynamic multiobjective optimization
Froelich et al. Fuzzy cognitive maps in the modeling of granular time series
CN109685252A (zh) 基于循环神经网络和多任务学习模型的建筑能耗预测方法
CN106952181A (zh) 基于长短时记忆神经网络的电力负荷预测系统
Phyo et al. Electricity load forecasting in Thailand using deep learning models
CN114186711A (zh) 一种基于多任务时序学习的工业原料消耗量预测方法
Jia et al. Transfer learning for end-product quality prediction of batch processes using domain-adaption joint-Y PLS
Hao et al. Energy consumption prediction in cement calcination process: A method of deep belief network with sliding window
Gu et al. Bayesian Takagi–Sugeno–Kang fuzzy model and its joint learning of structure identification and parameter estimation
Tripathi et al. Image classification using small convolutional neural network
Wang et al. Tracking concept drift using a constrained penalized regression combiner
Elhariri et al. H-ahead multivariate microclimate forecasting system based on deep learning
Bakhtadze et al. Predictive associative models of processes and situations
Lughofer et al. Robust generalized fuzzy systems training from high-dimensional time-series data using local structure preserving PLS
Li et al. A neural networks based method for multivariate time-series forecasting
Ma et al. Traffic flow and speed forecasting through a Bayesian deep multi-linear relationship network
Chu et al. Compact broad learning system based on fused lasso and smooth lasso
Hsu Optimal decision tree for cycle time prediction and allowance determination
Srivastava et al. Cryptocurrency price prediction using enhanced PSO with extreme gradient boosting algorithm
Si et al. Interactive effects of hyperparameter optimization techniques and data characteristics on the performance of machine learning algorithms for building energy metamodeling
CN116307250A (zh) 一种基于典型日特征选择的短期负荷预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination