CN112949836A - 对时变分布数据进行回归预测在线迁移学习的方法 - Google Patents

对时变分布数据进行回归预测在线迁移学习的方法 Download PDF

Info

Publication number
CN112949836A
CN112949836A CN202110379573.XA CN202110379573A CN112949836A CN 112949836 A CN112949836 A CN 112949836A CN 202110379573 A CN202110379573 A CN 202110379573A CN 112949836 A CN112949836 A CN 112949836A
Authority
CN
China
Prior art keywords
lstm
data
prediction
time
dtln
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110379573.XA
Other languages
English (en)
Inventor
林焱辉
常亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110379573.XA priority Critical patent/CN112949836A/zh
Publication of CN112949836A publication Critical patent/CN112949836A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种对时变分布数据进行回归预测在线迁移学习的方法,其包括以下步骤:S1:获取线下时变分布数据及其对应的标签;S2:将S1中的数据和标签按照时间先后顺序平均分为两部分;S3:建立第一预测模型LSTM‑DTLN;S4:建立第二预测模型LSTM‑DNN;S5:在在线阶段,精调LSTM‑DTLN模型;S6:利用LSTM‑DNN和得到的
Figure DDA0003012447610000011
个LSTM‑DTLN对在线数据进行预测,得到预测结果;S7:监测预测误差,当误差超过阈值thp时,精调LSTM‑DTLN;S8:计算线下数据中随机样本和最近在线新样本学习到的特征之间的多核最大均值差异,当超过预定阈值thd时,用最近的数据重建LSTM‑DTLN和LSTN‑DNN。本发明将深度学习与在线迁移学习相结合,解决了时变分布数据的在线回归预测问题。

Description

对时变分布数据进行回归预测在线迁移学习的方法
技术领域
本发明涉及深度迁移学习领域,尤其涉及一种对时变分布数据进行回归预测在线迁移学习的方法。
背景技术
随着传感器技术的进步和机器学习方法的快速发展,数据驱动方法在分类和回归预测任务中的应用越来越广泛。特别是一些深度学习方法已经成功地应用于图像识别和异常检测等任务中,如卷积神经网络(CNN)、长短时记忆网络(LSTM)等。深度学习方法可以很好地自动学习到输入数据的特征。大多数这些方法都假设训练数据和测试数据具有相似的分布。然而,由于工况变化或工艺参数的不同,许多实际应用中的数据分布是非平稳的,即会随着时间发生变化,这会导致不可靠的预测结果。为了解决这一问题,近年来人们对迁移学习进行了积极的研究,其目的是使一个在源域中训练的模型能够很好地应用于目标域中的数据。迁移学习的一个常用的思想是提取出各个域之间相互接近且包含足够判别输出信息的特征。通过将深度学习与迁移学习相结合,基于深度迁移学习的方法可以在不同任务中自动提取出域不变且包含足够判别输出信息的特征。
现有的关于迁移学习的研究工作大多假设预先提供了目标域的数据。然而,在一些实际应用中,如多语言文本分类、制造过程监控等,目标域的数据往往是依次到达的。在线迁移学习(Online Transfer Learning,OTL)作为迁移学习的一种,旨在处理依次到达的目标域数据。在OTL中的在线阶段,模型依次接收一个或多个输入数据及其对应的标签,然后根据最近数据的预测误差对预测模型进行更新。近年来,OTL得到了广泛的研究,然而,大多数的工作都致力于解决分类问题而关注回归预测问题的很少,但是回归预测问题在工业实践中非常常见。
现有的OTL方法假设目标域的数据分布是不变的。然而,在工业实践中,目标域数据的分布可能会随着时间而变化,即产生时变分布的数据,因此需要一种新的OTL方法来适应这种情况。
发明内容
为了克服现有技术的缺陷,本发明的目的在于提出一种对时变分布数据进行回归预测在线迁移学习的方法。为此需要建立适当的模型,通过迁移学习技术使模型能够提取出域不变且包含足够判别输出信息的特征,再根据在线预测的结果对模型进行不断更新,从而提高模型对新数据的预测准确度。
本发明提出的方法包括线下和在线两个阶段。在线下阶段,利用最大均值差异和均方误差作为深度神经网络的损失函数训练深度神经网络模型,使其能提取出域不变且包含足够判别输出信息的特征;在在线阶段,通过一种模型更新策略和模型融合方法,保证对时变分布数据的在线预测准确度。
具体地,本发明提供的一种对时变分布数据进行回归预测在线迁移学习的方法,其包括以下步骤:
S1:获取线下时变分布数据及其对应的标签,并对数据进行归一化,其中所述时变分布数据指多个传感器测量得到时间序列数据,且其分布随时间变化;
S2:将所述S1中获得的线下时变分布数据及其对应的标签按照时间先后顺序平均分为两部分,分别记为Ds1和Ds2,并再各自细分为训练组和验证组;
S3:用所述S2中的Ds1和Ds2的数据构建样本建立神经网络模型作为第一预测模型,记为LSTM-DTLN,使用训练组对所述神经网络模型进行训练,使用随机梯度下降算法更新神经网络模型中的参数,使用均方误差和多核最大均值差异作为训练时的损失函数,当验证组的预测误差停止减小时终止训练,所述LSTM-DTLN包含由4层LSTM层组成的特征提取器和由2层全连接层组成的预测器;
S4:用Ds2的数据建立第二预测模型LSTM-DNN,其中包括由4层LSTM层构成的特征提取器,以及由2层全连接层构成预测器,使用均方误差作为训练时的损失函数,该模型有助于进一步从线下数据中提取预测信息。
S5:在在线阶段,用最近的3000个有标签的样本精调所述S3中训练完成的LSTM-DTLN模型,精调时使用均方误差作为损失函数,且特征提取器的学习率要远小于预测器的学习率,为了防止过拟合或欠拟合,精调时取训练轮数分别为
Figure BDA0003012447590000021
得到
Figure BDA0003012447590000022
个精调后的LSTM-DTLN;
S6:利用所述S4中的LSTM-DNN和所述S5中得到的
Figure BDA0003012447590000023
个LSTM-DTLN对在线数据进行预测,并将预测结果加权起来,从而得到最终的预测结果,其中所述在线数据依次到来,获得一条在线数据后即用LSTM-DTLN预测其对应的标签,一段时间后,可以获得该条数据的真实标签,即可计算该条数据的预测误差;
S7:监测所述S6中的预测误差,当误差超过阈值thp时,取预测误差最小的一个LSTM-DTLN,用最近的3000个有标签的样本精调该模型,精调时使用均方误差作为损失函数,且特征提取器的学习率要远小于预测器的学习率,为了防止过拟合或欠拟合,精调时取训练轮数分别为
Figure BDA0003012447590000038
得到
Figure BDA0003012447590000039
个精调后的LSTM-DTLN;
S8:计算由n个从线下数据中随机选取的样本和最近的n个在线新样本学习到的特征之间的多核最大均值差异,当它超过预定阈值thd时,则用最近的数据重建LSTM-DTLN和LSTN-DNN。
可优选的是,所述预测模型的输入数据,是由多个时间步的多个传感器监测数据构成的矩阵。
可优选的是,在所述S3中训练LSTM-DTLN时的损失函数包含两个部分。首先,模型学习到的特征应包含足够的判别输出的信息。因此,第一个优化目标是最小化模型在Ds2上的预测误差,因为Ds2在时间上更接近于在线数据,因此选用这部分数据计算预测误差。使用均方误差(mean squared error,MSE)来衡量预测误差,这是一种广泛用于回归预测任务的损失函数,其计算公式如下:
Figure BDA0003012447590000031
式中,Lp为样本均方误差,m是Ds2中训练样本的批大小,yi是第i个样本的标签,
Figure BDA00030124475900000310
是第i个样本的预测结果。其次,为了在在线阶段获得良好的预测效果,模型学习到的特征应该是域不变的。因此,第二个优化目标是最小化由Ds1和Ds2学到的特征的分布之间的差异。用多核最大均值差异(multiple kernel maximum mean discrepancy,MK-MMD)来衡量由Ds1和Ds2学到的特征的分布之间的差异。用
Figure BDA00030124475900000311
Figure BDA00030124475900000312
分别表示输入Ds1和Ds2的样本后特征提取器的输出的概率分布,这两个概率分布之间的MK-MMD定义为对应样本在再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS)的均值的距离,在实际计算中采用MK-MMD的无偏估计:
Figure BDA0003012447590000032
式中,
Figure BDA0003012447590000033
为概率分布
Figure BDA00030124475900000313
Figure BDA00030124475900000314
之间的MK-MMD的无偏估计,m是来自
Figure BDA00030124475900000315
Figure BDA00030124475900000316
分布的样本的个数,两者样本的个数相同(Ds1和Ds2中样本的个数相同),
Figure BDA0003012447590000034
Figure BDA0003012447590000035
Figure BDA0003012447590000036
Figure BDA0003012447590000037
分别代表来自分布
Figure BDA00030124475900000317
Figure BDA00030124475900000318
的样本,即由Ds1和Ds2学到的特征,k(·,·)是核函数,是j个核{ku}的凸组合,即
Figure BDA00030124475900000319
Figure BDA0003012447590000041
其中j是核的数量,这里取j=3,即由3个不同带宽的高斯核函数组合而成。所述训练LSTM-DTLN的损失函数的第二部分即为:
Figure BDA0003012447590000042
式中,f1和f2分别是输入Ds1和Ds2的样本后特征提取器的输出,
Figure BDA0003012447590000049
Figure BDA00030124475900000410
分别代表f1和f2的概率分布。为了学到包含足够判别输出信息且具有域不变性的特征,将这两个优化目标结合起来,最终损失函数为:
L=Lp+λLd
式中,超参数λ表示第二个损失函数的权重,可以根据对提取出的特征的可视化确定其取值。
可优选的是,在所述S6中将所述S4中的LSTM-DNN和所述S5中得到的
Figure BDA00030124475900000411
个LSTM-DTLN的在线数据预测结果进行加权时,在时间点i,给定一个样本Xi,其最终的加权预测结果由下式计算得到:
Figure BDA0003012447590000043
式中,
Figure BDA0003012447590000044
是微调了es轮得到的LSTM-DTLN模型的输出结果,
Figure BDA0003012447590000045
是LSTM-DNN的输出结果,ws,i
Figure BDA0003012447590000046
是权重参数,由下式动态更新得到:
Figure BDA0003012447590000047
Figure BDA0003012447590000048
式中,yi-n是Xi-n的标签。
可优选的是,所述S7中监测预测误差时,每接收到n(n>1)个真实标签计算一次模型的预测值与真实标签的均方根误差,以减少随机性的影响,当该误差超过预定阈值时,即精调LSTM-DTLN.
可有选的是,所述S8中阈值thd的取值,可以通过计算线下阶段LSTM-DTLN模型学到的Ds1和Ds2的每一个训练批的特征之间的MK-MMD,将其中的最大值作为thd.
与现有技术相比,本发明具有以下有益效果:
1、本发明将深度学习与0TL相结合,深度神经网络不仅能自动学习特征,而且具有良好的可迁移性,模型可以通过精调来适应新的数据,使得方法可以用于在线回归预测任务;
2、本发明能够解决时变分布数据的在线回归预测问题,在线下阶段,基于已有的有标签多维时序数据,即时变分布产生的源域数据,建立了第一预测模型,为了减小数据分布的差异,通过多层LSTM神经网络,并借助一个分布差异度量来学习域不变特征;在在线阶段,预测模型依次接收到在线数据,即时变分布产生的目标域数据,根据最近数据的预测误差,采用基于精调的更新策略对第一预测模型进行更新,这样,边际概率分布和条件概率分布的差异对预测任务的不利影响就可以得到缓解。
3、本发明通过一种集成方法来避免在线阶段更新模型时过拟合和欠拟合的问题,从而获得更好的在线回归预测效果。
附图说明
图1是本发明一种对时变分布数据进行回归预测的在线迁移学习方法的步骤流程图;
图2是柴油加氢精制过程及部分传感器示意图;
图3时柴油加氢精制在线监测过程示意图;
图4是LSTM-DTLN模型的结构示意图;
图5(a)-5(c)是不同λ得到的LSTM-DTLN模型学到的特征的可视化示意图;
图6是LSTM-DNN模型的结构示意图;
图7是不同方法的在线数据预测绝对误差箱型图。
具体实施方式
为更好的理解本发明的技术方案,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明提出一种对时变分布数据进行回归预测的在线迁移学习方法,在线下阶段建立第一预测模型和第二预测模型,在在线阶段对第一预测模型进行更新,再结合一种模型集成方法,从而获得更准确的在线预测结果。如图1所示,具体实施步骤如下:
步骤S1:获取线下时变分布数据及其对应的标签,并对数据进行归一化,其中时变分布数据指多个传感器测量得到的时间序列数据,且其分布随时间变化。
在本实施例中,所用数据是某石化车间柴油加氢精制过程的实际数据。数据收集自柴油加氢精制过程。加氢精制是在一定的温度、压力、氢油比和空速条件下,将原料油和氢气通过反应器催化剂床层的过程。在催化剂的作用下,硫、氮、氧等非烃化合物转化为相应的碳氢化合物、硫化氢、氨和水,从而降低柴油中的硫含量。图2简要说明了该过程和一些传感器。硫含量取决于原料油的性质、催化剂的活性以及反应温度、流量等工艺参数。通过利用多个传感器的在线监测数据预测硫含量,有助于调整工艺参数从而满足生产需求,时间序列数据即是这些传感器记录的原料油的性质和加氢精制过程的工艺参数。传感器包括温度传感器和流量(含量)传感器,共19个传感器。
在每个时间点i,记录这19个传感器的监测数据,并用mi来表示这19个数据点组成的向量。将6个时间点的监测数据作为输入来预测最后一个时间点对应的标签,因此,输入数据是6×19维的矩阵
Figure BDA0003012447590000061
当获得在线监测数据mi时,需要预测其对应的硫含量值。一段时间后,反应完成并可以得到其真实的标签yi。在这段时间里,会依次获得之后80个时间点的监测数据{mi+1,mi+2,...,mi+80},从而得到80个新样本{Xi+1,Xi+2,...,Xi+80}。这个在线监测过程如图3所示。
随着时间的推移,催化剂的活性逐渐降低,这对反应有直接的影响。然而没有传感器可以测量催化剂的活性。此外,原料油的性质也可能发生变化。因此,这些监测数据的边际概率分布和条件概率分布都会随时间发生变化,即是时变分布数据。
获取
Figure BDA0003012447590000062
Figure BDA0003012447590000063
作为线下阶段的时变分布数据及其对应的标签,并分别将每个传感器数据和标签归一化到0到1之间。
步骤S2:将获得的线下时变分布数据及其对应的标签按照时间先后顺序平均分为两部分,分别记为Ds1和Ds2,具体地,将
Figure BDA0003012447590000064
作为Ds1的训练组,
Figure BDA0003012447590000065
作为Ds1的验证组,
Figure BDA0003012447590000066
作为Ds2的训练组,
Figure BDA0003012447590000067
作为Ds2的验证组。训练组用于训练模型,验证组用于判断何时停止训练。
步骤S3:用Ds1和Ds2的数据建立神经网络模型,记为LSTM-DTLN(长短时记忆-深度迁移学习网络),模型的结构如图4所示。其中,由4层LSTM层构成特征提取器,用于自动学习特征,以提取出域不变且包含足够判别输出信息的特征,之后由2层全连接层构成预测器,根据提取的特征计算输出预测结果。特征提取器接收来自Ds1和Ds2的样本数据,样本数据是多维序列数据,因此采用多层LSTM进行特征提取,它可以解决梯度消失问题,并且可以提取出数据中的长时相关性,特征提取器提取出Ds1和Ds2输入数据的特征分别记为f1和f2,计算f1和f2之间的MK-MMD(multiple kernel maximum mean discrepancy多核最大均值差异)作为损失函数的第一部分Ld,同时将f2输入到预测器,预测器根据提取出的特征计算输出预测结果,并计算其与标签的均方误差,作为损失函数的第二部分Lp,利用反向传播计算损失函数Ld和Lp对特征提取器和预测器的参数的梯度,从而使用随机梯度下降算法更新模型的参数。使用训练组对模型进行训练,当验证组的预测误差停止减小时终止训练。
在线下阶段训练LSTM-DTLN时的损失函数包含两个部分,即Ld和Lp。首先,模型学习到的特征应包含足够的判别输出的信息。因此,第一个优化目标是最小化模型在Ds2上的预测误差,因为Ds2在时间上更接近于在线数据,因此选用这部分数据计算预测误差。使用均方误差(mean squared error,MSE)来衡量预测误差,这是一种广泛用于回归预测任务的损失函数,其计算公式如下:
Figure BDA0003012447590000071
式中,m是Ds2中训练样本的批大小,yi是第i个样本的标签,
Figure BDA0003012447590000072
是第i个样本的预测结果。其次,为了在在线阶段获得良好的预测效果,模型学习到的特征应该是域不变的。因此,第二个优化目标是最小化由Ds1和Ds2学到的特征的分布之间的差异。用多核最大均值差异(multiple kernel maximum mean discrepancy,MK-MMD)来衡量由Ds1和Ds2学到的特征的分布之间的差异。用
Figure BDA00030124475900000712
Figure BDA00030124475900000713
分别表示输入Ds1和Ds2的样本后特征提取器的输出的概率分布,这两个概率分布之间的MK-MMD定义为对应样本在再生核希尔伯特空间(reproducingkernel Hilbert space,RKHS)的均值的距离,在实际计算中采用MK-MMD的无偏估计:
Figure BDA0003012447590000073
式中,
Figure BDA0003012447590000074
为概率分布
Figure BDA00030124475900000714
Figure BDA00030124475900000715
之间的MK-MMD的无偏估计,m是来自
Figure BDA00030124475900000716
Figure BDA00030124475900000717
分布的样本的个数,两者样本的个数相同(Ds1和Ds2中样本的个数相同),
Figure BDA0003012447590000075
Figure BDA0003012447590000076
Figure BDA0003012447590000077
Figure BDA0003012447590000078
分别代表来自分布
Figure BDA00030124475900000718
Figure BDA00030124475900000719
的样本,即由Ds1和Ds2学到的特征,k(·,·)是核函数,是j个核{ku}的凸组合,刚
Figure BDA0003012447590000079
Figure BDA00030124475900000710
其中j是核的数量,这里取j=3,即由3个不同带宽的高斯核函数组合而成。训练LSTM-DTLN的损失函数的第二部分即为:
Figure BDA00030124475900000711
式中,f1和f2分别是输入Ds1和Ds2的样本后特征提取器的输出,
Figure BDA00030124475900000720
Figure BDA00030124475900000721
分别代表f1和f2的概率分布。为了学到包含足够判别输出信息且具有域不变性的特征,我们将这两个优化目标结合起来,最终损失函数为:
L=Lp+λLd
式中,超参数λ表示第二个损失函数的权重,过小的λ会导致
Figure BDA0003012447590000083
Figure BDA0003012447590000084
之间的距离过大,即无法得到域不变特征,而过大的λ会导致学到的特征缺少判别输出信息,可以根据对提取出的特征的可视化确定其取值。在本实施例中,对不同λ得到的LSTM-DTLN模型学到的
Figure BDA0003012447590000081
Figure BDA0003012447590000082
的特征进行可视化,结果如图5(a)-5(c)所示,分别显示了λ不同取值时特征的分布差异。可以看出,如果λ太小(图5(a)),则特征的分布差异过大,而如果λ太大(图5(c)),则特征没有很好地分散,即特征包含很少的判断输出信息。当λ=0.075(图5(b))时,学到的特征可以很好地对齐,并且可以获得清晰的判别结构,因此可以获得更好的预测效果。
训练过程中其他的超参数如表1所示:
表1.线下阶段训练LSTM-DTLN模型的相关超参数.
超参数
LSTM层层数 4
全连接层层数 2
批大小 512
MK-MMD核数 3
步骤S4:用Ds2的数据建立另外一个预测模型LSTM-DNN(长短时记忆-深度神经网络),其结构如图6所示,由4层LSTM构成特征提取器,由2层全连接层构成预测器,使用均方误差作为训练时的损失函数,该模型有助于进一步从线下数据中提取预测信息。
步骤S5:在在线阶段,用最近的3000个有标签的样本精调线下阶段获得的LSTM-DTLN模型,精调时使用均方误差作为损失函数,且特征提取器的学习率要远小于预测器的学习率,为了防止过拟合或欠拟合,精调时取训练轮数分别为
Figure BDA0003012447590000085
得到
Figure BDA0003012447590000086
个精调后的LSTM-DTLN,根据线下阶段的实验结果和经验,这里取
Figure BDA0003012447590000087
Figure BDA0003012447590000088
即每次精调后取3个LSTM-DTLN。
步骤S6:利用步骤S4中的LSTM-DNN和步骤S5中得到的3个LSTM-DTLN对在线数据进行预测,并将预测结果加权起来,从而得到最终的预测结果。在时间点i,给定一个样本Xi,其最终的加权预测结果由下式计算得到:
Figure BDA0003012447590000091
式中,
Figure BDA0003012447590000092
是微调了es轮得到的LSTM-DTLN模型的输出结果,e1=5,e2=50,e3=100,
Figure BDA0003012447590000093
是LSTM-DNN的输出结果,ws,i
Figure BDA0003012447590000096
是权重参数,由下式动态更新得到:
Figure BDA0003012447590000094
Figure BDA0003012447590000095
式中,yi-n是Xi-n的标签。在线数据依次到来,获得一条在线数据后即用LSTM-DTLN和LSTM-DNN预测其对应的标签,一段时间后,可以获得该条数据的真实标签,即可计算该条数据的预测误差。
通过上述模型集成方法,可以有效地避免精调时模型过拟合和欠拟合问题,从而获得准确的在线预测结果。
步骤S7:监测在线预测误差,计算每80个在线数据的预测误差,当误差超过阈值thp时,取预测误差最小的一个LSTM-DTLN,用最近的3000个有标签的样本精调该模型,精调时使用均方误差作为损失函数,且特征提取器的学习率要远小于预测器的学习率,根据生产需求,这里取thp=0.8,为了防止过拟合或欠拟合,精调时取训练轮数分别为
Figure BDA0003012447590000097
得到3个精调后的LSTM-DTLN。在线阶段更新模型相关的其他超参数如表2所示:
表2.在线阶段更新LSTM-DTLN模型相关的超参数.
参数
计算在线预测误差的样本数n 80
预测误差阈值th<sub>p</sub> 0.8
特征提取器的学习率 0.0002
预测器的学习率 0.001
通过利用在线数据对模型不断更新,可以有效地解决数据的条件概率分布差异,使模型适用于不断更新的在线数据。
步骤S8:计算由n个从线下数据中随机选取的样本和最近的n个在线新样本学习到的特征之间的多核最大均值差异,当它超过预定阈值thd时,则用最近的数据重建LSTM-DTLN和LSTN-DNN。当数据分布出现过大变化时,已有的LSTM-DTLN和LSTN-DNN可能不适用于新数据,则需要用最近的数据重建这两个模型。计算线下阶段LSTM-DTLN模型学到的Ds1和Ds2的每一个训练批的特征之间的MK-MMD,将其中的最大值作为thd,这里thd=1.1.
在本实施例中,按照上述方法步骤,在线阶段第一预测模型共更新6次,每次更新后的预测误差如表3所示,表中用均方根误差(RMSE)计算预测误差。作为比较,采用了两种广泛使用的迁移学习技术,一种是对模型的全连接层进行微调(用FTNN表示),另一种是神经网络的领域对抗性训练(用DANN表示)。在本文中,FTNN以LSTM-DNN模型为基础模型,当在线预测误差超过阈值时对全连接层进行微调,DANN只是在LSTM-DNN模型中加入一个域分类器,用特征提取器和域分类器对抗训练的方式提取域不变特征。二者的预测误差在表3中给出,可以看出,本发明的在线回归预测方法优于其他方法,能够更好地对由时变分布产生的在线数据进行预测。由于条件概率分布的差异,无更新的LSTM-DTLN模型的表现并不令人满意。FTNN可以利用最近的数据对模型进行更新,但不能学习域不变特征。另一方面,DANN可以通过域对抗性训练学到域不变特征,但缺乏适应新数据的模型更新策略。因此,这两种迁移学习技术不能很好地应用于时变分布数据的在线回归预测任务。
表3.不同方法的在线预测均方根误差.
Figure BDA0003012447590000101
Figure BDA0003012447590000111
为了进一步说明本发明的模型集成方法的有效性,图7给出了通过不同方法得到的在线数据中每个样本的绝对误差的箱型图。可以看出,本发明方法的预测误差的标准差较小,这意味着预测准确度和稳定性都得到了提高。
最后应说明的是:以上所述的实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种对时变分布数据进行回归预测在线迁移学习的方法,其特征在于:其包括以下步骤:
S1:获取线下时变分布数据及其对应的标签,并对数据进行归一化,其中所述时变分布数据指多个传感器测量得到时间序列数据,且其分布随时间变化;
S2:将所述S1中获得的线下时变分布数据及其对应的标签按照时间先后顺序平均分为两部分,分别记为Ds1和Ds2,并再各自细分为训练组和验证组;
S3:用所述S2中的Ds1和Ds2的数据构建样本建立神经网络模型作为第一预测模型,记为LSTM-DTLN,使用训练组对所述神经网络模型进行训练,使用随机梯度下降算法更新神经网络模型中的参数,使用均方误差和多核最大均值差异作为训练时的损失函数,当验证组的预测误差停止减小时终止训练,所述LSTM-STLN包含由4层LSTM层组成的特征提取器和由2层全连接层组成的预测器;
S4:用Ds2的数据建立第二预测模型LSTM-DNN,其中包括由4层LSTM层构成的特征提取器,以及由2层全连接层构成预测器,使用均方误差作为训练时的损失函数;
S5:在在线阶段,用最近的3000个有标签的样本精调所述S3中训练完成的LSTM-DTLN模型,精调时使用均方误差作为损失函数,且特征提取器的学习率要远小于预测器的学习率,为了防止过拟合或欠拟合,精调时取训练轮数分别为
Figure FDA0003012447580000017
得到
Figure FDA0003012447580000011
个精调后的LSTM-DTLN;
Figure FDA0003012447580000012
Figure FDA0003012447580000013
均为正整数;
S6:利用所述S4中的LSTM-DNN和所述S5中得到的
Figure FDA0003012447580000014
个LSTM-DTLN对在线数据进行预测,并将预测结果加权起来,从而得到最终的预测结果,其中所述在线数据依次到来,获得一条在线数据后即用LSTM-DTLN和LSTM-DNN预测其对应的标签,一段时间后,可以获得该条数据的真实标签,即可计算该条数据的预测误差;
S7:监测所述S6中的预测误差,当误差超过阈值thp时,取预测误差最小的一个LSTM-DTLN,用最近的3000个有标签的样本精调该模型,精调时使用均方误差作为损失函数,且特征提取器的学习率要远小于预测器的学习率,为了防止过拟合或欠拟合,精调时取训练轮数分别为
Figure FDA0003012447580000015
得到
Figure FDA0003012447580000016
个精调后的LSTM-DTLN;
S8:计算由n个从线下数据中随机选取的样本和最近的n个在线新样本学习到的特征之间的多核最大均值差异,当它超过预定阈值thd时,则用最近的数据重建LSTM-DTLN和LSTN-DNN。
2.根据权利要求1所述的对时变分布数据进行回归预测在线迁移学习的方法,其特征在于:所述第一和第二预测模型的输入数据,是由多个时间步的多个传感器监测数据构成的矩阵。
3.根据权利要求1所述的对时变分布数据进行回归预测在线迁移学习的方法,其特征在于:所述S3中训练LSTM-DTLN时的损失函数包含两个部分:
首先,第一个优化目标是最小化模型在Ds2上的预测误差,因为Ds2在时间上更接近于在线数据,因此选用这部分数据计算预测误差,使用均方误差来衡量预测误差,其计算公式如下:
Figure FDA0003012447580000021
式中,Lp为样本均方误差,m是Ds2中训练样本的批大小,yi是第i个样本的标签,
Figure FDA0003012447580000022
是第i个样本的预测结果;
其次,第二个优化目标是最小化由Ds1和Ds2学到的特征的分布之间的差异;用多核最大均值差异来衡量由Ds1和Ds2学到的特征的分布之间的差异,用
Figure FDA0003012447580000023
Figure FDA0003012447580000024
分别表示输入Ds1和Ds2的样本后特征提取器的输出的概率分布,这两个概率分布之间的MK-MMD定义为对应样本在再生核希尔伯特空间(reproducing kernel Hilbert space,RKHS)的均值的距离,在实际计算中采用MK-MMD的无偏估计:
Figure FDA0003012447580000025
式中,
Figure FDA0003012447580000026
为概率分布
Figure FDA0003012447580000027
Figure FDA0003012447580000028
之间的MK-MMD的无偏估计,m是来自
Figure FDA0003012447580000029
Figure FDA00030124475800000210
分布的样本的个数,两者样本的个数相同(Ds1和Ds2中样本的个数相同),
Figure FDA00030124475800000211
Figure FDA00030124475800000212
Figure FDA00030124475800000213
Figure FDA00030124475800000214
分别代表来自分布
Figure FDA00030124475800000215
Figure FDA00030124475800000216
的样本,即由Ds1和Ds2学到的特征,k(·,·)是核函数;所述训练LSTM-DTLN的损失函数的第二部分即为:
Figure FDA00030124475800000217
式中,Ld为概率分布
Figure FDA00030124475800000218
Figure FDA00030124475800000219
之间的MK-MMD的无偏估计,f1和f2分别是输入Ds1和Ds2的样本后特征提取器的输出,
Figure FDA00030124475800000220
Figure FDA00030124475800000221
分别代表f1和f2的概率分布;将这两个优化目标结合起来,最终损失函数为:
L=Lp+λLd
式中,超参数λ表示第二个损失函数的权重,根据对提取出的特征的可视化确定其取值。
4.根据权利要求1所述的对时变分布数据进行回归预测在线迁移学习的方法,其特征在于:所述S6中将所述S4中的LSTM-DNN和所述S5中得到的
Figure FDA0003012447580000037
个LSTM-DTLN的在线数据预测结果进行加权,从而得到最终的预测结果时,具体为:
在时间点i,给定一个样本Xi,其最终的加权预测结果由下式计算得到:
Figure FDA0003012447580000031
式中,
Figure FDA0003012447580000032
是微调了es轮得到的LSTM-DTLN模型的输出结果,
Figure FDA0003012447580000033
是LSTM-DNN的输出结果,ws,i
Figure FDA0003012447580000034
是权重参数,由下式动态更新得到:
Figure FDA0003012447580000035
Figure FDA0003012447580000036
式中,yi-n是Xi-n的标签。
5.根据权利要求1所述的对时变分布数据进行回归预测在线迁移学习的方法,其特征在于:所述S7中监测所述S6中的预测误差,具体为:
每接收到n(n>1)个真实标签计算一次模型的预测值与真实标签的均方根误差,以减少随机性的影响,当该误差超过预定阈值时,精调LSTM-DTLN。
6.根据权利要求1所述的对时变分布数据进行回归预测在线迁移学习的方法,其特征在于:所述S8中阈值thd的取值,通过计算线下阶段LSTM-DTLN模型学到的Ds1和Ds2的每一个训练批的特征之间的MK-MMD,将其中的最大值作为thd
CN202110379573.XA 2021-04-08 2021-04-08 对时变分布数据进行回归预测在线迁移学习的方法 Pending CN112949836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110379573.XA CN112949836A (zh) 2021-04-08 2021-04-08 对时变分布数据进行回归预测在线迁移学习的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110379573.XA CN112949836A (zh) 2021-04-08 2021-04-08 对时变分布数据进行回归预测在线迁移学习的方法

Publications (1)

Publication Number Publication Date
CN112949836A true CN112949836A (zh) 2021-06-11

Family

ID=76231218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110379573.XA Pending CN112949836A (zh) 2021-04-08 2021-04-08 对时变分布数据进行回归预测在线迁移学习的方法

Country Status (1)

Country Link
CN (1) CN112949836A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919608A (zh) * 2021-12-15 2022-01-11 中国气象局公共气象服务中心(国家预警信息发布中心) 一种预报机场能见度的方法及装置
CN115032891A (zh) * 2022-08-11 2022-09-09 科大智能物联技术股份有限公司 一种基于时间序列预测的多晶硅还原炉控制方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919608A (zh) * 2021-12-15 2022-01-11 中国气象局公共气象服务中心(国家预警信息发布中心) 一种预报机场能见度的方法及装置
CN115032891A (zh) * 2022-08-11 2022-09-09 科大智能物联技术股份有限公司 一种基于时间序列预测的多晶硅还原炉控制方法
CN115032891B (zh) * 2022-08-11 2022-11-08 科大智能物联技术股份有限公司 一种基于时间序列预测的多晶硅还原炉控制方法

Similar Documents

Publication Publication Date Title
Yuan et al. Hierarchical quality-relevant feature representation for soft sensor modeling: A novel deep learning strategy
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
Aizpurua et al. Adaptive power transformer lifetime predictions through machine learning and uncertainty modeling in nuclear power plants
Wen et al. A generalized remaining useful life prediction method for complex systems based on composite health indicator
CN111813084B (zh) 一种基于深度学习的机械装备故障诊断方法
CN111142501B (zh) 基于半监督自回归动态隐变量模型的故障检测方法
Wu et al. A just-in-time fine-tuning framework for deep learning of SAE in adaptive data-driven modeling of time-varying industrial processes
CN113486578A (zh) 一种工业过程中设备剩余寿命的预测方法
Tang et al. A deep belief network-based fault detection method for nonlinear processes
CN112949836A (zh) 对时变分布数据进行回归预测在线迁移学习的方法
Suryo et al. Improved time series prediction using LSTM neural network for smart agriculture application
WO2021114320A1 (zh) 一种oica和rnn融合模型的污水处理过程故障监测方法
Graziani et al. Design of a soft sensor for an industrial plant with unknown delay by using deep learning
CN113393057A (zh) 一种基于深度融合机器学习模型的小麦产量集成预测方法
Mourelatos et al. Financial indices modelling and trading utilizing deep learning techniques: the ATHENS SE FTSE/ASE large cap use case
Huang et al. A hybrid bayesian deep learning model for remaining useful life prognostics and uncertainty quantification
Dang et al. seq2graph: Discovering dynamic non-linear dependencies from multivariate time series
Li et al. Gated recurrent unit networks for remaining useful life prediction
CN115794805A (zh) 一种中低压配网量测数据补齐方法
Haryono et al. Stock price forecasting in Indonesia stock exchange using deep learning: A comparative study
Wang A new variable selection method for soft sensor based on deep learning
Gao et al. Time series identifying and modeling with neural networks
Curreri et al. Application of data distribution metrics for soft sensors in industrial scenarios
Ding et al. A Novel LSTM-1DCNN-based Deep Network for Fault Diagnosis in Chemical Process
Beshah et al. Control chart pattern recognition of multivariate auto-correlated processes using artificial neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination