CN112949836A

CN112949836A - 对时变分布数据进行回归预测在线迁移学习的方法

Info

Publication number: CN112949836A
Application number: CN202110379573.XA
Authority: CN
Inventors: 林焱辉; 常亮
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-06-11

Abstract

本发明提供一种对时变分布数据进行回归预测在线迁移学习的方法，其包括以下步骤：S1：获取线下时变分布数据及其对应的标签；S2：将S1中的数据和标签按照时间先后顺序平均分为两部分；S3：建立第一预测模型LSTM‑DTLN；S4：建立第二预测模型LSTM‑DNN；S5：在在线阶段，精调LSTM‑DTLN模型；S6：利用LSTM‑DNN和得到的

个LSTM‑DTLN对在线数据进行预测，得到预测结果；S7：监测预测误差，当误差超过阈值th_p时，精调LSTM‑DTLN；S8：计算线下数据中随机样本和最近在线新样本学习到的特征之间的多核最大均值差异，当超过预定阈值th_d时，用最近的数据重建LSTM‑DTLN和LSTN‑DNN。本发明将深度学习与在线迁移学习相结合，解决了时变分布数据的在线回归预测问题。

Description

对时变分布数据进行回归预测在线迁移学习的方法

技术领域

本发明涉及深度迁移学习领域，尤其涉及一种对时变分布数据进行回归预测在线迁移学习的方法。

背景技术

随着传感器技术的进步和机器学习方法的快速发展，数据驱动方法在分类和回归预测任务中的应用越来越广泛。特别是一些深度学习方法已经成功地应用于图像识别和异常检测等任务中，如卷积神经网络(CNN)、长短时记忆网络(LSTM)等。深度学习方法可以很好地自动学习到输入数据的特征。大多数这些方法都假设训练数据和测试数据具有相似的分布。然而，由于工况变化或工艺参数的不同，许多实际应用中的数据分布是非平稳的，即会随着时间发生变化，这会导致不可靠的预测结果。为了解决这一问题，近年来人们对迁移学习进行了积极的研究，其目的是使一个在源域中训练的模型能够很好地应用于目标域中的数据。迁移学习的一个常用的思想是提取出各个域之间相互接近且包含足够判别输出信息的特征。通过将深度学习与迁移学习相结合，基于深度迁移学习的方法可以在不同任务中自动提取出域不变且包含足够判别输出信息的特征。

现有的关于迁移学习的研究工作大多假设预先提供了目标域的数据。然而，在一些实际应用中，如多语言文本分类、制造过程监控等，目标域的数据往往是依次到达的。在线迁移学习(Online Transfer Learning，OTL)作为迁移学习的一种，旨在处理依次到达的目标域数据。在OTL中的在线阶段，模型依次接收一个或多个输入数据及其对应的标签，然后根据最近数据的预测误差对预测模型进行更新。近年来，OTL得到了广泛的研究，然而，大多数的工作都致力于解决分类问题而关注回归预测问题的很少，但是回归预测问题在工业实践中非常常见。

现有的OTL方法假设目标域的数据分布是不变的。然而，在工业实践中，目标域数据的分布可能会随着时间而变化，即产生时变分布的数据，因此需要一种新的OTL方法来适应这种情况。

发明内容

为了克服现有技术的缺陷，本发明的目的在于提出一种对时变分布数据进行回归预测在线迁移学习的方法。为此需要建立适当的模型，通过迁移学习技术使模型能够提取出域不变且包含足够判别输出信息的特征，再根据在线预测的结果对模型进行不断更新，从而提高模型对新数据的预测准确度。

本发明提出的方法包括线下和在线两个阶段。在线下阶段，利用最大均值差异和均方误差作为深度神经网络的损失函数训练深度神经网络模型，使其能提取出域不变且包含足够判别输出信息的特征；在在线阶段，通过一种模型更新策略和模型融合方法，保证对时变分布数据的在线预测准确度。

具体地，本发明提供的一种对时变分布数据进行回归预测在线迁移学习的方法，其包括以下步骤：

S1：获取线下时变分布数据及其对应的标签，并对数据进行归一化，其中所述时变分布数据指多个传感器测量得到时间序列数据，且其分布随时间变化；

S2：将所述S1中获得的线下时变分布数据及其对应的标签按照时间先后顺序平均分为两部分，分别记为D_s1和D_s2，并再各自细分为训练组和验证组；

S3：用所述S2中的D_s1和D_s2的数据构建样本建立神经网络模型作为第一预测模型，记为LSTM-DTLN，使用训练组对所述神经网络模型进行训练，使用随机梯度下降算法更新神经网络模型中的参数，使用均方误差和多核最大均值差异作为训练时的损失函数，当验证组的预测误差停止减小时终止训练，所述LSTM-DTLN包含由4层LSTM层组成的特征提取器和由2层全连接层组成的预测器；

S4：用D_s2的数据建立第二预测模型LSTM-DNN，其中包括由4层LSTM层构成的特征提取器，以及由2层全连接层构成预测器，使用均方误差作为训练时的损失函数，该模型有助于进一步从线下数据中提取预测信息。

S5：在在线阶段，用最近的3000个有标签的样本精调所述S3中训练完成的LSTM-DTLN模型，精调时使用均方误差作为损失函数，且特征提取器的学习率要远小于预测器的学习率，为了防止过拟合或欠拟合，精调时取训练轮数分别为

得到

个精调后的LSTM-DTLN；

S6：利用所述S4中的LSTM-DNN和所述S5中得到的

个LSTM-DTLN对在线数据进行预测，并将预测结果加权起来，从而得到最终的预测结果，其中所述在线数据依次到来，获得一条在线数据后即用LSTM-DTLN预测其对应的标签，一段时间后，可以获得该条数据的真实标签，即可计算该条数据的预测误差；

S7：监测所述S6中的预测误差，当误差超过阈值th_p时，取预测误差最小的一个LSTM-DTLN，用最近的3000个有标签的样本精调该模型，精调时使用均方误差作为损失函数，且特征提取器的学习率要远小于预测器的学习率，为了防止过拟合或欠拟合，精调时取训练轮数分别为

得到

个精调后的LSTM-DTLN；

S8：计算由n个从线下数据中随机选取的样本和最近的n个在线新样本学习到的特征之间的多核最大均值差异，当它超过预定阈值th_d时，则用最近的数据重建LSTM-DTLN和LSTN-DNN。

可优选的是，所述预测模型的输入数据，是由多个时间步的多个传感器监测数据构成的矩阵。

可优选的是，在所述S3中训练LSTM-DTLN时的损失函数包含两个部分。首先，模型学习到的特征应包含足够的判别输出的信息。因此，第一个优化目标是最小化模型在D_s2上的预测误差，因为D_s2在时间上更接近于在线数据，因此选用这部分数据计算预测误差。使用均方误差(mean squared error，MSE)来衡量预测误差，这是一种广泛用于回归预测任务的损失函数，其计算公式如下：

式中，L_p为样本均方误差，m是D_s2中训练样本的批大小，y_i是第i个样本的标签，

是第i个样本的预测结果。其次，为了在在线阶段获得良好的预测效果，模型学习到的特征应该是域不变的。因此，第二个优化目标是最小化由D_s1和D_s2学到的特征的分布之间的差异。用多核最大均值差异(multiple kernel maximum mean discrepancy，MK-MMD)来衡量由D_s1和D_s2学到的特征的分布之间的差异。用

和

分别表示输入D_s1和D_s2的样本后特征提取器的输出的概率分布，这两个概率分布之间的MK-MMD定义为对应样本在再生核希尔伯特空间(reproducing kernel Hilbert space，RKHS)的均值的距离，在实际计算中采用MK-MMD的无偏估计：

式中，

为概率分布

和

之间的MK-MMD的无偏估计，m是来自

或

分布的样本的个数，两者样本的个数相同(D_s1和D_s2中样本的个数相同)，

和

分别代表来自分布

和

的样本，即由D_s1和D_s2学到的特征，k(·，·)是核函数，是j个核{k_u}的凸组合，即

其中j是核的数量，这里取j＝3，即由3个不同带宽的高斯核函数组合而成。所述训练LSTM-DTLN的损失函数的第二部分即为：

式中，f₁和f₂分别是输入D_s1和D_s2的样本后特征提取器的输出，

和

分别代表f₁和f₂的概率分布。为了学到包含足够判别输出信息且具有域不变性的特征，将这两个优化目标结合起来，最终损失函数为：

L＝L_p+λL_d

式中，超参数λ表示第二个损失函数的权重，可以根据对提取出的特征的可视化确定其取值。

可优选的是，在所述S6中将所述S4中的LSTM-DNN和所述S5中得到的

个LSTM-DTLN的在线数据预测结果进行加权时，在时间点i，给定一个样本X_i，其最终的加权预测结果由下式计算得到：

式中，

是微调了e_s轮得到的LSTM-DTLN模型的输出结果，

是LSTM-DNN的输出结果，w_s，i和

是权重参数，由下式动态更新得到：

式中，y_i-n是X_i-n的标签。

可优选的是，所述S7中监测预测误差时，每接收到n(n＞1)个真实标签计算一次模型的预测值与真实标签的均方根误差，以减少随机性的影响，当该误差超过预定阈值时，即精调LSTM-DTLN.

可有选的是，所述S8中阈值th_d的取值，可以通过计算线下阶段LSTM-DTLN模型学到的D_s1和D_s2的每一个训练批的特征之间的MK-MMD，将其中的最大值作为th_d.

与现有技术相比，本发明具有以下有益效果：

1、本发明将深度学习与0TL相结合，深度神经网络不仅能自动学习特征，而且具有良好的可迁移性，模型可以通过精调来适应新的数据，使得方法可以用于在线回归预测任务；

2、本发明能够解决时变分布数据的在线回归预测问题，在线下阶段，基于已有的有标签多维时序数据，即时变分布产生的源域数据，建立了第一预测模型，为了减小数据分布的差异，通过多层LSTM神经网络，并借助一个分布差异度量来学习域不变特征；在在线阶段，预测模型依次接收到在线数据，即时变分布产生的目标域数据，根据最近数据的预测误差，采用基于精调的更新策略对第一预测模型进行更新，这样，边际概率分布和条件概率分布的差异对预测任务的不利影响就可以得到缓解。

3、本发明通过一种集成方法来避免在线阶段更新模型时过拟合和欠拟合的问题，从而获得更好的在线回归预测效果。

附图说明

图1是本发明一种对时变分布数据进行回归预测的在线迁移学习方法的步骤流程图；

图2是柴油加氢精制过程及部分传感器示意图；

图3时柴油加氢精制在线监测过程示意图；

图4是LSTM-DTLN模型的结构示意图；

图5(a)-5(c)是不同λ得到的LSTM-DTLN模型学到的特征的可视化示意图；

图6是LSTM-DNN模型的结构示意图；

图7是不同方法的在线数据预测绝对误差箱型图。

具体实施方式

为更好的理解本发明的技术方案，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

本发明提出一种对时变分布数据进行回归预测的在线迁移学习方法，在线下阶段建立第一预测模型和第二预测模型，在在线阶段对第一预测模型进行更新，再结合一种模型集成方法，从而获得更准确的在线预测结果。如图1所示，具体实施步骤如下：

步骤S1：获取线下时变分布数据及其对应的标签，并对数据进行归一化，其中时变分布数据指多个传感器测量得到的时间序列数据，且其分布随时间变化。

在本实施例中，所用数据是某石化车间柴油加氢精制过程的实际数据。数据收集自柴油加氢精制过程。加氢精制是在一定的温度、压力、氢油比和空速条件下，将原料油和氢气通过反应器催化剂床层的过程。在催化剂的作用下，硫、氮、氧等非烃化合物转化为相应的碳氢化合物、硫化氢、氨和水，从而降低柴油中的硫含量。图2简要说明了该过程和一些传感器。硫含量取决于原料油的性质、催化剂的活性以及反应温度、流量等工艺参数。通过利用多个传感器的在线监测数据预测硫含量，有助于调整工艺参数从而满足生产需求，时间序列数据即是这些传感器记录的原料油的性质和加氢精制过程的工艺参数。传感器包括温度传感器和流量(含量)传感器，共19个传感器。

在每个时间点i，记录这19个传感器的监测数据，并用m_i来表示这19个数据点组成的向量。将6个时间点的监测数据作为输入来预测最后一个时间点对应的标签，因此，输入数据是6×19维的矩阵

当获得在线监测数据m_i时，需要预测其对应的硫含量值。一段时间后，反应完成并可以得到其真实的标签y_i。在这段时间里，会依次获得之后80个时间点的监测数据{m_i+1，m_i+2，...，m_i+80}，从而得到80个新样本{X_i+1，X_i+2，...，X_i+80}。这个在线监测过程如图3所示。

随着时间的推移，催化剂的活性逐渐降低，这对反应有直接的影响。然而没有传感器可以测量催化剂的活性。此外，原料油的性质也可能发生变化。因此，这些监测数据的边际概率分布和条件概率分布都会随时间发生变化，即是时变分布数据。

获取

和

作为线下阶段的时变分布数据及其对应的标签，并分别将每个传感器数据和标签归一化到0到1之间。

步骤S2：将获得的线下时变分布数据及其对应的标签按照时间先后顺序平均分为两部分，分别记为D_s1和D_s2，具体地，将

作为D_s1的训练组，

作为D_s1的验证组，

作为D_s2的训练组，

作为D_s2的验证组。训练组用于训练模型，验证组用于判断何时停止训练。

步骤S3：用D_s1和D_s2的数据建立神经网络模型，记为LSTM-DTLN(长短时记忆-深度迁移学习网络)，模型的结构如图4所示。其中，由4层LSTM层构成特征提取器，用于自动学习特征，以提取出域不变且包含足够判别输出信息的特征，之后由2层全连接层构成预测器，根据提取的特征计算输出预测结果。特征提取器接收来自D_s1和D_s2的样本数据，样本数据是多维序列数据，因此采用多层LSTM进行特征提取，它可以解决梯度消失问题，并且可以提取出数据中的长时相关性，特征提取器提取出D_s1和D_s2输入数据的特征分别记为f₁和f₂，计算f₁和f₂之间的MK-MMD(multiple kernel maximum mean discrepancy多核最大均值差异)作为损失函数的第一部分L_d，同时将f₂输入到预测器，预测器根据提取出的特征计算输出预测结果，并计算其与标签的均方误差，作为损失函数的第二部分L_p，利用反向传播计算损失函数L_d和L_p对特征提取器和预测器的参数的梯度，从而使用随机梯度下降算法更新模型的参数。使用训练组对模型进行训练，当验证组的预测误差停止减小时终止训练。

在线下阶段训练LSTM-DTLN时的损失函数包含两个部分，即L_d和L_p。首先，模型学习到的特征应包含足够的判别输出的信息。因此，第一个优化目标是最小化模型在D_s2上的预测误差，因为D_s2在时间上更接近于在线数据，因此选用这部分数据计算预测误差。使用均方误差(mean squared error，MSE)来衡量预测误差，这是一种广泛用于回归预测任务的损失函数，其计算公式如下：

式中，m是D_s2中训练样本的批大小，y_i是第i个样本的标签，

和

分别表示输入D_s1和D_s2的样本后特征提取器的输出的概率分布，这两个概率分布之间的MK-MMD定义为对应样本在再生核希尔伯特空间(reproducingkernel Hilbert space，RKHS)的均值的距离，在实际计算中采用MK-MMD的无偏估计：

式中，

为概率分布

和

之间的MK-MMD的无偏估计，m是来自

或

和

分别代表来自分布

和

的样本，即由D_s1和D_s2学到的特征，k(·，·)是核函数，是j个核{k_u}的凸组合，刚

其中j是核的数量，这里取j＝3，即由3个不同带宽的高斯核函数组合而成。训练LSTM-DTLN的损失函数的第二部分即为：

和

分别代表f₁和f₂的概率分布。为了学到包含足够判别输出信息且具有域不变性的特征，我们将这两个优化目标结合起来，最终损失函数为：

L＝L_p+λL_d

式中，超参数λ表示第二个损失函数的权重，过小的λ会导致

和

之间的距离过大，即无法得到域不变特征，而过大的λ会导致学到的特征缺少判别输出信息，可以根据对提取出的特征的可视化确定其取值。在本实施例中，对不同λ得到的LSTM-DTLN模型学到的

和

的特征进行可视化，结果如图5(a)-5(c)所示，分别显示了λ不同取值时特征的分布差异。可以看出，如果λ太小(图5(a))，则特征的分布差异过大，而如果λ太大(图5(c))，则特征没有很好地分散，即特征包含很少的判断输出信息。当λ＝0.075(图5(b))时，学到的特征可以很好地对齐，并且可以获得清晰的判别结构，因此可以获得更好的预测效果。

训练过程中其他的超参数如表1所示：

表1.线下阶段训练LSTM-DTLN模型的相关超参数.

超参数	值
		LSTM层层数	4
全连接层层数	2
		批大小	512
MK-MMD核数	3

步骤S4：用D_s2的数据建立另外一个预测模型LSTM-DNN(长短时记忆-深度神经网络)，其结构如图6所示，由4层LSTM构成特征提取器，由2层全连接层构成预测器，使用均方误差作为训练时的损失函数，该模型有助于进一步从线下数据中提取预测信息。

步骤S5：在在线阶段，用最近的3000个有标签的样本精调线下阶段获得的LSTM-DTLN模型，精调时使用均方误差作为损失函数，且特征提取器的学习率要远小于预测器的学习率，为了防止过拟合或欠拟合，精调时取训练轮数分别为

得到

个精调后的LSTM-DTLN，根据线下阶段的实验结果和经验，这里取

即每次精调后取3个LSTM-DTLN。

步骤S6：利用步骤S4中的LSTM-DNN和步骤S5中得到的3个LSTM-DTLN对在线数据进行预测，并将预测结果加权起来，从而得到最终的预测结果。在时间点i，给定一个样本X_i，其最终的加权预测结果由下式计算得到：

式中，

是微调了e_s轮得到的LSTM-DTLN模型的输出结果，e₁＝5，e₂＝50，e₃＝100，

是LSTM-DNN的输出结果，w_s，i和

是权重参数，由下式动态更新得到：

式中，y_i-n是X_i-n的标签。在线数据依次到来，获得一条在线数据后即用LSTM-DTLN和LSTM-DNN预测其对应的标签，一段时间后，可以获得该条数据的真实标签，即可计算该条数据的预测误差。

通过上述模型集成方法，可以有效地避免精调时模型过拟合和欠拟合问题，从而获得准确的在线预测结果。

步骤S7：监测在线预测误差，计算每80个在线数据的预测误差，当误差超过阈值th_p时，取预测误差最小的一个LSTM-DTLN，用最近的3000个有标签的样本精调该模型，精调时使用均方误差作为损失函数，且特征提取器的学习率要远小于预测器的学习率，根据生产需求，这里取th_p＝0.8，为了防止过拟合或欠拟合，精调时取训练轮数分别为

得到3个精调后的LSTM-DTLN。在线阶段更新模型相关的其他超参数如表2所示：

表2.在线阶段更新LSTM-DTLN模型相关的超参数.

参数	值
		计算在线预测误差的样本数n	80
预测误差阈值th<sub>p</sub>	0.8
		特征提取器的学习率	0.0002
预测器的学习率	0.001

通过利用在线数据对模型不断更新，可以有效地解决数据的条件概率分布差异，使模型适用于不断更新的在线数据。

步骤S8：计算由n个从线下数据中随机选取的样本和最近的n个在线新样本学习到的特征之间的多核最大均值差异，当它超过预定阈值th_d时，则用最近的数据重建LSTM-DTLN和LSTN-DNN。当数据分布出现过大变化时，已有的LSTM-DTLN和LSTN-DNN可能不适用于新数据，则需要用最近的数据重建这两个模型。计算线下阶段LSTM-DTLN模型学到的D_s1和D_s2的每一个训练批的特征之间的MK-MMD，将其中的最大值作为th_d，这里th_d＝1.1.

在本实施例中，按照上述方法步骤，在线阶段第一预测模型共更新6次，每次更新后的预测误差如表3所示，表中用均方根误差(RMSE)计算预测误差。作为比较，采用了两种广泛使用的迁移学习技术，一种是对模型的全连接层进行微调(用FTNN表示)，另一种是神经网络的领域对抗性训练(用DANN表示)。在本文中，FTNN以LSTM-DNN模型为基础模型，当在线预测误差超过阈值时对全连接层进行微调，DANN只是在LSTM-DNN模型中加入一个域分类器，用特征提取器和域分类器对抗训练的方式提取域不变特征。二者的预测误差在表3中给出，可以看出，本发明的在线回归预测方法优于其他方法，能够更好地对由时变分布产生的在线数据进行预测。由于条件概率分布的差异，无更新的LSTM-DTLN模型的表现并不令人满意。FTNN可以利用最近的数据对模型进行更新，但不能学习域不变特征。另一方面，DANN可以通过域对抗性训练学到域不变特征，但缺乏适应新数据的模型更新策略。因此，这两种迁移学习技术不能很好地应用于时变分布数据的在线回归预测任务。

表3.不同方法的在线预测均方根误差.

为了进一步说明本发明的模型集成方法的有效性，图7给出了通过不同方法得到的在线数据中每个样本的绝对误差的箱型图。可以看出，本发明方法的预测误差的标准差较小，这意味着预测准确度和稳定性都得到了提高。

最后应说明的是：以上所述的实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种对时变分布数据进行回归预测在线迁移学习的方法，其特征在于：其包括以下步骤：

S3：用所述S2中的D_s1和D_s2的数据构建样本建立神经网络模型作为第一预测模型，记为LSTM-DTLN，使用训练组对所述神经网络模型进行训练，使用随机梯度下降算法更新神经网络模型中的参数，使用均方误差和多核最大均值差异作为训练时的损失函数，当验证组的预测误差停止减小时终止训练，所述LSTM-STLN包含由4层LSTM层组成的特征提取器和由2层全连接层组成的预测器；

S4：用D_s2的数据建立第二预测模型LSTM-DNN，其中包括由4层LSTM层构成的特征提取器，以及由2层全连接层构成预测器，使用均方误差作为训练时的损失函数；