CN116629126A

CN116629126A - 一种基于动态多头注意力机制的软测量建模方法

Info

Publication number: CN116629126A
Application number: CN202310608515.9A
Authority: CN
Inventors: 高世伟; 赵文丰; 党小超; 董晓辉; 张稣艾; 曾宇峰; 方则宇; 陈致伟
Original assignee: Northwest Normal University
Current assignee: Northwest Normal University
Priority date: 2023-05-27
Filing date: 2023-05-27
Publication date: 2023-08-22

Abstract

工业过程是个复杂的系统，影响工业过程的变量众多，与关键质量变量之间的关系并不是简单线性相关的，工业过程数据有强非线性的特性。表示学习方法常被用来建模挖掘数据间的非线性关系，然而如何获得更好的特征表示，实现更好的预测性能仍需要进一步探究。本发明公开了一种基于动态多头注意力机制的软测量建模方法。该方法结合动态多头注意力机制发明了一种新的软测量方法TAE‑DMHA。动态多头注意力机制将不同头数设置的多头注意力信息融合起来，综合考虑不同感受野下的注意力信息，对获得更好的特征表示有益。另外在重构损失函数中，采用非线性的斯皮尔曼相关性系数计算确定不同变量在重构过程中的损失权重。在一个工业实例上的实验验证了本发明能够提取比其他方法更有效的特征表示，预测性能有所提升，对监控优化工业生产具有指导意义。

Description

一种基于动态多头注意力机制的软测量建模方法

技术领域

本发明专利涉及一种软测量建模方法，该方法在工业生产领域具有重要的应用和推广价值。

背景技术

工业生产过程复杂多变，快速准确地获得关键质量变量数据对于监控工业生产过程来说非常重要。软测量技术通过构建辅助变量和关键质量变量间的数学关系模型计算得到关键质量变量的数值，能够有效解决部分关键质量变量获得困难的问题。目前，关于建立软测量模型预测工业过程中的关键质量变量的研究越发深入，其中基于深度学习的软测量建模方法展现了极大的优势，一方面，是因为其不需要深入探索系统内部机理，仅仅依赖过程历史数据，就能实现高于传统软测量模型的预测精度，另一方面，是因为其具有强大的对复杂非线性工业系统的表示能力。自编码器是软测量常用的一种深度学习方法，通过重构尽可能准确的输入来获得能够描述工业过程信息的特征表示，然后以得到的特征表示作为输入预测得到目标结果。在这个过程中，特征表示的质量与模型的预测性能紧密相关。如何获得更好的特征表示，从而实现更好的预测性能值得进行深入的研究。

发明内容

为了获得更好的特征表示，实现更好的预测性能，本发明提出一种基于动态多头注意力机制的软测量建模方法，结合动态多头注意力机制发明了一种新的软测量方法TAE-DMHA，该方法能够提升对复杂非线性工业系统的高精度建模能力。

本发明主要包括八个部分：(1)获取数据，确定输入变量和目标变量；(2)对数据进行预处理；(3)计算各个输入变量和目标变量的相关性系数；(4)建立重构模型；(5)训练重构模型；(6)建立回归模型；(7)训练回归模型；(8)验证本发明提出的模型性能。下面分别介绍以上八个部分的内容：

1、获取数据，确定输入变量和目标变量。利用各种传感器和手段获取真实工业场景下的数据，以辅助变量数据作为输入变量，以与工业过程产品密切相关的关键质量变量数据作为目标变量。

2、对数据进行预处理。真实工业场景下的数据并不能够直接使用，首先真实数据包含大量的噪声，需要对数据进行降噪处理；此外，由于获得的各类型变量属性不同，数据的量纲也不同，增加了模型学习数据的挑战，因此需要对数据进行归一化操作来统一量纲。

3、计算各个输入变量和目标变量的相关性系数。不同的输入变量对目标变量的影响不同，对更重要的变量应该赋予更大的权重，因此引入相关性系数来衡量不同的变量对目标变量的重要性程度。由于工业数据具有强非线性的特性，我们采用非线性的斯皮尔曼相关性系数计算各个输入变量和目标变量的相关性。

4、建立重构模型。重构模型对输入特征进行编码和解码操作来重构输入变量。编码过程通过基于动态多头注意力机制的Transformer编码器模块完成，解码过程通过几层全连接神经网络完成。

5、训练重构模型。根据3中计算得到的各个输入变量和目标变量的相关性系数确定重构损失函数，训练模型参数来获得尽可能小的重构损失。

6、建立回归模型。通过多层神经网络预测目标变量值。

7、训练回归模型。确定损失函数，优化模型参数。

8、验证模型性能。将真实工业数据输入模型预测得到预测结果。比较预测结果和真实结果的误差，误差越小，模型性能越好。

本发明所采用的技术方案的详细实施步骤如下：

步骤1：获取数据，确定输入变量和目标变量。利用各种传感器和手段获取真实工业场景下的数据，以辅助变量数据作为输入变量，以与工业过程产品密切相关的关键质量变量数据作为目标变量。

步骤2：对数据进行预处理。工业数据中采集到的实时数据往往具有噪声，还有可能包括异常数据，这些数据样本会对模型训练产生较大的影响。此外，由于各类型变量属性不同，数据的量纲也不同，增加了模型学习数据的挑战，因此在剔除异常数据后要对数据进行归一化操作来统一量纲。采用最大最小归一化方法统一所有数据的量纲，具体方法如下：

其中max和min分别表示某变量的最大值和最小值，x'表示该变量进行最大最小归一化操作后的结果。

步骤3：计算各个输入变量和目标变量的相关性系数。不同的输入变量对目标变量的影响不同，对更重要的变量应该赋予更大的权重。因此，引入相关性系数来衡量不同的变量对目标变量的重要性程度。由于工业数据具有强非线性的特性，采用非线性的斯皮尔曼相关性系数计算各个输入变量和目标变量的相关性。斯皮尔曼相关性系数的计算方法如下：

其中，d_i表示顺序的差值，n表示样本个数。

步骤4：建立重构模型。目标导向的自编码器模型对输入特征进行编码和解码操作来重构输入变量。首先根据步骤4.1、4.2处理输入，得到的结果进行编码。编码过程通过基于动态多头注意力机制的Transformer编码器模块完成，具体包括步骤4.3、4.4、4.5、4.6、4.7，然后根据步骤4.8对数据进行降维。根据步骤4.9进行解码，解码过程通过几层全连接神经网络完成。

步骤4.1：升维。升维操作将数据调整为合适的维度，有N个辅助变量的输入向量X∈R^N被升维成X∈R^N×D，其中D是每个辅助变量升维后的维度。

步骤4.2：位置编码。位置编码的具体方法如下：

其中，pos表示位置，d表示维度。得到的位置编码结果PE∈R^N×D，将步骤4.1得到的X和PE相加得到注入了位置信息的X_PE。

步骤4.3：计算某一头数设置下的多头注意力信息。头数设置为num_heads_n时，X_PE被划分到num_heads_n个子空间中做注意力计算。在子空间head_n中，可训练矩阵q_n,k_n,v_n根据以下公式做注意力计算：

将num_heads_n个子空间计算出的注意力head_n简单拼接起来：

MHA(X_PE)＝Concat(head₁,head₂,…,head_n)

步骤4.4：计算动态多头注意力信息。动态多头注意力机制将不同头数设置的多头注意力信息融合起来，综合考虑不同感受野下的注意力信息。动态多头注意力机制设置n种多头注意力头数num_heads₁,num_heads₂,…,num_heads_n，根据步骤4.3计算n种头数设置下的多头注意力信息MHA₁,MHA₂,...,MHA_n，n个注意力矩阵经过拼接后输入一个Dense层，完成多种多头注意力信息的融合。动态多头注意力的计算过程可表示为：

DMHA(X_PE,n)＝Dense(Concat(MHA₁(X_PE),MHA₂(X_PE),...,MHA_n(X_PE)))

步骤4.5：按照以下公式得到残差连接和层归一化操作结果。

Enout¹＝LayerNormalization(X_PE+DMHA(X_PE,n))

步骤4.6：将步骤4.5得到的Enout¹输入前馈神经网络，并按照以下公式得到残差连接和层归一化操作结果。

Enout²＝LayerNormalization(Enout¹+FeedForward(Enout¹))

步骤4.7：重复步骤4.3、4.4，4.5，4.6N次。

步骤4.8：降维。步骤4.7得到的全局非线性特征在此步骤中经由全局平均池化层整合信息并降维，此时得到的是对X∈R^N的特征表示H∈R^D。

步骤4.9：解码。将步骤4.8得到的特征表示H∈R^D输入解码器，解码器由三层全连接层构成，各层的神经元个数分别是[58,48,38]，为了防止过拟合，dropout层被应用在各层之间。解码器解码后得到重构的输入数据X_recon∈R^N。

步骤5：训练重构模型。根据步骤3中计算得到的各个输入变量和目标变量的斯皮尔曼相关性系数确定重构损失函数，训练模型参数来获得尽可能小的重构损失。N个变量的重构误差权重矩阵为ρ，具体操作如下：

重构模型的损失函数可以表示为：

其中，m是参与训练目标导向的自编码器模型的样本数量。

步骤6：建立回归模型。通过多层神经网络预测目标变量值。重构模型训练完成后，步骤4.8的输出结果作为回归模型的输入，通过四层非线性全连接层将输入映射为输出结果Y_pre。全连接层各层的神经元个数分别设置为[32,16,8,1]，非线性激活函数为Sigmoid函数。

步骤7：训练回归模型。确定损失函数，优化模型参数。损失函数表示为：

其中，m'是参与训练回归模型的样本数量。

步骤8：验证本发明提出的模型性能。将真实工业数据输入模型预测得到预测结果。比较预测结果和真实结果的误差，误差越小，模型性能越好。

本发明的关键效果在于通过提出的动态多头注意力机制和斯皮尔曼非线性变量重构权重提升了模型对复杂和非线性的工业系统的表示能力，适合应用于复杂非线性的工业系统上，实现更好的预测效果。

附图说明

图1是本发明的基于动态多头注意力机制的软测量建模方法总体结构图

图2是在工业蒸汽量数据集上本发明和其他方法的预测误差图

图3是在工业蒸汽量数据集上本发明和其他方法的预测误差散点图

具体实施方式

下面结合附图和实例对本发明进一步说明。

本发明为基于动态多头注意力机制的软测量建模方法。基于火力发电厂采集到的工业蒸汽量数据集实现了一个实例。模型的总体结构如图1所示。

(1)火力发电过程描述

火力发电的过程是通过往燃烧炉里加水产生蒸汽，蒸汽压力推动发电设备运转发电。因此蒸汽量的监测对火力发电过程来说非常重要。在火力发电的工业过程中，一些辅助变量数据被装置传感器获得，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。关键质量变量为蒸汽量。

(2)数据集和评价指标描述

现有的工业蒸汽量数据集包含2888组样本数据，设置训练集数量是2000个，测试集数量888个。

模型的预测评价指标采用均方误差MSE、均方根误差RMSE和平均绝对误差MAE。

其中，m表示样本数据的个数，分别表示样本i的真实值和预测值。

(3)模型性能对比

为了比较本发明所建立的一种基于动态多头注意力机制的软测量模型的优劣，这里使用的对比模型为SVR、MLP、AE。

表1展示了基于动态多头注意力机制的软测量建模方法的预测评价指标MSE、MAE和RMSE结果。图2展示了SVR、MLP、AE和本发明提出方法的预测误差图。图3展示了SVR、MLP、AE和本发明提出方法的预测误差散点图。可以看出，模型预测效果排序为TAE-DMHA＞AE＞MLP＞SVR，由此可以看出本发明提出的TAE-DMHA获得了最好的预测结果。结果表明，本发明可以更准确地监测蒸汽量数据。

表1预测结果对比

Claims

1.一种基于动态多头注意力机制的软测量建模方法，其特征在于：包括以下步骤：

步骤3：计算各个输入变量和目标变量的相关性系数。不同的输入变量对目标变量的影响不同，对更重要的变量应该赋予更大的权重，因此引入相关性系数来衡量不同的变量对目标变量的重要性程度。由于工业数据具有强非线性的特性，我们采用非线性的斯皮尔曼相关性系数计算各个输入变量和目标变量的相关性。斯皮尔曼相关性系数的计算方法如下：