CN116629126A - 一种基于动态多头注意力机制的软测量建模方法 - Google Patents

一种基于动态多头注意力机制的软测量建模方法 Download PDF

Info

Publication number
CN116629126A
CN116629126A CN202310608515.9A CN202310608515A CN116629126A CN 116629126 A CN116629126 A CN 116629126A CN 202310608515 A CN202310608515 A CN 202310608515A CN 116629126 A CN116629126 A CN 116629126A
Authority
CN
China
Prior art keywords
data
head
model
input
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310608515.9A
Other languages
English (en)
Inventor
高世伟
赵文丰
党小超
董晓辉
张稣艾
曾宇峰
方则宇
陈致伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Normal University
Original Assignee
Northwest Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Normal University filed Critical Northwest Normal University
Priority to CN202310608515.9A priority Critical patent/CN116629126A/zh
Publication of CN116629126A publication Critical patent/CN116629126A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/10Noise analysis or noise optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Feedback Control In General (AREA)

Abstract

工业过程是个复杂的系统,影响工业过程的变量众多,与关键质量变量之间的关系并不是简单线性相关的,工业过程数据有强非线性的特性。表示学习方法常被用来建模挖掘数据间的非线性关系,然而如何获得更好的特征表示,实现更好的预测性能仍需要进一步探究。本发明公开了一种基于动态多头注意力机制的软测量建模方法。该方法结合动态多头注意力机制发明了一种新的软测量方法TAE‑DMHA。动态多头注意力机制将不同头数设置的多头注意力信息融合起来,综合考虑不同感受野下的注意力信息,对获得更好的特征表示有益。另外在重构损失函数中,采用非线性的斯皮尔曼相关性系数计算确定不同变量在重构过程中的损失权重。在一个工业实例上的实验验证了本发明能够提取比其他方法更有效的特征表示,预测性能有所提升,对监控优化工业生产具有指导意义。

Description

一种基于动态多头注意力机制的软测量建模方法
技术领域
本发明专利涉及一种软测量建模方法,该方法在工业生产领域具有重要的应用和推广价值。
背景技术
工业生产过程复杂多变,快速准确地获得关键质量变量数据对于监控工业生产过程来说非常重要。软测量技术通过构建辅助变量和关键质量变量间的数学关系模型计算得到关键质量变量的数值,能够有效解决部分关键质量变量获得困难的问题。目前,关于建立软测量模型预测工业过程中的关键质量变量的研究越发深入,其中基于深度学习的软测量建模方法展现了极大的优势,一方面,是因为其不需要深入探索系统内部机理,仅仅依赖过程历史数据,就能实现高于传统软测量模型的预测精度,另一方面,是因为其具有强大的对复杂非线性工业系统的表示能力。自编码器是软测量常用的一种深度学习方法,通过重构尽可能准确的输入来获得能够描述工业过程信息的特征表示,然后以得到的特征表示作为输入预测得到目标结果。在这个过程中,特征表示的质量与模型的预测性能紧密相关。如何获得更好的特征表示,从而实现更好的预测性能值得进行深入的研究。
发明内容
为了获得更好的特征表示,实现更好的预测性能,本发明提出一种基于动态多头注意力机制的软测量建模方法,结合动态多头注意力机制发明了一种新的软测量方法TAE-DMHA,该方法能够提升对复杂非线性工业系统的高精度建模能力。
本发明主要包括八个部分:(1)获取数据,确定输入变量和目标变量;(2)对数据进行预处理;(3)计算各个输入变量和目标变量的相关性系数;(4)建立重构模型;(5)训练重构模型;(6)建立回归模型;(7)训练回归模型;(8)验证本发明提出的模型性能。下面分别介绍以上八个部分的内容:
1、获取数据,确定输入变量和目标变量。利用各种传感器和手段获取真实工业场景下的数据,以辅助变量数据作为输入变量,以与工业过程产品密切相关的关键质量变量数据作为目标变量。
2、对数据进行预处理。真实工业场景下的数据并不能够直接使用,首先真实数据包含大量的噪声,需要对数据进行降噪处理;此外,由于获得的各类型变量属性不同,数据的量纲也不同,增加了模型学习数据的挑战,因此需要对数据进行归一化操作来统一量纲。
3、计算各个输入变量和目标变量的相关性系数。不同的输入变量对目标变量的影响不同,对更重要的变量应该赋予更大的权重,因此引入相关性系数来衡量不同的变量对目标变量的重要性程度。由于工业数据具有强非线性的特性,我们采用非线性的斯皮尔曼相关性系数计算各个输入变量和目标变量的相关性。
4、建立重构模型。重构模型对输入特征进行编码和解码操作来重构输入变量。编码过程通过基于动态多头注意力机制的Transformer编码器模块完成,解码过程通过几层全连接神经网络完成。
5、训练重构模型。根据3中计算得到的各个输入变量和目标变量的相关性系数确定重构损失函数,训练模型参数来获得尽可能小的重构损失。
6、建立回归模型。通过多层神经网络预测目标变量值。
7、训练回归模型。确定损失函数,优化模型参数。
8、验证模型性能。将真实工业数据输入模型预测得到预测结果。比较预测结果和真实结果的误差,误差越小,模型性能越好。
本发明所采用的技术方案的详细实施步骤如下:
步骤1:获取数据,确定输入变量和目标变量。利用各种传感器和手段获取真实工业场景下的数据,以辅助变量数据作为输入变量,以与工业过程产品密切相关的关键质量变量数据作为目标变量。
步骤2:对数据进行预处理。工业数据中采集到的实时数据往往具有噪声,还有可能包括异常数据,这些数据样本会对模型训练产生较大的影响。此外,由于各类型变量属性不同,数据的量纲也不同,增加了模型学习数据的挑战,因此在剔除异常数据后要对数据进行归一化操作来统一量纲。采用最大最小归一化方法统一所有数据的量纲,具体方法如下:
其中max和min分别表示某变量的最大值和最小值,x'表示该变量进行最大最小归一化操作后的结果。
步骤3:计算各个输入变量和目标变量的相关性系数。不同的输入变量对目标变量的影响不同,对更重要的变量应该赋予更大的权重。因此,引入相关性系数来衡量不同的变量对目标变量的重要性程度。由于工业数据具有强非线性的特性,采用非线性的斯皮尔曼相关性系数计算各个输入变量和目标变量的相关性。斯皮尔曼相关性系数的计算方法如下:
其中,di表示顺序的差值,n表示样本个数。
步骤4:建立重构模型。目标导向的自编码器模型对输入特征进行编码和解码操作来重构输入变量。首先根据步骤4.1、4.2处理输入,得到的结果进行编码。编码过程通过基于动态多头注意力机制的Transformer编码器模块完成,具体包括步骤4.3、4.4、4.5、4.6、4.7,然后根据步骤4.8对数据进行降维。根据步骤4.9进行解码,解码过程通过几层全连接神经网络完成。
步骤4.1:升维。升维操作将数据调整为合适的维度,有N个辅助变量的输入向量X∈RN被升维成X∈RN×D,其中D是每个辅助变量升维后的维度。
步骤4.2:位置编码。位置编码的具体方法如下:
其中,pos表示位置,d表示维度。得到的位置编码结果PE∈RN×D,将步骤4.1得到的X和PE相加得到注入了位置信息的XPE
步骤4.3:计算某一头数设置下的多头注意力信息。头数设置为num_headsn时,XPE被划分到num_headsn个子空间中做注意力计算。在子空间headn中,可训练矩阵qn,kn,vn根据以下公式做注意力计算:
将num_headsn个子空间计算出的注意力headn简单拼接起来:
MHA(XPE)=Concat(head1,head2,…,headn)
步骤4.4:计算动态多头注意力信息。动态多头注意力机制将不同头数设置的多头注意力信息融合起来,综合考虑不同感受野下的注意力信息。动态多头注意力机制设置n种多头注意力头数num_heads1,num_heads2,…,num_headsn,根据步骤4.3计算n种头数设置下的多头注意力信息MHA1,MHA2,...,MHAn,n个注意力矩阵经过拼接后输入一个Dense层,完成多种多头注意力信息的融合。动态多头注意力的计算过程可表示为:
DMHA(XPE,n)=Dense(Concat(MHA1(XPE),MHA2(XPE),...,MHAn(XPE)))
步骤4.5:按照以下公式得到残差连接和层归一化操作结果。
Enout1=LayerNormalization(XPE+DMHA(XPE,n))
步骤4.6:将步骤4.5得到的Enout1输入前馈神经网络,并按照以下公式得到残差连接和层归一化操作结果。
Enout2=LayerNormalization(Enout1+FeedForward(Enout1))
步骤4.7:重复步骤4.3、4.4,4.5,4.6N次。
步骤4.8:降维。步骤4.7得到的全局非线性特征在此步骤中经由全局平均池化层整合信息并降维,此时得到的是对X∈RN的特征表示H∈RD
步骤4.9:解码。将步骤4.8得到的特征表示H∈RD输入解码器,解码器由三层全连接层构成,各层的神经元个数分别是[58,48,38],为了防止过拟合,dropout层被应用在各层之间。解码器解码后得到重构的输入数据X_recon∈RN
步骤5:训练重构模型。根据步骤3中计算得到的各个输入变量和目标变量的斯皮尔曼相关性系数确定重构损失函数,训练模型参数来获得尽可能小的重构损失。N个变量的重构误差权重矩阵为ρ,具体操作如下:
重构模型的损失函数可以表示为:
其中,m是参与训练目标导向的自编码器模型的样本数量。
步骤6:建立回归模型。通过多层神经网络预测目标变量值。重构模型训练完成后,步骤4.8的输出结果作为回归模型的输入,通过四层非线性全连接层将输入映射为输出结果Y_pre。全连接层各层的神经元个数分别设置为[32,16,8,1],非线性激活函数为Sigmoid函数。
步骤7:训练回归模型。确定损失函数,优化模型参数。损失函数表示为:
其中,m'是参与训练回归模型的样本数量。
步骤8:验证本发明提出的模型性能。将真实工业数据输入模型预测得到预测结果。比较预测结果和真实结果的误差,误差越小,模型性能越好。
本发明的关键效果在于通过提出的动态多头注意力机制和斯皮尔曼非线性变量重构权重提升了模型对复杂和非线性的工业系统的表示能力,适合应用于复杂非线性的工业系统上,实现更好的预测效果。
附图说明
图1是本发明的基于动态多头注意力机制的软测量建模方法总体结构图
图2是在工业蒸汽量数据集上本发明和其他方法的预测误差图
图3是在工业蒸汽量数据集上本发明和其他方法的预测误差散点图
具体实施方式
下面结合附图和实例对本发明进一步说明。
本发明为基于动态多头注意力机制的软测量建模方法。基于火力发电厂采集到的工业蒸汽量数据集实现了一个实例。模型的总体结构如图1所示。
(1)火力发电过程描述
火力发电的过程是通过往燃烧炉里加水产生蒸汽,蒸汽压力推动发电设备运转发电。因此蒸汽量的监测对火力发电过程来说非常重要。在火力发电的工业过程中,一些辅助变量数据被装置传感器获得,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。关键质量变量为蒸汽量。
(2)数据集和评价指标描述
现有的工业蒸汽量数据集包含2888组样本数据,设置训练集数量是2000个,测试集数量888个。
模型的预测评价指标采用均方误差MSE、均方根误差RMSE和平均绝对误差MAE。
其中,m表示样本数据的个数,分别表示样本i的真实值和预测值。
(3)模型性能对比
为了比较本发明所建立的一种基于动态多头注意力机制的软测量模型的优劣,这里使用的对比模型为SVR、MLP、AE。
表1展示了基于动态多头注意力机制的软测量建模方法的预测评价指标MSE、MAE和RMSE结果。图2展示了SVR、MLP、AE和本发明提出方法的预测误差图。图3展示了SVR、MLP、AE和本发明提出方法的预测误差散点图。可以看出,模型预测效果排序为TAE-DMHA>AE>MLP>SVR,由此可以看出本发明提出的TAE-DMHA获得了最好的预测结果。结果表明,本发明可以更准确地监测蒸汽量数据。
表1预测结果对比

Claims (1)

1.一种基于动态多头注意力机制的软测量建模方法,其特征在于:包括以下步骤:
步骤1:获取数据,确定输入变量和目标变量。利用各种传感器和手段获取真实工业场景下的数据,以辅助变量数据作为输入变量,以与工业过程产品密切相关的关键质量变量数据作为目标变量。
步骤2:对数据进行预处理。工业数据中采集到的实时数据往往具有噪声,还有可能包括异常数据,这些数据样本会对模型训练产生较大的影响。此外,由于各类型变量属性不同,数据的量纲也不同,增加了模型学习数据的挑战,因此在剔除异常数据后要对数据进行归一化操作来统一量纲。采用最大最小归一化方法统一所有数据的量纲,具体方法如下:
其中max和min分别表示某变量的最大值和最小值,x'表示该变量进行最大最小归一化操作后的结果。
步骤3:计算各个输入变量和目标变量的相关性系数。不同的输入变量对目标变量的影响不同,对更重要的变量应该赋予更大的权重,因此引入相关性系数来衡量不同的变量对目标变量的重要性程度。由于工业数据具有强非线性的特性,我们采用非线性的斯皮尔曼相关性系数计算各个输入变量和目标变量的相关性。斯皮尔曼相关性系数的计算方法如下:
其中,di表示顺序的差值,n表示样本个数。
步骤4:建立重构模型。目标导向的自编码器模型对输入特征进行编码和解码操作来重构输入变量。首先根据步骤4.1、4.2处理输入,得到的结果进行编码。编码过程通过基于动态多头注意力机制的Transformer编码器模块完成,具体包括步骤4.3、4.4、4.5、4.6、4.7,然后根据步骤4.8对数据进行降维。根据步骤4.9进行解码,解码过程通过几层全连接神经网络完成。
步骤4.1:升维。升维操作将数据调整为合适的维度,有N个辅助变量的输入向量X∈RN被升维成X∈RN×D,其中D是每个辅助变量升维后的维度。
步骤4.2:位置编码。位置编码的具体方法如下:
其中,pos表示位置,d表示维度。得到的位置编码结果PE∈RN×D,将步骤4.1得到的X和PE相加得到注入了位置信息的XPE
步骤4.3:计算某一头数设置下的多头注意力信息。头数设置为num_headsn时,XPE被划分到num_headsn个子空间中做注意力计算。在子空间headn中,可训练矩阵qn,kn,vn根据以下公式做注意力计算:
将num_headsn个子空间计算出的注意力headn简单拼接起来:
MHA(XPE)=Concat(head1,head2,…,headn)
步骤4.4:计算动态多头注意力信息。动态多头注意力机制将不同头数设置的多头注意力信息融合起来,综合考虑不同感受野下的注意力信息。动态多头注意力机制设置n种多头注意力头数num_heads1,num_heads2,…,num_headsn,根据步骤4.3计算n种头数设置下的多头注意力信息MHA1,MHA2,...,MHAn,n个注意力矩阵经过拼接后输入一个Dense层,完成多种多头注意力信息的融合。动态多头注意力的计算过程可表示为:
DMHA(XPE,n)=Dense(Concat(MHA1(XPE),MHA2(XPE),...,MHAn(XPE)))
步骤4.5:按照以下公式得到残差连接和层归一化操作结果。
Enout1=LayerNormalization(XPE+DMHA(XPE,n))
步骤4.6:将步骤4.5得到的Enout1输入前馈神经网络,并按照以下公式得到残差连接和层归一化操作结果。
Enout2=LayerNormalization(Enout1+FeedForward(Enout1))
步骤4.7:重复步骤4.3、4.4,4.5,4.6N次。
步骤4.8:降维。步骤4.7得到的全局非线性特征在此步骤中经由全局平均池化层整合信息并降维,此时得到的是对X∈RN的特征表示H∈RD
步骤4.9:解码。将步骤4.8得到的特征表示H∈RD输入解码器,解码器由三层全连接层构成,各层的神经元个数分别是[58,48,38],为了防止过拟合,dropout层被应用在各层之间。解码器解码后得到重构的输入数据X_recon∈RN
步骤5:训练重构模型。根据步骤3中计算得到的各个输入变量和目标变量的斯皮尔曼相关性系数确定重构损失函数,训练模型参数来获得尽可能小的重构损失。N个变量的重构误差权重矩阵为ρ,具体操作如下:
重构模型的损失函数可以表示为:
其中,m是参与训练目标导向的自编码器模型的样本数量。
步骤6:建立回归模型。通过多层神经网络预测目标变量值。重构模型训练完成后,步骤4.8的输出结果作为回归模型的输入,通过四层非线性全连接层将输入映射为输出结果Y_pre。全连接层各层的神经元个数分别设置为[32,16,8,1],非线性激活函数为Sigmoid函数。
步骤7:训练回归模型。确定损失函数,优化模型参数。损失函数表示为:
其中,m'是参与训练回归模型的样本数量。
步骤8:验证本发明提出的模型性能。将真实工业数据输入模型预测得到预测结果。比较预测结果和真实结果的误差,误差越小,模型性能越好。
CN202310608515.9A 2023-05-27 2023-05-27 一种基于动态多头注意力机制的软测量建模方法 Pending CN116629126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310608515.9A CN116629126A (zh) 2023-05-27 2023-05-27 一种基于动态多头注意力机制的软测量建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310608515.9A CN116629126A (zh) 2023-05-27 2023-05-27 一种基于动态多头注意力机制的软测量建模方法

Publications (1)

Publication Number Publication Date
CN116629126A true CN116629126A (zh) 2023-08-22

Family

ID=87609459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310608515.9A Pending CN116629126A (zh) 2023-05-27 2023-05-27 一种基于动态多头注意力机制的软测量建模方法

Country Status (1)

Country Link
CN (1) CN116629126A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649597A (zh) * 2024-01-29 2024-03-05 吉林大学 一种基于事件相机的水下三维手部姿态估计方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649597A (zh) * 2024-01-29 2024-03-05 吉林大学 一种基于事件相机的水下三维手部姿态估计方法和系统
CN117649597B (zh) * 2024-01-29 2024-05-14 吉林大学 一种基于事件相机的水下三维手部姿态估计方法和系统

Similar Documents

Publication Publication Date Title
CN112101480B (zh) 一种多变量聚类与融合的时间序列组合预测方法
CN109472097B (zh) 一种输电线路在线监测设备故障诊断方法
CN116629126A (zh) 一种基于动态多头注意力机制的软测量建模方法
CN112257263B (zh) 基于自注意力机制的设备剩余寿命预测系统
CN112580784A (zh) 基于多输入多输出卷积神经网络的设备智能预警方法
CN113485261A (zh) 一种基于CAEs-ACNN的软测量建模方法
CN117076936A (zh) 一种基于多头注意力模型的时序数据异常检测方法
CN116150901A (zh) 一种基于注意力增强时频Transformer的滚动轴承剩余寿命预测方法
CN116975645A (zh) 一种基于vae-mrcnn的工业过程软测量建模方法
Tang et al. Prediction of bearing performance degradation with bottleneck feature based on LSTM network
CN116483036B (zh) 一种基于Transformer的自编码器软测量建模方法
Hao et al. Pyramid LSTM auto-encoder for tool wear monitoring
Gao et al. Dual Channel Feature-Attention-based Approach for RUL Prediction Considering the Spatiotemporal Difference of Multisensor Data
CN106682312A (zh) 一种局部加权极限学习机模型的工业过程软测量建模方法
Xu et al. Global attention mechanism based deep learning for remaining useful life prediction of aero-engine
CN113468764A (zh) 基于时间序列的海缆状态预测方法
CN117763494A (zh) 基于多模态和多尺度融合网络的轴承诊断方法及系统
CN112528548A (zh) 一种自适应深度耦合卷积自编码多模态数据融合方法
CN117312821A (zh) 一种基于特征提取和Transformer模型的故障检测方法
CN116843057A (zh) 基于LSTM-ViT的风电功率超短期预测方法
CN116859140A (zh) 基于云边协同的非侵入式负荷监测数据在线压缩感知方法
CN114330143A (zh) 一种基于多源时空信息的分布式参数系统状态预测方法
CN114792026A (zh) 一种航空发动机设备的剩余寿命预测方法及系统
Xia et al. Ball screw health indicator construction with limited monitoring data and health assessment based on global context network
Bao et al. Integration of digital twin and machine learning for geometric feature online inspection system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination