CN116882299A - 一种基于增强局部感知自注意力的动态软测量建模方法 - Google Patents
一种基于增强局部感知自注意力的动态软测量建模方法 Download PDFInfo
- Publication number
- CN116882299A CN116882299A CN202310968903.8A CN202310968903A CN116882299A CN 116882299 A CN116882299 A CN 116882299A CN 202310968903 A CN202310968903 A CN 202310968903A CN 116882299 A CN116882299 A CN 116882299A
- Authority
- CN
- China
- Prior art keywords
- attention
- time
- model
- vector
- soft measurement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005259 measurement Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008447 perception Effects 0.000 title claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000015654 memory Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006403 short-term memory Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 7
- 238000004540 process dynamic Methods 0.000 abstract description 6
- 230000002159 abnormal effect Effects 0.000 abstract description 3
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 9
- 229910052717 sulfur Inorganic materials 0.000 description 9
- 239000011593 sulfur Substances 0.000 description 9
- 238000011084 recovery Methods 0.000 description 8
- 239000007789 gas Substances 0.000 description 7
- 238000002485 combustion reaction Methods 0.000 description 6
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 4
- 239000002253 acid Substances 0.000 description 4
- 229910000037 hydrogen sulfide Inorganic materials 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000004229 Alkannin Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000002151 riboflavin Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000004149 tartrazine Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于增强局部感知自注意力的动态软测量建模方法,首先提出一种基于卷积生成自注意力机制的Transformer编码器结构,利用其自注意力机制,能够通过遍历序列,获取过程变量或质量变量之间任意两个时间点的相关性,从而实现对输入序列的全局感知。此外,使用卷积生成自注意力机制中的Query和Key,提出了一种新型点积自注意力计算方法,能够利用局部信息,减弱某一时刻异常数据所产生的潜在影响,从而实现对输入序列的局部感知。最终使用长短时记忆网络(LSTM)网络,深层提取时间序列信息,得到最终预测结果。该发明充分利用过程序列的过程动态和非线性特征,提高了软测量模型的预测精度和鲁棒性。
Description
技术领域
本发明涉及一种软测量建模方法,该方法在工业测量与生产控制领域具有重要的应用价值。
背景技术
在现代工业过程中,有些变量难以或无法直接测量的,但这些变量往往是过程控制和优化的关键因素,实时地获取它们的信息是提高生产效率和产品质量的保证。然而,由于技术、安全等原因,传统的硬件传感器往往不能满足这些需求。软测量技术的基本思想是根据过程知识和数据分析,选择一些容易测量的变量(辅助变量),通过建立数学模型(软测量模型),来推断和估计难以直接测量的变量(主导变量)。目前软测量技术已经在化工、冶金、电力、环境等领域得到了广泛的应用。
目前常用的软测量模型有基于机理分析、基于数据驱动和基于混合方法三类。基于数据驱动的软测量建模方法可以适应复杂变化的环境,不需要对过程进行物理建模或假设,只需要利用大量的过程数据来自动学习抽象表示。其中深度学习方法可以根据实时数据更新或优化模型的参数,捕捉过程变量之间的复杂非线性关系。工业过程具有数据高维度、测量变量关系非线性、强相关、过程时变性与动态性等难以直接描述的多重特征。过程动态、非线性问题是软测量建模中面临的两个主要挑战。过程动态问题指的是过程变量之间的关系随时间而变化,导致模型失效或精度下降。非线性问题指的是过程变量之间的关系不符合简单的线性函数,导致模型复杂或不准确。越来越多深度学习模型被引入软测量建模中并具有良好的性能表现。然而这些方法大都基于静态假设,此类模型仅能够描述输入输出变量间的瞬时关系,其有效性需要依赖于过程的稳态假设。然而通常生产过程都是动态的,动态软测量模型在静态模型基础上考虑了过程前几时刻的过程状态信息,具有一定动态特征描述能力。同时动态模型可以在进行预测时加入质量变量的时序信息,能够保证非稳态下的预测精度。
发明内容
本发明涉及一种基于增强局部感知自注意力的动态软测量建模方法,该方法能够充分利用过程序列的过程动态和非线性特征,从而提高软测量模型的预测精度和鲁棒性。该方法采用Transformer编码器结构,利用其自注意力机制,能够通过遍历序列,获取过程变量或质量变量之间任意两个时间点的相关性,从而实现对输入序列的全局感知。该方法还使用卷积生成自注意力机制中的Query和Key,提出了一种新型点积自注意力计算方法,能够利用局部信息,减弱某一时刻异常数据所产生的潜在影响,从而实现对输入序列的局部感知。该方法最后使用长短时记忆网络(LSTM)网络,深层提取时间序列信息,得到最终预测结果。
本发明主要包括四个部分:(1)对工业过程数据进行预处理;(2)构建增强局部感知自注意力的动态软测量模型;(3)训练模型;(4)验证本发明所提出模型的性能。
下面分别介绍以上四个部分的内容:
(1)确定输入输出辅助变量与质量变量。在训练软测量模型时,挑选整个工业状况中与质量变量较为相关的过程变量为辅助变量。
(2)首先本模型使用滑动窗口将工业过程数据转化为有监督的时间序列预测问题:滑动窗口延时间方向每次滑动一个时间步,对时间窗内的样本数据与位置编码相结合后进行特征提取。然后由不同卷积核大小的卷积神经网络提取到的特征分别作为查询、键值和值,进入多头自注意力计算注意力分数。最后将编码器得到的特征向量,进入长短时记忆网络回归器中深度挖掘时序信息,并结合全连接层得到最终质量变量的预测结果。
(3)通过历史数据训练出基于增强局部感知自注意力的动态软测量模型,模型图如图1所示。
(4)使用训练集训练该软测量模型,并使用测试集进行验证。将测试集的数据输入到已经训练好的模型中,得到关键变量的预测值,并与真实的标签进行比较。如果真实值和预测值之间的误差很小,就说明该软测量模型是有效的。
本发明基于增强局部感知自注意力的动态软测量模型详细实施步骤如下:
步骤1:对工业过程数据进行预处理。为了更好地学习过程动态特性并且符合过程动力学。使用滑动窗口将过程数据样本处理为有监督的时间序列预测形式,挖掘过程时序动态信息,这意味着利用先前采样时刻的特征来预测当前时刻的质量变量。在具有固定大小为m的滑动时间窗口设置下,假设有n个传感器得到的过程变量表示为这里时间变量t是相对的,不同时间序列中的同一个t可能代表不同时间点。由于t时刻的y值是未知的,将质量变量在t-m+1时刻到t时刻之间的平均值表示为/>以满足模型需要,Yt表示需要预测的质量变量。
步骤2:构建增强局部感知自注意力的动态软测量模型,详细的网络模型构建分为三个步骤,具体构建过程在步骤2.1、2.2和步骤2.3中进行说明。
步骤2.1:构建数据编码模块,本发明涉及一种基于Transformer编码器的软测量质量变量预测方法,该方法利用Transformer编码器的自注意力机制,能够适应不同的输入数据分布,捕捉输入序列中的长期依赖关系。该方法将软测量中的输入数据表示为一个由若干个数值型向量组成的矩阵,其中每行代表了某一个时间点上多个易测变量传感器观测到的数据。该方法在序列转换为向量型时,将这些数值型向量与位置编码相加,以便保留时间顺序信息。位置编码可以是相对或绝对的,用于表示序列中每个元素的位置信息。
其中pos是位置,i是维度,dmodel为变量维数。对于每个奇数时间步使用余弦函数创建一个向量,每个偶数时间步使用正弦函数创建一个向量。然后将这些向量与它们对应的向量相结合,这样加了位置编码的数值型向量会作为第一个编码器块的输入。
步骤2.2:本发明涉及一种增强局部感知自注意力模块,用于软测量过程动态特征的提取。该模块能够有效地处理变量的自相关性随着生产环境、时间的显著演变而发生变化的问题,以及不同时刻点之间的关系受到异常点影响的问题。本发明采用了一种基于局部区域变化趋势的相似性计算方法,代替了原生Transformer编码器中的缩放点积注意力层中基于逐点值的相似性计算方法。如图2所示,(a)中曲线与红色虚线相交部分的红点只关注到与它绝对数值相接近的另一单时间点,而(b)中曲线与红色虚线相交部分的红点则关注到了与它局部区域变化趋势相似的多个时间点,因此,本发明能够更好地捕捉时间序列中的局部性,提高软测量模型的性能。
步骤2.2.1具体来说,局部感知自注意力的推导过程为:
上述公式中是处理为有监督的时序预测形式的原始输入,B是时间窗的个数,I为时间步长,N是辅助变量的维度。/>与/>是/>经过两个大小不同的卷积核后得到的序列,Covkernel size(1)与Covkernel size(k)分别表示kernel size为1与k,的卷积核,步长设置为1,填充为0。
步骤2.2.2将与/>分别切分为h个不同子向量,查询向量Qh、键值向量Kh和值向量Vh的计算公式为:
其中h=1,···,H为多头的个数。模型可学习的参数矩阵为和/>其中dk=dv=dmodel/h。这种方式生成的Qh、Kh和Vh的可以充分考虑局部关系,从而根据局部信息来衡量它们的相似度,而不是使用单一值,这有利于提升预测精度。
步骤2.2.3本发明涉及一种基于缩放点积注意力的序列向量输出方法,用于计算每个子向量的注意力分数并进行归一化和加权。该方法首先对每个子向量进行缩放点积注意力操作,得到其注意力分数,然后对每一行的注意力分数进行softmax归一化,得到其注意力权重,最后将归一化后的注意力权重乘以对应的V子向量,并拼接起来,得到最终的序列向量输出。对于每个子向量,计算注意力分数并进行缩放点积注意力,并对每一行的注意力分数进行softmax归一化。最后,归一化后的注意力权重乘以对应的V子向量,并连接得到一系列向量输出。推导公式如下:
步骤2.2.4本发明涉及一种基于前馈神经网络层和残差连接的多头自注意力模块,用于对多头自注意力层输出的向量进行进一步转换和优化。该模块首先对每个多头自注意力层输出的向量进行两次线性变换和一次激活函数(ReLU)操作,得到前馈神经网络层的输出,然后对每个子层的输入和输出进行残差连接和layerNorm操作,以保留原始信息并提高梯度传播效率。具体步骤如下:
给定多头自注意力层输出的向量,其中:
对每个向量,进行两次线性变换和一次激活函数(ReLU)操作,得到前馈神经网络层的输出,其中W1和W2为模型可学习的参数矩阵。最后,在每个子层之后,为了更好的保留原始信息并提高梯度传播效率,经过残差连接将子层的输入和输出相加,并使用layerNorm对每个向量进行缩放和平移,使它们在不同维度上有相同的均值和方差。本发明通过使用前馈神经网络层和残差连接,能够有效地对多头自注意力层输出的向量进行进一步转换和优化,提高了多头自注意力模块的性能和效率。
推导公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
Eout1=LayerNorm(x+MHA(x))
Eout2=LayerNorm(Eout1+FeedForward(Eout1))
步骤3:建立回归模型。本发明中编码器的输出可以作为软测量质量变量预测任务的特征向量,用于后续的预测模型。Transformer编码器的输出是软测量质量变量预测任务中输入序列到输出序列的中间层。本专利将长短时记忆网络(LSTM)与全连接层作为软测量模型的回归器,因为LSTM可以处理序列数据,捕捉动态特征,而全连接层可以进行非线性变换,增加模型的深层提取时间序列信息表达能力。假设xt是t时刻的输入向量,Yt是t时刻的输出向量,那么LSTM与全连接层作为软测量模型的回归器的公式可以表示为:ht,ct=LSTM(xt,ht-1,ct-1)、Yt=FC(ht)。其中LSTM表示长短期记忆网络,它有一个隐藏状态ht和一个细胞状态ct,它们都是随时间更新的向量。FC表示全连接层,它有一个可学习的权重矩阵和偏置向量。
步骤4:训练基于增强局部感知自注意力的动态软测量模型,本发明在软测量模型构建完成之后,将步骤1处理好的训练数据输入到软测量模型中,并使用BP算法随机梯度下降进行权值的更新,直至梯度收敛为止,此时的网络中的权重即本发明软测量模型中的最合适权重。其权重更新公式如下:
(Lr为神经网络的学习率),根据损失函数Loss进行梯度下降,找到合适的权重参数。其损失函数如下:
其中:Yreal为数据的标签,Ypre为模型的输出值。
步骤5:模型有效性验证,将整个软测量模型训练完成后,并将模型各部分的参数保存下来。将提前处理好的测试数据通过该模型进行前向传播,得到预测值ypre。通过指标RMSE、MSE、MAE、R2评价本发明的性能。其各公式定义如下:
式中Yreal、Ypre分别为标签值和预测输出值。较小的RMSE往往表示更好的预测性能。
决定系数R2反应模型的可靠性,Ymean为测试数据输出值的均值,R2越大表明软测量模型具有较好的预测性能。
附图说明
图1是本发明中基于增强局部感知自注意力的动态软测量模型的流程图
图2是本发明中增强局部感知自注意力模块的具体结构图
图3是本发明实施案例中硫回收流程图
图4是本发明实施案例中在硫回收中硫化氢浓度预测软测量模型与其他建模方法对比图
图5是本发明实施案例中在硫回收中硫化氢浓度预测软测量模型预测结果与其他软测量模型预测结果分布图
具体实施方式
下面结合附图和实例对本发明进一步说明。
将本发明的软测量建模方法应用于硫回收装置的空气供给量控制,根据酸性气体的燃烧情况,调节燃烧炉中空气的供给量,以达到去除污染物,减少尾气排放对环境的污染的目的。根据硫回收装置的简要流程图(如图3所示),分析酸性气体与空气的燃烧反应过程,以及空气供给量对于尾气中SO2和H2S的浓度的影响。其中,酸性气体在燃烧炉F101中与空气进行燃烧,生成SO2、H2O、CO2等产物,并在水冷凝设备E101、催化反应器R101、R102和冷凝器E102、E103中进行进一步转化,形成硫磺产物。根据尾气中SO2和H2S的浓度,精准地测量酸性气体的燃烧情况,并根据测量结果,调节燃烧炉F101中空气的供给量。
本发明通过使用实测数据和精准测量方法,应用于收集意大利某炼油厂的实测数据,通过实验证明本发明能够有效地控制硫回收装置中空气的供给量,提高了硫回收装置的效率和环保性。选取该生产环境下的5个相关辅助变量,预测目标为硫化氢的浓度。选好辅助变量以后,下一步就开始建立基于增强局部感知自注意力的动态软测量模型,通过收集10081条的历史数据经过预处理后训练软测量模型
将前8000个测试数据输入训练完成的软测量模型得到预测值,其模型预测值与标签值进行对比在测试集中评价指标MAR=0.00789,MSE=0.0143,RMSE=0.0143,R2=0.947,本发明也与传统的LSTM、CNN+LSTM、Transformer方法进行了对比。对比结果如图4所示,可以看出该方法在模型构建相比于传统方法,提高了预测能力。图5给出该软测量模型与对比软测量模型的预测结果分布图,可以看出误差表现优于其他软测量模型。综上所述,本发明提供的软测量模型能够在硫回收装置中硫化氢浓度预测上有着较好的应用。
Claims (1)
1.一种基于增强局部感知自注意力的动态软测量建模方法,其特征在于:包括以下步骤:
步骤1:对工业过程数据进行预处理,有固定大小为m的滑动时间窗口设置下,假设有n个传感器得到的过程变量表示为这里时间变量t是相对的,不同时间序列中的同一个t可能代表不同时间点。由于t时刻的y值是未知的,将质量变量在t-m+1时刻到t时刻之间的平均值表示为/>以满足模型需要,Yt表示需要预测的质量变量;
步骤2:构建增强局部感知自注意力的动态软测量模型,详细的网络模型构建分为三个步骤,具体构建过程在步骤2.1、2.2和步骤2.3中进行说明;
步骤2.1:构建数据编码模块,方法将软测量中的输入数据表示为一个由若干个数值型向量组成的矩阵,其中每行代表了某一个时间点上多个易测变量传感器观测到的数据,方法在序列转换为向量型时,将这些数值型向量与位置编码相加,以便保留时间顺序信息,置编码可以是相对或绝对的,用于表示序列中每个元素的位置信息。
其中pos是位置,i是维度,dmodel为变量维数,每个奇数时间步使用余弦函数创建一个向量,每个偶数时间步使用正弦函数创建一个向量,后将这些向量与它们对应的向量相结合,这样加了位置编码的数值型向量会作为第一个编码器块的输入;
步骤2.2:本发明涉及一种增强局部感知自注意力模块,用于软测量过程动态特征的提取,发明采用了一种基于局部区域变化趋势的相似性计算方法,代替了原生Transformer编码器中的缩放点积注意力层中基于逐点值的相似性计算方法,本发明能够更好地捕捉时间序列中的局部性,提高软测量模型的性能;
步骤2.2.1具体来说,局部感知自注意力的推导过程为:
上述公式中是处理为有监督的时序预测形式的原始输入,B是时间窗的个数,I为时间步长,N是辅助变量的维度。/>与/>是/>经过两个大小不同的卷积核后得到的序列,Covkernel size(1)与Covkernel size(k)分别表示kernelsize为1与k,的卷积核,步长设置为1,填充为0;
步骤2.2.2将与/>分别切分为h个不同子向量,查询向量Qh、键值向量Kh和值向量Vh的计算公式为:
上述公式中h=1,···,H为多头的个数。模型可学习的参数矩阵为和/>其中dk=dv=dmodel/h。这种方式生成的Qh、Kh和Vh的可以充分考虑局部关系,从而根据局部信息来衡量它们的相似度,而不是使用单一值,这有利于提升预测精度;
步骤2.2.3本发明涉及一种基于缩放点积注意力的序列向量输出方法,用于计算每个子向量的注意力分数并进行归一化和加权。该方法首先对每个子向量进行缩放点积注意力操作,得到其注意力分数,然后对每一行的注意力分数进行softmax归一化,得到其注意力权重,最后将归一化后的注意力权重乘以对应的V子向量,并拼接起来,得到最终的序列向量输出。对于每个子向量,计算注意力分数并进行缩放点积注意力,并对每一行的注意力分数进行softmax归一化。最后,归一化后的注意力权重乘以对应的V子向量,并连接得到一系列向量输出。推导公式如下:
步骤2.2.4本发明涉及一种基于前馈神经网络层和残差连接的多头自注意力模块,用于对多头自注意力层输出的向量进行进一步转换和优化,模块首先对每个多头自注意力层输出的向量进行两次线性变换和一次激活函数(ReLU)操作,得到前馈神经网络层的输出,然后对每个子层的输入和输出进行残差连接和layerNorm操作,以保留原始信息并提高梯度传播效率。具体步骤如下:
给定多头自注意力层输出的向量,其中对每个向量,进行两次线性变换和一次激活函数(ReLU)操作,得到前馈神经网络层的输出,其中W1和W2为模型可学习的参数矩阵。最后,在每个子层之后,为了更好的保留原始信息并提高梯度传播效率,经过残差连接将子层的输入和输出相加,并使用layerNorm对每个向量进行缩放和平移,发明使用前馈神经网络层和残差连接,能够有效地对多头自注意力层输出的向量进行进一步转换和优化,提高了多头自注意力模块的性能和效率;
推导公式如下:
FFN(x)=max(0,xW1+b1)W2+b2
Eout1=LayerNorm(x+MHA(x))
Eout2=LayerNorm(Eout1+FeedForward(Eout1))
步骤3:建立回归模型。本发明中编码器的输出可以作为软测量质量变量预测任务的特征向量,用于后续的预测模型,本专利将长短时记忆网络(LSTM)与全连接层作为软测量模型的回归器,假设xt是t时刻的输入向量,Yt是t时刻的输出向量,那么LSTM与全连接层作为软测量模型的回归器的公式可以表示为:ht,ct=LSTM(xt,ht-1,ct-1)、Yt=FC(ht)。其中LSTM表示长短期记忆网络,它有一个隐藏状态ht和一个细胞状态ct,FC表示全连接层,它有一个可学习的权重矩阵和偏置向量;
步骤4:训练基于增强局部感知自注意力的动态软测量模型,本发明在软测量模型构建完成之后,将步骤1处理好的训练数据输入到软测量模型中,并使用BP算法随机梯度下降进行权值的更新,直至梯度收敛为止;
此时的网络中的权重即本发明软测量模型中的最合适权重。其权重更新公式如下:
(Lr为神经网络的学习率),根据损失函数Loss进行梯度下降,找到合适的权重参数。其损失函数如下:
其中:Yreal为数据的标签,Ypre为模型的输出值。
步骤5:模型有效性验证,将整个软测量模型训练完成后,并将模型各部分的参数保存下来。将提前处理好的测试数据通过该模型进行前向传播,得到预测值ypre。通过指标RMSE、MSE、MAE、R2评价本发明的性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310968903.8A CN116882299A (zh) | 2023-08-03 | 2023-08-03 | 一种基于增强局部感知自注意力的动态软测量建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310968903.8A CN116882299A (zh) | 2023-08-03 | 2023-08-03 | 一种基于增强局部感知自注意力的动态软测量建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116882299A true CN116882299A (zh) | 2023-10-13 |
Family
ID=88269867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310968903.8A Pending CN116882299A (zh) | 2023-08-03 | 2023-08-03 | 一种基于增强局部感知自注意力的动态软测量建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116882299A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252324A (zh) * | 2023-11-20 | 2023-12-19 | 运易通科技有限公司 | 一种物流路径优化方法及系统 |
-
2023
- 2023-08-03 CN CN202310968903.8A patent/CN116882299A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252324A (zh) * | 2023-11-20 | 2023-12-19 | 运易通科技有限公司 | 一种物流路径优化方法及系统 |
CN117252324B (zh) * | 2023-11-20 | 2024-05-17 | 运易通科技有限公司 | 一种物流路径优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Malhotra et al. | LSTM-based encoder-decoder for multi-sensor anomaly detection | |
Li et al. | DTDR–ALSTM: Extracting dynamic time-delays to reconstruct multivariate data for improving attention-based LSTM industrial time series prediction models | |
CN111461413B (zh) | 一种公路路面使用性能检测系统 | |
CN111340110B (zh) | 一种基于工业过程运行状态趋势分析的故障预警方法 | |
CN116882299A (zh) | 一种基于增强局部感知自注意力的动态软测量建模方法 | |
CN112990435A (zh) | 一种长短时记忆网络电站风机故障预警方法及系统 | |
Gu et al. | An improved sensor fault diagnosis scheme based on TA-LSSVM and ECOC-SVM | |
Yao et al. | Semi-supervised deep dynamic probabilistic latent variable model for multimode process soft sensor application | |
Ren et al. | A lightweight and adaptive knowledge distillation framework for remaining useful life prediction | |
CN115759461A (zh) | 一种面向物联网的多元时间序列预测方法及系统 | |
CN114169091A (zh) | 工程机械部件剩余寿命的预测模型建立方法及预测方法 | |
CN115034129A (zh) | 一种面向火电厂脱硝装置的NOx排放浓度软测量方法 | |
CN114117852B (zh) | 一种基于有限差分工作域划分的区域热负荷滚动预测方法 | |
Fu et al. | MCA-DTCN: A novel dual-task temporal convolutional network with multi-channel attention for first prediction time detection and remaining useful life prediction | |
CN117218110A (zh) | 一种基于深度学习的水电站红外热像故障预测方法 | |
CN111983140A (zh) | 一种用于干熄焦生产的一氧化碳测量系统及测量方法 | |
CN115688865A (zh) | 面向脱硫工艺烟气的长短期记忆网络工业软测量方法 | |
CN113223634B (zh) | 基于二维自注意力增强gru模型高炉铁水硅含量预测方法 | |
CN114995248A (zh) | 智能养护与环境参数大数据物联网系统 | |
CN114896895A (zh) | 基于门控循环神经网络的脱硝系统入口氮氧化物排放预测方法及系统 | |
Zhao et al. | A multi-step sequence-to-sequence model with attention LSTM neural networks for industrial soft sensor application | |
CN117272244B (zh) | 一种融合特征提取和自适应构图的软测量建模方法 | |
Curreri et al. | Application of data distribution metrics for soft sensors in industrial scenarios | |
CN116882538B (zh) | 一种海洋环境预测模型的训练方法及相关装置 | |
Yi’An et al. | Bearing Remaining Useful Life Prediction based on TCN-Transformer Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |