CN110705692A - 一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法 - Google Patents

一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法 Download PDF

Info

Publication number
CN110705692A
CN110705692A CN201910910902.1A CN201910910902A CN110705692A CN 110705692 A CN110705692 A CN 110705692A CN 201910910902 A CN201910910902 A CN 201910910902A CN 110705692 A CN110705692 A CN 110705692A
Authority
CN
China
Prior art keywords
long
input
term memory
short term
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910910902.1A
Other languages
English (en)
Other versions
CN110705692B (zh
Inventor
袁小锋
李林
王雅琳
阳春华
桂卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910910902.1A priority Critical patent/CN110705692B/zh
Publication of CN110705692A publication Critical patent/CN110705692A/zh
Application granted granted Critical
Publication of CN110705692B publication Critical patent/CN110705692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Manufacturing & Machinery (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于工业过程控制领域,具体涉及一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法,具体包括步骤:选取对产品质量有影响的关键变量,对输入变量和质量变量连续均匀采样;对采样的原始数据集进行离差标准化;确定训练集数据;确定网络的参数和超参数,训练基于空间和时间注意力的长短期记忆网络;利用训练完成的网络,得到质量变量的预测值。本发明不仅能自适应地选择和质量变量相关的输入变量,还能处理工业过程中的动态特性,极大地提高软测量模型的准确性。

Description

一种基于空间和时间注意力的长短期记忆网络对工业非线性 动态过程产品质量预测方法
技术领域
本发明涉及工业过程预测与控制领域,具体涉及一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法。
背景技术
软测量技术由于其响应迅速、维护成本低而被广泛应用于现代工业过程中,对某些关键的质量变量进行监控实现对关键质量变量的预测,达到保证产品质量、生产安全的目的。
当前软测量技术主要有主成分回归分析、偏最小二乘回归、支持向量回归、人工神经网络算法等。但是这类浅层的网络不能很好的挖掘过程数据中的非线性特征,因此预测性能也受到一定的限制。深度神经网络的提出很好的解决了浅层网络存在的问题,针对工业过程的复杂非线性特性,深度神经网络通过学习一种深层的非线性网络结构,可以对复杂的工业过程进行建模,并且拥有强大的从少数样本中学习数据深层特征的能力。在考虑非线性的基础上,循环神经网络同时还能够对工业过程的动态特性进行建模,因此和其他的神经网络相比,循环神经网络具有更高的预测精度。为了避免循环神经网络存在的梯度消失和梯度爆炸问题,循环神经网络的一种变体,长短期记忆网络,应运而生。
考虑到工业过程的质量变量和输入变量之间的相互的影响,且不同的过程变量和质量变量之间具有不同程度的关联,因此可以充分利用质量变量和不同输入变量之间的关联来提高模型的预测性能,此外,可以利用不同时刻的输入样本对当前时刻的质量变量的影响程度的大小建立时序动态模型。故本发明针对现有的软测量模型存在的问题,提供基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法,实现对生产过程关键质量变量进行精确预测的作用。
发明内容
本发明的目的在于克服现有技术没有充分综合考虑了工业过程的非线性、输入变量和关键质量变量之间的相关性、工业过程时间上的动态性的问题,提供一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法,实现了对生产过程关键质量变量进行精确预测。
一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法,包括以下步骤:
S1.选取对产品质量有影响的关键变量,对输入变量和对应的质量变量连续均匀采样:
基于生产过程,通过机理分析和专家知识,选取对质量变量产生影响的若干变量作为输入变量,等时间间隔对所述的输入变量和相应的质量变量连续均匀采样若干次,得到输入变量与相应的质量变量的时间序列原始数据集记为(X,Y);
Figure BDA0002214655570000021
其中T为采集样本次数,1≤t≤T1
S2.对采样的原始数据集进行离差标准化:
对步骤S1所述的数据进行离差标准化:
Figure BDA0002214655570000031
其中xmin为样本数据的最小值,xmax为样本数据的最大值;
则得到新的数据集记为
Figure BDA0002214655570000032
作为训练集:
Figure BDA0002214655570000033
其中,
Figure BDA0002214655570000035
n为输入变量的数量,
Figure BDA0002214655570000036
S3.构建和训练模型
S31.对输入样本进行编码:
利用空间注意力机制对训练集中每个样本计算输入变量和质量变量之间的相关性,并为每个输入变量分配相应的注意力权值,得到新的加权输入样本;利用长短期记忆网络对输入样本提取隐层的特征;
S32.对隐藏层的状态进行解码:
利用时间注意力机制通过计算各个时刻隐藏层状态和当前输出之间的相关性,为各个时刻的隐含状态分配不同的注意力权重并计算加权和作为当前质量变量的预测输入,最后通过一个非线性长短期记忆网络单元得到当前时刻的质量变量的预测值;
S33.确定网络的参数和超参数,训练基于空间和时间注意力的长短期记忆网络:
计算模型的损失函数MSE:
Figure BDA0002214655570000041
利用误差反向传播算法和Adam算法更新网络参数,在达到最大迭代次数R后停止模型的训练;
S4.实时采集输入变量值,利用训练完成的模型,计算质量变量的预测值:
Figure BDA0002214655570000042
其中,
Figure BDA0002214655570000049
是解码长短期记忆网络的t-1时刻的隐层输出;c(t)是时间注意力机制的输出;fl(*)表示一个长短期记忆单元;V和bv为网络学习到的权值和偏置。
进一步地,所述的步骤S31具体处理如下:
利用空间注意力机制对新的数据集中每个样本计算输入变量和质量变量之间的相关性:
Figure BDA0002214655570000044
其中s(t-1)为解码输出的隐状态,V1 i,W1 i,
Figure BDA0002214655570000045
为网络权重矩阵,
Figure BDA0002214655570000046
为偏置向量;
对计算出的变量注意力值进行归一化:
Figure BDA0002214655570000047
得到空间注意力机制的最终输出为:
Figure BDA0002214655570000048
利用长短期神经网络单元通过前向传播算法得到隐层状态:
遗忘门:
Figure BDA0002214655570000051
输入门:
Figure BDA0002214655570000052
输出门:
Figure BDA0002214655570000053
中间状态输入:
其中w*x,w*h分别表示当前时刻输入
Figure BDA0002214655570000055
前一时刻的隐状态h(t-1)与长短期记忆细胞单元中三个控制门以及中间状态的转换矩阵,b*表示三个控制门和中间状态的偏置量;
当前时刻的细胞状态和隐藏层输出为:
Figure BDA0002214655570000056
h(t)=o(t)⊙tan h(m(t))。
进一步地,所述的步骤S32具体处理如下:
利用时间注意力机制通过计算滑动窗口内的输入样本和解码的隐层状态之间的相似度作为注意力,来度量输入样本和质量变量之间的相关性:
Figure BDA0002214655570000057
其中s(t-1)解码过程的隐层状态,T为滑动窗口的长度,V2 k,W2 k,
Figure BDA0002214655570000058
为权重矩阵,
Figure BDA0002214655570000059
为时间注意力机制的偏置向量;
对时间注意力进行归一化:
Figure BDA00022146555700000510
得到解码过程的长短期记忆网络t时刻的一个输入:
Figure BDA0002214655570000061
计算出c(t)之后,将c(t)和已知的目标序列
Figure BDA0002214655570000062
一起更新解码过程的隐层状态:
Figure BDA0002214655570000063
Figure BDA0002214655570000064
其中,W3,V3和为解码过程的长短期记忆网络的权值矩阵,b3为解码过程的长短期记忆网络的偏置向量,fl(·)代表一个长短期记忆单元;
得到t时刻的质量变量的预测值:
其中,V和bv分别表示权值矩阵和偏置向量,fl(·)代表一个长短期记忆单元。
进一步地,所述的步骤S33之后还包括:
S34.采集测试样本,利用测试集数据验证模型的预测性能:
设测试集输入样本和质量变量为:
Figure BDA0002214655570000066
Figure BDA0002214655570000067
当j=1时,随机初始化当前时刻的质量变量的初始值,将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值;当j>1时,利用已知的质量变量序列
Figure BDA0002214655570000068
和时间注意力的输出一起作为解码过程的输入得到当前时刻的质量变量预测值。
与现有技术相比,本发明有益效果在于:利用长短期记忆网络建立输入变量和质量变量之间的动态非线性模型,并在此基础上先利用一个空间注意力机制来获得质量变量和输入变量之间的相关性,再利用一个时间注意力机制来建立质量变量和输入样本的动态相关性,实现不仅能自适应地选择和质量变量相关的输入变量、还能处理工业过程中的时序性问题的效果,极大地提高软测量模型的准确性。
附图说明
图1为本发明一个实施例处理流程的示意图。
图2为本发明一个实施例处长短期记忆单元结构示意图。
图3为本发明一个实施例处注意力机制结构示意图。
图4为本发明一个实施例处基于空间和时间注意力的长短期记忆网络结构图。
图5为本发明一个实施例1处中加氢裂化简图。
图6为本发明一个实施例1处中长短期记忆神经网络模型质量变量的预测值和真实值对比曲线图。
图7为本发明一个实施例1处中基于注意力的长短期记忆网络模型质量变量的预测值和真实值对比曲线图。
图8为本发明一个实施例1处中基于空间和时间注意力的长短期记忆网络模型的预测值和质量变量真实值对比曲线图。
图9为本发明一个实施例2处中脱丁烷塔简图。
图10为本发明一个实施例2处中长短期记忆神经网络模型质量变量的预测值和真实值对比曲线图。
图11为本发明一个实施例2处中基于注意力的长短期记忆网络模型质量变量的预测值和真实值对比曲线图。
图12为本发明一个实施例2处中基于空间和时间注意力的长短期记忆网络模型的预测值和质量变量真实值对比曲线图。
具体实施方式
为了进一步公开本发明,下文将结合说明书附图和较佳的实施例对本发明作更全面、细致地描述。
除非另有定义,下文中所使用到的专业术语与本领域技术人员通常理解的含义相同,本文所使用的专业术语只是为了描述具体实施例的目的,并不是旨在限制本发明的保护范围。
发明人在充分总结和分析现有技术的优劣基础上,对现有技术做了改进,提出一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法,首先从生产过程中选取对质量变量有影响的关键变量,再按照时间先后对关键变量和质量变量进行独立重复采样,对采样的数据集进行归一化处理后作为训练集。再进入编码阶段,输入变量通过一个空间注意力机制计算它和相应时刻质量变量的相关性,从而得到一个新的加权输入样本,再利用一个长短期记忆单元提取输入样本的隐藏层特征。再进入解码阶段,时间注意力机制被用来度量在当前时刻的质量变量预测时应该在前面多个时刻的输入样本上分配的注意力,最后得到所有输入样本和相应的注意力权值的一个加权和项作为输入来对当前时刻的质量变量进行预测。本发明所提供的技术方案不仅能自适应地选择和质量变量相关的输入变量,还能处理工业过程中的动态特性,极大地提高软测量模型的准确性。具体包括以下步骤:
S1.选取对产品质量有影响的关键变量,对输入变量和对应的质量变量连续均匀采样:
基于生产过程,通过机理分析和专家知识,选取对质量变量产生影响的若干变量作为输入变量,等时间间隔对所述的输入变量和相应的质量变量重复采样若干次,得到输入变量与相应的质量变量的时间序列原始数据集记为(X,Y);
其中T1为采集样本次数,1≤t≤T1
S2.对采样的原始数据集进行离差标准化:
对步骤S1所述的数据进行离差标准化:
Figure BDA0002214655570000093
其中xmin为样本数据的最小值,xmax为样本数据的最大值;
则得到新的数据集记为(X,Y)作为训练集:
Figure BDA0002214655570000094
Figure BDA0002214655570000095
其中,
Figure BDA0002214655570000096
n为输入变量的数量,
Figure BDA0002214655570000097
S3.构建和训练模型
S31.对输入样本进行编码:
利用空间注意力机制对训练集中每个样本计算输入变量和质量变量之间的相关性,并为每个输入变量分配相应的注意力权值,得到新的加权输入样本;利用长短期记忆网络对输入样本提取隐层的特征;
S32.对隐藏层的状态进行解码:
利用时间注意力机制通过计算各个时刻隐藏层状态和当前输出之间的相关性,为各个时刻的隐含状态分配不同的注意力权重并计算加权和作为当前质量变量的预测输入,最后通过一个非线性长短期记忆网络单元得到当前时刻的质量变量的预测值;
S33.确定网络的参数和超参数,训练基于空间和时间注意力的长短期记忆网络:
计算模型的损失函数MSE:
Figure BDA0002214655570000101
利用误差反向传播算法和Adam算法更新网络参数,在达到最大迭代次数R后停止模型的训练;
S4.实时采集输入变量值,利用训练完成的模型,计算质量变量的预测值:
Figure BDA0002214655570000102
其中,
Figure BDA0002214655570000103
是解码过程的长短期记忆网络的t-1时刻的隐层输出;c(t)是时间注意力机制的输出;fl(*)表示一个长短期记忆单元;V和bv为网络学习到的权值和偏置。
前述的步骤S31具体处理如下:
利用空间注意力机制对新的数据集中每个样本计算输入变量和质量变量之间的相关性:
其中s(t-1)为解码输出的隐状态,V1 i,W1 i,为网络权重矩阵,
Figure BDA0002214655570000113
为偏置向量;
对计算出的变量注意力值进行归一化:
Figure BDA0002214655570000114
得到空间注意力机制的最终输出为:
Figure BDA0002214655570000115
利用长短期神经网络单元通过前向传播算法得到隐层状态:
遗忘门:
Figure BDA0002214655570000116
输入门:
输出门:
Figure BDA0002214655570000118
中间状态输入:
Figure BDA0002214655570000119
其中w*x,w*h分别表示当前时刻输入
Figure BDA00022146555700001110
前一时刻的隐状态h(t-1)分别与长短期记忆细胞单元中三个控制门以及中间状态的转换矩阵,b*表示三个控制门和中间状态的偏置量;
当前时刻的细胞状态和隐藏层输出为:
Figure BDA0002214655570000121
h(t)=o(t)⊙tan h(m(t))。
前述的步骤S32具体处理如下:
利用时间注意力机制通过计算滑动窗口内的输入样本和解码的隐层状态之间的相似度作为注意力,来度量输入样本和质量变量之间的相关性:
Figure BDA0002214655570000122
其中s(t-1)解码过程的隐层状态,T为滑动窗口的长度,V2 k,W2 k,
Figure BDA0002214655570000123
为权重矩阵,
Figure BDA0002214655570000124
为时间注意力机制的偏置向量;
对时间注意力进行归一化:
得到解码过程的长短期记忆网络t时刻的一个输入:
Figure BDA0002214655570000126
计算出c(t)之后,将c(t)和已知的目标序列
Figure BDA0002214655570000127
一起更新解码过程的隐层状态:
其中,W3,V3和为解码过程的长短期记忆网络的权值矩阵,b3为解码过程的长短期记忆网络的偏置向量,fl(·)代表一个长短期记忆单元;
得到t时刻的质量变量的预测值:
其中,V和bv分别表示权值矩阵和偏置向量,fl(·)代表一个长短期记忆单元。
进一步地,所述的步骤S33之后还包括:
S34.采集测试样本,利用测试集数据验证模型的预测性能:
设测试集输入样本和质量变量为:
Figure BDA0002214655570000131
Figure BDA0002214655570000132
当j=1时,随机初始化当前时刻的质量变量的初始值,将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值;当j>1时,利用已知的质量变量序列和时间注意力的输出一起作为解码过程的输入得到当前时刻的质量变量预测值。
实施例1:
如流程图如图1所示,下面对加氢裂化过程航煤初馏点进行预测:
步骤(1)、从加氢裂化过程中选取对航煤初馏点产生影响的43个变量(如表1所示)作为输入变量,提取了268天每天8时和20时离线化验得到的536个样本。
步骤(2)、对步骤(1)中收集到的数据进行离差标准化得到新的数据集,转化函数为:
Figure BDA0002214655570000134
其中xmin为数据集的最小值,xmax为数据集的最大值。离差标准化是对原始数据的线性变换,使结果落到[0,1]区间;
将前450个样本作为训练集训练模型参数,剩下的86个样本作为测试集测试模型的预测性能,首先得到训练集的输入和输出矩阵:
Figure BDA0002214655570000142
其中,
Figure BDA0002214655570000143
步骤(3)、对输入样本进行编码:利用空间注意力机制对新的数据集中每个样本计算输入变量和质量变量之间的相关性:
Figure BDA0002214655570000144
其中s(t-1)为解码输出的隐状态,V1 i,W1 i,为网络权重矩阵,为偏置向量。对计算出的变量注意力值进行归一化:
Figure BDA0002214655570000147
由此可以得到空间注意力机制的最终输出为:
Figure BDA0002214655570000148
在得到和质量变量相关的输入之后,利用长短期神经网络单元通过前向传播算法得到隐层状态:
遗忘门:
Figure BDA0002214655570000149
输入门:
Figure BDA00022146555700001410
输出门:
Figure BDA00022146555700001411
中间状态输入:
Figure BDA00022146555700001412
其中w*x,w*h分别表示当前时刻输入
Figure BDA0002214655570000151
前一时刻的隐状态h(t-1)与长短期记忆细胞单元中三个控制门以及中间状态的转换矩阵,b*表示三个控制门和中间状态的偏置量;当前时刻的细胞状态和隐藏层输出为:
h(t)=o(t)⊙tan h(m(t))
步骤(4)、对隐藏层的状态进行解码:考虑工业过程数据的动态特性,前面时刻的输入变量对当前时刻的输出会产生不同程度的影响,因此,时间注意力机制通过计算滑动窗口内的输入样本和解码的隐层状态之间的相似度,来度量输入样本和质量变量之间的相关性:
Figure BDA0002214655570000153
其中s(t-1)解码过程的隐层状态,T为滑动窗口的长度,V2 k,W2 k,
Figure BDA0002214655570000154
为权重矩阵,
Figure BDA0002214655570000155
为时间注意力机制的偏置向量;
对时间注意力进行归一化:
Figure BDA0002214655570000156
由此可以得到解码过程的长短期记忆网络t时刻的一个输入:
Figure BDA0002214655570000157
计算出c(t)之后,将c(t)和已知的目标序列
Figure BDA0002214655570000158
一起更新解码过程的隐层状态:
Figure BDA0002214655570000159
Figure BDA00022146555700001510
其中,W3,V3和为解码过程的长短期记忆网络的权值矩阵,b3为解码过程的长短期记忆网络的偏置向量,fl(·)代表一个长短期记忆单元。最后,可以得到t时刻的质量变量的预测值:
其中,V和bv分别表示权值矩阵和偏置向量,fl(·)代表一个长短期记忆单元;
步骤(5)、计算模型的损失函数MSE:
Figure BDA0002214655570000162
利用误差反向传播算法和Adam算法更新网络参数,在达到最大迭代次数R=220后停止模型的训练。
步骤(6)、利用测试集数据验证模型的预测性能,测试集输入样本和质量变量为:
Figure BDA0002214655570000163
Figure BDA0002214655570000164
当j=1时,将输入样本通过训练好的模型先计算出当前时刻的时间注意力机制输出,之后随机初始化当前时刻的质量变量的初始值,将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值,当j>1时,将输入样本通过训练好的模型计算出时间注意力机制的输出后,和已知的质量变量序列一起更新解码过程隐层输出:
Figure BDA0002214655570000167
Figure BDA0002214655570000168
最后,可以得到测试集中第j个样本对应的质量变量的预测值:
Figure BDA0002214655570000171
利用标准的均方根误差(RMSE)来评价软测量模型的预测精度,计算公式如下:
Figure BDA0002214655570000172
其中
Figure BDA0002214655570000173
Figure BDA0002214655570000174
分别为质量变量在T1+j时刻的真实值和预测值。
预测结果分别如图6、图7、图8所示,均方根误差RMSE如表2所示。可以看出本发明的基于空间和时间注意力的长短期记忆网络较基于注意力的长短期记忆网络和循环神经网络可以更精确的预测质量变量的真实值,验证了本发明的有效性。
实施例2:
如流程图如图9所示,下面对脱丁烷塔C4浓度进行预测:
步骤(1)、从脱丁烷塔中选取对C4浓度产生影响的7个变量(如表3所示)作为输入变量,每10分钟进行一次采样,得到共1700个样本。
步骤(2)、对步骤(1)中收集到的数据进行离差标准化得到新的数据集,转化函数为:
其中xmin为数据集的最小值,xmax为数据集的最大值。离差标准化是对原始数据的线性变换,使结果落到[0,1]区间;
将前1500个样本作为训练集训练模型参数,剩下的200个样本作为测试集测试模型的预测性能,首先得到训练集的输入和输出矩阵:
Figure BDA0002214655570000181
Figure BDA0002214655570000182
其中,
Figure BDA0002214655570000183
步骤(3)、对输入样本进行编码:利用空间注意力机制对新的数据集中每个样本计算输入变量和质量变量之间的相关性:
Figure BDA0002214655570000184
其中s(t-1)为解码输出的隐状态,V1 i,W1 i,
Figure BDA0002214655570000185
为网络权重矩阵,为偏置向量。对计算出的变量注意力值进行归一化:
Figure BDA0002214655570000187
由此可以得到空间注意力机制的最终输出为:
Figure BDA0002214655570000188
在得到和质量变量相关的输入之后,利用长短期神经网络单元通过前向传播算法得到隐层状态:
遗忘门:
Figure BDA0002214655570000189
输入门:
输出门:
中间状态输入:
Figure BDA00022146555700001812
其中w*x,w*h分别表示当前时刻输入
Figure BDA0002214655570000191
前一时刻的隐状态h(t-1)与长短期记忆细胞单元中三个控制门以及中间状态的转换矩阵,b*表示三个控制门和中间状态的偏置量;当前时刻的细胞状态和隐藏层输出为:
Figure BDA0002214655570000192
h(t)=o(t)⊙tan h(m(t))
步骤(4)、对隐藏层的状态进行解码:考虑工业过程数据的动态特性,前面时刻的输入变量对当前时刻的输出会产生不同程度的影响,因此,时间注意力机制通过计算滑动窗口内的输入样本和解码的隐层状态之间的相似度,来度量输入样本和质量变量之间的相关性:
Figure BDA0002214655570000193
其中s(t-1)解码过程的隐层状态,T为滑动窗口的长度,V2 k,W2 k,
Figure BDA0002214655570000194
为权重矩阵,为时间注意力机制的偏置向量;
对时间注意力进行归一化:
Figure BDA0002214655570000196
由此可以得到解码过程的长短期记忆网络t时刻的一个输入:
Figure BDA0002214655570000197
计算出c(t)之后,将c(t)和已知的目标序列
Figure BDA0002214655570000198
一起更新解码过程的隐层状态:
Figure BDA0002214655570000199
其中,W3,V3和为解码过程的长短期记忆网络的权值矩阵,b3为解码过程的长短期记忆网络的偏置向量,fl(·)代表一个长短期记忆单元。最后,可以得到t时刻的质量变量的预测值:
Figure BDA0002214655570000201
其中,V和bv分别表示权值矩阵和偏置向量,fl(·)代表一个长短期记忆单元;
步骤(5)、计算模型的损失函数MSE:
Figure BDA0002214655570000202
利用误差反向传播算法和Adam算法更新网络参数,在达到最大迭代次数R=60后停止模型的训练。
步骤(6)、利用测试集数据验证模型的预测性能,测试集输入样本和质量变量为:
Figure BDA0002214655570000203
Figure BDA0002214655570000204
当j=1时,将输入样本通过训练好的模型先计算出当前时刻的时间注意力机制输出,之后随机初始化当前时刻的质量变量的初始值,将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值,当j>1时,将输入样本通过训练好的模型计算出时间注意力机制的输出
Figure BDA0002214655570000205
后,和已知的质量变量序列
Figure BDA0002214655570000206
一起更新解码过程隐层输出:
Figure BDA0002214655570000207
Figure BDA0002214655570000208
最后,可以得到测试集中第j个样本对应的质量变量的预测值:
Figure BDA0002214655570000211
利用标准的均方根误差(RMSE)来评价软测量模型的预测精度,计算公式如下:
Figure BDA0002214655570000212
其中
Figure BDA0002214655570000213
Figure BDA0002214655570000214
分别为质量变量在T1+j时刻的真实值和预测值。
预测结果分别如图10、图11、图12所示,均方根误差RMSE如表4所示。可以看出本发明的基于空间和时间注意力的长短期记忆网络较基于注意力的长短期记忆网络和循环神经网络可以更精确的预测质量变量的真实值,验证了本发明的有效性。
表1加氢裂化过程输入变量说明
Figure BDA0002214655570000215
Figure BDA0002214655570000221
表2三种方法在加氢裂化过程中的预测均方根误差RMSE
Figure BDA0002214655570000222
表3脱丁烷塔过程输入变量说明
表4三种方法在脱丁烷塔过程中的预测均方根误差RMSE
Figure BDA0002214655570000231

Claims (4)

1.一种基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测方法,其特征在于,包括以下步骤:
S1.基于生产过程,通过机理分析和专家知识,选取对质量变量产生影响的若干变量作为输入变量,等时间间隔对所述的输入变量和相应的质量变量连续均匀采样若干次,得到输入变量与相应的质量变量的时间序列原始数据集记为(X,Y);
Figure FDA0002214655560000017
Figure FDA0002214655560000018
其中T1为采集样本次数,1≤t≤T1
S2.对采样的原始数据集进行离差标准化:
对步骤S1所述的数据进行离差标准化:
Figure FDA0002214655560000011
其中xmin为样本数据的最小值,xmax为样本数据的最大值;
则得到新的数据集记为作为训练集:
Figure FDA0002214655560000013
Figure FDA0002214655560000014
其中,
Figure FDA0002214655560000015
n为输入变量的数量,
Figure FDA0002214655560000016
S3.构建和训练模型
S31.对输入样本进行编码:
利用空间注意力机制对训练集中每个样本计算输入变量和质量变量之间的相关性,并为每个输入变量分配相应的注意力权值,得到新的加权输入样本;利用长短期记忆网络对输入样本提取隐层的特征;
S32.对隐藏层的状态进行解码:
利用时间注意力机制通过计算各个时刻隐藏层状态和当前输出之间的相关性,为各个时刻的隐含状态分配不同的注意力权重并计算加权和作为当前质量变量的预测输入,最后通过一个非线性长短期记忆网络单元得到当前时刻的质量变量的预测值;
S33.确定网络的参数和超参数,训练基于空间和时间注意力的长短期记忆网络:
计算模型的损失函数MSE:
Figure FDA0002214655560000021
利用误差反向传播算法和Adam算法更新网络参数,在达到最大迭代次数R后停止模型的训练;
S4.实时采集输入变量值,利用训练完成的模型,计算质量变量的预测值:
Figure FDA0002214655560000022
其中,
Figure FDA0002214655560000023
是解码过程的长短期记忆网络的t-1时刻的隐层输出;c(t)是时间注意力机制的输出;fl(*)表示一个长短期记忆单元;V和bv为网络学习到的权值和偏置。
2.根据权利要求1所述的基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法,其特征在于:所述的步骤S31具体处理如下:
利用空间注意力机制对新的数据集中每个样本计算输入变量和质量变量之间的相关性:
Figure FDA0002214655560000031
其中s(t-1)为解码输出的隐状态,V1 i,W1 i,
Figure FDA0002214655560000032
为注意力网络权重矩阵,
Figure FDA0002214655560000033
为偏置向量;
对计算出的变量注意力值进行归一化:
Figure FDA0002214655560000034
得到空间注意力机制的最终输出为:
利用长短期神经网络单元通过前向传播算法得到隐层状态:
遗忘门:
输入门:
输出门:
Figure FDA0002214655560000038
中间状态输入:
Figure FDA0002214655560000039
其中w*x,w*h分别表示当前时刻输入
Figure FDA00022146555600000310
前一时刻的隐状态h(t-1)与长短期记忆细胞单元中三个控制门以及中间状态的转换矩阵,b*表示三个控制门和中间状态的偏置量;
当前时刻的细胞状态和隐藏层输出分别为:
h(t)=o(t)⊙tanh(m(t))。
3.根据权利要求1所述的基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法,其特征在于:所述的步骤S32具体处理如下:
利用时间注意力机制通过计算滑动窗口内的输入样本和解码的隐层状态之间的相似度作为注意力,来度量每个时刻的输入样本和质量变量之间的相关性:
Figure FDA0002214655560000041
其中s(t-1)是解码过程的长短期记忆网络的隐层状态,T为滑动窗口的长度,V2 k,W2 k,
Figure FDA0002214655560000042
为权重矩阵,
Figure FDA0002214655560000043
为时间注意力机制的偏置向量;
对时间注意力进行归一化:
得到解码过程的长短期记忆网络t时刻的一个输入:
Figure FDA0002214655560000045
计算出c(t)之后,将c(t)和已知的目标序列
Figure FDA0002214655560000046
一起更新解码过程的隐层状态:
Figure FDA0002214655560000047
Figure FDA0002214655560000048
其中,W3,V3和为解码过程的长短期记忆网络的权值矩阵,b3为解码过程的长短期记忆网络的偏置向量,fl(·)代表一个长短期记忆单元;
得到t时刻的质量变量的预测值:
Figure FDA0002214655560000051
其中,V和bv分别表示权值矩阵和偏置向量,fl(·)代表一个长短期记忆单元。
4.根据权利要求1所述的基于空间和时间注意力的长短期记忆网络对工业非线性动态过程产品质量预测的方法,其特征在于,所述的步骤S33之后还包括:
S34.采集测试样本,利用测试集数据验证模型的预测性能:
设测试集输入样本和质量变量分别为:
Figure FDA0002214655560000053
当j=1时,随机初始化当前时刻的质量变量的初始值,将初始化的值和当前时刻时间注意力机制的输出一起作为解码过程的输入得到当前时刻的质量变量预测值;当j>1时,利用已知的质量变量序列
Figure FDA0002214655560000054
和时间注意力的输出一起作为解码过程的输入得到当前时刻的质量变量预测值。
CN201910910902.1A 2019-09-25 2019-09-25 一种时空注意力网络的非线性动态工业过程产品预测方法 Active CN110705692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910910902.1A CN110705692B (zh) 2019-09-25 2019-09-25 一种时空注意力网络的非线性动态工业过程产品预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910910902.1A CN110705692B (zh) 2019-09-25 2019-09-25 一种时空注意力网络的非线性动态工业过程产品预测方法

Publications (2)

Publication Number Publication Date
CN110705692A true CN110705692A (zh) 2020-01-17
CN110705692B CN110705692B (zh) 2022-06-24

Family

ID=69196323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910910902.1A Active CN110705692B (zh) 2019-09-25 2019-09-25 一种时空注意力网络的非线性动态工业过程产品预测方法

Country Status (1)

Country Link
CN (1) CN110705692B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652437A (zh) * 2020-06-04 2020-09-11 上海眼控科技股份有限公司 跑道视程预测值获取方法、计算机设备和存储介质
CN111738482A (zh) * 2020-04-20 2020-10-02 东华大学 一种聚酯纤维聚合过程中的工艺参数的调节方法
CN111815053A (zh) * 2020-07-09 2020-10-23 北京中超伟业信息安全技术股份有限公司 一种针对工业时序数据的预测方法及系统
CN111832703A (zh) * 2020-06-29 2020-10-27 中南大学 一种基于采样间隔感知长短期记忆网络的流程制造工业不规则采样动态序列建模方法
CN111967616A (zh) * 2020-08-18 2020-11-20 深延科技(北京)有限公司 自动时间序列回归方法和装置
CN112462019A (zh) * 2020-11-14 2021-03-09 北京工业大学 一种基于cl-rnn的出水氨氮软测量方法
CN112668694A (zh) * 2020-12-21 2021-04-16 山东大学 一种基于深度学习的区域流量预测方法
CN112732907A (zh) * 2020-12-28 2021-04-30 华南理工大学 一种基于多尺度循环神经网络的金融舆情分析方法
CN113029993A (zh) * 2021-03-24 2021-06-25 中南大学 一种基于注意力机制的紫外光谱快速总氮在线检测方法
CN113259284A (zh) * 2021-05-13 2021-08-13 中南大学 一种基于Bagging和长短期记忆网络的信道盲均衡方法及系统
WO2021217282A1 (zh) * 2020-04-30 2021-11-04 Chen Yongcong 一种实现通用人工智能的方法
CN113963085A (zh) * 2021-12-23 2022-01-21 树根互联股份有限公司 工业系统的状态表征方法、装置及电子设备
CN114154700A (zh) * 2021-11-25 2022-03-08 浙江工业大学 一种基于transformer模型的用户用电量预测方法
CN114384886A (zh) * 2022-03-24 2022-04-22 西南石油大学 基于长短期记忆网络与注意力机制的井筒积液预测方法
CN115860269A (zh) * 2023-02-20 2023-03-28 南京信息工程大学 一种基于三重注意力机制的农作物产量预测方法
CN118395370A (zh) * 2024-03-30 2024-07-26 重庆赛力斯凤凰智创科技有限公司 电池故障预测模型训练方法及装置、预测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108628164A (zh) * 2018-03-30 2018-10-09 浙江大学 一种基于循环神经网络模型的工业过程半监督软测量方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN110033126A (zh) * 2019-03-14 2019-07-19 贵州大学 基于注意力机制与逻辑回归的长短期记忆网络预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108628164A (zh) * 2018-03-30 2018-10-09 浙江大学 一种基于循环神经网络模型的工业过程半监督软测量方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN110033126A (zh) * 2019-03-14 2019-07-19 贵州大学 基于注意力机制与逻辑回归的长短期记忆网络预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAOFENG YUAN 等: "Deep Learning-based Inferential Sensor for Dynamic Industrial Processes with Spatial-temporal Attention-Based LSTM", 《第30届中国过程控制会议(CPCC2019)摘要集》 *
XIAOFENG YUAN 等: "Nonlinear Dynamic Soft Sensor Modeling With Supervised Long Short-Term Memory Network", 《IEEE》 *
曹学晨 等: "基于ARIMA模型和BP人工神经网络的产品质量预测", 《价值工程》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738482B (zh) * 2020-04-20 2022-04-29 东华大学 一种聚酯纤维聚合过程中的工艺参数的调节方法
CN111738482A (zh) * 2020-04-20 2020-10-02 东华大学 一种聚酯纤维聚合过程中的工艺参数的调节方法
WO2021217282A1 (zh) * 2020-04-30 2021-11-04 Chen Yongcong 一种实现通用人工智能的方法
CN111652437A (zh) * 2020-06-04 2020-09-11 上海眼控科技股份有限公司 跑道视程预测值获取方法、计算机设备和存储介质
CN111832703A (zh) * 2020-06-29 2020-10-27 中南大学 一种基于采样间隔感知长短期记忆网络的流程制造工业不规则采样动态序列建模方法
CN111815053B (zh) * 2020-07-09 2021-03-16 北京中超伟业信息安全技术股份有限公司 一种针对工业时序数据的预测方法及系统
CN111815053A (zh) * 2020-07-09 2020-10-23 北京中超伟业信息安全技术股份有限公司 一种针对工业时序数据的预测方法及系统
CN111967616A (zh) * 2020-08-18 2020-11-20 深延科技(北京)有限公司 自动时间序列回归方法和装置
CN111967616B (zh) * 2020-08-18 2024-04-23 深延科技(北京)有限公司 自动时间序列回归方法和装置
CN112462019A (zh) * 2020-11-14 2021-03-09 北京工业大学 一种基于cl-rnn的出水氨氮软测量方法
CN112668694A (zh) * 2020-12-21 2021-04-16 山东大学 一种基于深度学习的区域流量预测方法
CN112732907A (zh) * 2020-12-28 2021-04-30 华南理工大学 一种基于多尺度循环神经网络的金融舆情分析方法
CN112732907B (zh) * 2020-12-28 2022-06-10 华南理工大学 一种基于多尺度循环神经网络的金融舆情分析方法
CN113029993A (zh) * 2021-03-24 2021-06-25 中南大学 一种基于注意力机制的紫外光谱快速总氮在线检测方法
CN113259284A (zh) * 2021-05-13 2021-08-13 中南大学 一种基于Bagging和长短期记忆网络的信道盲均衡方法及系统
CN113259284B (zh) * 2021-05-13 2022-05-24 中南大学 一种基于Bagging和长短期记忆网络的信道盲均衡方法及系统
CN114154700A (zh) * 2021-11-25 2022-03-08 浙江工业大学 一种基于transformer模型的用户用电量预测方法
CN114154700B (zh) * 2021-11-25 2024-05-03 浙江工业大学 一种基于transformer模型的用户用电量预测方法
CN113963085B (zh) * 2021-12-23 2022-03-29 树根互联股份有限公司 工业系统的状态表征方法、装置及电子设备
CN113963085A (zh) * 2021-12-23 2022-01-21 树根互联股份有限公司 工业系统的状态表征方法、装置及电子设备
CN114384886A (zh) * 2022-03-24 2022-04-22 西南石油大学 基于长短期记忆网络与注意力机制的井筒积液预测方法
CN115860269A (zh) * 2023-02-20 2023-03-28 南京信息工程大学 一种基于三重注意力机制的农作物产量预测方法
CN118395370A (zh) * 2024-03-30 2024-07-26 重庆赛力斯凤凰智创科技有限公司 电池故障预测模型训练方法及装置、预测方法及装置

Also Published As

Publication number Publication date
CN110705692B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN110705692B (zh) 一种时空注意力网络的非线性动态工业过程产品预测方法
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN110502806B (zh) 一种基于lstm网络的无线频谱占用度预测方法
CN110909926A (zh) 基于tcn-lstm的太阳能光伏发电预测方法
CN111680786B (zh) 一种基于改进权重门控单元的时序预测方法
CN113723007B (zh) 基于drsn和麻雀搜索优化的设备剩余寿命预测方法
CN113962314A (zh) 一种基于联邦学习的非侵入式企业负荷分解方法
CN112085254B (zh) 基于多重分形协同度量门控循环单元的预测方法及模型
CN111832703B (zh) 一种流程制造工业不规则采样动态序列建模方法
CN112288137A (zh) 一种计及电价和Attention机制的LSTM短期负荷预测方法及装置
CN113344288B (zh) 梯级水电站群水位预测方法、装置及计算机可读存储介质
CN112862004B (zh) 基于变分贝叶斯深度学习的电网工程造价管控指标预测方法
CN115308558B (zh) Cmos器件寿命预测方法、装置、电子设备及介质
CN117077327A (zh) 基于数字孪生的轴承寿命预测方法及系统
CN115561005A (zh) 基于eemd分解和轻量化神经网络的化工过程故障诊断方法
CN113988415A (zh) 一种中长期电力负荷预测方法
CN113536662A (zh) 基于萤火虫优化LightGBM算法的电子式互感器误差状态预测方法
CN107704944A (zh) 一种基于信息论学习的股市波动区间预测方法
CN116613732A (zh) 一种基于shap值选择策略的多元负荷预测方法及系统
CN115759343A (zh) 一种基于e-lstm的用户电量预测方法和装置
CN115936236A (zh) 一种卷烟厂能耗预测方法、系统、设备及介质
CN115293406A (zh) 基于CatBoost和Radam-LSTM的光伏发电功率预测方法
CN114861555A (zh) 一种基于Copula理论的区域综合能源系统短期负荷预测方法
CN112616160B (zh) 一种智能短波频率跨频段实时预测方法及系统
Yakushin et al. Neural network model for forecasting statistics of communities of social networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant