CN117371543A - 一种基于时序扩散概率模型的增强软测量方法 - Google Patents
一种基于时序扩散概率模型的增强软测量方法 Download PDFInfo
- Publication number
- CN117371543A CN117371543A CN202311112159.8A CN202311112159A CN117371543A CN 117371543 A CN117371543 A CN 117371543A CN 202311112159 A CN202311112159 A CN 202311112159A CN 117371543 A CN117371543 A CN 117371543A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- training
- diffusion
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009792 diffusion process Methods 0.000 title claims abstract description 58
- 238000000691 measurement method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 91
- 230000008569 process Effects 0.000 claims abstract description 62
- 238000005259 measurement Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 59
- 238000012360 testing method Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 6
- LJROKJGQSPMTKB-UHFFFAOYSA-N 4-[(4-hydroxyphenyl)-pyridin-2-ylmethyl]phenol Chemical compound C1=CC(O)=CC=C1C(C=1N=CC=CC=1)C1=CC=C(O)C=C1 LJROKJGQSPMTKB-UHFFFAOYSA-N 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims 1
- 238000007906 compression Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 claims 1
- 238000000638 solvent extraction Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000001311 chemical methods and process Methods 0.000 description 3
- 239000002585 base Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002253 acid Substances 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012824 chemical production Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于时序扩散概率模型的增强软测量方法,属于软测量建模技术领域。其包括以下步骤:(1)获取动态过程的样本数据;(2)时序数据的数据集划分以及预处理;(3)建立时序扩散概率模型并生成扩充样本;(4)建立三相流过程压力变量预测模型;(5)模型表现评估。本发明提出一种基于时序扩散概率模型的增强软测量方法。该方法在噪声预测模型中融合了LSTM单元和一维卷积结构,因此能够同时捕捉动态数据的时序特性和空间特性,可以生成与原始样本相似的动态数据,提高了小样本时序数据建模的预测精度。
Description
技术领域
本发明涉及化工过程软测量建模领域,特别涉及一种基于时序扩散概率模型的增强软测量方法。
背景技术
在智能制造的大背景下,生产过程数字化水平不断提高,各种传感器的使用使得生产者只需在监控室就能实时获取生产数据,并对生产过程进行监测和控制。然而在实际生产中,由于高温高压、强酸强碱等恶劣环境的干扰,测量装置无法直接获得生产过程的全部数据,同时部分测量装置存在滞后性,也阻碍了对关键数据的实时获取。软测量技术是一种利用生产过程中容易测量的辅助变量,借助机理模型、数据驱动建模等方式,输出过程关键变量的技术方法,对生产设备的连续平稳运行以及提高产品的质量具有重要作用。其中,基于数据驱动的软测量建模方法,不仅克服了复杂化工过程机理模型难以构建的困难,而且具有准确率高、实现简单等优点,已经成为化工过程软测量技术的主流方法。
尽管软测量建模方法已经在化工生产中广泛应用,但在实际生产过程中,由于数据采集成本高、采集周期长等问题的存在,仅仅使用已有的少量数据来训练软测量模型,无法得到性能稳定、预测准确的模型。因此,采用高效的数据生成方法,对原有数据集进行扩充,有利于提高软测量模型的性能。扩散模型,作为一种热门的具有强大数据生成能力的生成模型,已经在计算机视觉、语音合成、自然语言处理等领域取得了巨大成就,而其在工业软测量建模领域的应用还尚未挖掘。工业过程数据多具有时序特性,即当前时刻的采样值与之前时刻的值之间有着密切联系。为了解决时序数据有限建模困难的问题,本发明提出了基于一种时序扩散概率模型(Time-series Denoising Diffusion ProbabilisticModel,TimeDDPM)的软测量建模方法,通过扩充样本的数量以达到提高模型预测性能的目的。
发明内容
为了解决时序工业过程中标签样本有限建立可靠软测量模型困难的问题,本发明提出了一种基于时序扩散概率模型的增强软测量方法。通过在扩散模型的核心结构噪声预测网络中融入能学习时间特性的长短期记忆(Long Short Term Memory,LSTM)单元和空间特性的一维卷积神经网络结构,同时捕捉数据的时空特性;从而生成与原始数据相似的生成样本,丰富原始样本的信息并扩大样本空间,以进一步提高模型的预测性能。
本发明解决其技术问题所采用的技术方案是:
一种基于时序扩散概率模型的增强软测量方法,所述方法包括以下步骤:
(1)获取动态过程的样本数据;
(2)时序数据的数据集划分以及预处理:
将获取的样本数据划分为两个部分:训练集和测试集,接着为加快模型收敛速度,消除不同变量量纲对模型训练的影响,对数据归一化处理,进一步,序列化训练集和测试集数据;
(3)建立时序扩散概率模型并生成扩充样本:
利用训练集样本训练噪声预测网络,当模型训练完毕,在时序扩散模型的反向去噪过程中生成数据,并与原始有限训练数据合并,组成新的训练集;
(4)建立三相流过程压力变量预测模型:
基于扩充后的训练集样本建立动态软测量模型;
(5)模型表现评估
为了客观评价本发明所提方法,引入评价指标均方根误差(Root Mean SquareError,RMSE)和平均绝对误差(MeanAbsolute Error,MAE),定量衡量扩充样本的效果。
进一步的,时序扩散概率模型可以学习给定数据集的分布,其包括两个过程:扩散过程即前向过程和去噪过程即反向过程。扩散过程对原始数据逐渐增加高斯噪声直至原始数据变成随机噪声,而去噪过程通过去除噪声的方式,生成新的数据。时序扩散概率模型是在传统的去噪概率扩散模型(DDPM)的基础上,对其噪声预测网络UNet网络进行改进,通过引入一维卷积结构和LSTM单元,构成Conv-LSTM-UNet网络。Conv-LSTM-UNet可以同时捕捉数据的时间特性和空间特性,有助于生成与原始样本相似的时序数据,所述步骤(3)的具体过程如下:
步骤3.1:TimeDDPM的前向和反向过程:
准备原始数据,在T步的前向过程中,对原始数据逐步增加高斯噪声,经T步后原始数据的信息被覆盖,服从高斯分布反向过程为重构数据的过程。
步骤3.2:训练Conv-LSTM-UNet网络:
为捕捉时序数据在时间维度和空间维度的动态特性,构建融入一维卷积网络和LSTM单元的Conv-LSTM-UNet噪声预测网络;训练Conv-LSTM-UNet模型预测高斯噪声;当模型训练稳定即预测的噪声与高斯噪声一致时,模型停止训练。
步骤3.3:生成数据并与原始数据合并:
在T步的反向过程中,第(t-1)步的数据是在第t步数据的基础上计算得到;重复上一步骤T次,最终得到生成数据。将新生成的数据与原始数据合并,组成新的训练集用于训练LSTM软测量模型。
进一步,所述步骤3.1的具体过程如下:
对于原始数据x0~q(x0),在包含T步的前向扩散过程中,第t步的数据xt是在第(t-1)步数据xt-1的基础上增加高斯噪声得到:
在这里,为每一步所采用的方差,其值介于0~1之间,通常情况下,随着扩散过程的进行,会逐步采用更大的方差,即满足β1<β2<…<βT。根据预先定义的方差表经T步扩散后,如T=50,那么最终得到的数据xT就完全丢失了原始数据而变成了随机噪声。在本发明中,我们采用线性方差表。对于整个扩散过程,以马尔卡夫链的形式表示为:
扩散过程的一个重要特性是我们可以直接基于原始数据x0对任意t步的xt进行采样:xt~q(xt|x0)。这里定义αt=1-βt和通过重参数技巧,得到:
扩散过程是将数据噪声化,而反向过程为去噪过程。若已知反向过程中每一步的真实数据分布q(xt-1|xt),则从随机噪声开始,逐渐去噪即能生成真实的样本,所以反向过程也是生成数据的过程。在这里,我们通过神经网络估计样本的真实分布q(xt-1|xt)。将反向过程也定义为一个马尔科夫链,记作:
pθ(xt-1|xt)=N(xt-1;μθ(xt,t),∑θ(xt,t))
其中pθ(xt-1|xt)为参数化的高斯分布,其均值和方差由神经网络得到,其中θ表示神经网络中的可训练参数。扩散模型旨在得到这个训练好的网络,以构成最终的生成模型。
神经网络的预测目标是使预测噪声和真实的噪声一致,即:
其中,t在[1,T]范围内取值。ε表示噪声,εθ表示一个基于神经网络的噪声预测模型。当模型训练稳定即预测的噪声与高斯噪声ε一致时,模型停止训练。
进一步,步骤3.2的具体过程如下:
在本发明中,采用Conv-LSTM-UNet网络进行噪声预测。给定原始动态数据其中,K表示特征的数量,L表示序列的长度,其由滑动窗口的大小决定。在时间维度上,样本s1至sL间存在着时间依赖性,同时,由于过程的外部扰动,变量间呈现出非线性关系。LSTM因其门控单元结构可以解决时间数据的依赖性和非线性问题。在空间维度上,不同的特征间存在空间依赖关系,如特征1和特征2,特征1和特征3。随着过程的进行,特征间的关系会发生变化,因此,我们采用卷积结构提取不同变量间的动态空间关系。为了捕捉数据不同位置间的依赖关系,采用自注意力机制为不同的特征赋予不同的权重,增加网络的全局建模能力。
噪声预测网络Conv-LSTM-UNet属于编码器-解码器结构,编码器由不同的下采样模块构成,以降低特征图的空间大小,同时提取数据的低层次特征。解码器结构与编码器相反,其将编码器压缩的特征逐渐恢复。此外,在Conv-LSTM-UNet的解码器模块中引入跳跃连接(Skip Connections)结构,将编码器中的浅层特征和解码器中的深层特征进行融合。进一步,在编码器中加入时间嵌入模块,将时间步信息嵌入到每个输入数据的通道中。该嵌入的向量是正弦和余弦函数的组合。通过引入时间嵌入模块,Conv-LSTM-UNet网络能够有效学习时间序列数据的结构,并在生成数据时保持时间上的连续性。总的而言,Conv-LSTM-UNet网络同时捕捉了数据在时间和空间上的特性,在扩散模型的反向过程中被用来指导数据生成过程,以生成高质量的时序数据。
进一步,步骤3.3的具体过程如下:
当噪声预测网络训练完成,我们可以预测反向过程任何阶段的数据,在T步的反向过程中,第(t-1)步的数据是在第t步数据的基础上根据以下公式计算得到:
其中,当n=N,...,2时当n=1时,z=0。
重复采样步骤T次,得到最终的生成数据Sgen,将原始有限动态训练数据与生成数据合并,组成新的训练集Snew={Strain∪Sgen}={Xnew,Ynew}。
进一步的,所述步骤(4)的具体过程如下:
考虑到LSTM模型在动态时序数据建模方面的优越性能,根据扩充后的新训练数据集Snew构建LSTM模型,并预测测试集的关键质量变量值。
发明的有益效果主要表现在:本发明提出一种基于时序扩散概率模型的增强软测量方法,该方法在噪声预测网络Conv-LSTM-UNet中融入了LSTM单元和一维卷积结构,因此能够同时捕捉动态数据的时间特性和空间特性,可以生成与原始样本相似的时序数据,进一步基于扩充后训练集构建模型,提高在测试集上预测精度。
附图说明
图1是本发明的Conv-LSTM-UNet网络结构图;
图2是本发明的TimeDDPM软测量建模流程图;
图3是本发明的方法在测试集上的预测曲线图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合说明书附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参照图1~图3,一种基于时序扩散概率模型的软测量建模方法,以构建三相流过程中的压力预测模型为例,包括以下步骤:
(1)获取动态过程的样本数据
三相流过程旨在为加压系统提供可控制和测量的水、油和空气。在三相流过程中,通过改变输入水流量和输入气流量两个设定值,可以产生不同分布的域。当系统处于正常运行状态下,可供选择的输入水流量为五种,输入气流量为四种,共存在20种不同的组合搭配。在本节中,所采用的数据的水流量为0.35kg/s,气流量为1.00m3/s。在三相流过程中,选择三相分离器中压力变量为预测的关键输出变量,16个与其密切相关的变量为模型的输入辅助变量,所有变量的采样频率为1s/次。
(2)三相流数据的数据集划分以及预处理
将获取的样本数据划分为两个部分:训练集和测试集,接着为加快模型收敛速度,消除不同变量量纲对模型训练的影响,对数据归一化处理,进一步,序列化训练集和测试集数据;
步骤2.1:划分数据集
将收集到的原始样本数据划分为训练集和测试集,两个数据集的样本数量各为304个。
步骤2.2:数据归一化处理
为加快模型收敛速度,消除不同变量量纲对模型训练的影响,对数据进行归一化处理,公式如下:
式中,x为归一化处理后的数据;x为所采集的原始数据;xmin为原始数据中的最小值;xmax为原始数据中的最大值。
步骤2.3:数据序列化处理
采用滑动窗口构建序列数据,其中,滑动窗大小为5,滑动步长为1,最终训练集和测试集序列各300组。
步骤3.1:TimeDDPM的前向和反向过程:
对于原始数据x0~q(x0),在包含T步的前向扩散过程中,第t步的数据xt是在第(t-1)步数据xt-1的基础上增加高斯噪声得到:
在这里,为每一步所采用的方差,其介于0~1之间,通常情况下,随着扩散过程的进行,会逐步采用更大的方差,即满足β1<β2<…<βT。根据预先定义的方差表经T步扩散后,如T=50,那么最终得到的数据xT就完全丢失了原始数据而变成了随机噪声。在本发明中,我们采用线性方差表。对于整个扩散过程,以马尔卡夫链的形式表示为:
扩散过程的一个重要特性是我们可以直接基于原始数据x0对任意t步的xt进行采样:xt~q(xt|x0)。这里定义αt=1-βt和通过重参数技巧,得到:
扩散过程是将数据噪声化,而反向过程为去噪过程。若已知反向过程中每一步的真实数据分布q(xt-1|xt),则从随机噪声开始,逐渐去噪即能生成真实的样本,所以反向过程也是生成数据的过程;我们通过神经网络估计样本的真实分布q(xt-1|xt);将反向过程也定义为一个马尔科夫链,记作:
pθ(xt-1|xt)=N(xt-1;μθ(xt,t),∑θ(xt,t))
其中pθ(xt-1|xt)为参数化的高斯分布,其均值和方差由神经网络得到,其中θ表示神经网络中的可训练参数。扩散模型旨在得到这个训练好的网络,以构成最终的生成模型。
神经网络的预测目标是使预测噪声和真实的噪声一致,即:
其中,t在[1,T]范围内取值。ε表示噪声,εθ表示一个基于神经网络的噪声预测模型。当模型训练稳定即预测的噪声与高斯噪声ε一致时,模型停止训练。
步骤3.2:训练Conv-LSTM-UNet网络:
在本发明中,采用Conv-LSTM-UNet网络进行噪声预测,图1为网络结构图。给定原始动态数据:
其中,K表示特征的数量,L表示序列的长度,其由滑动窗口的大小决定。对于三相流数据,K为300,L为16。在时间维度上,样本s1至sL间存在着时间依赖性,同时,由于过程的外部扰动,变量间呈现出非线性关系。LSTM因其门控单元结构可以解决时间数据的依赖性和非线性问题。在空间维度上,不同的特征间存在空间依赖关系,如特征1和特征2,特征1和特征3。随着过程的进行,特征间的关系会发生变化,因此,我们采用卷积结构提取不同变量间的动态空间关系。此外,由于数据不同的特征对网络的贡献度不同,采用自注意力机制为不同的特征赋予不同的权重,增加网络的全局建模能力。
噪声预测网络Conv-LSTM-UNet属于编码器-解码器结构,编码器由不同的下采样模块构成,以降低特征图的空间大小,同时提取数据的低层次特征。解码器结构与编码器相反,其将编码器压缩的特征逐渐恢复。此外,在Conv-LSTM-UNet的解码器模块中引入跳跃连接结构,将编码器中的浅层特征和解码器中的深层特征进行融合。进一步,在编码器中加入时间嵌入模块,将时间步信息嵌入到每个输入数据的通道中。该嵌入的向量是正弦和余弦函数的组合。通过引入时间嵌入模块,Conv-LSTM-UNet网络能够有效学习时间序列数据的结构,并在生成数据时保持时间上的连续性。总的而言,Conv-LSTM-UNet网络同时捕捉了数据在时间和空间上的特性,在扩散模型的反向过程中被用来指导数据生成过程,以生成高质量的时序数据。
步骤3.3:生成数据并与原始数据合并:
当噪声预测网络训练完成,我们可以预测反向过程任何阶段的数据,在T步的反向过程中,第(t-1)步的数据是在第t步数据的基础上根据以下公式计算得到:
其中,当n=N,...,2时当n=1时,z=0。
重复采样步骤T次,得到最终的生成数据Sgen,将原始有限动态训练数据与生成数据合并,组成新的训练集
Snew={Strain∪Sgen}={Xnew,Ynew}。
(4)建立三相流过程压力变量预测模型:
考虑到LSTM模型在时序数据建模方面的优越性能,根据扩充后的新训练数据集Snew构建LSTM模型,并预测测试集的关键质量变量值。图2为TimeDDPM软测量建模流程图。
(5)模型表现评估
均方根误差定义如下:
式中:表示测试数据yi的预测值,r为测试集样本总数。RMSE越小,说明回归模型的预测性能越好。
平均绝对误差定义如下:
MAE越小,说明回归模型的预测性能越好。
为验证所提方法的优越性能,将TimeDDPM与其他四种方法:DDPM、时序生成对抗网络(Time-series Generative Adversarial Network,TimeGAN)、时序变分自编码器(Time-series Variational Autoencoder,TimeVAE)以及基于原始有限的训练样本构建的LSTM模型作对比,在这里,DDPM、TimeGAN、TimeVAE和TimeDDPM各生成300组虚拟样本,并基于这些生成数据构建新的训练集。表1为基于五种不同的训练集样本构建的软测量模型,在三相流过程测试集上的预测结果。由于DDPM的噪声预测网络UNet主要为全连接结构,在数据生成阶段没有考虑到样本的时序特性,生成的样本与原始样本的差异性大,因此基于扩充后的样本构建的模型在测试集上的预测性能最差。对于TimeGAN,生成器和鉴别器由LSTM单元组成。对于TimeVAE,编码器和解码器都利用一维卷积结构从时间序列数据中提取时间特征。这两种方法在数据的生成过程中都只考虑了数据的时间特性,而忽略了空间特性,因此,它们的预测准确性比TimeDDPM差。TimeDDPM同时学习时序数据的时空特性,生成的样本更符合原始数据的分布,因而在测试集上可以取得最优的预测效果。
表1五种方法在测试集上的预测效果对比
本发明方法采用一种基于时序扩散概率模型的增强软测量方法,该方法在噪声预测网络Conv-LSTM-UNet中融合了LSTM单元和一维卷积结构,因此能够同时捕捉动态数据的时间特性和空间特性,从而提高模型的预测性能。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (7)
1.一种基于时序扩散概率模型的增强软测量方法,其特征在于,包括以下步骤:
(1)获取动态过程的样本数据;
(2)时序数据的数据集划分以及预处理:将获取的样本数据划分为训练集和测试集,对数据归一化处理,序列化训练集和测试集数据;
(3)建立时序扩散概率模型并生成扩充样本:利用训练集样本训练噪声预测网络,当模型训练完毕,在时序扩散模型的反向去噪过程中生成数据,并与原始有限训练数据合并,组成新的训练集;
(4)建立三相流过程压力变量预测模型:基于扩充后的训练集样本建立动态软测量模型;
(5)模型表现评估:引入评价指标,定量衡量扩充样本的效果。
2.如权利要求1所述的一种基于时序扩散概率模型的增强软测量方法,其特征在于,所述时序扩散概率模型是在去噪概率扩散模型DDPM的基础上,对其噪声预测网络UNet网络进行改进,通过引入一维卷积结构和LSTM单元,构成Conv-LSTM-UNet网络;时序扩散概率模型能够学习给定数据集的分布,其包括扩散过程和去噪过程;扩散过程对原始数据逐渐增加高斯噪声直至原始数据变成随机噪声,去噪过程通过去除噪声的方式,生成新的数据。
3.如权利要求2所述的一种基于时序扩散概率模型的增强软测量方法,其特征在于,所述步骤(3)的具体过程如下:
步骤3.1:TimeDDPM的扩散和去噪过程:
准备原始数据,在T步的前向过程中,对原始数据逐步增加高斯噪声,经T步后原始数据的信息被覆盖,服从高斯分布反向过程为重构数据的过程;
步骤3.2:训练Conv-LSTM-UNet网络:
为捕捉时序数据在时间维度和空间维度的动态特性,构建融入一维卷积网络和LSTM单元的Conv-LSTM-UNet噪声预测网络;训练Conv-LSTM-UNet模型预测高斯噪声;当模型训练稳定即预测的噪声与高斯噪声一致时,模型停止训练;
步骤3.3:生成数据并与原始数据合并:
在T步的反向过程中,第(t-1)步的数据是在第t步数据的基础上计算得到;重复上一步骤T次,最终得到生成数据;将新生成的数据与原始数据合并,组成新的训练集用于训练LSTM软测量模型。
4.如权利要求3所述的一种基于时序扩散概率模型的增强软测量方法,其特征在于,所述步骤3.1的具体过程如下:
步骤3.1.1、对于原始数据x0~q(x0),在包含T步的前向扩散过程中,第t步的数据xt是在第(t-1)步数据xt-1的基础上增加高斯噪声得到:
其中,为每一步所采用的方差,其值介于0~1之间,随着扩散过程的进行,会逐步采用更大的方差,即满足β1<β2<…<βT;根据预先定义的方差表/>经T步扩散后,如T=50,那么最终得到的数据xT就完全丢失了原始数据而变成了随机噪声;对于整个扩散过程,以马尔卡夫链的形式表示为:
定义αt=1-βt和通过重参数技巧,得到:
步骤3.1.2、通过神经网络估计样本的真实分布q(xt-1|xt);将反向过程定义为一个马尔科夫链,记作:
pθ(xt-1|xt)=N(xt-1;μθ(xt,t),∑θ(xt,t))
其中pθ(xt-1|xt)为参数化的高斯分布,其均值和方差由神经网络得到,其中θ表示神经网络中的可训练参数;扩散模型旨在得到这个训练好的网络,以构成最终的生成模型;
步骤3.1.3、神经网络的预测:其目的是使预测噪声和真实的噪声一致,即:
其中,t在[1,T]范围内取值;ε表示噪声,εθ表示一个基于神经网络的噪声预测模型;当模型训练稳定即预测的噪声与高斯噪声ε一致时,模型停止训练。
5.如权利要求4所述的一种基于时序扩散概率模型的增强软测量方法,其特征在于,所述步骤3.2中,Conv-LSTM-UNet网络的构建过程如下:
给定原始动态数据其中,K表示特征的数量,L表示序列的长度,其由滑动窗口的大小决定;采用LSTM单元捕捉时序数据的时间特性;采用卷积结构提取不同变量间的动态空间关系;采用自注意力机制为不同的特征赋予不同的权重,增加网络的全局建模能力,以构建Conv-LSTM-UNet网络。
6.如权利要求5所述的一种基于时序扩散概率模型的增强软测量方法,其特征在于,所述Conv-LSTM-UNet网络属于编码器-解码器结构,编码器由不同的下采样模块构成,以降低特征图的空间大小,同时提取数据的低层次特征;解码器结构与编码器相反,其将编码器压缩的特征逐渐恢复;且在Conv-LSTM-UNet的解码器模块中引入跳跃连接结构,将编码器中的浅层特征和解码器中的深层特征进行融合;此外,在编码器中加入时间嵌入模块,将时间步信息嵌入到每个输入数据的通道中;该嵌入的向量是正弦和余弦函数的组合。
7.如权利要求6所述的一种基于时序扩散概率模型的增强软测量方法,其特征在于,所述步骤3.3的具体过程如下:
当噪声预测网络训练完成,在T步的反向过程中,第(t-1)步的数据是在第t步数据的基础上根据以下公式计算得到:
其中,当n=N,...,2时当n=1时,z=0;
重复采样步骤T次,得到最终的生成数据Sgen={Xgen,Ygen},将原始有限动态训练数据与生成数据合并,组成新的训练集
Snew={Strain∪Sgen}={Xnew,Ynew};
考虑到LSTM模型在时序数据建模方面的优越性能,根据扩充后的新训练数据集Snew构建LSTM模型,并预测测试集的质量变量值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311112159.8A CN117371543A (zh) | 2023-08-31 | 2023-08-31 | 一种基于时序扩散概率模型的增强软测量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311112159.8A CN117371543A (zh) | 2023-08-31 | 2023-08-31 | 一种基于时序扩散概率模型的增强软测量方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117371543A true CN117371543A (zh) | 2024-01-09 |
Family
ID=89388090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311112159.8A Pending CN117371543A (zh) | 2023-08-31 | 2023-08-31 | 一种基于时序扩散概率模型的增强软测量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117371543A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274798A (zh) * | 2023-09-06 | 2023-12-22 | 中国农业科学院农业信息研究所 | 基于正则化的时序变分模型的遥感水稻识别方法 |
CN117932347A (zh) * | 2024-03-22 | 2024-04-26 | 四川大学 | 基于对抗性迁移学习的小样本时序预测方法及系统 |
-
2023
- 2023-08-31 CN CN202311112159.8A patent/CN117371543A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274798A (zh) * | 2023-09-06 | 2023-12-22 | 中国农业科学院农业信息研究所 | 基于正则化的时序变分模型的遥感水稻识别方法 |
CN117932347A (zh) * | 2024-03-22 | 2024-04-26 | 四川大学 | 基于对抗性迁移学习的小样本时序预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117371543A (zh) | 一种基于时序扩散概率模型的增强软测量方法 | |
CN110728360B (zh) | 一种基于bp神经网络的微能源器件能量识别方法 | |
CN109000930B (zh) | 一种基于堆叠去噪自编码器的涡轮发动机性能退化评估方法 | |
CN109272156B (zh) | 一种超短期风电功率概率预测方法 | |
CN113609955B (zh) | 一种基于深度学习和数字孪生的三相逆变器参数辨识方法 | |
CN112257263B (zh) | 基于自注意力机制的设备剩余寿命预测系统 | |
CN114549925A (zh) | 一种基于深度学习的海浪有效波高时间序列预测方法 | |
CN112213771A (zh) | 地震波阻抗反演方法及装置 | |
CN109299669A (zh) | 基于双智能体的视频人脸关键点检测方法及装置 | |
CN116399588A (zh) | 一种小样本下基于WPD和AFRB-LWUNet的滚动轴承故障诊断方法 | |
CN114118586A (zh) | 基于CNN-Bi LSTM的电机故障预测方法及系统 | |
CN115438897A (zh) | 一种基于blstm神经网络的工业过程产品质量预测方法 | |
CN113609766B (zh) | 一种基于深度概率潜隐模型的软测量方法 | |
CN112001115B (zh) | 一种半监督动态软测量网络的软测量建模方法 | |
CN110619886B (zh) | 一种针对低资源土家语的端到端语音增强方法 | |
CN117370771A (zh) | 一种基于条件分数扩散的知识嵌入填补软测量方法 | |
CN112785088A (zh) | 一种基于dcae-lstm短期日负荷曲线预测方法 | |
CN116596169A (zh) | 一种电力系统预测方法、装置及存储介质 | |
CN116050571A (zh) | 基于Transformer稀疏注意力机制的水质预测方法 | |
CN116911419A (zh) | 一种基于趋势相关性特征学习的长时序预测方法 | |
CN115963788A (zh) | 多采样率工业过程关键质量指标在线预测方法 | |
CN115238509A (zh) | 一种不确定系统的辨识方法及设备 | |
CN113919388A (zh) | 一种融合信号频谱幅值调制和深度学习的机电装备故障诊断方法及装置 | |
CN113435321A (zh) | 一种主轴轴承状态评估方法、系统、设备及可读存储介质 | |
CN114021469A (zh) | 一种基于混合序列网络进行一段炉过程监测的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |