CN117371543A

CN117371543A - 一种基于时序扩散概率模型的增强软测量方法

Info

Publication number: CN117371543A
Application number: CN202311112159.8A
Authority: CN
Inventors: 刘毅; 戴云; 刘昂鹏
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2024-01-09

Abstract

一种基于时序扩散概率模型的增强软测量方法，属于软测量建模技术领域。其包括以下步骤：(1)获取动态过程的样本数据；(2)时序数据的数据集划分以及预处理；(3)建立时序扩散概率模型并生成扩充样本；(4)建立三相流过程压力变量预测模型；(5)模型表现评估。本发明提出一种基于时序扩散概率模型的增强软测量方法。该方法在噪声预测模型中融合了LSTM单元和一维卷积结构，因此能够同时捕捉动态数据的时序特性和空间特性，可以生成与原始样本相似的动态数据，提高了小样本时序数据建模的预测精度。

Description

一种基于时序扩散概率模型的增强软测量方法

技术领域

本发明涉及化工过程软测量建模领域，特别涉及一种基于时序扩散概率模型的增强软测量方法。

背景技术

在智能制造的大背景下，生产过程数字化水平不断提高，各种传感器的使用使得生产者只需在监控室就能实时获取生产数据，并对生产过程进行监测和控制。然而在实际生产中，由于高温高压、强酸强碱等恶劣环境的干扰，测量装置无法直接获得生产过程的全部数据，同时部分测量装置存在滞后性，也阻碍了对关键数据的实时获取。软测量技术是一种利用生产过程中容易测量的辅助变量，借助机理模型、数据驱动建模等方式，输出过程关键变量的技术方法，对生产设备的连续平稳运行以及提高产品的质量具有重要作用。其中，基于数据驱动的软测量建模方法，不仅克服了复杂化工过程机理模型难以构建的困难，而且具有准确率高、实现简单等优点，已经成为化工过程软测量技术的主流方法。

尽管软测量建模方法已经在化工生产中广泛应用，但在实际生产过程中，由于数据采集成本高、采集周期长等问题的存在，仅仅使用已有的少量数据来训练软测量模型，无法得到性能稳定、预测准确的模型。因此，采用高效的数据生成方法，对原有数据集进行扩充，有利于提高软测量模型的性能。扩散模型，作为一种热门的具有强大数据生成能力的生成模型，已经在计算机视觉、语音合成、自然语言处理等领域取得了巨大成就，而其在工业软测量建模领域的应用还尚未挖掘。工业过程数据多具有时序特性，即当前时刻的采样值与之前时刻的值之间有着密切联系。为了解决时序数据有限建模困难的问题，本发明提出了基于一种时序扩散概率模型(Time-series Denoising Diffusion ProbabilisticModel,TimeDDPM)的软测量建模方法，通过扩充样本的数量以达到提高模型预测性能的目的。

发明内容

为了解决时序工业过程中标签样本有限建立可靠软测量模型困难的问题，本发明提出了一种基于时序扩散概率模型的增强软测量方法。通过在扩散模型的核心结构噪声预测网络中融入能学习时间特性的长短期记忆(Long Short Term Memory,LSTM)单元和空间特性的一维卷积神经网络结构，同时捕捉数据的时空特性；从而生成与原始数据相似的生成样本，丰富原始样本的信息并扩大样本空间，以进一步提高模型的预测性能。

本发明解决其技术问题所采用的技术方案是：

一种基于时序扩散概率模型的增强软测量方法，所述方法包括以下步骤：

(1)获取动态过程的样本数据；

(2)时序数据的数据集划分以及预处理：

将获取的样本数据划分为两个部分：训练集和测试集，接着为加快模型收敛速度，消除不同变量量纲对模型训练的影响，对数据归一化处理，进一步，序列化训练集和测试集数据；

(3)建立时序扩散概率模型并生成扩充样本：

利用训练集样本训练噪声预测网络，当模型训练完毕，在时序扩散模型的反向去噪过程中生成数据，并与原始有限训练数据合并，组成新的训练集；

(4)建立三相流过程压力变量预测模型：

基于扩充后的训练集样本建立动态软测量模型；

(5)模型表现评估

为了客观评价本发明所提方法，引入评价指标均方根误差(Root Mean SquareError,RMSE)和平均绝对误差(MeanAbsolute Error，MAE)，定量衡量扩充样本的效果。

进一步的，时序扩散概率模型可以学习给定数据集的分布，其包括两个过程：扩散过程即前向过程和去噪过程即反向过程。扩散过程对原始数据逐渐增加高斯噪声直至原始数据变成随机噪声，而去噪过程通过去除噪声的方式，生成新的数据。时序扩散概率模型是在传统的去噪概率扩散模型(DDPM)的基础上，对其噪声预测网络UNet网络进行改进，通过引入一维卷积结构和LSTM单元，构成Conv-LSTM-UNet网络。Conv-LSTM-UNet可以同时捕捉数据的时间特性和空间特性，有助于生成与原始样本相似的时序数据，所述步骤(3)的具体过程如下：

步骤3.1：TimeDDPM的前向和反向过程：

准备原始数据，在T步的前向过程中，对原始数据逐步增加高斯噪声，经T步后原始数据的信息被覆盖，服从高斯分布反向过程为重构数据的过程。

步骤3.2：训练Conv-LSTM-UNet网络：

为捕捉时序数据在时间维度和空间维度的动态特性，构建融入一维卷积网络和LSTM单元的Conv-LSTM-UNet噪声预测网络；训练Conv-LSTM-UNet模型预测高斯噪声；当模型训练稳定即预测的噪声与高斯噪声一致时，模型停止训练。

步骤3.3：生成数据并与原始数据合并：

在T步的反向过程中，第(t-1)步的数据是在第t步数据的基础上计算得到；重复上一步骤T次，最终得到生成数据。将新生成的数据与原始数据合并，组成新的训练集用于训练LSTM软测量模型。

进一步，所述步骤3.1的具体过程如下：

对于原始数据x₀～q(x₀)，在包含T步的前向扩散过程中，第t步的数据x_t是在第(t-1)步数据x_t-1的基础上增加高斯噪声得到：

在这里，为每一步所采用的方差，其值介于0～1之间，通常情况下，随着扩散过程的进行，会逐步采用更大的方差，即满足β₁＜β₂＜…＜β_T。根据预先定义的方差表经T步扩散后，如T＝50，那么最终得到的数据x_T就完全丢失了原始数据而变成了随机噪声。在本发明中，我们采用线性方差表。对于整个扩散过程，以马尔卡夫链的形式表示为：

扩散过程的一个重要特性是我们可以直接基于原始数据x₀对任意t步的x_t进行采样：x_t～q(x_t|x₀)。这里定义α_t＝1-β_t和通过重参数技巧，得到：

扩散过程是将数据噪声化，而反向过程为去噪过程。若已知反向过程中每一步的真实数据分布q(x_t-1|x_t)，则从随机噪声开始，逐渐去噪即能生成真实的样本，所以反向过程也是生成数据的过程。在这里，我们通过神经网络估计样本的真实分布q(x_t-1|x_t)。将反向过程也定义为一个马尔科夫链，记作：

p_θ(x_t-1|x_t)＝N(x_t-1；μ_θ(x_t,t),∑_θ(x_t,t))

其中p_θ(x_t-1|x_t)为参数化的高斯分布，其均值和方差由神经网络得到，其中θ表示神经网络中的可训练参数。扩散模型旨在得到这个训练好的网络，以构成最终的生成模型。

神经网络的预测目标是使预测噪声和真实的噪声一致，即：

其中，t在[1,T]范围内取值。ε表示噪声，ε_θ表示一个基于神经网络的噪声预测模型。当模型训练稳定即预测的噪声与高斯噪声ε一致时，模型停止训练。

进一步，步骤3.2的具体过程如下：

在本发明中，采用Conv-LSTM-UNet网络进行噪声预测。给定原始动态数据其中，K表示特征的数量，L表示序列的长度，其由滑动窗口的大小决定。在时间维度上，样本s¹至s^L间存在着时间依赖性，同时，由于过程的外部扰动，变量间呈现出非线性关系。LSTM因其门控单元结构可以解决时间数据的依赖性和非线性问题。在空间维度上，不同的特征间存在空间依赖关系，如特征1和特征2，特征1和特征3。随着过程的进行，特征间的关系会发生变化，因此，我们采用卷积结构提取不同变量间的动态空间关系。为了捕捉数据不同位置间的依赖关系，采用自注意力机制为不同的特征赋予不同的权重，增加网络的全局建模能力。

噪声预测网络Conv-LSTM-UNet属于编码器-解码器结构，编码器由不同的下采样模块构成，以降低特征图的空间大小，同时提取数据的低层次特征。解码器结构与编码器相反，其将编码器压缩的特征逐渐恢复。此外，在Conv-LSTM-UNet的解码器模块中引入跳跃连接(Skip Connections)结构，将编码器中的浅层特征和解码器中的深层特征进行融合。进一步，在编码器中加入时间嵌入模块，将时间步信息嵌入到每个输入数据的通道中。该嵌入的向量是正弦和余弦函数的组合。通过引入时间嵌入模块，Conv-LSTM-UNet网络能够有效学习时间序列数据的结构，并在生成数据时保持时间上的连续性。总的而言，Conv-LSTM-UNet网络同时捕捉了数据在时间和空间上的特性，在扩散模型的反向过程中被用来指导数据生成过程，以生成高质量的时序数据。

进一步，步骤3.3的具体过程如下：

当噪声预测网络训练完成，我们可以预测反向过程任何阶段的数据，在T步的反向过程中，第(t-1)步的数据是在第t步数据的基础上根据以下公式计算得到：

其中，当n＝N,...,2时当n＝1时，z＝0。

重复采样步骤T次，得到最终的生成数据S_gen，将原始有限动态训练数据与生成数据合并，组成新的训练集S_new＝{S_train∪S_gen}＝{X_new,Y_new}。

进一步的，所述步骤(4)的具体过程如下：

考虑到LSTM模型在动态时序数据建模方面的优越性能，根据扩充后的新训练数据集S_new构建LSTM模型，并预测测试集的关键质量变量值。

发明的有益效果主要表现在：本发明提出一种基于时序扩散概率模型的增强软测量方法，该方法在噪声预测网络Conv-LSTM-UNet中融入了LSTM单元和一维卷积结构，因此能够同时捕捉动态数据的时间特性和空间特性，可以生成与原始样本相似的时序数据，进一步基于扩充后训练集构建模型，提高在测试集上预测精度。

附图说明

图1是本发明的Conv-LSTM-UNet网络结构图；

图2是本发明的TimeDDPM软测量建模流程图；

图3是本发明的方法在测试集上的预测曲线图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合说明书附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参照图1～图3，一种基于时序扩散概率模型的软测量建模方法，以构建三相流过程中的压力预测模型为例，包括以下步骤：

(1)获取动态过程的样本数据

三相流过程旨在为加压系统提供可控制和测量的水、油和空气。在三相流过程中，通过改变输入水流量和输入气流量两个设定值，可以产生不同分布的域。当系统处于正常运行状态下，可供选择的输入水流量为五种，输入气流量为四种，共存在20种不同的组合搭配。在本节中，所采用的数据的水流量为0.35kg/s，气流量为1.00m³/s。在三相流过程中，选择三相分离器中压力变量为预测的关键输出变量，16个与其密切相关的变量为模型的输入辅助变量，所有变量的采样频率为1s/次。

(2)三相流数据的数据集划分以及预处理

步骤2.1：划分数据集

将收集到的原始样本数据划分为训练集和测试集，两个数据集的样本数量各为304个。

步骤2.2：数据归一化处理

为加快模型收敛速度，消除不同变量量纲对模型训练的影响，对数据进行归一化处理，公式如下：

式中，x为归一化处理后的数据；x为所采集的原始数据；x_min为原始数据中的最小值；x_max为原始数据中的最大值。

步骤2.3：数据序列化处理

采用滑动窗口构建序列数据，其中，滑动窗大小为5，滑动步长为1，最终训练集和测试集序列各300组。

步骤3.1：TimeDDPM的前向和反向过程：

在这里，为每一步所采用的方差，其介于0～1之间，通常情况下，随着扩散过程的进行，会逐步采用更大的方差，即满足β₁＜β₂＜…＜β_T。根据预先定义的方差表经T步扩散后，如T＝50，那么最终得到的数据x_T就完全丢失了原始数据而变成了随机噪声。在本发明中，我们采用线性方差表。对于整个扩散过程，以马尔卡夫链的形式表示为：

扩散过程是将数据噪声化，而反向过程为去噪过程。若已知反向过程中每一步的真实数据分布q(x_t-1|x_t)，则从随机噪声开始，逐渐去噪即能生成真实的样本，所以反向过程也是生成数据的过程；我们通过神经网络估计样本的真实分布q(x_t-1|x_t)；将反向过程也定义为一个马尔科夫链，记作：

p_θ(x_t-1|x_t)＝N(x_t-1；μ_θ(x_t,t),∑_θ(x_t,t))

神经网络的预测目标是使预测噪声和真实的噪声一致，即：

步骤3.2：训练Conv-LSTM-UNet网络：

在本发明中，采用Conv-LSTM-UNet网络进行噪声预测，图1为网络结构图。给定原始动态数据：

其中，K表示特征的数量，L表示序列的长度，其由滑动窗口的大小决定。对于三相流数据，K为300，L为16。在时间维度上，样本s¹至s^L间存在着时间依赖性，同时，由于过程的外部扰动，变量间呈现出非线性关系。LSTM因其门控单元结构可以解决时间数据的依赖性和非线性问题。在空间维度上，不同的特征间存在空间依赖关系，如特征1和特征2，特征1和特征3。随着过程的进行，特征间的关系会发生变化，因此，我们采用卷积结构提取不同变量间的动态空间关系。此外，由于数据不同的特征对网络的贡献度不同，采用自注意力机制为不同的特征赋予不同的权重，增加网络的全局建模能力。

噪声预测网络Conv-LSTM-UNet属于编码器-解码器结构，编码器由不同的下采样模块构成，以降低特征图的空间大小，同时提取数据的低层次特征。解码器结构与编码器相反，其将编码器压缩的特征逐渐恢复。此外，在Conv-LSTM-UNet的解码器模块中引入跳跃连接结构，将编码器中的浅层特征和解码器中的深层特征进行融合。进一步，在编码器中加入时间嵌入模块，将时间步信息嵌入到每个输入数据的通道中。该嵌入的向量是正弦和余弦函数的组合。通过引入时间嵌入模块，Conv-LSTM-UNet网络能够有效学习时间序列数据的结构，并在生成数据时保持时间上的连续性。总的而言，Conv-LSTM-UNet网络同时捕捉了数据在时间和空间上的特性，在扩散模型的反向过程中被用来指导数据生成过程，以生成高质量的时序数据。

步骤3.3：生成数据并与原始数据合并：

其中，当n＝N,...,2时当n＝1时，z＝0。

重复采样步骤T次，得到最终的生成数据S_gen，将原始有限动态训练数据与生成数据合并，组成新的训练集

S_new＝{S_train∪S_gen}＝{X_new,Y_new}。

(4)建立三相流过程压力变量预测模型：

考虑到LSTM模型在时序数据建模方面的优越性能，根据扩充后的新训练数据集S_new构建LSTM模型，并预测测试集的关键质量变量值。图2为TimeDDPM软测量建模流程图。

(5)模型表现评估

均方根误差定义如下：

式中：表示测试数据y_i的预测值，r为测试集样本总数。RMSE越小，说明回归模型的预测性能越好。

平均绝对误差定义如下：

MAE越小，说明回归模型的预测性能越好。

为验证所提方法的优越性能，将TimeDDPM与其他四种方法：DDPM、时序生成对抗网络(Time-series Generative Adversarial Network,TimeGAN)、时序变分自编码器(Time-series Variational Autoencoder,TimeVAE)以及基于原始有限的训练样本构建的LSTM模型作对比，在这里，DDPM、TimeGAN、TimeVAE和TimeDDPM各生成300组虚拟样本，并基于这些生成数据构建新的训练集。表1为基于五种不同的训练集样本构建的软测量模型，在三相流过程测试集上的预测结果。由于DDPM的噪声预测网络UNet主要为全连接结构，在数据生成阶段没有考虑到样本的时序特性，生成的样本与原始样本的差异性大，因此基于扩充后的样本构建的模型在测试集上的预测性能最差。对于TimeGAN，生成器和鉴别器由LSTM单元组成。对于TimeVAE，编码器和解码器都利用一维卷积结构从时间序列数据中提取时间特征。这两种方法在数据的生成过程中都只考虑了数据的时间特性，而忽略了空间特性，因此，它们的预测准确性比TimeDDPM差。TimeDDPM同时学习时序数据的时空特性，生成的样本更符合原始数据的分布，因而在测试集上可以取得最优的预测效果。

表1五种方法在测试集上的预测效果对比

本发明方法采用一种基于时序扩散概率模型的增强软测量方法，该方法在噪声预测网络Conv-LSTM-UNet中融合了LSTM单元和一维卷积结构，因此能够同时捕捉动态数据的时间特性和空间特性，从而提高模型的预测性能。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于时序扩散概率模型的增强软测量方法，其特征在于，包括以下步骤：

(1)获取动态过程的样本数据；

(2)时序数据的数据集划分以及预处理：将获取的样本数据划分为训练集和测试集，对数据归一化处理，序列化训练集和测试集数据；

(3)建立时序扩散概率模型并生成扩充样本：利用训练集样本训练噪声预测网络，当模型训练完毕，在时序扩散模型的反向去噪过程中生成数据，并与原始有限训练数据合并，组成新的训练集；

(4)建立三相流过程压力变量预测模型：基于扩充后的训练集样本建立动态软测量模型；

(5)模型表现评估：引入评价指标，定量衡量扩充样本的效果。

2.如权利要求1所述的一种基于时序扩散概率模型的增强软测量方法，其特征在于，所述时序扩散概率模型是在去噪概率扩散模型DDPM的基础上，对其噪声预测网络UNet网络进行改进，通过引入一维卷积结构和LSTM单元，构成Conv-LSTM-UNet网络；时序扩散概率模型能够学习给定数据集的分布，其包括扩散过程和去噪过程；扩散过程对原始数据逐渐增加高斯噪声直至原始数据变成随机噪声，去噪过程通过去除噪声的方式，生成新的数据。

3.如权利要求2所述的一种基于时序扩散概率模型的增强软测量方法，其特征在于，所述步骤(3)的具体过程如下：

步骤3.1：TimeDDPM的扩散和去噪过程：

准备原始数据，在T步的前向过程中，对原始数据逐步增加高斯噪声，经T步后原始数据的信息被覆盖，服从高斯分布反向过程为重构数据的过程；

步骤3.2：训练Conv-LSTM-UNet网络：

为捕捉时序数据在时间维度和空间维度的动态特性，构建融入一维卷积网络和LSTM单元的Conv-LSTM-UNet噪声预测网络；训练Conv-LSTM-UNet模型预测高斯噪声；当模型训练稳定即预测的噪声与高斯噪声一致时，模型停止训练；

步骤3.3：生成数据并与原始数据合并：

在T步的反向过程中，第(t-1)步的数据是在第t步数据的基础上计算得到；重复上一步骤T次，最终得到生成数据；将新生成的数据与原始数据合并，组成新的训练集用于训练LSTM软测量模型。

4.如权利要求3所述的一种基于时序扩散概率模型的增强软测量方法，其特征在于，所述步骤3.1的具体过程如下：

步骤3.1.1、对于原始数据x₀～q(x₀)，在包含T步的前向扩散过程中，第t步的数据x_t是在第(t-1)步数据x_t-1的基础上增加高斯噪声得到：

其中，为每一步所采用的方差，其值介于0～1之间，随着扩散过程的进行，会逐步采用更大的方差，即满足β₁＜β₂＜…＜β_T；根据预先定义的方差表/>经T步扩散后，如T＝50，那么最终得到的数据x_T就完全丢失了原始数据而变成了随机噪声；对于整个扩散过程，以马尔卡夫链的形式表示为：

定义α_t＝1-β_t和通过重参数技巧，得到：

步骤3.1.2、通过神经网络估计样本的真实分布q(x_t-1|x_t)；将反向过程定义为一个马尔科夫链，记作：

p_θ(x_t-1|x_t)＝N(x_t-1；μ_θ(x_t,t),∑_θ(x_t,t))

其中p_θ(x_t-1|x_t)为参数化的高斯分布，其均值和方差由神经网络得到，其中θ表示神经网络中的可训练参数；扩散模型旨在得到这个训练好的网络，以构成最终的生成模型；

步骤3.1.3、神经网络的预测：其目的是使预测噪声和真实的噪声一致，即：

其中，t在[1,T]范围内取值；ε表示噪声，ε_θ表示一个基于神经网络的噪声预测模型；当模型训练稳定即预测的噪声与高斯噪声ε一致时，模型停止训练。

5.如权利要求4所述的一种基于时序扩散概率模型的增强软测量方法，其特征在于，所述步骤3.2中，Conv-LSTM-UNet网络的构建过程如下：

给定原始动态数据其中，K表示特征的数量，L表示序列的长度，其由滑动窗口的大小决定；采用LSTM单元捕捉时序数据的时间特性；采用卷积结构提取不同变量间的动态空间关系；采用自注意力机制为不同的特征赋予不同的权重，增加网络的全局建模能力，以构建Conv-LSTM-UNet网络。

6.如权利要求5所述的一种基于时序扩散概率模型的增强软测量方法，其特征在于，所述Conv-LSTM-UNet网络属于编码器-解码器结构，编码器由不同的下采样模块构成，以降低特征图的空间大小，同时提取数据的低层次特征；解码器结构与编码器相反，其将编码器压缩的特征逐渐恢复；且在Conv-LSTM-UNet的解码器模块中引入跳跃连接结构，将编码器中的浅层特征和解码器中的深层特征进行融合；此外，在编码器中加入时间嵌入模块，将时间步信息嵌入到每个输入数据的通道中；该嵌入的向量是正弦和余弦函数的组合。

7.如权利要求6所述的一种基于时序扩散概率模型的增强软测量方法，其特征在于，所述步骤3.3的具体过程如下：

当噪声预测网络训练完成，在T步的反向过程中，第(t-1)步的数据是在第t步数据的基础上根据以下公式计算得到：

其中，当n＝N,...,2时当n＝1时，z＝0；

重复采样步骤T次，得到最终的生成数据S_gen＝{X_gen,Y_gen}，将原始有限动态训练数据与生成数据合并，组成新的训练集

S_new＝{S_train∪S_gen}＝{X_new,Y_new}；

考虑到LSTM模型在时序数据建模方面的优越性能，根据扩充后的新训练数据集S_new构建LSTM模型，并预测测试集的质量变量值。