CN114861759A

CN114861759A - 一种线性动态系统模型的分布式训练方法

Info

Publication number: CN114861759A
Application number: CN202210355396.6A
Authority: CN
Inventors: 邵伟明; 赵东亚; 李友高
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-08-05

Abstract

本发明公开了一种线性动态系统模型的分布式训练方法，首先将大规模时间序列数据划分为若干个连续时间的数据块；然后，在参数服务器模式下通过期望最大化算法求解模型参数，实现高效的数据挖掘。应用本发明，可以明显降低线性动态系统模型的训练时长，并且能够充分挖掘不连续的时间序列数据，从而在计算效率、预测精度与模型可解释性方面较现有的集中式训练方法取得显著优势，为提高产品质量控制品质、降低成本、过程监控以及决策制定提供技术支持与保障。

Description

一种线性动态系统模型的分布式训练方法

技术领域

本发明属于过程系统软测量建模与应用领域，具体涉及一种线性动态系统模型的分布式训练方法。

背景技术

软测量技术已被广泛应用于测量过程系统中难以测量的与质量相关的变量，例如各种成分变量、聚丙烯熔体指数、柴油和汽油质量指数等。软测量技术本质上是一种预测数学模型，将易于测量的辅助变量如温度、流量、压力和液位作为输入，并提供质量相关的关键变量的预测。因此，软测量对关键变量的在线估计可以与辅助变量的采样速率一样快，与离线实验室分析相比，基本没有测量延迟。此外，与光谱仪等现场测量分析仪相比，软测量具有巨大的经济优势。随着数据分析技术的发展，数据驱动的软测量模型近年来受到越来越多的关注，并被广泛应用于许多工业过程的各种任务中，包括质量变量的实时预测、与质量相关的过程监测、传感器校准、故障诊断，先进控制，总成本/利润优化。

由于原料的波动、工作条件的变化或内部的干扰，大多数工业过程表现出很强的动态特性，因此需要动态的软测量模型。动态软测量模型开发可以分为两类方法，在第一种方法中，软测量模型主要使用滑动平均模型结构开发，其基本思想是将当前变量连同其前若干个采样样本变量组合构建成带有时滞过程变量的增广矩阵。但这种方法存在显著的缺点，即数据的增广容易使模型的复杂性显著增加，并且每个辅助变量的时滞难以确定，导致过拟合和模型性能下降。另一种方法采用线性动态系统模型开发，在线性动态系统模型中，过程动态是通过首先引入马尔可夫链串联隐变量来捕获的，然后将观测变量与隐变量连接起来。隐变量的引入使线性动态系统模型能够对高维共线性数据进行建模，并且由于不需要数据增广，线性动态系统模型避免了第一种方法中出现的维数灾难和过拟合问题。此外，线性动态系统模型可以基于期望最大化算法的高效训练模型，并且能够通过一阶马尔可夫链防止模型复杂性的爆发。

尽管用于动态软测量的线性动态系统技术取得了长足的进步，但在实际应用中仍存在一些尚未解决的关键问题。首先，现在从工业工厂收集大量数据是不费力的，这使得线性动态系统能够充分提取过程的潜在动态特征。然而，这些大量的数据在训练线性动态系统模型时造成了显著的计算缺陷。前向滤波还是后向平滑，每个隐变量的条件分布都必须依次计算，而不是像训练静态模型那样，使用分布式计算设备并行计算。其次，线性动态系统要求数据在时间上是连续的，但由于数据通信系统或测量传感器故障，时间序列数据链可能是断裂的，产生不连续的时间序列数据。遗憾的是，目前可用的线性动态系统模型无法从不连续的时间序列数据中学习，只能利用所有样本连续的某些数据块，从而导致模型性能下降。因此，基于线性动态系统模型来研究和开发具有提高计算效率和充分利用所有样本信息的软测量模型，有助于提高模型的预测精度，助力生产企业实现节能环保、降本增效的目标，是十分必要和迫切的。

发明内容

针对现有技术的不足，本发明提供一种线性动态系统模型的分布式训练方法，以线性动态系统模型的形式建立辅助变量和关键变量的动态关系，有效解决工业引起的动态性、大规模数据训练以及时序数据链断裂的问题，并通过半监督学习同时挖掘有标签样本和无标签样本蕴含的信息，使得模型训练更可靠。具体技术方案如下：

一种线性动态系统模型的分布式训练方法，包括以下步骤：

(1)选择与关键变量y关联的辅助参数x∈R^v，其中v表示辅助变量个数；

(2)收集包含辅助变量与关键变量样本的数据集

d_t表示在t时刻获得的样本，T表示样本数量，其中，当

时，d_t＝(x_t,y_t)；当

时，d_t＝x_t；这里

和

分别表示有标签样本集和无标签样本集，x_t和y_t分别表示在采样时刻t辅助变量和关键变量的值；

(3)对数据集

做无量纲化处理，将辅助变量样本与关键变量样本的样本方差转换为单位方差；

(4)将步骤(3)处理后的大规模时间序列数据按时间顺序划分为M个数据块，将第m个数据块的数据集表示为

1≤m≤M；其中，当

时，

当

时，

这里

和

分别表示第m个数据块中有标签样本集和无标签样本集

和

分别表示第m个数据块中第t_m个样本的辅助变量和关键变量的值，T_m为第m个数据块的样本数量，1≤t_m≤T_m；

(5)随机初始化线性动态系统模型的模型参数Θ＝{R,S_x,S_y,∑,Ω_x,Ω_y,μ₀,P₀}，其中，μ₀和P₀是隐变量概率分布的初始均值向量和协方差矩阵，R为转移矩阵，Σ为转移条件分布的协方差，S_x和S_y为辅助变量和关键变量的发射矩阵，Ω_x和Ω_y分别是辅助变量和关键变量噪声分布的协方差矩阵；

(6)对每个样本赋予相应的隐变量，并将每个隐变量的条件分布设置为正态分布，将辅助变量与关键变量的条件分布也设置为正态分布；

(7)将步骤(4)处理后的M个数据块和步骤(5)的初始化参数输入线性动态系统模型中，基于期望最大化算法，进行分布式训练，获得模型参数Θ；

(8)采集仅包含辅助变量的未知样本，按步骤(3)进行无量纲处理，利用步骤(7)中通过分布式训练方法得到相应的模型参数集Θ，对关键变量进行预测。

进一步地，所述的步骤(6)中设定的每个数据块中每个样本对应的隐变量的条件分布具有如下形式

其中，

表示第m个数据块中第t_m个样本对应的隐变量，

表示随机变量

的概率密度函数，

表示给定

时，随机变量

的条件概率密度函数，

表示正态分布的概率密度函数，其中随机变量为

参数为均值向量μ、协方差矩阵为Λ；

以及每个数据块中每个辅助变量与关键变量的条件分布具有如下形式

进一步地，所述的步骤(7)中参数学习的分布式训练方法包括期望阶段和最大化阶段，其中，在期望阶段，第m个数据块对应的条件分布为：

其中，

和

分别为上述三个正态分布的均值，

和

分别为上述三个正态分布的协方差矩阵；

和

的更新采用如下形式的前向递推迭代方式：

当t_m>1时

其中，

为卡尔曼增益矩阵和

为中间矩阵，其定义分别为

当t_m＝1时，

其中，

为卡尔曼增益矩阵,其定义为

对于1≤t_m≤T_m，若

若

完成前向更新后，

的更新采用如下形式的后向递推迭代方式：

当t_m<T_m，

其中

为中间变量；

当t_m＝T_m时，

进一步地，所述的步骤(7)中参数学习的分布式训练方法包括期望阶段和最大化阶段，其中，在最大化阶段，根据期望阶段各个数据块的分布式计算结果，进行如下形式的参数更新：

其中，

代表

的第m个数据块中标签样本的数量大小，

进一步地，所述的步骤(8)具体为：

在线采集在t′时刻仅包含辅助变量的未知样本x_t′，按步骤(3)进行无量纲处理，然后按前向递归计算未知样本对应隐变量h_t′的后验概率分布：

其中，

其中，

和

为所在正态分布的均值和协方差矩阵，

为上一时刻隐变量条件分布的均值，K_t′为定义的卡尔曼增益矩阵和P_t′-1为定义的中间矩阵，其定义为

K_t′＝P_t′-1(S_t′)^T(Ω_t′+S_t′P_t′-1(S_t′)^T)^-1；

基于上述计算，x_t′对应的关键变量y_t′的条件概率分布计算如下：

对关键变量y_t′的预测值

的计算公式为：

与现有技术相比，本发明的有益效果如下：

1、通过半监督学习同时挖掘有标签样本和无标签样本蕴含的信息，使模型参数学习结果更准确、对关键参数的预测精度更高。

2、通过分布式训练的方法更新模型参数，极大提高了线性动态系统模型计算效率问题。

3、除解决模型计算效率问题之外，本发明的训练方法还可处理时序数据链断裂无法充分利用可用的样本信息的问题，来进一步提高模型的预测精度。

附图说明

图1为本发明实施例的方法的流程图。

图2为某石化企业合成氨工厂中低温变换单元的工艺原理图。

图3为归一化温度变量以及数据集的划分图。

图4为基于分布式训练方法的线性动态系统模型的CO浓度在线预测结果示意图。

具体实施方式

下面结合具体的实施例对本发明的一种线性动态系统模型的分布式训练方法作进一步的阐述。需要指出的是，所描述的实施例仅旨在加强对本发明的理解，并不对本发明起任何限定作用。

本发明的线性动态系统模型的分布式训练方法，如图1所示，具体包括如下步骤：

(1)选择与关键变量y关联的辅助变量x∈R^v，其中v表示辅助变量个数；

本实施例根据对某石化公司某石化企业合成氨工厂中低温变换单元(如图2所示)的机理分析，选择对CO浓度影响最大的7个变量作为辅助变量，分别为进口气体的流量(x₁)、进气温度(x₂)、反应器的顶层温度(x₃)、反应器的中间层温度(x₄)、反应器的底层温度(x₅)、出口气体温度(x₆)以及出口气体压力(x₇)，因此辅助变量x＝[x₁,x₂,…,x₇],即x∈R^v,v＝7；

(2)收集包含辅助变量与关键变量样本的数据集

d_t表示在t时刻获得的样本，T表示样本数量，其中，当

时，样本集为有标签的样本集，d_t＝(x_t,y_t)；当

时，样本集为无标签的样本集，d_t＝x_t；x_t和y_t分别表示在采样时刻t辅助变量和关键变量的值。

本实施例从计算机分散控制系统数据库中收集同时包含440多个小时的数据，每次观测的采样间隔为1分钟，使用归一化温度变量，数据集如图3所示观察到由通信故障引起的不连续的时序样本，作为训练数据集，将整个数据集划分为训练集D_trn、验证集D_val和测试集D_tst，如图3所示，D_val和D_tst分别由2000和3000个连续样本组成。

(3)对

其中去量纲的方法为：

式中，

分别代表第l个辅助变量和关键变量的样本标准差，其中n₁与n₂分别代表有标签样本与无标签样本的数量，x_n(l)表示第n个样本的第l个辅助变量的采样值。

1≤m≤M；其中，当

时，

当

时，

这里

和

分别表示第m个数据块中有标签样本集和无标签样本集

和

在该实施例中，通过图3所示的两个不连续的点，D_trn被自然地划分为3个数据块，即数据块1、数据块2和数据块3，分别由9886、6778和4039个连续样本组成，传统的线性动态系统学习算法只能使用这三个数据集中的一个来训练模型。

(5)随机初始化模型参数Θ^K＝0＝{R,S_x,S_y,∑,Ω_x,Ω_y,μ₀,P₀}，其中，μ₀和P₀是隐变量概率分布的初始均值和协方差，R称为转移矩阵，∑为转移条件分布的协方差，S_x和S_y为辅助变量和关键变量发射矩阵，Ω_x和Ω_y分别是辅助变量和关键变量测量噪声的随机向量；

每个数据块中每个样本对应的隐变量的条件分布具有如下形式：

其中，

表示第m个数据块中第t_m个样本对应的隐变量，

表示随机变量

的概率密度函数，

表示给定

时，随机变量

的条件概率密度函数，

表示正态分布的概率密度函数，其中随机变量为

参数为均值向量μ、协方差矩阵为Λ；

每个数据块中每个辅助变量与关键变量的条件分布具有如下形式

(7)将步骤(4)处理后的有标签样本集、无标签样本集和步骤(4)中的初始模型参数输入线性动态系统模型中，在期望最大化算法的基础上，通过分布式训练方法学习模型参数Θ^K；

由于工业过程中关键变量的采样率远低于辅助变量的采样率，本发明将线性动态系统模型考虑一个半监督的场景：

将观测变量的条件概率分布写成一个统一的形式：

其中，定义：

对于M个数据块需要计算隐变量

的后验概率分布，可以通过将期望最大化算法期望步训练的计算分配个M个从机完成，在每个从机需要完成每个数据块中所有样本的后验概率分布的计算，其中包括：

前向计算：对于1≤t_m≤T_m，计算隐变量条件概率分布

以及观测变量条件概率分布

后向计算：对于1≤t_m≤T_m，计算隐变量在第m块完整观测数据集上条件概率分布

求和计算:对于1≤t_m≤T_m，计算参数更新和收敛所需要的充分统计量的总和。

在所有从机完成计算任务后，将计算出的结果交付给主机，主机来实现期望最大化算法极大步来更新参数Θ^K以及收敛判断，进而实现了线性动态系统模型的分布式训练；

为了在期望步中保持公式的简便，对于处理第m个DB的从机，首先定义一些符号来表示隐变量和观测变量上必要的条件概率分布:

其中

和

是隐变量

后验条件概率分布的初始均值和协方差，

和

是隐变量

后验条件概率分布的初始均值和协方差，

和

是观测变量

条件概率分布的初始均值和协方差。

根据公式(9)和(11)，前向计算从计算

和

概率分布开始：

当t_m＝1时，

其中，

为定义的卡尔曼增益矩阵：

当t_m>1，

递归计算如下：

其中，

为定义的卡尔曼增益矩阵和

为定义的中间矩阵：

根据以上计算，给出了计算

公式如下：

后向递归计算从t_m＝T_m开始。也就是说，后向递归首先确定

可以得到：

在前向递归的基础上，对于t_m<T_m，后向递归计算如下

其中

定义如下：

基于后向计算获得隐变量的后验条件概率分布，可以得到期望最大化算法极大步所需的充分统计量

和

其中

代表取期望。

相应的从机也完成了参数更新和收敛判断于每个数据块相关所需的累加计算，从而进一步加深了分布式计算的程度，减轻了通信负担。其中，第m个从机进行的求和计算为:

其中

表示第m个数据块中标记样本的子集。

期望最大化极大步在完成期望步的操作后，根据每个数据块中隐变量的后验分布更新参数Φ，由主机通过整合从机收集到的计算来执行，具体地，将具有完整数据的对数似然函数的下界

为：

通过令对数似然函数对每个模型参数求偏导

来更新模型参数Φ，更新公式如下：

其中

代表

的第m个数据块中有标签样本的数量大小。

在期望最大化算法中，期望步和极大步是交替的，说明从机的计算和主机的计算需要进行迭代交互。对数似然函数

计算为：

根据期望最大化算法对数似然函数会单调递增，收敛条件可设计为：

其中

表示完成第k次迭代后的下界值，ε是定义的阈值。

(8)采集仅包含辅助变量的未知样本x_t′，按步骤(3)进行无量纲处理，利用步骤(7)中通过分布式训练方法得到相应的模型参数集Θ^K，对关键变量进行预测，具体如下：

按前向递归计算未知样本对应隐变量h_t′的后验概率分布：

其中，

和

是未知样本对应隐变量h_t′后验条件概率分布p(h_t′|D,x_t′)的初始均值和协方差，K_t′为定义的卡尔曼增益矩阵和P_t′-1为定义的中间矩阵：

基于上述计算，关键变量y_t′的条件概率分布计算如下：

根据式(49)，对关键变量y_t′的预测值为：

为了验证本发明的有效性，从该石化公司计算机分散控制系统中收集额外的有标签样本组作为校验样本集，按照步骤(8)，对CO浓度进行预测，预测结果如图4所示。同时，图4给出了三个数据块数据块1、数据块2和数据块3对CO浓度的预测结果。采用均方根误差(root mean squares error，RMSE)量化本发明的预测精度，定义如下

其中y_t和

分别代表第t个测试样本的化验值与预测值。本发明提供的方法与通过数据块数据块1、数据块2和数据块3训练的传统线性动态系统模型获得RMSE分别为0.0526、0.0546、0.0615和0.0579，模型训练时间分别为163.5s、741.7s、595.1s和294.7s。可见，本发明提出的分布式训练方法较传统的线性动态系统模型对CO浓度的预测精度有显著改善，以及显著提高模型计算效率。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。