CN110879873B

CN110879873B - 一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统

Info

Publication number: CN110879873B
Application number: CN201910971689.5A
Authority: CN
Inventors: 李绍军; 倪佳能; 周洋; 田一彤; 王世豪; 贾琼; 蔡俊
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2023-04-07
Anticipated expiration: 2039-10-10
Also published as: CN110879873A

Abstract

本发明提出一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及其系统，包括如下步骤：为软测量模型挑选合适的辅助变量；对训练数据进行标准化和单调变换，并计算训练数据目标变量的平均方差；利用C‑vine copula进行相关性建模；待预测样本辅助变量在线收集、标准化处理及单调变换计算；根据训练样本目标变量的分布进行哈密顿蒙特卡洛采样；计算经过处理后的待预测样本辅助变量与采样样本的copula函数值，进而计算出目标变量的所有可能结果的条件概率；得到最终的预测值的数学期望；根据条件概率确定预测值的置信区间，并计算方差；比较预测值的数学期望的方差是否超过训练样本目标变量的平均方差。

Description

一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统

技术领域

本发明属于软测量技术领域，尤其涉及一种基于哈密顿蒙特卡洛采样的vinecopula相关性描述的软测量方法；同时，本发明还涉及一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统。

背景技术

现代工业生产过程越来越趋向于复杂化和规模化，为了能及时监控系统状态、迅速跟踪产品质量，关键产品质量的实时检测十分重要。实际生产过程中，产品质量往往通过化验分析得到，但分析仪器成本高昂，且化验过程有一定的延迟性，这些都给关键质量变量的及时采样带来了不小困难。软测量技术应运而生，它通过建立输入输出的数学模型，利用容易测量的过程变量如温度、压力、流量等，预测那些难以直接测量的质量变量如成分、含量等。

目前，大多数的多元统计软测量方法主要利用降维、去耦合思想，并且受到数据的高斯分布假设的限制(如PCA，PLS，GMM等)。但是，当过程数据体现为高度非线性性与非高斯性时，往往会出现信息损失并直接影响到最终的软测量效果。因此，本发明直接从刻画高维数据复杂相关性的角度出发，引入copula理论实现对高维数据的相关性建模，使用哈密顿蒙特卡洛采样方法提高预测效率。更为精确的统计模型能够保证复杂化工过程软测量效果的显著提升。

发明内容

本发明所要解决的技术问题是：提供一种基于哈密顿蒙特卡洛采样的vinecopula相关性描述的软测量方法，可克服传统降维思想引起的信息损失问题，并实现了对存在非线性、非高斯的多模态复杂化工过程的关键变量的预测。

此外，本发明还提供一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统，可克服传统降维思想引起的信息损失问题，实现了对存在非线性、非高斯的复杂化工过程的关键变量的预测，并引入采样补充策略，不断完善模型。

为解决上述技术问题，本发明采用如下技术方案：

一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，步骤如下：

步骤S1：根据实际的工业生产情况与专家知识，为软测量模型挑选合适的辅助变量；

步骤S2：对训练数据进行标准化和单调变换，得到变换后的符合copula建模的数据，并计算训练数据目标变量的平均方差；

步骤S3：利用C-vine copula进行相关性建模，获得训练样本辅助变量与目标变量的联合概率密度函数；

步骤S4：待预测样本辅助变量在线收集、标准化处理及单调变换计算；

步骤S5：根据训练样本目标变量的分布进行哈密顿蒙特卡洛采样，获得服从训练样本目标变量的分布的采样样本；

步骤S6：计算经过处理后的待预测样本辅助变量与采样样本的copula函数值，进而计算出目标变量的所有可能结果的条件概率；

步骤S7：根据S6计算的条件概率，对采样样本进行线性加权得到待预测样本目标变量标准化的预测值的数学期望，然后反变换得到最终的预测值的数学期望；

步骤S8：根据条件概率确定预测值的置信区间，并计算方差；

步骤S9：比较预测值的数学期望的方差是否超过训练样本目标变量的平均方差：若预测值的数学期望的方差超过训练样本目标变量的平均方差，则激活样本补充策略，将此样本加入训练样本，更新copula模型；若预测值的方差小于训练样本目标变量的平均方差，输出预测值的数学期望与置信区间。

进一步的，所述步骤S2通过以下三个子步骤获得单调变换后的数据，并计算训练数据目标变量的平均方差：

步骤2.1：对原始数据零均值标准化见式(1)：

其中，

X_i是变换前的变量，

X_i′是零均值标准化后的变量，

mean(X_i)是变量X_i的均值，

sd(X_i)是变量X_i的标准差，

d为向量X的维数；

步骤2.2：定义单调变换形式，见式(2)：

Z_i＝(1-α_i)X_i′+α_iX_r′i＝(1，2，...，d) (2) 其中，

Z_i是单调变换后的变量，

X_r′为参考变量，

α_i是对应的单调变换系数，

d为向量X的维数；

步骤2.3：确定单调变换系数，见式(3)：

其中，

ρ_i，0＝Cov(X_r′，X_i′)＝ρ(X_r′，X_i′)，ρ(X_r′，X_i′)表示X_r′与X_i′之间的皮尔逊相关系数，ρ_m是一个超参数，代表ρ(X_r′，Z_i′)的适当值，确保X_r′和Z_r′能够满足单调递增关系；

步骤2.4：计算训练数据目标变量的平均方差，见式(4)

其中，

是零均值标准化后的训练样本目标变量，

是零均值标准化后的训练样本目标变量的均值，

n是训练样本的个数，

VOS是训练数据目标变量的平均方差。

进一步的，所述步骤S3通过以下子步骤构建copula对的解析模型：

其中，各维变量已经经过零均值标准化，即用x_i表示已经标准化后的变量，

d为向量X的维数，

f(X)为向量X的联合概率密度函数，

f_t(x_t)为变量x_t的边缘概率密度函数，

F(x_i|x₁，...，x_i-1)为变量x_i的累积条件分布函数，

c_{i，i+j|1：i-1}为二元copula的密度函数，

θ_{i，i+j|1：i-1}为二元copula密度函数中的待优化参数。

进一步的，所述步骤S4通过以下二个步骤确定测试数据的标准化及单调性处理：

步骤4.1：待预测样本的辅助变量零均值标准化，基于(1)式；

步骤4.2：待预测样本单调变换，基于步骤2。

作为本发明的一种优选方案，所述步骤S5通过以下五个子步骤获得服从训练样本目标变量的分布的采样样本：

步骤5.1：从均匀分布[0，1]中选取随机动量变量P₀，从训练样本的目标变量中随机选择一个值作为Y0的初始值，即为当前马尔可夫链状态；

步骤5.2：基于公式(6)执行L步跳点法以获得新的状态(Y^*，P^*)

(Y^*，P^*)＝Ψ((Y₀，P₀)) (6) 其中，Ψ((Y，P))表示基于公式(7)，(8)，(9)的跳点法，

其中，U(Y)定义势能函数，为Y分布的负对数，U(Y)＝-log(Φ(Y))，

K(P)定义为动能函数，

h为跳点法的步长，

t为跳点法的步数；

步骤5.3：根据式(10)计算初始状态总能量H(Y₀，P₀)与新状态的总能量H(Y^*，P^*)；根据式(11)计算转移概率r⁽ⁱ⁾，同时，从均匀分布[0，1]中随机选取u⁽ⁱ⁾；

H(Y，P)＝U(Y)+K(P) (10)

步骤5.4：比较r⁽ⁱ⁾与u⁽ⁱ⁾，

(i)若u⁽ⁱ⁾＞r⁽ⁱ⁾，则接受提议的样本作为下一个样本Y_i+1＝Y^*；

(ii)若u⁽ⁱ⁾≤r⁽ⁱ⁾，则拒绝提议的样本，并继续当前状态Y_i+1＝Y_i；

步骤5.5：重复执行步骤5.1到5.4，直到获得了N个采样样本。

作为本发明的一种优选方案，所述步骤S6通过以下二个子步骤计算出目标变量的所有可能结果的条件概率：

步骤6.1：根据步骤S3得到的copula函数，计算经过处理后的待预测样本辅助变量与采样样本的copula函数值c(F(Y_i)，F(X_p))，其中，Y_i为采样样本，X_p为经过处理后的待预测样本辅助变量；

步骤6.2：由步骤6.1得到的copula函数值根据公式(12)计算所有可能结果的条件概率：

其中，

Y_i是第i个采样样本，

X_p是经过处理后的待预测样本辅助变量，

θ是vine copula的相关参数，

P(Y_i|X_p，θ)是第i个采样样本的条件概率，

c(F(Y_i)，F(X_p))是由步骤6.1得到的copula函数值。

作为本发明的一种优选方案，所述步骤S7通过以下子步骤得到最终的预测值的数学期望：

公式(13)计算出预测值标准化的数学期望，进一步经过公式(14)反变换得到最终的预测值的数学期望：

其中，

Y_i是采样样本，服从训练样本经过零均值标准化后的分布，

P(Y_i|X_p，θ)是第i个采样样本的条件概率，

mean(Y)是基于训练样本的目标变量求得的目标变量的均值，

sd(Y)是基于训练样本的目标变量求得的目标变量的标准差，

Y_p是零均值标准化后的预测值的数学期望，

N是采样样本的个数，

是最终的预测值的数学期望。

作为本发明的一种优选方案，所述步骤S8经过以下五个子步骤计算预测值的方差，确定预测值的置信区间：

步骤8.1：根据公式(15)计算预测值的方差：

其中，

P(Y_i|X_p，θ)是第i个采样样本的条件概率，

Y_i是采样样本，服从训练样本经过零均值标准化后的分布，

Y_p是零均值标准化后的预测值的数学期望，

N是采样样本的个数，

VAR是最终的预测值的数学期望；

步骤8.2：将式(12)计算得出的P(Y_i|X_p，θ)从大到小排列，得到P^*(Y_i|X_p，θ)，并且设置 j＝1，S＝0以及置信水平CLe；

步骤8.3：通过公式(16)更新S：

S＝S+P^*(Y_j|X_p，θ) (16)

P^*(Y_j|X_p，θ)是从大到小排列的第j个采样样本的条件概率，

步骤8.4：比较，S与CLe的大小：若S＜CLe，j＝j+1，转到步骤8.3；否则，选择前j个P^*(Y_j|X_p，θ)对应的预测值被选择，转到步骤8.4；

步骤8.5：在被选择的预测值中选择最大值和最小值，分别对应置信区间的上界和下界。

作为本发明的一种优选方案，所述步骤S9经过以下三个子步骤确定是否激活样本补充策略：

步骤9.1：比较预测值方差VAR与训练样本目标变量的平均方差VOS的大小：若VAR＞VOS，转到步骤9.2；否则，转到步骤9.3；

步骤9.2：激活样本补充策略，将此样本加入训练样本，更新copula模型；

步骤9.3：输出预测值的数学期望与置信区间。

本发明还提供一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统，所述系统包括：训练样本集获取模块，用于确定建模所需的辅助变量；数据变换模块，用以对每一维变量进行标准化及单调变换，获得适合copula建模的数据；联合概率密度函数获取模块，用以进行相关性建模，获得辅助变量与目标变量的联合概率密度函数以及copula函数；待预测样本辅助变量在线收集与变换模块；哈密顿蒙特卡洛采样模块；测试数据目标变量的所有可能结果的条件概率值计算模块，用以根据测试数据的辅助变量以及采样样本计算所有可能结果的条件概率值；线性加权预测模块，对所有零均值标准化后的训练样本的目标变量概率加权得到待预测样本目标变量的预测值，然后反变换得到最终的预测值的数学期望；置信区间计算模块，根据预测值所有可能结果的条件概率，计算置信区间的上界与下界；样本补充模块，判断预测值的数学期望的方差是否超过训练样本目标变量的平均方差，由此来决定是否激活样本补充策略。

本文针对工业数据的非线性，非高斯，变量的耦合关系以及复杂的非单调特征，将相关性模型copula引入软测量中，并结合单调变换方法，提出了一种基于哈密顿蒙特卡洛采样的 C-vine copula相关性描述的软测量回归模型，该方法不需要对原始数据进行降维处理，避免了信息损失，首先对原始数据进行单调变换，在变换空间建立基于C-vinecopula的回归模型，利用哈密顿蒙特卡洛采样计算预测值的数学期望，有效的处理了工业数据的非线性，非高斯，非单调性问题，并获得了良好的回归预测能力。

本发明的有益效果在于：本发明提出的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统，针对工业数据的非线性，非高斯，变量的耦合关系以及复杂的非单调特征，将相关性模型copula引入软测量中，并结合单调变换方法与哈密顿蒙特卡洛采样法，实现了对关键变量的预测。

本发明引入了vine copula实现复杂化工过程的软测量。Vine copula作为近些年兴起的一类copula结构，在经济学、金融学和气象学等领域得到了广泛的应用。由于vinecopula可以将多元交接点分解为二元交接点级联的乘积，将高维数据的相关性问题转化为稀疏矩阵内有限个二元copula的优化问题，显著降低计算成本；同时，基于其高度灵活的结构特点，vine copula能够准确刻画体现为高度非线性性与非高斯性的复杂化工过程，该方法尤其对于含尾偏特性数据具有显著优势。该发明不仅能够保证离线建模具有较低的计算复杂度，同时也能够实现对复杂化工过程的关键变量实时在线预测。

附图说明

图1为根据本发明的基于vine copula的软测量方法流程图。

图2为在本发明下乙烯裂解数据软测量过程中拟合的C-vine copula示意图。

图3为本发明乙烯裂解数据软测量预测效果图。

图4为本发明实施例三中50组待预测样本的预测效果图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

实施例一

本发明揭示了一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，具体步骤如下：

【步骤S1】：根据实际的工业生产情况与专家知识，为软测量模型挑选合适的辅助变量

【步骤S2】：利用单调变换法，得到变换后的符合copula建模的数据，并计算训练数据目标变量的平均方差：

对原始数据零均值标准化见式(1)

其中，

X_i是变换前的变量，X_i′是零均值标准化后的变量，mean(X_i)是变量X_i的均值，sd(X_i)是变量 X_i的标准差，d为向量X的维数。定义单调变换形式，见式(2)：

Z_i＝(1-α_i)X_i′+α_iX_r′ i＝(1，2，...，d) (2) 其中，Z_i是单调变换后的变量，X_r′为参考变量，α_i是对应的单调变换系数，d为向量X的维数。参考变量直接选择辅助变量的最后一维，单调变换系数由式(3)确定确定单调变换系数

其中，ρ_i，0＝Cov(X_r′，X_i′)＝ρ(X_r′，X_i′)，ρ(X_r′，X_i′)表示X_r′与X_i′之间的皮尔逊相关系数，ρ_m是一个超参数，代表ρ(X_r′，Z_i′)的适当值，确保X_r′和Z_r′能够满足单调递增关系。计算训练数据目标变量的平均方差，见式(4)

其中，

是零均值标准化后的训练样本目标变量，

是零均值标准化后的训练样本目标变量的均值，n是训练样本的个数，VOS是训练数据目标变量的平均方差。

【步骤S3】：利用C-vine copula进行相关性建模，获得辅助变量与目标变量的联合概率密度函数：

对于d维随机向量x＝[x₁，x₂，...，x_d]，其C-vine模型(x的联合概率密度函数)为：

其中，各维变量已经经过零均值标准化，即用x_i表示已经标准化后的变量，d为向量X的维数，f(X)为向量X的联合概率密度函数，f_t(x_t)为变量x_t的边缘概率密度函数，F(x_i|x₁，...，x_i-1) 为变量x_i的累积条件分布函数，c_{i，i+j|1：i-1}为二元copula的密度函数，θ_{i，i+j|1：i-1}为二元copula 密度函数中的待优化参数；

【步骤S4】：测试数据的标准化及单调性处理：

步骤4.1：待预测样本的辅助变量零均值标准化，基于(1)式；

步骤4.2：待预测样本单调变换，基于步骤2，将X＝[x₁，x₂，...，x_d]单调变换为 Z＝[z₁，z₂，...，z_d]；

【步骤S5】：利用哈密尔顿采样方法获得服从训练样本目标变量的分布的采样样本：

步骤5.1：从均匀分布[0，1]中选取随机动量变量P₀，从训练样本的目标变量中随机选择一个值作为Y₀的初始值，即为当前马尔可夫链状态；

步骤5.2：基于公式(6)执行L步跳点法以获得新的状态(Y^*，P^*)

(Y^*，P^*)＝Ψ((Y₀，P₀)) (6)

其中，Ψ((Y，P))表示基于公式(7)，(8)，(9)的跳点法，

其中，U(Y)定义势能函数，为Y分布的负对数，U(Y)＝-log(Φ(Y))，K(P)定义为动能函数，

h为跳点法的步长，t为跳点法的步数；

片(Y，P)＝U(Y)+K(P) (10)

步骤5.4：比较r⁽ⁱ⁾与u⁽ⁱ⁾，

步骤5.5：重复执行步骤5.1到5.4，直到获得了N个采样样本。

【步骤S6】：计算出目标变量的所有可能结果的条件概率：

步骤6.1：根据步骤S3得到的copula函数，计算经过处理后的待预测样本辅助变量与采样样本的copula函数值c(F(Y_i)，F(X_p))，其中，Y_i为采样样本，X_p为经过处理后的待预测样本辅助变量：

Y_i是第i个采样样本，X_p是经过处理后的待预测样本辅助变量，θ是vine copula的相关参数，P(Y_i|X_p，θ)是第i个采样样本的条件概率，c(F(Y_i)，F(X_p))是由步骤6.1得到的copula函数值。

【步骤S7】：通过公式(13)计算出预测值标准化的数学期望，进一步经过公式(14)反变换得到最终的预测值的数学期望：

其中，Y_i是采样样本，服从训练样本经过零均值标准化后的分布，P(Y_i|X_p，θ)是第i个采样样本的条件概率，mean(Y)是基于训练样本的目标变量求得的目标变量的均值，sd(Y)是基于训练样本的目标变量求得的目标变量的标准差，Y_p是零均值标准化后的预测值的数学期望， N是采样样本的个数，

是最终的预测值的数学期望。

【步骤S8】：经过以下5个步骤计算预测值的方差，确定预测值的置信区间：

步骤8.1：根据公式(15)计算预测值的方差

其中，P(Y_i|X_p，θ)是第i个采样样本的条件概率，Y_i是采样样本，服从训练样本经过零均值标准化后的分布，Y_p是零均值标准化后的预测值的数学期望，N是采样样本的个数，VAR是最终的预测值的数学期望；

步骤8.3：通过公式(16)更新S：

S＝S+P^*(Y_j|X_p，θ) (16)

P^*(Y_j|X_p，θ)是从大到小排列的第j个采样样本的条件概率，

步骤8.5：在被选择的预测值中选择最大值和最小值，分别对应置信区间的上界和下界

【步骤S9】：经过以下3个步骤确定是否激活样本补充策略：

步骤9.3：输出预测值的数学期望与置信区间

实施例二

通过以下实施例的说明将有助于理解本发明，但并不限制本发明的内容。请参阅图2，本实施例实现了对乙烯裂解过程乙烯裂解程度的预测(PER)，本实施实例的数据来源于SRT-III 型号乙烯裂解炉，预测目标是乙烯裂解率，由PER(丙烯/乙烯比率)来表示，挑选了正常工况的500组数据，400组用来训练copula模型，100组用来测试。

(1)根据先验信息，挑选了四个辅助变量分别是：裂解炉的平均出口温度x₁，热解原料的密度x₂，总进料x₃和蒸汽烃比率x₄。目标变量y是裂解深度指标PER。

(2)数据预处理：对训练样本零均值标准化，参考变量选择最后一维辅助变量x₄，利用皮尔逊相关系数方法进行单调变换，得到变换后的数据[z₁，z₂，z₃，z₄，z_y]。

(3)利用训练样本确定[z₁，z₂，z₃，z₄，z_y]的累积经验分布，并建立辅助变量与目标变量的联合概率密度函数，5维变量的C-vine copula结构如图2所示。图2中，序号1至4代表辅助变量 [z₁，z₂，z₃，z₄]，序号5代表关键变量zx，括号里面的数值代表拟合的二元copula的序号。

(4)测试数据辅助变量进行同样的单调变换，根据哈密顿蒙特卡洛采样法得到目标变量的预测值的数学期望。

(5)计算预测值的置信区间，预测值方差VAR与训练样本目标变量的平均方差VOS。

(6)比较预测值方差VAR与训练样本目标变量的平均方差VOS的大小。

(7)若VAR＞VOS，激活样本补充策略，将此样本加入训练样本，得到新的训练样本

利用新的训练样本确定的累积经验分布，并建立辅助变量与目标变量的联合概率密度函数，更新copula模型，并进行下一个值的预测。

(8)若VAR＜VOS，输出预测值的数学期望与置信区间，并进行下一个值的预测。

(9)100组待预测样本的预测效果见图3。

结果表明，采用基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法能实现对乙烯裂解过程裂解深度的有效及时的预测。

实施例三

请参阅图4，本实施例实现了对乙炔加氢反应器乙炔浓度的预测，本实施实例的数据来源于乙炔加氢过程，预测目标是乙炔浓度，挑选了正常工况的250组数据，200组用来训练copula 模型，50用来测试。

(1)根据先验信息，挑选了3个辅助变量分别是：C2成分进给率x₁，氢气进进给率x₂，进出口温度差x₃，主导变量为乙炔浓度y。

(2)数据预处理：对训练样本零均值标准化，参考变量选择最后一维辅助变量x₃，利用皮尔逊相关系数方法进行单调变换，得到变换后的数据[z₁，z₂，z₃，z_v]。

(3)利用训练样本确定[z₁，z₂，z₃，z_y]的累积经验分布，并建立辅助变量与目标变量的联合概率密度函数。

(9)50组待预测样本的预测效果见图4。

结果表明，采用基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法能实现对乙炔加氢反应器乙炔浓度的有效及时的预测。

实施例四

本发明还提供一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统，所述系统包括：

训练样本集获取模块，用于确定建模所需的辅助变量；数据变换模块，用以对每一维变量进行标准化及单调变换，获得适合copula建模的数据；联合概率密度函数获取模块，用以进行相关性建模，获得辅助变量与目标变量的联合概率密度函数以及copula函数；待预测样本辅助变量在线收集与变换模块；哈密顿蒙特卡洛采样模块；测试数据目标变量的所有可能结果的条件概率值计算模块，用以根据测试数据的辅助变量以及采样样本计算所有可能结果的条件概率值；线性加权预测模块，对所有零均值标准化后的训练样本的目标变量概率加权得到待预测样本目标变量的预测值，然后反变换得到最终的预测值的数学期望；置信区间计算模块，根据预测值所有可能结果的条件概率，计算置信区间的上界与下界；样本补充模块，判断预测值的数学期望的方差是否超过训练样本目标变量的平均方差，由此来决定是否激活样本补充策略。各个模块的具体实现方式可参阅实施例一中各个步骤对应的实现过程。

综上所述，本文针对工业数据的非线性，非高斯，变量的耦合关系以及复杂的非单调特征，将相关性模型copula引入软测量中，并结合单调变换方法，提出了一种基于哈密顿蒙特卡洛采样的C-vine copula相关性描述的软测量回归模型，该方法不需要对原始数据进行降维处理，避免了信息损失，首先对原始数据进行单调变换，在变换空间建立基于C-vine copula的回归模型，利用哈密顿蒙特卡洛采样计算预测值的数学期望，有效的处理了工业数据的非线性，非高斯，非单调性问题，并获得了良好的回归预测能力。

本发明的有益效果在于：本发明提出的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统，针对工业数据的非线性，非高斯，变量的耦合关系以及复杂的非单调特征，将相关性模型copula引入软测量中，并结合单调变换方法与哈密顿蒙特卡洛采样法，实现了对关键变量的预测。本发明引入了vine copula实现复杂化工过程的软测量。Vine copula 作为近些年兴起的一类copula结构，在经济学、金融学和气象学等领域得到了广泛的应用。由于vine copula可以将多元交接点分解为二元交接点级联的乘积，将高维数据的相关性问题转化为稀疏矩阵内有限个二元copula的优化问题，显著降低计算成本；同时，基于其高度灵活的结构特点，vine copula能够准确刻画体现为高度非线性性与非高斯性的复杂化工过程，该方法尤其对于含尾偏特性数据具有显著优势。该发明不仅能够保证离线建模具有较低的计算复杂度，同时也能够实现对复杂化工过程的关键变量实时在线预测。

本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

1.一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，其特征在于所述步骤S2通过以下4个步骤获得单调变换后的数据，并计算训练数据目标变量的平均方差：

步骤2.1：对原始数据零均值标准化见式(1)：

其中，

X_i是变换前的变量，

X_i′是零均值标准化后的变量，

mean(X_i)是变量X_i的均值，

sd(X_i)是变量X_i的标准差，

d为向量X的维数；

步骤2.2：定义单调变换形式，见式(2)：

Z_i＝(1-α_i)X_i′+α_iX_r′ i＝(1,2,…,d) (2)

其中，

Z_i是单调变换后的变量，

X_r′为参考变量，

α_i是对应的单调变换系数，

d为向量X的维数；

步骤2.3：确定单调变换系数，见式(3)：

其中，

ρ_i,0＝Cov(X_r′,X_i′)＝ρ(X_r′,X_i′)，ρ(X_r′,X_i′)表示X_r′与X_i′之间的皮尔逊相关系数，

ρ_m是一个超参数，代表ρ(X_r′,Z_i′)的适当值，确保X_r′和Z_r′能够满足单调递增关系；

步骤2.4：计算训练数据目标变量的平均方差，见式(4)

其中，

是零均值标准化后的训练样本目标变量，

是零均值标准化后的训练样本目标变量的均值，

n是训练样本的个数，

VOS是训练数据目标变量的平均方差。

3.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，其特征在于所述步骤S3通过式(5)构建copula对的解析模型：

其中,各维变量已经经过零均值标准化，即用x_i表示已经标准化后的变量，

d为向量X的维数,

f(X)为向量X的联合概率密度函数，

f_t(x_t)为变量x_t的边缘概率密度函数，

F(x_i|x₁,…,x_i-1)为变量x_i的累积条件分布函数，

c_i,i+j|1:i-1为二元copula的密度函数，

θ_i,i+j|1:i-1为二元copula密度函数中的待优化参数。

4.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，

其特征在于：所述步骤S4通过以下几个步骤确定测试数据的标准化及单调性处理：

步骤4.1：待预测样本的辅助变量零均值标准化，基于(1)式；

步骤4.2：待预测样本单调变换，基于步骤2。

5.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，其特征在于：所述步骤S5通过以下5个步骤获得服从训练样本目标变量的分布的采样样本：

步骤5.1：从均匀分布[0,1]中选取随机动量变量P₀，从训练样本的目标变量中随机选择一个值作为Y₀的初始值，即为当前马尔可夫链状态；

步骤5.2：基于公式(6)执行L步跳点法以获得新的状态(Y^*,P^*)

(Y^*,P^*)＝Ψ((Y₀,P₀)) (6)

其中，Ψ((Y,P))表示基于公式(7)，(8)，(9)的跳点法，

K(P)定义为动能函数，

h为跳点法的步长，

t为跳点法的步数；

步骤5.3：根据式(10)计算初始状态总能量H(Y₀,P₀)与新状态的总能量H(Y^*,P^*)；根据式(11)计算转移概率r⁽ⁱ⁾，同时，从均匀分布[0,1]中随机选取u⁽ⁱ⁾；

H(Y,P)＝U(Y)+K(P) (10)

步骤5.4：比较r⁽ⁱ⁾与u⁽ⁱ⁾，

步骤5.5：重复执行步骤5.1到5.4，直到获得了N个采样样本。

6.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，其特征在于：所述步骤S6通过以下2个步骤计算出目标变量的所有可能结果的条件概率：步骤6.1：根据步骤S3得到的copula函数，计算经过处理后的待预测样本辅助变量与采样样本的copula函数值c(F(Y_i),F(X_p))，其中，Y_i为采样样本，X_p为经过处理后的待预测样本辅助变量；

Y_i是第i个采样样本，

X_p是经过处理后的待预测样本辅助变量，

θ是vine copula的相关参数，

P(Y_i|X_p,θ)是第i个采样样本的条件概率，

c(F(Y_i),F(X_p))是由步骤6.1得到的copula函数值。

7.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，其特征在于：所述步骤S7通过公式(13)计算出预测值标准化的数学期望，进一步经过公式(14)反变换得到最终的预测值的数学期望：

其中，

Y_i是采样样本，服从训练样本经过零均值标准化后的分布，

P(Y_i|X_p,θ)是第i个采样样本的条件概率，

mean(Y)是基于训练样本的目标变量求得的目标变量的均值，

sd(Y)是基于训练样本的目标变量求得的目标变量的标准差，

Y_p是零均值标准化后的预测值的数学期望，

N是采样样本的个数，

是最终的预测值的数学期望。

8.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，其特征在于：所述步骤S8经过以下5个步骤计算预测值的方差，确定预测值的置信区间：步骤8.1：根据公式(15)计算预测值的方差：

其中，

P(Y_i|X_p,θ)是第i个采样样本的条件概率，

Y_i是采样样本，服从训练样本经过零均值标准化后的分布，

Y_p是零均值标准化后的预测值的数学期望，

N是采样样本的个数，

VAR是最终的预测值的数学期望；

步骤8.2：将式(12)计算得出的P(Y_i|X_p,θ)从大到小排列，得到P^*(Y_i|X_p,θ)，并且设置j＝1,S＝0以及置信水平CLe；

步骤8.3：通过公式(16)更新S：

S＝S+P^*(Y_j|X_p,θ) (16)

P^*(Y_j|X_p,θ)是从大到小排列的第j个采样样本的条件概率，

步骤8.4：比较,与CLe的大小：若S＜CLe，j＝j+1，转到步骤8.3；否则，选择前j个P^*(Y_j|X_p,θ)对应的预测值被选择，转到步骤8.4；

9.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法，其特征在于：所述步骤S9经过以下3个步骤确定是否激活样本补充策略：

步骤9.3：输出预测值的数学期望与置信区间。

10.一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统，其特征在于，该系统包括：

训练样本集获取模块，用于确定建模所需的辅助变量；

数据变换模块，用以对每一维变量进行标准化及单调变换，获得适合copula建模的数据；

联合概率密度函数获取模块，用以进行相关性建模，获得辅助变量与目标变量的联合概率密度函数以及copula函数；

待预测样本辅助变量在线收集与变换模块；

哈密顿蒙特卡洛采样模块；

测试数据目标变量的所有可能结果的条件概率值计算模块，用以根据测试数据的辅助变量以及采样样本计算所有可能结果的条件概率值；

线性加权预测模块，对所有零均值标准化后的训练样本的目标变量概率加权得到待预测样本目标变量的预测值，然后反变换得到最终的预测值的数学期望；

置信区间计算模块，根据预测值所有可能结果的条件概率，计算置信区间的上界与下界；

样本补充模块，判断预测值的数学期望的方差是否超过训练样本目标变量的平均方差，由此来决定是否激活样本补充策略。