CN110879873B - 一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统 - Google Patents

一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统 Download PDF

Info

Publication number
CN110879873B
CN110879873B CN201910971689.5A CN201910971689A CN110879873B CN 110879873 B CN110879873 B CN 110879873B CN 201910971689 A CN201910971689 A CN 201910971689A CN 110879873 B CN110879873 B CN 110879873B
Authority
CN
China
Prior art keywords
sample
variable
predicted
copula
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910971689.5A
Other languages
English (en)
Other versions
CN110879873A (zh
Inventor
李绍军
倪佳能
周洋
田一彤
王世豪
贾琼
蔡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201910971689.5A priority Critical patent/CN110879873B/zh
Publication of CN110879873A publication Critical patent/CN110879873A/zh
Application granted granted Critical
Publication of CN110879873B publication Critical patent/CN110879873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明提出一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及其系统,包括如下步骤:为软测量模型挑选合适的辅助变量;对训练数据进行标准化和单调变换,并计算训练数据目标变量的平均方差;利用C‑vine copula进行相关性建模;待预测样本辅助变量在线收集、标准化处理及单调变换计算;根据训练样本目标变量的分布进行哈密顿蒙特卡洛采样;计算经过处理后的待预测样本辅助变量与采样样本的copula函数值,进而计算出目标变量的所有可能结果的条件概率;得到最终的预测值的数学期望;根据条件概率确定预测值的置信区间,并计算方差;比较预测值的数学期望的方差是否超过训练样本目标变量的平均方差。

Description

一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统
技术领域
本发明属于软测量技术领域,尤其涉及一种基于哈密顿蒙特卡洛采样的vinecopula相关性描述的软测量方法;同时,本发明还涉及一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统。
背景技术
现代工业生产过程越来越趋向于复杂化和规模化,为了能及时监控系统状态、迅速跟踪产品质量,关键产品质量的实时检测十分重要。实际生产过程中,产品质量往往通过化验分析得到,但分析仪器成本高昂,且化验过程有一定的延迟性,这些都给关键质量变量的及时采样带来了不小困难。软测量技术应运而生,它通过建立输入输出的数学模型,利用容易测量的过程变量如温度、压力、流量等,预测那些难以直接测量的质量变量如成分、含量等。
目前,大多数的多元统计软测量方法主要利用降维、去耦合思想,并且受到数据的高斯分布假设的限制(如PCA,PLS,GMM等)。但是,当过程数据体现为高度非线性性与非高斯性时,往往会出现信息损失并直接影响到最终的软测量效果。因此,本发明直接从刻画高维数据复杂相关性的角度出发,引入copula理论实现对高维数据的相关性建模,使用哈密顿蒙特卡洛采样方法提高预测效率。更为精确的统计模型能够保证复杂化工过程软测量效果的显著提升。
发明内容
本发明所要解决的技术问题是:提供一种基于哈密顿蒙特卡洛采样的vinecopula相关性描述的软测量方法,可克服传统降维思想引起的信息损失问题,并实现了对存在非线性、非高斯的多模态复杂化工过程的关键变量的预测。
此外,本发明还提供一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统,可克服传统降维思想引起的信息损失问题,实现了对存在非线性、非高斯的复杂化工过程的关键变量的预测,并引入采样补充策略,不断完善模型。
为解决上述技术问题,本发明采用如下技术方案:
一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,步骤如下:
步骤S1:根据实际的工业生产情况与专家知识,为软测量模型挑选合适的辅助变量;
步骤S2:对训练数据进行标准化和单调变换,得到变换后的符合copula建模的数据,并计算训练数据目标变量的平均方差;
步骤S3:利用C-vine copula进行相关性建模,获得训练样本辅助变量与目标变量的联合概率密度函数;
步骤S4:待预测样本辅助变量在线收集、标准化处理及单调变换计算;
步骤S5:根据训练样本目标变量的分布进行哈密顿蒙特卡洛采样,获得服从训练样本目标变量的分布的采样样本;
步骤S6:计算经过处理后的待预测样本辅助变量与采样样本的copula函数值,进而计算出目标变量的所有可能结果的条件概率;
步骤S7:根据S6计算的条件概率,对采样样本进行线性加权得到待预测样本目标变量标准化的预测值的数学期望,然后反变换得到最终的预测值的数学期望;
步骤S8:根据条件概率确定预测值的置信区间,并计算方差;
步骤S9:比较预测值的数学期望的方差是否超过训练样本目标变量的平均方差:若预测值的数学期望的方差超过训练样本目标变量的平均方差,则激活样本补充策略,将此样本加入训练样本,更新copula模型;若预测值的方差小于训练样本目标变量的平均方差,输出预测值的数学期望与置信区间。
进一步的,所述步骤S2通过以下三个子步骤获得单调变换后的数据,并计算训练数据目标变量的平均方差:
步骤2.1:对原始数据零均值标准化见式(1):
Figure BDA0002227656640000021
其中,
Xi是变换前的变量,
Xi′是零均值标准化后的变量,
mean(Xi)是变量Xi的均值,
sd(Xi)是变量Xi的标准差,
d为向量X的维数;
步骤2.2:定义单调变换形式,见式(2):
Zi=(1-αi)Xi′+αiXr′i=(1,2,...,d)  (2) 其中,
Zi是单调变换后的变量,
Xr′为参考变量,
αi是对应的单调变换系数,
d为向量X的维数;
步骤2.3:确定单调变换系数,见式(3):
Figure BDA0002227656640000031
其中,
ρi,0=Cov(Xr′,Xi′)=ρ(Xr′,Xi′),ρ(Xr′,Xi′)表示Xr′与Xi′之间的皮尔逊相关系数,ρm是一个超参数,代表ρ(Xr′,Zi′)的适当值,确保Xr′和Zr′能够满足单调递增关系;
步骤2.4:计算训练数据目标变量的平均方差,见式(4)
Figure BDA0002227656640000032
其中,
Figure BDA0002227656640000033
是零均值标准化后的训练样本目标变量,
Figure BDA0002227656640000034
是零均值标准化后的训练样本目标变量的均值,
n是训练样本的个数,
VOS是训练数据目标变量的平均方差。
进一步的,所述步骤S3通过以下子步骤构建copula对的解析模型:
Figure BDA0002227656640000035
其中,各维变量已经经过零均值标准化,即用xi表示已经标准化后的变量,
d为向量X的维数,
f(X)为向量X的联合概率密度函数,
ft(xt)为变量xt的边缘概率密度函数,
F(xi|x1,...,xi-1)为变量xi的累积条件分布函数,
ci,i+j|1:i-1为二元copula的密度函数,
θi,i+j|1:i-1为二元copula密度函数中的待优化参数。
进一步的,所述步骤S4通过以下二个步骤确定测试数据的标准化及单调性处理:
步骤4.1:待预测样本的辅助变量零均值标准化,基于(1)式;
步骤4.2:待预测样本单调变换,基于步骤2。
作为本发明的一种优选方案,所述步骤S5通过以下五个子步骤获得服从训练样本目标变量的分布的采样样本:
步骤5.1:从均匀分布[0,1]中选取随机动量变量P0,从训练样本的目标变量中随机选择一个值作为Y0的初始值,即为当前马尔可夫链状态;
步骤5.2:基于公式(6)执行L步跳点法以获得新的状态(Y*,P*)
(Y*,P*)=Ψ((Y0,P0))  (6) 其中,Ψ((Y,P))表示基于公式(7),(8),(9)的跳点法,
Figure BDA0002227656640000041
Figure BDA0002227656640000042
Figure BDA0002227656640000043
其中,U(Y)定义势能函数,为Y分布的负对数,U(Y)=-log(Φ(Y)),
K(P)定义为动能函数,
Figure BDA0002227656640000044
h为跳点法的步长,
t为跳点法的步数;
步骤5.3:根据式(10)计算初始状态总能量H(Y0,P0)与新状态的总能量H(Y*,P*);根据式(11)计算转移概率r(i),同时,从均匀分布[0,1]中随机选取u(i)
H(Y,P)=U(Y)+K(P)  (10)
Figure BDA0002227656640000045
步骤5.4:比较r(i)与u(i)
(i)若u(i)>r(i),则接受提议的样本作为下一个样本Yi+1=Y*
(ii)若u(i)≤r(i),则拒绝提议的样本,并继续当前状态Yi+1=Yi
步骤5.5:重复执行步骤5.1到5.4,直到获得了N个采样样本。
作为本发明的一种优选方案,所述步骤S6通过以下二个子步骤计算出目标变量的所有可能结果的条件概率:
步骤6.1:根据步骤S3得到的copula函数,计算经过处理后的待预测样本辅助变量与采样样本的copula函数值c(F(Yi),F(Xp)),其中,Yi为采样样本,Xp为经过处理后的待预测样本辅助变量;
步骤6.2:由步骤6.1得到的copula函数值根据公式(12)计算所有可能结果的条件概率:
Figure BDA0002227656640000051
其中,
Yi是第i个采样样本,
Xp是经过处理后的待预测样本辅助变量,
θ是vine copula的相关参数,
P(Yi|Xp,θ)是第i个采样样本的条件概率,
c(F(Yi),F(Xp))是由步骤6.1得到的copula函数值。
作为本发明的一种优选方案,所述步骤S7通过以下子步骤得到最终的预测值的数学期望:
公式(13)计算出预测值标准化的数学期望,进一步经过公式(14)反变换得到最终的预测值的数学期望:
Figure BDA0002227656640000052
Figure BDA0002227656640000053
其中,
Yi是采样样本,服从训练样本经过零均值标准化后的分布,
P(Yi|Xp,θ)是第i个采样样本的条件概率,
mean(Y)是基于训练样本的目标变量求得的目标变量的均值,
sd(Y)是基于训练样本的目标变量求得的目标变量的标准差,
Yp是零均值标准化后的预测值的数学期望,
N是采样样本的个数,
Figure BDA0002227656640000061
是最终的预测值的数学期望。
作为本发明的一种优选方案,所述步骤S8经过以下五个子步骤计算预测值的方差,确定预测值的置信区间:
步骤8.1:根据公式(15)计算预测值的方差:
Figure BDA0002227656640000062
其中,
P(Yi|Xp,θ)是第i个采样样本的条件概率,
Yi是采样样本,服从训练样本经过零均值标准化后的分布,
Yp是零均值标准化后的预测值的数学期望,
N是采样样本的个数,
VAR是最终的预测值的数学期望;
步骤8.2:将式(12)计算得出的P(Yi|Xp,θ)从大到小排列,得到P*(Yi|Xp,θ),并且设置 j=1,S=0以及置信水平CLe;
步骤8.3:通过公式(16)更新S:
S=S+P*(Yj|Xp,θ)  (16)
P*(Yj|Xp,θ)是从大到小排列的第j个采样样本的条件概率,
步骤8.4:比较,S与CLe的大小:若S<CLe,j=j+1,转到步骤8.3;否则,选择前j个P*(Yj|Xp,θ)对应的预测值被选择,转到步骤8.4;
步骤8.5:在被选择的预测值中选择最大值和最小值,分别对应置信区间的上界和下界。
作为本发明的一种优选方案,所述步骤S9经过以下三个子步骤确定是否激活样本补充策略:
步骤9.1:比较预测值方差VAR与训练样本目标变量的平均方差VOS的大小:若VAR>VOS,转到步骤9.2;否则,转到步骤9.3;
步骤9.2:激活样本补充策略,将此样本加入训练样本,更新copula模型;
步骤9.3:输出预测值的数学期望与置信区间。
本发明还提供一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统,所述系统包括:训练样本集获取模块,用于确定建模所需的辅助变量;数据变换模块,用以对每一维变量进行标准化及单调变换,获得适合copula建模的数据;联合概率密度函数获取模块,用以进行相关性建模,获得辅助变量与目标变量的联合概率密度函数以及copula函数;待预测样本辅助变量在线收集与变换模块;哈密顿蒙特卡洛采样模块;测试数据目标变量的所有可能结果的条件概率值计算模块,用以根据测试数据的辅助变量以及采样样本计算所有可能结果的条件概率值;线性加权预测模块,对所有零均值标准化后的训练样本的目标变量概率加权得到待预测样本目标变量的预测值,然后反变换得到最终的预测值的数学期望;置信区间计算模块,根据预测值所有可能结果的条件概率,计算置信区间的上界与下界;样本补充模块,判断预测值的数学期望的方差是否超过训练样本目标变量的平均方差,由此来决定是否激活样本补充策略。
本文针对工业数据的非线性,非高斯,变量的耦合关系以及复杂的非单调特征,将相关性模型copula引入软测量中,并结合单调变换方法,提出了一种基于哈密顿蒙特卡洛采样的 C-vine copula相关性描述的软测量回归模型,该方法不需要对原始数据进行降维处理,避免了信息损失,首先对原始数据进行单调变换,在变换空间建立基于C-vinecopula的回归模型,利用哈密顿蒙特卡洛采样计算预测值的数学期望,有效的处理了工业数据的非线性,非高斯,非单调性问题,并获得了良好的回归预测能力。
本发明的有益效果在于:本发明提出的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统,针对工业数据的非线性,非高斯,变量的耦合关系以及复杂的非单调特征,将相关性模型copula引入软测量中,并结合单调变换方法与哈密顿蒙特卡洛采样法,实现了对关键变量的预测。
本发明引入了vine copula实现复杂化工过程的软测量。Vine copula作为近些年兴起的一类copula结构,在经济学、金融学和气象学等领域得到了广泛的应用。由于vinecopula可以将多元交接点分解为二元交接点级联的乘积,将高维数据的相关性问题转化为稀疏矩阵内有限个二元copula的优化问题,显著降低计算成本;同时,基于其高度灵活的结构特点,vine copula能够准确刻画体现为高度非线性性与非高斯性的复杂化工过程,该方法尤其对于含尾偏特性数据具有显著优势。该发明不仅能够保证离线建模具有较低的计算复杂度,同时也能够实现对复杂化工过程的关键变量实时在线预测。
附图说明
图1为根据本发明的基于vine copula的软测量方法流程图。
图2为在本发明下乙烯裂解数据软测量过程中拟合的C-vine copula示意图。
图3为本发明乙烯裂解数据软测量预测效果图。
图4为本发明实施例三中50组待预测样本的预测效果图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例一
本发明揭示了一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,具体步骤如下:
【步骤S1】:根据实际的工业生产情况与专家知识,为软测量模型挑选合适的辅助变量
【步骤S2】:利用单调变换法,得到变换后的符合copula建模的数据,并计算训练数据目标变量的平均方差:
对原始数据零均值标准化见式(1)
Figure BDA0002227656640000081
其中,
Xi是变换前的变量,Xi′是零均值标准化后的变量,mean(Xi)是变量Xi的均值,sd(Xi)是变量 Xi的标准差,d为向量X的维数。定义单调变换形式,见式(2):
Zi=(1-αi)Xi′+αiXr′ i=(1,2,...,d)  (2) 其中,Zi是单调变换后的变量,Xr′为参考变量,αi是对应的单调变换系数,d为向量X的维数。参考变量直接选择辅助变量的最后一维,单调变换系数由式(3)确定确定单调变换系数
Figure BDA0002227656640000082
其中,ρi,0=Cov(Xr′,Xi′)=ρ(Xr′,Xi′),ρ(Xr′,Xi′)表示Xr′与Xi′之间的皮尔逊相关系数,ρm是一个超参数,代表ρ(Xr′,Zi′)的适当值,确保Xr′和Zr′能够满足单调递增关系。计算训练数据目标变量的平均方差,见式(4)
Figure BDA0002227656640000083
其中,
Figure BDA0002227656640000084
是零均值标准化后的训练样本目标变量,
Figure BDA0002227656640000085
是零均值标准化后的训练样本目标变量的均值,n是训练样本的个数,VOS是训练数据目标变量的平均方差。
【步骤S3】:利用C-vine copula进行相关性建模,获得辅助变量与目标变量的联合概率密度函数:
对于d维随机向量x=[x1,x2,...,xd],其C-vine模型(x的联合概率密度函数)为:
Figure BDA0002227656640000091
其中,各维变量已经经过零均值标准化,即用xi表示已经标准化后的变量,d为向量X的维数,f(X)为向量X的联合概率密度函数,ft(xt)为变量xt的边缘概率密度函数,F(xi|x1,...,xi-1) 为变量xi的累积条件分布函数,ci,i+j|1:i-1为二元copula的密度函数,θi,i+j|1:i-1为二元copula 密度函数中的待优化参数;
【步骤S4】:测试数据的标准化及单调性处理:
步骤4.1:待预测样本的辅助变量零均值标准化,基于(1)式;
步骤4.2:待预测样本单调变换,基于步骤2,将X=[x1,x2,...,xd]单调变换为 Z=[z1,z2,...,zd];
【步骤S5】:利用哈密尔顿采样方法获得服从训练样本目标变量的分布的采样样本:
步骤5.1:从均匀分布[0,1]中选取随机动量变量P0,从训练样本的目标变量中随机选择一个值作为Y0的初始值,即为当前马尔可夫链状态;
步骤5.2:基于公式(6)执行L步跳点法以获得新的状态(Y*,P*)
(Y*,P*)=Ψ((Y0,P0))  (6)
其中,Ψ((Y,P))表示基于公式(7),(8),(9)的跳点法,
Figure BDA0002227656640000092
Figure BDA0002227656640000093
Figure BDA0002227656640000094
其中,U(Y)定义势能函数,为Y分布的负对数,U(Y)=-log(Φ(Y)),K(P)定义为动能函数,
Figure BDA0002227656640000095
h为跳点法的步长,t为跳点法的步数;
步骤5.3:根据式(10)计算初始状态总能量H(Y0,P0)与新状态的总能量H(Y*,P*);根据式(11)计算转移概率r(i),同时,从均匀分布[0,1]中随机选取u(i)
片(Y,P)=U(Y)+K(P)  (10)
Figure BDA0002227656640000105
步骤5.4:比较r(i)与u(i)
(i)若u(i)>r(i),则接受提议的样本作为下一个样本Yi+1=Y*
(ii)若u(i)≤r(i),则拒绝提议的样本,并继续当前状态Yi+1=Yi
步骤5.5:重复执行步骤5.1到5.4,直到获得了N个采样样本。
【步骤S6】:计算出目标变量的所有可能结果的条件概率:
步骤6.1:根据步骤S3得到的copula函数,计算经过处理后的待预测样本辅助变量与采样样本的copula函数值c(F(Yi),F(Xp)),其中,Yi为采样样本,Xp为经过处理后的待预测样本辅助变量:
步骤6.2:由步骤6.1得到的copula函数值根据公式(12)计算所有可能结果的条件概率:
Figure BDA0002227656640000101
Yi是第i个采样样本,Xp是经过处理后的待预测样本辅助变量,θ是vine copula的相关参数,P(Yi|Xp,θ)是第i个采样样本的条件概率,c(F(Yi),F(Xp))是由步骤6.1得到的copula函数值。
【步骤S7】:通过公式(13)计算出预测值标准化的数学期望,进一步经过公式(14)反变换得到最终的预测值的数学期望:
Figure BDA0002227656640000102
Figure BDA0002227656640000103
其中,Yi是采样样本,服从训练样本经过零均值标准化后的分布,P(Yi|Xp,θ)是第i个采样样本的条件概率,mean(Y)是基于训练样本的目标变量求得的目标变量的均值,sd(Y)是基于训练样本的目标变量求得的目标变量的标准差,Yp是零均值标准化后的预测值的数学期望, N是采样样本的个数,
Figure BDA0002227656640000104
是最终的预测值的数学期望。
【步骤S8】:经过以下5个步骤计算预测值的方差,确定预测值的置信区间:
步骤8.1:根据公式(15)计算预测值的方差
Figure BDA0002227656640000111
其中,P(Yi|Xp,θ)是第i个采样样本的条件概率,Yi是采样样本,服从训练样本经过零均值标准化后的分布,Yp是零均值标准化后的预测值的数学期望,N是采样样本的个数,VAR是最终的预测值的数学期望;
步骤8.2:将式(12)计算得出的P(Yi|Xp,θ)从大到小排列,得到P*(Yi|Xp,θ),并且设置 j=1,S=0以及置信水平CLe;
步骤8.3:通过公式(16)更新S:
S=S+P*(Yj|Xp,θ)  (16)
P*(Yj|Xp,θ)是从大到小排列的第j个采样样本的条件概率,
步骤8.4:比较,S与CLe的大小:若S<CLe,j=j+1,转到步骤8.3;否则,选择前j个P*(Yj|Xp,θ)对应的预测值被选择,转到步骤8.4;
步骤8.5:在被选择的预测值中选择最大值和最小值,分别对应置信区间的上界和下界
【步骤S9】:经过以下3个步骤确定是否激活样本补充策略:
步骤9.1:比较预测值方差VAR与训练样本目标变量的平均方差VOS的大小:若VAR>VOS,转到步骤9.2;否则,转到步骤9.3;
步骤9.2:激活样本补充策略,将此样本加入训练样本,更新copula模型;
步骤9.3:输出预测值的数学期望与置信区间
实施例二
通过以下实施例的说明将有助于理解本发明,但并不限制本发明的内容。请参阅图2,本实施例实现了对乙烯裂解过程乙烯裂解程度的预测(PER),本实施实例的数据来源于SRT-III 型号乙烯裂解炉,预测目标是乙烯裂解率,由PER(丙烯/乙烯比率)来表示,挑选了正常工况的500组数据,400组用来训练copula模型,100组用来测试。
(1)根据先验信息,挑选了四个辅助变量分别是:裂解炉的平均出口温度x1,热解原料的密度x2,总进料x3和蒸汽烃比率x4。目标变量y是裂解深度指标PER。
(2)数据预处理:对训练样本零均值标准化,参考变量选择最后一维辅助变量x4,利用皮尔逊相关系数方法进行单调变换,得到变换后的数据[z1,z2,z3,z4,zy]。
(3)利用训练样本确定[z1,z2,z3,z4,zy]的累积经验分布,并建立辅助变量与目标变量的联合概率密度函数,5维变量的C-vine copula结构如图2所示。图2中,序号1至4代表辅助变量 [z1,z2,z3,z4],序号5代表关键变量zx,括号里面的数值代表拟合的二元copula的序号。
(4)测试数据辅助变量进行同样的单调变换,根据哈密顿蒙特卡洛采样法得到目标变量的预测值的数学期望。
(5)计算预测值的置信区间,预测值方差VAR与训练样本目标变量的平均方差VOS。
(6)比较预测值方差VAR与训练样本目标变量的平均方差VOS的大小。
(7)若VAR>VOS,激活样本补充策略,将此样本加入训练样本,得到新的训练样本
Figure BDA0002227656640000121
利用新的训练样本确定的累积经验分布,并建立辅助变量与目标变量的联合概率密度函数,更新copula模型,并进行下一个值的预测。
(8)若VAR<VOS,输出预测值的数学期望与置信区间,并进行下一个值的预测。
(9)100组待预测样本的预测效果见图3。
结果表明,采用基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法能实现对乙烯裂解过程裂解深度的有效及时的预测。
实施例三
请参阅图4,本实施例实现了对乙炔加氢反应器乙炔浓度的预测,本实施实例的数据来源于乙炔加氢过程,预测目标是乙炔浓度,挑选了正常工况的250组数据,200组用来训练copula 模型,50用来测试。
(1)根据先验信息,挑选了3个辅助变量分别是:C2成分进给率x1,氢气进进给率x2,进出口温度差x3,主导变量为乙炔浓度y。
(2)数据预处理:对训练样本零均值标准化,参考变量选择最后一维辅助变量x3,利用皮尔逊相关系数方法进行单调变换,得到变换后的数据[z1,z2,z3,zv]。
(3)利用训练样本确定[z1,z2,z3,zy]的累积经验分布,并建立辅助变量与目标变量的联合概率密度函数。
(4)测试数据辅助变量进行同样的单调变换,根据哈密顿蒙特卡洛采样法得到目标变量的预测值的数学期望。
(5)计算预测值的置信区间,预测值方差VAR与训练样本目标变量的平均方差VOS。
(6)比较预测值方差VAR与训练样本目标变量的平均方差VOS的大小。
(7)若VAR>VOS,激活样本补充策略,将此样本加入训练样本,得到新的训练样本
Figure BDA0002227656640000131
利用新的训练样本确定的累积经验分布,并建立辅助变量与目标变量的联合概率密度函数,更新copula模型,并进行下一个值的预测。
(8)若VAR<VOS,输出预测值的数学期望与置信区间,并进行下一个值的预测。
(9)50组待预测样本的预测效果见图4。
结果表明,采用基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法能实现对乙炔加氢反应器乙炔浓度的有效及时的预测。
实施例四
本发明还提供一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统,所述系统包括:
训练样本集获取模块,用于确定建模所需的辅助变量;数据变换模块,用以对每一维变量进行标准化及单调变换,获得适合copula建模的数据;联合概率密度函数获取模块,用以进行相关性建模,获得辅助变量与目标变量的联合概率密度函数以及copula函数;待预测样本辅助变量在线收集与变换模块;哈密顿蒙特卡洛采样模块;测试数据目标变量的所有可能结果的条件概率值计算模块,用以根据测试数据的辅助变量以及采样样本计算所有可能结果的条件概率值;线性加权预测模块,对所有零均值标准化后的训练样本的目标变量概率加权得到待预测样本目标变量的预测值,然后反变换得到最终的预测值的数学期望;置信区间计算模块,根据预测值所有可能结果的条件概率,计算置信区间的上界与下界;样本补充模块,判断预测值的数学期望的方差是否超过训练样本目标变量的平均方差,由此来决定是否激活样本补充策略。各个模块的具体实现方式可参阅实施例一中各个步骤对应的实现过程。
综上所述,本文针对工业数据的非线性,非高斯,变量的耦合关系以及复杂的非单调特征,将相关性模型copula引入软测量中,并结合单调变换方法,提出了一种基于哈密顿蒙特卡洛采样的C-vine copula相关性描述的软测量回归模型,该方法不需要对原始数据进行降维处理,避免了信息损失,首先对原始数据进行单调变换,在变换空间建立基于C-vine copula的回归模型,利用哈密顿蒙特卡洛采样计算预测值的数学期望,有效的处理了工业数据的非线性,非高斯,非单调性问题,并获得了良好的回归预测能力。
本发明的有益效果在于:本发明提出的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统,针对工业数据的非线性,非高斯,变量的耦合关系以及复杂的非单调特征,将相关性模型copula引入软测量中,并结合单调变换方法与哈密顿蒙特卡洛采样法,实现了对关键变量的预测。本发明引入了vine copula实现复杂化工过程的软测量。Vine copula 作为近些年兴起的一类copula结构,在经济学、金融学和气象学等领域得到了广泛的应用。由于vine copula可以将多元交接点分解为二元交接点级联的乘积,将高维数据的相关性问题转化为稀疏矩阵内有限个二元copula的优化问题,显著降低计算成本;同时,基于其高度灵活的结构特点,vine copula能够准确刻画体现为高度非线性性与非高斯性的复杂化工过程,该方法尤其对于含尾偏特性数据具有显著优势。该发明不仅能够保证离线建模具有较低的计算复杂度,同时也能够实现对复杂化工过程的关键变量实时在线预测。
本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (10)

1.一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,其特征在于,所述方法包括如下步骤:
步骤S1:根据实际的工业生产情况与专家知识,为软测量模型挑选合适的辅助变量;
步骤S2:对训练数据进行标准化和单调变换,得到变换后的符合copula建模的数据,并计算训练数据目标变量的平均方差;
步骤S3:利用C-vine copula进行相关性建模,获得训练样本辅助变量与目标变量的联合概率密度函数;
步骤S4:待预测样本辅助变量在线收集、标准化处理及单调变换计算;
步骤S5:根据训练样本目标变量的分布进行哈密顿蒙特卡洛采样,获得服从训练样本目标变量的分布的采样样本;
步骤S6:计算经过处理后的待预测样本辅助变量与采样样本的copula函数值,进而计算出目标变量的所有可能结果的条件概率;
步骤S7:根据S6计算的条件概率,对采样样本进行线性加权得到待预测样本目标变量标准化的预测值的数学期望,然后反变换得到最终的预测值的数学期望;
步骤S8:根据条件概率确定预测值的置信区间,并计算方差;
步骤S9:比较预测值的数学期望的方差是否超过训练样本目标变量的平均方差:若预测值的数学期望的方差超过训练样本目标变量的平均方差,则激活样本补充策略,将此样本加入训练样本,更新copula模型;若预测值的方差小于训练样本目标变量的平均方差,输出预测值的数学期望与置信区间。
2.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,其特征在于所述步骤S2通过以下4个步骤获得单调变换后的数据,并计算训练数据目标变量的平均方差:
步骤2.1:对原始数据零均值标准化见式(1):
Figure FDA0002227656630000011
其中,
Xi是变换前的变量,
Xi′是零均值标准化后的变量,
mean(Xi)是变量Xi的均值,
sd(Xi)是变量Xi的标准差,
d为向量X的维数;
步骤2.2:定义单调变换形式,见式(2):
Zi=(1-αi)Xi′+αiXr′ i=(1,2,…,d)            (2)
其中,
Zi是单调变换后的变量,
Xr′为参考变量,
αi是对应的单调变换系数,
d为向量X的维数;
步骤2.3:确定单调变换系数,见式(3):
Figure FDA0002227656630000021
其中,
ρi,0=Cov(Xr′,Xi′)=ρ(Xr′,Xi′),ρ(Xr′,Xi′)表示Xr′与Xi′之间的皮尔逊相关系数,
ρm是一个超参数,代表ρ(Xr′,Zi′)的适当值,确保Xr′和Zr′能够满足单调递增关系;
步骤2.4:计算训练数据目标变量的平均方差,见式(4)
Figure FDA0002227656630000022
其中,
Figure FDA0002227656630000024
是零均值标准化后的训练样本目标变量,
Figure FDA0002227656630000025
是零均值标准化后的训练样本目标变量的均值,
n是训练样本的个数,
VOS是训练数据目标变量的平均方差。
3.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,其特征在于所述步骤S3通过式(5)构建copula对的解析模型:
Figure FDA0002227656630000023
其中,各维变量已经经过零均值标准化,即用xi表示已经标准化后的变量,
d为向量X的维数,
f(X)为向量X的联合概率密度函数,
ft(xt)为变量xt的边缘概率密度函数,
F(xi|x1,…,xi-1)为变量xi的累积条件分布函数,
ci,i+j|1:i-1为二元copula的密度函数,
θi,i+j|1:i-1为二元copula密度函数中的待优化参数。
4.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,
其特征在于:所述步骤S4通过以下几个步骤确定测试数据的标准化及单调性处理:
步骤4.1:待预测样本的辅助变量零均值标准化,基于(1)式;
步骤4.2:待预测样本单调变换,基于步骤2。
5.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,其特征在于:所述步骤S5通过以下5个步骤获得服从训练样本目标变量的分布的采样样本:
步骤5.1:从均匀分布[0,1]中选取随机动量变量P0,从训练样本的目标变量中随机选择一个值作为Y0的初始值,即为当前马尔可夫链状态;
步骤5.2:基于公式(6)执行L步跳点法以获得新的状态(Y*,P*)
(Y*,P*)=Ψ((Y0,P0))                   (6)
其中,Ψ((Y,P))表示基于公式(7),(8),(9)的跳点法,
Figure FDA0002227656630000031
Figure FDA0002227656630000032
Figure FDA0002227656630000033
其中,U(Y)定义势能函数,为Y分布的负对数,U(Y)=-log(Φ(Y)),
K(P)定义为动能函数,
Figure FDA0002227656630000034
h为跳点法的步长,
t为跳点法的步数;
步骤5.3:根据式(10)计算初始状态总能量H(Y0,P0)与新状态的总能量H(Y*,P*);根据式(11)计算转移概率r(i),同时,从均匀分布[0,1]中随机选取u(i)
H(Y,P)=U(Y)+K(P)              (10)
Figure FDA0002227656630000041
步骤5.4:比较r(i)与u(i)
(i)若u(i)>r(i),则接受提议的样本作为下一个样本Yi+1=Y*
(ii)若u(i)≤r(i),则拒绝提议的样本,并继续当前状态Yi+1=Yi
步骤5.5:重复执行步骤5.1到5.4,直到获得了N个采样样本。
6.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,其特征在于:所述步骤S6通过以下2个步骤计算出目标变量的所有可能结果的条件概率:步骤6.1:根据步骤S3得到的copula函数,计算经过处理后的待预测样本辅助变量与采样样本的copula函数值c(F(Yi),F(Xp)),其中,Yi为采样样本,Xp为经过处理后的待预测样本辅助变量;
步骤6.2:由步骤6.1得到的copula函数值根据公式(12)计算所有可能结果的条件概率:
Figure FDA0002227656630000042
Yi是第i个采样样本,
Xp是经过处理后的待预测样本辅助变量,
θ是vine copula的相关参数,
P(Yi|Xp,θ)是第i个采样样本的条件概率,
c(F(Yi),F(Xp))是由步骤6.1得到的copula函数值。
7.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,其特征在于:所述步骤S7通过公式(13)计算出预测值标准化的数学期望,进一步经过公式(14)反变换得到最终的预测值的数学期望:
Figure FDA0002227656630000043
Figure FDA0002227656630000044
其中,
Yi是采样样本,服从训练样本经过零均值标准化后的分布,
P(Yi|Xp,θ)是第i个采样样本的条件概率,
mean(Y)是基于训练样本的目标变量求得的目标变量的均值,
sd(Y)是基于训练样本的目标变量求得的目标变量的标准差,
Yp是零均值标准化后的预测值的数学期望,
N是采样样本的个数,
Figure FDA0002227656630000052
是最终的预测值的数学期望。
8.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,其特征在于:所述步骤S8经过以下5个步骤计算预测值的方差,确定预测值的置信区间:步骤8.1:根据公式(15)计算预测值的方差:
Figure FDA0002227656630000051
其中,
P(Yi|Xp,θ)是第i个采样样本的条件概率,
Yi是采样样本,服从训练样本经过零均值标准化后的分布,
Yp是零均值标准化后的预测值的数学期望,
N是采样样本的个数,
VAR是最终的预测值的数学期望;
步骤8.2:将式(12)计算得出的P(Yi|Xp,θ)从大到小排列,得到P*(Yi|Xp,θ),并且设置j=1,S=0以及置信水平CLe;
步骤8.3:通过公式(16)更新S:
S=S+P*(Yj|Xp,θ)            (16)
P*(Yj|Xp,θ)是从大到小排列的第j个采样样本的条件概率,
步骤8.4:比较,与CLe的大小:若S<CLe,j=j+1,转到步骤8.3;否则,选择前j个P*(Yj|Xp,θ)对应的预测值被选择,转到步骤8.4;
步骤8.5:在被选择的预测值中选择最大值和最小值,分别对应置信区间的上界和下界。
9.根据权利要求1所述的基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法,其特征在于:所述步骤S9经过以下3个步骤确定是否激活样本补充策略:
步骤9.1:比较预测值方差VAR与训练样本目标变量的平均方差VOS的大小:若VAR>VOS,转到步骤9.2;否则,转到步骤9.3;
步骤9.2:激活样本补充策略,将此样本加入训练样本,更新copula模型;
步骤9.3:输出预测值的数学期望与置信区间。
10.一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量系统,其特征在于,该系统包括:
训练样本集获取模块,用于确定建模所需的辅助变量;
数据变换模块,用以对每一维变量进行标准化及单调变换,获得适合copula建模的数据;
联合概率密度函数获取模块,用以进行相关性建模,获得辅助变量与目标变量的联合概率密度函数以及copula函数;
待预测样本辅助变量在线收集与变换模块;
哈密顿蒙特卡洛采样模块;
测试数据目标变量的所有可能结果的条件概率值计算模块,用以根据测试数据的辅助变量以及采样样本计算所有可能结果的条件概率值;
线性加权预测模块,对所有零均值标准化后的训练样本的目标变量概率加权得到待预测样本目标变量的预测值,然后反变换得到最终的预测值的数学期望;
置信区间计算模块,根据预测值所有可能结果的条件概率,计算置信区间的上界与下界;
样本补充模块,判断预测值的数学期望的方差是否超过训练样本目标变量的平均方差,由此来决定是否激活样本补充策略。
CN201910971689.5A 2019-10-10 2019-10-10 一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统 Active CN110879873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910971689.5A CN110879873B (zh) 2019-10-10 2019-10-10 一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910971689.5A CN110879873B (zh) 2019-10-10 2019-10-10 一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统

Publications (2)

Publication Number Publication Date
CN110879873A CN110879873A (zh) 2020-03-13
CN110879873B true CN110879873B (zh) 2023-04-07

Family

ID=69727800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910971689.5A Active CN110879873B (zh) 2019-10-10 2019-10-10 一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统

Country Status (1)

Country Link
CN (1) CN110879873B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111781824B (zh) * 2020-05-26 2022-08-09 华东理工大学 一种基于vine copula分位数回归的自适应软测量方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110862B1 (en) * 2012-07-30 2015-08-18 The United States Of America As Represented By The Secretary Of The Navy System and method of use for non-parametric circular autocorrelation for signal processing
CN104914775A (zh) * 2015-06-12 2015-09-16 华东理工大学 基于vine copula相关性描述的多模态过程故障检测方法及系统
CN108462180A (zh) * 2018-01-31 2018-08-28 华中科技大学 一种基于vine copula函数确定概率最优潮流的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110862B1 (en) * 2012-07-30 2015-08-18 The United States Of America As Represented By The Secretary Of The Navy System and method of use for non-parametric circular autocorrelation for signal processing
CN104914775A (zh) * 2015-06-12 2015-09-16 华东理工大学 基于vine copula相关性描述的多模态过程故障检测方法及系统
CN108462180A (zh) * 2018-01-31 2018-08-28 华中科技大学 一种基于vine copula函数确定概率最优潮流的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
含风电场概率最优潮流的拟蒙特卡洛算法;李泳泉;《电力与能源》;20180428(第02期);全文 *

Also Published As

Publication number Publication date
CN110879873A (zh) 2020-03-13

Similar Documents

Publication Publication Date Title
CN108647272B (zh) 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法
CN104778298A (zh) 基于egmm的高斯过程回归软测量建模方法
CN104914723A (zh) 基于协同训练偏最小二乘模型的工业过程软测量建模方法
CN112904810B (zh) 基于有效特征选择的流程工业非线性过程监测方法
CN111832703B (zh) 一种流程制造工业不规则采样动态序列建模方法
Ma et al. A novel kernel regularized nonlinear GMC (1, n) model and its application
CN101673096B (zh) 一种丹参注射液生产浓缩过程密度的软测量方法
CN110879873B (zh) 一种基于哈密顿蒙特卡洛采样的vine copula相关性描述的软测量方法及系统
CN110084301B (zh) 一种基于隐马尔可夫模型的多工况过程工况辨识方法
CN108427398B (zh) 一种基于分散式ar-pls模型的动态过程监测方法
CN109033524B (zh) 一种基于鲁棒混合模型的化工过程浓度变量在线估计方法
CN110033175B (zh) 一种基于集成多核偏最小二乘回归模型的软测量方法
CN110728024B (zh) 一种基于vine copula的软测量方法及系统
CN114707424B (zh) 基于质量相关慢特征分析算法的化工过程软测量方法
Gonzalo et al. Spurious relationships in high-dimensional systems with strong or mild persistence
CN114169459A (zh) 基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法
CN114861759A (zh) 一种线性动态系统模型的分布式训练方法
CN110866643B (zh) 基于最大二次互信息准则回归的发酵过程质量变量预测方法
Kalos et al. Hybrid model development methodology for industrial soft sensors
CN111781824B (zh) 一种基于vine copula分位数回归的自适应软测量方法及系统
CN113379002B (zh) 一种基于深度偏最小二乘模型的工业软测量方法
Wan et al. A modeling method of wide random forest multi-output soft sensor with attention mechanism for quality prediction of complex industrial processes
Haoguang et al. Study on soft sensing technology of penicillin fermentation based on PLS and SVR
Lin et al. Distribution-free prediction regions of multivariate response PLS models with applications to NIR datasets
CN115901677B (zh) 具有更新机制的硝酸-硝酸铵溶液中硝酸铵浓度预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant