CN113821982A - 工业软测量中考虑因果效应的辅助变量选择方法 - Google Patents

工业软测量中考虑因果效应的辅助变量选择方法 Download PDF

Info

Publication number
CN113821982A
CN113821982A CN202111176741.1A CN202111176741A CN113821982A CN 113821982 A CN113821982 A CN 113821982A CN 202111176741 A CN202111176741 A CN 202111176741A CN 113821982 A CN113821982 A CN 113821982A
Authority
CN
China
Prior art keywords
variable
candidate
soft measurement
auxiliary
causal effect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111176741.1A
Other languages
English (en)
Inventor
孙衍宁
秦威
许鸿伟
谭润芝
王无印
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111176741.1A priority Critical patent/CN113821982A/zh
Publication of CN113821982A publication Critical patent/CN113821982A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Abstract

一种工业软测量中考虑因果效应的辅助变量选择方法,基于软测量建模对象的历史数据集,经过预处理得到离散化的候选变量集和主导变量数据样本;通过每一个候选变量与主导变量的互信息确定每一个候选变量与主导变量的因果效应;采用基于因果效应的变量筛选算法,保留所有因果效应不为零的候选变量作为辅助变量集。本发明通过考虑候选辅助变量与主导变量之间的因果效应,不依赖于任何模型,不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,为工业软测量建模提供有用参考。

Description

工业软测量中考虑因果效应的辅助变量选择方法
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种工业软测量中考虑因果效应的辅助变量选择方法。
背景技术
软测量是以难测的关键性能指标作为输出(主导变量),并选取与其相关且易测的变量作为输入(辅助变量),构造某种数学关系来实现对主导变量的预测和估计,其多用于评价产品质量、生产效率、能源消耗、污染物排放等指标。显然,如何选取合适的辅助变量成为工业软测量的首要难题,直接决定软测量模型的复杂度、预测准确性及应用可靠性。现有辅助变量选择方法一般基于:领域专家知识、统计数据分析和机器学习方法。
1)领域专家知识:通过对软测量对象的工艺机理进行仔细的分析和认识之后,根据专家经验或者物理化学先验知识,从候选变量集中挑选出对主导变量有较大影响的变量作为辅助变量。由于复杂工业系统认知方面的不足,以及专家水平的限制,该类方法通常仅用于辅助变量的初始化选择。
2)统计数据分析:通过统计学中的方差分析、相关分析方法进行辅助变量选择。方差分析用来衡量变量本身的发散程度,在辅助变量选择中通常去除发散程度较小(即方差较小)的变量,它不考虑输入输出之间的关联关系;相关分析借助皮尔逊相关系数、互信息或最大信息系数分析候选变量与主导变量之间的关联程度,选择与主导变量关联较大的候选变量作为辅助变量。其缺陷在于,一方面难以考虑共线性问题,另一方面需要设置一个阈值,该阈值直接影响辅助变量选择的结果。
3)机器学习方法:主要包括基于主成分分析(PCA)、典型变量分析(CVA)、偏最小二乘(PLS)等的特征提取方法、以及基于过滤式、包裹式和嵌入式的特征选择方法。该类方法以机器学习模型为基础对候选变量集进行分析,应用较为广泛。然而,这些方法本质上仍然是基于关联关系,或者是性能导向,严重依赖于机器学习模型,计算成本高,可解释性差。
发明内容
本发明针对现有辅助变量选择方法依赖于阈值或模型,可解释性差等问题,提出一种工业软测量中考虑因果效应的辅助变量选择方法,通过考虑候选辅助变量与主导变量之间的因果效应,不依赖于任何模型,不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,为工业软测量建模提供有用参考。
本发明是通过以下技术方案实现的:
本发明涉及一种工业软测量中考虑因果效应的辅助变量选择方法,基于软测量建模对象的历史数据集,经过预处理得到离散化的候选变量集和主导变量数据样本;通过每一个候选变量与主导变量的互信息确定每一个候选变量与主导变量的因果效应;采用基于因果效应的变量筛选算法,保留所有因果效应不为零的候选变量作为辅助变量集。
所述的历史数据集
Figure BDA0003295441080000021
是包含M个变量的N个等时间间隔的观测样本,其中前M-1个变量是候选辅助变量,即F={X1,X2,…,XM-1},第M个变量是主导变量。
所述的预处理是指:采用基于直方图的等长划分方法来离散化数据,有效考虑工业数据中存在的离群点问题,最佳划分长度nh=max(R/(2·IQR/N1/3),log2N+1),其中:R是样本的极差,IQR是样本的四分位数范围,N是样本的数目。
所述的每一个候选变量与主导变量的互信息是指:I(X;Y)=H(X)+H(Y)-H(X,Y),其中:X和Y表示两个离散随机变量,H(X)和H(Y)分别表示X和Y的香农熵,表示随机变量所含的平均信息量或不确定性的大小;H(X,Y)表示X和Y的联合香农熵;香农熵H(X)=-∑xP(x)log P(x),联合香农熵H(X,Y)=-∑x,yP(x,y)log P(x,y),H(·)表示香农熵,P(·)表示概率质量函数。
所述的每一个候选变量与主导变量的互信息,优选为降序排列。
所述的每一个候选变量与主导变量的因果效应
Figure BDA0003295441080000022
Figure BDA0003295441080000023
其中:联合条件互信息H(Y|X1,X2,…,Xk)表示给定一组候选变量{X1,X2,…,Xk}后Y的剩余不确定性,联合条件互信息H(Y|X1,X2,…,Xk,Xk+1)表示进一步给定候选变量Xk+1后Y的剩余不确定性,
Figure BDA0003295441080000025
则表示Xk+1对Y的因果效应,k≤M-1。
两个联合条件互信息进一步表示为联合香农熵的形式,具体为:H(Y|X1,X2,...,Xk)=H(X1,X2,··.,Xk,Y)-H(X1,X2,...,Xk),H(Y|X1,X2,...,Xk,Xk+1)=H(X1,X2,...,Xk,Xk+1,Y)-H(X1,X2,...,Xk,Xk+1)。
所述的基于因果效应的变量筛选算法是指:根据包含M-1个候选辅助变量的集合F={X1,X2,...,XM-1}及其主导变量Y,从F中选择因果效应不为零的一个特征加入到辅助变量集S中,具体为:
Figure BDA0003295441080000024
本发明涉及一种实现上述方法的系统,包括:数据采集和预处理模块、辅助变量选择模块、软测量模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到辅助变量选择及软测量建模所需历史数据集;辅助变量选择模块根据历史数据信息,选择与主导变量关系密切的辅助变量集合,从而剔除冗余信息、降低软测量建模难度和模型复杂度;软测量模型构建模块综合考虑历史数据和应用对象,选定合适的软测量方法建立模型;模型维护模块根据软测量模型投入周期性使用的性能下降趋势,对软测量模型进行在线校正,以保证模型预测的准确性和可靠性。
技术效果
本发明通过辅助变量选择模块计算候选辅助变量与主导变量之间的因果效应,不依赖于任何模型,不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,整体解决了现有辅助变量选择方法依赖于专家经验、阈值或模型,可解释性差等问题,本发明准确性及解释性均高于现有技术。
附图说明
图1为本发明流程图;
图2为二元随机变量X和Y的香农熵和互信息关系示意图;
图3为间歇过程最终产品质量模型示意图;
图4为因果效应计算曲线;
图5为工业软测量结果的实验对比图;
图6为工业软测量结果的散点对比图及估计误差概率密度曲线对比图。
具体实施方式
本实施例的所有代码在Python 3.7中运行,计算机配置为Intel(R)Core(TM)i7-8700 CPU@3.20GHz 32.00G RAM。
如图1所示,本实施例公开了一种工业软测量中考虑因果效应的辅助变量选择方法,包括以下步骤:
步骤A:获取传感器采集的工业数据集
Figure BDA0003295441080000031
是包含M个变量的N个等时间间隔的观测样本,其中前M-1个变量表示候选辅助变量,表示为F={X1,X2,…,XM-1},第M个变量Y表示主导变量。在本实施例中,如表1、2所示,候选变量集F={X1,X2,…,X38}是装配过程中采集的38个过程变量,主导变量Y是发动机的标定工况功率,即M=39。
表1来自某柴油发动机装配过程的工业数据集
Figure BDA0003295441080000032
表2变量名称及单位描述
Figure BDA0003295441080000041
步骤B:数据预处理。在本实施例中,N=1763,自动确定各变量的最佳划分长度nh,如表3所示,进而采用基于直方图的等长划分方法来离散化数据。
表3各变量的最佳划分长度nh
Figure BDA0003295441080000042
Figure BDA0003295441080000051
步骤C:计算每一个候选辅助变量与主导变量的互信息,并按照大小进行排序。在本实施例中,38个候选变量与标定工况功率Y之间的互信息计算及排序结果,如表4所示。
表4各变量互信息排序结果
Figure BDA0003295441080000052
步骤D:按照互信息大小顺序,计算每一个候选变量对主导变量的因果效应。在本实施例中,因果效应计算结果如表5所示。
表5因果效应计算结果
Figure BDA0003295441080000053
步骤E:通过基于因果效应的变量筛选算法,获得选择的辅助变量集S。在本实施例中,如表5和图4所示,仅有X29,X34,X30,X38,X37,X9这6个变量对标定工况功率Y的因果效应不为零,换言之,这6个变量包含了所有候选辅助变量关于标定工况功率Y的因果信息,因此,最终的辅助变量选择结果为S={X29,X34,X30,X38,X37,X9}。
为了进一步比较本发明的技术优越性和先进性,采用AdaBoost集成决策树构建标定工况功率Y的软测量模型,并以方差选择法、皮尔逊相关系数法(PCC)和最大信息系数法(MIC)作为3个基准方法,进行对比实验验证,采用均方根误差(RMSE)和决定系数R2作为性能评价指标,具体为:
Figure BDA0003295441080000061
其中:NT为测试集中的样本数,yi为第i个样本的真实值,
Figure BDA0003295441080000062
为软测量模型的估计值,
Figure BDA0003295441080000063
为所有估计值的平均值。
表6为不同辅助变量选择方法下软测量模型的RMSE和R2对比,可以看出,本方法所得到的RMSE最低,R2最大。值得注意的是,3个基准方法的R2非常低,这表明其选择的辅助变量不合理、难以对主导变量进行解释。
表6不同辅助变量选择方法下软测量模型的RMSE和R2对比
Figure BDA0003295441080000064
如图5所示,为在不同辅助变量选择方法下标定工况功率的软测量结果,可以看出,本方法比3个基准方法更准确地估计了标定工况功率值。
如图6所示,为不同辅助变量选择方法下软测量结果的散点图和估计误差的概率密度曲线,与3个基准方法相比,本方法的估计值更接近实际的标定工况功率,估计误差的概率密度曲线是“更瘦”和“更高”,更有力地证明本方法的优异性能,能够有效降低软测量结果的不确定性。
经过具体实际实验,在Windows/Python 3.7的具体环境设置下,以某柴油发动机装配过程的工业数据集测试本发明,运行上述方法能够得到的实验数据是:如表6所示的各项指标均优于现有技术。
与现有技术相比,本方法根据候选变量与主导变量之间的因果效应,且不依赖于任何模型,只需要按照一定的顺序遍历所有候选变量,而不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,为工业软测量建模提供有用参考。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种工业软测量中考虑因果效应的辅助变量选择方法,其特征在于,基于软测量建模对象的历史数据集,经过预处理得到离散化的候选变量集和主导变量数据样本;通过每一个候选变量与主导变量的互信息确定每一个候选变量与主导变量的因果效应;采用基于因果效应的变量筛选算法,保留所有因果效应不为零的候选变量作为辅助变量集;
所述的历史数据集
Figure FDA0003295441070000011
是包含M个变量的N个等时间间隔的观测样本,其中前M-1个变量是候选辅助变量,即F={X1,X2,...,XM-1},第M个变量是主导变量。
2.根据权利要求1所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,所述的预处理是指:采用基于直方图的等长划分方法来离散化数据,有效考虑工业数据中存在的离群点问题,最佳划分长度nh=max(R/(2·IQR/N1/3),log2N+1),其中:R是样本的极差,IQR是样本的四分位数范围,N是样本的数目。
3.根据权利要求1所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,所述的每一个候选变量与主导变量的互信息是指:I(X;Y)=H(X)+H(Y)-H(X,Y),其中:X和Y表示两个离散随机变量,H(X)和H(Y)分别表示X和Y的香农熵,表示随机变量所含的平均信息量或不确定性的大小;H(X,Y)表示X和Y的联合香农熵;香农熵H(X)=-∑xP(x)log P(x),联合香农熵H(X,Y)=-∑x,yP(x,y)log P(x,y),H(·)表示香农熵,P(·)表示概率质量函数。
4.根据权利要求3所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,所述的每一个候选变量与主导变量的互信息,为降序排列。
5.根据权利要求1所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,所述的每一个候选变量与主导变量的因果效应
Figure FDA0003295441070000012
Figure FDA0003295441070000013
其中:联合条件互信息H(Y|X1,X2,...,Xk)表示给定一组候选变量{X1,X2,...,Xk}后Y的剩余不确定性,联合条件互信息H(Y|X1,X2,...,Xk,Xk+1)表示进一步给定候选变量Xk+1后Y的剩余不确定性,
Figure FDA0003295441070000014
则表示Xk+1对Y的因果效应,k≤M-1。
6.根据权利要求3所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,两个联合条件互信息进一步表示为联合香农熵的形式,具体为:H(Y|X1,X2,...,Xk)=H(X1,X2,...,Xk,Y)-H(X1,X2,...,Xk),H(Y|X1,X2,...,Xk,Xk+1)=H(X1,X2,...,Xk,Xk+1,Y)-H(X1,X2,...,Xk,Xk+1)。
7.根据权利要求1所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,所述的基于因果效应的变量筛选算法是指:根据包含M-1个候选辅助变量的集合F={X1,X2,...,XM-1}及其主导变量Y,从F中选择因果效应不为零的一个特征加入到辅助变量集S中,具体为:
Figure FDA0003295441070000021
8.一种实现权利要求1~7中任一所述方法的工业软测量中考虑因果效应的辅助变量选择系统,其特征在于,包括:数据采集和预处理模块、辅助变量选择模块、软测量模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到辅助变量选择及软测量建模所需历史数据集;辅助变量选择模块根据历史数据信息,选择与主导变量关系密切的辅助变量集合,从而剔除冗余信息、降低软测量建模难度和模型复杂度;软测量模型构建模块综合考虑历史数据和应用对象,选定合适的软测量方法建立模型;模型维护模块根据软测量模型投入周期性使用的性能下降趋势,对软测量模型进行在线校正,以保证模型预测的准确性和可靠性。
CN202111176741.1A 2021-10-09 2021-10-09 工业软测量中考虑因果效应的辅助变量选择方法 Pending CN113821982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111176741.1A CN113821982A (zh) 2021-10-09 2021-10-09 工业软测量中考虑因果效应的辅助变量选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111176741.1A CN113821982A (zh) 2021-10-09 2021-10-09 工业软测量中考虑因果效应的辅助变量选择方法

Publications (1)

Publication Number Publication Date
CN113821982A true CN113821982A (zh) 2021-12-21

Family

ID=78919856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111176741.1A Pending CN113821982A (zh) 2021-10-09 2021-10-09 工业软测量中考虑因果效应的辅助变量选择方法

Country Status (1)

Country Link
CN (1) CN113821982A (zh)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
纪昌明等: "基于联合互信息的水文预报因子集选取研究", 《水力发电学报》 *

Similar Documents

Publication Publication Date Title
JP6613329B2 (ja) コンピュータ実装方法、コンピュータシステム及びコンピュータ装置
JP6312630B2 (ja) 時系列データ内の異常を検出する方法
CN108647272B (zh) 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法
US8090676B2 (en) Systems and methods for real time classification and performance monitoring of batch processes
US20060074828A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
CN108399434B (zh) 基于特征提取的高维时间序列数据的分析预测方法
US20210374634A1 (en) Work efficiency evaluation method, work efficiency evaluation apparatus, and program
CN110751339A (zh) 管道腐蚀速率预测的方法、装置和计算机设备
US20060074823A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
Shirmohammadi et al. Machine learning in measurement part 1: Error contribution and terminology confusion
Bevilacqua et al. Chemometric classification techniques as a tool for solving problems in analytical chemistry
CN115359846A (zh) 一种组学数据的批次矫正方法、装置、存储介质及电子设备
Ferwerda et al. KRLS: A Stata package for kernel-based regularized least squares
Awawdeh et al. Application of outlier detection using re-weighted least squares and R-squared for IoT extracted data
TWI428581B (zh) 辨識光譜的方法
CN113326744A (zh) 一种航天器在轨状态异常检测方法及系统
CN113821982A (zh) 工业软测量中考虑因果效应的辅助变量选择方法
JP2014110047A (ja) 電子回路シミュレーションのための方法及び装置
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及系统
KR20200051343A (ko) 시계열 데이터 예측 모델 평가 방법 및 장치
CN115659271A (zh) 传感器异常检测方法、模型训练方法、系统、设备及介质
US10546243B1 (en) Predicting particle size distribution and particle morphology
CN114398228A (zh) 一种设备资源使用情况的预测方法、装置及电子设备
US20060074826A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers
US20060074827A1 (en) Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211221

RJ01 Rejection of invention patent application after publication