CN113821982A - 工业软测量中考虑因果效应的辅助变量选择方法 - Google Patents
工业软测量中考虑因果效应的辅助变量选择方法 Download PDFInfo
- Publication number
- CN113821982A CN113821982A CN202111176741.1A CN202111176741A CN113821982A CN 113821982 A CN113821982 A CN 113821982A CN 202111176741 A CN202111176741 A CN 202111176741A CN 113821982 A CN113821982 A CN 113821982A
- Authority
- CN
- China
- Prior art keywords
- variable
- candidate
- soft measurement
- auxiliary
- causal effect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005259 measurement Methods 0.000 title claims abstract description 41
- 230000001364 causal effect Effects 0.000 title claims abstract description 36
- 238000010187 selection method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012423 maintenance Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 230000007423 decrease Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000000691 measurement method Methods 0.000 claims description 2
- 230000000737 periodic effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007430 reference method Methods 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
Abstract
一种工业软测量中考虑因果效应的辅助变量选择方法,基于软测量建模对象的历史数据集,经过预处理得到离散化的候选变量集和主导变量数据样本;通过每一个候选变量与主导变量的互信息确定每一个候选变量与主导变量的因果效应;采用基于因果效应的变量筛选算法,保留所有因果效应不为零的候选变量作为辅助变量集。本发明通过考虑候选辅助变量与主导变量之间的因果效应,不依赖于任何模型,不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,为工业软测量建模提供有用参考。
Description
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种工业软测量中考虑因果效应的辅助变量选择方法。
背景技术
软测量是以难测的关键性能指标作为输出(主导变量),并选取与其相关且易测的变量作为输入(辅助变量),构造某种数学关系来实现对主导变量的预测和估计,其多用于评价产品质量、生产效率、能源消耗、污染物排放等指标。显然,如何选取合适的辅助变量成为工业软测量的首要难题,直接决定软测量模型的复杂度、预测准确性及应用可靠性。现有辅助变量选择方法一般基于:领域专家知识、统计数据分析和机器学习方法。
1)领域专家知识:通过对软测量对象的工艺机理进行仔细的分析和认识之后,根据专家经验或者物理化学先验知识,从候选变量集中挑选出对主导变量有较大影响的变量作为辅助变量。由于复杂工业系统认知方面的不足,以及专家水平的限制,该类方法通常仅用于辅助变量的初始化选择。
2)统计数据分析:通过统计学中的方差分析、相关分析方法进行辅助变量选择。方差分析用来衡量变量本身的发散程度,在辅助变量选择中通常去除发散程度较小(即方差较小)的变量,它不考虑输入输出之间的关联关系;相关分析借助皮尔逊相关系数、互信息或最大信息系数分析候选变量与主导变量之间的关联程度,选择与主导变量关联较大的候选变量作为辅助变量。其缺陷在于,一方面难以考虑共线性问题,另一方面需要设置一个阈值,该阈值直接影响辅助变量选择的结果。
3)机器学习方法:主要包括基于主成分分析(PCA)、典型变量分析(CVA)、偏最小二乘(PLS)等的特征提取方法、以及基于过滤式、包裹式和嵌入式的特征选择方法。该类方法以机器学习模型为基础对候选变量集进行分析,应用较为广泛。然而,这些方法本质上仍然是基于关联关系,或者是性能导向,严重依赖于机器学习模型,计算成本高,可解释性差。
发明内容
本发明针对现有辅助变量选择方法依赖于阈值或模型,可解释性差等问题,提出一种工业软测量中考虑因果效应的辅助变量选择方法,通过考虑候选辅助变量与主导变量之间的因果效应,不依赖于任何模型,不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,为工业软测量建模提供有用参考。
本发明是通过以下技术方案实现的:
本发明涉及一种工业软测量中考虑因果效应的辅助变量选择方法,基于软测量建模对象的历史数据集,经过预处理得到离散化的候选变量集和主导变量数据样本;通过每一个候选变量与主导变量的互信息确定每一个候选变量与主导变量的因果效应;采用基于因果效应的变量筛选算法,保留所有因果效应不为零的候选变量作为辅助变量集。
所述的预处理是指:采用基于直方图的等长划分方法来离散化数据,有效考虑工业数据中存在的离群点问题,最佳划分长度nh=max(R/(2·IQR/N1/3),log2N+1),其中:R是样本的极差,IQR是样本的四分位数范围,N是样本的数目。
所述的每一个候选变量与主导变量的互信息是指:I(X;Y)=H(X)+H(Y)-H(X,Y),其中:X和Y表示两个离散随机变量,H(X)和H(Y)分别表示X和Y的香农熵,表示随机变量所含的平均信息量或不确定性的大小;H(X,Y)表示X和Y的联合香农熵;香农熵H(X)=-∑xP(x)log P(x),联合香农熵H(X,Y)=-∑x,yP(x,y)log P(x,y),H(·)表示香农熵,P(·)表示概率质量函数。
所述的每一个候选变量与主导变量的互信息,优选为降序排列。
所述的每一个候选变量与主导变量的因果效应 其中:联合条件互信息H(Y|X1,X2,…,Xk)表示给定一组候选变量{X1,X2,…,Xk}后Y的剩余不确定性,联合条件互信息H(Y|X1,X2,…,Xk,Xk+1)表示进一步给定候选变量Xk+1后Y的剩余不确定性,则表示Xk+1对Y的因果效应,k≤M-1。
两个联合条件互信息进一步表示为联合香农熵的形式,具体为:H(Y|X1,X2,...,Xk)=H(X1,X2,··.,Xk,Y)-H(X1,X2,...,Xk),H(Y|X1,X2,...,Xk,Xk+1)=H(X1,X2,...,Xk,Xk+1,Y)-H(X1,X2,...,Xk,Xk+1)。
本发明涉及一种实现上述方法的系统,包括:数据采集和预处理模块、辅助变量选择模块、软测量模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到辅助变量选择及软测量建模所需历史数据集;辅助变量选择模块根据历史数据信息,选择与主导变量关系密切的辅助变量集合,从而剔除冗余信息、降低软测量建模难度和模型复杂度;软测量模型构建模块综合考虑历史数据和应用对象,选定合适的软测量方法建立模型;模型维护模块根据软测量模型投入周期性使用的性能下降趋势,对软测量模型进行在线校正,以保证模型预测的准确性和可靠性。
技术效果
本发明通过辅助变量选择模块计算候选辅助变量与主导变量之间的因果效应,不依赖于任何模型,不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,整体解决了现有辅助变量选择方法依赖于专家经验、阈值或模型,可解释性差等问题,本发明准确性及解释性均高于现有技术。
附图说明
图1为本发明流程图;
图2为二元随机变量X和Y的香农熵和互信息关系示意图;
图3为间歇过程最终产品质量模型示意图;
图4为因果效应计算曲线;
图5为工业软测量结果的实验对比图;
图6为工业软测量结果的散点对比图及估计误差概率密度曲线对比图。
具体实施方式
本实施例的所有代码在Python 3.7中运行,计算机配置为Intel(R)Core(TM)i7-8700 CPU@3.20GHz 32.00G RAM。
如图1所示,本实施例公开了一种工业软测量中考虑因果效应的辅助变量选择方法,包括以下步骤:
步骤A:获取传感器采集的工业数据集是包含M个变量的N个等时间间隔的观测样本,其中前M-1个变量表示候选辅助变量,表示为F={X1,X2,…,XM-1},第M个变量Y表示主导变量。在本实施例中,如表1、2所示,候选变量集F={X1,X2,…,X38}是装配过程中采集的38个过程变量,主导变量Y是发动机的标定工况功率,即M=39。
表1来自某柴油发动机装配过程的工业数据集
表2变量名称及单位描述
步骤B:数据预处理。在本实施例中,N=1763,自动确定各变量的最佳划分长度nh,如表3所示,进而采用基于直方图的等长划分方法来离散化数据。
表3各变量的最佳划分长度nh
步骤C:计算每一个候选辅助变量与主导变量的互信息,并按照大小进行排序。在本实施例中,38个候选变量与标定工况功率Y之间的互信息计算及排序结果,如表4所示。
表4各变量互信息排序结果
步骤D:按照互信息大小顺序,计算每一个候选变量对主导变量的因果效应。在本实施例中,因果效应计算结果如表5所示。
表5因果效应计算结果
步骤E:通过基于因果效应的变量筛选算法,获得选择的辅助变量集S。在本实施例中,如表5和图4所示,仅有X29,X34,X30,X38,X37,X9这6个变量对标定工况功率Y的因果效应不为零,换言之,这6个变量包含了所有候选辅助变量关于标定工况功率Y的因果信息,因此,最终的辅助变量选择结果为S={X29,X34,X30,X38,X37,X9}。
为了进一步比较本发明的技术优越性和先进性,采用AdaBoost集成决策树构建标定工况功率Y的软测量模型,并以方差选择法、皮尔逊相关系数法(PCC)和最大信息系数法(MIC)作为3个基准方法,进行对比实验验证,采用均方根误差(RMSE)和决定系数R2作为性能评价指标,具体为:其中:NT为测试集中的样本数,yi为第i个样本的真实值,为软测量模型的估计值,为所有估计值的平均值。
表6为不同辅助变量选择方法下软测量模型的RMSE和R2对比,可以看出,本方法所得到的RMSE最低,R2最大。值得注意的是,3个基准方法的R2非常低,这表明其选择的辅助变量不合理、难以对主导变量进行解释。
表6不同辅助变量选择方法下软测量模型的RMSE和R2对比
如图5所示,为在不同辅助变量选择方法下标定工况功率的软测量结果,可以看出,本方法比3个基准方法更准确地估计了标定工况功率值。
如图6所示,为不同辅助变量选择方法下软测量结果的散点图和估计误差的概率密度曲线,与3个基准方法相比,本方法的估计值更接近实际的标定工况功率,估计误差的概率密度曲线是“更瘦”和“更高”,更有力地证明本方法的优异性能,能够有效降低软测量结果的不确定性。
经过具体实际实验,在Windows/Python 3.7的具体环境设置下,以某柴油发动机装配过程的工业数据集测试本发明,运行上述方法能够得到的实验数据是:如表6所示的各项指标均优于现有技术。
与现有技术相比,本方法根据候选变量与主导变量之间的因果效应,且不依赖于任何模型,只需要按照一定的顺序遍历所有候选变量,而不需要设置停止阈值,自动地选择因果效应不为零的候选变量组合作为辅助变量集,为工业软测量建模提供有用参考。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (8)
2.根据权利要求1所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,所述的预处理是指:采用基于直方图的等长划分方法来离散化数据,有效考虑工业数据中存在的离群点问题,最佳划分长度nh=max(R/(2·IQR/N1/3),log2N+1),其中:R是样本的极差,IQR是样本的四分位数范围,N是样本的数目。
3.根据权利要求1所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,所述的每一个候选变量与主导变量的互信息是指:I(X;Y)=H(X)+H(Y)-H(X,Y),其中:X和Y表示两个离散随机变量,H(X)和H(Y)分别表示X和Y的香农熵,表示随机变量所含的平均信息量或不确定性的大小;H(X,Y)表示X和Y的联合香农熵;香农熵H(X)=-∑xP(x)log P(x),联合香农熵H(X,Y)=-∑x,yP(x,y)log P(x,y),H(·)表示香农熵,P(·)表示概率质量函数。
4.根据权利要求3所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,所述的每一个候选变量与主导变量的互信息,为降序排列。
6.根据权利要求3所述的工业软测量中考虑因果效应的辅助变量选择方法,其特征是,两个联合条件互信息进一步表示为联合香农熵的形式,具体为:H(Y|X1,X2,...,Xk)=H(X1,X2,...,Xk,Y)-H(X1,X2,...,Xk),H(Y|X1,X2,...,Xk,Xk+1)=H(X1,X2,...,Xk,Xk+1,Y)-H(X1,X2,...,Xk,Xk+1)。
8.一种实现权利要求1~7中任一所述方法的工业软测量中考虑因果效应的辅助变量选择系统,其特征在于,包括:数据采集和预处理模块、辅助变量选择模块、软测量模型构建模块以及模型维护模块,其中:数据采集和预处理模块直接采集工业现场仪表得到的历史数据,并进行数据去噪、空值和异常值检测处理,得到辅助变量选择及软测量建模所需历史数据集;辅助变量选择模块根据历史数据信息,选择与主导变量关系密切的辅助变量集合,从而剔除冗余信息、降低软测量建模难度和模型复杂度;软测量模型构建模块综合考虑历史数据和应用对象,选定合适的软测量方法建立模型;模型维护模块根据软测量模型投入周期性使用的性能下降趋势,对软测量模型进行在线校正,以保证模型预测的准确性和可靠性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111176741.1A CN113821982A (zh) | 2021-10-09 | 2021-10-09 | 工业软测量中考虑因果效应的辅助变量选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111176741.1A CN113821982A (zh) | 2021-10-09 | 2021-10-09 | 工业软测量中考虑因果效应的辅助变量选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113821982A true CN113821982A (zh) | 2021-12-21 |
Family
ID=78919856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111176741.1A Pending CN113821982A (zh) | 2021-10-09 | 2021-10-09 | 工业软测量中考虑因果效应的辅助变量选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821982A (zh) |
-
2021
- 2021-10-09 CN CN202111176741.1A patent/CN113821982A/zh active Pending
Non-Patent Citations (1)
Title |
---|
纪昌明等: "基于联合互信息的水文预报因子集选取研究", 《水力发电学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6613329B2 (ja) | コンピュータ実装方法、コンピュータシステム及びコンピュータ装置 | |
JP6312630B2 (ja) | 時系列データ内の異常を検出する方法 | |
CN108647272B (zh) | 一种基于数据分布的小样本扩充对脱丁烷塔底丁烷浓度进行预测的方法 | |
US8090676B2 (en) | Systems and methods for real time classification and performance monitoring of batch processes | |
US20060074828A1 (en) | Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers | |
CN108399434B (zh) | 基于特征提取的高维时间序列数据的分析预测方法 | |
US20210374634A1 (en) | Work efficiency evaluation method, work efficiency evaluation apparatus, and program | |
CN110751339A (zh) | 管道腐蚀速率预测的方法、装置和计算机设备 | |
US20060074823A1 (en) | Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers | |
Shirmohammadi et al. | Machine learning in measurement part 1: Error contribution and terminology confusion | |
Bevilacqua et al. | Chemometric classification techniques as a tool for solving problems in analytical chemistry | |
CN115359846A (zh) | 一种组学数据的批次矫正方法、装置、存储介质及电子设备 | |
Ferwerda et al. | KRLS: A Stata package for kernel-based regularized least squares | |
Awawdeh et al. | Application of outlier detection using re-weighted least squares and R-squared for IoT extracted data | |
TWI428581B (zh) | 辨識光譜的方法 | |
CN113326744A (zh) | 一种航天器在轨状态异常检测方法及系统 | |
CN113821982A (zh) | 工业软测量中考虑因果效应的辅助变量选择方法 | |
JP2014110047A (ja) | 電子回路シミュレーションのための方法及び装置 | |
CN107067034B (zh) | 一种快速识别红外光谱数据分类的方法及系统 | |
KR20200051343A (ko) | 시계열 데이터 예측 모델 평가 방법 및 장치 | |
CN115659271A (zh) | 传感器异常检测方法、模型训练方法、系统、设备及介质 | |
US10546243B1 (en) | Predicting particle size distribution and particle morphology | |
CN114398228A (zh) | 一种设备资源使用情况的预测方法、装置及电子设备 | |
US20060074826A1 (en) | Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers | |
US20060074827A1 (en) | Methods and apparatus for detecting temporal process variation and for managing and predicting performance of automatic classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211221 |
|
RJ01 | Rejection of invention patent application after publication |