CN102930158B - 基于偏最小二乘的变量选择方法 - Google Patents

基于偏最小二乘的变量选择方法 Download PDF

Info

Publication number
CN102930158B
CN102930158B CN201210427974.9A CN201210427974A CN102930158B CN 102930158 B CN102930158 B CN 102930158B CN 201210427974 A CN201210427974 A CN 201210427974A CN 102930158 B CN102930158 B CN 102930158B
Authority
CN
China
Prior art keywords
variable
variables
sequence
input variable
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210427974.9A
Other languages
English (en)
Other versions
CN102930158A (zh
Inventor
尹珅
卫作龙
王光
高会军
刘方舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201210427974.9A priority Critical patent/CN102930158B/zh
Publication of CN102930158A publication Critical patent/CN102930158A/zh
Application granted granted Critical
Publication of CN102930158B publication Critical patent/CN102930158B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

基于偏最小二乘的变量选择方法,涉及基于偏最小二乘的变量选择方法。它为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。基于偏最小二乘的变量选择方法为:对待分析变量进行预处理,获取标准化变量集;根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;对输入变量序列Xior中的所有输入变量进行相关性检验;对输入变量选择计算获取回归系数。本发明应用于钢铁、锅炉、化工、制药等诸多领域的过程控制系统中。

Description

基于偏最小二乘的变量选择方法
技术领域
本发明涉及一种选择方法,具体涉及基于偏最小二乘的变量选择方法。
背景技术
过程控制系统涉及钢铁、锅炉、化工、制药等诸多领域,已经成为现代工业生产中重要的组成部分。
现代过程控制系统往往会对生产过程中的许多状态变量进行长期的测量,从而获得大量现场监控数据。如何对这些数据进行合理、高效地利用,从而保证最终产品的质量,是现在工业过程控制系统所面临的主要挑战之一。尤其是当所监测的变量规模巨大时,如果直接使用全部变量进行分析,则会对系统造成巨大的计算压力,甚至影响到系统的控制效果。因此,在不损失主要信息的前提下,通过提取关键变量来简化控制系统成为一种合理的选择。一种好的变量选择方法,可以有效的减少变量数量,并获得一个准确、合理的回归模型。目前,变量选择方法的设计已经受到了越来越多的重视。
目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。
发明内容
本发明为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题,从而提出了基于偏最小二乘的变量选择方法。
基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
本发明计算计算回归向量、留一交叉检验方法以及变量进行相关性检验提高了变量预测能力的评估性能,达到了变量选择的预测能力好,提高预测性能的目的。
附图说明
图1为本发明所述的基于偏最小二乘的变量选择方法的流程图。
具体实施方式
具体实施方式一、结合图1具体说明本实施方式,本实施方式所述的基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
具体实施方式二、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集。
本实施方式通过对待分析变量进行预处理保证了分析的有效性。
具体实施方式三、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤二所述的根据标准化变量集计算回归向量的具体过程为:
输入变量存在较大的冗余,具有自相关性,不利于后面的分析和处理,根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率。
本实施方式所述的改进的偏差最小二乘回归方法可以保证数字计算的稳定性,提高运算速度。
具体实施方式四、本实施方式与具体实施方式一或三所述的基于偏最小二乘的变量选择方法的区别在于,步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior。
具体实施方式五、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤四所述的对输入变量序列Xior中的所有元素进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成。
具体实施方式六、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
可以写成如下形式:
Y=BnX
其中,Y是计算的输出,X是选出的输入变量,Bn是贡献率。由于在前面的步骤中对变量进行了归一化处理,所以要还原成未处理的变量,以方便实际使用,记为
Y=BX+C
其中,X是输入变量,B是Bn经过逆归一化构成后得到的贡献率,C是偏差系数,是在逆归一化过程中产生的。
具体实施方式七、本实施方式提供一种应用于工业过程的田纳西-伊斯曼模型的具体实例如下,所述的田纳西-伊斯曼模型为一个工业过程的标准模型,通常用来验证方法的优劣。
获取田纳西-伊斯曼模型中11输入变量在20个采样时刻数据,以及相应时刻输出变量的数据。表1表示数据集-初始数据集X、Y,并执行归一化操作。
表1
执行留N交叉检验,得到潜在变量数量nlv=8。
利用改进的偏差最小二乘回归方法得到回归向量b=[0.000274270786857268;-0.00512986100659507;0.994395917039226;0.00326691898620576;-0.00543850736249477;0.00171073946773176;0.00155756955575098;-0.00174488763358110;-0.00365807061374843;-0.000898265799188703;0.00235487116712645]。
按照贡献率依次减小的顺序,也就是回归向量b各元素的绝对值递减的方式,对输入变量X进行重新排序,得到排序后的变量序列Xior如表2表示数据集-排序后的数据集Xior。
表2
对变量序列Xior中各变量进行相关性检验,发现无相关性变量,故Xor=Xior。
从Xor中选择第1个输入变量(即k=1)构成第一个子集X1,利用留一交叉检验方法计算其预测性能。每次增加1个变量(即ki=1),重复进行计算,直到11个变量那个全部计算进来。即可得到第一组数据集的均方根误差最小。故取关键变量为输入变量3。(即第一组)
根据所得子集的变量,计算回归矩阵B=[0.0101]、C=[0.0023]、Bn=[0.996]。即Y=0.0101*X+0.0023。(其中X为关键变量,此处为输入变量3)。

Claims (1)

1.应用于化学工业过程控制中的基于偏最小二乘的变量选择方法,其特征在于,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数;
步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集;
步骤二所述的根据标准化变量集计算回归向量的具体过程为:
根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率;
步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior;
步骤四所述的对输入变量序列Xior中的所有输入变量进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成;
步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据留一交叉检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据留一交叉检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
CN201210427974.9A 2012-10-31 2012-10-31 基于偏最小二乘的变量选择方法 Expired - Fee Related CN102930158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210427974.9A CN102930158B (zh) 2012-10-31 2012-10-31 基于偏最小二乘的变量选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210427974.9A CN102930158B (zh) 2012-10-31 2012-10-31 基于偏最小二乘的变量选择方法

Publications (2)

Publication Number Publication Date
CN102930158A CN102930158A (zh) 2013-02-13
CN102930158B true CN102930158B (zh) 2016-01-20

Family

ID=47644955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210427974.9A Expired - Fee Related CN102930158B (zh) 2012-10-31 2012-10-31 基于偏最小二乘的变量选择方法

Country Status (1)

Country Link
CN (1) CN102930158B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103969212B (zh) * 2014-04-17 2016-08-17 首都师范大学 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法
CN105550498B (zh) * 2015-12-05 2018-11-16 中国航空工业集团公司洛阳电光设备研究所 一种基于移动最小二乘法的弹道曲线拟合方法
CN110174106A (zh) * 2019-04-01 2019-08-27 香港理工大学深圳研究院 一种基于pm2.5的健康步行路径规划方法及终端设备
CN112116443A (zh) * 2019-06-20 2020-12-22 中科聚信信息技术(北京)有限公司 基于变量分组的模型生成方法、模型生成装置和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477112B (zh) * 2009-01-12 2013-11-13 浙江大学 工业流化床气相聚乙烯装置的产品质量在线软测量方法
BR112013012068B1 (pt) * 2010-11-17 2020-12-01 Pioneer Hi-Bred International, Inc. método imparcial para prever o fenótipo ou traço de pelo menos uma planta independente

Also Published As

Publication number Publication date
CN102930158A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
Wang et al. Anomaly detection for industrial control system based on autoencoder neural network
Ding Data-driven design of monitoring and diagnosis systems for dynamic processes: A review of subspace technique based schemes and some recent results
Yin et al. A review on basic data-driven approaches for industrial process monitoring
Liu et al. Development of RVM-based multiple-output soft sensors with serial and parallel stacking strategies
CN102930158B (zh) 基于偏最小二乘的变量选择方法
CN106773693B (zh) 一种工业控制多回路振荡行为稀疏因果分析方法
CN110197288A (zh) 故障影响下设备的剩余使用寿命预测方法
Li et al. A fault detection approach for nonlinear systems based on data-driven realizations of fuzzy kernel representations
Chen et al. Weighted data-driven fault detection and isolation: A subspace-based approach and algorithms
Sanchez-Fernández et al. Fault detection in wastewater treatment plants using distributed PCA methods
Abbas et al. Efficient phase II monitoring methods for linear profiles under the random effect model
CN115793552B (zh) 一种基于数据处理的电子气体生产监测方法及系统
Ge et al. Probabilistic combination of local independent component regression model for multimode quality prediction in chemical processes
Konstantinou et al. A data-based detection method against false data injection attacks
WO2020148904A1 (ja) 異常検知装置、異常検知システム及び学習装置、並びに、これらの方法及びプログラムが格納された非一時的なコンピュータ可読媒体
Hudecová et al. Detection of changes in INAR models
Hua et al. Multi-sensor degradation data analysis
CN103760889B (zh) 基于贝叶斯网的故障分离快速方法
CN114565318B (zh) 目标信号的有效性判断方法、处理方法、装置及决策系统
Tao et al. Machine component health prognostics with only truncated histories using geometrical metric approach
CN102855381A (zh) 应用于相继故障的基于分布因子的快速潮流计算算法
CN103678136B (zh) 一种基于控制流的数据竞争误报降低方法
JPWO2022190195A5 (ja) 情報処理システム、符号化装置、復号装置、モデル学習装置、情報処理方法、符号化方法、復号方法、モデル学習方法、および、プログラム
Birundu Getanda et al. Data grouping and modified initial condition in grey model improvement for short-term traffic flow forecasting
Shi et al. Data augmentation to improve the performance of ensemble learning for system failure prediction with limited observations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160120

Termination date: 20211031