CN102930158B - 基于偏最小二乘的变量选择方法 - Google Patents
基于偏最小二乘的变量选择方法 Download PDFInfo
- Publication number
- CN102930158B CN102930158B CN201210427974.9A CN201210427974A CN102930158B CN 102930158 B CN102930158 B CN 102930158B CN 201210427974 A CN201210427974 A CN 201210427974A CN 102930158 B CN102930158 B CN 102930158B
- Authority
- CN
- China
- Prior art keywords
- variable
- variables
- sequence
- input variable
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Complex Calculations (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
基于偏最小二乘的变量选择方法,涉及基于偏最小二乘的变量选择方法。它为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。基于偏最小二乘的变量选择方法为:对待分析变量进行预处理,获取标准化变量集;根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;对输入变量序列Xior中的所有输入变量进行相关性检验;对输入变量选择计算获取回归系数。本发明应用于钢铁、锅炉、化工、制药等诸多领域的过程控制系统中。
Description
技术领域
本发明涉及一种选择方法,具体涉及基于偏最小二乘的变量选择方法。
背景技术
过程控制系统涉及钢铁、锅炉、化工、制药等诸多领域,已经成为现代工业生产中重要的组成部分。
现代过程控制系统往往会对生产过程中的许多状态变量进行长期的测量,从而获得大量现场监控数据。如何对这些数据进行合理、高效地利用,从而保证最终产品的质量,是现在工业过程控制系统所面临的主要挑战之一。尤其是当所监测的变量规模巨大时,如果直接使用全部变量进行分析,则会对系统造成巨大的计算压力,甚至影响到系统的控制效果。因此,在不损失主要信息的前提下,通过提取关键变量来简化控制系统成为一种合理的选择。一种好的变量选择方法,可以有效的减少变量数量,并获得一个准确、合理的回归模型。目前,变量选择方法的设计已经受到了越来越多的重视。
目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。
发明内容
本发明为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题,从而提出了基于偏最小二乘的变量选择方法。
基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
本发明计算计算回归向量、留一交叉检验方法以及变量进行相关性检验提高了变量预测能力的评估性能,达到了变量选择的预测能力好,提高预测性能的目的。
附图说明
图1为本发明所述的基于偏最小二乘的变量选择方法的流程图。
具体实施方式
具体实施方式一、结合图1具体说明本实施方式,本实施方式所述的基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
具体实施方式二、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集。
本实施方式通过对待分析变量进行预处理保证了分析的有效性。
具体实施方式三、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤二所述的根据标准化变量集计算回归向量的具体过程为:
输入变量存在较大的冗余,具有自相关性,不利于后面的分析和处理,根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率。
本实施方式所述的改进的偏差最小二乘回归方法可以保证数字计算的稳定性,提高运算速度。
具体实施方式四、本实施方式与具体实施方式一或三所述的基于偏最小二乘的变量选择方法的区别在于,步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior。
具体实施方式五、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤四所述的对输入变量序列Xior中的所有元素进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成。
具体实施方式六、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
可以写成如下形式:
Y=BnX
其中,Y是计算的输出,X是选出的输入变量,Bn是贡献率。由于在前面的步骤中对变量进行了归一化处理,所以要还原成未处理的变量,以方便实际使用,记为
Y=BX+C
其中,X是输入变量,B是Bn经过逆归一化构成后得到的贡献率,C是偏差系数,是在逆归一化过程中产生的。
具体实施方式七、本实施方式提供一种应用于工业过程的田纳西-伊斯曼模型的具体实例如下,所述的田纳西-伊斯曼模型为一个工业过程的标准模型,通常用来验证方法的优劣。
获取田纳西-伊斯曼模型中11输入变量在20个采样时刻数据,以及相应时刻输出变量的数据。表1表示数据集-初始数据集X、Y,并执行归一化操作。
表1
执行留N交叉检验,得到潜在变量数量nlv=8。
利用改进的偏差最小二乘回归方法得到回归向量b=[0.000274270786857268;-0.00512986100659507;0.994395917039226;0.00326691898620576;-0.00543850736249477;0.00171073946773176;0.00155756955575098;-0.00174488763358110;-0.00365807061374843;-0.000898265799188703;0.00235487116712645]。
按照贡献率依次减小的顺序,也就是回归向量b各元素的绝对值递减的方式,对输入变量X进行重新排序,得到排序后的变量序列Xior如表2表示数据集-排序后的数据集Xior。
表2
对变量序列Xior中各变量进行相关性检验,发现无相关性变量,故Xor=Xior。
从Xor中选择第1个输入变量(即k=1)构成第一个子集X1,利用留一交叉检验方法计算其预测性能。每次增加1个变量(即ki=1),重复进行计算,直到11个变量那个全部计算进来。即可得到第一组数据集的均方根误差最小。故取关键变量为输入变量3。(即第一组)
根据所得子集的变量,计算回归矩阵B=[0.0101]、C=[0.0023]、Bn=[0.996]。即Y=0.0101*X+0.0023。(其中X为关键变量,此处为输入变量3)。
Claims (1)
1.应用于化学工业过程控制中的基于偏最小二乘的变量选择方法,其特征在于,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数;
步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集;
步骤二所述的根据标准化变量集计算回归向量的具体过程为:
根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率;
步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior;
步骤四所述的对输入变量序列Xior中的所有输入变量进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成;
步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据留一交叉检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据留一交叉检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210427974.9A CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210427974.9A CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102930158A CN102930158A (zh) | 2013-02-13 |
CN102930158B true CN102930158B (zh) | 2016-01-20 |
Family
ID=47644955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210427974.9A Expired - Fee Related CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102930158B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103969212B (zh) * | 2014-04-17 | 2016-08-17 | 首都师范大学 | 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法 |
CN105550498B (zh) * | 2015-12-05 | 2018-11-16 | 中国航空工业集团公司洛阳电光设备研究所 | 一种基于移动最小二乘法的弹道曲线拟合方法 |
CN110174106A (zh) * | 2019-04-01 | 2019-08-27 | 香港理工大学深圳研究院 | 一种基于pm2.5的健康步行路径规划方法及终端设备 |
CN112116443A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 基于变量分组的模型生成方法、模型生成装置和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477112B (zh) * | 2009-01-12 | 2013-11-13 | 浙江大学 | 工业流化床气相聚乙烯装置的产品质量在线软测量方法 |
BR112013012068B1 (pt) * | 2010-11-17 | 2020-12-01 | Pioneer Hi-Bred International, Inc. | método imparcial para prever o fenótipo ou traço de pelo menos uma planta independente |
-
2012
- 2012-10-31 CN CN201210427974.9A patent/CN102930158B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102930158A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Anomaly detection for industrial control system based on autoencoder neural network | |
Ding | Data-driven design of monitoring and diagnosis systems for dynamic processes: A review of subspace technique based schemes and some recent results | |
Yin et al. | A review on basic data-driven approaches for industrial process monitoring | |
Liu et al. | Development of RVM-based multiple-output soft sensors with serial and parallel stacking strategies | |
CN102930158B (zh) | 基于偏最小二乘的变量选择方法 | |
CN106773693B (zh) | 一种工业控制多回路振荡行为稀疏因果分析方法 | |
CN110197288A (zh) | 故障影响下设备的剩余使用寿命预测方法 | |
Li et al. | A fault detection approach for nonlinear systems based on data-driven realizations of fuzzy kernel representations | |
Chen et al. | Weighted data-driven fault detection and isolation: A subspace-based approach and algorithms | |
Sanchez-Fernández et al. | Fault detection in wastewater treatment plants using distributed PCA methods | |
Abbas et al. | Efficient phase II monitoring methods for linear profiles under the random effect model | |
CN115793552B (zh) | 一种基于数据处理的电子气体生产监测方法及系统 | |
Ge et al. | Probabilistic combination of local independent component regression model for multimode quality prediction in chemical processes | |
Konstantinou et al. | A data-based detection method against false data injection attacks | |
WO2020148904A1 (ja) | 異常検知装置、異常検知システム及び学習装置、並びに、これらの方法及びプログラムが格納された非一時的なコンピュータ可読媒体 | |
Hudecová et al. | Detection of changes in INAR models | |
Hua et al. | Multi-sensor degradation data analysis | |
CN103760889B (zh) | 基于贝叶斯网的故障分离快速方法 | |
CN114565318B (zh) | 目标信号的有效性判断方法、处理方法、装置及决策系统 | |
Tao et al. | Machine component health prognostics with only truncated histories using geometrical metric approach | |
CN102855381A (zh) | 应用于相继故障的基于分布因子的快速潮流计算算法 | |
CN103678136B (zh) | 一种基于控制流的数据竞争误报降低方法 | |
JPWO2022190195A5 (ja) | 情報処理システム、符号化装置、復号装置、モデル学習装置、情報処理方法、符号化方法、復号方法、モデル学習方法、および、プログラム | |
Birundu Getanda et al. | Data grouping and modified initial condition in grey model improvement for short-term traffic flow forecasting | |
Shi et al. | Data augmentation to improve the performance of ensemble learning for system failure prediction with limited observations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160120 Termination date: 20211031 |