CN102930158A - 基于偏最小二乘的变量选择方法 - Google Patents
基于偏最小二乘的变量选择方法 Download PDFInfo
- Publication number
- CN102930158A CN102930158A CN2012104279749A CN201210427974A CN102930158A CN 102930158 A CN102930158 A CN 102930158A CN 2012104279749 A CN2012104279749 A CN 2012104279749A CN 201210427974 A CN201210427974 A CN 201210427974A CN 102930158 A CN102930158 A CN 102930158A
- Authority
- CN
- China
- Prior art keywords
- variable
- variables
- input
- sequence
- input variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Complex Calculations (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
基于偏最小二乘的变量选择方法,涉及基于偏最小二乘的变量选择方法。它为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。基于偏最小二乘的变量选择方法为:对待分析变量进行预处理,获取标准化变量集;根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;对输入变量序列Xior中的所有输入变量进行相关性检验;对输入变量选择计算获取回归系数。本发明应用于钢铁、锅炉、化工、制药等诸多领域的过程控制系统中。
Description
技术领域
本发明涉及一种选择方法,具体涉及基于偏最小二乘的变量选择方法。
背景技术
过程控制系统涉及钢铁、锅炉、化工、制药等诸多领域,已经成为现代工业生产中重要的组成部分。
现代过程控制系统往往会对生产过程中的许多状态变量进行长期的测量,从而获得大量现场监控数据。如何对这些数据进行合理、高效地利用,从而保证最终产品的质量,是现在工业过程控制系统所面临的主要挑战之一。尤其是当所监测的变量规模巨大时,如果直接使用全部变量进行分析,则会对系统造成巨大的计算压力,甚至影响到系统的控制效果。因此,在不损失主要信息的前提下,通过提取关键变量来简化控制系统成为一种合理的选择。一种好的变量选择方法,可以有效的减少变量数量,并获得一个准确、合理的回归模型。目前,变量选择方法的设计已经受到了越来越多的重视。
目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。
发明内容
本发明为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题,从而提出了基于偏最小二乘的变量选择方法。
基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
本发明计算计算回归向量、留一交叉检验方法以及变量进行相关性检验提高了变量预测能力的评估性能,达到了变量选择的预测能力好,提高预测性能的目的。
附图说明
图1为本发明所述的基于偏最小二乘的变量选择方法的流程图。
具体实施方式
具体实施方式一、结合图1具体说明本实施方式,本实施方式所述的基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
具体实施方式二、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集。
本实施方式通过对待分析变量进行预处理保证了分析的有效性。
具体实施方式三、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤二所述的根据标准化变量集计算回归向量的具体过程为:
输入变量存在较大的冗余,具有自相关性,不利于后面的分析和处理,根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率。
本实施方式所述的改进的偏差最小二乘回归方法可以保证数字计算的稳定性,提高运算速度。
具体实施方式四、本实施方式与具体实施方式一或三所述的基于偏最小二乘的变量选择方法的区别在于,步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior。
具体实施方式五、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤四所述的对输入变量序列Xior中的所有元素进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成。
具体实施方式六、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
可以写成如下形式:
Y=Bn X
其中,Y是计算的输出,X是选出的输入变量,Bn是贡献率。由于在前面的步骤中对变量进行了归一化处理,所以要还原成未处理的变量,以方便实际使用,记为
Y=BX+C
其中,X是输入变量,B是Bn经过逆归一化构成后得到的贡献率,C是偏差系数,是在逆归一化过程中产生的。
具体实施方式七、本实施方式提供一种应用于工业过程的田纳西-伊斯曼模型的具体实例如下,所述的田纳西-伊斯曼模型为一个工业过程的标准模型,通常用来验证方法的优劣。
获取田纳西-伊斯曼模型中11输入变量在20个采样时刻数据,以及相应时刻输出变量的数据。表1表示数据集-初始数据集X、Y,并执行归一化操作。
表1
执行留N交叉检验,得到潜在变量数量nlv=8。
利用改进的偏差最小二乘回归方法得到回归向量b=[0.000274270786857268;-0.00512986100659507;0.994395917039226;0.00326691898620576;-0.00543850736249477;0.00171073946773176;0.00155756955575098;-0.00174488763358110;-0.00365807061374843;-0.000898265799188703;0.00235487116712645]。
按照贡献率依次减小的顺序,也就是回归向量b各元素的绝对值递减的方式,对输入变量X进行重新排序,得到排序后的变量序列Xior如表2表示数据集-排序后的数据集Xior。
表2
对变量序列Xior中各变量进行相关性检验,发现无相关性变量,故Xor=Xior。
从Xor中选择第1个输入变量(即k=1)构成第一个子集X1,利用留一交叉检验方法计算其预测性能。每次增加1个变量(即ki=1),重复进行计算,直到11个变量那个全部计算进来。即可得到第一组数据集的均方根误差最小。故取关键变量为输入变量3。(即第一组)
根据所得子集的变量,计算回归矩阵B=[0.0101]、C=[0.0023]、Bn=[0.996]。即Y=0.0101*X+0.0023。(其中X为关键变量,此处为输入变量3)。
Claims (6)
1.基于偏最小二乘的变量选择方法,其特征在于,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
2.根据权利要求1所述的基于偏最小二乘的变量选择方法,其特征在于,步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集。
3.根据权利要求1所述的基于偏最小二乘的变量选择方法,其特征在于,步骤二所述的根据标准化变量集计算回归向量的具体过程为:
根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率。
4.根据权利要求1或3所述的基于偏最小二乘的变量选择方法,其特征在于,步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior。
5.根据权利要求1所述的基于偏最小二乘的变量选择方法,其特征在于,步骤四所述的对输入变量序列Xior中的所有元素进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成。
6.根据权利要求1所述的基于偏最小二乘的变量选择方法,其特征在于,步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据留一交叉检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据留一交叉检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210427974.9A CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210427974.9A CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102930158A true CN102930158A (zh) | 2013-02-13 |
CN102930158B CN102930158B (zh) | 2016-01-20 |
Family
ID=47644955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210427974.9A Expired - Fee Related CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102930158B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103969212A (zh) * | 2014-04-17 | 2014-08-06 | 首都师范大学 | 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法 |
CN105550498A (zh) * | 2015-12-05 | 2016-05-04 | 中国航空工业集团公司洛阳电光设备研究所 | 一种基于移动最小二乘法的弹道曲线拟合方法 |
CN110174106A (zh) * | 2019-04-01 | 2019-08-27 | 香港理工大学深圳研究院 | 一种基于pm2.5的健康步行路径规划方法及终端设备 |
CN112116443A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 基于变量分组的模型生成方法、模型生成装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477112A (zh) * | 2009-01-12 | 2009-07-08 | 浙江大学 | 工业流化床气相聚乙烯装置的产品质量在线软测量方法 |
US20120119080A1 (en) * | 2010-11-17 | 2012-05-17 | Pioneer Hi-Bred International, Inc. | Prediction of phenotypes and traits based on the metabolome |
-
2012
- 2012-10-31 CN CN201210427974.9A patent/CN102930158B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477112A (zh) * | 2009-01-12 | 2009-07-08 | 浙江大学 | 工业流化床气相聚乙烯装置的产品质量在线软测量方法 |
US20120119080A1 (en) * | 2010-11-17 | 2012-05-17 | Pioneer Hi-Bred International, Inc. | Prediction of phenotypes and traits based on the metabolome |
Non-Patent Citations (3)
Title |
---|
REINALDO F.TEO´FILO, JOA˜O PAULO A. MARTINS AND MA´RCIA M.C.F: "Sorting variables by using informative vectors as a strategy for feature selection in multivariate regression", 《JOURNAL OF CHEMOMETRICS》, 29 October 2008 (2008-10-29), pages 32 - 46 * |
SVANTE WOLD,HENNART ERIKSSON AND SERGIO CLEMENTI: "《chemometric method in molecular design》", 28 February 1995, article "Statistical Validation of QSAR Result", pages: 333 * |
丁磊: "偏最小二乘回归算法改进及应用", 《中国优秀硕士学位论文全文数据库基础科学辑》, no. 06, 15 December 2007 (2007-12-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103969212A (zh) * | 2014-04-17 | 2014-08-06 | 首都师范大学 | 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法 |
CN103969212B (zh) * | 2014-04-17 | 2016-08-17 | 首都师范大学 | 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法 |
CN105550498A (zh) * | 2015-12-05 | 2016-05-04 | 中国航空工业集团公司洛阳电光设备研究所 | 一种基于移动最小二乘法的弹道曲线拟合方法 |
CN105550498B (zh) * | 2015-12-05 | 2018-11-16 | 中国航空工业集团公司洛阳电光设备研究所 | 一种基于移动最小二乘法的弹道曲线拟合方法 |
CN110174106A (zh) * | 2019-04-01 | 2019-08-27 | 香港理工大学深圳研究院 | 一种基于pm2.5的健康步行路径规划方法及终端设备 |
CN112116443A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 基于变量分组的模型生成方法、模型生成装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102930158B (zh) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaneko et al. | Development of a new soft sensor method using independent component analysis and partial least squares | |
Liu et al. | Data anomaly detection for structural health monitoring using a combination network of GANomaly and CNN | |
CN103810101A (zh) | 一种软件缺陷预测方法和软件缺陷预测系统 | |
CN106199267B (zh) | 一种电力设备故障特征分析方法 | |
CN102930158A (zh) | 基于偏最小二乘的变量选择方法 | |
CN113868006A (zh) | 时间序列的检测方法、装置、电子设备及计算机存储介质 | |
Sanusi et al. | A comparative study of some EWMA schemes for simultaneous monitoring of mean and variance of a Gaussian process | |
Wang et al. | Fault detection and identification using a Kullback-Leibler divergence based multi-block principal component analysis and Bayesian inference | |
CN102737063B (zh) | 一种日志信息的处理方法及系统 | |
CN115793552B (zh) | 一种基于数据处理的电子气体生产监测方法及系统 | |
Wang et al. | Quick‐switch inspection scheme based on the overall process capability index for modern industrial web‐based processing environment | |
Thangaiyarkarasi et al. | The impact of financial development on decarbonization factors of carbon emissions: A global perspective | |
CN111080089A (zh) | 一种基于随机矩阵理论的线损率关键因子确定方法和装置 | |
Hudecová et al. | Detection of changes in INAR models | |
Carbery et al. | A new data analytics framework emphasising pre-processing in learning AI models for complex manufacturing systems | |
Dos Santos et al. | Preprocessing in fuzzy time series to improve the forecasting accuracy | |
CN115508765B (zh) | 一种电压互感器采集装置在线自诊断方法及系统 | |
CN102495944B (zh) | 一种时间序列预测方法、设备和系统 | |
Mankodi et al. | Performance prediction from simulation systems to physical systems using machine learning with transfer learning and scaling | |
Hua et al. | Multi-sensor degradation data analysis | |
JPWO2022190195A5 (ja) | 情報処理システム、符号化装置、復号装置、モデル学習装置、情報処理方法、符号化方法、復号方法、モデル学習方法、および、プログラム | |
Menard et al. | Design of fixed-point embedded systems (defis) french anr project | |
CN113484818A (zh) | 基于滑动窗口的抗高频采集异常电能表精准定位方法 | |
CN110969340A (zh) | 一种确定智能电能表质量技术基础能力的方法和系统 | |
CN113435058B (zh) | 配网自愈测试模型的数据降维方法、系统、终端及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160120 Termination date: 20211031 |