CN102930158B - 基于偏最小二乘的变量选择方法 - Google Patents
基于偏最小二乘的变量选择方法 Download PDFInfo
- Publication number
- CN102930158B CN102930158B CN201210427974.9A CN201210427974A CN102930158B CN 102930158 B CN102930158 B CN 102930158B CN 201210427974 A CN201210427974 A CN 201210427974A CN 102930158 B CN102930158 B CN 102930158B
- Authority
- CN
- China
- Prior art keywords
- variable
- input
- variables
- contribution rate
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000013598 vector Substances 0.000 claims abstract description 26
- 238000010187 selection method Methods 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000004886 process control Methods 0.000 claims abstract description 4
- 230000003247 decreasing effect Effects 0.000 claims abstract description 3
- 239000000126 substance Substances 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 7
- 238000002790 cross-validation Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 229910000831 Steel Inorganic materials 0.000 abstract description 2
- -1 boiler Substances 0.000 abstract description 2
- 239000010959 steel Substances 0.000 abstract description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 abstract 2
- 229910052742 iron Inorganic materials 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010998 test method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
Landscapes
- Complex Calculations (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
基于偏最小二乘的变量选择方法,涉及基于偏最小二乘的变量选择方法。它为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。基于偏最小二乘的变量选择方法为:对待分析变量进行预处理,获取标准化变量集;根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;对输入变量序列Xior中的所有输入变量进行相关性检验;对输入变量选择计算获取回归系数。本发明应用于钢铁、锅炉、化工、制药等诸多领域的过程控制系统中。
Description
技术领域
本发明涉及一种选择方法,具体涉及基于偏最小二乘的变量选择方法。
背景技术
过程控制系统涉及钢铁、锅炉、化工、制药等诸多领域,已经成为现代工业生产中重要的组成部分。
现代过程控制系统往往会对生产过程中的许多状态变量进行长期的测量,从而获得大量现场监控数据。如何对这些数据进行合理、高效地利用,从而保证最终产品的质量,是现在工业过程控制系统所面临的主要挑战之一。尤其是当所监测的变量规模巨大时,如果直接使用全部变量进行分析,则会对系统造成巨大的计算压力,甚至影响到系统的控制效果。因此,在不损失主要信息的前提下,通过提取关键变量来简化控制系统成为一种合理的选择。一种好的变量选择方法,可以有效的减少变量数量,并获得一个准确、合理的回归模型。目前,变量选择方法的设计已经受到了越来越多的重视。
目前的变量选择方法存在的预测能力差,无法提高预测性能的问题。
发明内容
本发明为了解决目前的变量选择方法存在的预测能力差,无法提高预测性能的问题,从而提出了基于偏最小二乘的变量选择方法。
基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
本发明计算计算回归向量、留一交叉检验方法以及变量进行相关性检验提高了变量预测能力的评估性能,达到了变量选择的预测能力好,提高预测性能的目的。
附图说明
图1为本发明所述的基于偏最小二乘的变量选择方法的流程图。
具体实施方式
具体实施方式一、结合图1具体说明本实施方式,本实施方式所述的基于偏最小二乘的变量选择方法,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数。
具体实施方式二、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集。
本实施方式通过对待分析变量进行预处理保证了分析的有效性。
具体实施方式三、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤二所述的根据标准化变量集计算回归向量的具体过程为:
输入变量存在较大的冗余,具有自相关性,不利于后面的分析和处理,根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率。
本实施方式所述的改进的偏差最小二乘回归方法可以保证数字计算的稳定性,提高运算速度。
具体实施方式四、本实施方式与具体实施方式一或三所述的基于偏最小二乘的变量选择方法的区别在于,步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior。
具体实施方式五、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤四所述的对输入变量序列Xior中的所有元素进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成。
具体实施方式六、本实施方式与具体实施方式一所述的基于偏最小二乘的变量选择方法的区别在于,步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
可以写成如下形式:
Y=BnX
其中,Y是计算的输出,X是选出的输入变量,Bn是贡献率。由于在前面的步骤中对变量进行了归一化处理,所以要还原成未处理的变量,以方便实际使用,记为
Y=BX+C
其中,X是输入变量,B是Bn经过逆归一化构成后得到的贡献率,C是偏差系数,是在逆归一化过程中产生的。
具体实施方式七、本实施方式提供一种应用于工业过程的田纳西-伊斯曼模型的具体实例如下,所述的田纳西-伊斯曼模型为一个工业过程的标准模型,通常用来验证方法的优劣。
获取田纳西-伊斯曼模型中11输入变量在20个采样时刻数据,以及相应时刻输出变量的数据。表1表示数据集-初始数据集X、Y,并执行归一化操作。
表1
执行留N交叉检验,得到潜在变量数量nlv=8。
利用改进的偏差最小二乘回归方法得到回归向量b=[0.000274270786857268;-0.00512986100659507;0.994395917039226;0.00326691898620576;-0.00543850736249477;0.00171073946773176;0.00155756955575098;-0.00174488763358110;-0.00365807061374843;-0.000898265799188703;0.00235487116712645]。
按照贡献率依次减小的顺序,也就是回归向量b各元素的绝对值递减的方式,对输入变量X进行重新排序,得到排序后的变量序列Xior如表2表示数据集-排序后的数据集Xior。
表2
对变量序列Xior中各变量进行相关性检验,发现无相关性变量,故Xor=Xior。
从Xor中选择第1个输入变量(即k=1)构成第一个子集X1,利用留一交叉检验方法计算其预测性能。每次增加1个变量(即ki=1),重复进行计算,直到11个变量那个全部计算进来。即可得到第一组数据集的均方根误差最小。故取关键变量为输入变量3。(即第一组)
根据所得子集的变量,计算回归矩阵B=[0.0101]、C=[0.0023]、Bn=[0.996]。即Y=0.0101*X+0.0023。(其中X为关键变量,此处为输入变量3)。
Claims (1)
1.应用于化学工业过程控制中的基于偏最小二乘的变量选择方法,其特征在于,它包括下述步骤:
步骤一、对待分析变量进行预处理,获取标准化变量集;
步骤二、根据标准化变量集计算回归向量,所述的回归向量的各元素表示相应的输入变量对于输出的贡献率,所述的贡献率的排序顺序为依次减小的顺序;
步骤三、根据回归向量的贡献率的排序顺序对输入变量进行排序,获取输入变量序列Xior;
步骤四、对输入变量序列Xior中的所有输入变量进行相关性检验;
步骤五、对输入变量选择计算获取回归系数;
步骤一所述的对待分析变量进行预处理,获取标准化变量集的具体过程为:
待分析变量的集合构成变量集X,初始化变量集X,根据归一化处理剔除变量集X的野值获取标准化变量集,所述的标准化变量集为均值为0,方差为1的标准化变量集;
步骤二所述的根据标准化变量集计算回归向量的具体过程为:
根据留一交叉检验方法确定标准化变量集的潜在变量的数目nlv,
所述的潜在变量的数目nlv再根据改进的偏差最小二乘回归方法得到回归向量b,其各元素代表相应的输入变量对于输出的贡献率;
步骤三所述的根据回归向量的贡献率的排序顺序对输入变量进行排序,获取变量序列Xior的具体过程为:
回归向量b各元素的绝对值按照回归向量的贡献率依次减小的顺序排序,获取输入变量序列Xior;
步骤四所述的对输入变量序列Xior中的所有输入变量进行相关性检验的具体过程为:
步骤四一、在输入变量序列Xior中去除与任意一个输入变量相关的其他输入变量,获取无冗余的变量序列Xor;
步骤四二、根据回归向量的贡献率由低到高的顺序,对无冗余的变量序列Xor中各变量进行相关性检验,直到所有变量都检验完成;
步骤五所述的对输入变量选择计算获取回归系数的具体过程为:
步骤五一、从无冗余的变量序列Xor中选取前k个输入变量构成第一个子集X1,根据留一交叉检验方法计算该第一个子集X1的预测性能;
其中,k=3,
步骤五二、在第一个子集X1上增加i个输入变量,得到第二个子集X2,该子集有k=k+i个输入变量,根据留一交叉检验方法计算该二个子集X2的预测性能;
其中,i=1,
步骤五三、重复步骤二,直到计算完无冗余的变量序列Xor中的所有输入变量的预测性能;
步骤五四、计算无冗余的变量序列Xor中所有输入变量的预测性能的均方根误差,获取均方根误差最小的输入变量,根据该输入变量计算回归矩阵偏差系数C、贡献率Bn和Bn经过逆归一化构成后得到的贡献率B。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210427974.9A CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210427974.9A CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102930158A CN102930158A (zh) | 2013-02-13 |
CN102930158B true CN102930158B (zh) | 2016-01-20 |
Family
ID=47644955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210427974.9A Expired - Fee Related CN102930158B (zh) | 2012-10-31 | 2012-10-31 | 基于偏最小二乘的变量选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102930158B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103969212B (zh) * | 2014-04-17 | 2016-08-17 | 首都师范大学 | 利用太赫兹频段ftir技术定量检测粮食中农药残留的方法 |
CN105550498B (zh) * | 2015-12-05 | 2018-11-16 | 中国航空工业集团公司洛阳电光设备研究所 | 一种基于移动最小二乘法的弹道曲线拟合方法 |
CN110174106A (zh) * | 2019-04-01 | 2019-08-27 | 香港理工大学深圳研究院 | 一种基于pm2.5的健康步行路径规划方法及终端设备 |
CN112116443A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 基于变量分组的模型生成方法、模型生成装置和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477112B (zh) * | 2009-01-12 | 2013-11-13 | 浙江大学 | 工业流化床气相聚乙烯装置的产品质量在线软测量方法 |
AU2011328963B2 (en) * | 2010-11-17 | 2016-12-08 | Pioneer Hi-Bred International, Inc. | Prediction of phenotypes and traits based on the metabolome |
-
2012
- 2012-10-31 CN CN201210427974.9A patent/CN102930158B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN102930158A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI782231B (zh) | 用於半導體及顯示器工序設備工具中的設備健康監測及錯誤偵測的深度自動編碼器 | |
US11501163B2 (en) | Abnormality detection device, abnormality detection method, and storage medium | |
CN104899135B (zh) | 软件缺陷预测方法和系统 | |
CN102930158B (zh) | 基于偏最小二乘的变量选择方法 | |
CN104915568A (zh) | 基于dtw的卫星遥测数据异常检测方法 | |
KR102031843B1 (ko) | 가상의 센서 데이터를 생성하는 방법 및 장치 | |
JP2019070965A (ja) | 学習装置、学習方法、プログラム | |
KR101522385B1 (ko) | 반도체 제조 공정에서의 이상 감지 방법, 장치 및 기록매체 | |
CN107480386A (zh) | 一种基于响应混叠性度量与遗传算法的测试激励优选方法 | |
CN113946986B (zh) | 基于加速退化试验的产品平均失效前时间评估方法和装置 | |
CN116802616A (zh) | 用于提取时间序列数据的特征值的方法和装置 | |
JPWO2022190195A5 (ja) | 情報処理システム、符号化装置、復号装置、モデル学習装置、情報処理方法、符号化方法、復号方法、モデル学習方法、および、プログラム | |
CN118982275A (zh) | 一种多模态感知的工业过程工艺指标预测方法 | |
Feng et al. | Independent component analysis based on data‐driven reconstruction of multi‐fault diagnosis | |
CN113110961A (zh) | 设备异常检测方法、装置、计算机设备及可读存储介质 | |
CN103760889B (zh) | 基于贝叶斯网的故障分离快速方法 | |
Tao et al. | Machine component health prognostics with only truncated histories using geometrical metric approach | |
Hua et al. | Multi-sensor degradation data analysis | |
CN104504300B (zh) | 基于分子描述符稳定性的分子描述符选择方法 | |
CN106909497B (zh) | 测试方法和装置 | |
CN115017976A (zh) | 处理工业数据的方法、装置、设备及存储介质 | |
CN107958089A (zh) | 构建模型的方法和装置以及异常数据的检测方法和装置 | |
Li et al. | Phase I outlier detection in profiles with binary data based on penalized likelihood | |
CN107862126B (zh) | 一种部件级信息多样性条件下的系统可靠性评估方法 | |
CN114417256B (zh) | 单传感器异常检测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160120 Termination date: 20211031 |
|
CF01 | Termination of patent right due to non-payment of annual fee |