CN103207945B - 基于独立子空间虚假邻点判别的混合辅助变量的分离及降维 - Google Patents

基于独立子空间虚假邻点判别的混合辅助变量的分离及降维 Download PDF

Info

Publication number
CN103207945B
CN103207945B CN201310068502.3A CN201310068502A CN103207945B CN 103207945 B CN103207945 B CN 103207945B CN 201310068502 A CN201310068502 A CN 201310068502A CN 103207945 B CN103207945 B CN 103207945B
Authority
CN
China
Prior art keywords
variable
auxiliary
original
independent
variables
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310068502.3A
Other languages
English (en)
Other versions
CN103207945A (zh
Inventor
苏盈盈
刘兴华
葛继科
颜克胜
曾诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Science and Technology
Original Assignee
Chongqing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Science and Technology filed Critical Chongqing University of Science and Technology
Priority to CN201310068502.3A priority Critical patent/CN103207945B/zh
Publication of CN103207945A publication Critical patent/CN103207945A/zh
Application granted granted Critical
Publication of CN103207945B publication Critical patent/CN103207945B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于独立子空间虚假邻点判别的混合辅助变量的分离及降维,其特征在于按如下步骤进行:一、确定与主导变量可能相关的n个原始辅助变量,采集n个原始辅助变量和主导变量取值数据并组成样本集;二、通过独立子空间虚假邻点判别,分别计算n个原始辅助变量的权重值;三、组成原始辅助变量序列;四、利用最小二乘回归方法进行建模,并根据最小均方误差MSE确定最佳辅助变量;五、得到分离后的独立信号软测量模型。本发明能够在建模效果最佳的基础上找出含混合辅助变量的变量集进行分离,实现其降维,达到对辅助变量信息的精简,同时降低模型复杂度,提高软测量实效性的目的。

Description

基于独立子空间虚假邻点判别的混合辅助变量的分离及降维
技术领域
本发明属于软测量技术领域,具体涉及一种基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法,用于指导混合辅助变量的分离及复杂软测量模型的降维。
背景技术
工业生产中一些关键参数以常规的测量手段往往不能准确得到,采用软测量技术可有效地解决这个问题。然而,软测量方法的原始辅助变量数目冗余庞杂,呈现出混合信号的特点,导致模型的复杂度随原始辅助变量的增加而呈指数增长,出现模型的维度灾难问题。因此,如何选择原始辅助变量的最优特征子集,使其含较少的辅助变量数量,同时又能够尽可能地保持原来完整数据集的多元结构,成为了软测量中辅助变量选择、降低信息冗余的关键。
由于辅助变量通常是多因素的混杂信号,在原始特征空间很难进行原始特征约简。本发明提出的基于独立子空间虚假邻点判别的软测量原始混合辅助变量的分离策略,首先利用ICA进行原始特征的独立成分分析,去除混杂信号问的高阶冗余并提取独立分量,将原始特征空间映射成独立特征子空间;接下来,受高维相空间混沌运动轨迹恢复的启示,对虚假最近邻点法进行逆向分析,在特征子空间利用FNN进行余弦测度的判别,通过计算原始特征参量剔除前后的余弦测度,可以有效地剔除冗余特征,降低模型复杂度。为原始辅助变量的选择,减少检测系统中传感器的数目提供一种有效的方法。
发明内容
本发明的目的在于提供基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法,能够在建模效果最佳的准则上找出独立的辅助变量,实现对主导变量软测量的降维。
本发明的技术方案如下:基于独立子空间虚假邻点判别的混合辅助变量的分离及降维,其关键在于按如下步骤进行:
步骤一:确定与主导变量可能相关的n个原始辅助变量,采集n个原始辅助变量和主导变量的取值,组成样本集,样本集大小为m;
将n个原始辅助变量数据写成矩阵X=[x1,…,xi,…xm]T形式,主导变量数据写成矩阵Y=[y1,…,yi,…,ym]T,其中, i=1,2,…,m,并将X,Y进行标准化处理;
步骤二:基于独立子空间虚假邻点判别的方法,主要是在独立成分分析ICA(IndependentComponentsAnalysis)的基础上,借助虚假最近邻点FNN(FalseNearestNeighbors)方法,分别计算n个原始辅助变量的权重值,包括两部分:
(一)混合辅助变量的独立成分分析ICA
第一步:输入数据X=[x1,…,xi,…xm]T,xij是一个样本,i=1,2,…,n,j=1,2,…,m;
第二步:数据中心化
第三步:由构成中心化数据矩阵计算的协方差Cx
第四步:计算协方差Cx的特征值λi和特征向量ai:Cxai=λiai
第五步:计算白化矩阵M:M=D-1/2VT,D为特征值λi组成的对角阵,V为特征向量ai组成的矩阵;
第六步:对中心化后的数据进行白化:
第七步:初始化分离矩阵W,W由wi构成,其中所有的wi都具有单位范数,i=1,2,…,m;
第八步:更新wi w i ← 1 n X ‾ ( ( w i X ‾ ) 3 ) T - 3 w i ;
第九步:进行wi的正交化:
第十步:标准化wi,即:wi←wi/‖wi‖;
第十一步:如果wi尚未收敛,则返回第七步,如果收敛则估计出独立分量: Y = WM X ~ ;
(二)混合辅助变量在独立子空间的虚假最近邻点判别FNN
第一步:将需要计算权值的原始变量xi剔除,即
第二步:重复(一)中的第二步到第十一步,得到变量的新的独立信号
第三步:计算高维相空间中相点之间的余弦测度
第四步:依次计算辅助变量x1,x2,…,xn的权重值,通过比较相应变化情况,确定输入变量对原始数据结构的影响大小,按变化由大到小的顺序进行变量选择;
第五步:余弦测度cos越大,说明剔除该变量对原始数据结构影响越小,可被剔除,余弦测度cos越小,说明剔除该变量对原始数据结构影响越大,为了保持原有数据结构变量,该变量应被保留。
步骤三:按照权重值,将n个原始辅助变量组成原始辅助变量序列;
步骤四:确定最佳辅助变量集;
第一步,设定循环次数N=n;
第二步,随机从样本集中选择p个样本作为训练样本,剩下的m-p个样本作为检验样本;
第三步,根据所述训练样本,利用最小二乘回归建立当前的辅助变量序列中所包含变量的非线性模型;
第四步,将所述检验样本的原始辅助变量值输入至所述非线性模型,得到m-p个检验样本对应的主导变量预测值;
第五步,计算m-p个检验样本预测值的均方误差MSE;
第六步,删除当前原始辅助变量序列中权重值最小的原始辅助变量,组成新的原始辅助变量序列,并设定N=N-1,判断此时N是否为0:
如果N≠0,则回到第三步;
如果N=0,则最小的MSE对应原始辅助变量序列即为最佳辅助变量集。
步骤五:以步骤四中对应的最佳辅助变量集为自变量对系统进行最小二乘回归建模,即得到混合辅助变量的分离及降维模型。
本发明的显著效果:在众多由多个混合信号构成的复杂原始辅助变量中,进行自变量的分离,得到降维后的软测量模型,既降低模型的复杂度,又节约人力物力财力,大大提高软测量的效率。
附图说明
图1是本发明的流程图;
图2是本发明的余弦测度示意图;
图3是实施例1中的λ累积贡献率;
图4是实施例1中混杂原始特征平均相似度;
图5是独立子空间虚假邻点判别模型1的拟合曲线,其中(a)表示模型1理论值拟合曲线,(b)表示模型2理论值拟合曲线,(c)表示模型3理论值拟合曲线;
图6是独立子空间虚假邻点判别模型1的残差曲线,其中(a)表示模型1残差曲线,(b)表示模型2残差曲线,(c)表示模型3残差曲线。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
实施例1:
步骤一:假设数据源中存在稳定的固有判别模型:y=c1+c2x4+c3x5+ε,构造自变量矩阵X=(x1,x2,x3,x4,x5),样本容量为60组,如表1。其中x4,x5满足独立标准正态分布,本例c1=51,c2=3,c3=4。
表1源信号参数X
步骤二:基于独立子空间虚假邻点判别的方法,主要是在独立成分分析ICA(IndependentComponentsAnalysis)的基础上,借助虚假最近邻点FNN(FalseNearestNeighbors)方法,分别计算n个原始辅助变量的权重值;
根据表1的源信号参数矩阵,计算x1,x2,x3,x4,x5的协方差矩阵的特征值和特征向量,结果如表2,并根据协方差矩阵特征值计算出λ的累积贡献率如图3。由图3可知,x1,x2,x3,x4,x5对预测变量Y的解释能力,其中x4,x5对Y的解释能力达到了92.44%。
表2源信号协方差矩阵特征值及特征向量
但是考虑到通常检测到的是混杂信号,所以在表1基础上,再次构造混杂信号原始特征hi=β1x1+…+β5x5,i=1,2,…,5,是0-1之间的均匀分布随机数,H=[h1,h2,…,h5]。因此根据ICA的算法,通过计算分离矩阵,分离出独立成分Si,i=1,2,…,5,如表3所示。
表3经ICA算法提取的独立成分s
将h1,h2,…,h5投影到S1,S2,…,S5,Y这个新的空间内,利用虚假最近邻点法,求出各个混杂信号原始特征在新空间里的相关性。即将向量a=(h1,h2,…,h5)中h1置为零,得到新的向量b=(0,h2,…,h5),将a和b投影到新的空间里,得到a*=(S1a,S2a,…,S5a,Y)和b*=(S1b,S2b,…,S5b,Y)。求出a*和b*的相似度d,类似上述步骤,依次得到混杂信号原始特征相似度分布图如图4所示。
步骤三:按照权重值,将n个原始辅助变量组成原始辅助变量序列;
根据图4的余弦值分布来依次求出混合信号原始特征和置0混合信号原始特征的相似度如表4,平均相似度cosθ如图4。由表4和图5可知,h4对输出Y的解释能力最强,其次是h5
表45个混杂信号原始特征分别置0后的相似性总和及平均相似度
步骤四:确定最佳辅助变量集;
根据cosθ值,建立不同相关性混杂信号原始特征参数的模型,以检测各混杂信号原始特征在建模中的重要性和影响精度。
模型1:混杂信号原始特征h1,h2,h3,h4,h5的全模型。
模型2:剔除h1,h2,由h3,h4,h5三个混杂信号原始特征参数建立模型。
模型3:剔除h1,h2,h3,由h4,h5两个混杂信号原始特征参数建立模型。
经独立子空间虚假邻点判别处理后,再用最小二乘回归对三个模型进行回归建模,如表5所示。
表5所建模型1、模型2、模型3
分别对以上三种模型进行理论值的曲线拟合,得到结果如图5所示。
步骤五:最佳辅助变量集在步骤四中对应的非线性模型即为精简化软测量模型。
通过观察三种模型理论值的拟合情况,可以知道这三种模型均能较好地拟合理论值,模型精度也都比较高。下面用测量值Y和拟合值的残差来检验模型1、模型2、模型3的精度。
由图6可以看出,三个模型的精度都非常高,但模型1有三个混杂信号原始特征,模型2有两个混杂信号原始特征。由此,我们可以用独立成分分析和虚假最近邻点法选择出来的混杂信号原始特征中的h4,h5来概括混杂原始特征中h1,h2,h3,h4,h5的信息。在相同的模型精度下,选取混杂信号原始特征数目少,即维度小的模型。这里的模型3便是所有模型中最优化的模型。

Claims (3)

1.一种基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法,其特征在于按如下步骤进行:
步骤一:确定与主导变量可能相关的n个原始辅助变量,采集n个原始辅助变量和主导变量的取值,组成样本集,样本集大小为m;
将n个原始辅助变量数据写成矩阵X=[x1,…,xi,…xm]T形式,主导变量数据写成矩阵Y=[y1,…,yi,…,ym]T,其中,并将X,Y进行标准化处理;
步骤二:基于独立子空间虚假邻点判别的方法,主要是在独立成分分析ICA(IndependentComponentsAnalysis)的基础上,借助虚假最近邻点FNN(FalseNearestNeighbors)方法,分别计算n个原始辅助变量的权重值;
步骤三:按照权重值,将n个原始辅助变量组成原始辅助变量序列;
步骤四:确定最佳辅助变量集;
步骤五:以步骤四中对应的最佳辅助变量集为自变量对系统进行最小二乘回归建模,得到混合辅助变量的分离及降维模型。
2.根据权利要求1所述的一种基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法,其特征在于步骤二中的独立子空间虚假邻点判别的辅助变量权重判别方法,包括两部分:
(一)混合辅助变量的独立成分分析ICA
第一步:输入数据X=[x1,…,xi,…xm]T,xij是一个样本,i=1,2,…,n,j=1,2,…,m;
第二步:数据中心化
第三步:由构成中心化数据矩阵计算的协方差Cx
第四步:计算协方差Cx的特征值λi和特征向量ai:Cxai=λiai
第五步:计算白化矩阵M:M=D-1/2VT,D为特征值λi组成的对角阵,V为特征向量ai组成的矩阵;
第六步:对中心化后的数据进行白化:
第七步:初始化分离矩阵W,W由wi构成,其中所有的wi都具有单位范数,i=1,2,…,m;
第八步:更新wi w i ← 1 n X ‾ ( ( w i X ‾ ) 3 ) T - 3 w i ;
第九步:进行wi的正交化:
第十步:标准化wi,即:wi←wi/||wi||;
第十一步:如果wi尚未收敛,则返回第七步,如果收敛则估计出独立分量: Y = WM X ~ ;
(二)混合辅助变量在独立子空间的虚假最近邻点判别FNN
第一步:将需要计算权值的原始变量xi剔除,即
第二步:重复(一)中的第二步到第十一步,得到变量的新的独立信号
第三步:计算高维相空间中相点之间的余弦测度
第四步:依次计算辅助变量x1,x2,…,xn的权重值,通过比较相应变化情况,确定输入变量对原始数据结构的影响大小,按变化由大到小的顺序进行变量选择;
第五步:余弦测度cos越大,说明剔除该变量对原始数据结构影响越小,应被剔除,余弦测度cos越小,说明剔除该变量对原始数据结构影响越大,为了保持原有数据结构变量,该变量应被保留。
3.根据权利要求1所述的一种基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法,其特征在于步骤四中确定最佳辅助变量集,按如下步骤进行:
第一步,设定循环次数N=n;
第二步,随机从样本集中选择p个样本作为训练样本,剩下的m-p个样本作为检验样本;
第三步,根据所述训练样本,利用最小二乘回归建立当前的辅助变量序列中所包含变量的非线性模型;
第四步,将所述检验样本当前的辅助变量值输入至所述非线性模型,得到m-p个检验样本对应的主导变量预测值;
第五步,计算m-p个检验样本预测值的均方误差MSE;
第六步,删除当前原始辅助变量序列中权重值最小的原始辅助变量,组成新的原始辅助变量序列,并设定N=N-1,判断此时N是否为0:
如果N≠0,则回到第三步;
如果N=0,则最小的检验样本预测值的均方误差MSE对应原始辅助变量序列即为最佳辅助变量集。
CN201310068502.3A 2013-03-05 2013-03-05 基于独立子空间虚假邻点判别的混合辅助变量的分离及降维 Expired - Fee Related CN103207945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310068502.3A CN103207945B (zh) 2013-03-05 2013-03-05 基于独立子空间虚假邻点判别的混合辅助变量的分离及降维

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310068502.3A CN103207945B (zh) 2013-03-05 2013-03-05 基于独立子空间虚假邻点判别的混合辅助变量的分离及降维

Publications (2)

Publication Number Publication Date
CN103207945A CN103207945A (zh) 2013-07-17
CN103207945B true CN103207945B (zh) 2016-01-06

Family

ID=48755164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310068502.3A Expired - Fee Related CN103207945B (zh) 2013-03-05 2013-03-05 基于独立子空间虚假邻点判别的混合辅助变量的分离及降维

Country Status (1)

Country Link
CN (1) CN103207945B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740622B (zh) * 2016-01-28 2019-01-22 浙江大学 基于混合整数规划的间苯二胺精馏塔软测量系统的辅助变量选择方法
CN105740212A (zh) * 2016-02-02 2016-07-06 天津大学 一种基于正则化向量自回归模型的传感器异常检测方法
CN107025351B (zh) * 2017-04-01 2019-08-16 宁波大学 一种基于多近邻保持嵌入回归模型的工业软测量方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Fast Independent Component Analysis Algorithm for Quaternion Valued Signals》;Soroush Javidi 等;《IEEE TRANSACTIONS ON NEURAL NETWORKS》;20111231;第22卷(第12期);第1967-1978页 *
《Non-linear asymmetric interdependencies in the electroencephalogram of healthy term neonates during sleep》;Ernesto Pereda 等;《Neuroscience Letters》;20030206;第337卷(第2期);第101-105页 *
《基于KPCA子空间虚假邻点判别的非线性建模的变量选择》;李太福 等;《机械工程学报》;20120531;第48卷(第10期);第192-197页 *
《基于特征子空间虚假邻点判别的软传感器模型变量选择》;李太福 等;《机械工程学报》;20110630;第47卷(第12期);第7-12页 *

Also Published As

Publication number Publication date
CN103207945A (zh) 2013-07-17

Similar Documents

Publication Publication Date Title
Colombo et al. Graph-based interpretation of the molecular interstellar medium segmentation
Carreras et al. Intermittency of plasma edge fluctuation data: Multifractal analysis
CN107229768B (zh) 基于模糊分类技术的边坡可靠性参数获取方法及装置
CN108051660A (zh) 一种变压器故障组合诊断模型建立方法及诊断方法
CN105184316A (zh) 一种基于特征权学习的支持向量机电网业务分类方法
CN109784383A (zh) 一种基于图域特征和ds证据理论融合的钢轨裂纹识别方法
CN108596108A (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN103065160A (zh) 基于局部协同表示和邻域信息约束的高光谱图像分类方法
CN112199862B (zh) 纳米粒子运移的预测方法、其影响因子分析方法及系统
CN109298225B (zh) 一种电压量测数据异常状态自动识别模型系统及方法
CN105629958A (zh) 一种基于子时段mpca-svm的间歇过程故障诊断方法
CN103207945B (zh) 基于独立子空间虚假邻点判别的混合辅助变量的分离及降维
CN109543731A (zh) 一种自训练框架下的三优选半监督回归算法
CN103955714A (zh) 基于水军检测模型构建方法和系统及水军检测方法
CN105572572A (zh) 基于wknn-lssvm的模拟电路故障诊断方法
CN106778893A (zh) 一种基于降维与聚类的高光谱样本选择方法
CN110298369A (zh) 一种电力系统不良数据的辨识方法及系统
CN105334504A (zh) 基于大边界的非线性判别投影模型的雷达目标识别方法
CN107832789A (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN101738998A (zh) 一种基于局部判别分析的工业过程监测系统及方法
CN102930291B (zh) 用于图形图像的k近邻局部搜索遗传自动聚类方法
CN102945222A (zh) 一种基于灰色理论的乏信息测量数据粗大误差判别方法
CN110516920B (zh) 基于指标融合的陀螺仪质量等级评估方法
CN108830006A (zh) 基于线性评价因子的线性-非线性工业过程故障检测方法
CN114580828A (zh) 数控机床运输过程安全性评价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160106

Termination date: 20210305