CN103207945B

CN103207945B - 基于独立子空间虚假邻点判别的混合辅助变量的分离及降维

Info

Publication number: CN103207945B
Application number: CN201310068502.3A
Authority: CN
Inventors: 苏盈盈; 刘兴华; 葛继科; 颜克胜; 曾诚
Original assignee: Chongqing University of Science and Technology
Current assignee: Chongqing University of Science and Technology
Priority date: 2013-03-05
Filing date: 2013-03-05
Publication date: 2016-01-06
Anticipated expiration: 2033-03-05
Also published as: CN103207945A

Abstract

本发明公开了基于独立子空间虚假邻点判别的混合辅助变量的分离及降维，其特征在于按如下步骤进行：一、确定与主导变量可能相关的n个原始辅助变量，采集n个原始辅助变量和主导变量取值数据并组成样本集；二、通过独立子空间虚假邻点判别，分别计算n个原始辅助变量的权重值；三、组成原始辅助变量序列；四、利用最小二乘回归方法进行建模，并根据最小均方误差MSE确定最佳辅助变量；五、得到分离后的独立信号软测量模型。本发明能够在建模效果最佳的基础上找出含混合辅助变量的变量集进行分离，实现其降维，达到对辅助变量信息的精简，同时降低模型复杂度，提高软测量实效性的目的。

Description

基于独立子空间虚假邻点判别的混合辅助变量的分离及降维

技术领域

本发明属于软测量技术领域，具体涉及一种基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法，用于指导混合辅助变量的分离及复杂软测量模型的降维。

背景技术

工业生产中一些关键参数以常规的测量手段往往不能准确得到，采用软测量技术可有效地解决这个问题。然而，软测量方法的原始辅助变量数目冗余庞杂，呈现出混合信号的特点，导致模型的复杂度随原始辅助变量的增加而呈指数增长，出现模型的维度灾难问题。因此，如何选择原始辅助变量的最优特征子集，使其含较少的辅助变量数量，同时又能够尽可能地保持原来完整数据集的多元结构，成为了软测量中辅助变量选择、降低信息冗余的关键。

由于辅助变量通常是多因素的混杂信号，在原始特征空间很难进行原始特征约简。本发明提出的基于独立子空间虚假邻点判别的软测量原始混合辅助变量的分离策略，首先利用ICA进行原始特征的独立成分分析，去除混杂信号问的高阶冗余并提取独立分量，将原始特征空间映射成独立特征子空间；接下来，受高维相空间混沌运动轨迹恢复的启示，对虚假最近邻点法进行逆向分析，在特征子空间利用FNN进行余弦测度的判别，通过计算原始特征参量剔除前后的余弦测度，可以有效地剔除冗余特征，降低模型复杂度。为原始辅助变量的选择，减少检测系统中传感器的数目提供一种有效的方法。

发明内容

本发明的目的在于提供基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法，能够在建模效果最佳的准则上找出独立的辅助变量，实现对主导变量软测量的降维。

本发明的技术方案如下：基于独立子空间虚假邻点判别的混合辅助变量的分离及降维，其关键在于按如下步骤进行：

步骤一：确定与主导变量可能相关的n个原始辅助变量，采集n个原始辅助变量和主导变量的取值，组成样本集，样本集大小为m；

将n个原始辅助变量数据写成矩阵X＝[x₁，…，x_i，…x_m]^T形式，主导变量数据写成矩阵Y＝[y₁，…，y_i，…，y_m]^T，其中， i＝1，2，…，m，并将X，Y进行标准化处理；

步骤二：基于独立子空间虚假邻点判别的方法，主要是在独立成分分析ICA(IndependentComponentsAnalysis)的基础上，借助虚假最近邻点FNN(FalseNearestNeighbors)方法，分别计算n个原始辅助变量的权重值，包括两部分：

(一)混合辅助变量的独立成分分析ICA

第一步：输入数据X＝[x₁，…，x_i，…x_m]^T，x_ij是一个样本，i＝1，2，…，n，j＝1，2，…，m；

第二步：数据中心化

第三步：由构成中心化数据矩阵计算的协方差C_x：

第四步：计算协方差C_x的特征值λ_i和特征向量a_i：C_xa_i＝λ_ia_i；

第五步：计算白化矩阵M：M＝D^-1/2V^T，D为特征值λ_i组成的对角阵，V为特征向量a_i组成的矩阵；

第六步：对中心化后的数据进行白化：

第七步：初始化分离矩阵W，W由w_i构成，其中所有的w_i都具有单位范数，i＝1，2，…，m；

第八步：更新w_i：

w_{i} &LeftArrow; \frac{1}{n} \overset{&OverBar;}{X} {({(w_{i} \overset{&OverBar;}{X})}^{3})}^{T} - {3 w}_{i};

第九步：进行w_i的正交化：

第十步：标准化w_i，即：w_i←w_i/‖w_i‖；

第十一步：如果w_i尚未收敛，则返回第七步，如果收敛则估计出独立分量：

Y = WM \tilde{X};

(二)混合辅助变量在独立子空间的虚假最近邻点判别FNN

第一步：将需要计算权值的原始变量x_i剔除，即

第二步：重复(一)中的第二步到第十一步，得到变量的新的独立信号

第三步：计算高维相空间中相点与之间的余弦测度

第四步：依次计算辅助变量x₁，x₂，…，x_n的权重值，通过比较相应变化情况，确定输入变量对原始数据结构的影响大小，按变化由大到小的顺序进行变量选择；

第五步：余弦测度cos越大，说明剔除该变量对原始数据结构影响越小，可被剔除，余弦测度cos越小，说明剔除该变量对原始数据结构影响越大，为了保持原有数据结构变量，该变量应被保留。

步骤三：按照权重值，将n个原始辅助变量组成原始辅助变量序列；

步骤四：确定最佳辅助变量集；

第一步，设定循环次数N＝n；

第二步，随机从样本集中选择p个样本作为训练样本，剩下的m-p个样本作为检验样本；

第三步，根据所述训练样本，利用最小二乘回归建立当前的辅助变量序列中所包含变量的非线性模型；

第四步，将所述检验样本的原始辅助变量值输入至所述非线性模型，得到m-p个检验样本对应的主导变量预测值；

第五步，计算m-p个检验样本预测值的均方误差MSE；

第六步，删除当前原始辅助变量序列中权重值最小的原始辅助变量，组成新的原始辅助变量序列，并设定N＝N-1，判断此时N是否为0：

如果N≠0，则回到第三步；

如果N＝0，则最小的MSE对应原始辅助变量序列即为最佳辅助变量集。

步骤五：以步骤四中对应的最佳辅助变量集为自变量对系统进行最小二乘回归建模，即得到混合辅助变量的分离及降维模型。

本发明的显著效果：在众多由多个混合信号构成的复杂原始辅助变量中，进行自变量的分离，得到降维后的软测量模型，既降低模型的复杂度，又节约人力物力财力，大大提高软测量的效率。

附图说明

图1是本发明的流程图；

图2是本发明的余弦测度示意图；

图3是实施例1中的λ累积贡献率；

图4是实施例1中混杂原始特征平均相似度；

图5是独立子空间虚假邻点判别模型1的拟合曲线，其中(a)表示模型1理论值拟合曲线，(b)表示模型2理论值拟合曲线，(c)表示模型3理论值拟合曲线；

图6是独立子空间虚假邻点判别模型1的残差曲线，其中(a)表示模型1残差曲线，(b)表示模型2残差曲线，(c)表示模型3残差曲线。

具体实施方式

下面结合附图和实施例对本发明作进一步说明：

实施例1：

步骤一：假设数据源中存在稳定的固有判别模型：y＝c₁+c₂x₄+c₃x₅+ε，构造自变量矩阵X＝(x₁，x₂，x₃，x₄，x₅)，样本容量为60组，如表1。其中x₄，x₅满足独立标准正态分布，本例c₁＝51，c₂＝3，c₃＝4。

表1源信号参数X

步骤二：基于独立子空间虚假邻点判别的方法，主要是在独立成分分析ICA(IndependentComponentsAnalysis)的基础上，借助虚假最近邻点FNN(FalseNearestNeighbors)方法，分别计算n个原始辅助变量的权重值；

根据表1的源信号参数矩阵，计算x₁，x₂，x₃，x₄，x₅的协方差矩阵的特征值和特征向量，结果如表2，并根据协方差矩阵特征值计算出λ的累积贡献率如图3。由图3可知，x₁，x₂，x₃，x₄，x₅对预测变量Y的解释能力，其中x₄，x₅对Y的解释能力达到了92.44％。

表2源信号协方差矩阵特征值及特征向量

但是考虑到通常检测到的是混杂信号，所以在表1基础上，再次构造混杂信号原始特征h_i＝β₁x₁+…+β₅x₅，i＝1，2，…，5，是0-1之间的均匀分布随机数，H＝[h₁，h₂，…，h₅]。因此根据ICA的算法，通过计算分离矩阵，分离出独立成分S_i，i＝1，2，…，5，如表3所示。

表3经ICA算法提取的独立成分s

将h₁，h₂，…，h₅投影到S₁，S₂，…，S₅，Y这个新的空间内，利用虚假最近邻点法，求出各个混杂信号原始特征在新空间里的相关性。即将向量a＝(h₁，h₂，…，h₅)中h₁置为零，得到新的向量b＝(0，h₂，…，h₅)，将a和b投影到新的空间里，得到a^*＝(S_1a，S_2a，…，S_5a，Y)和b^*＝(S_1b，S_2b，…，S_5b，Y)。求出a^*和b^*的相似度d，类似上述步骤，依次得到混杂信号原始特征相似度分布图如图4所示。

根据图4的余弦值分布来依次求出混合信号原始特征和置0混合信号原始特征的相似度如表4，平均相似度cosθ如图4。由表4和图5可知，h₄对输出Y的解释能力最强，其次是h₅。

表45个混杂信号原始特征分别置0后的相似性总和及平均相似度

步骤四：确定最佳辅助变量集；

根据cosθ值，建立不同相关性混杂信号原始特征参数的模型，以检测各混杂信号原始特征在建模中的重要性和影响精度。

模型1：混杂信号原始特征h₁，h₂，h₃，h₄，h₅的全模型。

模型2：剔除h₁，h₂，由h₃，h₄，h₅三个混杂信号原始特征参数建立模型。

模型3：剔除h₁，h₂，h₃，由h₄，h₅两个混杂信号原始特征参数建立模型。

经独立子空间虚假邻点判别处理后，再用最小二乘回归对三个模型进行回归建模，如表5所示。

表5所建模型1、模型2、模型3

分别对以上三种模型进行理论值的曲线拟合，得到结果如图5所示。

步骤五：最佳辅助变量集在步骤四中对应的非线性模型即为精简化软测量模型。

通过观察三种模型理论值的拟合情况，可以知道这三种模型均能较好地拟合理论值，模型精度也都比较高。下面用测量值Y和拟合值的残差来检验模型1、模型2、模型3的精度。

由图6可以看出，三个模型的精度都非常高，但模型1有三个混杂信号原始特征，模型2有两个混杂信号原始特征。由此，我们可以用独立成分分析和虚假最近邻点法选择出来的混杂信号原始特征中的h₄，h₅来概括混杂原始特征中h₁，h₂，h₃，h₄，h₅的信息。在相同的模型精度下，选取混杂信号原始特征数目少，即维度小的模型。这里的模型3便是所有模型中最优化的模型。

Claims

1.一种基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法，其特征在于按如下步骤进行：

将n个原始辅助变量数据写成矩阵X＝[x₁，…，x_i，…x_m]^T形式，主导变量数据写成矩阵Y＝[y₁，…，y_i，…，y_m]^T，其中，并将X，Y进行标准化处理；

步骤四：确定最佳辅助变量集；

步骤五：以步骤四中对应的最佳辅助变量集为自变量对系统进行最小二乘回归建模，得到混合辅助变量的分离及降维模型。

2.根据权利要求1所述的一种基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法，其特征在于步骤二中的独立子空间虚假邻点判别的辅助变量权重判别方法，包括两部分：

(一)混合辅助变量的独立成分分析ICA

第二步：数据中心化

第三步：由构成中心化数据矩阵计算的协方差C_x：

第六步：对中心化后的数据进行白化：

第八步：更新w_i：

w_{i} &LeftArrow; \frac{1}{n} \overset{&OverBar;}{X} {({(w_{i} \overset{&OverBar;}{X})}^{3})}^{T} - {3 w}_{i};

第九步：进行w_i的正交化：

第十步：标准化w_i，即：w_i←w_i/||w_i||；

Y = WM \tilde{X};

(二)混合辅助变量在独立子空间的虚假最近邻点判别FNN

第一步：将需要计算权值的原始变量x_i剔除，即

第三步：计算高维相空间中相点与之间的余弦测度

第五步：余弦测度cos越大，说明剔除该变量对原始数据结构影响越小，应被剔除，余弦测度cos越小，说明剔除该变量对原始数据结构影响越大，为了保持原有数据结构变量，该变量应被保留。

3.根据权利要求1所述的一种基于独立子空间虚假邻点判别的混合辅助变量的分离及降维方法，其特征在于步骤四中确定最佳辅助变量集，按如下步骤进行：

第一步，设定循环次数N＝n；

第四步，将所述检验样本当前的辅助变量值输入至所述非线性模型，得到m-p个检验样本对应的主导变量预测值；

第五步，计算m-p个检验样本预测值的均方误差MSE；

如果N≠0，则回到第三步；

如果N＝0，则最小的检验样本预测值的均方误差MSE对应原始辅助变量序列即为最佳辅助变量集。