CN107704863A

CN107704863A - Pca主元重排的故障特征表示方法

Info

Publication number: CN107704863A
Application number: CN201710364786.9A
Authority: CN
Inventors: 刘卓; 王天真; 汤天浩
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2018-02-16
Anticipated expiration: 2037-05-22
Also published as: CN107704863B

Abstract

本发明适用于模式识别中故障诊断的特征提取后的特征表示领域，公开并提供了PCA主元重排的故障特征表示方法。该主元重排(Principal Components Rearrangement,PCR)方法针对原始故障样本之间出现“重叠”现象，所述方法包括：基于PCA(Principal Components Analysis,PCA)方法的特征提取；主元的离线重排；反向重构投影矩阵。本发明是在传统PCA故障特征提取之后，进一步根据一种主元重排方法进行特征表示，该方法在合适的主元样本的置信区间内，能将互相重叠的故障进行分离，大大提高了传统PCA故障特征提取的效率，为后续故障诊断及容错控制等环节的成功提供了前提保障。

Description

PCA主元重排的故障特征表示方法

技术领域

本发明属于模式识别中故障诊断的特征提取后的特征表示领域，尤其涉及PCA主元重排的故障特征表示方法。

背景技术

在故障特征提取之后，如何对所提取的故障特征数据进行明显的表示，使故障特征有分类的代表性，是故障诊断性能是否优良的关键性问题，对于快速分类诊断、提高分类准确率具有关键性意义。其中对于高维数据特征提取的传统 PCA而言，主元提取之后的特征表示是PCA提取的关键步骤，选择合适的重排间隔重构有效的投影矩阵是主要思路，以这样的思路可以改进传统PCA方法，使其故障特征之后的特征更具有分类的代表性。

对于PCA特征提取之后的特征表示，由于常见的做法是在一层或几层特征提取后，使用其他特征提取方法进一步加强特征提取效果，或者为了提高故障诊断性能，在特征提取方法不变的情况下，优化诊断分类器、选用高精度的分类算法。

“一层或几层特征提取后，使用其他特征提取方法进一步加强特征提取效果”做法类似于算法的组合或融合，但是往往算法的复杂度较高，在组合时也欠缺一定的理论说明；“在特征提取方法不变的情况下，优化诊断分类器、选用高精度的分类算法”做法虽然在分类器性能增加的情况下，能够实现高性能的故障诊断，但容易受所提取的特征的影响，比如“维数灾难”，此外，这种做法对于分类器的参数调整要求较高，不利于快速故障诊断，另外如果样本数量较多时，受噪声(主要是高斯噪声)的影响，不同故障特征互相重叠，则故障分类性能会急剧下降。

发明内容

针对以上问题，本发明的主要目的在于公开并提供了PCA主元重排的故障特征表示方法，旨在解决样本数量较多时，受噪声(主要是高斯噪声)的影响，不同故障特征互相重叠，而造成现有故障特征提取方法性能不佳影响到故障诊断性能的问题。

所述的PCA主元重排的故障特征表示方法包含以下三个步骤：

步骤一：基于PCA方法的特征提取

PCA方法由于其运算过程存在主要特征的选取过程，因此经常被用于高维数据的降维以及特征提取，传统的PCA方法步骤如下：

定义PCA特征提取输入数据为其中M、N分别代表样本的总数量以及每个样本中的变量数，满足M＝I×J，其中I、J分别代表故障种类数 (含正常)以及每类样本的数量，因此矩阵X可以被分解为如公式(1)相等数量的I块：

对于常见的工业采样过程，高斯噪声几乎占了大多数，假定这里每类数据样本除了真值成分外，均含有高斯噪声，其中的第i类样本x_i近似高斯分布，求其高斯分布的均值和标准差分别为μ_i和σ_i。其中第i类样本x_i可表示为公式(2)：

其中i＝1,2,…I。则的标准化矩阵为为了便于表达，这里引入维数为J×1的单位向量1_J×1，因此的表达式如公式(3)所示：

其中μ_{i_cc}是x_i按照其列序号顺序所求的平均值向量，维数为1×N，则X的标准化矩阵X^*的协方差矩阵见公式(4)：

其中标记“()^H”表示共轭转置运算。如果λ_ii和v_ii(ii＝1,2,…,N)分别是所对应的特征值和特征向量。

累积方差百分比(Cumulative Percentage of Variance,CPV)定义为公式(5):

根据公式(5)，主元数目k可以由公式(6)计算得到。

如果定义由特征值CPV所选取的特征向量构建的投影矩阵为 P_T＝(P_T1,P_T1,…,P_Tk)，则PCA特征提取后的结果数据可由公式(7)所示。

Y＝XP_T (7)

Y详细的表达见公式(8)：

其中的一列代表一个主元，主元每个列向量都分别被用作重排算法的输入数据。

为了便于表示，也将矩阵Y如公式(1)行分块为由于PCA是一个按方差最大方向的正交旋转，等同于一个线性坐标变换，而一个符合高斯分布的样本，经过线性变换，其结果也是符合高斯分布的，因为PCA 的输入数据矩阵X按照I的数量进行行分块，每一块数据矩阵均符合高斯分布，因此中对应的每一块数据矩阵也是符合高斯分布的，比如第 i个类别序号对应的数据矩阵x_i符合高斯分布，则对应的Y_i也是高斯分布的。将传统PCA提取得到的特征进一步的表示，使其更明显，如下文。

步骤二：主元的离线重排

这一部分，主要是运用一种基于特征的概率分布情况的重排方法，将Y中每一个主元分别进行重排，这样主要是为了使得每个主元中的特征之间更有代表性和明显性，便于后续的分类诊断。这部分主要有两个步骤：

(1)分别选择Y的列向量(主元)

比如选择Y中的第c列y_c，其表达式为

y_c＝(y_1c,y_1c,…y_Mc)^T (9)

其中c＝1,2,…,k，如果按照类别划分，此处为I类，则y_c也可以写为(10)式：

对于每个类别序号所对应的数据，均含有J个样本。因此对于y_c中的标记第 i类的向量y_{c_i}＝(y_[(i-1)J+1]c,y_[(i-1)J+2]c,…,y_(i×J)c)，其中i＝1,2,…,I，因为y_{c_i}属于Y_i第c列，对于每个主元来说，其中标记第i类的特征y_{c_i}也是属于高斯分布的，因此可以求出y_{c_i}对应的期望μ_{c_i}和标准差σ_{c_i}。

(2)对所选主元向量重排

求出(10)每个类别序号对应的数据均值为

其中μ_{c_1},μ_{c_2},…μ_{c_I}分别是y_{c_1},y_{c_2},…y_{c_I}所对应的算术平均值，也是其特征数据分布对应的期望，其中第i个期望其中i＝1,2,…,I， j＝1,2,…,J。因为y_{c_i}也是符合高斯分布的，因此可以列写出其累积分布函数 F(z,μ_{c_i},σ_{c_i})，可见公式(12)：

定义y_{c_i}分布的置信区间为CI_{c_i}，为了使得特征的样本点数尽可能分布于所在置信区间中，根据高斯分布的“3σ”原则，可以取 CI_{c_i}＝[μ_{c_i}-3σ_{c_i},μ_{c_i}+3σ_{c_i}]，因此P_r(z∈CI_{c_i})≈99.7％，其中i＝1,2,…,I。

则第i类特征数据在CI_{c_i}＝[μ_{c_i}-3σ_{c_i},μ_{c_i}+3σ_{c_i}]中概率分布的横坐标区间长度可由公式(13)求出：

Δz_{c_i}＝2×|F^-1(z＜(u_{c_i}+3σ_{c_i}),μ_{c_i},σ_{c_i})-u_{c_i}| (13)

其中F^-1是求(12)概率分布函数的反函数，一般查表能够得到，如果采用 MATLAB工具实现，则对应的是“NORMINV”函数。

为了保证每个主元向量中的不同类别标记的特征能够尽可能明显和差异性增大，一种可以选择的方法是选择样本的间距为Δz_{c_i}(i＝1,2,…,I)中的最大值，定义为“重排间隔”，见公式(14)所示：

Δz_max＝max(Δz_{c_1},Δz_{c_2},…Δz_{c_I}) (14)

如果y_{c_i}重排完之后的数据表示为对应的期望和标准差分别为和则经过重排之后的，y_{c_i}的样本期望μ_{c_i}变换成的可以由公式 (15)所求出：

其中l是μ_{c_i}在中的排序序号，μ_{c_i}是中第l大的元素。对于第c个主元的不同类别序号对应的主元特征，期望值之间的间距都等于Δz_max(14)，这种操作类似于一种均匀的特征表示，其克服了当样本数量增多时的“特征互相重叠” 问题。其中重排只涉及到期望的变化，对应的标准差则不发生变化。

最后，y_{c_i}重排完之后的数据表示为可表示为

其中1_J×1为元素均为1、维数为J×1的向量，则y_c经过重排之后的可表达为

其他的所有主元向量均是按照(11)到(17)的公式所运算。接下来需要构建新的投影矩阵，重构主元重排方法的模型。

步骤三：反向重构投影矩阵

由于步骤(2)取的是Y中的第c列向量(第c个主元)的重排过程，而 c＝1,2,…,k，当重排完所有k个主元之后，得到重排之后的结果矩阵Y^PCR表达式为(18)。

根据PCA特征提取输入数据以及可由式(7)的形式重构出重排之后的投影矩阵替换传统PCA的投影矩阵P_T，其中可由(19)算出：

其中X^#是X的伪逆矩阵，由于X往往不是方阵，因此这里取其伪逆矩阵。常见伪逆矩阵的求解方法：直接求法、SVD分解法和QR分解法，总结如下：

(1)直接求解

X^#＝(X^HX)^-1X^H (20)

(2)SVD分解法

U×S×V^T＝X (21)

其中U^TU＝I，V^TV＝I，且I是单位矩阵。接着将S中的非零元素求倒数得到矩阵T，则伪逆矩阵X^#：

X^#＝V×T^T×U^T (22)

(3)QR分解法

QR＝X (23)

接着，按照直接法求出R^#，即R^#＝(R^HR)^-1R^H，则伪逆矩阵X^#：

X^#＝R^#Q^H (24)

以上三种方法各有优势，比如直接法的运算量最小，SVD分解法和QR分解法适合稀疏矩阵求解，因此在实际计算中，要根据具体的数据特性和要求进行 X伪逆矩阵的求解，进而尽可能准确地计算得出重排算法重构的投影矩阵。另外，值得注意的是，如果伪逆矩阵求取的效果不佳时，PCR特征表示之后的结果数据Y^PCR需要由(19)式新的投影矩阵映射得出，并且求伪拟矩阵的方法也不局限于以上求法。

附图说明

图1是本发明的主要步骤流程图；

图2是本发明的实施例所提供的PCA主元重排的故障特征表示方法的原始数据结构；

图3是PCA主元重排的特征表示方法的具体流程框图；

图4是PCA特征提取之后数据的用于检验正态分布特性的Q-Q图

图5是PCA特征提取方法的第一主元特征数据分布图；

图6是经过PCA主元重排的故障特征表示方法之后第一主元特征数据分布图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1是本发明的主要步骤流程，其操作包含以下三个步骤：

步骤一：基于PCA方法的特征提取

由2.4.3节分析，对于常见的工业采样过程，高斯噪声几乎占了大多数，假定这里每类数据样本除了真值成分外，均含有高斯噪声，其中的第i类样本x_i近似高斯分布，求其高斯分布的均值和标准差分别为μ_i和σ_i。其中第i类样本x_i可表示为公式(2)：

其累积方差百分比(Cumulative Percentage of Variance,CPV)定义为公式(5):

根据公式(5)，主元数目k可以由公式(6)计算得到。

Y＝XP_T (7)

Y详细的表达见公式(8)：

为了便于表示，也将矩阵Y如公式(1)行分块为由于PCA 是一个按方差最大方向的正交旋转，等同于一个线性坐标变换，而一个符合高斯分布的样本，经过线性变换，其结果也是符合高斯分布的，因为PCA的输入数据矩阵X按照I的数量进行行分块，每一块数据矩阵均符合高斯分布，因此中对应的每一块数据矩阵也是符合高斯分布的，比如第i个类别序号对应的数据矩阵x_i符合高斯分布，则对应的Y_i也是高斯分布的。将传统PCA提取得到的特征进一步的表示，使其更明显，如下文。

步骤二：主元的离线重排

(1)分别选择Y的列向量(主元)

比如选择Y中的第c列y_c，其表达式为

y_c＝(y_1c,y_1c,…y_Mc)^T (9)

(2)对所选主元向量重排

求出(10)每个类别序号对应的数据均值为

Δz_{c_i}＝2×|F^-1(z＜(u_{c_i}+3σ_{c_i}),μ_{c_i},σ_{c_i})-u_{c_i}| (13)

Δz_max＝max(Δz_{c_1},Δz_{c_2},…Δz_{c_I}) (14)

其中l是μ_{c_i}在中的排序序号，μ_{c_i}是中第l大的元素。对于第c个主元的不同类别序号对应的主元特征，期望值之间的间距都等于Δz_max(14)，这种操作类似于一种均匀的特征表示，其克服了当样本数量增多时的“特征互相重叠”问题。其中重排只涉及到期望的变化，对应的标准差则不发生变化。

最后，y_{c_i}重排完之后的数据表示为可表示为

步骤三：反向重构投影矩阵

由于步骤2)取的是Y中的第c列向量(第c个主元)的重排过程，而 c＝1,2,…,k，当重排完所有k个主元之后，得到重排之后的结果矩阵Y^PCR表达式为(18)。

(1)直接求解

X^#＝(X^HX)^-1X^H (20)

(2)SVD分解法

U×S×V^T＝X (21)

X^#＝V×T^T×U^T (22)

(3)QR分解法

QR＝X (23)

X^#＝R^#Q^H (24)

为了充分表述本发明所述的技术方案，下面用具体的实施例来说明。

实施例：

图2提供了本发明PCA主元重排的故障特征表示方法的原始数据的结构以及各个维度的含义。

图中的I代表故障的种类数，含正常情况，J是每一类故障中采集的样本数量，原则上是相同的，避免数据不平衡给故障诊断带了影响。M是样本的总数量，表示离线采集的不同故障的样本数量，其中满足数量关系M＝I×J。其中的 N代表在每个样本中所采的点数，可能代表时域中具体时刻离散数据点的数量，或频域中各频率点谐波幅值特征的总数量。本实施例中，I＝13，J＝400，M＝5200， N＝1000。

根据以上结构的原始数据，如图3，给出了实施例提供的PCA主元重排的故障特征表示方法的流程图，为了便于说明，其中表述了该方法主要的部分。

步骤S101是将原始数据进行标准化，其具体步骤如下：

假设符合图1的数据样本为X的第i类样本x_i为正态(高斯) 分布，求其正态(高斯)分布的均值和标准差分别为μ_i和σ_i。

其中第i类样本x_i可表示为公式(1)：

其中i＝1,2,…I。

引入维数为J×1的单位向量1_J×1，计算x_i的标准化矩阵的表达式如公式(2)所示：

其中μ_{i_cc}是x_i按照其列序号顺序所求的平均值向量，维数为1×N，则X的标准化矩阵

S102是基于PCA进行特征提取，其步骤如下：

计算X^*的协方差矩阵见公式(3)：

求出所对应的特征值和特征向量：λ_ii和v_ii(ii＝1,2,…,N)。

设置累积方差百分比(Cumulative Percentage of Variance,CPV)定义为公式(4)：

计算主元数量如公式(5)：

S103依次选择PCA特征提取的结果矩阵中的一个主元。

S104是对所选择的主元不同故障标记的数据求期望和标准差，比如取第 c个主元中第i类主元特征数据y_{c_i}，其期望和标准差分别为μ_{c_i}和σ_{c_i}。

S105是根据正态(高斯)分布的3σ原则设置置信区间，比如对于y_{c_i}根据正态分布的3σ原则，则对应的置信区间为[μ_{c_i}-3σ_{c_i},μ_{c_i}+3σ_{c_i}]。

S106是根据正态分布的3σ原则设置置信区间，其包含以下内容：

采用正态分布的反函数求出μ_{c_i}+3σ_{c_i}点的横坐标值。

计算对应区间长度Δz_{c_i}＝2×|F^-1(z＜(u_{c_i}+3σ_{c_i}),μ_{c_i},σ_{c_i})-u_{c_i}|。

求出最大区间长度作为重排间隔：Δz_max＝max(Δz_{c_1},Δz_{c_2},…Δz_{c_I})。

S107环节得到重排结果矩阵：

S108环节采用原始数据的伪逆矩阵变换得到X^#，根据公式(6)重构了投影矩阵：

图4采用了Q-Q图方法检验了本实施例原始数据的正态分布性能，Q-Q 图中待检验数据和标准高斯分布线的拟合程度即代表了高斯分布的程度，在高斯分布的“3σ原则”选取的置信区间中，实验的原始样本基本和标准高斯分布线拟合，说明所提取的主元特征满足是“高斯分布”，因此主元重排方法也基本适用，满足其使用的前提。

图5是本实施例原始数据PCA特征提取的结果，如果对不同类别的数据进行标记，依次是故障1到故障13，由图可见本实施例的特征存在“重叠问题”。为了便于查看重叠问题，对于标记为故障10和故障13以及故障11和故障12的特征数据的分布进行放大。

发现标记为故障10和故障13以及故障11和故障12的特征数据的分布几乎完全重合，其特征数据点和高斯分布几乎一一对应。

图6是本发明所提供的PCA主元重排的故障特征表示方法的处理结果，采用了同一主元中不同故障特征之间的最大间距作为重排间隔，其主元特征中的 “特征重叠问题”在规定的置信区间中能够很好地克服“特征重叠问题”，满足了提取特征需要明显的需要，对于后续的故障诊断是极有意义的。

Claims

1.一种PCA主元重排的故障特征表示方法，其特征在于包括以下3个步骤：

步骤一：基于PCA方法的特征提取

PCA特征提取原始数据为其中M、N分别代表样本的总数量和每个样本的变量数，满足M＝I×J，I、J分别代表含正常情形的故障种类数、每个样本中采样点数；假定每类数据样本除真值成分外均含高斯噪声，样本符合高斯分布，计算X经过PCA提取得到结果如下式：

步骤二：主元的离线重排

(1)选择Y的主元向量

选择Y中的第c列主元向量y_c，按类别划分，y_c可写为：

y_c中的标记第i类的向量y_{c_i}如(3)式：

y_{c_i}＝(y_[(i-1)J+1]c,y_[(i-1)J+2]c,…,y_(i×J)c) (3)

其中i＝1,2,…,I，并计算y_{c_i}对应期望μ_{c_i}和标准差σ_{c_i}；

(2)重排所选主元向量

求出(2)中每个类别序号对应的数据均值：

<mrow> <mover> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>=</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mn>2</mn> </mrow> </msub> <mo>,</mo> <mo>...</mo> <msub> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>I</mi> </mrow> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

即第i个期望为μ_{c_i}：

<mrow> <msub> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>J</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>J</mi> </munderover> <msub> <mi>y</mi> <mrow> <mo>&lsqb;</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>J</mi> <mo>+</mo> <mi>j</mi> <mo>&rsqb;</mo> <mi>c</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中i＝1,2,…,I，j＝1,2,…,J；

y_{c_i}的累积分布函数F(z,μ_{c_i},σ_{c_i})，可见公式(6)：

<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>z</mi> <mo>,</mo> <msub> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <msub> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> </msub> <msqrt> <mrow> <mn>2</mn> <mi>&pi;</mi> </mrow> </msqrt> </mrow> </mfrac> <msubsup> <mo>&Integral;</mo> <mrow> <mo>-</mo> <mi>&infin;</mi> </mrow> <mi>z</mi> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>z</mi> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msubsup> <mi>&sigma;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </mfrac> <mo>)</mo> </mrow> <mi>d</mi> <mi>z</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

定义y_{c_i}分布的置信区间为CI_{c_i}，根据高斯分布的“3σ”原则，CI_{c_i}设置为

CI_{c_i}＝[μ_{c_i}-3σ_{c_i},μ_{c_i}+3σ_{c_i}] (7)

第i类特征数据在CI_{c_i}中概率分布的横坐标区间长度为

Δz_{c_i}＝2×|F^-1(z＜(u_{c_i}+3σ_{c_i}),μ_{c_i},σ_{c_i})-u_{c_i}| (8)

其中F^-1是F(z,μ_{c_i},σ_{c_i})的反函数，求取“重排间隔”，见公式(9)：

Δz_max＝max(Δz_{c_1},Δz_{c_2},…Δz_{c_I}) (9)

y_{c_i}重排后为其对应的期望和标准差分别为和利用“重排间隔”，μ_{c_i}变换成的如式(10)：

<mrow> <msubsup> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> <mrow> <mi>P</mi> <mi>C</mi> <mi>R</mi> </mrow> </msubsup> <mo>=</mo> <mi>m</mi> <mi>i</mi> <mi>n</mi> <mrow> <mo>(</mo> <mover> <msub> <mi>y</mi> <mi>c</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <mi>l</mi> <mo>)</mo> </mrow> <msub> <mi>&Delta;z</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

μ_{c_i}是中第l大的元素。计算y_{c_i}重排完之后的数据

<mrow> <msubsup> <mi>y</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> <mrow> <mi>P</mi> <mi>C</mi> <mi>R</mi> </mrow> </msubsup> <mo>=</mo> <msub> <mi>y</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> </msub> <mo>+</mo> <mrow> <mo>(</mo> <msubsup> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> <mrow> <mi>P</mi> <mi>C</mi> <mi>R</mi> </mrow> </msubsup> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mi>c</mi> <mo>_</mo> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mn>1</mn> <mrow> <mi>J</mi> <mo>&times;</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中1_J×1为元素均为1、维数为J×1的向量，计算y_c经过重排之后的

其他所有主元向量均是按照(2)～(12)进行重排；

步骤三：反向重构投影矩阵

当重排完所有k个主元后，重排的结果矩阵Y^PCR为

根据X及Y^PCR，重构出重排之后的投影矩阵为

其中X^#是X的伪逆矩阵，X不是方阵时取其伪逆矩阵。