CN105760896B

CN105760896B - 一种多源异构大数据的腐蚀源联合去噪方法

Info

Publication number: CN105760896B
Application number: CN201610165595.5A
Authority: CN
Inventors: 张磊; 王树鹏; 云晓春
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2016-03-22
Filing date: 2016-03-22
Publication date: 2019-04-16
Anticipated expiration: 2036-03-22
Also published as: CN105760896A

Abstract

本发明涉及一种多源异构大数据的腐蚀源联合去噪方法。该方法包括两个模型，一个为异构线性度量学习(HLML)模型，另一个为多源半监督联合去噪(MSCD)模型。其中，通过学习多个异构线性度量，HLML模型将多源异构数据线性投影到一个高维特征同构空间，并在这个空间中充分嵌入异源间的互补信息，从而可以有效地捕捉到不同来源间的语义互补性和分布相似性。为了消除源内和源间噪声，MSCD模型利用初等变换约束和梯度能量竞争策略，在HLML模型学习到的特征同构空间中修复异构有噪描述间的互补关系，进而净化多源异构数据的腐蚀源，有助于获得准确且鲁棒的多源数据评估分析结果。

Description

一种多源异构大数据的腐蚀源联合去噪方法

技术领域

本发明属于信息技术领域，针对海量多源异构腐蚀数据环境下的源内噪声和源间噪声问题，提出了一种多源异构大数据的腐蚀源联合去噪方法。

背景技术

近年来，随着大量高技术数码产品的出现，由这些异源电子设备产生的多源异构数据(Multi-source Heterogeneous Data)己经遍布到人们现实生活的各个角落。所谓多源异构数据是指来自不同来源或者渠道，但表达的内容相似，以不同形式、不同模态、不同视角和不同背景等多种样式出现的数据。例如，新浪微博、腾讯微信和搜狐网站关于相同的新闻的不同形式的报道；老年痴呆症(Alzheimer)患者的大脑可以由核磁共振(MRI)、正电子成像技术(PET)和X光产生多种不同视角的医学成像；Wikipedia网站上对花豹的描述采用了图片、文本和语音等不同模态的媒介；相同的建筑物白宫可以处在不同的背景之下。

然而，由于人为错误等原因，在现实世界中，某些多源数据受到噪声的腐蚀，并不是现实事物的真实反映。因此，国内外的研究人员提出了一些多源数据的腐蚀源去噪方法，借助辅助源的数据信息，完成主源噪声的消除。

Zhang等人寻求通过联合去除不同来源中的噪声，修复所有的针孔成像图片。他们提出了一种多源图片去噪(Depth-Guided Multi-View Image Denoising，DGMVID)方法，借助于主成分分析(Principal Component Analysis，PCA)思想，利用多源图片间的深度估计(Depth Estimation)去除多源数据中的噪声。Zhang等人发现将多源图片用于噪声去除具有独特的优势：一张图片和其它图片的像素间的对应关系取决于其单一深度图。这一点和视频去噪形成鲜明地对比。在视频去噪中，帧间运动通常具有更大的自由度。Zhang等人正是利用这一点，在多源图片去噪中，寻找相似图片块(Similar Image Patches)。DGMVID方法包含联合多源图片匹配(Joint Multi-View Patch Matching，JMVPM)和联合多源图片去噪(Joint Multi-View Patch Denoising，JMVPD)两个部分。其中，JMVPM借助多源图片间的相关性，使用深度估计度量不同来源的图片中对应像素块的相似度，并根据相似度的大小，将相似图片块分组到一起。而JMVPD为了去除信号相关噪声(Signal-Dependent Noise)，利用PCA和张量分析(Tensor Analysis)，在微光(Low-Light)条件下，消除光子噪声(PhotonNoise)。(参考文献：Li Zhang,Sundeep Vaddadi,Hailin Jin,Shree K.Nayar.Multipleview image denoising.IEEE International Conference on Computer Vision andPattern Recognition 2009:1542-1549.)

在音频去噪中，噪声往往夹杂在背景中，即没有其它可见来源的噪声数据。由于干扰音频来源的噪声多为复合噪声源(例如，背景音乐)，往往不稳定且无法直接观测，所以去除单一来源的音频数据的噪声是相当困难的。针对这一问题，Segev等人提出了一种基于样本的跨来源去噪(Example-based Cross-Modal Denoising，ECMD)方法，通过不同来源间的关联性，借助无噪的视频来源信息，消除有噪的音频来源中的噪声。ECMD方法假设“已经看到且听到的事物，如果能再一次见到该事物，那么就能再一次听清楚它”。根据该假设，ECMD方法利用先验知识的一致性(Consistency with Prior Knowledge)，首先学习跨来源间的相关性。然后，基于学习到的相关性和来自于无噪来源(视频)的无腐蚀训练样本，协助去除音频来源的噪声。例如，任何智能手机都具有麦克风和摄像头。由于无噪的视频数据相对更容易获得，所以若干无噪环境下的视频通话就可以建立一个无腐蚀的样本库。而某些通话是在嘈杂环境下(例如，火车站、酒吧、商场)完成的。于是，便可利用无噪的视频样本集去除音频数据的噪声。(参考文献：Dana Segev,Yoav Y.Schechner,Michael Elad.Example-based cross-modal denoising.IEEE International Conference on Computer Visionand Pattern Recognition 2012:486-493.)

Lee等人提出了一种概率深度诱导多源去噪(Probabilistic Depth-guidedMulti-view Denoising，PDMD)算法。该方法将多源图片去噪问题转化为有噪环境下深度估计中的不确定性问题，利用非局部近邻的几何分布和块相似性，近似深度估计的概率，并基于这些概率平均非局部近邻，完成最小均方差(Minimum Mean Square Error，MMSE)去噪。(参考文献：Chul Lee,Chang-Su Kim,Sang-Uk Lee.Probabilistic depth-guided multi-view image denoising.IEEE International Conference on Image Processing 2013:905-908.)

上述这些方法的缺陷在于，它们都只能用来处理特定来源的噪声(例如，图片或者语音)，而无法解决其它形式的多源数据中的噪声问题。

近来，在机器学习和数据挖掘领域，知识迁移(Knowledge Transfer)技术越来越受到国内外研究人员的青睐。Quanz等人便利用知识迁移技术，提出了一种基于稀疏编码(Sparse Coding)的特征提取(Knowledge Transfer with Low-Quality Data，KTLQD)方法，借助高质量的辅助有标签数据源的信息，预测主源无标签数据的类别，并提高主源低质数据的性能。然而，KTLQD方法的缺陷在于，它无法处理异构数据。(参考文献：Brian Quanz,Jun Huan,Meenakshi Mishra.Knowledge Transfer with Low-Quality Data:AFeatureExtraction Issue.IEEE Transactions on Knowledge and Data Engineering 24(10):1789-1802(2012).)

表1总结了上述多源数据噪声去除方法的不足。

表1.已有的多源数据噪声去除方法的不足

发明内容

在现实情况下，由于不正确的数据处理、人为错误和硬件故障等原因，并不是所有的样本描述都是客观现实的正确反映，从而导致多源异构数据的腐蚀源的存在。这些噪声会极大地降低多源异构数据的性能，进而导致错误的分类、聚类、检索和分析结果。然而，多源异构数据的腐蚀源问题完全不同于单源学习中的噪声数据问题。其原因在于多源数据往往受到两种不同类型的噪声的腐蚀。一种指的是源内噪声，这种噪声会使同源内的异类样本成为近邻。另一种指的是源间噪声，这种噪声会破坏同一对象异源描述间的互补关系。如图1所示，源内噪声的存在导致斑马的图片被错误地和老虎的图片归为一类；而由人为错误造成的源间噪声将白虎的图片和西伯利亚虎的图片匹配到一起。更为严重的是，这些噪声会极大地降低多源异构数据的性能，进而导致错误的分类、聚类、检索和分析结果。因此，在从多源异构数据中提取重要信息或者进一步的数据处理之前，必需同时消除源间和源内噪声以提高多源异构数据的质量，这样才能获得更加准确和鲁棒的评估结果。

如图2所示，多源异构数据处在互补性和分布性约束之下。互补性约束指的是不同来源间的语义互补性，该约束会将不同来源间的互补信息充分包含在多源数据中。不同于互补性约束，分布性约束呈现出高度的分布相似性，此约束会将同一来源内的同类样本聚集到一起。而本发明的具体目的就是针对多源异构数据的腐蚀源问题，提供一种多源异构大数据的腐蚀源联合去噪方法，利用多源异构数据间的语义互补性和分布相似性，基于子空间学习方法，通过对已有的无噪多源异构数据间关联性的挖掘，联合去除多个来源中源内和源间噪声，修复有噪的多源异构数据中异构描述间的互补关系，净化多源异构数据的腐蚀源。

如图3所示，本发明提供了一种多源异构数据的腐蚀源去噪的基本框架。这个框架由两个数学模型组成，一个为异构线性度量学习(Heterogeneous Linear MetricLearning，HLML)模型，另一个为多源半监督联合去噪(Multi-source Semi-supervisedCollaborative Denoising，MSCD)模型。其中，通过学习多个异构线性度量，HLML模型将多源异构数据线性投影到一个高维特征同构空间，并在这个空间中充分嵌入异源间的互补信息，从而可以有效地捕捉到不同来源间的语义互补性和分布相似性。为了消除源内和源间噪声，MSCD模型利用初等变换约束和梯度能量竞争(Gradient Energy Competition，GEC)策略，在HLML模型学习到的特征同构空间中修复异构有噪描述间的互补关系，进而净化多源异构数据的腐蚀源，有助于获得准确且鲁棒的多源数据评估分析结果。

在图3中，多源异构数据由源X和源Y组成。并已有一些无噪的多源异构数据X_N和Y_N。然而某些多源数据X_R和Y_R受到了腐蚀。比如，斑马的异构描述x₉和y₁₀被错误地归到了老虎类中，而共生的多源异构描述间(x₇,y₇),(x₈,y₈),和(x₉,y₉)具有不正确的互补关系。针对多源异构数据的腐蚀源问题，为了消除多源腐蚀数据的源内和源间噪声，提高准确且鲁棒的大数据分类、聚类、检索和分析结果，本发明研究具有多源联合去噪能力的腐蚀源去噪方法。

本发明具体的技术方案为：

1)HLML模型会利用已有的多源无腐蚀数据X_N和Y_N，学习两个异构线性度量A和B，以捕捉异源间的语义互补性和分布相似性，消除异源间的异构性，从而构建出一个高维的特征同构空间。在这个特征同构空间中，来自不同源的相关异构描述被耦合到一起，以挖掘出更多的异源间的互补信息。与此同时，在特征同构空间中，同类样本也被聚集到一起，而异类样本间则保持一定距离。

如图3所示，HLML模型将斑马的异构描述x₆和y₆匹配到一起，以挖掘它们之间的互补信息；同时，老虎的异构共生描述(x₁,y₁),(x₂,y₂),和(x₃,y₃)和斑马的异构共生描述(x₄,y₄),(x₅,y₅),和(x₆,y₆)也被分别聚集到不同的簇里，从而捕捉出异源间的分布相似性。

2)与此同时，MSCD模型利用HLML模型学习到的异源间的分布相似性，将腐蚀数据线性投影到上述高维的特征同构空间中，以消除多源腐蚀数据X_R和Y_R中源内噪声。此外，通过基于梯度能量竞争策略的初等变换约束，MSCD模型修复了多源腐蚀数据的异构描述间的互补关系。MSCD模型里的初等变换约束会根据HLML模型学习到的异源间的语义互补性，交换腐蚀矩阵X_R和Y_R中相应描述的位置，消除源间噪声。

如图3所示，来自源X斑马描述x₉和来自源Y斑马描述y₁₀到其它斑马描述间的距离被拉近，以消除源内噪声；而来自源X的描述x₈和x₉和来自源Y的描述y₇和y₉的位置被分别交换，以匹配恰当的描述，消除源间噪声。在消除源内和源间噪声之后，在特征同构空间中，多源腐蚀数据的异构描述都得以正确的匹配和归类。如图3所示，由HLML+MSCD框架有效地消除了源内和源间噪声，净化了多源异构数据的腐蚀源。

下面进一步说明本发明的具体步骤：

1)异构线性度量学习模型

如图4所示，本发明提供的异构线性度量学习HLML模型利用已有的多源无腐蚀数据和(d_x为来源V_x的维度，d_y为来源V_y的维度，n₁为无腐蚀样本的数量)，学习多个异构线性度量A和B，将异源间的相关异构描述耦合到一起，以捕捉异源间的语义互补性和分布相似性，消除异源间的异构性，从而构建出一个高维的特征同构空间。并使变换后的数据M_U＝X_UA和R_U＝Y_UB携带更多的类间差异信息。

该方法首先定义了一组马氏距离度量：

其中，为来源V_x中的第i个样本，为来源V_y中的第i个样本，M_x＝A^TA和M_Y＝B^TB为两个半正定度量矩阵。其次，HLML方法定义了一个来源中的样本x_i或者y_i与另一来源中的异构样本y_j或者x_j，在特征同构空间中为近邻的概率p_ij或者q_ij：

从而可以得到第i个样本被正确分类的概率p_i或者q_i为：

其中，和分别表示来源V_x和V_y中第t类样本的集合。

基于上述定义，HLML方法的优化模型如下：

其中，k≥min(d_x，d_y)为特征同构子空间的维度，α和β为平衡参数。HLML方法利用半正定约束A^TA≥0和B^TB≥0确保模型Ψ₁能够学习到多个良好定义的伪度量，目标函数中的第一项用来捕捉不同来源间的语义互补性，而通过在模型Ψ₁中引入由不同来源的分类准确率构成的交叉验证(leave-one-out validation)g(A,B)：

g(A,B)＝∑p_i+∑q_i (8)

以挖掘不同来源间的分布相似性。此外，目标函数中的第三项h(A,B)：

h(A,B)＝||X_UA||_*+||Y_UB||_* (9)

为基于迹范数的低秩正规化项，用以使变换后的数据M_U＝X_UA和R_U＝Y_UB携带更多的类间差异信息。

值得注意的是，HLML方法可以将多源异构数据线性投影到一个任意维度的高维空间中，即k≥max(d_x,d_y)。这一点是非常不同于著名的非线性高维投影方法核典型相关分析方法(参考文献：David R.Hardoon,Sándor Szedmák,John Shawe-Taylor.CanonicalCorrelation Analysis:An Overview with Application to Learning Methods.NeuralComputation 16(12):2639-2664(2004))和深度典型相关分析(参考文献：Galen Andrew,Raman Arora,Jeff A.Bilmes,Karen Livescu.Deep Canonical CorrelationAnalysis.ACM International Conference on Machine Learning(3)2013:1247-1255.)方法的。

2)梯度能量竞争策略

在由梯度下降方法得来的梯度矩阵G中，每个内部元素G_i,j都和四个近邻G_i-1,j，G_i+1,j，G_i,j-1，和G_i,j+1关联。本发明提供的梯度能量竞争策略基于范数的梯度幅值能量，定义每个内部元素G_ij在垂直方向的样本间能量(between-sample energy)E_bs为：

而样本内能量(within-sample energy)E_ws为：

通过E_bs和E_ws，就可以得到每个内部元素G_ij的全局能量(global energy)E_globe：

E_globe＝δ*E_bs+(1-δ)E_ws (12)

其中，δ为平衡参数。利用公式(12)可以计算出矩阵G中每个元素的全局能量，进而得到能量矩阵E。如图5所示，本发明提供的梯度能量竞争策略通过比较矩阵E中每个元素的能量，将获胜者(能量最大者)的值设置为1，而与获胜者同行同列的元素的值都被设置为0，如此往复，直到构建出一个标准的初等变换矩阵T。

3)多源半监督联合去噪模型

如图6所示，本发明提供的多源半监督联合去噪模型MSCD，首先利用有标签的无腐蚀线性可分描述M_U和R_U学习一个决策矩阵W。然后，根据本发明提供的梯度能量竞争策略，学习初等行变换矩阵T和H，其中T为针对来源V_x中腐蚀数据的n₂×n₂阶的初等行变换矩阵，H为针对来源V_y中腐蚀数据的n₂×n₂阶的初等行变换矩阵，以交换腐蚀矩阵M_C＝X_CA^*和R_C＝Y_CB^*中样本的位置(A^*和B^*为HLML方法得到的最优解，和分别为来源V_x和V_y中的无标签腐蚀数据，n₂为腐蚀样本的数量)。同时，利用学习到的决策矩阵W，预测无标签腐蚀描述M_C和R_C的类别，从而修复多源腐蚀数据间的互补关系。

MSCD方法的优化模型如下：

其中，和为初等行变换矩阵，为决策矩阵，为X_U和Y_U的标签矩阵，m为标签数量，为一组初等行变换矩阵的集合，γ和τ为平衡参数。在模型Ω₁中，目标函数中的第一项利用学习到的T，H，和W，修复多源腐蚀数据间的互补关系。目标函数中的第二项为一个线性最小二乘方损失函数，利用有标签的无腐蚀线性可分描述M_U和R_U学习一个决策矩阵W。而对W的正交约束，可以有效去除不同类别之间的相关性。此外，约束条件中的第一项为对T和H的初等变换约束，以构建标准的初等变换矩阵，交换腐蚀矩阵M_C和R_C中样本的位置。从而，消除多源腐蚀数据中的源间和源内噪声，提高多源异构数据的质量。

与现有技术相比，本发明的有益效果如下：

针对于多源腐蚀数据中存在的源内和源间噪声，本发明提供了一种多源异构数据腐蚀源联合去噪的框架。该框架首先包含一种带有低秩(Low-rank)正规化项和伪度量(Pseudo-metric)约束的HLML模型，学习多个异构线性度量，从而可以有效地捕捉到不同来源间的语义互补性和分布相似性，度量异构描述间的相关性，进而消除异源间的特征异构性。并创新性地提出了一种梯度能量竞争策略，利用能量矩阵中不同元素间能量大小的对比，构建初等变换约束，协助框架中的MSCD模型在HLML模型学习到的特征同构空间中修复异构有噪描述间的互补关系，消除源内和源间噪声，进而净化多源异构数据的腐蚀源。

附图说明

图1为多源异构数据的源间噪声和源内噪声的示例说明，其中(a)为多源异构数据的源间噪声，(b)为单源数据的源内噪声。

图2为多源异构数据间的互补性和分布性约束的示例说明。

图3为多源异构数据的腐蚀源去噪框架的示例说明。

图4为异构线性度量学习模型的示例说明。

图5为梯度能量竞争策略的示例说明。

图6为多源半监督联合去噪模型的示例说明。

具体实施方式

下面通过具体实施例，对本发明做进一步说明。

本发明提供的多源异构大数据的腐蚀源联合去噪方法，由异构线性度量学习HLML和多源半监督联合去噪MSCD算法组成，通过循环迭代过程实现模型的逐步优化。

在公式(7)中的HLML模型可以简化为：

其中，为平滑目标函数，Z＝[A_Z B_Z]代表优化变量，为封闭且针对单个变量的凸集：

由于D(·)是关于Lipschitz连续梯度L的连续可微函数(参考文献：Y.Nesterov.Introductory lectures on convex optimization,volume 87.SpringerScience&Business Media,2004.)：

。因此，适合利用加速投影梯度(Accelerated Projected Gradient，APG)算法(参考文献：Y.Nesterov.Introductory lectures on convex optimization,volume87.Springer Science&Business Media,2004.)求解公式(14)中的问题。

APG算法为一阶梯度算法，该方法在最小化目标函数过程中，会在可执行解(feasible solution)上加速每个梯度步，以获取最优解。在求解过程中，APG方法会构建一个解点序列{Z_i}和一个搜索点序列{S_i}，在每次迭代中利用S_i更新Z_i。而每个给定点s在凸集上的欧几里德投影为：

Weinberger等人提出的半正定投影(Positive Semi-definite Projection，PSP)方法(参考文献：Kilian Q.Weinberger,Lawrence K.Saul.Distance Metric Learningfor Large Margin Nearest Neighbor Classification.Journal of Machine LearningResearch 10:207-244(2009).)可以在保持半正定约束的情况下，最小化目标函数。由此，便可利用PSP求解公式(17)中的问题。算法1给出了PSP算法的细节。

而当利用APG算法求解公式(14)中的问题时，给定点S＝[A_S B_S]在凸集上的欧几里德投影Z＝[A_Z B_Z]为：

通过结合APG和PSP算法，便可求解公式(18)中的问题。算法2给出了本发明提供的HLML算法的具体细节。

在公式(13)中的MSCD模型可以简化为：

其中，为平滑目标函数，Z＝[T_Z H_Z W_Z]代表优化变量，Q为封闭且针对单个变量的凸集：

由于Q(·)是关于公式(16)中的Lipschitz连续梯度L连续可微的。所以，同样可以利用APG求解公式(19)中的问题。而每个给定点s在凸集Q上的欧几里德投影为：

为了求解公式(21)中的问题，根据本发明提供的GEC策略，本发明提供的Energy(·)和Competition(·)函数，可以在保持初等变换约束的情况下，最小化目标函数。算法3给出了Energy(·)函数的具体细节，此函数根据公式(10,11,12)计算由梯度下降算法得到的梯度矩阵G中每个元素的全局能量，进而获得能量矩阵E。此外，本发明提供的Competition(·)函数，

根据算法3产生的能量矩阵E，创建一个标准的初等变换矩阵。算法4给出了Competition(·)函数的具体细节。

与此同时，可以利用Wen等人提出的梯度下降曲线搜索(Gradient DescentMethod with Curvilinear Search，GDMCS)算法(参考文献：Zaiwen Wen and Wotao Yin.Afeasible method for optimization with orthogonalityconstraints.Math.Program.142(1-2):397-434(2013).)，在最小化目标函数过程中保持公式(21)中的正交约束。算法5给出了GDMCS算法的细节。通过结合APG，Energy，Competition，和GDMCS算法，便可求解公式(21)中的问题。算法6给出了MSCD方法的具体细节，其中函数Schmidt(·)表示Gram-Schmidt正交化。

本发明提供的多源异构大数据的腐蚀源联合去噪HLML+MSCD框架，针对多源异构数据的腐蚀源问题，利用多源异构数据间的语义互补性和分布相似性，基于子空间学习方法，通过对已有的无噪多源异构数据间关联性的挖掘，联合去除多个来源中源内和源间噪声，修复有噪的多源异构数据中异构描述间的互补关系，净化多源异构数据的腐蚀源。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种多源异构大数据的腐蚀源联合去噪方法，其步骤包括：

1)通过学习多个异构线性度量，将多源异构数据线性投影到一个高维特征同构空间，并在这个空间中充分嵌入异源间的互补信息，以有效地捕捉到不同来源间的语义互补性和分布相似性；

2)利用异源间的分布相似性，将腐蚀数据线性投影到所述高维特征同构空间中，以消除多源腐蚀数据中的源内噪声，并通过基于梯度能量竞争策略的初等变换约束，修复多源腐蚀数据的异构描述间的互补关系；所述初等变换约束根据异源间的语义互补性，交换腐蚀矩阵中相应描述的位置，以消除多源腐蚀数据中的源间噪声；

所述步骤1)对不同来源间的语义互补性和分布相似性建立如下优化模型：

该优化模型利用已有的多源无腐蚀数据和学习异构线性度量A和B，其中，d_x为来源V_x的维度，d_y为来源V_y的维度，n₁为无腐蚀样本的数量，k≥min(d_x,d_y)为特征同构子空间的维度，α和β为平衡参数；利用半正定约束A^TA≥0和B^TB≥0确保模型Ψ₁能够学习到多个良好定义的伪度量，目标函数中的第一项用来捕捉不同来源间的语义互补性，而通过在模型Ψ₁中引入由不同来源的分类准确率构成的交叉验证g(A,B)以挖掘不同来源间的分布相似性；目标函数中的第三项h(A,B)为基于迹范数的低秩正规化项，用以使变换后的数据M_U＝X_UA和R_U＝Y_UB携带更多的类间差异信息；

所述步骤2)建立如下优化模型：

其中，和为初等行变换矩阵，为决策矩阵，为X_U和Y_U的标签矩阵，m为标签数量，为一组初等行变换矩阵的集合，γ和τ为平衡参数；在模型Ω₁中，目标函数中的第一项利用学习到的T、H和W，修复多源腐蚀数据间的互补关系；目标函数中的第二项为一个线性最小二乘方损失函数，利用有标签的无腐蚀线性可分描述M_U和R_U学习一个决策矩阵W，而对W的正交约束，可以有效去除不同类别之间的相关性；约束条件中的第一项为对T和H的初等变换约束，以构建标准的初等变换矩阵，交换腐蚀矩阵M_C和R_C中样本的位置，从而，消除多源腐蚀数据中的源间和源内噪声。

2.如权利要求1所述的方法，其特征在于：步骤1)在所述高维特征同构空间中，将来自不同源的相关异构描述耦合到一起，以挖掘出更多的异源间的互补信息，并且同类样本也被聚集到一起，而异类样本间则保持一定距离。

3.如权利要求2所述的方法，其特征在于：步骤2)所述梯度能量竞争策略首先由梯度下降方法得到梯度矩阵G，然后计算梯度矩阵的每个内部元素G_ij在垂直方向的样本间能量E_bs和水平方向的样本内能量E_ws，从而得到每个内部元素G_ij的全局能量E_globe：通过计算出矩阵G中每个元素的全局能量得到能量矩阵E；所述梯度能量竞争策略通过比较矩阵E中每个元素的能量，将获胜者即能量最大者的值设置为1，而与获胜者同行同列的元素的值都被设置为0，如此往复，直到构建出一个标准的初等变换矩阵T。

4.如权利要求3所述的方法，其特征在于：步骤2)利用有标签的无腐蚀线性可分描述M_U和R_U学习一个决策矩阵W，然后根据所述梯度能量竞争策略学习初等行变换矩阵T和H，以交换腐蚀矩阵M_C＝X_CA^*和R_C＝Y_CB^*中样本的位置，其中A^*和B^*为步骤1)得到的最优解，和分别为来源V_x和V_y中的无标签腐蚀数据，n₂为腐蚀样本的数量；同时，利用学习到的决策矩阵W预测无标签腐蚀描述M_C和R_C的类别，从而修复多源腐蚀数据间的互补关系。