CN105893610A

CN105893610A - 一种多源异构大数据的缺失源补全方法

Info

Publication number: CN105893610A
Application number: CN201610265744.5A
Authority: CN
Inventors: 张磊; 王树鹏; 云晓春
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2016-08-24

Abstract

本发明公开了一种多源异构大数据的缺失源补全方法。本方法针对多源异构数据的缺失源问题，利用多源异构数据间的语义互补性和分布相似性，基于子空间学习方法，通过对完整的多源异构数据的语义互补性和分布相似性的挖掘，获得一个不同来源间的特征同构的语义共享子空间，从而在这个特征同构空间中，利用学习到的语义互补性和分布相似性，补全多源异构数据的缺失来源。本方法中，假设不同的来源都服从正态分布，那么缺失源的数据矩阵可以塑造为低秩(捕捉类间差异，代表期望)加稀疏(捕捉类内差异，代表方差)两个成分的和。由此，利用异源间的语义互补性和等同分布补全多源异构数据的缺失描述。

Description

一种多源异构大数据的缺失源补全方法

技术领域

本发明属于信息技术领域，针对海量多源异构数据环境下的缺失源问题，提出了一种多源异构大数据的缺失源补全方法。

背景技术

近年来，随着大量高技术数码产品的出现，由这些异源电子设备产生的多源异构数据(Multi-source Heterogeneous Data)己经遍布到人们现实生活的各个角落。所谓多源异构数据是指来自不同来源或者渠道，但表达的内容相似，以不同形式、不同来源、不同视角和不同背景等多种样式出现的数据。例如，新浪微博、腾讯微信和搜狐网站关于相同的新闻的不同形式的报道；老年痴呆症(Alzheimer)患者的大脑可以由核磁共振(MRI)、正电子成像技术(PET)和X光产生多种不同视角的医学成像；Wikipedia网站上对花豹的描述采用了图片、文本和语音等不同来源的媒介；相同的建筑物白宫可以处在不同的背景之下。

然而，在现实情况下，由于高数据采集代价，不真实性和拒绝反馈等原因，多源异构数据的多个来源并非都可得而是仅具有一个来源的描述。因此，国内外的研究人员提出了一些多源数据的矩阵补全方法。目前该类方法大致可分为四类：一类是基于欧氏距离的方法，其次是基于矩阵分解的方法，再者是基于选择填补的方法，最后是基于特征选择的方法。

基于样本间的欧氏距离，K-最近邻(K-Nearest Neighbor，KNN)算法通过近邻样本的均值填补缺失值。尽管这种方法具有简单易行的特点，但若样本中存在噪声，就会大大降低矩阵补全的效果。(参考文献：Thomas M.Cover,Peter E.Hart.Nearest NeighborPattern Classification.IEEE Transactions on Information Theory 13(1):21-27(1967).)

奇异值分解(Singular Value Decomposition，SVD)是一种基于低秩逼近的补全方法。该方法首先将缺失值初始为0，然后对填补矩阵进行奇异值分解，接着利用低秩矩阵中的对应值更新缺失值，直至收敛。然而，如果存在大量缺失值，SVD则无法对填补矩阵进行奇异值分解。(参考文献：Gene H.Golub,Charles F.Van Loan.Matrix Computations(3.ed.).Johns Hopkins University Press 2012.)

Muslea等人通过实验已经验证高效而鲁棒的多源学习方法需要将主动(Active)学习和半监督学习相结合。(参考文献：Ion Muslea,Steven Minton,CraigA.Knoblock.Active+Semi-supervised Learning＝Robust Multi-view Learning.ACMInternational Conference on Machine Learning 2002:435-442.)Qian等人正是根据这一点，提出了一种半监督的多源数据缺失标签填补(Semi-Supervised DimensionReduction for Multi-label and Multi-view Learning，SSDR-MML)方法，利用异源数据间的相关性，填补大量无标签数据的缺失标签。SSDR-MML方法的不足之处在于，它只能填补缺失的标签，对于多源异构数据的缺失描述却无能为力。(参考文献：Buyue Qian,XiangWang,Jieping Ye,Ian Davidson.A Reconstruction Error Based Framework forMulti-Label and Multi-view Learning.IEEE Transactions on Knowledge and DataEngineering 27(3):594-607(2015).)

Xiang等人提出了一种能够处理多源逐块(Block-Wise)缺失数据的特征选择(incomplete Source-Feature Selection，iSFS)方法。其基本思想为：首先，针对每个来源学习一个单独的分类器β_k(k＝1,2,…,m，m为来源的数量)；然后，通过额外的正规化项，将所有模型整合到一起。为了能够处理多源逐块缺失数据，iSFS方法根据不同来源的缺失情况，将全部数据分成不同的组。在每个分组内，都包含完整的和存在缺失来源的多源数据。不同分组之间不是完全独立的，同一完整的多源数据可以被包含在不同的分组里。iSFS方法的优点在于，能够在多源数据出现逐块缺失的情况下，不必对缺失元素进行插值填补，就可完成多源分析和特征选择。然而，它却无法补全缺失的数据。(参考文献：Shuo Xiang,LeiYuan,Wei Fan,Yalin Wang,Paul M.Thompson,Jieping Ye.Multi-source Learning withBlock-wise Missing Data for Alzheimer's Disease Prediction.ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining 2013:185-193.)

表1总结了上述多源数据缺失补全方法的不足。

表1.已有的多源数据缺失补全方法的不足

发明内容

本发明的目的：

在现实情况下，由于高数据采集代价，不真实性和拒绝反馈等原因，多源异构数据的多个来源并非都可得而是仅具有一个来源的描述。这种现象导致缺失来源的存在，其中缺失来源数据完全缺失其它来源的描述。这个问题完全不同于单源环境下的不完整数据的情况。单源不完整数据指的是在单源数据中某些变量的值是缺失的。如图1所示，在阿尔茨海默病神经影像(Alzheimer’s Disease Neuroimaging Initiative)数据库中，许多数据只有磁共振成象(Magnetic Resonance Imaging，MRI)度量，而没有正电子放射断层(Positron Emmission Tomography，PET)扫描图像。在图1的(a)图中椭圆空心虚线框表示多源异构数据的缺失来源，而在图1的(b)图中小六边形空心实线框表示单源环境下的不完整数据中的缺失值。

因此，传统的单源不完整数据的补全方法完全不适用于多源异构数据的缺失来源补全。此外，多源数据的每个来源都包含了一些相关互补信息，这些信息对于提高大数据分类、聚类、检索和分析的性能都是不可或缺十分必要的。然而，缺失来源数据通常都被直接丢弃，这就会导致可使用的数据资源的严重缺失，进而严重削弱了各种大数据应用的性能。由此，迫切需要提出一种有效的多源异构数据缺失来源补全方法，补全缺失的来源，弥补数据资源的严重缺失，以促进多源异构数据的高效利用。而通过利用异源间的语义互补性和分布相似性，补全多源异构数据的缺失来源正是本发明的特色之一。

如图2所示，多源异构数据处在互补性和分布性约束之下。互补性约束指的是不同来源间的语义互补性，该约束会将不同来源间的互补信息充分包含在多源数据中。不同于互补性约束，分布性约束呈现出高度的分布相似性，此约束会将同一来源内的同类样本聚集到一起。而本发明的具体目的就是针对多源异构数据的缺失源问题，提供一种多源异构大数据的缺失源补全方法，利用多源异构数据间的语义互补性和等同分布，基于子空间学习方法，通过对已有的无缺失多源异构数据间关联性的挖掘，补全缺失的来源，提供更多的数据资源，增强大数据应用的性能。

本发明的技术方案：

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图3所示，本发明提供了一种多源异构数据的缺失源补全的基本框架。这个框架由两个数学模型组成，一个为同构线性相关分析(Isomorphic Linear CorrelationAnalysis，ILCA)模型，另一个为等同分布约束补全(Identical Distribution PursuitCompletion，IDPC)模型。其中，旨在捕捉异源间的语义互补性和等同分布，ILCA模型将多源异构数据线性投影到一个特征同构空间，以此揭示出异源间的共享信息。与此同时，假设不同的来源都服从正态分布，那么缺失源的数据矩阵可以塑造为低秩(捕捉类间差异，代表期望)加稀疏(捕捉类内差异，代表方差)两个成分的和。由此，为了补全缺失的来源，IDPC模型在由ILCA模型学习到的特征同构空间中，利用异源间的语义互补性和等同分布，补全多源异构数据的缺失描述，进而可以获得更多的多源异构数据，提高学习器的泛化能力。

在图3中，一组多源异构数据由MRI和PET两种异源描述组成，并已有一些无缺失的多源异构数据X_E和Y_E。然而某些多源数据X_M存在缺失源。例如，实例x₅,x₆,x₇,和x₈完全缺失MRI源的描述。针对多源异构数据的缺失源问题，为了恢复多源异构数据的缺失描述，获取更多的多源异构数据，提高学习器的泛化能力，本发明将提供具有多源补全能力的缺失源补全算法。

具体的技术方案为：

1)ILCA模型首先学习到一个特征同构空间。在这个空间中使用相同的维度和相同的属性描述相同的语义概念，以此桥接多个异构的底层特征空间。为了能够充分捕捉到异源间的语义互补性和等同分布，ILCA模型会利用已有的无缺失异构描述X_E和Y_E，学习多个异构的线性变换A和B，从而消除不同来源间的异构性，由此得到一个特征同构空间。在这个空间中，来自不同来源的异构相关描述被耦合到一起，以此捕捉异源异构描述间的共享信息，进而在不同的类别间形成大边缘。

例如，图3中类1和类2的大边缘。由此便可在这个特征同构空间中，直接度量多源异构数据间的相关性。如图3所示，线性变换A和B将异构共生描述x₂和y₂线性投影到这个特征同构空间，以消除它们之间的异构性。此外，在这个特征同构空间中，ILCA模型还将同类样本聚集到一起，而异类样本间则保持一定距离。例如，在这个特征同构空间中，异构共生描述(x₁,y₁)和(x₃,y₃)呈现出很高的分布相似性。

2)进一步假设多源异构数据的缺失源服从正态分布。那么，缺失描述的期望自然对应于类间差异，而缺失样本的方差代表类内差异。为了恢复多源异构数据的缺失源，IDPC模型利用秩(rank)捕捉类间差异，同时使用稀疏性(sparsity)挖掘类内差异。由此，缺失描述的数据矩阵X_M便由低秩矩阵L_M和稀疏矩阵S_M的和构成。根据这个补全假设，IDPC模型利用ILCA模型学习到的语义互补性和等同分布，补全多源异构数据的缺失源。此外，在补全过程中，一些噪声信息不可避免地被包含在了恢复的缺失源中。这些因素会严重影响恢复描述的性能。为了能够有效地去除这些噪声，在IDPC模型中引入了一个由均值矩阵诱导的数据分布约束。这个约束会将恢复的描述推进到以同类样本的均值为中心的边缘内。而矩阵H的第i行为已有的无缺失矩阵Y_E中和第i个缺失描述类别相同的同类样本的均值。

在图3中，由于y₁和y₃都属于类1，所以y₁和y₃的均值构成h₁。与此同时，在特征同构空间中，来自缺失源MRI的恢复描述x₅和x₇被推进到以PET源中同类样本的均值h₁为中心的边缘中，并分别和对应的异构描述y₅和y₇耦合到一起。如图3所示，由ILCA+IDPC框架不仅完成了缺失源的补全，而且使恢复的缺失描述在学习到的特征同构空间中更可能是线性可分的。

下面进一步说明本发明的主要内容：

1)同构线性相关分析模型

本发明提供的同构线性相关分析ILCA模型，利用已有的多源无缺失数据学习多个异构线性变换，比如利用两个源的无缺失数据和(d_x为来源V_x的维度，d_y为来源V_y的维度，n₁为无缺失样本的数量)，学习两个异构线性变换A和B，从而将异源间的相关异构描述耦合到一起，以捕捉异源间的语义互补性和等同分布，消除异源间的异构性，从而构建出一个低维的特征同构空间。

该方法首先设和分别是来源V_x和V_y中同类样本对的集合，和分别是来源V_x和V_y中异类样本对的集合，J和R分别是来源V_x和V_y中的散度矩阵。那么可以将类内散度矩阵J_S和R_S定义为如下形式：

与此同时，类间散度矩阵J_D和R_D被定义为如下形式：

基于上述定义，ILCA方法的优化模型如下：

其中，k∈{1,…,min(d_x,d_y)}为同构空间的维度，是类间惩罚(即拉大异类样本间的距离)，是类内紧缩(即缩减同类样本间的距离)，而α和β是平衡参数。在公式(5)中，引入正交约束的目的就是有效地去除同一来源内不同特征间的相关性。此外，利用类内紧缩和类间惩罚构成的大边缘策略学习不同来源间的等同分布。

值得注意的是，ILCA方法可以将多源异构数据线性投影到一个低维空间中。这一点是非常不同于著名的非线性投影方法核典型相关分析方法(参考文献：DavidR.Hardoon,Sándor Szedmák,John Shawe-Taylor.Canonical Correlation Analysis:AnOverview with Application to Learning Methods.Neural Computation 16(12):2639-2664(2004))和深度典型相关分析(参考文献：Galen Andrew,Raman Arora,JeffA.Bilmes,Karen Livescu.Deep Canonical Correlation Analysis.ACM InternationalConference on Machine Learning(3)2013:1247-1255.)方法的。

2)等同分布约束补全模型

如图4所示，本发明提供的等同分布约束补全模型IDPC假设数据矩阵(n₂为多源缺失样本的数量)是来源V_x的一组缺失描述，而数据矩阵对应于缺失描述X_M的来自于来源V_y的一组已经存在的异构描述。缺失源的数据矩阵X_M可以塑造为低秩L_M(捕捉类间差异，代表期望)加稀疏S_M(捕捉类内差异，代表方差)两个成分的和。由此，为了补全缺失的来源，IDPC模型在由ILCA模型学习到的特征同构空间中，利用ILCA模型捕捉到的异源间的语义互补性和等同分布，补全多源异构数据的缺失描述。

假设A^*和B^*为公式(5)中ILCA模型的最优解，IDPC方法的优化模型如下：

Ω_{1} : \begin{matrix} \min_{L_{M}, S_{M}} & | | (L_{M} + S_{M}) A^{*} - Y_{M} B^{*} | |_{F}^{2} + γ | | S_{M} | |_{1} \\ s . t . & \begin{matrix} | | (L_{M} + S_{M}) A^{*} - {HB}^{*} | |_{F}^{2} \leq π & a n d & | | L_{M} | |_{*} \leq ϵ \end{matrix} \end{matrix} - - - (6)

其中，L_M和S_M分别表示缺失来源描述的类间和类内差异，γ为平衡因子，π为距离度量参数，而ε为预先指定的正参数以控制恢复的缺失来源描述携带的信息量。矩阵构建了一个数据分布约束，使得恢复的缺失来源描述L_M+S_M＝X_M拥有和来源V_y中已存在的描述Y_E相同的分布，以此最大程度地消除噪声。假设是Y_M中第i个样本在Y_E中的最近邻。在矩阵H中每一行向量由已存在的样本Y_E中和X_M中第i个实例同类样本的均值组成。和分别是来自来源V_x和V_y的第t个类的样本集。定义如下三式：

D^{i} = \cup_{t} D_{t} - - - (8)

h_i＝mean(Dⁱ) (9)

其中，Dⁱ是Y_E中和X_M中第i个实例同类样本的集合。

此外，在公式(6)中引入迹范数约束的目的就是在特征同构空间中捕捉更多的缺失来源描述X_M的类间差异。而范数正规化项控制恢复的缺失来源描述X_M的稀疏度以此挖掘足够的类内差异。

因此，本质上，由于充分考虑了不同来源间的语义互补性和等同分布，提出的IDPC模型不同于现有的矩阵补全方法。

需要注意的是，直接求解公式(6)中的问题Ω₁不是一件容易的事情，其原因有两点。首先，很难找到满足数据分布约束的最优解。其次，迹范数约束是不平滑，这就使得寻找模型的最优解更加困难。然而，可以使用拉格朗日对偶法增广目标函数。具体方法为将数据分布约束的加权和添加到目标函数中。由此可得如下可求解的凸优化问题Ω₂：

Ω_{2} : \begin{matrix} \min_{L_{M}, S_{M}} & \begin{matrix} | | (L_{M} + S_{M}) A^{*} - Y_{M} B^{*} | |_{F}^{2} + γ | | S_{M} | |_{1} + \\ η (| | (L_{M} + S_{M}) A^{*} - {HB}^{*} | |_{F}^{2} - π) \end{matrix} \\ s . t . & | | L_{M} | |_{*} \leq ϵ \end{matrix} - - - (10)

其中，η为平衡因子。

本发明的有益效果：

针对于多源缺失数据中存在的缺失源问题，本发明提供了一种特征层面的多源异构数据缺失源补全的框架。该框架首先针对于异源间存在的特征异构性，设计了一种线性投影法ILCA，通过学习一个特征同构空间，桥接异构的底层特征空间，并捕捉到异源间的语义互补性和等同分布。此外，根据不同的来源都服从正态分布的假设，将缺失源的数据矩阵塑造为低秩加稀疏两个成分的和。同时，创新性地提出了一种基于数据分布约束的缺失源补全模型IDPC，利用ILCA模型学习到的异源间的语义互补性和等同分布，补全多源异构数据的缺失描述，获取更多的多源异构数据，提高学习器的泛化能力。

附图说明

图1为多源异构数据的缺失来源和单源不完整数据示意图。

图2为多源异构数据间的互补性和分布性约束示意图。

图3为多源异构数据的缺失源补全框架示意图。

图4为多源异构数据缺失源的构成示意图。

具体实施方式

下面通过具体实施例，对本发明做进一步说明。

本发明提供的多源异构大数据的缺失源补全方法，由同构线性相关分析ILCA和等同分布约束补全IDPC算法组成，通过循环迭代过程实现模型的逐步优化。

为了符号的简单表示，在公式(5)中的ILCA模型可以表示为：

其中，是平滑的目标函数，Z＝[A_Z B_Z]象征优化变量，而为封闭的凸集，其定义为：

由于f(·)是连续可微函数且带有Lipschitz连续梯度L(参考文献：Y.Nesterov.Introductory lectures on convex optimization,volume 87.SpringerScience&Business Media,2004.)：

所以，很适合采用加速近似梯度(Accelerated Proximal Gradient，APxG)(参考文献：[1]Yurii Nesterov.Introductory Lectures on Convex Programming.KluwerAcademic Publishers,2004.[2]Shuiwang Ji,Jieping Ye.An Accelerated GradientMethod for Trace Norm Minimization.Proc.ACM.International Conference onMachine Learning,2009,pp.457-464.)算法求解公式(11)中的问题。

需要注意的是，在APxG算法中，可以使用基于曲线搜索的梯度下降(GradientDescent Method with Curvilinear Search，GDMCS)算法(参考文献：Zaiwen Wen,WotaoYin.A Feasible Method for Optimization with OrthogonalityConstraints.Elsevier.Pattern recognition,2013,142(1-2):397-434.)保持满足约束条件的给定点p的正交性。算法1给出了GDMCS算法的具体细节。

通过将APxG和算法1相结合，就可以求解公式(5)中的问题。算法2给出了求解公式(5)中问题的具体细节，其中Schmidt(·)表示Gram-Schmidt正交化(参考文献：CarlD.Meyer.Matrix Analysis and Applied Linear Algebra.SIAM Publishers,2000.)。

在公式(6)中的IDPC模型可以简化为：

其中，是一个平滑的目标函数，g(·)＝‖·‖₁是一个不可微函数，Θ＝[L_Θ S_Θ]象征性地表示优化变量，而为如下形式的封闭的凸集：

由于公式(14)中的w(·)是连续可微函数且带有Lipschitz连续梯度L(参考文献：Y.Nesterov.Introductory lectures on convex optimization,volume 87.SpringerScience&Business Media,2004.)，所以很适合采用加速投影梯度(AcceleratedProjected Gradient，APjG)(参考文献：Y.Nesterov.Introductory lectures on convexoptimization,volume 87.Springer Science&Business Media,2004.)算法求解公式(14)中的问题。

需要注意的是，在APjG算法中，一个给定点p在凸集上的欧几里德投影可以定义为：

其中，m是预先指定的正常数。那么，可以使用在迹范数约束上的有效投影(Efficient Projection on Trace Norm Constraints，EPTNC)算法(参考文献：JohnDuchi,Shai Shalev-Shwartz,Yoram Singer,Tushar Chandra.Efficient Projectionsonto thefor Learning in High Dimensions.Proc.International Conferenceon Machine Learning,2008,pp.272-279.)求解等式(16)。算法3给出了EPTNC算法的具体细节。

与此同时，在APjG算法中，通过不可微函数g(·)构建的无约束优化问题为：

θ_{*} = \arg \underset{θ}{m i n} μ | | θ | |_{1} + ρ | | θ - s | |_{F}^{2} - - - (17)

其中，μ和ρ是两个预先指定的正参数。可以使用软门限算子(Soft-ThresholdingOperator，STO)算法(参考文献：Jian-Feng Cai,Emmanuel J.Candès,Zuowei Shen.ASingular Value Thresholding Algorithm for Matrix Completion.SIAM.Journal onOptimization,2010,20(4):1956-1982.)求解等式(17)。STO算法的具体细节见算法4。

当应用APjG算法求解公式(14)中的问题时，一个给定点P＝[L_P S_P]在集合上的欧几里德投影Θ＝[A_Θ B_Θ]可以定义为：

{proj}_{Q} (P) = \arg \underset{Θ &Element; Q}{m i n} | | Θ - P | |_{F}^{2} / 2 - - - (18)

通过结合APjG算法，算法3和算法4，就可以求解公式(14)中的问题。算法5给出了IDPC算法的具体细节。

本发明提供的多源异构大数据的缺失源补全ILCA+IDPC框架，针对多源异构数据的缺失源问题，利用多源异构数据间的语义互补性和分布相似性，基于子空间学习方法，通过对已有的无缺失多源异构数据间关联性的挖掘，补全多源异构数据的缺失描述，从而获取更多的多源异构数据，提高学习器的泛化能力。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种多源异构大数据的缺失源补全方法，其步骤包括：

1)利用已有的无缺失异构描述，学习多个异构的线性变换，将多源异构数据线性投影到一个特征同构空间；在所述特征同构空间中，将来自不同来源的异构相关描述耦合到一起，以捕捉异源间的语义互补性和等同分布，消除异源间的异构性；

2)在所述特征同构空间中，利用异源间的语义互补性和等同分布，补全多源异构数据的缺失描述。

2.如权利要求1所述的方法，其特征在于：步骤1)利用已有的多源无缺失数据和学习多个异构线性变换A和B，其中d_x为来源V_x的维度，d_y为来源V_y的维度，n₁为无缺失样本的数量；并建立如下的优化模型：

其中，k∈{1，…，min(d_x，d_y)}为同构空间的维度，J_S和R_S为类内散度矩阵，J_D和R_D为类间散度矩阵，是类间惩罚，是类内紧缩，而α和β是平衡参数。

3.如权利要求2所述的方法，其特征在于，步骤2)中，设数据矩阵是来源V_x的一组缺失描述，其中n₂为多源缺失样本的数量，设数据矩阵对应于缺失描述X_M的来自于来源V_y的一组已经存在的异构描述，然后将缺失源的数据矩阵X_M塑造为低秩矩阵L_M加稀疏矩阵S_M两个成分的和；然后建立如下优化模型：

Ω_{1} : \begin{matrix} \min_{L_{M}, S_{M}} & | | (L_{M} + S_{M}) A^{*} - Y_{M} B^{*} | |_{F}^{2} + γ | | S_{M} | |_{1} \\ s . t . & \begin{matrix} | | (L_{M} + S_{M}) A^{*} - {HB}^{*} | |_{F}^{2} \leq π & a n d & | | L_{M} | |_{*} \leq ϵ \end{matrix} \end{matrix},

其中，A^*和B^*为步骤1)得到的最优解，L_M和S_M分别表示缺失来源描述的类间和类内差异，γ为平衡因子，π为距离度量参数，而ε为预先指定的正参数以控制恢复的缺失来源描述携带的信息量；矩阵构建了一个数据分布约束，使得恢复的缺失来源描述L_M+S_M＝X_M拥有和来源V_y中已存在的描述Y_E相同的分布，以此最大程度地消除噪声。

4.如权利要求3所述的方法，其特征在于，使用拉格朗日对偶法增广目标函数，以求解Ω₁，具体方法为将数据分布约束的加权和添加到目标函数中，由此得到如下可求解的凸优化问题Ω₂：

Ω_{2} : \begin{matrix} \min_{L_{M}, S_{M}} & \begin{matrix} | | (L_{M} + S_{M}) A^{*} - Y_{M} B^{*} | |_{F}^{2} + γ | | S_{M} | |_{1} + \\ η (| | (L_{M} + S_{M}) A^{*} - {HB}^{*} | |_{F}^{2} - π) \end{matrix} \\ s . t . & | | L_{M} | |_{*} \leq ϵ \end{matrix},

其中，η为平衡因子。