CN105893612A

CN105893612A - 一种多源异构大数据的一致性表示方法

Info

Publication number: CN105893612A
Application number: CN201610266857.7A
Authority: CN
Inventors: 张磊; 王树鹏; 云晓春
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2016-08-24

Abstract

本发明公开了一种多源异构大数据的一致性表示方法。本方法针对多源异构数据的特征异构性问题，利用多源异构数据间的语义互补性，基于子空间学习方法，将多源异构数据投影到一个中层冗余特征同构空间。并在这个同构空间中，将来自不同来源的相关描述耦合到一起。为了挖掘出中层空间中同构描述之间的语义一致性，利用先验知识，将特征同构描述投影到高层语义共享子空间上，进而消除冗余和噪声信息。由此，可以获得多源异构数据的语义一致模式。本发明有助于在多媒体分析、信息检索和医疗诊断等领域，获得准确且鲁棒的多源数据评估分析结果。

Description

一种多源异构大数据的一致性表示方法

技术领域

本发明属于信息技术领域，针对海量多源异构数据环境下的特征异构性问题，提出了一种多源异构大数据的一致性表示方法。

背景技术

近年来，随着大量高技术数码产品的出现，由这些异源电子设备产生的多源异构数据(Multi-source Heterogeneous Data)己经遍布到人们现实生活的各个角落。所谓多源异构数据是指来自不同来源或者渠道，但表达的内容相似，以不同形式、不同来源、不同视角和不同背景等多种样式出现的数据。如图1所示，新浪微博、腾讯微信和搜狐网站关于相同的新闻的不同形式的报道；老年痴呆症(Alzheimer)患者的大脑可以由核磁共振(MRI)、正电子成像技术(PET)和X光产生多种不同视角的医学成像；Wikipedia网站上对花豹的描述采用了图片、文本和语音等不同来源的媒介；相同的建筑物白宫可以处在不同的背景之下。

然而，多源数据呈现出底层特征异构、高层语义相关的特性。传统的单源学习(Mono-source Learning)方法已无法适应多源数据的特性。一种朴素的(naive)处理多源异构数据的方式就是直接将所有来源的样本描述强行拼接成一个长向量，使其变成一般的单源学习问题(仅对配对数据有效)。该方法符合将一个困难问题归结为一个已解决简单问题的思想，然而其实际效果往往不尽如人意。事实上，这种强行拼接的方法完全忽视了对学习有极大用处的不同来源间的语义互补性。因此，如若利用针对单源数据的方法处理多源异构数据的若干相关问题，必然导致错误的结果。

近年来，国内外的研究人员提出了各种各样的多源学习方法，探索异源数据间的潜在关系，以期提高多源学习的效率。这些研究主要包括：协同训练(Co-training)、多核学习(MultipleKernel Learning，MKL)、子空间学习(Subspace Learning，SL)。

协同训练是一种半监督学习方法，利用异源间的互补信息，提高训练模型的泛化能力。它要求每个来源都有大量的有标记样本，以训练出一个强学习器，然后使用这个学习器对未标记样本进行标记，并从中挑选出若干标记可信度较高的样本，加入对方来源的学习器中，以便对方利用这些新标记的样本进行更新，提高训练模型的泛化能力。这种方法的缺陷在于，它要求每个来源都有大量的有标记样本，学习条件太高。此外，它要求不同的来源间是同构的，所以无法解决异源间的特征异构性问题。(参考文献：Blum A,Mitchell T M.CombiningLabeled and Unlabeled Data with Co-Training.Proceedings of the ACM International Conferenceon Computational Learning Theory,Madison,Wisconsin,USA,1998:92-100.)

而多核学习是一种非线性模式分析方法，它组合利用了各个基本核的特征映射能力，使数据在由多个特征空间构建的组合空间中得到更好的表达，从而找出多个来源间的关联结构。在多核框架下，每个来源使用不同的基本核函数，样本在特征空间中的表示问题转化成为基本核与组合权系数的选择问题。在这个由多个特征空间构建的组合空间中，通过将异构数据的不同特征分量分别输入对应的基本核函数进行映射，使数据在新的组合空间中得到更好的表达，从而提高分类正确率或预测精度。其缺点在于：很难针对每个来源选择恰当的基本核函数和组合权系数。(参考文献：M,Alpaydin E.Multiple Kernel Learning Algorithms.Journal of Machine Learning Research,2011,12:2211–2268.)

共享子空间学习旨在获得多个来源间共享的潜在子空间。利用多源异构数据间的相关性和先验知识，将异构数据投影到共享子空间上，从而消除不同来源间的特征异构性，以捕捉不同来源间的互补信息。这类方法的优点在于：1)可以得到异构描述的同构描述，便于直接度量异构描述间的相关性，消除不同来源之间的异构性；2)在投影过程中，能够充分利用不同来源间的相关性和近似分布，提取更多的互补信息。(参考文献：Hardoon D R,Szedmák S,Taylor J S.Canonical Correlation Analysis:an Overview with Application to Learning Methods.Neural Computation,2004,16(12):2639-2664.)

表1列出了各类多源学习方法的优缺点。

表1.各类多源学习方法的优缺点

发明内容

本发明的目的：

在多媒体分析、信息检索和医疗诊断等现实应用中，经常会遇到相同的语义概念由不同来源的对象表达的情况。然而，多源异构数据通常呈现出底层特征异构、高层语义相关的特性。传统的单源学习方法已无法适应多源数据的特性。如何充分利用异源数据，挖掘其一致性和互补信息，以充分理解多源数据的内容是当今多源数据分析的热点和难点。人们很自然地意识到，如果能将不同来源的异构描述整合为某个涵盖了所有来源间互补信息的语义一致模式，那么由此得来的一致性描述就更加有利于捕捉不同来源间的互补性。因此，如何从不同来源的异构数据中挖掘出嵌入了异源间互补信息的语义一致模式，对于这些应用获得准确且鲁棒的多源数据评估分析结果是十分重要的。

然而，挖掘多源异构数据的语义一致模式是一项艰巨的任务。首先，如图2所示，由于不同的来源横跨异构的底层特征空间，所以多源异构描述之间没有显式的对应关系。例如，在同一张网页中，共生的图片和文本分别从视觉和文字角度传达了相同的语义概念，所以基于它们各自的异构描述很难度量它们之间的关系。因此，为了关联不同的来源，首先需要解决的问题就是构建一个中层特征同构空间，并且在这个空间中充分嵌入不同来源间的互补信息。

如图3所示，对于中层空间中的同构描述主要由必要成分、冗余成分和噪声成分组成(参考文献：Qiang Cheng,Hongbo Zhou,Jie Cheng.The Fisher-Markov Selector:Fast SelectingMaximally Separable Feature Subset for Multiclass Classification with Applications toHigh-Dimensional Data.IEEE Trans.Pattern Analysis and Machine Intelligence,2011,33(6):1217-1233.)。必要成分指的是同构描述之间的互补信息，这些信息对于利用先验知识构建语义一致模式是必要的。不同于必要成分，后两者指的是非必要信息。它们之间的区别在于冗余成分和必要成分高度相关，而噪声成分和前两者之间没有相关性。因此，在挖掘语义一致模式过程中另一个需要亟待解决的问题就是提取特征同构描述之间共享的高层语义子空间。由此，必要成分得以很好地保留而没有残留冗余和噪声成分。

而本发明的具体目的就是针对多源异构数据的特征异构性问题，提供一种多源异构大数据的一致性表示方法，利用多源异构数据间的语义互补性，基于子空间学习方法，将多源异构数据投影到一个中层冗余特征同构空间。并在这个同构空间中，将来自不同来源的相关描述耦合到一起，消除高维中层特征同构描述中的冗余和噪声成分，以此挖掘出嵌入了异源间互补信息的语义一致模式，进而获得多源异构数据特征描述的融合表示。

本发明的技术方案：

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图4所示，本发明提供了一种挖掘多源异构数据语义一致模式的基本框架。这个框架由两个数学模型组成，一个为同构相关冗余变换(Isomorphic Relevant RedundantTransformation，IRRT)模型，另一个为基于相关性的联合特征学习(Correlation-based JointFeature Learning，CJFL)模型。其中，通过学习多个线性变换，IRRT模型将多个异构的底层特征空间线性地映射到一个中层高维冗余特征同构空间，消除异源间的特征异构性，从而捕捉到更多的不同来源间的互补信息。为了挖掘出中层空间中同构描述之间的语义一致性，CJFL模型利用先验知识，将特征同构描述投影到一个低维的高层语义共享子空间上，进而消除冗余和噪声信息。由此，可以获得多源异构数据的语义一致模式。从而有助于在多媒体分析、信息检索和医疗诊断等领域，获得准确且鲁棒的多源数据评估分析结果。

具体的技术方案为：

1)IRRT模型会利用不同来源之间的互补性，学习多个线性变换A和B，以消除不同来源间的特征异构性，从而可以获得一个中层冗余特征同构空间。在这个同构空间中，来自不同来源的相关描述被耦合到一起，以此捕捉出不同来源间的互补信息。从而便于在中层高维同构空间中直接度量多源异构数据间的相似性。

例如，如图4所示，第i对共生样本x_i和y_i被投影到中层高维特征同构空间中，以此消除了它们之间的特征异构性。

2)与此同时，为了挖掘同构描述之间的语义一致性，CJFL模型在IRRT模型学习到的高维特征同构空间中，利用先验知识提取特征同构描述之间共享的高层语义子空间。在语义共享子空间中，来自同一来源相同类别的样本靠拢在一起，而不同类别的实例则保持一定距离。从而，在中层空间中有效地去除了冗余和噪声信息。

如图4所示，第i对耦合描述被映射到语义共享子空间中，并同时保持了它们之间的互补性。由于带有来自中层空间的必要互补信息，由此得来的语义一致模式和任一单一来源的描述相比更可能是线性可分的。

下面进一步说明本发明的主要内容：

1)同构相关冗余变换模型

本发明提供的同构相关冗余变换IRRT模型，利用了不同来源之间的互补性，学习多个线性变换，比如图4中有两个不同来源X和Y，则学习两个线性变换A和B，以消除不同来源间的特征异构性，从而将多源异构数据和(d_x为来源X的维度，d_y为来源Y的维度，n为样本数量)投影到一个中层冗余特征同构空间。在这个同构空间中，来自不同来源的相关描述被耦合到一起，并对变换后的数据施加低秩(Low-rank)约束，以此捕捉出不同来源间的互补信息。

IRRT方法的优化模型如下：

Ψ_{1} : \begin{matrix} \min_{A, B} & | | X A - Y B | |_{F}^{2} \\ s . t . & \begin{matrix} | | XA | |_{*} \leq ϵ & a nd & | | Y B | |_{*} \leq γ \end{matrix} \end{matrix} - - - (1)

其中p＞＞max(d_x,d_y)，p为中层高维冗余特征同构空间的维度，ε和γ是预先指定的正参数，用来控制变换后的数据携带的信息量。在公式(1)中引入迹范数(低秩)约束的目的就是在特征同构空间中捕捉更多不同来源间的潜在互补信息。

需要注意的是，直接求解公式(1)中的问题Ψ₁不是一个简单的任务，原因有两点。首先，尽管问题Ψ₁单独对于每个变量A和B都是凸问题，但问题Ψ₁整体上是一个非凸问题。第二，迹范数约束是不平滑的，这就使得求解这个模型的最优解变得更加困难。然而，引理1表明在问题Ψ₁中对变换数据的迹范数约束可以松弛地转换为问题Ψ₂中对投影矩阵的迹范数约束。

引理1对于正数δ和任意两个可相乘矩阵C和D，如果

‖C‖_*‖D‖_*≤δ

那么

‖CD‖_*≤δ

证明：由于迹范数是矩阵范数，所以它满足任意两个可相乘矩阵的相容性原理。(参考文献：Carl D.Meyer.Matrix Analysis and Applied Linear Algebra.SIAM Publishers,2000.)所以，可以得到下式：

‖CD‖_*≤‖C‖_*‖D‖_*

因此，如果‖C‖_*‖D‖_*≤δ，那么‖CD‖_*≤δ。这就完成了引理1的证明。

根据引理1，如果在问题Ψ₁中预先指定的正参数ε和γ满足：

‖X‖_*‖A‖_*≤ε和‖Y‖_*‖B‖_*≤γ (2)

那么，可以得到‖XA‖_*≤ε和‖YB‖_*≤γ。因此，在问题Ψ₁中的迹范数约束可以转化为：

‖A‖_*≤ε/‖X‖_*和‖B‖_*≤γ/‖Y‖_* (3)

由此，利用公式(3)中的松弛约束，可以将问题Ψ₁转化为如下问题Ψ₂：

Ψ_{2} : \begin{matrix} \min_{A, B} & | | X A - Y B | |_{F}^{2} \\ s . t . & \begin{matrix} | | A | |_{*} \leq ϵ / | | X | |_{*} & a nd & | | B | |_{*} \leq γ / | | Y | |_{*} \end{matrix} \end{matrix} - - - (4)

2)基于相关性的联合特征学习

本发明提供的基于相关性的联合特征学习模型CJFL，在IRRT模型构建的中层高维冗余特征同构空间中，利用先验知识消除冗余和噪声信息，将特征同构的高维描述投影到一个低维的高层语义共享子空间上。由此，获得多源异构数据的语义一致模式。

CJFL模型的具体细节如下：设(A^*,B^*)是问题Ψ₂的最优解。那么，可以得到两组同构相关冗余描述和设和分别是J和R中第t个类的样本集合。定义如下各式：

设

和

显然，来自于或的每对数据在语义上是彼此相似，而来自于或的每对数据在语义上是彼此不相似。

为了消除中层高维空间中的冗余和噪声信息，需要利用先验知识(类信息)学习一个线性变换(p为中层高维冗余特征同构空间的维度，k为高层低维语义共享子空间的维度)，以此参数化语义共享子空间。在数学上，需要最小化如下类内距离：

其中

并且是由数据集J和R构成的联合类内散度矩阵。与此同时，还要最大化如下类间距离：

其中

并且是由数据集J和R构成的联合类间散度矩阵。为了同时最小化类内距离并且最大化类间距离。可以直接将上述问题归纳为如下迹率优化问题：

其中，tr(·)表示矩阵的迹，对Θ的正交约束用来消除中层空间中和必要信息高度相关的冗余信息。

在另一方面，应当完好地保留同构描述之间的互补性。因此，可将模型Ω₁重新定义为如下形式：

其中，表示基于相关性的残差，用来避免破坏耦合描述的内在结构，而正规化项控制模型的复杂度，α和β为正规化参数。

3)语义一致模式

设(A^*,B^*)是问题Ψ₂的最优解，Θ^*是问题Ω₂的最优解。那么，对于第i对异构描述(x_i,y_i)，可以利用最优解A^*，B^*和Θ^*，得到异构描述各自的同构相关描述：

和

此外，可以基于和得到不同模态的一致性描述τ_i，即多源异构数据在高层语义共享子空间上的语义一致模式：

τ_{i} = (τ_{x_{i}} + τ_{y_{i}}) / 2 - - - (20)

本发明的有益效果：

针对于多源异构数据中存在的特征异构性问题，本发明提供了一种挖掘多源异构数据语义一致模式的框架。该框架首先包含一种带有低秩(Low-rank)约束的IRRT模型，学习多个线性变换，从而可以有效地捕捉到不同来源间的语义互补性，将多个异构底层特征空间和一个高层语义共享子空间桥接起来。此外，为了挖掘出中层空间中同构描述之间的语义一致性，CJFL模型在IRRT模型学习到的高维特征同构空间中，将特征同构的高维描述投影到一个低维的高层语义共享子空间上，进而消除冗余和噪声信息。由此，可以获得多源异构数据的语义一致模式，从而有助于在多媒体分析、信息检索和医疗诊断等领域，获得准确且鲁棒的多源数据评估分析结果。

附图说明

图1为多源异构数据的示例图。

图2为多源异构数据的特征异构性的示例图。

图3为中层空间中同构描述的成分的示例图。

图4为挖掘多源异构数据语义一致模式的框架的示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

本发明提供的多源异构大数据的一致性表示方法，由同构相关冗余变换IRRT和基于相关性的联合特征学习CJFL算法组成，通过循环迭代过程实现模型的逐步优化。

在公式(4)中的IRRT模型可以简化为：

其中，是平滑的目标函数，Z＝[A_Z B_Z]象征优化变量，而为封闭的凸集，其定义为：

由于f(·)是连续可微函数且带有Lipschitz连续梯度L(参考文献：Y.Nesterov.Introductorylectures on convex optimization,volume 87.Springer Science&Business Media,2004.)：

所以，很适合采用加速投影梯度(Accelerated Projected Gradient，APG)(参考文献：Y.Nesterov.Introductory lectures on convex optimization,volume 87.Springer Science&Business Media,2004.)算法求解公式(21)中的问题。APG算法已成功应用于如下优化问题：

其中，g(·)是一个平滑的目标函数，z是优化变量，而是优化问题的可执行域。

需要注意的是，在APG算法中一个给定点s在凸集上的欧几里德投影可以定义为：

其中，m是预先指定的正常数。那么，可以使用在迹范数约束上的有效投影(Efficient Projectionon Trace Norm Constraints，EPTNC)算法(参考文献：John Duchi,Shai Shalev-Shwartz,YoramSinger,Tushar Chandra.Efficient Projections onto the for Learning in High Dimensions.Proc.International Conference on Machine Learning,2008,pp.272-279.)求解等式(25)。算法1给出了EPTNC算法的具体细节。

当应用APG算法求解公式(21)中的问题时，一个给定点S＝[A_S B_S]在集合上的欧几里德投影Z＝[A_Z B_Z]可以定义为：

通过结合APG算法和算法1，就可以求解公式(21)中的问题。算法2给出了IRRT算法的具体细节。

可以通过最大化如下迹差问题获得公式(18)中的CJFL模型的最优解Θ^*：

其中η_t(见等式(28))为第t次迭代的迹率值。因此，Θ^*由矩阵的k个最大特征值对应的特征向量构成的。算法3给出了CJFL算法的具体细节。

本发明提供的挖掘多源异构大数据语义一致模式的IRRT+CJFL框架，针对多源异构数据的特征异构性问题，利用多源异构数据间的语义互补性，基于子空间学习方法，将多源异构数据投影到一个中层冗余特征同构空间。并在这个同构空间中，将特征同构的高维描述投影到一个低维的高层语义共享子空间上，进而消除冗余和噪声信息，使来自不同来源的相关描述耦合到一起，以此挖掘出嵌入了异源间互补信息的语义一致模式。从而获得多源异构数据特征描述的融合表示。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种多源异构大数据的一致性表示方法，其特征在于，包括以下步骤：

1)利用多源异构数据之间的互补性学习多个线性变换，以消除不同来源间的特征异构性，从而将多源异构数据投影到一个中层冗余特征同构空间，在这个中层冗余特征同构空间中，来自不同来源的相关描述被耦合到一起，以此捕捉到不同来源间的互补信息；

2)在所述中层冗余特征同构空间中，利用先验知识将特征同构描述投影到高层语义共享子空间上，在高层语义共享子空间中来自同一来源相同类别的样本靠拢在一起，而不同类别的实例则保持一定距离，从而消除冗余和噪声信息，获得多源异构数据的语义一致模式。

2.如权利要求1所述的方法，其特征在于，步骤1)对于多源异构数据和学习两个线性变换A和B，其中d_x为来源X的维度，d_y为来源Y的维度，n为样本数量；并建立如下的优化模型：

Ψ_{1} : \begin{matrix} \min_{A, B} & | | X A - Y B | |_{F}^{2} \\ s . t . & \begin{matrix} | | X A | |_{*} \leq ϵ & a n d & | | Y B | |_{*} \leq γ \end{matrix} \end{matrix},

其中p＞＞max(d_x,d_y)，p为中层冗余特征同构空间的维度；ε和γ是预先指定的正参数，用来控制变换后的数据携带的信息量。

3.如权利要求2所述的方法，其特征在于，为求解Ψ₁，将Ψ₁中对变换数据的迹范数约束松弛地转换为下面Ψ₂中对投影矩阵的迹范数约束：

Ψ_{2} : \begin{matrix} \min_{A, B} & | | X A - Y B | |_{F}^{2} \\ s . t . & \begin{matrix} | | A | |_{*} \leq ϵ / | | X | |_{*} & a n d & | | B | |_{*} \leq γ / | | Y | |_{*} \end{matrix} \end{matrix} .

4.如权利要求3所述的方法，其特征在于，步骤2)中，为了消除冗余和噪声信息，利用先验知识学习一个线性变换其中k为子空间的维度，以此参数化语义共享子空间，进而最小化类内距离并且最大化类间距离，即归纳为如下迹率优化问题：

其中，是由两组同构相关冗余描述的数据集J和R构成的联合类内散度矩阵，是由数据集J和R构成的联合类间散度矩阵，对Θ的正交约束用来消除中层空间中和必要信息高度相关的冗余信息。

5.如权利要求4所述的方法，其特征在于，步骤2)为了完好地保留同构描述之间的互补性，将Ω₁重新定义为如下形式：

Ω_{2} : \underset{Θ^{T} Θ = I}{m a x} \frac{t r (Θ^{T} (J_{D} + R_{D}) Θ)}{t r (Θ^{T} (J_{S} + R_{S}) Θ) + α | | J Θ - R Θ | |_{F}^{2} + β | | Θ | |_{F}^{2}}

6.如权利要求5所述的方法，其特征在于，步骤2)中，设(A^*,B^*)是问题Ψ₂的最优解，Θ^*是问题Ω₂的最优解，那么对于第i对异构描述(x_i,y_i)，利用最优解A^*，B^*和Θ^*，得到异构描述各自的同构相关描述：

和

然后基于和得到不同模态的一致性描述τ_i，即多源异构数据在高层语义共享子空间上的语义一致模式：

τ_{i} = (τ_{x_{i}} + τ_{y_{i}}) / 2.