CN106127305B

CN106127305B - 一种针对多源异构数据的异源间相似性度量方法

Info

Publication number: CN106127305B
Application number: CN201610439325.9A
Authority: CN
Inventors: 张磊; 王树鹏; 云晓春; 张晓宇
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2016-06-17
Filing date: 2016-06-17
Publication date: 2019-07-16
Anticipated expiration: 2036-06-17
Also published as: CN106127305A

Abstract

本发明涉及一种针对多源异构数据的异源间相似性度量方法。该方法利用多源异构数据间的语义互补性，基于子空间学习方法，根据马氏距离度量和伪度量约束，将多源异构数据线性投影到一个特征同构空间，消除了异源间的特征异构性，实现了异源间的相似度对比，并在这个空间中充分嵌入异源间的互补信息。本发明对包括多源检索，聚类和分类这样的现实应用有着十分重要的意义。

Description

一种针对多源异构数据的异源间相似性度量方法

技术领域

本发明属于信息技术领域，针对海量多源异构数据环境下的相似度量问题，提出了一种多源异构大数据的异源间相似性度量方法。

背景技术

现实世界中广泛存在着大量的多源异构数据。一般说来，多源异构数据是指来自不同来源或者渠道，但表达的内容相似，以不同形式、不同模态、不同视角和不同背景等多种样式出现的数据。例如，在一张介绍“老虎”的网页中，采用了图像和音频两种模态共同表达“老虎”的概念。在特征层面上，从网页图像中提取的100维视觉特征向量，以及从音频中提取的50维听觉特征向量，共同表达了“老虎”的语义。前者从色彩，纹理和形状等特征层面描述了老虎的视觉画面，后者从时域或频率等特征层面描述了老虎的听觉信息。尽管这两个不同维数的特征向量共同表达了老虎的语义信息，但是由于特征异构性问题(参考文献：Chitra Dorai,Svetha Venkatesh.Computational Media Aestheties:Finding MeaningBeautiful.IEEE Multimedia,2001,8(4):10-12.)，很难在底层特征上度量出两者间的相关性。所以，多源学习面临的第一道屏障正是不同来源的异构数据在底层特征上的相关性度量问题。

因此，近年来，国内外的研究人员提出了一种基于投影的共享子空间方法以解决多源学习中的相关性度量问题。

基于投影的共享子空间学习方法利用特征映射提取多个模态间共享的潜在子空间。此类方法分为线性投影和非线性投影两类。比较经典的线性投影方法主要包括：典型相关分析法(Canonical Correlation Analysis，CCA)(参考文献：HaroldHotelling.Relations between Two Sets of Variates.Biometrika,1936,28(3/4):321-377.)和偏最小二乘法(Partial Least Squares，PLS)(参考文献：Herman Wold.PartialLeast Squares.Encyclopedia of Statistical Sciences,Wiley Online Library,2006.)；而主流的非线性投影方法主要涉及：核典型相关分析法(Kernel CanonicalCorrelation Analysis，KCCA)(参考文献：David R.Hardoon,Sándor Szedmák,JohnShawe-Taylor.Canonical Correlation Analysis:an Overview with Application toLearning Methods.Neural Computation,2004,16(12):2639-2664.)和深度典型相关分析法(Deep Canonical Correlation Analysis，DCCA)(参考文献：Galen Andrew,RamanArora,Jeff Bilmes,Karen Livescu.Deep Canonical CorrelationAnalysis.Proc.ACM.International Conference on Machine Learning,2013,pp.1247-1255.)。

CCA是一种比较经典的研究同一对象异源描述间相关性的有效算法。它会将异源数据线性投影到一个低维空间，并在这个空间中最大化异源数据间的相关性。CCA借助于主成分分析的思想，将每一组变量作为一个整体进行研究而不是分析每一组变量内部的各个变量。对每一组变量分别寻找线性组合，使生成的新综合变量能够代表原始变量的大部分信息，同时，与由另一组变量生成的新综合变量的相关程度最大。

PLS是一种多因变量对多自变量的回归建模方法。特别是当各变量集合内部存在较高程度的相关性时，用偏最小二乘法进行回归建模分析，对比逐个因变量进行多元回归更加有效，其结论更加可靠，整体性更强。PLS是一种综合了主成分分析(PrincipalComponent Analysis，PCA)和CCA的算法，该算法既具有典型相关分析的相关性分析能力，同时还具备主成分分析保持数据变化信息的能力。因此，在分析结果中，除了可以提供一个更为合理的回归模型外，还可以同时完成一些类似于主成分分析和典型相关分析的研究，提供更丰富、更深入的信息。

KCCA是CCA方法在核空间上的非线性推广，它通过隐式非线性地将数据投影到一个高维特征空间，为CCA提供了一种可替代的解决方法。尽管KCCA能够学习高维非线性变换，但是也存在产生的非线性变换易受选择的核函数约束的缺陷。此外，KCCA还是一种非参数化的方法，所以它的计算复杂度的伸缩性很差。

Andrew等人提出的DCCA方法通过深度网络可以灵活地学习两个相关源之间的非线性变换。DCCA同时学习两个来源的最大相关深度非线性映射，在学习过程中，每个来源对应一个深度网络，通过多层非线性变换，使输出层最大相关。不同于KCCA，DCCA并不需要内积，从而为KCCA提供了一种非线性替代。此外，DCCA作为一种参数模型，无需参考训练集就可计算未知数据点的描述。但是，DCCA也存在学习过程中需要设置大量参数且学习时间长的缺陷。

表1总结了上述方法的特性。

表1.基于投影的共享子空间学习方法的性能对比

发明内容

本发明的具体目的是针对多源异构数据的底层特征异构问题，提供一种多源异构大数据的异源间相似性度量方法。

本发明提供了一种多源异构数据的异源度量方法。具体的技术方案为：这个方法由一个异源度量学习(Heterogeneous Source Metric Learning，HSML)模型组成。如图1所示，多源异构数据由源S_X和源S_Y组成。HSML模型利用已有的多源异构数据X和Y，学习一组优良异源度量，具体步骤为：

1)利用多源异构数据间的语义互补性，基于子空间学习方法，学习不同来源间的满足伪度量约束的基于马氏距离的多个异源度量；

2)利用学习到的异源度量(异源间的线性度量)，将多源异构数据线性投影到一个低维特征同构空间；

3)在低维特征同构空间中，将目标对象(即相关的异源异构近邻)拉入邻域边缘，并且将噪声点推出邻域边缘，从而消除异源间的特征异构性；

4)将同一数据的多源描述耦合到一起，实现异源间的相似度对比，进而在低维特征同构空间中充分嵌入异源间的互补信息。

本发明提供的异源度量学习HSML模型利用已有的多源异构数据(d_x为来源S_X的维度，d_y为来源S_Y的维度，n为样本的数量)，利用多源异构数据间的语义互补性，学习多个异源度量(如两个异源度量A和B)，将多源异构数据线性投影到一个低维特征同构空间，消除异源间的特征异构性，同时将同一数据的多源描述耦合到一起，实现异源间的相似度对比，进而在这个空间中充分嵌入异源间的互补信息。

该方法首先定义了一组马氏距离度量：

其中，为来源S_X中的第i个样本，为来源S_Y中的第j个样本。

HSML方法的优化模型如下：

其中，k≥min(d_x，d_y)为特征同构子空间的维度，f_A,B(·)为边缘函数，g_A,B(·)为相关性度量函数。HLML方法利用半正定约束和确保模型Ψ₁能够学习到多个良好定义的伪度量(即异源度量A和B)；目标函数中的相关性度量函数g_A,B(·)利用学习到的异源度量A和B，度量多源异构描述X和Y间的距离；而边缘函数f_A,B(·)通过利用马氏距离度量，将目标对象(即相关的异源异构近邻)拉入邻域边缘ε，并且将噪声点推出邻域边缘，同时将同一数据的多源描述耦合到一起，在这个空间中充分嵌入异源间的互补信息，以此捕捉不同来源间的语义互补性。

本发明针对多源异构数据的异源相似度量问题，提供了一种多源异构大数据的异源度量方法。该方法利用多源异构数据间的语义互补性，基于子空间学习方法，根据马氏距离度量和伪度量约束，将多源异构数据线性投影到一个特征同构空间，消除了异源间的特征异构性，实现了异源间的相似度对比，并在这个空间中充分嵌入异源间的互补信息。本发明对包括多源检索，聚类和分类这样的现实应用有着十分重要的意义。

附图说明

图1为本发明的异源度量学习模型的示意图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步说明。

本发明提供的多源异构大数据的异源度量方法，由异源度量学习HSML算法组成，通过循环迭代过程实现模型的逐步优化。

在公式(2)中的HSML模型可以简化为：

其中，F(·)＝f_A,B(ε,g_A,B(X,Y))为平滑目标函数，Z＝[A_Z B_Z]代表优化变量，A_Z和B_Z分别表示公式(3)中的单个优化变量，为封闭且针对单个变量的凸集：

由于F(·)关于Lipschitz梯度L(参考文献：Y.Nesterov.Introductory lectureson convex optimization,volume 87.Springer Science&Business Media,2004.)：

连续可微。因此，适合利用加速投影梯度(Accelerated Projected Gradient，APG)算法(参考文献：Y.Nesterov.Introductory lectures on convex optimization,volume 87.Springer Science&Business Media,2004.)求解公式(3)中的问题。

APG算法为一阶梯度算法，该方法在最小化目标函数过程中，会在可执行解(feasible solution)上加速每个梯度步，以获取最优解。在求解过程中，APG方法会构建一个解点序列{Z_i}和一个搜索点序列{S_i}，在每次迭代中利用S_i更新Z_i。而每个给定点s在凸集上的欧几里德投影为：

Weinberger等人提出的半正定投影(Positive Semi-definite Projection，PSP)方法(参考文献：Kilian Q.Weinberger,Lawrence K.Saul.Distance Metric Learningfor Large Margin Nearest Neighbor Classification.Journal of Machine LearningResearch 10:207-244(2009).)可以在保持半正定约束的情况下，最小化目标函数。由此，便可利用PSP求解公式(6)中的问题。算法1给出了PSP算法的细节。

而当利用APG算法求解公式(3)中的问题时，给定点S＝[A_S B_S]在凸集上的欧几里德投影Z＝[A_Z B_Z]为：

通过结合APG和PSP算法，便可求解公式(7)中的问题。算法2给出了本发明提供的HSML算法的具体细节。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种多源异构大数据的异源间相似性度量方法，其特征在于，包括以下步骤：

2)利用学习到的异源度量，将多源异构数据线性投影到一个低维特征同构空间；

3)在低维特征同构空间中，将目标对象即相关的异源异构近邻拉入邻域边缘，并且将噪声点推出邻域边缘，从而消除异源间的特征异构性；

4)将同一数据的多源描述耦合到一起，实现异源间的相似度对比，进而在低维特征同构空间中充分嵌入异源间的互补信息；

该多源异构大数据的异源间相似性度量方法采用如下的优化模型：

其中，k≥min(d_x，d_y)为特征同构子空间的维度，f_A，B(·)为边缘函数，g_A，B(·)为相关性度量函数；利用半正定约束A^TA≥0和B^TB≥0确保模型Ψ₁能够学习到多个良好定义的伪度量；相关性度量函数g_A，B(·)利用学习到的异源度量A和B，度量多源异构描述X和Y间的距离；而边缘函数f_A，B(·)通过利用马氏距离度量，将目标对象即相关的异源异构近邻拉入邻域边缘ε，并且将噪声点推出邻域边缘，同时将同一数据的多源描述耦合到一起，在这个空间中充分嵌入异源间的互补信息，以此捕捉不同来源间的语义互补性。

2.如权利要求1所述的方法，其特征在于，所述马氏距离度量的表达式为：

其中，为来源S_X中的第i个样本，为来源S_Y中的第j个样本。