CN106127305B - 一种针对多源异构数据的异源间相似性度量方法 - Google Patents
一种针对多源异构数据的异源间相似性度量方法 Download PDFInfo
- Publication number
- CN106127305B CN106127305B CN201610439325.9A CN201610439325A CN106127305B CN 106127305 B CN106127305 B CN 106127305B CN 201610439325 A CN201610439325 A CN 201610439325A CN 106127305 B CN106127305 B CN 106127305B
- Authority
- CN
- China
- Prior art keywords
- heterologous
- source
- space
- source heterogeneous
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种针对多源异构数据的异源间相似性度量方法。该方法利用多源异构数据间的语义互补性,基于子空间学习方法,根据马氏距离度量和伪度量约束,将多源异构数据线性投影到一个特征同构空间,消除了异源间的特征异构性,实现了异源间的相似度对比,并在这个空间中充分嵌入异源间的互补信息。本发明对包括多源检索,聚类和分类这样的现实应用有着十分重要的意义。
Description
技术领域
本发明属于信息技术领域,针对海量多源异构数据环境下的相似度量问题,提出了一种多源异构大数据的异源间相似性度量方法。
背景技术
现实世界中广泛存在着大量的多源异构数据。一般说来,多源异构数据是指来自不同来源或者渠道,但表达的内容相似,以不同形式、不同模态、不同视角和不同背景等多种样式出现的数据。例如,在一张介绍“老虎”的网页中,采用了图像和音频两种模态共同表达“老虎”的概念。在特征层面上,从网页图像中提取的100维视觉特征向量,以及从音频中提取的50维听觉特征向量,共同表达了“老虎”的语义。前者从色彩,纹理和形状等特征层面描述了老虎的视觉画面,后者从时域或频率等特征层面描述了老虎的听觉信息。尽管这两个不同维数的特征向量共同表达了老虎的语义信息,但是由于特征异构性问题(参考文献:Chitra Dorai,Svetha Venkatesh.Computational Media Aestheties:Finding MeaningBeautiful.IEEE Multimedia,2001,8(4):10-12.),很难在底层特征上度量出两者间的相关性。所以,多源学习面临的第一道屏障正是不同来源的异构数据在底层特征上的相关性度量问题。
因此,近年来,国内外的研究人员提出了一种基于投影的共享子空间方法以解决多源学习中的相关性度量问题。
基于投影的共享子空间学习方法利用特征映射提取多个模态间共享的潜在子空间。此类方法分为线性投影和非线性投影两类。比较经典的线性投影方法主要包括:典型相关分析法(Canonical Correlation Analysis,CCA)(参考文献:HaroldHotelling.Relations between Two Sets of Variates.Biometrika,1936,28(3/4):321-377.)和偏最小二乘法(Partial Least Squares,PLS)(参考文献:Herman Wold.PartialLeast Squares.Encyclopedia of Statistical Sciences,Wiley Online Library,2006.);而主流的非线性投影方法主要涉及:核典型相关分析法(Kernel CanonicalCorrelation Analysis,KCCA)(参考文献:David R.Hardoon,Sándor Szedmák,JohnShawe-Taylor.Canonical Correlation Analysis:an Overview with Application toLearning Methods.Neural Computation,2004,16(12):2639-2664.)和深度典型相关分析法(Deep Canonical Correlation Analysis,DCCA)(参考文献:Galen Andrew,RamanArora,Jeff Bilmes,Karen Livescu.Deep Canonical CorrelationAnalysis.Proc.ACM.International Conference on Machine Learning,2013,pp.1247-1255.)。
CCA是一种比较经典的研究同一对象异源描述间相关性的有效算法。它会将异源数据线性投影到一个低维空间,并在这个空间中最大化异源数据间的相关性。CCA借助于主成分分析的思想,将每一组变量作为一个整体进行研究而不是分析每一组变量内部的各个变量。对每一组变量分别寻找线性组合,使生成的新综合变量能够代表原始变量的大部分信息,同时,与由另一组变量生成的新综合变量的相关程度最大。
PLS是一种多因变量对多自变量的回归建模方法。特别是当各变量集合内部存在较高程度的相关性时,用偏最小二乘法进行回归建模分析,对比逐个因变量进行多元回归更加有效,其结论更加可靠,整体性更强。PLS是一种综合了主成分分析(PrincipalComponent Analysis,PCA)和CCA的算法,该算法既具有典型相关分析的相关性分析能力,同时还具备主成分分析保持数据变化信息的能力。因此,在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究,提供更丰富、更深入的信息。
KCCA是CCA方法在核空间上的非线性推广,它通过隐式非线性地将数据投影到一个高维特征空间,为CCA提供了一种可替代的解决方法。尽管KCCA能够学习高维非线性变换,但是也存在产生的非线性变换易受选择的核函数约束的缺陷。此外,KCCA还是一种非参数化的方法,所以它的计算复杂度的伸缩性很差。
Andrew等人提出的DCCA方法通过深度网络可以灵活地学习两个相关源之间的非线性变换。DCCA同时学习两个来源的最大相关深度非线性映射,在学习过程中,每个来源对应一个深度网络,通过多层非线性变换,使输出层最大相关。不同于KCCA,DCCA并不需要内积,从而为KCCA提供了一种非线性替代。此外,DCCA作为一种参数模型,无需参考训练集就可计算未知数据点的描述。但是,DCCA也存在学习过程中需要设置大量参数且学习时间长的缺陷。
表1总结了上述方法的特性。
表1.基于投影的共享子空间学习方法的性能对比
发明内容
本发明的具体目的是针对多源异构数据的底层特征异构问题,提供一种多源异构大数据的异源间相似性度量方法。
本发明提供了一种多源异构数据的异源度量方法。具体的技术方案为:这个方法由一个异源度量学习(Heterogeneous Source Metric Learning,HSML)模型组成。如图1所示,多源异构数据由源SX和源SY组成。HSML模型利用已有的多源异构数据X和Y,学习一组优良异源度量,具体步骤为:
1)利用多源异构数据间的语义互补性,基于子空间学习方法,学习不同来源间的满足伪度量约束的基于马氏距离的多个异源度量;
2)利用学习到的异源度量(异源间的线性度量),将多源异构数据线性投影到一个低维特征同构空间;
3)在低维特征同构空间中,将目标对象(即相关的异源异构近邻)拉入邻域边缘,并且将噪声点推出邻域边缘,从而消除异源间的特征异构性;
4)将同一数据的多源描述耦合到一起,实现异源间的相似度对比,进而在低维特征同构空间中充分嵌入异源间的互补信息。
本发明提供的异源度量学习HSML模型利用已有的多源异构数据(dx为来源SX的维度,dy为来源SY的维度,n为样本的数量),利用多源异构数据间的语义互补性,学习多个异源度量(如两个异源度量A和B),将多源异构数据线性投影到一个低维特征同构空间,消除异源间的特征异构性,同时将同一数据的多源描述耦合到一起,实现异源间的相似度对比,进而在这个空间中充分嵌入异源间的互补信息。
该方法首先定义了一组马氏距离度量:
其中,为来源SX中的第i个样本,为来源SY中的第j个样本。
HSML方法的优化模型如下:
其中,k≥min(dx,dy)为特征同构子空间的维度,fA,B(·)为边缘函数,gA,B(·)为相关性度量函数。HLML方法利用半正定约束和确保模型Ψ1能够学习到多个良好定义的伪度量(即异源度量A和B);目标函数中的相关性度量函数gA,B(·)利用学习到的异源度量A和B,度量多源异构描述X和Y间的距离;而边缘函数fA,B(·)通过利用马氏距离度量,将目标对象(即相关的异源异构近邻)拉入邻域边缘ε,并且将噪声点推出邻域边缘,同时将同一数据的多源描述耦合到一起,在这个空间中充分嵌入异源间的互补信息,以此捕捉不同来源间的语义互补性。
本发明针对多源异构数据的异源相似度量问题,提供了一种多源异构大数据的异源度量方法。该方法利用多源异构数据间的语义互补性,基于子空间学习方法,根据马氏距离度量和伪度量约束,将多源异构数据线性投影到一个特征同构空间,消除了异源间的特征异构性,实现了异源间的相似度对比,并在这个空间中充分嵌入异源间的互补信息。本发明对包括多源检索,聚类和分类这样的现实应用有着十分重要的意义。
附图说明
图1为本发明的异源度量学习模型的示意图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步说明。
本发明提供的多源异构大数据的异源度量方法,由异源度量学习HSML算法组成,通过循环迭代过程实现模型的逐步优化。
在公式(2)中的HSML模型可以简化为:
其中,F(·)=fA,B(ε,gA,B(X,Y))为平滑目标函数,Z=[AZ BZ]代表优化变量,AZ和BZ分别表示公式(3)中的单个优化变量,为封闭且针对单个变量的凸集:
由于F(·)关于Lipschitz梯度L(参考文献:Y.Nesterov.Introductory lectureson convex optimization,volume 87.Springer Science&Business Media,2004.):
连续可微。因此,适合利用加速投影梯度(Accelerated Projected Gradient,APG)算法(参考文献:Y.Nesterov.Introductory lectures on convex optimization,volume 87.Springer Science&Business Media,2004.)求解公式(3)中的问题。
APG算法为一阶梯度算法,该方法在最小化目标函数过程中,会在可执行解(feasible solution)上加速每个梯度步,以获取最优解。在求解过程中,APG方法会构建一个解点序列{Zi}和一个搜索点序列{Si},在每次迭代中利用Si更新Zi。而每个给定点s在凸集上的欧几里德投影为:
Weinberger等人提出的半正定投影(Positive Semi-definite Projection,PSP)方法(参考文献:Kilian Q.Weinberger,Lawrence K.Saul.Distance Metric Learningfor Large Margin Nearest Neighbor Classification.Journal of Machine LearningResearch 10:207-244(2009).)可以在保持半正定约束的情况下,最小化目标函数。由此,便可利用PSP求解公式(6)中的问题。算法1给出了PSP算法的细节。
而当利用APG算法求解公式(3)中的问题时,给定点S=[AS BS]在凸集上的欧几里德投影Z=[AZ BZ]为:
通过结合APG和PSP算法,便可求解公式(7)中的问题。算法2给出了本发明提供的HSML算法的具体细节。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (2)
1.一种多源异构大数据的异源间相似性度量方法,其特征在于,包括以下步骤:
1)利用多源异构数据间的语义互补性,基于子空间学习方法,学习不同来源间的满足伪度量约束的基于马氏距离的多个异源度量;
2)利用学习到的异源度量,将多源异构数据线性投影到一个低维特征同构空间;
3)在低维特征同构空间中,将目标对象即相关的异源异构近邻拉入邻域边缘,并且将噪声点推出邻域边缘,从而消除异源间的特征异构性;
4)将同一数据的多源描述耦合到一起,实现异源间的相似度对比,进而在低维特征同构空间中充分嵌入异源间的互补信息;
该多源异构大数据的异源间相似性度量方法采用如下的优化模型:
其中,k≥min(dx,dy)为特征同构子空间的维度,fA,B(·)为边缘函数,gA,B(·)为相关性度量函数;利用半正定约束ATA≥0和BTB≥0确保模型Ψ1能够学习到多个良好定义的伪度量;相关性度量函数gA,B(·)利用学习到的异源度量A和B,度量多源异构描述X和Y间的距离;而边缘函数fA,B(·)通过利用马氏距离度量,将目标对象即相关的异源异构近邻拉入邻域边缘ε,并且将噪声点推出邻域边缘,同时将同一数据的多源描述耦合到一起,在这个空间中充分嵌入异源间的互补信息,以此捕捉不同来源间的语义互补性。
2.如权利要求1所述的方法,其特征在于,所述马氏距离度量的表达式为:
其中,为来源SX中的第i个样本,为来源SY中的第j个样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610439325.9A CN106127305B (zh) | 2016-06-17 | 2016-06-17 | 一种针对多源异构数据的异源间相似性度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610439325.9A CN106127305B (zh) | 2016-06-17 | 2016-06-17 | 一种针对多源异构数据的异源间相似性度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106127305A CN106127305A (zh) | 2016-11-16 |
CN106127305B true CN106127305B (zh) | 2019-07-16 |
Family
ID=57469872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610439325.9A Active CN106127305B (zh) | 2016-06-17 | 2016-06-17 | 一种针对多源异构数据的异源间相似性度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106127305B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656950A (zh) * | 2016-12-23 | 2018-02-02 | 航天星图科技(北京)有限公司 | 一种为企业异构数据源系统消除重复记录的方法 |
CN109993198B (zh) * | 2018-12-26 | 2021-06-22 | 中国科学院信息工程研究所 | 一种基于特征同构共享描述的多源异构离群点检测方法 |
US20210056127A1 (en) * | 2019-08-21 | 2021-02-25 | Nec Laboratories America, Inc. | Method for multi-modal retrieval and clustering using deep cca and active pairwise queries |
CN110532304B (zh) * | 2019-09-06 | 2020-11-24 | 京东城市(北京)数字科技有限公司 | 数据处理方法及装置、计算机可读存储介质以及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN102521368A (zh) * | 2011-12-16 | 2012-06-27 | 武汉科技大学 | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 |
CN103995903A (zh) * | 2014-06-12 | 2014-08-20 | 武汉科技大学 | 基于同构子空间映射和优化的跨媒体检索方法 |
-
2016
- 2016-06-17 CN CN201610439325.9A patent/CN106127305B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021849A (zh) * | 2006-09-14 | 2007-08-22 | 浙江大学 | 基于内容相关性的跨媒体检索方法 |
CN102521368A (zh) * | 2011-12-16 | 2012-06-27 | 武汉科技大学 | 基于相似度矩阵迭代的跨媒体语义理解和优化方法 |
CN103995903A (zh) * | 2014-06-12 | 2014-08-20 | 武汉科技大学 | 基于同构子空间映射和优化的跨媒体检索方法 |
Non-Patent Citations (1)
Title |
---|
跨媒体语义共享子空间学习理论与方法研究;张磊;《中国博士学位论文全文数据库 信息科技辑》;20150915;I138-76 * |
Also Published As
Publication number | Publication date |
---|---|
CN106127305A (zh) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Transfer learning with dynamic adversarial adaptation network | |
CN106127305B (zh) | 一种针对多源异构数据的异源间相似性度量方法 | |
CN111402259B (zh) | 一种基于多层次结构关系学习网络的脑肿瘤分割方法 | |
CN101271469B (zh) | 一种基于三维模型库下二维图像的识别和物体的重建方法 | |
CN106295694B (zh) | 一种迭代重约束组稀疏表示分类的人脸识别方法 | |
CN105574510A (zh) | 一种步态识别方法及装置 | |
Zhang et al. | Pan: Persistent appearance network with an efficient motion cue for fast action recognition | |
Zhang et al. | Adversarial separation network for cross-network node classification | |
Aversano et al. | Deep neural networks ensemble to detect COVID-19 from CT scans | |
Habib et al. | Auxiliary variational MCMC | |
Sharifzadeh et al. | Improving visual relation detection using depth maps | |
CN103745205A (zh) | 一种基于多线性均值成分分析的步态识别方法 | |
Huang et al. | Large-scale weakly-supervised content embeddings for music recommendation and tagging | |
CN108805102A (zh) | 一种基于深度学习的视频字幕检测与识别方法及系统 | |
CN116340524B (zh) | 一种基于关系自适应网络的小样本时态知识图谱补全方法 | |
CN103136309B (zh) | 通过基于核的学习对社交强度进行建模 | |
Xu et al. | Multi-view feature fusion for person re-identification | |
Wang et al. | R2-trans: Fine-grained visual categorization with redundancy reduction | |
Fel et al. | Unlocking feature visualization for deep network with MAgnitude constrained optimization | |
Cai et al. | Glitch in the matrix: A large scale benchmark for content driven audio–visual forgery detection and localization | |
Kang et al. | A deep graph network with multiple similarity for user clustering in human–computer interaction | |
CN116863327A (zh) | 一种基于双域分类器协同对抗的跨域小样本分类方法 | |
Tan et al. | Spectrogram analysis via self-attention for realizing cross-model visual-audio generation | |
Bai et al. | Prediction model of football world cup championship based on machine learning and mobile algorithm | |
Gebhart et al. | Knowledge sheaves: A sheaf-theoretic framework for knowledge graph embedding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |