CN107633259B - 一种基于稀疏字典表示的跨模态学习方法 - Google Patents
一种基于稀疏字典表示的跨模态学习方法 Download PDFInfo
- Publication number
- CN107633259B CN107633259B CN201710722444.XA CN201710722444A CN107633259B CN 107633259 B CN107633259 B CN 107633259B CN 201710722444 A CN201710722444 A CN 201710722444A CN 107633259 B CN107633259 B CN 107633259B
- Authority
- CN
- China
- Prior art keywords
- modality
- model
- modal
- data
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
一种基于稀疏字典表示的跨模态学习方法,包括:结合最大化不同模态数据之间的语义相关性以及最小化特征转换过程中造成的单一模态的信息损失,建立适用于多模态学习的模型;利用联合优化的方法优化所建立的模型;利用优化得到的模型挖掘两种模态之间的语义信息,实现多模态领域的应用。本发明的一种基于稀疏字典表示的跨模态学习方法,将不同模态的数据嵌入到一个公共的空间中,在最大化不同模态数据的语义相关性的基础上,最小化空间转换中产生的信息损失。
Description
技术领域
本发明涉及一种跨模态学习方法。特别是涉及一种基于稀疏字典表示的跨模态学习方法。
背景技术
随着信息技术的快速发展,多模态数据变得越来越重要。例如:在搜索引擎的网页中,目标物体常常是利用图像或者视频来表示,而图像或视频周围常有文本加以描述解释。随着多模态数据的大量涌现,跨模态检索和分析成为人们关注的重要问题。所以如何建立不同模态之间的语义关系成为解决跨模态检索和分析技术的关键问题之一。
在过去的几年中,研究者们提出了大量的建立不同模态之间语义关系的方法。大部分多模态学习的方法都是基于相似度或者是基于距离度量的方法。典型相关分析是其中的一个经典方法。这些方法的目标大都基于提取不同的模态的数据之间语义相关的成分,将不同模态的数据映射到一个公共的空间中,如果不同模态的数据描述的是同一个物体,那么它们的语义是相近的,所以它们在公共空间中的特征是相关的,否则是不相关的。另一方面,描述同一物体的不同模态的数据之间除了存在语义相关信息外,不同模态的数据之间又存在不相关的信息,而当前的跨模态方法大都忽略了这些信息,因而在建立语义相关的过程造成了信息损失。针对这个问题,本发明提出了一种联合优化的跨模态学习方法,将不同模态的数据映射到一个公共空间,在最大化不同模态数据之间语义相关性的同时,确保公共空间中的嵌入特征尽可能精确地重构原始信号。
近年来,稀疏表示理论在模式识别、机器学习和计算机视觉领域得到了广泛的关注和研究,并在人脸识别、图像分类和图像去噪等领域获得了成功的应用。作为一种特征表示技术,稀疏表示的核心在于利用一个过完备字典的少量基向量来尽可能精确地重构原始信号。利用输入的数据集学习一个自适应的完备字典,可以得到原始数据集的近似特征表示。本发明在稀疏字典表示的基础上,利用不同模态在公共空间中的嵌入特征尽可能地重构原始特征,尽可能地保持单一模态的语义信息,同时挖掘不同模态之间的相关语义信息。
发明内容
本发明所要解决的技术问题是,提供一种基于稀疏字典表示的跨模态学习方法,在稀疏字典表示的基础上,将不同模态的数据特征映射到公共空间中,并利用输入数据集对单一模态数据学习一个自适应于它的字典,利用单一模态的数据在公共空间中的嵌入特征来尽可能地重构原始数据,同时在公共空间中尽可能地挖掘不同模态之间的语义相关信息。
本发明所采用的技术方案是:一种基于稀疏字典表示的跨模态学习方法,包括如下步骤:
1)结合最大化不同模态数据之间的语义相关性以及最小化特征转换过程中造成的单一模态的信息损失,建立适用于多模态学习的模型:
其中,xi,yi分别是观察样本不同模态的特征,表示第一种模态的数据矩阵的第i行,dx表示第一种模态的维度,表示第二种模态的数据矩阵的第i行,dy表示第二种模态的维度,n表示观察样本集的对数,其中表示第一种模态空间的映射矩阵,表示第二种模态空间的映射矩阵,d表示公共空间的维度,Dx是第一种模态特征的重构字典,Dy是第二种模态特征的重构字典,λ表示权重系数,||·||F表示Frobenius范数;
2)利用联合优化的方法优化所建立的模型;
3)利用优化得到的模型挖掘两种模态之间的语义信息,实现多模态领域的应用。
步骤2)所述的优化所建立的模型包括:
(1)首先:利用模型的上限来代替模型:
因此所述模型写为:
(3)引入变量Cx和Cy,上式转化成一个凸函数:
(4)将转化为凸函数的模型利用交叉优化的方法进行求解。
本发明的一种基于稀疏字典表示的跨模态学习方法,将不同模态的数据嵌入到一个公共的空间中,在最大化不同模态数据的语义相关性的基础上,最小化空间转换中产生的信息损失。其优势主要体现在:
(1)新颖性:与传统的跨模态学习方法不同的是,本发明不仅仅考虑建立不同模态数据之间的语义相关性,同时考虑转换过程中的信息损失。在尽可能地保持单一模态数据信息的基础上,最大化不同模态数据之间的相关性。
(2)有效性:通过实验证明了与传统的跨模态方法相比较,本发明设计的算法在检索应用中(以图搜文,以文搜图)占有明显的优势。
(3)多模态性:本发明不仅仅适用于两种模态的数据,同时也可以扩展为三种或三种以上的模态数据。
(4)实用性:简单可行,可以用在多模态信息检索,零样本学习等应用中。
附图说明
图1是本发明一种基于稀疏字典表示的跨模态学习方法的流程图;
图2a是发明一种基于稀疏字典表示的跨模态学习方法在跨模态检索中以图搜文的应用;
图2b是发明一种基于稀疏字典表示的跨模态学习方法在跨模态检索中以文搜图的应用。
具体实施方式
下面结合实施例和附图对本发明的一种基于稀疏字典表示的跨模态学习方法做出详细说明。
本发明一种基于稀疏字典表示的跨模态学习方法,是针对当前的多模态转换技术只考虑挖掘不同模态特征之间的相关语义关系,而忽视了这一过程中单一模态特征的信息损失的缺点,提出了一种联合优化不同模态之间语义相关性和单一模态信息损失的方法。通过最大化不同模态数据间的相关性来描述同一物体的不同模态数据之间的潜在语义关系,同时最小化建立相关语义关系中产生的信息损失。
图1是本发明一种基于稀疏字典表示的跨模态学习方法的流程图,X表示图像样本的特征集合,Y表示文本描述的特征集合,Cx和Cy分别表示图像特征和文本特征在公共空间中的嵌入特征,传统的方法只考虑在公共的空间中最大化不同模态数据之间的相关性,本发明在此基础上,在字典学习的框架下最小化单一模态的信息损失。Px和Py表示将不同模态的数据特征嵌入到公共空间的转换矩阵,Dx和Dy表示利用公共空间的特征重构出原始的数据特征的字典矩阵。
本发明的一种基于稀疏字典表示的跨模态学习方法,具体包括如下步骤:
1)结合最大化不同模态数据之间的语义相关性以及最小化特征转换过程中造成的单一模态的信息损失,建立适用于多模态学习的模型:
其中,xi,yi分别是观察样本不同模态的特征,表示第一种模态的数据矩阵的第i行,dx表示第一种模态的维度,表示第二种模态的数据矩阵的第i行,dy表示第二种模态的维度,n表示观察样本集的对数,其中表示第一种模态空间的映射矩阵,表示第二种模态空间的映射矩阵,d表示公共空间的维度,Dx是第一种模态特征的重构字典,Dy是第二种模态特征的重构字典,λ表示权重系数,||·||F表示Frobenius范数;
2)利用联合优化的方法优化所建立的模型;所述的优化所建立的模型包括:
(1)首先:利用模型的上限来代替模型:
因此所述模型写为:
(3)引入变量Cx和Cy,上式转化成一个凸函数:
(4)将转化为凸函数的模型利用交叉优化的方法进行求解。
3)利用优化得到的模型挖掘两种模态之间的语义信息,实现多模态领域的应用。
如图2a、图2b所示,是利用本发明的一种基于稀疏字典表示的跨模态学习方法在跨模态检索中的应用。图2a以图搜文:对于测试图像,首先提取图像特征xt,然后利用学习到的特征转换矩阵Px将图像特征转换到公共空间中,得到测试样本在公共空间中的嵌入特征cx,然后在公共空间中计算测试样本的嵌入特征与文本信息的嵌入特征的相似度,并对所得的相似度进行排序,得到最终的检索结果。图2b是以文搜图:给定文本描述,首先提取文本描述的特征yt,然后利用学习到的特征转换矩阵Py将文本特征转换到公共空间中,得到文本描述在公共空间中的嵌入特征cy,然后在公共空间中计算文本描述的嵌入特征与图像的嵌入特征的相似度,最后对相似度进行排序,得到最终的检索结果。
Claims (1)
1.一种基于稀疏字典表示的跨模态学习方法,其特征在于,包括如下步骤:
1)结合最大化不同模态数据之间的语义相关性以及最小化特征转换过程中造成的单一模态的信息损失,建立适用于多模态学习的模型:
其中,xi,yi分别是观察样本不同模态的特征,dx表示第一种模态的维度,dy表示第二种模态的维度,n表示观察样本集的对数,其中表示第一种模态空间的映射矩阵,表示第二种模态空间的映射矩阵,d表示公共空间的维度,Dx是第一种模态特征的重构字典,Dy是第二种模态特征的重构字典,λ表示权重系数,||·||F表示Frobenius范数;
2)利用联合优化的方法优化所建立的模型;包括:
(1)首先:利用模型的上限来代替模型:
因此所述模型写为:
(3)引入变量Cx和Cy,上式转化成一个凸函数:
(4)将转化为凸函数的模型利用交叉优化的方法进行求解;
3)利用优化得到的模型挖掘两种模态之间的语义信息,实现多模态领域的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710722444.XA CN107633259B (zh) | 2017-08-21 | 2017-08-21 | 一种基于稀疏字典表示的跨模态学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710722444.XA CN107633259B (zh) | 2017-08-21 | 2017-08-21 | 一种基于稀疏字典表示的跨模态学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107633259A CN107633259A (zh) | 2018-01-26 |
CN107633259B true CN107633259B (zh) | 2020-03-31 |
Family
ID=61100308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710722444.XA Active CN107633259B (zh) | 2017-08-21 | 2017-08-21 | 一种基于稀疏字典表示的跨模态学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107633259B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885111B2 (en) * | 2018-04-16 | 2021-01-05 | International Business Machines Corporation | Generating cross-domain data using variational mapping between embedding spaces |
CN112883218A (zh) * | 2019-11-29 | 2021-06-01 | 智慧芽信息科技(苏州)有限公司 | 一种图文联合表征的搜索方法、系统、服务器和存储介质 |
CN112650868B (zh) * | 2020-12-29 | 2023-01-20 | 苏州科达科技股份有限公司 | 图像检索方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488713A (zh) * | 2013-09-10 | 2014-01-01 | 浙江大学 | 一种可直接度量不同模态数据间相似性的跨模态检索方法 |
CN104317837A (zh) * | 2014-10-10 | 2015-01-28 | 浙江大学 | 一种基于主题模型的跨模态检索方法 |
CN106485271A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 一种基于多模态字典学习的零样本分类方法 |
CN106844518A (zh) * | 2016-12-29 | 2017-06-13 | 天津中科智能识别产业技术研究院有限公司 | 一种基于子空间学习的不完整跨模态检索方法 |
-
2017
- 2017-08-21 CN CN201710722444.XA patent/CN107633259B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488713A (zh) * | 2013-09-10 | 2014-01-01 | 浙江大学 | 一种可直接度量不同模态数据间相似性的跨模态检索方法 |
CN104317837A (zh) * | 2014-10-10 | 2015-01-28 | 浙江大学 | 一种基于主题模型的跨模态检索方法 |
CN106485271A (zh) * | 2016-09-30 | 2017-03-08 | 天津大学 | 一种基于多模态字典学习的零样本分类方法 |
CN106844518A (zh) * | 2016-12-29 | 2017-06-13 | 天津中科智能识别产业技术研究院有限公司 | 一种基于子空间学习的不完整跨模态检索方法 |
Non-Patent Citations (9)
Title |
---|
"Coupled dictionary learning and feature mapping for cross-modal retrieval";Xing Xu等;《2015 IEEE International Conference on Multimedia and Expo (ICME)》;20150703;第1-6页 * |
"Coupled Dictionary Learning with Common Label Alignment for Cross-Modal Retrieval";Xu Tang等;《International Conference on Intelligent Science and Big Data Engineering》;20151022;第154-162页 * |
"Dictionary Learning Based Hashing for Cross-Modal Retrieval";Xin-Shun Xu;《Proceedings of the 24th ACM international conference on Multimedia》;20161019;第177-181页 * |
"Discriminative Dictionary Learning With Common Label Alignment for Cross-Modal Retrieval";Cheng Deng等;《IEEE Transactions on Multimedia》;20160229;第18卷(第2期);第208-218页 * |
"Generalized Coupled Dictionary Learning Approach With Applications to Cross-Modal Matching";Devraj Mandal等;《IEEE Transactions on Image Processing》;20160831;第25卷(第8期);第3826-3837页 * |
"Semi-supervised Coupled Dictionary Learning for Cross-modal Retrieval in Internet Images and Texts";Xing Xu等;《Proceedings of the 23rd ACM international conference on Multimedia》;20151030;第847-850页 * |
"Unsupervised domain adaptation for zero-shot learning";Elyor Kodirov等;《2015 IEEE International Conference on Computer Vision》;20151203;第2452-2460页 * |
"基于判别性字典学习与类标对齐的跨模态检索";唐旭;《万方数据企业知识服务平台》;20170526;第3节 * |
"跨模态数据分析与应用研究";王开业;《中国科学院大学博士论文》;20151231;第2-5节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107633259A (zh) | 2018-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
Liu et al. | Image annotation via graph learning | |
CN111985538A (zh) | 基于语义辅助注意力机制的小样本图片分类模型及方法 | |
CN112687388B (zh) | 一种基于文本检索的可解释性智慧医疗辅助诊断系统 | |
CN107633259B (zh) | 一种基于稀疏字典表示的跨模态学习方法 | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
CN105138977A (zh) | 一种大数据环境下的人脸识别方法 | |
CN103559192A (zh) | 一种基于跨模态稀疏主题建模的跨媒体检索方法 | |
CN116204706A (zh) | 一种文本内容结合图像分析的多模态内容检索方法与系统 | |
Gao et al. | Cross modal similarity learning with active queries | |
CN116611024A (zh) | 一种基于事实和情感对立性的多模态反讽检测方法 | |
CN113377981A (zh) | 基于多任务深度哈希学习的大规模物流商品图像检索方法 | |
CN110990597A (zh) | 基于文本语义映射的跨模态数据检索系统及其检索方法 | |
Zhang et al. | Training visual-semantic embedding network for boosting automatic image annotation | |
Bokhari et al. | Multimodal information retrieval: Challenges and future trends | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
CN115329120A (zh) | 一种知识图谱嵌入注意力机制的弱标注哈希图像检索架构 | |
Wang et al. | LCM-Captioner: A lightweight text-based image captioning method with collaborative mechanism between vision and text | |
Song et al. | Sparse multi-modal topical coding for image annotation | |
CN112182273B (zh) | 基于语义约束矩阵分解哈希的跨模态检索方法及其系统 | |
CN116385946B (zh) | 面向视频的目标片段定位方法、系统、存储介质及设备 | |
CN105117735A (zh) | 一种大数据环境下的图像检测方法 | |
CN105069136A (zh) | 一种大数据环境下的图像识别方法 | |
CN115098646B (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
CN109255098B (zh) | 一种基于重构约束的矩阵分解哈希方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |