CN107633259B

CN107633259B - 一种基于稀疏字典表示的跨模态学习方法

Info

Publication number: CN107633259B
Application number: CN201710722444.XA
Authority: CN
Inventors: 冀中; 于云龙; 庞彦伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2020-03-31
Anticipated expiration: 2037-08-21
Also published as: CN107633259A

Abstract

一种基于稀疏字典表示的跨模态学习方法，包括：结合最大化不同模态数据之间的语义相关性以及最小化特征转换过程中造成的单一模态的信息损失，建立适用于多模态学习的模型；利用联合优化的方法优化所建立的模型；利用优化得到的模型挖掘两种模态之间的语义信息，实现多模态领域的应用。本发明的一种基于稀疏字典表示的跨模态学习方法，将不同模态的数据嵌入到一个公共的空间中，在最大化不同模态数据的语义相关性的基础上，最小化空间转换中产生的信息损失。

Description

一种基于稀疏字典表示的跨模态学习方法

技术领域

本发明涉及一种跨模态学习方法。特别是涉及一种基于稀疏字典表示的跨模态学习方法。

背景技术

随着信息技术的快速发展，多模态数据变得越来越重要。例如：在搜索引擎的网页中，目标物体常常是利用图像或者视频来表示，而图像或视频周围常有文本加以描述解释。随着多模态数据的大量涌现，跨模态检索和分析成为人们关注的重要问题。所以如何建立不同模态之间的语义关系成为解决跨模态检索和分析技术的关键问题之一。

在过去的几年中，研究者们提出了大量的建立不同模态之间语义关系的方法。大部分多模态学习的方法都是基于相似度或者是基于距离度量的方法。典型相关分析是其中的一个经典方法。这些方法的目标大都基于提取不同的模态的数据之间语义相关的成分，将不同模态的数据映射到一个公共的空间中，如果不同模态的数据描述的是同一个物体，那么它们的语义是相近的，所以它们在公共空间中的特征是相关的，否则是不相关的。另一方面，描述同一物体的不同模态的数据之间除了存在语义相关信息外，不同模态的数据之间又存在不相关的信息，而当前的跨模态方法大都忽略了这些信息，因而在建立语义相关的过程造成了信息损失。针对这个问题，本发明提出了一种联合优化的跨模态学习方法，将不同模态的数据映射到一个公共空间，在最大化不同模态数据之间语义相关性的同时，确保公共空间中的嵌入特征尽可能精确地重构原始信号。

近年来，稀疏表示理论在模式识别、机器学习和计算机视觉领域得到了广泛的关注和研究，并在人脸识别、图像分类和图像去噪等领域获得了成功的应用。作为一种特征表示技术，稀疏表示的核心在于利用一个过完备字典的少量基向量来尽可能精确地重构原始信号。利用输入的数据集学习一个自适应的完备字典，可以得到原始数据集的近似特征表示。本发明在稀疏字典表示的基础上，利用不同模态在公共空间中的嵌入特征尽可能地重构原始特征，尽可能地保持单一模态的语义信息，同时挖掘不同模态之间的相关语义信息。

发明内容

本发明所要解决的技术问题是，提供一种基于稀疏字典表示的跨模态学习方法，在稀疏字典表示的基础上，将不同模态的数据特征映射到公共空间中，并利用输入数据集对单一模态数据学习一个自适应于它的字典，利用单一模态的数据在公共空间中的嵌入特征来尽可能地重构原始数据，同时在公共空间中尽可能地挖掘不同模态之间的语义相关信息。

本发明所采用的技术方案是：一种基于稀疏字典表示的跨模态学习方法，包括如下步骤：

1)结合最大化不同模态数据之间的语义相关性以及最小化特征转换过程中造成的单一模态的信息损失，建立适用于多模态学习的模型：

其中，x_i,y_i分别是观察样本不同模态的特征，

表示第一种模态的数据矩阵

的第i行，d_x表示第一种模态的维度，

表示第二种模态的数据矩阵

的第i行，d_y表示第二种模态的维度，n表示观察样本集的对数，

其中

表示第一种模态空间的映射矩阵，

表示第二种模态空间的映射矩阵，d表示公共空间的维度，D_x是第一种模态特征的重构字典，D_y是第二种模态特征的重构字典，λ表示权重系数，||·||_F表示Frobenius范数；

2)利用联合优化的方法优化所建立的模型；

3)利用优化得到的模型挖掘两种模态之间的语义信息，实现多模态领域的应用。

步骤2)所述的优化所建立的模型包括：

(1)首先：利用模型的上限来代替模型：

(2)因为有

所以模型的第三项转化为：

因此所述模型写为：

(3)引入变量C_x和C_y，上式转化成一个凸函数：

(4)将转化为凸函数的模型利用交叉优化的方法进行求解。

本发明的一种基于稀疏字典表示的跨模态学习方法，将不同模态的数据嵌入到一个公共的空间中，在最大化不同模态数据的语义相关性的基础上，最小化空间转换中产生的信息损失。其优势主要体现在：

(1)新颖性：与传统的跨模态学习方法不同的是，本发明不仅仅考虑建立不同模态数据之间的语义相关性，同时考虑转换过程中的信息损失。在尽可能地保持单一模态数据信息的基础上，最大化不同模态数据之间的相关性。

(2)有效性：通过实验证明了与传统的跨模态方法相比较，本发明设计的算法在检索应用中(以图搜文，以文搜图)占有明显的优势。

(3)多模态性：本发明不仅仅适用于两种模态的数据，同时也可以扩展为三种或三种以上的模态数据。

(4)实用性：简单可行，可以用在多模态信息检索，零样本学习等应用中。

附图说明

图1是本发明一种基于稀疏字典表示的跨模态学习方法的流程图；

图2a是发明一种基于稀疏字典表示的跨模态学习方法在跨模态检索中以图搜文的应用；

图2b是发明一种基于稀疏字典表示的跨模态学习方法在跨模态检索中以文搜图的应用。

具体实施方式

下面结合实施例和附图对本发明的一种基于稀疏字典表示的跨模态学习方法做出详细说明。

本发明一种基于稀疏字典表示的跨模态学习方法，是针对当前的多模态转换技术只考虑挖掘不同模态特征之间的相关语义关系，而忽视了这一过程中单一模态特征的信息损失的缺点，提出了一种联合优化不同模态之间语义相关性和单一模态信息损失的方法。通过最大化不同模态数据间的相关性来描述同一物体的不同模态数据之间的潜在语义关系，同时最小化建立相关语义关系中产生的信息损失。

图1是本发明一种基于稀疏字典表示的跨模态学习方法的流程图，X表示图像样本的特征集合，Y表示文本描述的特征集合，C_x和C_y分别表示图像特征和文本特征在公共空间中的嵌入特征，传统的方法只考虑在公共的空间中最大化不同模态数据之间的相关性，本发明在此基础上，在字典学习的框架下最小化单一模态的信息损失。P_x和P_y表示将不同模态的数据特征嵌入到公共空间的转换矩阵，D_x和D_y表示利用公共空间的特征重构出原始的数据特征的字典矩阵。

本发明的一种基于稀疏字典表示的跨模态学习方法，具体包括如下步骤：