CN110188210A

CN110188210A - 一种基于图正则化与模态独立的跨模态数据检索方法及系统

Info

Publication number: CN110188210A
Application number: CN201910390181.6A
Authority: CN
Inventors: 计华; 计晓赟; 王冠华
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-30
Anticipated expiration: 2039-05-10
Also published as: CN110188210B

Abstract

本发明公开了一种基于图正则化与模态独立的跨模态数据检索方法及系统，该方法包括：接收不同模态的原始数据进行特征提取，建立由一一对应的图像文本对组成的多模态数据集，所述多模态数据集包括训练集和测试集；通过最优化预定义的目标函数，将训练集中不同模态数据的特征矩阵投影到公共子空间，得到图像投影矩阵和文本投影矩阵；根据所述图像投影矩阵和文本投影矩阵，将测试集中不同模态数据的特征矩阵投影到公共子空间；计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度；按照相似度降序排列，得到前若干个特征投影矩阵所对应的数据，进行跨模态检索。

Description

一种基于图正则化与模态独立的跨模态数据检索方法及系统

技术领域

本公开属于数据检索的技术领域，涉及一种基于图正则化与模态独立的跨模态数据检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在线技术。

在多媒体信息飞速增长的大数据时代，媒体信息类型从原有的文本发展到图像、文本及视频等；获取信息的方式也从广播、报纸发展到网站、微博、微信及QQ等。在这种背景下，传统的文本搜索方式已经不能满足人们的特殊需要，因此提出了跨媒体检索，跨媒体检索中不同模态之间的关联也越来越受到关注。

然而，发明人在研发过程中发现，大多数检索方法如文本检索、图像检索和视频检索等，多集中在单一模态检索上，只能为同模态的查询和检索。因为不同模态的多媒体数据，它们分别用不同维度和不同属性来表达自身特征，所以不同模态之间具有显著的特征异构性。不同模态之间无法直接计算它们的特征相关性，检索其它模态是当前需要解决的主要问题之一。

发明内容

针对现有技术中存在的不足，本公开的一个或多个实施例提供了一种基于图正则化与模态独立的跨模态数据检索方法及系统,将不同模态数据特征矩阵投影到公共子空间时，保持不同模态数据之间的关联最大化，有效提高多媒体数据检索的准确性。

根据本公开的一个或多个实施例的一个方面，提供一种基于图正则化与模态独立的跨模态数据检索方法。

一种基于图正则化与模态独立的跨模态数据检索方法，该方法包括：

接收不同模态的原始数据进行特征提取，建立由一一对应的图像文本对组成的多模态数据集，所述多模态数据集包括训练集和测试集；

通过最优化预定义的目标函数，将训练集中不同模态数据的特征矩阵投影到公共子空间，得到图像投影矩阵和文本投影矩阵；

根据所述图像投影矩阵和文本投影矩阵，将测试集中不同模态数据的特征矩阵投影到公共子空间；

计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度；按照相似度降序排列，得到前若干个特征矩阵所对应的数据，进行跨模态检索。

进一步地，在该方法中，所述预定义的目标函数为图像投影矩阵和文本投影矩阵的相关分析项、线性回归项、图正则化项和正则化项之和：

F(U,V)＝λL(U,V)+(1-λ)S(U,V)+αH(U,V)+R(U,V)

其中，U和V分别是图像投影矩阵和文本投影矩阵，L(U,V)为图像投影矩阵和文本投影矩阵的相关分析项，S(U,V)为图像投影矩阵和文本投影矩阵的线性回归项，H(U,V)为图像投影矩阵和文本投影矩阵的图正则化项，R(U,V)为图像投影矩阵和文本投影矩阵的正则化项，λ和α为平衡参数。

进一步地，在该方法中，所述预定义的目标函数包括两个图像检索文本的目标函数和文本检索图像的目标函数。

进一步地，在该方法中，所述图像投影矩阵和文本投影矩阵的相关分析项为最小化不同模态数据中不同语义类别数据之间的欧式距离，所述图像检索文本的目标函数和文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的相关分析项均为：

其中，X和Y为图像特征矩阵和文本特征矩阵。

进一步地，在该方法中，所述图像投影矩阵和文本投影矩阵的线性回归项用于加入查询对象的标签信息；

所述图像检索文本的目标函数中的图像投影矩阵和文本投影矩阵的线性回归项为：

所述文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的线性回归项为：

其中，S表示不同模态数据的标签向量构成的语义矩阵。

进一步地，在该方法中，定义所述图像投影矩阵和文本投影矩阵的图正则化项的具体步骤包括：

构建每种模态的近邻图；

通过语义信息构建每种模态的局部标签图，使得特征空间的结构与标签空间的结构一致；

所述图像检索文本的目标函数中的图像投影矩阵和文本投影矩阵的图正则化项为：

H(U₁,V₁)＝tr(U₁X^TL₁XU₁ ^T-S^TL₁S)；

其中，U₁和V₁为图像检索文本时的图像投影矩阵和文本投影矩阵；

所述文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的图正则化项为：

H(U₂,V₂)＝tr(V₂Y^TL₂YV₂ ^T-S^TL₂S)

其中，U₂和V₂为文本检索图像时的图像投影矩阵和文本投影矩阵。

进一步地，在该方法中，所述图像检索文本的目标函数和文本检索图像的目标函数中的所述图像投影矩阵和文本投影矩阵的正则化项为：

其中，β₁,β₂为平衡参数。

根据本公开的一个或多个实施例的一个方面，提供一种计算机可读存储介质。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于图正则化与模态独立的跨模态数据检索方法。

根据本公开的一个或多个实施例的一个方面，提供一种终端设备。

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于图正则化与模态独立的跨模态数据检索方法。

根据本发明公开的一个或多个实施例的一个方面，提供一种基于图正则化与模态独立的跨模态数据检索系统。

一种基于图正则化与模态独立的跨模态数据检索系统，基于所述的一种基于图正则化与模态独立的跨模态数据检索方法，该系统包括：

多模态数据集建立模块，被配置为接收不同模态的原始数据进行特征提取，建立由一一对应的图像文本对组成的多模态数据集，所述多模态数据集包括训练集和测试集；

训练模块，被配置为通过最优化预定义的目标函数，将训练集中不同模态数据的特征矩阵投影到公共子空间，得到图像投影矩阵和文本投影矩阵；

测试模块，被配置为根据所述图像投影矩阵和文本投影矩阵，将测试集中不同模态数据的特征矩阵投影到公共子空间；

跨模态检索模块，被配置为计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度；按照相似度降序排列，得到前若干个特征矩阵所对应的数据，进行跨模态检索。

以上四个模块构成一种基于图正则化与模态独立的跨模态数据检索系统。所述的基于图正则化与模态独立的跨模态数据检索系统，能大幅度提高跨模态数据检索的准确率，适用于通用搜索引擎，具有重要的现实意义。

本公开的有益效果：

(1)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统，基于标签信息的图正则化在不同模态数据投影到语义子空间时，可以约束特征空间和语义空间的内部结构趋于一致，以此来加强多模态的相关性。在不同的跨模态任务学习中，结合语义相关性和特征聚类获得不同的变换矩阵。

(2)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统，将学习的不同模态的投影矩阵在语义子空间里进行距离度量，获得不同模态的相似性。在相同语义类中，不同模态映射后的投影矩阵应该尽可能地相似。在特征映射的过程中，通过两次线性回归将两个不同的投影矩阵映射到各自的语义空间中，相关分析操作可以将原始数据投影到潜在子空间中且相同语义的多模态数据可以进行关联。使用图像检索文本(Image→Text)和使用文本检索图像(Text→Image)，从语义方面，实现不同模态的媒体数据从底层特征到高层语义的映射，利用语义信息更好地提高子空间学习的准确率。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是根据一个或多个实施例的一种基于图正则化与模态独立的跨模态数据检索方法流程图；

图2是根据一个或多个实施例的跨模态检索流程示意图；

图3是根据一个或多个实施例的基于图正则化与模态独立的跨模态检索流程图；

图4是根据一个或多个实施例的目标函数构造示意图。

具体实施方式：

下面将结合本公开的一个或多个实施例中的附图，对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是全部的实施例。基于本公开的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合，下面结合附图与实施例对本公开作进一步说明。

实施例一

如图1所示，一种基于图正则化与模态独立的跨模态数据检索方法，该方法包括：

步骤1.接收不同模态的原始数据进行特征提取，建立由一一对应的图像文本对组成的多模态数据集，所述多模态数据集包括训练集和测试集；

步骤2.通过最优化预定义的目标函数，将训练集中不同模态数据的特征矩阵投影到公共子空间，得到图像投影矩阵和文本投影矩阵；

步骤3.根据所述图像投影矩阵和文本投影矩阵，将测试集中不同模态数据的特征矩阵投影到公共子空间；

步骤4.计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度；按照相似度降序排列，得到前若干个特征投影矩阵所对应的数据；

步骤5.进行跨模态检索。

在本实施例中，结合图2的跨模态检索基本框架对本公开的具体实施方式作进一步说明。

实验数据集：

Wikipedia由2,866个不同的图像文本对组成，该数据集被随机分为2,173个图像文本对作为训练集和693个图像文本对作为测试集，并且这两个集由10个语义类别组成。4096维CNN特征表示图像特征，文本特征表示为100维LDA特征。

Pascal Sentence由来自20个语义类别的1000个图像文本对组成。在每个语义类别中有50个图像文本对，选择其中30个作为训练集，其余作为测试集。该数据集通过100维LDA特征表示文本特征，4096维CNN特征来表示图像特征。

INRIA-Websearch包含来自353个语义类别的71478个图像文本对，通过选择最大的100个类别构建了14698个图像文本对。该数据集随机选择其70％作为训练集，30％作为测试集。每个图像和文本特征分别由4096维CNN特征和1000维LDA特征表示。

基于图正则化与模态独立的跨模态检索方法，如图3所示，包括以下几个步骤：

步骤1.获取多模态数据集，包括训练数据集和测试数据集。对不同模态的原始数据进行特征提取，每个样本都包括图像文本一一对应。

步骤2.对于训练数据集，定义目标函数，利用迭代方法最优化目标函数。

定义目标函数：

F(U,V)＝λL(U,V)+(1-λ)S(U,V)+αH(U,V)+R(U,V)

其中，图像特征矩阵X＝[X₁,X₂,…,X_n]∈R^p×n和文本特征矩阵Y＝[Y₁,Y₂,…,Y_n]∈R^q×n。S＝[S₁,S₂,…,S_n]∈R^c×n表示语义类别数量为C的语义矩阵，当它的第i列(x_i,y_i)表示的语义与第j列(xj，yj)表示的语义相同，S(i,j)＝1,否则，S(i,j)＝0.图像投影矩阵和文本投影矩阵分别表示为U∈R^c×p和V∈R^c×q。

在该目标函数中，L(U,V)是相关分析项，用于最小化子空间中多模态数据之间的差异，不同模态数据在潜在子空间中保持成对近邻；S(U,V)是线性回归项，表示查询模态数据的特征空间转换为语义空间，在相同的语义集中查询多模态数据；H(U,V)是图正则化项，尽可能地保持在公共子空间中数据的原始分布，相邻数据尽可能地在公共子空间中彼此关联；R(U,V)是正则化项，控制投影矩阵的复杂度，防止过拟合。

分别得到图像检索文本(Image→Text)和文本检索图像(Text→Image)的目标函数，图3展示了整合目标函数的步骤。

1)设X是图像的特征矩阵，Y是文本的特征矩阵。U和V分别是图像和文本的投影矩阵。目标是最小化子空间中多模态数据之间的差异，而使不同模态数据在潜在子空间中彼此保持最大关联。成对的异构数据在公共子空间中的表示应该尽可能的相同，也就是两者之间的欧式距离尽可能的小。相关分析项L(U,V)为：

2)加入类别标记的数据，用相同的标签信息集中查询多模态数据对。只考虑查询对象的标签信息比同时考虑查询对象和被检索图像的标签信息，所得到的折衷性能更有针对性，效果更好。只有确保查询数据语义特征的正确映射，才能提高后续检索的正确率。因为一旦查询数据的语义被错误的预测，很难保证后续过程中检索到于其相关的其他模态的媒体数据。线性回归项S(U,V)为：

3)构建基于标签信息的各模态近邻图。构建近邻图的方式相同，根据不同检索任务中的查询对象构建相对应模态的标签近邻图，使得特征空间的结构与标签空间的结构一致，尽可能地保持在公共子空间中数据的原始分布，相邻数据尽可能的在公共子空间中关联最大化。

定义一个无向对称图H＝(V_x,W_x),其中V_x是X中数据的集合，W_x表示相似度矩阵。W_x中的W_ij定义如下：

其中N_k(X_j)表示X_j的k个近邻，这k个近邻是通过计算数据对在原始空间中的距离，选取相隔最近的k个数据得到的。

其中L是对称半正定矩阵，D是对角矩阵，对角元素d_ii＝∑_jw_ij

由此得到图像的图正则化项H(U₁,V₁)，其定义如下：

同样地，在计算得出文本的相似度矩阵W、对称矩阵D和拉普拉斯矩阵L后，可得到文本的图正则化项H(U₂,V₂)，其定义如下：

H(U₂,V₂)＝tr(V₂Y^TL₂YV₂ ^T-S^TL₂S)

4)正则化项控制投影矩阵的复杂度，防止过拟合，β₁andβ₂是平衡正则化项的参数。正则化项R(U,V)为：

5)将上述的1)、2)、3)及4)这四步整合，得到图像检索文本(Image→Text)和文本检索图像(Text→Image)的目标函数：

所述图像检索文本的目标函数F(U₁,V₁)为：

其中，U₁和V₁为图像检索文本时的图像投影矩阵和文本投影矩阵，X和Y为图像特征矩阵和文本特征矩阵，S为语义类别矩阵，β₁,β₂为平衡参数；

所述文本检索图像的目标函数F(U₂,V₂)为：

步骤3.求解目标函数，将不同模态数据的特征矩阵投影到公共子空间，得到图像投影矩阵和文本投影矩阵。

本步骤的目标函数求解方法为：

1)通过固定目标函数U₁或者U₂，求解图像投影矩阵。

2)通过固定目标函数V₁或者V₂，求解文本投影矩阵。

步骤4.对于测试数据集，根据步骤3所得的投影矩阵，将测试数据集中的图像和文本投影到公共子空间。计算投影后的矩阵与公共子空间中的其它数据之间的相似度，返回与之相似度最大的前k个特征投影矩阵所对应的数据。

步骤5.进行跨模态检索。

这里我们采用常用的平均准确率均值(MAP)来评估该方法的检索结果。

具体而言，得到每个检索样本的平均准确率(AP)，计算它们的平均值得到MAP。其中n是测试集的大小，R是相关项的数量，rel_k＝1时代表第k个检索的结果中有与查询样本相关的样本，否则rel_k＝0。

(1)Image→Text检索过程:

输入:图像特征矩阵X和文本特征矩阵Y，语义类别矩阵S，平衡参数λ,α,β₁,β₂.

将不同模态数据的特征矩阵投影到公共子空间，得到图像投影矩阵U₁和文本投影矩阵V₁.然后计算对称半正定矩阵L₁，通过构建局部标签图，不同模态的特征更接近真实的标签，丰富了相似特征的语义信息。

初始化图像投影矩阵U₁和文本投影矩阵V₁为单位矩阵

求解最优解，根据公式U₁＝(XX^T+β₁I+αX^TL₁X)^-1(XS^T+λXY^TV₁-λXS^T)和公式V₁＝λYX^TU₁(λYY^T+β₂I)^-1不断迭代，直至结果收敛到最优的U₁和V₁。

此方法的实现流程如下：

为了评估所提出的方法检索时的性能，分别在三个数据集上进行了实验，与其他九种方法CCA,SM,SCM,T-VCCA,GMLDA,GMMFA,MDCR,JFSSL,JLSLR进行比较。实验是跨媒体检索的两个子任务“图像→文本”任务和“文本→图像”任务。使用传统的距离度量方法——欧几里得距离度量法计算不同模态对象的相似度，如表1至表3所示，显示了在不同数据集的实验结果，实验表明该方法具有一定的稳定性和良好的性能。根据分析，本发明的方法优于其他方法的原因是：一方面，考虑到图像文本对的对应关系，并且只考虑了查询对象的语义信息。另一方面，在标签的语义信息约束下，可以更好地保持近邻图的局部相关性，从而提高了检索准确率。

表1

表2

表3

实施例二

实施例三

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、其上存储有指令的打孔卡或凹槽内凸起结构的其它设备、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言——诸如C++等，以及常规的过程式编程语言——诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机；或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

实施例四

以上四个模块构成一种基于图正则化与模态独立的跨模态数据检索系统。本发明提供的基于图正则化与模态独立的跨模态数据检索系统，能大幅度提高跨模态数据检索的准确率，适用于通用搜索引擎，具有重要的现实意义。

应当注意，尽管在上文的详细描述中提及了设备的若干模块或子模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本公开的有益效果：

(1)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统，对多模态原始数据进行特征提取，获得训练多模态数据集，保存不同模态数据的特征向量。通过构建标签图使得特征空间与语义空间的内部结构趋于一致，实现不同模态的不同类别数据趋于相对应的语义信息。对不同的跨模态检索任务学习不同的两对投影，分别是图像检索文本和文本检索图像。着重考虑检索对象的语义信息使得检索性能进一步提升。使用三个数据集进行了实验，实验用MAP值进行评估，实验结果表明了此方法具有检索有效性。

(2)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统，基于标签信息的图正则化在不同模态数据投影到语义子空间时，可以约束特征空间和语义空间的内部结构趋于一致，以此来加强多模态的相关性。在不同的跨模态任务学习中，结合语义相关性和特征聚类获得不同的变换矩阵。

(3)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统，将学习的不同模态的投影矩阵在语义子空间里进行距离度量，获得不同模态的相似性。在相同的语义类中，不同模态映射后的投影矩阵应该尽可能地相似。在特征映射的过程中，通过两次线性回归将两个不同的投影矩阵映射到各自的语义空间中，相关分析操作可以将原始数据投影到潜在子空间中且相同语义的多模态数据可以进行关联。使用图像检索文本(Image→Text)和使用文本检索图像(Text→Image)，从语义方面，实现不同模态的媒体数据从底层特征到高层语义的映射，利用语义信息更好地提高子空间学习的准确率。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换及改进等，均应包含在本公开的保护范围之内。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽范围。

Claims

1.一种基于图正则化与模态独立的跨模态数据检索方法，其特征在于，该方法包括：

计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度；按照相似度降序排列，得到前若干个特征投影矩阵所对应的数据，进行跨模态检索。

2.如权利要求1所述的一种基于图正则化与模态独立的跨模态数据检索方法，其特征在于，在该方法中，所述预定义的目标函数为图像投影矩阵和文本投影矩阵的相关分析项、线性回归项、图正则化项和正则化项之和：

F(U,V)＝λL(U,V)+(1-λ)S(U,V)+αH(U,V)+R(U,V)

3.如权利要求1所述的一种基于图正则化与模态独立的跨模态数据检索方法，其特征在于，在该方法中，所述预定义的目标函数包括图像检索文本的目标函数和文本检索图像的目标函数。

4.如权利要求3所述的一种基于图正则化与模态独立的跨模态数据检索方法，其特征在于，在该方法中，所述图像投影矩阵和文本投影矩阵的相关分析项为最小化不同模态数据中不同语义类别数据之间的欧式距离，所述图像检索文本的目标函数和文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的相关分析项均为：

其中，X和Y为图像特征矩阵和文本特征矩阵。

5.如权利要求3所述的一种基于图正则化与模态独立的跨模态数据检索方法，其特征在于，在该方法中，所述图像投影矩阵和文本投影矩阵的线性回归项用于加入查询对象的标签信息；

其中，S表示不同模态数据的标签向量构成的语义矩阵。

6.如权利要求3所述的一种基于图正则化与模态独立的跨模态数据检索方法，其特征在于，在该方法中，定义所述图像投影矩阵和文本投影矩阵的图正则化项的具体步骤包括：

构建每种模态的近邻图；

H(U₁,V₁)＝tr(U₁X^TL₁XU₁ ^T-S^TL₁S)；

H(U₂,V₂)＝tr(V₂Y^TL₂YV₂ ^T-S^TL₂S)

7.如权利要求3所述的一种基于图正则化与模态独立的跨模态数据检索方法，其特征在于，在该方法中，所述图像检索文本的目标函数和文本检索图像的目标函数中的所述图像投影矩阵和文本投影矩阵的正则化项为：

其中，β₁,β₂为平衡参数。

8.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-7任一项所述的一种基于图正则化与模态独立的跨模态数据检索方法。

9.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行如权利要求1-7任一项所述的一种基于图正则化与模态独立的跨模态数据检索方法。

10.一种基于图正则化与模态独立的跨模态数据检索系统，其特征在于，基于如权利要求1-7任一项所述的一种基于图正则化与模态独立的跨模态数据检索方法，包括：

跨模态检索模块，被配置为计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度；按照相似度降序排列，得到前若干个特征投影矩阵所对应的数据，进行跨模态检索。