CN110188210A - 一种基于图正则化与模态独立的跨模态数据检索方法及系统 - Google Patents
一种基于图正则化与模态独立的跨模态数据检索方法及系统 Download PDFInfo
- Publication number
- CN110188210A CN110188210A CN201910390181.6A CN201910390181A CN110188210A CN 110188210 A CN110188210 A CN 110188210A CN 201910390181 A CN201910390181 A CN 201910390181A CN 110188210 A CN110188210 A CN 110188210A
- Authority
- CN
- China
- Prior art keywords
- text
- projection matrix
- image
- matrix
- regularization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图正则化与模态独立的跨模态数据检索方法及系统,该方法包括:接收不同模态的原始数据进行特征提取,建立由一一对应的图像文本对组成的多模态数据集,所述多模态数据集包括训练集和测试集;通过最优化预定义的目标函数,将训练集中不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵和文本投影矩阵;根据所述图像投影矩阵和文本投影矩阵,将测试集中不同模态数据的特征矩阵投影到公共子空间;计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度;按照相似度降序排列,得到前若干个特征投影矩阵所对应的数据,进行跨模态检索。
Description
技术领域
本公开属于数据检索的技术领域,涉及一种基于图正则化与模态独立的跨模态数据检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在线技术。
在多媒体信息飞速增长的大数据时代,媒体信息类型从原有的文本发展到图像、文本及视频等;获取信息的方式也从广播、报纸发展到网站、微博、微信及QQ等。在这种背景下,传统的文本搜索方式已经不能满足人们的特殊需要,因此提出了跨媒体检索,跨媒体检索中不同模态之间的关联也越来越受到关注。
然而,发明人在研发过程中发现,大多数检索方法如文本检索、图像检索和视频检索等,多集中在单一模态检索上,只能为同模态的查询和检索。因为不同模态的多媒体数据,它们分别用不同维度和不同属性来表达自身特征,所以不同模态之间具有显著的特征异构性。不同模态之间无法直接计算它们的特征相关性,检索其它模态是当前需要解决的主要问题之一。
发明内容
针对现有技术中存在的不足,本公开的一个或多个实施例提供了一种基于图正则化与模态独立的跨模态数据检索方法及系统,将不同模态数据特征矩阵投影到公共子空间时,保持不同模态数据之间的关联最大化,有效提高多媒体数据检索的准确性。
根据本公开的一个或多个实施例的一个方面,提供一种基于图正则化与模态独立的跨模态数据检索方法。
一种基于图正则化与模态独立的跨模态数据检索方法,该方法包括:
接收不同模态的原始数据进行特征提取,建立由一一对应的图像文本对组成的多模态数据集,所述多模态数据集包括训练集和测试集;
通过最优化预定义的目标函数,将训练集中不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵和文本投影矩阵;
根据所述图像投影矩阵和文本投影矩阵,将测试集中不同模态数据的特征矩阵投影到公共子空间;
计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度;按照相似度降序排列,得到前若干个特征矩阵所对应的数据,进行跨模态检索。
进一步地,在该方法中,所述预定义的目标函数为图像投影矩阵和文本投影矩阵的相关分析项、线性回归项、图正则化项和正则化项之和:
F(U,V)=λL(U,V)+(1-λ)S(U,V)+αH(U,V)+R(U,V)
其中,U和V分别是图像投影矩阵和文本投影矩阵,L(U,V)为图像投影矩阵和文本投影矩阵的相关分析项,S(U,V)为图像投影矩阵和文本投影矩阵的线性回归项,H(U,V)为图像投影矩阵和文本投影矩阵的图正则化项,R(U,V)为图像投影矩阵和文本投影矩阵的正则化项,λ和α为平衡参数。
进一步地,在该方法中,所述预定义的目标函数包括两个图像检索文本的目标函数和文本检索图像的目标函数。
进一步地,在该方法中,所述图像投影矩阵和文本投影矩阵的相关分析项为最小化不同模态数据中不同语义类别数据之间的欧式距离,所述图像检索文本的目标函数和文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的相关分析项均为:
其中,X和Y为图像特征矩阵和文本特征矩阵。
进一步地,在该方法中,所述图像投影矩阵和文本投影矩阵的线性回归项用于加入查询对象的标签信息;
所述图像检索文本的目标函数中的图像投影矩阵和文本投影矩阵的线性回归项为:
所述文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的线性回归项为:
其中,S表示不同模态数据的标签向量构成的语义矩阵。
进一步地,在该方法中,定义所述图像投影矩阵和文本投影矩阵的图正则化项的具体步骤包括:
构建每种模态的近邻图;
通过语义信息构建每种模态的局部标签图,使得特征空间的结构与标签空间的结构一致;
所述图像检索文本的目标函数中的图像投影矩阵和文本投影矩阵的图正则化项为:
H(U1,V1)=tr(U1XTL1XU1 T-STL1S);
其中,U1和V1为图像检索文本时的图像投影矩阵和文本投影矩阵;
所述文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的图正则化项为:
H(U2,V2)=tr(V2YTL2YV2 T-STL2S)
其中,U2和V2为文本检索图像时的图像投影矩阵和文本投影矩阵。
进一步地,在该方法中,所述图像检索文本的目标函数和文本检索图像的目标函数中的所述图像投影矩阵和文本投影矩阵的正则化项为:
其中,β1,β2为平衡参数。
根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于图正则化与模态独立的跨模态数据检索方法。
根据本公开的一个或多个实施例的一个方面,提供一种终端设备。
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于图正则化与模态独立的跨模态数据检索方法。
根据本发明公开的一个或多个实施例的一个方面,提供一种基于图正则化与模态独立的跨模态数据检索系统。
一种基于图正则化与模态独立的跨模态数据检索系统,基于所述的一种基于图正则化与模态独立的跨模态数据检索方法,该系统包括:
多模态数据集建立模块,被配置为接收不同模态的原始数据进行特征提取,建立由一一对应的图像文本对组成的多模态数据集,所述多模态数据集包括训练集和测试集;
训练模块,被配置为通过最优化预定义的目标函数,将训练集中不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵和文本投影矩阵;
测试模块,被配置为根据所述图像投影矩阵和文本投影矩阵,将测试集中不同模态数据的特征矩阵投影到公共子空间;
跨模态检索模块,被配置为计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度;按照相似度降序排列,得到前若干个特征矩阵所对应的数据,进行跨模态检索。
以上四个模块构成一种基于图正则化与模态独立的跨模态数据检索系统。所述的基于图正则化与模态独立的跨模态数据检索系统,能大幅度提高跨模态数据检索的准确率,适用于通用搜索引擎,具有重要的现实意义。
本公开的有益效果:
(1)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统,基于标签信息的图正则化在不同模态数据投影到语义子空间时,可以约束特征空间和语义空间的内部结构趋于一致,以此来加强多模态的相关性。在不同的跨模态任务学习中,结合语义相关性和特征聚类获得不同的变换矩阵。
(2)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统,将学习的不同模态的投影矩阵在语义子空间里进行距离度量,获得不同模态的相似性。在相同语义类中,不同模态映射后的投影矩阵应该尽可能地相似。在特征映射的过程中,通过两次线性回归将两个不同的投影矩阵映射到各自的语义空间中,相关分析操作可以将原始数据投影到潜在子空间中且相同语义的多模态数据可以进行关联。使用图像检索文本(Image→Text)和使用文本检索图像(Text→Image),从语义方面,实现不同模态的媒体数据从底层特征到高层语义的映射,利用语义信息更好地提高子空间学习的准确率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是根据一个或多个实施例的一种基于图正则化与模态独立的跨模态数据检索方法流程图;
图2是根据一个或多个实施例的跨模态检索流程示意图;
图3是根据一个或多个实施例的基于图正则化与模态独立的跨模态检索流程图;
图4是根据一个或多个实施例的目标函数构造示意图。
具体实施方式:
下面将结合本公开的一个或多个实施例中的附图,对本公开的一个或多个实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是全部的实施例。基于本公开的一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合,下面结合附图与实施例对本公开作进一步说明。
实施例一
根据本公开的一个或多个实施例的一个方面,提供一种基于图正则化与模态独立的跨模态数据检索方法。
如图1所示,一种基于图正则化与模态独立的跨模态数据检索方法,该方法包括:
步骤1.接收不同模态的原始数据进行特征提取,建立由一一对应的图像文本对组成的多模态数据集,所述多模态数据集包括训练集和测试集;
步骤2.通过最优化预定义的目标函数,将训练集中不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵和文本投影矩阵;
步骤3.根据所述图像投影矩阵和文本投影矩阵,将测试集中不同模态数据的特征矩阵投影到公共子空间;
步骤4.计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度;按照相似度降序排列,得到前若干个特征投影矩阵所对应的数据;
步骤5.进行跨模态检索。
在本实施例中,结合图2的跨模态检索基本框架对本公开的具体实施方式作进一步说明。
实验数据集:
Wikipedia由2,866个不同的图像文本对组成,该数据集被随机分为2,173个图像文本对作为训练集和693个图像文本对作为测试集,并且这两个集由10个语义类别组成。4096维CNN特征表示图像特征,文本特征表示为100维LDA特征。
Pascal Sentence由来自20个语义类别的1000个图像文本对组成。在每个语义类别中有50个图像文本对,选择其中30个作为训练集,其余作为测试集。该数据集通过100维LDA特征表示文本特征,4096维CNN特征来表示图像特征。
INRIA-Websearch包含来自353个语义类别的71478个图像文本对,通过选择最大的100个类别构建了14698个图像文本对。该数据集随机选择其70%作为训练集,30%作为测试集。每个图像和文本特征分别由4096维CNN特征和1000维LDA特征表示。
基于图正则化与模态独立的跨模态检索方法,如图3所示,包括以下几个步骤:
步骤1.获取多模态数据集,包括训练数据集和测试数据集。对不同模态的原始数据进行特征提取,每个样本都包括图像文本一一对应。
步骤2.对于训练数据集,定义目标函数,利用迭代方法最优化目标函数。
定义目标函数:
F(U,V)=λL(U,V)+(1-λ)S(U,V)+αH(U,V)+R(U,V)
其中,图像特征矩阵X=[X1,X2,…,Xn]∈Rp×n和文本特征矩阵Y=[Y1,Y2,…,Yn]∈Rq×n。S=[S1,S2,…,Sn]∈Rc×n表示语义类别数量为C的语义矩阵,当它的第i列(xi,yi)表示的语义与第j列(xj,yj)表示的语义相同,S(i,j)=1,否则,S(i,j)=0.图像投影矩阵和文本投影矩阵分别表示为U∈Rc×p和V∈Rc×q。
在该目标函数中,L(U,V)是相关分析项,用于最小化子空间中多模态数据之间的差异,不同模态数据在潜在子空间中保持成对近邻;S(U,V)是线性回归项,表示查询模态数据的特征空间转换为语义空间,在相同的语义集中查询多模态数据;H(U,V)是图正则化项,尽可能地保持在公共子空间中数据的原始分布,相邻数据尽可能地在公共子空间中彼此关联;R(U,V)是正则化项,控制投影矩阵的复杂度,防止过拟合。
分别得到图像检索文本(Image→Text)和文本检索图像(Text→Image)的目标函数,图3展示了整合目标函数的步骤。
1)设X是图像的特征矩阵,Y是文本的特征矩阵。U和V分别是图像和文本的投影矩阵。目标是最小化子空间中多模态数据之间的差异,而使不同模态数据在潜在子空间中彼此保持最大关联。成对的异构数据在公共子空间中的表示应该尽可能的相同,也就是两者之间的欧式距离尽可能的小。相关分析项L(U,V)为:
2)加入类别标记的数据,用相同的标签信息集中查询多模态数据对。只考虑查询对象的标签信息比同时考虑查询对象和被检索图像的标签信息,所得到的折衷性能更有针对性,效果更好。只有确保查询数据语义特征的正确映射,才能提高后续检索的正确率。因为一旦查询数据的语义被错误的预测,很难保证后续过程中检索到于其相关的其他模态的媒体数据。线性回归项S(U,V)为:
3)构建基于标签信息的各模态近邻图。构建近邻图的方式相同,根据不同检索任务中的查询对象构建相对应模态的标签近邻图,使得特征空间的结构与标签空间的结构一致,尽可能地保持在公共子空间中数据的原始分布,相邻数据尽可能的在公共子空间中关联最大化。
定义一个无向对称图H=(Vx,Wx),其中Vx是X中数据的集合,Wx表示相似度矩阵。Wx中的Wij定义如下:
其中Nk(Xj)表示Xj的k个近邻,这k个近邻是通过计算数据对在原始空间中的距离,选取相隔最近的k个数据得到的。
其中L是对称半正定矩阵,D是对角矩阵,对角元素dii=∑jwij
由此得到图像的图正则化项H(U1,V1),其定义如下:
同样地,在计算得出文本的相似度矩阵W、对称矩阵D和拉普拉斯矩阵L后,可得到文本的图正则化项H(U2,V2),其定义如下:
H(U2,V2)=tr(V2YTL2YV2 T-STL2S)
4)正则化项控制投影矩阵的复杂度,防止过拟合,β1andβ2是平衡正则化项的参数。正则化项R(U,V)为:
5)将上述的1)、2)、3)及4)这四步整合,得到图像检索文本(Image→Text)和文本检索图像(Text→Image)的目标函数:
所述图像检索文本的目标函数F(U1,V1)为:
其中,U1和V1为图像检索文本时的图像投影矩阵和文本投影矩阵,X和Y为图像特征矩阵和文本特征矩阵,S为语义类别矩阵,β1,β2为平衡参数;
所述文本检索图像的目标函数F(U2,V2)为:
其中,U2和V2为文本检索图像时的图像投影矩阵和文本投影矩阵。
步骤3.求解目标函数,将不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵和文本投影矩阵。
本步骤的目标函数求解方法为:
1)通过固定目标函数U1或者U2,求解图像投影矩阵。
2)通过固定目标函数V1或者V2,求解文本投影矩阵。
步骤4.对于测试数据集,根据步骤3所得的投影矩阵,将测试数据集中的图像和文本投影到公共子空间。计算投影后的矩阵与公共子空间中的其它数据之间的相似度,返回与之相似度最大的前k个特征投影矩阵所对应的数据。
步骤5.进行跨模态检索。
这里我们采用常用的平均准确率均值(MAP)来评估该方法的检索结果。
具体而言,得到每个检索样本的平均准确率(AP),计算它们的平均值得到MAP。其中n是测试集的大小,R是相关项的数量,relk=1时代表第k个检索的结果中有与查询样本相关的样本,否则relk=0。
(1)Image→Text检索过程:
输入:图像特征矩阵X和文本特征矩阵Y,语义类别矩阵S,平衡参数λ,α,β1,β2.
将不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵U1和文本投影矩阵V1.然后计算对称半正定矩阵L1,通过构建局部标签图,不同模态的特征更接近真实的标签,丰富了相似特征的语义信息。
初始化图像投影矩阵U1和文本投影矩阵V1为单位矩阵
求解最优解,根据公式U1=(XXT+β1I+αXTL1X)-1(XST+λXYTV1-λXST)和公式V1=λYXTU1(λYYT+β2I)-1不断迭代,直至结果收敛到最优的U1和V1。
此方法的实现流程如下:
为了评估所提出的方法检索时的性能,分别在三个数据集上进行了实验,与其他九种方法CCA,SM,SCM,T-VCCA,GMLDA,GMMFA,MDCR,JFSSL,JLSLR进行比较。实验是跨媒体检索的两个子任务“图像→文本”任务和“文本→图像”任务。使用传统的距离度量方法——欧几里得距离度量法计算不同模态对象的相似度,如表1至表3所示,显示了在不同数据集的实验结果,实验表明该方法具有一定的稳定性和良好的性能。根据分析,本发明的方法优于其他方法的原因是:一方面,考虑到图像文本对的对应关系,并且只考虑了查询对象的语义信息。另一方面,在标签的语义信息约束下,可以更好地保持近邻图的局部相关性,从而提高了检索准确率。
表1
表2
表3
实施例二
根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于图正则化与模态独立的跨模态数据检索方法。
实施例三
根据本公开的一个或多个实施例的一个方面,提供一种终端设备。
一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于图正则化与模态独立的跨模态数据检索方法。
这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。
在本实施例中,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、其上存储有指令的打孔卡或凹槽内凸起结构的其它设备、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言——诸如C++等,以及常规的过程式编程语言——诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机;或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开内容的各个方面。
实施例四
根据本发明公开的一个或多个实施例的一个方面,提供一种基于图正则化与模态独立的跨模态数据检索系统。
一种基于图正则化与模态独立的跨模态数据检索系统,基于所述的一种基于图正则化与模态独立的跨模态数据检索方法,该系统包括:
多模态数据集建立模块,被配置为接收不同模态的原始数据进行特征提取,建立由一一对应的图像文本对组成的多模态数据集,所述多模态数据集包括训练集和测试集;
训练模块,被配置为通过最优化预定义的目标函数,将训练集中不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵和文本投影矩阵;
测试模块,被配置为根据所述图像投影矩阵和文本投影矩阵,将测试集中不同模态数据的特征矩阵投影到公共子空间;
跨模态检索模块,被配置为计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度;按照相似度降序排列,得到前若干个特征矩阵所对应的数据,进行跨模态检索。
以上四个模块构成一种基于图正则化与模态独立的跨模态数据检索系统。本发明提供的基于图正则化与模态独立的跨模态数据检索系统,能大幅度提高跨模态数据检索的准确率,适用于通用搜索引擎,具有重要的现实意义。
应当注意,尽管在上文的详细描述中提及了设备的若干模块或子模块,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本公开的有益效果:
(1)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统,对多模态原始数据进行特征提取,获得训练多模态数据集,保存不同模态数据的特征向量。通过构建标签图使得特征空间与语义空间的内部结构趋于一致,实现不同模态的不同类别数据趋于相对应的语义信息。对不同的跨模态检索任务学习不同的两对投影,分别是图像检索文本和文本检索图像。着重考虑检索对象的语义信息使得检索性能进一步提升。使用三个数据集进行了实验,实验用MAP值进行评估,实验结果表明了此方法具有检索有效性。
(2)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统,基于标签信息的图正则化在不同模态数据投影到语义子空间时,可以约束特征空间和语义空间的内部结构趋于一致,以此来加强多模态的相关性。在不同的跨模态任务学习中,结合语义相关性和特征聚类获得不同的变换矩阵。
(3)本公开提供的一种基于图正则化与模态独立的跨模态数据检索方法及系统,将学习的不同模态的投影矩阵在语义子空间里进行距离度量,获得不同模态的相似性。在相同的语义类中,不同模态映射后的投影矩阵应该尽可能地相似。在特征映射的过程中,通过两次线性回归将两个不同的投影矩阵映射到各自的语义空间中,相关分析操作可以将原始数据投影到潜在子空间中且相同语义的多模态数据可以进行关联。使用图像检索文本(Image→Text)和使用文本检索图像(Text→Image),从语义方面,实现不同模态的媒体数据从底层特征到高层语义的映射,利用语义信息更好地提高子空间学习的准确率。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换及改进等,均应包含在本公开的保护范围之内。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽范围。
Claims (10)
1.一种基于图正则化与模态独立的跨模态数据检索方法,其特征在于,该方法包括:
接收不同模态的原始数据进行特征提取,建立由一一对应的图像文本对组成的多模态数据集,所述多模态数据集包括训练集和测试集;
通过最优化预定义的目标函数,将训练集中不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵和文本投影矩阵;
根据所述图像投影矩阵和文本投影矩阵,将测试集中不同模态数据的特征矩阵投影到公共子空间;
计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度;按照相似度降序排列,得到前若干个特征投影矩阵所对应的数据,进行跨模态检索。
2.如权利要求1所述的一种基于图正则化与模态独立的跨模态数据检索方法,其特征在于,在该方法中,所述预定义的目标函数为图像投影矩阵和文本投影矩阵的相关分析项、线性回归项、图正则化项和正则化项之和:
F(U,V)=λL(U,V)+(1-λ)S(U,V)+αH(U,V)+R(U,V)
其中,U和V分别是图像投影矩阵和文本投影矩阵,L(U,V)为图像投影矩阵和文本投影矩阵的相关分析项,S(U,V)为图像投影矩阵和文本投影矩阵的线性回归项,H(U,V)为图像投影矩阵和文本投影矩阵的图正则化项,R(U,V)为图像投影矩阵和文本投影矩阵的正则化项,λ和α为平衡参数。
3.如权利要求1所述的一种基于图正则化与模态独立的跨模态数据检索方法,其特征在于,在该方法中,所述预定义的目标函数包括图像检索文本的目标函数和文本检索图像的目标函数。
4.如权利要求3所述的一种基于图正则化与模态独立的跨模态数据检索方法,其特征在于,在该方法中,所述图像投影矩阵和文本投影矩阵的相关分析项为最小化不同模态数据中不同语义类别数据之间的欧式距离,所述图像检索文本的目标函数和文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的相关分析项均为:
其中,X和Y为图像特征矩阵和文本特征矩阵。
5.如权利要求3所述的一种基于图正则化与模态独立的跨模态数据检索方法,其特征在于,在该方法中,所述图像投影矩阵和文本投影矩阵的线性回归项用于加入查询对象的标签信息;
所述图像检索文本的目标函数中的图像投影矩阵和文本投影矩阵的线性回归项为:
所述文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的线性回归项为:
其中,S表示不同模态数据的标签向量构成的语义矩阵。
6.如权利要求3所述的一种基于图正则化与模态独立的跨模态数据检索方法,其特征在于,在该方法中,定义所述图像投影矩阵和文本投影矩阵的图正则化项的具体步骤包括:
构建每种模态的近邻图;
通过语义信息构建每种模态的局部标签图,使得特征空间的结构与标签空间的结构一致;
所述图像检索文本的目标函数中的图像投影矩阵和文本投影矩阵的图正则化项为:
H(U1,V1)=tr(U1XTL1XU1 T-STL1S);
其中,U1和V1为图像检索文本时的图像投影矩阵和文本投影矩阵;
所述文本检索图像的目标函数中的图像投影矩阵和文本投影矩阵的图正则化项为:
H(U2,V2)=tr(V2YTL2YV2 T-STL2S)
其中,U2和V2为文本检索图像时的图像投影矩阵和文本投影矩阵。
7.如权利要求3所述的一种基于图正则化与模态独立的跨模态数据检索方法,其特征在于,在该方法中,所述图像检索文本的目标函数和文本检索图像的目标函数中的所述图像投影矩阵和文本投影矩阵的正则化项为:
其中,β1,β2为平衡参数。
8.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行如权利要求1-7任一项所述的一种基于图正则化与模态独立的跨模态数据检索方法。
9.一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行如权利要求1-7任一项所述的一种基于图正则化与模态独立的跨模态数据检索方法。
10.一种基于图正则化与模态独立的跨模态数据检索系统,其特征在于,基于如权利要求1-7任一项所述的一种基于图正则化与模态独立的跨模态数据检索方法,包括:
多模态数据集建立模块,被配置为接收不同模态的原始数据进行特征提取,建立由一一对应的图像文本对组成的多模态数据集,所述多模态数据集包括训练集和测试集;
训练模块,被配置为通过最优化预定义的目标函数,将训练集中不同模态数据的特征矩阵投影到公共子空间,得到图像投影矩阵和文本投影矩阵;
测试模块,被配置为根据所述图像投影矩阵和文本投影矩阵,将测试集中不同模态数据的特征矩阵投影到公共子空间;
跨模态检索模块,被配置为计算投影后的矩阵与该公共子空间中其他投影矩阵的相似度;按照相似度降序排列,得到前若干个特征投影矩阵所对应的数据,进行跨模态检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910390181.6A CN110188210B (zh) | 2019-05-10 | 2019-05-10 | 一种基于图正则化与模态独立的跨模态数据检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910390181.6A CN110188210B (zh) | 2019-05-10 | 2019-05-10 | 一种基于图正则化与模态独立的跨模态数据检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188210A true CN110188210A (zh) | 2019-08-30 |
CN110188210B CN110188210B (zh) | 2021-09-24 |
Family
ID=67715957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910390181.6A Active CN110188210B (zh) | 2019-05-10 | 2019-05-10 | 一种基于图正则化与模态独立的跨模态数据检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188210B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091010A (zh) * | 2019-11-22 | 2020-05-01 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置和存储介质 |
CN111177492A (zh) * | 2020-01-02 | 2020-05-19 | 安阳师范学院 | 一种基于多视角对称非负矩阵分解的跨模态信息检索方法 |
CN111353076A (zh) * | 2020-02-21 | 2020-06-30 | 华为技术有限公司 | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 |
CN112015923A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 一种多模态数据检索方法、系统、终端及存储介质 |
CN113032614A (zh) * | 2021-04-28 | 2021-06-25 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
CN113157739A (zh) * | 2021-04-23 | 2021-07-23 | 平安科技(深圳)有限公司 | 跨模态检索方法、装置、电子设备及存储介质 |
CN113157959A (zh) * | 2020-12-17 | 2021-07-23 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
US20150254231A1 (en) * | 2012-02-01 | 2015-09-10 | Sri International | Method and apparatus for correlating and viewing disparate data |
CN106547826A (zh) * | 2016-09-30 | 2017-03-29 | 西安电子科技大学 | 一种跨模态检索方法、装置及计算机可读介质 |
US20170139912A1 (en) * | 2013-03-18 | 2017-05-18 | Spotify Ab | Cross media recommendation |
CN107402993A (zh) * | 2017-07-17 | 2017-11-28 | 山东师范大学 | 基于判别性关联最大化哈希的跨模态检索方法 |
US20180121788A1 (en) * | 2016-11-03 | 2018-05-03 | Salesforce.Com, Inc. | Deep Neural Network Model for Processing Data Through Mutliple Linguistic Task Hiearchies |
CN108170755A (zh) * | 2017-12-22 | 2018-06-15 | 西安电子科技大学 | 基于三元组深度网络的跨模态哈希检索方法 |
CN108334574A (zh) * | 2018-01-23 | 2018-07-27 | 南京邮电大学 | 一种基于协同矩阵分解的跨模态检索方法 |
CN108388639A (zh) * | 2018-02-26 | 2018-08-10 | 武汉科技大学 | 一种基于子空间学习与半监督正则化的跨媒体检索方法 |
CN108595546A (zh) * | 2018-04-09 | 2018-09-28 | 武汉科技大学 | 基于半监督的跨媒体特征学习检索方法 |
CN109376261A (zh) * | 2018-10-29 | 2019-02-22 | 山东师范大学 | 基于中级文本语义增强空间的模态独立检索方法和系统 |
CN109446347A (zh) * | 2018-10-29 | 2019-03-08 | 山东师范大学 | 一种有监督的快速离散多模态哈希检索方法和系统 |
-
2019
- 2019-05-10 CN CN201910390181.6A patent/CN110188210B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
US20150254231A1 (en) * | 2012-02-01 | 2015-09-10 | Sri International | Method and apparatus for correlating and viewing disparate data |
US20170139912A1 (en) * | 2013-03-18 | 2017-05-18 | Spotify Ab | Cross media recommendation |
CN106547826A (zh) * | 2016-09-30 | 2017-03-29 | 西安电子科技大学 | 一种跨模态检索方法、装置及计算机可读介质 |
US20180121788A1 (en) * | 2016-11-03 | 2018-05-03 | Salesforce.Com, Inc. | Deep Neural Network Model for Processing Data Through Mutliple Linguistic Task Hiearchies |
CN107402993A (zh) * | 2017-07-17 | 2017-11-28 | 山东师范大学 | 基于判别性关联最大化哈希的跨模态检索方法 |
CN108170755A (zh) * | 2017-12-22 | 2018-06-15 | 西安电子科技大学 | 基于三元组深度网络的跨模态哈希检索方法 |
CN108334574A (zh) * | 2018-01-23 | 2018-07-27 | 南京邮电大学 | 一种基于协同矩阵分解的跨模态检索方法 |
CN108388639A (zh) * | 2018-02-26 | 2018-08-10 | 武汉科技大学 | 一种基于子空间学习与半监督正则化的跨媒体检索方法 |
CN108595546A (zh) * | 2018-04-09 | 2018-09-28 | 武汉科技大学 | 基于半监督的跨媒体特征学习检索方法 |
CN109376261A (zh) * | 2018-10-29 | 2019-02-22 | 山东师范大学 | 基于中级文本语义增强空间的模态独立检索方法和系统 |
CN109446347A (zh) * | 2018-10-29 | 2019-03-08 | 山东师范大学 | 一种有监督的快速离散多模态哈希检索方法和系统 |
Non-Patent Citations (8)
Title |
---|
KAIYE WANG 等: "Joint Feature Selection and Subspace Learning for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 》 * |
LIANG ZHANG 等: "Generalized Semi-supervised and Structured Subspace Learning for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
XIAOHUA ZHAI 等: "Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
代刚 等: "基于语义相关性与拓扑关系的跨媒体检索算法", 《计算机应用》 * |
刘一鹤: "基于重构正则约束的跨媒体检索方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(2019年)》 * |
彭嘉恩 等: "融合社交和标签信息的隐语义模型推荐算法", 《广东工业大学学报》 * |
闫继红: "跨媒体检索中的多模态数据相关性研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(2019年)》 * |
黄育 等: "基于潜语义主题加强的跨媒体检索算法", 《计算机应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091010A (zh) * | 2019-11-22 | 2020-05-01 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置和存储介质 |
WO2021098534A1 (zh) * | 2019-11-22 | 2021-05-27 | 京东方科技集团股份有限公司 | 相似度确定、网络训练、查找方法及装置、电子装置和存储介质 |
CN111177492A (zh) * | 2020-01-02 | 2020-05-19 | 安阳师范学院 | 一种基于多视角对称非负矩阵分解的跨模态信息检索方法 |
CN111353076A (zh) * | 2020-02-21 | 2020-06-30 | 华为技术有限公司 | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 |
CN111353076B (zh) * | 2020-02-21 | 2023-10-10 | 华为云计算技术有限公司 | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 |
CN112015923A (zh) * | 2020-09-04 | 2020-12-01 | 平安科技(深圳)有限公司 | 一种多模态数据检索方法、系统、终端及存储介质 |
CN113157959A (zh) * | 2020-12-17 | 2021-07-23 | 云知声智能科技股份有限公司 | 基于多模态主题补充的跨模态检索方法、装置及系统 |
CN113157739A (zh) * | 2021-04-23 | 2021-07-23 | 平安科技(深圳)有限公司 | 跨模态检索方法、装置、电子设备及存储介质 |
CN113157739B (zh) * | 2021-04-23 | 2024-01-09 | 平安科技(深圳)有限公司 | 跨模态检索方法、装置、电子设备及存储介质 |
CN113032614A (zh) * | 2021-04-28 | 2021-06-25 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110188210B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021159776A1 (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
CN110188210A (zh) | 一种基于图正则化与模态独立的跨模态数据检索方法及系统 | |
US20210256403A1 (en) | Recommendation method and apparatus | |
US11574145B2 (en) | Cross-modal weak supervision for media classification | |
US11276099B2 (en) | Multi-perceptual similarity detection and resolution | |
US11019019B2 (en) | Dynamic hashtag ordering based on projected interest | |
Mukunthu et al. | Practical automated machine learning on Azure: using Azure machine learning to quickly build AI solutions | |
CN116738081B (zh) | 一种前端组件绑定方法、装置及存储介质 | |
CN116910567A (zh) | 推荐业务的在线训练样本构建方法及相关装置 | |
WO2023185125A1 (zh) | 产品资源的数据处理方法及装置、电子设备、存储介质 | |
CN116756281A (zh) | 知识问答方法、装置、设备和介质 | |
EP4057199A1 (en) | Method and system for determining collaboration between employees using artificial intelligence (ai) | |
US11288322B2 (en) | Conversational agents over domain structured knowledge | |
CN110414690A (zh) | 利用机器学习模型执行预测的方法及装置 | |
CN113946745A (zh) | 通用个性化推荐方法、推荐系统及训练方法 | |
WO2021071428A1 (en) | System and method for innovation, creativity, and learning as a service | |
CN113392294A (zh) | 样本标注方法及装置 | |
Mohammed et al. | Location-aware deep learning-based framework for optimizing cloud consumer quality of service-based service composition | |
Fong et al. | Text analytics for predicting question acceptance rates | |
CN111626315A (zh) | 模型训练方法、对象识别方法、装置、介质及电子设备 | |
CN116109381B (zh) | 电商平台数据处理方法及系统 | |
US11748063B2 (en) | Intelligent user centric design platform | |
CN117216548A (zh) | 推荐数据评估模型的构建方法、推荐数据评估方法和装置 | |
Sathya | An Optimal Feature Selection with Wavelet Kernel Extreme Learning Machine for Big Data Analysis of Product Reviews | |
Dong et al. | Large Language Models (LLMs): Deployment, Tokenomics and Sustainability |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |