CN111259176A - 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 - Google Patents

融合有监督信息的基于矩阵分解的跨模态哈希检索方法 Download PDF

Info

Publication number
CN111259176A
CN111259176A CN202010049715.1A CN202010049715A CN111259176A CN 111259176 A CN111259176 A CN 111259176A CN 202010049715 A CN202010049715 A CN 202010049715A CN 111259176 A CN111259176 A CN 111259176A
Authority
CN
China
Prior art keywords
matrix
text
image
formula
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010049715.1A
Other languages
English (en)
Other versions
CN111259176B (zh
Inventor
薛峰
王文博
洪日昌
曾涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010049715.1A priority Critical patent/CN111259176B/zh
Publication of CN111259176A publication Critical patent/CN111259176A/zh
Application granted granted Critical
Publication of CN111259176B publication Critical patent/CN111259176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合有监督信息的基于矩阵分解的跨模态哈希检索方法,其步骤包括:将不同模态的原始数据映射到一个公共的潜在语义空间中,并把原始数据空间中的相似性关系和监督信息作为映射的约束,从而得到哈希码和各模态对应的哈希函数,进而根据哈希码,对检索任务进行检索,从而得到跨模态检索结果。本发明能够很好的解决大规模检索时的时间效率问题和跨模态检索时不同模态之间的语义鸿沟问题,从而能够实现快速的跨模态检索,并有效的提高检索的准确率。

Description

融合有监督信息的基于矩阵分解的跨模态哈希检索方法
技术领域
本发明属于多模态的信息检索领域,主要是涉及到大规模、多模态数据的跨模态哈希检索。
背景技术
随着近些年来互联网技术的飞速发展,带来了信息生活的极大丰富,文本、图片、视频、音频等等围绕在生活各处,当然随之而来的是多媒体数据的爆炸性增长。但是爆炸性的数据也带来了很多问题,最直接的就是数据的检索问题。由于数据自身的规模和数量的庞大,信息检索任务变得复杂繁冗,而且效率低下。哈希方法可以很好的解决这方面的问题,哈希方法的原理是将原始数据映射到一个汉明空间中,将原始数据用哈希码(0,1字符串)表示,然后根据不同数据点在汉明空间中的距离,即两个哈希码之间的汉明距离来判断它们之间的相似度的高低。早期,哈希方法多用于单模态数据检索的任务中,它可以较好的解决单模态内语义间隙的问题。
对于多模态数据的跨模态信息检索而言,它还有着不同模态之间的语义鸿沟问题。传统的跨模态哈希方法是面向无监督的,将多模态数据从不同的异构空间中映射到一个公共空间中,并且同时考虑到模态内和模态间的一致性,使它们在公共空间中的哈希码仍保持在原来的空间中的相似性。主要有两类无监督的多模态哈希方法,一是基于图的方法来构造相似性图以希望哈希码保持之前的相似性,但是构造相似性图会大大提高方法的复杂性。二是通过寻找潜在的语义空间来保持数据之间的相似性。
利用原始数据点的语义标签获得它们的相似性关系的有监督跨模态哈希方法已经被证明比无监督跨模态哈希方法有着更好的准确性。最常用的方法是利用语义标签来保持数据点之间的成对相似性,或者通过语义标签向量来构造数据点之间的相似度矩阵。然而这类方法通常会导致相对高的时间复杂度,同时它只考虑了数据点之间单个的相似性,而没有利用到语义标签信息中含有的类别或属性信息,而这类信息的丢失往往会导致检索的准确率降低。
发明内容
针对上述现有技术中存在的诸多问题,本发明提出一种融合有监督信息的基于矩阵分解的跨模态哈希检索方法,能够很好的解决大规模检索时的时间效率问题和跨模态检索时不同模态之间的语义鸿沟问题,从而能够实现快速的跨模态检索,并有效的提高检索的准确率。
本发明为了解决技术问题采用如下技术方案:
本发明一种融合有监督信息的基于矩阵分解的跨模态哈希检索方法的特点是按如下步骤进行:
步骤1、获取n个图像-文本对及其相对应的语义类别L,并对任意第i个图像和第i个文本进行特征化处理,得到第i个图像的特征向量
Figure BDA0002370703550000021
以及对应文本的特征向量
Figure BDA0002370703550000022
并记第i个图像或文本的特征向量为
Figure BDA0002370703550000023
从而得到n个图像或文本的特征矩阵,记为X(t),其中,t∈{1,2},i=1,2,…,n;
步骤2、将n个图像或文本的特征矩阵X(t)分解为映射转换矩阵Ut和潜在的图像或文本的语义特征矩阵Vt之间乘积,并利用n个图像-文本对的语义类别矩阵L对语义特征矩阵Vt进行约束,从而通过式(1)得到矩阵分解的目标函数Fmf
Figure BDA0002370703550000024
式(1)中,Z是约束的辅助矩阵,且ZL=V=V1=V2,V表示潜在的语义特征矩阵,V1表示潜在的图像的语义特征矩阵,V2表示潜在的文本的语义特征矩阵;λ1和λ2是平衡参数,用于控制相应项的权重,且λ12=1;
Figure BDA0002370703550000025
表示矩阵的F范数的平方;
步骤3、利用式(2)得到第i个图像-文本对和第j个图像-文本对的模态间相似性矩阵ACij
Figure BDA0002370703550000026
式(2)中,Li表示第i个图像-文本对的语义类别,Lj表示第j个图像-文本对的语义类别,i,j=1,2,…,n;
步骤4、利用式(3)得到第i个图像和第j个图像,或第i个文本和第j个文本的相似性矩阵
Figure BDA0002370703550000027
Figure BDA0002370703550000028
式(3)中,Nk(·)表示k近邻的集合,
Figure BDA0002370703550000029
表示第i个图像或文本的特征向量,
Figure BDA00023707035500000210
表示第j个图像或文本的特征;
步骤5、利用式(4)得到相似度约束的目标函数Fsim
Fsim=tr(VSVT) (4)
式(4)中,tr(·)表示矩阵的迹,S表示拉普拉斯矩阵,且S=D-W,D表示对角矩阵,且
Figure BDA0002370703550000031
Wab表示整体相似度矩阵W中第a行第b列的元素,Wab∈W,W表示整体相似度矩阵,且W=AC+A(1)+A(2),AC表示所有不同图像-文本对之间的模态间的相似度矩阵,A(1)表示所有不同图像之间的模态内的相似度矩阵,A(2)表示所有不同文本之间的模态内的相似度矩阵,T表示矩阵转置;
步骤6、根据式(5)所示的两个哈希函数,将图像和文本模态分别通过一个线性投影映射到公共潜在语义空间:
Figure BDA0002370703550000032
式(5)中,P1表示图像模态特征空间到公共潜在语义空间的映射矩阵,P2表示文本模态特征空间到公共潜在语义空间的映射矩阵;X(1)表示n个图像的特征矩阵;X(2)表示n个文本的特征矩阵;
步骤7、利用式(6)得到从原始数据特征空间到公共潜在语义空间映射的目标函数Fmap
Figure BDA0002370703550000033
步骤8、利用式(7)建立总体目标函数Fo
Figure BDA0002370703550000034
式(7)中,α,β和γ是控制各自项的权重的平衡参数;R(·)是正则化项;
步骤9、总体目标函数Fo中的参数不断交替迭代更新,直到总体目标函数Fo收敛或者达到迭代次数;
步骤10、根据式(15)得到n个图像-文本对的哈希码H:
H=sgn(V) (8)
式(8)中,sgn(·)为符号函数;
步骤11、根据所述哈希码H,在n个图像-文本对中对检索任务q进行检索,从而得到跨模态检索结果result。
本发明所述的跨模态哈希检索方法的特点也在于,所述步骤9按如下过程进行:
步骤9.1、固定U2,ZL,P1,P2的值不变,令
Figure BDA0002370703550000041
利用式(9)得到图像的映射转换矩阵U1
Figure BDA0002370703550000042
式(9)中,E是单位矩阵;
步骤9.2、固定U1,ZL,P1,P2的值不变,令
Figure BDA0002370703550000043
利用式(10)得到文本的映射转换矩阵U2
Figure BDA0002370703550000044
步骤9.3、固定U1,U2,P1,P2的值不变,令
Figure BDA0002370703550000045
利用式(11)得到约束的辅助矩阵Z:
Z=B-1C[L(E+S)LT]-1 (11)
式(11)中,B,C表示中间变量,并有:
B=λ1U1 TU12U2 TU2+(2α+γ+β)E (12)
C=λ1U1 TX(1)LT2U2 TX(2)LT+α(P1X(1)LT+P2X(2)LT) (13)
步骤9.4、固定U1,U2,ZL,P2的值不变,令
Figure BDA0002370703550000046
利用式(14)得到文本模态特征空间到公共潜在语义空间的映射矩阵P1
Figure BDA0002370703550000047
步骤9.5、固定U1,U2,ZL,P1的值不变,令
Figure BDA0002370703550000048
利用式(15)得到文本模态特征空间到公共潜在语义空间的映射矩阵P2
Figure BDA0002370703550000049
所述步骤11按如下过程进行:
步骤11.1、判断所述检索任务q是否是n个图像-文本对中的任意一个图像或者文本,若是,则直接从哈希码H中找到其对应的哈希码hq',并转到步骤11.2;否则,转到步骤11.1.1;
步骤11.1.1、判断所述检索任务q是否是图像,若是,则采用图像处理的方法提取所述检索任务q的图像特征向量xqi,再利用式(16)得到所述检索任务q的哈希码hq”后,转到步骤11.2;否则,转到步骤11.1.2;
hq”=sgn(P1·xqi) (16)
步骤11.1.2、用文本处理的方法提取所述检索任务q的文本特征向量xqt,再利用式(17)得到所述检索任务q的哈希码hq”'后,转到步骤11.2;
hq”'=sgn(P2·xqt) (17)
步骤11.2、将所述检索任务q的哈希码hq'或hq”或者hq”'赋值给hq,将hq和任意第m个哈希码hm进行异或运算,得到的结果中“1”的个数即为两者之间的汉明距离;其中hm∈H,m∈[1,n];
步骤11.3、判断所述检索任务q是否是n个图像-文本对中的任意一个图像或者文本,若是,则返回汉明距离的第二小的搜索项hresult';否则,返回汉明距离最小的搜索项hresult”;
步骤11.4、将返回的搜索项hresult'或hresult”赋值给hresult,根据检索要求,将hresult所对应的图片或文本作为所述检索任务q的跨模态检索结果result。
与现有技术相比,本发明的有益效果在于:
1.本发明通过矩阵分解将各模态的特征数据映射到同一个潜在语义空间中,将数据的语义标签信息以及各模态内部特征数据的相似度结合起来,以保持原始空间中的相似性,可以更有效的利用语义标签中的类别或属性信息,从而能很好的提高跨模态检索的准确率。
2.本发明利用矩阵分解的方法来寻找潜在的公共语义空间;矩阵分解在关系学习方面有着不俗的表现,从潜在语义空间对原始数据进行分析寻找、学习相应的关系;矩阵分解方法具有复杂度低,效率高的特点。
3.本发明利用原始数据模态内和模态间的相似性关系作为数据在潜在公共语义空间中的表示的约束,使数据点在公共语义空间中的表示保持了原始空间中的关联关系,更好的保留了数据的原始关系,从而提高了检索的准确性。
4.本发明同时利用了标签信息中的类别信息,将语义标签作为一个约束,而不仅仅用来计算相似度,这样能够有效的提高跨模态检索的准确性。
附图说明
图1为本发明方法总体流程图。
具体实施方式
本实施例中,如图1所示,一种融合有监督信息的基于矩阵分解的跨模态哈希检索方法,是将多模态数据放到同一个语义空间中并尽可能的保持数据在原始空间中的信息,然后在同一个语义空间中进行检索任务,具体的说,是按如下步骤进行:
步骤1、获取n个图像-文本对及其相对应的语义类别L,并对任意第i个图像和第i个文本进行特征化处理,得到第i个图像的特征向量
Figure BDA0002370703550000061
以及对应文本的特征向量
Figure BDA0002370703550000062
并记第i个图像或文本的特征向量为
Figure BDA0002370703550000063
从而得到n个图像或文本的特征矩阵,记为X(t),其中,t∈{1,2},i=1,2,…,n;
步骤2、为了将原始的特征数据从两个异构的空间中映射到同一个潜在语义空间中,从而能更好的分析它们之间的关系以利于进行检索,将n个图像或文本的特征矩阵X(t)分解为映射转换矩阵Ut和潜在的图像或文本的语义特征矩阵Vt之间乘积,因为标签信息中的类别信息在检索时会起到积极的作用,为了使数据在公共的潜在语义表示中包含标签信息中的类别信息,有效的提高跨模态检索的准确率,利用n个图像-文本对的语义类别矩阵L对语义特征矩阵Vt进行约束,从而通过式(1)得到矩阵分解的目标函数Fmf
Figure BDA0002370703550000064
式(1)中,Z是约束的辅助矩阵,且ZL=V=V1=V2,V表示潜在的语义特征矩阵,V1表示潜在的图像的语义特征矩阵,V2表示潜在的文本的语义特征矩阵;λ1和λ2是平衡参数,用于控制相应项的权重,且λ12=1;
Figure BDA0002370703550000065
表示矩阵的F范数的平方;
步骤3、因为相似性关系在检索任务中起着关键性的作用,所以要建模原始空间中数据之间的相似性关系,首先是模态间的相似性,模态间的相似性由标签信息建模,利用式(2)得到第i个图像-文本对和第j个图像-文本对的模态间相似性矩阵ACij
Figure BDA0002370703550000071
式(2)中,Li表示第i个图像-文本对的语义类别,Lj表示第j个图像-文本对的语义类别,i,j=1,2,…,n;
步骤4、然后是各模态内的相似性,模态内的相似性由原始空间中的特征向量之间的相似度建模,利用式(3)得到第i个图像和第j个图像,或第i个文本和第j个文本的相似性矩阵
Figure BDA0002370703550000072
Figure BDA0002370703550000073
式(3)中,Nk(·)表示k近邻的集合,
Figure BDA0002370703550000074
表示第i个图像或文本的特征向量,
Figure BDA0002370703550000075
表示第j个图像或文本的特征;
步骤5、为了在公共潜在语义空间中保持模态内部和模态间的相似性,利用式(4)得到相似
度约束的目标函数Fsim
Figure BDA0002370703550000076
式(4)中,vi和vj分别表示数据点i和j在公共的潜在语义空间中的表示,tr(·)表示矩阵的迹,S表示拉普拉斯矩阵,且S=D-W,D表示对角矩阵,且
Figure BDA0002370703550000077
Wab表示整体相似度矩阵W中第a行第b列的元素,Wab∈W,W表示整体相似度矩阵,且W=AC+A(1)+A(2),AC表示所有不同图像-文本对之间的模态间的相似度矩阵,A(1)表示所有不同图像之间的模态内的相似度矩阵,A(2)表示所有不同文本之间的模态内的相似度矩阵,T表示矩阵转置;
步骤6、因为检索中可能会出现不在已有的n个图像-文本对中的任务,所以还要学习到图像和文本各自模态到公共的语义空间的哈希函数,那些不曾出现过的检索任务就可以通过哈希函数映射到公共的语义空间中,根据式(5)所示的两个哈希函数,将图像和文本模态分别通过一个线性投影映射到公共潜在语义空间:
Figure BDA0002370703550000081
式(5)中,P1表示图像模态特征空间到公共潜在语义空间的映射矩阵,P2表示文本模态特征空间到公共潜在语义空间的映射矩阵;X(1)表示n个图像的特征矩阵;X(2)表示n个文本的特征矩阵;
步骤7、利用式(6)得到从原始数据特征空间到公共潜在语义空间映射的目标函数Fmap
Figure BDA0002370703550000082
步骤8、综合矩阵分解的目标函数Fmf、相似度约束的目标函数Fsim和线性映射的目标函数Fmap,利用式(7)建立总体目标函数Fo
Figure BDA0002370703550000083
式(7)中,α,β和γ是控制各自项的权重的平衡参数;R*是正则化项;
步骤9、因为总体目标函数是非凸函数,不能直接进行梯度下降优化,所以采用交替迭代更新的方法。固定其中某些参数的值不变,更新另外一个参数,总体目标函数Fo中的参数按照步骤9.1到步骤9.5不断交替迭代更新,直到总体目标函数Fo收敛或者达到迭代次数:
步骤9.1、固定U2,ZL,P1,P2的值不变,令
Figure BDA0002370703550000084
利用式(8)得到图像的映射转换矩阵U1
Figure BDA0002370703550000091
式(8)中,E是单位矩阵;
步骤9.2、固定U1,ZL,P1,P2的值不变,令
Figure BDA0002370703550000092
利用式(9)得到文本的映射转换矩阵U2
Figure BDA0002370703550000093
步骤9.3、固定U1,U2,P1,P2的值不变,令
Figure BDA0002370703550000094
利用式(10)得到约束的辅助矩阵Z:
Z=B-1C[L(E+S)LT]-1 (10)
式(10)中,B,C表示中间变量,并有:
B=λ1U1 TU12U2 TU2+(2α+γ+β)E (11)
C=λ1U1 TX(1)LT2U2 TX(2)LT+α(P1X(1)LT+P2X(2)LT) (12)
步骤9.4、固定U1,U2,ZL,P2的值不变,令
Figure BDA0002370703550000095
利用式(13)得到文本模态特征空间到公共潜在语义空间的映射矩阵P1
Figure BDA0002370703550000096
步骤9.5、固定U1,U2,ZL,P1的值不变,令
Figure BDA0002370703550000097
利用式(14)得到文本模态特征空间到公共潜在语义空间的映射矩阵P2
Figure BDA0002370703550000098
步骤10、根据式(15)得到n个图像-文本对的哈希码H:
H=sgn(V) (15)
式(15)中,sgn(·)为符号函数;
步骤11、根据哈希码H,在n个图像-文本对中对检索任务q进行检索,有如下检索步骤:
步骤11.1、判断检索任务q是否是n个图像-文本对中的任意一个图像或者文本,若是,则直接从哈希码H中找到其对应的哈希码hq',并转到步骤11.2;否则,转到步骤11.1.1;
步骤11.1.1、判断检索任务q是否是图像,若是,则采用图像处理的方法提取检索任务q的图像特征向量xqi,再利用式(16)得到检索任务q的哈希码hq”后,转到步骤11.2;否则,转到步骤11.1.2;
hq”=sgn(P1·xqi) (16)
步骤11.1.2、用文本处理的方法提取检索任务q的文本特征向量xqt,再利用式(17)得到检索任务q的哈希码hq”'后,转到步骤11.2;
hq”'=sgn(P2·xqt) (17)
步骤11.2、将检索任务q的哈希码hq'或hq”或者hq”'赋值给hq,将hq和任意第m个哈希码hm进行异或运算,得到的结果中“1”的个数即为两者之间的汉明距离;其中hm∈H,m∈[1,n];
步骤11.3、判断检索任务q是否是n个图像-文本对中的任意一个图像或者文本,若是,则返回汉明距离的第二小的搜索项hresult';否则,返回汉明距离最小的搜索项hresult”;
步骤11.4、将返回的搜索项hresult'或hresult”赋值给hresult,根据检索要求,将hresult所对应的图片或文本作为检索任务q的跨模态检索结果result。

Claims (3)

1.一种融合有监督信息的基于矩阵分解的跨模态哈希检索方法,其特征是按如下步骤进行:
步骤1、获取n个图像-文本对及其相对应的语义类别L,并对任意第i个图像和第i个文本进行特征化处理,得到第i个图像的特征向量
Figure FDA0002370703540000011
以及对应文本的特征向量
Figure FDA0002370703540000012
并记第i个图像或文本的特征向量为
Figure FDA0002370703540000013
从而得到n个图像或文本的特征矩阵,记为X(t),其中,t∈{1,2},i=1,2,…,n;
步骤2、将n个图像或文本的特征矩阵X(t)分解为映射转换矩阵Ut和潜在的图像或文本的语义特征矩阵Vt之间乘积,并利用n个图像-文本对的语义类别矩阵L对语义特征矩阵Vt进行约束,从而通过式(1)得到矩阵分解的目标函数Fmf
Figure FDA0002370703540000014
式(1)中,Z是约束的辅助矩阵,且ZL=V=V1=V2,V表示潜在的语义特征矩阵,V1表示潜在的图像的语义特征矩阵,V2表示潜在的文本的语义特征矩阵;λ1和λ2是平衡参数,用于控制相应项的权重,且λ12=1;
Figure FDA0002370703540000015
表示矩阵的F范数的平方;
步骤3、利用式(2)得到第i个图像-文本对和第j个图像-文本对的模态间相似性矩阵ACij
Figure FDA0002370703540000016
式(2)中,Li表示第i个图像-文本对的语义类别,Lj表示第j个图像-文本对的语义类别,i,j=1,2,…,n;
步骤4、利用式(3)得到第i个图像和第j个图像,或第i个文本和第j个文本的相似性矩阵
Figure FDA0002370703540000017
Figure FDA0002370703540000018
式(3)中,Nk(·)表示k近邻的集合,
Figure FDA0002370703540000019
表示第i个图像或文本的特征向量,
Figure FDA00023707035400000110
表示第j个图像或文本的特征;
步骤5、利用式(4)得到相似度约束的目标函数Fsim
Fsim=tr(VSVT) (4)
式(4)中,tr(·)表示矩阵的迹,S表示拉普拉斯矩阵,且S=D-W,D表示对角矩阵,且
Figure FDA0002370703540000021
Wab表示整体相似度矩阵W中第a行第b列的元素,Wab∈W,W表示整体相似度矩阵,且W=AC+A(1)+A(2),AC表示所有不同图像-文本对之间的模态间的相似度矩阵,A(1)表示所有不同图像之间的模态内的相似度矩阵,A(2)表示所有不同文本之间的模态内的相似度矩阵,T表示矩阵转置;
步骤6、根据式(5)所示的两个哈希函数,将图像和文本模态分别通过一个线性投影映射到公共潜在语义空间:
Figure FDA0002370703540000022
式(5)中,P1表示图像模态特征空间到公共潜在语义空间的映射矩阵,P2表示文本模态特征空间到公共潜在语义空间的映射矩阵;X(1)表示n个图像的特征矩阵;X(2)表示n个文本的特征矩阵;
步骤7、利用式(6)得到从原始数据特征空间到公共潜在语义空间映射的目标函数Fmap
Figure FDA0002370703540000023
步骤8、利用式(7)建立总体目标函数Fo
Figure FDA0002370703540000024
式(7)中,α,β和γ是控制各自项的权重的平衡参数;R(·)是正则化项;
步骤9、总体目标函数Fo中的参数不断交替迭代更新,直到总体目标函数Fo收敛或者达到迭代次数;
步骤10、根据式(15)得到n个图像-文本对的哈希码H:
H=sgn(V) (8)
式(8)中,sgn(·)为符号函数;
步骤11、根据所述哈希码H,在n个图像-文本对中对检索任务q进行检索,从而得到跨模态检索结果result。
2.根据权利要求1所述的跨模态哈希检索方法,其特征是,所述步骤9按如下过程进行:
步骤9.1、固定U2,ZL,P1,P2的值不变,令
Figure FDA0002370703540000031
利用式(9)得到图像的映射转换矩阵U1
Figure FDA0002370703540000032
式(9)中,E是单位矩阵;
步骤9.2、固定U1,ZL,P1,P2的值不变,令
Figure FDA0002370703540000033
利用式(10)得到文本的映射转换矩阵U2
Figure FDA0002370703540000034
步骤9.3、固定U1,U2,P1,P2的值不变,令
Figure FDA0002370703540000035
利用式(11)得到约束的辅助矩阵Z:
Z=B-1C[L(E+S)LT]-1 (11)
式(11)中,B,C表示中间变量,并有:
B=λ1U1 TU12U2 TU2+(2α+γ+β)E (12)
C=λ1U1 TX(1)LT2U2 TX(2)LT+α(P1X(1)LT+P2X(2)LT) (13)
步骤9.4、固定U1,U2,ZL,P2的值不变,令
Figure FDA0002370703540000036
利用式(14)得到文本模态特征空间到公共潜在语义空间的映射矩阵P1
步骤9.5、固定U1,U2,ZL,P1的值不变,令
Figure FDA0002370703540000038
利用式(15)得到文本模态特征空间到公共潜在语义空间的映射矩阵P2
Figure FDA0002370703540000039
3.根据权利要求1所述的跨模态哈希检索方法,其特征是,所述步骤11按如下过程进行:
步骤11.1、判断所述检索任务q是否是n个图像-文本对中的任意一个图像或者文本,若是,则直接从哈希码H中找到其对应的哈希码hq',并转到步骤11.2;否则,转到步骤11.1.1;
步骤11.1.1、判断所述检索任务q是否是图像,若是,则采用图像处理的方法提取所述检索任务q的图像特征向量xqi,再利用式(16)得到所述检索任务q的哈希码hq”后,转到步骤11.2;否则,转到步骤11.1.2;
hq”=sgn(P1·xqi) (16)
步骤11.1.2、用文本处理的方法提取所述检索任务q的文本特征向量xqt,再利用式(17)得到所述检索任务q的哈希码hq”'后,转到步骤11.2;
hq”'=sgn(P2·xqt) (17)
步骤11.2、将所述检索任务q的哈希码hq'或hq”或者hq”'赋值给hq,将hq和任意第m个哈希码hm进行异或运算,得到的结果中“1”的个数即为两者之间的汉明距离;其中hm∈H,m∈[1,n];
步骤11.3、判断所述检索任务q是否是n个图像-文本对中的任意一个图像或者文本,若是,则返回汉明距离的第二小的搜索项hresult';否则,返回汉明距离最小的搜索项hresult”;
步骤11.4、将返回的搜索项hresult'或hresult”赋值给hresult,根据检索要求,将hresult所对应的图片或文本作为所述检索任务q的跨模态检索结果result。
CN202010049715.1A 2020-01-16 2020-01-16 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 Active CN111259176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010049715.1A CN111259176B (zh) 2020-01-16 2020-01-16 融合有监督信息的基于矩阵分解的跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010049715.1A CN111259176B (zh) 2020-01-16 2020-01-16 融合有监督信息的基于矩阵分解的跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN111259176A true CN111259176A (zh) 2020-06-09
CN111259176B CN111259176B (zh) 2021-08-17

Family

ID=70954231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010049715.1A Active CN111259176B (zh) 2020-01-16 2020-01-16 融合有监督信息的基于矩阵分解的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN111259176B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156433A (zh) * 2014-08-11 2014-11-19 合肥工业大学 一种基于语义映射空间构建的图像检索方法
US9280587B2 (en) * 2013-03-15 2016-03-08 Xerox Corporation Mailbox search engine using query multi-modal expansion and community-based smoothing
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280587B2 (en) * 2013-03-15 2016-03-08 Xerox Corporation Mailbox search engine using query multi-modal expansion and community-based smoothing
CN104156433A (zh) * 2014-08-11 2014-11-19 合肥工业大学 一种基于语义映射空间构建的图像检索方法
US20180165554A1 (en) * 2016-12-09 2018-06-14 The Research Foundation For The State University Of New York Semisupervised autoencoder for sentiment analysis
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法
CN110110100A (zh) * 2019-05-07 2019-08-09 鲁东大学 基于协同矩阵分解的离散监督跨媒体哈希检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN TANG等: "Supervised Matrix Factorization Hashing for Cross-Modal Retrieval", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
XUELIANG LIU等: "Cross-Modality Feature Learning via Convolutional Autoencoder", 《ACM TRANS. MULTIMEDIA COMPUT》 *
朱治兰等: "有监督鉴别哈希跨模态检索", 《计算机应用与软件》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182273A (zh) * 2020-09-25 2021-01-05 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统
CN112182273B (zh) * 2020-09-25 2024-03-01 贵州师范大学 基于语义约束矩阵分解哈希的跨模态检索方法及其系统

Also Published As

Publication number Publication date
CN111259176B (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
CN107766555B (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN106777318B (zh) 基于协同训练的矩阵分解跨模态哈希检索方法
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Santa Cruz et al. Visual permutation learning
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN112949740B (zh) 一种基于多级度量的小样本图像分类方法
CN112199532B (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111476315A (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN111274424B (zh) 一种零样本图像检索的语义增强哈希方法
CN110990596B (zh) 一种基于自适应量化多模态哈希检索方法及系统
CN112132186A (zh) 一种存在部分缺失和未知类别标记的多标记分类方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112395487A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114186084A (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN110598022A (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
Chen et al. Extensible Cross-Modal Hashing.
CN112948601A (zh) 一种基于受控语义嵌入的跨模态哈希检索方法
CN109857892B (zh) 基于类标传递的半监督跨模态哈希检索方法
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant