CN108334574A - 一种基于协同矩阵分解的跨模态检索方法 - Google Patents

一种基于协同矩阵分解的跨模态检索方法 Download PDF

Info

Publication number
CN108334574A
CN108334574A CN201810062484.0A CN201810062484A CN108334574A CN 108334574 A CN108334574 A CN 108334574A CN 201810062484 A CN201810062484 A CN 201810062484A CN 108334574 A CN108334574 A CN 108334574A
Authority
CN
China
Prior art keywords
text
matrix
image
mode
hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810062484.0A
Other languages
English (en)
Other versions
CN108334574B (zh
Inventor
李新卫
荆晓远
吴飞
孙莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810062484.0A priority Critical patent/CN108334574B/zh
Publication of CN108334574A publication Critical patent/CN108334574A/zh
Application granted granted Critical
Publication of CN108334574B publication Critical patent/CN108334574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于协同矩阵分解的跨模态检索方法,同时考虑保持原始空间样本对的局部几何流形结构,使用图正则项加入了模态内与模态间的约束,采用普遍使用的mAP(平均准确率)作为性能评价指标。本发明不仅考虑了样本的模态内相似性,还考虑了样本对模态间的相似性,为以文检图和以图检文准确性提供了保障。本发明利用协同矩阵分解技术、哈希函数,同时加入了保持模态内与模态间相似性的图正则化项,提高了以文检图和以图检文的相互检索性能,广泛应用于移动设备、互联网以及电子商务中的图片文本互相检索服务。

Description

一种基于协同矩阵分解的跨模态检索方法
技术领域
本发明涉及一种基于协同矩阵分解的跨模态检索方法,具体涉及一种考虑保持原始空间数据的模态内相似性和模态间相似性的图正则化方法,属于图像处理技术领域。
背景技术
随着互联网技术的迅速发展,社会步入了大数据时代,大数据以图像、文本、音频和视频等不同的模态表示,这些不同模态的数据并不是独立的,它们有着本质的联系,如何挖掘出数据之间的关联信息成为了人们关注的热点。
跨模态检索技术作为一种基本的相关技术,在机器学习、计算机视觉和数据挖掘等领域被广泛的应用,比如用文本检索图片和用图片检索文本。然而大数据具有数据量大、维度高以及不同模态数据间的语义鸿沟大等一系列特点,这使得针对大数据的跨模态检索困难重重。为了减轻模态间的差异性,相关学者提出了一系列方法,其中一部分主要关注于潜在子空间学习,比如典型关联分析CCA及其扩展变形;而哈希算法作为一种近似最近邻检索技术,具有存储量小、检索速度快等特点,所以另一部分工作者主要进行哈希算法的研究,典型方法主要有跨视图哈希CVH、媒体间哈希IMH和语义关联最大化的监督多模态哈希。
然而,这些方法具有一定的局限性,检索效果比较低,检索的时间比较长,因此设计更好的算法是相关工作者亟需解决的难题。
发明内容
本发明所要解决的技术问题是提供一种基于协同矩阵分解的跨模态检索方法,考虑了保持原始空间数据的模态内相似性和模态间相似性。本发明不仅提高了以文检图的准确率,还提高了以图检文的识别能力,同时具有检索的速度快等优点。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种基于协同矩阵分解的跨模态检索方法,包括如下步骤:
步骤1,获取原始数据,首先对原始数据中的图像和文本分别进行特征提取,并对提取到的图像特征和文本特征分别进行归一化处理,再将归一化处理后的图像特征和文本特征分别分为两个部分,一部分图像特征和文本特征构成训练集,另一部分图像特征和文本特征构成测试集;
步骤2,利用训练集中的特征数据的类标签构造图像与图像、文本与文本模态内以及图像与文本模态间相似性矩阵和拉普拉斯矩阵;
步骤3,将矩阵分解函数、哈希函数和正则化项合并生成整体目标函数,整体目标函数的表达式如下所示:
式中,i,j=1,2,λ1和λ2分别表示图像模态内和文本模态内的平衡系数,X1和X2分别表示训练集中图像特征数据和文本特征数据,U1和U2分别表示X1和X2的基矩阵,V是成对的图像和文本在低维潜在语义空间的共同表示,α为哈希函数学习时的权重系数,h(·)表示将投影矩阵离散化为二进制的哈希函数,γ为图正则化项的加权系数,tr(·)表示矩阵的迹范数,P1和P2分别表示X1和X2利用哈希函数所学习的投影矩阵,L11、L22分别表示图像与图像模态内、文本与文本模态内拉普拉斯矩阵,L12=L21表示图像与文本模态间的拉普拉斯矩阵;
步骤4,对步骤3生成的整体目标函数中的变量Ui、V、Pi分别进行迭代更新,直至达到设定的最大迭代次数,具体为:
(1)将Ui、V、Pi中的所有元素均初始化为(0,1)区间内的随机数,设定λi、α、γ的值以及最大迭代次数;
(2)固定V、P1和P2,更新U1、U2
其中,U1 t+1、U1 t分别表示第t+1、t次迭代后的U1,U2 t+1、U2 t分别为第t+1、t次迭代后的U2;η1、η2为平衡参数;
(3)固定U1、U2、P1和P2,利用KKT条件更新V:
其中,Vpq t+1、Vpq t分别表示第t+1、t次迭代后的V中的第p行第q列元素;Vt表示第t次迭代后的V,分别表示U1 t、U2 t的转置;
(4)固定V、U1和U2,更新P1、P2
其中,P1 t+1、P1 t分别表示第t+1、t次迭代后的P1;P2 t+1、P2 t分别表示第t+1、t次迭代后的P2
步骤5,利用符号函数得到训练集中图像文本统一的哈希编码矩阵sign(V);
步骤6,根据投影矩阵P1、P2,将测试集中的图像特征数据X1'、文本特征数据X2'代入步骤3中的哈希函数分别得到X1'、X2'的哈希编码;
步骤7,分别计算X1'、X2'的哈希编码与训练集哈希编码sign(V)之间的汉明距离D1与D2
步骤8,分别对汉明距离D1与D2进行升序排列,根据排序结果找到对应的索引,将索引的前K项对应的对象作为检索结果,并根据检索结果的类标签计算检索精度,从而实现以图检文和以文检图的跨模态检索。
作为本发明的进一步技术方案,步骤3中λ1=λ2=0.5。
作为本发明的进一步技术方案,步骤3中α的取值范围为[10,200]。
作为本发明的进一步技术方案,步骤3中γ的取值范围为[10,200]。
作为本发明的进一步技术方案,步骤3中的哈希函数h(Xi)=sign(XiPi)。
本发明利用协同矩阵分解的方法进行跨模态检索,使用哈希函数能够将训练集外的样本哈希编码,同时利用图正则化来保持原始数据的局部几何流形结构,保障了模态内的相似性与模态间的相似性。此方法适用于移动设备、互联网和电子商务中的以图检文和以文检图两种常用的互相检索服务。本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明创造性的将协同矩阵分解技术应用到跨模态检索领域,同时使用了哈希函数的学习来对训练集以外的样本进行哈希编码,便于汉明距离的计算,进行模态间的相互检索;
(2)本发明将图正则化项加入到了目标函数中用于保持原始数据的局部几何流形结构,保持了数据的模态内相似性与模态间相似性,因而明显地提高了跨模态数据的互检索准确性;
(3)本发明广泛应用于适用于移动设备、互联网和电子商务中的以图检文和以文检图两种常用的互相检索服务。
附图说明
图1是本发明的方法流程图。
图2是本发明在Wiki数据集以图检文的PR曲线。
图3是本发明在Wiki数据集以文检图的PR曲线。
图4是本发明在Pascal VOC 2007下以图检文PR曲线。
图5是本发明在Pascal VOC 2007下以文检图PR曲线。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
大数据时代,信息的获取和处理至关重要,检索技术是其中关键的步骤,尤其在各种模态数据大量涌现的情况下,如何进行有效的信息检索是相关学者关注的重点,也是相关工作者亟需解决的难题,现有的跨模态检索方法存在检索速度慢,检索相关信息的准确性低等缺点。
针对此问题,本发明展开了创新研究,提出了一种基于协同矩阵分解的跨模态检索方法,参见图1,整个检索过程包括如下步骤:
步骤1,获取原始数据,首先对原始数据中的图像和文本分别进行特征提取(其中,图像为BOVW(Bag of Visual Word)特征,文本为BOW(Bag of Word)特征),并对提取到的图像特征和文本特征分别进行归一化处理,再将归一化处理后的图像特征和文本特征分别分为两个部分,一部分图像特征和文本特征构成训练集,另一部分图像特征和文本特征构成测试集。假设训练集中图像特征数据和文本特征数据分别为X1与X2
步骤2,构造多模态图正则项,利用训练数据的类标签构造图像与图像模态内的相似性矩阵W11和拉普拉斯矩阵L11、文本与文本模态内的相似性矩阵W22和拉普拉斯矩阵L22,构造图像与文本模态间相似性矩阵W12=W21和拉普拉斯矩阵L12=L21。具体地,拉普拉斯矩阵的计算公式以图像模态数据说明:L11=D11-W11,D11是一对角矩阵,具体为W11的行和列矩阵。
步骤3,将矩阵分解、哈希函数和多模态图正则化项加一块合并成整体目标函数,其表达式如下所示:
式中,λ1和λ2分别表示图像模态内和文本模态内的平衡系数,一般取λ1=λ2=0.5;α为哈希函数学习时的权重系数,取值范围为[10,200];γ为多模态图正则化项的加权系数,取值范围为[10,200];V是成对的图像和文本在低维潜在语义空间的共同表示,P1和P2分别表示X1和X2利用哈希函数所学习的投影矩阵;h(·)表示哈希函数,用于将投影矩阵离散化为二进制;I为单位矩阵,约束条件是为了除去X1和X2的基矩阵U1U2的冗余信息,保持矩阵的无关性,学习到的哈希编码更好。
由于整体目标函数是非凸的,无法通过闭合解计算求得,因此采用交替迭代的方法逐步更新,得到Ui、V、Pi的具体表达式。
步骤4,对步骤3生成的整体目标函数中的变量Ui、V、Pi分别进行迭代更新,直至达到设定的最大迭代次数。
步骤5,利用符号函数得到训练集图像文本统一的哈希编码sign(V)。
步骤6,根据投影矩阵P1、P2,将测试集中的图像特征数据X1'、文本特征数据X2'代入步骤3中的哈希函数分别得到X1'、X2'的哈希编码;
步骤7,分别计算X1'、X2'的哈希编码与训练集哈希编码sign(V)之间的汉明距离D1与D2
步骤8,分别对汉明距离D1与D2进行升序排列,根据排序结果找到对应的索引,将索引的前K(根据实际情况可调节)项对应的对象作为检索结果,并根据检索结果的类标签计算检索精度,从而实现以图检文和以文检图的跨模态检索。
实现本发明的技术思路是:在训练集中,利用协同矩阵分解将不同模态的数据映射到潜在的低维语义空间,并得到对应的低维哈希表示,利用多模态图正则化来保持原始空间数据的局部几何流形结构,依次达到保障模态内相似性和模态间相似性的目的,同时利用哈希函数学习得到的投影矩阵来将训练集以外的样本投影到相应的汉明空间并表示成二进制哈希编码;在测试集中,利用训练模式下学习到的投影矩阵P1、P2代入到哈希函数中得到测试样本的低维哈希编码,从而计算测试数据与训练数据间的汉明距离,得到检索结果集。
本发明中,步骤2所述的构造多模态图正则项是用来保障原始数据的模态内与模态间的相似性约束的,具体可按如下步骤进行:
步骤2.1,在图像模态和文本模态分别相似的实例投影到低维语义空间中也应该保持近邻关系,即二进制哈希码的关联性尽可能大。为了保持模态内的近邻结构信息,定义了一个KNN相似图,第i个模态内的相似矩阵Wi定义如下:
这里表示欧式距离,也就是, 表示的k(预先定义)个最近邻值;表示第i个模态的第p个样本,即第p行;Wi pq为Wi的p行q列元素值,表示第i个模态的第p个样本与第q个样本的相似度;
步骤2.2,不同的模态数据具有不同的特征表示和空间,但是同一个样本不同模态间共享相同的语义表示,因此模态间的对应样本具有千丝万缕的联系。举例来说,如果它们属于同一个类,那么它们就有相似的主题。为了在低维语义空间中能够保持模态间的相似性,定义了一个图像和文本的模态间相似性矩阵Wij(i≠j):
其中表示第i个模态的第p个样本;表示第j个模态的第q个样本;为Wij的p行q列元素值,表示第i个模态的第p个样本与第j个模态的第q个样本的相似性;
步骤2.3,根据上述两种相似性关系,将不同模态的数据整合成联合的多模态图,整体的相似性矩阵表示为:
β是保证模态间相似性和模态内相似性平衡的参数,W11、W22分别为图像的模态内、文本的模态内相似性矩阵,W12=W21是图像与文本模态间相似性矩阵,。
根据拉普拉斯矩阵通用计算公式L=D-S,假设S为某一大小为n×n相似性矩阵,那么D是S的行和矩阵,具体地D是对角矩阵且所以图正则项的目标函数为:
多模态图正则项通过保持原始数据的局部几何流形结构而有效地保持了数据的模态内相似性和模态间相似性,进而得到更具有判别性的哈希编码,提高了跨模态检索的精度。
本发明中,步骤3得到的目标函数的具体细节包括:
步骤3.1,分别对X1和X2进行矩阵分解,公式化形象表示为其中·F表示矩阵的F范数,U1和U2分别表示X1和X2的基矩阵,V为成对的图像和文本在潜在的低维语义空间的共同表示(统一的哈希编码矩阵),λ1、λ2为图像文本两个模态的平衡参数,一般取λ1=λ2=0.5,两个模态的数据对目标函数贡献值相同。
步骤3.2,由于测试样本为训练集外的实例,为了能够将测试样本表示成低维的潜在语义空间的哈希编码,需要学习投影矩阵,因此需要构造投影误差项:
其中h(Xi)=sign(XiPi)离散化投影后的矩阵,得到训练数据的投影矩阵Pi
步骤3,根据步骤2构造的拉普拉斯矩阵得到保持模态内相似性和模态间相似性的多模态图正则化其中tr(·)代表矩阵的迹。
步骤4,将上述(1)、(2)、(3)合并成一块构成整体目标函数,如下式所示:
其中,α为哈希函数学习时的权重系数,取值范围为[10,200],γ为多模态图正则化项的加权系数,取值范围为[10,200]。
此目标函数中的矩阵分解项和哈希函数部分将图像数据和文本数据投影到低维的潜在语义空间中,模态内的相似性和模态间的相似性通过多模态图正则项得到维护,因此通过此目标函数求得的哈希编码更具有判别性,从而提高以文检图和以图检文的精度。
本发明中,步骤4所述的对目标函数中变量的交替迭代过程,得到学习后的Ui、V、Pi的具体表达式,包括如下步骤:
步骤4.1,将Ui、V、Pi中的所有元素均初始化为(0,1)区间内的随机数,设定λ1=λ2=0.5、α=20、γ=10的值以及最大迭代次数;
步骤4.2,固定V、P1和P2,更新U1、U2
其中,U1 t+1、U1 t分别表示第t+1、t次迭代后的U1,U2 t+1、U2 t分别为第t+1、t次迭代后的U2;η1、η2为可调节的平衡参数;
步骤4.3,固定U1、U2、P1和P2,利用KKT条件更新V:
其中,Vpq t+1、Vpq t分别表示第t+1、t次迭代后的V中的第p行第q列元素;Vt表示第t次迭代后的V,分别表示U1 t、U2 t的转置;
步骤4.4,固定V、U1和U2,更新P1、P2
其中,P1 t+1、P1 t分别表示第t+1、t次迭代后的P1;P2 t+1、P2 t分别表示第t+1、t次迭代后的P2
交替迭代方法将非凸的整体目标函数转化为凸的子目标函数,通过固定其余的变量来求解该变量,高效地解决了基矩阵、系数矩阵和投影矩阵的求解问题。
下面通过具体实施例对本发明的技术方案做进一步阐述:
(1)仿真条件
本发明是在中央处理器为Intel(R)Core(TM)i3-2120 3.30GHZ、内存6G、windows10操作系统上,运用Matlab软件进行的实验仿真。实验中参数设置为λ1=λ2=0.5,α=20,γ=10;
(2)仿真内容
本发明的方法与现有的跨模态哈希检索方法进行了对比,作为对比的方法有关联分析CCA、跨视图哈希CVH、媒体间哈希IMH和语义关联最大化的监督多模态哈希SCM_orth和SCM_seq。
(3)仿真结果
仿真实验中分别给出了CCA、CVH、IMH、SCM_orth、SCM_seq和本发明分别在单标签数据集Wiki和Pascal VOC 2007下哈希码长度为16位、32位、64位和128位所对应的平均准确率mAP,分别如表1和表2所示。
表1 Wiki数据集下以图检文和以文检图的mAP
表2 Pascal VOC 2007数据集以图检文和以文检图的mAP
仿真实验中,分别画出了准确率precision和召回率recall的PR曲线来评估图像文本之间互相检索的能力,其中,准确率是指在某具体汉明距离中,查询到的结果集中相关的样本量与结果集总量之比,召回率是指在某具体汉明距离中,查询到的结果集中相关的样本量与训练集中总的相关量之比,一般情况下随着查询样本数量的增加,召回率随之增加,准确率随之减少,因此PR曲线是一条下降的平滑曲线。图2、图3、图4、图5分别画出了哈希码长度为64位情况下在数据集Wiki和Pascal VOC 2007中的以文检图和以图检文两种检索任务的PR曲线。
仿真实验中,分别给出了CCA、CVH、IMH、SCM_orth、SCM_seq和本发明分别在多标签数据集NUS_WIDE和MIRFLICKR-25K下哈希码长度为16位、32位、64位和128位所对应的平均准确率mAP,分别如表3和表4所示。
表3 NUS_WIDE数据集下以图检文和以文检图的mAP
表4 MIRFLICKR-25K数据集下以图检文和以文检图的mAP
简而言之,本发明公开的基于协同矩阵分解的跨模态检索方法,主要是用于大规模数据集中图像和文本之间快速的互相检索应用,同时考虑保持原始空间样本对的局部几何流形结构,使用图正则项加入了模态内与模态间的约束,采用普遍使用的mAP(平均准确率)作为性能评价指标。本发明不仅考虑了样本的模态内相似性,还考虑了样本对模态间的相似性,为以文检图和以图检文准确性提供了保障。其实现步骤为:(1)获取原始数据,特征提取并进行归一化处理;(2)对训练数据进行协同矩阵分解并加入模态内与模态间相似性约束的多模态图正则化项,得到目标函数;(3)交替迭代更新得到基矩阵、系数矩阵和投影矩阵表达式;(4)通过符号函数量化得到数据集的二进制哈希编码;(5)计算哈希编码之间的汉明距离;(6)汉明距离排序检索查询样本的top-N实例。本发明利用协同矩阵分解、哈希函数和保持模态内相似性与模态间相似性的多模态图正则项作为整体目标函数迭代更新基矩阵、潜在的低维语义空间的系数矩阵和哈希函数的投影矩阵,得到的哈希编码更能够保持原始数据的局部几何流形结构,因而以图检文和以文检图的准确性能更高,可用于移动设备、互联网和电子商务中的图片和文本快速互相检索服务。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于协同矩阵分解的跨模态检索方法,其特征在于,包括如下步骤:
步骤1,获取原始数据,首先对原始数据中的图像和文本分别进行特征提取,并对提取到的图像特征和文本特征分别进行归一化处理,再将归一化处理后的图像特征和文本特征分别分为两个部分,一部分图像特征和文本特征构成训练集,另一部分图像特征和文本特征构成测试集;
步骤2,利用训练集中的特征数据的类标签构造图像与图像、文本与文本模态内以及图像与文本模态间相似性矩阵和拉普拉斯矩阵;
步骤3,将矩阵分解函数、哈希函数和正则化项合并生成整体目标函数,整体目标函数的表达式如下所示:
式中,i,j=1,2,λ1和λ2分别表示图像模态内和文本模态内的平衡系数,X1和X2分别表示训练集中图像特征数据和文本特征数据,U1和U2分别表示X1和X2的基矩阵,V是成对的图像和文本在低维潜在语义空间的共同表示,α为哈希函数学习时的权重系数,h(·)表示将投影矩阵离散化为二进制的哈希函数,γ为图正则化项的加权系数,tr(·)表示矩阵的迹范数,P1和P2分别表示X1和X2利用哈希函数所学习的投影矩阵,L11、L22分别表示图像与图像模态内、文本与文本模态内拉普拉斯矩阵,L12=L21表示图像与文本模态间的拉普拉斯矩阵;
步骤4,对步骤3生成的整体目标函数中的变量Ui、V、Pi分别进行迭代更新,直至达到设定的最大迭代次数,具体为:
(1)将Ui、V、Pi中的所有元素均初始化为(0,1)区间内的随机数,设定λi、α、γ的值以及最大迭代次数;
(2)固定V、P1和P2,更新U1、U2
其中,U1 t+1、U1 t分别表示第t+1、t次迭代后的U1,U2 t+1、U2 t分别为第t+1、t次迭代后的U2;η1、η2为平衡参数;
(3)固定U1、U2、P1和P2,利用KKT条件更新V:
其中,Vpq t+1、Vpq t分别表示第t+1、t次迭代后的V中的第p行第q列元素;Vt表示第t次迭代后的V,分别表示U1 t、U2 t的转置;
(4)固定V、U1和U2,更新P1、P2
其中,P1 t+1、P1 t分别表示第t+1、t次迭代后的P1;P2 t+1、P2 t分别表示第t+1、t次迭代后的P2
步骤5,利用符号函数得到训练集中图像文本统一的哈希编码矩阵sign(V);
步骤6,根据投影矩阵P1、P2,将测试集中的图像特征数据X′1、文本特征数据X′2代入步骤3中的哈希函数分别得到X′1、X′2的哈希编码;
步骤7,分别计算X′1、X′2的哈希编码与训练集哈希编码sign(V)之间的汉明距离D1与D2
步骤8,分别对汉明距离D1与D2进行升序排列,根据排序结果找到对应的索引,将索引的前K项对应的对象作为检索结果,并根据检索结果的类标签计算检索精度,从而实现以图检文和以文检图的跨模态检索。
2.根据权利要求1所述的一种基于协同矩阵分解的跨模态检索方法,其特征在于,步骤3中λ1=λ2=0.5。
3.根据权利要求1所述的一种基于协同矩阵分解的跨模态检索方法,其特征在于,步骤3中α的取值范围为[10,200]。
4.根据权利要求1所述的一种基于协同矩阵分解的跨模态检索方法,其特征在于,步骤3中γ的取值范围为[10,200]。
5.根据权利要求1所述的一种基于协同矩阵分解的跨模态检索方法,其特征在于,步骤3中的哈希函数h(Xi)=sign(XiPi)。
CN201810062484.0A 2018-01-23 2018-01-23 一种基于协同矩阵分解的跨模态检索方法 Active CN108334574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810062484.0A CN108334574B (zh) 2018-01-23 2018-01-23 一种基于协同矩阵分解的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810062484.0A CN108334574B (zh) 2018-01-23 2018-01-23 一种基于协同矩阵分解的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN108334574A true CN108334574A (zh) 2018-07-27
CN108334574B CN108334574B (zh) 2020-06-12

Family

ID=62926507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810062484.0A Active CN108334574B (zh) 2018-01-23 2018-01-23 一种基于协同矩阵分解的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN108334574B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN109376261A (zh) * 2018-10-29 2019-02-22 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN110019652A (zh) * 2019-03-14 2019-07-16 九江学院 一种基于深度学习的跨模态哈希检索方法
CN110059198A (zh) * 2019-04-08 2019-07-26 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110188219A (zh) * 2019-05-16 2019-08-30 复旦大学 面向图像检索的深度强化去冗余哈希算法
CN110188210A (zh) * 2019-05-10 2019-08-30 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN110516026A (zh) * 2019-07-15 2019-11-29 西安电子科技大学 基于图正则化非负矩阵分解的在线单模态哈希检索方法
CN110990596A (zh) * 2019-12-04 2020-04-10 山东师范大学 一种基于自适应量化多模态哈希检索方法及系统
CN111340103A (zh) * 2020-02-24 2020-06-26 安徽大学 一种基于图嵌入典型相关分析的特征层融合方法及其装置
CN112330144A (zh) * 2020-11-04 2021-02-05 南京航空航天大学 一种面向飞行器装配协同检测的测量任务规划方法
CN112732956A (zh) * 2020-12-24 2021-04-30 江苏智水智能科技有限责任公司 基于感知多模态大数据的高效查询方法
CN112767303A (zh) * 2020-08-12 2021-05-07 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114281950A (zh) * 2022-03-07 2022-04-05 山东建筑大学 基于多图加权融合的数据检索方法与系统
CN114329109A (zh) * 2022-03-15 2022-04-12 山东建筑大学 基于弱监督哈希学习的多模态检索方法及系统
CN117992805A (zh) * 2024-04-07 2024-05-07 武汉商学院 基于张量积图融合扩散的零样本跨模态检索方法、系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317902A (zh) * 2014-10-24 2015-01-28 西安电子科技大学 基于局部保持迭代量化哈希的图像检索方法
CN104462196A (zh) * 2014-10-30 2015-03-25 南京信息工程大学 多特征联合哈希信息检索方法
US9110923B2 (en) * 2011-03-03 2015-08-18 Google Inc. Ranking over hashes
CN105426529A (zh) * 2015-12-15 2016-03-23 中南大学 基于用户搜索意图定位的图像检索方法及系统
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9110923B2 (en) * 2011-03-03 2015-08-18 Google Inc. Ranking over hashes
CN104317902A (zh) * 2014-10-24 2015-01-28 西安电子科技大学 基于局部保持迭代量化哈希的图像检索方法
CN104462196A (zh) * 2014-10-30 2015-03-25 南京信息工程大学 多特征联合哈希信息检索方法
CN105426529A (zh) * 2015-12-15 2016-03-23 中南大学 基于用户搜索意图定位的图像检索方法及系统
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN106777318A (zh) * 2017-01-05 2017-05-31 西安电子科技大学 基于协同训练的矩阵分解跨模态哈希检索方法
CN107256271A (zh) * 2017-06-27 2017-10-17 鲁东大学 基于映射字典学习的跨模态哈希检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XU X: "Cross-Modal learning with images, texts and their semantics", 《SPRINGER INTERNATIONAL PUBLISHING ON ARTIFICIAL INTELLIGENCE AND COMPUTER VISION》 *
丁恒,陆伟: "基于相关性的跨模态信息检索研究", 《现代图书情报技术》 *
朱扬扬: "基于语义一致性和矩阵分解的跨模态哈希检索研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
颜廷坤: "基于哈希学习的跨媒体检索关键技术研究及系统实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271486A (zh) * 2018-09-19 2019-01-25 九江学院 一种相似性保留跨模态哈希检索方法
CN109271486B (zh) * 2018-09-19 2021-11-26 九江学院 一种相似性保留跨模态哈希检索方法
CN109376261A (zh) * 2018-10-29 2019-02-22 山东师范大学 基于中级文本语义增强空间的模态独立检索方法和系统
CN109766481A (zh) * 2019-01-11 2019-05-17 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN109766481B (zh) * 2019-01-11 2021-06-08 西安电子科技大学 基于协同矩阵分解的在线哈希跨模态信息检索方法
CN110019652A (zh) * 2019-03-14 2019-07-16 九江学院 一种基于深度学习的跨模态哈希检索方法
CN110019652B (zh) * 2019-03-14 2022-06-03 九江学院 一种基于深度学习的跨模态哈希检索方法
CN109960732A (zh) * 2019-03-29 2019-07-02 广东石油化工学院 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统
CN110059198A (zh) * 2019-04-08 2019-07-26 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110059198B (zh) * 2019-04-08 2021-04-13 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110059154A (zh) * 2019-04-10 2019-07-26 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110188210A (zh) * 2019-05-10 2019-08-30 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN110188219A (zh) * 2019-05-16 2019-08-30 复旦大学 面向图像检索的深度强化去冗余哈希算法
CN110188219B (zh) * 2019-05-16 2023-01-06 复旦大学 面向图像检索的深度强化去冗余哈希方法
CN110516026A (zh) * 2019-07-15 2019-11-29 西安电子科技大学 基于图正则化非负矩阵分解的在线单模态哈希检索方法
CN110990596A (zh) * 2019-12-04 2020-04-10 山东师范大学 一种基于自适应量化多模态哈希检索方法及系统
CN111340103A (zh) * 2020-02-24 2020-06-26 安徽大学 一种基于图嵌入典型相关分析的特征层融合方法及其装置
CN111340103B (zh) * 2020-02-24 2023-08-25 安徽大学 一种基于图嵌入典型相关分析的特征层融合方法及其装置
CN112767303A (zh) * 2020-08-12 2021-05-07 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN112767303B (zh) * 2020-08-12 2023-11-28 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN112330144A (zh) * 2020-11-04 2021-02-05 南京航空航天大学 一种面向飞行器装配协同检测的测量任务规划方法
CN112732956A (zh) * 2020-12-24 2021-04-30 江苏智水智能科技有限责任公司 基于感知多模态大数据的高效查询方法
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114186084B (zh) * 2021-12-14 2022-08-26 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114281950A (zh) * 2022-03-07 2022-04-05 山东建筑大学 基于多图加权融合的数据检索方法与系统
CN114281950B (zh) * 2022-03-07 2022-05-06 山东建筑大学 基于多图加权融合的数据检索方法与系统
CN114329109A (zh) * 2022-03-15 2022-04-12 山东建筑大学 基于弱监督哈希学习的多模态检索方法及系统
CN117992805A (zh) * 2024-04-07 2024-05-07 武汉商学院 基于张量积图融合扩散的零样本跨模态检索方法、系统

Also Published As

Publication number Publication date
CN108334574B (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN108334574A (zh) 一种基于协同矩阵分解的跨模态检索方法
Dahouda et al. A deep-learned embedding technique for categorical features encoding
CN109918532B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN106777318B (zh) 基于协同训练的矩阵分解跨模态哈希检索方法
Kulis et al. Fast similarity search for learned metrics
US8594468B2 (en) Statistical approach to large-scale image annotation
US20180260414A1 (en) Query expansion learning with recurrent networks
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
CN109271486B (zh) 一种相似性保留跨模态哈希检索方法
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其系统
CN109284411B (zh) 一种基于有监督超图离散化图像二值编码方法
CN109871454B (zh) 一种鲁棒离散监督跨媒体哈希检索方法
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
CN109829065B (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN112789626A (zh) 可扩展和压缩的神经网络数据储存系统
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN109857892B (zh) 基于类标传递的半监督跨模态哈希检索方法
Wu et al. A multi-level descriptor using ultra-deep feature for image retrieval
CN108647295B (zh) 一种基于深度协同哈希的图片标注方法
CN113255498A (zh) 基于区块链技术的财务报销发票管理方法
CN114281950B (zh) 基于多图加权融合的数据检索方法与系统
CN116956228A (zh) 一种技术交易平台的文本挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant