CN108170755B - 基于三元组深度网络的跨模态哈希检索方法 - Google Patents

基于三元组深度网络的跨模态哈希检索方法 Download PDF

Info

Publication number
CN108170755B
CN108170755B CN201711402277.7A CN201711402277A CN108170755B CN 108170755 B CN108170755 B CN 108170755B CN 201711402277 A CN201711402277 A CN 201711402277A CN 108170755 B CN108170755 B CN 108170755B
Authority
CN
China
Prior art keywords
data
text
image
training data
hash codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711402277.7A
Other languages
English (en)
Other versions
CN108170755A (zh
Inventor
邓成
陈兆佳
李超
杨二昆
杨延华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201711402277.7A priority Critical patent/CN108170755B/zh
Publication of CN108170755A publication Critical patent/CN108170755A/zh
Application granted granted Critical
Publication of CN108170755B publication Critical patent/CN108170755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于三元组深度网络的跨模态哈希检索方法,用于解决现有跨模态哈希检索方法中存在的检索精率低的技术问题。实现步骤为:对数据进行预处理,将数据分成训练数据和查询数据;获取图像训练数据和文本训练数据的哈希码;采用三元组监督信息建立目标损失函数;对目标损失函数进行顺序迭代优化;计算图像查询数据和文本查询数据的哈希码;获取查询数据的检索结果。本发明提供的方案采用三元组信息构建目标损失函数,增加语义信息,同时加入模态内的损失函数,增加方法的判别性,能够有效地提高跨模态检索的精度。本发明可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。

Description

基于三元组深度网络的跨模态哈希检索方法
技术领域
本发明属于计算机视觉技术领域,涉及大规模的图像数据和文本数据之间的互相检索,具体是一种基于三元组深度网络的跨模态哈希检索方法,可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。
背景技术
随着互联网技术和社交网站的飞速发展,每天都会产生海量的多媒体数据,比如文本,图像,视频和音频等,实现跨模态数据之间的互相检索已经成为信息检索领域中的研究热点。哈希方法法是一种非常有效的信息检索方法,具有低耗内存和快速检索的优点。哈希方法可以分成单模态哈希方法,多模态哈希方法和跨模态哈希方法。单模态哈希方法的查询数据和检索结果属于同一模态,数据特征来自同构特征空间。多模态哈希方法的查询数据和检索结果属于同一模态,数据特征来自异质特征空间。跨模态哈希方法的查询数据和检索结果属于不同模态,数据特征来自异质特征空间。跨模态哈希检索方法的核心思想是将不同模态的数据投影到一个通用的汉明空间,在这个空间中得到不同模态数据的哈希码,其中哈希码之间的汉明距离与原始数据之间的语义相似性相对应,然后通过计算哈希码之间的汉明距离返回检索结果。跨模态哈希方法可以分为无监督方法和有监督方法,无监督跨模态哈希方法主要通过挖掘和保持多模态数据的潜在相关性来获得哈希编码,而有监督跨模态哈希方法旨在利用训练数据类标信息的语义相似性,来提高哈希检索的检索精度。浅层的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程分开,导致两个过程不能很好的兼容。而深度的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中,提取多层抽象特征并能有效地捕捉不同模态数据之间的异质关联,提高检索精度。跨模态哈希检索技术的关键在于对不同模态数据的关系进行建模,难点就是跨越语义鸿沟,所以如何设计高精度的跨模态哈希检索方法是现阶段亟待解决的问题。当前,研究人员已经提出一些深度的有监督跨模态哈希检索方法。
例如Qing-Yuan Jiang和Wu-Jun Li在2017年的Computer Vision and PatternRecognition会议中发表了名为“Deep Cross-Modal Hashing”的文章,公开了一种基于深度学习的跨模态哈希检索方法,文中提出将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中,实现两个过程的兼容,提高检索精度。由于该方法使用成对监督信息建立目标损失函数,仅描述两个数据之间的成对关系缺乏丰富的语义信息,而且该方法只考虑模态间的相似性而忽略了模态内的相似性,检索精度还有待提高。
发明内容
本发明的目的在于针对上述已有技术的不足,提出基于三元组深度网络的跨模态哈希检索方法,用于解决现有跨模态哈希检索方法中存在的检索精度低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)对数据进行预处理:
确定两种模态的数据:图像数据和文本数据,提取文本数据的Bag-of-words特征,保留图像数据的原始像素特征,并将图像数据分成图像训练数据和图像查询数据,将文本数据分成文本训练数据和文本查询数据;
(2)获取图像训练数据和文本训练数据的哈希码:
将文本训练数据的Bag-of-words特征输入文本深度网络,得到文本训练数据哈希码,同时将图像训练数据的原始像素特征输入图像深度网络,得到图像训练数据哈希码;
(3)采用三元组监督信息建立目标损失函数J:
(3a)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure GDA0002181245350000021
和锚点数据和负例数据之间的汉明距离
Figure GDA0002181245350000022
并利用
Figure GDA0002181245350000023
Figure GDA0002181245350000024
建立图像文本模态间的三元组损失函数J1
(3b)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure GDA0002181245350000025
和锚点数据和负例数据之间的汉明距离
Figure GDA0002181245350000026
并利用
Figure GDA0002181245350000027
Figure GDA0002181245350000028
建立文本图像模态间的三元组损失函数J2
(3c)将图像文本模态间的三元组损失函数J1与文本图像模态间的三元组损失函数J2相加,得到模态间的三元组损失函数Jinter
(3d)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure GDA0002181245350000031
和锚点数据和负例数据之间的汉明距离
Figure GDA0002181245350000032
并利用
Figure GDA0002181245350000033
Figure GDA0002181245350000034
建立图像模态内的三元组损失函数J3
(3f)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure GDA0002181245350000035
和锚点数据和负例数据之间的汉明距离
Figure GDA0002181245350000036
并利用
Figure GDA0002181245350000037
Figure GDA0002181245350000038
建立文本模态内的三元组损失函数J4
(3g)将图像模态内的三元组损失函数J3与文本模态内的三元组损失函数J4相加,得到模态内的三元组损失函数Jintra
(3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数Jre,并将图正则化损失函数Jre与模态间的三元组损失函数Jinter和模态内的三元组损失函数Jintra相加,得到目标损失函数J;
(4)对目标损失函数J进行顺序迭代优化:
对目标损失函数J进行顺序迭代优化,得到文本深度网络参数wx、图像深度网络参数wy和图正则化损失函数Jre中训练数据的统一哈希码B;
(5)计算图像查询数据和文本查询数据的哈希码;
(5a)将文本查询数据的Bag-of-words特征输入文本深度网络,得到文本查询数据哈希码
Figure GDA0002181245350000041
Figure GDA0002181245350000042
其中,xq表示一个文本查询数据,wx表示文本深度网络参数;
(5b)将图像查询数据的原始像素特征输入图像深度网络,得到图像查询数据哈希码
Figure GDA0002181245350000043
Figure GDA0002181245350000044
其中,yq表示一个图像查询数据,wy表示图像深度网络参数;
(6)获取查询数据检索结果:
计算图像查询数据哈希码和文本训练数据哈希码之间的汉明距离θyx,同时计算文本查询数据哈希码和图像训练数据哈希码之间的汉明距离θxy,并按照由小到大的顺序对θyx和θxy分别进行排序,得到多个与查询数据距离较小的训练数据作为检索结果。
本发明与现有技术相比,具有以下优点:
本发明使用一个端对端的深度网络将特征提取过程和哈希码学习过程结合在同一个框架中,实现两个过程的兼容,提出使用三元组监督信息构建目标损失函数,描述三个数据之间的相互关系以保留更丰富的语义信息,同时加入模态内的损失函数,增加目标损失函数的判别性,明显提高了跨模态哈希检索的精度。
附图说明
图1为本发明的实现流程图;
图2为本发明与现有跨模态哈希检索方法在MIRFlicker25k数据库下的准确率-召回率实验结果曲线对比图,其中,图2(a)为编码长度取16位的图像查询文本准确率-召回率曲线图,图2(b)为编码长度为16位的文本查询图像准确率-召回率曲线图;
图3为本发明与现有跨模态哈希检索方法在MIRFlickr25k数据库下的准确率实验结果曲线对比图,其中,图3(a)为编码长度取32位的图像查询文本准确率曲线图,图3(b)为编码长度取32位的文本查询图像准确率曲线图;
图4为本发明与现有跨模态哈希检索方法在NUSWIDE数据库下的准确率-召回率实验结果曲线对比图,其中,图4(a)为编码长度取16位的图像查询文本准确率-召回率曲线图,图4(b)为编码长度取16位的文本查询图像准确率-召回率曲线图;
图5为本发明与现有跨模态哈希检索方法在NUSWIDE数据库下的准确率实验结果曲线对比图,其中,图5(a)为编码长度取32位的图像查询文本准确率曲线图,图5(b)为编码长度取32位的文本查询图像准确率曲线图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细描述,
参照图1,本发明包括如下步骤:
步骤1)对数据进行预处理:
确定两种模态的数据:图像数据和文本数据,使用word2vec方法提取文本数据的Bag-of-words特征将文本表示成向量形式便于计算机处理,提取图像数据的原始像素特征保留图像的原始信息;并将80%的图像数据作为图像训练数据,其余作为图像查询数据;将与图像训练数据相对应的文本数据作为文本训练数据,其余作为文本查询数据;
步骤2)获取图像训练数据和文本训练数据的哈希码:
将文本训练数据的Bag-of-words特征输入文本深度网络,得到文本训练数据哈希码,同时将图像训练数据的原始像素特征输入图像深度网络,得到图像训练数据哈希码;
步骤3)采用三元组监督信息建立目标损失函数J。三元组监督信息描述锚点数据,正例数据和负例数据三个数据
Figure GDA0002181245350000051
之间的相互关系,其中锚点数据与正例数据之间具有相同的类标,锚点数据与负例数据之间具有不同的类标,我们利用三元组对数似然函数增加锚点数据与正例数据之间的相似性同时减少锚点数据与负例数据之间的相似性:
步骤3a)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure GDA0002181245350000052
和锚点数据和负例数据之间的汉明距离
Figure GDA0002181245350000053
并利用
Figure GDA0002181245350000054
Figure GDA0002181245350000055
建立图像文本模态间的三元组损失函数J1,其表达式为:
Figure GDA0002181245350000061
其中,x表示文本模态;y表示图像模态;
Figure GDA0002181245350000062
表示三元组;qm,pm,nm分别表示锚点数据,正例数据和负例数据;
Figure GDA0002181245350000063
表示图像深度网络输出的图像训练数据哈希码;
Figure GDA0002181245350000064
表示文本深度网络输出的文本训练数据哈希码;k表示哈希码长度;N表示数据个数;M表示三元组个数;
Figure GDA0002181245350000065
表示图像锚点训练数据和文本正例训练数据之间的汉明距离;
Figure GDA0002181245350000066
表示图像锚点训练数据和文本负例训练数据之间的汉明距离;σ(x)表示sigmoid函数
Figure GDA0002181245350000067
超参数α表示一个阈值参数;
Figure GDA0002181245350000068
其中wx和wy分别表示文本深度网络参数和图像深度网络的网络参数。
步骤3b)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure GDA0002181245350000069
和锚点数据和负例数据之间的汉明距离
Figure GDA00021812453500000610
并利用
Figure GDA00021812453500000611
Figure GDA00021812453500000612
建立文本图像模态间的三元组损失函数J2,其表达式为:
Figure GDA00021812453500000613
其中,
Figure GDA0002181245350000071
表示文本锚点训练数据和图像正例训练数据之间的汉明距离;
Figure GDA0002181245350000072
表示文本锚点训练数据和图像负例训练数据之间的汉明距离;
步骤3c)将图像文本模态间的三元组损失函数J1与文本图像模态间的三元组损失函数J2相加,得到模态间的三元组损失函数Jinter
步骤3d)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure GDA0002181245350000073
和锚点数据和负例数据之间的汉明距离
Figure GDA0002181245350000074
并利用
Figure GDA0002181245350000075
Figure GDA0002181245350000076
建立图像模态内的三元组损失函数J3,其表达式为:
Figure GDA0002181245350000077
其中,
Figure GDA0002181245350000078
表示图像锚点训练数据和图像正例训练数据之间的汉明距离;
Figure GDA0002181245350000079
表示图像锚点训练数据和图像正例训练数据之间的汉明距离;
步骤3f)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure GDA00021812453500000710
和锚点数据和负例数据之间的汉明距离
Figure GDA00021812453500000711
并利用
Figure GDA00021812453500000712
Figure GDA00021812453500000713
建立文本模态内的三元组损失函数J4,其表达式为:
Figure GDA0002181245350000081
其中,
Figure GDA0002181245350000082
表示文本锚点训练数据和文本正例训练数据之间的汉明距离;
Figure GDA0002181245350000083
表示文本锚点训练数据和文本负例训练数据之间的汉明距离;
步骤3g)将图像模态内的三元组损失函数J3与文本模态内的三元组损失函数J4相加,得到模态内的三元组损失函数Jintra
步骤3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数Jre,其表达式为:
Figure GDA0002181245350000084
其中,S表示相似矩阵;
Figure GDA0002181245350000085
表示统一的哈希码;L表示拉普拉斯矩阵;Bx表示文本训练数据哈希码;By表示图像训练数据哈希码;γ,η和β表示平衡参数;Z表示元素全为1的矩阵;
Figure GDA0002181245350000086
表示矩阵的F范数;tr(·)表示矩阵的迹;将图正则化损失函数Jre与模态间的三元组损失函数Jinter和模态内的三元组损失函数Jintra相加,得到目标损失函数J;
步骤4)对目标损失函数J进行顺序迭代优化:
对目标损失函数J进行顺序迭代优化,得到文本深度网络参数wx、图像深度网络参数wy和图正则化损失函数Jre中训练数据的统一哈希码B;
步骤4a)固定目标损失函数J中的文本深度网络参数wx和图像深度网络参数wy,并令
Figure GDA0002181245350000091
得到图正则化损失函数Jre中训练数据的统一哈希码B:
Figure GDA0002181245350000092
其中,I表示单位矩阵;
步骤4b)固定图正则化损失函数Jre中训练数据的统一哈希码B和图像深度网络参数wy,对第i个文本训练数据的哈希码G*i求偏导可得:
Figure GDA0002181245350000093
使用后向传播方法学习文本深度网络参数wx,其中,
Figure GDA0002181245350000094
表示第i个文本训练数据与图像正例训练数据之间的汉明距离;
Figure GDA0002181245350000095
表示第i个文本训练数据与图像负例训练数据之间的汉明距离;
Figure GDA0002181245350000096
表示第i个文本训练数据与文本正例训练数据之间的汉明距离;
Figure GDA0002181245350000097
表示第i个文本训练数据与文本负例训练数据之间的汉明距离;
步骤4c)固定图正则化损失函数Jre中训练数据的统一哈希码B和文本深度网络参数wx,对第i个图像训练数据的哈希码F*i求导可得:
Figure GDA0002181245350000098
使用后向传播方法学习图像深度网络参数wy,其中,
Figure GDA0002181245350000099
表示第i个图像训练数据与文本正例训练数据之间的汉明距离;
Figure GDA00021812453500000910
表示第i个图像训练数据与文本负例训练数据之间的汉明距离;
Figure GDA0002181245350000101
表示第i个图像训练数据与图像正例训练数据之间的汉明距离;
Figure GDA0002181245350000102
表示第i个图像训练数据与图像负例训练数据之间的汉明距离;
步骤4d)令迭代次数加一,返回步骤4a)继续迭代直至最大迭代次数或目标损失函数J小于预先设置的损失常数。
步骤5)计算图像查询数据和文本查询数据的哈希码;
步骤5a)将文本查询数据的Bag-of-words特征输入文本深度网络,得到文本查询数据哈希码
Figure GDA0002181245350000103
Figure GDA0002181245350000104
其中,xq表示一个文本查询数据;
步骤5b)将图像查询数据的原始像素特征输入图像深度网络,得到图像查询数据哈希码
Figure GDA0002181245350000105
Figure GDA0002181245350000106
其中,yq表示一个图像查询数据;
步骤6)获取查询数据检索结果:
计算图像查询数据哈希码和文本训练数据哈希码之间的汉明距离θyx,同时计算文本查询数据哈希码和图像训练数据哈希码之间的汉明距离θxy,并按照有小到大的顺序对θyx和θxy分别进行排序,得到多个与查询数据距离较小的训练数据作为检索结果。
以下结合仿真实验,对本发明的技术效果作进一步说明。
1.仿真条件和内容:
本发明的仿真是在NVIDIA GTX TITAN X GPU服务器上,运用开源的深度学习工具箱MatConvNet进行的实验仿真。仿真实验中的参数为:阈值参数α等于编码长度的一半;平衡参数γ=100,η=50,β=1。
对本发明与现有的深度跨模态哈希(Deep Cross-Modal Hashing,DCMH)进行仿真对比。
仿真1:在编码长度取16位时,对MIRFlickr25k数据库画出准确率-召回率曲线,如图2所示;在编码长度取32位时,对MIRFlickr25k数据库画出准确率曲线,如图3所示。
仿真2:在编码长度取16位时,对NUSWIDE数据库画出准确率-召回率曲线,如图4所示;在编码长度取32位时,对NUSWIDE数据库画出准确率曲线,如图5所示。
2.仿真结果分析:
图2(a)为在MIRFlickr25k数据库下编码长度取16位的图像查询文本的准确率-召回率曲线图,横轴表示召回率,纵轴表示准确率。图中可见,本发明结果曲线与坐标轴所围的面积比DCMH方法大,表示在编码长度取16位时,本发明的图像检索文本性能良好。
图2(b)为在MIRFlickr25k数据库下编码长度取16位的文本查询图像的准确率-召回率曲线图,横轴表示召回率,纵轴表示准确率。图中可见,本发明结果曲线与坐标轴所围的面积比DCMH方法大,表示在编码长度取16位时,本发明的文本检索图像性能良好。
图3(a)为在MIRFlickr25k数据库下编码长度取32位的图像查询文本的准确率曲线图,横轴表示返回的检索数据的个数,纵轴表示准确率。图中可见,本发明的图像查询文本的准确率完全高于DCMH方法,表示在编码长度取32位时,本发明的图像检索文本性能良好。
图3(b)为在MIRFlickr25k数据库下编码长度取32位的文本查询图像的准确率曲线图,横轴表示返回的检索数据的个数,纵轴表示准确率。图中可见,本发明的文本查询图像的准确率和DCMH方法基本持平,表示在编码长度取32位时,两者的文本检索图像性能差不多。
图4(a)为在NUSWIDE数据库下编码长度取16位的图像查询文本的准确率-召回率曲线图,横轴表示召回率,纵轴表示准确率。图中可见,本发明结果曲线与坐标轴所围的面积比DCMH方法大,表示在编码长度取16位时,本发明的图像检索文本性能良好。
图4(b)为在NUSWIDE数据库下编码长度取16位的文本查询图像的准确率-召回率曲线图,横轴表示召回率,纵轴表示准确率。图中可见,本发明结果曲线与坐标轴所围的面积比DCMH方法大,表示在哈希码长度取16位时,本发明的文本检索图像性能良好。
图5(a)为在NUSWIDE数据库下编码长度取32位的图像查询文本的准确率曲线图,横轴表示返回的检索数据的个数,纵轴表示准确率。图中可见,本发明的图像查询文本的准确率完全高于DCMH方法,表示在编码长度取32位时,本发明的图像检索文本性能良好。
图5(b)为在NUSWIDE数据库下编码长度取32位的文本查询图像的准确率曲线图,横轴表示返回的检索数据的个数,纵轴表示准确率。图中可见,本发明的文本查询图像的准确率完全高于DCMH方法,表示在编码长度取32位时,本发明的文本检索图像性能良好。
从以上的仿真结果可见,采用本发明进行跨模态检索的精度高于现有方法进行跨模态检索的精度。所以,与现有技术相比,本发明能够有效利用三元组深度网络提高跨模态检索的精度。

Claims (2)

1.一种基于三元组深度网络的跨模态哈希检索方法,其特征在于,包括如下步骤:
(1)对数据进行预处理:
确定两种模态的数据:图像数据和文本数据,提取文本数据的Bag-of-words特征,保留图像数据的原始像素特征,并将图像数据分成图像训练数据和图像查询数据,将文本数据分成文本训练数据和文本查询数据;
(2)获取图像训练数据和文本训练数据的哈希码:
将文本训练数据的Bag-of-words特征输入文本深度网络,得到文本训练数据哈希码,同时将图像训练数据的原始像素特征输入图像深度网络,得到图像训练数据哈希码;
(3)采用三元组监督信息建立目标损失函数J:
(3a)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure FDA0002181245340000011
和锚点数据和负例数据之间的汉明距离
Figure FDA0002181245340000012
并利用
Figure FDA0002181245340000013
Figure FDA0002181245340000014
建立图像文本模态间的三元组损失函数J1
Figure FDA0002181245340000015
其中,x表示文本模态;y表示图像模态;
Figure FDA0002181245340000016
表示三元组;qm,pm,nm分别表示锚点数据,正例数据和负例数据;
Figure FDA0002181245340000017
表示图像深度网络输出的图像训练数据哈希码;
Figure FDA0002181245340000018
表示文本深度网络输出的文本训练数据哈希码;k表示哈希码长度;N表示数据个数;M表示三元组个数;
Figure FDA0002181245340000021
表示图像锚点训练数据和文本正例训练数据之间的汉明距离;
Figure FDA0002181245340000022
表示图像锚点训练数据和文本负例训练数据之间的汉明距离;σ(x)表示sigmoid函数
Figure FDA0002181245340000023
超参数α表示一个阈值参数;
Figure FDA0002181245340000024
其中wx和wy分别表示文本深度网络参数和图像深度网络的网络参数;
(3b)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure FDA0002181245340000025
和锚点数据和负例数据之间的汉明距离
Figure FDA0002181245340000026
并利用
Figure FDA0002181245340000027
Figure FDA0002181245340000028
建立文本图像模态间的三元组损失函数J2
Figure FDA0002181245340000029
其中,
Figure FDA00021812453400000210
表示文本锚点训练数据和图像正例训练数据之间的汉明距离;
Figure FDA00021812453400000211
表示文本锚点训练数据和图像负例训练数据之间的汉明距离;
(3c)将图像文本模态间的三元组损失函数J1与文本图像模态间的三元组损失函数J2相加,得到模态间的三元组损失函数Jinter
(3d)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码,不相似的图像训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure FDA00021812453400000212
和锚点数据和负例数据之间的汉明距离
Figure FDA0002181245340000031
并利用
Figure FDA0002181245340000032
Figure FDA0002181245340000033
建立图像模态内的三元组损失函数J3
Figure FDA0002181245340000034
其中,
Figure FDA0002181245340000035
表示图像锚点训练数据和图像正例训练数据之间的汉明距离;
Figure FDA0002181245340000036
表示图像锚点训练数据和图像正例训练数据之间的汉明距离;
(3f)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码,并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码,不相似的文本训练数据哈希码作为负例数据哈希码,采用锚点数据哈希码与正例数据哈希码和负例数据哈希码,分别计算锚点数据和正例数据之间的汉明距离
Figure FDA0002181245340000037
和锚点数据和负例数据之间的汉明距离
Figure FDA0002181245340000038
并利用
Figure FDA0002181245340000039
Figure FDA00021812453400000310
建立文本模态内的三元组损失函数J4
Figure FDA00021812453400000311
其中,
Figure FDA00021812453400000312
表示文本锚点训练数据和文本正例训练数据之间的汉明距离;
Figure FDA00021812453400000313
表示文本锚点训练数据和文本负例训练数据之间的汉明距离;
(3g)将图像模态内的三元组损失函数J3与文本模态内的三元组损失函数J4相加,得到模态内的三元组损失函数Jintra
(3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数Jre,并将图正则化损失函数Jre与模态间的三元组损失函数Jinter和模态内的三元组损失函数Jintra相加,得到目标损失函数J,其中,Jre的表达式为:
Figure FDA0002181245340000041
s.t.B=Bx=By∈{-1,1}k×N
其中,S表示相似矩阵;
Figure FDA0002181245340000042
表示统一的哈希码;L表示拉普拉斯矩阵;Bx表示文本训练数据哈希码;By表示图像训练数据哈希码;γ,η和β表示平衡参数;Z表示元素全为1的矩阵;
Figure FDA0002181245340000043
表示矩阵的F范数;tr(·)表示矩阵的迹;
(4)对目标损失函数J进行顺序迭代优化:
对目标损失函数J进行顺序迭代优化,得到文本深度网络参数wx、图像深度网络参数wy和图正则化损失函数Jre中训练数据的统一哈希码B;
(5)计算图像查询数据和文本查询数据的哈希码;
(5a)将文本查询数据的Bag-of-words特征输入文本深度网络,得到文本查询数据哈希码
Figure FDA0002181245340000044
Figure FDA0002181245340000045
其中,xq表示一个文本查询数据;
(5b)将图像查询数据的原始像素特征输入图像深度网络,得到图像查询数据哈希码
Figure FDA0002181245340000046
Figure FDA0002181245340000047
其中,yq表示一个图像查询数据;
(6)获取查询数据检索结果:
计算图像查询数据哈希码和文本训练数据哈希码之间的汉明距离θyx,同时计算文本查询数据哈希码和图像训练数据哈希码之间的汉明距离θxy,并按照由小到大的顺序对θyx和θxy分别进行排序,得到多个与查询数据距离较小的训练数据作为检索结果。
2.根据权利要求1所述的基于三元组深度网络的跨模态哈希检索方法,其特征在于,步骤(4)所述的对目标损失函数J进行顺序迭代优化:
(4a)固定目标损失函数J中的文本深度网络参数wx和图像深度网络参数wy,并令
Figure FDA0002181245340000051
得到图正则化损失函数Jre中训练数据的统一哈希码B:
Figure FDA0002181245340000052
其中,
Figure FDA0002181245340000053
表示图像深度网络输出的图像训练数据哈希码;
Figure FDA0002181245340000054
表示文本深度网络输出的文本训练数据哈希码;L表示拉普拉斯矩阵;I表示单位矩阵;β和γ表示平衡参数;
(4b)固定图正则化损失函数Jre中训练数据的统一哈希码B和图像深度网络参数wy,使用后向传播方法学习文本深度网络参数wx;对第i个文本训练数据的哈希码G*i求偏导可得:
Figure FDA0002181245340000055
其中,M表示三元组个数;σ(x)表示sigmoid函数
Figure FDA0002181245340000056
Figure FDA0002181245340000057
表示第i个文本训练数据与图像正例训练数据之间的汉明距离;
Figure FDA0002181245340000058
表示第i个文本训练数据与图像负例训练数据之间的汉明距离;
Figure FDA0002181245340000059
表示第i个文本训练数据与文本正例训练数据之间的汉明距离;
Figure FDA00021812453400000510
表示第i个文本训练数据与文本负例训练数据之间的汉明距离;超参数α表示一个阈值;
Figure FDA00021812453400000511
表示统一的哈希码;γ和η表示平衡参数;Z表示元素全为1的矩阵;
(4c)固定图正则化损失函数Jre中训练数据的统一哈希码B和文本深度网络参数wx,使用后向传播法方学习图像深度网络参数wy;对第i个图像训练数据的哈希码F*i求导可得:
Figure FDA0002181245340000061
其中,
Figure FDA0002181245340000062
表示第i个图像训练数据与文本正例训练数据之间的汉明距离;
Figure FDA0002181245340000063
表示第i个图像训练数据与文本负例训练数据之间的汉明距离;
Figure FDA0002181245340000064
表示第i个图像训练数据与图像正例训练数据之间的汉明距离;
Figure FDA0002181245340000065
表示第i个图像训练数据与图像负例训练数据之间的汉明距离;
(4d)令迭代次数加一,返回步骤(4a)继续迭代直至最大迭代次数或目标损失函数J小于预先设置的损失常数。
CN201711402277.7A 2017-12-22 2017-12-22 基于三元组深度网络的跨模态哈希检索方法 Active CN108170755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711402277.7A CN108170755B (zh) 2017-12-22 2017-12-22 基于三元组深度网络的跨模态哈希检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711402277.7A CN108170755B (zh) 2017-12-22 2017-12-22 基于三元组深度网络的跨模态哈希检索方法

Publications (2)

Publication Number Publication Date
CN108170755A CN108170755A (zh) 2018-06-15
CN108170755B true CN108170755B (zh) 2020-04-07

Family

ID=62523533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711402277.7A Active CN108170755B (zh) 2017-12-22 2017-12-22 基于三元组深度网络的跨模态哈希检索方法

Country Status (1)

Country Link
CN (1) CN108170755B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN109002529B (zh) * 2018-07-17 2021-02-02 厦门美图之家科技有限公司 音频检索方法及装置
CN109558890B (zh) * 2018-09-30 2023-03-31 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法
CN109933682B (zh) * 2019-01-11 2022-01-04 上海交通大学 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN110019652B (zh) * 2019-03-14 2022-06-03 九江学院 一种基于深度学习的跨模态哈希检索方法
CN110020214B (zh) * 2019-04-08 2021-05-18 北京航空航天大学 一种融合知识的社交网络流式事件检测系统
CN110059198B (zh) * 2019-04-08 2021-04-13 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法
CN110059154B (zh) * 2019-04-10 2022-04-15 山东师范大学 一种基于继承映射的跨模态迁移哈希检索方法
CN110222140B (zh) * 2019-04-22 2021-07-13 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110222560B (zh) * 2019-04-25 2022-12-23 西北大学 一种嵌入相似性损失函数的文本人员搜索方法
CN110188210B (zh) * 2019-05-10 2021-09-24 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN110457572B (zh) * 2019-05-23 2022-05-24 北京邮电大学 基于图网络的商品信息推荐方法及电子设备
CN110309331B (zh) * 2019-07-04 2021-07-27 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN111209415B (zh) * 2020-01-10 2022-09-23 重庆邮电大学 基于大批量训练的图文跨模态哈希检索方法
CN111489803B (zh) * 2020-03-31 2023-07-21 重庆金域医学检验所有限公司 基于自回归模型的报告单编码模型生成方法、系统和设备
CN111522903A (zh) * 2020-04-01 2020-08-11 济南浪潮高新科技投资发展有限公司 一种深度哈希检索方法、设备及介质
CN111639240B (zh) * 2020-05-14 2021-04-09 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN111753190A (zh) * 2020-05-29 2020-10-09 中山大学 一种基于元学习的无监督跨模态哈希检索方法
CN111753189A (zh) * 2020-05-29 2020-10-09 中山大学 一种少样本跨模态哈希检索共同表征学习方法
CN111897909B (zh) * 2020-08-03 2022-08-05 兰州理工大学 一种基于深度感知哈希的密文语音检索方法及系统
CN112925962B (zh) * 2021-01-20 2022-09-27 同济大学 基于哈希编码的跨模态数据检索方法、系统、设备及介质
CN113377990B (zh) * 2021-06-09 2022-06-14 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN115391578A (zh) * 2022-08-03 2022-11-25 北京乾图科技有限公司 一种跨模态图文检索模型训练方法及系统
CN115410717A (zh) * 2022-09-15 2022-11-29 北京京东拓先科技有限公司 模型训练方法、数据检索方法、影像数据检索方法和装置
CN115829058B (zh) * 2022-12-23 2024-04-23 北京百度网讯科技有限公司 训练样本处理方法、跨模态匹配方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536713B1 (en) * 2002-12-11 2009-05-19 Alan Bartholomew Knowledge broadcasting and classification system
CN104834693A (zh) * 2015-04-21 2015-08-12 上海交通大学 基于深度搜索的视觉图像检索方法及系统
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536713B1 (en) * 2002-12-11 2009-05-19 Alan Bartholomew Knowledge broadcasting and classification system
CN104834693A (zh) * 2015-04-21 2015-08-12 上海交通大学 基于深度搜索的视觉图像检索方法及系统
CN106547826A (zh) * 2016-09-30 2017-03-29 西安电子科技大学 一种跨模态检索方法、装置及计算机可读介质
CN107402993A (zh) * 2017-07-17 2017-11-28 山东师范大学 基于判别性关联最大化哈希的跨模态检索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Pairwise relationship guided deep hashing for cross-modal retrieval;Erkun Yang,Cheng Deng et al;《31st AAAI Conference on Artificial Intelligence,AAAI 2017》;20170101;1616-1625 *
Yihan Liu,Cheng Deng et al.Joint coupled-hashing representation for cross-modal retrieval.《Proceeding ICIMCS"16 Proceedings of the International Conference on Internet Multimedia Computing and Service》.2016,35-38. *
基于核典型相关分析与神经网络的跨模态哈希算法研究;胡凌宇;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20170815;第2017年卷(第8期);全文 *

Also Published As

Publication number Publication date
CN108170755A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108170755B (zh) 基于三元组深度网络的跨模态哈希检索方法
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
Wang et al. CAPTCHA recognition based on deep convolutional neural network
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN111027563A (zh) 一种文本检测方法、装置及识别系统
CN110765281A (zh) 一种多语义深度监督跨模态哈希检索方法
WO2020042597A1 (zh) 一种跨模态检索方法及系统
CN113704531A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
Chen et al. CGMDRNet: Cross-guided modality difference reduction network for RGB-T salient object detection
Bi et al. Cross-modal hierarchical interaction network for RGB-D salient object detection
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
US20230297617A1 (en) Video retrieval method and apparatus, device, and storage medium
CN113254491A (zh) 一种信息推荐的方法、装置、计算机设备及存储介质
CN116978011B (zh) 一种用于智能目标识别的图像语义通信方法及系统
Chen et al. Geoconv: Geodesic guided convolution for facial action unit recognition
CN111930894B (zh) 长文本匹配方法及装置、存储介质、电子设备
CN116434033A (zh) 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统
CN116128056A (zh) 一种面向rpa的多模态交互实体对齐方法
Xu et al. On learning semantic representations for large-scale abstract sketches
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN116383470B (zh) 一种具有隐私保护的图像搜索方法
CN113361344A (zh) 视频事件识别方法、装置、设备及存储介质
WO2023173552A1 (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN114329016B (zh) 图片标签生成方法和文字配图方法
CN115965968A (zh) 基于知识引导的小样本目标检测识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant