CN111597298A - 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 - Google Patents

一种基于深度对抗离散哈希学习的跨模态检索方法及装置 Download PDF

Info

Publication number
CN111597298A
CN111597298A CN202010225616.4A CN202010225616A CN111597298A CN 111597298 A CN111597298 A CN 111597298A CN 202010225616 A CN202010225616 A CN 202010225616A CN 111597298 A CN111597298 A CN 111597298A
Authority
CN
China
Prior art keywords
function
hash
representing
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010225616.4A
Other languages
English (en)
Inventor
白琮
曾超
马青
张敬林
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010225616.4A priority Critical patent/CN111597298A/zh
Publication of CN111597298A publication Critical patent/CN111597298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度对抗离散哈希学习的跨模态检索方法及装置,由三层全连接层构成图像网络,由四层全连接层构成文本网络,最后的哈希值由tanh函数激活得到。通过两个网络的对抗训练能够保证两个模态的特征表达趋于一致,由一个待权重的余弦三元组损失函数保证语义相似性,同时也保证了相似样本的相关度排序性,在优化的过程中维持哈希值的离散性,减小了量化误差,最终得到两个个鲁棒的保持语义相似性、减小异构鸿沟和累计误差较小的哈希函数。本发明利用对抗训练、保持语义相似性及相关度排序性来学习哈希函数,不仅提高了检索的精度,而且使得到的哈希学习方法具有了更强的语义学习能力。

Description

一种基于深度对抗离散哈希学习的跨模态检索方法及装置
技术领域
本发明涉及计算机视觉领域的图像大数据处理与分析以及自然语言的处理与分析技术领域,特别涉及一种基于深度对抗离散哈希学习的跨模态检索方法及装置。
背景技术
随着现代网络技术的发展,大量的多模态数据每天在人们的日常生活中生成,包括文本,音频,视频和图像。同时,从如此大量的多模态数据中进行有效检索已成为一个巨大的挑战,其中图像到文本和文本到图像的检索是最广泛研究的。基于哈希学习的检索由于其高效性及存储的便捷性被广泛应用于各种检索任务中。哈希学习通过学习到最优的哈希函数,在尽可能保证原始空间内数据之间的相似度的前提下,将高维数据映射为二值码。
但由于二值化离散优化是NP问题,而很多方法采用宽松的条件使用连续值进行优化,优化后再把连续值取整为二值码。在这种宽松的条件下会导致巨大的量化误差、优化不稳定等问题。
发明内容
本申请的目的是提供一种基于深度对抗离散哈希学习的跨模态检索方法及装置,在图像模态和文本模态中利用多层神经网络构造特征重构网络以及非线性哈希函数,并且在两个模态间设计了分布式的判别器进行对抗训练。在保证哈希码离散型前提下设计了目标函数,通过优化该目标函数得到哈希函数。哈希函数将目标数据特征(图像和文本)转换为二值码,检索时利用二值码进行跨模态检索。
一种基于深度对抗离散哈希学习的跨模态检索方法,包括:
构建用于哈希学习的神经网络模型,所述神经网络模型包括图像网络和文本网络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层,其中,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数,所述哈希函数层包括一个全连接层和tanh激活函数,所述符号函数层对哈希函数层的输出做符号函数运算来得到哈希码;
采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数;
获取训练数据,对所述神经网络模型进行训练,直到整体目标函数收敛;
获取待检索的图像或文本,采用训练好的所述神经网络模型进行学习,获取对应的哈希码。
进一步的,所述图像网络的特征函数层包括两层全连接层,每个全连接层后加ReLU激活函数;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数。
进一步的,所述加权余弦三元组损失函数为:
Figure BDA0002427531270000021
Figure BDA0002427531270000022
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,
Figure BDA0002427531270000023
代表了图像网络哈希函数层的第i个输出,
Figure BDA0002427531270000024
代表与查询图像不相关的文本网络哈希函数层第k个输出,
Figure BDA0002427531270000025
代表与查询图像相关的文本网络哈希函数层第j个输出,
Figure BDA0002427531270000026
代表了文本网络哈希函数层的第i个输出,
Figure BDA0002427531270000027
代表与查询文本不相关的图像网络哈希函数层第k个输出,
Figure BDA0002427531270000028
代表与查询文本相关的图像网络哈希函数层第j个输出,
Figure BDA0002427531270000029
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure BDA00024275312700000210
代表了当查询目标是文本时的加权余弦三元组损失函数。
进一步的,所述对抗损失函数为:
Figure BDA00024275312700000211
Figure BDA00024275312700000212
其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函数输出的判别器,
Figure BDA0002427531270000031
表示特征函数层对应的对抗损失函数,
Figure BDA0002427531270000032
表示哈希函数层对应的对抗损失函数,fI代表图像网络特征函数层的输出,fT代表文本网络特征函数层的输出,vI为图像网络哈希函数层的输出,vT表示文本网络哈希函数层的输出。
进一步的,所述采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数,构建的整体目标函数如下:
Figure BDA0002427531270000033
其中,α、β、γ为超参数,
Figure BDA0002427531270000034
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure BDA0002427531270000035
代表了当查询目标是文本时的加权余弦三元组损失函数;
Figure BDA0002427531270000036
为分类损失函数,
Figure BDA0002427531270000037
为量化损失函数,
Figure BDA0002427531270000038
表示特征函数层对应的对抗损失函数,
Figure BDA0002427531270000039
表示哈希函数层对应的对抗损失函数。
本申请还提出了一种基于深度对抗离散哈希学习的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现上述一种基于深度对抗离散哈希学习的跨模态检索方法的步骤。
本申请提出的一种基于深度对抗离散哈希学习的跨模态检索方法及装置,是一种精度较高、检索效率较高的基于深度对抗离散哈希学习的跨模态检索方法。本申请的有益效果包括:由三层全连接层构成图像网络,由四层全连接层构成文本网络,最后的哈希值由tanh函数激活得到。通过两个网络的对抗训练能够保证两个模态的特征表达趋于一致,由一个待权重的余弦三元组损失函数保证语义相似性,同时也保证了相似样本的相关度排序性,在优化的过程中维持哈希值的离散性,减小了量化误差,最终得到两个个鲁棒的保持语义相似性、减小异构鸿沟和累计误差较小的哈希函数,通过优化后的哈希函数将图像深度特征和文本特征转化为二值的哈希码,再将得到的二值码作为原图像或原文本的替代来进行查询。本申请利用对抗训练、保持语义相似性及相关度排序性来学习哈希函数,不仅提高了检索的精度,而且使得到的哈希学习方法具有了更强的语义学习能力;引入哈希值的离散性的强约束条件,直接通过求导得到最优解,使得对损失函数的优化更为鲁棒。
附图说明
图1为本申请实施例基于深度对抗离散哈希学习的跨模态检索方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
哈希学习通过机器学习机制将数据映射成二进制串的形式,能显著减少数据的存储和通信开销,从而有效提高学习系统的效率。哈希学习的目的是学到数据的二进制哈希码表示,使得哈希码尽可能地保留原空间中的近邻关系,即保相似性。具体来说,每个数据点会被表示为一个紧凑的二进制串编码(哈希码),在原空间中相似的两个点应当被映射到哈希码空间中相似的两个点。以图像数据为例,原始图像表示是某种经过特征抽取后的高维实数向量,通过从数据中学习到的哈希函数变换后,每幅图像被映射为一个二进制哈希码,原空间中相似的两幅图像将被映射到相似(即海明距离较小)的两个哈希码,而原空间中不相似的两幅图像将被映射到不相似(即海明距离较大)的两个哈希码。在跨模态检索中,可以根据输入图像所得出的哈希码,与数据库中文本的哈希码进行比较,检索到相似的文本。或是根据输入文本所得出的哈希码,与数据库中图像的哈希码进行比较,检索到相似的图像。
如图1所示,一种基于深度对抗离散哈希学习的跨模态检索方法,包括:
构建用于哈希学习的神经网络模型,所述神经网络模型包括图像网络和文本网络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层,其中,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数,所述哈希函数层包括一个全连接层和tanh激活函数,所述符号函数层对哈希函数层的输出做符号函数运算来得到哈希码;
采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数;
获取训练数据,对所述神经网络模型进行训练,直到整体目标函数收敛;
获取待检索的图像或文本,采用训练好的所述神经网络模型进行学习,获取对应的哈希码。
在哈希学习中,通常采用神经网络来进行哈希学习,本申请哈希学习对应的神经网络模型包括图像网络和文本网络,图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层。
在一个实施例中,所述图像网络的特征函数层包括两层全连接层,每个全连接层后加ReLU激活函数。所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数。
则图像网络和文本网络的特征函数层的输出表示为:
Figure BDA0002427531270000051
Figure BDA0002427531270000052
其中,FI(I)表示图像网络的特征函数,FT(T)表示文本网络的特征函数,(WI,bI)和(WT,bT)分别表示图像网络和文本网络的全连接层的权值和偏置,权值和偏置的上标表示对应的全连接层序号。
需要说明的是,本申请并不限于特征函数层的全连接层数,本领域技术人员可以根据实际的情况进行设置。
本实施例特征函数层后是哈希函数层,图像网络和文本网络的哈希函数层都包括一层全连接层,该全连接层后加tanh激活函数。
则图像网络和文本网络的哈希函数层的输出表示为:
Figure BDA0002427531270000053
Figure BDA0002427531270000054
其中,HI(I)表示图像网络的哈希函数,HT(T)表示文本网络的哈希函数,fI代表图像网络特征函数层的输出,fT代表文本网络特征函数层的输出,
Figure BDA0002427531270000055
代表经过特征函数输出的图像的低维特征,
Figure BDA0002427531270000056
代表经过特征函数输出的文本的低维特征。h代表特征的维数,n代表训练样本的总数。
在本实施例中,图像网络三个全连接层的神经元数量为4096,4096,2048,文本网络四个全连接层的神经元数量为1000,8192,4096,2048。
容易理解的是,无论是训练网络,还是进行跨模态检索,都需要对图像进行预处理,一般来说图像数据包括图像及对应的文本,会先将图像统一缩放到固定的大小,例如256*256大小,然后提取图像的图像特征,将其对应的文本利用词袋模型提取词频作为文本特征。在本申请的实施例中,利用python代码将缩放后的图像输入到在Imagenet上预训练好的CNN-F上提取4096维的图像特征,将文本利用词袋模型提取词频构建1000维的向量作为文本特征。
在本实施例中,将图像的初始图像特征表示为I,初始文本特征表示为T,将图像的初始图像特征I输入到图像网络,将初始文本特征T输入到文本网络,最后对所述图像网络和文本网络的输出做符号函数运算来得到哈希码。
令初始输入的图像特征矩阵为
Figure BDA0002427531270000061
文本特征矩阵为
Figure BDA0002427531270000062
标签矩阵
Figure BDA0002427531270000063
这里n表示训练样本的总数,d代表了初始图像特征的维数,l代表了初始文本特征的维数,c代表标签个数,ik表示第k个图像的特征,tk表示第k个图像对应的文本特征,yk是一个c维的向量,如果第k个文本或图像属于该标签,对应位置的值为1。由于本方法中每个图像或文本有多个标签,所以yk中可以有多个值为1。
本实施例符号函数层最终输出的哈希码表示如下:
BI(I)=sign(vI)=sign(tanh(WI (3)(WI (2)(WI (1)I+bI (1))+bI (2))+bI (3))) (5)
BT(T)=sign(vT)=sign(tanh(WT (4)(WT (3)(WT (2)(WT (1)T+
bT (1))+bT (2))+bT (3))+bT (4))) (6)
其中公式(5)表示图像网络最后的输出哈希码,公式(6)表示文本网络最后输出的哈希码,(WI,bI)代表图像网络的全连接层的权值和偏置,(WT,bT)代表文本网络的全连接层的权值和偏置,权值和偏置的上标表示对应的全连接层序号,tanh表示tanh激活函数,sign(.)是符号函数。vI为图像网络哈希函数层的输出,vT表示文本网络哈希函数层的输出。
在构建用于哈希学习的神经网络模型之后,本申请采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络的整体目标函数,其过程如下:
F1、构建加权余弦三元组损失函数,在多模态的情况下,保证拥有越多相同标签的文本和图像的哈希码的距离尽可能近,而越少相同标签的哈希码的距离尽可能远,同时没有相同标签的样本之间的哈希码最远。本申请采用的加权余弦三元组损失函数基于相似标签的个数考虑,表示如下:
Figure BDA0002427531270000071
Figure BDA0002427531270000072
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,
Figure BDA0002427531270000073
代表了图像网络哈希函数层的第i个输出,
Figure BDA0002427531270000074
代表与查询图像不相关(没有相同标签)的文本网络哈希函数层第k个输出,
Figure BDA0002427531270000075
代表与查询图像相关(至少有一个相同标签)的文本网络哈希函数层第j个输出,
Figure BDA0002427531270000076
代表了文本网络哈希函数层的第i个输出,
Figure BDA0002427531270000077
代表与查询文本不相关(没有相同标签)的图像网络哈希函数层第k个输出,
Figure BDA0002427531270000078
代表与查询文本相关(至少有一个相同标签)的图像网络哈希函数层第j个输出,公式(7)代表了当查询目标是图像时的加权余弦三元组损失函数,公式(8)代表了当查询目标是文本时的加权余弦三元组损失函数。
F2、构建对抗损失函数,本申请与现有哈希学习方法不同的是,提出了两步式对抗训练,使不同模态的特征表达趋于一致,有效解决异构鸿沟的问题,对抗损失函数如下:
Figure BDA0002427531270000079
Figure BDA00024275312700000710
其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函数输出的判别器,
Figure BDA00024275312700000711
表示特征函数层对应的对抗损失函数,
Figure BDA00024275312700000712
表示哈希函数层对应的对抗损失函数。
需要注意的是,上述对抗损失函数同时对应了图像网络和文本网络的特征函数层、哈希函数层,以下不在赘述。
F3、构建分类损失函数,为了保持语义相似性,得到的哈希码可以对真实标签分类:
Figure BDA0002427531270000081
其中*=I,T代表图像和文本网络,
Figure BDA0002427531270000082
为独立的哈希码变量(非网络输出),在训练过程中不断更新,Y为标签矩阵,P*为分类权重矩阵,
Figure BDA0002427531270000083
是矩阵的Frobenius范数或者向量的l2范数。
F4、构建量化损失函数:
Figure BDA0002427531270000084
其中
Figure BDA0002427531270000085
为独立的哈希码变量,H*(.)为哈希函数的输出。
F5、最后,构建整体目标函数
Figure BDA0002427531270000086
其中α、β、γ为超参数,是固定的常数。
需要说明的是,分类损失函数和量化损失函数,在哈希学习技术领域是比较成熟的技术,这里不再赘述。
本申请获取训练数据,对所述神经网络进行训练,直到整体目标函数收敛,过程如下:
将训练数据集的图像深度特征和对应文本的词频向量分别作为图像和文本网络的初始特征,以及标签信息分批输入;
随机初始化神经网络权值WI和WT以及bI和bT,将权值在负的神经元数量分之一至正的神经元数量分之一之间取均匀分布进行,将偏置初始化为零;初始化
Figure BDA0002427531270000087
Figure BDA0002427531270000088
为元素随机选取-1和1的矩阵;
对哈希函数进行迭代训练,过程如下:
利用标签信息按照NDCG(Normalized Discounted cumulative gain)即归一化折损累计增益的计算方法计算每个批次余弦三元组损失函数的权重。NDCG是一种搜索评价指标,其计算方法如下:
Figure BDA0002427531270000089
ri代表通过网络最终输出的哈希码计算得出的第i个查询结果与查询之间的相似度(相同标签个数与查询拥有的标签个数之比),Z为归一化常数,由以下公式解出:
Figure BDA0002427531270000091
ri代表真实情况下的第i个查询结果与查询之间的相似度(相同标签个数与查询拥有的标签个数之比)。
由以上计算,可以定义权重
Figure BDA0002427531270000092
通过前向传播和反向传播这两个步骤反复训练直到所有训练样本都被训练,使整体的损失函数值最小;
在所有训练样本被性训练后,通过对使用哈希码计算的分类损失函数求导,在保证哈希码离散性的前提下,更新图像和文本的哈希码。
对PI和PT矩阵进行如下更新:
Figure BDA0002427531270000093
Figure BDA0002427531270000094
其中,λI中的I代表单位矩阵。
同时对
Figure BDA0002427531270000095
Figure BDA0002427531270000096
进行如下更新:
Figure BDA0002427531270000097
Figure BDA0002427531270000098
通过哈希函数进行迭代训练,直到目标函数收敛,完成模型的训练。
当训练结束后,对于待检索的图像或文本,采用训练好的所述神经网络进行学习,获取对应的哈希码。该哈希码与数据库中文本或图像的哈希码进行比较,并按照汉明距离从小到大进行排序作为查询结果,以完成检索到相似的文本或图像,这里不再赘述。
本申请还提出了一种基于深度对抗离散哈希学习的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现上述一种基于深度对抗离散哈希学习的跨模态检索方法的步骤。
关于基于深度对抗离散哈希学习的跨模态检索装置的具体限定可以参见上文中对于基于深度对抗离散哈希学习的跨模态检索方法的限定,在此不再赘述。上述基于深度对抗离散哈希学习的跨模态检索装置可全部或部分通过软件、硬件及其组合来实现。可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上对应的操作。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述基于深度对抗离散哈希学习的跨模态检索方法,包括:
构建用于哈希学习的神经网络模型,所述神经网络模型包括图像网络和文本网络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层,其中,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数,所述哈希函数层包括一个全连接层和tanh激活函数,所述符号函数层对哈希函数层的输出做符号函数运算来得到哈希码;
采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数;
获取训练数据,对所述神经网络模型进行训练,直到整体目标函数收敛;
获取待检索的图像或文本,采用训练好的所述神经网络模型进行学习,获取对应的哈希码。
2.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述图像网络的特征函数层包括两层全连接层,每个全连接层后加ReLU激活函数;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数。
3.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述加权余弦三元组损失函数为:
Figure FDA0002427531260000011
Figure FDA0002427531260000012
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,
Figure FDA0002427531260000013
代表了图像网络哈希函数层的第i个输出,
Figure FDA0002427531260000014
代表与查询图像不相关的文本网络哈希函数层第k个输出,
Figure FDA0002427531260000015
代表与查询图像相关的文本网络哈希函数层第j个输出,
Figure FDA0002427531260000021
代表了文本网络哈希函数层的第i个输出,
Figure FDA0002427531260000022
代表与查询文本不相关的图像网络哈希函数层第k个输出,
Figure FDA0002427531260000023
代表与查询文本相关的图像网络哈希函数层第j个输出,
Figure FDA0002427531260000024
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure FDA0002427531260000025
代表了当查询目标是文本时的加权余弦三元组损失函数。
4.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述对抗损失函数为:
Figure FDA0002427531260000026
Figure FDA0002427531260000027
其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函数输出的判别器,
Figure FDA0002427531260000028
表示特征函数层对应的对抗损失函数,
Figure FDA0002427531260000029
表示哈希函数层对应的对抗损失函数,fI代表图像网络特征函数层的输出,fT代表文本网络特征函数层的输出,vI为图像网络哈希函数层的输出,vT表示文本网络哈希函数层的输出。
5.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数,构建的整体目标函数如下:
Figure FDA00024275312600000210
其中,α、β、γ为超参数,
Figure FDA00024275312600000211
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure FDA00024275312600000212
代表了当查询目标是文本时的加权余弦三元组损失函数;
Figure FDA00024275312600000213
为分类损失函数,
Figure FDA00024275312600000214
为量化损失函数,
Figure FDA00024275312600000215
表示特征函数层对应的对抗损失函数,
Figure FDA00024275312600000216
表示哈希函数层对应的对抗损失函数。
6.一种基于深度对抗离散哈希学习的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。
CN202010225616.4A 2020-03-26 2020-03-26 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 Pending CN111597298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010225616.4A CN111597298A (zh) 2020-03-26 2020-03-26 一种基于深度对抗离散哈希学习的跨模态检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010225616.4A CN111597298A (zh) 2020-03-26 2020-03-26 一种基于深度对抗离散哈希学习的跨模态检索方法及装置

Publications (1)

Publication Number Publication Date
CN111597298A true CN111597298A (zh) 2020-08-28

Family

ID=72183361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010225616.4A Pending CN111597298A (zh) 2020-03-26 2020-03-26 一种基于深度对抗离散哈希学习的跨模态检索方法及装置

Country Status (1)

Country Link
CN (1) CN111597298A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112051980A (zh) * 2020-10-13 2020-12-08 浙江大学 一种基于牛顿迭代法的非线性激活函数计算装置
CN112214570A (zh) * 2020-09-23 2021-01-12 浙江工业大学 一种基于对抗投影学习哈希的跨模态检索方法及装置
CN112507159A (zh) * 2020-11-20 2021-03-16 有米科技股份有限公司 哈希网络训练方法、广告图像素材检索方法及相关装置
CN112802445A (zh) * 2021-02-02 2021-05-14 西北工业大学 一种基于语义保留的跨视听信息转化方法
CN113010700A (zh) * 2021-03-01 2021-06-22 电子科技大学 一种基于类别信息对齐的图像文本跨模态检索方法
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113343014A (zh) * 2021-05-25 2021-09-03 武汉理工大学 基于深度异构相关学习的跨模态图像音频检索方法
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN116070277A (zh) * 2023-03-07 2023-05-05 浙江大学 一种基于深度哈希的纵向联邦学习隐私保护方法和系统
CN116383422A (zh) * 2023-04-07 2023-07-04 四川大学 一种基于锚点的无监督跨模态哈希检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100188288A1 (en) * 2007-10-09 2010-07-29 Siemens Corporate Research, Inc. Multi-modal speed limit assistant
CN109284411A (zh) * 2017-07-19 2019-01-29 哈尔滨工业大学深圳研究生院 一种基于有监督超图离散化图像二值编码方法
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100188288A1 (en) * 2007-10-09 2010-07-29 Siemens Corporate Research, Inc. Multi-modal speed limit assistant
CN109284411A (zh) * 2017-07-19 2019-01-29 哈尔滨工业大学深圳研究生院 一种基于有监督超图离散化图像二值编码方法
CN109766469A (zh) * 2018-12-14 2019-05-17 浙江工业大学 一种基于深度哈希学习优化的图像检索方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUAN-XIANG LI等: "SCRATCH: A Scalable Discrete Matrix Factorization Hashing for Cross-Modal Retrieval", 《MM "18 PROCEEDINGS OF THE 26TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
姚涛等: "基于映射字典学习的跨模态哈希检索", 《自动化学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214570A (zh) * 2020-09-23 2021-01-12 浙江工业大学 一种基于对抗投影学习哈希的跨模态检索方法及装置
CN112051980B (zh) * 2020-10-13 2022-06-21 浙江大学 一种基于牛顿迭代法的非线性激活函数计算装置
CN112051980A (zh) * 2020-10-13 2020-12-08 浙江大学 一种基于牛顿迭代法的非线性激活函数计算装置
CN112507159A (zh) * 2020-11-20 2021-03-16 有米科技股份有限公司 哈希网络训练方法、广告图像素材检索方法及相关装置
CN112507159B (zh) * 2020-11-20 2024-02-06 有米科技股份有限公司 哈希网络训练方法、广告图像素材检索方法及相关装置
CN112802445A (zh) * 2021-02-02 2021-05-14 西北工业大学 一种基于语义保留的跨视听信息转化方法
CN112802445B (zh) * 2021-02-02 2023-06-30 西北工业大学 一种基于语义保留的跨视听信息转化方法
CN113010700A (zh) * 2021-03-01 2021-06-22 电子科技大学 一种基于类别信息对齐的图像文本跨模态检索方法
CN113010700B (zh) * 2021-03-01 2022-03-25 电子科技大学 一种基于类别信息对齐的图像文本跨模态检索方法
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113343014A (zh) * 2021-05-25 2021-09-03 武汉理工大学 基于深度异构相关学习的跨模态图像音频检索方法
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114186084B (zh) * 2021-12-14 2022-08-26 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN116070277A (zh) * 2023-03-07 2023-05-05 浙江大学 一种基于深度哈希的纵向联邦学习隐私保护方法和系统
CN116070277B (zh) * 2023-03-07 2023-08-29 浙江大学 一种基于深度哈希的纵向联邦学习隐私保护方法和系统
CN116383422A (zh) * 2023-04-07 2023-07-04 四川大学 一种基于锚点的无监督跨模态哈希检索方法
CN116383422B (zh) * 2023-04-07 2023-11-03 四川大学 一种基于锚点的无监督跨模态哈希检索方法

Similar Documents

Publication Publication Date Title
CN111597298A (zh) 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
Cao et al. Landmark recognition with compact BoW histogram and ensemble ELM
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Zheng et al. A deep and autoregressive approach for topic modeling of multimodal data
Lin et al. Spec hashing: Similarity preserving algorithm for entropy-based coding
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN112214570A (zh) 一种基于对抗投影学习哈希的跨模态检索方法及装置
Jiang et al. Variational deep embedding: A generative approach to clustering
Meiseles et al. Source model selection for deep learning in the time series domain
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
Estevez-Velarde et al. AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text
Bari et al. AestheticNet: deep convolutional neural network for person identification from visual aesthetic
CN112036511A (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
Mansour et al. Text vectorization method based on concept mining using clustering techniques
Lauren et al. A low-dimensional vector representation for words using an extreme learning machine
Lu et al. Image retrieval based on incremental subspace learning
CN116452241B (zh) 一种基于多模态融合神经网络的用户流失概率计算方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
using Relevance A Meta-heuristic optimization approach for content based image retrieval using relevance feedback method
US20230376828A1 (en) Systems and methods for product retrieval
Junliang CNN or RNN: Review and Experimental Comparison on Image Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200828