CN112214570A - 一种基于对抗投影学习哈希的跨模态检索方法及装置 - Google Patents

一种基于对抗投影学习哈希的跨模态检索方法及装置 Download PDF

Info

Publication number
CN112214570A
CN112214570A CN202011007517.5A CN202011007517A CN112214570A CN 112214570 A CN112214570 A CN 112214570A CN 202011007517 A CN202011007517 A CN 202011007517A CN 112214570 A CN112214570 A CN 112214570A
Authority
CN
China
Prior art keywords
function
text
image
hash
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011007517.5A
Other languages
English (en)
Inventor
白琮
曾超
马青
陈胜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011007517.5A priority Critical patent/CN112214570A/zh
Publication of CN112214570A publication Critical patent/CN112214570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于对抗投影学习哈希的跨模态检索方法及装置,采用训练好的神经网络进行检索,所述神经网络包括图像网络和文本网络,所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层,将待检索的图像数据或文本数据输入到各自对应的特征函数层,获取到图像特征或文本特征,将提取的图像特征或文本特征输入到各自对应的哈希函数层;将哈希函数层的输出输入到对应的符号函数层,获取最终的哈希码;将获得的哈希码与数据库中文本或图像的哈希码进行比较,得到查询结果。本申请检索方法精度较高、检索效率较高。

Description

一种基于对抗投影学习哈希的跨模态检索方法及装置
技术领域
本发明涉及计算机视觉领域的图像大数据处理与分析以及自然语言的处理与分析技术领域,特别涉及一种基于对抗投影学习哈希的跨模态检索方法及装置。
背景技术
随着现代网络技术的发展,大量的多模态数据每天在人们的日常生活中生成,包括文本,音频,视频和图像。同时,从如此大量的多模态数据中进行有效检索已成为一个巨大的挑战,其中图像到文本和文本到图像的检索是最广泛研究的。基于哈希学习的检索由于其高效性及存储的便捷性被广泛应用于各种检索任务中。哈希学习通过学习到最优的哈希函数,在尽可能保证原始空间内数据之间的相似度的前提下,将高维数据映射为二值码。
但由于二值化离散优化是NP问题,而很多方法采用宽松的条件使用连续值进行优化,优化后再把连续值取整为二值码。在这种宽松的条件下会导致巨大的量化误差、优化不稳定等问题。
发明内容
本申请的目的是提供一种基于对抗投影学习哈希的跨模态检索方法及装置,在图像模态和文本模态中利用多层神经网络构造特征重构网络以及非线性哈希函数,并且在两个模态间设计了分布式的判别器进行对抗训练。在保证哈希码离散型前提下设计了目标函数,通过优化该目标函数得到哈希函数。哈希函数将目标数据特征(图像和文本)转换为二值码,检索时利用二值码进行跨模态检索。
为了实现上述目的,本申请技术方案如下:
一种基于对抗投影学习哈希的跨模态检索方法,预先训练有用于哈希学习的神经网络,所述神经网络包括图像网络和文本网络,所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层,所述基于对抗投影学习哈希的跨模态检索方法,包括:
将待检索的图像数据或文本数据输入到各自对应的特征函数层,获取到图像特征或文本特征,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数及Dropout层;
将提取的图像特征或文本特征输入到各自对应哈希函数层;
将哈希函数层的输出输入到对应的符号函数层,获取最终的哈希码;
将获得的哈希码与数据库中文本或图像的哈希码进行比较,得到查询结果。
进一步的,所述图像网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数及Dropout层;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数及Dropout层。所述图像网络和文本网络的哈希函数层分别都包括一层全连接层,该全连接层后加tanh激活函数及Dropout层。
进一步的,所述神经网络的目标函数为:
Figure BDA0002696475340000021
其中,α、η、γ、β为超参数,
Figure BDA0002696475340000022
为目标函数,
Figure BDA0002696475340000023
表示特征函数层对应的对抗损失函数,
Figure BDA0002696475340000024
表示哈希函数层对应的对抗损失函数;
Figure BDA0002696475340000025
代表了图像特征投影到文本特征时的跨模态投影匹配损失函数,
Figure BDA0002696475340000026
代表了文本特征投影到图像特征时的跨模态投影匹配损失函数;
Figure BDA0002696475340000027
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure BDA0002696475340000028
代表了当查询目标是文本时的加权余弦三元组损失函数;
Figure BDA0002696475340000029
为分类损失函数,
Figure BDA00026964753400000210
为量化损失函数。
进一步的,所述加权余弦三元组损失函数为:
Figure BDA00026964753400000211
Figure BDA00026964753400000212
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,
Figure BDA0002696475340000031
代表了图像网络哈希函数层的第i个输出,
Figure BDA0002696475340000032
代表与查询图像不相关的文本网络哈希函数层第k个输出,
Figure BDA0002696475340000033
代表与查询图像相关的文本网络哈希函数层第j个输出,
Figure BDA0002696475340000034
代表了文本网络哈希函数层的第i个输出,
Figure BDA0002696475340000035
代表与查询文本不相关的图像网络哈希函数层第k个输出,
Figure BDA0002696475340000036
代表与查询文本相关的图像网络哈希函数层第j个输出,
Figure BDA0002696475340000037
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure BDA0002696475340000038
代表了当查询目标是文本时的加权余弦三元组损失函数。
进一步的,所述对抗损失函数为:
Figure BDA0002696475340000039
Figure BDA00026964753400000310
其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函数输出的判别器,
Figure BDA00026964753400000311
表示特征函数层对应的对抗损失函数,
Figure BDA00026964753400000312
表示哈希函数层对应的对抗损失函数,fi I代表图像网络特征函数层的第i个输出,fi T代表文本网络特征函数层的第i个输出,
Figure BDA00026964753400000313
为图像网络哈希函数层的第i个输出,
Figure BDA00026964753400000314
表示文本网络哈希函数层的第i个输出。
进一步的,所述跨模态投影匹配损失函数为:
Figure BDA00026964753400000315
Figure BDA00026964753400000316
其中n代表了训练样本的总数,
Figure BDA00026964753400000317
代表了图像网络特征函数层的第i个输出在文本网络特征函数层的在归一化的第j个输出上的投影标量的概率分布,
Figure BDA00026964753400000318
代表了文本网络特征函数层的第i个输出在图像网络特征函数层的在归一化的第j个输出上的投影标量的概率分布,pi,j代表第i个样本的标签在第j个样本的标签上的投影标量的概率分布,δ代表了防止pi,j=0的情况导致训练发生错误的微扰项,
Figure BDA00026964753400000319
代表了图像特征投影到文本特征时的投影匹配损失函数,
Figure BDA0002696475340000041
代表了文本特征投影到图像特征时的投影匹配损失函数。
本申请还提出了一种基于对抗投影学习哈希的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现上述基于对抗投影学习哈希的跨模态检索方法的步骤。
本申请提出的一种基于对抗投影学习哈希的跨模态检索方法及装置,是一种精度较高、检索效率较高的基于对抗投影学习哈希的跨模态检索方法。本申请的有益效果包括:由四层全连接层构成图像网络,由四层全连接层构成文本网络,最后的哈希值由tanh函数激活得到。通过两个网络的对抗训练能够保证两个模态的特征表达趋于一致,由一个待权重的余弦三元组损失函数保证语义相似性,同时也保证了相似样本的相关度排序性,由跨模态投影匹配损失函数最小化了特征投影匹配分布和标签投影匹配分布之间的Kullback-Leibler散度,利用标签信息使数据低维特征之间的相似度结构与语义空间中的相似度结构趋于一致。在优化的过程中维持哈希值的离散性,减小了量化误差,最终得到两个个鲁棒的保持语义相似性、减小异构鸿沟和累计误差较小的哈希函数,通过优化后的哈希函数将图像深度特征和文本特征转化为二值的哈希码,再将得到的二值码作为原图像或原文本的替代来进行查询。本申请利用对抗训练、跨模态投影匹配约束、保持语义相似性及相关度排序性来学习哈希函数,不仅提高了检索的精度,而且使得到的哈希学习方法具有了更强的语义学习能力;引入哈希值的离散性的强约束条件,直接通过求导得到最优解,使得对损失函数的优化更为鲁棒。
附图说明
图1为本申请基于对抗投影学习哈希的跨模态检索方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
哈希学习通过机器学习机制将数据映射成二进制串的形式,能显著减少数据的存储和通信开销,从而有效提高学习系统的效率。哈希学习的目的是学到数据的二进制哈希码表示,使得哈希码尽可能地保留原空间中的近邻关系,即保相似性。具体来说,每个数据点会被表示为一个紧凑的二进制串编码(哈希码),在原空间中相似的两个点应当被映射到哈希码空间中相似的两个点。以图像数据为例,原始图像表示是某种经过特征抽取后的高维实数向量,通过从数据中学习到的哈希函数变换后,每幅图像被映射为一个二进制哈希码,原空间中相似的两幅图像将被映射到相似(即海明距离较小)的两个哈希码,而原空间中不相似的两幅图像将被映射到不相似(即海明距离较大)的两个哈希码。在图像检索中,可以根据输入图像所得出的哈希码,与数据库中图像的哈希码进行比较,检索到相似的图像。
如图1所示,一种基于对抗投影学习哈希的跨模态检索方法,预先训练有用于哈希学习的神经网络,所述神经网络包括图像网络和文本网络,所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层,所述基于对抗投影学习哈希的跨模态检索方法,包括:
将待检索的图像数据或文本数据输入到各自对应的特征函数层,获取到图像特征或文本特征,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数及Dropout层;
将提取的图像特征或文本特征输入到各自对应的哈希函数层,所述哈希函数层包括一层全连接层,该全连接层后加tanh激活函数及Dropout层;
将哈希函数层的输出输入到对应的符号函数层,获取最终的哈希码;
将获得的哈希码与数据库中文本或图像的哈希码进行比较,得到查询结果。
本申请采用预先训练好的神经网络进行检索,神经网络图像网络和文本网络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层。
在一个实施例中,所述图像网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数及Dropout层。所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数及Dropout层。加入的Dropout层将以概率p(人为定义,一般为0.5)随机将神经网络参数置零,即在某次训练迭代中被置零的神经元无响应。通过加入Dropout层能够防止模型对训练数据过拟合,提升了模型的泛化能力;
则图像网络和文本网络的特征函数层的输出表示为:
Figure BDA0002696475340000061
Figure BDA0002696475340000062
其中,FI(I)表示图像网络的特征函数,FT(T)表示文本网络的特征函数,(WI,bI)和(WT,bT)分别表示图像网络和文本网络的全连接层的权值和偏置,权值和偏置的上标表示对应的全连接层序号。
需要说明的是,本申请并不限于特征函数层的全连接层数,本领域技术人员可以根据实际的情况进行设置。
本实施例特征函数层后是哈希函数层,图像网络和文本网络的哈希函数层都包括一层全连接层,该全连接层后加tanh激活函数及Dropout层。
则图像网络和文本网络的哈希函数层的输出表示为:
Figure BDA0002696475340000063
Figure BDA0002696475340000064
其中,HI(I)表示图像网络的哈希函数,HT(T)表示文本网络的哈希函数,fI代表图像网络特征函数层的输出,fT代表文本网络特征函数层的输出,
Figure BDA0002696475340000065
代表经过特征函数输出的图像的低维特征,
Figure BDA0002696475340000066
代表经过特征函数输出的文本的低维特征。h代表特征的维数,n代表训练样本的总数。
在本实施例中,图像网络四个全连接层的神经元数量为4096,8192,4096,2048,文本网络四个全连接层的神经元数量为1000,8192,4096,2048。
容易理解的是,无论是训练网络,还是进行图像检索,都需要对图像进行预处理,一般来说图像数据包括图像及对应的文本,会先将图像统一缩放到固定的大小,例如256*256大小,然后提取图像的图像特征,将其对应的文本利用词袋模型提取词频作为文本特征。在本申请的实施例中,利用python代码将缩放后的图像输入到在Imagenet上预训练好的CNN-F上提取4096维的图像特征,将文本利用词袋模型提取词频构建1000维的向量作为文本特征。
在本实施例中,将图像的初始图像特征表示为I,初始文本特征表示为T(在本申请中,i与图像特征对应,t与文本特征对应),将图像的初始图像特征I输入到图像网络,将初始文本特征T输入到文本网络,最后对所述图像网络和文本网络的输出做符号函数运算来得到哈希码。
令初始输入的图像特征矩阵为
Figure BDA0002696475340000071
文本特征矩阵为
Figure BDA0002696475340000072
标签矩阵
Figure BDA0002696475340000073
这里n表示训练样本的总数,d代表了初始图像特征的维数,l代表了初始文本特征的维数,c代表标签个数,ik表示第k个图像的特征,tk表示第k个图像对应的文本特征,lk是一个c维的向量,如果第k个文本或图像属于该标签,对应位置的值为1。由于本方法中每个图像或文本有多个标签,所以lk中可以有多个值为1。
本实施例符号函数层最终输出的哈希码表示如下:
Figure BDA0002696475340000074
Figure BDA0002696475340000075
其中公式(5)表示图像网络最后的输出哈希码,公式(6)表示文本网络最后输出的哈希码,(WI,bI)代表图像网络的全连接层的权值和偏置,(WT,bT)代表文本网络的全连接层的权值和偏置,权值和偏置的上标表示对应的全连接层序号,tanh表示tanh激活函数,sign(.)是符号函数。
Figure BDA0002696475340000076
为图像网络哈希函数层的输出,
Figure BDA0002696475340000077
表示文本网络哈希函数层的输出。
本申请在构建用于哈希学习的神经网络模型之后,采用加权余弦三元组损失函数、对抗损失函数、跨模态投影匹配损失函数、分类损失函数、量化损失函数构建所述神经网络的整体目标函数,其过程如下:
F1、构建加权余弦三元组损失函数,在多模态的情况下,保证拥有越多相同标签的文本和图像的哈希码的距离尽可能近,而越少相同标签的哈希码的距离尽可能远,同时没有相同标签的样本之间的哈希码最远。本申请采用的加权余弦三元组损失函数基于相似标签的个数考虑,表示如下:
Figure BDA0002696475340000078
Figure BDA0002696475340000081
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,
Figure BDA0002696475340000082
代表了图像网络哈希函数层的第i个输出,
Figure BDA0002696475340000083
代表与查询图像不相关(没有相同标签)的文本网络哈希函数层第k个输出,
Figure BDA0002696475340000084
代表与查询图像相关(至少有一个相同标签)的文本网络哈希函数层第j个输出,
Figure BDA0002696475340000085
代表了文本网络哈希函数层的第i个输出,
Figure BDA0002696475340000086
代表与查询文本不相关(没有相同标签)的图像网络哈希函数层第k个输出,
Figure BDA0002696475340000087
代表与查询文本相关(至少有一个相同标签)的图像网络哈希函数层第j个输出,
Figure BDA0002696475340000088
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure BDA0002696475340000089
代表了当查询目标是文本时的加权余弦三元组损失函数。
公式(7)代表了当查询目标是图像时的加权余弦三元组损失函数,公式(8)代表了当查询目标是文本时的加权余弦三元组损失函数。
F2、构建对抗损失函数,本申请与现有哈希学习方法不同的是,提出了两步式对抗训练,使不同模态的特征表达趋于一致,有效解决异构鸿沟的问题,对抗损失函数如下:
Figure BDA00026964753400000810
Figure BDA00026964753400000811
其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函数输出的判别器,
Figure BDA00026964753400000812
表示特征函数层对应的对抗损失函数,
Figure BDA00026964753400000813
表示哈希函数层对应的对抗损失函数。
需要注意的是,上述对抗损失函数同时对应了图像网络和文本网络的特征函数层、哈希函数层,以下不在赘述。
F3、构建分类损失函数,为了保持语义相似性,得到的哈希码可以对真实标签分类:
Figure BDA00026964753400000814
其中B为独立的哈希码变量(非网络输出),在训练过程中不断更新,L为标签矩阵,P为分类权重矩阵,
Figure BDA0002696475340000091
是矩阵的Frobenius范数或者向量的l2范数。
F4、构建量化损失函数:
Figure BDA0002696475340000092
其中B为独立的哈希码变量,HI(.)为图像网络哈希函数的输出,HT(.)为文本网络哈希函数的输出,μ和ν为超参数,是固定的常数。
F5、构建跨模态投影匹配损失函数,最小化了特征投影匹配分布和标签投影匹配分布之间的差异,充分利用了两种模态的语义信息,保证了模态间特征表示的分布一致性:
Figure BDA0002696475340000093
Figure BDA0002696475340000094
其中n代表了训练样本的总数,
Figure BDA0002696475340000095
代表了图像网络特征函数层的第i个输出在文本网络特征函数层的在归一化的第j个输出上的投影标量的概率分布,
Figure BDA0002696475340000096
代表了文本网络特征函数层的第i个输出在图像网络特征函数层的在归一化的第j个输出上的投影标量的概率分布,pi,j代表第i个样本的标签在第j个样本的标签上的投影标量的概率分布,δ代表了防止pi,j=0的情况导致训练发生错误的微扰项,
Figure BDA0002696475340000097
代表了图像特征投影到文本特征时的投影匹配损失函数,
Figure BDA0002696475340000098
代表了文本特征投影到图像特征时的投影匹配损失函数。
F6、最后,构建整体目标函数
Figure BDA0002696475340000099
其中α、η、β、γ为超参数,是固定的常数。
需要说明的是,分类损失函数和量化损失函数,在哈希学习技术领域是比较成熟的技术,这里不再赘述。
本申请在获取训练数据后,对所述神经网络模型进行训练,直到整体目标函数收敛,得到训练好的神经网络模型。
本申请获取训练数据,对所述神经网络进行训练,直到整体目标函数收敛,过程如下:
将训练数据集的图像深度特征和对应文本的词频向量分别作为图像和文本网络的初始特征,以及标签信息分批输入;
随机初始化神经网络权值WI和WT以及bI和bT,将权值在负的神经元数量分之一至正的神经元数量分之一之间取均匀分布进行,将偏置初始化为零;初始化B为元素随机选取-1和1的矩阵;
对哈希函数进行迭代训练,过程如下:
利用标签信息按照NDCG(Normalized Discounted cumulative gain)即归一化折损累计增益的计算方法计算每个批次余弦三元组损失函数的权重。NDCG是一种搜索评价指标,其计算方法如下:
Figure BDA0002696475340000101
ri代表通过网络最终输出的哈希码计算得出的第i个查询结果与查询之间的相似度(相同标签个数与查询拥有的标签个数之比),Z为归一化常数,由以下公式解出:
Figure BDA0002696475340000102
ri代表真实情况下的第i个查询结果与查询之间的相似度(相同标签个数与查询拥有的标签个数之比)。
由以上计算,可以定义权重
Figure BDA0002696475340000103
通过前向传播和反向传播这两个步骤反复训练直到所有训练样本都被训练,使整体的损失函数值最小;
在所有训练样本被性训练后,通过对使用哈希码计算的分类损失函数求导,在保证哈希码离散性的前提下,更新统一的哈希码B。
对P矩阵进行如下更新:
P=(LTL+λI)-1LB (16)
其中,λI中的I代表单位矩阵。
同时对B进行如下更新:
B=sign(LP+μHI(fI)+vHT(fT)) (17)
通过哈希函数进行迭代训练,直到目标函数收敛,完成模型的训练。
当训练结束后,就可以获取待检索的图像或文本,采用训练好的所述神经网络进行学习,获取对应的哈希码。与数据库中图像的哈希码进行比较,检索到相似的文本或图像,这里不再赘述。
在一个实施例中,本申请还提供了一种基于对抗投影学习哈希的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现上述基于对抗投影学习哈希的跨模态检索方法的步骤。
关于基于对抗投影学习哈希的跨模态检索装置的具体限定可以参见上文中对于基于对抗投影学习哈希的跨模态检索方法的限定,在此不再赘述。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于对抗投影学习哈希的跨模态检索方法,其特征在于,预先训练有用于哈希学习的神经网络,所述神经网络包括图像网络和文本网络,所述图像网络和文本网络分别包括特征函数层、哈希函数层和符号函数层,所述基于对抗投影学习哈希的跨模态检索方法,包括:
将待检索的图像数据或文本数据输入到各自对应的特征函数层,获取到图像特征或文本特征,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数及Dropout层;
将提取的图像特征或文本特征输入到各自对应的哈希函数层,所述哈希函数层包括一层全连接层,该全连接层后加tanh激活函数及Dropout层;
将哈希函数层的输出输入到对应的符号函数层,获取最终的哈希码;
将获得的哈希码与数据库中文本或图像的哈希码进行比较,得到查询结果。
2.根据权利要求1所述的基于对抗投影学习哈希的跨模态检索方法,其特征在于,所述图像网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数及Dropout层;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数及Dropout层。
3.根据权利要求1所述的基于对抗投影学习哈希的跨模态检索方法,其特征在于,所述图像网络和文本网络的哈希函数层分别都包括一层全连接层,该全连接层后加tanh激活函数及Dropout层。
4.根据权利要求1所述的基于对抗投影学习哈希的跨模态检索方法,其特征在于,所述神经网络的目标函数为:
Figure FDA0002696475330000011
其中,α、η、γ、β为超参数,
Figure FDA0002696475330000012
为目标函数,
Figure FDA0002696475330000013
表示特征函数层对应的对抗损失函数,
Figure FDA0002696475330000014
表示哈希函数层对应的对抗损失函数;
Figure FDA0002696475330000015
代表了图像特征投影到文本特征时的跨模态投影匹配损失函数,
Figure FDA0002696475330000016
代表了文本特征投影到图像特征时的跨模态投影匹配损失函数;
Figure FDA0002696475330000017
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure FDA0002696475330000018
代表了当查询目标是文本时的加权余弦三元组损失函数;
Figure FDA0002696475330000021
为分类损失函数,
Figure FDA0002696475330000022
为量化损失函数。
5.根据权利要求4所述的基于对抗投影学习哈希的跨模态检索方法,其特征在于,所述加权余弦三元组损失函数为:
Figure FDA0002696475330000023
Figure FDA0002696475330000024
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,
Figure FDA0002696475330000025
代表了图像网络哈希函数层的第i个输出,
Figure FDA0002696475330000026
代表与查询图像不相关的文本网络哈希函数层第k个输出,
Figure FDA0002696475330000027
代表与查询图像相关的文本网络哈希函数层第j个输出,
Figure FDA0002696475330000028
代表了文本网络哈希函数层的第i个输出,
Figure FDA0002696475330000029
代表与查询文本不相关的图像网络哈希函数层第k个输出,
Figure FDA00026964753300000210
代表与查询文本相关的图像网络哈希函数层第j个输出,
Figure FDA00026964753300000211
代表了当查询目标是图像时的加权余弦三元组损失函数,
Figure FDA00026964753300000212
代表了当查询目标是文本时的加权余弦三元组损失函数。
6.根据权利要求4所述的基于对抗投影学习哈希的跨模态检索方法,其特征在于,所述对抗损失函数为:
Figure FDA00026964753300000213
Figure FDA00026964753300000214
其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函数输出的判别器,
Figure FDA00026964753300000215
表示特征函数层对应的对抗损失函数,
Figure FDA00026964753300000216
表示哈希函数层对应的对抗损失函数,fi I代表图像网络特征函数层的第i个输出,fi T代表文本网络特征函数层的第i个输出,
Figure FDA00026964753300000217
为图像网络哈希函数层的第i个输出,
Figure FDA00026964753300000218
表示文本网络哈希函数层的第i个输出。
7.根据权利要求4所述的基于对抗投影学习哈希的跨模态检索方法,其特征在于,所述跨模态投影匹配损失函数为:
Figure FDA0002696475330000031
Figure FDA0002696475330000032
其中n代表了训练样本的总数,
Figure FDA0002696475330000033
代表了图像网络特征函数层的第i个输出在文本网络特征函数层的在归一化的第j个输出上的投影标量的概率分布,
Figure FDA0002696475330000034
代表了文本网络特征函数层的第i个输出在图像网络特征函数层的在归一化的第j个输出上的投影标量的概率分布,pi,j代表第i个样本的标签在第j个样本的标签上的投影标量的概率分布,δ代表了防止pi,j=0的情况导致训练发生错误的微扰项,
Figure FDA0002696475330000035
代表了图像特征投影到文本特征时的投影匹配损失函数,
Figure FDA0002696475330000036
代表了文本特征投影到图像特征时的投影匹配损失函数。
8.一种基于对抗投影学习哈希的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求7中任意一项所述方法的步骤。
CN202011007517.5A 2020-09-23 2020-09-23 一种基于对抗投影学习哈希的跨模态检索方法及装置 Pending CN112214570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011007517.5A CN112214570A (zh) 2020-09-23 2020-09-23 一种基于对抗投影学习哈希的跨模态检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011007517.5A CN112214570A (zh) 2020-09-23 2020-09-23 一种基于对抗投影学习哈希的跨模态检索方法及装置

Publications (1)

Publication Number Publication Date
CN112214570A true CN112214570A (zh) 2021-01-12

Family

ID=74050665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011007517.5A Pending CN112214570A (zh) 2020-09-23 2020-09-23 一种基于对抗投影学习哈希的跨模态检索方法及装置

Country Status (1)

Country Link
CN (1) CN112214570A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111953A (zh) * 2021-04-20 2021-07-13 深圳吉祥星科技股份有限公司 一种投影画质处理装置
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
US20230162490A1 (en) * 2021-11-19 2023-05-25 Salesforce.Com, Inc. Systems and methods for vision-language distribution alignment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN111460201A (zh) * 2020-03-04 2020-07-28 南京邮电大学 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN111597298A (zh) * 2020-03-26 2020-08-28 浙江工业大学 一种基于深度对抗离散哈希学习的跨模态检索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299341A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种基于字典学习的对抗跨模态检索方法和系统
CN111460201A (zh) * 2020-03-04 2020-07-28 南京邮电大学 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN111597298A (zh) * 2020-03-26 2020-08-28 浙江工业大学 一种基于深度对抗离散哈希学习的跨模态检索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YING ZHANG等: "Deep Cross-Modal Projection Learning for Image-Text Matching", 《COMPUTER VISION-ECCV 2018》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111953A (zh) * 2021-04-20 2021-07-13 深圳吉祥星科技股份有限公司 一种投影画质处理装置
CN113111953B (zh) * 2021-04-20 2022-08-26 深圳吉祥星科技股份有限公司 一种投影画质处理装置
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
US20230162490A1 (en) * 2021-11-19 2023-05-25 Salesforce.Com, Inc. Systems and methods for vision-language distribution alignment
US12112523B2 (en) * 2021-11-19 2024-10-08 Salesforce, Inc. Systems and methods for vision-language distribution alignment

Similar Documents

Publication Publication Date Title
CN111597298A (zh) 一种基于深度对抗离散哈希学习的跨模态检索方法及装置
Rodríguez et al. Beyond one-hot encoding: Lower dimensional target embedding
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN111079639B (zh) 垃圾图像分类模型构建的方法、装置、设备及存储介质
Zheng et al. A deep and autoregressive approach for topic modeling of multimodal data
Cao et al. Landmark recognition with compact BoW histogram and ensemble ELM
Lin et al. Spec hashing: Similarity preserving algorithm for entropy-based coding
US7903883B2 (en) Local bi-gram model for object recognition
Zheng et al. Topic modeling of multimodal data: an autoregressive approach
CN112214570A (zh) 一种基于对抗投影学习哈希的跨模态检索方法及装置
CN113343125B (zh) 一种面向学术精准推荐的异质科研信息集成方法及系统
Tasse et al. Shape2vec: semantic-based descriptors for 3d shapes, sketches and images
Jiang et al. Variational deep embedding: A generative approach to clustering
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
Qin et al. Deep multi-similarity hashing with semantic-aware preservation for multi-label image retrieval
Nebti et al. Handwritten characters recognition based on nature-inspired computing and neuro-evolution
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
Kecman et al. Locally linear support vector machines and other local models
Meng et al. Vigilance adaptation in adaptive resonance theory
Shen et al. Equiangular basis vectors
Mansour et al. Text vectorization method based on concept mining using clustering techniques
Anderson Pattern recognition: An introduction
Lauren et al. A low-dimensional vector representation for words using an extreme learning machine
Passalis et al. Deep temporal logistic bag-of-features for forecasting high frequency limit order book time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210112

WD01 Invention patent application deemed withdrawn after publication