CN111597298A - 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 - Google Patents
一种基于深度对抗离散哈希学习的跨模态检索方法及装置 Download PDFInfo
- Publication number
- CN111597298A CN111597298A CN202010225616.4A CN202010225616A CN111597298A CN 111597298 A CN111597298 A CN 111597298A CN 202010225616 A CN202010225616 A CN 202010225616A CN 111597298 A CN111597298 A CN 111597298A
- Authority
- CN
- China
- Prior art keywords
- function
- hash
- representing
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 210
- 238000013139 quantization Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 14
- 230000003042 antagnostic effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 abstract description 6
- 230000014509 gene expression Effects 0.000 abstract description 3
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度对抗离散哈希学习的跨模态检索方法及装置,由三层全连接层构成图像网络,由四层全连接层构成文本网络,最后的哈希值由tanh函数激活得到。通过两个网络的对抗训练能够保证两个模态的特征表达趋于一致,由一个待权重的余弦三元组损失函数保证语义相似性,同时也保证了相似样本的相关度排序性,在优化的过程中维持哈希值的离散性,减小了量化误差,最终得到两个个鲁棒的保持语义相似性、减小异构鸿沟和累计误差较小的哈希函数。本发明利用对抗训练、保持语义相似性及相关度排序性来学习哈希函数,不仅提高了检索的精度,而且使得到的哈希学习方法具有了更强的语义学习能力。
Description
技术领域
本发明涉及计算机视觉领域的图像大数据处理与分析以及自然语言的处理与分析技术领域,特别涉及一种基于深度对抗离散哈希学习的跨模态检索方法及装置。
背景技术
随着现代网络技术的发展,大量的多模态数据每天在人们的日常生活中生成,包括文本,音频,视频和图像。同时,从如此大量的多模态数据中进行有效检索已成为一个巨大的挑战,其中图像到文本和文本到图像的检索是最广泛研究的。基于哈希学习的检索由于其高效性及存储的便捷性被广泛应用于各种检索任务中。哈希学习通过学习到最优的哈希函数,在尽可能保证原始空间内数据之间的相似度的前提下,将高维数据映射为二值码。
但由于二值化离散优化是NP问题,而很多方法采用宽松的条件使用连续值进行优化,优化后再把连续值取整为二值码。在这种宽松的条件下会导致巨大的量化误差、优化不稳定等问题。
发明内容
本申请的目的是提供一种基于深度对抗离散哈希学习的跨模态检索方法及装置,在图像模态和文本模态中利用多层神经网络构造特征重构网络以及非线性哈希函数,并且在两个模态间设计了分布式的判别器进行对抗训练。在保证哈希码离散型前提下设计了目标函数,通过优化该目标函数得到哈希函数。哈希函数将目标数据特征(图像和文本)转换为二值码,检索时利用二值码进行跨模态检索。
一种基于深度对抗离散哈希学习的跨模态检索方法,包括:
构建用于哈希学习的神经网络模型,所述神经网络模型包括图像网络和文本网络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层,其中,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数,所述哈希函数层包括一个全连接层和tanh激活函数,所述符号函数层对哈希函数层的输出做符号函数运算来得到哈希码;
采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数;
获取训练数据,对所述神经网络模型进行训练,直到整体目标函数收敛;
获取待检索的图像或文本,采用训练好的所述神经网络模型进行学习,获取对应的哈希码。
进一步的,所述图像网络的特征函数层包括两层全连接层,每个全连接层后加ReLU激活函数;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数。
进一步的,所述加权余弦三元组损失函数为:
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,代表了图像网络哈希函数层的第i个输出,代表与查询图像不相关的文本网络哈希函数层第k个输出,代表与查询图像相关的文本网络哈希函数层第j个输出,代表了文本网络哈希函数层的第i个输出,代表与查询文本不相关的图像网络哈希函数层第k个输出,代表与查询文本相关的图像网络哈希函数层第j个输出,代表了当查询目标是图像时的加权余弦三元组损失函数,代表了当查询目标是文本时的加权余弦三元组损失函数。
进一步的,所述对抗损失函数为:
其中n代表了训练样本的总数,DF代表了特征函数输出的判别器,DH代表了哈希函数输出的判别器,表示特征函数层对应的对抗损失函数,表示哈希函数层对应的对抗损失函数,fI代表图像网络特征函数层的输出,fT代表文本网络特征函数层的输出,vI为图像网络哈希函数层的输出,vT表示文本网络哈希函数层的输出。
进一步的,所述采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数,构建的整体目标函数如下:
其中,α、β、γ为超参数,代表了当查询目标是图像时的加权余弦三元组损失函数,代表了当查询目标是文本时的加权余弦三元组损失函数;为分类损失函数,为量化损失函数,表示特征函数层对应的对抗损失函数,表示哈希函数层对应的对抗损失函数。
本申请还提出了一种基于深度对抗离散哈希学习的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现上述一种基于深度对抗离散哈希学习的跨模态检索方法的步骤。
本申请提出的一种基于深度对抗离散哈希学习的跨模态检索方法及装置,是一种精度较高、检索效率较高的基于深度对抗离散哈希学习的跨模态检索方法。本申请的有益效果包括:由三层全连接层构成图像网络,由四层全连接层构成文本网络,最后的哈希值由tanh函数激活得到。通过两个网络的对抗训练能够保证两个模态的特征表达趋于一致,由一个待权重的余弦三元组损失函数保证语义相似性,同时也保证了相似样本的相关度排序性,在优化的过程中维持哈希值的离散性,减小了量化误差,最终得到两个个鲁棒的保持语义相似性、减小异构鸿沟和累计误差较小的哈希函数,通过优化后的哈希函数将图像深度特征和文本特征转化为二值的哈希码,再将得到的二值码作为原图像或原文本的替代来进行查询。本申请利用对抗训练、保持语义相似性及相关度排序性来学习哈希函数,不仅提高了检索的精度,而且使得到的哈希学习方法具有了更强的语义学习能力;引入哈希值的离散性的强约束条件,直接通过求导得到最优解,使得对损失函数的优化更为鲁棒。
附图说明
图1为本申请实施例基于深度对抗离散哈希学习的跨模态检索方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
哈希学习通过机器学习机制将数据映射成二进制串的形式,能显著减少数据的存储和通信开销,从而有效提高学习系统的效率。哈希学习的目的是学到数据的二进制哈希码表示,使得哈希码尽可能地保留原空间中的近邻关系,即保相似性。具体来说,每个数据点会被表示为一个紧凑的二进制串编码(哈希码),在原空间中相似的两个点应当被映射到哈希码空间中相似的两个点。以图像数据为例,原始图像表示是某种经过特征抽取后的高维实数向量,通过从数据中学习到的哈希函数变换后,每幅图像被映射为一个二进制哈希码,原空间中相似的两幅图像将被映射到相似(即海明距离较小)的两个哈希码,而原空间中不相似的两幅图像将被映射到不相似(即海明距离较大)的两个哈希码。在跨模态检索中,可以根据输入图像所得出的哈希码,与数据库中文本的哈希码进行比较,检索到相似的文本。或是根据输入文本所得出的哈希码,与数据库中图像的哈希码进行比较,检索到相似的图像。
如图1所示,一种基于深度对抗离散哈希学习的跨模态检索方法,包括:
构建用于哈希学习的神经网络模型,所述神经网络模型包括图像网络和文本网络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层,其中,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数,所述哈希函数层包括一个全连接层和tanh激活函数,所述符号函数层对哈希函数层的输出做符号函数运算来得到哈希码;
采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数;
获取训练数据,对所述神经网络模型进行训练,直到整体目标函数收敛;
获取待检索的图像或文本,采用训练好的所述神经网络模型进行学习,获取对应的哈希码。
在哈希学习中,通常采用神经网络来进行哈希学习,本申请哈希学习对应的神经网络模型包括图像网络和文本网络,图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层。
在一个实施例中,所述图像网络的特征函数层包括两层全连接层,每个全连接层后加ReLU激活函数。所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数。
则图像网络和文本网络的特征函数层的输出表示为:
其中,FI(I)表示图像网络的特征函数,FT(T)表示文本网络的特征函数,(WI,bI)和(WT,bT)分别表示图像网络和文本网络的全连接层的权值和偏置,权值和偏置的上标表示对应的全连接层序号。
需要说明的是,本申请并不限于特征函数层的全连接层数,本领域技术人员可以根据实际的情况进行设置。
本实施例特征函数层后是哈希函数层,图像网络和文本网络的哈希函数层都包括一层全连接层,该全连接层后加tanh激活函数。
则图像网络和文本网络的哈希函数层的输出表示为:
其中,HI(I)表示图像网络的哈希函数,HT(T)表示文本网络的哈希函数,fI代表图像网络特征函数层的输出,fT代表文本网络特征函数层的输出,代表经过特征函数输出的图像的低维特征,代表经过特征函数输出的文本的低维特征。h代表特征的维数,n代表训练样本的总数。
在本实施例中,图像网络三个全连接层的神经元数量为4096,4096,2048,文本网络四个全连接层的神经元数量为1000,8192,4096,2048。
容易理解的是,无论是训练网络,还是进行跨模态检索,都需要对图像进行预处理,一般来说图像数据包括图像及对应的文本,会先将图像统一缩放到固定的大小,例如256*256大小,然后提取图像的图像特征,将其对应的文本利用词袋模型提取词频作为文本特征。在本申请的实施例中,利用python代码将缩放后的图像输入到在Imagenet上预训练好的CNN-F上提取4096维的图像特征,将文本利用词袋模型提取词频构建1000维的向量作为文本特征。
在本实施例中,将图像的初始图像特征表示为I,初始文本特征表示为T,将图像的初始图像特征I输入到图像网络,将初始文本特征T输入到文本网络,最后对所述图像网络和文本网络的输出做符号函数运算来得到哈希码。
令初始输入的图像特征矩阵为文本特征矩阵为标签矩阵这里n表示训练样本的总数,d代表了初始图像特征的维数,l代表了初始文本特征的维数,c代表标签个数,ik表示第k个图像的特征,tk表示第k个图像对应的文本特征,yk是一个c维的向量,如果第k个文本或图像属于该标签,对应位置的值为1。由于本方法中每个图像或文本有多个标签,所以yk中可以有多个值为1。
本实施例符号函数层最终输出的哈希码表示如下:
BI(I)=sign(vI)=sign(tanh(WI (3)(WI (2)(WI (1)I+bI (1))+bI (2))+bI (3))) (5)
BT(T)=sign(vT)=sign(tanh(WT (4)(WT (3)(WT (2)(WT (1)T+
bT (1))+bT (2))+bT (3))+bT (4))) (6)
其中公式(5)表示图像网络最后的输出哈希码,公式(6)表示文本网络最后输出的哈希码,(WI,bI)代表图像网络的全连接层的权值和偏置,(WT,bT)代表文本网络的全连接层的权值和偏置,权值和偏置的上标表示对应的全连接层序号,tanh表示tanh激活函数,sign(.)是符号函数。vI为图像网络哈希函数层的输出,vT表示文本网络哈希函数层的输出。
在构建用于哈希学习的神经网络模型之后,本申请采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络的整体目标函数,其过程如下:
F1、构建加权余弦三元组损失函数,在多模态的情况下,保证拥有越多相同标签的文本和图像的哈希码的距离尽可能近,而越少相同标签的哈希码的距离尽可能远,同时没有相同标签的样本之间的哈希码最远。本申请采用的加权余弦三元组损失函数基于相似标签的个数考虑,表示如下:
其中m为边界常数,ω(rj,rk)是权重因子,rj代表第j个查询结果与查询之间的相似度,rk代表第k个查询结果与查询之间的相似度,cos(.)是余弦函数,代表了图像网络哈希函数层的第i个输出,代表与查询图像不相关(没有相同标签)的文本网络哈希函数层第k个输出,代表与查询图像相关(至少有一个相同标签)的文本网络哈希函数层第j个输出,代表了文本网络哈希函数层的第i个输出,代表与查询文本不相关(没有相同标签)的图像网络哈希函数层第k个输出,代表与查询文本相关(至少有一个相同标签)的图像网络哈希函数层第j个输出,公式(7)代表了当查询目标是图像时的加权余弦三元组损失函数,公式(8)代表了当查询目标是文本时的加权余弦三元组损失函数。
F2、构建对抗损失函数,本申请与现有哈希学习方法不同的是,提出了两步式对抗训练,使不同模态的特征表达趋于一致,有效解决异构鸿沟的问题,对抗损失函数如下:
需要注意的是,上述对抗损失函数同时对应了图像网络和文本网络的特征函数层、哈希函数层,以下不在赘述。
F3、构建分类损失函数,为了保持语义相似性,得到的哈希码可以对真实标签分类:
F4、构建量化损失函数:
F5、最后,构建整体目标函数
其中α、β、γ为超参数,是固定的常数。
需要说明的是,分类损失函数和量化损失函数,在哈希学习技术领域是比较成熟的技术,这里不再赘述。
本申请获取训练数据,对所述神经网络进行训练,直到整体目标函数收敛,过程如下:
将训练数据集的图像深度特征和对应文本的词频向量分别作为图像和文本网络的初始特征,以及标签信息分批输入;
对哈希函数进行迭代训练,过程如下:
利用标签信息按照NDCG(Normalized Discounted cumulative gain)即归一化折损累计增益的计算方法计算每个批次余弦三元组损失函数的权重。NDCG是一种搜索评价指标,其计算方法如下:
ri代表通过网络最终输出的哈希码计算得出的第i个查询结果与查询之间的相似度(相同标签个数与查询拥有的标签个数之比),Z为归一化常数,由以下公式解出:
ri代表真实情况下的第i个查询结果与查询之间的相似度(相同标签个数与查询拥有的标签个数之比)。
通过前向传播和反向传播这两个步骤反复训练直到所有训练样本都被训练,使整体的损失函数值最小;
在所有训练样本被性训练后,通过对使用哈希码计算的分类损失函数求导,在保证哈希码离散性的前提下,更新图像和文本的哈希码。
对PI和PT矩阵进行如下更新:
其中,λI中的I代表单位矩阵。
通过哈希函数进行迭代训练,直到目标函数收敛,完成模型的训练。
当训练结束后,对于待检索的图像或文本,采用训练好的所述神经网络进行学习,获取对应的哈希码。该哈希码与数据库中文本或图像的哈希码进行比较,并按照汉明距离从小到大进行排序作为查询结果,以完成检索到相似的文本或图像,这里不再赘述。
本申请还提出了一种基于深度对抗离散哈希学习的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现上述一种基于深度对抗离散哈希学习的跨模态检索方法的步骤。
关于基于深度对抗离散哈希学习的跨模态检索装置的具体限定可以参见上文中对于基于深度对抗离散哈希学习的跨模态检索方法的限定,在此不再赘述。上述基于深度对抗离散哈希学习的跨模态检索装置可全部或部分通过软件、硬件及其组合来实现。可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上对应的操作。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述基于深度对抗离散哈希学习的跨模态检索方法,包括:
构建用于哈希学习的神经网络模型,所述神经网络模型包括图像网络和文本网络,所述图像网络和文本网络分别包括依次连接的特征函数层、哈希函数层和符号函数层,其中,所述特征函数层包括多个全连接层和各个全连接层后的ReLU激活函数,所述哈希函数层包括一个全连接层和tanh激活函数,所述符号函数层对哈希函数层的输出做符号函数运算来得到哈希码;
采用加权余弦三元组损失函数、对抗损失函数、分类损失函数、量化损失函数构建所述神经网络模型的整体目标函数;
获取训练数据,对所述神经网络模型进行训练,直到整体目标函数收敛;
获取待检索的图像或文本,采用训练好的所述神经网络模型进行学习,获取对应的哈希码。
2.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述图像网络的特征函数层包括两层全连接层,每个全连接层后加ReLU激活函数;所述文本网络的特征函数层包括三层全连接层,每个全连接层后加ReLU激活函数。
3.根据权利要求1所述的基于深度对抗离散哈希学习的跨模态检索方法,其特征在于,所述加权余弦三元组损失函数为:
6.一种基于深度对抗离散哈希学习的跨模态检索装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010225616.4A CN111597298A (zh) | 2020-03-26 | 2020-03-26 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010225616.4A CN111597298A (zh) | 2020-03-26 | 2020-03-26 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111597298A true CN111597298A (zh) | 2020-08-28 |
Family
ID=72183361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010225616.4A Pending CN111597298A (zh) | 2020-03-26 | 2020-03-26 | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597298A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112051980A (zh) * | 2020-10-13 | 2020-12-08 | 浙江大学 | 一种基于牛顿迭代法的非线性激活函数计算装置 |
CN112214570A (zh) * | 2020-09-23 | 2021-01-12 | 浙江工业大学 | 一种基于对抗投影学习哈希的跨模态检索方法及装置 |
CN112507159A (zh) * | 2020-11-20 | 2021-03-16 | 有米科技股份有限公司 | 哈希网络训练方法、广告图像素材检索方法及相关装置 |
CN112802445A (zh) * | 2021-02-02 | 2021-05-14 | 西北工业大学 | 一种基于语义保留的跨视听信息转化方法 |
CN113010700A (zh) * | 2021-03-01 | 2021-06-22 | 电子科技大学 | 一种基于类别信息对齐的图像文本跨模态检索方法 |
CN113191445A (zh) * | 2021-05-16 | 2021-07-30 | 中国海洋大学 | 基于自监督对抗哈希算法的大规模图像检索方法 |
CN113343014A (zh) * | 2021-05-25 | 2021-09-03 | 武汉理工大学 | 基于深度异构相关学习的跨模态图像音频检索方法 |
CN114186084A (zh) * | 2021-12-14 | 2022-03-15 | 山东大学 | 在线多模态哈希检索方法、系统、存储介质及设备 |
CN116070277A (zh) * | 2023-03-07 | 2023-05-05 | 浙江大学 | 一种基于深度哈希的纵向联邦学习隐私保护方法和系统 |
CN116383422A (zh) * | 2023-04-07 | 2023-07-04 | 四川大学 | 一种基于锚点的无监督跨模态哈希检索方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100188288A1 (en) * | 2007-10-09 | 2010-07-29 | Siemens Corporate Research, Inc. | Multi-modal speed limit assistant |
CN109284411A (zh) * | 2017-07-19 | 2019-01-29 | 哈尔滨工业大学深圳研究生院 | 一种基于有监督超图离散化图像二值编码方法 |
CN109766469A (zh) * | 2018-12-14 | 2019-05-17 | 浙江工业大学 | 一种基于深度哈希学习优化的图像检索方法 |
CN110222140A (zh) * | 2019-04-22 | 2019-09-10 | 中国科学院信息工程研究所 | 一种基于对抗学习和非对称哈希的跨模态检索方法 |
-
2020
- 2020-03-26 CN CN202010225616.4A patent/CN111597298A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100188288A1 (en) * | 2007-10-09 | 2010-07-29 | Siemens Corporate Research, Inc. | Multi-modal speed limit assistant |
CN109284411A (zh) * | 2017-07-19 | 2019-01-29 | 哈尔滨工业大学深圳研究生院 | 一种基于有监督超图离散化图像二值编码方法 |
CN109766469A (zh) * | 2018-12-14 | 2019-05-17 | 浙江工业大学 | 一种基于深度哈希学习优化的图像检索方法 |
CN110222140A (zh) * | 2019-04-22 | 2019-09-10 | 中国科学院信息工程研究所 | 一种基于对抗学习和非对称哈希的跨模态检索方法 |
Non-Patent Citations (2)
Title |
---|
CHUAN-XIANG LI等: "SCRATCH: A Scalable Discrete Matrix Factorization Hashing for Cross-Modal Retrieval", 《MM "18 PROCEEDINGS OF THE 26TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
姚涛等: "基于映射字典学习的跨模态哈希检索", 《自动化学报》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214570A (zh) * | 2020-09-23 | 2021-01-12 | 浙江工业大学 | 一种基于对抗投影学习哈希的跨模态检索方法及装置 |
CN112051980B (zh) * | 2020-10-13 | 2022-06-21 | 浙江大学 | 一种基于牛顿迭代法的非线性激活函数计算装置 |
CN112051980A (zh) * | 2020-10-13 | 2020-12-08 | 浙江大学 | 一种基于牛顿迭代法的非线性激活函数计算装置 |
CN112507159A (zh) * | 2020-11-20 | 2021-03-16 | 有米科技股份有限公司 | 哈希网络训练方法、广告图像素材检索方法及相关装置 |
CN112507159B (zh) * | 2020-11-20 | 2024-02-06 | 有米科技股份有限公司 | 哈希网络训练方法、广告图像素材检索方法及相关装置 |
CN112802445A (zh) * | 2021-02-02 | 2021-05-14 | 西北工业大学 | 一种基于语义保留的跨视听信息转化方法 |
CN112802445B (zh) * | 2021-02-02 | 2023-06-30 | 西北工业大学 | 一种基于语义保留的跨视听信息转化方法 |
CN113010700A (zh) * | 2021-03-01 | 2021-06-22 | 电子科技大学 | 一种基于类别信息对齐的图像文本跨模态检索方法 |
CN113010700B (zh) * | 2021-03-01 | 2022-03-25 | 电子科技大学 | 一种基于类别信息对齐的图像文本跨模态检索方法 |
CN113191445A (zh) * | 2021-05-16 | 2021-07-30 | 中国海洋大学 | 基于自监督对抗哈希算法的大规模图像检索方法 |
CN113343014A (zh) * | 2021-05-25 | 2021-09-03 | 武汉理工大学 | 基于深度异构相关学习的跨模态图像音频检索方法 |
CN114186084A (zh) * | 2021-12-14 | 2022-03-15 | 山东大学 | 在线多模态哈希检索方法、系统、存储介质及设备 |
CN114186084B (zh) * | 2021-12-14 | 2022-08-26 | 山东大学 | 在线多模态哈希检索方法、系统、存储介质及设备 |
CN116070277A (zh) * | 2023-03-07 | 2023-05-05 | 浙江大学 | 一种基于深度哈希的纵向联邦学习隐私保护方法和系统 |
CN116070277B (zh) * | 2023-03-07 | 2023-08-29 | 浙江大学 | 一种基于深度哈希的纵向联邦学习隐私保护方法和系统 |
CN116383422A (zh) * | 2023-04-07 | 2023-07-04 | 四川大学 | 一种基于锚点的无监督跨模态哈希检索方法 |
CN116383422B (zh) * | 2023-04-07 | 2023-11-03 | 四川大学 | 一种基于锚点的无监督跨模态哈希检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597298A (zh) | 一种基于深度对抗离散哈希学习的跨模态检索方法及装置 | |
Zhang et al. | Improved deep hashing with soft pairwise similarity for multi-label image retrieval | |
Cao et al. | Landmark recognition with compact BoW histogram and ensemble ELM | |
CN111353076B (zh) | 训练跨模态检索模型的方法、跨模态检索的方法和相关装置 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Zheng et al. | A deep and autoregressive approach for topic modeling of multimodal data | |
Lin et al. | Spec hashing: Similarity preserving algorithm for entropy-based coding | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN112214570A (zh) | 一种基于对抗投影学习哈希的跨模态检索方法及装置 | |
Jiang et al. | Variational deep embedding: A generative approach to clustering | |
Meiseles et al. | Source model selection for deep learning in the time series domain | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
Estevez-Velarde et al. | AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text | |
Bari et al. | AestheticNet: deep convolutional neural network for person identification from visual aesthetic | |
CN112036511A (zh) | 基于注意力机制图卷积神经网络的图像检索方法 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
Mansour et al. | Text vectorization method based on concept mining using clustering techniques | |
Lauren et al. | A low-dimensional vector representation for words using an extreme learning machine | |
Lu et al. | Image retrieval based on incremental subspace learning | |
CN116452241B (zh) | 一种基于多模态融合神经网络的用户流失概率计算方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
using Relevance | A Meta-heuristic optimization approach for content based image retrieval using relevance feedback method | |
US20230376828A1 (en) | Systems and methods for product retrieval | |
Junliang | CNN or RNN: Review and Experimental Comparison on Image Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200828 |