CN112364195B - 一种基于属性引导对抗哈希网络的零样本图像检索方法 - Google Patents
一种基于属性引导对抗哈希网络的零样本图像检索方法 Download PDFInfo
- Publication number
- CN112364195B CN112364195B CN202011140166.5A CN202011140166A CN112364195B CN 112364195 B CN112364195 B CN 112364195B CN 202011140166 A CN202011140166 A CN 202011140166A CN 112364195 B CN112364195 B CN 112364195B
- Authority
- CN
- China
- Prior art keywords
- image
- net
- text
- representing
- img
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于图像处理的技术领域,具体涉及一种基于属性引导对抗哈希网络的零样本图像检索方法,包括将图像的高维特征向量输入到一个三层全连接神经网络V2A‑Net,将文本的高维特征向量输入到一个三层全连接神经网络T2A‑Net,把V2A‑Net输出的图像特征和T2A‑Net输出的文本特征输入到判别器D,把V2A‑Net输出的图像特征fV2A和T2A‑Net输出的文本特征fT2A输入到一个三层全连接哈希码生成网络A2H‑Net,从而产生图像对应的哈希码和文本对应的哈希码。本发明的检索方法能够显著提高零样本条件下以标签检索图像的准确率,并极大地提高了检索效率,从而实现了图像的快速检索。
Description
技术领域
本发明属于图像处理的技术领域,具体涉及一种基于属性引导对抗哈希网络的零样本图像检索方法。
背景技术
图像识别和处理是人工智能领域研究的基本课题之一,对AI方面的学术发展和工业生产都有重要意义,其基本思想是利用算法让计算机能够像人类一样“看到”图像,并能够识别其类别,从而赋予计算机视觉识别的能力。
随着大数据时代的到来和深度学习卷积神经网络的飞速发展,对于特定的任务,只要能够获得每一个类别足够多的图像,将其输入到深度神经网络学习得到网络的最优参数矩阵,就能够在测试数据集上轻松地达到很高的识别准确率。
然而,在现实生活中,海量数据往往不是轻易就能够获得的,并且,人工标注的成本也相当高,因此,为了解决上述问题,对零样本学习技术的研究具有非常实际的应用意义。零样本学习与传统模式识别技术不同之处在于训练样本和测试样本的类别互不相交,也就是说,测试阶段的数据属于未见类,但是参与训练的已知类别与测试阶段的未见类别之间能够共享一定维度的属性语义信息,所以,如何利用这些属性语义信息把在已知类别的数据下学习到的模型有效地迁移到未见类别,是零样本学习研究的重点,这也是本发明着力解决的问题之一。并且,现有的图像检索方法的准确率低,检索效率低,不能满足高效检索的需求。
为此,亟需提出一种新型的图像检索方法以解决上述问题。
发明内容
本发明的目的在于:针对现有技术的不足,提供一种基于属性引导对抗哈希网络的零样本图像检索方法,能够显著提高零样本条件下以标签检索图像的准确率,并极大地提高了检索效率,从而实现了图像的快速检索。
为了实现上述目的,本发明采用如下技术方案:
一种基于属性引导对抗哈希网络的零样本图像检索方法,包括以下步骤:
S1、向ResNet-101模型输入图像,向Word2Vec模型输入所述图像的类别标签的文本,提取所述图像的高维特征向量fimg和所述文本的高维特征向量ftxt;
S2、将所述fimg输入到一个三层全连接神经网络V2A-Net,将所述ftxt输入到一个三层全连接神经网络T2A-Net,以二值化属性向量作为监督训练所述V2A-Net和所述T2A-Net的网络参数;
S3、把所述V2A-Net输出的图像特征fV2A和所述T2A-Net输出的文本特征fT2A共同输入到一个由两层神经网络构成的判别器D,以输入的图像特征的标签为1,以输入的文本特征的标签为0,对抗训练并调节所述V2A-Net和所述T2A-Net的网络参数;
S4、经过所述S3的对抗训练后,把所述V2A-Net输出的图像特征fV2A和所述T2A-Net输出的文本特征fT2A输入到一个三层全连接哈希码生成网络A2H-Net从而产生所述图像对应的哈希码和所述文本对应的哈希码。
进一步地,所述S2中的监督训练所述V2A-Net还包括计算所述V2A-Net的损失函数LV2A,其计算过程包括
P=softmax(WV2Afimg),LV2A=-log(P(a));其中,WV2A表示图像通道的参数,softmax为分类函数,P表示输出是各个属性的概率,P(a)表示所述V2A-Net正确预测图像属性的概率。
进一步地,所述S2中的监督训练所述T2A-Net还包括计算所述T2A-Net的损失函数LT2A,其计算过程包括
P=softmax(WT2Aftxt),LT2A=-log(P(b));其中,WT2A表示文本通道的参数,softmax为分类函数,P表示输出是各个属性的概率,P(b)表示所述T2A-Net正确预测文本属性的概率。
进一步地,所述S3还包括计算所述判别器D的交叉熵损失函数LadvD,其计算过程包括
LadvD=-Efimg~fimg[logD(V2A(fimg))]-Eftxt~ftxt[log(1-D(T2A(ftxt)))];其中,V2A(fimg)表示所述V2A-Net输出的图像特征,T2A(ftxt)表示所述T2A-Net输出的文本特征,D(V2A(fimg))表示所述判别器D输出的图像模态的概率,D(T2A(ftxt))表示所述判别器D输出的文本模态的概率,
Efimg~fimg[logD(V2A(fimg))]表示训练图像样本的期望,
Eftxt~ftxt[log(1-D(T2A(ftxt)))]表示训练文本样本的期望。
进一步地,所述S3还包括计算图像通道和文本通道的交叉熵损失函数LadvM,其计算过程包括
LadvM=-Efimg~fimg[log(1-D(V2A(fimg)))]-Eftxt~ftxt[logD(T2A(ftxt))];
其中,Efimg~fimg[log(1-D(V2A(fimg)))]表示训练图像样本的期望,Eftxt~ftxt[logD(T2A(ftxt))]表示训练文本样本的期望,LdvD和LadvM分别是用来更新判别器参数和图像文本通道生成器参数的对抗cross-entropy交叉熵损失函数。
进一步地,所述S4还包括计算图像哈希码和文本哈希码之间的距离约束LH,其中,Si,j表示所述图像和所述文本之间的相似度矩阵,当所述图像和所述文本的标签相同时所述Si,j为1,当所述图像和所述文本的标签不相同时所述Si,j为0,并且,用Pimg=A2H(fV2A,WA2H)表示所述图像的哈希码,Qtxt=A2H(fT2A,WA2H)表示所述文本的哈希码,其中,WA2H表示所述A2H-Net的网络参数,所述θi,j表示图像哈希码和文本哈希码之间的汉明距离,θi,j=Pimg*Qtxt。
进一步地,所述S1中的输入图像之前还包括将所述ResNet-101模型在ImageNet上进行预训练。
进一步地,所述S1中的输入所述ResNet-101模型的所述图像均被裁剪成统一尺寸。
本发明的有益效果在于:1)本发明通过设计两路对抗网络,并在训练时引入跨域共享属性信息来引导图像数据和标签文本产生更具判别性的哈希码,从而获得了一种更高效的零样本图像检索方法;2)本发明以属性作为监督并引入不同模态间的对抗,使不同模态的特征具有模态内判别性以及模态间的相似性,通过监督与对抗学习的结合以及搭配哈希码网络,设计了一种新的零样本检索算法,能够显著提高零样本条件下以标签检索图像的准确率,并极大地提高了检索效率,从而实现了图像的快速检索;3)同时,在零样本学习适用在数据标签不足时,新类别数据特征与已有数据相似的情况下,跨模态检索能够实现用一个模态的数据(比如图像)检索另一模态的样本(比如文本),使得本检索方法在搜索引擎方面具有很好的实用性。
附图说明
图1为本发明的流程图。
图2为本发明中的视觉模态和文本模态的对抗训练的示意图。
图3为本发明的生成哈希码的网络结构的示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件,本领域技术人员应可理解,制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图1~3和具体实施例对本发明作进一步详细说明,但不作为对本发明的限定。
一种基于属性引导对抗哈希网络的零样本图像检索方法,先通过属性监督图像和文本的特征学习为两路特征提取网络的参数赋予初始化,并在图像和文本间引入一个判别器,对抗训练来微调两个网络的参数,使相同类别的图像和文本的特征在高维空间更接近,然后把学习到的图像文本两路特征输入到一个哈希码产生网络,再经过汉明距离的约束损失函数来训练此网络的参数,最后得到文本和图像的哈希码,从而实现快速检索,包括以下步骤:
S1、将训练集图像裁剪成统一尺寸输入到预训练好的ResNet-101,从而实现向ResNet-101模型输入图像,将类别标签文本输入到预训练好的Word2Vec模型,从而向Word2Vec模型输入图像的类别标签的文本,并提取图像的高维特征向量fimg和文本的高维特征向量ftxt。
S2、如图2所示,将fimg输入到一个三层全连接神经网络V2A-Net,将ftxt输入到一个三层全连接神经网络T2A-Net,以二值化属性向量作为监督训练V2A-Net和T2A-Net的网络参数,同时,计算V2A-Net的损失函数LV2A,其计算过程包括
P=softmax(WV2Afimg),LV2A=-log(P(a));其中,WV2A表示图像通道的参数,softmax为分类函数,P表示输出是各个属性的概率,P(a)表示V2A-Net正确预测图像属性的概率;
计算T2A-Net的损失函数LT2A,其计算过程包括
P=softmax(WT2Aftxt),LT2A=-log(P(b));其中,WT2A表示文本通道的参数,softmax为分类函数,P表示输出是各个属性的概率,P(b)表示T2A-Net正确预测文本属性的概率。
S3、把V2A-Net和T2A-Net看作两个生成器,引入一个两层全连接神经网络作为判别器D,把V2A-Net输出的图像特征fV2A和T2A-Net输出的文本特征fT2A共同输入到一个由两层神经网络构成的判别器D,以输入的图像特征的标签为1,以输入的文本特征的标签为0,cross-entropy交叉熵作为判别器D的损失函数,用梯度下降的方法更新V2A-Net和T2A-Net的参数最小化判别器D的损失函数,更新判别器D的参数最大化损失函数,以此对抗微调两个生成器模型参数,从而对抗训练并调节V2A-Net和T2A-Net的网络参数;
并且,计算判别器D的交叉熵损失函数LadvD,其计算过程包括
LadvD=-Efimg~fimg[logD(V2A(fimg))]-Eftxt~ftxt[log(1-D(T2A(ftxt)))];
其中,V2A(fimg)表示V2A-Net输出的图像特征,T2A(ftxt)表示T2A-Net输出的文本特征,D(V2A(fimg))表示判别器D输出的图像模态的概率,D(T2A(ftxt))表示判别器D输出的文本模态的概率,
Efimg~fimg[logD(V2A(fimg))]表示训练图像样本的期望,
Eftxt~ftxt[log(1-D(T2A(ftxt)))]表示训练文本样本的期望。
计算图像通道和文本通道的交叉熵损失函数LadvM,其计算过程包括
LadvM=-Efimg~fimg[log(1-D(V2A(fimg)))]-Eftxt~ftxt[logD(T2A(ftxt))];
其中,Efimg~fimg[log(1-D(V2A(fimg)))]表示训练图像样本的期望,Eftxt~ftxt[logD(T2A(ftxt))]表示训练文本样本的期望,LdvD和LadvM分别是用来更新判别器参数和图像文本通道生成器参数的对抗cross-entropy交叉熵损失函数。
S4、经过属性的监督学习与不同模态间的对抗学习后,图像和文本被映射到一个相同维度的高维特征空间,接下来,把这些高维特征输入到设计的一个三层全连接哈希码生成网络并产生图像和文本对应的哈希码,从而提高了零样本检索的有效性和高效性,如图3所示,把V2A-Net输出的图像特征fV2A和T2A-Net输出的文本特征fT2A输入到一个三层全连接哈希码生成网络A2H-Net从而产生图像对应的哈希码和文本对应的哈希码,同时,计算图像哈希码和文本哈希码之间的距离约束LH,其中,Si,j表示图像和文本之间的相似度矩阵,当图像和文本的标签相同时Si,j为1,当图像和文本的标签不相同时Si,j为0,并且,用Pimg=A2H(fV2A,WA2H)表示图像的哈希码,Qtxt=A2H(fT2A,WA2H)表示文本的哈希码,其中,WA2H表示A2H-Net的网络参数,θi,j表示图像哈希码和文本哈希码之间的汉明距离,θi,j=Pimg*Qtxt,此外,还可以用梯度下降的方法最小化LH从而可以使相同类别的图像文本的码间距离更小,不同类别的图像文本的码间距离更大。
显然,本发明设计了两步训练生成零样本图像和类别标签哈希码的网络模型,并且,通过在AWA、CUB、SUN数据集上的实验结果,发现了本算法能够显著提高零样本条件下以标签检索图像的准确率,并极大地提高了测试效率,其哈希编码学习兼具高效性和有效性,在跨模态检索领域,能够使不同模态的数据(文本、图像等)经过嵌入网络被映射到相同维度的哈希空间,再通过计算汉明距离从而实现跨模态的检索,并且,本发明的对抗学习的思想也可以应用到深度模型的各个领域,在对抗学习中,对抗网络可包含一个或多个生成器G和一个或多个判别器D,并使损失函数为判别器D的cross-entropy loss,G和D的参数分开训练,通过梯度下降使G的参数最大化loss,D的参数最小化loss,从而通过对抗训练的方法并设计哈希码产生网络来生成图像和文本的哈希码。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
Claims (4)
1.一种基于属性引导对抗哈希网络的零样本图像检索方法,其特征在于,包括以下步骤:
S1、向ResNet-101模型输入图像,向Word2Vec模型输入所述图像的类别标签的文本,提取所述图像的高维特征向量fimg和所述文本的高维特征向量ftxt;
S2、将所述fimg输入到一个三层全连接神经网络V2A-Net,将所述ftxt输入到一个三层全连接神经网络T2A-Net,以二值化属性向量作为监督训练所述V2A-Net和所述T2A-Net的网络参数,监督训练所述V2A-Net包括计算所述V2A-Net的损失函数LV2A,监督训练所述T2A-Net包括计算所述T2A-Net的损失函数LT2A,所述LV2A的计算过程包括:P=softmax(WV2Afimg),LV2A=-log(P(a)),所述LT2A的计算过程包括:P=softmax(WT2Aftxt),LT2A=-log(P(b)),其中,WV2A表示图像通道的参数,WT2A表示文本通道的参数,softmax为分类函数,P表示输出是各个属性的概率,P(a)表示所述V2A-Net正确预测图像属性的概率,P(b)表示所述T2A-Net正确预测文本属性的概率;
S3、把所述V2A-Net输出的图像特征fV2A和所述T2A-Net输出的文本特征fT2A共同输入到一个由两层神经网络构成的判别器D,以输入的图像特征的标签为1,以输入的文本特征的标签为0,对抗训练并调节所述V2A-Net和所述T2A-Net的网络参数,并且,计算所述判别器D的交叉熵损失函数LadvD,所述LadvD的计算过程包括:
LadvD=-Efimg~fimg[logD(V2A(fimg))]-Eftxt~ftxt[log(1-D(T2A(ftxt)))],其中,V2A(fimg)表示所述V2A-Net输出的图像特征,T2A(ftxt)表示所述T2A-Net输出的文本特征,D(V2A(fimg))表示所述判别器D输出的图像模态的概率,D(T2A(ftxt))表示所述判别器D输出的文本模态的概率,Efimg~fimg[logD(V2A(fimg))]表示训练图像样本的期望,Eftxt~ftxt[log(1-D(T2A(ftxt)))]表示训练文本样本的期望,
并且,计算图像通道和文本通道的交叉熵损失函数LadvM,所述LadvM的计算过程包括:
LadvM=-Efimg~fimg[log(1-D(V2A(fimg)))]-Eftxt~ftxt[logD(T2A(ftxt))],其中,Efimg~fimg[log(1-D(V2A(fimg)))]表示训练图像样本的期望,Eftxt~ftxt[logD(T2A(ftxt))]表示训练文本样本的期望;
S4、经过所述S3的对抗训练后,把所述V2A-Net输出的图像特征fV2A和所述T2A-Net输出的文本特征fT2A输入到一个三层全连接哈希码生成网络A2H-Net从而产生所述图像对应的哈希码和所述文本对应的哈希码。
3.如权利要求1所述的基于属性引导对抗哈希网络的零样本图像检索方法,其特征在于:所述S1中的输入图像之前还包括将所述ResNet-101模型在ImageNet上进行预训练。
4.如权利要求1所述的基于属性引导对抗哈希网络的零样本图像检索方法,其特征在于:所述S1中的输入所述ResNet-101模型的所述图像均被裁剪成统一尺寸。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011140166.5A CN112364195B (zh) | 2020-10-22 | 2020-10-22 | 一种基于属性引导对抗哈希网络的零样本图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011140166.5A CN112364195B (zh) | 2020-10-22 | 2020-10-22 | 一种基于属性引导对抗哈希网络的零样本图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364195A CN112364195A (zh) | 2021-02-12 |
CN112364195B true CN112364195B (zh) | 2022-09-30 |
Family
ID=74511666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011140166.5A Active CN112364195B (zh) | 2020-10-22 | 2020-10-22 | 一种基于属性引导对抗哈希网络的零样本图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364195B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656582B (zh) * | 2021-08-17 | 2022-11-18 | 北京百度网讯科技有限公司 | 神经网络模型的训练方法、图像检索方法、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766555A (zh) * | 2017-11-02 | 2018-03-06 | 电子科技大学 | 基于软约束无监督型跨模态哈希的图像检索方法 |
CN110490946A (zh) * | 2019-07-15 | 2019-11-22 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN110929080A (zh) * | 2019-11-26 | 2020-03-27 | 西安电子科技大学 | 基于注意力和生成对抗网络的光学遥感图像检索方法 |
CN111680176A (zh) * | 2020-04-20 | 2020-09-18 | 武汉大学 | 基于注意力与双向特征融合的遥感图像检索方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8903186B2 (en) * | 2013-02-28 | 2014-12-02 | Facebook, Inc. | Methods and systems for differentiating synthetic and non-synthetic images |
CN110795590B (zh) * | 2019-09-30 | 2023-04-18 | 武汉大学 | 基于直推式零样本哈希的多标签图像检索方法及设备 |
CN111291212B (zh) * | 2020-01-24 | 2022-10-11 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和系统 |
CN111460201B (zh) * | 2020-03-04 | 2022-09-23 | 南京邮电大学 | 一种基于生成性对抗网络的模态一致性跨模态检索方法 |
-
2020
- 2020-10-22 CN CN202011140166.5A patent/CN112364195B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766555A (zh) * | 2017-11-02 | 2018-03-06 | 电子科技大学 | 基于软约束无监督型跨模态哈希的图像检索方法 |
CN110490946A (zh) * | 2019-07-15 | 2019-11-22 | 同济大学 | 基于跨模态相似度和生成对抗网络的文本生成图像方法 |
CN110929080A (zh) * | 2019-11-26 | 2020-03-27 | 西安电子科技大学 | 基于注意力和生成对抗网络的光学遥感图像检索方法 |
CN111680176A (zh) * | 2020-04-20 | 2020-09-18 | 武汉大学 | 基于注意力与双向特征融合的遥感图像检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112364195A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299342B (zh) | 一种基于循环生成式对抗网络的跨模态检索方法 | |
Zhang et al. | Multi-scale attention with dense encoder for handwritten mathematical expression recognition | |
Zhang et al. | Action recognition using 3D histograms of texture and a multi-class boosting classifier | |
CN111581405B (zh) | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 | |
Yang et al. | Multilayer extreme learning machine with subnetwork nodes for representation learning | |
CN109063565B (zh) | 一种低分辨率人脸识别方法及装置 | |
Shao et al. | Deep distillation hashing for unconstrained palmprint recognition | |
Saiti et al. | Thyroid disease diagnosis based on genetic algorithms using PNN and SVM | |
CN112434628B (zh) | 基于主动学习和协同表示的小样本图像分类方法 | |
Ren et al. | Scene graph generation with hierarchical context | |
CN113177132A (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN109960732B (zh) | 一种基于鲁棒监督的深度离散哈希跨模态检索方法及系统 | |
CN112364195B (zh) | 一种基于属性引导对抗哈希网络的零样本图像检索方法 | |
Zhang et al. | Representation learning of knowledge graphs with entity attributes | |
Liu et al. | An iterative co-training transductive framework for zero shot learning | |
Liu et al. | Deeply coupled convolution–transformer with spatial–temporal complementary learning for video-based person re-identification | |
Wang et al. | Sin: Semantic inference network for few-shot streaming label learning | |
CN112712099B (zh) | 一种基于双层知识蒸馏说话人模型压缩系统和方法 | |
Hamidi-Haines et al. | Interactive naming for explaining deep neural networks: a formative study | |
Yang et al. | Auroral image classification with very limited labeled data using few-shot learning | |
Rajpal et al. | Deep learning model for recognition of handwritten Devanagari numerals with low computational complexity and space requirements | |
Wang et al. | Deep metric learning on the SPD manifold for image set classification | |
US20230186600A1 (en) | Method of clustering using encoder-decoder model based on attention mechanism and storage medium for image recognition | |
Gou et al. | Channel correlation-based selective knowledge distillation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |