CN113657450B - 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 - Google Patents
基于注意机制的陆战场图像-文本跨模态检索方法及其系统 Download PDFInfo
- Publication number
- CN113657450B CN113657450B CN202110809148.XA CN202110809148A CN113657450B CN 113657450 B CN113657450 B CN 113657450B CN 202110809148 A CN202110809148 A CN 202110809148A CN 113657450 B CN113657450 B CN 113657450B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- label
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意机制的陆战场图像‑文本跨模态哈希检索方法,具体步骤如下:(1)特征提取,将注意力模块嵌入残差结构,更好地抑制复杂背景干扰,提取图像的特征表示;利用多尺度结构提取文本的特征表示;(2)自监督对抗学习模型,通过深度神经网络将标签信息映射为目标的公共语义特征与哈希编码;以此为监督信息分别和图像特征、文本特征度量差异,并构建两个判别器获得图像、文本的对抗损失;融合自监督损失与对抗损失,实现模型的学习、构建。还公开了一种基于注意机制的陆战场图像‑文本跨模态哈希检索系统。本发明克服了陆战场环境下背景复杂、目标伪装、遮挡等复杂条件,有效实现了图像‑文本数据跨模态哈希检索。
Description
技术领域
本发明涉及跨模态检索技术领域,特别是涉及一种基于注意机制的陆战场图像-文本跨模态检索方法及其系统。
背景技术
跨模态哈希检索技术将不同模态的数据映射到同一命名空间,通过二值哈希码表示目标,实现目标检索,具有运行速度快、占用资源少的优点。图像和文本是战场上最常见的两种目标信息形式,本发明涉及的图像-文本跨模态哈希检索能为战场态势分析、任务规划等提供多维度的信息支持,有重要的应用价值。
传统基于手工特征(Discrete graph hashing,2014)或浅层学习(Cross-modality binary code learning via fusion similarity hashing,2017)的方法难以提取有效的目标特征表示,因此检索的效果并不理想。近年来,深度神经网络由于其层次化的表示结构和强大的学习能力,在计算机视觉的许多领域取得成功,其也被应用到跨模态哈希检索任务中。 Jiang等人(DCMH,Deep Cross-Modal Hashing,2017)利用深度卷积网络VGG-F提取图像特征,利用包含3个全连接层的深度神经网络提取文本特征。将图像和文本数据共同的哈希编码作为监督信息,融合两种模态特征的相似性、两种模态网络生成的哈希编码分别与监督信息的差异组成模型的优化目标,并通过两种模态网络交替优化的方式完成跨模态检索模型的学习、构建。Li等人(Self-Supervised Adversarial HashingNetworks for Cross-Modal Retrieval,2018)在以上模型基础上加入自监督和对抗学习结构,增强模态间特征的语义相关性和一致性,从而提升检索效果。Xie等人(Multi-TaskConsistency-Preserving Adversarial Hashing for Cross-Modal Retrieval,2020)将多任务学习思想应用到跨模态哈希检索中,设计一致性提炼模块嵌入每种模态的特征提取网络中,结合对抗学习改进模态间特征表示的一致性,进而改进检索效果。以上检索方法主要应用在通用场景的图像-文本数据中,然而在战场环境下,图像的背景复杂,目标常常被覆盖伪装纹理、烟雾遮挡,检索任务对于图像数据尤其需要更鲁棒的特征表示。
因此亟需提供一种新型的陆战场图像-文本跨模态检索方法来解决上述问题。
发明内容
本发明所要解决的技术问题是提供一种基于注意机制的陆战场图像-文本跨模态检索方法及其系统,能够将注意机制融入深度残差网络获取更鲁棒的图像表示,结合自监督对抗学习结构完成战场环境下的跨模态检索任务。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于注意机制的陆战场图像-文本跨模态检索方法,包括以下步骤:
S1:图像特征提取:将注意力模块嵌入残差结构,提取图像的特征表示;再将图像特征向量分别输入两组全连接层-激活层结构,获得图像的预测标签和预测哈希编码;
S2:文本特征提取:搭建一个深度神经网络,利用多尺度结构提取文本的特征表示,再将文本特征向量分别输入两组全连接层-激活层结构,获得文本的预测标签和预测哈希编码;
S3:自监督标签特征生成:通过两个全连接层将图像和文本的标记数据转化为特征向量作为图像和文本特征的监督信息;将生成的特征向量分别输入两组全连接层-激活层结构,获得自监督标签和自监督哈希编码;
S4:对抗学习网络判别:构造两个具有相同结构的深度神经网络分别作为文本/标签特征判别器、图像/标签特征判别器,将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习,保证模态间特征的一致性;
S5:模型训练:对图像特征提取网络、文本特征提取网络、自监督标签特征生成网络、对抗学习判别网络的模型进行训练学习。
在本发明一个较佳实施例中,步骤S1的具体步骤包括:
S101:将空间注意模块与通道注意模块串联后嵌入深度残差网络的每个残差块结构之间,搭建一个新的深度残差网络;
S102:将所述深度残差网络输出的特征向量经过一个全连接层和非线性激活层转换为图像特征向量;
S103:最后将图像特征向量分别输入两组全连接层-激活层结构,获得图像的预测标签和预测哈希编码。
在本发明一个较佳实施例中,所述深度残差网络的结构依次包括:
卷积层、BN归一化层、Relu激活层、最大池化层、第一特征提取单元{(残差块 1(RESBLOCK1)+注意力模块(CBAM))×3}、第二特征提取单元{(残差块 (RESBLOCK2)+注意力模块(CBAM))×4}、第三特征提取单元{(残差块 3(RESBLOCK3)+注意力模块(CBAM))×6}、第四特征提取单元{(残差块 4(RESBLOCK4)+注意力模块(CBAM))×3}、全连接层、Relu激活层。
在本发明一个较佳实施例中,所述自监督标签特征生成网络的结构依次包括:
全连接层、Relu激活层、BN归一化层、全连接层、Relu激活层。
在本发明一个较佳实施例中,所述图像/标签判别网络和文本/标签判别网络的结构相同,依次包括:
全连接层、Relu激活层、全连接层、Relu激活层、全连接层。
进一步的,所述图像/标签判别网络的输入为图像特征向量或自监督标签特征,输出为图像/标签判别。
进一步的,所述文本/标签判别网络的输入为文本特征向量或自监督标签特征,输出为文本/标签判别。
在本发明一个较佳实施例中,模型学习的损失函数包含四个部分:一是图像/文本特征与自监督特征的损失;二是图像/文本预测标签与自监督标签的损失;三是图像/文本预测哈希编码与自监督哈希编码的损失;四是图像/标签、文本/标签两个对抗学习网络的判别损失。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种基于注意机制的陆战场图像-文本跨模态检索系统,包括:
图像特征提取模块,用于搭建一个深度残差网络提取图像的特征表示,获得图像的预测标签和预测哈希编码;
文本特征提取模块,用于搭建一个深度神经网络,利用多尺度结构提取文本的特征表示,再将文本特征向量分别输入两组全连接层-激活层结构,获得文本的预测标签和预测哈希编码;
自监督标签特征生成模块,通过两个全连接层将图像和文本的标记数据转化为特征向量作为图像和文本特征的监督信息;将生成的特征向量分别输入两组全连接层-激活层结构,获得自监督标签和自监督哈希编码;
对抗学习网络判别模块,用于构造两个具有相同结构的深度神经网络分别作为文本 /标签特征判别器、图像/标签特征判别器,将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习,保证模态间特征的一致性;
模型训练模块,用于训练所述图像特征提取模块、文本特征提取模块、自监督标签特征生成模块、对抗学习网络判别模块的模型。
在本发明一个较佳实施例中,所述深度残差网络的结构为将通道注意模块与空间注意模块串联后嵌入深度残差网络的每个残差块结构之间。
本发明的有益效果是:本发明将注意机制引入网络的通道和空间两个维度,提高陆战场条件下图像的特征表达能力,通过将注意机制融入深度残差网络获取更鲁棒的图像表示,结合自监督对抗学习结构完成战场环境下的跨模态检索任务,克服了陆战场环境下背景复杂、目标伪装、遮挡等复杂条件,有效实现了图像-文本数据跨模态哈希检索。
附图说明
图1是本发明基于注意机制的陆战场图像-文本跨模态检索方法的流程图;
图2是所述CBAM注意力模块与残差单元的连接示意图;
图3是所述残差块与通道注意力、空间注意力模块的连接示意图;
图4是所述通道注意力模块的结构示意图;
图5是所述空间注意力模块的结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种基于注意机制的陆战场图像-文本跨模态检索方法,包括以下步骤:
步骤1:图像特征提取。将空间注意模块与通道注意模块串联后嵌入深度残差网络的每个残差块结构之间,以此将注意机制引入网络的通道和空间两个维度,提高陆战场条件下图像的特征表达能力;将网络输出的2048维特征向量经过一个全连接层和非线性激活层转换为512维的图像特征向量;最后将特征向量分别输入两组全连接层-激活层结构,获得图像的预测标签和预测哈希编码。
具体的,搭建一个深度残差网络,其结构如图1(A)所示,具体为:输入图像→卷积层(Conv1)→BN归一化层(Batch Norm,BN)→Relu(REctified Linear Unit, RELU)激活层→最大池化层(Maxpool)→第一特征提取单元{(残差块1(RESBLOCK1)+ 注意力模块(CBAM))×3}→第二特征提取单元{(残差块2(RESBLOCK2)+注意力模块 (CBAM))×4}→第三特征提取单元{(残差块3(RESBLOCK3)+注意力模块(CBAM))×6} →第四特征提取单元{(残差块4(RESBLOCK4)+注意力模块(CBAM))×3}→全连接层 (FC)→Relu激活层→输出图像特征。此后网络分成两个分支:①输出图像特征→全连接层→Tanh激活层→预测图像哈希编码(hash)。②输出图像特征→全连接层→ Sigmoid激活层→预测图像标签(label)。
网络结构中一个残差块和一个CBAM注意模块组成一个特征提取单元,以第二个特征提取单元为例详细说明其内部结构。如图2所示,特征提取单元2由四个重复的残差块+注意力模块组成。以图2中第1个子特征提取模块(残差块+注意力模块)为例,具体连接关系如下:残差块包含两个分支。分支1:输入特征→卷积层(卷积核 1×1×512×128,stride=1,pad=0)→BN归一化层→Relu激活层→卷积层(卷积核 3×3×512×128,stride=2,pad=1)→BN归一化层→Relu激活层→卷积层(卷积核 1×1×128×512,stride=1,pad=0)→BN归一化层→CBAM→输出特征1;分支2:输入特征→卷积层(卷积核1×1×512×512,stride=2,pad=0)→BN归一化层→输出特征2。残差块输出为:输出特征1+输出特征2→Relu激活层→输出特征。
本发明的注意力模块由通道注意力模块与空间注意力模块串联组成,具体结构如图 3所示:输入特征→通道注意力模块→空间注意力模块→输出特征。
通道注意力模块的具体结构如图4所示,其主要包含两个分支结构。分支1:输入特征→最大池化层→卷积层(卷积核1×1×512×32,stride=1,pad=0)→Relu激活层→卷积层(卷积核1×1×32×512,stride=1,pad=0)→输出特征1;分支2:输入特征→均值池化层→卷积层(卷积核1×1×512×32,stride=1,pad=0)→Relu激活层)→卷积层(卷积核1×1×32×512,stride=1,pad=0)→输出特征2。之后有:输出特征1+输出特征 2→Sigmoid激活层→通道注意力权重。最终,输入特征×通道注意力权重=通道注意力特征。
空间注意力模块的具体结构如图5所示,其主要包含两个分支结构。分支1:输入特征→最大值池化层(通道维度Maxpooling)→输出特征1;分支2:输入特征→均值池化层(通道维度Avgpooling)→输出特征2。之后有:输出特征1与输出特征2并联→卷积层(卷积核7×7×512×1,stride=1,pad=3)→Sigmoid激活层→空间注意力权重。最终,输入特征×空间注意力权重=空间注意力特征。
步骤2:文本特征提取。使用BoW(Bag of words)算法将文本数据转化为初始文本特征向量,再通过5个尺寸参数的池化层获得文本数据的多尺度表示;再将多尺度的文本特征经过一个级联层和两个全连接层和非线性激活层转换为512维的文本特征向量;最后将特征向量分别输入两组全连接层-激活层结构,获得文本的预测标签和预测哈希编码。
具体的,搭建一个深度神经网络,其结构如图1(C)所示,具体为:输入文本编码(初始文本特征向量,1×1386)→文本多尺度表示结构→全连接层(1×1386×6×4096) →Relu激活层→BN归一化层→全连接层(1×1386×4096×512)→输出文本特征。此后网络分成两个分支:①输出文本特征→全连接层(1×1×512×16)→Tanh激活层→预测文本哈希编码。②输出文本图像特征→全连接层(1×1×512×N)→Sigmoid激活层→预测文本标签。
文本多尺度表示结构的具体如下,尺度1:输入文本编码(1×1386)→最大值池化(1×50)→卷积层(1×1×1×1)→Relu激活层→缩放层(Resize,缩放尺寸1×1386)→尺度特征1。尺度2:输入文本编码(1×1386)→最大值池化(1×30)→卷积层(1×1×1×1) →Relu激活层→缩放层(缩放尺寸1×1386)→尺度特征2。尺度3:输入文本编码 (1×1386)→最大值池化(1×15)→卷积层(1×1×1×1)→Relu激活层→缩放层(缩放尺寸1×1386)→尺度特征3,尺度4:输入文本编码(1×1386)→最大值池化(1×10) →卷积层(1×1×1×1)→Relu激活层→缩放层(缩放尺寸1×1386)→尺度特征4。原始文本编码(1×1386)、文本尺度特征1(1×1386)、文本尺度特征2(1×1386)、文本尺度特征3(1×1386)、文本尺度特征4(1×1386)→级联层(Concat)→文本多尺度特征(1×1386)。
步骤3:自监督标签特征生成。通过两个全连接层将图像和文本的标记数据转化为512维特征作为图像和文本特征的监督信息。最后将生成的特征向量分别输入两组全连接层-激活层结构,获得自监督标签和自监督哈希编码。
自监督标签特征生成网络如图1(B)所示,具体为:标签数据(N×1,N为数据库中标签类型数目)→全连接层(1×N×1×4096)→Relu激活层→BN归一化层→全连接层(1×1×4096×512)→Relu激活层→自监督标签特征,此后网络分成两个分支:①自监督标签特征→全连接层(1×1×512×16)→Tanh激活层→自监督哈希编码。②自监督标签特征→全连接层(1×1×512×N)→Sigmoid激活层→自监督标签。
步骤4:对抗学习网络判别。构造两个具有相同结构的深度神经网络分别作为文本/标签特征判别器、图像/标签特征判别器。判别器网络由三个全连接层、两个非线性激活层组成,将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习,保证模态间特征的一致性。
对抗学习判别网络包括图像/标签判别网络、文本/标签判别网络。
图像/标签判别网络如图1(D)所示,其结构具体为:输出图像特征或自监督标签特征→全连接层(1×512×1×512)→Relu激活层→全连接层(1×1×512×256)→Relu激活层→全连接层(1×1×256×1)→图像/标签判别输出。
文本/标签判别网络如图1(E)所示,其结构具体为:输出文本特征或自监督标签特征→全连接层(1×512×1×512)→Relu激活层→全连接层(1×1×512×256)→Relu激活层→全连接层(1×1×256×1)→文本/标签判别输出。
步骤5:模型学习。
跨模态检索数据集可表示为其中oi={vi,ti,li}为数据实例,为 dv维图像数据,为dt维文本数据,li=[li1,...,lic]为数据的c维标签。S=[Sij]为数据集的特征相似性矩阵,Sij∈{0,1}为oi和oj的特征相似性,当两个数据的标签至少有1维相同时Sij为1,否则为0。为数据oi在图像维和文本维的联合哈希编码,编码的长度为K,本示例中K=16。
模型中的标签网络(图1(B))用于生成自监督特征、标签、哈希编码,为图像/ 文本模态特征的学习提供监督信息,其损失函数如公式(1)所示,包含4个部分:为自监督标签特征的损失,其中为标签网络生成的样本i的自监督特征;为自监督哈希损失,保证具有相似标签的样本实例有相似的哈希编码,其中为标签网络生成的样本i的自监督哈希编码;为标签网络生成哈希编码的近似损失,Hl为标签网络生成的自监督哈希编码矩阵;为标签网络生成标签的分类损失,Ll为标签网络生成的预测标签矩阵。
模型中的图像/文本网络(图1(A)/(C))用于提取各自模态的特征表示,其损失函数如公式(2)所示。包含4个部分:利用标签网络生成的自监督特征作为监督信息保证模态间特征的一致性,其中为样本i的自监督特征向量,为图像/文本网络提取样本j的图像/文本特征向量;利用标签网络生成的自监督哈希编码作为监督信息保证模态间哈希编码的一致性,其中为标签网络生成的样本i的自监督哈希编码,为图像/文本网络生成的样本i的哈希编码;为图像/文本网络生成哈希编码的近似损失,Hv,t为图像/文本网络生成的自监督哈希编码矩阵;为图像/文本网络生成标签的分类损失,Lv,t为标签网络生成的预测标签矩阵。
图像/标签判别网络(图1(D))和文本/标签判别网络(图1(E))能进一步增强模态间特征表示的一致性,其目标函数如公式(3)所示。为样本i的图像/文本特征与自监督特征,Dv/t,l表示图像/标签判别器或文本/标签判别器;为样本i的判别标签,当输入图像/文本特征时标签为0,当输入自监督特征时标签为1。
模型总的目标函数如公式(4)所示。θv,t,l为图像网络、文本网络、标签网络的参数。B为模型最终输出的哈希编码参数。
将本发明所述方法与近年经典的4种跨模态哈希检索算法在MIRFLICKR-25K数据集(The mir flickr retrieval evaluation,2008)和陆战场图像-文本数据集上进行比较。 4种算法分别为DCMH(Deep Cross-Modal Hashing,2017)、AADH(HashGAN: Attention-aware Deep Adversarial Hashing for Cross Modal Retrieval,2018)SSAH (Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval,2018)、MCPH(Multi-Task Consistency-Preserving Adversarial Hashing for Cross-ModalRetrieval,2020)。评价的指标为平均精度均值MAP。比较结果如表1所示,可看出本发明所述方法在检测性能上优于其它4种算法。
表1本发明与其他4种检索算法对比
本发明实施例还提供一种基于注意机制的陆战场图像-文本跨模态检索系统,包括:
图像特征提取模块,用于搭建一个深度残差网络提取图像的特征表示,获得图像的预测标签和预测哈希编码;
文本特征提取模块,用于搭建一个深度神经网络,利用多尺度结构提取文本的特征表示,再将文本特征向量分别输入两组全连接层-激活层结构,获得文本的预测标签和预测哈希编码;
自监督标签特征生成模块,通过两个全连接层将图像和文本的标记数据转化为特征向量作为图像和文本特征的监督信息;将生成的特征向量分别输入两组全连接层-激活层结构,获得自监督标签和自监督哈希编码;
对抗学习网络判别模块,用于构造两个具有相同结构的深度神经网络分别作为文本 /标签特征判别器、图像/标签特征判别器,将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习,保证模态间特征的一致性;
模型训练模块,用于训练所述图像特征提取模块、文本特征提取模块、自监督标签特征生成模块、对抗学习网络判别模块的模型。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于注意机制的陆战场图像-文本跨模态检索方法,其特征在于,包括以下步骤:
S1:图像特征提取:将注意力模块嵌入残差结构,提取图像的特征表示;再将图像特征向量分别输入两组全连接层-激活层结构,获得图像的预测标签和预测哈希编码;
S2:文本特征提取:搭建一个深度神经网络,利用多尺度结构提取文本的特征表示,再将文本特征向量分别输入两组全连接层-激活层结构,获得文本的预测标签和预测哈希编码;
S3:自监督标签特征生成:通过两个全连接层将图像和文本的标记数据转化为特征向量作为图像和文本特征的监督信息;将生成的特征向量分别输入两组全连接层-激活层结构,获得自监督标签和自监督哈希编码;
S4:对抗学习网络判别:构造两个具有相同结构的深度神经网络分别作为文本/标签特征判别器、图像/标签特征判别器,将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习,保证模态间特征的一致性;
S5:模型训练:对图像特征提取网络、文本特征提取网络、自监督标签特征生成网络、对抗学习判别网络的模型进行训练学习。
2.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法,其特征在于,步骤S1的具体步骤包括:
S101:将空间注意模块与通道注意模块串联后嵌入深度残差网络的每个残差块结构之间,搭建一个新的深度残差网络;
S102:将所述深度残差网络输出的特征向量经过一个全连接层和非线性激活层转换为图像特征向量;
S103:最后将图像特征向量分别输入两组全连接层-激活层结构,获得图像的预测标签和预测哈希编码。
3.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法,其特征在于,所述深度残差网络的结构依次包括:
卷积层、BN归一化层、Relu激活层、最大池化层、第一特征提取单元{(残差块1(RESBLOCK1)+注意力模块(CBAM))×3}、第二特征提取单元{(残差块(RESBLOCK2)+注意力模块(CBAM))×4}、第三特征提取单元{(残差块3(RESBLOCK3)+注意力模块(CBAM))×6}、第四特征提取单元{(残差块4(RESBLOCK4)+注意力模块(CBAM))×3}、全连接层、Relu激活层。
4.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法,其特征在于,所述自监督标签特征生成网络的结构依次包括:
全连接层、Relu激活层、BN归一化层、全连接层、Relu激活层。
5.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法,其特征在于,所述图像/标签判别网络和文本/标签判别网络的结构相同,依次包括:
全连接层、Relu激活层、全连接层、Relu激活层、全连接层。
6.根据权利要求5所述的基于注意力机制的路战场图像-文本跨模态检索方法,其特征在于,所述图像/标签判别网络的输入为图像特征向量或自监督标签特征,输出为图像/标签判别。
7.根据权利要求5所述的基于注意力机制的路战场图像-文本跨模态检索方法,其特征在于,所述文本/标签判别网络的输入为文本特征向量或自监督标签特征,输出为文本/标签判别。
8.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法,其特征在于,模型学习的损失函数包含四个部分:一是图像/文本特征与自监督特征的损失;二是图像/文本预测标签与自监督标签的损失;三是图像/文本预测哈希编码与自监督哈希编码的损失;四是图像/标签、文本/标签两个对抗学习网络的判别损失。
9.一种基于注意机制的陆战场图像-文本跨模态检索系统,其特征在于,包括:
图像特征提取模块,用于搭建一个深度残差网络提取图像的特征表示,获得图像的预测标签和预测哈希编码;
文本特征提取模块,用于搭建一个深度神经网络,利用多尺度结构提取文本的特征表示,再将文本特征向量分别输入两组全连接层-激活层结构,获得文本的预测标签和预测哈希编码;
自监督标签特征生成模块,通过两个全连接层将图像和文本的标记数据转化为特征向量作为图像和文本特征的监督信息;将生成的特征向量分别输入两组全连接层-激活层结构,获得自监督标签和自监督哈希编码;
对抗学习网络判别模块,用于构造两个具有相同结构的深度神经网络分别作为文本/标签特征判别器、图像/标签特征判别器,将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习,保证模态间特征的一致性;
模型训练模块,用于训练所述图像特征提取模块、文本特征提取模块、自监督标签特征生成模块、对抗学习网络判别模块的模型。
10.根据权利要求9所述的基于注意机制的陆战场图像-文本跨模态检索系统,其特征在于,所述深度残差网络的结构为将通道注意模块与空间注意模块串联后嵌入深度残差网络的每个残差块结构之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110809148.XA CN113657450B (zh) | 2021-07-16 | 2021-07-16 | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110809148.XA CN113657450B (zh) | 2021-07-16 | 2021-07-16 | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657450A CN113657450A (zh) | 2021-11-16 |
CN113657450B true CN113657450B (zh) | 2022-11-29 |
Family
ID=78489537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110809148.XA Active CN113657450B (zh) | 2021-07-16 | 2021-07-16 | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657450B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969405B (zh) * | 2022-04-30 | 2024-01-26 | 苏州浪潮智能科技有限公司 | 一种跨模态图文互检方法 |
CN114896429B (zh) * | 2022-07-12 | 2022-12-27 | 苏州浪潮智能科技有限公司 | 一种图文互检方法、系统、设备及计算机可读存储介质 |
CN115203442B (zh) * | 2022-09-15 | 2022-12-20 | 中国海洋大学 | 基于联合注意力的跨模态深度哈希检索方法、系统及介质 |
CN116779091B (zh) * | 2023-06-15 | 2024-02-27 | 兰州交通大学 | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 |
CN116578738B (zh) * | 2023-07-14 | 2024-02-20 | 深圳须弥云图空间科技有限公司 | 一种基于图注意力和生成对抗网络的图文检索方法和装置 |
CN116842127B (zh) * | 2023-08-31 | 2023-12-05 | 中国人民解放军海军航空大学 | 一种基于多源动态数据的自适应辅助决策智能方法及系统 |
CN116991919B (zh) * | 2023-09-26 | 2023-12-08 | 中国铁塔股份有限公司吉林省分公司 | 结合平台数据库的业务数据检索方法及人工智能系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113064959B (zh) * | 2020-01-02 | 2022-09-23 | 南京邮电大学 | 一种基于深度自监督排序哈希的跨模态检索方法 |
CN112905822B (zh) * | 2021-02-02 | 2022-07-01 | 华侨大学 | 一种基于注意力机制的深度监督跨模态对抗学习方法 |
-
2021
- 2021-07-16 CN CN202110809148.XA patent/CN113657450B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113657450A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110222140B (zh) | 一种基于对抗学习和非对称哈希的跨模态检索方法 | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
Xiang et al. | Fabric image retrieval system using hierarchical search based on deep convolutional neural network | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN108052911A (zh) | 基于深度学习的多模态遥感影像高层特征融合分类方法 | |
Zhu et al. | Deep learning for multilabel remote sensing image annotation with dual-level semantic concepts | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN111709311A (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN111461175B (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
Huang et al. | Multilabel remote sensing image annotation with multiscale attention and label correlation | |
CN116912708A (zh) | 一种基于深度学习的遥感影像建筑物提取方法 | |
Li et al. | Multi-view-based siamese convolutional neural network for 3D object retrieval | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
Al-Jubouri | Content-based image retrieval: Survey | |
Yu et al. | Text-image matching for cross-modal remote sensing image retrieval via graph neural network | |
Wu et al. | A multi-level descriptor using ultra-deep feature for image retrieval | |
CN114579794A (zh) | 特征一致性建议的多尺度融合地标图像检索方法及系统 | |
Zhao et al. | Multi-scale Context Deep Hashing for Remote Sensing Image Retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |