CN113657450B

CN113657450B - 基于注意机制的陆战场图像-文本跨模态检索方法及其系统

Info

Publication number: CN113657450B
Application number: CN202110809148.XA
Authority: CN
Inventors: 李臣明; 郑云飞; 张威; 邢立新
Original assignee: PLA Army Academy of Artillery and Air Defense
Current assignee: PLA Army Academy of Artillery and Air Defense
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2022-11-29
Anticipated expiration: 2041-07-16
Also published as: CN113657450A

Abstract

本发明公开了一种基于注意机制的陆战场图像‑文本跨模态哈希检索方法，具体步骤如下：(1)特征提取，将注意力模块嵌入残差结构，更好地抑制复杂背景干扰，提取图像的特征表示；利用多尺度结构提取文本的特征表示；(2)自监督对抗学习模型，通过深度神经网络将标签信息映射为目标的公共语义特征与哈希编码；以此为监督信息分别和图像特征、文本特征度量差异，并构建两个判别器获得图像、文本的对抗损失；融合自监督损失与对抗损失，实现模型的学习、构建。还公开了一种基于注意机制的陆战场图像‑文本跨模态哈希检索系统。本发明克服了陆战场环境下背景复杂、目标伪装、遮挡等复杂条件，有效实现了图像‑文本数据跨模态哈希检索。

Description

基于注意机制的陆战场图像-文本跨模态检索方法及其系统

技术领域

本发明涉及跨模态检索技术领域，特别是涉及一种基于注意机制的陆战场图像-文本跨模态检索方法及其系统。

背景技术

跨模态哈希检索技术将不同模态的数据映射到同一命名空间，通过二值哈希码表示目标，实现目标检索，具有运行速度快、占用资源少的优点。图像和文本是战场上最常见的两种目标信息形式，本发明涉及的图像-文本跨模态哈希检索能为战场态势分析、任务规划等提供多维度的信息支持，有重要的应用价值。

传统基于手工特征(Discrete graph hashing,2014)或浅层学习(Cross-modality binary code learning via fusion similarity hashing,2017)的方法难以提取有效的目标特征表示，因此检索的效果并不理想。近年来，深度神经网络由于其层次化的表示结构和强大的学习能力，在计算机视觉的许多领域取得成功，其也被应用到跨模态哈希检索任务中。 Jiang等人(DCMH，Deep Cross-Modal Hashing，2017)利用深度卷积网络VGG-F提取图像特征，利用包含3个全连接层的深度神经网络提取文本特征。将图像和文本数据共同的哈希编码作为监督信息，融合两种模态特征的相似性、两种模态网络生成的哈希编码分别与监督信息的差异组成模型的优化目标，并通过两种模态网络交替优化的方式完成跨模态检索模型的学习、构建。Li等人(Self-Supervised Adversarial HashingNetworks for Cross-Modal Retrieval，2018)在以上模型基础上加入自监督和对抗学习结构，增强模态间特征的语义相关性和一致性，从而提升检索效果。Xie等人(Multi-TaskConsistency-Preserving Adversarial Hashing for Cross-Modal Retrieval，2020)将多任务学习思想应用到跨模态哈希检索中，设计一致性提炼模块嵌入每种模态的特征提取网络中，结合对抗学习改进模态间特征表示的一致性，进而改进检索效果。以上检索方法主要应用在通用场景的图像-文本数据中，然而在战场环境下，图像的背景复杂，目标常常被覆盖伪装纹理、烟雾遮挡，检索任务对于图像数据尤其需要更鲁棒的特征表示。

因此亟需提供一种新型的陆战场图像-文本跨模态检索方法来解决上述问题。

发明内容

本发明所要解决的技术问题是提供一种基于注意机制的陆战场图像-文本跨模态检索方法及其系统，能够将注意机制融入深度残差网络获取更鲁棒的图像表示，结合自监督对抗学习结构完成战场环境下的跨模态检索任务。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于注意机制的陆战场图像-文本跨模态检索方法，包括以下步骤：

S1：图像特征提取：将注意力模块嵌入残差结构，提取图像的特征表示；再将图像特征向量分别输入两组全连接层-激活层结构，获得图像的预测标签和预测哈希编码；

S2：文本特征提取：搭建一个深度神经网络，利用多尺度结构提取文本的特征表示，再将文本特征向量分别输入两组全连接层-激活层结构，获得文本的预测标签和预测哈希编码；

S3：自监督标签特征生成：通过两个全连接层将图像和文本的标记数据转化为特征向量作为图像和文本特征的监督信息；将生成的特征向量分别输入两组全连接层-激活层结构，获得自监督标签和自监督哈希编码；

S4：对抗学习网络判别：构造两个具有相同结构的深度神经网络分别作为文本/标签特征判别器、图像/标签特征判别器，将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习，保证模态间特征的一致性；

S5：模型训练：对图像特征提取网络、文本特征提取网络、自监督标签特征生成网络、对抗学习判别网络的模型进行训练学习。

在本发明一个较佳实施例中，步骤S1的具体步骤包括：

S101：将空间注意模块与通道注意模块串联后嵌入深度残差网络的每个残差块结构之间，搭建一个新的深度残差网络；

S102：将所述深度残差网络输出的特征向量经过一个全连接层和非线性激活层转换为图像特征向量；

S103：最后将图像特征向量分别输入两组全连接层-激活层结构，获得图像的预测标签和预测哈希编码。

在本发明一个较佳实施例中，所述深度残差网络的结构依次包括：

卷积层、BN归一化层、Relu激活层、最大池化层、第一特征提取单元{(残差块 1(RESBLOCK1)+注意力模块(CBAM))×3}、第二特征提取单元{(残差块 (RESBLOCK2)+注意力模块(CBAM))×4}、第三特征提取单元{(残差块 3(RESBLOCK3)+注意力模块(CBAM))×6}、第四特征提取单元{(残差块 4(RESBLOCK4)+注意力模块(CBAM))×3}、全连接层、Relu激活层。

在本发明一个较佳实施例中，所述自监督标签特征生成网络的结构依次包括：

全连接层、Relu激活层、BN归一化层、全连接层、Relu激活层。

在本发明一个较佳实施例中，所述图像/标签判别网络和文本/标签判别网络的结构相同，依次包括：

全连接层、Relu激活层、全连接层、Relu激活层、全连接层。

进一步的，所述图像/标签判别网络的输入为图像特征向量或自监督标签特征，输出为图像/标签判别。

进一步的，所述文本/标签判别网络的输入为文本特征向量或自监督标签特征，输出为文本/标签判别。

在本发明一个较佳实施例中，模型学习的损失函数包含四个部分：一是图像/文本特征与自监督特征的损失；二是图像/文本预测标签与自监督标签的损失；三是图像/文本预测哈希编码与自监督哈希编码的损失；四是图像/标签、文本/标签两个对抗学习网络的判别损失。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种基于注意机制的陆战场图像-文本跨模态检索系统，包括：

图像特征提取模块，用于搭建一个深度残差网络提取图像的特征表示，获得图像的预测标签和预测哈希编码；

文本特征提取模块，用于搭建一个深度神经网络，利用多尺度结构提取文本的特征表示，再将文本特征向量分别输入两组全连接层-激活层结构，获得文本的预测标签和预测哈希编码；

自监督标签特征生成模块，通过两个全连接层将图像和文本的标记数据转化为特征向量作为图像和文本特征的监督信息；将生成的特征向量分别输入两组全连接层-激活层结构，获得自监督标签和自监督哈希编码；

对抗学习网络判别模块，用于构造两个具有相同结构的深度神经网络分别作为文本 /标签特征判别器、图像/标签特征判别器，将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习，保证模态间特征的一致性；

模型训练模块，用于训练所述图像特征提取模块、文本特征提取模块、自监督标签特征生成模块、对抗学习网络判别模块的模型。

在本发明一个较佳实施例中，所述深度残差网络的结构为将通道注意模块与空间注意模块串联后嵌入深度残差网络的每个残差块结构之间。

本发明的有益效果是：本发明将注意机制引入网络的通道和空间两个维度，提高陆战场条件下图像的特征表达能力，通过将注意机制融入深度残差网络获取更鲁棒的图像表示，结合自监督对抗学习结构完成战场环境下的跨模态检索任务，克服了陆战场环境下背景复杂、目标伪装、遮挡等复杂条件，有效实现了图像-文本数据跨模态哈希检索。

附图说明

图1是本发明基于注意机制的陆战场图像-文本跨模态检索方法的流程图；

图2是所述CBAM注意力模块与残差单元的连接示意图；

图3是所述残差块与通道注意力、空间注意力模块的连接示意图；

图4是所述通道注意力模块的结构示意图；

图5是所述空间注意力模块的结构示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图1，本发明实施例包括：

一种基于注意机制的陆战场图像-文本跨模态检索方法，包括以下步骤：

步骤1：图像特征提取。将空间注意模块与通道注意模块串联后嵌入深度残差网络的每个残差块结构之间，以此将注意机制引入网络的通道和空间两个维度，提高陆战场条件下图像的特征表达能力；将网络输出的2048维特征向量经过一个全连接层和非线性激活层转换为512维的图像特征向量；最后将特征向量分别输入两组全连接层-激活层结构，获得图像的预测标签和预测哈希编码。

具体的，搭建一个深度残差网络，其结构如图1(A)所示，具体为：输入图像→卷积层(Conv1)→BN归一化层(Batch Norm，BN)→Relu(REctified Linear Unit， RELU)激活层→最大池化层(Maxpool)→第一特征提取单元{(残差块1(RESBLOCK1)+ 注意力模块(CBAM))×3}→第二特征提取单元{(残差块2(RESBLOCK2)+注意力模块 (CBAM))×4}→第三特征提取单元{(残差块3(RESBLOCK3)+注意力模块(CBAM))×6} →第四特征提取单元{(残差块4(RESBLOCK4)+注意力模块(CBAM))×3}→全连接层 (FC)→Relu激活层→输出图像特征。此后网络分成两个分支：①输出图像特征→全连接层→Tanh激活层→预测图像哈希编码(hash)。②输出图像特征→全连接层→ Sigmoid激活层→预测图像标签(label)。

网络结构中一个残差块和一个CBAM注意模块组成一个特征提取单元，以第二个特征提取单元为例详细说明其内部结构。如图2所示，特征提取单元2由四个重复的残差块+注意力模块组成。以图2中第1个子特征提取模块(残差块+注意力模块)为例，具体连接关系如下：残差块包含两个分支。分支1：输入特征→卷积层(卷积核 1×1×512×128，stride＝1,pad＝0)→BN归一化层→Relu激活层→卷积层(卷积核 3×3×512×128，stride＝2,pad＝1)→BN归一化层→Relu激活层→卷积层(卷积核 1×1×128×512，stride＝1,pad＝0)→BN归一化层→CBAM→输出特征1；分支2：输入特征→卷积层(卷积核1×1×512×512，stride＝2,pad＝0)→BN归一化层→输出特征2。残差块输出为：输出特征1+输出特征2→Relu激活层→输出特征。

本发明的注意力模块由通道注意力模块与空间注意力模块串联组成，具体结构如图 3所示：输入特征→通道注意力模块→空间注意力模块→输出特征。

通道注意力模块的具体结构如图4所示，其主要包含两个分支结构。分支1：输入特征→最大池化层→卷积层(卷积核1×1×512×32，stride＝1,pad＝0)→Relu激活层→卷积层(卷积核1×1×32×512，stride＝1,pad＝0)→输出特征1；分支2：输入特征→均值池化层→卷积层(卷积核1×1×512×32，stride＝1,pad＝0)→Relu激活层)→卷积层(卷积核1×1×32×512，stride＝1,pad＝0)→输出特征2。之后有：输出特征1+输出特征 2→Sigmoid激活层→通道注意力权重。最终，输入特征×通道注意力权重＝通道注意力特征。

空间注意力模块的具体结构如图5所示，其主要包含两个分支结构。分支1：输入特征→最大值池化层(通道维度Maxpooling)→输出特征1；分支2：输入特征→均值池化层(通道维度Avgpooling)→输出特征2。之后有：输出特征1与输出特征2并联→卷积层(卷积核7×7×512×1，stride＝1,pad＝3)→Sigmoid激活层→空间注意力权重。最终，输入特征×空间注意力权重＝空间注意力特征。

步骤2：文本特征提取。使用BoW(Bag of words)算法将文本数据转化为初始文本特征向量，再通过5个尺寸参数的池化层获得文本数据的多尺度表示；再将多尺度的文本特征经过一个级联层和两个全连接层和非线性激活层转换为512维的文本特征向量；最后将特征向量分别输入两组全连接层-激活层结构，获得文本的预测标签和预测哈希编码。

具体的，搭建一个深度神经网络，其结构如图1(C)所示，具体为：输入文本编码(初始文本特征向量，1×1386)→文本多尺度表示结构→全连接层(1×1386×6×4096) →Relu激活层→BN归一化层→全连接层(1×1386×4096×512)→输出文本特征。此后网络分成两个分支：①输出文本特征→全连接层(1×1×512×16)→Tanh激活层→预测文本哈希编码。②输出文本图像特征→全连接层(1×1×512×N)→Sigmoid激活层→预测文本标签。

文本多尺度表示结构的具体如下，尺度1：输入文本编码(1×1386)→最大值池化(1×50)→卷积层(1×1×1×1)→Relu激活层→缩放层(Resize，缩放尺寸1×1386)→尺度特征1。尺度2：输入文本编码(1×1386)→最大值池化(1×30)→卷积层(1×1×1×1) →Relu激活层→缩放层(缩放尺寸1×1386)→尺度特征2。尺度3：输入文本编码 (1×1386)→最大值池化(1×15)→卷积层(1×1×1×1)→Relu激活层→缩放层(缩放尺寸1×1386)→尺度特征3，尺度4：输入文本编码(1×1386)→最大值池化(1×10) →卷积层(1×1×1×1)→Relu激活层→缩放层(缩放尺寸1×1386)→尺度特征4。原始文本编码(1×1386)、文本尺度特征1(1×1386)、文本尺度特征2(1×1386)、文本尺度特征3(1×1386)、文本尺度特征4(1×1386)→级联层(Concat)→文本多尺度特征(1×1386)。

步骤3：自监督标签特征生成。通过两个全连接层将图像和文本的标记数据转化为512维特征作为图像和文本特征的监督信息。最后将生成的特征向量分别输入两组全连接层-激活层结构，获得自监督标签和自监督哈希编码。

自监督标签特征生成网络如图1(B)所示，具体为：标签数据(N×1，N为数据库中标签类型数目)→全连接层(1×N×1×4096)→Relu激活层→BN归一化层→全连接层(1×1×4096×512)→Relu激活层→自监督标签特征，此后网络分成两个分支：①自监督标签特征→全连接层(1×1×512×16)→Tanh激活层→自监督哈希编码。②自监督标签特征→全连接层(1×1×512×N)→Sigmoid激活层→自监督标签。

步骤4：对抗学习网络判别。构造两个具有相同结构的深度神经网络分别作为文本/标签特征判别器、图像/标签特征判别器。判别器网络由三个全连接层、两个非线性激活层组成，将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习，保证模态间特征的一致性。

对抗学习判别网络包括图像/标签判别网络、文本/标签判别网络。

图像/标签判别网络如图1(D)所示，其结构具体为：输出图像特征或自监督标签特征→全连接层(1×512×1×512)→Relu激活层→全连接层(1×1×512×256)→Relu激活层→全连接层(1×1×256×1)→图像/标签判别输出。

文本/标签判别网络如图1(E)所示，其结构具体为：输出文本特征或自监督标签特征→全连接层(1×512×1×512)→Relu激活层→全连接层(1×1×512×256)→Relu激活层→全连接层(1×1×256×1)→文本/标签判别输出。

步骤5：模型学习。

跨模态检索数据集可表示为

其中o_i＝{v_i,t_i,l_i}为数据实例，

为 d_v维图像数据，

为d_t维文本数据，l_i＝[l_i1,...,l_ic]为数据的c维标签。S＝[S_ij]为数据集的特征相似性矩阵，S_ij∈{0,1}为o_i和o_j的特征相似性，当两个数据的标签至少有1维相同时S_ij为1，否则为0。

为数据o_i在图像维和文本维的联合哈希编码，编码的长度为K，本示例中K＝16。

模型中的标签网络(图1(B))用于生成自监督特征、标签、哈希编码，为图像/ 文本模态特征的学习提供监督信息，其损失函数如公式(1)所示，包含4个部分：

为自监督标签特征的损失，其中

为标签网络生成的样本i的自监督特征；

为自监督哈希损失，保证具有相似标签的样本实例有相似的哈希编码，其中

为标签网络生成的样本i的自监督哈希编码；

为标签网络生成哈希编码的近似损失，H^l为标签网络生成的自监督哈希编码矩阵；

为标签网络生成标签的分类损失，L^l为标签网络生成的预测标签矩阵。

模型中的图像/文本网络(图1(A)/(C))用于提取各自模态的特征表示，其损失函数如公式(2)所示。包含4个部分：

利用标签网络生成的自监督特征作为监督信息保证模态间特征的一致性，其中

为样本i的自监督特征向量，

为图像/文本网络提取样本j的图像/文本特征向量；

利用标签网络生成的自监督哈希编码作为监督信息保证模态间哈希编码的一致性，其中

为标签网络生成的样本i的自监督哈希编码，

为图像/文本网络生成的样本i的哈希编码；

为图像/文本网络生成哈希编码的近似损失，H^v,t为图像/文本网络生成的自监督哈希编码矩阵；

为图像/文本网络生成标签的分类损失，L^v,t为标签网络生成的预测标签矩阵。

图像/标签判别网络(图1(D))和文本/标签判别网络(图1(E))能进一步增强模态间特征表示的一致性，其目标函数如公式(3)所示。

为样本i的图像/文本特征与自监督特征，D^v/t，l表示图像/标签判别器或文本/标签判别器；

为样本i的判别标签，当输入图像/文本特征时标签为0，当输入自监督特征时标签为1。

模型总的目标函数如公式(4)所示。θ^v，t，l为图像网络、文本网络、标签网络的参数。B为模型最终输出的哈希编码参数。

将本发明所述方法与近年经典的4种跨模态哈希检索算法在MIRFLICKR-25K数据集(The mir flickr retrieval evaluation，2008)和陆战场图像-文本数据集上进行比较。 4种算法分别为DCMH(Deep Cross-Modal Hashing，2017)、AADH(HashGAN: Attention-aware Deep Adversarial Hashing for Cross Modal Retrieval，2018)SSAH (Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval，2018)、MCPH(Multi-Task Consistency-Preserving Adversarial Hashing for Cross-ModalRetrieval，2020)。评价的指标为平均精度均值MAP。比较结果如表1所示，可看出本发明所述方法在检测性能上优于其它4种算法。

表1本发明与其他4种检索算法对比

本发明实施例还提供一种基于注意机制的陆战场图像-文本跨模态检索系统，包括：

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于注意机制的陆战场图像-文本跨模态检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法，其特征在于，步骤S1的具体步骤包括：

3.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法，其特征在于，所述深度残差网络的结构依次包括：

卷积层、BN归一化层、Relu激活层、最大池化层、第一特征提取单元{(残差块1(RESBLOCK1)+注意力模块(CBAM))×3}、第二特征提取单元{(残差块(RESBLOCK2)+注意力模块(CBAM))×4}、第三特征提取单元{(残差块3(RESBLOCK3)+注意力模块(CBAM))×6}、第四特征提取单元{(残差块4(RESBLOCK4)+注意力模块(CBAM))×3}、全连接层、Relu激活层。

4.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法，其特征在于，所述自监督标签特征生成网络的结构依次包括：

全连接层、Relu激活层、BN归一化层、全连接层、Relu激活层。

5.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法，其特征在于，所述图像/标签判别网络和文本/标签判别网络的结构相同，依次包括：

全连接层、Relu激活层、全连接层、Relu激活层、全连接层。

6.根据权利要求5所述的基于注意力机制的路战场图像-文本跨模态检索方法，其特征在于，所述图像/标签判别网络的输入为图像特征向量或自监督标签特征，输出为图像/标签判别。

7.根据权利要求5所述的基于注意力机制的路战场图像-文本跨模态检索方法，其特征在于，所述文本/标签判别网络的输入为文本特征向量或自监督标签特征，输出为文本/标签判别。

8.根据权利要求1所述的基于注意力机制的路战场图像-文本跨模态检索方法，其特征在于，模型学习的损失函数包含四个部分：一是图像/文本特征与自监督特征的损失；二是图像/文本预测标签与自监督标签的损失；三是图像/文本预测哈希编码与自监督哈希编码的损失；四是图像/标签、文本/标签两个对抗学习网络的判别损失。

9.一种基于注意机制的陆战场图像-文本跨模态检索系统，其特征在于，包括：

对抗学习网络判别模块，用于构造两个具有相同结构的深度神经网络分别作为文本/标签特征判别器、图像/标签特征判别器，将图像或文本网络输出特征、自监督标签特征作为判别器输入进行对抗学习，保证模态间特征的一致性；

10.根据权利要求9所述的基于注意机制的陆战场图像-文本跨模态检索系统，其特征在于，所述深度残差网络的结构为将通道注意模块与空间注意模块串联后嵌入深度残差网络的每个残差块结构之间。