CN115908855A

CN115908855A - 一种基于CNN和Transformer的素描图像-可见光图像的检索方法

Info

Publication number: CN115908855A
Application number: CN202310028118.4A
Authority: CN
Inventors: 张亚飞; 王永增; 李华锋
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-04

Abstract

本发明公开了一种基于CNN和Transformer的素描图像‑可见光图像的检索方法，该方法包括利用多粒度特征提取网络、跨模态共有特征增强网络、多粒度交互网络构建跨模态检索模型。素描图像和可见光图像输入到基于CNN的多粒度特征提取网络得到两个模态的多粒度特征；跨模态共有特征增强网络利用跨模态注意力对多模态特征在共有特征上进行增强，这样不仅可以减小两个模态之间的差异，同时还能增强共有特征的判别性，有利于最后的检索；增强后的特征通过多粒度交互网络进行特征交互来建立多粒度特征之间的上下文关系，来增强多模态特征的判别性表示。通过本发明的方法，能有效减小模态之间的差异，提高检索的精度和效率。

Description

一种基于CNN和Transformer的素描图像-可见光图像的检索方法

技术领域

本发明涉及计算机视觉中的图像检索领域，具体属于基于CNN和Transformer相结合用于素描图像-可见光图像的跨模态图像的检索方法。

背景技术

随着移动设备的普及和触屏技术的发展，用素描图像作为查询图像来检索可见光图像的方式是一种简单有效的方法。人们可以用绘制素描图像的简单方式来表达自己想要的东西。这种新颖的检索方式吸引了广泛的研究兴趣。对于图像检索来说，使用素描图像来表示视觉线索和查询比仅使用文本查询更加方便。因此，基于素描图像-可见光图像的检索在计算机视觉的实际应用中具有很大的潜力，用户可以使用手绘素描图像在大规模图像数据库中检索相关的自然彩色图像。

素描图像-可见光图像检索主要是解决的问题是根据输入素描图像查找最相似的可见光图像。它面临三个挑战：首先，素描图像和可见光图像之间存在很大的模态差异，这是因为素描图像是由抽象的线条组成的，而可见光图像是由密集的彩色像素组成的。其次，素描图像非常抽象，不同的绘图者拥有绘画水平不一致，导致素描图像模态内差异较大。最重要的一点是，由于素描图像的匹配图像和不匹配自然图之间的差异较小，所以具有判别性细粒度特征对于检索至关重要。

现有的方法都不能很好的解决上述这些问题。一种是只使用全局特征进行检索，没有充分利用丰富的细节信息。后面研究人员提出其他方法，比如提取细粒度特征，充分利用细节信息进行检索。这样做虽然利用了细节信息，但检索性能提升有限，主要是没有很好减小模态之间的差异，同时在这些细节中没有充分考虑语义的上下文关系，这些细节信息是相互联系的。除此以外，虽然细节信息能增加特征的判别性，但是全局特征能保证语义的完整性。以上方法都没考虑这些问题，所以素描图像-可见光图像还存在诸多问题有待解决。

申请内容

为了解决现有方法的不足，本发明针对素描图像-可见光图像检索，提出了一种基于CNN和Transformer的素描图像-可见光图像的检索方法。

本发明的技术方案是：本发明提供的基于CNN和Transformer的素描图像-可见光图像的检索方法，包括如下步骤：

步骤1：获取素描图像-可见光图像数据集，将其划分为训练集和测试集；

素描图像-可见光图像数据集包括素描图像数据集和可见光图像数据集；两个数据集都需要划分成测试集和训练集，其中训练集和测试集的身份标签完成不重叠。

步骤2：利用基于CNN的多粒度特征提取网络、跨模态注意力共有特征增强网络、基于Transformer多粒度交互网络构建跨模态检索模型；

素描图像-可见光图像首先经过基于CNN的多粒度特征提取网络来提取多粒度特征，其中素描图像，可见光图像各有一个全局特征，8块局部特征。得到的局部特征通过跨模态注意力增强模块，进一步增强共有特征的判别性；增强后的局部特征和全局特征组成累积特征，输入交互网络中，建立全局-局部的依赖关系，以及局部特征之间的上下文关系。

其中基于CNN的多粒度特征提取网络由5层双分支并行的残差卷积(ResNet50)网络组成，前3层是并行的模态不共享层，主要是用来分别提取素描图像，可见光图像的模态特有特征；后面2层是并行的双分支网络，一个支路用来提取两个模态共有的全局特征，另一个支路用来提取两个模态的共有的局部特征，所以后面两层是模态间共享网络参数，全局和局部网络不共享网络参数。

接下来的跨模态共有特征的增强分为两个支路，第一个支路为素描图像到可见光图像的跨模态注意力增强，通过计算跨模态注意力，让网络在提取素描图像特征过程中不仅注意到素描图像特征的最显著部分，同时在素描图像特征中增强的区域主要是两个模态的共有特征。第二个支路为可见光图像到素描图像的跨模态注意力增强，通过计算跨模态注意力，让网络在提取可见光图像特征过程中不仅注意到可见光图像特征的最显著部分，同时在可见光图像特征中增强的区域主要是两个模态的共有特征。

跨模态注意力计算公式如下：

其中，

表示六个不同的线性映射层的权重矩阵；T表示转置操作，D表示注意力缩放系数；F_l ^s、F_l ^p分别表示素描图像局部特征，可见光图像局部特征。

所述步骤2中，所述基于Transformer的多粒度交互网络包括如下内容：

通过多粒度特征提取网络，可以得到素描图像，可见光图像的全局特征、局部特征。其中全局特征数量为一，局部特征数量为八。其中局部特征通过基于跨模态注意力的共有特征增强网络，进行共有信息的增强。基于Transformer的多粒度交互网络分为两个支路，素描图像支路，可见光图像支路，两个支路网络结构一样，但是参数不共享。首先让全局特征和第一块增强后的局部特征拼接在一起，再通过一个多层感知机进行特征融合，并通过一个线性映射层降维到Transformer输入特征大小。同样的让全局特征和第一、第二块增强后的局部特征拼接在一起，再通过一个多层感知机进行特征融合，并通过一个线性映射层降维到Transformer输入特征大小。以此类推，进行特征的累计拼接，最后我们可以得到8组多粒度累计特征，这样的累计特征不仅包含全局、局部信息，还包含不同部位的细粒度信息。最后让把得到的累计特征输入到transformer网络中进行特交互，让这些特征建立全局，局部，不同部位的细粒度特征的上下文关系，进一步加强特征的判别性，提高检索的精度。

基于Transformer的多粒度交互网络计算公式如下：

其中，concat表示特征拼接操作，MLP表示多层感知机，Lin表示线性映射；

表示素描图像全局特征，可见光图像全局特征；

表示经过上一步所得到的第1块到i块素描图像局部特征，可见光图像局部特征。

E代表可见光图像分类token,素描图像分类token，位置编码；

表示第i块局部token；T₁表示transformer网络；

表示最后使用得到的分类token，作为最终的检索特征，并在训练时用来计算损失。

步骤3：把步骤1划分好的训练集图像数据进行预处理，预处理好的素描图像-可见光图像训练集输入到跨模态检索模型中，对步骤2所述的跨模态检索模型进行训练；

首先对训练集进行图像预处理，主要有对数据集进行随机剪裁，随机擦除，翻转等数据增强操作。预处理后的图像数据输入到构建好的检索模型中，首先进行多粒度特征提取，对提取到的局部特征进行跨模态注意力增强，增强后的局部特征和全局特征拼接成累积特征输入到基于Transformer多粒度交互网络中进一步增强。最后得到的全局分类特征通过分类器进行分类，分类结果与标签计算交叉熵损失，当损失逐渐降低且趋于收敛时，模型训练完成。

步骤4：对训练过程的训练损失进行反向传播，并通过优化器对构建好的跨模态检索模型进行优化，最终达到训练损失收敛；

在优化模型的时候，通过计算交叉熵损失，并进行反向传播来优化检索模型，交叉熵计算公式如下：

其中，B代表一个训练回合的样本数量，

表示素描图像标签，可见光图像标签。W^s，W^p表示素描图像支路分类器，可见光图像支路分类器。

还包括使用一致性损失来优化网络，一致性损失计算如下：

步骤5：将步骤1划分好的测试集图像数据进行预处理，预处理好的素描图像-可见光图像测试集输入到步骤4训练好的跨模态检索模型中，进行素描图像-可见光图像的跨模态检索；

步骤6：利用累计匹配曲线(CMC)和平均准确度(mAP)两个客观评价指标对模型性能进行评价。

首先对测试数据进行预处理，把测试数据大小调整为训练数据大小；输入到训练好的检索模型，对查询图像，待查询图像进行多粒度特征提取，然后输入到基于Transformer多粒度交互网络中进行累积特征交互，得到最后的检索特征；

对得到的查询素描图像，待查询可见光图像检索特征进行相似度计算并排序；利用累计匹配曲线(CMC)和平均准确度(mAP)两个客观评价指标对排序结果进行评价。

本发明的有益效果是：本发明是在现有方法的基础上，进一步的发展。提出了结合CNN和Transformer的优势，用CNN网络来提取多粒度特征，多粒度特征提取网络，有局部特征提取网络，又有全局特征提取网络，这样提取到的多粒度的特征既有全局特征，又有局部特征，通过提取局部特征来学习细节信息，同时全局特征能很好的保持语义的完整性。提取到的局部特征通过跨模态共有特征注意力增强模块，进一步凸显出共有特征的显著区域增加特征的判别性。增强后的局部特征和全局特征组成累积特征输入到交互模块中建立全局-局部的关系，以及局部特征的上下文关系，进一步增加特征的判别性。经过上述的操作，本发明的方法能有效缓解素描图像-可见光图像检索中的巨大的模态差异，同时也能充分利用全局信息和丰富的局部细节信息。

附图说明

图1为本发明的整体流程图。

图2为本发明特征提取中的多粒度特征提取结构图。

图3为跨模态共有特征的增强网络结构图。

图4为多粒度特征交互网络结构图。

具体实施方式

为了更有效的说明本发明的技术方法，将结合附图详细说明具体实施方法。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本发明相一致的所有实施方式。仅是与权利要求书中所详述的、本发明的一些方面相一致的系统和方法的示例。

如图1-图4所示，本发明的具体实施流程如下：

跨模态注意力计算公式如下：

其中，

表示六个不同的线性映射层的权重矩阵；D表示注意力缩放系数；F_l ^s、F_l ^p分别表示素描图像局部特征，可见光图像局部特征。

通过多粒度特征提取网络，可以得到素描图像，可见光图像的全局特征、局部特征。其中全局特征数量为一，局部特征数量为八。其中局部特征通过权利5的跨模态注意力模块，进行共有信息的增强。基于Transformer的多粒度交互网络分为两个支路，素描图像支路，可见光图像支路，两个支路网络结构一样，但是参数不共享。首先让全局特征和第一块增强后的局部特征拼接在一起，再通过一个多层感知机进行特征融合，并通过一个线性映射层降维到Transformer输入特征大小。同样的让全局特征和第一、第二块增强后的局部特征拼接在一起，再通过一个多层感知机进行特征融合，并通过一个线性映射层降维到Transformer输入特征大小。以此类推，进行特征的累计拼接，最后我们可以得到8组多粒度累计特征，这样的累计特征不仅包含全局、局部信息，还包含不同部位的细粒度信息。最后让把得到的累计特征输入到transformer网络中进行特交互，让这些特征建立全局，局部，不同部位的细粒度特征的上下文关系，进一步加强特征的判别性，提高检索的精度。

基于Transformer的多粒度交互网络计算公式如下：

表示素描图像全局特征，可见光图像全局特征；

表示经过上一步所得到的第1块到i块素描图像局部特征，可见光图像局部特征；

E代表可见光图像分类token,素描图像分类token，位置编码；

表示第i块局部token；T₁表示transformer网络；

首先对训练集进行图像预处理，主要有对数据集进行随机剪裁，随机擦除，翻转等数据增强操作。预处理后的图像数据输入到构建好的检索模型中，首先进行多粒度特征提取，对提取到的局部特征进行跨模态注意力增强，增强后的局部特征和全局特征拼接成累积特征输入到交互模块中进一步增强。最后得到的全局分类特征通过分类器进行分类，分类结果与标签计算交叉熵损失，当损失逐渐降低且趋于收敛时，模型训练完成。

其中，B代表一个训练回合的样本数量，

还包括使用一致性损失来优化网络，一致性损失计算如下：

对得到的查询素描图像，待查询可见光图像检索特征进行相似度计算并排序；利用累计匹配曲线(CMC)和平均准确度(mAP)两个客观评价指标对排序结果进行评价

以上结合附图对本发明的具体实施方法进行了详细的说明，但上述仅为说明本发明的一个具体实施示例，而不是对本发明进行限制。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于CNN和Transformer的素描图像-可见光图像的检索方法，其特征在于，所述方法包括：

步骤2：利用基于CNN的多粒度特征提取网络、基于跨模态注意力的共有特征增强网络、基于Transformer多粒度交互网络构建跨模态检索模型；

步骤6：利用累计匹配曲线CMC和平均准确度mAP两个客观评价指标对模型性能进行评价。

2.根据权利要求1所述的一种基于CNN和Transformer的素描图像-可见光图像的检索方法，其特征在于，所述步骤1中，所述素描图像-可见光图像数据集包括素描图像数据集和可见光图像数据集；两个数据集都需要划分成测试集和训练集，其中训练集和测试集的身份标签完成不重叠。

3.根据权利要求1所述的一种基于CNN和Transformer的素描图像-可见光图像的检索方法，其特征在于，所述步骤2中，所述基于CNN的多粒度特征提取网络由5层双分支并行的残差卷积ResNet50网络组成，前3层是并行的模态不共享层，用来分别提取素描图像，可见光图像的模态特有特征；后面2层是并行的双分支网络，一个支路用来提取两个模态共有的全局特征，另一个支路用来提取两个模态的共有的局部特征，所以后面两层是模态间共享网络参数，全局和局部网络不共享网络参数。

4.根据权利要求1所述的一种基于CNN和Transformer的素描图像-可见光图像的检索方法，其特征在于，所述步骤2中，所述基于跨模态注意力的共有特征增强网络包括用于实现如下功能：

将得到的多粒度特征进行跨模态共有特征的增强；其中跨模态共有特征的增强分为两个支路，第一个支路为素描图像到可见光图像的跨模态注意力增强，通过计算跨模态注意力，让网络在提取素描图像特征过程中不仅注意到素描图像特征的最显著部分，同时在素描图像特征中增强的区域是两个模态的共有特征；第二个支路为可见光图像到素描图像的跨模态注意力增强，通过计算跨模态注意力，让网络在提取可见光图像特征过程中不仅注意到可见光图像特征的最显著部分，同时在可见光图像特征中增强的区域是两个模态的共有特征；跨模态注意力计算公式如下：

其中，

5.根据权利要求1所述的一种基于CNN和Transformer的素描图像-可见光图像的检索方法，其特征在于，所述步骤2中，所述基于Transformer的多粒度交互网络包括如下内容：

通过多粒度特征提取网络，得到素描图像，可见光图像的全局特征、局部特征；其中全局特征数量为一，局部特征数量为八；其中局部特征通过基于跨模态注意力的共有特征增强网络，进行共有信息的增强；基于Transformer的多粒度交互网络分为两个支路，素描图像支路，可见光图像支路，两个支路网络结构一样，但是参数不共享；首先让全局特征和第一块增强后的局部特征拼接在一起，再通过一个多层感知机进行特征融合，并通过一个线性映射层降维到Transformer输入特征大小；同样的让全局特征和第一、第二块增强后的局部特征拼接在一起，再通过一个多层感知机进行特征融合，并通过一个线性映射层降维到Transformer输入特征大小；以此类推，进行特征的累计拼接，最后得到8组多粒度累计特征，这样的累计特征不仅包含全局、局部信息，还包含不同部位的细粒度信息；最后让把得到的累计特征输入到transformer网络中进行特交互，让这些累计特征建立全局，局部，不同部位的细粒度特征的上下文关系，进一步加强特征的判别性，提高检索的精度；基于Transformer的多粒度交互网络计算公式如下：

表示素描图像全局特征，可见光图像全局特征；

E代表可见光图像分类token,素描图像分类token，位置编码；

表示第i块局部token；T₁表示transformer网络；

6.根据权利要求1所述的一种基于CNN和Transformer的素描图像-可见光图像的检索方法，其特征在于，所述步骤3中的把步骤1划分好的训练集图像数据进行预处理包括对数据集进行随机剪裁，随机擦除，翻转的数据增强操作；

预处理后的图像数据输入到跨模态检索模型中，首先进行多粒度特征提取，对提取到的局部特征进行跨模态注意力增强，增强后的局部特征和全局特征拼接成累积特征输入到基于Transformer多粒度交互网络中进一步增强；最后得到的全局分类特征通过分类器进行分类，分类结果与标签计算交叉熵损失，当损失逐渐降低且趋于收敛时，模型训练完成。

7.根据权利要求1所述的一种基于CNN和Transformer的素描图像-可见光图像的检索方法，其特征在于，所述步骤4中，还包括使用一致性损失来优化网络。

8.根据权利要求1所述的一种基于CNN和Transformer的素描图像-可见光图像的检索方法，其特征在于，所述步骤6的具体步骤包括：

首先对测试数据进行预处理，把测试数据调整为训练数据大小；输入到训练好的检索模型，得到最后的检索特征，素描图像，可见光图像检索特征进行相似度计算并排序；利用累计匹配曲线CMC和平均准确度mAP两个客观评价指标对排序结果进行评价。