CN113408546B

CN113408546B - 基于相互全局上下文注意力机制的单样本目标检测方法

Info

Publication number: CN113408546B
Application number: CN202110684435.2A
Authority: CN
Inventors: 贾世海; 鲁统伟; 张�浩; 唐佳珊
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2023-03-07
Anticipated expiration: 2041-06-21
Also published as: CN113408546A

Abstract

本发明提供了基于相互全局上下文注意力机制的单样本目标检测方法，通过构建用于提取图像特征的特征提取模块、用于图像的上下文特征的全局上下文特征模块、用于从图像的上下文特征中获取图像的通道级依赖信息的迁移模块、用于融合图像的通道级依赖信息与特征的融合模块、用于生成可能存在目标类别的区域的区域建议模块，以及用于输入支持图像的特征与查询图像感兴趣区域特征、输出两者是否为同一类别的概率的全连接类别无关分类器，实现了提高单样本目标检测方法的精确度的功能。本发明的模型不经过重新训练即可实现对新类别的分类，在单样本的条件下能够获取更好的检测效果。

Description

基于相互全局上下文注意力机制的单样本目标检测方法

技术领域

本发明属于计算机视觉少样本检测技术领域，具体涉及基于相互全局上下文注意力机制的单样本目标检测方法。

背景技术

单样本目标检测(One Shot Object Detection)，是目标检测(ObjectDetection)的一个特殊情景。目标检测是指给定一个图像，从该图像中确定出目标类别的位置，及其类别信息。单样本目标检测特指在只有一个新类别样本的条件下从目标图像中找出目标类别的位置并且确定其类别。其中这个样本通在本文中称为支持图像，目标图像在本文中成为查询图像。

现在基于DNN的计算机视觉算法在图像分类，目标检测，实例分割等领域均取得了最好的表现效果。但是为了获取一个表现优秀的深度学习模型，需要耗费大量的人力和物力去收集数据消耗大量的算力进行迭代。并且在某些情况下，例如稀有动物的分类和工业产品缺陷检测，无法获得足够的样本数据，使用基于深度学习的方法变的很困难。

少样本学习，指只有少量样本用于训练或的场景，被提出用于解决样本有限场景下的机器学习问题。其中少样本图像分类取得了良好的进展。解决少样本图像分类问题的方法大致上可以分为两类，第一类是度量学习，第二类是原学习方法。基于元学习的少样本图像分类方法的范式是使用特征提取器提取出图像的特征之后，使用某种度量方式对图像的特征或者映射之后的向量的距离进行计算，根据图像和样本图像的距离判断测试图像与样本图像是否属于同一类别。元学习的思想则更加复杂，元学习试图让模型学习如何进行学习。具体的来说就把任务划分为每个少量样本的小任务然后让模型学习每次学习小任务的路径，这样就可以使模型在测试时使用少量样本即可快速的的获取一个比较理想的效果。因为相对于图像分类问题目标检测问题可能更复杂，所以少样本目标检测的受到关注比较少，相关成果也比较少。目前少样本目标检测领域的成果主要集中在迁移学习，元学习和度量学习。

最近，Hao Chen提出了一种正则化方法用于减少少样本目标检测模型在迁移学习时产生的过拟合，这类方法在实现对新类的识别时必然会损失掉一部分对与见过的类的识别精度。基于度量学习的方法范式是用少样本图像分类的方法直接对目标检测中的分类器进行替换从而实现少样本目标检测，这种方法只是对少样本图像分类的方法进行了运用对少样本图像分类做出的贡献很少。Ting-I Hsieh提出全新的机制CO-Attention and Co-Excitation，使用support Image的信息提升模型对模型没有见过类别的识别效果，但是其使用到的Non local机制并没有达到预期中的效果，而且运算量比较大。

发明内容

本发明要解决的技术问题是：提供基于相互全局上下文注意力机制的单样本目标检测方法，用于提高单样本目标检测方法的精确度。

本发明为解决上述技术问题所采取的技术方案为：基于相互全局上下文注意力机制的单样本目标检测方法，包括以下步骤：

S1：构建特征提取模块，获取输入的查询图像的特征和支持图像的特征；

S2：构建全局上下文模块，根据查询图像的特征获取查询图像的全局上下文特征、根据支持图像的特征获取支持图像的全局上下文特征；

S3：构建特征迁移模块，获取全局上下文特征的通道级依赖信息用于增强通道层级的特征信息，包括根据支持图像的全局上下文特征获取支持图像的通道级依赖信息、根据查询图像的全局上下文特征获取查询图像的通道级依赖信息；

S4：构建融合模块，融合查询图像的通道级依赖信息与支持图像的特征，融合支持图像的通道级依赖信息与查询图像的特征；

S5：构建区域建议模块，从融合后的查询图像中获取感兴趣区域；

S6：构建类别无关分类器，拼接感兴趣区域的特征与融合后的支持图像的特征，通过分类特征以确定感兴趣区域是否为存在目标类别的区域；输出模型预测查询图像中目标类别的位置和类别信息，在训练模型时采用计算位置损失和分类损失的LOSS函数针对单样本场景对模型进行优化。

按上述方案，所述的步骤S1中，具体步骤为：

S11：根据IMGNET2012数据集和COCO数据集的标签信息WORNET获取COCO数据集中类别名字与IMGNET数据集中类别名字的相似度；

S12：将相似度高于0.3的类别从IMGNET2012数据集中剔除，以避免预训练模型见到COCO数据集中的类别；

S13：使用剔除后的数据集训练特征提取模块REST50；

S14：向特征提取模块REST50输入查询图像与支持图像，并分别获取查询图像的特征Q_j和支持图像的特征S_i。

进一步的，所述的步骤S2中，具体步骤为：

S21：构建全局上下文模块，依次包括1×1的卷积层W_k、softmax函数；通过全局上下文模块分别获取支持图像的注意力权重a_i和查询图像的注意力权重a_j；

S22：将支持图像的特征S_i与支持图像的注意力权重a_i进行矩阵乘法运算，获取支持图像的全局上下文特征

为：

S23：将查询图像的特征Q_j与查询图像的注意力权重a_j进行矩阵乘法运算，获取查询图像的全局上下文特征

为：

进一步的，所述的步骤S3中，具体步骤为：

S31：构建特征迁移模块，包括查询迁移模块和支持迁移模块；查询迁移模块依次包括1×1卷积层W_V1、层归一化函数与RELU激活函数、1×1卷积层W_V2；支持迁移模块依次包括1×1卷积层W_C1、层归一化函数与RELU激活函数、1×1卷积层W_C2；

S32：设RELU激活函数为RELU，层归一化函数为LN，则迁移后的查询图像的通道级依赖

为：

迁移后的支持图像的通道级依赖

分别为：

按上述方案，所述的步骤S4中，具体步骤为：

S41：构建特征融合模块；

S42：设支持图像的特征为S_i，查询图像的通道级依赖信息为

将查询图像的通道级依赖信息与支持图像的特征融合为

S43：设查询图像的特征为Q_j，支持图像的通道级依赖信息为

将支持图像的通道级依赖信息与查询图像的特征融合为

进一步的，所述的步骤S5中，具体步骤为：向区域建议模块RPNHEAD输入融合后的查询图像的特征

输出一系列感兴趣区域框和对应的置信度。

进一步的，所述的步骤S6中，具体步骤为：

S61：构建类别无关分类器，依次包括第一层全连接层、RELU激活函数、第二层全连接层；设特征提取模块输出的图像特征的维度为N，则第一层全连接层的维度变化为从2N到512，第二层全连接层的维度变化为从512到2；

S62：设查询图像的第M个感兴趣区域为

拼接感兴趣区域的特征与融合后的支持图像的特征

获取拼接后的同时具有支持图像特征和查询图像特征的向量为：

将向量输入类别无关分类器，获取感兴趣区域与支持图像中物体为同一类别的概率、以及感兴趣区域为背景的概率；

S63：设全连接层的输出为FCC(F_C)，第i个样本类别的真实标签为y_i，模型输出的类别的值为P_i，常数M取M＝-0.3，则MarginRankingLoss基于距离的排序损失函数L_MR为：

L_MR{FCC(F_C))＝max(0，-y_i*P_i+M)，

设交叉熵损失函数为L_CE，边界框回归损失函数为L_Reg；则针对单样本场景，在模型训练过程中采用计算位置损失和分类损失的Loss函数优化模型：

Loss＝L_CE+L_Reg+L_MR。

一种计算机存储介质，其内存储有可被计算机处理器执行的计算机程序，该计算机程序执行基于相互全局上下文注意力机制的单样本目标检测方法。

本发明的有益效果为：

1.本发明的基于相互全局上下文注意力机制的单样本目标检测方法，通过构建用于提取输入图像的特征信息的特征提取模块、用于提取查询图像与支持图像的上下文特征的全局上下文特征模块、用于从查询图像与支持图像的上下文特征中分别获取支持图像与查询图像通道级依赖信息的迁移模块、用于融合支持图像的通道级依赖信息与查询图像的特征和融合查询图像的通道级依赖信息与支持图像的特征的融合模块、用于生成可能存在目标类别的区域的区域建议模块，以及用于输入支持图像的特征与查询图像感兴趣区域特征、输出两者是否为同一类别的概率的全连接类别无关分类器，实现了提高单样本目标检测方法的精确度的功能。

2.本发明的使得本发明的模型不经过重新训练即可实现对新类别的分类。

3.本发明在单样本的条件下能够获取更好的检测效果。

附图说明

图1是本发明实施例的流程图。

图2是本发明实施例的网络结构图。

图3是本发明实施例的注意力机制的网络结构图。

图4是本发明实施例的图像特征热力图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图1，本发明实施例的基于相互全局上下文注意力机制的单样本目标检测方法，包括以下步骤：

S1：构建特征提取模块，使用特征提取模块获取输入的查询图像与支持图像的特征；

根据IMGNET2012数据集和COCO数据集的标签信息WORNET获取COCO数据集中类别名字与IMGNET数据集中类别名字的相似度；将相似度高于0.3的类别从IMGNET2012数据集中剔除，以避免预训练模型见到COCO数据集中的类别；使用剔除后的数据集训练特征提取模块REST50。

S2：构建全局上下文模块，使用全局上下文模块分别从上一步产生的支持图像与查询图像的特征中获取其对应的全局上下文特征；

使用同一个1*1的卷积层W_k接一个softmax函数去获取支持图像和查询图像的注意力权重，将支持图像的特征与支持图像注意力权重进行矩阵乘法运算，将查询图像的特征与查询图像注意力进行矩阵乘法运算。获取支持图像和查询图像的全局上下文特征。图像上下文特征表示为：

式中，F_GC表示支持图像或者查询图像的全局上下文特征，a_i表示获取到的注意力权重，S_i表示步骤S1中获取的支持图像特征，Q_j表示步骤S1中获取的查询图像的特征。

S3：构建特征迁移模块，对上一步获取的支持图像与查询图像的全局上下文特征进行计算获取其对应的通道级相互依赖信息；

构建特征迁移模块，获取全局上下文特征中的通道级依赖信息，增强通道层级的特征信息。

特征迁移模块由两层层1*1卷积层构成，两个卷积层中间插入了层归一化函数和RELU激活函数，表示为如下公式：

其中W代表的是1*1卷积层不同的下标表示参数不同的卷积层，RELU表示RELU激活函数，LN表示层归一化函数，

和

分别表示迁移之后的查询图像的全局上下文通道级依赖和支持图像中的全局上下文通道级依赖。

和

表示步骤S2中获取的查询图像的全局上下文特征和支持图像的全局上下文特征。

S4：构建融合模块，将上一步获取的查询图像的通道级依赖信息与支持图像特征进行融合，将上一步获取的支持图像的通道级依赖信息与查询图像特征进行融合；

构建特征融合模块，将步骤S1中获取的支持图像特征与步骤S4中获取的查询图像特征的通道级全局上下文依赖进行融合，将步骤S1中获取的查询图像特征与步骤S4中获取的支持图像特征的通道级全局上下文依赖进行融合。融合模块中的融合方法表示为：

其中S_i表示步骤S1中获取的支持图像特征，Q_j表示步骤S1中获取的查询图像特征。

和

分别表步骤示S3中获取的查询图像和支持图像的全局上下文通道级依赖。

S5：构建区域建议模块，从融合之后的查询图像中获取感兴趣区域也就是可能存在目标类别的区域；

区域建议模块为RPNHEAD，输入经过融合之后的查询图像特征

输出一系列感兴趣区域框和其对应的置信度。

S6：构建分类模块，对上一步获取到的感兴趣区域的图像特征和从步骤S5中获取的融合之后的支持图像特征进行连接，然后对这个特征进行分类确定该感兴趣区域是否为存在目标类别的区域。输出模型预测查询图像中目标类别的位置和类别信息。在训练时计算针对单样本场景设计的LOSS函数对模型进行优化。

构建类别无关分类器，将感兴趣区域的特征与经过统合之后的支持图像的特征

进行拼接获取到一个同时具有支持图像特征和查询图像特征的向量。将这个向量输入到分类器中获取这个感兴趣区域与支持图像中物体为同一类别的概率和感兴趣区域为背景的概率。拼接之后的特征表示为：

式中，

表示查询图像中的第M个感兴趣区域，

表示经过融合之后的支持图像特征。

类别无关分类器由两层全连接层构成，中间加入了一个RELU激活函数，其中第一层全连接层的维度变化为2N->512，第二层全连接层的维度变化为512->2。其中N表示步骤S1中特征提取器输出的图像特征的维度。

在训练时使用的Loss函数表示为：

Loss＝L_CE+L_Reg+L_MR，

式子中前两个参数分别表示交叉熵损失函数和边界框回归损失函数，其中L_MR表示MarginRankingLoss基于距离的排序损失函数，表示为：

L_MR{FCC(F_C)}＝max(0，-y_i*P_i+M)，

其中FCC(F_C)表示全连接层的输出，M是一个常数，取M＝-0.3。在训练时计算针对单样本场景设计的LOSS函数对模型进行优化。

本发明的实施例采用VOC作为数据集在单样本的条件下对该方法进行了测试验证。将VOC的类别进行分割，将plant、sofa、tv、car、bottle、boat、chair、person、bus、train、horse、bike、dog、bird、mbike、table作为训练类别作为训练类别对模型进行训练，取cow sheep cat aero作为测试类别对训练好的模型进行测试，在测试时输入一张支持图像和一张可能包含支持图像中类别的目标图像。将模型输出的了别标签和最终的目标框与真实的目标框进行对比。使用AP作为模型的评价标准。在这个过程中模型在训练时没有见到过测试类别，只有在测试时输入的一张支持图像包含了测试类别。

由SGD优化器训练模型，取动量为0.9。初始学习率设置为10^-1，然后每4个周期降低为原来的0.1。使用Pytorch平台并使用两张GTX2080显卡训练模型。表1通过VOC提供的AP标准评价了模型在单样本的条件下的实验结果。

选择对比的单样本目标检测方法有：SiamFC，SiamRPN，CompNet，OSOD。CompNet基于Faster-RCNN，该方法直接使用一个基于度量的分类器替换了Faster-RCNN中的分类器。SiamFC和SiamRPN(优于CompNet)方法是为了解决视觉跟踪问题，而不是正对单样本的目标检测设计的方法。OSOD提出了一种注意力机制针对于单样本目标检测领域。本发明提出了一种新的注意力机制，提高了当样本目标检测的精度。如图4所示第一行是支持图像，第二行是没有经过本发明的注意力机制的查询图像热力图，第三行是经过本发明的注意力机制激活之后的特征图。从图4中可以看出经过本发明的注意力机制之后的图像注意力明显的集中在了目标列别的区域。

表1本发明与五种现有算法的比较结果表

从以上表格实验结果可以看出，本发明与其他四种方法相比，取得了很明显的优势。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。