CN115100432A

CN115100432A - 一种小样本目标检测方法、设备及计算机可读存储介质

Info

Publication number: CN115100432A
Application number: CN202211014861.6A
Authority: CN
Inventors: 熊涛; 魏乃科; 潘华东; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-09-23
Anticipated expiration: 2042-08-23
Also published as: CN115100432B

Abstract

本发明公开了一种小样本目标检测方法、设备及计算机可读存储介质，该小样本目标检测方法包括：基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征，以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征；基于注意力机制对第一图像特征和第一模板特征进行特征比对，以获得待检测图像中待检测目标的检测结果。通过上述方式，本发明能够提高小样本目标检测的准确性。

Description

一种小样本目标检测方法、设备及计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种小样本目标检测方法、设备及计算机可读存储介质。

背景技术

目标检测作为计算机视觉四大基础任务之一，是实例分割、目标跟踪等任务的基础，在最近这些年里受到了极大的关注。近年来，随着深度学习的高速发展，基于深度学习的目标检测算法成为了主流，主要分为“一阶段目标检测”、“两阶段目标检测”这两大类，主要包括：RCNN系列、Yolo系列等。

在数据集充足的情况下，待检测的目标在训练集中存在大量的训练数据，使得现有的目标检测方法能达到很不错的性能，而对于训练集中未见过的目标类型，使用现有的目标检测方法检测时准确率低下。

发明内容

本发明主要解决的技术问题是提供一种小样本目标检测方法、设备及计算机可读存储介质，能够提高小样本目标检测的准确性。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种小样本目标检测方法，该小样本目标检测方法包括：基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征，以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征；基于注意力机制对第一图像特征和第一模板特征进行特征比对，以获得待检测图像中待检测目标的检测结果。

其中，基于自注意力机制对包含待检测目标的目标模板进行特征提起以获得第一模板特征包括：对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征；基于自注意力机制对多个第一局部模板特征进行特征编码以获得多个第二局部模板特征；对多个第二局部模板特征进行融合以获得第一模板特征；和/或，基于自注意力机制对待检测图像进行特征提取以获得第一图像特征包括：对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征；基于自注意力机制对多个第一局部图像特征进行特征编码以获得多个第二局部图像特征；对多个第二局部图像特征进行融合以获得第一图像特征。

其中，对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征包括：对目标模板进行特征提取以获得初始模板特征；对初始模板特征进行不同尺寸的分块操作以获得对应尺寸的第一局部模板特征；和/或，对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征包括：对待检测图像进行特征提取以获得初始图像特征；对初始图像特征进行不同尺寸的分块操作以获得对应尺寸的第一局部图像特征。

其中，基于注意力机制对第一图像特征和第一模板特征进行特征比对包括：对第一图像特征和第一模板特征进行序列重构以获得重构特征；利用自注意力机制对重构特征进行处理，以获得待检测图像中待检测目标的检测结果。

其中，对第一图像特征和第一模板特征进行序列重构以获得重构特征包括：将第一图像特征和第一模板特征进行维度转换；将维度转换后的第一图像特征和第一模板特征序列重构为一组特征，得到重构特征。

其中，目标检测模型包括特征提取模块和第一注意力模块，特征提取模块用于基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征，以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征；第一注意力模块用于基于注意力机制对第一图像特征和第一模板特征进行特征比对，以获得待检测图像中待检测目标的检测结果。

其中，特征提取模块包括参数共享的卷积神经网络和并行的两个特征提取支路，卷积神经网络用于对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征，对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征；特征提取支路包括第二注意力编码网络，第二注意力编码网络用于基于自注意力机制对多个第一局部模板特征进行特征编码以获得多个第二局部模板特征，和/或基于自注意力机制对多个第一局部图像特征进行特征编码以获得多个第二局部图像特征。

其中，训练目标检测模型包括：构建训练数据集，训练数据集包括样本图像和包含样本目标的目标模板，其中，目标模板中不包含待检测目标；将目标模板和样本图像输入至目标检测初始模型以获得样本目标检测结果；基于样本目标检测结果和目标模板获得分类损失和回归损失；基于分类损失和回归损失调整目标检测初始模型的参数，以得到目标检测模型。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器，处理器用于执行以实现上述的小样本目标检测方法。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种计算机可读存储介质，计算机可读存储介质用于存储指令/程序数据，指令/程序数据能够被执行以实现上述的小样本目标检测方法。

本发明的有益效果是：区别于现有技术的情况，本发明通过利用两次注意力机制对目标模板和待检测图像进行处理，第一次单独对目标模板和待检测图像自身进行特征提取，学习自身各区域特征之间的以来关系，之后再一次结合目标模板和待检测图像，再一次进行两个图像之间的特征比对找到目标所在位置，能够很好地提取了特征图不同局部区域之间的响应值/依赖关系/相似性，提升了特征的表达能力和鲁棒性，共同作用提升目标检测性能，在目标模板仅有一个的情况下，仍然可以提高目标检测的准确性。

附图说明

图1是本申请小样本目标检测方法一实施方式的流程示意图；

图2是本申请小样本目标检测方法另一实施方式的流程示意图；

图3是本申请小样本目标检测模型训练方法一具体实施方式中的流程示意图；

图4是本申请目标检测初始模型的流程示意图；

图5是本申请实施方式中电子设备的结构示意图；

图6是本申请实施方式中计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。

对于目标检测模型而言，训练时需要使用大量的训练数据，而当需要检测的目标为小样本目标时，目标检测模型容易失效，因此，本申请提供一种小样本目标检测方法，用于检测样本数量较少的目标。首先，本申请使用的目标检测模型包括特征提取模块和第一注意力模块，特征提取模块用于基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征，以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征，第一注意力模块用于基于注意力机制对第一图像特征和第一模板特征进行特征比对，以获得待检测图像中待检测目标的检测结果。

具体地，请参阅图1，图1是本申请小样本目标检测方法一实施方式的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施方式包括：

S110：基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征，以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征。

获取待检测图像，确定待检测目标，取一张或几张包含待检测目标的目标模板，在该实施方式中，目标模板的样本数量较少，一般为训练集中没有的样本。利用特征提取模块分别对目标模板和待检测图像进行特征提取，具体地，利用自注意力机制对目标模板进行特征提取，其中，注意力机制（Attention）可以理解为权重，是从大量信息中筛选出少量重要信息，并聚焦到这些重要信息上，忽略大多不中要的信息，而自注意力机制（Self-Attention）是注意力机制的变体，每个信息都要和其他信息进行权重计算，编码某个信息的时候，要考虑其他所有信息的影响，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。本申请利用自注意力机制学习目标模板中不同局部区域之间的依赖关系，进行特征增强提取，得到第一模板特征，同样地，利用自注意力机制对待检测图像进行特征提取，学习目标模板中不同局部区域之间的依赖关系，进行特征增强提取，得到第一图像特征。

S130：基于注意力机制对第一图像特征和第一模板特征进行特征比对，以获得待检测图像中待检测目标的检测结果。

在分别提取了目标模板和待检测图像自身各个子区域之间的相似性特征之后，考虑目标模板和待检测图像之间的相关性，在第一注意力模块中，基于注意力机制对第一图像特征和第一模板特征进行特征比对，学习第一图像特征与第一图像特征之间、第一模板特征和第一模板特征之间、第一图像特征和第一模板特征之间的相似性特征，以根据相似性比对得到待检测图像中待检测目标的检测结果。

该实施方式中，通过利用两次注意力机制对目标模板和待检测图像进行处理，第一次单独对目标模板和待检测图像自身进行特征提取，学习自身各区域特征之间的以来关系，之后再一次结合目标模板和待检测图像，再一次进行两个图像之间的特征比对找到目标所在位置，能够很好地提取了特征图不同局部区域之间的响应值/依赖关系/相似性，提升了特征的表达能力和鲁棒性，共同作用提升目标检测性能，在目标模板仅有一个的情况下，仍然可以提高目标检测的准确性，从而支持任意目标的检测，而无需再大量地采集待检测目标的训练数据，大大地节省数据采集、数据标注、数据存储、模型维护成本。

在另一实施方式中，特征提取模块进行了多次特征提取，特征提取模块包括参数共享的卷积神经网络和并行的两个特征提取支路，卷积神经网络用于对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征，对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征；特征提取支路包括第二注意力编码网络，第二注意力编码网络用于基于自注意力机制对多个第一局部模板特征进行特征编码以获得多个第二局部模板特征，和/或基于自注意力机制对多个第一局部图像特征进行特征编码以获得多个第二局部图像特征。

具体地，请参阅图2，图2是本申请小样本目标检测方法另一实施方式的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。如图2所示，本实施方式包括：

S210：对目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征；对待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征。

首先对目标模板进行特征提取以获得初始模板特征；对待检测图像进行特征提取以获得初始图像特征，在该实施方式中，可以使用并行的两个卷积神经网络分别对目标模板和待检测图像进行特征提取，也可以使用参数共享的卷积神经网络依次对目标模板和待检测图像进行特征提取，得到初始模板特征和初始图像特征。为方便后续使用自注意力机制对特征进一步提取，分别将初始模板特征和初始图像特征分块，根据特征像的宽高将图像特征分为多个大小相同的2D块。

在一实施方式中，以固定尺寸将初始模板特征和初始图像特征分块，得到固定尺寸的第一局部模板特征和固定尺寸的第一局部图像特征。

在另一实施方式中，设定多种分块尺寸，分别将初始模板特征和初始图像特征进行多组分块，每组分块尺寸相同，得到对应尺寸的第一局部模板特征和对应尺寸的第一局部图像特征。其中，初始模板特征和初始图像特征的分块尺寸标准可以不同。因需要检测目标尺度不固定，增加不同尺寸局部特征的2D块，很大程度上解决多尺度目标检测的难点。

S230：基于自注意力机制对多个第一局部模板特征进行特征编码以获得多个第二局部模板特征；基于自注意力机制对多个第一局部图像特征进行特征编码以获得多个第二局部图像特征。

当步骤S210只进行一种尺寸的分块时，一个特征提取支路的第二注意力编码网络对一个第一局部模板特征进行特征编码，以学习不同特征块之间的相似性，得到一个第二局部模板特征。同样地，另一个特征提取支路的第二注意力编码网络对一个第一局部图像特征进行特征编码，以学习不同特征块之间的相似性，得到一个第二局部图像特征。

当步骤S210进行了多种尺寸的分块时，一个特征提取支路的第二注意力编码网络分别对多个第一局部模板特征进行特征编码，分别学习相同尺寸的特征块之间的相似性，得到多个第二局部模板特征。同样地，另一个特征提取支路的第二注意力编码网络对多个第一局部图像特征进行特征编码，分别学习相同尺寸的特征块之间的相似性，得到多个第二局部图像特征。

同样地，若初始模板特征和初始图像特征的分块尺寸标准不同，则利用上述方法进行各自的特征编码。

S250：对多个第二局部模板特征进行融合以获得第一模板特征；对多个第二局部图像特征进行融合以获得第一图像特征。

若步骤S230获取得到一个第二局部模板特征，则直接将第二局部模板特征作为第一模板特征，若步骤S230获取得到一个第二局部图像特征，则直接将第二局部图像特征作为第一图像特征。

若步骤S230获取得到多个第二局部模板特征，和/或多个第二局部图像特征，则将多个第二局部模板特征进行融合，和/或将多个第二局部图像特征进行融合。以将多个第二局部模板特征进行融合为例进行说明，因分块尺寸不同，得到的多个第二局部模板特征的维度也不同，因此，首先将多个第二局部模板特征的维度转换为相同维度，再将多个相同维度的第二局部模板特征相加，得到第一模板特征。利用同样的方法融合多个第二局部图像特征，在此不再赘述。第二局部模板特征和第二局部图像特征均融合了不同的尺度信息，并且通过维度变换使得维度一致，从而为后续重构做好预处理。

S270：对第一图像特征和第一模板特征进行序列重构以获得重构特征。

将第一图像特征和第一模板特征进行维度转换，并将维度转换后的第一图像特征和第一模板特征序列重构为一组特征，得到重构特征。其中，在此不具体限定维度转化的最终结果，只要使得维度转换后的第一图像特征和第一模板特征可以进行重构拼接的维度即可。

S290：利用自注意力机制对重构特征进行处理，以获得待检测图像中待检测目标的检测结果。

在上述步骤中分别提取了目标模板和待检测图像自身各个子区域之间的相似性特征之后，此步骤考虑目标模板和待检测图像之间的相关性，在步骤S270中，将第一图像特征和第一模板特征合并为同一个特征，因此在第一注意力模块中，基于自注意力机制对第一图像特征和第一模板特征进行特征比对，学习第一图像特征与第一图像特征之间、第一模板特征和第一模板特征之间、第一图像特征和第一模板特征之间的相似性特征，以根据相似性得到待检测图像中待检测目标的检测结果。根据上述步骤对两个特征进行重构，使得可以使用自注意力机制学习两个特征之间的相似性。

该实施方式中，通过利用两次注意力机制对目标模板和待检测图像进行处理，分别考虑目标模板和待检测图像自身各区域特征之间的依赖关系，以及目标模板和待检测图像之间的相似性，能够很好地提取了特征图不同局部区域之间的响应值/依赖关系/相似性，提升了特征的表达能力和鲁棒性。在目标模板仅有一个的情况下，仍然可以提高目标检测的准确性。同时，在特征提取时对特征图进行分块处理，考虑不同尺寸特征，提高多尺度目标检测的准确性，共同作用提升目标检测性能。从而支持任意目标的检测，而无需再大量地采集待检测目标的训练数据，大大地节省数据采集、数据标注、数据存储、模型维护成本。

在进行上述小样本目标检测之前，需要先对目标检测模型进行训练，请参阅图3，图3是本申请小样本目标检测模型训练方法一具体实施方式中的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图3所示的流程顺序为限。如图3所示，本实施方式包括：

S310：构建数据集。

分别构建包含大量标签的数据集Base dataset和包含少量标签的数据集Noveldataset。包含大量标签的数据集用于进行模型训练，包含少量标签的数据集用于模型性能检测。

包含大量标签的数据集Base dataset可以从公开的数据集、现有历史已标注数据集上获得，并且这些数据可以是目标检测领域，也可以是目标跟踪领域。例如：COCO、YOUTUBEBB、GOT数据集等。

包含少量标签的数据集Novel dataset包括的目标类型是包含大量标签的数据集Base dataset中未见过的新类别。

S330：构建小样本目标检测初始模型。

首先构建目标检测初始模型，目标检测初始模型包括特征提取模块和第一注意力模块。其中，特征提取模块为卷积神经网络。请参阅图4，图4是本申请目标检测初始模型的流程示意图。

S350：利用包含大量标签的数据集对小样本目标检测初始模型进行训练。

获取有标签的样本图像和样本图像中标记的目标模板，训练时，会根据已有标签，构造“目标模板”以及“样本图像”：对于COCO等静态数据来说，标注框作为“目标模板”，对应的整张图像作为“样本图像”；对于GOT等跟踪数据来说，某一帧的标注框作为“目标模板”，而其他任意一帧作为“样本图像”。

将目标模板和样本图像输入至目标检测初始模型以获得样本目标检测结果。

具体地，将目标模板和样本图像分别输入小样本目标检测初始模型的主干网络中，其中，目标模板和样本图像均为三通道图像，目标模板的维度为3×W₁×H₁，样本图像的维度为3×W₂×H₂，在本申请的实施方式中，主干网络使用的是卷积神经网络。利用参数共享的卷积神经网络分别对目标模板和样本图像进行特征提取，对目标模板进行特征提取得到维度为d×W_T×H_T的初始模板特征，对样本图像进行特征提取得到维度为d×W_S×H_S的初始图像特征。

进一步地，分别对初始模板特征和初始图像特征进行分块处理，当对初始模板特征进行块尺寸为P_t的分块处理时，将维度为d×W_T×H_T的初始模板特征分成一系列展平的2D块，每个2D块的维度为d×P_t×P_t，该序列一共有N_t个展平的2D块，其中，N_t=（W_T×H_T）/P_t ²，得到维度为x_pt∈N_t×（P_t ²×d）的转换结果。在该实施方式中，分别对初始模板特征和初始图像特征进行三种不同尺度的分块处理。具体地，以尺寸P为基准，分别进行块尺寸为P/2、P、2P的分块操作。对初始模板特征进行块尺寸为P/2的分块操作，得到维度为x_pt/2∈N_t×（0.25P_t ²×d）的第一局部模板特征T₁，对模板特征进行块尺寸为P的分块操作，得到维度为x_pt∈N_t×（P_t ²×d）的第一局部模板特征T₂，对模板特征进行块尺寸为2P的分块操作，得到维度为x_2pt∈N_t×（4P_t ²×d）的第一局部模板特征T₃。同样地，对初始图像特征进行块尺寸为P/2的分块操作，得到维度为x_ps/2∈N_s×（0.25Ps²×d）的第一局部图像特征S₁，对初始图像特征进行块尺寸为P的分块操作，得到维度为x_ps∈N_s×（P_s ²×d）的第一局部图像特征S₂，对初始图像特征进行块尺寸为2P的分块操作，得到维度为x_2ps∈N_s×（4P_s ²×d）的第一局部图像特征S₃。

利用Transformer编码器分别对初始模板特征分块得到的三个第一局部模板特征进行处理，Transformer编码器主要利用注意力机制计算不同块之间的相似性。以下以维度为xpt∈N_t×（P_t ²×d）的第一局部模板特征T₂为例对Transformer编码器的计算过程进行说明。首先，利用sin-cos规则获取T₂的位置编码向量，计算方式如下：

然后，将T₂于位置编码向量相加，得到自注意力层的输入向量T₂+PE，继续定义三个可学习矩阵W_q、W_k、W_v，将T₂+PE分别与三个可学习矩阵W_q、W_k、W_v相乘，得到Q₂、K₂、V₂，计算方法如下：

其中，Q₂、K₂、V₂与输入的T₂的维度相同。将Q₂和K₂的转置进行点乘计算T₂各特征之间的相似性，并利用softmax转换为概率分布，编码得到了T₂中不同2D块之间的依赖关系，然后将概率分布和V₂进行加权求和即可以得到自注意力层的输出Z₂，具体计算方式如下：

，

然后，将Z₂输入到前馈神经网络中得到Transformer编码器的最终输出结果，维度为N_t×（P_t ²×d）的第二局部模板特征Y_t2，具体计算方式如下：

，

其中，Y_t2与T₂的维度相同，即N_t×（P_t ²×d）。该编码结果中每个位置（1~N）的特征都包含了其它位置特征对它的响应值，通过Transformer编码器中的自注意力机制，使得特征编码结果充分利用了不同局部区域之间的响应值/依赖关系/相似性，使得该编码特征更加鲁棒，更有利于目标检测。

利用上述方法，计算得到T₁对应有维度为x_pt/2∈N_t×（0.25P_t ²×d）的第二局部模板特征Y_t1，T₃对应有维度为x_2pt∈N_t×（4P_t ²×d）的第二局部模板特征Y_t3分别为：

同上，利用Transformer编码器分别对三个第一局部图像特征进行处理，得到维度为x_ps/2∈N_s×（0.25Ps²×d）的第二局部图像特征Ys₁，维度为x_ps∈N_s×（Ps²×d）第二局部图像特征Ts₂和维度为x_2pt∈N_s×（4Ps²×d）第二局部图像特征Y_s3。

进一步地，分别对上述得到的三个第二局部模板特征和三个第二局部图像特征进行特征融合。因Y_t1、Y_t2和Y_t3的维度不同，则将其维度均转换为N_t×（P_t ²×d），将维度调整后的Y_t1、Yt₂和Y_t3相加，得到第一模板特征，维度依然为N_t×（P_t ²×d）。同样地，将Y_s1，T_s2和Y_s3的维度均转换为N_s×（_Ps2×d），将维度调整后的Y_s1，T_s2和Y_s3相加，得到第一图像特征，维度依然为N_s×（P_s ²×d）。

进一步地，对第一模板特征和第一图像特征进行维度变换，使得两者可以进行序列重构，首先对第一模板特征先进行维度增加，具体地，利用unsqueeze(0)函数增加维度，将第一模板特征的维度由N_t×（P_t ²×d）转换为1×（N_t×（P_t ²×d）），再进行降维操作，将维度转换为1×d_new，得到F_t，即转换后的第一模板特征为一维特征。对应地，对第一图像特征进行降维操作，将维度由N_s×（P_s ²×d）转换为Ns×d_new，得到F_s。

将上述方法得到的F_t和F_s进行特征序列重构，得到重构特征S，该特征序列的长度为N_s+1，每个特征元素的维度为d_new，重构特征S的维度为（N_s+1）×d_new。此时，重构特征S中包含有目标模板和样本图像的数据特征。

利用Transformer编码器对重构特征S进行处理，计算目标模板与样本图像各区域块之间响应值。具体的计算方式与上述Transformer编码器相同，在此不再赘述。将Transformer编码器输出的结果进行分类Head和回归Head，得到检测框的目标类别和置信度以及检测框的坐标信息，由此得到最终的目标检测结果。其中，分类Head和回归Head均为“卷积+BN+ReLU激活+卷积”的组合操作。由此，该目标检测初始模型的第一次迭代结束。

基于样本目标检测结果和目标模板获得分类损失和回归损失。

具体地，利用目标检测结果以及目标模板对目标检测初始模型的参数进行调整。具体地，本申请的实施方式中，损失函数包括分类loss（los_loss）以及回归loss（reg_loss）。los_loss采用二分类交叉熵损失（softmax loss），而reg_loss采用smooth L1损失等，对los_loss和reg_loss分别配以可学习权重系数α，β，然后进行加权求和得到最终训练的损失total_los，其计算公式为：

。

之后基于上述损失函数，进行反向传播更新模型参数，最终得到训练好的目标检测初始模型。

S370：利用包含少量标签的数据集对训练之后的目标检测初始模型进行性能检测。

Novel dataset上只包含很少标签的待检测的数据，该数据包含的目标类型是训练集中未见过的新类别。是利用Novel dataset中仅有的少量标签，去检测Novel dataset中的新目标类型。例如，当前需要检测目标A，但训练集Base dataset中不包含目标A，提供一张或几张目标A的图片作为目标模板，同时将需要检测图像作为样本图像，将目标模板和样本图像输入训练好的小样本目标检测初始模型中，输出对应目标A视为检测框和置信度。利用非极大值抑制操作得到最终的待检测目标检测结果。

在该具体实施方式中，训练一种通用的目标检测模型，在包含大量标签的数据集Base dataset上进行训练后，只需输入目标模板、待检测图像即可完成目标的检测，即使该目标模板的目标类型在训练集中从未出现过。在进行初步特征提取之后，进行分块操作，以尺寸P为基准，分别进行块尺寸为P/2、P、2P的分块操作，从而得到了具有不同尺寸局部特征的2D块，很大程度上解决多尺度目标检测的难点。通过对分块后的特征进行融合，第二局部模板特征和第二局部图像特征均融合了不同的尺度信息，并且通过维度变换使得维度一致，从而为后续重构做好预处理。最终对重构特征使用的自注意力机制获取了目标模板与目标模板之间、待检测图像与待检测图像之间、目标模板与待检测图像之间的相似性，使得最后输出的回归检测框和分类置信度更加具有泛化性和鲁棒性，这样大大提升检测性能。从而支持任意目标的检测，而无需再大量地采集待检测目标的训练数据，大大地节省数据采集、数据标注、数据存储、模型维护成本。

请参阅图5，图5是本申请实施方式中电子设备的结构示意图。该实施方式中，电子设备51包括处理器52。

处理器52还可以称为CPU（Central Processing Unit，中央处理单元）。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器52也可以是任何常规的处理器等。

电子设备51可以进一步包括存储器（图中未示出），用于存储处理器52运行所需的指令和数据。

处理器52用于执行指令以实现上述本申请小样本目标检测方法任一实施例及任意不冲突的组合所提供的方法。

请参阅图6，图6是本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质61存储有指令/程序数据62，该指令/程序数据62被执行时实现本申请小样本目标检测方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令/程序数据62可以形成程序文件以软件产品的形式存储在上述存储介质61中，以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质61包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种小样本目标检测方法，其特征在于，所述方法包括：

基于自注意力机制对包含待检测目标的目标模板进行特征提取以获得第一模板特征，以及基于自注意力机制对待检测图像进行特征提取以获得第一图像特征；

基于注意力机制对所述第一图像特征和所述第一模板特征进行特征比对，以获得所述待检测图像中所述待检测目标的检测结果。

2.根据权利要求1所述的小样本目标检测方法，其特征在于，

所述基于自注意力机制对包含待检测目标的目标模板进行特征提起以获得第一模板特征包括：对所述目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征；基于自注意力机制对多个所述第一局部模板特征进行特征编码以获得多个第二局部模板特征；对多个所述第二局部模板特征进行融合以获得所述第一模板特征；和/或，

所述基于自注意力机制对待检测图像进行特征提取以获得第一图像特征包括：对所述待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征；基于自注意力机制对多个所述第一局部图像特征进行特征编码以获得多个第二局部图像特征；对多个所述第二局部图像特征进行融合以获得所述第一图像特征。

3.根据权利要求2所述的小样本目标检测方法，其特征在于，

所述对所述目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征包括：对所述目标模板进行特征提取以获得初始模板特征；对所述初始模板特征进行不同尺寸的分块操作以获得对应尺寸的第一局部模板特征；和/或，

所述对所述待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征包括：对所述待检测图像进行特征提取以获得初始图像特征；对所述初始图像特征进行不同尺寸的分块操作以获得对应尺寸的第一局部图像特征。

4.根据权利要求1所述的小样本目标检测方法，其特征在于，所述基于注意力机制对所述第一图像特征和所述第一模板特征进行特征比对包括：

对所述第一图像特征和所述第一模板特征进行序列重构以获得重构特征；

利用自注意力机制对所述重构特征进行处理，以获得所述待检测图像中所述待检测目标的检测结果。

5.根据权利要求4所述的小样本目标检测方法，其特征在于，所述对所述第一图像特征和所述第一模板特征进行序列重构以获得重构特征包括：

将所述第一图像特征和所述第一模板特征进行维度转换；

将维度转换后的所述第一图像特征和所述第一模板特征序列重构为一组特征，得到重构特征。

6.根据权利要求1-2任一项所述的小样本目标检测方法，其特征在于，

目标检测模型包括特征提取模块和第一注意力模块，所述特征提取模块用于基于自注意力机制对所述包含待检测目标的目标模板进行特征提取以获得所述第一模板特征，以及基于自注意力机制对所述待检测图像进行特征提取以获得所述第一图像特征；

所述第一注意力模块用于基于注意力机制对所述第一图像特征和所述第一模板特征进行特征比对，以获得所述待检测图像中所述待检测目标的检测结果。

7.根据权利要求6所述的小样本目标检测方法，其特征在于，

所述特征提取模块包括参数共享的卷积神经网络和并行的两个特征提取支路，所述卷积神经网络用于对所述目标模板进行特征提取以获得多个不同尺寸的第一局部模板特征，对所述待检测图像进行特征提取以获得多个不同尺寸的第一局部图像特征；

所述特征提取支路包括第二注意力编码网络，所述第二注意力编码网络用于基于自注意力机制对多个所述第一局部模板特征进行特征编码以获得多个第二局部模板特征，和/或基于自注意力机制对多个所述第一局部图像特征进行特征编码以获得多个第二局部图像特征。

8.根据权利要求6所述的小样本目标检测方法，其特征在于，训练所述目标检测模型包括：

构建训练数据集，所述训练数据集包括样本图像和包含样本目标的目标模板；

将所述目标模板和所述样本图像输入至目标检测初始模型以获得样本目标检测结果；

基于所述样本目标检测结果和所述目标模板获得分类损失和回归损失；

基于所述分类损失和所述回归损失调整所述目标检测初始模型的参数，以得到所述目标检测模型。

9.一种电子设备，其特征在于，包括处理器，所述处理器用于执行指令以实现如权利要求1-8任一项所述的小样本目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储指令/程序数据，所述指令/程序数据能够被执行以实现如权利要求1-8任一项所述的小样本目标检测方法。