CN115953665B

CN115953665B - 一种目标检测方法、装置、设备及存储介质

Info

Publication number: CN115953665B
Application number: CN202310221030.4A
Authority: CN
Inventors: 王金桥; 李宗树; 朱贵波; 吴凌翔; 刘智威; 葛国敬
Original assignee: Wuhan Artificial Intelligence Research Institute; Institute of Automation of Chinese Academy of Science
Current assignee: Wuhan Artificial Intelligence Research Institute; Institute of Automation of Chinese Academy of Science
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-06-02
Anticipated expiration: 2043-03-09
Also published as: CN115953665A; WO2024183181A1

Abstract

本申请实施例提供一种目标检测方法、装置、设备及存储介质，涉及图形数据读取技术领域，所述方法包括：基于视觉transformer模型获取的查询特征图序列和支持特征图序列进行相关性汇聚运算的结果，确定第二查询特征图序列；基于第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定用于获取查询特征图序列的查询图像对应的预测结果。本申请提供的目标检测方法，极大地缩短了视觉transformer模型的收敛时间，降低了利用该模型预测边界框的难度，既能有效地提取查询图像中和支持类别相关的目标特征区域，同时能够使查询分支不局限于特定支持类别目标实例，能检测任意类别的目标实例。

Description

一种目标检测方法、装置、设备及存储介质

技术领域

本申请涉及图形数据读取技术领域，尤其涉及一种目标检测方法、装置、设备及存储介质。

背景技术

在过去十年中，基于深度学习技术的目标检测算法的性能得到了极大的提升，然而基于深度学习技术的目标检测算法通常需要大量的训练数据，因此很难将训练好的目标检测模型用于常见目标检测数据集中不存在的新类别目标的真实场景。对真实场景中的新类别进行标注需要消耗大量人力物力，甚至某些应用场景下获取大量原始图像数据十分困难，如医学应用或稀有物种检测。然而与基于深度学习的目标检测算法相比，人类天生就具有从极少数样本中学习新概念的能力，即使是婴幼儿，只需见过一次或几次新类别的目标，也能从中学习新目标类别的抽象概念。促使小样本目标检测（few-shot objectdetection，FSOD）成为目前较有前景的研究领域，而小样本目标检测应用于深度学习的过程中，仍存在过拟合或欠拟合的现象。

因此，在现实的应用场景中，在深度学习的过程中，有效利用小样本目标检测所需要的尽可能少的监督信息，依然是目前业界亟待解决的重要课题。

发明内容

针对现有技术存在的问题，本申请实施例提供一种目标检测方法、装置、设备及存储介质。

第一方面，本申请实施例提供一种目标检测方法，包括：

基于视觉transformer模型获取的查询特征图序列和支持特征图序列进行相关性汇聚运算的结果，确定第二查询特征图序列；

基于所述第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定用于获取所述查询特征图序列的查询图像对应的预测结果；所述预测结果包括：预测边界框、预测类别以及对应的类别置信度；

所述视觉transformer模型是基于噪声数据样本进行预训练，并通过新类别数据样本进行微调得到的，所述噪声数据样本由原始基础类别样本添加随机噪声获得。

可选地，所述视觉transformer模型是基于噪声数据样本进行预训练，并通过新类别数据样本进行微调得到的，所述噪声数据样本由原始基础类别样本添加随机噪声获得，所述添加随机噪声的方法包括：

获取所述原始基础类别样本中的边界框和类别，分别作为第一边界框和第一类别；

基于所述第一边界框的中心点的随机抖动结果，确定所述第一边界框的中心点对应的噪声中心点；

基于所述第一边界框的宽或高进行随机缩放的结果，确定所述第一边界框对应的噪声边界框；

基于所述第一类别的随机翻转结果，确定所述第一类别对应的噪声类别；

基于所述原始基础类别样本，以及所述噪声中心点、所述噪声边界框和所述噪声类别中的任一个或组合，确定所述噪声数据样本。

可选地，所述视觉transformer模型是基于噪声数据样本进行预训练，并通过新类别数据样本进行微调得到的，对应的训练方法包括：

基于交叉熵损失函数、泛化交并比和浅层特征得分图损失函数，确定所述视觉transformer模型的损失函数；

为所述噪声数据样本确定的噪声目标查询序列添加注意力掩码，作为第一目标查询序列；

基于锚框确定的目标查询序列和所述第一目标查询序列，以及所述噪声数据样本对应的真实边界框和真实类别，确定所述损失函数最小时，所述视觉transformer模型的预训练完成；

基于获取的新类别数据样本，对预训练完成的所述视觉transformer模型进行微调。

可选地，所述基于交叉熵损失函数、泛化交并比和浅层特征得分图损失函数，确定所述视觉transformer模型的损失函数，包括：

基于交叉熵损失函数，确定类别重建损失函数；

基于泛化交并比和浅层特征得分图损失函数的加权和，确定边界框损失；

基于所述类别重建损失函数和所述边界框损失函数，确定所述视觉transformer模型的所述损失函数。

可选地，所述基于视觉transformer模型获取的查询特征图序列和支持特征图序列进行相关性汇聚运算的结果，确定第二查询特征图序列，包括：

接收按照第一输入格式输入的所述支持特征图序列，以及按照第二输入格式输入的所述查询特征图序列；

基于感兴趣区域对其算子，提取所述支持特征图序列中包含的类别对象实例；

基于全局平均池化算子，将各所述类别对象融合至对应类别的向量中，得到支持类别原型；

基于所述查询特征图序列与所述支持类别原型的编码匹配结果以及特征匹配结果，确定第二查询特征图序列。

可选地，所述基于所述查询特征图序列与所述支持类别原型的编码匹配结果以及特征匹配结果，确定第二查询特征图序列，包括：

基于所述支持类型原型和背景类别原型，确定用于进行单头自注意力运算中特征匹配的第一参数V和第二参数K；

基于所述支持类型原型、所述背景类别原型和任务编码矩阵，确定用于单头自注意力运算中编码匹配的第一参数V和第二参数K；

基于所述查询特征图序列，确定用于单头自注意力运算中特征匹配以及编码匹配的第三参数Q；

基于所述第一参数V、第二参数K和第三参数Q，分别进行编码匹配和特征匹配，输出对应的匹配结果，作为第二查询特征图序列。

可选地，所述基于所述第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定用于获取所述查询特征图序列的查询图像对应的预测结果，包括：

基于所述第二查询特征图序列的自注意力运算结果，确定更新后的所述第二查询特征图序列；

基于自注意力运算和交叉注意力运算，确定目标查询序列和更新后的所述第二查询特征图序列之间的运算结果，作为用于获取所述查询特征图序列的查询图像对应的预测结果。

可选地，所述方法还包括：

对所述查询图像对应的预测结果进行归一化处理；

筛选前N个最大的类别置信度所属的预测结果，作为所述查询图像对应的目标检测结果；所述N为正整数。

第二方面，本申请实施例还提供一种视觉transformer模型，包括由多头自注意单元和单头自注意力单元构成的相关性汇聚模块；

所述多头自注意单元，用于基于感兴趣区域对齐，将支持特征图序列映射至规定大小的特征图，确定支持类别原型；

所述单头自注意力单元，用于基于所述查询特征图序列与所述支持类别原型的编码匹配结果以及特征匹配结果，确定第二查询特征图序列。

第三方面，本申请实施例还提供一种目标检测装置，包括：

相关性汇聚模块，用于基于视觉transformer模型获取的查询特征图序列和支持特征图序列进行相关性汇聚运算的结果，确定第二查询特征图序列；

可变形transformer模块，用于基于所述第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定用于获取所述查询特征图序列的查询图像对应的预测结果；所述预测结果包括：预测边界框、预测类别以及对应的类别置信度；

第四方面，本申请实施例还提供一种电子设备，包括存储器，收发机，处理器；

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并实现如上所述第一方面所述的目标检测方法。

第五方面，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上所述第一方面所述的目标检测方法。

第六方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使处理器执行如上所述第一方面所述的目标检测方法。

第七方面，本申请实施例还提供一种通信设备可读存储介质，所述通信设备可读存储介质存储有计算机程序，所述计算机程序用于使通信设备执行如上所述第一方面所述的目标检测方法。

第八方面，本申请实施例还提供一种芯片产品可读存储介质，所述芯片产品可读存储介质存储有计算机程序，所述计算机程序用于使芯片产品执行如上所述第一方面所述的目标检测方法。

第九方面，本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述第一方面所述的目标检测方法。

本申请实施例提供的目标检测方法、装置、设备及存储介质，使用噪声数据样本对视觉transformer模型进行预训练，并采用新类别数据样本对视觉transformer模型进行微调，基于该视觉transformer模型构建目标检测方法，对支持图像和查询图像进行特征提取，并进行相关性汇聚运算，以及自注意力运算和/或交叉注意力运算，确定上述查询图像对应的预测边界框、预测类别以及对应的类别置信度。不但能在大量公开数据上进行高效训练和快速收敛，而且能把从大量公开数据上学习到的抽象元知识迁移到下游小样本微调任务中，从而提高了下游小样本新类别目标检测任务的精确率和召回率。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的目标检测方法的流程示意图；

图2是本申请实施例提供的真实边界框和噪声边界框的示意图；

图3是本申请实施例提供的相关性汇聚模块结构示意图；

图4是本申请实施例提供的相关性汇聚模块中的单头自注意力模块实现特征匹配和编码匹配的实施示意图；

图5是本申请实施例提供的可变形transformer的整体结构示意图；

图6是本申请实施例提供的可变形编码器的结构示意图；

图7是本申请实施例提供的可变形解码器的结构示意图；

图8是本申请实施例提供的可变形自注意力和/或交叉注意力运算的实现过程示意图；

图9是本申请实施例提供的目标检测装置的结构示意图；

图10是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的目标检测方法的流程示意图；如图1所示，该方法包括：

步骤101、基于视觉transformer模型获取的查询特征图序列和支持特征图序列进行相关性汇聚运算的结果，确定第二查询特征图序列；

步骤102、基于所述第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定用于获取所述查询特征图序列的查询图像对应的预测结果；所述预测结果包括：预测边界框、预测类别以及对应的类别置信度；

具体地，基于元学习算法，构建视觉transformer模型的整体架构，使用参数共享的同一个视觉transformer模型分别对支持图像和查询图像进行特征提取，具体通过视觉transformer模型中的卷积网络模块对输入的支持图像和查询图像分为两个分支，进行初步的多尺度特征图提取，经过卷积网络模块的卷积神经网络，提取的多尺度特征图，该多尺度特征图对应于位于最浅层到最深层的各通道数，且各层的通道数不相等，假设位于最浅层，对应的多尺度特征图中尺寸最大的特征图的通道数为Ch，那么多尺度特征图的通道数由浅层到深层科表示为Ch，2Ch，4Ch，8Ch，…，其中Ch表示一个具体的数目，且大于等于1，卷积网络模块提取的多尺度特征图的数量科根据需求设定，如果需要对图像进行更精细的划分，通道数可设置较大的值，否则，可设置较小的值，通常设置的值为3或4。每个支持图像通过上述处理后，得到多个不同尺度的特征图，每个尺度的特征图可通过一个特征向量表示，所有不同尺度的特征图构成一个序列，即该支持图像对应的支持特征图序列，同样，每个查询图像也可以得到对应的查询特征图序列。

为了使得通过卷积网络模块提取的特征图序列，便于后续可变形transformer处理，一般将不同尺度特征图在各层上的通道数保持一致，因此，对多尺度特征图中的每个使用卷积和GroupNorm结合的方式，在同一层将不同的通道数由归一化层将其通道数统一映射到一个相同的数值。上述卷积和归一化层的参数在不同尺度的特征图之间不共享。完成上述不同尺度特征图在通道维度的对齐后，将多尺度特征图在空间维度展平，作为后续视觉transformer模型中的相关性汇聚模块（Correlational Aggregation Module，CAM）的输入特征图序列。

由相关性汇聚模块对支持特征图序列进行多头自注意力运算，提取支持类别原型，该支持类别原型不限定具体的支持类别，只限定支持类别的个数，任意类别可通过编码匹配，映射至支持类别原型所对应的多个支持类别对应的向量中，从而实现了类别未知（class-agnostic）的目标检测。并对上述查询特征图序列以及该支持类别元素进行交互和相关性汇聚运算，从查询特征图序列中提取和支持类别原型相关的特征区域，并使得相关性汇聚模块不依赖于已确定的支持类别，而能进行类别未知的边界框和类别置信度预测，进而得到第二查询特征图序列。

将上述第二查询特征图序列输入视觉transformer模型中的可变形transformer模块，对该第二查询特征图序列进一步进行特征提取，具体将该第二查询特征图序列进行可变形自注意力运算，提取输入的第二查询特征图序列中包含目标示例的区域，抑制背景区域或图像中不包含语义信息的部分。然后利用目标查询序列对查询特征图序列中的待检测目标进行探测，进一步进行分类和定位，从而确定所述查询图像对应的预测结果；所述预测结果包括：预测边界框、预测类别以及对应的类别置信度。可将上述预测结果作为目标检测的结果。

上述视觉transformer模型基于元学习算法构建，并通过噪声数据样本进行预训练，以及新类别数据样本进行微调后得到。该噪声数据样本是对原始基础类别样本添加随机噪声获得的，原始基础类别样本通常为数据量充足，易获取的样本数据，新类别数据样本通常为不易获取，且数据量较少的数据，一般是确定目标域后，如医学应用或稀有物种检测作为目标域，筛选属于该目标域的数据样本，作为新类别数据样本。采用原始基础类别样本以及上述噪声数据样本对视觉transformer模型进行预训练，得到该视觉transformer模型的相关参数，对应的降噪预训练方法加速视觉transformer模型的收敛并改善了算法性能，进一步采用新类别数据样本对该视觉transformer模型进行训练，实现对该视觉transformer模型的参数微调，使得该视觉transformer模型能更加精准地预测出基于参考点的边界框偏移量。

本申请实施例提供的目标检测方法，使用噪声数据样本对视觉transformer模型进行预训练，并采用新类别数据样本对视觉transformer模型进行微调，基于该视觉transformer模型构建目标检测方法，对支持图像和查询图像进行特征提取，并进行相关性汇聚运算，以及自注意力运算和/或交叉注意力运算，确定上述查询图像对应的预测边界框、预测类别以及对应的类别置信度。不但能在大量公开数据上进行高效训练和快速收敛，而且能把从大量公开数据上学习到的抽象元知识迁移到下游小样本微调任务中，从而提高了下游小样本新类别目标检测任务的精确率和召回率。

具体地，上述视觉transformer模型进行预训练的样本包括噪声数据样本和原始基础类别样本，其中，噪声数据样本是由原始基础类别样本添加随机噪声获得，所述添加随机噪声的方法包括：

获取所述原始基础类别样本中的边界框和原始基础类别样本对应的类别，这里的原始基础类别样本中的边界框，以及原始基础类别样本对应的类别通常是打标之后的数据信息，分别作为第一边界框和第一类别；

对该第一边界框添加噪声主要有两种方式：（1）将该第一边界框的中心点坐标

进行随机抖动，随机抖动的噪声大小为/>

，作为噪声中心点；（2）使用预设的范围在（0,1）之间的超参数/>

对该第一边界框标签的高或宽进行随机缩放，作为噪声边界框，如果该第一边界框的宽和高为/>

和/>

，那么随机缩放后的边界框宽的数值范围为/>

，随机缩放后的边界框高的数值范围为/>

。图2是本申请实施例提供的真实边界框和噪声边界框的示意图，如图2所示，实线的矩形框表示真实边界框，较细的圆点表示真实边界框的中心点，虚线的矩形框表示噪声边界框，较粗的圆点表示噪声边界框的中心点；真实边界框的宽度用w表示，高度用h表示；噪声边界框的宽度用w'表示，高度用h'表示。

对第一类别添加随机噪声，主要是将该类别随机翻转，即随机改变该第一类别的真实类别标签为其他类别，将其作为噪声类别。

然后根据所述噪声中心点、所述噪声边界框和所述噪声类别中的任一个或组合，替换原始基础类别样本中对应的第一边界框的中心点、第一边界框和/或第一类别，从而确定噪声数据样本。比如添加随机噪声是采用添加类别噪声的方式，将确定的噪声类别替换原始基础类别样本中对应目标实例的第一类别，作为噪声数据样本，或者添加随机噪声是采用对边界框添加噪声的方式，确定了噪声中心点和噪声边界框，将该噪声中心点和噪声边界框替换原始基础类别样本中对应目标实例的第一边界框的中心点和第一边界框，作为噪声数据样本。

对于预训练的每次迭代而言，噪声样本可以有多个，生成噪声数据样本后，将所述噪声数据样本作为所述可变形transformer模块的额外目标查询序列，和原来输入可变形transformer模块的原始目标查询序列合并后作为可变形transformer模块的输入，在此之前，需要确定视觉transformer模型的损失函数，该损失函数包括类别重建损失函数和边界框损失函数，具体可通过交叉熵损失函数、泛化交并比（Generalized Intersection overUnion，GIoU）和浅层特征得分图损失函数（L1损失函数）来确定，比如使用交叉熵损失函数Focal loss确定类别重建损失函数，基于泛化交并比GIoU和L1损失函数，采用加权求和的方式，确定边界框损失函数。再根据类别重建损失函数和边界框损失函数，确定视觉transformer模型的损失函数。

此外，在视觉transformer模型中的可变形transformer模块，还会将上述噪声数据样本构成的噪声目标查询序列和原始目标查询序列合并作为输入，由于所述噪声目标查询序列中含有所述真实边界框标签和所述类别标签的信息，为了防止训练阶段过拟合，在该噪声目标查询序列还可添加注意力掩码，防止该噪声目标查询序列中的真实标签信息泄露到原始目标查询序列中，因此，一个真实标签生成了多个不同版本的噪声，所述不同版本的噪声目标查询序列之间应该互不干扰，每个不同版本的噪声目标查询序列之间也添加了注意力掩码。

视觉transformer模型中的二分图匹配模块，接收可变形transformer模块输出的预测结果，该预测结果中包括的预测边界框数量和目标查询序列的长度，即预测边界框的数量和目标查询序列中特征向量的个数相同，因此，查询图像中的真实目标边界框的数量远小于该视觉transformer模型中的可变形transformer模块输出的预测边界框的数量。为了将可变形transformer模块输出的预测边界框和所述真实目标边界框之间形成一对一的二分图匹配，通常将没有和真实目标边界框匹配的查询特征图序列中的某一个或某几个特征向量与空目标类别进行匹配。

二分图匹配模块的目的是使目标查询序列和真实目标边界框以及空目标类别的一对一匹配对应的损失值达到最小，基于匈牙利算法确定的二分图匹配模块的目标函数可表示为：

其中，

表示目标查询序列和所述真实标签以及空目标类别之间二分图匹配的任一结果；/>

表示目标查询序列和所述真实标签以及空目标类别之间二分图匹配结果的集合，/>

表示目标查询序列和所述真实标签以及空目标类别之间二分图匹配的最优结果；N表示目标查询序列的长度；/>

表示查询图像或支持图像中第/>

个目标边界框的抽象结果，具体来说包括第/>

个目标边界框的类别标签和矩形边界框标签，第/>

个边界框有可能是空类别，所谓空类别是背景类别，背景类别只有类别标签，没有边界框标签；/>

是视觉transformer模型对查询图像或支持图像中第/>

个边界框输出的预测结果的抽象表示，具体来说包括模型对第/>

个目标边界框的预测类别和预测矩形边界框；/>

表示模型输出的预测边界框的序号；/>

表示目标查询序列中单个特征向量和视觉transformer模型中可变形transformer模块输出的单个预测结果对应的二分图匹配的损失函数。损失函数在模型预测和目标标签之间进行比较，比较的是（1）预测的类别标签和真实类别标签之间是否相同，进而计算损失函数值，属于分类问题；（2）预测的矩形边界框和真实矩形边界框之间是否接近，属于回归问题，二者在中心点和尺寸（矩形框的宽和高）上越接近，则损失值越小，否则损失值越大。

视觉transformer模型损失函数

的具体运算公式可用如下公式表示：

其中，

表示匈牙利算法匹配的第/>

个目标查询与真实标签对中的真实标签（目标类别和目标边界框），/>

表示匈牙利算法匹配的第/>

个目标查询与真实标签对中的目标查询的预测边界框（真实目标类别置信度和预测矩形边界框），/>

表示艾弗森括号，当/>

成立时，该艾弗森括号取值为1，当/>

不成立时，该艾弗森括号取值为0，/>

表示匈牙利算法匹配的第/>

个目标查询与真实标签对中的真实目标类别标签，/>

表示空目标类别，/>

表示匈牙利算法匹配的第/>

个目标查询与真实标签对中的真实矩形边界框标签，/>

表示匈牙利算法匹配的第/>

个目标查询与真实标签对中的目标查询向量在原目标查询序列中的序号/索引，/>

表示匈牙利算法匹配的第/>

个目标查询与真实标签对中目标查询预测的矩形边界框，/>

表示匈牙利算法匹配的第/>

个目标查询与真实标签对中目标查询预测的真实类别置信度，/>

表示边界框定位损失。

所述边界框定位损失

可用如下公式表示：

其中，

是预设的IoU损失超参数，/>

是预设的L1损失超参数，/>

表示计算真实矩形边界框和预测矩形边界框之间的交并比（IoU）损失，/>

表示通过L1损失函数确定预测矩形边界框和真实矩形边界框之间的接近程度。

所述二分图匹配模块对所述视觉transformer模型中的可变形transformer模块输出的预测结果和所述真实标签之间进行一对一匹配，而所述预测结果包括多个，因此，可将所述可变形transformer模块输出的预测结果和真实标签+空类别当作两个集合，所述二分图匹配的本质是进行集合匹配，相应地，所述视觉transformer模型的损失函数可用如下公式表示：

其中，上述公式中各参数的含义与视觉transformer损失函数

中的完全相同。

可选地，所述基于所述查询特征图序列和支持类别原型进行相关性汇聚运算的结果，确定第二查询特征图序列，包括：

具体地，视觉transformer模型中的相关性汇聚模块包括多头自注意力模块和单头自注意力模块，为了便于对支持特征图序列以及查询特征图序列分别进行处理，以及进行相关性汇聚，通常采用统一的格式，比如支持特征图序列通常采用第一格式输入，该第一格式可表示为（C，P，d），而查询特征图序列通常采用第二格式输入，该第二格式可表示为（P，d），其中，C表示支持类别，P表示多尺度特征图序列的像素个数，d表示通道数。相关性汇聚模块输出的第二查询特征图序列同样采用第二格式输出。

图3是本申请实施例提供的相关性汇聚模块结构示意图，如图3所示，相关性汇聚模块主要包括一个多头自注意力模块和一个单头自注意力模块，其中，多头自注意力模块的作用是对支持特征图序列或查询特征图序列进行全局自注意力运算。单头自注意力模块在支持类别原型和查询序列之间进行交互和相关性汇聚运算。另外，由于模型大小和运算量的限制，CAM模块中的多头自注意力模块有且只有一个，因此用于支持特征图序列和查询特征图序列全局自注意力运算的多头自注意力模块的参数完全共享。经过所述的多头自注意力模块后，支持特征图序列和查询特征图序列的格式不变，即支持特征图序列的格式仍为（C，P，d），查询特征图序列的格式仍为（P，d）。

相关性汇聚模块中的多头自注意力模块，对上述支持特征图序列使用感兴趣区域（Region of Interest，RoI）对齐算子，从支持特征图序列中提取包含支持类别对应实例对象的相关区域，也就是将任意大小的特征图映射到规定大小的特征图，规定大小的特征图一般为宽高相等的正方形。可以假设任意大小的特征图的尺寸为m×n，通过RoI对齐算子，将任意大小的特征图按照规定映射得到的特征图大小为k×k。再利用全局平均池化算子，将属于同一个类别对象的各空间维度信息融合至一个该类别对应的向量中，作为支持类别原型。

相关性汇聚模块中的单头自注意力模块在支持类别原型和查询特征图序列之间进行交互和相关性汇聚运算。相关性汇聚模块中的单头自注意力模块有如下两个功能，分别是特征匹配和编码匹配。由于模型大小和计算复杂度的限制，用于特征匹配的单头自注意力模块和用于编码匹配的单头自注意力模块的参数完全共享。具体地，特征匹配的作用是为了从查询特征图序列中提取和支持类别原型相关的特征区域，编码匹配的作用是使训练的模型不依赖于特定的支持类别，从而能进行类别未知的边界框和类别置信度预测。

基于所述支持类别原型、所述背景类别原型和任务编码矩阵，确定用于单头自注意力运算中编码匹配的第一参数V和第二参数K；

具体地，图4是本申请实施例提供的相关性汇聚模块中的单头自注意力模块实现特征匹配和编码匹配的实施示意图，如图4所示，C表示向量拼接，S表示使用sigmoid函数进行归一化。该单头自注意力模块用于基于所述查询特征图序列和所述支持类别原型的相关性汇聚运算结果，确定第二查询特征图序列。

单头自注意力模块的输入为支持类别原型和查询特征图序列，由于输入图像（查询图像和支持图像）中真实目标实例通常只占极少部分区域，而背景区域在输入图像中占大部分区域，因此，在支持类别原型中额外添加一个背景类别原型，且该支持类别原型和背景类别原型均采用向量的形式表示，背景类别原型对应的向量中各参数作为视觉transformer模型的参数在训练过程中不断地更新，添加背景类别原型后的支持类别原型对应的格式为（C+1，d）。在单头自注意力模块进行特征匹配时，直接将查询特征图序列作为单头自注意力模块的第三参数Q，将添加背景类别原型后的支持类别原型序列作为单头自注意力模块的第二参数K，将添加背景类别原型后的支持类别原型，使用sigmoid函数进行归一化后作为自注意力的第一参数V，基于上述第一参数V、第二参数K和第三参数Q，进行单头自注意力的特征匹配。其中，使用sigmoid函数进行归一化后的支持类别原型作为注意力矩阵的滤波器可以过滤掉查询特征图序列中和支持类别无关的特征向量，以达到按照支持类别原型对查询特征序列进行特征匹配或过滤的作用。

另一方面，单头自注意力模块进行编码匹配时，额外添加了作为视觉transformer模型可学习参数的任务编码矩阵，该任务编码矩阵由背景类别任务编码向量和目标类别任务编码矩阵组成。由于基于元学习算法确定的视觉transformer模型，在每次迭代训练过程中支持的样本均为特定支持类别样本，因此很容易造成视觉transformer模型对特定支持类别的过拟合，即造成视觉transformer模型对特定支持类别过于依赖的问题，为了解决这个问题，本申请通过引入任务编码矩阵，该任务编码矩阵由一个背景类别任务编码向量和一个目标类别任务编码矩阵构成，即将背景类别任务编码向量作为一个行向量添加到目标类别任务编码矩阵的首行或者尾行。将每次迭代训练输入的支持类别映射为任务编码矩阵中相应的任务编码向量，则每次迭代训练过程中所有支持类别被映射为相应的任务编码矩阵，使得相关性汇聚模块通过任务编码矩阵摆脱了对特定支持类别的依赖，实现了基于元学习的未知类别的小样本目标检测。每次迭代输入的目标类别任务编码矩阵的格式为（C，d），由于transformer的自注意力运算本质上为全连接层，而全连接层对输入序列具有排列不变性，即不同排列顺序的输入序列输入到全连接层后得到的输出完全相同，因此引入目标类别任务编码矩阵，目标类别任务编码矩阵中每个类别任务编码向量用于标识一个特定的位置，以逐元素相加的方式添加至自注意力运算得到的注意力系数组成的矩阵，即注意力特征图。相应地，在该目标类别任务编码矩阵末端额外添加一个背景类别任务编码向量，背景类别任务编码向量的维度为d，那么每次迭代训练的输入的第一参数V的格式为（C+1，d）。

单头自注意力模块进行编码匹配后，输出的编码匹配输出序列；单头自注意力模块进行特征匹配后，输出的特征匹配输出序列；且编码匹配输出序列和特征匹配输出序列的格式相同，均可表示为（P，d）。相关性汇聚模块将上述编码匹配输出序列和特征匹配输出序列逐各原始相加，获得相关性汇聚模块最终的输出，第二查询特征图序列。相关性汇聚模块既滤除了查询特征图序列中和支持类别无关的特征区域，同时也实现了不依赖于具体的支持类别，可以进行类别未知的小样本目标检测。相关性汇聚模块输出的第二查询特征图序列作为后续可变形transformer模块的输入，进行可变形自注意力和交叉注意力运算。

可选地，所述基于所述第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定所述查询图像对应的预测结果，包括：

基于自注意力运算和交叉注意力运算，确定目标查询序列和更新后的所述第二查询特征图序列之间的运算结果，作为所述查询图像对应的预测结果。

具体地，图5是本申请实施例提供的可变形transformer的整体结构示意图，如图5所示，视觉transformer模型中的相关性汇聚模块输出第二查询特征图序列后，作为该视觉transformer模型中的可变形transformer模块的输入，由该可变形transformer模块对第二特征图序列进行进一步的特征提取，并基于目标查询序列对提取后的第二特征图序列进行探测，从而确定查询图像对应的预测结果。

可变形transformer包括可变形编码器和可变形解码器，其中可变形编码器的输入为第二查询特征图序列，可变形编码器的主要功能是进一步对第二查询特征图序列进行特征提取，即对相关性汇聚模块输出的第二查询特征图序列进行可变形自注意力运算，所述第二查询特征图序列的可变形自注意力运算着重强调了输入查询图像中包含目标实例的区域，抑制背景区域或图像中不包含语义信息的部分。可变形解码器的输入有两个，分别为（1）上述可变形编码器输出的查询特征图序列，（2）视觉transformer模型的目标查询序列。目标查询序列作为视觉transformer模型的可学习参数在模型训练过程中不断更新。目标查询序列的作用类似于传统目标检测算法中的锚框，负责对查询特征图序列中的待检测目标进行探测，进一步使用多层感知机进行分类和定位，即确定待检测目标的类别预测结果和边界框预测结果。也就是确定查询特征图序列或支持特征图序列中每个特征向量经过多层感知机后输出的是对查询图像或支持图像中的目标所属的类别和目标边界框的预测。目标类别可以为空类别，目标边界框就是模型预测的矩形边界框。具体地，可变形解码器主要进行两种运算，分别为（1）目标查询序列的常规自注意力运算，常规自注意力是全局注意力机制，序列中的每个向量和序列中的所有向量进行自注意力运算；（2）目标查询序列和可变形编码器输出的查询特征序列之间的交叉注意力运算。可变形解码器中的目标查询序列的进行可变形自注意力运算的作用为在目标查询序列之间进行信息交互，着重强调包含丰富语义信息或目标实例信息的目标查询向量，同时抑制不包含任何有用信息的目标查询向量。可变形自注意力是稀疏自注意力机制，序列中的每个向量和序列中的部分向量进行自注意力运算。可变形解码器，将可变形编码器输出的查询特征图序列和目标查询序列作为输入，进行交叉注意力运算，可变形解码器中的交叉注意力运算的作用相当于传统目标检测算法中的网络头部部分，其中，可变形编码器的结构如图6所示，可变形编码器由4层组成，每个可变形编码器层的组成为可变形自注意力层、丢弃层、层归一化层以及多层感知机，上述丢弃层和层归一化层之间通过残差连接，相应地，与卷积神经网络不同，可变形transformer的输入序列不包含位置信息和时间序列信息，因此在可变形transformer编码器的输入查询特征图序列中添加位置编码信息，添加位置编码信息的方式为将查询特征图序列和位置编码向量逐元素相加。本申请实施例采用的位置编码向量主要表示为正弦-余弦位置编码，具体地，位置编码向量的计算公式如下：

其中，T表示温度系数，是提前预设的温度系数，在一定程度上反映了位置编码先验的长度；D表示位置编码向量的总维度，2i和2i+1代表位置编码向量在通道维度的索引，x表示位置编码向量在空间上的位置。PE（）表示一个函数的标识符，即通过向量在序列中的位置和向量的维度的索引计算中位置编码的具体数值，是一个实数。

图7是本申请实施例提供的可变形解码器的结构示意图，如图7所示，可变形解码器也由7层组成，每个可变形解码器层的组成为可变形自注意力层、丢弃层1、层归一化层1、可变形交叉注意力层、丢弃层2、层归一化层2以及一个多层感知机，其中，丢弃层1和层归一化层1之间，丢弃层2和层归一化层2之间通过残差连接。可变形自注意力层仅对视觉transformer的目标查询序列进行可变形自注意力运算，可变形交叉注意力模块以视觉transformer的目标查询序列作为Q序列，以可变形编码器输出的查询特征图序列作为V序列，其中，Q序列中任一向量可表示为q向量。因为可变形注意力机制是稀疏注意力，只针对参考点周围的向量进行注意力运算，可变形交叉注意力中Q序列中的每个q向量的参考点都使用额外的全连接层学习得到。这里的q向量的参考点为目标检测对象在原图中的位置。采用稀疏注意力，对参考点周围的向量进行学习，可以加速模型训练的收敛速度。可变形交叉注意力中的参考点使用全连接层映射得到。此外，可变形解码器模块中的常规自注意力运算只对输入的Q序列和K序列添加位置编码信息，对V序列不添加位置编码信息，可变形交叉注意力运算中只对输入的Q序列添加位置编码信息。可变形自注意力层中包括两个全连接层，对输入的Q序列进行映射，分别得到注意力系数和相对于参考点的采样偏移量。

图8是本申请实施例提供的可变形自注意力和/或交叉注意力运算的实现过程示意图，如图8所示，可变形自注意力和交叉注意力的区别在于注意力模块的V序列不同，可变形自注意力运算的V序列为目标查询序列，可变形交叉注意力运算的V序列为查询特征图序列。其中，V序列中每个元素可表示为v向量。与常规注意力机制不同的是，可变形注意力中Q序列的每个q向量并不对V序列中所有的v向量进行点积运算，而是只对当前q向量相应的参考点周围的部分v向量进行点积运算。具体地，可变形注意力机制可用如下公式表示：

其中，DeformAttn()是可变形自注意力运算的结果；

表示q向量的具体数值；

表示q向量对应的参考点；/>

表示可变形自注意力的输入序列；/>

和/>

表示系数矩阵；M表示可变形自注意力运算中注意力头的总数；m表示可变形自注意力运算中自注意力头对应的索引；K表示Q序列中每个q向量对应的参考点的总数；k为参考点的索引，表示K个参考点中的任一个；/>

表示可变形自注意力系数；/>

表示每个q向量进行点积运算的k向量相对于参考点/>

的位置偏移量。

上述系数矩阵

和/>

分别用于将进行注意力运算的向量映射到头部的通道维度和从头部的通道维度映射回原始通道维度，其中注意力系数/>

和采样偏移量

通过查询特征序列Q使用全连接层映射得到，上述全连接层的输出通道数为3MK，其中前2MK个通道表示每个q向量的二维参考点的采样偏移量/>

，最后MK个通道经过softmax函数归一化后表示q向量的注意力系数。由于二维参考点的采样偏移量的数值为分数，本申请实施例使用双线性插值计算该采样点对应的q向量在每个通道的具体数值。

可选地，所述方法还包括：

对所述查询图像对应的预测结果进行归一化处理；

筛选前N个最大的类别置信度所属的预测结果，作为所述查询图像对应的目标检测结果。

具体地，视觉transformer模型中的后处理模块，将可变形transformer模块中可变形解码器的输出转换为在输入图像上的预测边界框和相应的预测类别和类别置信度，这里的输入图像包括支持图像和查询图像。视觉transformer模型的后处理模块直接输出可变形transformer模块输出的预测结果，该预测结果包括预测边界框、相应的类别以及对应的类别置信度，或者取前N个预测结果输出。该后处理模块计算预测的各个类别的归一化置信度得分，取出前N个最大的预测类别置信度得分以及相应的预测边界框作为视觉transformer模型最终的输出，并将前N个预测边界框从[0，1]范围解码为相对于输入图像大小的绝对数值。

本申请实施例还提供一种视觉transformer模型，包括由多头自注意单元和单头自注意力单元构成的相关性汇聚模块；

所述单头自注意力单元，用于基于查询特征图序列与所述支持类别原型的编码匹配结果以及特征匹配结果，确定第二查询特征图序列。该第二查询特征图序列中既过滤掉查询特征图序列中和支持类别无关的查询区域向量，也通过任务编码矩阵摆脱了对特定支持类别的依赖，实现了基于元学习的类别未知少样本目标检测。

此外，该视觉transformer模型还包括特征提取模块，该特征提取模块，基于卷积神经网络建立，对输入的支持图像和查询图像分为两个分支，进行初步的多尺度特征图提取，经过卷积神经网络提取的多尺度特征图，该多尺度特征图对应于位于最浅层到最深层的各通道数，且各层的通道数不相等。每个支持图像通过上述处理后，得到多个不同尺度的特征图，每个尺度的特征图可通过一个特征向量表示，所有不同尺度的特征图构成一个序列，即该支持图像对应的支持特征图序列，同样，每个查询图像也可以得到对应的查询特征图序列。

图9是本申请实施例提供的目标检测装置的结构示意图，如图9所示，该装置包括相关性汇聚模块901和可变形transformer模块902，其中：

相关性汇聚模块901，用于基于视觉transformer模型获取的查询特征图序列和支持特征图序列进行相关性汇聚运算的结果，确定第二查询特征图序列；

可变形transformer模块902，用于基于所述第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定用于获取所述查询特征图序列的查询图像对应的预测结果；所述预测结果包括：预测边界框、预测类别以及对应的类别置信度；

具体地，本申请实施例提供的上述目标检测装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图10是本申请实施例提供的电子设备的结构示意图；如图10所示，该电子设备，包括处理器（processor）1010、通信接口（Communications Interface）1020、存储器（memory）1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行上述各实施例提供的任一所述目标检测方法，例如：

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在此需要说明的是，本申请实施例提供的上述电子设备，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

另一方面，本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各实施例所提供的目标检测方法。

另一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行上述各实施例提供的目标检测方法。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器（例如软盘、硬盘、磁带、磁光盘（MO）等）、光学存储器（例如CD、DVD、BD、HVD等）、以及半导体存储器（例如ROM、EPROM、EEPROM、非易失性存储器（NANDFLASH）、固态硬盘（SSD））等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种目标检测方法，其特征在于，包括：

基于所述第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定用于获取所述查询特征图序列的查询图像对应的预测结果，具体为第二查询特征图序列输入到可变形transformer模块中的可变形编码器，进行可变形自注意力运算；从可变形编码器输出的查询特征图序列及视觉transformer模型的目标查询序列输入到可变形transformer模块中的可变形解码器，目标查询序列和可变形编码器输出的查询特征序列之间进行可变形交叉注意力运算，并基于目标查询序列对从可变形编码器输出的查询特征图序列进行探测；所述预测结果包括：预测边界框、预测类别以及对应的类别置信度；

2.根据权利要求1所述的目标检测方法，其特征在于，所述噪声数据样本由原始基础类别样本添加随机噪声获得，所述添加随机噪声的方法包括：

3.根据权利要求2所述的目标检测方法，其特征在于，所述视觉transformer模型是基于噪声数据样本进行预训练，并通过新类别数据样本进行微调得到的，对应的训练方法包括：

4.根据权利要求1所述的目标检测方法，其特征在于，所述基于视觉transformer模型获取的查询特征图序列和支持特征图序列进行相关性汇聚运算的结果，确定第二查询特征图序列，包括：

基于感兴趣区域对齐算子，提取所述支持特征图序列中包含的类别对象实例；

5.根据权利要求4所述的目标检测方法，其特征在于，所述基于所述查询特征图序列与所述支持类别原型的编码匹配结果以及特征匹配结果，确定第二查询特征图序列，包括：

6.根据权利要求1所述的目标检测方法，其特征在于，所述视觉transformer模型包括由多头自注意单元和单头自注意力单元构成的相关性汇聚模块；

所述单头自注意力单元，用于基于查询特征图序列与所述支持类别原型的编码匹配结果以及特征匹配结果，确定第二查询特征图序列。

7.一种目标检测装置，其特征在于，包括：

可变形transformer模块，用于基于所述第二查询特征图序列的自注意力运算和/或交叉注意力运算的结果，确定用于获取所述查询特征图序列的查询图像对应的预测结果，具体为第二查询特征图序列输入到可变形transformer模块中的可变形编码器，进行可变形自注意力运算；从可变形编码器输出的查询特征图序列及视觉transformer模型的目标查询序列输入到可变形transformer模块中的可变形解码器，目标查询序列和可变形编码器输出的查询特征序列之间进行可变形交叉注意力运算，并基于目标查询序列对从可变形编码器输出的查询特征图序列进行探测；所述预测结果包括：预测边界框、预测类别以及对应的类别置信度；

8.一种电子设备，其特征在于，包括存储器，收发机，处理器；

存储器，用于存储计算机程序；收发机，用于在所述处理器的控制下收发数据；处理器，用于读取所述存储器中的计算机程序并执行以下操作：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行权利要求1至6任一项所述的目标检测方法。