CN117079069A

CN117079069A - 一种基于自监督辅助学习的目标检测方法与装置

Info

Publication number: CN117079069A
Application number: CN202310827700.7A
Authority: CN
Inventors: 徐博诚; 张睿
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-11-17

Abstract

本申请涉及目标检测及深度学习技术领域，更为具体来说，本申请涉及一种基于自监督辅助学习的目标检测方法与装置。方法包括：获取训练数据集图像，并通过对比学习鉴别实例；在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像；将目标合成图像输入骨干网络中进行特征提取，随后进入分阶段多级金字塔进行空间特征映射，实现不同级别的特征提取；训练好时选择最优的骨干网络和多级金字塔模型，采用最优的骨干网络和多级金字塔模型进行目标检测。本申请通过自监督辅助学习的方式训练出优质的模型进行目标检测，从而提升了目标检测的效率和精准度。

Description

一种基于自监督辅助学习的目标检测方法与装置

技术领域

本申请涉及目标检测及深度学习技术领域，更为具体来说，本申请涉及一种基于自监督辅助学习的目标检测方法与装置。

背景技术

目前主流自监督辅助任务均主要以图像分类为下游任务目标，缺乏一个适用于目标检测的自监督辅助任务，导致通过自监督学习所得到的预训练模型(即完成训练后的辅助模型)难以迁移到目标检测任务，进而带来目标检测模型性能下降的问题。目前主流自监督辅助任务并未有效学习及融合模型各阶段特征，因此在预训练模型迁移至多级特征金字塔结构的目标检测模型时，低级和高级特征无法高效结合及利用，进而检测效率和精度低下。

发明内容

基于上述技术问题，提供了一种基于自监督辅助学习的目标检测方法，以解决检测效率和精度低下的问题。

本发明第一方面提供了一种基于自监督辅助学习的目标检测方法，方法包括：

获取训练数据集图像，并通过对比学习鉴别实例；

在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像；

将目标合成图像输入骨干网络中进行特征提取，随后进入分阶段多级金字塔进行空间特征映射，实现不同级别的特征提取；

训练好时选择最优的骨干网络和多级金字塔模型，采用最优的骨干网络和多级金字塔模型进行目标检测。

在本发明的一些实施例中，在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像，包括：

在训练数据集图像中鉴别并分割前景实例；

在训练数据集图像中去掉分割前景实例对应的图像，在去掉分割前景实例对应的图像后的剩余图像中随机采样确定背景图像；

将前景实例叠加至背景图像，得到目标合成图像。

在本发明的一些实施例中，骨干网络包括编码器，还包括第一预设数个全局MLP头，第一预设数个全局MLP头用于从预设数个层次提取特征。

在本发明的一些实施例中，在实现不同级别的特征提取之前，还包括：

创建与提取到的特征向量相匹配的滑动窗口；

对窗口滑动后的输出图进行增强框选取操作。

在本发明的一些实施例中，对窗口滑动后的输出图进行增强框选取操作，包括：

取每个窗口的中心点，按照中心点取第二预设数个锚点，映射回原图；

进行IOU值比较，将IOU值大于0.5的锚点保留，并在保留的锚点中确定增强框。

在本发明的一些实施例中，实现不同级别的特征提取，包括：

基于增强框进行区域特征聚集操作，以得到增强后的正样本；

将未增强的特征作为负样本，利用正样本和负样本进行对比学习训练；

在损失函数达到收敛时，停止训练。

在本发明的一些实施例中，损失函数为：

其中，τ和N分别为温度和负样本数，为进行区域特征聚集操作后计算得到的特征集，/>和/>表示进行区域特征聚集操作后计算得到的前景特征。

本发明第二方面提供了一种基于自监督辅助学习的目标检测装置，装置包括：

获取模块，被配置为获取训练数据集图像，并通过对比学习鉴别实例；

叠加模块，被配置为在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像；

特征提取模块，被配置为将目标合成图像输入骨干网络中进行特征提取，随后进入分阶段多级金字塔进行空间特征映射，实现不同级别的特征提取；

目标检测模块，被配置为训练好时选择最优的骨干网络和多级金字塔模型，采用最优的骨干网络和多级金字塔模型进行目标检测。

本发明第三方面提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行本发明各实施例中的基于自监督辅助学习的目标检测方法方法。

本发明第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明各实施例中的基于自监督辅助学习的目标检测方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

本申请能够从大规模未标记数据中学习图像特征，而无需使用任何人工标注数据，并且能达到甚至超越监督学习方法达到的精度。通过前景融合数据增强以及多级特征辅助模型，使预训练模型更容易迁移至多级特征金字塔结构的目标检测模型，前景融合数据增强技术则将某图像的前景目标融合至其他图像背景，形成新的图像；多级特征辅助模型则是负责在给定合成图像以及前景边界框的情况下预测实例类别，从而有效提升网络对目标物体的检测，促进迁移学习的任务对齐和体系结构对齐。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

通过阅读下文优选实施方式的详细描述，各种其它的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请一示例性实施例中的基于自监督辅助学习的目标检测方法步骤示意图；

图2示出了本申请一示例性实施例中多级金字塔取得分阶段特征示意图；

图3示出了本申请一示例性实施例中的基于自监督辅助学习的目标检测装置结构示意图；

图4示出了本申请一示例性实施例所提供的一种电子设备的结构示意图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解的是，这些描述只是示例性的，而并非要限制本申请的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是，本申请可以无需一个或多个这些细节而得以实施。在其它的例子中，为了避免与本申请发生混淆，对于本领域公知的一些技术特征未进行描述。

应予以注意的是，这里所使用的术语仅是为了描述具体实施例，而非意图限制根据本申请的示例性实施例。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、整体、步骤、操作、元件和/或组件，但不排除存在或附加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组合。

现在，将参照附图更详细地描述根据本申请的示例性实施例。然而，这些示例性实施例可以多种不同的形式来实施，并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的，其中为了清楚表达的目的，可能放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

下面结合说明书附图1-附图4给出几个实施例来描述根据本申请的示例性实施方式。需要注意的是，下述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

在本申请一些示例性实施例中，提供了一种基于自监督辅助学习的目标检测方法，如图1所示，方法包括：

S1、获取训练数据集图像，并通过对比学习鉴别实例；

S2、在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像；

S3、将目标合成图像输入骨干网络中进行特征提取，随后进入分阶段多级金字塔进行空间特征映射，实现不同级别的特征提取；

S4、训练好时选择最优的骨干网络和多级金字塔模型，采用最优的骨干网络和多级金字塔模型进行目标检测。

视觉表示的自监督学习是计算机视觉中的一个重要问题，它有助于许多下游任务，如图像分类、目标检测和语义分割。它旨在利用辅助任务从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

本申请收集并整理相关的训练数据集，其包含大量未标记2D图像和少量标记图像，通过网络搜集包含特定类别的图片，例如行人、汽车、卡车，然后手动注释少量图像中不同类别对象的边界框及其类别，最终生成了包含100万张未标记图像以及1万张标记图像的训练数据集。与有监督目标检测算法相比，自监督目标检测算法在数据集制作时能节约大量人工标注成本以及减少数据集准备时间，其能从大规模未标记数据中学习图像特征，而无需使用任何人工标注数据，并且能达到甚至超越监督学习方法达到的精度。

在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像，包括：在训练数据集图像中鉴别并分割前景实在训练数据集图像中去掉分割前景实例对应的图像，在去掉分割前景实例对应的图像后的剩余图像中随机采样确定背景图像；将前景实例叠加至背景图像，得到目标合成图像。鉴别并分割前景实例，需要分类识别前景实例标签，公式为：

y←T(I′，b)

其中，y为实例标签，I′为合成图像，意味着I为前景图像，b为边界框，边界框用以描述对象的空间位置。

另外，提取卷积特征图上的前景特征，模型整体结构表达可通过以下数学公式表达：

v′_q＝RoIAlign(AnchorIoU(Conv(encoder_q(I′_q))，b_q))

其中，Conv表示卷积，AnchorIoU为增强框选取操作，RoIAlign是一种区域特征聚集方式，encoder_q是编码器q，encoder_k是编码器k；I'表示合成图像，b表示边界框，v'表示特征图上的前景特征。

在本实施例中，使用4个阶段的前景特征{v2'_·,v3'_·,v4'_·,v5'_·}_encoder·和BiFPN金字塔结构，得到4个多级前景融合特征可通过以下数学公式表达：

其中，encoder_q包含一个骨干网络和四个全局MLP头，其中骨干网络采用VisionTransformer模型(例如，ViT，Swin-Transformer等)，四个全局MLP分别用于从四个层次提取特征。encoder_k模型结构与encoder_q相同。4个阶段的特征，记为Res2、Res3、Res4、Res5。具体来说，在给定合成图像I′_q和将I′_q输入至encoder_q，我们得到了四种全局表示其中encoder_q代表编码器q。同样，我们可以很容易地得到/>的四种全局表示/>其中encoder_k代表编码器k。以上所有全局表示对应上述的特征向量/>(m为批次样本数量，d为特征维度)。

在本发明的一些实施例中，骨干网络包括编码器，还包括第一预设数个全局MLP(Muti-Layer Perception，多层感知器)头，第一预设数个全局MLP头用于从预设数个层次提取特征。第一预设数可以为4，如图2所示，识别一个人的目标，分为四个全局MLP头用于提取阶段特征。

在本发明的一些实施例中，在实现不同级别的特征提取之前，还包括：创建与提取到的特征向量相匹配的滑动窗口；对窗口滑动后的输出图进行增强框选取操作。对窗口滑动后的输出图进行增强框选取操作，包括：取每个窗口的中心点，按照中心点取第二预设数例如9个锚点，映射回原图；进行IOU(交并比，全称为Intersection-over-Union)值比较，将IOU值大于0.5的锚点保留，并在保留的锚点中确定增强框，围绕锚点的检测框也可以称为锚框。目前的目标检测算法有单阶段和双阶段两种，双阶段指的是检测算法需要分两步完成，首先需要获取候选区域，通常采用选择性搜索，其算法原理如下：首先将每个像素作为一组；然后计算每一组的纹理，并将两个最接近的组结合起来。但是为了避免单个区域吞噬其他区域，我们首先对较小的组进行分组，再继续合并区域，直到所有区域都结合在一起。然后使用SVM对区域进行分类，使用线性回归损失来校正边界框，以实现目标分类并得到检测框；与之相对的是单阶段检测，检测算法仅需一步完成，不需要单独寻找候选区域，直接通过神经网络产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，因此有着更快的检测速度，其中神经网络包含三个部分：卷积层用于提取图片特征，目标检测层根据提取的图片特征使用RPNhead生成检测框，NMS非极大值抑制层用于去除冗余的检测框。上述增强框指代的就是检测框，只是本申请经过增强后的检测框，简称为增强框。

在本发明的一些实施例中，实现不同级别的特征提取，包括：基于增强框进行区域特征聚集操作，以得到增强后的正样本；将未增强的特征作为负样本，利用正样本和负样本进行对比学习训练；在损失函数达到收敛时，停止训练。假设随机给定两个“视图”作为查询I_q和关键的图像，它们是从同一实例的随机增强得到的，都是正样本。通过以上计算后得到对应的特征集/>和/>然后通过MLP头φ投影到一个单元球。其损失函数为：

其中，τ和N分别为温度和负样本数，为进行区域特征聚集操作后计算得到的特征集，/>和/>表示进行区域特征聚集操作后计算得到的前景特征。损失函数收敛后认定整体的模型为训练好的，再对各种场景中的目标体进行检测，因为自监督训练模式的改进，使得其迁移度大，可识别的目标体多，且识别精准度高。

再具体地，训练过程包括权重更新。针对编码器q和编码器k的模型权重更新方式，可以基于损失函数L，在编码器q上完成反向梯度传播，并更新编码器q的模型权重；完成编码器q的权重更新后，编码器k则基于编码器q每步更新后的模型权重，使用指数滑动平均(EMA)的方式更新其整体模型权重。

本申请针对现有技术中目标检测及训练所存在的问题而设计，用于目标检测的自监督式辅助任务，采用前景融合数据增强技术以及多级特征辅助模型。自监督式辅助任务采用多级特征对比学习，使预训练模型更容易迁移至多级特征金字塔结构的目标检测模型；前景融合数据增强技术则将某图像的前景目标融合至其他图像背景，形成新的图像；；多级特征辅助模型则是负责在给定合成图像以及前景边界框的情况下预测实例类别，从而有效提升网络对目标物体的检测，促进迁移学习的任务对齐和体系结构对齐。

在本申请一些示例性实施例中，还提供了一种基于自监督辅助学习的目标检测装置，执行本申请各实施例中的基于自监督辅助学习的目标检测方法，如图3所示，所述装置包括：

获取模块301，被配置为获取训练数据集图像，并通过对比学习鉴别实例；

叠加模块302，被配置为在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像；

特征提取模块303，被配置为将目标合成图像输入骨干网络中进行特征提取，随后进入分阶段多级金字塔进行空间特征映射，实现不同级别的特征提取；

目标检测模块304，被配置为训练好时选择最优的骨干网络和多级金字塔模型，采用最优的骨干网络和多级金字塔模型进行目标检测。

本装置能够从大规模未标记数据中学习图像特征，而无需使用任何人工标注数据，并且能达到甚至超越监督学习方法达到的精度。通过前景融合数据增强以及多级特征辅助模型，使预训练模型更容易迁移至多级特征金字塔结构的目标检测模型，前景融合数据增强技术则将某图像的前景目标融合至其他图像背景，形成新的图像；多级特征辅助模型则是负责在给定合成图像以及前景边界框的情况下预测实例类别，从而有效提升网络对目标物体的检测，促进迁移学习的任务对齐和体系结构对齐。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

下面请参考图4，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图4所示，电子设备2包括：处理器200，存储器201，总线202和通信接口203，处理器200、通信接口203和存储器201通过总线202连接；存储器201中存储有可在处理器200上运行的计算机程序，处理器200运行计算机程序时执行本申请前述任一实施方式所提供的基于自监督辅助学习的目标检测方法基于自监督辅助学习的目标检测方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其它网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，处理器200在接收到执行指令后，执行程序，前述本申请实施例任一实施方式揭示的基于自监督辅助学习的目标检测方法基于自监督辅助学习的目标检测方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施方式还提供一种与前述实施方式所提供的基于自监督辅助学习的目标检测方法对应的计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器运行时，会执行前述任意实施方式所提供的基于自监督辅助学习的目标检测方法。

另外，计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它光学、磁性存储介质，在此不再一一赘述。

本申请实施方式还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任意实施方式所提供的基于自监督辅助学习的目标检测方法的步骤，所述方法包括：获取训练数据集图像，并通过对比学习鉴别实例；在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像；将目标合成图像输入骨干网络中进行特征提取，随后进入分阶段多级金字塔进行空间特征映射，实现不同级别的特征提取；训练好时选择最优的骨干网络和多级金字塔模型，采用最优的骨干网络和多级金字塔模型进行目标检测。

需要说明的是：在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

本领域那些技术人员可以理解，本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于自监督辅助学习的目标检测方法，其特征在于，方法包括：

获取训练数据集图像，并通过对比学习鉴别实例；

2.根据权利要求1的基于自监督辅助学习的目标检测方法，其特征在于，在训练数据集图像中鉴别并分割前景实例，将前景实例叠加至背景图像，得到目标合成图像，包括：

在训练数据集图像中鉴别并分割前景实例；

将前景实例叠加至背景图像，得到目标合成图像。

3.根据权利要求1的基于自监督辅助学习的目标检测方法，其特征在于，骨干网络包括编码器，还包括第一预设数个全局MLP头，第一预设数个全局MLP头用于从预设数个层次提取特征。

4.根据权利要求1的基于自监督辅助学习的目标检测方法，其特征在于，在实现不同级别的特征提取之前，还包括：

创建与提取到的特征向量相匹配的滑动窗口；

对窗口滑动后的输出图进行增强框选取操作。

5.根据权利要求4的基于自监督辅助学习的目标检测方法，其特征在于，对窗口滑动后的输出图进行增强框选取操作，包括：

6.根据权利要求4的基于自监督辅助学习的目标检测方法，其特征在于，实现不同级别的特征提取，包括：

在损失函数达到收敛时，停止训练。

7.根据权利要求6的基于自监督辅助学习的目标检测方法，其特征在于，损失函数为：

其中，τ和N分别为温度和负样本数，为进行区域特征聚集操作后计算得到的特征集，和/>表示进行区域特征聚集操作后计算得到的前景特征。

8.一种基于自监督辅助学习的目标检测装置，其特征在于，装置包括：

9.一种电子设备，包括存储器和处理器，其特征在于，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如权利要求1-7任一方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7任一方法。