CN116630753A

CN116630753A - 一种基于对比学习的多尺度小样本目标检测方法

Info

Publication number: CN116630753A
Application number: CN202310924787.XA
Authority: CN
Inventors: 张沅; 牛牧原; 汪俊; 李大伟
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-08-22

Abstract

本发明公开了一种基于对比学习的多尺度小样本目标检测方法，包括以下步骤：获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据；对标注数据进行数据预处理，构造基类数据集、新类数据集和混合数据集；构造基础检测器，采用具有级联结构的Cascade R‑CNN模型在基类数据集上进行基础训练，得到预训练模型；使用预训练模型对混合数据集中的数据进行特征提取；冻结基础检测器中的特征提取网络，在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类。本发明可以在样本数量不足的条件下，利用极少量待检测的新类别标注样本获得具有一定泛化性能的检测模型，大量节省收集样本、标注样本的时间和精力。

Description

一种基于对比学习的多尺度小样本目标检测方法

技术领域

本发明涉及小样本目标检测技术领域，具体为一种基于对比学习的多尺度小样本目标检测方法。

背景技术

随着图像领域的应用和发展以及高性能计算设备的强力推进，以深度学习为核心的目标检测技术充分吸收了图像分类领域的研究成果，加之更加广泛的应用场景，使得目标检测技术成为计算机视觉领域新的研究热点，许多成熟的算法模型已经成功部署到实际应用场景当中。目前基于深度学习的目标检测模型仍采用常规的监督式目标检测方法，需要大量带注释的标注样本进行训练，为了获得足够的标注数据，一种常见的解决方法是从现实世界中收集大量样本，并花费大量时间进行标注以生成ground-truth标签。

然而，在现实世界的真实场景中，某些类别只有少量数据或少量标注数据，对无标签数据进行标注将会消耗大量的时间和人力。同时，目标对象存在种类数目繁多、尺寸大小不一、外观形状多样、模态差异较大的问题。例如，在实际的工业生产过程中缺陷很少发生，往往难以收集大量的缺陷样本，而且缺陷的种类多种多样，大小形态各异，在这样的不平衡小样本数据集上训练神经网络，容易造成过拟合、网络泛化性弱等问题，难以推广应用。。

发明内容

本发明的目的在于提供一种基于对比学习的多尺度小样本目标检测方法，能够通过少量的标注样本学习具有较好泛化性能的检测模型，解决了目前目标检测问题中标注样本数量稀缺、模型对大规模标签数据强烈依赖的问题，极大地提高了模型的实用价值。

为实现上述目的，本发明提供如下技术方案：一种基于对比学习的多尺度小样本目标检测方法，包括以下步骤：

获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据；

对标注数据进行数据预处理，构造基类数据集、新类数据集和混合数据集；

构造基础检测器，采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练，得到预训练模型；

使用预训练模型对混合数据集中的数据进行特征提取；

冻结基础检测器中的特征提取网络，在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类，获取特征的类别预测信息；

构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数，采用联合优化的方法在混合数据集上进行微调；

利用训练好的网络对新类数据进行目标定位和分类。

优选的，对标注数据进行数据预处理，构造基类数据集、新类数据集和混合数据集，包括：

将具有充足标注数据的公开数据集作为基类数据集；

将极少量待检测的新类别标注数据作为新类数据集；

对基类数据集进行随机抽样，抽样结果和新类数据集组成混合数据集。

优选的，构造基础检测器，采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练；

Cascade R-CNN模型由特征提取网络、特征金字塔网络和级联检测器三大部分组成，

其中，级联检测器包含三个相同的目标检测模块，每个检测模块包含感兴趣区域池化、检测器头部、分类和定位。

优选的，构造基础检测器，采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练，得到预训练模型，包括：

特征提取网络对目标图片进行特征提取；

特征金字塔将这些特征图谱进行语义信息融合，然后将这些融合过后的特征图输送到区域建议网络；

区域建议网络输出特征图的候选目标区域，将这些候选的目标区域送入级联检测器中；

级联检测器中的检测模块接收来自前一个检测模块输出的边框回归结果对当前候选目区进行重采样，多次训练得到更加准确的分类得分和边框位置，然后传入下一级IOU阈值更高的检测模块。

三个检测模块都接收来自上一级检测模块的结果作为该检测模块的输入，三个检测模块的阈值逐渐升高，最后一个检测模块的检测结果作为最终的输出结果。

优选的，冻结基础检测器中的特征提取网络，在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类，获取特征的类别预测信息，包括：

使用一层神经网络构造一个与边框回归分支和分类分支并行的对比建议编码分支，将维的ROI特征向量转化为/>维的对比特征向量/>；；

计算对比特征向量和各个类别之间的相似度分数logit；

在余弦相似投影的超空间内，使用聚类的方法让对比特征向量靠近与其相似度分数高的类别形成的簇，远离与其相似度分数低的类别形成的簇。

优选的，计算对比特征向量和各个类别之间的相似度分数logit中，相似度分数logit的计算公式为：

；

其中，是增大梯度的尺度元素，/>是第i个实例的对比特征向量，/>是第j个类别的权重。

优选的，构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数，采用联合优化的方法在混合数据集上进行微调，包括：

构造对比建议损失函数，分类损失函数/>，回归损失函数/>，区域生成网络损失函数/>；

对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数通过加权相加得到最终损失函数；

在混合数据集上使用随机梯度下降法最小化最终损失函数。

优选的，构造对比建议损失函数，分类损失函数/>，回归损失函数/>，区域生成网络损失函数/>中：

对比建议损失函数的计算公式为：

；

其中，N表示对比特征向量的数量；表示IOU阈值，取值为0.7；/>表示第i个建议框和真实框的IOU值；/>为权重分配函数，为不同的IOU赋予不同的权重；/>表示ROI head对第i个区域建议框所编码成的对比特征向量；/>表示第i个建议框对对应的真实框的标签；/>表示对特征进行归一化后的结果；/>表示在余弦相似投影的超空间内第i个和第j个建议框之间的余弦相似度；/>表示具有相同标签/>的建议框的数量；/>表示温度超参数，取值为0.2；

分类损失函数的计算公式为：

；

其中，N表示区域建议框的数量，表示第i个区域建议框的真实类别；/>表示sigmoid函数；

回归损失函数的计算公式为：

；

其中，表示预测框与真实框之间逐像素的差异；

区域生成网络损失函数的计算公式为：

；

其中，表示锚框的数量；/>表示第i个锚框是否属于前景，如果属于前景，/>则为1，否则/>为0；/>表示sigmoid函数。

优选的，对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数通过加权相加的到最终损失函数中：

最终的损失函数的计算公式为：

；

其中，适用于平衡损失规模的常数，设置为0.5。

与现有技术相比，本发明的有益效果是：

本发明可以在样本数量不足的条件下，利用极少量待检测的新类别标注样本获得具有一定泛化性能的检测模型，大量节省收集样本、标注样本的时间和精力；

本发明所提出的目标检测方法可以检测出尺寸大小不一、外观形状多样、模态差异较大的多尺度目标对象，能够适用于实际生产生活中的各种应用场景。

附图说明

图1为本发明实施例提供的基于对比学习的小样本目标检测方法的流程图；

图2为本发明实施例提供的基础检测器Cascade R-CNN模型的原理图；

图3为本发明实施例提供的对比建议编码模块的原理图；

图4为本发明实施例提供的对混合数据集的特征进行聚类的原理图；

图5为本发明实施例提供的目标检测结果的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施方式的方法的执行主体为终端，终端可以为手机、平板电脑、掌上电脑PDA、笔记本或台式机等设备，当然，还可以为其他具有相似功能的设备，本实施方式不加以限制。

请参阅图1，图1为本发明提供的一种基于对比学习的多尺度小样本目标检测方法的流程图，该方法应用于小样本目标检测，包括以下步骤：

S1、获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据；

S2、对标注数据进行数据预处理，构造基类数据集、新类数据集和混合数据集；

其中步骤S2中，对标注数据进行数据预处理，构造基类数据集、新类数据集和混合数据集，具体过程包括以下步骤：

S21、将具有充足标注数据的公开数据集作为基类数据集；

S22、将极少量待检测的新类别标注数据作为新类数据集；

S23、对基类数据集进行随机抽样，抽样结果和新类数据集组成混合数据集；

S3、构造基础检测器，采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练，得到预训练模型。

请参照图2，图2为基础检测器Cascade R-CNN模型的原理图，在步骤S3中，构造基础检测器，采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练，Cascade R-CNN模型由特征提取网络、特征金字塔网络和级联检测器三大部分组成，其中，级联检测器包含三个相同的目标检测模块，每个检测模块包含感兴趣区域池化、检测器头部、分类和定位，具体过程包括以下步骤：

S31、特征提取网络对目标图片进行特征提取；

S32、特征金字塔将这些特征图谱进行语义信息融合，然后将这些融合过后的特征图输送到区域建议网络；

S33、区域建议网络输出特征图的候选目标区域，将这些候选的目标区域送入级联检测器中；

S34、级联检测器中的检测模块接收来自前一个检测模块输出的边框回归结果对当前候选目区进行重采样，多次训练得到更加准确的分类得分和边框位置，然后传入下一级IOU阈值更高的检测模块；

其中，三个检测模块的IOU阈值分别设置为0.5，0.6，0.7；

S35、三个检测模块都接收来自上一级检测模块的结果作为该检测模块的输入，三个检测模块的阈值逐渐升高，最后一个检测模块的检测结果作为最终的输出结果；

S4、使用预训练模型对混合数据集中的数据进行特征提取；

S5、冻结基础检测器中的特征提取网络，在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类，获取特征的类别预测信息。

请参照图3和图4，图3为对比建议编码模块的原理图，图4为对混合数据集的特征进行聚类的原理图，在步骤S5中，冻结基础检测器中的特征提取网络，在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类，获取特征的类别预测信息，具体过程包括以下步骤：

S51、使用一层神经网络构造一个与边框回归分支和分类分支并行的对比建议编码分支，将维的ROI特征向量转化为/>维的对比特征向量/>；

S52、计算对比特征向量和各个类别之间的相似度分数logit，相似度分数logit的计算公式为：

；

其中，是增大梯度的尺度元素，/>是第i个实例的对比特征向量，/>是第j个类别的权重；

S53、在余弦相似投影的超空间内，使用聚类的方法让对比特征向量靠近与其相似度分数高的类别形成的簇，远离与其相似度分数低的类别形成的簇；

S6、构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数，采用联合优化的方法在混合数据集上进行微调。

在步骤S6中，构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数，采用联合优化的方法在混合数据集上进行微调，具体过程包括以下步骤：

S61、构造对比建议损失函数，分类损失函数/>，回归损失函数/>，区域生成网络损失函数/>；

对比建议损失函数的计算公式为：

；

分类损失函数的计算公式为：

；

回归损失函数的计算公式为：

；

其中，表示预测框与真实框之间逐像素的差异；

区域生成网络损失函数的计算公式为：

；

其中，表示锚框的数量；/>表示第i个锚框是否属于前景，如果属于前景，/>则为1，否则/>为0；/>表示sigmoid函数；

S62、对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数通过加权相加得到最终损失函数，计算公式为：

；

其中，适用于平衡损失规模的常数，设置为0.5；

S63、在混合数据集上使用随机梯度下降法最小化最终损失函数；

S7、利用训练好的网络对新类数据进行目标定位和分类。

上述方法可以简单有效地解决标注样本数量不足以及目标对象尺度多样的问题。

在本实施例中，本发明可以在样本数量不足的条件下，利用极少量待检测的新类别标注样本获得具有一定泛化性能的检测模型，大量节省收集样本、标注样本的时间和精力；本发明所提出的目标检测方法可以检测出尺寸大小不一、外观形状多样、模态差异较大的多尺度目标对象，能够适用于实际生产生活中的各种应用场景。

在上述实施例的基础上，本发明还提供了一种基于对比学习的多尺度小样本目标检测装置，用于支持上述实施例基于对比学习的多尺度小样本目标检测方法，所述基于对比学习的多尺度小样本目标检测装置包括：

数据获取模块，其用于获取具有充足标注数据的公开数据集和极少量待检测的新类别标注数据；

数据预处理模块，其用于对标注数据进行数据预处理，构造基类数据集、新类数据集和混合数据集；

模型建立模块，其用于构造基础检测器，采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练，得到预训练模型；

特征提取模块，其用于使用预训练模型对混合数据集中的数据进行特征提取；

预测信息获取模块，其用于冻结基础检测器中的特征提取网络，在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类，获取特征的类别预测信息；

定位分类模块，其用于构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数，采用联合优化的方法在混合数据集上进行微调。

进一步的，所述基于对比学习的多尺度小样本目标检测装置可运行上述基于对比学习的多尺度小样本目标检测方法，具体实现可参见方法实施例，在此不再赘述。

在上述实施例的基础上，本发明还提供一种电子设备，电子设备包括：

处理器、存储器，处理器与存储器进行通信连接；

在本实施例中，存储器可以按任何适当的方式实现，例如：存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等；存储器用于储存至少一个处理器执行的可执行指令；

在本实施例中，处理器可以按任何适当的方式实现，例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器的形式等等；处理器用于执行所述可执行指令以实现如上述的基于对比学习的多尺度小样本目标检测方法。

在上述实施例的基础上，本发明还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现如上述的基于对比学习的多尺度小样本目标检测方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或设备的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储服务器、随机存取存储服务器、磁碟或者光盘等各种可以存储程序指令的介质。

另外，还需要说明的是，本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式，本案所记载的所有技术特征可以以任何方式进行自由组合或结合，除非相互之间产生矛盾。

需要注意的是，以上列举的仅为本发明的具体实施例，显然本发明不限于以上实施例，随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形，均应属于本发明的保护范围。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对比学习的多尺度小样本目标检测方法，其特征在于，包括以下步骤：

使用预训练模型对混合数据集中的数据进行特征提取；

利用训练好的网络对新类数据进行目标定位和分类。

2.根据权利要求1所述的基于对比学习的多尺度小样本目标检测方法，其特征在于，所述对标注数据进行数据预处理，构造基类数据集、新类数据集和混合数据集，包括：

将具有充足标注数据的公开数据集作为基类数据集；

将极少量待检测的新类别标注数据作为新类数据集；

3.根据权利要求2所述的基于对比学习的多尺度小样本目标检测方法，其特征在于，所述构造基础检测器，采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练；

所述Cascade R-CNN模型由特征提取网络、特征金字塔网络和级联检测器三大部分组成，其中，所述级联检测器包含三个相同的目标检测模块，每个检测模块包含感兴趣区域池化、检测器头部、分类和定位。

4.根据权利要求3所述的基于对比学习的多尺度小样本目标检测方法，其特征在于，所述构造基础检测器，采用具有级联结构的Cascade R-CNN模型在基类数据集上进行基础训练，得到预训练模型，包括：

所述特征提取网络对目标图片进行特征提取；

所述特征金字塔将这些特征图谱进行语义信息融合，然后将这些融合过后的特征图输送到区域建议网络；

所述区域建议网络输出特征图的候选目标区域，将这些候选的目标区域送入级联检测器中；

所述级联检测器中的检测模块接收来自前一个检测模块输出的边框回归结果对当前候选目区进行重采样，多次训练得到更加准确的分类得分和边框位置，然后传入下一级IOU阈值更高的检测模块；

三个所述检测模块都接收来自上一级检测模块的结果作为该检测模块的输入，三个检测模块的阈值逐渐升高，最后一个检测模块的检测结果作为最终的输出结果。

5.根据权利要求1所述的基于对比学习的多尺度小样本目标检测方法，其特征在于，所述冻结基础检测器中的特征提取网络，在基础检测器的检测器头中添加对比建议编码模块对混合数据集的特征进行聚类，获取特征的类别预测信息，包括：

使用一层神经网络构造一个与边框回归分支和分类分支并行的对比建议编码分支，将维的ROI特征向量转化为/>维的对比特征向量/>；

计算对比特征向量和各个类别之间的相似度分数logit；

6.根据权利要求2所述的基于对比学习的多尺度小样本目标检测方法，其特征在于，所述计算对比特征向量和各个类别之间的相似度分数logit中，相似度分数logit的计算公式为：

；

7.根据权利要求2所述的基于对比学习的多尺度小样本目标检测方法，其特征在于，所述构造对比建议损失函数、分类损失函数、回归损失函数和区域生成网络损失函数，采用联合优化的方法在混合数据集上进行微调，包括：

所述对比建议损失函数、所述分类损失函数、所述回归损失函数和所述区域生成网络损失函数通过加权相加得到最终损失函数；

在所述混合数据集上使用随机梯度下降法最小化最终损失函数。

8.根据权利要求1所述的基于对比学习的多尺度小样本目标检测方法，其特征在于，所述构造对比建议损失函数，分类损失函数/>，回归损失函数/>，区域生成网络损失函数/>中：

所述对比建议损失函数的计算公式为：

；

其中，N表示对比特征向量的数量；表示IOU阈值，取值为0.7；/>表示第i个建议框和真实框的IOU值；/>为权重分配函数，为不同的IOU赋予不同的权重；/>表示ROI head对第i个区域建议框所编码成的对比特征向量；/>表示第i个建议框对对应的真实框的标签；表示对特征进行归一化后的结果；/>表示在余弦相似投影的超空间内第i个和第j个建议框之间的余弦相似度；/>表示具有相同标签/>的建议框的数量；/>表示温度超参数，取值为0.2；

所述分类损失函数的计算公式为：

；

所述回归损失函数的计算公式为：

；

其中，表示预测框与真实框之间逐像素的差异；

所述区域生成网络损失函数的计算公式为：

；

9.根据权利要求1所述的基于对比学习的多尺度小样本目标检测方法，其特征在于，所述对比建议损失函数、所述分类损失函数、所述回归损失函数和所述区域生成网络损失函数通过加权相加的到最终损失函数中：

最终的损失函数的计算公式为：

；

其中，适用于平衡损失规模的常数，设置为0.5。