CN116563738A

CN116563738A - 一种基于不确定性的多阶段引导的小目标半监督学习检测方法

Info

Publication number: CN116563738A
Application number: CN202310670520.2A
Authority: CN
Inventors: 葛斌; 李玉洋; 夏晨星; 刘唤唤
Original assignee: Anhui University of Science and Technology
Current assignee: Anhui University of Science and Technology
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-08-08

Abstract

本发明涉及计算机视觉领域，具体设计了一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其方法包括：构建训练和测试该任务的数据集；将数据集的图像进行预处理操作，同时将训练集划分，一部分有标注信息，另一部分则没有标注；构建半监督学习下的小目标检测模型；将有标记的图片送入初始检测模型中，得到可以为无标注的图片产生伪标签的教师检测模型；根据生成伪标签的可靠性，将带有伪标签信息的图片逐步送入学生网络中，和预先存在标注的图片一起训练学生网络，最终输出检测结果。本发明引入多尺度感知融合模块和盒子抖动的方法，同时采用新的衡量标准来帮助学生网络选择更为丰富可靠的伪标签，从而进一步提升检测性能。

Description

一种基于不确定性的多阶段引导的小目标半监督学习检测方法

技术领域：

本发明涉及计算机视觉目标检测领域，具体设计一种基于不确定性的多阶段引导的小目标半监督学习检测方法。

背景技术：

目前深度神经网络在各式各样的任务上都有着出色的表现，但在目标检测方面，其性能仍依赖于大量的标注数据和算力资源。作为有监督学习的一个延申，半监督学习的方法在最近今年受到了越来越多的关注，但是大多数研究还停留在图像分类任务中；在目标检测领域，半监督的应用还处于摸索阶段，在小目标检测领域半监督的应用更为稀少。

因此，为了解决上述问题，我们提出了一种基于不确定性的多阶段引导的小目标半监督学习检测方法，使用少量的有标记样本和大量的无标记样本进行训练检测小目标。

发明内容：

本发明的目的在于针对上述现有技术的不足，提出一种基于不确定性的多阶段引导的小目标半监督学习检测方法，能利用少量的标记样本和大量的无标记样本来进行检测，减少标记成本，提高对小目标检测的性能。

本发明的基于不确定性的多阶段引导的小目标半监督学习检测方法，包括以下步骤：

S1、构建训练和测试该任务的图像数据集；

S2、将visDrone2019数据集的图像进行尺寸归一化和预处理操作，得到维度为M×M×C的预处理图像，记为I＝{I₁，I₂，I₃，...，I_i，....，I_n}，其中I_i表示第i张图片，随机将数据集图片分为两部分，比例为1：9，只有前者数据存在标记信息，有标记的图像集记为I_su，无标记的图像集记为I_un；同时对无标记的图像进行弱数据增强，对有标记图片进行强数据增强；

S3、构建半监督学习下的小目标检测模型；

S4、将有标记的图像送入初始的对象检测模型中，进行检测模型的训练，得到预训练好的教师检测模型；

S5、将没有标记的图像送入预训练好的教师检测模型中，输出带有伪标签信息的图像；

S6、根据生成的伪标签的可靠度，将带有伪标签信息的图片逐步送入学生网络中，和预先存在标注的图片一起训练学生网络，实现多阶段学习，最终得到检测结果；

S7、学生模型依据损失函数进行反向梯度更新，教师模型则采用学生网络的EMA进行更新。

作为优选，本发明提供一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，对无人机拍摄的图像集进行了强弱数据增强，具体包括：

将获取的数据集图像进行尺寸归一化操作后，记为I_su＝{I₁,，I₂，...，I_i，....，I_n}，n为集合中的图片数量；

含有标记信息的图像集合记为P_su＝{p₁，p₂，p₃，...，p_i，....，p_n}，其中p_i表示第i张图片；令图像数据集合P的标签集合为A_su＝{A₁,，A₂，...，A_i，....，A_n}，n表示带标签的图像集中的图像总数；

获取未标记的数据集图像并进行数据增强，得到图像集记为Q_un＝{Q₁，Q₂，Q₃，...，Q_i，....，Q_m}，其中Q_i表示第i张图片，m表示未标记的图像集中的图像总数；

对有注释的图像进行强数据增强，即Mixup操作，将有伪标签的无标注图片与有标注的图片按比例进行混合，得到增强数据集；并在进行全局几何变换时对伪标签的坐标进行相应的变换。

作为优选，本发明提供一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，构建半监督学习下的目标检测网络，具体包括：

将多尺度感知融合模块融入到Faster-RCNN网络，同时引入了超参数和BboxJeilting，形成了改进后的小目标检测算法，同时基于教师学生多阶段学习模型，形成了半监督下的目标检测方法。

作为优选，本发明提供一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，将多尺度感知融合模块融入到Faster-RCNN网络，同时引入了超参数和Bbox Jeilting，具体包括：

基于教师学生模型改进后的Faster-RCNN检测算法，形成了融入多尺度感知融合模块的半监督学习检测模型；

多尺度感知融合模块由多尺度融合模块和混合注意力机制组成，具体如下：

多尺度感知融合模块将FPN特征金字塔提取后的特征图作为输入，每个特征图分别经过五个并行的分支；其中，第一个分支为1×1的标准卷积，第二至第四个分别是空洞率为2、4、6的空洞卷积，最后一个分支则是Soft-Pool池化操作，以SoftMax给予权重，累加激活，将五个分支的的特征图在通道维度上进行拼接；而后又通过混合注意力模块得到新的特征信息；

对于多尺度融合模块，根据如下公式来进行拼接：

y＝Concat(x₀,x₁,x₂,x₃,x₄)

其中x代表特征图，Conv代表普通卷积操作，convr代表空洞卷积操作，Soft-Pool代表软池化操作，Concat代表拼接操作，y则代表该模块的输出结果；

混合注意力结合了空间注意力和通道注意力，其中空间注意力能关注到待测目标的位置，通道注意力重点分析每个通道的特征，得到更为准确的目标结构，两者相辅相成可以加强模型对小目标特征的关注度，提升检测精度。

作为优选，本发明提供一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，引入了超参数构建半监督学习的引入不确定引导的多批次学习方法，以及Bbox Jeilting，具体包括：

设置一个超参数用来衡量未标记图片生成的伪标签的可靠性，以此来判定原始图像的困难程度，多阶段逐步地来进行学习和训练，根据以下公式来逆推原始图片的困难程度：

其中，用来衡量原始图片困难度，D_mn是第m张图片中第n个类别对应的的伪标签置信度；

构建使用Bbox Jeilting盒子抖动回归策略的半监督学习方法，具体包括：

对于RPN层预测的候选框，首先对其随机抖动，改变一下候选框的位置和大小，后面再进行回归，以此来实现对候选框进行微调，并用方差衡量候选框的微调结果，方差越小认为生成的伪标签越可靠，公式如下所示：

方差计算公式

其中gi是教师模型生成的伪标签候选框，通过在伪标签候选框附近随机轻微抖动，得到一个新的伪标签候选框σk是更为精细的抖动盒子集合的第k个坐标的精准推导，/>是归一化的σ_k，h(g_i)和w(g_i)分别表示候选框g_i的长和宽。

作为优选，本发明提供一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，将有标记的图像送入初始的教师检测模型，得到预训练好的教师检测模型，具体包括：

利用标记的图像集合对教师模型进行训练，获得能够产生伪标签的教师最优检测模型。

作为优选，本发明提供一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，根据生成伪标签的可靠度，将带有伪标记信息的图片样本逐步送入学生网络中，和预先存在标注的图片一起训练学生网络，实现多阶段学习的一个流程；最终得到检测结果，具体包括：

根据生成伪标签的可靠度，逐步多阶段将有标记的图片样本和有伪标签标记的无标记的图片样本输入与上述教师网络有着相同参数的学生模型中，进行学习和训练，最终得到检测结果。

作为优选，本发明提供一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于学生模型通过计算损失函数进行反向梯度更新，教师模型则采用学生网络的EMA进行更新，具体包括：

学生模型的跟新公式如下：

其中γ为学习率，λ为无监督损失的贡献，θ_s是学生网络的参数；

教师模型的更新如下公式所示：

θ_t←αθ_t+(1-α)θ_s

其中θ_t为教师网络参数，α为滑动平均系数；通过上述的不断调整和迭代，直到模型收敛不再变化时，则可以停止学生模型和教师模型的更新。

综上所述，本发明与现有的技术相比，本发明的有效之处在于：

(1)本发明在目标检测的框架中不仅是对网络结构的修改，对于数据处理方面也做出了改变，使用更多的未标记数据，减轻了标注的人力开支。

(2)本发明将提取的特征图信息进行不同的尺度融合，提取更为丰富的图像信息，从而提升了对于小目标的检测效果。

(3)本发明使用了多阶段学习以及盒子抖动等策略，获得更为可靠的伪标签，从而获得更为可靠的信息，从而提升了检测的精度。

(4)在本发明中，通过半监督学习的方法，拓展了更多未标记的数据集合，充分利用了少量标记图像的信息，降低了对有标记样本图片的依赖。

附图说明：

图1是本发明在burn-in阶段训练初始检测器的示意图；

图2是本发明基于不确定性引导的多阶段学习的架构图；

图3是本发明在检测器部分的改进示意图；

图4是本发明的多阶段学习的示意图；

图5是本发明在的网络检测模型训练的流程图；

图6是本发明的整体方法步骤。

具体实施方式：

本实施例中，一种基于不确定性的多阶段引导的小目标半监督学习检测方法，主要是利用少量的标注数据，通过引入多尺度感知融合模块和盒子抖动的方法，同时采用新的衡量标准来帮助学生网络选择更为丰富可靠的伪标签，从而进一步提升检测性能。

本发明所提出的一种基于不确定性的多阶段引导的小目标半监督学习检测方法，包括以下步骤：

S1、构建训练和测试该任务的图像数据集；

S2、将visDrone2019数据集的图像进行尺寸归一化和预处理等操作，得到维度为M×M×C的预处理图像，记为I＝{I₁，I₂，I₃，...，I_i，....，I_n}，其中I_i表示第i张图片；随机将数据集图片分为两部分，比例为1：9，只有前者数据存在标记信息，有标记的图像集记为I_su，无标记的图像集记为I_un；同时对无标记的图像进行弱数据增强，对有标记图片进行强数据增强；

S3、构建半监督学习下的小目标检测模型；

在本实施例中，步骤1中，本次实验中使用visDrone2019作为本次任务的数据集并进行预处理；

在本实施例中，步骤2中，对数据集的图像进行数据增强，具体包括Cutout操作；另外使用一些旋转、缩放、饱和度的方法来增强数据集的多样性；

将训练数据集合中的图片分为1：9；即训练集中有标记的图片占百分之十，剩下的为无标记的图片；

半监督在少量样本标签的指导下，能够利用大量的无标签样本提升性能，避免资源的浪费；其原理为利用在大量无标签样本中的数据分布的信息来提升检测的性能；

获取带标签的数据集图像并进行尺寸归一化和数据增强后，记为P_su＝{p₁，p₂，p₃，...，p_i，....，p_n}，其中p_i表示第i张图片；令图像数据集合P的标签集合为A_su＝{A₁,，A₂，...，A_i，....，A_n}，n表示带标签的图像集中的图像总数；

获取未标记的数据集图像并进行尺寸归一化和数据增强后，得到图像集记为Q_un＝{Q₁，Q₂，Q₃，...，Q_i，....，Q_m}，其中Q_i表示第i张图片，m表示未标记的图像集中的图像总数；

在本实施例中，步骤3中，构建半监督学习下的目标检测模型，具体包括；

构建融入多尺度感知融合模块的半监督学习检测模型；多尺度感知融合模块由多尺度融合模块和混合注意力机制组成，将该算法融入Faster-RCNN骨干网络，具体如下：

首先在原始输出的特征图后设置五个并行的分支，分别进行普通卷积获得原始特征图，空洞率分别为2、4、6的空洞卷积获得不同的感受野，从而获得目标不同尺度的特征信息，此外还有一个Soft-Pool池化操作，以SoftMax给予权重，累加激活，将五个分支的的特征图在通道维度上进行拼接；

其次引入了混合注意力模块，该注意力结合了空间注意力和通道注意力，其中空间注意力能关注到待测目标的位置，通道注意力重点分析每个通道的特征，得到更为准确的目标结构，两者相辅相成可以加强模型对小目标特征的关注度，提升检测精度。

构建引入不确定性引导的多批次的半监督学习检测方法，从简到到困难来分批次进行学习的检测模型；

对于未标记图片生成的伪标签，根据该图片中伪标签的可靠度来衡量未标记图片生成的伪标签的可靠性，以此来衡量每张未标记图片的困难度，逐步将其送入到检测模型中，避免造成大量算力的浪费；

伪标签可靠度可由公式(1)计算得到：

构建半监督的引入Bbox Jeilting盒子抖动回归的检测模型；

在预测框进行回归的过程中，引入了Bbox Jeilting盒子抖动，因为回归的结果与盒子抖动之后的不确定性有关，具体包括：

在生成的预测框周围随机抖动，随机产生大小位置不同的盒子，后面再进行回归，从而实现对候选框进行微调，并用方差衡量候选框的微调结果，方差越小认为生成的伪标签越可靠，生成的伪标签候选框如公式(2)所示，更为精细的抖动盒子集合如公式(3)所示，微调结果如公式(4)所示：

方差计算公式

其中g_i是教师模型生成的伪标签候选框，通过在伪标签候选框附近随机轻微抖动，得到一个新的伪标签候选框σ_k是更为精细的抖动盒子集合的第k个坐标的精准推导，/>是归一化的σ_k，h(g_i)和w(g_i)分别表示候选框g_i的长和宽。

在实施例中，步骤4中，本发明使用的半监督训练和师生共学的思想，并不需要所有的图像数据集都是有标记的，仅需要部分图像是有标记的即可，将有标记的图像输入到对象检测模型，对检测模型进行训练，即可得到一个训练好的初始教师检测模型，具体包括：

教师学生模型是利用无标记的数据进行无监督损失的计算，在训练过程中减低无监督的损失，从而增强模型的鲁棒性；

初始的对象检测模型中，进行检测模型的训练，得到训练好的检测模型；教师模型根据预测值和真实标签来计算有监督的损失，计算公式(5)如下所示：

在实施例中，步骤5中，将没有标记的图像送入预训练好的教师检测模型中，输出带有伪标签信息的图像，具体包括：

把经过弱数据增强处理后的无标记图片送入当前训练好的教师模型中，产生带有预测信息的图片，预测的目标框即伪标签，把伪标签作为无标记图片中的标记信息；首先通过NMS进行初步筛选，通过计算筛选出相对简单的能够生成更为可靠的原始图片，将相对不可靠的图片再重新进行学习训练，逐层多阶段进行训练，直致生产可靠的伪标签；之后再送入下一阶段的训练。

在实施例中，步骤6中，将带有伪标签信息的图片逐步送入学生网络中，和预先存在标注的图片一起训练学生网络，实现多阶段学习，输出图像的特征信息，具体包括：

将有标记的和有伪标签标记的无标记的图像输入与教师模型有着相同参数的学生模型中，得到训练结果；

将有监督的损失和无监督的损失作为学生模型的总损失，依据这个计算的总损失来更新学生模型：

L_total＝L _sup+λLun

其中L_sup为监督损失，L_un为无监督损失。

在实施例中，步骤7中，学生模型依据损失函数进行反向梯度更新，教师模型则采用学生网络的EMA进行更新；而基于教师学生模型的不确定引导的多阶段学习算法主要是有两个阶段组成的；

第一阶段是Burn-In，为了能让训练出来的教师模型生成更为准确的伪标签，需要教师模型有个稳定的初始化参数，利用有标记的图像集对教师检测模型进行训练，得到可以产生相对稳定的伪标签的教师模型；

无标记的图像在生成伪标签的时候，需要通过计算来判断原始图片的困难程度，即生成伪标签的稳定程度，逐层筛选后稳定的伪标签才可作为指导信息，指导学生模型的训练；

第二阶段为师生互学阶段，该阶段分为两步骤：

1、学生模型训练

通过有标记的图像样本和未标记的图像样本来指导学生模型，其中有标记的图像样本是本身带有标记的图像集，未标记的样本则是通过教师模型输出的带有稳定伪标签的图像集；

学生模型的参数更新如公式(6)所示：

其中γ为学习率，λ为无监督损失的贡献，θ_s是学生网络的参数，其中λ设置为0.3，学习率γ可以根据实际情况设置；

2、教师模型迭代更新

教师模型是由学生模型的参数通过EMA(Exponential moving averagge，指数平均移动)来逐步更新教师模型的参数，教师模型的参数更新是在每次学生模型迭代更新后对教师模型的调整，使教师模型生成更为可靠的伪标签，教师模型参数的更新如公式(7)所示：

θ_t←αθ_t+(1-α)θ_s (7)

其中θ_t为教师网络参数，α为滑动平均系数，通常α的取值为0.99；

通过上述的不断调整和迭代，直到模型收敛不再变化时，则可以停止学生模型和教师模型的更新。

综上所述，本发明公开了一种基于不确定多阶段引导的小目标半监督学习检测方法，解决少量标记样本训练下小目标检测性能低的问题，利用多结构感知融合模块和新的衡量标准来帮助学生网络选择更为丰富可靠的伪标签，同时使用盒子抖动回归策略进一步帮助获得更为准确的伪标签，从而进一步提升了检测性能；

将有标记的图像集输入到学生网络模型中，输出有标记图像的预测值，根据预测值和真实标签来计算有监督的损失：

其中，Iⁱ _sup表示有标注的图片，Cⁱ _sup,Rⁱ _sup分别表示学生网络分类和回归的结果，L_cls，L_cls表示分类和回归损失；

将有标记Iⁱ _sup的和有伪标签标记的无标记的图像输入训练好的学生模型中，输出图像的特征信息，具体包括：

将未标记的图像输入到训练好的教师模型，首先通过NMS输出带有伪标签的图像，通过计算筛选出相对简单的能够生成更为可靠的原始图片，将相对不可靠的图片再重新进行学习训练，逐层多阶段进行训练，直致生产可靠的伪标签；

计算可靠的图像的伪标签的预测值和伪标签之间的损失：

其中，Iⁱ _un表示无标注的图片，表示回归损失，/>分别表示学生网络分类和回归的结果；

学生模型根据指数滑动平均的方式来更新教师模型，公式如下：

教师模型的更新如下公式所示：

θ_t←αθ_t+(1-α)θ_s

其中θ_t为教师网络参数，α为滑动平均系数。

Claims

1.一种基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征是按照以下步骤进行的：

S1、构建训练和测试该任务的图像数据集；

S3、构建半监督学习下的目标检测模型；

2.根据权利要求1所述的基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，对无人机拍摄的图像集进行了强弱数据增强，具体包括：

对无标记的图片进行弱数据增强，例如对称翻转处理；

3.根据权利要求1所述的基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，构建半监督学习下的目标检测网络，具体包括：

将多尺度感知融合模块融入到Faster-RCNN网络，同时引入了一个超参数和BboxJeilting，形成了改进后的小目标检测算法，同时基于教师学生多阶段学习模型，形成了半监督下的目标检测方法。

4.根据权利要求3所述的基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，将多尺度感知融合模块融入到Faster-RCNN网络，同时引入了超参数和BboxJeilting，具体包括：

多尺度感知融合模块将FPN特征金字塔提取后的特征图作为输入，每个特征图分别经过五个并行的分支；其中，第一个分支为1×1的标准卷积，第二至第四个分别是空洞率为2、4、6的空洞卷积，最后一个分支则是Soft-Pool池化操作，以SoftMax给予权重，累加激活，将五个分支的的特征图在通道维度上进行拼接；

对于多尺度融合模块，根据如下公式来进行拼接：

y＝Concat(x₀,x₁,x₂,x₃,x₄)

5.根据权利要求3所述的基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在，引入了超参数和BboxJeilting，具体包括：

构建半监督学习的引入不确定引导的多批次学习方法，从简单到困难来分批次进行投入学习，设置超参数D～_mn用来衡量未标记图片生成的伪标签的可靠性，以此来判定原始图像的困难程度，多阶段逐步地来进行学习和训练，根据以下公式来计算原始图片的困难程度：

构建使用BboxJeilting盒子抖动回归策略的半监督学习方法，具体包括：

对于RPN层预测的候选框，首先对box抖动一下，随机改变一下候选框的位置和大小，后面再进行回归，以此来实现对候选框进行微调，并用方差衡量候选框的微调结果，方差越小认为生成的伪标签越可靠，公式如下所示：

方差计算公式

其中gi是教师模型生成的伪标签候选框，通过在伪标签候选框附近随机轻微抖动，得到一个新的伪标签候选框σk是更为精细的抖动盒子集合的第k个坐标的精准推导，/>是归一化的σk，h(gi)和w(gi)分别表示候选框gi的长和宽。

6.根据权利要求1所述的基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在于，将有标记的图像送入初始的教师检测模型，得到预训练好的教师检测模型，具体包括：

7.根据权利要求1所述的基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在，根据生成伪标签的可靠度，将带有伪标签信息的图片逐步送入学生网络中，和预先存在标注的图片一起训练学生网络，实现多阶段学习；最终得到检测结果，具体包括：

根据生成伪标签的可靠度，逐步多阶段地将有标记的图片样本和带有伪标记的图片样本输入与上述教师网络有着相同参数的学生模型中，进行学习和训练，最终得到检测结果。

8.根据权利要求1所述的基于不确定性的多阶段引导的小目标半监督学习检测方法，其特征在，学生模型通过损失函数进行反向梯度更新，教师模型则采用学生网络的EMA进行更新，具体包括：

学生模型的跟新公式如下：

教师模型的更新如下公式所示：

θt←αθt+(1-α)θ_s

其中θ_t为教师网络参数，α为滑动平均系数；