CN114581350B

CN114581350B - 一种适用于单目3d目标检测任务的半监督学习方法

Info

Publication number: CN114581350B
Application number: CN202210166805.8A
Authority: CN
Inventors: 李骏; 杨磊; 张新钰; 王力; 吴新刚
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-11-04
Anticipated expiration: 2042-02-23
Also published as: CN114581350A

Abstract

本发明公开了一种适用于单目3D目标检测模型的半监督学习方法，所述方法包括：基于标注数据训练初始教师模型，根据得到的教师模型进行面向数据库的伪标签生成和基于合成图像的学生模型训练，将本轮次训练所得到的学生模型作为下一轮次的教师模型，如此迭代进行多轮次训练直至达到训练要求，得到训练好的学生模型即为单目3D目标检测模型；在训练中采用目标边界框位置不确定度估计方法过滤噪声伪标签，进一步提升半监督训练效果。本发明利用额外的无标签数据，有效提升单目3D目标检测相关算法的精度指标；提出了一种目标边界框位置不确定度估计方法，用于有效过滤噪声伪标签，进一步提升半监督学习的训练效果。

Description

一种适用于单目3D目标检测任务的半监督学习方法

技术领域

本发明属于目标检测领域，具体涉及一种通过半监督学习同时利用标注和未标注数据有效提升有监督学习算法性能指标上限，特别涉及一种适用于单目3D目标检测任务的半监督学习方法。

背景技术

单目3D目标检测是自动驾驶环境感知领域的一项重要任务，基于单帧图像实现对周围目标的类别估计和3D边界框回归，低成本的先天优势使其在自动驾驶和机器人领域具备广阔的应用前景和商业价值。近年来，单目3D目标检测引起了学术界和工业界研究人员的广泛关注,大量的新方法被提出，但这些方法均严重依赖于丰富的标记数据的有监督方法。

人工标注数据不仅成本高，而且漫长的标注周期不利于算法的快速迭代与部署，与之相比，原始图像数据更容易实现大规模快速采集。如何同时充分利用标注和未标注数据是减轻算法对标注图像严重依赖，实现低成本快速迭代的一种很有效的方法。

半监督学习可以通过综合应用少量有标签数据和大规模无标签数据来帮助算法突破有监督学习的指标上限。近年来，大量的半监督学习方法被成功运用于分类、2D目标检测和点云3D目标检测任务，但目前还没有专门针对单目3D目标检测任务设计的半监督学习方法。

发明内容

本发明的目的在于克服现有技术缺陷，提出了一种适用于单目3D目标检测任务的半监督学习方法。

为了实现上述目的，本发明提出了一种适用于单目3D目标检测模型的半监督学习方法，所述方法包括：

基于标注数据训练初始教师模型，根据得到的教师模型进行面向数据库的伪标签生成和基于合成图像的学生模型训练，将本轮次训练所得到的学生模型作为下一轮次的教师模型，如此迭代进行多轮次训练直至达到训练要求，得到训练好的学生模型即为单目3D目标检测模型；在训练中采用目标边界框位置不确定度估计方法过滤噪声伪标签，进一步提升半监督训练效果。

作为上述方法的一种改进，所述根据得到的教师模型进行面向数据库的伪标签生成具体包括：

使用教师模型通过类别执行度和边界框位置不确定度筛选高质量伪标签，创建由实例图像块和对应伪标签组成的实例数据库；

筛选不包含任何检测结果的未标注数据作为背景图像，创建背景数据库；

基于实例数据库和背景数据库构建合成图像。

作为上述方法的一种改进，所述基于实例数据库和背景数据库构建合成图像；具体包括：

对实例数据库中的图像块进行预处理实现图像增强；

将预处理后的图像块以贴图方式融合到有标签图像，或将预处理后的图像块以贴图方式融合到来自背景数据集的背景图像。

作为上述方法的一种改进，所述预处理具体包括：

按一定比例剪切实例图像块的水平边框边缘区域和垂直边框边缘区域；

和/或按一定比例用随机颜色填充实例图像块的水平边框边缘区域和垂直边框边缘区域；

和/或将实例图像块与有标签图像之间进行随机权重的加权平均以实现混合；

和/或将实例图像块与背景图片之间进行随机权重的加权平均以实现混合。

作为上述方法的一种改进，所述目标边界框位置不确定度估计方法具体包括：

步骤s1)对于不同参数相同结构的N个教师模型，针对同一帧图像数据，得到M个检测框；

步骤s2)设置列表B包含所有教师模型的M个三维边界框，设置列表S存储与每个三维边界框对应的分类置信度；

步骤s3)设置三个空列表G、H和U，其中，列表G用于保存三维边界框聚类，每个聚类代表N个同构异参模型对图像上同一的目标对象的检测结果，列表H用于保存每个聚类中置信度分数最高的三维边界框，列表U用于保存列表H中每个三维边界框对应的位置不确定度；

步骤s4)依次遍历列表B中的每一个三维边界框b_i，当IoU3D(b_i，b_m)≥thr，则转至步骤s5)，当IoU3D(b_i，b_m)＜thr，若已遍历完毕列表B，转至步骤s6)，否则继续执行步骤s4)，其中，IoU3D表示三维目标框交并比，b_m为列表B中置信度最高的边界框，thr为交并比阈值；

步骤s5)判定b_i属于当前聚类C，将b_i由列表B转移到聚类C，列表S作相应更新，当列表B不为空则转至步骤s4)，否则转至步骤s7)；

步骤s6)将当前聚类C加入到列表G，重新选取列表B中置信度最高的边界框b_m，将b_m由列表B转移至列表H，列表S同步更新，基于框b_m初始化新的聚类C，当列表B不为空则转至步骤s4)，否则转至步骤s7)；

步骤s7)计算列表G中每个聚类C的不确定性u，并将计算结果加入至列表U；

步骤s8)返回位置不确定度列表U和对应边界框列表H。

作为上述方法的一种改进，所述步骤s7)的不确定性u满足下式：

式中，M表示聚类C中的预测框数量，N表示同构异参模型数量，b_i表示聚类C中的第i个预测框，b_j表示聚类C中的第j个预测框，a_ij表示每一项的权重，β为超参数，用于控制聚类C中预测框数量对位置不确定度的影响程度；

位置不确定性u取值为0或1，其中，取值为0表示对于同一个实际目标，N个同构异参模型中不存在漏检，且所有N个检测框完全重合；取值为1表示所有模型都无法检测到实际存在的目标。

作为上述方法的一种改进，所述半监督训练的损失函数为：

其中，

为有监督损失，用于人工标注对象，

为无监督损失，用于伪标签对象，λ为平衡有监督损失和无监督损失所占比重的超参数；

满足下式：

其中，L表示一个训练轮次中标注图像索引，N_l表示每张标注图像所包含的人工标注框数量，

表示每张标注图像的第m个人工标注框，下标l表示标注对象，

表示分类损失函数，

表示回归损失函数；

满足下式：

其中，B表示一个训练轮次中背景图像数量，N_u表示每张标注图像或背景图像所包含的贴图伪标签框的数量，

表示在每张图像上的第n个伪标签框，下标u表示未标注对象。

与现有技术相比，本发明的优势在于：

1、本发明提出了一种适用于单目3D目标检测任务的半监督学习方法Mix-Teaching，该方法通过基于目标实例数据库和背景数据库的合成图像开展半监督训练；

2、本发明利用额外的无标签数据，有效提升单目3D目标检测相关算法的精度指标；

3、本发明提出了一种目标边界框位置不确定度估计方法，用于有效过滤噪声伪标签，进一步提升半监督学习的训练效果。

附图说明

图1是本发明的适用于单目3D目标检测任务的半监督学习方法(Mix-Teaching)原理图；

图2是采用本发明的方法实现边界框级数据增强的效果示意图；其中，图2(a)是原始图像，图2(b)是对图2(a)进行边框边缘剪切的效果图，图2(c)是对图2(a)进行边框边缘颜色填充的效果图，图2(d)是对图2(a)进行与背景图片混合的效果图，图2(e)是对图2(a)分别进行边框边缘剪切、边框边缘颜色填充以及与背景图片混合后的融合效果图；

图3是本发明的目标边界框不确定估计方法的伪代码图。

具体实施方式

一种适用于单目3D目标检测任务的半监督学习方法Mix-Teaching。该方法通过基于目标实例数据库和背景数据库的合成图像开展半监督训练。

一种目标边界框位置不确定度估计方法。用于有效过滤噪声伪标签，进一步提升半监督学习的训练效果。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明所涉及的半监督学习方法采用多阶段训练模式：首先在标注数据上训练初始教师模型，然后根据得到的教师模型进行面向数据库的伪标签生成和基于合成图像的学生模型训练，训练所得到的学生模型将被作为下一轮次的教师模型，如此不断迭代。

上文中的面向数据库的伪标签生成和基于合成图像的学生模型训练共同组成了本发明所提出的半监督学习方法(Mix-Teaching)。

1、Mix-Teaching半监督学习框架

Mix-Teaching半监督学习框架由两个阶段组成：面向数据库的伪标签生成阶段、基于合成图像的学生模型训练阶段。

(1)面向数据库的伪标签生成

为了在半监督训练环节充分利用稀疏伪标签，需要聚合伪标签和背景。如图1所示，首先使用教师模型对未标注图像数据进行打标签处理。一方面，通过类别执行度和边界框位置不确定度筛选高质量伪标签，创建由实例图像块和对应伪标签组成的实例数据库；另一方面，筛选不包含任何检测结果的未标注数据作为背景图像，创建背景数据库。

(2)基于合成图像的学生模型训练

基于上面创建的实例数据库和背景数据库构建合成图像，本发明提供两种合成图像策略：

1)将实例数据库中的图像块以贴图方式融合到有标签图像；

2)将实例数据库中的图像块以贴图方式融合到来自背景数据集的背景图像。

合成图像过程中，涉及三种实例级数据增强方法，如图2(a)所示为原始图像，

1)边框切割：按0.0-0.3比例剪切实例图像块的水平/垂直边框区域，见图2(b)；

2)颜色覆盖：按0.0-0.3比例用随机颜色填充实例图像块的水平/垂直边框区域，见图2(c)；

3)混合：将实例图像块与背景图片之间进行加权平均，见图2(d)；

图2(e)为依次进行了上述三种方法后的融合效果图。

我们创建了包含带有真实标签或伪标签的密集对象的混合图像，用于半监督训练。

半监督训练总损失函数定义如下：

其中，

为有监督损失，

为无监督损失，λ为平衡有监督损失和无监督损失所占比重的超参数。

有监督损失函数作用于人工标注对象，定义如下：

表示每张标注图像的第m个人工标注框，下表l表示标注对象，；

表示分类损失函数，

表示回归损失函数；

无监督损失函数作用于伪标签对象，定义如下：

表示在所属图像上的第n个伪标签框，下表u表示未标注对象，。

2、目标边界框位置不确定度估计方法

本发明通过根据经不同初始化和训练过程得到结构相同但参数不同的多个模型对同一个目标预测框的一致性情况来评估模型对该目标边界框估计的位置不确定度。

对于不同参数相同结构的N个模型，针对同一帧图像数据，会得到M个检测框，检测框位置不确定度具体计算流程如下，具体伪代码见图3：

(1)列表B包含所有模型的M个三维边界框，列表S存储着与每个边界框一一对应的分类置信度；

(2)声明三个空列表G、H和U。G用于保存边界框聚类。每个聚类代表N个同构异参模型对图像上同一的目标对象的检测结果，列表H用于保存每个聚类中置信度分数最高的边界框，列表U用于保存列表H中每个边界框对应的位置不确定度；

(3)依次遍历列表B中的每一个边界框bi，判断该边界框是否属于当前聚类C，匹配条件为IoU3D(b_i，b_m)≥thr，thr为交并比阈值；

(4)如果满足匹配条件，则将边界框b_i由列表B转移到聚类C，列表S作相应更新；

(5)若不满足匹配条件且已遍历列表B中所有元素，则将当前聚类C加入到列表G，重新选取列表B中置信度最高的边界框b_m，将其由列表B转移至列表H，列表S同步更新，基于框b_m初始化新的聚类C；

(6)继续执行步骤(2)直至列表B为空；

(7)计算列表G中每个聚类C的不确定性u，计算结果加入至列表U，公式如下：

式中，M表示聚类C中的预测框数量，N表示同构异参模型数量，b_i表示聚类C中的第i个预测框，a_ij表示每一项的权重，超参数β控制聚类C中预测框数量(召回)对位置不确定度的影响程度。

位置不确定性u取值0-1。取值为0表示对于同一个实际目标，N个同构异参模型中不存在漏检，且所有N个检测框完全重合，当取值为1时，表示所有模型都无法检测到实际存在的目标。

返回位置不确定度列表U和对应边界框列表H。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种适用于单目3D目标检测任务的半监督学习方法，所述方法包括：

基于标注数据训练初始教师模型，根据得到的教师模型进行面向数据库的伪标签生成和基于合成图像的学生模型训练，将本轮次训练所得到的学生模型作为下一轮次的教师模型，如此迭代进行多轮次训练直至达到训练要求，得到训练好的学生模型即为单目3D目标检测模型；在训练中采用目标边界框位置不确定度估计方法过滤噪声伪标签，进一步提升半监督训练效果；

所述目标边界框位置不确定度估计方法具体包括：