CN116129318A

CN116129318A - 一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法

Info

Publication number: CN116129318A
Application number: CN202310107513.1A
Authority: CN
Inventors: 百晓; 范嘉楠; 郑锦
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-05-16

Abstract

本发明提出一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法。其主要步骤为，使用已知内参的相机拍摄某个场景下一定长度的视频序列帧，再利用序列图像之间的投影关系自监督地训练单目深度网络，学习序列图像的单目深度估计值；随后通过预训练好的实例分割网络对图像直接预测其实例分割结果，将得到的实例分割结果结合相机内参和学习好的单目深度估计值反投影至三维空间中，得到每个实例的伪雷达数据；最后利用无监督聚类方法滤除离群点，在鸟瞰视角(x‑z平面)求解点集的最小外接矩形，y轴方向求解点集的最大‑最小高度差，最终得到物体的三维目标检测包围框。本发明利用视频前后帧的序列信息和预训练的实例分割网络，能够在完全无人工标注的情况下完成对任何新场景的三维目标检测，能够显著降低对新场景三维目标检测学习所需的人工标注成本。

Description

一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法

技术领域

本发明涉及目标检测领域，提出了一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法。

背景技术

随着深度学习的发展，许多计算机视觉相关的任务都打破了传统方法的局限并得到了突破性的发展，例如新兴的自动驾驶领域，依靠着目标检测、场景语义理解等上游任务的高度精确性、可靠性，人们可以尝试通过例如三维目标检测这样的手段，完成对自动驾驶方面的相关控制。三维目标检测任务根据传感器输入数据的形式不同，可以大致分为三个流派：激光雷达式、多目式和单目式的三维目标检测。其中，单目三维目标检测的任务是指在只有单目图像作为数据输入的情况下，结合相机的参数，完成图像中目标在三维空间下的检测。

在这些形式中，激光雷达虽然精度较高，但是仪器价格高昂且探测距离受限，往往还需要结合多目相机共同完成一个自动驾驶传感系统的搭建，例如当今TESLA、百度Apollo等企业都已经有了较为成熟的多目结合激光雷达的方案。然而，如果一个自动驾驶系统能够仅仅依赖单目相机完成目标的三维检测，那么将会大大节约成本，并具有极高的推广性，这也成为了当前三维目标检测的重点和研究热点。

然而，单目三维目标检测存在以下几个挑战：(1)单目图像包含的信息较少，仅有RGB三个通道的颜色信息，缺乏像激光雷达或是多目图像能够获取到的空间深度信息，如何估计物体的距离、像素点的深度将是此问题的关键；(2)目前已有的三维目标检测公开数据集通常面向自动驾驶领域，图像的风格仅限于国外的乡村地区和城镇地区，将训练好的模型应用于新的场景时，其泛化性能不能得到有效保证；(3)获取一个物体真实的三维检测包围框通常需要先获取其激光雷达信息，再雇佣专业的标注人员在雷达场景下对物体进行标注，所需成本较大。目前，开发出一种在新场景下无需标注即可获得三维检测包围框的无监督方法，仍是较大的挑战。

为了有效提升单目三维目标检测的精确度，本方法基于视频的序列特点挖掘更多信息，并借助预训练好的实例分割网络模型来共同构建一个无需标签信息、具有良好泛化性的三维目标检测网络。

发明内容

为了有效减少三维目标检测任务在一个新场景中的高额标注开支，本发明通过利用视频连续帧之间的运动信息和在其他数据集中预训练好的实例分割网络，可以无监督地生成图像的三维目标检测包围框。

为实现上述目的，本发明采用的技术方案流程如下：

一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于包括以下步骤：

(1)获取相机内参矩阵；

(2)使用该相机，拍摄某个场景下一定长度的视频序列帧；

(3)通过自监督单目深度网络，利用序列图像之间的投影关系，自监督地训练学习，得到序列图像的单目深度估计值；

(4)通过预训练的实例分割网络，对图像直接预测得到其实例分割结果；

(5)将得到的实例分割结果，结合步骤(3)学习到的单目深度估计值，以及步骤(1)获取的相机内参矩阵，反投影至三维空间中，得到每个实例的区域三维点集；

(6)利用无监督聚类方法对每个实例的区域三维点集进行聚类，进一步滤除离群点，得到实例主体三维点集，随后在BEV(Bird’s Eye View，鸟瞰视角)中求解实例主体三维点集的最小外接矩形，得到其x-z平面的二维包围框，并求取实例主体三维点集的y轴方向最大-最小高度差，将y轴方向最大-最小高度差作为y轴高度，最终得到物体的三维检测包围框。

如上所述的方法，其特征在于步骤(3)中通过自监督单目深度网络，利用序列图像之间的投影关系得到序列图像的单目深度估计值，其具体过程为：先预测当前帧和临近帧的单目深度估计值和位姿变换矩阵，再将临近帧的单目深度估计值进行位姿变换，得到临近帧位姿变化后的单目深度估计值，将其与当前帧的单目深度估计计算损失，以实现自监督的训练学习。

如上所述的方法，其特征在于步骤(4)中所使用的预训练实例分割网络，在其预训练过程使用的数据集应该包含三维目标检测任务所需检测目标类别，并具有良好的泛化性能。

如上所述的方法，其特征在于步骤(5)中实例分割结果，结合单目深度估计值、相机内参矩阵反投影的具体过程为：将实例分割后的像素点p转化为齐次坐标形式p＝(u,v,1)，其中u,v为像素点在二维图像上的以像素为单位的横纵坐标；将步骤(3)中得到的单目深度估计d_p＝D_t(p)，结合步骤(1)得到的相机内参矩阵K，计算得到像素点p在三维场景中的坐标(U,V,W,1)^T＝K^-1d_p(u,v,1)^T，其中U,V,W分别对应相机坐标系下x,y,z轴上的坐标值，该坐标值以米为单位，最终得到每个实例的区域三维点集。

如上所述的方法，其特征在于步骤(6)将每个实例的区域三维点集转化为实例主体三维点集，并进一步计算三维包围框的具体过程为：首先对每个实例的区域三维点集应用无监督聚类算法，得到多个聚类簇；取点数量最多的聚类簇作为实例主体三维点集，其他聚类簇所包含的点作为离群点进行点的去除；基于y轴方向求取实例主体三维点集的最大值和最小值，将两者差值作为三维包围框的y轴高度，同时在实例主体三维点集所对应的x-z平面上求解最小外接矩形，最终得到三维包围框。

如上所述的方法，其特征在于：对每个当前帧的临近帧，优选为当前帧的下一帧，对自监督单目深度估计网络，优选为sfm-learner、Monodepth系列、sc-depth或packnet网络结构，其中用于位姿估计的网络优选为输入层通道数修改为6的ResNet-18网络。

如上所述的方法，其特征在于：实例分割网络预训练的数据集优选MSCOCO数据集，网络优选Mask R-CNN网络结构；对于实例分割后得到的结果，进一步优选类别置信度大于等于0.5、包围框内部像素置信度大于等于0.5的像素区域，得到最终的实例分割结果。

如上所述的方法，其特征在于：对于每个实例的区域三维点集进行无监督聚类的算法，优选DBSCAN算法，算法参数中邻域半径E优选为0.8米，邻域内最小样本数MinPts优选为10个；对于满足物体垂直于地面假设的类别，实例主体三维点集在x-z平面上求解最小外接矩阵的过程，优选旋转卡壳算法。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明。

图1为本发明的基于视频序列和预训练实例分割的无监督单目三维目标检测方法的流程示意图；

图2为一个实施例中预训练好的实例分割网络对车辆类别直接迁移的分割效果图。

具体实施方式

前已述及，本发明提出一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，下面结合附图说明本发明的具体实施方式。实施例中所使用的具体神经网络仅做参考，并不特限于该网络，只要能够达到其任务功能，可以做其他替换。

如图1所示，本发明基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其一个实施例包括如下步骤：

(1)首先获得相机的内参矩阵K，并使用该相机，拍摄某个场景下一定长度的视频序列帧。可以简单地使用相机支架行走拍摄，也可以将相机固定在汽车载具上，对场景进行低速驾驶拍摄，由此得到某场景下的视频图像序列。

(2)通过自监督单目深度网络，利用序列图像之间的投影关系，自监督地训练学习序列图像的单目深度估计。本实施例采用的是monodepth2网络作为自监督单目深度估计预测网络，对于其他实施例也可以在保证效果的前提下做替换。以KITTI公开数据集为例，该数据为国外乡村环境的自动驾驶场景，每个场景都拍摄了一定长度的视频序列，选取其中一个场景作为本实施例的视频序列，例如编号为2011_10_03_drive_0047的场景，包含了837帧图像。

在每个epoch中，将除最后一帧外的全部帧作为训练集，对训练集中的每一帧I_t(此后均称为当前帧)和该帧的下一帧I_t′(此后均称为临近帧)作为输入进行训练，流程如下：

(2.1)将当前帧和临近帧分别输入一个单目深度网络，其结构为一个U-Net式的Encoder-Decoder结构，得到当前帧和临近帧的深度估计D_t和D_t′。

(2.2)将当前帧和临近帧进行拼接操作，得到一个H×W×6的向量，其中H,W为帧的高与宽；将此向量输入至位姿估计网络，本实施例中选择ResNet-18网络，并将输入层的通道数修改为6以适配拼接后的向量维度，由此得到由临近帧变换至当前帧的位姿变换矩阵(也即单应矩阵)H；对临近帧像素点i′，其齐次坐标形式p_i′＝(x,y,1)^T，那么其在当前帧对应的像素点i坐标p_i＝Hp_i′，两者在图像层面上的向量值应具有对应关系，故做L1损失

来迭代地训练位姿变换估计网络。

(2.3)对临近帧像素点i′和其在当前帧上对应的像素点i，它们分别的单目深度估计值也应具有对应关系，故对两者采用平滑L1损失

其中D(p)表示单目深度估计图D上一像素点p的单目深度估计值，以此来迭代地训练单目深度估计网络。

在15个epoch后，训练损失基本收敛，完成对单目深度估计网络的训练。在此后的网络推断过程中，只需单目深度估计网络的参数，即可完成对任一张图像的深度估计。

(3)通过预训练的实例分割网络对当前帧图像预测其实例分割信息。本实施例采用MSCOCO数据集上预训练好的Mask R-CNN网络作为实例分割网络，对于其他实施例也可以在保证效果的前提下做替换。

该网络在MSCOCO数据集上预训练，可以较好地完成对车辆、行人、自行车手等物体的检测，符合本方法的任务需求。至此，我们可以完成对拍摄视频每一帧的实例分割信息预测。在本实施例中，设置物体类别置信度为0.5，掩膜像素置信度为0.5，可以得到较为精确的实例分割，如图2所示为输入KITTI数据集上某张图像，在上述条件下得到的实例分割预测。

(4)将步骤(3)得到的实例分割预测，通过相机的内参矩阵和对应的单目深度估计反投影至三维空间中。记分割得到的点集为P，对其中的像素点p∈P取齐次坐标形式p＝(u,v,1)，通过相机的内参矩阵K以及步骤(3)中得到的单目深度估计d_p＝D_t(p)，根据针孔相机模型，计算出该像素点在相机坐标系下的三维场景中的坐标(U,V,W,1)^T＝K^-1d_pp^T，其中U,V,W分别对应相机坐标系下x,y,z轴上的数值。

由此，可以将点集P中的像素点一对一地映射到其三维空间中的坐标，记新的点集为区域三维点集，在本领域中也被称作伪雷达(点云)信息。

(5)对区域三维点集，在本实施例中进一步选用DBSCAN算法将实例的主体部分提取出来，滤除离群点。其具体流程为：

(5.1)设置DBSCAN算法所需参数：同类最小距离为0.8m，邻域内最小样本数为10。

(5.2)经过DBSCAN算法，输出得到多个类别簇，选取其中样本数量最多的簇作为实例的主体部分，称为实例主体三维点集；将其余簇样本点视为离群点，舍去。在图1的滤除离群点后的伪雷达信息中，红色点为离群点，蓝色点为保留的实例主体三维点集，用于进一步的包围框求解。

(6)基于物体垂直于路面的基本假设，对实例主体三维点集，取其x,z坐标，并在x-z平面上利用旋转卡壳算法求解最小外接矩形，作为三维包围框的长与宽；再取整个点集在y轴方向上的最大值与最小值，使其差值作为三维包围框的高度，最终组合为物体的三维检测包围框。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。另外，本发明未详细阐述的部分属于本领域的公知技术。

Claims

1.一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于，包括以下步骤：

(1)获取相机内参矩阵；

(2)使用该相机，拍摄某个场景下一定长度的视频序列帧；

2.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于步骤(3)中通过自监督单目深度网络，利用序列图像之间的投影关系得到序列图像的单目深度估计值，其具体过程为：先预测当前帧和临近帧的单目深度估计值和位姿变换矩阵，再将临近帧的单目深度估计值进行位姿变换，得到临近帧位姿变化后的单目深度估计值，将其与当前帧的单目深度估计计算损失，以实现自监督的训练学习。

3.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于步骤(4)中所使用的预训练实例分割网络，在其预训练过程使用的数据集应该包含三维目标检测任务所需检测目标类别，并具有良好的泛化性能。

4.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于步骤(5)中实例分割结果，结合单目深度估计值、相机内参矩阵反投影的具体过程为：

(4.1)将实例分割后的像素点p转化为齐次坐标形式p＝(u,v,1)，其中u,v为像素点在二维图像上的以像素为单位的横纵坐标；

(4.2)将步骤(3)中得到的单目深度估计d_p＝D_t(p)，结合步骤(1)得到的相机内参矩阵K，计算得到像素点p在三维场景中的坐标(U,V,W,1)^T＝K^-1d_p(u,v,1)^T，其中U,V,W分别对应相机坐标系下x,y,z轴上的坐标值，该坐标值以米为单位，最终得到每个实例的区域三维点集。

5.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于步骤(6)将每个实例的区域三维点集转化为实例主体三维点集，并进一步计算三维包围框的具体过程为：

(5.1)首先对每个实例的区域三维点集应用无监督聚类算法，得到多个聚类簇；

(5.2)取点数量最多的聚类簇作为实例主体三维点集，其他聚类簇所包含的点作为离群点进行点的去除；

(5.3)基于y轴方向求取实例主体三维点集的最大值和最小值，将两者差值作为三维包围框的y轴高度，同时在实例主体三维点集所对应的x-z平面上求解最小外接矩形，最终得到三维包围框。

6.如权利要求2所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于：对每个当前帧的临近帧，优选为当前帧的下一帧，对自监督单目深度估计网络，优选为sfm-learner、Monodepth系列、sc-depth或packnet网络结构，其中用于位姿估计的网络优选为输入层通道数修改为6的ResNet-18网络。

7.如权利要求3所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于：

(7.1)实例分割网络预训练的数据集优选MSCOCO数据集，网络优选Mask R-CNN网络结构；

(7.2)对于实例分割后得到的结果，进一步优选类别置信度大于等于0.5、包围框内部像素置信度大于等于0.5的像素区域，得到最终的实例分割结果。

8.如权利要求5所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于：

(8.1)对于每个实例的区域三维点集进行无监督聚类的算法，优选DBSCAN算法，算法参数中邻域半径E优选为0.8米，邻域内最小样本数MinPts优选为10个；

(8.2)对于满足物体垂直于地面假设的类别，实例主体三维点集在x-z平面上求解最小外接矩阵的过程，优选旋转卡壳算法。

9.一种非临时性计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法程序，所述基于视频序列和预训练实例分割的无监督单目三维目标检测方法程序被处理器执行时，实现如权利要求1至8中任一项所述的基于视频序列和预训练实例分割的无监督单目三维目标检测方法。