CN114022602B

CN114022602B - 一种基于渲染的三维物体检测器训练方法

Info

Publication number: CN114022602B
Application number: CN202111317665.1A
Authority: CN
Inventors: 苏远歧; 任进进; 刘跃虎
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2024-02-23
Anticipated expiration: 2041-11-09
Also published as: CN114022602A

Abstract

一种基于渲染的三维物体检测器训练方法，步骤为：1、通过渲染物体三维模型构建合成道路场景数据集；2、构建基于掩膜约束的局部无监督图像翻译模型；3、针对合成道路场景数据集构建基于形状恢复的三维物体检测器；4、通过三维位姿重采样优化合成道路场景数据集中实例的三维位姿分布；5、生成通过相机成像的真实道路场景数据集中实例的三维伪标签，结合已标注二维标签训练针对真实道路场景数据集的三维物体检测器；本发明解决了当前三维物体检测任务中数据集三维标注耗费高昂的问题，为三维物体检测器在少样本/无样本下的训练提供一种思路，实现三维物体检测器的低成本训练，提高三维物体检测器的部署速度。

Description

一种基于渲染的三维物体检测器训练方法

技术领域

本发明属于三维物体检测技术领域，具体涉及一种基于渲染的三维物体检测器训练方法。

背景技术

三维物体检测是一种借助传感数据获取物体在三维空间的位置、姿态以及物体类别信息的目标检测方法。随着高级辅助驾驶、无人驾驶的快速发展，三维物体检测的研究受到越来越多的关注。无人和高级辅助驾驶系统通过三维物体检测进行场景感知，识别道路场景中物体的类别、精确位置和全局方位角等，从而为驾驶系统确定障碍物位姿、建立道路场景地图、从而为系统决策与路径规划提供重要依据。

按照所用传感数据的不同，可以将三维物体检测算法分为：1)基于点云的三维物体检测；2)基于双目相机的三维物体检测；3)基于单目相机的三维物体检测。由于激光点云和双目相机成像可以直接或间接的提供物体的深度信息，因此就目前的三维物体检测算法来看，基于激光点云或双目相机成像的算法在精度表现上要优于单目相机，但其数据收集成本高昂，会大幅增加智能算法在驾驶系统中的落地成本，不利于其在工业界的应用。考虑到基于单目相机的三维物体检测，在落地中就传感数据采集成本来说相对低廉，具有较强可推广性，但其在训练过程仍然依赖于大量的人工标注数据提供监督信号，当前人工加注三维标签的过程往往需要激光雷达等采集三维点云数据提供支持，以校验三维标注结果的准确性。

常用的KITTI、ApolloScape、NuScenes等具有三维标签的道路场景数据集，一般通过相机、激光雷达、毫米波雷达等传感设备采集包括二维道路场景图像、三维激光点云数据等原始数据，针对物体在三维空间中的精确位置、全局方位角、尺寸等三维位姿信息建立标注准则，雇佣标注人员依据该准则在三维点云数据中为空间物体添加标注，并将其投影至二维道路场景中反复验证，以获取具有相对准确标签的三维数据集。相较于道路场景数据中二维标签的加注，三维标签的获取成本依然高昂，通常需要昂贵的硬件设备采集三维点云数据作为支持，同时需要大量的人工进行三维信息标注并验证，时间和金钱成本耗费巨大。

综上所述，现有的针对驾驶场景的三维物体检测算法训练过程中，所需的具有三维标签数据集的收集、标注过程耗费高昂，不能满足三维物体检测算法的低成本训练和快速部署需求，难以保证其在工业界的可推广性。

发明内容

为了解决现阶段基于单目视觉的三维训练样本收集、标注耗费高昂的问题，本发明提供一种基于渲染的三维物体检测器训练方法，能够降低三维物体检测模型对人工标注数据的渴求，实现三维物体检测器的低成本训练，提高三维物体检测器的部署速度。

为了达到以上目的，本发明采用以下技术方案：

一种基于渲染的三维物体检测器训练方法，包括以下步骤：

步骤1：通过渲染物体三维模型构建合成道路场景数据集，借助真实道路场景数据集的摄像机内参数标注结果，将物体三维模型渲染至真实道路场景图中，生成具有三维标注信息的合成道路场景数据集，同时构建道路场景中物体可能出现的三维位姿超集；

步骤2：针对步骤1中生成的具有三维标注信息的合成道路场景数据集，缩小合成道路场景数据集与真实道路场景数据集中实例外观纹理、光照、风格的不一致，同时保持渲染物体的三维位姿不发生变化，构建基于掩膜约束的局部无监督图像翻译模型；

步骤3：使用合成道路场景数据集训练基于形状恢复的三维物体检测器：结合步骤1、2中得到的具有三维标注信息的合成道路场景数据集、基于掩膜约束的局部无监督图像翻译模型，考虑物体三维形状和二维投影结果的几何推理关系，构建基于形状恢复的三维物体检测器，使用合成道路场景数据集进行训练，得到基于形状恢复的合成道路场景数据集端三维物体检测器；

步骤4：在步骤3中三维物体检测器的训练中，基于步骤1中构建的道路场景中物体可能出现的三维位姿超集，通过三维位姿重采样缩小合成道路场景数据集与真实道路场景数据集中实例三维位姿分布的不一致；

步骤5：使用真实道路场景数据集训练基于形状恢复的三维物体检测器：使用步骤4中得到的基于形状恢复的合成道路场景数据集端三维物体检测器，结合步骤3中基于掩膜约束的局部无监督图像翻译模型，生成真实道路场景数据集中实例的三维伪标签，结合真实道路场景数据集中实例已标注的二维标签，训练基于形状恢复的真实道路场景数据集端三维物体检测器。

步骤1的具体过程如下：

生成符合真实道路场景数据集中物体三维位姿分布规律的待渲染三维位姿集合，采用两种方式从参数的角度生成，一是针对当前真实道路场景图选取距离数据采集设备最近的物体位置作为的基准位置，在该基准位置的基础上进行参数随机抖动，生成小批量待渲染物体三维位姿集合；二是在当前真实道路场景成像空间中随机采样三维位置、全局方位角参数，构建针对当前真实道路场景图的三维位姿超集；

在上述方法生成的待渲染三维位姿集合的基础上，构建虚拟摄像机坐标系，依据真实道路场景数据集标注的摄像机内外参数，在摄像机坐标系中建立满足摄像机内参数的成像空间，将物体三维模型根据上述生成的待渲染三维位姿集合中的三维位姿参数加载至摄像机坐标系中，通过透视投影生成二维成像结果，并将其渲染至真实道路场景图中，得到具有三维标注信息的合成道路场景数据集，同时生成所渲染实例的掩膜(单通道灰度图像，物体位置像素值为1，背景位置像素值为0)。

步骤2中构建基于掩膜约束的局部无监督图像翻译模型的具体过程为：

步骤1所构建的合成道路场景数据集中的实例为基于掩膜约束的局部无监督图像翻译模型的源域数据，真实道路场景数据集中的实例为基于掩膜约束的局部无监督图像翻译模型的目标域数据，构建局部无监督图像翻译模型，局部无监督图像翻译模型由两个生成器、两个判别器组成，生成器采用编码-解码机制的网络结构，判别器使用多个卷积核提取局部特征保留图像细节信息，设置包括生成对抗损失在内的一系列损失函数。

步骤3中使用合成道路场景数据集训练基于形状恢复的三维物体检测器的具体过程为：

通过基于掩膜约束的局部无监督图像翻译模型将合成道路场景数据集中的实例转换为目标域实例，使用合成道路场景数据集中的三维标注信息作为监督信息训练针对合成道路场景数据集的三维物体检测器；借助物体三维包围盒与摄像机内参数构建物体三维伪形状对物体真实三维形状做出近似，通过构建物体三维形状与二维成像结果之间的几何约束关系，确定物体的三维位姿，训练基于形状恢复的合成道路场景数据集端三维物体检测器。

步骤4中通过三维位姿重采样缩小合成道路场景数据集与真实道路场景数据集中实例三维位姿分布不一致的具体过程为：

合成道路场景数据集中物体的初始位姿分布按照一定概率分布从三维位姿超集中采样，在三维物体检测器的训练过程中，以固定迭代次数后的三维物体检测器对真实道路场景数据集中实例预测结果的三维位姿分布为指导进行三维位姿重采样并渲染，构成新一轮合成道路场景数据集，以此不断对合成道路场景数据集中物体三维位姿进行重采样，同时迭代模型参数获取针对合成道路场景数据集效果最优的三维物体检测器。

具体的，步骤5中使用真实道路场景数据集训练基于形状恢复的三维物体检测器的过程为：

针对真实道路场景数据集中的实例，使用基于掩膜约束的局部无监督图像翻译模型重新将真实道路场景数据集中的实例转换至目标域，使用步骤3中使用合成道路场景数据集训练得到的基于形状恢复的三维物体检测器对其进行位姿预测，产生真实道路场景数据集中实例的三维伪标签，结合真实道路场景数据集中实例已标注的二维标签，训练基于形状恢复的真实道路场景数据集端三维物体检测器。

本发明提出一种基于渲染的三维物体检测器训练方法，与现有技术相比，产生的有益效果为：

1)通过渲染物体三维模型构建具有三维标注信息合成道路场景数据集。在将物体三维模型渲染至真实道路场景图的过程中，保证了物体在三维空间中的几何一致性。几何一致性具体体现在a)通过三维位姿重采样的方式，模拟物体在真实道路场景数据集中的三维位姿分布，保证物体空间位置的几何一致性，例如物体之间相互遮挡；b)物体三维模型渲染过程完全模拟摄像机成像过程，可以在摄像机内参数已知、真实道路场景图确定的情况下，对物体三维模型进行透视投影得到几何一致的二维成像结果。

2)解决了合成道路场景数据集与真实道路场景数据集中实例的外观纹理、光照、风格不一致问题。构建了基于掩膜约束的局部无监督图像翻译模型，在缩小合成道路场景数据集与真实道路场景数据集中实例外观不一致的过程中保持物体的三维位姿不变，为基于形状恢复的三维物体检测任务提供数据基础。

3)提出了基于形状恢复的三维物体检测模型。本发明充分考虑物体形状的不变性，提出基于形状恢复的三维物体检测模型，充分发挥物体三维形状在不同数据间的一致性优势，为跨数据集的三维物体检测器训练提供一种可借鉴的思路。

4)降低了三维物体检测器的训练成本。通过渲染物体三维模型构建的合成道路场景数据集，具有相对准确的三维标注信息，以此训练合成道路场景数据集端的三维物体检测器，通过基于掩膜约束的局部无监督图像翻译模型实现不同数据集中实例外观的转换，使用合成道路场景数据集端的三维物体检测器生成真实道路场景数据集中实例的三维伪标签，可以降低三维物体检测任务中训练数据集的三维信息收集和标注成本，加速智能算法的落地与部署。

附图说明

图1是本发明构建的基于渲染的三维物体检测器训练方法示意图；

图2是物体相对于摄像机的全局方位角示意图；

图3是道路场景成像空间中三维位姿超集生成示意图；

图4是渲染物体三维模型至真实道路场景图的示意图；

图5是基于掩膜约束的局部无监督图像翻译网络的编码结构示意图；

图6是基于掩膜约束的局部无监督图像翻译网络的解码结构示意图；

图7是基于形状恢复的三维物体检测网络结构图；

图8是真实道路场景数据集中实例三维伪标签的生成示意图；

图9是采用真实道路场景数据集中实例三维伪标签+二维标签的三维物体检测器训练方法示意图。

具体实施方式

以下结合附图及具体实例，对本发明作进一步的详细描述。所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一种基于渲染的三维物体检测器训练方法，图1为训练方法示意图，具体包括以下步骤：

步骤1：通过渲染物体三维模型构建合成道路场景数据集；

借助例如KITTI的真实道路场景数据集的摄像机内参数标注结果，将物体三维模型渲染至真实道路场景图中，生成具有三维标注信息的合成道路场景数据集，同时构建道路场景中物体可能出现的三维位姿超集，其中三维位姿集合的构建可以描述为两种方式，1)在真实道路场景数据集的三维标注信息中，选取距离数据采集设备最近的物体作为基准物体，选取基准物体的中心点三维坐标location、全局方位角r_y参数作为基准三维坐标和全局方位角，在此基础上进对物体中心点三维坐标和全局方位角进行参数随机抖动，产生新的待渲染三维位姿参数，全局方位角r_y如图2所示，为物体前进方向与摄像机坐标系x轴正方向夹角；2)如图3，在道路场景成像空间中以摄像机位置为极点建立空间极坐标系，网格化参数θ，和r，产生多个/>空间极坐标，并将网格化空间极坐标转换至摄像机坐标系中，随机生成对应的全局方位角r_y，构建道路场景中物体可能出现的三维位姿超集；

在上述生成的物体可能出现的三维位姿集合的基础上，对比摄像机成像过程，将渲染物体三维模型过程分为将物体三维模型加载至摄像机坐标系中、生成物体三维模型的透视投影结果并将投影结果渲染至真实道路场景图中；

将物体三维模型加载至摄像机坐标系中，物体三维模型多表示为三维物体表面顶点、多边形以及三维物体表面纹理的集合，其中顶点坐标表示为以物体为中心的模型坐标系中的坐标位置，如图4，首先将物体三维模型加载至摄像机坐标系中，即将物体三维模型中的顶点坐标通过旋转、平移转换至摄像机坐标系中，同时确定摄像机在世界坐标系中的坐标位置，具体公式表示如(1)；

其中，(x_obj，y_obj，z_obj，w_obj)代表物体表面顶点在模型坐标系中的坐标位置，(x_cam，y_cam，z_cam，ω_cam)代表物体表面顶点在摄像机坐标系中的坐标位置，M_obj→world通过旋转、平移将物体表面顶点在模型坐标系中的坐标位置转换至世界坐标系中，M_world→cam将物体表面顶点在世界坐标系中的坐标位置转换至摄像机坐标系中，旋转和平移中使用的外参数R和T，通过物体中心在摄像机坐标系中的坐标位置(x_loc，y_loc，z_loc)以及物体围绕摄像机坐标系y轴的旋转角rotation_y计算生成，物体中心在摄像机坐标系中的坐标位置和物体围绕摄像机坐标系轴的旋转角从物体三维位姿超集中采样，如式(2)为外参数T的向量表达，式(3)为外参数R的向量表达，式(4)为M_world→cam的向量表达；

T＝(x_loc，y_loc，z_loc)^T (2)

生成物体三维模型的透视投影结果并将投影结果渲染至真实道路场景图中，通过摄像机内参数定义透视投影关系，对摄像机视场内的物体三维模型进行透视投影并渲染透视投影结果，二维成像结果位于真实道路场景图之外的部分将被裁剪，如公式(5)将摄像机坐标系中三维物体表面顶点的坐标位置与M_cam→pixel矩阵相乘，M_cam→pixel如式(6)为摄像机内参数矩阵，得到物体三维模型透视投影之后在真实道路场景中的像素坐标，至此物体三维模型的二维成像结果符合摄像机成像规律，且与合成道路场景数据集中其他物体有正确的遮挡关系；

步骤2：构建基于掩膜约束的局部无监督图像翻译模型：

训练基于掩膜约束的局部无监督图像翻译模型的源域数据为合成道路场景数据集中的实例，目标域数据为真实道路场景数据集中的实例，基于掩膜约束的局部无监督图像翻译模型，由两个生成器、两个判别器组成，两个生成器分别是从源域数据到目标域数据进行图像翻译的生成器，以及从目标域数据到源域数据进行图像翻译的生成器，两个判别器分别是判别源域数据和翻译所得源域数据的判别器，以及判别目标域数据和翻译所得目标域数据的判别器，其中生成器采用编码-解码机制的网络结构，为了在图像翻译过程中保持道路场景图中实例的边缘信息以及三维位姿不变，使用道路场景数据集中实例对应的掩膜约束图像翻译过程，因此对应每个生成器设置一个编码器、两个解码器，两个解码器分别为针对道路场景图中实例的图像本身、图像对应掩膜进行解码；

由于道路场景数据集中实例的图像二维尺寸大小各不相同，同时为保证道路场景数据集中的实例在图像翻译过程中的三维位姿不变，在将道路场景数据集中的实例加载至基于掩膜约束的局部无监督图像翻译模型之前，根据实例的图像对应的二维边界框将实例裁剪，缩放填充为统一大小的图像块；

如图5，首先将针对道路场景数据集中实例对应的统一大小图像块送入生成器，通过卷积神经网络将图像块编码成256个通道的特征向量，然后将图像块对应的特征向量送入基于残差的特征提取网络组合图像块的不相邻特征，确保在编码-解码的同时保留图像块的原始特征，将经过编码的图像块对应的特征向量送入解码器，利用反卷积层完成从特征向量到图像块、图像块对应掩膜的上采样，生成器中的两个解码器分别通过解码图像块对应的特征向量得到图像翻译之后的图像块和图像块对应掩膜；采用局部无监督图像翻译模型的生成器对源域数据和目标域数据进行转换后，合成道路场景数据集中的实例和真实道路场景数据集中的实例通过局部无监督图像翻译模型生成的数据属于源域数据，真实道路场景数据集中实例和合成道路场景数据集中实例通过局部无监督图像翻译模型生成的数据属于目标域数据，将其分别送入对应的判别器进行判别，尽可能区分两个数据域中的原始道路场景数据集中的实例和局部无监督图像翻译模型翻译得到的生成数据，判别器使用多个卷积核提取待判别图像的局部特征以保留图像细节信息，下采样生成与卷积核数量相同大小的特征向量，特征向量中的每一个特征值对应着待判别图像中一个局部感受野，如图6送入判别器的待判别图像包括实例对应的图像块和图像块对应掩膜，判别器需要分别对图像块和图像块对应掩膜进行特征提取和判别，首先将图像块和图像块对应掩膜分别送入各自特征提取网络得到特征向量，然后将图像块特征向量和图像块对应掩膜的特征向量合并，送进判别网络进行判别，设置包括生成对抗损失在内的一系列损失函数；

步骤3：使用合成道路场景数据集训练基于形状恢复的三维物体检测器：

首先借助合成道路场景数据集中的物体三维包围盒及摄像机内参数生成物体三维伪形状，使用物体三维伪形状对物体三维形状做出近似，再根据物体三维形状和二维成像结果之间的投影关系构建几何约束，使得物体三维形状网格化后的每个点在透视投影变换的作用下，能够与二维成像结果网格化后的网格点位置尽可能接近，为此设计了如图7所示的基于形状恢复的三维物体检测网络框架，主要包括两个分支，即二维检测分支和三检测维分支，其中二维检测分支用于检测道路场景图中实例的二维边界框，而三维检测分支用于回归二维检测分支得到的二维边界框内实例的三维位姿，基于形状恢复的三维物体检测网络将整张道路场景图作为输入，通过共享卷积层来提取二维检测分支和三维检测分支的共享特征。基于共享特征，二维检测分支通过更深层下采样特征检测道路场景图中实例的二维边界框，而三维检测分支根据二维检测分支得到的二维边界框在共享特征上通过ROI_Align获取对应区域的局部特征，通过编码-解码机制的网络结构回归二维边界框内实例对应物体的尺寸、全局方位角、三维伪形状及掩模信息，再通过几何推理模型结合二维检测分支得到的二维边界框、三维检测分支回归的物体三维伪形状信息及摄像机内参数，优化物体三维位姿使得二维成像结果网格化后的网格点位置，和物体三维伪形状的网格化后的每个点在透视投影变换之后的二维位置尽可能接近；

训练数据集采用合成道路场景数据集通过基于掩膜约束的局部无监督图像翻译模型转换至目标域的数据集，将合成道路场景数据集中实例根据实例二维边界框进行裁剪，送入局部无监督图像翻译模型中，得到局部无监督图像翻译目标域中的实例数据，使用该实例对应的三维位姿参数作为监督信号，训练针对合成道路场景数据集的三维物体检测器；

步骤4：通过三维位姿重采样缩小合成道路场景数据集与真实道路场景数据集中实例三维位姿分布不一致：

在步骤1中构建的道路场景中物体可能出现的三维位姿超集的基础上，使用高斯混合分布P(x|θ)拟合真实道路场景数据集中物体的三维位姿分布，针对每个不同的真实道路场景，依据高斯混合分布P(x|θ)采样三维位姿超集中对应的部分三维位姿参数，作为该真实道路场景下待渲染物体的初始化三维位姿集合，使用初始化三维位姿集合对应的合成道路场景数据集训练基于形状恢复的三维物体检测器，在三维物体检测器的训练过程中选取固定迭代次数后的中间模型，预测真实道路场景数据集中实例的三维位姿，利用所预测的三维位姿信息更新原有高斯混合分布P(x|θ)为P^t(x|θ)，重新依据高斯混合分布P^t(x|θ)对三维位姿超集中的三维位姿参数进行采样，构建新一轮合成道路场景数据集作为训练数据集更新基于形状恢复的三维物体检测器，以使得合成道路场景数据集中物体的三维位姿分布越接近于真实道路场景数据集中物体的三维位姿分布；

步骤5：使用真实道路场景数据集训练基于形状恢复的三维物体检测器：

如图8，将真实道路场景数据集中实例通过基于掩膜约束的局部无监督图像翻译模型中的两个生成器，重新转换至局部无监督图像翻译目标域，使用步骤4中得到的针对合成道路场景数据集的三维物体检测器，预测真实道路场景数据集中实例的三维位姿，作为真实道路场景数据集中实例的三维伪标签，结合真实道路场景数据集中实例已标注的二维标签，训练针对真实道路场景数据集的三维物体检测器，如图9，训练过程中图像数据直接采用真实道路场景数据集中的道路场景图，二维标签由真实道路场景数据集中实例的原始二维标注产生，三维伪标签由步骤4中使用合成道路场景数据集训练的三维物体检测器结合基于掩膜约束的局部无监督图像翻译模型生成，基于形状恢复的三维物体检测器采用与步骤3中相同的网络结构，此处不再赘述，至此得到一个针对通过相机成像的真实道路场景数据的基于形状恢复的三维物体检测器。

Claims

1.一种基于渲染的三维物体检测器训练方法，其特征在于：包括以下步骤：

步骤5：使用真实道路场景数据集训练基于形状恢复的三维物体检测器：使用步骤4中得到的基于形状恢复的合成道路场景数据集端三维物体检测器，结合步骤3中基于掩膜约束的局部无监督图像翻译模型，生成真实道路场景数据集中实例的三维伪标签，结合真实道路场景数据集中实例已标注的二维标签，训练基于形状恢复的真实道路场景数据集端三维物体检测器；

步骤1所构建的合成道路场景数据集中的实例为基于掩膜约束的局部无监督图像翻译模型的源域数据，真实道路场景数据集中的实例为基于掩膜约束的局部无监督图像翻译模型的目标域数据，构建局部无监督图像翻译模型，局部无监督图像翻译模型由两个生成器、两个判别器组成，生成器采用编码-解码机制的网络结构，判别器使用多个卷积核提取局部特征保留图像细节信息，设置包括生成对抗损失、循环一致损失、感知损失、掩膜损失在内的损失函数。

2.根据权利要求1所述的一种基于渲染的三维物体检测器训练方法，其特征在于：步骤1的具体过程如下：

在上述方法生成的待渲染三维位姿集合的基础上，构建虚拟摄像机坐标系，依据真实道路场景数据集标注的摄像机内外参数，在摄像机坐标系中建立满足摄像机内参数的成像空间，将物体三维模型根据上述生成的待渲染三维位姿集合中的三维位姿参数加载至摄像机坐标系中，通过透视投影生成二维成像结果，并将其渲染至真实道路场景图中，得到具有三维标注信息的合成道路场景数据集，同时生成所渲染实例的掩膜。

3.根据权利要求1所述的一种基于渲染的三维物体检测器训练方法，其特征在于：步骤3中使用合成道路场景数据集训练基于形状恢复的三维物体检测器的具体过程为：

4.根据权利要求1所述的一种基于渲染的三维物体检测器训练方法，其特征在于：步骤4中通过三维位姿重采样缩小合成道路场景数据集与真实道路场景数据集中实例三维位姿分布不一致的具体过程为：

5.根据权利要求1所述的一种基于渲染的三维物体检测器训练方法，其特征在于：步骤5中使用真实道路场景数据集训练基于形状恢复的三维物体检测器的过程为：