CN115497086A

CN115497086A - 一种自动驾驶中基于细粒度识别的3d场景流估计的方法

Info

Publication number: CN115497086A
Application number: CN202211367637.5A
Authority: CN
Inventors: 费伦林; 罗江; 刘令君; 高林; 喻恺; 黄涛; 熊斯鹏
Original assignee: Jiangxi Fangxing Technology Co ltd
Current assignee: Jiangxi Fangxing Technology Co ltd
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2022-12-20

Abstract

本发明公开了一种自动驾驶中基于细粒度识别的3D场景流估计的方法，该方法具体步骤如下：使用Kinect深度摄像机拍摄同一场景的四张RGB图像，并使用立体方法为相机坐标系中的每个像素提取3D点(XYZ)，基于RGB和XYZ值，训练一个多网络级联(MNC),然后基于细粒度识别来预测2D边界框和2D实例，同时分析不同层次的识别粒度对场景流估计的影响。再利用2D实例来获得对象坐标，对获得数据信息进行整合并集成到3D场景流中，最终实现对自动汽车未来3D位置的预测。该方法是利用细粒度识别来预测自动驾驶汽车的下一时刻位置，当存在大位移或者局部不确定的情况下，使预测的结果更加真实、精准。

Description

一种自动驾驶中基于细粒度识别的3D场景流估计的方法

技术领域

本发明属于目标导航和运动估计技术中的3D场景流估计技术领域，特别是涉及一种自动驾驶中基于细粒度识别的3D场景流估计的方法。

背景技术

3D场景流估计技术是计算机视觉领域研究的一个重要研究方向，在目标识别、场景重构、机器人导航、自动驾驶等领域都有广泛的应用。现有的三维场景流估计方法经常在存在大位移或局部不确定性的情况下失败，例如在无纹理或反射表面，这些挑战在动态的道路场景中无处不在，通过研究识别粒度的重要性，利用识别技术来克服这些三维运动的估计问题。

3D场景流估计技术可以概括为两类：(1)基于图像纹理分解的估计方法，现有的全局化方法多数是在Horn-Schunk方法的基础上进行改进的。传统的全局计算方法有一个明显的缺陷，即计算方法的鲁棒性较差，限制了该方法在实际中的应用。(2)双目视觉场景流计算方法，双目立体视觉在实时应用中能够生成较好的密集视差图，也足以用于计算机视觉领域的分割、跟踪等领域，但是其也具有一定的缺陷，在自动驾驶测试中，该方法过于依赖本地特性，即使是比较先进的方法，在存在较大的位移或来自无纹理或反射表面的局部模糊时也会失败，当两帧之间的具有比较大的位移时，第一帧的前轮类似于后面车轮的第二帧，导致错误的预测。

综上所述：现有的3D场景流估计方法都存在一定的局限性，尚不能满足实际应用的需要。因此需要一种有效稳定的估计方法，能够克服三维运动估算中的问题。

发明内容

本发明提供了一种自动驾驶中基于细粒度识别的3D场景流估计的方法，解决了以上问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明的一种自动驾驶中基于细粒度识别的3D场景流估计的方法，包括以下步骤：

输入4张RGB图像。

使用立体方法为相机坐标系中的每个像素提取3D点(XYZ)。提取每个像素3D点的具体步骤如下：

1)把像素坐标系转换成图像坐标系，像素坐标系和图像坐标系都在成像平面上，只是各自的原点和度量单位不一样。图像坐标系的原点为相机光轴与成像平面的交点。图像坐标系的单位为mm，属于物理单位，而像素坐标系的单位是pixel，即1pixel＝dx mm，通常描述一个像素点都是几行几列，所以这两者之间的转换如图2；

把图像坐标系转换成相机坐标系，从相机坐标系到图像坐标系是从3D转换到2D，属于透视投影关系，所以两者之间的转换如图3；

将RGB和上一步提取的XYZ值作为输入，训练一个多网络级联(MNC)，MNC不直接进行实例分割，它把这个任务分成了更小、更简单的子任务：区分实例，这个子任务的目标是为每个实例预测候选框和候选框是否包含对象的概率；估计掩膜，这个子任务的目标是预测对象的像素级掩膜；对对象进行分类，这个子任务的目标是为每个掩膜级实例预测类别标签。这些子任务不是并行执行的，它们要按照顺序一个个完成，这也是MNC的全称“多任务网络级联”的原因。

通过多网络级联，来预测2D边界框和2D实例分割，具体内容如下：

使用最先进的多任务网络级联获取场景中所有车辆的边界框和分割遮罩，不像对RGB图像进行操作的标准MNC框架，为网络提供了一个RGB-XYZ图像，其中XYZ表示三维场景坐标，即场景中每个像素在相机坐标中的三维位置。这个每个像素的三维位置由视差图计算得出，使用Pascal VOC对网络进行了预先培训，并使用KITTI数据库中的3200个粗略注释对其进行了微调。从KITTI数据库中获得了200幅图像，其中包含1902个像素级实例注释。用这些精细的注释进一步改进了模型验证集，最终精度为83％，而仅使用RGB图像时为78％。

训练CNN,把三维物体坐标看作一种细粒度的独特几何标记，建立帧间的对应关系，这种关系比基于稀疏特征匹配的对应关系对外观变化的鲁棒性更强。当目标实例已知时，发现基于CNN的方法可以更好的估计每个像素处的对象坐标。

分析不同层次的识别粒度对场景流估计的影响。

将2D边界框和2D实例和对象坐标线索整合到一个斜面公式中，实现对3D场景流的估计。

本技术方案利用细粒度识别来预测自动驾驶汽车的下一时刻位置，当存在大位移或者局部不确定的情况下，使预测的结果更加真实、精准。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种自动驾驶中基于细粒度识别的3D场景流估计的方法的整体流程图；

图2为本发明像素坐标系与图像坐标系的转换关系；

图3为本发明图像坐标系与相机坐标系的转换关系；

图4为本发明3D场景流估计的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明的一种自动驾驶中基于细粒度识别的3D场景流估计的方法，包括以下步骤：

S1、使用Kinect深度摄像机拍摄同一场景的四张RGB图像：将Kinect深度摄像机插上电源并通过数据线连接在电脑上，打开设备开始采集汽车运动过程中同一场景的四张RGB图像，保存采集的图像信息。

S2、分别使用立体方法为相机坐标系中的每个像素提取3D点(XYZ)；

S21、求解像素坐标系到图像坐标系的转换，对于图像表面一点p，坐标为(x，y)，像素坐标为(u，v)，像素坐标系的单位是pixel，即1pixel＝dx mm，，则其对应的转换关系如下式所示：

S22、求解图像坐标系到相机坐标系的转换，从相机坐标系到图像坐标系是从3D转换到2D，属于透视投影关系，对于相机坐标系点P_c(X_c，Y_c，Z_c)，则在平面上的投影为p(x，y)，根据相似三角形求对应的转换关系如下式所示：

S3、基于RGB像素值和XYZ值，训练一个多网络级联(MNC),基于细粒度识别来预测2D边界框和2D实例；

S31、基于细粒度识别来预测2D边界框和2D实例，给定连续两帧作为输入图像，推断参考视图中每个像素的三维几何形状与物体的关联以及物体的运动，关联参考对象K_i和物体O_j的刚体运动，将场景流估计任务描述为一个能量最小化问题，包括数据、平滑度和实例项：

S32、省略所有模型的权重参数，s＝{s_i|∈S}且o＝{o_i|∈O}。假设数据术语编码与所有图像上的对应点的外观相似：

S33、平滑度项鼓励了相邻超像素在深度、方向和运动方面的一致性。它分解为：

根据以下几何(g)和运动(m)得出：

S34、d(n，p)表示参考图像中像素p处平面n的视差，B_ij是超像素i和超像素j之间的共享边界像素集，则实例敏感权重

定义为：

通过上式得到几何敏感运动权重定义为：

S35、实例项χ(s，o)将检测到的实例扭曲到下一帧时，由三维对象坐标引起的外观和零件标签的兼容性，它的形式如下：

这里，q的计算如等式所示，外观(A)电位和零件标签(L)电位定义为:

S4、通过分别测量参考视图中的图像位置P与目标视图中Q在外观I和三维对象坐标C上的差异，式2中的数据项也评估了汽车的外观，它在无纹理、镜面反射的情况下，返回噪声是可靠的结果。细粒度识别来预测2D边界框和2D实例明显出现更好的估计精度。这些研究使用类似的测量方法来可靠地估计相机工作在在弱纹理环境中，相比之下，利用此约束来估计场景中每个单独的弱纹理对象的相对姿态

依据KITTI数据集，研究三维场景流估计的识别粒度动态(即前景)对象，分析不同层次的识别粒度对场景流估计的影响。

S5、利用2D边界框和2D实例来获得对象坐标，对获得数据信息进行整合并集成到一个斜面公式中，最终实现对自动驾驶汽车未来3D位置的预测。

以上所述为本发明的较佳实施例而已，参照以上实施方式对本发明进行了详细说明。本领域的技术人应当了解凡是不脱离本发明所公开的精神下完成的等效修改，都落入本发明保护的范围。

Claims

1.一种自动驾驶中基于细粒度识别的3D场景流估计的方法，其特征在于：包括以下步骤：

S1、使用Kinect深度摄像机拍摄同一场景的四张RGB图像：将Kinect深度摄像机插上电源并通过数据线连接在电脑上，打开设备开始采集汽车运动过程中同一场景的四张RGB图像，保存采集的图像信息；

S2、分别使用立体方法为相机坐标系中的每个像素提取3D点(XYZ)，具体包括：

S3、基于RGB像素值和XYZ值，训练一个多网络级联(MNC),基于细粒度识别来预测2D边界框和2D实例，具体包括：

S31、给定连续两帧作为输入图像，推断参考视图中每个像素的三维几何形状与物体的关联以及物体的运动，关联参考对象K_i和物体O_j的刚体运动，我们将场景流估计任务描述为一个能量最小化问题，包括数据、平滑度和实例项：

S32、省略所有模型的权重参数，s＝{s_i|∈S}且o＝{o_i|∈O}；假设数据术语编码与所有图像上的对应点的外观相似，则：

S33、平滑度项鼓励了相邻超像素在深度、方向和运动方面的一致性，它分解为：

根据以下几何(g)和运动(m)得出：

定义为：

通过上式,得出几何敏感运动权重定义为：

S35、实例项χ(s，o)将检测到的实例扭曲到下一帧时，由三维对象坐标将引起外观和零件标签的兼容性，它的形式如下：

这里，q的计算如等式所示，外观(A)的电位和零件标签(L)的电位定义为:

通过分别测量参考视图中的图像位置P与目标视图中Q在外观I和三维对象坐标C上的差异，式2中的数据项也评估了汽车的外观，它在无纹理、镜面反射的情况下，返回噪声是可靠的结果；细粒度识别来预测2D边界框和2D实例明显出现更好的估计精度；这些研究使用类似的测量方法来可靠地估计相机工作在在弱纹理环境中，相比之下，利用此约束来估计场景中每个单独的弱纹理对象的相对姿态；

S4、分析不同层次的识别粒度对场景流估计的影响：

依据KITTI数据集，研究三维场景流估计的识别粒度动态即前景对象；使用稀疏离散光流和来自两个校正帧的SPS立体声，得到使用立体切片的超像素边界；分别对OSF性能的不同定量进行比较：无识别输入、ISF BBOX即二维边界框作为识别输入、ISF SEGMASK即作为识别输入的二维实例分段和ISF SEGMASK OBJCOORD即验证集，为KITTI数据集场景流训练集的一个子集；

S5、利用2D边界框和2D实例来获得对象坐标，对获得数据信息进行整合并集成到一个斜面公式即3D场景流中，最终实现对自动驾驶汽车未来3D位置的预测。