CN115497086A - 一种自动驾驶中基于细粒度识别的3d场景流估计的方法 - Google Patents
一种自动驾驶中基于细粒度识别的3d场景流估计的方法 Download PDFInfo
- Publication number
- CN115497086A CN115497086A CN202211367637.5A CN202211367637A CN115497086A CN 115497086 A CN115497086 A CN 115497086A CN 202211367637 A CN202211367637 A CN 202211367637A CN 115497086 A CN115497086 A CN 115497086A
- Authority
- CN
- China
- Prior art keywords
- coordinate system
- scene
- pixel
- identification
- fine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种自动驾驶中基于细粒度识别的3D场景流估计的方法,该方法具体步骤如下:使用Kinect深度摄像机拍摄同一场景的四张RGB图像,并使用立体方法为相机坐标系中的每个像素提取3D点(XYZ),基于RGB和XYZ值,训练一个多网络级联(MNC),然后基于细粒度识别来预测2D边界框和2D实例,同时分析不同层次的识别粒度对场景流估计的影响。再利用2D实例来获得对象坐标,对获得数据信息进行整合并集成到3D场景流中,最终实现对自动汽车未来3D位置的预测。该方法是利用细粒度识别来预测自动驾驶汽车的下一时刻位置,当存在大位移或者局部不确定的情况下,使预测的结果更加真实、精准。
Description
技术领域
本发明属于目标导航和运动估计技术中的3D场景流估计技术领域,特别是涉及一种自动驾驶中基于细粒度识别的3D场景流估计的方法。
背景技术
3D场景流估计技术是计算机视觉领域研究的一个重要研究方向,在目标识别、场景重构、机器人导航、自动驾驶等领域都有广泛的应用。现有的三维场景流估计方法经常在存在大位移或局部不确定性的情况下失败,例如在无纹理或反射表面,这些挑战在动态的道路场景中无处不在,通过研究识别粒度的重要性,利用识别技术来克服这些三维运动的估计问题。
3D场景流估计技术可以概括为两类:(1)基于图像纹理分解的估计方法,现有的全局化方法多数是在Horn-Schunk方法的基础上进行改进的。传统的全局计算方法有一个明显的缺陷,即计算方法的鲁棒性较差,限制了该方法在实际中的应用。(2)双目视觉场景流计算方法,双目立体视觉在实时应用中能够生成较好的密集视差图,也足以用于计算机视觉领域的分割、跟踪等领域,但是其也具有一定的缺陷,在自动驾驶测试中,该方法过于依赖本地特性,即使是比较先进的方法,在存在较大的位移或来自无纹理或反射表面的局部模糊时也会失败,当两帧之间的具有比较大的位移时,第一帧的前轮类似于后面车轮的第二帧,导致错误的预测。
综上所述:现有的3D场景流估计方法都存在一定的局限性,尚不能满足实际应用的需要。因此需要一种有效稳定的估计方法,能够克服三维运动估算中的问题。
发明内容
本发明提供了一种自动驾驶中基于细粒度识别的3D场景流估计的方法,解决了以上问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明的一种自动驾驶中基于细粒度识别的3D场景流估计的方法,包括以下步骤:
输入4张RGB图像。
使用立体方法为相机坐标系中的每个像素提取3D点(XYZ)。提取每个像素3D点的具体步骤如下:
1)把像素坐标系转换成图像坐标系,像素坐标系和图像坐标系都在成像平面上,只是各自的原点和度量单位不一样。图像坐标系的原点为相机光轴与成像平面的交点。图像坐标系的单位为mm,属于物理单位,而像素坐标系的单位是pixel,即1pixel=dx mm,通常描述一个像素点都是几行几列,所以这两者之间的转换如图2;
把图像坐标系转换成相机坐标系,从相机坐标系到图像坐标系是从3D转换到2D,属于透视投影关系,所以两者之间的转换如图3;
将RGB和上一步提取的XYZ值作为输入,训练一个多网络级联(MNC),MNC不直接进行实例分割,它把这个任务分成了更小、更简单的子任务:区分实例,这个子任务的目标是为每个实例预测候选框和候选框是否包含对象的概率;估计掩膜,这个子任务的目标是预测对象的像素级掩膜;对对象进行分类,这个子任务的目标是为每个掩膜级实例预测类别标签。这些子任务不是并行执行的,它们要按照顺序一个个完成,这也是MNC的全称“多任务网络级联”的原因。
通过多网络级联,来预测2D边界框和2D实例分割,具体内容如下:
使用最先进的多任务网络级联获取场景中所有车辆的边界框和分割遮罩,不像对RGB图像进行操作的标准MNC框架,为网络提供了一个RGB-XYZ图像,其中XYZ表示三维场景坐标,即场景中每个像素在相机坐标中的三维位置。这个每个像素的三维位置由视差图计算得出,使用Pascal VOC对网络进行了预先培训,并使用KITTI数据库中的3200个粗略注释对其进行了微调。从KITTI数据库中获得了200幅图像,其中包含1902个像素级实例注释。用这些精细的注释进一步改进了模型验证集,最终精度为83%,而仅使用RGB图像时为78%。
训练CNN,把三维物体坐标看作一种细粒度的独特几何标记,建立帧间的对应关系,这种关系比基于稀疏特征匹配的对应关系对外观变化的鲁棒性更强。当目标实例已知时,发现基于CNN的方法可以更好的估计每个像素处的对象坐标。
分析不同层次的识别粒度对场景流估计的影响。
将2D边界框和2D实例和对象坐标线索整合到一个斜面公式中,实现对3D场景流的估计。
本技术方案利用细粒度识别来预测自动驾驶汽车的下一时刻位置,当存在大位移或者局部不确定的情况下,使预测的结果更加真实、精准。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种自动驾驶中基于细粒度识别的3D场景流估计的方法的整体流程图;
图2为本发明像素坐标系与图像坐标系的转换关系;
图3为本发明图像坐标系与相机坐标系的转换关系;
图4为本发明3D场景流估计的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明的一种自动驾驶中基于细粒度识别的3D场景流估计的方法,包括以下步骤:
S1、使用Kinect深度摄像机拍摄同一场景的四张RGB图像:将Kinect深度摄像机插上电源并通过数据线连接在电脑上,打开设备开始采集汽车运动过程中同一场景的四张RGB图像,保存采集的图像信息。
S2、分别使用立体方法为相机坐标系中的每个像素提取3D点(XYZ);
S21、求解像素坐标系到图像坐标系的转换,对于图像表面一点p,坐标为(x,y),像素坐标为(u,v),像素坐标系的单位是pixel,即1pixel=dx mm,,则其对应的转换关系如下式所示:
S22、求解图像坐标系到相机坐标系的转换,从相机坐标系到图像坐标系是从3D转换到2D,属于透视投影关系,对于相机坐标系点Pc(Xc,Yc,Zc),则在平面上的投影为p(x,y),根据相似三角形求对应的转换关系如下式所示:
S3、基于RGB像素值和XYZ值,训练一个多网络级联(MNC),基于细粒度识别来预测2D边界框和2D实例;
S31、基于细粒度识别来预测2D边界框和2D实例,给定连续两帧作为输入图像,推断参考视图中每个像素的三维几何形状与物体的关联以及物体的运动,关联参考对象Ki和物体Oj的刚体运动,将场景流估计任务描述为一个能量最小化问题,包括数据、平滑度和实例项:
S32、省略所有模型的权重参数,s={si|∈S}且o={oi|∈O}。假设数据术语编码与所有图像上的对应点的外观相似:
S33、平滑度项鼓励了相邻超像素在深度、方向和运动方面的一致性。它分解为:
根据以下几何(g)和运动(m)得出:
通过上式得到几何敏感运动权重定义为:
S35、实例项χ(s,o)将检测到的实例扭曲到下一帧时,由三维对象坐标引起的外观和零件标签的兼容性,它的形式如下:
这里,q的计算如等式所示,外观(A)电位和零件标签(L)电位定义为:
S4、通过分别测量参考视图中的图像位置P与目标视图中Q在外观I和三维对象坐标C上的差异,式2中的数据项也评估了汽车的外观,它在无纹理、镜面反射的情况下,返回噪声是可靠的结果。细粒度识别来预测2D边界框和2D实例明显出现更好的估计精度。这些研究使用类似的测量方法来可靠地估计相机工作在在弱纹理环境中,相比之下,利用此约束来估计场景中每个单独的弱纹理对象的相对姿态
依据KITTI数据集,研究三维场景流估计的识别粒度动态(即前景)对象,分析不同层次的识别粒度对场景流估计的影响。
S5、利用2D边界框和2D实例来获得对象坐标,对获得数据信息进行整合并集成到一个斜面公式中,最终实现对自动驾驶汽车未来3D位置的预测。
以上所述为本发明的较佳实施例而已,参照以上实施方式对本发明进行了详细说明。本领域的技术人应当了解凡是不脱离本发明所公开的精神下完成的等效修改,都落入本发明保护的范围。
Claims (1)
1.一种自动驾驶中基于细粒度识别的3D场景流估计的方法,其特征在于:包括以下步骤:
S1、使用Kinect深度摄像机拍摄同一场景的四张RGB图像:将Kinect深度摄像机插上电源并通过数据线连接在电脑上,打开设备开始采集汽车运动过程中同一场景的四张RGB图像,保存采集的图像信息;
S2、分别使用立体方法为相机坐标系中的每个像素提取3D点(XYZ),具体包括:
S21、求解像素坐标系到图像坐标系的转换,对于图像表面一点p,坐标为(x,y),像素坐标为(u,v),像素坐标系的单位是pixel,即1pixel=dx mm,,则其对应的转换关系如下式所示:
S22、求解图像坐标系到相机坐标系的转换,从相机坐标系到图像坐标系是从3D转换到2D,属于透视投影关系,对于相机坐标系点Pc(Xc,Yc,Zc),则在平面上的投影为p(x,y),根据相似三角形求对应的转换关系如下式所示:
S3、基于RGB像素值和XYZ值,训练一个多网络级联(MNC),基于细粒度识别来预测2D边界框和2D实例,具体包括:
S31、给定连续两帧作为输入图像,推断参考视图中每个像素的三维几何形状与物体的关联以及物体的运动,关联参考对象Ki和物体Oj的刚体运动,我们将场景流估计任务描述为一个能量最小化问题,包括数据、平滑度和实例项:
S32、省略所有模型的权重参数,s={si|∈S}且o={oi|∈O};假设数据术语编码与所有图像上的对应点的外观相似,则:
S33、平滑度项鼓励了相邻超像素在深度、方向和运动方面的一致性,它分解为:
根据以下几何(g)和运动(m)得出:
通过上式,得出几何敏感运动权重定义为:
S35、实例项χ(s,o)将检测到的实例扭曲到下一帧时,由三维对象坐标将引起外观和零件标签的兼容性,它的形式如下:
这里,q的计算如等式所示,外观(A)的电位和零件标签(L)的电位定义为:
通过分别测量参考视图中的图像位置P与目标视图中Q在外观I和三维对象坐标C上的差异,式2中的数据项也评估了汽车的外观,它在无纹理、镜面反射的情况下,返回噪声是可靠的结果;细粒度识别来预测2D边界框和2D实例明显出现更好的估计精度;这些研究使用类似的测量方法来可靠地估计相机工作在在弱纹理环境中,相比之下,利用此约束来估计场景中每个单独的弱纹理对象的相对姿态;
S4、分析不同层次的识别粒度对场景流估计的影响:
依据KITTI数据集,研究三维场景流估计的识别粒度动态即前景对象;使用稀疏离散光流和来自两个校正帧的SPS立体声,得到使用立体切片的超像素边界;分别对OSF性能的不同定量进行比较:无识别输入、ISF BBOX即二维边界框作为识别输入、ISF SEGMASK即作为识别输入的二维实例分段和ISF SEGMASK OBJCOORD即验证集,为KITTI数据集场景流训练集的一个子集;
S5、利用2D边界框和2D实例来获得对象坐标,对获得数据信息进行整合并集成到一个斜面公式即3D场景流中,最终实现对自动驾驶汽车未来3D位置的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211367637.5A CN115497086A (zh) | 2022-11-03 | 2022-11-03 | 一种自动驾驶中基于细粒度识别的3d场景流估计的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211367637.5A CN115497086A (zh) | 2022-11-03 | 2022-11-03 | 一种自动驾驶中基于细粒度识别的3d场景流估计的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497086A true CN115497086A (zh) | 2022-12-20 |
Family
ID=85115371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211367637.5A Pending CN115497086A (zh) | 2022-11-03 | 2022-11-03 | 一种自动驾驶中基于细粒度识别的3d场景流估计的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497086A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096853A (zh) * | 2024-04-26 | 2024-05-28 | 华南理工大学 | 一种多目标运动场景的视频深度估计方法 |
-
2022
- 2022-11-03 CN CN202211367637.5A patent/CN115497086A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118096853A (zh) * | 2024-04-26 | 2024-05-28 | 华南理工大学 | 一种多目标运动场景的视频深度估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108596974B (zh) | 动态场景机器人定位建图系统及方法 | |
Lin et al. | Depth estimation from monocular images and sparse radar data | |
CN110675418B (zh) | 一种基于ds证据理论的目标轨迹优化方法 | |
Smith et al. | ASSET-2: Real-time motion segmentation and shape tracking | |
CN111563442A (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
Tsai et al. | Real-time indoor scene understanding using bayesian filtering with motion cues | |
CN111325794A (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
WO2020104423A1 (en) | Method and apparatus for data fusion of lidar data and image data | |
CN108648194B (zh) | 基于cad模型三维目标识别分割和位姿测量方法及装置 | |
CN112258658B (zh) | 一种基于深度相机的增强现实可视化方法及应用 | |
Hoppe et al. | Incremental Surface Extraction from Sparse Structure-from-Motion Point Clouds. | |
CN113221647B (zh) | 一种融合点云局部特征的6d位姿估计方法 | |
JP2008046903A (ja) | 対象個数検出装置および対象個数検出方法 | |
Smith | ASSET-2: Real-time motion segmentation and object tracking | |
Chen et al. | A stereo visual-inertial SLAM approach for indoor mobile robots in unknown environments without occlusions | |
Sizintsev et al. | Spatiotemporal stereo and scene flow via stequel matching | |
CN113393503A (zh) | 一种分割驱动形状先验变形的类别级物体6d位姿估计方法 | |
CN112686952A (zh) | 一种图像光流计算系统、方法及应用 | |
CN115222884A (zh) | 一种基于人工智能的空间对象分析及建模优化方法 | |
CN114972882A (zh) | 基于多注意力机制的磨损表面损伤深度估计方法及系统 | |
CN115497086A (zh) | 一种自动驾驶中基于细粒度识别的3d场景流估计的方法 | |
Jeon et al. | Struct-MDC: Mesh-refined unsupervised depth completion leveraging structural regularities from visual SLAM | |
El Ansari et al. | Temporal consistent fast stereo matching for advanced driver assistance systems (ADAS) | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN115542362A (zh) | 电力作业现场的高精度空间定位方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |