CN111523547A

CN111523547A - 一种3d语义分割的方法及终端

Info

Publication number: CN111523547A
Application number: CN202010329715.7A
Authority: CN
Inventors: 项崴
Original assignee: Jiangsu Shenghai Intelligent Technology Co ltd
Current assignee: Jiangsu Shenghai Intelligent Technology Co ltd
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-11
Anticipated expiration: 2040-04-24
Also published as: CN111523547B

Abstract

本发明公开了一种3D语义分割的方法，通过摄像机获取待测场景的2D图像，利用Mask‑Rcnn对所述2D图像进行2D语义分割，获得2D语义分割图像；通过雷达获取待测场景雷达点云图；根据所述2D语义分割图像和雷达点云图，生成3D语义分割图像明显提高了3D语义分割的速度，并且由于2D语义分割的技术Mask‑Rcnn发展时间更久，较为成熟，相较于直接对3D图像进行语义分割，其结果也更加准确，同时利用雷达提供待测图像的三维信息，成功实现2D语义分割图像到3D语义分割图像的转化，并且雷达测量所得的数据精度高，能够保证转化之后3D语义分割图像的精度，最终实现高效准确地进行3D语义分割。

Description

一种3D语义分割的方法及终端

技术领域

本发明涉及图像处理领域，尤其涉及一种3D语义分割的方法及终端。

背景技术

无人驾驶系统中，基本需要激光雷达作为主要传感器，用来局部定位和建图。视觉传感器(摄像头)用来对物体进行识别和语义分割，同时辅助激光雷达定位。一般来说，对于识别到的物体都需要获取三维的尺度信息，才能够为决策系统提供足够的必要输入信息。现今的3D语义分割主要是运用3D信息，通过神经网络对3D图像上的物体进行分类和分割边缘，其中，3D信息通常以点云的形式提供尺度数据。主要实现步骤包括：运用CNN架构提取3D数据中的特征点，在其卷积层对数据进行处理，由任务层提供特定的目标函数，进行3D数据的语义分割一般需要定义多任务，如分类和语义分割。但是，3D的语义分割要求实时性，需要昂贵的硬件做支持，另外，直接对3D点云进行运算的速度较慢，神经网络架构在执行多任务时的精度也不高。

发明内容

本发明所要解决的技术问题是：提供一种3D语义分割的方法及终端，能够快速准确地实现对待测场景的3D语义分割。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种3D语义分割的方法，包括步骤：

S1、通过摄像机获取待测场景的2D图像，利用Mask-Rcnn对所述2D图像进行2D语义分割，获得2D语义分割图像；

S2、通过雷达获取待测场景雷达点云图；

S3、根据所述2D语义分割图像和雷达点云图，生成3D语义分割图像。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种3D语义分割的终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S2、通过雷达获取待测场景雷达点云图；

本发明的有益效果在于：利用摄像头拍摄的2D图像结合雷达提供的点云图，实现待测场景的3D语义分割，此过程只需要计算二维数据，减少了参数的输入量，提高了进行语义分割的速度，保证了测量提供数据的实时性；同时2D图像的语义分割技术Mask-Rcnn比较成熟，在此框架上进行语义分割操作得到的结果精度高，配合雷达提供的点云图中的尺度信息和深度信息，能够得到较精准的3D语义分割结果，达到高效准确对待测场景进行3D语义分割的目的。

附图说明

图1为本发明实施例的一种3D语义分割的方法的步骤流程图；

图2为本发明实施例的一种3D语义分割的终端的结构示意图；

图3为本发明实施例的一种3D语义分割的方法的过程示意图；

标号说明：

1、一种3D语义分割的终端；2、处理器；3、存储器；

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，一种3D语义分割的方法，包括步骤：

S2、通过雷达获取待测场景雷达点云图；

从上述描述可知，本发明的有益效果在于：利用摄像头拍摄的2D图像结合雷达提供的点云图，实现待测场景的3D语义分割，此过程只需要计算二维数据，减少了参数的输入量，提高了进行语义分割的速度，保证了测量提供数据的实时性；同时2D图像的语义分割技术Mask-Rcnn比较成熟，在此框架上进行语义分割操作得到的结果精度高，配合雷达提供的点云图中的尺度信息和深度信息，能够得到较精准的3D语义分割结果，达到高效准确对待测场景进行3D语义分割的目的。

进一步的，利用Mask-Rcnn对所述2D图像进行2D语义分割，获得2D语义分割图像，具体为：

将所述2D图像通过卷积神经网络，识别出所述2D图像中待分割物体的特征，将所述2D图像分割为第一图像集合；

将所述第一图像集合通过RPN，识别所述第一图像集合中每一个待分割物体的区域，将所述第一图像集合中的图像分割为第二图像集合；

将所述第二图像集合通过ROI Align获取每一个待分割物体的像素集合及其类别；

根据每一个待分割物体的像素集合及其类别，对所述2D图像中的待分割物体进行分类和坐标估计，并分割出所述2D图像中的待分割物体，得到所述2D语义分割图像。

由上述描述可知，将3D语义分割转换为2D语义分割，利用技术较成熟的Mask-Rcnn作为支撑，对所述图像进行分割，获得的2D语义分割图像精度较高，保证之后3D语义分割图像的精度。

进一步的，所述S3包括：

S31、将所述2D语义分割图像中像素点与所述雷达点云图中像素点进行匹配，若雷达点云图中有所述像素点的匹配点，则认定所述像素点为匹配像素点，其余像素点为未匹配像素点；

S32、根据雷达坐标系提供的深度信息，获取匹配像素点的深度信息；

S33、根据针孔摄像机模型和所述匹配像素点的深度信息，计算得到所述未匹配像素点的深度信息；

S34、根据所述2D语义分割图像和所述2D语义分割图像中每一个像素点对应的深度信息生成3D语义分割图像。

由上述描述可知，通过雷达扫描所获得的点云图获取所述2D语义分割图像的三维信息，将2D语义分割图像化为3D语义分割图像，相较于直接对3D数据进行分割有更高的效率，对2D语义分割图像中在雷达点云图中的未匹配像素点，利用匹配像素点提供的相关信息，计算出转换关系，从而得到未匹配像素点的三维信息，使2D语义分割图像能够顺利转化为3D语义分割图像，并且能够保证精度。

进一步的，所述步骤S33包括：

确定所述2D语义分割图像上的像素点在相机坐标系下的坐标与所述雷达提供的坐标之间的第一映射关系；

确定所述雷达提供的坐标与所述2D语义分割图像上的像素点的坐标之间的第二映射关系；

确定所述2D语义分割图像上的像素点归一化的坐标与所述2D语义分割图像上的像素点的坐标之间的第三映射关系；

根据所述雷达提供的第一坐标、所述2D语义分割图像上的匹配像素点的第二坐标、所述2D语义分割图像上的匹配像素点归一化后的第三坐标、所述第一映射关系、第二映射关系、第三映射关系、所述2D语义分割图像上的未匹配像素点的坐标和针孔摄像机模型，得到所述未匹配像素点的深度信息。

由上述描述可知，利用匹配像素点在不同坐标系中的坐标之间的映射关系，得到匹配像素点深度与坐标之间的转换关系，并可以用所述转换关系估计未匹配像素点的深度，使得可以利用未匹配像素点容易获得的坐标信息获取其深度信息，并且使用坐标转换的方式，信息损失较少，能够保持数据的精度。

进一步的，所述S33具体为：

确定所述2D语义分割图像上的像素点在相机坐标系下的坐标P与所述雷达提供的坐标P_l之间的第一映射关系：

P＝R_lcP_l+t_lc；

式中，R_lc表示方向余弦矩阵，t_lc表示平移量；

确定所述雷达提供的坐标P与所述2D语义分割图像上的像素点的坐标(x_h，y_v)之间的第二映射关系:

确定所述2D语义分割图像上的像素点归一化的坐标(u，v)与所述2D语义分割图像上的像素点的坐标(x_h，y_v)之间的第三映射关系：

根据所述雷达提供的第一坐标P_l(X_l,Y_l,Z_l)和所述第一映射关系确定出所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z)；

根据所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z)、所述2D语义分割图像上的匹配像素点的第二坐标(x’_h，y’_v)以及与其匹配的深度信息Z’、所述2D语义分割图像上的匹配像素点归一化后的第三坐标(u’，v’)、所述第二映射关系和第三映射关系确定出A、B、C、D的值，A、B表示归一化后的2D语义分割图像的比例缩放系数矩阵中的待定系数，C、D表示2D语义分割图像的比例缩放系数矩阵中的待定系数；

根据所述2D语义分割图像上的未匹配像素点的坐标(x”_h，y”_v)、所述C、D和所述第二映射关系确定出雷达投影的图像中对应像素点的坐标(X’，Y’)；

根据所述2D语义分割图像上的未匹配像素点的坐标(x”_h，y”_v)、所述A、B和所述第三映射关系确定出雷达投影的图像中对应的像素点归一化后的坐标(u”，v”)；

将所述(X’，Y’)和所述(u”，v”)代入针孔摄像机模型：

得到所述未匹配像素点对应的深度信息Z”，式中，f_x、f_y分别为摄像机获取图像时横向、纵向焦距，包含图像的缩放信息，c_x、c_y为由于相机畸变照成的相机成像后的图像和实际图像的横向和纵向的偏差。

由上述描述可知，利用待定系数矩阵估计匹配像素点坐标和其深度信息之间的关系，利用估计得到的最优待定系数矩阵，在针孔摄像机模型中，根据未匹配像素点的坐标得到其深度信息，实现对雷达无法扫描到的点的深度信息获取，从而实现在保证准确度的前提下将2D语义分割图像转化为3D语义分割图像。

请参照图2，一种3D语义分割的终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S2、通过雷达获取待测场景雷达点云图；

进一步的，所述S3包括：

进一步的，所述步骤S33包括：

进一步的，所述S33具体为：

P＝R_lcP_l+t_lc；

式中，R_lc表示方向余弦矩阵，t_lc表示平移量；

将所述(X’，Y’)和所述(u”，v”)代入针孔摄像机模型：

请参照图1及图3，本发明的实施例一为：

一种3D语义分割的方法，具体包括步骤：

获得2D语义分割图像，具体为：

图像集合通过RPN时，由于其中的边框精调步骤，在提高了第二图像集合中对包含单个完整待分割物体的区域的分割精度的同时，也导致第二图像集合中的图像尺寸不同，利用ROI Align可以处理不同尺寸的图像；

根据每一个待分割物体的像素集合及其类别，对所述2D图像中的待分割物体进行分类和坐标估计，并分割出所述2D图像中的待分割物体，得到所述2D语义分割图像；

Mask-Rcnn为多任务网络，分为分类和坐标回归、语义分割，通过全连接层处理实现图像上物体的分类和其在图像上坐标的估计，同时语义分割层对图像上的物体进行分割；

S2、通过雷达获取待测场景雷达点云图；

优选的，所述雷达为激光雷达；

雷达同时扫描摄像机拍摄的同一场景，优选的，可以将雷达安装在摄像机上，随摄像机转动；

请参照图1，本发明的实施例二为：

说明：图像坐标系以图像左上角为原点，过所述原点且指向所述图像右方的射线为x_h轴，过所述原点且指向所述图像下方的射线为y_v轴；所述坐标(x_h，y_v)(u，v)所在的具体坐标系为相机坐标系；

(u，v)为(x_h，y_v)通过深度值z进行缩放至归一化平面，即x_h和y_v都除以z分别得到u和v；

雷达坐标系以测量的零点为原点，过所述原点且指向所述测量的零点右侧的射线为x轴，过所述原点且指向所述雷达下方的射线为y轴，过所述原点且垂直于xy平面并指向所述雷达前方的射线为z轴；

一种3D语义分割的方法，与实施例一的不同之处在于：

所述S1之前还包括：

标定摄像机与雷达，使雷达的测量数据能够投影到摄像机拍摄的图像生成的2D语义分割图上，并能够与图像上反应的真实尺度数据相吻合；

优选的，采用在线实时估计的方式进行标定，避免因为标定误差的漂移对测量造成不可预见的误差；

标定完成之后，获得摄像机和雷达之间的外参T_l＝[R_lc,t_lc]，和摄像机的内参K(f_x,f_y,c_x,c_y)；

其中，R_lc为方向余弦矩阵，t_lc为平移量(摄像机和雷达之间的外参T_l＝[R_lc,t_lc]，表示相机和雷达间的旋转和平移的关系)，T_l表示雷达坐标系中的点到其对应的摄像机坐标系中位置的转换关系，f_x、f_y分别为摄像机获取图像时横向、纵向焦距，包含图像的缩放信息，c_x、c_y为由于相机畸变照成的相机成像后的图像和实际图像的横向和纵向的偏差；

所述S3包括：

包括：

确定所述2D语义分割图像上的像素点在相机坐标系下的坐标P与所述雷达提供的坐标P_l之间的第一映射关系：P＝R_lcP_l+t_lc；

确定所述坐标P与所述2D语义分割图像上的像素点的坐标(x_h，y_v)之间的第二映射关系：

具体为：

建立误差函数：res＝P-ZQ^-1K^-1SL；

上式中，Q为

S为

L为

K为

计算误差函数对应的雅可比矩阵，利用LM优化算法进行梯度下降，得到收敛结果，估计出矩阵Q和S的值；

雅可比矩阵为误差函数的一阶倒数J，而LM计算过程过下：

LM优化器：

(J^TJ+μI)ΔXlm＝-J^Tf withμ≥0

其中，f为P-ZQ^-1K^-1SL的值，μ为阻尼系数，设定初值后，一直迭代计算，μ会根据每次迭代后的ΔXlm的变化量进行调整，当ΔXlm变化值小于额定阈值，并且其值小于特定阈值后，收敛，得到估计出f中带估Q和S的值。

将所述(X’，Y’)和所述(u”，v”)代入针孔摄像机模型：

得到所述未匹配像素点对应的深度信息Z”；

请参照图2，本发明的实施例三为：

一种3D语义分割的终端1，所述终端1包括处理器2、存储器3及存储在存储器3上并可在所述处理器2上运行的计算机程序，所述处理器2执行所述计算机程序时实现实施例一或实施例二中的各个步骤。

综上所述，本发明提供了一种3D语义分割的方法及终端，将直接对3D图像的语义分割转化为对2D图像的语义分割，对2D图像进行相应计算的速度明显快于对3D图像进行相应计算的速度，使得进行语义分割的过程更加高效，并且2D语义分割方法Mask-Rcnn相较于现有的3D语义分割方法，发展时间更久、更为成熟，语义分割的结果精度较高；利用雷达提供三维信息，将所述2D语义分割图像转化为3D语义分割图像，雷达的测量精度高，能够保证其所提供的三维信息的准确性，对于雷达无法扫描到从而进行与2D语义分割图像匹配的点，采取利用扫描到并与2D语义分割图像匹配完成的点所提供的信息，估计其坐标和深度信息之间的转化关系，根据所述转化关系对未匹配的点进行深度信息的估计，雷达能够直接扫描到的点，直接提取深度信息，雷达未能扫描到的点，利用所述估计的转化关系估计其深度信息，实现对2D语义分割图像上所有点的深度信息的获取，从而能够成功将2D语义分割图像转化为3D语义分割图像；在估计所述转化关系时，利用LM优化算法，确保了所估计值与真实值的接近，保证了3D语义分割图像的准确，实现高效高精度的3D语义分割。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。