CN111523547A - 一种3d语义分割的方法及终端 - Google Patents

一种3d语义分割的方法及终端 Download PDF

Info

Publication number
CN111523547A
CN111523547A CN202010329715.7A CN202010329715A CN111523547A CN 111523547 A CN111523547 A CN 111523547A CN 202010329715 A CN202010329715 A CN 202010329715A CN 111523547 A CN111523547 A CN 111523547A
Authority
CN
China
Prior art keywords
image
semantic segmentation
pixel points
radar
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010329715.7A
Other languages
English (en)
Other versions
CN111523547B (zh
Inventor
项崴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Shenghai Intelligent Technology Co ltd
Original Assignee
Jiangsu Shenghai Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Shenghai Intelligent Technology Co ltd filed Critical Jiangsu Shenghai Intelligent Technology Co ltd
Priority to CN202010329715.7A priority Critical patent/CN111523547B/zh
Publication of CN111523547A publication Critical patent/CN111523547A/zh
Application granted granted Critical
Publication of CN111523547B publication Critical patent/CN111523547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种3D语义分割的方法,通过摄像机获取待测场景的2D图像,利用Mask‑Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像;通过雷达获取待测场景雷达点云图;根据所述2D语义分割图像和雷达点云图,生成3D语义分割图像明显提高了3D语义分割的速度,并且由于2D语义分割的技术Mask‑Rcnn发展时间更久,较为成熟,相较于直接对3D图像进行语义分割,其结果也更加准确,同时利用雷达提供待测图像的三维信息,成功实现2D语义分割图像到3D语义分割图像的转化,并且雷达测量所得的数据精度高,能够保证转化之后3D语义分割图像的精度,最终实现高效准确地进行3D语义分割。

Description

一种3D语义分割的方法及终端
技术领域
本发明涉及图像处理领域,尤其涉及一种3D语义分割的方法及终端。
背景技术
无人驾驶系统中,基本需要激光雷达作为主要传感器,用来局部定位和建图。视觉传感器(摄像头)用来对物体进行识别和语义分割,同时辅助激光雷达定位。一般来说,对于识别到的物体都需要获取三维的尺度信息,才能够为决策系统提供足够的必要输入信息。现今的3D语义分割主要是运用3D信息,通过神经网络对3D图像上的物体进行分类和分割边缘,其中,3D信息通常以点云的形式提供尺度数据。主要实现步骤包括:运用CNN架构提取3D数据中的特征点,在其卷积层对数据进行处理,由任务层提供特定的目标函数,进行3D数据的语义分割一般需要定义多任务,如分类和语义分割。但是,3D的语义分割要求实时性,需要昂贵的硬件做支持,另外,直接对3D点云进行运算的速度较慢,神经网络架构在执行多任务时的精度也不高。
发明内容
本发明所要解决的技术问题是:提供一种3D语义分割的方法及终端,能够快速准确地实现对待测场景的3D语义分割。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种3D语义分割的方法,包括步骤:
S1、通过摄像机获取待测场景的2D图像,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像;
S2、通过雷达获取待测场景雷达点云图;
S3、根据所述2D语义分割图像和雷达点云图,生成3D语义分割图像。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种3D语义分割的终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、通过摄像机获取待测场景的2D图像,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像;
S2、通过雷达获取待测场景雷达点云图;
S3、根据所述2D语义分割图像和雷达点云图,生成3D语义分割图像。
本发明的有益效果在于:利用摄像头拍摄的2D图像结合雷达提供的点云图,实现待测场景的3D语义分割,此过程只需要计算二维数据,减少了参数的输入量,提高了进行语义分割的速度,保证了测量提供数据的实时性;同时2D图像的语义分割技术Mask-Rcnn比较成熟,在此框架上进行语义分割操作得到的结果精度高,配合雷达提供的点云图中的尺度信息和深度信息,能够得到较精准的3D语义分割结果,达到高效准确对待测场景进行3D语义分割的目的。
附图说明
图1为本发明实施例的一种3D语义分割的方法的步骤流程图;
图2为本发明实施例的一种3D语义分割的终端的结构示意图;
图3为本发明实施例的一种3D语义分割的方法的过程示意图;
标号说明:
1、一种3D语义分割的终端;2、处理器;3、存储器;
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,一种3D语义分割的方法,包括步骤:
S1、通过摄像机获取待测场景的2D图像,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像;
S2、通过雷达获取待测场景雷达点云图;
S3、根据所述2D语义分割图像和雷达点云图,生成3D语义分割图像。
从上述描述可知,本发明的有益效果在于:利用摄像头拍摄的2D图像结合雷达提供的点云图,实现待测场景的3D语义分割,此过程只需要计算二维数据,减少了参数的输入量,提高了进行语义分割的速度,保证了测量提供数据的实时性;同时2D图像的语义分割技术Mask-Rcnn比较成熟,在此框架上进行语义分割操作得到的结果精度高,配合雷达提供的点云图中的尺度信息和深度信息,能够得到较精准的3D语义分割结果,达到高效准确对待测场景进行3D语义分割的目的。
进一步的,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像,具体为:
将所述2D图像通过卷积神经网络,识别出所述2D图像中待分割物体的特征,将所述2D图像分割为第一图像集合;
将所述第一图像集合通过RPN,识别所述第一图像集合中每一个待分割物体的区域,将所述第一图像集合中的图像分割为第二图像集合;
将所述第二图像集合通过ROI Align获取每一个待分割物体的像素集合及其类别;
根据每一个待分割物体的像素集合及其类别,对所述2D图像中的待分割物体进行分类和坐标估计,并分割出所述2D图像中的待分割物体,得到所述2D语义分割图像。
由上述描述可知,将3D语义分割转换为2D语义分割,利用技术较成熟的Mask-Rcnn作为支撑,对所述图像进行分割,获得的2D语义分割图像精度较高,保证之后3D语义分割图像的精度。
进一步的,所述S3包括:
S31、将所述2D语义分割图像中像素点与所述雷达点云图中像素点进行匹配,若雷达点云图中有所述像素点的匹配点,则认定所述像素点为匹配像素点,其余像素点为未匹配像素点;
S32、根据雷达坐标系提供的深度信息,获取匹配像素点的深度信息;
S33、根据针孔摄像机模型和所述匹配像素点的深度信息,计算得到所述未匹配像素点的深度信息;
S34、根据所述2D语义分割图像和所述2D语义分割图像中每一个像素点对应的深度信息生成3D语义分割图像。
由上述描述可知,通过雷达扫描所获得的点云图获取所述2D语义分割图像的三维信息,将2D语义分割图像化为3D语义分割图像,相较于直接对3D数据进行分割有更高的效率,对2D语义分割图像中在雷达点云图中的未匹配像素点,利用匹配像素点提供的相关信息,计算出转换关系,从而得到未匹配像素点的三维信息,使2D语义分割图像能够顺利转化为3D语义分割图像,并且能够保证精度。
进一步的,所述步骤S33包括:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标与所述雷达提供的坐标之间的第一映射关系;
确定所述雷达提供的坐标与所述2D语义分割图像上的像素点的坐标之间的第二映射关系;
确定所述2D语义分割图像上的像素点归一化的坐标与所述2D语义分割图像上的像素点的坐标之间的第三映射关系;
根据所述雷达提供的第一坐标、所述2D语义分割图像上的匹配像素点的第二坐标、所述2D语义分割图像上的匹配像素点归一化后的第三坐标、所述第一映射关系、第二映射关系、第三映射关系、所述2D语义分割图像上的未匹配像素点的坐标和针孔摄像机模型,得到所述未匹配像素点的深度信息。
由上述描述可知,利用匹配像素点在不同坐标系中的坐标之间的映射关系,得到匹配像素点深度与坐标之间的转换关系,并可以用所述转换关系估计未匹配像素点的深度,使得可以利用未匹配像素点容易获得的坐标信息获取其深度信息,并且使用坐标转换的方式,信息损失较少,能够保持数据的精度。
进一步的,所述S33具体为:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标P与所述雷达提供的坐标Pl之间的第一映射关系:
P=RlcPl+tlc
式中,Rlc表示方向余弦矩阵,tlc表示平移量;
确定所述雷达提供的坐标P与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第二映射关系:
Figure BDA0002464504640000051
确定所述2D语义分割图像上的像素点归一化的坐标(u,v)与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第三映射关系:
Figure BDA0002464504640000052
根据所述雷达提供的第一坐标Pl(Xl,Yl,Zl)和所述第一映射关系确定出所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z);
根据所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z)、所述2D语义分割图像上的匹配像素点的第二坐标(x’h,y’v)以及与其匹配的深度信息Z’、所述2D语义分割图像上的匹配像素点归一化后的第三坐标(u’,v’)、所述第二映射关系和第三映射关系确定出A、B、C、D的值,A、B表示归一化后的2D语义分割图像的比例缩放系数矩阵中的待定系数,C、D表示2D语义分割图像的比例缩放系数矩阵中的待定系数;
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述C、D和所述第二映射关系确定出雷达投影的图像中对应像素点的坐标(X’,Y’);
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述A、B和所述第三映射关系确定出雷达投影的图像中对应的像素点归一化后的坐标(u”,v”);
将所述(X’,Y’)和所述(u”,v”)代入针孔摄像机模型:
Figure BDA0002464504640000053
得到所述未匹配像素点对应的深度信息Z”,式中,fx、fy分别为摄像机获取图像时横向、纵向焦距,包含图像的缩放信息,cx、cy为由于相机畸变照成的相机成像后的图像和实际图像的横向和纵向的偏差。
由上述描述可知,利用待定系数矩阵估计匹配像素点坐标和其深度信息之间的关系,利用估计得到的最优待定系数矩阵,在针孔摄像机模型中,根据未匹配像素点的坐标得到其深度信息,实现对雷达无法扫描到的点的深度信息获取,从而实现在保证准确度的前提下将2D语义分割图像转化为3D语义分割图像。
请参照图2,一种3D语义分割的终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、通过摄像机获取待测场景的2D图像,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像;
S2、通过雷达获取待测场景雷达点云图;
S3、根据所述2D语义分割图像和雷达点云图,生成3D语义分割图像。
本发明的有益效果在于:利用摄像头拍摄的2D图像结合雷达提供的点云图,实现待测场景的3D语义分割,此过程只需要计算二维数据,减少了参数的输入量,提高了进行语义分割的速度,保证了测量提供数据的实时性;同时2D图像的语义分割技术Mask-Rcnn比较成熟,在此框架上进行语义分割操作得到的结果精度高,配合雷达提供的点云图中的尺度信息和深度信息,能够得到较精准的3D语义分割结果,达到高效准确对待测场景进行3D语义分割的目的。
进一步的,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像,具体为:
将所述2D图像通过卷积神经网络,识别出所述2D图像中待分割物体的特征,将所述2D图像分割为第一图像集合;
将所述第一图像集合通过RPN,识别所述第一图像集合中每一个待分割物体的区域,将所述第一图像集合中的图像分割为第二图像集合;
将所述第二图像集合通过ROI Align获取每一个待分割物体的像素集合及其类别;
根据每一个待分割物体的像素集合及其类别,对所述2D图像中的待分割物体进行分类和坐标估计,并分割出所述2D图像中的待分割物体,得到所述2D语义分割图像。
由上述描述可知,将3D语义分割转换为2D语义分割,利用技术较成熟的Mask-Rcnn作为支撑,对所述图像进行分割,获得的2D语义分割图像精度较高,保证之后3D语义分割图像的精度。
进一步的,所述S3包括:
S31、将所述2D语义分割图像中像素点与所述雷达点云图中像素点进行匹配,若雷达点云图中有所述像素点的匹配点,则认定所述像素点为匹配像素点,其余像素点为未匹配像素点;
S32、根据雷达坐标系提供的深度信息,获取匹配像素点的深度信息;
S33、根据针孔摄像机模型和所述匹配像素点的深度信息,计算得到所述未匹配像素点的深度信息;
S34、根据所述2D语义分割图像和所述2D语义分割图像中每一个像素点对应的深度信息生成3D语义分割图像。
由上述描述可知,通过雷达扫描所获得的点云图获取所述2D语义分割图像的三维信息,将2D语义分割图像化为3D语义分割图像,相较于直接对3D数据进行分割有更高的效率,对2D语义分割图像中在雷达点云图中的未匹配像素点,利用匹配像素点提供的相关信息,计算出转换关系,从而得到未匹配像素点的三维信息,使2D语义分割图像能够顺利转化为3D语义分割图像,并且能够保证精度。
进一步的,所述步骤S33包括:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标与所述雷达提供的坐标之间的第一映射关系;
确定所述雷达提供的坐标与所述2D语义分割图像上的像素点的坐标之间的第二映射关系;
确定所述2D语义分割图像上的像素点归一化的坐标与所述2D语义分割图像上的像素点的坐标之间的第三映射关系;
根据所述雷达提供的第一坐标、所述2D语义分割图像上的匹配像素点的第二坐标、所述2D语义分割图像上的匹配像素点归一化后的第三坐标、所述第一映射关系、第二映射关系、第三映射关系、所述2D语义分割图像上的未匹配像素点的坐标和针孔摄像机模型,得到所述未匹配像素点的深度信息。
由上述描述可知,利用匹配像素点在不同坐标系中的坐标之间的映射关系,得到匹配像素点深度与坐标之间的转换关系,并可以用所述转换关系估计未匹配像素点的深度,使得可以利用未匹配像素点容易获得的坐标信息获取其深度信息,并且使用坐标转换的方式,信息损失较少,能够保持数据的精度。
进一步的,所述S33具体为:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标P与所述雷达提供的坐标Pl之间的第一映射关系:
P=RlcPl+tlc
式中,Rlc表示方向余弦矩阵,tlc表示平移量;
确定所述雷达提供的坐标P与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第二映射关系:
Figure BDA0002464504640000081
确定所述2D语义分割图像上的像素点归一化的坐标(u,v)与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第三映射关系:
Figure BDA0002464504640000082
根据所述雷达提供的第一坐标Pl(Xl,Yl,Zl)和所述第一映射关系确定出所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z);
根据所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z)、所述2D语义分割图像上的匹配像素点的第二坐标(x’h,y’v)以及与其匹配的深度信息Z’、所述2D语义分割图像上的匹配像素点归一化后的第三坐标(u’,v’)、所述第二映射关系和第三映射关系确定出A、B、C、D的值,A、B表示归一化后的2D语义分割图像的比例缩放系数矩阵中的待定系数,C、D表示2D语义分割图像的比例缩放系数矩阵中的待定系数;
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述C、D和所述第二映射关系确定出雷达投影的图像中对应像素点的坐标(X’,Y’);
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述A、B和所述第三映射关系确定出雷达投影的图像中对应的像素点归一化后的坐标(u”,v”);
将所述(X’,Y’)和所述(u”,v”)代入针孔摄像机模型:
Figure BDA0002464504640000091
得到所述未匹配像素点对应的深度信息Z”,式中,fx、fy分别为摄像机获取图像时横向、纵向焦距,包含图像的缩放信息,cx、cy为由于相机畸变照成的相机成像后的图像和实际图像的横向和纵向的偏差。
由上述描述可知,利用待定系数矩阵估计匹配像素点坐标和其深度信息之间的关系,利用估计得到的最优待定系数矩阵,在针孔摄像机模型中,根据未匹配像素点的坐标得到其深度信息,实现对雷达无法扫描到的点的深度信息获取,从而实现在保证准确度的前提下将2D语义分割图像转化为3D语义分割图像。
请参照图1及图3,本发明的实施例一为:
一种3D语义分割的方法,具体包括步骤:
S1、通过摄像机获取待测场景的2D图像,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像;
获得2D语义分割图像,具体为:
将所述2D图像通过卷积神经网络,识别出所述2D图像中待分割物体的特征,将所述2D图像分割为第一图像集合;
将所述第一图像集合通过RPN,识别所述第一图像集合中每一个待分割物体的区域,将所述第一图像集合中的图像分割为第二图像集合;
将所述第二图像集合通过ROI Align获取每一个待分割物体的像素集合及其类别;
图像集合通过RPN时,由于其中的边框精调步骤,在提高了第二图像集合中对包含单个完整待分割物体的区域的分割精度的同时,也导致第二图像集合中的图像尺寸不同,利用ROI Align可以处理不同尺寸的图像;
根据每一个待分割物体的像素集合及其类别,对所述2D图像中的待分割物体进行分类和坐标估计,并分割出所述2D图像中的待分割物体,得到所述2D语义分割图像;
Mask-Rcnn为多任务网络,分为分类和坐标回归、语义分割,通过全连接层处理实现图像上物体的分类和其在图像上坐标的估计,同时语义分割层对图像上的物体进行分割;
S2、通过雷达获取待测场景雷达点云图;
优选的,所述雷达为激光雷达;
雷达同时扫描摄像机拍摄的同一场景,优选的,可以将雷达安装在摄像机上,随摄像机转动;
S3、根据所述2D语义分割图像和雷达点云图,生成3D语义分割图像。
请参照图1,本发明的实施例二为:
说明:图像坐标系以图像左上角为原点,过所述原点且指向所述图像右方的射线为xh轴,过所述原点且指向所述图像下方的射线为yv轴;所述坐标(xh,yv)(u,v)所在的具体坐标系为相机坐标系;
(u,v)为(xh,yv)通过深度值z进行缩放至归一化平面,即xh和yv都除以z分别得到u和v;
雷达坐标系以测量的零点为原点,过所述原点且指向所述测量的零点右侧的射线为x轴,过所述原点且指向所述雷达下方的射线为y轴,过所述原点且垂直于xy平面并指向所述雷达前方的射线为z轴;
一种3D语义分割的方法,与实施例一的不同之处在于:
所述S1之前还包括:
标定摄像机与雷达,使雷达的测量数据能够投影到摄像机拍摄的图像生成的2D语义分割图上,并能够与图像上反应的真实尺度数据相吻合;
优选的,采用在线实时估计的方式进行标定,避免因为标定误差的漂移对测量造成不可预见的误差;
标定完成之后,获得摄像机和雷达之间的外参Tl=[Rlc,tlc],和摄像机的内参K(fx,fy,cx,cy);
其中,Rlc为方向余弦矩阵,tlc为平移量(摄像机和雷达之间的外参Tl=[Rlc,tlc],表示相机和雷达间的旋转和平移的关系),Tl表示雷达坐标系中的点到其对应的摄像机坐标系中位置的转换关系,fx、fy分别为摄像机获取图像时横向、纵向焦距,包含图像的缩放信息,cx、cy为由于相机畸变照成的相机成像后的图像和实际图像的横向和纵向的偏差;
所述S3包括:
S31、将所述2D语义分割图像中像素点与所述雷达点云图中像素点进行匹配,若雷达点云图中有所述像素点的匹配点,则认定所述像素点为匹配像素点,其余像素点为未匹配像素点;
S32、根据雷达坐标系提供的深度信息,获取匹配像素点的深度信息;
S33、根据针孔摄像机模型和所述匹配像素点的深度信息,计算得到所述未匹配像素点的深度信息;
包括:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标P与所述雷达提供的坐标Pl之间的第一映射关系:P=RlcPl+tlc
确定所述坐标P与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第二映射关系:
Figure BDA0002464504640000111
确定所述2D语义分割图像上的像素点归一化的坐标(u,v)与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第三映射关系:
Figure BDA0002464504640000121
根据所述雷达提供的第一坐标Pl(Xl,Yl,Zl)和所述第一映射关系确定出所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z);
根据所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z)、所述2D语义分割图像上的匹配像素点的第二坐标(x’h,y’v)以及与其匹配的深度信息Z’、所述2D语义分割图像上的匹配像素点归一化后的第三坐标(u’,v’)、所述第二映射关系和第三映射关系确定出A、B、C、D的值,A、B表示归一化后的2D语义分割图像的比例缩放系数矩阵中的待定系数,C、D表示2D语义分割图像的比例缩放系数矩阵中的待定系数;
具体为:
建立误差函数:res=P-ZQ-1K-1SL;
上式中,Q为
Figure BDA0002464504640000122
S为
Figure BDA0002464504640000123
L为
Figure BDA0002464504640000124
K为
Figure BDA0002464504640000125
计算误差函数对应的雅可比矩阵,利用LM优化算法进行梯度下降,得到收敛结果,估计出矩阵Q和S的值;
雅可比矩阵为误差函数的一阶倒数J,而LM计算过程过下:
LM优化器:
(JTJ+μI)ΔXlm=-JTf withμ≥0
其中,f为P-ZQ-1K-1SL的值,μ为阻尼系数,设定初值后,一直迭代计算,μ会根据每次迭代后的ΔXlm的变化量进行调整,当ΔXlm变化值小于额定阈值,并且其值小于特定阈值后,收敛,得到估计出f中带估Q和S的值。
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述C、D和所述第二映射关系确定出雷达投影的图像中对应像素点的坐标(X’,Y’);
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述A、B和所述第三映射关系确定出雷达投影的图像中对应的像素点归一化后的坐标(u”,v”);
将所述(X’,Y’)和所述(u”,v”)代入针孔摄像机模型:
Figure BDA0002464504640000131
得到所述未匹配像素点对应的深度信息Z”;
S34、根据所述2D语义分割图像和所述2D语义分割图像中每一个像素点对应的深度信息生成3D语义分割图像。
请参照图2,本发明的实施例三为:
一种3D语义分割的终端1,所述终端1包括处理器2、存储器3及存储在存储器3上并可在所述处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现实施例一或实施例二中的各个步骤。
综上所述,本发明提供了一种3D语义分割的方法及终端,将直接对3D图像的语义分割转化为对2D图像的语义分割,对2D图像进行相应计算的速度明显快于对3D图像进行相应计算的速度,使得进行语义分割的过程更加高效,并且2D语义分割方法Mask-Rcnn相较于现有的3D语义分割方法,发展时间更久、更为成熟,语义分割的结果精度较高;利用雷达提供三维信息,将所述2D语义分割图像转化为3D语义分割图像,雷达的测量精度高,能够保证其所提供的三维信息的准确性,对于雷达无法扫描到从而进行与2D语义分割图像匹配的点,采取利用扫描到并与2D语义分割图像匹配完成的点所提供的信息,估计其坐标和深度信息之间的转化关系,根据所述转化关系对未匹配的点进行深度信息的估计,雷达能够直接扫描到的点,直接提取深度信息,雷达未能扫描到的点,利用所述估计的转化关系估计其深度信息,实现对2D语义分割图像上所有点的深度信息的获取,从而能够成功将2D语义分割图像转化为3D语义分割图像;在估计所述转化关系时,利用LM优化算法,确保了所估计值与真实值的接近,保证了3D语义分割图像的准确,实现高效高精度的3D语义分割。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种3D语义分割的方法,其特征在于,包括步骤:
S1、通过摄像机获取待测场景的2D图像,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像;
S2、通过雷达获取待测场景雷达点云图;
S3、根据所述2D语义分割图像和雷达点云图,生成3D语义分割图像。
2.根据权利要求1所述的一种3D语义分割的方法,其特征在于,所述S1中,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像,具体为:
将所述2D图像通过卷积神经网络,识别出所述2D图像中待分割物体的特征,将所述2D图像分割为第一图像集合;
将所述第一图像集合通过RPN,识别所述第一图像集合中每一个待分割物体的区域,将所述第一图像集合中的图像分割为第二图像集合;
将所述第二图像集合通过ROI Align获取每一个待分割物体的像素集合及其类别;
根据每一个待分割物体的像素集合及其类别,对所述2D图像中的待分割物体进行分类和坐标估计,并分割出所述2D图像中的待分割物体,得到所述2D语义分割图像。
3.根据权利要求1所述的一种3D语义分割的方法,其特征在于,所述S3包括:
S31、将所述2D语义分割图像中像素点与所述雷达点云图中像素点进行匹配,若雷达点云图中有所述像素点的匹配点,则确定所述像素点为匹配像素点,其余像素点为未匹配像素点;
S32、根据雷达坐标系提供的深度信息,获取匹配像素点的深度信息;
S33、根据针孔摄像机模型和所述匹配像素点的深度信息,计算得到所述未匹配像素点的深度信息;
S34、根据所述2D语义分割图像和所述2D语义分割图像中每一个像素点对应的深度信息生成3D语义分割图像。
4.根据权利要求3所述的一种3D语义分割的方法,其特征在于,所述步骤S33包括:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标与所述雷达提供的坐标之间的第一映射关系;
确定所述雷达提供的坐标与所述2D语义分割图像上的像素点的坐标之间的第二映射关系;
确定所述2D语义分割图像上的像素点归一化的坐标与所述2D语义分割图像上的像素点的坐标之间的第三映射关系;
根据所述雷达提供的第一坐标、所述2D语义分割图像上的匹配像素点的第二坐标、所述2D语义分割图像上的匹配像素点归一化后的第三坐标、所述第一映射关系、第二映射关系、第三映射关系、所述2D语义分割图像上的未匹配像素点的坐标和针孔摄像机模型,得到所述未匹配像素点的深度信息。
5.根据权利要求4所述的一种3D语义分割的方法,其特征在于,所述S33具体为:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标P与所述雷达提供的坐标Pl之间的第一映射关系:
P=RlcPl+tlc
式中,Rlc表示方向余弦矩阵,tlc表示平移量;
确定所述雷达提供的坐标P与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第二映射关系:
Figure FDA0002464504630000021
确定所述2D语义分割图像上的像素点归一化的坐标(u,v)与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第三映射关系:
Figure FDA0002464504630000022
根据所述雷达提供的第一坐标Pl(Xl,Yl,Zl)和所述第一映射关系确定出所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z);
根据所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z)、所述2D语义分割图像上的匹配像素点的第二坐标(x’h,y’v)以及与其匹配的深度信息Z’、所述2D语义分割图像上的匹配像素点归一化后的第三坐标(u’,v’)、所述第二映射关系和第三映射关系确定出A、B、C、D的值,A、B表示归一化后的2D语义分割图像的比例缩放系数矩阵中的待定系数,C、D表示2D语义分割图像的比例缩放系数矩阵中的待定系数;
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述C、D和所述第二映射关系确定出雷达投影的图像中对应像素点的坐标(X’,Y’);
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述A、B和所述第三映射关系确定出雷达投影的图像中对应的像素点归一化后的坐标(u”,v”);
将所述(X’,Y’)和所述(u”,v”)代入针孔摄像机模型:
Figure FDA0002464504630000031
得到所述未匹配像素点对应的深度信息Z”,式中,fx、fy分别为摄像机获取图像时横向、纵向焦距,包含图像的缩放信息,cx、cy为由于相机畸变照成的相机成像后的图像和实际图像的横向和纵向的偏差。
6.一种3D语义分割的终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、通过摄像机获取待测场景的2D图像,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像;
S2、通过雷达获取待测场景雷达点云图;
S3、根据所述2D语义分割图像和雷达点云图,生成3D语义分割图像。
7.根据权利要求6所述的一种3D语义分割的终端,其特征在于,所述S1中,利用Mask-Rcnn对所述2D图像进行2D语义分割,获得2D语义分割图像,具体为:
将所述2D图像通过卷积神经网络,识别出所述2D图像中待分割物体的特征,将所述2D图像分割为第一图像集合;
将所述第一图像集合通过RPN,识别所述第一图像集合中每一个待分割物体的区域,将所述第一图像集合中的图像分割为第二图像集合;
将所述第二图像集合通过ROI Align获取每一个待分割物体的像素集合及其类别;
根据每一个待分割物体的像素集合及其类别,对所述2D图像中的待分割物体进行分类和坐标估计,并分割出所述2D图像中的待分割物体,得到所述2D语义分割图像。
8.根据权利要求6所述的一种3D语义分割的终端,其特征在于,所述S3包括:
S31、将所述2D语义分割图像中像素点与所述雷达点云图中像素点进行匹配,若雷达点云图中有所述像素点的匹配点,则确定所述像素点为匹配像素点,其余像素点为未匹配像素点;
S32、根据雷达坐标系提供的深度信息,获取匹配像素点的深度信息;
S33、根据针孔摄像机模型和所述匹配像素点的深度信息,计算得到所述未匹配像素点的深度信息;
S34、根据所述2D语义分割图像和所述2D语义分割图像中每一个像素点对应的深度信息生成3D语义分割图像。
9.根据权利要求8所述的一种3D语义分割的终端,其特征在于,所述步骤S33包括:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标与所述雷达提供的坐标之间的第一映射关系;
确定所述雷达提供的坐标与所述2D语义分割图像上的像素点的坐标之间的第二映射关系;
确定所述2D语义分割图像上的像素点归一化的坐标与所述2D语义分割图像上的像素点的坐标之间的第三映射关系;
根据所述雷达提供的第一坐标、所述2D语义分割图像上的匹配像素点的第二坐标、所述2D语义分割图像上的匹配像素点归一化后的第三坐标、所述第一映射关系、第二映射关系、第三映射关系、所述2D语义分割图像上的未匹配像素点的坐标和针孔摄像机模型,得到所述未匹配像素点的深度信息。
10.根据权利要求9所述的一种3D语义分割的终端,其特征在于,所述S33具体为:
确定所述2D语义分割图像上的像素点在相机坐标系下的坐标P与所述雷达提供的坐标Pl之间的第一映射关系:
P=RlcPl+tlc
式中,Rlc表示方向余弦矩阵,tlc表示平移量;
确定所述雷达提供的坐标P与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第二映射关系:
Figure FDA0002464504630000051
确定所述2D语义分割图像上的像素点归一化的坐标(u,v)与所述2D语义分割图像上的像素点的坐标(xh,yv)之间的第三映射关系:
Figure FDA0002464504630000052
根据所述雷达提供的第一坐标Pl(Xl,Yl,Zl)和所述第一映射关系确定出所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z);
根据所述2D语义分割图像上的像素点在相机坐标系下的第四坐标P(X,Y,Z)、所述2D语义分割图像上的匹配像素点的第二坐标(x’h,y’v)以及与其匹配的深度信息Z’、所述2D语义分割图像上的匹配像素点归一化后的第三坐标(u’,v’)、所述第二映射关系和第三映射关系确定出A、B、C、D的值,A、B表示归一化后的2D语义分割图像的比例缩放系数矩阵中的待定系数,C、D表示2D语义分割图像的比例缩放系数矩阵中的待定系数;
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述C、D和所述第二映射关系确定出雷达投影的图像中对应像素点的坐标(X’,Y’);
根据所述2D语义分割图像上的未匹配像素点的坐标(x”h,y”v)、所述A、B和所述第三映射关系确定出雷达投影的图像中对应的像素点归一化后的坐标(u”,v”);
将所述(X’,Y’)和所述(u”,v”)代入针孔摄像机模型:
Figure FDA0002464504630000061
得到所述未匹配像素点对应的深度信息Z”,式中,fx、fy分别为摄像机获取图像时横向、纵向焦距,包含图像的缩放信息,cx、cy为由于相机畸变照成的相机成像后的图像和实际图像的横向和纵向的偏差。
CN202010329715.7A 2020-04-24 2020-04-24 一种3d语义分割的方法及终端 Active CN111523547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010329715.7A CN111523547B (zh) 2020-04-24 2020-04-24 一种3d语义分割的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010329715.7A CN111523547B (zh) 2020-04-24 2020-04-24 一种3d语义分割的方法及终端

Publications (2)

Publication Number Publication Date
CN111523547A true CN111523547A (zh) 2020-08-11
CN111523547B CN111523547B (zh) 2024-03-15

Family

ID=71904674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010329715.7A Active CN111523547B (zh) 2020-04-24 2020-04-24 一种3d语义分割的方法及终端

Country Status (1)

Country Link
CN (1) CN111523547B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113450345A (zh) * 2021-07-19 2021-09-28 西门子数字医疗科技(上海)有限公司 图像处理方法、装置、电子设备和存储介质
CN114898094A (zh) * 2022-04-22 2022-08-12 湖南大学 点云上采样方法、装置、计算机设备和存储介质
WO2022206414A1 (zh) * 2021-03-29 2022-10-06 华为技术有限公司 三维目标检测方法及装置
WO2023015914A1 (zh) * 2021-08-12 2023-02-16 达闼机器人股份有限公司 图像重力方向的获取方法、装置、电子设备及存储介质
WO2023138331A1 (zh) * 2022-01-21 2023-07-27 北京地平线信息技术有限公司 一种构建语义地图的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934230A (zh) * 2018-09-05 2019-06-25 浙江大学 一种基于视觉辅助的雷达点云分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934230A (zh) * 2018-09-05 2019-06-25 浙江大学 一种基于视觉辅助的雷达点云分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴伟坊: "基于机载 LiDAR 系统激光点云与图像点云的融合技术", pages 28 - 31 *
董洪义: "《深度学习之PyTorch物体检测实战》", 北京理工大学出版社, pages: 134 - 137 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022206414A1 (zh) * 2021-03-29 2022-10-06 华为技术有限公司 三维目标检测方法及装置
CN113450345A (zh) * 2021-07-19 2021-09-28 西门子数字医疗科技(上海)有限公司 图像处理方法、装置、电子设备和存储介质
WO2023015914A1 (zh) * 2021-08-12 2023-02-16 达闼机器人股份有限公司 图像重力方向的获取方法、装置、电子设备及存储介质
WO2023138331A1 (zh) * 2022-01-21 2023-07-27 北京地平线信息技术有限公司 一种构建语义地图的方法及装置
CN114898094A (zh) * 2022-04-22 2022-08-12 湖南大学 点云上采样方法、装置、计算机设备和存储介质
CN114898094B (zh) * 2022-04-22 2024-07-12 湖南大学 点云上采样方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111523547B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN111523547B (zh) 一种3d语义分割的方法及终端
CN107301654B (zh) 一种多传感器的高精度即时定位与建图方法
US11488322B2 (en) System and method for training a model in a plurality of non-perspective cameras and determining 3D pose of an object at runtime with the same
CN109470149B (zh) 一种管路位姿的测量方法及装置
CN109580630A (zh) 一种机械零部件缺陷的视觉检测方法
CN111179321B (zh) 一种基于模板匹配的点云配准方法
CN111524194A (zh) 一种激光雷达和双目视觉相互融合的定位方法及终端
Tran et al. Non-contact gap and flush measurement using monocular structured multi-line light vision for vehicle assembly
CN112132876B (zh) 2d-3d图像配准中的初始位姿估计方法
CN114022542A (zh) 一种基于三维重建的3d数据库制作方法
CN113393524A (zh) 一种结合深度学习和轮廓点云重建的目标位姿估计方法
CN111768370B (zh) 一种基于rgb-d相机的航空发动机叶片检测方法
CN113409242A (zh) 一种轨交弓网点云智能监测方法
CN110458951B (zh) 一种电网杆塔的建模数据获取方法及相关装置
CN114608522B (zh) 一种基于视觉的障碍物识别与测距方法
CN117218192A (zh) 一种基于深度学习与合成数据的弱纹理物体位姿估计方法
CN116402904A (zh) 一种基于激光雷达间和单目相机的联合标定方法
CN112950527A (zh) 一种基于限定几何关联约束的立体匹配形貌测量方法
CN114419259B (zh) 一种基于物理模型成像仿真的视觉定位方法及系统
CN114155406A (zh) 一种基于区域级特征融合的位姿估计方法
CN111915632A (zh) 一种基于机器学习的贫纹理目标物体真值数据库构建方法
Yu et al. Multi-view 2D–3D alignment with hybrid bundle adjustment for visual metrology
Shi et al. A Visual-SLAM based Line Laser Scanning System using Semantically Segmented Images
CN116778066B (zh) 数据处理方法、装置、设备及介质
CN116597184B (zh) 最小二乘影像匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant