CN115171096A - 一种基于rgb图像与激光点云融合的3d目标检测方法 - Google Patents

一种基于rgb图像与激光点云融合的3d目标检测方法 Download PDF

Info

Publication number
CN115171096A
CN115171096A CN202210888275.8A CN202210888275A CN115171096A CN 115171096 A CN115171096 A CN 115171096A CN 202210888275 A CN202210888275 A CN 202210888275A CN 115171096 A CN115171096 A CN 115171096A
Authority
CN
China
Prior art keywords
point cloud
image
coordinate
target
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210888275.8A
Other languages
English (en)
Inventor
郭栋
马向华
王浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN202210888275.8A priority Critical patent/CN115171096A/zh
Publication of CN115171096A publication Critical patent/CN115171096A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于RGB图像与激光点云融合的3D目标检测方法,其中主要包括两个模块:RGB图像的2D目标检测分割模块和点云的3D目标检测模块。将待检测RGB图像输入2D检测模块进行特征提取,按照提取的特征结果对图像进行实例分割,获得待检测目标的分割掩膜;将激光点云从三维的雷达坐标投影到二维的图像坐标,其中包括从激光雷达测量到相机框架的SE(3)变换和从相机框架到图像坐标的投影,根据点云投影到目标分割掩膜的点,在掩膜范围内随机生成固定数量的虚拟点;将生成的虚拟点重新投影到原始点云;将融合后的点云进入3D目标检测模块进行目标检测,能极大提高检测的准确率。

Description

一种基于RGB图像与激光点云融合的3D目标检测方法
技术领域
本发明属于目标检测技术领域,具体地说,尤其涉及一种基于RGB图像与激光点云融合的3D目标检测方法。
背景技术
目标检测一直是机器视觉领域中的研究热点。在2D目标检测已经非常成熟的今天,3D目标检测获得了研究者的广泛关注。3D目标检测对自动驾驶等相关领域起着至关重要的作用。在3D目标检测的算法研究中,RGB图像包含丰富的语义信息,在对象的分类任务中具有优势,但是缺少深度信息。RGB-D图像虽然包含深度信息,但仍以2D形式表现,相比点云数据,其损失了很多有用的空间信息,在对空间位置的判断上有所欠缺。另外,对于远处的目标,点云信息过于稀疏,无法有效的检测,而对RGB图像的检测算法非常成熟,能有效的检测,因此提出了利用RGB图像进行2D目标检测,利用检测结果形成虚拟点去增强点云,提升对3D目标检测的效果。
发明内容
本发明要解决的技术问题是克服现有技术的不足,提供了一种基于RGB图像与激光点云融合的3D目标检测方法,其利用RGB图像进行2D目标检测,利用检测结果形成虚拟点去增强点云,提升对3D目标检测的效果。
为了实现上述目的,本发明是采用以下技术方案实现的:
一种基于RGB图像与激光点云融合的3D目标检测方法,包括以下步骤:
步骤(1)将待检测RGB图像输入2D检测模块进行特征提取;
步骤(2)按照提取的特征结果对图像进行实例分割,获得待检测目标的分割掩膜;
步骤(3)将激光点云从三维的雷达坐标投影到二维的图像坐标,其中包括从激光雷达坐标到相机框架的坐标变换和从相机框架到图像投影的坐标变换;
步骤(4)根据点云投影到目标分割掩膜的点,在掩膜范围内随机生成一定数量的虚拟点;
步骤(5)将生成的虚拟点重新投影到原始点云;
步骤(6)将融合后的点云进入3D目标检测模块进行目标检测。
优选地,步骤(1)具体为:对于给定的待检测图像输入到2D检测框架detectron2,通过RPN(区域生成网络)模块生成建议区域,在建议区域内通过13个卷积层、13个relu层、4个池化层进行特征提取,采用PFN(特征金字塔)对每一种尺度的图像进行特征提取,能够产生多尺度的特征表示,从而进行特征增强,基于ROI尺寸选择特征映射的具体公式为:
Figure BDA0003766490800000021
优选地,步骤(2)具体为:通过FPN(特征金字塔)获得的增强特征,对建议区域进行特征匹配,通过全连接层进行像素到像素的影射,对图像中的目标实现像素级的实例分割。
优选地,步骤(3)具体为:
1)将点云从雷达坐标到相机框架的坐标变换
Figure BDA0003766490800000022
R=Rz·Ry·Rx (1.4)
Figure BDA0003766490800000023
其中Rx、Ry和Rz分别表示绕X、Y、Z轴的旋转变换矩阵,θx、θy和θz与X、Y、Z轴的夹角,R为雷达坐标到相机框架的坐标旋转变换矩阵,
Figure BDA0003766490800000024
为图像坐标系中的点,s为齐次坐标系中的缩放因子。
2)从相机框架到图像投影的坐标变换,针孔摄像头模型的投影方程,
Figure BDA0003766490800000025
其中
Figure BDA0003766490800000026
为图像坐标系中的点
激光点云从三维的雷达坐标投影到二维的图像坐标公式为
Figure BDA0003766490800000031
其中t为点云坐标系中平移向量。
优选地,步骤(4)具体为:在点云投影到图像坐标后,与实例分割后的图像融合,得到含点云L={(x,y,z,r)i}和分割掩膜的图像,在目标掩膜范围内随机生成一定数量的虚拟点vi=(x,y,z,e),(x,y,z)为点的空间位置,e为生成虚拟点的深度,由掩膜内投影点云的深度信息估计获得。
优选地,步骤(5)具体为:依据虚拟点的深度信息,参考步骤(3)空间点云投影到图像的方法,将图像中的点反向映射回到点云空间。
优选地,步骤(6)具体为:将融合后点云输入到基于点云的3D目标检测框架VoxelR-CNN,对点云体素化,根据输入的点云数据,分别计算出XYZ三个方向点云数据坐标的最大值与最小值的差,然后根据三个差值来确定初始体素的长宽高,计算完成后,自动建立出初始体素,所建立的初始体素中已包含所有的点云数据将点云划分为规则的体素;
将初始体素建立好之后,即可对初始体素进行划分(划分的越细,体格越小,分辨率越高)并建立三维模型,具体执行方法为将初始体素分解为N个体积较小的体素(通常像256*256*256这样的方式去划分),用bresenham算法剔除初始体素中的无效体素,剩余的体素即可构成点云数据的三维模型;
将体素化的点云送到3D骨干网络中进行特征提取,将3D特征转换为BEV表示,获得2D表示的点云图像,在此基础上应用2D主干和RPN生成区域方案。将RPN获得的ROI映射到体素化的点云空间,获得体素ROI的区域,体素ROI池化直接从体素ROI的区域提取特征,进行后续的分割和分类。
与现有技术相比,本发明的有益效果是:
将待检测RGB图像输入2D检测模块进行特征提取,按照提取的特征结果对图像进行实例分割,获得待检测目标的分割掩膜;将激光点云从三维的雷达坐标投影到二维的图像坐标,其中包括从激光雷达测量到相机框架的SE(3)变换和从相机框架到图像坐标的投影,根据点云投影到目标分割掩膜的点,在掩膜范围内随机生成固定数量的虚拟点;将生成的虚拟点重新投影到原始点云;将融合后的点云进入3D目标检测模块进行目标检测,能极大提高检测的准确率。
附图说明
图1为本发明的流程框图。
具体实施方式
下面通过具体实施例并结合附图对本发明作进一步说明。
实施例1:
如图1所示,一种基于RGB图像与激光点云融合的3D目标检测方法,包括以下步骤:
步骤(1)将待检测RGB图像输入2D检测模块进行特征提取;
步骤(2)按照提取的特征结果对图像进行实例分割,获得待检测目标的分割掩膜;
步骤(3)将激光点云从三维的雷达坐标投影到二维的图像坐标,其中包括从激光雷达坐标到相机框架的坐标变换和从相机框架到图像投影的坐标变换;
步骤(4)根据点云投影到目标分割掩膜的点,在掩膜范围内随机生成一定数量的虚拟点;
步骤(5)将生成的虚拟点重新投影到原始点云;
步骤(6)将融合后的点云进入3D目标检测模块进行目标检测。
步骤(1)具体为:对于给定的待检测图像输入到2D检测框架detectron2,通过RPN(区域生成网络)模块生成建议区域,在建议区域内通过13个卷积层、13个relu层、4个池化层进行特征提取,采用PFN(特征金字塔)对每一种尺度的图像进行特征提取,能够产生多尺度的特征表示,从而进行特征增强,基于ROI尺寸选择特征映射的具体公式为:
Figure BDA0003766490800000041
步骤(2)具体为:通过FPN(特征金字塔)获得的增强特征,对建议区域进行特征匹配,通过全连接层进行像素到像素的影射,对图像中的目标实现像素级的实例分割。
步骤(3)具体为:
1)将点云从雷达坐标到相机框架的坐标变换
Figure BDA0003766490800000042
Figure BDA0003766490800000051
R=Rz·Ry·Rx (1.4)
Figure BDA0003766490800000052
其中Rx、Ry和Rz分别表示绕X、Y、Z轴的旋转变换矩阵,θx、θy和θz与X、Y、Z轴的夹角,R为雷达坐标到相机框架的坐标旋转变换矩阵,
Figure BDA0003766490800000053
为图像坐标系中的点,s为齐次坐标系中的缩放因子。
2)从相机框架到图像投影的坐标变换,针孔摄像头模型的投影方程,
Figure BDA0003766490800000054
其中
Figure BDA0003766490800000055
为图像坐标系中的点
激光点云从三维的雷达坐标投影到二维的图像坐标公式为
Figure BDA0003766490800000056
其中t为点云坐标系中平移向量。
步骤(4)具体为:在点云投影到图像坐标后,与实例分割后的图像融合,得到含点云L={(x,y,z,r)i}和分割掩膜的图像,在目标掩膜范围内随机生成一定数量的虚拟点vi=(x,y,z,e),(x,y,z)为点的空间位置,e为生成虚拟点的深度,由掩膜内投影点云的深度信息估计获得。
步骤(5)具体为:依据虚拟点的深度信息,参考步骤(3)空间点云投影到图像的方法,将图像中的点反向映射回到点云空间。
步骤(6)具体为:将融合后点云输入到基于点云的3D目标检测框架Voxel R-CNN,对点云体素化,根据输入的点云数据,分别计算出XYZ三个方向点云数据坐标的最大值与最小值的差,然后根据三个差值来确定初始体素的长宽高,计算完成后,自动建立出初始体素,所建立的初始体素中已包含所有的点云数据将点云划分为规则的体素;
将初始体素建立好之后,即可对初始体素进行划分(划分的越细,体格越小,分辨率越高)并建立三维模型,具体执行方法为将初始体素分解为N个体积较小的体素(通常像256*256*256这样的方式去划分),用bresenham算法剔除初始体素中的无效体素,剩余的体素即可构成点云数据的三维模型;
将体素化的点云送到3D骨干网络中进行特征提取,将3D特征转换为BEV表示,获得2D表示的点云图像,在此基础上应用2D主干和RPN生成区域方案。将RPN获得的ROI映射到体素化的点云空间,获得体素ROI的区域,体素ROI池化直接从体素ROI的区域提取特征,进行后续的分割和分类。

Claims (7)

1.一种基于RGB图像与激光点云融合的3D目标检测方法,其特征在于:包括以下步骤:
步骤(1)将待检测RGB图像输入2D检测模块进行特征提取;
步骤(2)按照提取的特征结果对图像进行实例分割,获得待检测目标的分割掩膜;
步骤(3)将激光点云从三维的雷达坐标投影到二维的图像坐标,其中包括从激光雷达坐标到相机框架的坐标变换和从相机框架到图像投影的坐标变换;
步骤(4)根据点云投影到目标分割掩膜的点,在掩膜范围内随机生成一定数量的虚拟点;
步骤(5)将生成的虚拟点重新投影到原始点云;
步骤(6)将融合后的点云进入3D目标检测模块进行目标检测。
2.根据权利要求1所述的基于RGB图像与激光点云融合的3D目标检测方法,其特征在于:步骤(1)具体为:对于给定的待检测图像输入到2D检测框架detectron2,通过RPN(区域生成网络)模块生成建议区域,在建议区域内通过13个卷积层、13个relu层、4个池化层进行特征提取,采用PFN(特征金字塔)对每一种尺度的图像进行特征提取,能够产生多尺度的特征表示,从而进行特征增强,基于ROI尺寸选择特征映射的具体公式为:
Figure FDA0003766490790000011
3.根据权利要求2所述的基于RGB图像与激光点云融合的3D目标检测方法,其特征在于:步骤(2)具体为:通过FPN(特征金字塔)获得的增强特征,对建议区域进行特征匹配,通过全连接层进行像素到像素的影射,对图像中的目标实现像素级的实例分割。
4.根据权利要求3所述的基于RGB图像与激光点云融合的3D目标检测方法,其特征在于:步骤(3)具体为:
1)将点云从雷达坐标到相机框架的坐标变换
Figure FDA0003766490790000012
R=Rz·Ry·Rx (1.4)
Figure FDA0003766490790000021
其中Rx、Ry和Rz分别表示绕X、Y、Z轴的旋转变换矩阵,θx、θy和θz与X、Y、Z轴的夹角,R为雷达坐标到相机框架的坐标旋转变换矩阵,
Figure FDA0003766490790000022
为图像坐标系中的点,s为齐次坐标系中的缩放因子。
2)从相机框架到图像投影的坐标变换,针孔摄像头模型的投影方程,
Figure FDA0003766490790000023
其中
Figure FDA0003766490790000024
为图像坐标系中的点
激光点云从三维的雷达坐标投影到二维的图像坐标公式为
Figure FDA0003766490790000025
其中t为点云坐标系中平移向量。
5.根据权利要求4所述的基于RGB图像与激光点云融合的3D目标检测方法,其特征在于:步骤(4)具体为:在点云投影到图像坐标后,与实例分割后的图像融合,得到含点云L={(x,y,z,r)i}和分割掩膜的图像,在目标掩膜范围内随机生成一定数量的虚拟点vi=(x,y,z,e),(x,y,z)为点的空间位置,e为生成虚拟点的深度,由掩膜内投影点云的深度信息估计获得。
6.根据权利要求5所述的基于RGB图像与激光点云融合的3D目标检测方法,其特征在于:步骤(5)具体为:依据虚拟点的深度信息,参考步骤(3)空间点云投影到图像的方法,将图像中的点反向映射回到点云空间。
7.根据权利要求6所述的基于RGB图像与激光点云融合的3D目标检测方法,其特征在于:步骤(6)具体为:将融合后点云输入到基于点云的3D目标检测框架Voxel R-CNN,对点云体素化,根据输入的点云数据,分别计算出XYZ三个方向点云数据坐标的最大值与最小值的差,然后根据三个差值来确定初始体素的长宽高,计算完成后,自动建立出初始体素,所建立的初始体素中已包含所有的点云数据将点云划分为规则的体素;
将初始体素建立好之后,即可对初始体素进行划分(划分的越细,体格越小,分辨率越高)并建立三维模型,具体执行方法为将初始体素分解为N个体积较小的体素(通常像256*256*256这样的方式去划分),用bresenham算法剔除初始体素中的无效体素,剩余的体素即可构成点云数据的三维模型;
将体素化的点云送到3D骨干网络中进行特征提取,将3D特征转换为BEV表示,获得2D表示的点云图像,在此基础上应用2D主干和RPN生成区域方案。将RPN获得的ROI映射到体素化的点云空间,获得体素ROI的区域,体素ROI池化直接从体素ROI的区域提取特征,进行后续的分割和分类。
CN202210888275.8A 2022-07-27 2022-07-27 一种基于rgb图像与激光点云融合的3d目标检测方法 Pending CN115171096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210888275.8A CN115171096A (zh) 2022-07-27 2022-07-27 一种基于rgb图像与激光点云融合的3d目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210888275.8A CN115171096A (zh) 2022-07-27 2022-07-27 一种基于rgb图像与激光点云融合的3d目标检测方法

Publications (1)

Publication Number Publication Date
CN115171096A true CN115171096A (zh) 2022-10-11

Family

ID=83496211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210888275.8A Pending CN115171096A (zh) 2022-07-27 2022-07-27 一种基于rgb图像与激光点云融合的3d目标检测方法

Country Status (1)

Country Link
CN (1) CN115171096A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861632A (zh) * 2022-12-20 2023-03-28 清华大学 一种基于图卷积的视觉激光融合的三维目标检测方法
CN116778262A (zh) * 2023-08-21 2023-09-19 江苏源驶科技有限公司 一种基于虚拟点云的三维目标检测方法和系统
CN117058342A (zh) * 2023-10-12 2023-11-14 天津科汇新创科技有限公司 一种基于投影图像的脊柱3d体素模型构建方法
CN117237506A (zh) * 2023-11-15 2023-12-15 中国科学院长春光学精密机械与物理研究所 航拍图像生成模拟激光点云图像的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861632A (zh) * 2022-12-20 2023-03-28 清华大学 一种基于图卷积的视觉激光融合的三维目标检测方法
CN115861632B (zh) * 2022-12-20 2023-11-28 清华大学 一种基于图卷积的视觉激光融合的三维目标检测方法
CN116778262A (zh) * 2023-08-21 2023-09-19 江苏源驶科技有限公司 一种基于虚拟点云的三维目标检测方法和系统
CN116778262B (zh) * 2023-08-21 2023-11-10 江苏源驶科技有限公司 一种基于虚拟点云的三维目标检测方法和系统
CN117058342A (zh) * 2023-10-12 2023-11-14 天津科汇新创科技有限公司 一种基于投影图像的脊柱3d体素模型构建方法
CN117058342B (zh) * 2023-10-12 2024-01-26 天津科汇新创科技有限公司 一种基于投影图像的脊柱3d体素模型构建方法
CN117237506A (zh) * 2023-11-15 2023-12-15 中国科学院长春光学精密机械与物理研究所 航拍图像生成模拟激光点云图像的方法
CN117237506B (zh) * 2023-11-15 2024-02-02 中国科学院长春光学精密机械与物理研究所 航拍图像生成模拟激光点云图像的方法

Similar Documents

Publication Publication Date Title
CN110264416B (zh) 稀疏点云分割方法及装置
CN115171096A (zh) 一种基于rgb图像与激光点云融合的3d目标检测方法
CN107292965B (zh) 一种基于深度图像数据流的虚实遮挡处理方法
CN102592275B (zh) 虚拟视点绘制方法
CN106340036A (zh) 一种基于双目立体视觉的立体匹配方法
CN107833270A (zh) 基于深度相机的实时物体三维重建方法
CN107622480B (zh) 一种Kinect深度图像增强方法
CN104574432B (zh) 一种自动多视角人脸自拍图像的三维人脸重建方法及系统
EP3503030A1 (en) Method and apparatus for generating a three-dimensional model
CN112801074B (zh) 一种基于交通摄像头的深度图估计方法
CN103826032B (zh) 深度图后期处理方法
CN104077808A (zh) 一种用于计算机图形图像处理的、基于深度信息的实时三维人脸建模方法
WO2023185069A1 (zh) 物体检测方法及装置、计算机可读存储介质及无人车
CN111027415B (zh) 一种基于偏振图像的车辆检测方法
CN113012293A (zh) 石刻模型构建方法、装置、设备及存储介质
CN106875437A (zh) 一种面向rgbd三维重建的关键帧提取方法
CN112651881B (zh) 图像合成方法、装置、设备、存储介质以及程序产品
CN110738731A (zh) 一种用于双目视觉的3d重建方法和系统
CN109345570B (zh) 一种基于几何形状的多通道三维彩色点云配准方法
Hayakawa et al. Ego-motion and surrounding vehicle state estimation using a monocular camera
CN114155414A (zh) 面向无人驾驶的新型特征层数据融合的方法、系统及目标检测方法
CN114935316B (zh) 基于光学跟踪与单目视觉的标准深度图像生成方法
CN112102347B (zh) 一种基于双目视觉的台阶检测和单级台阶高度估计方法
CN114742954A (zh) 一种构建大规模多样化人脸图片和模型数据对的方法
Dong et al. Point Cloud Segmentation Algorithm Based on Deep Learning and 3D Reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication