CN110910450A - 一种基于混合特征感知神经网络进行3d目标检测的方法 - Google Patents
一种基于混合特征感知神经网络进行3d目标检测的方法 Download PDFInfo
- Publication number
- CN110910450A CN110910450A CN201910919370.8A CN201910919370A CN110910450A CN 110910450 A CN110910450 A CN 110910450A CN 201910919370 A CN201910919370 A CN 201910919370A CN 110910450 A CN110910450 A CN 110910450A
- Authority
- CN
- China
- Prior art keywords
- target detection
- detection object
- coordinate system
- neural network
- candidate region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于混合特征感知神经网络进行3D目标检测的方法,对于3D目标检测物,首先通过MCG算法对RGB图进行预处理得到目标检测物的2D候选区,将2D候选区初始化得到3D候选区,然后将初始化3D候选区后的颜色图和深度图送入由分类任务损失函数和位置比例损失函数组成的双通道混合特征感知的特征提取模块分别获取物体表面特征和几何特征信息,最后将两者信息融合完成3D目检测任务,采用了混合特征感知的策略,在不同的维度上提取感兴趣物体的特征,使提取出的特征包含的维度更多也更具分辨性,能够得到准确的目标检测物的3D真实位置。
Description
技术领域
本发明涉及计算机视觉的目标检测领域,具体涉及一种基于混合特征感知神经网络进行3D目标检测的方法。
背景技术
目标检测计算机视觉研究领域的一个基础问题,它的任务就是给出感兴趣物体在图像中的位置信息和类别信息。传统的做法是用一个2维的矩形框在图像中标定物体,目前针对2D的目标检测技术已经较为成熟。
但是在一些应用场景中,我们不仅仅需要目标的表面信息。它的深度信息也是我们比较关注的一个方向。比如无人驾驶汽车,移动机器人等都需要对物体在物理世界的详细位置信息。这时,目标的3D检测就显得尤为重要。但就目前来看,3D目标检测的研究还不够成熟,主要体现在算法不成熟以及处理对象过于单调。比如目标检测数据具有物体遮挡,光线变化,以及空间物体密集,局部特征不明显,类间样本不均衡等特点,现有的3D目标检测算法不能很好的解决此问题。
发明内容
本发明的目的在于提供一种基于混合特征感知神经网络进行3D目标检测的方法,以克服现有技术的不足,进一步提高3D目标检测的准确率。
为达到上述目的,本发明采用如下技术方案:
一种基于混合特征感知神经网络进行3D目标检测的方法,包括以下步骤:
步骤1)、获取目标检测物的RGB图和RGB图相对应的深度图;
步骤2)、采用MCG算法对RGB图进行预处理,得到目标检测物的2D候选区;
步骤3)、从RGB图中的目标检测物的2D候选区初始化得到一个目标检测物的3D候选区,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区的中心点的位置和目标检测物的尺寸大小;
步骤4)、建立分类任务损失函数和位置比例损失函数的神经网络模型,将初始化3D候选区后的RGB图和RGB图相对应的深度图输入到神经网络模型中,神经网络模型输出结果即为目标检测物的真实位置。
进一步的,步骤3)中,目标检测物在世界坐标系中的坐标为其中,xcam,ycam,zcam]是目标检测物在相机坐标系下的中心,[l,w,h]是目标检测物在倾斜坐标系下的3D尺寸,是目标检测物在倾斜坐标系中方向向量与z轴的夹角;倾斜坐标系是通过将相机坐标系中点云的方向与重力方向一致转换得来的,倾斜坐标系没有对相机坐标系做任何的y轴旋转。
进一步的,相机坐标系与倾斜坐标系之间的转换关系如公式(1)所示,倾斜坐标系与世界坐标系之间的转换矩阵由公式(2)得到:
XYZtilt=Rtilt*XYZcam (1)
Rtilt=Rx*Rz (2)
其中,Rtilt是倾斜坐标系与世界坐标系之间的转换矩阵,Rx和Rz分别是x轴和z轴的旋转矩阵。
进一步的,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区域的中心点的位置和尺寸大小,对于每一个3D的候选区域的尺寸大小,通过与尺寸大小相对应类别的平均尺寸初始化。
进一步的,对于目标检测物在3D候选区的中心点位置进行初始化得到初始化坐标(xinit,yinit,zinit),其中zinit通过zmed初始化得到,xinit和yinit通过公式(3)计算得到;对于3D候选区域,初始化为0;
其中,zmed对应的是2D候选区映射到3D候选区的中值深度;f是获取RGB图相机的焦距,(cx,cy)是2D候选区的中心坐标,(ox,oy)是获取RGB图相机的中心点坐标。
进一步的,步骤4)中,将RGB图输入神经网络模型理前,通过卷积和池化对输入的RGB图进行降维和特征预处理。
进一步的,利用混合感知模块对降维和特征预处理后的RGB图提取特征,其中混合感知模块是一个相同尺度大小的多层特征感知器;每一层特征感知器都是卷积、池化和激活函数的一个组合。
进一步的,建立目标检测物的神经网络模型,神经网络模型的整体损失函数为:
Lreg为位置比例损失函数,用于目标检测物的位置检测,λ为平衡分类损失和位置损失的一个超参数。
进一步的,位置比例损失函数具体如公式(4)所示:
进一步的,神经网络的超参数包括学习率、正则化参数、神经网络的层数、每一层的神经元个数、学习的回合数、小批量数据的大小、输出神经元的编码方式、代价函数的选择、权重的初始化方法、神经元的激活函数和参加训练模型数据的规模。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种基于混合特征感知神经网络进行3D目标检测的方法,对于3D目标检测物,首先通过MCG算法对RGB图进行预处理得到目标检测物的2D候选区,将2D候选区初始化得到3D候选区,然后将初始化3D候选区后的颜色图和深度图送入由分类任务损失函数和位置比例损失函数组成的双通道混合特征感知的特征提取模块分别获取物体表面特征和几何特征信息,最后将两者信息融合完成3D目检测任务,采用了混合特征感知的策略,在不同的维度上提取感兴趣物体的特征,使提取出的特征包含的维度更多也更具分辨性,能够得到准确的目标检测物的3D真实位置。
进一步的,利用位置比例损失函数提高目标检测物位置计算的准确度。
附图说明
图1为本发明估计算法的流程图。
图2为3D候选区生成示意图。
图3为可视化测试结果图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
如图1所示,一种基于混合特征感知神经网络进行3D目标检测的方法,将颜色图和深度图送入双通道混合特征感知的特征提取模块分别获取物体表面特征和几何特征信息,最后将两者信息融合完成3D目检测任务。
具体包括以下步骤:
步骤1)、获取目标检测物的RGB图和RGB图相对应的深度图;
步骤2)、采用MCG算法对RGB图进行预处理,得到目标检测物的2D候选区;
步骤3)、从RGB图中的目标检测物的2D候选区初始化得到一个目标检测物的3D候选区,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区的中心点的位置和目标检测物的尺寸大小;
步骤4)、建立分类任务损失函数和位置比例损失函数的神经网络模型,将初始化3D候选区后的RGB图和RGB图相对应的深度图输入到神经网络模型中,神经网络模型输出结果即为目标检测物的真实位置。
如图2所示,步骤3)中,目标检测物的世界坐标系为其中,[xcam,ycam,zcam]是目标检测物在相机坐标系下的中心,[l,w,h]是目标检测物在倾斜坐标系下的3D尺寸,是目标检测物在倾斜坐标系中方向向量与z轴的夹角。
其中,倾斜坐标系是通过将相机坐标系中点云的方向与重力方向一致转换得来的,倾斜坐标系没有对相机坐标系做任何的y轴旋转;
相机坐标系与倾斜坐标系之间的转换关系如公式(1)所示,倾斜坐标系与世界坐标系之间的转换矩阵由公式(2)得到:
XYZtilt=Rtilt*XYZcam (1)
Rtilt=Rx*Rz (2)
其中,Rtilt是倾斜坐标系与世界坐标系之间的转换矩阵,Rx和Rz分别是x轴和z轴的旋转矩阵。
根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区域的中心点的位置和尺寸大小,对于每一个3D的候选区域的尺寸大小,通过与尺寸大小相对应类别的平均尺寸初始化。
对于目标检测物在3D候选区的中心点位置进行初始化得到初始化坐标(xinit,yinit,zinit),其中zinit通过zmed初始化得到,xinit和yinit通过公式(3)计算得到;对于3D候选区域,初始化为0;
其中,zmed对应的是2D候选区映射到3D候选区的中值深度;f是获取RGB图相机的焦距,(cx,cy)是2D候选区的中心坐标,(ox,oy)是获取RGB图相机的中心点坐标。
步骤4)中,将RGB图输入神经网络模型理前,通过卷积和池化对输入的RGB图进行降维和特征预处理。
利用混合感知模块对降维和特征预处理后的RGB图提取特征,
其中混合感知模块是一个相同尺度大小的多层特征感知器;每一层特征感知器都是卷积、池化和激活函数的一个组合。混合特征感知模块包括conv5、conv6和conv7。具体的,分别将conv5_3、conv6_2和conv7_2作为特征提取层,它们都是大小为7x7的特征图,特征图的通道数分别是512,256,256,这些特征图数经过ROIPooling之后,串联在一起形成最终的图像特征
建立目标检测物的神经网络模型,神经网络模型的整体损失函数为:
其中,Lcls是分类任务损失函数,即交叉熵损失函数,用于对目标检测物进行分类,即获取物体表面特征,如公式(8)所示;
Lreg为位置比例损失函数,用于目标检测物的位置检测,即获取物体的几何特征信息,λ为平衡分类损失和位置损失的一个超参数:
位置比例损失函数具体如公式(4)所示:
神经网络的超参数包括学习率、正则化参数、神经网络的层数、每一层的神经元个数、学习的回合数、小批量数据的大小、输出神经元的编码方式、代价函数的选择、权重的初始化方法、神经元的激活函数和参加训练模型数据的规模;超参数根据经验值设置,对超参数进行初始化,具体如表1所示:
表1超参数初始化
对本申请的申请网络模型进行训练,通过迭代二十次输出一次训练结果,每30000次改变一次学习率,通过迭代2000次保存一次模型结果。在训练完模型之后,通过训练好的模型对测试图片进行预测和验证。我们对预测出来的结果进行了NMS处理,然后用处理之后的结果与真实值进行比较和分析,具体测试结果如图3所示,目标检测物的3D结果检测精度高,检测准确。
Claims (10)
1.一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,包括以下步骤:
步骤1)、获取目标检测物的RGB图和RGB图相对应的深度图;
步骤2)、采用MCG算法对RGB图进行预处理,得到目标检测物的2D候选区;
步骤3)、从RGB图中的目标检测物的2D候选区初始化得到一个目标检测物的3D候选区,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区的中心点的位置和目标检测物的尺寸大小;
步骤4)、建立分类任务损失函数和位置比例损失函数的神经网络模型,将初始化3D候选区后的RGB图和RGB图相对应的深度图输入到神经网络模型中,神经网络模型输出结果即为目标检测物的真实位置。
3.根据权利要求2所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,相机坐标系与倾斜坐标系之间的转换关系如公式(1)所示,倾斜坐标系与世界坐标系之间的转换矩阵由公式(2)得到:
XYZtilt=Rtilt*XYZcam (1)
Rtilt=Rx*Rz (2)
其中,Rtilt是倾斜坐标系与世界坐标系之间的转换矩阵,Rx和Rz分别是x轴和z轴的旋转矩阵。
4.根据权利要求1所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,根据2D候选区域对应的类别联合与RGB图对应的深度图初始化3D候选区域的中心点的位置和尺寸大小,对于每一个3D的候选区域的尺寸大小,通过与尺寸大小相对应类别的平均尺寸初始化。
6.根据权利要求1所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,步骤4)中,将RGB图输入神经网络模型理前,通过卷积和池化对输入的RGB图进行降维和特征预处理。
7.根据权利要求1所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,利用混合感知模块对降维和特征预处理后的RGB图提取特征,其中混合感知模块是一个相同尺度大小的多层特征感知器;每一层特征感知器都是卷积、池化和激活函数的一个组合。
10.根据权利要求8所述的一种基于混合特征感知神经网络进行3D目标检测的方法,其特征在于,神经网络的超参数包括学习率、正则化参数、神经网络的层数、每一层的神经元个数、学习的回合数、小批量数据的大小、输出神经元的编码方式、代价函数的选择、权重的初始化方法、神经元的激活函数和参加训练模型数据的规模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910919370.8A CN110910450A (zh) | 2019-09-26 | 2019-09-26 | 一种基于混合特征感知神经网络进行3d目标检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910919370.8A CN110910450A (zh) | 2019-09-26 | 2019-09-26 | 一种基于混合特征感知神经网络进行3d目标检测的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110910450A true CN110910450A (zh) | 2020-03-24 |
Family
ID=69815296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910919370.8A Pending CN110910450A (zh) | 2019-09-26 | 2019-09-26 | 一种基于混合特征感知神经网络进行3d目标检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110910450A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284163A (zh) * | 2021-05-12 | 2021-08-20 | 西安交通大学 | 基于车载激光雷达点云的三维目标自适应检测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451602A (zh) * | 2017-07-06 | 2017-12-08 | 浙江工业大学 | 一种基于深度学习的果蔬检测方法 |
CN108257139A (zh) * | 2018-02-26 | 2018-07-06 | 中国科学院大学 | 基于深度学习的rgb-d三维物体检测方法 |
CN109101897A (zh) * | 2018-07-20 | 2018-12-28 | 中国科学院自动化研究所 | 水下机器人的目标检测方法、系统及相关设备 |
US20190095730A1 (en) * | 2017-09-25 | 2019-03-28 | Beijing University Of Posts And Telecommunications | End-To-End Lightweight Method And Apparatus For License Plate Recognition |
CN109903331A (zh) * | 2019-01-08 | 2019-06-18 | 杭州电子科技大学 | 一种基于rgb-d相机的卷积神经网络目标检测方法 |
-
2019
- 2019-09-26 CN CN201910919370.8A patent/CN110910450A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451602A (zh) * | 2017-07-06 | 2017-12-08 | 浙江工业大学 | 一种基于深度学习的果蔬检测方法 |
US20190095730A1 (en) * | 2017-09-25 | 2019-03-28 | Beijing University Of Posts And Telecommunications | End-To-End Lightweight Method And Apparatus For License Plate Recognition |
CN108257139A (zh) * | 2018-02-26 | 2018-07-06 | 中国科学院大学 | 基于深度学习的rgb-d三维物体检测方法 |
CN109101897A (zh) * | 2018-07-20 | 2018-12-28 | 中国科学院自动化研究所 | 水下机器人的目标检测方法、系统及相关设备 |
CN109903331A (zh) * | 2019-01-08 | 2019-06-18 | 杭州电子科技大学 | 一种基于rgb-d相机的卷积神经网络目标检测方法 |
Non-Patent Citations (1)
Title |
---|
ZHUO DENG ET AL: "Amodal Detection of 3D Objects: Inferring 3D Bounding Boxes from 2D Ones in RGB-Depth Images", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284163A (zh) * | 2021-05-12 | 2021-08-20 | 西安交通大学 | 基于车载激光雷达点云的三维目标自适应检测方法及系统 |
CN113284163B (zh) * | 2021-05-12 | 2023-04-07 | 西安交通大学 | 基于车载激光雷达点云的三维目标自适应检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN112085735B (zh) | 一种基于自适应锚框的铝材质图像缺陷检测方法 | |
CN107576960B (zh) | 视觉雷达时空信息融合的目标检测方法及系统 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
Chen et al. | Underwater image enhancement based on deep learning and image formation model | |
US11182644B2 (en) | Method and apparatus for pose planar constraining on the basis of planar feature extraction | |
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
CN111079685B (zh) | 一种3d目标检测方法 | |
CN113065546B (zh) | 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统 | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN112801015B (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN112529015A (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN111126399A (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN109034184B (zh) | 一种基于深度学习的均压环检测识别方法 | |
CN106780546B (zh) | 基于卷积神经网络的运动模糊编码点的身份识别方法 | |
CN113435282B (zh) | 基于深度学习的无人机影像麦穗识别方法 | |
CN108171249B (zh) | 一种基于rgbd数据的局部描述子学习方法 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
CN114299405A (zh) | 一种无人机图像实时目标检测方法 | |
CN114648669A (zh) | 一种域自适应双目视差计算的动车组故障检测方法及系统 | |
CN115937552A (zh) | 一种基于融合手工特征与深度特征的图像匹配方法 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200324 |
|
RJ01 | Rejection of invention patent application after publication |