CN109753885A - 一种目标检测方法、装置以及行人检测方法、系统 - Google Patents

一种目标检测方法、装置以及行人检测方法、系统 Download PDF

Info

Publication number
CN109753885A
CN109753885A CN201811537033.4A CN201811537033A CN109753885A CN 109753885 A CN109753885 A CN 109753885A CN 201811537033 A CN201811537033 A CN 201811537033A CN 109753885 A CN109753885 A CN 109753885A
Authority
CN
China
Prior art keywords
grid
feature
tensor
view
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811537033.4A
Other languages
English (en)
Other versions
CN109753885B (zh
Inventor
王磊
陈嘉豪
程俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201811537033.4A priority Critical patent/CN109753885B/zh
Publication of CN109753885A publication Critical patent/CN109753885A/zh
Priority to PCT/CN2019/124189 priority patent/WO2020119661A1/zh
Application granted granted Critical
Publication of CN109753885B publication Critical patent/CN109753885B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种目标检测方法、装置以及行人检测方法、系统,属于目标检测技术领域。通过获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;根据所述第三特征张量,提取目标。本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作的方法,其能提取到更为精细的目标形状信息,从而实现更精确的目标提取。

Description

一种目标检测方法、装置以及行人检测方法、系统
技术领域
本发明涉及目标检测技术领域,尤其涉及一种目标检测方法、装置以及行人检测方法、系统。
背景技术
无人驾驶正成为人工智能领域最炙手可热的技术,得益于深度学习技术的突破性进展,无人驾驶技术也正趋于成熟,而无人驾驶中对于路边行人的检测对于整个驾驶的安全性显得尤为重要。
现有技术中检测行人目标,行之有效的方法都是在图像上提取精细的特征,再用该特征做后续的分类、分割等任务。按照特征提取方式的不同,目标检测技术可分为传统方法以及深度学习方法:其中,传统方法主要使用人工设计的特征,比如基于原始图像特征的尺度不变特征变换方法,针对点云或者特定的颜色、形状和几何特征的旋转图像方法,基于原始图像特征的尺度不变特征变换、加速稳健特征和方向梯度直方图方法等是基于人工设计特征提取和表达的方法,这类方法需要人工根据先验信息来设计特征、识别率不高。深度学习方法主要是利用深度网络提取深层次的特征,再结合低层次的特征来做分类、分割等任务。利用深度学习方法,处理目标检测任务的主流且有效的基本思路是拆分成目标分割(instance segmentation)和目标分类两个子任务,前者一般是基于区域候选网络(regionproposal network),这种网络目的在于生成矩形框来缩小目标范围,而后者则一般应用卷积神经网络,对于前者分割得到的局部图像对目标分类,识别出它是哪种类别的物体。
目前,无人驾驶已可以很好地实现简单的驾驶任务,然而,其处理复杂路况、复杂目标的能力还有很大的提升空间,现有技术中无人驾驶仍然不能完全检测出周边的物体并归类,即使是深度学习方法,其通用性、适用范围还有待提高,并不能保证所有无人驾驶过程中所有任务都爆出高精度检测,尤其是在面对密集的人群时,现有技术中检测人群中每个人位置的精度还远远不足。
发明内容
有鉴于此,本发明提供了一种目标检测方法、装置以及行人检测方法、系统,用以解决现有的针对无人驾驶场景下行人目标识别精度不高的技术问题。
本发明的技术方案如下:
根据本申请的第一方面,提出了一种目标检测方法,包括:
获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;
根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
根据所述第三特征张量,提取目标。
相应的,所述提取栅格的第一特征向量,包括:
(1)全连接层:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
(2)最大池化操作:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
(3)首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
(4)根据第一子特征向量进一步经过步骤(1)、(2)对应的全连接层以及最大池化操作,生成所述第一特征向量。
相应的,所述第二特征张量为一四维特征张量;
所述根据所述点云数据划分栅格,包括:所述点云数据划分为统一大小的栅格。
相应的,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量,包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈RD′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
其中,F为卷积核,si,j,k为第二特征张量S在(i,j,k)位置上的元素,S1为卷积得到的第三特征张量,为第三特征张量S1在(i,j,k)位置上的元素,⊙表示点乘。
相应的,所述根据所述第三特征张量提取目标,包括:
将所述第三特征张量输入到区域候选网络,生成多个区域候选框;
获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
根据本申请的第二方面,提出了一种目标检测装置,包括:
栅格特征提取器,获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
生成模块,根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;
三视图卷积层,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
提取模块,根据所述第三特征张量,提取目标。
相应的,所述栅格特征提取器,包括:
全连接层模块:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
最大池化操作模块:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
首尾连接模块,首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
栅格特征生成模块,根据第一子特征向量进一步经过所述全连接层模块、最大池化操作模块对应的全连接层以及最大池化操作,生成所述第一特征向量。
相应的,所述第二特征张量为一四维特征张量;
所述栅格特征提取器,包括:将所述点云数据划分为统一大小的栅格。
相应的,所述三视图卷积层包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈RD′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
其中,F为卷积核,si,j,k为第二特征张量S在(i,j,k)位置上的元素,S1为卷积得到的第三特征张量,为第三特征张量S1在(i,j,k)位置上的元素,⊙表示点乘。
相应的,所述提取模块包括:
区域候选模块,将所述第三特征张量输入到区域候选网络,生成多个区域候选框;
目标确定模块,获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
根据本申请的第三方面,提出了一种行人检测方法,所述方法应用于无人驾驶场景,所述方法包括上述相应的任意一项所述的目标检测方法,所述行人设定为检测目标。
根据本申请的第四方面,提出了一种行人检测系统,所述系统应用于无人驾驶场景,所述系统包括上述相应的任意一项所述的目标检测装置,所述行人设定为检测目标。
由以上技术方案可见,本申请在针对无人驾驶场景下行人目标识别精度不高的技术问题,该方法首先将点云所在的三维空间分割成一个个的栅格,再将每个栅格里的点通过栅格特征提取器,整合成一个特征向量,紧接着结合这些栅格的三维坐标信息,将一幅图的点云数据融合成一个四维的第二特征张量;其中栅格里的点整合成的特征向量的维度作为通道处理。在处理第二特征张量时,本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作的方法,其能提取到更为精细的目标形状信息,从而实现更精确的目标提取。
附图说明
图1为本发明实施例一的目标检测方法流程图;
图2为本发明实施例一的目标检测方法中所述提取栅格的第一特征向量的流程图;
图3为本发明实施例一的三视图卷积效果图;
图4为本发明实施例一的区域候选网络结构图;
图5为本发明实施例二的目标检测装置结构;
图6为本发明实施例二的栅格特征提取器结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明实施例一种目标检测方法,包括:
获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
所述根据所述点云数据划分栅格,包括:所述点云数据划分为统一大小的栅格。
相应的,栅格特征提取,通过定义点云的三维空间Z、Y、X轴上的范围为D、H、W,栅格三个维度为vD,vH,vW,划分三维空间为统一大小的栅格之后,可得到为栅格在三坐标上的个数。
如图2所示,所述提取栅格的第一特征向量,包括:
(1)全连接层:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
相应的,每个栅格内的点经过栅格特征编码层:首先每个点是由三坐标组成的三维向量,这些向量经过全连接层,转换为进一步的特征:
Y=WYX
其中WY为全连接层的权重矩阵,X为栅格内点列向量组成的矩阵,Y∈Rm×n;为进一步的特征。
(2)最大池化操作:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
相应的,再通过最大池化操作提取局部特征:
(3)首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
相应地,该局部特征YL与上一步的特征Y首尾连接起来,组成特征向量:
(4)根据第一子特征向量进一步经过步骤(1)、(2)对应的全连接层以及最大池化操作,生成所述第一特征向量。
经过栅格特征编码层之后,特征向量YC再次经过全连接层和最大池化操作:
如此,每个栅格都可以表示成一个m维向量。
本实施,根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;所述第二特征张量为一四维特征张量;
具体地,通过结合每个栅格的三维坐标信息,点云空间即表示成一个4维的特征张量T∈Rm×D′×H′×W′
本实施,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
所述根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量,包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈RD′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
其中,F为卷积核,si,j,k为第二特征张量S在(i,j,k)位置上的元素,S1为卷积得到的第三特征张量,为第三特征张量S1在(i,j,k)位置上的元素,⊙表示点乘。
相应的,三视图卷积层是用作中间隐藏层,用于提取更为精细且更抽象的特征。三视图包括前视图、侧视图、俯视图,对于特征张量来讲,除去作为通道的维度,三视图卷积在其余三个维度上同时进行二维卷积核的滑动,固定特征张量T任意一个通道,得到一个三维张量S∈RD′×H′×W′,以俯视图卷积为例:
其中,W为卷积核,si,j,k为特征张量S在(i,j,k)位置上的元素,S1为卷积得到的张量,为特征张量S1在(i,j,k)位置上的元素,⊙表示点乘。
三视图卷积各自提取到相同维度大小的特征张量T1,T2,T3∈RC×D′×H′×W′然后将这三个张量在连接通道维度之后整合成一个特征张量TC∈R3C×D′×H′×W′
如图3所示,三视图卷积对于三维卷积的改进在于,三维卷积是用三维的滤波器对四维张量做卷积操作,其滑动的方式是在深度、高度、宽度三个维度上进行滑动,而三视图卷积是用二维的滤波器在水平面、前垂直面、侧垂直面上进行滑动,并且还会在垂直于滑动面的方向上进行移动,保证得到三个视图的相同大小维度的特征张量。
根据所述第三特征张量,提取目标。所述根据所述第三特征张量提取目标,包括:
将所述第三特征张量输入到区域候选网络,生成多个区域候选框;
获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
具体地,经过了两次三视图卷积层之后,提取到的特征输入到区域候选网络里,用于生成多个区域候选框,这些框标示了目标的位置和大小,并且根据其与真实的框重叠部分的比例大小判断这些框的优劣,分数最高即重叠比例最高的作为最后检测的结果。
本实施例,如图4所示,区域候选网络是一个编码-解码框架,编码部分由卷积层堆叠组成,相对的,解码部分则由反卷积层堆叠组成。其中,Conv2D表示2维卷积,Deconv2D表示2维反卷积。经过两次三视图卷积层之后得到更高层次的特征,该特征输入到区域候选网络用于生成候选框概率分数图和候选框回归图。概率分数图的数值表示候选框被选用的概率,而回归图则用于确定候选框的大小及位置。
对于三视图卷积层提取到的特征,该特征为4维张量,将代表通道数的维度和深度的维度合成一个维度,新的维度则作为通道数,因此该特征调整为三维的特征。该三维特征也是多张二维特征图的叠加,而特征图的数量就是通道数。由于原始图片上面的物体(车,人)都有对应的3维框信息作为标签,目标检测任务的最终目的也是框出图片中的所有目标,因此,区域候选网络即是通过输入的这些特征图来生成目标区域的框。
本实施例,具体地,每张特征图维度为H′×W′,特征图经过如图4所示的区域候选网络,前半部分为编码部分,由二维卷积(Conv2D)组成,一步步下采样得到编码信息;后半部分为解码部分,由二维反卷积(Deconv2D)组成,将编码信息通过上采样逐步解码成更高层次的特征。该特征除了包含由编码-解码逐步提取的特征外,还包括了对编码部分第二层特征和第三层特征分别进行直接解码得到的特征。由此得到的特征张量再通过全连接层输出高度提取的特征,紧接着该特征经过两个1x1卷积层可分别得到概率分数图和回归图。
回归图维度为14×(H′/2)×(W′/2),第一个维度表示目标包围框的坐标、宽度、高度等参数信息,而概率分数图维度为2×(H′/2)×(W′/2),第一个维度表示该点在回归图上对应的点的目标包围框包含了目标的概率分数,以及包含的不是目标的概率分数。结合回归图、概率分数图就可以得到包含目标的概率分数最高的候选框,作为区域候选网络最终预测的目标包围框。
实施例二
如图4所示,本发明实施例一种目标检测装置,包括:
栅格特征提取器,获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
所述栅格特征提取器,包括:将所述点云数据划分为统一大小的栅格。
相应的,栅格特征提取器,通过定义点云的三维空间Z、Y、X轴上的范围为D、H、W,栅格三个维度为vD,vH,vW,划分三维空间为统一大小的栅格之后,可得到为栅格在三坐标上的个数。
如图6所示,为本实施的栅格特征提取器,包括:
全连接层模块:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
相应的,每个栅格内的点经过栅格特征编码层:首先每个点是由三坐标组成的三维向量,这些向量经过全连接层,转换为进一步的特征:
Y=WYX
其中WY为全连接层的权重矩阵,X为栅格内点列向量组成的矩阵,Y∈Rm×n为进一步的特征。
最大池化操作模块:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
相应的,再通过最大池化操作提取局部特征:
首尾连接模块,首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
相应地,该局部特征YL与上一步的特征Y首尾连接起来,组成特征向量:
栅格特征生成模块,根据第一子特征向量进一步经过所述全连接层模块、最大池化操作模块对应的全连接层以及最大池化操作,生成所述第一特征向量。
经过栅格特征编码层之后,特征向量YC再次经过全连接层和最大池化操作:
如此,每个栅格都可以表示成一个m维向量。
生成模块,根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;所述第二特征张量为一四维特征张量;
具体地,通过结合每个栅格的三维坐标信息,点云空间即表示成一个4维的特征张量T∈Rm×D′×H′×W′
三视图卷积层,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
相应的,所述三视图卷积层,包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈RD′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
其中,F为卷积核,si,j,k为第二特征张量S在(i,j,k)位置上的元素,S1为卷积得到的第三特征张量,为第三特征张量S1在(i,j,k)位置上的元素,⊙表示点乘。
相应的,三视图卷积层是用作中间隐藏层,用于提取更为精细且更抽象的特征。三视图包括前视图、侧视图、俯视图,对于特征张量来讲,除去作为通道的维度,三视图卷积在其余三个维度上同时进行二维卷积核的滑动,固定特征张量T任意一个通道,得到一个三维张量S∈RD′×H′×W′,以俯视图卷积为例:
其中,W为卷积核,si,j,k为特征张量S在(i,j,k)位置上的元素,S1为卷积得到的张量,为特征张量S1在(i,j,k)位置上的元素,⊙表示点乘。
三视图卷积各自提取到相同维度大小的特征张量T1,T2,T3∈RC×D′×H′×W′然后将这三个张量在连接通道维度之后整合成一个特征张量TC∈R3C×D′×H′×W′
本实施,通过三视图卷积对于三维卷积的改进在于,三维卷积是用三维的滤波器对四维张量做卷积操作,其滑动的方式是在深度、高度、宽度三个维度上进行滑动,而三视图卷积是用二维的滤波器在水平面、前垂直面、侧垂直面上进行滑动,并且还会在垂直于滑动面的方向上进行移动,保证得到三个视图的相同大小维度的特征张量。
提取模块,根据所述第三特征张量,提取目标。
相应地,所述提取模块包括:区域候选模块,将所述第三特征张量输入到区域候选网络,生成多个区域候选框;目标确定模块,获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
具体地,经过了两次三视图卷积层之后,提取到的特征输入到区域候选网络里,用于生成多个区域候选框,这些框标示了目标的位置和大小,并且根据其与真实的框重叠部分的比例大小判断这些框的优劣,分数最高即重叠比例最高的作为最后检测的结果。
本实施例,区域候选网络是一个编码-解码框架,编码部分由卷积层堆叠组成,相对的,解码部分则由反卷积层堆叠组成。
如图4所示,区域候选网络是一个编码-解码框架,编码部分由卷积层堆叠组成,相对的,解码部分则由反卷积层堆叠组成。其中,Conv2D表示2维卷积,Deconv2D表示2维反卷积。经过两次三视图卷积层之后得到更高层次的特征,该特征输入到区域候选网络用于生成候选框概率分数图和候选框回归图。概率分数图的数值表示候选框被选用的概率,而回归图则用于确定候选框的大小及位置。
对于三视图卷积层提取到的特征,该特征为4维张量,将代表通道数的维度和深度的维度合成一个维度,新的维度则作为通道数,因此该特征调整为三维的特征。该三维特征也是多张二维特征图的叠加,而特征图的数量就是通道数。由于原始图片上面的物体(车,人)都有对应的3维框信息作为标签,目标检测任务的最终目的也是框出图片中的所有目标,因此,区域候选网络即是通过输入的这些特征图来生成目标区域的框。
具体地,每张特征图维度为H′×W′,特征图经过如图4所示的区域候选网络,前半部分为编码部分,由二维卷积(Conv2D)组成,一步步下采样得到编码信息;后半部分为解码部分,由二维反卷积(Deconv2D)组成,将编码信息通过上采样逐步解码成更高层次的特征。该特征除了包含由编码-解码逐步提取的特征外,还包括了对编码部分第二层特征和第三层特征分别进行直接解码得到的特征。由此得到的特征张量再通过全连接层输出高度提取的特征,紧接着该特征经过两个1x1卷积层可分别得到概率分数图和回归图。
回归图维度为14×(H′/2)×(W′/2),第一个维度表示目标包围框的坐标、宽度、高度等参数信息,而概率分数图维度为2×(H′/2)×(W′/2),第一个维度表示该点在回归图上对应的点的目标包围框包含了目标的概率分数,以及包含的不是目标的概率分数。结合回归图、概率分数图就可以得到包含目标的概率分数最高的候选框,作为区域候选网络最终预测的目标包围框。
实施例三
本实施提供一种行人检测方法,所述方法应用于无人驾驶场景,所述方法包括使用上述实施例一实施的所述的目标检测方法,其中,将所述行人设定为检测目标,实现所述目标的检测实施。
实施例四
本实施提供一种行人检测系统,所述系统应用于无人驾驶场景,所述系统包括使用上述实施例一实施的所述的目标检测装置,其中,将所述行人设定为检测目标,实现所述目标的检测实施。
本发明上述实施例实施的目标检测方法、装置以及行人检测方法、系统,通过将点云所在的三维空间分割成一个个的栅格,再将每个栅格里的点通过栅格特征提取器,整合成一个特征向量,紧接着结合这些栅格的三维坐标信息,将一幅图的点云数据融合成一个四维的第二特征张量;其中栅格里的点整合成的特征向量的维度作为通道处理。在处理第二特征张量时,本发明提出了一种三视图卷积层实现对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作的方法,其能提取到更为精细的目标形状信息,从而实现更精确的目标提取。
本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种目标检测方法,其特征在于,包括:
获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;
根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
根据所述第三特征张量,提取目标。
2.根据权利要求1所述的目标检测方法,其特征在于,所述提取栅格的第一特征向量,包括:
(1)全连接层:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
(2)最大池化操作:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
(3)首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
(4)根据第一子特征向量进一步经过步骤(1)、(2)对应的全连接层以及最大池化操作,生成所述第一特征向量。
3.根据权利要求1所述的目标检测方法,其特征在于,所述第二特征张量为一四维特征张量;
所述根据所述点云数据划分栅格,包括:所述点云数据划分为统一大小的栅格。
4.根据权利要求1所述的目标检测方法,其特征在于,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量,包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈RD′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
其中,F为卷积核,si,j,k为第二特征张量S在(i,j,k)位置上的元素,S1为卷积得到的第三特征张量,为第三特征张量S1在(i,j,k)位置上的元素,⊙表示点乘。
5.根据权利要求4所述的目标检测方法,其特征在于,所述根据所述第三特征张量提取目标,包括:
将所述第三特征张量输入到区域候选网络,生成多个区域候选框;
获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
6.一种目标检测装置,其特征在于,包括:
栅格特征提取器,获取图像的三维点云数据,根据所述点云数据划分栅格,并获取每个栅格对应的三维坐标,提取栅格的第一特征向量;
生成模块,根据所述第一特征向量、所述栅格的三维坐标生成第二特征张量;
三视图卷积层,根据第二特征张量进行三视图卷积,获得三个视图的相同大小维度的第三特征张量;所述三视图包括前视图、侧视图、俯视图;
提取模块,根据所述第三特征张量,提取目标。
7.根据权利要求6所述的目标检测装置,其特征在于,所述栅格特征提取器,包括:
全连接层模块:根据栅格内点列向量生成的第一栅格矩阵,经过全连接层,生成全连接栅格特征;
最大池化操作模块:对所述全连接栅格特征执行最大池化操作,提取栅格局部特征;
首尾连接模块,首尾连接所述栅格局部特征、全连接栅格特征,组成第一子特征向量;
栅格特征生成模块,根据第一子特征向量进一步经过所述全连接层模块、最大池化操作模块对应的全连接层以及最大池化操作,生成所述第一特征向量。
8.根据权利要求6所述的目标检测装置,其特征在于,所述第二特征张量为一四维特征张量;
所述栅格特征提取器,包括:将所述点云数据划分为统一大小的栅格。
9.根据权利要求6所述的目标检测装置,其特征在于,所述三视图卷积层包括:
(1)固定第二特征张量任意一个通道,得到三维张量S∈RD′×H′×W′;所述D′,H′,W′分别为栅格在三维坐标上的个数;
(2)对应于前视图、侧视图、俯视图三视图,对前垂直面、侧垂直面、水平面,执行卷积操作:
其中,F为卷积核,si,j,k为第二特征张量S在(i,j,k)位置上的元素,S1为卷积得到的第三特征张量,为第三特征张量S1在(i,j,k)位置上的元素,⊙表示点乘。
10.根据权利要求9所述的目标检测装置,其特征在于,所述提取模块包括:区域候选模块,将所述第三特征张量输入到区域候选网络,生成多个区域候选框;目标确定模块,获取所述多个区域候选框与真实的目标框的重叠比例大小,将重叠比例最高区域候选框的确定为最后目标检测的结果。
11.一种行人检测方法,所述方法应用于无人驾驶场景,其特征在于,所述方法包括权利要求1-5任意一项所述的目标检测方法,所述行人设定为检测目标。
12.一种行人检测系统,所述系统应用于无人驾驶场景,其特征在于,所述系统包括权利要求6-10任意一项所述的目标检测装置,所述行人设定为检测目标。
CN201811537033.4A 2018-12-14 2018-12-14 一种目标检测方法、装置以及行人检测方法、系统 Active CN109753885B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811537033.4A CN109753885B (zh) 2018-12-14 2018-12-14 一种目标检测方法、装置以及行人检测方法、系统
PCT/CN2019/124189 WO2020119661A1 (zh) 2018-12-14 2019-12-10 一种目标检测方法、装置以及行人检测方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811537033.4A CN109753885B (zh) 2018-12-14 2018-12-14 一种目标检测方法、装置以及行人检测方法、系统

Publications (2)

Publication Number Publication Date
CN109753885A true CN109753885A (zh) 2019-05-14
CN109753885B CN109753885B (zh) 2020-10-16

Family

ID=66403796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811537033.4A Active CN109753885B (zh) 2018-12-14 2018-12-14 一种目标检测方法、装置以及行人检测方法、系统

Country Status (2)

Country Link
CN (1) CN109753885B (zh)
WO (1) WO2020119661A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079652A (zh) * 2019-12-18 2020-04-28 北京航空航天大学 一种基于点云数据简易编码的3d目标检测方法
CN111144242A (zh) * 2019-12-13 2020-05-12 中国科学院深圳先进技术研究院 一种三维目标检测方法、装置及终端
WO2020119661A1 (zh) * 2018-12-14 2020-06-18 中国科学院深圳先进技术研究院 一种目标检测方法、装置以及行人检测方法、系统
CN111402256A (zh) * 2020-04-13 2020-07-10 视研智能科技(广州)有限公司 一种基于模板的三维点云目标检测和姿态估计方法
CN111476242A (zh) * 2020-03-31 2020-07-31 北京经纬恒润科技有限公司 一种激光点云语义分割方法及装置
CN111881912A (zh) * 2020-08-19 2020-11-03 Oppo广东移动通信有限公司 数据处理方法、装置以及电子设备
CN112184867A (zh) * 2020-09-23 2021-01-05 中国第一汽车股份有限公司 点云特征提取方法、装置、设备及存储介质
CN112307826A (zh) * 2019-07-30 2021-02-02 华为技术有限公司 行人检测方法、装置、计算机可读存储介质和芯片
CN112613378A (zh) * 2020-12-17 2021-04-06 上海交通大学 3d目标检测方法、系统、介质及终端
CN113095228A (zh) * 2021-04-13 2021-07-09 地平线(上海)人工智能技术有限公司 图像中的目标检测方法、装置及计算机可读存储介质
CN113705631A (zh) * 2021-08-10 2021-11-26 重庆邮电大学 一种基于图卷积的3d点云目标检测方法
CN113971221A (zh) * 2020-07-22 2022-01-25 上海商汤临港智能科技有限公司 一种点云数据的处理方法、装置、电子设备及存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001226B (zh) * 2020-07-07 2024-05-28 中科曙光(南京)计算技术有限公司 一种无人驾驶3d目标检测方法、装置及存储介质
CN111832471B (zh) * 2020-07-10 2024-04-12 北京经纬恒润科技股份有限公司 一种物体识别方法及装置
CN112270289A (zh) * 2020-07-31 2021-01-26 广西科学院 一种基于图卷积注意力网络的智能监测方法
CN112183393A (zh) * 2020-09-30 2021-01-05 深兰人工智能(深圳)有限公司 激光雷达点云目标检测方法、系统及装置
CN112270332A (zh) * 2020-11-12 2021-01-26 武汉科技大学 一种基于子流稀疏卷积的三维目标检测方法及系统
CN113506372A (zh) * 2021-07-26 2021-10-15 西北工业大学 一种环境重建方法及装置
CN117392337B (zh) * 2023-10-11 2024-04-05 中色地科矿产勘查股份有限公司 基于ai的数字化矿产勘查方法
CN118334278B (zh) * 2024-06-17 2024-08-27 之江实验室 一种点云数据处理方法、装置、存储介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016170333A1 (en) * 2015-04-24 2016-10-27 Oxford University Innovation Limited A method of detecting objects within a 3d environment
CN106408650A (zh) * 2016-08-26 2017-02-15 中国人民解放军国防科学技术大学 在轨掠飞成像对空间目标三维重建与测量方法
CN106973569A (zh) * 2014-05-13 2017-07-21 Pcp虚拟现实股份有限公司 生成和回放虚拟现实多媒体的方法、系统和装置
CN107067015A (zh) * 2016-10-27 2017-08-18 武汉烽火众智数字技术有限责任公司 一种基于多特征深度学习的车辆检测方法及装置
CN107330437A (zh) * 2017-07-03 2017-11-07 贵州大学 基于卷积神经网络目标实时检测模型的特征提取方法
CN107885224A (zh) * 2017-11-06 2018-04-06 北京韦加无人机科技股份有限公司 基于三目立体视觉的无人机避障方法
CN108960288A (zh) * 2018-06-07 2018-12-07 山东师范大学 基于卷积神经网络的三维模型分类方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298971B (zh) * 2014-09-28 2017-09-19 北京理工大学 一种3d点云数据中的目标识别方法
GB201616095D0 (en) * 2016-09-21 2016-11-02 Univ Oxford Innovation Ltd A neural network and method of using a neural network to detect objects in an environment
CN108764024B (zh) * 2018-04-09 2020-03-24 平安科技(深圳)有限公司 人脸识别模型的生成装置、方法及计算机可读存储介质
CN108596961B (zh) * 2018-04-17 2021-11-23 浙江工业大学 基于三维卷积神经网络的点云配准方法
CN109753885B (zh) * 2018-12-14 2020-10-16 中国科学院深圳先进技术研究院 一种目标检测方法、装置以及行人检测方法、系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106973569A (zh) * 2014-05-13 2017-07-21 Pcp虚拟现实股份有限公司 生成和回放虚拟现实多媒体的方法、系统和装置
WO2016170333A1 (en) * 2015-04-24 2016-10-27 Oxford University Innovation Limited A method of detecting objects within a 3d environment
CN106408650A (zh) * 2016-08-26 2017-02-15 中国人民解放军国防科学技术大学 在轨掠飞成像对空间目标三维重建与测量方法
CN107067015A (zh) * 2016-10-27 2017-08-18 武汉烽火众智数字技术有限责任公司 一种基于多特征深度学习的车辆检测方法及装置
CN107330437A (zh) * 2017-07-03 2017-11-07 贵州大学 基于卷积神经网络目标实时检测模型的特征提取方法
CN107885224A (zh) * 2017-11-06 2018-04-06 北京韦加无人机科技股份有限公司 基于三目立体视觉的无人机避障方法
CN108960288A (zh) * 2018-06-07 2018-12-07 山东师范大学 基于卷积神经网络的三维模型分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOZHI CHEN ET AL.: "Multi-View 3D Object Detection Network for Autonomous Driving", 《ARXIV:1611.07759V3 [CS.CV] 22 JUN 2017》 *
YIN ZHOU ET AL.: "VoxelNet:End-to-End Learning for Point Cloud Based 3D Object Detection", 《ARXIV:1711.06396V1 [CS.CV] 17 NOV 2017》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119661A1 (zh) * 2018-12-14 2020-06-18 中国科学院深圳先进技术研究院 一种目标检测方法、装置以及行人检测方法、系统
CN112307826A (zh) * 2019-07-30 2021-02-02 华为技术有限公司 行人检测方法、装置、计算机可读存储介质和芯片
CN111144242A (zh) * 2019-12-13 2020-05-12 中国科学院深圳先进技术研究院 一种三维目标检测方法、装置及终端
CN111144242B (zh) * 2019-12-13 2023-09-29 中国科学院深圳先进技术研究院 一种三维目标检测方法、装置及终端
CN111079652A (zh) * 2019-12-18 2020-04-28 北京航空航天大学 一种基于点云数据简易编码的3d目标检测方法
CN111079652B (zh) * 2019-12-18 2022-05-13 北京航空航天大学 一种基于点云数据简易编码的3d目标检测方法
CN111476242A (zh) * 2020-03-31 2020-07-31 北京经纬恒润科技有限公司 一种激光点云语义分割方法及装置
CN111476242B (zh) * 2020-03-31 2023-10-20 北京经纬恒润科技股份有限公司 一种激光点云语义分割方法及装置
CN111402256B (zh) * 2020-04-13 2020-10-16 视研智能科技(广州)有限公司 一种基于模板的三维点云目标检测和姿态估计方法
CN111402256A (zh) * 2020-04-13 2020-07-10 视研智能科技(广州)有限公司 一种基于模板的三维点云目标检测和姿态估计方法
CN113971221A (zh) * 2020-07-22 2022-01-25 上海商汤临港智能科技有限公司 一种点云数据的处理方法、装置、电子设备及存储介质
CN111881912A (zh) * 2020-08-19 2020-11-03 Oppo广东移动通信有限公司 数据处理方法、装置以及电子设备
CN112184867A (zh) * 2020-09-23 2021-01-05 中国第一汽车股份有限公司 点云特征提取方法、装置、设备及存储介质
CN112613378A (zh) * 2020-12-17 2021-04-06 上海交通大学 3d目标检测方法、系统、介质及终端
CN112613378B (zh) * 2020-12-17 2023-03-28 上海交通大学 3d目标检测方法、系统、介质及终端
CN113095228A (zh) * 2021-04-13 2021-07-09 地平线(上海)人工智能技术有限公司 图像中的目标检测方法、装置及计算机可读存储介质
CN113095228B (zh) * 2021-04-13 2024-04-30 地平线(上海)人工智能技术有限公司 图像中的目标检测方法、装置及计算机可读存储介质
CN113705631A (zh) * 2021-08-10 2021-11-26 重庆邮电大学 一种基于图卷积的3d点云目标检测方法
CN113705631B (zh) * 2021-08-10 2024-01-23 大庆瑞昂环保科技有限公司 一种基于图卷积的3d点云目标检测方法

Also Published As

Publication number Publication date
WO2020119661A1 (zh) 2020-06-18
CN109753885B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN109753885A (zh) 一种目标检测方法、装置以及行人检测方法、系统
Henderson et al. Leveraging 2d data to learn textured 3d mesh generation
Kuo et al. Mask2CAD: 3D shape prediction by learning to segment and retrieve
Li et al. Deep supervision with shape concepts for occlusion-aware 3d object parsing
US9633483B1 (en) System for filtering, segmenting and recognizing objects in unconstrained environments
US11514642B2 (en) Method and apparatus for generating two-dimensional image data describing a three-dimensional image
Rivera et al. Spatiotemporal directional number transitional graph for dynamic texture recognition
KR101555347B1 (ko) 비디오 기반 얼굴 애니메이션 생성 장치 및 방법
CN111241989A (zh) 图像识别方法及装置、电子设备
EP4365841A1 (en) Object pose detection method and apparatus, computer device, and storage medium
CN113706713A (zh) 一种实景三维模型裁剪方法、装置及计算机设备
Wang et al. SCNet: Subdivision coding network for object detection based on 3D point cloud
Sharma et al. Point cloud upsampling and normal estimation using deep learning for robust surface reconstruction
Song et al. [Retracted] Human Posture Recognition and Estimation Method Based on 3D Multiview Basketball Sports Dataset
CN111209811A (zh) 一种实时检测眼球注意力位置的方法及系统
CN105046689A (zh) 一种基于多层次图结构的交互式立体图像快速分割方法
Lee et al. Head and body orientation estimation using convolutional random projection forests
CN110349159A (zh) 基于权重能量自适应分布的三维形状分割方法及系统
JP6052533B2 (ja) 特徴量抽出装置および特徴量抽出方法
CN111353069A (zh) 一种人物场景视频生成方法、系统、装置及存储介质
CN115115815A (zh) 三维网格模型的特征提取网络的训练方法、装置和系统
Yao et al. Neural Radiance Field-based Visual Rendering: A Comprehensive Review
CN115810220A (zh) 一种手势识别方法、手势识别设备及存储介质
Krig et al. Global and Regional Features
Choudhury et al. Human detection using orientation shape histogram and coocurrence textures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant