CN112270332A - 一种基于子流稀疏卷积的三维目标检测方法及系统 - Google Patents
一种基于子流稀疏卷积的三维目标检测方法及系统 Download PDFInfo
- Publication number
- CN112270332A CN112270332A CN202011260387.6A CN202011260387A CN112270332A CN 112270332 A CN112270332 A CN 112270332A CN 202011260387 A CN202011260387 A CN 202011260387A CN 112270332 A CN112270332 A CN 112270332A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- voxel
- convolution
- target
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 73
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 abstract description 8
- 239000011159 matrix material Substances 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于子流稀疏卷积的三维目标检测方法及系统,该方法包括:获取目标场景的初始点云数据;基于初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;根据目标点云特征,对目标场景进行目标检测。本发明实施例构建了基于子流稀疏卷积的点云体素卷积神经网络提取方法,利用点云的稀疏性进行进一步的特征提取,能够更加高效的对局部信息进行深层提取,从而提高了三维目标检测的效率和精度。
Description
技术领域
本发明涉及机器人和计算机视觉技术领域,尤其涉及一种基于子流稀疏卷积的三维目标检测方法及系统。
背景技术
在自动驾驶和机器人领域中,经常需要直接获取和处理三维数据信息,三维数据信息比普通的二维数据信息多了深度信息,这些深度信息可以消除二维图像中的大量的分割不确定性,并且能够提供重要的几何信息。
从上世纪90年代开始,三维形状特征提取算法经历了20余年的发展,逐渐从手工特征提取过渡到深度学习。深度学习用于三维主要有四种方式:(a)基于多视图的卷积、(b)基于体素的卷积、(c)基于结构化的卷积和(d)对点云直接卷积。其中,基于直接处理点云的方法在2017年首次被提出来以后,近几年来备受关注。
一般的用于三维目标检测的卷积方式有两种:基于体素的卷积(Voxel-based)和对点云直接卷积(Point-based)。
以VoxNet为代表的基于体积的三维卷积将点云栅格化为体素网格,以体素为单位进行卷积,使用3D滤波器来训练CNN。对于体素卷积,在将点云变为体素的过程中,信息的丢失程度与体素分辨率的大小有关。随着体素分辨率的增加,计算量和内存占用是三次方增加的。所以分辨率设置高会导致计算成本和内存需求增加,分辨率降低则会导致信息丢失,很难去平衡分辨率和计算成本以及内存需求。2017年斯坦福大学提出PointNet,使得网络可以直接处理点云,PointNet网络是直接对每个点进行卷积,仅仅将每个点不断从低维到高维提取信息,并没有对点的邻域信息做任何处理。之后的改进方法对点云直接卷积的方法在提取局部信息时需要搜索近邻点,近邻点的搜索往往会花费过多的时间。
点体素卷积神经网络(简称PVCNN)提出将两种方法结合到一起,使用Point-based的方法提取全局特征,使用低分辨率的Voxel-based来提取局部特征,这种方法被称为PVCNN方法。PVCNN很好的解决了上述两种卷积方法的缺点,但是利用PVCNN方法进行目标检测时,检测效率依然不高,并且由于PVCNN方法对内存占用率较高,从而导致对硬件要求较高。
发明内容
本发明提供一种基于子流稀疏卷积的三维目标检测方法及系统,用以解决现有技术中PVCNN方法效率低、占用内存空间大的缺陷,实现快速高效的三维目标检测。
本发明提供一种基于子流稀疏卷积的三维目标检测方法,包括:
获取目标场景的初始点云数据;
基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
根据所述目标点云特征,对所述目标场景进行目标检测。
根据本发明提供一种的基于子流稀疏卷积的三维目标检测方法,所述优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到,具体包括:
在所述点云体素卷积神经网络中利用所述子流稀疏卷积进行局部特征提取。
根据本发明提供一种的基于子流稀疏卷积的三维目标检测方法,所述基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,具体包括:
将归一化后的初始点云数据转换为体素;
利用所述子流稀疏卷积提取所述体素的局部信息,获取局部特征;
对所述局部特征进行解体素化,获取所述目标点云特征。
根据本发明提供一种的基于子流稀疏卷积的三维目标检测方法,所述将归一化后的初始点云数据转换为体素之前还包括:
对所述初始点云数据进行归一化,获取归一化后的初始点云数据。
根据本发明提供一种的基于子流稀疏卷积的三维目标检测方法,所述子流稀疏卷积的具体计算公式如下:
其中,yk表示局部特征,input(xi)表示输入,K(xk,xi)表示卷积核。
根据本发明提供一种的基于子流稀疏卷积的三维目标检测方法,所述将归一化后的初始点云数据转换为体素,具体计算公式如下:
其中,r表示体素分辨率,Π[·]表示归一化后的坐标是否属于体素网格(n,v,w)的二进制表示,fk,c表示对应于相关的第c个通道特征,Nu,v,w表示归一化因子,(u,v,w)表示归一化后的坐标落入体素网格的坐标。
本发明还提供一种基于子流稀疏卷积的三维目标检测系统,包括:
点云获取模块,用于获取目标场景的初始点云数据;
特征提取模块,用于基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
目标检测模块,用于根据所述目标点云特征,对所述目标场景进行目标检测。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于子流稀疏卷积的三维目标检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于子流稀疏卷积的三维目标检测方法的步骤。
本发明实施例提供的一种基于子流稀疏卷积的三维目标检测方法及系统,构建了基于子流稀疏卷积的点云体素卷积神经网络提取方法,利用点云的稀疏性进行进一步的特征提取,能够更加高效的对局部信息进行深层提取,相比于原PVCNN方法,优化后的PVCNN方法在处理高复杂性且极具挑战性的大场景点云数据时不仅可以保证时间效率而且可以兼顾其准确性,从而提高了三维目标检测的效率和精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于子流稀疏卷积的三维目标检测方法的流程图;
图2为本发明实施例中通过PVCNN方法进行特征提取的过程示意图;
图3为本发明实施例中子流稀疏卷积的特征提取过程示意图;
图4为本发明提供的一种基于子流稀疏卷积的三维目标检测系统的结构示意图;
图5为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例为了解决PVCNN方法在局部特征提取部分表现欠佳以及时间效率和GPU内存占用大,从而导致目标检测效率低并且精度不高的问题。
参考子流稀疏卷积,提出一种更加快速、内存占用低的PVCNN改进方法,用更新哈希表和特征矩阵的子流稀疏卷积方法,替代现有PVCNN方法上简单的体素卷积,实现对大场景,稀疏点云的快速、有效的特征提取,从而应用于目标检测。
在本发明实施例中,子流稀疏卷积被用来代替现有的局部特征融合方法,提出一种子流稀疏卷积改进的PVCNN方法来高效地对Point-based分支上每个点地邻域信息实现局部特征提取。由于本发明实施例所提方法的优越性,相比于原三维网络,替换改造后的三维网络在处理高复杂性且极具挑战性的大场景点云数据时不仅可以保证时间效率而且可以兼顾其准确性。
本发明实施例提供一种基于子流稀疏卷积的三维目标检测方法,如图1所示,该方法包括:
S1,获取目标场景的初始点云数据;
当需要对某个目标场景进行检测时,该目标场景可以是视频也可以是图像,需要获取目标场景相关的点云数据,也就是初始点云数据,初始点云数据可以是通过深度相机采集得到,也可以是通过其它单目成像系统、双目成像系统合成得到的,常见的深度相机有Kinect相机和TOF相机。
S2,基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
将初始点云数据输入到优化后的点云体素卷积神经网络,得到目标点云特征,需要说明的是,初始点云数据中只有像素点的三维坐标信息,并不包含其它额外的信息,目标点云特征也包含很多点云数据,除了包含三维坐标信息外,还包含其它类别信息,比如目标场景通常分为背景和前景,目标点云特征中就包含点的类别的特征信息,通过进一步的处理可以判断该点是属于背景还是前景。
针对三维视觉领域,常常需要处理大规模实际点云数据,并且需要使用网络对三维目标进行检测,常见的融合近邻点信息会采用采样、分组和融合的方式,但是近邻点搜索算法往往需要耗费大量的时间,并且还会存在动态卷积核的问题。
针对该问题,本发明实施例中使用优化后的点云体素卷积神经网络,使用子流稀疏卷积来代替采样和融合,本发明实施例从点云的稀疏性这一特性出发,使用子流稀疏卷积改造PVCNN方法来构建网络。
如图2所示,本发明实施例中优化后的PVCNN方法有两个分支:基于PointNet的Point-based主干网络来提取全局特征,使用子流稀疏卷积改进的Voxel-based分支PVSConv用于提取局部特征。
传统的PVCNN方法分为两个分支,基于体素的分支首先将这些点转换为低分辨率的体素网格,通过基于体素的卷积将近邻点聚合,然后进行解体素将其转换为稀疏的点结构。基于点的Point-based分支为每个单个点提取特征,由于它不汇总邻域信息,所以不会占用很大的内存。通过基于体素的Voxel-based分支来融合邻域信息,提取局部特征,由于体素化和解体素化只对点进行一次扫描,从而降低了内存成本。
与传统的PVCNN方法相比,优化后的PVCNN方法考虑到了点云的稀疏性,从而可以高效的实现局部特征提取。
S3,根据所述目标点云特征,对所述目标场景进行目标检测。
根据该目标点云特征,由于包含点云的类别信息,以对目标场景进行检测。
综上,本发明实施例提供的一种基于子流稀疏卷积的三维目标检测方法,构建了基于子流稀疏卷积的点云体素卷积神经网络提取方法,利用点云的稀疏性进行进一步的特征提取,能够更加高效的对局部信息进行深层提取,相比于原PVCNN方法,优化后的PVCNN方法在处理高复杂性且极具挑战性的大场景点云数据时不仅可以保证时间效率而且可以兼顾其准确性,从而提高了三维目标检测的效率和精度。
在上述实施例的基础上,优选地,所述优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到,具体包括:
在所述点云体素卷积神经网络中利用所述子流稀疏卷积进行局部特征提取。
具体地,本发明实施例中利用子流稀疏卷积对点云体素卷积神经网络进行改进,具体是利用子流稀疏卷积代替点云体素卷积神经网络中的体素卷积,原有的PVCNN方法在体素卷积是只是简单的将体素块进行融合,没有利用稀疏性做进一步的特征提取,在局部特征时没有进行更高效的深层特征提取,从而导致传统PVCNN方法在目标检测上的表现欠佳。
本发明实施例中,利用子流稀疏卷积,充分考虑到了点云的稀疏性和点云之间的相关性,提高了优化后的PVCNN方法的时间效率,并减少了对GPU的内存占用,降低了对硬件的要求。
在上述实施例的基础上,优选地,所述基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,具体包括:
将归一化后的初始点云数据转换为体素;
利用所述子流稀疏卷积提取所述体素的局部信息,获取局部特征;
对所述局部特征进行解体素化,获取所述目标点云特征。
具体地,优化后的点云体素卷积神经网络进行特征提取包括如下几个步骤:
1、体素化,将归一化后的初始点云数据转换为体素。
将点云数据转换为体素网格后,会应用3D体积卷积堆叠来聚合特征。类似于常规3D体素卷积模型,并在每个3D卷积之后应用批归一化和非线性激活函数之后进行解体素,解体素的方法是利用三线性插值将体素网格转换为点,以确保映射到每个点的特征是不同的。
2、利用子流稀疏卷积提取体素的局部信息,得到局部特征。
子流稀疏卷积对特征融合进行改进,进一步提取点的局部信息,利用子流稀疏卷积在时间上的效率和降低网络的GPU内存占用,经过测试,网络减少一层后,在ShapeNet上的结果MIou从85.65%变为84.32%。改进方法是在局部特征提取时进一步使用子流稀疏卷积高效提取点的局部特征来替代传统PVCNN方法的简单体素卷积,同时减少Point-based分支的网络层数使得网络更加轻量级。
3、对所述局部特征进行解体素化,获取所述目标点云特征。
接着对局部特征进行解体素化,从图2中可以看出,第2步中得到的局部特征为体素特征,需要将其转换为点云,因此,对体素特征进行解体素化,得到目标点云特征。
在上述实施例的基础上,优选地,所述将归一化后的初始点云数据转换为体素之前还包括:
对所述初始点云数据进行归一化,获取归一化后的初始点云数据。
归一化是在将初始点云数据转换为体积域之前,对点云的坐标{pk}先进行归一化,将所有点转换为以重心为原点的局部坐标系,之后,通过将所有坐标除以Max||pk||2,将点云归一化为单位球面,然后缩放并将点转化为[0,1]区间范围。
接着将点云数据转换为体素,具体转换公式如下:
其中,r表示体素,Π[·]表示归一化后的坐标是否属于体素网格(n,v,w)的二进制表示,fk,c表示对应于相关的第c个通道特征,Nu,v,w表示归一化因子,(u,v,w)表示归一化后的坐标落入体素网格的坐标。
由于体素分辨率r设置很小,所以不会引入很大的内存占用。
在上述实施例的基础上,优选地,所述子流稀疏卷积的计算公式如下:
其中,yk表示局部特征,input(xi)表示输入,K(xk,xi)表示卷积核。
VSC表示要进行局部特征提取的操作,将输入的多个邻域信息定义为input(xi),将卷积核K(xk,xi)做改进的子流稀疏卷积,最后生成相应的输出。
在进行三维卷积时,本发明实施例使用子流稀疏卷积,在提取深层的局部信息时,本发明利用点云本身是稀疏的这一特点,使用子流稀疏卷积,可以极大提高卷积的效率,子流稀疏卷积适用于高效处理目标检测这样的问题。传统的卷积网络实现方法针对填充点稠密网格的数据进行了优化,无法有效处理稀疏数据。传统的PVCNN方法在体素卷积时简单的使用应用3D体积卷积的堆栈来聚合邻域范围内的其他信息。而本发明实施例则在融合邻域信息时使用进行子流稀疏卷积得到一个更加深层的特征信息,替代一般的体素卷积,达到期望结果。
如图3所示,子流稀疏卷积(submanifold sparse convolutional networks,简称SSCNs)使用子流稀疏卷积来固定活动站点的位置,将体素化的结果看成块状的体素模型。将输入/隐藏层的状态使用哈希表和特征稀疏矩阵来存储,为了使稀疏性对于许多层保持不变,卷积会对空值补零,并且进行padding处理以保持体素的大小不发生改变,在卷积后对非激活点置零保持体素的稀疏性特征。
先将原始的体素块非零的特征和位置信息用哈希表和矩阵存储起来,称其为活动点(activate site),矩阵的每一行用来记录活动点的位置。每一行存放一个活动点的特征值。
如果输入大小是a×m,则表示有a个活动点,每个点有m个特征值。执行下面操作,先初始化输入矩阵和输入哈希表,在VSC操作中进行卷积运算和动态创建输出矩阵和哈希表格。
VSC的具体的操作如下,input(xi)包含两个值:input_marix记录每个点的特征值,input_hash_table代表输入哈希表。VSC的操作分为初始化和动态计算。
初始化会对每个点计算初始特征矩阵和哈希表。输入的特征矩阵的每一行用来记录活动点的位置。每一行存放一个活动点的特征值。特征矩阵的大小为a×m,表示有a个活动点,每个点有m个特征值。哈希表包含所有活动点的位置、行映射,位置是整数坐标的元组,行号表示特征矩阵中对应的行。
动态计算则会动态创建输出矩阵和哈希表格,并且对每次卷积创建规则表(ruletable),具体包含三个步骤:
第一步,对输入进行填充,以避免卷积使得每层的大小发生变化,padding大小由卷积核大小决定,f代表卷积核的大小:
padding=(f-1)/2,
第二步,将outmatrix的值置零,从rulebook找到输入的索引和输出的索引对,并且从inputmatrix中得到输入行的位置,通过input matrix还可以找到特征值,inputmatrix每一行对应一个点,大小为1×m,和大小m×n的卷积核相乘,得到大小为1×n的输出值outputvalue,并写入outputmatrix。
第三步,计算active site和丢弃非activate site,当输出最中间的点是activesite,则这个output site是active site,对非activate site进行丢弃。
稀疏卷积输出的张量尺寸和输入张量是一样的,输出会越来越大,原本零值的地方会受有值区域的影响而卷积出非零值,为了维护原特征的稀疏性,就把之前为0的区域再设置为零,即强制清零,它要比普通卷积的运算复杂度小。
和PVCNN方法不同,因为数据是稀疏的,没必要对空洞位置使用激活函数,所以只对有值的位置使用激活函数,减少了一部分的网络消耗。多次进行这样的稀疏卷积再进行后面的平均池化并输入到下一层重新构建体素并进行稀疏卷积。
综上,本发明实施例采用子流稀疏卷积对局部信息进行处理的优化后的PVCNN方法,通过更新哈希表和特征矩阵的方式来实现快速、低内存占用的卷积,从而更加高效和深层地提取点云的局部特征。
基于点云的稀疏性特点和PVCNN方法提出的本申请中优化后的PVCNN方法,可以有效地利用体素卷积来提取局部特征和利用基于点的方法提取全局特征。从而在一个高时间效率和低内存占用的情况下实现有效的三维数据的特征提取,从而提高了三维目标检测的检测效率,并降低了对内存硬件的要求。
下面通过KITTI数据集对本发明实施例提供的方法进行3D目标检测的验证。
本发明实施例在面向驾驶的数据集KITTI上进行了目标检测的实验。表1为本发明实施例在KITTI上进行目标检测的对比表,如表1所示,从训练集中构造验证集,验证集中没有和训练集重合的数据。验证集的大小为3769个。和PVCNN一样,用PVS-Conv替换F-PointNet实例分割网络中的MLP层,并保持主干网络不变,将模型与F-PointNet(其骨干是PointNet)和F-PVCNN(其骨干是PVCNN)进行了比较。本申请评估所有模型20次,取其平均3D精度(mAP)。
表1
根据表1的结果,在目标检测上,和之前的方法相比,本申请达到全面最优。在九个类别上,本申请所有类别的平均3D精度都在三大类的不同难度上均为最高,在时间效率以及GPU占用上模型接近PointNet,时间上比F-PVCNN快了0.7倍,并且GPU内存占用上也略低于PVCNN。
传统PVCNN在目标检测上效果不理想的原因是:(1)体素卷积上提取局部信息没有更深层提取。(2)来基于FPS输出keypoints会降低点云的分辨率,比起体素卷积下采样降低更快。这两个原因都由于原始点无法高效进行处理,而本申请更适合目标检测的原因在于,提出的子流稀疏卷积减少了Point-based分支的网络层但是在Voxel-based分支上面处理更好,进行了更深层的特征提取,所以更好地对局部的信息提取,更适合小目标的三维卷积问题。
本发明实施例提供的一种基于子流稀疏卷积的三维目标检测系统,如图4所示,该系统包括点云获取模块401、特征提取模块402和场景检测模块403,其中:
点云获取模块401用于获取目标场景的初始点云数据;
特征提取模块402用于基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
目标检测模块403用于根据所述目标点云特征,对所述目标场景进行目标检测。
本实施例为与上述方法对应的系统实施例,详情请参考上述方法实施例,本系统实施例在此不再赘述。
本发明实施例提供的一种电子设备,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行一种基于子流稀疏卷积的三维目标检测方法,该方法包括:
获取目标场景的初始点云数据;
基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
根据所述目标点云特征,对所述目标场景进行目标检测。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的一种基于子流稀疏卷积的三维目标检测方法,该方法包括:
获取目标场景的初始点云数据;
基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
根据所述目标点云特征,对所述目标场景进行目标检测。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的一种基于子流稀疏卷积的三维目标检测方法,该方法包括:
获取目标场景的初始点云数据;
基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
根据所述目标点云特征,对所述目标场景进行目标检测。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于子流稀疏卷积的三维目标检测方法,其特征在于,包括:
获取目标场景的初始点云数据;
基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
根据所述目标点云特征,对所述目标场景进行目标检测。
2.根据权利要求1所述的基于子流稀疏卷积的三维目标检测方法,其特征在于,所述优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到,具体包括:
在所述点云体素卷积神经网络中利用所述子流稀疏卷积进行局部特征提取。
3.根据权利要求1或2所述的基于子流稀疏卷积的三维目标检测方法,其特征在于,所述基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,具体包括:
将归一化后的初始点云数据转换为体素;
利用所述子流稀疏卷积提取所述体素的局部信息,获取局部特征;
对所述局部特征进行解体素化,获取所述目标点云特征。
4.根据权利要求3所述的基于子流稀疏卷积的三维目标检测方法,其特征在于,所述将归一化后的初始点云数据转换为体素之前还包括:
对所述初始点云数据进行归一化,获取归一化后的初始点云数据。
7.一种基于子流稀疏卷积的三维目标检测系统,其特征在于,包括:
点云获取模块,用于获取目标场景的初始点云数据;
特征提取模块,用于基于所述初始点云数据和优化后的点云体素卷积神经网络,获取目标点云特征,优化后的点云体素卷积神经网络通过子流稀疏卷积对点云体素卷积神经网络进行优化得到;
目标检测模块,用于根据所述目标点云特征,对所述目标场景进行目标检测。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于子流稀疏卷积的三维目标检测方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于子流稀疏卷积的三维目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011260387.6A CN112270332A (zh) | 2020-11-12 | 2020-11-12 | 一种基于子流稀疏卷积的三维目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011260387.6A CN112270332A (zh) | 2020-11-12 | 2020-11-12 | 一种基于子流稀疏卷积的三维目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270332A true CN112270332A (zh) | 2021-01-26 |
Family
ID=74339082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011260387.6A Pending CN112270332A (zh) | 2020-11-12 | 2020-11-12 | 一种基于子流稀疏卷积的三维目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270332A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284163A (zh) * | 2021-05-12 | 2021-08-20 | 西安交通大学 | 基于车载激光雷达点云的三维目标自适应检测方法及系统 |
CN113449612A (zh) * | 2021-06-15 | 2021-09-28 | 燕山大学 | 一种基于子流型稀疏卷积的三维目标点云识别的方法 |
CN113780446A (zh) * | 2021-09-16 | 2021-12-10 | 广州大学 | 一种可重参数化的轻量级体素深度学习方法 |
CN114266992A (zh) * | 2021-12-13 | 2022-04-01 | 北京超星未来科技有限公司 | 目标检测方法、装置及电子设备 |
CN114581746A (zh) * | 2022-03-04 | 2022-06-03 | 北京百度网讯科技有限公司 | 物体检测方法、装置、设备及介质 |
CN116778262A (zh) * | 2023-08-21 | 2023-09-19 | 江苏源驶科技有限公司 | 一种基于虚拟点云的三维目标检测方法和系统 |
CN117253133A (zh) * | 2023-06-19 | 2023-12-19 | 北京百度网讯科技有限公司 | 目标检测方法、目标检测模型训练方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106067193A (zh) * | 2016-06-06 | 2016-11-02 | 中国人民解放军信息工程大学 | 一种点云数据的体素化方法和体素的遮挡裁剪方法 |
CN111199206A (zh) * | 2019-12-30 | 2020-05-26 | 上海眼控科技股份有限公司 | 三维目标检测方法、装置、计算机设备及存储介质 |
WO2020119661A1 (zh) * | 2018-12-14 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种目标检测方法、装置以及行人检测方法、系统 |
US20200191971A1 (en) * | 2018-12-17 | 2020-06-18 | National Chung-Shan Institute Of Science And Technology | Method and System for Vehicle Detection Using LIDAR |
CN111615706A (zh) * | 2017-11-17 | 2020-09-01 | 脸谱公司 | 基于子流形稀疏卷积神经网络分析空间稀疏数据 |
CN111914774A (zh) * | 2020-05-07 | 2020-11-10 | 清华大学 | 基于稀疏卷积神经网络的3d物体检测方法及装置 |
-
2020
- 2020-11-12 CN CN202011260387.6A patent/CN112270332A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106067193A (zh) * | 2016-06-06 | 2016-11-02 | 中国人民解放军信息工程大学 | 一种点云数据的体素化方法和体素的遮挡裁剪方法 |
CN111615706A (zh) * | 2017-11-17 | 2020-09-01 | 脸谱公司 | 基于子流形稀疏卷积神经网络分析空间稀疏数据 |
WO2020119661A1 (zh) * | 2018-12-14 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种目标检测方法、装置以及行人检测方法、系统 |
US20200191971A1 (en) * | 2018-12-17 | 2020-06-18 | National Chung-Shan Institute Of Science And Technology | Method and System for Vehicle Detection Using LIDAR |
CN111199206A (zh) * | 2019-12-30 | 2020-05-26 | 上海眼控科技股份有限公司 | 三维目标检测方法、装置、计算机设备及存储介质 |
CN111914774A (zh) * | 2020-05-07 | 2020-11-10 | 清华大学 | 基于稀疏卷积神经网络的3d物体检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈盟;陈兴华;邹鹏;: "一种面向3D点云识别的新型卷积神经网络", 计算机与数字工程, no. 05, 20 May 2020 (2020-05-20) * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284163A (zh) * | 2021-05-12 | 2021-08-20 | 西安交通大学 | 基于车载激光雷达点云的三维目标自适应检测方法及系统 |
CN113284163B (zh) * | 2021-05-12 | 2023-04-07 | 西安交通大学 | 基于车载激光雷达点云的三维目标自适应检测方法及系统 |
CN113449612A (zh) * | 2021-06-15 | 2021-09-28 | 燕山大学 | 一种基于子流型稀疏卷积的三维目标点云识别的方法 |
CN113449612B (zh) * | 2021-06-15 | 2022-06-07 | 燕山大学 | 一种基于子流型稀疏卷积的三维目标点云识别的方法 |
CN113780446A (zh) * | 2021-09-16 | 2021-12-10 | 广州大学 | 一种可重参数化的轻量级体素深度学习方法 |
CN114266992A (zh) * | 2021-12-13 | 2022-04-01 | 北京超星未来科技有限公司 | 目标检测方法、装置及电子设备 |
CN114581746A (zh) * | 2022-03-04 | 2022-06-03 | 北京百度网讯科技有限公司 | 物体检测方法、装置、设备及介质 |
CN114581746B (zh) * | 2022-03-04 | 2023-09-05 | 北京百度网讯科技有限公司 | 物体检测方法、装置、设备及介质 |
CN117253133A (zh) * | 2023-06-19 | 2023-12-19 | 北京百度网讯科技有限公司 | 目标检测方法、目标检测模型训练方法、装置和电子设备 |
CN116778262A (zh) * | 2023-08-21 | 2023-09-19 | 江苏源驶科技有限公司 | 一种基于虚拟点云的三维目标检测方法和系统 |
CN116778262B (zh) * | 2023-08-21 | 2023-11-10 | 江苏源驶科技有限公司 | 一种基于虚拟点云的三维目标检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270332A (zh) | 一种基于子流稀疏卷积的三维目标检测方法及系统 | |
CN110136063B (zh) | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 | |
US10970518B1 (en) | Voxel-based feature learning network | |
CN110264416B (zh) | 稀疏点云分割方法及装置 | |
CN113674403B (zh) | 一种三维点云上采样方法、系统、设备及介质 | |
CN108229479B (zh) | 语义分割模型的训练方法和装置、电子设备、存储介质 | |
CN113052835B (zh) | 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统 | |
CN111160214B (zh) | 一种基于数据融合的3d目标检测方法 | |
CN111862101A (zh) | 一种鸟瞰图编码视角下的3d点云语义分割方法 | |
CN108921926A (zh) | 一种基于单张图像的端到端三维人脸重建方法 | |
CN110348330A (zh) | 基于vae-acgan的人脸姿态虚拟视图生成方法 | |
CN108010123B (zh) | 一种保留拓扑信息的三维点云获取方法 | |
CN108648161A (zh) | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 | |
CN111915660A (zh) | 基于共享特征和注意力上采样的双目视差匹配方法及系统 | |
CN115205489A (zh) | 一种大场景下的三维重建方法、系统及装置 | |
CN113159232A (zh) | 一种三维目标分类、分割方法 | |
CN110827295A (zh) | 基于体素模型与颜色信息耦合的三维语义分割方法 | |
CN111951368B (zh) | 一种点云、体素和多视图融合的深度学习方法 | |
Goncalves et al. | Deepdive: An end-to-end dehazing method using deep learning | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN113449612A (zh) | 一种基于子流型稀疏卷积的三维目标点云识别的方法 | |
CN113592711A (zh) | 点云数据不均匀的三维重建方法、系统、设备及存储介质 | |
CN112329808A (zh) | 一种Deeplab语义分割算法的优化方法及系统 | |
CN115830375A (zh) | 点云分类方法及装置 | |
CN114170290A (zh) | 图像的处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |