CN112598635B - 一种基于对称点生成的点云3d目标检测方法 - Google Patents
一种基于对称点生成的点云3d目标检测方法 Download PDFInfo
- Publication number
- CN112598635B CN112598635B CN202011501459.1A CN202011501459A CN112598635B CN 112598635 B CN112598635 B CN 112598635B CN 202011501459 A CN202011501459 A CN 202011501459A CN 112598635 B CN112598635 B CN 112598635B
- Authority
- CN
- China
- Prior art keywords
- point
- voxel
- convolution
- layer
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 14
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 239000000203 mixture Substances 0.000 claims description 4
- CLOMYZFHNHFSIQ-UHFFFAOYSA-N clonixin Chemical compound CC1=C(Cl)C=CC=C1NC1=NC=CC=C1C(O)=O CLOMYZFHNHFSIQ-UHFFFAOYSA-N 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 241001334134 Rugopharynx epsilon Species 0.000 claims description 2
- 230000000630 rising effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 230000002860 competitive effect Effects 0.000 abstract description 2
- 238000012217 deletion Methods 0.000 abstract 1
- 230000037430 deletion Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 45
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 240000004050 Pentaglottis sempervirens Species 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于对称点生成的点云3D目标检测方法。本发明首先对原始点云进行过滤并体素化检测空间,生成初始体素特征输入到对称点生成模块,通过其编解码结构获得高层语义特征并经过分类头和回归头进行前景点分割以及对称点预测,将预测的前景点对应的对称点集与非空体素中心点集组成增强点云作为区域提案网络的输入,通过其骨干网络进一步提取俯视图特征,并作为检测头的输入,检测头最终输出待检测物体的3D框。本发明利用检测对象的对称性,生成对称点,从根本上缓解了点云中物体结构缺失的问题,能够改善回归效果并提高检测精度,同时支持将RPN替换成其他基于体素的检测方法,使得原来检测效果较差的检测器也能产生具有竞争力的检测结果。
Description
技术领域
本发明涉及自动驾驶、3D目标检测技术领域,具体地涉及一种基于对称点生成的3D目标检测算法。
背景技术
三维目标检测由于其在自主驾驶、机器人等领域的广泛应用,越来越受到工业界和学术界的关注。激光雷达传感器广泛应用于自动驾驶车辆和机器人中,以点云形式捕捉三维场景信息,为三维场景的感知和理解提供重要信息。由于点云可以保留物体的原始尺寸,所以不存在物体在图像中分辨率太低问题,而且即使在夜晚,激光雷达也能正常工作。因此,在点云场景下进行物体检测成为3D目标检测的热点。当前,3D目标检测方法主要分为两类,一种类基于图像的检测方法,比如chen等人提出的面向自主驾驶的单目三维目标检测(Monocular 3D Object Detection for Autonomous Driving)。该方法将单目中的3D物体检测问题看作两步完成:首先该方法提出了一个生成一组类相关的物体推荐候选框的方法,然后利用一个CNN网络利用这组候选框提取出高质量的3D物体检测框,是单目3D目标检测的开山之作。但是这类方法往往需要一系列假设条件,比如所有的物体底部都与地平面相接等,在实际检测中效果并不是很好。另一种是基于点云的检测方法,根据从点云提取特征方式的不同具体又可以划分为基于点的方法和基于体素的方法。基于点的方法使用PointNet和其变体从原始点云中提取逐点的特征,而基于体素的方法则是将整个3D空间划分成体素栅格,并使用规则的3D卷积神经网络提取体素特征。这类方法取得了很好的检测效果,但是也还存在一些问题。由于获取的点云稀疏且不规则,距离激光雷达较远的和被严重遮挡的物体往往只含有少量的点,会缺失很多结构信息,导致这类物体的检测精度较低。因此,人们开始研究如何在稀疏的点云里获得更多目标的结构信息去进行3D目标检测。本发明属于基于体素的检测方法,我们提出的是一种利用目标结构先验信息来补全目标在点云中缺失的对称部分的方法。将补全的对称部分和原始点云组成增强点云,作为检测网络的输入,可以从根本上缓解一些物体在点云中结构信息缺失较多问题。我们的方法不仅可以用于自动化驾驶领域汽车的检测,而且适用于在点云场景下各种具有对称性的物体的检测。
现有已有一些关于3D目标检测的专利(包括发明授权专利和发明公布专利)如下:
申请公布号为:CN110070025A的中国发明专利《基于单目图像的三维目标检测系统及方法》。此方法的思想是将三维目标检测转换到二维图像下的预测,然后应用摄像头标定参数将二维映射到摄像头三维坐标系下,重构出目标的三维目标框,通过对映射出的三维目标框进行进一步修正,得到精确的三维目标框,经两步法训练后进行精确三维目标检测。虽然这种方法成本较低,具有一定的应用价值,但是此方法精度较低,不适合要求高的场景。
申请公布号为:CN111079652A的中国发明专利《一种基于点云数据简易编码的3D目标检测方法》。此方法提出了一种点云数据的简易编码方式,该方法将点云数据栅格化,然后通过计算单个栅格内的几何信息和密度信息完成对单个栅格内点集的编码,通过特征拼接和M×N卷积的方式,进行高效的特征降维,最终构建基于点云数据的可应用于卷积神经网络的二维特征图,最后采用一套多尺度卷积的特征提取网络进行特征提取和3D目标检测。所述方法能够高效地将3D特征图降维为2D特征图,从而可以应用于不同2D卷积神经网络进行特征提取和3D目标检测,但是这种方法也因使用2D卷积从而不能很好地提取鲁棒的3D物体特征。
申请公布号为:CN111079685A的中国发明专利《一种3D目标检测方法》。该方法首先将点云鸟瞰图、待检测目标图像和前视图进行特征提取;得到鸟瞰图和待检测目标图像3D目标建议框,并将鸟瞰图、待检测目标图像和前视图各自融合后的特征图,通过逐像素相加平均进行总的特征图融合,得到最终的特征图融合结果;将3D目标建议框在最终融合的特征图上投影成2D目标建议框,得到该2D目标建议框对应的ROI区域特征,最后将该ROI区域特征进行候选目标的分类和回归,得到最终的3D目标检测候选框。该发明有效提高了检测网络在不同环境下对3D空间中感兴趣的不同目标的检测与定位性能,但是由于将点云投影成图像形式从而导致丢失了物体在3D空间中的信息,使得检测结果不太理想。
4)申请公布号为:CN111145174A的中国发明专利《基于图像语义特征进行点云筛选的3D目标检测方法》。该发明提出了一种基于图像语义特征进行点云筛选的3D目标检测方法。包括以下步骤:首先2D语义分割方法对图像数据进行分割得到语义预测。将生成的语义预测通过已知的投影矩阵投影到LIDAR点云空间中,从而使点云中的每一个点都能获得对应图像位置的语义类别属性。然后将车辆、行人、骑车人相关的点从原始点云中提取出来并形成视锥。其次将视锥作为深度3D目标检测器的输入,并设计符合视锥特性的损失函数来进行网络训练。该发明大大减少了3D检测的时间和计算需求,具有实时目标检测性能。该方法会严重依赖于图像的语义信息,导致不能检测出被遮挡的或被严重截断的物体。
发明内容
针对在点云场景下距离激光雷达较远的和被严重遮挡的物体结构缺失等问题,本发明提出了一种利用目标结构先验性补全其在点云中缺失的对称部分的3D目标检测方法,使用自动驾驶领域的KITTI数据集对网络进行训练,在生成的增强点云上进行检测,可以降低检测难度并且提高检测精度。
为实现上述目的,本发明的具体实现步骤为:
步骤1:过滤点云并体素化检测空间,计算对称点生成模块的输入即体素初始特征,生成前景点标签,生成对称点相对于前景点的位置偏移标签;
步骤2:搭建对称点生成模块,构造对称点生成模块中编码器、解码器,为对称点生成模块分别添加分类头和回归头,构建前景点分割任务的损失函数、对称点预测任务的损失函数,进一步构建对称点生成模块的损失函数;
步骤3:通过对称点生成模块预测的对称点相对于前景点的位置偏移,将预测的对称点组成对称点集,结合对称点集与体素中心点集生成增强点云;
步骤4:定义区域提案网络,构建区域提案网络中骨干网络,构建区域提案网络中检测头,构建区域提案网络网络的损失函数;
步骤5:使用点云网络训练集进行训练,通过步骤1的点云数据处理得到初始体素特征,接着通过步骤2的对称点生成模块得到前景点对应的对称点,然后通过步骤3将非空体素中心点与对称点组成增强点云,最后通过步骤4的区域提案网络得到最终的物体检测框,结合综合点云网络的损失函数,使用点云网络训练集中进行训练得到寻优化网络参数,用于构建训练后点云网络。
步骤6:将待检测场景的点云数据输入训练后的点云网络,进行3D检测框预测,得待检测场景中目标的3D检测框;
作为优选,步骤1所述过滤点云并体素化检测空间,具体步骤为:
原始点云为:
其中,表示第i个点的坐标,分别表示第i个点的x轴坐标、y轴坐标、z轴坐标,过滤掉原始点云中不在检测范围内的点,所述检测范围为
则过滤后的点云为其中Oj表示检测范围空间内第j个点的坐标,分别表示检测范围空间内第j个点的x轴坐标、y轴坐标、z轴坐标;
之后对检测范围空间进行体素化,体素尺寸为wv×lv×hv,wv,lv,hv分别表示体素的宽长高,则体素中心点集合为:
其中,V(k,m,n)表示x轴方向上第k个、y轴方向上第m个、z轴方向上第n个体素中心点的坐标,具体计算公式如下:
体素化后的空间分辨率为W×L×H。体素中心点集合也可以简化表示成如下形式其中Vi表示第i个体素中心点,N3=W×L×H;
步骤1所述计算对称点生成模块的输入即体素初始特征,具体步骤为:
坐标为(k,m,n)的体素的初始特征f(k,m,n)为落在其内部的点的坐标平均值,具体计算公式如下:
其中N(k,m,n)表示落在坐标为(k,m,n)的体素内点的数量,Oq表示落在坐标为(k,m,n)的体素内第q个的坐标, 因此所述体素初始特征为:
F={f(k,m,n)|k∈[1,W],m∈[1,L],n∈[1,H],k,m,n∈Z}
其中,所述F的空间分辨率也为W×L×H,其张量表示形式为
[W L H 3];
步骤1所述生成前景点标签,具体步骤为:
所谓前景点就是落在3D标注框内部的体素中心点,用(px,py,pz)表示前景点坐标,其标签s为1,数量为Npos。落在3D标注框内部的体素中心点被称作背景点,其标签s=0;
用(xg,yg,zg,wg,lg,hg,θg)表示3D标注框,其中(xg,yg,zg)表示3D标注框的中心点坐标,wg,lg,hg表示3D标注框的宽长高,θg表示俯视视角下的旋转角。
步骤1生成对称点相对于前景点的位置偏移标签,具体步骤为:
首先使用下面公式计算出前景点在3D标注框内的对称点:
其中(rx,ry,rz)表示前景点在3D框中的相对位置坐标。接着可以计算出对称点的相对位置坐标(1-rx,ry,rz),最后利用下面公式计算出对称点的位置标签(px′,py′,pz′)
tx′=(1-rx)w-0.5,ty′=ryl-0.5,pz′=rzh-0.5+cz
则对称点相对于前景点的位置偏移标签为ΔP=(px′-px,py′-py)。其中公式出现的变量含义已在前述给出。
作为优选,步骤2所述搭建对称点生成模块具体为:
所述对称点生成模块由编码器、解码器、任务头依次级联组成;
所述编码器由升维模块、下采样模块级联组成;
所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成,用来将特征的维度升高,其输入是初始体素特征,输出为升维后的体素特征,用张量表示为[W L HC1],C1为维度,W、L、H是其空间分辨率的宽、长、高;子流形卷积层的卷积核大小都为w1×w1×w1,步长都为k1×k1×k1;
所述下采样模块由三个下采样子块组成;每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成,用来降低特征的空间分辨率,减少计算量,其输入为升维后的体素特征,其输出为空间分辨率降低为2n倍的体素特征,这里n为子块个数,用张量表示为稀疏卷积层和稀疏卷积层的卷积核大小都为w1×w1×w1,步长都为k2×k2×k2;
所述解码器由上采样模块组成;
上采样模块由四个上采样子块构成,每个上采样子块由第一层稀疏卷积层、第二层稀疏卷积层、稀疏反卷积层组成,其输入为空间分辨率降低的体素特征,输出为原始空间分辨率的体素特征,其张量表示与升维后的体素特征相同,为[W L H C1];稀疏卷积层和稀疏反卷积层的卷积核大小均为w1×w1×w1,步长都为k2×k2×k2;
所述任务头由分类头和回归头并联组成;
所述的分类头和回归头均由一层线性层组成,其输入都是原始空间分辨率的体素特征;分类头的线性层的输入、输出维度分别为C1、C3,分类头的线性层的输入、输出维度分别为C1、C4,。输出分别是每个点的前景点分割分数以及其对称点相对于自身的偏移。卷积层的当一个点的前景点分割分数阈值T则被这个点被网络认为是前景点,将网络预测的前景点对应的对称点和体素中心点组成增强点云作为区域提案网络的输入;
上述模块的待寻优参数都是各个层的卷积核权值Wij,Wij表示第i层第j个卷积核权值;
步骤2所述构造对称点生成模块中编码器、解码器,具体步骤为为:
将一个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的稀疏卷积层和两个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的子流形卷积层组成的结构称为一个下采样模块的子块,这里令w1=3,k2=3;
用于输入初始体素特征,首先使用升维模块,即两个卷积核尺寸为w1×w1×w1、步长为k1×k1×k1的子流形卷积层将初始体素特征的维度升到C1维;这里令k1=1,C1=16;
然后使用3个子块将特征空间分辨率下采样n倍,特征维度C1从变为2C1,C2,C2;
最终的下采样特征使用张量形式表示为
接着再使用4个上采样模块的子块将特征空间分辨率回复到原来的尺度,张量形式表示为[W L H C1];
所述上采样模块的子块,首先通过稀疏卷积将横向特征和底层特征进行融合和变换,然后通过稀疏逆卷积对融合后的特征空间分辨率上采样2倍;
步骤2所述分别添加分类头和回归头,具体步骤为:
对称点生成模块需要输出的是前景点预测分数和对称点相对于前景点的位置偏移 分别表示网络预测的x、y方向上的位置偏移;因此需要添加在编码器解码器后并行添加一个分割模块输出前景点预测分数以及一个回归模块输出对称点相对于前景点的位置偏移;
所述分割模块由一层线性层构成,其输入为编码器-解码器结构的输出特征[W LH C1],其输出为体素中心点的前景点预测分数,是一个[N31]的张量,N3是体素中心点个数;
所述回归模块由一层线性层构成,其输入为编码器-解码器结构的输出特征[W LH C1],其输出为对称点相对于前景点的位置偏移,是一个[N3 2]的张量,N3是体素中心点个数;
步骤2所述构建前景点分割任务的损失函数、对称点预测任务的损失函数,进一步构建对称点生成模块的损失函数,具体步骤为:
前景点分割任务的损失函数如下式所示:
其中,si定义为二值标签,用来表示第i个体素中心点是否是前景点,是的话值为1,否则为0;是分割头输出的坐标第i个体素中心点的前景点预测分数,在区间[0,1]范围内;Npos是前景点的个数;αt、γ分别是第一超参数、是第二超参数;
网络预测的第i个对称点相对于第i个体素中心点的位置偏移为则对称点预测任务使用smooth-l1函数作为损失函数如下式所示:
其中,II[si=1]是一个指示函数,si是第i个点的类别标签,Npos为前景点个数,N3为体素中心点个数,ΔPi是第i个对称点相对于第i个体素中心点的位置偏移标签;
所述对称点生成模块的损失函数为:
L1=αLseg+βLreg
其中,α、β分别是平衡损失函数的第一超参数、平衡损失函数的第二超参数;
作为优选,步骤3所述通过对称点生成模块预测的对称点相对于前景点的位置偏移为:
为对称点生成模块预测的x方向的偏移,为对称点生成模块预测的x方向的偏移,算出预测的前景点对应的对称点位置为
px、py、pz是前景点的x,y,z坐标;
步骤3所述将预测的对称点组成对称点集为:
Si是第i个对称点坐标,为是第i个对称点的x坐标,为是第i个对称点的y坐标,为是第i个对称点的z坐标;
步骤3所述将对称点集与体素中心点集组成增强点云为:
Ei是第i个增强点坐标,为是第i个增强点的x坐标,为是第i个增强点的y坐标,为是第i个增强点的z坐标,再进行一次前述步骤1中体素化空间方法,并生成初始体素特征作为RPN网络中骨干网络的输入;
作为优选,步骤4所述区域提案网络由骨干网络和检测头级联组成;
骨干网络用来降低空间分辨率,提取具有高层语义的俯视图特征,由编码器构成,所述编码器由升维模块、下采样模块以及高度压缩模块级联组成;
所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成,用来将特征的维度升高,其输入是初始体素特征,输出为升维后的体素特征,用张量表示为[W L HC1],C1为维度,W、L、H是其空间分辨率的宽、长、高;子流形卷积层的卷积核大小都为w1×w1×w1,步长都为k1×k1×k1;
所述下采样模块由三个下采样子块组成;每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成,用来降低特征的空间分辨率,减少计算量,其输入为升维后的体素特征,其输出为空间分辨率降低为2n倍的体素特征,这里n为子块个数,用张量表示为稀疏卷积层和稀疏卷积层的卷积核大小都为w1×w1×w1,步长都为k2×k2×k2;
所述高度压缩模块由一层稀疏卷积层组成,其卷积核大小为w3×w4×w4,步长为k3×k4×k4,其输入为体素化增强点云的体素初始特征,输出为俯视特征图,用张量表示为n为下采样模块个数;
检测头由上分支、下分支、回归头、分类头组成,上分支由六个卷积层和一个反卷积层级联组成,卷积层和反卷积层的卷积核大小均为w5×w5,步长为k5×k5;
下分支也由六个卷积层和一个反卷积层级联组成,卷积层的大小为w6×w6,步长为k6×k6;
回归头与分类头都由一层卷积层组成,其卷积核大小为w7×w7,步长为k7×k7;
检测头的输入为俯视特征图,输出为检测框的置信度以及检测框相对于锚点的位置偏移;
网络的待寻优参数为各层的卷积核权值Wmn,Wmn为第m层第n个卷积核的权值。
步骤4所述构建区域提案网络中骨干网络,具体步骤为:
将一个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的稀疏卷积层和两个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的子流形卷积层组成的结构称为一个下采样模块的子块;
用于输入初始体素特征,首先使用升维模块,即两个卷积核尺寸为w1×w1×w1、步长为k1×k1×k1的子流形卷积层将初始体素特征的维度升到C1维;
然后使用3个子块将特征空间分辨率下采样n倍,特征维度C1从变为2C1,C2,C2;这里令C2=64,n=8;
最终的下采样特征使用张量形式表示为
接着再使用4个上采样模块的子块将特征空间分辨率回复到原来的尺度,张量形式表示为[W L H C1];
所述上采样模块的子块,首先通过稀疏卷积将横向特征和底层特征进行融合和变换,然后通过稀疏逆卷积对融合后的特征空间分辨率上采样2倍;
最后通过一层压缩特征高度的稀疏卷积层,其卷积核大小为w3×w4×w4,步长为k3×k4×k4,所以经过骨干网络提取的特征表示为张量形式
n为下采样模块子块个数,C3为输出通道数,将其变形为俯视特征图表示形式这里C4=256。
步骤4所述构建区域提案网络中检测头,具体步骤为:
俯视特征图作为检测头的输入;
俯视特征图经过6个卷积核大小为w5×w5、步长为k5×k5、输出通道数减半的卷积层得到中间特征中间特征首先经过一个卷积核大小为3*3、步长为1*1、输出通道数加倍的反卷积层得到上层特征然后中间特征再经过一个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的卷积层将特征分辨率降低2倍,再经过五个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的卷积层和一个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的反卷积层得到下层特征
最后将上层特征和下层特征进行连接操作合成新的俯视特征图
新的俯视特征图再经过一个分类头和一个回归头得到网络预测的框的得分以及位置;
步骤4所述构建区域提案网络的损失函数,具体步骤为:
在俯视特征图的每个像素点上分配两种朝向的锚点,锚点表示形式为
(xa,ya,za,wa,la,ha,θa);
(xa,ya,za)是锚点的中心坐标,wa,la,ha是锚点的宽长高,θa是俯视视角下的旋转角;
为锚点分配二值标签,当锚点与标注框的交并比IoU大于λ1时被认为是正例,其标签σ为1,当锚点与标注框的交并比IoU小于λ2时被认为是反例,其标签σ为0,IoU介于λ1和λ2之间的锚点被忽略;
分类分支的损失函数为:
N表示正反例数量,为W、L是体素特征空间分辨率的宽、长,n是下采样模块子块的个数,表示网络预测的第i个锚点的得分,αt、γ是超参数。
回归分支使用Smooth-l1损失作为损失函数,将对回归的参数进行如下形式的编码:
其中,Δrt表示编码值,rg表示标注框参数值,ra表示锚点框参数值,r∈{x,y,z,w,l,h,θ},(x,y,z)表示框的中心点,w,h,l表示框的宽高长,θ表示俯视视角下的框旋转角,则使用Smooth-l1损失函数作为回归损失如下式所示:
其中为检测头预测的编码值,RPN网络的损失函数为L2=γLcls+ηLbbox,γ、η也是平衡损失函数的超参数。
作为优选,步骤5所述综合点云网络的损失函数为:
Ltotal=L1+L2=Lseg+Lreg+2Lbbox+Lcls
步骤待寻优参数为:
对称点生成模块的卷积核权值即Wij、区域提案网络的卷积核权值即Wmn,Wij表示第i层第j个卷积核权值,i∈[1,N5],N5为对称点生成模块的卷积层数, 为第i层卷积层的卷积核个数,Wmn为第m层第n个卷积核的权值,m∈[1,N6],N6为区域提案网络的卷积层数, 为第m层卷积层的卷积核个数;
步骤5寻优后参数为:
对称点生成模块的卷积核权值即Wij *、区域提案网络的卷积核权值即Wmn *,Wij *表示第i层第j个卷积核权值,i∈[1,N5],N5为对称点生成模块的卷积层数, 为第i层卷积层的卷积核个数,Wmn *为第m层第n个卷积核的权值,m∈[1,N6],N6为区域提案网络的卷积层数, 为第m层卷积层的卷积核个数;
用梯度反向传播方法寻优,用KITTI数据集中的原始点云数据作为训练集样本为输入,以此指导网络训练,最终取Ltotal最小时的检测结果作为最终的检测结果。
作为优选,步骤6所述待检测场景中目标的3D检测框表示为:
[x*,y*,z*,w*,l*,h*,θ*]
其中,(x*,y*,z*)表示预测的3D检测框中心点,w*,l*,h*表示预测的3D检测框宽长高,θ*表示预测的3D检测框在俯视视角下的旋转角;
与现有技术相比,本发明优点如下:
现有的检测方法大多忽略了物体结构的先验信息,本发明利用检测对象的对称性,生成对称点,从根本上缓解了点云中物体结构缺失的问题,能够改善回归效果以及提高检测精度。
本发明支持将RPN替换成其他基于体素的检测方法,使得原来检测效果较差的检测器也能产生具有竞争力的检测结果。
本发明使用简单的计算方式可以从数据集本身获得对称点的位置标签。
附图说明
图1:为本发明技术方案的总体框图。
图2:为本发明对称点生成模块网络模型结构图。
图3:为本发明上采样和改善模块网络结构图。
图4:为检测头网络结构图。
具体实施方式
下面将结合附图,对本发明实施例中的实现步骤进行清楚、完整的描述。此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互结合。
下面结合图1至图4介绍本发明的具体实施方式:
步骤1:过滤点云并体素化检测空间,计算对称点生成模块的输入即体素初始特征,生成前景点标签,生成对称点相对于前景点的位置偏移标签;
步骤1所述过滤点云并体素化检测空间,具体步骤为:
原始点云为:
其中,表示第i个点的坐标,分别表示第i个点的x轴坐标、y轴坐标、z轴坐标,过滤掉原始点云中不在检测范围内的点,所述检测范围为
则过滤后的点云为其中Oj表示检测范围空间内第j个点的坐标,分别表示检测范围空间内第j个点的x轴坐标、y轴坐标、z轴坐标;
之后对检测范围空间进行体素化,体素尺寸为wv×lv×hv,wv,lv,hv分别表示体素的宽长高,wv=0.05m,lv=0.05m,hv=0.05m,则体素中心点集合为:
其中,V(k,m,n)表示x轴方向上第k个、y轴方向上第m个、z轴方向上第n个体素中心点的坐标,具体计算公式如下:
体素化后的空间分辨率为W×L×H。体素中心点集合也可以简化表示成如下形式其中Vi表示第i个体素中心点,N3=W×L×H,W=1408,L=1600,H=40;
步骤1所述计算对称点生成模块的输入即体素初始特征,具体步骤为:
坐标为(k,m,n)的体素的初始特征f(k,m,n)为落在其内部的点的坐标平均值,具体计算公式如下:
其中N(k,m,n)表示落在坐标为(k,m,n)的体素内点的数量,Oq表示落在坐标为(k,m,n)的体素内第q个的坐标, 因此所述体素初始特征为:
F={f(k,m,n)|k∈[1,W],m∈[1,L],n∈[1,H],k,m,n∈Z}
其中,所述F的空间分辨率也为W×L×H,其张量表示形式为
[W L H 3],W=1408,L=1600,H=40;
步骤1所述生成前景点标签,具体步骤为:
所谓前景点就是落在3D标注框内部的体素中心点,用(px,py,pz)表示前景点坐标,其标签s为1,数量为Npos。落在3D标注框内部的体素中心点被称作背景点,其标签s=0;
用(xg,yg,zg,wg,lg,hg,θg)表示3D标注框,其中(xg,yg,zg)表示3D标注框的中心点坐标,wg,lg,hg表示3D标注框的宽长高,θg表示俯视视角下的旋转角。
步骤1生成对称点相对于前景点的位置偏移标签,具体步骤为:
首先使用下面公式计算出前景点在3D标注框内的对称点:
其中(rx,ry,rz)表示前景点在3D框中的相对位置坐标。接着可以计算出对称点的相对位置坐标(1-rx,ry,rz),最后利用下面公式计算出对称点的位置标签(px′,py′,pz′)
tx′=(1-rx)w-0.5,ty′=ryl-0.5,pz′=rzh-0.5+cz
则对称点相对于前景点的位置偏移标签为ΔP=(px′-px,py′-py)。其中公式出现的变量含义已在前述给出。
步骤2:搭建对称点生成模块,构造对称点生成模块中编码器、解码器,为对称点生成模块分别添加分类头和回归头,构建前景点分割任务的损失函数、对称点预测任务的损失函数,进一步构建对称点生成模块的损失函数;
步骤2所述搭建对称点生成模块具体为:
所述对称点生成模块由编码器、解码器、任务头依次级联组成;
所述编码器由升维模块、下采样模块级联组成;
所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成,用来将特征的维度升高,其输入是初始体素特征,输出为升维后的体素特征,用张量表示为[W L HC1],C1为特征维度,C1=16,W、L、H是其空间分辨率的宽、长、高,W=1408,L=1600,H=40;子流形卷积层的卷积核大小都为w1×w1×w1,w1=3,步长都为k1×k1×k1,k1=1;
所述下采样模块由三个下采样子块组成;每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成,用来降低特征的空间分辨率,减少计算量,其输入为升维后的体素特征,其输出为空间分辨率降低为2n倍的体素特征,这里n为子块个数,n=3,用张量表示为
W=1408,L=1600,H=40,C2=64;稀疏卷积层和稀疏卷积层的卷积核大小都为w1×w1×w1,w1=3,步长都为k2×k2×k2,k2=2;
所述解码器由上采样模块组成;
上采样模块由四个上采样子块构成,每个上采样子块由第一层稀疏卷积层、第二层稀疏卷积层、稀疏反卷积层组成,其输入为空间分辨率降低的体素特征,输出为原始空间分辨率的体素特征,其张量表示与升维后的体素特征相同,为[W L H C1],W=1408,L=1600,H=40,C1=16;稀疏卷积层和稀疏反卷积层的卷积核大小均为w1×w1×w1,w1=3,步长都为k2×k2×k2,k2=2;
所述任务头由分类头和回归头并联组成;
所述的分类头和回归头均由一层线性层组成,其输入都是原始空间分辨率的体素特征;分类头的线性层的输入、输出维度分别为C1、C3,C1=64,C3=1,分类头的线性层的输入、输出维度分别为C1、C4,C1=64,C4=2。输出分别是每个点的前景点分割分数以及其对称点相对于前景点的偏移。卷积层的当一个点的前景点分割分数阈值T则被这个点被网络认为是前景点,将网络预测的前景点对应的对称点和体素中心点组成增强点云作为区域提案网络的输入;
上述模块的待寻优参数都是各个层的卷积核权值Wij,Wij表示第i层第j个卷积核权值;
步骤2所述构造对称点生成模块中编码器、解码器,具体步骤为:
将一个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的稀疏卷积层和两个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的子流形卷积层组成的结构称为一个下采样模块的子块,这里令w1=3,k2=2;
用于输入初始体素特征,首先使用升维模块,即两个卷积核尺寸为w1×w1×w1、步长为k1×k1×k1的子流形卷积层将初始体素特征的维度升到C1维;这里令w1=3,k1=1,C1=16;
然后使用3个子块将特征空间分辨率下采样n倍,特征维度C1从变为2C1,C2,C2;这里令C1=16,C2=64,n=8;
最终的下采样特征使用张量形式表示为W=1408,L=1600,H=40,C2=64;
接着再使用4个如图3所示的上采样模块的子块将特征空间分辨率回复到原来的尺度,张量形式表示为[W L H C1],W=1408,L=1600,H=40,C1=16;
所述上采样模块的子块,首先通过稀疏卷积将横向特征和底层特征进行融合和变换,然后通过稀疏逆卷积对融合后的特征空间分辨率上采样2倍;
步骤2所述分别添加分类头和回归头,具体步骤为:
对称点生成模块需要输出的是前景点预测分数和对称点相对于前景点的位置偏移 分别表示网络预测的x、y方向上的位置偏移;因此需要添加在编码器解码器后并行添加一个分割模块输出前景点预测分数以及一个回归模块输出对称点相对于前景点的位置偏移;
所述分割模块由一层线性层构成,其输入为编码器-解码器结构的输出特征[W LH C1],W=1408,L=1600,H=40,C1=16,其输出为体素中心点的前景点预测分数,是一个[N3 1]的张量,N3是体素中心点个数;
所述回归模块由一层线性层构成,其输入为编码器-解码器结构的输出特征[W LH C1],W=1408,L=1600,H=40,C1=16,其输出为对称点相对于前景点的位置偏移,是一个[N3 2]的张量,N3是体素中心点个数;
步骤2所述构建前景点分割任务的损失函数、对称点预测任务的损失函数,进一步构建对称点生成模块的损失函数,具体步骤为:
前景点分割任务的损失函数如下式所示:
其中,si定义为二值标签,用来表示第i个体素中心点是否是前景点,是的话值为1,否则为0;是分割头输出的坐标第i个体素中心点的前景点预测分数,在区间[0,1]范围内;Npos是前景点的个数;αt、γ分别是第一超参数、是第二超参数,分别设置为0.25、2;
网络预测的第i个对称点相对于第i个体素中心点的位置偏移为则对称点预测任务使用smooth-l1函数作为损失函数如下式所示:
其中,II[si=1]是一个指示函数,si是第i个点的类别标签,Npos为前景点个数,N3为体素中心点个数,ΔPi是第i个对称点相对于第i个体素中心点的位置偏移标签;
所述对称点生成模块的损失函数为:
L1=αLseg+βLreg
其中,α、β分别是平衡损失函数的第一超参数、平衡损失函数的第二超参数,并分别设置为1,1;
步骤3:通过对称点生成模块预测的对称点相对于前景点的位置偏移,将预测的对称点组成对称点集,结合对称点集与体素中心点集生成增强点云;
如果一个体素中心点的前景点预测分数大于阈值T,则这个点是对称点生成模块预测的前景点;
步骤3所述通过对称点生成模块预测的对称点相对于前景点的位置偏移为:
为对称点生成模块预测的x方向的偏移,为对称点生成模块预测的x方向的偏移,算出预测的前景点对应的对称点位置为
px、py、pz是前景点的x,y,z坐标;
步骤3所述将预测的对称点组成对称点集为:
Si是第i个对称点坐标,为是第i个对称点的x坐标,为是第i个对称点的y坐标,为是第i个对称点的z坐标;
步骤3所述将对称点集与体素中心点集组成增强点云为:
Ei是第i个增强点坐标,为是第i个增强点的x坐标,为是第i个增强点的y坐标,为是第i个增强点的z坐标,再进行一次前述步骤1中体素化空间方法,并生成初始体素特征作为RPN网络中骨干网络的输入;
步骤4:定义区域提案网络,构建区域提案网络中骨干网络,构建区域提案网络中检测头,构建区域提案网络网络的损失函数;
步骤4所述区域提案网络由骨干网络和检测头级联组成;
骨干网络用来降低空间分辨率,提取具有高层语义的俯视图特征,由编码器构成,所述编码器由升维模块、下采样模块以及高度压缩模块级联组成;
所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成,用来将特征的维度升高,其输入是初始体素特征,输出为升维后的体素特征,用张量表示为[W L HC1],C1为维度,W、L、H是其空间分辨率的宽、长、高,W=1408,L=1600,H=40,C1=16;子流形卷积层的卷积核大小都为w1×w1×w1,w1=3,步长都为k1×k1×k1,k1=2;
所述下采样模块由三个下采样子块组成;每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成,用来降低特征的空间分辨率,减少计算量,其输入为升维后的体素特征,其输出为空间分辨率降低为2n倍的体素特征,这里n为子块个数,这里为3,用张量表示为W=1408,L=1600,H=40,C2=64;稀疏卷积层和稀疏卷积层的卷积核大小都为w1×w1×w1,w1=3,步长都为k2×k2×k2,k1=2;
所述高度压缩模块由一层稀疏卷积层组成,其卷积核大小为w3×w3×w4,w3=1,w4=3,步长为k3×k3×k4,k3=1,k4=2其输入为体素化增强点云的体素初始特征,输出为俯视特征图,用张量表示为n为下采样模块个数,为3,W=1408,L=1600,H=40,C3=128;
检测头由上分支、下分支、回归头、分类头组成,上分支由六个卷积层和一个反卷积层级联组成,卷积层和反卷积层的卷积核大小均为w5×w5,步长为k5×k5,w5=3,k5=1;
下分支也由六个卷积层和一个反卷积层级联组成,卷积层的大小为w6×w6,步长为k6×k6,w6=3,k6=1;
回归头与分类头都由一层卷积层组成,其卷积核大小为w7×w7,步长为k7×k7,w7=3,k7=1;
检测头的输入为俯视特征图,输出为检测框的置信度以及检测框相对于锚点的位置偏移;
网络的待寻优参数为各层的卷积核权值Wmn,Wmn为第m层第n个卷积核的权值。
步骤4所述构建区域提案网络中骨干网络,具体步骤为:
将一个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的稀疏卷积层和两个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的子流形卷积层组成的结构称为一个下采样模块的子块,这里令w1=3,k2=3;
用于输入初始体素特征,首先使用升维模块,即两个卷积核尺寸为w1×w1×w1、步长为k1×k1×k1的子流形卷积层将初始体素特征的维度升到C1维;这里令w1=3,k1=1,C1=16;
然后使用3个子块将特征空间分辨率下采样n倍,特征维度C1从变为2C1,C2,C2;这里令C1=16,C2=64,n=8;
最终的下采样特征使用张量形式表示为W=1408,L=1600,H=40,C2=64;
接着再使用4个如图3所示的上采样模块的子块将特征空间分辨率回复到原来的尺度,张量形式表示为[W L H C1],W=1408,L=1600,H=40,C1=16;
所述上采样模块的子块,首先通过稀疏卷积将横向特征和底层特征进行融合和变换,然后通过稀疏逆卷积对融合后的特征空间分辨率上采样2倍;
最后通过一层压缩特征高度的稀疏卷积层,其卷积核大小为w3×w4×w4,步长为k3×k4×k4,所以经过骨干网络提取的特征表示为张量形式W=1408,L=1600,H=40,C3=128,n为下采样模块子块个数,C3为输出通道数,将其变形为俯视特征图表示形式这里C4=256。
步骤4所述构建区域提案网络中检测头,具体步骤为:
俯视特征图作为检测头的输入;
俯视特征图经过6个卷积核大小为w5×w5、步长为k5×k5、输出通道数减半的卷积层得到中间特征w5=3,k5=1,W=1408,L=1600,C3=128,中间特征首先经过一个卷积核大小为3*3、步长为1*1、输出通道数加倍的反卷积层得到上层特征W=1408,L=1600,C4=256然后中间特征再经过一个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的卷积层将特征分辨率降低2倍,再经过五个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的卷积层和一个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的反卷积层得到下层特征w6=3,k6=1,C4=256;
最后将上层特征和下层特征进行连接操作合成新的俯视特征图W=1408,L=1600,C4=256;
新的俯视特征图再经过一个分类头和一个回归头得到网络预测的框的得分以及位置;
步骤4所述构建区域提案网络的损失函数,具体步骤为:
在俯视特征图的每个像素点上分配两种朝向的锚点,锚点表示形式为
(xa,ya,za,wa,la,ha,θa);
(xa,ya,za)是锚点的中心坐标,wa,la,ha是锚点的宽长高,θa是俯视视角下的旋转角;
为锚点分配二值标签,当锚点与标注框的交并比IoU大于λ1时被认为是正例,其标签σ为1,当锚点与标注框的交并比IoU小于λ2时被认为是反例,其标签σ为0,IoU介于λ1和λ2之间的锚点被忽略;
分类分支的损失函数为:
N表示正反例数量,为W、L是体素特征空间分辨率的宽、长,n是下采样模块子块的个数,表示网络预测的第i个锚点的得分,αt、γ是超参数,分别设置为0.25、2。
回归分支使用Smooth-l1损失作为损失函数,将对回归的参数进行如下形式的编码:
其中,Δrt表示编码值,rg表示标注框参数值,ra表示锚点框参数值,
r∈{x,y,z,w,l,h,θ},(x,y,z)表示框的中心点,w,h,l表示框的宽高长,θ表示俯视视角下的框旋转角,则使用Smooth-l1损失函数作为回归损失如下式所示:
其中为检测头预测的编码值,RPN网络的损失函数为L2=γLcls+ηLbbox,γ、η也是平衡损失函数的超参数,分别设置为1,2。
步骤5:使用点云网络训练集进行训练,通过步骤1的点云数据处理得到初始体素特征,接着通过步骤2的对称点生成模块得到前景点对应的对称点,然后通过步骤3将非空体素中心点与对称点组成增强点云,最后通过步骤4的区域提案网络得到最终的物体检测框,结合综合点云网络的损失函数,使用点云网络训练集中进行训练得到寻优化网络参数,用于构建训练后点云网络。
步骤5所述综合点云网络的损失函数为:
Ltotal=L1+L2=Lseg+Lreg+2Lbbox+Lcls
步骤待寻优参数为:
对称点生成模块的卷积核权值即Wij、区域提案网络的卷积核权值即Wmn,Wij表示第i层第j个卷积核权值,i∈[1,N5],N5为对称点生成模块的卷积层数, 为第i层卷积层的卷积核个数,Wmn为第m层第n个卷积核的权值,m∈[1,N6],N6为区域提案网络的卷积层数, 为第m层卷积层的卷积核个数;
步骤5寻优后参数为:
对称点生成模块的卷积核权值即Wij *、区域提案网络的卷积核权值即Wmn *,Wij *表示第i层第j个卷积核权值,i∈[1,N5],N5为对称点生成模块的卷积层数, 为第i层卷积层的卷积核个数,Wmn *为第m层第n个卷积核的权值,m∈[1,N6],N6为区域提案网络的卷积层数, 为第m层卷积层的卷积核个数;
用梯度反向传播方法寻优,用KITTI数据集中的原始点云数据作为训练集样本为输入,以此指导网络训练,最终取Ltotal最小时的检测结果作为最终的检测结果。
步骤6:将待检测场景的点云数据输入训练后的点云网络,进行3D检测框预测,得待检测场景中目标的3D检测框;
步骤6所述待检测场景中目标的3D检测框表示为:
[x*,y*,z*,w*,l*,h*,θ*]
其中,(x*,y*,z*)表示预测的3D检测框中心点,w*,l*,h*表示预测的3D检测框宽长高,θ*表示预测的3D检测框在俯视视角下的旋转角。
应当理解的是,本申请书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本申请专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本申请权利要求所保护的范围情况下,还可以做出替换或变形,均落入本申请的保护范围之内,本申请的请求保护范围应以所附权利要求为准。
Claims (2)
1.一种基于对称点生成的点云3D目标检测方法,其特征在于,包括以下步骤:
步骤1:过滤点云并体素化检测空间,计算对称点生成模块的输入即体素初始特征,生成前景点标签,生成对称点相对于前景点的位置偏移标签;
步骤2:搭建对称点生成模块,构造对称点生成模块中编码器、解码器,为对称点生成模块分别添加分类头和回归头,构建前景点分割任务的损失函数、对称点预测任务的损失函数,进一步构建对称点生成模块的损失函数;
步骤3:通过对称点生成模块预测的对称点相对于前景点的位置偏移,将预测的对称点组成对称点集,结合对称点集与体素中心点集生成增强点云;
步骤4:定义区域提案网络,构建区域提案网络中骨干网络,构建区域提案网络中检测头,构建区域提案网络网络的损失函数;
步骤5:使用点云网络训练集进行训练,通过步骤1的点云数据处理得到初始体素特征,接着通过步骤2的对称点生成模块得到前景点对应的对称点,然后通过步骤3将非空体素中心点与对称点组成增强点云,最后通过步骤4的区域提案网络得到最终的物体检测框,结合综合点云网络的损失函数,使用点云网络训练集中进行训练得到寻优化网络参数,用于构建训练后点云网络;
步骤6:将待检测场景的点云数据输入训练后的点云网络,进行3D检测框预测,得待检测场景中目标的3D检测框;
步骤1所述过滤点云并体素化检测空间为:
原始点云为:
其中,表示第i个点的坐标,分别表示第i个点的x轴坐标、y轴坐标、z轴坐标,过滤掉原始点云中不在检测范围内的点,所述检测范围为
则过滤后的点云为其中Oj表示检测范围空间内第j个点的坐标,分别表示检测范围空间内第j个点的x轴坐标、y轴坐标、z轴坐标;
之后对检测范围空间进行体素化,体素尺寸为wv×lv×hv,wv,lv,hv分别表示体素的宽长高,则体素中心点集合为:
其中,V(k,m,n)表示x轴方向上第k个、y轴方向上第m个、z轴方向上第n个体素中心点的坐标,具体计算公式如下:
体素化后的空间分辨率为W×L×H;体素中心点集合也可以简化表示成如下形式其中Vi表示第i个体素中心点,N3=W×L×H;
步骤1所述计算对称点生成模块的输入即体素初始特征为:
坐标为(k,m,n)的体素的初始特征f(k,m,n)为落在其内部的点的坐标平均值,具体计算公式如下:
其中N(k,m,n)表示落在坐标为(k,m,n)的体素内点的数量,Oq表示落在坐标为(k,m,n)的体素内第q个的坐标, 因此所述体素初始特征为:
F={f(k,m,n)|k∈[1,W],m∈[1,L],n∈[1,H],k,m,n∈Z}
其中,所述F的空间分辨率也为W×L×H,其张量表示形式为[W L H 3];
步骤1所述生成前景点标签为:
所谓前景点就是落在3D标注框内部的体素中心点,用(px,py,pz)表示前景点坐标,其标签s为1,数量为Npos;落在3D标注框内部的体素中心点被称作背景点,其标签s=0;
用(xg,yg,zg,wg,lg,hg,θg)表示3D标注框,其中(xg,yg,zg)表示3D标注框的中心点坐标,wg,lg,hg表示3D标注框的宽长高,θg表示俯视视角下的旋转角;
步骤1生成对称点相对于前景点的位置偏移标签为:
首先使用下面公式计算出前景点在3D标注框内的对称点:
其中(rx,ry,rz)表示前景点在3D框中的相对位置坐标;接着可以计算出对称点的相对位置坐标(1-rx,ry,rz),最后利用下面公式计算出对称点的位置标签(px′,py′,pz′)
tx′=(1-rx)w-0.5,ty′=ryl-0.5,pz′=rzh-0.5+cz
则对称点相对于前景点的位置偏移标签为ΔP=(px′-px,py′-py);
步骤2所述搭建对称点生成模块具体为:
所述对称点生成模块由编码器、解码器、任务头依次级联组成;
所述编码器由升维模块、下采样模块级联组成;
所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成,用来将特征的维度升高,其输入是初始体素特征,输出为升维后的体素特征,用张量表示为[W L H C1],C1为维度,W、L、H是其空间分辨率的宽、长、高;子流形卷积层的卷积核大小都为w1×w1×w1,步长都为k1×k1×k1;
所述下采样模块由三个下采样子块组成;每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成,用来降低特征的空间分辨率,减少计算量,其输入为升维后的体素特征,其输出为空间分辨率降低为2n倍的体素特征,这里n为子块个数,用张量表示为稀疏卷积层和稀疏卷积层的卷积核大小都为w1×w1×w1,步长都为k2×k2×k2;
所述解码器由上采样模块组成;
上采样模块由四个上采样子块构成,每个上采样子块由第一层稀疏卷积层、第二层稀疏卷积层、稀疏反卷积层组成,其输入为空间分辨率降低的体素特征,输出为原始空间分辨率的体素特征,其张量表示与升维后的体素特征相同,为[W L H C1];稀疏卷积层和稀疏反卷积层的卷积核大小均为w1×w1×w1,步长都为k2×k2×k2;
所述任务头由分类头和回归头并联组成;
所述的分类头和回归头均由一层线性层组成,其输入都是原始空间分辨率的体素特征;分类头的线性层的输入、输出维度分别为C1、C3,分类头的线性层的输入、输出维度分别为C1、C4;输出分别是每个点的前景点分割分数以及其对称点相对于自身的偏移;卷积层的当一个点的前景点分割分数阈值T则被这个点被网络认为是前景点,将网络预测的前景点对应的对称点和体素中心点组成增强点云作为区域提案网络的输入;
上述模块的待寻优参数都是各个层的卷积核权值Wij,Wij表示第i层第j个卷积核权值;
步骤2所述构造对称点生成模块中编码器、解码器为:
将一个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的稀疏卷积层和两个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的子流形卷积层组成的结构称为一个下采样模块的子块,这里令w1=3,k2=3;
用于输入初始体素特征,首先使用升维模块,即两个卷积核尺寸为w1×w1×w1、步长为k1×k1×k1的子流形卷积层将初始体素特征的维度升到C1维;这里令k1=1,C1=16;
然后使用3个子块将特征空间分辨率下采样n倍,特征维度C1从变为2C1,C2,C2;
最终的下采样特征使用张量形式表示为
接着再使用4个上采样模块的子块将特征空间分辨率回复到原来的尺度,张量形式表示为[W L H C1];
所述上采样模块的子块,首先通过稀疏卷积将横向特征和底层特征进行融合和变换,然后通过稀疏逆卷积对融合后的特征空间分辨率上采样2倍;
步骤2所述分别添加分类头和回归头为:
对称点生成模块需要输出的是前景点预测分数和对称点相对于前景点的位置偏移 分别表示网络预测的x、y方向上的位置偏移;因此需要添加在编码器解码器后并行添加一个分割模块输出前景点预测分数以及一个回归模块输出对称点相对于前景点的位置偏移;
所述分割模块由一层线性层构成,其输入为编码器-解码器结构的输出特征[W L HC1],其输出为体素中心点的前景点预测分数,是一个[N3 1]的张量,N3是体素中心点个数;
所述回归模块由一层线性层构成,其输入为编码器-解码器结构的输出特征[W L HC1],其输出为对称点相对于前景点的位置偏移,是一个[N3 2]的张量,N3是体素中心点个数;
步骤2所述构建前景点分割任务的损失函数、对称点预测任务的损失函数,进一步构建对称点生成模块的损失函数为:
前景点分割任务的损失函数如下式所示:
其中,si定义为二值标签,用来表示第i个体素中心点是否是前景点,是的话值为1,否则为0;是分割头输出的坐标第i个体素中心点的前景点预测分数,在区间[0,1]范围内;Npos是前景点的个数;αt、γ分别是第一超参数、是第二超参数;
网络预测的第i个对称点相对于第i个体素中心点的位置偏移为则对称点预测任务使用smooth-l1函数作为损失函数如下式所示:
其中,II[si=1]是一个指示函数,si是第i个点的类别标签,Npos为前景点个数,N3为体素中心点个数,ΔPi是第i个对称点相对于第i个体素中心点的位置偏移标签;
所述对称点生成模块的损失函数为:
L1=αLseg+βLreg
其中,α、β分别是平衡损失函数的第一超参数、平衡损失函数的第二超参数;
步骤3所述通过对称点生成模块预测的对称点相对于前景点的位置偏移为:
为对称点生成模块预测的x方向的偏移,为对称点生成模块预测的x方向的偏移,算出预测的前景点对应的对称点位置为
px、py、pz是前景点的x,y,z坐标;
步骤3所述将预测的对称点组成对称点集为:
Si是第i个对称点坐标,为是第i个对称点的x坐标,为是第i个对称点的y坐标,为是第i个对称点的z坐标;
将步骤3所述对称点集与体素中心点集组成增强点云为:
Ei是第i个增强点坐标,为是第i个增强点的x坐标,为是第i个增强点的y坐标,为是第i个增强点的z坐标,再进行一次前述步骤1中体素化空间方法,并生成初始体素特征作为RPN网络中骨干网络的输入;
步骤4所述区域提案网络由骨干网络和检测头级联组成;
骨干网络用来降低空间分辨率,提取具有高层语义的俯视图特征,由编码器构成,所述编码器由升维模块、下采样模块以及高度压缩模块级联组成;
所述升维模块由第一层子流形卷积层、第二层子流形卷积层级联组成,用来将特征的维度升高,其输入是初始体素特征,输出为升维后的体素特征,用张量表示为[W L H C1],C1为维度,W、L、H是其空间分辨率的宽、长、高;子流形卷积层的卷积核大小都为w1×w1×w1,步长都为k1×k1×k1;
所述下采样模块由三个下采样子块组成;每个下采样子块均由稀疏卷积层、第一层子流形卷积层、第二层子流形卷积层级联组成,用来降低特征的空间分辨率,减少计算量,其输入为升维后的体素特征,其输出为空间分辨率降低为2n倍的体素特征,这里n为子块个数,用张量表示为稀疏卷积层和稀疏卷积层的卷积核大小都为w1×w1×w1,步长都为k2×k2×k2;
所述高度压缩模块由一层稀疏卷积层组成,其卷积核大小为w3×w4×w4,步长为k3×k4×k4,其输入为体素化增强点云的体素初始特征,输出为俯视特征图,用张量表示为n为下采样模块个数;
检测头由上分支、下分支、回归头、分类头组成,上分支由六个卷积层和一个反卷积层级联组成,卷积层和反卷积层的卷积核大小均为w5×w5,步长为k5×k5;
下分支也由六个卷积层和一个反卷积层级联组成,卷积层的大小为w6×w6,步长为k6×k6;
回归头与分类头都由一层卷积层组成,其卷积核大小为w7×w7,步长为k7×k7;
检测头的输入为俯视特征图,输出为检测框的置信度以及检测框相对于锚点的位置偏移;
网络的待寻优参数为各层的卷积核权值Wmn,Wmn为第m层第n个卷积核的权值;
步骤4所述构建区域提案网络中骨干网络为:
将一个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的稀疏卷积层和两个卷积核尺寸为w1×w1×w1、步长为k2×k2×k2的子流形卷积层组成的结构称为一个下采样模块的子块;
用于输入初始体素特征,首先使用升维模块,即两个卷积核尺寸为w1×w1×w1、步长为k1×k1×k1的子流形卷积层将初始体素特征的维度升到C1维;
然后使用3个子块将特征空间分辨率下采样n倍,特征维度C1从变为2C1,C2,C2;这里令C2=64,n=8;
最终的下采样特征使用张量形式表示为
接着再使用4个上采样模块的子块将特征空间分辨率回复到原来的尺度,张量形式表示为[W L H C1];
所述上采样模块的子块,首先通过稀疏卷积将横向特征和底层特征进行融合和变换,然后通过稀疏逆卷积对融合后的特征空间分辨率上采样2倍;
最后通过一层压缩特征高度的稀疏卷积层,其卷积核大小为w3×w4×w4,步长为k3×k4×k4,所以经过骨干网络提取的特征表示为张量形式
n为下采样模块子块个数,C3为输出通道数,将其变形为俯视特征图表示形式这里C4=256;
步骤4所述构建区域提案网络中检测头为:
俯视特征图作为检测头的输入;
俯视特征图经过6个卷积核大小为w5×w5、步长为k5×k5、输出通道数减半的卷积层得到中间特征中间特征首先经过一个卷积核大小为3*3、步长为1*1、输出通道数加倍的反卷积层得到上层特征然后中间特征再经过一个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的卷积层将特征分辨率降低2倍,再经过五个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的卷积层和一个卷积核大小为w6×w6、步长为k6×k6、输出通道数不变的反卷积层得到下层特征
最后将上层特征和下层特征进行连接操作合成新的俯视特征图
新的俯视特征图再经过一个分类头和一个回归头得到网络预测的框的得分以及位置;
步骤4所述构建区域提案网络的损失函数为:
在俯视特征图的每个像素点上分配两种朝向的锚点,锚点表示形式为(xa,ya,za,wa,la,ha,θa);
(xa,ya,za)是锚点的中心坐标,wa,la,ha是锚点的宽长高,θa是俯视视角下的旋转角;
为锚点分配二值标签,当锚点与标注框的交并比IoU大于λ1时被认为是正例,其标签σ为1,当锚点与标注框的交并比IoU小于λ2时被认为是反例,其标签σ为0,IoU介于λ1和λ2之间的锚点被忽略;
分类分支的损失函数为:
N表示正反例数量,为W、L是体素特征空间分辨率的宽、长,n是下采样模块子块的个数,表示网络预测的第i个锚点的得分,αt、γ是超参数;
回归分支使用Smooth-l1损失作为损失函数,将对回归的参数进行如下形式的编码:
其中,Δrt表示编码值,rg表示标注框参数值,ra表示锚点框参数值,
r∈{x,y,z,w,l,h,θ},(x,y,z)表示框的中心点,w,h,l表示框的宽高长,θ表示俯视视角下的框旋转角,则使用Smooth-l1损失函数作为回归损失如下式所示:
其中为检测头预测的编码值,RPN网络的损失函数为L2=γLcls+ηLbbox,γ、η也是平衡损失函数的超参数;
步骤5所述综合点云网络的损失函数为:
Ltotal=L1+L2=Lseg+Lreg+2Lbbox+Lcls
步骤待寻优参数为:
对称点生成模块的卷积核权值即Wij、区域提案网络的卷积核权值即Wmn,Wij表示第i层第j个卷积核权值,i∈[1,N5],N5为对称点生成模块的卷积层数, 为第i层卷积层的卷积核个数,Wmn为第m层第n个卷积核的权值,m∈[1,N6],N6为区域提案网络的卷积层数, 为第m层卷积层的卷积核个数;
步骤5寻优后参数为:
对称点生成模块的卷积核权值即Wij *、区域提案网络的卷积核权值即Wmn *,Wij *表示第i层第j个卷积核权值,i∈[1,N5],N5为对称点生成模块的卷积层数, 为第i层卷积层的卷积核个数,Wmn *为第m层第n个卷积核的权值,m∈[1,N6],N6为区域提案网络的卷积层数, 为第m层卷积层的卷积核个数;
用梯度反向传播方法寻优,用KITTI数据集中的原始点云数据作为训练集样本为输入,以此指导网络训练,最终取Ltotal最小时的检测结果作为最终的检测结果。
2.根据权利要求1所述的基于对称点生成的点云3D目标检测方法,其特征在于:
步骤6所述待检测场景中目标的3D检测框表示为:
[x*,y*,z*,w*,l*,h*,θ*]
其中,(x*,y*,z*)表示预测的3D检测框中心点,w*,l*,h*表示预测的3D检测框宽长高,θ*表示预测的3D检测框在俯视视角下的旋转角。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011501459.1A CN112598635B (zh) | 2020-12-18 | 2020-12-18 | 一种基于对称点生成的点云3d目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011501459.1A CN112598635B (zh) | 2020-12-18 | 2020-12-18 | 一种基于对称点生成的点云3d目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112598635A CN112598635A (zh) | 2021-04-02 |
CN112598635B true CN112598635B (zh) | 2024-03-12 |
Family
ID=75199405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011501459.1A Active CN112598635B (zh) | 2020-12-18 | 2020-12-18 | 一种基于对称点生成的点云3d目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598635B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850270B (zh) * | 2021-04-15 | 2024-06-21 | 北京大学 | 基于点云-体素聚合网络模型的语义场景补全方法及系统 |
CN113674369B (zh) * | 2021-07-27 | 2024-04-09 | 闽都创新实验室 | 一种深度学习采样改进g-pcc压缩的方法 |
CN113705631B (zh) * | 2021-08-10 | 2024-01-23 | 大庆瑞昂环保科技有限公司 | 一种基于图卷积的3d点云目标检测方法 |
CN114419617A (zh) * | 2022-01-27 | 2022-04-29 | 中国第一汽车股份有限公司 | 一种目标检测方法、装置、设备及存储介质 |
WO2023222062A1 (zh) * | 2022-05-19 | 2023-11-23 | 安徽蔚来智驾科技有限公司 | 自动驾驶的目标检测方法、装置、介质及车辆 |
CN115131758B (zh) * | 2022-07-01 | 2024-06-14 | 上海人工智能创新中心 | 一种基于轻量化点云补全的地面高度估计方法及系统 |
CN115131562B (zh) * | 2022-07-08 | 2023-06-13 | 北京百度网讯科技有限公司 | 三维场景分割方法、模型训练方法、装置和电子设备 |
CN117456503B (zh) * | 2023-10-23 | 2024-07-09 | 北京理工大学前沿技术研究院 | 一种三维目标检测方法、系统、存储介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171217A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于点融合网络的三维物体检测方法 |
WO2018127789A1 (en) * | 2017-01-03 | 2018-07-12 | Innoviz Technologies Ltd. | Lidar systems and methods for detection and classification of objects |
CN110032962A (zh) * | 2019-04-03 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 一种物体检测方法、装置、网络设备和存储介质 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110533721A (zh) * | 2019-08-27 | 2019-12-03 | 杭州师范大学 | 一种基于增强自编码器的室内目标物体6d姿态估计方法 |
CN111144304A (zh) * | 2019-12-26 | 2020-05-12 | 上海眼控科技股份有限公司 | 车辆目标检测模型的生成方法、车辆目标检测方法及装置 |
CN111145174A (zh) * | 2020-01-02 | 2020-05-12 | 南京邮电大学 | 基于图像语义特征进行点云筛选的3d目标检测方法 |
WO2020108311A1 (zh) * | 2018-11-29 | 2020-06-04 | 北京市商汤科技开发有限公司 | 目标对象3d检测方法、装置、介质及设备 |
-
2020
- 2020-12-18 CN CN202011501459.1A patent/CN112598635B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018127789A1 (en) * | 2017-01-03 | 2018-07-12 | Innoviz Technologies Ltd. | Lidar systems and methods for detection and classification of objects |
CN108171217A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于点融合网络的三维物体检测方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
WO2020108311A1 (zh) * | 2018-11-29 | 2020-06-04 | 北京市商汤科技开发有限公司 | 目标对象3d检测方法、装置、介质及设备 |
CN110032962A (zh) * | 2019-04-03 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 一种物体检测方法、装置、网络设备和存储介质 |
CN110533721A (zh) * | 2019-08-27 | 2019-12-03 | 杭州师范大学 | 一种基于增强自编码器的室内目标物体6d姿态估计方法 |
CN111144304A (zh) * | 2019-12-26 | 2020-05-12 | 上海眼控科技股份有限公司 | 车辆目标检测模型的生成方法、车辆目标检测方法及装置 |
CN111145174A (zh) * | 2020-01-02 | 2020-05-12 | 南京邮电大学 | 基于图像语义特征进行点云筛选的3d目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112598635A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598635B (zh) | 一种基于对称点生成的点云3d目标检测方法 | |
Zamanakos et al. | A comprehensive survey of LIDAR-based 3D object detection methods with deep learning for autonomous driving | |
Gosala et al. | Bird’s-eye-view panoptic segmentation using monocular frontal view images | |
Fernandes et al. | Point-cloud based 3D object detection and classification methods for self-driving applications: A survey and taxonomy | |
CN111145174B (zh) | 基于图像语义特征进行点云筛选的3d目标检测方法 | |
Yu et al. | A real-time detection approach for bridge cracks based on YOLOv4-FPM | |
Sirohi et al. | Efficientlps: Efficient lidar panoptic segmentation | |
CN111201451B (zh) | 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置 | |
WO2024130776A1 (zh) | 一种基于深度学习的三维激光雷达点云语义分割的方法和装置 | |
CN111832655A (zh) | 一种基于特征金字塔网络的多尺度三维目标检测方法 | |
CN116229452B (zh) | 一种基于改进的多尺度特征融合的点云三维目标检测方法 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及系统 | |
CN113191204B (zh) | 一种多尺度遮挡行人检测方法及系统 | |
CN117173399A (zh) | 一种跨模态交叉注意力机制的交通目标检测方法及系统 | |
Liu et al. | PVConvNet: Pixel-Voxel Sparse Convolution for multimodal 3D object detection | |
CN114118247A (zh) | 一种基于多传感器融合的无锚框3d目标检测方法 | |
Zhang et al. | Multi-scale keypoints feature fusion network for 3D object detection from point clouds | |
CN116883767A (zh) | 一种基于多源信息多尺度融合的目标检测方法 | |
CN116682105A (zh) | 一种毫米波雷达和视觉特征注意力融合的目标检测方法 | |
Li et al. | 6DoF-3D: Efficient and accurate 3D object detection using six degrees-of-freedom for autonomous driving | |
CN116630915A (zh) | 一种具有关系增广注意力的逆序分层鸟瞰图推理方法 | |
CN116486352A (zh) | 基于道路约束的车道线鲁棒检测与提取方法 | |
CN115862000A (zh) | 目标检测方法、装置、车辆及存储介质 | |
CN115761229A (zh) | 一种基于多分类器的图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |