CN114463737A

CN114463737A - 一种基于3d建模中隐式表示的3d目标检测方法和系统

Info

Publication number: CN114463737A
Application number: CN202210107083.9A
Authority: CN
Inventors: 付彦伟; 薛向阳; 王丽; 钱学林
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-10

Abstract

本发明涉及一种基于3D建模中隐式表示的3D目标检测方法和系统，方法包括采集点云数据并进行预处理，得到预处理点云数据；根据得到的预处理点云数据，在点云维度和体素维度上分别提取出对应的特征，并将这两种特征结合并转换为鸟瞰图特征；对鸟瞰特征图上的每个像素点进行坐标和特征偏移，筛选并采样出最大概率的候选中心点；使用隐式函数对以候选中心点为单位的周围局部三维空间内包含的所有点赋值，并根据赋予的结果生成目标边界框；通过将生成的目标边界框内的特征进行结合对边界框进行优化。与现有技术相比，本发明具有速度快、精确度高、鲁棒性好等优点，适用于三维场景下的目标检测和分割等应用。

Description

一种基于3D建模中隐式表示的3D目标检测方法和系统

技术领域

本发明涉及视觉检测领域，尤其是涉及一种基于3D建模中隐式表示的3D目标检测方法和系统。

背景技术

近年来，目标检测技术在学术界和工业界引起了广泛关注，其广泛应用包括当前热门的虚拟现实，自动驾驶和机器人等。目标检测技术根据任务主要分为2D和3D目标检测。其中，2D目标检测在视觉中是一项基础且应用性极高的任务，它的任务是将图片中的物体识别出来并定位其在像素级别上的区域位置。

随着深度神经网络在计算机视觉领域的迅速发展，卷积神经网络的重新引入使得2D目标检测任务取得了前所未有的成就。然而，仅仅只根据图片定位物体在现实应用中存在很多局限性，如在自动驾驶中需要知道目标物体具体的距离以及朝向来进行更准确的空间路径规划和导航。因此，3D目标检测逐渐兴起并蓬勃发展。3D目标检测在2D目标检测的基础上增加了对目标的旋转朝向、三维空间中的长宽高以及中心定位。在3D目标检测领域，最常见的是使用激光雷达(LiDAR)传感器生成的点云作为算法的输入进行进一步的检测。尽管LiDAR点云可以捕获周围环境的精确距离测量和几何信息，但其不规则、稀疏和无序的特性使其难以编码，并且难以直接继承二维(2D)目标检测的成熟的网络框架和算法结构。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于3D建模中隐式表示的3D目标检测方法和系统。

本发明的目的可以通过以下技术方案来实现：

一种基于3D建模中隐式表示的3D目标检测方法，包括以下步骤：

采集从LiDAR收集到的点云数据并进行预处理，得到预处理点云数据；

根据得到的预处理点云数据，在点云维度和体素维度上分别提取出对应的特征，并将这两种特征结合并转换为鸟瞰图特征；

对鸟瞰特征图上的每个像素点进行坐标和特征偏移，筛选并采样出最大概率的候选中心点；

使用隐式函数对以候选中心点为单位的周围局部三维空间内包含的所有点赋值，并根据赋予的结果生成目标边界框；

通过将生成的目标边界框内的特征进行结合对边界框进行优化。

进一步地，预处理点云数据具体包括以下步骤：

根据检测范围仅保留符合x、y和z轴方向上范围内的点云数据形成点云集合；

将点云集合按照三维空间的体素大小分割成立体网格体素，每个体素中包含的点个数超过设定数量时，对其进行随机采样，使每个体素网格中包含的点个数不超过设定数量。

进一步地，预处理点云数据在点云维度和体素维度上分别提取对应的特征具体包括以下步骤：

将预处理点云数据经过一个多层感知机得到点特征向量；

将得到的点特征向量送入多个体素特征提取层，为每个网格体素获取初始特征；

将得到的点特征向量和得到的初始特征融合后送入一个MLP层，得到点云维度的特征；

将得到的初始特征送入多个3D稀疏卷积块中，得到体素维度的特征；将体素维度的特征沿着z轴压缩并送入多尺度2D卷积层中，从而得到2D的鸟瞰图特征。

进一步地，在鸟瞰特征图上筛选并采样出最大概率的候选中心点的具体包括以下步骤：

将鸟瞰特征图上的每个像素点朝其真实中心点的位置调整，即将鸟瞰特征f^(bev)送入一个MLP层来为鸟瞰特征上的每个像素点生成中心偏移以及特征偏移，通过添加偏移量，候选中心的表示式为

p^(ctr)＝p^(ofs)+p^(bev)

f^(ctr)＝f^(ofs)+f^(bev)

其中，p^(bev)和f^(bev)分别表示鸟瞰特征图上每个像素点的坐标和特征，p^(ctr)和f^(ctr)分别表示候选中心点的坐标和特征，p^(ofs)表示中心偏移，f^(ofs)表示特征偏移；

对偏移后得到的候选中心进行质量筛选和采样，使用3D中心距离作为衡量质量的标准。

进一步地，生成目标边界框具体包括以下步骤：

对候选中心点使用采样策略获取其周围局部三维空间中的点云坐标和特征，其中采样点包括原始点和虚拟点；

使用隐式函数对局部三维空间中采样的每个点赋值，赋值表示为

具体地，隐式函数产生以候选中心为条件的内核，该内核与采样点进行卷积，以动态地调整采样点的赋值结果；同理计算得到每个采样的原始点的赋值结果

将基于候选中心点的两类采样点的赋值结果统称为

根据设定阈值和赋值结果筛选局部三维空间内的采样点，根据筛选后的点生成目标边界。

进一步地，使用采样策略获取其周围局部三维空间中的点云坐标和特征具体包括以下步骤：

步骤一，给定一个候选中心点

通过绘制一个半径为r的球来获取其周围的局部空间，并从空间中随机选择m个原始点作为采样点；

步骤二，对于每个采样的原始点

收集其对应的基于点的特征f^(point)并标记为

步骤三，将一系列虚拟点

均匀地放置在候选中心点

周围；

步骤四，在虚拟点

中同样随机采样m个虚拟点；

步骤五，对于采样得到的虚拟点，采用K邻近算法从体素特征

中插值得到虚拟点特征；

步骤六，将插值得到的虚拟点特征送入一个MLP层进行编码，将虚拟点坐标和特征分别标记为

和

进一步地，根据设定阈值和赋值结果筛选局部三维空间内的采样点，然后根据筛选后的点生成目标边界具体包括以下步骤：

步骤一，

的值高于设定阈值则视为目标区域内部的点，否则为目标区域外部的点；

步骤二，生成边界框的大小：利用最小外接矩形来生成一个拟合所有内部点的轴平行边界框；

步骤三，生成边界框的方向：将方向空间从[0,2π]缩小至

然后将其分多个不同的角度，计算目标边框点内的采样点到面的距离，选择距离和最小的一个边界框，对应的角度则作为边界框的角度r_a；同时通过比较边界框的长l_a和宽w_a，经验性地将方向范围矫正到[0,π]，其表达式为：

其中，r_a表示边界框的角度，l_a表示边界框的长，w_a表示边界框的宽。

进一步地，对生成的目标边界框进行优化的过程包括如下步骤：

重用隐含值，通过聚合内部采样点的特征并抑制外部点的特征影响来细化调整边界框，具体为在每个边界框内均匀地采样多个网格点，然后采用点集抽象层来聚合在每个网格点位置的内部点特征以及体素特征；

拼接所有网格点的特征并将它们输入到检测头中；检测头由三个并行分支构建，分别用于分类置信度预测、方向预测和框边界细化。

进一步地，对所述检测头的三个并行分支中，每个分支有四个MLP层，通道数为256，所有分支并共享前两层。

一种基于3D建模中隐式表示的3D目标检测系统，包括：

点云数据预处理部，用于采集从LiDAR收集到的点云数据并进行预处理，得到预处理点云数据；

根点云特征提取部，用于根据据得到的预处理点云数据，在点云维度和体素维度上分别提取出对应的特征，并将这两种特征结合并转换为鸟瞰图特征；

目标中心点采样部，用于对鸟瞰特征图上的每个像素点进行坐标和特征偏移，筛选并采样出最大概率的候选中心点；

隐式目标边界生成部，用于使用隐式函数对以候选中心点为单位的周围局部三维空间内包含的所有点赋值，并根据赋予的结果生成目标边界框；

候选区域集成部，用于通过将生成的目标边界框内的特征进行结合对边界框进行优化。

与现有技术相比，本发明具有以下有益效果：

1、本发明采用了对局部三维空间内包含的点进行赋值，根据赋予的结果来区分内部点和外部点，从而基于内部点生成目标边界框，相比于传统的超参定义目标边界框，隐式表示的方式具有很好的鲁棒性；

2、本发明采用了隐式函数对以候选中心点为单位的周围局部三维空间内包含的所有点赋值，并根据赋予的结果生成目标边界框，因此在预测边界框时无需依赖任何需要精调的锚点框。

3、本发明采用了3D建模中的隐式表示，即对局部三维空间内的点进行赋值，根据赋予的结果生成目标边界框，并通过将生成的目标边界框内的特征进行结合对边界框进行优化，因此具有速度快、精确度高、鲁棒性好等优点，能够有效地将分割任务应用于目标检测中，提升对3D场景的理解和解析。

附图说明

图1是本发明实施例一的流程框图。

图2是本发明实施例一的隐式目标边界生成部边界生成示意图。

图3是本发明实施例二的结构示意图

图4是本发明实施例二的流程示意图。

图5是本发明实施例二的流程框图。

图6是本发明实施例三的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例一

如图1所示，本实施例提供了一种基于3D建模中隐式表示的3D目标检测方法，具体步骤如下：

步骤S1、采集从LiDAR收集到的点云数据并进行预处理，得到预处理点云数据。

步骤S2、根据得到的预处理点云数据，在点云维度和体素维度上分别提取出对应的特征，并将这两种特征结合并转换为鸟瞰图特征。

步骤S3、对鸟瞰特征图上的每个像素点进行坐标和特征偏移，筛选并采样出最大概率的候选中心点。

步骤S4、使用隐式函数对以候选中心点为单位的周围局部三维空间内包含的所有点赋值，并根据赋予的结果生成目标边界框。

步骤S5、通过将生成的目标边界框内的特征进行结合对边界框进行优化。

一、步骤S1的具体展开如下：

步骤S1-1，根据检测范围设置仅保留符合x、y和z轴方向上设置范围内的点云集合，其保留符合检测范围的点云集合包含如下步骤：步骤S1-1-a，读取点云数据

其中，(x_i,y_i,z_i)为三维空间坐标值，r_i为点的强度值，N是点云的总数量；步骤S1-1-b，根据x、y和z轴设置的范围剔除越界点云数据。

步骤S1-2，将整个点云集合按照三维空间的体素大小分割成立体网格体素，每个体素中仅最多采样5个点云点。特别地，根据体素大小(x_s,y_s,z_s)对点云数据进行网格划分，每个三维网格体素中包含的点个数超过5个时，对其进行随机采样，使每个体素网格中包含的点个数不超过5，这时，点云数据集合表示为P₁。

在本实例中，x、y和z轴设置的范围值分别为：[0,70.4]m、[-40,40]m和[-3,1]m。将体素大小设置为[0.05,0.05,0.1]m。

二、步骤S2的具体展开如下：

步骤S2-1，将步骤S1得到的点云集合P₁经过一个多层感知机(MLP)得到点特征向量。

步骤S2-2，将得到的点特征向量送入多个体素特征提取层，为每个网格体素获取初始特征

步骤S2-3，将S2-1得到的点特征向量和S2-2得到的初始特征融合后送入一个MLP层，得到基于点的特征f^(point)。

步骤S2-4，将S2-2得到的初始特征

送入多个3D稀疏卷积块中，得到基于体素的多尺度特征

步骤S2-5，将体素特征

沿着z轴压缩并送入多尺度2D卷积层中，从而得到2D的鸟瞰图特征

其中H，W和C分别表示鸟瞰图特征的长、宽和特征维度。

在本实例中，步骤S2-2中的两层体素特征提取层分别包含通道数为32和64。步骤S2-4中的3D稀疏卷积块的输出通道数分别为32，32，64，64和128。在步骤S2-5中的多尺度2D卷积层结构由2个卷积层和2个反卷积层组成，其输出通道数为128。

三、步骤S3的具体展开如下：

步骤S3-1，将鸟瞰图特征f^(bev)上的每个像素点朝其真实中心点的位置调整，即将鸟瞰特征f^(bev)送入一个MLP层来为鸟瞰特征上的每个像素点生成中心偏移

以及特征偏移

通过添加偏移量，候选中心可以表示为

p^(cfr)＝p^(ofs)+p^(bev)

f^(ctr)＝f^(ofs)+f^(bev)

其中，p^(bev)和f^(bev)分别表示鸟瞰图上每个像素点的坐标和特征。

步骤S3-2，对偏移后得到的候选中心进行质量筛选和采样，使用3D中心距离作为衡量质量的标准：

其中，x_f,x_b,y_l,y_r,z_t和z_b分别表示候选中心到真实目标框前、后、左、右、上和下六个面的距离；s^(ctrns)的值越接近1表示候选中点越接近真实目标中心，当s^(ctrns)为0时，表示调整的像素点在目标区域之外。在训练和测试的过程中，该值通过将中心特征f^(ctr)送入一个MLP层和sigmoid非线性层来进行预测。

在本实施例中，共采样出最优的512个候选中心点。

四、步骤S4的具体展开如图2所示：

步骤S4-1根据步骤S3得到的中心点，采用采样策略获取周围局部三维空间中的点云坐标和特征。其中，步骤S4-1又包含以下子步骤：

步骤S4-1-a，给定一个候选中心点

通过绘制一个半径为r的球来获取其周围的局部空间，并从空间中随机选择m个原始点。采样点集定义为：

其中，

表示以候选中心点

为中心，进行局部空间点采样操作；

表示局部空间内的原始点；r为球形局部三维空间的半径；

步骤S4-1-b，对于每个采样的原始点

收集其对应的基于点的特征f^(point)并标记为

步骤S4-1-c，将一系列虚拟点

以网格大小为S×S×S，间距为(x_s,y_s,z_s)的设置均匀地放置在候选中心点

周围；

步骤S4-1-d，为了减少计算量，在虚拟点

中同样随机采样m个虚拟点；

步骤S4-1-e，对于采样得到的虚拟点，为了获取对应的特征，采用K邻近算法从体素特征

中插值得到虚拟点特征；

步骤S4-1-f，将插值得到的虚拟点特征送入一个MLP层进行编码。类似地，将虚拟点坐标和特征分别标记为：

和

步骤S4-2使用隐式函数对采样的每个点赋值；一个采样点是否属于一个目标区域(即框内)取决于其对应的候选中心。两个点的欧氏距离或特征距离越近，它们属于同一个框(目标)的概率就越高。这里采用一个隐式函数来产生以候选中心为条件的内核，该内核与采样点进行卷积，以便动态地调整采样点的赋值结果。这里的内核可以表示为：

生成的内核θ_k被重塑为两个卷积层的参数，通道数为16。以虚拟采样点为例，其赋值可表示为：

可以看出，

的值由采样的点

和对应的体素特征

共同决定。同理，可以计算得到每个采样的原始点的赋值结果

将基于候选中心点

的两类采样点的赋值结果统称为

步骤S4-3根据阈值筛选局部三维空间内的采样点，根据这些点生成目标边界。此过程包含以下子步骤：

步骤S4-3-a，根据阈值设置，

的值高于阈值则视为目标区域内部的点，否则为目标区域外部的点；

步骤S4-3-b，生成边界框的大小：利用最小外接矩形来生成一个拟合所有内部点的轴平行边界框；

步骤S4-3-c，生成边界框的方向：将方向空间从[0,2π]缩小至

然后将其分为h＝7个不同的角度，计算目标边框点内的采样点到面的距离，选择距离和最小的一个边界框，对应的角度则作为边界框的角度r_a。同时通过比较边界框的长l_a和宽w_a，经验性地将方向范围矫正到[0,π]：

在本实例中，S4-1中，将半径r设置为3.2m，随机采样m＝256个点，网格大小设置S＝10，间距(x_s,y_s,z_s)＝(0.6,0.6,0.3)m。

五、步骤S5的具体展开如下：

步骤S5-1重用隐含值

通过聚合内部采样点的特征并抑制外部点的特征影响来细化调整边界框。具体来说，在每个边界框内均匀地采样6×6个网格点。然后，采用点集抽象层来聚合在每个网格点位置的内部点特征以及体素特征

和

步骤S5-2拼接所有网格点的特征并将它们输入到检测头中。检测头由三个并行分支构建，分别用于分类置信度预测、方向预测和框边界细化。特别地，每个分支有四个MLP层，通道数为256，所有分支并共享前两层。

实施例二

如图3所示，本实施例公开了一种基于3D建模中隐式表示的3D目标检测系统，包括点云数据预处理部101、点云特征提取部102、目标中心点采样部103、隐式目标边界生成部104、候选区域集成部105、画面存储部106、输出显示部107、系统通信部108以及用于控制上述各部的系统控制部109。

点云数据预处理部101用于对得到的待分析点云数据进行数据预处理，得到预处理点云数据。在本实施例中，点云数据是三维空间中激光雷达产生的点坐标集合，点云数据是3D检测中最常用的数据输入形式。

点云特征提取部102使用在点维度和体素维度上分别提取出对应的特征并将这两种特征结合并转换到为鸟瞰特征。

目标中心采样部103对鸟瞰特征图上的每个像素点进行偏移，并采样出最大概率的候选中心点。

隐式目标边界生成部104使用隐式函数对以候选中心点为单位的周围局部三维空间内包含的所有点赋值，并根据赋予的结果生成高质量的目标边界。

候选区域集成部105通过将生成的目标边界框内的采样点特征进行融合对边界框进行优化。

画面存储部106用于存储检测输出结果的画面。本实施例中，画面存储部106存储在候选区域集成部106中优化后的检测结果。

输出显示部107用于显示接受自系统通信部108传输的检测结果，从而让用户通过这些画面完成相应的人机交互。画面存储部106以及输出显示部107为一个与计算设备相通信连接的展示设备，例如电脑、电视或者移动设备等。

系统通信部108将画面存储部106中存储的检测结果发送给输出显示部107。

图4和图5是本实施例中的基于隐式表示的3D目标检测系统的流程示意图和流程框图。基于隐式表示的3D目标检测系统100的3D目标检测过程包括如下步骤：

步骤T1，点云数据预处理部101对从LiDAR收集到的数据进行数据预处理，得到预处理点云数据，然后进入步骤2。

步骤T2，点云特征提取部102在点维度和体素维度上分别提取出对应的特征并将这两种特征结合并转换到为鸟瞰特征，然后进入步骤3。

步骤T3，目标中心采样部103对鸟瞰特征图上的每个像素点进行坐标和特征偏移，并采样出最大概率的候选中心点，然后进入步骤4。

步骤T4，隐式目标边界生成部使用隐式函数对以候选中心点为单位的周围局部三维空间内包含的所有点赋值，并根据赋予的结果生成高质量的目标边界，然后进入步骤5。

步骤T5，候选区域集成部通过将目标边界框内的采样点特征进行融合对边界框进行优化，然后进入结束状态。

本发明的系统具有速度快、精确度高、鲁棒性好等优点，将隐式表征的方式引入3D目标检测中，不仅通过结合分割和检测任务有效提升对3D场景的理解，也利用隐式表征的固有优势，在无需任何锚点框的基础上，提升预测边界框的鲁棒性。

实施例三

如图6所示，本实施例公开了一种基于3D建模中隐式表示的3D目标检测设备，由一个计算设备以及一个展示设备组成，用于对外部的媒体数据进行处理。其中，计算设备由处理器以及内存构成。其中，处理器是一个用于计算以及运行可执行代码的硬件处理器，常见的处理器有中央处理器CPU或是图形计算处理器GPU；内存作为一个非易失的存储器，用于存储可执行代码以及各类中间数据及参数从而使处理器执行相应的计算过程。内存中存储用于运行点云数据预处理部101、点云特征提取部102、目标中心点采样部103、隐式目标边界生成部104、候选区域集成部105所构成的相关执行程序代码；展示设备包括画面存储部106以及输出显示部107。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。