CN115588187B

CN115588187B - 基于三维点云的行人检测方法、装置、设备以及存储介质

Info

Publication number: CN115588187B
Application number: CN202211593474.2A
Authority: CN
Inventors: 陈群元; 唐小煜
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-04-11
Anticipated expiration: 2042-12-13
Also published as: CN115588187A; US20240193788A1

Abstract

本发明涉及行人检测技术领域，特别涉及一种基于三维点云的行人检测方法、装置、设备以及存储介质，获取待检测区域的空间雷达点云数据，根据预设的单位体素大小，对空间雷达点云数据进行体素划分，获得若干个三维体素网格，对三维体素网格中若干个三维体素网格进行体素编码，获得若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据；根据预设的稀疏卷积骨干网络以及自注意力变换网络，获得第一特征图以及第二特征图，并进行融合处理，获得融合特征图，将融合特征图输入至预设的行人检测模型中进行行人检测，获得待检测区域的行人检测信息，能够更加全面地对待检测区域进行行人检测，提升了行人检测的精准性。

Description

基于三维点云的行人检测方法、装置、设备以及存储介质

技术领域

本发明涉及行人检测技术领域，特别涉及一种基于三维点云的行人检测方法、装置、设备以及存储介质。

背景技术

3D目标检测作为无人驾驶系统中的一项基本的任务，利用激光雷达、摄像头等传感器的数据，为3D空间中的物体估计具有朝向的3D目标框，对每个3D目标框预测具体的类别。随着无人驾驶技术和深度学习技术的进一步发展，激光雷达也成为了无人驾驶感知环境的一大技术手段，无人驾驶的一大前提就是保证人的安全，但现有的检测算法较多集中于对道路上车辆的检测，对行人的检测效果有待提高。

基于体素化的点云目标检测方法，在3D空间中以一定分辨率划分3D体素，在每个非空的体素中包含不定数量的点云，使得点云在整个3D空间的存储变得规整，能够用3D卷积去处理。VoxelNet和SECOND是两个具有代表性的基于体素化的方法，将点云体素化之后，使用3D卷积提取点云特征，再将特征转换为BEV特征，使用2D的卷积进一步提取特征，同时进行下采样操作，类似的流程也被如今大多数算法所采用，但对于激光雷达采集到的点云，其中物体(车辆、单车、行人)所占据的3D空间的体积比例远远小于2D图像中目标所占的面积比例，直接将2D检测的惯用流程用到3D检测中未必对小目标奏效，像行人这种目标容易在下采样的过程中丢失特征，在后续的检测流程中难以恢复其特征，从而造成漏检。

发明内容

基于此，本发明提供一种基于三维点云的行人检测方法、装置、设备以及存储介质，利用稀疏卷积骨干网络以及自注意力变换网络，获取不同感受野的特征数据图，并在特征提取中保持了特征的稀疏性以及特征图的分辨率，使得行人这类小目标的特征在特征提取中能够更好地保留下来，并进行融合特征处理，用于进行行人检测，能够更加全面地对待检测区域进行行人检测，提升了行人检测的精准性。

该技术方法如下：

第一方面，本申请实施例提供了一种基于三维点云的行人检测方法，包括以下步骤：

获取待检测区域的空间雷达点云数据，其中，所述空间雷达点云数据包括若干个雷达点云数据；

根据预设的单位体素，对所述空间雷达点云数据进行体素划分，获得若干个三维体素网格，其中，所述三维体素网格包括若干个雷达点云数据；

对所述三维体素网格中若干个三维体素网格进行体素编码，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据；

将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的稀疏卷积骨干网络中进行特征提取，获得第一特征图；

将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的自注意力变换网络中进行特征提取，获得第二特征图；

将所述第一特征图以及第二特征图进行融合处理，获得融合特征图，将所述融合特征图输入至预设的行人检测模型中进行行人检测，获得所述待检测区域的行人检测信息。

第二方面，本申请实施例提供了一种基于三维点云的行人检测装置，包括：

空间雷达点云数据获取模块，用于获取待检测区域的空间雷达点云数据，其中，所述空间雷达点云数据包括若干个雷达点云数据；

体素划分模块，用于根据预设的单位体素，对所述空间雷达点云数据进行体素划分，获得若干个三维体素网格，其中，所述三维体素网格包括若干个雷达点云数据；

体素编码模块，用于对所述三维体素网格中若干个三维体素网格进行体素编码，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据；

稀疏卷积骨干网络模块，用于将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的稀疏卷积骨干网络中进行特征提取，获得第一特征图；

自注意力变换网络模块，用于将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的自注意力变换网络中进行特征提取，获得第二特征图；

行人检测模块，用于将所述第一特征图以及第二特征图进行融合处理，获得融合特征图，将所述融合特征图输入至预设的行人检测模型中进行行人检测，获得所述待检测区域的行人检测信息。

第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述的基于三维点云的行人检测方法的步骤。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于三维点云的行人检测方法的步骤。

在本实施例中，提供一种基于三维点云的行人检测方法、装置、设备以及存储介质，利用稀疏卷积骨干网络以及自注意力变换网络，获取不同感受野的特征数据图，并在特征提取中保持了特征的稀疏性以及特征图的分辨率，使得行人这类小目标的特征在特征提取中能够更好地保留下来，并进行融合特征处理，用于进行行人检测，能够更加全面地对待检测区域进行行人检测，提升了行人检测的精准性。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本申请一个实施例提供的基于三维点云的行人检测方法的流程示意图；

图2为本申请一个实施例提供的基于三维点云的行人检测方法中S3的流程示意图；

图3为本申请一个实施例提供的基于三维点云的行人检测方法中S31的流程示意图；

图4为本申请一个实施例提供的基于三维点云的行人检测方法中S4的流程示意图；

图5为本申请一个实施例提供的基于三维点云的行人检测方法中S5的流程示意图；

图6为本申请一个实施例提供的基于三维点云的行人检测方法中S51的流程示意图；

图7为本申请一个实施例提供的基于三维点云的行人检测装置的结构示意图；

图8为本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能拼接。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，图1为本申请一个实施例提供的基于三维点云的行人检测方法的流程示意图，包括如下步骤：

S1：获取待检测区域的空间雷达点云数据。

本申请的基于三维点云的行人检测方法的执行主体为基于三维点云的行人检测方法的检测设备（以下简称检测设备）。

在一个可选的实施例中，检测设备可以是一台计算机设备，可以是服务器，或多台计算机设备联合而成的服务器机群。

空间雷达点云数据(point cloud data)是采用激光雷达获取的，激光雷达利用激光测距的原理，可以记录三维空间中被扫描物体表面的三维坐标(x,y,z)、反射率等信息，进行构建的，其中，所述空间雷达点云数据包括若干个雷达点云数据，雷达点云数据指以点的形式记录的数据，每一个点包含有三维坐标，该点可以是表示待检测区域内运动目标(如行人、车辆等)。

在本实施例中，检测设备可以利用激光雷达、摄像头等传感器，对所述待测区域进行空间检测，获取待检测区域的空间雷达点云数据。

S2：根据预设的单位体素，对所述空间雷达点云数据进行体素划分，获得若干个三维体素网格。

在本实施例中，检测设备根据预设的单位体素，对所述空间雷达点云数据进行体素划分，获得若干个三维体素网格，其中，所述三维体素网格包括若干个雷达点云数据。

具体地，空间雷达点云数据包含三维空间信息，在本实施例中，检测设备采用(w，h，d)作为单位体素，对所述空间雷达点云数据进行体素划分，划分成均匀等大的长方体块，获得若干个三维体素网格，所述空间雷达点云中的雷达点云数据也被划分到所属的三维体素网格当中，其中，w为长度、h为宽度、d为深度，所述若干个三维体素网格中包括若干个雷达点云数据。

检测设备将所述三维体素网格内包含超过T个雷达点云数据的划分为非空三维体素网格，否则为空三维体素网格。

S3：对所述三维体素网格中若干个三维体素网格进行体素编码，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据。

在本实施例中，检测设备对所述三维体素网格中若干个三维体素网格进行体素编码，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据。

请参阅图2，图2为本申请一个实施例提供的基于三维点云的行人检测方法中S3的流程示意图，包括步骤S31~S33，具体如下：

S31：获得所述若干个三维体素网格对应的若干个雷达点云数据对应的坐标数据以及反射率数据。

在本实施例中，检测设备从所述空间雷达点云数据中，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的坐标数据以及反射率数据，其中，所述坐标数据包括原始坐标数据、平均坐标差数据以及中心坐标差数据。

S32：对所述若干个三维体素网格对应的若干个雷达点云数据对应的坐标数据以及反射率数据进行拼接，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素拼接数据。

在本实施例中，检测设备对所述若干个三维体素网格对应的若干个雷达点云数据对应的坐标数据以及反射率数据进行拼接，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素拼接数据。

S33：根据预设的编码算法，对所述若干个三维体素网格对应的若干个雷达点云数据对应的体素拼接数据进行编码处理，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据。

所述编码算法为：

式中，

为所述体素编码数据，

为第一可训练权重参数，

为第二可训练权重参数，

为所述体素拼接数据，

为第一偏置参数，

为第二偏置参数。

在本实施例中，检测设备根据预设的编码算法，对所述若干个三维体素网格对应的若干个雷达点云数据对应的体素拼接数据进行编码处理，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据。

请参阅图3，图3为本申请一个实施例提供的基于三维点云的行人检测方法中S31的流程示意图，包括步骤S311~S313，具体如下：

S311：根据所述若干个三维体素网格对应的若干个雷达点云数据对应的原始坐标数据以及预设的平均坐标计算算法，获得若干个三维体素网格对应的平均坐标数据。

所述平均坐标计算算法为：

式中，k表示为x、y、z任意坐标轴，i表示为所述三维体素网格中第i个雷达点云数据，

为在x坐标轴上第i个雷达点云数据的原始坐标数据，

为在x坐标轴上的平均坐标数据，

为在y坐标轴上第i个雷达点云数据的原始坐标数据，

为在y坐标轴上的平均坐标数据，

为在z坐标轴上第i个雷达点云数据的原始坐标数据，

为在z坐标轴上的平均坐标数据。

在本实施例中，检测设备根据所述若干个三维体素网格对应的若干个雷达点云数据对应的原始坐标数据以及预设的平均坐标计算算法，获得若干个三维体素网格对应的平均坐标数据。

S312：获得所述若干个三维体素网格的原始坐标数据、长度数据以及初始偏移量数据，根据预设的中心坐标计算算法，获得若干个三维体素网格对应的中心坐标数据。

所述中心坐标计算算法为：

式中，

为在第k个坐标轴上所述三维体素网格的中心坐标数据，

为在第k个坐标轴上所述三维体素网格的原始坐标数据，

为在第k个坐标轴上所述三维体素网格的长度数据，

为在第k个坐标轴上所述三维体素网格的初始偏移量数据。

在本实施例中，检测设备获得所述若干个三维体素网格的原始坐标数据、长度数据以及初始偏移量数据，根据预设的中心坐标计算算法，获得若干个三维体素网格对应的中心坐标数据。

S313：根据所述若干个三维体素网格对应的若干个雷达点云数据对应的原始坐标数据、所述若干个三维体素网格对应的平均坐标数据以及中心坐标数据，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的平均坐标差数据以及中心坐标差数据。

S4：将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的稀疏卷积骨干网络中进行特征提取，获得第一特征图。

在本实施例中，检测设备将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的稀疏卷积骨干网络中进行特征提取，获得第一特征图。

其中，所述稀疏卷积骨干网络由若干个子流形稀疏卷积算子堆叠而成，基于所述雷达点云数据的稀疏结构，具体地，检测设备将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的稀疏卷积骨干网络中，进行若干次稀疏卷积处理，只有当卷积核中心覆盖到非空三维体素网格，才进行特征提取，计算输出，获得第一特征图，在保持了第一特征图的稀疏性的同时，使得第一特征图的分辨率保持不变，以提高了行人检测的精准性以及效率性。

S5：将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的自注意力变换网络中进行特征提取，获得第二特征图。

在本实施例中，检测设备将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的自注意力变换网络中进行特征提取，获得第二特征图，通过对所述体素编码数据进行自注意力计算来获得第二特征图，不仅扩大了数据的感受野，还保持了第二特征图的分辨率不变，保留了更多的细节信息，以提高了行人检测的精准性以及效率性。

请参阅图4，图4为本申请一个实施例提供的基于三维点云的行人检测方法中S5的流程示意图，包括步骤S51~S52，具体如下：

S51：根据预设的窗口，分别对所述若干个三维体素网格进行划分，获得所述若干个三维体素网格对应的若干个三维子体素网格，并获得所述若干个三维子体素网格对应的若干个雷达点云数据对应的体素编码数据。

为了避免全局的自注意力计算，保留了更多的细节信息，以提高了行人检测的精准性以及效率性。在本实施例中，检测设备根据预设的窗口，分别对所述若干个三维体素网格进行划分，获得所述若干个三维体素网格对应的若干个三维子体素网格，并获得所述若干个三维子体素网格对应的若干个雷达点云数据对应的体素编码数据。

具体地，检测设备预先设置窗口值为30的窗口，且窗口值均大于所述稀疏卷积骨干网络中若干个子流形稀疏卷积算子的卷积核大小，根据预设的窗口，分别对所述若干个三维体素网格进行划分，获得所述若干个三维体素网格对应的若干个三维子体素网格，并获得所述若干个三维子体素网格对应的若干个雷达点云数据对应的体素编码数据，从而扩大了所述若干个三维子体素网格对应的若干个雷达点云数据的感受野，保留了更多的细节信息。

S52：根据所述若干个三维子体素网格对应的若干个雷达点云数据对应的体素编码数据以及预设的第二特征提取算法，获得所述第二特征图。

所述第二特征提取算法为：

式中，

为所述第二特征图，

为多头自注意力函数，

为层标准化函数，

为位置编码函数，

为第二可训练权重参数，

为第二偏置参数，

为所述三维子体素网格对应的雷达点云数据在所述第一特征图上的坐标数据。

在本实施例中，检测设备根据所述若干个三维子体素网格对应的若干个雷达点云数据对应的体素编码数据以及预设的第二特征提取算法，对若干个非空三维子体素网格，即该三维子体素网格中包含有T个雷达点云数据，进行自注意力计算，获得所述第二特征图，在提高了第二特征图的细节性的同时，使得第二特征图的分辨率保持不变。

S6：将所述第一特征图以及第二特征图进行融合处理，获得融合特征图，将所述融合特征图输入至预设的行人检测模型中进行行人检测，获得所述待检测区域的行人检测信息。

在本实施例中，检测设备将所述第一特征图以及第二特征图进行融合处理，获得融合特征图，具体地，由于所述第一特征图以及第二特征图，具有同样的分辨率，检测设备按照通道的维度，将所述所述第一特征图以及第二特征图进行拼接处理，获得拼接特征数据图，并输入至预设的卷积网络中，进行卷积处理，将所述第一特征图以及第二特征图中，空三维体素网格进行填补，获得更加完整的特征图，以提高行人检测的精准性。

检测设备将所述融合特征图输入至预设的行人检测模型中进行行人检测，获得所述待检测区域的行人检测信息。

请参阅图5，图5为本申请一个实施例提供的基于三维点云的行人检测方法中S6的流程示意图，包括步骤S61~S62，具体如下：

S61：将所述融合特征图划分为若干个子特征区域，在所述若干个子特征区域中设置若干个检测框，获取所述若干个子特征区域对应的若干个检测框的位置原始数据。

在本实施例中，检测设备将所述融合特征图划分为若干个子特征区域，在所述若干个子特征区域中设置若干个检测框，获取所述若干个子特征区域对应的若干个检测框的位置原始数据，其中，所述位置原始数据包括中心位置原始数据、尺寸原始数据以及航向角原始数据。

S62：对所述若干个子特征区域对应的若干个检测框进行分类检测，获得所述若干个子特征区域对应的若干个检测框的分类类型，对所述若干个子特征区域对应的若干个检测框进行回归预测，获得所述若干个检测框的位置偏差数据，根据所述若干个检测框的位置原始数据以及位置偏差数据，获得所述若干个检测框的位置修正数据，将所述若干个检测框的分类类型以及位置修正数据作为所述待检测区域的行人检测信息。

在本实施例中，检测设备对所述若干个子特征区域对应的若干个检测框进行分类检测，获得所述若干个子特征区域对应的若干个检测框的分类类型。

检测设备对所述若干个子特征区域对应的若干个检测框进行回归预测，获得所述若干个检测框的位置偏差数据，具体地，检测设备将所述若干个检测框输入至预设的1*1大小的卷积核中，进行回归预测，获得所述若干个检测框的位置偏差数据，其中，所述位置原始数据包括中心位置偏差数据、尺寸偏差数据以及航向角偏差数据。

根据所述若干个检测框的位置原始数据以及位置偏差数据，将所述中心位置原始数据与中心位置偏差数据相加，将所述尺寸原始数据与尺寸偏差数据相加，将所述航向角原始数据与航向角偏差数据相加，获得中心位置修正数据、尺寸修正数据以及航向角修正数据，作为所述位置修正数据，将所述若干个检测框的分类类型以及位置修正数据作为所述待检测区域的行人检测信息。

请参阅图6，图6为本申请一个实施例提供的基于三维点云的行人检测方法中S62的流程示意图，包括步骤S621~S622，具体如下：

S621：获得所述若干个子特征区域对应的若干个检测框，将所述若干个子特征区域对应的若干个检测框作为输入参数，根据预设的预测分类概率向量计算算法，获取所述若干个子特征区域对应的若干个检测框的预测分类概率向量。

所述预测分类概率向量计算算法为：

式中，Y为所述预测分类概率向量，X为所述输入参数，sigmoid（）为激活函数，

为第三可训练权重参数，

为第三偏置参数；

在本实施例中，检测设备在所述融合特征图中各个位置上，预先设置有若干个检测框，将所述若干个子特征区域对应的若干个检测框作为输入参数，根据预设的预测分类概率向量计算算法，获取所述若干个子特征区域对应的若干个检测框的预测分类概率向量。

S622：根据所述若干个子特征区域对应的若干个检测框的预测分类概率向量以及预设的置信度阈值，对所述若干个子特征区域对应的若干个检测框进行筛选，获得所述若干个子特征区域对应的若干个目标检测框，根据所述若干个目标检测框的预测分类概率向量，获得概率最大的维度对应的分类类型，作为所述若干个子特征区域对应的若干个目标检测框的分类类型。

在本实施例中，检测设备根据所述若干个子特征区域对应的若干个检测框的预测分类概率向量以及预设的置信度阈值，对所述若干个子特征区域对应的若干个检测框进行筛选，获得所述若干个子特征区域对应的若干个目标检测框，具体地，当所述若干个子特征区域对应的若干个检测框的预测分类概率向量大于所述置信度阈值，将该检测框设置为目标检测框。

根据所述若干个目标检测框的预测分类概率向量，获得概率最大的维度对应的分类类型，作为所述若干个子特征区域对应的若干个目标检测框的分类类型，作为所述若干个子特征区域对应的若干个目标检测框的分类类型，具体地，当计算得到Y=[Y1，Y2]=[0.1，0.5]，其中，Y1代表为行人检测类型对应的预测分类概率向量，Y2代表为非行人检测类型对应的预测分类概率向量，概率最大为Y2，该位置对应的检测框的分类类型即为非行人检测类型，从而作为所述若干个子特征区域对应的若干个目标检测框的分类类型。

在一个可选的实施例中，还包括训练所述行人检测模型，具体如下：

检测设备获取样本区域的空间雷达点云数据以及待训练的行人检测模型，作为所述行人检测模型的训练数据，为了增强所述行人检测模型的鲁棒性，检测设备对所述训练数据进行数据增强处理，具体地，检测设备对所述训练数据中的若干个雷达点云数据进行目标采样处理，并对目标采样处理后的若干个雷达点云数据进行噪声添加处理、旋转处理以及乱序处理，以增加训练数据的样本数量。

其次，检测设备根据所述稀疏卷积骨干网络以及自注意力变换网络，获得所述样本区域的第一特征图以及第二特征图，进行融合处理，获得所述样本区域的融合特征数据，将所述样本区域的融合特征数据输入至所述待训练的行人检测模型，获取所述样本区域的若干个子特征区域对应的若干个检测框的预测分类概率向量。

检测设备获取所述样本区域的若干个子特征区域对应的若干个检测框的真实分类概率向量，根据所述真实分类概率向量以及预测分类概率向量，计算所述待训练的行人检测模型的第一损失值；

检测设备获取所述样本区域的若干个子特征区域对应的若干个检测框的位置原始数据以及位置修正数据，根据所述位置原始数据以及位置修正数据，计算所述待训练的行人检测模型的第二损失值；

根据所述第一损失值以及第二损失值，对所述待训练的行人检测模型进行优化训练，获得训练好的所述行人检测模型。

请参阅图7，图7为本申请一个实施例提供的基于三维点云的行人检测装置的结构示意图，该装置可以通过软件、硬件或两者的结合实现基于三维点云的行人检测方法的全部或一部分，该装置7包括：

空间雷达点云数据获取模块71，用于获取待检测区域的空间雷达点云数据，其中，所述空间雷达点云数据包括若干个雷达点云数据；

体素划分模块72，用于根据预设的单位体素，对所述空间雷达点云数据进行体素划分，获得若干个三维体素网格，其中，所述三维体素网格包括若干个雷达点云数据；

体素编码模块73，用于对所述三维体素网格中若干个三维体素网格进行体素编码，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据；

稀疏卷积骨干网络模块74，用于将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的稀疏卷积骨干网络中进行特征提取，获得第一特征图；

自注意力变换网络模块75，用于将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的自注意力变换网络中进行特征提取，获得第二特征图；

行人检测模块76，用于将所述第一特征图以及所述自注意力变换网络输出的第二特征图进行融合处理，获得融合特征图，将所述融合特征图输入至预设的行人检测模型中进行行人检测，获得所述待检测区域的行人检测信息。

在本申请的实施例中，通过空间雷达点云数据获取模块，获取待检测区域的空间雷达点云数据，其中，所述空间雷达点云数据包括若干个雷达点云数据；通过体素划分模块，根据预设的单位体素，对所述空间雷达点云数据进行体素划分，获得若干个三维体素网格，其中，所述三维体素网格包括若干个雷达点云数据；通过体素编码模块，对所述三维体素网格中若干个三维体素网格进行体素编码，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据；通过稀疏卷积骨干网络模块，将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的稀疏卷积骨干网络中进行特征提取，获得第一特征图；通过自注意力变换网络模块，将所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据输入至预设的自注意力变换网络中进行特征提取，获得第二特征图；通过行人检测模块，将所述第一特征图以及所述自注意力变换网络输出的第二特征图进行融合处理，获得融合特征图，将所述融合特征图输入至预设的行人检测模型中进行行人检测，获得所述待检测区域的行人检测信息。

利用稀疏卷积骨干网络以及自注意力变换网络，获取不同感受野的特征数据图，并在特征提取中保持了特征的稀疏性以及特征图的分辨率，使得行人这类小目标的特征在特征提取中能够更好地保留下来，并进行融合特征处理，用于进行行人检测，能够更加全面地对待检测区域进行行人检测，提升了行人检测的精准性。

请参考图8，图8为本申请一个实施例提供的计算机设备的结构示意图，计算机设备8包括：处理器81、存储器82以及存储在存储器82上并可在处理器81上运行的计算机程序83；计算机设备可以存储有多条指令，指令适用于由处理器81加载并执行上述图1至图6所述实施例的方法步骤，具体执行过程可以参见图1至图6所述实施例的具体说明，在此不进行赘述。

其中，处理器81可以包括一个或多个处理核心。处理器81利用各种接口和线路连接服务器内的各个部分，通过运行或执行存储在存储器82内的指令、程序、代码集或指令集，以及调用存储器82内的数据，执行基于三维点云的行人检测装置7的各种功能和处理数据，可选的，处理器81可以采用数字信号处理（Digital Signal Processing,DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（ProgrambleLogic Array，PLA）中的至少一个硬件形式来实现。处理器81可集成中央处理器81（CentralProcessingUnit，CPU）、图像处理器81（Graphics Processing Unit，GPU）和调制解调器等中的一个或几种的拼接。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器81中，单独通过一块芯片进行实现。

其中，存储器82可以包括随机存储器82（Random Access Memory，RAM），也可以包括只读存储器82（Read-OnlyMemory）。可选的，该存储器82包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器82可用于存储指令、程序、代码、代码集或指令集。存储器82可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控指令等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器82可选的还可以是至少一个位于远离前述处理器81的存储装置。

本申请实施例还提供了一种存储介质，所述存储介质可以存储有多条指令，所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤，具体执行过程可以参见所示图1至图6所述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种基于三维点云的行人检测方法，其特征在于，包括以下步骤：

根据预设的窗口，分别对所述若干个三维体素网格进行划分，获得所述若干个三维体素网格对应的若干个三维子体素网格，并获得所述若干个三维子体素网格对应的若干个雷达点云数据对应的体素编码数据；

根据所述若干个三维子体素网格对应的若干个雷达点云数据对应的体素编码数据以及预设的第二特征提取算法，获得第二特征图，其中，所述第二特征提取算法为：

式中，

为所述体素编码数据，

为所述第二特征图，

为多头自注意力函数，

为层标准化函数，

为位置编码函数，

为第二可训练权重参数，

为第二偏置参数，

为所述三维子体素网格对应的雷达点云数据在所述第一特征图上的坐标数据；

2.根据权利要求1所述的基于三维点云的行人检测方法，其特征在于，所述对所述三维体素网格中若干个三维体素网格进行体素编码，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据，包括步骤：

获得所述若干个三维体素网格对应的若干个雷达点云数据对应的坐标数据以及反射率数据，其中，所述坐标数据包括原始坐标数据、平均坐标差数据以及中心坐标差数据；

对所述若干个三维体素网格对应的若干个雷达点云数据对应的坐标数据以及反射率数据进行拼接，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素拼接数据；

根据预设的编码算法，对所述若干个三维体素网格对应的若干个雷达点云数据对应的体素拼接数据进行编码处理，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的体素编码数据，其中，所述编码算法为：

式中，

为所述体素编码数据，

为第一可训练权重参数，

为第二可训练权重参数，

为所述体素拼接数据，

为第一偏置参数，

为第二偏置参数。

3.根据权利要求2所述的基于三维点云的行人检测方法，其特征在于，所述获得所述若干个三维体素网格对应的若干个雷达点云数据对应的坐标数据以及反射率数据，包括步骤：

根据所述若干个三维体素网格对应的若干个雷达点云数据对应的原始坐标数据以及预设的平均坐标计算算法，获得若干个三维体素网格对应的平均坐标数据，其中，所述平均坐标计算算法为：

为在x坐标轴上第i个雷达点云数据的原始坐标数据，

为在x坐标轴上的平均坐标数据，

为在y坐标轴上第i个雷达点云数据的原始坐标数据，

为在y坐标轴上的平均坐标数据，

为在z坐标轴上第i个雷达点云数据的原始坐标数据，

为在z坐标轴上的平均坐标数据；

获得所述若干个三维体素网格的原始坐标数据、长度数据以及初始偏移量数据，根据预设的中心坐标计算算法，获得若干个三维体素网格对应的中心坐标数据，其中，所述中心坐标计算算法为：

式中，

为在第k个坐标轴上所述三维体素网格的中心坐标数据，

为在第k个坐标轴上所述三维体素网格的原始坐标数据，

为在第k个坐标轴上所述三维体素网格的长度数据，

为在第k个坐标轴上所述三维体素网格的初始偏移量数据；

根据所述若干个三维体素网格对应的若干个雷达点云数据对应的原始坐标数据、所述若干个三维体素网格对应的平均坐标数据以及中心坐标数据，获得所述若干个三维体素网格对应的若干个雷达点云数据对应的平均坐标差数据以及中心坐标差数据。

4.根据权利要求1所述的基于三维点云的行人检测方法，其特征在于，所述将所述融合特征图输入至预设的行人检测模型中进行行人检测，获得所述待检测区域的行人检测信息，包括步骤：

将所述融合特征图划分为若干个子特征区域，在所述若干个子特征区域中设置若干个检测框，获取所述若干个子特征区域对应的若干个检测框的位置原始数据；

对所述若干个子特征区域对应的若干个检测框进行分类检测，获得所述若干个子特征区域对应的若干个检测框的分类类型，对所述若干个子特征区域对应的若干个检测框进行回归预测，获得所述若干个检测框的位置偏差数据，根据所述若干个检测框的位置原始数据以及位置偏差数据，获得所述若干个检测框的位置修正数据，将所述若干个检测框的分类类型以及位置修正数据作为所述待检测区域的行人检测信息。

5.根据权利要求4所述的基于三维点云的行人检测方法，其特征在于，所述对所述若干个子特征区域对应的若干个检测框进行分类检测，获得所述若干个子特征区域对应的若干个检测框的分类类型，包括步骤：

将所述若干个子特征区域对应的若干个检测框作为输入参数，根据预设的预测分类概率向量计算算法，获取所述若干个子特征区域对应的若干个检测框的预测分类概率向量，其中，所述预测分类概率向量计算算法为：

式中，Y为所述预测分类概率向量，X为所述输入参数，

为所述位置原始数据，sigmoid（）为激活函数，

为第三可训练权重参数，

为第三偏置参数；

根据所述若干个子特征区域对应的若干个检测框的预测分类概率向量以及预设的置信度阈值，对所述若干个子特征区域对应的若干个检测框进行筛选，获得所述若干个子特征区域对应的若干个目标检测框，根据所述若干个目标检测框的预测分类概率向量，获得概率最大的维度对应的分类类型，作为所述若干个子特征区域对应的若干个目标检测框的分类类型。

6.一种基于三维点云的行人检测装置，其特征在于，包括：

自注意力变换网络模块，用于根据预设的窗口，分别对所述若干个三维体素网格进行划分，获得所述若干个三维体素网格对应的若干个三维子体素网格，并获得所述若干个三维子体素网格对应的若干个雷达点云数据对应的体素编码数据；