CN116819489A

CN116819489A - 动态物体检测方法、模型训练方法、装置、设备及介质

Info

Publication number: CN116819489A
Application number: CN202311080817.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-09-29

Abstract

本申请实施例公开了一种动态物体检测方法、模型训练方法、装置、设备及介质，方法包括：获取针对待检测物体实时采集的激光雷达点云数据；对激光雷达点云数据进行预处理得到第一数据集；其中，第一数据集中每一帧深度图像的各个通道用于表征每一帧点云中对应像素点多维度的属性信息；对第一数据集中M帧深度图像进行残差处理得到第二数据集；其中，第二数据集中每一帧深度图像的像素点包括其它M‑1帧中对应像素点的属性信息，且M大于或等于2；通过已训练的动态物体检测模型对第二数据集进行检测，得到检测结果。从而可以充分利用激光雷达获取的环境信息，有利于通过模型对物体的动态属性和静态属性进行实时检测。

Description

动态物体检测方法、模型训练方法、装置、设备及介质

技术领域

本申请涉及但不限于运动目标检测技术领域，尤其涉及一种动态物体检测方法、模型训练方法、装置、设备及介质。

背景技术

激光雷达发射激光，通过返回激光束的时间和信号强度可以获得周围物体的距离和类别信息。而激光雷达输出的激光点云中动态物体检测在周围环境感知和同步定位与建图（Simultaneous Localization and Mapping，SLAM）技术中都是一个很重要的技术点。

相关技术中往往是通过神经网络的方式，检测出物体的类型，并根据预定义的物体类型来判断物体是静态物体还是动态物体。其中动态和静态物体类别是预先定义好的。对于一些既有动态属性又有静态属性的物体，比如汽车往往定义为动态物体，在较多动态物体处于静态的场景下，如果只按照预定义的类别来进行动态物体检测的话，就会导致检测结果出现误差，从而导致下游任务信息的不准确或者丢失。

发明内容

有鉴于此，本申请实施例至少提供一种动态物体检测方法、模型训练方法、装置、设备及介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种动态物体检测方法，所述方法包括：

获取针对待检测物体实时采集的激光雷达点云数据；对所述激光雷达点云数据进行预处理得到第一数据集；其中，所述第一数据集中每一帧深度图像的各个通道用于表征每一帧点云中对应像素点多维度的属性信息；对所述第一数据集中M帧所述深度图像进行残差处理得到第二数据集；其中，所述第二数据集中每一帧深度图像的像素点包括其它M-1帧中对应像素点的属性信息，且M大于或等于2；通过已训练的动态物体检测模型对所述第二数据集进行检测，得到检测结果。

第二方面，本申请实施例提供一种模型训练方法，所述方法包括：

获取激光雷达检测的第一样本集；将所述第一样本集中点云数据按帧处理成对应的深度图像，得到第二样本集；对所述第二样本集中N帧所述深度图像进行残差处理，直到获得预设帧数的新深度图像作为第三样本集作为第三样本集；其中，N大于等于2；利用所述第三样本集训练搭建的神经网络，得到动态物体检测模型。

第三方面，本申请实施例提供一种动态物体检测装置，所述装置包括：

数据获取模块，用于获取针对待检测物体实时采集的激光雷达点云数据；

数据转换模块，用于对所述激光雷达点云数据进行预处理得到第一数据集；其中，所述第一数据集中每一帧深度图像的各个通道用于表征每一帧点云中对应像素点多维度的属性信息；

数据构造模块，用于对所述第一数据集中M帧所述深度图像进行残差处理得到第二数据集；其中，所述第二数据集中每一帧深度图像的像素点包括其它M-1帧中对应像素点的属性信息，且M大于或等于2；

物体检测模块，通过已训练的动态物体检测模型对所述第二数据集进行检测，得到检测结果；其中，所述动态物体检测模型的训练样本集是，先利用激光雷达检测的第一样本集中每一帧点云数据构造深度图像再对N帧所述深度图像进行残差处理后得到的；N大于或等于2。

第四方面，本申请实施例提供一种模型训练装置，包括：

样本获取模块，用于获取激光雷达检测的第一样本集；

样本转换模块，用于将所述第一样本集中多帧点云数据按帧处理成对应的深度图像，得到第二样本集；

样本处理模块，用于对所述第二样本集中N帧所述深度图像进行残差处理，直到获得预设帧数的新深度图像作为第三样本集作为第三样本集；其中，N大于等于2；

模型训练模块，用于利用所述第三样本集训练搭建的神经网络，得到动态物体检测模型。

第五方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面或第二方面方法中的部分或全部步骤。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面或第二方面方法中的部分或全部步骤。

在本申请实施例中，首先获取针对待检测物体实时采集的激光雷达点云数据，然后对所述激光雷达点云数据进行预处理得到第一数据集；再对所述第一数据集中M帧所述深度图像进行残差处理得到第二数据集，最后通过已训练的动态物体检测模型对所述第二数据集进行检测，得到检测结果；如此，通过将实时采集的激光雷达点云数据处理为深度图像，并进一步构造出高质量的可直接用于模型输入的第二数据集，从而可以充分利用激光雷达获取的环境信息，有利于后续动态物体检测模型对待检测物体的动态属性和静态属性进行实时检测。这样改进模型了对于动态物体的判断标准，保证了下游任务输入信息的准确性和充足性，可以提高系统的精度和鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种动态物体检测方法的流程示意图；

图2为本申请实施例提供的另一种动态物体检测方法的流程示意图；

图3为本申请实施例提供的再一种动态物体检测方法的流程示意图；

图4为本申请实施例提供的模型训练方法的可选的流程示意图；

图5为本申请实施例提供的一种动态物体检测方法的逻辑流程图；

图6为本申请实施例提供的一种深度图像的示意图；

图7为本申请实施例提供的对模型进行知识蒸馏的流程示意图；

图8为本申请实施例提供的一种动态物体检测装置的组成结构示意图；

图9为本申请实施例提供的一种模型训练装置的组成结构示意图；

图10为本申请实施例提供的一种电子设备的硬件实体示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和实施例对本申请的技术方案进一步详细阐述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

所涉及的术语“第一/第二/第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的，不是旨在限制本申请。

本申请实施例提供一种动态物体检测方法，该方法可以由电子设备的处理器执行。其中，电子设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备（例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备）等具备动态物体检测能力的设备。图1为本申请实施例提供的一种动态物体检测方法的流程示意图，如图1所示，该方法包括如下步骤S110至步骤S140：

步骤S110，获取针对待检测物体实时采集的激光雷达点云数据。

这里，由激光雷达设备扫描待检测物体得到的空间点的数据集，每一个数据点都包含了激光与物体的距离、点云位置信息即三维坐标信息，以及颜色信息、反射强度信息、回波次数信息等。

在实施中，通过激光雷达进行点云采集时，可以以间隔设定的行走距离d例如d＝0.3m（米）的方式，采集多帧点云形成激光雷达点云数据。其中，每一帧每一帧点云数据由激光雷达扫描一周形成的，激光雷达就是重复扫描，用激光束对所要探测的空间范围进行按角度扫描，每一个角度的是一个点，所有角度的点加在一起是一帧点云。

需要说明的是，当一束激光照射到物体表面时，反射的激光会携带方位、距离等信息。若将激光束按照某种轨迹进行扫描，便会边扫描边记录到反射的激光点信息。由于扫描极为精细，则能够得到大量的激光点，因而就可形成激光点云。

步骤S120，对所述激光雷达点云数据进行预处理得到第一数据集。

这里，所述第一数据集中每一帧深度图像的各个通道用于表征每一帧点云中对应像素点多维度的属性信息。所述深度图像中每一像素点包括所述每一帧点云中对应像素点的属性信息，例如激光雷达到待检测物体的距离、反射强度、点云位置信息等，不同的属性信息分别存储于深度图像中每一像素点的不同数据通道。也就是说，深度图像的每一像素点携带表征所述待检测物体的动态属性和静态属性的信息。

需要说明的是，深度图像（Depth Image）也称距离影像（Range Image）,是指将从图像采集器到场景中各点的距离（深度）作为像素值的图像，它直接反应了景物可见表面的几何形状。深度图像是物体的三维表示形式，如果具备照相机的内标定参数可以将深度图像转换为点云。深度图像经过坐标转换可以计算为点云数据；有规则及必要信息的点云数据可以反算为深度图像。两者在一定条件下是可以相互转化的。

步骤S130，对所述第一数据集中M帧所述深度图像进行残差处理，得到第二数据集；

这里，所述第二数据集中每一帧深度图像的像素点包括其它M-1帧中对应像素点的属性信息，且M大于或等于2。也就是说，对第一数据集中当前帧深度图像与前M-1帧深度图像在每一通道维度进行做差，或者当前帧深度图像与后M-1帧图像在每一通道维度进行做差得到残差图，再利用残差图与当前帧深度图像重建新深度图像。这样获得的新深度图像中每一像素点的属性信息更丰富且更准确，从而构建的第二数据集可以直接作为后续动态物体检测模型的输入，这样保证检测结果的准确性和信息的充足，提高系统的精度及鲁棒性。

步骤S140，通过已训练的动态物体检测模型对所述第二数据集进行检测，得到检测结果。

这里，利用第一数据集中时间戳不同的多帧预处理的深度图像在每一通道上进行残差处理得到的第二数据集，具有更丰富的环境信息。

本申请通过实时获得点云数据并将每一帧点云处理为一帧深度图像以及转换为后续直接输入模型的第二数据集可以充分利用激光雷达获取的环境信息，并采用深度神经网络对物体动态和静态属性进行实时检测。

在一些实施方式中，所述动态物体检测模型的训练样本集是，先利用激光雷达检测的第一样本集中点云数据构造多帧深度图像，再对N帧所述深度图像进行残差处理后得到的；N大于或等于2。其中，第一样本集可以包括公共数据集例如ITTI数据集和实际场景数据集。可以直接将上一步骤S130得到的第二数据集输入到动态物体检测模型中，得到待检测物体的物体类别作为检测结果，其中物体类别可以为动态物体或静态物体。

需要说明的是，所述第一数据集和所述第二数据集是通过对待检测物体实时采集的激光雷达点云数据分别进行预处理和残差处理得到的数据集；所述训练样本集为通过对用于激光雷达动态物体检测的点云数据集依次进行预处理和残差处理得到的，其中点云数据集包括公开数据集和根据实际任务采集的场景数据集。

图2为本申请实施例提供的另一种动态物体检测方法的流程示意图，如图2所示，上述步骤S120中的“对所述激光雷达点云数据进行预处理得到第一数据集”可以包括如下步骤S210至步骤S240：

步骤S210，基于所述激光雷达点云数据，确定同一时刻激光束的线束数量和每一所述激光束扫描一周的水平点云数量。

这里，所述激光束的线束数量是激光雷达发出激光束的垂直线束数量例如Velodyne的16线、32线、64线，激光束扫描一周的水平点云数量也就是同一激光束在360°范围内旋转扫描的激光点数，假定激光雷达的水平角度分辨率为alpha，则激光雷达扫描一帧的水平点云数量为w=360/alpha。

步骤S220，获取所述激光雷达点云数据的当前帧点云中每一像素点的属性信息。

这里，所述当前帧点云中每一像素点的属性信息可以包括激光雷达和激光束扫描到的物体之间的距离、反射强度、点云位置信息等，属性信息还可以包括颜色信息、反射强度信息、回波次数信息等，其中点云位置信息为三维坐标信息例如（x, y, z）。

步骤S230，基于所述线束数量、所述水平点云数量和所述当前帧点云中各像素点的属性信息，生成所述当前帧点云对应的所述深度图像。

这里，所述深度图像为构造的虚拟图像，深度图像的宽（相当于行数）为线束数量，深度图像的高（相当于列数）为水平点云数量，深度图像中每一像素点可以存储当前帧点云中对应像素点的属性信息。

在一些实施方式中，上述步骤S230可以进一步实施为：对所述当前帧点云中各像素点的属性信息进行归一化处理；分别以所述水平点云数量为宽、所述线束数量为高，以归一化后的所述像素点的每一维度的属性信息为数据通道，生成所述当前帧点云对应的所述深度图像。

这里，假定当前帧点云各像素点的属性信息包括距离、反射强度、点云位置信息（x, y, z）五个维度的信息，水平点云数量为w，线束数量为h，则分别将每一像素点的距离、反射强度、点云位置信息（x, y, z）归一化到0至255灰度值范围，并分别作为深度图像中对应像素点的5个数据通道，获得大小为的多通道深度图像。

这样，基于对点云各像素点的属性信息的归一化结果，获得深度图像中对应像素点每个数据通道的取值，从而将当前帧点云转换为具有多维度信息的深度图像，其中点云位置信息表征物体的静态属性，距离和反射强度则表征物体距离雷达的远近即动态属性，从而生成的深度图像可以直接反映物体可见表面的几何形状及环境信息。

步骤S240，将所述激光雷达点云数据中所有帧点云各自对应的所述深度图像作为所述第一数据集。

在本申请实施例中，对获取的激光雷达数据进行预处理，将每一帧激光点云数据构造成多通道的深度图像，以获得第一数据集，使得激光雷达检测的物体的动态和静态属性均存储在深度图像中每一像素点中，从而便于后续利用神经网络的方式对物体的类型进行实时检测，改进对于动态物体的判断标准。

图3为本申请实施例提供的再一种动态物体检测方法的流程示意图，如图3所示，上述步骤S130中的“对所述第一数据集中M帧所述深度图像进行残差处理，得到第二数据集”可以包括如下步骤S310至步骤S340：

步骤S310，利用预设的激光里程计将所述第一数据集中前K帧深度图像变换到当前帧深度图像对应的坐标系下。

这里，所述激光里程计用于估计相邻帧点云之间的位姿变换，且K等于M-1；激光里程计可以利用相邻帧之间的激光扫描信息进行特征匹配来获取运动信息，也就是通过帧间匹配即可实现所需的激光里程计功能。

在实施中，先利用激光里程计可以估计出前K帧和当前帧的位姿变换关系（如旋转矩阵R和平移向量D），通过求出的旋转矩阵R和平移向量D即可将前K帧深度图像每一像素点的位姿坐标变换到当前帧深度图像的坐标系下。需要说明的是，前K帧深度图像与当前帧深度图像可以相邻也可以不相邻。

步骤S320，分别确定所述当前帧深度图像与所述前K帧中每一帧深度图像之间的残差图。

这里，残差图是指以某种残差为纵坐标，以其他适宜的量为横坐标的散点图。本申请实施例中是针对像素点的属性信息对任意两帧深度图像进行作差，得到对应的残差图，例如当前帧为第i帧深度图像，分别与i-1帧深度图像、i-2帧深度图像、……、i-K帧深度图图像进行做差，得到K个残差图。

在一些实施方式中，所述属性信息至少包括点云的距离信息、反射强度和点云位置信息，所述深度图像的每一像素点至少包括所述距离信息、所述反射强度和三维位置坐标五个数据通道；上述步骤S330还可以实施为分别对所述当前帧深度图像与所述前K帧中每一帧深度图像在每一所述数据通道上进行做差，得到所述残差图。这样，对若干帧深度图像在像素点的每一数据通道（channel）上分别做差，可以减少背景像素的干扰，提升深度图像的质量。

步骤S330，将K个所述残差图与所述当前帧深度图像进行堆叠后得到所述当前帧深度图像对应的新深度图像。

这里，由于每一帧深度图像中的像素点均是归一化的灰度值，因此可以直接将K帧残差图与当前帧深度图像进行叠加，输出为一帧新深度图像。示例地，每一帧深度图像的形状（shape）为，则叠加后新深度图像的形状为/>。

步骤S340，将所述第一数据集中所有帧深度图像对应的所述新深度图像作为所述第二数据集。

这里，遍历第一数据集中每一帧深度图像，按照步骤S310至步骤S330的方式得到对应的新深度图像，最终组成第二数据集。由于新深度图像中每一像素点包含了不同帧多个通道维度的属性信息，因此可以直接作为用于模型输入的第二数据集，这样可以保证检测结果的准确性和信息的充足。

在本申请实施例中，通过对第一数据集中每一当前帧深度图像与前K帧深度图像在像素点的各个数据通道上分别做差，获得K帧残差图，再与当前帧深度图像进行叠加即可获得包括更多属性信息的一组新深度图像，从而实现利用第一数据集构造出可直接用于模型输入的第二数据集，保证检测结果的准确性和信息的充足，提高系统的精度及鲁棒性。

图4为本申请实施例提供的模型训练方法的可选的流程示意图，如图4所示，所述方法包括以下步骤S410至步骤S440：

步骤S410，获取激光雷达检测的第一样本集。

这里，所述第一样本集包括公共数据集和场景数据集，其中公共数据集例如用于激光雷达序列语义场景理解的数据集即SemanticKITTI数据集，场景数据集包括根据任务需要采集的实际应用场景中的数据。

步骤S420，将所述第一样本集中点云数据按帧处理成对应的深度图像，得到第二样本集。

这里，所述深度图像中每一像素点包括所述每一帧点云中对应像素点的属性信息，其中帧点云中每一像素点的属性信息可以包括激光雷达和激光束扫描到的物体之间的距离、反射强度、点云位置信息等，属性信息还可以包括颜色信息、反射强度信息、回波次数信息等，其中点云位置信息为三维坐标信息例如（x, y, z）。

需要说明的是，第一样本集中包括多帧点云数据，在实施中可以参照前述步骤S120的具体实方式对第一样本集中点云数据按帧均处理成对应的深度图像，得到第二样本集。

步骤S430，对所述第二样本集中N帧所述深度图像进行残差处理，直到获得预设帧数的新深度图像作为第三样本集。

这里，N大于或等于2；M与N可以相同，也可以不相同。也就是说，残差处理过程中选用的深度图像的处理帧数可以根据实际情况设定，不一定与训练过程中的设定相同。应注意，N帧深度图像在时间戳上具有先后顺序，可以相邻也可以不相邻。

在实施中，可以按照类似上述步骤S310至步骤S330的方法得到预设帧数的新深度图像，并标记所述预设帧数的新深度图像中每一像素点的类别标签，得到第三样本集。这里，所述类别标签可以为运动类型或静止类型。在实施中根据物体的实际运动情况，将每一帧图像中的像素点标记为运动或静止，得到可以直接用于模型训练的第三样本集。

步骤S440，利用所述第三样本集训练搭建的神经网络，得到动态物体检测模型。

这里，所述搭建的神经网络由卷积层、激活层、全连接层等神经网络基本模块组成。在第三样本集上对神经网络进行训练、测试、验证，获得满足精度要求的动态物体检测模型。

在一些实施方式中，考虑到模型在边缘端部署的需求，对模型进行轻量化处理，包括知识蒸馏和剪枝操作，得到最终用于终端部署的动态物体检测模型。

在一些实施方式中，上述步骤S440可以进一步实施为：从所述第三样本集中获取预设批大小的新深度图像输入到所述神经网络中，得到预测的物体分类结果；基于所述预测的物体分类结果和所述预设批大小的新深度图像中每一像素点的类别标签，确定分类损失；利用所述分类损失更新所述神经网络的模型参数，直到满足训练结束条件，得到所述动态物体检测模型。这样，在具有丰富环境信息的第三样本集上对神经网络进行训练，以获得满足精度要求的模型。

这里，所述分类损失可以为交叉熵损失（CrossEntropy loss）或焦点损失（FocalLoss），所述训练结束条件可以为预设的训练迭代次数例如30000次，也可以为预设的训练时间例如8小时，还可以为对分类损失的限定条件例如某一参数达到收敛。

在本申请实施例中，首先获取激光雷达检测的第一样本集，然后将第一样本集中点云数据按帧处理成对应的深度图像，得到第二样本集，再对第二样本集中N帧所述深度图像进行残差处理，直到获得预设帧数的新深度图像作为第三样本集，最后再利用第三样本集训练搭建的神经网络，得到动态物体检测模型，从而可以充分利用激光雷达获取的环境信息，有利于后续动态检测模型对待检测物体的动态属性和静态属性进行实时检测。

下面结合一个具体实施例对上述动态物体检测方法进行说明，然而值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

本申请采用深度学习的方法，提出一种基于深度神经网络的激光雷达动态物体检测方法，对场景中的动态和静态物体进行实时检测，改进对动态物体的判断方法，提高系统的精度及鲁棒性。

图5为本申请实施例提供的一种动态物体检测方法的逻辑流程图，如图5所示，所述方法包括以下步骤S501至步骤S508：

步骤S501，获取用于激光雷达动态物体检测的数据集d₁。

这里，包括公开数据集和根据实际任务场景采集的数据集。在实施中，选用SemanticKITTI作为基础数据集，再根据任务需要补充实际应用场景的数据获得数据集d₁。

步骤S502，根据数据集d₁构造多通道深度图像，得到数据集d₂。

这里，数据集d₁相当于前述第一样本集，数据集d₂相当于前述第二样本集。首先，以激光雷达点云数据为例说明如何构造多通道深度图像，然后，将数据集d1中每一帧点云数据按照类似方法处理成深度图像，获得数据集d₂。

假设激光雷达点云数据的垂直线束数量为h，水平角度分辨率为alpha°，则激光雷达扫描一帧的水平点云数量为w=360/alpha。激光雷达点云数据包括：距离，反射强度，点云位置信息（x, y, z）。

假定深度图像的大小设定为，将当前帧激光雷达点云的距离、反射强度、点云位置信息（x, y, z）归一化到0至255灰度值范围。将距离、反射强度、点云位置信息分别作为深度图像的5个通道，获得大小为/>的当前帧点云数据对应的深度图像。图6为本申请实施例提供的一种深度图像的示意图，如图6所示，深度图像60的宽表示方向角61（azimuth），表征同一时刻的激光束扫描一周的结果例如w=360/alpha，高表示倾斜度62（inclination），表征同一时刻不同激光束扫描的结果即垂直线束数量h，每一网格点63（即像素点）存储归一化后的距离、反射强度、点云位置信息（x, y, z）。图6中为方便描述示例的是倾斜度为正值的情况，即XOY平面与Z轴正向之间的夹角，实际中还可以为负值，即XOY平面与Z轴负向之间的夹角，本申请实施例对此不作限定。

步骤S503，根据数据集d₂构造用于动态物体检测模型训练的数据集d₃。

这里，数据集d₃相当于前述第三样本集，可以直接作为激光雷达动态物体检测模型的输入数据。

步骤S504，设计用于激光雷达动态物体检测的深度神经网络的模型m₁。

这里，模型m₁由卷积层、激活层、全连接层等神经网络基本模块组成。

步骤S505，在数据集d₃上对模型m₁进行训练、测试和验证，获得满足精度要求的模型。

这里，将数据集d₃按一定比例划分出训练集、验证集和测试集，其中所述一定比例可以根据实际需要调整，通常设定为6:2:2。训练集用于训练阶段，用于构建模型，验证集用于模型挑选阶段，可以挑选最优模型超参的样本集合：使用验证集可以得到反向传播什么时候结束以及超参怎么设置最合理。主要目的是为了挑选在验证集上表现最好的模型。测试集用于验证阶段，可以用来评估泛化误差，在挑选好验证集上表现最好的模型之后，用于评估该模型泛化能力的数据集。

步骤S506，对模型m₁进行轻量化处理得到模型m₂。

这里，考虑到模型在边缘端部署的需求，对模型m₁进行轻量化处理，包括知识蒸馏和剪枝操作，得到最终用于终端部署的轻量化激光雷达动态物体检测模型m₂。

步骤S507，实时获得激光雷达点云数据并进行处理。

这里，先按照步骤S502的方式将每一帧点云数据处理为深度图像，再按照步骤S503的方式构建激光雷达动态物体检测网络的输入数据。需要注意的是在实际部署时，所使用的批大小需要根据实际情况进行设定，而不一定与训练时候的相同。

步骤S508，将处理后的点云数据输入模型m₂进行动态物体检测，获得激光雷达动态物体检测结果。

在一些实施方式中，上述步骤S503可以通过以下步骤31至步骤36实现：

步骤31，构造用于估计相邻帧点云之间位姿变换的激光里程计L。

步骤32，激光里程计L将当前帧深度图像的前K帧变换到当前帧深度图像的雷达下。

步骤33，将当前帧深度图像frame(i)与前K帧的深度图像在距离、反射强度、x坐标、y坐标、z坐标共5个通道上分别做差，获得残差图frame_res(i-1),…, frame_res(i-k)。

步骤34，将上一步获得的K个残差图和当前帧深度图像堆叠作为神经网络的输入，输入数据的形状为（batch_size, K+1, 5, w, h）；其中batch_size为模型训练所使用的批大小，K、w、h的含义分别与前述对应内容相同。

步骤35，根据数据集中物体的实际运动情况，将深度图像中的每个网格点（即像素点）的标签（label）标记为运动或静止，并作为神经网络的输入。

步骤36，重复步骤32至步骤35，直到获得足够数量的数据集d₃。

在一些实施方式中，上述步骤S506包括如下步骤61和步骤62：

步骤61，对模型m₁进行知识蒸馏，获得模型m₁’。

这里，如图7所示，选用一个已经训练完成模型m1（包括层1、层2、……、层m）作为教师模型，然后输入数据集d₃中划分的训练集数据71，进行数据推算且调整蒸馏温度T=t（高温）的归一化函数72（softmax），得到软标签73（soft labels）。再把训练集数据71输入待训练的模型m₁’（即学生模型，包括层1、层2、……、层n）进行数据推算，并同时调整蒸馏温度T=t的归一化函数74和蒸馏温度T=1的归一化函数75，分别得到软预测结果76（softpredictions）和硬预测结果77（hard predictions），然后软预测结果76和模型m1的软标签73进行相似度比较求蒸馏损失78（distillation loss）。同时硬预测结果77与训练集数据71的硬标签70（hard labels）进行相似度比较求学生损失79（student loss）。由于模型m₁也有一定的错误率，使用硬标签70（即真值ground truth）可以有效降低错误被传播给模型m₁’的可能性，因此按一定权重系数对学生损失79和蒸馏损失78进行求和得到总损失（total loss），利用总损失进行反向传播，更新模型m₁’的模型参数直至达到训练结束条件。这样训练后的模型m₁’既考虑了标准标签，也考虑了模型m₁的结果，性能更优化。

步骤62，对模型m₁’进行模型剪枝，得到模型m₂。

需要说明的是，由于深度学习网络模型从卷积层到全连接层存在着大量冗余的参数，大量神经元激活值趋近于0，仅仅只有少部分（5-10%）权值参与着主要的计算，将这些神经元去除后可以表现出同样的模型表达能力。这种情况被称为过参数化，而对应的技术则被称为模型剪枝。

模型剪枝的一般分为如下几个步骤：步骤621，评估神经元的重要性；步骤622，去掉最不重要的神经元；步骤623，对模型进行精细化调整；步骤624，根据精度要求判断是否进行剪枝；步骤625，如继续剪枝，则重复步骤621至步骤625，否则执行步骤626，停止剪枝，得到剪枝后的模型m₂。

本申请实施例一种基于5通道激光雷达深度图像和深度神经网络的激光雷达动态物体检测方法，通过对激光雷达的距离、反射强度、点云位置信息（x, y, z）构造5通道深度图像，可以充分利用激光雷达获取的环境信息，并采用深度神经网络对物体动态和静态属性进行实时检测，而不是直接根据物体的语义类别进行选择剔除和保留，这改进了对于动态物体的判断，保证了下游任务输入信息的准确性和充足性，可以提高系统的精度和鲁棒性。

基于前述的实施例，本申请实施例提供一种动态物体检测装置，该装置包括所包括的各模块、以及各模块所包括的各子模块及各单元，可以通过电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器（Central Processing Unit，CPU）、微处理器（Microprocessor Unit，MPU）、数字信号处理器（Digital Signal Processor，DSP）或现场可编程门阵列（Field Programmable GateArray，FPGA）等。

图8为本申请实施例提供的一种动态物体检测装置的组成结构示意图，如图8所示，所述装置800包括：数据获取模块810、数据转换模块820、数据构造模块830和物体检测模块840，其中：

所述数据获取模块810，用于获取获取针对待检测物体实时采集的激光雷达点云数据；

所述数据转换模块820，用于对所述激光雷达点云数据进行预处理得到第一数据集；其中，所述第一数据集中每一帧深度图像的各个通道用于表征每一帧点云中对应像素点多维度的属性信息；

所述数据构造模块830，对所述第一数据集中M帧所述深度图像进行残差处理得到第二数据集；其中，所述第二数据集中每一帧深度图像的像素点包括其它M-1帧中对应像素点的属性信息，且M大于或等于2；

所述物体检测模块840，通过已训练的动态物体检测模型对所述第二数据集进行检测，得到检测结果。

在一些可能的实施例中，所述动态物体检测模型的训练样本集是，先利用激光雷达检测的第一样本集中每一帧点云数据构造深度图像，再对N帧所述深度图像进行残差处理后得到的；N大于或等于2。

在一些可能的实施例中，所述数据转换模块820包括：第一确定子模块，用于基于所述激光雷达点云数据，确定同一时刻激光束的线束数量和每一所述激光束扫描一周的水平点云数量；获取子模块，用于获取所述激光雷达点云数据的当前帧点云中每一像素点的属性信息；生成子模块，用于基于所述线束数量、所述水平点云数量和所述当前帧点云中各像素点的属性信息，生成所述当前帧点云对应的所述深度图像；第二确定子模块，用于将所述激光雷达点云数据中所有帧点云各自对应的所述深度图像作为所述第一数据集。

在一些可能的实施例中，所述生成子模块包括：归一化单元，用于对所述当前帧点云中各像素点的属性信息进行归一化处理；生成单元，用于分别以所述水平点云数量为宽、所述线束数量为高，以归一化后的所述像素点的每一维度的属性信息为数据通道，生成所述当前帧点云对应的所述深度图像。

在一些可能的实施例中，所述数据构造模块830包括：位姿变换子模块，用于利用预设的激光里程计将所述第一数据集中前K帧深度图像变换到当前帧深度图像对应的坐标系下；其中，所述激光里程计用于估计相邻帧点云之间的位姿变换，且K等于M-1；作差子模块，用于分别确定所述当前帧深度图像与所述前K帧中每一帧深度图像之间的残差图；叠加子模块，用于将K个所述残差图与所述当前帧深度图像进行堆叠后得到所述当前帧深度图像对应的新深度图像；第三确定子模块，用于将所述第一数据集中所有帧深度图像对应的所述新深度图像作为所述第二数据集。

在一些可能的实施例中，所述每一帧点云中对应像素点的属性信息至少包括点云的距离信息、反射强度和点云位置信息，所述深度图像的每一像素点至少包括所述距离信息、所述反射强度和三维位置坐标五个数据通道；所述作差子模块还用于分别对所述当前帧深度图像与所述前K帧中每一帧深度图像在每一所述数据通道上进行做差，得到所述残差图。

以上装置实施例的描述，与上述动态物体检测方法实施例的描述是类似的，具有同方法实施例相似的有益效果。在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述动态物体检测方法实施例描述的方法，对于本申请装置实施例中未披露的技术细节，请参照本申请动态物体检测方法实施例的描述而理解。

基于前述的实施例，本申请实施例提供一种动态物体检测装置，该装置包括所包括的各模块、以及各模块所包括的各子模块，可以通过电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器、微处理器、数字信号处理器或现场可编程门阵列等。

图9为本申请实施例提供的一种模型训练装置的组成结构示意图，如图9所示，所述装置900包括：样本获取模块910、样本转换模块920、样本处理模块930、模型训练模块940，其中：

所述样本获取模块910，用于获取激光雷达检测的第一样本集；

所述样本转换模块920，用于将所述第一样本集中点云数据按帧处理成对应的深度图像，得到第二样本集；

所述样本处理模块930，用于对所述第二样本集中N帧所述深度图像进行残差处理，直到获得预设帧数的新深度图像作为第三样本集作为第三样本集；其中，N大于等于2；

所述模型训练模块940，用于利用所述第三样本集训练搭建的神经网络，得到动态物体检测模型。

在一些可能的实施例中，所述模型训练模块940包括：预测子模块，用于从所述第三样本集中获取预设批大小的新深度图像输入到所述神经网络中，得到预测的物体分类结果；损失确定子模块，用于基于所述预测的物体分类结果和所述预设批大小的新深度图像中每一像素点的类别标签，确定分类损失；参数更新子模块，用于利用所述分类损失更新所述神经网络的模型参数，直到满足训练结束条件，得到所述动态物体检测模型。

以上装置实施例的描述，与上述模型训练方法实施例的描述是类似的，具有同模型训练方法实施例相似的有益效果。在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述模型训练方法实施例描述的方法，对于本申请装置实施例中未披露的技术细节，请参照本申请模型训练方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的动态物体检测方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机、服务器、或者网络设备等）执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read OnlyMemory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。

本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本申请实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在电子设备中运行的情况下，所述电子设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包（Software Development Kit，SDK）等等。

这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图10为本申请实施例中电子设备的一种硬件实体示意图，如图10所示，该电子设备1000的硬件实体包括：处理器1001、通信接口1002和存储器1003，其中：

处理器1001通常控制电子设备1000的总体操作。

通信接口1002可以使电子设备通过网络与其他终端或服务器通信。

存储器1003配置为存储由处理器1001可执行的指令和应用，还可以缓存待处理器1001以及电子设备1000中各模块待处理或已经处理的数据（例如，图像数据、音频数据、语音通信数据和视频通信数据），可以通过闪存（FLASH）或随机访问存储器（Random AccessMemory，RAM）实现。处理器1001、通信接口1002和存储器1003之间可以通过总线1004进行数据传输。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（Read Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机、服务器、或者网络设备等）执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种动态物体检测方法，其特征在于，所述方法包括：

获取针对待检测物体实时采集的激光雷达点云数据；

对所述激光雷达点云数据进行预处理得到第一数据集；其中，所述第一数据集中每一帧深度图像的各个通道用于表征每一帧点云中对应像素点多维度的属性信息；

对所述第一数据集中M帧所述深度图像进行残差处理，得到第二数据集；其中，所述第二数据集中每一帧深度图像的像素点包括其它M-1帧中对应像素点的属性信息，且M大于或等于2；

通过已训练的动态物体检测模型对所述第二数据集进行检测，得到检测结果。

2.根据权利要求1所述的方法，其特征在于，所述动态物体检测模型的训练样本集是，先利用激光雷达检测的第一样本集中点云数据构造多帧深度图像，再对N帧所述深度图像进行残差处理后得到的；N大于或等于2。

3.根据权利要求1所述的方法，其特征在于，所述对所述激光雷达点云数据进行预处理得到第一数据集，包括：

基于所述激光雷达点云数据，确定同一时刻激光束的线束数量和每一所述激光束扫描一周的水平点云数量；

获取所述激光雷达点云数据的当前帧点云中每一像素点的属性信息；

基于所述线束数量、所述水平点云数量和所述当前帧点云中各像素点的属性信息，生成所述当前帧点云对应的所述深度图像；

将所述激光雷达点云数据中所有帧点云各自对应的所述深度图像作为所述第一数据集。

4.根据权利要求3所述的方法，其特征在于，所述基于所述线束数量、所述水平点云数量和所述当前帧点云中各像素点的属性信息，生成所述当前帧点云对应的所述深度图像，包括：

对所述当前帧点云中各像素点的属性信息进行归一化处理；

分别以所述水平点云数量为宽、所述线束数量为高，以归一化后的所述像素点的每一维度的属性信息为数据通道，生成所述当前帧点云对应的所述深度图像。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述对所述第一数据集中M帧所述深度图像进行残差处理，得到第二数据集，包括：

利用预设的激光里程计将所述第一数据集中前K帧深度图像变换到当前帧深度图像对应的坐标系下；其中，所述激光里程计用于估计相邻帧点云之间的位姿变换，且K等于M-1；

分别确定所述当前帧深度图像与所述前K帧中每一帧深度图像之间的残差图；

将K个所述残差图与所述当前帧深度图像进行堆叠后得到所述当前帧深度图像对应的新深度图像；

将所述第一数据集中所有帧深度图像对应的所述新深度图像作为所述第二数据集。

6.根据权利要求5所述的方法，其特征在于，所述每一帧点云中对应像素点的属性信息至少包括点云的距离信息、反射强度和点云位置信息，所述深度图像的每一像素点至少包括所述距离信息、所述反射强度和三维位置坐标五个数据通道；

所述分别确定所述当前帧深度图像与所述前K帧中每一帧深度图像之间的残差图，包括：分别对所述当前帧深度图像与所述前K帧中每一帧深度图像在每一所述数据通道上进行做差，得到所述残差图。

7.一种模型训练方法，其特征在于，所述方法包括：

获取激光雷达检测的第一样本集；

将所述第一样本集中点云数据按帧处理成对应的深度图像，得到第二样本集；

对所述第二样本集中N帧所述深度图像进行残差处理，直到获得预设帧数的新深度图像作为第三样本集；其中，N大于或等于2；

利用所述第三样本集训练搭建的神经网络，得到动态物体检测模型。

8.根据权利要求7所述的方法，其特征在于，所述利用所述第三样本集训练搭建的神经网络，得到动态物体检测模型，包括：

从所述第三样本集中获取预设批大小的新深度图像输入到所述神经网络中，得到预测的物体分类结果；

基于所述预测的物体分类结果和所述预设批大小的新深度图像中每一像素点的类别标签，确定分类损失；

利用所述分类损失更新所述神经网络的模型参数，直到满足训练结束条件，得到所述动态物体检测模型。

9.一种动态物体检测装置，其特征在于，所述装置包括：

数据转换模块，用于对所述激光雷达点云数据进行预处理得到第一数据集；其中，对所述激光雷达点云数据进行预处理得到第一数据集；其中，所述第一数据集中每一帧深度图像的各个通道用于表征每一帧点云中对应像素点多维度的属性信息；

物体检测模块，通过已训练的动态物体检测模型对所述第二数据集进行检测，得到检测结果。

10.一种模型训练装置，其特征在于，所述装置包括：

样本获取模块，用于获取激光雷达检测的第一样本集；

样本转换模块，用于将所述第一样本集中点云数据按帧处理成对应的深度图像，得到第二样本集；

11.一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至6任一项所述方法中的步骤；或者实现权利要求7或8所述方法中的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6任一项所述方法中的步骤；或者实现权利要求7或8所述方法中的步骤。