CN115082880A

CN115082880A - 目标检测方法、电子设备、介质及车辆

Info

Publication number: CN115082880A
Application number: CN202210580658.9A
Authority: CN
Inventors: 康子健
Original assignee: Anhui Weilai Zhijia Technology Co Ltd
Current assignee: Anhui Weilai Zhijia Technology Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-20
Anticipated expiration: 2042-05-25
Also published as: CN115082880B

Abstract

本发明涉及人工智能技术领域，具体提供一种目标检测方法、电子设备、介质及车辆，旨在解决现有目标检测方法的检测精度较差的技术问题。为此目的，本发明的目标检测方法包括：获取原始点云数据；将原始点云数据输入已训练的目标检测网络得到目标检测结果，其中利用知识蒸馏方法训练目标检测网络包括：基于第一俯视图投影网络输出的特征获得注意力加权特征；基于第一卷积网络输出的第一提取特征、第二卷积网络输出的第二提取特征以及注意力加权特征得到知识蒸馏方法的蒸馏损失部分；基于检测网络的输出得到监督损失部分；基于监督损失部分和蒸馏损失部分对目标检测网络进行训练。如此，提高了检测精度。

Description

目标检测方法、电子设备、介质及车辆

技术领域

本发明涉及人工智能技术领域，具体提供一种目标检测方法、电子设备、介质及车辆。

背景技术

雷达是自动驾驶领域中十分重要的感知元件，越来越受到大家的关注，随着自动驾驶领域的发展，基于雷达的目标检测逐渐发挥越来越重要的作用。

为了适应车载环境对周边场景的感知，许多基于雷达的3D检测方法采取将三维点云特征投影到二维空间的方式。由于三维点云是离散的采样点，投影后的特征往往也不均匀，和一般图片特征差异较大，将投影后的特征用于蒸馏训练时，网络的蒸馏效果较差。将蒸馏后的网络用于目标检测时，导致检测精度较差，难以满足实际需求。

相应地，本领域需要一种新的目标检测方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有目标检测方法的检测精度较差的技术问题。本发明提供了一种目标检测方法、电子设备、介质及车辆。

在第一方面，本发明提供一种目标检测方法，包括：获取原始点云数据；将所述原始点云数据输入已训练的目标检测网络，得到目标检测结果，其中，利用知识蒸馏方法训练所述目标检测网络，包括：将训练数据分别输入教师网络和目标检测网络，其中所述教师网络包括顺序连接的第一体素化网络、第一俯视图投影网络以及第一卷积网络，所述目标检测网络包括顺序连接的第二体素化网络、第二俯视图投影网络、第二卷积网络以及检测网络；基于所述第一俯视图投影网络输出的特征获得注意力加权特征；基于所述第一卷积网络输出的第一提取特征、所述第二卷积网络输出的第二提取特征以及所述注意力加权特征得到所述知识蒸馏方法的蒸馏损失部分；基于所述检测网络的输出得到监督损失部分；基于所述监督损失部分和蒸馏损失部分对所述目标检测网络进行训练。

在一个实施方式中，所述基于所述第一俯视图投影网络输出的特征获得注意力加权特征，包括：对所述第一俯视图投影网络输出的特征进行通道维度取模操作，得到所述注意力加权特征。

在一个实施方式中，所述基于所述第一卷积网络输出的第一提取特征、所述第二卷积网络输出的第二提取特征以及所述注意力加权特征确定所述知识蒸馏方法的蒸馏损失部分，包括：基于所述第一提取特征和第二提取特征确定蒸馏损失函数；利用所述注意力加权特征对所述蒸馏损失函数进行加权，得到蒸馏损失部分。

在一个实施方式中，利用所述注意力加权特征对所述蒸馏损失函数进行加权，得到蒸馏损失部分包括：

LOSS表示加权的均方差损失函数，λ表示超参数，F_sum表示求和函数，M_conv表示注意力加权特征，F_mse表示均方差损失函数，

表示第一提取特征，

表示第二提取特征。

在一个实施方式中，所述对所述第一俯视图投影网络输出的特征进行通道维度取模操作，包括：利用L2范数对所述第一俯视图投影网络输出的特征进行通道维度取模操作。

在一个实施方式中，还包括：对通道维度取模操作后的特征进行上采样，以使所述注意力加权特征的维度与蒸馏损失部分的维度相同，其中，所述上采样基于二维插值函数实现。

在一个实施方式中，所述基于所述监督损失部分和蒸馏损失部分对所述目标检测网络进行训练，包括：将所述蒸馏损失部分和所述监督损失部分之和作为全局损失；基于所述全局损失调整所述目标检测网络的网络参数，直至所述全局损失满足预设条件。

在第二方面，本发明提供一种电子设备，该电子设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述任一项所述的目标检测方法。

在第三方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行前述任一项所述的目标检测方法。

在第四方面，提供一种车辆，该车辆包括前述实施例中的电子设备。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

本发明提供一种目标检测方法，首先获取原始点云数据，接着将原始点云数据输入已训练的目标检测网络，得到目标检测结果，其中，目标检测网络是利用知识蒸馏方法训练的，具体是基于第一俯视图投影网络输出的特征获得注意力加权特征，基于第一卷积网络输出的第一提取特征、第二卷积网络输出的第二提取特征以及注意力加权特征得到知识蒸馏方法的蒸馏损失部分，最后基于监督损失部分和蒸馏损失部分对目标检测网络进行训练。如此，利用注意力加权特征作为注意力知道蒸馏训练，有效解决了投影后的特征不均匀导致蒸馏训练效果较差的问题，提升了蒸馏效果，从而训练得到检测精度较高的目标检测网络，将该目标检测网络用于自动驾驶领域的目标检测时，进一步提高了目标检测精度。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本发明的一个实施例的目标检测方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的知识蒸馏方法的流程示意图；

图3是根据本发明的一个实施例的利用目标检测网络进行检测的流程示意图；

图4是根据本发明的一个实施例的确定蒸馏损失部分的流程示意图；

图5是根据本发明的一个实施例的电子设备的主要结构框图示意图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

目前，传统的基于雷达的3D检测方法采取将三维点云特征投影到二维空间的方式。由于三维点云是离散的采样点，投影后的特征往往也不均匀，和一般图片特征差异较大，将投影后的特征用于蒸馏训练时，网络的蒸馏效果较差。将蒸馏后的网络用于目标检测时，导致检测精度较差，难以满足实际需求。为此，本申请提出了一种目标检测方法、电子设备、介质及车辆，首先获取原始点云数据，接着将原始点云数据输入已训练的目标检测网络，得到目标检测结果，其中，目标检测网络是利用知识蒸馏方法训练的，具体是先将训练数据分别输入教师网络和目标检测网络，其中教师网络包括顺序连接的第一体素化网络、第一俯视图投影网络以及第一卷积网络，目标检测网络包括顺序连接的第二体素化网络、第二俯视图投影网络、第二卷积网络以及检测网络，接着基于第一俯视图投影网络输出的特征获得注意力加权特征，其次基于第一卷积网络输出的第一提取特征、第二卷积网络输出的第二提取特征以及注意力加权特征得到所述知识蒸馏方法的蒸馏损失部分，最后基于监督损失部分和蒸馏损失部分对目标检测网络进行训练。如此，利用注意力加权特征作为注意力知道蒸馏训练，有效解决了投影后的特征不均匀导致蒸馏训练效果较差的问题，提升了蒸馏效果，从而训练得到检测精度较高的目标检测网络，将该目标检测网络用于自动驾驶领域的目标检测时，进一步提高了目标检测精度。

参阅附图1，图1是根据本发明的一个实施例的目标检测方法的主要步骤流程示意图。

如图1所示，本发明实施例中的目标检测方法主要包括下列步骤S101-步骤S102。

步骤S101：获取原始点云数据。

具体来说，原始点云数据是由雷达获取的检测目标对应点云数据。检测目标可以是自动驾驶领域的障碍物、车辆、行人以及车道线等目标，但不限于此。

获取原始点云数据的雷达可以是光学雷达、激光雷达等，但不限于此。

原始点云数据包括多个与检测目标对应的三维坐标表示的点。原始点云数据可以是由光学雷达或者激光雷达获取的检测对象对应的点云数据。

步骤S102：将原始点云数据输入已训练的目标检测网络，得到目标检测结果。

其中，利用知识蒸馏方法训练目标检测网络可通过步骤S11至步骤S15实现。

步骤S11：将训练数据分别输入教师网络和目标检测网络，其中教师网络包括顺序连接的第一体素化网络、第一俯视图投影网络以及第一卷积网络，目标检测网络包括顺序连接的第二体素化网络、第二俯视图投影网络、第二卷积网络以及检测网络。

如图2所示，教师网络包括顺序连接的第一体素化网络、第一俯视图投影网络以及第一卷积网络。目标检测网络包括顺序连接的第二体素化网络、第二俯视图投影网络、第二卷积网络以及检测网络。

第一体素化网络和第二体素化网络也就是点云网络，用于从输入的训练数据中提取点云的体素特征。第一体素化网络和第二体素化网络可以由PointNet网络来实现。

第一俯视图投影网络和第二俯视图投影网络均用于将点云的体素特征投影为二维特征。

第一卷积网络和第二卷积网络分别用于对第一俯视图投影网络和第二俯视图投影网络输出的二维特征进行卷积。第一卷积网络和第二卷积网络可以包括卷积层、归一化层以及激活函数等，但不限于此。

检测网络用于输出检测结果，该检测结果包括检测对象的类别、三维位置以及置信度。

步骤S12：基于第一俯视图投影网络输出的特征获得注意力加权特征。

在一个具体实施方式中，基于第一俯视图投影网络输出的特征获得注意力加权特征，包括：对第一俯视图投影网络输出的特征进行通道维度取模操作，得到注意力加权特征。

通过对第一俯视图投影网络输出的特征进行通道维度取模操作，得到注意力加权特征，为后续进行目标检测网络的蒸馏训练提供了基础支撑。

通常来说，利用L2范数(L2_norm)对第一俯视图投影网络输出的特征进行通道维度取模操作，具体可以表示为‖X_proj‖₂，X_proj为第一俯视图投影网络输出的特征。

在一个具体实施方式中，还包括：对通道维度取模操作后的特征进行上采样，以使注意力加权特征的维度与蒸馏损失部分的维度相同。如此，使得在蒸馏过程中，维度相同的注意力加权特征对蒸馏损失部分进行约束，增强了目标检测网络的学习能力，有利于提高蒸馏效率。

在一个具体实施方式中，上采样基于二维插值函数实现。对通道维度取模操作后的特征进行上采样，具体可以表示为

其中，M_conv表示注意力加权特征，F_sample(·)表示二维插值函数。

步骤S13：基于第一卷积网络输出的第一提取特征、第二卷积网络输出的第二提取特征以及注意力加权特征得到知识蒸馏方法的蒸馏损失部分。

在一个具体实施方式中，基于第一卷积网络输出的第一提取特征、第二卷积网络输出的第二提取特征以及注意力加权特征确定知识蒸馏方法的蒸馏损失部分，包括：

基于第一提取特征和第二提取特征确定蒸馏损失函数；

利用注意力加权特征对蒸馏损失函数进行加权，得到蒸馏损失部分。

具体来说，可以利用第一提取特征和第二提取特征确定蒸馏损失函数，这里的蒸馏损失函数可以是均方差损失函数。

在一个具体实施方式中，利用注意力加权特征对蒸馏损失函数进行加权，得到蒸馏损失部分包括：

表示第一提取特征，

表示第二提取特征。

利用注意力加权特征对蒸馏损失函数进行加权，从而保证了在蒸馏训练中只关注有明确3D语义特征的部分，从而解决了现有技术中的特征分布不均匀问题，提高了目标检测网络的学习能力，提高了蒸馏效果，进而得到了检测精度较高的目标检测模型。

步骤S14：基于检测网络的输出得到监督损失部分。

具体是根据检测网络的输出和真实标签，计算得到监督损失部分。具体地，监督损失部分可以利用交叉熵损失函数来表示，但不限于此。

步骤S15：基于监督损失部分和蒸馏损失部分对目标检测网络进行训练。

在一个具体实施方式中，基于监督损失部分和蒸馏损失部分对目标检测网络进行训练，包括：

将蒸馏损失部分和监督损失部分之和作为全局损失；

基于全局损失调整目标检测网络的网络参数，直至全局损失满足预设条件。

具体的，在基于蒸馏损失部分和检测损失部分对目标检测网络进行训练的过程中，首先可以将蒸馏损失部分和监督损失部分之和作为目标检测网络的全局损失，接着基于全局损失调整目标检测网络的网络参数(例如利用反向传播方式)，直至全局损失满足预设条件，也就是全局损失收敛，则完成目标检测网络的训练。

在利用前述知识蒸馏方法训练完目标检测网络之后，如图3所示，具体将前述步骤S101获取的原始点云数据输入训练好的目标检测网络，即可得到检测结果。

基于上述步骤S101-步骤S102，首先获取原始点云数据，接着将原始点云数据输入已训练的目标检测网络，得到目标检测结果，其中，目标检测网络是利用知识蒸馏方法训练的，具体是先将训练数据分别输入教师网络和目标检测网络，其中教师网络包括顺序连接的第一体素化网络、第一俯视图投影网络以及第一卷积网络，目标检测网络包括顺序连接的第二体素化网络、第二俯视图投影网络、第二卷积网络以及检测网络，接着基于第一俯视图投影网络输出的特征获得注意力加权特征，其次基于第一卷积网络输出的第一提取特征、第二卷积网络输出的第二提取特征以及注意力加权特征得到所述知识蒸馏方法的蒸馏损失部分，最后基于监督损失部分和蒸馏损失部分对目标检测网络进行训练。如此，利用注意力加权特征作为注意力知道蒸馏训练，有效解决了投影后的特征不均匀导致蒸馏训练效果较差的问题，提升了蒸馏效果，从而训练得到检测精度较高的目标检测网络，将该目标检测网络用于自动驾驶领域的目标检测时，进一步提高了目标检测精度。

如图4所示，本申请中通过教师网络输出的第一特征和目标检测网络输出的第二特征计算差异损失(蒸馏损失函数)。另外，通过对第一俯视图投影网络输出的特征进行特征转换从而得到注意力加权特征。从而利用注意力加权特征对差异损失进行加权，得到蒸馏损失部分。最终利用该蒸馏损失部分和监督损失部分对目标检测网络进行蒸馏训练。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种电子设备。如图5所示，在根据本发明的一个电子设备实施例中，电子设备包括处理器40和存储装置41，存储装置可以被配置成存储执行上述方法实施例的目标检测方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的目标检测方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的目标检测方法的程序，该程序可以由处理器加载并运行以实现上述目标检测方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，本发明还提供了一种车辆，该车辆包括前述实施例中的电子设备。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

获取原始点云数据；

将所述原始点云数据输入已训练的目标检测网络，得到目标检测结果，

其中，利用知识蒸馏方法训练所述目标检测网络，包括：

将训练数据分别输入教师网络和目标检测网络，其中所述教师网络包括顺序连接的第一体素化网络、第一俯视图投影网络以及第一卷积网络，所述目标检测网络包括顺序连接的第二体素化网络、第二俯视图投影网络、第二卷积网络以及检测网络；

基于所述第一俯视图投影网络输出的特征获得注意力加权特征；

基于所述第一卷积网络输出的第一提取特征、所述第二卷积网络输出的第二提取特征以及所述注意力加权特征得到所述知识蒸馏方法的蒸馏损失部分；

基于所述检测网络的输出得到监督损失部分；

基于所述监督损失部分和蒸馏损失部分对所述目标检测网络进行训练。

2.根据权利要求1所述的目标检测方法，其特征在于，所述基于所述第一俯视图投影网络输出的特征获得注意力加权特征，包括：

对所述第一俯视图投影网络输出的特征进行通道维度取模操作，得到所述注意力加权特征。

3.根据权利要求1所述的目标检测方法，其特征在于，所述基于所述第一卷积网络输出的第一提取特征、所述第二卷积网络输出的第二提取特征以及所述注意力加权特征确定所述知识蒸馏方法的蒸馏损失部分，包括：

基于所述第一提取特征和第二提取特征确定蒸馏损失函数；

利用所述注意力加权特征对所述蒸馏损失函数进行加权，得到蒸馏损失部分。

4.根据权利要求3所述的目标检测方法，其特征在于，利用所述注意力加权特征对所述蒸馏损失函数进行加权，得到蒸馏损失部分包括：

表示第一提取特征，

表示第二提取特征。

5.根据权利要求2所述的目标检测方法，其特征在于，所述对所述第一俯视图投影网络输出的特征进行通道维度取模操作，包括：

利用L2范数对所述第一俯视图投影网络输出的特征进行通道维度取模操作。

6.根据权利要求5所述的目标检测方法，其特征在于，还包括：

对通道维度取模操作后的特征进行上采样，以使所述注意力加权特征的维度与蒸馏损失部分的维度相同，其中，所述上采样基于二维插值函数实现。

7.根据权利要求1所述的目标检测方法，其特征在于，所述基于所述监督损失部分和蒸馏损失部分对所述目标检测网络进行训练，包括：

将所述蒸馏损失部分和所述监督损失部分之和作为全局损失；

基于所述全局损失调整所述目标检测网络的网络参数，直至所述全局损失满足预设条件。

8.一种电子设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的目标检测方法。

9.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的目标检测方法。

10.一种车辆，其特征在于，包括权利要求8所述的电子设备。