CN111461212A

CN111461212A - 一种用于点云目标检测模型的压缩方法

Info

Publication number: CN111461212A
Application number: CN202010243264.5A
Authority: CN
Inventors: 李超; 孙飞; 徐勇军; 许建荣
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-07-28
Anticipated expiration: 2040-03-31
Also published as: CN111461212B

Abstract

本发明提供一种用于点云目标检测模型的压缩方法，具体包括:以原始的点云目标检测模型为教师模型获得学生模型；并用教师模型骨干网络输出的特征矩阵、分类网络输出的软极大值、回归网络输出的前景点生成的检测框分别用于协助训练学生模型的骨干网络、分类网络和回归网络。经本发明处理后的学生模型，其压缩的模型空间及运算量均大幅度小于原网络，保证了模型的压缩率，而对于学生网络的精度弱于教师网络的问题，本专利采用了知识蒸馏的思想，用教师模型辅助训练学生模型提高了学生模型的精度，使得最终提升后的学生模型可以有效的在小存储空间、低运算效率的边缘设备下运行，大大降低了模型对设备的硬件要求，降低了设备成本，提高了计算效率。

Description

一种用于点云目标检测模型的压缩方法

技术领域

本发明涉及人工智能领域，具体来说，涉及深度神经网络模型压缩领域，更具体地说，涉及一种用于点云目标检测模型的压缩方法。

背景技术

近年来，随着深度学习的发展，计算机视觉的相关任务也取得了显著的进展，例如图像分类、语义分割、目标检测等。在计算机视觉中，目标检测任务用于找出图像中所有感兴趣的物体，并标注他们的位置和类别。其中，目标位置的标注通过绘制包围物体的矩形完成，理想情况下，绘制出的矩形可以恰好包围物体，在绘制完成后，通过对矩形框内物体的分类，则完成了完整的目标检测。目标检测在实际场景中有着广泛的应用，例如在工业质检中，通过对缺陷、瑕疵等的检测，可以剔除不达标的物体或方便在瑕疵部位进行修补等。

三维视觉的目标检测在实际生活中具有重要意义，例如在自动驾驶中，除了要检测出道路中的车辆、行人外，还要对车辆和行人之间的距离进行精确的把控，而若仅使用二维图像，因为缺少了至关重要的深度信息，上述目标难以实现。在三维视觉中，点云是一种常见的数据形式，它可以由激光雷达直接采集而成，因此点云目标检测是三维视觉目标检测中的重要组成部分。。在早期发展中，点云目标检测通过将点云转化为体素的方式完成，例如：体素网络，一种端到端的点云目标检测模型，体素网络实现了较好的检测效果，但由于体素占用的存储空间过大，使得处理体素的体素网络模型也需要较大的存储空间及计算资源，不利于边缘端的部署。也有人提出用于直接处理点云而非转化为体素的点网络，例如点卷积神经网络区域用以实现直接对点云数据完成目标检测。虽然在采用直接对点云进行目标检测的方式后，模型大小产生了较大的缩减，但相较于边缘设备的硬件资源，模型所需的存储空间及计算资源仍较大，故需对模型进行再次压缩，才可方便在边缘设备上运行。

在2006年，布基卢等人首次提出利用知识迁移方法来压缩模型，他们通过集成强分类器标注的伪数据训练了一个压缩模型，并重现了原大型网络的输出结果，然而他们的工作仅限于浅层网络。

虽然现有的点云目标检测模型由于处理点云的方式改变而逐渐缩小，但其模型仍较大且不足以在边缘设备上运行，故需对模型进行再次压缩。而到目前为止，还没有有效的指导方案完成点云目标检测模型的压缩，以便于将点云目标检测模型部署于边缘场景中，进行实际使用。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种新的点云目标检测模型的压缩方法，用于将原始的点云目标检测模型压缩为可部署于边缘设备的小型模型。

根据本发明的第一方面，提供一种用于点云目标检测模型的压缩方法，所述模型压缩方法包括：

S1、以原始的点云目标检测模型为教师模型，其中，教师模型包括依次连接的骨干网络、分类网络、回归网络，对教师模型的骨干网络进行裁剪或替换获得规模小于教师模型的初始学生模型；

S2、将教师模型训练至收敛，用收敛后的教师模型对点云数据进行处理，其中，教师模型的骨干网络输出特征矩阵、教师模型的分类网络的输出软极大值、教师模型的回归网络生成前景点对应的检测框；其中，将教师模型训练至收敛包括：将教师模型进行多次训练，直到在某次训练后与该次训练前相比，其分类准确率的变化范围小于或等于0.01％，判定该教师模型已训练至收敛；

S3、以教师模型骨干网络输出的特征矩阵为标签，对初始学生模型的骨干网络进行训练；

S4、以教师模型的分类网络输出的软极大值为标签，对完成骨干网络训练的学生模型的分类网络进行训练；

S5、用教师模型的回归网络中前景点生成的检测框对完成分类网络训练的学生模型的回归网络进行训练；

S6、将完成骨干网络训练、分类网络训练、回归网络训练的学生模型训练至收敛得到压缩模型。

优选的，所述步骤S3中，使用如下损失函数对学生模型的骨干网络进行训练：

L_HT＝||u_h(x)-r(v_g(x))||²

其中，x表示点云数据，u_h(x)表示教师模型对点云数据进行处理后骨干网络的输出，v_g(x)表示学生模型的骨干网络的输出，r表示归一化函数，L_HT表示教师模型骨干网络输出与学生模型骨干网络输出之间的L2损失。

优选的，在所述步骤S4中，使用如下损失函数对学生模型的分类网络进行训练：

L_cls＝μL_hard+(1-μ)L_soft(P_s-P_t)

L_soft＝-∑P_t log P_s

其中，L_cls表示学生模型分类网络的损失函数；L_hard为交叉熵损失，表示使用真实的分类标签对学生模型的分类网络进行训练的损失；L_soft表示根据教师模型的分类网络输出的软极大值计算的损失，P_s表示教师模型的分类网络输出的软极大值，P_t表示学生模型的分类网络输出的软极大值，μ为分类损失调节因子，其取值范围为[0，1]。

优选的，在所述步骤S5中，使用如下损失函数对学生模型的回归网络进行训练：

其中，L_reg表示学生模型回归网络的损失函数，L_sL1(R_s，y_gt)为L1损失，表示使用真实的检测框对学生模型训练的损失，R_s表示学生模型回归网络的输出，y_gt表示真实的检测框标签；L_kd(R_s，R_t)为L2损失，N表示从教师模型回归网络输出的检测框中选取的检测框总数，u⁽ⁱ⁾为教师网络输出的第i个前景点生成的检测框的值，v⁽ⁱ⁾为学生模型输出的对应前景点生成的检测框的值，

为回归损失调节因子，其取值范围为[0，1]。

根据本发明的第二方面，提供一种用于点云目标检测的边缘设备，包括存储器和处理器，所述存储器上部署有本发明第一方面所述方法获得的学生模型。

与现有技术相比，本发明的优点在于：本发明基于知识蒸馏进行点云目标检测模型压缩后，可以在基本不损失精度的前提下，完成边缘设备部署检测模型对存储空间和运算量的需求的减小。经本发明处理后的学生模型，其压缩的模型空间及运算量均大幅度小于原网络，保证了模型的压缩率，而对于学生网络的精度弱于教师网络的问题，本专利采用了知识蒸馏的思想，对学生网络的精度采用了诸多措施进行提升，使得最终提升后的模型可以有效的在小存储空间、低运算效率的边缘设备下运行，大大降低了模型对设备的硬件要求，降低了设备成本，提高了计算效率。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的用于点云目标检测模型的压缩方法对应的处理过程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

发明人在进行点云目标检测模型研究时，发现现有的技术缺陷是：虽然随着处理点云方式的改变，模型的大小及运算量也随之变小，但整体而言，其模型仍较大，在边缘端运行时，会因为模型过大导致模型无法运行或模型的运行效率过低，故需对模型进行再次压缩才能实现在边缘设备上的运行。发明人经过对现有模型压缩方法研究发现，解决该项缺陷，可以通过采用知识蒸馏的思想来实现，知识蒸馏方法的表现较稳定，有完备的数学理论基础，且物端部署方便，可以用于解决点云模型压缩问题。在现有的知识蒸馏工作中，绝大多数论文聚焦于分类或分割模型的压缩，而对点云的目标检测模型并没有进行优化。基于此，本专利提出采用知识蒸馏的思想，使用教师网络中的软极大值、中间层特征及仅前景点生成的候选检测框指导学生网络进行训练，有效的提升了点云目标检测模型的检测精度。

在当前直接对点云进行目标检测的模型中，例如点卷积神经网络区域，其过程可分为两个阶段，即分别用于候选检测框的生成和候选检测框的筛选及调整。在上述两个阶段中，每个阶段均可分为三步，即点云特征的提取(由骨干网络实现)、点云分类(由分类网络实现)、候选检测框的生成或调整(由回归网络实现)，所不同的是，在第一阶段中，点云分类主要用于点云中对点进行前景和背景的分割，并在回归部分进行检测框的生成；在第二阶段中，点云分类用于对检测框中标注的物体进行分类，并在回归部分完成检测框偏移的预测，之后筛去置信度较低的检测框。虽然在第一阶段和第二阶段中，网络的功能不尽相同，但网络结构极为类似，且对于两个阶段而言，二者的输入也极为类似(第一阶段的输入为原始点云，在第二阶段检测框的筛选及调整中，我们首先对第一阶段生成的每个检测框进行框内点的聚集，即每一个检测框聚集成了一片“小”点云)，本发明的模型压缩方法在两个阶段的实施过程一致，都主要包括三个部分：

第一、对点云进行特征提取时，通过使用教师模型特征提取部分(骨干网络)的结果帮助学生模型训练，可有效提高学生网络的体征表达能力。通过将学生模型的特征矩阵拟合为教师模型的特征矩阵，可有效提高学生网络的特征表达能力，进而使得学生网络的检测效果整体提升。

第二、对检测的物体进行分类时，使用教师模型中分类网络的软极大值帮助学生模型训练，可有效提高学生网络中对物体进行分类的泛化能力，提高分类效果。

第三、对检测的物体绘制矩形用以标注物体所在的位置即生成检测框，通过使用教师模型中前景点生成的候选检测框帮助学生模型训练，可有效提高学生模型的检测框的回归能力，在此处，对背景点生成的候选检测框弃之不用，仅使用前景点生成的候选检测框可有效剔除大量噪声，防止无用的候选检测框影响学生模型的训练，进而提升学生模型对物体的定位能力。

下面结合附图及实施例详细说明本发明方法步骤。

根据本发明的一个实施例，如图1所示，一种用于点云目标检测模型的压缩方法,包括:

S1、以原始的点云目标检测模型为教师模型，其中，教师模型包括依次连接的骨干网络、分类网络、回归网络，对教师模型的骨干网络进行裁剪或替换获得规模小于教师模型的初始学生模型。其中，由于在三个子网络中，骨干网络占有绝大多数存储空间及运算量，通过对骨干网络的裁剪或替换完成学生模型设计并保留其他部分不变，例如在点卷积神经网络区域的压缩中，通过将原始模型使用的点网络替换为最小化版本，使得学生模型的大小为教师模型大小的40％左右，计算量也大大减小。

S2、将教师模型训练至收敛，用收敛后的教师模型对点云数据进行处理，其中，教师模型的骨干网络输出特征矩阵、教师模型的分类网络的输出软极大值、教师模型的回归网络生成前景点对应的检测框；用教师模型对点云数据进行处理是将点云数据输入教师模型，由教师模型的骨干网络、分类网络、回归网络对点云进行特征提取、点云分类、候选检测框的生成或调整，在第一阶段中，输入教师模型的点云数据是原始点云数据，在第二阶段中，输入教师模型的点云数据是第一阶段中每一个检测框内的点云数据。

S3、以教师模型骨干网络输出的特征矩阵为标签，对初始学生模型的骨干网络进行训练；即使用保存教师模型的骨干网络的特征矩阵作为标签，将点云输入学生模型，进行学生模型骨干网络的训练，训练时所使用损失函数如下所示：

L_HT＝||u_h(x)-r(v_g(x))||²

其中u_h(x)表示在输入点云x后教师模型骨干网络的输出，v_g(x)表示学生模型的骨干网络的输出，r代表归一化函数，当教师模型中骨干网络和学生模型中骨干网络的输出维度不一致时，该函数起到了对齐维度的作用，通过计算教师模型骨干网络输出与学生模型骨干网络输出之间的L2损失，达到了监督学生模型骨干网络训练的效果。

S4、以教师模型的分类网络输出的软极大值为标签，对完成骨干网络训练的学生模型的分类网络进行训练；具体的，加载训练好的学生模型骨干网络，使用保存教师模型的分类网络的软极大值作为标签，进行学生模型分类网络的训练，训练所使用的损失函数如下所示：

L_cis＝μL_hard+(1-μ)L_soft(P_s-P_t)

L_soft＝-∑P_t log P_s

在上述公式中，L_cls表示学生模型分类网络的损失函数，L_hard为常见的交叉熵损失，表示直接使用真实的分类标签对学生模型的分类网络进行训练的损失，L_soft为根据教师模型的分类网络输出的软极大值计算的损失，5在L_soft的计算公式中，P_s表示教师模型的分类网络输出的软极大值，P_t表示学生模型的分类网络输出的软极大值，在L_soft中，若二者相同，则可得损失为0，二者差距越大则损失越大；μ为分类损失调节因子，用于对两部分损失进行调节，其取值范围为[0，1]。

S5、用教师模型的回归网络中前景点生成的检测框对完成分类网络训练的学生模型的回归网络进行训练；具体的，加载已训练好的学生模型骨干网络、分类网络，使用教师模型中前景点生成的检测框，对学生模型的回归网络进行训练，其训练所使用的损失函数如下：

在上述公式中，L_reg表示学生模型的回归网络的损失函数，它由两部分构成，分别为使用真实的检测框对学生模型的回归网路进行训练的损失L_sL1(R_s，y_gt)和使用教师模型的回归网络的输出对学生模型的回归网路进行训练的损失L_kd(R_s，R_t)。在第一部分损失中，L_sL1(R_s，y_gt)为平滑的L1损失，其中R_s代表学生模型的回归网络的输出，y_gt表示真实的检测框标签，通过使用平滑L1损失，完成了真实标签对学生模型的监督训练。在第二部分损失函数L_kd(R_s，R_t)中，N表示从教师网络中选取的检测框总数，u⁽ⁱ⁾即为教师网络输出的第i个前景点生成的检测框的值，v⁽ⁱ⁾即为学生网络输出的对应前景点生成的检测框的值，通过计算二者之间的L2损失，提高了学生网络的泛化能力，使得学生网络中目标的定位更为精准。

回归损失调节因子，用于对两部分损失进行调节，防止某一部分损失过大，其取值范围为[0，1]。

在两个阶段分别完成上述步骤后，我们得到了压缩后的模型，实现了在损失极小精度的前提下，降低了模型所需的存储空间及运算量。

本发明基于知识蒸馏进行点云目标检测模型压缩后，可以在基本不损失精度的前提下，完成边缘设备部署检测模型对存储空间和运算量的需求的减小。经本发明处理后的学生模型，其压缩的模型空间及运算量均大幅度小于原网络，保证了模型的压缩率，而对于学生网络的精度弱于教师网络的问题，本专利采用了知识蒸馏的思想，对学生网络的精度采用了诸多措施进行提升，使得最终提升后的模型可以有效的在小存储空间、低运算效率的边缘设备下运行，大大降低了模型对设备的硬件要求，降低了设备成本，提高了计算效率。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于点云目标检测模型的压缩方法，其特征在于，所述模型压缩方法包括：

S2、将教师模型训练至收敛，用收敛后的教师模型对点云数据进行处理，其中，教师模型的骨干网络输出特征矩阵、教师模型的分类网络的输出软极大值、教师模型的回归网络生成前景点对应的检测框；

2.根据权利要求1所述的用于点云目标检测模型的压缩方法，其特征在于，所述步骤S2中将教师模型训练至收敛包括：将教师模型进行多次训练，直到在某次训练后与该次训练前相比，其分类准确率的变化范围小于或等于0.01％，判定该教师模型已训练至收敛。

3.根据权利要求1所述的用于点云目标检测模型的压缩方法，其特征在于，所述步骤S3中，使用如下损失函数对学生模型的骨干网络进行训练：

L_HT＝||u_h(x)-r(v_g(x))||²

4.根据权利要求1所述的用于点云目标检测模型的压缩方法，其特征在于，在所述步骤S4中，使用如下损失函数对学生模型的分类网络进行训练：

L_cls＝μL_hard+(1-μ)L_soft(P_s-P_t)

L_soft＝-∑P_tlogP_s

其中，L_cls表示学生模型分类网络的损失函数；L_hard为交叉熵损失，表示使用真实的分类标签对学生模型的分类网络进行训练的损失；L_soft表示根据教师模型的分类网络输出的软极大值计算的损失，P_s表示教师模型的分类网络输出的软极大值，P_t表示学生模型的分类网络输出的软极大值，μ为分类损失调节因子。

5.根据权利要求4所述的用于点云目标检测模型的压缩方法，其特征在于，所述分类损失调节因子取值范围为[0，1]。

6.根据权利要求1所述的用于点云目标检测模型的压缩方法，其特征在于，在所述步骤S5中，使用如下损失函数对学生模型的回归网络进行训练：

为回归损失调节因子。

7.根据权利要求6所述的用于点云目标检测模型的压缩方法，其特征在于，所述回归损失调节因子取值范围为[0，1]。

8.一种用于点云目标检测的边缘设备，包括存储器和处理器，其特征在于，

所述存储器上部署有基于权利要求1至7中任一所述方法获得的学生模型。

9.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至7任一所述方法的步骤。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至7中任一项所述方法的步骤。