CN114239799A

CN114239799A - 一种高效目标检测方法、设备、介质和系统

Info

Publication number: CN114239799A
Application number: CN202111464007.5A
Authority: CN
Inventors: 戴文睿; 杨泽锐; 费文; 李成林; 邹君妮; 熊红凯
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-25

Abstract

本发明提供一种高效目标检测方法，包括：获取目标检测训练集；将所述训练集用于目标检测网络的预训练，得到全精度目标检测网络；自动调整所述目标检测网络的精度和参数，获得指定压缩率下的混合精度目标检测网络；采用所述混合精度目标检测网络对待检测图像进行处理，得到图像检测结果。本发明能基于给定的图像数据，自动调整设计目标检测网络的参数，减少模型大小，无需繁杂的人为设计，能够在不同的计算和存储资源下，自适应的调整模型大小，同时实现较高的图像检测准确率，保证了图像检测方法的稳定性和实用性。

Description

一种高效目标检测方法、设备、介质和系统

技术领域

本发明涉及人工智能和图像处理技术领域，具体地，涉及一种高效目标检测方法、设备、介质和系统

背景技术

随着计算能力的提升和大数据的发展，人工智能在近些年来取得了飞速的发展，对于图像分类、目标追踪、实例分割等图像处理应用需求也越来越高。目标检测在实际应用中有着极其重要的作用，它首先搜索出图像中存在的目标的位置与形状，再判断这些目标分别属于哪一类别，不同于图像分类任务，目标检测既要解决定位问题，又要解决分类问题，更为复杂。

目标检测算法发展至今，主要分为一阶段(one-stage)和二阶段(two-stage)。二阶段指的是检测算法分两部完成，首先获取候选区域，再进行分类，其中R-CNN系列为其代表。为了提升网络的性能和速度，通过改善候选区域的创建方法，先后出现了R-CNN，FastR-CNN和Faster R-CNN等工作。

目前在二阶段的算法中，Faster-RCNN为综合性能最好也最为常用的网络结构。虽然基于区域的检测器可以保证比较高的准确性，但是候选区域的提取是要付出运算时间的代价。与二阶段检测相对的是一阶段检测，一阶段不需要单独寻找候选区域，可以说是检测和分类一步到位，大大提升了处理速度，然而其准确率相对较低，因此典型的工作有SSD，YOLO和RetinaNet，他们都旨在权衡准确率和实时处理速度。

在一阶段的检测工作中，RetinaNet是目前综合性能优异且被研究者关注的网络结构。然而用于目标检测任务的深度神经网络结构很深，需要巨大的计算和存储开销，阻碍了这项技术在资源受限的环境下和具有低延迟要求的场景中的应用，例如手机、监控摄像和自动驾驶等。为了得到一种高效的目标检测方法，需要对原有的一阶段和二阶段结构进行轻量化。

传统的目标检测网络结构中，基于32bit浮点数计算的卷积一般存在较大的冗余，而降低网络参数和精度不仅可以对模型进行压缩，节省带宽和计算资源，同时加速了推断速度，其运算时的内存占用也获得了显著的降低。同时，许多研究工作指出低精度的网络模型也能有不错的性能表现，这为模型量化提供了可能。但是，模型量化通常会带来信息损失，典型的，在图像分类任务中，低比特量化后的网络的分类准确率会出现明显下降。混合精度量化可在一定程度解决这个问题，混合精度量化为不同参数选择合适的比特位宽，对分类结果影响小而参数量大的网络权重被分配低比特，这样同时保证了压缩率和准确度。自适应比特位宽分配则根据设定的准则计算参数的重要性，从而自动地给出相应参数的比特位宽。

综上，现有的高效目标检测方法还存在以下不足：(1)压缩后的网络性能下降较多；(2)现有的目标检测的混合精度量化方法需要人为指定位宽，搜索空间巨大，计算和存储开销，性能也存在很大的提升空间。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种高效目标检测方法、设备、介质和系统。

根据本发明的一个方面，提供一种高效目标检测方法，包括：

获取目标检测训练集；

将所述训练图像用于目标检测网络的预训练，得到全精度目标检测网络；

自动调整所述目标检测网络的精度和参数，获得指定压缩率下的混合精度目标检测网络；

采用所述混合精度目标检测网络对待检测图像进行处理，得到图像检测结果。

优选地，所述将训练图像用于目标检测网络的预训练，得到全精度目标检测网络；自动调整所述目标检测网络的精度和参数，获得指定压缩率下的混合精度目标检测网络，包括：

计算网络层的用于评估网络参数重要性的量化灵敏度；

选择量化灵敏度最低的网络层，利用精度逐级下降的方法，降低该层参数的精度。利用L-BFGS算法对所述降低参数精度的网络层的量化灵敏度进行动态更新；

重复选择灵敏度最低的网络层，迭代调整该层参数的精度，直到整个网络的模型压缩率达到指定阈值，得到混合精度目标检测网络；

将全部训练图像输入至所述混合精度目标检测网络，通过直通估计进行微调训练直至收敛，用于目标检测。

优选地，所述量化灵敏度，能够衡量不同网络层参数的重要性，评估降低网络层参数的精度对网络性能的影响，为：

其中：

n_i表示第i层的网络参数的数量，

是第i层的网络参数矩阵，Q(·)是用于降低参数精度的量化函数，

是量化扰动，

是损失函数，

是损失函数

关于第i层参数矩阵

的Hessian阵的迹的平均值。

优选地，所述Hessian阵的迹的平均值是利用Hutchinson法计算各参数对应的Hessian矩阵的对角线的元素和。

优选地，所述网络层参数精度逐级下降的方法，是指选择量化灵敏度最低的网络层，将其参数精度按照32比特→8比特，8比特→6比特，6比特→4比特，4比特→3比特，3比特→2比特，2比特→1比特的映射方式，从高精度调整到低精度。

优选地，所述L-BFGS算法，在训练时根据网络层前一轮的Hessian矩阵和当前轮训练前后参数的权值差和梯度差，计算出当前轮的Hessian矩阵，通过存储权值差和梯度差向量而不是完整的Hessian矩阵来减少存储和计算开销：

其中：

是训练前后网络层参数的梯度差向量，ΔW_k＝W_k+1-W_k是训练前后网络层参数的差向量，

优选地，所述直通估计的微调训练，包括：

复制所得到的指定压缩率的低精度网络，将一个作为教师网络，另一个作为学生网络；将全部训练图像输入学生网络，学生网络将训练时得到的梯度回传给教师网络，教师网络根据得到的梯度更新网络参数，并将网络参数按照对应层的精度量化，回传给学生网络，直至收敛，得到最终的学生网络作为混合精度目标检测网络。

根据本发明的第二个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的高效目标检测方法。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述的高效目标检测方法。

根据本发明的第四个方面，提供一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现上述任一项所述的高效目标检测方法。

与现有技术相比，本发明具有如下的有益效果：

本发明能基于给定的图像数据，自动调整设计目标检测网络的参数，减少模型大小，无需繁杂的人为设计，能够在不同的计算和存储资源下，自适应的调整模型大小，同时实现较高的图像检测准确率，保证了图像检测方法的稳定性和实用性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的高效目标检测方法的流程图；

图2为本发明一实施例的高效目标检测方法的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明提供一个实施例，一种高效目标检测方法，包括：

S100,获取目标检测训练集；

S200,将训练图像用于目标检测网络的预训练，得到全精度目标检测网络；

S300,自动调整目标检测网络的精度和参数，获得指定压缩率下的混合精度目标检测网络；

S400,采用目标检测网络对待检测图像进行处理，得到图像检测结果。

基于上述实施例进一步优化，如图1所示，为本发明提供个一个优选实施例的一种高效目标检测方法的流程图，包括：

S0,将采集到的图像用于目标检测网络的预训练，得到全精度网络模型；

S1,利用Hutchinson初始化网络层的Hessian阵的迹的平均值，计算每一层参数从32比特量化到8比特的量化扰动，完成量化灵敏度的初始化；

S2,利用位宽精度逐级下降的方法，每一次选择量化灵敏度最低的层，按照(32-8,8-6,6-4,4-3,3-2,2-1)的位宽映射方式降低其位宽精度；

S3,利用L-BFGS算法，对每一次降低位宽精度的卷积层的Hessian阵以及量化灵敏度进行动态更新，使其更加精确；

S4,判断网络是否达到指定压缩率，如已达到，则进入S5；如没有达到，则返回S1；

S5,将全部训练图像输入达到指定压缩率的目标网络，通过直通估计进行微调训练直至收敛，用于目标检测。

为了更好的获取网络层的量化灵敏度，本发明提供一个实施例执行S1，以计算网络层的量化灵敏度，用于评估网络参数的重要性。

量化灵敏度指的是量化指定层对网络性能的敏感程度，估计将网络层参数从高精度量化到低精度对网络性能的影响，量化后对网络性能影响越大的网络层越敏感。量化灵敏度是一种估计网络层参数重要性的指标。

经过理论推导，损失函数和Hessian阵的迹的平均值的关系如下：

当

时，

其中n_i表示第i层的网络参数的数量，

是量化扰动，

是损失函数，

是损失函数

关于第i层参数矩阵

的Hessian阵的迹的平均值。

可以用Hessian阵的迹的平均值和量化扰动的乘积作为量化灵敏度。实际上，由于不同网络层的参数量不同，量化参数量多的网络层会将网络压缩的更多，综合考虑网络压缩和网络性能，设计新的量化灵敏度：

首先，将采集到的训练图像用于一阶段目标检测网络的预训练，得到RetinaNet的全精度目标检测网络，其中网络参数为32比特(bit)浮点数。

根据得到的全精度目标检测网络，用Hutchinson法计算每一层网络参数的Hessian阵的迹的平均值，由于使用200张训练图像就可以使得Hessian阵趋于稳定，为了节约时间和计算开销，用200张输入图像，迭代50轮，得到每一层初始化的Hessian阵的迹的平均值。

用量化函数将每一层参数的精度从32比特降低到8比特，得到权值量化前后的量化误差，结合Hessian阵的迹的平均值，得到每一个网络层初始的量化灵敏度。本实施例中选用线性对称量化作为量化函数，以量化前后的权值差的二范数作为量化扰动。

为了实现降低位宽精度，本发明提供一个优选实施例执行S2,利用精度逐级下降的方法，每一次选择量化灵敏度最低的层降低其位宽精度；

如图2所示，为高效目标检测方法的结构示意图，图中，y_i表示第i层网，n_i表示对应的第i层网络参数的数量，b_i为第i层网络层的位宽精度，s_i为第i层网络层的最低的量化灵敏度。从图中可见，为根据初始化得到的所有网络层的量化灵敏度，每一次选择量化灵敏度最低的网络层，将其精度按照32比特→8比特，8比特→6比特，6比特→4比特，4比特→3比特，3比特→2比特，2比特→1比特的映射方式，从高精度调整到低精度。具体地，如果所选网络层在当前轮迭代前的精度为6比特，在当前轮迭代中就将其精度从6比特调整到4比特，由于其精度发生变化，该层的量化灵敏度也需要重新计算。当网络参数的精度达到1比特后，该层不再进行调整。

在重新计算量化灵敏度时，网络层的参数因为从高精度调整到低精度，数值发生了改变，其Hessian矩阵的迹的平均值，量化扰动也随之发生了变化，需要重新计算。

本发明提供一个优选实施例执行S3,利用L-BFGS算法，对每一次降低位宽精度的卷积层的Hessian阵以及量化灵敏度进行动态更新，使其更加精确。

如图2所示，将所选网络层的参数从高精度调整到低精度后，由于参数的改变会导致其真实的Hessian阵发生变化，如果仍然使用初始化的Hessian阵的迹的平均值会导致量化灵敏度的不准确。如果使用Hutchinson法重新计算该层的Hessian阵，其时间和计算开销太大。利用L-BFGS算法对所选层的Hessian阵动态更新可以充分减少存储和计算复杂度。

L-BFGS算法是解无约束非线性规划问题最常用的方法，具有收敛速度快、内存开销少等优点，其本质是一种通过近似Hessian矩阵并存储两个序列而不是整个近似矩阵来减少计算成本和存储空间的拟牛顿法。该方法在深度学习中被应用于网络训练过程中的梯度更新。

事实上，本实施例中预训练好的全精度网络可以看作是网络量化的最优解，网络参数在每次精度降低后会逐渐偏离最优值，相反，每次精度降低后的小批量微调将使参数在当前精度约束下逐渐接近新的最优值这个过程符合L-BFGS的应用场景。因此，可以使用L-BFGS算法更新所选网络层的Hessian矩阵。由于只考虑网络层的Hessian阵的迹，本实施例中只存储和更新其对角线元素以进一步降低计算和存储成本。

具体地，本实施例在小批量微调训练时根据网络层前一轮的Hessian矩阵和当前轮训练前后参数的权值差，梯度差，近似计算出当前轮的Hessian矩阵，通过存储存储权值差和梯度差向量而不是完整的Hessian矩阵来减少存储和计算开销：

其中：

本实施例中，为了减少微调训练带来的时间开销，每次仅用50张图片进行微调训练，20张图片用于计算训练前后该层参数的梯度差。对于不同的网络层，均用这些图片进行计算。理论上，增加图片数量可以进一步提升Hessian阵的迹的准确性，从而使得量化灵敏度更为准确。

S4,重复S2～S3不断选择量化灵敏度最低的网络层，迭代调整该网络层参数的精度，直到整个网络的模型压缩率达到指定阈值，得到目标网络；

本发明提供一个优选实施例执行S5,将全部训练图像输入达到指定压缩率的目标网络，通过直通估计进行微调训练直至收敛，用于目标检测。

本实施例复制所得到的指定压缩率的低精度网络，将一个作为教师网络，另一个作为学生网络；将全部训练图像输入学生网络，学生网络将训练时得到的梯度回传给教师网络，教师网络根据得到的梯度更新网络参数，并将网络参数按照对应层的精度量化，回传给学生网络，直至收敛，得到最终的学生网络作为目标网络。在微调训练中，对于得到的高效RetinaNet目标网络，以10^-5为初始学习率，在训练完两轮后，网络的学习率降低到原来的1/10。

本实施例基于给定的图像数据，自动确定目标检测网络的每一层参数的位宽精度，无需繁杂的人工设计，用于目标检测，大幅减少位宽分配时间和人力资源消耗。在减少网络模型大小的同时，能实现很好的目标检测准确率。

在本发明一实施例中，针对一阶段目标检测网络RetinaNet，以ResNet-50为骨架，将网络参数的精度调整到平均4比特。本实施例在Microsoft COCO 2017数据集上进行评估，该数据集是目前公认的最常用最先进的用于评估目标检测网络的数据集。目标网络在模型大小为原来的1/8的同时，在COCO2017上面达到了37.1％的mAP值。

具体对比结果可见如下表1所示，表1为本发明实施例在一阶段目标检测网络RetinaNet上面，参数精度平均4比特，模型大小为原来的1/8的结果评测对比，表中越高的mAP代表越好的性能，越小的位宽精度代表越小的模型大小。

表1

上述实验表明，本发明的实施例提出的一阶段高效目标检测方法，能够在限定计算资源的情况下，在自适应减少模型大小的同时，保证目标检测方法的性能，达到同等压缩率下的性能最优，并且可以在较短时间内自动设计调整得到基于神经网络的高效目标检测方法，从而有更广泛的应用场景。

在本发明另一实施例中，高效目标检测方法包括：获取目标检测训练集；最小化训练图像的分类损失和回归损失，训练自动得到指定压缩率下的二阶段目标检测网络的参数；采用得到的目标检测网络对待检测图像进行处理，得到图像检测结果。在微调训练中，对于得到的高效Faster R-CNN目标网络，以0.002为初始学习率，在训练完两轮后，网络的学习率降低到原来的1/10。针对二阶段目标检测网络Faster R-CNN，以ResNet-50为骨架，将网络参数的精度调整到平均4比特。本实施例在Microsoft COCO2017数据集上进行评估。目标网络在模型大小为原来的1/8的同时，在COCO2017上面达到了37.1％的mAP值。具体对比结果可见如下表2所示，表2为本发明实施例在二阶段目标检测网络Faster R-CNN上面，参数精度平均4比特，模型大小为原来的1/8的结果评测对比，表中越高的mAP代表越好的性能，越小的位宽精度代表越小的模型大小。

表2

上述实验表明，本发明的另一实施例提出的二阶段高效目标检测方法，能够在限定计算资源的情况下，在自适应减少模型大小的同时，保证目标检测方法的性能，达到同等压缩率下的性能最优，并且可以在较短时间内自动设计调整得到基于神经网络的高效目标检测方法，从而有更广泛的应用场景。

基于上述实施例相同的构思，在本发明另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下任一种方法：上述实施例的高效目标检测方法。

基于上述实施例相同的构思，在本发明另一实施例中，还提供一种芯片系统，包括处理器，处理器与存储器的耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时实现以下任一种方法：上述实施例的高效目标检测方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

综上，本发明实施例中的方法和设备采用高效目标检测方法，根据给定的目标检测图像数据，自动调整目标检测网络参数的精度，得到指定压缩率下的目标检测网络，用于目标检测任务，节省了人工分配的时间和资源消耗，使得目标检测方法能高效地实际部署在工业应用中。进一步的，高效目标检测方法能在限定计算资源的情况下，在减少模型大小的同时，达到接近全精度网络的性能，这种高效自动化且性能较好的目标检测方法使得能在工业化的各种设备上部署来进行目标检测任务。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。

Claims

1.一种高效目标检测方法，其特征在于，包括：

获取目标检测训练集；

将所述训练集用于目标检测网络的预训练，得到全精度目标检测网络；

2.根据权利要求1所述的一种高效目标检测方法，其特征在于，所述将训练集用于目标检测网络的预训练，得到全精度目标检测网络；自动调整所述目标检测网络的精度和参数，获得指定压缩率下的混合精度目标检测网络，包括：

计算网络层的用于评估网络参数重要性的量化灵敏度；

选择量化灵敏度最低的网络层，利用精度逐级下降的方法，降低该层参数的精度；

利用L-BFGS算法对所述降低了参数精度的网络层的量化灵敏度进行动态更新；

重复选择量化灵敏度最低的网络层，迭代调整该层参数的精度，直到整个网络的模型压缩率达到指定阈值，得到混合精度目标检测网络；

3.根据权利要求2所述的一种高效目标检测方法，其特征在于，所述量化灵敏度，能够衡量不同网络层参数的重要性，评估降低网络层参数的精度对网络性能的影响，为：

其中，n_i表示第i层的网络参数的数量，

是量化扰动，

是损失函数，

是损失函数

关于第i层参数矩阵

的Hessian阵的迹的平均值。

4.根据权利要求3所述的一种高效目标检测方法，其特征在于，所述Hessian阵的迹的平均值是利用Hutchinson法计算各参数对应的Hessian矩阵的对角线的元素和。

5.根据权利要求1所述的一种高效目标检测方法，其特征在于，所述网络层参数精度逐级下降的方法，是指选择量化灵敏度最低的网络层，将其参数精度按照32比特→8比特，8比特→6比特，6比特→4比特，4比特→3比特，3比特→2比特，2比特→1比特的映射方式，从高精度调整到低精度。

6.根据权利要求2所述的一种高效目标检测方法，其特征在于，所述L-BFGS算法，在训练时，根据网络层前一轮的Hessian矩阵和当前轮训练前后参数的权值差和梯度差，计算出当前轮的Hessian矩阵，

其中：

是训练前后网络层参数的梯度差向量，ΔW_k＝W_k+1-W_k是训练前后网络层参数的权值差向量，

7.根据权利要求1所述的一种高效目标检测方法，其特征在于，所述直通估计的微调训练，包括：

复制所得到的指定压缩率的混合精度网络，将一个作为教师网络，另一个作为学生网络；

将全部训练图像输入学生网络，学生网络将训练时得到的梯度回传给教师网络，教师网络根据得到的梯度更新网络参数，并将网络参数按照对应层的精度量化，回传给学生网络，直至收敛，得到最终的学生网络作为混合精度目标检测网络。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述的高效目标检测方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7任一项所述的高效目标检测方法。

10.一种芯片系统，包括处理器，所述处理器与存储器的耦合，所述存储器存储有程序指令，其特征在于，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至7任一项所述的高效目标检测方法。