CN112232411A

CN112232411A - HarDNet-Lite在嵌入式平台的优化方法

Info

Publication number: CN112232411A
Application number: CN202011104925.2A
Authority: CN
Inventors: 黄文丽; 杨省; 高子昂; 胡鹏; 程金平; 解伟荣
Original assignee: Zhejiang Lingtu Technology Co ltd
Current assignee: Zhejiang Lingtu Technology Co ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-15
Anticipated expiration: 2040-10-15

Abstract

本发明公开了一种HarDNet‑Lite在嵌入式平台的优化方法，用以解决现有的目标检测网络过于复杂、运算量大、在嵌入式平台推理速度慢与定位精度低的问题。该方法包括以下步骤：1)搭建轻量级的HarDNet‑Lite特征提取网络；2)采用加权FPN结构融合不同尺度的特征图，使丰富的底层细节信息与高层的语义信息充分融合；3)生成YOLO检测头，在不同大小的特征图上面放置通过k‑means聚类生成的锚框，用以检测不同尺度大小的目标；4)使用分类与回归损失函数进行端到端的训练模型；5)将训练完成的模型部署于嵌入式平台，进行目标检测。本发明的有益效果是，提高了HarDNet‑Lite目标检测网络在嵌入式平台的推理速度与目标检测精度。

Description

HarDNet-Lite在嵌入式平台的优化方法

技术领域

本发明属于目标检测技术领域，具体地说是一种HarDNet-Lite在嵌入式平台的优化方法。

背景技术

目标检测是计算机视觉的一个重要分支，在现实中的应用很广泛，比如视频监控、工业检测、人脸检测等诸多领域，通过计算机视觉可以减少对人力成本的消耗，具有很强的现实应用意义。

自从2012年以来，卷积神经网络开始快速发展，一些性能更强的网络结构不断的被提出来，比如Vgg,GoogleNet,ResNet,ResNext,DenseNet等。为了获得更优的性能，网络的层数不断地增加，参数量也变得越来越大，通过这样的方式，尽管网络的性能得到了提高，但随之而来的就是效率的问题，效率问题主要体现在两个方面：一是模型的存储问题，二是模型进行推理的速度问题。

(1)存储问题:随着网络结构的加深，网络中保存着大量的卷积核权重，让模型本身占用的存储空间变得越来越大，甚至高达几百兆字节，而嵌入式设备本身的存储空间和内存就比较有限，过大的网络模型往往无法载入运行；

(2)速度问题：在实际应用中，一般要求模型的前向推理速度在毫秒数量级，如果网络模型过于复杂，计算量也会增大，而嵌入式设备的计算能力都比较弱，会导致模型前向推理的速度变得很慢，从几秒到十几秒，无法达到接近实时的实用要求。

如果能够解决卷积神经网络的效率问题，就能够让卷积神经网络更广泛地应用于嵌入式设备中，为了减小卷积神经网络模型的大小，提高网络的前向推理速度，现有的方法主要包括模型的蒸馏、压缩、量化等方法，而设计轻量化的模型结构则是另辟蹊径，主要思想是设计更高效、通用的网络结构，使网络的存储空间和参数量减少的同时，不降低网络的性能。

发明内容

本发明的目的在于针对上述现有技术的不足，提供了一种HarDNet-Lite在嵌入式平台的优化方法。

本发明采用如下技术方案来实现的：

HarDNet-Lite在嵌入式平台的优化方法，包括以下步骤：

1)利用HarDNet-Lite网络结构对原始的彩色图片进行特征提取；

2)对提取到的不同层次的特征，采用加权FPN结构进行特征融合；

3)在特征融合后的不同尺度大小的特征图上放置通过聚类生成的锚框，形成检测头；

4)对HarDNet-Lite主干网络结构和检测头，采用分类与回归损失函数进行端到端的训练；

5)训练结束后，将生成的权重文件和HarDNet-Lite网络结构配置文件部署到嵌入式平台，进行目标检测。

本发明进一步的改进在于，步骤1)的具体实现方法如下：

101)HarDNet-Lite网络结构在HarDNet网络结构的基础上，进行网络深度和宽度两个方面同时进行裁剪，形成HarDNet-Lite轻量级的网络结构；

102)原始的彩色图片采用高清摄像头采集的行人、车辆的原始图片，对采集到的样本集进行人工标注并按照9:1的比例，划分为训练集和验证集。

本发明进一步的改进在于，步骤2)的具体实现方法如下：

201)加权FPN结构是在FPN结构的基础上添加了自适应权重结构，生成与原特征图大小一致的权重特征图，权重取值在[0,1]范围之间；

202)特征融合的具体做法是：首先对原始特征图采用加权FPN结构生成权重特征图，下来将原始特征图与权重特征图进行逐元素的乘积，下一步需要将不同尺度的特征图分别进行上采样，并与自身上一层的特征图在通道方向进行拼接，得到融合后的特征图。

本发明进一步的改进在于，步骤3)的具体实现方法如下：

301)锚框的生成是采用k-means算法对图片中的标注框进行聚类，一共生成6个不同大小和尺度的锚框；

302)检测头的生成是将6个锚框每3个划分为一组，放置到融合后特征图的每个像素点上面，分辨率大的特征图感受野小对应小尺寸的锚框来检测小物体，分辨率小的特征图感受野大对应大尺寸的锚框来检测大物体。

本发明进一步的改进在于，步骤4)的具体实现方法如下：

401)对HarDNet-Lite主干网络结构和检测头进行端到端的训练，采用Darknet深度学习框架来完成，训练的时候分类损失函数采用Focal Loss，回归损失函数采用CIoULoss来进行训练；

402)此外训练时还包括对训练集的数据进行增强处理，包括随机翻转、裁剪、亮度的变化，目标类别数和初始学习率的设定，学习率衰减的方法以及总的迭代次数。

本发明进一步的改进在于，步骤5)的具体实现方法如下：

网络模型优化完成后，将生成的权重文件和HarDNet-Lite网络结构的配置文件部署到NVIDIA的Jetson Nano嵌入式设备上面，并配置运行时环境，利用外接摄像头或者本地图片进行行人、车辆目标的检测。

本发明至少具有如下有益的技术效果：

本发明提供的HarDNet-Lite在嵌入式平台的优化方法，该方法通过HarDNet-Lite在嵌入式平台的优化，从深度和宽度(卷积核数量)两个方面同时对网络结构进行裁剪优化，不仅降低了网络模型本身的复杂性，而且极大地缩减了模型的参数量，能够提高目标检测时的推理速度、降低模型的体积大小，此外采用加权FPN结构对不同尺度的特征图进行融合，生成具有丰富语义信息且有判别性的特征图，下来在不同尺度的特征图上进行目标检测，能够提高目标检测时的精度。

进一步，HarDNet-Lite轻量级网络结构是在HarDNet网络结构的基础上，进行网络深度和宽度(卷积核数量)两个方面同时进行裁剪优化，这样可以降低网络中通道与参数的数量，减少模型计算时的运算量，进而加快模型检测时的速度，同时由于参数量的减少也会让模型的体积变小。

进一步，采用加权的FPN结构对输出的不同层次的特征图进行加权融合，这样生成的特征图具有丰富的语义信息，能够知道图像中是否存在需要检测的目标，同时对特征图在通道方向进行拼接后，能够让特征图具有丰富的细节特征，定位出具体的物体在哪里，提升目标检测时的精度。

进一步，在不同尺度的特征图上面放置不同大小的锚框，大的特征图感受野小用小的锚框来检测小目标，小的特征图感受野大用大的锚框来检测大目标，能够实现对不同大小的目标都能够检测出来。

进一步，在训练HarDNet-Lite主干网络结构和检测头时采用分类损失函数FocalLoss，能够解决正负样本与难易样本数量不平衡之间的问题，回归损失函数CIoU Loss在回归检测框的时候考虑到预测框的大小与标注框之间的距离，可以让预测框回归地更加准确。

附图说明

图1为本发明的整体流程；

图2为本发明的HarDBlock；

图3为本发明的DenseBlock；

图4为本发明的加权FPN结构；

图5为本发明的YOLO目标检测头。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述。如图1所示，HarDNet-Lite在嵌入式平台的优化方法，包括如下5个步骤：1.搭建HarDNet-Lite特征提取网络结构；2.采用加权FPN融合不同尺度的特征图；3.生成YOLO检测头；4.分类与回归损失函数；5.将模型部署于嵌入式平台。下面将对这5个步骤分小节进行详细的说明。

1.HarDNet-Lite特征提取网络结构

1.1 HarDBlock的构成

HarDNet-Lite网络结构是由基本的HarDBlock搭建起来的，每一个HarDBlock中由卷积层进行不同的连接组成，一个包含有8层卷积的基本HarDBlock结构如图2所示，其中k表示每一层卷积后输出的特征图数量，m是一个乘数可以在k的基础上调整输出特征图的数量，一个基本的HarDBlock一般由4、8或者16个基本的卷积(conv+batchnorm+relu)构成，其中卷积层输入输出之间的连接关系可以表示如下：

假设一个HarDBlock中含有L个卷积层，L_i表示卷积层中的第i个卷积，i∈{1,2…,L},那么第L_i个卷积层的输入应当与第L_i-2ⁿ个卷积层的输出相连接，其中要满足L_i-2ⁿ≥0且L_i％2ⁿ＝0的要求，n∈{0,1,2…,∞}是非负整数，连接关系用公式(1)描述如下：

link(L_i)＝L_i-2ⁿ s.t.L_i-2ⁿ≥0,L_i％2ⁿ＝0，n＝0,1,2…∞ (1)

公式(1)进一步的解释就是当L_i卷积层是奇数层时其仅仅与上一层的卷积层相连接，当是偶数层时其不仅与上一层的卷积层输出相连接还与L_i-2ⁿ(L_i％2ⁿ＝0)层相连接，当L_i是2ⁿ的指数倍时其输出的卷积层特征图个数是k*mⁿ,也就是在k的基础上以m进行倍乘，最后的输出层Output Layer由前面的输入层Input Layer、奇数层卷积的输出和最后一个卷积层的输出在通道方向拼接组成。

DenseNet网络结构是由基本的DenseBlock组成，每一个DenseBlock中由若干个卷积层(batchnorm+relu+conv)组成，一个包含有5层卷积的基本DenseBlock如图3所示，类似于HarDBlcok，其中k表示每一层卷积后输出的特征图数量，DenseBlock中卷积层之间的输入输出关系表示如下：

假设一个DenseBlock中含有L个卷积层，L_i表示卷积层中的第i个卷积，i∈{1,2…,L},那么第L_i个卷积层的输入应当与前面所有卷积层的输出相连接，如公式(2)所示：

link(L_i)＝concat([L₀,L₁,…L_i-2,L_i-1]) (2)

其中concat()表示卷积层输出的特征图按照通道进行拼接，可以看到DenseBlock中每一层的卷积都与前面所有层的卷积之间进行连接，属于密集连接的方式，奇数层与偶数层之间没有差别，而且每一层卷积输出的特征图数量都是k个没有变化，最后的输出层Output Layer由输入层Input Layer和前面所有卷积层的输出在通道方向拼接组成。

通过图2与图3之间的对比可知,HarDBlock相比于DenseBlock有如下3方面的优点：

1)HarDBlcok卷积层之间的连接数目更少，奇数层仅与前一层卷积层相连接，偶数层与第L_i-2ⁿ(L_i-2ⁿ≥0,L_i％2ⁿ＝0，n＝0,1,2…)卷积层相连接，连接的复杂度是O(L log(L)),DenseBlock卷积层的每一层都与前面所有的卷积层相连接，连接的复杂度是O(L²),相比于DenseBlock,HarDBlock拥有更低的连接复杂度O(L log(L))；

2)HarDBlcok卷积层输出的特征图更具多样性,当卷积层满足L_i％2ⁿ＝0的条件时，输出的特征图数量在原来k的基础上乘以一个乘数m变为k*mⁿ个输出特征图，而DenseBlock卷积层输出的特征图数量都是k个,始终保持不变；

3)由于HarDBlock卷积层输入的特征图数量变少，相比于DenseBlock,HarDBlock拥有更低的运算量FLOPs,速度更快。

1.2 HarDNet-Lite网络结构

有了基本的HarDBlock结构，可以利用HarDBlock搭建出来HarDNet网络结构，一个基本的68层HarDNet网络结构如表1所示：

表1

HarDNet中一共有68个卷积层，含有5个HarDBlock块，模型的参数总量为17.56M,此外每个HarDBlock块输出的特征图数量也比较多，这么大的模型在嵌入式设备上面往往运行的速度会很慢，因此需要对HardNet的卷积层和输出的特征图数量进行裁剪优化，并调整每一层基本的输出特征图数量k,以及乘子m,使HardNet网络变瘦、变浅，经过裁剪后可以得到如下优化过的HarDNet-Lite网络结构，如表2所示：

表2

HarDNet-Lite中一共有38个卷积层，含有4个HarDBlock块，模型的参数总量为0.91M,相比较于HarDNet，HarDNet-Lite卷积层的数量更少、模型的参数量仅是其1/19倍，网络的深度与宽度都被裁剪与优化，这样更加适合在嵌入式或者移动设备上面运行,此外HarDNet-Lite裁剪掉了最后的全连接层FC,为了进行后面的检测任务。

2.加权FPN融合不同尺度的特征图

利用HarDNet-Lite网络结构对原始的图片进行特征提取，分别提取出HarDBlockx16中Transition Layer输出的特征图C₁(大小52x52x60),HarDBlock x8中TransitionLayer输出的特征图C₂(大小26x26x80),HarDBlock x4中Transition Layer输出的特征图C₃(大小13x13x132)，这三组特征图具有不同的尺度大小，并且提取的是原始图片中不同的信息，通常浅层特征图学习到的是图片的细节特征，深层特征图学到的更多的是语义特征。为了提高物体检测的性能，利用加权FPN结构如图4，将底层的特征图与高层的特征图进行融合，这样每一层的特征图都拥有了不同分辨率、不同语义强度的特征。

下来对加权FPN结构进行详细的解释，加权FPN结构可以分为两个部分，第一部分是自底向上的路径分别提取出不同分辨率与大小的特征图C₃,C₂,C₁，第二部分是从上到下的路径进行特征图的融合。在特征图融合时，首先对P₃的特征图进行卷积运算conv生成分辨率与大小都不改变的特征图S₃,下来对特征图S₃进行Sigmoid运算，使其取值分布在区间[0,1]之间，下来在将特征图P₃与特征图S₃进行逐元素的点乘运算P₃⊙S₃，这样可以让P₃在特征图内每个点的重要性得以区分，包含物体的点更加重要，最后将生成的加权特征图进行两倍的上采样2x upsample，并与C₂进行通道方向的拼接Concat生成P₂特征图，P₁特征图的生成过程与P₂特征图的生成过程是一样的,通过加权FPN结构，最终可以获得具有丰富语义信息且有判别性的P₃,P₂,P₁输出特征图。

3.YOLO检测头

在获得P₁,P₂,P₃输出特征图后，为了进行不同尺度大小的目标检测，需要对输出的特征图添加检测头结构如图5所示，在这里只对P₁,P₂特征图添加检测头，而没有在P₃特征图上面添加检测头，这样可以降低运算量，提高检测的速度，P₁特征图比较大分辨率高感受野小负责小物体的检测，P₂特征图较小分辨率低感受野大负责大物体的检测。下来详细介绍下检测头的结构，首先对P₂特征图进行1x1的卷积运算输出26x26x3*(5+num_class)大小的特征图,26x26代表特征图的宽和高，3*(5+num_class)代表输出特征图的通道数，其中3表示在每个位置放置3个锚框Anchor box,5的前四个数字表示检测物体的中心点坐标和宽高，最后一个数字表示物体的置信度confidence，num_class表示要识别物体的类别数。对于锚框的大小设置，采用k-means聚类算法，在训练集上面进行聚类生成6个不同大小的锚框，下来将后3个锚框放置到P₂特征图26x26的每一个像素点位置上面去，进行大目标的检测，至此完成了对P₂特征图锚框的放置。对于P₁特征图也同样进行1x1的卷积运算，输出52x52x3*(5+num_class)大小的特征图，也在52x52大小的每一个特征图位置上面放置k-means生成的前3个锚框，只不过P₁特征图上面放置的锚框要小于P₂特征图锚框的大小，是为了进行小目标的检测,在P₁特征图与P₂特征图上面一共预先放置了(26x26+52x52)*3*(5+num_class)个锚框，足以覆盖原图中所有不同大小的目标。

在完成了锚框的放置之后，在训练网络时，为了网络能快速的收敛，网络的输出值是相对于特征图的位置和锚框的大小的偏移值，因此需要对标注框进行编码，对预测框进行解码，其中编码采用公式(3)如下所示：

其中c_x,c_y表示特征图左上角的坐标位置，g_x,g_y表示标注框中心点的横纵坐标，g_w,g_h表示标注框的宽与高，a_w,a_h表示锚框的宽与高，

表示标注框相对于特征图左上角的偏移与锚框大小的偏移。利用公式(3)便可以完成对标注框的编码，使其变成相对于特征图左上角位置与锚框大小的偏移量，在训练网络时有利于网络的快速收敛。

为了获得预测框的实际位置和大小，需要对网络输出的值进行解码，解码时采用公式(4)如下所示：

其中c_x,c_y表示特征图左上角的坐标位置,a_w,a_h表示锚框的宽与高,t_x,t_y,t_w,t_h表示网络输出预测值，p_x,p_y,p_w,p_h表示解码后预测框的中心坐标与宽高，利用公式(4)对网络的输出值进行解码，便可以获得预测框的实际大小和宽高。

4.分类与回归损失函数

为了减小模型预测时的误差，在训练网络时需要使用损失函数不断地指导模型向正确的方向优化，不断地降低loss值，直到网络达到收敛的状态。损失函数在模型优化的过程中起着十分重要的作用，目标检测网络的损失函数一般由两个部分组成，第一部分是分类损失函数，第二部分是回归损失函数。

分类损失函数主要用来减少预测的类别与实际类别之间的偏差，能够判断出检测到的物体是什么类别，分类损失函数常用的包括交叉熵损失函数、Hinge损失函数、指数损失函数等，在HarDNet-Lite目标检测框架中，我们使用Focal loss损失函数作为分类损失函数，如公式(5)所示：

其中

表示预测的分类标签，y表示真实的标签，参数α与1-α用来解决正负样本不均衡的问题，检测器通常会产生大量的候选目标，但是只有少数是正样本，因此需要给正样本一个大的权重α，负样本一个小的权重1-α。

与

用来解决难易样本的不平衡问题，易分样本

也就是置信度高的样本对模型的提升效果非常小，模型应该主要关注那些难分的样本，因此应该给易分类样本一个小的权重

的取值越大

的取值会越小，给难分类的样本一个大点的权重

其中超参数α与β的取值是相互影响的，一般β的取值越大，α的取值越小，实际应用中α取0.25，β取2时效果最好。

回归损失函数主要用来减少预测框与标注框位置的误差，能够更加准确的定位出物体的具体位置，常用的回归损失函数有L₁ loss,MSE loss，smooth L₁ loss,IoU Loss等回归损失函数，这里我们使用CIoU Loss来进行预测框的回归,如公式(6)所示：

其中IoU表示预测框与标注框之间的交并比，ρ²(b,b^gt)表示预测框与标注框中心点距离的平方，c²表示预测框与标注框最小外接矩形框的对角线距离的平方，v衡量了预测框与标注框长宽比的相似性，α是一个trade-off的参数。使用CIoU Loss的优点是可以将位置信息作为一个整体来进行训练，而L₁ loss、L₂ loss却把位置信息作为四个相互独立的变量来进行训练，没有考虑到坐标点之间的相关性。最后将分类损失函数与回归损失函数进行相加，得到总的优化目标函数如公式(7)所示：

L_total＝L_cla+λL_loc (7)

λ是一个超参数，用来平衡分类损失与回归损失。

5.模型部署于嵌入式平台

嵌入式设备具有体积小、功耗低、价格低廉等优点，在生活中被广泛的应用，常见的嵌入式设备有NVIDIA的Nano、TX2、Xavier NX等一系列的产品，有的产品中还配备有GPU，可以用来加速神经网络的运行。下来，我们需要将训练好的HarDNet-Lite目标检测网络部署到嵌入式平台中，这里以Jetson Nano为例，Nano的GPU是Maxwell架构拥有128 CUDAcores,CPU是Quad-core ARM Cortex-A57 MPCore processor型号，内存是4GB 64-bitLPDDR4大小，数据传输速率是1600MHz 25.6GB/s，并且拥有16GB eMMC 5.1的存储空间大小。训练完成的HarDNet-Lite目标检测网络仅有10.3MB大小，将其拷贝到Nano中并配置相关的运行环境，在检测单张图片时耗时大约300ms,在检测车辆的1080P视频中通过跳帧处理可以达到7FPS的处理速度。在实际应用场景中比如在商场中进行行人的检测与计数，在GeForce GTX 1080ti上面运行一段5分钟的视频并进行分析处理，HarDNet-Lite网络平均耗时23.86秒，显存占用656MiB,而使用PeleeNet运行同样的5分钟视频，平均耗时37.1274秒，显存占用736MiB,相比于PeleeNet，HarDNet-Lite轻量级网络，在实际应用场景中性能提升了35％，显存占用降低10％，极大地提高了整体业务处理的性能与效率。

Claims

1.HarDNet-Lite在嵌入式平台的优化方法，其特征在于，包括以下步骤：

1)利用HarDNet-Lite网络结构对原始的彩色图片进行特征提取；

2.根据权利要求1所述的HarDNet-Lite在嵌入式平台的优化方法，其特征在于，步骤1)的具体实现方法如下：

3.根据权利要求2所述的HarDNet-Lite在嵌入式平台的优化方法，其特征在于，步骤2)的具体实现方法如下：

4.根据权利要求3所述的HarDNet-Lite在嵌入式平台的优化方法，其特征在于，步骤3)的具体实现方法如下：

5.根据权利要求4所述的HarDNet-Lite在嵌入式平台的优化方法，其特征在于，步骤4)的具体实现方法如下：

401)对HarDNet-Lite主干网络结构和检测头进行端到端的训练，采用Darknet深度学习框架来完成，训练的时候分类损失函数采用FocalLoss，回归损失函数采用CIoU Loss来进行训练；

6.根据权利要求5所述的HarDNet-Lite在嵌入式平台的优化方法，其特征在于，步骤5)的具体实现方法如下：