CN115222950A

CN115222950A - 一种面向嵌入式平台的轻量化目标检测方法

Info

Publication number: CN115222950A
Application number: CN202210881185.6A
Authority: CN
Inventors: 郜辉; 杨爽昕; 王鹏; 吕志刚; 张伟; 董绵绵; 邸若海; 李晓艳
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-10-21

Abstract

本发明为一种面向嵌入式平台的轻量化目标检测方法，其克服了现有技术中存在的网络参数量大、检测速度慢、精度指标较差的问题。本发明不仅解决解决目前检测方法在嵌入式设备部署中存在速度慢、精确度低等问题，并且从硬件层面上针对特定算子进行计算图优化，使受限资源设备上能够实现快速精准的目标检测。本发明包括以下步骤：步骤1：获取基础数据并制作数据集；步骤2：数据增强预处理；步骤3：构建基准网络模型并进行预训练；步骤4：搭建轻量化检测网络模型；步骤5：对整体的网络结构进行重参数化操作并剪枝；步骤6：知识蒸馏恢复精度；步骤7：嵌入式平台的部署与加速。

Description

一种面向嵌入式平台的轻量化目标检测方法

技术领域：

本发明属于计算机视觉与嵌入式开发技术领域，涉及一种面向嵌入式平台的轻量化目标检测方法。

背景技术：

目标检测是近年来的前沿技术，属于计算机视觉的一个研究分支，具有很好的泛化性、准确性。例如：在水利领域的污染及异物检测、以及在密集人群异常检测方面具有很大的应用价值。它能够在大量的训练数据中提取对象的特征，为实现目标检测及嵌入式平台的硬件加速成为可能。

当前，目标检测算法绝大多数是以服务器为主要的模型训练及正向推理的平台，嵌入式设备受限于自身的算力及体积功耗等相关的因素，大多存在难以部署在嵌入式设备、或部署后精度及速度指标较差的问题。因此，在嵌入式平台上开发和部署一套快速的目标检测算法，能够有效提高水利场景下的巡检、以及密集人群下的异常检测自动化程度。

发明内容：

本发明的目的在于提供一种面向嵌入式平台的轻量化目标检测方法，其克服了现有技术中存在的网络参数量大、检测速度慢、精度指标较差的问题。本发明不仅解决解决目前检测方法中存在速度慢、精确度低等问题，并且从硬件层面上针对特定算子进行计算图优化，使受限资源设备上能够实现快速精准的目标检测。

为实现上述目的，本发明采用的技术方案为：

1、一种面向嵌入式平台的轻量化目标检测方法，其特征在于：包括以下步骤：

步骤1：获取基础数据并制作数据集；

步骤2：数据增强预处理；

步骤3：构建基准网络模型并进行预训练；

步骤4：搭建轻量化检测网络模型；

步骤5：对整体的网络结构进行重参数化操作并剪枝；

步骤6：知识蒸馏恢复精度；

步骤7：嵌入式平台的部署与加速。

步骤4中

轻量化检测网络模型包括骨干网络、颈部网络和检测头三个部分；

骨干网络部分采用改进的ResNet50结构，过程是：输入416×416分辨率的图像，通过图像增强等预处理后输入网络，依次生成52×52,26×26,13×13大小的特征图，采用了步长为二的卷积操作对特征图进行下采样，每一层级的特征提取采用多个基本残差块为基础单元叠加的形式，将所述的ResNet50骨干中的残差单元，用1*1卷积代替3*3卷积网络；

对送入颈部网络的特征层的通道数进行减半，同时将分辨率进行匹配的方式，构建所述骨干网络。

所述颈部网络采用双特征金字塔结构，进行多尺度特征融合，采用自顶向下和自底向上的方式将语义、定位特征增强，提取出更有效的特征，得到三个不同尺度输出；

所述检测头部分通过对所述颈部网络的三个不同尺度输出分别进行卷积操作，对目标的类别和位置进行预测；

利用所述轻量化网络模型进行训练，得到轻量级权重文件。

步骤5中

采取在剪枝前先对所述轻量化网络结构进行重参数化的操作，再针对重参化的网络结构进行剪枝、知识蒸馏得到最终网络结构；重参数化是针对所述轻量化网络结构中存在的跳跃连接进行参数优化,得到重参网络结构，包括以下步骤：

首先在卷积层、批归一化层以及激活函数层对输入的特征图进行保留，具体是对卷积层进行恒等映射插入相同数量的通道数、批归一化层利用数学的近似保证经过这一层得到的与输入相同的一个输出、激活函数层对于跳连接输入的值进行保留；其次，将上一步保留的特征图合并到输出特征图中；

剪枝是针对所述重参网络结构中每一层的权重进行分区域剪枝，在结构相似的区域内部进行结构裁剪，区域之间进行非结构性剪枝；利用批归一化层中的缩放因子作为判断依据，对于缩放因子小的代表通道的重要性低，将对应的通道进行裁剪，最后对剪枝后的权重进行微调，得到剪枝权重文件。

步骤7包括以下步骤：

7.1采用OPEN AI LAB推出的AI推理框架Tengine在RK3399PRO嵌入式开发平台进行网络模型的部署；

7.2首先在主控板上烧录Ubuntu系统镜像；

7.3在系统上利用下载工具下载Tengine源码，安装依赖包，配置环境、编译源码；

7.4初始化Tengine，完成所述最终检测模型的加载与转换；

7.5利用该框架进行计算图的优化，具体为对所述最终检测模型进一步优化算子，利用数学的近似方式，将包含线性关系的公式进行迭代，使得尽可能的减少数据的加载、存储的中间过程；算子优化前，卷积、批归一化、激活函数推理过程如下：

y_Conv＝w*x+b

y₀＝SiLU(y_bn)

其中y_Conv为卷积输出结果，y_bn为批归一化输出结果，y₀为经过激活函数后输出结果，w为原始权重，x为特征变量，b为偏置，SiLU为激活函数，γ为放缩系数，β为平移系数，ε为常数，μ为均值，σ为标准差；

算子优化后，卷积块推理过程如下：

y_bn＝w′*x+b′

y_o＝SiLU(w′*x+b′)

其中w′为近似后权重，x为特征变量，b′为近似后偏置；

7.6获取所述计算图的输入张量，并进行设置张量的大小；

7.7Tengine框架根据所述计算图以及张量进行自动切图处理；

7.8运行计算图，Tengine的异构加速计算库对RK3399PRO内部多个CPU、GPU进行异构并行计算，尽可能的将每个芯片的性能发挥到最大；

7.9完成模型推理，获取检测结果并释放资源。

与现有技术相比，本发明具有的优点和效果如下：

1、本发明通过在神经网络算法和硬件设备两个层面进行同时优化，在保证检测精度的基础上，提高了目标检测的速度，同时能够在嵌入式平台进行部署。解决了检测过程的精度低，识别速度慢的问题。

2、本发明提高了传统方式下的目标检测速度：通过构建原始的网络模型，并在此基础上进行网络的剪枝压缩、以及知识蒸馏恢复精度，减少了神经网络模型的参数量以及运算量，在保证精度下降很小的情况下提高了网络的推理速度。

3、本发明在嵌入式平台上对部分算子进行优化：将得到的轻量化的神经网络部署在嵌入式设备上，并且结合嵌入式硬件设备的资源受限特性，针对性的进行了相关的硬件加速优化，提高了在嵌入式设备上的推理速度。

附图说明：

图1是本发明实现的整体示意图；

图2为本发明在嵌入式平台实现推理的流程图；

图3为本发明实施例中目标检测效果图。

具体实施方式：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本发明为一种面向嵌入式平台的轻量化目标检测方法，首先，通过网络爬虫、影视资料获取、摄像头拍摄等方法构建基础数据集，进行图像增强和数据扩增预处理；其次，基于深度学习的目标检测网络模型构建及剪枝；再次，轻量化目标网络模型的硬件加速和部署；最后，输出目标检测模型计算结果。

参见图1和图2，本发明具体包括以下步骤：

步骤1：获取基础数据并制作数据集；

1.所述数据集具体指通过网络爬虫、影视资料获取、摄像头拍摄等方法获取图像信息及人工标注，并将其划分为训练集和测试集。

步骤2：数据增强预处理；

2.1针对所述数据集存在样本不丰富、目标小的特点，进行扩充。

2.2具体地，可以通过对所述数据集进行加噪、滤波处理、Mixup方法实现数据增强，得到最终数据集。

步骤3：构建基准网络模型并进行预训练；

3.1利用原始YOLOv5网络在所述最终数据集进行预训练，得到基准权重文件。

步骤4：搭建轻量化检测网络模型；

4.1所述轻量化检测网络模型主要包含了骨干网络、颈部网络和检测头三个部分。

4.2所述骨干网络部分采用改进的ResNet50结构，过程主要是：输入416×416分辨率的图像，通过图像增强等预处理后输入网络，依次生成{52×52,26×26,13×13}大小的特征图，采用了步长为二的卷积操作对特征图进行下采样，每一层级的特征提取采用多个基本残差块为基础单元叠加的形式。

4.3具体地，是将所述的ResNet50骨干中的残差单元，用1*1卷积代替3*3卷积网络，减少网络的参数量，加深网络深度以实现较高的网络容量和复杂度。其具有的多层激活函数增加了卷积过程中的非线性，增强了网络的表达能力。

4.4出于对网络精度与计算复杂度权衡，使得所述的ResNet50更适配当前的检测网络，对ResNet50骨干网络的后三个阶段的通道数进行减半，同时将分辨率进行匹配的方式，构建所述骨干网络。

4.4所述颈部网络采用双特征金字塔结构，进行多尺度特征融合，采用自顶向下和自底向上的方式将语义、定位特征增强，提取出更有效的特征，得到三个不同尺度输出，以提高模型的对不同尺度目标的检测精度。

4.5所述检测头部分主要通过对所述颈部网络的三个不同尺度输出分别进行卷积操作，对目标的类别和位置进行预测。

4.6利用所述轻量化网络模型进行训练，得到轻量级权重文件。

步骤5：对所述轻量化网络结构进行重参数化操作及剪枝；

5.1现有的面向神经网络进行剪枝操作往往采取的是直接进行结构或者非结构剪枝，精度下降多，剪枝效果较差。本发明采取在剪枝前先对所述轻量化网络结构进行重参数化的操作，再针对重参化的网络结构进行剪枝、知识蒸馏得到最终网络结构，使得模型推理速度更快且准确率更高。

5.2具体地，重参数化是指针对所述轻量化网络结构中存在的跳跃连接进行参数优化,得到重参网络结构。

首先在卷积层、批归一化层、以及激活函数层对输入的特征图进行保留，具体是对卷积层进行恒等映射插入相同数量的通道数、批归一化层利用数学的近似保证经过这一层得到的与输入相同的一个输出、激活函数层对于跳连接输入的值进行保留。

其次，将上一步保留的特征图合并到输出特征图中。这样去除跳跃连接后，减少了模型在推理过程中的存储占用，经过验证，本发明重参化后的参数量为所述轻量化网络的30.5％,提高检测的速度。

5.3本发明提供的剪枝策略是针对所述重参网络结构中每一层的权重进行分区域剪枝。在结构相似的区域内部进行结构裁剪，区域之间进行非结构性剪枝。利用批归一化层中的缩放因子作为判断依据，对于缩放因子小的代表通道的重要性低，将对应的通道进行裁剪，最后对剪枝后的权重进行微调，得到剪枝权重文件。

步骤6：知识蒸馏恢复精度；

6.1将所述轻量级权重文件作为教师网络，将所述剪枝权重文件作为学生网络。

6.2知识蒸馏的总体损失函数为L_total′＝L_cls′+L_reg′,其中，L_cls′表示最终网络的分类损失L_cls′＝L_cls+αL_cls-teacher，L_reg′是预测框损失,L_reg′＝L_reg+βL_reg-teacher。L_cls-teacher以及L_reg-teacher为教师网络的知识。原始分类总损失函数为L_total＝L_cls+L_reg。

6.2使用所述损失函数对所述剪枝权重文件进行微调训练，即可完成对所述轻量级权重文件的知识蒸馏，则得到最终检测模型WP-YOLO。

步骤7：嵌入式平台的部署与加速；

7.2首先在主控板上烧录Ubuntu系统镜像；

7.4初始化Tengine，完成所述最终检测模型的加载与转换；

7.5利用该框架进行计算图的优化，具体为对所述最终检测模型进一步优化算子，利用数学的近似方式，将包含线性关系的公式进行迭代。使得尽可能的减少数据的加载、存储的中间过程，以达到加快推理速度的目的。算子优化前，卷积、批归一化、激活函数推理过程如下，其中y_Conv为卷积输出结果，y_bn为批归一化输出结果，y₀为经过激活函数后输出结果，w为原始权重，x为特征变量，b为偏置，SiLU为激活函数，γ为放缩系数，β为平移系数，ε为常数，μ为均值，σ为标准差。

y_Conv＝w*x+b

y₀＝SiLU(y_bn)

算子优化后，卷积块推理过程如下，其中w′为近似后权重，x为特征变量，b′为近似后偏置。

y_bn＝w′*x+b′

y_o＝SiLU(w′*x+b′)

7.6获取所述计算图的输入张量，并进行设置张量的大小。

7.7 Tengine框架根据所述计算图以及张量进行自动切图处理。

7.8运行计算图，Tengine的异构加速计算库对RK3399PRO内部多个CPU、GPU进行异构并行计算，尽可能的将每个芯片的性能发挥到最大。

7.9完成模型推理，获取检测结果并释放资源。

实施例：

本实施例选用的服务器端软件环境为：Ubuntu18.04操作系统，GPU加速软件CUDA11.1和CUDNN8.2，Pytorch深度学习框架，编程语言为Python；硬件环境：处理器为AMD-R7-5800，显卡为NVIDIA M6000。使用RK3399PRO开发板作为硬件部署及加速的平台。

本实施例将步骤2.1中所述数据集按照9:1的比例划分为训练数据集和测试数据集，训练过程中初始学习率设置为0.01，动量设置为0.9，图像输入像素值尺寸为416×416，对WP-YOLO进行300轮次迭代，每完成一轮次迭代生成并保存一个模型权重文件，模型权重文件用于模型测试。

本实施例将最终检测模型WP-YOLO测试结果和目前流行的深度学习目标检测模型(YOLOv5、RetinaNet和FCOS)性能进行对比，不同模型性能对比如表1所示，由表1可知，WP-YOLO模型检测准确率达到81.3％高于YOLOv5、RetinaNet和FCOS模型，WP-YOLO模型检测速度达到127.2FPS高于YOLOv5、RetinaNet和FCOS模型，WP-YOLO模型权重为67MB。表1结果表明，本发明所提出的轻量化目标检测网络的检测精度较高。使用Tengine深度学习框架。与其他网络的比较结果如表2所示。从表2可以看出，本网络在嵌入式计算平台下的检测速度最高，证明了该网络结构在嵌入式计算平台下的实用性。参见图3，图3为本发明实施例中目标检测效果图。

表1基于PC端的模型速度测试实验结果

表2基于嵌入式平台的模型速度测试实验结果

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡是利用本发明的说明书及附图内容所做的等同结构变化，均应包含在发明的专利保护范围内。

Claims

1.一种面向嵌入式平台的轻量化目标检测方法，其特征在于：包括以下步骤：

步骤1：获取基础数据并制作数据集；

步骤2：数据增强预处理；

步骤3：构建基准网络模型并进行预训练；

步骤4：搭建轻量化检测网络模型；

步骤5：对整体的网络结构进行重参数化操作并剪枝；

步骤6：知识蒸馏恢复精度；

步骤7：嵌入式平台的部署与加速。

2.根据权利要求1所述的一种面向嵌入式平台的轻量化目标检测方法，其特征在于：步骤4中

利用所述轻量化网络模型进行训练，得到轻量级权重文件。

3.根据权利要求1所述的一种面向嵌入式平台的轻量化目标检测方法，其特征在于：步骤5中

4.根据权利要求1所述的一种面向嵌入式平台的轻量化目标检测方法，其特征在于：步骤7包括以下步骤：

7.2首先在主控板上烧录Ubuntu系统镜像；

7.4初始化Tengine，完成所述最终检测模型的加载与转换；

y_Conv＝w*x+b

y₀＝SiLU(y_bn)

其中y_Conv为卷积输出结果，y_bn为批归一化输出结果，y₀为经过激活函数后输出结果，w为原始权重，x为特征变量，b为偏置，SiLU为激活函数，γ为放缩系数，β为平移系数，ε为常数，m为均值，σ为标准差；

算子优化后，卷积块推理过程如下：

y_bn＝w′*x+b′

y_o＝SiLU(w′*x+b′)

其中w′为近似后权重，x为特征变量，b′为近似后偏置；

7.6获取所述计算图的输入张量，并进行设置张量的大小；

7.7Tengine框架根据所述计算图以及张量进行自动切图处理；

7.9完成模型推理，获取检测结果并释放资源。