CN113076938A

CN113076938A - 一种结合嵌入式硬件信息的深度学习目标检测方法

Info

Publication number: CN113076938A
Application number: CN202110491544.2A
Authority: CN
Inventors: 钟必能; 叶传富; 唐振军; 李先贤; 刘昕
Original assignee: Cstt Nanjing Technology Co ltd; Guangxi Normal University
Current assignee: Cstt Nanjing Technology Co ltd; Guangxi Normal University
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-07-06
Anticipated expiration: 2041-05-06
Also published as: CN113076938B

Abstract

本发明公开了一种结合嵌入式硬件信息的深度学习目标检测方法，其特征在于，包括如下步骤：1）搭建神经网络单元；2）选择神经网络主体；3）筛选检测模块阶段；4）评估检测阶段。这种方法采用公开数据集和嵌入式设备约束作为目标检测过程中搜索和检测的监督信息，并在神经网络架构搜索的框架下，将目标检测部署问题视为一个多阶段的选择问题，从而有效解决基于深度学习的目标检测器部署终端设备上的问题。

Description

一种结合嵌入式硬件信息的深度学习目标检测方法

技术领域

本发明涉及计算机视觉领域的目标检测、深度学习技术，具体是一种结合嵌入式硬件信息的深度学习目标检测方法。

背景技术

目标检测是对图像的目标提取，模型压缩加速是对深度学习模型压缩参数量、计算量以提高检测模型的推理能力，嵌入式硬件信息包括内存大小、计算能力、功率。近年来,随着深度学习算法的快速发展,深度神经网络在图像分类,物体检测等一系列深度学习任务中取得最先进的成果。然而,深度神经网络的密集型计算与存储需求使其很难部署到只有有限资源的嵌入式设备中,如何使深度神经网络能够很好的移植到嵌入式设备当中已经成为当今深度学习研究的一大热点内容。现有的技术流程采用以下路线：1)模型剪枝、模型量化、轻量网络结构的技术实现深度学习模型算法的设计2)深度学习模型模型文件转化为通用文格式3)特定硬件平台加速库对通用格式文件加速部署，这种技术路线存在以下缺点：在算法设计端采用的压缩加速指标过于理论化、过于重视对数据集设计、缺乏对硬件信息的反馈、特定硬件平台加速繁琐、不可移植，导致将模型部署至嵌入式设备准确率下降、内存不足、耗能严重、不能推理。

发明内容

本发明的目的是针对现有技术的不足，而提供一种结合嵌入式硬件信息的深度学习目标检测方法。这种方法采用公开数据集和嵌入式设备约束作为目标检测过程中搜索和检测的监督信息，并在神经网络架构搜索的框架下，将目标检测部署问题视为一个多阶段的选择问题，从而有效解决基于深度学习的目标检测器部署终端设备上的问题。

实现本发明目的的技术方案是：

一种结合嵌入式硬件信息的深度学习目标检测方法，包括如下步骤：

1)搭建神经网络单元：所述神经网络单元按照数据流动顺序分为卷积层、归一化层、激活层、池化层，卷积层按照卷积核尺寸大小分为1×1卷积、3×3卷积、5×5卷积、7×7卷积，不同大小的卷积核对应着神经网络图片中不同的感受野和计算复杂度，归一化层根据不同的训练数据量分为单个样本归一化、批量样本归一化、全部样本归一化，不同的归一化层选择对应卷积神经网络不同的数据量选择策略，激活层根据激活方式分为Sigmod、Relu、Tanh激活函数，池化层根据尺寸大小分为2×2池化、3×3池化，每个层级上对应不同的选择策略，则卷积层有5种选择策略，即1×1卷积、3×3卷积、5×5卷积、7×7卷积、不选，归一层有4种选择策略，即全部样本归一化层、批量归一化层、全部样本归一化层、不选，激活层有4种选择策略，Sigmod激活、Relu激活、Tanh激活不选4种选择策略，池化层有2×2池化、3×3池化、不选3种选择策略，枚举法得出5×4×4×3＝240种神经网络单元类别空间，然后输入神经主体网络选择阶段；

2)选择神经网络主体：包括：

2-1)通过枚举神经网络单元的层级结构，获得不同组合特性的神经单元种类，称之为初始神经单元空间A，将初始神经单元空间A按照各个类别分别标记为第1初始单元类、第2初始单元类、…第240初始单元类，采用嵌入式硬件平台作为部署平台，采用嵌入式硬件平台的资源约束作为评估每类神经单元的推理性能，构建的初始神经单元空间A都将在硬件平台上实例化对象，硬件性能指标对实例化对象进行性能排序，取排名前50％的神经网络单元作为下一阶段采样空间α；

2-2)性能排序即利用嵌入式硬件资源：内存、GPU计算单元对第i种神经初始单元排序，内存用于存放模型和数据，显存越大，所能运行的网络也越大，GPU计算单元用于数值计算，网络本身占有的参数量与计算量进行展开，在神经网络单元计算中，计算量对应算法的时间复杂度，参数量对应算法的空间复杂度，上升到硬件层次，计算量对应的是计算时间，参数量对应的是计算机内存资源的消耗，在定义的神经初始单元中，有参数量的层是卷积层和归一化层，激活层和池化层是无参数的层，数值类型是Float32，每一个单精度浮点数占用4Byte的内存，即：

参数数目＝卷积层参数数目+归一化层参数数目，

卷积层参数数目＝C_in×C_out×K×K，

归一化层参数数目＝2×N，参数占用内存＝参数数目×4，

其中，C_in、C_out分别代表上一层输入的特征图个数和下一层输出的特征图个数，K代表卷积核大小，N代表输出的使用卷积层个数，2代表归一化过程中保存的均值和方差，在定义的神经初始单元中，计算量的分析在卷积层、归一化层、激活层、池化层，计算单位FLOP表示，即：

1 FLOP＝Wx+b，

神经初始单元总计算量＝卷积层+归一化层+激活层+池化层，

卷积层计算量＝B×H×W×Cout×Cin×K²，

归一化层计算量＝B×H×W×Cout×{4，5，6}，

激活层计算量＝B×H×W×C×{1，2，3}，

池化层计算量＝B×H×W×C×K^2，，

其中，B代表训练一次输入的图片数量，H、W分别代表输出上一层特征图的长和宽，Cin代表输出上一层特征图的通道数，Cout代表输出下一层特征图的通道数，{4，5，6}代表拥有不同参数的优化器，{1，2，3}代表不同的激活函数计算量，加权系数λ得到总的性能指标：

性能指标＝1/(λ×参数量+(1-λ)×计算量)，

得到性能指标之后按照大小排序，其中，分母不能为零；

2-3)基于步骤2-2)阶段获得的神经单元采样空间α之后，在空间α采样每种神经单元，根据图片输入大小、神经单元在大小相同的网络阶段重复堆叠n次、网络通道调节因子、主干网络总步长S构成神经网络主体空间B，Cafar-100训练数据集对神经网络主体空间B的采样子空间β快速训练100轮次，得到每一类训练完毕的神经网络主体模型b，将推理精度与延迟速度加权得到最终评价指标以评估每一类神经网络主体模型b的性能，并进行主干网络排序，首先测试主干网络在CIFAR-100测试数据集的准确率，其次测试CIFAR-100测试数据集图片在主干网络的运行时间，延迟速度＝1/运行时间，最后取加权系数等于0.5对推理精度、延迟速度加权，数值越大，对应的主干网络排名越靠前；

2-4)在神经主干网络流程中，将整个神经主体网络定义为D，则它的第i个神经网络单元可以表示为如公式(1)所示：

Y_i＝F_i(X_i) (1)，

X_i代表输入张量，Y_i代表输出张量，整个神经主体网络由N个神经网络单元组成，表示为如公式(2)所示：

D＝F_N⊙...⊙F₂⊙F₁(X₁)＝⊙_j＝1...kF_j(X₁) (2)，

将长宽大小相同的输出层作为一个阶段F，每个阶段F卷积层结构相同，以阶段为单位可以将神经网络D表示为如公式(3)所示：

其中(h_i，w_i，c_i)代表第i层的输入张量的维度，下标i(1...s)表示阶段F的序号，F_i表示第i个阶段，不改变神经网络主体采样子空间β情况下，4个设计变量最大优化网络的准确率，表达公式如下：

max Accuracy(β(n,s,r，w))

[n,s，r,w]

S.t..Memory(β)≤目标硬件平台内存，

Time(β)≤目标硬件平台延迟；

2-5)基于神经主体网络四个搜索维度的综合搜索系数ф，ф代表消耗资源的大小，即：

神经主体网络单元个数:n`＝n^ф，

神经主体网络总步长:s`＝s^ф，

神经主体网络输入图片大小:r`＝r^ф，

神经主体网络网络通道因子:w`＝w^ф，

约束条件：n`*s`*r`*w`≤硬件平台可接受的推理延迟，对于ф的求解范围为：

Ф＝∈[低算力设备延迟/高算力设备延迟，高算力推理延迟/低算力推理延迟]，时间单位：毫秒，

将主体网络β经过四个维度扩张或者收缩之后，得到针对硬件平台一系列主体神经网络结构b，为提高b在数据集CIFAR-100上的准确率，在神经网络结构b的每一个阶段s中，给出是否设置跨层连接Y的选择，以提高神经主体网络b的推理能力；

3)筛选检测模块阶段：包括：

3-1)对于目标检测任务而言，整个流程分为主体网络结构、融合结构以及检测头三部分，融合结构特征金字塔FPN结构，P1/P2分别代表主干网络从第1层、第2层输出特征图开始向下采样输入至主干网路最后一层进行加法汇总操作，检测头部分采用目标检测常用算法的检测头部分：RetinaNet、Yolo、Rcnn三个搜索因子，检测头是获取网络输出内容的网络，利用之前提取的特征，从这些特征中预测目标的位置与类别，则目标检测网络空间C用以下公式组成：

Detector＝Backbone+Neck+Head，

其中：Backbone-提取基础网络，Neck-特征融合结构，Head-分类和定位；

3-2)基于步骤3-1)所构建的目标检测网络搜索空间C之后，强化学习进行搜索，优化目标是延迟，单位是毫秒，对于搜索到的某个具体网络结构M对应的奖励函数为：

其中：mAP(M)是COCO验证集上的mAP，c(M)是某个具体网络结构M的延迟时间，c₀是设定的期望值，τ是平衡性能和延迟时间之间的系数，优化目标不考虑FLOPS，直接考虑实际模型的推理时间，每次搜索得出一个网络结构M之后，进行COCO训练集正常训练，再拿到统一硬件平台上测试精度和推理时间，最终得到一系列搜索后的目标检测网络模型C`；

4)评估检测阶段：基于利用强化学习搜索后得到的目标检测网络模型C`后，嵌入式硬件资源对目标检测网络模型C`评估检测，采用以下的部署方案：

4-1)根据嵌入式硬件资源大小使用8比特、4比特的定点数据类型表示目标检测网络模型C`的特征图、网络权值参数，得到定点数据类型表示的检测模型c；

4-2)嵌入式硬件测试定点表示的目标检测网络模型在目标场景的性能；

4-3)性能指标有两部分构成：检测精度IOU、推理速度FPS，总体性能排名＝0.4×IOU+0.6×FPS，根据性能排名，得到结合硬件资源约束的目标检测模型。

本技术方案在算法设计端结合了嵌入式硬件的资源信息：内存、计算单元，使得基于深度学习的目标检算法在终端部署中得到加速推理的能力，并且无需特定加速库，简化实际部署流程。

本技术方案采用公开数据集和嵌入式设备约束作为目标检测过程中搜索和检测的监督信息，并在神经网络架构搜索的框架下，将目标检测部署问题视为一个多阶段的选择问题，从而有效解决基于深度学习的目标检测器部署终端设备上的问题。

附图说明

图1为实施例的方法流程示意图；

图2为实施例中神经网络单元结构示意图；

图3为实施例中初步筛选神经网络单元的过程示意图；

图4为实施例中神经初始单元性能排序流程示意图；

图5为实施例中神经主干网络性能排序流程示意图；

图6为实施例中目标检测流程示意图；

图7为实施例中示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种能部署在终端设备上的深度学习目标检测方法，包括如下步骤：

1)搭建神经网络单元：所述神经网络单元按照数据流动顺序分为卷积层、归一化层、激活层、池化层，卷积层按照卷积核尺寸大小分为1×1卷积、3×3卷积、5×5卷积、7×7卷积，不同大小的卷积核对应着神经网络图片中不同的感受野和计算复杂度，最终影响神经网络运行的精度和速度，归一化层根据不同的训练数据量分为单个样本归一化、批量样本归一化、全部样本归一化，归一化层在加速神经网络收敛、减少梯度消失或爆炸有着重要的作用，不同的归一化层选择对应卷积神经网络不同的数据量选择策略，激活层根据激活方式分为Sigmod、Relu、Tanh激活函数，激活函数通过过滤弱前馈神经单元影响网络前后向梯度传播的速度，池化层根据尺寸大小分为2×2池化、3×3池化，池化层尺寸越大，意味着计算得到的特征图越小，损失信息越多，但计算量变得更小，本例根据数据流动构建神经网络单元如图2所示，每个层级上对应不同的选择策略，则卷积层有5种选择策略，即1×1卷积、3×3卷积、5×5卷积、7×7卷积、不选，归一层有4种选择策略，即全部样本归一化层、批量归一化层、全部样本归一化层、不选，激活层有4种选择策略，Sigmod激活、Relu激活、Tanh激活、不选4种选择策略，池化层有2×2池化、3×3池化、不选3种选择策略，枚举法得出5×4×4×3＝240种神经网络单元类别空间，然后输入神经主体网络选择阶段；

2)选择神经网络主体：包括：

2-1)通过枚举神经网络单元的层级结构，获得不同组合特性的神经单元种类，称之为初始神经单元空间A，将初始神经单元空间A按照各个类别分别标记为第1初始单元类、第2初始单元类、…第240初始单元类，本例采用英伟达公司提供的嵌入式硬件平台JetsonNano作为部署平台，由于Jetson Nano的硬件资源开销非常紧张，所以采用嵌入式硬件平台Jetson Nano的资源约束作为评估每类神经单元的推理性能，构建的初始神经单元空间A都将在Jetson Nano硬件平台上实例化对象，硬件性能指标对实例化对象进行性能排序，取排名前50％的神经网络单元作为下一阶段采样空间α，过程如图3所示；

2-2)性能排序即利用Jetson Nano硬件资源：显存、GPU计算单元对第i种神经初始单元排序，显存用于存放模型和数据，显存越大，所能运行的网络也越大，GPU计算单元用于数值计算，本身占有的参数量与计算量进行展开，在神经网络单元计算中，计算量对应算法的时间复杂度，参数量对应算法的空间复杂度，上升到硬件层次，计算量对应的是计算时间，参数量对应的是计算机内存资源的消耗，在定义的神经初始单元中，有参数量的层是卷积层和归一化层，激活层和池化层是无参数的层，常用的数值类型是Float32，每一个单精度浮点数占用4Byte的内存，即：

参数数目＝卷积层参数数目+归一化层参数数目，

卷积层参数数目＝C_in×C_out×K×K，

归一化层参数数目＝2×N，

参数占用内存＝参数数目×4，

其中，C_in、C_out分别代表上一层输入的特征图个数和下一层输出的特征图个数，K代表卷积核大小，N代表输出的使用卷积层个数，2代表归一化过程中保存的均值和方差，在定义的神经初始单元中，计算量的分析在卷积层、归一化层、激活层、池化层，计算量越大，操作越费时，运行神经网络花费时间越多，计算单位常用FLOP表示，即：

1 FLOP＝Wx+b，

神经初始单元总计算量＝卷积层+归一化层+激活层+池化层，

卷积层计算量＝B×H×W×Cout×Cin×K²，

归一化层计算量＝B×H×W×Cout×{4，5，6}，

激活层计算量＝B×H×W×C×{1，2，3}，

池化层计算量＝B×H×W×C×K²，

其中，B代表训练一次输入的图片数量，H、W分别代表输出上一层特征图的长和宽，Cin代表输出上一层特征图的通道数，Cout代表输出下一层特征图的通道数，{4，5，6}代表拥有不同参数的优化器，{1，2，3}代表不同的激活函数计算量，根据以上对神经初始单元计算量和参数量的初步分析，加权系数λ得到总的性能指标：

性能指标＝1/(λ×参数量+(1-λ)×计算量)，

得到性能指标之后按照大小排序，其中，分母不能为零，排序如图4所示；

2-3)基于步骤2-2)阶段获得的神经单元采样空间α之后，在空间α采样每种神经单元，根据t图片输入大小、神经单元在大小相同的网络阶段重复堆叠n次、网络通道调节因子、主干网络总步长S构成神经网络主体空间B，Cafar-100数据集对神经网络主体空间B的采样子空间β快速训练100轮次，得到每一类训练完毕的神经网络主体模型b，将推理精度与延迟速度加权得到最终评价指标以评估每一类神经网络主体模型b的性能，并进行主干网络排序，首先测试主干网络在CIFAR-100测试数据集的准确率，其次测试CIFAR-100测试数据集图片在主干网络的运行时间，延迟速度＝1/运行时间，最后取加权系数等于0.5对推理精度、延迟速度加权。数值越大，对应的主干网络排名越靠前，过程如图5所示：

Y_i＝F_i(X_i) (1)，

D＝F_N⊙...⊙F₂⊙F₁(X₁)＝⊙_j＝1...kF_j(X₁) (2)，

但在神经主体网络中，通常会将长宽大小相同的输出层作为一个阶段b，每个阶段b卷积层结构相同，以阶段为单位可以将神经网络D表示为如公式(3)所示：

其中(h_i,w_i,c_i)代表第i层的输入张量的维度，下标i(1...s)表示阶段b的序号，F_i表示第i个阶段，不改变神经网络主体模型β情况下，4个设计变量最大优化网络的准确率，表达公式如下：

max Accuracy(β(n,s,r,w))

[n,s,r,w]

S.t.Memory(β)≤目标硬件平台内存，

Time(β)≤目标硬件平台延迟；

2-5)步骤2-4)阶段提出的目标优化函数后，由于每个搜索维度并非相互独立，基于神经主体网络的四个搜索维度的综合搜索系数ф，ф代表消耗资源的大小，即：

神经主体网络单元个数:n`＝n^ф，

神经主体网络总步长:s`＝s^ф，

神经主体网络输入图片大小:r`＝r^ф，

神经主体网络网络通道因子:w`＝w^ф，

将主体网络β经过四个维度扩张或者收缩之后，得到针对硬件平台一系列主体神经网络结构b，为提高b在数据集上的准确率，在构建b主体模型的每一个阶段s中，给出是否设置跨层连接Y的选择，以提高神经主体网络的推理能力；

3)筛选检测模块阶段：包括：

3-1)尽管在步骤2-5)阶段得到了神经主体网络结构，但对于目标检测任务而言，整个流程分为主体网络结构、融合结构以及检测头三部分，如图6所示，

融合结构特征金字塔FPN结构，P1/P2分别代表主干网络从第1层、第2层输出特征图开始向下采样输入至主干网路最后一层进行加法汇总操作，不同起始特征图降采样构成了网路融合结构的搜索空间，它对主干网络提取到的重要特征进行再加工及合理利用，有利于下一步检测头的学习，检测头部分采用目标检测常用算法的检测头部分：RetinaNet、Yolo、Rcnn三个搜索因子，检测头施获取网络输出内容的网络，利用之前提取的特征，从这些特征中预测目标的位置与类别，主要作用是对物体定位和分类，通过以上的描述，则目标检测网路空间C用以下公式组成：

Detector＝Backbone+Neck+Head，

其中：Backbone-提取基础网络，Neck-特征融合利用，Head-分类和定位；

其中：mAP(M)是COCO验证集上的mAP，c(M)是某个具体网络结构M的延迟时间，c₀是设定的期望值，τ是平衡性能和延迟时间之间的系数，可以看出优化目标不考虑FLOPS，直接考虑实际模型的推理时间，每次搜索得出一个网络结构M之后，进行COCO训练集正常训练，再拿到统一硬件平台上测试精度和推理时间，最终得到一系列搜索后的网络模型C`；

4)评估检测阶段：基于利用强化学习搜索后得到的目标检测网络模型C`后，嵌入式硬件资源对目标检测网络模型C`评估检测，采用以下的部署方案：1)根据嵌入式硬件资源大小使用8比特、4比特的定点数据类型表示目标检测网络模型C`的特征图、网络权值参数，得到定点数据类型表示的检测模型c，2)嵌入式硬件测试定点表示的目标检测网络模型在目标场景的性能3)性能指标有两部分构成：检测精度IOU、推理速度FPS，总体性能排名＝0.4×IOU+0.6×FPS，根据性能排名，得到结合硬件资源约束的目标检测模型，过程如图7所示。

Claims

1.一种结合嵌入式硬件信息的深度学习目标检测方法，其特征在于，包括如下步骤：

2)选择神经网络主体：包括：

2-2)性能排序即利用嵌入式硬件资源：内存、GPU计算单元对第i种神经初始单元排序，内存用于存放模型和数据，GPU计算单元用于数值计算，网络本身占有的参数量与计算量进行展开，在神经网络单元计算中，计算量对应算法的时间复杂度，参数量对应算法的空间复杂度，上升到硬件层次，计算量对应的是计算时间，参数量对应的是计算机内存资源的消耗，在定义的神经初始单元中，有参数量的层是卷积层和归一化层，激活层和池化层是无参数的层，数值类型是Float32，每一个单精度浮点数占用4Byte的内存，即：

参数数目＝卷积层参数数目+归一化层参数数目，

卷积层参数数目＝C_in×C_out×K×K，

归一化层参数数目＝2×N，

参数占用内存＝参数数目×4，

1FLOP＝Wx+b，

神经初始单元总计算量＝卷积层+归一化层+激活层+池化层，

卷积层计算量＝B×H×W×Cout×Cin×K²，

归一化层计算量＝B×H×W×Cout×{4，5，6}，

激活层计算量＝B×H×W×C×{1，2，3}，

池化层计算量＝B×H×W×C×K²’，

性能指标＝1/(λ×参数量+(1-λ)×计算量)，

得到性能指标之后按照大小排序，其中，分母不能为零；

Y_i＝F_i(X_i) (1)，

D＝F_N⊙...⊙F₂⊙F₁(X₁)＝⊙_j＝1...kF_j(X₁) (2)，

其中(h_i,w_i,c_i)代表第i层的输入张量的维度，下标i(1...s)表示阶段F的序号，F_i表示第i个阶段，不改变神经网络主体采样子空间β情况下，4个设计变

量最大优化网络的准确率，表达公式如下：

max Accuracy(β(n,s,r,w))

[n，s，r,w]

S.t..Memory(β)≤目标硬件平台内存，

Time(β)≤目标硬件平台延迟；

神经主体网络单元个数:n`＝n^ф，

神经主体网络总步长:s`＝s^ф，

神经主体网络输入图片大小:r`＝r^ф，

神经主体网络网络通道因子:w`＝w^ф，

将主体网络β经过四个维度扩张或者收缩之后，得到针对硬件平台一系列主体神经网络结构b，在神经网络结构b的每一个阶段s中，给出是否设置跨层连接Y的选择；

3)筛选检测模块阶段：包括：

Detector＝Backbone+Neck+Head，