CN114898171A

CN114898171A - 一种适用于嵌入式平台的实时目标检测方法

Info

Publication number: CN114898171A
Application number: CN202210357905.9A
Authority: CN
Inventors: 毛耀; 李鸿; 杨锦辉; 周倩; 钟玉红; 彭锦锦; 刘超; 杜芸彦
Original assignee: Institute of Optics and Electronics of CAS
Current assignee: Institute of Optics and Electronics of CAS
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-08-12
Anticipated expiration: 2042-04-07
Also published as: CN114898171B

Abstract

本发明提供一种适用于嵌入式平台的实时目标检测方法，旨在解决面向嵌入式资源受限的边缘端计算平台上的实时目标检测问题，综合考虑了速度和精度最佳平衡并且实现了网络模型的轻量化，为实现嵌入式平台模型部署提供了可能。首先，综合考虑性价比，在四个特征尺度上进行预测，巧妙使用轻量化网络ShuffleNetv2在骨干网络部分构建轻量特征提取网络；然后，在颈部部分使用轻量化网络GhostNet对特征处理过渡以便于检测头的预测，并且过程中使用了CBAM双通道注意力机制抑制不利信息帮助提升模型的性能；最后使用了Alpha‑IoU作为损失函数指导模型训练得到最终的网络模型Alpha‑SGANet取得了最优的检测精度，并提出了小模型版本的网络模型Alpha‑SGAsNet取得了速度和精度的最佳权衡，实现了模型的轻量化。

Description

一种适用于嵌入式平台的实时目标检测方法

技术领域

本发明涉及深度学习、目标检测的技术领域，具体涉及一种适用于嵌入式平台的实时目标检测方法。

背景技术

基于深度学习的目标检测方法性能优越，但因结构复杂，计算量大，难以在嵌入式和边缘移动端这样的平台上实时运行和部署。越来越多的研究人员开始关注深度学习实际应用的性能。移动平台上的实时通用目标检测是一项关键且具有挑战性的任务，基于深度学习CNN 的检测器需要巨大的计算成本，这阻碍了它们在计算受限情况下的推理。面对这一挑战，人们提出了一系列研究紧凑神经网络的方法，如网络剪枝、low-bit量化、知识蒸馏等这一类模型压缩的方法。此外，高效的神经网络结构能以较少的参数和计算量获得更高的精度，如何设计高效的CNN架构在边缘设备上提供高质量的服务成为了一个活跃的研究话题，这一类方法取得了很大成功并提出了很多创新的架构，如MobileNet、ShuffleNet、GhostNet等。结合轻量化网络的目标检测方法更适用于边缘平台，能有效减少模型参数的同时保证网络的精度。

在前几年时间里习惯于将目标检测划分为一阶段和二阶段的两种类别，一阶段通过直接预测回归出目标框的位置，能大大减少计算复杂度和加速模型的推理，这一类代表性的方法有YOLO系列和SSD等。该方法无疑能在很大程度上能提升检测速度，但是这种从目标检测流程上解决实时性问题的方法忽略了网络结构本身的复杂度，随着网络模型精度的提升，网路模型的参数成倍的增加，造成了巨大的计算负担，比如流行一时的YOLOv3生成的模型权重超过了240MB，最近很流行的YOLOv4的网络模型权重也超过了200MB，尽管 YOLOv5和YOLOx等工作在速度和精度权衡方面做出了巨大的进步。但在嵌入式和移动端这类计算资源受限的平台上实现部署并实时运行的算法还是尝试结合轻量化网络等的一系列方法，这些方法能有效保证精度的同时提高模型的速度和减少参数量，主要以围绕YOLO 和SSD展开提出了很多的变体，如YOLO-Nano，MobileNet-SSDLite等。在本发明中，同样尝试巧妙在骨干网络部分和颈部部分结合轻量化网络，综合考虑性价比，选择在四个特征尺度上检测并添加CBAM双通道注意力机制模块帮助提升模型的性能，结合最新的Alpha-IoU loss能保证速度的同时有效改善模型的检测精度。最终的网络模型Alpha-SGANet取得了最优的检测精度，并提出了小模型版本的网络模型Alpha-SGAsNet取得了速度和精度的最佳权衡，实现了模型的轻量化，为进一步在嵌入式平台上的实时运行提供了可能，为工程实践做出了巨大贡献。

发明内容

本发明要解决的技术问题是：提供了一种适用于嵌入式平台的实时目标检测方法，以解决面向嵌入式平台和边缘移动端实时目标检测的问题，旨在综合权衡速度和精度的同时实现模型的轻量化，具有重要的工程实践意义。

本发明采用的技术方案如下：一种适用于嵌入式平台的实时目标检测方法，该方法包括如下步骤：

步骤1、获取数据集：通过采集装置获取图像，通过标注工具对其人工标注，构建训练样本集、验证集和测试样本集或者从公开数据集获得训练样本集、验证集和测试样本集；

步骤2、数据预处理：使用随机翻转、光照变化、Mosaic和MixUp数据增强手段增加数据的多样性，使得模型适应数据的各种变换；

步骤3、使用轻量化网络ShuffleNetv2在骨干网络部分堆叠构建轻量高效的特征提取网络，并增加P6层下采样层以增加网络的整体感受野，在P6层前使用卷积核更小的SPP模块在减少信息丢失的情况下增加网络的多感受野信息；

步骤4、在颈部部分使用由轻量化网络GhostNet为基本单元构建而成的C3Ghost模块对特征进行过渡处理帮助检测头的预测，并且过程中使用CBAM双通道注意力机制模块抑制不利信息，考虑综合性价比，网络在四个特征尺度进行预测；

步骤5、使用Alpha-IoU作为模型训练的损失函数，对模型进行监督训练，使用Adam优化器对模型优化，使用步骤1中获得的训练数据集对模型进行训练；

步骤6、训练过程中每迭代训练一次就加载步骤1中获得的验证集进行验证，训练模型直到迭代次数结束得到最优验证结果的模型权重，加载模型权重对步骤1中获得的测试数据集对模型效果测试。

进一步地，步骤1中所述的数据集可以自行通过采集装置获得并标注或者直接从公开数据集下载，可以使用VOC2007和VOC2012数据共同参与训练，使用VOC2007和VOC2012在内的总计16551张图片按照9：1的比例划分为训练集和验证集，使用VOC2007和VOC2012在内的总计4952张图片作为测试集。

进一步地，步骤2数据预处理中使用包括光照变化、几何仿射变换、Mosaic和MixUp数据增强手段，具体为随机翻转、中值滤波、多尺度变换、HSV增强，通过数据增强后的数据更丰富，模型能学习到的特征更多，在实际测试表现中也更加鲁棒。

进一步地，步骤3中骨干网络部分使用轻量化网络ShuffleNetv2为基本单元模块，其中又可细分为步长为1和步长为2的两种，通过采用[3,6,6,3,3]的堆叠次数堆叠步长为1的 ShuffleNetv2的基本单元模块，第一次堆叠前使用Focus的操作进行一次下采样，其他的几层都是中间加入一个步长为2的ShuffleNetv2的基本单元模块进行下采样，总共进行了6次下采样，即包含P6层的特征层以获得更大的感受野信息，并且在P6层前使用卷积核更小的 SPP模块在尽量减少信息丢失的情况下增加网络的多感受野信息。

进一步地，步骤4中使用由GhostNet中的Ghost Bottleneck构建而成的C3Ghost对特征过渡处理，帮助检测头的预测，每次使用C3Ghost模块都是重复堆叠3次，过程中并使用GhostConv来改变特征通道数的变化和进行下采样操作，在颈部部分的上采样过程，使用卷积核大小为1，步长为1的GhostConv实现改变特征通道数，在颈部部分的下采样过程，使用卷积核大小为3，步长为2的GhostConv进行下采样，为了进一步提升模型的性能，在每次GhostConv之前都使用了CBAM模块从空间和通道上同时抑制不利的信息，提出的颈部部分称之为GAFPN-Neck，统计得到，GAFPN-Neck一共包含6个CBAM模块、6个GhostConv 模块、3个上采样、6个Concat模块和18个C3Ghost。

进一步地，步骤5中使用Alpha-IoU替换原本YOLOv5中的DIoU Loss作为模型训练的损失函数，对模型进行监督训练，设置训练轮次为300，批归一化大小为16，初始学习率为1e-3，使用Adam优化器对模型优化，使用步骤1中获得的训练数据集对模型进行训练。

进一步地，步骤6中每迭代训练一次就加载步骤1中获得的验证集进行验证，记录当前获得的验证精度结果，每次进行比较，当精度更高时保存当前的模型权重，直到迭代循环结束，最终会保存得到验证结果最佳的精度的模型权重，加载此模型权重使用步骤1中获得的测试集进行推理测试。

本发明的原理在于：

基于深度学习的目标检测方法性能优越，但因结构复杂，计算量大，难以在嵌入式和边缘移动端这样计算资源受限的平台上实时运行和部署。本发明中巧妙在骨干网络部分和颈部部分尝试结合轻量化网络，综合考虑性价比，选择在四个特征尺度上检测并添加CBAM双通道注意力机制模块帮助提升模型的性能，结合最新的Alpha-IoU Loss能保证速度的同时有效改善模型的检测精度。在VOC数据集上训练验证得到结果，本发明提出的网络模型Alpha-SGANet取得了最优的检测精度，并提出了小模型版本的网络模型Alpha-SGAsNet取得了速度和精度的最佳权衡，实现了模型的轻量化。

整体包含了ShuffleNetv2骨干网络部分、GAFPN颈部部分和检测头三个部分。本发明主要对Backbone部分和Neck部分进行了改进。首先，为了减少模型参数和实现轻量化，使用了轻量级ShuffleNetv2模块在骨干网络部分构建轻量且高效的特征提取网络，并且多进行了一次下采样在四个特征尺度上进行检测，即增加了P6的64倍下采样层，增大了网络的感受野。然后，为了进一步提高模型的检测性能，提出了一个注意力机制引导的PAFPN的变体GAFPN对特征图进一步处理，其中CBAM从空间和通道上同时施加权重筛选出有利的空间信息和通道特征信息帮助模型对特征的学习。可以注意到，为了更加符合轻量化设计的要求，在Neck部分也是使用的轻量化网络Ghost瓶颈模块构建的C3Ghost基本单元，一开始出发点只是为了减少模型的参数量，加速模型推理加速，所以刚开始只是在backbone部分尝试结合轻量化网络，但是却发现backbone和neck部分同时使用C3Ghost会对模型性能的提升帮助较大，但是速度下降也是很明显，为了能有所提升速度，所以在backbone部分尝试结合了最为轻量的ShuffleNetv2模块，在精度稍微有所下降的情况下，速度得到了提升。并且注意到在第二次下采样(P2)之后就开始重复堆叠步长为1的ShuffleNetv2模块，为了对特征的充分提取，紧接着在第三次(P3)和第四次下采样(P4)之后进行了6次重复堆叠，这样的目的都是为了对特征充分提取，生成更多有效的特征图，而在第五次下采样(P5)和第六次下采样(P6)之后则是只使用到了3次重复堆叠，也是为了考虑到更深层次的通道数变多导致计算量增大，如果多次重复堆叠肯定会对模型的推理计算计算过程造成负载，影响模型的实时推理。要注意的是这儿的SPP选择使用更小的感受野范围，选择了{3，5，7}这样的最大池化区域，这也是对最终的结果产生了一定的贡献。

此外，尝试结合使用了最新的工作Alpha-IoU Loss替换原本的DIoU Loss，故而给提出的网络称之为Alpha-SGANet，Alpha-IoU Loss对最终模型的贡献是巨大的，对模型的精度提升效果很明显。

综上所述，相比于现有的一些方法，本发明的有益效果是：

(1)相比于其它一些模型，本发明提出的模型Alpha-SGANet以4.93MB的参数量取得了最高精度65.14％mAP，实时速度可达到68.49FPS。

(2)为了权衡速度和精度的最佳平衡，本发明还提出了一个小模型版本的网络称之为 Alpha-SGAsNet，最终其以2.84MB的参数量获得精度为62.62％mAP，实时速度具有105.3 FPS，相比于原本的YOLOv5s也只是在速度略微减少的情况下精度得到较大的提升。

(3)本发明中提出的模型能轻易部署到嵌入式平台或者移动端设备，具有较大的工程实践意义。

附图说明

为了更加清晰明了的说明本发明的具体细节，对本发明中涉及到的一些附图做简单的介绍，以下附图仅仅示出了本发明的某些实施例以便于细节理解，并不以任何方式限制本发明的范围。

图1为本发明中Alpha-SGANet网络结构示意图；

图2为本发明中ShuffleNetv2的相对于ShuffleNetv1的改进示意图，其中，图2(a)和图 2(b)分别对应了ShuffleNetv1中步长为1和步长为2的两种结构，图2(c)和图2(d)分别对应了ShuffleNetv2中步长为1和步长为2的两种结构；

图3为本发明中Ghost Bottleneck单元模块示意图，其中，图3(a)和图3(b)分别为步长为1和步长为2的两种结构，图3(c)为Ghost Block模块，通过重复堆叠Ghost Block模块可得到C3Ghost模块；

图4为本发明中CBAM模块示意图。

具体实施方式

以下结合附图说明本发明的具体实施例做详细说明。但以下的实施例仅限于解释本发明，本发明的保护范围应包括权利要求书限定的全部内容；而且通过以下实施例对本领域的技术人员即可以实现本发明权利要求书的全部内容。

图1为本发明中Alpha-SGANet网络结构示意图，整体包含了ShuffleNetv2Backbone、 GAFPN-Neck和Ghost-PH三个部分。ShuffleNetv2 Backbone使用步长为1的ShuffleNetv2 基本单元模块采用[3,6,6,3,3]的堆叠方式对特征提取，在GAFPN-Neck部分使用C3Ghost 和CBAM模块来对特征过渡处理，帮助检测头预测。

如图1所示，本发明一种适用于嵌入式平台的实时目标检测方法的整体网络结构示意图，实现的网络结构主要包含了ShuffleNetv2 Backbone、GAFPN-Neck和Ghost-PH三个部分，主要有如下的几个步骤：

步骤1、获取数据集：通过采集装置获取图像，通过标注工具对其人工标注，构建训练样本集、验证集和测试样本集或者从公开数据集获得训练样本集、验证集和测试集。

步骤1中所述的数据集可以自行通过采集装置获得并标注或者直接从公开数据集下载，可以使用VOC2007和VOC2012数据共同参与训练，使用VOC2007和VOC2012在内的总计16551张图片按照9：1的比例划分为训练集和验证集，使用VOC2007和VOC2012在内的总计4952张图片作为测试集。

或者如，本发明中使用VOC2007和VOC2012数据共同参与，使用VOC2007和VOC2012在内的21503张图片按照0.75：0.25的比例划分为训练集和测试集，即16127张图片作为训练集，使用VOC2007和VOC2012在内的5376张图片作为测试集；

步骤2、数据预处理：使用随机翻转、光照变化、Mosaic和MixUp等数据增强等手段增加数据的多样性，使得模型能尽可能的适应数据的各种变换。具体如随机翻转、中值滤波、多尺度变换、HSV增强等，通过数据增强后的数据更丰富，模型能学习到的特征更多，在实际测试表现中也更加鲁棒；

步骤3、使用轻量化网络ShuffleNetv2在骨干网络部分堆叠构建轻量高效的特征提取网络，其中又可细分为步长为1和步长为2的两种，通过采用[3,6,6,3,3]的堆叠次数堆叠步长为1的ShuffleNetv2的基本单元模块，第一层堆叠前使用Focus的操作进行一次下采样，其他的几层都是中间加入一个步长为2的ShuffleNetv2的基本单元模块进行下采样，总共进行了6次下采样，即包含P6层的特征层以获得更大的感受野信息，并且在P6层前使用卷积核更小的SPP模块在尽量减少信息丢失的情况下增加网络的多感受野信息；

步骤4、在颈部部分使用由GhostNet中的Ghost Bottleneck构建而成的C3Ghost对特征过渡处理，帮助检测头的预测，每次使用C3Ghost模块都是重复堆叠3次。过程中并使用GhostConv来改变特征通道数的变化和进行下采样操作，在颈部部分的上采样过程，使用卷积核大小为1，步长为1的GhostConv实现改变特征通道数，在颈部部分的下采样过程，使用卷积核大小为3，步长为2的GhostConv进行下采样，为了进一步提升模型的性能，在每次GhostConv之前都使用了CBAM模块从空间和通道上同时抑制不利的信息，综上，对本发明提出的颈部部分称之为GAFPN-Neck，统计得到，GAFPN-Neck一共包含6个CBAM 模块、6个GhostConv模块、3个上采样、6个Concat模块和18个C3Ghost；

图4为本发明中CBAM模块示意图，CBAM模块先后通过通道注意响应路径和空间维度注意相应路径分支得到权重特征图，然后将权重特征图与输入特征图相乘得到自适应选择之后的输出细化特征图。

步骤5、使用Alpha-IoU替换原本YOLOv5中的DIoU Loss作为模型训练的损失函数，对模型进行监督训练，设置训练轮次为300，批归一化大小为16，初始学习率为1e-3，使用Adam优化器对模型优化，使用步骤1中获得的训练数据集对模型进行训练，Alpha-IoU 由普通的IoU损失函数演变而来，普通的IoU损失定义为1-L_IoU，通过对现有的IoU损失中引入power变换，将IoU损失归纳为α-IoU损失：

通过对α-IoU中的参数α进行调制，可以推导出现有的大多数IoU类型的损失，如log(IoU)和IoU²等，这儿的α可以理解为一个惩罚项或者正则化项，能将原本的IoU损失进行简单的扩展，使其同时具有多种IoU损失的优点，能有效提升模型的检测精度；

步骤6、训练过程中每迭代训练一次就加载步骤1中获得的验证集进行验证，记录当前获得的验证精度结果，每次进行比较，当精度更高时保存当前的模型权重，直到迭代循环结束，最终会保存得到验证结果最佳的精度的模型权重，加载此模型权重使用步骤1中获得的测试集进行推理测试。

为了验证本发明的有效性，采用参数量、mAP和检测速度FPS作为模型性能的评价指标，其中，参数量的多少用于衡量模型的轻量化，mAP用于衡量模型的检测精度，每秒处理的图像数(FPS)作为实时评价指标。尝试骨干网络部分结合GhostNet生成YOLOv5s-Ghost，尝试骨干网络部分结合MobileNetv3生成YOLOv5s-MobileNetv3，并将YOLOv5的四个模型版本YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x参与比较，得到比较结果如表I所示。

表I各个模型性能比较

如表I所示在参与比较的算法模型中，尝试在骨干网络部分结合轻量化网络生成的两个模型精度都对应有所下降，两个模型速度都得到了一定的提升，其中YOLOv5s-MobileNetv3 取得的精度结果差不多下降了9.5％个mAP值，相比之下，结合MobileNetv3取得的结果不论是精度还是速度都不如结合GhostNet，这儿展现了GhostNet在这儿能有效生成高质量的特征图，本发明提出的方法Alpha-SGANet以4.93MB的参数量取得了最高精度65.14％mAP 值，相比于原本的YOLOv5s的57.62％mAP提高了7.52％，而实时速度也有68.49FPS，相比于原本YOLOv5s的128.2FPS虽然在速度上有所不足，但其精度的提升的可观的，此外，一开始出发点是希望能综合权衡速度和精度两个指标，考虑到这儿的速度只有68.49FPS，速度还可以有所提升，于是不加入P6的结构生成了Alpha-SGAsNet，其速度得到较大的提升，高达105.3FPS，其精度62.62％mAP相比于原本的YOLOv5s提升了5％mAP，并且其模型是很大程度上实现了轻量化，其模型参数量仅有2.84MB，这样的结果是比较符合一开始的设计出点的，能较好的权衡速度和精度上的最佳平衡，更为嵌入式平台和边缘端设备的模型部署提供了可能，对工程实践具有重大意义。

本发明未详细阐述的部分属于本领域公知技术，以上所述仅为本发明的较佳的实例，并不用以限制本发明，本领域技术人员均能根据具体应用场景做出适当调整和有效性改进。

Claims

1.一种适用于嵌入式平台的实时目标检测方法，其特征在于，包括以下的步骤：

步骤3、使用轻量化网络ShuffleNetv2在骨干网络部分堆叠构建轻量高效的特征提取网络，并增加P6层下采样层以增加网络的整体感受野，在P6层前使用卷积核更小的SPP模块在尽量减少信息丢失的情况下增加网络的多感受野信息；

2.根据权利要求1所述的一种适用于嵌入式平台的实时目标检测方法，其特征在于，步骤1中所述的数据集可以自行通过采集装置获得并标注或者直接从公开数据集下载，可以使用VOC2007和VOC2012数据共同参与训练，使用VOC2007和VOC2012在内的总计16551张图片按照9：1的比例划分为训练集和验证集，使用VOC2007和VOC2012在内的总计4952张图片作为测试集。

3.根据权利要求1所述的一种适用于嵌入式平台的实时目标检测方法，其特征在于，步骤2数据预处理中使用包括光照变化、几何仿射变换、Mosaic和MixUp数据增强手段，具体为随机翻转、中值滤波、多尺度变换、HSV增强，通过数据增强后的数据更丰富，模型能学习到的特征更多，在实际测试表现中也更加鲁棒。

4.根据权利要求1所述的一种适用于嵌入式平台的实时目标检测方法，其特征在于，步骤3中骨干网络部分使用轻量化网络ShuffleNetv2为基本单元模块，其中又可细分为步长为1和步长为2的两种，通过采用[3,6,6,3,3]的堆叠次数堆叠步长为1的ShuffleNetv2的基本单元模块，第一次堆叠前使用Focus的操作进行一次下采样，其他的几层都是中间加入一个步长为2的ShuffleNetv2的基本单元模块进行下采样，总共进行了6次下采样，即包含P6层的特征层以获得更大的感受野信息，并且在P6层前使用卷积核更小的SPP模块在尽量减少信息丢失的情况下增加网络的多感受野信息。

5.根据权利要求1所述的一种适用于嵌入式平台的实时目标检测方法，其特征在于，步骤4中使用由GhostNet中的Ghost Bottleneck构建而成的C3Ghost对特征过渡处理，帮助检测头的预测，每次使用C3Ghost模块都是重复堆叠3次，过程中并使用GhostConv来改变特征通道数的变化和进行下采样操作，在颈部部分的上采样过程，使用卷积核大小为1，步长为1的GhostConv实现改变特征通道数，在颈部部分的下采样过程，使用卷积核大小为3，步长为2的GhostConv进行下采样，为了进一步提升模型的性能，在每次GhostConv之前都使用了CBAM模块从空间和通道上同时抑制不利的信息，提出的颈部部分称之为GAFPN-Neck，统计得到，GAFPN-Neck一共包含6个CBAM模块、6个GhostConv模块、3个上采样、6个Concat模块和18个C3Ghost。

6.根据权利要求1所述的一种适用于嵌入式平台的实时目标检测方法，其特征在于，步骤5中使用Alpha-IoU替换原本YOLOv5中的DIoU Loss作为模型训练的损失函数，对模型进行监督训练，设置训练轮次为300，批归一化大小为16，初始学习率为1e-3，使用Adam优化器对模型优化，使用步骤1中获得的训练数据集对模型进行训练。

7.根据权利要求1所述的一种适用于嵌入式平台的实时目标检测方法，其特征在于，步骤6中每迭代训练一次就加载步骤1中获得的验证集进行验证，记录当前获得的验证精度结果，每次进行比较，当精度更高时保存当前的模型权重，直到迭代循环结束，最终会保存得到验证结果最佳的精度的模型权重，加载此模型权重使用步骤1中获得的测试集进行推理测试。