CN112990325B

CN112990325B - 一种面向嵌入式实时视觉目标检测的轻型网络构建方法

Info

Publication number: CN112990325B
Application number: CN202110312020.2A
Authority: CN
Inventors: 王晗; 冯文宇; 朱远璠; 郑君泰; 傅怀梁
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-09-06
Anticipated expiration: 2041-03-24
Also published as: CN112990325A

Abstract

本发明公开了一种面向嵌入式实时视觉目标检测的轻型网络构建方法，包括如下步骤：步骤1)构建基于通道注意力机制多尺度特征融合的三分支输出骨干网络模块Backbone‑Tiny；步骤2)构建轻型金字塔特征融合网络模块PAN‑Tiny；步骤3)构建轻型检测头网络模块Head‑Tiny；步骤4)按照骨干网络模块Backbone‑Tiny、金字塔特征融合网络模块PAN‑Tiny、检测头网络模块Head‑Tiny的顺序，将步骤1)、步骤2)、步骤3)所描述的三个局部子网络模块依次串联成为目标检测网络整体。本发明的方法能够大幅度提升骨干网络模块特征提取有效性的同时，显著降低特征金字塔融合网络模块的计算量。

Description

一种面向嵌入式实时视觉目标检测的轻型网络构建方法

技术领域

本发明涉及图像目标检测与识别技术，计算机视觉技术，尤其涉及一种面向嵌入式移动终端设备环境下的实时图像目标定位与识别(检测)深度学习模型的结构轻量化设计方法。

背景技术

所谓嵌入式移动终端设备环境下的实时图像目标物体检测模型，是指脱离上位PC机，在移动设备终端环境下，利用嵌入式技术开发能够处理超过每秒40帧以上的图像目标检测任务的卷积神经网络模型。该技术对工业、医学、国防、刑侦等领域的应用提供着重要的技术支持。

目前，常见的方法是YOLO系列的目标检测模型。如YOLOv3、YOLOv4、YOLOv4-Tiny等。现有的方法常常受限于特征提取有效性与处理速度不平衡的问题。即，高精度引起处理速度的显著下降、高速度引起检测精度的面明显下降。

发明内容

发明目的：为了解决上述问题，本发明的主要目的在于提供一种面向嵌入式实时视觉目标检测的轻型网络构建方法，其先进性表现为：通过设计通道注意力机制调节的多尺度融合分支特征提取单元SE-SPP-Shuffulenet提高骨干网络的特征有效性，保证多尺度目标检测精度。然后，提出超轻金字塔融合网络PAN-Tiny的结构，最大限度降低计算量，减轻模型参数体量。最后，简化检测头网络结构进一步提升目标检测速度。实验表明，本发明提出轻型网络可以在保证目标检测精度的同时，大幅度地提升计算速度，充分满足普通嵌入式移动设备环境下对于图像目标检测的准确性和实时性能的要求。

技术方案：为达到上述目的，本发明的技术方案是：一种面向嵌入式实时视觉目标检测的轻型网络构建方法，包括如下步骤：

步骤1)构建基于通道注意力机制多尺度特征融合的三分支输出骨干网络模块Backbone-Tiny；

步骤2)构建轻型金字塔特征融合网络模块PAN-Tiny；

步骤3)构建轻型检测头网络模块Head-Tiny；

步骤4)按照骨干网络模块Backbone-Tiny、金字塔特征融合网络模块PAN-Tiny、检测头网络模块Head-Tiny的顺序，将步骤1)、步骤2)、步骤3)所描述的三个局部子网络模块依次串联成为目标检测网络整体。

进一步的，所述的步骤1)的具体内容为：

三分支输出骨干网络Backbone-Tiny共输出大、中、小三个尺度的图像特征。其网络结构依次由1个卷积层、1个最大池化层、和3个不同尺度的分支特征提取单元SE-SPP-Shufflenet串联组成。每个尺度的SE-SPP-Shufflenet单元均由SE-Shufflenet网络和SPP多尺度池化网络两个部分串联组成。即，SE-Shufflenet的输出作为SPP的输入，而SPP的输出作为SE-Shufflenet网络的最后输出。且大尺度SE-Shufflenet网络的输出，作为中尺度SE-Shufflenet网络的输入；中尺度SE-Shufflenet网络的输出，作为小尺度SE-Shufflenet网络的输入；从而构成3种不同尺度的分支特征提取单元SE-SPP-Shufflenet之间的串联结构。而三个尺度的SE-SPP-Shufflenet网络输出特征图，即为三分支输出骨干网络Backbone-Tiny的三个不同尺度的特征输出。

SE-Shufflenet特征提取网络由Shufflenet网络与通道注意力模型SE串联组成。即，Shufflenet网络的输出作为注意力模型SE网络的输入；而SE输出的特征即为SE-Shufflenet的特征提取网络的最终输出。其中，Shufflenet网络结构依次由1个通道分割层(channel split)、1个“并行特征提取网络”、1个特征拼接层(concate)和1个通道乱序层(channel shuffle)串联构成。其中，“并行特征提取网络”由上、下两个特征提取分支网络并联构成。其中，上分支网络共9层，依次由1个输入层、1个卷积层、1个BN层、1个Relu层、1个DW卷积层、1个BN层、1个DW卷积层、1个BN层和1个Relu层串联构成。下分支网络共6层，依次由1个输入层、1个DW卷积层、1个BN层、1个卷积层、1个BN层和1个Relu层串联构成。上、下分支网络的输出特征图经过1个特征拼接层(concate)连接后，再经过1个通道乱序层(channel shuffle)将输出特征图的通道顺序随机打乱。最后，通道乱序后的特征图作为Shufflenet网络的输出。

SE注意力模型由上、下两个分支结构并联构成。上分支直接输出原输入特征图。下分支网络共5层，依次由1个最大池化层、1个全连接层、1个Relu层、1个全连接层、1个Hard-Swich层串联构成。上、下分支的输出特征图由1个元素相乘操作层(multiply)进行融合。最后，将元素相乘后的特征图作为SE注意力模型的输出。

SPP多尺度池化网络结构由四个尺度的最大池化层并联后和1个特征拼接层(concate)串联组成。即，输入特征图分别经过1×1、5×5、9×9、13×13的四最大池化层的输出特征通过concate层拼接融合，其多尺度的融合结果作为SPP的输出。

进一步的，所述的步骤2)的具体内容为：

轻型金字塔特征融合网络模块PAN-Tiny可将Backbone-Tiny骨干网络的三个尺度输出特征进行分别进行自上而下、自下而上的多尺度融合之后输出三种不同尺度的优化特征。其网络结构如图4所示，由如下三个不同尺度的特征融合分支网络构成：“大尺度特征融合分支网络”、“中尺度特征融合分支网络”、“小尺度特征融合分支网络”。

a)“小尺度特征融合分支网络”结构与特征融合过程如下：

首先，小尺度输入特征图经过1个1×1的卷积层后与“中尺度1次融合上行特征图”FM_up1经过1个1×1的卷积层和1个“线性插值上采样”层后进行元素相加操作。然后，元素相加获取的特征图再经过通道分割(channel split)操作分成两个部分，分别为“小尺度融合上行特征图”FS_up和“小尺度融合下行特征图”FS_down。其中，“小尺度融合上行特征图”FS_up即为“小尺度特征融合分支网络”的输出特征图。

b)“中尺度特征融合分支网络”结构与特征融合过程如下：

首先，中尺度输入特征图经过1个1×1的卷积层后与“大尺度融合上行特征图”FB_up经过1个“线性插值上采样”层和1个1×1的卷积层后，进行元素相加操作。然后，元素相加获取的特征图经过通道分割(channel split)操作分成两个部分，分别为“中尺度1次融合上行特征图”FM_up1和“中尺度1次融合下行特征图”FM_down1。接着，“小尺度融合下行特征图”FS_down经过1个“线性插值下采样”层后与“中尺度1次融合下行特征图”FM_down1进行元素相加。元素相加的结果经过通道分割(channel split)操作分成两个部分，分别为“中尺度2次融合上行特征图”FM_up2和“中尺度2次融合下行特征图”FM_down2。最后，“中尺度2次融合上行特征图”FM_up2经过一个1×1的卷积层后作为“中尺度特征融合分支网络”的输出特征图。

c)“大尺度特征融合分支网络”结构与特征融合过程如下：

首先，小尺度输入特征图经过1个1×1的卷积层后，再经过通道分割(channelsplit)操作分成两个部分，分别为“小尺度上行特征图”FB_up和“小尺度下行特征图”FB_down。然后，中尺度2次下行特征图FM_down2经过1个1×1的卷积层和1个“线性插值下采样”层与“大尺度下行特征图”FB_down进行元素相加操作。元素相加后获取的融合特征图作为“大尺度特征融合分支网络”的输出特征。

进一步的，所述的步骤3)的具体内容为：

轻型检测头网络模块Tiny-head共5层，依次由1个DW卷积层、1个卷积层、1个DW卷积层、1个卷积层、1个卷积层串联构成。

进一步的，所述的步骤4)的具体内容为：

(1)SE-SPP-Shufflenet骨干网络的三分支输出特征图，分别作为PAN-Tiny融合网络的大尺度、中尺度、小尺度特征的输入；

(2)PAN-Tiny融合网络的大尺度、中尺度、小尺度特征的输出特征图，分别连接大尺度、中尺度、小尺度的检测头网络；

(3)最后，三个检测头网络分别输出大尺度、中尺度、小尺度的目标物体定位框Box,检测置信度Conf和输出类别Class三种目标检测结果参数，实现目标定位与识别功能。

有益效果：本发明的方法能够有效提升骨干网络特征提取有效性的同时，显著降低特征金字塔融合网络模块的计算量，大幅度降低处理速度。相对于传统YOLO系列目标检测网络，具有更高的准确性和更快的处理速度，充分满足普通移动设备嵌入式计算环境下对于目标检测网络模型的准确性和实时性要求。

附图说明

图1为本轻型目标检测网络构建方法的流程示意图；

图2为本发明提出的三分支输出骨干网络Backbone-Tiny结构示意图；

图3为本发明提出的SE-Shufflenet网络结构示意图；

图4为本发明提出的PAN-Tiny金字塔特征融合网络结构示意图；

图5为本发明提出的Head-Tiny骨干网络结构示意图；

图6为本发明提出的轻型目标检测网络的结构串联方式示意图；

图7为本发明轻型目标检测网络与传统YOLO系列检测模型在目标检测精度和处理速度及模型参数体量上的比较示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，以使本领域的技术人员能够更好的理解本发明的优点和特征，从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种面向嵌入式实时视觉目标检测的轻型网络构建方法，包括如下步骤：

步骤101：)构建基于通道注意力机制多尺度特征融合的三分支输出骨干网络模块Backbone-Tiny；的具体内容为：

三分支输出骨干网络Backbone-Tiny共输出大、中、小三个尺度的图像特征。如图2所示，其网络结构依次由1个卷积层、1个最大池化层、和大、中、小3种不同尺度的分支特征提取单元SE-SPP-Shufflenet串联组成。每个尺度的SE-SPP-Shufflenet单元均由SE-Shufflenet网络和SPP多尺度池化网络两个部分串联组成。即，SE-Shufflenet的输出作为SPP的输入，而SPP的输出作为SE-Shufflenet网络的最后输出。且大尺度SE-Shufflenet网络的输出，作为中尺度SE-Shufflenet网络的输入；中尺度SE-Shufflenet网络的输出，作为小尺度SE-Shufflenet网络的输入；从而构成3种不同尺度的分支特征提取单元SE-SPP-Shufflenet之间的串联结构。而三个尺度的SE-SPP-Shufflenet网络输出特征图，即为三分支输出骨干网络Backbone-Tiny的三个不同尺度的特征输出。

如图3所示，SE-Shufflenet特征提取网络由Shufflenet网络与通道注意力模型SE串联组成。即，Shufflenet网络的输出作为注意力模型SE网络的输入；而SE输出的特征即为SE-Shufflenet的特征提取网络的最终输出。其中，Shufflenet网络结构依次由1个通道分割层(channel split)、1个“并行特征提取网络”、1个特征拼接层(concate)和1个通道乱序层(channel shuffle)串联构成。其中，“并行特征提取网络”由上、下两个特征提取分支网络并联构成。其中，上分支网络共9层，依次由1个输入层、1个卷积层、1个BN层、1个Relu层、1个DW卷积层、1个BN层、1个DW卷积层、1个BN层和1个Relu层串联构成。下分支网络共6层，依次由1个输入层、1个DW卷积层、1个BN层、1个卷积层、1个BN层和1个Relu层串联构成。上、下分支网络的输出特征图经过1个特征拼接层(concate)连接后，再经过1个通道乱序层(channel shuffle)将输出特征图的通道顺序随机打乱。最后，通道乱序后的特征图作为Shufflenet网络的输出。

SPP多尺度池化网络结构，如图2右上方所示，由四个尺度的最大池化层并联后和1个特征拼接层(concate)串联组成。即，输入特征图分别经过1×1、5×5、9×9、13×13的四最大池化层的输出特征通过concate层拼接融合，其多尺度的融合结果作为SPP的输出。

步骤102：)构建轻型金字塔特征融合网络模块PAN-Tiny；的具体内容为：

a)“小尺度特征融合分支网络”结构与特征融合过程如下：

b)“中尺度特征融合分支网络”结构与特征融合过程如下：

c)“大尺度特征融合分支网络”结构与特征融合过程如下：

表1给出了本发明的PAN-Tiny征与传统PAN网络的参数体量与检测精度的比较，通过比较可知本发明的特征融合网络可以在检测精度不变的情况下显著减低参数体量，加速运算速度。

表1特征融合网络对比实验(PAN vs PAN-Tiny)

融合模块	参数体量(M)	精度(％)
			PAN	14.33	21.7
PAN-Tiny(本发明)	3.71	21.7

步骤103：)构建轻型检测头网络模块Head-Tiny；的具体内容为：

如图5所示，轻型检测头网络模块Tiny-head共5层，依次由1个DW卷积层、1个卷积层、1个DW卷积层、1个卷积层、1个卷积层串联构成。

步骤104：)按照骨干网络模块Backbone-Tiny、金字塔特征融合网络模块PAN-Tiny、检测头网络模块Head-Tiny的顺序，将步骤1)、步骤2)、步骤3)所描述的三个局部子网络模块依次串联成为目标检测网络整体。的具体内容为：

如图6所示，SE-SPP-Shufflenet骨干网络的三分支输出特征图，分别作为PAN-Tiny融合网络的大尺度、中尺度、小尺度特征的输入；而PAN-Tiny融合网络的大尺度、中尺度、小尺度特征的输出特征图，分别连接大尺度、中尺度、小尺度的检测头网络。最后，三个检测头网络分别输出大尺度、中尺度、小尺度的目标物体定位框Box,检测置信度Conf和输出类别Class三种目标检测结果参数，实现目标定位与识别功能。

图7给出了本发明方法(轻型网络)、和三种传统YOLO系列目标检测方法，包括YOLOv 3、YOLOv 4和YOLOv 4-Tiny在COCO公共数据集上的检测结果比较。经过对比可以清楚的看出：本发明的轻型网络构建方法对于复杂环境下的小目标检测精度，明显优于其他传统YOLO系列模型。

同时，本发明利用相同PC实验环境如下：Intel(R)Xeon(R)Gold 521 8CPU，GeForce RTX 2080Ti 11GGPU。软件使用Ubuntu16.04系统，Python 3.7，PyTorch1.5.0深度学习框架。选择MAP(Mean Average Precision)和FPS(Frame Per Second)分别作为模型检测精度和速度的评价指标对常见的几种YOLO系列模型进行了性能量化比较实验。表2给出了本文目标检测网络与传统YOLO系列网络参数体量及其运行速度比较实例。通过比较可知，本发明方法构建的目标检测网络参数体量最小，模型占有内存最少，运行速度最快。

表2目标检测网络参数体量与运行速度比较说明表

本发明的技术内容及技术特征已揭示如上，然而熟悉本领域的技术人员仍可能基于本发明的揭示而作种种不背离本发明精神的替换及修饰，因此，本发明保护范围应不限于实施例所揭示的内容，而应包括各种不背离本发明的替换及修饰，并为本专利申请权利要求所涵盖。

Claims

1.一种面向嵌入式实时视觉目标检测的轻型网络构建方法，其特征在于：包括如下步骤：

步骤2)构建轻型金字塔特征融合网络模块PAN-Tiny；

步骤3)构建轻型检测头网络模块Head-Tiny；

步骤4)按照骨干网络模块Backbone-Tiny、金字塔特征融合网络模块PAN-Tiny、检测头网络模块Head-Tiny的顺序，将步骤1)、步骤2)、步骤3)所描述的三个局部子网络模块依次串联成为目标检测网络整体；

所述的步骤1)的具体内容为：

三分支输出骨干网络Backbone-Tiny共输出大、中、小三个尺度的图像特征，其网络结构依次由1个卷积层、1个最大池化层、和3个不同尺度的分支特征提取单元SE-SPP-Shufflenet串联组成，每个尺度的SE-SPP-Shufflenet单元均由SE-Shufflenet网络和SPP多尺度池化网络两个部分串联组成，即，SE-Shufflenet的输出作为SPP的输入，而SPP的输出作为SE-Shufflenet网络的最后输出，且大尺度SE-Shufflenet网络的输出，作为中尺度SE-Shufflenet网络的输入；中尺度SE-Shufflenet网络的输出，作为小尺度SE-Shufflenet网络的输入；从而构成3种不同尺度的分支特征提取单元SE-SPP-Shufflenet之间的串联结构，而三个尺度的SE-SPP-Shufflenet网络输出特征图，即为三分支输出骨干网络Backbone-Tiny的三个不同尺度的特征输出；

SE-Shufflenet特征提取网络由Shufflenet网络与通道注意力模型SE串联组成，Shufflenet网络的输出作为通道注意力模型SE的输入；而通道注意力模型SE输出的特征即为SE-Shufflenet的特征提取网络的最终输出，其中，Shufflenet网络结构依次由1个通道分割层(channel split)、1个并行特征提取网络、1个特征拼接层(concate)和1个通道乱序层(channel shuffle)串联构成，其中，并行特征提取网络由上、下两个特征提取分支网络并联构成，其中，上分支网络共9层，依次由1个输入层、1个卷积层、1个BN层、1个Relu层、1个DW卷积层、1个BN层、1个DW卷积层、1个BN层和1个Relu层串联构成；下分支网络共6层，依次由1个输入层、1个DW卷积层、1个BN层、1个卷积层、1个BN层和1个Relu层串联构成，上、下分支网络的输出特征图经过1个特征拼接层(concate)连接后，再经过1个通道乱序层(channel shuffle)将输出特征图的通道顺序随机打乱，最后，通道乱序后的特征图作为Shufflenet网络的输出；

通道注意力模型SE由上、下两个分支结构并联构成，上分支直接输出原输入特征图，下分支网络共5层，依次由1个最大池化层、1个全连接层、1个Relu层、1个全连接层、1个Hard-Swich层串联构成；上、下分支的输出特征图由1个元素相乘操作层(multiply)进行融合；最后，将元素相乘后的特征图作为SE注意力模型的输出；

SPP多尺度池化网络结构由四个尺度的最大池化层并联后和1个特征拼接层(concate)串联组成，即，输入特征图分别经过1×1、5×5、9×9、13×13的最大池化层的输出特征通过concate层拼接融合，其多尺度的融合结果作为SPP的输出。

2.根据权利要求1所述的面向嵌入式实时视觉目标检测的轻型网络构建方法，其特征在于：所述的步骤2)的具体内容为：

轻型金字塔特征融合网络模块PAN-Tiny可将Backbone-Tiny骨干网络的三个尺度输出特征进行分别进行自上而下、自下而上的多尺度融合之后输出三种不同尺度的优化特征，轻型金字塔特征融合网络模块PAN-Tiny由以下三个不同尺度的特征融合分支网络构成：“大尺度特征融合分支网络”、“中尺度特征融合分支网络”、“小尺度特征融合分支网络”；

a)“小尺度特征融合分支网络”结构与特征融合过程如下：

首先，小尺度输入特征图经过1个1×1的卷积层后与“中尺度1次融合上行特征图”FM_up1经过1个1×1的卷积层和1个“线性插值上采样”层后进行元素相加操作；然后，元素相加获取的特征图再经过通道分割(channel split)操作分成两个部分，分别为“小尺度融合上行特征图”FS_up和“小尺度融合下行特征图”FS_down，其中，“小尺度融合上行特征图”FS_up即为“小尺度特征融合分支网络”的输出特征图；

b)“中尺度特征融合分支网络”结构与特征融合过程如下：

首先，中尺度输入特征图经过1个1×1的卷积层后与“大尺度融合上行特征图”FB_up经过1个“线性插值上采样”层和1个1×1的卷积层后，进行元素相加操作；然后，元素相加获取的特征图经过通道分割(channel split)操作分成两个部分，分别为“中尺度1次融合上行特征图”FM_up1和“中尺度1次融合下行特征图”FM_down1；接着，“小尺度融合下行特征图”FS_down经过1个“线性插值下采样”层后与“中尺度1次融合下行特征图”FM_down1进行元素相加；元素相加的结果经过通道分割(channel split)操作分成两个部分，分别为“中尺度2次融合上行特征图”FM_up2和“中尺度2次融合下行特征图”FM_down2；最后，“中尺度2次融合上行特征图”FM_up2经过一个1×1的卷积层后作为“中尺度特征融合分支网络”的输出特征图；

c)“大尺度特征融合分支网络”结构与特征融合过程如下：

首先，小尺度输入特征图经过1个1×1的卷积层后，再经过通道分割(channel split)操作分成两个部分，分别为“小尺度上行特征图”FB_up和“小尺度下行特征图”FB_down；然后，中尺度2次下行特征图FM_down2经过1个1×1的卷积层和1个“线性插值下采样”层与“大尺度下行特征图”FB_down进行元素相加操作；元素相加后获取的融合特征图作为“大尺度特征融合分支网络”的输出特征。

3.根据权利要求1所述的面向嵌入式实时视觉目标检测的轻型网络构建方法，其特征在于：所述的步骤3)的具体内容为：

4.根据权利要求1所述的面向嵌入式实时视觉目标检测的轻型网络构建方法，其特征在于：所述的步骤4)的具体内容为：