CN115331261A

CN115331261A - 基于YOLOv6的移动端实时人体检测方法及系统

Info

Publication number: CN115331261A
Application number: CN202211017917.3A
Authority: CN
Inventors: 李翔; 韩潼瑜; 黄玉阔; 程文锋
Original assignee: Kungfu Chain Shanghai Sports Culture Development Co ltd
Current assignee: Kungfu Chain Shanghai Sports Culture Development Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-11

Abstract

本发明涉及人体检测技术领域，提供一种基于YOLOv6的移动端实时人体检测方法，包括：步骤100，采用图像采集设备采集检测图片；步骤200，将检测图片输入人体识别模型的骨干特征提取网络中，进行特征提取，得到一次特征图；步骤300，将一次特征图，输入到人体识别模型的颈部特征融合网络中进行二次特征提取，得到二次提取特征图；步骤400，将二次特征图输入到人体识别模型的检测头预测网络中，输出人体检测结果。本发明能够提升模型对多环境的鲁棒性和对人体的检测精度，移动端保证检测精度的同时，大大提高检测速度。

Description

基于YOLOv6的移动端实时人体检测方法及系统

技术领域

本发明涉及人体检测技术领域，尤其涉及一种基于YOLOv6的移动端实时人体检测方法及系统。

背景技术

目前，人体检测在智慧社区，安全校园，AI游戏互动等领域应用越来越广。为了确保各个场景的速度和精度，需要提高人体检测的速度和精度。

现有的移动端检测人体方法主要是传统的opencv检测算法和基于深度学习二类。目前在深度学习领域，出名的算法有单阶段的YOLO系列，Centernet；双阶段的Faster rcnn(faster regions with cnn features)等网络。但受限于硬件设备，部署环境等众多因素影响，在移动端检测人体时，很难达到网络性能和部署环境的平衡：在保证高鲁棒性高精度的同时很难保证高的检测速度。基于传统的计算机视觉技术，很难在最新的移动端达到功耗小且高精度。综上所述，现有的移动端人体检测方案无法对复杂的场景有好的鲁棒性，无法对人体进行高精度和高速度的实时检测。

发明内容

本发明主要解决现有的移动端人体检测方案无法对复杂的场景有好的鲁棒性，无法对人体进行高精度和高速度的实时检测的技术问题，提出一种基于YOLOv6的移动端实时人体检测方法及系统，以提升模型对多环境的鲁棒性和对人体的检测精度，移动端保证检测精度的同时，大大提高检测速度。

本发明提供了一种基于YOLOv6的移动端实时人体检测方法，包括：

步骤100，采用图像采集设备采集检测图片；

步骤200，将检测图片输入人体识别模型的骨干特征提取网络中，进行特征提取，得到一次特征图；

步骤300，将一次特征图，输入到人体识别模型的颈部特征融合网络中进行二次特征提取，得到二次提取特征图；

步骤400，将二次特征图输入到人体识别模型的检测头预测网络中，输出人体检测结果。

进一步的，所述骨干特征提取网络，采用MobileViT网络或者EfficientRep网络。

进一步的，所述MobileViT网络，包括：依次设置的3*3卷积模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、MobileViTBlock模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块；其中，所述3*3卷积模块采用降采样2倍，第二个、第五个、第六个和第七个Mobilenetv2模块均采用降采样2倍。

进一步的，所述MobileViT Block模块里包含Transformer Encoder模块，且三个MobileViT Block模块内部重复Transformer Encoder模块次数依次为2次、4次和3次，检测图片经过MobileViT Block模块后，特征图的维度不发生变化；

Transformer Encoder模块采用自注意力机制；

Transformer Encoder模块内部经过多头注意力机制后，输出的特征向量经过二个全连接层，然后进行LN操作；

检测图片经过第一个MobileViT Block模块之后输出第一一次特征图，经过第二个MobileViT Block模块之后输出第二一次特征图，经过第三个MobileViT Block模块之后输出的第三一次特征图。

进一步的，所述EfficientRep网络，包括：RepConv模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、SimSPPF模块；其中，所述RepConv模块的步长为2；

所述RepBlock模块，包括：多个RepConv子模块；

进一步的，所述颈部特征融合网络，采用Neck网络；

所述Neck网络，包括：RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块、concate拼接层；

分别将第一一次特征图、第二一次特征图、第三一次特征图输入到颈部特征融合网络中，此时特征图的通道数数需一一对应，然后Neck网络对特征进行融合，得到第一二次特征图、第二二次特征图、第三二次特征图。

进一步的，所述检测头预测网络，包括：1*1卷积模块、3*3卷积模块、1*1卷积模块、Cls模块、3*3卷积模块、1*1卷积模块、Reg模块、1*1卷积模块、Obj模块；

二次特征图经过一个1*1卷积模块后，分为二支路，第一支路先后经过一个3*3卷积模块和一个1*1卷积模块，得到物体的类别信息，第二支路先后经过一个3*3卷积模块和二个1*1卷积模块，分别得到物体的位置信息和置信度信息(Obj.)。

对应的，本发明还提供一种基于YOLOv6的移动端实时人体检测系统，包括：采集模块、骨干特征提取模块、颈部特征模块和检测头模块；

所述采集模块，用于采用高速运动相机采集检测图片；

所述骨干特征提取模块，用于将检测图片输入人体识别模型的骨干特征提取网络中，进行特征提取，得到一次特征图；

所述颈部特征模块，用于将一次特征图，输入到人体识别模型的颈部特征融合网络中进行二次特征提取，得到二次提取特征图；

所述检测头模块，用于将二次特征图输入到人体识别模型的检测头预测网络中，输出人体检测结果。

本发明提供的一种基于YOLOv6的移动端实时人体检测方法及系统，通过包含Transformer自注意力模块的网络作为骨干网络，基于YOLOv6并将轻量化的MobileViT网络作为骨干特征提取网络，能够更好的捕获全局信息和丰富的上下文信息，网络具有Transformer Encoder模块，相较于传统纯卷积网络具有更强的动态计算能力，学习和建模能力更强大，能学习隐藏的特征，进而进一步提升模型对多环境的鲁棒性和对人体的检测精度。MobileViT网络具有更强的学习能力，移动端保证检测精度的同时，大大提高检测速度。

MobileViT采用深度可分离卷积，模型十分轻量化，大大提高了检测速度，在移动端设备达到实时，方便网络模型在后续移动端的部署，解决了以前移动端设备性能与网络计算复杂度难以平衡的问题，有效提高工作效率。

附图说明

图1是本发明提供的基于YOLOv6的移动端实时人体检测方法的实现流程图；

图2是本发明提供的MobileViT网络的结构示意图；

图3是本发明提供的EfficientRep网络的结构示意图；

图4是本发明提供的EfficientRep网络中RepBlock模块的结构示意图；

图5是本发明提供的Neck网络的结构示意图；

图6是本发明提供的Head网络的结构示意图；

图7是本发明提供的基于YOLOv6的移动端实时人体检测系统的连接示意图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

本发明采用的人体识别模型进行人体检测，所述人体识别模型包括：骨干特征提取网络(Backbone网络)、颈部特征融合网络(Neck网络)和检测头预测网络(Head网络)。

如图1所示，本发明实施例提供的基于YOLOv6的移动端实时人体检测方法，包括以下过程：

步骤100，采用图像采集设备采集检测图片。

所述图像采集设备不限于手机、高速运动相机等。采集后的检测图片，进行数据预处理。

步骤200，将检测图片输入人体识别模型的骨干特征提取网络中，进行特征提取，得到一次特征图。

所述骨干特征提取网络，采用MobileViT网络或者包含RepConv的EfficientRep网络；两种骨干特征提取网络均可实现本方案，但是MobileViT网络属于轻量级网络，提取效率更好，效率更高。

针对采用MobileViT网络作为骨干特征提取网络的说明：

如图2所示，所述MobileViT网络，包括：卷积模块、多个Mobilenetv2模块和多个MobileViT Block模块。

具体的，所述MobileViT网络，包括：依次设置的3*3卷积模块(conv-3*3)、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块；

所述3*3卷积模块采用降采样2倍，第二个、第五个、第六个和第七个Mobilenetv2模块均采用降采样2倍，以增大感受野。Mobilenetv2模块因为有深度可分离卷积，因此参数量和计算量很少，加快模型计算速度。

所述MobileViT Block模块里包含经典的Transformer Encoder模块，且三个MobileViT Block模块内部重复Transformer Encoder模块次数依次为2次、4次和3次，检测图片经过MobileViT Block模块后，特征图的维度不发生变化，以便后续继续卷积处理。

Transformer Encoder模块内部最核心的是自注意力机制(self attention)，自注意力机制的计算公式为：

其中，Z表示自注意力机制的输出，在计算的时候需要用到矩阵Q(查询)、K(键值)、V(值)。Self-Attention的输入用X表示，矩阵Q(查询)、矩阵K(键值)、矩阵V(值)是通过输入分别进行线性变换得到的矩阵。d_k是Q和K矩阵的列数，即向量维度，为了防止内积过大，因此除以d_k的平方根。T代表矩阵转置，B代表偏置。最后使用Softmax计算每一个单词对于其他单词的attention系数，此处Softmax是对矩阵的每一行进行Softmax，即每一行的和都变为1.最后输出即为自注意力机制的输出Z。

Transformer Encoder模块内部经过多头注意力机制后，输出的特征向量经过二个全连接层，然后进行LN(Layer Normalization，层归一化)操作。

本发明采用MobileViT网络作为骨干特征提取数据，检测图片经过第一个MobileViT Block模块之后输出第一一次特征图(C3)，经过第二个MobileViT Block模块之后输出第二一次特征图(C4)，经过第三个MobileViT Block模块之后输出的第三一次特征图(C5)；

第一一次特征图(C3)、第二一次特征图(C4)、第三一次特征图(C5)将分别作为颈部特征融合网络(Neck网络)的输入。

本发明采用轻量级网络MobileViT网络作为骨干特征提取网络，整体网络结构很清晰，一共对检测图片有五次下采样，将图片的高度H和宽度W变为原来的1/32；随着网络深度的不断增加，通道数不断增加。本发明基于无锚框目标检测算法YOLOv6，利用包含Trasnformer自注意力机制的轻量化模型MobileViT重构特征提取骨干网络。把MobileViT网络的8、16、32倍下采样后的三个特征图引出，连接至YOLOv6的三个颈部特征网络Neck部分。

本发明在骨干特征提取网络中，一方面包含有轻量级模块Mobilenetv2的深度可分离卷积，可以大大降低模型参数量和计算量，保证了网络的轻量化；另一方面网络包含有Transformer Encoder模块，Transformer可以对网络特征进行全局的处理，其中自注意力机制可以对特征进行更强有力的学习和更强大的建模，从而增强网络模型的鲁棒性，增强网络性能。

针对采用EfficientRep网络作为骨干特征提取网络的说明：

如图3所示，所述EfficientRep网络，包括：RepConv模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、SimSPPF模块。其中，所述RepConv模块的Stride(步长)＝2。

如图4所示，所述RepBlock模块，包括：多个RepConv子模块。

所述EfficientRep网络设计简单，类似于经典的VGG结构，是基于普通卷积层改良的。其中RepConv是参数重构的卷积层，在训练阶段采用多个卷积训练得到更高的精度，但是在测试的时候可以把多个卷积等效转化为一个卷积，这样可以在保证模型精度的同时加速模型的推理速度。EfficientRep是一种简单又强力的CNN结构，在训练时使用了性能高的多分支模型，而在推理时使用了速度快、省内存的单路模型，也是更具备速度和精度的均衡。除了是更高效的网络结构，网络结构对计算密集的硬件十分友好。

步骤300，将一次特征图，输入到人体识别模型的颈部特征融合网络中进行二次特征提取，得到二次特征图。

所述颈部特征融合网络，采用Neck网络。所述Neck网络，包括：RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块(上采样模块)、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块、concate拼接层。

分别将第一一次特征图(C3)、第二一次特征图(C4)、第三一次特征图(C5)输入到颈部特征融合网络(Neck网络)中，此时特征图的通道数(channel)数需一一对应，然后Neck网络对特征进行融合，得到第一二次特征图(P3)、第二二次特征图(P4)、第三二次特征图(P5)。

Neck网络是可以多方向融合特征的金字塔网络，但具体细节是YOLOv6特有的。如图5所示，除了常见的卷积模块、上采样模块、concate拼接层(图5中标注C)，YOLOv6把替换普通卷积为RepBlock模块。Neck网络深度捕获在不同尺度中对象的上下文信息，可以跨空间和尺度的特征交互，且可以降低在硬件上的延时。

所述检测头预测网络，包括：1*1卷积模块、3*3卷积模块、1*1卷积模块、Cls模块、3*3卷积模块、1*1卷积模块、Reg模块、1*1卷积模块、Obj模块。

检测头预测网络结构简单，首先二次特征图经过一个1*1卷积模块后，分为二支路，第一支路先后经过一个3*3卷积模块和一个1*1卷积模块，得到物体的类别信息(Cls.)，第二支路先后经过一个3*3卷积模块和二个1*1卷积模块，分别得到物体的位置信息(Reg.)和置信度信息(Obj.)。

本发明经过多特征图融合提取更优的特征，将得到第一二次特征图(P3)、第二二次特征图(P4)、第三二次特征图(P5)输入到检测头预测网络中，得到最后预测结果。

检测头(图6)解耦为边框回归与类别分类二个分支，结构非常轻量化，分别由一个1*1卷积和3*3卷积进行特征提取，得到最终的检测信息。检测头可以加快网络的收敛并降低网络的参数量，进行检测完成对人体目标的检测，输出人体检测结果。

本发明进行人体检测的人体识别模型可通过大量的训练数据，训练得到。把模型文件格式转换为移动端支持的格式，如有需要则解决不支持的算子，当转换模型成功后，验证转换后的模型，能准确测试图片得到结果，则完成在移动端的人体目标检测系统。

本发明整体采用YOLOv6网络，YOLOv6网络有S、M、L、X四个模型，其中网络结构大致相似，但网络的具体深度和参数量是不同的，其中S模型是参数量最小的模型，且检测精度很好，本发明选择YOLOv6网络S模型为基准深度学习目标检测框架。YOLOv6网络整合了大量最前沿的计算机视觉技术，改善了检测性能，提升了模型速度和部署便利度。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于YOLOv6的移动端实时人体检测方法，其特征在于，包括：

步骤100，采用图像采集设备采集检测图片；

2.根据权利要求1所述的基于YOLOv6的移动端实时人体检测方法，其特征在于，所述骨干特征提取网络，采用MobileViT网络或者EfficientRep网络。

3.根据权利要求2所述的基于YOLOv6的移动端实时人体检测方法，其特征在于，所述MobileViT网络，包括：依次设置的3*3卷积模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块；其中，所述3*3卷积模块采用降采样2倍，第二个、第五个、第六个和第七个Mobilenetv2模块均采用降采样2倍。

4.根据权利要求3所述的基于YOLOv6的移动端实时人体检测方法，其特征在于，所述MobileViT Block模块里包含Transformer Encoder模块，且三个MobileViT Block模块内部重复Transformer Encoder模块次数依次为2次、4次和3次，检测图片经过MobileViTBlock模块后，特征图的维度不发生变化；

Transformer Encoder模块采用自注意力机制；

5.根据权利要求2所述的基于YOLOv6的移动端实时人体检测方法，其特征在于，所述EfficientRep网络，包括：RepConv模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、SimSPPF模块；其中，所述RepConv模块的步长为2；

所述RepBlock模块，包括：多个RepConv子模块。

6.根据权利要求4或5所述的基于YOLOv6的移动端实时人体检测方法，其特征在于，所述颈部特征融合网络，采用Neck网络；

7.根据权利要求4或5所述的基于YOLOv6的移动端实时人体检测方法，其特征在于，所述检测头预测网络，包括：1*1卷积模块、3*3卷积模块、1*1卷积模块、Cls模块、3*3卷积模块、1*1卷积模块、Reg模块、1*1卷积模块、Obj模块；

8.一种基于YOLOv6的移动端实时人体检测系统，其特征在于，包括：采集模块、骨干特征提取模块、颈部特征模块和检测头模块；

所述采集模块，用于采用高速运动相机采集检测图片；