CN115331261A - 基于YOLOv6的移动端实时人体检测方法及系统 - Google Patents

基于YOLOv6的移动端实时人体检测方法及系统 Download PDF

Info

Publication number
CN115331261A
CN115331261A CN202211017917.3A CN202211017917A CN115331261A CN 115331261 A CN115331261 A CN 115331261A CN 202211017917 A CN202211017917 A CN 202211017917A CN 115331261 A CN115331261 A CN 115331261A
Authority
CN
China
Prior art keywords
module
human body
network
detection
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211017917.3A
Other languages
English (en)
Inventor
李翔
韩潼瑜
黄玉阔
程文锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kungfu Chain Shanghai Sports Culture Development Co ltd
Original Assignee
Kungfu Chain Shanghai Sports Culture Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kungfu Chain Shanghai Sports Culture Development Co ltd filed Critical Kungfu Chain Shanghai Sports Culture Development Co ltd
Priority to CN202211017917.3A priority Critical patent/CN115331261A/zh
Publication of CN115331261A publication Critical patent/CN115331261A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人体检测技术领域,提供一种基于YOLOv6的移动端实时人体检测方法,包括:步骤100,采用图像采集设备采集检测图片;步骤200,将检测图片输入人体识别模型的骨干特征提取网络中,进行特征提取,得到一次特征图;步骤300,将一次特征图,输入到人体识别模型的颈部特征融合网络中进行二次特征提取,得到二次提取特征图;步骤400,将二次特征图输入到人体识别模型的检测头预测网络中,输出人体检测结果。本发明能够提升模型对多环境的鲁棒性和对人体的检测精度,移动端保证检测精度的同时,大大提高检测速度。

Description

基于YOLOv6的移动端实时人体检测方法及系统
技术领域
本发明涉及人体检测技术领域,尤其涉及一种基于YOLOv6的移动端实时人体检测方法及系统。
背景技术
目前,人体检测在智慧社区,安全校园,AI游戏互动等领域应用越来越广。为了确保各个场景的速度和精度,需要提高人体检测的速度和精度。
现有的移动端检测人体方法主要是传统的opencv检测算法和基于深度学习二类。目前在深度学习领域,出名的算法有单阶段的YOLO系列,Centernet;双阶段的Faster rcnn(faster regions with cnn features)等网络。但受限于硬件设备,部署环境等众多因素影响,在移动端检测人体时,很难达到网络性能和部署环境的平衡:在保证高鲁棒性高精度的同时很难保证高的检测速度。基于传统的计算机视觉技术,很难在最新的移动端达到功耗小且高精度。综上所述,现有的移动端人体检测方案无法对复杂的场景有好的鲁棒性,无法对人体进行高精度和高速度的实时检测。
发明内容
本发明主要解决现有的移动端人体检测方案无法对复杂的场景有好的鲁棒性,无法对人体进行高精度和高速度的实时检测的技术问题,提出一种基于YOLOv6的移动端实时人体检测方法及系统,以提升模型对多环境的鲁棒性和对人体的检测精度,移动端保证检测精度的同时,大大提高检测速度。
本发明提供了一种基于YOLOv6的移动端实时人体检测方法,包括:
步骤100,采用图像采集设备采集检测图片;
步骤200,将检测图片输入人体识别模型的骨干特征提取网络中,进行特征提取,得到一次特征图;
步骤300,将一次特征图,输入到人体识别模型的颈部特征融合网络中进行二次特征提取,得到二次提取特征图;
步骤400,将二次特征图输入到人体识别模型的检测头预测网络中,输出人体检测结果。
进一步的,所述骨干特征提取网络,采用MobileViT网络或者EfficientRep网络。
进一步的,所述MobileViT网络,包括:依次设置的3*3卷积模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、MobileViTBlock模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块;其中,所述3*3卷积模块采用降采样2倍,第二个、第五个、第六个和第七个Mobilenetv2模块均采用降采样2倍。
进一步的,所述MobileViT Block模块里包含Transformer Encoder模块,且三个MobileViT Block模块内部重复Transformer Encoder模块次数依次为2次、4次和3次,检测图片经过MobileViT Block模块后,特征图的维度不发生变化;
Transformer Encoder模块采用自注意力机制;
Transformer Encoder模块内部经过多头注意力机制后,输出的特征向量经过二个全连接层,然后进行LN操作;
检测图片经过第一个MobileViT Block模块之后输出第一一次特征图,经过第二个MobileViT Block模块之后输出第二一次特征图,经过第三个MobileViT Block模块之后输出的第三一次特征图。
进一步的,所述EfficientRep网络,包括:RepConv模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、SimSPPF模块;其中,所述RepConv模块的步长为2;
所述RepBlock模块,包括:多个RepConv子模块;
进一步的,所述颈部特征融合网络,采用Neck网络;
所述Neck网络,包括:RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块、concate拼接层;
分别将第一一次特征图、第二一次特征图、第三一次特征图输入到颈部特征融合网络中,此时特征图的通道数数需一一对应,然后Neck网络对特征进行融合,得到第一二次特征图、第二二次特征图、第三二次特征图。
进一步的,所述检测头预测网络,包括:1*1卷积模块、3*3卷积模块、1*1卷积模块、Cls模块、3*3卷积模块、1*1卷积模块、Reg模块、1*1卷积模块、Obj模块;
二次特征图经过一个1*1卷积模块后,分为二支路,第一支路先后经过一个3*3卷积模块和一个1*1卷积模块,得到物体的类别信息,第二支路先后经过一个3*3卷积模块和二个1*1卷积模块,分别得到物体的位置信息和置信度信息(Obj.)。
对应的,本发明还提供一种基于YOLOv6的移动端实时人体检测系统,包括:采集模块、骨干特征提取模块、颈部特征模块和检测头模块;
所述采集模块,用于采用高速运动相机采集检测图片;
所述骨干特征提取模块,用于将检测图片输入人体识别模型的骨干特征提取网络中,进行特征提取,得到一次特征图;
所述颈部特征模块,用于将一次特征图,输入到人体识别模型的颈部特征融合网络中进行二次特征提取,得到二次提取特征图;
所述检测头模块,用于将二次特征图输入到人体识别模型的检测头预测网络中,输出人体检测结果。
本发明提供的一种基于YOLOv6的移动端实时人体检测方法及系统,通过包含Transformer自注意力模块的网络作为骨干网络,基于YOLOv6并将轻量化的MobileViT网络作为骨干特征提取网络,能够更好的捕获全局信息和丰富的上下文信息,网络具有Transformer Encoder模块,相较于传统纯卷积网络具有更强的动态计算能力,学习和建模能力更强大,能学习隐藏的特征,进而进一步提升模型对多环境的鲁棒性和对人体的检测精度。MobileViT网络具有更强的学习能力,移动端保证检测精度的同时,大大提高检测速度。
MobileViT采用深度可分离卷积,模型十分轻量化,大大提高了检测速度,在移动端设备达到实时,方便网络模型在后续移动端的部署,解决了以前移动端设备性能与网络计算复杂度难以平衡的问题,有效提高工作效率。
附图说明
图1是本发明提供的基于YOLOv6的移动端实时人体检测方法的实现流程图;
图2是本发明提供的MobileViT网络的结构示意图;
图3是本发明提供的EfficientRep网络的结构示意图;
图4是本发明提供的EfficientRep网络中RepBlock模块的结构示意图;
图5是本发明提供的Neck网络的结构示意图;
图6是本发明提供的Head网络的结构示意图;
图7是本发明提供的基于YOLOv6的移动端实时人体检测系统的连接示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
本发明采用的人体识别模型进行人体检测,所述人体识别模型包括:骨干特征提取网络(Backbone网络)、颈部特征融合网络(Neck网络)和检测头预测网络(Head网络)。
如图1所示,本发明实施例提供的基于YOLOv6的移动端实时人体检测方法,包括以下过程:
步骤100,采用图像采集设备采集检测图片。
所述图像采集设备不限于手机、高速运动相机等。采集后的检测图片,进行数据预处理。
步骤200,将检测图片输入人体识别模型的骨干特征提取网络中,进行特征提取,得到一次特征图。
所述骨干特征提取网络,采用MobileViT网络或者包含RepConv的EfficientRep网络;两种骨干特征提取网络均可实现本方案,但是MobileViT网络属于轻量级网络,提取效率更好,效率更高。
针对采用MobileViT网络作为骨干特征提取网络的说明:
如图2所示,所述MobileViT网络,包括:卷积模块、多个Mobilenetv2模块和多个MobileViT Block模块。
具体的,所述MobileViT网络,包括:依次设置的3*3卷积模块(conv-3*3)、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块;
所述3*3卷积模块采用降采样2倍,第二个、第五个、第六个和第七个Mobilenetv2模块均采用降采样2倍,以增大感受野。Mobilenetv2模块因为有深度可分离卷积,因此参数量和计算量很少,加快模型计算速度。
所述MobileViT Block模块里包含经典的Transformer Encoder模块,且三个MobileViT Block模块内部重复Transformer Encoder模块次数依次为2次、4次和3次,检测图片经过MobileViT Block模块后,特征图的维度不发生变化,以便后续继续卷积处理。
Transformer Encoder模块内部最核心的是自注意力机制(self attention),自注意力机制的计算公式为:
Figure BDA0003812479250000051
其中,Z表示自注意力机制的输出,在计算的时候需要用到矩阵Q(查询)、K(键值)、V(值)。Self-Attention的输入用X表示,矩阵Q(查询)、矩阵K(键值)、矩阵V(值)是通过输入分别进行线性变换得到的矩阵。dk是Q和K矩阵的列数,即向量维度,为了防止内积过大,因此除以dk的平方根。T代表矩阵转置,B代表偏置。最后使用Softmax计算每一个单词对于其他单词的attention系数,此处Softmax是对矩阵的每一行进行Softmax,即每一行的和都变为1.最后输出即为自注意力机制的输出Z。
Transformer Encoder模块内部经过多头注意力机制后,输出的特征向量经过二个全连接层,然后进行LN(Layer Normalization,层归一化)操作。
本发明采用MobileViT网络作为骨干特征提取数据,检测图片经过第一个MobileViT Block模块之后输出第一一次特征图(C3),经过第二个MobileViT Block模块之后输出第二一次特征图(C4),经过第三个MobileViT Block模块之后输出的第三一次特征图(C5);
第一一次特征图(C3)、第二一次特征图(C4)、第三一次特征图(C5)将分别作为颈部特征融合网络(Neck网络)的输入。
本发明采用轻量级网络MobileViT网络作为骨干特征提取网络,整体网络结构很清晰,一共对检测图片有五次下采样,将图片的高度H和宽度W变为原来的1/32;随着网络深度的不断增加,通道数不断增加。本发明基于无锚框目标检测算法YOLOv6,利用包含Trasnformer自注意力机制的轻量化模型MobileViT重构特征提取骨干网络。把MobileViT网络的8、16、32倍下采样后的三个特征图引出,连接至YOLOv6的三个颈部特征网络Neck部分。
本发明在骨干特征提取网络中,一方面包含有轻量级模块Mobilenetv2的深度可分离卷积,可以大大降低模型参数量和计算量,保证了网络的轻量化;另一方面网络包含有Transformer Encoder模块,Transformer可以对网络特征进行全局的处理,其中自注意力机制可以对特征进行更强有力的学习和更强大的建模,从而增强网络模型的鲁棒性,增强网络性能。
针对采用EfficientRep网络作为骨干特征提取网络的说明:
如图3所示,所述EfficientRep网络,包括:RepConv模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、SimSPPF模块。其中,所述RepConv模块的Stride(步长)=2。
如图4所示,所述RepBlock模块,包括:多个RepConv子模块。
所述EfficientRep网络设计简单,类似于经典的VGG结构,是基于普通卷积层改良的。其中RepConv是参数重构的卷积层,在训练阶段采用多个卷积训练得到更高的精度,但是在测试的时候可以把多个卷积等效转化为一个卷积,这样可以在保证模型精度的同时加速模型的推理速度。EfficientRep是一种简单又强力的CNN结构,在训练时使用了性能高的多分支模型,而在推理时使用了速度快、省内存的单路模型,也是更具备速度和精度的均衡。除了是更高效的网络结构,网络结构对计算密集的硬件十分友好。
步骤300,将一次特征图,输入到人体识别模型的颈部特征融合网络中进行二次特征提取,得到二次特征图。
所述颈部特征融合网络,采用Neck网络。所述Neck网络,包括:RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块(上采样模块)、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块、concate拼接层。
分别将第一一次特征图(C3)、第二一次特征图(C4)、第三一次特征图(C5)输入到颈部特征融合网络(Neck网络)中,此时特征图的通道数(channel)数需一一对应,然后Neck网络对特征进行融合,得到第一二次特征图(P3)、第二二次特征图(P4)、第三二次特征图(P5)。
Neck网络是可以多方向融合特征的金字塔网络,但具体细节是YOLOv6特有的。如图5所示,除了常见的卷积模块、上采样模块、concate拼接层(图5中标注C),YOLOv6把替换普通卷积为RepBlock模块。Neck网络深度捕获在不同尺度中对象的上下文信息,可以跨空间和尺度的特征交互,且可以降低在硬件上的延时。
步骤400,将二次特征图输入到人体识别模型的检测头预测网络中,输出人体检测结果。
所述检测头预测网络,包括:1*1卷积模块、3*3卷积模块、1*1卷积模块、Cls模块、3*3卷积模块、1*1卷积模块、Reg模块、1*1卷积模块、Obj模块。
检测头预测网络结构简单,首先二次特征图经过一个1*1卷积模块后,分为二支路,第一支路先后经过一个3*3卷积模块和一个1*1卷积模块,得到物体的类别信息(Cls.),第二支路先后经过一个3*3卷积模块和二个1*1卷积模块,分别得到物体的位置信息(Reg.)和置信度信息(Obj.)。
本发明经过多特征图融合提取更优的特征,将得到第一二次特征图(P3)、第二二次特征图(P4)、第三二次特征图(P5)输入到检测头预测网络中,得到最后预测结果。
检测头(图6)解耦为边框回归与类别分类二个分支,结构非常轻量化,分别由一个1*1卷积和3*3卷积进行特征提取,得到最终的检测信息。检测头可以加快网络的收敛并降低网络的参数量,进行检测完成对人体目标的检测,输出人体检测结果。
本发明进行人体检测的人体识别模型可通过大量的训练数据,训练得到。把模型文件格式转换为移动端支持的格式,如有需要则解决不支持的算子,当转换模型成功后,验证转换后的模型,能准确测试图片得到结果,则完成在移动端的人体目标检测系统。
本发明整体采用YOLOv6网络,YOLOv6网络有S、M、L、X四个模型,其中网络结构大致相似,但网络的具体深度和参数量是不同的,其中S模型是参数量最小的模型,且检测精度很好,本发明选择YOLOv6网络S模型为基准深度学习目标检测框架。YOLOv6网络整合了大量最前沿的计算机视觉技术,改善了检测性能,提升了模型速度和部署便利度。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于YOLOv6的移动端实时人体检测方法,其特征在于,包括:
步骤100,采用图像采集设备采集检测图片;
步骤200,将检测图片输入人体识别模型的骨干特征提取网络中,进行特征提取,得到一次特征图;
步骤300,将一次特征图,输入到人体识别模型的颈部特征融合网络中进行二次特征提取,得到二次提取特征图;
步骤400,将二次特征图输入到人体识别模型的检测头预测网络中,输出人体检测结果。
2.根据权利要求1所述的基于YOLOv6的移动端实时人体检测方法,其特征在于,所述骨干特征提取网络,采用MobileViT网络或者EfficientRep网络。
3.根据权利要求2所述的基于YOLOv6的移动端实时人体检测方法,其特征在于,所述MobileViT网络,包括:依次设置的3*3卷积模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块、Mobilenetv2模块、MobileViT Block模块;其中,所述3*3卷积模块采用降采样2倍,第二个、第五个、第六个和第七个Mobilenetv2模块均采用降采样2倍。
4.根据权利要求3所述的基于YOLOv6的移动端实时人体检测方法,其特征在于,所述MobileViT Block模块里包含Transformer Encoder模块,且三个MobileViT Block模块内部重复Transformer Encoder模块次数依次为2次、4次和3次,检测图片经过MobileViTBlock模块后,特征图的维度不发生变化;
Transformer Encoder模块采用自注意力机制;
Transformer Encoder模块内部经过多头注意力机制后,输出的特征向量经过二个全连接层,然后进行LN操作;
检测图片经过第一个MobileViT Block模块之后输出第一一次特征图,经过第二个MobileViT Block模块之后输出第二一次特征图,经过第三个MobileViT Block模块之后输出的第三一次特征图。
5.根据权利要求2所述的基于YOLOv6的移动端实时人体检测方法,其特征在于,所述EfficientRep网络,包括:RepConv模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、RepConv模块、RepBlock模块、SimSPPF模块;其中,所述RepConv模块的步长为2;
所述RepBlock模块,包括:多个RepConv子模块。
6.根据权利要求4或5所述的基于YOLOv6的移动端实时人体检测方法,其特征在于,所述颈部特征融合网络,采用Neck网络;
所述Neck网络,包括:RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、3*3卷积模块、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块、concate拼接层、RepBlock模块、1*1卷积模块、Upsample模块、concate拼接层;
分别将第一一次特征图、第二一次特征图、第三一次特征图输入到颈部特征融合网络中,此时特征图的通道数数需一一对应,然后Neck网络对特征进行融合,得到第一二次特征图、第二二次特征图、第三二次特征图。
7.根据权利要求4或5所述的基于YOLOv6的移动端实时人体检测方法,其特征在于,所述检测头预测网络,包括:1*1卷积模块、3*3卷积模块、1*1卷积模块、Cls模块、3*3卷积模块、1*1卷积模块、Reg模块、1*1卷积模块、Obj模块;
二次特征图经过一个1*1卷积模块后,分为二支路,第一支路先后经过一个3*3卷积模块和一个1*1卷积模块,得到物体的类别信息,第二支路先后经过一个3*3卷积模块和二个1*1卷积模块,分别得到物体的位置信息和置信度信息(Obj.)。
8.一种基于YOLOv6的移动端实时人体检测系统,其特征在于,包括:采集模块、骨干特征提取模块、颈部特征模块和检测头模块;
所述采集模块,用于采用高速运动相机采集检测图片;
所述骨干特征提取模块,用于将检测图片输入人体识别模型的骨干特征提取网络中,进行特征提取,得到一次特征图;
所述颈部特征模块,用于将一次特征图,输入到人体识别模型的颈部特征融合网络中进行二次特征提取,得到二次提取特征图;
所述检测头模块,用于将二次特征图输入到人体识别模型的检测头预测网络中,输出人体检测结果。
CN202211017917.3A 2022-08-24 2022-08-24 基于YOLOv6的移动端实时人体检测方法及系统 Pending CN115331261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211017917.3A CN115331261A (zh) 2022-08-24 2022-08-24 基于YOLOv6的移动端实时人体检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211017917.3A CN115331261A (zh) 2022-08-24 2022-08-24 基于YOLOv6的移动端实时人体检测方法及系统

Publications (1)

Publication Number Publication Date
CN115331261A true CN115331261A (zh) 2022-11-11

Family

ID=83926571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211017917.3A Pending CN115331261A (zh) 2022-08-24 2022-08-24 基于YOLOv6的移动端实时人体检测方法及系统

Country Status (1)

Country Link
CN (1) CN115331261A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636057A (zh) * 2023-12-13 2024-03-01 石家庄铁道大学 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636057A (zh) * 2023-12-13 2024-03-01 石家庄铁道大学 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法
CN117636057B (zh) * 2023-12-13 2024-06-11 石家庄铁道大学 基于多分支跨空间注意力模型的列车轴承损伤分类识别方法

Similar Documents

Publication Publication Date Title
CN112287940B (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN111832546B (zh) 一种轻量级自然场景文本识别方法
CN110674741B (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN109472298A (zh) 用于小尺度目标检测的深度双向特征金字塔增强网络
CN112836597A (zh) 基于级联并行卷积神经网络的多手姿态关键点估计方法
CN112613478B (zh) 一种面向机器人抓取的数据主动式选择方法
CN111881743A (zh) 一种基于语义分割的人脸特征点定位方法
CN113743269A (zh) 一种轻量化识别视频人体姿态的方法
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115713546A (zh) 移动终端设备用的轻量化目标跟踪算法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
Wang et al. DualSeg: Fusing transformer and CNN structure for image segmentation in complex vineyard environment
CN115331261A (zh) 基于YOLOv6的移动端实时人体检测方法及系统
CN115797808A (zh) 一种无人机巡检缺陷图像的识别方法、系统、装置及介质
Tao et al. F-PVNet: Frustum-level 3-D object detection on point–voxel feature representation for autonomous driving
CN113160291B (zh) 一种基于图像配准的变化检测方法
Tan et al. A Lightweight Underwater Object Detection Model: FL-YOLOV3-TINY
CN111881746B (zh) 一种基于信息融合的人脸特征点定位方法及系统
Wang et al. Summary of object detection based on convolutional neural network
CN114937153B (zh) 弱纹理环境下基于神经网络的视觉特征处理系统及方法
CN115861841A (zh) 一种结合轻量化大卷积核的sar图像目标检测方法
Zhao et al. Facial expression recognition based on visual transformers and local attention features network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination