CN114612758A - 一种基于深度分组可分离卷积的目标检测方法 - Google Patents

一种基于深度分组可分离卷积的目标检测方法 Download PDF

Info

Publication number
CN114612758A
CN114612758A CN202210250486.9A CN202210250486A CN114612758A CN 114612758 A CN114612758 A CN 114612758A CN 202210250486 A CN202210250486 A CN 202210250486A CN 114612758 A CN114612758 A CN 114612758A
Authority
CN
China
Prior art keywords
convolution
network
gbl
target detection
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210250486.9A
Other languages
English (en)
Inventor
张康
徐蔚鸿
胡雪梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202210250486.9A priority Critical patent/CN114612758A/zh
Publication of CN114612758A publication Critical patent/CN114612758A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度分组可分离卷积的目标检测方法,由特征提取模块,特征融合模块和检测头组成。本发明提出并在检测头中使用了GBL模块,GBL模块由深度分组分离卷积,批归一化层和Leaky_Relu激活函数组成,其中深度分组可分离卷积在深度可分离卷积的基础上进行了改进,首先进行特征图的通道分组,经过3x3的普通卷积后进行拼接,拼接后的特征图进行1x1的普通卷积操作改变通道数,基于深度分组可分离卷积的GBL模块可以有效的代替普通卷积,在提取多层次和多尺度特征以及特征融合中都可以有效保证网络的学习能力。本发明公开的目标检测方法以较小的参数和计算增量,实现了较大的精确度的提高,在保证目标检测实时性的同时,有效的优化了检测效果,作为一种轻量级目标检测方法,尤其适用于内存和计算能力受限硬件环境。

Description

一种基于深度分组可分离卷积的目标检测方法
技术领域
本发明属于目标检测领域,更具体的,尤其涉及一种基于深度分组可分离卷积的目标检测方法。
背景技术
目标检测是计算机视觉中最重要的任务之一。自从第一个无约束的实时人脸检测方法“Viola-Jones检测器”被提出以来,目标检测技术一直在不断发展。
基于深度学习的目标检测方法主要包括两类:基于区域建议的两阶段方法和基于回归的一阶段方法。虽然两阶段方法比一阶段方法具有更高的精度,但一阶段方法比两阶段方法具有更快的检测速度。然而不论是两级检测器还是一级检测器都有复杂的网络结构和大量的参数,需要GPU(图形处理单元)进行实时目标检测,但在实际应用中,设备的计算能力和内存是有限的,因此,必须设计轻量级目标检测网络以适应内存和计算力受限的情况。
发明内容
发明目的:针对现有技术的缺陷和改进需求,本发明提供了一种基于深度分组可分离卷积的目标检测方法,其目的在于保证实时性的前提下,以较少的参数量和计算量的增加维代价,换取目标检测准确率与鲁棒性方面性能的较大提升。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于深度分组可分离卷积的目标检测方法,包括特征提取模块,多尺度特征融合模块和目标检测头;所述特征提取模块为CSPDarknet53-Tiny网络,主要由卷积层,CSPBlock模块和最大池化层组成,通过堆叠这些模块得到主干网络,用于特征提取;所述多尺度特征融合模块为FPN网络,主要由卷积层组成,将提取到的特征映射到两个不同尺度,并进行特征融合;所述目标检测头由卷积层和GBL模块组成,对融合后的特征图进行回归,以得到最终目标的位置和类别信息,具体包括以下步骤:
步骤1,采集检测图片,形成训练集。
步骤2,提取特征。将训练集图片输入到CSPDarknet53-Tiny网络中进行特征提取,CSPDarknet53网络包括依次连接的两个3x3卷积层,三个CSPBlock模块和最大池化层,其中CSPBlock模块包括依次连接的三个3x3卷积层,第二个卷积层和第三个卷积层的输出拼接后输入到第四个卷积层,第四个卷积层的输出和第一个卷积层的输出拼接后作为CSPBlock模块的输出。首先两个3x3的卷积层对输入图像进行低级语义特征的提取,然后CSPBlock模块和最大池化层的组合在降低特征图大小的同时,对特征进行进一步提取,得到更多高级语义特征。
步骤3,特征融合。将提取到的特征输入到FPN网络中进行特征融合,FPN网络有两条分支,其中一条包括依次连接的两个3x3卷积层,特征图经过卷积层后尺度进一步缩小,另一条在第一条的输出后再连接两个3x3的卷积层,缩小尺度的同时进一步提取特征,并与FPN网络的输入进行拼接,进行特征融合,最后两条分支得到两种不同尺度的特征图。
步骤4,检测目标。将两种不同尺度的特征图输入到检测头中,检测头包括两个依次连接的GBL模块和两个3x3的普通卷积最后输出两种不同尺度下的检测结果,并选择置信度最大的预测框作为最后的目标检测框。
优选的:检测头采用了两个连续的GBL模块,GBL模块包括3x3深度分组可分离卷积,批归一化层和Leaky_Relu激活函数,通过两个连续的GBL模块可以得到更加准确的目标检测结果。
优选的:深度分组可分离卷积将输入特征图进行分组,每组进行普通卷积,卷积结果拼接得到新的特征图,各组卷积过程中卷积核的个数和各组特征图的通道数一致,保证得到的新特征图的通道数和原始特征图的通道数一致,然后用1x1的普通卷积改变新特征图的通道层数。
优选的:检测头包含深度分组可分离卷积,在减少参数量和计算量的同时,保证了网络的学习能力,可以有效的检测目标,普通卷积操作的计算量为:
k×k×ci×wo×ho×co
其中k是卷积核的大小,ci是输入特征图的通道数,(wo,ho,co)是输出特征图的形状,深度分组可分离卷积的计算量为:
Figure BDA0003546610380000021
其中g为输入特征图分组的数量,两者的计算量相比较:
Figure BDA0003546610380000022
如果将输入的特征矩阵分为4组,且输入和输出通道数一致,当卷积核大小k=3时,分组深度可分离卷积的参数量为普通卷积的13/36,计算量约为普通卷积的1/3。
本发明相比现有技术,具有以下有益效果:
本发明提出的目标检测方法,提出并使用了以GBL模块为基础的目标检测头,在普通3x3卷积的基础上,新增了深度分组可分离卷积,极大的提高了网络的检测精度和鲁棒性,并且参数量和计算量的增量均少于直接使用普通卷积。因此本发明所提出的网络结构,解决了基于卷积神经网络的目标检测网络检测精度低的问题,同时保证了检测的实时性。
附图说明
图1是本发明的流程图。
图2是CSPBlock模块结构图。
图3是深度分组可分离卷积结构图。
图4是GBL模块结构图。
图5是本发明网络模型结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施仅仅用于解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供一种基于差异性空间注意力机制的实时目标检测方法,包括以下步骤:
步骤S1,使用PASCAL VOC数据集,该数据集来自PASCAL VOC视觉挑战赛,共20种目标类别,组成如下:
数据集 训练集 验证集 测试集 类别数
PASCAL VOC2007 2501 2501 4952 20
PASCAL VOC2012 5717 5823 10991 20
实例中使用VOC2007和VOC2012的训练集进行训练,VOC2007的测试集进行测试。
步骤S2,使用CSPDarknet53-Tiny网络提取特征,其网络结构如图5中所示,图片输入后首先经过两个3x3的卷积层进行浅层语义特征的提取,然后连续经过三组CSPBlock模块和最大池化层,其中CSPBlock模块结构如图2所示,首先对输入的特征图进行一次3x3卷积操作,然后分支为两条路径,一条保存此时的特征图,另一条将此时的特征图分为两组,其中一组再次进行3x3卷积操作,卷积后映射为两份,一份再次进行3x3卷积操作后与另一份进行拼接,再次经过一次3x3卷积后与最初保存的那份特征图再次进行拼接,然后输出;最大池化层采用的同样是3x3的卷积,其步长为2,使输出尺寸减半;通过CSPDarknet53-Tiny网络,图片的特征被充分提取,提取到的特征图输入下一步骤的特征融合网络中。
步骤S3,使用FPN网络进行特征融合,其网络结构如图5中所示,网络有两条分支,其中一条包括依次连接的两个3x3卷积层,特征图经过卷积层后尺度进一步缩小,另一条在第一条的输出后再连接两个3x3的卷积层,缩小尺度的同时进一步提取特征,并与FPN网络的输入进行拼接,进行特征融合,最后两条分支得到两种不同尺度的特征图。
步骤S4,将两种不同尺度的特征图输入到检测头中,检测头包括两个依次连接的GBL模块和两个3x3的普通卷积,GBL模块的结构如图4所示,由深度分组可分离卷积,批归一化层和Leaky_Relu激活函数组成;深度分组可分离卷积结构如图3所示,将输入特征图进行分组,每组进行普通卷积,卷积结果拼接得到新的特征图,各组卷积过程中卷积核的个数和各组特征图的通道数一致,保证得到的新特征图的通道数和原始特征图的通道数一致,然后用1x1的普通卷积改变新特征图的通道层数;检测头包含GBL模块,其基础为深度分组可分离卷积,因此检测头可以以较少的参数量和计算量的增加,来换取较大的网络检测精度的提升及网络的鲁棒性。检测头最后输出两种不同尺度下的检测结果,并选择置信度最大的预测框作为最后的目标检测框。
在本实例中,网络的训练环境如下:
部件 配置
operating system Ubuntu18.04
CPU/GHZ Inter xeon processor(skylake,IBRS),2
RAM 16GB
GPU GeForce RTX 2080Ti
GPU acceleration library CUDA10.2,CUDNN7.6
Deep learning framework Darknet
在本实例中,网络的训练步骤如下:
下载Darknet项目,进行编译;根据S1中数据集的具体组成,修改数据集配置文件中的训练集和测
试集。根据S2至S4所述网络结构,修改训练配置文件中的网络结构部分;设置训练配置文件中的超参数部分,输入图像大小为416×416×3,迭代40000次,图片批次大小为64,每个批次又划分为16个小批次,初始学习率为0.00261,在迭代到第32000次和36000次时,学习率依次除以10,动量系数和权重衰减系数分别为0.9和0.005。
最终结果与其他轻量级模型比较如下:
方法 mAP FPS
Yolov3-tiny-prn 49.37% 506
Yolov3-tiny-3l 51.14% 420
Yolov4-tiny 52.55% 435
Yolov4-tiny-3l 54.36% 401
Ours 57.53% 425
通过以上数据可以发现,我们的方法准确率最高,等于57.53%,而速度仅比Yolov4-tiny稍慢,很好的解决了轻量级目标检测方法精确度不高的问题,同时保持了良好的实时性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内做任何修改,等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度分组可分离卷积的目标检测方法,其特征在于,包括以下步骤:
步骤1,采集检测图片,形成训练集。
步骤2,提取特征。将训练集图片输入到CSPDarknet53-Tiny网络中进行特征提取,CSPDarknet53网络包括依次连接的两个3x3卷积层,三个CSPBlock模块和最大池化层,其中CSPBlock模块包括依次连接的三个3x3卷积层,第二个卷积层和第三个卷积层的输出拼接后输入到第四个卷积层,第四个卷积层的输出和第一个卷积层的输出拼接后作为CSPBlock模块的输出。CSPDarknet53-Tiny复杂的网络结构有益于提取图片的特征。
步骤3,特征融合。将提取到的特征输入到FPN网络中进行特征融合,FPN网络有两条分支,其中一条包括依次连接的两个3x3卷积层,另一条在第一条的输出后再连接两个3x3的卷积层,并与FPN网络的输入进行拼接。融合后得到两种不同尺度的特征图。
步骤4,检测目标。将两种不同尺度的特征图输入到检测头中,检测头包括两个依次连接的GBL模块和两个3x3的普通卷积最后输出两种不同尺度下的检测结果,并选择置信度最大的预测框作为最后的目标检测框。
2.如权利要求1所述方法,其特征在于:步骤4中检测头采用了两个连续的GBL模块,GBL模块包括3x3深度分组可分离卷积,批归一化层和RELU激活函数,通过两个连续的GBL模块可以得到更加准确的目标检测结果。
3.如权利要求2所述方法,其特征在于,深度分组可分离卷积将输入特征图进行分组,每组进行普通卷积,卷积结果拼接得到新的特征图,各组卷积过程中卷积核的个数和各组特征图的通道数一致,保证得到的新特征图的通道数和原始特征图的通道数一致,然后用1x1的普通卷积改变新特征图的通道层数。
4.如权利要求3所述方法,其特征在于:步骤4中检测头包含深度分组可分离卷积,在减少参数量和计算量的同时,保证了网络的学习能力,可以有效的检测目标。
CN202210250486.9A 2022-03-15 2022-03-15 一种基于深度分组可分离卷积的目标检测方法 Pending CN114612758A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210250486.9A CN114612758A (zh) 2022-03-15 2022-03-15 一种基于深度分组可分离卷积的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210250486.9A CN114612758A (zh) 2022-03-15 2022-03-15 一种基于深度分组可分离卷积的目标检测方法

Publications (1)

Publication Number Publication Date
CN114612758A true CN114612758A (zh) 2022-06-10

Family

ID=81862420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210250486.9A Pending CN114612758A (zh) 2022-03-15 2022-03-15 一种基于深度分组可分离卷积的目标检测方法

Country Status (1)

Country Link
CN (1) CN114612758A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661614A (zh) * 2022-12-09 2023-01-31 江苏稻源科技集团有限公司 一种基于轻量化YOLO v1的目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661614A (zh) * 2022-12-09 2023-01-31 江苏稻源科技集团有限公司 一种基于轻量化YOLO v1的目标检测方法
CN115661614B (zh) * 2022-12-09 2024-05-24 江苏稻源科技集团有限公司 一种基于轻量化YOLO v1的目标检测方法

Similar Documents

Publication Publication Date Title
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN111967468B (zh) 一种基于fpga的轻量级目标检测神经网络的实现方法
CN110717527B (zh) 结合空洞空间金字塔结构的目标检测模型确定方法
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN110674741B (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN112801169B (zh) 一种基于改进yolo算法的伪装目标检测方法、系统、装置及存储介质
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN113408321B (zh) 一种轻量级图像、视频数据的实时目标检测方法及装置
Zhang et al. FPGA implementation of quantized convolutional neural networks
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN110782430A (zh) 一种小目标的检测方法、装置、电子设备及存储介质
CN114925320A (zh) 一种数据处理方法及相关装置
CN113869282A (zh) 人脸识别方法、超分模型训练方法及相关设备
CN113887588A (zh) 基于注意力机制和特征加权融合的车辆检测方法及装置
CN113065586A (zh) 一种非局域的图像分类装置、方法和存储介质
CN108363962B (zh) 一种基于多层次特征深度学习的人脸检测方法及系统
CN114612758A (zh) 一种基于深度分组可分离卷积的目标检测方法
CN116958148B (zh) 输电线路关键部件缺陷的检测方法、装置、设备、介质
CN112989952A (zh) 一种基于遮罩引导的人群密度估计方法及装置
CN111508024A (zh) 一种基于深度学习估计机器人位姿的方法
WO2023071658A1 (zh) Ai模型的处理方法、运算方法及装置
CN116109868A (zh) 基于轻量化神经网络的图像分类模型构建和小样本图像分类方法
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN113627460A (zh) 一种基于时间切片卷积神经网络的目标识别系统与方法
CN116420174A (zh) 用于卷积神经网络的全尺度卷积

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination