CN113486979A - 基于关键点的轻量级目标检测方法 - Google Patents
基于关键点的轻量级目标检测方法 Download PDFInfo
- Publication number
- CN113486979A CN113486979A CN202110860181.5A CN202110860181A CN113486979A CN 113486979 A CN113486979 A CN 113486979A CN 202110860181 A CN202110860181 A CN 202110860181A CN 113486979 A CN113486979 A CN 113486979A
- Authority
- CN
- China
- Prior art keywords
- network
- convolution
- channel
- features
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000013461 design Methods 0.000 claims abstract description 20
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 45
- 230000004927 fusion Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 18
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims 1
- 238000011478 gradient descent method Methods 0.000 claims 1
- 230000001965 increasing effect Effects 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 3
- 238000012423 maintenance Methods 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 abstract description 2
- 238000011176 pooling Methods 0.000 description 11
- 230000009466 transformation Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于关键点的轻量级目标检测方法,其特征在于,包括如下步骤:准备数据集,数据清洗、预处理以及数据增强;主干网络的设计;shuffle块设计;条件通道权重块设计;Stage1网络结构设计;Stage2网络结构设计;Stage3网络结构设计;合成网络对输入数据进行训练;本文所提出的网络通过并行多个分辨率分支,进行不同分支间的信息交互,增强语义信息和位置信息,类似于特征金字塔网络,本文网络实现了保持输入图像的高分辨率信息,通过不同分支网络的信息交互来补充由于特征图通道数变化带来的信息损耗。在网络中用深度可分离卷积取代常规卷积核,不仅解决了检测框误匹配的问题,改善了检测精度,还缩小了算法模型尺寸,提升了检测速度。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于关键点的轻量级目标检测方法。
背景技术
目标检测领域的研究目标是区分图像或视频中的目标对象与背景信息,输出目标对象的类别和位置。目标检测的研究历程中,共经历了三次主要的技术迭代。最初传统的目标检测方法,基于训练集图像不同位置滑动不同大小的窗口,选取适当的候选区域,区域选择过程借助穷举策略,滑动窗口设置不同大小、不同宽高比,遍历输入图像中的每个像素。传统目标检测方法泛化能力弱,主要通过手工设计来提取特征,时间复杂度高,滑动窗口的覆盖区域存在冗余,传统目标检测方法包括SIFT和HOG。由于检测对象存在形态多样性、光照变化多样性、背景多样性,手工提取特征对于环境变化没有很好的鲁棒性。目标检测领域技术推陈出新,产生了Fast RCNN、Faster RCNN这类基于候选框的深度学习目标检测算法。深度卷积神经网络能够自适应地、鲁棒地提取特征,Fast RCNN和Faster RCNN将目标定位任务与分类任务分开,称为两阶段目标检测算法。后来,目标检测领域出现了以YOLO(YouOnly Look Once)、SSD(Single Shot MultiboxDetector)为代表的基于深度学习的回归方法,这类算法将目标定位任务与目标分类任务并行处理,称为一阶段目标检测算法。在两阶段的目标检测算法中,串行执行两个任务,一个任务是提取候选区域,另一个任务完成分类候选区域。通过区域候选网络判断前景信息,之后再检测目标的具体位置信息。
如果把提取候选区域任务和分类候选区域任务并行完成,同时实现定位与分类,达到端到端的目标检测,从而实现较快的检测速度。一阶段目标检测算法不涉及候选区域的提取,图像输入网络后,划分网格、合并像素完成对检测目标的特征提取。YOLO算法则舍弃了候选框,算法中嵌入回归策略,单个卷积神经网络结构同步获取到物体位置、类别、置信概率三类信息。
目标检测属于位置敏感型任务,过去的研究中,网络通过维持高分辨率特征图来提高位置信息的精确度,借助下采样操作得到强语义信息,再借助上采样操作恢复位置信息,但先下采样、再上采样的过程中可能导致大量有效信息的丢失。
常规卷积网络通过不断下采样来减小特征图尺寸,特征图的分辨率也因此降低。特征图分辨率降低对于图像分类任务而言,影响小,因为待分类目标明显,任务中不需要给出待分类目标的位置信息。但特征图分辨率降低会影响目标检测这类任务,因为基于小分辨率特征图得出大分辨率特征图中的像素坐标较难实现。对于位置敏感型任务,性能表现优越的模型都是通过恢复高分辨率,不管是反卷积上采样操作,还是在浅层和深层网络间使用跳跃连接进行特征融合,这些措施都是为了恢复高分辨率。
发明内容
针对上述问题,本发明提出一种基于关键点的轻量级目标检测方法,主要解决背景技术中的问题。
本发明提出一种基于关键点的轻量级目标检测方法,包括如下具体步骤:
S1、准备数据集,数据清洗、预处理以及数据增强;
S2、主干网络的设计;
S3、shuffle块设计;
S4、条件通道权重块设计;
S5、Stage1网络结构设计;
S6、Stage2网络结构设计;
S7、Stage3网络结构设计;
S8、合成网络对输入数据进行训练。
进一步地,所述步骤S1还包括:对收集到的数据样本进行清洗以及预处理,把大图裁剪到统一的256×256大小,然后以0.2的概率进行水平翻转来增强训练集。
进一步地,所述步骤S2还包括:主干网络中包含了一个卷积层和一个shuffle块,卷积层使用到的卷积核大小为3×3,其中stride值为2,输入为256×256×3的输入图像,经过主干网络后输出特征图为64×64×32。
通道经过shuffle操作后,分组卷积输出的特征考虑到更多通道,输出的特征代表性更高。分组卷积操作采用depthwise卷积,结合通道shuffle和分组depthwise卷积后,降低原始网络中的参数量以及提升模型性能。
进一步地,所述步骤S3还包括:shuffle模块实现将输入特征图的通道分为两部分,其中一条分支包括1×1卷积层、3×3depthwise卷积层以及1×1卷积层,另一条分支类似于恒等映射,两条支路融合特征,将低维和高维上不同表征的特征相融合,再输入到shuffle层,相互交换通道信息。1×1卷积实现在通道上交换信息,3×3depthwise卷积层执行特征的提取操作。
通过一个较小的卷积核传递图像,将输入特征图缩小到一个通道,然后将其扩展到256个通道,在普通卷积中,要实现上述效果,则需要对图像进行256次变换,每次变换都需要5x5x3x8x8=4800次乘法运算。而在可分离卷积中实现,只需要对图像在深度卷积中做一次变换,然后将转换后的图像扩展到256维通道,避免了对图像的多次变换操作,节省计算资源。深度可分离卷积不仅涉及空间维度,还涉及深度维度即通道。通常输入图像具有RGB共3个通道。经过多次卷积操作后,输出特征图的通道数得到扩展。图像的每个通道都是对图像的解释说明,R通道解释图像中每个像素中的“红色”信息,B通道解释每个像素的“蓝色”信息,G通道解释每个像素的“绿色”信息,通道数目与对该图像的解释数目一致。深度可分离卷积将原始卷积核分成两个单独的卷积核,分别执行深度卷积和逐点卷积两个操作。
进一步地,所述步骤S4还包括:条件通道权重模块实现将输入特征图的通道分为两部分,其中一条分支包括通道权重层、3×3depthwise卷积层以及通道权重层,另一条分支类似于恒等映射,两条支路融合特征,将低维和高维上不同表征的特征相融合,再输入到shuffle层,相互交换通道信息。网络中的加权操作通过使用跨分辨率通道加权来探索多分辨率信息,从而增加网络的容量。3×3depthwise卷积层执行特征的提取操作。
与普通卷积神经网络不同,条件网络架构可以实现网络的动态宽度、深度以及动态内核大小。已经存在的条件网络架构包括:门控网络、空间变换网络以及可变形卷积模块。在主干网络中嵌入门控网络时,可以跳过一些卷积块,从而有选择性地降低模型复杂度。当嵌入空间变换网络时,网络的学习过程通过将特征映射在输入上。当嵌入可变形卷积模块时,网络在学习过程中可以了解每个空间位置卷积内核的偏移量。本文提出嵌入主干网络中的条件网络单元是条件通道加权块。
不同于常规卷积操作,深度可分离卷积操作中,单个卷积核负责单个通道,而常规卷积操作中,每个卷积核需要同时操作输入图像中的所有通道,depthwise卷积和常规卷积共同构成了深度可分离卷积。提出条件通道加权,用权重地图代替逐点卷积。普通卷积过程中,每个单元对所有特征图上的对应位置元素逐点卷积,而网络采用条件通道加权时,特征图只需要与权重图在对应位置加权,从而显著降低了计算量。
进一步地,所述步骤S5还包括:Stage1子网络中包含了两个shuffle模块和一个fusion模块,fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
进一步地,所述步骤S6还包括:Stage2子网络中包含了两个条件通道加权模块和一个fusion模块,fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
进一步地,所述步骤S7还包括:Stage3子网络中包含了一个shuffle模块、一个条件通道加权模块和一个fusion模块,fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
进一步地,所述步骤S8还包括:在网络的实际训练过程中,采用小批量随机梯度下降进行训练,其中batch size的大小设置为64,训练总轮次epoch值为100,输入数据集完整训练一遍称为一个epoch,可根据实际情况提前停止训练,在训练过程中随机失活率设置为0.5。在网络学习初期,即epoch<10的阶段,采用初始学习率0.01,让函数损失值尽快收敛;在网络学习中期,即10<epoch<40时,学习率衰减10%,变为0.001,从而更精细地对损失函数进行梯度下降来更新参数,防止落入局部最优点;到网络学习后期,即epoch>40时,损失函数已基本收敛,此时采用更小的学习率0.0001,对参数进行微调,避免学习率过大,网络发生震荡。
与现有技术相比,本发明的有益效果为:
(1)本发明所提供的一种基于关键点的轻量级目标检测方法,与传统技术相比,实践条件更宽松且性能更优越。本发明提出的算法采用回归关键点的方式来输出检测目标的位置与类别,从而降低了检测网络的参数量,网络反向传播过程中计算量降低。
(2)本发明所提供的一种基于关键点的轻量级目标检测方法通过融合原图位置信息来增强无锚框检测过程中的目标位置信息,网络通过连续的卷积过程来提取深层网络信息,经过上采样,网络分支经过信息融合,从而避免浅层网络中信息的衰减。
(3)本发明所提供的一种基于关键点的轻量级目标检测方法通过嵌入深度可分离卷积,将常规卷积分解为深度卷积,之后连接1x1卷积层,继续常规卷积过程,通过将网络中的部分常规卷积替换为深度可分离卷积来降低原始网络中的参数量。
附图说明
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
图1是本发明所提供的一种基于注意力机制关键点的行人重识别轻量级目标检测方法的流程图;
图2是本发明所提供的网络模型shuffle块的整体架构结构示意图;
图3是本发明所提供的网络模型中的条件通道权重块的结构示意图空间注意力机制嵌入到网络后的示意图;
图4是本发明所提供的网络整体架构示意图。
具体实施方式
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接连接,可以说两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明的具体含义。下面结合附图和实施例对本发明的技术方案做进一步的说明。
以下首先就本发明的技术术语进行解释与说明:
感受野:感受野表示输入空间中一个特定CNN特征的范围区域。一个特征的感受野可以采用区域的中心位置和特征大小进行描述。CNN中每层的Feature Map上的像素点在原始图像中映射的区域大小,相当于高层的特征图中的像素点受原图多大区域的影响。
上采样:上采样又称为放大图像或图像插值,主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。图像放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。
下采样:即缩小图像,主要目的有两个:使得图像符合显示区域的大小以及生成对应图像的缩略图。
数据增强:图像增强的方式有很多,如裁剪、翻转、旋转、缩放、扭曲等几何变换,还有像素扰动、添加噪声、光照调节、对比度调节、样本加和或插值、分割补丁等。数据增强可以提高模型性能,原因在于:增强的样本和原来的样本存在强相关性,数据增强扩充了数据集,并且可以带来某种正则化作用,因为模型会更集中地观测数据总的普遍模式,而消除了某些和普遍模式无关的数据,进而可以减小模型的结构风险。
卷积层:是深度学习提取特征的基本网络层,卷积是一种过滤器,是通过矩阵之间对应元素相乘并累加的结果,迭代移动的矩阵称为卷积核,卷积核一般是较小的矩阵,因此卷积具有局部性,迭代地对图像特征矩阵进行卷积操作,可以得到矩阵的局部感知和局部特征;除此之外,卷积核具有共享参数的作用,所以在训练过程中减少参数量。
池化层:增加模型感受野的关键层,池化是一种局部区域特征描述的方式,将局部特征融合得到一个特征值作为整个局部的表征,分为最大池化和平均池化,体现在RoIPooling中;全局平均池化指的是将最后一层网络层得到的每个通道特征图平均池化得到通道的特征,每个通道特征代表模型提取出的一个图形信号分量,在网络设计时把全局平均池化层取代全连接层是一个常用技巧。
激活函数层:卷积核池化都是线性操作,所以需要激活函数来进行非线性地变换,使得网络能够去拟合非线性的环境。其中激活函数sigmoid还可以用于模型特征图归一化,是常见的归一化函数。
全连接层:每个神经元都与上层所有神经元紧密相连,对上一层网络的特征加权,从而将特征空间线性映射到样本空间,全连接层可以看做是分类器,缺点是全连接设计导致参数量巨大;因为全连接还具有关联通道特征的作用,所以也会使用在网络设计时的注意力机制中。
卷积神经网络:由卷积层、池化层、激活函数层、全连接层等相关网络层构建得到,通过网络层的堆叠设计,网络模型感受野的增加,提取图像的下层特征、中层特征以及上层特征,实现图像表征。
深度可分离卷积:深度可分离卷积比常规卷积减少了卷积过程中的参数量。常规卷积过程中是并行考虑输入特征图的通道和区域,而深度可分离卷积实现了输入特征图通道和区域的分离,卷积计算过程中,先考虑区域,再考虑通道。首先对每一个通道进行各自的卷积操作,通道数与过滤器数目一致。得到新的通道特征图之后,再对新通道特征图执行标准的1×1跨通道卷积操作,即depthwise卷积。
实施例一
如图1至图4所示,本实施例公开了一种基于关键点的轻量级目标检测方法,包括如下具体实施步骤:
S1、准备数据集,数据清洗、预处理以及数据增强;
S2、主干网络的设计;
S3、shuffle块设计;
S4、条件通道权重块设计;
S5、Stage1网络结构设计;
S6、Stage2网络结构设计;
S7、Stage3网络结构设计;
S8、合成网络对输入数据进行训练。
步骤S1还包括:对收集到的数据样本进行清洗以及预处理,把大图裁剪到统一的256×256大小,然后以0.2的概率进行水平翻转来增强训练集。
步骤S2还包括:主干网络中包含了一个卷积层和一个shuffle块,卷积层使用到的卷积核大小为3×3,其中stride值为2,输入为256×256×3的输入图像,经过主干网络后输出特征图为64×64×32。
通道经过shuffle操作后,分组卷积输出的特征考虑到更多通道,输出的特征代表性更高。分组卷积操作采用depthwise卷积,结合通道shuffle和分组depthwise卷积后,降低原始网络中的参数量以及提升模型性能。
主干网络拥有较大的感受野,浅层网络中特征的位置信息丰富,深层网络中特征的区分度更大,网络在学习过程中需要兼顾浅层和深层网络中的特征。
步骤S3还包括:shuffle模块实现将输入特征图的通道分为两部分,其中一条分支包括1×1卷积层、3×3depthwise卷积层以及1×1卷积层,另一条分支类似于恒等映射,两条支路融合特征,将低维和高维上不同表征的特征相融合,再输入到shuffle层,相互交换通道信息。使用交错的1×1卷积层用于跨通道执行信息交换,3×3depthwise卷积层执行特征的提取操作。
通过一个较小的卷积核传递图像,将输入特征图缩小到一个通道,然后将其扩展到256个通道,在普通卷积中,要实现上述效果,则需要对图像进行256次变换,每次变换都需要5x5x3x8x8=4800次乘法运算。而在可分离卷积中实现,只需要对图像在深度卷积中做一次变换,然后将转换后的图像扩展到256维通道,避免了对图像的多次变换操作,节省计算资源。深度可分离卷积不仅涉及空间维度,还涉及深度维度即通道。通常输入图像具有RGB共3个通道。经过多次卷积操作后,输出特征图的通道数得到扩展。图像的每个通道都是对图像的解释说明,R通道解释图像中每个像素的“红色”,B通道解释每个像素的“蓝色”,G通道解释每个像素的“绿色”,通道数目与对该图像的解释数目一致。深度可分离卷积将原始卷积核分成两个单独的卷积核,分别执行深度卷积和逐点卷积两个操作。
本文提出的网络中用并行结构中的一条分支来维持高分辨率,而不是采用恢复高分辨率的方法,由于此时高分辨率不是复原得到的,所以相较于之前的模型可以获得更精确的位置信息。
步骤S4还包括:条件通道权重模块实现将输入特征图的通道分为两部分,其中一条分支包括通道权重层、3×3depthwise卷积层以及通道权重层,另一条分支类似于恒等映射,两条支路融合特征,将低维和高维上不同表征的特征相融合,再输入到shuffle层,相互交换通道信息。网络中的加权操作通过使用跨分辨率通道加权来探索多分辨率信息,从而增加网络的容量。3×3depthwise卷积层执行特征的提取操作。
与普通卷积神经网络不同,条件网络架构可以实现网络的动态宽度、深度以及动态内核大小。已经存在的条件网络架构包括:门控网络、空间变换网络以及可变形卷积模块。在主干网络中嵌入门控网络时,可以跳过一些卷积块,从而有选择性地降低模型复杂度。当嵌入空间变换网络时,网络的学习过程通过将特征映射在输入上。当嵌入可变形卷积模块时,网络在学习过程中可以了解每个空间位置卷积内核的偏移量。本文提出嵌入主干网络中的条件网络单元是条件通道加权块。
不同于常规卷积操作,深度可分离卷积操作中,单个卷积核负责单个通道,而常规卷积操作中,每个卷积核需要同时操作输入图像中的所有通道,depthwise卷积和常规卷积共同构成了深度可分离卷积。提出条件通道加权,用权重地图代替逐点卷积。普通卷积过程中,每个单元对所有特征图上的对应位置元素逐点卷积,而网络采用条件通道加权时,特征图只需要与权重图在对应位置加权,从而显著降低了计算量。权重参数包含所有通道映射中的信息,因此包含更丰富的信息。
对不同分辨率特征图的所有通道计算权值,每个分辨率、每个位置的加权值依赖于均值池化操作后多分辨率特征在相同位置的通道信息,上采样操作得到对应分辨率,用于后续元素级加权。
元素级加权图执行跨分辨率、跨通道的信息交换,每个位置的加权向量从所有输入中接收信息,并与原始通道加权,通道加权与卷积操作一样,都起到信息交换的作用。
通过条件通道加权替换计算代价昂贵的常规卷积,通道加权操作的计算复杂度与通道数成线性关系,而1x1卷积层计算过程的时间复杂度与通道数是二次关系。从并行分支的所有通道、所有分辨率学习加权值,采用得到的权值进行通道、分辨率之间的信息交换,补偿卷积所扮演的角色。
步骤S5还包括:Stage1子网络中包含了两个shuffle模块和一个fusion模块,fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
步骤S6还包括:Stage2子网络中包含了两个条件通道加权模块和一个fusion模块,fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
步骤S7还包括:Stage3子网络中包含了一个shuffle模块、一个条件通道加权模块和一个fusion模块,fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
步骤S8还包括:在网络的实际训练过程中,采用小批量随机梯度下降进行训练,其中batch size的大小设置为64,训练总轮次epoch值为100,输入数据集完整训练一遍称为一个epoch,可根据实际情况提前停止训练,在训练过程中随机失活率设置为0.5。在网络学习初期,即epoch<10的阶段,采用初始学习率0.01,让函数损失值尽快收敛;在网络学习中期,即10<epoch<40时,学习率衰减10%,变为0.001,从而更精细地对损失函数进行梯度下降来更新参数,防止落入局部最优点;到网络学习后期,即epoch>40时,损失函数已基本收敛,此时采用更小的学习率0.0001,对参数进行微调,避免学习率过大,网络发生震荡。
本发明的工作过程和原理是:本发明提供了一种基于关键点的轻量级目标检测方法,包括如下步骤:准备数据集,数据清洗、预处理以及数据增强;主干网络的设计;shuffle块设计;条件通道权重块设计;Stage1网络结构设计;Stage2网络结构设计;Stage3网络结构设计;合成网络对输入数据进行训练;本文所提出的网络通过并行多个分辨率分支,进行不同分支间的信息交互,增强语义信息和位置信息,类似于特征金字塔网络,本文网络实现了保持输入图像的高分辨率信息,通过不同分支网络的信息交互来补充由于特征图通道数变化带来的信息损耗。在网络中用深度可分离卷积取代常规卷积核,不仅解决了检测框误匹配的问题,改善了检测精度,还缩小了算法模型尺寸,提升了检测速度。
本发明所提供的一种基于关键点的轻量级目标检测方法,与传统技术相比,实践条件更宽松且性能更优越。采用回归关键点的方式来输出检测目标的位置与类别,从而降低了检测网络的参数量,网络反向传播过程中计算量降低。本文提出方法通过融合原图位置信息来增强无锚框检测过程中的目标位置信息,网络通过连续的卷积过程来提取深层网络信息,经过上采样,网络分支经过信息融合,从而避免浅层网络中信息的衰减。通过嵌入深度可分离卷积,将常规卷积分解为深度卷积,之后连接1x1卷积层,继续常规卷积过程,通过将网络中的部分常规卷积替换为深度可分离卷积来降低原始网络中的参数量。
图中,描述位置关系仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (9)
1.一种基于关键点的轻量级目标检测方法,其特征在于,包括如下步骤:
S1、准备数据集,数据清洗、预处理以及数据增强;
S2、主干网络的设计;
S3、shuffle块设计;
S4、条件通道权重块设计;
S5、Stage1网络结构设计;
S6、Stage2网络结构设计;
S7、Stage3网络结构设计;
S8、合成网络对输入数据进行训练。
2.根据权利要求1所述的基于关键点的轻量级目标检测方法,其特征在于,所述步骤S1具体包括:对收集到的数据样本进行清洗以及预处理,把大图裁剪到统一的尺寸大小,然后以0.2的概率进行水平翻转来增强训练集。
3.根据权利要求1所述的基于关键点的轻量级目标检测方法,其特征在于,所述步骤S2具体包括:主干网络中包含了一个卷积层和一个shuffle块,所述卷积层的卷积核大小为3×3,其中stride值为2,输入为256×256×3的输入图像,经过主干网络后输出特征图为64×64×32。
4.根据权利要求1所述的基于关键点的轻量级目标检测方法,其特征在于,所述步骤S3具体包括:shuffle块实现将输入特征图的通道分为两部分,其中一条分支包括1×1卷积层、3×3depthwise卷积层以及1×1卷积层,另一条分支两条支路融合特征,将低维和高维上不同表征的特征相融合,再输入到shuffle层,相互交换通道信息。
5.根据权利要求1所述的基于关键点的轻量级目标检测方法,其特征在于,所述步骤S4具体包括:条件通道权重模块实现将输入特征图的通道分为两部分,其中一条分支包括通道权重层、3×3depthwise卷积层以及通道权重层,另一条分支两条支路融合特征,将低维和高维上不同表征的特征相融合,再输入到shuffle层,相互交换通道信息。
6.根据权利要求1所述的基于关键点的轻量级目标检测方法,其特征在于,所述步骤S5具体包括:Stage1子网络中包含了两个shuffle模块和一个fusion模块,所述fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
7.根据权利要求1所述的基于关键点的轻量级目标检测方法,其特征在于,所述步骤S6具体包括:Stage2子网络中包含了两个条件通道加权模块和一个fusion模块,fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
8.根据权利要求1所述的基于关键点的轻量级目标检测方法,其特征在于,所述步骤S7具体包括:Stage3子网络中包含了一个shuffle模块、一个条件通道加权模块和一个fusion模块,fusion模块用于特征融合,将低维和高维上不同表征的特征相融合。
9.根据权利要求1所述的基于关键点的轻量级目标检测方法,其特征在于,所述步骤S8具体包括:
在网络的实际训练过程中,采用小批量随机梯度下降方法进行训练,其中batch size的大小设置为64,训练总轮次epoch值为100,在训练过程中随机失活率设置为0.5;在epoch<10的阶段,采用初始学习率0.01,让函数损失值尽快收敛;在10<epoch<40时,学习率衰减10%,变为0.001,从而更精细地对损失函数进行梯度下降来更新参数,防止落入局部最优点;到epoch>40时,损失函数已收敛,此时采用更小的学习率0.0001,对参数进行微调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860181.5A CN113486979A (zh) | 2021-07-28 | 2021-07-28 | 基于关键点的轻量级目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110860181.5A CN113486979A (zh) | 2021-07-28 | 2021-07-28 | 基于关键点的轻量级目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486979A true CN113486979A (zh) | 2021-10-08 |
Family
ID=77943289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110860181.5A Pending CN113486979A (zh) | 2021-07-28 | 2021-07-28 | 基于关键点的轻量级目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486979A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303152A (zh) * | 2014-07-15 | 2016-02-03 | 中国人民解放军理工大学 | 一种人体再识别方法 |
CN111666836A (zh) * | 2020-05-22 | 2020-09-15 | 北京工业大学 | M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法 |
CN112348036A (zh) * | 2020-11-26 | 2021-02-09 | 北京工业大学 | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112818862A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 基于多源线索与混合注意力的人脸篡改检测方法与系统 |
-
2021
- 2021-07-28 CN CN202110860181.5A patent/CN113486979A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303152A (zh) * | 2014-07-15 | 2016-02-03 | 中国人民解放军理工大学 | 一种人体再识别方法 |
CN111666836A (zh) * | 2020-05-22 | 2020-09-15 | 北京工业大学 | M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法 |
CN112348036A (zh) * | 2020-11-26 | 2021-02-09 | 北京工业大学 | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112818862A (zh) * | 2021-02-02 | 2021-05-18 | 南京邮电大学 | 基于多源线索与混合注意力的人脸篡改检测方法与系统 |
Non-Patent Citations (5)
Title |
---|
CHANGQIAN YU 等: "Lite-HRNet: A Lightweight High-Resolution Network", 《ARXIV:2104.06403》, pages 1 - 11 * |
NINGNING MA 等: "ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design", 《ARXIV:1807.11164》, pages 1 - 19 * |
ZHANG QING-LONG 等: "SA-Net: Shuffle Attention for Deep Convolutional Neural Networks", 《ICASSP 2021 - 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, pages 2235 - 2239 * |
ZHANG XIANGYU 等: "ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 6848 - 6856 * |
王宇龙: "《PyTorch深度学习入门与实战》", vol. 01, 30 September 2020, 中国铁道出版社, pages: 57 - 59 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021184891A1 (zh) | 遥感影像地物分类方法及系统 | |
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨系统 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN107609602A (zh) | 一种基于卷积神经网络的驾驶场景分类方法 | |
CN109558811B (zh) | 一种基于运动前景关注及非监督的关键帧提取的动作识别方法 | |
CN112686207B (zh) | 一种基于区域信息增强的城市街道场景目标检测方法 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN113065645B (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN112232351B (zh) | 一种基于深度神经网络的车牌识别系统 | |
CN112308087B (zh) | 基于动态视觉传感器的一体化成像识别方法 | |
CN110910413A (zh) | 一种基于U-Net的ISAR图像分割方法 | |
CN115116054B (zh) | 一种基于多尺度轻量级网络的病虫害识别方法 | |
CN112288776B (zh) | 一种基于多时间步金字塔编解码器的目标跟踪方法 | |
CN110706239A (zh) | 融合全卷积神经网络与改进aspp模块的场景分割方法 | |
CN114943893B (zh) | 一种土地覆盖分类的特征增强方法 | |
CN114022408A (zh) | 基于多尺度卷积神经网络的遥感图像云检测方法 | |
CN115862066A (zh) | 一种改进YOLOv5的轻量化社区场景下行人检测方法 | |
CN111626090A (zh) | 一种基于深度帧差卷积神经网络的运动目标检测方法 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
Zhu et al. | Towards automatic wild animal detection in low quality camera-trap images using two-channeled perceiving residual pyramid networks | |
CN113011308A (zh) | 一种引入注意力机制的行人检测方法 | |
CN114663769B (zh) | 一种基于YOLO v5的水果识别方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN115272670A (zh) | 一种基于掩膜注意交互的sar图像舰船实例分割方法 | |
CN116311186A (zh) | 一种基于改进Transformer模型的植物叶片病变识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |