CN111814884A - 一种基于可变形卷积的目标检测网络模型的升级方法 - Google Patents

一种基于可变形卷积的目标检测网络模型的升级方法 Download PDF

Info

Publication number
CN111814884A
CN111814884A CN202010664220.XA CN202010664220A CN111814884A CN 111814884 A CN111814884 A CN 111814884A CN 202010664220 A CN202010664220 A CN 202010664220A CN 111814884 A CN111814884 A CN 111814884A
Authority
CN
China
Prior art keywords
convolution
network
target detection
deformable
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010664220.XA
Other languages
English (en)
Inventor
孙俊
席威
吴豪
吴小俊
方伟
陈祺东
李超
游琪
冒钟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010664220.XA priority Critical patent/CN111814884A/zh
Publication of CN111814884A publication Critical patent/CN111814884A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于可变形卷积的目标检测网络模型的升级方法,属于神经网络图像处理领域。该方法可以将原本的网络模型参数继承给带有可变形卷积结构的网络模型,提升网络的特征提取能力,并经过少量的训练,得到比之前模型更好的结果。此方法在多个目标检测模型和多个目标检测数据集上得到了有效性证明。

Description

一种基于可变形卷积的目标检测网络模型的升级方法
技术领域
本发明属于神经网络图像处理领域,具体涉及一种基于可变形卷积的目标检测网络模型的升级方法。
背景技术
由于深度神经网络存在可以通过大量参数拟合并泛化数据集的能力,许多在非深度学习中无法解决或解决不好的问题,得以解决。尤其是在如今的计算机视觉领域中,由于卷积操作具有局部连接,权值共享等优势,使得以卷积操作为主的卷积神经网络在多项计算机视觉任务,例如检测、跟踪、语义分割、实例分割、姿态评估中取得了最好的结果的成绩。
目标检测任务的目的是判断在单张图片或者连续图片(视频)中,感兴趣的单个或者多个物体是否存在,如果存在,需要将感兴趣的单个或者多个物体的位置和大小确定。通常情况下我们使用一个矩形框来表示一个物体的位置和大小,矩形框的位置信息使用其左上角点和右下角点的坐标,共四个数字表示展示(也可以使用中心点坐标,长和宽表示)。
当研究人员已经拥有一项目标检测任务的基准算法(baseline)时,总是想通过一些方法得到进一步提升时候,研究人员常常选用的有如下几个方法:1)增加训练数据的质量和数量。深度学习模型由数据进行驱动,更好的数据增广方式,更多的数据可以使得模型学习到更加泛化的特征,得到更好的结果。2)采用更佳的参数优化方式,例如采用带有Moment参数的 SGD算法。3)更改网络结构,多尺度特征提取和尺度预测的网络结构等方法可以有效提升模型的容纳能力。4)选择其他的算法,新的算法可能会带来不同方面的提升。但是这些常用的方法往往不可避免去重新训练完整的模型,消耗大量的时间和计算资源,研究人员需要一个简单的,不需要完全重新训练,通用的,不大量增加网络参数的,易于实现的方法来增强网络的性能。
传统的卷积操作相比于全连接操作由于局部连接,权重共享的原因在欧几里得数据上拥有更好的优势,但是依然存在一些问题。1)传统的卷积只能依靠堆叠卷积模块或者扩大单次卷积操作卷积核的大小来得到更大的感受野,但这种操作在提高感受野的同时也带来了大量冗余的参数。虽然进一步可以采用空洞网络的方法,但是在哪里设置空洞网络,如何设置空洞网络的大小,这都是难以设计的,最终的结果往往是武断的。2)传统的卷积只能使用格点采样的方式对数据进行采样,但是数据的分布往往并不是在格点上的,比如圆形或者三角形的特征。
在计算机视觉领域中,由于物品的大小、姿态、关键点、部分形变等原因,如何对物体的几何形变进行更好的建模一直是一个未能妥善解决的问题。可变形卷积操作是传统卷积操作的一个扩展,相比于标准的卷积,它使用了格外的一次标准卷积操作引入了二维的偏置,来改变均匀的格点采样的位置,这使得标准的卷积可以学习到自由的形变信息,这不仅仅指的是形状的改变,同时也包括了感受野的范围的变化。这种偏置学习自输入当前可变形卷积的特征图,经过充分学习后不同的特征图上不同的位置都会针对当前卷积核产生不同的偏置信息。
常用的目标检测网络模型首先在ImageNet分类数据集训练得到一个分类网络,并将分类网络的特征提取网络部分为后续目标检测网络的主干网络(Backbone),然后在主干网络的基础上加入特征金字塔网络结构(FPN,Feature Pyramid Networks),作为检测网络的颈部网络(Neck),使主干网络提取的特征图经过进一步计算,得到不同尺度的特征,最后使用预测网络(Prediction)对目标检测的结果进行预测,此时得到的模型是一个全部由传统卷积结构组成的卷积神经网络。随后再在目标检测数据集上对网络模型训练,得到一个初步的目标检测模型。本发明基于可变形卷积操作中的偏置卷积结构可以学习到卷积核不规则采样偏置的特殊性质,提出了一种使用可变形卷积升级标准卷积网络的方法,该方法可以将原本的网络模型参数继承给带有可变形卷积结构的网络模型,提升网络的特征提取能力,并经过少量的训练,得到比之前模型更好的结果。此方法在多个目标检测模型和多个目标检测数据集上得到了有效性证明。
发明内容
本发明旨在提出一种使用可变形卷积提升现有网络效果的算法,用于提高传统卷积网络获取几何形变特征的能力。
本发明的技术方案:
一种基于可变形卷积的目标检测网络模型的升级方法,步骤如下:
步骤一、使用裁剪、调整亮度、饱和度、对比度的方法对分类数据集的图像进行增广。
进一步的,分类数据集为ImageNet数据集
步骤二、搭建分类网络。
进一步的,所述的分类网络为resnet-50网络或Darknet53网络;其中,resnet-50网络包括1个卷积核大小为7×7、步长为2的标准卷积层,4个卷积核大小为1×1、步长为2的标准卷积层,1个最大池化层,16个resnet模块,1个全局平均池化层和1个全连接层;每一个resnet模块由三层标准卷积层组成;Darknet53网络包括1个卷积核大小为3×3、步长为1的标准卷积层,4个卷积核大小为3×3、步长为2的标准卷积层,23个dakrnet模块,1个全局平均池化层,1个全连接层;其中每一个dakrnet模块由两层标准卷积层组成;卷积层将大小为256×256的输入缩放至8×8,经过全局平均池化后,使用全连接层进行分类;
Resnet-50网络结构
Figure RE-GDA0002636410550000031
Darknet53网络结构
Figure RE-GDA0002636410550000032
步骤三、在分类网络上对分类数据集进行训练,得到预训练模型。
进一步的,所述的步骤三中,训练时采用交叉熵损失作为损失函数,批次大小为120,输入模型图片大小为224*224*3,采用带有moment参数的SGD算法进行权重跟新,初始学习率大小为0.4,moment参数为0.9。在8个v100上进行训练,共计训练120轮,并在40轮和60轮时进行学习率衰减,学习率衰减系数为0.1,采用warmup的方式对学习率进行预热。
步骤四、使用裁剪、调整亮度、饱和度、对比度的方法对目标检测数据集进行增广。
步骤五、使用步骤三的预训练模型中主干网络部分提取增广后的目标检测数据集输入图片的特征。
步骤六、使用特征金字塔网络FPN(Feature Pyramid Network)对步骤五提取的特征图中的高分辨率特征进行优化。
步骤七、使用基于锚点方法(Anchor)对步骤四增广后的目标检测数据集标签(位置信息、类别信息)部分进行编码。
进一步的,所述的步骤七中,目标检测数据集为COCO目标检测数据集,共有80类,对不同物体框的类别标签使用one-hot方式进行编码,位置标签使用锚点框的方式进行编码。
步骤八、使用SmoothL1损失计算模型输出位置信息与标签的位置信息损失,使用交叉熵损失计算模型输出类别信息与标签的类别信息损失,并将两者相加作为总共的损失。
步骤九、使用带有moment参数的SGD优化方法对损失进行反向传播,训练得到原始目标检测网络模型,记为S(x)。
进一步的,所述的步骤九中,输入模型图片大小为512*512*3,采用带有moment参数的 SGD算法进行权重跟新,初始学习率大小为0.001,moment参数为0.9。在4个v100上进行训练,共计训练240轮,并在160轮和200轮时进行学习率衰减,学习率衰减系数为0.1。
步骤十、在原始目标检测网络模型S(x)中,选择需要升级的m个标准卷积层,记为CS= {Cs1,Cs2,…,Csm}。
对于单一的标准卷积层,在p0点输出特征图值y(p0):
Figure RE-GDA0002636410550000041
其中w表示权重,x表示输入特征图,p0表示卷积核的采样中心点,pn表示卷积核在规则格点上的采样偏置,pn属于
Figure RE-GDA0002636410550000042
在卷积核大小为3×3的卷积操作中,
Figure RE-GDA0002636410550000043
步骤十一、新建一个可变形卷积模型,记为D(x),此模型的非可变形卷积部分与S(x)相同,可变形卷积部分参数与S(x)中对应的标准卷积部分参数相同。
对于可变形卷积网络,在p0点输出特征图值y(p0):
Figure RE-GDA0002636410550000051
卷积操作在进行采样时从添加上偏移值的不规则位置pn+Δpn进行采样,由于Δpn为小数,所以通过如式(4)的双线性插值采样。其中p代表任意的采样位置,如式(5)所示。q枚举特征图 x中所有的位置,x(p)表示p点坐标在特征图上的值。G(·,·)表示一个二维双线性插值核,如式 (6)所示,它被分割成两个一维的核,且g(a,b)=max(0,1-|a-b|)。
Figure RE-GDA0002636410550000052
p=p0+pn+Δpn (5)
G(q,p)=g(qx,px)·g(qy,py) (6)
其中,qx,px,qy,py分别表示插值点q,p的横纵坐标值。
步骤十二、在可变形卷积模型D(x)中,选择需要升级的m个标准卷积层,记为CD={CD1,CD2,…,CDm}。
步骤十三、初始化可变形卷积模型D(x),其中标准卷积部分参数使用原始目标检测网络模型S(x)中的参数初始化D(x)对应层的参数,可变形卷积部分CD中的偏置卷积Offset使用零值初始化,卷积权重使用CS中对应卷积权重进行初始化。
对于升级的可变形卷积层如式(8),(9),其中D(finput,offset,W,bias)为可变形卷积中的根据偏置位移进行卷积的操作。
offset=woffset×finput (8)
foutput=D(finput,offset,W,bias) (9)
其中,此时采样偏置权重woffset=0,即采样偏置矩阵offset=0,即可变形卷积中相对于规则格点采样点的偏置量Δpn都为0,此时可变形卷积退化为标准卷积,finput表示输入特征图,foutput表示输出特征图,W表示卷积权重,bias表示卷积偏置。
步骤十四、采用升级后的可变形卷积模型D(x)按照步骤五至步骤九的方法对模型进行训练;其中:对于偏置参数Δpn的梯度计算方法如式(7),其中Δpn是一个二维变量,为了简单起见,使用
Figure RE-GDA0002636410550000055
代替
Figure RE-GDA0002636410550000053
Figure RE-GDA0002636410550000054
Figure RE-GDA0002636410550000061
进一步的,针对类别的损失函数采用的是交叉熵损失,计算公式如下:
Figure RE-GDA0002636410550000062
其中,N表示采样数,x表示采样点,y表示标签真实值,
Figure RE-GDA0002636410550000063
表示模型预测值;
进一步的,针对位置的损失函数采用的是SmoothL1损失,计算公式如下:
Figure RE-GDA0002636410550000064
Figure RE-GDA0002636410550000065
观测指标主要是mAP(meanAveragePrecision)值。
(1)Precision=TP/(TP+FP)
(2)Recall=TP/(TP+FN)
其中TP的数值表示检测出目标为正确的个数;FP数值表示检测出目标为错误的个数; FN数值表示未检测出正确目标的个数。
本发明的有益效果:本发明提出了一种在原有网络基础上,使用可变形卷积进行升级的方法。
(1)克服了重新训练的可变形卷积网络难以收敛的缺点;(2)升级后的网络完全继承原有网络特征提取和预测的能力;(3)再经过少量的训练,可以达到比原本网络更好的效果。
附图说明
图1为可变形卷积前向传播与反向传播对比实验结果示意图,其中(a)为resnet-50中 stage2_conv8模块中使用标准卷积和可变形卷积的前向传播和反向传播时间开销对比,(b) 为resnet-50中stage4_conv8模块中使用标准卷积核可变形卷积的前向传播和反向传播时间开销对比。
图2为可变形卷积不同batchsize对比实验结果示意图,其中(a)为resnet-50中stage4_conv8模块中使用可变形卷积时,不同batchsize大小的情况下迭代次数和总时间开销的折线图,(b)为resnet-50中stage4_conv8模块中使用可变形卷积时,不同batchsize大小与每个迭代平均时间开销的折线图。
图3为可变形卷积不同输入特征图大小对比实验结果示意图,其中(a)为resnet-50中 stage4_conv8模块中使用可变形卷积时,不同特征图大小的情况下迭代次数和总时间开销的折线图,(b)为resnet-50中stage4_conv8模块中使用可变形卷积时,不同特征图大小与每个迭代平均时间开销的折线图。
图4为可变形卷积不同通道数对比实验结果示意图,其中(a)为resnet-50中stage4_conv8 模块中使用可变形卷积时,不同通道数量的情况下迭代次数和总时间开销的折线图,(b)为 resnet-50中stage4_conv8模块中使用可变形卷积时,不同通道数量与每个迭代平均时间开销的折线图。
图5为可变形卷积不同卷积核大小实验结果示意图,其中(a)为resnet-50中stage4_conv8 模块中使用可变形卷积时,不同卷积核大小的情况下迭代次数和总时间开销的折线图,(b) 为resnet-50中stage4_conv8模块中使用可变形卷积时,不同卷积核大小与每个迭代平均时间开销的折线图。
图6为不同训练方法mAP@0.5实验结果。
图7为不同位置引入可变形卷积的mAP@0.5实验结果。
具体实施方式
下面将结合具体实施例对本发明的技术方案进行进一步的说明。
不同参数对可变形卷积操作的影响:
一个可变形2D卷积得益于更加自由的采样,在参数数量增加不多的情况下,在提取特征上比标准2D卷积更加强大。由于计算方式的改变,每次采样时都需要额外地计算偏移值,所以产生更多的时间消耗。我们以Resnet-50主干网络中的stage4_conv8层作为参照,通过不同的试验验证不同因素对可变形卷积的影响。以下试验都在硬件环境为Intel(R)Xeon(R)CPU E5-2650 v4@2.20GHz,NVIDIATeslaK80 12GB,软件环境为LINUX 16.04,深度学习环境为 MXNET上运行。
(一)前向传播与反向传播
我们选择resnet-50中stage2_conv8和stage4_conv8两层来测试标准卷积和可变形2D卷积在正向传播和反向传播上的时间消耗。对于常见的检测或者分割网络,输入为512x512像素的图片,batchsize为8时,在stage2_conv8层输入为(1,128,64,64),输出为(1,128,64,64), stage2_conv8卷积核大小为3,在stage4_conv8层输入为(1,512,16,16),输出为(1,512,16,16), stage2_conv8卷积核大小为3,这两种情况分别代表了在网络浅层时小通道数量,大特征图和在网络深层时大通道数量,小特征图的情况。
对于100次迭代的训练过程,我们统计了推断和训练时,在resnet-50中stage2_conv8和 stage4_conv8两层的时间消耗,其中训练过程使用的优化算法为SGD,且包含正向传播和反向传播过程。对消耗的时间使用最小二乘法进行线性拟合,得到斜率为单次迭代的时间消耗。根据实验表明,在推断过程中,即正向传播过程,可变形卷积时间消耗约是标准卷积的1.35 倍。在学习过程中,即反向传播过程,可变形卷积时间消耗是标准卷积的4倍,实验结果如图1所示,stand表示标准卷积,defor表示可变形卷积,fp表示正向传播,bp表示反向传播,具体时间开销如表1所示。
表1可变形卷积前向传播与反向传播对比实验耗时结果
Figure RE-GDA0002636410550000081
(二)batchsize大小
batchsize的大小通常被硬件所限制,在推断或训练的过程中,往往由于显存的大小我们不得不减少batchsize的大小以使得推断或者训练的大小可以正常完成。同一批次的数据通过 batchnorm进行通信,但是通信的开销是极小的。实验结果如图2所示,fp1表示batchsize为 1的正向传播,结果表明可变形卷积的时间开销与batchsize大小成正比。
(三)特征图大小
在网络的不同位置引入可变形卷积最大的差异在于特征图和通道数量的不同,一般情况下在网络的浅层特征图长宽比较大,但通道数量比较少,在网络的较深层,特征图长宽比较小,通道数量比较多。分别测试了通道数量为512,特征图长宽分别为4×4,8×8,16×16, 32×32,64×64,128×128的情况。实验结果如图3所示,fm4表示特征图大小为4x4,结果表明可变形卷积的时间开销与特征图长宽大小成正比。
(四)通道数
不同通道数量的权重对速度的影响,可以决定了我们在网络的哪个部分引入神经网络。分别测试了特征图大小为16x16,通道数量分别为16,32,64,128,256,512,1024的情况。实验结果如图4所示,结果表明可变形卷积的时间开销在通道数量为64时,时间开销最小。这可能与不同深度学习框架卷积层底层实现有关。
(五)卷积核大小
不同卷积核的大小对速度必然产生影响,显而易见,越大的卷积核需要越多的计算量,产生更多的时间消耗。通常情况下我们常使用3x3的卷积核,但是也会使用1x1的卷积核用于压缩通道信息,减少计算量。更大的卷积核,例如5×5,7×7可以用于网络最浅层用于压缩特征图的同时获取更大的感受野,以上不同的卷积在Inception结构中也可以复合使用,搭建Inception模块。实验结果如图5所示,kernel_1x1表示卷积核大小为1×1,根据实验表明,可变形卷积的时间开销与卷积核采样点的数量成正比。
(六)总结
可变形卷积网络训练的时间要远远大于标准可卷积网络,我们可以在标准卷积神经网络的基础加入引入少量可变形卷积模块。根据实验结果,建议在网络较深层,通道数量大于某个阈值(以MXNET深度学习框架为例,为64),卷积核大小较小时,引入可变形卷积网络。
不同训练方法对可变形卷积网络的影响
本文在PASCALVOC数据集上使用VOC2012trainval数据集,VOC2007trainvcal数据集作为训练集,VOC2007test数据集作为验证集。采用以Resnet50作为特征抽取网络的SSD模型进行训练。我们分别采用了并使用三种实验方式进行训练并对mAP@0.5指标与训练损失对比,实验参数如表2所示。
表2不同训练方法的参数
Figure RE-GDA0002636410550000091
第一次实验中网络的前半部为经过ImageNet数据集预训练的Resnet-50特征抽取网络,后半部位为重新初始化的SSD检测模块,全部卷积层都为标准卷积。第二次实验中网络的前半部为ImageNet预训练的Resnet-50特征抽取网络,但是把特征抽取网络的最后三个卷积模块替换为重新初始化的可变形卷积模块,后半部分依然为重新初始化的SSD检测模块。
第三次实验中使用第一次训练出来的网络作为初始化的网络,将特征导出网络的最后三个卷积模块升级为可变形卷积模块,即网络的网络结构与第二次实验中的相同,进行训练之前,相同的输入得到的结果与第一次实验结果相同。
三次试验训练方式均为moment为0.8的SGD算法,且初始学习率为10e-3。
实验结果如图6所示,从实验结果上我们可以发现,使用基线模型升级后的网络进行训练,所消耗的时间远小于重新训练后的网络,并且模型的效果也达到了完全重新训练后的网络。
对于一个我们已经训练成功的网络来说,将标准卷积模块升级为可变形卷积模块进行训练远远比对一个重新搭建一个相同结构的可变形卷积网络更加方便,快捷。
从图6中我们还可以发现,实验三最开始的几个epoch,任务的度量指标迅速降低,然后再缓缓提升至之前的水平,是什么样的原因导致这样的结果呢。当正向传播时,深度神经网络的特征图数值严重依靠之前层的权重,当我们更改深度神经网络中间某一层权重数值时,网络更深层的特征图会随之而变化,导致网络性能变差。由于当前层的输出为权重与前一层的输出的特征图相乘,当我们在网络的越浅层更改,所观测的特征图与更改权重位置之间的距离越长,其结果与原网络之间的差异越大。我们在将部分标准卷积神经网络升级为可变形卷积后,再对网络进行微调,可能由于前面部分的可变形卷积经过学习之后,产生了与后面部分的标准卷积层不匹配的特征,导致这些层的参数也需要经过的训练进行学习。
不同位置引入可变形卷积对结果的影响
在深度神经网络中,很难区分某一个充分学习的卷积层的作用是提取上一层的特征还是组合上一层的特征,抑或是两者在这里是同一个概念。相比于标准卷积,可变形卷积的优点在于可以通过学习卷积的采样点偏置信息在不规则形变,多尺度等挑战下获取更好更好的特征信息。但是可变形卷积存在的缺点在于反向传播的速度慢,完全重新学习一个具有可变形卷积结构的网络需要消耗大量的资源。
通过本文提出的方法对标准卷积网络进行升级,不仅可以复用现有网络的参数,并且可在标准卷积网络任意地方对网络进行升级,大大降低使用可变形卷积模块带来的额外的资源消耗。
如此便捷的方法同时也带来了另一个令人烦恼的问题,在何处引入可变形卷积模块。为了验证在网络的何处进行升级,可以更好的效果,我们分别在网络的主干网络之后,检测模块路由处,检测模块头部,这三个具有代表性的位置上,将标准卷积升级为可变形卷积,并对比实验的结果,实验结果如图7所示。
理论上,在浅层引用可变形卷积,会让更多的卷积层受益于更好的特征输入,从而带来更好的效果。在深层使用可变形卷积,会让更少的卷积层重新适应新的特征,从而减少微调的时间消耗。但是在实验结果上,三种方式在时间和精度上相差不大。更好和更快在深度学习领域一直是一个值得探究的问题,本文采取一种折中的方案:在网络最后输出特征的路由路径上引入可变形卷积。
在PASCALVOC2012上的检测任务
根据常用的VOC2012数据集标准的检测任务评估方法,我们使用VOC2012trainval数据集,VOC2007trainvcal数据集进行训练或进行微调,并在VOC2007test数据集上进行验证,使用IoU(Intersection over Union)阈值为0.5mean Average Precision(mAP)指标来评测模型的好坏。对于SSD模型,我们使用学习率为0.01,总共训练240轮,并在160和200次epoch 时对学习率进行衰减,衰减系数为0.1。训练流程在4个K80计算节点上运行,每个batchsize 大小为32。对于网络模型的后处理阶段后,采用阈值为0.45的非极大值抑制算法 (Non-Maximum Suppression,NMS)。对于YOLO3模型总共训练200轮,并在160,180轮进行权重衰减。
在通过训练得到原始网络模型后,我们将网络中的特征导出网络最后三个卷积模块升级为可变形卷积,使用学习率为0.01,总共训练60轮,并在40和50次epoch时对权重进行衰减,衰减系数为0.1。下图展示了ssd和yolov3模型和不同原始网络训练方的情况下的结果。
在微调过程中,我们只训练之前轮次的四分之一轮次。并在总训练轮次三分之二和六分之五对学习率进行衰减,结果如表3所示。
表3使用可变形卷积升级后的网络在VOC数据集上目标检测结果
Figure RE-GDA0002636410550000111
Figure RE-GDA0002636410550000121
在COCO上的检测任务
根据常用的COCO数据集标准的检测任务评估方法,我们使用COCOtrain2017数据集进行训练或进行微调,并在COCOval2017数据集上进行验证,分别使用IoU(Intersectionover Union)阈值为0.5:0.95,0.5,0.75的Average Precision(AP)指标来评测模型的好坏。对于SSD模型,我们使用学习率为0.01,总共训练240轮,并在160和200次epoch时对学习率进行衰减,衰减系数为0.1。训练流程在4个K80计算节点上运行,每个batchsize大小为32。对于网络模型的后处理阶段后,采用阈值为0.45的非极大值抑制算法(Non-MaximumSuppression,NMS)。对于YOLO3模型总共训练280轮,并在220,250轮进行权重衰减。
在通过训练得到原始网络模型后,使用与4.2.1相同的处理方式,我们将网络中的特征导出网络最后三个卷积模块升级为可变形卷积,使用学习率为0.01,总共训练60轮,并在40 和50次epoch时对权重进行衰减,衰减系数为0.1。
所有升级后的网络都展现出比原网络更好的效果,表4展示了ssd和yolov3模型和不同原始网络训练方的情况下的结果。
表4使用可变形卷积升级后的网络在COCO数据集上目标检测结果
Figure RE-GDA0002636410550000122
Figure RE-GDA0002636410550000131

Claims (8)

1.一种基于可变形卷积的目标检测网络模型的升级方法,其特征在于,步骤如下:
步骤一、使用裁剪、调整亮度、饱和度、对比度的方法对分类数据集的图像进行增广;
步骤二、搭建分类网络;
步骤三、在分类网络上对分类数据集进行训练,得到预训练模型;
步骤四、使用裁剪、调整亮度、饱和度、对比度的方法对目标检测数据集进行增广;
步骤五、使用步骤三的预训练模型中主干网络部分提取增广后的目标检测数据集输入图片的特征;
步骤六、使用特征金字塔网络FPN对步骤五提取的特征图中的高分辨率特征进行优化;
步骤七、使用基于锚点方法对步骤四增广后的目标检测数据集标签部分进行编码,目标检测数据集标签部分包括位置信息和类别信息;
步骤八、使用SmoothL1损失计算模型输出位置信息与标签的位置信息损失,使用交叉熵损失计算模型输出类别信息与标签的类别信息损失,并将两者相加作为总共的损失;
步骤九、使用带有moment参数的SGD优化方法对损失进行反向传播,训练得到原始目标检测网络模型,记为S(x);
步骤十、在原始目标检测网络模型S(x)中,选择需要升级的m个标准卷积层,记为CS={Cs1,Cs2,…,Csm};
对于单一的标准卷积层,在p0点输出特征图值y(p0):
Figure RE-FDA0002636410540000011
其中w表示权重,x表示输入特征图,p0表示卷积核的采样中心点,pn表示卷积核在规则格点上的采样偏置,pn属于
Figure RE-FDA0002636410540000012
在卷积核大小为3×3的卷积操作中,
Figure RE-FDA0002636410540000013
步骤十一、新建一个可变形卷积模型,记为D(x),此模型的非可变形卷积部分与S(x)相同,可变形卷积部分参数与S(x)中对应的标准卷积部分参数相同;
对于可变形卷积网络,在p0点输出特征图值y(p0):
Figure RE-FDA0002636410540000014
卷积操作在进行采样时从添加上偏移值的不规则位置pn+Δpn进行采样,由于Δpn为小数,所以通过如式(4)的双线性插值采样;其中p代表任意的采样位置,如式(5)所示;q枚举特征图x中所有的位置,x(p)表示p点坐标在特征图上的值;G(·,·)表示一个二维双线性插值核,如式(6)所示,它被分割成两个一维的核,且g(a,b)=max(0,1-|a-b|);
Figure RE-FDA0002636410540000021
p=p0+pn+Δpn (5)
G(q,p)=g(qx,px)·g(qy,py) (6)
其中,qx,px,qy,py分别表示插值点q,p的横纵坐标值;
步骤十二、在可变形卷积模型D(x)中,选择需要升级的m个标准卷积层,记为CD={CD1,CD2,…,CDm};
步骤十三、初始化可变形卷积模型D(x),其中标准卷积部分参数使用原始目标检测网络模型S(x)中的参数初始化D(x)对应层的参数,可变形卷积部分CD中的偏置卷积Offset使用零值初始化,卷积权重使用CS中对应卷积权重进行初始化;
对于升级的可变形卷积层如式(8),(9),其中D(finput,offset,W,bias)为可变形卷积中的根据偏置位移进行卷积的操作;
offset=woffset×finput (8)
foutput=D(finput,offset,W,bias) (9)
其中,此时采样偏置权重woffset=0,即采样偏置矩阵offset=0,即可变形卷积中相对于规则格点采样点的偏置量Δpn都为0,此时可变形卷积退化为标准卷积,finput表示输入特征图,foutput表示输出特征图,W表示卷积权重,bias表示卷积偏置;
步骤十四、采用升级后的可变形卷积模型D(x)按照步骤五至步骤九的方法对模型进行训练;其中:对于偏置参数Δpn的梯度计算方法如式(7),其中Δpn是一个二维变量,为了简单起见,使用
Figure RE-FDA0002636410540000022
代替
Figure RE-FDA0002636410540000023
Figure RE-FDA0002636410540000024
Figure RE-FDA0002636410540000025
2.根据权利要求1所述的一种基于可变形卷积的目标检测网络模型的升级方法,其特征在于,所述的步骤一中,分类数据集为ImageNet数据集。
3.根据权利要求1所述的一种基于可变形卷积的目标检测网络模型的升级方法,其特征在于,所述步骤二中,分类网络为resnet-50网络或Darknet53网络;其中,resnet-50网络包括1个卷积核大小为7×7、步长为2的标准卷积层,4个卷积核大小为1×1、步长为2的标准卷积层,1个最大池化层,16个resnet模块,1个全局平均池化层和1个全连接层;每一个resnet模块由三层标准卷积层组成;Darknet53网络包括1个卷积核大小为3×3、步长为1的标准卷积层,4个卷积核大小为3×3、步长为2的标准卷积层,23个dakrnet模块,1个全局平均池化层,1个全连接层;其中每一个dakrnet模块由两层标准卷积层组成;卷积层将大小为256×256的输入缩放至8×8,经过全局平均池化后,使用全连接层进行分类。
4.根据权利要求1所述的一种基于可变形卷积的目标检测网络模型的升级方法,其特征在于,所述的步骤三中,训练时采用交叉熵损失作为损失函数,批次大小为120,输入模型图片大小为224*224*3,采用带有moment参数的SGD算法进行权重跟新,初始学习率大小为0.4,moment参数为0.9;在8个v100上进行训练,共计训练120轮,并在40轮和60轮时进行学习率衰减,学习率衰减系数为0.1,采用warmup的方式对学习率进行预热。
5.根据权利要求1所述的一种基于可变形卷积的目标检测网络模型的升级方法,其特征在于,所述的步骤七中,目标检测数据集为COCO目标检测数据集,共有80类,对不同物体框的类别标签使用one-hot方式进行编码,位置标签使用锚点框的方式进行编码。
6.根据权利要求1所述的一种基于可变形卷积的目标检测网络模型的升级方法,其特征在于,所述的步骤九中,输入模型图片大小为512*512*3,采用带有moment参数的SGD算法进行权重跟新,初始学习率大小为0.001,moment参数为0.9;在4个v100上进行训练,共计训练240轮,并在160轮和200轮时进行学习率衰减,学习率衰减系数为0.1。
7.根据权利要求1所述的一种基于可变形卷积的目标检测网络模型的升级方法,其特征在于,针对类别的损失函数采用的是交叉熵损失,计算公式如下:
Figure RE-FDA0002636410540000031
其中,N表示采样数,x表示采样点,y表示标签真实值,
Figure RE-FDA0002636410540000032
表示模型预测值。
8.根据权利要求1所述的一种基于可变形卷积的目标检测网络模型的升级方法,其特征在于,针对位置的损失函数采用的是SmoothL1损失,计算公式如下:
Figure RE-FDA0002636410540000033
Figure RE-FDA0002636410540000034
观测指标是mAP值;
(1)Precision=TP/(TP+FP)
(2)Recall=TP/(TP+FN)
其中TP的数值表示检测出目标为正确的个数;FP数值表示检测出目标为错误的个数;FN数值表示未检测出正确目标的个数。
CN202010664220.XA 2020-07-10 2020-07-10 一种基于可变形卷积的目标检测网络模型的升级方法 Pending CN111814884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010664220.XA CN111814884A (zh) 2020-07-10 2020-07-10 一种基于可变形卷积的目标检测网络模型的升级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010664220.XA CN111814884A (zh) 2020-07-10 2020-07-10 一种基于可变形卷积的目标检测网络模型的升级方法

Publications (1)

Publication Number Publication Date
CN111814884A true CN111814884A (zh) 2020-10-23

Family

ID=72842786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010664220.XA Pending CN111814884A (zh) 2020-07-10 2020-07-10 一种基于可变形卷积的目标检测网络模型的升级方法

Country Status (1)

Country Link
CN (1) CN111814884A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529095A (zh) * 2020-12-22 2021-03-19 合肥市正茂科技有限公司 一种基于卷积区域重配准的单阶段目标检测方法
CN113283541A (zh) * 2021-06-15 2021-08-20 无锡锤头鲨智能科技有限公司 一种地板自动分选方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529095A (zh) * 2020-12-22 2021-03-19 合肥市正茂科技有限公司 一种基于卷积区域重配准的单阶段目标检测方法
CN113283541A (zh) * 2021-06-15 2021-08-20 无锡锤头鲨智能科技有限公司 一种地板自动分选方法
CN113283541B (zh) * 2021-06-15 2022-07-22 无锡锤头鲨智能科技有限公司 一种地板自动分选方法

Similar Documents

Publication Publication Date Title
CN107679477B (zh) 基于空洞卷积神经网络的人脸深度和表面法向量预测方法
CN107358293B (zh) 一种神经网络训练方法及装置
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
JPH06150000A (ja) 画像クラスタリング装置
CN109741341B (zh) 一种基于超像素和长短时记忆网络的图像分割方法
CN110717953B (zh) 基于cnn-lstm组合模型的黑白图片的着色方法和系统
CN108510013B (zh) 基于低秩核心矩阵的改进稳健张量主成分分析的背景建模方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
US20230043026A1 (en) Learning-based active surface model for medical image segmentation
CN108765322B (zh) 图像去噪方法及装置
CN111382616B (zh) 视频分类方法、装置及存储介质、计算机设备
CN107506792B (zh) 一种半监督的显著对象检测方法
CN113822284B (zh) 一种基于边界注意力的rgbd图像语义分割方法
CN113177592B (zh) 一种图像分割方法、装置、计算机设备及存储介质
WO2023024406A1 (zh) 数据蒸馏的方法、装置、设备、存储介质、计算机程序及产品
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN110809126A (zh) 一种基于自适应可变形卷积的视频帧插值方法及系统
CN111223128A (zh) 目标跟踪方法、装置、设备及存储介质
CN111814884A (zh) 一种基于可变形卷积的目标检测网络模型的升级方法
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN112364747A (zh) 一种有限样本下的目标检测方法
CN112257727A (zh) 一种基于深度学习自适应可变形卷积的特征图像提取方法
CN114529793A (zh) 一种基于门控循环特征融合的深度图像修复系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination