CN111783685A - 一种基于单阶段网络模型的目标检测改进算法 - Google Patents

一种基于单阶段网络模型的目标检测改进算法 Download PDF

Info

Publication number
CN111783685A
CN111783685A CN202010636213.9A CN202010636213A CN111783685A CN 111783685 A CN111783685 A CN 111783685A CN 202010636213 A CN202010636213 A CN 202010636213A CN 111783685 A CN111783685 A CN 111783685A
Authority
CN
China
Prior art keywords
layer
feature
algorithm
detection
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010636213.9A
Other languages
English (en)
Inventor
王燕妮
刘祥
翟会杰
余丽仙
孙雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Publication of CN111783685A publication Critical patent/CN111783685A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单阶段网络模型的目标检测改进算法,该方法使用深度残差网络Resnet‑50对原算法中基础网络VGG‑16进行替换,并且使用了7层特征层用于对目标进行检测;结合反卷积与特征融合,对提取出的高层特征层与底层特征层进行融合,融合形成的新特征层中同时包含了丰富的上下文信息,用以提高检测能力;设计更密集的检测框用于对目标进行检测,同时在算法中每个卷积层后添加批规范化操作来提高模型训练速度,防止过拟合,达到提高算法检测能力的效果。能够改善误检、漏检等问题,满足提高检测能力的需求。

Description

一种基于单阶段网络模型的目标检测改进算法
技术领域
本发明属于数字图像处理领域,涉及目标检测,特别涉及一种基于单阶段网络模型的目标检测改进算法。
背景技术
目标检测是计算机视觉领域中一个非常重要的研究问题,其任务可以分为两个,第一个是对输入目标的类别及置信度进行判别;第二个是对输入目标的位置进行检测,即“识别”和“定位”。它也是进行场景内容理解等高级视觉任务的前提,并应用于红外探测技术、智能视频监控、遥感影像目标检测和医疗诊断等任务中。目标检测算法发展至今,可以分为两类,一类是传统的目标检测算法,另一类是基于深度学习的目标检测算法。传统目标检测算法的典型算法有SIFT算法和V-J检测算法等,但滑动窗口的候选区域提取方法没有较好的针对性,时间复杂度高且产生很多冗余框;同时提取出的特征多围绕底层特征,鲁棒性较差。基于深度学习的目标检测算法根据是否有产生候选区域的机制分为两阶段目标检测算法和单阶段目标检测算法,其典型算法有R-CNN算法,Faster R-CNN算法,YOLO算法,SSD算法等。虽然现阶段有很多优秀的目标检测算法,但检测性能仍有很多不足,从而导致出现漏检、误检等问题。
发明内容
针对上述现有技术存在的缺陷或不足,本发明的目的在于,提供一种基于单阶段网络模型的目标检测改进算法。
为了实现上述任务,本发明采取如下的技术解决方案:
一种基于单阶段网络模型的目标检测改进算法,其特征在于,包括以下步骤:
步骤1),使用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16进行替换,替换后将Resnet-50的全连接层移除,并在移除全连接层后的Resnet-50网络添加三层卷积层;通过卷积、池化操作对输入图像进行处理,得到尺寸依次减小的多尺度特征层,其中:
尺寸大的特征层为底层特征层,用于对输入图像中的小尺度目标进行检测;
尺寸小的特征层为高层特征层,用于对输入图像中的中、大尺度目标进行检测;
将原始SSD算法的基础网络修改为深度残差网络Resnet-50,采用2层底层特征层和5层高层特征层用于检测;
步骤2),通过反卷积操作,对步骤1)中用于目标检测的高层特征层进行放大,与底层特征层进行融合,融合后的特征层包含了语义信息,又包含了细节信息;
步骤3),设计更密集的检测框用于对目标进行检测,同时在算法中对每个卷积层后添加批规范化操作来提高模型训练速度,防止过拟合。
根据本发明,步骤1)中所述输入图像尺寸为224×224;所述2层底层特征层的尺寸分别为56×56、28×28;所述5层高层特征层的尺寸分别为14×14、7×7、5×5、3×3、1×1;对尺寸较小的高层特征层进行反卷积操作,放大该高层特征层的尺寸,并通过特征融合,将其与尺寸较大的底层特征层进行融合。
进一步地,步骤3)中对步骤1)及步骤2)中提取出的底层特征层和高层特征层,共提取17340个框进行检测。
优选的,具体的检测算法过程如下:
a)利用回归的思想,直接通过一个卷积神经网络在输入图像上回归出目标的类别及边框,首先使用深度残差网络Resnet-50对原算法中基础网络VGG-16进行替换,移除Resnet-50原本的全连接层,并且在移除全连接层后的Resnet-50网络后添加三层卷积层;
由于算法中底层特征层未经过大量卷积池化操作,拥有丰富的细节信息,而高层特征层则拥有更丰富的语义信息,故底层特征图用于对小目标进行检测,高层特征图用于对中、大目标进行检测,算法在深度残差网络Resnet-50提取4层特征层、新增的3层卷积层也作为提取的特征层用于目标检测;
b)结合反卷积与特征融合,对不同层次的特征层进行融合,反卷积公式为:
d=s(i-1)+k-2p (1)
式中,d为反卷积输出特征层,s为步长,i为输入特征层,k为卷积核尺寸,p为填充;
通过反卷积操作,将高层特征层中丰富的语义信息映射到底层特征层中,使底层特征层在拥有大量细节信息同时拥有足够的语义信息,增强网络的辨识度;
c)所提取出的用于目标检测的7层特征层,在每个单元设置不同尺寸、长宽比的检测框,对于候选框的尺度,按如下公式(2)进行计算:
Figure BDA0002568573460000031
式中,m代表特征层的个数;sk表示候选框与图片的比例;smax和smin代表比例的最大值和最小值,smax取值为0.9,smin取值为0.2;利用上述公式(2)得到各个候选框的尺度;
对于长宽比,一般取值为
Figure BDA0002568573460000041
且按照如下公式(3)对候选框的宽度
Figure BDA0002568573460000042
及高度
Figure BDA0002568573460000043
进行计算:
Figure BDA0002568573460000044
对于宽高比为1的候选框,还增加一个尺度为
Figure BDA0002568573460000045
的候选框,该候选框的中心坐标为:
Figure BDA0002568573460000046
其中|fk|代表特征层的大小;
d)使用3×3卷积核通过卷积操作对特征层的类别及置信度进行检测,并对检测模型进行训练,检测模型进行训练时,损失函数定义为位置损失(localization loss,loc)和置信度损失(confidence loss,conf)的加权和,计算公式如下式(4)所示:
Figure BDA0002568573460000047
式中,N为匹配的候选框的数量;x∈{1,0}表示候选框是否与真实框匹配,若匹配,则x=1,反之x=0;c为类别置信度预测值;g为真实框的位置参数;l为预测框的位置预测值;α权重系数,设置为1;
对于SSD中的位置损失函数,采用Smooth L1 loss,对候选框的中心(cx,cy)及宽度(w)、高度(h)的偏移量进行回归。公式如下:
Figure BDA0002568573460000051
Figure BDA0002568573460000052
Figure BDA0002568573460000053
对于SSD中的置信度损失函数,使用典型的softmax loss,其公式为:
Figure BDA0002568573460000054
本发明的基于单阶段网络模型的目标检测改进算法,以SSD算法为基础,在对输入图像进行特征层提取时考虑到特征图分辨率的大小以及特征提取网络深度对检测性能的影响,对算法的基础网络进行替换,使用深度残差网络Resnet-50对原始算法中基础网络VGG-16进行替换,并选择7层特征层对目标进行检测,结合反卷积与特征融合,对提取出的高层特征层与底层特征层进行融合并设计更密集的检测框来提高检测能力,同时在算法中卷积层后添加批规范化操作,加速了训练模型的速度也有效防止了过拟合现象。
附图说明
图1是用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16替换后的提取网络结构示意图;
图2是原始SSD算法与改进后的目标检测算法检测效果对比图片,其中,(a)图、(c)图、(e)图、(g)图、(i)图、(k)图是原始SSD算法检测图片;(b)图、(d)图、(f)图、(h)图、(j)图、(l)图是目标检测算法检测图片;
以下结合附图和实施例对本发明做进一步详细描述。
具体实施方式
本发明的基于单阶段网络模型的目标检测改进算法,采取的技术思路是,以单阶段目标检测算法SSD为基础,对算法中的不足进行分析,提出改进的SSD目标检测算法。使用深度残差网络Resnet-50对基础网络进行替换,提取更优秀的特征图;对各层特征图的作用进行分析,新增一层用于检测小目标的底层特征层;结合反卷积和特征融合,对提取出的高层特征层与底层特征层进行融合,使新的特征层中拥有更丰富的上下文信息;同时设计更密集的检测框用于检测;在每层卷积层后都添加批规范化操作以提升模型训练速度,防止过拟合。通过对算法的改进以达到提高目标检测算法的检测能力,改善误检、漏检等问题。
本实施例给出一种基于单阶段网络模型的目标检测改进算法,包括以下步骤:
步骤1),使用深度残差网络Resnet-50对原始SSD算法中的基础网络部分VGG-16进行替换,替换后将Resnet-50的全连接层移除,并在移除全连接层后的Resnet-50网络后添加三层卷积层,得到用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16替换后的提取网络(参见图1)。通过卷积、池化操作对输入图像进行处理,得到尺寸依次减小的多尺度特征层,尺寸大的特征层为底层特征层,用于对输入图像中的小尺度目标进行检测,尺寸小的特征层为高层特征层,用于对输入图像中的中、大尺度目标进行检测;
在原始SSD算法中,使用1层底层特征层,尺寸为38×38,5层高层特征层,尺寸为19×19、10×10、5×5、3×3、1×1,共6层特征层用于目标检测。
本实施例将原始SSD算法的基础网络修改为深度残差网络Resnet-50,采用2层底层特征层,尺寸分别为56×56、28×28,5层高层特征层,尺寸分别为14×14、7×7、5×5、3×3、1×1,共7层特征层用于检测。
相比原始SSD算法,改进基础网络后的算法多使用了一层底层特征层用于检测。
步骤2),反卷积操作,可以解决特征层经过一系列卷积池化操作后分辨率变小的问题,扩大感受野。通过反卷积,对步骤1)中用于目标检测的高层特征层进行放大,与底层特征层进行融合,融合后的特征层同时包括了高层特征层和底层特征层的优点,既包括了丰富的语义信息,又包括了丰富的细节信息,增强了网络的辨识能力。
步骤3),设计更密集的检测框用于对目标进行检测,同时在算法中每个卷积层后添加批规范化操作来提高模型训练速度,防止过拟合,达到提高算法检测能力的效果。
步骤1)中,使用深度残差网络Resnet-50对原算法中基础网络VGG-16进行替换,共提取7层用于进行检测的特征层,输入图像尺寸为224×224,提取出特征层尺寸分别为56×56、28×28(底层特征层)、14×14、7×7、5×5、3×3、1×1(高层特征层)。
步骤2)中,对尺寸较小的高层特征层(14×14、7×7、5×5、3×3、1×1)进行反卷积操作,放大特征层的尺寸,并通过特征融合,将高层特征层与尺寸较大的底层特征层(56×56、28×28)进行融合。
步骤3)中,对步骤1)及步骤2)中提取出的7层特征层,共提取17340个框进行检测,且算法中每个卷积层后添加批规范化操作,提高了模型训练速度;通过卷积操作,使用3×3的卷积核分别对类别及置信度进行检测并对检测模型进行训练。
改进后的目标检测算法的检测过程如下:
a)基于单阶段网络模型的目标检测,利用回归的思想,直接通过一个卷积神经网络在输入图像上回归出目标的类别及边框,首先使用深度残差网络Resnet-50对原算法中基础网络VGG-16进行替换,移除Resnet-50的原本全连接层,在移除全连接层后的Resnet-50网络后新增3层卷积层;算法在深度残差网络Resnet-50中提取4个特征层conv1_x、conv2_x、conv3_x、conv4_x用于进行检测,新增的3个卷积层conv5_x、conv6_x、conv7_x也作为用于检测的特征层,共提取7级特征层用于检测。
若保存在用于检测的底层特征层上的目标较小,那么底层特征层在经过一系列复杂的卷积操作后,得到的高层特征层上保留的该目标信息将会变得更少,对其的检测也更加不敏感。因此,在SSD算法中,底层特征层包含丰富的细节信息,用于对小目标进行检测,高层特征层则包含更多语义信息,用于对中、大型目标进行检测。因此,改进后的算法使用了2层底层特征层,尺寸为56×56、28×28,5层高层特征层,尺寸为14×14、7×7、5×5、3×3、1×1。
b)结合反卷积与特征融合的思想,对不同层次的特征层进行融合,反卷积公式为:
d=s(i-1)+k-2p (1)
式中,d为反卷积输出特征层,s为步长,i为输入特征层,k为卷积核尺寸,p为填充。通过反卷积操作,可以将高层特征层中丰富的语义信息映射到底层特征层中,使底层特征层在拥有大量细节信息同时拥有足够的语义信息,增强了网络的辨识度。
用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16替换后的提取网络(以下简称特征图提取网络),所提取出的7层特征层,尺寸大小分别为56×56、28×28、14×14、7×7、5×5、3×3、1×1,如a)中所述,底层特征层包含丰富的细节信息,高层特征层包含丰富的语义信息,导致在不同的特征层中,对大目标以及小目标的检测效果参差不一,因此,结合特征融合与反卷积,对提取出的尺寸为7×7的conv4_x特征层进行反卷积操作,并通过element sum的融合方式,直接对两个的特征层相加,没有改变特征层的通道数,融合后的新特征层在同一维度下的信息量增多;由于对基础网络VGG-16的替换以及特征融合操作本身就引入了大量额外参数和计算量,为了尽量减少计算量,选取该融合方式进行融合。
c)特征图提取网络所提取出的用于进行检测的7层特征层,在每个单元设置不同尺寸、长宽比的检测框,对于候选框的尺度,按如下公式进行计算:
Figure BDA0002568573460000091
其中,m代表特征层的个数;sk表示候选框与图片的比例;Smax和Smin分别代表比例的最大值和最小值;Smax和Smin分别取值为0.9和0.2,利用上述公式(2)可以得到各个候选框的尺度。
对于长宽比,一般取值为
Figure BDA0002568573460000092
且可以按照如下公式(3)对候选框的宽度及高度进行计算:
Figure BDA0002568573460000101
对于宽高比为1的候选框,还会增加一个尺度为
Figure BDA0002568573460000102
的候选框,该候选框的中心坐标为
Figure BDA0002568573460000103
i,j∈[0,|fk|),|fk|代表特征层的大小。
结合公式(2)与公式(3),对改进后算法提取的检测框的尺度、长宽比进行计算;提取出的7个特征层中每个单元分别设置4、4、6、6、6、4、4个不同的检测框,共用17340个检测框进行检测。
d)使用3×3卷积核通过卷积操作对特征层的类别及置信度进行检测,并对检测模型进行训练,模型训练时损失函数定义为位置损失(localization loss,loc)和置信度损失(confidence loss,conf)的加权和,计算公式如下:
Figure BDA0002568573460000104
式中,N为匹配的候选框的数量;x∈{1,0}表示候选框是否与真实框匹配,若匹配,则x=1,反之x=0;c为类别置信度预测值;g为真实框的位置参数;l为预测框的位置预测值;α权重系数,设置为1。
对于SSD中的位置损失函数,采用Smooth L1 loss,对候选框的中心(cx,cy)及宽度(w)、高度(h)的偏移量进行回归。公式如下:
Figure BDA0002568573460000105
Figure BDA0002568573460000106
Figure BDA0002568573460000111
对于SSD算法中的置信度损失函数,使用的是典型的softmax loss,其公式为:
Figure BDA0002568573460000112
然后对改进后的目标检测算法模型进行训练:在本实施例中,将PASCAL VOC2007数据集和PASCAL VOC2012数据集作为模型训练所用的数据集,并采用数据扩增技术,通过对数据集进行水平翻转、随机裁剪、颜色扭曲等操作,对训练集图像进行扩充。
实验所用的数据:PASCAL VOC数据集,是一套用于图像识别和分类的标准化的数据集,该数据集中包含20个类别,分别为人、鸟、猫、牛、狗、马、羊、飞机、自行车、船、巴士、汽车、摩托车、火车、瓶子、椅子、餐桌、盆栽植物、沙发、电视。其中VOC2007数据集包含9963张标注过的图片,共有标注出的物体24640个;VOC2012数据集包含11540张标注过的图片,共有标注出的物体27450个。
本实施例使用上述VOC2007数据集和VOC2012数据集进行训练,使用VOC2007数据集进行测试。训练时采用随机梯度下降法(SGD),batchsize设置为32,初始学习率设置为0.001,动量参数monmentum设置为0.9,学习率在迭代次数为180000和230000时调小90%,共训练280000次。
为了验证本实施例的基于单阶段网络模型的目标检测改进算法的检测效果,申请人选用PASCAL VOC2007数据集中的测试集进行检测,并与其他目标检测模型从主观和客观两方面进行检测效果对比(参见表1)。
表1
Tab.1Comparison of VOC2007
Figure BDA0002568573460000121
客观评价使用mAP(mean Average Precision)来作为评价指标,mAP由查准率和查全率构成,公式如下:
Pprecision=TP/TP+FP (9)
Precall=TP/TP+FN (10)
式中,TP代表正样本被正确识别的样本;FP代表负样本被错误识别为正样本的样本;FN代表正样本被错误识别为负样本的样本。
改进后的目标检测算法中,检测的每一个类别都会得到由查准率和查全率构成的曲线(P-R曲线),曲线下的面积就是平均精度值(AP值),即衡量模型在单独一个类别上的评价指标。对检测的所有类别的AP值再求平均,即可得到mAP值,用以衡量模型在所有类别上的好坏,mAP值计算公式如下所示:
Figure BDA0002568573460000122
式中,Q代表检测中总类别数目,AP(q)代表检测中第q类的AP值。
检测效果客观评价中,改进后的目标检测算法,mAP值较其他算法有了明显的提高,但由于网络过于复杂,检测框数目较多,且引入了其他额外计算量,导致检测速度fps有所下降。
检测效果主观评价中,对比原始SSD算法及改进后的检测算法效果图(如图2所示,其中,(a)图、(c)图、(e)图、(g)图、(i)图、(k)图是原始SSD算法检测图片;(b)图、(d)图、(f)图、(h)图、(j)图、(l)图是目标检测算法检测图片)。从图中可以看出,改进后的目标检测算法相比原始SSD算法,在检测出相同目标时,检测框位置更准确,检测出目标的置信度更高;同时显著改善了原始算法中的误检、漏检等问题,并且在复杂背景的条件下也具有一定能力的检测效果,检测效果较原始SSD算法有了较明显的提升。

Claims (4)

1.一种基于单阶段网络模型的目标检测改进算法,其特征在于,包括以下步骤:
步骤1),使用深度残差网络Resnet-50对原始SSD算法中的基础网络VGG-16进行替换,替换后将Resnet-50的全连接层移除,并在移除全连接层后的Resnet-50网络添加三层卷积层;通过卷积、池化操作对输入图像进行处理,得到尺寸依次减小的多尺度特征层,其中:
尺寸大的特征层为底层特征层,用于对输入图像中的小尺度目标进行检测;
尺寸小的特征层为高层特征层,用于对输入图像中的中、大尺度目标进行检测;
将原始SSD算法的基础网络修改为深度残差网络Resnet-50,采用2层底层特征层和5层高层特征层用于检测;
步骤2),通过反卷积操作,对步骤1)中用于目标检测的高层特征层进行放大,与底层特征层进行融合,融合后的特征层包含了语义信息,又包含了细节信息;
步骤3),设计更密集的检测框用于对目标进行检测,同时在算法中对每个卷积层后添加批规范化操作来提高模型训练速度,防止过拟合。
2.如权利要求1所述的算法,其特征在于,步骤1)中所述输入图像尺寸为224×224;所述2层底层特征层的尺寸分别为56×56、28×28;所述5层高层特征层的尺寸分别为14×14、7×7、5×5、3×3、1×1;对尺寸较小的高层特征层进行反卷积操作,放大该高层特征层的尺寸,并通过特征融合,将其与尺寸较大的底层特征层进行融合。
3.如权利要求1所述的算法,其特征在于,步骤3)中对步骤1)及步骤2)中提取出的底层特征层和高层特征层,共提取17340个框进行检测。
4.如权利要求1至3其中之一所述的算法,其特征在于,具体的检测算法过程如下:
a)利用回归的思想,直接通过一个卷积神经网络在输入图像上回归出目标的类别及边框,首先使用深度残差网络Resnet-50对原算法中基础网络VGG-16进行替换,移除Resnet-50原本的全连接层,并且在移除全连接层后的Resnet-50网络后添加三层卷积层;
由于算法中底层特征层未经过大量卷积池化操作,拥有丰富的细节信息,而高层特征层则拥有更丰富的语义信息,故底层特征图用于对小目标进行检测,高层特征层用于对中、大目标进行检测,算法在深度残差网络Resnet-50提取4层特征层、新增的3层卷积层也作为提取的特征层用于目标检测;
b)结合反卷积与特征融合,对不同层次的特征层进行融合,反卷积公式为:
d=s(i-1)+k-2p (1)
式中,d为反卷积输出特征层,s为步长,i为输入特征层,k为卷积核尺寸,p为填充;
通过反卷积操作,将高层特征层中丰富的语义信息映射到底层特征层中,使底层特征层在拥有大量细节信息同时拥有足够的语义信息,增强网络的辨识度;
c)所提取出的用于目标检测的7层特征层,在每个单元设置不同尺寸、长宽比的检测框,对于候选框的尺度,按如下公式(2)进行计算:
Figure FDA0002568573450000031
式中,m代表特征层的个数;sk表示候选框与图片的比例;smax和smin代表比例的最大值和最小值,smax取值为0.9,smin取值为0.2;利用上述公式(2)得到各个候选框的尺度;
对于长宽比,一般取值为
Figure FDA0002568573450000032
且按照如下公式(3)对候选框的宽度
Figure FDA0002568573450000033
及高度
Figure FDA0002568573450000034
进行计算:
Figure FDA0002568573450000035
对于宽高比为1的候选框,还增加一个尺度为
Figure FDA0002568573450000036
的候选框,该候选框的中心坐标为:
Figure FDA0002568573450000037
其中|fk|代表特征层的大小;
d)使用3×3卷积核通过卷积操作对特征层的类别及置信度进行检测,并对检测模型进行训练,检测模型进行训练时,损失函数定义为位置损失(localization loss,loc)和置信度损失(confidence loss,conf)的加权和,计算公式如下式(4)所示:
Figure FDA0002568573450000038
式中,N为匹配的候选框的数量;x∈{1,0}表示候选框是否与真实框匹配,若匹配,则x=1,反之x=0;c为类别置信度预测值;g为真实框的位置参数;l为预测框的位置预测值;α权重系数,设置为1;
对于SSD中的位置损失函数,采用Smooth L1 loss,对候选框的中心(cx,cy)及宽度(w)、高度(h)的偏移量进行回归。公式如下:
Figure FDA0002568573450000041
Figure FDA0002568573450000042
Figure FDA0002568573450000043
对于SSD中的置信度损失函数,使用典型的softmax loss,其公式为:
Figure FDA0002568573450000044
CN202010636213.9A 2020-05-08 2020-07-03 一种基于单阶段网络模型的目标检测改进算法 Pending CN111783685A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010382245 2020-05-08
CN2020103822450 2020-05-08

Publications (1)

Publication Number Publication Date
CN111783685A true CN111783685A (zh) 2020-10-16

Family

ID=72759573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010636213.9A Pending CN111783685A (zh) 2020-05-08 2020-07-03 一种基于单阶段网络模型的目标检测改进算法

Country Status (1)

Country Link
CN (1) CN111783685A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837541A (zh) * 2020-12-31 2021-05-25 遵义师范学院 基于改进ssd的智能交通车流量管理方法
CN112861915A (zh) * 2021-01-13 2021-05-28 北京航空航天大学 一种基于高级语义特征无锚框非合作目标检测方法
CN113159060A (zh) * 2021-02-23 2021-07-23 华南农业大学 一种农作物虫害检测方法及系统
CN113361322A (zh) * 2021-04-23 2021-09-07 山东大学 一种基于加权反卷积层数改进dssd算法的输电线目标检测方法、设备及存储介质
CN114359680A (zh) * 2021-12-17 2022-04-15 中国人民解放军海军工程大学 一种基于深度学习的全景视觉水面目标检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036146A1 (zh) * 2016-08-26 2018-03-01 东方网力科技股份有限公司 基于卷积神经网络的目标匹配方法、装置及存储介质
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN109034210A (zh) * 2018-07-04 2018-12-18 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109858547A (zh) * 2019-01-29 2019-06-07 东南大学 一种基于bssd的目标检测方法与装置
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110084292A (zh) * 2019-04-18 2019-08-02 江南大学 基于DenseNet和多尺度特征融合的目标检测方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法
WO2020038205A1 (zh) * 2018-08-24 2020-02-27 腾讯科技(深圳)有限公司 目标检测方法、装置、计算机可读存储介质及计算机设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018036146A1 (zh) * 2016-08-26 2018-03-01 东方网力科技股份有限公司 基于卷积神经网络的目标匹配方法、装置及存储介质
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108764228A (zh) * 2018-05-28 2018-11-06 嘉兴善索智能科技有限公司 一种图像中文字目标检测方法
CN109034210A (zh) * 2018-07-04 2018-12-18 国家新闻出版广电总局广播科学研究院 基于超特征融合与多尺度金字塔网络的目标检测方法
WO2020038205A1 (zh) * 2018-08-24 2020-02-27 腾讯科技(深圳)有限公司 目标检测方法、装置、计算机可读存储介质及计算机设备
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109858547A (zh) * 2019-01-29 2019-06-07 东南大学 一种基于bssd的目标检测方法与装置
CN110084292A (zh) * 2019-04-18 2019-08-02 江南大学 基于DenseNet和多尺度特征融合的目标检测方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SIMONYAN K ETAL.: "Very deep convolutional networks for large-scale image recognition", INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS, 31 March 2015 (2015-03-31) *
WEI LIU ETAL.: "SSD:Single Shot MultiBox Detector", PROCEEDINGS OF THE 14TH EUROPEAN CONFERENCE ON COMPUTERVISION, 29 December 2016 (2016-12-29) *
栾浩;王力;姜敏;王冬冬;: "基于改进SSD的目标检测方法", 软件, no. 01, 15 January 2020 (2020-01-15) *
王燕妮等: "基于单阶段网络模型的目标检测改进算法", 探测与控制学报, vol. 43, no. 2, 30 April 2021 (2021-04-30) *
罗海保: "基于改进Faster R-CNN的多尺度小目标检测算法研究", 中国硕士论文全文数据库信息科技辑, no. 1, 15 January 2020 (2020-01-15) *
陈幻杰;王琦琦;杨国威;韩佳林;尹成娟;陈隽;王以忠;: "多尺度卷积特征融合的SSD目标检测算法", 计算机科学与探索, no. 06, 21 January 2019 (2019-01-21) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837541A (zh) * 2020-12-31 2021-05-25 遵义师范学院 基于改进ssd的智能交通车流量管理方法
CN112837541B (zh) * 2020-12-31 2022-04-29 遵义师范学院 基于改进ssd的智能交通车流量管理方法
CN112861915A (zh) * 2021-01-13 2021-05-28 北京航空航天大学 一种基于高级语义特征无锚框非合作目标检测方法
CN113159060A (zh) * 2021-02-23 2021-07-23 华南农业大学 一种农作物虫害检测方法及系统
CN113361322A (zh) * 2021-04-23 2021-09-07 山东大学 一种基于加权反卷积层数改进dssd算法的输电线目标检测方法、设备及存储介质
CN114359680A (zh) * 2021-12-17 2022-04-15 中国人民解放军海军工程大学 一种基于深度学习的全景视觉水面目标检测方法

Similar Documents

Publication Publication Date Title
CN111783685A (zh) 一种基于单阶段网络模型的目标检测改进算法
CN111914917A (zh) 一种基于特征金字塔网络和注意力机制的目标检测改进算法
CN111739075B (zh) 一种结合多尺度注意力的深层网络肺部纹理识别方法
CN110321923B (zh) 不同尺度感受野特征层融合的目标检测方法、系统及介质
CN109285139A (zh) 一种基于深度学习的x射线成像焊缝检测方法
CN111860160B (zh) 一种室内检测口罩佩戴的方法
CN108711148B (zh) 一种基于深度学习的轮胎缺陷智能检测方法
CN113069080A (zh) 一种基于人工智能的困难气道评估方法及装置
TW202004776A (zh) 骨齡評估與身高預測模型之建立方法、骨齡評估與身高預測系統及骨齡評估與身高預測方法
CN108133235A (zh) 一种基于神经网络多尺度特征图的行人检测方法
CN112613428B (zh) 基于平衡损失的Resnet-3D卷积牛视频目标检测方法
CN117854072A (zh) 一种工业视觉缺陷自动标注方法
CN111860587A (zh) 一种用于图片小目标的检测方法
CN111428655A (zh) 一种基于深度学习的头皮检测方法
CN116563205A (zh) 基于小目标检测和改进YOLOv5的麦穗计数检测方法
CN113221853A (zh) 一种基于Yolov4的养鸡场饲养鸡识别算法
CN113377985A (zh) 一种基于金字塔网络的中药图像的分类和检索方法
CN112927215A (zh) 一种消化道活检病理切片自动分析方法
CN112465821A (zh) 一种基于边界关键点感知的多尺度害虫图像检测方法
CN116863388A (zh) 一种基于神经网络的精子活力确定方法及系统
KR102576427B1 (ko) 구름 이미지를 이용한 실시간 강수량 예측 장치, 이를 이용한 강수량 예측 방법 및 이를 제공하기 위한 컴퓨터 프로그램이 기록된 컴퓨터-판독가능매체
CN115984546A (zh) 一种针对固定场景的异常检测用的样本底库生成方法
CN112949634B (zh) 一种铁路接触网鸟窝检测方法
CN115909493A (zh) 一种面向课堂实录视频的教师不当手势检测方法及系统
CN116977648A (zh) 一种基于目标检测的菜用大豆表型信息的识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination