CN112329658A - 一种对于yolov3网络的检测算法改进方法 - Google Patents

一种对于yolov3网络的检测算法改进方法 Download PDF

Info

Publication number
CN112329658A
CN112329658A CN202011247773.1A CN202011247773A CN112329658A CN 112329658 A CN112329658 A CN 112329658A CN 202011247773 A CN202011247773 A CN 202011247773A CN 112329658 A CN112329658 A CN 112329658A
Authority
CN
China
Prior art keywords
network
feature
module
layer
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011247773.1A
Other languages
English (en)
Other versions
CN112329658B (zh
Inventor
姜文刚
戴伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202011247773.1A priority Critical patent/CN112329658B/zh
Publication of CN112329658A publication Critical patent/CN112329658A/zh
Application granted granted Critical
Publication of CN112329658B publication Critical patent/CN112329658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种对于YOLOV3网络的检测算法改进方法,将主干网络的改进,主干网络加入残差模块Res‑Inc;特征图金字塔的改进;特征图金字塔加入自适应特征融合模块、注意力机制与特征增强模块;图像的数据进行增强处理;对于输出结果的损失函数的改进:输出结果加入分类损失函数和包围框位置损失函数。本发明解决网络实时性和准确性之间的平衡问题、特征图金字塔中不同级别的多尺度特征的信息冲突问题以及提高算法挖掘困难案例的能力和边界框预测的准确性。

Description

一种对于YOLOV3网络的检测算法改进方法
技术领域
本发明涉及图像识别领域,特别涉及一种对于YOLOV3网络的检测算法改进方法。
背景技术
2016年,J Redmon等人,提出了YOLO算法。从YOLO开始,该算法仅需要一个卷积神经网络(CNN)计算,并且该网络是端到端的预测。YOLO网络通过卷积神经网络提取特征,最后的全连接层输出预测结果。尽管预测精度不如Faster-RCNN,但它具有极高的实时性能,并开创了One-Stage算法,为后续算法的改进和创新奠定了基础。 YOLOV3是官方YOLO系列的最新结果。它不仅保留了前两代算法的本质,而且还吸收了其他高级算法的优点。目标检测算法中各种技术和先进方法的广泛应用使网络模型更加复杂:特征图金字塔旨在解决多尺度问题,基础网络使用类似于残差网络(ResNet) 的Darknet-53改善骨干网的特征提取能力。YOLOV3算法同时考虑了实时性和准确性。其结构清晰,易于改进,它是业界首选的算法之一,图1显示了YOLOV3网络框架。
YOLOV3的主干结构使用具有更多层的Darknet-53,尽管这在一定程度上提高了网络的特征提取能力,但降低了转发速度。如果盲目地减少Darknet-53的网络层数,该算法将减少,很难在两者的准确性之间取得平衡。
同时,特征图金字塔是YOLOV3性能提高的关键之一,但是特征图金字塔的设计仅将高级语义信息应用于低级特征图,从而融合了深浅的特征,但只能通过直接拼接这种加法不能完全集成多尺度特征。具体表现是,YOLOV3算法在缩放图片变化方面不强健,并且容易错过检测和错误检测。
另外,遮挡和照明等问题一直是目标检测算法的重要挑战,并且YOLOV3的检测性能也会产生影响。
发明内容
发明目的:本发明的目的是提供一种对于YOLOV3网络的检测算法改进方法,用于解决上述问题。
技术方案:本发明所述的一种对于YOLOV3网络的检测算法改进方法,包括以下步骤
步骤1,将主干网络的改进,主干网络加入残差模块Res-Inc;
步骤2,特征图金字塔的改进;特征图金字塔加入自适应特征融合模块、注意力机制与特征增强模块;
步骤3,图像的数据进行增强处理;
步骤4,对于输出结果的损失函数的改进:输出结果加入分类损失函数和包围框位置损失函数。
进一步的,在步骤1中,对输入的特征图按通道对特征图进行切分,然后切分后特征图进入Res-Inc模块进行通道混合操作。
进一步的,主干网络由若干个Res-Inc模块串联而成,为了与YOLOV3统一,每隔两个Res-Inc模块后会设置一个步长为2个的3*3卷积进行下采样。
进一步的,在步骤2中,自适应特征融合模块的各层对不同尺度的特征图进行自适应加权融合后输出本层的特征图,定义x1,x2,x3为特征图金字塔中第一层、第二层和第三层的特征图,在进行放缩和加权求和后,第l层的输出yl如公式所示:
Figure RE-GDA0002874737930000021
权重参数α,β和γ是对重定义过大小的level1~level3的特征图经过1*1卷积后得到三个参数;
采用自适应特征融合模块方式,梯度的公式为:
Figure RE-GDA0002874737930000022
通过控制权重使
Figure RE-GDA0002874737930000023
为0,使得负样本的梯度避免被反向传播回去以解决特征图金字塔中的不一致性。
进一步的,在步骤2中,注意力机制模块用于前馈卷积神经网络的有效注意,注意力机制模块依次沿着两个独立的维度,通道和空间推断注意图,将注意图倍增到用于自适应特征细化的输入特征映射,
进一步的,在步骤2中,特征增强模块用参数rate来表示空洞卷积层的空洞率参数,可根据需要自行修改,在特征增强模块中最后会将不同尺寸和空洞率的卷积层输出进行通道上的拼接。
进一步的,在步骤3中,增强方式包括图像翻转、图像平移、图像尺寸缩放以及图片旋转。
进一步的,在步骤4中,使用focal loss作为分类损失函数,focal loss对分类损失函数交叉熵损失的改进,focal loss的公式为:
FL(pt)=-(1-pt)γlog(pt)
其中,γ为注意参数,γ>=0,(1-pt)γ为调制系数。
进一步的,在步骤4中,使用GIOU对包围框的损失函数进行修改,提升检测任务的效果,GIOU对于交并比指标改进。
进一步的,GIOU的计算方法如下:
步骤1,输入:预测框A,真实框B,S为所有框的集合,其中对于A和B,求得属于A、B得最小框C,C也属于集合S;
步骤2,计算A、B的IOU值,
Figure RE-GDA0002874737930000024
计算GIOU值:
Figure RE-GDA0002874737930000031
步骤3,输出:GIOU值。
有益效果:本发明与现有技术相比:
(1)针对行人检测任务中算法的实时性要求,对主干网络中的残差模块进行了改进,提出了一种结合残差思想的新型Res-Inc模块,而又不降低网络特征提取能力并减少网络参数数量和提高网络的实时性能;
(2)针对行人目标的多尺度问题,为解决特征图金字塔不能有效整合多尺度特征的问题,设计了自适应特征融合模块,将特征图金字塔中的特征图自适应加权然后融合以充分利用多尺度信息,以增强网络检测多尺度行人目标的能力;解决复杂场景中的行人遮挡问题,增加注意力机制,提高算法提取和识别行人目标局部特征的能力;
(3)最终输出层从普通卷积层更改为可变形卷积,可以根据需要识别的当前图像内容动态调整它。卷积核采样点在不同位置的位置将根据图像内容进行自适应改变,以适应不同物体的形状,大小等几何变形,从而进一步提高网络预测的准确性;
(4)鉴于被监视图像中行人的姿势和比例存在很大差异,在训练网络的过程中使用了图像数据增强方法,以提高网络检测多尺度和多岗位行人目标的能力;
(5)针对样本中正负样本的不平衡,提高分类损失功能,提高网络挖掘疑难案件的能力,增强检测网络提取和使用浅层特征的能力,提高检测精度。网络;并使用GIOU作为边界框位置损失功能来优化预测框并获得更准确的定位。
附图说明
图1是背景技术中的现有的YOLOV3网络框架图;
图2是对于YOLOV3网络的检测算法改进方法的示意图;
图3是原始版本YOLOV3检测结果;
图4是改进后YOLO-CRD检测结果。
具体实施方式
如图2所示,一种对于YOLOV3网络的检测算法改进方法,包括以下步骤
步骤1,将主干网络的改进,主干网络加入残差模块Res-Inc。
其中,改进后的YOLO-CRD网络的主干架构,依旧沿用残差网络的思想,避免深层次网络带来的梯度消失问题,使网络更容易优化。
本方法鉴参数量更小、特征提取能力更强的Inception模块,Inception能够对输入并行地执行多个卷积、池化操作。
提出并设计了如图所示的残差模块Res-Inc对原始的残差模块进行替代。
首先对于输入的特征图,为了进一步降低网络的参数,按通道对特征图进行切分,分为左右两个分支,左分支各有两对1*3、3*1卷积进行串联。Res-Inc模块在最后进行了通道混合(Channel Shuffle)操作,在Res-Inc模块的输入端,为了降低参数,进行了通道切分,在模块输出特征图前,进行通道混合操作,通道混合主要操作为:假设输入到通道混合层的特征图通道为C,将特征图分成g组(C能够被g整除),每组通道数n=C/g, 将通道维度拆分成(g,n)两个维度,然后将这两个维度进行转置,最终再转换为一个维度,实现多通道之间的信息融合。
改进后的YOLO-CRD的主干网络由10个Res-Inc模块串联而成,为了与YOLOV3 统一,每隔两个Res-Inc模块后会设置一个步长为2的3*3卷积进行下采样,为了实时性,改进后的主干网络延续了YOLOV3主干网络DarkNet53的全卷积网络设计。在Res-Inc 中超参数空洞率可以设为1构成普通的卷积,或者根据需要进行设置来扩大主干网络的感受野,此外通过对Res-Inc两个分支中的空洞率设置不同的参数可以使模块并行的提取多尺度信息,从而提高主干网络整体的特征提取能力。
步骤2,特征图金字塔的改进;特征图金字塔加入自适应特征融合模块、注意力机制与特征增强模块;
对特征图金字塔的改进
相比于传统的特征图金字塔,自适应特征融合模块(AFFM)结构中的各层对不同尺度的特征图进行自适应加权融合后输出本层的特征图。设x1,x2,x3为特征图金字塔中第一层、第二层和第三层的特征图,在进行放缩和加权求和后,第l层的输出yl如公式所示:
Figure RE-GDA0002874737930000041
因为采用相加的方式,所以需要将第一层到第三层的输出的特征统一到相同的空间大小和通道数大小,因此需要对不同特征图做上采样或下采样并调整通道数。对于需要上采样的层,例如上图中的自适应特征融合模块3,需要将第一层的特征图x1调整到和第三层特征图x3相同的尺寸,采用的方式是先通过1*1卷积进行通道降维,再用双线性插值的方式将特征图调整到x3的空间尺寸;而对于需要下采样的层,以自适应特征融合模块1为例,此时对于第二层的特征图x2调整到第一层的特征图x1只需要用一个大小为 3、步长为2卷积进行下采样,如果是第三层特征图x3到第一层特征图x1则需要在步长为2的3*3卷积的基础上再加一个步长为2的池化操作,这样就能调整第三层特征图至与第一层特征图相同尺寸。
对于权重参数α,β和γ,是对重定义过大小的level1~level3的特征图经过1*1卷积后得到三个参数。
对于原始的特征图金字塔,根据链式法则,在反向传播时候梯度的计算如下:
Figure RE-GDA0002874737930000042
其中因为不同尺度的层之间的尺度变化基本为上采样或下采样,因此
Figure RE-GDA0002874737930000051
通常为固定值,为了简化表示,将其设置为1,因此简化后的梯度计算公式如下:
Figure RE-GDA0002874737930000052
假设level1(I,j)对应位置的特征图上有物体且为正样本,其他level上对应的(i,j)位置上可能为负样本,这种情况下在反向传播过程中,梯度既包含正样本也包含负样本,这种不连续性会对梯度造成干扰,造成训练的低效。而采用自适应特征融合模块方式,梯度的公式为:
Figure RE-GDA0002874737930000053
面对如上的情况,通过控制权重使
Figure RE-GDA0002874737930000054
为0,使得负样本的梯度不会被反向传播回去,这样解决了特征图金字塔中的不一致性。权重的参数通过对特征图进行卷积操作计算得来,通过训练可以使网络学习到如何设置正确的参数,自适应地对不同尺度的特征图进行融合,避免空间上的矛盾,提高算法检测的精准度。
与传统的特征图金字塔直接将不同层的特征上采样或下采样后直接对应位置相加的融合方式相比,自适应特征融合模块(AFFM)能够有效过滤冲突信息,自适应地对应的大物体的特征和小物体特征进行分类,根据输出层自适应地融合特征信息,此外,自适应特征融合模块(AFFM)是一个轻量级的全卷积构成的模块,相比于原始的特征图金字塔没有增加过多的参数,对网络的前向速度的影响非常小。
加入注意力机制与特征增强模块。
注意力模块通常通过构建一组网络生成与特征图相同大小的筛选图,按照规则对输入进行筛选,或者给输入特征图上的每个值,分配不同的权重。本次研究中的注意力机制主要指代神经网络中的注意力机制,使用注意力机制来对卷积神经网络的通道和空间区域进行选择。
本方法中所使用的注意力机制模块(Convolutional Block Attention Module,CBAM)示意图,这是一个简单的用于前馈卷积神经网络的有效注意模块。给出一个中间特征映射,模块依次沿着两个独立的维度,通道和空间推断注意图,然后将注意图倍增到用于自适应特征细化的输入特征映射。
在通道分支,同时使用平均池化和最大池化操作来聚合特征映射的空间信息,送到一个共享网络,压缩输入特征图的空间维数,逐元素求和合并,以产生通道注意力图Mc;在空间分支,还是使用平均池化和最大值池化对输入特征图进行压缩操作,这里的压缩变成了通道层面上的压缩,连接起来,用7*7卷积生成空间注意力图谱。CBAM集成网络很好的学习目标对象区域中的信息并从中聚合特征。通过实验发现串联两个注意力模块的效果要优于并联。通道注意力模块放在前面要优于空间注意力模块放在前面。
本方法还引入了特征增强模块RFB进一步提高网络的特征提取能力。突出了感受野大小和偏心率之间的关系,其中较大的权重分配给较小卷积核靠近中心的位置,表明它们比周围的特征点更为重要,RFB模块中用参数rate来表示空洞卷积层的空洞率参数,可根据需要自行修改。在RFB模块中最后会将不同尺寸和空洞率的卷积层输出进行通道上的拼接,达到融合不同特征的目的。通过这种方式能够更好的结合多尺度、多感受野的特征,提高网络的特征提取能力。
步骤3,图像的数据进行增强处理;
图像进行翻转
在深度学习领域,数据增强是研究人员常用的提高模型能力的手段之一,能够有效的提升网络的泛化能力。为更好的表述数据增强的形式,设图像原始的坐标为(x0,y0),变换后的坐标为(x,y),变换矩阵设为H,由此定于变换的前后方程为:
Figure RE-GDA0002874737930000061
图像进行平移
本方法图像翻转是采用垂直和水平翻转,通过对图像进行垂直和水平翻转,能够为网络提供更对不同方向上的数据,有利于网路学习到多姿态、多方向上的行人的特征,提升整体的检测效果。
在垂直翻转时,将变换矩阵设为
Figure RE-GDA0002874737930000062
在水平翻转时,设变换矩阵为
Figure RE-GDA0002874737930000063
图像进行尺度缩放
在数据增强中,图像平移也是常规操作,其指的是对图像中的像素在水平、垂直等方向上移动dx,dy个标准像素点距离。设dx为水平方向上的位移量,dy为垂直方向上的位移量。
由此,将变换矩阵设为
Figure RE-GDA0002874737930000071
并带入到式中。
Figure RE-GDA0002874737930000072
图像进行旋转。
图像旋转是以图像的中心为原点,按照随机或者指定的角度进行旋转。由于摄像头位置摆放规范,数据集中的行人多为垂直站立或走动的姿态,在实际的场景中,摄像头的摆放位置可能不一定是水平的,或因为外力原因发生角度便宜,导致采集到的视频出现一定程度上的旋转,且为了拟合行人姿态的多样性,使用旋转后的图像对网络进行训练可以使网络学习到多姿态的行人的特征。
在这个操作中,将变换矩阵设为
Figure RE-GDA0002874737930000073
其中θ为旋转的角度。
步骤4,对于输出结果的损失函数的改进:输出结果加入分类损失函数和包围框位置损失函数。
加入分类损失函数
为解决检测任务中固有的样本不均衡问题,本次研究在改进后的YOLO-CRD算法中,使用focal loss作为分类损失函数,focal loss对分类损失函数交叉熵损失的改进,采用该损失函数目的在于减少易分类样本的权重,使得模型在训练时提高对难分类样本的区分能力。
交叉熵损失以二分类为例,原来的分类损失值是各训练样本交叉熵的总和,并且每个样本采用相同大小的权重。公式如下:
Figure RE-GDA0002874737930000081
因为是二分类,p表示预测样本属于1的概率(范围为0-1),y表示类别标签,取值为{+1,-1}。当类别标签(y)为1,假如某个样本x被预测为类别1的概率p=0.7,由公式(3-3)可知,交叉熵损失为-log(0.7)。如果p=0.9,那么损失就是-log(0.9),比较两个损失,p=0.7的交叉熵损失大于p=0.9时的损失。多分类的情况以此类推。
为了方便,用pt代替p,如下公式:pt即为前面Figure1中的横坐标。
Figure RE-GDA0002874737930000082
为了表示简便,用pt表示样本属于true class的概率。
CE(p,y)=CE(pt)=-log(pt)
先对交叉熵损失做一个改进作为基础函数:既然单阶段检测算法在训练的时候正负样本的数量差距很大,那么可以给正负样本加上大的权重,负样本出现的频次多,那么就给其一个较小的权重,因此可以通过设定a的值来控制正负样本对总的loss的共享权重。a取比较小的值来降低负样本(多的那类样本)的权重。
CE(pt)=-αt log(pt)
上述公式在添加权重后能够控制正负样本,但对于容易分类和难分类样本依然没有控制权重的能力,于是继续改进添加系数得到focal loss:
FL(pt)=-(1-pt)γlog(pt)
γ为注意参数,γ>=0,其作用是调节简单样本权重降低的速率,(1-pt)γ为调制系数 (modulating factor),调制参数的作用在于对难易样本施加不同的权重,使模型在训练阶段更注重难分类样本,以此提高算法的检测精度。
加入包围框位置损失函数
目前目标检测中主流的边界框优化采用的都是包围框的回归损失(MSE loss,L1-smooth loss等),这些方式计算损失值的方式都是根据检测框的“代理属性”——距离,而忽略了检测框本身最显著的性质——IOU。
本方法,将使用GIOU对包围框的损失函数进行修改,提升检测任务的效果。GIOU可看作是对于交并比(Intersection over Union,IOU)指标的一个改进。
GIOU的计算方法流程如下:
输入:预测框A,真实框B,S为所有框的集合
输出:GIOU值
方法:1、对于A和B,求得属于A、B得最小框C,C也属于集合S
2、计算A、B的IOU值,
Figure RE-GDA0002874737930000091
3、计算GIOU值:
Figure RE-GDA0002874737930000092
GIOU损失函数替代了原始的YOLOV3的包围框位置损失函数。
使用上述方法,进行模拟处理。网络结构的改进是这项针对YOLOV3的研究中最大的改进。主要设计是Res-Inc模块,用于在原始YOLOV3中重建主干网络Darknet-53。实验中使用的测试集是校准的监控图像。图像尺寸为416*416。如表2所示,在改进骨干网络后,与原始的YOLOV3骨干网络Darknet-53相比,改进后的骨干网络参数减少了约30%。速度也得到了显着提高。
表1对主干网络改进前后参数及实时性对比
Figure RE-GDA0002874737930000093
至于改进骨干网后的准确性比较,本研究也在测试集上进行了测试。结果示于表4-3。可以看出,虽然减少了骨干网的参数,但是提高了检测的准确性。证明改进后的骨干网不仅有效地减少了网络参数,而且保证了特征提取能力,并具有一定程度的增强
表2对主干网络改进后在验证集上的结果
Figure RE-GDA0002874737930000094
除了对主干网络的改进,本次研究还设计了自适应特征融合模块(AFFM)、引入了注意力机制模块(CBAM)和特征增强模块(RFB),为更直观的展示这些改进的效果,如表4-4所示,将这些新模块分别与YOLOV3原始网络结合后进行了对比。
表3不同模块的效果对比
Figure RE-GDA0002874737930000095
Figure RE-GDA0002874737930000101
如表4所示,在所有新模块中,自适应特征融合模块(AFFM)对骨干网络的改进最大。主要原因是当融合多尺度特征时,自适应特征融合模块解决了原始YOLOV3网络中的特征图金字塔信息。冲突问题使多尺度对象的特征可以根据输出层进行自适应加权和融合。这是改进算法的关键。通过将其他模块的数据与原始YOLOV3的数据进行比较,提高了精度,这表明该改进设计的模块和方法已基本达到了提高算法性能的目的。
表4算法改进前后参数量和实时性对比
模型名称 参数量 模型体积 前向推断时间
YOLOV3 61.5M 246.4M 15.0ms
YOLO-CRD 55.35M 221.4M 12.5ms
最后,将所有改进的方法结合起来,以形成本研究中提出的YOLO-CRD算法与YOLOV3之间的多方向比较,如表5和图3以及图4所示。
表5算法改进前后在测试集上精度对比
模型名称 AP AP<sub>50</sub> AP<sub>70</sub>
YOLOV3 0.69 0.76 0.72
YOLO-CRD 0.80 0.83 0.79
从表5和图3以及图4可以看出,改进后的YOLO-CRD在模型参数方面略小于YOLOV3,并且前进速度也有一定程度的提高,但是由于减少参数。与原始的YOLOV3 网络相比,其精度有非常明显的提高,约为15%,这证明YOLO-CRD具有强大的特征提取能力和更准确的预测能力,并在考虑实时性的同时提高了算法的性能。

Claims (10)

1.一种对于YOLOV3网络的检测算法改进方法,其特征在于包括以下步骤
步骤1,将主干网络的改进,主干网络加入残差模块Res-Inc;
步骤2,特征图金字塔的改进;特征图金字塔加入自适应特征融合模块、注意力机制与特征增强模块;
步骤3,图像的数据进行增强处理;
步骤4,对于输出结果的损失函数的改进:输出结果加入分类损失函数和包围框位置损失函数。
2.根据权利要求1所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于在步骤1中,对输入的特征图按通道对特征图进行切分,然后切分后特征图进入Res-Inc模块进行通道混合操作。
3.根据权利要求2所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于主干网络由若干个Res-Inc模块串联而成,为了与YOLOV3统一,每隔两个Res-Inc模块后会设置一个步长为2个的3*3卷积进行下采样。
4.根据权利要求1所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于在步骤2中,自适应特征融合模块的各层对不同尺度的特征图进行自适应加权融合后输出本层的特征图,定义x1,x2,x3为特征图金字塔中第一层、第二层和第三层的特征图,在进行放缩和加权求和后,第l层的输出yl如公式所示:
Figure FDA0002770610930000011
权重参数α,β和γ是对重定义过大小的level1~level3的特征图经过1*1卷积后得到三个参数;
采用自适应特征融合模块方式,梯度的公式为:
Figure FDA0002770610930000012
通过控制权重使
Figure FDA0002770610930000013
为0,使得负样本的梯度避免被反向传播回去以解决特征图金字塔中的不一致性。
5.根据权利要求1所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于在步骤2中,注意力机制模块用于前馈卷积神经网络的有效注意,注意力机制模块依次沿着两个独立的维度,通道和空间推断注意图,将注意图倍增到用于自适应特征细化的输入特征映射。
6.根据权利要求1所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于在步骤2中,特征增强模块用参数rate来表示空洞卷积层的空洞率参数,可根据需要自行修改,在特征增强模块中最后会将不同尺寸和空洞率的卷积层输出进行通道上的拼接。
7.根据权利要求1所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于在步骤3中,增强方式包括图像翻转、图像平移、图像尺寸缩放以及图片旋转。
8.根据权利要求1所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于在步骤4中,使用focal loss作为分类损失函数,focal loss对分类损失函数交叉熵损失的改进,focal loss的公式为:
FL(pt)=-(1-pt)γlog(pt)
其中,γ为注意参数,γ>=0,(1-pt)γ为调制系数。
9.根据权利要求1所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于在步骤4中,使用GIOU对包围框的损失函数进行修改,提升检测任务的效果,GIOU对于交并比指标改进。
10.根据权利要求9所述的一种对于YOLOV3网络的检测算法改进方法,其特征在于GIOU的计算方法如下:
步骤1,输入:预测框A,真实框B,S为所有框的集合,其中对于A和B,求得属于A、B得最小框C,C也属于集合S;
步骤2,计算A、B的IOU值,
Figure FDA0002770610930000021
计算GIOU值:
Figure FDA0002770610930000022
步骤3,输出:GIOU值。
CN202011247773.1A 2020-11-10 2020-11-10 一种对于yolov3网络的检测算法改进方法 Active CN112329658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011247773.1A CN112329658B (zh) 2020-11-10 2020-11-10 一种对于yolov3网络的检测算法改进方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011247773.1A CN112329658B (zh) 2020-11-10 2020-11-10 一种对于yolov3网络的检测算法改进方法

Publications (2)

Publication Number Publication Date
CN112329658A true CN112329658A (zh) 2021-02-05
CN112329658B CN112329658B (zh) 2024-04-02

Family

ID=74318844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011247773.1A Active CN112329658B (zh) 2020-11-10 2020-11-10 一种对于yolov3网络的检测算法改进方法

Country Status (1)

Country Link
CN (1) CN112329658B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011383A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 视频标签定义模型构建方法、系统、电子设备及存储介质
CN113159012A (zh) * 2021-04-25 2021-07-23 广州逅艺文化科技有限公司 一种文本行关键点定位方法、装置及存储介质
CN113255826A (zh) * 2021-06-17 2021-08-13 广东电网有限责任公司中山供电局 一种基于改进yolov3的安全帽佩戴检测方法及系统
CN113344877A (zh) * 2021-06-08 2021-09-03 武汉工程大学 基于卷积神经网络的钢筋模型训练方法及装置
CN113435337A (zh) * 2021-06-28 2021-09-24 中国电信集团系统集成有限责任公司 基于可变形卷积和注意力机制的视频目标检测方法及装置
CN113537119A (zh) * 2021-07-28 2021-10-22 国网河南省电力公司电力科学研究院 基于改进Yolov4-tiny的输电线路连接部件检测方法
CN113537014A (zh) * 2021-07-06 2021-10-22 北京观微科技有限公司 基于改进darknet网络的地空导弹阵地目标检测与识别方法
CN113591575A (zh) * 2021-06-29 2021-11-02 北京航天自动控制研究所 一种基于改进YOLO v3网络的目标检测方法
CN113673616A (zh) * 2021-08-26 2021-11-19 南通大学 一种耦合注意力和上下文的轻量化小目标检测方法
CN113837058A (zh) * 2021-09-17 2021-12-24 南通大学 一种耦合上下文聚合网络的轻量化雨水篦子检测方法
CN114821246A (zh) * 2022-06-28 2022-07-29 山东省人工智能研究院 基于多层次残差网络感知和注意力机制的小目标检测方法
CN114998576A (zh) * 2022-08-08 2022-09-02 广东电网有限责任公司佛山供电局 一种输电线路开口销缺失检测方法、装置、设备和介质
CN115049607A (zh) * 2022-06-10 2022-09-13 四川轻化工大学 一种基于YOLOx_s增强目标特征检测的绝缘板缺陷识别方法
CN115393596A (zh) * 2022-10-28 2022-11-25 武汉纺织大学 一种基于人工智能的服装图像分割方法
CN116106880A (zh) * 2023-04-13 2023-05-12 北京理工大学 基于注意力机制和多尺度融合的水下声源测距方法和装置
CN116310358A (zh) * 2023-02-23 2023-06-23 哈尔滨市科佳通用机电股份有限公司 铁路货车螺栓丢失检测方法、存储介质及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110414391A (zh) * 2019-07-15 2019-11-05 河北工业大学 基于深度学习算法的主动移动式车底危险品检测装置
CN111259930A (zh) * 2020-01-09 2020-06-09 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111274970A (zh) * 2020-01-21 2020-06-12 南京航空航天大学 一种基于改进YOLO v3算法的交通标志检测方法
AU2020100705A4 (en) * 2020-05-05 2020-06-18 Chang, Jiaying Miss A helmet detection method with lightweight backbone based on yolov3 network
CN111507271A (zh) * 2020-04-20 2020-08-07 北京理工大学 一种机载光电视频目标智能化检测与识别方法
CN111652321A (zh) * 2020-06-10 2020-09-11 江苏科技大学 一种基于改进yolov3算法的海上船舶检测方法
CN111753787A (zh) * 2020-07-01 2020-10-09 江苏金海星导航科技有限公司 一种分离式的交通标志检测与识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及系统
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110414391A (zh) * 2019-07-15 2019-11-05 河北工业大学 基于深度学习算法的主动移动式车底危险品检测装置
CN111259930A (zh) * 2020-01-09 2020-06-09 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111274970A (zh) * 2020-01-21 2020-06-12 南京航空航天大学 一种基于改进YOLO v3算法的交通标志检测方法
CN111507271A (zh) * 2020-04-20 2020-08-07 北京理工大学 一种机载光电视频目标智能化检测与识别方法
AU2020100705A4 (en) * 2020-05-05 2020-06-18 Chang, Jiaying Miss A helmet detection method with lightweight backbone based on yolov3 network
CN111652321A (zh) * 2020-06-10 2020-09-11 江苏科技大学 一种基于改进yolov3算法的海上船舶检测方法
CN111753787A (zh) * 2020-07-01 2020-10-09 江苏金海星导航科技有限公司 一种分离式的交通标志检测与识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冯媛;李敬兆;: "改进的卷积神经网络行人检测方法", 计算机工程与设计, no. 05, 16 May 2020 (2020-05-16) *
吕攀飞,王曙光: "无人机作战平台的智能目标识别方法", 《激光与光电子学进展》, pages 071001 - 1 *
左健豪,姜文刚: "自适应融合特征的人群计数网络", 《计算机工程与应用》, pages 1 - 8 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011383A (zh) * 2021-04-12 2021-06-22 北京明略软件系统有限公司 视频标签定义模型构建方法、系统、电子设备及存储介质
CN113159012A (zh) * 2021-04-25 2021-07-23 广州逅艺文化科技有限公司 一种文本行关键点定位方法、装置及存储介质
CN113159012B (zh) * 2021-04-25 2024-08-02 广州逅艺文化科技有限公司 一种文本行关键点定位方法、装置及存储介质
CN113344877A (zh) * 2021-06-08 2021-09-03 武汉工程大学 基于卷积神经网络的钢筋模型训练方法及装置
CN113255826A (zh) * 2021-06-17 2021-08-13 广东电网有限责任公司中山供电局 一种基于改进yolov3的安全帽佩戴检测方法及系统
CN113435337A (zh) * 2021-06-28 2021-09-24 中国电信集团系统集成有限责任公司 基于可变形卷积和注意力机制的视频目标检测方法及装置
CN113591575A (zh) * 2021-06-29 2021-11-02 北京航天自动控制研究所 一种基于改进YOLO v3网络的目标检测方法
CN113537014A (zh) * 2021-07-06 2021-10-22 北京观微科技有限公司 基于改进darknet网络的地空导弹阵地目标检测与识别方法
CN113537119A (zh) * 2021-07-28 2021-10-22 国网河南省电力公司电力科学研究院 基于改进Yolov4-tiny的输电线路连接部件检测方法
CN113673616A (zh) * 2021-08-26 2021-11-19 南通大学 一种耦合注意力和上下文的轻量化小目标检测方法
CN113673616B (zh) * 2021-08-26 2023-09-29 南通大学 一种耦合注意力和上下文的轻量化小目标检测方法
CN113837058A (zh) * 2021-09-17 2021-12-24 南通大学 一种耦合上下文聚合网络的轻量化雨水篦子检测方法
CN113837058B (zh) * 2021-09-17 2022-09-30 南通大学 一种耦合上下文聚合网络的轻量化雨水篦子检测方法
CN115049607A (zh) * 2022-06-10 2022-09-13 四川轻化工大学 一种基于YOLOx_s增强目标特征检测的绝缘板缺陷识别方法
CN114821246A (zh) * 2022-06-28 2022-07-29 山东省人工智能研究院 基于多层次残差网络感知和注意力机制的小目标检测方法
CN114821246B (zh) * 2022-06-28 2022-10-14 山东省人工智能研究院 基于多层次残差网络感知和注意力机制的小目标检测方法
CN114998576A (zh) * 2022-08-08 2022-09-02 广东电网有限责任公司佛山供电局 一种输电线路开口销缺失检测方法、装置、设备和介质
CN115393596A (zh) * 2022-10-28 2022-11-25 武汉纺织大学 一种基于人工智能的服装图像分割方法
CN116310358A (zh) * 2023-02-23 2023-06-23 哈尔滨市科佳通用机电股份有限公司 铁路货车螺栓丢失检测方法、存储介质及设备
CN116310358B (zh) * 2023-02-23 2023-12-15 哈尔滨市科佳通用机电股份有限公司 铁路货车螺栓丢失检测方法、存储介质及设备
CN116106880A (zh) * 2023-04-13 2023-05-12 北京理工大学 基于注意力机制和多尺度融合的水下声源测距方法和装置

Also Published As

Publication number Publication date
CN112329658B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN112329658B (zh) 一种对于yolov3网络的检测算法改进方法
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN111476219B (zh) 智能家居环境中图像目标检测方法
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN113066017B (zh) 一种图像增强方法、模型训练方法及设备
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN112766188B (zh) 一种基于改进yolo算法的小目标行人检测方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN113065645B (zh) 孪生注意力网络、图像处理方法和装置
CN110222718B (zh) 图像处理的方法及装置
CN112884033B (zh) 一种基于卷积神经网络的生活垃圾分类检测方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN113326930A (zh) 数据处理方法、神经网络的训练方法及相关装置、设备
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
CN116485860A (zh) 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法
US20220215617A1 (en) Viewpoint image processing method and related device
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN113963272A (zh) 一种基于改进yolov3的无人机图像目标检测方法
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN115565043A (zh) 结合多表征特征以及目标预测法进行目标检测的方法
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant