CN111967305B - 一种基于轻量级卷积神经网络的实时多尺度目标检测方法 - Google Patents

一种基于轻量级卷积神经网络的实时多尺度目标检测方法 Download PDF

Info

Publication number
CN111967305B
CN111967305B CN202010619209.1A CN202010619209A CN111967305B CN 111967305 B CN111967305 B CN 111967305B CN 202010619209 A CN202010619209 A CN 202010619209A CN 111967305 B CN111967305 B CN 111967305B
Authority
CN
China
Prior art keywords
layer
scale
feature map
target
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010619209.1A
Other languages
English (en)
Other versions
CN111967305A (zh
Inventor
林耀荣
李环
张国雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Changyou Electronic Co ltd
South China University of Technology SCUT
Original Assignee
Guangzhou Changyou Electronic Co ltd
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Changyou Electronic Co ltd, South China University of Technology SCUT filed Critical Guangzhou Changyou Electronic Co ltd
Priority to CN202010619209.1A priority Critical patent/CN111967305B/zh
Publication of CN111967305A publication Critical patent/CN111967305A/zh
Application granted granted Critical
Publication of CN111967305B publication Critical patent/CN111967305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于轻量级卷积神经网络的实时多尺度目标检测方法,该检测方法过程如下:采用聚类算法对训练数据集样本目标的高宽比和面积尺度系数进行聚类,聚类中心用于优化锚点框设置;利用轻量级卷积神经网络作为RetinaNet框架的骨干网络,降低模型复杂度;同时利用残差模块对多尺度特征图进行增强,对部分增强多尺度特征图进行自适应跨层特征融合,最后利用生成的融合特征金字塔代替特征金字塔,提高模型对中小目标的检测精度。本发明公开的轻量级多尺度目标检测方法,可以在保证一定准确率的情况下,减少模型的参数量,降低模型的运算复杂度,提高模型的检测效率。

Description

一种基于轻量级卷积神经网络的实时多尺度目标检测方法
技术领域
本发明主要涉及基于深度学习的目标检测技术领域,具体涉及一种基于轻量级卷积神经网络的实时多尺度目标检测方法。
背景技术
识别不同大小的物体是计算机视觉中的一个难点。目标尺度变化范围很大的目标检测是非常具有挑战性的问题。自动驾驶场景中的车辆行人检测是典型的多尺度目标检测问题。基于路况拍摄的视频或者图像中,车辆和行人的尺度分布范围很广,且中小尺度目标占比很大。通用的目标检测算法对中小尺度的车辆和行人目标检测精度较低。特征金字塔网络FPN提供多层融合特征,是实现多尺度目标检测的一种有效方法。RetinaNet是基于FPN特征实现的一种单阶段目标检测算法,在检测速度方面具有单阶段算法的优势,性能接近双阶段目标检测算法。使用轻量级卷积神经网络作为RetinaNet的骨干网络,并对多层融合特征和预测网络进行优化,可以在保证一定准确率的情况下,减少模型的参数量,降低模型的运算复杂度。
发明内容
有鉴于此,本发明提供一种基于轻量级卷积神经网络的实时多尺度目标检测方法,可以在保证检测准确率的前提下,降低基于卷积神经网络的多尺度目标检测方法中计算复杂度高的问题。
为了解决上述问题,本发明采用的技术方案为:
一种基于轻量级卷积神经网络的实时多尺度目标检测方法,所述的检测方法包括下列步骤:
S1、利用K-Means聚类算法对训练数据集样本所有目标的高宽比进行聚类,将聚类中心作为锚点框的高宽比;然后利用K-Means聚类算法分层聚类每层特征图的面积尺度系数,将聚类中心作为对应层锚点框的尺度系数;
S2、基于RetinaNet框架,使用轻量级卷积神经网络作为骨干网络提取图像特征,输出图像的多尺度特征图C3、C4和C5,对应原始输入图像的下采样比例分别为8、16和32;
S3、利用下采样模块对输出的多尺度特征图C5进行下采样,得到多尺度特征图C6,删除原始RetinaNet框架中检测目标占比最低的最大尺度特征图C7;其中,所述的下采样模块由步长为1的1×1卷积Conv层、整流线性单元ReLU层、步长为2的3×3卷积Conv层和整流线性单元ReLU层依次级联组成,每个卷积Conv层后均级联批归一化BN层;
S4、利用残差模块Res Block对多尺度特征图C3、C4、C5和C6分别进行处理,得到增强的多尺度特征图F3、F4、F5和F6;
所述的残差模块Res Block的一支路由1×1卷积Conv层、整流线性单元ReLU层、3×3卷积Conv层、整流线性单元ReLU层、1×1卷积Conv层和整流线性单元ReLU层依次级联组成,步长均为1,另一并行支路由一个1×1卷积Conv层组成,每个卷积Conv层后均级联批归一化BN层,两支路输出维度相同,采用逐元素相加的方法将两支路输出相加,经过整流线性单元ReLU层输出;利用该残差模块统一不同尺度的增强的多尺度特征图的通道数;
S5、对增强的多尺度特征图F6进行上采样,与增强的多尺度特征图F5进行融合得到融合特征图F5’;对融合特征图F5’与增强的多尺度特征图F3、F4进行自适应跨层特征融合,得到跨层融合特征图P3、P4和P5,P3、P4、P5和F6构成多尺度的融合特征金字塔,替代原始RetinaNet框架中的特征金字塔;
所述的融合特征图F5’由多尺度特征图F5经过一个1×1的卷积Conv层,与增强的多尺度特征图F6两倍上采样后的特征图逐元素相加,再经过一个步长为1的3×3的卷积Conv层得到;
S6、将步骤S5生成的融合特征金字塔,输入至预测网络进行目标分类和目标坐标回归;
S7、利用Focal Loss损失函数训练模型,获得经过训练的网络模型;
S8、利用经过训练的网络模型对输入图像进行检测,输出检测的目标的类别和坐标。
进一步地,所述的步骤S1中,对训练数据集样本的目标框的高宽比进行统计,将高宽比最小的Th%的目标框和高宽比最大的Th%的目标框去除,防止异常高宽比影响聚类的结果,其中Th为去除异常高宽比目标框的百分比阈值;利用K-Means算法对剩余的目标框的高宽比进行聚类,聚类距离采用欧氏距离,将聚类中心作为锚点框的高宽比ri,i取1~NR,其中NR为每层特征图对应的锚点框的不同高宽比数目;
确定高宽比后,利用K-Means聚类算法分层聚类每层特征图的面积尺度系数,聚类中心作为对应层k的锚点框的尺度系数λkj,k取3~6,j取1~NS,其中NS为每层特征图对应的锚点框的不同面积尺度数目;根据第3~6层特征图的尺度系数fsk={8,16,32,64},计算每层特征图对应的锚点框面积范围,根据此范围把所述训练数据集样本中的目标框按照面积从小到大依次分配到第3~6层特征层;第k层只对分配到第k层的训练数据集样本的目标框聚类,每层NS个聚类中心,聚类时,第j个聚类中心对应NR个不同形状的边界框boxij,i取1~NR,边界框boxij的高为
Figure BDA0002564618400000031
宽为
Figure BDA0002564618400000032
训练数据集中的目标框GBox与第j个聚类中心的聚类距离定义为:
Figure BDA0002564618400000041
其中,IOU定义为两个边界框A和B的交并比:
Figure BDA0002564618400000042
式中,A∩B表示边界框A和B重叠的区域,A∪B表示边界框A和B的区域并集;聚类优化后第k层的锚点框共有NR×NS个,高设为
Figure BDA0002564618400000043
宽设为
Figure BDA0002564618400000044
所述的自适应跨层融合指其中任意一层输出的特征图都融合其余输入层的语义信息,通过学习得到每层特征图的权重矩阵,对特征图与其相对应的权重矩阵进行加权求和,即得到自适应跨层融合后的特征图,其计算过程由自适应跨层融合模块实现,具体如下:
自适应跨层融合模块的输入FI3、FI4和FI5分别对应F3、F4和F5’,对于其中任意一层n的输入FIn,n分别取3,4,5,把其它层的输入FIm通过2l倍上采样或者下采样转换为与FIn一样尺寸的特征图FImn,其中,m取3~5,m≠n,FInn=FIn,l取1或2;3个特征图FImn,m取3~5,分别经过一个通道数为CHcom的1×1卷积Conv层将每层特征通道数压缩为CHcom,将输出沿通道拼接,得到一个通道数为CHcom*3、大小与FIn相同的特征图,将该特征图通过一个通道数为3的1×1卷积Conv层,对输出再进行Softmax运算产生一个通道数为3、大小与FIn相同的权重矩阵,权重矩阵各个通道表示为Wm,最后将FImn乘上对应通道的权重矩阵Wm求和,得到融合特征Pn;
Figure BDA0002564618400000045
其中,上采样采用最近邻插值,2倍下采样采用步长为2的3×3卷积Conv层实现,4倍下采样采用步长为2的最大池化层与步长为2的3×3卷积Conv层级联实现。
进一步地,所述的预测网络中的分类子网络由3个3×3的卷积Conv层级联构成,前两个卷积Conv层的输出通道数为CHcls,最后一个卷积Conv层的输出通道数为锚点框个数An与类别数C的乘积,输出为分类置信度,表示对应预测框分别属于每个类别的概率;
所述的预测网络中的定位子网络由3个3×3的卷积Conv层级联构成,前两个卷积Conv层的输出通道数为CHloc,最后一个卷积Conv层的输出通道数为锚点框个数An与坐标维度4的乘积,表示预测框相对于真实框的坐标偏移;
进一步地,通过减少预测网络中卷积Conv层的通道数CHcls和CHloc,以降低预测网络的计算复杂度。
本发明相对于现有技术具有如下的优点及效果:
本发明利用轻量级卷积神经网络作为RetinaNe框架的骨干网络提取图像特征,降低模型复杂度;同时利用残差模块对多尺度特征图进行增强,对部分增强多尺度特征图进行自适应跨层特征融合,最后利用生成的融合特征金字塔代替特征金字塔,提高模型对中小目标的检测精度。本发明通过这些优化措施,在兼顾检测精度的同时,降低了模型的复杂度,保证了检测的实时性。
附图说明
图1是本发明方法的网络结构图;
图2是本发明方法的自适应跨层特征融合流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1给出本发明公开的一种基于轻量级卷积神经网络的实时多尺度目标检测方法的网络结构图,方法具体包括以下步骤:
步骤T1、利用K-Means聚类算法对训练数据集样本所有目标的高宽比进行聚类,聚类中心作为锚点框的高宽比;确定高宽比后,利用K-Means聚类算法分层聚类每层特征图的面积尺度系数,聚类中心作为对应层锚点框的尺度系数;
首先,对所述训练数据集样本的目标框的高宽比进行统计,将高宽比最小的Th%的目标框和高宽比最大的Th%的目标框去除,防止异常高宽比影响聚类的结果,其中Th为去除异常高宽比目标框的百分比阈值;利用K-Means算法对剩余的目标框的高宽比进行聚类,聚类距离采用欧氏距离,将聚类中心作为锚点框的高宽比ri,i取1~NR,其中NR为每层特征图对应的锚点框的不同高宽比数目;
确定高宽比后,利用K-Means聚类算法分层聚类每层特征图的面积尺度系数,聚类中心作为对应层k的锚点框的尺度系数λkj,k取3~6,j取1~NS,其中NS为每层特征图对应的锚点框的不同面积尺度数目;根据第3~6层特征图的尺度系数fsk={8,16,32,64},k=3~6,可以计算每层特征图对应的锚点框面积范围,根据此范围把所述训练数据集样本中的目标框按照面积从小到大依次分配到第3~6层特征层;第k层只对分配到第k层的训练数据集样本的目标框聚类,每层NS个聚类中心,聚类时,第j个聚类中心对应NR个不同形状的边界框boxij,i取1~NR,边界框boxij的高为
Figure BDA0002564618400000061
宽为
Figure BDA0002564618400000062
训练数据集中的目标框GBox与第j个聚类中心的聚类距离定义为:
Figure BDA0002564618400000063
其中,IOU定义为两个边界框A和B的交并比:
Figure BDA0002564618400000071
其中,A∩B表示边界框A和B重叠的区域,A∪B表示边界框A和B的区域并集;聚类优化后第k层的锚点框共有NR×NS个,高设为
Figure BDA0002564618400000072
宽设为
Figure BDA0002564618400000073
其中i取1~NR,j取1~NS;在本实施例中,采用的训练数据集为针对车辆行人检测的KITTI数据集,NR和NS均取3,阈值Th取1.5;
步骤T2、基于RetinaNet框架,选取轻量级卷积神经网络作为骨干网络提取图像特征,轻量级卷积神经网络可以选择PeleeNet、ShuffleNet和MobileNet等网络,在本实施例中,选择PeleeNet作为骨干网络,输出图像的多尺度特征图C3、C4和C5,对应原始输入图像的下采样比例分别为8、16和32;
删除PeleeNet末端的全连接层、平均池化层与1×1的卷积Conv层,剩下的网络作为RetinaNet的骨干网络,从PeleeNet的stage2,stage3,stage4处输出一组长宽依次减半、通道数依次增加的多尺度特征图C3、C4、C5,该组特征图的通道数为{256,512,704};
步骤T3、对输出的多尺度特征图C5进行下采样,得到多尺度特征图C6,删除原始RetinaNet框架中检测目标占比最低的最大尺度特征图C7;
上述下采样模块由步长为1的1×1卷积Conv层、整流线性单元ReLU层、步长为2的3×3卷积Conv层和整流线性单元ReLU层级联组成的,每个卷积Conv层后均级联批归一化BN层;
步骤T4、利用残差模块对多尺度特征图C3、C4、C5和C6分别进行处理,得到增强的多尺度特征图F3、F4、F5和F6;
如图1所示,残差模块的一支路由1×1卷积Conv层、整流线性单元ReLU层、3×3卷积Conv层、整流线性单元ReLU层、1×1卷积Conv层和整流线性单元ReLU层级联组成,步长均为1,另一并行支路由一个1×1卷积Conv层组成,每个卷积Conv层后均级联批归一化BN层,两支路输出维度相同,采用逐元素相加的方法将两支路输出相加,经过整流线性单元ReLU层输出;利用上述的残差模块统一不同尺度的增强特征图的通道数;
步骤T5、对增强的多尺度特征图F6进行上采样,与增强的多尺度特征图F5进行融合得到融合特征图F5’;对融合特征图F5’与增强多尺度特征图F3、F4进行自适应跨层特征融合,得到跨层融合特征图P3、P4和P5,P3、P4、P5和F6构成多尺度的融合特征金字塔,替代原始RetinaNet框架中的特征金字塔;
融合特征图F5’由多尺度特征图F5经过一个1×1的卷积Conv,与增强的多尺度特征图F6两倍上采样后的特征图逐元素相加,再经过一个步长为1的3×3的卷积Conv层得到;
自适应跨层融合指其中任意一层输出的特征图都融合其余输入层的语义信息,通过学习得到每层特征图的权重矩阵,对特征图与其相对应的权重矩阵进行加权求和,即得到自适应跨层融合后的特征图,其计算过程由自适应跨层融合模块实现,具体如下:
FI3、FI4和FI5分别对应F3、F4和F5’;对于其中任意一层n的输入FIn,n取3,4,5,把其他层的输入FIm通过2l倍上采样或者下采样转换为与FIn一样尺寸的特征图FImn,其中,m取3~5,m≠n,FInn=FIn,l取1或2;3个特征图FImn,m取3~5,分别经过一个通道数为CHcom的1×1卷积Conv层将每层特征通道数压缩为CHcom,将输出沿通道拼接,得到一个通道数为CHcom*3、大小与FIn相同的特征图,将该特征图通过一个通道数为3的1×1卷积Conv层,对输出再进行Softmax运算产生一个通道数为3、大小与FIn相同的权重矩阵,权重矩阵各个通道表示为Wm,最后将FImn乘上对应通道的权重矩阵Wm求和,得到融合特征Pn;
Figure BDA0002564618400000091
其中,上采样采用最近邻插值,2倍下采样采用步长为2的3×3卷积Conv层实现,4倍下采样采用步长为2的最大池化层与步长为2的3×3卷积Conv层级联实现;图2展示了特征层FI5的自适应跨层融合流程图,首先对FI4进行2倍下采样得到FI45,FI3进行一次步长为2的最大池化操作后,再进行一次2倍下采样得到FI35,FI5、FI45、FI35作为输入计算3个权重矩阵W3、W4和W5,FI55=FI5,融合特征P5=W3·FI35+W4·FI45+W5·FI55;在本实施例中,CHcom取16;
步骤T6、将步骤T5生成的融合特征金字塔P3~P5和F6,输入至预测网络进行目标分类和目标坐标回归,如图1所示;
预测网络中的特征图的宽和高分别为W和H,预测网络中的分类子网络由3个3×3的卷积Conv层级联构成,前两个卷积Conv层的输出通道数为CHcls,最后一个卷积Conv层的输出通道数为锚点框个数An与类别数C的乘积,输出为分类置信度,表示对应预测框分别属于每个类别的概率;
定位子网络由3个3×3的卷积Conv层级联构成,前两个卷积Conv层的输出通道数为CHloc,最后一个卷积Conv层的输出通道数为锚点框个数An与坐标维度4的乘积,表示预测框相对于真实框的坐标偏移;
减少预测网络中卷积Conv层的通道数CHcls和CHloc,可以降低预测网络的计算复杂度;在本实施例中,CHcls与CHloc均取为128,An=NR×NS=9;
步骤T7、利用Focal Loss损失函数训练模型,获得训练后的网络模型;
Focal Loss损失函数可以增强网络对于困难样本的学习能力,公式如下:
Figure BDA0002564618400000101
其中y为真实标签,取值1或-1,1表示为正例,-1表示为负例;p表示预测样本为正例的概率值,范围为0~1,α为权重系数,用于解决正负样本不平衡的问题;γ为聚焦系数,主要针对难易样本不均衡的问题;α和γ使网络更关注分类困难的样本,以此降低误分类,提高网络的检测性能;本实施例中,α取0.25,γ取2;
步骤T8、利用经过训练的网络模型对输入图像进行检测,输出检测的目标的类别和坐标。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于轻量级卷积神经网络的实时多尺度目标检测方法,其特征在于,所述的检测方法包括下列步骤:
S1、利用K-Means聚类算法对训练数据集样本所有目标的高宽比进行聚类,将聚类中心作为锚点框的高宽比;然后利用K-Means聚类算法分层聚类每层特征图的面积尺度系数,将聚类中心作为对应层锚点框的尺度系数;
S2、基于RetinaNet框架,使用轻量级卷积神经网络作为骨干网络提取图像特征,输出图像的多尺度特征图C3、C4和C5,对应原始输入图像的下采样比例分别为8、16和32;
S3、利用下采样模块对输出的多尺度特征图C5进行下采样,得到多尺度特征图C6,删除原始RetinaNet框架中检测目标占比最低的最大尺度特征图C7;其中,所述的下采样模块由步长为1的1×1卷积Conv层、整流线性单元ReLU层、步长为2的3×3卷积Conv层和整流线性单元ReLU层依次级联组成,每个卷积Conv层后均级联批归一化BN层;
S4、利用残差模块Res Block对多尺度特征图C3、C4、C5和C6分别进行处理,得到增强的多尺度特征图F3、F4、F5和F6;
所述的残差模块Res Block的一支路由1×1卷积Conv层、整流线性单元ReLU层、3×3卷积Conv层、整流线性单元ReLU层、1×1卷积Conv层和整流线性单元ReLU层依次级联组成,步长均为1,另一并行支路由一个1×1卷积Conv层组成,每个卷积Conv层后均级联批归一化BN层,两支路输出维度相同,采用逐元素相加的方法将两支路输出相加,经过整流线性单元ReLU层输出;利用该残差模块统一不同尺度的增强的多尺度特征图的通道数;
S5、对增强的多尺度特征图F6进行上采样,与增强的多尺度特征图F5进行融合得到融合特征图F5’;对融合特征图F5’与增强的多尺度特征图F3、F4进行自适应跨层特征融合,得到跨层融合特征图P3、P4和P5,P3、P4、P5和F6构成多尺度的融合特征金字塔,替代原始RetinaNet框架中的特征金字塔;
所述的融合特征图F5’由多尺度特征图F5经过一个1×1的卷积Conv层,与增强的多尺度特征图F6两倍上采样后的特征图逐元素相加,再经过一个步长为1的3×3的卷积Conv层得到;
S6、将步骤S5生成的融合特征金字塔,输入至预测网络进行目标分类和目标坐标回归;
S7、利用Focal Loss损失函数训练模型,获得经过训练的网络模型;
S8、利用经过训练的网络模型对输入图像进行检测,输出检测的目标的类别和坐标。
2.根据权利要求1所述的一种基于轻量级卷积神经网络的实时多尺度目标检测方法,其特征在于,所述的步骤S1中,
对训练数据集样本的目标框的高宽比进行统计,将高宽比最小的Th%的目标框和高宽比最大的Th%的目标框去除,其中Th为去除异常高宽比目标框的百分比阈值;利用K-Means算法对剩余的目标框的高宽比进行聚类,聚类距离采用欧氏距离,将聚类中心作为锚点框的高宽比ri,i取1~NR,其中NR为每层特征图对应的锚点框的不同高宽比数目;
确定高宽比后,利用K-Means聚类算法分层聚类每层特征图的面积尺度系数,聚类中心作为对应层k的锚点框的尺度系数λkj,k取3~6,j取1~NS,其中NS为每层特征图对应的锚点框的不同面积尺度数目;根据第3~6层特征图的尺度系数fsk={8,16,32,64},计算每层特征图对应的锚点框面积范围,根据此范围把所述训练数据集样本中的目标框按照面积从小到大依次分配到第3~6层特征层;第k层只对分配到第k层的训练数据集样本的目标框聚类,每层NS个聚类中心,聚类时,第j个聚类中心对应NR个不同形状的边界框boxij,i取1~NR,边界框boxij的高为
Figure FDA0002564618390000031
宽为
Figure FDA0002564618390000032
训练数据集中的目标框GBox与第j个聚类中心的聚类距离定义为:
Figure FDA0002564618390000033
其中,IOU定义为两个边界框A和B的交并比:
Figure FDA0002564618390000034
式中,A∩B表示边界框A和B重叠的区域,A∪B表示边界框A和B的区域并集;聚类优化后第k层的锚点框共有NR×NS个,高设为
Figure FDA0002564618390000035
宽设为
Figure FDA0002564618390000036
3.根据权利要求1所述的一种基于轻量级卷积神经网络的实时多尺度目标检测方法,其特征在于,所述的自适应跨层特征 融合指其中任意一层输出的特征图都融合其余输入层的语义信息,通过学习得到每层特征图的权重矩阵,对特征图与其相对应的权重矩阵进行加权求和,即得到自适应跨层融合后的特征图,其计算过程由自适应跨层融合模块实现,具体如下:
自适应跨层融合模块的输入FI3、FI4和FI5分别对应F3、F4和F5’,对于其中任意一层n的输入FIn,n分别取3,4,5,把其它层的输入FIm通过2l倍上采样或者下采样转换为与FIn一样尺寸的特征图FImn,其中,m取3~5,m≠n,FInn=FIn,l取1或2;3个特征图FImn,m取3~5,分别经过一个通道数为CHcom的1×1卷积Conv层将每层特征通道数压缩为CHcom,将输出沿通道拼接,得到一个通道数为CHcom*3、大小与FIn相同的特征图,将该特征图通过一个通道数为3的1×1卷积Conv层,对输出再进行Softmax运算产生一个通道数为3、大小与FIn相同的权重矩阵,权重矩阵各个通道表示为Wm,最后将FImn乘上对应通道的权重矩阵Wm求和,得到融合特征Pn;
Figure FDA0002564618390000041
其中,上采样采用最近邻插值,2倍下采样采用步长为2的3×3卷积Conv层实现,4倍下采样采用步长为2的最大池化层与步长为2的3×3卷积Conv层级联实现。
4.根据权利要求1所述的一种基于轻量级卷积神经网络的实时多尺度目标检测方法,其特征在于,所述的预测网络中的分类子网络由3个3×3的卷积Conv层级联构成,前两个卷积Conv层的输出通道数为CHcls,最后一个卷积Conv层的输出通道数为锚点框个数An与类别数C的乘积,输出为分类置信度,表示对应预测框分别属于每个类别的概率;
所述的预测网络中的定位子网络由3个3×3的卷积Conv层级联构成,前两个卷积Conv层的输出通道数为CHloc,最后一个卷积Conv层的输出通道数为锚点框个数An与坐标维度4的乘积,表示预测框相对于真实框的坐标偏移。
5.根据权利要求4所述的一种基于轻量级卷积神经网络的实时多尺度目标检测方法,其特征在于,通过减少预测网络中卷积Conv层的通道数CHcls和CHloc,以降低预测网络的计算复杂度。
CN202010619209.1A 2020-07-01 2020-07-01 一种基于轻量级卷积神经网络的实时多尺度目标检测方法 Active CN111967305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010619209.1A CN111967305B (zh) 2020-07-01 2020-07-01 一种基于轻量级卷积神经网络的实时多尺度目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010619209.1A CN111967305B (zh) 2020-07-01 2020-07-01 一种基于轻量级卷积神经网络的实时多尺度目标检测方法

Publications (2)

Publication Number Publication Date
CN111967305A CN111967305A (zh) 2020-11-20
CN111967305B true CN111967305B (zh) 2022-03-18

Family

ID=73360846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010619209.1A Active CN111967305B (zh) 2020-07-01 2020-07-01 一种基于轻量级卷积神经网络的实时多尺度目标检测方法

Country Status (1)

Country Link
CN (1) CN111967305B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017132830A1 (en) * 2016-02-02 2017-08-10 Xiaogang Wang Methods and systems for cnn network adaption and object online tracking
CN112711981A (zh) * 2020-12-02 2021-04-27 国网陕西省电力公司检修公司 一种高精度输电线路缺陷识别方法
CN112508099A (zh) * 2020-12-07 2021-03-16 国网河南省电力公司电力科学研究院 一种实时目标检测的方法和装置
CN113763417B (zh) * 2020-12-10 2023-07-21 四川大学 一种基于孪生网络和残差结构的目标跟踪方法
CN112686310B (zh) * 2020-12-30 2022-08-16 武汉大学 一种基于锚框的目标检测算法中先验框设计方法
CN112464915B (zh) * 2020-12-30 2024-03-26 南京积图网络科技有限公司 一种基于人体骨骼点检测的俯卧撑计数方法
CN112651500B (zh) * 2020-12-30 2021-12-28 深圳金三立视频科技股份有限公司 一种量化模型的生成方法及终端
CN112733754B (zh) * 2021-01-15 2024-08-20 上海有个机器人有限公司 红外夜视图像行人检测方法、电子设备及存储介质
CN112818871B (zh) * 2021-02-04 2024-03-29 南京师范大学 一种基于半分组卷积的全融合神经网络的目标检测方法
CN112801275B (zh) * 2021-02-08 2024-02-13 华南理工大学 一种加强通道重排和融合的卷积神经网络模块的实现方法
CN113159334B (zh) * 2021-02-24 2022-10-11 广西大学 基于轻量型深度学习的电气设备红外图像实时性检测与诊断方法
CN113160128B (zh) * 2021-03-03 2022-11-01 合肥图迅电子科技有限公司 用于led的缺陷检测方法以及存储介质
CN113011384B (zh) * 2021-04-12 2022-11-25 重庆邮电大学 一种基于轻量化卷积的无锚框目标检测方法
CN113065653B (zh) * 2021-04-27 2024-05-28 北京工业大学 面向移动端图像分类的轻量级卷积神经网络的设计方法
CN113269738B (zh) * 2021-05-18 2024-08-20 河北农业大学 一种葡萄叶病害检测方法
CN113344877A (zh) * 2021-06-08 2021-09-03 武汉工程大学 基于卷积神经网络的钢筋模型训练方法及装置
CN113111979B (zh) * 2021-06-16 2021-09-07 上海齐感电子信息科技有限公司 模型训练方法、图像检测方法及检测装置
CN113989754B (zh) * 2021-07-01 2024-09-24 华南理工大学 基于特征提取与聚合的车载行人检测方法
CN113780358A (zh) * 2021-08-16 2021-12-10 华北电力大学(保定) 一种基于无锚网络的实时金具检测方法
CN113850791B (zh) * 2021-09-28 2022-07-05 哈尔滨工业大学 一种基于两阶段MobileNet的卫浴陶瓷缺陷检测方法
CN113642549B (zh) * 2021-10-18 2022-01-04 中航信移动科技有限公司 快速目标检测系统和电子设备
CN113744164B (zh) * 2021-11-05 2022-03-15 深圳市安软慧视科技有限公司 一种快速夜间低照度图像增强方法、系统及相关设备
CN114067440B (zh) * 2022-01-13 2022-04-26 深圳佑驾创新科技有限公司 级联神经网络模型的行人检测方法、装置、设备及介质
CN114495029B (zh) * 2022-01-24 2023-07-21 中国矿业大学 一种基于改进YOLOv4的交通目标检测方法及系统
CN114419410A (zh) * 2022-01-25 2022-04-29 中国农业银行股份有限公司 一种目标检测方法、装置、设备及存储介质
CN114842241A (zh) * 2022-04-01 2022-08-02 北京理工大学 一种基于结构重参数化的目标检测加速方法
CN114529825B (zh) * 2022-04-24 2022-07-22 城云科技(中国)有限公司 用于消防通道占用目标检测的目标检测模型、方法及应用
CN114998590B (zh) * 2022-06-17 2024-07-09 东南大学 基于多尺度的简易数学表达式检测方法
CN114926667B (zh) * 2022-07-20 2022-11-08 安徽炬视科技有限公司 基于云边端协同的图像识别方法
CN115496917B (zh) * 2022-11-01 2023-09-26 中南大学 一种GPR B-Scan图像中的多目标检测方法及装置
CN116645523B (zh) * 2023-07-24 2023-12-01 江西蓝瑞存储科技有限公司 一种基于改进RetinaNet的快速目标检测方法
CN117351354B (zh) * 2023-10-18 2024-04-16 耕宇牧星(北京)空间科技有限公司 基于改进MobileViT的轻量级遥感图像目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647668A (zh) * 2018-05-21 2018-10-12 北京亮亮视野科技有限公司 多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法
CN110796009A (zh) * 2019-09-29 2020-02-14 航天恒星科技有限公司 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111126472A (zh) * 2019-12-18 2020-05-08 南京信息工程大学 一种基于ssd改进的目标检测方法
CN111222474A (zh) * 2020-01-09 2020-06-02 电子科技大学 一种任意尺度的高分辨率图像小目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651206B2 (en) * 2018-06-27 2023-05-16 International Business Machines Corporation Multiscale feature representations for object recognition and detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647668A (zh) * 2018-05-21 2018-10-12 北京亮亮视野科技有限公司 多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法
CN110796009A (zh) * 2019-09-29 2020-02-14 航天恒星科技有限公司 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111126472A (zh) * 2019-12-18 2020-05-08 南京信息工程大学 一种基于ssd改进的目标检测方法
CN111222474A (zh) * 2020-01-09 2020-06-02 电子科技大学 一种任意尺度的高分辨率图像小目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Road Detection via Deep Residual Dense U-Net;Xiaofei Yang 等;《2019 International Joint Conference on Neural Networks (IJCNN)》;20190719;第1-7页 *
基于卷积神经网络的彩色图像声呐目标检测;王晓 等;《计算机应用》;20190720;第39卷(第S1期);第187-191页 *

Also Published As

Publication number Publication date
CN111967305A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN111967305B (zh) 一种基于轻量级卷积神经网络的实时多尺度目标检测方法
CN112949673B (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN113392960B (zh) 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN110348384B (zh) 一种基于特征融合的小目标车辆属性识别方法
CN111144329B (zh) 一种基于多标签的轻量快速人群计数方法
CN112800906B (zh) 一种基于改进YOLOv3的自动驾驶汽车跨域目标检测方法
CN113743269B (zh) 一种轻量化识别视频人体姿态的方法
CN111310773A (zh) 一种高效的卷积神经网络的车牌定位方法
CN115862066A (zh) 一种改进YOLOv5的轻量化社区场景下行人检测方法
CN112990065A (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN112037228A (zh) 一种基于双倍注意力的激光雷达点云目标分割方法
CN117037119A (zh) 基于改进YOLOv8的道路目标检测方法及系统
CN115482518A (zh) 一种面向交通场景的可扩展多任务视觉感知方法
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN113011308A (zh) 一种引入注意力机制的行人检测方法
CN115797629A (zh) 基于检测增强和多阶段边界框特征细化的实例分割方法
CN114998879A (zh) 一种基于事件相机的模糊车牌识别方法
CN114022727B (zh) 一种基于图像知识回顾的深度卷积神经网络自蒸馏方法
CN112084897A (zh) 一种gs-ssd的交通大场景车辆目标快速检测方法
CN114882011A (zh) 一种基于改进Scaled-YOLOv4模型的织物瑕疵检测方法
CN117495825A (zh) 一种变电站塔杆异物检测方法
CN116630975A (zh) 一种基于特征表示分解和鸟瞰图融合的语义场景补全方法
CN116311154A (zh) 一种基于YOLOv5模型优化的车辆检测与识别方法
CN113887536B (zh) 一种基于高层语义引导的多阶段高效人群密度估计方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant