CN111242127A - 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 - Google Patents

基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 Download PDF

Info

Publication number
CN111242127A
CN111242127A CN202010042002.2A CN202010042002A CN111242127A CN 111242127 A CN111242127 A CN 111242127A CN 202010042002 A CN202010042002 A CN 202010042002A CN 111242127 A CN111242127 A CN 111242127A
Authority
CN
China
Prior art keywords
channel
layer
convolution
output
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010042002.2A
Other languages
English (en)
Other versions
CN111242127B (zh
Inventor
杨振坤
马向华
狄逸群
茅丰
于志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN202010042002.2A priority Critical patent/CN111242127B/zh
Publication of CN111242127A publication Critical patent/CN111242127A/zh
Application granted granted Critical
Publication of CN111242127B publication Critical patent/CN111242127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,包括以下步骤:步骤S1:通过视频流获取若干包含车辆的图片,制作车辆目标检测数据集,包括训练集和测试集;步骤S2:设计非对称卷积AC单元;步骤S3:将非对称卷积AC单元嵌入Res2Net模块构建具有粒度级多尺度特性的非对称卷积ACB模块;步骤S4:将ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet;步骤S5:利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet;步骤S6:将测试集图片放入分类网络ACBNet进行分类,之后再经过残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标。

Description

基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
技术领域
本发明涉及深度学习中的视频检测技术领域,特别涉及基于非对称卷积的具有粒度级多尺度特性的车辆检测方法。
背景技术
近年来,随着市场需求的增长以及人工智能的不断发展,自动驾驶逐步成为了各大学者研究的热点问题之一。车辆目标检测作为自动驾驶中的一个重要步骤,也是大家研究的主要问题之一。在智能交通监控视频中,目标检测技术也得到了广泛的应用。车辆检测技术是利用计算机视觉技术判断静态图像或动态视频中是否存在车辆并定位车辆的位置信息。在现实生活的交通场景中,车辆目标检测受到多种因素的干扰,如:光照、遮挡等。如何快速地、准确地对复杂交通场景下的车辆进行检测、识别已经成为一个值得深入研究的课题。基于深度学习特征提取的车辆检测方法学到的特征具有很强层次表达能力,可以更好的解决一些视觉问题。然而现有的基于深度学习的车辆检测方法鲁棒性以及解决多尺度问题表现欠佳。
发明内容
为了克服现有技术中的不足,本发明提供基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,用以解决现有技术中实时性和鲁棒性低、多尺度问题检测性能相对较差的问题。
为了达到上述发明目的,解决其技术问题所采用的技术方案如下:
基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,包括以下步骤:
步骤S1:通过视频流获取若干包含车辆的图片,制作车辆目标检测数据集,包括训练集和测试集;
步骤S2:设计非对称卷积AC单元;
步骤S3:将步骤S2设计的非对称卷积AC单元嵌入Res2Net模块构建具有粒度级别多尺度特性的非对称卷积ACB模块;
步骤S4:将步骤S3设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet;
步骤S5:利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet;
步骤S6:将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类,之后再经过具有通道和空间注意力的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标。
进一步的,步骤S2具体为:一个AC单元由卷积核为1×3和1×3、1×3、3×1三个平行分支组成,对于AC单元中的一个分支,
Figure BDA0002368082500000021
表示卷积层的输入,使用F=[g1,g1,...,gc]表示学习的卷积核集,其中gc表示对应的第c个卷积核的参数,
Figure BDA0002368082500000022
表示卷积层的输出,H、W、C分别表示输出特征图的高度、宽度、通道数,对于该层的第c个滤波器,对应的输出特征图通道为:
Figure BDA0002368082500000023
其中,*表示卷积,
Figure BDA0002368082500000024
U=[V1,V2,...,VC],
Figure BDA0002368082500000025
I=[Y1,Y2,...,YD]和
Figure BDA0002368082500000026
表示gc的单个通道的二维空间核,Vc表示U的第c个输出特征图通道,Ys表示I的第s个输入特征图通道;
为了减少过拟合,在卷积层之后采用批量归一化操作,批处理后的归一化层进行线性尺度变换以增强网络的表示能力,输出特征映射通道变为:
Figure BDA0002368082500000027
其中,uc和σc表示通道平均值和批量归一化的标准偏差,γc和βc分别表示学习尺度因子和偏差项;
每一层中的每个卷积操作之后都要进行批量归一化,称为一个分支,三个分支的输出汇总为AC单元的输出,对于卷积核为1×3和3×1的分支,该分支中输入特征图首先经过卷积核为1×3的卷积层,对于1×3的卷积层中第c个滤波器,对应的输出特征图通道为:
Figure BDA0002368082500000031
其中,
Figure BDA0002368082500000032
表示
Figure BDA0002368082500000033
的单个通道的二维空间核,
Figure BDA0002368082500000034
Figure BDA0002368082500000035
表示通道平均值和批量归一化的标准偏差,
Figure BDA0002368082500000036
Figure BDA0002368082500000037
分别表示学习尺度因子和偏差项;
之后1×3的卷积层的输出特征图进入卷积核为3×1的卷积层,对于3×1的卷积层中第c个滤波器,对应的输出特征图通道为:
Figure BDA0002368082500000038
其中,
Figure BDA0002368082500000039
表示
Figure BDA00023680825000000310
的单个通道的二维空间核,
Figure BDA00023680825000000311
Figure BDA00023680825000000312
表示通道平均值和批量归一化的标准偏差,
Figure BDA00023680825000000313
Figure BDA00023680825000000314
分别表示学习尺度因子和偏差项;
对于卷积核为1×3的分支,该层的第c个滤波器对应的输出特征图通道为:
Figure BDA00023680825000000315
其中,
Figure BDA00023680825000000316
表示
Figure BDA00023680825000000317
的单个通道的二维空间核,
Figure BDA00023680825000000318
Figure BDA00023680825000000319
表示通道平均值和批量归一化的标准偏差,
Figure BDA00023680825000000320
Figure BDA00023680825000000321
分别表示学习尺度因子和偏差项;
对于卷积核为3×1的分支,该层的第c个滤波器对应的输出特征图通道为:
Figure BDA0002368082500000041
其中,
Figure BDA0002368082500000042
表示
Figure BDA0002368082500000043
的单个通道的二维空间核,
Figure BDA0002368082500000044
Figure BDA0002368082500000045
表示通道平均值和批量归一化的标准偏差,
Figure BDA0002368082500000046
Figure BDA0002368082500000047
分别表示学习尺度因子和偏差项;
将三个分支第c个滤波器对应的输出特征图相加得到AC单元的输出,记为:
Figure BDA0002368082500000048
其中,
Figure BDA0002368082500000049
表示卷积核为1×3和3×1分支的第c个通道上的输出特征图,
Figure BDA00023680825000000410
表示卷积核为1×3分支的第c个通道上的输出特征图,
Figure BDA00023680825000000411
表示卷积核为3×1分支的第c个通道上的输出特征图。
进一步的,步骤S3具体为:经过1×1的卷积,将特征映射平均分割成s个特征映射子集,用xi表示,其中i∈{1,2,…,s},与输入特征图相比,每个特征子集xi具有相同的空间大小,但通道数为1/s,除了x1,每个xi都有一个对应的AC单元,记Ki(),ACB模块的输出yi可以写成:
Figure BDA00023680825000000412
其中,xi表示输入特征图,yi表示输出特征图,Ki表示非对称卷积核。
进一步的,步骤S4具体为:将设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet:
ACBNet网络的第一层是输入图像;
第二层是Conv1卷积层,卷积步长为2,卷积核大小和数量分别为3×3和24;
第三层是Pool池化层,选用最大池化操作,池化大小和步长分别为3×3和2;
第四层是Stage2层,其中包含1个步长为2,输出特征图数量为116的ACB模块,3个步长为1,输出特征图数量为116的ACB模块;
第五层是Stage3层,其中包含1个步长为2,输出特征图数量为232的ACB模块,7个步长为1,输出特征图数量为232的ACB模块;
第六层是Stage4层,其中包含1个步长为2,输出特征图数量为464的ACB模块,3个步长为1,输出特征图数量为464的ACB模块;
第七层是Conv5卷积层,卷积步长为1,卷积核大小和数量分别为1×1和1024;
第八层是Pool池化层,选用全局平均值化操作;
第九层是FC全卷积层,输出维数为1000。
进一步的,步骤S5具体为:选择在所制作的车辆目标训练集上实验,利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet。
进一步的,步骤S6具体为:首先将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类;之后通过具有通道和空间注意力构建块的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标:
一个通道和空间注意力构建块具有三个分支,第一个分支是通道注意力构建块,第二个跳跃分支,第三个分支是空间注意力分支;
对于一个进入通道注意力分支的特征图Q=[q1,q2,...,qc],通道注意力分支使用全局平均池来生成通道统计信息,通过将Q缩小到其空间维度为H×W来生成特征统计量
Figure BDA0002368082500000051
使得特征统计量z的第c个元素通过以下公式计算:
Figure BDA0002368082500000052
其中,Fga(·)表示全局平均池操作符,qc表示特征图Q的第c个通道特征图,qc(i,j)表示特征图Q的第c个通道上位置为(i,j)的像素点;
此外,为了利用在全局平均池中聚合的信息,然后进行第二操作,其目的是充分利用不同特征映射之间的依赖性,为了实现这种效果,使用具有参数T1和缩减率r的维度降低层,ReLU层和具有参数T2的维度增加层,完全连接层用于降维层和维度增加层,通道的平均注意力计算为:
s=T2δ(T1z) (1.10)
其中,
Figure BDA0002368082500000061
δ为ReLU函数,
Figure BDA0002368082500000062
对于一个进入空间注意力分支的特征图Q,首先沿相应通道轴进行全局平均池化操作,然后通过大小为3×3的卷积核产生2D空间注意力图
Figure BDA0002368082500000063
M′=F3×3(Hmean(Q)) (1.11)
其中,F3×3表示卷积核大小为3×3的卷积运算,Hmean指的是沿相应通道轴的全局平均池化操作,在上一步骤中生成的2d空间注意图M′基础上,生成多维空间注意图
Figure BDA0002368082500000064
M=F1×1(F3×3(Hmean(Q))) (1.12)
其中,F1×1表示卷积核大小为1×1的卷积运算,然后,使用全局平均池来生成通道统计量,通过将M缩小到其空间维度H×W来生成统计量
Figure BDA0002368082500000065
使得统计量n的第c个元素通过以下公式计算:
Figure BDA0002368082500000066
其中,mc表示特征图M的第c个通道特征图,mc(i,j)表示空间注意图M的第c个通道上位置为(i,j)的像素点;
之后,将通道注意力和空间注意力两个分支输出结果相加,再对两个分支得到的结果对信道方向的数字应用一个简单的sigmoid运算符,得到如下结果:
R=σ(s+n) (1.14)
其中,R表示通道注意力和空间注意力两个分支应用sigmoid运算符之后得到的输出特征图,σ表示sigmoid运算符,最后将上一步得到的输出结果与第二个分支对信道方向的像素应用一个multiplication算子得到最终输出特征图G,可写为:
G=Q·R (1.15)。
本发明由于采用以上技术方案,使之与现有技术相比,具有以下的优点和积极效果:
本发明所构建的基于卷积神经网络的车辆目标分类网络ACBNet,通过设计一种非对称卷积单元,增强了模型对图像特征旋转畸变的鲁棒性。将所设计的非对称卷积单元嵌入Res2Net模块,在更细粒度的层次上提高车辆检测模型的多尺度检测能力。将设计的非对称卷积模块嵌入轻量化模型ShuffleNetV2中,提高了模型的检测速度。在残差预测模块中使用通道和空间注意力,使网络更好地定位特征分布。并且由于整个模型利用轻量化模型ShuffleNetV2作为骨干网络,有效提高了车辆检测的快速性。所构建的车辆检测模型在提高检测准确度的同时,具有较好的检测实时性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图中:
图1是本发明基于非对称卷积的具有粒度级多尺度特性的车辆检测方法的流程示意图;
图2是本发明基于非对称卷积的具有粒度级多尺度特性的车辆检测方法中非对称卷积AC单元的结构示意图;
图3是本发明基于非对称卷积的具有粒度级多尺度特性的车辆检测方法中ACB模块的结构示意图;
图4是本发明基于非对称卷积的具有粒度级多尺度特性的车辆检测方法中具有通道和空间注意力构建块的残差预测模块的结构示意图。
具体实施方式
以下将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整的描述和讨论,显然,这里所描述的仅仅是本发明的一部分实例,并不是全部的实例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本实施例公开了基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,包括以下步骤:
步骤S1:通过视频流获取若干包含车辆的图片,制作车辆目标检测数据集,包括训练集和测试集;
步骤S2:设计非对称卷积AC单元;
进一步的,步骤S2所述设计非对称卷积AC单元包括以下步骤:
一个AC单元由卷积核为1×3和1×3、1×3、3×1三个平行分支组成,图2显示了AC单元的结构图,对于AC单元中的一个分支,
Figure BDA0002368082500000081
表示卷积层的输入,使用F=[g1,g2,...,gc]表示学习的卷积核集,其中gc表示对应的第c个卷积核的参数,
Figure BDA0002368082500000082
表示卷积层的输出,H、W、C分别表示输出特征图的高度、宽度、通道数,对于该层的第c个滤波器,对应的输出特征图通道为:
Figure BDA0002368082500000083
其中,*表示卷积,
Figure BDA0002368082500000084
U=[V1,V2,...,VC],
Figure BDA0002368082500000085
I=[Y1,Y2,...,YD]和
Figure BDA0002368082500000086
表示gc的单个通道的二维空间核,Vc表示U的第c个输出特征图通道,Ys表示I的第s个输入特征图通道;
为了减少过拟合,在卷积层之后采用批量归一化操作,批处理后的归一化层进行线性尺度变换以增强网络的表示能力,输出特征映射通道变为:
Figure BDA0002368082500000091
其中,uc和σc表示通道平均值和批量归一化的标准偏差,γc和βc分别表示学习尺度因子和偏差项;
每一层中的每个卷积操作之后都要进行批量归一化,称为一个分支,三个分支的输出汇总为AC单元的输出,对于卷积核为1×3和3×1的分支,该分支中输入特征图首先经过卷积核为1×3的卷积层,对于1×3的卷积层中第c个滤波器,对应的输出特征图通道为:
Figure BDA0002368082500000092
其中,
Figure BDA0002368082500000093
表示
Figure BDA0002368082500000094
的单个通道的二维空间核,
Figure BDA0002368082500000095
Figure BDA0002368082500000096
表示通道平均值和批量归一化的标准偏差,
Figure BDA0002368082500000097
Figure BDA0002368082500000098
分别表示学习尺度因子和偏差项;
之后1×3的卷积层的输出特征图进入卷积核为3×1的卷积层,对于3×1的卷积层中第c个滤波器,对应的输出特征图通道为:
Figure BDA0002368082500000099
其中,
Figure BDA00023680825000000910
表示
Figure BDA00023680825000000911
的单个通道的二维空间核,
Figure BDA00023680825000000912
Figure BDA00023680825000000913
表示通道平均值和批量归一化的标准偏差,
Figure BDA00023680825000000914
Figure BDA00023680825000000915
分别表示学习尺度因子和偏差项;
对于卷积核为1×3的分支,该层的第c个滤波器对应的输出特征图通道为:
Figure BDA00023680825000000916
其中,
Figure BDA0002368082500000101
表示
Figure BDA0002368082500000102
的单个通道的二维空间核,
Figure BDA0002368082500000103
Figure BDA0002368082500000104
表示通道平均值和批量归一化的标准偏差,
Figure BDA0002368082500000105
Figure BDA0002368082500000106
分别表示学习尺度因子和偏差项;
对于卷积核为3×1的分支,该层的第c个滤波器对应的输出特征图通道为:
Figure BDA0002368082500000107
其中,
Figure BDA0002368082500000108
表示
Figure BDA0002368082500000109
的单个通道的二维空间核,
Figure BDA00023680825000001010
Figure BDA00023680825000001011
表示通道平均值和批量归一化的标准偏差,
Figure BDA00023680825000001012
Figure BDA00023680825000001013
分别表示学习尺度因子和偏差项;
将三个分支第c个滤波器对应的输出特征图相加得到AC单元的输出,记为:
Figure BDA00023680825000001014
其中,
Figure BDA00023680825000001015
表示卷积核为1×3和3×1分支的第c个通道上的输出特征图,
Figure BDA00023680825000001016
表示卷积核为1×3分支的第c个通道上的输出特征图,
Figure BDA00023680825000001017
表示卷积核为3×1分支的第c个通道上的输出特征图。
步骤S3:将步骤S2设计的非对称卷积AC单元嵌入Res2Net模块构建具有粒度级别多尺度特性的非对称卷积ACB模块;
进一步的,步骤S3所述构建具有粒度级别多尺度特性的非对称卷积ACB模块包括以下步骤:
图3显示了ACB模块的结构图,经过1×1的卷积,将特征映射平均分割成s个特征映射子集,用xi表示,其中i∈{1,2,…,s},与输入特征图相比,每个特征子集xi具有相同的空间大小,但通道数为1/s,除了x1,每个xi都有一个对应的AC单元,记Ki(),ACB模块的输出yi可以写成:
Figure BDA00023680825000001018
其中,xi表示输入特征图,yi表示输出特征图,Ki表示非对称卷积核。
步骤S4:将步骤S3设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet;
进一步的,步骤S4具体为:将设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet:
ACBNet网络的第一层是输入图像;
第二层是Conv1卷积层,卷积步长为2,卷积核大小和数量分别为3×3和24;
第三层是Pool池化层,选用最大池化操作,池化大小和步长分别为3×3和2;
第四层是Stage2层,其中包含1个步长为2,输出特征图数量为116的ACB模块,3个步长为1,输出特征图数量为116的ACB模块;
第五层是Stage3层,其中包含1个步长为2,输出特征图数量为232的ACB模块,7个步长为1,输出特征图数量为232的ACB模块;
第六层是Stage4层,其中包含1个步长为2,输出特征图数量为464的ACB模块,3个步长为1,输出特征图数量为464的ACB模块;
第七层是Conv5卷积层,卷积步长为1,卷积核大小和数量分别为1×1和1024;
第八层是Pool池化层,选用全局平均值化操作;
第九层是FC全卷积层,输出维数为1000。
ACBNet网络结构如表1:
Figure BDA0002368082500000121
表1
步骤S5:利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet;
进一步的,步骤S5具体为:
选择在所制作的车辆目标训练集上实验;
利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet。
步骤S6:将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类,之后再经过具有通道和空间注意力的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标。
进一步的,步骤S6具体为:
首先将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类;
之后通过具有通道和空间注意力构建块的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标,图4显示了具有通道和空间注意力构建块的残差预测模块的结构图。
所述具有通道和空间注意力的残差预测模块包括以下步骤:
一个通道和空间注意力构建块具有三个分支,第一个分支是通道注意力构建块,第二个跳跃分支,第三个分支是空间注意力分支;
对于一个进入通道注意力分支的特征图Q=[q1,q2,...,qc],通道注意力分支使用全局平均池来生成通道统计信息,通过将Q缩小到其空间维度为H×W来生成特征统计量
Figure BDA0002368082500000131
使得特征统计量z的第c个元素通过以下公式计算:
Figure BDA0002368082500000132
其中,Fga(·)表示全局平均池操作符,qc表示特征图Q的第c个通道特征图,qc(i,j)表示特征图Q的第c个通道上位置为(i,j)的像素点;
此外,为了利用在全局平均池中聚合的信息,然后进行第二操作,其目的是充分利用不同特征映射之间的依赖性,为了实现这种效果,使用具有参数T1和缩减率r的维度降低层,ReLU层和具有参数T2的维度增加层,完全连接层用于降维层和维度增加层,通道的平均注意力计算为:
s=T2δ(T1z) (1.10)
其中,
Figure BDA0002368082500000133
δ为ReLU函数,
Figure BDA0002368082500000134
对于一个进入空间注意力分支的特征图Q,首先沿相应通道轴进行全局平均池化操作,然后通过大小为3×3的卷积核产生2D空间注意力图
Figure BDA0002368082500000136
M′=F3×3(Hmean(Q)) (1.11)
其中,F3×3表示卷积核大小为3×3的卷积运算,Hmean指的是沿相应通道轴的全局平均池化操作,在上一步骤中生成的2d空间注意图M′基础上,生成多维空间注意图
Figure BDA0002368082500000135
M=F1×1(F3×3(Hmean(Q))) (1.12)
其中,F1×1表示卷积核大小为1×1的卷积运算,然后,使用全局平均池来生成通道统计量,通过将M缩小到其空间维度H×W来生成统计量
Figure BDA0002368082500000141
使得统计量n的第c个元素通过以下公式计算:
Figure BDA0002368082500000142
其中,mc表示特征图M的第c个通道特征图,mc(i,j)表示空间注意图M的第c个通道上位置为(i,j)的像素点;
之后,将通道注意力和空间注意力两个分支输出结果相加,再对两个分支得到的结果对信道方向的数字应用一个简单的sigmoid运算符,得到如下结果:
R=σ(s+n) (1.14)
其中,R表示通道注意力和空间注意力两个分支应用sigmoid运算符之后得到的输出特征图,σ表示sigmoid运算符,最后将上一步得到的输出结果与第二个分支对信道方向的像素应用一个multiplication算子得到最终输出特征图G,可写为:
G=Q·R (1.15)。
本实施例所构建的基于卷积神经网络的车辆目标分类网络ACBNet,通过设计一种非对称卷积单元,增强了模型对图像特征旋转畸变的鲁棒性。将所设计的非对称卷积单元嵌入Res2Net模块,在更细粒度的层次上提高车辆检测模型的多尺度检测能力。将设计的非对称卷积模块嵌入轻量化模型ShuffleNetV2中,提高了模型的检测速度。在残差预测模块中使用通道和空间注意力,使网络更好地定位特征分布。并且由于整个模型利用轻量化模型ShuffleNetV2作为骨干网络,有效提高了车辆检测的快速性。所构建的车辆检测模型在提高检测准确度的同时,具有较好的检测实时性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,其特征在于,包括以下步骤:
步骤S1:通过视频流获取若干包含车辆的图片,制作车辆目标检测数据集,包括训练集和测试集;
步骤S2:设计非对称卷积AC单元;
步骤S3:将步骤S2设计的非对称卷积AC单元嵌入Res2Net模块构建具有粒度级别多尺度特性的非对称卷积ACB模块;
步骤S4:将步骤S3设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet;
步骤S5:利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet;
步骤S6:将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类,之后再经过具有通道和空间注意力的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标。
2.根据权利要求1所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,其特征在于,步骤S2具体为:一个AC单元由卷积核为1×3和1×3、1×3、3×1三个平行分支组成,对于AC单元中的一个分支,
Figure FDA0002368082490000011
表示卷积层的输入,使用F=[g1,g2,...,gc]表示学习的卷积核集,其中gc表示对应的第c个卷积核的参数,
Figure FDA0002368082490000012
表示卷积层的输出,H、W、C分别表示输出特征图的高度、宽度、通道数,对于该层的第c个滤波器,对应的输出特征图通道为:
Figure FDA0002368082490000013
其中,*表示卷积,
Figure FDA0002368082490000014
U=[V1,V2,...,VC],
Figure FDA0002368082490000015
I=[Y1,Y2,...,YD]和
Figure FDA0002368082490000016
表示gc的单个通道的二维空间核,Vc表示U的第c个输出特征图通道,Ys表示I的第s个输入特征图通道;
为了减少过拟合,在卷积层之后采用批量归一化操作,批处理后的归一化层进行线性尺度变换以增强网络的表示能力,输出特征映射通道变为:
Figure FDA0002368082490000021
其中,uc和σc表示通道平均值和批量归一化的标准偏差,γc和βc分别表示学习尺度因子和偏差项;
每一层中的每个卷积操作之后都要进行批量归一化,称为一个分支,三个分支的输出汇总为AC单元的输出,对于卷积核为1×3和3×1的分支,该分支中输入特征图首先经过卷积核为1×3的卷积层,对于1×3的卷积层中第c个滤波器,对应的输出特征图通道为:
Figure FDA0002368082490000022
其中,
Figure FDA0002368082490000023
表示
Figure FDA0002368082490000024
的单个通道的二维空间核,
Figure FDA0002368082490000025
Figure FDA0002368082490000026
表示通道平均值和批量归一化的标准偏差,
Figure FDA0002368082490000027
Figure FDA0002368082490000028
分别表示学习尺度因子和偏差项;
之后1×3的卷积层的输出特征图进入卷积核为3×1的卷积层,对于3×1的卷积层中第c个滤波器,对应的输出特征图通道为:
Figure FDA0002368082490000029
其中,
Figure FDA00023680824900000210
表示
Figure FDA00023680824900000211
的单个通道的二维空间核,
Figure FDA00023680824900000212
Figure FDA00023680824900000213
表示通道平均值和批量归一化的标准偏差,
Figure FDA00023680824900000214
Figure FDA00023680824900000215
分别表示学习尺度因子和偏差项;
对于卷积核为1×3的分支,该层的第c个滤波器对应的输出特征图通道为:
Figure FDA00023680824900000216
其中,
Figure FDA0002368082490000031
表示
Figure FDA0002368082490000032
的单个通道的二维空间核,
Figure FDA0002368082490000033
Figure FDA0002368082490000034
表示通道平均值和批量归一化的标准偏差,
Figure FDA0002368082490000035
Figure FDA0002368082490000036
分别表示学习尺度因子和偏差项;
对于卷积核为3×1的分支,该层的第c个滤波器对应的输出特征图通道为:
Figure FDA0002368082490000037
其中,
Figure FDA0002368082490000038
表示
Figure FDA0002368082490000039
的单个通道的二维空间核,
Figure FDA00023680824900000310
Figure FDA00023680824900000311
表示通道平均值和批量归一化的标准偏差,
Figure FDA00023680824900000312
Figure FDA00023680824900000313
分别表示学习尺度因子和偏差项;
将三个分支第c个滤波器对应的输出特征图相加得到AC单元的输出,记为:
Figure FDA00023680824900000314
其中,
Figure FDA00023680824900000315
表示卷积核为1×3和3×1分支的第c个通道上的输出特征图,
Figure FDA00023680824900000316
表示卷积核为1×3分支的第c个通道上的输出特征图,
Figure FDA00023680824900000317
表示卷积核为3×1分支的第c个通道上的输出特征图。
3.根据权利要求2所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,其特征在于,步骤S3具体为:经过1×1的卷积,将特征映射平均分割成s个特征映射子集,用xi表示,其中i∈{1,2,…,s},与输入特征图相比,每个特征子集xi具有相同的空间大小,但通道数为1/s,除了x1,每个xi都有一个对应的AC单元,记Ki(),ACB模块的输出yi可以写成:
Figure FDA00023680824900000318
其中,xi表示输入特征图,yi表示输出特征图,Ki表示非对称卷积核。
4.根据权利要求3所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,其特征在于,步骤S4具体为:将设计的ACB模块嵌入轻量化模型ShuffleNetV2中构建基于卷积神经网络的车辆目标分类网络ACBNet:
ACBNet网络的第一层是输入图像;
第二层是Conv1卷积层,卷积步长为2,卷积核大小和数量分别为3×3和24;
第三层是Pool池化层,选用最大池化操作,池化大小和步长分别为3×3和2;
第四层是Stage2层,其中包含1个步长为2,输出特征图数量为116的ACB模块,3个步长为1,输出特征图数量为116的ACB模块;
第五层是Stage3层,其中包含1个步长为2,输出特征图数量为232的ACB模块,7个步长为1,输出特征图数量为232的ACB模块;
第六层是Stage4层,其中包含1个步长为2,输出特征图数量为464的ACB模块,3个步长为1,输出特征图数量为464的ACB模块;
第七层是Conv5卷积层,卷积步长为1,卷积核大小和数量分别为1×1和1024;
第八层是Pool池化层,选用全局平均值化操作;
第九层是FC全卷积层,输出维数为1000。
5.根据权利要求4所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,其特征在于,步骤S5具体为:选择在所制作的车辆目标训练集上实验,利用所制作的车辆目标训练集训练车辆目标分类网络ACBNet。
6.根据权利要求5所述的基于非对称卷积的具有粒度级多尺度特性的车辆检测方法,其特征在于,步骤S6具体为:首先将测试集图片放入步骤S5训练好的分类网络ACBNet进行分类;之后通过具有通道和空间注意力构建块的残差预测模块处理获得所预测图像或视频中车辆的类别和位置信息并框出车辆目标:
一个通道和空间注意力构建块具有三个分支,第一个分支是通道注意力构建块,第二个跳跃分支,第三个分支是空间注意力分支;
对于一个进入通道注意力分支的特征图Q=[q1,q2,...,qc],通道注意力分支使用全局平均池来生成通道统计信息,通过将Q缩小到其空间维度为H×W来生成特征统计量
Figure FDA0002368082490000051
使得特征统计量z的第c个元素通过以下公式计算:
Figure FDA0002368082490000052
其中,Fga(·)表示全局平均池操作符,qc表示特征图Q的第c个通道特征图,qc(i,j)表示特征图Q的第c个通道上位置为(i,j)的像素点;
此外,为了利用在全局平均池中聚合的信息,然后进行第二操作,其目的是充分利用不同特征映射之间的依赖性,为了实现这种效果,使用具有参数T1和缩减率r的维度降低层,ReLU层和具有参数T2的维度增加层,完全连接层用于降维层和维度增加层,通道的平均注意力计算为:
s=T2δ(T1z) (1.10)
其中,
Figure FDA0002368082490000053
δ为ReLU函数,
Figure FDA0002368082490000054
对于一个进入空间注意力分支的特征图Q,首先沿相应通道轴进行全局平均池化操作,然后通过大小为3×3的卷积核产生2D空间注意力图
Figure FDA0002368082490000055
M′=F3×3(Hmean(Q)) (1.11)
其中,F3×3表示卷积核大小为3×3的卷积运算,Hmean指的是沿相应通道轴的全局平均池化操作,在上一步骤中生成的2d空间注意图M′基础上,生成多维空间注意图
Figure FDA0002368082490000056
M=F1×1(F3×3(Hmean(Q))) (1.12)
其中,F1×1表示卷积核大小为1×1的卷积运算,然后,使用全局平均池来生成通道统计量,通过将M缩小到其空间维度H×W来生成统计量
Figure FDA0002368082490000057
使得统计量n的第c个元素通过以下公式计算:
Figure FDA0002368082490000061
其中,mc表示特征图M的第c个通道特征图,mc(i,j)表示空间注意图M的第c个通道上位置为(i,j)的像素点;
之后,将通道注意力和空间注意力两个分支输出结果相加,再对两个分支得到的结果对信道方向的数字应用一个简单的sigmoid运算符,得到如下结果:
R=σ(s+n) (1.14)
其中,R表示通道注意力和空间注意力两个分支应用sigmoid运算符之后得到的输出特征图,σ表示sigmoid运算符,最后将上一步得到的输出结果与第二个分支对信道方向的像素应用一个multiplication算子得到最终输出特征图G,可写为:
G=Q·R (1.15)。
CN202010042002.2A 2020-01-15 2020-01-15 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 Active CN111242127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010042002.2A CN111242127B (zh) 2020-01-15 2020-01-15 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010042002.2A CN111242127B (zh) 2020-01-15 2020-01-15 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法

Publications (2)

Publication Number Publication Date
CN111242127A true CN111242127A (zh) 2020-06-05
CN111242127B CN111242127B (zh) 2023-02-24

Family

ID=70872621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010042002.2A Active CN111242127B (zh) 2020-01-15 2020-01-15 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法

Country Status (1)

Country Link
CN (1) CN111242127B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738344A (zh) * 2020-06-24 2020-10-02 上海应用技术大学 一种基于多尺度融合的快速目标检测方法
CN112149526A (zh) * 2020-09-07 2020-12-29 中国科学院声学研究所南海研究站 一种基于长距离信息融合的车道线检测方法及系统
CN112580453A (zh) * 2020-12-08 2021-03-30 成都数之联科技有限公司 一种基于遥感影像和深度学习的土地利用分类方法及系统
CN112836669A (zh) * 2021-02-22 2021-05-25 宁波大学 一种司机分心驾驶检测方法
CN113205051A (zh) * 2021-05-10 2021-08-03 中国科学院空天信息创新研究院 基于高空间分辨率遥感影像的储油罐提取方法
CN113239784A (zh) * 2021-05-11 2021-08-10 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113496228A (zh) * 2021-07-30 2021-10-12 大连海事大学 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN113610144A (zh) * 2021-08-02 2021-11-05 合肥市正茂科技有限公司 一种基于多分支局部注意力网络的车辆分类方法
CN114283320A (zh) * 2021-12-25 2022-04-05 福州大学 基于全卷积的无分支结构目标检测方法
CN114612456A (zh) * 2022-03-21 2022-06-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN116310476A (zh) * 2022-11-22 2023-06-23 北京建筑大学 基于非对称卷积残差网络的细粒度图像分类方法及系统
CN116543336A (zh) * 2023-05-09 2023-08-04 内蒙古工业大学 基于尺度变化的车辆行为识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399362A (zh) * 2018-01-24 2018-08-14 中山大学 一种快速行人检测方法及装置
CN109902563A (zh) * 2019-01-17 2019-06-18 桂林远望智能通信科技有限公司 一种多角度车型识别方法及系统
CN109934241A (zh) * 2019-03-28 2019-06-25 南开大学 可集成到神经网络架构中的图像多尺度信息提取方法及应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399362A (zh) * 2018-01-24 2018-08-14 中山大学 一种快速行人检测方法及装置
CN109902563A (zh) * 2019-01-17 2019-06-18 桂林远望智能通信科技有限公司 一种多角度车型识别方法及系统
CN109934241A (zh) * 2019-03-28 2019-06-25 南开大学 可集成到神经网络架构中的图像多尺度信息提取方法及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑冬等: "基于轻量化SSD的车辆及行人检测网络", 《南京师大学报(自然科学版)》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738344A (zh) * 2020-06-24 2020-10-02 上海应用技术大学 一种基于多尺度融合的快速目标检测方法
CN111738344B (zh) * 2020-06-24 2024-02-02 上海应用技术大学 一种基于多尺度融合的快速目标检测方法
CN112149526B (zh) * 2020-09-07 2023-11-28 中国科学院声学研究所南海研究站 一种基于长距离信息融合的车道线检测方法及系统
CN112149526A (zh) * 2020-09-07 2020-12-29 中国科学院声学研究所南海研究站 一种基于长距离信息融合的车道线检测方法及系统
CN112580453A (zh) * 2020-12-08 2021-03-30 成都数之联科技有限公司 一种基于遥感影像和深度学习的土地利用分类方法及系统
CN112836669A (zh) * 2021-02-22 2021-05-25 宁波大学 一种司机分心驾驶检测方法
CN112836669B (zh) * 2021-02-22 2023-12-12 宁波大学 一种司机分心驾驶检测方法
CN113205051A (zh) * 2021-05-10 2021-08-03 中国科学院空天信息创新研究院 基于高空间分辨率遥感影像的储油罐提取方法
CN113239784A (zh) * 2021-05-11 2021-08-10 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113496228A (zh) * 2021-07-30 2021-10-12 大连海事大学 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN113496228B (zh) * 2021-07-30 2024-03-26 大连海事大学 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN113610144A (zh) * 2021-08-02 2021-11-05 合肥市正茂科技有限公司 一种基于多分支局部注意力网络的车辆分类方法
CN114283320A (zh) * 2021-12-25 2022-04-05 福州大学 基于全卷积的无分支结构目标检测方法
CN114612456A (zh) * 2022-03-21 2022-06-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN116310476B (zh) * 2022-11-22 2023-10-17 北京建筑大学 基于非对称卷积残差网络的细粒度图像分类方法及系统
CN116310476A (zh) * 2022-11-22 2023-06-23 北京建筑大学 基于非对称卷积残差网络的细粒度图像分类方法及系统
CN116543336A (zh) * 2023-05-09 2023-08-04 内蒙古工业大学 基于尺度变化的车辆行为识别方法及系统

Also Published As

Publication number Publication date
CN111242127B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
CN111242127B (zh) 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法
CN111553929B (zh) 基于融合网络的手机屏幕缺陷分割方法、装置及设备
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN113128558B (zh) 基于浅层空间特征融合与自适应通道筛选的目标检测方法
CN111914838B (zh) 一种基于文本行识别的车牌识别方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN109087337B (zh) 基于分层卷积特征的长时间目标跟踪方法及系统
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN114708437B (zh) 目标检测模型的训练方法、目标检测方法、装置和介质
CN112446292B (zh) 一种2d图像显著目标检测方法及系统
CN115331183A (zh) 改进YOLOv5s的红外目标检测方法
CN116805360B (zh) 一种基于双流门控渐进优化网络的显著目标检测方法
CN112766123A (zh) 一种基于纵横交叉注意力网络的人群计数方法及系统
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN117994240A (zh) 多尺度二级光学遥感图像条纹噪声智能检测方法及装置
Chen et al. Real-time defect detection of TFT-LCD displays using a lightweight network architecture
CN109284752A (zh) 一种车辆的快速检测方法
CN110309790B (zh) 一种用于道路目标检测的场景建模方法和装置
CN117315752A (zh) 人脸情绪识别网络模型的训练方法、装置、设备和介质
CN115830514B (zh) 一种适用于带弯曲河道的全河段表面流速计算方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant