CN114005094A - 航拍车辆目标检测方法、系统及存储介质 - Google Patents
航拍车辆目标检测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN114005094A CN114005094A CN202111263310.9A CN202111263310A CN114005094A CN 114005094 A CN114005094 A CN 114005094A CN 202111263310 A CN202111263310 A CN 202111263310A CN 114005094 A CN114005094 A CN 114005094A
- Authority
- CN
- China
- Prior art keywords
- target
- attention
- aerial vehicle
- input
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种航拍车辆目标检测方法、系统及存储介质,用于航拍场景下的车辆目标检测,包括S1、构建航拍车辆目标检测模型;所述航拍车辆目标检测模型包括:Stemblock、目标特征提取网络;多尺度特征融合模块;S2、利用航拍车辆图像,对所述航拍车辆目标检测模型进行训练,直到模型收敛;S3、将待检测的航拍车辆图像输入至训练好的航拍车辆目标检测模型中,获得航拍车辆目标检测结果。本发明所述技术方案提升了航拍检测模型的精度,降低了模型的计算量和内存消耗,并且通过在公开数据集中使用本发明的技术方案,证明了本发明的检测精度和检测效率上比其他现有算法更有优势。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种航拍车辆目标检测方法。
背景技术
基于航拍场景下的车辆目标检测无论是在军事领域还是民事领域中都有着广泛的应用价值和前景。在民用领域上,航拍车辆目标检测在交通拥堵治理和智慧城市建设等方面都发挥着重要的作用。在军事领域中,该项技术可以应用于目标侦察、目标打击和军情分析等方面。最近,该项技术受到众多学者的关注并取得了一系列的研究成果,然而,基于航拍图像下的车辆目标检测还面临着诸多的困难和挑战。这是因为航拍图像的尺寸较大而图像中的车辆目标却很小且待检测的目标密集,同时车辆目标往往伴随着复杂的背景信息,这些都导致了该项检测任务的检测精度较低。另外,该项检测任务对检测速度也有着很高的要求,需要能够进行实时的检测。
在深度学习领域中,基于深度卷积神经网络的算法在目标检测、文本识别、语音识别等方面都取得了令人振奋的效果。在基于深度模型的目标检测算法方面也出现了一系列性能优越的检测算法,例如R-CNN,Fast R-CNN,Faster R-CNN,Mask R-CNN等。其中FasterR-CNN是目标检测领域中一个应用较为广泛的算法,该算法使用一个全卷积区域建议网络来生成检测对象的区域,然后用特定的分类器对每个区域进行分类。该算法对底层特征有较强的表示能力同时利用数百个区域建议框来降低计算成本,从而显著的提升了目标检测的性能和效率。
随着深度卷积神经网络在计算机视觉领域中的飞速发展和进步,其检测性能不断的提升,现阶段的航拍车辆目标检测算法主要依赖于上述这些基于Anchor base的检测算法,而基于Anchor base的目标检测算法有许多缺陷。例如,基于Anchor base的目标检测算法其检测结果受Anchor的尺寸、大小和数目的影响较大,因此需要仔细的对参数进行调节和设置。另外,基于Anchor base的目标检测算法其Anchor的尺寸和长宽比是固定的,这限制了检测器的泛化能力,因此在对于那些尺寸差异较大的目标进行检测时比较困难,尤其是不利于对小目标进行检测。而且这些算法为了提高召回率在图像上生成了大量的Anchor,而这些Anchor大多数属于负样本,因此这样造成了正负样本之间的不均衡,同时这些大量的Anchor也增加了内存消耗和模型的计算量。
发明内容
本发明的目的在于,提供一种航拍车辆目标检测方法、系统及存储介质,以解决上述现有技术中的不足,为此本发明提供了如下技术方案:
一种航拍车辆目标检测方法,包括以下步骤:
S1、构建航拍车辆目标检测模型;
所述航拍车辆目标检测模型包括:Stem block、目标特征提取网络;多尺度特征融合模块;
所述Stem block对航拍图像进行预处理,得到预处理航拍图像;
所述目标特征提取网络对所述预处理航拍图像进行目标特征提取,得到目标车辆特征;
所述多尺度特征融合模块对所述目标车辆特征进多尺度特征融合;
S2、利用航拍车辆图像,对所述航拍车辆目标检测模型进行训练,直到模型收敛;
S3、将待检测的航拍车辆图像输入至训练好的航拍车辆目标检测模型中,获得航拍车辆目标检测结果。
可选的,所述目标特征提取网络包括第一阶段特征提取子网络、第二阶段特征提取子网络和第三阶段特征提取子网络;
所述第一阶段特征提取子网络用于对输入图像进行初步特征提取,提取输入图像中所有车辆图像并将其设为输入特征图;
所述第二阶段特征提取子网络通过注意力机制对所述所有车辆图像进行逐步的大目标特征提取;所述大目标特征包括:车型、车色;所述注意力机制为卷积注意力机制模块CBAM;所述卷积注意力机制模块沿着两个通道和空间两个维度依次推断注意力图,并将注意力图与输入特征图相乘进行自适应优化;
所述第三阶段特征提取子网络通过注意力机制对目标特征中的小目标特征进行获取;所述小目标特征包括:车牌、轮胎款式、车身划痕;所述注意力机制为采用逐步通道堆栈的Triplet attention注意力机制模块;所述Triplet attention注意力机制模块通过捕捉空间维度和输入张量通道之间的交互作用,实现对注意力权重的计算;
所述卷积注意力机制模块CBAM和Triplet attention注意力机制模块构成所述目标特征提取网络中集成卷积注意力模块。
可选的,所述多尺度特征融合模块包括第一预测分支、第二预测分支、第三预测分支,用于在对应尺度下对目标的类别和位置进行预测;
所述第一预测分支的输入为Triplet attention注意力机制模块的输出特征;
所述第二预测分支的输入为Triplet attention注意力机制模块的输出特征和卷积注意力模块CBAM的输出特征;
所述第三预测分支的输入为第一阶段特征提取子网络的输出特征和第二预测分支融合后的输出特征。
可选的,所述卷积注意力机制模块CBAM中通道注意力单元和空间注意力单元依次连接;
将所述输入特征图分别基于宽和高的全局最大池化和全局平均池化进行运算;所得两个运算结果分别经过共享的多层感知机;将多层感知机输出的特征依次进行Eltwisesum操作和sigmoid激活操作,生成通道注意力特征图;将所述通道注意力特征图和所述输入特征图做Eltment wise乘法操作,并将经所述通道注意力单元处理的所述输入特征图输入至空间注意力单元;
将经过所述通道注意力单元处理的所述输入特征图分别基于通道的全局最大池化和全局平均池化进行运算,得到两个运算结果;将得到的两个运算结果基于通道做Concat操作,将其维度降维1个通道;再经过sigmoid激活操作生成空间注意力特征图,将所述空间注意力特征图和所述输入特征图做乘法,得到所述卷积注意力机制模块CBAM输出的特征图。
可选的,所述Triplet attention注意力机制模块包括三个分支,其中第一分支和第二分支分别用于捕获C通道维度和空间维度W/H之间的跨通道交互,第三个分支用于进行通道注意力权重计算;
所述对C通道维度的捕获中引入Z-pool层将C维度的Tensor缩减到2维;所述Z-pool层的表达式为:
Z-pool(x)=[MaxPool0d(x),AvgPool0d(x)]
其中,Z-pool(x)为Z-pool层的输出,MaxPool0d(x),AvgPool0d(x)分别为第0维上进行最大池化操作和平均池化操作。
可选的,所述多尺度特征融合模块对输入特征进行处理的方法为:
对输入特征进行卷积运算,然后将所得结果输入到第一目标类别和位置预测结构中,在目标类别和位置预测结构中对输入特征分两路进行的卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测;
对卷积注意力模块CBAM的输出特征进行的卷积运算,对Triplet attention注意力机制模块的输出特征进行的卷积运算及n倍的上采样运算,对两个运算的后特征进行Eltwise_sum运算并完成特征的融合,将融合后的特征输入到第二目标类别和位置预测结构中,在目标类别和位置预测结构中对输入特征分两路进行的卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测;
对第一阶段特征提取子网络的输出特征进行的卷积运算,对第二预测分支融合后的输出特征进行的卷积运算及n倍的上采样运算,对两个运算的后特征进行Eltwise_sum运算并完成特征的融合,将融合后的特征输入到第三目标类别和位置预测结构中,在目标类别和位置预测结构中对输入特征分两路进行的卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测。
一种航拍车辆目标检测系统,所述系统包括:
图像获取单元:利用摄像设备获取待检测的目标图像;
图像处理单元:采用航拍车辆目标检测模型对待检测的目标图像进行检测;
图像数据传输单元:为所述系统各个单元间进行数据传输提供帮助;
通信单元包括:信号监测装置、信号切换装置、无线通信模块、北斗通信模块,基于所述无线通信模块与北斗通信模块,将信息实时传输至终端设备;
电源单元:太阳能电池及电源管理模块,为系统整体提供稳定电源;
系统故障监测单元,通过将一定数量的待检测图像对应的目标图像作为测试集输入航拍车辆目标检测模型中,将输出结果与目标图像进行匹配,若匹配不一致则判定系统出现故障蜂鸣器发出警报,若匹配一致则判定系统未故障系统正常运行。
可选的,所述通信单元中信号切换装置根据信号监测装置监测的通信信号大小,进行无线通信和北斗通信模块的通信切换。
一种计算机可读存储介质,其上存储计算机可读指令,当所述计算机可读指令由计算机执行时,所述计算机执行上述航拍车辆目标检测方法的步骤。
经由上述的内容可知与现有技术相比,本发明的有益效果在于:
本发明中在设计航拍车辆目标检测模型时,基于通道堆栈的方式建立一个针对航拍车辆小目标的特征提取网络,并在特征提取网络中引入卷积注意力模块和三级特征融合模块,这有效的提升了小目标特征提取能力及检测效率;所述检测方法不仅提升了检测模型的精度,而且降低了模型的计算量和内存消耗;所述航拍车辆目标检测模型不受Anchor尺寸和大小的限制,在训练时可以采用自适应的样本选择测量,进而有效的解决了训练中正负样本不均衡的问题;
通过在公开数据集中使用本发明的技术方案,证明了本发明的检测精度和检测效率上比其他现有算法更有优势;本发明的技术方案可广泛应用在智能交通、事故检测、停车场管理及违章停车等领域中,具有较大的应用价值及使用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的航拍车辆目标检测方法流程图;
图2为本发明提供的e航拍车辆目标检测模型结构示意图;
图3为本发明提供的慕尼黑航拍车辆可视化检测效果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
一种航拍车辆目标检测方法,包括以下步骤:
S1、构建航拍车辆目标检测模型;
所述航拍车辆目标检测模型包括:Stem block、目标特征提取网络;多尺度特征融合模块;
所述Stem block对航拍图像进行预处理,得到预处理航拍图像;
所述目标特征提取网络对所述预处理航拍图像进行目标特征提取,得到目标车辆特征;
所述多尺度特征融合模块对所述目标车辆特征进多尺度特征融合;
S2、利用航拍车辆图像,对所述航拍车辆目标检测模型进行训练,直到模型收敛;
S3、将待检测的航拍车辆图像输入至训练好的航拍车辆目标检测模型中,获得航拍车辆目标检测结果。
如图2中的目标特征提取网络包括第一阶段特征提取子网络、第二阶段特征提取子网络和第三阶段特征提取子网络;
所述第一阶段特征提取子网络用于对输入图像进行初步特征提取,提取输入图像中所有车辆图像并将其设为输入特征图;
所述第二阶段特征提取子网络通过注意力机制对所述所有车辆图像进行逐步的大目标特征提取;所述大目标特征包括:车型、车色;所述注意力机制为卷积注意力机制模块CBAM;所述卷积注意力机制模块沿着两个通道和空间两个维度依次推断注意力图,并将注意力图与输入特征图相乘进行自适应优化;
所述第三阶段特征提取子网络通过注意力机制对目标特征中的小目标特征进行获取;所述小目标特征包括:车牌、轮胎款式、车身划痕;所述注意力机制为采用逐步通道堆栈的Triplet attention注意力机制模块;所述Triplet attention注意力机制模块通过捕捉空间维度和输入张量通道之间的交互作用,实现对注意力权重的计算;
所述卷积注意力机制模块CBAM和Triplet attention注意力机制模块构成所述目标特征提取网络中集成卷积注意力模块。
本实施例中的卷积注意力模块CBAM是一种用于前馈卷积神经网络的简单而有效的注意力模块,卷积注意力机制模块CBAM中通道注意力单元和空间注意力单元依次连接;CMBA模块沿着两个独立的维度通道和空间依次推断注意力图,然后将注意力图与输入特征图相乘并进行自适应特征优化,由于其是轻量级的通用模块,因此可以忽略该模块的开销而将其集成到任何CNN架构中,并且可以与基础CNN一起进行端到端训练,相比于算法只关注通道channel的注意力机制可以取得更好的效果。
通道注意力单元对输入特征图进行处理的方法和空间注意力单元具体为:
将输入特征图分别基于宽和高的全局最大池化和全局平均池化进行运算;所得两个运算结果分别经过共享的多层感知机;将多层感知机输出的特征依次进行Eltwise sum操作和sigmoid激活操作,生成通道注意力特征图;将通道注意力特征图和输入特征图做Eltment wise乘法操作,并将经通道注意力单元处理的输入特征图输入至空间注意力单元;
空间注意力单元对经过通道注意力单元处理的输入特征图进行处理的方法具体为:
将经过通道注意力单元处理的输入特征图分别基于通道的全局最大池化和全局平均池化进行运算,得到两个运算结果;将得到的两个运算结果基于通道做Concat操作,将其维度降维1个通道;再经过sigmoid激活操作生成空间注意力特征图,将空间注意力特征图和输入特征图做乘法,得到卷积注意力机制模块CBAM输出的特征图。
通道注意力机制公式:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,Mc(F)为通道注意力单元输出的通道注意力特征图,F为通道注意力单元的输入特征图,σ(g)为sigmoid激活函数,AvgPool(g)为平均池化运算,MaxPool(g)为最大池化运算,为平均池化操作,为平均池化操作,r为衰减率;
空间注意力单元中中采用的主要公式为:
空间注意力机制公式:
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
上述通道注意力单元将特征图在空间维度上进行压缩,得到一个又一个维矢量后再进行计算,在空间维度上进行压缩,不仅考虑到了平均值池化还考虑了最大池化,平均池化和最大池化可用来聚合特征映射的空间信息,送到一个共享网络,压缩输入特征图的空间维数,通过逐元素求和合并后产生通道注意力图,通道注意力单元关注的是输入图上哪些内容是有重要作用的,平均值池化对特征图上的每一个像素点都有反馈,而最大值池化在进行梯度反向传播计算时,只有特征图中响应最大的地方有梯度的反馈。
上述空间注意力单元是对通道进行压缩,在通道维度上分别进行了平均值池化和最大值池化。最大池化的操作就是在通道上提取最大值,提取的次数是高乘以宽;平均池化的操作就是在通道上提取平均值,提取的次数也是是高乘以宽;接着将前面所提取到的特征图(通道数都为1)合并得到一个2通道的特征图。
本实施例中的Triplet attention注意力机制模块是一种使用三分支结构捕获跨纬度的交互信息来计算注意力权重的新方法,其是基于跨纬度交互的概念而建立起来的,该模块通过捕捉空间维度和输入张量之间的交互作用,解决了通道注意和空间注意在计算过程相互独立的问题。对于输入特征,Triplet attention通过旋转操作并使用残差变换建立维度间的依存关系,该过程可以忽略计算的开销,并对通道间和空间信息进行编码。
具体地,Triplet attention注意力机制模块包括三个分支,其中第一分支和第二分支分别用于捕获C通道维度和空间维度W/H之间的跨通道交互,第三个分支用于进行通道注意力权重计算;
对C通道维度的捕获中引入Z-pool层将C维度的Tensor缩减到2维并将该维上的平均汇集特征和最大汇集特征连接起来。这使得该层能够保留丰富的张量,同时缩小其深度并进一步降低计算量。
Z-pool层的表达式为:
Z-pool(x)=[MaxPool0d(x),AvgPool0d(x)]
其中,Z-pool(x)为Z-pool层的输出,MaxPool0d(x),AvgPool0d(x)分别为第0维上进行最大池化操作和平均池化操作。
在本实施例中,在目标特征提取网络中特征的传播是从浅层往深层传播的,例如特征从第一阶段特征提取子网络到第二阶段再到第三阶段特征提取子网络,为了增强目标分类和预测的精度,采用多尺度的特征融合网络对目标的类别和位置进行预测,基于多尺度特征融合的目标检测方法可以有效的对不同尺度下的目标进行预测,这能够提升检测中的召回率及精确率。
航拍车辆目标检测模型中的多尺度特征融合模块包括第一预测分支、第二预测分支、第三预测分支,用于在对应尺度下对目标的类别和位置进行预测;
第一预测分支的输入为Triplet attention注意力机制模块的输出特征;
第二预测分支的输入为Triplet attention注意力机制模块的输出特征和卷积注意力模块CBAM的输出特征;
第三预测分支的输入为第一阶段特征提取子网络的输出特征和第二预测分支融合后的输出特征。
具体地,第一预测分支对输入特征进行处理的方法为:
对输入特征进行卷积运算,然后将所得结果输入到第一目标类别和位置预测结构中,在目标类别和位置预测结构中对输入特征分两路进行的卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测;
第二预测分支对输入特征进行处理的方法为:
对卷积注意力模块CBAM的输出特征进行的卷积运算,对Triplet attention注意力机制模块的输出特征进行的卷积运算及n倍的上采样运算,对两个运算的后特征进行Eltwise_sum运算并完成特征的融合,将融合后的特征输入到第二目标类别和位置预测结构中,在目标类别和位置预测结构中对输入特征分两路进行的卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测;
第三预测分支对输入特征进行处理的方法为:
对第一阶段特征提取子网络的输出特征进行的卷积运算,对第二预测分支融合后的输出特征进行的卷积运算及n倍的上采样运算,对两个运算的后特征进行Eltwise_sum运算并完成特征的融合,将融合后的特征输入到第三目标类别和位置预测结构中,在目标类别和位置预测结构中对输入特征分两路进行的卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测。
上述结构在不同尺度上进行特征融合,并将融合后的特征在不同的尺度上对目标的类别和位置进行预测,这显著的提升了模型的检测能力。另外,检测模型在对目标的类别和位置进行预测时采用两个分支分别进行预测,其中一路分支预测目标的类别,另一路分支对目标中心点的位置和边界框进行预测。该检测模型不需要预先设定Anchor box,从而避免了正负样本不均衡的问题,而且避免了大量的Anchor box造成的计算消耗,因此该检测模型降低了参数量提升了检测效率。
在本实施例的步骤S2模型训练过程中,普通的二值交叉熵损失函数是经过激活函数进行输出的,所以其值在0到1之间。因此在该损失函数中对于正样本而言输出的概率越大损失越小,对于负样本则输出的概率越小损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢并且无法达到最优的效果。为了使模型更加关注困难的样本并解决正负样本不平衡的问题,在二值交叉熵损失函数中引入了超参数λ和平衡因子α,因此,训练时的二值交叉熵损失函数L为:
式中,α为平衡因子,x为经过激活函数的输出,其值在0到1之间,λ为超参数,用于控制正负样本损失值大小且取值大于零,使得模型减少那些容易进行分类样本的损失,并能更加关注于那些困难的样本。例如若超参数λ的取值为2,在正样本的情况下,此时y的取值为1,若经过激活函数输出x的值接近与1则大概率为容易分类的正样本,此时(1-x)则会接近于0,那么经过λ次方的(1-x)则更小,此时损失函数值就会很小。而此时若预测的概率值x较小时,则此时损失函数的值相对较大。同样的对于负样本而言,若预测的概率值为较小的情形下,则损失函数的值更小。因此,该损失函数大大的减少了简单样本的影响,并且能够使模型更加关注于那些难以区分的样本。另外,平衡因子α是用来解决正负样本中不平衡的问题。α的取值小于0.5,这样使得负样本所占的比重大于正样本。
之前的目标检测算法在对目标回归和预测时将IoU作为loss并进行优化任务。但是这种方法存在以下两个问题。首先,若预测框和真实框没有产生重叠区域,则IoU就始终为0并且无法优化,此时损失函数失去了可导的性质。其次,IoU无法分辨出不同的对齐方式,即使拥有相同的IoU值,其空间的对齐方式也完全不同。受GIoU的启发,本发明采用GIoU的方式来避免上面的两个问题。GIoU的计算过程为假设有两个边界框A和边界框B,此时找到一个最小的封闭框C并让C将A和B完全包围在里面,然后计算C中没有覆盖A和B的面试占C总面积的比例,最后用A和B的IoU值减去这个比值,GIoU的表达式具体为:
式中,A和B为GIoU计算过程中假设的两个边界框,C为与A和B对应的最小封闭框。
GIOU和IOU类似,GIOU对物体的尺度和大小不敏感。另外,由于GIOU中引入了包含A,B两个框的C,因此当A和B不重合时同样也可以进行计算。GIOU也可以作为一个距离,然后损失可以用以下公式计算:
LGIoU=1-GIoU
在本实施例的步骤S2中,通过SGD梯度下降算法对航拍车辆目标检测网络进行训练,并设置学习率为0.01,权重衰减为0.0001以及动量为0.9。NMS算法的IoU阈值是0.6,并使用ATSS算法来挑选正负样本进行训练,针对每个GT,我们在每个特征层挑选离中心点最近的9个候选Anchor box计算IoU的阈值。使用双GPU进行训练,每个GPU一次训练八张图片,一个batch size是16张图片。总共训练了12个epoch,每个epoch有14432张图片。
实施例2:
为了验证本申请所提出的轻量级网络在慕尼黑航拍车辆目标检测中的有效性,我们采用不同的主干网络在本发明中所提出的基于Anchor free的检测算法上进行了验证。结果表明,本章所提出的轻量级航拍车辆目标检测网络模型与其他的轻量级网络相比具有明显的优势。表1展示出了我们所提出的轻量级网络与其他轻量级网络模型在慕尼黑数据集上检测的结果。在表1中其他的轻量级网络均采用本章所提出的检测算法来对慕尼黑数据集进行检测。如表1所示,本发明中所提出的轻量级网络检测检测模型在mAP,FPS,召回率,训练时间和模型大小与其他检测网络相比上均达到领先的水平。最终,本发明中所提出的基于Anchor free的轻量级航拍车辆目标检测模型在慕尼黑数据集上mAP达到了0.891,召回率达到了0.973,FPS达到了64.2,同时训练的时间仅为41分钟,模型的大小为52.6MB,这些指标均达到目前最为领先的水平。本发明中所提出的主干网络只采用PeleeNet中前三个stage,同时在stage2和stage3后面分别添加一个卷积注意力机制和三倍注意力机制,因此与PeleeNet相比,本发明所提出的检测网络的参数量更少,同时由于注意力机制的和特征融合的引入,使得所提出的检测网络更加适合用于小目标的检测,因此在检测精度上也明显的由于PeleeNet。
表1:不同的深度网络模型在慕尼黑数据集上的检测结果
表2展示了各种设计选择和性能组件对检测结果的影响。其基准模型是搭载PeleeNet的SSD目标检测算法。如表2所示,在我们的检测算法中每一步的改进对整个模型检测精度的提升都有不同的贡献。在以PeleeNet为主干网络的SSD目标检测算法在慕尼黑航拍车辆数据集上的检测的mAP达到了78.3%。由于在对小目标的检测任务中深层的卷积容易造成特征的丢失从而降低检测的精度,因此我们只采用PeleeNet中前三个stage作为主干网络,这样不仅有利于降低模型的参数量,而且提升了小目标的检测精度,该项改进使模型的检测精度提升了2.1%。通道堆栈是指在特征提取和传播的过程中逐步的通过通道的叠加来增加特征通道的数量,这可以多特征进行更加精细的提取和传播,有利于小目标特征的提取。在主干网络中采用通道堆栈的方式使得模型的检测精度提升了2.8%。卷积注意力机制是结合了空间和通道的注意力模块,在特征传播的第二个阶段加入CBAM模块可以有效的增强网络对空间和通道的特征提取能力,该模块的进入使检测精度提升了3.3%。我们在特征传播的最后一个阶段加入TAM模块,该模块可以增强特征空间多维之间的交互,同时不降低维度的重要性,因此消除了通道和权重之间的间接对应。该模块的引入提升了1.2%的检测精度。最终,加入特征融合模块后检测模型的性能达到最优的效果,其检测的mAP为89.1%,这也达到了目前最为领先的水平。
表2设计选择和性能组件对检测结果的影响
表3展示出了不同的航拍车辆目标检测算法在慕尼黑数据集上的检测结果。表2展示出了五种用来评估检测模型性能的指标,分别为召回率、精确率,F1-scre,mAP和检测时间。如表3所示,我们所提出的基于Anchor free的轻量级航拍车辆目标检测算法在慕尼黑数据集上各个指标均达到了最为先进的检测效果。本发明所提出的航拍车辆检测模型在慕尼黑数据集上召回率为95.7%,精确率为92.6,F1-score为0.941,mAP为89.1%,检测时间为0.64s/per image.另外,本发明所提出的深度模型的训练时间也非常快,仅需要41分钟就能完成18万次的模型训练。与之前较为先进的航拍车辆目标检测算法Yu’s method在慕尼黑数据集上的检测效果相比,我们所提出的检测算法在mAP上高出5.7%,同时检测的时间仅为其25%左右。
表3不同的算法在慕尼黑数据集上的检测结果
图3展示出了本发明中所提出的检测模型在慕尼黑数据集上可视化的检测效果。如图3所示,红色的标记框为正确的检测结果,黄色的标记框为漏检和误检的情况。图3(a)和图3(b)为车辆密度较大的检测场景,这种场景下车辆的密度大而且待检测的目标多。图3(a)和图3(b)中可视化的检测效果表明,在这种车辆密集的场景下本章所提出的检测模型能够有效的对目标进行检测。图3(c)和图3(d)为背景复杂的检测场景,在这种场景下车辆目标伴随着遮挡阴影等情形,检测结果表明在这种困难的检测场景下本章所提出的检测算法也能够有效的对航拍场景下的车辆目标成功的进行检测。图3的检测结果中也出现了一些误检和漏检的情况。这些漏检或者误检的车辆往往处在一个极端的情况,例如车辆被建筑物遮挡或者完全处于阴影中,这些情况下车辆目标的特征不完整而且特征不明显,因此造成了漏检或者误检的情形。另外,部分漏检的车辆处于图像的边界附近,此时车辆只有部分区域出现在图像中,因此此时的漏检是由于特征不完整造成的。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种航拍车辆目标检测方法,其特征在于,包括以下步骤:
S1、构建航拍车辆目标检测模型;
所述航拍车辆目标检测模型包括:Stem block、目标特征提取网络;多尺度特征融合模块;
所述Stem block对航拍图像进行预处理,得到预处理航拍图像;
所述目标特征提取网络对所述预处理航拍图像进行目标特征提取,得到目标车辆特征;
所述多尺度特征融合模块对所述目标车辆特征进多尺度特征融合;
S2、利用航拍车辆图像,对所述航拍车辆目标检测模型进行训练,直到模型收敛;
S3、将待检测的航拍车辆图像输入至训练好的航拍车辆目标检测模型中,获得航拍车辆目标检测结果。
2.根据权利要求1所述的航拍车辆目标检测方法,其特征在于,所述目标特征提取网络包括第一阶段特征提取子网络、第二阶段特征提取子网络和第三阶段特征提取子网络;
所述第一阶段特征提取子网络用于对输入图像进行初步特征提取,提取输入图像中所有车辆图像并将其设为输入特征图;
所述第二阶段特征提取子网络通过注意力机制对所述所有车辆图像进行逐步的大目标特征提取;所述大目标特征包括:车型、车色;所述注意力机制为卷积注意力机制模块CBAM;所述卷积注意力机制模块沿着两个通道和空间两个维度依次推断注意力图,并将注意力图与输入特征图相乘进行自适应优化;
所述第三阶段特征提取子网络通过注意力机制对目标特征中的小目标特征进行获取;所述小目标特征包括:车牌、轮胎款式、车身划痕;所述注意力机制为采用逐步通道堆栈的Triplet attention注意力机制模块;所述Triplet attention注意力机制模块通过捕捉空间维度和输入张量通道之间的交互作用,实现对注意力权重的计算;
所述卷积注意力机制模块CBAM和Triplet attention注意力机制模块构成所述目标特征提取网络中集成卷积注意力模块。
3.根据权利要求2所述的航拍车辆目标检测方法,其特征在于,所述多尺度特征融合模块包括第一预测分支、第二预测分支、第三预测分支,用于在对应尺度下对目标的类别和位置进行预测;
所述第一预测分支的输入为Triplet attention注意力机制模块输出的小目标特征;
所述第二预测分支的输入为Triplet attention注意力机制模块输出的小目标特征和卷积注意力机制模块CBAM输出的大特征;
所述第三预测分支的输入为第一阶段特征提取子网络的输出特征和第二预测分支融合后的输出特征。
4.根据权利要求2所述的航拍车辆目标检测方法,其特征在于,所述卷积注意力机制模块CBAM中通道注意力单元和空间注意力单元依次连接;
将所述输入特征图分别基于宽和高的全局最大池化和全局平均池化进行运算;所得两个运算结果分别经过共享的多层感知机;将多层感知机输出的特征依次进行Eltwise sum操作和sigmoid激活操作,生成通道注意力特征图;将所述通道注意力特征图和所述输入特征图做Eltment wise乘法操作,并将经所述通道注意力单元处理的所述输入特征图输入至空间注意力单元;
将经过所述通道注意力单元处理的所述输入特征图分别基于通道的全局最大池化和全局平均池化进行运算,得到两个运算结果;将得到的两个运算结果基于通道做Concat操作,将其维度降维1个通道;再经过sigmoid激活操作生成空间注意力特征图,将所述空间注意力特征图和所述输入特征图做乘法,得到所述卷积注意力机制模块CBAM输出的特征图。
5.根据权利要求2所述的航拍车辆目标检测方法,其特征在于,所述Tripletattention注意力机制模块包括三个分支,其中第一分支和第二分支分别用于捕获C通道维度和空间维度W/H之间的跨通道交互,第三个分支用于进行通道注意力权重计算;
所述对C通道维度的捕获中引入Z-pool层将C维度的Tensor缩减到2维;所述Z-pool层的表达式为:
Z-pool(x)=[MaxPool0d(x),AvgPool0d(x)]
其中,Z-pool(x)为Z-pool层的输出,MaxPool0d(x),AvgPool0d(x)分别为第0维上进行最大池化操作和平均池化操作。
6.根据权利要求3所述的航拍车辆目标检测方法,其特征在于,所述多尺度特征融合模块输入特征进行处理的方法为:
对输入特征进行卷积运算,然后将所得结果输入到第一目标类别和位置预测结构中,在第一目标类别和位置预测结构中对输入特征分两路进行卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测;
对卷积注意力机制模块CBAM的输出特征进行卷积运算,对Triplet attention注意力机制模块的输出特征进行卷积运算及n倍的上采样运算,对两个运算的后特征进行Eltwise_sum运算并完成特征的融合,将融合后的特征输入到第二目标类别和位置预测结构中,在目第二标类别和位置预测结构中对输入特征分两路进行卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测;
对第一阶段特征提取子网络的输出特征进行卷积运算,对第二预测分支融合后的输出特征进行卷积运算及n倍的上采样运算,对两个运算的后特征进行Eltwise_sum运算并完成特征的融合,将融合后的特征输入到第三目标类别和位置预测结构中,在第三目标类别和位置预测结构中对输入特征分两路进行卷积运算,其中一路对目标类别进行预测,另一路对目标的中心位置和边界框进行预测。
7.一种航拍车辆目标检测系统,其特征在于,所述系统包括:
图像获取单元:利用摄像设备获取待检测的目标图像;
图像处理单元:采用航拍车辆目标检测模型对待检测的目标图像进行检测;
图像数据传输单元:为所述系统各个单元间进行数据传输提供帮助;
通信单元包括:信号监测装置、信号切换装置、无线通信模块、北斗通信模块,基于所述无线通信模块与北斗通信模块,将信息实时传输至终端设备;
电源单元:太阳能电池及电源管理模块,为系统整体提供稳定电源;
系统故障监测单元,通过将一定数量的待检测图像对应的目标图像作为测试集输入航拍车辆目标检测模型中,将输出结果与目标图像进行匹配,若匹配不一致则判定系统出现故障蜂鸣器发出警报,若匹配一致则判定系统未故障系统正常运行。
8.根据权利要求7所述的航拍车辆目标检测系统,其特征在于,所述通信单元中信号切换装置根据信号监测装置监测的通信信号大小,进行无线通信和北斗通信模块的通信切换。
9.一种计算机可读存储介质,其上存储计算机可读指令,当所述计算机可读指令由计算机执行时,所述计算机执行如权利要求1-7任一项所述航拍车辆目标检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111263310.9A CN114005094A (zh) | 2021-10-28 | 2021-10-28 | 航拍车辆目标检测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111263310.9A CN114005094A (zh) | 2021-10-28 | 2021-10-28 | 航拍车辆目标检测方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114005094A true CN114005094A (zh) | 2022-02-01 |
Family
ID=79925176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111263310.9A Pending CN114005094A (zh) | 2021-10-28 | 2021-10-28 | 航拍车辆目标检测方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114005094A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549471A (zh) * | 2022-02-23 | 2022-05-27 | 中国平安人寿保险股份有限公司 | 证件图像质量检测方法、装置、计算机设备及存储介质 |
CN114648781A (zh) * | 2022-03-30 | 2022-06-21 | 桂林电子科技大学 | 一种人体姿态估计方法及存储介质 |
CN116503800A (zh) * | 2023-04-20 | 2023-07-28 | 南京航空航天大学 | 一种军事敏感区域迭代反馈红外目标检测模型建立方法 |
CN116993779A (zh) * | 2023-08-03 | 2023-11-03 | 重庆大学 | 一种适于监控视频下的车辆目标跟踪方法 |
CN118230130A (zh) * | 2024-05-23 | 2024-06-21 | 合肥市正茂科技有限公司 | 一种车辆改装检测模型的训练方法、系统、设备及介质 |
CN118397403A (zh) * | 2024-07-01 | 2024-07-26 | 合肥市正茂科技有限公司 | 低照度车辆图像检测模型的训练方法、装置、设备及介质 |
-
2021
- 2021-10-28 CN CN202111263310.9A patent/CN114005094A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549471A (zh) * | 2022-02-23 | 2022-05-27 | 中国平安人寿保险股份有限公司 | 证件图像质量检测方法、装置、计算机设备及存储介质 |
CN114648781A (zh) * | 2022-03-30 | 2022-06-21 | 桂林电子科技大学 | 一种人体姿态估计方法及存储介质 |
CN114648781B (zh) * | 2022-03-30 | 2024-04-05 | 桂林电子科技大学 | 一种人体姿态估计方法及存储介质 |
CN116503800A (zh) * | 2023-04-20 | 2023-07-28 | 南京航空航天大学 | 一种军事敏感区域迭代反馈红外目标检测模型建立方法 |
CN116503800B (zh) * | 2023-04-20 | 2024-01-23 | 南京航空航天大学 | 一种军事敏感区域迭代反馈红外目标检测模型建立方法 |
CN116993779A (zh) * | 2023-08-03 | 2023-11-03 | 重庆大学 | 一种适于监控视频下的车辆目标跟踪方法 |
CN116993779B (zh) * | 2023-08-03 | 2024-05-14 | 重庆大学 | 一种适于监控视频下的车辆目标跟踪方法 |
CN118230130A (zh) * | 2024-05-23 | 2024-06-21 | 合肥市正茂科技有限公司 | 一种车辆改装检测模型的训练方法、系统、设备及介质 |
CN118397403A (zh) * | 2024-07-01 | 2024-07-26 | 合肥市正茂科技有限公司 | 低照度车辆图像检测模型的训练方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114005094A (zh) | 航拍车辆目标检测方法、系统及存储介质 | |
CN111259850B (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
CN112308019B (zh) | 基于网络剪枝和知识蒸馏的sar舰船目标检测方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN113052834B (zh) | 一种基于卷积神经网络多尺度特征的管道缺陷检测方法 | |
CN112766087A (zh) | 一种基于知识蒸馏的光学遥感图像舰船检测方法 | |
CN114445430B (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及系统 | |
CN115497005A (zh) | 一种融合特征转移与注意力机制的yolov4遥感目标检测方法 | |
Cepni et al. | Vehicle detection using different deep learning algorithms from image sequence | |
CN112257799A (zh) | 一种生活垃圾目标检测的方法、系统及装置 | |
CN111126278A (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
CN116012722A (zh) | 一种遥感影像场景分类方法 | |
CN115223009A (zh) | 基于改进型YOLOv5的小目标检测方法及装置 | |
CN115423998A (zh) | 一种基于轻量级无锚检测模型的可见光森林火灾检测方法 | |
CN115861608A (zh) | 一种基于光强与偏振线索的伪装目标分割方法及系统 | |
CN113297959A (zh) | 一种基于角点注意力孪生网络的目标跟踪方法及系统 | |
CN116206214A (zh) | 一种基于轻量化卷积神经网络和双注意力的自动识别滑坡方法、系统、设备及介质 | |
CN116012879A (zh) | 改进YOLOv4网络的行人检测方法、系统、设备及介质 | |
CN115439706A (zh) | 一种基于目标检测的多感受野注意力机制及系统 | |
CN117437478A (zh) | 基于前景激活和语义独立的跨域目标检测方法和系统 | |
CN117670791A (zh) | 基于多尺度融合策略和改进YOLOv5的道路病害检测方法及装置 | |
CN117274740A (zh) | 一种红外目标检测方法及装置 | |
CN115512428B (zh) | 一种人脸活体判别方法、系统、装置和存储介质 | |
CN114724175B (zh) | 行人图像的检测网络、检测方法、训练方法、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |