CN111598030B

CN111598030B - 一种航拍图像中车辆检测和分割的方法及系统

Info

Publication number: CN111598030B
Application number: CN202010435151.5A
Authority: CN
Inventors: 刘春生; 张旺; 常发亮; 李爽
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2023-06-16
Anticipated expiration: 2040-05-21
Also published as: CN111598030A

Abstract

本公开提供了一种航拍图像中车辆检测和分割的方法及系统，利用深度卷积神经网络提取遥感图像的特征图，根据特征图的不同尺度大小，构建出特征金字塔；对原始特征金字塔网络中多层特征进行自适应特征融合，输出新的多尺度特征图；利用区域提议网络，从多尺度特征中提取出不同尺度对应的感兴趣区域；将感兴趣区域送入基于注意力机制的三头网络进行进分类，边界框回归以及掩膜分割，得到分类结果，水平边界框回归结果和掩膜分割结果。本公开能够显著地改善车辆检测和分割效果，具有较高的精度和鲁棒性。

Description

一种航拍图像中车辆检测和分割的方法及系统

技术领域

本公开属于图像处理技术领域，具体涉及一种航拍图像中车辆检测和分割的方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着自动化设备的飞速发展，交通监控等应用场景的检测技术也随之高速发展。目前在交通监控过程中，利用飞行器、无人机等设备获取图片/图像已经是非常常见的现象。

然而，据发明人了解，处理无人机获取的图像以提取有效的车辆信息存在一些挑战，这些挑战包括：

采集的车辆存在任意方向：由于视点变化和高度变化，航拍图像中的车辆通常以任意方向出现。

图像巨大的比例变化：随着无人机巡航高度的变化，无人机拍摄图像中的车辆的比例会发生很大变化。

图像中目标存在部分遮挡：在某些情况下拥挤的车辆具有相似的结构和颜色，很难将拥挤且相互遮挡的车辆分开。

目前的图像处理技术在解决上述问题上均存在一定的难度。

发明内容

本公开为了应对上述问题，提出了一种航拍图像中车辆检测和分割的方法及系统，本公开能够显著地改善车辆检测和分割效果，具有较高的精度和鲁棒性。

根据一些实施例，本公开采用如下技术方案：

一种航拍图像中车辆检测和分割的方法，包括以下步骤：

利用深度卷积神经网络提取遥感图像的特征图，根据特征图的不同尺度大小，构建出特征金字塔；

对原始特征金字塔网络中多层特征进行自适应特征融合，输出新的多尺度特征图；

利用区域提议网络，从多尺度特征中提取出不同尺度对应的感兴趣区域；

将感兴趣区域送入基于注意力机制的三头网络进行进分类，边界框回归以及掩膜分割，得到分类结果，水平边界框回归结果和掩膜分割结果。

作为可选择的实施方式，构建出特征金字塔的具体步骤包括：

将残差网络作为骨干网络，其前馈计算是通过自上而下的路径执行，使用残差网络每个阶段的最后一层网络输出构建包含多尺度特征图的特征金字塔。

作为可选择的实施方式，对原始特征金字塔网络中多层特征进行自适应特征融合的步骤包括：

构建多尺度特征自适应融合网络，以从不同层次的特征中选择所需特征，并集成这些特征以增强特征金字塔的原始特征，多尺度特征图通过双线性插值或自适应平均池化重新缩放为相同尺寸大小，将缩放后的不同比例特征图合并，得到合并后的特征图，引入门控机制以进一步捕获不同尺度特征之间的通道相关性，使用sigmoid函数激活得到不同尺度特征的通道权重，将不同尺度特征的通道权重与重新缩放的特征图进行通道级别的乘法操作，逐元素求和操作用于重新加权后的不同尺度的特征得到集成特征图，对集成特征图进行重新缩放，并增强原始金字塔特征，获得最终输出金字塔特征。

作为可选择的实施方式，从多尺度特征中提取出不同尺度对应的感兴趣区域的具体过程包括：

经过区域提议网络的得到的感兴趣区域首先通过RoIAlign网络层进行归一化，得到固定的大小的感兴趣区域。

作为可选择的实施方式，所述基于注意力机制的三头网络，具有三个独立工作的子网，包括分类分支、基于注意力机制的边界框回归分支和基于注意力机制的掩膜分割分支。

作为进一步的限定，所述分类分支由两个全连接层组成。感兴趣区域特征图输入到分类分支，得到概率，分类分支的的损失函数是交叉熵损失函数，对于每个感兴趣区域，基于所述概率，计算分类损失。

作为进一步的限定，所述基于注意力机制的边界框回归分支，通过RoIAlign得到7×7分辨率的感兴趣区域的特征后，这些特征将依次送入入4个3×3卷积层和1个注意力模块中，使用全连接层来输出预测的元组。

作为进一步的限定，所述基于注意力机制的掩膜分割分支，感兴趣区域的特征将依次送入四个3×3卷积层和注意力模块，一个2×2的反卷积将特征图上采样设定值的分辨率，掩膜分割分支的损失函数定义为分割结果和相应的真实掩膜之间的交叉熵损失函数。

一种航拍图像中车辆检测和分割的系统，包括：

特征图提取模块，被配置为利用深度卷积神经网络提取遥感图像的特征图，根据特征图的不同尺度大小，构建出特征金字塔；

自适应特征融合模块，被配置为对原始特征金字塔网络中多层特征进行自适应特征融合，输出新的多尺度特征图；

感兴趣区域提取模块，被配置为利用区域提议网络，从多尺度特征中提取出不同尺度对应的感兴趣区域；

基于注意力机制的三头网络模块，被配置为将感兴趣区域送入基于注意力机制的三头网络进行进分类，边界框回归以及掩膜分割，得到分类结果，水平边界框回归结果和掩膜分割结果。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种航拍图像中车辆检测和分割的方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种航拍图像中车辆检测和分割的方法。

与现有技术相比，本公开的有益效果为：

本公开提出使用掩膜分割的方法克服基于水平边界框或定向边界框的方法来检测具有任意方向的车辆时存在大量背景像素的问题。

本公开设计了多尺度特征自适应融合网络，以自适应地集成低层位置信息和高层语义信息，以更好地应对尺度变化，以帮助特征金字塔网络更好的处理车辆的尺度变化。

本公开设计了基于注意力机制的三头网络，对位置敏感的头部子网络以增强目标车辆特征并抑制由遮挡引起的背景噪声，以更好地关注前景车辆，从而减少其它车辆遮挡对检测和分割结果的影响。

本公开能够显著地改善车辆检测和分割效果，具有较高的精度和鲁棒性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本实施例的流程图；

图2是本实施例的框架图；

图3是本实施例的自适应特征融合模块网络结构图；

图4是本实施例的基于注意力机制的三头网络结构图；

图5是本实施例的注意力模块网络结构图；

图6(a)(b)是本实施例的无人机平台：DJI Matrice 200以及挂载的Zenmuse X5S云台相机；

图7是本实施例的部分检测和分割的可视化结果。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种用于无人机航拍图像中车辆检测和分割方法。本方法用掩膜分割的方式克服检测航拍图像中任意方向的车辆时边界框包含大量背景像素的问题；本方法设计的特征自适应融合网络可以自适应聚合多个层次的层次特征图，以帮助特征金字塔网络更好的处理车辆的尺度变化；基于注意力机制的三头网络使用空间注意力机制指导对位置敏感的头部子网络以增强目标车辆特征并抑制由遮挡引起的背景噪声。

具体的，如图1所示，步骤1获取待检测图像，使用深度卷积神经网络提取遥感图像的特征图{C2，C3，C4，C5}，根据特征图的不同尺度大小，构建出特征金字塔{P2，P3，P4，P5}。步骤2通过对原始特征金字塔网络中多层特征进行自适应特征融合，输出新的多尺度特征图{M2，M3，M4，M5}；步骤3利用区域提议网络，从多尺度特征中提取出不同尺度对应的感兴趣区域；步骤4将感兴趣区域送入基于注意力机制的三头网络进行进分类，边界框回归以及掩膜分割。最终得到分类结果，水平边界框回归结果和掩膜分割结果。

如图2所示，在深度卷积网络中，深层特征具有更多的高级语义信息，而浅层特征包含更多的细节信息。因此，需要融合来自多个层次的特征，以充分利用来自不同层次的特征的优势。特征金字塔网络设计了一种自上而下的通道来组合多尺度特征。但是顺序连接方式会导致浅层特征与深层特征之间具有较长的信息路径。此外，特征金字塔网络通过简单的求和融合了多尺度特征，而忽略了不同尺度的不同重要性。为了解决这些问题，本实施例设计了一个多尺度特征自适应融合网络，以从不同层次的特征中选择所需特征，并集成这些特征以增强特征金字塔的原始特征。通过这种方式，本实施例可以更有效地将浅层特征和深层的高级语义特征结合在一起。

在本实施例中，深度残差网络被用作骨干网络，其前馈计算是通过自上而下的路径执行的。本实施例使用残差网络每个阶段的最后一层网络输出构建包含多尺度特征图的特征金字塔，分别表示为Conv2(C2)，Conv3(C3)，Conv4(C4)和Conv5(C5)。Conv(C1)不包含在特征金字塔中。在自上而下的路径中，特征图的上采样系数是2。横向连接将上采样的特征图与相应的自下而上的特征图合并。在这些过程之后，生成的特征图表示为{P₂，P₃，P₄，P₅}。

多尺度特征图{P₂，P₃，P₄，P₅}通过双线性插值或自适应平均池化重新缩放为P₄特征图相同尺寸大小，定义为{R₂，R₃，R₄，R₅}。然后将缩放后的特征图送入自适应特征融合模块。自适应特征融合模块用于衡量不同比例的特征的重要性，并根据学习到的权重集成不同尺度的特征。自适应特征融合模块的结构如图3所示。

首先将缩放后的不同比例特征图{R₂，R₃，R₄，R₅}合并得到特征图R_c。

R_c＝cat(R₂，R₃，R₄，R₅)，

其中，cat表示沿特征图通道维度的合并操作。然后，对R_c应用全局平均池化操作得到特征图

其中，R_cp第j通道的特征图可以用以下公式计算：

R_c(x，y，j)代表特征图R_c第j通道在(x，y)位置的像素值。

然后使用1×1卷积层，并引入门控机制以进一步捕获不同尺度特征之间的通道相关性。本实施例使用sigmoid函数来生成不同尺度特征的通道权重，

S＝σ(W₂δ(W₁R_cp))

其中，σ代表sigmoid函数，δ代表线性整流函数，

和/>

为1×1卷积层的参数，/>

然后将通道权重分平均为4部分得到

之后，本实施例将不同尺度特征的通道权重与重新缩放的特征图R_i 进行通道级别的乘法操作。最后，逐元素求和操作用于重新加权后的不同尺度的特征得到集成特征图I，/>

其中，⊙代表通道级别乘法操作。然后将获得的特征I重新缩放为分别与{P₂，P₃，P₄，P₅}相同的大小，并定义为为{N₂，N₃，N₄，N₅}。然后，本实施例使用N_i增强原始金字塔特征P_i，然后获得最终输出金字塔特征M_i。

M_i＝N_i+P_i.

基于注意力机制的三头网络来处理由遮挡引起的背景噪声。从低空无人机的角度来看，车辆目标被部分遮挡的情况非常常见。当航拍图像中的一辆车被其它车辆部分遮挡时，用于检测该车辆的感兴趣区域将包含遮挡车辆的某些特征，这将会对定位目标车辆造成干扰。传统方法的目标只是缩小预测的边界框或掩膜与其指定的真实标记之间的差距。在本实施例中，设计了注意力模块来指导边界框回归分支和掩膜分割分支以关注当前的前景车辆，并抑制由具有相似结构或颜色的其它车辆遮挡产生的干扰。

经过区域提议网络的得到的感兴趣区域首先通过RoIAlign网络层进行归一化，得到固定的大小的感兴趣区域。然后将这些具有固定大小的感兴趣区域分别送到基于注意力机制的三头网络中。本实施例提出的基于注意力机制的三头网络具有三个独立工作的子网，包括分类分支，基于注意力机制的边界框回归分支和基于注意力机制的掩膜分割分支。

基于注意力机制的三头网络结构图如图4所示。其中注意力模块网络结构图如图5所示。

分类分支主要由两个全连接层组成。感兴趣区域特征图输入到分类分支，输出概率p。分类分支的损失函数是交叉熵损失函数。对于每个感兴趣区域，分类损失定义为：

L_cls(p，a)＝-log(p)，

其中，p为全连接层输出经过softmax函数得到的类别概率。a为真实类别。

基于注意力机制的边界框回归分支可以注意力模块的指导下输出边界框的参数化坐标。通过RoIAlign得到7×7分辨率的感兴趣区域的特征后，这些特征将依次送入入4个3×3卷积层和1个注意力模块中。然后，使用全连接层来输出预测的元组。与Faster R-CNN的边界框回归方法一样，本实施例在真实边界框回归目标元组和预测边界框回归元组中定义边界框回归损失L_bbox。

区域注意力引导遮罩分支用于在注意力模块的指导下为每个感兴趣区域预测28×28分辨率的掩膜。在基于注意力机制的掩膜分割分支中，感兴趣区域的特征将依次送入四个3×3卷积层和注意力模块中。此后，一个2×2的反卷积将特征图上采样为28×28的分辨率。掩膜分割分支的损失函数定义为分割结果和相应的真实掩膜之间的交叉熵损失函数。对于一个真实类别为a的感兴趣区域，仅在预测结果类别为a的掩膜中定义损失函数L_mask。

其中，m×m是掩膜的分辨率，M^*是实际的二进制掩膜，M是预测的类别为a的掩膜。

最终，在每个感兴趣区域上的多任务损失函数定义为：

L＝αL_cls+βL_bbox+γL_mask，

其中，L_cls是分类任务的损失函数，L_bbox是边界框回归任务的损失函数，L_mask是掩膜分割任务的损失函数。α，β，γ是可以根据各种训练需求进行调整的加权参数，显示了当前网络中不同任务之间的重要程度。

相应的，还提供以下产品实施例：

一种航拍图像中车辆检测和分割的系统，包括：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行述实施例提供的一种航拍图像中车辆检测和分割的方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述实施例提供一种航拍图像中车辆检测和分割的方法。

仿真实验：

本实施例的实验使用深度学习框架PyTorch进行编程实现。实验平台的主要配置为：Ubuntu 16.04操作系统，Intel i7-6800K CPU，32GB DDR4内存，NVIDIA TITAN-Xp显卡。

本研究中使用的骨干网络架构为ResNet-50。图像的长和宽分别调整为1333和800像素。具体训练细节如下。(1)由于GPU内存的限制，批次大小设置为2。(2)本实施例的网络在单个GPU上进行了总共24个时期的训练。(3)初始学习率为0.0025，在第16和22阶段降低了0.1。(4)本实施例使用了0.0001的权重衰减和0.9的动量。(5)多任务损失函数的权重参数α，β，γ之比设置为1：1：2。

数据集：

图像采集本实施例使用无人机在校园，城市道路，居民区，停车场，高速公路等场景中采集了4,374张图像。采集航拍图像使用的无人机平台是DJI Matrice 200四旋翼无人机，它集成了Zenmuse X5S云台相机。机载摄像头可以每秒30帧的分辨率录制视频，视频分辨率高达4096×2160像素。无人机平台如图6(a)(b)所示。

为了收集不同尺度的车辆的图像在无人机巡航高度为10米-150米范围内采集图像。同时，不断改变机载相机与地面车辆之间的相对角度，以获得包含具有各种朝向的车辆图像。

为了使数据集中的图像包含更多场景，从VisDrone数据集中仔细选择了1,500张图像。尝试在具有不同天气和光照条件的不同场景下选择图像，以补充拍摄的图像。在原始VisDrone数据集中不包含实例级掩膜注释，在这些图像中手动标记了车辆掩膜。

图像标记：使用开源软件LabelMe标记了采集到的图像中的车辆的掩膜。按照图像中车辆目标轮廓绘制闭合多边形，将多边形区域标注为‘car’。

最终建立航空图像车辆实例分割数据集包含5,874张图像，其中训练图像3,564张，验证图像585张，测试图像1,725张。对于检测和分割结果均采用平均精确率mAP为评价指标，mAP越高，则代表效果越好。

实验结果较其它卷积神经网络如下：

方法	mAP(检测)	mAP(分割)
			本实施例	78.2％	77.0％
PANet	75.0％	74.7％
			Mask Scoring R-CNN	74.9％	74.4％
Mask R-CNN	74.7％	74.3％
			CenterMask	71.7％	72.7％
PolarMask	67.7％	64.8％
			EmbedMask	72.3％	62.0％
YOLACT++	55.5％	55.7％

部分检测和分割的可视化结果如图7所示，实验结果表明，所提出的方法能够显著地改善车辆检测和分割效果，具有较高的精度和鲁棒性。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种航拍图像中车辆检测和分割的方法，其特征是：包括以下步骤：

对特征金字塔网络中多层特征进行自适应特征融合，输出新的多尺度特征图；

将感兴趣区域送入基于注意力机制的三头网络进行进分类，边界框回归以及掩膜分割，得到分类结果，水平边界框回归结果和掩膜分割结果，所述基于注意力机制的三头网络，具有三个独立工作的子网，包括分类分支、基于注意力机制的边界框回归分支和基于注意力机制的掩膜分割分支。

2.如权利要求1所述的一种航拍图像中车辆检测和分割的方法，其特征是：构建出特征金字塔的具体步骤包括：

3.如权利要求1所述的一种航拍图像中车辆检测和分割的方法，其特征是：对原始特征金字塔网络中多层特征进行自适应特征融合的步骤包括：

构建多尺度特征自适应融合网络，以从不同层次的特征中选择所需特征，并集成这些特征以增强特征金字塔的原始特征，多尺度特征图通过双线性插值或自适应平均池化重新缩放为相同尺寸大小，将缩放后的特征图衡量不同比例的特征的重要性，并根据学习到的权重集成不同尺度的特征。

4.如权利要求3所述的一种航拍图像中车辆检测和分割的方法，其特征是：将缩放后的特征图衡量不同比例的特征的重要性，并根据学习到的权重集成不同尺度的特征的具体步骤包括：

将缩放后的不同比例特征图合并，得到合并后的特征图，对合并后的特征图应用全局平均池化操作，然后使用卷积层，并引入门控机制以进一步捕获不同尺度特征之间的通道相关性，将不同尺度特征的通道权重与重新缩放的特征图进行通道级别的乘法操作，逐元素求和操作用于重新加权后的不同尺度的特征得到集成特征图，对集成特征图进行重新缩放，并增强原始金字塔特征，获得最终输出金字塔特征。

5.如权利要求1所述的一种航拍图像中车辆检测和分割的方法，其特征是：从多尺度特征中提取出不同尺度对应的感兴趣区域的具体过程包括：

6.如权利要求1所述的一种航拍图像中车辆检测和分割的方法，其特征是：所述分类分支由两个全连接层组成；感兴趣区域特征图输入到分类分支，得到概率，分类分支的的损失函数是交叉熵损失函数，对于每个感兴趣区域，基于所述概率，计算分类损失。

7.如权利要求1所述的一种航拍图像中车辆检测和分割的方法，其特征是：所述基于注意力机制的边界框回归分支，通过RoIAlign得到7×7分辨率的感兴趣区域的特征后，这些特征将依次送入入4个3×3卷积层和1个注意力模块中，使用全连接层来输出预测的元组；

或，所述基于注意力机制的掩膜分割分支，感兴趣区域的特征将依次送入四个3×3卷积层和注意力模块，一个2×2的反卷积将特征图上采样设定值的分辨率，掩膜分割分支的损失函数定义为分割结果和相应的真实掩膜之间的交叉熵损失函数。

8.一种航拍图像中车辆检测和分割的系统，其特征是：包括：

自适应特征融合模块，被配置为对特征金字塔网络中多层特征进行自适应特征融合，输出新的多尺度特征图；

基于注意力机制的三头网络模块，被配置为将感兴趣区域送入基于注意力机制的三头网络进行进分类，边界框回归以及掩膜分割，得到分类结果，水平边界框回归结果和掩膜分割结果，所述基于注意力机制的三头网络，具有三个独立工作的子网，包括分类分支、基于注意力机制的边界框回归分支和基于注意力机制的掩膜分割分支。

9.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种航拍图像中车辆检测和分割的方法。

10.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种航拍图像中车辆检测和分割的方法。