CN109934163B

CN109934163B - 一种基于场景先验和特征再融合的航空图像车辆检测方法

Info

Publication number: CN109934163B
Application number: CN201910184309.3A
Authority: CN
Inventors: 李红光
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-12-27
Filing date: 2019-03-12
Publication date: 2022-07-08
Anticipated expiration: 2039-03-12
Also published as: CN109934163A

Abstract

本发明公开了一种基于场景先验和特征再融合的航空图像车辆检测方法，属于航空图像处理技术领域。对包含待测目标的原始航空图像训练集，进行训练集的图像数据增广后，依次进行图像数据预处理和真值标签预处理；根据图像数据预处理得到的子图像和真值标签预处理后的单通道标签图训练语义分割网络模型；将子图像与单通道标签图连接成四通道图像，输入改进的进行特征二次融合的目标检测网络模型；并采用端对端方式对改进的目标检测网络模型进行训练；对包含待测目标的每张原始航空图像，利用训练好的改进后的目标检测网络模型进行车辆预测。本发明具有较大的检测速度优势，具有更高的鲁棒性，对小目标的检测具有更高的准确性和召回率。

Description

一种基于场景先验和特征再融合的航空图像车辆检测方法

技术领域

本发明属于航空图像处理技术领域，具体涉及一种基于场景先验和特征再融合的航空图像车辆检测方法。

背景技术

航空图像是指由飞机、无人飞行器或氢气球等航空器上的成像平台，采集得到的对地遥感图像。根据航空器的不同，航空图像的成像高度从数百米到几万米不等。随着近年来航空成像设备成像质量的不断提高和民用无人飞行器的普及，航空图像在各领域都得到了广泛的应用，例如地表勘探、地图测绘、车流人流监测以及移动目标追踪等等，这也对航空图像的目标检测任务提出了更高的要求。

目标检测任务涵盖了两个相对独立的子任务，即目标的定位和分类。目标定位主要目的是判断待测图像中是否存在特定的物体，若存在则输出目标物体的边界框、目标中心或目标的闭合边界等。目标分类主要是判别结果中目标的所属类别，输出带有概率值的标签信息，例如在车辆检测任务中即为当前车辆属于某种类型车辆的概率。

目前基于神经网络的目标检测方法主要分为两种：即单阶段检测和双阶段检测。单阶段检测法直接根据预设的边界框对落在该边界框范围内的物体进行分类和位置坐标回归；而双阶段检测法首先通过候选区域生成网络得到可能属于目标的区域，再将其输入到网络检测头，进行进一步分类和回归。

与常规场景图像不同，航空图像的尺寸往往很大，覆盖地表范围广，并且地物分布具有密集性和相似性；其次，由于成像距离较远，航空图像相比常规场景图像没有明显的前景和背景信息可供利用；此外，图像中车辆目标尺寸小、形态颜色差异大、受光霾雾等噪声影响明显。因此，直接将现有的常规场景目标检测方法应用于航空图像车辆检测将导致检测结果的准确率和召回率偏低，不能够满足任务的需要。另外，航空图像中车辆分布具有一定的场景和空间规律性，现有的方法未能利用场景类别作为先验信息来改善车辆检测性能。

发明内容

针对航空图像中的车辆目标检测任务，为提升检测结果的准确率和召回率同时满足一定的实时性要求，本发明结合图像语义分割网络和双阶段目标检测网络，提出一种基于场景先验和特征再融合的航空图像车辆检测方法。

具体步骤如下：

步骤一、对包含待测目标的原始航空图像训练集，进行训练集的图像数据增广；

待测目标是指每张航空图像中出现的所有车辆；

图像数据增广包括尺寸空间增广和色彩空间增广；

尺寸空间增广是指：针对训练集中所有原始航空图像，根据金字塔缩放的方式，按照不同比例因子的个数进行分组，对每组中的各图像通过双线性插值进行缩放，得到增广数据集，进而学习到目标的多尺度特征。

色彩空间增广是指：针对训练集中所有原始航空图像，随机分成若干组，分别对每组图像进行饱和度、亮度、对比度或锐度等随机的改变。

步骤二、针对增广后的训练集，依次进行图像数据预处理和真值标签预处理；

图像数据预处理是对增广后的训练集采用重叠裁剪分片进行区块化的分割，得到子图像；

区块化分割具体为：针对某一方向上分块的窗口长度w，使用步长Δs＝(1-α)w来更新下一次的分块起点，0<α<1表示重叠率。

真值标签预处理是对原始训练集图像标签进行处理，得到子图像的单通道标签图，以及真实边界框坐标值和类别值。

单通道标签图的像素值为0到n之间的整数，其中n为像素的类别数，0为背景类别；

真实边界框坐标值的形式为(x,y,w,h)，其中x,y为边界框的左上角坐标，w,h为边界框的宽和高。

真实边界类别值定义为车辆；

步骤三、根据图像数据预处理得到的子图像和真值标签预处理后的单通道标签图训练语义分割网络模型；

步骤四、将图像数据预处理得到的子图像与单通道标签图连接成四通道图像，输入改进的进行特征二次融合的目标检测网络模型；并采用端对端方式对改进的目标检测网络模型进行训练；

首先，将四通道图像输入现有的目标检测网络模型的特征提取网络中，得到各层级的特征图，然后应用基于特征金字塔的多层级特征融合结构，对首次融合后的相邻层级的各层特征图，利用分支网络进行二次融合，对目标检测网络模型进行改进，得到各个层级二次融合后的特征图；

具体融合过程为：

特征提取网络采用ResNet-101结构，使用conv_2x，conv_3x，conv_4x，conv_5x层的输出作为预融合特征图，首先按照自上而下的顺序，将当前层的特征经过一个1×1的过渡卷积层与上一层级的特征图融合，后者需要先经过上采样恢复到与前者相同的分辨率；

融合后的特征图再以相同的方式与下一层级的特征图做融合，如此递归至分辨率最高的一级特征图为止。

然后，利用分支网络进行二次融合，将最底层的特征图直接输出；按照自下而上的顺序，从最底层开始，与相邻层之间的融合过程是：对于两层中较高分辨率的特征图，先通过池化操作使分辨率与另一分支的特征图保持一致，再将两个分支分别经过一个3×3的卷积层，通道数降为原来的一半，最后将两个分支的特征图通过连接操作拼合到一起，作为最终的特征。

由此得到每相邻两层二次融合后的特征图。

对改进的目标检测网络模型进行训练；训练方法有交替训练、近似联合训练或者非近似联合训练等；

步骤五、对包含待测目标的每张原始航空图像，利用训练好的改进后的目标检测网络模型进行车辆预测；

具体预测过程为：

步骤501、将每张原始航空图像进行重叠裁剪分片为子图像；

步骤502、利用训练好的语义分割网络模型，对裁剪分片的子图像分别进行道路区域分割。

步骤503、根据区域分割结果，依次选取符合预设道路场景要求的每张裁剪分片子图像，连接为四通道图像输入训练好的改进的目标检测网络模型；

子图像的选择过程如下：

设定阈值θ，统计区域分割结果中属于道路的像素相对于相应子图像全部像素的占比α，选取α＞θ的子图像作为待测子图像；

步骤504、目标检测网络模型输出当前子图像中车辆的相对位置信息(x′,y′,w,h)和类别信息，再根据该子图像在原图中的横纵方向序号(i,j)计算车辆的绝对位置信息(x,y,w,h)。

其中，

x＝Δs·i+x′

y＝Δs·j+y′

步骤505、选择下一张裁剪分片子图像，与区域分割结果连接为四通道图像输入训练好的改进的目标检测网络模型，返回步骤504；

步骤506、对所有子图像的车辆检测结果进行拼接，并进行非最大值抑制，得到最终的原始图像中的车辆检测结果。

本发明具有如下的优点：

(1)一种基于场景先验和特征再融合的航空图像车辆检测方法，在大尺寸高分辨率的航空图像车辆目标检测任务中，具有较大的检测速度优势；

(2)一种基于场景先验和特征再融合的航空图像车辆检测方法，在复杂地面场景中，车辆检测性能具有更高的鲁棒性；

(3)一种基于场景先验和特征再融合的航空图像车辆检测方法，相较于单阶段目标检测网络和相同参数量的双阶段目标检测网络，对小目标的检测具有更高的准确性和召回率。

附图说明

图1是本发明一种基于场景先验和特征再融合的航空图像车辆检测方法的流程图；

图2是本发明基于图像金字塔的图像数据增广示意图；

图3是本发明原始图像及其色彩空间增广示意图；

图4是本发明训练集的重叠裁剪分片示意图；

图5是本发明采用的道路区域提取网络结构图；

图6是本发明提出的基于特征金字塔的多层级特征再融合基础网络；

图7是本发明提出的基于深度可分卷积改进的基础网络；

图8是基于场景先验和特征再融合的航空图像车辆检测框架预测阶段流程图。

具体实施方式

下面结合附图，对本发明的具体实施方法作进一步的详细说明。

本发明提供了一种基于场景先验和特征再融合的航空图像车辆检测方法，包括训练阶段和预测阶段；

训练阶段包括数据预处理，语义分割网络训练以及目标检测网络训练。

数据预处理主要包括训练集图像数据增广、图像数据预处理和真值标签预处理。训练集图像数据增广包括尺寸空间增广和色彩空间增广；图像数据预处理包括对训练集图像进行裁剪分片；真值标签预处理包括生成用于语义分割网络训练的单通道标签图和适用于目标检测网络训练的真实边界框坐标值和类别值的数据结构。

语义分割网络训练是根据训练集中的待分割子图像和真值标签训练航空图像道路区域语义分割网络。道路区域语义分割网络用于获取子图像对应的道路区域语义分割图，即场景先验信息。

目标检测网络训练主要包括候选区域生成网络的训练和分类回归网络的训练，所述网络的训练的过程是端对端的；使用的目标检测训练图像为原始图像与对应的道路区域语义分割图连接(concat)形成的四通道图像。

预测阶段是对包含待测目标的每张原始航空图像，利用训练好的目标检测网络模型进行车辆预测。

如图1所示，具体步骤如下：

待测目标是指每张航空图像中出现的所有车辆；

训练集图像数据增广包括尺寸空间增广和色彩空间增广；

尺寸空间增广是指：针对训练集中所有原始航空图像，根据金字塔缩放的方式，按照不同比例因子的个数进行分组，对每组中的各图像分别通过双线性插值进行缩放，得到增广数据集，进而学习到目标的多尺度特征。

基于图像金字塔的图像数据增广的示意图如图2所示，由于同一航空图像数据集的对地分辨率一般为固定值，图像中的待检测目标尺寸较为单一，缺乏多尺度的信息，因此采用图像金字塔缩放的方式对原始数据集进行增广，得到7组在不同比例因子下的增广数据集，相对原图的比例因子分别为

1，

和2。其中缩放过程通过双线性插值的方式来实现。模型通过增广后的数据集训练可以学习到图像中目标的多尺度特征，从而可以适应一定范围内不同尺度空间的航空图像测试样本。

由于自然环境下的航空图像中的待测目标经常受到光照、阴影、雾霾、遮蔽和噪声等的影响和污染，为了提高以上情况下的地面目标的检测性能，需要在训练集中对原始数据进行色彩空间的增广，色彩空间的增广结果如图3所示。

图像数据预处理是对增广后的训练集采用重叠裁剪分片进行区块化的分割，得到子图像；如图4所示。

相对于一般场景的图像，单幅航空图像的分辨率往往为一般场景图像的15-20倍，对内存要求十分巨大；另外，航空图像中的目标尺寸小，直接对原始图像进行缩放将造成目标有用信息的急剧减少，有必要对原始图像进行区块化的分割作为网络输入的预处理。本发明采用了重叠裁剪分片的思想，即针对某一方向上分块的窗口长度w，使用步长

Δs＝(1-α)w (1)

来更新下一次的分块起点，其中0<α<1表示重叠率。这样既能够满足网络对图像的输入条件，又能够保证分块区域边界处的目标信息不丢失，此外还能够对原有的输入图像做一定的空间上的增广。

真值标签预处理是对子图像的标签进行处理，得到用于语义分割网络训练的单通道标签图，以及适用于目标检测网络训练的真实边界框坐标值和类别值。

单通道标签图的像素值为0到n之间的整数，其中n为像素的类别数，0为背景类别；对于道路区域分割网络来说，单通道标签图为0-1二值图像。

真实边界类别值定义为车辆；

根据训练集中的待分割子图像和真值标签训练航空图像道路区域语义分割网络。本发明所采用的道路提取网络为多前馈形式的全卷积网络，如图5所示。实际中可以采用类似的全卷积网络而不限于该形式。

由于航空图像中车辆目标的像素区域相对于整幅图像分辨率的占比很小，对车辆目标检测造成了很大困难。如果直接将特征提取网络最后一层的输出作为候选区域生成网络或者检测模块的输入特征图，那么由于多个池化层的作用，特征图的空间分辨率急剧减小，小目标的特征及位置信息在这里将变得十分有限。

如图6所示，展示了本发明提出的基于特征金字塔的多层级特征融合网络结构。

具体融合过程为：

特征提取网络采用ResNet-101结构，使用conv_2x，conv_3x，conv_4x，conv_5x层的输出作为预融合特征图，首先按照自上而下的顺序，将当前层的特征经过一个1×1的过渡卷积层与解码端上一层级的特征图融合，后者需要先经过上采样恢复到与前者相同的分辨率；

融合后的特征图再以相同的方式与下一层级的特征图做融合，如此递归至分辨率最高的一级特征图为止。这样高分辨率的特征图在保留了大量细节信息的同时也融合了来自高层级特征图的语境信息。

然后，针对解码端首次融合后的相邻层级的特征图，利用分支网络进行二次融合，充分利用了不同层级的语义和空间信息；将最底层的特征图直接输出；按照自下而上的顺序，从最底层开始，与相邻层之间的融合过程是：对于两层中较高分辨率的特征图，先通过池化操作使分辨率与另一分支的特征图保持一致，再将两个分支分别经过一个3×3的卷积层，通道数降为原来的一半，最后将两个分支的特征图通过连接操作(concat)拼合到一起，作为最终的特征。

由此得到每相邻两层二次融合后的特征图。

相比自上而下的多层级特征初次融合过程，特征再融合主要优势在于可以将编码端靠近输入的高分辨率特征自下而上地融合进解码端的低分辨率特征图，更有利于小目标的检测。

同时，本发明采用了相互独立的平行结构分别对融合后每一层级的特征图进行目标检测。在锚点框的设置上，为了提升小目标检测的召回率和准确率，本发明将锚点框的边长分别设置为8，16，32，64。

本发明将目标检测网络结合FPN中对ROI的分配策略和航空图像车辆目标的特点对特征提取基础网络进行剪枝：即对于宽度为w长度为h的ROI，将被分配到特征金字塔的第P_k层级，其中：

由上式可知，当k₀取4时，w×h小于224²的ROI都将被映射到第3和第2层级的特征图。由于航空图像数据集的车辆目标尺寸均小于这一阈值，因此可以对高于第3层级的基础网络进行裁剪，同时第4层级的特征图可以直接由上一层级池化得到。对应于裁剪后网络的锚点框尺寸分别设为16，32，64。

此外，本发明还利用深度可分卷积模块改进了特征提取基础网络的一般卷积层结构，改进后的特征提取基础网络结构如图7所示。

如图8所示，具体预测过程为：

步骤501、将每张原始航空图像进行重叠裁剪分片为子图像，重叠率α与训练阶段相同，过程仍如图4所示，记录得到的子图像在原图像中的横纵方向序号(i,j)，其中i,j＝0,1,2…；

步骤502、利用训练好的语义分割网络模型，对裁剪分片的子图像分别进行道路区域分割提取。

目标检测网络的输入为符合预设道路场景要求的子图像与对应的道路区域语义分割图连接(concat)形成的四通道图像。子图像的选择过程如下：

其中，

x＝Δs·i+x′ (3)

y＝Δs·j+y′ (4)

Δs为(3)式中所表示的分片步长。

步骤506、对所有子图像的车辆检测结果进行拼接和进行非最大值抑制，得到最终的原始图像中的车辆检测结果。

本发明针对航空图像中车辆目标的场景依赖性，引入了语义分割网络对裁剪分片后的子图像进行筛选，将符合预设道路场景要求的子图像与对应的道路区域语义分割图连接形成的四通道图像，作为车辆检测网络的输入。同时，在检测网络部分，针对航空图像检测目标一般占比较小的问题，特征提取网络在应用自上而下的特征融合后，对融合后的相邻层级进行再融合作为最终的特征。本发明利用了图像场景这一先验信息，引入了特性再融合策略，在基础网络部分应用了剪枝和深度可分卷积，具有较大的检测速度优势，对小目标拥有更高的准确性和召回率。

本发明针对车辆目标检测的特点，所述目标检测框架对基础网络进行了剪枝处理，再利用深度可分卷积模块作为基础网络的主要模块，减小了网络参数量和计算量；针对车辆目标分布的规律性，所述目标检测框架充分挖掘和利用语义分割网络输出的道路场景信息，提升了车辆目标检测网络的效率，可以有效应用于实际任务中。

Claims

1.一种基于场景先验和特征再融合的航空图像车辆检测方法，其特征在于，具体步骤如下：

首先，将四通道图像输入现有的目标检测网络模型的特征提取网络中，得到各层级的特征图，然后，应用基于特征金字塔的多层级特征融合结构，对首次融合后的相邻层级的各层特征图，利用分支网络进行二次融合，对目标检测网络模型进行改进，得到各个层级二次融合后的特征图；

融合具体过程为：特征提取网络采用ResNet-101结构，使用conv_2x，conv_3x，conv_4x，conv_5x层的输出作为预融合特征图，首先按照自上而下的顺序，将当前层的特征经过一个1×1的过渡卷积层与上一层级的特征图融合，后者需要先经过上采样恢复到与前者相同的分辨率；

融合后的特征图再以相同的方式与下一层级的特征图做融合，如此递归至分辨率最高的一级特征图为止；

然后，利用分支网络进行二次融合，将最底层的特征图直接输出；按照自下而上的顺序，从最底层开始，与相邻层之间的融合过程是：对于两层中较高分辨率的特征图，先通过池化操作使分辨率与另一分支的特征图保持一致，再将两个分支分别经过一个3×3的卷积层，通道数降为原来的一半，最后将两个分支的特征图通过连接操作拼合到一起，作为最终的特征；

由此得到每相邻两层二次融合后的特征图；

步骤五、对包含待测目标的每张原始航空图像，利用训练好的改进后的目标检测网络模型进行车辆预测。

2.如权利要求1所述的一种基于场景先验和特征再融合的航空图像车辆检测方法，其特征在于，步骤一中所述的待测目标是指每张航空图像中出现的所有车辆；

图像数据增广包括尺寸空间增广和色彩空间增广；

尺寸空间增广是指：针对训练集中所有原始航空图像，根据金字塔缩放的方式，按照不同比例因子的个数进行分组，对每组中的各图像通过双线性插值进行缩放，得到增广数据集，进而学习到目标的多尺度特征；

色彩空间增广是指：针对训练集中所有原始航空图像，随机分成若干组，分别对每组图像进行饱和度、亮度、对比度或锐度随机的改变。

3.如权利要求1所述的一种基于场景先验和特征再融合的航空图像车辆检测方法，其特征在于，步骤二中所述的图像数据预处理是对增广后的训练集采用重叠裁剪分片进行区块化的分割，得到子图像；

区块化分割具体为：针对某一方向上分块的窗口长度w，使用步长Δs＝(1-α)w来更新下一次的分块起点，0<α<1表示重叠率；

真值标签预处理是对原始训练集图像标签进行处理，得到子图像的单通道标签图，以及真实边界框坐标值和类别值；

真实边界框坐标值的形式为(x,y,w,h)，其中x,y为边界框的左上角坐标，w,h为边界框的宽和高；

真实边界类别值定义为车辆。

4.如权利要求1所述的一种基于场景先验和特征再融合的航空图像车辆检测方法，其特征在于，步骤四中所述的对改进的目标检测网络模型进行训练；训练方法有交替训练、近似联合训练或者非近似联合训练。

5.如权利要求1所述的一种基于场景先验和特征再融合的航空图像车辆检测方法，其特征在于，步骤五中所述的具体预测过程为：

步骤501、将每张原始航空图像进行重叠裁剪分片为子图像；

步骤502、利用训练好的语义分割网络模型，对裁剪分片的子图像分别进行道路区域分割；

子图像的选择过程如下：

步骤504、目标检测网络模型输出当前子图像中车辆的相对位置信息(x′,y′,w,h)和类别信息，再根据该子图像在原图中的横纵方向序号(i,j)计算车辆的绝对位置信息(x,y,w,h)；

其中，

x＝Δs·i+x′

y＝Δs·j+y′