CN113095277B

CN113095277B - 一种基于目标空间分布特征的无人机航拍车辆检测方法

Info

Publication number: CN113095277B
Application number: CN202110456571.6A
Authority: CN
Inventors: 李旭; 宋世奇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2022-04-05
Anticipated expiration: 2041-04-27
Also published as: CN113095277A

Abstract

本发明公开了一种基于目标空间分布特征的无人机航拍车辆检测方法，该方法首先基于条件生成对抗CGAN思想构建航拍车辆密度估计网络，生成车辆密度图，由此获得车辆目标空间分布特征；其次，依据目标空间分布特征对高分辨率航拍车辆图像实现自适应切分，得到若干局部图像块；最后，利用局部图像块以及原始无人机航拍车辆图像分别训练得到一个单阶段车辆检测器，并将全局图像与局部图像块的检测结果基于Soft‑NMS算法进行决策级融合后，输出最终检测结果。本发明提出的无人机航拍车辆检测方法避免了因原始图像缩放而导致的目标像素特征点丢失情况的出现，进一步提升了车辆检测精度。

Description

一种基于目标空间分布特征的无人机航拍车辆检测方法

技术领域

本发明属于智能交通领域，尤其涉及一种基于目标空间分布特征的无人机航拍车辆检测方法。

背景技术

近年来，智能交通系统的有关研究受到了各界学者的广泛关注，准确、实时地对道路交通场景信息的全方位感知是构建智能交通系统的重要环节，其中对交通的主要参与者车辆进行检测识别，是进行交通态势感知评估的必要前提。相比于路侧安装固定摄像头的方式，在无人机航拍视角下对道路交通中的车辆进行感知，具有高灵活、宽视角以及大范围优势，这对于对弥补传统路侧视角下环境感知方法固有缺陷、推动智能交通系统的构建与发展具有重要意义。

同时，随着深度学习技术的快速发展以及其在目标检测领域的出色表现，国内外研究者利用深度学习算法针对于航拍视角下的车辆检测也有了广泛的研究。而现有研究多聚焦于已有目标检测器在航拍车辆检测任务上的优化改进，虽然在检测精度以及速度上取得了一定效果，但是忽略了将高分辨率航拍图像直接缩放输入检测器所造成的图像中车辆目标，尤其是航拍视角下占比较高的小尺度车辆目标像素特征点损失的问题，在输入源上便已经造成了目标特征信息的丢失，由此对目标检测器的检测性能带来严重影响。因此，需要考虑采用将航拍图像进行切分后输入目标检测器的检测方法，然而当下已有的针对于原始高分辨率航拍图像切分策略主要为平均切分，即将原始航拍图像平均切分为若干等大的图像块后，送入车辆检测器。但是平均切分的方法会导致出现某一图像切片全为无效背景区域以及车辆目标的截断等问题，影响目标识别精度。

发明内容

为了解决上述存在的问题，本发明提出一种基于目标空间分布特征的无人机航拍车辆检测方法。该方法可以依据车辆目标在无人机航拍图像中的空间分布特征进行图像的自适应切分，从而有效避免目标截断以及无效背景区域情况的出现，进一步提高了航拍车辆检测精度。

为了达到上述目的，本发明提供如下技术方案：

基于目标空间分布特征的无人机航拍车辆检测方法，包括以下步骤：

(1)首先，基于条件生成对抗CGAN思想构建航拍车辆密度估计网络，生成车辆密度图；具体包括以下步骤：

(1.1)搭建U型编解码对称式结构的生成器网络G；网络主体结构共包含13层卷积，其中第1、2、4与6层采用可学习的卷积操作实现4次两倍下采样，与之对应地，第8、10、12与13层采用反卷积操作对编码后得到的图像语义特征进行解码并恢复特征图的分辨率，上采样以及下采样卷积中使用的卷积核尺寸均为3×3；生成网络第3、5、7、9、11层各引入两组含有两个3×3卷积核的残差块结构，其中第3、5、7层残差块中采用混合空洞卷积，对于n个连续卷积核大小为K×K的卷积层，其扩张率r设置依据为：

式(1)中M为两个非零值之间的最大距离，由此设计生成器网络中每个残差块中的两个3×3空洞卷积扩张率r分别为1，2；每个卷积层后加入批量标准化层，激活层使用LeakyReLU作为激活函数，并在编码与解码结构中对应的同等分辨率尺寸特征图之间加入跳连接；网络中的卷积核数均设置为64，并在解码器的最后一层后进行一个输出通道数为一的1×1卷积操作；

(1.2)搭建PatchGAN形式的鉴别器网络D；该鉴别器网络中含有三个连续3×3卷积层进行两倍下采样操作，然后紧跟三个3×3卷积进行进一步的特征提取，对首尾层卷积层外的其它卷积层进行批量标准化处理，采用LeakyReLU函数作为激活函数，然后第一个卷积层通道数为64，其余卷积层除最后一层为1外，通道数都较其前一层通道数翻倍，最后在鉴别器网络加入Sigmoid函数得到最终判别分数的输出；

(1.3)设置目标函数以指导网络中权重参数优化更新，构造的目标函数为：

式(2)中目标函数共包含4项损失函数，为每项损失函数配置一个权值参数，其中航拍车辆密度估计网络的对抗损失为：

式(3)中I为航拍车辆RGB图像，DM为与之对应的单通道密度图真值图像；并引入L₂损失函数：

式(4)中N表示训练时采用的batch大小，I_i为输入的航拍车辆图片，DM_i为标注的真值密度图。同时引入关于目标数目的平均绝对误差损失：

特征匹配损失函数为：

式(6)中f_i代表鉴别器D的第i层卷积后的输出特征，n是鉴别器的卷积层数；

(1.4)制作密度图真值标签并基于步骤(1.3)确定的目标函数对步骤(1.1)与(1.2)搭建的网络进行对抗性训练，将训练后的生成器网络作为最终的航拍车辆密度估计网络；对于航拍车辆图像，首先建立单通道点图，即在一张与原RGB图像等尺寸的单通道图像中将车辆目标标注框的中心点位置像素值设为1，其余位置像素为0，然后利用归一化高斯核G_σ卷积拟合，得到较为连续的密度图，具体计算公式为：

式(7)中

为一张图像中N个车辆目标坐标位置的离散表示方法；高斯卷积拟合时所用高斯模板基于目标尺度自适应确定，具体公式为：

式(8)中σ_f参数表示固定的高斯核标准差，而G_S为高斯核的截取模板尺度标准差倍数，w_i、h_i分别为第i个目标的宽高尺寸；

在得到密度图真值标签后，依据步骤(1.3)中设置的目标函数对步骤(1.1)与(1.2)搭建的网络进行对抗性训练，并将训练后的生成器网络作为最终的航拍车辆密度估计网络，生成车辆密度图；

(2)其次，依据目标空间分布特征对高分辨率航拍车辆图像实现自适应切分，得到若干局部图像块；具体包括以下步骤：

(2.1)通过Kmeans++聚类算法在训练集标注车辆目标数据中聚类得到n个尺寸，采用多尺度窗口在步骤(1)得到的密度图上进行无重叠滑动，然后计算出所有的像素值总和并与阈值T进行比较，如果大于T，便将该窗口覆盖区域像素值设置为1，如果小于阈值，便将窗口覆盖区域的像素值赋值为0，由此生成切分所用掩膜；

(2.2)经过步骤(2.1)得到密度掩膜后，首先自密度掩膜中选择出像素值为1的像素，然后将每8个相邻的连接像素合并为一个大的候选区域，最后根据候选区域的最小外接矩形对原始航拍图像进行切分，若出现切分区域被包含的情况，则不对完全包含在大矩形内的小矩形进行单独切分，只切分出最大矩形区域，过滤掉分辨率尺寸小于10×10的切片；

(3)利用局部图像块以及原始无人机航拍车辆图像分别训练得到一个单阶段车辆检测器，并将全局图像与局部图像块的检测结果基于Soft-NMS算法进行决策级融合后，输出最终检测结果；具体包括以下步骤：

(3.1)训练单阶段网络航拍车辆检测器；将局部图像块与全局图像经过尺度调整为检测器规定尺寸I×I后，得到图像块数据集与全局航拍车辆数据集，并由此分别训练得到一个单阶段网络航拍车辆检测器；

(3.2)将全局图像与局部图像块在相应检测器上的检测结果采用Soft-NMS算法进行决策级融合，在融合过程中，当检测框b_i与本轮最高分检测框M之间的IOU值大于设定阈值TH时，则调整检测框b_i分数，新的分数计算公式为：

式(9)中s_i为检测框b_i的分数，σ为高斯函数标准差；

经过决策级融合后，输出最终无人机航拍车辆检测结果，包括车辆的类别信息以及位置信息。

本发明提出的一种基于目标空间分布特征的无人机航拍车辆检测方法具有以下优点：

1、本发明建立了基于条件生成对抗网络的无人机航拍车辆密度估计网络，首先搭建了一个用于密度估计的生成器网络，然后与之对应地建立一个鉴别器网络，两个网络之间根据由多个损失函数构成的目标函数以对抗性训练的方式使生成器获得生成高质量航拍车辆密度图的权重参数，为后续针对原始高分辨率航拍图像自适应切片处理以及检测提供了准确的车辆分布特征，有效地避免了以往平均切分方式易导致的目标截断以及无效背景区域情况的出现。

2、本发明在密度图真值标签制作中依据航拍车辆目标尺度自适应地确定高斯核，由此得到的密度图真值标签可以更好地反应原始图像中的不同尺度车辆的分布特征，为无人机航拍车辆密度估计网络优化奠定坚实基础，由此为准确切分航拍图像提供更佳依据。

3、本发明将局部图像块以及全局原始航拍图像分别送入相应的单阶段车辆检测器中，并基于Soft-NMS算法实现双通道检测结果的决策级融合，可以更加精确地实现多个候选目标框重叠情况下的有效目标检测框的识别。

附图说明

图1为本发明方法框架图；

图2为本发明基于条件生成对抗的航拍车辆密度估计网络架构图；

图3为本发明密度估计网络的部分密度图生成效果图；

图4为本发明基于车辆目标空间分布特征的切分效果图。

具体实施方式

下面结合附图对本发明作进一步详细描述：

本发明提出了一种基于目标空间分布特征的无人机航拍车辆检测方法，方法框架图如图1所示，该方法针对以往深度学习网络将图像缩放输入导致无人机高分辨率航拍图像中车辆目标，尤其是小尺度目标像素特征点损失而造成检测精度不佳的问题，首先基于条件生成对抗CGAN思想构建航拍车辆密度估计网络，生成车辆密度图，由此获得车辆目标空间分布特征；其次，依据目标空间分布特征对高分辨率航拍车辆图像实现自适应切分，得到若干局部图像块；最后，利用局部图像块以及原始无人机航拍车辆图像分别训练得到一个单阶段车辆检测器，并将全局图像与局部图像块的检测结果基于Soft-NMS算法进行决策级融合后，输出最终检测结果。本发明提出的无人机航拍车辆检测方法避免了因原始图像缩放而导致的目标像素特征点丢失情况的出现，进一步提升了车辆检测精度。

具体地说，本发明提供的基于目标空间分布特征的无人机航拍车辆检测方法，包括如下步骤：

(1)首先，基于条件生成对抗CGAN思想构建航拍车辆密度估计网络，生成车辆密度图。由于CGAN网络以其独特的对抗性训练方式在高质量图像转换任务中表现出了巨大的优势，而密度图估计任务本质上为图像转换的应用，因此在CGAN原理指导下构建航拍车辆密度估计网络，网络架构图如图2所示，具体包括以下步骤：

(1.1)搭建U型编解码对称式结构的生成器网络G，网络主体结构共包含13层卷积，其中第1、2、4与6层采用可学习的卷积操作实现4次两倍下采样，与之对应地，第8、10、12与13层采用反卷积操作对编码后得到的图像语义特征进行解码并恢复特征图的分辨率，上采样以及下采样卷积中使用的卷积核尺寸均为3×3。为更好地捕捉到图像中的低频信息、降低网络对梯度的敏感性，在生成网络第3、5、7、9、11层各引入两组含有两个3×3卷积核的残差块结构。其中第3、5、7层残差块中采用混合空洞卷积，同时为提高网络中的感受野，更好的利用全局中的背景信息，针对残差块中的卷积操作选择为扩张卷积。但为避免连续相同扩张率下的扩张卷积所带来的栅格化效应出现，对于n个连续卷积核大小为K×K的卷积层，其扩张率r设置依据为：

式(1)中M为两个非零值之间的最大距离，由此设计生成器网络中每个残差块中的两个3×3空洞卷积扩张率r分别为1，2，由此可以保证感受野中的每个特征像素均参与卷积运算。每个卷积层后加入批量标准化层，激活层使用LeakyReLU作为激活函数，并在编码与解码结构中对应的同等分辨率尺寸特征图之间加入跳连接以便于将前层的信息传导入后层，降低因下采样而导致的信息丢失。网络中的卷积核数均设置为64，并在解码器的最后一层后进行一个输出通道数为一的1×1卷积操作来保证与密度图通道数的匹配，并跟随一个Tanh函数进行激活操作，最后输出相应的密度估计图。

(1.2)搭建PatchGAN形式的鉴别器网络D，应用PatchGAN形式鉴别器可以将鉴别器聚焦到更小尺寸的图像块，因此可以获得比普通的鉴别器结构更高质量的生成图像，而且该结构的生成器参数更少、运算更快、且便于输入任意尺寸图像。该鉴别器网络中含有三个连续3×3卷积层进行两倍下采样操作，然后紧跟三个3×3卷积进行进一步的特征提取，对首尾层卷积层外的其它卷积层进行批量标准化处理，采用LeakyReLU函数作为激活函数，然后第一个卷积层通道数为64，其余卷积层除最后一层为1外，通道数都较其前一层通道数翻倍，最后在鉴别器网络加入Sigmoid函数得到最终判别分数的输出。

式(2)中目标函数共包含4项损失函数，为每项损失函数配置一个权值参数，依次设置为0.01、0.01、10、0.1。其中航拍车辆密度估计网络的对抗损失为：

式(3)中I为航拍车辆RGB图像，DM为与之对应的单通道密度图真值图像。然而只使用对抗损失会丢失图像中的高频信息，且容易造成生成图像中出现异常的空间结构，故引入在运用卷积神经网络解决人群密度问题时常用的L₂损失函数：

式(4)中N表示训练时采用的batch大小，I_i为输入的航拍车辆图片，DM_i为标注的真值密度图。本发明所标注的密度图真值是在归一化后积分值为1的高斯核卷积下得到的，所以得到真值密度图的积分结果，即密度图像素和为对应原始航拍车辆图像中的车辆目标数目。故为了在目标函数中利用这一先验知识，引入关于目标数目的平均绝对误差损失：

特征匹配损失函数为：

式(6)中f_i代表鉴别器D的第i层卷积后的输出特征，n是鉴别器的卷积层数。该项损失函数鼓励生成器生成的密度图与密度图真值分别与原始图片拼接输入鉴别器后产生相同的激活值，并由此鼓励生成器产生与目标域也就是对应密度图真值更加相似的分布，该项损失函数可以有效防止对抗训练过程中生成器模式坍塌问题。

(1.4)制作密度图真值标签并基于步骤(1.3)确定的目标函数对步骤(1.1)与(1.2)搭建的网络进行对抗性训练，将训练后的生成器网络作为最终的航拍车辆密度估计网络。对于航拍车辆图像，首先建立单通道点图，即在一张与原RGB图像等尺寸的单通道图像中将车辆目标标注框的中心点位置像素值设为1，其余位置像素为0，然后利用归一化高斯核G_σ卷积拟合，得到较为连续的密度图，具体计算公式为：

式(7)中

为一张图像中N个车辆目标坐标位置的离散表示方法，高斯卷积拟合时所用高斯模板基于目标尺度自适应确定，具体公式为：

式(8)中σ_f参数表示固定的高斯核标准差，而G_S为高斯核的截取模板尺度标准差倍数，w_i、h_i分别为第i个目标的宽高尺寸。由式(8)得到的高斯核进行卷积，可以使得到的密度图覆盖目标真值标注框区域，避免在后续图像切分中出现目标截断问题。

在得到密度图真值标签后，依据步骤(1.3)中设置的目标函数对步骤(1.1)与(1.2)搭建的网络进行对抗性训练，并将训练后的生成器网络作为最终的航拍车辆密度估计网络，生成车辆密度图，部分生成效果图如图3所示，图3中展示了两个场景下的密度图生成结果，第一、二列分别为原始航拍图和对应的密度图真值标签，第三、四列分别为MCNN网络与本发明所搭建网络的测试结果，输入输出的图像尺寸均为720x720。从密度图生成效果来看，本发明提出的基于条件生成对抗的网络模型预测结果噪声更少且疏密分布清晰，在密度图细节上更加逼真，而相同场景下MCNN网络预测结果虽基本上可以体现航拍车辆目标的分布特点，但其密度图显得模糊，背景中存在更多噪声以及错误输出，极易引起后续切分过程中的误操作，产生更多无用的背景块，影响检测效率以及效果。

(2)其次，依据目标空间分布特征对高分辨率航拍车辆图像实现自适应切分，得到若干局部图像块，具体包括以下步骤：

(2.1)通过Kmeans++聚类算法在训练集标注车辆目标数据中聚类得到n个尺寸，采用多尺度窗口在步骤(1)得到的密度图上进行无重叠滑动，然后计算出所有的像素值总和并与阈值T进行比较，如果大于T，便将该窗口覆盖区域像素值设置为1，如果小于阈值，便将窗口覆盖区域的像素值赋值为0，由此生成切分所用掩膜，本发明在航拍车辆数据集上具体实施时所选的阈值为0.001。

(2.2)经过步骤(2.1)得到密度掩膜后，首先自密度掩膜中选择出像素值为1的像素，然后将每8个相邻的连接像素合并为一个大的候选区域，最后根据候选区域的最小外接矩形对原始航拍图像进行切分，若出现切分区域被包含的情况，则不对完全包含在大矩形内的小矩形进行单独切分，只切分出最大矩形区域，过滤掉分辨率尺寸小于10×10的切片，切分效果如图3所示，自左上角原始航拍车辆图像出发，按照箭头方向依次为航拍图像车辆密度图、切分掩膜图以及标注切分结果的航拍图。由图3可知，基于车辆目标空间分布特征的图像切分结果中含有更少不利于车辆检测的背景像素，且有效避免了目标截断情况的出现。

(3)利用局部图像块以及原始无人机航拍车辆图像分别训练得到一个单阶段车辆检测器SSD网络，并将全局图像与局部图像块的检测结果基于Soft-NMS算法进行决策级融合后，输出最终检测结果。SSD网络因其单步回归检测方式以及多尺度预测结构在航拍车辆检测任务上表现出色，故选择SSD网络为具体实施时所采用的检测器。采用Soft-NMS算法实现双通道检测结果的决策级融合，可以更加精确地实现多个候选目标框重叠情况下的有效目标检测框的识别。具体包括以下步骤：

(3.1)训练单阶段网络航拍车辆检测器，将局部图像块与全局图像经过尺度调整为检测器规定尺寸I×I后，具体实施时采用单阶段网络SSD检测器，输入为512×512，由此得到图像块数据集与全局航拍车辆数据集，并由此分别训练得到一个单阶段网络航拍车辆检测器SSD。

式(9)中s_i为检测框b_i的分数，σ为高斯函数标准差，这里TH设为0.7。