CN111259758A

CN111259758A - 一种针对密集区域的两阶段遥感图像目标检测方法

Info

Publication number: CN111259758A
Application number: CN202010030047.8A
Authority: CN
Inventors: 赵佳琦; 朱东郡; 夏士雄; 周勇; 姚睿; 陈莹; 张迪
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2020-06-09
Anticipated expiration: 2040-01-13
Also published as: CN111259758B

Abstract

本发明公开了一种针对密集区域的两阶段遥感图像目标检测方法，主要解决现有技术对目标密集区域目标识别准确率低的问题，其步骤为：1、对于输入图像进行数据增强操作，增加训练样本集；2、构建基于多尺度特征提取模块；3、在不同尺度的特征图上进行目标检测，找出目标密集的区域；4、针对目标密集的区域进行二次目标检测；5、对检测出的目标进行分类和位置回归，输出目标对应的分类标签和位置坐标，完成对图像的目标识别和定位。本发明利用网络多尺度结构的特点提取和融合不同尺度下的特征图来检测不同大小的目标，并对目标密集度高的区域进行二次检测，提高了小目标识别准确率。该方法可用于无人机以及卫星对目标的检测，侦查和监视。

Description

一种针对密集区域的两阶段遥感图像目标检测方法

技术领域

本发明涉及一种针对密集区域的两阶段遥感图像目标检测方法，可用于无人机以及卫星对目标的检测、侦查和监视，属于图像处理技术。

背景技术

随着深度学习在计算机视觉领域的飞速发展，目标检测技术作为计算机视觉领域的一部分也得到了突破性的发展。近几年，与目标检测技术紧密相连的应用产品的出现，比如智慧城市监控、无人驾驶等，以及依靠目标检测技术支撑的如行人识别、目标追踪、视觉感知等技术的快速发展，都表明了目标检测在计算机视觉中的重要地位。

作为计算机视觉领域的焦点和挑战，小目标的检测是目标检测领域中较难解决问题之一。以前的大多数的目标检测方法都是利用图像金字塔和基于手工制作的特征，对目标在不同的尺度上进行识别，以此提高目标检测的准确率。虽然目标特征的尺度对于检测任务至关重要，但考虑到内存和检测时间等问题，这些方法的准确率较低，计算成本较高，很难进行广泛的应用。近年来，随着深度卷积网络的到来，手工设计的特征被通过卷积神经网络计算的特征所取代，常见的图像特征提取的卷积神经网络如AlexNet、VGGNet、GooleNet以及深度残差网络等。这些卷积神经网的使用使目标检测的性能得到了显著的提高。然而，对遥感图像中较多的小目标检测仍然是一个具有挑战性的问题。

从高空拍摄的遥感图像相比于普通图像存在以下问题：

(1)图像中目标的个数多，种类多，而且目标尺寸普遍较小；

(2)部分类别目标的数据规模小，像工程用车，消防车，警车等特殊车辆；

(3)不同拍摄角度的目标形变较大，如对于使用无人机从正面角度与从上向下的角度拍摄的行人目标的图像在形态上差别较大；

(4)目标尺度变化范围大，例如从近景的大物体(如卡车)到远景的小物体(如行人)，目标的尺度变化过大；

(5)目标容易被背景，如树，房屋物体等遮挡，密集目标容易相互重叠遮挡。

这些遥感图像中目标的尺度变化大、种类多、个数多、易受遮挡等问题导致深度神经网络不能很好的对目标进行特征提取，极大地限制了目标检测技术的应用与发展。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种针对密集区域的两阶段遥感图像目标检测方法，解决现有技术对目标密集区域目标识别准确率低的问题，该方法采用多尺度特征融合技术，考虑了包含较多细节内容的高分辨特征和有较强语义的低分辨率特征，通过它们之间的相互融合来进行目标检测；同时，对输入图像中目标较多的区域进行统计并对这些区域进行二次检测来提高整体的检测准确率。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种针对密集区域的两阶段遥感图像目标检测方法，包括如下步骤：

(a)图像数据增强

对原始训练集中的每一张原始图像均依次进行旋转变换、反射变换、平移变换和对比度变换，把原始图像和变换后的图像统一成深度残差网络设定的输入尺寸(比如1000×600的像素尺寸)，把统一尺寸后的图像作为对原始训练集数据增强后的训练集；

(b)构建多尺度特征提取模块

使用深度残差网络对训练集中的图像进行多尺度特征提取，将深度残差网络中的第三卷积块、第四卷积块、第五卷积块的最后一张特征图通过上采样的方式分别拼接到第二卷积块、第三卷积块、第四卷积块的最后一张特征图上，从而增加第二卷积块、第三卷积块、第四卷积块的最后一张特征图的语义性，并形成用于目标检测的特征金字塔；

训练时采用迁移学习策略，向深度残差网络导入经ImageNet数据集训练好的网络参数(即将该网络参数作为深度残差网络的预训练参数)，将训练好的网络参数作为深度残差网络的初始化参数；

(c)对不同尺度的特征图像进行目标检测

在特征金字塔的每个像素点上设置不同尺寸的预定义边框，对预定义边框进行前景与背景的分类和位置回归得到初步预测边框，对所有初步预测边框采用非极大值抑制的方法进行筛选，再根据初步预测边框的前景概率值从筛选结果中选择出前景概率值最高的k₁个初步预测边框作为初步预测前景边框；

(d)计算目标密集区域

对特征金字塔中的特征图进行区域划分，找出包含初步预测前景边框数量最多的区域，并将该区域映射到原始图像的对应区域上；

(e)对目标密集的区域进行二次目标检测

裁剪出原始图像的对应区域，将裁减出的原始图像缩放到深度残差网络设定的输入尺寸，并通过多尺度特征提取模块形成特征金字塔，在形成的特征金字塔的每个像素点上设置不同尺寸的预定义边框，对预定义边框进行前景与背景的分类和位置回归得到二次预测边框，对所有二次预测边框采用非极大值抑制的方法进行筛选，再根据二次预测边框的前景概率值从筛选结果中选择出前景概率值最高的k₂个二次预测边框作为二次预测前景边框；

(f)获取目标的检测和识别结果

对初步预测前景边框和二次预测前景边框进行非极大值抑制操作过滤掉交并比大于设定阈值(一般取值为0.7)的预测前景边框，再根据前景概率值从过滤结果中选择出前景概率值最高的k₃个(比如前1000个)预测前景边框作为可能为目标的区域，将这些可能为目标的区域作为预选边框，对预选边框所在的特征区域进行池化，统一目标特征的大小；

将统一大小后的目标特征分别放入两个全连接层后分别连接一个用于分类的分类输出层(分类器)和一个用于位置回归的回归输出层(回归器)，将分类输出层输出的类别概率值和位置回归层输出的位置信息共同作为目标预测边框，根据目标预测边框的位置信息和类别概率值对目标预测边框进行非极大值抑制过滤后，选择出类别概率值最大的k个目标预测边框作为目标的识别结果；进行非极大值抑制时通过设置边框的交并比阈值来调节过滤的程度。

具体的，所述步骤(a)中，旋转变换、反射变换、平移变换和对比度变换如现有技术的一般定义，具体如下：

旋转变换：将图像按顺时针随机旋转45°、90°、135°或180°；

反射变换：先沿水平方向对图像进行一次翻转，再沿垂直方向对图像进行一次翻转；

平移变换：即对图像上的内容以一定方式进行平移，具体操作为，将9张一样大小图像进行3×3的随机排列形成新图像(相邻图片之间无重叠无间隙)，在新图像上随机截取原图像大小的图片，形成图像上的内容发生平移的效果；

对比度变换：在图像的HSV颜色空间上，保持色调分量(H分量)不变，改变饱和度分量(S分量)和亮度分量(V分量)，对每个像素的饱和度分量和亮度分量进行指数运算，可以设计指数因子在0.25～4之间随机选取，增加光照变化。

具体的，所述步骤(b)中，将深度残差网络中的第三卷积块、第四卷积块、第五卷积块的最后一张特征图通过上采样的方式拼接到第二卷积块、第三卷积块、第四卷积块最后一张特征图上，形成特征金字塔(P2，P3，P4，P5)，具体方法为：

特征图P5：第5个卷积块的最后一张特征图经过膨胀率为2的空洞卷积，生成特征图P5；

特征图P4：先上采样第5个卷积块的最后一张特征图，再经过膨胀率为2的空洞卷积，接着与第4个卷积块的最后一张特征图进行拼接，最后经过一个卷积层生成特征图P4；

特征图P3：先上采样第4个卷积块中间层的特征图，再与特征图P4和第3个卷积块的最后一张特征图进行拼接，生成特征图P3；

特征图P2：先上采样特征图P3，再与第2个卷积块的最后一张特征图进行拼接，生成特征图P2。

具体的，所述步骤(c)中，预定义边框的大小和长宽比根据对训练集中目标的真实边框大小统计计算获得，具体方法为：

将训练集中的图像目标标签对应的真实边框大小设置为3个尺度，先求出所有真实边框的平均值，包括平均面积s、平均长度len和平均宽度wd；然后筛选出面积小于等于s的真实边框，计算筛选出的所有真实边框的平均值，包括平均面积s₀、平均长度len₀和平均宽度wd₀；再筛选出面积大于s的真实边框，计算筛选出的所有真实边框的平均值，包括平均面积s₁、平均长度len₁和平均宽度wd₁；

在特征图P2的每个像素点上设置一种基准的正方形边框，对应感受野边长大小为s₀的开方值sq₀；在特征图P2的每个像素点上设置一种长方形边框，对应感受野长和宽分别为len₀和wd₀；在特征图P2的每个像素点上设置另一种长方形边框，对应感受野长和宽分别为wd₀和len₀；

在特征图P3的每个像素点上设置一种基准的正方形边框，对应感受野边长大小为s的开方值sq；在特征图P3的每个像素点上设置一种长方形边框，对应感受野长和宽分别为len和wd；在特征图P3的每个像素点上设置另一种长方形边框，对应感受野长和宽分别为wd和len；

在特征图P4的每个像素点上设置一种基准的正方形边框，对应感受野边长大小为s₁的开方值sq₁；在特征图P4的每个像素点上设置一种长方形边框，对应感受野长和宽分别为len₁和wd₁；在特征图P4的每个像素点上设置另一种长方形边框，对应感受野长和宽分别为wd₁和len₁；

特征图P5负责对图片中所有的目标进行检测，因此在特征图P5的每个像素点上设置九种正方形边框，对应感受野边长大小分别为sq₀、0.5sq₀、2sq₀、sq、0.5sq、2sq₀、sq₁、0.5sq₁、2sq₁。

在设置好边框的特征图P2、P3、P4和P5上分别进行两个1×1的卷积，第一个1×1卷积得到对应边框的前景概率值和背景概率值，第二个1×1卷积得到对应边框的位置信息(边框的中心坐标以及长和宽)，边框的中心坐标以及长和宽的值为浮点小数不取整。

具体的，所述步骤(d)中，对特征金字塔中的特征图进行区域划分，具体方法为：将特征图P2划分为五个正方形区域，分别为包含左上角的左上正方形区域、包含左下角的左下正方形区域、包含右上角的右上正方形区域、包含右下角的右下正方形区域、包含中点的中间正方形区域，五个正方形区域的边长为特征图P2边长的3/5；分别在五个正方形区域上统计初步预测前景边框数量，找出包含初步预测前景边框数量最多的正方形区域，并通过感受野映射到原始图像的对应区域上。

由于P2主要用于检测小目标，在寻找目标密集区域时，主要针对小目标密集的区域，因此仅对P2进行划分，不需要对金字塔中的其他特征图进行划分。

具体的，所述步骤(f)中，对预选边框所在的特征区域进行池化，即将预选边框所在的特征区域分成3×3个格子，每个格子通过双线性内插的方法得到每个格子虚点的值，即每个格子的中心点的值，3×3个格子的中心点组合在一起即为统一目标特征。

具体的，所述步骤(f)中，通过特征图P2、P3、P4和P5预测预选边框，其中特征图P2用于预测小尺度小目标，特征图P3用于预测中等尺度目标，特征图P4用于预测大尺度目标，特征图P5对所有尺度的目标进行预测。

具体的，所有卷积层均使用批归一化方法(Batch Normalization方法)进行归一化操作，以避免梯度消失。

有益效果：本发明提供的针对密集区域的两阶段遥感图像目标检测方法，相对于现有技术，具有如下优势：

(1)本发明提出的多尺度的特征提取模块，通过拼接和上采样等方法对深度残差网络中不同尺度的特征图进行融合，使融合后的特征图同时具有较强的细节内容和语义特征；

(2)本发明设计了不同尺度下边框的选取方法，通过计算对训练集中目标标签中真实边框的面积和长宽的平均值，以及对大于平均面积的边框和小于平均面积的边框求平均，得到3种尺度范围的边框；

(3)本发明通过对特征图进行区域划分，找到对应原输入图片目标最多的区域，并进行二次目标检测，能够有效提高精度；

(4)对边框位置进行回归时，采用3×3的方式统一目标特征的大小，并在每个目标特征对应的9个格子中通过双线性内插的方法计算出相应格子的虚点值。

附图说明

图1为本发明的实施流程图；

图2为本发明中用于目标检测的网络结构示意图；

图3为本发明中对P2特征图的五大区域进行划分的示意图；

图4为预选框所对应的特征区域池化的示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示为一种针对密集区域的两阶段遥感图像目标检测方法的实施流程图，包括如下步骤：

步骤一：图像数据增强

对原始训练集中的每一张原始图像均依次进行旋转变换、反射变换、平移变换和对比度变换，把原始图像和变换后的图像统一1000×600的像素尺寸，把统一尺寸后的图像作为对原始训练集数据增强后的训练集。

步骤二：构建多尺度特征提取模块

使用深度残差网络Resnet101对训练集中的图像进行多尺度特征提取，将深度残差网络中的低分辨率特征图通过上采样的方式拼接到高分辨率特征图上，从而增加高分辨率特征图的语义性，并形成用于目标检测的特征金字塔(P2，P3，P4，P5)，具体方法为：第5个卷积块的最后一张特征图经过膨胀率为2的空洞卷积，生成特征图P5；先上采样第5个卷积块的最后一张特征图，再经过膨胀率为2的空洞卷积，接着与第4个卷积块的最后一张特征图进行拼接，最后经过一个卷积层生成特征图P4；先上采样第4个卷积块中间层的特征图，再与特征图P4和第3个卷积块的最后一张特征图进行拼接，生成特征图P3；先上采样特征图P3，再与第2个卷积块的最后一张特征图进行拼接，生成特征图P2。

训练时采用迁移学习策略，向深度残差网络导入经ImageNet数据集训练好的网络参数(即将该网络参数作为深度残差网络的预训练参数)，将训练好的网络参数作为深度残差网络的初始化参数。

步骤三：对不同尺度的特征图像进行目标检测

在特征金字塔的每个像素点上设置不同尺寸的预定义边框，预定义边框的大小和长宽比根据对训练集中目标的真实边框大小统计计算获得，具体方法为：

(31)将训练集中的图像目标标签对应的真实边框大小设置为3个尺度，先求出所有真实边框的平均值，包括平均面积s、平均长度len和平均宽度wd；然后筛选出面积小于等于s的真实边框，计算筛选出的所有真实边框的平均值，包括平均面积s₀、平均长度len₀和平均宽度wd₀；再筛选出面积大于s的真实边框，计算筛选出的所有真实边框的平均值，包括平均面积s₁、平均长度len₁和平均宽度wd₁；

(32)在特征图P2的每个像素点(即每个格子，大小为1×1)上设置一种基准的正方形边框，对应感受野边长大小为s₀的开方值sq₀；在特征图P2的每个像素点上设置一种长方形边框，对应感受野长和宽分别为len₀和wd₀；在特征图P2的每个像素点上设置另一种长方形边框，对应感受野长和宽分别为wd₀和len₀；

(33)在特征图P3的每个像素点上设置一种基准的正方形边框，对应感受野边长大小为s的开方值sq；在特征图P3的每个像素点上设置一种长方形边框，对应感受野长和宽分别为len和wd；在特征图P3的每个像素点上设置另一种长方形边框，对应感受野长和宽分别为wd和len；

(34)在特征图P4的每个像素点上设置一种基准的正方形边框，对应感受野边长大小为s₁的开方值sq₁；在特征图P4的每个像素点上设置一种长方形边框，对应感受野长和宽分别为len₁和wd₁；在特征图P4的每个像素点上设置另一种长方形边框，对应感受野长和宽分别为wd₁和len₁；

(35)特征图P5负责对图片中所有的目标进行检测，因此在特征图P5的每个像素点上设置九种正方形边框，对应感受野边长大小分别为sq₀、0.5sq₀、2sq₀、sq、0.5sq、2sq₀、sq₁、0.5sq₁、2sq₁。

设置好边框的特征图P2、P3、P4和P5各自通过两个1×1的卷积核进行前景/背景分类和位置回归操作，具体过程为：特征图P2、P3、P4、P5通过第一个1×1卷积后形成对应通道为2×3的特征图，2×3表示存储了6个概率值(三种边框的前景概率值和背景概率值)，特征图P2、P3、P4、P5通过第二个1×1卷积形成对应通道为4×3的特征图，其中4×3表示存储了12个位置信息(三种边框的中心坐标以及三种边框的长和宽)。

对预定义边框进行前景与背景的分类和位置回归得到初步预测边框，对所有初步预测边框采用非极大值抑制的方法进行筛选，再根据初步预测边框的前景概率值从筛选结果中选择出前景概率值最高的k₁个初步预测边框作为初步预测前景边框。

步骤四：计算目标密集区域

如图3所示，对特征金字塔中的特征图进行区域划分，具体方法为：将特征图P2划分为五个正方形区域，分别为包含左上角的左上正方形区域、包含左下角的左下正方形区域、包含右上角的右上正方形区域、包含右下角的右下正方形区域、包含中点的中间正方形区域，五个正方形区域的边长为特征图P2边长的3/5，各个正方形区域互有重叠；分别在五个正方形区域上统计初步预测前景边框数量，找出包含初步预测前景边框数量最多的正方形区域，并通过感受野映射到原始图像的对应区域上。

步骤五：对目标密集的区域进行二次目标检测

裁剪出原始图像的对应区域，将裁减出的原始图像缩放到深度残差网络设定的输入尺寸，并通过多尺度特征提取模块形成特征金字塔，在形成的特征金字塔的每个像素点上设置不同尺寸的预定义边框，对预定义边框进行前景与背景的分类和位置回归得到二次预测边框，对所有二次预测边框采用非极大值抑制的方法进行筛选，再根据二次预测边框的前景概率值从筛选结果中选择出前景值最高的k₂个二次预测边框作为二次预测前景边框。

步骤六：获取目标的检测和识别结果

对初步预测前景边框和二次预测前景边框进行非极大值抑制操作过滤掉交并比大于0.7的预测前景边框(即去除重叠率较高的预测前景边框)，再根据前景概率值从过滤结果中选择出前景概率值最高的1000个预测前景边框作为可能为目标的区域，将这些可能为目标的区域作为预选边框。

如图4所示，对预选边框所在的特征区域进行池化，统一目标特征的大小，即将预选边框所对应的特征图P2、P3、P4、P5上的区域统一分成3×3个格子，每个格子通过双线性内插的方法得到每个格子虚点的值，即每个格子的中心点的值，3×3个格子的中心点组合在一起即为统一目标特征。

将统一大小后的目标特征分别放入两个全连接层后分别连接一个用于分类的分类输出层(分类器)和一个用于位置回归的回归输出层(回归器)，分类器和回归器共享两个全连接层，每个全连接层有2048个神经元，其中分类器的输出层输出个数为要检测的类别数，输出的是目标预测边框的类别概率值，回归器的输出层输出的个数为要检测的类别数乘以4，倍数4表示用来定位目标预测边框的中心位置坐标和边框的宽和高。

根据输入图像的真实位置标注以及分类器得到的分类结果(类别概率值)和回归器得到的位置信息(目标预测边框的中心坐标以及宽和高)计算出分类损失和位置回归损失，其中分类损失使用的是交叉熵损失记为Loss_c，位置回归损失使用的是L₁平滑损失记为Loss_reg，总损失Loss表示为：

Loss＝Loss_c+λLoss_reg

其中：λ表示位置回归损失的权重。

在全连接层输出的最终预测边框中，通过非极大值抑制抑制过滤掉相同类别交并比大于0.7的最终预测边框，并在过滤后的最终预测边框中选择前100个检测结果作为识别结果。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种针对密集区域的两阶段遥感图像目标检测方法，其特征在于：包括如下步骤：

(a)图像数据增强

对原始训练集中的每一张原始图像均依次进行旋转变换、反射变换、平移变换和对比度变换，最后把原始图像和变换后的图像统一成深度残差网络设定的输入尺寸，把统一尺寸后的图像作为对原始训练集数据增强后的训练集；

(b)构建多尺度特征提取模块

训练时采用迁移学习策略，向深度残差网络导入经ImageNet数据集训练好的网络参数，将训练好的网络参数作为深度残差网络的初始化参数；

(c)对不同尺度的特征图像进行目标检测

(d)计算目标密集区域

(e)对目标密集的区域进行二次目标检测

(f)获取目标的检测和识别结果

对初步预测前景边框和二次预测前景边框进行非极大值抑制操作过滤掉交并比大于设定阈值的预测前景边框，再根据前景概率值从过滤结果中选择出前景概率值最高的k₃个预测前景边框作为可能为目标的区域，将这些可能为目标的区域作为预选边框，对预选边框所在的特征区域进行池化，统一目标特征的大小；

将统一大小后的目标特征分别放入两个全连接层后分别连接一个用于分类的分类输出层和一个用于位置回归的回归输出层，将分类输出层输出的类别概率值和位置回归层输出的位置信息共同作为目标预测边框，根据目标预测边框的位置信息和类别概率值对目标预测边框进行非极大值抑制过滤后，选择出类别概率值最大的k个目标预测边框作为目标的识别结果；进行非极大值抑制时通过设置边框的交并比阈值来调节过滤的程度。

2.根据权利要求1所述的针对密集区域的两阶段遥感图像目标检测方法，其特征在于：所述步骤(b)中，将深度残差网络中的第三卷积块、第四卷积块、第五卷积块的最后一张特征图通过上采样的方式拼接到第二卷积块、第三卷积块、第四卷积块最后一张特征图上，形成特征金字塔(P2，P3，P4，P5)，具体方法为：

3.根据权利要求1所述的针对密集区域的两阶段遥感图像目标检测方法，其特征在于：所述步骤(c)中，预定义边框的大小和长宽比根据对训练集中目标的真实边框大小统计计算获得，具体方法为：

在特征图P5的每个像素点上设置九种正方形边框，对应感受野边长大小分别为sq₀、0.5sq₀、2sq₀、sq、0.5sq、2sq₀、sq₁、0.5sq₁、2sq₁。

4.根据权利要求1所述的针对密集区域的两阶段遥感图像目标检测方法，其特征在于：所述步骤(d)中，对特征金字塔中的特征图进行区域划分，具体方法为：将特征图P2划分为五个正方形区域，分别为包含左上角的左上正方形区域、包含左下角的左下正方形区域、包含右上角的右上正方形区域、包含右下角的右下正方形区域、包含中点的中间正方形区域，五个正方形区域的边长为特征图P2边长的3/5；分别在五个正方形区域上统计初步预测前景边框数量，找出包含初步预测前景边框数量最多的正方形区域，并通过感受野映射到原始图像的对应区域上。

5.根据权利要求1所述的针对密集区域的两阶段遥感图像目标检测方法，其特征在于：所述步骤(f)中，对预选边框所在的特征区域进行池化，即将预选边框所在的特征区域分成3×3个格子，每个格子通过双线性内插的方法得到每个格子虚点的值，即每个格子的中心点的值，3×3个格子的中心点组合在一起即为统一目标特征。

6.根据权利要求1所述的针对密集区域的两阶段遥感图像目标检测方法，其特征在于：所有卷积层均使用批归一化方法进行归一化操作。