CN111191566B

CN111191566B - 基于像素分类的光学遥感图像多目标检测方法

Info

Publication number: CN111191566B
Application number: CN201911366599.XA
Authority: CN
Inventors: 李映; 张谷雨; 刘凌毅; 李西萍
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2022-05-17
Anticipated expiration: 2039-12-26
Also published as: CN111191566A

Abstract

本发明涉及一种基于像素分类的光学遥感图像多目标检测方法，首先通过卷积神经网络对光学遥感图像进行特征提取，得到图像的特征图。之后是特征融合部分，使用了ASPP网络获得了不同感受野的特征，再结合通道注意力机制对不同通道的特征分配权重，之后对特征图进行上采样并将不同层的特征合并。在上采样后的特征图上的每一个像素点上进行目标的检测。本发明只预测了每个目标的一个中心点及其对应的目标框，没有多余的目标框生成，所以最后不需要通过非极大值抑制来合并多余的目标框，在速度上有很大优势。

Description

基于像素分类的光学遥感图像多目标检测方法

技术领域

本发明属于计算机视觉领域，涉及一种对遥感图像中多目标检测的方法，是一种能够从具有复杂背景的光学遥感图像中精确地检测到多种目标的方法。

背景技术

目标检测是计算机视觉领域中一个重要的分支，近些年来，基于深度学习的目标检测算法发展迅速，但大部分经典的目标检测算法都是针对普通自然图像数据集的，如Faster R-CNN,Yolo,SSD,Retinanet等算法。而遥感图像的目标实例数量级更大。因为传感器的空间分辨率，拍摄的高度比较高，目标更丰富。在通用的目标检测数据集上，目标的位置通常由于重力以及拍摄位置而呈现出一种整体向下的状态，而遥感的数据集图像常常处于很极端的位置上，这是因为遥感拍摄的平台和视角不同。遥感图像中的目标可能在任意的位置出现，有一些目标常常有着比较夸张的长宽比，如舰船和桥梁。并且遥感数据集中许多小物体实例在遥感图像中是紧密排列在一起的，例如停车场中的车辆和港口的船舶。

常用目标检测算法产生的都是正矩形框，而用矩形框去检测排列紧密且具有旋转角度的目标，目标与框之间会产生很大的空隙。并且排列紧密的目标之间的目标框会互相覆盖、互相影响。并且传统目标检测算法会预测出大量的目标框，为了生成最终结果，阈值化后的目标框由非极大值抑制算法进行归并。而标准的非极大值抑制算法运行时间复杂度为O(n^2)，其中n是候选几何形状的数量，在合并目标框的过程中，会耗费大量的时间。

发明内容

要解决的技术问题

为了在光学遥感数据集上得到更加精确的结果，能够更加快速精确的框住数据集中的目标。本发明提供了一种基于逐像素分类的目标检测算法，用于检测光学遥感图像中密集排列的目标。

技术方案

一种基于像素分类的光学遥感图像多目标检测方法，其特征在于步骤如下：

步骤1：对输入的光学遥感图像进行归一化操作，使得数据分布符合标准正态分布，然后将图像随机剪裁、缩放到同一尺寸；

步骤2：构建网络模型，所述的网络模型包括特征提取层、特征融合层、预测层，特征提取层使用残差网络结构，并且加入了空洞卷积；特征融合层使用了ASPP网络，获得了不同感受野的特征，再结合通道注意力机制对不同通道的特征分配权重，之后对特征图进行上采样并将不同层的特征合并；预测层通过四组1*1的卷积核同时得到不同作用的特征图，分别为类别预测、目标框长宽预测、中心点偏移量预测以及旋转角度预测；

步骤3：根据标注的光学遥感图像数据集，计算每个像素点的真实值Y_xyc、目标框的宽高(w,h)、图像下采样到1/4之后中心点的偏移量

目标框的旋转角度θ；

所述的Y_xyc的计算式：

其中，x，y表示图像任意坐标，p表示原图中某个目标中心点的坐标；

表示下采样后的坐标

所述的目标框的宽高(w,h)由数据标注文件直接读出；

所述的图像下采样到1/4之后中心点的偏移量

包括偏移和纵向的偏移；

所述的目标框的旋转角度θ的计算过程：定义目标框的四个顶点分别是a，b，c，d，顺时针方向标记；首先找到纵坐标最大的一个点作为基准点，定为a点；之后，选择a点相邻的右边的顶点d，计算出这两个点之间边与纵轴构成的夹角θ；

步骤4：对于步骤2中特征提取部分使用在ImageNet数据集上预训练过的残差网络参数初始化，而特征融合部分以及预测部分的参数使用随机初始化的方式；

步骤5：每次在光学遥感图像训练集中随机选取图片作为网络输入，将网络得到的输出结果以及通过人工标注的目标框计算得到的真值计算类别损失、目标大小损失、中心点偏移量损失和旋转角度的损失，通过Adam优化算法来对整个网络的参数进行更新；

所述的类别损失函数：

其中，

表示坐标(x，y)这一像素点是C类的某个物体的中心点的预测的概率得分，Y_xyc是这一点从标注中计算出真实的概率；

所述的目标大小损失函数：

其中，

和

分别代表预测框的长和宽，h_k和w_k分别代表真实的长和款，k代表预测的第k个目标的中心，N代表中心点数量；

所述的中心点偏移量损失函数：

其中，p表示原始坐标，

表示下采样后成都坐标；

表示预测的偏移量，共2维，表示横向和纵向的偏移量；

所述的旋转角度的损失函数：

其中，

是模型预测的角度，θ是真实的角度；

步骤6：重复步骤5，使用Adam优化算法不断的对网络参数进行更新，直到损失函数收敛；

步骤7：把测试集的图片作为网络的输入，利用网络得到的每个像素点是否是中心的概率，目标框大小和旋转角度对目标框进行预测，具体而言，如果某点是某个类别中心点的概率大于设定的阈值，则根据该点预测的目标大小、中心偏移以及旋转角度得到目标框。

所述的步骤7的设定的阈值取0.3。

有益效果

本发明提出的一种基于像素分类的光学遥感图像多目标检测方法，不同于经典的目标检测框架无法精确地对光学遥感数据集排列密集且有旋转的目标进行检测。通过预测每个像素点属于某个目标框中心点的概率、该中心点位置的偏移量以及在该目标框的长宽和该点所在目标框旋转的角度实现了对于光学遥感图像中目标的检测。并且本发明只预测了每个目标的一个中心点及其对应的目标框，没有多余的目标框生成，所以最后不需要通过非极大值抑制来合并多余的目标框，在速度上有很大优势。

附图说明

图1是本发明基于光学遥感图像的多目标检测框架图

图2是本发明ASPP的结构图

图3是本发明ASPP与channel attention结合的结构图

图4是本发明角度计算的原理图

具体实施方式

本发明首先通过卷积神经网络对光学遥感图像进行特征提取，得到图像的特征图。之后是特征融合部分，使用了ASPP(AtrousSpatial Pyramid Pooling)网络获得了不同感受野的特征，再结合通道注意力机制(channel attention)对不同通道的特征分配权重，之后对特征图进行上采样并将不同层的特征合并。在上采样后的特征图上的每一个像素点上进行目标的检测。详细的操作是在输出的特征图上的每个像素点上预测该点属于某个目标框中心点的概率、该中心点位置的偏移量以及在该目标框的长宽和该点所在目标框旋转的角度。如果某个像素点属于目标的中心大于设定的阈值，可以通过该中心点的偏移量、预测到的目标长宽和该点预测的目标框的旋转角度来得到预测出的目标框。并且本发明只预测了每个目标的一个中心点及其对应的目标框，没有多余的目标框生成，所以最后不需要通过非极大值抑制来合并多余的目标框，在速度上有很大优势。

现结合实施例、附图对本发明作进一步描述：

1.对光学遥感图像进行归一化操作，使得光学遥感数据集分布符合标准正态分布，即使得光学遥感数据集服从于均值为0，标准差为1的分布，然后将图像随机剪裁、缩放到512*512的大小；

2.网络模型的构建，如附图1所示，特征提取层使用了残差网络结构(Resnet101)，并且加入了空洞卷积，在最后一个残差模块将原本的标注卷积改为空洞卷积，空洞率设置为2。

之后是特征融合部分，使用了ASPP(Atrous Spatial Pyramid Pooling)网络获得了不同感受野的特征，其中ASPP模块如附图2所示，包含一组1*1的卷积核，3组空洞率分别为2、4、6的3*3的卷积，以及一组image Pooling层。得到五组256维的特征图之后将它们合并起来得到1280维的特征。输入到后续的通道注意力机制(channel attention)模块中，对不同通道的特征分配权重，如附图3所示。之后对特征图进行上采样并将不同层的特征合并。上采样的使用了双线性插值，融合的过程使用了1*1的卷积降维并通过相同维数的3*3的卷积，特征图由1280逐步降维到192维。

最后通过四组1*1的卷积核同时得到不同作用的特征图，分别为类别预测、目标框长宽预测、中心点偏移量预测以及旋转角度预测。其中类别预测负责输出特征图上每个点属于某类目标中心的概率，网络输出为128*128*15(数据集有15类)；目标框长宽预测了该中心点所在目标框的大小，网络输出为128*128*2；中心点偏移量对该中心点位置进行了微调，是目标位置更精确，网络输出为128*128*2。旋转角度预测该点所在目标框的角度，网络输出为128*128*1。

3.根据标注的光学遥感图像数据集，计算每个像素点的真实值Y_xyc、目标框的宽高(w,h)、图像下采样到1/4之后中心点的偏移量

目标框的旋转角度θ。

本发明训练采用512*512的输入尺寸，所以特征图的大小为128*128，将每个像素点的真实值Y_xyc使用一个高斯核计算出来，而每一邻域像素点权值是随该点与中心点的距离单调增减的，距离每一个目标框的中心越远，则该点的数值越小，公式如下：

将关键点的取值的布置到特征图上，其中x，y表示图像任意坐标，p表示原图中某个目标中心点的坐标。而

表示下采样后的坐标，并且

Y_xyc表示任意(x，y)坐标属于c类中心点的概率。σ_p是一个与目标大小(也就是目标框宽高w和h)相关的标准差。通过上述公式可以计算出所有像素点的真实值，范围是0到1，越接近某个目标中心值越接近1。

目标框大小由目标框的宽高w，h由数据标注文件直接读出。

目标框中心的偏移量表示了下采样后的坐标与原始坐标之间的精度损失。假设输入图片中的一个目标框的中心点是(87.87568,5.25233)，那它在特征图上对应的点是(88,5)，等同于这个点上有物体存在。而实际上的中心点是(87.87568,5.25233)，直接映射回512*512的形式会产生精度损失，为了解决这个问题就引入了中心点偏置

包含横向的偏移和纵向的偏移。

旋转角度为点所在目标框的角度，而角度的计算方式如附图4所示。定义目标框的四个顶点分别是a，b，c，d，顺时针方向标记。首先找到纵坐标最大的一个点作为基准点，定为a点。之后，选择a点相邻的右边的顶点d，计算出这两个点之间边与纵轴构成的夹角θ。附图4(a)是夹角θ小于45度的情况，当夹角θ小于45度时，认为目标框顺时针旋转了θ度；而如果这两边夹角θ₁大于45度，如附图4(b)，则认定d点为目标框的右下角，b点为目标框框的左上角，重新计算出角度变为

也就是认为图像逆时针旋转了θ₂度。最终保证目标框的旋转角度θ取值为-45度到45度之间，然后进行归一化，使得角度取值在0-1之间。

4.对于步骤2中特征提取部分(Resnet101)使用在ImageNet数据集上预训练过的残差网络参数初始化，而特征融合部分以及预测部分的参数使用随机初始化的方式；

5.每次在光学遥感图像训练集中随机选取图片作为网络输入，使用网络的输出结果与步骤3得到的真实值计算损失函数。其中损失函数由四部分组成，分别是类别损失、目标大小损失、中心点偏移量损失和旋转角度的损失。最终使用的网络结构都有四个输出层(head layer)，也就是在特征图的每个像素点产生C+5个数据，分别是该像素点的类别以及、长宽、偏置以及矩形框旋转的角度。

算法的关键在于中心点的预测，也就是类别损失，在特征图上每一个像素点是否属于某一个目标的中心还是其他点。分类损失函数如下：

表示坐标(x，y)这一像素点是C类的某个物体的中心点的预测的概率得分，Y_xyc是这一点从标注中计算出真实的概率。计算损失时分为Y_xyc＝1和Y_xyc≠1两种分情况，也就是分别计算中心点损失和非中心点损失，其中α和β是超参数，N是输入图像I的中心点的数量，除以N将所有的正样本损失标准化为1。而超参数α和β在本发明中分别取2和4。

目标框长宽的损失函数设置为

和

分别代表预测框的长和宽，k代表预测的第k个目标的中心，而N代表中心点数量。直接预测特征图上的长宽，这样可以减少回归的难度，使用L1损失函数。

因为模型是在1/4的尺度上进行的预测，当特征图重新映射到原来的图像上的时候会有一定的精度误差。所以对于每一个目标的中心点，预测了一个local offset来微调中心点的位置。所有类别的中心点共享同一个预测，这个偏置值(offset)使用L1 loss来训练。损失函数具体如下：

其中p表示原始坐标，

表示下采样后成都坐标。

表示预测的偏移量，共2维，表示横向和纵向的偏移量。

本发明将目标框的大小的回归和矩形旋转角度的回归分别当成两个任务。角度的范围是-45度到45度，损失的计算方式如下：

公式中

是模型预测的角度。θ是真实的角度。

整体的损失函数为物体损失、大小损失与偏置损失的和，每个损失都有相应的权重。

L_det＝L_c+λ_sizeL_size+λ_offL_off+λ_angleL_angle

在本发明中λ_size＝0.1，此外λ_off＝1，λ_angle＝15。通过Adam优化算法来更新整个模型的参数。

6.重复步骤5，使用Adam优化算法不断的对网络参数进行更新，直到损失函数收敛；

7.把测试集的图片作为网络的输入，利用网络得到的每个像素点是否是中心的概率，目标框大小和旋转角度对目标框进行预测，具体而言，如果某点是某个类别中心点的概率大于设定的阈值(本发明取0.3)，则根据该点预测的目标大小、中心偏移以及旋转角度得到目标框。