CN115937710A

CN115937710A - 一种基于无锚航拍图像旋转目标检测方法

Info

Publication number: CN115937710A
Application number: CN202211187837.2A
Authority: CN
Inventors: 朱隆熙; 刘宁钟; 吴磊; 王淑君
Original assignee: Jiangsu Lemote Technology Corp ltd; Nanjing University of Aeronautics and Astronautics
Current assignee: Jiangsu Lemote Technology Corp ltd; Nanjing University of Aeronautics and Astronautics
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-04-07

Abstract

本发明公开了一种基于无锚航拍图像旋转目标检测方法，属于计算机视觉技术领域，该方法解决了目前航拍图像下目标识别准确度低的问题，在通用数据集DOTA‑v1上的检测精度达到了74.2。包括以下步骤：首先采集航拍图像，并对其中的目标进行标注，在标注的时候，本发明使用旋转目标标注的方法；之后在FCOS网络的基础上加上旋转角度信息，并且使用新的损失函数以及新的样本分配策略，构造新的网络结构；将航拍图像数据集送入到神经网络进行训练，直至网络收敛；然后利用训练好的神经网络和权重文件来检测测试图像中的车目标并输出检测结果。本发明能够很好地提高航拍图像下车辆检测的准确率。

Description

一种基于无锚航拍图像旋转目标检测方法

技术领域

本发明涉及一种基于无锚航拍图像旋转目标检测方法，属于计算机视觉技术领域。

背景技术

随着无人机技术的不断成熟，高分辨率的航拍图像越来越容易获得。航拍图像下的车辆检测在遥感领域受到了广泛的关注，由于其对智能交通，停车位管理，城市规划，交通监控，无人机驾驶等有重要的意义。在智能交通系统中，可以对地面车辆进行检测，分析路面状况，然后对行驶路线进行优化，降低堵车率，方便出行。高分辨率的航拍图像中的车辆检测仍然是一项具有挑战性的任务，相比于自然场景，航拍图像具有复杂的背景环境，目标密集分布，并且成不同的方向分布。

近年来，深度学习取得了快速的发展，尤其是目标检测算法,例如RCNN系列，SSD，YOLO系列，RetinaNet等。虽然基于CNN的算法取得了巨大的成功，但是这些算法都需要人为的设定anchor的大小，长宽比以及数量，而且结果受anchor影响很大。这些anchor的大小是固定的，限制了检测器的泛化能力，尤其是针对小目标的检测效果差。这些算法在图像上生成大量的anchor box来提高召回率，但是大部分属于负样本，导致正负样本不均衡，而且也会增加模型的计算量和大小。除此之外，航拍图像中，目标大小差异较大，并且有的目标长宽比大，而且目标都存在方向，传统的水平框检测算法不能很好的对旋转目标进行检测。

目前，Shi等人通过特征金字塔融合策略将残差网络的深层和浅层特征连接起来。四个卷积层平行连接，在连接的特征上预测车辆特征。Yang等人使用一个多尺度语义增强模块来增强车辆的特征。Lin等人通过使用上下文注意获得上下文信息，使网络能够关注那些外观不明显的物体。虽然这些方法使用了不同的特征增强方法，但是，对于航拍图像的检测来说还是远远不够的。

发明内容

本发明目的在于针对上述现有技术的不足，提出了一种基于无锚航拍图像旋转目标检测方法，该方法解决了目前现有技术中航拍图像下车辆识别准确度低、模型健壮性差的问题。

本发明解决其技术问题所采用的技术方案是：一种基于无锚航拍图像旋转目标检测方法，该方法包括以下步骤：

步骤1：数据集获取过程；

使用公共数据集DOTA数据集，将数据集按照1024×1024的大小进行裁剪得到可以用于训练的数据集；

步骤2：构建神经网络过程；

使用FCOS作为基准网络，并且在回归的内容中添加角度的信息，并且使用新的回归损失函数以及长宽比损失函数，并且针对不同的样本分配不同的权重进行训练；

步骤3：神经网络训练过程；

将裁剪后的通用数据集DOTA送入上述步骤2构建的卷积神经网络进行训练，直至网络收敛；

步骤4：测试图像检测过程；

采用训练好的神经网络和权重文件来检测测试图像中的目标，并计算相关测试指标来判断网络的检测效果。

进一步地，本发明上述步骤1包括以下步骤：

步骤2-1：本发明使用的数据集是DOTA数据集，该数据集包含了268张来自不同传感器和平台的航拍影视图像，每张图像的大小在4000×4000的像素内，一共包含15个类别，包括飞机、舰船、储罐、棒球场、网球场、篮球场、田径场、海港、桥梁、大型车辆、小型车辆、直升机、环岛、足球场、游泳池，以及188282个检测实例，其中每个目标都使用OBB旋转带角度信息的标注方式；步骤2-2：我们对数据集的图像进行裁剪和扩充的操作，使得每张图像的大小都为1024×1024像素的大小；

步骤2-3：设置1/2的数据集为训练集，1/3的数据集为验证集，1/6的数据集为测试集。

进一步地，本发明上述步骤2包括以下步骤：

步骤3-1：使用ResNet50作为主干网络提取特征，使用该网络C3，C4，C5层的输出，我们将每个输出的通道数压缩到256方便接下来的操作；

步骤3-2：首先我们将P5特征图进行下采样操作得到P6，对P6特征图也进行下采样操作得到P7特征图用来检测大目标，我们对P5特征图进行上采样操作和C4特征图进行特征融合得到P4特征图，然后将P4特征图进行上采样操作和C3特征图进行特征融合得到P3特征图，深层的C5特征图具有更大的感受野和高层语义信息，而浅层的C3特征图具有更好的位置信息，我们将特征图进行融合，提高网络模型的检测效果；

步骤3-3：我们将P3到P7的特征图送入到检测头当中，检测头有三个分支，一个分支用来分类，一个分支用来回归，还有一个分支用来回归角度，还有一个中心度分支，该分支与回归分支平行，中心度分支用来抑制远离中心点的低质量的预测框，考虑到我们检测的目标存在很多长宽比例大的目标，因此我们对原来的中心度分支进行改进，使用新的中心度函数来抑制去低质量边界框的权重，回归分支用来预测每个特征点对应的l，r，t，b四个值，分别表示像素点到左边，右边，上边，下边的距离；

步骤3-4：使用Focal loss损失函数作为分类损失函数，考虑到传统的L1loss旋转目标上存在参数不一致的问题，对损失函数进行改进，来解决参数不一致问题，中心度损失函数使用二维交叉熵损失函数，还使用长宽比损失函数来增加网络对检测框长宽比的监督。

进一步地，本发明上述步骤3包括以下步骤：

步骤4-1：使用ResNet50作为主干网络，使用SGD梯度算法，训练了36个epoch，起始学习率设为0.01，并且在30,33的时候分别下降为原来的十分之一，设置每个batch-size的大小为4，并且将每张图片resize到1024×1024来进行训练；

步骤4-2：在神经网络上尝试不同的训练超参数，进行训练，得到可用于航拍图像检测的网络文件和权重文件。

进一步地，本发明上述步骤3-3中使用的中心度分支，我们通过回归分支来计算得到l，r，t，b四个值分别表示到中心点到边界框的左右上下四个距离，之前的中心度分支公式如公式1所示，该中心度分支对于长宽比例过大的目标检测效果较差，对于长宽比例大的目标，对中心点的偏移距离敏感，一点点的偏移距离会导致中心度发生很大的变化，因此我们对中心度分支进行了改进，具体如公式2所示，使用改进后的中心度分支能够帮助网络更好地检测到长宽比大的目标：

其中，公式1和公式2中的l,r,t,b分别表示中心点到边界框的左右上下四个距离，公式2中的e是进行指数操作

进一步地，本发明上述步骤3-4中的损失函数为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) 公式3

其中，公式3中的α_t和γ是超参数，p_t是样本的预测概率；

其中，公式4中x_i和y_i是预测的横纵坐标，x_i*和y_i*是ground-truth的横纵坐标

其中，公式5中的N表示总样本数，y_i是预测标签，p_i表示y_i的预测概率。

进一步地，本发明上述步骤4包括以下步骤：

步骤4-1：将测试图像送入anchor free网络中，获取网络不同层的特征图；

步骤4-2：对特征图进行特征增强和融合得到最终的特征图；

步骤4-3：将特征图输入到检测头中，输出预测边界值与分类值以及角度信息；

步骤4-4：设置阈值，通过非极大值抑制过滤出最终的检测结果。

有益效果：

1、本发明提出了一种基于无锚航拍图像旋转目标检测方法，通过在ResNet50的主干网网络的基础上使用anchor free的方法，使用特征融合，能够提取更深层的语义信息，增强了对小标的识别能力。

2、本发明通过改进网络的损失函数，提高网络的收敛速度，增加检测效果。除此之外，本发明还能针对数据集特点设计了新的中心度分支，用于挑选更有利的样本进行训练。

附图说明

图1为本发明的方法流程图。

图2为本发明实施例步骤2的流程图。

图3为本发明实施例步骤3的流程图。

图4为本发明实施例步骤4的流程图。

图5为本发明实施例中的检测结果图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明：

如图1所示，本发明提供了一种基于无锚航拍图像旋转目标检测方法，该方法包括以下步骤：

步骤1：数据集获取过程：使用公共数据集DOTA数据集，将数据集按照1024×1024的大小进行裁剪得到可以用于训练的数据集；

步骤2：构建神经网络过程：使用FCOS作为基准网络，并且在回归的内容中添加角度的信息，并且使用新的回归损失函数以及长宽比损失函数，并且针对不同的样本分配不同的权重进行训练；

步骤3：神经网络训练过程：将裁剪后的通用数据集DOTA送入步骤2构建的卷积神经网络进行训练，直至网络收敛；

步骤4：测试图像检测过程：利用训练好的神经网络和权重文件来检测测试图像中的目标，并计算相关测试指标来判断网络的检测效果。

在本实施例中，具体采用以下技术方案：

步骤1：利用无人机在城市上方航拍，采集包含车辆的图片，再利用标注软件对图片中的类别进行标注；

步骤2：首先，使用anchor free的检测方式，对损失函数进行优化改进，并且使用新的样本分配方法。

如图2所示，本发明步骤2的具体展开步骤包括如下：

步骤201：针对旋转目标检测标注的信息，使用新的回归损失函数；

步骤202：增加长宽比损失函数来监督模型训练；

步骤203：使用新的样本分配策略，挑选更有利于训练的样本进行训练；

如图3所示，本发明步骤3的具体展开步骤包括如下：

步骤301：对训练图像进行预处理，使用翻转、裁剪、放大、缩小等数据增广操作。

步骤302：使用ImageNet预训练权重作为初始权重，设置学习率、迭代次数、batch_size等；

步骤303：对输入图像进行训练，当损失函数收敛或者达到最大迭代次数时，停止训练获得可用于航拍图像车辆检测的权重文件。

如图4所示，本发明步骤4的具体展开步骤包括如下：

步骤401：将测试图像送入ResNet主干网络中，获取三个尺度的特征层；

步骤402：对每层的特征图使用FPN进行融合；

步骤403：通过anchor free算法对卷积特征图进行处理，输出预测边界框与分类值和角度；

步骤404：通过非极大值抑制，只保留效果最好的检测框，其余的都过滤掉，若检测框效果都不好，则都过滤掉，过滤出最终的检测结果。

图5为本发明航拍车辆图像和使用本发明方法的检测结果，经检验，上述方法mAP可达到74.2％。

以上所述实施例仅为说明本发明的优选实施方式，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于无锚航拍图像旋转目标检测方法，其特征在于，所述方法包括以下步骤：

步骤1：数据集获取过程；

步骤2：构建神经网络过程；

步骤3：神经网络训练过程；

步骤4：测试图像检测过程；

采用训练好的神经网络和权重文件来检测测试图像中的目标，计算相关测试指标来判断网络的检测效果。

2.根据权利要求1所述的一种基于无锚航拍图像旋转目标检测方法，其特征在于，所述步骤1包括以下步骤：

步骤2-1：使用的数据集是DOTA数据集，所述数据集包含了268张来自不同传感器和平台的航拍影视图像，每张图像的大小在4000×4000的像素内，一共包含15个类别即飞机、舰船、储罐、棒球场、网球场、篮球场、田径场、海港、桥梁、大型车辆、小型车辆、直升机、环岛、足球场、游泳池，以及188282个检测实例，其中每个目标都使用OBB旋转带角度信息的标注方式；

步骤2-2：对数据集的图像进行裁剪和扩充的操作，使得每张图像的大小都为1024×1024像素的大小；

3.根据权利要求1所述的一种基于无锚航拍图像旋转目标检测方法，其特征在于，所述步骤2包括以下步骤：

步骤3-1：使用ResNet50作为主干网络提取特征，使用该网络C3，C4，C5层的输出，将每个输出的通道数压缩到256方便接下来的操作；

步骤3-2：首先将P5特征图进行下采样操作得到P6，对P6特征图也进行下采样操作得到P7特征图用来检测大目标，对P5特征图进行上采样操作和C4特征图进行特征融合得到P4特征图，然后将P4特征图进行上采样操作和C3特征图进行特征融合得到P3特征图；

步骤3-3：将P3到P7的特征图送入到检测头当中，检测头有三个分支，一个分支用来分类，一个分支用来回归，还有一个分支用来回归角度，还有一个中心度分支，该分支与回归分支平行，中心度分支用来抑制远离中心点的低质量的预测框，回归分支用来预测每个特征点对应的l，r，t，b四个值，分别表示像素点到左边，右边，上边，下边的距离；

步骤3-4：使用Focal loss损失函数作为分类损失函数，中心度损失函数使用二维交叉熵损失函数，还使用长宽比损失函数来增加网络对检测框长宽比的监督。

4.根据权利要求1所述的一种基于无锚航拍图像旋转目标检测方法，其特征在于，所述步骤3包括以下步骤：

5.根据权利要求3所述的一种基于无锚航拍图像旋转目标检测方法，其特征在于，所述步骤3-3中使用的中心度分支，通过回归分支来计算得到l，r，t，b四个值分别表示到中心点到边界框的左右上下四个距离，之前的中心度分支公式如公式1所示，该中心度分支对于长宽比例过大的目标检测效果较差，对于长宽比例大的目标，对中心点的偏移距离敏感，一点点的偏移距离会导致中心度发生很大的变化，对中心度分支进行了改进，具体如公式2所示，使用改进后的中心度分支能够帮助网络更好地检测到长宽比大的目标，包括：

其中，公式1和公式2中的l,r,t,b分别表示中心点到边界框的左右上下四个距离，公式2中的e是指进行指数操作。

6.根据权利要求3所述的一种基于无锚航拍图像旋转目标检测方法，其特征在于，所述步骤3-4中的损失函数为：

FL(p_t)＝-α_t(1-p_t)^γlog(p_t) 公式3

其中，公式3中的α_t和γ是超参数，p_t是样本的预测概率；

其中，公式4中x_i和y_i是预测的横纵坐标，x_i*和y_i*是ground-truth的横纵坐标为：

7.根据权利要求1所述的一种基于无锚航拍图像旋转目标检测方法，其特征在于，所述步骤4包括以下步骤：

步骤4-2：对特征图进行特征增强和融合得到最终的特征图；