CN115830480A

CN115830480A - 一种小样本航空图像旋转目标检测方法

Info

Publication number: CN115830480A
Application number: CN202211578217.1A
Authority: CN
Inventors: 姚西文; 李玲君; 程塨; 韩军伟; 郭雷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-21

Abstract

本发明提供了一种小样本航空图像旋转目标检测方法。首先，利用基础类别航空样本数据对旋转目标检测器网络Redet进行基础训练，并在RCNN的框回归损失中增加一个角度约束项；然后，再利用基础类别航空样本数据和新类别航空样本数据进行再训练，训练时在Redet网络的RPN模块中增加分类重加权模块，将RPN的分类损失替换为Focal损失并增加一个可学习损失权值项，同样在RCNN的框回归损失中也增加一个角度约束项，且只对网络部分参数进行调整，其余参数保持不变；最后，将航空图像输入训练好的网络，即得到其目标检测结果。本发明能够有效提高航空图像小样本旋转目标检测性能。

Description

一种小样本航空图像旋转目标检测方法

技术领域

本发明属图像目标检测技术领域，具体涉及一种小样本航空图像旋转目标检测方法。

背景技术

航空图像中的目标通常是任意方向、密集分布的，用水平框(horizontalbounding boxes,HBBs)并不能精准地定位这类任意向的目标。为此，涌现出很多基于航空图像的旋转目标检测算法，这些算法通过使用旋转包围框(oriented bounding boxes,OBBs)表示，实现对航空图像目标的准确定位。但是现有的旋转目标检测算法通常需要大量注释信息才能得到令人满意的检测性能。相对于水平框注释，旋转框注释的难度更高。因为除了需要标注出包围框的中心位置(x_c,_yc)、包围框的宽w和高h之外，还要标注出包围框的旋转角度θ，θ表示旋转框与水平方向的夹角。并且，当出现一些新类别，且这些类别只能提供很少量的注释信息时，已经训练好的算法模型对这些新类别的检测性能会骤然下降。总之，一方面旋转框的注释难度限制了大量注释信息的获取，影响模型性能；另一方面，现有的旋转目标检测模型也很难泛化到仅有少量注释信息的新类别的目标上。小样本学习(Few-Shot learning)是派生于人类快速学习能力，类似于举一反三：人们根据从基础类(base classes)习得的大量知识，仅利用少量注释信息就能快速学会检测一个新类别(novel class)目标。将这种学习能力应用到旋转目标检测任务上，可以缓解上述提到的问题。尽管，目前已经有一些小样本目标检测算法模型被提出，但都是针对水平框检测的，很少涉及到旋转目标检测。

多数小样本目标检测算法一般采用两阶段微调方法(two-stage fine-tuningapproach,TFA)。TFA训练方案主要包含两个阶段：基础训练阶段(base training stage)和小样本微调阶段(few-shot fine-tuning stage)。在基础训练阶段，整个目标检测器在基础类别(base classes)上训练，其中每一个基础类别包含充足的已标注的训练样本。在小样本微调阶段，只有包围框预测器(box predictor)在一个平衡的数据子集上微调，其余模块的参数保持固定不变。平衡的数据子集是由基础类别和新类别(novel classes)构成的，且每类只有少量的标注训练样本，基础类别和新类别的类别空间也是不相交的。通过TFA训练出的小样本目标检测模型具有一定的定位能力，但是对于目标的类别的判别却有待改善，因为基础类别的样本都参与了基础训练阶段和小样本微调阶段，且标注训练样本数量远远大于新类别，训练出的模型很容易偏向于基础类，导致模型对新类别的识别精度不高。因而，在小样本旋转目标检测中，改善模型的分类性能尤为关键。

另外，旋转框的定位难度要比水平框难度高，其存在很多自身难以克服的挑战，因此依然需要进一步改善小样本旋转目标检测模型的定位能力。目前，在常规的旋转目标检测任务上已经涌现了许多优秀的算法，取得了不错的进展。如Yang等人在2022年的工作“The KFIoU Loss for Rotated Object Detection[J].arXiv preprint arXiv:2201.12558,2022”中提出的KFIoU损失函数较为有效地缓解了长期存在的边界不连续和方形问题，在旋转目标检测任务上取得了优异的性能。但KFIoU损失在处理近似方形或方形框时，依然存在旋转角度混淆的问题。因为KFIoU损失函数是通过将预测框和真值框建模为2D高斯分布，缩短两个分布中心之间的距离，然后通过Kalman过滤算法去计算重叠区域。但近似方形或方形框的高斯建模不是一个椭圆，而是一个圆形，这很难区分出目标框的旋转角度。

发明内容

为了克服现有技术的不足，本发明提供一种小样本航空图像旋转目标检测方法。首先，利用基础类别航空样本数据对旋转目标检测器网络Redet进行基础训练，并在RCNN的框回归损失中增加一个角度约束项；然后，再利用基础类别航空样本数据和新类别航空样本数据进行再训练，训练时在Redet网络的RPN模块中增加分类重加权模块，将RPN的分类损失替换为Focal损失并增加一个可学习损失权值项，同样在RCNN的框回归损失中也增加一个角度约束项，且只对网络部分参数进行调整，其余参数保持不变；最后，将航空图像输入训练好的网络，即得到其目标检测结果。本发明能够有效提高航空图像小样本旋转目标检测性能。

一种小样本航空图像旋转目标检测方法，其特征在于步骤如下：

步骤S1、构建训练数据集：将航空图像数据集的所有类别随机划分为基础类别和新类别，且基础类和新类的类别空间不相交，其中，基础类别中的每类标注样本数量大于等于500，构成基础类别子数据集，新类别中的每类标注样本数量不超过20，构成新类别子数据集；

步骤S2、基础训练：使用ResNet50网络官方提供的预训练模型在基础类别子数据集上进行训练，得到初始化网络参数，所述的网络指旋转目标检测器网络Redet，训练时在RCNN的框回归损失中增加一个角度约束项，即：

L_{RCNN_reg}＝L_KFIoU+0.04*L_EVCS (1)

其中，L_{RCNN_reg}表示增加角度约束项后的框回归损失函数；L_KFIoU表示原KFIoU损失函数；L_EVCS表示角度约束项；

表示预测框的4个顶点构成的8个有向向量集合，

表示以预测框的左上方顶点1为起点、右上方顶点2为终点的有向向量，

表示以预测框的左上方顶点1为起点、左下方顶点4为终点的有向向量，

表示以预测框的右上方顶点2为起点、左上方顶点1为终点的有向向量，

表示以预测框的右上方顶点2为起点、右下方顶点3为终点的有向向量，

表示以预测框的右下方顶点3为起点、右上方顶点2为终点的有向向量，

表示以预测框的右下方顶点3为起点、左下方顶点4为终点的有向向量，

表示以预测框的左下方顶点4为起点、右下方顶点3为终点的有向向量，

表示以预测框的左下方顶点4为起点、左上方顶点1为终点的有向向量；

表示两个有向向量，起点都是真值框的左上方顶点1，有向向量

的终点是真值框的右上方顶点2，有向向量

的终点是真值框的左下方顶点4；向量

表示从预测框向量集合

中选出的与真值框的两个有向向量

在方向和向量长度上最接近的有向向量；exp表示以自然常数e为底的指数函数；Cosinesimilarity表示计算余弦相似性；

步骤S3、网络参数调整：在基础类别子数据集和新类别子数据集上再次进行网络训练，得到训练好网络，其中，训练时在Redet网络的RPN模块中增加一个分类重加权模块CRM，将RPN的分类损失替换为Focal损失并增加一个可学习损失权值项，在RCNN的框回归损失中增加一个角度约束项，同时，训练时只对RPN和RCNN的分类分支和回归分支、分类重加权模块CRM进行参数调整，网络其余模块的参数保持固定不变；

所述的分类重加权模块CRM主要由一个卷积层构成，放置在框定位分支之后，将RPN模型预测出的定位信息输入到CRM模块中，得到包含定位信息的输出值；

所述的替换为Focal损失并增加一个可学习损失权值项的RPN的分类损失函数如下：

L_{RPN_cls}＝loss_weight*[-α*(1-p_t)^γ*label*log(p_t)-(1-α)*p_t ^γ*(1-label)*log(1-p_t)] (3)

其中，L_{RPN_cls}表示RPN模块的分类损失；loss_weight表示可学习损失权值项；W表示可学习权值矩阵；α为超参数一，设置其值为0.25；p_t表示RPN模块最终输出的预测前-背景分类得分；γ为超参数二，设置其值为2；label表示前-背景类别真值标签；scores_cls表示重加权后的前-背景分类得分；scores_cls表示RPN模块分类分支输出的前-背景得分；reg2cls表示CRM模块输出值；

步骤S4、目标检测：将待处理的航空图像数据集输入到训练好的网络，输出得到其目标检测结果。

本发明的有益效果是：由于增加了分类重加权模块CRM，利用预测出的定位信息去重加权分类得分，同时将RPN的分类损失替换为Focal损失，并增加可学习损失权值项，能够有效改善小样本旋转目标检测的分类性能；由于针对KFIoU框损失函数对近似方形或方形框的旋转角度混淆的问题，设计了一个边向量余弦相似性损失，将其作为角度约束项添加到KFIoU框损失函数中，能够实现对任意的旋转框(包括近似方形或方形框)的角度精准预测；本发明实现简单，在获得好的小样本旋转目标检测效果的同时，还可以推广应用到其他旋转目标检测模型中。

附图说明

图1是本发明的一种小样本航空图像旋转目标检测方法流程图；

图2是本发明旋转目标检测网络训练阶段示意图；

图3是本发明方法在DOTA数据集上的检测结果图像。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种小样本航空图像旋转目标检测方法，其具体实现过程如下：

步骤S1、构建训练数据集

将航空图像数据集的所有类别随机划分为基础类别

和新类别

且基础类和新类的类别空间不相交

其中，基础类别的标注训练样本数量充足，构成基础类别子数据集

其中每类的标注训练样本数量至少是500；新类别中的每类仅有少量标注样本，构成新类别子数据集

其中每类的标注训练样本数量不超过20。

步骤S2、基础训练

使用ResNet50网络官方提供的预训练模型在基础类别子数据集上进行训练，得到初始化网络参数。所述的网络指旋转目标检测器网络Redet，主要包括主干网络ResNet50、FPN(Feature Pyramid Networks)、RPN和RCNN。其中，ResNet50为He等人在2016年的工作“Deep residual learning for image recognition[C]Proceedings of the IEEEconference on computer vision and pattern recognition.2016:770-778”中提出的网络结构；FPN为Lin等人在2017年的工作“Feature pyramid networks for objectdetection[C]Proceedings of the IEEE conference on computer vision and patternrecognition.2017:2117-2125”中提出的网络框架。Redet旋转目标检测模方法的目标检测流程与Faster RCNN基本一致。不同处在于，第一，考虑到航空目标往往以任意方向分布，而普通CNN没有明确地建模方向变化，需要大量的旋转增强数据来训练精确的目标检测器。为此，Redet旋转目标检测方法在ResNet50和FPN中加入旋转等变网络来提取旋转等变特征，以便准确地预测方向。第二，Redet提出了旋转不变RoI对齐(RiRoI Align)，它根据RoI的方向自适应地从等变特征中提取旋转不变特征。总之，主干网络提取训练样本特征，RPN产生出与基础类别相关的建议框集合，将样本特征和建议框集合一起输入到RCNN网络中获得分类得分和定位结果。

此外，在RCNN的框回归损失中增加一个角度约束项，即边向量余弦相似性损失函数(Edge-Vectors Cosine Similarity Loss,EVCS Loss)。原RCNN的框回归损失为Yang等人在2022年的工作“The KFIoU Loss for Rotated Object Detection[J].arXivpreprint arXiv:2201.12558,2022”中提出的KFIoU损失函数。KFIoU损失函数通过将预测框和真值框建模为2D高斯分布，缩短两个分布中心之间的距离，然后通过Kalman过滤算法去计算重叠区域。但近似方形或方形框的高斯建模不是一个椭圆，而是一个圆形，这很难区分出目标框的旋转角度。为此，在KFIoU损失的基础上，本发明设计一个角度约束项，称之为边向量余弦相似性损失(Edge-Vectors Cosine Similarity Loss,EVCS Loss)，如下所示：

其中，L_EVCS表示表示本发明设计的角度约束项，即边向量余弦相似性损失函数(Edge-Vectors Cosine Similarity Loss,EVCS Loss)；

表示预测框的4个顶点构成的8个有向向量，其中预测框(或真值框)的4个顶点的顺序为：框左上方顶点1，框右上方顶点2，框右下方顶点3，框左下方顶点4。

的终点是真值框的右上方顶点2，有向向量

的终点是真值框的左下方顶点4；向量

表示从预测框向量集合

中选出的与真值框的两个有向向量

在方向和向量长度上最接近的有向向量；exp表示以自然常数e为底的指数函数；Cosinesimilarity表示计算余弦相似性。只要预测框的边向量与真值框的边向量的余弦相似性大，则表示两个向量的夹角越小，且向量之间的夹角范围恒定为[0,180]度。因此，最终的旋转框回归损失函数L_{RCNN_reg}为：

L_{RCNN_reg}＝L_KFIoU+0.04*L_EVCS (9)

其中，L_KFIoU表示原KFIoU损失函数。

网络的最终损失为RPN损失L_RPN(包括分类损失和框回归损失)和RCNN损失L_RCNN(包括分类损失和框回归损失)的加和。

步骤S3、网络参数调整

通过基础训练阶段，可以得到小样本旋转目标检测模型的初始参数。小样本旋转目标检测任务目的是能够仅利用少量的注释信息，就能快速泛化到新类别目标。因此，本发明采用这种两阶段微调方法TFA的策略，得到网络初始参数后，在包含基础类别子数据集和新类别子数据集上再次进行网络训练，得到训练好网络。

为使网络更好得现小样本旋转目标检测，本发明设计了RPN分类重加权模块和边向量余弦相似性损失，即训练时在Redet网络的RPN模块中增加分类重加权模块CRM，同时将RPN的分类损失替换为Focal损失，并增加一个可学习损失权值项，同样在RCNN的框回归损失中增加一个角度约束项；同时，除了RPN和RCNN的分类分支和回归分支，以及CRM需要进行参数微调之外，其余模块的参数保持固定不变。图2给出了通过网络再训练进行网络参数调整的示意图。

RPN模块中包括分类分支(classification head)和框定位分支(boxlocalization head)。本发明设计的分类重加权模块CRM主要放置在框定位分支之后，目的是利用模型的预测出的较为靠谱的定位信息来辅助目标实例的分类学习。分类重加权模块CRM主要由一个卷积层构成，将模型预测出的定位信息输入到CRM中，然后输出一个包含定位信息的权值矩阵，将这个权值矩阵作用到模型预测的分类得分上。考虑到小样本旋转目标检测模型容易偏向于基础类别

即会给基础类别

预测出更高的分类得分，这极其不利用新类别

为此本发明将CRM输出值reg2cls中元素映射到(0,1)，形成可学习权值矩阵W，并将其作用到RPN模块前-背景分类得分scores_cls上，即：

scores_cls＝(1+W)*scores_cls (11)

其中，scores_cls表示重加权后的前-背景分类得分。

然后，再利用这个重加权后的前-背景分类得分scores_cls对建议框进行过滤。这个重加权的目的就是为了利用类别无偏的定位信息对分类得分重新调整，使得原本分类得分低的新类别的得分变高，提高模型对新类别的关注度。除此之外，为了能够更好的更新分类重加权模块CRM的参数，以及缓解前-背景不平衡的问题，本发明使用Lin等人在2017年的工作“Focal loss for dense object detection[C]Proceedings of the IEEEinternational conference on computer vision.2017:2980-2988”中提出的Focal loss作为RPN的分类损失，并在此基础上，增加一个可学习损失权值：

L_{RPN_cls}＝loss_weight*[-α*(1-p_t)^γ*label*log(p_t)-(1-α)*p_t ^γ*(1-label)*log(1-p_t)] (12)

其中，L_{RPN_cls}表示增加可学习损失权值项后的RPN模块的Focal分类损失。loss_weight表示本发明所设计的可学习损失权值项；α表示Focal损失中的超参数一，本发明使用默认值0.25；p_t表示RPN模块最终输出的预测前-背景分类得分；γ表示Focal损失中的超参数二，本发明使用默认值2；label表示前-背景类别真值标签；reg2cls表示CRM模块输出值。

同样地，在RCNN的框回归损失函数中也增加如前面步骤S2所述的角度约束项，即边向量余弦相似性损失(Edge-Vectors Cosine Similarity Loss,EVCS Loss)。

步骤S4、目标检测

将待处理的航空图像数据集输入到训练好的网络，输出得到其目标检测结果。

为验证本发明方法的有效性，在DOTA-v1.0旋转航空图像数据集上进行旋转目标检测的测试。DOTA-v1.0数据集一共有15个类别，随机选出10个类别作为基础类别，5个类别作为新类别，新类别包括有飞机(PL)、田径场(GTF)、船(SH)、储罐(ST)、游泳池(SP)，其余的类别都是基础类别，包括棒球内场(BD)、桥(BR)、小型车辆(SV)、大型车辆(LV)、网球场(TC)、篮球场(BC)、足球场(SBF)、环形交叉路口(RA)、海港(HA)、直升机(HC)。与RoI Trans-KFIoU和Redet-KFIoU算法进行对比，对比结果如表1所示。其中RoI Trans-KFIoU是由Ding等人在2019年的工作“Learning RoI transformer for oriented object detection inaerial images[C]Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:2849-2858”中提出的算法；Redet-KFIoU是由Han等人在2021年的工作“Redet:A rotation-equivariant detector for aerial object detection[C]Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2021:2786-2795”中提出的算法。指标AP是平均精度，表示正确识别的物体数占总识别的物体个数的百分比，值越大，说明检测结果越准确。从表1中可以看出本发明方法可以有效提升小样本航空图像旋转目标检测性能，其中每一个新类别的标注样本数量是10。

表1

图3给出了本发明方法在DOTA-v1.0数据集上的检测结果图像。

由表1和图3可以看出，本发明方法可以有效提升小样本航空图像旋转目标检测性能。

综上所述，本发明公开了一种小样本航空图像旋转目标检测方法(few-shotoriented object detection,FSO2D)，主要进行了分类重加权模块(CRM)和边向量余弦相似性损失(EVCS Loss)等设计。根据预测出的定位信息，设计了分类重加权模块，旨在改善小样本旋转目标检测的分类性能；针对KFIoU损失对近似方形或方形框的旋转角度混淆的问题，设计了一个边向量余弦相似性损失，将其作为角度约束项添加到KFIoU损失函数中，以实现对任意的旋转框(包括近似方形或方形框)的角度精准预测。本发明实现方法简单，可以插入到现有的旋转目标检测模型中，在航空图像数据集上取得了显著的小样本旋转目标检测效果。