CN116758363A

CN116758363A - 一种权重自适应与任务解耦的旋转目标检测器

Info

Publication number: CN116758363A
Application number: CN202210209127.9A
Authority: CN
Inventors: 何小海; 曾王明; 陈洪刚; 熊书琪; 吴晓红; 王正勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-09-15

Abstract

本发明提出了一种权重自适应与任务解耦的旋转目标检测器。首先，利用标签信息统计每个类别的数量并计算各自的概率，再对各个类别的概率进行Huffman编码，得到编码权重，在计算预测值和one‑hot标签的BCE损失时，将每个类别的计算结果乘上各自类别的编码权重。其次，将yolov5‑obb检测器的检测头进行解耦操作，采用两个不同的1×1卷积对分类和回归任务进行各自预测，同时，还引入了EIOU损失来代替CIOU提高定位准确性，最终提高遥感场景下目标检测精度。本发明主要应用于遥感场景下的任务精化及长尾目标检测，在遥感目标检测，国防科技及军事等领域具有开阔的应用前景。

Description

一种权重自适应与任务解耦的旋转目标检测器

技术领域

本发明涉及一种长尾目标检测方法，涉及一种目标检测中任务精化的方法，涉及了一种新的应用于遥感场景任务精化及长尾目标检测的方法，涉及军事领域的遥感目标检测问题，属于计算机视觉与智能信息处理领域。

背景技术

长尾目标检测(Long-Tailed Object Detection)是指真实场景的数据往往存在着少数类别(头部类别)占据大多数样本数量，大多数类别(尾部类别)占据少数样本量的现象。遥感场景采集的图像大都分辨率比较大，而且目标尺度不一，小目标数量占据主要部分，为更好地方便对小目标的检测，通常都要对遥感图像进行裁剪后送入检测网络，检测后再对检测结果进行重新拼接得到检测后的遥感图像，遥感图像经过裁剪之后长尾效会进一步加剧，通常裁剪的gap越大长尾效应越严重，在经过gap为100的裁剪之后，小车类别数量有超过22万个实例标注，而自网球场类别(第7个类别，含有4822个实例标注)往后呈现出9个尾部类别，特别地，对于储油罐类别仅仅只有402个实例标注。针对长尾效应，现有的方法在解决长尾效应总体上可以分为两大类，基于重采样(Re-Sampling)和重赋值(Re-Weighting)，重采样主要是针对头部类别进行欠采样、针对尾部类别进行过采样从而在一定层度上缓解长尾效应问题,重赋值是对于某些关注类别进行权重惩罚，默写不关注类别不进行惩罚，如现有的方法中认为在每次迭代计算概率时，认为较小的概率值没有必要保留，因此在计算BCE损失时，对非one-hot类别或较小概率值所对应的各自类别进行置“0”操作从而缓解在每次迭代过程中头部类别对尾部类别的负梯度影响；还有一些方法是用现在比较流行的方法来缓解，如元学习(Meta-Learning)、迁移学习(Transfer-Learning)、自适应权重(Auto-Weighting)等。现有的重赋值方法大都是忽略完全去除非one-hot类别的影响，但是事实上，非one-hot类别尤其是头部非one-shot类别同样存在着与分类相关的信息。相比于传统的重赋值方法，本发明将非one-hot类别同样进行重赋值，具体赋值基于每个类别的实例数量比例，本发明能够缓解遥感场景的长尾目标检测。

任务精化(Task-Refinement)通常是指对特定任务采用特定优化方式，本专利针对任务精化主要做两方面，一方面是检测头解耦(Decoupled Head)，另一方面采用EIOU损失。检测头解耦是指将目标检测任务中的两个子任务分类和回归独立开，使分类任务和回归任务能够在各自通道上进行，通常一阶段检测器RetinaNet等使采用解耦方式，Yolo系列的目标检测器处于速度上的考虑大都采用一个卷积头同时完成分类和回归任务，现有的研究证明将分类和回归任务独立开能够提升检测精度。针对遥感场景的目标检测，本发明将Yolov5检测器进行解耦操作，使分类、回归任务在各自的通道上完成，能够提高检测精度。对于回归框的定位损失，常用的GIOU和DIOU大都存在问题，CIOU优化了GIOU和DIOU的问题后，同样还存在着相对长宽比导致的对于长宽惩罚失效的问题，因此本专利在Yolov5-obb检测器的基础上引入EIOU损失，提高定位任务的可靠性。

发明内容

本发明提出了一种应用于遥感场景任务精化的长尾目标检测的方法，设计了一种编码权重及任务精化的网络结构，权重能根据不同数据集来自适应计算，采用Huffman编码方式来编码得到每个类别对应的权值，用于后续计算交叉熵损失时进行权重重分配，对Yolov5-obb检测头进行任务解耦操作，使分类和回归任务在各自的通道上进行，引入了EIOU损失便于后续更好地进行回归框预测。

编码权重及任务精化的单阶段检测方法，包括以下步骤：

(1)利用训练集标注信息统计训练的每个类别的实例标注数量并计算其各自的概率σ(c_i)；

(2)将计算得到的每个类别概率依次通过Huffman编码器进行编码，得到编码后的码长，码长作为权重；

(3)针对分类任务，在计算每个类的BCE损失时，将预测值与概率做交叉熵损失所得到结果分别乘上Huffman编码得到的权重；

(4)针对回归任务，采用EIOU保证回归框回归的可靠性，同时解耦Yolov5检测头，使分类、回归任务独立进行，提高定位精度。

附图说明

图1为本发明编码权重及任务精化的单阶段目标检测方法的框图；

图2为本发明编码权重及BCE损失的计算过程；

图3为本发明任务精化中的卷积头解耦模块；

图4为本发明的遥感场景目标检测的结果示意图；

具体实施方式

下面结合附图1、附图2，附图3和附图4对本发明作进一步说明：

图1所示是编码权重及任务精化的单阶段检测器的网络结构和原理：

编码权重及任务精化的单阶段检测器网络模型框架以端到端方式进行训练和测试。其中该网络的主体框架是Yolov5网络，包括backbone、neck、head三部分组成，其中backone是采用的bottleneck块堆叠而成，backbone最后采用的是SPP(Spatial PyramidPooling)，neck部分包括上采样及通道拼接特征融合，即FPN结构，head部分主要是PANet结构构成的三个多尺度检测头，假定图片输入尺寸是1024*1024，经过backbone五次下采样后得到的特征图大小是32*32，再经过neck进行分别两次上采样以及特征融合，在head部分进行拼接生成三个检测头，由于进行了检测头的解耦操作，每个检测头又分成三个通道，分别对分类、角度、坐标回归进行预测。

(1)编码权重及BCE损失计算

图2为本发明提出的编码权重及BCE损失计算过程。给定一个实例，通常经过卷积神经网络提取特征之后得到的包含类别信息特征图，然后将特征图中与类别相关的信息通过sigmoid激活函数激活得到其概率值，如公式(1)所示，概率标签再与标注的类别信息，通常为one-hot标签做BCE损失，具体做法是将概率标签与one-hot标签逐元素做交叉熵损失，如公式(2)所示，而后，将得到的分类损失值对ci进行求梯度以及反向传播完成参数更新，求梯度如公式(4)所示：

其中ci是logit标签,σ(c_i)是sigmoid激活函数，L_BCE是BCE损失函数，C是类别总数，i是one-hot标签的第i个标签值取值为0或1，认为i＝k时取到1值，i≠k时取的是0。

本发明所提出的方法是根据先验标签信息统计出每个类别的数量，同时计算每个类别的概率，然后将概率值进行Huffman编码，得到编码码长，然后将码长作为惩罚权重，在预测值和one-hot做BCE损失时将对应的每个类别计算结果分别乘上权重惩罚，一定程度上缓解长尾目标检中类别数量不平衡的问题；此外考虑到有些类别在数量上本来就很多，添加权重后反而会降低其表现，导致影响整体评估，因此可以只针对某些类别进行Huffman编码得到权重，部分类别保持不变，公式(5)为添加编码权重后计算的BCE损失，公式(6)为添加编码权重后的梯度反向传播计算公式：

其中L_H-B-BCE是采用Huffman编码后并引入H-B权重的损失，w_i是第i个权重。

(2)所示是任务精化的卷积头解耦模块

任务精化的卷积头解耦模块如图3所示，本发明提出了对Yolov5目标检测器进行解耦操作，使回归任务和回归任务通过各自的支路解决，通过对回归、分类任务分别通过3*3卷积和1*1卷积来实现完成对分类回归任务的解耦操作。假定输入的特征图x的维度大小为W×H×256，x首先经过两个3×3卷积，然后经过一个1×1卷积进行通道降维成任务各自需要的通道，即降维成分类、角度回归、坐标回归和置信度三个通道，其中坐标回归和置信度又细分成两个各自的通进行各自的任务实现，具体地，在各自通道上经过3×3卷积之后得到新的特征图分别经过1×1卷积分别得到维度为W×H×nc、W×H×ang、W×H×4、W×H×1的特征图，然后将所得到的特征图在通道维度上进行拼接从而得到拼接后的特征图z。此外，为了进一步提高检测器的回归框预测精度，采用EIOU的绝对长宽比来代替CIOU中的相对长宽比，回归框损失如式(7)所示：

其中L_box是回归框损失，IOU是预测框与真实框之间测交并比，b是预测框的中心点坐标，b^gt是真实框的中心点坐标，c是包围预测框和真实框最小矩形的对角线长度，w是预测框的宽，w^gt是真实框的宽，C_w是包围预测框和真实框最小矩形的宽，h是预测宽的高，h^gt是真实框的高，C_h是真实框的高，ρ是求两点间距操作。

(3)损失函数

目标检测的损失函数主要由四部分组成，即分类、坐标回归、角度回归、置信度四部分，其中的分类损失采用上述的L_H-B-BCE，坐标回归损失采用的是上述的L_box，角度采用的是CSL损失，如式(8)所示，置信度损失如式(9)所示：

其中L_CSL是CSL损失函数，CSL损失函数主要思想是将角度回归问题转换成分类问题，其中180个角度每个角度可以看作一个类别，g(x)是一个周期性窗口函数，r是窗口函数的半径，θ是当前回归框的的角度，其中理想情况下g(x)具有以下几个性质：

1.周期性，g(x)＝g(x+kT)，k∈N，T＝180/ω

2.对称性，0＜g(θ+ε)＝g(θ-ε)≤1，|ξ|＜r

3.最大值，g(x)_max＝1

4.周期性，0≤g(θ±ε)≤g(θ±ζ)≤1，|ζ|＜|ξ|＜r

其中L_boxness是置信度损失函数，为真实置信度，/>为预测得到的置信度，两者通过计算交叉熵损失来得到。总损失函数由上述四部分组成，如式(10)所示：

L_Total＝L_H-B-BCE+L_box+L_CsL+L_boxness (10)

其中，L_Total为总损失，L_H-B-BCE为改进的编码权重分类损失，L_box为回归框预测损失，L_CSL为CSL损失，L_boxness为置信度损失。

本发明在DOTAv1.5遥感数据集上进行了相关实验，采用的图像分辨率大小为800*800，采用Yolov5m模型作为baseline，再依此进行编码权重、卷积头解耦、EIOU损失的实验，实验采用的是一张GeForce RTX 2080Ti显卡，采用yolov5m.pt作为预训练模型，batchsize设置为6，epoch设置为68，设定学习率0.01，长尾检测中采用的部分编码权重使用的是[2,6,4,6,1,1,1,3,6,3,6,6,2,4,5,6]，对DOTAv1.5数据集中设置的裁剪step为200，评估时设置的裁剪step为200，图像分辨率都设定未800*800，评估过程直接通过DOTA数据集官网的EvalutionTask1进行其中与SOTA的对比如表1所示，本发明在精度上相对于其他方法均有很大提升。

表1对比SOTA结果

Claims

1.一种权重自适应与任务解耦的旋转目标检测器，其特征在于包括以下步骤：

(1)根据先验标签信息统计出每个类别的数量，同时计算每个类别的概率，然后将概率值进行Huffman编码，得到编码码长，然后将码长作为惩罚权重，在预测值和one-hot做BCE损失时将对应的每个类别计算结果分别乘上权重惩罚；

(2)对Yolov5-obb目标检测器进行解耦操作，使回归任务和回归任务通过各自的支路解决，通过对回归，分类任务分别通过3*3卷积和1*1卷积来实现完成对分类回归任务的解耦操作；假定输入的特征图x的维度大小为W×H×256，x首先经过两个3×3卷积，然后经过一个1×1卷积进行通道降维成任务各自需要的通道，即降维成分类，角度回归，坐标回归和置信度三个通道，三个通道的任务并行执行，而后将执行的结果进行concat操作道道最终结果；

(3)采用EIOU代替Yolov5-obb检测器中的CIOU来提高定位精度。

2.根据权利要求1所述的方法，步骤(1)中编码权重的步骤是：利用先验标签信息统计出每个类别的数量，同时计算每个类别的概率，然后将概率值进行Huffman编码，得到编码码长，然后将码长作为惩罚权重，在预测值和one-hot做BCE损失时将对应的每个类别计算结果分别乘上权重惩罚，一定程度上缓解长尾目标检中类别数量不平衡的问题；此外考虑到有些类别在数量上本来就很多，添加权重后反而会降低其表现，导致影响整体评估，因此可以只针对某些类别进行Huffman编码得到权重，部分类别保持不变，添加编码权重后计算的BCE损失定义为式(1)所示，添加编码权重后的梯度反向传播计算过程如式(2)所示：

步骤(1)中使用了编码权重来解决长尾效应的问题，附图2所示是BCE损失引入长尾编码权重的结构框图，首先利用标签先验统计得到每个类别的概率值，然后利用Huffman编码技术对概率值进行Huffman编码操作得到每个类别所对应的编码权重，然后通过输入的特征图得到了logit值，之后经过sigmoid激活函数得到每个logit值所对应的概率值，然后将概率值与采样过程中得到的one-hot标签做BCE损失，在将预测值与one-hot标签中的每个元素(相当于每个类)计算BCE损失的同时，将计算结果乘上每个类别所对应的编码权重值，相当于对每个类别的计算结果进行了惩罚，而且对于多数类别惩罚系数更大，少数类别的惩罚系数更小，在训练过程中的梯度回传时，每个类别同样都乘上了各自的编码权重。

3.根据权利要求1所述的方法，步骤(2)中本发明使用了解耦卷积头的操作，附图(1)所示的Detect head部分即为解耦卷积头后的原理示意图，相对于传统的Yolov5采用的一个单独卷积头来同时进行多种任务，考虑各个任务之间的互斥关系，将分类与回归任务进行了解耦操作，分别使用三个卷积头来同时对于角度回归，坐标回归及分类任务，附图(3)所示即为对Yolov5进行任务精化的解耦卷积头模块，使回归任务和回归任务通过各自的支路解决，通过对回归，分类任务分别通过3*3卷积和1*1卷积来实现完成对分类回归任务的解耦操作；假定输入的特征图x的维度大小为W×H×256，x首先经过两个3×3卷积，然后经过一个1×1卷积进行通道降维成任务各自需要的通道，即降维成分类，角度回归，坐标回归和置信度三个通道，其中坐标回归和置信度又细分成两个各自的通进行各自的任务实现，具体地，在各自通道上经过3×3卷积之后得到新的特征图分别经过1×1卷积分别得到维度为W×H×nc，W×H×ang，W×H×4，W×H×1的特征图，其中的1*1卷积主要目是尽可能地减少参数量，然后将所得到的特征图在通道维度上进行拼接从而得到拼接后的特征图z。

4.根据权利要求1所述的方法，其特征在于步骤(3)中，传统的Yolov5采用的是CIOU损失，其公式如式(3)，式(4)所示：

本发明种考虑到遥感场景存在着密集排列，背景干扰等原因，引入EIOU来实现边界框的回归，从而提高检测精度；其中相对于CIOU损失，EIOU直接采用绝对长宽的形式用预测框来逼近真实框，这种设计能够更好地保证对于回归框长宽的惩罚比较准确，其中EIOU如式(5)所示：

在考虑重叠面积，中心点距离的基础上引入绝对长和绝对宽的惩罚来定义边界框损失能够很好地使预测框向真实框聚拢，保证边界框回归的准确性。