CN109858530B

CN109858530B - 一种基于复合金字塔的旋转目标检测方法

Info

Publication number: CN109858530B
Application number: CN201910031679.3A
Authority: CN
Inventors: 杭涛; 祁伟; 张婷婷; 曹峰
Original assignee: Suzhou Changfeng Aviation Electronics Co Ltd
Current assignee: Suzhou Changfeng Aviation Electronics Co Ltd
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2022-06-28
Anticipated expiration: 2039-01-14
Also published as: CN109858530A

Abstract

本发明揭示了一种基于复合金字塔的旋转目标检测方法，在标定目标样本时加入了旋转标定的功能，对于目标的位置通过增加目标框的旋转角度来准确标定目标；在训练网络模型时通过加入旋转角度的计算，将目标角度误差反馈到网络中，使得网络能够学习到目标的角度信息。本发明通过加入角度信息的误差计算，对损失函数进行约束，使得网络能够输出带有角度信息的目标框，能实现在复杂的环境场景下对旋转目标的检测。利用复合金字塔特征对目标进行分析，提高了远小目标的识别率。

Description

一种基于复合金字塔的旋转目标检测方法

技术领域

本发明涉及一种基于复合金字塔的旋转目标检测方法，属于视觉识别的技术领域。

背景技术

目标识别是计算机视觉领域内一个长期存在的基础性难题，几十年来也一直都是一个活跃的研究领域。目标识别的目标是确定某张给定图像中是否存在给定类别的目标实例；如果存在，就返回每个目标实例的空间位置和覆盖范围。

作为图像理解和计算机视觉的基石，目标识别是解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次的视觉任务的基础。

近来迅猛发展的深度学习技术是一类能自动从数据中学习特征表示的强大方法。特别需要指出，这些技术已经显著改善了目标识别的表现，这个问题在过去五年中得到了很大的关注，许多基于深度学习的目标识别方法取得了很大的研究进展。

大多数现有的识别方法使用目标框去定位目标在图像中的位置，这些目标框不支持旋转标注，当处理带有旋转信息的目标时，没有旋转信息的目标框会引入大量的背景信息，从而导致训练样本失真，影响算法的整体识别效果。

发明内容

本发明的目的是解决上述现有技术的不足，针对现有视觉检测不支持旋转标注从而导致整体识别效果差的问题，提出一种基于复合金字塔的旋转目标检测方法。

为了达到上述目的，本发明所采用的技术方案为：

一种基于复合金字塔的旋转目标检测方法，包括以下步骤：

S1对训练样本进行目标标定，标定结果存为[x,y,w,h,a]，

其中(x,y)是目标中心坐标，(w,h)是目标宽高，(a)是目标的旋转角度，

预定义K^L个先验框[p_w,p_h,p_a]，L为特征金字塔的层数，先验框以宽高(p_w,p_h)信息从小到大进行排序，p_a为先验框的角度；

S2将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络得到预测特征图Z^L，预测特征图大小为N^L×W^L×H^L×K^L×(6+C)，其中N^L为训练图像的批处理数量，(W^L,H^L)为预测特征图的大小，K^L为先验框个数，L为特征金字塔的层数，C为识别的类别数；

S3在预测特征图Z^L的每个位置对每个先验框预测5个坐标[t_x,t_y,t_w,t_h,t_a]和t_o，t_o判断当前先验框是否是目标，目标框的预测通过如下函数计算：

b_x＝σ(t_x)+c_x (1)

b_y＝σ(t_y)+c_y (2)

b_a＝tan^-1(t_a)+p_a(5)

Pr(object)*ArIOU(b,object)＝σ(t_o) (6)

其中，[b_x,b_y,b_w,b_h,b_a]为预测的实际目标位置坐标，(c_x,c_y)为预测特征图的坐标位置,σ为sigmoid函数，ArIOU(b,object)计算先验框和目标框的交集，其计算公式如下：

其中

除了角度参数和B相同，其他坐标参数和A相同，∪和∩是计算两个框并集和交集的布尔运算；

S3根据公式(1)～公式(6)推倒计算训练误差，误差采用均方差函数计算得到，并反馈到网络中，对网络中的权重参数进行梯度下降优化，误差计算公式如下所示：

其中，N为所有匹配的先验框的个数，

为特征金字塔的每层误差值，其计算如下：

其中，x_ij∈{0,1}，当先验框中包含目标时为1，反之为0，通过公式(7)进行计算先验框和目标框的ArIOU(b,object)值，当ArIOU(b,object)>th_ArIOU时认为先验框包含目标，反之不包含；i为先验框的下标数，j为预测目标框的下标数，

由公式(1-5)计算得到，

为网络预测得到的值；smooth_L2代表L₂损失计算函数；

S5重复步骤S2～步骤S4直至总体误差L_all达到一个较为稳定的值，则停止训练。

S6将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络中得到预测特征图Z^L，根据预测特征图中的每个位置对先验框预测的5个坐标[t_x,t_y,t_w,t_h,t_a]，通过公式(1)～公式(5)算相应的实际预测目标框的坐标位置[b_x,b_y,b_w,b_h,b_a]以及置信度σ(t_o)，当σ(t_o)>th_o时，认为该预测框含有目标，反之剔除该预测框，将特征金字塔得到的所有预测目标框的坐标位置进行合并；

S7将所有的预测目标框的坐标位置信息进行非极大值抑制处理，此时计算重叠目标框的距离时采用如下公式：

其中，IOU的计算不考虑目标框的角度因素，只考虑宽高以及位置信息，当IOU的值大于0.5时，认为当前两个目标框表示的是同一个物体，因此删除置信度较低的预测框；

S8经过步骤S6和步骤S7计算，将剩余的预测目标框进行输出绘制到原始图像中。

本发明的有益效果主要体现在：

1.通过加入角度信息的误差计算，对损失函数进行约束，使得网络能够输出带有角度信息的目标框，能实现在复杂的环境场景下对旋转目标的检测。

2.利用复合金字塔特征对目标进行分析，提高了远小目标的识别率。

附图说明

图1是本发明旋转目标检测方法的一个具体实施例的原理示意图。

具体实施方式

本发明提供一种基于复合金字塔的旋转目标检测方法。以下结合附图对本发明技术方案进行详细描述，以使其更易于理解和掌握。

首先进行视觉检测训练，具体地：

对训练样本进行目标标定，标定结果存为[x,y,w,h,a]，其中(x,y)是目标中心坐标，(w,h)是目标宽高，(a)是目标的旋转角度；预定义K^L个先验框[p_w,p_h,p_a]，L为特征金字塔的层数，先验框以宽高(p_w,p_h)信息从小到大进行排序，p_a为先验框的角度。

在一个具体实施例中，如图1所示，定义K^L为18，L为3，其中(p_w,p_h)∈{(10,13)，(16,30)，(33,23)，(30,61)，(62,45)，(59,119)，(116,90)，(156,198)，(373,326)}，p_a∈{0,30,60,90,120,150}(角度)。

将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络Darknet-53，得到预测特征图Z^L，预测特征图大小为N^L×W^L×H^L×K^L×(6+C)，其中N^L为训练图像的批处理数量，(W^L,H^L)为预测特征图的大小，K^L为先验框个数，L为特征金字塔的层数，C为识别的类别数。

在一个具体实施例中，I的值为416。

在预测特征图Z^L的每个位置对每个先验框预测5个坐标[t_x,t_y,t_w,t_h,t_a]和t_o，t_o判断当前先验框是否是目标，目标框的预测通过如下函数计算：

b_x＝σ(t_x)+c_x (1)

b_y＝σ(t_y)+c_y (2)

b_a＝tan^-1(t_a)+p_a (5)

Pr(object)*ArIOU(b,object)＝σ(t_o) (6)

其中

除了角度参数和B相同，其他坐标参数和A相同，∪和∩是计算两个框并集和交集的布尔运算。

根据公式(1-6)推倒计算训练误差，误差采用均方差函数计算得到，并反馈到网络中，对网络中的权重参数进行梯度下降优化，误差计算公式如下所示：

其中，N为所有匹配的先验框的个数，

为特征金字塔的每层误差值，其计算如下：

由公式(1-5)计算得到，

为网络预测得到的值；smooth_L2代表L₂损失计算函数；本发明中th_ArIOU的值为0.5。

重复(2)、(3)、(4)直至总体误差L_all达到一个较为稳定的值，则停止训练。

进行视觉预测作业，具体如下：

将训练图像按固定的宽高比进行缩放填充到I×I大小输入训练网络Darknet-53，得到预测特征图Z^L，根据预测特征图中的每个位置对先验框预测的5个坐标[t_x,t_y,t_w,t_h,t_a]，通过公式(1-5)计算相应的实际预测目标框的坐标位置[b_x,b_y,b_w,b_h,b_a]以及置信度σ(t_o)，当σ(t_o)>th_o时，认为该预测框含有目标，反之剔除该预测框，将特征金字塔得到的所有预测目标框的坐标位置进行合并；本发明中th_o的值为0.1。

将所有的预测目标框的坐标位置信息进行NMS(non-maximum suppression，非极大值抑制)处理，此时计算重叠目标框的距离时采用如下公式：

其中，IOU的计算不考虑目标框的角度因素，只考虑宽高以及位置信息，当IOU的值大于0.5时，认为当前两个目标框表示的是同一个物体，因此删除置信度较低的预测框。

经过上述两步计算，将剩余的预测目标框进行输出绘制到原始图像中。

通过以上描述可以发现，本发明一种基于复合金字塔的旋转目标检测方法，通过加入角度信息的误差计算，对损失函数进行约束，使得网络能够输出带有角度信息的目标框，能实现在复杂的环境场景下对旋转目标的检测。利用复合金字塔特征对目标进行分析，提高了远小目标的识别率。

以上对本发明的技术方案进行了充分描述，需要说明的是，本发明的具体实施方式并不受上述描述的限制，本领域的普通技术人员依据本发明的精神实质在结构、方法或功能等方面采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。