CN113095316B

CN113095316B - 基于多级融合和角点偏移的图像旋转目标检测方法

Info

Publication number: CN113095316B
Application number: CN202110403036.4A
Authority: CN
Inventors: 李珺; 侯彪; 焦李成; 王爽; 任博; 任仲乐; 马晶晶; 马文萍
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2023-04-07
Anticipated expiration: 2041-04-15
Also published as: CN113095316A

Abstract

本发明提出一种基于多级融合和角点偏移的遥感图像旋转目标检测方法，用于解决现有技术中存在的不同尺度目标的检测准确度低和检测过程运行速度慢的技术问题。本发明的实现步骤为：1、获取每个目标的旋转标注框的最小外接矩形；2、生成训练集；3、构建深度全卷积神经网络；4、训练深度全卷积神经网络；5、对图像中的旋转目标进行检测；6、对旋转目标的边框进行后处理；7、将所有目标的最终旋转检测框绘制到图像中对应的位置，得到检测结果图。本发明能够更好地区分图像中不同尺度目标，减少误检，提高了图像目标检测后目标框的精度。

Description

基于多级融合和角点偏移的图像旋转目标检测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及遥感图像和自然图像目标检测中的一种多级融合和角点偏移的图像旋转目标检测方法。本发明可用于对遥感图像和自然图像中的旋转目标进行检测。

背景技术

遥感图像与自然图像相比较，遥感图像中目标的尺度变化范围较大。在不同的分辨率下，同一个目标的尺寸变化较大，在相同分辨率下，不同目标的尺寸差异也较大。为了能够更准确的区分不同尺度的目标的特征，将不同层级的特征进行合理的融合可以使每个层级在保留当前层级目标特征的基础上兼顾其他层级的目标特征，从而更有效的区分不同尺度的目标。在自然图像中，由于拍摄的设备往往是相机、监控等由手持或者相对固定的设备，拍摄到的物体也往往都是垂直于地面，从而在图像中处于一种基本水平和垂直的位置。因此，在自然图像中，往往通过不同尺寸的水平矩形来定位目标。然而，在遥感图像中，由于遥感图像的拍摄方式与自然图像有很大不同，其俯视角度的拍摄使得很多需要检测的目标朝向各异，因此在遥感图像的目标检测当中，采用旋转矩形框一方面可以确定出目标的朝向，另一方面更贴合目标物体的边框也能使对物体尺寸的计算更准确。

湖南大学在其申请的专利文献“一种图像语义特征约束的遥感目标检测方法”(专利申请号：202011018965.5，申请公布号：CN112101277A)中提出了一种遥感图像旋转目标检测方法。该方法采用了特征金字塔网络，通过双线性插值将高层级特征进行二倍上采样后与前一层级特征相加进行融合。通过在水平框参数的基础上加入角度参数来回归旋转框，并预设大量的旋转锚点。该方法存在两点不足之处是，其一，在对多层级特征进行融合的过程当中，只将高层级特征合并到低层级特征进行了单向融合，低层级特征没有合并到高层级特征中，从而使得低层级特征在高层级特征中的区分度不够，容易出现误检。其二，相比较于水平框目标检测任务中预设水平框锚点的方法，预设的旋转锚点的数量和计算量都增加了数倍，导致了算法需要消耗的硬件资源大。

Yongchao Xu等人在其发表的论文“Gliding vertex on the horizontalbounding box for multi-oriented object detection”(IEEE模式分析与机器智能汇刊TPAMI IEEE Transactions on Pattern Analysis and Machine Intelligence 2019年)中提出了一种基于水平包围盒滑动顶点的遥感图像旋转目标检测方法。该方法在不引入角度参数、只设置水平框锚点的情况下，实现了更高效的旋转目标检测。该方法通过在传统的水平框回归的基础上，预测旋转框四个顶点相对于目标外接水平框的四个顶点的偏移量。该方法在通过特征网络提取的特征图上应用区域建议网络生成候选旋转框，区域建议网络输出候选旋转框的中心坐标偏移量、外接水平矩形长、宽相对比例和四个顶点的偏移量等参数，然后根据区域建议网络生成的旋转矩形区域，在特征图上提取对应图像特征应用分类网络进行分类。这种方法只需要与自然图像中水平目标检测的预设锚点相同数量的锚点，而不需要像用角度参数描述旋转框一样设置更多的锚点。因此，该方法相对于角度回归方法具有更快的速度。但是，该方法仍然存在两点不足之处是，其一，在实际场景下，预测旋转框四个顶点的偏移量往往导致得到的旋转框不是严格意义的矩形，从而在与实际标注计算精度时会带来一定误差，导致精度低。在获取目标尺寸和朝向等下游任务上，同样导致了不准确。其二，由于两阶段目标检测网络架构的速度相对于单阶段检测网络较慢，运行效率低。

发明内容

本发明的目的在于针对上述现有技术存在的缺陷，提出一种基于多级融合和角点偏移的图像旋转目标检测方法，用于解决现有技术中存在的检测精度低和检测过程运行效率低、硬件资源大的问题。

实现本发明目的的思路是，确定每个目标的旋转标注框的最小外接矩形及其上顶点和左顶点，据此根据最小外接矩形及其上顶点和左顶点计算得到的每张图像的标签集中的元素准确，用所有图像和图像对应的标签集组成的训练集。搭建一个卷积核总数少的深度全卷积神经网络，由于卷积核总数少带来设置的参数少，从而减少了网络中各层之间的计算量，使得检测过程运行效率高、硬件资源消耗少。多级融合网络对主干网络提取的特征进行双向融合，充分利用不同等级的特征信息，提高低层级特征在高层级特征中的区分度，能够更好地区分图像中不同尺度目标，减少误检。对于得到的旋转检测框不规则、精度计算存在误差的问题，对目标的旋转检测框进行校正，使检测框的形状规则，提升检测框的精度。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取每个目标的最小外接矩形：

(1a)至少选取2000张含有目标的图像，每张图像中至少含有一个带有旋转标注框的目标，且每个目标至少有一个类别；

(1b)利用多边形最小外接矩形算法，得到每个目标的旋转标注框的最小外接矩形；

(2)生成训练集：

(2a)确定最小外接矩形的上顶点和左顶点；

(2b)利用角点偏移公式，计算最小外接矩形上顶点横坐标值相对所有顶点最小横坐标值的横偏移量和最小外接矩形左顶点纵坐标值相对所有顶点最小纵坐标值的纵偏移量；

(2c)将每个目标的最小外接矩形所有顶点横坐标的平均值和纵坐标的平均值作为该目标的中心坐标值，将最小外接矩形所有顶点横坐标中的最大值与横坐标最小值的差作为该目标的宽，将最小外接矩形所有顶点纵坐标中的最大值与纵坐标最小值的差作为该目标的高；

(2d)将每张图像中所有目标的类别、横偏移量、纵偏移量、中心坐标值、宽和高组成该图像的标签集；

(2e)将选取的所有图像和图像对应的标签集组成训练集；

(3)构建深度全卷积神经网络：

(3a)搭建一个主干网络以提取图像的特征，其结构依次为：输入层，卷积层，池化层，第一瓶颈组，第二瓶颈组，第三瓶颈组，第四瓶颈组；将卷积层的卷积核尺度设置为3*3，卷积核个数设置为64；池化层的池化核尺度设置为3*3；

所述第一瓶颈组由第一到第九共九个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接；将第一、第三、第四、第六、第七、第九卷积层的卷积核尺度均设置为1*1，卷积核个数均设置为64；将第二、第五、第八卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为256；

第二瓶颈组由第一到第十二共十二个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接，第十卷积层还与第十二卷积层连接；将第一、第三、第四、第六、第七、第九、第十、第十二卷积层的卷积核尺度均设置为1*1，卷积核个数均设置为128；将第二、第五、第八、第十一卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为512；

第三瓶颈组由第一到第十八共十八个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接，第十卷积层还与第十二卷积层连接，第十三卷积层还与第十五卷积层连接，第十六卷积层还与第十八卷积层连接；将第一、第三、第四、第六、第七、第九、第十、第十二、第十三、第十五、第十六、第十八卷积层卷积核的尺度均设置为1*1，卷积核个数均设置为256；将第二、第五、第八、第十一、第十四、第十七卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为1024；

第四瓶颈组由第一到第九共九个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接；将第一、第三、第四、第六、第七、第九卷积层的卷积核尺度均设置为1*1，卷积核个数均设置为512；将第二、第五、第八卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为2048；

(3b)搭建一个由四个结构相同的融合模块串联组成的多级融合网络，实现对主干网络提取的特征进行双向融合；每个融合模块结构为：第一输入层分别与第一卷积层和第二卷积层连接，第二输入层分别与第二卷积层和第三卷积层连接，第三输入层分别与第四卷积层和第五卷积层连接，第四输入层分别与第六卷积层和第七卷积层连接，第五输入层与第八卷积层连接，第二卷积层分别与第三卷积层和第四卷积层连接，第三卷积层与第一卷积层连接，第四卷积层分别与第五卷积层和第六卷积层连接，第五卷积层与第三卷积层连接，第六卷积层分别与第七卷积层和第八卷积层连接，第七卷积层与第五卷积层连接；将所有卷积层的卷积核尺度均设置为3*3个节点，卷积核个数均设置为256；

(3c)将主干网络与多级融合网络连接后再分别与分类子网络和回归子网络连接，得到深度全卷积神经网络；

(4)训练深度全卷积神经网络：

将训练集输入到深度全卷积神经网络中进行迭代训练，直至网络的损失函数收敛为止，得到训练好的深度全卷积神经网络；

(5)对图像中的旋转目标进行检测：

用切割间隔为512、大小为1024×1024的矩阵窗口，对待检测图像进行切块处理，将切块处理后的图像块依次输入到训练好的深度全卷积神经网络中，依次输出每个图像块中每个目标旋转检测框和类别；

(6)对旋转目标的边框进行后处理：

(6a)利用与步骤(1b)相同算法，将得到的每个目标旋转检测框的最小外接矩形作为该目标校正后的旋转检测框；

(6b)利用非极大值抑制算法，对每个目标校正后的旋转检测框进行去重处理，得到该目标最终旋转检测框；

(7)将所有目标的最终旋转检测框绘制到图像中对应的位置，得到检测结果图。

本发明与现有的技术相比具有以下优点：

第一，由于本发明在生成训练集时，需要确定每个目标的旋转标注框的最小外接矩形及其上顶点和左顶点，据此根据最小外接矩形及其上顶点和左顶点计算得到的每张图像的标签集中的元素准确，克服了现有技术中无法修正每张图像的标签集中不准确的元素的问题，使得本发明能够修正每张图像的标签集中不准确的元素使其准确，从而使得经该训练集训练好的网络检测的目标框位置更准确。

第二，由于本发明构建的深度全卷积神经网络的卷积核总数少，由此带来设置的参数少，从而减少了网络中各层之间的计算量，克服了现有技术中对图像中的目标进行检测的方法执行效率低、硬件资源消耗大的问题，使本发明中对图像中的目标进行检测的执行效率高、硬件资源消耗小。

第三，由于本发明构建的深度全卷积神经网络中使用多级融合网络对主干网络提取的特征进行双向融合，能够充分利用不同等级的特征信息，提高低层级特征在高层级特征中的区分度，克服了现有技术中对图像中的目标进行检测容易出现误检的问题，使得本发明能够更好地区分图像中不同尺度目标，减少误检。

第四，由于本发明对检测得到的旋转目标的边框再次进行后处理，使旋转目标的边框规则，克服了现有技术中由于检测得到的旋转框不是严格意义的矩形，在与实际标注计算精度时会带来误差，导致精度低的问题，使得本发明提高了图像目标检测后目标框的精度。

附图说明

图1是本发明的流程图；

图2是本发明仿真图。

具体实施方式

下面结合附图对本发明做进一步的详细描述。

参照附图1，对本发明的步骤做进一步的详细描述。

步骤1.获取每个目标的旋转标注框的最小外接矩形。

至少选取2000张含有目标的图像，每张图像中至少含有一个带有旋转标注框的目标，且每个目标至少有一个类别。

利用下述的多边形最小外接矩形算法，得到每个目标的旋转标注框的最小外接矩形。

第1步，以图像的左上角顶点作为原点建立一个平面直角坐标系。

第2步，平移旋转标注框直到四个顶点中任意一个顶点与坐标系原点重合，平移后的旋转标注框四个顶点坐标值如下。

x′_i＝x_i-x₀，y′_i＝y_i-y₀

其中，x′_i表示旋转标注框的第i个顶点平移后的横坐标值，x_i表示旋转标注框的第i个顶点平移前的横坐标值，x₀表示与原点重合的顶点平移前的横坐标值，y′_i表示旋转标注框的第i个顶点平移后的纵坐标值，y_i表示旋转标注框的第i个顶点平移前的纵坐标值，y₀表示与原点重合的顶点平移前的纵坐标值。

第3步，按照下式，分别以四个不同的角度将平移后的旋转标注框绕原点逆时针旋转，每次旋转后标注框的顶点坐标值如下：

rx_i，j＝x′_icosθ_j-y′_isinθ_j，ry_i，j＝x′_isinθ_j+y′_icosθ_j

其中，rx_i，j表示旋转标注框以第j个角度θ_j旋转后第i个顶点的横坐标值，θ_j表示第j个旋转的角度，j＝1，2，3，4，每个旋转角度值为旋转前的标注框的第m条边与平面直角坐标系横轴的夹角大小，m的取值与j的取值对应相等，x′_i表示旋转标注框以第j个角度θ_j旋转前的第i个顶点的横坐标值，cos表示求余弦操作，y′_i表示旋转标注框以第j个角度θ_j旋转前的第i个顶点的纵坐标值，sin表示求正弦操作，ry_i，j表示旋转标注框以第j个角度θ_j旋转后的第i个顶点的纵坐标值。

第4步，分别将旋转后的旋转标注框顶点的横、纵坐标的最小值和最大值作为水平外接矩形顶点的横、纵坐标值。

第5步，采用与本步骤第3步相同的方法，以水平外接矩形对应的旋转后的旋转标注框的旋转角度取值相反的角度值，逆时针旋转水平外接矩形。

第6步，采用第2步相同的方法，以与本步骤第2步中的平移相同的平移量、相反的方向平移面积最小的旋转后的水平外接矩形，平移后的水平外接矩形作为多边形最小外接矩形。

步骤2.生成训练集。

按照下述的步骤确定最小外接矩形的上顶点和左顶点。

第1步，当最小外接矩形四个顶点的横坐标值或纵坐标值相等的顶点个数大于2时，执行本步骤第2步，否则执行本步骤第3步。

第2步，选取最小外接矩形中横、纵坐标值均最小的顶点作为最小外接矩形的上顶点，纵坐标值最小且未被选取的顶点为最小外接矩形的左顶点。

第3步，选取最小外接矩形中横坐标值最小的顶点作为最小外接矩形的上顶点；选取最小外接矩形中纵坐标值最小的顶点作为最小外接矩形的左顶点。

利用下述的角点偏移公式，计算最小外接矩形上顶点横坐标值相对所有顶点最小横坐标值的横偏移量和最小外接矩形左顶点纵坐标值相对所有顶点最小纵坐标值的纵偏移量。

O_x＝x_t-x_tl，O_y＝y_bl-y_l

其中，O_x表示最小外接矩形的上顶点横坐标值相对所有顶点最小横坐标值的横偏移量，x_t表示最小外接矩形上顶点的横坐标值，x_tl表示最小外接矩形所有顶点中横坐标的最小值，O_y表示最小外接矩形左顶点纵坐标值相对所有顶点最小纵坐标值的纵偏移量，y_bl表示最小外接矩形所有顶点中纵坐标的最小值，y_l表示最小外接矩形的左顶点纵坐标值。

将每个目标的最小外接矩形所有顶点横坐标的平均值和纵坐标的平均值作为该目标的中心坐标值，将最小外接矩形所有顶点横坐标中的最大值与横坐标最小值的差作为该目标的宽，将最小外接矩形所有顶点纵坐标中的最大值与纵坐标最小值的差作为该目标的高。

将每张图像中所有目标的类别、横偏移量、纵偏移量、中心坐标值、宽和高组成该图像的标签集。

将选取的所有图像和图像对应的标签集组成训练集。

步骤3.构建深度全卷积神经网络。

搭建一个主干网络以提取图像的特征，其结构依次为：输入层，卷积层，池化层，第一瓶颈组，第二瓶颈组，第三瓶颈组，第四瓶颈组；将卷积层的卷积核尺度设置为3*3，卷积核个数设置为64；池化层的池化核尺度设置为3*3。

第一瓶颈组由第一到第九共九个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接；将第一、第三、第四、第六、第七、第九卷积层的卷积核尺度均设置为1*1，卷积核个数均设置为64；将第二、第五、第八卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为256。

第二瓶颈组由第一到第十二共十二个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接，第十卷积层还与第十二卷积层连接；将第一、第三、第四、第六、第七、第九、第十、第十二卷积层的卷积核尺度均设置为1*1，卷积核个数均设置为128；将第二、第五、第八、第十一卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为512。

第三瓶颈组由第一到第十八共十八个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接，第十卷积层还与第十二卷积层连接，第十三卷积层还与第十五卷积层连接，第十六卷积层还与第十八卷积层连接；将第一、第三、第四、第六、第七、第九、第十、第十二、第十三、第十五、第十六、第十八卷积层的卷积核尺度均设置为1*1，卷积核个数均设置为256；将第二、第五、第八、第十一、第十四、第十七卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为1024。

第四瓶颈组由第一到第九共九个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接；将第一、第三、第四、第六、第七、第九卷积层的卷积核尺度均设置为1*1，卷积核个数均设置为512；将第二、第五、第八卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为2048。

搭建一个由四个结构相同的融合模块串联组成的多级融合网络，实现对主干网络提取的特征进行双向融合；每个融合模块结构为：第一输入层分别与第一卷积层和第二卷积层连接，第二输入层分别与第二卷积层和第三卷积层连接，第三输入层分别与第四卷积层和第五卷积层连接，第四输入层分别与第六卷积层和第七卷积层连接，第五输入层与第八卷积层连接，第二卷积层分别与第三卷积层和第四卷积层连接，第三卷积层与第一卷积层连接，第四卷积层分别与第五卷积层和第六卷积层连接，第五卷积层与第三卷积层连接，第六卷积层分别与第七卷积层和第八卷积层连接，第七卷积层与第五卷积层连接；将所有卷积层的卷积核尺度均设置为3*3个节点，卷积核个数均设置为256。

分类子网络的结构依次为：输入层，第一卷积层，第二卷积层，第三卷积层，第四卷积层；将第一至第三卷积层的卷积核个数均设置为256，第四卷积层的卷积核数设置为M，M的取值与待分类的类别个数相等；将第一至第四卷积层卷积核尺度均设置为3*3。

回归子网络的结构依次为：输入层，第一卷积层，第二卷积层，第三卷积层，第四卷积层；将第一至第三积层的卷积核个数均设置为256，第四卷积层的卷积核个数设置为6；将第一至第四卷积层卷积核的尺度均设置为3*3。

将主干网络与多级融合网络连接后再分别与分类子网络和回归子网络连接，得到深度全卷积神经网络。

步骤4.训练深度全卷积神经网络。

将训练集输入到深度全卷积神经网络中进行迭代训练，直至网络的损失函数收敛为止，得到训练好的深度全卷积神经网络。

步骤5.对图像中的旋转目标进行检测。

用切割间隔为512、大小为1024×1024的矩阵窗口，对待检测图像进行切块处理，将切块处理后的图像块依次输入到训练好的深度全卷积神经网络中，依次输出每个图像块中每个目标旋转检测框和类别。

步骤6.对旋转目标的边框进行后处理。

利用与步骤1中相同的多边形最小外接矩形算法，将得到的每个目标旋转检测框的最小外接矩形作为该目标校正后的旋转检测框。

利用非极大值抑制算法，对每个目标校正后的旋转检测框进行去重处理，得到该目标最终旋转检测框。

步骤7.将所有目标的最终旋转检测框绘制到图像中对应的位置，得到检测结果图。

下面结合仿真实验对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel(R)Xeon(R)Gold 5118CPU，主频为2.30GHz，内存125GB。

本发明的仿真实验的软件平台为：18.04.1-Ubuntu操作系统、Python-3.7.9和PyTorch-1.6.0。

本发明仿真实验所使用的图像为公开数据集“关于航空影像中物体检测的大型数据集(DOTA)”中2806张遥感图像，每张图像大小为4000×4000×3个像素，图像格式为png。选取其中图像名称为2020344和2923948的两张图像对数据集中的图像进行展示(图2(a)对应名称为2020344的图像，图2(b)对应名称为2923948的图像)。

2.仿真内容及其结果分析：

本发明的仿真实验有两个，即采用本发明和现有技术(基于水平包围盒滑动顶点的遥感图像旋转目标检测方法)分别对输入的遥感图像进行检测。

在仿真实验中，采用的现有技术(基于水平包围盒滑动顶点的遥感图像旋转目标检测方法，)是指：Yongchao Xu等人在“Gliding vertex on the horizontal boundingbox for multi-oriented object detection”中提出的方法，简称基于水平包围盒滑动顶点的遥感图像旋转目标检测方法。

本发明的两个仿真实验采用相同的训练集和测试集。从“关于航空影像中物体检测的大型数据集(DOTA)”中随机选取2000张的图像，将选取的2000张图像均经过本发明中的步骤1和步骤2处理后组成训练集。再将“关于航空影像中物体检测的大型数据集(DOTA)”中剩余的806张图像组成测试集。

仿真实验1，将本发明仿真实验的训练集输入到深度全卷积神经网络中进行迭代训练，直至网络的损失函数收敛为止，得到训练好的深度全卷积神经网络。将测试集所有图像输入到本发明仿真实验训练好的深度全卷积神经网络中，输出所有目标的旋转检测框。再对每个目标的旋转检测框进行后处理得到每个目标的最终旋转检测框。再将每个目标的最终旋转检测框绘制到图像中对应的位置，得到每张图像的检测结果图。

图2(c)和2(d)分别为图2(a)和2(b)利用本发明方法得到的对应检测结果图，其中，每个白色方框为目标的检测框，表示目标的位置和大小，方框的边应尽可能与目标的朝向平行，从而能够使用方框的朝向表示目标的朝向。

计算由本发明得到的所有目标的最终旋转检测框的精确率，以对检测结果进行评估，统计本发明在每秒内处理的图像数，以对方法的执行效率进行评估。

仿真实验2，将本发明仿真实验的训练集输入到现有技术的基于水平包围盒滑动顶点的遥感图像旋转目标检测方法中的网络进行迭代训练。再将测试集所有图像输入到本发明仿真实验训练好的现有技术的基于水平包围盒滑动顶点的遥感图像旋转目标检测方法的网络中，输出所有目标的旋转检测框。再将所有目标的最终旋转检测框绘制到图像中对应的位置，得到每张图像的检测结果图。

图2(e)和2(f)分别为图2(a)和2(b)利用现有技术的基于水平包围盒滑动顶点的遥感图像旋转目标检测方法得到的对应检测结果图，其中，每个白色方框为目标的检测框，表示目标的位置和大小，方框的边应尽可能与目标的朝向平行，从而能够使用方框的朝向表示目标的朝向。

计算由现有技术的基于水平包围盒滑动顶点的遥感图像旋转目标检测方法得到的所有目标的最终旋转检测框的精确率，以对检测结果进行评估，统计该方法在每秒内处理的图像数，以对方法的执行效率进行评估。

下面结合图2的仿真图对本发明的效果做进一步的描述。

由图2(c)和图2(e)可以看出，本发明的检测结果与现有技术的基于水平包围盒滑动顶点的遥感图像旋转目标检测方法检测结果相比，旋转检测框的朝向更贴近目标的真实朝向，检测框精度更高。由图2(d)和图2(f)可以看出，本发明的检测结果与现有技术的基于水平包围盒滑动顶点的遥感图像旋转目标检测方法检测结果相比，其漏检较少。根据以上两点，证明本发明的检测效果优于现有技术基于水平包围盒滑动顶点的遥感图像旋转目标检测方法，检测效果较理想。

利用三个评价指标(精确率(Precision)、输入图像尺寸、每秒处理帧数(FPS))分别对三种方法的检测结果进行评估。利用下面公式，计算精确率(Precision)，每秒处理帧数(FPS)，将所有计算结果绘制成表1：

表1.仿真实验中本发明和现有技术检测结果的定量分析表

结合表1可以看出，本发明的精确率为80.63％，高于现有技术方法，证明本发明可以得到更高的检测精度。本发明的输入图像尺寸为1024*1024，每秒处理帧数为18，这两个指标均高于现有技术方法，证明本发明可以在更大的输入图像尺寸下达到更高的运行效率。

以上仿真实验表明：本发明方法在生成训练集时，需要确定每个目标的旋转标注框的最小外接矩形及其上顶点和左顶点，据此根据最小外接矩形及其上顶点和左顶点计算得到的每张图像的标签集中的元素准确，能够使本发明具有修正每张图像的标签集中不准确的元素使其准确，从而使以该训练集训练的网络的检测结果准确，构建的深度全卷积神经网络的卷积核总数少，卷积核总数少带来设置的参数少，从而减少了网络中各层之间的计算量，能够使整体参数量和计算量少，运行效率高、硬件资源消耗小，利用深度全卷积神经网络中使用多级融合网络对主干网络提取的特征进行双向融合，能够充分利用不同等级的特征信息，提高低层级特征在高层级特征中的区分度，利用对检测得到的旋转目标的边框进行后处理，能够使旋转目标的边框规则，解决了现有技术方法中无法修正每张图像的标签集中不准确的元素、运行效率低、硬件资源大、容易出现误检、检测精度低的问题，是一种非常实用的图像旋转目标检测方法。

Claims

1.一种基于多级融合和角点偏移的图像旋转目标检测方法，其特征在于，该方法是用生成的训练集对搭建的深度全卷积神经网络进行训练，使用多级融合网络对主干网络提取的特征进行双向融合，使用深度全卷积神经网络的回归子网络和分类子网络分别获取目标的旋转检测框和类别，对目标的旋转检测框进行校正，该方法的具体步骤包括如下：

(1)获取每个目标的旋转标注框的最小外接矩形：

(2)生成训练集：

(2a)确定最小外接矩形的上顶点和左顶点：

第一步，当最小外接矩形四个顶点的横坐标值或纵坐标值相等的顶点个数大于2时，执行第二步，否则，执行第三步；

第二步，选取最小外接矩形中横、纵坐标值均最小的顶点作为最小外接矩形的上顶点，纵坐标值最小且未被选取的顶点为最小外接矩形的左顶点；

第三步，选取最小外接矩形中横坐标值最小的顶点作为最小外接矩形的上顶点；选取最小外接矩形中纵坐标值最小的顶点作为最小外接矩形的左顶点；

(2e)将选取的所有图像和图像对应的标签集组成训练集；

(3)构建深度全卷积神经网络：

第三瓶颈组由第一到第十八共十八个卷积层串联组成，其中，第一卷积层还与第三卷积层连接，第四卷积层还与第六卷积层连接，第七卷积层还与第九卷积层连接，第十卷积层还与第十二卷积层连接，第十三卷积层还与第十五卷积层连接，第十六卷积层还与第十八卷积层连接；将第一、第三、第四、第六、第七、第九、第十、第十二、第十三、第十五、第十六、第十八卷积层的卷积核尺度均设置为1*1，卷积核个数均设置为256；将第二、第五、第八、第十一、第十四、第十七卷积层的卷积核尺度均设置为3*3，卷积核个数均设置为1024；

(4)训练深度全卷积神经网络：

(5)对图像中的旋转目标进行检测：

(6)对旋转目标的边框进行后处理：

2.根据权利要求1所述的基于多级融合和角点偏移的图像旋转目标检测方法，其特征在于，步骤(1b)中所述多边形最小外接矩形算法的步骤如下：

第一步，以图像的左上角顶点作为原点建立一个平面直角坐标系；

第二步，平移旋转标注框直到四个顶点中任意一个顶点与坐标系原点重合，平移后的旋转标注框四个顶点坐标值如下：

x′_i＝x_i-x₀，y′_i＝y_i-y₀

其中，x′_i表示旋转标注框的第i个顶点平移后的横坐标值，x_i表示旋转标注框的第i个顶点平移前的横坐标值，x₀表示与原点重合的顶点平移前的横坐标值，y′_i表示旋转标注框的第i个顶点平移后的纵坐标值，y_i表示旋转标注框的第i个顶点平移前的纵坐标值，y₀表示与原点重合的顶点平移前的纵坐标值；

第三步，按照下式，分别以四个不同的角度将平移后的旋转标注框绕原点逆时针旋转，每次旋转后标注框的顶点坐标值如下：

rx_i,j＝x′_icosθ_j-y′_isinθ_j，ry_i,j＝x′_isinθ_j+y′_icosθ_j

其中，rx_i,j表示旋转标注框以第j个角度θ_j旋转后第i个顶点的横坐标值，θ_j表示第j个旋转的角度，j＝1,2,3,4，每个旋转角度值为旋转前的标注框的第m条边与平面直角坐标系横轴的夹角大小，m的取值与j的取值对应相等，x′_i表示旋转标注框以第j个角度θ_j旋转前的第i个顶点的横坐标值，cos表示求余弦操作，y′_i表示旋转标注框以第j个角度θ_j旋转前的第i个顶点的纵坐标值，sin表示求正弦操作，ry_i,j表示旋转标注框以第j个角度θ_j旋转后的第i个顶点的纵坐标值；

第四步，分别将旋转后的旋转标注框顶点的横、纵坐标的最小值和最大值作为水平外接矩形顶点的横、纵坐标值；

第五步，采用与第三步相同的方法，以水平外接矩形对应的旋转后的旋转标注框的旋转角度取值相反的角度值，逆时针旋转水平外接矩形；

第六步，采用与第二步相同的方法，以与第二步中的平移相同的平移量、相反的方向平移面积最小的旋转后的水平外接矩形，平移后的水平外接矩形作为多边形最小外接矩形。

3.根据权利要求1所述的基于多级融合和角点偏移的图像旋转目标检测方法，其特征在于，步骤(2b)中所述角点偏移公式如下：

O_x＝x_t-x_tl，O_y＝y_bl-y_l

4.根据权利要求1所述的基于多级融合和角点偏移的图像旋转目标检测方法，其特征在于，步骤(3c)中所述分类子网络的结构依次为：输入层，第一卷积层，第二卷积层，第三卷积层，第四卷积层；将第一至第三卷积层的卷积核个数均设置为256，第四卷积层的卷积核数设置为M，M的取值与待分类的类别个数相等；将第一至第四卷积层卷积核尺度均设置为3*3。

5.根据权利要求1所述的基于多级融合和角点偏移的图像旋转目标检测方法，其特征在于，步骤(3c)中所述回归子网络的结构依次为：输入层，第一卷积层，第二卷积层，第三卷积层，第四卷积层；将第一至第三积层的卷积核个数均设置为256，第四卷积层的卷积核个数设置为6；将第一至第四卷积层卷积核的尺度均设置为3*3。