CN112464704B

CN112464704B - 一种基于特征融合与旋转目标检测器的遥感图像识别方法

Info

Publication number: CN112464704B
Application number: CN202011083850.4A
Authority: CN
Inventors: 田秋红; 康宇哲; 杨慧敏; 孙文轩
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2023-10-31
Anticipated expiration: 2040-10-12
Also published as: CN112464704A

Abstract

本发明公开了一种基于特征优化与旋转目标检测的遥感图像识别方法。将采集到的遥感图像输入到Inception‑Resnet网络进行位置特征的提取，得到五组关键节点特征图，将五组关键节点特征图输入到自动化特征融合网络进行特征信息的自动化融合，得到融合后位置特征图；然后将融合后位置特征图输入RPN网络中得到目标的水平位置，通过水平位置对五组特征图进行裁剪得到裁剪后的特征图，再将裁剪后的特征图输入到旋转目标检测器中，对遥感图像的目标的坐标进行旋转回归，最终得到遥感图像中目标的精确坐标。本发明具有较高的检测效率可有效识别非水平放置且分辨率较小的遥感图像目标，识别精度高，鲁棒性强。

Description

一种基于特征融合与旋转目标检测器的遥感图像识别方法

技术领域

本发明涉及卷积神经网络目标检测模型，尤其是涉及小目标、非水平放置的遥感图像目标检测方法。

背景技术

在遥感图像的分析过程中经常需要对拍摄的遥感图像目标进行目标检测和类别划分，由于拍摄角度、拍摄分辨率和焦距等问题，遥感图像目标的分辨率较小难以进行有效检测、且遥感图像目标大多为非水平排列。因此有效地对遥感图像目标进行检测与分类是遥感图像分析的首要前提。

目前的遥感图像目标检测方法主要有SIFT特征匹配算法、基于卷积神经网络的目标检测算法。SIFT通过提供类似的图像使用特征匹配得到概率较高的点位，并计算出最大外接矩形得到遥感图像目标的坐标。该方法检测速度较快，不需要构建模型，但检测准确率较低受光线和图像对比度影响较大；基于卷积神经网络的目标检测算法。该方法采用特征提取的最后输出层作为图像目标的位置特征，并采用RPN进行目标检测得到位置坐标。该方法受光照条件影响比较小，可以比较精确识别水平放置的目标但无法有效检测像素面积较小的目标且非水平目标检测效率较低。

发明内容

针对遥感图像目标携带特征较少，因此在卷积过程很容易丢失重要的语义信息并且在模型训练过程中产生梯度弥散或梯度爆炸等问题。本发明的目的在于设计一种准确高效的特征提取网络专门用于提取遥感图像目标的特征信息，并改进一种含有旋转维度的目标检测器用于检测非水平放置且排列密集的遥感图像目标。

本发明解决其技术问题所采用的技术方案是：

将采集到的遥感图像输入到本发明构建的网络中，首先是Inception-Resnet 网络即初始残差网络进行位置特征的提取，得到五组关键节点特征图，将五组关键节点特征图输入到自动化特征融合网络进行特征信息的自动化融合，得到融合后位置特征图；然后将融合后位置特征图输入RPN网络中得到目标的水平位置，通过水平位置对五组特征图进行裁剪得到裁剪后的特征图，再将裁剪后的特征图输入到旋转目标检测器中，对遥感图像的目标的坐标进行旋转回归，最终得到遥感图像中目标的精确坐标。

所述的目标为遥感图像中的待定位建筑物或者交通工具等。

所述遥感图像具体为无人机或者卫星采集到的图像。

首先将无人机或者卫星采集到的图像输入到Inception-Resnet模块中进行位置特征的提取，在位置特征提取过程中会输出特征提取网络中5个关键节点的特征图。将关键节点的特征图输入到带有强化学习的自动化特征融合网，通过自动化架构搜索找到最佳的特征融合方式，通过该特征融合方式对输出的特征图进行特征优化最终输出优化好的特征图。

将优化好的特征图输入到RPN网络中进行区域候选，再通过感兴趣区域池化ROIPooling得到遥感图像目标水平位置，通过目标的水平位置对特征图进行裁剪处理，将裁剪后的特征图输入到旋转目标检测器中进行倾斜位置坐标的回归。

并建立旋转目标的交并比计算函数RIOU，将交并比计算函数RIOU添加到旋转目标检测器中的检测框回归损失计算过程中以减少损失陡增的情况，最终得到遥感图像目标的精确8维度位置坐标。

所述的Inception-Resnet网络中包括了5个残差网络A模块 (Inception-resnet-A)、1个还原模块A(Reduction-A)、10个残差网络B模块 (Inception-resnet-B)、1个还原模块B(Reduction-B)和5个残差网络C模块 (Inception-resnet-C)；选取残差网络A模块(Inception-resnet-A)的第5层卷积层、还原模块A(Reduction-A)的输出层、残差网络B模块(Inception-resnet-B) 的第10层卷积层、还原模块B(Reduction-B)的输出层、残差网络C模块 (Inception-resnet-C)的第5层卷积层作为关键节点，采集获得五个关键节点的输出作为五组关键节点特征图，五组关键节点特征图尺寸归一化后输入自动化搜索网络进行特征融合。

所述的自动化特征融合网络为带有强化学习的自动化特征融合网络，本发明方法将其称为LNASNet，自动化特征融合网络主要由多个融合模块Merge Module构成；按照Inception-Resnet网络中后处理输出的顺序对五组关键节点特征图进行排序：相邻两组关键节点特征图输入到一个融合模块Merge Module处理获得融合后的特征图；先通过四个融合模块Merge Module对五组关键节点特征图的相邻两组分别进行融合处理获得四个第一融合特征图，再通过三个融合模块Merge Module对四个第一融合特征图的相邻两组分别进行融合处理获得三个第二融合特征图，再通过两个融合模块Merge Module对三个第二融合特征图的相邻两组分别进行融合处理获得两个第三融合特征图，再通过一个融合模块Merge Module对两个第三融合特征图分别进行融合处理获得一个第四融合特征图，第四融合特征图作为融合后位置特征图；

每个融合模块Merge Module中，包括了最大池化层、第一卷积层和第二卷积层，在输入的相邻两组特征图中，以Inception-Resnet网络中对应较先处理输出的特征图作为低阶输入特征图，以Inception-Resnet网络中对应较后处理输出的特征图作为高阶输入特征图；高阶输入特征图经最大池化层后的输出和高阶输入特征图自身进行元素相乘操作获得第一中间特征图，第一中间特征图和高阶输入特征图自身进行元素相加操作后获得第二中间特征图，第二中间特征图和低阶输入特征图分别经第一卷积层、第二卷积层处理后再经元素相乘操作获得第三中间特征图，第三中间特征图和和高阶输入特征图自身进行元素相加操作后输出融合后的特征图。

融合模块Merge Module对于不同阶的语义特征图在元素相加的基础上会做一个分支送入一个最大池化中，加入这个最大池化是为了提高感受野的大小以避免遥感图像中较小目标特征在融合过程中丢失。

所述的RPN网络和旋转目标检测器相融合连接，具体拓扑结构包括第三卷积层、四个第四卷积层、第五卷积层、两次通道数转换Reshape、归一化指数函数softmax、区域候选proposal、感兴趣区域池化模块、位置坐标回归和目标类型回归；

融合后位置特征图分别输入到第三卷积层和感兴趣区域池化模块中，第三卷积层的输出分别输入到四个第四卷积层，其中第一个第四卷积层的输出经通道数转换Reshape操作后和第二个第四卷积层的输出一起输入到归一化指数函数softmax，归一化指数函数softmax的输出再依次经通道数转换Reshape、区域候选proposal后输入到感兴趣区域池化模块，感兴趣区域池化模块对输入的融合后位置特征图进行剪裁，剪裁结果分别进行位置坐标的回归、目标类型的回归，获得裁剪后特征图，然后将裁剪后特征图输入到旋转目标检测器中；

第三个第四卷积层的输出经第五卷积层处理后和第四个第四卷积层的输出一起输入到相加层进行像素相加操作获得融合特征图，然后将融合特征图图也输入到旋转目标检测器中；

经旋转目标检测器处理输出最终的带有目标位置坐标和类型的标注图像结果。

所述的旋转目标检测器处理过程中，输出目标位置坐标和类型的预测框，在训练时，预测框和预先已知获得的实际框之间建立以下公式的旋转目标的交并比计算函数RIOU，如下：

其中，λ₁与λ₂为第一、第二参数变量；IOU′表示求导后的比值IOU，比值 IOU表示预测框和实际框求交集的面积与预测框和实际框求并集的面积的比值，θ表示旋转角度因子。

本发明具有的有益效果是：

(1)在特征融合方面采用自动化搜索特征融合方法，降低了模型冗余，提高了特征提取的效率，降低推断计算量。

(2)在水平目标检测器中加入旋转维度，并设计旋转检测框IoU计算方法。该方法可有效识别倾斜排列的遥感图像目标。

综合而言，本发明具有较高的检测效率可有效识别非水平放置且分辨率较小的遥感图像目标，识别精度高，鲁棒性强。

附图说明

图1为基于特征优化与旋转目标检测的遥感图像识别方法运行流程图；

图2为裁剪后的Inception-Resnet模块；

图3为LNASNet结构图；

图4为Merge Module结构图；

图5为旋转维度示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1所示，本发明实施例子的具体实现过程和情况如下：

(1)本发明将特征优化自动化架构搜索的搜索空间限制在特征融合阶段，特征提取网络采用Inception-Resnet网络即初始残差网络作为骨干网络。本发明在 Inception-Resnet网络中设置了5个关键节点，分别在残差网络A模块 (Inception-resnet-A)第5层、还原模块A(Reduction-A)输出层、残差网络B 模块(Inception-resnet-B)第层10层、还原模块B(Reduction-B)输出层、还原模块B(Reduction-B)输出层、残差网络C模块(Inception-resnet-C)第层5 层。Inception-Resnet网络如图2所示。本发明选取特征输出层中尺寸最大的一层作为标准的输入尺寸即17×17。其他特征输出层通过1×1反卷积方法将特征图尺寸归一化为17×17大小，将5个关键节点的特征图尺寸归一化以后就可以送入自动化特征融合网络进行特征融合的设计。

自动化搜索网络本发明称之为LNAS，将关键节点的特征图输入到带有强化学习的自动化特征融合网，通过自动化架构搜索找到最佳的特征融合方式，通过该特征融合方式对输出的特征图进行特征优化最终输出优化好的特征图。

(2)在参数的设计上将LNAS的输入维度调整为17×17×10493，以适应5 个关键节点特征图的输入尺寸。同时为了避免自动化特征融合过程中机器进行单纯的高阶和低阶特征相加，引入了Attention注意力机制并将该机制封装为一个独立的模块进行调用在此命名为Merge Module其结构如图4所示，对于不同阶的语义特征图在元素相加的基础上会做一个分支送入一个最大池化中，加入这个最大池化是为了提高感受野的大小以避免遥感图像中较小目标特征在融合过程中丢失。

(3)在设计完成Merge Module模块后将它与(1)中的Inception-Resnet网络相结合，最终的结构如图3所示，最右侧输出为自动化特征融合以后的融合特征图。

(4)将融合以后的特征图输入到区域候选网络中，为在目标检测器中实现检测框旋转回归，本发明在通用损失函数Smooth-L1的基础上添加旋转因子θ与目标的高度h，目标宽度w如图5所示。使用五个参数(x，y，w，h，θ)表示任意方向的长方形，θ的范围限制在[П/2，0]之间为锐角，其旋转边界框公式为(1)。

其中，x，y，w，h，θ表示框的中心坐标，宽度，高度和角度。x_a、y_a、w_a、h_a、θ_a分别表示候选框的中心坐标，宽度，高度和角度，t_x、t_y、t_w、t_h、t_θ分别表示候选框的中心坐标，宽度，高度和角度的偏移量。

任意四边形的IOU计算公式如(2)其中sbox为目标的实际坐标(8维度)，dbox 为目标的预测坐标通道数，与sbox相同，inter_area为相交区域union_area为不相交区域，polygon为多边形相交填充函数。

poly1＝Polygon(sbox)poly2＝Polygon(dbox)

nter_area＝poly1∪poly2

union_area＝MultiPoint(union_poly)

iou＝nter_area/union-area (2)

式中，poly1、poly2分别表示实际目标的位置坐标向量，Polygon()表示预测目标的位置坐标向量，len(poly)表示坐标向量长度，poly表示坐标向量， poly1ⁿ、poly2ⁿ分别表示对坐标向量取n次幂，n表示两个区域交点的数量， MultiPoint(union_poly)表示计算两个四边形相并区域的面积，nter_area、 union_area、union_pol y分别表示两个四边形相并区域的面积，两四边形相交区域的面积，iou表示两个任意角度四边形的交并比。

在计算IOU以后，对IOU进行求导得到IOU′。由于IOU变化曲线与λ₁lnθ-θ和θ-λ₂lnθ相似，其中λ₁与λ₂为两个变量在训练过程中进行回归。损失函数微调RIOU，其计算公式如(3)：

多维度损失函数定义如下(4)：

式中，t′_n表示前景固定值取1，v′_nj表示预测偏移向量，v_nj表示真实目标向量，N表示目标对象类别，n表示预测目标对象类别，j表示通道数，t_n表示对象的标签类别，p_n表示类别概率，L_cls()表示损失计算函数，本发明使用 Smooth-L1。

本发明设计的多角度旋转目标检测器，实在区域候选网络基础上构建的，为节约计算成本它与区域候选网络共享特征图，因此Feature Map与(3)中的相同，同时使用区域候选网络输出的预测坐标、预测类别作为多角度旋转检测器的输入，通过增加了焦点损失的Smooth-L1作为损失函数。其中添加1×1卷积以增加特征图的非线性特征增加网络的深度。最终得到8维度的遥感目标位置信息并标注在原图上。

至此完成本发明。

Claims

1.一种基于特征融合与旋转目标检测器的遥感图像识别方法，其特点在于：

将采集到的遥感图像输入到Inception-Resnet网络进行位置特征的提取，得到五组关键节点特征图，将五组关键节点特征图输入到自动化特征融合网络进行特征信息的自动化融合，得到融合后位置特征图；然后将融合后位置特征图输入RPN网络中得到目标的水平位置，通过水平位置对五组特征图进行裁剪得到裁剪后的特征图，再将裁剪后的特征图输入到旋转目标检测器中，对遥感图像的目标的坐标进行旋转回归，最终得到遥感图像中目标的精确坐标；

所述的自动化特征融合网络为带有强化学习的自动化特征融合网络，自动化特征融合网络主要由多个融合模块Merge Module构成；按照Inception-Resnet网络中后处理输出的顺序对五组关键节点特征图进行排序：相邻两组关键节点特征图输入到一个融合模块Merge Module处理获得融合后的特征图；先通过四个融合模块Merge Module对五组关键节点特征图的相邻两组分别进行融合处理获得四个第一融合特征图，再通过三个融合模块Merge Module对四个第一融合特征图的相邻两组分别进行融合处理获得三个第二融合特征图，再通过两个融合模块Merge Module对三个第二融合特征图的相邻两组分别进行融合处理获得两个第三融合特征图，再通过一个融合模块Merge Module对两个第三融合特征图分别进行融合处理获得一个第四融合特征图，第四融合特征图作为融合后位置特征图；每个融合模块Merge Module中，包括了最大池化层、第一卷积层和第二卷积层，在输入的相邻两组特征图中，以Inception-Resnet网络中对应较先处理输出的特征图作为低阶输入特征图，以Inception-Resnet网络中对应较后处理输出的特征图作为高阶输入特征图；高阶输入特征图经最大池化层后的输出和高阶输入特征图自身进行元素相乘操作获得第一中间特征图，第一中间特征图和高阶输入特征图自身进行元素相加操作后获得第二中间特征图，第二中间特征图和低阶输入特征图分别经第一卷积层、第二卷积层处理后再经元素相乘操作获得第三中间特征图，第三中间特征图和和高阶输入特征图自身进行元素相加操作后输出融合后的特征图。

2.根据权利要求1所述的一种基于特征融合与旋转目标检测器的遥感图像识别方法，其特征在于：

所述的Inception-Resnet网络中主要由5个残差网络A模块、1个还原模块A、10个残差网络B模块、1个还原模块B和5个残差网络C模块构成；选取残差网络A模块的第5层卷积层、还原模块A的输出层、残差网络B模块的第10层卷积层、还原模块B的输出层、残差网络C模块的第5层卷积层作为关键节点，采集获得五个关键节点的输出作为五组关键节点特征图，五组关键节点特征图尺寸归一化后输入自动化搜索网络进行特征融合。

3.根据权利要求1所述的一种基于特征融合与旋转目标检测器的遥感图像识别方法，其特征在于：

融合后位置特征图分别输入到第三卷积层和感兴趣区域池化模块中，第三卷积层的输出分别输入到四个第四卷积层，其中第一个第四卷积层的输出经通道数转换Reshape操作后和第二个第四卷积层的输出一起输入到归一化指数函数softmax，归一化指数函数softmax的输出再依次经通道数转换Reshape、区域候选proposal后输入到感兴趣区域池化模块，感兴趣区域池化模块对输入的融合后位置特征图进行剪裁，剪裁结果分别进行位置坐标的回归、目标类型的回归，获得裁剪后特征图，然后将裁剪后特征图输入到旋转目标检测器中；第三个第四卷积层的输出经第五卷积层处理后和第四个第四卷积层的输出一起输入到相加层进行像素相加操作获得融合特征图，然后将融合特征图图也输入到旋转目标检测器中；经旋转目标检测器处理输出最终的带有目标位置坐标和类型的标注图像结果。

4.根据权利要求1所述的一种基于特征融合与旋转目标检测器的遥感图像识别方法，其特征在于：所述的旋转目标检测器处理过程中，输出目标位置坐标和类型的预测框，在训练时，预测框和实际框之间建立以下公式的旋转目标的交并比计算函数，如下：

其中，/>与/>为第一、第二参数变量；/>表示求导后的比值IOU，比值IOU表示预测框和实际框求交集的面积与预测框和实际框求并集的面积的比值，/>表示旋转角度因子。