CN112270280A

CN112270280A - 一种基于深度学习的遥感图像中的露天矿场检测方法

Info

Publication number: CN112270280A
Application number: CN202011204160.XA
Authority: CN
Inventors: 朱智勤; 罗柳; 李嫄源; 李鹏华; 李朋龙; 丁忆
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-26
Anticipated expiration: 2040-11-02
Also published as: CN112270280B

Abstract

本发明涉及一种基于深度学习的遥感图像中的露天矿场检测方法，属于目标检测领域。基于Mask R‑CNN网络，在此网络上设计了基于混合注意力的区域生成网络MA‑RPN和基于扩展的特征金字塔网络ET‑FPN，MA‑RPN引入了混合注意力机制，在区域生成网络中添加注意力模块，通过注意力掩码将图片中露天矿场的关键特征标识出来，从而帮助模型学习到需要关注的露天矿场区域；ET‑FPN具有专门用于露天矿场检测的金字塔层，用以提取遥感图像中露天矿场的信息，扩展的特征金字塔层反馈到后续的检测器进一步进行定位和分类。本发明能够在遥感图像中实现露天矿场的检测。

Description

一种基于深度学习的遥感图像中的露天矿场检测方法

技术领域

本发明属于目标检测领域，涉及一种基于深度学习的遥感图像中的露天矿场检测方法。

背景技术

传统的目标检测方法只能在特定场景下有比较好的效果，当光照等环境发生变化时则难以实现比较好的效果，容易出现漏检和误检；此外传统的方法分类的准确率并不高，难以适用于遥感图像中露天矿场的检测，本发明发明了一种专门针对于遥感图像中露天矿场检测的方法，以Mask RCNN网络为基础，在此基础上设计了基于混合注意力的区域生成网络(MA-RPN)和基于扩展的特征金字塔网络(ET-FPN)，本发明发明的深度学习模型对遥感图像中露天矿场的检测具有较好的效果。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度学习的遥感图像中的露天矿场检测方法。

为达到上述目的，本发明提供如下技术方案：

一种基于深度学习的遥感图像中的露天矿场检测方法，该方法包括以下步骤：

1)采集露天矿场的遥感图像，制作露天矿场检测的数据集；

2)构建露天矿场检测的深度学习模型，将遥感图像输入特征提取网络，用以提取特征；

3)将获取的特征图输入到扩展的特征金字塔网络ET-FPN进行处理，提取露天矿场多尺度特征信息；

4)混合注意力的区域生成区域候选网络MA-RPN生成候选区域，采用滑动窗口的方式生成锚框，并对锚框进行分类和边界框回归，基于混合注意力机制提取出感兴趣区域RoI；

5)感兴趣区域对齐层RoIAlign采用非线性插值法将MA-RPN筛选的感兴趣区域与特征提取网络提取的特征图对应区域的特征，得到固定尺寸的特征图；

6)对MA-RPN筛选的感兴趣区域RoI进行分类和边界框的回归，并使用全卷积网络从感兴趣区域预测分割掩膜。

可选的，所述特征金字塔网络ET-FPN满足：

1)特征纹理迁移模块用于超分辨率特征并选取置信度较高的区域特征；

2)设计一种前景和背景之间平衡的损失函数来减轻前景和背景的面积不平衡的问题。

可选的，所述区域候选网络MA-RPN，为区域生成网络引入混合注意力机制，其中混合注意力机制包括空间注意力和通道注意力。

可选的，所述1)具体为：

a)以谷歌地球作为数据源，采集露天矿场遥感图像数据；

b)将采集的图像裁剪为512x512大小并进行数据增强，防止训练时过拟合；

c)使用标注工具对图像进行标注，标注好的数据划分为训练集和测试集。

可选的，所述2)具体为：

a)以残差模块构成的特征提取网络为骨干网络，用来提取特征；

b)扩展的特征金字塔网络ET-FPN提取露天矿场多尺度特征信息；扩展的特征金字塔网络ET-FPN框架中：A_i表示特征提取网络中第i阶段的特征图，B_i表示ET-FPN上的各个特征金字塔层；

特征纹理迁移模块输入特征B₃的主要语义内容首先由内容提取器提取，纹理提取器从主流特征和参考特征的组合中选择可靠的区域纹理用于露天矿场检测，通过残差连接将纹理和高分辨的内容特征融合在一起，为ET-FPN生成B'₃层；

特征纹理迁移模块的主要输入是ET-FPN第三层特征图B₃，参考ET-FPN第四层特征图B₂，输出B'₃定义为：

B'₃＝P_t(B₂||P_c(B₃)↑2×)+P_c(B₃)↑2×

在训练模型中，正样本特征图误差定义为：

全局特征图误差定义为：

L_全局(F,F^t)＝||F^t-F||₁

前景和背景之间平衡的损失函数定义为：

L_前-背(F,F^t)＝L_全局(F,F^t)+λL_正(F,F^t)

总损失函数：

L_总＝L_前-背(B'₃,B₃↑2×)+L_前-背(B'₂,B₂↑2×)

其中P_t表示纹理提取器，P_c表示内容提取器，↑2×表示2倍上采样操作，L_总分别来自B'₃-B₃层特征图差和B'₂-B₂层特征图误差；

c)使用混合注意力的区域生成网络MA-RPN生成锚框和提取出感兴趣区域RoI，MA-RPN由通道注意力和空间注意力组成；

通道注意力将一个通道上整个空间特征编码聚合为一个全局特征，再通一种运算提取通道之间的关系，通道注意力模块的计算公式如下：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

＝σ(W¹(W₀(F^c _avg))+W₁(W₀(F^c _max)))

其中，σ表示sigmoid激活函数，MLP表示多层感知器，用来共享参数，F^c _avg和F^c _max表示全局平均池化和全局最大池化输出的特征；输入的特征图F通过全局最大池化和全局平均池化，然后分别通过多层感知器，将感知器输出的特征进行基于逐元素的相加操作，最后经过sigmoid激活函数，生成最终的通道注意力特征M_c；

空间注意力用于准确定位空间中的露天矿场特征，添加空间注意力能准确定位露天矿场，提高检测的准确率；空间注意力模块的计算公式如下：

M_s(F)＝σ(f^3*3([AvgPool(F),MaxPool(F)]))

＝σ(f^3*3([F^s _avg,F^s _max]))

其中，σ表示sigmoid激活函数，f^3*3表示卷积层使用3*3的卷积，空间注意力模块使用全局平均池化和全局最大池化对输入的特征图F进行压缩操作，对输入特征分别在通道维度上做平均池化和最大池化操作，然后将得到的两个特征图按通道维度拼接，再经过一个卷积操作降维为1个通道，最后经过sigmoid函数生成空间注意力特征M_s；

d)感兴趣区域对齐层RoIAlign采用非线性插值法将MA-RPN筛选的感兴趣区域与特征提取网络提取的特征图对应区域的特征，得到固定尺寸的特征图；

e)对MA-RPN筛选的感兴趣区域RoI进行分类和边界框的回归，并使用全卷积网络从感兴趣区域预测分割掩膜。

本发明的有益效果在于：

第一，提出了一种基于扩展的特征金字塔网络(ET-FPN)，用于提取露天矿场多尺度特征信息，ET-FPN中特征纹理迁移模块用选取置信度较高的区域特征，同时设计一种前景和背景之间平衡的损失函数来减轻前景和背景的面积不平衡的问题，提高了遥感图像中露天矿场检测模型的精度；

第二，本发明在传统的区域生成网络上进行改进，引入了混合空间注意力，为区域生成网络提供空间注意力和通道注意力，使得不同模块的特征会随着网络的加深产生适应性改变，能够提高遥感影像中露天矿场检测的准确性。

第三，本发明是一种基于多尺度深度卷积神经网络的遥感图像露天矿场检测算法，将深度特征提取、特征金字塔网络、目标候选区生成、锚框生成、混合注意力机制、目标检测过程都融入到一个端到端的深度网络模型中，对于多尺度的遥感图像露天矿场的检测，能够达到较好的检测效果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为露天矿场深度学习模型；

图2为ET-FPN结构；

图3为特征纹理迁移模块；

图4为混合注意力模块。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，本发明包括以下步骤：

(1)采集遥感图像并制作数据集；

a)以谷歌地球作为数据源，采集露天矿场遥感图像数据。

b)将采集的图像裁剪为512x512大小并进行数据增强，防止训练时过拟合。

(2)构建露天矿场检测的深度学习模型；

b)扩展的特征金字塔网络(ET-FPN)提取露天矿场多尺度特征信息。扩展的特征金字塔网络(ET-FPN)框架中：A_i表示特征提取网络中第i阶段的特征图，B_i表示ET-FPN上的各个特征金字塔层。

特征纹理迁移模块输入特征B₃的主要语义内容首先由内容提取器提取，纹理提取器从主流特征和参考特征的组合中选择可靠的区域纹理用于露天矿场检测，通过残差连接将纹理和高分辨的内容特征融合在一起，为ET-FPN生成B'₃层。

B'₃＝P_t(B₂||P_c(B₃)↑2×)+P_c(B₃)↑2×

在训练模型中，正样本特征图误差定义为：

全局特征图误差定义为：

L_全局(F,F^t)＝||F^t-F||₁

前景和背景之间平衡的损失函数定义为：

L_前-背(F,F^t)＝L_全局(F,F^t)+λL_正(F,F^t)

总损失函数：

L_总＝L_前-背(B'₃,B₃↑2×)+L_前-背(B'₂,B₂↑2×)

其中P_t表示纹理提取器，P_c表示内容提取器，↑2×表示2倍上采样操作，L_总分别来自B'₃-B₃层特征图差和B'₂-B₂层特征图误差。

c)使用混合注意力的区域生成网络(MA-RPN)生成锚框和提取出感兴趣区域(RoI)，MA-RPN由通道注意力和空间注意力组成。

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

＝σ(W¹(W₀(F^c _avg))+W₁(W₀(F^c _max)))

其中，σ表示sigmoid激活函数，MLP表示多层感知器，用来共享参数，F^c _avg和F^c _max表示全局平均池化和全局最大池化输出的特征。输入的特征图F通过全局最大池化和全局平均池化，然后分别通过多层感知器，将感知器输出的特征进行基于逐元素的相加操作，最后经过sigmoid激活函数，生成最终的通道注意力特征M_c。

空间注意力用于准确定位空间中的露天矿场特征，添加空间注意力能准确定位露天矿场，提高检测的准确率。空间注意力模块的计算公式如下：

M_s(F)＝σ(f^3*3([AvgPool(F),MaxPool(F)]))

＝σ(f^3*3([F^s _avg,F^s _max]))

其中，σ表示sigmoid激活函数，f^3*3表示卷积层使用3*3的卷积，空间注意力模块使用全局平均池化和全局最大池化对输入的特征图F进行压缩操作，对输入特征分别在通道维度上做平均池化和最大池化操作，然后将得到的两个特征图按通道维度拼接，再经过一个卷积操作降维为1个通道，最后经过sigmoid函数生成空间注意力特征M_s。

d)感兴趣区域对齐层(RoIAlign)采用非线性插值法将MA-RPN筛选的感兴趣区域与特征提取网络提取的特征图对应区域的特征，得到固定尺寸的特征图；

e)对MA-RPN筛选的感兴趣区域(RoI)进行分类和边界框的回归，并使用全卷积网络从感兴趣区域预测分割掩膜。

(3)搭建环境并设置模型的初始参数；

(4)将露天矿场数据集中的训练集输入到构建好的深度学习模型中进行训练；

(5)通过不断调整参数，得到一个性能较好的检测模型，并用测试集来评估模型的性能；

(6)将待测的遥感图像输入到深度学习模型，得到露天矿场的检测结果。

本发明各部分具体实施细节如下：

(1)收集训练数据集与标注，以谷歌地球作为主要数据来源，采集露天矿场遥感图像数据。

(2)建立露天矿场检测的深度学习模型，采用残差卷积网络作为主干网络来提取输入图像特征，ET-FPN提取露天矿场多尺度特征信息。

(3)使用混合注意力的区域生成网络(MA-RPN)以滑窗的方式生成锚框和提取出感兴趣区域(RoI)，感兴趣区域对齐层(RoIAlign)对RoI进行进一步处理，进行分类和边界框的回归，并使用全卷积网络从感兴趣区域预测分割掩膜。

(4)用露天矿场的训练集来训练模型，通过不断调整参数，得到一个性能较好的检测模型，并用测试集来评估模型的性能。

(5)将待测的遥感图像输入到深度学习模型，得到露天矿场的检测结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的遥感图像中的露天矿场检测方法，其特征在于：该方法包括以下步骤：

1)采集露天矿场的遥感图像，制作露天矿场检测的数据集；

2.根据权利要求1所述的一种基于深度学习的遥感图像中的露天矿场检测方法，其特征在于：所述特征金字塔网络ET-FPN满足：

3.根据权利要求1所述的一种基于深度学习的遥感图像中的露天矿场检测方法，其特征在于：所述区域候选网络MA-RPN，为区域生成网络引入混合注意力机制，其中混合注意力机制包括空间注意力和通道注意力。

4.根据权利要求1所述的一种基于深度学习的遥感图像中的露天矿场检测方法，其特征在于：所述1)具体为：

a)以谷歌地球作为数据源，采集露天矿场遥感图像数据；

5.根据权利要求4所述的一种基于深度学习的遥感图像中的露天矿场检测方法，其特征在于：所述2)具体为：

B'₃＝P_t(B₂||P_c(B₃)↑2×)+P_c(B₃)↑2×

在训练模型中，正样本特征图误差定义为：

全局特征图误差定义为：

L_全局(F,F^t)＝||F^t-F||₁

前景和背景之间平衡的损失函数定义为：

L_前-背(F,F^t)＝L_全局(F,F^t)+λL_正(F,F^t)

总损失函数：

L_总＝L_前-背(B'₃,B₃↑2×)+L_前-背(B'₂,B₂↑2×)

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

＝σ(W¹(W₀(F^c _avg))+W₁(W₀(F^c _max)))

M_s(F)＝σ(f^3*3([AvgPool(F),MaxPool(F)]))

＝σ(f^3*3([F^s _avg,F^s _max]))