CN112200045B

CN112200045B - 基于上下文增强的遥感图像目标检测模型建立方法及应用

Info

Publication number: CN112200045B
Application number: CN202011059137.6A
Authority: CN
Inventors: 左峥嵘; 张维; 桑农
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-03-19
Anticipated expiration: 2040-09-30
Also published as: CN112200045A

Abstract

本发明公开了一种基于上下文增强的遥感图像目标检测模型建立方法及应用，属于图像处理技术领域，包括：基于神经网络建立待训练的目标检测模型，用于对遥感图像进行目标检测，并对其进行训练，得到基于上下文增强的遥感图像目标检测模型；目标检测模型中，各模块分别用于：提取遥感图像的多尺度特征图F_s；提取F_s的全局上下文信息，得到M_A；分别增强F_s中的边界信息和类别信息，得到和分别捕捉和中通道间的信息关联，得到通道权重W_d和W_c；根据W_d将M_A和融合，得到边界信息增强的特征图根据W_c将M_A和融合，得到类别信息增强的特征图将F_s、以及融合，得到特征图对进行目标检测。本发明能够提高遥感图像目标检测的精度。

Description

基于上下文增强的遥感图像目标检测模型建立方法及应用

技术领域

本发明属于图像处理技术领域，更具体地，涉及一种基于上下文增强的遥感图像目标检测模型建立方法及应用。

背景技术

目标检测是计算机视觉领域的基础问题，通过检测算法在图像中找到感兴趣的目标位置并判断其类别。具体到遥感图像中，由于其图像背景复杂，目标尺度变化大，漏检、虚检的问题较多，检测和识别的难度较大。

现有的目标检测的方法主要分为：基于人工特征传统目标检测算法和基于深度学习的目标检测算法。其中，基于人工特征的传统目标检测算法由于使用的手工设计的图像特征导致其泛化性能不强，表达能力不足；而基于深度学习的目标检测算法又分为单阶段和双阶段的目标检测算法，双阶段目标检测算法基于候选框，检测精度较高但速度较慢，同时候选框内的上下文信息不足从而忽视了背景信息；单阶段目标检测算法直接回归得到边框和类别，检测速度较快但精度较低，而基于关键点的目标检测算法在二者之间实现了平衡，在保证一定检测精度的同时提高了检测速度。

分析现有的目标检测算法，存在着以下几点局限性：1、对于图像上下文信息的提取能力不足，忽略了典型背景信息对于目标识别的帮助，例如水域对于桥梁、港口等目标类型；2、图像分类任务更关注图像中心区域，因为分类识别更依赖特征的平移不变性，而目标检测任务对于图像的边界信息更加敏感，同时进行分类和检测会导致特征冲突，限制检测性能；3、现有的图像上下文信息提取方法大多通过网络自行学习，缺乏监督信息，导致信息提取机制不明确，提取性能不稳定。

综上所述，由于对上下文信息利用不足，且分类与检测过程中存在特征冲突，现有的遥感图像目标检测方法的检测能力有待进一步提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于上下文增强的遥感图像目标检测模型建立方法及应用，其目的在于，解决现有的遥感图像目标检测方法对上下文信息利用不足，且分类与检测过程中存在特征冲突的技术问题，以提高遥感图像目标检测方法的检测能力。

为实现上述目的，按照本发明的一个方面，提供了一种基于上下文增强的遥感图像目标检测模型建立方法，包括：

基于神经网络建立待训练的目标检测模型，用于对遥感图像进行目标检测，并利用训练数据集对待训练的目标检测模型进行训练，从而在训练结束后，得到基于上下文增强的遥感图像目标检测模型；

其中，目标检测模型包括：

多尺度特征图提取模块，用于提取输入的遥感图像的多尺度特征图F_s；

全局空间上下文模块，用于提取多尺度特征图F_s的全局上下文信息，得到全局上下文注意力图M_A；

边界信息增强模块，用于增强多尺度特征图F_s中的边界信息，得到边界信息增强图

第一通道权重学习模块，用于捕捉边界信息增强图中通道间的信息关联，得到第一通道权重；

第一特征融合模块，用于根据第一通道权重将全局上下文注意力图M_A和边界信息增强图融合，得到边界信息增强的特征图/>

类别信息增强模块，用于增强多尺度特征图F_s中的类别信息，得到类别信息增强图

第二通道权重学习模块，用于捕捉类别信息增强图中通道间的信息关联，得到第二通道权重；

第二特征融合模块，用于根据第二通道权重将全局上下文注意力图M_A和类别信息增强图融合，得到类别信息增强的特征图/>

第三特征融合模块，用于将多尺度注意力图F_s、边界信息增强的特征图以及类别信息增强的特征图/>融合，得到上下文信息增强后的特征图/>

目标检测模块，用于对上下文信息增强后的特征图进行目标检测；

训练过程中，通过整个边界框所在区域对边界信息增强模块进行监督，通过目标中心点及高斯扩散函数对类别信息增强模块进行监督。

本发明在提取遥感图像的多尺度特征图后，进一步利用全局空间提取遥感图像的全局上下文信息，并利用边界信息增强模块和类别信息增强模块分别提取遥感图像的边界增强信息和类别增强信息这两种局部上下文信息，并将所提取的信息与多尺度特征图融合，得到遥感图像最终的特征图，由此能够充分利用遥感图像的上下文信息，利用背景信息提升了检测的性能，又通过捕捉类别之间的信息关联提升了所建立模型的分类识别能力。

本发明通过整个边界框所在区域对边界信息增强模块进行监督，通过目标中心点及高斯扩散函数对类别信息增强模块进行监督，实现了对类别信息和边界信息的独立监督和融合，缓解了检测识别任务耦合时的特征冲突问题，提高了检测精度。

进一步地，全局空间上下文模块包括：依次连接的m个自适应卷积模块和一个sigmoid层；

其中，m为预设的正整数。

本发明中，全局空间上下文模块中包含自适应卷积模块，自适应卷积模块在提取全局信息的同时，也引入了一些局部信息，从而在获得背景辅助信息的同时减少干扰，自适应地捕捉全局信息与局部信息的关系依赖，本发明由此能够结合动态卷积的特征表达能力提取全局图像场景信息，通过场景信息提升分类识别的能力。

进一步地，边界信息增强模块和类别信息增强模块的结构相同；

边界信息增强模块包括：n个卷积核大小为1*1的第一卷积层、一个第一融合层和一个卷积核大小为3*3的第二卷积层；n为多尺度特征图F_s中图像层数；

n个第一卷积层分别用于对多尺度特征图F_s中的各层图像进行卷积操作，使各层图像的通道数与图像类别数相同；

第一融合层用于融合各第一卷积层的输出图像，得到多层特征融合后的特征图，由此保证多尺度信息能够全面使用；

第二卷积层用于对多层特征融合后的特征图进行卷积操作，以减少特征混淆的影响。

进一步地，第一通道权重学习模块和第二通道权重学习模块的结构相同；

第一通道权重学习模块包括：第一分支、第二分支、第二融合层以及连接于第二融合层之后的sigmoid层；

第一分支包括依次连接的自适应平均池化层以及一个或多个自适应卷积模块，第二分支包括依次连接的自适应最大池化层以及一个或多个自适应卷积模块；第一分支和第二分支分别用于捕捉输入的特征图中通道间的信息关联，输出相应的中间特征图；

第二融合层用于融合第一分支和第二分支输出的中间特征图。

本发明基于上述通道权重学习模块来捕捉通道间的信息关系，能够确定不同通道进行信息融合时的融合权重，保证最后得到的特征图中准确融合了各类上下文信息，并且采用这种动态融合权重的方式，能够提高网络的自学习能力，进一步提高遥感图像目标检测的精度。

进一步地，多尺度特征图提取模块包括依次连接的特征提取网络和全局上下文特征金字塔网络；

特征提取网络包括多层残差模块，其中多层残差模块输出的特征图共同组成特征图F_f；

全局上下文特征金字塔网络包括第三融合层、第四融合层以及GCNET网络；第三融合层用于对特征图F_f中的各层图像进行3*3卷积操作并融合上层特征图，得到中间层特征图；第四融合层用于对中间层特征图中的各层图像进行3*3卷积操作并融合底层特征图，得到增强特征图；GCNET网络用于提取增强特征图中各层图像的通道注意力信息，得到多尺度特征图F_s。

本发明中，多尺度特征图提取模块在提取遥感图像的多尺度特征图时，先融合上层特征图，而后融合底层特征图，通过以上两步实现高层信息与底层信息的充分融合。

进一步地，通过整个边界框所在区域对边界信息增强模块进行监督，包括：

按照设置边界信息增强图/>中各像素点的标签；

通过目标中心点及高斯扩散函数对类别信息增强模块进行监督，包括：

按照设置类别信息增强图/>中各像素点的标签；

其中，(x_p，y_p)表示边界信息增强图中像素点p的坐标，label_bp表示像素点p的标签值；(x_q，y_q)表示类别信息增强图/>中像素点q的坐标，label_cq表示像素点q的标签；(x_l，y_l)和(x_r，y_r)分别表示标注框的左上角点和右下角点坐标，(x_c，y_c)表示标注框的中心点坐标；α和β分别为预设的高斯函数系数，h和w分别为多尺度特征图F_s的高度和宽度。

对于目标检测任务来说，位置检测和类别识别是耦合进行的，但两种任务的针对性是不同的，位置检测更关注目标的边缘信息，但通常边缘信息干扰较多，因此，本发明通过上述边界增强来提供约束，使得边界范围内的像素点的标签值被设为1，而边界范围外的像素点的标签值被设为0；类别识别更关注目标的中心区域，因为中心区域更具有尺度不变性和平移不变性，因此，本发明通过监督目标中心区域可以增强类别识别能力，同时缓解多任务特征冲突带来的性能下降问题，图像类别标签为图像中心点及其高斯扩散区域内的像素点。总的来说，本发明通过上述监督方式对边界信息和类别信息进行分别监督，能够缓解检测识别任务耦合时的特征冲突问题，并基于位置检测和类别识别的任务特征，在不增加标注负担的同时能够引入更多的局部上下文信息，对各类任务的特征图像进行监督，有效提高目标检测的精度。

进一步地，利用训练数据集对待训练的目标检测模型进行训练，其损失函数L_det为：

L_det＝δ₁L_cls+δ₂L_pts+δ₃L_ce+δ₄L_be；

其中，L_cls表示分类损失，L_pts表示边界框回归损失；L_be为边界信息增强的损失，且L_ce为类别信息增强的损失，且Nb和Nc分别表示边界信息增强图和类别信息增强图/>中像素点的总数，p_b和q_c分别表示边界信息增强图/>和类别信息增强图/>中某个像素点的像素值，label_bp和label_cq分别表示像素值p_b和q_c对应的标签，γ和μ分别为预设参数；δ₁、δ₂、δ₃、δ₄分别为预设的权重参数。

本发明在对待训练的目标检测模型进行训练时，所使用的损失函数中，除了包含目标检测相关的分类损失和边界框回归损失，还包括边界信息增强的损失和类别信息增强的损失，有利于在模型训练的过程中对边界信息增强模块和类别信息增强模块进行独立监督；另一方面，因为生成增强图的过程相当于01分类，但图中正样本的点(即目标范围内的点)远远少于负样本，基于上述公式计算边界信息增强的损失L_be和类别信息增强的损失L_ce，能够降低简单负样本的比重，提高训练效率。

进一步地，利用训练数据集对待训练的目标检测模型进行训练，包括：依次进行的第一训练阶段和第二训练阶段；

在第一训练阶段中，只对目标检测模块之前的模型参数进行调整；

在第二训练阶段中，对待训练的目标检测模型的整体模型参数进行调整。

由于目标检测包括分类与回归，训练耗时较长，本发明分两阶段进行模型训练，能够有效加块模型的收敛速度；具体来说，在第一训练阶段中，只对目标检测模块之前的模型参数进行调整，能够快速完成对边界信息增强模块和类别信息增强模块的训练；在第二训练阶段中，对待训练的目标检测模型的整体模型参数进行调整，能够基于已训练好的边界信息增强模块和类别信息增强模块，快速完成对目标检测模块的训练，从而完成对整个模型的训练。

按照本发明的另一个方面，提供了一种遥感图像目标检测方法，包括：

以待检测的遥感图像作为输入，利用本发明提供的基于上下文增强的遥感图像目标检测模型建立方法建立得到的遥感图像目标检测模型对待检测的遥感图像进行目标检测，得到待检测的遥感图像中感兴趣的目标位置及其类别。

按照本发明的又一个方面，提供了一种计算机可读存储介质，包括存储的计算机程序；

计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行本发明提供的基于上下文增强的遥感图像目标检测模型建立方法，和/或本发明提供的遥感图像目标检测方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明在提取遥感图像的多尺度特征图后，进一步利用全局空间提取遥感图像的全局上下文信息，并利用边界信息增强模块和类别信息增强模块分别提取遥感图像的边界增强信息和类别增强信息这两种局部上下文信息，并将所提取的信息与多尺度特征图融合，得到遥感图像最终的特征图，由此能够充分利用遥感图像的上下文信息，利用背景信息提升了检测的性能，又通过捕捉类别之间的信息关联提升了所建立模型的分类识别能力。

(2)本发明通过整个边界框所在区域对边界信息增强模块进行监督，通过目标中心点及高斯扩散函数对类别信息增强模块进行监督，实现了对类别信息和边界信息的独立监督和融合，缓解了检测识别任务耦合时的特征冲突问题，提高了检测精度。

附图说明

图1为本发明实施例提供的基于上下文增强的遥感图像目标检测模型示意图；

图2为本发明实施例提供的全局空间上下文模块示意图；

图3为本发明实施例提供的边界信息增强模块示意图；

图4为本发明实施例提供的通道权重学习模块示意图；

图5为本发明实施例提供的全局上下文特征金字塔网络示意图；

图6为本发明实施例提供的图像局部上下文信息监督标签；其中，(a)为输入的训练集图像，(b)为边界信息标签，(c)为类别信息标签；

图7为本发明实施例提供的体育场遥感图像目标检测结果示意图；其中，(a)为输入的待检测图像，(b)是边界信息增强模块得到的边界信息增强图，(c)是类别信息增强模块得到的类别信息增强图；

图8为本发明实施例提供的目标检测算法的P-R曲线；其中，(a)为飞机类别P-R曲线，(b)为船舶类别P-R曲线，(c)为桥梁类别P-R曲线，(d)为体育场类别P-R曲线，(e)为港口类别P-R曲线，(f)为储存罐类别P-R曲线；

图9为本发明实施例提供的船舶遥感图像目标检测结果示意图；其中，(a)为使用本发明所提供的目标检测方法得到的检测结果，(b)为使用reppoints目标检测算法得到的检测结果；

图10为本发明实施例提供的飞机遥感图像目标检测结果示意图；其中，(a)为使用本发明所提供的目标检测方法得到的检测结果，(b)为使用retinanet目标检测算法得到的检测结果；

图11为本发明实施例提供的目标检测的典型检测结果；其中，(a)为飞机目标检测结果，(b)为船舶目标检测结果，(c)为桥梁目标检测结果，(d)为体育场目标检测结果，(e)为港口目标检测结果，(f)为储存罐目标检测结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1：

一种基于上下文增强的遥感图像目标检测模型建立方法，包括：

其中，目标检测模型如图1所示，包括：

全局空间上下文模块N_c，用于提取多尺度特征图F_s的全局上下文信息，得到全局上下文注意力图M_A；

边界信息增强模块N_bd，用于增强多尺度特征图F_s中的边界信息，得到边界信息增强图

第一通道权重学习模块N_w1，用于捕捉边界信息增强图中通道间的信息关联，得到第一通道权重W_d；

第一特征融合模块，用于根据第一通道权重W_d将全局上下文注意力图M_A和边界信息增强图融合，得到边界信息增强的特征图/>

类别信息增强模块N_ce，用于增强多尺度特征图F_s中的类别信息，得到类别信息增强图

第二通道权重学习模块N_w2，用于捕捉类别信息增强图中通道间的信息关联，得到第二通道权重W_c；

第二特征融合模块，用于根据第二通道权重W_c将全局上下文注意力图M_A和类别信息增强图融合，得到类别信息增强的特征图/>

作为一种可选的实施方式，本实施例中，全局空间上下文模块N_c包括：依次连接的m个自适应卷积模块和一个sigmoid层；

其中，m为预设的正整数；在实际应用中，m的取值可综合计算量、计算精度等要求相应设定，如图2所示，本实施例，m＝2；

自适应卷积模块，即图2中的ACconv，使用一维的非对称卷积核对传统的二维卷积核进行信息增强，其结构如图2所示，具体包括：一个卷积核大小为3*3的卷积层，一个卷积核大小为1*3的卷积层，一个卷积核大小为3*1的卷积层，以及一个ReLU层；

一个自适应卷积模块ACconv的计算过程可表示为：

式中kernel_3*3代表传统的3*3二维卷积核，kernel_1*3是1*3一维卷积核，kernel_3*1是3*1一维卷积核，ReLU代表线性激活函数，整个计算过程采用ACconv()形式来表达；ACconv在提取全局信息的同时，也引入了一些局部信息，从而在获得背景辅助信息的同时减少干扰，自适应地捕捉全局信息与局部信息的关系依赖；

本实施例中，全局空间上下文模块N_c在ACconv模块的基础上实现，其计算过程如下式所示：

M_A＝S(ACconv(ACconv(F_s)))；

式中S函数代表sigmoid激活函数，通过该全局空间上下文模块N_c获取了图像的全局上下文注意力图M_A，全局空间上下文模块N_c主要结合动态卷积的特征表达能力提取全局图像场景信息，通过场景信息提升算法分类识别的能力。

本实施例中，边界信息增强模块N_bd和类别信息增强模块N_ce的结构相同；

作为一种可选的实施方式，本实施例中，如图3所示，边界信息增强模块N_bd包括：n个卷积核大小为1*1的第一卷积层、一个第一融合层和一个卷积核大小为3*3的第二卷积层；n为多尺度特征图F_s中图像层数；

本实施例中，第一通道权重学习模块N_w1和第二通道权重学习模块N_w2的结构相同；

作为一种可选的实施方式，本实施例中，如图4所示，第一通道权重学习模块N_w1包括：第一分支、第二分支、第二融合层以及连接于第二融合层之后的sigmoid层；

第一分支包括依次连接的自适应平均池化层以及一个或多个自适应卷积模块，第二分支包括依次连接的自适应最大池化层以及一个或多个自适应卷积模块；第一分支和第二分支分别用于捕捉输入的特征图中通道间的信息关联，输出相应的中间特征图；可选地，本实施例中，第一分支和第二分支中，自适应卷积模块的数量均为2；

第二融合层用于融合第一分支和第二分支输出的中间特征图；

基于图4所示的结构，第一通道权重学习模块N_w1的计算过程如下式所示：

W_d＝S(ReLU(ACconv(P₁(F_s)))+ReLU(ACconv(P₂(F_s))))；

式中S函数代表sigmoid激活函数，ReLU代表线性激活函数，P₁代表自适应最大池化，P₂代表自适应平均池化；通过该结构来捕捉通道间的信息关联，从而确定不同通道进行信息融合时的融合权重；第二通道权重W_c的计算方式与第一通道权重W_d类似；

应当理解的是，随着模型的训练，边界信息增强模块N_bd和类别信息增强模块N_ce将拥有不同的权重参数，第一通道权重学习模块N_w1和第二通道权重学习模块N_w2也将拥有不同的权重参数。

在利用边界信息增强模块N_bd和类别信息增强模块N_ce得到边界信息增强图和类别信息增强图/>并利用第一通道权重学习模块N_w1和第二通道权重学习模块N_w2得到第一通道权重W_d和第二通道权重W_c之后，第一特征融合模块根据第一通道权重W_d将全局上下文注意力图M_A和边界信息增强图/>融合，得到边界信息增强的特征图/>的计算过程如下式所示：

式中，S函数代表sigmoid激活函数，f是1*1卷积用于调整输出通道数与类别数一致；

第二特征融合模块，根据第二通道权重W_c将全局上下文注意力图M_A和类别信息增强图融合，得到类别信息增强的特征图/>的计算过程如下式所示：

采用动态融合的方式是能够调整不同类别的融合比重，图像中出现几率越大的类别所占比重越高。

在得到边界信息增强的特征图和类别信息增强的特征图/>之后，第三特征融合模块，将多尺度注意力图F_s、边界信息增强的特征图/>以及类别信息增强的特征图/>融合，得到上下文信息增强后的特征图/>其计算过程如下式所示：

式中，ρ和τ为预设权重系数；可选地，本实施例中，权重系数ρ和τ的具体取值分别设置为0.5和0.5。

作为一种可选的实施方式，本实施例中，多尺度特征图提取模块包括依次连接的特征提取网络N_F和全局上下文特征金字塔网络GCFPN；

特征提取网络N_F包括多层残差模块，其中多层残差模块输出的特征图共同组成特征图F_f；可选地，本实施例中，所采用的特征提取网络N_F具体为ResNet-50；应当说明的是，其他的特征提取网络，也可以应用于本发明，在此将不作一一列举；

全局上下文特征金字塔网络GCFPN的结构如图5所示，包括第三融合层、第四融合层以及GCNET网络；第三融合层用于对特征图F_f中的各层图像进行3*3卷积操作并融合上层特征图，得到中间层特征图；第四融合层用于对中间层特征图中的各层图像进行3*3卷积操作并融合底层特征图，得到增强特征图；通过以上两步实现高层信息与底层信息的充分融合；GCNET网络用于提取增强特征图中各层图像的通道注意力信息，得到多尺度特征图F_s。

对于目标检测任务来说，位置检测和类别识别是耦合进行的，但两种任务的针对性是不同的，位置检测更关注目标的边缘信息，但通常边缘信息干扰较多，类别识别更关注目标的中心区域，因为中心区域更具有尺度不变性和平移不变性，为了有效缓解检测识别任务耦合时的特征冲突问题，本实施例中，通过整个边界框所在区域对边界信息增强模块进行监督，包括：

按照设置边界信息增强图/>中各像素点的标签；

按照设置类别信息增强图/>中各像素点的标签；

其中，(x_p，y_p)表示边界信息增强图中像素点p的坐标，label_bp表示像素点p的标签值；(x_q，y_q)表示类别信息增强图/>中像素点q的坐标，label_cq表示像素点q的标签；(x_l，y_l)和(x_r，y_r)分别表示标注框的左上角点和右下角点坐标，(x_c，y_c)表示标注框的中心点坐标；α和β分别为预设的高斯函数系数，h和w分别为多尺度特征图F_s的高度和宽度；

通过上述边界增强来提供约束，使得边界范围内的像素点的标签值被设为1，而边界范围外的像素点的标签值被设为0；通过监督目标中心区域可以增强类别识别能力，同时缓解多任务特征冲突带来的性能下降问题，图像类别标签为图像中心点及其高斯扩散区域内的像素点。图6所示为基于上述信息监督方式得到的标签示意图，其中，(a)为输入的遥感图像，(b)为通过整个边界框所在区域对边界信息增强模块进行监督后，得到的边界信息标签，(c)为通过目标中心点及高斯扩散函数对类别信息增强模块进行监督后，得到的类别信息标签；

总的来说，本实施例通过上述监督方式对边界信息和类别信息进行分别监督，能够缓解检测识别任务耦合时的特征冲突问题，并基于位置检测和类别识别的任务特征，在不增加标注负担的同时能够引入更多的局部上下文信息，对各类任务的特征图像进行监督，有效提高目标检测的精度。

基于上述监督方式，相应地，可以计算边界信息增强的损失L_be和类别信息增强的损失L_ce，具体计算式分别如下：

其中，Nb和Nc分别表示边界信息增强图和类别信息增强图/>中像素点的总数，p_b和q_c分别表示边界信息增强图/>和类别信息增强图/>中某个像素点的像素值，label_bp和label_cq分别表示像素值p_b和q_c对应的标签，γ和μ分别为预设参数；

因为生成增强图的过程相当于01分类，但图中正样本的点(即目标范围内的点)远远少于负样本，基于上述公式计算边界信息增强的损失L_be和类别信息增强的损失L_ce，能够降低简单负样本的比重，提高训练效率。

由于本实施例能够有效确定关键点，因此，本实施例中采用基于关键点的目标回归方法，将信息增强后的特征图输入检测模块，在检测模块的第一步回归得到类别得分，同时经过两次DCN模块，得到目标相对于中心点的偏移量，从而得到相对于中心点的9个边界偏移点，取9个点可能包含的最大外接框作为目标的边界框，得到检测结果(x_c，y_c，h_b，w_b)；相应地，如图1所示，本实施例中，目标检测模块包括分类网络MD_CLC和回归网络MD_PTS，由分类网络MD_CLC输出目标类别，由回归网络MD_PTS输出对应的目标位置；

作为一种可选的实施方式，本实施例中，利用训练数据集对待训练的目标检测模型进行训练，其损失函数L_det为：

L_det＝δ₁L_cls+δ₂L_pts+δ₃L_ce+δ₄L_be；

其中，L_cls表示分类损失，L_pts表示边界框回归损失；L_be为上述边界信息增强的损失，L_ce为上述类别信息增强的损失，δ₁、δ₂、δ₃、δ₄分别为预设的权重参数；可选地，本实施例中，权重参数δ₁、δ₂、δ₃、δ₄的值分别设定为1.0，1.5，0.5，0.5；

上述损失函数中，除了包含目标检测相关的分类损失和边界框回归损失，还包括边界信息增强的损失和类别信息增强的损失，有利于在模型训练的过程中对边界信息增强模块和类别信息增强模块进行独立监督。

为了进一步加速模型的收敛，作为一种可选的实施方式，本实施例中，利用训练数据集对待训练的目标检测模型进行训练，包括：依次进行的第一训练阶段和第二训练阶段；

在第二训练阶段中，对待训练的目标检测模型的整体模型参数进行调整；

由于目标检测包括分类与回归，训练耗时较长，本实施例分两阶段进行模型训练，能够有效加块模型的收敛速度；具体来说，在第一训练阶段中，只对目标检测模块之前的模型参数进行调整，能够快速完成对边界信息增强模块和类别信息增强模块的训练；在第二训练阶段中，对待训练的目标检测模型的整体模型参数进行调整，能够基于已训练好的边界信息增强模块和类别信息增强模块，快速完成对目标检测模块的训练，从而完成对整个模型的训练；

可选地，本实施例中，训练轮次为24轮，初始学习率为0.01，采用SGD(随机梯度下降)学习率调整策略，输入图像尺寸同一为(1000，1000)，同时采用了一些数据增强方法，包括随机翻转、边界补全等，提高算法的泛化能力。

实施例2：

一种遥感图像目标检测方法，包括：

以待检测的遥感图像作为输入，利用上述实施例1提供的基于上下文增强的遥感图像目标检测模型建立方法建立得到的遥感图像目标检测模型对待检测的遥感图像进行目标检测，得到待检测的遥感图像中感兴趣的目标位置及其类别。

相应地，为了适应模型对图像尺寸的要求，在将待检测的遥感图像输入遥感图像目标检测模型之前，还包括：将待检测的遥感图像进行缩放，使其尺寸与模型的输入尺寸相同；

以图7中(a)作为待检测图像，利用实施例1所建立的基于上下文增强的遥感图像目标检测模型对其进行目标检测后，所得到的边界信息增强度和类别信息增强图分别如图7中的(b)和(c)所示，根据图7中的(b)和(c)所示的图像可以看出，边界信息增强图能够有效增强目标边界的信息，而类别信息增强图能够有效增强目标类别的信息。

以下结合实施例2与现有的目标检测算法的对比结果，对本发明所能取得的有益效果进行验证说明。

采用公开的遥感数据作为测试集，该数据集中包含图像4276张，目标类别及数量如表1所示：

表1

飞机	体育场	港口	船舶	桥梁	储存罐
						1785	1099	2229	8118	1000	2394

评价指标采用目标检测任务常用的均值平均精度指标(mAP)，mAP采用交并比IoU作为检测结果的判断标准，两个矩形区域的IoU指的是其交叉面积与合并面积的比值，当模型输出的预测框与标签中的真值框的IoU大于IoU阈值时，可以认为模型检测的结果是正确的；mAP通过精准率Precision和召回率Recall计算，计算方法如下：

其中，TP为真正例，表示模型正确地将正样本识别为正例；FP为假正例，表示模型错误地将负样本识别为正例；FN为假反例，表示模型错误地将正样本识别为反例；TN为真反例，表示模型正确地将负样本识别为反例；得到某一类的Precision和Recall后，可以绘制该类的P-R曲线，P-R曲线下的面积就是该类的AP，即：

在PASCAL VOC评估标准中，IoU阈值的取值为0.5，对各个类的AP值取平均值得到的就是检测任务的评价指标mAP，具体采用PASCAL VOC标准进行mAP的比较。

为了比较不同算法的召回率，采用平均召回率AR作为评价指标，具体计算是获取每个图像检测到固定数量的最大召回率，作为该类别的AR指标。取各类别AR指标的平均值，作为检测算法总体的召回率指标mAR，具体采用的单张图像检测框最大数量为100。

同时，为了衡量算法对于不同尺度目标的检测能力，同时计算了不同尺度范围内的mAP，定义面积小于322像素的目标为小型目标，面积在322像素到962像素范围内的目标为中型目标，大于962像素的目标为大型目标，小型目标mAP用mAPS来表示，中型目标mAP用mAPM来表示，大型目标mAP用mAPL来表示。

在比较算法性能时，选择了目标检测领域的典型算法，具体包括：双阶段典型目标检测算法faster rcnn、Libra RCNN，单阶段典型目标检测算法retinanet、ATSS，基于关键点的目标检测算法reppoints、foveabox、centernet等。通过多种类型的典型算法比较以验证本发明提供的遥感图像目标检测方法的性能。

表2为不同检测算法的mAP指标检测结果及其各个类别的AP指标检测结果：

表2

Model	飞机	体育场	港口	船舶	桥梁	储存罐	mAP
								reppoints	0.963	0.951	0.560	0.834	0.620	0.963	0.815
retinanet	0988	0.966	0.627	0.870	0.651	0.976	0.846
								fsater-rcnn	0.987	0.971	0.718	0.907	0.727	0.970	0.880
centernet	0.979	0.932	0.664	0.779	0.715	0.957	0.838
								ATSS	0.987	0.970	0.634	0.902	0.710	0.977	0.863
Libra RCNN	0.978	0.965	0.643	0.869	0.688	0.967	0.852
								foveabox	0.980	0.969	0.637	0.889	0.656	0.970	0.850
本发明所提出的方法	0.989	0.970	0.773	0.903	0.804	0.978	0.903

从表2中可以看出，本发明提出的目标检测算法在飞机、港口、桥梁、储存罐等类别上取得了最佳的检测性能，在体育场、船舶两个类别上取得了次优的检测性能，且与最优性能的差距非常小。在各类别平均检测精度mAP指标上取得了最佳的检测性能，结合图8的PR曲线可以看出，本发明提出的算法各个类别的目标的PR曲线与坐标轴围成的面积更大，检测精度更高，也意味着在设置相同召回率要求时，本发明提出的算法具有更高的精准率，在同等情况下，本发明提出的算法具有更低的虚警率。

表3为不同检测算法的mAR指标及其各个类别AR指标的检测结果：

表3

Model	飞机	体育场	港口	船舶	桥梁	储存罐	mAR
								reppoints	0.777	0.805	0.524	0.669	0.538	0.847	0.693
retinanet	0.813	0.801	0.543	0.676	0.538	0.860	0.705
								fsater-rcnn	0.796	0.792	0.557	0.697	0.501	0.853	0.699
centernet_	0.797	0.816	0.501	0.532	0.524	0.820	0.665
								ATSS	0.822	0.835	0.522	0.690	0.520	0.863	0.709
Libra RCNN	0.824	0.832	0.563	0.691	0.581	0.863	0.726
								foveabox	0.798	0.824	0.534	0.700	0.528	0.850	0.706
本发明所提出的方法	0.853	0.850	0.636	0.727	0.614	0.872	0.759

从表3中可以看出，在设定单张图像获取的目标数量为100的情况下，本发明提出的算法在各个典型类别下均取得了最高的召回率，同时，各类别平均召回率相对于其他典型算法也有了明显提升，这说明在同等条件下，本发明提出的算法具有更低的漏警率。

表4为不同检测算法的mAPS指标检测结果及其各个类别的APS指标检测结果，表4中为-1的结果代表数据集中该类别没有对应尺度的目标标注，在计算mAPS时不会被引入；表5为不同检测算法的mAPM指标检测结果及其各个类别的APM指标检测结果；表6为不同检测算法的mAPL指标检测结果及其各个类别的APL指标检测结果；

表4

Model	飞机	体育场	港口	船舶	桥梁	储存罐	mAPS
								reppoints	-1	0.101	-1	0.059	0.088	0.271	0.130
retinanet	-1	0.452	-1	0.250	0.104	0.276	0.271
								fsater-rcnn	-1	0.151	-1	0.142	0.084	0.283	0.165
centernet_	-1	0.404	-1	0.012	0.045	0.114	0.144
								ATSS	-1	0.502	-1	0.249	0.201	0.309	0.315
Libra RCNN	-1	0.518	-1	0.148	0.104	0.292	0.266
								foveabox	-1	0.552	-1	0.198	0.106	0.291	0.287
本发明所提出的方法	-1	0.651	-1	0.133	0.154	0.272	0.303

表5

Model	飞机	体育场	港口	船舶	桥梁	储存罐	mAPM
								reppoints	0.696	0.583	0.111	0.537	0.199	0.676	0.467
retinanet	0.721	0.600	0.149	0.562	0.235	0.710	0.496
								fsater-rcnn	0.714	0.597	0.199	0.602	0.231	0.703	0.508
centernet_	0.634	0.480	0.094	0.390	0.145	0.605	0.391
								ATSS	0.716	0.606	0.149	0.591	0.225	0.699	0.498
Libra RCNN	0.719	0.605	0.141	0.571	0.242	0.706	0.498
								foveabox	0.709	0.606	0.118	0.584	0.231	0.687	0.489
本发明所提出的方法	0.753	0.606	0.227	0.607	0.267	0.726	0.531

表6

Model	飞机	体育场	港口	船舶	桥梁	储存罐	mAPL
								reppoints	0.727	0.798	0.328	0.504	0.369	0.849	0.596
retinanet	0.786	0.781	0.348	0.558	0.371	0.860	0.617
								fsater-rcnn	0.772	0.799	0.437	0.655	0.447	0.869	0.663
centernet_	0.789	0.849	0.441	0.644	0.518	0.862	0.684
								ATSS	0.792	0.845	0.349	0.597	0.428	0.873	0.647
Libra RCNN	0.799	0.836	0.390	0.617	0.432	0.872	0.658
								foveabox	0.760	0.826	0.355	0.607	0.386	0.857	0.632
本发明所提出的方法	0.822	0.874	0.519	0.731	0.565	0.885	0.733

从表4中可以看出，本发明提出的算法对于尺度较小的目标也具有较强的检测能力，在mAPS指标上取得了次优的检测性能；从表5和表6中的mAPM和mAPL指标可以看出，本发明提出的遥感图像目标检测方法对于各个类别的尺度中等和尺度较大的目标均取得了最佳的检测性能。综合三类不同尺度目标的检测结果，本发明提出的遥感图像目标检测方法具有更好的多尺度检测能力。

综合以上分析可以看出，本发明所提出的方法在与双阶段方法、单阶段方法、关键点方法的代表算法比较中取得了最佳的检测性能，对于桥梁和港口等难检目标性能提升效果明显。

进一步地，图9所示为针对船舶遥感图像的目标检测结果，其中，(a)为本发明提出的遥感图像目标检测方法的目标检测结果，(b)是reppoints目标检测算法的结果，对比图9中的(a)和(b)所示的目标检测结果可以看出，reppoints算法围绕一个目标产生了多个高置信度的边界框，这说明该算法在目标定位时有一定问题，而本发明出的遥感图像目标检测方法能够准确提取出目标的边界；如图10所示为针对飞机遥感图像的目标检测结果，其中，(a)为本发明提供的遥感图像目标检测方法的目标检测结果，(b)是retinanet目标检测算法的检测结果，对比图10中的(a)和(b)所示的目标检测结果可以看出，retinanet算法产生了虚警，说明该算法过于关注全局信息而忽视了目标的局部特性，而本发明提供的遥感图像目标检测方法准确提取了感兴趣的目标，说明本发明提供的遥感图像目标检测方法具有更强的目标识别能力。

图11中展示了本发明提供的遥感图像目标检测方法对不同类别典型目标的检测结果，可以看出在复杂环境及多种目标尺度下本算法都有着很好的检测性能，能够在准确识别类别的同时保证定位精确度。结合mAP和mAR等指标可以看出，本发明提供的遥感图像目标检测方法可以有效减少遥感图像目标检测过程中的漏警和虚警，具有更好的检测性能。

实施例3：

一种计算机可读存储介质，包括存储的计算机程序；

计算机程序被处理器执行时，控制计算机可读存储介质所在设备执行上述实施例1提供的基于上下文增强的遥感图像目标检测模型建立方法，和/或上述实施例2提供的遥感图像目标检测方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于上下文增强的遥感图像目标检测模型建立方法，其特征在于，包括：

基于神经网络建立待训练的目标检测模型，用于对遥感图像进行目标检测，并利用训练数据集对所述待训练的目标检测模型进行训练，从而在训练结束后，得到基于上下文增强的遥感图像目标检测模型；

其中，所述目标检测模型包括：多尺度特征图提取模块，用于提取输入的遥感图像的多尺度特征图F_s；全局空间上下文模块，用于提取所述多尺度特征图F_s的全局上下文信息，得到全局上下文注意力图M_A；边界信息增强模块，用于增强所述多尺度特征图F_s中的边界信息，得到边界信息增强图第一通道权重学习模块，用于捕捉所述边界信息增强图中通道间的信息关联，得到第一通道权重；第一特征融合模块，用于根据所述第一通道权重将所述全局上下文注意力图M_A和所述边界信息增强图/>融合，得到边界信息增强的特征图/>类别信息增强模块，用于增强所述多尺度特征图F_s中的类别信息，得到类别信息增强图/>第二通道权重学习模块，用于捕捉所述类别信息增强图/>中通道间的信息关联，得到第二通道权重；第二特征融合模块，用于根据所述第二通道权重将所述全局上下文注意力图M_A和所述类别信息增强图/>融合，得到类别信息增强的特征图/>第三特征融合模块，用于将所述多尺度注意力图F_s、所述边界信息增强的特征图/>以及所述类别信息增强的特征图/>融合，得到上下文信息增强后的特征图/>目标检测模块，用于对所述上下文信息增强后的特征图/>进行目标检测；

训练过程中，通过整个边界框所在区域对所述边界信息增强模块进行监督，通过目标中心点及高斯扩散函数对所述类别信息增强模块进行监督。

2.如权利要求1所述的基于上下文增强的遥感图像目标检测模型建立方法，其特征在于，所述全局空间上下文模块包括：依次连接的m个自适应卷积模块和一个sigmoid层；

其中，m为预设的正整数。

3.如权利要求1所述的基于上下文增强的遥感图像目标检测模型建立方法，其特征在于，所述边界信息增强模块和所述类别信息增强模块的结构相同；

所述边界信息增强模块包括：n个卷积核大小为1*1的第一卷积层、一个第一融合层和一个卷积核大小为3*3的第二卷积层；n为所述多尺度特征图F_s中图像层数；

n个所述第一卷积层分别用于对所述多尺度特征图F_s中的各层图像进行卷积操作，使各层图像的通道数与图像类别数相同；

所述第一融合层用于融合各所述第一卷积层的输出图像，得到多层特征融合后的特征图；

所述第二卷积层用于对所述多层特征融合后的特征图进行卷积操作。

4.如权利要求1所述的基于上下文增强的遥感图像目标检测模型建立方法，其特征在于，所述第一通道权重学习模块和所述第二通道权重学习模块的结构相同；

所述第一通道权重学习模块包括：第一分支、第二分支、第二融合层以及连接于所述第二融合层之后的sigmoid层；

所述第一分支包括依次连接的自适应平均池化层以及一个或多个自适应卷积模块，所述第二分支包括依次连接的自适应最大池化层以及一个或多个自适应卷积模块；所述第一分支和所述第二分支分别用于捕捉输入的特征图中通道间的信息关联，输出相应的中间特征图；

所述第二融合层用于融合所述第一分支和所述第二分支输出的中间特征图。

5.如权利要求1所述的基于上下文增强的遥感图像目标检测模型建立方法，其特征在于，多尺度特征图提取模块包括依次连接的特征提取网络和全局上下文特征金字塔网络；

所述特征提取网络包括多层残差模块，其中多层残差模块输出的特征图共同组成特征图F_f；

所述全局上下文特征金字塔网络包括第三融合层、第四融合层以及GCNET网络；所述第三融合层用于对所述特征图F_f中的各层图像进行3*3卷积操作并融合上层特征图，得到中间层特征图；所述第四融合层用于对所述中间层特征图中的各层图像进行3*3卷积操作并融合底层特征图，得到增强特征图；所述GCNET网络用于提取所述增强特征图中各层图像的通道注意力信息，得到所述多尺度特征图F_s。

6.如权利要求1-5任一项所述的基于上下文增强的遥感图像目标检测模型建立方法，其特征在于，

通过整个边界框所在区域对所述边界信息增强模块进行监督，包括：

按照设置所述边界信息增强图/>中各像素点的标签；

通过目标中心点及高斯扩散函数对所述类别信息增强模块进行监督，包括：

按照设置所述类别信息增强图/>中各像素点的标签；

其中，(x_p，y_p)表示所述边界信息增强图中像素点p的坐标，label_bp表示所述像素点p的标签值；(x_q，y_q)表示所述类别信息增强图/>中像素点q的坐标，label_cq表示所述像素点q的标签；(x_l，y_l)和(x_r，y_r)分别表示标注框的左上角点和右下角点坐标，(x_c，y_c)表示标注框的中心点坐标；α和β分别为预设的高斯函数系数，h和w分别为所述多尺度特征图F_s的高度和宽度。

7.如权利要求6所述的基于上下文增强的遥感图像目标检测模型建立方法，其特征在于，利用训练数据集对所述待训练的目标检测模型进行训练，其损失函数L_det为：

L_det＝δ₁L_cls+δ₂L_pts+δ₃L_ce+δ₄L_be；

其中，L_cls表示分类损失，L_pts表示边界框回归损失；L_be为边界信息增强的损失，且L_ce为类别信息增强的损失，且Nb和Nc分别表示所述边界信息增强图/>和所述类别信息增强图/>中像素点的总数，p_b和q_c分别表示所述边界信息增强图/>和所述类别信息增强图/>中某个像素点的像素值，label_bp和label_cq分别表示像素值p_b和q_c对应的标签，γ和μ分别为预设参数；δ₁、δ₂、δ₃、δ₄分别为预设的权重参数。

8.如权利要求1-5任一项所述的基于上下文增强的遥感图像目标检测模型建立方法，其特征在于，利用训练数据集对所述待训练的目标检测模型进行训练，包括：依次进行的第一训练阶段和第二训练阶段；

在所述第一训练阶段中，只对所述目标检测模块之前的模型参数进行调整；

在所述第二训练阶段中，对所述待训练的目标检测模型的整体模型参数进行调整。

9.一种遥感图像目标检测方法，其特征在于，包括：

以待检测的遥感图像作为输入，利用权利要求1-8任一项所述的基于上下文增强的遥感图像目标检测模型建立方法建立得到的遥感图像目标检测模型对所述待检测的遥感图像进行目标检测，得到所述待检测的遥感图像中感兴趣的目标位置及其类别。

10.一种计算机可读存储介质，其特征在于，包括存储的计算机程序；

所述计算机程序被处理器执行时，控制所述计算机可读存储介质所在设备执行权利要求1-8任一项所述的基于上下文增强的遥感图像目标检测模型建立方法，和/或权利要求9所述的遥感图像目标检测方法。