CN113221731B

CN113221731B - 一种多尺度遥感图像目标检测方法及系统

Info

Publication number: CN113221731B
Application number: CN202110507602.6A
Authority: CN
Inventors: 马文萍; 李娜; 朱浩; 李腾武; 焦李成; 侯彪; 武越
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2023-10-27
Anticipated expiration: 2041-05-10
Also published as: CN113221731A

Abstract

本发明公开了一种多尺度遥感图像目标检测方法及系统，从遥感图像数据集中读取遥感图像，对图像进行预处理，构建训练数据集和测试数据集。构造基于冗余信息消除有效信息传递的多尺度遥感图形目标检测模型，用训练数据集对检测模型进行训练，利用训练好的目标检测模型对测试数据集进行分类；本发明引入浅层特征图中冗余信息消除策略、有效细节信息向深层特征图传递策略以及前景背景分离策略，提高了目标检测模型对小目标，密集分布目标的检测精度。可用于遥感图像目标检测任务。

Description

一种多尺度遥感图像目标检测方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及一种多尺度遥感图像目标检测方法及系统。

背景技术

如今，图像识别技术作为时代的衍生物，已经与人类生活息息相关。深入研究图像识别技术，将对社会的进步和经济的发展产生重要意义。

遥感是在模拟人类视觉系统基础上发展起来的一种高科技观测技术。通过检测和度量地物目标电磁辖射量所得到的客观记录，把人眼看得到的和看不到的景物转化为人眼所能看到的图像，重现地物目标电磁辖射特性的空间分布状况。

目前，基于深度学习的目标检测算法主要分为两大类，分别为基于区域推荐的目标检测算法和基于回归的目标检测算法。其中，基于区域推荐的目标检测算法主要包括RCNN、Fast-RCNN、Faster-RCNN以及SPPNet等双阶段目标检测器，RCNN利用选择性搜索算法从输入图像中提取感兴趣区域，再使用以及现行回归实现区域分类和边界框校正。SPPNet和Fast-RCNN通过从特征图中提取感兴趣区域来改进RCNN。Faster-RNCN引入区域建议网络RPN产生感兴趣区域，再实现候选区域的目标分类以及位置回归。这些方法都依赖于缓慢的低级区域提议方法。而基于回归的目标检测算法，会直接实现从输入图片到边界框的回归以及类别信息的预测过程，YOLO使用较少的先验框(将图片分为S*S网格)进行分类和回归。SSD在输入图像上密集铺设先验框，并利用不同卷积层的特征实现回归和分类。双阶段目标检测算法精度高但效率低，单阶段目标检测器虽实现了计算效率上的提升，但精度不高。

遥感图像与自然图像相比，具有小目标居多，目标尺度多样，目标密集分布等特点。因而，基于深度学习的目标检测算法在遥感图像领域的应用更具有挑战性。泛化性能不理想，算法效率与精度不高等问题在针对遥感图像的目标检测算法中更是普遍存在。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种多尺度遥感图像目标检测方法及系统，针对遥感图像目标检测中的小目标漏检，大目标重复检测以及目标密集分布等问题，对通过特征提取网络得到的不同尺度特征图，首先采用消除冗余信息策略使其更加关注特定尺寸范围内的目标，其次通过有效信息传递策略增强深层特征的细节信息表征能力，最后引入前景背景分离策略实现有效特征增强，生成待检测特征图后用于最终的目标分类和位置回归，可应用于军事目标识别，交通管理，资源勘探，环境监测，灾害预测和海事渔业等遥感图像目标检测相关领域中。

本发明采用以下技术方案：

一种多尺度遥感图像目标检测方法，包括以下步骤：

S1、从数据集中读取遥感图像，对遥感图像进行预处理后选取训练数据集和测试数据集；

S2、设置先验框的尺寸以及先验框的纵横比a_r，纵横比先验框的中心点分布在特征图各个单元的中心，完成先验框设置；

S3、定义步骤S2设置的先验框与Ground Truth的匹配原则；

S4、构造基于冗余信息消除有效信息传递的多尺度遥感图像目标检测模型，多尺度遥感图像目标检测模型包括基线网络VGG16、冗余信息消除策略模块、有效信息传递策略模块以及前景背景分离策略模块，得到用于检测的特征图以及/>

S5、采用卷积对步骤S4生成的特征图以及/>进行特征检测，在训练过程中，根据步骤S3定义的匹配原则，与Ground Truth相匹配的先验框负责预测目标，产生对应的预测边界框，根据类别目标分数确定预测边界框类别及置信度值，再过滤掉置信度阈值>0.5的预测边界框，将保留的预测边界框进行解码得到坐标信息，之后根据置信度值保留Top-k个预测边界框，采用NMS算法过滤掉重叠度交并比IOU>0.7的预测边界框，将剩余的预测边界框作为检测结果；

S6、根据步骤S5得到的检测结果与Ground Truth标签产生的位置误差、置信度误差以及偏移误差的加权和构造用于引导多尺度遥感图像目标检测模型训练的损失函数；

S7、利用步骤S1得到的训练数据集以及步骤S6设置的损失函数，对步骤S4构建的多尺度遥感图像目标检测模型进行训练，得到训练好的多尺度遥感图像目标检测模型；利用训练好的多尺度遥感图像目标检测模型对步骤S1得到的测试数据集进行检测，得到测试数据集中每个类别的检测精度mAP，实现多尺度遥感图像目标检测。

具体的，步骤S2中，先验框的尺寸设置规则如下；

其中，k∈[1,m]，m为特征图个数，S_k为先验框尺寸与原始图片的比值，S_max和S_min分别表示比值的最大和最小值。

具体的，步骤S3中，匹配原则为：

训练图片中任意一个Ground Truth与对应Ground Truth的交并比最大的先验框优先匹配，将先验框作为正样本；若一个先验框没有与之对应的Ground Truth，则作为负样本；对未匹配的先验框，若先验框与图片中某一个Ground Truth的交并比大于指定阈值，将未匹配的先验框与对应的Ground Truth进行匹配；采用Hard Negative Mining减少负样本数量，使正样本和负样本数量平衡。

具体的，步骤S4具体为：

S401、将原始输入图片经过基线网络VGG16提取目标特征，得到不同尺度特征图，提取Conv_{4_3}层卷积输出特征图记为p₁，再将Conv₇,Conv_{8_2}卷积层输出特征经过残差模块进行下采样，得到特征图p₂和p₃；

S402、将步骤S401得到的特征图p₁和p₂，特征图p₂和p₃分别输入冗余信息消除策略模块，处理得到消除冗余信息之后的特征图p′₁和p′₂；

S403、将特征图p′₂和p₁,p₁、p₂和p₃分别输入有效信息传递策略模块得到特征图p″₂和p′₃，实现浅层特征图中有效细节信息向深层特征图的传递；

S404、将特征图p′₁p₁′、p″₂以及p′₃分别经过多个残差模块处理，提高特征图语义信息表征能力后，再分别输入前景背景分离策略模块进行处理，得到最终用于检测的特征图以及/>

具体的，步骤S5中，设先验框位置表示为d＝(d^cx，d^cy，d^w，d^h)，先验框对应的预测边界框位置表示为b＝(b^cx，b^xy，b^w，^h)，边界框的真实预测值l是预测边界框相对于先验框的偏移值，对预测值l进行解码得到边界框的真实位置b，尺寸为m*n的特征图共有m*n个像素单元，每个单元设置k个先验框，每个单元产生k×(C+4)个预测值，所有单元共计生成m×n×k×(C+4)个预测值，对应k×(C+4)个卷积核。

具体的，步骤S6中，损失函数为：

其中，x表示特征图中任意一点处的像素值，N为正样本先验框数量，为引导参数，当/>时，表示第i个先验框与第j个Ground Truth匹配，且Ground Truth的类别为p，c为类别置信度预测值，l表示边界框的位置预测值，g为Ground Truth的位置参数，O为预测偏移值，A为计算偏移值，α、β为权重系数。

进一步的，位置误差L_loc(c，l，g)定义如下：

其中，x_ij表示第i个先验框与第j个Ground Truth的匹配结果，smooth_L1表示Smooth L1损失函数，l表示边界框的位置预测值，g＝(g^cx，g^cy，g^w，g^h)表示Ground Truth的位置参数，表示真实框相对于先验框的偏移值，d＝(d^cx，d^cy，d^w，d^h)表示先验框的位置参数。

进一步的，置信度误差l_conf(x，c)具体为：

其中，为指示参数，当/>时，表示第i个先验框与第j个GroundTruth匹配，且Ground Truth的类别为p，c为类别置信度预测值，Pos为正样本集合，Neg为负样本集合，,/>表示第i个先验框被预测为类别c的置信度分数，/>表示经过Softmax loss处理后第i个先验框被预测为背景类的概率，/> 表示经过Softmax loss处理后第i个先验框被预测为类别c的概率，/>

进一步的，对于偏移误差L_off(O，A，g)，特征图p′₁,p″₂以及p′₃分别通过卷积预测一个偏移值最终的偏移预测值/>另一条支路，特征图p′₁,p″₂以及p′₃分别通过通道级MaxPooling操作以及/>进行归一化处理，得到1通道特征图h_i，max以及min分别表示特征图中最大像素点值和最小像素点值；若h_i中某一点(a_i，b_i)处的值大于其八领域的值，则保存该点处的位置信息(a_i，b_i)，最终得到目标点集合[A，B],其中/>n表示预测中心点的总个数。

本发明的另一技术方案是，一种多尺度遥感图像目标检测系统，包括：

预处理模块，从数据集中读取遥感图像，对遥感图像进行预处理后选取训练数据集和测试数据集；

先验框模块，设置先验框的尺寸以及先验框的纵横比a_r，纵横比先验框的中心点分布在特征图各个单元的中心，完成先验框设置；

匹配模块，定义先验框模块设置的先验框与Ground Truth的匹配原则；

特征图模块，构造基于冗余信息消除有效信息传递的多尺度遥感图像目标检测模型，并设置多尺度遥感图像目标检测模型中包含的模块参数，得到用于检测的特征图以及/>

训练模块，采用卷积对特征图模块生成的特征图以及/>进行特征检测，在训练过程中，根据匹配模块定义的匹配原则，与Ground Truth相匹配的先验框负责预测目标，产生对应的预测边界框，根据类别目标分数确定预测边界框类别及置信度值，再过滤掉置信度阈值>0.5的预测边界框，将保留的预测边界框进行解码得到坐标信息，根据置信度值保留Top-k个预测边界框，采用NMS算法过滤掉重叠度交并比IOU>0.7的预测边界框，将剩余的预测边界框作为检测结果；

函数模块，根据训练模块得到的检测结果与Ground Truth标签产生的位置误差、置信度误差以及偏移误差的加权和构造用于引导多尺度遥感图像目标检测模型训练的损失函数；

检测模块，利用预处理模块得到的训练数据集以及函数模块设置的损失函数，对特征图模块构建的多尺度遥感图像目标检测模型进行训练，得到训练好的多尺度遥感图像目标检测模型；利用训练好的多尺度遥感图像目标检测模型对预处理模块得到的测试数据集进行检测，得到测试数据集中每个类别的检测精度mAP，实现多尺度遥感图像目标检测。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种多尺度遥感图像目标检测方法，是一种基于冗余信息消除有效信息传递的目标检测方法，将目标根据尺寸分布在较小的区间再进行检测。具体来说，擦除浅层特征图上的大目标特征，只在浅层保留小目标特征，使得网络能够更好地捕获小目标特征，提高模型检测小目标的能力，同时也抑制了浅层中的大目标显著特征，减少假阳性问题。其次，将浅层中被擦除的大目标的显著几何细节信息传递给深层的特征图，弥补深层特征图细节信息不充分的缺陷，增强大目标细节特征，提高整体检测性能。对于小而密集分布目标，通过前景背景分离模块，依据建立的隶属度函数，求得每个点属于前景的隶属程度，从而针对性的增强目标特征，抑制背景噪声，防止因噪声信息以及边界模糊问题导致的误检及漏检问题，提高遥感图像目标检测模型的整体检测性能。

进一步的，步骤S2中的先验框尺寸规则是根据遥感数据集中的目标分布特性设置的，这使得特征图中每个单元分布尺度以及纵横比不同的先验框，预测边界框以这些先验框为基准，在一定程度上降低了模型的训练难度。

进一步的，在模型训练阶段，步骤S3中的先验框匹配原则，引导步骤S2中设置的先验框与训练图片中的Ground Truth进行匹配，使得每个Ground Truth一定有与之匹配的先验框，其次，采用Hard Negative Mining方法，确保了模型中正负样本的平衡，使得模型在训练过程中更好的收敛。

进一步的，步骤S4中，对于输入图片，首先经过特征提取器提取图像特征，再分别通过冗余信息消除模块(UIEM)以及有效信息传递模块(DITM)，消除浅层特征图上的显著大目标特征信息，增强深层特征图的细节信息表征能力，提出了Offset_Loss损失函数，用于修正冗余信息消除模块(UIEM)以及有效信息传递模块(DITM)中多层特征图间目标位置信息分布不一致问题，最后通过前景背景分离模块(FBSM)实现前景背景分离，增强目标信息，抑制背景信息。

进一步的，步骤S5中直接利用卷积对不同尺寸特征图进行特征检测得到最终检测结果，本发明中，对于步骤S4中得到的待检测特征图以及/>分别用两个卷积层进行卷积操作，其中一个卷积层输出目标类别的置信度分数，另一个卷积层输出预测边界框的位置信息。与传统方法中直接采用全连接层进行分类和回归相比，减少了模型参数量，提高了模型的检测效率。

进一步的，步骤S6中损失函数L(x,c,l,g)由位置误差，置信度误差以及偏移误差三部分的加权和组成。设置损失函数的目的在于，在模型训练阶段，损失函数可以监督模型更好的学习遥感图像特征，提高模型优化速度以及训练结果的稳定性。

进一步的，位置误差L_loc(x,l,g)定义为预测边界框与Ground Truth之间的SmoothL1损失，在模型训练阶段，利用Ground Truth的位置信息作为标签，引导模型更好的进行目标位置回归，提高预测边界框的位置回归精度。

进一步的，置信度误差L_conf定义为多类别置信度上的Softmax损失，在模型训练阶段，利用Ground Truth所属类别标签监督模型对目标的分类预测，提高模型的目标分类准确度。

进一步的，偏移误差Offset_Loss损失函数，用于修正冗余信息消除模块(UIEM)以及有效信息传递模块(DITM)中多层特征图间目标位置信息分布不一致问题，实现有监督的冗余特征消除和有效信息传递，避免模型在冗余信息消除模块(UIEM)以及有效信息传递模块(DITM)中，消除有利目标特征信息或者引入干扰噪声信息的问题。

综上所述，本发明与现有技术相比具有以下优点：

1.对于小目标，本发明在目标检测模型中设计了冗余信息消除模块(UIEM)用于消除浅层特征图上的显著大目标特征以避免特征混淆，设计了有效信息传递模块(DITM)用于增强深层特征图的细节信息表征能力以增强特征聚合。

2.本发明在目标检测模型中设计了Offset_Loss损失函数，用于修正冗余信息消除模块(UIEM)以及有效信息传递模块(DITM)中多层特征图间目标位置信息分布不一致问题，实现有监督的冗余特征消除和有效信息传递。

3.对于小而密集目标，本发明在目标检测模型中设计了前景背景分离模块(FBSM)，该模块结合了模糊推理相关知识，增强目标信息，抑制背景信息，避免了因噪声信息以及边界模糊问题导致的误检及漏检问题。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明提出的基于冗余信息消除有效信息传递的多尺度遥感图像目标检测方法总体结构图；

图2为本发明的UIEM冗余信息消除策略模块图；

图3为本发明的DITM有效信息传递策略模块图；

图4为本发明FBSM前景背景分离策略模块图；

图5为本发明的Offset_Loss偏移损失函数设计图；

图6为本发明的Resnet Bottleneck残差模块细节图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种多尺度遥感图像目标检测方法，解决了现有技术中小目标以及密集分布目标检测精度低的问题。其方案是：从遥感图像数据集中读取遥感图像，对图像进行预处理，构建训练数据集和测试数据集。构造基于冗余信息消除有效信息传递的多尺度遥感图形目标检测模型，用训练数据集对检测模型进行训练，利用训练好的目标检测模型对测试数据集进行分类。本发明引入浅层特征图中冗余信息消除策略、有效细节信息向深层特征图传递策略以及前景背景分离策略，提高了目标检测模型对小目标，密集分布目标的检测精度。可用于遥感图像目标检测任务。

请参阅图1，本发明一种多尺度遥感图像目标检测方法，从数据集中读入遥感图像，得到图像矩阵后，对样本进行预处理，选取训练数据集和测试数据集，构造基于冗余信息消除有效信息传递的多尺度遥感图像目标检测模型，用训练数据集对检测模型进行训练，利用训练好的模型对测试数据集进行检测，Backbone表示特征提取基线网络，RB表示残差模块，UIEM表示冗余信息消除策略，DITM表示有效信息传递策略，FBSM表示前景背景分离策略，DH表示检测头，包括以下步骤：

S1、从数据集中读取遥感图像，并对图像进行预处理，包括缩放至固定尺寸，随机旋转，及镜像翻转等操作，选取遥感图像数据集中70％数据作为训练数据集，30％数据作为测试数据集；

S2、先验框设置；

目标检测模型中提取的不同尺寸的特征图对应不同数目的先验框。本实验中，遥感图像输入尺寸为400×400，用于检测的特征图尺寸为50，25，13，先验框的设置，包含尺度和纵横比两部分。

S201、先验框的尺寸设置规则；

其中，k∈[1,m]，m指特征图个数，S_k为先验框尺寸与原始图片的比值，S_max和S_min分别表示比值的最大和最小值，为0.9和0.2

S202、针对纵横比a_r，选取

对于特定的纵横比，按如下公式计算先验框的宽度与高度(S_m代表先验框实际尺寸)：

通常，每个特征图在设置一个a_r＝1且尺度为S_m的先验框的前提下，还会设置一个尺度为且a_r＝1的先验框。因此，每个特征图具有6个先验框。

S203、每个单元的先验框的中心点分布在特征图各个单元的中心，即其中，|f_k|为特征图的大小。

S3、先验框匹配；

在训练过程中，与训练图片Ground Truth(真实框)相匹配的先验框负责预测目标。匹配原则有两点，第一，为保证每个Ground Truth一定有与之对应的先验框，训练图片中任意一个Ground Truth和与此Ground Truth交并比最大的先验框优先匹配，此先验框称为正样本。若一个先验框没有与之对应的Ground Truth，则称之为负样本。一般情况下，图片中Ground Truth数量极少，若仅遵循第一个原则匹配，将导致正负样本不平衡现象。第二，如果仅根据第一原则未匹配的先验框，与某个Ground Truth的交并比(IOU)大于指定阈值(IOU>0.7)，则它与此Ground Truth进行匹配。

依据上述两个原则进行先验框匹配后，依旧无法保证正负样本数量平衡。针对以上问题，实验中采用Hard Negative Mining(难例挖掘)减少负样本数量，从而保证正负样本比例接近1:3。

S4、构造基于冗余信息消除有效信息传递的多尺度遥感图像目标检测模型，多尺度遥感图像目标检测模型包括基线网络VGG16、冗余信息消除策略模块、有效信息传递策略模块以及前景背景分离策略模块；

S401、原始输入图片经过基线网络VGG16提取目标特征，得到不同尺度特征图，提取Conv_{4_3}层卷积输出特征图记为p₁，再将Conv₇,Conv_{8_2}卷积层输出特征经过残差模块(Resnet Bottleneck)进行下采样，得到特征图p₂和p₃，如图6所示，残差模块由残差和恒等映射两条支路组成。残差支路依次由1×1、3×3、1×1，3个卷积层构成，1×1卷积，能够对特征通道数起到升维或者降维的作用，从而使特征图以相对较低的维度输入3×3卷积进行运算，提高计算效率；

S402、特征图p₁和p₂，p₂和p₃分别输入冗余信息消除策略模块(UIEM)，经过处理，得到消除冗余信息之后的特征图p′₁和p′₂；

请参阅图2，对于冗余信息消除策略模块(UIEM)，AvgPooling以及MaxPooling分别表示通道级平均池化和通道级最大池化，首先将p_s+1上采样到p_s特征图尺寸，记为p_u，对p_u进行通道级AvgPooling和通道级MaxPooling操作，将得到的两个1通道特征图点乘，再通过Sigmoid函数进行非线性处理，将得到的特征向量与相同尺寸全1特征向量作差求得掩膜mask_s+1,将mask_s+1与p_s做Hadamard Product运算后，再与p_s做Element-wise sum运算，得到p_s′。

S403、将特征图p′₂和p₁,p₁、p₂和p₃分别输入有效信息传递策略模块(DITM)得到特征图p″₂和p′₃，实现浅层特征图中有效细节信息向深层特征图的传递；

请参阅图3，对于有效信息传递策略模块(DITM)，以生成特征图p′₃为例，将特征图p₃降采样得到与特征图p₂和p₁尺寸一致的两个特征图，分别记为特征图p₃₂和p₃₁，分别对特征图p₃₂以及特征图p₃₁进行通道级AvgPooling和通道级MaxPooling操作，将得到的两个1通道特征图点乘后通过Sigmoid函数进行非线性处理，得到掩膜mask₁₃和mask₂₃，将掩膜mask₁₃与特征图p₁做Hadamard Product运算得到掩膜p_{1_mask}，经过残差模块(Resnet Bottleneck)下采样至与特征图p₂相同尺寸，记为p_{1_mask_d}，掩膜p_{1_mask_d}与mask₂₃和p₂做Hadamard Product运算得到的特征向量做Concat操作，输出结果与经过1*1卷积的特征图p₃做Element-wisesum运算，得到特征图p′₃。

S404、将特征图p′₁、p″₂以及p′₃分别经过多个残差模块处理，提高特征图语义信息表征能力后，再分别输入前景背景分离策略模块(FBSM)进行处理，得到最终用于检测的特征图以及/>如图4所示；

多尺度遥感图像目标检测模型中各个模块参数设置

残差模块Backbone(VGG16)参数设置：

第一层：3*3卷积层，步长为1，输入通道数3，输出通道数64；

第二层：3*3卷积层，步长为1；输入通道数64，输出通道数64；

第三层：2*2最大池化层，步长为2；

第四层：3*3卷积层，步长为1，输入通道数64，输出通道数128；

第五层：3*3卷积层，步长为1，输入通道数128，输出通道数128；

第六层：2*2最大池化层，步长为2；

第七层：3*3卷积层，步长为1，输入通道数128，输出通道数256；

第八层：3*3卷积层，步长为1，输入通道数128，输出通道数256；

第九层：3*3卷积层，步长为1，输入通道数128，输出通道数256；

第十层：2*2最大池化层，步长为2；

第十一层：3*3卷积层，步长为1，输入通道数256，输出通道数512；

第十二层：3*3卷积层，步长为1，输入通道数512，输出通道数512；

第十三层：3*3卷积层，步长为1，输入通道数512，输出通道数512；

第十四层：2*2最大池化层，步长为2；

第十五层：3*3卷积层，步长为1，输入通道数512，输出通道数512；

第十六层：3*3卷积层，步长为1，输入通道数512，输出通道数512；

第十七层：3*3卷积层，步长为1，输入通道数512，输出通道数512；

第十八层：3*3最大池化层，步长为1

第十九层：3*3卷积层，扩张率为6，步长为1，输入通道数512，通道数1024；

第二十层：3*3卷积层，步长为1，输入通道数1024，输出通道数1024。

冗余信息消除策略模块(UIEM)参数设置(以特征图p₁,p₂为例)：

p₂掩膜生成支路(mask₁₂)：

上采样层，采样方式为双线性差值；

50*50通道级AvgPooling层；

50*50通道级MaxPooling层；

1*1卷积层，步长为1，输入通道数为1，输出通道数为1；

Sigmoid层，对1通道特征图mask₁₂进行非线性处理，输入通道数为1，输出通道数为1；

p₁冗余信息消除支路：

1*1卷积层，步长为1，输入通道数为512，输出通道数为512；

有效信息传递策略模块(DITM)参数设置(以特征图p₁,p₂,p₃为例)：

p₃掩膜生成支路1(mask₂₃)：

上采样层，采样方式为双线性差值；

25*25通道级AvgPooling层；

25*25通道级MaxPooling层；

1*1卷积层，步长为1，输入通道数为1，输出通道数为1；

Sigmoid层，对1通道特征图mask₂₃进行非线性处理，输入通道数为1，输出通道数为1；

p₃掩膜生成支路2(mask₁₃)：

上采样层，采样方式为双线性差值；

50*50通道级AvgPooling层；

50*50通道级MaxPooling层；

1*1卷积层，步长为1，输入通道数为1，输出通道数为1；

Sigmoid层，对1通道特征图mask₁₃进行非线性处理，输入通道数为1，输出通道数为1；

下采样支路：

1*1卷积层，步长为1，输入通道数为512，输出通道数为256；

3*3卷积层，步长为2，输入通道数为256，输出通道数为256；

1*1卷积层，步长为1，输入通道数为256，输出通道数为512；

融合支路：

1*1卷积层，步长为1，输入通道数为512，输出通道数为1024。

S5、采用卷积对S4生成的特征图进行特征检测，首先根据类别目标分数确定预测边界框类别(置信度最大的类别表示预测边界框类别)及其置信度值，再根据置信度阈值(>0.5)过滤掉部分预测边界框，将保留的预测边界框进行解码，得到真正的坐标信息，之后根据置信度值(降序排列)保留Top-k个预测边界框，采用NMS算法过滤掉重叠度交并比IOU>0.7的预测边界框，最后剩余的预测边界框为最终检测结果；

对于S5中用于特征检测的卷积结构，每一个先验框对应一组检测值，检测值包括两部分，第一部分是每个类别的置信度(包括背景)，其中置信度最高的类别为预测边界框所属类别。第二部分为预测边界框的位置信息，包含四个值(C_x,C_y,W,H)，依次表示预测边界框的中心坐标以及宽高。

在真实预测值中，预测边界框的位置信息是相对于先验框的偏移值。

假设先验框位置表示为d＝(d^cx,d^cy,d^w,d^h)，预测边界框位置表示为b＝(b^cx,b^xy,b^w,b^h)，则预测边界框的真实预测值l可表示为：

/>

上述操作过程称为预测边界框的编码(Encode)。

预测时，需要将此过程进行逆向操作，即解码(Decode)，从预测值l到预测边界框的真实位置b，需要经过以下操作：

b^cx＝d^wl^cx+d^cx

b^cy＝d^yl^cy+d^cy

b^w＝d^wexp(l^w)

b^y＝d^hexp(l^h)

对于尺寸为m×n的特征图，共有m×n个像素单元。每个单元设置k个先验框，则每个单元产生k×(C+4)个预测值。所有的单元共计生成m×n×k×(C+4)个预测值。因此需要k×(C+4)个卷积核完成特征图检测任务。

S6、损失函数由三个部分组成，如图5所示，定义为位置误差(Location Loss)、置信度误差(Confidence Loss)以及偏移误差(Offset Loss)的加权和：

其中，N为正样本先验框数量，为引导参数，当/>时，表示第i个先验框与第j个Ground Truth匹配，且Ground Truth的类别为p，c为类别置信度预测值，l表示边界框的位置预测值，g为Ground Truth的位置参数，O为预测偏移值，A为计算偏移值，α，β为权重系数，其中α＝0.999，β＝0.001。

对于位置误差，采用Smooth L1 Loss，定义如下：

/>

由于的存在，位置误差仅针对正样本进行计算。

其中，x_ij表示第i个先验框与第j个Ground Truth的匹配结果，smooth_L1表示Smooth L1损失函数，l表示边界框的位置预测值，g＝(g^cx，g^cy，g^w，g^h)表示Ground Truth的位置参数，表示真实框相对于先验框的偏移值。d＝(d^cx，d^cy，d^w，d^h)表示先验框的位置参数。

对于置信度误差，采用Softmax Loss:

其中，为指示参数，当/>时，表示第i个先验框与第j个GroundTruth匹配，且Ground Truth的类别为p，c为类别置信度预测值，Pos为正样本集合，Neg为负样本集合，,/>表示第i个先验框被预测为类别c的置信度分数,/>表示经过Softmax loss处理后第i个先验框被预测为背景类的概率，/> 表示经过Softmax loss处理后第i个先验框被预测为类别c的概率，/>

对于偏移误差，特征图p′₁,p″₂以及p′₃分别通过卷积预测一个偏移值最终的偏移预测值/>另一条支路，特征图p′₁,p″₂以及p′₃分别通过通道级MaxPooling操作以及/>进行归一化处理，得到1通道特征图h_i，其中x表示特征图中任意一点处的像素值，max以及min分别表示特征图中最大像素点值和最小像素点值。若h_i中某一点(a_i，b_i)处的值大于其八领域的值，则保存该点处的位置信息(a_i，b_i)，最终得到目标点集合[A，B],其中/>n表示预测中心点的总个数。

Ground Truth中真实目标中心点位置信息记为[X,Y]，则偏移误差L_off表示为：

S7、用训练数据集对模型进行训练，得到训练好的检测模型；利用训练好的模型对测试数据集进行检测，得到测试数据集中每个类别的检测精度mAP，实现多尺度遥感图像目标检测。

本发明再一个实施例中，提供一种多尺度遥感图像目标检测系统，该系统能够用于实现上述多尺度遥感图像目标检测方法，具体的，该多尺度遥感图像目标检测系统包括预处理模块、先验框模块、匹配模块、特征图模块、训练模块、函数模块以及检测模块。

其中，预处理模块，从数据集中读取遥感图像，对遥感图像进行预处理后选取训练数据集和测试数据集；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于多尺度遥感图像目标检测方法的操作，包括：

从数据集中读取遥感图像，对遥感图像进行预处理后选取训练数据集和测试数据集；设置先验框的尺寸以及先验框的纵横比a_r，纵横比先验框的中心点分布在特征图各个单元的中心，完成先验框设置；定义先验框与Ground Truth的匹配原则；构造基于冗余信息消除有效信息传递的多尺度遥感图像目标检测模型，并设置多尺度遥感图像目标检测模型中包含的模块参数，得到用于检测的特征图/>以及/>采用卷积对特征图/>以及/>进行特征检测，在训练过程中，根据匹配原则，与Ground Truth相匹配的先验框负责预测目标，产生对应的预测边界框，根据类别目标分数确定预测边界框类别及置信度值，再过滤掉置信度阈值>0.5的预测边界框，将保留的预测边界框进行解码得到坐标信息，之后根据置信度值保留Top-k个预测边界框，采用NMS算法过滤掉重叠度交并比IOU>0.7的预测边界框，将剩余的预测边界框作为检测结果；根据检测结果与GroundTruth标签产生的位置误差、置信度误差以及偏移误差的加权和构造用于引导多尺度遥感图像目标检测模型训练的损失函数；利用训练数据集以及损失函数，对构建的多尺度遥感图像目标检测模型进行训练，得到训练好的多尺度遥感图像目标检测模型；利用训练好的多尺度遥感图像目标检测模型对测试数据集进行检测，得到测试数据集中每个类别的检测精度mAP，实现多尺度遥感图像目标检测。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关多尺度遥感图像目标检测方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

1.仿真条件：

硬件平台为：HP-Z840工作站，TITAN-X-12GB-GPU,64GB RAM。

软件平台为：Python，PyTorch深度学习框架。

2.仿真内容与结果：

本发明仿真实验采用NWPU VHR-10遥感图像数据集。总共包含800张高分辨率遥感图像。其中带标签图像总计650张，包含飞机，油罐，港口，操场，轿车，棒球场，网球场，篮球场，轮船以及桥梁共计10个类别。利用训练好的检测模型对遥感图像测试数据集进行检测，并与传统目标检测模型进行比较。表1是检测结果精度对比。

表1.本发明与传统方法性能比较

方法	本发明(AP)	传统方法(AP)
			飞机	90.73	90.16
油罐	75.71	66.50
			港口	76.53	76.40
操场	99.03	99.10
			轿车	42.80	31.10
桥梁	60.98	77.26
			棒球场	96.78	90.15
网球场	70.03	53.83
			篮球场	82.68	63.64
轮船	73.70	73.58
			mAP	76.00	72.17

从表1中可以看出，本发明方法相比于传统方法，在检测精度上有了较大的提高，小目标检测效果以及密集分布目标检测效果得到了提升。

综上所述，本发明一种多尺度遥感图像目标检测方法，具有以下优点：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种多尺度遥感图像目标检测方法，其特征在于，包括以下步骤：

S3、定义步骤S2设置的先验框与Ground Truth的匹配原则；

S4、构造基于冗余信息消除有效信息传递的多尺度遥感图像目标检测模型，多尺度遥感图像目标检测模型包括基线网络VGG16、冗余信息消除策略模块、有效信息传递策略模块以及前景背景分离策略模块，得到用于检测的特征图以及/>具体为：

S401、将原始输入图片经过基线网络VGG16提取目标特征，得到不同尺度特征图，提取Conv_{4_3}层卷积输出特征图记为p₁，再将Conv₇，Conv_{8_2}卷积层输出特征经过残差模块进行下采样，得到特征图p₂和p₃；

对于冗余信息消除策略模块，首先将p_s+1上采样到p_s特征图尺寸，记为p_u，对p_u进行通道级平均池化和通道级最大池化操作，将得到的两个1通道特征图点乘，再通过Sigmoid函数进行非线性处理，将得到的特征向量与相同尺寸全1特征向量作差求得掩膜mask_s+1，将mask_s+1与p_s做Hadamard Product运算后，再与p_s做Element-wise sum运算，得到p′_s；

S403、将特征图p′₂和p₁，p₁、p₂和p₃分别输入有效信息传递策略模块得到特征图p″₂和p′₃，实现浅层特征图中有效细节信息向深层特征图的传递；

对于有效信息传递策略模块，将特征图p₃降采样得到与特征图p₂和p₁尺寸一致的两个特征图，分别记为特征图p₃₂和p₃₁，分别对特征图p₃₂以及特征图p₃₁进行通道级平均池化和通道级最大池化操作，将得到的两个1通道特征图点乘后通过Sigmoid函数进行非线性处理，得到掩膜mask₁₃和mask₂₃，将掩膜mask₁₃与特征图p₁做Hadamard Product运算得到掩膜p_{1_mask}，经过残差模块下采样至与特征图p₂相同尺寸，记为p_{1_mask_d}，掩膜p_{1_mask_d}与mask₂₃和p₂做Hadamard Product运算得到的特征向量做Concat操作，输出结果与经过1*1卷积的特征图p₃做Element-wise sum运算，得到特征图p′₃；

前景背景分离策略模块具体为：将特征图p_s与边缘值初始化为1，内部值初始化为0的张量进行点乘运算，获取特征图p_s的所有边缘像素值，将边缘像素值求和再平均之后的输出结果作为背景值，将特征图p_s与背景值作差，得到差值特征delta，定义函数f最终用于检测的特征图p_{s_d}的获得方式表示如下：

p_{s_d}＝p_s+(p_s·f(delta))；

S404、将特征图p′₁、p″₂以及p′₃分别经过多个残差模块处理，提高特征图语义信息表征能力后，再分别输入前景背景分离策略模块进行处理，得到最终用于检测的特征图以及/>

S5、采用卷积对步骤S4生成的特征图以及/>进行特征检测，在训练过程中，根据步骤S3定义的匹配原则，与Ground Truth相匹配的先验框负责预测目标，产生对应的预测边界框，根据类别目标分数确定预测边界框类别及置信度值，再过滤掉置信度阈值＞0.5的预测边界框，将保留的预测边界框进行解码得到坐标信息，之后根据置信度值保留Top-k个预测边界框，采用NMS算法过滤掉重叠度交并比IOU＞0.7的预测边界框，将剩余的预测边界框作为检测结果；

2.根据权利要求1所述的方法，其特征在于，步骤S2中，先验框的尺寸设置规则如下；

其中，k∈[1，m]，m为特征图个数，S_k为先验框尺寸与原始图片的比值，S_max和S_min分别表示比值的最大和最小值。

3.根据权利要求1所述的方法，其特征在于，步骤S3中，匹配原则为：

4.根据权利要求1所述的方法，其特征在于，步骤S5中，设先验框位置表示为d＝(d^cx，d^cy，d^w，d^h)，先验框对应的预测边界框位置表示为b＝(b^cx，b^cy，b^w，b^h)，边界框的真实预测值l是预测边界框相对于先验框的偏移值，对预测值l进行解码得到边界框的真实位置b，尺寸为m*n的特征图共有m*n个像素单元，每个单元设置k个先验框，每个单元产生k×(C+4)个预测值，所有单元共计生成m×n×k×(C+4)个预测值，对应k×(C+4)个卷积核。

5.根据权利要求1所述的方法，其特征在于，步骤S6中，损失函数为：

其中，x表示特征图中任意一点处的像素值，N为正样本先验框数量，为引导参数，当/>时，表示第i个先验框与第j个Ground Truth匹配，且Ground Truth的类别为p，c为类别置信度预测值，l表示边界框的位置预测值，g为Ground Truth的位置参数，O为预测偏移值，A为计算偏移值，α、β为权重系数，L_conf(x，c)为置信度误差，L_loc(x，l，g)为位置误差，L_off(O，A，g)为偏移误差。

6.根据权利要求5所述的方法，其特征在于，位置误差L_loc(x，l，g)定义如下：

7.根据权利要求5所述的方法，其特征在于，置信度误差L_conf(x，c)具体为：

其中，为指示参数，当/>时，表示第i个先验框与第j个Ground Truth匹配，且Ground Truth的类别为p，c为类别置信度预测值，Pos为正样本集合，Neg为负样本集合，/>表示第i个先验框被预测为类别p的置信度分数，/>表示经过Softmax loss处理后第i个先验框被预测为背景类的概率，/> 表示经过Softmax loss处理后第i个先验框被预测为类别p的概率，/>

8.根据权利要求5所述的方法，其特征在于，对于偏移误差L_off(O，A，g)，特征图p′₁，p″₂以及p′₃分别通过卷积预测一个偏移值最终的偏移预测值/>另一条支路，特征图p′₁，p″₂以及p′₃分别通过通道级MaxPooling操作以及/>进行归一化处理，得到1通道特征图h_i，max以及min分别表示特征图中最大像素点值和最小像素点值；若h_i中某一点(a_i，b_i)处的值大于其八领域的值，则保存该点处的位置信息(a_i，b_i)，最终得到目标点集合[A，b]，其中/>n表示预测中心点的总个数。

9.一种多尺度遥感图像目标检测系统，其特征在于，包括：

特征图模块，构造基于冗余信息消除有效信息传递的多尺度遥感图像目标检测模型，并设置多尺度遥感图像目标检测模型中包含的模块参数，得到用于检测的特征图以及/>具体为：

将原始输入图片经过基线网络VGG16提取目标特征，得到不同尺度特征图，提取Conv_{4_3}层卷积输出特征图记为p₁，再将Conv₇，Conv_{8_2}卷积层输出特征经过残差模块进行下采样，得到特征图p₂和p₃；将特征图p₁和p₂，特征图p₂和p₃分别输入冗余信息消除策略模块，处理得到消除冗余信息之后的特征图p′₁和p′₂；对于冗余信息消除策略模块，首先将p_s+1上采样到p_s特征图尺寸，记为p_u，对p_u进行通道级平均池化和通道级最大池化操作，将得到的两个1通道特征图点乘，再通过Sigmoid函数进行非线性处理，将得到的特征向量与相同尺寸全1特征向量作差求得掩膜mask_s+1，将mask_s+1与p_s做Hadamard Product运算后，再与p_s做Element-wise sum运算，得到p′_s；

将特征图p′₂和p₁，p₁、p₂和p₃分别输入有效信息传递策略模块得到特征图p″₂和p′₃，实现浅层特征图中有效细节信息向深层特征图的传递；对于有效信息传递策略模块，将特征图p₃降采样得到与特征图p₂和p₁尺寸一致的两个特征图，分别记为特征图p₃₂和p₃₁，分别对特征图p₃₂以及特征图p₃₁进行通道级平均池化和通道级最大池化操作，将得到的两个1通道特征图点乘后通过Sigmoid函数进行非线性处理，得到掩膜mask₁₃和mask₂₃，将掩膜mask₁₃与特征图p₁做Hadamard Product运算得到掩膜p_{1_mask}，经过残差模块下采样至与特征图p₂相同尺寸，记为p_{1_mask_d}，掩膜p_{1_mask_d}与mask₂₃和p₂做Hadamard Product运算得到的特征向量做Concat操作，输出结果与经过1*1卷积的特征图p₃做Element-wise sum运算，得到特征图p′₃；

p_{s_d}＝p_s+(p_s·f(delta))；

将特征图p′₁p′₁、p″₂以及p′₃分别经过多个残差模块处理，提高特征图语义信息表征能力后，再分别输入前景背景分离策略模块进行处理，得到最终用于检测的特征图以及/>

训练模块，采用卷积对特征图模块生成的特征图以及/>进行特征检测，在训练过程中，根据匹配模块定义的匹配原则，与Ground Truth相匹配的先验框负责预测目标，产生对应的预测边界框，根据类别目标分数确定预测边界框类别及置信度值，再过滤掉置信度阈值＞0.5的预测边界框，将保留的预测边界框进行解码得到坐标信息，根据置信度值保留Top-k个预测边界框，采用NMS算法过滤掉重叠度交并比IOU＞0.7的预测边界框，将剩余的预测边界框作为检测结果；

函数模块，根据训练模块得到的检测结果与GroundTruth标签产生的位置误差、置信度误差以及偏移误差的加权和构造用于引导多尺度遥感图像目标检测模型训练的损失函数；

检测模块，利用预处理模块得到的训练数据集以及函数模块设置的损失函数，对特征图模块构建的多尺度遥感图像目标检测模型进行训练，得到训练好的多尺度遥感图像目标检测模型；

利用训练好的多尺度遥感图像目标检测模型对预处理模块得到的测试数据集进行检测，得到测试数据集中每个类别的检测精度mAP，实现多尺度遥感图像目标检测。