CN111666836B

CN111666836B - M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法

Info

Publication number: CN111666836B
Application number: CN202010437866.4A
Authority: CN
Inventors: 张菁; 田吉淼; 赵晓蕾; 卓力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-05-02
Anticipated expiration: 2040-05-22
Also published as: CN111666836A

Abstract

M‑F‑Y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法属于遥感领域。本发明首先在轻量化卷积神经网络(CNN)模型MobileNetV3‑Small的基础上构建特征金字塔网络结构FPN，对高分辨率遥感影像提取并融合多尺度深度特征，联合利用YOLOv3tiny目标检测框架构建M‑F‑Y型轻量化卷积神经网络；之后通过构建互补注意力网络结构，抑制复杂背景同时提升对目标的空间位置信息的关注；最后使用基于迁移学习的滤波器嫁接策略训练模型，实现高分辨率遥感影像目标检测。本发明可以在提高高分辨率遥感影像目标检测准确率同时，通过更少的参数量以及更低的延迟减少对平台高速计算力的约束，为高分辨率遥感影像目标检测的实用化提供技术积累。

Description

M-F-Y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法

技术领域

M-F-Y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法属于遥感领域。

背景技术

随着遥感技术的飞速发展，遥感影像数量急剧增加，特别是高分辨率卫星如IKONOS、Quickbird、WorldView和GF-1等的成熟应用，使得遥感影像的分辨率可达到米级。高分辨率遥感影像包含了丰富的空间、纹理特征，以及更加复杂的空间布局和几何结构。对高分辨率遥感影像进行目标检测是遥感图像解译的基础性工作。然而面对复杂背景干扰、地物结构多样的高分辨率遥感影像，如何准确快速地进行目标检测已成为当前遥感领域至关重要的研究课题之一。

在深度学习出现之前，传统的遥感影像目标检测方法通常采用提取手工设计特征+分类器的方式。遥感影像的手工设计特征主要包括颜色、纹理和形状等，分类器主要包括支持向量机、K最近邻算法和决策树等。基于手工设计特征+分类器的方法难以获取高层语义特征，因而特征鲁棒性弱，尤其是对具有高空间分辨率、复杂背景干扰的遥感影像来说，传统方法难以满足对目标检测的实际处理需求。近年来，深度学习技术蓬勃发展，它通过构建一个多层网络从海量数据中自动学习层次化的特征表示，获得表达能力更强的特征表示。已有一些学者利用深度学习技术进行遥感影像目标检测，其中首先落地的CNN已被应用于自然图像的各种处理中，检测精度大幅提升、泛化能力更强大，为高分辨率遥感影像目标检测提供了新的思路。

相比自然图像，高分辨率遥感影像目标检测面临更多的挑战。首先，高分辨率遥感影像目标具有尺度多变、角度多变等特点，如车辆、船舶等目标在遥感影像中常常以不同的尺寸和角度出现，需要综合利用CNN网络的各层特征，防止目标漏检等问题。特征金字塔网络结构FPN为CNN提供了融合多个尺度特征图的能力，能够更好地保留目标的尺寸、角度信息。其次，针对高分辨率遥感影像目标检测，影像中往往包含大量干扰目标的背景信息，在CNN的训练过程中，如果能够对包含背景信息更多的特征层及特征图的空间位置加以抑制，突出包含前景目标信息的特征层及特征图的空间位置，则能够有效提高遥感影像目标检测的准确度。而注意力机制可对特征图的空间位置以及不同的特征层赋予不同的权重，帮助抑制背景信息、突出前景目标信息。第三，现有的有标注高分辨率遥感影像目标检测数据集样本量有限，在用于训练网络时会产生过拟合问题，造成模型学习的特征鲁棒性差、模型泛化能力差；同时CNN在训练时常常包含大量无用的卷积核，在占用存储空间及计算空间的同时对模型的性能几乎没有帮助。针对此问题，一方面，迁移学习用其他领域中大量的有标注样本训练模型，再将知识迁移到高分辨率遥感影像目标检测任务中用以提升模型的泛化能力；另一方面，滤波器嫁接对CNN中所有卷积核的贡献进行评估，对无用的卷积核进行嫁接再激活，以提升模型的目标检测性能。

众所周知，在CNN的发展上，为了追求准确率往往造成CNN越来越深，从VGGNet到ResNet，参数量越来越多，造成模型实时性差、计算复杂度高的问题。鉴于此，近两年来，越来越多的CNN模型从巨型网络向轻量化发展，轻量化CNN聚焦于速度与准确率的均衡，在借鉴现有CNN结构的基础上，重新设计网络结构，以达到减少参数量，降低计算复杂度的目标。MobileNetV3-Small是Google于2019年提出的最新一代轻量化CNN，是当前轻量化CNN中最出色的网络之一。其参数量只有VGGNet-16的2％，ResNet-50的10％，在加快模型速度的同时尽可能保证模型的准确度。

目标检测框架也经过了长足发展，衍生出两个目标检测方法分支，分别是一阶段方法和二阶段方法。一阶段方法直接回归目标类别概率和预测框位置坐标，更追求检测速度；二阶段方法分离了预测框位置坐标回归和目标分类，更追求检测准确度。YOLOv3tiny是最新的一阶段目标检测方法之一，在具有高检测速度的同时又有不逊于二阶段方法的准确度。特别是YOLOv3tiny用两个预测尺度同时做出最终目标预测，通过两个特征图尺度进行预测，从而保证小目标检测能力，此外引入锚框机制预测边界框坐标，进一步提升预测框位置的准确性。

为此，本发明首先在高效的轻量化CNN模型MobileNetV3-Small基础上构建FPN，对高分辨率遥感影像提取并融合多尺度深度特征，结合目标检测框架YOLOv3tiny做出预测，提出了一种M-F-Y型轻量化卷积神经网络；然后改进MobileNetV3-Small瓶颈结构中的通道注意力结构并添加空间注意力结构，构成互补注意力网络结构；最后使用基于迁移学习的滤波器嫁接策略用于训练模型。

发明内容

本发明提出了一种M-F-Y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法。首先，使用MobileNetV3-Small作为基础的特征提取网络，为构建多特征融合及多尺度预测的检测机制，去掉了MobileNetV3-Small中用于分类任务的网络最后4层(3个卷积层+1个池化层)，之后对其构建FPN融合多尺度特征，从两种特征图尺度上进行目标检测的预测；然后对MobileNetV3-Small中的瓶颈结构进行修改，包括修改通道注意力结构以及增加空间注意力结构，构成互补注意力机制；最后，对有标注高分辨率遥感影像目标检测数据集稀缺及网络滤波器使用率低的问题，基于迁移学习的滤波器嫁接作为模型的训练策略，即从其他遥感影像目标检测数据集或自然图像目标检测数据集做知识迁移，通过并行训练两个相同的模型，在特定训练阶段中进行相互的层级嫁接。

具体来说，本发明主要过程如附图1所示，分为M-F-Y型轻量化卷积网络的构建、增加互补注意力结构、基于迁移学习的滤波器嫁接和高分辨率遥感影像目标检测几个步骤。

步骤1：M-F-Y型轻量化卷积网络的构建

传统的CNN结构是单金字塔结构，即对输入图像一系列卷积及下采样操作，使特征图的尺寸越来越小、维度越来越高。这种单金字塔结构会自动地对输入图像学习特征，CNN中的浅层会学习到如颜色、形状、边缘等低层视觉特征，CNN中的深层会学习到抽象的高层语义特征，基于此结构的目标检测网络利用最后一个特征图来进行预测。相比手工特征实现了从低层到高层的特征转换，但仅仅关注了网络中最后一层的特征，忽略了其他特征。由于高分辨率遥感影像目标具有尺度、角度多变的特点，若仅仅使用CNN网络的最后一层特征用于目标检测，由于最后一层特征图尺寸偏小，对应原图的感受野很大，往往会造成预测框位置偏离过大、漏检小目标等问题，影响方法的鲁棒性。针对这一问题，本发明引入FPN，对单金字塔结构的MobileNetV3-Small进行改进，如图2所示。FPN是一种结合自底向上和自顶向下两部分网络的结构，自底向上部分即传统的单金字塔结构，自顶向下部分由上采样操作构成，同时两部分网络特征图尺寸相同的层间通过直连通道进行特征融合，此结构将获得融合后的7×7×96和14×14×144两个特征图尺寸，以上操作构成了MobileNetV3Small-FPN结构。接下来，引入YOLOv3tiny中的多尺度预测及锚框设置，对上述两个特征图分别用3×3卷积层统一通道数后，再用两组1×1卷积层做出最终预测，完成M-F-Y型轻量化卷积网络的构建。最终，预测层将获得每个位置处的锚框偏移量、目标分数、类别分数。

步骤2：增加互补注意力结构

高分辨率遥感影像往往包含大量干扰的背景信息，如果能够抑制包含背景信息更多的特征层及特征图的空间位置，突出包含前景目标信息的特征层及特征图的空间位置，则能够有效提高目标检测的准确度。注意力机制是近几年计算机视觉领域的研究热点，注意力机制赋予了网络对不同特征不同的关注程度。因此，在目标检测任务中对CNN施加注意力机制，一方面CNN能够自主学习注意力机制，另一方面注意力机制能够让CNN更好地获得不同特征的关注程度，从而让网络忽略前景信息并关注目标信息。为此，本发明提出了互补注意力结构如图3所示。

步骤2.1：改进的通道注意力结构

在MobileNetV3-Small的Bottleneck原始结构中，已经嵌入了通道注意力机制，首先通过全局平均池化层将特征图的长和宽压缩至1×1，保留原始通道数，之后将此特征图输入到全连接层中用于学习对通道的注意力权重，最后将权重与原始输入相乘，得到具有通道注意力的特征图。考虑到该结构只使用了全局平均池化层用于综合通道信息，特征丢失较为严重，本发明在全局平均池化层上并联了全局最大池化层，从另一个角度综合通道信息，增强原有通道注意力结构的性能。

步骤2.2：空间注意力结构

通道注意力结构用一组注意力特征图对输入特征图赋予通道权重，从而尽可能地抑制无用的背景信息通道。考虑到遥感影像空间特征的重要性，本发明提出对通道注意力结构补充空间注意力结构，在特征图的长和宽维度上添加注意力机制，为特征图上不同空间位置赋予不同的权重，目标位置将被赋予高权重，背景位置赋予低权重。如图3所示，首先通过一组并联的全局最大池化层和全局平均池化层对输入特征图的通道维度进行压缩，得到通道数为1的两个特征图，之后在通道维度上连接两个特征图，输入到一个卷积层中用于学习空间注意力权重，得到通道数为1的特征图，最后与输入特征图相乘，得到具有空间注意力的输出特征图。

步骤3：基于迁移学习的滤波器嫁接

现有用于高分辨率遥感影像目标检测的CNN网络主要有两个问题，一是目前有标注的大规模高分辨率遥感影像数据有限，在训练模型时容易产生过拟合问题，导致模型的泛化能力较差，特征鲁棒性较弱；二是有研究表明，训练后的CNN中的卷积层往往含有大量无效的滤波器，这些滤波器在占用存储空间及计算空间的同时对模型的性能几乎没有帮助。针对以上问题，本发明提出基于迁移学习的滤波器嫁接。针对问题一，首先利用迁移学习技术从其他领域中丰富的有标注样本来预训练网络，之后将学习到的权重知识迁移到高分辨率遥感影像目标检测任务上，来解决网络的过拟合问题，提高泛化能力；针对问题二，滤波器嫁接将重新激活这些无效滤波器，在不增加模型推理时间的前提下，有效提升网络的目标检测性能。外部接穗已被证明是最有效的接穗，因此通过并行地训练两个相同结构的网络实现滤波器嫁接，而迁移学习将只应用在一个网络上，并行训练时通过迁移学习得到的权重参数将作为有效的外部接穗，嫁接结束后选择在最后一次训练轮次中验证损失较小的网络作为最终的高分辨率遥感影像目标检测网络。基于迁移学习的滤波器嫁接流程图如图4所示。

步骤4：高分辨率遥感影像目标检测

利用步骤3中嫁接结束后，在最后一次训练轮次中验证损失较小的网络作为最终的高分辨率遥感影像目标检测网络。使用任务所需的高分辨率遥感影像目标检测数据集的测试集完成目标检测任务。网络将对每幅输入图像输出预测框的坐标、目标分数、类别分数。

本发明与现有技术相比，具有以下明显的优势和有益效果：

首先，本发明针对高分辨率遥感影像目标检测，提出了一种M-F-Y型轻量化卷积神经网络构建方法，使用MobileNetV3-Small保证了方法具有较低的参数量和延迟，FPN的多尺度特征融合机制和YOLOv3tiny的多尺度检测与锚框机制进一步提升目标检测准确率；其次，不同于MobileNetV3-Small中仅有的通道注意力机制，本发明在此基础上提出了互补注意力结构，联合了通道注意力与空间注意力，增强了网络对不同特征的权衡能力；最后利用基于迁移学习的滤波器嫁接作为模型的训练策略，不仅解决了高分辨率遥感影像数据集偏小造成网络过拟合的问题，同时激活了模型中卷积层的无效滤波器，进一步提升模型性能。

附图说明：

图1基于M-F-Y型轻量化卷积神经网络的高分辨率遥感影像目标检测总体框架；

图2 M-F-Y型轻量化卷积神经网络结构示意图；

图3互补注意力结构示意图；

图4基于迁移学习的滤波器嫁接流程图。

具体实施方式

根据上述描述，以下是一个具体的实施流程，但本专利所保护的范围并不限于该实施流程。

步骤1：M-F-Y型轻量化卷积网络的构建

CNN网络结构构建分为两个部分，首先利用MobileNetV3-Small构建FPN，构成多特征图融合机制，然后对MobileNetV3Small-FPN结构构建以YOLOv3tiny为基础的目标检测框架。

步骤1.1：构建MobileNetV3Small-FPN结构

步骤1.1.1：对原始MobileNetV3-Small网络的裁剪

采用MobileNetV3-Small作为用于特征提取的主干网络，为了将此CNN用于目标检测任务中，去掉了原始设计用于分类任务的最后4层，包括3个卷积层和1个池化层。

步骤1.1.2：特征融合层的选取

选取MobileNetV3-Small中两个位置的输出特征图构建FPN结构。首先MobileNetV3-Small本身具有的单金字塔结构能够获得具有强语义信息的输出特征图，此特征图大小为7×7×96，之后为了构建具有特征融合能力的FPN，选取MobileNetV3-Small中倒数第三个Bottleneck的输出特征图，其大小为14×14×48。

步骤1.1.3：构建MobileNetV3Small-FPN结构

FPN由自底向上和自顶向下两部分网络构成。将单金字塔结构的MobileNetV3-Small作为中的自底向上部分网络。首先在上一步骤中选取的尺寸为7×7×96作为此部分的第一层，之后对此特征图进行上采样，上采样规则为2倍最近邻插值上采样，得到尺寸为14×14×96的特征图，最后此特征图将与上一步骤中选取的尺寸为14×14×48的第二个特征图进行融合。

在融合方法上有空间维度上的相加和通道维度上的连接，选择在通道维度上的连接，构成14×14×144的特征图。

步骤1.2：构建MobileNetV3Small-FPN-YOLOv3tiny结构

选择YOLOv3tiny作为目标检测框架，YOLOv3tiny为一种具有多尺度预测的单阶段目标检测方法。步骤1.1中获取到的两个特征图的尺寸分别为7×7×96和14×14×144，首先将对这两个特征图分别输入两个3×3的卷积层，将通道数均统一为96，用于消除自顶向下部分上采样后的特征图与自底向上部分的同尺寸特征图融合后出现的特征不连续现象，之后分别输入两个1×1的卷积层做出预测。在两个预测尺度上，输出分别为7×7×Y和14×14×Y，Y的具体形式如下式：

Y＝(t_x,t_y,t_w,t_h,p_o,cls)×anchors (1)

其中，cls表示判定目标为各类别的置信度，长度为任务中目标的类别数。anchors表示在每个预测尺度上的锚框数，首先通过kmeans聚类对所有训练集图像的真值框进行聚类，聚类中心为6，按大小分成两组，较大的一组3个分配给7×7×96的特征图上用于预测，较小的一组3个分配给14×14×96的特征图上用于预测。两个预测特征图各分配3个锚框，故anchors为3。p_o表示预测的边界框中包含目标的概率。t_x，t_y，t_w，t_h表示预测的边界框相对于锚框的偏移量，为得到具体的边界框坐标及宽高，需要如下转换：

其中，b_x，b_y表示预测边界框中心点的x，y坐标，通过t_x，t_y经sigmoid变换后与c_x，c_y分别相加得到，c_x，c_y为边界框中心所在位置在预测特征图的左上角点的x，y坐标，σ表示sigmoid函数。b_w，b_h表示边界框的宽和高，通过t_w，t_y经指数变换后与p_w，p_h相乘得到。p_w，p_h为在某一预测特征图上，与此检测目标真值框交并比最高的锚框的宽和高。

经过以上分析，网络将会产生总计(7×7+14×14)×3＝735个预测边界框。这些边界框将由以下两种方法共同进行筛选，对每个目标筛选出最终的1个预测边界框。

1)对目标概率p_o设置阈值，低于0.3的将被排除；

2)非极大值抑制对每个目标筛选出最终的1个边界框。

步骤2：增加互补注意力结构

通过提出互补注意力结构为CNN添加了通道注意力机制与空间注意力机制相结合的互补注意力机制。其中通道注意力机制部分对MobileNetV3-Small的Bottleneck结构中已有的通道注意力结构做了改进，增强了利用通道信息的能力。并且提出了空间注意力结构，赋予CNN对不同空间位置的关注能力。

步骤2.1：改进的通道注意力结构

在互补注意力结构中，首先对MobileNetV3-Small中原有的通道注意力结构进行了一些修改，构建新的通道注意力结构，具体步骤如下所示：

1)首先，为了获取更强的通道信息表征能力，在原有的使用全局平均池化层(Global Average Pooling,GAP)压缩空间信息的基础上，并联一个全局最大池化层(Global Max Pooling,GMP)，GAP和GMP能够共同对输入特征图F∈R^W×H×C的空间信息进行压缩，R^W×H×C表示尺寸为W×H×C的实矩阵。

2)之后在通道维度上连结GAP和GMP的输出特征图，得到特征图G＝[GAP(F),GMP(F)]∈R^1×1×2C。

3)然后G将通过两个级联的全连接层用于学习通道权重，两个全连接层依次使用ReLU和HSigmoid激活函数。并且，第一个全连接层的输出通道数压缩为输入的0.5倍，在第二个全连接层将恢复初始通道数，进行的计算如下式：

A_C＝HSigmoid(FC¹(ReLU(FC^0.5(G)))) (3)

上式中的其中FC^C代表输出通道数为输入通道数C倍的全连接层。

4)经过上述步骤，将得到每个通道对应的权重A_C∈R^1×1×C。A_C与输入特征图F相乘后，将获得具有通道权重的特征图F_C∈R^W×H×C。

步骤2.2：构建空间注意力结构

提出了空间注意力结构，与通道注意力结构构成互补注意力网络。具体步骤如下所示：

1)将具有通道权重的特征图F_C∈R^W×H×C输入到一组并联的平均池化和最大池化层中，两个池化操作均针对通道轴，进行的计算和得到的特征图如下式：

2)在通道维度上对两个特征图进行连接，得到[F_avg,F_max]∈R^W×H×2。

3)将特征图输入一个卷积核大小为3×3的卷积层，用于学习空间位置权重，之后通过使用HSigmoid激活函数的激活层，进行的计算如下式：

其中，

代表卷积核大小为W×H，输出通道数为C的卷积层。得到的AS为特征图空间位置的权重。

4)将得到空间位置权重A_S∈R^W×H×1与输入特征图F_C相乘后，将获得具有通道权重的特征图F_S∈R^W×H×C。

步骤3：基于迁移学习的滤波器嫁接

模型训练策略为三阶段的双模型并行训练策略。

步骤3.1：预训练阶段

首先，需要构建两个上文设计的MobileNetV3Small-FPN-YOLOv3tiny结构，以便在后续步骤中进行滤波器嫁接。其中，一个网络将使用大规模遥感影像目标检测数据集或大规模自然图像目标检测数据集进行预训练，记作A网络；另一个不进行预训练，记作B网络。

在本阶段中，需要用有标注的大规模遥感影像目标检测数据集或自然影像目标检测数据集对A网络进行预训练。输入A网络的样本批次大小设置为32(或设置为8、16、64、128)，通过反向传播算法最小化损失函数，采用Adam算法进行对损失函数的优化，学习率设置为0.001-0.005，训练迭代20000-40000次。B网络在本训练阶段中不进行任何操作，保持初始化状态。

步骤3.2：微调预测层阶段

本阶段中，A网络和B网络均参与训练。

对于A网络，首先冻结其除了两个预测层以外的全部层，用任务所需的遥感影像目标检测数据集对A网络进行训练，此时，A网络将会对任务数据集进行在预测层上的参数迁移。

对于B网络，使用任务所需的遥感影像目标检测数据集对其进行从头训练。

A网络与B网络的训练采用同样的参数设置。输入样本批次大小均设置为32(或设置为8、16、64、128)，均采用Adam算法进行对损失函数的优化，学习率设置为0.0001-0.0005，训练迭代4000-8000次。

步骤3.3：滤波器嫁接阶段

本阶段中，A网络和B网络均参与训练。

对于A网络，在本阶段解冻其所有层，继续用任务所需的遥感影像目标检测数据集对A网络进行训练，用于在迁移学习的基础上微调A网络参数。

对于B网络，继续使用任务所需的遥感影像目标检测数据集对其进行从头训练。

同时在本阶段中A、B两个网络的训练中，引入滤波器嫁接策略，A、B中的卷积层将进行相互嫁接，具体的滤波器嫁接步骤如下：

1)在每个训练轮次中，当本轮训练遍历完所有训练样本后，对A、B网络的所有卷积层，记录每层的所有神经元的权重值，得到向量

表示M网络的第i个卷积层第j个神经元的权重值，其中M∈{A,B}。之后，对第i个卷积层的所有神经元，计算最大值与最小值的差，将差划分为10个区间，计算本层所有神经元的权重值落在这10个区间的概率，得到第i个卷积层所有权重值的离散概率分布P_i＝{p₁,...,p_k}，其中k∈(1，10)。最后对A、B网络，分别计算第i个卷积层的信息熵，计算公式如下式：

2)计算得到每个网络各个卷积层的信息熵后，将进行两个网络的相互嫁接，嫁接将以层为基本单位，以保留层中各个神经元的连续性。层级嫁接公式如下式：

W_i ^M2′＝αW_i ^M2+(1-α)W_i ^M1 (7)

其中，W_i ^M2表示其中一个网络在嫁接前的第i个卷积层的权重值，W_i ^M2′表示该网络嫁接后第i个卷积层的权重值。嫁接是一个相互的过程，既可由A网络嫁接到B网络，也可由B网络嫁接到A网络，在并行训练A、B网络的过程中，完成相互嫁接。

3)α是重要的嫁接系数，其计算公式如下式：

α＝A×(arctan(c×(H(W_i ^M2)-H(W_i ^M1))))+0.5 (8)

其中，A和c分别为arctan函数的纵、横拉伸系数，A取0.4，c取100。

4)待所有训练轮次结束后，此时A、B网络已经完成了层级嫁接。在本阶段的训练中，A网络与B网络的训练采用同样的参数设置。输入样本批次大小均设置为32(或设置为8、16、64、128)，均采用Adam算法进行对损失函数的优化，学习率设置为0.0001-0.0005，训练迭代6000-12000次。选择在最后一次训练轮次中验证集上损失更小的网络作为最终的网络模型。

步骤4：高分辨率遥感影像目标检测

利用步骤3中嫁接结束后，在最后一次训练轮次中在验证集上损失较小的网络作为最终的高分辨率遥感影像目标检测网络。使用最终的高分辨率遥感影像目标检测数据集的测试集完成目标检测任务。网络将对每幅输入图像输出预测框的坐标、目标分数、类别分数，实现高分辨率遥感影像目标检测。

Claims

1.M-F-Y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法，其特征在于，步骤如下：

1)M-F-Y型轻量化卷积网络的构建

引入FPN，对单金字塔结构的MobileNetV3-Small进行改进，FPN是一种结合自底向上和自顶向下两部分网络的结构，自底向上部分即传统的单金字塔结构，自顶向下部分由上采样操作构成，同时两部分网络特征图尺寸相同的层间通过直连通道进行特征融合，此结构将获得融合后的7×7×96和14×14×144两个特征图尺寸，以上操作构成了MobileNetV3Small-FPN结构；

接下来，引入YOLOv3tiny中的多尺度预测及锚框设置，对上述两个特征图分别用3×3卷积层统一通道数后，再用两组1×1卷积层做出最终预测，完成M-F-Y型轻量化卷积网络的构建；最终，预测层将获得每个位置处的锚框偏移量、目标分数、类别分数；

2)增加互补注意力结构

在目标检测任务中对CNN施加注意力机制，具体如下：

在MobileNetV3-Small的Bottleneck原始结构中，首先通过全局平均池化层将特征图的长和宽压缩至1×1，保留原始通道数，之后将此特征图输入到全连接层中用于学习对通道的注意力权重，最后将权重与原始输入相乘，得到具有通道注意力的特征图；在全局平均池化层上并联了全局最大池化层；

对通道注意力结构补充空间注意力结构，在特征图的长和宽维度上添加注意力机制，为特征图上不同空间位置赋予不同的权重，目标位置将被赋予高权重，背景位置赋予低权重；首先通过一组并联的全局最大池化层和全局平均池化层对输入特征图的通道维度进行压缩，得到通道数为1的两个特征图，之后在通道维度上连接两个特征图，输入到一个卷积层中用于学习空间注意力权重，得到通道数为1的特征图，最后与输入特征图相乘，得到具有空间注意力的输出特征图；

3)基于迁移学习的滤波器嫁接

首先利用迁移学习技术来预训练网络，之后将学习到的权重知识迁移到高分辨率遥感影像目标检测任务上；

通过并行地训练两个相同结构的网络实现滤波器嫁接，而迁移学习将只应用在一个网络上，并行训练时通过迁移学习得到的权重参数将作为有效的外部嫁接；嫁接结束后，在最后一次训练轮次中验证损失较小的网络作为最终的高分辨率遥感影像目标检测网络；网络将对每幅输入图像输出预测框的坐标、目标分数、类别分数；

具体为：

CNN网络结构构建分为两个部分，首先利用MobileNetV3-Small构建FPN，构成多特征图融合机制，然后对MobileNetV3Small-FPN结构构建以YOLOv3tiny为基础的目标检测框架；

步骤1.1：构建MobileNetV3Small-FPN结构

步骤1.1.1：对原始MobileNetV3-Small网络的裁剪

采用MobileNetV3-Small作为用于特征提取的主干网络，为了将此CNN用于目标检测任务中，去掉了原始设计用于分类任务的最后4层，包括3个卷积层和1个池化层；

步骤1.1.2：特征融合层的选取

选取MobileNetV3-Small中两个位置的输出特征图构建FPN结构；首先MobileNetV3-Small本身具有的单金字塔结构能够获得具有强语义信息的输出特征图，此特征图大小为7×7×96，之后为了构建具有特征融合能力的FPN，选取MobileNetV3-Small中倒数第三个Bottleneck的输出特征图，其大小为14×14×48；

步骤1.1.3：构建MobileNetV3Small-FPN结构

FPN由自底向上和自顶向下两部分网络构成；将单金字塔结构的MobileNetV3-Small作为中的自底向上部分网络；首先在上一步骤中选取的尺寸为7×7×96作为此部分的第一层，之后对此特征图进行上采样，上采样规则为2倍最近邻插值上采样，得到尺寸为14×14×96的特征图，最后此特征图将与上一步骤中选取的尺寸为14×14×48的第二个特征图进行融合；

在融合方法上有空间维度上的相加和通道维度上的连接，选择在通道维度上的连接，构成14×14×144的特征图；

步骤1.2：构建MobileNetV3Small-FPN-YOLOv3tiny结构

选择YOLOv3tiny作为目标检测框架，YOLOv3tiny为一种具有多尺度预测的单阶段目标检测方法；步骤1.1中获取到的两个特征图的尺寸分别为7×7×96和14×14×144，首先将对这两个特征图分别输入两个3×3的卷积层，将通道数均统一为96，用于消除自顶向下部分上采样后的特征图与自底向上部分的同尺寸特征图融合后出现的特征不连续现象，之后分别输入两个1×1的卷积层做出预测；在两个预测尺度上，输出分别为7×7×Y和14×14×Y，Y的具体形式如下式：

Y＝(t_x,t_y,t_w,t_h,p_o,cls)×anchors (1)

其中，cls表示判定目标为各类别的置信度，长度为任务中目标的类别数；anchors表示在每个预测尺度上的锚框数，首先通过kmeans聚类对所有训练集图像的真值框进行聚类，聚类中心为6，按大小分成两组，较大的一组3个分配给7×7×96的特征图上用于预测，较小的一组3个分配给14×14×96的特征图上用于预测；两个预测特征图各分配3个锚框，故anchors为3；p_o表示预测的边界框中包含目标的概率；t_x，t_y，t_w，t_h表示预测的边界框相对于锚框的偏移量，为得到具体的边界框坐标及宽高，需要如下转换：

其中，b_x，b_y表示预测边界框中心点的x，y坐标，通过t_x，t_y经sigmoid变换后与c_x，c_y分别相加得到，c_x，c_y为边界框中心所在位置在预测特征图的左上角点的x，y坐标，σ表示sigmoid函数；b_w，b_h表示边界框的宽和高，通过t_w，t_y经指数变换后与p_w，p_h相乘得到；p_w，p_h为在某一预测特征图上，与此检测目标真值框交并比最高的锚框的宽和高；

经过以上分析，网络将会产生总计(7×7+14×14)×3＝735个预测边界框；这些边界框将由以下两种方法共同进行筛选，对每个目标筛选出最终的1个预测边界框；

1)对目标概率p_o设置阈值，低于0.3的将被排除；

2)非极大值抑制对每个目标筛选出最终的1个边界框；

步骤2.1：改进的通道注意力结构

1)首先，为了获取更强的通道信息表征能力，在原有的使用全局平均池化层GAP压缩空间信息的基础上，并联一个全局最大池化层GMP，GAP和GMP能够共同对输入特征图F∈R^W×H×C的空间信息进行压缩，R^W×H×C表示尺寸为W×H×C的实矩阵；

2)之后在通道维度上连结GAP和GMP的输出特征图，得到特征图G＝[GAP(F),GMP(F)]∈R^1×1×2C；

3)然后G将通过两个级联的全连接层用于学习通道权重，两个全连接层依次使用ReLU和HSigmoid激活函数；并且，第一个全连接层的输出通道数压缩为输入的0.5倍，在第二个全连接层将恢复初始通道数，进行的计算如下式：

A_C＝HSigmoid(FC¹(ReLU(FC^0.5(G)))) (3)

上式中的其中FC^C代表输出通道数为输入通道数C倍的全连接层；

4)经过上述步骤，将得到每个通道对应的权重A_C∈R^1×1×C；A_C与输入特征图F相乘后，将获得具有通道权重的特征图F_C∈R^W×H×C；

步骤2.2：构建空间注意力结构

2)在通道维度上对两个特征图进行连接，得到[F_avg,F_max]∈R^W×H×2；

其中，

代表卷积核大小为W×H，输出通道数为C的卷积层；得到的A_S为特征图空间位置的权重；

4)将得到空间位置权重A_S∈R^W×H×1与输入特征图F_C相乘后，将获得具有通道权重的特征图F_S∈R^W×H×C；

基于迁移学习的滤波器嫁接，模型训练策略为三阶段的双模型并行训练策略，具体如下：

步骤3.1：预训练阶段

首先，需要构建两个上文设计的MobileNetV3Small-FPN-YOLOv3tiny结构，以便在后续步骤中进行滤波器嫁接；其中，一个网络将使用大规模遥感影像目标检测数据集或大规模自然图像目标检测数据集进行预训练，记作A网络；另一个不进行预训练，记作B网络；

在本阶段中，需要用有标注的大规模遥感影像目标检测数据集或自然影像目标检测数据集对A网络进行预训练；输入A网络的样本批次大小设置为32，或设置为8、16、64、128，通过反向传播算法最小化损失函数，采用Adam算法进行对损失函数的优化，学习率设置为0.001-0.005，训练迭代20000-40000次；B网络在本训练阶段中不进行任何操作，保持初始化状态；

步骤3.2：微调预测层阶段

本阶段中，A网络和B网络均参与训练；

对于A网络，首先冻结其除了两个预测层以外的全部层，用任务所需的遥感影像目标检测数据集对A网络进行训练，此时，A网络将会对任务数据集进行在预测层上的参数迁移；

对于B网络，使用任务所需的遥感影像目标检测数据集对其进行从头训练；

A网络与B网络的训练采用同样的参数设置；输入样本批次大小均设置为32或设置为8、16、64、128，均采用Adam算法进行对损失函数的优化，学习率设置为0.0001-0.0005，训练迭代4000-8000次；

步骤3.3：滤波器嫁接阶段

本阶段中，A网络和B网络均参与训练；

对于A网络，在本阶段解冻其所有层，继续用任务所需的遥感影像目标检测数据集对A网络进行训练，用于在迁移学习的基础上微调A网络参数；

对于B网络，继续使用任务所需的遥感影像目标检测数据集对其进行从头训练；

表示M网络的第i个卷积层第j个神经元的权重值，其中M∈{A,B}；之后，对第i个卷积层的所有神经元，计算最大值与最小值的差，将差划分为10个区间，计算本层所有神经元的权重值落在这10个区间的概率，得到第i个卷积层所有权重值的离散概率分布P_i＝{p₁,...,p_k}，其中k∈(1，10)；最后对A、B网络，分别计算第i个卷积层的信息熵，计算公式如下式：

2)计算得到每个网络各个卷积层的信息熵后，将进行两个网络的相互嫁接，嫁接将以层为基本单位，以保留层中各个神经元的连续性；层级嫁接公式如下式：

W_i ^M2′＝αW_i ^M2+(1-α)W_i ^M1 (7)

其中，W_i ^M2表示其中一个网络在嫁接前的第i个卷积层的权重值，W_i ^M2′表示该网络嫁接后第i个卷积层的权重值；嫁接是一个相互的过程，由A网络嫁接到B网络，或由B网络嫁接到A网络，在并行训练A、B网络的过程中，完成相互嫁接；

3)α是重要的嫁接系数，其计算公式如下式：

α＝A×(arctan(c×(H(W_i ^M2)-H(W_i ^M1))))+0.5 (8)

其中，A和c分别为arctan函数的纵、横拉伸系数，A取0.4，c取100；

4)待所有训练轮次结束后，此时A、B网络已经完成了层级嫁接；在本阶段的训练中，A网络与B网络的训练采用同样的参数设置；输入样本批次大小均设置为32或设置为8、16、64、128，均采用Adam算法进行对损失函数的优化，学习率设置为0.0001-0.0005，训练迭代6000-12000次；选择在最后一次训练轮次中验证集上损失更小的网络作为最终的网络模型；

嫁接结束后，在最后一次训练轮次中在验证集上损失较小的网络作为最终的高分辨率遥感影像目标检测网络；使用最终的高分辨率遥感影像目标检测数据集的测试集完成目标检测任务；网络将对每幅输入图像输出预测框的坐标、目标分数、类别分数。