CN110874593A

CN110874593A - 基于掩膜的遥感图像旋转目标检测方法

Info

Publication number: CN110874593A
Application number: CN201911073842.9A
Authority: CN
Inventors: 李阳阳; 黄芹; 裴轩; 焦李成; 尚荣华; 马文萍; 李玲玲
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-03-10
Anticipated expiration: 2039-11-06
Also published as: CN110874593B

Abstract

本发明提出了一种基于掩膜的遥感图像旋转目标检测方法，旨在降低遥感图像旋转目标检测模型的计算量，并提高遥感图像旋转目标检测精度，实现步骤为：1)获取训练样本和测试样本；2)构建遥感图像旋转目标检测网络模型；3)用训练样本对遥感图像旋转目标检测网络模型进行训练；4)将测试样本输入已经训练好的遥感图像旋转目标检测网络模型中，获取遥感图像旋转目标的预测类别和旋转边界框四个顶点坐标。本发明通过目标旋转边界框确定遥感图像旋转目标的位置，有效减少了旋转目标检测模型计算量，增强了旋转目标定位鲁棒性，实现了更高的检测精度，可用于资源勘探、自然灾害预警、城市规划等领域。

Description

基于掩膜的遥感图像旋转目标检测方法

技术领域

本发明属于图像处理技术领域，涉及一种遥感图像旋转目标检测方法，具体涉及一种基于掩膜的遥感图像旋转目标检测方法，可以应用资源勘探、自然灾害预警、城市规划等领域。

背景技术

遥感图像是以卫星为平台，通过卫星上装载的对地观测遥感仪器对地球表面进行观测获得。遥感图像目标检测是找到遥感图像中感兴趣目标，并得到感兴趣目标的具体位置和类别的过程。然而，不同于从水平方向拍摄的自然图像，遥感图像大多是从鸟瞰的角度拍摄而成，导致遥感图像中的目标总是任意方向存在的，增大了目标检测的难度。

现有的遥感图像旋转目标检测方法主要分为机器学习方法和深度学习方法，其中机器学习方法采用手工设计特征如HOG特征与分类器组合方法，该类方法时间复杂度高，并且手工设计的特征灵活性较差；深度学习方法又分为采用水平边界框定位旋转目标的方法和采用旋转边界框定位旋转目标的方法。事实上，采用水平边界框定位旋转目标的方法忽略了遥感图图像旋转目标的方向信息，在定位过程中造成了大量噪声冗余，导致旋转目标定位不精准。

例如申请公布号为CN 110084195 A，名称为“基于卷积神经网络的遥感图像目标检测方法”的专利申请，公开了一种运用卷积神经网络检测遥感图像目标的方法，通过融合局部上下文信息和多区域特征来获得更加丰富的目标语义信息，提升目标检测性能。然而，该方法是使用水平边界框确定遥感图像中目标的位置，对于遥感图像中普遍存在的方向任意的旋转目标而言，其不足在于水平边界框会丢失旋转目标的方向信息，无法提供更加精准的定位。

为了保留旋转目标方向信息，研究人员尝试利用旋转Achor得到旋转目标的旋转边界框，实现更加精准的定位，例如Xue Yang在其发表的论文“Automatic Ship Detectionof Remote Sensing Images from Google Earth in Complex Scenes Based on Multi-Scale Rotation Dense Feature Pyramid Networks”(Remote Sensing期刊2018年)中，提出了一种基于多尺度旋转区域密集金字塔船舰自动化检测模型R-DFPN，通过设计好的旋转Anchor得到旋转目标旋转边界框，保留了船舰目标方向信息，在遥感图像船舰目标检测中得到了更加精准的定位。然而，该方法是通过预先设置多种不同角度、不同尺度与不同比例的Anchor，即旋转Anchor，对遥感图像进行采样，从而预测遥感图像中旋转目标的位置，因此存在两个不足之处：其一，因为旋转Anchor数量等于Anchor尺度总数、Anchor长宽比例总数和Anchor角度总数三者的乘积，同时，Anchor数量与目标检测模型计算量成正比，所以旋转Anchor的设计会急剧增加了目标检测模型的计算量；其二，由于引入了旋转Anchor，网络模型R-DFPN在目标检测过程中除了要预测目标的中心点坐标和边界框长宽，还需要预测目标的角度，而预测过程本身具有不确定性，增加预测变量会增大预测过程的不确定性，进而降低了旋转目标定位鲁棒性，影响旋转目标检测精度。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于掩膜的遥感图像旋转目标检测方法，旨在降低遥感图像旋转目标检测模型的计算量，并提高遥感图像旋转目标检测精度。

本发明的技术思路是：获取训练样本和测试样本，搭建一个包含主干网络、区域候选网络和检测网络的遥感图像旋转目标检测网络模型，其中检测网络包含分类子网络、定位子网络和掩膜预测子网络，利用训练样本训练遥感图像旋转目标检测网络模型，得到训练好的遥感图像旋转目标检测网络模型之后，再将测试样本输入到训练好的遥感图像旋转目标检测网络模型之后，获取遥感图像目标预测类别和目标预测掩膜，最后再目标预测掩膜的最小外接矩形作为遥感图像目标旋转边界框，得到最终的检测结果。

根据上述技术思路，实现本发明目的采取技术方案包括如下步骤：

(1)获取训练样本和测试样本：

(1a)从公开的遥感图像数据集中获取训练集数据和测试集数据，并采用窗口大小m×m像素，步长为c像素的滑窗，对训练集数据和测试集数据中的每幅遥感图像进行裁剪，得到训练集图像和测试集图像，m≥800,c≥0.2×m；

(1b)对训练集图像和测试集图像中的每一幅裁剪后的遥感图像进行重新命名，得到训练样本图像集和测试样本图像集，并将测试样本图像集作为测试样本；

(1c)对每幅训练样本图像创建与其名称相同的空文本文件，并判断每幅训练样本图像中是否包含有目标，若是，将目标的坐标标签和类别标签按行添加到目标所在训练样本图像对应的空文本文件中，得到由所有目标的训练样本坐标标签和训练样本类别标签组成的训练样本标签文本集，否则，剔除未包含目标的训练样本图像及其对应的空文本文件；

(1d)对每个训练样本坐标标签对应的目标制作掩膜标签，得到训练样本掩膜标签集，并将训练样本掩膜标签集、每幅包含目标的训练样本图像，以及训练样本标签文本集组合成训练样本；

(2)构建遥感图像旋转目标检测网络模型：

构建包括主干网络、区域候选网络和检测网络，损失函数为L的遥感图像旋转目标检测网络模型，其中：

所述主干网络包括依次连接的第一卷积层、最大池化层、3个block1、4个block2、23个block3和3个block4，每个block由3个不同的卷积层组成；

所述区域候选网络包括第二卷积层，以及与第二卷积同时连接的第三卷积层和第四卷积层；

所述检测网络包括并联的分类子网络、定位子网络和掩膜预测子网络，其中，分类子网络包括依次连接的第一ROI Align池化层，第一全连接层和第二全连接层；定位子网络包括依次连接的第二ROI Align池化层，第三全连接层和第四全连接层；掩膜预测子网络包括依次连接的第三ROI Align池化层、4个第五卷积层、转置卷积层和第六卷积层；

主干网络中最后一个block4同时与区域候选网络中的第二卷积层、分类子网络中的第一ROI Align池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROI Align池化层连接，区域候选网络中的第四卷积层同时与分类子网络中的第一ROIAlign池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROIAlign池化层连接；

(3)对遥感图像旋转目标检测网络模型进行训练：

(3a)设迭代次数为t，最大迭代次数为T,T≥90000；

(3b)将训练样本作为遥感图像旋转目标检测网络模型的输入，进行迭代训练，并判断t＝T是否成立，若是，得到训练好的遥感图像旋转目标检测网络模型，否则，执行步骤(3c)；

(3c)采用损失函数L，并通过当前遥感图像旋转目标检测网络模型所输出的目标预测类别、目标预测水平边界框坐标和目标预测掩膜，计算当前遥感图像旋转目标检测网络模型的损失值l，并通过l对当前遥感图像旋转目标检测网络模型的权重进行调整，令t＝t+1，执行步骤(3b)；

(4)获取遥感图像旋转目标的检测结果：

(4a)将测试样本作为训练好的遥感图像旋转目标检测网络模型的输入，获取所有目标的预测类别和预测掩膜；

(4b)将每一个目标的预测掩膜转化为由像素值0和像素值1组成的单通道图像，并查找单通道图像中所有像素值为1所在区域的轮廓，再绘制该所有像素值为1所在区域的轮廓的最小外接矩形，即目标旋转边界框；

(4c)计算目标旋转边界框四个顶点坐标(x₀,y₀)、(x₁,y₁)、(x₂,y₂)、(x₃,y₃)，并将其与步骤(4a)所获取的所有目标的预测类别作为遥感图像旋转目标的检测结果，其中：

x₂＝2x-x₀,y₂＝2y-y₀

x₃＝2x-x₁,y₃＝2y-y₁

其中，(x,y),h,w,θ分别为目标旋转边界框的中心点坐标、长边H的长度、短边W的长度、短边W与水平方向的夹角。

本发明与现有技术相比，具有以下优点：

1、本发明将测试样本作为训练好的遥感图像旋转目标检测网络模型的输入，并通过训练好的遥感图像旋转目标检测网络模型所包含的掩膜预测子网络获取遥感图像旋转目标的目标预测掩膜，然后将目标预测掩膜的最小外接矩形作为目标旋转边界框，避免了现有技术利用旋转Anchor对遥感图像进行采样并预测目标旋转边界框时计算量庞大的缺陷。

2、本发明通过目标旋转边界框确定遥感图像旋转目标的位置，保留了旋转目标的方向信息，避免了现有技术利用水平边界框确定遥感图像旋转目标位置时丢失旋转目标方向信息的缺陷，以及现有技术利用旋转Anchor对遥感图像进行采样并预测目标旋转边界框时，因增加旋转目标角度变量的预测而降低旋转目标定位鲁棒性的缺陷。

附图说明

图1是本发明的实现流程图；

图2是本发明遥感图像旋转目标检测网络模型的结构示意图；

图3是本发明获取目标旋转边界框的实现流程图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细说明：

参照图1，本发明包括如下步骤：

步骤1)获取训练样本和测试样本：

(1a)从公开的遥感图像数据集DOTA数据集中获取训练集数据和测试集数据，训练集与测试集图像数据比例为3：2，训练集和测试集图像文件格式为“.png”文件格式，数据类别包含15类：飞机，船舶，储油罐，棒球场，网球场，篮球场，田径场，港口，桥梁，大型车辆，小型车辆，直升机场，环形交叉路口，足球场和游泳池。由于DOTA数据集中的图像尺寸过大，不能直接送入深度神经网络中进行训练，本发明采用窗口大小为m×m像素，步长为c像素的滑窗，对训练集数据和测试集数据中的每幅遥感图像进行裁剪，得到训练集图像和测试集图像，m≥800,c≥0.2×m，考虑到图像分辨率过小会影响小目标检测精度，图像分辨率过大会占用更多的内存资源，本实例使用的滑窗窗口大小为800×800像素，步长为200像素；

(1b)对训练集图像和测试集图像中的每一幅裁剪后的遥感图像进行重新命名，具体操作为：将训练集图像和测试集图像中的每一幅裁剪后的遥感图像命名为“A_B_C_D”格式，其中“A”表示训练集图像或测试集图像名称，“B”表示训练集图像或测试集图像缩放比例，“C”表示裁剪后的训练集图像或测试集图像左下角横坐标，“D”表示裁剪后的训练集图像或测试集图像左下角纵坐标，“_”表示英文字符下划线；裁剪后的训练集图像或测试集图像左下角横坐标对应坐标轴的正方向为水平向右，左下角纵坐标对应坐标轴的正方向为垂直向下；训练样本图像、测试样本图像、训练集图像和测试集图像均为“.png”文件格式。得到训练样本图像集和测试样本图像集，并将测试样本图像集作为测试样本；

(1d)对每个训练样本坐标标签对应的目标制作掩膜标签，实现步骤为：

(1d1)为每个训练样本坐标标签对应的目标制作一幅像素值全为0的单通道图像Q；

(1d2)在单通道图像Q中确定每个训练样本坐标标签对应的目标的坐标对应的位置区域，并将该位置区域的像素值填充为1，得到单通道图像Q′；

(1d3)将单通道图像Q′的像素值类型转化为布尔类型，并将布尔类型的单通道图像Q′作为每个训练样本坐标标签对应的目标的掩膜标签；

得到由所有训练样本坐标标签对应的目标的掩膜标签组成的训练样本掩膜标签集，并将训练样本掩膜标签集、每幅包含目标的训练样本图像，以及训练样本标签文本集组合成训练样本；

步骤2)构建如图2所示的遥感图像旋转目标检测网络模型：

损失函数L，其表达式为：

L＝L_cls+L_box+L_m

其中：L_cls为分类子网络的损失值，L_box为定位子网络的损失值，L_m为掩膜预测子网络的损失值，class_i表示第i个目标预测类别，L_box表示第i个目标水平边界框坐标，mask_i表示第i个目标预测掩膜，Softmax表示Softmax函数，Smooth_l1表示Smooth_l1函数，Sigmoid表示Sigmoid函数，K表示目标总数。

上述主干网络用于提取输入图像特征，区域候选网络用于预测图像的感兴趣区域，得到感兴趣区域的提议框，检测网络用于获取检测结果，其中检测网络所包含的掩膜预测子网络用于得到遥感图像所有目标的预测掩膜，从而获得了目标的空间布局，这有利于提高旋转目标定位鲁棒性；

(i)主干网络：

第一卷积层：卷积核个数为64，卷积核尺寸为7×7，步长为2，激活函数为ReLU函数；

最大池化层：池化核尺寸为3×3，步长为2；

3个block1顺次连接，每一个block1包括依次连接的卷积层block1_c1、卷积层block1_c2、卷积层block1_c3，参数设置如下：

卷积层block1_c1：卷积核个数为64，卷积核尺寸为1×1，步长为1，激活函数为ReLU函数；

卷积层block1_c2：卷积核个数为64，卷积核尺寸为3×3，步长为1，激活函数为ReLU函数；

卷积层block1_c3：卷积核个数为256，卷积核尺寸为1×1，步长为1，激活函数为ReLU函数；

4个block2顺次连接，每一个block2包括依次连接的卷积层block2_c1、卷积层block2_c2、卷积层block2_c3，参数设置如下：

卷积层block2_c1：卷积核个数为128，卷积核尺寸为1×1，步长为1，激活函数为ReLU函数；

卷积层block2_c2：卷积核个数为128，卷积核尺寸为3×3，步长为1，激活函数为ReLU函数；

卷积层block2_c3：卷积核个数为512，卷积核尺寸为1×1，步长为1，激活函数为ReLU函数；

23个block3顺次连接，每一个block3包括依次连接的卷积层block3_c1、卷积层block3_c2、卷积层block3_c3，参数设置如下：

卷积层block3_c1：卷积核个数为256，卷积核尺寸为1×1，步长为1，激活函数为ReLU函数；

卷积层block3_c2：卷积核个数为256，卷积核尺寸为3×3，步长为1，激活函数为ReLU函数；

卷积层block3_c3：卷积核个数为1024，卷积核尺寸为1×1，步长为1，激活函数为ReLU函数；

3个block4顺次连接，每一个blcok4包括依次连接的卷积层block4_c1、卷积层block4_c2、卷积层block4_c3，参数设置如下：

卷积层block4_c1：卷积核个数为512，卷积核尺寸为1×1，步长为1，激活函数为ReLU函数；

卷积层block4_c2：卷积核个数为512，卷积核尺寸为3×3，步长为1，激活函数为ReLU函数；

卷积层block4_c3：卷积核个数为2048，卷积核尺寸为1×1，步长为1，激活函数为ReLU函数；

(ii)区域候选网络：

第二卷积层：卷积核个数为512，卷积核尺寸为3×3，步长为1，激活函数为ReLU函数；

第三卷积层：卷积核个数为30，卷积核尺寸为1×1，步长为1，激活函数为softmax函数；

第四卷积层：卷积核个数为60，卷积核尺寸为1×1，步长为1，无激活函数；

(iii)检测网络：

检测网络所包含的各子网络的参数设置分别为：

分类子网络中，第一ROI Align池化层双线性插值生成的ROI尺寸为7×7，池化核尺寸为2×2，步长为2；第一全连接层隐层单元个数为1024；第二全连接层隐层单元个数为16；

定位子网络中，第二ROI Align池化层双线性插值生成的ROI尺寸为7×7，池化核尺寸为2×2，步长为2；第三全连接层隐层单元个数为1024，第四全连接层隐层单元个数为64；

掩膜预测子网络中，第三ROI Align池化层双线性插值生成的ROI尺寸为14×14，池化核尺寸为2×2，步长为2；第五卷积层卷积核个数为256，卷积核尺寸为3×3，步长为1，激活函数为ReLU函数；转置卷积层卷积核个数为256，卷积核尺寸为2×2，步长为2，激活函数为ReLU函数；第六卷积层卷积核个数为16，卷积核尺寸为1×1，步长为1，激活函数为Sigmoid函数。

步骤3)对遥感图像旋转目标检测网络模型进行训练：

(3a)设迭代次数为t，最大迭代次数为T,T≥90000，本实例设置的最大迭代次数为90000，其目的在于保证网络模型能够收敛；

步骤4)获取遥感图像旋转目标的检测结果：

(4b)将每一个目标的预测掩膜转化为由像素值0和像素值1组成的单通道图像，并查找单通道图像中所有像素值为1所在区域的轮廓，再绘制该所有像素值为1所在区域的轮廓的最小外接矩形，即目标旋转边界框，具体实现参照图3，图3(a)是目标预测掩膜，图3(b)是由像素值0和像素值1组成的单通道图像，图3(c)中箭头连接而成的形状是单通道图像中所有像素值为1所在区域的轮廓，图3(d)中的矩形框是该所有像素值为1所在区域的轮廓的最小外接矩形，即目标旋转边界框；

x₂＝2x-x₀,y₂＝2y-y₀

x₃＝2x-x₁,y₃＝2y-y₁

以下借助仿真实验来对本发明效果作进一步说明：

1.仿真环境：

本发明仿真实验使用的机器是一台CPU型号为Intel Core i7-7800X，GPU型号为NVIDIA GeForce RTX 2080Ti的服务器。操作系统是Ubuntu18.04系统，深度学习框架PyTorch 1.0.0，编程语言是Python 3.6。

2.评价指标

本发明仿真实验使用的检测精度评价指标是每一个类别目标的平均检测精度AP和所有类别目标的平均检测精度均值mAP，平均精度AP和平均精度均值mAP越大，表示目标检测效果越好，以下对这两个指标作详细说明：

召回率＝检测正确目标总数/目标总数

准确率＝检测正确目标总数/检测目标总数

绘制准确率-召回率曲线，曲线与召回率所在的坐标轴包围面积表示每一类目标的平均检测精度AP，对所有类目标的平均检测精度求均值则得到平均检测精度均值mAP；

本发明仿真实验使用的网络模型计算量评价指标是Anchor的数量，Anchor数量与网络模型计算量成正比关系，即Anchor数量越少，网络模型计算量越小。

本发明与现有技术R-DFPN都属于二阶段目标检测方法，需要预先设置Anchor对图像进行采样，其中本发明采用水平Anchor对图像进行采样，现有技术R-DFPN采用旋转Anchor对图像进行采样，其中Anchor数量的计算方式如下：

旋转Anchor总数＝Anchor尺度总数×Anchor角度总数×Anchor长宽比例总数

水平Anchor总数＝Anchor尺度总数×Anchor长宽比例总数。

3.本发明仿真测试效果

表1是本发明与现有技术R-DFPN设置的Anchor对比，表中所示的Anchor尺度的单位是像素，Anchor角度的单位是度，Anchor总数的单位是个：

表1.本发明与现有技术R-DFPN设置的Anchor对比表

	本发明	R-DFPN
			Anchor尺度	8	50，150，250，350，500
Anchor长宽比例	1:2，1:1，2:1	1:3，3:1，1:5，5:1，1:7，7:1，1:9，9:1
			Anchor角度	无	-15，-30，-45，-60，-75，-90
Anchor总数	3	240

表2是本发明与现有技术R-DFPN对遥感图像旋转目标检测效果的对比，使用评价指标平均检测精度AP和平均检测精度均值mAP。

表2.本发明与现有技术R-DFPN评价指标结果比较表

	本发明	R-DFPN
			飞机	0.7939	0.8092
棒球场	0.7304	0.6582
			桥梁	0.4754	0.3377
田径场	0.4600	0.5894
			小型车辆	0.7010	0.5577
大型车辆	0.4100	0.5094
			船舶	0.6981	0.5478
网球场	0.8979	0.9033
			篮球场	0.7424	0.6634
储油罐	0.7590	0.6866
			足球场	0.3231	0.4873
环形交叉路口	0.5911	0.5176
			港口	0.6166	0.5510
游泳池	0.5718	0.5132
			直升机场	0.3241	0.3588
mAP	0.6063	0.5794

从表1中可以看出，本发明预先设置的Anchor数量远远少于现有技术R-DFPN预先设置的Anchor数量，极大地减少了网络模型计算量；从表2中可以看出，本发明的平均检测精度均值为60.63％，现有技术R-DFPN的平均检测精度均值为57.94％，说明本发明对遥感图像旋转目标的检测精度要高于现有技术R-DFPN，进一步说明本发明利用目标掩膜得到旋转边界框的方法能够有效增强旋转目标定位鲁棒性，提高了旋转目标检测精度。

Claims

1.一种基于掩膜的遥感图像旋转目标检测方法，其特征在于，包括如下步骤：

(1)获取训练样本和测试样本：

(2)构建遥感图像旋转目标检测网络模型：

所述检测网络包括并联的分类子网络、定位子网络和掩膜预测子网络，其中，分类子网络包括依次连接的第一ROIAlign池化层，第一全连接层和第二全连接层；定位子网络包括依次连接的第二ROIAlign池化层，第三全连接层和第四全连接层；掩膜预测子网络包括依次连接的第三ROI Align池化层、4个第五卷积层、转置卷积层和第六卷积层；

主干网络中最后一个block4同时与区域候选网络中的第二卷积层、分类子网络中的第一ROI Align池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROIAlign池化层连接，区域候选网络中的第四卷积层同时与分类子网络中的第一ROIAlign池化层、定位子网络中的第二ROI Align池化层和掩膜预测子网络中的第三ROIAlign池化层连接；

(3)对遥感图像旋转目标检测网络模型进行训练：

(3a)设迭代次数为t，最大迭代次数为T,T≥90000；

(4)获取遥感图像旋转目标的检测结果：

x₂＝2x-x₀,y₂＝2y-y₀

x₃＝2x-x₁,y₃＝2y-y₁

2.根据权利要求1所述的基于掩膜的遥感图像旋转目标检测方法，其特征在于，步骤(1b)中所述的对训练集图像和测试集图像中的每一幅裁剪后的遥感图像进行重新命名，是指将训练集图像和测试集图像中的每一幅裁剪后的遥感图像命名为“A_B_C_D”格式，其中“A”表示训练集图像或测试集图像名称，“B”表示训练集图像或测试集图像缩放比例，“C”表示裁剪后的训练集图像或测试集图像左下角横坐标，“D”表示裁剪后的训练集图像或测试集图像左下角纵坐标，“_”表示英文字符下划线；裁剪后的训练集图像或测试集图像左下角横坐标对应坐标轴的正方向为水平向右，左下角纵坐标对应坐标轴的正方向为垂直向下；训练样本图像、测试样本图像、训练集图像和测试集图像均为“.png”文件格式。

3.根据权利要求1所述的基于掩膜的遥感图像旋转目标检测方法，其特征在于，步骤(1d)中所述的对每个训练样本坐标标签对应的目标制作掩膜标签，实现步骤为：

(1d3)将单通道图像Q′的像素值类型转化为布尔类型，并将布尔类型的单通道图像Q′作为每个训练样本坐标标签对应的目标的掩膜标签。

4.根据权利要求1所述的基于掩膜的遥感图像旋转目标检测方法，其特征在于，步骤(2)中所述的损失函数L，其表达式为：

L＝L_cls+L_box+L_m

5.根据权利要求1所述的基于掩膜的遥感图像旋转目标检测方法，其特征在于，步骤(2)中所述的主干网络、区域候选网络和检测网络的参数设置分别为：

(i)主干网络：

最大池化层：池化核尺寸为3×3，步长为2；

(ii)区域候选网络：

(iii)检测网络：

检测网络所包含的各子网络的参数设置分别为：

分类子网络中，第一ROIAlign池化层双线性插值生成的ROI尺寸为7×7，池化核尺寸为2×2，步长为2；第一全连接层隐层单元个数为1024；第二全连接层隐层单元个数为16；

定位子网络中，第二ROIAlign池化层双线性插值生成的ROI尺寸为7×7，池化核尺寸为2×2，步长为2；第三全连接层隐层单元个数为1024，第四全连接层隐层单元个数为64；