CN111027547A

CN111027547A - 一种针对二维图像中的多尺度多形态目标的自动检测方法

Info

Publication number: CN111027547A
Application number: CN201911240172.5A
Authority: CN
Inventors: 徐源; 龚黎; 方晗; 吴敏; 孔文韬; 袁杰
Original assignee: Nanjing University; Nanjing Drum Tower Hospital
Current assignee: Nanjing University; Nanjing Drum Tower Hospital
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-17
Anticipated expiration: 2039-12-06
Also published as: CN111027547B

Abstract

本发明提供了一种针对二维图像中的多尺度多形态目标的自动检测方法，包括：对二维图像进行预处理；对预处理后的图像进行目标的标注，完成数据集的制作；在目标检测网络的基础特征提取网络中加入空间映射层，将空间映射后的特征图和其他特征图一起融合构成特征金字塔以适应二维图像中目标的变化；在多个融合特征图构成的特征金字塔上使用具有良好先验的锚框完成区域推荐；使用制作好的数据集训练改进后的目标检测网络，进行多次交叉验证；使用训练好的目标检测模型对可能含有目标的图片进行检测，选定阈值筛选出包含目标可能性较大的检测框并对筛选出的检测框进行非极大值抑制，去除重叠框，得到最终准确率较高的目标检测结果。

Description

一种针对二维图像中的多尺度多形态目标的自动检测方法

技术领域

本发明属于图像分析及目标检测领域，尤其涉及一种针对二维图像中的多尺度多形态目标的自动检测方法。

背景技术

视觉场景中广泛分布着具有几何形变的待识别目标，二维图像的多尺度多形态目标自动检测有利于在非受控自然场景中快速准确地进行目标定位和识别。目前的二维图像目标检测方法对形态尺度多变的目标检测结果缺乏一定鲁棒性，而依靠人为观察校正费时费力，疲劳、经验等人为主观因素会影响观察结果的准确性与一致性。

发明内容

发明目的：本发明所要解决的技术问题是针对现有二维图像中多尺度多形态目标检测效果较差的情况，基于深度学习中的卷积神经网络和基本图像处理方法，提供了一种针对二维图像中的多尺度多形态目标的自动检测方法，实现了对多尺度多形态目标的精确检测。

为了解决上述技术问题，本发明公开了一种针对二维图像中的多尺度多形态目标的自动检测方法，包括如下步骤：

步骤1，对原始图像进行预处理，通过人工裁切，去除图像周边空白以及无用文字信息区域，提取出有效图像区域待检测；

步骤2，对预处理后的图像进行标注，框出目标所在位置并制作标签，图像和其对应标签共同构成数据集，供后续模型训练；

步骤3，将图像输入以残差网络ResNet101为基础特征提取网络的目标检测网络，在目标检测网络的基础特征提取网络ResNet101中加入空间映射层，将空间映射后的特征图和其他特征图一起融合构成特征金字塔以适应二维图像中目标形态的变化；

步骤4，在多个融合特征图构成的特征金字塔上使用具有良好先验的锚框完成区域推荐，区域推荐网络生成的感兴趣区域ROI(region ofinterest)经过感兴趣区域池化方法ROI Align后变形成具有相同大小的特征图，特征图经由Fast R-CNN分类和位置回归后得到最终的检测结果；

步骤5，使用数据集训练通过步骤3和步骤4改进后的目标检测网络，将数据集随机划分为n₁(一般取值为5)份相互独立的数据集合，在不同次训练中，每次选取一份用作测试集，其余部分用作训练集，以此进行交叉验证；

步骤6，使用训练好的目标检测模型对可能含有目标的图片进行检测，选定阈值筛选出包含目标可能性较大的检测框并对筛选出的检测框进行非极大值抑制(Non-MaximumSuppression，NMS)，去除重叠框，得到最终准确率较高的目标检测结果。

步骤1中，采集到的原始图像包含不利于目标定位及分类的人工标记和空白区域，影响该方法最终对目标的检测结果，因此在制作数据集前，首先通过裁剪去除图像中的冗余信息，保留真正有效的图像区域。

步骤3中，采用的目标检测网络为基于区域推荐的Faster R-CNN(Faster Region-based Convolutional Network)，该目标检测网络包括区域推荐网络RPN(RegionProposal Network)和快速卷积网络Fast R-CNN(Fast Region-based ConvolutionalNetwork)；输入的图像张量首先经过基础特征提取网络ResNet101进行特征提取，所述区域推荐网络RPN使用提取出的特征生成目标检测的候选区域，Fast R-CNN对目标检测的候选区域输出候选框的分类得分，并进行边框回归得到目标物体的精确位置。

网络训练时，使用网络的输出和人工标注框计算损失，目标检测网络Faster R-CNN的损失为快速卷积网络Fast R-CNN的损失和区域推荐网络RPN的损失，两部分损失都包括目标分类损失和边界框回归损失；所述目标分类损失为交叉熵损失，边界框回归损失为改进后的最小绝对值偏差损失smooth L1损失，计算方式为：

L是目标检测网络Faster R-CNN的损失函数，包括L_cls和L_reg，λ为权重参数，N_cls和N_reg为归一化参数，分别用于标准化目标分类损失和边界框回归损失；其中L_cls为分类时的对数损失函数，L_reg是回归时的损失函数；i表示第i个锚点，p_i表示候选框i为目标的概率，

表示候选框i对应的样本所属标签；如果是正样本，

如果是负样本则舍弃负样本，

t_i表示预测候选框的4个参数化坐标向量偏移量，

表示与正样本锚点相关的真实候选框的坐标向量偏移量。

网络测试时，网络的输出经由置信度阈值过滤和非极大值抑制即得到最终的检测的结果。

(引用文献为：Ren S，He K，Girshick R，et al.Faster R-CNN：Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions onPattern Analysis＆Machine Intelligence，2015，39(6)：1137-1149.)

步骤3中，在目标检测网络Faster R-CNN的基础特征提取网络ResNet101中对图像张量经过三个标准卷积块得到的特征图采用一组平行的卷积得到标准特征图上每个空间位置的偏移量，根据偏移量重新整合原特征图像素，进行空间映射，变相实现卷积核的扩张，达到不规则采样的目的，使得基础网络提取的特征具备适应输入图像目标的几何形变和尺度变换的能力，具体包括如下步骤：

步骤3-1，将数据集中的图像张量作为基础特征提取网络ResNet101的输入，经由三个卷积块(blocks，每个卷积块由若干卷积层组成，卷积层间有残差连接)，对每个图像张量输出C张H×W大小的特征图，H和W分别表示特征图的高度和宽度；

步骤3-2，对每个图像张量经由基础特征提取网络ResNet101中前三个卷积块输出的C张特征图，使用2C个3×3大小的卷积核对其进行卷积，C张特征图记为特征层F，得到特征层F中特征图上每个位置的横坐标x方向和纵坐标y方向的偏移量，设第i张特征图F_i上位置为(a，b)的特征值为f_(a，b)在2C张特征偏移图上对应的x方向和y方向偏移量分别为Δa和Δb，则经过偏移后第i张特征图F′_i上位置为(a，b)的特征值f′_(a，b)由原特征图F_i中位置为(floor(a+Δa)，floor(b+Δb))，(floor(a+Δa)，ceil(b+Δb))，(ceil(a+Δa)，floor(b+Δb))和(ceil(a+Δa)，ceil(b+Δb))的特征值做双线性插值得到，其中floor表示向下取整，ceil代表向上取整。对特征层F中每张特征图的每个特征点做如上的变换，即得到进行空间映射后的特征层F′。

步骤3-3，将像素重新整合后的特征层F′作为基础特征提取网络ResNet101第四个卷积块的输入进行标准卷积，特征层空间映射通过一个平行的标准卷积单元计算得到，可以通过梯度反向传播进行端到端的学习，因此可以根据当前需要识别的目标进行动态调整，发生自适应的变化，从而适应不同物体的形状、大小等几何形变。

(引用文献为：He K，Zhang X，Ren S，et al.Deep Residual Learning for ImageRecognition[J].2015.)

步骤3中，所述特征金字塔是由图像张量经由基础特征提取网络ResNet101的不同卷积块计算得到的不同层次特征图进行上采样融合得到，低层次的特征目标位置准确，高层的特征语义信息丰富，融合高低层次特征并使用不同层次的特征图做目标类别和位置的预测，这种多尺度的特征图对目标尺寸的适应性较强，在面对不同尺寸的物体时，具有更好的鲁棒性，具体过程如下：

步骤3-1-1，图像张量进入基础特征提取网络ResNet101后首先经过一个7×7的卷积层和一个3×3的最大值池化层，自底向上经过四个结构不同的卷积块运算后分别输出四个不同大小的特征层C2，C3，C4，C5，共同构成特征层集，记为[C2，C3，C4，C5]，其中C4为标准卷积得到的标准特征层经由一组平行的卷积模块做空间映射得到，C5是以C4为卷积块输入做标准卷积得到；

步骤3-1-2，对于得到的特征层集[C2，C3，C4，C5]做自顶向下和横向连接，首先对特征层C5做1×1的卷积实现通道融合得到特征层Pyramid Feature map 5(记为P5)，特征层P5经由最大值池化下采样得到特征金字塔中的最高层特征Pyramid Feature map 6(记为P6)，然后从特征层P5开始对特征层集[C2，C3，C4，C5]做自顶向下的融合，该过程采用上采样进行，对特征层P5上采样并与步骤3-1-1中自底向上产生的相同大小的特征图C4进行融合，再采用3×3的卷积对融合结果消除上采样的混叠效应，得到Pyramid Feature map 4(记为P4)，使用同样的融合方法得到特征层C3的融合后的特征层，记为P3，特征层C2融合后对应的特征层记为P2，最终融合得到的不同层次不同大小的特征图构成了特征金字塔[P2，P3，P4，P5，P6]，其中从特征层P2到P6，特征图尺寸不断变小，提取的语义信息不断丰富。

(引用文献为：Lin T Y，Dollár，Piotr，Girshick R，et al.Feature PyramidNetworks for Object Detection[J].2016.)

步骤4中，具有良好先验的锚框，代表二维图像训练集中统计多数的目标框，其尺寸和比例对应于二维图像中不同尺度的目标，由含有特定目标的数据集经由数学统计计算得到，其步骤如下：

步骤4-1，将数据集中的图像做与目标检测网络输入时一样的尺寸变换处理，根据每张图像尺寸大小缩放的比例，对应的将每张图像中的标注目标框依照比例调整；

步骤4-2，将调整后的所有目标框分别按照尺寸和比例进行数理统计，其中目标框的尺寸指目标框占有的像素面积。

步骤4-3，按照统计的尺寸数据，将尺寸划分为5个区间，在每个区间内选择一个具有代表性的平均尺寸，并统计每个平均尺寸下目标框的多数比例，由此选出具有代表性的5个目标尺寸及其对应的目标比例，称为锚框，并按照锚框对应目标的大小将其分别分配给特征金字塔[P2，P3，P4，P5，P6]的5个特征层，在每个特征层上应用对应的锚框来进行目标的分类预测和位置回归。

步骤4中所述区域推荐由区域推荐网络RPN实现，区域推荐网络RPN对特征金字塔中的每张特征图都选用3×3的卷积核进行滑窗卷积，然后对特征图上的每个点位置生成一个通道数N的全连接特征，然后在这个N维特征后使用通道数分别为2×k和4×k的两个1×1卷积层产生两个分支，k为特征图上每个锚点对应锚框个数：

第一个分支：位置回归层regression layer，用于计算每个锚点对应的锚框与推荐框之间的坐标向量偏移量，记为[t_x，t_y，t_w，t_h]，其中[t_x，t_y]是中心点坐标的偏移量，[t_w，t_h]分别是将锚框映射到推荐框对应的宽和高的变化量，网络训练时将回归层输出的偏移量与锚框和标注目标框之间的坐标向量偏移量

计算位置回归损失，最小化回归损失以训练RPN，所述坐标向量偏移量的计算方法如下：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，

t_w＝log(w/w_a)，t_h＝log(h/h_a)，

其中，[x_a，y_a，w_a，h_a]为锚框的坐标向量，其元素x_a，y_a，w_a，h_a分别代表锚框的中心点位置、锚框的宽度和锚框的高度，[x，y，w，h]为区域推荐网络RPN预测的推荐框proposalbox的中心点坐标以及宽高，[x^*，y^*，w^*，h^*]为训练集中人工标注的目标框的中心点坐标和宽高；

第二个分支：目标分类层class layer，用于判定每个锚点对应的锚框生成的推荐框proposal box中的内容是否含有目标，对于特征图上每个锚点生成2×k维的向量，向量中每两个元素代表一个推荐框proposal box是前景和背景的概率。

网络训练时，分别计算区域推荐网络RPN回归和分类两个分支的损失，最小化此损失以更新网络中的权重参数；网络训练完成后，依据区域推荐网络RPN输出的前景置信度来做感兴趣区域候选框的推荐。

步骤4中所述感兴趣区域池化方法ROI Align为一种将区域推荐网络RPN生成的感兴趣区域候选框region proposal映射产生固定大小的特征图时的方法，其工作步骤如下：

步骤4-4，对于区域推荐网络RPN生成的候选框，大小为w×h，按照下采样步长stride_i，简记为s_i，映射到特征图P_i中的大小为

保留计算中的浮点数；

步骤4-5，设需要得到的固定大小的特征图的尺寸为l×l，则将在特征图P_i上映射得到的

的候选区域划分成l×l个相同大小的小区域，每个小区域的大小为

保留计算中的浮点数；

步骤4-6，设定采样点数为c×c，即表示，对于每个

的小区域，平分成c×c小份，每一小份中中心点的像素值，采用双线性插值法进行计算，则得到四个点的像素值，最后，取c×c小份中像素值的最大值作为

的小区域的池化结果。

按照以上步骤类推至所有感兴趣区域框定的特征图，对每个

的小区域做同样的操作，最终组成l×l的感兴趣区域池化结果。

步骤6中，对Fast R-CNN生成的以一定阈值筛选出的检测框进行非极大值抑制(Non-Maximum Suppression，NMS)，将内含同一个目标的检测框只保留分类置信度最高的目标框，避免二维图像中目标的重复检测，具体包括：

步骤6-1，对于类别cls_i，将该类别下网络输出的所有检测框按照属于cls_i的置信度进行排序，构成检测框集B；

步骤6-2，按照置信度从高到低的顺序依次遍历B中的检测框，对检测框b_i，计算其与其他检测框b_j的交并比IOU，选定阈值T(一般阈值T设定为0.7)，若IOU＞T，则在框集B中删除检测框b_j，重复此操作直至完成一次遍历，将检测框b_i加入检测框集D；

步骤6-3，重复步骤6-2直至框集B为空，检测框集D即为最终的结果框集。

将经过非极大值抑制得到的结果框集显示在原始的图像张量上，即完成了对二维图像中多形态多尺度目标的检测。

有益效果：本发明基于卷积神经网络的自动特征提取特性以及进行复杂函数拟合的能力，提出了一种针对二维图像中的多尺度多形态目标的自动检测方法，在目标检测网络Faster R-CNN的标准卷积中加入空间映射层，融合高低层次图像特征构成特征金字塔，并选用具有训练集先验知识的锚框，使检测网络可以自动适应待检测目标的形态和尺度变化，当目标的大小和形状发生改变时，检测结果具有较强的鲁棒性。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明流程图。

图2为本发明系统示意图。

图3为本发明实施例中对甲状腺超声图像进行检测的技术效果图。

图4为使用标准二维卷积实现空间像素映射的示意图。

图5为区域推荐网络RPN的工作方式示意图。

具体实施方式

如图1，图2和图3所示，本发明公开了一种基于卷积神经网络针对二维图像中的多尺度多形态目标的自动检测方法，包括如下步骤：

步骤1，对原始图像进行预处理，通过人工剪切，去除图像周边空白以及无用文字信息区域，提取出有效图像区域待检测；

步骤2，对预处理后的图像进行人工标注，手动框出目标所在位置并制作标签，图像和对应标签组成数据集；

步骤3，将图像输入目标检测网络，在目标检测网络的基础特征提取网络中加入空间映射层，将空间映射后的特征图和其他特征图一起融合构成特征金字塔以适应二维图像中目标形态的变化；

步骤4，在多个融合特征图构成的特征金字塔上使用具有良好先验的锚框完成区域推荐，区域推荐网络生成的感兴趣区域ROI经过感兴趣区域池化方法ROI Align后变形成具有相同大小的特征图，特征图经由Fast R-CNN分类和位置回归后得到最终的检测结果；

步骤5，使用数据集训练通过步骤3和步骤4改进后的目标检测网络，将数据集随机划分为5份相互独立的数据集合，在不同次训练中，每次选取一份用作测试集，其余部分用作训练集，以此进行交叉验证；；

本实例中，步骤1中的使用的原始图像由超声成像设备采集得到的甲状腺超声图像，图像的成像深度及分辨率根据采集设备的不同而有所区别，所述目标为常见于甲状腺纵切超声图像的甲状腺结节。

本实例中，步骤2中裁剪后得到的二维图像是甲状腺腺体区域纵切超声成像，在裁剪后的图像上使用LabelImg工具对目标甲状腺结节进行标注，将处理后的图像存入数据集D。如图3所示为本发明实施例中对甲状腺超声图像进行检测的技术效果图。

本实例中，步骤3中使用的目标检测网络为基于区域推荐的Faster R-CNN(FasterRegion-based Convolutional Network)，该目标检测网络包括区域推荐网络PRN(RegionProposal Network)和Fast R-CNN(Fast Region-based Convolutional Network)；输入的图像张量首先经过基础特征提取网络ResNet101进行特征提取，再经过区域推荐网络RPN在提取出的特征生成目标检测的候选区域，Fast R-CNN对区域推荐网络RPN生成的候选区域输出候选框的分类得分，以及进一步进行边框回归得到目标物体的精确位置。

目标检测网络Faster R-CNN的损失为Fast R-CNN的损失和区域推荐网络RPN的损失，两部分损失都包括目标分类损失和边界框回归损失；分类损失为交叉熵损失，回归损失为最小绝对值偏差损失smooth L1损失，计算方式为：

L是目标检测网络Faster R-CNN的损失函数，包括L_cls和L_reg，λ为权重参数，N_cls和N_reg为归一化参数，用于标准化两个损失；其中L_cls为分类时的对数损失函数，L_reg是回归时的损失函数；

i表示第i个锚点，p_i表示为候选框i为目标的概率，

表示为候选框i对应的样本所属标签；如果是正样本，

如果是负样本则舍弃负样本，

t_i表示预测候选框的4个参数化坐标向量偏移量，

表示与正样本锚点相关的真实候选框的坐标向量偏移量

本实例中，步骤3中的特征空间映射过程如图4所示，在目标检测网络Faster R-CNN的基础特征提取网络ResNet101中对图像张量经过三个标准卷积块得到的特征图采用一组平行的卷积得到标准特征图上每个空间位置的偏移量，根据偏移量重新整合原特征图像素，可以根据当前需要识别的目标进行动态调整，发生自适应的变化，进行空间映射，变相实现卷积核的扩张，达到不规则采样的目的，使得基础网络提取的特征具备适应输入图像目标的几何形变和尺度变换的能力。

本实例中，步骤3中具有良好先验的锚框，代表二维图像训练集中统计多数的目标框，其尺寸和比例对应于二维图像中经不同层次采样后的特征层集[P2，P3，P4，P5，P6]分别为[32，64，128，256，512]及0.6(高比宽)。

本实例中，步骤4中区域推荐网络RPN对特征金字塔[P2，P3，P4，P5，P6]的5个特征层，如图5所示，选用3×3的卷积核进行滑窗卷积，然后对特征图上的每个点位置生成一个通道数256的全连接特征，然后在这个256维特征后使用通道数分别为2×k和4×k(k为特征图上每个锚点对应锚框个数，本实例中k＝3)的两个1×1卷积层产生位置回归层和目标分类层两个分支来进行目标的分类和定位。

本实例中，步骤4中所述感兴趣区域池化方法ROI Align为一种将区域推荐网络RPN生成的感兴趣区域候选框region proposal映射产生固定大小的特征图时的方法，其工作步骤如下：

步骤4-3-1，对于区域推荐网络RPN生成的候选框，大小为w×h，按照下采样步长stride_i＝16，映射到特征图P_i中的大小为

保留计算中的浮点数；

步骤4-3-2，设需要得到的固定大小的特征图的尺寸为7×7，则将在特征图P_i上映射得到的

的候选区域划分成7×7个相同大小的小区域，每个小区域的大小为

保留计算中的浮点数；

步骤4-3-3，设定的采样点数为2×2，即表示，对于每个

的小区域，平分成2×2小份，每一小份中中心点的像素值，采用双线性插值法进行计算，这样，就会得到四个点的像素值，最后，取2×2小份中像素值的最大值作为

的小区域的池化结果。

按照以上步骤类推至所有感兴趣区域框定的特征图，对每个

的小区域做同样的操作，最终组成7×7的感兴趣区域池化结果。

本实例中，对Fast R-CNN生成的以一定阈值筛选出的检测框进行非极大值抑制(Non-Maximum Suppression，NMS)，将内含同一个目标的检测框只保留分类置信度最高的目标框，避免二维图像中目标的重复检测，将经过非极大值抑制得到的结果框集显示在原始的图像张量上，即完成了对二维图像中多形态多尺度目标的检测。本实例流程图参照图1。

本发明提供了一种针对二维图像中的多尺度多形态目标的自动检测方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种针对二维图像中的多尺度多形态目标的自动检测方法，其特征在于，包括如下步骤：

步骤1，对原始图像进行预处理，去除图像周边空白以及无用文字信息区域，提取出待检测的有效图像区域；

步骤4，在特征金字塔上使用锚框完成区域推荐，区域推荐网络生成的感兴趣区域ROI经过感兴趣区域池化方法ROI Align后变形成具有相同大小的特征图，特征图经由分类和位置回归后得到最终的检测结果；

步骤5，使用数据集训练通过步骤3和步骤4改进后的目标检测网络，将数据集随机划分为n₁份相互独立的数据集合，在不同次训练中，每次选取一份用作测试集，其余部分用作训练集，以此进行交叉验证；

步骤6，使用训练好的目标检测模型对可能含有目标的图片进行检测，选定阈值筛选出包含目标可能性较大的检测框并对筛选出的检测框进行非极大值抑制，去除重叠框，得到最终的目标检测结果。

2.根据权利要求1所述的方法，其特征在于，步骤3中，所述目标检测网络为基于区域推荐的Faster R-CNN，所述目标检测网络包括区域推荐网络RPN和快速卷积网络Fast R-CNN；输入的图像张量首先经过基础特征提取网络ResNet101进行特征提取，所述区域推荐网络RPN使用提取出的特征生成目标检测的候选区域，Fast R-CNN对目标检测的候选区域输出候选框的分类得分，并进行边框回归得到目标物体的精确位置。

3.根据权利要求2所述的方法，其特征在于，所述目标检测网络Faster R-CNN的损失为快速卷积网络Fast R-CNN的损失和区域推荐网络RPN的损失，两部分损失都包括目标分类损失和边界框回归损失；所述目标分类损失为交叉熵损失，边界框回归损失为改进后的最小绝对值偏差损失smooth L1损失，计算方式为：

表示候选框i对应的样本所属标签；如果是正样本，

如果是负样本则舍弃负样本，

t_i表示预测候选框的4个参数化坐标向量偏移量，

表示与正样本锚点相关的真实候选框的坐标向量偏移量。

4.根据权利要求3所述的方法，其特征在于，步骤3中，在目标检测网络Faster R-CNN的基础特征提取网络中对标准卷积得到的特征图经过一组平行的卷积得到偏移量，根据偏移量重新整合原特征图像素，进行空间映射，变相实现卷积核的扩张，具体包括如下步骤：

步骤3-1，将数据集中的图像张量作为基础特征提取网络ResNet101的输入，经由三个卷积块，对每个图像张量输出C张H×W大小的特征图，H和W分别表示特征图的高度和宽度；

步骤3-2，对每个图像张量经由基础特征提取网络ResNet101中前三个卷积块输出的C张特征图，使用2C个3×3大小的卷积核对其进行卷积，C张特征图记为特征层F，得到特征层F中特征图上每个位置的横坐标x方向和纵坐标y方向的偏移量，设第i张特征图F_i上位置为(a，b)的特征值为f_(a，b)在2C张特征偏移图上对应的x方向和y方向偏移量分别为Δa和Δb，则经过偏移后第i张特征图F′_i上位置为(a，b)的特征值f′_(a，b)由原特征图F_i中位置为(floor(a+Δa)，floor(b+Δb))，(floor(a+Δa)，ceil(b+Δb))，(ceil(a+Δa)，floor(b+Δb))和(ceil(a+Δa)，ceil(b+Δb))的特征值做双线性插值得到，其中floor表示向下取整，ceil代表向上取整；对特征层F中每张特征图的每个特征点做如上的变换，即得到进行空间映射后的特征层F′；

步骤3-3，将像素重新整合后的特征层F′作为基础特征提取网络ResNet101第四个卷积块的输入进行标准卷积，特征层空间映射通过一个平行的标准卷积单元计算得到。

5.根据权利要求4所述的方法，其特征在于，步骤3中，所述特征金字塔由图像张量经由基础特征提取网络ResNet101的不同卷积块计算得到的不同层次特征图进行上采样融合得到，具体过程如下：

步骤3-1-1，图像张量进入基础特征提取网络ResNet101后首先经过一个7×7的卷积层和一个3×3的最大值池化层，自底向上经过四个结构不同的卷积块运算后分别输出四个不同大小的特征层C2，C3，C4，C5，共同构成特征层集，记为[C2，C3，C4，C5]，其中C4为标准卷积后得到的标准特征层经由一组平行的卷积模块做空间映射得到；

步骤3-1-2，对于得到的特征层集[C2，C3，C4，C5]做自顶向下和横向连接，首先对特征层C5做1×1的卷积实现通道融合得到特征层记为P5，特征层P5经由最大值池化下采样得到特征金字塔中高层特征记为P6，自顶向下的过程采用上采样进行，对P5上采样并与步骤3-1-1中自底向上产生的相同大小的特征层C4进行融合，再采用3×3的卷积对融合结果消除上采样的混叠效应，得到特征层记为P4，使用同样的融合方法得到特征层C3融合后的特征层，记为P3，特征层C2融合后的特征层记为P2，最终融合得到的不同层次不同大小的特征图构成了特征金字塔[P2，P3，P4，P5，P6]。

6.根据权利要求5所述的方法，其特征在于，步骤4包括：

步骤4-2，将调整后的所有目标框分别按照尺寸和比例进行统计，其中目标框的尺寸指目标框占有的像素面积；

步骤4-3，按照统计的尺寸数据，将尺寸划分为5个区间，在每个区间内选择一个具有代表性的平均尺寸，并统计每个平均尺寸下目标框的多数比例，由此选出具有代表性的5个目标尺寸及其对应的目标比例，称为锚框，并按照锚框对应目标的大小将其分别分配给特征金字塔[P2，P3，P4，P5，P6]中的5个特征层，在每个特征层上应用对应的锚框来进行目标的分类预测和位置回归。

7.根据权利要求6所述的方法，其特征在于，步骤4中所述区域推荐由区域推荐网络RPN实现，区域推荐网络RPN对特征金字塔中的每张特征图选用3×3的滑窗对特征图上的每个点位置生成一个通道数N的全连接特征，然后在这个N维特征后使用通道数分别为2×k和4×k的两个1×1卷积层产生两个分支，k为特征图上每个锚点对应锚框个数：

第一个分支：位置回归层regression layer，用于计算每个锚点对应的锚框与推荐框之间的坐标向量偏移量t_x，t_y，t_w，t_h，其中[t_x，t_y]是中心点坐标的偏移量，[t_w，t_h]分别是将锚框映射到推荐框对应的宽和高的变化量，网络训练时将回归层输出的偏移量与锚框和标注目标框之间的坐标向量偏移量

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，

t_w＝log(w/w_a)，t_h＝log(h/h_a)，

其中，[x_a，y_a，w_a，h_a]为锚框的坐标向量，其元素x_a，y_a，w_a，h_a分别代表锚框的中心点位置、锚框的宽度和锚框的高度，[x，y，w，h]为区域推荐网络RPN预测的推荐框proposal box的中心点坐标以及宽高，[x^*，y^*，w^*，h^*]为训练集中标注的目标框的中心点坐标和宽高；

第二个分支：目标分类层class layer，用于判定每个锚点对应的锚框生成的推荐框proposal box中的内容是否含有目标，对于特征图上每个锚点生成2×k维的向量，向量中每两个元素代表一个推荐框proposal box是前景和背景的概率分布。

8.根据权利要求7所述的方法，其特征在于，步骤4还包括：

保留计算中的浮点数；

保留计算中的浮点数；

步骤4-6，设定采样点数为c×c，即表示，对于每个

的小区域的池化结果，以此类推，对每个

9.根据权利要求8所述的方法，其特征在于，步骤6包括：

步骤6-1，对于类别cls_i，将该类别下网络输出的所有检测框按照其属于cls_i类别的置信度进行排序，构成检测框集B；

步骤6-2，按照置信度从高到低的顺序依次遍历B中的检测框，对检测框b_i，计算其与其他检测框b_j的交并比IOU，选定阈值T，若IOU＞T，则在框集B中删除检测框b_j，重复此操作直至完成一次遍历，将检测框b_i加入检测框集D；