CN107341517A

CN107341517A - 一种基于深度学习层级间特征融合的多尺度小物体检测方法

Info

Publication number: CN107341517A
Application number: CN201710551916.XA
Authority: CN
Inventors: 张永强; 丁明理; 李贤�; 杨光磊; 董娜
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2017-11-10
Anticipated expiration: 2037-07-07
Also published as: CN107341517B

Abstract

本发明涉及机器视觉领域中的物体检定技术，尤其涉及一种基于深度学习层级间特征融合的多尺度小物体检测方法，本发明为了解决现有物体检测在真实场景下检测精度非常低，受尺度大小约束，对于小物体的检测非常困难的缺点，而提出一种基于深度学习层级间特征融合的多尺度小物体检测方法，本发明以真实场景下的图像为研究对象，通过构建卷积神经网络提取输入图像的特征，利用候选区域生成网络产生较少的候选区域，之后将各个候选区域映射到经卷积神经网络生成的特征图上得到每个候选区域的特征，经池化层后得到固定大小、固定维度的特征输入到全连接层，全连接层后的两个分支分别输出识别类别和回归后的位置。本发明适用于机器视觉领域中的物体检定。

Description

一种基于深度学习层级间特征融合的多尺度小物体检测方法

技术领域

本发明涉及机器视觉领域中的物体检定技术，尤其涉及一种基于深度学习层级间特征融合的多尺度小物体检测方法。

背景技术

物体检测是机器视觉领域中一个非常重要的研究课题，它是图像分割、物体追踪、行为动作分析识别等高级任务的基础技术。此外，随着移动互联网技术的发展图像和视频的数量呈爆炸式的方式增长，急需一种可以快速准确的识别、定位图像和视频中物体的技术，以便后续图像视频的智能分类和关键信息的获取。现在物体检测技术被广泛应用到现代社会中，如安防领域中的人脸检测、行人(物体)检测，智能交通中的交通标志识别、车辆检测追踪，自动导航驾驶、机器人路径规划等。

针对多尺度物体检测问题，传统的方法是给定一张被检测图片，利用滑动窗口的方法对整个图像进行一次遍历。由于被检定图像可能出现在图像中的任何位置，而且目标的尺寸、宽高比都是不确定的，所以需要设计不同尺度的、不同宽高比的窗口多次在被检测图像上滑动。这种传统的穷举的方法总会找到物体出现的位置(称为候选区域)，但是却有着明显的缺点：如果滑动窗口尺度和宽高比较少、步长太大，则不能检测到所有的物体；如果滑动窗口尺度和宽高比较多且步长小，则导致冗余窗口太多、耗时太长，不能满足实际应用需求。对于小物体检测问题，传统的方法是规定一个尺度下限，小于这个尺度下限的物体将被丢弃，这大大降低了检测精度。另外，通过滑动窗口选定每一个候选区域后，传统方法采用手动的方式提取这些候选区域的特征(称为浅层特征)，常见的方法有尺度不变特征转换提取分析法(Scale-invariant feature transform,SIFT)、哈尔特征法(Haar-likefeatures)、方向梯度直方图特征提取法(Histogram of Oriented Gradient,HOG)、局部二值特征提取法(Local Binary Pattern,LBP)等。为了提高识别定位精度，通常会融合上述各种特征提取法产生的特征作为最终输入图像的特征。最后，设计一个分类器，识别各个候选区域中物体的类别，常见的分类器有：支持向量机(Support Vector Machine,SVM)，自适应增强法(Adaptive Boosting,AdaBoost)，基于传统方法物体检测的流程图如图1所示。

传统的“滑动窗口+人工提取特征+浅层分类器”的框架，由于过多的冗余窗口和特征表达能力较弱(浅层特征)导致计算速度和检测精度都不能满足实际需求。2012年之后，深度学习在图像分类问题(图像中物体是什么类别)上取得了突破，主要是由于大型数据库(ImageNet)的出现和卷积神经网络(CNN)提取的特征具有更强表达能力，如VGG-16模型用全连接层(Fully connected layer)的4096维数据表示图像的特征，这种深度学习提取的特征(深层特征)含有更强的语义信息。随后，利用深度学习提取深层特征的方法也被利用到物体检测领域中，检测精度有一定的提升，但是检测速度依旧较慢，甚至比传统方法更慢(特征维度更大、网络深度更深)，因为此时只是解决了人工提取的浅层特征的表达能力弱的问题以及将浅层分类器替换为深度学习的卷积神经网络(Convolution neuralnetwork,CNN)，仍然依靠滑动窗口的方法解决物体检测的多尺度问题，所以依旧存在大量冗余窗口的问题。对于滑动窗口带来的问题，候选区域(regionproposal)给出了很好的解决方案，候选区域利用图像的边缘、纹理和颜色等信息预先找出图像(视频帧)中物体可能出现的位置，其数量通常为几百到几千(根据实际情况设定)。这种方法在较少的候选区域下可以保持较高的召回率，这样大大降低了运算时间，提高了检测速度。比较常用的候选区域产生的方法有Selective Search,Edge Boxes,Region Proposal Network(RPN)等。基于候选区域深度学习的物体检测流程图如图2所示。

基于“候选区域(Proposals Region)+卷积神经网络(CNN)”的深度学习框架，虽然平衡了检测时间和检测精度之间相互矛盾的问题，在较快的检测时间下可以得到较高的检测精度，但是这都是在非真实场景下图像(视频帧)检测的结果。因为现间断的研究都是在固定的数据库(VOC数据集等)上进行，这些数据库都有以下假定的理想条件，如VOC2007和VOC2012中都假定尺度变化不大，不含小物体(pixel<16²)。当上述的“候选区域(ProposalsRegion)+卷积神经网络(CNN)”的深度学习框架应用到真实场景下(COCO数据集)的物体检测时，其检测精度非常低(约40％)，这显然不能满足实际应用需求。针对上述问题，本发明提出一种层级间融合特征的方法实现真实场景下多尺度小物体的检测。本发明使得“候选区域(Proposals Region)+卷积神经网络(CNN)”框架不受尺度大小和小物体检测困难等问题的约束，促进了基于深度学习在真是场景下物体检测的应用。

发明内容

本发明主要解决现有物体检测在真实场景下检测精度非常低，受尺度大小约束，对于小物体的检测非常困难的缺点，而提出一种基于深度学习层级间特征融合的多尺度小物体检测方法。

一种基于深度学习层级间特征融合的多尺度小物体检测方法，包含以下步骤：步骤一、使用真实场景数据库的图片作为训练样本；训练样本中的每张图具有被预先设置好的标记位置和类别信息；标记位置用于表示待识别物体的位置，类别信息用于表示待识别物体的种类。

步骤二、在ImageNet训练好的Resnet50分类模型初始化候选区域产生网络，并对候选区域产生网络进行训练；训练过程中，每次从数据集中随机抽取一张输入图片作为输入，利用卷积神经网络生成融合特征图；融合特征图是由各个卷积层产生的多个特征图进行融合产生的；在融合特征图上利用滑动卷积核的方式产生预定数量的候选区域，对每一个候选区域同时产生一个得分；得分越高，包含物体的可能性越大；对于每一个生成的候选区域，如果候选区域与任何一个标记位置的重合面积大于预设值则被认为是正样本，小于预设值则被认为是负样本；最后，计算损失函数时，根据候选区域的得分情况选取预定数量的候选区域，其中正负样本的比例为1:1，如果正样本小于候选区域数量的一半则用负样本补齐；正样本表示物体，负样本表示背景。

步骤三、在ImageNet训练好的Resnet50分类模型初始化物体检测网络，利用上一步生成的候选区域对物体检测网络进行进一步的训练；训练过程中，每次从数据集中随机抽取一张输入图片作为输入，利用卷积神经网络生成融合特征；将步骤二生成的候选区域的坐标映射到融合特征层上进而得到每个候选区域的特征，如果候选区域与特定类别的标记位置的重合面积大于预定值则被认为正样本，如果重合面积小于预定值且大于预设下限值则被认为是负样本；采用ROI池化将每一个候选区域的特征归一化到固定大小、固定位数输入到全连接层；最后，两个全连接层输出物体类别和对应的位置信息，选取预定数量的候选区域计算损失函数，其中正负样本的比例为1:3，如果正样本不够用负样本补齐；并迭代一定的次数。

步骤四、固定所有共享卷积层的学习率，使学习率为0，利用训练好的物体检测网络参数初始化候选区域产生网络，重新训练候选区域产生网络的除共享卷积层以外的网络参数。

步骤五、利用再次训练好的候选区域产生网络参数初始化物体检测网络，同时固定共享的卷积层，应用再次训练的候选区域产生网络产生的候选区域微调物体检测网络的除共享卷积层以外的网络参数。

步骤六、利用步骤五中得到的物体检测网络进行真实场景中的多尺度小物体检测，得到检测结果。

本发明的有益效果为：1、可以实现多尺度小物体的检测，尤其是真是场景下图像(或视频帧)中的小物体(小于32²像素，甚至16²像素)的识别率和定位精度得到显著提升；2、由于层级间的特征融合不涉及额外的复杂计算，所以本发明可以同时满足实时性的要求。

附图说明

图1为基于传统方法的物体检测流程图；

图2为基于候选区域深度学习的物体检测流程图；

图3为深度卷积神经网络结构示意图；

图4为传统特征图产生方法的示意图；其中菱形代表特征图，线条的粗细表示语义信息的强度；

图5为层级间融合特征图产生方法的示意图；其中菱形代表特征图，线条的粗细表示语义信息的强度；

图6为基于深度学习层级间特征融合的多尺度小物体检测示意图；其中步骤1、2、3、5是候选区域生成网络(RPN)，步骤1、2、3、4、6为基于候选区域物体检测网络；

图7为基于深度学习层级间特征融合的多尺度小物体检测方法训练流程图；

图8为候选区域生成网络训练流程图；

图9为物体检测网络训练流程图；

图10实验结果图。

具体实施方式

具体实施方式一：本实施方式的基于深度学习层级间特征融合的多尺度小物体检测方法，其特征在于，包括：

步骤一、使用真实场景数据库的图片作为训练样本；训练样本中的每张图具有被预先设置好的标记位置和类别信息；标记位置用于表示待识别物体的位置，类别信息用于表示待识别物体的种类。

步骤二、在ImageNet训练好的Resnet50分类模型中初始化候选区域产生网络，并对候选区域产生网络进行训练；训练过程中，每次从数据集中随机抽取一张输入图片作为输入，利用卷积神经网络生成融合特征图；融合特征图是由各个卷积层产生的多个特征图进行融合产生的；在融合特征图上利用滑动卷积核的方式产生预定数量的候选区域，对每一个候选区域同时产生一个得分；得分越高，包含物体的可能性越大；对于每一个生成的候选区域，如果候选区域与任何一个标记位置的重合面积大于预设值则被认为是正样本，小于预设值则被认为是负样本；最后，计算损失函数时，根据候选区域的得分情况选取预定数量的候选区域，其中正负样本的比例为1:1，如果正样本小于候选区域数量的一半则用负样本补齐；正样本表示物体，负样本表示背景。

步骤三、在ImageNet训练好的Resnet50分类模型中初始化物体检测网络，利用上一步生成的候选区域对物体检测网络进行进一步的训练；训练过程中，每次从数据集中随机抽取一张输入图片作为输入，利用卷积神经网络生成融合特征；将步骤二生成的候选区域的坐标映射到融合特征层上进而得到每个候选区域的特征，如果候选区域与特定类别的标记位置的重合面积大于预定值则被认为正样本，如果重合面积小于预定值且大于预设下限值则被认为是负样本；采用ROI池化将每一个候选区域的特征归一化到固定大小、固定位数输入到全连接层；最后，两个全连接层输出物体类别和对应的位置信息，选取预定数量的候选区域计算损失函数，其中正负样本的比例为1:3，如果正样本不够用负样本补齐；并迭代一定的次数。

本发明以真实场景下的图像(视频帧)为研究对象，通过构建卷积神经网络提取输入图像的特征，利用候选区域生成网络(Region Proposal Network，RPN)产生较少的候选区域，之后将各个候选区域映射到经卷积神经网络生成的特征图上得到每个候选区域的特征，经ROI池化层后得到固定大小、固定维度的特征输入到全连接层，全连接层后的两个分支分别输出识别类别和回归后的位置。

在训练深度卷积神经网络时会有上百万个参数需要优化，为了进一步减少网络训练参数以及克服模型的过拟合问题，一般会对卷积层进行池化(Pooling)处理，这样对于一些小物体(小于32²像素，甚至16²像素)经过5次或4次池化处理后，顶层特征图上这些小物体对应的区域只剩1个像素点，从而丢失了大量的细节信息，若再进行1次池化，这些小物体的信息将全部丢失，深度卷积神经网络结构图如图3所示。而基于“候选区域(ProposalsRegion)+卷积神经网络(CNN)”的深度学习框架通常以最顶层的特征作为最终的特征图，如图4所示，此时小物体的大量细节已经被池化处理所丢失，这是导致小物体识别率低的主要原因。

本发明对深度卷积神经网络中间层的特征图展开研究，发现底层的卷积层包含丰富的边缘、纹理、尺度信息，且具有很高的分辨率(很强的位置信息，有助于定位)，但是语义信息较低，而顶层的特征图包含很强的语义信息(有助于分类)，但是其分辨率很低，对于一些小物体信息可能只剩一个像素点甚至完全丢失。针对以上问题及分析，本发明把高分辨率的底层特征图与低分辨率的具有强语义信息的高层特征图相融合，如图5所示，这样产生的特征既具有利于定位的底层高分辨率特征，又具有利于分类的强语义信息特征。在融合后的特征图上利用候选区域生成网络生成候选区域，并以此特征图作为候选区域分类和位置回归的特征来源，这样大大提升了小物体的识别率和定位效果，基于深度学习层级间特征融合的多尺度小物体检测示意图如图6所示。

本发明解决了小物体识别率低、定位精度差的问题，意味着可以检测到尺度很小的物体，再加上传统的“候选区域(Proposals Region)+卷积神经网络(CNN)”可以检测大尺度的物体，这样扩大了被检测物体的尺度范围，多尺度检测的问题也随之得到解决。所以，本发明也对多尺度物体检测也做出了贡献。

综上，本发明解决了基于深度学习的物体检测方法不适用于真实场景中的多尺度小物体检测的问题，利用深度学习层级间特征融合方法来解决多尺度小物体的检测是真实场景下物体检测的新方法。

具体实施方式二：本实施方式与具体实施方式一不同的是：步骤一中，训练样本包括：1、由MS COCO数据集构成的基础样本；2、将基础样本进行左右翻转得到的翻转后样本；3、将基础样本和翻转后样本放大一定的倍数后得到的样本。本实施方式是为了使训练样本更加全面丰富，进而使得模型的识别率更高。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：步骤二中，在融合的特征图上利用滑动卷积核的方式产生的候选区域数量为20000个。对于每一个生成的候选区域，如果候选区域与任何一个标记位置的重合面积大于0.55则被认为是正样本，小于0.35则被认为是负样本。计算损失函数时，根据候选区域的得分情况选取256个候选区域，其中正负样本的比例为1:1，如果正样本小于128个则用负样本补齐。最终得到的候选区域可以使用(x₁，y₁，x₂，y₂)表示，其中x₁，y₁表示候选区域左上角的像素坐标，x₂，y₂表示候选区域右上角的像素坐标。使用这种表示方式可以体现出候选区域所在的位置、大小已经长宽比例。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：步骤二中，利用卷积神经网络生成融合特征图的具体过程为：

步骤A1：候选区域产生网络的卷积层产生特征图后，选择一个特征图作为基准图，对分辨率高比基准图高的特征图使用反卷积、对分辨率比基准图低的特征图使用卷积，以使所有特征图的分辨率一致，然后将这些特征图进行拼接得到一个候选融合特征图。

步骤A2：选取另一个未选过的特征图作为基准图，执行步骤A1，得到另一个候选融合特征图，直至所有的特征图都被选过，得到多个候选融合特征图。

步骤A3：从所述多个候选融合特征图中，选取识别率最高的作为融合特征图。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：步骤二中，损失函数L(p,u,t^u,v)的计算公式为：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v)

其中，L_cls(p,u)为类别损失函数；L_loc(t^u,v)为位置损失函数；p为预测的类别；u为类别的真值；t^u为类别u预测的位置；v是标记的位置真值；λ为类别损失函数和位置损失函数的平衡参数；[u≥1]的含义是：如果u≥1，[u≥1]＝1，否则，[u≥1]＝0。其中λ、[u≥1]、L_loc(t^u,v)三个两之间为相乘关系。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：步骤三中，如果候选区域与特定类别的标记位置的重合面积大0.5则被认为正样本，如果重合面积小于0.5且大于0.1则被认为是负样本；选取的用于计算损失函数的候选区域数量为128个；步骤三迭代的次数为120000次。

<实施例>

下面结合具体实施例对本发明作进一步说明，如图7所示，首先准备训练样本，为了扩大训练样本，本发明采用左右翻转和缩放的方法将数据集扩大两倍。接着端到端(endtoend)的训练区域生成网络(图6中步骤1、2、3、5)，训练过程中为了减少训练次数，采用Resnet50模型初始化网络。然后，利用区域网络生成的候选区域端到端的训练物体检测网络(步骤1、2、3、4、6)，同样为了减少训练次数，采用Resnet50模型初始化网络。为了提高训练模型的效率，本发明中的区域生成网络和物体检测网络将共享融合特征前的卷积层部分，具体实施方式为用上述训练好的物体检测网络参数再次初始化区域生成网络，再次重新训练区域生成网络。最后，固定共享的卷积层网络，应用新训练的候选区域生成网络参数初始化物体检测网络，用新的区域生成网络产生的候选区域(proposal)进一步训练物体检测网络，微调物体检测网络参数，基于深度学习层级间特征融合的多尺度小物体检测方法训练流程图如图7所示。

首先准备训练样本。因为深度卷积神经网络有几百万个参数需要优化，所以训练时需要巨大的训练样本。本发明采用真实场景数据库(COCO数据集)的图片作为训练样本，为了进一步增加训练样本、增强训练模型的通用性、增加模型的鲁棒性，将所有样本进行了左右翻转，并将翻转后的图像加入到训练数据集中。此外，为了适应真实场景中物体的多尺度变化，本发明把数据集中的全部图片放大1.25倍，这样进一步扩大了尺度的范围，同样也将放大后的图像加入到训练集中。

产生融合特征。经研究发现底层的卷积层包含丰富的边缘、纹理、尺度信息，且具有很高的分辨率(很强的位置信息，有助于定位)，但是语义信息较低，而顶层的特征图包含很强的语义信息(有助于分类)，但是其分辨率很低，对于一些小物体信息可能只剩一个像素点甚至完全丢失。针对以上问题及分析，本发明把高分辨率的底层特征图与低分辨率的具有强语义信息的高层特征图相融合，这样产生的特征既具有利于定位的底层高分辨率特征，又具有利于分类的强语义信息特征。在融合后的特征图上利用候选区域生成网络生成候选区域，并以此特征图作为候选区域分类和位置回归的特征来源。具体过程为：本发明利用Resnet50作为特征提取网络，在深度学习的前向(forward pass)过程中，会产生不同尺度的一系列的特征图，对于卷积层conv2，conv3，conv4，conv5产生的特征图可以分别表示为{C2，C3，C4，C5}。原始的Resnet50具有5个池化层(pooling layer)，使得特征图C5的分辨率太低，例如原始图像中32*32的区域将在C5特征图上变为1*1的一个点，而小于32*32区域的信息将完全丢失。本发明把conv5后的池化层去掉，Resnet50将仅剩4个池化层，然而真实场景中的物体绝大多数是小于32*32，甚至16*16，经过Resnet50前向计算的4次池化后，物体将变为2*2，甚至1*1，从而丢失了大量的细节信息，给物体分类及定位带来巨大问题。为了解决上述问题，本发明将具有强位置信息的高分辨率的特征图C2、C3与强语义信息的低分辨率的特征图C4、C5进行融合，如图5所示。特征融合过程中，由于每个特征图的空间分辨率不同(32*32的区域作为输入，C2的分辨率为8*8，C3的分辨率为4*4，C4的分辨率为2*2，C5的分辨率为2*2)，无法进行直接的特征合并。本发明采用下采样(卷积)和上采样(反卷积)的方法将所有特征图的分辨率变为一致，然后进行融合。那么考虑是否将所有的特征图(C2，C3，C4，C5)以某一层的分辨率直接拼接就可以得到最优解，而显然，这个并不是最优解，因为这样第一会增大计算量，第二可能会产生过拟合而降低识别率。本发明采用穷举的策略去寻找最优的特征分辨率和最优的融合层数。实验结果证明，特征图C5、特征图C4、特征图C3经过一次卷积相融合，即C345(16)，的结果最佳。

训练候选区域产生网络(Region Proposal Network,RPN)。为了减少训练时间，本发明用在ImageNet训练好的Resnet50分类模型初始化候选区域产生网络，进一步在COCO数据集上对网络参数进行微调。训练过程中，每次从数据集中随机抽取一张输入图片作为输入，利用上述步骤生成融合特征。在融合的特征图上利用滑动卷积核的方式产生大约20000个候选区域，对每一个候选区域同时产生一个得分(根据包含物体的可能性，得分越高，包含物体的可能性越大)。对于每一个生成的候选区域，如果候选区域与任何一个标记位置(Ground Truth Box，gt_box)的重合面积(Intersection of union,IoU)大于0.55则被认为是正样本，如果IoU小于0.35则被认为是负样本。最后，计算损失函数时，根据候选区域的得分情况选取256个候选区域，其中正负样本的比例为1:1，如果正样本小于128则用负样本补齐，整个训练过程迭代80000次，候选区域产生网络(RPN)的训练流程图如图8所示。

训练物体检测网络(Detection Network)。为了减少训练时间，本发明用在ImageNet训练好的Resnet50分类模型初始化物体检测网络，利用上一步生成的候选区域(proposals)对物体检测网络进行进一步训练。训练过程中，每次从数据集中随机抽取一张输入图片作为输入，利用前述步骤生成融合特征。将上一步生成的候选区域的坐标映射到融合特征层上进而得到每个候选区域的特征，如果候选区域与特定类别的标记位置(gt_box)的IoU大于0.5则被认为正样本(包含物体)，如果IoU小于0.5且大于0.1则被认为是负样本(背景)。采用ROI池化将每一个候选区域的特征归一化到固定大小、固定位数输入到全连接层。最后，两个全连接层输出物体类别和对应的位置信息，选取128个候选区域计算损失函数(见公式1)，具体方法为非极大值抑制+得分排序(不是不发明重点，不做详细叙述)，其中正负样本的比例为1:3，如果正样本不够用负样本补齐，整个训练过程迭代120000次，物体检测网络的训练流程图如图8所示。

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v) 公式1

其中，L_cls(p,u)为类别损失函数，L_loc(t^u,v)为位置损失函数，p为预测的类别，u为类别的真值，t^u为类别u预测的位置，v是标记的位置真值，λ为类别损失函数和位置损失函数的平衡参数(本发明设定为1)，[u≥1]表示如果u≥1，[u≥1]＝1，否则，[u≥1]＝0。

从上述的候选区域产生网络和物体检测网络可以看出，这两个网络都经过了特征提取的过程，而利用卷积计算求输入图像的特征占了整个网络训练过程80％的时间。所以，为了避免重复计算，提高检测效率，本发明的两个网络(候选区域产生网络和物体检测网络)将共享特征提取的卷积层和融合后的特征。具体过程为：

再次训练候选区域产生网络(Region Proposal Network,RPN)。首先，固定共享卷积层的学习率(使learning rate＝0)，利用训练好的物体检测网络参数初始化候选区域产生网络，重新训练候选区域产生网络的除共享卷积层以外的网络参数。

再次训练物体检测网络。利用再次训练好的候选区域产生网络参数初始化物体检测网络，同时固定共享的卷积层(使learning rate＝0)，应用再次训练的候选区域产生网络产生的候选区域微调物体监测网络的除共享卷积层以外的网络参数，这样达到了候选区域产生网络和物体检测网络共享特征提取的卷积层和融合特征过程，从而大大降低了计算时间，提高了识别效率。

经上述步骤训练的网络，可以应用到真实场景中的多尺度小物体检测中，实验证明物体识别率高，定位精度准确，同时检测效率高，基本可以满足可实时性的要求，图10为实验结果图。图10全部为真实场景中的图像，从图中可以看出，这些图像的背景比较复杂，尺度差异较大，物体间的遮挡也比较严重，普通方法不适用于这些复杂背景下的物体检测。尤其是针对小物体问题，图10a中的bowl:0.88，图10b中的fork:0.21，图10c中的相互遮挡的一系列car，图10d中的person:0.83，图e中的person:0.99，这些都是现有的方法检测不到的。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于深度学习层级间特征融合的多尺度小物体检测方法，其特征在于，包括：

步骤一、使用真实场景数据库的图片作为训练样本；训练样本中的每张图具有被预先设置好的标记位置和类别信息；标记位置用于表示待识别物体的位置，类别信息用于表示待识别物体的种类；

步骤二、在ImageNet训练好的Resnet50分类模型中初始化候选区域产生网络，并对候选区域产生网络进行训练；训练过程中，每次从数据集中随机抽取一张输入图片作为输入，利用卷积神经网络生成融合特征图；融合特征图是由各个卷积层产生的多个特征图进行融合产生的；在融合特征图上利用滑动卷积核的方式产生预定数量的候选区域，对每一个候选区域同时产生一个得分；得分越高，包含物体的可能性越大；对于每一个生成的候选区域，如果候选区域与任何一个标记位置的重合面积大于等于预设值则被认为是正样本，小于预设值则被认为是负样本；最后，计算损失函数时，根据候选区域的得分情况选取预定数量的候选区域，其中正负样本的比例为1:1，如果正样本小于候选区域数量的一半则用负样本补齐；正样本表示物体，负样本表示背景；

步骤三、在ImageNet训练好的Resnet50分类模型中初始化物体检测网络，利用上一步生成的候选区域对物体检测网络进行进一步的训练；训练过程中，每次从数据集中随机抽取一张输入图片作为输入，利用卷积神经网络生成融合特征；将步骤二生成的候选区域的坐标映射到融合特征层上进而得到每个候选区域的特征，如果候选区域与特定类别的标记位置的重合面积大于预定值则被认为正样本，如果重合面积小于预定值且大于预设下限值则被认为是负样本；采用ROI池化将每一个候选区域的特征归一化到固定大小、固定位数输入到全连接层；最后，两个全连接层输出物体类别和对应的位置信息，选取预定数量的候选区域计算损失函数，其中正负样本的比例为1:3，如果正样本不够用负样本补齐；并迭代设定的次数；

步骤四、固定所有共享卷积层的学习率，使学习率为0，利用训练好的物体检测网络参数初始化候选区域产生网络，重新训练候选区域产生网络的除共享卷积层以外的网络参数；

步骤五、利用再次训练好的候选区域产生网络参数初始化物体检测网络，同时固定共享的卷积层，应用再次训练的候选区域产生网络产生的候选区域微调物体检测网络的除共享卷积层以外的网络参数；

2.根据权利要求1所述的基于深度学习层级间特征融合的多尺度小物体检测方法，其特征在于，步骤一中，训练样本包括：

由MS COCO数据集构成的基础样本；

将基础样本进行左右翻转得到的翻转后样本；

将基础样本和翻转后样本放大一定的倍数后得到的样本。

3.根据权利要求1或2所述的基于深度学习层级间特征融合的多尺度小物体检测方法，其特征在于，步骤二中，

在融合的特征图上利用滑动卷积核的方式产生的候选区域数量为20000个；

对于每一个生成的候选区域，如果候选区域与任何一个标记位置的重合面积大于0.55则被认为是正样本，小于0.35则被认为是负样本；

计算损失函数时，根据候选区域的得分情况选取256个候选区域，其中正负样本的比例为1:1，如果正样本小于128个则用负样本补齐。

4.根据权利要求1所述的基于深度学习层级间特征融合的多尺度小物体检测方法，其特征在于，步骤二中，利用卷积神经网络生成融合特征图的具体过程为：

步骤A1：候选区域产生网络的卷积层产生特征图后，选择一个特征图作为基准图，对分辨率比基准图高的特征图使用反卷积、对分辨率比基准图低的特征图使用卷积，以使所有特征图的分辨率一致，然后将这些特征图进行拼接得到一个候选融合特征图；

步骤A2：选取另一个未选过的特征图作为基准图，执行步骤A1，得到另一个候选融合特征图，直至所有的特征图都被选过，得到多个候选融合特征图；

5.根据权利要求1所述的基于深度学习层级间特征融合的多尺度小物体检测方法，其特征在于，步骤二中，损失函数L(p,u,t^u,v)的计算公式为：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v)

其中，L_cls(p,u)为类别损失函数；L_loc(t^u,v)为位置损失函数；p为预测的类别；u为类别的真值；t^u为类别u预测的位置；v是标记的位置真值；λ为类别损失函数和位置损失函数的平衡参数；[u≥1]的含义是：如果u≥1，[u≥1]＝1，否则，[u≥1]＝0。

6.根据权利要求1所述的基于深度学习层级间特征融合的多尺度小物体检测方法，其特征在于，步骤三中，

如果候选区域与特定类别的标记位置的重合面积大于等于0.5则被认为正样本，如果重合面积小于0.5且大于0.1则被认为是负样本；

选取的用于计算损失函数的候选区域数量为128个；

步骤三迭代的次数为120000次。