CN109859190B

CN109859190B - 一种基于深度学习的目标区域检测方法

Info

Publication number: CN109859190B
Application number: CN201910099621.2A
Authority: CN
Inventors: 张涛; 郝兵; 冯宇婷
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2021-09-17
Anticipated expiration: 2039-01-31
Also published as: CN109859190A

Abstract

一种基于深度学习的目标区域检测方法属于计算机视觉技术领域，该方法在主要采用了retinanet检测网络。RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构。这里我把backbone分别采用ResNeXt50和densenet169而代替了之前的resnet。并对retnanet网络的FPN层以及loss损失函数进行了修改，最后进行了模型的融合。该目标检测方法结合了目前主流的目标检测方法的优点，并且已经解决了一系列实际的问题。本算法在coco2017下进行了实验，性能有非常好的表现。比retinanet下的单模型以及未对模型进行改进时的结果都要好。另外在其它数据集上也具有较好的表现。

Description

一种基于深度学习的目标区域检测方法

技术领域

本发明属于计算机视觉技术领域，主要为深度学习图像检测方法的改进，涉及一些传统图像处理。

背景技术

随着人工智能的发展，计算机视觉的应用同样得到蓬勃的发展。在计算机视觉应用中，图像检测是重要的分支，图像目标检测在人脸识别，无人驾驶，无人零售，智能医疗等领域具有重要意义。

图像目标检测是计算机视觉中一个重要的研究方向，随着深度学习的发展，目标检测技术取得了非常大的进步。目标检测对于人类来说并不困难，通过对图片中不同颜色模块的感知很容易定位并分类出其中目标物体，但对于计算机来说，面对的是RGB像素矩阵，很难从图像中直接得到狗和猫这样的抽象概念并定位其位置，再加上有时候多个物体和杂乱的背景混杂在一起，目标检测更加困难。目标检测要解决的核心问题是：1.目标可能出现在图像的任何位置。2.目标有各种不同的大小。3.目标可能有各种不同的形状。为解决以上问题，深度学习目标检测领域出现了两个分支，双阶段和单阶段。双阶段模型中一个阶段提出备选框，一个阶段对备选框进行判断。主要为RCNN系列的网络，RCNN，Faster RCNN，Mask RCNN。单阶段的网络，整个生成备选框的过程是一体化的实现。代表有YOLO系列和SSD(single shot detector)。

发明内容

本发明要解决的技术问题是，提出一种基于深度学习的目标区域检测方法。该方法主要采用了RetinaNet检测网络。RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构。这里我把主干网络分别采用ResNeXt50和densenet169代替了之前的resnet50。并在RetinaNet网络的FPN层新加了全局的loss损失函数，在回归的分支上进行改进，最后进行了模型的融合。具体方案如下所述。

数据层：

图像输入后首先进行图像的预处理，图像的预处理主要是对图像的清洗和图像的增强以及缩放。由于2017coco数据集是一个公开数据集较为干净，所以没有对图片进行删减。我们发现，图像的增强主要在对比度增强，裁剪，旋转，翻转，仿射变换方面对算法性能有更好的提升。并且通过实验我们发现，许多小剂量的图像增强对算法性能的提升更加显著。在coco数据集中我把旋转的角度设置为随机负5到正5度之间，翻转设置为图像随机左右10％，较小程度的随机改变亮度以及对比度。最后将图片缩放到一定尺寸，我们在coco数据集上缩放到800*800*3。

模型主干网络的改动：

ResNeXt50与resne50的区别如图6。图6的左边为resnet中的结构,输入的是一个256卷积核的feature map，经过1*1*64，3*3*64，1*1*256的卷积后(64,64,256是卷积核的个数)，然后再与输入的feature map相加。右图为ResNeXt101中的结构，通过网络拆分，4个卷积核一组，提高了网络的分工和局部适应性，32个path的输出向量按照pixel-wise求和(所有通道对应位置点相加)，然后再与输入的feature map相加。

图7表示的是一个DenseNet的模块结构图，在这个结构图中只包含了3个denseblock，在实际中，dense block的个数我们可以自己定义。让网络中的每一层都直接与其前面层相连，实现特征的重复利用；同时把网络的每一层设计得特别窄，即只学习非常少的特征图(最极端情况就是每一层只学习一个特征图)，达到降低冗余性的目的。

实验表明用ResNeXt50和DenseNet169代替resnet50都能提高检测模型的能力，使模型具有更好的表现。

模型FPN结构的改动：

原来多数的目标检测算法都是只采用顶层特征做预测，但我们知道低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略。FPN结构的特点在于预测是在不同特征层独立进行的。

自底向上其实就是网络的前向过程。在前向过程中，feature map的大小在经过某些层后会改变，而在经过其他一些层的时候不会改变，将不改变feature map大小的层归为一个stage，因此每次抽取的特征都是每个stage的最后一个层输出，这样就能构成特征金字塔。

自顶向下的过程采用上采样(upsampling)进行，而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合(merge)。在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积，目的是消除上采样的混叠效应(aliasing effect)。并假设生成的feature map结果是P2，P3，P4，P5，和原来自底向上的卷积结果C2，C3，C4，C5一一对应。

对于P3，P4，P5，P6，P7这些层，定义anchor的大小为64*64,128*128,256*256，512*512，1024*1024,另外每个scale层都有3个长宽对比度：1:2，1:1，2:1。所以整个特征金字塔有3*5＝15种anchor。

网络的P3，P4，P5，P6，P7下面分别跟了两个分支,分类和回归。P3，P4，P5，P6，P7下面跟的分类和回归是相同的。如图3所示，这是一个回归分支的细节图。这里传进来了一个50*50*2048的特征向量，其中卷积核为2048。网络原本的设计是经过一个3*3的卷积核为36的卷积直接进行特征归一化，经过研究我把这里的卷积替换成如图3所示的3个卷积融合的形式，其中从左到右依次用的为1*3*12，3*3*12和3*1*12的卷积(12,12,12分别为卷积核的个数)，这样卷积融合后总的卷积核数仍然为36，这使各种形状的目标框都能更好的进行定位。

综上所说算法该结构同时利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果。使检测的结果可以取得明显的提升。

增加损失函数：

Focal Loss通过调整loss的计算公式使retinanet单级结构达到和Faster RCNN一样的准确度。

FL(p_t)＝-α_t(1-p_t)^γlog(p_t)；pt是不同类别的分类概率，r是个大于0的值，at是个[0，1]间的小数，r和at都是固定值，不参与训练。从表达式可以看出：

1、无论是前景类还是背景类，pt越大，权重(1-pt)r就越小。也就是说easyexample可以通过权重进行抑制；

2、at用于调节positive和negative的比例，前景类别使用at时，对应的背景类别使用1-at；

3、r和at的最优值是相互影响的，所以在评估准确度时需要把两者组合起来调节。实验得出r＝2、at＝0.25时，模型可以输出最优的性能。r对应后面所说的gamma，at对应后面所说的alpha。

我们在网络结构的C5后面增加了一个全局的损失函数，损失函数用的就是focalloss损失函数，损失函数位置如图2所示。通过对每张图的全局信息进行分类，可以有效的减少后面的分类压力，提高模型的性能。

图像在进入算法后的运转流程(流程图如图5所示)：

输入一张图像后首先进入训练集生成器，训练集生成器主要做了三件事。第一读取训练图片。第二，对数据进行数据增强，负5到正5度的旋转，随机左右10％的翻转，较小程度的随机改变亮度以及对比度。第三，把图片缩放到800*800*3。

然后进入检测算法。图中从输入图像到C5的过程就是我们进行特征提取的过程。这里我们把resnet50替换成了ResNeXt50和DenseNet169分别进行实验。从输入图像到c1做的操作依次为，一个7*7卷积核为64的卷积，batch normalization，Relu,3*3步长为2的最大池化。这时变为c1(200*200*64)。从c1到c2依次为ResNeXt50或者DenseNet169的block(我们用这两个网络分别跑完整个检测的模型),其中从c1到c2没有进行最大池化操作，c2到c3,c3到c4，c4到c5进行了步长为2的最大池化所以每次feature的宽高都变为了原来的一半。

c5之后我给网络增加了一个全局的损失函数。所以c5之后我加了1024*1024的全连接和一个softmax分类器。损失函数用的是focal loss损失函数。

接下来算法进入FPN的结构。c3,c4,c5分别通过一个1*1卷积核为256的卷积生成c3_reduced,c4_reduced,c5_reduced。c5_reduced进行一个双线性插值处理变为P5_upsampled,P5_upsampled的feature map的大小跟c4_reduced相同，所以可以进行卷积的融合。c4_reduced和P5_upsampled进行add卷积融合生成p4_merged。同样的方式，p4_merged进行一个双线性插值处理变为p4_upsampled,P4_upsampled的feature map的大小跟c3_reduced相同，c3_reduced和p4_upsampled进行add卷积融合生成p3_merged。p3,p4,p5分别由p3_merged，p4_merged，p5_upsampled经过一个3*3卷积核为256的卷积得到。p6由c5经过一个3*3卷积核为256的卷积得到。p7由p6经过一个3*3卷积核为256的卷积得到。

p3,p4,p5,p6,p7后面分别跟一个分类和一个回归的分支。每个分类和回归的分支是相同的。先说分类的分支。p3,p4,p5,p6,p7分别经过一个3*3卷积核为256的卷积后进入分类的分支。这时候的feature map为50*50*256，然后经过一个3*3卷积核为36周围补零的卷积，保持feature map形状不变。最后进行特征归一化，把feature map的形状变为符合分类的格式。由于coco数据集中分80类，加一个背景类，所以总共是81类。所以这里会把之前的feature map变为维度为81的特征向量，进行分类。在回归层，p3,p4,p5,p6,p7分别经过一个3*3卷积核为256的卷积后进入回归的分支。之后进入三个分支，其中从左到右依次用的为1*3*12，3*3*12和3*1*12的卷积(12,12,12分别为卷积核的个数)，这样卷积融合后总的卷积核个数仍然为36。因为做回归的话就是定位目标的位置，定位目标的方框只需要两个坐标就可以即目标框左上角的位置和目标框右下角的位置，每个位置一个横坐标一个纵坐标，所以总共需要四个数值。所以这里会把之前的feature map变为维度为4的特征向量，进行回归。

模型融合部分。

两个模型检测的结果进行模型融合。对所有的预测框进行NMS非极大值抑制。IOU阈值一般设置为0.7。IOU的值就是两个预测框的交集除以两个预测框的并集的值。NMS就是对所有的框进行一一比较，如果两个框的交集大于IOU设置的阈值，则保留得分最大的框，删除另外的框。

该目标检测方法结合了目前主流的目标检测方法的优点，并对其结构进行了优化和改进，并完成了一整套从数据预处理到训练方法到最后结果的目标物体检测的流程和方法。并且已经解决了一系列实际的问题。本算法在coco2017下进行了实验，性能有非常好的表现。比retinanet下的单模型以及未对模型进行改进时的结果都要好。另外在其它数据集上也具有较好的表现。

附图说明：

图1为本发明所涉及方法的流程图；

图2为本发明设计的目标检测网络结构中FPN检测分支的结构改进图；

图3为本发明设计增加的目标检测网络结构中loss损失函数位置图；

图4为本发明所涉及的自然图像的结果图；

图5为本发明所涉及的retianent详细流程图；

图6为本发明所涉及的ResNeXt50与resne50模块结构图；

图7为本发明所涉及的DenseNet模块结构图。

具体实施方式

以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明所用到的硬件设备有PC机1台、nvidia1080显卡1个；

如图1所示，本发明提供一种基于深度学习的目标区域检测方法，以下为在coco2017下进行实验的具体内容。具体包括以下步骤：

步骤1，获取coco2017图像数据集。并对这些数据进行清洗。由于2017coco数据集是一个公开数据集较为干净，所以没有对图片进行删减。

步骤2，图像预处理，因为coco数据集中每张图均有标注，所以把所有的数据都进行了图像的增强。图像进行50％概率的数据增强。其中用到的数据增强主要包括旋转，翻转，对比度增强，裁剪，亮度，仿射变换。实验发现，随机旋转的角度设置为负5到正5度。翻转设置为图像随机左右10％的翻转。较小程度的随机改变亮度以及对比度，可以保证图像的意义，为有效的数据增强；

步骤3，检测模型搭建，retinanet网络，如图5所示。训练的时候设置每次跑6张图。测试的时候每次放入一张图片得出检测结果。

步骤4，训练目标检测网络

4.1加载imagenet预训练模型，对网络的特征提取部分的参数进行冻结，只训练之后的网络，达到最好结果后进行下一步训练。这个过程中学习率设置为0.01.focal loss的两个参数分别设置为alpha＝0.25gamma＝2.0。Anchors的比例和大小的设置如下，ratios＝[0.5,1,2]scales＝[2**0,2**(1.0/3.0),2**(2.0/3.0)]。

分别用基础模型为resnet50和resnet101进行上述步骤。

4.2分别加载4.1训练好的模型，学习率设置为0.005。Anchors的比例和大小以及focal loss的参数保持不变。对网络的全部参数进行训练，直到loss稳定。达到最好的结果。

如图5所示，是专利中使用的经过改进的retinanet网络的结构图。

步骤5，两个模型检测的结果进行模型融合。

对两个模型检测出来的所有预测框卡IOU＝0.7的阈值进行NMS操作，剩下的为最终的预测结果，检测结果如图4所示。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于深度学习的目标区域检测方法，其特征在于，包括以下步骤：

步骤1、获取带有标注的图像数据集，并对数据进行分析；

步骤2、利用图像增强技术，对所有正样本的数据进行预处理，以此增加样本的数量，以及丰富数据集的内容；

步骤3、用RetinaNet网络对经过预处理的正样本进行训练；

步骤4、RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构，resnet为模型的主干网络；将主干网络替换为ResNeXt50和DenseNet，分别采用ResNeXt50和DenseNet进行模型检测，两个模型检测的结果进行模型融合，模型融合就是将两个模型输出的结果放在一块；对所有的预测框进行NMS非极大值抑制，IOU阈值设置为0.7，IOU的值就是两个预测框的交集除以两个预测框的并集的值，NMS就是对所有的框进行一一比较，如果两个框的交集大于IOU设置的阈值，则保留得分最大的框，删除另外的框。

2.根据权利要求1所述的一种基于深度学习的目标区域检测方法，其特征在于模型主干网络的改动；

ResNeXt50具体如下：通过网络拆分，4个卷积核一组，32个path的输出向量按照pixel-wise求和即所有通道对应位置点相加，然后再与输入的feature map相加；

DenseNet的模块结构具体如下：让网络中的每一层都直接与其前面层相连，实现特征的重复利用，同时网络的每一层只学习一个特征图。

3.根据权利要求1所述的一种基于深度学习的目标区域检测方法，其特征在于，模型FPN结构的改动：

自底向上其实就是网络的前向过程，在前向过程中，feature map的大小会发生改变；

自顶向下的过程采用上采样进行，而横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合；在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积，生成的feature map结果是P2，P3，P4，P5，和原来自底向上的卷积结果C2，C3，C4，C5一一对应；

对于P3，P4，P5，P6，P7这些层，定义anchor的大小为64*64，128*128，256*256，512*512，1024*1024，另外每个scale层都有3个长宽对比度：1∶2，1∶1，2∶1；所以整个特征金字塔有3*5＝15种anchor；

网络的P3，P4，P5，P6，P7下面为两个分支，分类和回归；P3，P4，P5，P6，P7下面的分类和回归是相同的；这里传入的是一个50*50*2048的特征向量，其中卷积核为2048，卷积设计成3个卷积融合的形式，其中从左到右依次为1*3*12，3*3*12和3*1*12的卷积，这样卷积融合后总卷积核数仍然为36。

4.根据权利要求1所述的一种基于深度学习的目标区域检测方法，其特征在于，增加focal loss损失函数，focal Loss损失函数的计算公式FL(p_t)＝-α_t(1-p_t)^γlog(p_t)，其中pt是不同类别的分类概率，γ＝2、α_t＝0.25。

5.根据权利要求1所述的一种基于深度学习的目标区域检测方法，其特征在于，输入一张图像后首先进入训练集生成器，训练集生成器做了三件事；第一读取训练图片，第二对数据进行数据增强，负5到正5度的旋转，随机左右10％的翻转，随机改变亮度以及对比度，第三把图片缩放到800*800*3；

然后进入检测算法，从输入图像到c1做的操作依次为，一个7*7卷积核为64的卷积，batch normalization，Relu，3*3步长为2的最大池化；这时变为c1，c1的维度形式为200*200*64；c1到c2进行特征的升维，c2的维度形式为200*200*256；c2到c3，c3到c4，c4到c5进行了步长为2的最大池化，所以每次feature的宽高都变为了原来的一半；c5之后是1024*1024的全连接和一个softmax分类器，然后增加全局损失函数，全局损失函数使用focalloss损失函数；

接下来算法进入FPN的结构，c3，c4，c5分别通过一个1*1卷积核为256的卷积生成c3_reduced，c4_reduced，c5_reduced；c5_reduced进行一个双线性插值处理变为P5_upsampled，c4_reduced和P5_upsampled进行add卷积融合生成p4_merged；同样的方式，p4_merged进行一个双线性插值处理变为p4_upsampled，P4_upsampled的feature map的大小跟c3_reduced相同，c3_reduced和p4_upsampled进行add卷积融合生成p3_merged；p3，p4，p5分别由p3_merged，p4_merged，p5_upsampled经过一个3*3卷积核为256的卷积得到；p6由c5经过一个3*3卷积核为256的卷积得到，p7由p6经过一个3*3卷积核为256的卷积得到；

p3，p4，p5，p6，p7后面分别跟一个分类和一个回归的分支，每个分类和回归的分支是相同的；p3，p4，p5，p6，p7分别经过一个3*3卷积核为256的卷积后进入分类的分支，这时候的feature map为50*50*256，然后经过一个3*3卷积核为36周围补零的卷积，保持featuremap形状不变；最后进入特征归一化，把feature map的形状变为符合分类的格式；把之前的feature map变为维度为81的特征向量，进行分类；在回归层，p3，p4，p5，p6，p7分别经过一个3*3卷积核为256的卷积后进入回归的分支，回归分支从左到右依次为1*3*12，3*3*12和3*1*12的卷积，这样卷积融合后总的卷积核个数仍然为36，会把之前的feature map变为维度为4的特征向量进行回归。