CN108182456B

CN108182456B - 一种基于深度学习的目标检测模型及其训练方法

Info

Publication number: CN108182456B
Application number: CN201810063755.4A
Authority: CN
Inventors: 程栋梁; 夏科睿; 刘振; 周如意; 蒋鸣鹤; 王亚运; 张泉; 李文兴
Original assignee: HRG International Institute for Research and Innovation
Current assignee: Hefei Hagong Huicai Intelligent Technology Co ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2022-03-18
Anticipated expiration: 2038-01-23
Also published as: CN108182456A

Abstract

本发明涉及一种基于深度学习的目标检测模型及其训练方法，模型充分发挥密集连接的结构优势，直接从零开始训练，可达到端到端的检测效果。所述模型在后端特征提取时，采用密集连接模块建立起相邻数个卷积层之间更多的关联关系，提升模型性能并减少权值参数；在前端特征图合并时，采用密集连接的形式进行特征重用，使每种尺度的特征图都引入前项特征图的特征，并建立起与顶层更短路径的连通方式，使得误差信号在反向传播中沿网络传递更深。所述模型参数更少、性能更强，弥补了传统模型严重依赖预训练的不足。该模型及其训练方法同样适用于特殊领域图像的目标检测任务，改善了从零开始训练不收敛或过拟合严重的问题。

Description

一种基于深度学习的目标检测模型及其训练方法

【技术领域】

本发明属于计算机视觉领域，具体涉及一种基于深度学习的目标检测模型及其训练方法。

【背景技术】

目标检测作为一项重要的视觉任务广泛应用于自动驾驶、监控、医学图像检测等领域。其任务为分类并定位预定义类别涵盖的所有可能个体，目标分类负责判断输入图像中是否有感兴趣的类别的物体出现，输出一系列带分数的标签表明感兴趣类别的物体出现在输入图像的可能性；目标定位负责确定输入图像中感兴趣类别的物体的位置和范围，输出包围物体的矩形定位框。

近年来随着深度学习的蓬勃发展，将深度学习应用于目标检测也有越来越多的尝试。如CN106874894A将图片输入预训练的残差网络得到特征图，由特征图提取区域候选框和位置敏感得分，并在此基础上进行人体目标分类和定位，提高人体检测准确率；CN106803071A将图像输入到预训练完成的VGG16网络中，提取深度卷积特征图，在卷积特征层上构建三个子网络分别用于识别目标种类、修正候选窗口位置和预测目标姿态角，Xavier算法初始化模型中新添加的层，通过批量随机梯度下降法对网络参数进行微调训练，从而得到用于目标检测的参数网络。

现有的基于深度学习的目标检测器训练方法基本可归纳为两种方式，一种为解决目标训练集规模有限问题，将自建网络模型先在大规模分类数据集(ImageNet)上进行预训练，然后将预训练的网络参数作为目标数据集的初始化参数加载进来，然后针对目标数据集进行网络参数微调训练，拟合出其输入与输出之间的对应关系；另一种为解决在ImageNet上进行预训练的代价高昂问题，使用公开的具有代表性的网络预训练模型，如VGG16、Inception等。自建网络与预训练网络结构相同的层加载其参数进行初始化，不相同的层则采用随机数或其他方式初始化。然后通过微调训练，调整参数拟合目标数据集的理想输出。前者利用大规模分类数据集的质量和数量优势，依靠在其上的预训练模型参数具有泛化的低层次特征提取能力，将这种能力迁移到目标数据集上，减少了目标数据集直接进行训练的过拟合问题。但ImageNet数据量庞大，在其上的自建网络预训练需要苛刻的实验条件以及大量的时间和精力消耗，训练代价沉重。后者则利用典型网络已训练好的模型参数，复用其部分网络参数，在其上进行网络微调，节约训练时间。但为了利用这些层的参数，网络中需包含相同的层级结构，限制了网络设计的灵活性。这两种网络训练方式都严重依赖在ImageNet上的预训练，这得益于其训练得到的参数具有泛化的特征提取特性，但当目标数据集所属的任务领域与ImageNet不匹配时，直接将预训练模型的参数转换到目标领域非常困难，如将RGB图像集的训练参数迁移应用于检测光谱图像中的目标就很难得到理想的结果。另一方法，摆脱预训练模型，直接在规模有限的训练数据集上从零开始训练网络，往往无法收敛或者出现过拟合严重的现象，难以达到预训练配合网络微调进行参数训练的准确率。

【发明内容】

为了解决现有技术中的上述问题，本发明提供了一种基于深度学习的目标检测模型及其训练方法，摆脱对预训练模型的依赖，在训练数据有限的前提下，实现目标检测模型从零开始训练能够收敛，并达到端到端的检测效果。

本发明采用的技术方案如下：

一种基于深度学习的目标检测模型训练方法，包括以下步骤：

步骤1：构建目标检测网络模型；

步骤2：采用X avier方法初始化目标检测网络模型中的所有权值参数；

步骤3：针对特定检测任务的训练数据集进行数据增强操作；

步骤4：设置网络训练参数；

步骤5：将增强后的训练数据集按参数设置情况，分批输入步骤2初始化后的目标检测网络模型中，通过误差反向传播算法迭代更新网络中的各项权值参数，使得训练数据的网络预测输出尽量趋近理想输出；

步骤6：迭代一定次数后判断当前模型预测输出与理想输出之间的误差是否在误差界范围内，若是则停止迭代，输出训练得到的目标检测模型及其对应参数，否则，调整网络训练参数，跳转至步骤5继续迭代训练。

进一步地，所述目标检测网络模型由后端主干子网络和前端预测子网络组成；后端主干子网络提取输入图像不同尺度的特征，输送给前端预测子网络；前端预测子网络通过一定的密集连接结构合并多尺度特征图，将合并后的特征图输入Multibox检测器，检测后输出图像中的目标类别以及位置预测结果。

进一步地，所述后端主干子网络由根模块、密集连接模块、转换模块以及若干单独的卷积层组成，连接顺序为根模块→密集连接模块与转换模块的交替连接→若干单独卷积层，其中

所述根模块以较小的卷积核对输入图像进行卷积操作；

所述密集连接模块由若干个瓶颈模块构成，在同一密集连接模块中，当前瓶颈模块与前项所有瓶颈模块建立连接关系；所述瓶颈模块由一个卷积核为1×1的卷积层和一个卷积核为3×3的卷积层组合而成；

所述转换模块具有两种类型：转换池化模块和直接转换模块；所述转换池化模块由卷积核为3×3的卷积层和核为2×2的最大值池化层组成，实现降采样功能，将输入特征图的尺度减少至原来的一半；所述直接转换模块由单一卷积核为1×1的卷积层构成，不改变特征图尺度大小；

所述单独卷积层由一个卷积核为3×3的卷积层和一个卷积核为1×1的卷积层顺序连接而成。

进一步地，所述密集连接结构，其将后端主干子网络提取的不同尺度的特征图合并重组，形成新的特征图。对于新形成的任一尺度特征图，其一半通道由后端主干子网络的一系列卷积操作学习得到，剩余另一半通道直接提取临近的新特征图通过降采样模块得到，两种尺度相同来源不同的特征图通过密集连接形成一系列不同尺度的新特征图。

进一步地，所述降采样模块由核为2×2的最大值池化层和卷积核为1×1的卷积层组成。

进一步地，所述Multibox检测器对合并后的多尺度特征图进行目标分类和位置预测，然后通过极大值抑制得到目标检测结果。目标检测结果表示为感兴趣类别的物体出现在对应位置的可能性，以及表示该位置上物体的位置和范围的包围矩形框坐标。

进一步地，所述步骤2中采用的Xavier方法使各层网络权值参数以高斯分布初始化，高斯分布的均值为零，方差大小为该层输入神经元数目与输出神经元数目之和的倒数的两倍。

进一步地，所述数据增强操作即对输入的图像进行增强变换处理，增加输入图像数据的量，所述增强变换处理的方式包括对源图像进行如下一种或多种组合变换：随机裁剪变换、随机水平翻转变换、对比度变换、色相调整变换、饱和度调整变换以及明度调整变换。

进一步地，所述步骤5包括：通过小批量随机梯度下降的优化算法将网络预测输出与理想输出之间的误差通过网络反向传播至各层的权值参数上，通过不断迭代更新网络中的各层神经元权值参数，使网络预测输出不断趋近理想输出结果，即网络结构及其权值拟合出输入与输出之间的函数关系。

本发明达到的有益效果是：所用模型参数更少、性能更强，且不依赖在大规模数据集上的预训练。尤其在处理特殊领域图像目标检测任务时，可直接从零开始训练，模型收敛并能达到较好的检测效果。

【附图说明】

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1是本发明所提供的目标检测密集连接模块；

图2是本发明所提供的目标检测模型；

图3是本发明所提供的目标检测训练方法流程示意图。

【具体实施方式】

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

本发明的方法是一种适用于从零开始训练的目标检测模型训练方法，包括以下步骤(参见附图3)：

步骤1：构建目标检测网络模型。

所述目标检测网络模型的构建可以借助现有的任意一种深度学习框架，例如一些开源的深度学习框架。

所述目标检测网络模型由后端主干子网络和前端预测子网络组成。后端主干子网络提取输入图像不同尺度的特征，输送给前端预测子网络；前端预测子网络通过一定的密集连接结构合并多尺度特征图，将合并后的特征图输入Multibox检测器，检测后输出图像中的目标类别以及位置预测结果。

所述后端主干子网络由根模块、密集连接模块、转换模块以及若干单独的卷积层组成，用来提取输入图像的多尺度特征。其中密集连接模块和转换模块交替连接，其余模块按顺序连接，即连接顺序为根模块→密集连接模块与转换模块的交替连接→若干单独卷积层。

所述根模块分布在所述后端主干子网络最底端，最靠近输入图像，利用较小的卷积核对输入图像进行卷积操作，减少原始输入图像在网络根部的信息丢失。优选的，所述根模块由3个卷积核为3×3的卷积层和1个核为2×2的最大值池化层顺序连接而成。

所述密集连接模块由若干个瓶颈模块构成，在同一密集连接模块中，当前瓶颈模块与前项所有瓶颈模块建立连接关系，形成类似于全排列的密集连接，其连接关系如图1所示。外层输入特征图与模块中各瓶颈模块的输出堆叠，形成该密集连接模块的输出特征图。经过密集连接模块转换的特征图，其尺度大小不变，通道数增多，即模型变厚。通过模块内部的密集连接形式，使得前项瓶颈模块跳过中间部分瓶颈模块接收到来自顶端更直接的监督，减缓从零开始训练中最需解决的梯度消失问题。

所述瓶颈模块由一个卷积核为1×1的卷积层和一个卷积核为3×3的卷积层组合而成。同一密集连接模块中，各瓶颈模块的输出通道数相同，输入通道数为所在密集连接模块中所有前项层通道数的累加和，瓶颈模块转换过程中特征图尺度大小不变。

所述转换模块一般设置在两个相邻密集连接模块之间，起到过渡作用。其结构可分为两种类型：一种由卷积核为3×3的卷积层和核为2×2的最大值池化层组成，实现降采样功能，将输入特征图的尺度减少至原来的一半，称为转换池化模块；另一种仅由单一卷积核为1×1的卷积层构成，不改变特征图尺度大小，仅起过渡两个密集连接模块的作用，使得网络中密集连接模块数量增加而不降低最终特征图的分辨率，称为直接转换模块。优选的，底端转换模块采用转换池化模块形式，顶端转换模块采用直接转换模块形式。

根据本发明的一个优选实施例，所述后端主干子网络按照“根模块-密集连接模块1-转换模块1-密集连接模块2-转换模块2-密集连接模块3-转换模块3-密集连接模块4-转换模块4-单独卷积层1-单独卷积层2-单独卷积层3-单独卷积层4”的顺序连接而成；其中密集连接模块1采用6个瓶颈模块密集连接而成，密集连接模块2、3、4则采用8个瓶颈模块密集连接而成，转换模块1、2采用转换池化模块，转换层3、4采用直接转换模块，4个单独卷积层使特征图的尺度依次减半。

所述前端预测子网络用一个复杂密集连接结构重构、合并后端主干子网络的提取特征图，合并后的多尺度特征图输入到Multibox检测器，输出预测响应。所述响应为图像中的目标物体类别及其在图像中的位置包围矩形框的坐标，位置包围矩形框通常用其左上和右下点的坐标表示。

所述复杂密集连接结构将后端主干子网络提取的不同尺度的特征图合并重组，形成新的特征图。对于新形成的每一种尺度的特征图，其一半通道由后端主干子网络的一些列卷积操作学习得到，剩余另一半通道直接提取临近的新特征图通过降采样模块得到。相当于，每幅特征图都通过降采样引入该特征图此前所有提取尺度的特征层，以此形成所谓的复杂密集连接结构。因此，每幅特征图通过密集连接与目标函数建立更短路径的连通方式，使得在误差反向传播过程中，各特征图受到来自顶端更直接的深层监督，从而得到更精确的结果，同时减少了训练参数。

其中，所述降采样模块由核为2×2的最大值池化层和卷积核为1×1的卷积层组成。在合并过程中，池化层使提取的临近新特征图的尺度与当前特征图尺度相匹配，卷积层使特征图通道减少一半。设置池化层在卷积层之前，减少了参数的计算量。

所述Multibox检测器对合并重组后的多尺度特征图进行目标分类和位置预测，然后通过极大值抑制得到目标检测结果。目标检测结果表示为感兴趣类别的物体出现在对应位置的可能性，以及表示该位置上物体的位置和范围的包围矩形框坐标。

参见附图2，其示出了本发明目标检测模型的一个具体实施例，在后端主干子网络中提取出尺度分别为38×38×800、19×19×256、10×10×256、5×5×128、3×3×128以及1×1×128的部分特征图，按图2所示连接方式形成密集连接结构。对于所提取的尺度为38×38×800的特征图，降采样后与临近下一特征图进行合并，合并生成的特征图作为输出的同时进行又一降采样，与再下一个特征图进行合并，合并生成的特征图作为输出的同时延续降采样合并操作直到所有尺度的特征图都参与生成合并的输出特征图。降采样采用一个核为2×2的最大值池化层和卷积核为1×1的卷积层。输出合并后的特征图尺度分别为38×38×800、19×19×512、10×10×512、5×5×256、3×3×256以及1×1×256。

将生成的具有深度监督特性的多尺度特征图输入Multibox检测器，使用回归的思想，直接在各多尺度特征图上的多个位置回归出该位置的目标包围框以及包围框中包含目标的所属类别。在设定好每层默认包围框尺寸和纵横比的情况下，Multibox检测器通过三个通道分别在提取的特征层上产生位置预测、所属类别预测以及所有默认包围框的位置信息。

步骤2：采用Xavier方法初始化目标检测网络模型中的所有权值参数。具体地，使各层人工神经网络权值参数以高斯分布初始化，高斯分布的均值为零，方差大小为该层输入神经元数目与输出神经元数目之和的倒数的两倍。

步骤3：针对训练数据集进行数据增强操作。

具体地，在训练数据集规模有限的情况下，对输入的图像进行增强变换处理，增加输入图像数据的量，所述增强变换处理的方式包括对源图像进行一种或多种组合变换。所使用的数据增强变换主要有：随机裁剪变换、随机水平翻转变换、对比度变换、色相调整变换、饱和度调整变换以及明度调整变换。在将目标训练数据集送入训练网络前，通过一系列变换操作给网络提供更充足的可用样本。

步骤4：设置网络训练参数，如批量大小、学习速率等。

步骤5：将增强后的目标训练数据集按参数设置情况，分批输入步骤2初始化后的目标检测网络模型中，通过反复迭代将网络预测输出与理想输出之间的差值通过网络反向传播至各层的权值参数上，使得网络及其权值形成的结构拟合出训练数据集中的输入及其对应输出之间的函数关系。

优选的，通过小批量随机梯度下降的优化算法将网络预测输出与理想输出之间的误差反向传播，通过不断迭代更新网络中的各层神经元权值参数，使网络输出不断趋近理想输出结果，拟合出输入与输出之间的函数关系。

步骤6：迭代一定次数后判断当前模型输出与理想输出之间的误差是否在误差界范围内，若是则停止迭代，输出训练得到的目标检测模型及其对应参数，用于同领域图像的目标预测；否则，调整网络训练参数，跳转至步骤5，继续迭代训练。

基于本发明的上述模型和方法，提取的多特征图进行合并时，采用密集连接的方式重构各多尺度特征图，通过一半学习一半重用的设计，对于每一种尺度的特征图都融合进该特征图前其他尺度特征图的部分内容，特征图更具代表性。同时，这种密集连接的结构使网络参数更少，连接更紧密，建立起了靠近输入神经元和顶层之间更近的连接关系，使得从零开始训练时，靠近输入神经元的结构层直接接受来自顶层的梯度回传，避免出现梯度消失的情况，是实现从零开始训练得到收敛结果的有效策略。特征提取子网络所采用的密集连接的方式，建立起相邻数个卷积层之间的更多的关联关系，大大减少了需要学习的模型参数，同时提升了模型性能。

以上所述仅是本发明的较佳实施方式，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请范围内。

Claims

1.一种基于深度学习的目标检测模型训练方法，其特征在于，包括以下步骤：

步骤1：构建目标检测网络模型；

步骤2：采用Xavier方法初始化目标检测网络模型中的所有权值参数；

步骤3：针对特定检测任务的训练数据集进行数据增强操作；

步骤4：设置网络训练参数；

2.根据权利要求1所述的方法，其特征在于，所述目标检测网络模型由后端主干子网络和前端预测子网络组成；后端主干子网络提取输入图像不同尺度的特征，输送给前端预测子网络；前端预测子网络通过一定的密集连接结构合并多尺度特征图，将合并后的特征图输入Multibox检测器，检测后输出图像中的目标类别以及位置预测结果。

3.根据权利要求2所述的方法，其特征在于，所述后端主干子网络由根模块、密集连接模块、转换模块以及若干单独的卷积层组成，连接顺序为根模块→密集连接模块与转换模块的交替连接→若干单独卷积层，其中

所述根模块以较小的卷积核对输入图像进行卷积操作；

4.根据权利要求2所述的方法，其特征在于，所述密集连接结构，其将后端主干子网络提取的不同尺度的特征图合并重组，形成新的特征图；对于新形成的任一尺度特征图，其一半通道由后端主干子网络的一系列卷积操作学习得到，剩余另一半通道直接提取临近的新特征图通过降采样模块得到，两种尺度相同来源不同的特征图通过密集连接形成一系列不同尺度的新特征图。

5.根据权利要求4所述的方法，其特征在于，所述降采样模块由核为2×2的最大值池化层和卷积核为1×1的卷积层组成。

6.根据权利要求2所述的方法，其特征在于，所述Multibox检测器对合并后的多尺度特征图进行目标分类和位置预测，然后通过极大值抑制得到目标检测结果；目标检测结果表示为感兴趣类别的物体出现在对应位置的可能性，以及表示该位置上物体的位置和范围的包围矩形框坐标。

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述步骤2中采用的Xavier方法使各层网络权值参数以高斯分布初始化，高斯分布的均值为零，方差大小为该层输入神经元数目与输出神经元数目之和的倒数的两倍。

8.根据权利要求1-6任意一项所述的方法，其特征在于，所述数据增强操作即对输入的图像进行增强变换处理，增加输入图像数据的量，所述增强变换处理的方式包括对源图像进行如下一种或多种组合变换：随机裁剪变换、随机水平翻转变换、对比度变换、色相调整变换、饱和度调整变换以及明度调整变换。

9.根据权利要求1-6任意一项所述的方法，其特征在于，所述步骤5包括：通过小批量随机梯度下降的优化算法将网络预测输出与理想输出之间的误差通过网络反向传播至各层的权值参数上，通过不断迭代更新网络中的各层神经元权值参数，使网络预测输出不断趋近理想输出结果，即网络结构及其权值拟合出输入与输出之间的函数关系。