CN106682697A

CN106682697A - 一种基于卷积神经网络的端到端物体检测方法

Info

Publication number: CN106682697A
Application number: CN201611241694.3A
Authority: CN
Inventors: 王兴刚; 陈凯兵; 姜玉静; 刘文予
Original assignee: Huazhong University of Science and Technology
Current assignee: Wuhan Fiberhome Digtal Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-17
Anticipated expiration: 2036-12-29
Also published as: CN106682697B

Abstract

本发明公开了一种基于卷积神经网络的端到端目标检测方法，包括：(1)基于经典基础网络结构，去掉经典基础网络最后的全连接层，并添加额外层从而建立卷积神经网络模型；(2)从原始训练数据集中随机选取一张原始图像进行数据扩增得到扩增图像，并获得在原始图像中随机选取的目标图像块在扩增图像中的位置和边框；(3)利用步骤(2)得到的目标图像块在扩增图像中的位置和边界，回归步骤(2)中的卷积神经网络模型得到模型参数，从而得到训练后的卷积神经网络模型；(4)利用训练后的卷积神经网络模型，检测待检测图像中的目标的边界框和类别。本方法采用直接回归目标中心点坐标、宽高和类别，与同类方法相比，在速度上有很大的优势。

Description

一种基于卷积神经网络的端到端物体检测方法

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于卷积神经网络的端到端物体检测方法。

背景技术

目标检测是计算机视觉里的一个基础任务，它可以被用到很多现实中常见的一个项目，例如行人检测、车辆检测、目标跟踪和图像检索里的预处理部分。做好目标检测对于一些更高层的任务有非常大的帮助。现有的目标检测算法，大都是一些复杂度较高的算法，很少能够达到实时，因此开发一套精度高，速度快的检测算法一直是计算机视觉的一项难题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于卷积神经网络的端到端物体检测方法，该方法检测精度高，速度快。

为实现上述目的，本发明提供了一种基于卷积神经网络的端到端目标检测方法，包括下述步骤：

(1)基于经典基础网络结构，去掉经典基础网络最后的全连接层，并添加额外层从而建立卷积神经网络模型，其中所述额外层为多层卷积层，或多层卷积层加LSTM；

(2)从原始训练数据集中随机选取一张原始图像进行数据扩增得到扩增图像，并获得在原始图像中随机选取的目标图像块在扩增图像中的位置和边框；

(3)利用步骤(2)得到的目标图像块在扩增图像中的位置和边界，回归步骤(2)中的卷积神经网络模型得到模型参数，从而得到训练后的卷积神经网络模型；在回归过程中针对每一个目标图像块计算的预测参数包括：是否存在目标的概率p_obj，存在目标情况下属于某一个类别的概率分布p_cat，和目标的边界框信息(x,y,w,h)，其中(x,y)分别为目标的中心点相对于网格的坐标，和目标相对于图片的宽与高(w,h)，

(4)利用训练后的卷积神经网络模型，检测待检测图像中的目标的边界框和类别。

本发明的一个实施例中，所述步骤(4)具体包括：

对于待检测图片，利用卷积神经网络得到目标的相关参数；

统计每一类目标所有可能的框，用p_obj*p_cat表示一个对应于所有类别的概率；

得到所有类别的框后，对于每一个类别，先用一个设定的阈值过滤掉可能性很小的目标；

剩下的目标经过非极大值抑制得到最终保留下来的目标。

本发明的一个实施例中，所述步骤(2)具体包括：

(1.2.1)对原始图像的左上角与右下角进行预设抖动值的随机抖动，对抖动后超出原始图像大小的区域直接进行补零处理，从而得到扩增图片；

(1.2.2)在原始图像随机采样一个面积为原始图片的X倍，方向比率为Y的目标图片块，其中所述X和Y为预设值；所述目标图像块满足：目标图片块与目标有一定的交集，采样的iou大于集合{0.1,0.3,0.5,0.7,0.9}中的随机一个元素；

(1.2.3)确定目标图像块在扩增图片中的位置：对目标的左上点与右下点坐标进行一致变换计算出扩增后的目标的位置，类别维持不变，则一致变换公式为：

left_t＝left*sx-dx right_t＝right*sx-dx

top_t＝top*sy-dy bottom_t＝bottom*sy-dy

其中，(left_t,top_t)与(right_t,bottom_t)分别为变换后的目标的左上点与右下点，(left,top)与(right,bottom)分别为原始图像中目标的左上点与右下点。

本发明的一个实施例中，所述经典基础网络结构为AlexNet，或者VGGNet，或者GoogleNet，或者ResNet，或者Inception。

本发明的一个实施例中，在所述步骤(3)中先对扩增图片进行M*M的均匀划分得到多个网格，根据目标的中心点是否落在每一个网格的内部，来决定每一个网格是否去预测目标，所述M为预设值。

本发明的一个实施例中，所述额外层为三层3*3的卷积层和一个1*1的卷积层，则训练过程为：首先在网格内预测出多个框，并选择与目标交集最大的那个框进行监督训练。

本发明的一个实施例中，所述额外层为两层3*3的卷积层和两层LSTM，则训练过程为，利用下述代价函数对网络进行回归：

其中，表示在网格i的第j个框上是否有目标；表示在网格i的第j个框上预测目标的概率；表示在网格i的第j个框上有目标的条件下，预测为类别k的概率；x_ij,y_ij,w_ij,h_ij分别对应预测目标的中心点坐标和宽高；w_noobj,w_coord对应代价函数的各个成分的权衡比例；N为类别数，n为每个网格预测的目标的个数。

本发明的一个实施例中，所述原始训练数据集为：

对训练图像集中的所有图像采用人工标注的方法获取图像中目标的边界框和类别，从而得到原始训练数据集。

本发明的一个实施例中，所述预设抖动值取值为0.2，所述X取值范围为0.1～1，Y取值范围为0.5～2。

本发明的一个实施例中，所述M取值为14。

与现有技术相比，本发明具有如下有益效果：

(1)本方法采用端到端的直接训练检测网格，在pascal voc数据集上可以达到很好的检测效果；

(2)本方法采用直接回归目标中心点坐标、宽高和类别，与同类方法相比，在速度上有很大的优势，可以达到50帧/秒以上。

附图说明

图1是本发明基于卷积神经网络的端到端物体检测方法的流程图；

图2、图3是检测目标的方式示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

卷积神经网络(Concolutional Neural Network，CNN)：一种可用于图像分类、回归等任务的神经网络。网络通常由卷积层、降采样层和全连接层构成。卷积层和降采样层负责提取图像的特征，全连接层负责分类或回归。网络的参数包括卷积核以及全连接层的参数及偏置，参数可以通过反向传导算法，从数据中学习得到；

长短期记忆(Long-Short Term Memory，LSTM)：递归神经网络的一种。该网络包含三个门(gates)结构：输入门、输出门和遗忘门；它们分别起到调整输入、调整输出和清除记忆的作用；由于门机制的作用，该网络可以捕捉序列中的长期(long-term)相关关系，并且可以避免训练递归神经网络中常出现的梯度爆炸(gradient explosion)和梯度消失(gradient vanishing)的现象。

如图1所示，本发明实施例中，基于卷积神经网络的端到端物体检测方法包括以下步骤：

在网络结构的设计上，可以采用现在经典的基础网络结构，例如AlexNet，VGGNet，GoogleNet，ResNet和Inception系列。这些网络一般都在ImageNet上预训练过，现在我们要在这些网络结构上做检测的任务，就需要对网络进行调整。这些网络一般由卷积层，池化层和全连接层逐层连接而成，卷积层，池化层负责提取图像的特征，全连接层负责对特征进分类。首先去掉这些网络最后的全连接层，加上额外的一些层来对卷积层的特征进行处理，从而得到可用于回归检测参数的网络。例如，添加额外的层，我们有以下两种方法：添加三层3*3的卷积层和一个1*1的卷积层；或者添加两层3*3的卷积层和两层LSTM。

(2.1)标记训练图像集中所有物体的边界框和类别，得到训练数据集；

首先要建立训练数据集，具体地对给定的图像，用人工标注的方法获取图像中目标的边界框和类别；对训练图像集中的所有图像都进行标注，就可以得到训练数据集；

(2.2)除了手工标记的训练图像集以外，为了使训练的神经网络具有更好的泛化能力，还对标注好的训练集进行数据扩增；具体地：

(2.2.1)对一张训练图像，对与图片的左上角与右下角进行预设抖动值(例如0.2)的随机抖动。假设一张图片的宽与高分别为w,h，即图片的大小为(0:w)*(0:h)，进行0.2的抖动后，图片的左上点(x₀,y₀)与右下点(x₁,y₁)分别满足：

x₀∈(-0.2w,+0.2w)y₀∈(-0.2h,+0.2h)

x₁∈(+0.8w,+1.2w)y₁∈(+0.8h,+1.2h)

则抖动后的图片大小为(x₀:x₁)*(y₀:y₁)，对于抖动后超出原图大小的区域直接进行补零处理，从而得到扩增图片。

(2.2.2)在原图随机截取一个面积为原始图片的X(例如0.1～1)倍，方向比率在0.5～2之间的图片块，并且图片块满足以下特点：图片块有与目标有一定的交集(iou)，交集用最小的jaccard重叠来衡量；每次采样的iou大于集合{0.1,0.3,0.5,0.7,0.9}中的随机一个元素。

得到一个扩增后的图片之后，就要确定目标在图片中的位置。这里主要对目标的左上点与右下点坐标进行一致变换计算出扩增后的目标的位置，类别维持不变。假定原图中目标的左上点与右下点分别为(left,top)与(right,bottom)，变换后的目标的左上点与右下点分别为(left_t,top_t)与(right_t,bottom_t)则一致变换公式为：

left_t＝left*sx-dx right_t＝right*sx-dx

top_t＝top*sy-dy bottom_t＝bottom*sy-dy

(3)利用步骤(2)得到的目标图像块在扩增图像中的位置和边界，回归步骤(2)中的卷积神经网络模型得到模型参数，从而得到训练后的卷积神经网络模型；在回归过程中针对每一个目标图像块计算的预测参数包括：是否存在目标的概率p_obj，存在目标情况下属于某一个类别的概率分布p_cat，和目标的边界框信息(x,y,w,h)，其中(x,y)分别为目标的中心点相对于网格的坐标，和目标相对于图片的宽与高(w,h)；

对于网络训练的代价函数，主要包含三个部分。我们对目标进行回归，采取以下方式。首先，对扩增图片进行M*M(例如14*14)的均匀划分，根据目标的中心点是否落在每一个网格的内部，来决定每一个网络是否去预测目标。因此每一个网格对于一个目标都要预测这些参数：是否存在目标的概率p_obj，存在目标情况下属于某一个类别的概率分布p_cat(N维向量，N为类别数)，和目标的边界框信息(x,y,w,h)，分别对应目标的中心点相对于网格的坐标(x,y)，和目标相对于扩增图片的宽与高(w,h)，这些参数都进行了归一化，而且我们实际上预测的是目标的宽与高的平方根。

为了增加预测目标的召回率，我们采取一个网格预测多个目标的形式(假设为n个目标)。也就是一个网格预测多套以上的参数。但是训练的时候，针对于不同添加额外层的形式，训练方式也不同。

(3.1)如图2所示，对于只添加卷积层，我们训练的时候每个网格只用一个目标来进行训练。这就存在目标的匹配问题，一个网格预测的多个框匹配标注的一个框，我们采用iou进行选择训练。也就是预测的多个框，哪个与目标的交集越大，就用交集最大的这个目标对这个框进行监督训练。

例如图2中，输入为一张三通道的图片，经过深度卷积网络，输出为一个S*S*2(N+5)的特征图。每一个(N+5)对应一个目标的参数，加监督信息进行训练。

(3.2)如图3所示，对于添加LSTM层，我们让LSTM的输出最多预测三个框。这时候，落在当前网格的目标的个数应该不多于三个，这时候，我们根据标注目标越靠近网格的中心点来衡量那个目标应该优先预测，因为LSTM具有时序的信息，我们希望LSTM的不同时序之间的状态能够传递一种信息，表示之前预测过的目标，下一个时刻就不要预测了。因此我们按照目标的靠近中心点的程度来对目标进行排序从而监督训练LSTM的输出。

网络输出的是一个三维(14*14*n(N+5))特征图，每一个(14*14)位置上信息对应于一个网格上的目标的参数。训练的时候，对于p_cat与(x,y,w,h)这些参数，我们只在存在目标的时候才进行监督训练。

例如图3中，输入为一个三通道的图片，经过深度卷积网络，输出为一个S*S*1024的特征图。每一个位置的1024维特征后面接LSTM产生预测目标，并且添加对于的监督信息进行训练。

综上，我们回归的是一个14*14*n(N+5)的特征图，网络的代价函数为：

对于输入的一张待检测图片，利用卷积神经网络可以得到目标的相关参数。我们统计每一类目标所有可能的框，用p_obj*p_cat表示一个目标对应于所有类别的概率。得到所有类别的框后，对于每一个类别，先用一个较小的阈值(例如0.001)来过滤掉可能性很小的目标，剩下的目标经过非极大值抑制得到最终保留下来的目标。

本方法在pascal voc标准数据集上可以达到很好的效果。基于GoogleNet的检测，用voc 2007 trainval和2012 trainval训练，在voc 2007test上测试可达到0.74mAP，用voc 2007 all和2012trainval训练，在voc 2012test上测试可达到0.71mAP，速度可达到每秒50帧以上；基于Inception v3的检测，用voc 2007 trainval和2012 trainval训练，在voc 2007test上测试可达到0.76mAP，用voc 2007 all和2012trainval训练，在voc2012test上测试可达到0.74mAP。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的端到端目标检测方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的基于卷积神经网络的端到端目标检测方法，其特征在于，所述步骤(4)具体包括：

对于待检测图片，利用卷积神经网络得到目标的相关参数；

剩下的目标经过非极大值抑制得到最终保留下来的目标。

3.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法，其特征在于，所述步骤(2)具体包括：

\begin{matrix} s x = \frac{(x_{1} - x_{0})}{w} & s y = \frac{(y_{1} - y_{0})}{h} \end{matrix}

\begin{matrix} d x = \frac{x_{0}}{x_{1} - x_{0}} & d y = \frac{y_{0}}{y_{1} - y_{0}} \end{matrix}

left_t＝left*sx-dx right_t＝right*sx-dx

top_t＝top*sy-dy bottom_t＝bottom*sy-dy

4.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法，其特征在于，所述经典基础网络结构为AlexNet，或者VGGNet，或者GoogleNet，或者ResNet，或者Inception。

5.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法，其特征在于，在所述步骤(3)中先对扩增图片进行M*M的均匀划分得到多个网格，根据目标的中心点是否落在每一个网格的内部，来决定每一个网格是否去预测目标，所述M为预设值。

6.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法，其特征在于，所述额外层为三层3*3的卷积层和一个1*1的卷积层，则训练过程为：首先在网格内预测出多个框，并选择与目标交集最大的那个框进行监督训练。

7.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法，其特征在于，所述额外层为两层3*3的卷积层和两层LSTM，则训练过程为，利用下述代价函数对网络进行回归：

8.如权利要求1或2所述的基于卷积神经网络的端到端目标检测方法，其特征在于，所述原始训练数据集为：

9.如权利要求3所述的基于卷积神经网络的端到端目标检测方法，其特征在于，所述预设抖动值取值为0.2，所述X取值范围为0.1～1，Y取值范围为0.5～2。

10.如权利要求5所述的基于卷积神经网络的端到端目标检测方法，其特征在于，所述M取值为14。