CN107038448A

CN107038448A - 目标检测模型构建方法

Info

Publication number: CN107038448A
Application number: CN201710116891.0A
Authority: CN
Inventors: 王金桥; 赵朝阳
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Objecteye Beijing Technology Co Ltd
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2017-08-11
Anticipated expiration: 2037-03-01
Also published as: CN107038448B

Abstract

本发明涉及一种目标检测模型构建方法，包括以下步骤：步骤1，选取包含有待检测目标的图片，对各待检测目标在图片中的进行位置标注，记录各待检测目标的坐标信息构成目标检测定位数据集；所述位置标注为在所述图片中绘制包含各待检测目标的最小矩形框；所述目标检测定位数据集中各待检测目标的坐标信息为各最小矩形框的左上角坐标信息和右下角坐标信息；步骤2，根据所述目标检测定位数据集对深度卷积神经网络进行训练；步骤3，输出训练完成后的目标检测模型。本发明中，有效地提升了对目标检测的准确度。

Description

目标检测模型构建方法

技术领域

本发明属于计算机视觉领域，具体涉及一种目标检测模型构建方法。

背景技术

目标检测是计算机视觉中的经典问题之一，也是基于视觉的模式识别应用的一个重要研究方向。它需要对任意画面进行搜索，对画面中存在的目标进行有效的标注以及外接矩形框提取。由于需要对画面中呈现出多样性姿态的目标进行有效检出，因此需要目标的特征表示具有极强的表达能力和判别力。而传统的基于图像局部统计特性表达的手工设计特征难以区分目标的多样性、复杂性，其难以在一般性的目标检测问题上达到较好的效果。

深度学习是近年来机器学习领域一个热门研究方向，已经在计算机视觉、自然语言处理等领域获得了巨大的成功。尤其是深度卷积神经网络，凭借局部感受野、共享权值以及空间或时序下采样这三大结构特点，能够从二维图像中提取出语义信息丰富和判别力强的特征，在大规模图像分类和检索任务中均表现出优越的性能。近两年，已经出现一些将深度学习应用于专用的目标检测的技术，如CN104537647A利用深度学习模型的最后一层隐节点的状态值训练分类器，用于改善行人检测问题；CN105718912A采用传统方法和深度学习方法相结合的方式进行车辆检测，其利用传统方法提取目标候选区域，并在候选区域的基础上利用深度学习模型进行后续的特征提取以及目标类别判别。

现有的基于深度学习的一般性目标检测技术尚有以下不足：首先，一般的检测方法在其前端、或后端均结合了传统方法进行辅助，其采用的深度神经网络难以实现端到端的设计，从而提高了深度学习模型的训练难度，使得模型难以收敛；其次，由于图像中一般性目标的姿态呈现出多样性，如在一幅图像中可能出现一个人躺在沙发上看电视的场景，该图中人、沙发、电视分别呈现出截然不同的长宽比例、外观表现等形式，采用如行人、车辆等固定比例框的方式对目标外接矩形框进行预测难以有效的对目标的紧致位置表达；另外，图像中存在的不同类物体，由于其姿态、尺度的巨大差异，可能呈现出巨大的外观差异，如一幅图像中出现一个人弯腰捡起地下瓶子的场景，瓶子相对于图像尺寸呈现出非常小的尺度，由于深度神经网络具有层级卷积下采样的特性，其在处理小目标时采用单级判别的方式难以对小目标进行有效地提取。因此，上述已有的针对特定目标的检测方法在处理一般性目标检测问题难以同时处理目标外观、比例、尺度差异较大等问题，在进行一般性目标检测时判别力较为不足。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种目标检测模型构建方法，有效提升目标检测准确度。

该构建方法包括以下步骤：

步骤1，选取包含有待检测目标的图片，对各待检测目标在图片中的进行位置标注，记录各待检测目标的坐标信息构成目标检测定位数据集；所述位置标注为在所述图片中绘制包含各待检测目标的最小矩形框；所述目标检测定位数据集中各待检测目标的坐标信息为各最小矩形框的左上角坐标信息和右下角坐标信息；

步骤2，根据所述目标检测定位数据集对深度卷积神经网络进行训练；

步骤3，输出训练完成后的目标检测模型。

优选地，所述深度卷积神经网络为输入原始图像，输出图像中目标定位矩形框左上角和右下角坐标及其对应的目标类别的神经网络结构。

优选地，所述步骤2包括：

步骤21，根据所述目标检测定位数据集做卷积特征和反卷积特征提取，得到图像稠密特征；

步骤22，对所述图像稠密特征进行物体性目标提取，得到物体性检测结果；

步骤23，利用非极大抑制处理对所述物体性检测结果进行重复过滤；

步骤24，利用自适应尺度选择对过滤后的物体性检测结果做自动特征尺度映射处理，得到不同尺度的物体性目标；

步骤25，根据感兴趣区域池化操作，在所述不同尺度的物体性目标中提取具有固定维度的目标特征；

步骤26，利用自适应空间仿射变换层对所述具有固定维度的目标特征进行标准化映射；

步骤27，根据不同维度的目标特征对不同尺度的物体性目标进行外接矩形框坐标回归处理；

步骤28，根据不同维度的目标特征和所述图像稠密特征对所述待检测目标类别进行判别。

优选地，所述步骤21具体为：

对所述目标检测定位数据集做图片的高分辨率特征提取，将卷积特征、反卷积特征进行采样串联得到图像的稠密特征。

优选地，所述步骤22具体为：

在进行物体性目标提取时，对物体性目标检测输出特征图的预测结果进行筛选，选取和待检测目标真实坐标重合度最大、且分类得分最高的预测结果组成困难样本集。

优选地，所述步骤24具体为：

对物体性检测结果进行尺度自适应映射，将不同尺度目标映射至不同深度特征中，得到不同尺度的物体性目标。

优选地，

所述外接矩形坐标回归处理中的外接矩形坐标回归特征由不同尺度对应深度学习特征层构成；

目标类别判别中的目标类别判别特征由对应层深度学习特征同物体性判别对应特征串联组成。

优选地，将所述步骤27的回归处理和步骤28的类别判别处理做联合优化处理，所述优化处理具体为输入单张图片，在线选取分类和坐标回归损失最大的目标样本参与多个损失计算，并针对每张图片将其在多个损失中对应的梯度累加，并进行一次梯度反传。

与现有技术相比，本发明至少具有以下优点：

通过本发明中目标检测模型的构建设计，有效地提升了对目标检测的准确度。

附图说明

图1为本发明所提供的目标检测模型构建方法的流程示意图；

图2为本发明所提供的目标检测深度神经网络总体结构示意图；

图3为本发明所提供的目标检测深度神经网络子网络示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明实施例包括目标检测模型构建方法，如图1所示，该方法包括以下步骤：

步骤A1，图片中待检测目标的位置标注。

选取包含有待检测目标的图片，对各待检测目标的图片进行目标位置标注，具体为绘制图片中包含各待检测目标的最小矩形框，记录该矩形框的左上角和右下角坐标信息，形成目标检测定位数据集。

其中，目标图片的来源可以有很多种方式，比如从网络上收集或自行拍摄，目标图片需要包含目标的50％以上；本实施例中采用手工标注的方式对图片进行目标位置标注，当然这只是其中一种标注方式，其它任意能够实现在图片中对待检测目标进行标注的方式均包含在本发明的范围之内。

步骤A2，对深度卷积神经网络进行训练。

利用目标检测定位数据集，训练用于目标检测深度卷积神经网络，并输出训练好的用于目标检测的深度卷积神经网络。其中，所述深度卷积神经网络具有端到端的特点，其输入为原始图像，输出为图像中目标定位矩形框左上角和右下角坐标以及其对应的目标类别。

在步骤A2中深度卷积神经网络训练过程中的损失分别有多级采用分类损失以及平滑1-范数(L1)损失加权组成；所述深度卷积神经网络由级联的多层监督组成，不同的网络监督层对应输出分类损失以及平滑L1损失，不同的网络输出层共同组成深度神经网络最终的检测损失。

为了加快用于目标检测的深度卷积神经网络的训练速度，在步骤A2中利用在线困难样本挖掘策略和一种改进的端到端的梯度反传优化算法来加快用于目标检测的深度卷积神经网络的收敛。

本实施案例所涉及的用于目标检测的深度卷积神经网络总体结构示意图如图1所示，由卷积子网络和后续的多层特征提取、物体性目标判别、尺度自适应、仿射变换校正、感兴趣区域池化、目标分类回归、非极大抑制等部分组成。其中物体性目标判别、以及目标分类、坐标回归等网络输出分别接分类损失以及平滑1范数回归损失，图2为了简洁，只画出了接在网络最后的损失层。

目标检测流程中的卷积网络具体结构示意图如图3所示，其中卷积子网络由1个输入层，15个卷积层、4个最大值池化层(分别用P1、P2、P3、P4表示)组成。具体来说，4个最大值池化层分别接在第3、6、9、12个卷积层之后，其池化核均为2×2。15个卷积层的卷积核均为3×3，卷积层的通道个数分别为64,64,64,128,128,128,256,256,256,512,512,512,512,512,512。

卷积子网络后面分别接2个反卷积层(通道数均为512)、1个特征串联层、以及10个卷积核为1×1的卷积层(fc1,fc3,fc5,fc7,fc9通道数分均512，fc2,fc4,fc6,fc8,fc10通道数均为5)。其后接尺度选择层、空间仿射变换层、感兴趣区域池化层(池化核为7×7)、4个平滑L1回归损失层以及2个分类损失层。

卷积子网络的15个卷积层输出均需要经过一个批规范化(Batch Normalization，BN)处理，这一处理具体是由一个批归一化(batch norm)步骤和一个尺度处理(scale)步骤组成的。Batch norm负责对输入数据进行均值为0方差为1的归一化，scale负责对输入数据进行缩放和平移。Batch norm的均值和方差来自于输入数据，scale的缩放平移参数需要从训练数据中学习。BN处理通过对网络输入做归一化，有效消除了网络内部的协变量转移，加快了网络收敛，有效防止了网络过拟合。BN处理之后再输入激活函数(Rectified LinearUnits，ReLu)，该激活函数是一种常用的有效的非线性激活函数。

本发明考虑了一般目标在图片中呈现多姿态、多尺度等特点，将深度卷积神经网络的参数学习分为了层次化的递进的损失计算过程，以及端到端的一体化的梯度反传参数学习过程。故此将步骤A2拆分为以下步骤：

步骤A21，根据所述目标检测定位数据集做卷积特征和反卷积特征提取，得到图像稠密特征。

对于输入层对应的不限定大小的原始目标图片和相应的目标外接矩形框、目标类别标签，通过粗略的物体性检测过程提取粗略目标定位信息。对于步骤A2中的网络，将第15层卷积层及其后2个反卷积层(反卷积层1、反卷积层2)的输出作为目标图片的高分辨率特征提取。将第15个卷积层、第2个反卷积层分别上采样和下采样至第1个反卷积层大小后，将三层特征输出进行串联，得到图像的稠密特征表达。

步骤A22，对所述图像稠密特征进行物体性目标提取，得到物体性检测结果；具体为在进行物体性目标提取时，对物体性目标检测输出特征图的预测结果进行筛选，选取和待检测目标真实坐标重合度最大、且分类得分最高的预测结果组成困难样本集。

额外接2个1×1的卷积层，来对特征图上的每个位置进行目标粗略判别。对于特征图上的每个点，预先定义多个不同尺度(Scale)、不同比例(Ratio)目标参考输出结果：

Scale＝2,4,8,16

Ratio＝0.5,1,2 (1)

其中，Scale代表目标在特征图上可能的尺度大小，其对应的实际目标在原图中的尺寸大小(用像素数量，Area表示)计算为：

Area＝2^Scale*stride (2)

其中，stride为特征图相对于原始图像的下采样比例。在本发明样例中，stride＝16。目标比例Ratio代表参考目标的实际高宽比。对于特征图上每一个点，均产生Scale*Ratio个目标参考输出结果，该参考输出结果通过卷积操作进行目标外接矩形框的粗略预测。

对于步骤A22，1×1卷积层输出特征图中每个特征点的对应目标参考输出的分类判别结果，以及相应的参考坐标拟合输出结果。该分类判别以及坐标拟合输出结果粗略地对目标参考输出进行判别，将可能的目标从背景中分离出来，该分类判别过程以及相应的参考坐标拟合输出结果不对不同目标之间的类别进行区分，仅对目标与背景进行区分。

在本发明实施例中，该模型在训练阶段粗略物体性检测结果中的判别结果后面连接交叉熵分类损失，坐标拟合结果后面连接平滑L1损失，通过网络初始输入的目标类别、以及目标真实坐标值进行损失计算。物体性检测损失如下表达式所示：

L(p,k^*,t,t^*)＝L_cls(p,k^*)+λ[k^*≥1]L_loc(t,t^*) (3)

这里k^*为预测框的真实类标，代表其是否为目标物体之一，即为交叉熵分类损失。k^*≥1代表只对目标品类进行坐标回归。L_loc为平滑1范数损失，其定义了对第k^*类目标预测的的外接矩形框坐标t对人工标注的真实目标外接矩形框t^*进行回归的损失。

为了加速上述物体性检测网络训练过程的收敛性，对上述物体性目标检测输出特征图的预测结果进行筛选，选取和目标真实坐标重合度最大、且分类得分最高的部分预测结果组成困难样本集，用于计算损失以及网络参数更新。

步骤A23，利用非极大抑制处理对所述物体性检测结果进行重复过滤。

该结果输出为额外卷积层在目标图片特征图每一个点上进行多尺度、多比例的目标判别输出，输出的物体性检测结果包括物体性判别得分和物体的左上角和右下角坐标输出结果。

优选地，在步骤A23中对目标图片特征图的每一个点进行多尺度、多比例的目标判别时，针对每个特征点预先定义多个不同尺度、不同长宽比例的参考输出结果，初始检测结果中的坐标输出为在该参考输出结果上的坐标偏差预测。

优选地，上述物体性目标检测过程不区分不同目标之间的类别差异性，该物体性类别判别输出仅区分该物体是否为目标或背景。

优选地，该物体性判别输出结果后面接分类损失，在目标坐标拟合结果输出接平滑L1损失，通过网络初始输入的目标类别、以及目标真实坐标值进行物体性目标检测判别监督。

优选地，为了加速上述物体性检测网络训练过程的收敛性，对上述物体性目标检测输出特征图的预测结果进行筛选，选取和目标真实坐标重合度最大、且分类得分最高的部分预测结果组成困难样本集，用于计算损失以及网络参数更新。

步骤A24，利用自适应尺度选择对过滤后的物体性检测结果做自动特征尺度映射处理，得到不同尺度的物体性目标。

尺寸较大的目标映射到分辨率较低的第15层卷积层中，一般尺寸目标映射到第1层反卷积层，尺寸较小的目标映射到第2层反卷积层。

对于物体性检测得到的粗略目标外接矩形框，输入自适应尺度选择层，将不同目标映射到不同特征图中进行特征提取。

对于步骤A24中的尺度选择层，预先对训练样本中的目标标注矩形框的尺度进行聚类，确定尺度变化范围。对于一幅图像，其给定的目标标注信息为[x,y,w,h]，其中(x,y)为标注框左上角坐标，(w,h)为标注框宽和高，则目标尺度定义为

同过对标注样本的尺度进行k均值聚类，得到N个聚类中心，自适应尺度判别层通过对物体性矩形框尺度归类为最近邻聚类中心来进行尺度判别，进而将物体性检测结果映射至更合适的特征层进行特征提取。在本实施例中，取尺度聚类中心N＝3，分别对应特征映射为第15层卷积层(大尺度目标)、第1层卷积层(中等尺度目标)以及第2层卷积层(小尺度目标)。对于第i个物体性目标，其坐标映射特征图F_i对应为：

其中，s_small,s_middle,s_large分别为三个聚类中心对应的目标尺度。

步骤A25，根据感兴趣区域池化操作，在所述不同尺度的物体性目标中提取具有固定维度的目标特征。

将映射后的目标框及其对应特征图输入感兴趣区域池化层，提取固定维度的特征表达。将映射后的目标框划分为p×p个均匀的目标框，将每个框内的特征进行最大化池化提取操作，得到宽高固定的特征表达。在本实施例中，p＝7。

步骤A26，利用自适应空间仿射变换层对所述具有固定维度的目标特征进行标准化映射。

对于固定宽高的目标特征表达，将其输入空间仿射变换层进行形态校正，辅助提高特征判别力。对于图片中的待检测目标，其姿态呈现出多样性，这里我们定义目标具有一个“标准形态”，标准形态下的目标能够更加合理地展现出目标表观特性，从而能够有效提升目标特征判别力。对于原始特征表达中的每一个坐标点其经过仿射后的坐标表示为：

其中，为对应的仿射变换矩阵。其中，六元参数包含对特征图的的裁剪、旋转、平移、尺度变换、倾斜等变换过程。在本发明中，我们对特征图的变换过程进行简化，定义了一种近似的空间仿射变换过程：

其中，为近似空间仿射变换矩阵。这里我们将六参数缩减为二元参数，在保留了仿射变换特性的同时，简化了参数训练时的计算复杂度。这里的m为对应特征图上的坐标位置均值，即

近似空间仿射变换矩阵参数的求解如下：

其中，

由近似仿射变换矩阵我们就可以得到特征图F^s(x^s,y^s)的标准形式表达特征图F^t(x^t,y^t)。由于标注形式的特征图表达与变换前的特征图尺寸相同，即有F^t(x^t,y^t)＝F^s(x^s,y^s)。在训练过程中，我们并不需要显式的定义标准形式的表达，其均由网络参数学习得到。由链式求导法则可知，近似仿射变换矩阵回传梯度的过程表示为：

其中，为由下一层网络传回的梯度，与为原始特征图在水平与竖直方向上的梯度。的计算过程于此类似。由此，我们可以得到近似空间仿射变换层回传的梯度。

步骤A27，根据不同维度的目标特征对不同尺度的物体性目标进行外接矩形框坐标回归处理。

所述外接矩形坐标回归处理中的外接矩形坐标回归特征由不同尺度对应深度学习特征层构成；在空间仿射变换后的目标特征层后接1×1卷积层，进行不同尺度目标外接矩形框预测，预测结果后面接平滑1范数损失。

步骤A28，根据不同维度的目标特征和所述图像稠密特征对所述待检测目标类别进行判别。

目标类别判别中的目标类别判别特征由对应层深度学习特征同物体性判别对应特征串联组成；将空间仿射变换后的目标特征同步骤A22中物体性检测层提取的特征进行串联，得到目标类别判别的特征表达，其后接1×1卷积层进行目标类别预测，预测结果后接softmax分类损失。

目标类别判别与外接矩形框预测的联合损失定义为：

其中，L^obj _cls为物体类别判别交叉熵损失，L^obj _loc(t_i,t_i ^*)为不同尺度对应的平滑1范数回归损失。

将所述步骤27的回归处理和步骤28的类别判别处理做联合优化处理，所述优化处理具体为输入单张图片，在线选取分类和坐标回归损失最大的目标样本参与多个损失计算，并针对每张图片将其在多个损失中对应的梯度累加，并进行一次梯度反传。

优选地，在进行第二级目标判别损失计算时，选取损失最大的前N个样本作为困难样本，其计算得到的损失加入最终的损失计算和网络参数更新。

优选地，所述的网络训练过程中采用一种改进的梯度反传优化算法，具体为：输入单张图片，在线选取分类和坐标回归损失最大的目标样本参与上述的6个损失计算，并针对每张图片将其在多个损失中对应的梯度累加，并进行一次梯度反传。

步骤A3，输出目标检测模型。

本发明通过所涉及的一种深层的卷积神经网络结构，采用层级的检测流程，联合使用多级分类损失和利用不同层级特性的多级平滑L1回归损失来监督网络的训练，并提出了一种在线困难样本挖掘策略和改进的一体化梯度反传优化算法来加快网络收敛。本发明方法通过将目标检测过程分为多级、多尺度的检测流程，使得训练的到的深层卷积神经网络能够从输入图片中提取出的目标语义信息更丰富，对小尺寸目标提取判别力更强的特征表达，从而使得在目标检测时有效提升目标检测和定位精度。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种目标检测模型构建方法，其特征在于，包括以下步骤：

步骤3，输出训练完成后的目标检测模型。

2.根据权利要求1所述的目标检测模型构建方法，其特征在于，所述深度卷积神经网络为输入原始图像，输出图像中目标定位矩形框左上角和右下角坐标及其对应的目标类别的神经网络结构。

3.根据权利要求2所述的目标检测模型构建方法，其特征在于，所述步骤2包括：

4.根据权利要求3所述的目标检测模型构建方法，其特征在于，所述步骤21具体为：

5.根据权利要求3所述的目标检测模型构建方法，其特征在于，所述步骤22具体为：

6.根据权利要求3所述的目标检测模型构建方法，其特征在于，所述步骤24具体为：

7.根据权利要求3所述的目标检测模型构建方法，其特征在于，

8.根据权利要求7所述的目标检测模型构建方法，其特征在于，将所述步骤27的回归处理和步骤28的类别判别处理做联合优化处理，所述优化处理具体为输入单张图片，在线选取分类和坐标回归损失最大的目标样本参与多个损失计算，并针对每张图片将其在多个损失中对应的梯度累加，并进行一次梯度反传。