CN109284779A

CN109284779A - 基于深度全卷积网络的物体检测方法

Info

Publication number: CN109284779A
Application number: CN201811047839.5A
Authority: CN
Inventors: 芮挺; 肖锋; 王东; 方虎生; 周飞; 芮思琦; 刘好全; 赵杰; 杨成松; 朱经纬; 齐奕; 张釜恺
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2019-01-29

Abstract

本发明公开一种基于深度全卷积神经网络的物体检测方法，包括如下步骤：(10)样本集收集：将样本集图像分为训练集与测试集；(20)样本标注：对样本集图像中不同的物体用长方形物体框标注出物体位置，物体框必须与物体的边缘相切；完成图像中各物体的语义标注；(30)深度卷积网络模型获取：利用标注后的训练样本，对深度卷积网络进行多任务训练，同时完成语义分割和物体边界关键点预测，利用测试集样本对深度卷积网络进行测试，得到深度卷积网络模型；(40)物体检测：利用深度卷积网络模型，对现场图像进行物体检测。本发明基于深度卷积网络的物体检测方法，采用语义分割的思想，在完成语义分割的同时完成物体的边界关键点预测，同时实现了物体定位与物体分类。

Description

基于深度全卷积网络的物体检测方法

技术领域

本发明属于计算机视觉技术的物体检测领域，特别是一种不同于当前普遍需要设置预设框实现物体检测的方法，在不需要预设框的条件下，通过训练一个多任务深度模型，同时完成图像中物体定位与物体分类任务。

背景技术

在计算机视觉领域中，物体检测是最重要的基础性工作之一，在实际应用中往往需要快速准确的实现物体尤其是通用物体检测方法。

现有的通用物体检测通常包括：物体定位过程和物体类别识别过程；其中的物体定位过程主要用于确定出图像中的物体的外接框，而物体类别识别过程主要用于确定出物体所属类别。

现有的物体定位的实现方式通常为：利用Selective Search(选择性搜索)算法或者RPN(Region Proposal Network，候选区域生成网络)等方式获得图像中可能是物体的多个候选框，再通过卷积神经网络对各候选框进行回归处理，以使候选框的位置更加精准。

现有的物体类别识别的实现方式通常为：针对物体定位过程所确定出的候选框，将CNN(Convolutional Neural Network，卷积神经网络)作为分类器，从而可以通过CNN确定出每一个候选框属于各预设类别的置信度，并将置信度最高的类别作为候选框所属类别。

发明内容

一种基于计算机视觉的通用物体检测方法FCDN(Fully Convolution DetectionNetwork，全卷积检测网络)，包括如下步骤：

(10)样本集收集：将收集到的样本图像分为训练样本集与测试样本集两类；

(20)样本标注：对训练样本集和测试样本集图像中的物体分别作物体框标注和语义标注；

(30)深度卷积网络模型训练：利用标注好的样本对深度卷积网络进行训练，利用测试集样本对深度卷积网络进行测试，得到深度卷积网络模型；

(40)实时物体检测：利用深度卷积网络模型，进行现实中实时场景下的物体检测。

本发明与现有技术相比，由于采用语义分割的思想，在不需要预设框的条件下，同时完成图像中物体定位与物体分类任务，其显著优点为：

1、检测精度高：以语义分割结果为依据确定物体所属类别，语义分割是像素级别上的密集预测，被检测物体包含了大量的像素点，以像素点多的类别作为物体的类别，提高了物体类别的分类准确性；

2、检测速度快：检测模型完成检测任务时不需要分步进行，检测过程先后输出语义分割图和边界关键点预测图，中间并无存储操作，实现了完全端到端的模型结构。

结合这两方面的优点，本方法具有训练过程简洁、定位准确、实时性好的特点。

下面结合附图和具体实施方式对本发明作进一步的详细描述。

附图说明

图1为本发明的物体检测方法的主流程图。

图2为本发明实施例的网络模型框架图。

图3为本发明实施例样本外接框标注的示意图。

图4为本发明实施例样本语义标注的示意图。

图5为本发明实施例根据外接框标注和语义标注得到边界关键点标注的原理图。

图6为本发明实施例的网络模型训练流程图。

图7为本发明实施例的网络模型优化流程图。

图8为本发明实施例的网络结构图。

图9为本发明实施例的模型及其他比较模型在PASCAL VOC数据集上的测试结果。

具体实施方式

如图1所示，本发明基于深度全卷积神经网络的物体检测方法，包括如下步骤：

(10)样本集收集：将收集到的样本集图像分为训练样本集与测试样本集两类；训练样本集用来训练网络模型，测试样本集用来测试模型性能，大致数量比例为5∶1。

(20)样本标注：对训练样本集图像和测试样本集图像进行标注，得到每张样本图像中的物体外接框标注和语义标注，用于后续的网络模型有监督学习；

所述(20)样本标注步骤包括：

(21)外接框标注：如图3所示，将每张样本图像中的每个物体按其边界用物体框框出，并记录物体框的左上角和右下角相对图像的坐标；

(22)语义标注：如图4所示，分配不同的像素值对应不同的物体种类，并将像素按照图像中表达语义含义的不同进行分组，在语义标准图上以不同的像素值记录；

(23)生成边界关键点标注：如图5所示，依据物体外接框标注和语义标注得到边界关键点标注。

(30)深度卷积网络模型训练：利用标注好的训练样本对深度卷积网络进行训练，利用测试集样本对深度卷积网络进行测试，得到深度卷积网络模型；

如图6所示，所述(30)深度卷积网络模型获取步骤包括：

(31)网络模型参数确定：根据深度网络实验，确定网络模型参数，所述网络模型参数包括卷积层数、各层卷积核参数、反卷积层数、各层反卷积核参数、特征图数量、激活函数、随机项等；如图7所示，网络参数的设置时，设计不同的方案，通过对比不同方案训练出的模型的测试结果，确定出最优的模型设计方案。

本发明实施例最终确定的模型如图8所示，该模型利用迁移学习的方法，以去除全连接层的VGG-16模型为特征提取子网络，反卷积子网络充分利用了特征提取子网络所提取的每一层的特征图，最终输出语义分割图和边界关键点分布图。用PASCAL VOC数据集对模型进行测试，并和其他模型进行比较，测试结果如图9所示，图8中FCDN为本发明实施例所确定的模型。

所述(31)网络参数确定的具体步骤为：

(311)特征提取子网络的选取，采用迁移学习的方法，运用已经训练好的图像分类模型如VGG、Res-net等完成图像的特征提取；

(312)反卷积子网络的确定，采用反卷积的方法对图像特征进行上采样操作，输出与输入图像的标注尺寸、维度相同的语义分割图和边界关键点分布图。

(32)网络模型训练：利用标注好的训练样本集，对深度卷积网络进行有监督训练，同时进行语义分割和边界关键点预测训练，得到深度卷积网络模型；检测模型同时完成语义分割和边界关键点预测两个任务，训练时的损失函数包括语义分割损失和边界关键点预测损失。

所述(32)网络训练步骤包括：

(321)网络前馈：根据上述(31)设计的网络模型，输入待检测图像，输出语义分割图及边界关键点分布图，此为一次前向运算；

(322)计算损失：模型损失反映了模型的输出与真值标注的差异，是衡量模型输出精度的指标，本发明所提出模型的损失由语义分割损失和边界关键点预测损失的加权组合得到，定义为：L＝αL_seg+βL_kps，式中L_seg表示语义分割的损失函数；L_kps表示边界关键点预测的损失函数；α、β为系数常量；

(323)网络反馈调整权值：根据上述模型损失，调整所述检测网络模型中的参数权重，以随机梯度下降法对检测网络模型进行训练时为例，根据公式：

式中，w_i是参数，要迭代求解最优值的值，y为神经元的输出，x为神经元的输入；

(324)循环进行上述训练过程，当训练次数达到训练阈值或检测网络模型输出的结果处于收敛时，得到模型的最终参数。

(33)网络模型测试：通过测试样本集图像对深度卷积网络模型进行性能测试。

Claims

1.一种基于深度全卷积神经网络的通用物体检测方法，其特征在于，包括如下步骤：

(10)样本集收集：将收集到的样本集图像分为训练样本集图像与测试样本集图像两类；

(20)样本标注：对训练样本集图像和测试样本集图像中的物体分别作物体框标注和语义分割标注；

(30)深度卷积网络模型训练：利用标注好的训练样本对深度卷积网络进行训练，利用测试集样本对深度卷积网络进行测试，验证模型的训练效果，最终得到深度卷积网络模型；

2.根据权利要求1所述的方法，其特征在于，所述(20)样本标注步骤包括：

(21)物体外接框标注：将图像中各个物体进行人工标注，物体外接框的四条边须与物体四周边界相切；

(22)图像语义标注：按照图像的每个像素点所属的物体种类将像素点分类，并以代表不同物体种类的对应的像素值记录在语义分割图中对应于原图的位置；

(23)将每张图像中物体框标注和语义分割标注相结合，得到图像上同时属于同一种物体的物体框和语义分割的像素点，即物体边界关键点。

3.根据权利要求2所述的方法，其特征在于，所述(21)物体框标注步骤具体为：在图像中用物体框将被标注物体标注，物体框必须与被标注物体四周相切；记录图像的尺寸、物体框左上角和右下角在图像上的坐标、被标注物体的种类编码。

4.根据权利要求2所述的方法，其特征在于，所述(22)图像语义标注步骤具体为：被标注物体种类和标注颜色(像素值)一一对应；语义标注图与原图尺寸一致，根据对应于原图中所属于的物体，确定语义标注图上每个像素点的像素值。

5.根据权利要求1所述的方法，其特征在于，所述(30)深度卷积网络模型训练步骤包括：

(31)网络模型参数确定：根据深度网络实验，确定网络模型参数。所述网络模型参数包括卷积层数、各层卷积核参数、反卷积层数、各层反卷积核参数、特征图数量、激活函数、随机项；

(32)网络训练：利用标注好的训练样本集，对深度卷积网络进行有监督训练，同时进行语义分割和边界关键点预测训练；

6.根据权利要求5所述的方法，其特征在于，所述(32)网络训练步骤包括：

(321)语义分割子网络训练：

以所述语义分割标注为训练标注，与语义分割子网络输出计算出分割误差，通过反向传播算法调整网络参数。

(322)边界关键点预测子网络训练：

以所述边界关键点标注为训练标注，与边界关键点预测子网络的输出计算出边界关键点预测误差，通过反向传播算法调整网络参数。

7.根据权利要求6所述的方法，其特征在于，边界关键点预测子网络共用语义分割子网络所有神经元。