CN109242032A

CN109242032A - 一种基于深度学习的目标检测方法

Info

Publication number: CN109242032A
Application number: CN201811107668.0A
Authority: CN
Inventors: 张向利; 郝艳茹; 闫坤; 张红梅
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-01-18
Anticipated expiration: 2038-09-21
Also published as: CN109242032B

Abstract

本发明公开一种基于深度学习的目标检测方法，首先选取训练分类器所需训练样本；其次采用均值滤波器对训练样本进行去噪，再利用神经网络对去噪后的训练样本进行特征提取；然后用训练样本来训练分类器最后利用训练好的分类器对输入的待检测图像进行分类筛选，以检测待检测图像中是否存在想要检测的目标。本发明在RPN网络中，用掩膜的屏蔽作用，对图像上某些区域屏蔽。并针对回归边框不能准确定位，利用模拟退火算法来着重解决建议窗口与实际窗口的非线性问题。且在RPN网络前加入了池化层，使得进入RPN网络的图像是同样尺寸的，这样提高了整个Faster‑RCNN网络的实时性。

Description

一种基于深度学习的目标检测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度学习的目标检测方法。

背景技术

目标检测在人工智能，人脸识别，无人驾驶等领域都得到了广泛的应用。然而，在目标检测的过程中会受到各种各样干扰，比如角度、遮挡、光线强度等因素，这些因素会导致目标发生畸变，为目标检测增加了新的挑战。传统目标检测方法有3个步骤：1)使用不同大小的滑动窗口框住待测图像中的某一部分作为候选区域；2)提取该候选区域相关的视觉特征；3)使用训练完成的分类器进行分类，比如常用的支持向量机(support vectormachine，SVM)模型，Adaboost、DPM、RF(random forest)模型等。但是传统目标检测算法有两个主要的缺陷：1)滑动窗口策略进行区域选择时针对性不强，增加了时间复杂度和窗口冗余；2)手动设计的特征对于目标的多样性并没有很好的鲁棒性，模型的复杂度较高，目标检测的速度和准度较低。

发明内容

本发明提供一种基于深度学习的目标检测方法，其能够简捷有效地提取图像中待检测目标。

为解决上述问题，本发明是通过以下技术方案实现的：

一种基于深度学习的目标检测方法，包括步骤如下：

步骤1、选取训练分类器所需训练样本，其中训练样本包括正例样本和负例样本，正例样本为包含有待检目标的图片，负例样本为不包含待检目标的任意图片；上述所有训练样本都被归一化为同样的尺寸大小；

步骤2、采用均值滤波器对训练样本进行去噪，再利用神经网络对去噪后的训练样本进行特征提取；

步骤3、用训练样本来训练分类器：

步骤3.1、用预先制作的感兴趣区掩模与训练样本相乘，对于感兴趣区内的图像值保持不变，而感兴趣区外的图像值都为0，得到感兴趣区图像；

步骤3.2、采用分水岭算法对掩膜处理的图像进行语义分割；

步骤3.3、采用模糊C均值算法对语义分割后的图像进行像素聚类操作，生成建议窗口；

步骤3.4、判断生成的建议窗口与实际窗口的重叠度是否大于设定的重叠度阈值，如果是，则用线性回归的方法对建议窗口进行调整，否则采用模拟退火算法对建议窗口进行调整；

步骤3.5、将调整后的建议窗口送入到softmax分类器中进行训练，由此得到训练好的分类器；

步骤4、利用训练好的分类器对输入的待检测图像进行分类筛选，以检测待检测图像中是否存在想要检测的目标。

上述步骤4的具体步骤如下：

步骤4.1、随机预设一个扫描子窗口；

步骤4.2、用扫描子窗口在待检测图像中不断的移位滑动，扫描子窗口每到一个位置，就会计算出该区域的特征；

步骤4.3、用训练好的分类器对该特征进行分类筛选，判定该区域是否为目标窗口；

步骤4.4、当步骤4.2所得到的目标窗口与训练样本中的实际窗口尺寸不一致时，则调整扫描子窗口使其与训练样本中的实际窗口尺寸一致，并重复4.2和4.3，此时所得到的目标窗口即为所需检测的目标。

与现有技术相比，本发明具有如下特点：

(1)掩膜处理：在RPN网络中，用预先制作的感兴趣区掩膜(图像处理中掩膜一般为二维矩阵数组，有时也用多值图像)与待处理图像相乘，得到感兴趣区图像，感兴趣区内图像值保持不变，而区外图像值都为0。

(2)针对回归边框不能准确定位，本发明提出利用模拟退火算法来着重解决建议窗口与实际窗口的非线性问题。

(3)在RPN网络前加入了池化层，使得进入RPN网络的图像是同样尺寸的，这样提高了整个Faster-RCNN网络的实时性。

附图说明

图1为一种基于深度学习的目标检测方法的原理框图。

图2为建议窗口微调原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照附图，对本发明进一步详细说明。

参见图1，一种基于深度学习的目标检测方法，其具体包括步骤如下：

步骤1、训练分类器所需训练样本的创建：

训练样本包括正例样本和负例样本；其中正例样本是指待检目标样本(例如人脸或汽车等)，负例样本指其它不包含目标的任意图片(如背景等)，所有的样本图片都被归一化为同样的尺寸大小(例如，20×20)。

步骤2、训练样本的特征提取：

(1)采用均值滤波器对图像进行去噪；

(2)利用CNN(神经网络)进行特征提取。

步骤3、用训练样本来训练分类器：

(1)用掩膜的屏蔽作用，对图像上某些区域屏蔽，使其不参与参数的计算。

掩膜的具体步骤：用预先制作的感兴趣区掩模(图像处理中掩膜一般为二维矩阵数组，有时也用多值图像)与待处理图像相乘，感兴趣区内图像值保持不变，而区外图像值都为0，得到感兴趣区图像。

(2)采用分水岭算法对掩膜处理后的图像进行语义分割。

由于分水岭算法对微弱边缘具有良好的响应，图像中的噪声、物体表面细微的灰度变化，都会产生过度分割的现象，而加入了掩膜处理后，增强了目标与背景的对比度，则有效消除分水岭算法带来的过分割问题。

(3)采用模糊C均值算法(FCM)对语义分割后的图像进行聚类操作，生成建议窗口。

根据图像的像素进行聚类操作，大大减少了生成的建议窗口与真实窗口的距离。

(4)对生成的建议窗口进行调整。

图2中实线框代表待检测目标的实际窗口(ground truth)，虚线框代表提取的建议窗口(region proposal)。那么即便建议窗口被分类器识别为目标，但是由于建议窗口定位不准，即两者的IOU(重叠度)较小，那么这张图相当于没有正确的检测出目标。如果我们能对建议窗口进行调整，使得经过微调后的窗口跟实际窗口更接近，定位会更准确。当IOU较大时，此调整就是线性问题，可以用线性回归进行建模；当IOU较小时，此调整就非线性问题，这样就不能用线性回归建立模型，针对非线性问题，由于模拟退火算法具有跳出局部最优陷阱的能力，即系统落入了局部最优的陷阱，经过一段时间后，它还能再跳出来，使系统最终将往全局最优值的方向收敛；所以采用模拟退火算法对生成的建议窗口进行回归迭代，使得迭代得到的窗口与实际窗口(ground truth)相似(IOU值较大)。

(5)将调整后的建议窗口送入到softmax分类器中，对其进行训练，由此得到训练好的分类器。

步骤4、利用训练好的分类器进行目标检测：得到了分类器就可以用来对输入的图像进行分类了，也就是在图像中检测是否存在想要检测的目标。

一般的检测过程是这样的：用一个扫描子窗口在待检测的图像中不断的移位滑动，子窗口每到一个位置，就会计算出该区域的特征，然后用我们训练好的分类器对该特征进行筛选，判定该区域是否为目标。因为目标在图像的大小可能和你训练分类器时使用的样本图片大小不一样，所以就需要对这个扫描的子窗口变大或者变小(或者将图像变小)，再在图像中滑动，再匹配一遍。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种基于深度学习的目标检测方法，其特征是，包括步骤如下：

步骤3、用训练样本来训练分类器：

步骤3.2、采用分水岭算法对掩膜处理的图像进行语义分割；

2.根据权利要求1所述的一种基于深度学习的目标检测方法，其特征是，步骤4的具体步骤如下：

步骤4.1、随机预设一个扫描子窗口；