CN105930793B

CN105930793B - 一种基于sae特征可视化学习的人体检测方法

Info

Publication number: CN105930793B
Application number: CN201610246361.3A
Authority: CN
Inventors: 赖剑煌; 刘晓
Original assignee: National Sun Yat Sen University
Current assignee: Guangzhou ziweiyun Technology Co.,Ltd.
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2019-04-16
Anticipated expiration: 2036-04-19
Also published as: CN105930793A

Abstract

本发明公开了一种基于SAE特征可视化学习的人体检测方法，包括：根据所采集的深度图像通过SAE学习构建的CNN提取图像特征；将所述图像特征可视化为高维抽象图像；对所述高维抽象图像进行第二层SAE学习构建的CNN提取图像特征；将所述图像特征输入已训练的SVM分类器，得到所述深度图像是否包含人体。本发明提出的一种基于SAE特征可视化学习进行人体检测的方法，利用深度图像提取图像特征并可视化特征得到高维图像，通过提取高维图像特征，提高人体检测的正确率，可应用于智能监控以及人机交互系统。

Description

一种基于SAE特征可视化学习的人体检测方法

技术领域

本发明涉及计算机视觉及人体检测技术领域，具体涉及一种基于SAE特征可视化学习的人体检测方法。

背景技术

人体检测是人体运动分析与人机交互的重要内容，也是计算机视觉的基础任务，其在智能监控、虚拟现实、人机交互、辅助临床诊断等领域具有广泛的应用前景。但是因为人体检测会受到场景光照变化、视角变化、复杂背景、姿势变化等的干扰，在实际应用场景下实现准确可靠的人体检测仍然是一个难题。

传统的基于彩色图或灰度图的人体检测方法，如HoG、LBP和Harr-like等，能实现简单场景下的人体检测。但是，基于彩色或灰度图的人体检测极大地受到环境光照、复杂背景、人体姿势变化等的影响，当被测对象身着衣服与背景颜色相近也会干扰到检测算法的效果。

由于深度图对光照、颜色和阴影等不敏感，适用性更广。同时随着Kinect等深度传感器的普及，我们可以很容易获取深度图。本发明利用深度图做人体检测任务，提出了一种基于SAE特征可视化学习的人体检测方法。

另外，传统的候选框获取方法是利用滑动窗口的方法生成大量不同尺寸的候选框。本发明的方法利用深度频率直方图的局部极值中选取候选深度平面并提出一种像素点累计的方法定位出每个深度平面的点聚集中心，以聚集中心为中心设置若干个不同尺寸的候选框，大大减少了候选框的数量，节省了处理时间和降低了计算机运算量，同时得到更高质量的候选框，从而提高人体检测的准确率。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供提出一种基于SAE特征可视化学习的人体检测方法，利用特征可视化技术和优化的候选框获取方法，实现人体检测，提高人体检测准确率。

为了达到上述目的，本发明采用以下技术方案：

本发明的一种基于SAE特征可视化学习的人体检测方法，包括下述步骤：

(1)训练第一层CNN，将训练集中的图像全部裁剪成固定尺寸的小块，将所述的小块输入到SAE网络中进行参数学习，得到SAE网络的权重和偏置作为第一层CNN网络的权重和偏置，训练样本经过所述第一层CNN网络，得到图像特征；

(2)训练第二层CNN，将经过第一层CNN网络后得到的图像特征应用特征可视化技术重构为高维图像，将高维图像全部裁剪成固定尺寸的小块并输入到一个SAE网络中进行参数学习，得到SAE网络的权重和偏置作为第二层CNN网络的权重和偏置；高维图像经过所述第二层CNN网络提取图像高维特征；

(3)训练分类器，

输入训练集正样本，归一化为固定尺寸，经过步骤(1)所述第一层CNN网络得到图像特征，将图像特征经过特征可视化技术重构得到高维图像，将高维图像经过步骤(2)所述第二层CNN网络得到正样本高维特征；

输入训练集负样本，归一化为固定尺寸，经过步骤(1)所述第一层CNN网络得到图像特征，将图像特征经过特征可视化技术重构得到高维图像；将高维图像经过步骤(2)所述第二层CNN网络得到负样本高维特征；

最后将所述正样本高维特征和所述负样本高维特征输入SVM训练分类器；

(4)检测人体，根据待测深度图像各像素深度值得到待测深度图像深度频率直方图得到深度平面，并经过特征可视化技术重构得到高维图像，使用步骤(3)所述已训练的SVM分类器对所述高维特征进行分类，将分类结果中判别为人的候选对象挑选出来，得到最终的人体检测结果。

作为优选的技术方案，在步骤(1)中，第一层CNN网络是一个两层的网络结构，包括卷积层和max-pooling层。

作为优选的技术方案，在步骤(2)中，所述特征可视化技术采用深度特征转化算法，将图像特征重构成高维图像；所述高维图像是相比于原图像，保留凸显图像本质特征的抽象图；所述第二层CNN网络是一个两层的网络结构，包括卷积层和max-pooling层。

作为优选的技术方案，采用深度特征转化算法，将图像特征重构成高维图像的具体方法为：

(2-1)设定一个特征表示函数和重构表达Φ₀＝Φ(x₀)，使得求得满足最小化目标：

其中，L损失函数比较图像特征Φ(x)和目标重构表达Φ₀的差值，是一个图像标准化步骤。

(2-2)上述(2-1)中所述的L损失函数采用欧式距离损失函数：

l(Φ(x)，Φ₀)＝||Φ(x)-Φ₀|²

(2-3)上述(2-1)中所述的图像标准化步骤，包含两个图像处理步骤：

其中是图像x的α范式，表达式为：

作为优选的技术方案，步骤(4)具体为：

(4-1)取出深度频率直方图中M个局部极大值所在深度值并取出M个局部极大深度值所在深度平面，M为自然数；

(4-2)使用像素点累加方法分别对所述深度平面求点集中心，对所述每个点集中心为中心取N个不同尺寸矩形区域作为候选对象；

(4-3)将候选对象经过第一层CNN网络得到图像特征；将所述图像特征经过特征可视化技术重构得到高维图像；

(4-4)将高维图像经过第二层CNN网络得到高维特征；

(4-5)使用步骤(3)所述已训练的SVM分类器对所述高维特征进行分类，得到所述候选对象的分类结果；

(4-6)将所述分类结果中判别为人的候选对象挑选出来，应用非极大值抑制算法NMS得到最终人体检测结果。

作为优选的技术方案，步骤(4-2)中像素点累加方法，具体执行如下：

(4-2-1)将深度平面二值化。当像素点值大于0时将其值置1；当像素值等于0时将其值置为0；

(4-2-2)将每一列像素值累加，得到一个向量vector_x，取该向量中最大值所在的位置作为点集中心的横坐标px；

(4-2-3)取出px所在那一列，设置一个单位滑动窗对这一列像素进行卷积，得到一个向量vector_y，取该向量中最大值所在的位置作为点集中心的纵坐标py；

(4-2-4)由4.4.2的px和4.4.3的py构成点集中心P(px,py)。

作为优选的技术方案，步骤(4-2)中，以每个点集中心为中心获取候选对象方法，具体执行如下：

(4-2-5)设置一个最小宽度Size_Min，设置增长步长为step；

(4-2-6)以Size_Min为基础，step为步长，得到第n个候选框的宽度Width_n＝Size_Min+(n-1)*step；

(4-2-7)设置第n个候选框高度Height_n＝2*Width_n；

(4-2-8)以点集中心P(px,py)为中心，Width_n为宽度，Height_n为高度取出n个候选框。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明利用深度图信息，有效解决传统人体检测中的易受光照、背景等变化引起的检测不准确的问题，使系统更加鲁棒，适用于各种复杂的应用环境；

2、本发明针对传统手工提取特征的方法的不足，运用SAE自动学习出图像中人体的特征，可以适用于小数据集并进行无监督学习自动获取人体特征信息；

3、本发明应用特征可视化技术，通过将特征重构成高维图像再进一步学习高维图像的特征，能够获得更稳定可靠的特征，提高人体检测的准确率；

4、本发明采用优化的候选框获取方法，结合深度图像的特点，提出像素点积累的算法，准确定位出每个深度平面的聚集中心，大大降低了获取候选框的运算量，并为人体检测提供了高质量的候选框，从而提高人体检测的准确率。

附图说明

图1为本发明的流程框图。

图2为利用本发明实施例构造的两层CNN检测器检测深度图中人体效果图。

图3为本发明实施例的实验结果，实线为本发明方法的效果。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例是在深圳大学深度图像行人数据集SZU Depth Pedestrian Dataset(见http://yushiqi.cn/research/depthdataset)上实施的，深圳大学深度图像行人数据集通过SwissRanger SR4000进行深度图像采集，包含有3160张图像的含人体的训练数据集、1477张图像含人体的测试数据集和198张无人的数据集。每张图像具有深度值和灰度值，在本实施例中仅利用深度值。每张图像尺寸大小为176x144，深度值范围为0～5米。

从含人体训练数据集中随机挑出500张作为本实施例训练集，将这500张图像中的人体区域分割出来并归一化为64x120作为训练集正样本；对训练集随机截取1000张64x120的背景图像并从192张无人数据集中随机生成500张64x120的背景图像，组合成一共1500张背景图像的训练集负样本。将1477张含人体的测试数据集作为本实验用例的测试集。

图1为本发明的流程示意图，本实施例的具体实施步骤如下：

步骤一、训练第一层CNN。

1.1将训练集中的图像全部裁剪成16x16尺寸的小块，每张图片裁剪出40个小块，一共得到20000个小块；

1.2将1.1所述的小块输入到一个中间层具有64个神经元的SAE网络中进行参数学习，得到SAE网络的权重和偏置作为第一层CNN网络的权重和偏置，所述CNN网络具有两层结构，第一层为具有64个连接神经元的卷积层，第二层为一个7x7的max-pooling层；

1.3每一个训练样本经过1.2所述的第一层CNN网络，每个样本得到一个6720维的图像特征。

步骤二、训练第二层CNN。

2.1将1.3所述的图像特征应用特征可视化技术重构为高维图像。所述的特征可视化技术采用Mahendran和Vedaldi等人提出的深度特征转化算法(参考Mahendran A.,Vedaldi A..Understanding deep image representations by inverting them.arXiv:1412.0035,2014.)将图像特征重构成高维图像。这里每个样本可以重构出一张高维图像；

2.2将2.1所述高维图像全部裁剪成16x16尺寸的小块，针对每一个64x120的样本，随机裁剪出20个小块，一共2000个样本，可以得到40000个小块；

2.3将2.2所述小块输入到另一个中间层具有64个神经元SAE网络(不同于1.2所述SAE网络)中进行参数学习，得到SAE网络的权重和偏置作为第二层CNN网络的权重和偏置，所述所述CNN网络具有两层结构，第一层为具有64个连接神经元的卷积层，第二层为一个7x7的max-pooling层；

2.4将2.1所述高维图像经过2.3所述第二层CNN网络提取图像高维特征。每个高维图像可以得到一个6720维的特征。应用PCA(主成分分析)技术将该6720维特征进行降维处理，得到1000维的图像特征。

步骤三、训练分类器。

3.1依次输入500个训练集正样本，归一化为64x120的尺寸，经过1.2所述第一层CNN网络得到6720维的图像特征；

3.2将3.1所述图像特征经过2.1所述深度特征转化算法重构得到高维图像；

3.3将3.2所述高维图像经过2.3所述第二层CNN网络得到正样本高维特征，并采用PCA进行降维处理，得到1000维的正样本特征；

3.4依次输入训练集负样本，归一化为64x120的尺寸，经过1.2所述第一层CNN网络得到图像特征；

3.5将3.4所述图像特征经过2.1所述深度特征转化算法重构得到高维图像；

3.6将3.5所述高维图像经过2.3所述第二层CNN网络得到负样本高维特征，并采用PCA进行降维处理，得到1000维的负样本特征；

3.7将3.3所述正样本特征和3.6所述负样本特征输入SVM训练分类器。

步骤四、检测人体。

4.1针对测试集中的每一张图像，根据待测深度图像各像素深度值得到待测深度图像深度频率直方图；

4.2取出4.1所述深度频率直方图中10个局部极大值所在深度值；

4.3从4.1所述深度图像中取出4.2所述10个局部极大深度值所在深度平面；

4.4使用像素点累加方法分别对4.3所述深度平面求点集中心。所述像素点累加方法具体为：

4.4.1针对每一个深度平面，先转化为二值图，即像素值大于0的像素值设置为1，像素值等于0的设置为0；

4.4.2将每一列像素值累加，得到一个向量vector_x，取该向量中最大值所在的位置作为点集中心的横坐标px。

4.4.3取出px所在那一列，设置一个8个单位的滑动窗(各位置值为1)对这一列像素进行卷积，得到一个向量vector_y，取该向量中最大值所在的位置作为点集中心的纵坐标py。

4.4.4由4.4.2的px和4.4.3的py构成点集中心P(px,py)。

4.5以4.4所述每个点集中心为中心取8个不同尺寸矩形区域作为候选对象，以宽度50为基础，设置步长为3，高度为宽度的两倍取出矩形区域，即尺寸范围为50x100，53x106,56x112,…,71x142；

4.6将4.5所述候选对象归一化为64x120的尺寸，经过1.2所述第一层CNN网络得到6720维的图像特征；

4.7将4.6所述图像特征经过2.1所述深度特征转化算法重构得到高维图像；

4.8将4.7所述高维图像经过2.3所述第二层CNN网络得到高维特征，并采用PCA进行降维处理，得到1000维的样本特征；

4.9使用3.7所述SVM分类器对4.8所述样本特征进行分类，得到4.5所述候选对象的分类结果；

4.10将4.9分类结果中判别为人的候选对象挑选出来，应用非极大值抑制算法NMS得到最终人体检测结果。

图2为利用本发明实施例构造的两层CNN检测器检测深度图中人体效果图，其中白色矩形框表示检测出来的人体。

图3为本发明实施例的实验结果，纵坐标表示错误率，实线为本发明方法的效果，本发明方法准确率能达到目前最优的人体检测效果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于SAE特征可视化学习的人体检测方法，其特征在于，包括下述步骤：

(3)训练分类器，

(4)检测人体，根据待测深度图像各像素深度值得到待测深度图像深度频率直方图得到深度平面，并经过特征可视化技术重构得到高维图像，使用步骤(3)所述已训练的SVM分类器对待测深度图像的高维特征进行分类，将分类结果中判别为人的候选对象挑选出来，得到最终的人体检测结果。

2.根据权利要求1所述的基于SAE特征可视化学习的人体检测方法，其特征在于，在步骤(1)中，第一层CNN网络是一个两层的网络结构，包括卷积层和max-pooling层。

3.根据权利要求1所述的基于SAE特征可视化学习的人体检测方法，其特征在于，在步骤(2)中，所述特征可视化技术采用深度特征转化算法，将图像特征重构成高维图像；所述高维图像是相比于原图像，保留凸显图像本质特征的抽象图；所述第二层CNN网络是一个两层的网络结构，包括卷积层和max-pooling层。

4.根据权利要求3所述的基于SAE特征可视化学习的人体检测方法，其特征在于，采用深度特征转化算法，将图像特征重构成高维图像的具体方法为：

其中，L损失函数比较图像特征Φ(x)和目标重构表达Φ₀的差值，是一个图像标准化步骤；

(2-2)上述(2-1)中所述的L损失函数采用欧式距离损失函数：

l(Φ(x)，Φ₀)＝||Φ(x)-Φ₀||²

其中是图像x的α范式，表达式为：

5.根据权利要求1所述的基于SAE特征可视化学习的人体检测方法，其特征在于，步骤(4)具体为：

(4-4)将高维图像经过第二层CNN网络得到高维特征；

6.根据权利要求5所述的基于SAE特征可视化学习的人体检测方法，其特征在于，步骤(4-2)中像素点累加方法，具体执行如下：

(4-2-1)将深度平面二值化，当像素点值大于0时将其值置1；当像素值等于0时将其值置为0；

(4-2-4)由(4-2-2)的px和(4-2-3)的py构成点集中心P(px,py)。

7.根据权利要求5所述的基于SAE特征可视化学习的人体检测方法，其特征在于，步骤(4-2)中，以每个点集中心为中心获取候选对象方法，具体执行如下：

(4-2-5)设置一个最小宽度Size_Min，设置增长步长为step；

(4-2-7)设置第n个候选框高度Height_n＝2*Width_n；