CN109190458B

CN109190458B - 一种基于深度学习的小人头检测方法

Info

Publication number: CN109190458B
Application number: CN201810800214.5A
Authority: CN
Inventors: 陈梓蓉; 金连文; 孙梓凯; 彭德智; 蔡子瑞; 谢乐乐
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2022-03-25
Anticipated expiration: 2038-07-20
Also published as: CN109190458A

Abstract

本发明公开了一种基于深度学习的小人头检测方法，包括下述步骤：(1)采集大量图像形成训练集和测试集；(2)对训练集和测试集进行精准贴边的人头标注；(3)利用R‑FCN框架，构造深度卷积神经网络，然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练；(4)基于视觉透视变换对测试图像进行切割再部分放大；(5)将切割并放大后的测试图像，输入步骤(3)所构造的深度卷积神经网络，神经网络输出结果通过Softmax激活函数得到每个预测框的概率分布，计算最小损失函数，根据最小损失函数输出检测结果。本发明通过深度学习算法从图片样本中自动学习出人头与其它背景的不同特征，能够智能的对密集的小人头进行检测。

Description

一种基于深度学习的小人头检测方法

技术领域

本发明涉及模式识别与人工智能技术领域，特别涉及一种基于深度学习的小人头检测方法。

背景技术

随着计算机技术的快速发展和安全意识的增强，监控摄像头在安防方面有重要的作用。同时小人头检测在监控安全，智慧教室，智能交通等各行各业也有了广泛的运用，人们对小人头检测的精度也有更高的要求。小人头检测的应用具有很大的便利，因此提高小人头检测的准确性具有重要意义。

卷积神经网络是人工神经网络的一种，是为了识别二维形状而设计的多层感知器这种网络结构平移，比例缩放，倾斜或者其他形式的变形具有不变性，已经成为当前语音和图像识别领域的研究热点。卷积神经网络类似于生物神经网络，具有权值共享网络结构，大大降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的比较明显，图像可以作为网络输入，避免了传统识别算法复杂特征提取和数据重建过程。

近几年来，卷积神经的研究工作不断深入，已经取得了很大的进展，其在语音和图片领域解决了许多问题表现出了良好的智能特性。

发明内容

本发明的目的在于克服现有技术中的缺点与不足，提供一种基于深度学习的小人头检测方法，该方法能够学习检测出人头特征从而更好的检测不同角度，不同像素的人头，具有效率高、识别率高的特点。

为实现以上目的，本发明采取如下技术方案：

一种基于深度学习的小人头检测方法，包括下述步骤：

(1)获取数据：采集不同室内场景的大量图像形成训练集和测试集；

(2)对所述训练集和测试集图像进行精准贴边的人头标注；

(3)利用R-FCN框架，构造深度卷积神经网络，然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练，设定网络初始参数及迭代更新方式；

(4)对测试集图像进行变换处理，具体为：基于视觉透视变换对测试集图像进行聚类切割再部分放大；

(5)将变换处理后的测试集图像输入步骤(3)训练完成的深度卷积神经网络，得到概率分布，再通过计算损失函数，输出识别结果。

作为优选的技术方案，在步骤(1)中，通过采集课室内监控以及网络爬虫后再通过人工筛选出复杂的图像样本来获得数据，在所形成的训练集中，人头样本包括不同角度不同人数的大小人头，部分遮挡人头，重叠人头的正、侧、后部和顶部。

作为优选的技术方案，步骤(2)中，通过人工严格标注，将训练集和测试集图像放大到原来的5倍，并紧贴人头边缘进行标注。

作为优选的技术方案，步骤(3)中，利用R-FCN框架，构造深度卷积神经网络，具体过程如下：

基于R-FCN框架，将图像输入宽为W_train，高为H_train的图像作为训练图像；

构造深度卷积神经网络，该网络包括：输入层、13个卷积层、RPN部分、RoI部分和输出层，其中，每个卷积层紧跟一个RELU激活层，在第二、第四、第七、第十、第十三个RELU激活层后紧跟一个池化层；

所述输入层接收的图片尺寸大小为1000×600像素；所述13个卷积层的卷积核大小都为3×3，步长都为1，输出特征图分别为64，64，128，128，256，256，256，512，512，512，512，512，512；所述ReLu激活层对卷积得到的特征进行线性修正；所述池化层采用最大池化法对修正后的特征提取极大值；输出层为softmax层，输出的是图像中人头的概率分布。

作为优选的技术方案，步骤(3)中，对所构造的深度神经网络进行训练的步骤，具体过程如下：

设定每一次批量训练的图像数目为B_train张，将所述训练图像输入到构建的深度卷积神经网络中进行批量训练，并采用随机梯度下降方法对构建的深度卷积神经网络进行训练；

设定网络初始参数，所述参数包括：初始学习率lr₀、学习率变化的底数gamma、学习率变化的间隔数stepsize和最大训练迭代次数iters_max；其中，所述初始学习率lr₀即表示网络在训练样本中寻找最优解的起始迭代速率；

学习速率的更新方式为梯度递减，更新方式如下：

lr_item＝lr₀×gamma^{floor(iter-stepsize)}

其中初始学习率lr₀取值为0.01，学习率变化的底数gamma取值为0.1，最大训练迭代次数iters_max的范围为40000～60000，学习率变化的间隔数stepsize的范围为10000～15000。

作为优选的技术方案，步骤(4)中，所述基于视觉透视变换对测试集图像进行切割再部分放大，具体为：

基于R-FCN框架，将图像输入宽为W_train，高为H_train的图像作为测试图像；根据视觉成像近大远小的成像原理，将分布于图像上方的人头定为小人头，由xml文件计算出训练集和测试集图像中每个人头标注的长宽，用k-means聚类划分成大人头和小人头以及计算大人头和小人头的平均长宽，由计算出的平均长宽对比原来xml文件中的每个人头标注的长宽，计算大小人头在图像中的行列位置，所述行列位置是指大人头和小人头所在的区域分别在图像的前部和后部，其中图像的前部为大人头区域，分界线位置距离图片底部为W_test，图像的前部为小人头区域，分界线距离图片顶部距离为L，然后将分类后小人头区域的图像部分放大η倍，其中η为大小人头的平均面积比例。

作为优选的技术方案，使用k-means算法计算人头大小及位置，其具体过程如下：

(a)通过xml文件中的位置计算人头的面积，记作S_i，其中i为第i个人头，任意选取2个人头的面积作为初始聚类中心S_c1、S_c2；

(b)将初始聚类中心S_c1、S_c2与其他人头面积S_i的欧氏距离作为聚类中心与其他人头面积数据的距离，计算聚类中心与其他人头面积的距离，将之归到最近的聚类中心并作为一类；

(c)重新计算聚类中心S_c1、S_c2，要求聚类中心是与类间的人头数据的距离之和最小，计算出聚类中心之后，应算出小人头区域分界线距离该图片顶端的长度L以及大人头与小人头平均面积比例η，迭代步骤(b)和步骤(c)。

作为优选的技术方案，步骤(5)，具体过程如下：

(501)设定每一次批量测试的图像数为B_test，且将每一张变换处理过的图像与其原图像作为一组测试图像img_test，并依次通过测试网络；

(502)将步骤(501)所述的测试图像输入训练完成的深度卷积神经网络，将深度卷积神经网络卷积的输出结果通过Softmax激活函数得到每个预测框的概率分布，Softmax激活函数公式如下：

其中，Z表示为一个数组，包含n个元素；z_i和z_j分别表示为Z中的第i个和第j个元素的值；

再通过使用交叉熵来计算分类的损失函数，使用SmoothL1loss损失函数来计算回归的损失函数，根据分类和回归的损失函数的和，要求损失最小作为输出识别结果；

总的损失函数公式如下：

分类的损失函数使用交叉熵计算，公式如下：

回归损失函数使用SmoothL1loss损失函数进行计算，公式如下：

其中

上式中，N_cls为分类的样本数量；N_reg为回归的样本数量；i是输入图片中的类别数；p_i是预测概率；

为有无物体的判决，有物体时

为1，否则为0；t_i为一个预测坐标的向量；

为一个标注包围盒的坐标向量；λ为规定系数。

作为优选的技术方案，测试过程中，对任意一组测试图像img_test，将变换处理过的图像缩小到宽与原图一致，高为小人头区域分界线距离图片顶部的距离，即宽为W_train，高为L，然后与原图像一同通过非极大值抑制筛选出置信度最高的输出。

本发明相对于现有技术具有如下的优点和效果：

(1)本发明针对于监控等低分辨率的图片，能够较好的从较模糊的图像中得到需要的人头的准确性特征，避免低分辨率图片增强等复杂过程。

(2)本发明使用深度卷积神经网络，能够提取到较好的局部特征，具备平移不变性，避免传统算法中复杂的特征提取和数据重建过程，提高本发明的检测准确性能与健壮性。

(3)本发明的算法识别率高，鲁棒性强，能够从训练图像集中学习到人头特征，并且在测试结构上进行优化获得更好的检测性能，并且提高了检测效率。

附图说明

图1为本发明的基于深度学习的小人头检测方法流程图；

图2为本发明构建的神经网络结构图。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不限于本发明。

实施例

如图1所示，一种基于深度学习的小人头检测方法，包括下述步骤：

(1)获取数据：采集课室等不同室内场景的大量图像形成训练集和测试集；

通过采集课室内监控以及网络爬虫后再通过人工筛选出复杂的图像样本来获得数据，在所形成的训练集中，人头样本包括不同角度不同人数的大小人头，部分遮挡人头，重叠人头的正、侧、后部和顶部。

(2)对所述训练集和测试集图像进行精准贴边的人头标注，具体为：通过人工严格标注，将训练集和测试集图像放大到原来的5倍，并紧贴人头边缘进行标注。

所述步骤(3)具体包括下述步骤：

(301)基于R-FCN框架，将图像输入宽为W_train，高为H_train的图像作为训练图像；

(302)构造深度卷积神经网络，该网络包括：输入层、13个卷积层、RPN部分、RoI部分和输出层，其中每个卷积层紧跟一个RELU激活层，在第二、第四、第七、第十、第十三个RELU激活层后紧跟一个池化层；

如图2所示，本实施例构建的深度卷积神经网络如下：

Input(1000×600)->64C(3×3)S1P1->ReLu->64C(3×3)S1P1->ReLu->MP2->128C(3×3)

S1P1->ReLu->128C(3×3)S1P1->ReLu->MP2->256C(3×3)S1P1->ReLu->256C(3×3)

S1P1->ReLu->256C(3×3)S1P1->ReLu->MP2->512C(3×3)S1P1->ReLu->512C(3×3)

S1P1->ReLu->512C(3×3)S1P1->ReLu->MP2->512C(3×3)S1P1->ReLu->512C(3×3)

S1P1->ReLu->512C(3×3)S1P1->ReLu->MP2->->RPN->RoIPooling->Softmax/Output。

其中Input(1000×600)表示输入层接受的图片大小为1000×600像素，64C(3×3)S1P1表示对输入图像进行特征提取的卷积层，核大小为3×3，步长为1，输出64的特征图；ReLu表示对卷积得到的特征层进行修正的线性纠正激活层；MP2表示对修正后的特征进行提取极大值的最大池化层，核大小为2×2，步长为2；RPN表示R-FCN框架内的RPN部分；RoIPooling表示R-FCN框架内ROI部分；Softmax/Output表示输出层为softmax层，输出的是图片中人头的概率分布。

(303)利用训练集图像训练所构建的深度卷积神经网络：

(3031)设定每一次批量训练的图像数目为64张，将所述训练图像输入到构建的深度卷积神经网络中进行批量训练，并采用随机梯度下降方法对构建的深度卷积神经网络进行训练；

(3032)设定网络初始参数，所述参数包括：初始学习率(网络在训练样本中寻找最优解的起始迭代速率)lr₀、学习率变化的底数gamma、学习率变化的间隔数stepsize和最大训练迭代次数iters_max；

学习速率的更新方式为梯度递减，更新方式如下：

lr_item＝lr₀×gamma^{floor(iter-stepsize)}

(4)对测试集图像进行变换处理，具体为：基于视觉透视变换对测试集图像进行切割再部分放大；

(401)基于R-FCN框架，将图像输入为1200*1000的图像作为测试图像。

(402)根据视觉成像近大远小的成像原理，将分布于图像上方的人头定为小人头，由xml文件计算出训练集和测试集图像中每个人头标注的长宽，用k-means聚类划分成大人头和小人头以及计算大人头和小人头的平均长宽，由计算出的平均长宽对比原来xml文件中的每个人头标注的长宽，计算大小人头在图像中的行列位置，所述行列位置是指大人头和小人头所在的区域分别在图像的前部和后部，其中图像的前部为大人头区域，分界线位置距离图片底部为W_test，图像的前部为小人头区域，分界线距离图片顶部距离为L；

其中，使用k-means算法计算人头大小及位置，其具体过程如下：

(403)将经过步骤(4-2)产生的部分图像(宽为300的小人头图像)放大，放大倍数为η＝1.3。

(5)将变换处理后的测试集图像输入步骤(3)所训练完成的深度卷积神经网络，得到概率分布，再通过计算损失函数，输出识别结果；

所述步骤(5)具体包括下述步骤：

(501)设定每一次批量测试的图像数为32，且将每一张变换处理过的图像与其原图像作为一组测试图像img_test，并依次通过测试网络；测试过程中，对任意一组测试图像img_test，将变换处理过的图像缩小到宽与原图一致，高为小人头区域分界线距离图片顶部的距离，即宽为W_train，高为L，然后与原图像一同通过NMS(非极大值抑制)筛选出置信度最高的输出。