CN110503014A

CN110503014A - 基于多尺度掩码感知回馈卷积神经网络的人数统计方法

Info

Publication number: CN110503014A
Application number: CN201910728917.6A
Authority: CN
Inventors: 路小波; 姜胜芹
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2019-11-26
Anticipated expiration: 2039-08-08
Also published as: CN110503014B

Abstract

本发明公开了一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法，包括如下步骤：(1)搜集制作人数统计数据库；(2)生成训练和测试样本；(3)对训练和测试集的样本进行数据预处理；(4)构建人数统计的深度网络模型；(5)将生成的训练样本送入构建好的深度网络模型进行训练，通过Adam优化方法对网络的参数进行优化；(6)测试深度网络模型。本发明使用了一个多任务学习的策略来构建人数统计网络，网络将掩膜估计分支的结果，融合到图片特征中，而后获得鲁棒的人数统计模型；使用了一个简单的融合策略和一个基于空洞卷积的多尺度学习策略，实现了较为准确和稳定的检测结果，这避免了应用中复杂的配置以及内存消耗。

Description

基于多尺度掩码感知回馈卷积神经网络的人数统计方法

技术领域

本发明涉及图像处理和模式识别技术领域，尤其是一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法。

背景技术

随着城镇化的推进和人们娱乐及工作的需要，多人以及群体聚集的场景在众多的场所已屡见不鲜，这也带来了日益严峻的安全管理问题。近些年来，人们时常会听到全世界各地对群体性事件以及踩踏事件的报道。因此，如何对公共场所的人数进行统计是一个至关重要的任务。该任务可以帮助管理人群提供人群的密度分布数据，便于综合地引导人群的流动，使得公共场所中安全问题变得可控、可防。因此，该任务对公共安全具有重要的应用价值。

随着监控设备的增加，人工对每个视频流进行计数显然代价比较昂贵，且由于人的精力有限不能保证全天候的检测。传统的方法面对复杂的场景的时候精度并不能满足生活生产的要求。随着计算机视觉技术的发展，人群统计深度网络模型已成为人数检测的主流方法。但这些方法依然检测的准确率不高。通过对场景中的图片分析，要实现鲁棒的检测不得不解决以下几个难点问题：(1)在密度比较高的场景中，人头之间存在严重的遮挡问题；(2)由于监控设备视角的变化，人群的尺度变化非常明显；(3)不同的场景会有不同的光照等等。

发明内容

本发明所要解决的技术问题在于，提供一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法，采用多任务的深度学习框架，使用掩码估计的结果并融入图片的特征，构建了一个鲁棒的人群统计模型。

为解决上述技术问题，本发明提供一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法，包括如下步骤：

(1)搜集制作人数统计数据库；

(2)生成训练和测试样本；

(3)对训练和测试集的样本进行数据预处理；

(4)构建人数统计的深度网络模型；

(5)将生成的训练样本送入构建好的深度网络模型进行训练，通过Adam优化方法对网络的参数进行优化；

(6)测试深度网络模型。

优选的，步骤(1)中，数据库的搜集是来自于两个部分，一是来自视频拍摄设备，二是来自网络搜集。

优选的，步骤(2)中，生成训练和测试样本具体包括如下步骤：

(201)将步骤(1)中得到的视频帧剪辑成单帧的图片，记图片左上角第一个元素的位置为原点，用图片中的点坐标x_p＝(g_p,h_p)标注第p个人头的中心点位置，依次标注图片中的每个人头，形成图片的最终真实标签；

(202)将步骤(201)得到图片按照5：1的比例分成测试集和训练集，若训练集中包含M个训练样本，则可记X＝{I₁,I₂,...,I_M}为训练集合，其对应的标签则记为X_label＝{l₁,l₂,...,l_M}，其中I_k是第k个样本；若训练集中包含N个训练样本，则可记Y＝{I_M+1,I_M+2,...,I_M+N}为训练集合，其对应的标签则记为Y_label＝{l_M+1,l_M+2,...,l_M+N}；

(203)使用步骤(201)中每张图片I的真实标签，每个真实标签包含多个点坐标，将这些点坐标通过如下的公式转换成高斯密度图d(x)：

其中表示图片的坐标，x_i表示标注的人头位置。表示高斯核，其中x_i是均值向量和σ²是经验性选择的方差项；如果x不在x_i的领域范围内，方差项σ²的一个常见选择是使得此时，训练样本对应的标签转变成测试样本对应的标签转变为

优选的，步骤(3)中，对训练和测试集的样本进行数据预处理具体包括如下步骤：

(301)对训练集和测试集的样本和标签进行归一化处理，记第k个样本I_k的尺寸大小为将图片的尺寸调整为8的整数倍，即其中其中表示整除8后，留整数位；

(302)将第k个样本对应的高斯密度图d(x)_k的尺寸同样调整为其中记调整后的高斯密度图为为了保持人数的不变，对调整后的高斯密度图进行如下操作：

(303)将步骤(302)中第k个样本生成的高斯密度图二值化，生成图像的掩码图计算按照如下的公式：

其中表示将中每个像素与σ做比较，如果像素点的值大于σ，那么在该像素点的值记为1，否则记为0；

(304)步骤(202)中每个训练样本和测试样本及其对应的标签都经过步骤(301)，步骤(302)和步骤(303)对数据进行预处理。

优选的，步骤(4)中，构建人数统计的深度网络模型具体为：基于预训练前10层VGGNet卷积神经网络，同时结合多尺度掩码感知回馈网络模块，构成最终的多任务人数统计网络；多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层，4层空洞卷积层作为掩膜预测分支，4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层；

模型以尺寸为的图像作为输入，经过前10层VGG Net的卷积网络后，输出的尺寸为的特征图，该特征图经过多尺度掩码感知回馈网络模块后分别输出尺寸为的掩码估计图，以及尺寸为的密度估计图；

卷积层1：使用64个3×3的卷积核，去卷积输入为的图像，经过ReLU激活函数后得到的特征；

卷积层2：使用64个3×3的卷积核，去卷积卷积层1的输出，经过ReLU激活函数和2×2的最大值池化层后得到的特征；

卷积层3：使用128个3×3的卷积核，去卷积卷积层2的输出，经过ReLU激活函数后得到的特征；

卷积层4：使用128个3×3的卷积核，去卷积卷积层3的输出，经过ReLU激活函数和2×2的最大值池化层后得到的特征；

卷积层5：使用256个3×3的卷积核，去卷积卷积层4的输出，经过ReLU激活函数后得到的特征；

卷积层6：使用256个3×3的卷积核，去卷积卷积层5的输出，经过ReLU激活函数后得到的特征；

卷积层7：使用256个3×3的卷积核，去卷积卷积层6的输出，经过ReLU激活函数层和2×2的最大值池化层后得到的特征；

卷积层8：使用512个3×3的卷积核，去卷积卷积层7的输出，经过ReLU激活函数后得到的特征；

卷积层9：使用512个3×3的卷积核，去卷积卷积层8的输出，经过ReLU激活函数后得到的特征；

卷积层10：使用512个3×3的卷积核，去卷积卷积层9的输出，经过ReLU激活函数后得到的特征；

卷积层11：使用256个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层10的输出，经过ReLU激活函数后得到的特征；

卷积层12：使用128个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层11的输出，经过ReLU激活函数后得到的特征；

卷积层13：使用64个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层12的输出，经过ReLU激活函数后得到的特征；

卷积层14_1：使用64个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层13的输出，经过ReLU激活函数后得到的特征；

卷积层14_2：使用32个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层14_1的输出，经过ReLU激活函数后得到的特征；

卷积层14_3：使用32个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层14_2的输出，经过ReLU激活函数后得到的特征；

卷积层14_4：使用32个1×1的卷积核，去卷积卷积层14_3的输出，经过Sigmoid激活函数后得到的特征。该层输出图片的掩膜估计图；

卷积层15_1：使用128个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层14_4的输出，经过ReLU激活函数后得到的特征；

卷积层15_2：使用64个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层15_1的输出，经过ReLU激活函数后得到的特征；

卷积层16_1：将卷积层15_2和卷积层13的输出结果延通道维级联，而后得到的特征；

卷积层16_2：使用64个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层16_1的输出，经过ReLU激活函数后得到的特征；

卷积层16_3：使用32个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层16_2的输出，经过ReLU激活函数后得到的特征；

卷积层16_4：使用32个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层16_3的输出，经过ReLU激活函数后得到的特征；

卷积层16_5：使用32个1×1的卷积核，去卷积卷积层16_4的输出，经过ReLU激活函数后得到的特征，该层输出图片的密度估计图。

优选的，步骤(5)中，将生成的训练样本送入构建好的深度网络模型进行训练，通过Adam优化方法对网络的参数进行优化，具体包括如下步骤：

(501)使用人数统计数据集对本发明所提出的网络进行训练，设置初始学习率为η₂，一次迭代送入样本数为E，采用多任务的策略学习样本训练模型；

(502)网络需要学习的参数可分为三部分：一是步骤(4)中卷积层1-卷积层13的参数θ_base；二是步骤(4)中卷积层14-1到卷积层14-4的参数θ_seg以及剩余的卷积层的参数θ_den；

第k个样本I_k输入到网络中后，记步骤(4)中卷积层14-4的输出为Seg_k：

Seg_k＝conv(I_k,θ_base,θ_seg)

其中conv(·)表示卷积操作；

同时记步骤(4)中卷积层16-5的输出为Den_k：

Den_k＝conv(I_k,θ_base,θ_seg,θ_den)

两个分支的输出Seg_k和Den_k是在给定的监督信号下对网络进行学习，其损失函数记为：

其中是均方差损失函数，是二值交叉熵损失函数，α是超参数。

优选的，步骤(6)中，测试深度网络模型具体为：网络训练完毕后，保留网络的卷积层的参数，将测试视频帧通过步骤(2)和步骤(301)操作后，输入测试网络，将网络在步骤(5)中卷积层16-5的输出的结果求和，即为当前图片的人数统计结果。

本发明的有益效果为：(1)本发明使用了一个多任务学习的策略来构建人数统计网络，网络将掩码估计分支的结果，融合到图片特征中，而后获得鲁棒的人数统计模型；(2)本发明使用了一个简单的融合策略和一个基于空洞卷积的多尺度学习策略，实现了较为准确和稳定的检测结果，这避免了应用中复杂的配置以及内存消耗。

附图说明

图1为本发明人群拥挤的场景示意图。

图2为本发明中卷积神经网络模型框架示意图。

具体实施方式

一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法，包括如下步骤：

步骤1：搜集制作人数统计数据库。数据库的搜集是来自于两个部分，一是来自视频拍摄设备，如室外监控摄像头或手机等，二是来自网络搜集，如在百度、谷歌等搜索引擎中输入“人群”，“人”等关键字进行检索，收集人群图片，如图1所示。

步骤2：生成训练和测试样本。对于搜集到的图片或视频数据进行标注，并生成训练和测试样本，其具体包括：

步骤201：将步骤1中得到的视频帧剪辑成单帧的图片。记图片左上角第一个元素的位置为原点，用图片中的点坐标x_p＝(g_p,h_p)标注第p个人头的中心点位置，依次标注图片中的每个人头，形成图片的最终真实标签。

步骤202：将步骤201得到图片按照5：1的比例分成测试集和训练集。若训练集中包含M个训练样本，则可记X＝{I₁,I₂,...,I_M}为训练集合，其对应的标签则记为X_label＝{l₁,l₂,...,l_M}，其中I_k是第k个样本。若训练集中包含N个训练样本，则可记Y＝{I_M+1,I_M+2,...,I_M+N}为训练集合，其对应的标签则记为Y_label＝{l_M+1,l_M+2,...,l_M+N}。

步骤203：使用步骤(201)中每张图片I的真实标签，每个真实标签包含多个点坐标，将这些点坐标通过如下的公式转换成高斯密度图d(x)：

其中表示图片的坐标，x_i表示标注的人头位置。表示高斯核，其中x_i是均值向量和σ²是经验性选择的方差项。如果x不在x_i的领域范围内，方差项σ²的一个常见选择是使得此时，训练样本对应的标签转变成测试样本对应的标签转变为

步骤3：对训练和测试集的样本进行数据预处理，其具体包括：

步骤301：对训练集和测试集的样本和标签进行归一化处理。记第k个样本I_k的尺寸大小为将图片的尺寸调整为8的整数倍，即其中其中表示整除8后，留整数位。

步骤302：将第k个样本对应的高斯密度图d(x)_k的尺寸同样调整为其中记调整后的高斯密度图为为了保持人数的不变，对调整后的高斯密度图进行如下操作：

步骤303：将步骤302中第k个样本生成的高斯密度图二值化，生成图像的掩码图计算按照如下的公式：

其中表示将中每个像素与σ做比较，如果像素点的值大于σ，那么在该像素点的值记为1，否则记为0。

步骤304：步骤202中每个训练样本和测试样本及其对应的标签都经过步骤301，步骤302和步骤303对数据进行预处理。

步骤4：构建人数统计的深度网络模型。本发明所设计的网络模型是基于预训练前10层VGG Net卷积神经网络，同时结合多尺度掩码感知回馈网络模块，构成最终的多任务人数统计网络。多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层，4层空洞卷积层作为掩膜预测分支，4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层，如图2所示。

模型以尺寸为的图像作为输入。经过前10层VGG Net的卷积网络后，输出的尺寸为的特征图。该特征图经过多尺度掩码感知回馈网络模块后分别输出尺寸为的掩码估计图，以及尺寸为的密度估计图。

卷积层1：使用64个3×3的卷积核，去卷积输入为的图像，经过ReLU激活函数后得到的特征。

卷积层2：使用64个3×3的卷积核，去卷积卷积层1的输出，经过ReLU激活函数和2×2的最大值池化层后得到的特征。

卷积层3：使用128个3×3的卷积核，去卷积卷积层2的输出，经过ReLU激活函数后得到的特征。

卷积层4：使用128个3×3的卷积核，去卷积卷积层3的输出，经过ReLU激活函数和2×2的最大值池化层后得到的特征。

卷积层5：使用256个3×3的卷积核，去卷积卷积层4的输出，经过ReLU激活函数后得到的特征。

卷积层6：使用256个3×3的卷积核，去卷积卷积层5的输出，经过ReLU激活函数后得到的特征。

卷积层7：使用256个3×3的卷积核，去卷积卷积层6的输出，经过ReLU激活函数层和2×2的最大值池化层后得到的特征。

卷积层8：使用512个3×3的卷积核，去卷积卷积层7的输出，经过ReLU激活函数后得到的特征。

卷积层9：使用512个3×3的卷积核，去卷积卷积层8的输出，经过ReLU激活函数后得到的特征。

卷积层10：使用512个3×3的卷积核，去卷积卷积层9的输出，经过ReLU激活函数后得到的特征。

卷积层11：使用256个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层10的输出，经过ReLU激活函数后得到的特征。

卷积层12：使用128个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层11的输出，经过ReLU激活函数后得到的特征。

卷积层13：使用64个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层12的输出，经过ReLU激活函数后得到的特征。

卷积层14_1：使用64个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层13的输出，经过ReLU激活函数后得到的特征。

卷积层14_2：使用32个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层14_1的输出，经过ReLU激活函数后得到的特征。

卷积层14_3：使用32个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层14_2的输出，经过ReLU激活函数后得到的特征。

卷积层14_4：使用32个1×1的卷积核，去卷积卷积层14_3的输出，经过Sigmoid激活函数后得到的特征。该层输出图片的掩膜估计图。

卷积层15_1：使用128个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层14_4的输出，经过ReLU激活函数后得到的特征。

卷积层15_2：使用64个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层15_1的输出，经过ReLU激活函数后得到的特征。

卷积层16_1：将卷积层15_2和卷积层13的输出结果延通道维级联，而后得到的特征。

卷积层16_2：使用64个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层16_1的输出，经过ReLU激活函数后得到的特征。

卷积层16_3：使用32个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层16_2的输出，经过ReLU激活函数后得到的特征。

卷积层16_4：使用32个3×3的空洞卷积核(卷积空洞率为2)，去卷积卷积层16_3的输出，经过ReLU激活函数后得到的特征。

卷积层16_5：使用32个1×1的卷积核，去卷积卷积层16_4的输出，经过ReLU激活函数后得到的特征。该层输出图片的密度估计图。

步骤5：将生成的训练样本送入构建好的深度网络模型进行训练，通过Adam优化方法对网络的参数进行优化，具体包含：

步骤501：使用人数统计数据集对本发明所提出的网络进行训练，设置初始学习率为η₂，一次迭代送入样本数为E。采用多任务的策略学习样本训练模型。

步骤502：本发明所设计的网络需要学习的参数可分为三部分：一是步骤4中卷积层1-卷积层13的参数θ_base；二是步骤4中卷积层14-1到卷积层14-4的参数θ_seg以及剩余的卷积层的参数θ_den。

第k个样本I_k输入到网络中后，记步骤4中卷积层14-4的输出为Seg_k：

Seg_k＝conv(I_k,θ_base,θ_seg)

其中conv(·)表示卷积操作。

同时记步骤4中卷积层16-5的输出为Den_k：

Den_k＝conv(I_k,θ_base,θ_seg,θ_den)

其中是均方差损失函数，是二值交叉熵损失函数。α是超参数。

步骤6：测试深度网络模型。网络训练完毕后，保留网络的卷积层的参数。将测试视频帧通过步骤2和步骤301操作后，输入测试网络，将网络在步骤5中卷积层16-5的输出的结果求和，即为当前图片的人数统计结果。

本发明预测准确率高，在公共安全、城市管理等领域有着重要的应用价值，适用于商场、地铁、广场等公共场所的人数统计。

Claims

1.一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法，其特征在于，包括如下步骤：

(1)搜集制作人数统计数据库；

(2)生成训练和测试样本；

(3)对训练和测试集的样本进行数据预处理；

(4)构建人数统计的深度网络模型；

(6)测试深度网络模型。

2.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法，其特征在于，步骤(1)中，数据库的搜集是来自于两个部分，一是来自视频拍摄设备，二是来自网络搜集。

3.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法，其特征在于，步骤(2)中，生成训练和测试样本具体包括如下步骤：

其中表示图片的坐标，x_i表示标注的人头位置，表示高斯核，其中x_i是均值向量和σ²是经验性选择的方差项；如果x不在x_i的领域范围内，方差项σ²的一个常见选择是使得此时，训练样本对应的标签转变成测试样本对应的标签转变为

4.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法，其特征在于，步骤(3)中，对训练和测试集的样本进行数据预处理具体包括如下步骤：

(301)对训练集和测试集的样本和标签进行归一化处理，记第k个样本I_k的尺寸大小为将图片的尺寸调整为8的整数倍，即其中其中l％8表示l整除8后，留整数位；

5.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法，其特征在于，步骤(4)中，构建人数统计的深度网络模型具体为：基于预训练前10层VGG Net卷积神经网络，同时结合多尺度掩码感知回馈网络模块，构成最终的多任务人数统计网络；多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层，4层空洞卷积层作为掩膜预测分支，4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层；

卷积层14_4：使用32个1×1的卷积核，去卷积卷积层14_3的输出，经过Sigmoid激活函数后得到的特征，该层输出图片的掩膜估计图；

6.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法，其特征在于，步骤(5)中，将生成的训练样本送入构建好的深度网络模型进行训练，通过Adam优化方法对网络的参数进行优化，具体包括如下步骤：

Seg_k＝conv(I_k,θ_base,θ_seg)

其中conv(·)表示卷积操作；

同时记步骤(4)中卷积层16-5的输出为Den_k：

Den_k＝conv(I_k,θ_base,θ_seg,θ_den)

7.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法，其特征在于，步骤(6)中，测试深度网络模型具体为：网络训练完毕后，保留网络的卷积层的参数，将测试视频帧通过步骤(2)和步骤(301)操作后，输入测试网络，将网络在步骤(5)中卷积层16-5的输出的结果求和，即为当前图片的人数统计结果。