CN110503014A - 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 - Google Patents

基于多尺度掩码感知回馈卷积神经网络的人数统计方法 Download PDF

Info

Publication number
CN110503014A
CN110503014A CN201910728917.6A CN201910728917A CN110503014A CN 110503014 A CN110503014 A CN 110503014A CN 201910728917 A CN201910728917 A CN 201910728917A CN 110503014 A CN110503014 A CN 110503014A
Authority
CN
China
Prior art keywords
convolutional layer
output
activation primitive
feature
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910728917.6A
Other languages
English (en)
Other versions
CN110503014B (zh
Inventor
路小波
姜胜芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910728917.6A priority Critical patent/CN110503014B/zh
Publication of CN110503014A publication Critical patent/CN110503014A/zh
Application granted granted Critical
Publication of CN110503014B publication Critical patent/CN110503014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:(1)搜集制作人数统计数据库;(2)生成训练和测试样本;(3)对训练和测试集的样本进行数据预处理;(4)构建人数统计的深度网络模型;(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;(6)测试深度网络模型。本发明使用了一个多任务学习的策略来构建人数统计网络,网络将掩膜估计分支的结果,融合到图片特征中,而后获得鲁棒的人数统计模型;使用了一个简单的融合策略和一个基于空洞卷积的多尺度学习策略,实现了较为准确和稳定的检测结果,这避免了应用中复杂的配置以及内存消耗。

Description

基于多尺度掩码感知回馈卷积神经网络的人数统计方法
技术领域
本发明涉及图像处理和模式识别技术领域,尤其是一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法。
背景技术
随着城镇化的推进和人们娱乐及工作的需要,多人以及群体聚集的场景在众多的场所已屡见不鲜,这也带来了日益严峻的安全管理问题。近些年来,人们时常会听到全世界各地对群体性事件以及踩踏事件的报道。因此,如何对公共场所的人数进行统计是一个至关重要的任务。该任务可以帮助管理人群提供人群的密度分布数据,便于综合地引导人群的流动,使得公共场所中安全问题变得可控、可防。因此,该任务对公共安全具有重要的应用价值。
随着监控设备的增加,人工对每个视频流进行计数显然代价比较昂贵,且由于人的精力有限不能保证全天候的检测。传统的方法面对复杂的场景的时候精度并不能满足生活生产的要求。随着计算机视觉技术的发展,人群统计深度网络模型已成为人数检测的主流方法。但这些方法依然检测的准确率不高。通过对场景中的图片分析,要实现鲁棒的检测不得不解决以下几个难点问题:(1)在密度比较高的场景中,人头之间存在严重的遮挡问题;(2)由于监控设备视角的变化,人群的尺度变化非常明显;(3)不同的场景会有不同的光照等等。
发明内容
本发明所要解决的技术问题在于,提供一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,采用多任务的深度学习框架,使用掩码估计的结果并融入图片的特征,构建了一个鲁棒的人群统计模型。
为解决上述技术问题,本发明提供一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:
(1)搜集制作人数统计数据库;
(2)生成训练和测试样本;
(3)对训练和测试集的样本进行数据预处理;
(4)构建人数统计的深度网络模型;
(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;
(6)测试深度网络模型。
优选的,步骤(1)中,数据库的搜集是来自于两个部分,一是来自视频拍摄设备,二是来自网络搜集。
优选的,步骤(2)中,生成训练和测试样本具体包括如下步骤:
(201)将步骤(1)中得到的视频帧剪辑成单帧的图片,记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签;
(202)将步骤(201)得到图片按照5:1的比例分成测试集和训练集,若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本;若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N};
(203)使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
其中表示图片的坐标,xi表示标注的人头位置。表示高斯核,其中xi是均值向量和σ2是经验性选择的方差项;如果x不在xi的领域范围内,方差项σ2的一个常见选择是使得此时,训练样本对应的标签转变成测试样本对应的标签转变为
优选的,步骤(3)中,对训练和测试集的样本进行数据预处理具体包括如下步骤:
(301)对训练集和测试集的样本和标签进行归一化处理,记第k个样本Ik的尺寸大小为将图片的尺寸调整为8的整数倍,即其中 其中表示整除8后,留整数位;
(302)将第k个样本对应的高斯密度图d(x)k的尺寸同样调整为其中记调整后的高斯密度图为为了保持人数的不变,对调整后的高斯密度图进行如下操作:
(303)将步骤(302)中第k个样本生成的高斯密度图二值化,生成图像的掩码图计算按照如下的公式:
其中表示将中每个像素与σ做比较,如果像素点的值大于σ,那么在该像素点的值记为1,否则记为0;
(304)步骤(202)中每个训练样本和测试样本及其对应的标签都经过步骤(301),步骤(302)和步骤(303)对数据进行预处理。
优选的,步骤(4)中,构建人数统计的深度网络模型具体为:基于预训练前10层VGGNet卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络;多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层;
模型以尺寸为的图像作为输入,经过前10层VGG Net的卷积网络后,输出的尺寸为的特征图,该特征图经过多尺度掩码感知回馈网络模块后分别输出尺寸为的掩码估计图,以及尺寸为的密度估计图;
卷积层1:使用64个3×3的卷积核,去卷积输入为的图像,经过ReLU激活函数后得到的特征;
卷积层2:使用64个3×3的卷积核,去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到的特征;
卷积层3:使用128个3×3的卷积核,去卷积卷积层2的输出,经过ReLU激活函数后得到的特征;
卷积层4:使用128个3×3的卷积核,去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到的特征;
卷积层5:使用256个3×3的卷积核,去卷积卷积层4的输出,经过ReLU激活函数后得到的特征;
卷积层6:使用256个3×3的卷积核,去卷积卷积层5的输出,经过ReLU激活函数后得到的特征;
卷积层7:使用256个3×3的卷积核,去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到的特征;
卷积层8:使用512个3×3的卷积核,去卷积卷积层7的输出,经过ReLU激活函数后得到的特征;
卷积层9:使用512个3×3的卷积核,去卷积卷积层8的输出,经过ReLU激活函数后得到的特征;
卷积层10:使用512个3×3的卷积核,去卷积卷积层9的输出,经过ReLU激活函数后得到的特征;
卷积层11:使用256个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层10的输出,经过ReLU激活函数后得到的特征;
卷积层12:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层11的输出,经过ReLU激活函数后得到的特征;
卷积层13:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层12的输出,经过ReLU激活函数后得到的特征;
卷积层14_1:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层13的输出,经过ReLU激活函数后得到的特征;
卷积层14_2:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_1的输出,经过ReLU激活函数后得到的特征;
卷积层14_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_2的输出,经过ReLU激活函数后得到的特征;
卷积层14_4:使用32个1×1的卷积核,去卷积卷积层14_3的输出,经过Sigmoid激活函数后得到的特征。该层输出图片的掩膜估计图;
卷积层15_1:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_4的输出,经过ReLU激活函数后得到的特征;
卷积层15_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层15_1的输出,经过ReLU激活函数后得到的特征;
卷积层16_1:将卷积层15_2和卷积层13的输出结果延通道维级联,而后得到的特征;
卷积层16_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_1的输出,经过ReLU激活函数后得到的特征;
卷积层16_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_2的输出,经过ReLU激活函数后得到的特征;
卷积层16_4:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_3的输出,经过ReLU激活函数后得到的特征;
卷积层16_5:使用32个1×1的卷积核,去卷积卷积层16_4的输出,经过ReLU激活函数后得到的特征,该层输出图片的密度估计图。
优选的,步骤(5)中,将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化,具体包括如下步骤:
(501)使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E,采用多任务的策略学习样本训练模型;
(502)网络需要学习的参数可分为三部分:一是步骤(4)中卷积层1-卷积层13的参数θbase;二是步骤(4)中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden
第k个样本Ik输入到网络中后,记步骤(4)中卷积层14-4的输出为Segk
Segk=conv(Ikbaseseg)
其中conv(·)表示卷积操作;
同时记步骤(4)中卷积层16-5的输出为Denk
Denk=conv(Ikbasesegden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
其中是均方差损失函数, 是二值交叉熵损失函数,α是超参数。
优选的,步骤(6)中,测试深度网络模型具体为:网络训练完毕后,保留网络的卷积层的参数,将测试视频帧通过步骤(2)和步骤(301)操作后,输入测试网络,将网络在步骤(5)中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
本发明的有益效果为:(1)本发明使用了一个多任务学习的策略来构建人数统计网络,网络将掩码估计分支的结果,融合到图片特征中,而后获得鲁棒的人数统计模型;(2)本发明使用了一个简单的融合策略和一个基于空洞卷积的多尺度学习策略,实现了较为准确和稳定的检测结果,这避免了应用中复杂的配置以及内存消耗。
附图说明
图1为本发明人群拥挤的场景示意图。
图2为本发明中卷积神经网络模型框架示意图。
具体实施方式
一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:
步骤1:搜集制作人数统计数据库。数据库的搜集是来自于两个部分,一是来自视频拍摄设备,如室外监控摄像头或手机等,二是来自网络搜集,如在百度、谷歌等搜索引擎中输入“人群”,“人”等关键字进行检索,收集人群图片,如图1所示。
步骤2:生成训练和测试样本。对于搜集到的图片或视频数据进行标注,并生成训练和测试样本,其具体包括:
步骤201:将步骤1中得到的视频帧剪辑成单帧的图片。记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签。
步骤202:将步骤201得到图片按照5:1的比例分成测试集和训练集。若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本。若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N}。
步骤203:使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
其中表示图片的坐标,xi表示标注的人头位置。表示高斯核,其中xi是均值向量和σ2是经验性选择的方差项。如果x不在xi的领域范围内,方差项σ2的一个常见选择是使得此时,训练样本对应的标签转变成测试样本对应的标签转变为
步骤3:对训练和测试集的样本进行数据预处理,其具体包括:
步骤301:对训练集和测试集的样本和标签进行归一化处理。记第k个样本Ik的尺寸大小为将图片的尺寸调整为8的整数倍,即其中 其中表示整除8后,留整数位。
步骤302:将第k个样本对应的高斯密度图d(x)k的尺寸同样调整为其中记调整后的高斯密度图为为了保持人数的不变,对调整后的高斯密度图进行如下操作:
步骤303:将步骤302中第k个样本生成的高斯密度图二值化,生成图像的掩码图计算按照如下的公式:
其中表示将中每个像素与σ做比较,如果像素点的值大于σ,那么在该像素点的值记为1,否则记为0。
步骤304:步骤202中每个训练样本和测试样本及其对应的标签都经过步骤301,步骤302和步骤303对数据进行预处理。
步骤4:构建人数统计的深度网络模型。本发明所设计的网络模型是基于预训练前10层VGG Net卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络。多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层,如图2所示。
模型以尺寸为的图像作为输入。经过前10层VGG Net的卷积网络后,输出的尺寸为的特征图。该特征图经过多尺度掩码感知回馈网络模块后分别输出尺寸为的掩码估计图,以及尺寸为的密度估计图。
卷积层1:使用64个3×3的卷积核,去卷积输入为的图像,经过ReLU激活函数后得到的特征。
卷积层2:使用64个3×3的卷积核,去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到的特征。
卷积层3:使用128个3×3的卷积核,去卷积卷积层2的输出,经过ReLU激活函数后得到的特征。
卷积层4:使用128个3×3的卷积核,去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到的特征。
卷积层5:使用256个3×3的卷积核,去卷积卷积层4的输出,经过ReLU激活函数后得到的特征。
卷积层6:使用256个3×3的卷积核,去卷积卷积层5的输出,经过ReLU激活函数后得到的特征。
卷积层7:使用256个3×3的卷积核,去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到的特征。
卷积层8:使用512个3×3的卷积核,去卷积卷积层7的输出,经过ReLU激活函数后得到的特征。
卷积层9:使用512个3×3的卷积核,去卷积卷积层8的输出,经过ReLU激活函数后得到的特征。
卷积层10:使用512个3×3的卷积核,去卷积卷积层9的输出,经过ReLU激活函数后得到的特征。
卷积层11:使用256个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层10的输出,经过ReLU激活函数后得到的特征。
卷积层12:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层11的输出,经过ReLU激活函数后得到的特征。
卷积层13:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层12的输出,经过ReLU激活函数后得到的特征。
卷积层14_1:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层13的输出,经过ReLU激活函数后得到的特征。
卷积层14_2:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_1的输出,经过ReLU激活函数后得到的特征。
卷积层14_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_2的输出,经过ReLU激活函数后得到的特征。
卷积层14_4:使用32个1×1的卷积核,去卷积卷积层14_3的输出,经过Sigmoid激活函数后得到的特征。该层输出图片的掩膜估计图。
卷积层15_1:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_4的输出,经过ReLU激活函数后得到的特征。
卷积层15_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层15_1的输出,经过ReLU激活函数后得到的特征。
卷积层16_1:将卷积层15_2和卷积层13的输出结果延通道维级联,而后得到的特征。
卷积层16_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_1的输出,经过ReLU激活函数后得到的特征。
卷积层16_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_2的输出,经过ReLU激活函数后得到的特征。
卷积层16_4:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_3的输出,经过ReLU激活函数后得到的特征。
卷积层16_5:使用32个1×1的卷积核,去卷积卷积层16_4的输出,经过ReLU激活函数后得到的特征。该层输出图片的密度估计图。
步骤5:将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化,具体包含:
步骤501:使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E。采用多任务的策略学习样本训练模型。
步骤502:本发明所设计的网络需要学习的参数可分为三部分:一是步骤4中卷积层1-卷积层13的参数θbase;二是步骤4中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden
第k个样本Ik输入到网络中后,记步骤4中卷积层14-4的输出为Segk
Segk=conv(Ikbaseseg)
其中conv(·)表示卷积操作。
同时记步骤4中卷积层16-5的输出为Denk
Denk=conv(Ikbasesegden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
其中是均方差损失函数, 是二值交叉熵损失函数。α是超参数。
步骤6:测试深度网络模型。网络训练完毕后,保留网络的卷积层的参数。将测试视频帧通过步骤2和步骤301操作后,输入测试网络,将网络在步骤5中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
本发明预测准确率高,在公共安全、城市管理等领域有着重要的应用价值,适用于商场、地铁、广场等公共场所的人数统计。

Claims (7)

1.一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,包括如下步骤:
(1)搜集制作人数统计数据库;
(2)生成训练和测试样本;
(3)对训练和测试集的样本进行数据预处理;
(4)构建人数统计的深度网络模型;
(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;
(6)测试深度网络模型。
2.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(1)中,数据库的搜集是来自于两个部分,一是来自视频拍摄设备,二是来自网络搜集。
3.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(2)中,生成训练和测试样本具体包括如下步骤:
(201)将步骤(1)中得到的视频帧剪辑成单帧的图片,记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签;
(202)将步骤(201)得到图片按照5:1的比例分成测试集和训练集,若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本;若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N};
(203)使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
其中表示图片的坐标,xi表示标注的人头位置,表示高斯核,其中xi是均值向量和σ2是经验性选择的方差项;如果x不在xi的领域范围内,方差项σ2的一个常见选择是使得此时,训练样本对应的标签转变成测试样本对应的标签转变为
4.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(3)中,对训练和测试集的样本进行数据预处理具体包括如下步骤:
(301)对训练集和测试集的样本和标签进行归一化处理,记第k个样本Ik的尺寸大小为将图片的尺寸调整为8的整数倍,即其中 其中l%8表示l整除8后,留整数位;
(302)将第k个样本对应的高斯密度图d(x)k的尺寸同样调整为其中记调整后的高斯密度图为为了保持人数的不变,对调整后的高斯密度图进行如下操作:
(303)将步骤(302)中第k个样本生成的高斯密度图二值化,生成图像的掩码图计算按照如下的公式:
其中表示将中每个像素与σ做比较,如果像素点的值大于σ,那么在该像素点的值记为1,否则记为0;
(304)步骤(202)中每个训练样本和测试样本及其对应的标签都经过步骤(301),步骤(302)和步骤(303)对数据进行预处理。
5.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(4)中,构建人数统计的深度网络模型具体为:基于预训练前10层VGG Net卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络;多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层;
模型以尺寸为的图像作为输入,经过前10层VGG Net的卷积网络后,输出的尺寸为的特征图,该特征图经过多尺度掩码感知回馈网络模块后分别输出尺寸为的掩码估计图,以及尺寸为的密度估计图;
卷积层1:使用64个3×3的卷积核,去卷积输入为的图像,经过ReLU激活函数后得到的特征;
卷积层2:使用64个3×3的卷积核,去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到的特征;
卷积层3:使用128个3×3的卷积核,去卷积卷积层2的输出,经过ReLU激活函数后得到的特征;
卷积层4:使用128个3×3的卷积核,去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到的特征;
卷积层5:使用256个3×3的卷积核,去卷积卷积层4的输出,经过ReLU激活函数后得到的特征;
卷积层6:使用256个3×3的卷积核,去卷积卷积层5的输出,经过ReLU激活函数后得到的特征;
卷积层7:使用256个3×3的卷积核,去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到的特征;
卷积层8:使用512个3×3的卷积核,去卷积卷积层7的输出,经过ReLU激活函数后得到的特征;
卷积层9:使用512个3×3的卷积核,去卷积卷积层8的输出,经过ReLU激活函数后得到的特征;
卷积层10:使用512个3×3的卷积核,去卷积卷积层9的输出,经过ReLU激活函数后得到的特征;
卷积层11:使用256个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层10的输出,经过ReLU激活函数后得到的特征;
卷积层12:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层11的输出,经过ReLU激活函数后得到的特征;
卷积层13:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层12的输出,经过ReLU激活函数后得到的特征;
卷积层14_1:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层13的输出,经过ReLU激活函数后得到的特征;
卷积层14_2:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_1的输出,经过ReLU激活函数后得到的特征;
卷积层14_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_2的输出,经过ReLU激活函数后得到的特征;
卷积层14_4:使用32个1×1的卷积核,去卷积卷积层14_3的输出,经过Sigmoid激活函数后得到的特征,该层输出图片的掩膜估计图;
卷积层15_1:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_4的输出,经过ReLU激活函数后得到的特征;
卷积层15_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层15_1的输出,经过ReLU激活函数后得到的特征;
卷积层16_1:将卷积层15_2和卷积层13的输出结果延通道维级联,而后得到的特征;
卷积层16_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_1的输出,经过ReLU激活函数后得到的特征;
卷积层16_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_2的输出,经过ReLU激活函数后得到的特征;
卷积层16_4:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_3的输出,经过ReLU激活函数后得到的特征;
卷积层16_5:使用32个1×1的卷积核,去卷积卷积层16_4的输出,经过ReLU激活函数后得到的特征,该层输出图片的密度估计图。
6.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(5)中,将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化,具体包括如下步骤:
(501)使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E,采用多任务的策略学习样本训练模型;
(502)网络需要学习的参数可分为三部分:一是步骤(4)中卷积层1-卷积层13的参数θbase;二是步骤(4)中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden
第k个样本Ik输入到网络中后,记步骤(4)中卷积层14-4的输出为Segk
Segk=conv(Ikbaseseg)
其中conv(·)表示卷积操作;
同时记步骤(4)中卷积层16-5的输出为Denk
Denk=conv(Ikbasesegden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
其中是均方差损失函数, 是二值交叉熵损失函数,α是超参数。
7.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(6)中,测试深度网络模型具体为:网络训练完毕后,保留网络的卷积层的参数,将测试视频帧通过步骤(2)和步骤(301)操作后,输入测试网络,将网络在步骤(5)中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
CN201910728917.6A 2019-08-08 2019-08-08 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 Active CN110503014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910728917.6A CN110503014B (zh) 2019-08-08 2019-08-08 基于多尺度掩码感知回馈卷积神经网络的人数统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910728917.6A CN110503014B (zh) 2019-08-08 2019-08-08 基于多尺度掩码感知回馈卷积神经网络的人数统计方法

Publications (2)

Publication Number Publication Date
CN110503014A true CN110503014A (zh) 2019-11-26
CN110503014B CN110503014B (zh) 2023-04-07

Family

ID=68587078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910728917.6A Active CN110503014B (zh) 2019-08-08 2019-08-08 基于多尺度掩码感知回馈卷积神经网络的人数统计方法

Country Status (1)

Country Link
CN (1) CN110503014B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274900A (zh) * 2020-01-15 2020-06-12 北京航空航天大学 一种基于底层特征提取的空基人群计数方法
CN111640092A (zh) * 2020-05-20 2020-09-08 南京林业大学 基于多任务协同特征重建目标计数网络的方法
CN111639668A (zh) * 2020-04-17 2020-09-08 北京品恩科技股份有限公司 一种基于深度学习的人群密度检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191472A (zh) * 2018-08-28 2019-01-11 杭州电子科技大学 基于改进U-Net网络的胸腺细胞图像分割方法
CN109271960A (zh) * 2018-10-08 2019-01-25 燕山大学 一种基于卷积神经网络的人数统计方法
CN109754402A (zh) * 2018-03-15 2019-05-14 京东方科技集团股份有限公司 图像处理方法、图像处理装置以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754402A (zh) * 2018-03-15 2019-05-14 京东方科技集团股份有限公司 图像处理方法、图像处理装置以及存储介质
CN109191472A (zh) * 2018-08-28 2019-01-11 杭州电子科技大学 基于改进U-Net网络的胸腺细胞图像分割方法
CN109271960A (zh) * 2018-10-08 2019-01-25 燕山大学 一种基于卷积神经网络的人数统计方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274900A (zh) * 2020-01-15 2020-06-12 北京航空航天大学 一种基于底层特征提取的空基人群计数方法
CN111274900B (zh) * 2020-01-15 2021-01-01 北京航空航天大学 一种基于底层特征提取的空基人群计数方法
CN111639668A (zh) * 2020-04-17 2020-09-08 北京品恩科技股份有限公司 一种基于深度学习的人群密度检测方法
CN111640092A (zh) * 2020-05-20 2020-09-08 南京林业大学 基于多任务协同特征重建目标计数网络的方法
CN111640092B (zh) * 2020-05-20 2024-01-16 南京林业大学 基于多任务协同特征重建目标计数网络的方法

Also Published As

Publication number Publication date
CN110503014B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN107169415B (zh) 基于卷积神经网络特征编码的人体动作识别方法
CN107358257B (zh) 一种大数据场景下可增量学习的图像分类训练方法
CN106447658B (zh) 基于全局和局部卷积网络的显著性目标检测方法
CN104063719B (zh) 基于深度卷积网络的行人检测方法及装置
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN110135295A (zh) 一种基于迁移学习的无监督行人重识别方法
CN107742107A (zh) 人脸图像分类方法、装置及服务器
CN109858390A (zh) 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN110503014A (zh) 基于多尺度掩码感知回馈卷积神经网络的人数统计方法
CN109815867A (zh) 一种人群密度估计和人流量统计方法
CN107480206A (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
Li et al. Sign language recognition based on computer vision
CN109002752A (zh) 一种基于深度学习的复杂公共场景快速行人检测方法
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
CN110490136A (zh) 一种基于知识蒸馏的人体行为预测方法
CN114241422A (zh) 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
CN109902912A (zh) 一种基于性格特征的个性化图像美学评价方法
CN107301376A (zh) 一种基于深度学习多层刺激的行人检测方法
CN109978074A (zh) 基于深度多任务学习的图像美感和情感联合分类方法及系统
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN109492601A (zh) 人脸比对方法及装置、计算机可读介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant