CN110503014B - 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 - Google Patents

基于多尺度掩码感知回馈卷积神经网络的人数统计方法 Download PDF

Info

Publication number
CN110503014B
CN110503014B CN201910728917.6A CN201910728917A CN110503014B CN 110503014 B CN110503014 B CN 110503014B CN 201910728917 A CN201910728917 A CN 201910728917A CN 110503014 B CN110503014 B CN 110503014B
Authority
CN
China
Prior art keywords
convolution
layer
output
convolutional layer
activation function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910728917.6A
Other languages
English (en)
Other versions
CN110503014A (zh
Inventor
路小波
姜胜芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910728917.6A priority Critical patent/CN110503014B/zh
Publication of CN110503014A publication Critical patent/CN110503014A/zh
Application granted granted Critical
Publication of CN110503014B publication Critical patent/CN110503014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:(1)搜集制作人数统计数据库;(2)生成训练和测试样本;(3)对训练和测试集的样本进行数据预处理;(4)构建人数统计的深度网络模型;(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;(6)测试深度网络模型。本发明使用了一个多任务学习的策略来构建人数统计网络,网络将掩膜估计分支的结果,融合到图片特征中,而后获得鲁棒的人数统计模型;使用了一个简单的融合策略和一个基于空洞卷积的多尺度学习策略,实现了较为准确和稳定的检测结果,这避免了应用中复杂的配置以及内存消耗。

Description

基于多尺度掩码感知回馈卷积神经网络的人数统计方法
技术领域
本发明涉及图像处理和模式识别技术领域,尤其是一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法。
背景技术
随着城镇化的推进和人们娱乐及工作的需要,多人以及群体聚集的场景在众多的场所已屡见不鲜,这也带来了日益严峻的安全管理问题。近些年来,人们时常会听到全世界各地对群体性事件以及踩踏事件的报道。因此,如何对公共场所的人数进行统计是一个至关重要的任务。该任务可以帮助管理人群提供人群的密度分布数据,便于综合地引导人群的流动,使得公共场所中安全问题变得可控、可防。因此,该任务对公共安全具有重要的应用价值。
随着监控设备的增加,人工对每个视频流进行计数显然代价比较昂贵,且由于人的精力有限不能保证全天候的检测。传统的方法面对复杂的场景的时候精度并不能满足生活生产的要求。随着计算机视觉技术的发展,人群统计深度网络模型已成为人数检测的主流方法。但这些方法依然检测的准确率不高。通过对场景中的图片分析,要实现鲁棒的检测不得不解决以下几个难点问题:(1)在密度比较高的场景中,人头之间存在严重的遮挡问题;(2)由于监控设备视角的变化,人群的尺度变化非常明显;(3)不同的场景会有不同的光照等等。
发明内容
本发明所要解决的技术问题在于,提供一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,采用多任务的深度学习框架,使用掩码估计的结果并融入图片的特征,构建了一个鲁棒的人群统计模型。
为解决上述技术问题,本发明提供一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:
(1)搜集制作人数统计数据库;
(2)生成训练和测试样本;
(3)对训练和测试集的样本进行数据预处理;
(4)构建人数统计的深度网络模型;
(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;
(6)测试深度网络模型。
优选的,步骤(1)中,数据库的搜集是来自于两个部分,一是来自视频拍摄设备,二是来自网络搜集。
优选的,步骤(2)中,生成训练和测试样本具体包括如下步骤:
(201)将步骤(1)中得到的视频帧剪辑成单帧的图片,记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签;
(202)将步骤(201)得到图片按照5:1的比例分成测试集和训练集,若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本;若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N};
(203)使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
Figure BDA0002159864450000021
其中
Figure BDA0002159864450000022
表示图片的坐标,xi表示标注的人头位置。
Figure BDA0002159864450000023
表示高斯核,其中xi是均值向量和σ2是经验性选择的方差项;如果x不在xi的领域范围内,方差项σ2的一个常见选择是使得
Figure BDA0002159864450000024
此时,训练样本对应的标签转变成
Figure BDA0002159864450000025
测试样本对应的标签转变为
Figure BDA0002159864450000026
优选的,步骤(3)中,对训练和测试集的样本进行数据预处理具体包括如下步骤:
(301)对训练集和测试集的样本和标签进行归一化处理,记第k个样本Ik的尺寸大小为
Figure BDA0002159864450000031
将图片的尺寸调整为8的整数倍,即
Figure BDA0002159864450000032
其中
Figure BDA0002159864450000033
Figure BDA0002159864450000034
其中
Figure BDA00021598644500000321
表示
Figure BDA00021598644500000322
整除8后,留整数位;
(302)将第k个样本对应的高斯密度图d(x)k的尺寸同样调整为
Figure BDA0002159864450000035
其中
Figure BDA0002159864450000036
记调整后的高斯密度图为
Figure BDA0002159864450000037
为了保持人数的不变,对调整后的高斯密度图进行如下操作:
Figure BDA0002159864450000038
(303)将步骤(302)中第k个样本生成的高斯密度图
Figure BDA0002159864450000039
二值化,生成图像的掩码图
Figure BDA00021598644500000310
计算按照如下的公式:
Figure BDA00021598644500000311
其中
Figure BDA00021598644500000312
表示将
Figure BDA00021598644500000313
中每个像素与σ做比较,如果像素点的值大于σ,那么
Figure BDA00021598644500000314
在该像素点的值记为1,否则记为0;
(304)步骤(202)中每个训练样本和测试样本及其对应的标签都经过步骤(301),步骤(302)和步骤(303)对数据进行预处理。
优选的,步骤(4)中,构建人数统计的深度网络模型具体为:基于预训练前10层VGGNet卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络;多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层;
模型以尺寸为
Figure BDA00021598644500000315
的图像作为输入,经过前10层VGG Net的卷积网络后,输出的尺寸为
Figure BDA00021598644500000316
的特征图,该特征图经过多尺度掩码感知回馈网络模块后分别输出尺寸为
Figure BDA00021598644500000317
的掩码估计图,以及尺寸为
Figure BDA00021598644500000318
的密度估计图;
卷积层1:使用64个3×3的卷积核,去卷积输入为
Figure BDA00021598644500000319
的图像,经过ReLU激活函数后得到
Figure BDA00021598644500000320
的特征;
卷积层2:使用64个3×3的卷积核,去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure BDA0002159864450000041
的特征;
卷积层3:使用128个3×3的卷积核,去卷积卷积层2的输出,经过ReLU激活函数后得到
Figure BDA00021598644500000412
的特征;
卷积层4:使用128个3×3的卷积核,去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure BDA0002159864450000042
的特征;
卷积层5:使用256个3×3的卷积核,去卷积卷积层4的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000043
的特征;
卷积层6:使用256个3×3的卷积核,去卷积卷积层5的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000044
的特征;
卷积层7:使用256个3×3的卷积核,去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到
Figure BDA0002159864450000045
的特征;
卷积层8:使用512个3×3的卷积核,去卷积卷积层7的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000046
的特征;
卷积层9:使用512个3×3的卷积核,去卷积卷积层8的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000047
的特征;
卷积层10:使用512个3×3的卷积核,去卷积卷积层9的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000048
的特征;
卷积层11:使用256个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层10的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000049
的特征;
卷积层12:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层11的输出,经过ReLU激活函数后得到
Figure BDA00021598644500000410
的特征;
卷积层13:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层12的输出,经过ReLU激活函数后得到
Figure BDA00021598644500000411
的特征;
卷积层14_1:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000051
的特征;
卷积层14_2:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_1的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000052
的特征;
卷积层14_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_2的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000053
的特征;
卷积层14_4:使用32个1×1的卷积核,去卷积卷积层14_3的输出,经过Sigmoid激活函数后得到
Figure BDA0002159864450000054
的特征。该层输出图片的掩膜估计图;
卷积层15_1:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_4的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000055
的特征;
卷积层15_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层15_1的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000056
的特征;
卷积层16_1:将卷积层15_2和卷积层13的输出结果延通道维级联,而后得到
Figure BDA0002159864450000057
的特征;
卷积层16_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_1的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000058
的特征;
卷积层16_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_2的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000059
的特征;
卷积层16_4:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_3的输出,经过ReLU激活函数后得到
Figure BDA00021598644500000510
的特征;
卷积层16_5:使用32个1×1的卷积核,去卷积卷积层16_4的输出,经过ReLU激活函数后得到
Figure BDA00021598644500000511
的特征,该层输出图片的密度估计图。
优选的,步骤(5)中,将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化,具体包括如下步骤:
(501)使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E,采用多任务的策略学习样本训练模型;
(502)网络需要学习的参数可分为三部分:一是步骤(4)中卷积层1-卷积层13的参数θbase;二是步骤(4)中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden
第k个样本Ik输入到网络中后,记步骤(4)中卷积层14-4的输出为Segk
Segk=conv(Ikbaseseg)
其中conv(·)表示卷积操作;
同时记步骤(4)中卷积层16-5的输出为Denk
Denk=conv(Ikbasesegden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
Figure BDA0002159864450000061
其中
Figure BDA0002159864450000062
是均方差损失函数,
Figure BDA0002159864450000063
Figure BDA0002159864450000064
是二值交叉熵损失函数,α是超参数。
优选的,步骤(6)中,测试深度网络模型具体为:网络训练完毕后,保留网络的卷积层的参数,将测试视频帧通过步骤(2)和步骤(301)操作后,输入测试网络,将网络在步骤(5)中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
本发明的有益效果为:(1)本发明使用了一个多任务学习的策略来构建人数统计网络,网络将掩码估计分支的结果,融合到图片特征中,而后获得鲁棒的人数统计模型;(2)本发明使用了一个简单的融合策略和一个基于空洞卷积的多尺度学习策略,实现了较为准确和稳定的检测结果,这避免了应用中复杂的配置以及内存消耗。
附图说明
图1为本发明人群拥挤的场景示意图。
图2为本发明中卷积神经网络模型框架示意图。
具体实施方式
一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:
步骤1:搜集制作人数统计数据库。数据库的搜集是来自于两个部分,一是来自视频拍摄设备,如室外监控摄像头或手机等,二是来自网络搜集,如在百度、谷歌等搜索引擎中输入“人群”,“人”等关键字进行检索,收集人群图片,如图1所示。
步骤2:生成训练和测试样本。对于搜集到的图片或视频数据进行标注,并生成训练和测试样本,其具体包括:
步骤201:将步骤1中得到的视频帧剪辑成单帧的图片。记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签。
步骤202:将步骤201得到图片按照5:1的比例分成测试集和训练集。若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本。若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N}。
步骤203:使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
Figure BDA0002159864450000071
其中
Figure BDA0002159864450000072
表示图片的坐标,xi表示标注的人头位置。
Figure BDA0002159864450000073
表示高斯核,其中xi是均值向量和σ2是经验性选择的方差项。如果x不在xi的领域范围内,方差项σ2的一个常见选择是使得
Figure BDA0002159864450000074
此时,训练样本对应的标签转变成
Figure BDA0002159864450000075
测试样本对应的标签转变为
Figure BDA0002159864450000076
步骤3:对训练和测试集的样本进行数据预处理,其具体包括:
步骤301:对训练集和测试集的样本和标签进行归一化处理。记第k个样本Ik的尺寸大小为
Figure BDA0002159864450000081
将图片的尺寸调整为8的整数倍,即
Figure BDA0002159864450000082
其中
Figure BDA0002159864450000083
Figure BDA0002159864450000084
其中
Figure BDA00021598644500000821
表示
Figure BDA00021598644500000822
整除8后,留整数位。
步骤302:将第k个样本对应的高斯密度图d(x)k的尺寸同样调整为
Figure BDA0002159864450000085
其中
Figure BDA0002159864450000086
记调整后的高斯密度图为
Figure BDA0002159864450000087
为了保持人数的不变,对调整后的高斯密度图进行如下操作:
Figure BDA0002159864450000088
步骤303:将步骤302中第k个样本生成的高斯密度图
Figure BDA0002159864450000089
二值化,生成图像的掩码图
Figure BDA00021598644500000810
计算按照如下的公式:
Figure BDA00021598644500000811
其中
Figure BDA00021598644500000812
表示将
Figure BDA00021598644500000813
中每个像素与σ做比较,如果像素点的值大于σ,那么
Figure BDA00021598644500000814
在该像素点的值记为1,否则记为0。
步骤304:步骤202中每个训练样本和测试样本及其对应的标签都经过步骤301,步骤302和步骤303对数据进行预处理。
步骤4:构建人数统计的深度网络模型。本发明所设计的网络模型是基于预训练前10层VGG Net卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络。多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层,如图2所示。
模型以尺寸为
Figure BDA00021598644500000815
的图像作为输入。经过前10层VGG Net的卷积网络后,输出的尺寸为
Figure BDA00021598644500000816
的特征图。该特征图经过多尺度掩码感知回馈网络模块后分别输出尺寸为
Figure BDA00021598644500000817
的掩码估计图,以及尺寸为
Figure BDA00021598644500000818
的密度估计图。
卷积层1:使用64个3×3的卷积核,去卷积输入为
Figure BDA00021598644500000819
的图像,经过ReLU激活函数后得到
Figure BDA00021598644500000820
的特征。
卷积层2:使用64个3×3的卷积核,去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure BDA0002159864450000091
的特征。
卷积层3:使用128个3×3的卷积核,去卷积卷积层2的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000092
的特征。
卷积层4:使用128个3×3的卷积核,去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure BDA0002159864450000093
的特征。
卷积层5:使用256个3×3的卷积核,去卷积卷积层4的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000094
的特征。
卷积层6:使用256个3×3的卷积核,去卷积卷积层5的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000095
的特征。
卷积层7:使用256个3×3的卷积核,去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到
Figure BDA0002159864450000096
的特征。
卷积层8:使用512个3×3的卷积核,去卷积卷积层7的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000097
的特征。
卷积层9:使用512个3×3的卷积核,去卷积卷积层8的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000098
的特征。
卷积层10:使用512个3×3的卷积核,去卷积卷积层9的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000099
的特征。
卷积层11:使用256个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层10的输出,经过ReLU激活函数后得到
Figure BDA00021598644500000910
的特征。
卷积层12:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层11的输出,经过ReLU激活函数后得到
Figure BDA00021598644500000911
的特征。
卷积层13:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层12的输出,经过ReLU激活函数后得到
Figure BDA00021598644500000912
的特征。
卷积层14_1:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000101
的特征。
卷积层14_2:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_1的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000102
的特征。
卷积层14_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_2的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000103
的特征。
卷积层14_4:使用32个1×1的卷积核,去卷积卷积层14_3的输出,经过Sigmoid激活函数后得到
Figure BDA0002159864450000104
的特征。该层输出图片的掩膜估计图。
卷积层15_1:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_4的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000105
的特征。
卷积层15_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层15_1的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000106
的特征。
卷积层16_1:将卷积层15_2和卷积层13的输出结果延通道维级联,而后得到
Figure BDA0002159864450000107
的特征。
卷积层16_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_1的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000108
的特征。
卷积层16_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_2的输出,经过ReLU激活函数后得到
Figure BDA0002159864450000109
的特征。
卷积层16_4:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_3的输出,经过ReLU激活函数后得到
Figure BDA00021598644500001010
的特征。
卷积层16_5:使用32个1×1的卷积核,去卷积卷积层16_4的输出,经过ReLU激活函数后得到
Figure BDA00021598644500001011
的特征。该层输出图片的密度估计图。
步骤5:将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化,具体包含:
步骤501:使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E。采用多任务的策略学习样本训练模型。
步骤502:本发明所设计的网络需要学习的参数可分为三部分:一是步骤4中卷积层1-卷积层13的参数θbase;二是步骤4中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden
第k个样本Ik输入到网络中后,记步骤4中卷积层14-4的输出为Segk
Segk=conv(Ikbaseseg)
其中conv(·)表示卷积操作。
同时记步骤4中卷积层16-5的输出为Denk
Denk=conv(Ikbasesegden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
Figure BDA0002159864450000111
其中
Figure BDA0002159864450000112
是均方差损失函数,
Figure BDA0002159864450000113
Figure BDA0002159864450000114
是二值交叉熵损失函数。α是超参数。
步骤6:测试深度网络模型。网络训练完毕后,保留网络的卷积层的参数。将测试视频帧通过步骤2和步骤301操作后,输入测试网络,将网络在步骤5中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
本发明预测准确率高,在公共安全、城市管理等领域有着重要的应用价值,适用于商场、地铁、广场等公共场所的人数统计。

Claims (5)

1.一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,包括如下步骤:
(1)搜集制作人数统计数据库;
(2)生成训练和测试样本;
(3)对训练和测试集的样本进行数据预处理;
(4)构建人数统计的深度网络模型;具体为:基于预训练前10层VGG Net卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络;多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层;
模型以尺寸为
Figure FDA0003912027620000011
的图像作为输入,经过前10层VGG Net的卷积网络后,输出的尺寸为
Figure FDA0003912027620000012
的特征图,该特征图经过多尺度掩码感知回馈网络模块后分别输出尺寸为
Figure FDA0003912027620000013
的掩码估计图,以及尺寸为
Figure FDA0003912027620000014
的密度估计图;
卷积层1:使用64个3×3的卷积核,去卷积输入为
Figure FDA0003912027620000015
的图像,经过ReLU激活函数后得到
Figure FDA0003912027620000016
的特征;
卷积层2:使用64个3×3的卷积核,去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure FDA0003912027620000017
的特征;
卷积层3:使用128个3×3的卷积核,去卷积卷积层2的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000018
的特征;
卷积层4:使用128个3×3的卷积核,去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure FDA0003912027620000019
的特征;
卷积层5:使用256个3×3的卷积核,去卷积卷积层4的输出,经过ReLU激活函数后得到
Figure FDA00039120276200000110
的特征;
卷积层6:使用256个3×3的卷积核,去卷积卷积层5的输出,经过ReLU激活函数后得到
Figure FDA00039120276200000111
的特征;
卷积层7:使用256个3×3的卷积核,去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到
Figure FDA0003912027620000021
的特征;
卷积层8:使用512个3×3的卷积核,去卷积卷积层7的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000022
的特征;
卷积层9:使用512个3×3的卷积核,去卷积卷积层8的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000023
的特征;
卷积层10:使用512个3×3的卷积核,去卷积卷积层9的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000024
的特征;
卷积层11:使用256个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层10的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000025
的特征;
卷积层12:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层11的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000026
的特征;
卷积层13:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层12的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000027
的特征;
卷积层14_1:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000028
的特征;
卷积层14_2:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_1的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000029
的特征;
卷积层14_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_2的输出,经过ReLU激活函数后得到
Figure FDA00039120276200000210
的特征;
卷积层14_4:使用32个1×1的卷积核,去卷积卷积层14_3的输出,经过Sigmoid激活函数后得到
Figure FDA00039120276200000211
的特征,该层输出图片的掩膜估计图;
卷积层15_1:使用128个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层14_4的输出,经过ReLU激活函数后得到
Figure FDA00039120276200000212
的特征;
卷积层15_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层15_1的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000031
的特征;
卷积层16_1:将卷积层15_2和卷积层13的输出结果延通道维级联,而后得到
Figure FDA0003912027620000032
的特征;
卷积层16_2:使用64个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_1的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000033
的特征;
卷积层16_3:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_2的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000034
的特征;
卷积层16_4:使用32个3×3的空洞卷积核(卷积空洞率为2),去卷积卷积层16_3的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000035
的特征;
卷积层16_5:使用32个1×1的卷积核,去卷积卷积层16_4的输出,经过ReLU激活函数后得到
Figure FDA0003912027620000036
的特征,该层输出图片的密度估计图;
(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;具体包括如下步骤:
(501)使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E,采用多任务的策略学习样本训练模型;
(502)网络需要学习的参数可分为三部分:一是步骤(4)中卷积层1-卷积层13的参数θbase;二是步骤(4)中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden
第k个样本Ik输入到网络中后,记步骤(4)中卷积层14-4的输出为Segk
Segk=conv(Ikbaseseg)
其中conv(·)表示卷积操作;
同时记步骤(4)中卷积层16-5的输出为Denk
Denk=conv(Ikbasesegden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
Figure FDA0003912027620000041
其中
Figure FDA0003912027620000042
是均方差损失函数,
Figure FDA0003912027620000043
Figure FDA0003912027620000044
是二值交叉熵损失函数,α是超参数;
(6)测试深度网络模型。
2.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(1)中,数据库的搜集是来自于两个部分,一是来自视频拍摄设备,二是来自网络搜集。
3.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(2)中,生成训练和测试样本具体包括如下步骤:
(201)将步骤(1)中得到的视频帧剪辑成单帧的图片,记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签;
(202)将步骤(201)得到图片按照5:1的比例分成测试集和训练集,若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本;若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N};
(203)使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
Figure FDA0003912027620000045
其中
Figure FDA0003912027620000046
表示图片的坐标,xi表示标注的人头位置,
Figure FDA0003912027620000047
表示高斯核,其中xi是均值向量和σ2是经验性选择的方差项;如果x不在xi的领域范围内,方差项σ2的一个常见选择是使得
Figure FDA0003912027620000048
此时,训练样本对应的标签转变成
Figure FDA0003912027620000051
测试样本对应的标签转变为
Figure FDA0003912027620000052
4.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(3)中,对训练和测试集的样本进行数据预处理具体包括如下步骤:
(301)对训练集和测试集的样本和标签进行归一化处理,记第k个样本Ik的尺寸大小为
Figure FDA0003912027620000053
将图片的尺寸调整为8的整数倍,即
Figure FDA0003912027620000054
其中
Figure FDA0003912027620000055
Figure FDA0003912027620000056
其中
Figure FDA0003912027620000057
表示
Figure FDA0003912027620000058
整除8后,留整数位;
(302)将第k个样本对应的高斯密度图d(x)k的尺寸同样调整为
Figure FDA0003912027620000059
其中
Figure FDA00039120276200000510
记调整后的高斯密度图为
Figure FDA00039120276200000511
为了保持人数的不变,对调整后的高斯密度图进行如下操作:
Figure FDA00039120276200000512
(303)将步骤(302)中第k个样本生成的高斯密度图
Figure FDA00039120276200000513
二值化,生成图像的掩码图
Figure FDA00039120276200000514
计算按照如下的公式:
Figure FDA00039120276200000515
其中
Figure FDA00039120276200000516
表示将
Figure FDA00039120276200000517
中每个像素与σ做比较,如果像素点的值大于σ,那么
Figure FDA00039120276200000518
在该像素点的值记为1,否则记为0;
(304)步骤(202)中每个训练样本和测试样本及其对应的标签都经过步骤(301),步骤(302)和步骤(303)对数据进行预处理。
5.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(6)中,测试深度网络模型具体为:网络训练完毕后,保留网络的卷积层的参数,将测试视频帧通过步骤(2)和步骤(301)操作后,输入测试网络,将网络在步骤(5)中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
CN201910728917.6A 2019-08-08 2019-08-08 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 Active CN110503014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910728917.6A CN110503014B (zh) 2019-08-08 2019-08-08 基于多尺度掩码感知回馈卷积神经网络的人数统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910728917.6A CN110503014B (zh) 2019-08-08 2019-08-08 基于多尺度掩码感知回馈卷积神经网络的人数统计方法

Publications (2)

Publication Number Publication Date
CN110503014A CN110503014A (zh) 2019-11-26
CN110503014B true CN110503014B (zh) 2023-04-07

Family

ID=68587078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910728917.6A Active CN110503014B (zh) 2019-08-08 2019-08-08 基于多尺度掩码感知回馈卷积神经网络的人数统计方法

Country Status (1)

Country Link
CN (1) CN110503014B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274900B (zh) * 2020-01-15 2021-01-01 北京航空航天大学 一种基于底层特征提取的空基人群计数方法
CN111639668A (zh) * 2020-04-17 2020-09-08 北京品恩科技股份有限公司 一种基于深度学习的人群密度检测方法
CN111640092B (zh) * 2020-05-20 2024-01-16 南京林业大学 基于多任务协同特征重建目标计数网络的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191472A (zh) * 2018-08-28 2019-01-11 杭州电子科技大学 基于改进U-Net网络的胸腺细胞图像分割方法
CN109754402A (zh) * 2018-03-15 2019-05-14 京东方科技集团股份有限公司 图像处理方法、图像处理装置以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271960B (zh) * 2018-10-08 2020-09-04 燕山大学 一种基于卷积神经网络的人数统计方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754402A (zh) * 2018-03-15 2019-05-14 京东方科技集团股份有限公司 图像处理方法、图像处理装置以及存储介质
CN109191472A (zh) * 2018-08-28 2019-01-11 杭州电子科技大学 基于改进U-Net网络的胸腺细胞图像分割方法

Also Published As

Publication number Publication date
CN110503014A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
Wu et al. Using channel pruning-based YOLO v4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments
Jia et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot
CN108764085B (zh) 基于生成对抗网络的人群计数方法
CN110503014B (zh) 基于多尺度掩码感知回馈卷积神经网络的人数统计方法
CN108229338A (zh) 一种基于深度卷积特征的视频行为识别方法
CN109359538A (zh) 卷积神经网络的训练方法、手势识别方法、装置及设备
CN108596046A (zh) 一种基于深度学习的细胞检测计数方法及系统
CN103530638B (zh) 多摄像头下的行人匹配方法
CN110569747A (zh) 一种利用图像金字塔与Faster-RCNN快速统计大田水稻稻穗数的方法
CN109993269A (zh) 基于注意力机制的单张图像人群计数方法
Lv et al. A visual identification method for the apple growth forms in the orchard
CN112862849B (zh) 一种基于图像分割和全卷积神经网络的田间稻穗计数方法
Li et al. Sign language recognition based on computer vision
CN112818849B (zh) 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法
CN110533100A (zh) 一种基于机器学习进行cme检测和跟踪的方法
CN111339902A (zh) 一种数显仪表的液晶屏示数识别方法及装置
Wang et al. SAS: painting detection and recognition via smart art system with mobile devices
CN110688966B (zh) 语义指导的行人重识别方法
Wang et al. Air quality classification and measurement based on double output vision transformer
Qian et al. Classification of rice seed variety using point cloud data combined with deep learning
CN113077438B (zh) 针对多细胞核彩色图像的细胞核区域提取方法及成像方法
Gunarathna et al. Experimental determination of CNN hyper-parameters for tomato disease detection using leaf images
CN116994244A (zh) 一种基于Yolov8的柑橘树体果实产量评估方法
Niu et al. YOLO-plum: A high precision and real-time improved algorithm for plum recognition
Bose et al. Leaf Diseases Detection of Medicinal Plants based on Image Processing and Machine Learning Processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant