CN110503014B - 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 - Google Patents
基于多尺度掩码感知回馈卷积神经网络的人数统计方法 Download PDFInfo
- Publication number
- CN110503014B CN110503014B CN201910728917.6A CN201910728917A CN110503014B CN 110503014 B CN110503014 B CN 110503014B CN 201910728917 A CN201910728917 A CN 201910728917A CN 110503014 B CN110503014 B CN 110503014B
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- output
- convolutional layer
- activation function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:(1)搜集制作人数统计数据库;(2)生成训练和测试样本;(3)对训练和测试集的样本进行数据预处理;(4)构建人数统计的深度网络模型;(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;(6)测试深度网络模型。本发明使用了一个多任务学习的策略来构建人数统计网络,网络将掩膜估计分支的结果,融合到图片特征中,而后获得鲁棒的人数统计模型;使用了一个简单的融合策略和一个基于空洞卷积的多尺度学习策略,实现了较为准确和稳定的检测结果,这避免了应用中复杂的配置以及内存消耗。
Description
技术领域
本发明涉及图像处理和模式识别技术领域,尤其是一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法。
背景技术
随着城镇化的推进和人们娱乐及工作的需要,多人以及群体聚集的场景在众多的场所已屡见不鲜,这也带来了日益严峻的安全管理问题。近些年来,人们时常会听到全世界各地对群体性事件以及踩踏事件的报道。因此,如何对公共场所的人数进行统计是一个至关重要的任务。该任务可以帮助管理人群提供人群的密度分布数据,便于综合地引导人群的流动,使得公共场所中安全问题变得可控、可防。因此,该任务对公共安全具有重要的应用价值。
随着监控设备的增加,人工对每个视频流进行计数显然代价比较昂贵,且由于人的精力有限不能保证全天候的检测。传统的方法面对复杂的场景的时候精度并不能满足生活生产的要求。随着计算机视觉技术的发展,人群统计深度网络模型已成为人数检测的主流方法。但这些方法依然检测的准确率不高。通过对场景中的图片分析,要实现鲁棒的检测不得不解决以下几个难点问题:(1)在密度比较高的场景中,人头之间存在严重的遮挡问题;(2)由于监控设备视角的变化,人群的尺度变化非常明显;(3)不同的场景会有不同的光照等等。
发明内容
本发明所要解决的技术问题在于,提供一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,采用多任务的深度学习框架,使用掩码估计的结果并融入图片的特征,构建了一个鲁棒的人群统计模型。
为解决上述技术问题,本发明提供一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:
(1)搜集制作人数统计数据库;
(2)生成训练和测试样本;
(3)对训练和测试集的样本进行数据预处理;
(4)构建人数统计的深度网络模型;
(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;
(6)测试深度网络模型。
优选的,步骤(1)中,数据库的搜集是来自于两个部分,一是来自视频拍摄设备,二是来自网络搜集。
优选的,步骤(2)中,生成训练和测试样本具体包括如下步骤:
(201)将步骤(1)中得到的视频帧剪辑成单帧的图片,记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签;
(202)将步骤(201)得到图片按照5:1的比例分成测试集和训练集,若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本;若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N};
(203)使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
其中表示图片的坐标,xi表示标注的人头位置。表示高斯核,其中xi是均值向量和σ2是经验性选择的方差项;如果x不在xi的领域范围内,方差项σ2的一个常见选择是使得此时,训练样本对应的标签转变成测试样本对应的标签转变为
优选的,步骤(3)中,对训练和测试集的样本进行数据预处理具体包括如下步骤:
(304)步骤(202)中每个训练样本和测试样本及其对应的标签都经过步骤(301),步骤(302)和步骤(303)对数据进行预处理。
优选的,步骤(4)中,构建人数统计的深度网络模型具体为:基于预训练前10层VGGNet卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络;多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层;
优选的,步骤(5)中,将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化,具体包括如下步骤:
(501)使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E,采用多任务的策略学习样本训练模型;
(502)网络需要学习的参数可分为三部分:一是步骤(4)中卷积层1-卷积层13的参数θbase;二是步骤(4)中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden;
第k个样本Ik输入到网络中后,记步骤(4)中卷积层14-4的输出为Segk:
Segk=conv(Ik,θbase,θseg)
其中conv(·)表示卷积操作;
同时记步骤(4)中卷积层16-5的输出为Denk:
Denk=conv(Ik,θbase,θseg,θden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
优选的,步骤(6)中,测试深度网络模型具体为:网络训练完毕后,保留网络的卷积层的参数,将测试视频帧通过步骤(2)和步骤(301)操作后,输入测试网络,将网络在步骤(5)中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
本发明的有益效果为:(1)本发明使用了一个多任务学习的策略来构建人数统计网络,网络将掩码估计分支的结果,融合到图片特征中,而后获得鲁棒的人数统计模型;(2)本发明使用了一个简单的融合策略和一个基于空洞卷积的多尺度学习策略,实现了较为准确和稳定的检测结果,这避免了应用中复杂的配置以及内存消耗。
附图说明
图1为本发明人群拥挤的场景示意图。
图2为本发明中卷积神经网络模型框架示意图。
具体实施方式
一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,包括如下步骤:
步骤1:搜集制作人数统计数据库。数据库的搜集是来自于两个部分,一是来自视频拍摄设备,如室外监控摄像头或手机等,二是来自网络搜集,如在百度、谷歌等搜索引擎中输入“人群”,“人”等关键字进行检索,收集人群图片,如图1所示。
步骤2:生成训练和测试样本。对于搜集到的图片或视频数据进行标注,并生成训练和测试样本,其具体包括:
步骤201:将步骤1中得到的视频帧剪辑成单帧的图片。记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签。
步骤202:将步骤201得到图片按照5:1的比例分成测试集和训练集。若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本。若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N}。
步骤203:使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
其中表示图片的坐标,xi表示标注的人头位置。表示高斯核,其中xi是均值向量和σ2是经验性选择的方差项。如果x不在xi的领域范围内,方差项σ2的一个常见选择是使得此时,训练样本对应的标签转变成测试样本对应的标签转变为
步骤3:对训练和测试集的样本进行数据预处理,其具体包括:
步骤304:步骤202中每个训练样本和测试样本及其对应的标签都经过步骤301,步骤302和步骤303对数据进行预处理。
步骤4:构建人数统计的深度网络模型。本发明所设计的网络模型是基于预训练前10层VGG Net卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络。多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层,如图2所示。
步骤5:将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化,具体包含:
步骤501:使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E。采用多任务的策略学习样本训练模型。
步骤502:本发明所设计的网络需要学习的参数可分为三部分:一是步骤4中卷积层1-卷积层13的参数θbase;二是步骤4中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden。
第k个样本Ik输入到网络中后,记步骤4中卷积层14-4的输出为Segk:
Segk=conv(Ik,θbase,θseg)
其中conv(·)表示卷积操作。
同时记步骤4中卷积层16-5的输出为Denk:
Denk=conv(Ik,θbase,θseg,θden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
步骤6:测试深度网络模型。网络训练完毕后,保留网络的卷积层的参数。将测试视频帧通过步骤2和步骤301操作后,输入测试网络,将网络在步骤5中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
本发明预测准确率高,在公共安全、城市管理等领域有着重要的应用价值,适用于商场、地铁、广场等公共场所的人数统计。
Claims (5)
1.一种基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,包括如下步骤:
(1)搜集制作人数统计数据库;
(2)生成训练和测试样本;
(3)对训练和测试集的样本进行数据预处理;
(4)构建人数统计的深度网络模型;具体为:基于预训练前10层VGG Net卷积神经网络,同时结合多尺度掩码感知回馈网络模块,构成最终的多任务人数统计网络;多尺度掩码感知回馈网络模块包含3层空洞卷积层作为共享层,4层空洞卷积层作为掩膜预测分支,4层空洞卷积层作为密度估计分支和2层空洞卷积层作为掩膜预测分支到密度估计分支的转换层;
(5)将生成的训练样本送入构建好的深度网络模型进行训练,通过Adam优化方法对网络的参数进行优化;具体包括如下步骤:
(501)使用人数统计数据集对本发明所提出的网络进行训练,设置初始学习率为η2,一次迭代送入样本数为E,采用多任务的策略学习样本训练模型;
(502)网络需要学习的参数可分为三部分:一是步骤(4)中卷积层1-卷积层13的参数θbase;二是步骤(4)中卷积层14-1到卷积层14-4的参数θseg以及剩余的卷积层的参数θden;
第k个样本Ik输入到网络中后,记步骤(4)中卷积层14-4的输出为Segk:
Segk=conv(Ik,θbase,θseg)
其中conv(·)表示卷积操作;
同时记步骤(4)中卷积层16-5的输出为Denk:
Denk=conv(Ik,θbase,θseg,θden)
两个分支的输出Segk和Denk是在给定的监督信号下对网络进行学习,其损失函数记为:
(6)测试深度网络模型。
2.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(1)中,数据库的搜集是来自于两个部分,一是来自视频拍摄设备,二是来自网络搜集。
3.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(2)中,生成训练和测试样本具体包括如下步骤:
(201)将步骤(1)中得到的视频帧剪辑成单帧的图片,记图片左上角第一个元素的位置为原点,用图片中的点坐标xp=(gp,hp)标注第p个人头的中心点位置,依次标注图片中的每个人头,形成图片的最终真实标签;
(202)将步骤(201)得到图片按照5:1的比例分成测试集和训练集,若训练集中包含M个训练样本,则可记X={I1,I2,...,IM}为训练集合,其对应的标签则记为Xlabel={l1,l2,...,lM},其中Ik是第k个样本;若训练集中包含N个训练样本,则可记Y={IM+1,IM+2,...,IM+N}为训练集合,其对应的标签则记为Ylabel={lM+1,lM+2,...,lM+N};
(203)使用步骤(201)中每张图片I的真实标签,每个真实标签包含多个点坐标,将这些点坐标通过如下的公式转换成高斯密度图d(x):
4.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(3)中,对训练和测试集的样本进行数据预处理具体包括如下步骤:
(304)步骤(202)中每个训练样本和测试样本及其对应的标签都经过步骤(301),步骤(302)和步骤(303)对数据进行预处理。
5.如权利要求1所述的基于多尺度掩码感知回馈卷积神经网络的人数统计方法,其特征在于,步骤(6)中,测试深度网络模型具体为:网络训练完毕后,保留网络的卷积层的参数,将测试视频帧通过步骤(2)和步骤(301)操作后,输入测试网络,将网络在步骤(5)中卷积层16-5的输出的结果求和,即为当前图片的人数统计结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910728917.6A CN110503014B (zh) | 2019-08-08 | 2019-08-08 | 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910728917.6A CN110503014B (zh) | 2019-08-08 | 2019-08-08 | 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503014A CN110503014A (zh) | 2019-11-26 |
CN110503014B true CN110503014B (zh) | 2023-04-07 |
Family
ID=68587078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910728917.6A Active CN110503014B (zh) | 2019-08-08 | 2019-08-08 | 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503014B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274900B (zh) * | 2020-01-15 | 2021-01-01 | 北京航空航天大学 | 一种基于底层特征提取的空基人群计数方法 |
CN111639668A (zh) * | 2020-04-17 | 2020-09-08 | 北京品恩科技股份有限公司 | 一种基于深度学习的人群密度检测方法 |
CN111640092B (zh) * | 2020-05-20 | 2024-01-16 | 南京林业大学 | 基于多任务协同特征重建目标计数网络的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191472A (zh) * | 2018-08-28 | 2019-01-11 | 杭州电子科技大学 | 基于改进U-Net网络的胸腺细胞图像分割方法 |
CN109754402A (zh) * | 2018-03-15 | 2019-05-14 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271960B (zh) * | 2018-10-08 | 2020-09-04 | 燕山大学 | 一种基于卷积神经网络的人数统计方法 |
-
2019
- 2019-08-08 CN CN201910728917.6A patent/CN110503014B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754402A (zh) * | 2018-03-15 | 2019-05-14 | 京东方科技集团股份有限公司 | 图像处理方法、图像处理装置以及存储介质 |
CN109191472A (zh) * | 2018-08-28 | 2019-01-11 | 杭州电子科技大学 | 基于改进U-Net网络的胸腺细胞图像分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110503014A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Using channel pruning-based YOLO v4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments | |
Jia et al. | Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot | |
CN108764085B (zh) | 基于生成对抗网络的人群计数方法 | |
CN110503014B (zh) | 基于多尺度掩码感知回馈卷积神经网络的人数统计方法 | |
CN108229338A (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
CN109359538A (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
CN108596046A (zh) | 一种基于深度学习的细胞检测计数方法及系统 | |
CN103530638B (zh) | 多摄像头下的行人匹配方法 | |
CN110569747A (zh) | 一种利用图像金字塔与Faster-RCNN快速统计大田水稻稻穗数的方法 | |
CN109993269A (zh) | 基于注意力机制的单张图像人群计数方法 | |
Lv et al. | A visual identification method for the apple growth forms in the orchard | |
CN112862849B (zh) | 一种基于图像分割和全卷积神经网络的田间稻穗计数方法 | |
Li et al. | Sign language recognition based on computer vision | |
CN112818849B (zh) | 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法 | |
CN110533100A (zh) | 一种基于机器学习进行cme检测和跟踪的方法 | |
CN111339902A (zh) | 一种数显仪表的液晶屏示数识别方法及装置 | |
Wang et al. | SAS: painting detection and recognition via smart art system with mobile devices | |
CN110688966B (zh) | 语义指导的行人重识别方法 | |
Wang et al. | Air quality classification and measurement based on double output vision transformer | |
Qian et al. | Classification of rice seed variety using point cloud data combined with deep learning | |
CN113077438B (zh) | 针对多细胞核彩色图像的细胞核区域提取方法及成像方法 | |
Gunarathna et al. | Experimental determination of CNN hyper-parameters for tomato disease detection using leaf images | |
CN116994244A (zh) | 一种基于Yolov8的柑橘树体果实产量评估方法 | |
Niu et al. | YOLO-plum: A high precision and real-time improved algorithm for plum recognition | |
Bose et al. | Leaf Diseases Detection of Medicinal Plants based on Image Processing and Machine Learning Processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |