CN116071709B - 一种基于改进型vgg16网络的人群计数方法、系统及存储介质 - Google Patents

一种基于改进型vgg16网络的人群计数方法、系统及存储介质 Download PDF

Info

Publication number
CN116071709B
CN116071709B CN202310333635.2A CN202310333635A CN116071709B CN 116071709 B CN116071709 B CN 116071709B CN 202310333635 A CN202310333635 A CN 202310333635A CN 116071709 B CN116071709 B CN 116071709B
Authority
CN
China
Prior art keywords
feature map
crowd
layer
convolution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310333635.2A
Other languages
English (en)
Other versions
CN116071709A (zh
Inventor
方炯韬
刘茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202310333635.2A priority Critical patent/CN116071709B/zh
Publication of CN116071709A publication Critical patent/CN116071709A/zh
Application granted granted Critical
Publication of CN116071709B publication Critical patent/CN116071709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了图像处理领域的一种基于改进型VGG16网络的人群计数方法、系统及存储介质,方法包括:采集监控场景的实时人群图像;将实时人群图像输入至预训练后的人群计数网络模型,获得对实时人群图像的计数结果;所述人群计数网络模型包括:改进原始VGG16网络,去除最后三个全连接层;充分融合不同层级语义特征;并增加了多尺度膨胀卷积块,充分融合了多尺度信息;以及分类分支辅助完成计数任务;有效解决了拥挤环境下人头较小不易检测的问题,提高整体图像的计数准确性,同时可以直观地看到人群在图片中所在的位置。

Description

一种基于改进型VGG16网络的人群计数方法、系统及存储介质
技术领域
本发明属于图像处理技术领域,具体涉及基于改进型VGG16网络的人群计数方法、系统及存储介质。
背景技术
人群计数是公共安防行业中非常需要的一种技术。对于给定的一幅图像或一段视频,通过计算机自动处理,分析出其中的人数。近年来,流感时常反复,避免人群聚集成为重中之重,而且人群聚集会带来更多安全隐患,踩踏事件在全国乃至全世界层出不穷,引起了人们的广泛关注。与此同时,视频监控摄像机也越来越普及,遍布大街小巷。利用视频中的图像数据,精确地估算出当前场景的人数及密度分布,适当地进行人流疏导,就可以尽量减少类似事件的发生。
现有的技术中关于人群计数的方法存在大量漏检、拥挤环境下人头较小不易检测以及无法直观的看到人群分布的缺陷。
发明内容
本发明的目的在于提供一种基于改进型VGG16网络的人群计数方法、系统及存储介质,对于人群较多的拥挤场景进行人群计数具有鲁棒性,避免了产生漏检现象,同时可以直观的看到人群在图片中所在的位置。
为达到上述目的,本发明所采用的技术方案是:
本发明第一方面提供了一种基于改进型VGG16网络的人群计数方法,包括:
采集监控场景的实时人群图像;将实时人群图像输入预训练后的人群计数网络模型,获得对实时人群图像的计数结果;
所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;
所述特征提取层为VGG16网络的前十三层;特征提取层作用于提取所述特征图P1、特征图P2和特征图P3;
所述多层语义融合模块用于对特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取,并融合形成特征图R;
所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z;
所述分类分支模块对特征图Z进行处理后,经过Sigmoid激活函数处理获得人群数量区间;
所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图,对人群密度图进行积分运算得到人群数量;
所述人群计数网络模型的训练过程包括:
由监控数据库中获取含有标注信息的人群图像,对人群图像进行预处理构建训练集、验证集及测试集;其中,标注信息为人群图像数据中的人群数量区间;
通过训练集和验证集对人群计数网络模型进行训练;利用L2范数损失和交叉熵损失构建损失函数;根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置;
通过测试集对更新的人群计数网络模型进行测试,采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值,根据评估值保存人群计数网络模型的网络参数,重复迭代直至设定的训练轮数全部完成输出最终的人群计数网络模型。
优选的,构建训练集、验证集及测试集的方法包括:
对人群图像缩放至设定尺寸,根据人群数量将人群图像划分为C个类别;将每个类别中的人群图像按照设定比例依次划分至训练集、验证集及测试集。
优选的,所述特征提取层依次包括Conv1_1卷积层、Conv1_2卷积层、Pool1最大池化层、Conv2_1卷积层、Conv2_2卷积层、Pool2最大池化层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Pool3最大池化层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Pool4最大池化层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层;
Conv1_1卷积层、Conv1_2卷积层、Conv2_1卷积层、Conv2_2卷积层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层的卷积核都为3,其通道数分别为64、64、128、128、256、256、256、512、512、512、512、512、512;
Pool1最大池化层、Pool2最大池化层、Pool3最大池化层和Pool4最大池化层的步长为2以及池化区域为2,特征图P1表示为经过Conv3_3卷积层和Pool3最大池化层的特征图,特征图P2表示经过Conv4_3卷积层和Pool4最大池化层的特征图,特征图P3表示经过Conv5_3卷积层的特征图。
优选的,所述多层语义融合模块包括注意力机制;所述特征图P1通过注意力机制进行特征提取后形成特征图Y1;所述特征图P2通过注意力机制进行特征提取后,使用双线性插值的方式上采样2倍获得特征图Y2;所述特征图P3通过注意力机制进行特征提取后,使用双线性插值的方式上采样4倍获得特征图Y3;所述特征图Y1、特征图Y2和特征图Y3在通道维度上拼接形成特征图R。
优选的,所述多层语义融合模块对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取的方法包括:
将所述特征图P1、特征图P2和特征图P3作为输入特征图输入所述注意力机制;对所述输入特征图分别进行通道维度最大池化和通道维度平均池化后进行拼接,然后经过7×7卷积和sigmoid激活函数处理得到注意力特征图;将注意力特征图与输入特征图相乘形成设定尺寸的输出特征图。
优选的,所述多尺度膨胀卷积模块对特征图R进行特征以及上下文信息提取形成特征图Z的方法包括:
所述多尺度膨胀卷积模块先将特征图R按通道维度平均分成第一子特征图R1、第二子特征图R2、第三子特征图R3和第四子特征图R4;对第一子特征图R1进行膨胀率为1的膨胀卷积获得特征图A1;对第二子特征图R2进行膨胀率为2的膨胀卷积获得特征图A2;对第三子特征图R3进行膨胀率为3的膨胀卷积获得特征图A3;对第四子特征图R4进行膨胀率为4的膨胀卷积获得特征图A4;
将所述特征图A1与特征图A2在通道维度上拼接后进行卷积核为3的卷积获得新特征图B2;将所述新特征图B2与特征图A3在通道维度上拼接后进行卷积核为3的卷积获得新特征图B3;将所述新特征图B3与特征图A4在通道维度上拼接后进行卷积核为3的卷积获得新特征图B4;
将特征图A1、新特征图B2、新特征图B3和新特征图B4在通道维度上拼接后进行卷积核为3的卷积获得特征图Z。
优选的,所述分类分支模块依次包括全局平均池化和全连接层;所述全局平均池化将特征图的尺寸下采样为1×1,通道数设为512;全连接层的输入结点为512,全连接层的输出结点为10,最后使用Sigmoid激活函数处理获得人群数量区间。
优选的,所述生成人群密度图像的后端网络对特征图Z进行处理获得设定尺寸的人群密度图的方法包括:
对特征图Z依次进行3×3卷积、3×3卷积、双线性差值两倍上采样、3×3卷积和双线性差值两倍上采样获得设定尺寸的人群密度图。
优选的,利用L2范数损失和交叉熵损失构建损失函数,表达公式为:
Figure SMS_1
Figure SMS_2
Figure SMS_3
公式中,yi表示为第i个训练样本的真实标记值;
Figure SMS_4
表示为第i个训练样本的预测值;n表示为训练样本数;LA为L2范数损失;LB为交叉熵损失;表示为设定的权重参数;L表示为损失函数。
本发明第二方面提供了一种基于改进型VGG16网络的人群计数系统,包括:
监测模块,用于采集监控场景的实时人群图像;将实时人群图像输入至预训练后的人群计数网络模型,获得对实时人群图像的计数结果;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;所述特征提取层为VGG16网络的前十三层;特征提取层用于提取特征图P1、特征图P2和特征图P3;所述多层语义融合模块用于利用注意力机制分别对所述特征图P1、特征图P2和特征图P3进行初次特征提取,将初次特征提取后的特征融合形成特征图R;所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z;所述分类分支模块对特征图Z进行处理后,经过Sigmoid激活函数处理获得人群数量区间;所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图,再对人群密度图进行积分运算得到人群数量;
获取模块,用于由监控数据库中获取含有标注信息的人群图像,对人群图像进行预处理构建训练集、验证集及测试集;其中,标注信息为人群图像数据中的人群数量区间;
训练模块,通过训练集和验证集对人群计数网络模型进行训练;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;利用L2范数损失和交叉熵损失构建损失函数;根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置;
评价模块,用于通过测试集对更新的人群计数网络模型进行测试,采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值,根据评估值保存人群计数网络模型的网络参数,重复迭代直至设定的训练轮数全部完成,输出最终的人群计数网络模型。
本发明第三方面提供了计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述人群计数方法的步骤。
与现有技术相比,本发明的有益效果:
本发明基于改进型VGG16网络的人群计数方法结合VGG16网络的前十三层、多层语义融合模块、多尺度膨胀卷积模块、分类分支和生成人群密度图像的后端网络,构建人群计数网络模型;充分融合不同层级语义特征,充分融合多尺度信息,使用分类分支辅助完成计数任务,有效解决了拥挤环境下人头较小不易检测的问题,提高整体图像的计数准确性,同时可以直观地看到人群在图片中所在的位置。
附图说明
图1是本发明实施例一提供的一种基于改进型VGG16网络的人群计数方法的流程图;
图2是本发明实施例一提供的人群计数网络模型的结构图;
图3是本发明实施例一提供的VGG16网络提取特征的流程图;
图4是本发明实施例一提供的多层语义融合模块的结构图;
图5是本发明实施例一提供的注意力机制的流程图;
图6是本发明实施例一提供的多尺度膨胀卷积模块的结构图;
图7是本发明实施例一提供的分类分支模块的结构图;
图8是本发明实施例一提供的生成人群密度图像的后端网络的结构图。
实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例
如图1至图8所示,本实施例提供了一种基于改进型VGG16网络的人群计数方法,包括:
采集监控场景的实时人群图像;将实时人群图像输入预训练后的人群计数网络模型,获得对实时人群图像的计数结果。
所述人群计数网络模型的训练过程包括:
设定训练人群计数网络模型初始参数如下;初始学习率(learningrate):0.00001;优化器(optimization):Adam优化器;学习率衰减(learningratedecay):等步长调整学习率策略;权重衰减(weightdecay):0.995;批大小(batchsize):4;训练轮数(epoch):500;在训练前人群计数网络模型的卷积层都采用正太分布初始化参数,其中:数学期望μ=0,方差σ=0.01;由监控数据库中获取含有标注信息的人群图像,对人群图像缩放至设定尺寸,根据人群数量将人群图像划分为C个类别;将每个类别中的人群图像按照设定比例依次划分至训练集、验证集及测试集;其中,标注信息为人群图像数据中的人群数量区间;
获取基于改进型VGG16网络构建的人群计数网络模型;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;
所述特征提取层为VGG16网络的前十三层;特征提取层作用于提取特征图P1、特征图P2和特征图P3;
所述多层语义融合模块用于对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取,并融合形成特征图R;
所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z;
所述分类分支模块对特征图Z进行处理后,经过Sigmoid激活函数处理获得人群数量区间;
所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图,再对人群密度图进行积分运算得到人群数量。
所述VGG16网络的前十三层依次包括Conv1_1卷积层、Conv1_2卷积层、Pool1最大池化层、Conv2_1卷积层、Conv2_2卷积层、Pool2最大池化层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Pool3最大池化层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Pool4最大池化层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层;
Conv1_1卷积层、Conv1_2卷积层、Conv2_1卷积层、Conv2_2卷积层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层的卷积核都为3,其通道数分别为64、64、128、128、256、256、256、512、512、512、512、512、512;
Pool1最大池化层、Pool2最大池化层、Pool3最大池化层和Pool4最大池化层的步长为2以及池化区域为2,特征图P1表示为经过Conv3_3卷积层和Pool3最大池化层的特征图,特征图P2表示经过Conv4_3卷积层和Pool4最大池化层的特征图,特征图P3表示经过Conv5_3卷积层的特征图。
所述多层语义融合模块包括注意力机制;所述特征图P1通过注意力机制进行特征提取后形成特征图Y1;所述特征图P2通过注意力机制进行特征提取后,使用双线性插值的方式上采样2倍获得特征图Y2;所述特征图P3通过注意力机制进行特征提取后,使用双线性插值的方式上采样4倍获得特征图Y3;所述特征图Y1、特征图Y2和特征图Y3在通道维度上拼接形成特征图R。
所述多层语义融合模块对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取的方法包括:
将所述特征图P1、特征图P2和特征图P3作为输入特征图输入所述注意力机制;对所述输入特征图分别进行通道维度最大池化和通道维度平均池化后进行拼接,然后经过7×7卷积和sigmoid激活函数处理得到注意力特征图;将注意力特征图与输入特征图相乘形成设定尺寸的输出特征图;所述输出特征图包含特征图Y1、特征图Y2和特征图Y3。
所述多尺度膨胀卷积模块对特征图R再次进行特征以及上下文信息提取形成特征图Z的方法包括:
所述多尺度膨胀卷积模块先将特征图R按通道维度平均分成第一子特征图R1、第二子特征图R2、第三子特征图R3和第四子特征图R4;对第一子特征图R1进行膨胀率为1的膨胀卷积获得特征图A1;对第二子特征图R2进行膨胀率为2的膨胀卷积获得特征图A2;对第三子特征图R3进行膨胀率为3的膨胀卷积获得特征图A3;对第四子特征图R4进行膨胀率为4的膨胀卷积获得特征图A4;
将所述特征图A1与特征图A2在通道维度上拼接后进行卷积核为3的卷积获得新特征图B2;将所述新特征图B2与特征图A3在通道维度上拼接后进行卷积核为3的卷积获得新特征图B3;将所述新特征图B3与特征图A4在通道维度上拼接后进行卷积核为3的卷积获得新特征图B4;
将特征图A1、新特征图B2、新特征图B3和新特征图B4在通道维度上拼接后进行卷积核为3的卷积获得特征图Z。
所述分类分支模块依次包括全局平均池化和全连接层;所述全局平均池化将特征图的尺寸下采样为1×1,通道数设为512;全连接层的输入结点为512,全连接层的输出结点为10,最后使用Sigmoid激活函数处理获得人群数量区间。
所述生成人群密度图像的后端网络对特征图Z进行处理获得设定尺寸的人群密度图的方法包括:
对特征图Z依次进行3×3卷积、3×3卷积、双线性差值两倍上采样、3×3卷积和双线性差值两倍上采样获得人群密度图。
通过训练集和验证集对人群计数网络模型进行训练;利用L2范数损失和交叉熵损失构建损失函数;
利用L2范数损失和交叉熵损失构建损失函数,表达公式为:
Figure SMS_5
Figure SMS_6
Figure SMS_7
公式中,yi表示为第i个训练样本的真实标记值;
Figure SMS_8
表示为第i个训练样本的预测值;n表示为训练样本数;LA为L2范数损失;LB为交叉熵损失;表示为设定的权重参数;L表示为损失函数。
根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置;采用等步长调整学习率策略进行学习率lr衰减,衰减公式如下:
Figure SMS_9
其中,base_lr为初始学习率;
采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值,表达公式为:
Figure SMS_10
Figure SMS_11
根据评估值保存人群计数网络模型的网络参数,直至500轮全部完成输出最终的人群计数网络模型。
实施例
一种基于改进型VGG16网络的人群计数系统,本实施例提供的系统可以应用于第一实施例所述的方法,人群计数系统包括:
监测模块,用于采集监控场景的实时人群图像;将实时人群图像输入至预训练后的人群计数网络模型,获得对实时人群图像的计数结果;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;所述特征提取层为VGG16网络的前十三层;特征提取层用于提取特征图P1、特征图P2和特征图P3;所述多层语义融合模块用于利用注意力机制分别对所述特征图P1、特征图P2和特征图P3进行初次特征提取,将初次特征提取后的特征融合形成特征图R;所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z;所述分类分支模块对特征图Z进行处理后,经过Sigmoid激活函数处理获得人群数量区间;所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图,再对人群密度图进行积分运算得到人群数量;
获取模块,用于由监控数据库中获取含有标注信息的人群图像,对人群图像进行预处理构建训练集、验证集及测试集;其中,标注信息为人群图像数据中的人群数量区间;
训练模块,通过训练集和验证集对人群计数网络模型进行训练;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;利用L2范数损失和交叉熵损失构建损失函数;根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置;
评价模块,用于通过测试集对更新的人群计数网络模型进行测试,采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值,根据评估值保存人群计数网络模型的网络参数,重复迭代直至设定的训练轮数全部完成,输出最终的人群计数网络模型。
实施例
本发明第三方面提供了计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一实施例所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于改进型VGG16网络的人群计数方法,其特征在于,包括:
采集监控场景的实时人群图像;将实时人群图像输入预训练后的人群计数网络模型,获得对实时人群图像的计数结果;
所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;
所述特征提取层为VGG16网络的前十三层;特征提取层用于提取特征图P1、特征图P2和特征图P3;
所述多层语义融合模块用于利用注意力机制分别对所述特征图P1、特征图P2和特征图P3进行初次特征提取,将初次特征提取后的特征融合形成特征图R;
所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z;
所述分类分支模块对特征图Z进行处理后,经过Sigmoid激活函数处理获得人群数量区间;
所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图,再对人群密度图进行积分运算得到人群数量;
所述人群计数网络模型的训练过程包括:
由监控数据库中获取含有标注信息的人群图像,对人群图像进行预处理构建训练集、验证集及测试集;其中,标注信息为人群图像数据中的人群数量区间;
通过训练集和验证集对人群计数网络模型进行训练;利用L2范数损失和交叉熵损失构建损失函数;根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置;
通过测试集对更新的人群计数网络模型进行测试,采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值,根据评估值保存人群计数网络模型的网络参数,重复迭代直至设定的训练轮数全部完成,输出最终的人群计数网络模型。
2.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,构建训练集、验证集及测试集的方法包括:
对人群图像缩放至设定尺寸,根据人群数量将人群图像划分为C个类别;将每个类别中的人群图像按照设定比例依次划分至训练集、验证集及测试集。
3.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述特征提取层依次包括Conv1_1卷积层、Conv1_2卷积层、Pool1最大池化层、Conv2_1卷积层、Conv2_2卷积层、Pool2最大池化层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Pool3最大池化层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Pool4最大池化层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层;
Conv1_1卷积层、Conv1_2卷积层、Conv2_1卷积层、Conv2_2卷积层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层的卷积核都为3,其通道数分别为64、64、128、128、256、256、256、512、512、512、512、512、512;
Pool1最大池化层、Pool2最大池化层、Pool3最大池化层和Pool4最大池化层的步长为2以及池化区域为2,特征图P1表示为经过Conv3_3卷积层和Pool3最大池化层的特征图,特征图P2表示经过Conv4_3卷积层和Pool4最大池化层的特征图,特征图P3表示经过Conv5_3卷积层的特征图。
4.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述多层语义融合模块包括注意力机制;所述特征图P1通过注意力机制进行特征提取后形成特征图Y1;所述特征图P2通过注意力机制进行特征提取后,使用双线性插值的方式上采样2倍获得特征图Y2;所述特征图P3通过注意力机制进行特征提取后,使用双线性插值的方式上采样4倍获得特征图Y3;所述特征图Y1、特征图Y2和特征图Y3在通道维度上拼接形成特征图R。
5.根据权利要求4所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述多层语义融合模块对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取的方法包括:
将所述特征图P1、特征图P2和特征图P3作为输入特征图输入所述注意力机制;对所述输入特征图分别进行通道维度最大池化和通道维度平均池化后进行拼接,然后经过7×7卷积和sigmoid激活函数处理得到注意力特征图;将注意力特征图与输入特征图相乘形成设定尺寸的输出特征图。
6.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述多尺度膨胀卷积模块对特征图R进行特征以及上下文信息提取形成特征图Z的方法包括:
所述多尺度膨胀卷积模块先将特征图R按通道维度平均分成第一子特征图R1、第二子特征图R2、第三子特征图R3和第四子特征图R4;对第一子特征图R1进行膨胀率为1的膨胀卷积获得特征图A1;对第二子特征图R2进行膨胀率为2的膨胀卷积获得特征图A2;对第三子特征图R3进行膨胀率为3的膨胀卷积获得特征图A3;对第四子特征图R4进行膨胀率为4的膨胀卷积获得特征图A4;
将所述特征图A1与特征图A2在通道维度上拼接后进行卷积核为3的卷积获得新特征图B2;将所述新特征图B2与特征图A3在通道维度上拼接后进行卷积核为3的卷积获得新特征图B3;将所述新特征图B3与特征图A4在通道维度上拼接后进行卷积核为3的卷积获得新特征图B4;
将特征图A1、新特征图B2、新特征图B3和新特征图B4在通道维度上拼接后进行卷积核为3的卷积获得特征图Z。
7.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述分类分支模块依次包括全局平均池化和全连接层;所述全局平均池化将特征图的尺寸下采样为1×1,通道数设为512;全连接层的输入结点为512,全连接层的输出结点为10,最后使用Sigmoid激活函数处理获得人群数量区间。
8.根据权利要求4所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述生成人群密度图像的后端网络对特征图Z进行处理获得设定尺寸的人群密度图的方法包括:
对特征图Z依次进行3×3卷积、3×3卷积、双线性差值两倍上采样、3×3卷积和双线性差值两倍上采样获得设定尺寸的人群密度图。
9.一种基于改进型VGG16网络的人群计数系统,其特征在于,包括:
监测模块,用于采集监控场景的实时人群图像;将实时人群图像输入至预训练后的人群计数网络模型,获得对实时人群图像的计数结果;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;所述特征提取层为VGG16网络的前十三层;特征提取层用于提取特征图P1、特征图P2和特征图P3;所述多层语义融合模块用于利用注意力机制分别对所述特征图P1、特征图P2和特征图P3进行初次特征提取,将初次特征提取后的特征融合形成特征图R;所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z;所述分类分支模块对特征图Z进行处理后,经过Sigmoid激活函数处理获得人群数量区间;所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图,再对人群密度图进行积分运算得到人群数量;
获取模块,用于由监控数据库中获取含有标注信息的人群图像,对人群图像进行预处理构建训练集、验证集及测试集;其中,标注信息为人群图像数据中的人群数量区间;
训练模块,通过训练集和验证集对人群计数网络模型进行训练;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;利用L2范数损失和交叉熵损失构建损失函数;根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置;
评价模块,用于通过测试集对更新的人群计数网络模型进行测试,采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值,根据评估值保存人群计数网络模型的网络参数,重复迭代直至设定的训练轮数全部完成,输出最终的人群计数网络模型。
10.计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至权利要求8任一项所述方法的步骤。
CN202310333635.2A 2023-03-31 2023-03-31 一种基于改进型vgg16网络的人群计数方法、系统及存储介质 Active CN116071709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310333635.2A CN116071709B (zh) 2023-03-31 2023-03-31 一种基于改进型vgg16网络的人群计数方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310333635.2A CN116071709B (zh) 2023-03-31 2023-03-31 一种基于改进型vgg16网络的人群计数方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN116071709A CN116071709A (zh) 2023-05-05
CN116071709B true CN116071709B (zh) 2023-06-16

Family

ID=86170104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310333635.2A Active CN116071709B (zh) 2023-03-31 2023-03-31 一种基于改进型vgg16网络的人群计数方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116071709B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120245A (zh) * 2021-12-15 2022-03-01 平安科技(深圳)有限公司 基于深度神经网络的人群图像分析方法、装置以及设备
CN117115723B (zh) * 2023-10-23 2024-01-23 四川泓宝润业工程技术有限公司 一种消防设施计数方法、装置、存储介质及电子设备
CN117237994B (zh) * 2023-11-13 2024-02-13 四川泓宝润业工程技术有限公司 一种油气作业区人员计数及行为检测方法、装置及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651390A (zh) * 2021-03-11 2021-04-13 江苏金智教育信息股份有限公司 一种基于卷积神经网络的图片人头计数的方法和装置
CN113255430A (zh) * 2021-03-31 2021-08-13 中交第二公路勘察设计研究院有限公司 基于深度学习的视频中人群分布检测与计数方法
CN113283428A (zh) * 2021-07-20 2021-08-20 南京信息工程大学 一种基于fce-ssd方法的图像目标检测方法
WO2022078216A1 (zh) * 2020-10-14 2022-04-21 华为云计算技术有限公司 一种目标识别方法及装置
CN114519844A (zh) * 2022-02-09 2022-05-20 复旦大学 一种基于视觉转化器的人群密度估计方法及系统
CN114897768A (zh) * 2022-03-24 2022-08-12 重庆邮电大学 一种基于语义细化的空间金字塔人群计数方法
CN115731512A (zh) * 2022-11-09 2023-03-03 西北工业大学 监控视角下的轻型人群定位方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022078216A1 (zh) * 2020-10-14 2022-04-21 华为云计算技术有限公司 一种目标识别方法及装置
CN112651390A (zh) * 2021-03-11 2021-04-13 江苏金智教育信息股份有限公司 一种基于卷积神经网络的图片人头计数的方法和装置
CN113255430A (zh) * 2021-03-31 2021-08-13 中交第二公路勘察设计研究院有限公司 基于深度学习的视频中人群分布检测与计数方法
CN113283428A (zh) * 2021-07-20 2021-08-20 南京信息工程大学 一种基于fce-ssd方法的图像目标检测方法
CN114519844A (zh) * 2022-02-09 2022-05-20 复旦大学 一种基于视觉转化器的人群密度估计方法及系统
CN114897768A (zh) * 2022-03-24 2022-08-12 重庆邮电大学 一种基于语义细化的空间金字塔人群计数方法
CN115731512A (zh) * 2022-11-09 2023-03-03 西北工业大学 监控视角下的轻型人群定位方法

Also Published As

Publication number Publication date
CN116071709A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN116071709B (zh) 一种基于改进型vgg16网络的人群计数方法、系统及存储介质
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN105678284B (zh) 一种固定位人体行为分析方法
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN110245579B (zh) 人流密度预测方法及装置、计算机设备及可读介质
CN110942015B (zh) 人群密度估计方法
JP7097641B2 (ja) 畳み込み知覚ハッシュアルゴリズムに基づくループ検出方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
CN108961220B (zh) 一种基于多层卷积特征融合的图像协同显著性检测方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN112149459A (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN112487207A (zh) 图像的多标签分类方法、装置、计算机设备及存储介质
CN112818955B (zh) 一种图像分割方法、装置、计算机设备以及存储介质
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN115526891B (zh) 一种缺陷数据集的生成模型的训练方法及相关装置
CN112818904A (zh) 一种基于注意力机制的人群密度估计方法及装置
Li et al. Image manipulation localization using attentional cross-domain CNN features
CN111241338A (zh) 一种基于注意力机制的深度特征融合视频拷贝检测方法
CN111415338A (zh) 目标检测模型的构建方法及系统
CN111027555A (zh) 一种车牌识别方法、装置及电子设备
CN110942456B (zh) 篡改图像检测方法、装置、设备及存储介质
CN114519844A (zh) 一种基于视觉转化器的人群密度估计方法及系统
CN110119736B (zh) 车牌位置识别方法、装置及电子设备
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN111046213B (zh) 一种基于图像识别的知识库构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant