CN113205078B - 基于多分支递进强化注意力人群计数方法 - Google Patents

基于多分支递进强化注意力人群计数方法 Download PDF

Info

Publication number
CN113205078B
CN113205078B CN202110605989.9A CN202110605989A CN113205078B CN 113205078 B CN113205078 B CN 113205078B CN 202110605989 A CN202110605989 A CN 202110605989A CN 113205078 B CN113205078 B CN 113205078B
Authority
CN
China
Prior art keywords
convolution
input
channel
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110605989.9A
Other languages
English (en)
Other versions
CN113205078A (zh
Inventor
沈世晖
黄良军
祝鲁宁
张亚妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Technology
Original Assignee
Shanghai Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Technology filed Critical Shanghai Institute of Technology
Priority to CN202110605989.9A priority Critical patent/CN113205078B/zh
Publication of CN113205078A publication Critical patent/CN113205078A/zh
Application granted granted Critical
Publication of CN113205078B publication Critical patent/CN113205078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多分支递进强化注意力人群计数方法,该方法具体步骤如下:S1:读取数据集,预处理数据;S2:构建多分支递进强化注意力神经网络;S3:训练多分支递进强化注意力神经网络并测试;S4:获取摄像头图像,输入训练好的神经网络进行测试,得到该图片的预测人数。通过上述方式,本发明能够适用于大规模密集人群场景时的人群数量检测,有效提高检测人数结果的准确性。

Description

基于多分支递进强化注意力人群计数方法
技术领域
本发明涉及一种基于多分支递进强化注意力人群计数方法。
背景技术
随着国家城市化步伐的加快和城市经济的迅猛发展,旅游事业和人群集会场景增多的同时,伴随而来的还有安全隐患。而另一方面,随着景点集会的人数越来越多,现有的空间又不足以容纳非常多的人数时,通过限制人流量来达到对安全情况的控制,已成为了一种必要手段。因此通过一种人群计数方法,预测人群数量,对高度拥挤的场景进行预警,可以帮助相关人员进行突发事件事前预警和事后决策,人们的生命和财产安全就可得到保障。
目前已有的人群计数主要分为两种:1)基于传统方法的方法,例如支持向量机、决策树等;2)基于深度学习的方法,如MSCNN、CSRNet等网神经络方法。以上基于深度学习的人群计数方法均存在一定的局限性。方法1)使用传统方法,复杂度高,精度差;方法2)使用现有神经网络,精度较低等问题。
发明内容
本发明的目的在于提供一种基于多分支递进强化注意力人群计数方法。
为解决上述问题,本发明提供一种基于多分支递进强化注意力人群计数方法,包括:
S1:读取数据集并进行数据预处理,得到预处理的数据;
S2:构建多分支递进强化注意力神经网络的主干;
S3:基于所述预处理的数据和多分支递进强化注意力神经网络的主干,训练所述多分支递进强化注意力神经网络并测试网络准确性,以得到训练好的神经网络;
S4:获取视频中的人群图像,输入进训练好的神经网络测试,得到该图片的预测人数。
进一步的,在上述方法中,S1包括:
S11:下载公开数据集;
S12:将公开数据集,分为数据集和训练集;
S13:分别将数据集和训练集的图像数据宽高像素补充为8的倍数,并按比例调整定位图的位置,以分别得到数据集的定位图和训练集的定位图;
S14:利用高斯核大小为25的高斯函数将数据集的定位图处理为数据集的密度图,利用高斯核大小为25的高斯函数将训练集的定位图处理为训练集的定位图。
进一步的,在上述方法中,所述S2包括:
S21:设置前端网络部分提取特征的结构:以VGG16的feature层作为特征提取层,卷积核大小为3,采用Pytorch的Conv2d卷积,每个卷积层后都加上Relu激活函数,每层的通道数为64,64,128,128,MaxPooling(kernel=2),256,256,256,MaxPooling(kernel=2),512,512,512,用所述结构提取到总体特征;
S22:基于提取到的总体特征,加载VGG16网络结构的预训练参数;
S23:后端网络设计。
进一步的,在上述方法中,所述步骤S23包括:
S231:后端主干网络为:二维卷积Conv2d,卷积核大小为3,输入到网络的通道数为512,输出网络层数为128,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM1;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM2;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM3;最近邻插值上采样,上采样倍数为原数图像2倍;最后一层为二维卷积Conv2d输入通道数为16,输出网络层数为1,卷积核大小为1的全卷积网络,后接Relu激活函数,输出预测密度图;
S232:构建多分支递进强化注意力模块网络,其中,共前后两个阶段:将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con1,后将con1输入强化注意力模块处理得到out1;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con2,后将con2加上out1输入强化注意力模块得到out2;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con3,后将con3加上out2输入强化注意力模块得到out3;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con4,后将con4加上out3输入强化注意力模块得到out4;将out4作为第二阶段的输入图像in2,将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con5,后将con5输入强化注意力模块得到out5;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con6,后将con6加上out5输入强化注意力模块得到out6;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con7,后将con7加上out6输入强化注意力模块得到out7;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con8,后将con8加上out7输入强化注意力模块得到out8;
S233:构建自定义强化注意力模块:将特征图x输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x1;将特征图x1输入二维分离卷积,输入通道等于输出通道,卷积核大小为3,分组数groups等于通道数,得到特征图x2;将特征图x2输入全通道注意力模块,得到的结果再加上x2得到特征图x3;将特征图x3输入交叉通道注意力模块,得到的结果再加上x3得到特征图x4;将特征图x4输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x5,最后将特征图x5加上x得到强化注意力结果F。
进一步的,在上述方法中,所述S233还包括:
S2331:构建自定义全通道注意力模块:将特征图f输入全通道注意力模块中,获取其通道数c和批处理数b;再将b和c输入进平均池化层和Softmax层中,拉伸为一维的张量avg,再将avg经过Linear层、Relu层、Linear层和Sigmod层中,强化需要注意的区域,再用reshape功能将其恢复成f的维度,形成新的特征图f’;
S2332:构建自定义交叉通道注意力模块:将特征图g输入交叉通道注意力模块中,获取其通道数c和批处理数b,分别形成横向的张量h和纵向的张量w;再将h和w输入进平均池化层和Softmax层中,拉伸为两个一维的张量avg_h和avg_w,再将avg_h和avg_w经过一个Sigmod层中,强化需要注意的区域,再用reshape功能分别将两个维度的张量恢复成h和w的维度,接着再用concat功能形成新的特征图g’。
进一步的,在上述方法中,所述步骤S3包括:
S31:损失函数及参数设定:损失函数使用mse均方误差,使用Adam优化器,batchsize设为1,学习率0.00001,epoch设为2000;
S32:将处理后的高斯图输入神经网络进行训练;
S43:加载训练出的网络参数,用测试集测试评价函数mae、mse大小,以估算神经网络的性能。
进一步的,在上述方法中,所述S4包括:
S41:获取视频中的人群图像,将人群图像处理为小于1024乘1024像素,以得到处理后的图像;
S42:将处理后的图像,输入测试好的网络,得到预测人数y。
与现有技术相比,本发明的有益效果是:
1:本发明可以对高密度大规模人群进行更加准确的人群数量估计;
2:本发明改进了经典卷积神经网络的结构,通过特征提取模块和自定义多分支递进强化注意力模块代替了简单的卷积网络层,使用Adam优化器对神经网络的初始权值阈值进行优化,加快了网络的收敛速度,贴近网络最优参数,增强了网络对不同特征的提取;
3:本发明在VGG16的feature层提取特征基础上,通过自定义多分支递进强化注意力模块,进一步强化了不同区域的特征信息,提高网络对密集人群的注意力,克服了密集区域内特征提取细致的问题。
附图说明
图1是本发明一个实施例的基于多分支递进强化注意力神经网络流程示意图;
图2是本发明一个实施例的多分支递进强化注意力神经网络结构示意图;
图3是本发明一个实施例的多分支递进强化注意力模块结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供一种基于多分支递进强化注意力人群计数方法,包括:
S1:读取数据集并进行数据预处理,得到预处理的数据;
S2:构建多分支递进强化注意力神经网络的主干;
S3:基于所述预处理的数据和多分支递进强化注意力神经网络的主干,训练所述多分支递进强化注意力神经网络并测试网络准确性,以得到训练好的神经网络;
S4:获取视频中的人群图像,输入进训练好的神经网络测试,得到该图片的预测人数。
在此,本发明提出采用多分支递进强化注意力神经网络的方法,将有效增强不同区域人群的特征,同时将注意力集中到单个图片中人群数量密集的区域,解决对高密度区域提取特征不丰富问题,强化高密度人群的特征图,使得学习特征更加精细。
本发明能够适用于大规模密集人群场景时的人群数量检测,有效提高检测人数结果的准确性。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,S1包括:
S11:下载公开数据集;
S12:将公开数据集,分为数据集和训练集;
S13:分别将数据集和训练集的图像数据宽高像素补充为8的倍数,并按比例调整定位图的位置,以分别得到数据集的定位图和训练集的定位图;
S14:利用高斯核大小为25的高斯函数将数据集的定位图处理为数据集的密度图,利用高斯核大小为25的高斯函数将训练集的定位图处理为训练集的定位图。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述S2包括:
S21:设置前端网络部分提取特征的结构:以VGG16的feature层作为特征提取层,卷积核大小为3,采用Pytorch的Conv2d卷积,每个卷积层后都加上Relu激活函数,每层的通道数为64,64,128,128,MaxPooling(kernel=2),256,256,256,MaxPooling(kernel=2),512,512,512,用所述结构提取到总体特征;
S22:基于提取到的总体特征,加载VGG16网络结构的预训练参数;
S23:后端网络设计。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述步骤S23包括:
S231:后端主干网络为:二维卷积Conv2d,卷积核大小为3,输入到网络的通道数为512,输出网络层数为128,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM1;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM2;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM3;最近邻插值上采样,上采样倍数为原数图像2倍;最后一层为二维卷积Conv2d输入通道数为16,输出网络层数为1,卷积核大小为1的全卷积网络,后接Relu激活函数,输出预测密度图;
S232:构建多分支递进强化注意力模块网络,其中,共前后两个阶段:将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con1,后将con1输入强化注意力模块处理得到out1;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con2,后将con2加上out1输入强化注意力模块得到out2;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con3,后将con3加上out2输入强化注意力模块得到out3;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con4,后将con4加上out3输入强化注意力模块得到out4;将out4作为第二阶段的输入图像in2,将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con5,后将con5输入强化注意力模块得到out5;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con6,后将con6加上out5输入强化注意力模块得到out6;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con7,后将con7加上out6输入强化注意力模块得到out7;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con8,后将con8加上out7输入强化注意力模块得到out8;
在此,通过此方式为每个特征图增加一个权重参数,从而提高精度;
S233:构建自定义强化注意力模块:将特征图x输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x1;将特征图x1输入二维分离卷积,输入通道等于输出通道,卷积核大小为3,分组数groups等于通道数,得到特征图x2;将特征图x2输入全通道注意力模块,得到的结果再加上x2得到特征图x3;将特征图x3输入交叉通道注意力模块,得到的结果再加上x3得到特征图x4;将特征图x4输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x5,最后将特征图x5加上x得到强化注意力结果F。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述S233还包括:
S2331:构建自定义全通道注意力模块:将特征图f输入全通道注意力模块中,获取其通道数c和批处理数b;再将b和c输入进平均池化层和Softmax层中,拉伸为一维的张量avg,再将avg经过Linear层、Relu层、Linear层和Sigmod层中,强化需要注意的区域,再用reshape功能将其恢复成f的维度,形成新的特征图f’;
S2332:构建自定义交叉通道注意力模块:将特征图g输入交叉通道注意力模块中,获取其通道数c和批处理数b,分别形成横向的张量h和纵向的张量w;再将h和w输入进平均池化层和Softmax层中,拉伸为两个一维的张量avg_h和avg_w,再将avg_h和avg_w经过一个Sigmod层中,强化需要注意的区域,再用reshape功能分别将两个维度的张量恢复成h和w的维度,接着再用concat功能形成新的特征图g’。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述步骤S3包括:
S31:损失函数及参数设定:损失函数使用mse均方误差,使用Adam优化器,batchsize设为1,学习率0.00001,epoch设为2000;
S32:将处理后的高斯图输入神经网络进行训练;
S43:加载训练出的网络参数,用测试集测试评价函数mae、mse大小,以估算神经网络的性能。
本发明的基于多分支递进强化注意力人群计数方法一实施例中,所述S4包括:
S41:获取视频中的人群图像,将人群图像处理为小于1024乘1024像素,以得到处理后的图像;
S42:将处理后的图像,输入测试好的网络,得到预测人数y。
具体的,如图2所示,本发明提供一种基于多分支递进强化注意力的人群计数方法,对其中多分支递进强化注意力的网络结构细节进一步阐述,包括:
1:前端网络部分提取特征。以VGG16的feature层作为特征提取层,卷积核大小为3,采用Pytorch的Conv2d卷积,每个卷积层后都加上Relu激活函数,每层的通道数为64,64,128,128,MaxPooling(kernel=2),256,256,256,MaxPooling(kernel=2),512,512,512。用此结构提取到总体特征。
2:后端网络设计。
3:后端主干网络为:二维卷积Conv2d,卷积核大小为3,输入到网络的通道数为512,输出网络层数为128,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM1;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM2;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM3;最近邻插值上采样,上采样倍数为原数图像2倍;最后一层为二维卷积Conv2d输入通道数为16,输出网络层数为1,卷积核大小为1的全卷积网络,后接Relu激活函数。输出预测密度图。
如图3所示,本发明提供一种基于多分支递进强化注意力的人群计数方法,对其中多分支递进强化注意力的网络结构中的递进强化注意力模块进一步阐述,包括:
1:构建多分支递进强化注意力模块网络,其中共前后两个阶段。将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con1,后将con1输入强化注意力模块处理得到out1;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con2,后将con2加上out1输入强化注意力模块得到out2;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con3,后将con3加上out2输入强化注意力模块得到out3;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con4,后将con4加上out3输入强化注意力模块得到out4;将out4作为第二阶段的输入图像in2。将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con5,后将con5输入强化注意力模块得到out5;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con6,后将con6加上out5输入强化注意力模块得到out6;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con7,后将con7加上out6输入强化注意力模块得到out7;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con8,后将con8加上out7输入强化注意力模块得到out8。通过此方式为每个特征图增加一个权重参数,从而提高精度。
2:构建自定义强化注意力模块。将特征图x输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x1。将特征图x1输入二维分离卷积,输入通道等于输出通道,卷积核大小为3,分组数groups等于通道数,得到特征图x2。将特征图x2输入全通道注意力模块,得到的结果再加上x2得到特征图x3。将特征图x3输入交叉通道注意力模块,得到的结果再加上x3得到特征图x4。将特征图x4输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x5,最后将特征图x5加上x得到强化注意力结果F。
3:构建自定义全通道注意力模块。将特征图f输入全通道注意力模块中,获取其通道数c和批处理数b。再将b和c输入进平均池化层和Softmax层中,拉伸为一维的张量avg,再将avg经过Linear层、Relu层、Linear层和Sigmod层中,强化需要注意的区域,再用reshape功能将其恢复成f的维度,形成新的特征图f’。
4:构建自定义交叉通道注意力模块。将特征图g输入交叉通道注意力模块中,获取其通道数c和批处理数b,分别形成横向的张量h和纵向的张量w。再将h和w输入进平均池化层和Softmax层中,拉伸为两个一维的张量avg_h和avg_w,再将avg_h和avg_w经过一个Sigmod层中,强化需要注意的区域,再用reshape功能分别将两个维度的张量恢复成h和w的维度,接着再用concat功能形成新的特征图g’。
本发明可用于大型集会及人群密集的旅游场所、商场等的人流量检测系统,利用单图片对当前图片人数进行预测,尤其在人数数量密集的情况下,本发明更加准确。
与现有技术相比,本发明的有益效果是:
1:本发明可以对高密度大规模人群进行更加准确的人群数量估计;
2:本发明改进了经典卷积神经网络的结构,通过特征提取模块和自定义多分支递进强化注意力模块代替了简单的卷积网络层,使用Adam优化器对神经网络的初始权值阈值进行优化,加快了网络的收敛速度,贴近网络最优参数,增强了网络对不同特征的提取;
3:本发明在VGG16的feature层提取特征基础上,通过自定义多分支递进强化注意力模块,进一步强化了不同区域的特征信息,提高网络对密集人群的注意力,克服了密集区域内特征提取细致的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (3)

1.一种基于多分支递进强化注意力人群计数方法,其特征在于,包括:
S1:读取数据集并进行数据预处理,得到预处理的数据;
S2:构建多分支递进强化注意力神经网络的主干;
S3:基于所述预处理的数据和多分支递进强化注意力神经网络的主干,训练所述多分支递进强化注意力神经网络并测试网络准确性,以得到训练好的神经网络;
S4:获取视频中的人群图像,输入进训练好的神经网络测试,得到该图片的预测人数;
S1包括:
S11:下载公开数据集;
S12:将公开数据集,分为数据集和训练集;
S13:分别将数据集和训练集的图像数据宽高像素补充为8的倍数,并按比例调整定位图的位置,以分别得到数据集的定位图和训练集的定位图;
S14:利用高斯核大小为25的高斯函数将数据集的定位图处理为数据集的密度图,利用高斯核大小为25的高斯函数将训练集的定位图处理为训练集的定位图;
所述S2包括:
S21:设置前端网络部分提取特征的结构:以VGG16的feature层作为特征提取层,卷积核大小为3,采用Pytorch的Conv2d卷积,每个卷积层后都加上Relu激活函数,每层的通道数为64,64,128,128,MaxPooling(kernel=2),256,256,256,MaxPooling(kernel=2),512,512,512,用所述结构提取到总体特征;
S22:基于提取到的总体特征,加载VGG16网络结构的预训练参数;
S23:后端网络设计;
所述步骤S23包括:
S231:后端主干网络为:二维卷积Conv2d,卷积核大小为3,输入到网络的通道数为512,输出网络层数为128,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM1;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为128,输出网络层数为64,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM2;最近邻插值上采样,上采样倍数为原数图像2倍;二维卷积Conv2d,卷积核大小为3,输入网络层数为64,输出网络层数为16,后接Relu激活函数;自定义的多分支递进强化注意力模块CPM3;最近邻插值上采样,上采样倍数为原数图像2倍;最后一层为二维卷积Conv2d输入通道数为16,输出网络层数为1,卷积核大小为1的全卷积网络,后接Relu激活函数,输出预测密度图;
S232:构建多分支递进强化注意力模块网络,其中,共前后两个阶段:将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con1,后将con1输入强化注意力模块处理得到out1;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con2,后将con2加上out1输入强化注意力模块得到out2;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con3,后将con3加上out2输入强化注意力模块得到out3;将输入图像in1做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con4,后将con4加上out3输入强化注意力模块得到out4;将out4作为第二阶段的输入图像in2,将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为5,填充大小为5,得到卷积结果con5,后将con5输入强化注意力模块得到out5;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为3,填充大小为3,得到卷积结果con6,后将con6加上out5输入强化注意力模块得到out6;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为2,填充大小为2,得到卷积结果con7,后将con7加上out6输入强化注意力模块得到out7;将输入图像in2做二维卷积,输入通道等于输出通道,卷积核大小为3,扩张率为1,填充大小为1,得到卷积结果con8,后将con8加上out7输入强化注意力模块得到out8;
S233:构建自定义强化注意力模块:将特征图x输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x1;将特征图x1输入二维分离卷积,输入通道等于输出通道,卷积核大小为3,分组数groups等于通道数,得到特征图x2;将特征图x2输入全通道注意力模块,得到的结果再加上x2得到特征图x3;将特征图x3输入交叉通道注意力模块,得到的结果再加上x3得到特征图x4;将特征图x4输入二维卷积,输入通道等于输出通道,卷积核大小为3,后接Relu激活函数得到特征图x5,最后将特征图x5加上x得到强化注意力结果F;
所述S233还包括:
S2331:构建自定义全通道注意力模块:将特征图f输入全通道注意力模块中,获取其通道数c和批处理数b;再将b和c输入进平均池化层和Softmax层中,拉伸为一维的张量avg,再将avg经过Linear层、Relu层、Linear层和Sigmod层中,强化需要注意的区域,再用reshape功能将其恢复成f的维度,形成新的特征图f’;
S2332:构建自定义交叉通道注意力模块:将特征图g输入交叉通道注意力模块中,获取其通道数c和批处理数b,分别形成横向的张量h和纵向的张量w;再将h和w输入进平均池化层和Softmax层中,拉伸为两个一维的张量avg_h和avg_w,再将avg_h和avg_w经过一个Sigmod层中,强化需要注意的区域,再用reshape功能分别将两个维度的张量恢复成h和w的维度,接着再用concat功能形成新的特征图g’。
2.如权利要求1所述的基于多分支递进强化注意力人群计数方法,其特征在于,所述步骤S3包括:
S31:损失函数及参数设定:损失函数使用mse均方误差,使用Adam优化器,batchsize设为1,学习率0.00001,epoch设为2000;
S32:将处理后的高斯图输入神经网络进行训练;
S43:加载训练出的网络参数,用测试集测试评价函数mae、mse大小,以估算神经网络的性能。
3.如权利要求1所述的基于多分支递进强化注意力人群计数方法,其特征在于,所述S4包括:
S41:获取视频中的人群图像,将人群图像处理为小于1024乘1024像素,以得到处理后的图像;
S42:将处理后的图像,输入测试好的网络,得到预测人数y。
CN202110605989.9A 2021-05-31 2021-05-31 基于多分支递进强化注意力人群计数方法 Active CN113205078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110605989.9A CN113205078B (zh) 2021-05-31 2021-05-31 基于多分支递进强化注意力人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110605989.9A CN113205078B (zh) 2021-05-31 2021-05-31 基于多分支递进强化注意力人群计数方法

Publications (2)

Publication Number Publication Date
CN113205078A CN113205078A (zh) 2021-08-03
CN113205078B true CN113205078B (zh) 2024-04-16

Family

ID=77023857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110605989.9A Active CN113205078B (zh) 2021-05-31 2021-05-31 基于多分支递进强化注意力人群计数方法

Country Status (1)

Country Link
CN (1) CN113205078B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113947732B (zh) * 2021-12-21 2022-05-31 北京航空航天大学杭州创新研究院 基于强化学习图像亮度调节的空中视角人群计数方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020169043A1 (zh) * 2019-02-21 2020-08-27 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN112597964A (zh) * 2020-12-30 2021-04-02 上海应用技术大学 分层多尺度人群计数的方法
CN112668532A (zh) * 2021-01-05 2021-04-16 重庆大学 基于多阶段混合注意网络的人群计数方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020169043A1 (zh) * 2019-02-21 2020-08-27 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN112597964A (zh) * 2020-12-30 2021-04-02 上海应用技术大学 分层多尺度人群计数的方法
CN112668532A (zh) * 2021-01-05 2021-04-16 重庆大学 基于多阶段混合注意网络的人群计数方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱珂 ; 张莹 ; 李瑞丽 ; .全息课堂:基于数字孪生的可视化三维学习空间新探.远程教育杂志.2020,(04),全文. *
马骞 ; .基于通道域注意力机制的人群密度估计算法研究.电子设计工程.2020,(15),全文. *

Also Published As

Publication number Publication date
CN113205078A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
Marin et al. Efficient segmentation: Learning downsampling near semantic boundaries
CN111767882A (zh) 一种基于改进yolo模型的多模态行人检测方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN109902806A (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN109376611A (zh) 一种基于3d卷积神经网络的视频显著性检测方法
CN114495029B (zh) 一种基于改进YOLOv4的交通目标检测方法及系统
CN114359851A (zh) 无人驾驶目标检测方法、装置、设备及介质
CN112132844A (zh) 基于轻量级的递归式非局部自注意力的图像分割方法
CN111507275B (zh) 一种基于深度学习的视频数据时序信息提取方法及装置
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN113283356B (zh) 多级注意力尺度感知人群计数方法
CN112597964B (zh) 分层多尺度人群计数的方法
CN111062381B (zh) 一种基于深度学习的车牌位置检测方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN111160356A (zh) 一种图像分割分类方法和装置
CN111126401A (zh) 一种基于上下文信息的车牌字符识别方法
CN114821519B (zh) 一种基于坐标注意力的交通标志识别方法及系统
CN113205078B (zh) 基于多分支递进强化注意力人群计数方法
CN111881914B (zh) 一种基于自学习阈值的车牌字符分割方法及系统
CN113505640A (zh) 一种基于多尺度特征融合的小尺度行人检测方法
CN111339950A (zh) 一种遥感图像目标检测方法
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN113850284B (zh) 一种基于多尺度特征融合和多分支预测的多操作检测方法
Chowdary et al. Sign board recognition based on convolutional neural network using yolo-3

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant