CN111242036A - 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法 - Google Patents

一种基于编码-解码结构多尺度卷积神经网络的人群计数方法 Download PDF

Info

Publication number
CN111242036A
CN111242036A CN202010038984.8A CN202010038984A CN111242036A CN 111242036 A CN111242036 A CN 111242036A CN 202010038984 A CN202010038984 A CN 202010038984A CN 111242036 A CN111242036 A CN 111242036A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
scale
image
scale convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010038984.8A
Other languages
English (en)
Other versions
CN111242036B (zh
Inventor
孟月波
刘光辉
徐胜军
纪拓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Architecture and Technology
Original Assignee
Xian University of Architecture and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Architecture and Technology filed Critical Xian University of Architecture and Technology
Priority to CN202010038984.8A priority Critical patent/CN111242036B/zh
Publication of CN111242036A publication Critical patent/CN111242036A/zh
Application granted granted Critical
Publication of CN111242036B publication Critical patent/CN111242036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于编码‑解码结构多尺度卷积神经网络的人群计数方法,其特征在于,包括以下步骤:考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;采用编码‑解码结构,搭建多尺度卷积神经网络模型,所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述;对搭建的多尺度卷积神经网络模型进行训练和测试,获得训练好的多尺度卷积神经网络模型;将待估图像输入训练好的多尺度卷积神经网络模型,预测获得人群密度图;对人群密度图进行回归估计,获得待估图像的人员数量。本发明的方法,能够保留尺度特征和图像的上下文信息;可提升密度图的输出质量。

Description

一种基于编码-解码结构多尺度卷积神经网络的人群计数 方法
技术领域
本发明属于图像处理技术领域,特别涉及一种基于编码-解码结构多尺度卷积神经网络的人群计数方法。
背景技术
随着国民经济迅猛发展及城市化进度不断加快,城市人口数量急剧增加,由此带来的社会问题也不断增加;例如,人员拥挤导致踩踏等不安全事故的发生;候车大厅人员的增加对交通调度带来的压力等。解决上述问题需要准确预测出场景下的人群数量,而图像可以清晰直观的反映出实际场景中的人群变化情况,因此基于图像信息的人群密度估计与计数有重要的研究意义。
卷积神经网络(Convolutional Neural Network,CNN)模型因具有获取深层次特征的能力,在语义分割、目标检测与识别等领域发展迅速,研究人员也将其应用于人群计数领域并取得了较好的效果。Zhang(ZHANG Y,ZHOU D,CHEN S,et al.Single-Image CrowdCounting via Multi-Column Convolutional Neural Network[C]//2016IEEEConference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV,USA:IEEE,2016:589-597.)等首次提出一种多列卷积神经网络(Multi-Column ConvolutionalNeural Network,MCNN)模型,其通过多列CNN结构并行提取多尺度信息,一定程度上解决了多尺度特征提取问题,大大提升了人群计数的精度。受到此多列结构的启发,Zeng(ZENG L,XU X,CAI B,et al.Multi-scale convolutional neural networks for crowd counting[C]//2017IEEE International Conference on Image Processing(ICIP).Piscataway,NJ,USA:IEEE,2017:465-469.)等提出了一种基于多尺度块(Multi-Block)的人群密度估计模型MSCNN,侧重解决多模型组合(Mulit-Network)和多栏组合模型(Multi-Column)存在的模型优化困难问题,简化了模型训练步骤;但多卷积核提取到的特征经1x1卷积融合,损失了底层特征,进而影响了计数准确度。
综上,亟需一种新的基于编码-解码结构多尺度卷积神经网络的人群计数方法。
发明内容
本发明的目的在于提供一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,以解决基于多列卷积神经网络的人群计数方法存在的多尺度特征信息丢失、融合不佳以及密度图质量不高等问题。本发明的方法,能够保留尺度特征和图像的上下文信息;可提升密度图的输出质量。
为达到上述目的,本发明采用以下技术方案:
本发明的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,包括以下步骤:
步骤1,采集场景的图像,考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;
步骤2,采用编码-解码结构,搭建多尺度卷积神经网络模型,用于计算人群的人员数量;其中,所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述;
步骤3,根据步骤1采集的图像以及其对应的真值密度图,对步骤2搭建的多尺度卷积神经网络模型进行训练和测试,获得训练好的多尺度卷积神经网络模型;
步骤4,将待估图像输入步骤3训练好的多尺度卷积神经网络模型,预测获得人群密度图;对人群密度图进行回归估计,获得待估图像的人员数量。
本发明的进一步改进在于,步骤1中具体包括:
步骤1.1,采集的图像x中第i个坐标为xi的人头标记点,表示为函数δ(x-xi);对于一张具有N个人头标记点的图像,表示为H(x)函数,表达式为:
Figure BDA0002367052860000021
步骤1.2,考虑图像的视角扭曲,采用自适应高斯滤波器Gσ与H(x)函数进行卷积,获得密度图方程,表达式为:
Figure BDA0002367052860000031
第i个坐标为xi的人头标记点的自适应高斯核表达式为:
Figure BDA0002367052860000032
式中,
Figure BDA0002367052860000033
是标记点xi与其最近的K个人头之间的平均距离。
本发明的进一步改进在于,步骤1.2中,参数β=0.3。
本发明的进一步改进在于,步骤2搭建的多尺度卷积神经网络模型中:
编码器通过多尺度卷积模块捕获多尺度特征,用于从原始图像中学习与尺度相关的特征,实现多尺度信息的有效获取;
采用空洞空间金字塔池化模块聚合尺度特征,用于避免细节信息的丢失;
解码器对编码器的输出进行上采样,并与前半层的输出特征图经1x1卷积匹配通道数后融合,再经一个3x3的卷积核微调,进行输出,获得预测密度图。
本发明的进一步改进在于,所述多尺度卷积模块采用四个并列的1x1、3x3、5x5、7x7卷积核聚合上下文语义信息,获取尺度信息。
本发明的进一步改进在于,所述空洞空间金字塔池化模块,采用4个并行的不同扩张比率的空洞卷积核对不同尺度特征进行重采样,揭示图像的上下文信息;在空洞卷积尾部串行空间金字塔结构,用于将不同大小特征图映射为相同维度空间信息融入图像表示中。
本发明的进一步改进在于,所述空洞卷积是在标准卷积核中添加空洞,空洞卷积表达式为:
Figure BDA0002367052860000034
式中,w代表卷积核;k代表卷积核尺寸;w[k]表示大小为k的卷积核;a[i]表示第i个输入;*l表示空洞卷积运算;l表示扩张率。
本发明的进一步改进在于,步骤2的所述多尺度卷积神经网络模型的损失函数中,
采用像素空间损失LD反映估计的密度图像素级别的准确程度,表达式为:
Figure BDA0002367052860000041
式中,Di表示第Ki(i=1......M)幅训练样本图像的真值密度图,FD(Ki;θ)表示第Ki(i=1......M)幅训练样本图像的网络输出,θ表示网络的可学习参数;M表示训练图像数量;
采用计数误差描述LY增强网络对计数的敏感性,表达式为:
Figure BDA0002367052860000042
式中,FY(Ki;θ)表示第Ki(i=1......M)幅训练样本图像经由预测密度图FD(Ki;θ)积分求和后得到的预测人数,Yi表示第Ki(i=1......M)幅训练样本图像的真值人数;
总损失函数L表达式为:
L(θ)=LD(1-λ)(θ)+λLY(θ),
式中,λ表示计数损失的权值。
本发明的进一步改进在于,λ的取值为0.5
与现有技术相比,本发明具有以下有益效果:
本发明针对目前人群计数存在的尺度变换以及生成密度图质量不佳问题,提出了基于编码-解码结构的多尺度人群密度估计网络模型;模型通过编码-解码结构融合高低级特征,实现密度图质量的提高。具体的,本发明提出一种编码-解码结构的多尺度卷积神经网络用于人群计数任务,以解决基于多列卷积神经网络的人群计数方法存在的多尺度特征信息丢失、融合不佳以及密度图质量不高等问题。本发明提出一种新的损失函数,在以往像素空间损失函数的基础上考虑了计数损失,可增强网络对计数的敏感性。本发明的方法适用于商场、会场等人群分布复杂的场景,可广泛应用于安防以及交通调度等领域。
本发明中,网络编码器部分采用多列卷积捕获多尺度特征,通过空洞卷积和空间金字塔池化结构扩大感受野并降低参数量,保留尺度特征和图像的上下文信息;解码器部分对编码器输出进行上采样,实现高层语义信息和编码器前端低层特征信息有效融合,从而提升密度图的输出质量。
本发明中,为进一步提升计数精度,本发明提出一种包括人群计数误差描述的新的损失函数,以提升网络对计数的敏感性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法的流程示意框图;
图2是本发明实施例中,基于编码-解码结构的多尺度人群密度估计模型结构示意图;
图3是本发明实施例中,多尺度卷积模块示意图;
图4是本发明实施例中,多尺度卷积块示意图;
图5是本发明实施例中,扩张卷积感受野变化示意图;其中,图5中的(a)表示标准的3×3卷积,图5中的(b)表示扩张率为2的3×3扩张卷积,图5中的(c)表示扩张率为4的3×3扩张卷积;
图6是本发明实施例中,一单幅测试图像实验结果示意图;其中,图(6)中的(a)为原图示意图,图(6)中的(b)为真值密度图及人数示意图,图(6)中的(c)为预测密度图及人数示意图;
图7是本发明实施例中,又一单幅测试图像实验结果示意图;其中,图(7)中的(a)为原图示意图,图(7)中的(b)为真值密度图及人数示意图,图(7)中的(c)为预测密度图及人数示意图;
图8是本发明实施例中,再一单幅测试图像实验结果示意图;其中,图(8)中的(a)为原图示意图,图(8)中的(b)为真值密度图及人数示意图,图(8)中的(c)为预测密度图及人数示意图;
图9是本发明实施例中,测试数据集实验结果示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
本发明实施例的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,包括以下步骤:
步骤1:通过监控摄像头采集实际场景下的图像信息,考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;
步骤2:采用编码-解码结构,搭建多尺度卷积神经网络人群计数网络模型,用于人群计数任务;
步骤3:建立包括像素空间损失和计数误差描述两部分的损失函数。
步骤4:完成网络训练,获得性能较好的模型参数;网络模型参数确定后,输入待估图像,预测人群密度图,并对人群密度图进行回归估计,得到当前图像人员数量。
本发明实施例中,步骤1具体包括:
1a)图像x中第i个坐标为xi的人头标记点,将其表示为函数δ(x-xi),对于一张具有N个人头标记点的图像可以将其表示为H(x)函数:
Figure BDA0002367052860000071
1b)考虑图像的视角扭曲,采用自适应高斯滤波器Gσ与公式(1)进行卷积,得到如公式(2)的密度图方程。第i个坐标为xi的人头标记点的自适应高斯核如公式(3)所示。
Figure BDA0002367052860000072
Figure BDA0002367052860000073
式中,
Figure BDA0002367052860000074
是标记点xi与其最近的K个人头之间的平均距离。
优选的,参数β=0.3时生成的密度图质量最好。
本发明实施例中,步骤2具体包括:
2a)搭建基于编码-解码结构的多尺度卷积神经网络基本结构。
2b)编码器部分通过多尺度卷积模块(Multi-Conv)捕获多尺度特征,从原始图像中学习与尺度相关的特征,实现多尺度信息的有效获取;采用空洞空间金字塔池化模块(Atrous Space Pyramid Pooling,ASPP)聚合尺度特征,避免细节信息的丢失。
2c)本发明多尺度卷积模块(Multi-Conv)从原始图像中学习与尺度相关的特征,实现多尺度信息的有效获取。具体的,该模块采用四个并列的1x1、3x3、5x5、7x7卷积核来聚合上下文语义信息,获取尺度信息。
2d)本发明空洞空间金字塔池化模块(ASPP),利用4个并行的不同扩张比率的空洞卷积核对不同尺度特征进行重采样,揭示图像的上下文信息;在空洞卷积尾部串行空间金字塔结构,将不同大小特征图映射为相同维度空间信息融入图像表示中,以更好地完成密度图预测任务。
空洞卷积是通过在标准卷积核中添加空洞,即在空洞的位置添加0,达到扩大卷积核尺度,增大感受野的目的,且不增加参数运算量。空洞卷积算法定义如式(4)所示,w代表卷积核;k代表卷积核尺寸;w[k]表示大小为k的卷积核;a[i]表示第i个输入;*l表示空洞卷积运算;l表示扩张率,描述卷积核处理数据时采样的步幅,调整l可自适应的调整感受野大小。
Figure BDA0002367052860000081
2e)解码器部分对编码器的输出(高级特征)进行上采样,并与前半层的输出特征图(低级特征)经1x1卷积匹配通道数后融合,经一个3x3的卷积核微调后,进行输出,获得预测密度图。
本发明实施例中,步骤3具体包括:
3a)采用像素空间损失LD反映估计的密度图像素级别的准确程度,其表达式如式(5)所示。
Figure BDA0002367052860000082
式中,Di表示第Ki(i=1......M)幅训练样本图像的真值密度图,FD(Ki;θ)表示第Ki(i=1......M)幅训练样本图像的网络输出,即预测密度图;θ表示网络的可学习参数;M表示训练图像数量。
3b)采用计数误差描述LY增强网络对计数的敏感性,其表达式如式(6)所示。
Figure BDA0002367052860000083
式中,FY(Ki;θ)表示第Ki(i=1......M)幅训练样本图像经由预测密度图FD(Ki;θ)积分求和后得到的预测人数,Yi表示第Ki(i=1......M)幅训练样本图像的真值人数。
3c)本发明总损失函数L表达式如式(7)所示:
L(θ)=LD(1-λ)(θ)+λLY(θ) (7)
式中,λ表示计数损失的权值。
优选的,本发明将λ设为0.5。
综上所述,本发明实施例针对目前人群计数存在的尺度变换以及生成密度图质量不佳问题,提出基于编码-解码结构的多尺度人群密度估计网络模型。模型通过编码-解码结构融合高低级特征,实现密度图质量的提高。网络编码器部分采用多列卷积捕获多尺度特征,通过空洞卷积和空间金字塔池化结构扩大感受野并降低参数量,保留尺度特征和图像的上下文信息;解码器部分对编码器输出进行上采样,实现高层语义信息和编码器前端低层特征信息有效融合,从而提升密度图的输出质量。本发明实施例提出一种新的损失函数,在以往像素空间损失函数的基础上考虑了计数损失,增强了网络对计数的敏感性。
请参阅图1,本发明实施例的一种基于编码-解码结构的多尺度人群密度估计方法,包括以下步骤:
步骤1:通过监控摄像头采集实际场景下的图像信息,考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图。
1a)图像x中第i个坐标为xi的人头标记点,将其表示为函数δ(x-xi),对于一张具有N个人头标记点的图像可以将其表示为H(x)函数:
Figure BDA0002367052860000091
1b)考虑图像的视角扭曲,采用自适应高斯滤波器Gσ与公式(1)进行卷积,得到如公式(2)的密度图方程。第i个坐标为xi的人头标记点的自适应高斯核如公式(3)所示。
Figure BDA0002367052860000092
Figure BDA0002367052860000101
式中,
Figure BDA0002367052860000102
是标记点xi与其最近的K个人头之间的平均距离。当参数β=0.3时生成的密度图质量最好。
请参阅图2至图5,步骤2:采用编码-解码结构,搭建多尺度卷积神经网络人群计数网络模型,用于人群计数任务。
2a)搭建基于编码-解码结构的多尺度卷积神经网络基本结构,具体如图2所示。
2b)编码器部分通过多尺度卷积模块(Multi-Conv)捕获多尺度特征,从原始图像中学习与尺度相关的特征,实现多尺度信息的有效获取,其具体结构如图3所示。采用空洞空间金字塔池化模块(Atrous Space Pyramid Pooling,ASPP)聚合尺度特征,避免细节信息的丢失。
2c)本发明多尺度卷积模块(Multi-Conv)从原始图像中学习与尺度相关的特征,实现多尺度信息的有效获取,具体结构如图4所示。该模块采用四个并列的1x1、3x3、5x5、7x7卷积核来聚合上下文语义信息,获取尺度信息。
2d)本发明空洞空间金字塔池化模块(ASPP),利用4个并行的不同扩张比率的空洞卷积核对不同尺度特征进行重采样,揭示图像的上下文信息;在空洞卷积尾部串行空间金字塔结构,将不同大小特征图映射为相同维度空间信息融入图像表示中,以更好地完成密度图预测任务。
空洞卷积是通过在标准卷积核中添加空洞,即在空洞的位置添加0,达到扩大卷积核尺度,增大感受野的目的,且不增加参数运算量。空洞卷积算法定义如式(4)所示,w代表卷积核;k代表卷积核尺寸;w[k]表示大小为k的卷积核;a[i]表示第i个输入;*l表示空洞卷积运算;l表示扩张率,描述卷积核处理数据时采样的步幅,调整l可自适应的调整感受野大小。
Figure BDA0002367052860000103
不同空洞率的空洞卷积如图5所示,图5中的(a)表示标准的3×3卷积,其感受野仅为3×3;图5中的(b)表示扩张率为2的3×3扩张卷积,其感受野可达7×7;图5中的(c)表示扩张率为4的3×3扩张卷积,其感受野可达15×15。
2e)解码器部分对编码器的输出(高级特征)进行上采样,并与前半层的输出特征图(低级特征)经1x1卷积匹配通道数后融合,经一个3x3的卷积核微调后,进行输出,获得预测密度图。
步骤3:建立包括像素空间损失和计数误差描述两部分的损失函数。
3a)采用像素空间损失LD反映估计的密度图像素级别的准确程度,其表达式如式(5)所示。
Figure BDA0002367052860000111
式中,Di表示第Ki(i=1......M)幅训练样本图像的真值密度图,FD(Ki;θ)表示第Ki(i=1......M)幅训练样本图像的网络输出,即预测密度图;θ表示网络的可学习参数;M表示训练图像数量。
3b)采用计数误差描述LY增强网络对计数的敏感性,其表达式如式(6)所示。
Figure BDA0002367052860000112
式中,FY(Ki;θ)表示第Ki(i=1......M)幅训练样本图像经由预测密度图FD(Ki;θ)积分求和后得到的预测人数,Yi表示第Ki(i=1......M)幅训练样本图像的真值人数。
3c)本发明总损失函数L表达式如式(7)所示:
L(θ)=LD(1-λ)(θ)+λLY(θ) (7)
式中,λ表示计数损失的权值,本发明实施例将其设为0.5。
步骤4:完成网络训练,获得性能较好的模型参数;网络模型参数确定后,输入待估图像,预测人群密度图,并对人群密度图进行回归估计,得到当前图像人员数量。
请参阅图6至图9和表1,本发明算法实验在Ubuntu系统下进行,GPU型号为TitanV,环境配置为CUDA9.0+anaconda3+python3+tensorflow1.8.0。所有层均使用标准差为0.01的高斯分布初始化,网络初始训练学习率为1e-2,迭代次数为100000。
本发明在ShanghaiTech数据集(ZHANG Y,ZHOU D,CHEN S,et al.Single-ImageCrowd Counting via Multi-Column Convolutional Neural Network[C]//2016IEEEConference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV,USA:IEEE,2016:589-597.)进行了实验与实验结果分析。ShanghaiTech数据集共包含1198幅图像,共计330165个已标记人头,是目前已知标记人数最多的数据集。数据集共分为两部分,Part_A和Part_B。Part_A包含482幅图像,来源于互联网;Part_B包含716幅图像,来源于上海的街道。本发明将Part_A的300幅和Part_B的400幅图像用于训练,其余用于测试。
ShanghaiTech数据集部分单幅测试图像原图、真值密度图及计数真值、预测密度图及预测人数如图6、图7、图8所示,整个测试集人数预测结果如图9所示,本发明提出算法与对比算法(技术背景中提到的MCNN与MSCNN两种算法)实验结果性能对比如表1所示。
将图6、图7、图8中的真值与预测结果对比,可以发现,本发明密度图预测效果较好,人数预测误差较小;由图9实验结果可知,在整个测试集上,本发明算法人数预测具有较高准确度。
表1
Figure BDA0002367052860000121
表1实验性能评价指标采用本领域常用的平均绝对误差(MAE)和均方误差(MSE)作为评价指标,其中,MAE反映网络预测人数与图像真值人数之间的误差,MSE描述网络预测人数与图像真值人数之间差异程度。由表1可知,本发明算法MAE有了7.3的提升,MSE有了18.2的提升,表明本文算法具有准确度较高,鲁棒性较好。
本发明实施例提出了一种编码-解码架构的多尺度卷积神经网络(Encoding-Decoding Multi-Scale Convolutional Neural Network,EDMSCNN)人群计数方法。网络编码器部分采用多列卷积捕获多尺度特征,通过空洞卷积和空间金字塔池化结构扩大感受野并降低参数量,保留尺度特征和图像的上下文信息;解码器部分对编码器输出进行上采样,实现高层语义信息和编码器前端低层特征信息有效融合,从而提升密度图的输出质量。此外,本发明提出了一种新的损失函数,在以往像素空间损失的基础上考虑了计数误差描述,增强网络对计数的敏感性。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (9)

1.一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,包括以下步骤:
步骤1,采集场景的图像,考虑图像的视角扭曲,采用自适应高斯滤波器,计算图像的真值密度图;
步骤2,采用编码-解码结构,搭建多尺度卷积神经网络模型,用于计算人群的人员数量;其中,所述多尺度卷积神经网络模型的损失函数包括像素空间损失和计数误差描述;
步骤3,根据步骤1采集的图像以及其对应的真值密度图,对步骤2搭建的多尺度卷积神经网络模型进行训练和测试,获得训练好的多尺度卷积神经网络模型;
步骤4,将待估图像输入步骤3训练好的多尺度卷积神经网络模型,预测获得人群密度图;对人群密度图进行回归估计,获得待估图像的人员数量。
2.根据权利要求1所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,步骤1中具体包括:
步骤1.1,采集的图像x中第i个坐标为xi的人头标记点,表示为函数δ(x-xi);对于一张具有N个人头标记点的图像,表示为H(x)函数,表达式为:
Figure FDA0002367052850000011
步骤1.2,考虑图像的视角扭曲,采用自适应高斯滤波器Gσ与H(x)函数进行卷积,获得密度图方程,表达式为:
Figure FDA0002367052850000012
第i个坐标为xi的人头标记点的自适应高斯核表达式为:
Figure FDA0002367052850000013
式中,
Figure FDA0002367052850000014
是标记点xi与其最近的K个人头之间的平均距离。
3.根据权利要求2所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,步骤1.2中,参数β=0.3。
4.根据权利要求1所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,步骤2搭建的多尺度卷积神经网络模型中:
编码器通过多尺度卷积模块捕获多尺度特征,用于从原始图像中学习与尺度相关的特征,实现多尺度信息的有效获取;
采用空洞空间金字塔池化模块聚合尺度特征,用于避免细节信息的丢失;
解码器对编码器的输出进行上采样,并与前半层的输出特征图经1x1卷积匹配通道数后融合,再经一个3x3的卷积核微调,进行输出,获得预测密度图。
5.根据权利要求4所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,所述多尺度卷积模块采用四个并列的1x1、3x3、5x5、7x7卷积核聚合上下文语义信息,获取尺度信息。
6.根据权利要求4所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,所述空洞空间金字塔池化模块,采用4个并行的不同扩张比率的空洞卷积核对不同尺度特征进行重采样,揭示图像的上下文信息;在空洞卷积尾部串行空间金字塔结构,用于将不同大小特征图映射为相同维度空间信息融入图像表示中。
7.根据权利要求6所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,所述空洞卷积是在标准卷积核中添加空洞,空洞卷积表达式为:
Figure FDA0002367052850000021
式中,w代表卷积核;k代表卷积核尺寸;w[k]表示大小为k的卷积核;a[i]表示第i个输入;*l表示空洞卷积运算;l表示扩张率。
8.根据权利要求1所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,步骤2的所述多尺度卷积神经网络模型的损失函数中,
采用像素空间损失LD反映估计的密度图像素级别的准确程度,表达式为:
Figure FDA0002367052850000031
式中,Di表示第Ki,i=1......M幅训练样本图像的真值密度图,FD(Ki;θ)表示第Ki,i=1......M幅训练样本图像的网络输出,θ表示网络的可学习参数;M表示训练图像数量;
采用计数误差描述LY增强网络对计数的敏感性,表达式为:
Figure FDA0002367052850000032
式中,FY(Ki;θ)表示第Ki,i=1......M幅训练样本图像经由预测密度图FD(Ki;θ)积分求和后得到的预测人数,Yi表示第Ki,i=1......M幅训练样本图像的真值人数;
总损失函数L表达式为:
L(θ)=LD(1-λ)(θ)+λLY(θ),
式中,λ表示计数损失的权值。
9.根据权利要求8所述的一种基于编码-解码结构多尺度卷积神经网络的人群计数方法,其特征在于,λ的取值为0.5。
CN202010038984.8A 2020-01-14 2020-01-14 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法 Active CN111242036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010038984.8A CN111242036B (zh) 2020-01-14 2020-01-14 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010038984.8A CN111242036B (zh) 2020-01-14 2020-01-14 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法

Publications (2)

Publication Number Publication Date
CN111242036A true CN111242036A (zh) 2020-06-05
CN111242036B CN111242036B (zh) 2023-05-09

Family

ID=70865662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010038984.8A Active CN111242036B (zh) 2020-01-14 2020-01-14 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法

Country Status (1)

Country Link
CN (1) CN111242036B (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753671A (zh) * 2020-06-02 2020-10-09 华东师范大学 一种现实场景的人群计数方法
CN111783610A (zh) * 2020-06-23 2020-10-16 西北工业大学 一种基于解纠缠图像迁移的跨域人群计数方法
CN111783589A (zh) * 2020-06-23 2020-10-16 西北工业大学 基于场景分类和多尺度特征融合的复杂场景人群计数方法
CN111815665A (zh) * 2020-07-10 2020-10-23 电子科技大学 基于深度信息与尺度感知信息的单张图像人群计数方法
CN111832413A (zh) * 2020-06-09 2020-10-27 天津大学 基于时空多尺度网络的人流密度图估计、定位和跟踪方法
CN111832414A (zh) * 2020-06-09 2020-10-27 天津大学 一种基于图正则光流注意力网络的动物计数方法
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数系统及方法
CN111950519A (zh) * 2020-08-27 2020-11-17 重庆科技学院 基于检测与密度估计的双列卷积神经网络人群计数方法
CN112101164A (zh) * 2020-09-06 2020-12-18 西北工业大学 基于全卷积网络的轻量化人群计数方法
CN112115988A (zh) * 2020-09-03 2020-12-22 中国农业大学 一种麦穗计数方法、装置及自行走小车
CN112149582A (zh) * 2020-09-27 2020-12-29 中国科学院空天信息创新研究院 一种高光谱图像材质识别方法及系统
CN112364788A (zh) * 2020-11-13 2021-02-12 润联软件系统(深圳)有限公司 基于深度学习的监控视频人群数量监测方法及其相关组件
CN112418292A (zh) * 2020-11-17 2021-02-26 平安科技(深圳)有限公司 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112465745A (zh) * 2020-10-26 2021-03-09 脉得智能科技(无锡)有限公司 一种基于全卷积回归网络的细胞计数方法
CN112541891A (zh) * 2020-12-08 2021-03-23 山东师范大学 一种基于空洞卷积高分辨率网络的人群计数方法及系统
CN112541459A (zh) * 2020-12-21 2021-03-23 山东师范大学 基于多尺度感知注意力网络的人群计数方法及系统
CN112560732A (zh) * 2020-12-22 2021-03-26 电子科技大学中山学院 一种多尺度特征提取网络及该网络的特征提取方法
CN112580545A (zh) * 2020-12-24 2021-03-30 山东师范大学 基于多尺度自适应上下文网络的人群计数方法及系统
CN112668537A (zh) * 2021-01-06 2021-04-16 北京理工大学 一种基于多尺度跳跃连接的群体计数方法
CN112733714A (zh) * 2021-01-11 2021-04-30 北京大学 一种基于vgg网络的自动人群计数图像识别方法
CN112784685A (zh) * 2020-12-28 2021-05-11 山东师范大学 基于多尺度引导注意力机制网络的人群计数方法及系统
CN112966600A (zh) * 2021-03-04 2021-06-15 上海应用技术大学 用于拥挤人群计数的自适应多尺度上下文聚合方法
CN112991274A (zh) * 2021-02-19 2021-06-18 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
CN113139489A (zh) * 2021-04-30 2021-07-20 广州大学 基于背景提取和多尺度融合网络的人群计数方法及系统
CN113408498A (zh) * 2021-08-05 2021-09-17 广东众聚人工智能科技有限公司 一种人群计数系统及方法、设备及存储介质
CN113743422A (zh) * 2021-09-07 2021-12-03 西安建筑科技大学 多特征信息融合的人群密度估计方法、设备及存储介质
CN113887473A (zh) * 2021-10-15 2022-01-04 中国海洋大学 一种基于改进的规范化可变形卷积人群计数方法
CN114154620A (zh) * 2021-11-29 2022-03-08 上海应用技术大学 人群计数网络的训练方法
CN114155210A (zh) * 2021-11-17 2022-03-08 大连民族大学 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法
CN114170188A (zh) * 2021-12-09 2022-03-11 同济大学 一种俯视图像的目标计数方法、系统及存储介质
CN114399728A (zh) * 2021-12-17 2022-04-26 燕山大学 一种雾天场景人群计数方法
CN116228782A (zh) * 2022-12-22 2023-06-06 中国农业科学院农业信息研究所 基于无人机采集的麦田穗数计数方法和装置
CN116805337A (zh) * 2023-08-25 2023-09-26 天津师范大学 一种基于跨尺度视觉变换网络的人群定位方法
CN116859717A (zh) * 2023-04-17 2023-10-10 浙江万能弹簧机械有限公司 智能自适应采样控制系统及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
WO2019174378A1 (zh) * 2018-03-14 2019-09-19 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862261A (zh) * 2017-10-25 2018-03-30 天津大学 基于多尺度卷积神经网络的图像人群计数方法
WO2019174378A1 (zh) * 2018-03-14 2019-09-19 大连理工大学 一种基于深度预测和增强子网络的高质量深度估计方法
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴淑窈等: "基于卷积神经网络人群计数的研究与实现", 《科教导刊(上旬刊)》 *
盛馨心等: "基于深度卷积网络与空洞卷积融合的人群计数", 《上海师范大学学报(自然科学版)》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753671A (zh) * 2020-06-02 2020-10-09 华东师范大学 一种现实场景的人群计数方法
CN111832413B (zh) * 2020-06-09 2021-04-02 天津大学 基于时空多尺度网络的人流密度图估计、定位和跟踪方法
CN111832414B (zh) * 2020-06-09 2021-05-14 天津大学 一种基于图正则光流注意力网络的动物计数方法
CN111832413A (zh) * 2020-06-09 2020-10-27 天津大学 基于时空多尺度网络的人流密度图估计、定位和跟踪方法
CN111832414A (zh) * 2020-06-09 2020-10-27 天津大学 一种基于图正则光流注意力网络的动物计数方法
CN111860162B (zh) * 2020-06-17 2023-10-31 上海交通大学 一种视频人群计数系统及方法
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数系统及方法
CN111783610B (zh) * 2020-06-23 2022-03-15 西北工业大学 一种基于解纠缠图像迁移的跨域人群计数方法
CN111783589A (zh) * 2020-06-23 2020-10-16 西北工业大学 基于场景分类和多尺度特征融合的复杂场景人群计数方法
CN111783610A (zh) * 2020-06-23 2020-10-16 西北工业大学 一种基于解纠缠图像迁移的跨域人群计数方法
CN111815665B (zh) * 2020-07-10 2023-02-17 电子科技大学 基于深度信息与尺度感知信息的单张图像人群计数方法
CN111815665A (zh) * 2020-07-10 2020-10-23 电子科技大学 基于深度信息与尺度感知信息的单张图像人群计数方法
CN111950519A (zh) * 2020-08-27 2020-11-17 重庆科技学院 基于检测与密度估计的双列卷积神经网络人群计数方法
CN112115988A (zh) * 2020-09-03 2020-12-22 中国农业大学 一种麦穗计数方法、装置及自行走小车
CN112115988B (zh) * 2020-09-03 2024-02-02 中国农业大学 一种麦穗计数方法、装置及自行走小车
CN112101164A (zh) * 2020-09-06 2020-12-18 西北工业大学 基于全卷积网络的轻量化人群计数方法
CN112149582A (zh) * 2020-09-27 2020-12-29 中国科学院空天信息创新研究院 一种高光谱图像材质识别方法及系统
CN112465745B (zh) * 2020-10-26 2024-04-16 脉得智能科技(无锡)有限公司 一种基于全卷积回归网络的细胞计数方法
CN112465745A (zh) * 2020-10-26 2021-03-09 脉得智能科技(无锡)有限公司 一种基于全卷积回归网络的细胞计数方法
CN112364788B (zh) * 2020-11-13 2021-08-03 润联软件系统(深圳)有限公司 基于深度学习的监控视频人群数量监测方法及其相关组件
CN112364788A (zh) * 2020-11-13 2021-02-12 润联软件系统(深圳)有限公司 基于深度学习的监控视频人群数量监测方法及其相关组件
CN112418292A (zh) * 2020-11-17 2021-02-26 平安科技(深圳)有限公司 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112418292B (zh) * 2020-11-17 2024-05-10 平安科技(深圳)有限公司 一种图像质量评价的方法、装置、计算机设备及存储介质
WO2022105117A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112541891A (zh) * 2020-12-08 2021-03-23 山东师范大学 一种基于空洞卷积高分辨率网络的人群计数方法及系统
CN112541459A (zh) * 2020-12-21 2021-03-23 山东师范大学 基于多尺度感知注意力网络的人群计数方法及系统
CN112560732A (zh) * 2020-12-22 2021-03-26 电子科技大学中山学院 一种多尺度特征提取网络及该网络的特征提取方法
CN112560732B (zh) * 2020-12-22 2023-07-04 电子科技大学中山学院 一种多尺度特征提取网络的特征提取方法
CN112580545B (zh) * 2020-12-24 2022-07-29 山东师范大学 基于多尺度自适应上下文网络的人群计数方法及系统
CN112580545A (zh) * 2020-12-24 2021-03-30 山东师范大学 基于多尺度自适应上下文网络的人群计数方法及系统
CN112784685A (zh) * 2020-12-28 2021-05-11 山东师范大学 基于多尺度引导注意力机制网络的人群计数方法及系统
CN112784685B (zh) * 2020-12-28 2022-08-26 山东师范大学 基于多尺度引导注意力机制网络的人群计数方法及系统
CN112668537A (zh) * 2021-01-06 2021-04-16 北京理工大学 一种基于多尺度跳跃连接的群体计数方法
CN112733714B (zh) * 2021-01-11 2024-03-01 北京大学 一种基于vgg网络的自动人群计数图像识别方法
CN112733714A (zh) * 2021-01-11 2021-04-30 北京大学 一种基于vgg网络的自动人群计数图像识别方法
CN112991274B (zh) * 2021-02-19 2023-06-30 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
CN112991274A (zh) * 2021-02-19 2021-06-18 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
CN112966600B (zh) * 2021-03-04 2024-04-16 上海应用技术大学 用于拥挤人群计数的自适应多尺度上下文聚合方法
CN112966600A (zh) * 2021-03-04 2021-06-15 上海应用技术大学 用于拥挤人群计数的自适应多尺度上下文聚合方法
CN113139489B (zh) * 2021-04-30 2023-09-05 广州大学 基于背景提取和多尺度融合网络的人群计数方法及系统
CN113139489A (zh) * 2021-04-30 2021-07-20 广州大学 基于背景提取和多尺度融合网络的人群计数方法及系统
CN113408498A (zh) * 2021-08-05 2021-09-17 广东众聚人工智能科技有限公司 一种人群计数系统及方法、设备及存储介质
CN113743422A (zh) * 2021-09-07 2021-12-03 西安建筑科技大学 多特征信息融合的人群密度估计方法、设备及存储介质
CN113743422B (zh) * 2021-09-07 2024-05-03 西安建筑科技大学 多特征信息融合的人群密度估计方法、设备及存储介质
CN113887473B (zh) * 2021-10-15 2024-04-26 中国海洋大学 一种基于改进的规范化可变形卷积人群计数方法
CN113887473A (zh) * 2021-10-15 2022-01-04 中国海洋大学 一种基于改进的规范化可变形卷积人群计数方法
CN114155210B (zh) * 2021-11-17 2024-04-26 大连民族大学 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法
CN114155210A (zh) * 2021-11-17 2022-03-08 大连民族大学 基于注意力机制与标准化密集空洞空间多尺度融合网络的人群计数方法
CN114154620B (zh) * 2021-11-29 2024-05-21 上海应用技术大学 人群计数网络的训练方法
CN114154620A (zh) * 2021-11-29 2022-03-08 上海应用技术大学 人群计数网络的训练方法
CN114170188A (zh) * 2021-12-09 2022-03-11 同济大学 一种俯视图像的目标计数方法、系统及存储介质
CN114399728B (zh) * 2021-12-17 2023-12-05 燕山大学 一种雾天场景人群计数方法
CN114399728A (zh) * 2021-12-17 2022-04-26 燕山大学 一种雾天场景人群计数方法
CN116228782B (zh) * 2022-12-22 2024-01-12 中国农业科学院农业信息研究所 基于无人机采集的麦田穗数计数方法和装置
CN116228782A (zh) * 2022-12-22 2023-06-06 中国农业科学院农业信息研究所 基于无人机采集的麦田穗数计数方法和装置
CN116859717B (zh) * 2023-04-17 2024-03-08 浙江万能弹簧机械有限公司 智能自适应采样控制系统及其方法
CN116859717A (zh) * 2023-04-17 2023-10-10 浙江万能弹簧机械有限公司 智能自适应采样控制系统及其方法
CN116805337B (zh) * 2023-08-25 2023-10-27 天津师范大学 一种基于跨尺度视觉变换网络的人群定位方法
CN116805337A (zh) * 2023-08-25 2023-09-26 天津师范大学 一种基于跨尺度视觉变换网络的人群定位方法

Also Published As

Publication number Publication date
CN111242036B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111242036B (zh) 一种基于编码-解码结构多尺度卷积神经网络的人群计数方法
CN107967451B (zh) 一种对静止图像进行人群计数的方法
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
WO2021208275A1 (zh) 一种交通视频背景建模方法及系统
CN108830145B (zh) 一种基于深度神经网络的人数统计方法及存储介质
CN111563447B (zh) 一种基于密度图的人群密度分析与检测定位方法
WO2022257408A1 (zh) 一种基于u型网络的医学图像分割方法
CN110879982B (zh) 一种人群计数系统及方法
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
CN111311647B (zh) 一种基于全局-局部及卡尔曼滤波的目标跟踪方法及装置
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
JP2008243187A (ja) ビデオのフレームのシーケンスにおいてオブジェクトを追跡するコンピュータに実装される方法
CN108288047A (zh) 一种行人/车辆检测方法
CN107967695A (zh) 一种基于深度光流和形态学方法的运动目标检测方法
CN109242019B (zh) 一种水面光学小目标快速检测与跟踪方法
CN109708658B (zh) 一种基于卷积神经网络的视觉里程计方法
CN111476089B (zh) 一种图像中多模态信息融合的行人检测方法、系统及终端
CN107944437B (zh) 一种基于神经网络和积分图像的人脸定位方法
Kuang et al. Real-time pedestrian detection using convolutional neural networks
CN110827304A (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
CN116740439A (zh) 一种基于跨尺度金字塔Transformer的人群计数方法
CN115147819A (zh) 基于注视点预测模型的驾驶员注视点预测方法
CN116519106B (zh) 一种用于测定生猪体重的方法、装置、存储介质和设备
CN105118073A (zh) 基于Xtion摄像机的人体头部目标识别方法
CN111127355A (zh) 一种对缺损光流图进行精细补全的方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant