CN110991252A - 一种不均衡场景中人群分布与计数的检测方法 - Google Patents

一种不均衡场景中人群分布与计数的检测方法 Download PDF

Info

Publication number
CN110991252A
CN110991252A CN201911084086.XA CN201911084086A CN110991252A CN 110991252 A CN110991252 A CN 110991252A CN 201911084086 A CN201911084086 A CN 201911084086A CN 110991252 A CN110991252 A CN 110991252A
Authority
CN
China
Prior art keywords
output
input
convolution
layer
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911084086.XA
Other languages
English (en)
Other versions
CN110991252B (zh
Inventor
姜晓恒
徐明亮
张力
吕培
朱睿杰
李亚飞
高志敏
郭毅博
周兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN201911084086.XA priority Critical patent/CN110991252B/zh
Publication of CN110991252A publication Critical patent/CN110991252A/zh
Application granted granted Critical
Publication of CN110991252B publication Critical patent/CN110991252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种不均衡场景中人群分布与计数的检测方法。该方法包括构建网络、预测密度、计算优化和数据验证,主要通过构建一个多级多分枝的卷积神经网络,每一个分支的输入来自不同分辨率的卷积层的输出组合,再融合为一个整体输出,使用训练图集分别输入到该卷积神经网络,得到预测密度图,引入训练图集的场景中的人群数量信息,与预测密度图进行比较来计算损失,来优化调整多级卷积神经网络的参数,使得计算损失的结果最小,最终获得最佳预测效果。本发明具有更高的检测准确率和检测效率,以及良好的可迁移性。

Description

一种不均衡场景中人群分布与计数的检测方法
技术领域
本发明涉及计算机视觉和深度学习领域,尤其涉及一种不均衡场景中人群分布与计数的检测方法。
背景技术
通过视频监控来进行人群数量估算具有重要意义,人群数量检测得到的数据对于公共安全管理、信息资源管理、公共交通管理等方面都具有极高的价值。例如,用于公共交通中,通过获得乘客在空间、时间上的分布情况来灵活调整车辆运行时间表;用于大型商场中,通过对顾客流量和分布信息的分析来制定高效率的营销策略等。
检测场景中的人群密度分布最大的难点在于人群分布的不均衡和人员远近的尺度变化。一方面,由于摄像机的视角,人的大小差异很大,远离相机的人看起来更小并且可能彼此遮挡,而靠近相机的人看起来更大并且相对稀疏。另一方面,人数在相同或不同的场景中也有很大差异。
现有技术中,缺乏针对这种不均衡特性提供准确的人群分布与计数方法。
发明内容
本发明主要解决的技术问题是提供一种不均衡场景中人群分布与计数的检测方法,解决现有技术中对人群分布检测识别准确率和效率不高,以及可迁移性不好的问题。
为解决上述技术问题,本发明采用的一个技术方案是提供一种不均衡场景中人群分布与计数的检测方法,包括以下步骤:构建网络,构建一个多级卷积神经网络,该网络包括卷积层、池化层和转置卷积层且具有多个分支,每一个分支的输入来自不同分辨率的卷积层的输出组合,每一个分支再融合为一个整体输出;预测密度,使用训练图集分别输入到所述多级卷积神经网络,得到预测密度图;计算优化,引入所述训练图集的场景中的人群数量信息,与所述预测密度图进行比较来计算损失,通过优化调整所述多级卷积神经网络的参数,使得计算损失的结果最小;数据验证,进一步通过公开的数据图集对经过计算损失优化的所述多级卷积神经网络进行验证,最终获得最佳预测效果。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,所述多级卷积神经网络包括骨干网络和三个分支网络,在骨干网络中从输入端开始依次是第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层和第一融合卷积层;第一分支网络包括从所述第三卷积层中的三个卷积子层输出后相叠加,再经过第二融合卷积层输出;第二分支网络包括从所述第五卷积层中的三个卷积子层输出后相叠加,再经过第一融合卷积层输出;第三分支网络包括从所述第四卷积层中的三个卷积子层输出后相叠加,再经过第三融合卷积层输出,所述第一融合卷积层、第二融合卷积层和第三融合卷积层共同输出到汇聚卷积层,再由汇聚卷积层输出终检测结果。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,所述骨干网络和三个分支网络中包括三种网络层:卷积层、最大池化层和转置卷积层。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,第一卷积层对应的特征图的宽度和高度与输入的图像的宽度和高度相同,包括第一输入卷积子层和第一输出卷积子层,第一输入卷积子层的输入通道数为3,输出通道数为64,第一输出卷积子层的输入通道数为64,输出通道数为64,第一池化层的输入通道数为64,输出通道数为64;第二卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的二分之一和高度的二分之一,包括第二输入卷积子层和第二输出卷积子层,第二输入卷积子层的输入通道数为64,输出通道数为128;第二输出卷积子层的输入通道数为128,输出通道数为128,第二池化层的输入通道数为128,输出通道数为128。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,第三卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的四分之一和高度的四分之一,包括第三输入卷积子层、第三中间卷积子层和第三输出卷积子层;第三输入卷积子层的输入通道数为128,输出通道数为256;第三中间卷积子层的输入通道数为256,输出通道数为256;第三输出卷积子层的输入通道数为256,输出通道数为256;第三池化层的输入通道数为256,输出通道数为256;第四卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的八分之一和高度的八分之一,包括第四输入卷积子层、第四中间卷积子层和第四输出卷积子层;第四输入卷积子层的输入通道数为256,输出通道数为512;第四中间卷积子层的输入通道数为512,输出通道数为512;第四输出卷积子层的输入通道数为512,输出通道数为512;第四池化层的输入通道数为512,输出通道数为512;第五卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的十六分之一和高度的十六分之一,包括第五输入卷积子层、第五中间卷积子层和第五输出卷积子层;第五输入卷积子层的输入通道数为512,输出通道数为512;第五中间卷积子层的输入通道数为512,输出通道数为512;第五输出卷积子层的输入通道数为512,输出通道数为512。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,所述第一分支网络包括由第三卷积层的第三输入卷积子层、第三中间卷积子层和第三输出卷积子层进行相加输出到第二融合卷积层,第二融合卷积层包括依次串联的第二融合输入卷积层和第二融合输出卷积层,对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一;第二融合输入卷积层的输入通道数为256,输出通道数为256,第二融合输出卷积层的输入通道数为256,输出通道数为1。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,所述第二分支网络包括由第五卷积层的第五输入卷积子层、第五中间卷积子层和第五输出卷积子层进行相加输出到第一融合卷积层,第一融合卷积层包括依次串联的第一融合输入卷积层、第一融合中间卷积层和第一融合输出卷积层,对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一;第一融合输入卷积层为转置卷积层,输入通道数为512,输出通道数为256,第一融合中间卷积层输入通道数为256,输出通道数为256,第一融合输出卷积层输入通道数为256,输出通道数为1。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,所述第三分支网络包括由第四卷积层的第四输入卷积子层、第四中间卷积子层和第四输出卷积子层进行相加输出到第三融合卷积层,第三融合卷积层包括依次串联的第三融合输入卷积层和第三融合输出卷积层,对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一;第三融合输入卷积层的输入通道数为512,输出通道数为256,第三融合输出卷积层的输入通道数为256,输出通道数为1;三个分支网络的输出到汇聚卷积层,所述汇聚卷积层的特征图也是输入的图像的宽度的八分之一和高度的八分之一,对应的输入通道数为3,输出通道数为1。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,所述多级卷积神经网络定义为:
y=F(x,w1,w1,…,wn),
其中,x为输入图像,y为输出密度图,wi(i=1,2,…,n)为网络所包含的参数,F为代表网络结构的函数;在正向传播时,对函数F输入图像x,得到预测密度图y,将预测密度图y与真实密度图g通过输入损失函数计算得到损失值l,然后反向传播修正参数wi,得到修正后的参数w'i的公式如下:
Figure BDA0002264849850000041
其中,η为预先设定的学习率,
Figure BDA0002264849850000051
为偏导符号,然后反复进行该过程,直至得到损失值l最小,此时对应的网络参数wi(i=1,2,…,n)即为所需的最优网络参数。
在本发明不均衡场景中人群分布与计数的检测方法另一实施例中,损失计算方法引入场景所包含的人数作为参数,其中池化损失定义如下:
Figure BDA0002264849850000052
其中,N为样本数,D(Xi;Θ)和Di分别是数据集中第i个样本Xi的预测密度图和真实密度图,LB(Θ)同时引入了密度分布和总人数作为损失的因子。
本发明的有益效果是:本发明公开了一种不均衡场景中人群分布与计数的检测方法。该方法包括构建网络、预测密度、计算优化和数据验证,主要通过构建一个多级多分枝的卷积神经网络,每一个分支的输入来自不同分辨率的卷积层的输出组合,再融合为一个整体输出,使用训练图集分别输入到该卷积神经网络,得到预测密度图,引入训练图集的场景中的人群数量信息,与预测密度图进行比较来计算损失,来优化调整多级卷积神经网络的参数,使得计算损失的结果最小,最终获得最佳预测效果。本发明具有更高的检测准确率和检测效率,以及良好的可迁移性。
附图说明
图1是根据本发明不均衡场景中人群分布与计数的检测方法一实施例的流程图;
图2和图3是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的网络组成示意图;
图4是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第一卷积层和第一池化层的组成示意图;
图5是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第二卷积层和第二池化层的组成示意图;
图6是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第三卷积层和第三池化层的组成示意图;
图7是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第四卷积层和第四池化层的组成示意图;
图8是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第五卷积层组成示意图;
图9是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第一分支网络组成示意图;
图10是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第二分支网络组成示意图;
图11是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的第三分支网络组成示意图;
图12是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的检测效果示意图;
图13是根据本发明不均衡场景中人群分布与计数的检测方法另一实施例中的检测效果示意图。
具体实施方式
为了便于理解本发明,下面结合附图和具体实施例,对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是,本发明可以以许多不同的形式来实现,并不限于本说明书所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
需要说明的是,除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
图1显示了本发明不均衡场景中人群分布与计数的检测方法一实施例的流程图。在图1中,包括:
第一步S101,构建网络,构建一个多级卷积神经网络,该网络包括卷积层、池化层和转置卷积层且具有多个分支,每一个分支的输入来自不同分辨率的卷积层的输出组合,每一个分支再融合为一个整体输出;
第二步S102,预测密度,使用训练图集分别输入到所述多级卷积神经网络,得到预测密度图;
第三步S103,计算优化,引入所述训练图集的场景中的人群数量信息,与所述预测密度图进行比较来计算损失,通过优化调整所述多级卷积神经网络的参数,使得计算损失的结果最小;
第四步S104,数据验证,进一步通过公开的数据图集对经过计算损失优化的所述多级卷积神经网络进行验证,最终获得最佳预测效果。
优选的,在步骤S101中,如图2所示给出了一个多级卷积神经网络实施例。在图2中,该网络包括骨干网络和三个分支网络,在骨干网络中从左向右依次是第一卷积层J1、第一池化层C1、第二卷积层J2、第二池化层C2、第三卷积层J3、第三池化层C3、第四卷积层J4、第四池化层C4、第五卷积层J5和第一融合卷积层R1。优选的,第一分支网络包括从所述第三卷积层J3中的三个卷积子层输出后相叠加,再经过第二融合卷积层R2输出;第二分支网络包括从所述第五卷积层J5中的三个卷积子层输出后相叠加,再经过第一融合卷积层R1输出;第三分支网络包括从所述第四卷积层J4中的三个卷积子层输出后相叠加,再经过第三融合卷积层R3输出。第一融合卷积层R1、第二融合卷积层R2和第三融合卷积层R3共同输出到汇聚卷积层M1,再由汇聚卷积层M1输出终检测结果。图3是图2的进一步细化显示说明,图3中的MP表示池化层。
图2中,第一分支网络对应上分支网络,输入大小为原始图像的1/4(长宽均为原始图像的1/4),第二分支网络对应中分支网络,输入大小为原始图像的1/16,第三分支网络对应下分支网络,输入大小为原始图像的1/8。
可以看出,在本发明该实施例中,网络的后半部分由三个分支网络组成,每个分支网络的输入来自于不同卷积层的输出的组合,并且每个分支网络的输入大小(分辨率)不一致,这种结构可以有效地应对场景的尺度变化问题。也即是,我们在一个单列卷积神经网络上构建了所提出的多级卷积神经网络,并通过利用多个级别的特征来合并多尺度信息,每个级别的特征被映射到一个对应的密度图,然后融合这些多级密度图以预测人群数量。
该网络包括三种网络层,即:卷积层、最大池化层和转置卷积层。卷积层由卷积部分和激活部分组成,卷积部分是对单通道或多通道的输入特征图作卷积操作,卷积操作的定义为,根据预先设定的步长,从左到右、从上到下,在特征图中通过与卷积核同等尺寸的滑动窗口,取窗口区域内的值与卷积核中相应位置的值相乘,若卷积核的尺寸大于1×1,则将得到的多个乘积相加得到该区域对应的输出值,否则,得到的乘积即为该区域对应的输出值。激活部分是将输出特征图中的每个值输入非线性函数计算得到最终的输出。非线性函数有多种选择,本发明在实现时采用ReLU函数,其定义如下:
ReLU(x)=max(0,x)。
优选的,卷积层的优选设置:卷积核大小为3*3,步长(stride)为1*1,补零(padding)为1,激活函数为ReLU函数。
转置卷积层是由卷积层变化而来,其与卷积层不同的地方是卷积操作变为了转置卷积操作,而激活部分相同。转置卷积层的优选设置:卷积核大小为2*2,步长(stride)为2*2,补零(padding)为0,激活函数为ReLU函数。
池化层是指根据预先设定的窗口大小、步长和模式,包括最大或平均两种模式,在输入特征图中,从左到右、从上到下滑动窗口,取窗口中的最大值(最大模式)或平均值(平均模式)作为输出。池化层的优选设置:池化区域大小为2*2,步长(stride)为2*2,补零(padding)为0,选择池化区域内最大值作为输出。
图2和图3所示网络结构由于其结构简洁高效,无需繁琐的多次训练,直接端到端地训练也可以取得良好的性能。首先,随机初始化MLCNN网络中的参数,需要初始化的参数包括卷积层和转置卷积层里的权重值和偏置值;然后,网络前端传入图像信息进行特征提取,通过网络中的所有卷积层、池化层和转置卷积层的正向传播得到输出特征,即预测密度图。
结合图2和图3,优选的,在图4中,第一卷积层J1对应的宽度和高度与输入的图像的宽度W和高度H相同,对应图3中的W*H,包括第一输入卷积子层J11和第一输出卷积子层J22,第一输入卷积子层J11的输入通道数为3,输出通道数为64,卷积核大小为3×3,需要设置的权重值数量为3×64×3×3,需要设置的偏置值数量为64;第一输出卷积子层J12的输入通道数为64,输出通道数为64,卷积核大小为3×3,需要设置的权重值数量为64×64×3×3,需要设置的偏置值数量为64。第一池化层C1的输入通道数为64,输出通道数为64。
结合图2和图3,优选的,在图5中,第二卷积层对应的宽度和高度分别对应是输入的图像的宽度W的二分之一和高度H的二分之一,对应图3中的W/2*H/2,包括第二输入卷积子层J21和第二输出卷积子层J22,第二输入卷积子层J21的输入通道数为64,输出通道数为128,卷积核大小为3×3,需要设置的权重值数量为64×128×3×3,需要设置的偏置值数量为128;第二输出卷积子层J22的输入通道数为128,输出通道数为128,卷积核大小为3×3,需要设置的权重值数量为128×128×3×3,需要设置的偏置值数量为128。第二池化层C2的输入通道数为128,输出通道数为128。
结合图2和图3,优选的,在图6中,第三卷积层J3对应的宽度和高度分别对应是输入的图像W的宽度的四分之一和高度H的四分之一,对应图3中的W/4*H/4,包括第三输入卷积子层J31、第三中间卷积子层J32和第三输出卷积子层J33;第三输入卷积子层J31的输入通道数为128,输出通道数为256,卷积核大小为3×3,需要设置的权重值数量为128×256×3×3,需要设置的偏置值数量为256;第三中间卷积子层J32的输入通道数为256,输出通道数为256,卷积核大小为3×3,需要设置的权重值数量为256×256×3×3,需要设置的偏置值数量为256;第三输出卷积子层J33的输入通道数为256,输出通道数为256,卷积核大小为3×3,需要设置的权重值数量为256×256×3×3,需要设置的偏置值数量为256。第三池化层C3的输入通道数为256,输出通道数为256。
结合图2和图3,优选的,在图7中,第四卷积层J4对应的宽度和高度分别对应是输入的图像的宽度的八分之一和高度的八分之一,对应图3中的W/8*H/8,包括第四输入卷积子层J41、第四中间卷积子层J42和第四输出卷积子层J43;第四输入卷积子层J41的输入通道数为256,输出通道数为512,卷积核大小为3×3,需要设置的权重值数量为256×512×3×3,需要设置的偏置值数量为512;第四中间卷积子层J42的输入通道数为512,输出通道数为512,卷积核大小为3×3,需要设置的权重值数量为512×512×3×3,需要设置的偏置值数量为512;第四输出卷积子层J43的输入通道数为512,输出通道数为512,卷积核大小为3×3,需要设置的权重值数量为512×512×3×3,需要设置的偏置值数量为512。第四池化层C4的输入通道数为512,输出通道数为512。
结合图2和图3,优选的,在图8中,第五卷积层J5对应的宽度和高度分别对应是输入的图像的宽度的十六分之一和高度的十六分之一,对应图3中的W/16*H/16,包括第五输入卷积子层J51、第五中间卷积子层J52和第五输出卷积子层J53;第五输入卷积子层J51的输入通道数为512,输出通道数为512,卷积核大小为3×3,需要设置的权重值数量为512×512×3×3,需要设置的偏置值数量为512;第五中间卷积子层J52的输入通道数为512,输出通道数为512,卷积核大小为3×3,需要设置的权重值数量为512×512×3×3,需要设置的偏置值数量为512;第五输出卷积子层J53的输入通道数为512,输出通道数为512,卷积核大小为3×3,需要设置的权重值数量为512×512×3×3,需要设置的偏置值数量为512。
优选的,结合图2和图3,在图9中,对应的第一分支网络由第三卷积层J3包括的第三输入卷积子层、第三中间卷积子层和第三输出卷积子层进行相加输出到第二融合卷积层R2,该第二融合卷积层R2包括依次串联的第二融合输入卷积层R21和第二融合输出卷积层R22,对应的特征图大小均为
Figure BDA0002264849850000111
由于第三输入卷积子层、第三中间卷积子层和第三输出卷积子层,这三层的输出特征图的通道均为256,对应的特征图大小均为
Figure BDA0002264849850000112
即形状完全相同,因此特征图所包含的数值可以一一对应相加,得到的和的通道为256,大小为
Figure BDA0002264849850000113
对应的,第二融合输入卷积层R21的输入通道数为256,输出通道数为256,卷积核大小为3×3,步长为2,需要设置的权重值数量为256×256×3×3,需要设置的偏置值数量为256。第二融合输出卷积层R22的输入通道数为256,输出通道数为1,卷积核大小为3×3,需要设置的权重值数量为256×1×3×3,需要设置的偏置值数量为1。
优选的,结合图2和图3,在图10中,对应的第二分支网络由第五卷积层J5包括的第五输入卷积子层、第五中间卷积子层和第五输出卷积子层进行相加输出到第一融合卷积层R1,该第一融合卷积层R1包括依次串联的第一融合输入卷积层R11、第一融合中间卷积层R12和第一融合输出卷积层R13,对应的特征图大小均为
Figure BDA0002264849850000114
由于第五输入卷积子层、第五中间卷积子层和第五输出卷积子层,这三层的输出特征图的通道均为512,大小均为
Figure BDA0002264849850000115
即形状完全相同,因此特征图所包含的数值可以一一对应相加,得到的和的通道为512,大小为
Figure BDA0002264849850000116
第一融合输入卷积层R11为转置卷积层,输入通道数为512,输出通道数为256,卷积核大小为2×2,需要设置的权重值数量为512×256×2×2,需要设置的偏置值数量为256。第一融合中间卷积层R12输入通道数为256,输出通道数为256,卷积核大小为3×3,需要设置的权重值数量为256×256×3×3,需要设置的偏置值数量为256;第一融合输出卷积层R13输入通道数为256,输出通道数为1,卷积核大小为3×3,需要设置的权重值数量为256×1×3×3,需要设置的偏置值数量为1。
优选的,结合图2和图3,在图11中,对应的第三分支网络包括由第四卷积层J4的第四输入卷积子层、第四中间卷积子层和第四输出卷积子层进行相加输出到第三融合卷积层R3,该第三融合卷积层R3包括依次串联的第三融合输入卷积层R31和第三融合输出卷积层R32,对应的特征图大小均为
Figure BDA0002264849850000121
由于第四输入卷积子层、第四中间卷积子层和第四输出卷积子层,这三层的输出特征图的通道均为512,大小均为
Figure BDA0002264849850000122
即形状完全相同,因此特征图所包含的数值可以一一对应相加,得到的和的通道为512,大小为
Figure BDA0002264849850000123
第三融合输入卷积层R31输入通道数为512,输出通道数为256,卷积核大小为3×3,需要设置的权重值数量为512×256×3×3,需要设置的偏置值数量为256。第三融合输出卷积层R32输入通道数为256,输出通道数为1,卷积核大小为3×3,需要设置的权重值数量为256×1×3×3,需要设置的偏置值数量为1。
最后,三个分支网络的输出到汇聚卷积层M1,这三个分支网络的输出特征图的通道均为1,大小均为
Figure BDA0002264849850000124
该汇聚卷积层M1的特征图也是
Figure BDA0002264849850000125
对应的输入通道数为3,输出通道数为1,卷积核大小为3×3,需要设置的权重值数量为3×1×3×3,需要设置的偏置值数量为1。
优选的,在图1中的步骤S102和S103中,希望利用该网络输出的预测特征与图像的真实密度保持一致,即准确地预测密度,需要先将输出特征与真实密度之间的差异量化,即计算损失或计算误差。然后根据损失值,对网络反向传播并修正网络参数,使得损失进一步减小,并重复以上过程直至网络性能足够良好。
优选的,图2所示的多级卷积神经网络可以被定义为:
y=F(x,w1,w1,…,wn),
其中,x为输入图像,y为输出密度图,wi(i=1,2,…,n)为网络所包含的参数,F为代表网络结构的函数。
在正向传播时,对函数F输入图像x,得到预测密度图y,将预测密度图y与真实密度图g输入损失函数计算得到损失值l,然后反向传播修正参数wi,得到修正后的参数w'i的公式如下:
Figure BDA0002264849850000131
其中,η为预先设定的学习率,
Figure BDA0002264849850000132
为偏导符号,然后反复进行该过程,直至得到损失值l最小,此时对应的网络参数wi(i=1,2,…,n)即为所需的最优网络参数。首先自适应地学习多级密度图,然后将它们融合以预测最终输出。每个级别的密度图都侧重于处理特定大小的人,因此,多级密度图的融合能够解决人群尺度的巨大差异。
优选的,损失计算方法引入场景所包含的人数作为参数,这可以减轻场景间的人群密度变化问题对网络训练的不利影响,其中池化损失定义如下:
Figure BDA0002264849850000133
其中,D(Xi;Θ)和Di分别是数据集中第i个样本Xi的预测密度图和真实密度图,LB(Θ)同时引入了密度分布和总人数作为损失的因子。由于存在场景中无人的情况,为了防止除以零,分母需要加1。
优选的,对于本发明MLCNN网络结构,分别使用了四个当今主流公开数据集ShanghaiTech dataset、UCF CC 50dataset、Worl dExpo10dataset和Mall dataset进行验证。结果采用人群计数方面普遍使用的平均绝对误差(MAE)和均方误差(MSE),对预测的结果进行评价。其中平均绝对误差反映了预测的准确性,均方误差反应了预测的鲁棒性。二者的详细定义如下:
Figure BDA0002264849850000141
其中zi为图像中的实际人数,
Figure BDA0002264849850000142
为预测得到的人数,N为测试图像的数量,图12和图13为两个实施例的检测结果展示,其中均包括了对一个输入图像通过三个分支网络分别输出结果后再进一步汇聚融合的结果。
由此可见,本发明公开了一种不均衡场景中人群分布与计数的检测方法。该方法包括构建网络、预测密度、计算优化和数据验证,主要通过构建一个多级多分枝的卷积神经网络,每一个分支的输入来自不同分辨率的卷积层的输出组合,再融合为一个整体输出,使用训练图集分别输入到该卷积神经网络,得到预测密度图,引入训练图集的场景中的人群数量信息,与预测密度图进行比较来计算损失,来优化调整多级卷积神经网络的参数,使得计算损失的结果最小,最终获得最佳预测效果。本发明具有更高的检测准确率和检测效率,以及良好的可迁移性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种不均衡场景中人群分布与计数的检测方法,其特征在于,包括以下步骤:
构建网络,构建一个多级卷积神经网络,该网络包括卷积层、池化层和转置卷积层且具有多个分支网络,每一个分支网络的输入来自不同分辨率的卷积层的输出组合,每一个分支网络再融合为一个整体输出;
预测密度,使用训练图集分别输入到所述多级卷积神经网络,得到预测密度图;
计算优化,引入所述训练图集的场景中的人群数量信息,与所述预测密度图进行比较来计算损失,通过优化调整所述多级卷积神经网络的参数,使得计算损失的结果最小;
数据验证,进一步通过公开的数据图集对经过计算损失优化的所述多级卷积神经网络进行验证,最终获得最佳预测效果。
2.根据权利要求1所述的不均衡场景中人群分布与计数的检测方法,其特征在于,所述多级卷积神经网络包括骨干网络和三个分支网络,在骨干网络中从输入端开始依次是第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层和第一融合卷积层;第一分支网络包括从所述第三卷积层中的三个卷积子层输出后相叠加,再经过第二融合卷积层输出;第二分支网络包括从所述第五卷积层中的三个卷积子层输出后相叠加,再经过第一融合卷积层输出;第三分支网络包括从所述第四卷积层中的三个卷积子层输出后相叠加,再经过第三融合卷积层输出,所述第一融合卷积层、第二融合卷积层和第三融合卷积层共同输出到汇聚卷积层,再由汇聚卷积层输出终检测结果。
3.根据权利要求2所述的不均衡场景中人群分布与计数的检测方法,其特征在于,第一卷积层对应的特征图的宽度和高度与输入的图像的宽度和高度相同,包括第一输入卷积子层和第一输出卷积子层,第一输入卷积子层的输入通道数为3,输出通道数为64,第一输出卷积子层的输入通道数为64,输出通道数为64,第一池化层的输入通道数为64,输出通道数为64;第二卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的二分之一和高度的二分之一,包括第二输入卷积子层和第二输出卷积子层,第二输入卷积子层的输入通道数为64,输出通道数为128;第二输出卷积子层的输入通道数为128,输出通道数为128,第二池化层的输入通道数为128,输出通道数为128。
4.根据权利要求3所述的不均衡场景中人群分布与计数的检测方法,其特征在于,第三卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的四分之一和高度的四分之一,包括第三输入卷积子层、第三中间卷积子层和第三输出卷积子层;第三输入卷积子层的输入通道数为128,输出通道数为256;第三中间卷积子层的输入通道数为256,输出通道数为256;第三输出卷积子层的输入通道数为256,输出通道数为256;第三池化层的输入通道数为256,输出通道数为256;第四卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的八分之一和高度的八分之一,包括第四输入卷积子层、第四中间卷积子层和第四输出卷积子层;第四输入卷积子层的输入通道数为256,输出通道数为512;第四中间卷积子层的输入通道数为512,输出通道数为512;第四输出卷积子层的输入通道数为512,输出通道数为512;第四池化层的输入通道数为512,输出通道数为512。
5.根据权利要求4所述的不均衡场景中人群分布与计数的检测方法,其特征在于,第五卷积层对应的特征图的宽度和高度分别对应是输入的图像的宽度的十六分之一和高度的十六分之一,包括第五输入卷积子层、第五中间卷积子层和第五输出卷积子层;第五输入卷积子层的输入通道数为512,输出通道数为512;第五中间卷积子层的输入通道数为512,输出通道数为512;第五输出卷积子层的输入通道数为512,输出通道数为512。
6.根据权利要求5所述的不均衡场景中人群分布与计数的检测方法,其特征在于,所述第一分支网络包括由第三卷积层的第三输入卷积子层、第三中间卷积子层和第三输出卷积子层进行相加输出到第二融合卷积层,第二融合卷积层包括依次串联的第二融合输入卷积层和第二融合输出卷积层,对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一;第二融合输入卷积层的输入通道数为256,输出通道数为256,第二融合输出卷积层的输入通道数为256,输出通道数为1。
7.根据权利要求6所述的不均衡场景中人群分布与计数的检测方法,其特征在于,所述第二分支网络包括由第五卷积层的第五输入卷积子层、第五中间卷积子层和第五输出卷积子层进行相加输出到第一融合卷积层,第一融合卷积层包括依次串联的第一融合输入卷积层、第一融合中间卷积层和第一融合输出卷积层,对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一;第一融合输入卷积层为转置卷积层,输入通道数为512,输出通道数为256,第一融合中间卷积层输入通道数为256,输出通道数为256,第一融合输出卷积层输入通道数为256,输出通道数为1。
8.根据权利要求7所述的不均衡场景中人群分布与计数的检测方法,其特征在于,所述第三分支网络包括由第四卷积层的第四输入卷积子层、第四中间卷积子层和第四输出卷积子层进行相加输出到第三融合卷积层,第三融合卷积层包括依次串联的第三融合输入卷积层和第三融合输出卷积层,对应的特征图均为输入的图像的宽度的八分之一和高度的八分之一;第三融合输入卷积层的输入通道数为512,输出通道数为256,第三融合输出卷积层的输入通道数为256,输出通道数为1;
三个分支网络的输出到汇聚卷积层,所述汇聚卷积层的特征图也是输入的图像的宽度的八分之一和高度的八分之一,对应的输入通道数为3,输出通道数为1。
9.根据权利要求1至8任一项所述的不均衡场景中人群分布与计数的检测方法,其特征在于,所述多级卷积神经网络定义为:
y=F(x,w1,w1,…,wn),
其中,x为输入图像,y为输出密度图,wi(i=1,2,…,n)为网络所包含的参数,F为代表网络结构的函数;
在正向传播时,对函数F输入图像x,得到预测密度图y,将预测密度图y与真实密度图g通过输入损失函数计算得到损失值l,然后反向传播修正参数wi,得到修正后的参数w'i的公式如下:
Figure FDA0002264849840000041
其中,η为预先设定的学习率,
Figure FDA0002264849840000042
为偏导符号,然后反复进行该过程,直至得到损失值l最小,此时对应的网络参数wi(i=1,2,…,n)即为所需的最优网络参数。
10.根据权利要求9所述的不均衡场景中人群分布与计数的检测方法,其特征在于,损失计算方法引入场景所包含的人数作为参数,其中池化损失定义如下:
Figure FDA0002264849840000043
其中,N为样本数,D(Xi;Θ)和Di分别是数据集中第i个样本Xi的预测密度图和真实密度图,LB(Θ)同时引入了密度分布和总人数作为损失的因子。
CN201911084086.XA 2019-11-07 2019-11-07 一种不均衡场景中人群分布与计数的检测方法 Active CN110991252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911084086.XA CN110991252B (zh) 2019-11-07 2019-11-07 一种不均衡场景中人群分布与计数的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911084086.XA CN110991252B (zh) 2019-11-07 2019-11-07 一种不均衡场景中人群分布与计数的检测方法

Publications (2)

Publication Number Publication Date
CN110991252A true CN110991252A (zh) 2020-04-10
CN110991252B CN110991252B (zh) 2023-07-21

Family

ID=70083565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911084086.XA Active CN110991252B (zh) 2019-11-07 2019-11-07 一种不均衡场景中人群分布与计数的检测方法

Country Status (1)

Country Link
CN (1) CN110991252B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597985A (zh) * 2021-03-04 2021-04-02 成都西交智汇大数据科技有限公司 一种基于多尺度特征融合的人群计数方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203331A (zh) * 2016-07-08 2016-12-07 苏州平江历史街区保护整治有限责任公司 一种基于卷积神经网络的人群密度估算方法
US20160358074A1 (en) * 2015-06-05 2016-12-08 Cisco Technology, Inc. Methods and Systems for Counting People
US20180060719A1 (en) * 2016-08-29 2018-03-01 International Business Machines Corporation Scale-space label fusion using two-stage deep neural net
CN107967451A (zh) * 2017-11-23 2018-04-27 常州大学 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法
US20180124566A1 (en) * 2015-03-30 2018-05-03 Telecom Italia S.P.A. Method and system for a real-time counting of a number of persons in a crowd by means of aggregated data of a telecommunication network
CN108416327A (zh) * 2018-03-28 2018-08-17 京东方科技集团股份有限公司 一种目标检测方法、装置、计算机设备及可读存储介质
CN108764039A (zh) * 2018-04-24 2018-11-06 中国科学院遥感与数字地球研究所 神经网络、遥感影像的建筑物提取方法、介质及计算设备
CN108830327A (zh) * 2018-06-21 2018-11-16 中国科学技术大学 一种人群密度估计方法
CN109241895A (zh) * 2018-08-28 2019-01-18 北京航空航天大学 密集人群计数方法及装置
CN109271960A (zh) * 2018-10-08 2019-01-25 燕山大学 一种基于卷积神经网络的人数统计方法
US20190080456A1 (en) * 2017-09-12 2019-03-14 Shenzhen Keya Medical Technology Corporation Method and system for performing segmentation of image having a sparsely distributed object
CN109543695A (zh) * 2018-10-26 2019-03-29 复旦大学 基于多尺度深度学习的泛密度人群计数方法
CN109919112A (zh) * 2019-04-02 2019-06-21 郑州大学 一种复杂场景中流动人群的分布与计数检测的方法
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180124566A1 (en) * 2015-03-30 2018-05-03 Telecom Italia S.P.A. Method and system for a real-time counting of a number of persons in a crowd by means of aggregated data of a telecommunication network
US20160358074A1 (en) * 2015-06-05 2016-12-08 Cisco Technology, Inc. Methods and Systems for Counting People
CN106203331A (zh) * 2016-07-08 2016-12-07 苏州平江历史街区保护整治有限责任公司 一种基于卷积神经网络的人群密度估算方法
US20180060719A1 (en) * 2016-08-29 2018-03-01 International Business Machines Corporation Scale-space label fusion using two-stage deep neural net
US20190080456A1 (en) * 2017-09-12 2019-03-14 Shenzhen Keya Medical Technology Corporation Method and system for performing segmentation of image having a sparsely distributed object
CN107967451A (zh) * 2017-11-23 2018-04-27 常州大学 一种利用多尺度多任务卷积神经网络对静止图像进行人群计数的方法
CN108416327A (zh) * 2018-03-28 2018-08-17 京东方科技集团股份有限公司 一种目标检测方法、装置、计算机设备及可读存储介质
CN108764039A (zh) * 2018-04-24 2018-11-06 中国科学院遥感与数字地球研究所 神经网络、遥感影像的建筑物提取方法、介质及计算设备
CN108830327A (zh) * 2018-06-21 2018-11-16 中国科学技术大学 一种人群密度估计方法
CN109241895A (zh) * 2018-08-28 2019-01-18 北京航空航天大学 密集人群计数方法及装置
CN109271960A (zh) * 2018-10-08 2019-01-25 燕山大学 一种基于卷积神经网络的人数统计方法
CN109543695A (zh) * 2018-10-26 2019-03-29 复旦大学 基于多尺度深度学习的泛密度人群计数方法
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN109919112A (zh) * 2019-04-02 2019-06-21 郑州大学 一种复杂场景中流动人群的分布与计数检测的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIANG ZHU ET AL.: "Dual Path Multi-Scale Fusion Networks with Attention for Crowd Counting", 《HTTPS://ARXIV.53YU.COM/ABS/1902.01115》 *
SIMONYAN K ET AL.: "Very Deep Convolutional Networks for Large-Scale Image Recognition", 《HTTPS://ARXIV.ORG/ABS/1409.1556#》 *
X. JIANG ET AL.: "Learning Multi-Level Density Maps for Crowd Counting", 《 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
XIAOHENG JIANG ET AL.: "Learning Multi-Level Density Maps for Crowd Counting", 《RESEARCHGATE》 *
彭山珍 等: "基于多尺度全卷积网络特征融合的人群计数", 《武汉大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597985A (zh) * 2021-03-04 2021-04-02 成都西交智汇大数据科技有限公司 一种基于多尺度特征融合的人群计数方法

Also Published As

Publication number Publication date
CN110991252B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN107316066B (zh) 基于多通路卷积神经网络的图像分类方法及系统
CN110766942B (zh) 一种基于卷积长短期记忆网络的交通路网拥堵预测方法
CN107123088B (zh) 一种自动更换证件照背景颜色的方法
CN111130839A (zh) 一种流量需求矩阵预测方法及其系统
CN112631717B (zh) 基于异步强化学习的网络服务功能链动态部署系统及方法
CN110969250A (zh) 一种神经网络训练方法及装置
CN110097178A (zh) 一种基于熵注意的神经网络模型压缩与加速方法
US7010159B2 (en) Apparatus and method for combining random set of video features in a non-linear scheme to best describe perceptual quality of video sequences using heuristic search methodology
CN110059616A (zh) 基于融合损失函数的行人重识别模型优化方法
EP2672659A2 (en) Method and device for artificial synthesis of network flow
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN110110845B (zh) 一种基于并行多级宽度神经网络的学习方法
CN108363876A (zh) 一种考虑关键故障的测试优化选择方法
CN112561807B (zh) 一种基于卷积神经网络的端到端径向畸变校正方法
CN112381282A (zh) 基于宽度学习系统的光伏发电功率预测方法
CN110991252A (zh) 一种不均衡场景中人群分布与计数的检测方法
CN110162692A (zh) 用户标签确定方法、装置、计算机设备和存储介质
CN115640337A (zh) 针对符号图网络的异常数据预测方法、系统及相关设备
CN114612658A (zh) 基于双重类别级对抗网络的图像语义分割方法
CN113411566A (zh) 一种基于深度学习的无参考视频质量评价方法
CN110738645A (zh) 基于卷积神经网络的3d图像质量检测方法
CN116363610A (zh) 一种基于改进YOLOv5的航拍车辆旋转目标检测方法
CN115292295A (zh) 一种基于多视角时空对抗框架的路网缺失数据修复方法
CN108765472A (zh) 基于稀疏有向图的图像集配准方法
CN113780146A (zh) 基于轻量化神经架构搜索的高光谱图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant