CN106778502B - 一种基于深度残差网络的人群计数方法 - Google Patents

一种基于深度残差网络的人群计数方法 Download PDF

Info

Publication number
CN106778502B
CN106778502B CN201611042789.2A CN201611042789A CN106778502B CN 106778502 B CN106778502 B CN 106778502B CN 201611042789 A CN201611042789 A CN 201611042789A CN 106778502 B CN106778502 B CN 106778502B
Authority
CN
China
Prior art keywords
residual error
network
convolution
crowd
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611042789.2A
Other languages
English (en)
Other versions
CN106778502A (zh
Inventor
曾令科
徐向民
邢晓芬
青春美
张通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201611042789.2A priority Critical patent/CN106778502B/zh
Publication of CN106778502A publication Critical patent/CN106778502A/zh
Application granted granted Critical
Publication of CN106778502B publication Critical patent/CN106778502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度残差网络的人群计数方法。该方法运用深度残差网络提取人群监控视频中每帧图像的特征,其中深度残差网络的输入为一帧图像,经过一个5x5的核卷积与池化后得到初始特征图,再经过10个残差网络单元提取特征,主分支经过1x1的核卷积获得输入图像对应的人群密度图,辅助分支经过1x1的核卷积获得输入图像对应的人数,最后通过对人群密度图积分获得输入图像的人数估计值。每个残差网络单元结构为:1x1的卷积核后接入3x3的卷积核,再接入1x1的卷积核,每个卷积核后都加入批归一化与线性整流操作,同时上一残差网络单元的输出经过1x1的核卷积也作为下一残差网络单元的输入。本发明能减小场景变换对人群计数的影响,获得稳定的人群计数结果。

Description

一种基于深度残差网络的人群计数方法
技术领域
本发明涉及一种监控视频中的人群计数方法,具体是一种基于深度残差网络的人群计数方法。
背景技术
目前主流的人群计数方法主要有基于前景特征的数量回归算法以及基于神经网络的密度图回归算法,前者的主要缺点是特征提取依赖于视频图像的进行前景分割效果,并且训练得到的模型受限于具体场景;后者的主要缺点是需要使用子网络结构实现多尺度特征提取,尺度跳跃性较大,并且获得的模型参数量也较大,不适用在当前计算力较低的监控设备中。
发明内容
本发明的目的在于提供一种基于深度残差网络的人群计数方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下的技术方案。
一种基于深度残差网络的人群计数方法,包括如下步骤:
(1)模型定义阶段,基于静态人群图像训练集训练深度残差网络,设第i张输入图像为Xi,网络参数为W,经过训练后主分支得到人群密度图为f(Xi,W),辅助分支得到人群计数为g(Xi,W),两者对应与真实密度图Di及真实人数Yi计算欧式距离作为损失函数,使得L(f,Di)与L(g,Yi)达到最小化。所述深度残差网络结构包括一个5x5核卷积层与10个残差单元,主分支经过1x1的核卷积获得输入图像对应的人群密度图,辅助分支经过1x1的核卷积获得输入图像对应的人数,最后通过对人群密度图积分获得输入图像的人数估计值。其中每个残差网络单元结构为:1x1的卷积核后接入3x3的卷积核,再接入1x1的卷积核,每个卷积核后都加入批归一化与线性整流操作,同时上一残差网络单元的输出经过1x1的核卷积也作为下一残差网络单元的输入。
(2)模型训练阶段,主分支与辅助分支使用的损失函数均为网络输出与目标输出的欧式距离,即
Figure BDA0001157814390000021
Figure BDA0001157814390000022
其中N为训练集图像总数,按高斯分布每层初始化网络参数W0后,先根据主分支的损失函数L(f,Di)对网络参数进行优化迭代,当L(f,Di)收敛后,根据辅助分支的损失函数L(g,Yi)对网络参数进行优化迭代,当L(g,Yi)收敛后再返回优化主分支,依次交替优化,直至两个分支的损失函数都收敛到可接受的阈值以下。
作为本发明进一步的方案:所述步骤(1)中使用10个连续的残差单元构造人群图像特征提取网络,在残差短路的作用下等效与多个组合式浅层网络的特征融合,实现多尺度特征的提取。
作为本发明进一步的方案:所述步骤(2)中训练集输入图像Xi对应的真实密度图Di通过以图像中各人头坐标点为中心的二维标准正态分布叠加获得,即
Figure BDA0001157814390000023
其中Xi为训练集第i张输入图像对应的灰度矩阵,Di为第i张输入图像对应的真实密度图,M为第i张输入图像中的总人数,||Z||为单点二维标准正态分布在图像中的加权值,经过归一化操作保证密度图加权值即为人群总数。
作为本发明进一步的方案:所述步骤(2)中训练网络参数W时,使用随机梯度下降法交替优化主分支与辅助分支,实现局部与全局信息的平衡。
与现有技术相比,本发明的有益效果是:本发明可以通过深度残差网络等效为多个浅层网络的融合,在监控视频帧中提取多个尺度的人群图像特征,实现在不同的场景下均能对人群数量作出较准确的估计,并且获得的网络参数模型较小,适用于一般监控设备中。
附图说明
图1为本发明实例中的深度残差网络结构图。
图2为本发明实例中深度残差网络结构使用的残差网络单元示意图。
图3为基于深度残差网络的人群计数方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~3,本发明实例中,一种基于深度残差网络的人群计数方法包括如下步骤:
(1)模型定义阶段,基于静态人群图像训练集训练深度残差网络,设第i张输入图像为Xi,网络参数为W,经过训练后主分支得到人群密度图为f(Xi,W),辅助分支得到人群计数为g(Xi,W),两者对应与真实密度图Di及真实人数Yi计算欧式距离作为损失函数,使得L(f,Di)与L(g,Yi)达到最小化。所述深度残差网络结构包括一个5x5核卷积层与10个残差单元,主分支经过1x1的核卷积获得输入图像对应的人群密度图,辅助分支经过1x1的核卷积获得输入图像对应的人数,最后通过对人群密度图积分获得输入图像的人数估计值,网络结构如图1所示,Xi表示输入图像,Di表示真实密度图,Yi表示真实人数,Conv表示卷积层,Pool表示池化层。其中每个残差网络单元结构为:1x1的卷积核后接入3x3的卷积核,再接入1x1的卷积核,每个卷积核后都加入批归一化与线性整流操作,同时上一残差网络单元的输出经过1x1的核卷积也作为下一残差网络单元的输入,残差网络单元结构如图2所示,其中Conv表示卷积层,每个Conv层都包括卷积(Convolution)、批归一化(Batch Normalize)以及线性整流(ReLU)操作。
(2)训练阶段,主分支与辅助分支使用的损失函数均为网络输出与目标输出的欧式距离,即
Figure BDA0001157814390000041
Figure BDA0001157814390000042
其中N为训练集图像总数,按高斯分布每层初始化网络参数W0,其中高斯分布均值设置为0,方差设置为0.01。每层按先根据主分支的损失函数L(f,Di)对网络参数进行优化迭代,当L(f,Di)收敛后,根据辅助分支的损失函数L(g,Yi)对网络参数进行优化迭代,当L(g,Yi)收敛后再返回优化主分支,依次交替优化,直至两个分支的损失函数都收敛到可接受的阈值(一般为0.1)以下。
所述步骤(1)中使用10个连续的残差单元构造人群图像特征提取网络,在残差短路的作用下等效与多个组合式浅层网络的特征融合,实现多尺度特征的提取。
所述步骤(2)中训练集输入图像Xi对应的真实密度图Di通过以图像中各人头坐标点为中心的二维标准正态分布叠加获得,即
Figure BDA0001157814390000043
其中Xi为训练集第i张输入图像对应的灰度矩阵,Di为第i张输入图像对应的真实密度图,M为第i张输入图像中的总人数,||Z||为单点二维标准正态分布在图像中的加权值,经过归一化操作保证密度图加权值即为人群总数。
所述步骤(2)中训练网络参数W时,使用随机梯度下降法交替优化主分支与辅助分支,实现局部与全局信息的平衡。
本发明的工作原理是,级联深度残差网络经过对各条截路进行展开可以等效为多个不同深度的浅层网络的结果融合,运用深度残差网络提取监控视频每帧图像的多尺度人群特征并映射得到图像对应的密度图,对映射得到的密度图进行积分从而得到每帧图像的人群数量估计值,如图3。
深度残差网络训练集的构造需要获取每张人群图像对应的真实密度图,获取方法为:针对输入图像Xi,其对应的真实密度图Di通过以图像中各人头坐标点为中心的二维标准正态分布叠加获得,即
Figure BDA0001157814390000051
其中Xi为训练集第i张输入图像对应的灰度矩阵,Di为第i张输入图像对应的真实密度图,M为第i张输入图像中的总人数,||Z||为单点二维标准正态分布在图像中的加权值,经过归一化操作保证密度图加权值即为人群总数。
深度残差网络的结构为,首层使用5x5的核卷积与2x2的池化层对图像总体特征进行提取,此后接入连续10个残差网络单元,其中每个残差网络单元包括1x1的卷积核后紧接3x3的卷积核,最后经过1x1的核卷积映射后与上一残差单元输出的特征图经过1x1的核卷积映射后作差运算。经过10个残差网络单元后,主分支经过1x1的核卷积获得密度图Di,辅助分支经过全连接层获得人群数量估计值Y。
本发明中,深度残差网络模型卷积核与全连接层的参数均初始化为标准差为0.01,均值为0的高斯分布,每个层的偏置均初始化为0。在训练阶段,主分支与辅助分支使用的损失函数均为网络输出与目标输出的欧式距离,即
Figure BDA0001157814390000052
Figure BDA0001157814390000053
其中N为训练集图像总数,按高斯分布每层初始化网络参数W0后,先根据主分支的损失函数L(f,Di)对网络参数进行优化迭代,当L(f,Di)收敛后,根据辅助分支的损失函数L(g,Yi)对网络参数进行优化迭代,当L(g,Yi)收敛后再返回优化主分支,依次交替优化,直至两个分支的损失函数都收敛到可接受的阈值(一般取0.1)以下,表1为本发明在UCF_CC_50数据集上与现有方法的结果对比。
表1
Figure BDA0001157814390000061
本发明的优点在于所设计的深度残差网络从原理上等效于多个浅层网络的融合,在监控视频帧中提取多个尺度的人群图像特征,实现在不同的场景下均能对人群数量作出较准确的估计,并且获得的网络参数模型较小(约20MB),适用于一般监控设备中,
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于深度残差网络的人群计数方法,其特征在于,包括如下步骤:
模型定义阶段,基于静态人群图像训练集训练深度残差网络,设第i张输入图像为Xi,网络参数为W,经过训练后主分支得到人群密度图为f(Xi,W),辅助分支得到人群计数为g(Xi,W),人群密度图为f(Xi,W)和人群计数g(Xi,W)对应地与真实密度图Di及真实人数Yi计算欧式距离,并将欧式距离作为主分支与辅助分支使用的损失函数,使得L(f,Di)与L(g,Yi)达到最小化;所述深度残差网络结构包括一个5x5核卷积层与10个残差单元,主分支经过1x1的核卷积获得输入图像对应的人群密度图,辅助分支经过1x1的核卷积获得输入图像对应的人数,最后通过对人群密度图积分获得输入图像的人数估计值,其中每个残差网络单元结构为:1x1的卷积核后接入3x3的卷积核,再接入1x1的卷积核,每个卷积核后都加入批归一化与线性整流操作,同时上一残差网络单元的输出经过1x1的核卷积也作为下一残差网络单元的输入;其中每个残差网络单元包括1x1的卷积核后紧接3x3的卷积核,最后经过1x1的核卷积映射后与上一残差单元输出的特征图经过1x1的核卷积映射后作差运算;经过10个残差网络单元后,主分支经过1x1的核卷积获得密度图Di,辅助分支经过全连接层获得人群数量估计值Y;
训练阶段,主分支与辅助分支使用的损失函数均为网络输出与目标输出的欧式距离,即
Figure FDA0002462640710000011
Figure FDA0002462640710000012
其中N为训练集图像总数,按高斯分布每层初始化网络参数W0后,先根据主分支的损失函数L(f,Di)对网络参数进行优化迭代,当L(f,Di)收敛后,根据辅助分支的损失函数L(g,Yi)对网络参数进行优化迭代,当L(g,Yi)收敛后再返回优化主分支,依次交替优化,直至两个分支的损失函数都收敛到设定阈值以下。
2.根据权利要求1所述的基于深度残差网络的人群计数方法,其特征在于,使用10 个连续的残差单元构造人群图像特征提取网络,在残差短路的作用下等效与多个组合式浅层网络的特征融合,实现多尺度特征的提取。
3.根据权利要求1所述的基于深度残差网络的人群计数方法,其特征在于,训练集输入图像Xi对应的真实密度图Di通过以图像中各人头坐标点为中心的二维标准正态分布叠加获得,即
Figure FDA0002462640710000021
其中G(Xi)为训练集第i张输入图像对应的灰度矩阵,Di为第i张输入图像对应的真实密度图,M为第i张输入图像中的总人数,‖Z‖为单点二维标准正态分布在图像中的加权值,经过归一化操作保证密度图加权值即为人群总数。
4.根据权利要求1所述的基于深度残差网络的人群计数方法,其特征在于,训练网络参数W时,使用随机梯度下降法交替优化主分支与辅助分支,实现局部与全局信息的平衡。
CN201611042789.2A 2016-11-21 2016-11-21 一种基于深度残差网络的人群计数方法 Active CN106778502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611042789.2A CN106778502B (zh) 2016-11-21 2016-11-21 一种基于深度残差网络的人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611042789.2A CN106778502B (zh) 2016-11-21 2016-11-21 一种基于深度残差网络的人群计数方法

Publications (2)

Publication Number Publication Date
CN106778502A CN106778502A (zh) 2017-05-31
CN106778502B true CN106778502B (zh) 2020-09-22

Family

ID=58974768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611042789.2A Active CN106778502B (zh) 2016-11-21 2016-11-21 一种基于深度残差网络的人群计数方法

Country Status (1)

Country Link
CN (1) CN106778502B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392312B (zh) * 2017-06-01 2020-11-24 华南理工大学 一种基于dcgan性能的动态调整方法
CN109508583B (zh) * 2017-09-15 2020-11-06 杭州海康威视数字技术股份有限公司 一种人群分布特征的获取方法和装置
WO2019084854A1 (en) * 2017-11-01 2019-05-09 Nokia Technologies Oy Depth-aware object counting
CN107967451B (zh) * 2017-11-23 2021-04-27 常州大学 一种对静止图像进行人群计数的方法
CN108154089B (zh) * 2017-12-11 2021-07-30 中山大学 一种基于尺度自适应的头部检测和密度图的人群计数方法
CN108154110B (zh) * 2017-12-22 2022-01-11 任俊芬 一种基于深度学习人头检测的密集人流量统计方法
CN108615027B (zh) * 2018-05-11 2021-10-08 常州大学 一种基于长短期记忆-加权神经网络对视频人群计数的方法
CN108764085B (zh) * 2018-05-17 2022-02-25 上海交通大学 基于生成对抗网络的人群计数方法
CN109034371B (zh) * 2018-06-27 2021-06-25 北京文安智能技术股份有限公司 一种深度学习模型推理期加速方法、装置及系统
CN109086782A (zh) * 2018-08-21 2018-12-25 广东工业大学 特征描述子生成方法、装置、设备及计算机可读存储介质
CN109241895B (zh) * 2018-08-28 2021-06-04 北京航空航天大学 密集人群计数方法及装置
CN109344746B (zh) * 2018-09-17 2022-02-01 曜科智能科技(上海)有限公司 行人计数方法、系统、计算机设备和存储介质
US10832416B2 (en) 2018-09-21 2020-11-10 International Business Machines Corporation Crowd flow rate estimation
CN109271960B (zh) * 2018-10-08 2020-09-04 燕山大学 一种基于卷积神经网络的人数统计方法
CN110163060B (zh) * 2018-11-07 2022-12-23 腾讯科技(深圳)有限公司 图像中人群密度的确定方法及电子设备
CN109697435B (zh) * 2018-12-14 2020-10-23 重庆中科云从科技有限公司 人流量监测方法、装置、存储介质及设备
CN109858424A (zh) * 2019-01-25 2019-06-07 佳都新太科技股份有限公司 人群密度统计方法、装置、电子设备和存储介质
CN110781845B (zh) * 2019-10-29 2023-04-07 北京迈格威科技有限公司 基于图像统计目标对象的方法、装置和电子系统
CN110956684B (zh) * 2019-11-27 2023-07-28 山东师范大学 基于残差网络的人群运动疏散仿真方法及系统
CN111062274B (zh) * 2019-12-02 2023-11-28 汇纳科技股份有限公司 上下文感知嵌入的人群计数方法、系统、介质及电子设备
CN111507183B (zh) * 2020-03-11 2021-02-02 杭州电子科技大学 一种基于多尺度密度图融合空洞卷积的人群计数方法
CN114239641B (zh) * 2021-11-16 2023-04-07 电子科技大学 一种联合注意力机制选择核卷积残差网络的故障诊断方法
CN114120361B (zh) * 2021-11-19 2023-06-02 西南交通大学 一种基于编解码结构的人群计数定位方法
CN113807334B (zh) * 2021-11-22 2022-02-18 成都航空职业技术学院 一种基于残差网络的多尺度特征融合的人群密度估计方法
CN114758293B (zh) * 2022-03-28 2024-08-06 暨南大学 基于辅助分支优化和局部密度块增强的深度学习人群计数方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218816B (zh) * 2013-04-18 2016-05-04 中山大学 一种基于视频分析的人群密度估计方法与人流量统计方法
CN104077613B (zh) * 2014-07-16 2017-04-12 电子科技大学 一种基于级联多级卷积神经网络的人群密度估计方法
US9361524B2 (en) * 2014-10-20 2016-06-07 King Abdullah University Of Science & Technology System and method for crowd counting and tracking
CN104992223B (zh) * 2015-06-12 2018-02-16 安徽大学 基于深度学习的密集人数估计方法
CN105528589B (zh) * 2015-12-31 2019-01-01 上海科技大学 基于多列卷积神经网络的单张图像人群计数算法

Also Published As

Publication number Publication date
CN106778502A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106778502B (zh) 一种基于深度残差网络的人群计数方法
CN109816012B (zh) 一种融合上下文信息的多尺度目标检测方法
US11238602B2 (en) Method for estimating high-quality depth maps based on depth prediction and enhancement subnetworks
CN105654492B (zh) 基于消费级摄像头的鲁棒实时三维重建方法
CN108230278B (zh) 一种基于生成对抗网络的图像去雨滴方法
US11367195B2 (en) Image segmentation method, image segmentation apparatus, image segmentation device
CN114758337B (zh) 一种语义实例重建方法、装置、设备及介质
CN109271933A (zh) 基于视频流进行三维人体姿态估计的方法
CN106023298A (zh) 基于局部泊松曲面重建的点云刚性配准方法
Deng et al. Noisy depth maps fusion for multiview stereo via matrix completion
CN111709984B (zh) 位姿深度预测方法、视觉里程计方法、装置、设备及介质
CN111160229B (zh) 基于ssd网络的视频目标检测方法及装置
CN106257497B (zh) 一种图像同名点的匹配方法及装置
CN113724379B (zh) 融合图像与激光点云的三维重建方法及装置
CN110555461A (zh) 基于多结构卷积神经网络特征融合的场景分类方法及系统
CN109063549A (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN109934183A (zh) 图像处理方法及装置、检测设备及存储介质
CN109801323A (zh) 具有自我提升能力的金字塔双目深度估计模型
CN113902802A (zh) 视觉定位方法及相关装置、电子设备和存储介质
Yang et al. [Retracted] A Method of Image Semantic Segmentation Based on PSPNet
CN117132737B (zh) 一种三维建筑模型构建方法、系统及设备
CN111402429B (zh) 一种尺度还原、三维重建方法、系统、存储介质及设备
CN116912645A (zh) 融合纹理和几何特征的三维目标检测方法及装置
Wang et al. An improved YOLOv3 object detection network for mobile augmented reality
CN108921852A (zh) 基于视差与平面拟合的双分支室外非结构化地形分割网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant