CN110503666B - 一种基于视频的密集人群计数方法与系统 - Google Patents

一种基于视频的密集人群计数方法与系统 Download PDF

Info

Publication number
CN110503666B
CN110503666B CN201910650651.8A CN201910650651A CN110503666B CN 110503666 B CN110503666 B CN 110503666B CN 201910650651 A CN201910650651 A CN 201910650651A CN 110503666 B CN110503666 B CN 110503666B
Authority
CN
China
Prior art keywords
crowd
attention
active region
appearance
cnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910650651.8A
Other languages
English (en)
Other versions
CN110503666A (zh
Inventor
张重阳
孔熙雨
杨小康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910650651.8A priority Critical patent/CN110503666B/zh
Publication of CN110503666A publication Critical patent/CN110503666A/zh
Application granted granted Critical
Publication of CN110503666B publication Critical patent/CN110503666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20156Automatic seed setting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Abstract

本发明提供了一种基于视频的密集人群计数方法,根据原始视频数据,计算视频叠加光流;根据视频叠加光流,生成运动特征;根据原始视频数据,生成外观特征;将运动特征与外观特征级联,得到合并特征,将合并特征输入膨胀卷积网络,生成人群活跃区域分割;将人群活跃区域分割,输入空间注意力机制网络,生成空间注意力图,利用空间注意力图对外观特征进行加权,得到注意力加权之后的外观特征;将注意力加权之后的外观特征输入膨胀卷积网络,得到人群密度估计。同时提供了一种基于视频的密集人群计数系统。本发明实现基于空间注意力的密度估计,从而达到了减轻背景干扰的目的,提升了人群计数的鲁棒性。

Description

一种基于视频的密集人群计数方法与系统
技术领域
本发明涉及密集人群计数技术领域,具体地,涉及一种基于视频的密集人群计数方法与系统。
背景技术
密集人群计数问题,是利用计算机视觉技术确定图像或者视频序列中的人群总数的问题。
(一)分析近期关于人群计数的专利技术:
1、申请号为CN201810986919.0的中国发明专利申请《密集人群计数方法及装置》提出了一种使用CNN对逐个静止图像进行密度回归的人群计数方法,该方法每次密度回归仅仅使用了单帧的数据,没有考虑帧与帧间关系;
2、申请号为201710514797.0的中国发明专利申请《基于视频的密集人群流量计算方法和装置》,运用帧差法提取运动行人目标,相当于直接使用运动信息提取行人,该技术存在如下缺陷:直接用运动信息提取行人容易受到背景扰动的影响。对于背景复杂的情况,该种方法很难区分运动的背景和运动的行人;
3、申请号为201310136575.1中国发明专利申请《一种基于视频分析的人群密度估计方法与人流量统计方法》,虽然也借助了光流进行人流量统计,但是该方法光流仅仅是用于计算人群流动速度,而非用于弱监督来进行人群活跃区域分割。
(二)分析近期基于CNN的人群计数研究:
Sindagi等在International Conference on Advanced Video and SignalBased Surveillance (国际先进视频和信号监控会议)会议(2017年第14届第1-6页)上发表的Cnn-based cascaded multi-task learning of high-level prior and densityestimation for crowd counting《基于卷积神经网络的高层优先级和密集估计级联的多任务学习人群计数》,该文中提出合并了人群密度等级分类任务与人群密度图回归任务来训练一个模型提供了对局部区域中密度计数的更精确分析。其不足在于:人群密度等级排序机制在很大程度上依赖于数据集,导致不良的迁移学习表现;
熊峰等在《Proceedings of the IEEE International Conference on ComputerVision》(国际计算机视觉与模式识别会议纪要)(2017年第5151–5159页)上发表的《Spatiotemporal modeling for crowd counting in videos》(视频人群计数的时空建模),该文中提出提出用于视频人群流量统计的双向卷积长时短时记忆网络(LSTM),它用LSTM网络整合运动信息,以提高人群区域的准确度。其不足在于:该方法需要密集的时间标注,不能广泛采用。
对国内外相关专利分析以及相关研究可得出以下结论:目前没有结合运动信息进行弱监督活跃区域分割,进而与图像CNN外观特征结合进行视频密集人群计数方法上的应用。
发明内容
针对现有技术中存在的上述不足,本发明的目的在于提供一种基于视频的密集人群计数方法与系统,通过结合多帧运动信息与单帧人群CNN外观特征分割一个人群活跃区域R,并将分割的人群活跃区域R作为空间注意力机制指导视频密集人群计数。本发明通过使用空间注意力网络,缓冲了运动信息的直接负面影响;不依赖等级排序机制,不会产生不良的迁移学习表现;利用光流法产生运动信息,不需要密集标注,可以广泛采用。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种基于视频的密集人群计数方法,包括:
S1:根据原始视频数据,对于第t帧,计算视频叠加光流Flowt
S2:根据第t帧的视频叠加光流Flowt,输入CNN网络,生成CNN运动特征Mt
S3:根据原始视频数据,对于第t帧ft,输入CNN卷积网络,生成CNN外观特征At
S4,将CNN运动特征Mt与CNN外观特征At输入一个人群活跃区域分割网络,生成人群活跃区域分割Rt
S5:将人群活跃区域分割Rt,输入一个空间注意力机制网络,生成空间注意力图St,利用空间注意力图St对CNN外观特征At进行加权,得到注意力加权之后的外观特征Wt;将注意力加权之后的外观特征Wt输入膨胀卷积网络,得到人群密度估计Dt
优选地,所述计算视频叠加光流Flowt,包括:
计算两帧之间的光流,令λ表示第t帧的邻域,令τ表示t在λ邻 域内的帧,对第τ帧fτ和第τ+1 帧fτ+1,使用Lucas–Kanade光流计算方法得到光流Flowτ,令λ表示第t帧的邻域,τ表示t在λ邻 域内的帧,那么叠加光流Flowt表示为:
Figure BDA0002135088120000021
优选地,所述人群活跃区域分割网络为:将CNN运动特征Mt与CNN外观特征At进行级联,得到合并特征Ct,将合并特征Ct输入膨胀卷积网络,进而生成人群活跃区域分割Rt
优选地,在人群活跃区域分割网络中利用合并特征Ct对生成人群活跃区域分割Rt进行训练,在训练过程中,用于人群活跃区域分割的标定通过对计算的叠加光流Flowt以给定的人群标定G的每一个标注作为生长种子,进行区域生长得到。
优选地,所述空间注意力机制网络为:将输入的人群活跃区域分割Rt进行堆叠,使得人群活跃区域分割Rt堆叠后的结果与输入的外观特征At的尺寸相同,并进行对应元素相乘,得到关注下的外观特征Art,对关注下的外观特征Art进行变形,并与变形后外观特征转置的结果进行矩阵相乘得到空间密集关注下的外观特征Aart,通过softmax函数,得到空间密集关注下外观特征响应Asart;然后与变形后外观特征进行矩阵相乘得到空间注意力图St,将空间注意力图St与输入的外观特征At相加得到注意力加权之后的外观特征Wt
根据本发明的第二个方面,提供了一种基于视频的密集人群计数系统,包括:人群活跃区域模块和空间注意力加权密度估计模块;其中:
所述人群活跃区域模块,用于生成人群活跃区域分割Rt,生成的人群活跃区域分割Rt提供了空间注意力,所述空间注意力用于指导人群计数的关注区域;
所述空间注意力加权密度估计模块,用于利用人群活跃区域分割Rt,输入空间注意力机制网络对人群外观特征进行注意力加权,并使用注意力加权后的外观特征输入膨胀卷积网络,以产生人群密度数据。
优选地,所述人群活跃区域模块,包括:
叠加光流模块:根据原始视频数据,对于第t帧,计算视频叠加光流Flowt,然后将计算得到的叠加光流Flowt输入CNN卷积网络,得到CNN运动特征Mt,然后将运动特征Mt输出至特征合并模块;
外观特征模块:根据原始视频数据,对于第t帧ft,输入CNN卷积网络,生成CNN外观特征At,然后将外观特征At输出至特征合并模块;
特征合并模块:将输入的CNN运动特征Mt和CNN外观特征At级联为合并特征Ct,将合并特征Ct输入一个膨胀卷积网络,生成人群活跃区域分割Rt并将人群活跃区域分割Rt输入空间注意力加权密度估计模块。
优选地,计算视频叠加光流Flowt,包括:对第τ帧fτ和第τ+1帧fτ+1,使用光流计算方法得到光流Flowτ,令λ表示第t帧的邻域,τ表示t在λ邻 域内的帧,那么叠加光流Flowt可被表示为:
Figure BDA0002135088120000031
优选地,所述空间注意力加权密度估计模块,包括:
空间注意力模块:将人群活跃区域分割Rt,输入一个空间注意力机制网络,生成空间注意力图St,利用空间注意力图St对原始视频数据的第t帧ft通过CNN网络生成的外观特征At进行加权,得到注意力加权之后的外观特征Wt,并输出至密度估计模块;
密度估计模块:将输入的注意力加权之后的外观特征Wt输入一个膨胀卷积网络,得到人群密度估计Dt
优选地,所述空间注意力机制网络为:将输入的人群活跃区域分割Rt进行堆叠,使得人群活跃区域分割Rt堆叠后的结果与输入的外观特征At的尺寸相同,并进行对应元素相乘,得到关注下的外观特征Art,对关注下的外观特征Art进行变形,并与变形后外观特征转置的结果进行矩阵相乘得到空间密集关注下的外观特征Aart,通过softmax函数,得到空间密集关注下外观特征响应Asart;然后与变形后外观特征进行矩阵相乘得到空间注意力图St,将空间注意力图St与输入的外观特征At相加得到注意力加权之后的外观特征Wt
与现有技术相比,本发明具有如下有益效果:
1、在人群活跃区域分割网络利用合并特征Ct对生成人群活跃区域分割Rt的训练过程中,除了给定的人群标定G以外,不需要额外标定,活跃区域分割标定是自动生成的,通过对计算的叠加光流Flowt以给定的人群标定G的每一个标注作为生长种子,进行区域生长得到,实现了一个弱监督的区域分割任务。
2、本发明通过空间注意力机制,人群活跃区域分割为外观特征提供指导,重新评估外观特征,实现基于空间注意力的密度估计,从而达到了减轻背景干扰问题的目的,提升了人群计数的鲁棒性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中所提供的基于视频的密集人群计数系统结构示意图;
图2为本发明一实施例中所提供的人群活跃区域模块的结构示意图;
图3为本发明一实施例中所提供的空间注意力加权密度估计模块的结构示意图;
图4为本发明一实施例中所提供的空间注意力机制网络的示意图;
图5为本发明一实施例中所提供的基于视频的密集人群计数方法流程图。
具体实施方式
下面结合实施例并对照附图对本发明作进一步详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明实施例提供了一种基于视频的密集人群计数方法,该方法是一种弱监督活跃区域分割的视频密集人群计数的方法,如图5所示,包括:
S1,根据原始视频数据,对于第t帧,计算视频叠加光流Flowt,具体为:
首先计算两帧之间的光流;对第τ帧fτ和第τ+1帧fτ+1,使用光流计算方法得到光流Flowτ,令λ表示第t帧的邻域,那么叠加光流Flowt可被表示为:
Figure BDA0002135088120000051
S2,根据第t帧的视频叠加光流Flowt,输入CNN网络,生成CNN运动特征Mt
S3,根据原始视频数据,对于第t帧,计算图像CNN外观特征At,具体为:
对于第t帧ft,输入CNN卷积网络,生成CNN外观特征At
S4,将CNN运动特征Mt与CNN外观特征At输入一个人群活跃区域分割网络,生成人群活跃区域分割Rt;具体为:
人群活跃区域分割网络是指,将CNN运动特征Mt与CNN外观特征At级联,得到合并特征Ct,将合并特征Ct输入一个膨胀卷积网络,进而生成人群活跃区域分割Rt
在人群活跃区域分割网络中利用合并特征Ct对生成人群活跃区域分割Rt进行训练,在训练过程中,用于人群活跃区域分割的标定通过对计算的叠加光流Flowt以给定的人群标定G 的每一个标注作为生长种子,进行区域生长得到。
S5,将人群活跃区域分割Rt,输入一个空间注意力机制网络,生成空间注意力图St,利用空间注意力图St对CNN外观特征At进行加权,得到注意力加权之后的外观特征Wt
将注意力加权之后的外观特征Wt输入一个膨胀卷积网络,得到人群密度估计Dt
如图4所示,所述控件注意力机制网络的结构为:将输入的人群活跃区域分割Rt进行堆叠,使得Rt堆叠后的结果与输入的外观特征At的尺寸相同,并进行对应元素相乘,得到关注下的外观特征Art,对关注下的外观特征进行变形,并与外观特征变形并转置的结果进行矩阵相乘得到空间密集关注下的外观特征Aart,通过softmax层,得到空间密集关注下外观特征响应Asart。然后与外观特征变形的特征进行矩阵相乘得到空间注意力图St,将空间注意力图 St与原有外观特征At相加得到注意力加权之后的外观特征Wt
本发明实施例同时提供了一种基于视频的密集人群计数系统,如图1所示,包括人群活跃区域模块和空间注意力加权密度估计模块,其中:
所述人群活跃区域模块,用于生成人群活跃区域分割Rt,生成的人群活跃区域分割Rt即提供了空间注意力,所述空间注意力用于指导人群计数的关注区域;
所述空间注意力加权密度估计模块,利用人群活跃区域分割Rt,在人群计数的关注区域内产生人群密度数据。
进一步地,
如图2所示,所述人群活跃区域模块包括:叠加光流模块、外观特征模块和特征合并模块;
如图3所示,所述空间注意力加权密度估计模块包括:空间注意力模块和密度估计模块;
人群活跃区域模块生成的数据,输入空间注意力加权密度估计模块,即:
A、人群活跃区域模块根据输入的原始视频数据,生成人群活跃区域分割Rt,与原始数据一同输入空间注意力加权密度估计模块;其中:
所述叠加光流模块:根据原始视频数据,对于第t帧,计算视频叠加光流Flowt,对第τ帧fτ和第τ+1帧fτ+1,使用光流计算方法得到光流Flowτ,令λ表示第t帧的邻域,那么叠加光流Flowt可被表示为:
Figure BDA0002135088120000061
然后将计算得到的叠加光流Flowt输入 CNN卷积网络,得到运动特征Mt,然后将运动特征Mt输入特征合并模块;
所述外观特征模块:根据原始视频数据,对于第t帧ft,输入CNN卷积网络,生成CNN外观特征At,然后将外观特征At输入特征合并模块;
所述特征合并模块:级联输入运动特征Mt和外观特征At为合并特征Ct,将合并特征输入一个膨胀卷积网络,生成人群活跃区域分割Rt并将Rt输入空间注意力加权密度估计模块;
B、空间注意力加权密度估计模块根据人群活跃区域分割Rt,结合原始视频数据进行密集人群计数,其中:
所述空间注意力模块:将人群活跃区域分割Rt,输入一个空间注意力机制网络,生成空间注意力图St,利用空间注意力图St对原始视频数据生成通过CNN生成的外观特征At进行加权,得到注意力加权之后的外观特征Wt,并输入密度估计模块;
所述密度估计模块:将注意力加权之后的外观特征Wt输入一个膨胀卷积网络,得到人群密度估计Dt
在本发明上述实施例中:
S1中,为了提取运动信息,所述基于视频的密集人群计数方法需要计算视频中的光流,采用Lucas–Kanade光流算法得到光流Flowτ
S2中,所述CNN网络采用ResNet101网络,提取运动特征Mt
S3中,所述CNN网络采用ResNet101网络,生成外观特征At
本实施例上述实施例提供的方法与系统,实现的功能如下:
1、结合多帧运动信息与单帧外观特征,进行弱监督区域分割,生成人群活跃区域分割,为下一步密度计数提供指导;
2、将人群活跃区域作为空间注意力机制,指导人群密度计数。
本发明上述实施例提供的基于视频的密集人群计数方法与系统,所述方法包括:根据原始视频数据,对于第t帧,计算视频叠加光流Flowt,首先计算两帧之间的光流;对第τ帧fτ和第τ+1帧fτ+1,使用光流计算方法得到光流Flowτ,令λ表示第t帧的邻域,那么叠加光流Flowt可被表示为:
Figure BDA0002135088120000071
根据第t帧的视频叠加光流Flowt,输入 CNN网络,生成CNN运动特征Mt;根据原始视频数据,对于第t帧,计算图像CNN外观特征At,对于第t帧ft,输入CNN卷积网络,生成CNN外观特征At;将CNN运动特征 Mt与外观特征At级联,得到合并特征Ct,将合并特征输入一个膨胀卷积网络,生成人群活跃区域分割Rt;将人群活跃区域分割Rt,输入一个空间注意力机制网络,生成空间注意力图St,利用空间注意力图St对CNN外观特征At进行加权,得到注意力加权之后的外观特征Wt;将注意力加权之后的外观特征Wt输入一个膨胀卷积网络,得到人群密度估计Dt。所述系统包括:人群活跃区域模块和空间注意力加权密度估计模块。人群活跃区域模块,包括叠加光流模块、外观特征模块和特征合并模块;空间注意力加权密度估计模块包括空间注意力模块和密度估计模块。
本发明上述实施例提供的方法与系统,通过空间注意力机制,人群活跃区域分割为外观特征提供指导,重新评估外观特征,实现基于空间注意力的密度估计,从而达到了减轻背景干扰问题的目的,提升了人群计数的鲁棒性。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (8)

1.一种基于视频的密集人群计数方法,其特征在于,包括:
S1:根据原始视频数据,对于第t帧,计算视频叠加光流Flowt
S2:根据第t帧的视频叠加光流Flowt,输入CNN网络,生成CNN运动特征Mt
S3:根据原始视频数据,对于第t帧ft,输入CNN卷积网络,生成CNN外观特征At
S4,将CNN运动特征Mt与CNN外观特征At输入一个人群活跃区域分割网络,生成人群活跃区域分割Rt
S5:将人群活跃区域分割Rt,输入一个空间注意力机制网络,生成空间注意力图St,利用空间注意力图St对CNN外观特征At进行加权,得到注意力加权之后的外观特征Wt;将注意力加权之后的外观特征Wt输入膨胀卷积网络,得到人群密度估计Dt
所述空间注意力机制网络为:将输入的人群活跃区域分割Rt进行堆叠,使得人群活跃区域分割Rt堆叠后的结果与输入的外观特征At的尺寸相同,并进行对应元素相乘,得到关注下的外观特征Art,对关注下的外观特征Art进行变形,并与变形后外观特征转置的结果进行矩阵相乘得到空间密集关注下的外观特征Aart,通过softmax函数,得到空间密集关注下外观特征响应Asart;然后与变形后外观特征进行矩阵相乘得到空间注意力图St,将空间注意力图St与输入的外观特征At相加得到注意力加权之后的外观特征Wt
2.根据权利要求1所述的基于视频的密集人群计数方法,其特征在于,所述计算视频叠加光流Flowt,包括:
计算两帧之间的光流,令λ表示第t帧的邻域,令τ表示t在λ邻 域内的帧,对第τ帧fτ和第τ+1帧fτ+1,使用Lucas–Kanade光流计算方法得到光流Flowτ,令λ表示第t帧的邻域,τ表示t在λ邻域内的帧,那么叠加光流Flowt表示为:
Figure FDA0003271545720000011
3.根据权利要求1所述的基于视频的密集人群计数方法,其特征在于,所述人群活跃区域分割网络为:将CNN运动特征Mt与CNN外观特征At进行级联,得到合并特征Ct,将合并特征Ct输入膨胀卷积网络,进而生成人群活跃区域分割Rt
4.根据权利要求3所述的基于视频的密集人群计数方法,其特征在于,在人群活跃区域分割网络中利用合并特征Ct对生成人群活跃区域分割Rt进行训练,在训练过程中,用于人群活跃区域分割的标定通过对计算的叠加光流Flowt以给定的人群标定G的每一个标注作为生长种子,进行区域生长得到。
5.一种基于视频的密集人群计数系统,其特征在于,包括:人群活跃区域模块和空间注意力加权密度估计模块;其中:
所述人群活跃区域模块,用于生成人群活跃区域分割Rt,生成的人群活跃区域分割Rt提供了空间注意力,所述空间注意力用于指导人群计数的关注区域;
所述空间注意力加权密度估计模块,用于利用人群活跃区域分割Rt,输入空间注意力机制网络对人群外观特征进行注意力加权,并使用注意力加权后的外观特征输入膨胀卷积网络,以产生人群密度数据;
所述空间注意力机制网络为:将输入的人群活跃区域分割Rt进行堆叠,使得人群活跃区域分割Rt堆叠后的结果与输入的外观特征At的尺寸相同,并进行对应元素相乘,得到关注下的外观特征Art,对关注下的外观特征Art进行变形,并与变形后外观特征转置的结果进行矩阵相乘得到空间密集关注下的外观特征Aart,通过softmax函数,得到空间密集关注下外观特征响应Asart;然后与变形后外观特征进行矩阵相乘得到空间注意力图St,将空间注意力图St与输入的外观特征At相加得到注意力加权之后的外观特征Wt
6.根据权利要求5所述的基于视频的密集人群计数系统,其特征在于,所述人群活跃区域模块,包括:
叠加光流模块:根据原始视频数据,对于第t帧,计算视频叠加光流Flowt,然后将计算得到的叠加光流Flowt输入CNN卷积网络,得到CNN运动特征Mt,然后将运动特征Mt输出至特征合并模块;
外观特征模块:根据原始视频数据,对于第t帧ft,输入CNN卷积网络,生成CNN外观特征At,然后将外观特征At输出至特征合并模块;
特征合并模块:将输入的CNN运动特征Mt和CNN外观特征At级联为合并特征Ct,将合并特征Ct输入一个膨胀卷积网络,生成人群活跃区域分割Rt并将人群活跃区域分割Rt输入空间注意力加权密度估计模块。
7.根据权利要求6所述的基于视频的密集人群计数系统,其特征在于,计算视频叠加光流Flowt,包括:对第τ帧fτ和第τ+1帧fτ+1,使用光流计算方法得到光流Flowτ,令λ表示第t帧的邻域,τ表示t在λ邻域内的帧,那么叠加光流Flowt可被表示为:
Figure FDA0003271545720000021
8.根据权利要求5所述的基于视频的密集人群计数系统,其特征在于,所述空间注意力加权密度估计模块,包括:
空间注意力模块:将人群活跃区域分割Rt,输入一个空间注意力机制网络,生成空间注意力图St,利用空间注意力图St对原始视频数据的第t帧ft通过CNN网络生成的外观特征At进行加权,得到注意力加权之后的外观特征Wt,并输出至密度估计模块;
密度估计模块:将输入的注意力加权之后的外观特征Wt输入一个膨胀卷积网络,得到人群密度估计Dt
CN201910650651.8A 2019-07-18 2019-07-18 一种基于视频的密集人群计数方法与系统 Active CN110503666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910650651.8A CN110503666B (zh) 2019-07-18 2019-07-18 一种基于视频的密集人群计数方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910650651.8A CN110503666B (zh) 2019-07-18 2019-07-18 一种基于视频的密集人群计数方法与系统

Publications (2)

Publication Number Publication Date
CN110503666A CN110503666A (zh) 2019-11-26
CN110503666B true CN110503666B (zh) 2021-11-23

Family

ID=68586026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910650651.8A Active CN110503666B (zh) 2019-07-18 2019-07-18 一种基于视频的密集人群计数方法与系统

Country Status (1)

Country Link
CN (1) CN110503666B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832414B (zh) * 2020-06-09 2021-05-14 天津大学 一种基于图正则光流注意力网络的动物计数方法
CN111680648B (zh) * 2020-06-12 2023-04-18 成都数之联科技股份有限公司 一种目标密度估计神经网络的训练方法
CN112085767B (zh) * 2020-08-28 2023-04-18 安徽清新互联信息科技有限公司 一种基于深度光流跟踪的客流统计方法及系统
CN112632601B (zh) * 2020-12-16 2024-03-12 苏州玖合智能科技有限公司 面向地铁车厢场景的人群计数方法
CN113963304B (zh) * 2021-12-20 2022-06-28 山东建筑大学 基于时序-空间图的跨模态视频时序动作定位方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997428B2 (en) * 2015-06-01 2021-05-04 Placemeter Inc. Automated detection of building entrances
CN105447458B (zh) * 2015-11-17 2018-02-27 深圳市商汤科技有限公司 一种大规模人群视频分析系统和方法
CN107967451B (zh) * 2017-11-23 2021-04-27 常州大学 一种对静止图像进行人群计数的方法
CN109117791A (zh) * 2018-08-14 2019-01-01 中国电子科技集团公司第三十八研究所 一种基于膨胀卷积的人群密度图生成方法

Also Published As

Publication number Publication date
CN110503666A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110503666B (zh) 一种基于视频的密集人群计数方法与系统
Yang et al. Asymmetric 3d convolutional neural networks for action recognition
CN108229338B (zh) 一种基于深度卷积特征的视频行为识别方法
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN112381004B (zh) 一种基于骨架的双流自适应图卷积网络行为识别方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN111931603B (zh) 基于竞合网络的双流卷积网络的人体动作识别系统及方法
CN107169994A (zh) 基于多特征融合的相关滤波跟踪方法
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN110246171B (zh) 一种实时单目视频深度估计方法
Wang et al. Skip-connection convolutional neural network for still image crowd counting
CN115331183A (zh) 改进YOLOv5s的红外目标检测方法
Zhang et al. Modeling long-and short-term temporal context for video object detection
CN115601403A (zh) 一种基于自注意力机制的事件相机光流估计方法及装置
WO2023093086A1 (zh) 目标跟踪及相关模型的训练方法、装置、设备、介质、计算机程序产品
Zhang et al. Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention
Zhu et al. A multi-scale and multi-level feature aggregation network for crowd counting
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
Hu et al. Spatial-temporal fusion convolutional neural network for simulated driving behavior recognition
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113673560B (zh) 一种基于多流三维自适应图卷积的人体行为识别方法
Aldhaheri et al. MACC Net: Multi-task attention crowd counting network
Wang et al. Dual memory aggregation network for event-based object detection with learnable representation
CN114373194A (zh) 基于关键帧与注意力机制的人体行为识别方法
CN110070023A (zh) 一种基于运动顺序性回归的自监督学习方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant