CN110503666B

CN110503666B - 一种基于视频的密集人群计数方法与系统

Info

Publication number: CN110503666B
Application number: CN201910650651.8A
Authority: CN
Inventors: 张重阳; 孔熙雨; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-11-23
Anticipated expiration: 2039-07-18
Also published as: CN110503666A

Abstract

本发明提供了一种基于视频的密集人群计数方法，根据原始视频数据，计算视频叠加光流；根据视频叠加光流，生成运动特征；根据原始视频数据，生成外观特征；将运动特征与外观特征级联，得到合并特征，将合并特征输入膨胀卷积网络，生成人群活跃区域分割；将人群活跃区域分割，输入空间注意力机制网络，生成空间注意力图，利用空间注意力图对外观特征进行加权，得到注意力加权之后的外观特征；将注意力加权之后的外观特征输入膨胀卷积网络，得到人群密度估计。同时提供了一种基于视频的密集人群计数系统。本发明实现基于空间注意力的密度估计，从而达到了减轻背景干扰的目的，提升了人群计数的鲁棒性。

Description

一种基于视频的密集人群计数方法与系统

技术领域

本发明涉及密集人群计数技术领域，具体地，涉及一种基于视频的密集人群计数方法与系统。

背景技术

密集人群计数问题，是利用计算机视觉技术确定图像或者视频序列中的人群总数的问题。

(一)分析近期关于人群计数的专利技术：

1、申请号为CN201810986919.0的中国发明专利申请《密集人群计数方法及装置》提出了一种使用CNN对逐个静止图像进行密度回归的人群计数方法，该方法每次密度回归仅仅使用了单帧的数据，没有考虑帧与帧间关系；

2、申请号为201710514797.0的中国发明专利申请《基于视频的密集人群流量计算方法和装置》，运用帧差法提取运动行人目标，相当于直接使用运动信息提取行人，该技术存在如下缺陷：直接用运动信息提取行人容易受到背景扰动的影响。对于背景复杂的情况，该种方法很难区分运动的背景和运动的行人；

3、申请号为201310136575.1中国发明专利申请《一种基于视频分析的人群密度估计方法与人流量统计方法》，虽然也借助了光流进行人流量统计，但是该方法光流仅仅是用于计算人群流动速度，而非用于弱监督来进行人群活跃区域分割。

(二)分析近期基于CNN的人群计数研究：

Sindagi等在International Conference on Advanced Video and SignalBased Surveillance (国际先进视频和信号监控会议)会议(2017年第14届第1-6页)上发表的Cnn-based cascaded multi-task learning of high-level prior and densityestimation for crowd counting《基于卷积神经网络的高层优先级和密集估计级联的多任务学习人群计数》，该文中提出合并了人群密度等级分类任务与人群密度图回归任务来训练一个模型提供了对局部区域中密度计数的更精确分析。其不足在于：人群密度等级排序机制在很大程度上依赖于数据集，导致不良的迁移学习表现；

熊峰等在《Proceedings of the IEEE International Conference on ComputerVision》(国际计算机视觉与模式识别会议纪要)(2017年第5151–5159页)上发表的《Spatiotemporal modeling for crowd counting in videos》(视频人群计数的时空建模)，该文中提出提出用于视频人群流量统计的双向卷积长时短时记忆网络(LSTM)，它用LSTM网络整合运动信息，以提高人群区域的准确度。其不足在于：该方法需要密集的时间标注，不能广泛采用。

对国内外相关专利分析以及相关研究可得出以下结论：目前没有结合运动信息进行弱监督活跃区域分割，进而与图像CNN外观特征结合进行视频密集人群计数方法上的应用。

发明内容

针对现有技术中存在的上述不足，本发明的目的在于提供一种基于视频的密集人群计数方法与系统，通过结合多帧运动信息与单帧人群CNN外观特征分割一个人群活跃区域R，并将分割的人群活跃区域R作为空间注意力机制指导视频密集人群计数。本发明通过使用空间注意力网络，缓冲了运动信息的直接负面影响；不依赖等级排序机制，不会产生不良的迁移学习表现；利用光流法产生运动信息，不需要密集标注，可以广泛采用。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种基于视频的密集人群计数方法，包括：

S1：根据原始视频数据，对于第t帧，计算视频叠加光流Flow_t；

S2：根据第t帧的视频叠加光流Flow_t，输入CNN网络，生成CNN运动特征M_t；

S3：根据原始视频数据，对于第t帧f_t，输入CNN卷积网络，生成CNN外观特征A_t；

S4，将CNN运动特征M_t与CNN外观特征A_t输入一个人群活跃区域分割网络，生成人群活跃区域分割R_t；

S5：将人群活跃区域分割R_t，输入一个空间注意力机制网络，生成空间注意力图S_t，利用空间注意力图S_t对CNN外观特征A_t进行加权，得到注意力加权之后的外观特征W_t；将注意力加权之后的外观特征W_t输入膨胀卷积网络，得到人群密度估计D_t。

优选地，所述计算视频叠加光流Flow_t，包括：

计算两帧之间的光流，令λ表示第t帧的邻域，令τ表示t在λ邻域内的帧，对第τ帧f_τ和第τ+1 帧f_τ+1，使用Lucas–Kanade光流计算方法得到光流Flow_τ，令λ表示第t帧的邻域，τ表示t在λ邻域内的帧，那么叠加光流Flow_t表示为：

优选地，所述人群活跃区域分割网络为：将CNN运动特征M_t与CNN外观特征At进行级联，得到合并特征C_t，将合并特征C_t输入膨胀卷积网络，进而生成人群活跃区域分割R_t。

优选地，在人群活跃区域分割网络中利用合并特征C_t对生成人群活跃区域分割R_t进行训练，在训练过程中，用于人群活跃区域分割的标定通过对计算的叠加光流Flow_t以给定的人群标定G的每一个标注作为生长种子，进行区域生长得到。

优选地，所述空间注意力机制网络为：将输入的人群活跃区域分割R_t进行堆叠，使得人群活跃区域分割R_t堆叠后的结果与输入的外观特征A_t的尺寸相同，并进行对应元素相乘，得到关注下的外观特征A_rt，对关注下的外观特征A_rt进行变形，并与变形后外观特征转置的结果进行矩阵相乘得到空间密集关注下的外观特征A_art，通过softmax函数，得到空间密集关注下外观特征响应A_sart；然后与变形后外观特征进行矩阵相乘得到空间注意力图S_t，将空间注意力图S_t与输入的外观特征A_t相加得到注意力加权之后的外观特征W_t。

根据本发明的第二个方面，提供了一种基于视频的密集人群计数系统，包括：人群活跃区域模块和空间注意力加权密度估计模块；其中：

所述人群活跃区域模块，用于生成人群活跃区域分割R_t，生成的人群活跃区域分割R_t提供了空间注意力，所述空间注意力用于指导人群计数的关注区域；

所述空间注意力加权密度估计模块，用于利用人群活跃区域分割R_t，输入空间注意力机制网络对人群外观特征进行注意力加权，并使用注意力加权后的外观特征输入膨胀卷积网络，以产生人群密度数据。

优选地，所述人群活跃区域模块，包括：

叠加光流模块：根据原始视频数据，对于第t帧，计算视频叠加光流Flow_t，然后将计算得到的叠加光流Flow_t输入CNN卷积网络，得到CNN运动特征M_t，然后将运动特征M_t输出至特征合并模块；

外观特征模块：根据原始视频数据，对于第t帧f_t，输入CNN卷积网络，生成CNN外观特征A_t，然后将外观特征A_t输出至特征合并模块；

特征合并模块：将输入的CNN运动特征M_t和CNN外观特征A_t级联为合并特征C_t，将合并特征C_t输入一个膨胀卷积网络，生成人群活跃区域分割R_t并将人群活跃区域分割R_t输入空间注意力加权密度估计模块。

优选地，计算视频叠加光流Flow_t，包括：对第τ帧f_τ和第τ+1帧f_τ+1，使用光流计算方法得到光流Flow_τ，令λ表示第t帧的邻域，τ表示t在λ邻域内的帧，那么叠加光流Flow_t可被表示为：

优选地，所述空间注意力加权密度估计模块，包括：

空间注意力模块：将人群活跃区域分割R_t，输入一个空间注意力机制网络，生成空间注意力图S_t，利用空间注意力图S_t对原始视频数据的第t帧f_t通过CNN网络生成的外观特征A_t进行加权，得到注意力加权之后的外观特征W_t，并输出至密度估计模块；

密度估计模块：将输入的注意力加权之后的外观特征W_t输入一个膨胀卷积网络，得到人群密度估计D_t。

与现有技术相比，本发明具有如下有益效果：

1、在人群活跃区域分割网络利用合并特征C_t对生成人群活跃区域分割R_t的训练过程中，除了给定的人群标定G以外，不需要额外标定，活跃区域分割标定是自动生成的，通过对计算的叠加光流Flow_t以给定的人群标定G的每一个标注作为生长种子，进行区域生长得到，实现了一个弱监督的区域分割任务。

2、本发明通过空间注意力机制，人群活跃区域分割为外观特征提供指导，重新评估外观特征，实现基于空间注意力的密度估计，从而达到了减轻背景干扰问题的目的，提升了人群计数的鲁棒性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例中所提供的基于视频的密集人群计数系统结构示意图；

图2为本发明一实施例中所提供的人群活跃区域模块的结构示意图；

图3为本发明一实施例中所提供的空间注意力加权密度估计模块的结构示意图；

图4为本发明一实施例中所提供的空间注意力机制网络的示意图；

图5为本发明一实施例中所提供的基于视频的密集人群计数方法流程图。

具体实施方式

下面结合实施例并对照附图对本发明作进一步详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明实施例提供了一种基于视频的密集人群计数方法，该方法是一种弱监督活跃区域分割的视频密集人群计数的方法，如图5所示，包括：

S1，根据原始视频数据，对于第t帧，计算视频叠加光流Flow_t，具体为：

首先计算两帧之间的光流；对第τ帧f_τ和第τ+1帧f_τ+1，使用光流计算方法得到光流Flow_τ，令λ表示第t帧的邻域，那么叠加光流Flow_t可被表示为：

S2，根据第t帧的视频叠加光流Flow_t，输入CNN网络，生成CNN运动特征M_t；

S3，根据原始视频数据，对于第t帧，计算图像CNN外观特征A_t，具体为：

对于第t帧f_t，输入CNN卷积网络，生成CNN外观特征A_t；

S4，将CNN运动特征M_t与CNN外观特征A_t输入一个人群活跃区域分割网络，生成人群活跃区域分割R_t；具体为：

人群活跃区域分割网络是指，将CNN运动特征M_t与CNN外观特征A_t级联，得到合并特征C_t，将合并特征C_t输入一个膨胀卷积网络，进而生成人群活跃区域分割R_t；

在人群活跃区域分割网络中利用合并特征C_t对生成人群活跃区域分割R_t进行训练，在训练过程中，用于人群活跃区域分割的标定通过对计算的叠加光流Flow_t以给定的人群标定G 的每一个标注作为生长种子，进行区域生长得到。

S5，将人群活跃区域分割R_t，输入一个空间注意力机制网络，生成空间注意力图S_t，利用空间注意力图S_t对CNN外观特征A_t进行加权，得到注意力加权之后的外观特征W_t；

将注意力加权之后的外观特征W_t输入一个膨胀卷积网络，得到人群密度估计D_t。

如图4所示，所述控件注意力机制网络的结构为：将输入的人群活跃区域分割R_t进行堆叠，使得R_t堆叠后的结果与输入的外观特征A_t的尺寸相同，并进行对应元素相乘，得到关注下的外观特征A_rt，对关注下的外观特征进行变形，并与外观特征变形并转置的结果进行矩阵相乘得到空间密集关注下的外观特征A_art，通过softmax层，得到空间密集关注下外观特征响应A_sart。然后与外观特征变形的特征进行矩阵相乘得到空间注意力图St，将空间注意力图 S_t与原有外观特征A_t相加得到注意力加权之后的外观特征W_t。

本发明实施例同时提供了一种基于视频的密集人群计数系统，如图1所示，包括人群活跃区域模块和空间注意力加权密度估计模块，其中：

所述人群活跃区域模块，用于生成人群活跃区域分割R_t，生成的人群活跃区域分割R_t即提供了空间注意力，所述空间注意力用于指导人群计数的关注区域；

所述空间注意力加权密度估计模块，利用人群活跃区域分割R_t，在人群计数的关注区域内产生人群密度数据。

进一步地，

如图2所示，所述人群活跃区域模块包括：叠加光流模块、外观特征模块和特征合并模块；

如图3所示，所述空间注意力加权密度估计模块包括：空间注意力模块和密度估计模块；

人群活跃区域模块生成的数据，输入空间注意力加权密度估计模块，即：

A、人群活跃区域模块根据输入的原始视频数据，生成人群活跃区域分割R_t，与原始数据一同输入空间注意力加权密度估计模块；其中：

所述叠加光流模块：根据原始视频数据，对于第t帧，计算视频叠加光流Flow_t，对第τ帧f_τ和第τ+1帧f_τ+1，使用光流计算方法得到光流Flow_τ，令λ表示第t帧的邻域，那么叠加光流Flow_t可被表示为：

然后将计算得到的叠加光流Flow_t输入 CNN卷积网络，得到运动特征M_t，然后将运动特征M_t输入特征合并模块；

所述外观特征模块：根据原始视频数据，对于第t帧f_t，输入CNN卷积网络，生成CNN外观特征A_t,然后将外观特征A_t输入特征合并模块；

所述特征合并模块：级联输入运动特征M_t和外观特征A_t为合并特征C_t，将合并特征输入一个膨胀卷积网络，生成人群活跃区域分割R_t并将R_t输入空间注意力加权密度估计模块；

B、空间注意力加权密度估计模块根据人群活跃区域分割R_t，结合原始视频数据进行密集人群计数，其中：

所述空间注意力模块：将人群活跃区域分割R_t，输入一个空间注意力机制网络，生成空间注意力图S_t，利用空间注意力图S_t对原始视频数据生成通过CNN生成的外观特征A_t进行加权，得到注意力加权之后的外观特征W_t，并输入密度估计模块；

所述密度估计模块：将注意力加权之后的外观特征W_t输入一个膨胀卷积网络，得到人群密度估计D_t。

在本发明上述实施例中：

S1中，为了提取运动信息，所述基于视频的密集人群计数方法需要计算视频中的光流，采用Lucas–Kanade光流算法得到光流Flow_τ。

S2中，所述CNN网络采用ResNet101网络，提取运动特征M_t；

S3中，所述CNN网络采用ResNet101网络，生成外观特征A_t。

本实施例上述实施例提供的方法与系统，实现的功能如下：

1、结合多帧运动信息与单帧外观特征，进行弱监督区域分割，生成人群活跃区域分割，为下一步密度计数提供指导；

2、将人群活跃区域作为空间注意力机制，指导人群密度计数。

本发明上述实施例提供的基于视频的密集人群计数方法与系统，所述方法包括：根据原始视频数据，对于第t帧，计算视频叠加光流Flow_t，首先计算两帧之间的光流；对第τ帧f_τ和第τ+1帧f_τ+1，使用光流计算方法得到光流Flow_τ，令λ表示第t帧的邻域，那么叠加光流Flow_t可被表示为：

根据第t帧的视频叠加光流Flow_t，输入 CNN网络，生成CNN运动特征M_t；根据原始视频数据，对于第t帧，计算图像CNN外观特征A_t，对于第t帧f_t，输入CNN卷积网络，生成CNN外观特征A_t；将CNN运动特征 M_t与外观特征A_t级联，得到合并特征C_t，将合并特征输入一个膨胀卷积网络，生成人群活跃区域分割R_t；将人群活跃区域分割R_t，输入一个空间注意力机制网络，生成空间注意力图S_t，利用空间注意力图S_t对CNN外观特征A_t进行加权，得到注意力加权之后的外观特征W_t；将注意力加权之后的外观特征W_t输入一个膨胀卷积网络，得到人群密度估计D_t。所述系统包括：人群活跃区域模块和空间注意力加权密度估计模块。人群活跃区域模块，包括叠加光流模块、外观特征模块和特征合并模块；空间注意力加权密度估计模块包括空间注意力模块和密度估计模块。

本发明上述实施例提供的方法与系统，通过空间注意力机制，人群活跃区域分割为外观特征提供指导，重新评估外观特征，实现基于空间注意力的密度估计，从而达到了减轻背景干扰问题的目的，提升了人群计数的鲁棒性。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于视频的密集人群计数方法，其特征在于，包括：

S5：将人群活跃区域分割R_t，输入一个空间注意力机制网络，生成空间注意力图S_t，利用空间注意力图S_t对CNN外观特征A_t进行加权，得到注意力加权之后的外观特征W_t；将注意力加权之后的外观特征W_t输入膨胀卷积网络，得到人群密度估计D_t；

所述空间注意力机制网络为：将输入的人群活跃区域分割R_t进行堆叠，使得人群活跃区域分割R_t堆叠后的结果与输入的外观特征A_t的尺寸相同，并进行对应元素相乘，得到关注下的外观特征A_rt，对关注下的外观特征A_rt进行变形，并与变形后外观特征转置的结果进行矩阵相乘得到空间密集关注下的外观特征A_art，通过softmax函数，得到空间密集关注下外观特征响应A_sart；然后与变形后外观特征进行矩阵相乘得到空间注意力图S_t，将空间注意力图S_t与输入的外观特征A_t相加得到注意力加权之后的外观特征W_t。

2.根据权利要求1所述的基于视频的密集人群计数方法，其特征在于，所述计算视频叠加光流Flow_t，包括：

计算两帧之间的光流，令λ表示第t帧的邻域，令τ表示t在λ邻域内的帧，对第τ帧f_τ和第τ+1帧f_τ+1，使用Lucas–Kanade光流计算方法得到光流Flow_τ，令λ表示第t帧的邻域，τ表示t在λ邻域内的帧，那么叠加光流Flow_t表示为：

3.根据权利要求1所述的基于视频的密集人群计数方法，其特征在于，所述人群活跃区域分割网络为：将CNN运动特征M_t与CNN外观特征At进行级联，得到合并特征C_t，将合并特征C_t输入膨胀卷积网络，进而生成人群活跃区域分割R_t。

4.根据权利要求3所述的基于视频的密集人群计数方法，其特征在于，在人群活跃区域分割网络中利用合并特征C_t对生成人群活跃区域分割R_t进行训练，在训练过程中，用于人群活跃区域分割的标定通过对计算的叠加光流Flow_t以给定的人群标定G的每一个标注作为生长种子，进行区域生长得到。

5.一种基于视频的密集人群计数系统，其特征在于，包括：人群活跃区域模块和空间注意力加权密度估计模块；其中：

所述空间注意力加权密度估计模块，用于利用人群活跃区域分割R_t，输入空间注意力机制网络对人群外观特征进行注意力加权，并使用注意力加权后的外观特征输入膨胀卷积网络，以产生人群密度数据；

6.根据权利要求5所述的基于视频的密集人群计数系统，其特征在于，所述人群活跃区域模块，包括：

7.根据权利要求6所述的基于视频的密集人群计数系统，其特征在于，计算视频叠加光流Flow_t，包括：对第τ帧f_τ和第τ+1帧f_τ+1，使用光流计算方法得到光流Flow_τ，令λ表示第t帧的邻域，τ表示t在λ邻域内的帧，那么叠加光流Flow_t可被表示为：

8.根据权利要求5所述的基于视频的密集人群计数系统，其特征在于，所述空间注意力加权密度估计模块，包括：