CN113191301B

CN113191301B - 融合时序和空间信息的视频密集人群计数方法及系统

Info

Publication number: CN113191301B
Application number: CN202110528792.XA
Authority: CN
Inventors: 杨华; 高宇康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-04-18
Anticipated expiration: 2041-05-14
Also published as: CN113191301A

Abstract

本发明公开一种融合时序和空间信息的视频密集人群计数方法及系统，该方法包括：获取包括密集行人的视频序列，确定所述视频序列中密集人群坐标数据，并转化为密集人群密度图序列；将所述密集人群密度图序列作为预测网络学习目标，采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束；所述预测网络采用引入3D卷积和分组卷积的预测网络；将需预测的密集人群图像序列输入所述预测网络，输出预测的密度预测图；对所述密度预测图所有像素值进行求和，得到最终的预测人数。本发明较大程度提升了精度，具有良好的鲁棒性，具有较强的应用价值。

Description

融合时序和空间信息的视频密集人群计数方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种融合时序和空间信息的视频密集人群计数方法、系统。

背景技术

随着世界人口的快速增长和迅猛的城市化建设，人群集聚场景显著增加，如高峰时段的车站和地铁站，节假日的热门景区，大型表演和群众活动场地等，如果不加预警和及时疏导，容易引发各类严重事故，甚至造成严重伤亡。

但是现有的针对视频的人群计数方法主要以基于光流法和循环神经网络为主，但是密集人群场景下被遮挡行人的光流无法被提取，影响了算法的性能，而循环神经网络具有计算量大、不利于实际场景应用的问题。

发明内容

本发明的目的在于克服上述现有技术的不足之处，提出了一种融合时序和空间信息的视频密集人群计数方法、系统，提升性能，实现在各场景下自适应解决人群计数。

本发明的第一方面，提供一种融合时序和空间信息的视频密集人群计数方法，包括：

获取包括密集行人的视频序列，确定所述视频序列中密集人群坐标数据，并转化为密集人群密度图序列；

将所述密集人群密度图序列作为预测网络学习目标，采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束；所述预测网络采用引入3D卷积和分组卷积的预测网络；

将需预测的密集人群图像序列输入所述预测网络，输出预测的密度预测图；

对所述密度预测图所有像素值进行求和，得到最终的预测人数。

可选地，所述确定所述视频序列中密集人群坐标数据，并转化为密集人群密度图序列，包括：

对于密集人群坐标数据，将每个坐标点对应像素与一个固定方差的高斯核相卷积，得到密集人群密度图序列。

可选地，所述采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束，包括：

采用空间一致性损失函数,通过像素级的约束和生成式对抗损失来增强输出密度图的空间质量；

采用时序一致性损失函数，通过像素级别的平滑项损失、基于运动对称性的镜像损失和基于时序判别器的生成式对抗损失来增强输出密度图的时空质量；

采用协同学习策略，融合空间信息和时序信息和使预测器与两个鉴别器之间对抗学习，分步对其进行优化学习。

本发明的第二方面，提供一种融合时序和空间信息的视频密集人群计数系数，包括：

视频序列处理模块，该模块获取包括密集行人的视频序列，确定所述视频序列中密集人群坐标数据，并转化为密集人群密度图序列；

预测网络学习模块，该模块将所述密集人群密度图序列作为预测网络学习目标，采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束；

密度预测图获取模块，将需预测的密集人群图像序列输入所述预测网络学习模块得到的预测网络，输出预测的密度预测图；

计数预测模块，对所述密度预测图所有像素值进行求和，得到最终的预测人数。

本发明的第三方面，提供一种视频密集人群计数终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的融合时序和空间信息的视频密集人群计数方法。

本发明的第四方面，提供一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行上述的融合时序和空间信息的视频密集人群计数方法。

与现有技术相比，本发明实施例具有以下至少一种有益效果：

本发明上述的视频密集人群计数方法、系统和终端，引入了3D卷积，在按时序排列的视频序列上进行卷积。为了平衡模型能力和计算量，使时序信息与高维空间特征融合，提升性能，实现在各场景下自适应解决人群计数。

进一步的，本发明上述的视频密集人群计数方法、系统和终端，在2D的鉴别器的基础上，引入3D鉴别器判别生成的密度分布图的时序一致性，增强输出结果的鲁棒性和质量。

本发明上述的视频密集人群计数方法、系统和终端，还采用空间一致性损失函数和时序平滑损失函数，约束引导预测结果的分布与学习目标的分布相一致。

本发明上述的视频密集人群计数方法、系统和终端，通过协同学习框架，将预测器和两个判别器共同训练优化，从而提高了生成结果在空间维度的质量和时序上的平滑性，增强了预测的鲁棒性。

附图说明

图1为本发明一较优实施例中融合时序和空间信息的视频密集人群计数方法的原理示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

图1为本发明一实施例中融合时序和空间信息的视频密集人群计数方法的原理示意图。如图1所示，本实施例中，融合时序和空间信息的视频密集人群计数方法包括：

S100，获取包括密集行人的T帧视频序列I^T＝I_t,I_t+1,…I_t+T，确定密集人群视频序列I^T中密集人群坐标数据，并转化为密集人群密度图序列D_g ^T＝D_t,D_t+1,…D_t+T；

S200，将密集人群密度图序列D_g ^T作为预测网络学习目标，采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束；

S300，将需预测的密集人群图像序列

输入所述预测网络，输出预测的密度预测图

S400，对所述密度预测图

所有像素值进行求和，得到最终的预测人数。

为了更好地说明本发明技术方案的实施，以下给出融合时序和空间信息的视频密集人群计数方法的具体应用实施例，具体操作步骤可以包括：

S101，获取包括密集行人的T帧视频帧序列.

本实施例中，原目标集中可以包含三通道的彩色图，也可以包括单通道的灰度图。视频帧序列为从视频中以固定的采样率(10HZ)采样得到的有固定间隔的连续图片。

S102，获取密集人群视频序列I^T中密集人群坐标数据，并转化为密集人群密度图序列D_g ^T。

本实施例中，人群计数任务标注数据以孤立的人头坐标形式表现，如人头在像素坐标x_i处，表示为δ(x-x_i)，x为图片像素位置，每个像素对应一个坐标；对于一张有N个行人的图片，坐标点图表示如下所示：

将每个坐标点对应像素与一个固定方差的高斯核G_σ(x)相卷积，可得到人群的密度分布图D_g(x)：

D_g(x)＝H(x)*G_σ(x)

S103，将密集人群密度图序列D_g ^T作为预测网络学习目标，采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束.

本实施例中，整体训练架构由预测器和判别器两部分所组成，其中判别器由两个子网络：时空判别器和空间判别器。空间判别器考虑了每帧图片在空间上的相关性时空判别器被用来鉴别预测的分布图序列和真实的密度分布图序列，从时空的角度提高预测结果。为了便于网络学习帧与帧之间的关系。预测器负责将输入的视频序列I_t,I_t+1...I_t+T，输出对应的N帧密度分布预测结果D_t,D_t+1...D_t+T。

本实施例中，预测网络采用了基于2D卷积和3D卷积混合组成的VggNet-19架构，对于主干网络部分的前16层，采用权重共享的2D卷积进行特征提取，将得到的特征图在时序维度进行特征拼接，上述主干网络的输出经过一层上采样，进入解码部分。对于解码网络部分，采用3D卷积结构，即先采用1×3×3的卷积核进行空间特征的提取，再利用3×1×1的卷积进行时序信息融合。针对输出层，对上述特征图采用分组卷积，使每个时刻的特征图对应一张输出密度分布图，从而得到T张密度预测图。

本实施例中，空间判别器D_I即图像判别器采用70×70的PatchGAN网络，将输入层替换为K＝4的分组卷积，来识别输入是否来自于真实的密度分布图。空间对抗损失函数

为:

其中，x_r为真实图像，由T帧真实的密度分布图及对应行人自然图像拼接而成，而x_f则由T帧预测器生成的预测密度分布结果和对应行人自然图像拼接组成，

表示分布的期望，D_I(x)表示空间鉴别器对输入的鉴别结果。

本实施例中，除空间对抗损失函数之外，还基于生成结果图像结构化相似度和像素级别相似度进行约束，将T帧预测结果与对应的真实的密度分布图求SSIM损失函数L_ssim和L1损失函数L_l1，即：

完整的空间一致性损失函数L_spatial为上述损失函数的线性加权：

λ_ssim和λ_l1为对应损失函数L_ssim和L_l1的权重。本实施例中，λ_ssim和λ_l1均取20。

同时本实施例引入了时间一致性，使预测的结果在时间序列上平滑稳定，增强结果的鲁棒性，以及对称性损失函数，保证输入视频序列与预测的序列一一对应。

本实施例中，时序判别器D_V对于前两层用3×4×4尺寸的3D卷积替换了空间判别器中的2D卷积，从而引入时序信息，利用时序维度的卷积捕获相邻帧的变化特征，后续卷积采用1×4×4尺寸，判断密度图序列的每一帧是否为真实，保证生成的预测结果在时间维度也与真实密度分布图一致。时空判别器损失函数

如下所示：

D_T(x)表示时空鉴别器对输入的鉴别结果，x_f表示生成的预测序列，x_r代表真实的密度分布图序列，D_T为时序判别器。

为了进一步保证时序训练的稳定性和预测结果在时序上的连贯性，本实施例还采用了平滑损失函数L_sm和对称损失函数L_cyc，设D_p ^T+1为T+1时刻的预测结果，D_p ^T+1-t为T+1-t时刻预测结果：

完整时序损失函数L_temporal如下：

本实例中，λ_sm取1，λ_cyc均取10。上述公式中D_p ^T为密度预测图，对应于训练阶段。

本实施例中是以空间一致性损失函数和时序一致性损失函数一起优化来说明的，需要说明的是，在其他实施例中，也可以只保留空间一致性损失函数或者仅保留其中一项进行优化，但会造成部分精度损失。

S104，测试阶段将时序图片I^T输入训练好的预测网络模型中，得到预测结果即密度预测图D_p ^T。将D_p ^T所有像素值累加，得到每帧预测人数的结果。

在另一优选实施例中，在上述实施例基础上，还可以协同交替优化密度预测器、图像判别器、时空判别器，分步对其进行更新学习。

在另一实施例中，本发明还提供一种融合时序和空间信息的视频密集人群计数系数，包括：视频序列处理模块、预测网络学习模块、密度预测图获取模块和计数预测模块，其中，视频序列处理模块获取包括密集行人的视频序列，确定所述视频序列中密集人群坐标数据，并转化为密集人群密度图序列；预测网络学习模块将所述密集人群密度图序列作为预测网络学习目标，采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束；密度预测图获取模块将需预测的密集人群图像序列输入所述预测网络学习模块得到的预测网络，输出预测的密度预测图；计数预测模块对所述密度预测图所有像素值进行求和，得到最终的预测人数。

对于上述融合时序和空间信息的视频密集人群计数系数的各个模块，其具体实现的技术可以参照上述融合时序和空间信息的视频密集人群计数方法实施例中对应步骤中的技术，在此不再赘述。

在另一实施例中，本发明还提供一种视频密集人群计数终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的融合时序和空间信息的视频密集人群计数方法。

在另一实施例中，本发明还提供一种计算机可读存储介质，其存储用于电子数据交换的计算机程序，其中，计算机程序使得计算机执行上述的融合时序和空间信息的视频密集人群计数方法。

基于上述的实施例方法步骤和系统，具体实例训练数据分别来自于Fudan-ShanghaiTech数据集和CrowdFlow数据集，前者来自于由来自13个点位的共100段视频，后者为电脑仿真行人流动制作的数据集，由五段长度不等的视频组成，每段视频分别以动态摄像机和静态摄像机的形式进行渲染。

评价标准采用MAE(平均绝对误差)和MSE(均方误差)，设N为测试集图片数，C_i为第i张图片预测人数，

为第i张图片真实人数，其定义如下：

可以看出由本发明实施例得到的结果较大程度了提升了精度，具有良好的鲁棒性，此外，本发明实施例相比基准算法未增加推断阶段的参数量和运算量。

本发明上述实施例，将3D卷积引入视频人群计数领域，利用3D卷积处理前后帧上的时序关系，并利用空间一致性损失函数和图像判别器增强输出密度图的空间质量，利用时序一致性损失函数和时序判别器增强输出密度图的时空质量，进一步协同优化预测网络、图像判别器和视频判别器，最终得到融合时序信息的更具鲁棒性和更高精度的预测结果。本发明较大程度提升了精度，具有良好的鲁棒性，具有较强的应用价值。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种融合时序和空间信息的视频密集人群计数方法，其特征在于，包括：

对所述密度预测图所有像素值进行求和，得到最终的预测人数；

所述采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束，包括：

采用协同学习策略，融合空间信息和时序信息使预测器与两个鉴别器之间对抗学习，分步对其进行优化学习；

所述预测网络采用基于2D卷积和3D卷积混合组成的VggNet-19架构，其中：

对于主干网络部分的前16层，采用权重共享的2D卷积进行特征提取，将得到的特征图在时序维度进行特征拼接，上述主干网络的输出经过一层上采样，进入解码部分；

对于解码网络部分，采用3D卷积结构，即先采用1×3×3的卷积核进行空间特征的提取，再利用3×1×1的卷积进行时序信息融合；

针对输出层，对上述特征图采用分组卷积，使每个时刻的特征图对应一张输出密度分布图，从而得到T张密度预测图。

2.根据权利要求1所述的融合时序和空间信息的视频密集人群计数方法，其特征在于，所述确定所述视频序列中密集人群坐标数据，并转化为密集人群密度图序列，包括：

3.一种融合时序和空间信息的视频密集人群计数系数，其特征在于，包括：

预测网络学习模块，该模块将所述密集人群密度图序列作为预测网络学习目标，采用空间一致性损失函数和时序一致性损失函数，对生成目标进行约束；所述预测网络采用引入3D卷积和分组卷积的预测网络；

计数预测模块，对所述密度预测图所有像素值进行求和，得到最终的预测人数；

所述预测网络学习模块，包括：

采用空间一致性损失函数，通过像素级的约束和生成式对抗损失来增强输出密度图的空间质量；

采用协同学习策略，融合空间信息和时序信息和使预测器与两个鉴别器之间对抗学习，分步对其进行优化学习；

4.根据权利要求3所述的融合时序和空间信息的视频密集人群计数系统，其特征在于，所述视频序列处理模块，对于密集人群坐标数据，将每个坐标点对应像素与一个固定方差的高斯核相卷积，得到密集人群密度图序列。

5.一种视频密集人群计数终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-2任一所述的方法。

6.一种计算机可读存储介质，其特征在于，其存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-2任一项所述的方法。