CN114639070A

CN114639070A - 融合注意力机制的人群运动流量分析方法

Info

Publication number: CN114639070A
Application number: CN202210250535.9A
Authority: CN
Inventors: 于元隆; 林心代; 李琦; 林郁昊; 刘文犀
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-17
Anticipated expiration: 2042-03-15
Also published as: CN114639070B

Abstract

本发明提出一种融合注意力机制的人群运动流量分析方法，包括：将人群轨迹数据集中的图像和轨迹数据进行数据预处理，得到局部图像块与其对应的稠密光流图、密度分布图、运动速度图和瞬时运动流量图，并将数据集划分为训练集与测试集；以及，设计融合人群密度分布特征和运动特征的注意力机制模块；设计融合注意力机制的人群运动流量分析网络，使用所设计的网络训练融合注意力机制的人群运动流量分析模型；将图像输入到训练好的融合注意力机制的人群运动流量分析模型中，输出对应的人群瞬时运动流量估计图，最后以人群瞬时运动流量估计图在划定框上的投影值作为此时刻区域内经过的人数。

Description

融合注意力机制的人群运动流量分析方法

技术领域

本发明属于图像处理以及计算机视觉技术领域，尤其涉及一种融合注意力机制的人群运动流量分析方法。

背景技术

随着社会的持续发展，城市化进程不断推进，城市人口逐渐增加，人们对社会公共安全需求也逐步提高。在人口流动频繁的今天，对公共场所中的群体进行有效的流量监控与管理，是亟需解决的问题。

人群的运动流量分析主要指的是对场景中的运动群体进行流量分析与行为理解，了解人群主要运动模式，以达到描述人群行为的目的。伴随着计算机视觉技术的进步，此领域下的相关应用，诸如目标检测、目标跟踪等都得到了充分的发展。人群运动流量分析的应用是多元的：(1)交通控制：对常有大型集会的建筑区域(如运动场、音乐厅、电影院、展览馆、会场等)进行流量分析，监控交通干道的流量，控制场所内人群的饱和程度，确保人身安全，避免因人群拥挤而发生灾难事件。每当公共空间的人群数量超过报警阈值时，管理部门可以通过打开新出口、关闭入口或派遣额外人员引导人群交通流来自动发出警报，以控制人群密度；(2)城市规划：流量分析可以为城市规划和公共场所设计提供指导，如对商场的流量估计，分析该场景下的人群运动模式，从而调整商场布局，尽可能有效利用空间；(3)异常检测：流量分析可以用来自动检测场景中的异常情况，通过估计各区域的流入量和流出量的差异，可以确定它是否是一个流入量远大于流出量的瓶颈区域。反之，对于流出量较大而没有流入量的区域，可能表明在此区域内发生了火灾等异常事件。

对大规模场景下的人群运动流量进行分析，在维护公共安全方面起到极为关键的作用。利用先进的计算机技术进行自动分析，释放人力，对于城市的现代化和智能化有着重要的意义。现有的物联网(IoT)和计算机视觉技术似乎能够完成这项任务，但仍然存在挑战：首先，现有的监控人群流动的物联网技术通常依赖于物理设备。然而，物理设备只适用于所有人都拥有或使用这些设备的情况。其次，当前的计算机视觉技术可以对人群进行跟踪，但仅限于某些瓶颈区域(如展览或剧院的入口和出口)，同时需要布置大量的监控设备，成本高昂。目前的技术主要集中在普通监控摄像机捕捉的局部区域，这对如何在大场景中监控人群动态提出了一个新的挑战，因此值得开展更为深入的研究。

发明内容

为了弥补现有技术的空白和不足，本发明提出一种融合注意力机制的人群运动流量分析方法，包括：将人群轨迹数据集中的图像和轨迹数据进行数据预处理，得到局部图像块与其对应的稠密光流图、密度分布图、运动速度图和瞬时运动流量图，并将数据集划分为训练集与测试集；以及，设计融合人群密度分布特征和运动特征的注意力机制模块；设计融合注意力机制的人群运动流量分析网络，使用所设计的网络训练融合注意力机制的人群运动流量分析模型；将图像输入到训练好的融合注意力机制的人群运动流量分析模型中，输出对应的人群瞬时运动流量估计图，最后以人群瞬时运动流量估计图在划定框上的投影值作为此时刻区域内经过的人数。

其利用图像以及对应的稠密光流图，实现密度分布特征和运动特征的融合，进行瞬时运动流量的估计，有效地提高了人群运动流量分析算法的性能。

本发明具体采用以下技术方案：

一种融合注意力机制的人群运动流量分析方法，其特征在于，包括以下步骤：

步骤S1：将人群轨迹数据集中的图像和轨迹数据进行数据预处理，得到局部图像块与其对应的稠密光流图、密度分布图、运动速度图和瞬时运动流量图，并将数据集划分为训练集与测试集；

步骤S2：构建融合人群密度分布特征和运动特征的注意力机制模块；

步骤S3：基于步骤S2获得的所述融合人群密度分布特征和运动特征的注意力机制模块，构建融合注意力机制的人群运动流量分析网络，并利用步骤S1获得的训练集训练融合注意力机制的人群运动流量分析模型；

步骤S4：将图像输入到训练好的融合注意力机制的人群运动流量分析模型中，输出对应的人群瞬时运动流量估计图，最后以人群瞬时运动流量估计图在划定框上的投影值作为此时刻区域内经过的人数。

进一步地，步骤S1具体包括以下步骤：

步骤S11：对于人群轨迹数据集中的图像框定重点关注区域，即图像中行人可达的任意位置；

步骤S12：根据框定区域对每帧图像进行裁剪，得到每帧图像的局部图像块；

步骤S13：根据步骤S12中得到的局部图像块，计算相邻两帧局部图像块的稠密光流图；

步骤S14：对于无人机人群轨迹数据集中的轨迹数据，首先根据轨迹生成原图每一帧的行人位置分布图；对于行人运动速度图则由相邻帧之间的轨迹相减得到，分别在x轴方向和y轴方向单独计算；在原图相同位置裁剪行人位置分布图，得到与局部图像块相同大小的人群密度分布图；对行人运动速度图进行同样的裁剪，得到局部人群运动速度图；人群瞬时运动流量图由人群密度分布图和人群运动速度图直接相乘得到；

步骤S15：将步骤S13和步骤S14中得到的局部图像块与其对应的稠密光流图、密度分布图和运动速度图和瞬时运动流量图，按给定比例划分为训练集与测试集。

进一步地，在步骤S1中为了得到某时刻区域内经过的真实人数，将封闭区域拆分为多条线段的组合；按照顺时针方向，定义各线段的向量方向，对各线段进行计算：利用人群轨迹数据集中的轨迹数据，得到相邻帧之间的轨迹形成的向量，判断轨迹向量与线段向量是否存在交点，以及两个向量之间的夹角度数，从而判断某时刻的轨迹是否越线、是从何方向越线；某时刻区域内经过的真实人数，即为各线段向量越线人数的累加。

进一步地，步骤S2具体包括以下步骤：

步骤S21：将来自于注意力机制模块前序模块的特征作为注意力机制模块的输入，即：将维度为C×h×w的人群密度分布特征X_D和运动特征X_V分别输入到两个1×1的卷积层中，具体的表达式为：

X_D’＝w₁(X_D)+b₁

X_V’＝w₂(X_V)+b₂

其中，w₁,b₁是对应提取人群密度分布特征的1×1卷积层的权重和偏置；w₂,b₂是对应提取人群运动特征的1×1卷积层的权重和偏置，X_D'和X_V'分别代表人群密度分布特征和运动特征；

然后调整人群密度分布特征X_D'和运动特征X_V'的维度；X_D'与X_V'的原维度都为C×h×w，调整后的维度为heads×c×h×w，其中C＝heads×c；

步骤S22：将步骤S21中得到的维度为heads×c×h×w的人群密度分布特征X_D'，沿通道分割成heads个组，分别为X_d ¹,X_d ²,…,X_d ^heads，每组特征的维度大小均为c×h×w；分组后的特征分别输入到heads个深度卷积层中，每层的卷积核大小为ω_i×ω_{i,i＝{1,…,heads}}，从而得到heads个密度输出特征，分别为X_D ¹,X_D ²,…,X_D ^heads；将heads个密度输出特征拼接在一起，拼接后的注意力图E的维度为heads×c×h×w；注意力图E的计算公式为：

X_D ¹＝w₁(X_d ¹)+b₁

X_D ²＝w₂(X_d ²)+b₂

……

X_D ^heads＝w_heads(X_d ^heads)+b_heads

E＝Concat(X_D ¹,X_D ²,…,X_D ^heads)

其中，X_D ⁱ表示经过第i个深度卷积层的输出特征，w_i,b_i是对应第i个深度卷积层的权重和偏置，Concat(·)表示特征在新的维度上进行拼接；

步骤S23：将步骤S21中得到的人群运动特征X_V'与S22步骤中得到的注意力图E相乘，并通过残差结构增强速度特征，计算公式为：

其中，⊙表示矩阵逐元素乘法，

表示增强后的速度特征；

最后，将维度为heads×c×h×w的增强速度特征

的大小调整为C×h×w，其中C＝heads×c。

进一步地，步骤S3具体包括以下步骤：

步骤S31：以FlowNet光流网络为基础，分别构建网络结构相同的密度分支和运动速度分支，并引入光流分支，经过相同的前三层编码器之后，与运动速度分支的第三层特征相拼接；将所述融合人群密度分布特征和运动特征的注意力机制模块插入到网络第三层编码器之后，融合人群密度分布特征和运动特征，即：网络的输入为两张相邻帧的局部图像块I_t-1,I_t以及对应的稠密光流图O_t，O_t对应的是图像I_t-1与I_t之间的变化；网络的输出为三张图像：人群密度分布估计图

人群运动速度估计图

和人群瞬时运动流量估计图

其中

⊙表示矩阵逐元素乘法；

步骤S32：记步骤S31中的网络为N，为了进一步加强模型训练，增加逆时序网络M，M的网络结构与N一致，并且权重共享；逆时序网络M的输入改为局部图像块I_t+1,I_t和对应的稠密光流图O_t'，O_t'对应的是图像I_t+1与I_t之间的变化；逆时序网络M的输出为逆时序人群密度分布估计图

逆时序人群运动速度估计图

和逆时序人群瞬时运动流量估计图

其中

⊙表示矩阵逐元素乘法；

步骤S33：将步骤S1获得的训练集中的某个批次的图像和对应的稠密光流图输入到步骤S31和S32中的网络中，同时进行训练，预测得到人群密度分布估计图、人群运动速度估计图和人群瞬时运动流量估计图；

步骤S34：根据融合注意力机制的人群运动流量分析网络的损失函数，利用反向传播方法计算人群运动流量分析的深度网络中各参数的梯度，并利用随机梯度下降方法更新参数；所述损失函数L如下：

L＝L₁+λL₂

其中，

分别表示图像经过步骤S31的网络N得到的人群密度分布估计图、人群运动速度估计图和人群瞬时运动流量估计图，

分别表示图像经过步骤S32的网络M得到的逆时序人群密度分布估计图、逆时序人群运动速度估计图和逆时序人群瞬时运动流量估计图，D、V、C分别表示真实的人群密度分布图、人群运动速度图和人群瞬时运动流量图，L₁为网络N的损失函数，L₂为网络M的损失函数，λ为平衡损失的参数；

步骤S35：以批次为单位重复步骤S33至步骤S34，直至步骤S34中计算得到的损失值收敛并趋于稳定，保存网络参数，完成融合注意力机制的人群运动流量分析模型的训练过程。

进一步地，步骤S4具体包括以下步骤：

步骤S41：将测试集中的图像和对应文本特征输入到训练好的融合注意力机制的人群运动流量分析模型，输出对应的人群瞬时运动流量估计图

步骤S42：根据步骤S11中划定的区域，将其拆分为多条线段的组合L，在经过步骤S41得到的人群瞬时运动流量估计图

上进行取点，计算

在L上的投影值，累加得到区域内经过的人数P，计算公式如下：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的融合注意力机制的人群运动流量分析方法的步骤。

一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述的融合注意力机制的人群运动流量分析方法的步骤。

与现有技术相比，本发明及其优选方案利用图像以及对应的稠密光流图，实现密度分布特征和运动特征的融合，进行瞬时运动流量的估计，有效地提高了人群运动流量分析算法的性能。

附图说明

图1为本发明实施例方法整体流程示意图；

图2为本发明实施例网络模型结构示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提供的融合注意力机制的人群运动流量分析方法，如图1、图2所示，包括以下步骤：

步骤S1：将无人机人群轨迹数据集中的图像和轨迹数据进行数据预处理，得到局部图像块与其对应的稠密光流图、密度分布图、运动速度图和瞬时运动流量图，并将数据集划分为训练集与测试集；

步骤S2：设计融合人群密度分布特征和运动特征的注意力机制模块；

步骤S3：设计融合注意力机制的人群运动流量分析网络，使用所设计的网络训练融合注意力机制的人群运动流量分析模型；

在本实施例中，步骤S1具体包括以下步骤：

步骤S11：采用无人机人群轨迹数据集DroneCrowd，对于数据集中的图像，首先在图像中行人可达的任意位置框定重点关注区域。此区域可以是图像中行人可达的任意位置，例如道路、广场、草地等，框定区域的大小不作限制；

步骤S12：根据框定区域对每帧图像进行裁剪，得到每帧图像的局部图像块，本实施例方案中，一般局部图像块尺寸不小于224×224像素，最大为480×288像素；

步骤S13：根据步骤S12中得到的局部图像块，利用OpenCV中的calcOpticalFlowFarne back函数，计算相邻两帧局部图像块的稠密光流图；

步骤S14：对于数据集中的轨迹数据，首先根据轨迹生成原图每一帧的行人位置分布图。行人运动速度图可由相邻帧之间的轨迹相减得到，分别在x轴方向和y轴方向单独计算。类似于局部图像块，在原图相同位置裁剪行人位置分布图，得到与局部图像块相同大小的人群密度分布图。行人运动速度图也进行同样的裁剪，得到局部人群运动速度图。人群瞬时运动流量图由人群密度分布图和人群运动速度图直接相乘得到。为了便于训练，人群密度分布图和人群运动速度图均叠加了核大小为5的高斯核用于平滑峰值；

步骤S15：为了得到某时刻区域内经过的真实人数，可以将封闭区域拆分为多条线段的组合。按照顺时针方向，定义各线段的向量方向，对各线段进行计算：利用人群轨迹数据集中的轨迹数据，得到相邻帧之间的轨迹形成的向量，判断轨迹向量与线段向量是否存在交点，以及两个向量之间的夹角度数，从而判断某时刻的轨迹是否越线、是从何方向越线。某时刻区域内经过的真实人数，即为各线段向量越线人数的累加；

将上述步骤中得到的局部图像块与其对应的稠密光流图、密度分布图和运动速度图和瞬时运动流量图，划分训练集与测试集。其中，训练集包含82个场景，测试集包含30个场景。

在本实施例中，步骤S2具体包括以下步骤：

取heads＝8，c＝32，C＝heads×c＝256。heads个深度卷积层对应的内核大小ω设置为{3,3,5,5,5,7,7,7}。

X_D’＝w₁(X_D)+b₁

X_V’＝w₂(X_V)+b₂

其中，w₁,b₁是对应提取人群密度分布特征的1×1卷积层的权重和偏置。w₂,b₂是对应提取人群运动特征的1×1卷积层的权重和偏置，X_D'和X_V'分别代表人群密度分布特征和运动特征。

然后调整人群密度分布特征X_D'和运动特征X_V'的维度。X_D'与X_V'的原维度都为C×h×w，调整后的维度为heads×c×h×w，其中C＝heads×c；

步骤S22：将步骤S21中得到的维度为heads×c×h×w的人群密度分布特征X_D'，沿通道将其分割成heads个组，分别为X_d ¹,X_d ²,…,X_d ^heads，每组特征的维度大小均为c×h×w。分组后的特征分别输入到heads个深度卷积层中，每层的卷积核大小为ω_i×ω_{i,i＝{1,…,heads}}，从而得到heads个密度输出特征，分别为X_D ¹,X_D ²,…,X_D ^heads。将heads个密度输出特征拼接在一起，拼接后的注意力图E的维度为heads×c×h×w。注意力图E的计算公式为：

X_D ¹＝w₁(X_d ¹)+b₁

X_D ²＝w₂(X_d ²)+b₂

……

X_D ^heads＝w_heads(X_d ^heads)+b_heads

E＝Concat(X_D ¹,X_D ²,…,X_D ^heads)

步骤S23：将步骤S21中得到的人群运动特征X_V'与步骤S22中得到的注意力图E相乘，并通过残差结构来增强速度特征，计算公式为：

其中，⊙表示矩阵逐元素乘法，

表示增强后的速度特征。

最后，将维度为heads×c×h×w的增强速度特征

的大小调整为C×h×w，其中C＝heads×c。

在本实施例中，步骤S3具体包括以下步骤：

步骤S31：以FlowNet光流网络作为基础，分别设计网络结构相同的密度分支和运动速度分支，并引入光流分支，经过相同的前三层编码器之后，与运动速度分支的第三层特征相拼接。将步骤S2中设计的注意力模块插入到网络第三层编码器之后，融合人群密度分布特征和运动特征。即网络的输入为两张相邻帧的局部图像块I_t-1,I_t以及对应的稠密光流图O_t，O_t对应的是图像I_t-1与I_t之间的变化。网络的输出为三张图像：人群密度分布估计图

人群运动速度估计图

和人群瞬时运动流量估计图

其中

⊙表示矩阵逐元素乘法；

步骤S32：记步骤S31中的网络为N，为了进一步加强模型训练，增加逆时序网络M，M的网络结构与N一致，并且权重共享。逆时序网络M的输入改为局部图像块I_t+1,I_t和对应的稠密光流图O_t'，O_t'对应的是图像I_t+1与I_t之间的变化。逆时序网络M的输出为逆时序人群密度分布估计图

逆时序人群运动速度估计图

和逆时序人群瞬时运动流量估计图

其中

⊙表示矩阵逐元素乘法；

步骤S33：将经过步骤S1的训练集中的某个批次的图像和对应的稠密光流图输入到S31和S32步骤中的网络中，同时进行训练，预测得到人群密度分布估计图、人群运动速度估计图和人群瞬时运动流量估计图；

步骤S34：根据融合注意力机制的人群运动流量分析网络的损失函数，利用反向传播方法计算人群运动流量分析的深度网络中各参数的梯度，并利用SGD随机梯度下降方法更新参数。网络的损失函数L如下：

L＝L₁+λL₂

其中，

表示图像经过步骤S31的网络N得到的人群密度分布估计图、人群运动速度估计图和人群瞬时运动流量估计图，

表示图像经过步骤S32的网络M得到的逆时序人群密度分布估计图、逆时序人群运动速度估计图和逆时序人群瞬时运动流量估计图，D、V、C表示真实的人群密度分布图、人群运动速度图和人群瞬时运动流量图，L₁为网络N的损失函数，L₂为网络M的损失函数，λ为平衡损失的参数，在本实施例中取值为0.05；

步骤S35：以批次为单位重复上述步骤S33至步骤S34，直至步骤S34中计算得到的损失值收敛并趋于稳定，在本实施例的一个测试实例中，一共训练了70个epoch。随后保存网络参数，完成融合注意力机制的人群运动流量分析网络的训练过程。

在本实施例中，步骤S4具体包括以下步骤：

上进行取点，计算

在L上的投影值，累加得到区域内经过的人数P。计算公式如下：

本实施例提供的以上程序设计方案可以代码化的形式存储在计算机可读取存储介质中，并以计算机程序的方式进行实现，并通过计算机硬件输入计算所需的基本参数信息，并输出计算结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程、以及流程图中的流程结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程图中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的融合注意力机制的人群运动流量分析方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种融合注意力机制的人群运动流量分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合注意力机制的人群运动流量分析方法，其特征在于：步骤S1具体包括以下步骤：

3.根据权利要求2所述的融合注意力机制的人群运动流量分析方法，其特征在于：在步骤S1中为了得到某时刻区域内经过的真实人数，将封闭区域拆分为多条线段的组合；按照顺时针方向，定义各线段的向量方向，对各线段进行计算：利用人群轨迹数据集中的轨迹数据，得到相邻帧之间的轨迹形成的向量，判断轨迹向量与线段向量是否存在交点，以及两个向量之间的夹角度数，从而判断某时刻的轨迹是否越线、是从何方向越线；某时刻区域内经过的真实人数，即为各线段向量越线人数的累加。

4.根据权利要求2所述的融合注意力机制的人群运动流量分析方法，其特征在于：步骤S2具体包括以下步骤：

X_D′＝w₁(X_D)+b₁

X_V′＝w₂(X_V)+b₂

其中，w₁、b₁是对应提取人群密度分布特征的1×1卷积层的权重和偏置；w₂、b₂是对应提取人群运动特征的1×1卷积层的权重和偏置，X_D'和X_V'分别代表人群密度分布特征和运动特征；