CN112597802A

CN112597802A - 一种基于视觉感知网络深度学习的行人运动模拟方法

Info

Publication number: CN112597802A
Application number: CN202011333762.5A
Authority: CN
Inventors: 龚建华; 武栋; 周洁萍; 李文航; 孙麇
Original assignee: Zhejiang Chinese Academy Of Science Space Information Technology Application Center; Aerospace Information Research Institute of CAS
Current assignee: Zhejiang Chinese Academy Of Science Space Information Technology Application Center; Aerospace Information Research Institute of CAS
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-04-02

Abstract

本发明公开了一种基于视觉感知网络深度学习的行人运动模拟方法，结合深度学习和强化学习，实现了行人运动模拟，该模型模拟人的视觉，以RGB图像作为输入，输出运动的速度和方向，能够有效地模拟不同场景中的行人流。相比于传统的以位置等坐标作为输入的运动模型，本申请方案以视觉图像作为输入，与真实的行人运动更加相似，能够有效地对两出口疏散场景中的行人运动和单向走廊行人流场景中的行人运动进行模拟，有效地增强了行人运动模型的伸缩性和鲁棒性。

Description

一种基于视觉感知网络深度学习的行人运动模拟方法

技术领域

本发明属于计算机模拟仿真领域，特别是涉及一种基于视觉感知网络深度学习的行人运动模拟方法。

背景技术

行人运动建模是模拟和预测行人运动的主要而有效的方法。现实世界中人群的踩踏事故经常发生，比如在地铁、校园教室等人群聚集区域，发生火灾、地震、恐怖袭击等情况时，人群极有可能产生拥挤、踩踏等事故，造成巨大的生命财产损失。因此，模拟和预测行人运动是很重要的。当局(即决策者、疏散管理者、安全规划师、研究人员)事先了解模拟环境中可能发生的情况，可以培训应急人员，以便对实际发生的事件做出成功的反应。

行人运动模型从尺度上分为微观模型和宏观模型。宏观模型忽略个体间的差异，适用于大区域的人群研究；微观模型将人群中的每个行人单独表示，适于小区域的人群行为研究。微观人群模型主要分为连续型模型和离散型模型两种。其中连续性模型是指通过方程来求数值解模拟行人运动过程的模型，典型代表为社会力模型；而离散型模型是将空间划分为网格，行人按照规则转移到相邻的网格，进行离散运动,主要有元胞自动机模型、格子气模型等。

但是传统的行人运动模型存在着一些问题。需要较为复杂的数学建模，并且个体差异等一些复杂的因素很难被考虑到,灵活性不强难以适应复杂环境。

近年来，深度学习和计算机设备快速发展，在一系列领域取得了突破性的进展。强化学习与深度学习结合，在游戏行人、机器人、路径规划等领域取得了巨大的进展。在行人运动模拟领域，学者们基于深度学习和强化学习做了初步的研究。在行为演化规则中使用强化学习方法；提出基于强化学习的人群模拟框架；通过SARSA算法模拟人群，并与基于规则的行人进行比较，认为基于SARSA的行人更加逼真。

但是传统的基于强化学习算法的行人运动建模，在伸缩性和鲁棒性方面有所不足，有待于结合深度学习方法，利用深度强化学习算法对人群行为建模进行进一步研究，对伸缩性和鲁棒性进行改进。

发明内容

为了解决上述问题，本发明利用深度学习和强化学习，提出一种基于视觉感知网络的深度强化学习行人运动模拟方法，实现行人运动的模拟仿真。

本发明提供了一种基于视觉感知网络深度学习的行人运动模拟方法，包括以下步骤：

S1.采集若干个行人的运动轨迹图像，基于所述行人的运动速度数据和运动方向数据，构建行人运动模型；

S2.基于所述行人运动模型，通过模拟仿真三维环境，收集左眼感知图像和右眼感知图像，构建左眼感知网络模型和右眼感知网络模型，基于所述左眼感知网络模型和右眼感知网络模型，构建视觉感知孪生网络模型；

S3.基于所述视觉感知孪生网络模型，依据奖励函数，对所述行人运动模型进行训练，模拟所述运动速度数据和运动方向数据，构建行人运动模拟模型，用于所述行人的运动模拟，实现所述仿真三维环境的真人运动模拟。

优选地，所述S2包括，基于若干个时间步，收集所述行人运动模型的单个行人转移图像集，进行仿真三维环境模拟，通过模拟左眼和右眼的眼睛位置，收集所述左眼感知图像和右眼感知图像。

优选地，所述左眼感知图像和右眼感知图像为RGB图像。

优选地，所述视觉感知孪生网络模型，包括策略函数模型，用于模拟所述运动速度数据和运动方向数据；

通过所述左眼感知网络模型和右眼感知网络模型构建所述策略函数模型。

优选地，构建所述左眼感知网络模型和右眼感知网络模型，包括，构建信息提取模块、决策模块，其中，所述左眼感知网络模型和右眼感知网络模型，具有相同的权重和模型结构；

所述信息提取模块用于提取所述左眼感知图像和右眼感知图像的运动信息；

所述决策模块用于融合所述运动信息，通过跳线连接加速收敛，输出所述运动速度数据和运动方向数据。

优选地，构建所述信息提取模块，包括，构建尺度注意力机制模块和空间注意力机制模块；

所述尺度注意力机制模块，用于尺度权重的学习分配，所述信息提取模块通过所述尺度权重，获得所述运动信息的多尺度特征图块；

所述空间注意力机制模块，用于空间位置权重的学习分配，所述信息提取模块通过所述空间位置权重，基于所述多尺度特征图块，获得空间特征图块；

所述决策模块用于将所述空间特征图块进行融合，输出所述运动速度数据和运动方向数据。

优选地，所述尺度注意力机制模块，包括，第一卷积层单元、第一池化层单元、第二卷积层单元、上采样单元、第一全局最大池化层单元、第一全局平均池化层单元、第三卷积层单元，第一级联单元，第二级联单元，第三级联单元，其中，所述第一全局最大池化层单元，包括若干第一全局最大池化层单元，所述第一全局平均池化层单元，包括若干第一全局平均池化层单元；

所述尺度注意力机制模块的工作方法为：

S61.1.将所述运动信息的RGB图像，通过所述第一卷积层单元，获得若干特征图像，在所述第一池化层单元对所述特征图像，进行池化分类，获得初始特征图像，其中，所述初始特征图像具有不同尺度信合和不同分辨率；

S61.2.将所述目标特征图像输入第二卷积层单元，通过所述上采样单元对所述初始特征图像恢复到所述运动信息的目标特征图像；

S61.3.将所述初始特征图像和所述目标特征图像，通过第一级联单元，得到多尺度特征图像；

S61.4.将所述目标特征图像，基于所述第一全局最大池化层单元，通过所述第二级联单元，获得第一目标特征图块；将所述目标特征图像，基于所述第一全局平均池化层单元，通过所述第三并级联单元，获得第二目标特征图块，基于sigmoid函数，将所述第一目标特征图块和第二目标特征图块，通过所述第三卷积层单元，进行加和，得到尺度权重；

S61.5.将所述多尺度特征图像与所述尺度进行点积，得到所述多尺度特征图块。

优选地，所述空间注意力机制模块，包括，第二全局最大池化层单元、第二全局平均池化层单元，第四卷积层单元、第四级联单元、第五卷积层单元，其中，所述第二全局最大池化层单元，具有一个全局最大池化层，所述第二全局平均池化层单元，具有一个全局平均池化层；

所述空间注意力机制模块的工作方法为：

S62.1.将所述多尺度特征图块，分别输入到所述第二全局最大池化层单元、第二全局平均池化层单元，通过所述第四级联单元，得到初始空间特征图块；

S62.2.将所述初始空间特征图块，输入到所述第四卷积层单元，基于 sigmoid函数，进行归一化处理，得到空间特征权重；

S62.3.将所述多尺度特征图块与所述空间特征权重，进行点积，通过所述第五卷积层单元，输出所述空间特征图块。

优选地，所述决策模块，包括，第五级联单元、第六级联单元、第七级联单元、第八级联单元、第九级联单元、第六卷积层单元、第七卷积层单元、第八卷积层单元、第九卷积层单元、第一池化层单元、第一全连接层单元，

其中，所述第六卷积层单元、第七卷积层单元、第八卷积层单元均包括三个卷积层，所述第九卷积层单元，包括一个卷积层；

所述第一池化层单元，包括第一池化层，第二池化层，所述第一全连接层单元，包括第一全连接层，第二全连接层；

所述决策模块的工作方法为：

S5.1.将所述运动信息，分为第一运动信息和第二运动信息，将所述第一运动信息通过所述第六卷积层单元的第一卷积层，获得第一卷积信息，将所述第二运动信息通过所述第六卷积层单元的第三卷积层，获得第三卷积信息，将所述第一运动信息和第二运动信息，基于所述第五级联单元，通过所述第六卷积层单元的第二卷积层，获得第二卷积信息；

S5.2.将所述第一卷积信息，通过所述第七卷积层单元的第一卷积层，获得第四卷积信息，将所述第三卷积信息通过所述第七卷积层单元的第三卷积层，获得第六卷积信息，将所述第一卷积信息、第二卷积信息、第三卷积信息，基于所述第六级联单元，通过所述第七卷积层单元的第二卷积层，获得第五卷积信息；

S5.3.将所述第一运动信息和第四卷积信息，基于所述第一池化层单元，通过所述第八卷积层单元的第一卷积层，获得第七卷积信息，将所述第二运动信息和第六卷积信息，基于所述第二池化层单元，通过所述第八卷积层单元的第三卷积层，获得第九卷积信息，将所述第一运动信息、第二运动信息、第四卷积信息、第五卷积信息、第六卷积信息，基于所述第八级联单元，通过所述第八卷积层单元的第二卷积层，得到第八卷积信息；

S5.4.将所述第七卷积信息、第八卷积信息、第九卷积信息，基于所述第九级联单元，通过所述第九卷积层单元，依据所述第一全连接层，获得所述运动速度数据，依据所述第二全连接层，获得所述运动方向数据。

优选地，所述S3，还包括，对所述行人运动模型进行训练，需经过若干次迭代，其中，每次迭代中，对单个行人，基于若干个时间步，获得移动集合；

将所述移动集合存储到经验池中，所述经验池的大小为一个超参数，其中，所述经验池用于存储所述行人的移动集合，并为所述视觉感知孪生网络模型提供训练集；

所述视觉感知孪生网络模型，通过所述经验池，基于梯度法，对所述行人运动模型进行训练。

本发明的积极进步效果在于：

本发明结合深度学习和强化学习，提出一种基于视觉感知网络的深度强化学习的行人运动模拟方法。该模型模拟人的视觉，以RGB图像作为输入，输出运动的速度和方向，能够有效地模拟不同场景中的行人流。相比于传统的以位置等坐标作为输入的运动模型，本申请方案以视觉图像作为输入，与真实的行人运动更加相似。

本发明与已有的强化学习行人模型对比，本申请的技术方案将视觉感知深度学习网络作为强化学习的策略函数，增强了强化学习行人运动模型在最短最快疏散场景中的伸缩性和鲁棒性。

本发明的技术方案能够有效地对两出口疏散场景中的行人运动进行模拟。

本发明的技术方案能够有效地对单向走廊行人流场景中的行人运动进行模拟。

附图说明

图1为本发明所述的基于视觉感知网络的深度强化学习行人运动模拟方法流程图；

图2为本发明所述的视觉感知网络构成图；

图3为本发明所述的信息提取模块结构图；

图4为本发明所述的决策模块结构图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案，但并不因此将本发明限制在所述的实施例范围之中。

如图1-4所示，本实施例提供一种基于视觉感知网络深度学习的行人运动模拟方法，包括以下步骤：

S2包括，基于若干个时间步，收集所述行人运动模型的单个行人转移图像集，进行仿真三维环境模拟，通过模拟左眼和右眼的眼睛位置，收集所述左眼感知图像和右眼感知图像。

左眼感知图像和右眼感知图像为RGB图像。

视觉感知孪生网络模型，包括策略函数模型，用于模拟所述运动速度数据和运动方向数据；

通过左眼感知网络模型和右眼感知网络模型构建策略函数模型。

构建左眼感知网络模型和右眼感知网络模型，包括，构建信息提取模块、决策模块，其中，所述左眼感知网络模型和右眼感知网络模型，具有相同的权重和模型结构；

信息提取模块用于提取所述左眼感知图像和右眼感知图像的运动信息；

决策模块用于融合所述运动信息，通过跳线连接加速收敛，输出所述运动速度数据和运动方向数据。

构建信息提取模块，包括，构建尺度注意力机制模块和空间注意力机制模块；

尺度注意力机制模块，用于尺度权重的学习分配，信息提取模块通过所述尺度权重，获得运动信息的多尺度特征图块；

空间注意力机制模块，用于空间位置权重的学习分配，信息提取模块通过所述空间位置权重，基于多尺度特征图块，获得空间特征图块；

决策模块用于将所述空间特征图块进行融合，输出所述运动速度数据和运动方向数据。

构建尺度注意力机制模块，包括，构建第一卷积层单元、第一池化层单元、第二卷积层单元、上采样单元、第一全局最大池化层单元、第一全局平均池化层单元、第三卷积层单元，第一级联单元，第二级联单元，第三级联单元，其中，所述第一全局最大池化层单元，包括若干第一全局最大池化层单元，所述第一全局平均池化层单元，包括若干第一全局平均池化层单元；

尺度注意力机制模块的工作方法为：

S61.1.将运动信息的RGB图像，通过第一卷积层单元，获得若干特征图像，在第一池化层单元对所述特征图像，进行池化分类，获得初始特征图像，其中，初始特征图像具有不同尺度信合和不同分辨率；

S61.2.将目标特征图像输入第二卷积层单元，通过上采样单元对初始特征图像恢复到运动信息的目标特征图像；

S61.3.将初始特征图像和所述目标特征图像，通过第一级联单元，得到多尺度特征图像；

S61.4.将目标特征图像，基于第一全局最大池化层单元，通过第二级联单元，获得第一目标特征图块；将目标特征图像，基于第一全局平均池化层单元，通过第三并级联单元，获得第二目标特征图块，基于sigmoid函数，将第一目标特征图块和第二目标特征图块，通过第三卷积层单元，进行加和，得到尺度权重；

构建所述空间注意力机制模块，包括，构建第二全局最大池化层单元、第二全局平均池化层单元，第四卷积层单元、第四级联单元、第五卷积层单元，其中，所述第二全局最大池化层单元，具有一个全局最大池化层，所述第二全局平均池化层单元，具有一个全局平均池化层；

所述空间注意力机制模块的工作方法为：

构建所述决策模块，包括，构建第五级联单元、第六级联单元、第七级联单元、第八级联单元、第九级联单元、第六卷积层单元、第七卷积层单元、第八卷积层单元、第九卷积层单元、第一池化层单元、第一全连接层单元，

所述决策模块的工作方法为：

所述S3，还包括，对所述行人运动模型进行训练，需经过若干次迭代，其中，每次迭代中，对单个行人，基于若干个时间步，获得移动集合；

以下详细解释本发明的具体发明思路和关键技术特征。

本技术方案结合深度学习和强化学习，提出一种基于视觉感知网络的深度强化学习行人运动模拟方法，实现了行人运动模拟。该模型模拟人的视觉，以RGB 图像作为输入，输出运动的速度和方向，能够有效地模拟不同场景中的行人流。相比于传统的以位置等坐标作为输入的运动模型，本申请方案以视觉图像作为输入，与真实的行人运动更加相似。有效地增强了行人运动模型的伸缩性和鲁棒性。

1、技术流程

一种基于视觉感知网络的深度强化学习行人运动模拟方法，流程图见附图 1。该方法可以分为两个阶段，在训练阶段，采用近端策略优化强化学习算法(PPO) 对运动模型进行训练，采用提出的基于多尺度注意力机制的视觉感知孪生网络算法构建近段策略优化算法的策略(policy)函数。然后在推理阶段，利用训练好的模型来控制行人的运动。

在训练阶段，经过多次迭代后，通过训练模型，实现PPO的累计回报

的最大化。

在每次迭代中，N个(并行)行人(agent)中的每个行人收集T个时间步(Timesteps)的转移集合{s_t，a_t，r_t，s_t+1}。在每个时间步，agent从环境中获取当前状态s_t，即利用眼睛位置的虚拟相机采集仿真场景的RGB图像，并将其作为 policy函数π_θ(a_t|s_t)的输入，策略函数输出agent将采取的动作a_t，包括速度大小和运动方向。PPO算法根据奖励函数(rewardfunction)计算当前的奖励值r_t，并获取新的状态s_t+1。在所有时间步长计算估计的优势函数

。策略函数当前的参数π_old被给出。PPO算法中使用了经验重放机制。

在每个时间步骤中，从行人与环境之间的交互中获得的转移集合{s_t，a_t，r_t，s_t+1}存储在经验池中。N个行人共享经验池。PPO算法从经验池中收集一批(M)数据并优化目标函数，通过梯度法更新策略函数π_θ(a_t|s_t)的参数θ。每个批次的数据多少(M,batchsize)也是一个超参数，它是根据不同的任务设置的。然后计算损失函数L_BL(Φ)，用梯度法更新参数Φ。

在推理阶段，行人在仿真环境中通过摄像机模拟视觉，采集RGB图像，输入训练好的运动模型，模型输出速度大小和运动方向，从而实现行人的运动模拟。

2、策略函数-基于多尺度注意力机制的算法

行人运动模型中的策略函数如附图2所示，基于多尺度注意力机制的视觉感知孪生网络算法来构建PPO的策略函数π_θ(a_t|s_t),神经网络的输入为行人在仿真三维环境中(三维场景中用相机捕获)采集到的RGB图像，即将采集到的图像作为当前的状态S_t，输出为行人的动作a_t，包括速度大小和方向。主干网络采用孪生架构，使用具有共享结构和参数的两个网络分支来处理行人的左眼和右眼采集到的图像。由信息提取模块和决策模块两部分组成，信息提取模块通过对输入的图像进行处理，从而提取信息；决策模块把将提取到的信息进行融合，并通过残差连接加速收敛，输出行人的速度和方向。

3、基于多尺度注意力机制的信息提取模块

提出基于多尺度注意力机制的信息提取模块(附图3)，用来对行人采集到的图像中的信息进行加工处理。该模块由尺度注意力机制(附图3a)和空间注意力机制(附图3b)两部分组成。

在提出的尺度注意力机制(图3a)中，将特征金字塔结构和注意力机制结合，通过学习的方式自动获取尺度权重M_S(F)，提升重要尺度，并抑制不重要的尺度，尺度权重M_S(F)的计算公式：

其中σ指sigmod函数，RGB图像经过卷积层后，输入不同大小的池化层，被下采样为具有不同尺度信息的特征图，然后输入卷积层，并通过上采样恢复原始大小的特征图。这些不同尺度的特征图F_i与原始特征通过级联，得到具有不同尺度的丰富的上下文信息的特征块F；另一方面，这些不同尺度的特征图F_i通过注意力模块，得到不同尺度的权重大小。首先通过全局最大池化层MaxPool和全局平均池化层AvgPool，以尺度为单位进行池化得到不同尺度的池化结果

和

将最大池化和平均池化层的不同尺度的结果分别级联得到

和

将两个特征块分别输入卷积层Conv，并使用sigmoid函数σ，最后通过加和得到尺度权重M_s(F)，最后将尺度权重与多尺度特征图F进行点积，将注意力权重分配到不同的尺度，输出具有尺度注意力的多尺度特征块。不同的输入

和

共享卷积层Conv的权重W₀。

信息提取模块的空间注意力机制(附图3b)以尺度注意力机制输出的特征作为输入。空间注意力权重M_a(G)的计算公式如下：

其中G指尺度注意力机制输出的特征，空间注意力机制为不同的空间位置分配不同的权重，因此公式中的AvgPool(G)和maxPool(G)表示以通道channel为单位对输入的特征G进行池化，输出平均池化结果

和最大池化结果

并进行级联。级联后的特征输入卷积层Conv，W₁为卷积层的可学习参数，然后使用 sigmoid函数σ进行归一化，得到空间注意力权重M_a(G)。最后空间注意力权重输 M_a(G)与输入特征G点积，得到空间注意力机制的输出特征。

4、融合决策模块

行人采集的视觉图像在经过信息提取模块的处理后，得到的输出特征输入融合决策模块，融合决策模块(附图4)负责对左右视觉图像的信息进行融合，并进行决策，输出行人的速度大小和方向(离散值)。

融合决策模块由四层卷积层和一层全连接层构成。左右两个网络分支共享结构和参数，分别处理左右图像的特征，并通过跳线连接融合低层级和高层级信息。中间的网络分支，通过级联以及四层卷积网络将左右分支不同卷积层输出的特征进行融合处理。通过两个全连接层分别输出预测得到的速度的大小和方向

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，包括以下步骤：

2.如权利要求1所述一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，

所述S2包括，基于若干个时间步，收集所述行人运动模型的单个行人转移图像集，进行仿真三维环境模拟，通过模拟左眼和右眼的眼睛位置，收集所述左眼感知图像和右眼感知图像。

3.如权利要求2所述一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，

所述左眼感知图像和右眼感知图像为RGB图像。

4.如权利要求1所述一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，

所述视觉感知孪生网络模型，包括策略函数模型，用于模拟所述运动速度数据和运动方向数据；

5.如权利要求1所述的一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，

所述左眼感知网络模型和右眼感知网络模型，包括，信息提取模块、决策模块，其中，所述左眼感知网络模型和右眼感知网络模型，具有相同的权重和模型结构；

6.如权利要求5所述一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，

所述信息提取模块，包括，尺度注意力机制模块和空间注意力机制模块；

7.如权利要求6所述一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，

所述尺度注意力机制模块，包括，第一卷积层单元、第一池化层单元、第二卷积层单元、上采样单元、第一全局最大池化层单元、第一全局平均池化层单元、第三卷积层单元，第一级联单元，第二级联单元，第三级联单元，其中，所述第一全局最大池化层单元，包括若干第一全局最大池化层单元，所述第一全局平均池化层单元，包括若干第一全局平均池化层单元；

所述尺度注意力机制模块的工作方法为：

8.如权利要求6所述一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，

所述空间注意力机制模块，包括，第二全局最大池化层单元、第二全局平均池化层单元，第四卷积层单元、第四级联单元、第五卷积层单元，其中，所述第二全局最大池化层单元，具有一个全局最大池化层，所述第二全局平均池化层单元，具有一个全局平均池化层；

所述空间注意力机制模块的工作方法为：

S62.2.将所述初始空间特征图块，输入到所述第四卷积层单元，基于sigmoid函数，进行归一化处理，得到空间特征权重；

9.如权利要求5所述一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，

所述决策模块，包括，第五级联单元、第六级联单元、第七级联单元、第八级联单元、第九级联单元、第六卷积层单元、第七卷积层单元、第八卷积层单元、第九卷积层单元、第一池化层单元、第一全连接层单元，

所述决策模块的工作方法为：

10.如权利要求1所述一种基于视觉感知网络深度学习的行人运动模拟方法，其特征在于，