CN112734805A

CN112734805A - 一种基于深度学习的行人运动轨迹预测方法及装置

Info

Publication number: CN112734805A
Application number: CN202110029289.XA
Authority: CN
Inventors: 王淑欣; 刘小青; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-04-30
Anticipated expiration: 2041-01-11
Also published as: CN112734805B

Abstract

本发明提供了一种基于深度学习的行人运动轨迹预测方法及装置，其中方法包括：获取视频数据，其中，视频数据包括已知帧，已知帧包括：时间t以及时间t之前的帧；光流预测网络根据相邻的两个已知帧预测已知帧之间的光流信息；合成预测网络根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧；合成预测网络根据t+1帧预测目标行人在t+1帧中的位置。

Description

一种基于深度学习的行人运动轨迹预测方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种基于深度学习的行人运动轨迹预测方法及装置。

背景技术

随着深度学习的发展，基于神经网络的行人轨迹预测成为重要课题。通过观察视频特定帧中的行人并预测他们随后的移动方向，能够引导视力障碍者避免碰撞，此方向的深入研究将为视力障碍者出行带来极大便利。

现有的算法大多直接使用已知帧中目标行人上坐标作为神经网络的输入，使用循环卷积神经网络或者其他方法直接回归未知帧中目标行人的位置，从而得到目标行人的运动轨迹，此方法存在以下缺点：

1)直接使用目标的坐标作为网络的输入，没有考虑视频的内容，没有结合实际的场景信息对目标进行轨迹预测。

2)除了已知帧中目标的位置信息之外，需要其他额外信息(例如行人姿势、行人大小比例的变化等)作为网络的输入，辅助网络学习行人的目标位置。而一般来说，这些辅助信息难以获取，难以标注，给网络的训练增加了困难。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于深度学习的行人运动轨迹预测方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种基于深度学习的行人运动轨迹预测方法，包括：获取视频数据，其中，视频数据包括已知帧，已知帧包括：时间t以及时间t之前的帧；光流预测网络根据相邻的两个已知帧预测已知帧之间的光流信息；合成预测网络根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧；合成预测网络根据t+1帧预测目标行人在t+1帧中的位置。

其中，光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。

其中，光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息包括：获取两个相邻的已知帧，得到两个相邻的已知帧的特征图；通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系；通过上采样恢复两个相邻的已知帧的特征图信息；输出两个相邻的已知帧之间的光流信息。

其中，合成预测网络包括多个具有残差连接的子模块，每个子模块包括3x3的卷积、BN层和ReLU激活层。

其中，合成预测网络根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧包括：将已知帧和已知帧之间的光流信息下采样四次，得到大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图；结合浅层特征和深层特征信息，采样四次，恢复特征图的细节信息；使用线性差值重建未知帧的光流信息，得到t+1帧。

其中，方法还包括：通过合成相似性损失函数的后向传播优化合成预测网络。

其中，合成预测网络根据t+1帧预测目标行人在t+1帧中的位置包括：将大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图经过一个平均池化层得到1x1x1024的特征层；经过三个输出维度分别为256、32、4的全卷积层，得到目标行人在t+1帧中的位置。

其中，方法还包括：通过位置回归损失函数的反向传播不断优化合成预测网络。

本发明另一方面提供了一种基于深度学习的行人运动轨迹预测装置，包括：获取模块，用于获取视频数据，其中，视频数据包括已知帧，已知帧包括：时间t以及时间t之前的帧；光流预测网络，用于根据相邻的两个已知帧预测已知帧之间的光流信息；合成预测网络，用于根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧；根据t+1帧预测目标行人在t+1帧中的位置。

其中，光流预测网络通过如下方式采用FlowNet2预测网络预测已知帧之间的光流信息：光流预测网络，具体用于获取两个相邻的已知帧，得到两个相邻的已知帧的特征图；通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系；通过上采样恢复两个相邻的已知帧的特征图信息；输出两个相邻的已知帧之间的光流信息。

其中，合成预测网络通过如下方式根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧：合成预测网络，具体用于将已知帧和已知帧之间的光流信息下采样四次，得到大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图；结合浅层特征和深层特征信息，采样四次，恢复特征图的细节信息；使用线性差值重建未知帧的光流信息，得到t+1帧。

其中，装置还包括：优化模块，用于通过合成相似性损失函数的后向传播优化合成预测网络。

其中，合成预测网络通过如下方式根据t+1帧预测目标行人在t+1帧中的位置：合成预测网络，具体用于将大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图经过一个平均池化层得到1x1x1024的特征层；经过三个输出维度分别为256、32、4的全卷积层，得到目标行人在t+1帧中的位置。

其中，装置还包括：优化模块，用于通过位置回归损失函数的反向传播不断优化合成预测网络。

由此可见，通过本发明提供的基于深度学习的行人运动轨迹预测方法及装置，通过观察某一目标行人在当前帧以及过去几帧的运动情况，通过网络预测光流信息，以此光流信息作为指导，预测未来帧中目标行人的位置。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于深度学习的行人运动轨迹预测方法的流程图；

图2为本发明实施例提供的网络模型示意图；

图3为本发明实施例提供的FlowNet网络结构图；

图4为本发明实施例提供的合成预测网络结构示意图；

图5为本发明实施例提供的基于深度学习的行人运动轨迹预测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的核心在于：提出一种利用已知帧视频和光流信息预测目标轨迹的方案，旨在在实际场景中捕捉周围环境信息，以便预测目标的准确位置。本发明首先预测已有帧之间的光流信息，将已有帧以及光流信息作为输入，分别预测下一帧视频以及目标所在位置。

图1示出了本发明实施例提供的基于深度学习的行人运动轨迹预测方法的流程图，参见图1，本发明实施例提供的基于深度学习的行人运动轨迹预测方法，包括：

S1，获取视频数据，其中，视频数据包括已知帧，已知帧包括：时间t以及时间t之前的帧。

具体地，提供一段视频，以时间t为分界线，时间t以及之前的帧作为已知帧(已知行人目标的具体位置)。

本发明的网络模型设计如图2所示，约定时间t及之前的帧(I_t，I_t-1，I_t-2，I_t-3，…)为已知帧，即已知行人目标的位置轨迹等信息，求时间t之后的未知帧(I_t+1)中目标的位置以及轨迹。

将首先使用深度神经网络预测已知帧之间的光流信息，以此光流信息作为指导，合成未知帧并预测目标的位置信息，合成未知帧能更好的帮助网络理解视频中所包含的全局信息。

S2，光流预测网络根据相邻的两个已知帧预测已知帧之间的光流信息。

作为本发明实施例的一个可选实施方式，光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。其中，光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息包括：获取两个相邻的已知帧，得到两个相邻的已知帧的特征图；通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系；通过上采样恢复两个相邻的已知帧的特征图信息；输出两个相邻的已知帧之间的光流信息。

具体地，本发明使用FlowNet2预测已知帧之间的光流信息。本发明使用的FlowNet网络示意图如图3所示，是一个孪生网络结构，网络编码器的两个分支分别输入两个相邻的已知帧(以I_t，I_t-1为例)，网络输出两帧之前的偏移量，即光流信息。孪生编码器部分分别由卷积核为7x7，5x5，3x3的三个卷积模块构成，孪生编码器部分得到的已知帧的两个特征图，通过比较融合后再不断经过3x3的卷积操作以及下采样操作学习相邻帧之间潜在的对应关系，最终通过上采样恢复特征图的细节信息，最终输出光流信息。

此光流预测网络是预先训练好的网络，本发明训练时并未改变其权重。

当然，本发明采用的FlowNet网络还可以替换为其他的有关于光流预测的网络，比如PWCNet等。

S3，合成预测网络根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧；

S4，合成预测网络根据t+1帧预测目标行人在t+1帧中的位置。

作为本发明实施例的一个可选实施方式，合成预测网络包括多个具有残差连接的子模块，每个子模块包括3x3的卷积、BN层和ReLU激活层。其中，合成预测网络根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧包括：将已知帧和已知帧之间的光流信息下采样四次，得到大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图；结合浅层特征和深层特征信息，采样四次，恢复特征图的细节信息；使用线性差值重建未知帧的光流信息，得到t+1帧。

具体地，本发明使用的合成预测网络示意图如图4所示。合成预测网络使用已知帧(I_t帧以及之前的帧)和光流预测网络得到的光流信息作为输入，预测第I_t帧到第I_t+1帧的光流，将此光流应用I_t帧可以得到未知帧I_t+1。

合成预测网络的设计类似于U-Net网络的设计，将U-Net的每一个子模块替换成具有残差连接的子模块，每个子模块都由3x3的卷积、BN层和ReLU激活层构成，图中灰色实线表示各个模块中添加的残差连接。编码器阶段下采样四次学习丰富的语义信息，得到的特征图的大小分别为原图的1/2，1/4，1/8，1/16，通道大小分别为64，128，256，512，1024。解码器阶段对应上采样四次，恢复位置等细节信息，图4中黑色虚线所示编码解码器之间的远程连接可以使网络结合浅层特征和深层特征信息，以便更准确的预测结果。合成预测网络学习已知帧I_t到未知帧I_t+1的偏移量(即光流)φ_f，用于重建未知帧

具体表示为

其中°操作使用线性插值来实现。

作为本发明实施例的一个可选实施方式，本发明基于深度学习的行人运动轨迹预测方法还包括：通过合成相似性损失函数的后向传播优化合成预测网络。

具体地，通过合成相似性损失函数的反向传播不断优化网络使重建帧

与未知帧I_t+1尽可能的相似。

作为本发明实施例的一个可选实施方式，合成预测网络根据t+1帧预测目标行人在t+1帧中的位置包括：大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图经过一个平均池化层得到1x1x1024的特征层；经过三个输出维度分别为256、32、4的全卷积层，得到目标行人在t+1帧中的位置。

具体地，类U-Net网络的U形底部特征具有丰富的语义信息，本发明用于预测未知帧中目标的具体位置。其具体结构如图4方框内所示，将编码器底部特征首先经过一个平均池化层得到1x1x1024的特征层，再经过三个输出维度分别为256、32、4的全卷积层，得到最终的位置坐标。

作为本发明实施例的一个可选实施方式，本发明基于深度学习的行人运动轨迹预测方法还包括：通过位置回归损失函数的反向传播不断优化合成预测网络。

具体地，通过位置回归损失函数的反向传播不断优化网络，使预测的行人位置与实际位置尽可能相近。

由此可见，本发明提供的基于深度学习的行人运动轨迹预测方法的最终目的是获得目标行人在未知帧I_(t+1)中的具体位置，本发明基于深度学习的行人运动轨迹预测方法合成未知帧可以有助于网络对视频场景的把控，有助于帮助网络掌握全局信息，从而得到准确的目标位置预测。

其中，本发明涉及的损失函数包括光流平滑损失、合成相似性损失和位置回归损失。相关性平滑损失对φ_f和φ_b进行正则化约束，定义为：

其中，对于视频空间的每个位置(x，y)，本发明将

近似为相邻位置之间沿x、y方向的梯度差异；使用归一化互相关损失约束合成帧与未知帧之间的差异，具体表示为：

其中，对于图像空间的每个位置s,本发明计算原始图像与合成图像的相关性，CC指的是每个位置的局部归一化互相关。最后，本发明用L1损失来约束预测的轨迹位置的准确性，表示为：

整个网络的损失函数可以表示为：

L＝L_s+L_d+L_p

因此，相较于已有的方法直接使用目标行人在已知帧中的位置信息作为深度神经网络的输入，缺少视频中的场景信息和全局信息，本发明提供的基于深度学习的行人运动轨迹预测方法用视频中的已知帧作为网络输入，在合成未知帧的过程中帮助网络学习视频中的语义信息，使网络能更好的预测未知帧中目标的位置。

相较于已有的方法在预测轨迹时，通常使用行人关键点等辅助信息，但是这些信息通畅难以获得，给网络等训练增加了难度。本发明提供的基于深度学习的行人运动轨迹预测方法，使用光流信息来辅助网络学习，使用已有的网络预测光流，比较容易获取。

图5示出了本发明实施例提供的基于深度学习的行人运动轨迹预测装置的结构示意图，该基于深度学习的行人运动轨迹预测装置应用上述方法，以下仅对基于深度学习的行人运动轨迹预测装置的结构进行简单说明，其他未尽事宜，请参照上述基于深度学习的行人运动轨迹预测方法中的相关描述，参见图5，本发明实施例提供的基于深度学习的行人运动轨迹预测装置，包括：

获取模块，用于获取视频数据，其中，视频数据包括已知帧，已知帧包括：时间t以及时间t之前的帧；

光流预测网络，用于根据相邻的两个已知帧预测已知帧之间的光流信息；

合成预测网络，用于根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧；根据t+1帧预测目标行人在t+1帧中的位置。

作为本发明实施例的一个可选实施方式，光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。

作为本发明实施例的一个可选实施方式，光流预测网络通过如下方式采用FlowNet2预测网络预测已知帧之间的光流信息：光流预测网络，具体用于获取两个相邻的已知帧，得到两个相邻的已知帧的特征图；通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系；通过上采样恢复两个相邻的已知帧的特征图信息；输出两个相邻的已知帧之间的光流信息。

作为本发明实施例的一个可选实施方式，合成预测网络包括多个具有残差连接的子模块，每个子模块包括3x3的卷积、BN层和ReLU激活层。

作为本发明实施例的一个可选实施方式，合成预测网络通过如下方式根据已知帧和已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧：合成预测网络，具体用于将已知帧和已知帧之间的光流信息下采样四次，大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图；结合浅层特征和深层特征信息，采样四次，恢复特征图的细节信息；使用线性差值重建未知帧的光流信息，得到t+1帧。

作为本发明实施例的一个可选实施方式，本发明实施例提供的基于深度学习的行人运动轨迹预测装置还包括：优化模块，用于通过合成相似性损失函数的后向传播优化合成预测网络。

作为本发明实施例的一个可选实施方式，合成预测网络通过如下方式根据t+1帧预测目标行人在t+1帧中的位置：合成预测网络，具体用于将大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图经过一个平均池化层得到1x1x1024的特征层；经过三个输出维度分别为256、32、4的全卷积层，得到目标行人在t+1帧中的位置。

作为本发明实施例的一个可选实施方式，本发明实施例提供的基于深度学习的行人运动轨迹预测装置还包括：优化模块，用于通过位置回归损失函数的反向传播不断优化合成预测网络。

因此，相较于已有的方法直接使用目标行人在已知帧中的位置信息作为深度神经网络的输入，缺少视频中的场景信息和全局信息，本发明提供的基于深度学习的行人运动轨迹预测装置用视频中的已知帧作为网络输入，在合成未知帧的过程中帮助网络学习视频中的语义信息，使网络能更好的预测未知帧中目标的位置。

相较于已有的方法在预测轨迹时，通常使用行人关键点等辅助信息，但是这些信息通畅难以获得，给网络等训练增加了难度。本发明提供的基于深度学习的行人运动轨迹预测装置，使用光流信息来辅助网络学习，使用已有的网络预测光流，比较容易获取。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于深度学习的行人运动轨迹预测方法，其特征在于，包括：

获取视频数据，其中，所述视频数据包括已知帧，所述已知帧包括：时间t以及时间t之前的帧；

光流预测网络根据相邻的两个已知帧预测已知帧之间的光流信息；

合成预测网络根据所述已知帧和所述已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧；

所述合成预测网络根据所述t+1帧预测目标行人在t+1帧中的位置。

2.根据权利要求1所述的方法，其特征在于，所述光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。

3.根据权利要求2所述的方法，其特征在于，所述光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息包括：

获取所述两个相邻的已知帧，得到两个相邻的已知帧的特征图；

通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系；

通过上采样恢复两个相邻的已知帧的特征图信息；

输出两个相邻的已知帧之间的光流信息。

4.根据权利要求1所述的方法，其特征在于，所述合成预测网络包括多个具有残差连接的子模块，每个所述子模块包括3x3的卷积、BN层和ReLU激活层。

5.根据权利要求4所述的方法，其特征在于，所述合成预测网络根据所述已知帧和所述已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧包括：

将所述已知帧和所述已知帧之间的光流信息下采样四次，得到大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图；

结合浅层特征和深层特征信息，采样四次，恢复所述特征图的细节信息；

使用线性差值重建未知帧的光流信息，得到所述t+1帧。

6.根据权利要求1所述的方法，其特征在于，还包括：通过合成相似性损失函数的后向传播优化所述合成预测网络。

7.根据权利要求5所述的方法，其特征在于，所述合成预测网络根据所述t+1帧预测目标行人在t+1帧中的位置包括：

将大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图经过一个平均池化层得到1x1x1024的特征层；

经过三个输出维度分别为256、32、4的全卷积层，得到目标行人在t+1帧中的位置。

8.根据权利要求7所述的方法，其特征在于，还包括：通过位置回归损失函数的反向传播不断优化所述合成预测网络。

9.一种基于深度学习的行人运动轨迹预测装置，其特征在于，包括：

获取模块，用于获取视频数据，其中，所述视频数据包括已知帧，所述已知帧包括：时间t以及时间t之前的帧；

合成预测网络，用于根据所述已知帧和所述已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧；根据所述t+1帧预测目标行人在t+1帧中的位置。

10.根据权利要求9所述的装置，其特征在于，所述光流预测网络采用FlowNet2预测网络预测已知帧之间的光流信息。

11.根据权利要求10所述的装置，其特征在于，所述光流预测网络通过如下方式采用FlowNet2预测网络预测已知帧之间的光流信息：

所述光流预测网络，具体用于获取所述两个相邻的已知帧，得到两个相邻的已知帧的特征图；通过比较融合后再不断经过卷积操作以及下采样操作学习相邻帧之间潜在的对应关系；通过上采样恢复两个相邻的已知帧的特征图信息；输出两个相邻的已知帧之间的光流信息。

12.根据权利要求9所述的装置，其特征在于，所述合成预测网络包括多个具有残差连接的子模块，每个所述子模块包括3x3的卷积、BN层和ReLU激活层。

13.根据权利要求12所述的装置，其特征在于，所述合成预测网络通过如下方式根据所述已知帧和所述已知帧之间的光流信息，预测未知帧的光流信息，得到t+1帧：

所述合成预测网络，具体用于将所述已知帧和所述已知帧之间的光流信息下采样四次，得到大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图；结合浅层特征和深层特征信息，采样四次，恢复所述特征图的细节信息；使用线性差值重建未知帧的光流信息，得到所述t+1帧。

14.根据权利要求9所述的装置，其特征在于，还包括：优化模块，用于通过合成相似性损失函数的后向传播优化所述合成预测网络。

15.根据权利要求13所述的装置，其特征在于，所述合成预测网络通过如下方式根据所述t+1帧预测目标行人在t+1帧中的位置：

所述合成预测网络，具体用于将大小分别为原图的1/2，1/4，1/8，1/16，通道数分别为64，128，256，512，1024的特征图经过一个平均池化层得到1x1x1024的特征层；经过三个输出维度分别为256、32、4的全卷积层，得到目标行人在t+1帧中的位置。

16.根据权利要求15所述的方法，其特征在于，还包括：优化模块，用于通过位置回归损失函数的反向传播不断优化所述合成预测网络。