CN114067371A

CN114067371A - 一种跨模态行人轨迹生成式预测框架、方法和装置

Info

Publication number: CN114067371A
Application number: CN202210052682.5A
Authority: CN
Inventors: 华炜; 苏肇鑫; 黄刚
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-02-18
Anticipated expiration: 2042-01-18
Also published as: CN114067371B

Abstract

本发明涉及行人轨迹预测领域，具体涉及一种跨模态行人轨迹生成式预测框架、方法和装置，该框架包括：多模态数据时域特征提取模块对多模态数据提取时域特征，直接传递给基于跨模态Transformer的特征编码模块；所述基于跨模态Transformer的特征编码模块，输入为多模态的时域特征，输出为跨模态的注意力特征，分别传递给条件变分自动编码模块和轨迹预测模块；所述条件变分自动编码模块，输入为跨模态的注意力特征，输出为隐变量，直接传递给轨迹预测模块；所述轨迹预测模块，输入为跨模态的注意力特征和隐变量，输出为预测的轨迹。本发明有效提升了第一人称视角下的行人轨迹预测的准确率。

Description

一种跨模态行人轨迹生成式预测框架、方法和装置

技术领域

本发明涉及行人轨迹预测领域，具体为一种跨模态行人轨迹生成式预测框架、方法和装置。

背景技术

行人轨迹预测在自动驾驶中是一个重要的任务，因为其预测结果能够给无人车一些指导，帮助无人车判断在未来时刻是否会和行人发生碰撞，有利于减少交通事故的发生，这对于无人车的安全驾驶起到积极作用。在第一人称交通场景下，从安装在车辆上的摄像头拍摄的视频中，除了能估计出行人的轨迹，还能获取到车辆的运动信息（比如GPS信息）和行人的姿态信息。如何巧妙地将行人轨迹、自车运动信息和行人姿态进行建模，是提升行人轨迹预测算法准确率的关键突破点。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种跨模态行人轨迹生成式预测框架、方法和装置，其具体技术方案如下：

一种跨模态行人轨迹生成式预测框架，包括：多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块，所述多模态数据时域特征提取模块对多模态数据提取时域特征，直接传递给基于跨模态Transformer的特征编码模块；所述基于跨模态Transformer的特征编码模块，输入为多模态的时域特征，输出为跨模态的注意力特征，分别传递给条件变分自动编码模块和轨迹预测模块；所述条件变分自动编码模块，输入为跨模态的注意力特征，输出为隐变量，直接传递给轨迹预测模块；所述轨迹预测模块，输入为跨模态的注意力特征和隐变量，输出为预测的轨迹。

进一步的，所述多模态数据包括行人轨迹信息、自车即搭载摄像头的车辆的运动信息和行人姿态信息；

所述行人轨迹信息的训练数据定义为观测阶段数据

和目标阶段数据

，其中，观测阶段的时间长度为

，目标阶段的时间长度为

，目标阶段对应了需要被预测的轨迹的时间阶段，

为

时刻行人轨迹即二维包围盒的向量表示；

所述自车的运动信息的训练数据定义为观测阶段数据

和目标阶段数据

，其中，

为

时刻自车运动信息的向量表示；

所述行人姿态信息的训练数据定义为观测阶段数据

和目标阶段数据

，其中，

，

是一个

的热图，代表该行人在

时刻的第

个姿态关节点。

进一步的，所述多模态数据时域特征提取模块在观测阶段和目标阶段，针对行人轨迹和自车运动信息，采用多层感知器与一维卷积层的组合进行特征提取；针对行人姿态信息即姿态热图，采用卷积LSTM与二维卷积网络的组合来进行特征提取。

进一步的，所述基于跨模态Transformer的特征编码模块具体执行以下步骤：

步骤一：分别为阶段

下的行人轨迹信息、自车运动信息和行人姿态信息的时域特征添加位置编码，获得

、

和

；将添加了位置编码的时域特征组织成 4个特征对

、

、

和

，将这4个特征对分别输入到公认的跨模态Transformer中，分别输出4对跨模态特征和权重矩阵的组合

、

、

、

；

步骤二：将所述4对跨模态特征和权重矩阵分配到2个不同的分支中，其中

、

分配到分支1中，

、

分配到分支2中；对分支1，使用一个多模态注意力模块，计算跨模态配置

下的跨模态特征的权重

和跨模态配置

下的跨模态特征的权重

：

同理，对分支2，使用相同的多模态注意力模块，计算跨模态配置

下的跨模态特征的权重

和跨模态配置

下的跨模态特征的权重

：

；

步骤三：使用步骤二得到的跨模态特征的权重，分别融合分支1和分支2中的跨模态特征，即：

；

步骤四：将步骤三中的输出结果

和

拼接起来，获得

，并在时域这个维度上对

做最大池化操作，获得阶段

的最终特征

；观测阶段的最终特征为

，目标阶段的最终特征为

。

进一步的，所述条件变分自动编码器包含两个网络：网络1和网络2，两个网络均为多层感知器；网络1仅接收

，将其映射到一组向量集合，用于构造一个概率分布

；网络2同时接收

和

，并将其映射到另一组向量集合，用于构造一个和概率分布

相同类型的概率分布

；计算概率分布

和概率分布

之间的KL散度，以此来同时优化网络1和网络2；采样隐变量：训练时在

中采样隐变量

，应用训练好的模型推理时在

中采样隐变量

。

进一步的，所述轨迹预测模块，将

和隐变量

进行向量拼接，并输入到一个多层感知器中，输出n个控制向量

；观测阶段的最后一个时刻的轨迹

作为控制向量

；每个控制向量均表示为一个二维包围盒；用

这n+1个控制向量来做n阶样条曲线的插值，插值出一条轨迹：

其中，

由所选择的样条曲线决定，代表了控制向量

对应的权重系数，

代表预测轨迹的所有时刻，且需要归一化到

之间，

作为阶数需要小于预测轨迹的时刻数。

一种跨模态行人轨迹生成式预测方法，包括如下步骤：

步骤一，构造并连接各个模块：将多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块连接，构成基于跨模态Transformer的行人轨迹生成式预测框架；

步骤二，构建多模态的训练数据，对基于跨模态Transformer的行人轨迹生成式预测框架模型进行训练；训练时采用的损失函数为：

其中，

为目标阶段轨迹真值

和预测的轨迹

之间的L2损失函数，

为与时间相关的权重函数，用于表示L2损失函数在不同时刻的重要程度；

为两个概率分布

和

之间的KL散度；

步骤三，利用训练好的网络模型，进行行人轨迹的预测：在模型使用过程中，输入观测阶段的多模态数据到训练好的生成式模型中，输出预测的行人轨迹。

一种跨模态行人轨迹生成式预测装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现所述的跨模态行人轨迹生成式预测方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的跨模态行人轨迹生成式预测方法。

与现有技术相比，本发明具有如下优点：

（1）在本发明中，在第一人称视角的交通场景下，为了预测出更准确的行人轨迹，充分利用了多个模态的序列特征，提出了以跨模态Transformer为基础的编码器。在编码器中，采用了一种“跨模态Transformer+分支分配+多模态注意力机制”的组合，来获得轻量但强大的特征。

（2）在本发明中，使用一种全局的线形插值方法来进行轨迹的预测，考虑到常用的时间序列预测模型具有的“遗忘性”缺点，比如LSTM/GRU模型，本发明不使用这类模型。本发明的方法具体来说：根据编码器在观测阶段的最终特征和条件变分自动编码器的特征，全局地预测出轨迹的若干个控制点，再由这些控制点进行任意类型的样条曲线的插值，这样插值出来的曲线轨迹没有“遗忘性”的问题。

附图说明

图1为基于跨模态Transformer的行人轨迹生成式预测框架的模块连接示意图；

图2为基于跨模态Transformer的特征编码器中采用的特征提取和混合方法的流程图；

图3为基于跨模态Transformer的行人轨迹生成式预测方法的流程图；

图4是本发明一种跨模态行人轨迹生成式预测装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1所示，一种跨模态行人轨迹生成式预测框架，包括：多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块。

所述多模态数据时域特征提取模块对多模态数据提取时域特征，直接传递给基于跨模态Transformer的特征编码模块；所述基于跨模态Transformer的特征编码模块，输入为多模态的时域特征，输出为跨模态的注意力特征，分别传递给条件变分自动编码模块和轨迹预测模块；所述条件变分自动编码模块，输入为跨模态的注意力特征，输出为隐变量，直接传递给轨迹预测模块；所述轨迹预测模块，输入为跨模态的注意力特征和隐变量，输出为预测的轨迹。

所述多模态数据，包括：行人轨迹信息、自车即搭载摄像头的车辆的运动信息和行人姿态信息，这三个模态。本实施例采用公开数据集PIE，该数据集提供了大量第一人称交通场景下的行人轨迹相关的多模态数据，这些数据以30Hz的频率从1842个行人中采样；该数据集提供了行人轨迹即二维包围盒、无人车自车运动的信息和行人图像数据，根据二维包围盒，可以从一整张图片中切割出对应的行人，满足本发明网络模型的输入需求；按照PIE数据集的默认分配，其中23个视频的数据属于训练集，11个视频的数据属于验证集，19个视频的数据属于测试集。

对于行人轨迹预测，给定一段观测阶段的数据，时间长度为

，网络模型以此预测一段轨迹，预测的轨迹对应的阶段称为目标阶段，时间长度为

；为了满足网络模型的设计需求，多模态训练数据需包括观测阶段的时间序列数据和与前者对应的目标阶段的时间序列数据，在本实施例中，时间长度分别为

和

。

具体来说，模态一：行人轨迹的训练数据定义为观测阶段数据

和目标阶段数据

，其中，

为

时刻二维包围盒的向量表示，

代表

时刻的包围盒的中心点坐标，

代表

时刻的包围盒的宽和高，通过行人检测算法或标注人员标注获得。

具体来说，模态二：自车即搭载摄像头的车辆运动信息的训练数据定义为观测阶段数据

和目标阶段数据

，其中，

为

时刻自车运动信息的向量表示，

代表

时刻的车辆速度，

代表

时刻的车辆车头的朝向角度，通过车载GPS或IMU获得；在本实施例中，车辆的速度无需进行处理，但是车辆车头的朝向角度需要预先处理，因为该角度信息是在全局坐标系下，不符合要求。需要以当前轨迹的第一个时刻的车辆朝向角度

为参考，将所有时刻的车辆朝向角度转换到局部坐标系中，获得新的车辆朝向角度序列

。

具体来说，模态三：行人姿态信息的训练数据定义为观测阶段数据

和目标阶段数据

，其中

，

是一个热图，具体为一个

的矩阵，代表该行人在

时刻的第

个姿态关节点；行人姿态热图的获取，通过将行人从图像中切割出来，利用姿态估计算法对行人图像进行姿态估计。在本实施例中，定义一个行人总共有17个姿态关节点，也就是一个行人在

时刻由17个热图组成姿态信息，每个热图为一个

的矩阵。

所述多模态数据时域特征提取模块：

针对行人轨迹和自车运动信息，采用多层感知器与一维卷积层的组合进行特征提取，其中，所述多层感知器：input-size:2， output-size:272；一维卷积层：kernel-size: 3， input-size:272， output-size:272；针对行人姿态信息即姿态热图，采用卷积LSTM与二维卷积网络的组合来进行特征提取，其中，卷积LSTM：kernel-size:3，input-channel: 17， output-channel:17；二维卷积网络：普通VGG网络使用的卷积网络的样式，最后结果 reshape后的特征维数为272；所述的时域特征提取策略均用于观测阶段和目标阶段。在本实施例中，观测阶段下每个模态的时域特征的大小均为

，目标阶段下每个模态的时域特征的大小均为

。

所述基于跨模态Transformer的特征编码模块执行以下步骤，其中步骤一和步骤二的主要内容可由图2表示：

步骤一：分别为阶段

、

和

；将这3个添加了位置编码的时域特征组织成4个特征对

、

、

和

；将这4个特征对分别输入到公认的跨模态Transformer中，分别输出4对跨模态特征和权重矩阵的组合

、

、

、

；

步骤二：将上述跨模态特征和权重矩阵分配到2个不同的分支中，其中

、

分配到分支1中，

、

下的跨模态特征的权重

和跨模态配置

下的跨模态特征的权重

:

下的跨模态特征的权重

和跨模态配置

下的跨模态特征的权重

:

步骤三：使用以上跨模态特征的权重，分别融合分支1和分支2中的跨模态特征，即：

步骤四：将上述步骤三中的输出结果

和

拼接起来，获得

，并在时域维度上对

做最大池化操作，获得阶段

的最终特征

；观测阶段的最终特征为

，目标阶段的最终特征为

，在本实施例中它们的特征大小均为

。

所述条件变分自动编码模块：

条件变分自动编码器包含两个网络，设为网络1和网络2，两个网络均为多层感知器，其中网络1：input-size:544; output-size:32；网络2：input-size:1088，output- size:32。在本实施例中，考虑的概率分布为高斯分布；网络1仅接收

，将其映射到均值向量

和方差向量

，用于构造一个高斯分布

；网络2同时接收

和

，将其映射到均值向量

和方差向量

，用于构造一个高斯分布

；计算高斯分布

和高斯分布

之间的KL散度，以此来同时优化网络1和网络2；采样因变量：训练时在

中通过公式

来采样隐变量

，应用训练好的模型推理时在

中通过公式

来采样隐变量

，其中

为标准正态分布采样出来的随机数，

、

、

、

、

和

的长度均取值为16。

所述轨迹预测模块：

在本实施例中，将

和隐变量

进行向量拼接，并输入到一个多层感知器中，其中，该多层感知器：input-size:560，output-size:12，输出3个控制向量

；观测阶段的最后一个时刻的轨迹

作为控制向量

；每个控制向量均表示为一个二维包围盒

；用

这4个控制向量来做3阶贝塞尔曲线的插值，贝塞尔曲线是样条曲线的一种，插值出一条轨迹：

其中，

，代表了贝塞尔曲线中控制向量

对应的权重系数，

代表预测轨迹的所有时刻且需要归一化到

之间。

如图3所示，一种跨模态行人轨迹生成式预测方法，包括如下步骤：

步骤一，构造并连接各个模块，将多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块连接，构成基于跨模态Transformer的行人轨迹生成式预测框架。

步骤二，将公开数据集PIE中的原始数据构建成多模态的训练数据，对基于跨模态Transformer的行人轨迹生成式预测框架模型进行训练，采用以L2_Loss和KL散度为基础的损失函数来对该模型进行优化，其中基于L2_Loss的部分的作用在于让预测的轨迹和真实的轨迹尽可能接近，基于KL散度的部分的作用是让预测的概率分布和真实的概率分布尽可能接近。在本实施例中，具体的损失函数可表示为：

其中

，

用于控制不同时刻损失的权重，

为轨迹的真值。

随着训练迭代次数的增多而逐渐提升，增长范围为

，迭代次数的范围为

。

，因为采用的概率分布为高斯分布，故可以通过以下公式进行计算：

其中

代表训练的批量大小。除此之外，每训练一个epoch，对验证集数据进行推理验证，总共训练50个epoch，选择其中指标表现最优异的训练模型。

步骤三，利用训练好的网络模型，进行行人轨迹的预测。在模型使用过程中，因为在推理过程中无法获得目标阶段的多模态数据，所以无法使用基于跨模态Transformer的特征编码模块去获得目标阶段的最终特征。因此只需输入观测阶段的多模态数据到训练好的生成式模型中，输出预测的行人轨迹。

与前述跨模态行人轨迹生成式预测方法的实施例相对应，本发明还提供了跨模态行人轨迹生成式预测装置的实施例。

参见图4，本发明实施例提供的一种跨模态行人轨迹生成式预测装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的跨模态行人轨迹生成式预测方法。

本发明跨模态行人轨迹生成式预测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明跨模态行人轨迹生成式预测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的跨模态行人轨迹生成式预测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种跨模态行人轨迹生成式预测框架，包括：多模态数据时域特征提取模块、基于跨模态Transformer的特征编码模块、条件变分自动编码模块和轨迹预测模块，其特征在于，所述多模态数据时域特征提取模块对多模态数据提取时域特征，直接传递给基于跨模态Transformer的特征编码模块；所述基于跨模态Transformer的特征编码模块，输入为多模态的时域特征，输出为跨模态的注意力特征，分别传递给条件变分自动编码模块和轨迹预测模块；所述条件变分自动编码模块，输入为跨模态的注意力特征，输出为隐变量，直接传递给轨迹预测模块；所述轨迹预测模块，输入为跨模态的注意力特征和隐变量，输出为预测的轨迹。

2.如权利要求1所述的一种跨模态行人轨迹生成式预测框架，其特征在于，所述多模态数据包括行人轨迹信息、自车即搭载摄像头的车辆的运动信息和行人姿态信息；

所述行人轨迹信息的训练数据定义为观测阶段数据