CN113077489B

CN113077489B - 一种行人轨迹预测方法、装置、设备及储存介质

Info

Publication number: CN113077489B
Application number: CN202110433242.XA
Authority: CN
Inventors: 孔德宝; 吕颖; 高延熹; 刘柯旺
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2024-03-15
Anticipated expiration: 2041-04-21
Also published as: CN113077489A

Abstract

本发明实施例公开了一种行人轨迹预测方法、装置、设备及储存介质，该方法包括：对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与预设行人信息对应的行人信息特征向量；其中，每个行人信息特征向量具备预设维度；对预设数量的数据帧中的行人历史轨迹信息通过预设神经网络进行特征编码，得到与行人历史轨迹信息对应的历史轨迹特征向量；其中，历史信息特征向量具备预设维度；基于焦点注意力机制根据由至少两个行人信息特征向量堆叠成的行人信息特征矩阵，确定行人轨迹特征向量；基于自注意力机制根据历史轨迹特征向量和行人轨迹特征向量，预测行人轨迹。实现提高行人轨迹预测的准确性，提高行车安全性。

Description

一种行人轨迹预测方法、装置、设备及储存介质

技术领域

本发明实施例涉及计算机视觉处理技术，尤其涉及一种行人轨迹预测方法、装置、设备及储存介质。

背景技术

在行车过程中，行车安全一直是非常重要的事情。除了车辆之间可能发生碰撞事故，汽车与行人之间的交通事故也很常见。

对道路上行人轨迹的预测可以为自动驾驶提供控制决策的依据。现有技术中，对行人轨迹进行预测是将轨迹生成问题看成序列生成问题，基于神经网络的轨迹预测模型，通过过去轨迹来预测未来轨迹。在轨迹的预测过程中，每个行人分配一个以行人历史轨迹作为输入的神经网络来预测单个行人轨迹。而行人在移动的过程中身体动作等行人信息也会体现行人移动的意图，但现有技术中在进行行人轨迹预测时，将行人简化为质点，也就是仅仅考虑行人的位置移动来预测行人轨迹，那么，行人轨迹的预测结果准确性不高。

发明内容

本发明实施例提供一种行人轨迹预测方法、装置、设备及储存介质，以实现提高行人轨迹预测的准确性。

第一方面，本发明实施例提供了一种行人轨迹预测方法，包括：

对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与所述预设行人信息对应的行人信息特征向量；其中，每个所述行人信息特征向量具备预设维度；

对所述预设数量的数据帧中的行人历史轨迹信息通过所述预设神经网络进行特征编码，得到与所述行人历史轨迹信息对应的历史轨迹特征向量；其中，所述历史信息特征向量具备所述预设维度；

基于焦点注意力机制根据由至少两个所述行人信息特征向量堆叠成的行人信息特征矩阵，确定行人轨迹特征向量；

基于自注意力机制根据所述历史轨迹特征向量和所述行人轨迹特征向量，预测行人轨迹。

第二方面，本发明实施例还提供了一种行人轨迹预测装置，包括：

行人信息特征向量确定模块，用于对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与所述预设行人信息对应的行人信息特征向量；其中，每个所述行人信息特征向量具备预设维度；

历史轨迹特征向量确定模块，用于对所述预设数量的数据帧中的行人历史轨迹信息通过所述预设神经网络进行特征编码，得到与所述行人历史轨迹信息对应的历史轨迹特征向量；其中，所述历史信息特征向量具备所述预设维度；

行人轨迹特征向量确定模块，用于基于焦点注意力机制根据由至少两个所述行人信息特征向量堆叠成的行人信息特征矩阵，确定行人轨迹特征向量；

行人的轨迹预测模块，用于基于自注意力机制根据所述历史轨迹特征向量和所述行人轨迹特征向量，预测行人轨迹。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的行人轨迹预测方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所提供的行人轨迹预测方法。

本发明实施例通过融合多类预设行人信息结合行人历史轨迹，基于自注意力机制预测行人的未来轨迹，解决将行人视为质点，仅根据行人历史轨迹进行行人轨迹预测准确性不高的问题，实现提高行人轨迹预测的准确性的效果。

附图说明

图1是本发明实施例一中的一种行人轨迹预测方法的流程图；

图2是本发明实施例二中的一种行人轨迹预测方法的流程图；

图3是本发明实施例三中的一种行人轨迹预测装置的结构示意图；

图4是本发明实施例四中的一种行人轨迹预测设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种行人轨迹预测方法的流程图，本实施例可适用于对道路上行人轨迹进行预测的情况，该方法可以由行人轨迹预测装置来执行，该装置可以由硬件和/或软件来实现，该方法具体包括如下步骤：

步骤110、对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与预设行人信息对应的行人信息特征向量；

其中，每个行人信息特征向量具备预设维度。数据帧可以是汽车上配置的摄像头拍摄到的图像帧，从预设数量的数据帧中提取预设行人信息，预设数量可以是8。预设行人信息可以是体现行人身体姿态、周围环境和外贸形象等的信息，这些信息可以用于确定行人在之前的一段时间内移动过程中的状态，例如，预设行人信息可以包括行人的头部姿态、骨骼姿态、外貌、行人周围物体等。将提取得到的预设行人信息通过预设神经网络进行特征编码，得到具备相同维度的行人信息特征向量。每类预设行人信息经过预设神经网络进行特征编码后得到对应的行人信息特征向量，例如，有四类预设行人信息，那么就会得到四个行人信息特征向量，预设行人信息和行人信息特征向量之间是一一对应的。可选的，对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与预设行人信息对应的行人信息特征向量，包括：对预设数量的数据帧中获取到的至少两类预设行人信息通过长短期记忆(Long Short-Term Memory，LSTM)网络进行特征编码，得到与预设行人信息对应的行人信息特征向量。通过LSTM网络对提取出的至少两类预设行人信息进行特征编码，得到与预设行人信息对应的行人信息特征向量。

步骤120、对预设数量的数据帧中的行人历史轨迹信息通过预设神经网络进行特征编码，得到与行人历史轨迹信息对应的历史轨迹特征向量；

其中，历史信息特征向量具备预设维度，历史信息特征向量与之前得到的行人信息特征向量具备相同维度。行人历史轨迹信息从预设数量的数据帧中提取，这些数据帧也就是之前提取预设行人信息的数据帧。行人历史轨迹信息体现在预设数量的数据帧这段时间内行人的移动轨迹。将行人历史轨迹信息通过预设神经网络进行特征编码，得到与行人历史轨迹信息对应的历史轨迹特征向量。

步骤130、基于焦点注意力机制根据由至少两个行人信息特征向量堆叠成的行人信息特征矩阵，确定行人轨迹特征向量；

其中，之前得到的每个行人信息特征向量都具有相同的维度，将它们堆叠成对应的行人信息特征矩阵，然后将行人信息特征矩阵输入基于焦点注意力机制(focalattention)的神经网络输出行人轨迹特征向量。

步骤140、基于自注意力机制根据历史轨迹特征向量和行人轨迹特征向量，预测行人轨迹。

其中，将相同时刻的行人轨迹特征向量与之前得到的历史轨迹特征向量堆叠形成矩阵，然后将该矩阵输入基于自注意力机制(self attention)的神经网络输出预测行人轨迹向量，作为行人轨迹预测的结果，可以用于自动驾驶时控制汽车的决策因素，也可以为人工驾驶提供驾驶辅助。

本实施例的技术方案，通过融合多类预设行人信息结合行人历史轨迹，基于自注意力机制预测行人的未来轨迹，解决将行人视为质点，仅根据行人历史轨迹进行行人轨迹预测准确性不高的问题，实现提高行人轨迹预测的准确性的效果。

实施例二

图2为本发明实施例二提供的一种行人轨迹预测方法的流程图，本实施例在上述技术方案的基础上进一步细化，在行人移动的过程中，行人也会观察周围的障碍物，而行人的障碍物中包括道路上的汽车，例如，当行人需要穿越马路时，行驶中的车辆对于行人来说也是潜在的危险。而行人移动过程中的身体动作、头部姿态、外貌特征等信息会体现行人移动的意图，而行人周围物体会影响行人移动的走向。本实施例提供的方法具体包括：

步骤210、针对预设数量的数据帧，使用LSTM网络对行人头部姿态特征进行编码，形成具备预设维度的头部姿态特征向量；

其中，将已获得行人头部姿态特征(T,9)(T为时间步长，9为俯仰角，偏航角，翻滚角的维度之和)，进行一层全连接变换，变换到128维，再将此128维向量输入LSTM网络进行特征编码，输出编码之后的头部姿态特征向量为(T,256)维。

步骤220、针对预设数量的数据帧，使用LSTM网络对行人骨骼特征进行编码，形成具备预设维度的骨骼特征向量；

其中，将已获得行人骨骼点特征信息(T,17，2)(T为时间步长，17个人体的骨骼点数，分别是鼻子，左右眼，左右耳，左右肩，左右肘，左右腕，左右臀，左右膝，左右脚踝，2位骨骼点坐标维度(像素坐标系中的x偏移量和y偏移量)，进行一层矩阵变换，变换为(T,34),再进行全连接变换，变换到128维，再将此128维向量输入LSTM网络进行特征编码，输出编码之后骨骼特征向量为(T,256)维。

步骤230、针对预设数量的数据帧，使用预设区域特征聚集方式对行人外貌特征提取固定维度数据，使用LSTM网络对固定维度数据进行编码，形成具备预设维度的外貌特征向量；

其中，将已获得外貌特征(mask rcnn中的特征图)，进行roi align操作，将特征编码到固定维度，并将其输入到LSTM网络进行特征编码，输出编码之后外貌特征向量为(T,256)维。

步骤240、针对预设数量的数据帧，使用LSTM网络对行人与周围物体特征进行编码，形成具备预设维度的行人物体特征向量。

其中，行人与周围物体特征的编码。对已获得的行人坐标框(x,y,w,h)，及当前行人与周围物体框{(x_k,y_k,w_k,h_k)|k∈K}的距离信息进行显示编码，

并以物体框种类进行独热编码，将种类编码之后的信息和距离编码之后的信息叠加为一个向量，最后将其输入到LSTM网络中进行特征编码，输出之后的行人物体特征向量为(T,256)维。

步骤250、针对预设数量的数据帧，使用LSTM网络对行人历史轨迹信息进行编码，形成具备预设维度的历史轨迹特征向量。

其中，行人历史轨迹信息的编码。将已获得的行人历史轨迹信息(T,2)(T为时间步长，2位行人的轨迹坐标维度)，进行一层全连接变换，变换到128维，再将此128维向量输入LSTM网络进行特征编码，输出编码之后历史轨迹特征向量为(T,256)维。

步骤260、基于焦点注意力机制根据由至少两个行人信息特征向量堆叠成的行人信息特征矩阵，确定行人轨迹特征向量；

其中，基于焦点注意力机制根据由至少两个行人信息特征向量堆叠成的行人信息特征矩阵，确定行人轨迹特征向量，包括：

将头部姿态特征向量、骨骼特征向量、外貌特征向量和行人物体特征向量堆叠为维度为行人信息特征矩阵；

根据如下公式计算行人信息特征矩阵的焦点注意力相关矩阵

Q为行人信息特征矩阵，S^t为相关矩阵，该相关矩阵用于加权；

根据如下公式计算第一焦点注意力矩阵，

根据如下公式计算第二焦点注意力矩阵，

根据如下公式计算行人轨迹特征向量。

步骤270、基于自注意力机制根据历史轨迹特征向量和行人轨迹特征向量，预测行人轨迹。

其中，基于自注意力机制根据历史轨迹特征向量和行人轨迹特征向量，预测行人轨迹，包括：

将预设时刻的历史轨迹特征向量与行人轨迹特征向量堆叠形成行人轨迹矩阵；

将行人轨迹矩阵，送入自注意力机制神经网络，进行行人轨迹预测。

可选的，在将行人轨迹矩阵，送入自注意力机制神经网络，进行行人轨迹预测之前，还包括：

训练自注意力机制神经网络，其中，网络损失函数为如下式

其中，T_pred代表预测的时间步长，T_obs代表输入的时间步长，N代表行人个数，K代表采样轨迹数，并采用Adadelta优化器。

其中，损失函数用于训练神经网络LSTM网络，给神经网络提供回归方向。

本实施例的技术方案，首先根据已获得的行人的头部姿态角、行人骨骼信息、行人外貌特征和真实世界中的行人历史轨迹信息，对其进行特征编码，再将去输入自注意力机制网络，以预测行人的未来轨迹。从而实现一种融合丰富行人特征的结合自注意机制的行人轨迹预测方法，提高无人驾驶的安全性。

实施例三

图3为实施例三提供的一种行人轨迹预测装置的结构示意图，该装置可以集成在行人轨迹预测设备中，该行人轨迹预测设备可以是车载终端或服务器，该装置包括：

行人信息特征向量确定模块310，用于对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与预设行人信息对应的行人信息特征向量；其中，每个行人信息特征向量具备预设维度；

历史轨迹特征向量确定模块320，用于对预设数量的数据帧中的行人历史轨迹信息通过预设神经网络进行特征编码，得到与行人历史轨迹信息对应的历史轨迹特征向量；其中，历史信息特征向量具备预设维度；

行人轨迹特征向量确定模块330，用于基于焦点注意力机制根据由至少两个行人信息特征向量堆叠成的行人信息特征矩阵，确定行人轨迹特征向量；

行人的轨迹预测模块340，用于基于自注意力机制根据历史轨迹特征向量和行人轨迹特征向量，预测行人轨迹。

可选的，行人信息特征向量确定模块310，包括：

特征编码单元，用于对预设数量的数据帧中获取到的至少两类预设行人信息通过LSTM长短期记忆网络进行特征编码，得到与预设行人信息对应的行人信息特征向量。

可选的，特征编码单元，具体用于：

针对预设数量的数据帧，使用LSTM网络对行人头部姿态特征进行编码，形成具备预设维度的头部姿态特征向量；

针对预设数量的数据帧，使用LSTM网络对行人骨骼特征进行编码，形成具备预设维度的骨骼特征向量；

针对预设数量的数据帧，使用预设区域特征聚集方式对行人外貌特征提取固定维度数据，使用LSTM网络对固定维度数据进行编码，形成具备预设维度的外貌特征向量；

针对预设数量的数据帧，使用LSTM网络对行人与周围物体特征进行编码，形成具备预设维度的行人物体特征向量。

可选的，历史轨迹特征向量确定模块320，具体用于：

针对预设数量的数据帧，使用LSTM网络对行人历史轨迹信息进行编码，形成具备预设维度的历史轨迹特征向量。

可选的，行人轨迹特征向量确定模块330，具体用于：

根据如下公式计算行人信息特征矩阵的焦点注意力相关矩阵

Q为行人信息特征矩阵，S^t为相关矩阵；

根据如下公式计算第一焦点注意力矩阵，

根据如下公式计算第二焦点注意力矩阵，

根据如下公式计算行人轨迹特征向量。

可选的，行人的轨迹预测模块340，具体用于：

可选的，行人轨迹预测装置还包括：

神经网络训练模块，用于在将行人轨迹矩阵，送入自注意力机制神经网络，进行行人轨迹预测之前，训练自注意力机制神经网络，其中，网络损失函数为如下式

本发明实施例所提供的行人轨迹预测装置可执行本发明任意实施例所提供的行人轨迹预测方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例四提供的一种行人轨迹预测设备的结构示意图，如图4所示，该行人轨迹预测设备包括处理器410、存储器420、输入装置430和输出装置440；行人轨迹预测设备中处理器410的数量可以是一个或多个，图4中以一个处理器410为例；行人轨迹预测设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的行人轨迹预测方法对应的程序指令/模块(例如，行人轨迹预测装置中的行人信息特征向量确定模块310、历史轨迹特征向量确定模块320、行人轨迹特征向量确定模块330和行人的轨迹预测模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行行人轨迹预测设备的各种功能应用以及数据处理，即实现上述的行人轨迹预测方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至行人轨迹预测设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字或字符信息，以及产生与行人轨迹预测设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种行人轨迹预测方法，包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的行人轨迹预测方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述行人轨迹预测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种行人轨迹预测方法，其特征在于，包括：

对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与所述预设行人信息对应的行人信息特征向量；其中，每个所述行人信息特征向量具备预设维度；所述行人信息特征向量包括头部姿态特征向量、骨骼特征向量、外貌特征向量和行人物体特征向量；

将所述头部姿态特征向量、所述骨骼特征向量、所述外貌特征向量和所述行人物体特征向量堆叠为维度为行人信息特征矩阵；

根据如下公式计算所述行人信息特征矩阵的焦点注意力相关矩阵

Q为所述行人信息特征矩阵，S^t为所述相关矩阵；

根据如下公式计算第一焦点注意力矩阵，

根据如下公式计算第二焦点注意力矩阵，

根据如下公式计算行人轨迹特征向量；

将预设时刻的所述历史轨迹特征向量与所述行人轨迹特征向量堆叠形成行人轨迹矩阵；

将所述行人轨迹矩阵，送入自注意力机制神经网络，进行行人轨迹预测。

2.根据权利要求1所述的方法，其特征在于，所述对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与所述预设行人信息对应的行人信息特征向量，包括：

对所述预设数量的数据帧中获取到的至少两类所述预设行人信息通过LSTM网络进行特征编码，得到与所述预设行人信息对应的所述行人信息特征向量。

3.根据权利要求2所述的方法，其特征在于，所述对所述预设数量的数据帧中获取到的至少两类所述预设行人信息通过LSTM网络进行特征编码，得到与所述预设行人信息对应的所述行人信息特征向量，包括：

针对所述预设数量的数据帧，使用所述LSTM网络对行人头部姿态特征进行编码，形成具备所述预设维度的头部姿态特征向量；

针对所述预设数量的数据帧，使用所述LSTM网络对行人骨骼特征进行编码，形成具备所述预设维度的骨骼特征向量；

针对所述预设数量的数据帧，使用预设区域特征聚集方式对行人外貌特征提取固定维度数据，使用所述LSTM网络对所述固定维度数据进行编码，形成具备所述预设维度的外貌特征向量；

针对所述预设数量的数据帧，使用所述LSTM网络对行人与周围物体特征进行编码，形成具备所述预设维度的行人物体特征向量。

4.根据权利要求3所述的方法，其特征在于，所述对所述预设数量的数据帧中的行人历史轨迹信息通过所述预设神经网络进行特征编码，得到与所述行人历史轨迹信息对应的历史轨迹特征向量，包括：

针对所述预设数量的数据帧，使用所述LSTM网络对所述行人历史轨迹信息进行编码，形成具备所述预设维度的历史轨迹特征向量。

5.根据权利要求1所述的方法，其特征在于，在所述将所述行人轨迹矩阵，送入自注意力机制神经网络，进行行人轨迹预测之前，还包括：

训练所述自注意力机制神经网络，其中，网络损失函数为如下式

6.一种行人轨迹预测装置，其特征在于，包括：

行人信息特征向量确定模块，用于对预设数量的数据帧中获取到的至少两类预设行人信息通过预设神经网络进行特征编码，得到与所述预设行人信息对应的行人信息特征向量；其中，每个所述行人信息特征向量具备预设维度；所述行人信息特征向量包括头部姿态特征向量、骨骼特征向量、外貌特征向量和行人物体特征向量；

行人轨迹特征向量确定模块，用于：

Q为所述行人信息特征矩阵，S^t为所述相关矩阵；

根据如下公式计算第一焦点注意力矩阵，

根据如下公式计算第二焦点注意力矩阵，

根据如下公式计算行人轨迹特征向量；

行人的轨迹预测模块，用于：

7.一种行人轨迹预测设备，其特征在于，所述行人轨迹预测设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的行人轨迹预测方法。

8.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-5中任一所述的行人轨迹预测方法。