CN113869170B

CN113869170B - 一种基于图划分卷积神经网络的行人轨迹预测方法

Info

Publication number: CN113869170B
Application number: CN202111105740.8A
Authority: CN
Inventors: 王睿炀; 李明; 章品; 文凡
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-04-23
Anticipated expiration: 2041-09-22
Also published as: CN113869170A

Abstract

本发明涉及一种基于图划分卷积神经网络的行人轨迹预测方法，在自动驾驶中，为了解决轨迹预测核心问题，即如何设计模型更好地捕获关联交互信息来提升预测精度与自动驾驶汽车的安全性，本发明设计了一套应用于复杂场景下的行人轨迹的预测模型，基于图划分卷积神经网络GP‑CNN，使用了两条通道相结合的方式提取场景的交互特征作为输入，并针对行人轨迹的时域特性的信息的专门处理，同时通过残差连接使得预测轨迹的前后向传播更加平滑顺畅，再通过轨迹预测网络生成行人交互预测轨迹。

Description

一种基于图划分卷积神经网络的行人轨迹预测方法

技术领域

本发明涉及的是一种无人驾驶预测规划领域的技术，具体来说是一种基于图划分卷积神经网络的行人轨迹预测技术。

背景技术

自动驾驶在未来将是与人们的生活息息相关的，因此自动驾驶目标是落实在现实生活中的，而现实生活中无论是哪一方面，都是充满着各式各样的场景，就自动驾驶而言，车辆所处的行驶场景就是一个有着高度未知和多突发的，不确定的环境。不确定性可能是遮挡和有限的传感器范围导致的传感器限制，来自对其他车辆的概率预测，来自新地区未知的社会行为。在这些不确定性的情况下，为了安全有效地驾驶，自动驾驶的预测模块应智能地利用所有可用信息并适当地解决不确定性，以便产生适当的驾驶策略。预测模块同时也是自动驾驶领域极具挑战性的难题。

而这个难题的一个关键点就在于场景中交互信息的提取，尤其是复杂交通场景中预测对象和他的相关对象之间的可能影响到预测对象未来轨迹的相关信息。

相较于更早年的不考虑交互性的轨迹预测，近几年的轨迹预测无一例外都将交互性作为轨迹预测这项研究的不可或缺的一环，只是关注重点的程度有些许差别。可以将体现交互性的主流方法分为5类：鸟瞰图、图像分割、模块化空间、社会或地图信息、图机制。作为最早一批利用场景鸟瞰图的轨迹预测体现出了想要将场景信息给涵盖在预测的思想，而不单单只是利用历史轨迹来预测。但是这样的方法缺陷在于鸟瞰静态场景导致了时域上的动态参与者意图的表现没有被考虑在内。利用图像分割的方法主要是利用分割技术提取出场景中可达信息并构建预测目标终点的预测方法，属于比较独特的思路，但被忽略的问题也很明显，那就是场景中实体间的交互没有被考虑。空间机制非常形象的将场景位置关系进行建模，但却没有显式学习交互关系。社会或地图信息与图机制进行了显示学习交互关系可也同样忽略了时域信息的交互影响。

发明内容

针对现有方法在交互关系建模以及轨迹预测的时域动态性上的考量不足，为了提高预测准确性从而提升自动驾驶安全性，我们在现有的由图机制扩展而来的图卷积GCN的基础上，进一步将场景交互特征的提取做到全方位优化，提出图划分卷积神经网络(GP-CNN)。GP-CNN将通过被预测的对象历史轨迹进行嵌入图划分得出被预测对象的特征图矩阵，作为轨迹预测模块的输入之一。与现有的场景交互特征提取的方法相比，本方法所采用嵌入图划分通道与图卷积通道相结合的提取特征方式，通过图划分自适应的显式学习场景中的行为交互权重，同时结合TCN进行时域交互特征的提取，从而解决了交互关系在时域上进行直接学习的问题。并通过实验验证了我们的设计的确使得行人轨迹预测要优于以往的方法。

本发明提出了一种基于图划分卷积神经网络的行人轨迹预测的方法，通过一种双通道提取特征的模块来对场景交互进行建模，输入场景轨迹数据及对应的拉普拉斯矩阵，网络同时输出划分场景信息后的图矩阵用于轨迹预测。

本发明的技术方案为一种基于图划分卷积神经网络的行人轨迹预测方法，包含以下步骤：

步骤1，将输入的场景长轨迹数据分为多段短轨迹数据，并将生成的短轨迹进一步分为观测轨迹P_obs和真实轨迹P_pred，对P_obs进行预处理过程后转化为嵌入场景图G＝(V,E)，并由此场景图G产生图划分卷积层GP-CNN的两个输入值，分别定义为观测轨迹和各个节点的拉普拉斯矩阵A，t为当前记录的时刻；

步骤2，对由嵌入场景图G得到的观测轨迹进行卷积层的特征提取，输出特征v_o，将特征v_o先输入进池化层进行下采样，用于更直接有效地捕获被预测对象与相关联的场景个体间的交互影响，产生的结果再输入到全连接层进行分类，从而达到针对不同的目标对被观测者的不同程度的影响的体现，最后将全连接层的输出与特征v_o进行batch乘法从而得到进行了关联强度划分后的特征v；

步骤3，依据公式v^(l+1)＝σ(Av^lW))，利用前两个步骤得到的两个输出，分别是关注了相邻单位的交互信息的历史轨迹特征v，以及被预测对象的拉普拉斯矩阵A，进一步将二者通过batch乘法进行当前被预测对象的交互信息v^l进行更新，从而达到不断丰富被预测对象的交互信息的目的，最后通过多层GP-CNN层迭代，得到用来预测未来轨迹的富含尽可能多的关联节点信息的观测轨迹特征v^(l+1)；

步骤4，在获取到GP-CNN层的最终特征v后，由于观测轨迹P_obs的特征v是按照观测轨迹P_obs的轨迹帧长度进行通道划分的，因此，将此特征v输入到TCN层中来处理时间序列通道的时域信息，从而保证行人轨迹的动态时域特性不被丢失；

步骤5，将通过TCN层的轨迹特征进行残差连接；

步骤6，将步骤5的输出输入到多层CNN层进行最终预测轨迹的生成；

步骤7，设定损失函数L_G，计算预测轨迹和真实轨迹P_pred的损失值，通过梯度下降的方式，对训练网络过程中的参数进行修正，最终使得行人预测轨迹/>尽可能的真实轨迹P_pred一致。

进一步的，所述图划分卷积层GP-CNN的网络结构如下；

通过一个由包含提取特征的卷积层、用于下采样的池化层以及用于权重分类的全连接层构成的图划分通道和输入场景轨迹数据及对应的拉普拉斯矩阵通道的双通道提取特征的模块来对场景交互进行建模。

进一步的，步骤1的具体实现过程如下；

输入的场景长轨迹数据来自摄像机记录下的固定场景的视频，数据格式为多行4列的二维数组，列格式为(当前所处帧ID，行人ID，行人的X坐标，行人的Y坐标)；

将多帧长轨迹以1帧为步长分为多段K1帧长度的短轨迹，再将每段K1帧的短轨迹的前K2帧作为观测轨迹，后K1-K2帧作为真实轨迹；其中，设定在同一场景下的N个交通参与者各自的坐标表示为其中i为当前记录交通参与者的编号，t为当前记录的时刻；将当前时刻记为0时刻，T_obs为过去的观测轨迹的时长，T_pred为将要预测的未来轨迹的时长：

观测轨迹定义为其中/>这里将观测轨迹/>记为P_obs；

真实轨迹定义为其中/>这里将真实轨迹/>记为P_pred；

设定嵌入场景图G＝(V,E)，其中V＝{v_i|i∈{1,...,N}}是当前时刻G的顶点集，也就是当前时刻此场景下行人的集合，而当前节点的属性是节点本身在当前时刻下的坐标由于为了全面的涵盖所有可能的交互影响，对于观测轨迹，采用完全图的方式对关联交互进行建模，因此边集E＝{e_ij|i,j∈{1,...,N}}中的值皆为1；

输入GP-CNN层中的输入之一，观测轨迹是由公式/>产生，f为多层感知器MLP；

输入GP-CNN层中的另一输入则是拉普拉斯矩阵A，在A中，表示节点间属性的a_ij采用函数为：

其中，v_i和v_j是V中的目标节点。

进一步的，步骤2中v_o和v的计算公式如下；

f_CNN、f_Pool、分别为由MLP构成的卷积层、池化层、全连接层。

进一步的，步骤6中预测轨迹的计算公式如下；

定义为图划分卷积神经网络生成的预测轨迹，此步骤中的f_TCN、f_res、f_CNNs分别为由多层感知器MLP构成的时间卷积层、残差连接和多层卷积层，σ即为非线性激活函数ReLU。

进一步的，步骤7中损失函数的定义如下；

设定采用L2范式来逐点计算预测轨迹与真实轨迹的偏差损失，其中

与现有技术相比，本发明具有如下优点：1.通过采用图模型的方式对场景进行建模，能够有效的使用图的性质来表现交互性。2.采用图划分卷积神经网络提升相邻交互信息提取的精度。3.利用图卷积神经网络的思想通过多次迭代达到交互信息的传递和强化从而进一步将交互性拓宽到场景范围。4.利用时间卷积网络来处理来自连续的行人轨迹的时域信息。

附图说明

图1是本发明中GP-CNN层的网络结构图。

图2是本发明中整个图划分卷积神经网络行人轨迹预测的网络结构图。

图3是本发明预测行人轨迹与真实轨迹对比的效果图。场景(1)是对三人近距离随行并且规避对向行人的场景，我们的方法对此复杂情形的预测方向以及这种随行以及规避的关联信息的体现做出了非常好的处理效果，同时场景(2)也很好的捕捉了同行关系以及规避信息，场景(3)则预测了个人在即将穿越狭窄地段时的轨迹。

具体实施方式

本发明主要是提出一种基于图划分卷积神经网络的行人轨迹预测的方法，通过一个双通道提取特征的模块来对场景交互进行建模，输入场景轨迹数据及对应的拉普拉斯矩阵，网络同时输出划分场景信息后的图矩阵用于轨迹预测。本方法充分考虑了场景的不同个体的交互信息的信息的提取以及针对行人轨迹的时域特性的信息的专门处理，提升了预测轨迹精度，同时通过残差连接使得预测轨迹的前后向传播更加平滑顺畅。通过本发明获得的结果能够更精确地预测行人未来的轨迹。

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

步骤1，将输入的场景长轨迹数据分为多段短轨迹数据，并将生成的短轨迹进一步分为观测轨迹P_obs和真实轨迹P_pred。P_obs通过不同的预处理过程后转化为嵌入场景图G＝(V,E)，并由此场景图G产生图划分卷积层GP-CNN的两个输入值，分别定义为观测轨迹和各个节点的拉普拉斯矩阵A。

实施例具体的参数细节说明如下：

图划分卷积层GP-CNN的网络结构如图1，通过一个由包含提取特征的卷积层、用于下采样的池化层以及用于权重分类的全连接层构成的图划分通道和输入场景轨迹数据及对应的拉普拉斯矩阵通道的双通道提取特征的模块来对场景交互进行建模。

输入的场景长(多帧)轨迹数据来自摄像机记录下的固定场景的视频，数据格式为多行4列的二维数组，列格式为(当前所处帧ID，行人ID，行人的X坐标，行人的Y坐标)。

将多帧长轨迹以1帧为步长分为多段20帧长度的短轨迹，再将每段20帧的短轨迹的前8帧作为观测轨迹，后12帧作为真实轨迹(ground truth)。其中，设定在同一场景下的N个交通参与者各自的坐标表示为其中i为当前记录交通参与者的编号，t为当前记录的时刻。由于我们的方法是基于过去的轨迹来预测未来的轨迹，因此我们将当前时刻记为0时刻，T_obs为过去的观测轨迹的时长，T_pred为将要预测的未来轨迹的时长：

观测轨迹定义为其中/>这里将观测轨迹/>记为P_obs。

真实轨迹定义为其中/>这里将真实轨迹/>记为P_pred。

设定嵌入场景图G＝(V,E)，其中V＝{v_i|i∈{1,...,N}}是当前时刻G的顶点集，也就是当前时刻此场景下行人的集合，而当前节点的属性是节点本身在当前时刻下的坐标由于为了全面的涵盖所有可能的交互影响，对于观测轨迹我们采用完全图的方式对关联交互进行建模，因此边集E＝{e_ij|i,j∈{1,...,N}}中的值皆为1。

输入GP-CNN层中的输入之一，观测轨迹是由公式/>产生，f为多层感知器MLP。

其中，v_i和v_j是V中的目标节点。

步骤2，对由嵌入场景图G得到的观测轨迹进行卷积层的特征提取，公式如下：

输出特征v_o。为了有效捕获交通场景中的影响行人决策的交互信息，需要对特征v_o进行特征划分，划分针对不同行人影响的不同权重来提高预测的精确性，因此本方法设计将特征v_o先输入进池化层(Pooling)进行下采样，用于更直接有效地捕获被预测对象与相关联的场景个体间的交互影响，产生的结果再输入到全连接层(FC)进行分类，从而达到针对不同的目标对被观测者的不同程度的影响的体现，最后将全连接层的输出与特征v_o进行batch乘法从而得到进行了关联强度划分后的特征v，公式如下：

实施例具体的参数细节说明如下：

此步骤中的f_CNN、f_Pool、分别为由MLP构成的卷积层、池化层、全连接层。首层卷积层输入通道数为2，最终输出通道数为40。

步骤3，依据公式v^(l+1)＝σ(Av^lW))，利用前两个步骤得到的两个输出，分别是关注了相邻单位的交互信息的历史轨迹特征v，以及被预测对象的拉普拉斯矩阵A，进一步将二者通过batch乘法对当前被预测对象的交互信息v^l进行更新，从而达到不断丰富被预测对象的交互信息的目的，并以此改善由于轨迹数据的小体量特点在下采样等过程中关键特征丢失导致的轨迹预测效果不佳的问题。最终通过多层GP-CNN层(如图1)迭代，得到用来预测未来轨迹的富含尽可能多的关联节点信息的观测轨迹特征v^(l+1)。

实施例具体的参数细节说明如下：

公式v^(l+1)＝σ(Av^lW))中v^l为v的第l次迭代的结果，W为网络训练中的权重参数，σ为激活函数

且公式v^(l+1)＝σ(Av^lW))是通过图卷积神经网络公式得来，其中，/>为邻接矩阵，/>为/>的度矩阵，而σ为激活函数，(l)表示第l层。

步骤4，在获取到GP-CNN层的最终特征v后，由于观测轨迹P_obs的特征v是按照观测轨迹P_obs的轨迹帧长度进行通道划分的，因此，将此特征v输入到TCN层中来处理时间序列通道的时域信息。从而保证行人轨迹的动态时域特性不被丢失。

步骤5，将通过TCN层的轨迹特征进行残差(residual)连接用来优化在轨迹特征信息提取过程中，多次关联信息变化导致的权重多变，进而造成中间层权重过小，可能使得梯度消失，最终使得预测轨迹偏差过大的意外结果的问题。

步骤6，依据公式将步骤5的输出输入到多层CNN层进行最终预测轨迹的生成，并在最后使用ReLU函数作为整个行人预测轨迹网络(如图2)的激活函数。

实施例具体的参数细节说明如下：

定义为图划分卷积神经网络生成的预测轨迹，此步骤中的f_TCN、f_res、f_CNNs分别为由多层感知器MLP构成的时间卷积层、残差连接和多层卷积层。残差连接层输入通道数为2，输出通道数为5。时间卷积层输入通道数为5，输出通道数为5。多层卷积层首层输入通道数为8，最终输出通道数为12。σ即为非线性激活函数ReLU。

步骤7，设定损失函数L_G，计算预测轨迹和真实轨迹P_pred的损失值，通过梯度下降的方式，对训练网络过程中的参数进行修正，最终使得行人预测轨迹/>尽可能的与我们的真实轨迹P_pred一致，参见图3。

实施例具体的参数细节说明如下：

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于图划分卷积神经网络的行人轨迹预测方法，其特征在于，包含以下步骤：

公式v^(l+1)＝σ(Av^lW))中v^l为v的第l次迭代的结果，W为权重参数，σ为激活函数；

步骤5，将通过TCN层的轨迹特征进行残差连接；

2.如权利要求1所述的一种基于图划分卷积神经网络的行人轨迹预测方法，其特征在于：所述图划分卷积层GP-CNN的网络结构如下；

3.如权利要求1所述的一种基于图划分卷积神经网络的行人轨迹预测方法，其特征在于：步骤1的具体实现过程如下；

将多帧长轨迹以1帧为步长分为多段K1帧长度的短轨迹，再将每段K1帧的短轨迹的前K2帧作为观测轨迹，后K1-K2帧作为真实轨迹；其中，设定在同一场景下的N个交通参与者各自的坐标表示为其中i为当前记录交通参与者的编号，t为当前记录的时刻；将当前时刻记为0时刻，T_obs为过去的观测轨迹的时长，T_pted为将要预测的未来轨迹的时长：

观测轨迹定义为其中/>这里将观测轨迹/>记为P_obs；

真实轨迹定义为其中/>这里将真实轨迹/>记为P_pred；

其中，v_i和v_j是V中的目标节点。

4.如权利要求1所述的一种基于图划分卷积神经网络的行人轨迹预测方法，其特征在于：步骤2中v_o和v的计算公式如下；

5.如权利要求1所述的一种基于图划分卷积神经网络的行人轨迹预测方法，其特征在于：步骤6中预测轨迹的计算公式如下；

6.如权利要求1所述的一种基于图划分卷积神经网络的行人轨迹预测方法，其特征在于：步骤7中损失函数的定义如下；

设定采用L2范式来逐点计算预测轨迹与真实轨迹的偏差损失，其中N表示交通参与者的个数。