CN114116944A

CN114116944A - 一种基于时间注意力卷积网络的轨迹预测方法及装置

Info

Publication number: CN114116944A
Application number: CN202111456560.4A
Authority: CN
Inventors: 朱冬; 张建; 王杰; 宋雯; 唐国梅; 杨易; 周昭坤; 仲元红
Original assignee: Chongqing Qiteng Technology Co ltd
Current assignee: Seven Teng Robot Co ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-01
Anticipated expiration: 2041-11-30
Also published as: CN114116944B

Abstract

本发明公开了一种基于时间注意力卷积网络的轨迹预测方法及装置。方法包括：获取至少一个目标在上一时间段的轨迹数据；将轨迹数据输入轨迹预测模型，轨迹预测模型输出目标在下一时间段的预测轨迹；其中，轨迹预测模型通过时间注意力模块和第一因果卷积模块提取轨迹数据不同尺度的时间特征，并基于提取的不同尺度的时间特征获取目标在下一时间段的预测轨迹。通过时间注意力模块整合目标上一时间段内所有时刻对当前时刻的影响，自动关注影响较大的历史时序特征；通过第一因果卷积模块并行地处理轨迹数据并生成对应的相同长度的时序特征数据；快速准确获得轨迹数据的多尺度时间特征，使得获取的目标下一时间段的预测轨迹更准确，获取速度更快。

Description

一种基于时间注意力卷积网络的轨迹预测方法及装置

技术领域

本发明涉及目标移动轨迹预测技术领域，特别是涉及一种基于时间注意力卷积网络的轨迹预测方法及装置。

背景技术

现有技术中需要对智能机器人、汽车、无人驾驶智能车以及行人等可移动目标的移动轨迹进行预测，通常基于目标前一段时间的轨迹序列数据进行后一段时间目标的轨迹预测，然而轨迹序列处理一直是目标轨迹预测问题的难点，即如何充分利用当前观测的序列数据，对其进行有效的特征提取。

近年来，针对轨迹序列处理的研究取得了很大的进步，各种有效模型被用于其中，如现有技术中通常使用的模型为递归神经网络模型(典型代表为长短时记忆神经网络)，但其运行速度慢，预测精度一般。因为递归神经网络虽然直观上符合时间序列的处理思路，但是传统递归神经网络不能并行地处理时间序列数据。当前时刻的输入依赖于前一时刻输出的隐藏状态，因此在模型训练和推断效率上有所欠缺。并且，循环递归网络在前向传播过程中，不断地选择忘记历史时刻的特征知识，尽管长短时记忆网络声称能够处理较长时序的数据，实际上效果并不理想。此外，当目标轨迹预测应用于交通场景时，通常需要实时预测，而递归神经网络在预测速度上并不满足要求。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于时间注意力卷积网络的轨迹预测方法及装置。

为了实现本发明的上述目的，根据本发明的第一个方面，本发明提供了一种基于时间注意力卷积网络的轨迹预测方法，包括：获取至少一个目标在上一时间段的轨迹数据；将轨迹数据输入轨迹预测模型，所述轨迹预测模型输出目标在下一时间段的预测轨迹；其中，所述轨迹预测模型通过时间注意力模块和第一因果卷积模块提取轨迹数据不同尺度的时间特征，并基于提取的不同尺度的时间特征获取目标在下一时间段的预测轨迹。

为了实现本发明的上述目的，根据本发明的第二个方面，本发明提供了一种轨迹预测装置，包括获取模块和轨迹预测模块；所述获取模块用于获取至少一个目标在上一时间段的轨迹数据，将所述轨迹数据输入轨迹预测模块；所述轨迹预测模块内设置轨迹预测模型，所述轨迹预测模型通过时间注意力模块和第一因果卷积模块提取轨迹数据不同尺度的时间特征，并基于提取的不同尺度的时间特征获取目标在下一时间段的预测轨迹。

为了实现本发明的上述目的，根据本发明的第三个方面，本发明提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行本发明第一方面所述的基于时间注意力卷积网络的轨迹预测方法。

综上所述，由于采用了上述技术方案，本发明的有益效果是：不同于传统的时间卷积网络，本发明的卷积网络通过时间注意力模块整合目标上一时间段内所有时刻对当前时刻的影响，自动关注影响较大的历史时序特征；通过第一因果卷积模块并行地处理轨迹数据并生成对应的相同长度的时序特征数据；将时间注意力模块的输出特征和第一因果卷积模块的输出特征聚合，快速准确获得轨迹数据的多尺度时间特征，使得获取的目标下一时间段的预测轨迹更准确，获取速度更快。此外，本发明还可以并行对多个目标的轨迹数据进行处理获得多个目标的轨迹数据，提高了轨迹预测的实时性。

附图说明

图1是本发明一具体实施方式中基于时间注意力卷积网络的轨迹预测方法的流程示意图；

图2是本发明一具体实施方式中轨迹预测模型的结构示意图；

图3是本发明一具体实施方式中时间注意力卷积网络的结构示意图；

图4是本发明一具体实施方式中因果卷积过程示意图；

图5是本发明一具体实施方式中时间注意力卷积模块工作示意图；

图6是本发明一具体实施方式中增强残差模块的处理过程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在本发明中，目标可以是可移动的机器人或行人或车辆或无人驾驶的智能汽车等。目标的轨迹数据本质上为时序序列，为一系列在时间上发展的目标的位置坐标。

近些年来，深度学习技术发展迅速，也因此衍生出了多种处理时序序列数据的有力技术与模型，主要有以下两类：递归神经网络模型和时序卷积神经网络模型。

在预测时，递归神经网络模型具备了对未知时序序列数据的处理能力，通过输入最后时刻的序列数据和隐藏状态，递归地输出时序预测数据。递归神经网络模型的数据处理模式有两个优点，第一，能够处理任意长度序列，而隐藏状态始终具有相同大小；第二个优点是可以对所有的数据使用相同的网络参数。这两个因素使递归神经网络模型成为简洁合理的时间序列处理模型。然而，递归神经网络模型使用的参数共享机制是取决于以下假设：时间序列数据的特征在时间分布上是一致的。实际上，由于多种因素与时间共同影响时间序列变换，以上假设在大部分时间序列处理上并不成立，因此单纯地用递归神经网络模型处理时序序列数据的预测效果并不好，预测准确性较低。此外，由于下一时刻输出必须依赖上一时刻的隐藏状态，因此递归神经网络模型在时间维度上并不能做到并行处理，预测速度较慢。

时序卷积神经网络模型有因果卷积模型、空洞卷积模型等。时序卷积神经网络模型主要目的是解决递归神经网络在训练过程中不稳定和不能并行化的问题，但是存在着特征提取单一，轨迹预测精度较低的问题。

本发明公开了一种基于时间注意力卷积网络的轨迹预测方法，在一种优选实施方式中，如图1所示，该方法包括：

步骤S1，获取至少一个目标在上一时间段的轨迹数据。

上一时间段为当前时刻之前的一段时间，设上一时间段共包含T_obs个时间点，设t表示上一时间段内的任一时间点，则有t∈{1，2，...，T_obs}。

设观测区域内具有多个目标，这些目标可以是行人、汽车、自行车、无人驾驶汽车、移动机器人等，观测区域的大小可人为设定，观测区域优选但不限于为半径为3米或3米以上的区域。设观测区域内包括N个目标，目标的序号可用i表示，即i∈{1，2，...，N}。

设目标i在时间t的位置坐标为

则目标i在上一时间段内的轨迹数据可表示为：

在本实施方式中，

为目标i在真实场景中的绝对位置轨迹，由于不同场景的大小不一，为便于计算，将绝对位置轨迹数据转换为相对位置轨迹，即在将轨迹数据输入轨迹预测模型之前，还包括对轨迹数据进行如下处理：

基于目标i在上一时间段的轨迹数据求取目标i的相对位置轨迹数据，将相对位置轨迹数据输入轨迹预测模型。

具体的，目标i在t时刻的相对位置坐标为

当t＝1时，

步骤S2，将轨迹数据输入轨迹预测模型，轨迹预测模型输出目标i在下一时间段的预测轨迹，其中，轨迹预测模型通过时间注意力模块和第一因果卷积模块提取目标i轨迹数据不同尺度的时间特征，并基于提取的不同尺度的时间特征获取目标i在下一时间段的预测轨迹。

在本实施方式中，当输入轨迹预测模型的轨迹数据是绝对位置轨迹时，预测轨迹也为一系列绝对位置坐标，当输入轨迹预测模型的轨迹数据是相对位置轨迹时，预测轨迹也为一系列相对位置坐标。设下一时间段共包含T_pred个时间点，则目标i在未来第t′个时刻预测的绝对位置坐标为：

目标i在未来第t′个时刻预测的相对位置坐标为：

在一种优选实施方式中，轨迹预测模型的结构示意图如图2所示，轨迹预测模型包括级联的三部分，第一部分是编码器(Encoder)，第二部分是时间注意力卷积网络(TACNModule)，第三部分是译码器(Decoder)。

具体的，轨迹预测模型包括依次连接的编码器、一层或一层以上级联的时间注意力卷积网络、译码器，如图2所示，时间注意力卷积网络的层数为3，输入的轨迹数据为目标i在上一时间段的相对位置坐标序列，输出为目标i在下一时间段的预测的相对位置坐标序列。经过多层堆叠因果卷积，模型的输出数据会包含从输入的轨迹数据中提取的时间维度特征，用于下一步的预测任务。随着因果卷积模块叠加多层，高层输出的特征的感受野也对应线性增大。

在本实施方式中，编码器用于将轨迹预测模型的输入数据映射为轨迹序列向量

(包含了N个目标的轨迹序列)，为第一层时间注意力卷积网络的输入序列，在这里编码器将行人轨迹序列数据映射成高维数据向量，便于后续网络计算。编码器优选但不限于为一个全连接层。

在本实施方式中，译码器将最后一层时间注意力卷积网络的聚合模块的输出的时间特征映射为各目标在下一时间段的预测轨迹。优选的，译码器包括一个全连接层，通过一个全连接层将最后一层时间注意力卷积网络的聚合模块的输出的各目标的时间特征映射为该目标在下一时间段的预测轨迹。

在本实施方式中，进一步优选的，时间注意力卷积网络(TACN层)包括第一支路、第二支路和聚合模块，如图3所示，第一支路和第二支路均连接在时间注意力卷积网络的输入端和时间注意力卷积网络的聚合模块的输入端之间，第一支路上设置有时间注意力模块，第二支路上设置有第一因果卷积模块，优选的，为简便计算，聚合模块被配置为对第一支路和第二支路输出的特征数据进行叠加。

在本实施方式中，由于卷积神经网络的卷积核在时间维度上的卷积处理，这种卷积模式被称为因果卷积(Casual convolution)，从而获得了具有卷积核感受野大小含有时间维度信息的特征。因果卷积的实现为通过时间序列数据左侧加入填充数据，使得因果输出的某一时刻的特征只从当前时刻之前的数据中提取。在顺序上保证了未来时刻的信息不会泄露到前面时刻的信息中，保证了时序正确性。

在本实施方式中，如图4所示，为第l层时间注意力卷积网络中第一因果卷积的数据处理过程，设第i个目标输入第l层的第一因果卷积的向量为

则其输出为第(l+1)层的第一因果卷积的输入时间序列

随着第一因果卷积模块叠加多层，高层输出的特征的感受野也对应线性增大。在因果卷积处理时序序列中，感受野对应的是当前时刻能够观察到多少个历史时刻的数据。假设第一因果卷积的卷积核大小为k，第l层的感受野为(k-1)*l+1。因果卷积的具体实现为普通的卷积模块加上左填充数据操作，如图4所示，设定因果卷积核的卷积核大小为3，每次输入到因果卷积模块前，对输入数据最后一维进行左填充，填充维度为2。通过因果卷积，当前时刻的输出特征只与当前时刻及其之前的输入数据有关，保留了轨迹序列中的时序信息。

在本实施方式中，因果卷积具有将之前时刻的信息融入到当前时刻的输出中的能力，然而，因果卷积模块仅仅对历史时序信息进行普通的卷积和融入，对时间特征仅有简单的聚合操作，无法选择关注特定的时间信息。基于上述不足，在时间注意力卷积网络中引入时间注意力模块。

在本实施方式中，时间注意力模块是选择性地重点关注一部分时间点信息，同时忽略或较少关注其余时间点信息。注意力机制对输入数据中的重要信息分配较多的权重进行特征提取，而对不重要的信息分配较少的权重。在处理时间特征时，注意力机制是轨迹预测模型重点关注距离当前时间点较近的时间段和/或轨迹变化明显的时间段，对一些较远的时间段或轨迹变化较小的时间段设定较小的权重。

在一种优选方式中，为规避传统自注意力机制在处理时间序列数据时，会同时关注历史时刻和未来时刻，这不符合时序序列的顺序特点。本发明在自注意力机制的基础上，进一步优选的，使用掩码来屏蔽未来时刻特征对当前时刻的影响，即时间注意力模块使用掩码屏蔽未来时刻的时间特征对当前时刻的时间特征的影响，掩码可以是数值0，这样利用注意力机制来整合历史时刻对当前时刻的影响，并自动关注影响较大的历史时序特征，如图5所示，具体过程包括：

首先，将输入时间注意力模块的特征序列分别通过键线性变换矩阵f、查询线性变化矩阵g、值线性变化矩阵h映射为键矩阵

查询矩阵

值矩阵

表示输入第l层时间注意力卷积网络的时间序列，

实际为大小为T_obs×2的一个矩阵。键线性变换矩阵f、查询线性变化矩阵g、值线性变化矩阵h均是大小为2×d_k的矩阵，键线性变换矩阵f、查询线性变化矩阵g、值线性变化矩阵h均为时间注意力模块的模型变量。在轨迹预测模型训练前，通过现有的gaussian分布初始化方法初始化三个矩阵的数值(如可参考网址https://zhuanlan.zhihu.com/p/69026430中公开的gaussian分布初始化方法)，在轨迹预测模型的训练中不断更新键线性变换矩阵f、查询线性变化矩阵g、值线性变化矩阵h，具体更新方法为时间注意力机制中的常规设置，在此不再赘述。获得的键矩阵、查询矩阵、值矩阵均是大小为T_obs×d_k的矩阵，因此，键矩阵、查询矩阵、值矩阵的维度为d_k。

之后，通过键矩阵与查询矩阵点乘获得第一矩阵Wl^(l)，

k^(l)T表示键矩阵k^(l)的倒置。

之后，保留第一矩阵中下三角元素的数值，将第一矩阵中非下三角的元素赋值为0，即掩码为0，获得第二矩阵Wl′^(l)：

i′、j分别表示第二矩阵的行、列序号。

之后，通过第一激活函数对第二矩阵进行正则化处理获得注意力权重矩阵Wa^(l)；第一激活函数优选但不限于为SoftMax激活函数。

最后，获取注意力权重矩阵中所有元素的数值累加值，将数值累加值与值矩阵相乘并将相乘结果作为时间注意力模块输出的注意力输出特征SA^(l)。

在一种优选实施方式中，为精确捕捉时序序列的时间关联性，进行了二次时间特征提取，如图3所示，在第一支路上还包括级联于时间注意力模块之后的第二因果卷积模块，将时间注意力模块提取的注意力输出特征作为第二因果卷积模块的输入。

在一种优选实施方式中，为提取序列中相对重要的信息并将其直接传送到下一层。输入编码器的轨迹序列并没有直接参与正则化注意力权重矩阵的计算，而是通过转化成值矩阵进行计算。因为值矩阵的映射维度通常小于输入的轨迹序列维度，这就有可能存在信息的丢失问题，受残差模块的启发，我们希望注意力能够直接应用于输入的轨迹序列，主要原因有两个，第一，直接应用于输入轨迹序列可以减少在前向传播过程中信息丢失，解决梯度消失的问题；第二，在神经网络训练的情况下，通过注意力权重矩阵告知网络哪些内容是相对重要的部分，其会加强学习特定的部分，帮助模型更快地学习到数据中的特征。为此，本发明提供的时间注意力卷积网络还包括第一残差支路，第一残差支路连接在时间注意力卷积网络的输入端和时间注意力卷积网络的聚合模块的输入端之间，第一残差支路上设置有增强残差模块；增强残差模块将注意力权重矩阵Wa^(l)进行行求和获得权重向量M_t，并求取权重向量M_t与输入该层(设为l层)时间注意力卷积网络的特征序列

的哈达玛积SR^(l)，将哈达玛积SR^(l)作为第l层的增强残差

其中⊙表示求取哈达玛积符号，具体过程如图6所示，展示了增强残差模块的计算过程。增强残差模块通过使用注意力权重矩阵与输入的序列直接相乘，具有保留输入信息，稳定神经网络的训练过程，加快收敛的作用。

在一种优选实施方式中，如图3所示，时间注意力卷积网络还包括第二残差支路Residual(即跳连模块)，第二残差支路Residual连接在时间注意力卷积网络的输入端和时间注意力卷积网络的聚合模块的输入端之间，即第二残差支路Residual直接将输入信息引入聚合模块。增加第二残差支路Residual目的是将时间注意力卷积网络的输出时间特征表示为原始的输入数据和输入数据的时间特征的叠加，之所以要保留原始输入数据，是因为其本身含有丰富的时间特征，这样使得聚合后的数据时间特征更丰富，轨迹预测更准确。

在本发明的一种实施例中，时间注意力卷积网络包括第一支路、第二支路、第一残差支路和第二残差支路，具体结构如图3所示。第一因果卷积模块和时间注意力模块的主要作用都是时间特征提取，但是具体作用有所不同，二者组合能够多尺度地提取时间特征。

在本实施例中，第一因果卷积模块直接处理输入的相对轨迹数据，学习和提取序列内部最明显的时间关联性，从宏观上对时间维度进行处理；时间注意力模块能够学习细微的时间特征，且将之前时刻的信息融入到当前时刻之中。两个时间处理模块共同作用，多尺度地学习时间特征。增强残差模块通过使用时间注意力卷积模块的权重矩阵，与输入的序列直接相乘，具有保留输入信息，稳定神经网络的训练过程，加快收敛的作用。本发明还使用了残差与跳连模块，目的是将时间注意力卷积网络的输出时间特征表示为原始的输入数据和输入数据的时间特征的叠加，之所以要保留原始输入数据，是因为其本身含有丰富的时间特征。聚合模块就是将第一支路、第二支路、第一残差支路、第二残差支路的输出特征叠加，时间注意力卷积网络输出的特征为O：

其中，O表示第l层时间注意力卷积网络的输出，

表示第l层时间注意力卷积网络的输入数据，SA(·)表示时间注意力模块的输出特征，SR(·)表示增强残差模块的输出特征，C(·)表示第一因果卷积模块输出特征。

在一种优选实施方式中，目标运动轨迹具有多样性和不确定性(当目标为行人时更具有多样性和不确定性)，即使在同一场景和同一观测轨迹的情况下，由于行人自身意图的不同，其未来轨迹也会多种多样，基于此见解，本发明在提出的模型在较为准确预测未来轨迹的基础上，通过在时空交互特征上添加随机噪声，使模型能够生成具有多样性的预测轨迹。为了使轨迹预测模型输出的轨迹更符合实际情况，译码器包括噪声添加模块和输出层，噪声添加模块在最后一层时间注意力卷积网络的输出特征中添加随机噪声，并将添加随机噪声后的特征传输给输出层，通过输出层映射为目标在下一时间段的预测轨迹。添加的随机噪声优选但不限于为(0.1，0)的高斯分布噪声。输出层优选但不限于为一个全连接层。

在本实施方式中，进一步优选的，为了使轨迹预测模型有一定的生成空间，本发明还公开了一种轨迹预测模型训练方法，在轨迹预测模型的训练中，译码器的噪声添加模块在最后一层时间注意力卷积网络的输出特征中添加不同的噪声，这样获得多个添加了不同噪声的特征，输出层将多个添加了不同噪声的特征分别映射为预测轨迹，则获得多个不同的预测轨迹；计算每条预测轨迹与真实轨迹的差异，将差异最小的预测轨迹反向传播更新输出层的线性映射参数。差异优选但不限于为均方差值，具体的，输出层可包括五层，每一层都是一个线性映射。

在本实施方式中，直接在时间卷积神经网络的输出特征上，添加高斯分布的噪声，然后通过多层感知机解码器网络输出多样的未来时刻相对位置轨迹数据，然后将相对位置坐标轨迹转换成绝对位置坐标轨迹进行损失函数的计算。本发明使用均方误差作为损失函数，且依照Social-GAN使用多样性损失函数来鼓励预测模型的预测多样性和灵活性。具体的操作为，所提出模型通过多次随机采样获得多个噪声数据，与TACN输出的时间特征数据进行聚合，再由解码器生成多个预测轨迹，在训练过程中，我们选择与真实的未来时刻轨迹最相近的输出轨迹来计算损失函数，多样性损失函数的具体含义是模型同时生成多条预测轨迹，通过计算这些预测轨迹与真实值的均方误差，选择其中误差最小的一条轨迹进行反向传播和训练。

本发明还公开了一种轨迹预测装置，该装置包括获取模块和轨迹预测模块；获取模块用于获取至少一个目标在上一时间段的轨迹数据，将轨迹数据输入轨迹预测模块；轨迹预测模块内设置轨迹预测模型，轨迹预测模型通过时间注意力模块和第一因果卷积模块提取轨迹数据不同尺度的时间特征，并基于提取的不同尺度的时间特征获取目标在下一时间段的预测轨迹。

对本发明提供的轨迹预测方法进行验证，将目标设置为行人，具体包括：

1、行人轨迹数据集

使用两个轨迹预测领域主流数据集ETH和UCY进行所提出模型的训练和验证。这两个数据集包含真实世界的人类轨迹和各种交通场景中行人之间的交互信息。其中，上述两个数据集共有五个子数据集，分别是ETH、HOTEL、UNIV、ZARA1、ZARA2。每个数据集的格式为每个行人的空间坐标。通过数据处理，我们可以得到每个行人随时间变化的相对轨迹坐标。两个数据集中共有1536个行人数据，且包含了多种有挑战性的交互场景，例如行人躲避碰撞，站立、行人结群行走，后面行人追赶前面行人等等。每个交通环境单个场景中，行人的数量范围为0人到51人。

2、轨迹预测模型参数与训练过程

在神经网络结构和参数上，模型的编码器使用一层全连接层，输入维度为2，输出维度为32。时间注意力卷积网络共有三层，每一层的输入输出维度均为32，因果卷积核大小为3，为了使时间注意力卷积网络TACN输入输出的数据维度保持相同，每次卷积前，我们使用的数据左填充维度为2。在时间卷积模块，键矩阵和查询矩阵的维度为16，值矩阵的维度为32；添加到时空特征中的随机噪声维度为4；解码器的输出层为一层全连接层，输出维度为2。

通过测试，我们发现所提出模型在50次代(epoch)时收敛到最佳，预测精度最高。学习率取0.0001时，损失函数值下降最大且比较稳定。本发明使用的批大小(Batch size)为1。输入的观测轨迹时间长度为3.2秒(8帧)，输出的预测轨迹时间长度为4.8秒(12帧)。随机丢弃参数机制的概率设置为0.2。在模型验证测试阶段，我们使用的批次大小为1，取消随机丢弃参数。与之前的轨迹预测模型算法相同[7，10，20，25，50，53]，本发明采用留一法训练和测试所提出模型，即使用四个子数据集进行模型的训练和验证，使用剩余的子数据集进行模型的测试。算法模型使用PyTorch[54]深度学习框架实现。实验平台为搭载InterCore i7-10700K CPU和Nvidia RTX 3090 GPU的服务器。

3、衡量标准

使用两种衡量标准来评估所提出模型的精度，分别是平均位移误差，最终位移误差，两种衡量标准越低，代表预测模型的效果越好。

平均位移误差(Average displacement error，ADE)：通过对模型输出的N个目标预测轨迹的数据与真实数据进行均方误差(Mean square error，MSE)的计算得到，具体如下式：

其中，

为模型输出的预测轨迹数据，

为真实轨迹数据，T_pred为预测时长。

最终位移误差(Final displacement error，FDE)：通过对模型输出的最后一个时刻的预测轨迹数据与真实数据进行均方误差得到，具体如下式：

4、对比实验

我们将所提出方法分别与五种轨迹预测的基线模型、五种主流模型相比较。基线模型有：

(1)LSTM模型，该模型通过单个LSTM网络对每个行人的轨迹独立编码并输出预测值。

(2)Social-LSTM模型首先使用原始LSTM对所有行人轨迹进行编码，然后在所有行人轨迹编码的基础上使用社会交互池化层对行人交互进行建模。

(3)CNN轨迹预测模型[]最早将卷积神经网络模型用于轨迹预测，该模型具备一定的时间特征提取能力且能并行输出行人轨迹，相较于基于LSTM的模型而言，提升预测速度。

(4)Social-GAN模型在Social-LSTM的基础上加入生成对抗网络，其中生成器生成多条预测轨迹，鉴别器对这些预测轨迹进行真假判别，通过这种对抗训练来提升轨迹的预测精度。

(5)CIDNN模型聚合行人动作特征，位置特征和人均交互特征，位移预测模块处理上述特征输出预测轨迹。

此外，我们选取五种主流行人轨迹预测模型进行预测精度对比，分别为：

(1)SR-LSTM模型提取人群中每一时刻意图，通过消息传递机制联合迭代更新和细化所有行人的当前状态。

(2)Sophie模型在GAN模型的基础上引入社会注意力和物理注意力机制，使用LSTM进行预测。

(3)Trajectron模型用LSTM提取时空信息，并使用条件变分自动编码器[58]生成未来轨迹。

(4)Social-STGCNN模型在图卷积网络提取时空特征后，使用时间外推卷积神经网络直接对时空特征进行操作生成轨迹。

(5)STAGT模型使用LSTM提取时间交互信息，使用原始的图注意力网络提取空间交互信息，将时空交互信息聚合解码输出预测轨迹。

本发明将所提出模型与基线模型、主流模型对比，对比显示所提出轨迹预测算法具有良好的实验结果。在基线模型中，性能最好的是Social-GAN模型，该模型实现了较低的平均预测误差。与Social-GAN相比，本发明所提出模型在五个数据集的平均位移误差降低了36％，在最终位移误差上降低了42％。在主流模型中，性能较好的是STGAT，与该模型相比，本发明所提出模型在五个数据集的平均位移误差上降低了14％，在最终位移误差上降低了17％。和这些结果表明，本发明所提出模型能够更加精确地预测行人未来轨迹。值得注意的是，相比于Social-GAN，STGAT等生成20条轨迹选取最精确轨迹，TP-TACN对于每个行人仅生成4条轨迹便得到了更优的预测精度，这进一步说明了所提出模型的有效性。本发明还测试了每个行人生成20条轨迹，选取最精确轨迹情况下的该模型轨迹预测精度。对比生成4条轨迹条件下的TP-TACN结果，在预测误差最高的ETH数据集上，生成20条轨迹的TP-TACN较之前在平均位移误差和最终位移误差上分别降低了31％和41％，精度提升十分明显。在Hotel数据集上平均位移误差和最终位移误差上分别降低了31％和34％。在预测难度较高的Univ数据及上，生成20条轨迹的TP-TACN较生成4条轨迹的TP-TACN在平均位移误差和最终位移误差上分别降低了42％和48％。五个数据集的平均位移误差和最终位移误差分别降低了14％和17％。

5消融实验

为验证时间卷积网络中时间注意力模块，增强残差模块和第一因果卷积模块的有效性，本发明进行了消融实验，分别从轨迹预测模型中去除时间注意力模块，去除增强残差模块，去第一除因果卷积模块后，再通过实验进行轨迹预测的精度对比，其中No-TM(Notemporal attention)代表该模型去除了时间注意力模块；No-ER(No enhanced residual)代表模型没有增强残差模块；No-CC(No casual convolution)代表模型没有第一因果卷积模块，实验结果

通过对时间卷积网络模块的消融实验可见，时间注意力模块，增强残差模块和第一因果卷积模块对于轨迹预测的误差降低均具有贡献。在生成4条轨迹的情况下，相比于完整时间卷积网络轨迹预测模型，在没有时间注意力模块的情况下，No-TM模型在五个子数据集的预测结果平均ADE上升了8％，平均FDE上升了8.7％；在没有增强残差模块的情况下，No-ER在五个子数据集的预测结果平均ADE上升了5.4％，平均FDE上升了10.1％；在没有第一因果卷积模块的情况下，No-CC在五个子数据集的预测结果平均ADE上升了5.4％，平均FDE上升了14.5％；在生成20条轨迹的情况下No-TM，No-ER，No-CC在五个子数据集的预测结果平均ADE分别上升了21％、8％、16.7％，平均FDE分别上升了36％、26.2％、38.1％。通过分析预测精度的下降程度，可见时间注意力模块对所提出模型最为重要，增强残差与第一因果卷积模块重要程度相当。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于时间注意力卷积网络的轨迹预测方法，其特征在于，包括：

获取至少一个目标在上一时间段的轨迹数据；

将所述轨迹数据输入轨迹预测模型，所述轨迹预测模型输出目标在下一时间段的预测轨迹；

其中，所述轨迹预测模型通过时间注意力模块和第一因果卷积模块提取轨迹数据不同尺度的时间特征，并基于提取的不同尺度的时间特征获取目标在下一时间段的预测轨迹。

2.如权利要求1所述的基于时间注意力卷积网络的轨迹预测方法，其特征在于，在将目标的轨迹数据输入所述轨迹预测模型之前，还包括对所述轨迹数据进行如下处理：

基于所述轨迹数据求取相对位置轨迹数据，将所述相对位置轨迹数据输入所述轨迹预测模型。

3.如权利要求1或2所述的基于时间注意力卷积网络的轨迹预测方法，其特征在于，所述轨迹预测模型包括依次连接的编码器、一层或一层以上级联的时间注意力卷积网络、译码器；

所述编码器用于将所述轨迹预测模型的输入数据映射为轨迹序列向量；

所述时间注意力卷积网络包括第一支路、第二支路和聚合模块，所述第一支路和第二支路均连接在所述时间注意力卷积网络的输入端和所述时间注意力卷积网络的聚合模块的输入端之间，所述第一支路上设置有时间注意力模块，所述第二支路上设置有第一因果卷积模块；

所述译码器将最后一层时间注意力卷积网络的聚合模块输出的时间特征映射为所述目标在下一时间段的预测轨迹。

4.如权利要求3所述的基于时间注意力卷积网络的轨迹预测方法，其特征在于，所述时间注意力模块使用掩码屏蔽未来时刻的时间特征对当前时刻的时间特征的影响。

5.如权利要求4所述的基于时间注意力卷积网络的轨迹预测方法，其特征在于，所述时间注意力模块的处理过程包括：

将输入所述时间注意力模块的特征序列分别通过键线性变换矩阵、查询线性变化矩阵、值线性变化矩阵映射为键矩阵、查询矩阵、值矩阵；

通过键矩阵与查询矩阵点乘获得第一矩阵，保留所述第一矩阵中下三角元素的数值，将所述第一矩阵中非下三角的元素赋值为0，获得第二矩阵；通过第一激活函数对第二矩阵进行正则化处理获得注意力权重矩阵；

获取所述注意力权重矩阵中所有元素的数值累加值，将数值累加值与所述值矩阵相乘并将相乘结果作为所述时间注意力模块输出的注意力输出特征。

6.如权利要求5所述的基于时间注意力卷积网络的轨迹预测方法，其特征在于，所述时间注意力卷积网络还包括第一残差支路，所述第一残差支路连接在所述时间注意力卷积网络的输入端和所述时间注意力卷积网络的聚合模块的输入端之间，所述第一残差支路上设置有增强残差模块；

所述增强残差模块将所述注意力权重矩阵进行行求和获得权重向量，并求取所述权重向量与输入所述时间注意力卷积网络的特征序列的哈达玛积。

7.如权利要求4、5或6所述的基于时间注意力卷积网络的轨迹预测方法，其特征在于，在所述第一支路上还包括级联于所述时间注意力模块之后的第二因果卷积模块。

8.如权利要求4、5或6所述的基于时间注意力卷积网络的轨迹预测方法，其特征在于，所述时间注意力卷积网络还包括第二残差支路，所述第二残差支路连接在所述时间注意力卷积网络的输入端和所述时间注意力卷积网络的聚合模块的输入端之间，所述第二残差支路将输入所述时间注意力卷积网络的特征序列输出至所述时间注意力卷积网络的聚合模块的输入端。

9.如权利要求4、5或6所述的基于时间注意力卷积网络的轨迹预测方法，其特征在于，所述译码器包括噪声添加模块和输出层，所述噪声添加模块在最后一层时间注意力卷积网络的输出特征序列中添加随机噪声，并将添加随机噪声后的特征序列传输给输出层，通过输出层映射为所述目标在下一时间段的预测轨迹。

10.一种轨迹预测装置，其特征在于，包括获取模块和轨迹预测模块；

所述获取模块用于获取至少一个目标在上一时间段的轨迹数据，将所述轨迹数据输入轨迹预测模块；

所述轨迹预测模块内设置轨迹预测模型，所述轨迹预测模型通过时间注意力模块和第一因果卷积模块提取所述轨迹数据不同尺度的时间特征，并基于提取的不同尺度的时间特征获取目标在下一时间段的预测轨迹。