CN114239974B

CN114239974B - 多智能体的位置预测方法、装置、电子设备及存储介质

Info

Publication number: CN114239974B
Application number: CN202111570457.2A
Authority: CN
Inventors: 王裕宁; 王建强; 姜竣凯; 黄荷叶; 王嘉昊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-10-25
Anticipated expiration: 2041-12-21
Also published as: CN114239974A

Abstract

本申请涉及智能体位置预测技术领域，特别涉及一种多智能体的位置预测方法、装置、电子设备及存储介质，其中，方法包括：获取智能体的历史数据，其中，历史数据包括至少一帧数据；根据历史数据获取智能体在每帧数据中的历史坐标，并基于历史坐标生成智能体的历史坐标矩阵；根据历史数据获取智能体在每帧数据中的全局态势图，并基于全局态势图和历史坐标提取智能体周围的空间态势值，并利用历史坐标矩阵和空间态势值预测得到智能体在当前时刻之后的至少一个预测位置。由此，解决了相关技术中基于物理模型进行多智能体的位置预测，预测的准确性及通用性较差，无法为智能体的决策提供可靠的依据等问题。

Description

多智能体的位置预测方法、装置、电子设备及存储介质

技术领域

本申请涉及智能体位置预测技术领域，特别涉及一种多智能体的位置预测方法、装置、电子设备及存储介质。

背景技术

智能体是指由人工或者智能算法控制的车辆、移动单元等具有机动能力的单元，在一些复杂的场景中，往往需要预测周围智能体的位置变化，并基于位置预测结果制定有效的决策和行动方案。其中，多智能体的位置预测，是指在智能体的行为发生变化之前，对其状态和环境信息进行预测的过程。

相关技术中通常是利用运动学模型、非时序简单机器学期模型或时序神经网络预测模型等物理模型进行多智能体的位置预测。然而，利用运动学模型预测的方式不符合常速度等假设是，预测性能较差；利用非时序简单机器学期模型预测的方式无法处理强交互场景的预测行为，复杂场景预测性能差；利用时序神经网络预测模型进行预测的方式缺乏对不同场景的通用性，对环境态势数据利用度不足。

因此，相关技术中的预测方式预测的准确性及通用性较差，无法为智能体的决策提供可靠的依据。

发明内容

本申请提供一种多智能体的位置预测方法、装置、电子设备及存储介质，以解决相关技术中基于物理模型进行多智能体的位置预测，预测的准确性及通用性较差，无法为智能体的决策提供可靠的依据等问题。

本申请第一方面实施例提供一种多智能体的位置预测方法，包括以下步骤：获取智能体的历史数据，其中，所述历史数据包括至少一帧数据；根据所述历史数据获取所述智能体在每帧数据中的历史坐标，并基于所述历史坐标生成所述智能体的历史坐标矩阵；根据所述历史数据获取所述智能体在每帧数据中的全局态势图，并基于所述全局态势图和所述历史坐标提取所述智能体周围的空间态势值，并利用所述历史坐标矩阵和所述空间态势值预测得到所述智能体在当前时刻之后的至少一个预测位置。

进一步地，所述基于所述全局态势图和所述历史坐标提取所述智能体周围的空间态势值，包括：根据所述历史坐标标记所述智能体在所述全局态势图中的实际位置；提取所述实际位置周围多个区域的态势值，对每个区域的态势值进行降维处理，以得到所述智能体的态势矩阵；对所述态势矩阵进行池化处理，以得到所述智能体周围的空间态势值。

进一步地，所述对所述态势矩阵进行池化处理，以得到所述智能体周围的空间态势值，包括：计算所述态势矩阵中所有态势值的平均值，将所述平均值作为所述空间态势值。

进一步地，所述利用所述历史坐标矩阵和所述空间态势值预测得到所述智能体在当前时刻之后的至少一个预测位置，包括：将所述历史坐标矩阵和所述空间态势值输入至预设预测模型中，输出所述至少一个预测位置。

进一步地，在将所述历史坐标矩阵和所述空间态势值输入至预设预测模型中之前，还包括：根据长短期记忆网络、残差机制和态势机制构建预测模型；利用训练数据集对所述预测模型进行训练，并在训练结束后得到所述预设预测模型。

本申请第二方面实施例提供一种多智能体的位置预测装置，包括：获取模块，用于获取智能体的历史数据，其中，所述历史数据包括至少一帧数据；生成模块，用于根据所述历史数据获取所述智能体在每帧数据中的历史坐标，并基于所述历史坐标生成所述智能体的历史坐标矩阵；提取模块，用于根据所述历史数据获取所述智能体在每帧数据中的全局态势图，并基于所述全局态势图和所述历史坐标提取所述智能体周围的空间态势值；预测模块，用于利用所述历史坐标矩阵和所述空间态势值预测得到所述智能体在当前时刻之后的至少一个预测位置。

进一步地，所述提取模块用于根据所述历史坐标标记所述智能体在所述全局态势图中的实际位置，提取所述实际位置周围多个区域的态势值，对每个区域的态势值进行降维处理，以得到所述智能体的态势矩阵，对所述态势矩阵进行池化处理，以得到所述智能体周围的空间态势值。

进一步地，所述提取模块进一步用于计算所述态势矩阵中所有态势值的平均值，将所述平均值作为所述空间态势值。

进一步地，所述预测模块用于将所述历史坐标矩阵和所述空间态势值输入至预设预测模型中，输出所述至少一个预测位置。

进一步地，还包括：训练模块，用于在将所述历史坐标矩阵和所述空间态势值输入至预设预测模型中之前，根据长短期记忆网络、残差机制和态势机制构建预测模型，利用训练数据集对所述预测模型进行训练，并在训练结束后得到所述预设预测模型。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的多智能体的位置预测方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例多智能体的位置预测方法。

由此，本申请至少具有如下有益效果：

在预测时充分考虑智能体的位置信息和空间态势对于预测的影响，并基于智能体的位置信息和空间态势对智能的未来位置进行准确预测，有效提高了预测的准确性，且具有通用性，可以为智能体的决策提供可靠的依据。解决了相关技术中基于物理模型进行多智能体的位置预测，预测的准确性及通用性较差，无法为智能体的决策提供可靠的依据等技术问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的多智能体的位置预测方法的流程示意图；

图2为根据本申请一个实施例提供的多智能体的位置预测方法的流程示意图；

图3为根据本申请实施例提供的态势图矩阵示例图；

图4为根据本申请实施例提供的标记智能体所在位置示例图；

图5为根据本申请实施例提供的根据态势的实时决策示意图；

图6为根据本申请实施例提供的态势池化区域；

图7为根据本申请实施例提供的长短期记忆网络的结构示意图；

图8为根据本申请实施例提供的二层堆叠的LSTM网络结构示意图；

图9为根据本申请实施例提供的一般神经网络与带残差连接的神经网络对比示意图；

图10为根据本申请实施例提供的多智能体位置预测效果示例图；

图11为根据本申请实施例提供的多智能体的位置预测装置的示例图；

图12为根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

在城市多车交通、越野环境等复杂场景中，想要做出良好的决策，在一定程度上需要把握和预测周围各个单元位置变化，基于位置预测结果制定有效的决策和行动方案。由于在实际生活中，周围的车辆、移动单元等都是通过人工驾驶或者由高度智能的算法进行控制，因此可以将这些具有机动能力的单元统一称呼为智能体，而一个环境中具有多个智能体的场景便定义为多智能体环境。

多智能体的位置预测是指在实际的智能体行为发生变化之前，对其状态和环境信息进行预测的过程。相关技术中多智能体的预测技术为：

(1)基于传统的运动学模型进行的预测：从智能体运动的物理规律出发，进行智能体的轨迹预测，例如恒定速度模型、恒定加速度模型。这些模型通常假设智能体的速度和角速度之间没有明显的联系，在未来某一段时间内速度或者角速度不变。这些模型的优势在于物理含义强，具有很好的解释性，但在这些假设不成立的情况下，模型的表现比较差，尤其是在复杂多智能体环境中，往往存在着强交互行为，例如在多车路口交互中，很少有车辆以匀速通行，往往驾驶员都需要针对侧向来车、对向来车等调整自己的车速以及在必要时转向避让。

(2)以多层感知机为代表的非时序简单机器学期模型。多层感知机是一种较为常见的对复杂输出进行拟合的方法，将某一时刻的多智能体位置信息输入后，通过多层感知机内部的加权、激活函数、反向传播等算法运算，最终得到下一个时刻的位置输出。该方法在性能上相较于第一类要强，能够在某些简单的场景得到非常好的预测性能，然而其最大的弊端在于无法处理智能体数量较多、交互行为较为频繁的场景，在例如十字路口穿行、捉迷藏等强交互场景，预测性能无法支撑后续的决策辅助。

(3)以循环神经网络为代表的时序神经网络预测模型，LSTM(Long Short-TermMemory，长短期记忆模型)便是一种经典的循环神经网络，其中，基于LSTM网络的驾驶意图识别和车辆轨迹预测模型，可以识别的驾驶意图主要有3种：向左换道、直线行驶、向右换道。模型通过一个Softmax层来输出这3种意图的概率。轨迹预测模块则由一个编码器-解码器结构和混合密度网络组成。模型输出一个概率分布来表示未来的车辆位置。研究结果表明，与传统的轨迹预测领域基于模型的方法相比，基于LSTM网络的轨迹预测方法在长时域预测上具有明显优势，显著提高了预测车辆轨迹的精确度。随着深度学习技术的发展，轨迹预测使用深度网络能取得更好的效果。而循环神经网络(RNN)也因为其内在的时序结构和记忆能力，而具有强大的建模序列数据的能力。由于RNN建模序列数据的普适性，其具有包括轨迹预测方面在内的广泛应用。然而，虽然RNN在预测上已经取得了性能的进步，然而其依旧存在弊端——缺乏对不同场景的通用性，即在一个场景训练获得的模型在其他场景中很难直接应用或者效果极差。本质上，是该类方法对于环境态势的数据利用度不够。

因此，本申请实施例提出了一种能够体现智能体之间交互行为，预测性能强且具有通用性的智能体位置预测方法。下面将参考附图描述本申请实施例的多智能体的位置预测方法、装置、电子设备及存储介质。针对上述背景技术中提到的相关技术中基于物理模型进行多智能体的位置预测，预测的准确性及通用性较差，无法为智能体的决策提供可靠的依据的问题，本申请提供了一种多智能体的位置预测方法，在该方法中，在预测时充分考虑智能体的位置信息和空间态势对于预测的影响，并基于智能体的位置信息和空间态势对智能的未来位置进行准确预测，有效提高了预测的准确性，且具有通用性，可以为智能体的决策提供可靠的依据。解决了相关技术中基于物理模型进行多智能体的位置预测，预测的准确性及通用性较差，无法为智能体的决策提供可靠的依据等技术问题。

具体而言，图1为本申请实施例所提供的一种多智能体的位置预测方法的流程示意图。

如图1所示，该多智能体的位置预测方法包括以下步骤：

在步骤S101中，获取智能体的历史数据，其中，历史数据包括至少一帧数据。

可以理解的是，本申请实施例可以在预测开始时，获取当前时刻，并获取当前时刻之前的N帧历史数据；其中，N可以根据实际预测的需求具体设置，对此不作具体限定；且每一帧数据也可以理解为每一个时刻的数据。

具体而言，如图2所示，步骤S101包括：

(1)预测流程启动，记录当前时刻为t_n。

(2)输入模型参数M与N，选择模型。N为预测需要的历史数据的帧数，如N选择10时代表将过去十帧的历史数据，一帧间隔可以为0.2秒；M为预测的帧数长度，如M选择5则代表预测模型输出的为5帧后(即1秒后)的智能体位置。不同的M与N组合对应不同的预测模型，主要区别在于模型内置参数不同。

在步骤S102中，根据历史数据获取智能体在每帧数据中的历史坐标，并基于历史坐标生成智能体的历史坐标矩阵。

可以理解的是，如图2所示，本申请实施例可以在输入模型参数预测时长M与历史数据帧数N之后，获取前N帧各智能体坐标。

具体而言，假设在当前场景下共有k个智能体，则每个智能体均需要记录其t_n-1至t_n-N帧的坐标。最终可以获得一个智能体历史坐标矩阵P_k×N，其中p_ij表示智能体i在t_n-j时刻的坐标，为一个二维数组，p_ij＝[x_ij,y_ij]，x_ij和y_ij分别为横纵坐标。其中，历史坐标矩阵P_k×N为：

在步骤S103中，根据历史数据获取智能体在每帧数据中的全局态势图，并基于全局态势图和历史坐标提取智能体周围的空间态势值，并利用历史坐标矩阵和空间态势值预测得到智能体在当前时刻之后的至少一个预测位置。

可以理解的是，如图2所示，本申请实施例在获取前N帧各智能体坐标之后，获取前N帧各智能体周围态势，并利用历史坐标矩阵和空间态势值进行预测，获得M帧后的预测结果。

在本实施例中，基于全局态势图和历史坐标提取智能体周围的空间态势值，包括：根据历史坐标标记智能体在全局态势图中的实际位置；提取实际位置周围多个区域的态势值，对每个区域的态势值进行降维处理，以得到智能体的态势矩阵；对态势矩阵进行池化处理，以得到智能体周围的空间态势值。

可以理解的是，本申请实施例可以通过融合态势信息并使用池化方法，可以将智能体周围态势提炼为语义信息，能够有效考虑位置预测中的智能体位置信息和时空状态，有效提高预测的准确率。

具体而言，本申请实施例获取前N帧各智能体周围的态势，可以通过预先在每一帧记录的全局态势能量图，提取每一个智能体在当前历史时刻周围空间态势值，假设现在需要提取智能体i在t_n-j周围的态势值，其中，态势能量可以为行车风险能量等自定义值，比如行车风险场等。具体提取方法如下：

(1)调用t_n-j时刻的全局态势图，态势图的存储方式可以为二维矩阵，行列下标分别代表横纵坐标，如图3所示，二维矩阵中每一个位置均记录一个数值衡量该网格内的态势风险值；

(2)根据步骤S102中得到的历史坐标，标记该智能体在态势图中所处在的位置，如图4所示；

(3)提取周围多个方向，比如四个方向态势值。

需要说明的是，智能体在复杂场景下的位置移动，由移动的目的与原因出发，可以将其分为两类：维持先前运动的趋势、应对环境态势引起的决策突变。维持先前运动的趋势(以下简称物理特性)来源于智能体的物理特性，可以部分理解为惯性，例如若某物体一直保持匀速直线运动，则未来其也很可能继续匀速前行。该类特征完全基于历史信息中的位置信息，且在任意场景中都存在这种效应，是智能体位置预测的通用因素。

环境态势引起的决策突变(以下简称实时决策)，可以理解为基于任务目标的决策变化，例如在捉迷藏场景中，如图5所示，深色代表对方威胁态势最高，白色代表最低，在该场景下逃的一方会向着追方势力范围小的地方进行移动，即右下角；相反，追的一方如果是多追一则会考虑将自己的控制范围尽可能均匀分布而非重叠。由于考虑上述的态势，在实时的操控之下智能体会基于态势进行决策，而这些决策往往意味着改变先前的运动趋势，例如转向、加速、减速等操作。实时决策为时空特征，不仅需要提取同一对象时序上的关联，更要提炼同一时间点不同智能体之间的关联。

上述获得的各个智能体的位置信息可以提供物理特性部分，但是却无法提取空间关联。态势场是一种较好的量化空间信息的方法，通过对单体智能体的威胁度建模，可以得到同一场景下不同点所对应的来源于追捕者的威胁程度。以某仿真平台为例，某一帧所得到的态势地图大小为50×60，即3000维，如果直接将每一个时刻的态势地图输入至训练网络中，则会大大增加网络的参数量与宽度极大地减缓了单轮训练的时间。因此，本申请实施将整个场景地图的态势信息降维成可输入到网络的信息。

为此，本申请实施例提出了一种态势池化方法，可以参考卷积神经网络中的池化层，对智能体周围的态势进行降维处理。如上图6所示，智能体周围的区域态势会对其实施决策产生影响，以智能体周围9×9的范围为例，首先将该区域分为四大块：左上(UL)、右上(UR)、左下(DL)、右下(DR)，随后对单块态势进行分别处理，可以以左上为例，得到的态势信息。

在本实施例中，本申请实施例可以通过多种池化方法进行池化处理，例如：

1)平均池化：将所得的态势矩阵中的所有态势取平均；

2)加权池化：取一个权重矩阵，与态势矩阵对应元素相乘，权重矩阵越靠近智能体数值越大，即认为靠近智能体区域的态势对智能体决策影响更大；

3)小值过滤池化：取态势矩阵中最大的五维数据取平均作为最终的特征值，即智能体在做决策是只考虑该区域的最大威胁，不考虑小威胁。

以采用平均值池化进行池化处理为例，可以对左上、左下、右上、右下四个区域的9×9区域(分别以智能体所在坐标为顶点)的态势值取平均，得到四维向量。在对每一个智能体在对以上四个区域的态势完成降维池化后，得到四个数值，将其拼接在智能体的位置信息后，即完成了对空间态势信息的提取。

在本实施例中，利用历史坐标矩阵和空间态势值预测得到智能体在当前时刻之后的至少一个预测位置，包括：将历史坐标矩阵和空间态势值输入至预设预测模型中，输出至少一个预测位置。

可以理解的是，如图2所示，在得到历史坐标矩阵和空间态势值之后，可以输入至预设预测模型中，获得M帧后的预测结果。

在本实施例中，在将历史坐标矩阵和空间态势值输入至预设预测模型中之前，还包括：根据长短期记忆网络、残差机制和态势机制构建预测模型；利用训练数据集对预测模型进行训练，并在训练结束后得到预设预测模型。

可以理解的是，在预测模型中，基于残差结构以及空间态势信息提取，获得未来的智能体位置预测，能够取得更好的预测精度，能够为后续智能体决策提供可靠的依据。

具体而言，预测模型基于一种时序神经网络即LSTM改进得到的模型，其中，LSTM属于循环神经网络的一种，可以用于处理和预测时间序列，结构如图7所示。LSTM可以改善RNN网络的记忆能力，并且减轻梯度爆炸和消失问题，且LSTM模型往往可以不止有一层，也可以是逐层堆叠架构，如图8所示，由2个LSTM网络堆叠而成的网络架构。

在基础的LSTM之上，本申请实施例加入了两种其他的元素，残差机制以及态势机制。残差-长短期记忆模型(Residual LSTM)利用了残差连接的思想，模型拟合的不是实际的智能体的坐标，而是智能体在该时刻相对于N帧前时刻位置的增量。残差的思想如图9所示，假设希望学出的理想映射是f(x)，f(x)代表要预测帧的位置，x代表输入的前N帧特征。图9左侧的架构是一般的神经网络架构，能够直接拟合f(x)，而右图的虚线框拟合的部分实际上是f(x)–x，也就是输出和输入的差值。残差映射在实际中往往更容易优化，例如：如果模型想学出一个恒等映射f(x)＝x，那么，由于残差连接的影响，模型只需要把虚线框内的部分的权重和偏置参数都学为0即可，而这个目标可以比较容易地通过把模型的权重和偏置参数都用零初始化的方式达到。

除了残差机制，本申请实施例所采用的模型同样考虑了调试机制。LSTM的模型参数获得需要通过大规模训练样本通过反向传播算法多轮训练得到，在传统的LSTM训练中往往智能提取智能体坐标，而本申请实施例除了在训练时提取智能体坐标，还可以提取空间态势值，在训练时也考虑了空间态势对于智能体决策的影响，使得最终的模型参数更加贴合实际情况，提高预测精度。

轨迹预测模型实现使用的框架是Tensorflow，Tensorflow是一个应用于机器学习和深度学习任务的开源软件库。在训练数据集的构造中，需要将数据集分割成为训练集、验证集和测试集。训练集用于模型训练，模型通过拟合训练集样本来调节参数，得到预测效果好的模型；验证集用于观测模型在训练的过程中的效果，并且防止过拟合。每训练完一个轮次，都会在验证集上评估当前模型效果，并且监测模型是否出现过拟合现象，在代码实现中采取了早停策略，即模型在验证集上误差不再下降时，说明模型已经收敛，停止训练。

在代码实现过程，控制模型训练早停的参数是patience，取值可以设置为4，表示当模型连续训练的4个轮次验证集上损失没有下降的时候，就停止模型训练，防止过拟合。验证集的另一个作用是，在对模型的超参数进行调整时，可以在验证集上评估不同超参数取值下的模型效果，方便进行模型选择。测试集可以用于对最终模型效果的无偏评估。在代码实现过程，训练集、验证集和测试集所占样本比例分别可以为60％、20％、20％。

模型的损失函数设置为MSE(Mean Squared Error，均方误差)，其公式如下所示：

其中，y_i表示的是(归一化后的)智能体实际位置，

表示(归一化后的)模型预测的智能体位置。n是向量维度，在5个智能体的场景中，每个智能体的坐标是2维的，因此n＝10。模型的评价指标采用在所有时刻上的MAE(Mean Absolute Error，平均绝对误差)，公式如下所示：

MAE的实际意义是，预测位置和真实位置之间的平均横坐标差异或纵坐标差异的绝对值，MAE越小，说明模型效果越好。这个指标可以从直观上反映模型预测位置的准确度。由于坐标数据是归一化到了0～1之间的，因此MAE换算成米需要相应地乘以一个比例尺。例如MAE取0.01时，表示实际位置和预测位置的平均横坐标或纵坐标偏差是0.01×30＝0.3米。由于MAE的计算中含有绝对值运算，绝对值函数f(x)＝|x|在零点处是不可导的，不能计算并回传梯度，因此可以使用MSE作为模型的损失函数。损失函数的优化可以采用Adam优化算法，Adam是一种一阶优化算法，可以替代传统随机梯度下降算法，该算法可以为每个参数设计独立的自适应性学习率，从而自适应地更新神经网络中的每个权重。经验性结果证明，Adam算法在实践中性能优异。

在一些实施例中，如图2所示，判断预测是否结束，如果未结束则将当前时刻向后推移一帧，返回开始循环；若已经结束，则清空预测模型内存，结束整体流程。

在实际应用时，预测效果如图10所示，其中线条表示输入的历史轨迹，梅花点表示预测位置，五角星点表示实际位置，从预测效果图可知，预测效果良好。

为了验证性能，本申请实施例在同一数据集上进行验证，均采取过去十帧作为历史输入，测试在不同预测时长上的智能体预测性能。对比组选择的是几种经典的智能体位置方法，分别为：固定位置法(将上一帧的位置直接作为预测结果输出)、常速度法(CV)以及常加速度法(CA)。如表1所示，本申请实施例的方法(pooling LSTM)在大部分预测时域上均能达到最优。

表1

综上，本申请实施例通过对智能体决策行为的本质分析，从维持运动趋势以及应对环境态势引起的决策突变两个角度入手，分别提取其对于未来时刻智能体运动的影响因素。在预测模型中，基于残差结构以及空间态势信息提取，获得未来的智能体位置预测。通过实验验证，相较于其他智能体位置预测方法，本申请实施例可以取得更好的预测精度，能够为后续智能体的决策提供可靠的依据。

根据本申请实施例提出的多智能体的位置预测方法，在预测时充分考虑智能体的位置信息和空间态势对于预测的影响，并基于智能体的位置信息和空间态势对智能的未来位置进行准确预测，有效提高了预测的准确性，且具有通用性，可以为智能体的决策提供可靠的依据。

其次参照附图描述根据本申请实施例提出的多智能体的位置预测装置。

图11是本申请实施例的多智能体的位置预测装置的方框示意图。

如图11所示，该多智能体的位置预测装置10包括：获取模块100、生成模块200、提取模块300和预测模块400。

其中，获取模块100用于获取智能体的历史数据，其中，历史数据包括至少一帧数据；生成模块200用于根据历史数据获取智能体在每帧数据中的历史坐标，并基于历史坐标生成智能体的历史坐标矩阵；提取模块300用于根据历史数据获取智能体在每帧数据中的全局态势图，并基于全局态势图和历史坐标提取智能体周围的空间态势值；预测模块400用于利用历史坐标矩阵和空间态势值预测得到智能体在当前时刻之后的至少一个预测位置。

进一步地，提取模块300用于根据历史坐标标记智能体在全局态势图中的实际位置，提取实际位置周围多个区域的态势值，对每个区域的态势值进行降维处理，以得到智能体的态势矩阵，对态势矩阵进行池化处理，以得到智能体周围的空间态势值。

进一步地，提取模块300进一步用于计算态势矩阵中所有态势值的平均值，将平均值作为空间态势值。

进一步地，预测模块400用于将历史坐标矩阵和空间态势值输入至预设预测模型中，输出至少一个预测位置。

进一步地，本申请实施例的装置10还包括：训练模块。其中，训练模块用于在将历史坐标矩阵和空间态势值输入至预设预测模型中之前，根据长短期记忆网络、残差机制和态势机制构建预测模型，利用训练数据集对预测模型进行训练，并在训练结束后得到预设预测模型。

需要说明的是，前述对多智能体的位置预测方法实施例的解释说明也适用于该实施例的多智能体的位置预测装置，此处不再赘述。

根据本申请实施例提出的多智能体的位置预测装置，在预测时充分考虑智能体的位置信息和空间态势对于预测的影响，并基于智能体的位置信息和空间态势对智能的未来位置进行准确预测，有效提高了预测的准确性，且具有通用性，可以为智能体的决策提供可靠的依据。

图12为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器1201、处理器1202及存储在存储器1201上并可在处理器1202上运行的计算机程序。

处理器1202执行程序时实现上述实施例中提供的多智能体的位置预测方法。

进一步地，电子设备还包括：

通信接口1203，用于存储器1201和处理器1202之间的通信。

存储器1201，用于存放可在处理器1202上运行的计算机程序。

存储器1201可能包含高速RAM(Random Access Memory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器1201、处理器1202和通信接口1203独立实现，则通信接口1203、存储器1201和处理器1202可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1201、处理器1202及通信接口1203，集成在一块芯片上实现，则存储器1201、处理器1202及通信接口1203可以通过内部接口完成相互间的通信。

处理器1202可能是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的多智能体的位置预测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

Claims

1.一种多智能体的位置预测方法，其特征在于，包括以下步骤：

获取智能体的历史数据，其中，所述历史数据包括至少一帧数据；

根据所述历史数据获取所述智能体在每帧数据中的历史坐标，并基于所述历史坐标生成所述智能体的历史坐标矩阵；

根据所述历史数据获取所述智能体在每帧数据中的全局态势图，并基于所述全局态势图和所述历史坐标提取所述智能体周围的空间态势值，并利用所述历史坐标矩阵和所述空间态势值预测得到所述智能体在当前时刻之后的至少一个预测位置；

所述基于所述全局态势图和所述历史坐标提取所述智能体周围的空间态势值，包括：

根据所述历史坐标标记所述智能体在所述全局态势图中的实际位置；

提取所述实际位置周围多个区域的态势值，对每个区域的态势值进行降维处理，以得到所述智能体的态势矩阵；

对所述态势矩阵进行池化处理，以得到所述智能体周围的空间态势值；所述对所述态势矩阵进行池化处理，以得到所述智能体周围的空间态势值，包括：计算所述态势矩阵中所有态势值的平均值，将所述平均值作为所述空间态势值。

2.根据权利要求1所述的方法，其特征在于，所述利用所述历史坐标矩阵和所述空间态势值预测得到所述智能体在当前时刻之后的至少一个预测位置，包括：

将所述历史坐标矩阵和所述空间态势值输入至预设预测模型中，输出所述至少一个预测位置。

3.根据权利要求2所述的方法，其特征在于，在将所述历史坐标矩阵和所述空间态势值输入至预设预测模型中之前，还包括：

根据长短期记忆网络、残差机制和态势机制构建预测模型；

利用训练数据集对所述预测模型进行训练，并在训练结束后得到所述预设预测模型。

4.一种多智能体的位置预测装置，其特征在于，包括：

获取模块，用于获取智能体的历史数据，其中，所述历史数据包括至少一帧数据；

生成模块，用于根据所述历史数据获取所述智能体在每帧数据中的历史坐标，并基于所述历史坐标生成所述智能体的历史坐标矩阵；

提取模块，用于根据所述历史数据获取所述智能体在每帧数据中的全局态势图，并基于所述全局态势图和所述历史坐标提取所述智能体周围的空间态势值；所述提取模块用于根据所述历史坐标标记所述智能体在所述全局态势图中的实际位置，提取所述实际位置周围多个区域的态势值，对每个区域的态势值进行降维处理，以得到所述智能体的态势矩阵，对所述态势矩阵进行池化处理，以得到所述智能体周围的空间态势值；所述提取模块进一步用于计算所述态势矩阵中所有态势值的平均值，将所述平均值作为所述空间态势值；

预测模块，用于利用所述历史坐标矩阵和所述空间态势值预测得到所述智能体在当前时刻之后的至少一个预测位置。

5.根据权利要求4所述的装置，其特征在于，所述预测模块用于将所述历史坐标矩阵和所述空间态势值输入至预设预测模型中，输出所述至少一个预测位置。

6.根据权利要求5所述的装置，其特征在于，还包括：

训练模块，用于在将所述历史坐标矩阵和所述空间态势值输入至预设预测模型中之前，根据长短期记忆网络、残差机制和态势机制构建预测模型，利用训练数据集对所述预测模型进行训练，并在训练结束后得到所述预设预测模型。

7.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-3任一项所述的多智能体的位置预测方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-3任一项所述的多智能体的位置预测方法。