CN117808113A

CN117808113A - 轨迹规划模型的训练方法、装置、终端设备及存储介质

Info

Publication number: CN117808113A
Application number: CN202211163417.0A
Authority: CN
Inventors: 艾锐; 杨宸; 胡小龙; 唐科; 顾维灏
Original assignee: Haomo Zhixing Technology Co Ltd
Current assignee: Haomo Zhixing Technology Co Ltd
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2024-04-02

Abstract

本申请适用于自动驾驶技术领域，提供了一种轨迹规划模型的训练方法、装置及终端设备，该方法包括：在真实驾驶数据集中的每个真实驾驶数据中添加扰动信息，生成扰动数据集；将每个扰动数据依次输入初始轨迹规划模型，生成每个扰动数据对应的第一预测驾驶轨迹，及每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率；根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续训练，以生成训练完成的轨迹规划模型。由此，通过利用结合了真实驾驶数据与虚拟驾驶数据的扰动数据集进行模型训练，使得生成的模型能够准确地对未出现过的决策场景进行轨迹规划，提升了模型的泛化性和可靠性。

Description

轨迹规划模型的训练方法、装置、终端设备及存储介质

技术领域

本申请属于自动驾驶技术领域，尤其涉及一种轨迹规划模型的训练方法、装置、终端设备及计算机可读存储介质。

背景技术

随着人工智能技术的发展，自动驾驶技术的应用也越来越广泛。而自动驾驶车辆在行驶过程中的轨迹规划是自动驾驶算法的核心内容。现有的自动驾驶算法包括基于规则的自动驾驶算法、基于学习的自动驾驶算法等。

相关技术中，基于强化学习、模仿学习的轨迹规划模型，通常可以从训练数据集中学习到如何对已经出现的交通场景进行路径规划，而没有包含在训练数据集中的交通场景或者复杂的交通场景，模型通常无法做出准确的轨迹规划决策，从而导致轨迹规划的泛化性和可靠性较差。

发明内容

本申请实施例提供了一种轨迹规划模型的训练方法、装置、终端设备及存储介质，可以解决基于强化学习、模仿学习的轨迹规划模型，对没有包含在训练数据集中的交通场景或者复杂的交通场景，通常无法做出准确的轨迹规划决策，从而导致轨迹规划的泛化性和可靠性较差的问题。

第一方面，本申请实施例提供了一种轨迹规划模型的训练方法，包括：获取真实驾驶数据集，其中，真实驾驶数据集中包括多个真实驾驶数据；在每个真实驾驶数据中添加扰动信息，以生成扰动数据集，其中，扰动数据集中包括每个真实驾驶数据对应的扰动数据；将扰动数据集中的每个扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个扰动数据对应的第一预测驾驶轨迹；将每个第一预测驾驶轨迹输入初始轨迹规划模型的初始判别器，以生成每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率；根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

在第一方面的一种可能的实现方式中，上述真实驾驶数据集中还包括每个真实驾驶数据对应的真实驾驶轨迹；相应的，上述根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型之前，还包括：

将每个真实驾驶数据依次输入初始生成器，以生成每个真实驾驶数据对应的第二预测驾驶轨迹；

将每个真实驾驶轨迹及每个第二预测驾驶轨迹依次输入初始判别器，以生成每个真实驾驶轨迹为真实驾驶轨迹的第二概率，及每个第二预测驾驶轨迹为真实驾驶轨迹的第三概率；

相应的，上述根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型，包括：

根据每个真实驾驶数据对应的真实驾驶轨迹与第二预测驾驶轨迹之间的差异、每个第一概率、每个第二概率及每个第三概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

可选的，在第一方面的另一种可能的实现方式中，上述根据每个真实驾驶数据对应的真实驾驶轨迹与第二预测驾驶轨迹之间的差异、每个第一概率、每个第二概率及每个第三概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型，包括：

根据每个真实驾驶数据对应的真实驾驶轨迹与第二预测驾驶轨迹之间的差异，确定第一损失值；

根据每个第一概率及每个第三概率，确定第二损失值；

根据每个第一概率、每个第二概率及每个第三概率，确定第三损失值；

根据第一损失值及第二损失值，对初始生成器的网络参数进行修正，并采用修正后的生成器继续进行训练，直至修正后的生成器对应的第一损失值与第二损失值处于预设范围，则将修正后的生成器确定为训练完成的轨迹规划模型的生成器；

根据第三损失值，对初始判别器进行修正，并采用修正后的判别器继续进行训练，直至修正后的判别器对应的第三损失值处于预设范围，则将修正后的判别器确定为训练完成的轨迹规划模型的判别器。

可选的，在第一方面的再一种可能的实现方式中，上述获取真实驾驶数据集，包括：

获取采集车的原始驾驶数据，其中，原始驾驶数据中包括在采集车行驶过程中采集车中的图像采集设备采集的图像数据、及采集车中的传感器采集的感知数据；

根据原始驾驶数据中包括的决策场景，从原始驾驶数据中截取每个决策场景对应的多组驾驶数据；

根据每组驾驶数据包含的图像数据及感知数据，确定每组驾驶数据中的每个数据采集时刻对应的鸟瞰图；

根据每组驾驶数据对应的各个鸟瞰图，确定真实驾驶数据集，其中，每个鸟瞰图为真实驾驶数据集中的一个真实驾驶数据。

可选的，在第一方面的又一种可能的实现方式中，上述真实驾驶数据集中还包括每个真实驾驶数据对应的真实驾驶轨迹；相应的，根据每组驾驶数据对应的各个鸟瞰图，确定真实驾驶数据集，包括：

确定与第i个鸟瞰图对应的数据采集时刻相邻的多个第二数据采集时刻，其中，i为大于等于1且小于等N的正整数，N为鸟瞰图的数量，N为正整数；

根据多个第二数据采集时刻采集的图像数据及感知数据，确定第i个鸟瞰图对应的真实驾驶轨迹；

根据每个鸟瞰图及每个鸟瞰图对应的真实驾驶轨迹，确定真实驾驶数据集。

可选的，在第一方面的又一种可能的实现方式中，上述在每个真实驾驶数据中添加扰动信息，以生成扰动数据集，包括：

在真实驾驶数据集中的每个鸟瞰图中添加障碍物，以生成扰动数据集；

和/或，

获取采集车在每个鸟瞰图中的航向角；

对采集车在每个鸟瞰图中的航向角添加随机偏移量，以生成扰动数据集。

可选的，在第一方面的另一种可能的实现方式中，上述根据每组所述驾驶数据对应的各个鸟瞰图，确定真实驾驶数据集，包括：

根据每组驾驶数据对应的决策场景，确定每个鸟瞰图对应的决策场景；

根据每个鸟瞰图对应的决策场景，确定与每个决策场景相关的真实驾驶数据集。

可选的，在第一方面的再一种可能的实现方式中，上述在每个真实驾驶数据中添加扰动信息，以生成扰动数据集，包括：

在与每个决策场景相关的真实驾驶数据集中的每个真实驾驶数据中添加扰动信息，以生成与每个决策场景相关的扰动数据集。

可选的，在第一方面的又一种可能的实现方式中，上述初始轨迹规划模型包括M个决策场景对应的M个初始轨迹规划子模型，M为正整数；相应的，上述将扰动数据集中的每个扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个扰动数据对应的第一预测驾驶轨迹，包括：

将与第j个决策场景相关的扰动数据集中的每个扰动数据依次输入第j个初始轨迹规划子模型的初始生成器，以生成与第j个决策场景相关的每个扰动数据对应的第一预测驾驶轨迹，其中，j为大于等于1且小于等于M的正整数；

相应的，上述将每个第一预测驾驶轨迹输入初始轨迹规划模型的初始判别器，以生成每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，包括：

将与第j个决策场景相关的每个扰动数据对应的第一预测驾驶轨迹，输入第j个初始轨迹规划子模型的初始判别器，以生成与第j个决策场景相关的每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率。

第二方面，本申请实施例提供了一种轨迹规划模型的训练装置，包括：获取模块，用于获取真实驾驶数据集，其中，真实驾驶数据集中包括多个真实驾驶数据；第一生成模块，用于在每个真实驾驶数据中添加扰动信息，以生成扰动数据集，其中，扰动数据集中包括每个真实驾驶数据对应的扰动数据；第二生成模块，用于将扰动数据集中的每个扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个扰动数据对应的第一预测驾驶轨迹；第三生成模块，用于将每个第一预测驾驶轨迹输入初始轨迹规划模型的初始判别器，以生成每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率；修正模块，用于根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

在第二方面的一种可能的实现方式中，上述真实驾驶数据集中还包括每个真实驾驶数据对应的真实驾驶轨迹；相应的，上述轨迹规划模型的训练装置，还包括：

第四生成模块，用于将每个真实驾驶数据依次输入初始生成器，以生成每个真实驾驶数据对应的第二预测驾驶轨迹；

第五生成模块，用于将每个真实驾驶轨迹及每个第二预测驾驶轨迹依次输入初始判别器，以生成每个真实驾驶轨迹为真实驾驶轨迹的第二概率，及每个第二预测驾驶轨迹为真实驾驶轨迹的第三概率；

相应的，上述修正模块，包括：

修正单元，用于根据每个真实驾驶数据对应的真实驾驶轨迹与第二预测驾驶轨迹之间的差异、每个第一概率、每个第二概率及每个第三概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

可选的，在第二方面的另一种可能的实现方式中，上述修正单元，具体用于：

根据每个第一概率及每个第三概率，确定第二损失值；

可选的，在第二方面的再一种可能的实现方式中，上述获取模块，包括：

第一获取单元，用于获取采集车的原始驾驶数据，其中，原始驾驶数据中包括在采集车行驶过程中采集车中的图像采集设备采集的图像数据、及采集车中的传感器采集的感知数据；

截取单元，用于根据原始驾驶数据中包括的决策场景，从原始驾驶数据中截取每个决策场景对应的多组驾驶数据；

第一确定单元，用于根据每组驾驶数据包含的图像数据及感知数据，确定每组驾驶数据中的每个数据采集时刻对应的鸟瞰图；

第二确定单元，用于根据每组驾驶数据对应的各个鸟瞰图，确定真实驾驶数据集，其中，每个鸟瞰图为真实驾驶数据集中的一个真实驾驶数据。

可选的，在第二方面的又一种可能的实现方式中，上述真实驾驶数据集中还包括每个真实驾驶数据对应的真实驾驶轨迹；相应的，上述第二确定单元，具体用于：

可选的，在第二方面的又一种可能的实现方式中，上述第一生成模块，包括：

第一生成单元，用于在真实驾驶数据集中的每个鸟瞰图中添加障碍物，以生成扰动数据集；

和/或，

第二获取单元，用于获取采集车在每个鸟瞰图中的航向角；

第二生成单元，用于对采集车在每个鸟瞰图中的航向角添加随机偏移量，以生成扰动数据集。

可选的，在第二方面的另一种可能的实现方式中，上述第二确定单元，还用于：

可选的，在第二方面的再一种可能的实现方式中，上述第一生成模块，包括：

第三生成单元，用于在与每个决策场景相关的真实驾驶数据集中的每个真实驾驶数据中添加扰动信息，以生成与每个决策场景相关的扰动数据集。

可选的，在第二方面的又一种可能的实现方式中，上述初始轨迹规划模型包括M个决策场景对应的M个初始轨迹规划子模型，M为正整数；相应的，上述第二生成模块，包括：

第四生成单元，用于将与第j个决策场景相关的扰动数据集中的每个扰动数据依次输入第j个初始轨迹规划子模型的初始生成器，以生成与第j个决策场景相关的每个扰动数据对应的第一预测驾驶轨迹，其中，j为大于等于1且小于等于M的正整数；

相应的，上述第三生成模块，包括：

第五生成单元，用于将与第j个决策场景相关的每个扰动数据对应的第一预测驾驶轨迹，输入第j个初始轨迹规划子模型的初始判别器，以生成与第j个决策场景相关的每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率。

第三方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如前所述的轨迹规划模型的训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前所述的轨迹规划模型的训练方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行如前所述的轨迹规划模型的训练方法。

本申请实施例与现有技术相比存在的有益效果是：通过在真实驾驶数据集中添加扰动信息以生成扰动数据集，并利用结合了真实驾驶数据与虚拟驾驶数据的扰动数据集进行模型训练，使得生成的模型能够准确地对未出现过的复杂决策场景进行轨迹规划，从而提升了模型的泛化性和可靠性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的轨迹规划模型的训练方法的流程示意图；

图2是本申请另一实施例提供的轨迹规划模型的训练方法的流程示意图；

图3是本申请实施例提供的轨迹规划模型的训练装置的结构示意图；

图4是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

下面参考附图对本申请提供的轨迹规划模型的训练方法、装置、终端设备、存储介质及计算机程序进行详细描述。

图1示出了本申请实施例提供的一种轨迹规划模型的训练方法的流程示意图。

步骤101，获取真实驾驶数据集，其中，真实驾驶数据集中包括多个真实驾驶数据。

需要说明的是，本申请实施例的轨迹规划模型的训练方法可以由本申请实施例的轨迹规划模型的训练装置执行。本申请实施例的轨迹规划模型的训练装置可以配置在任意终端设备中，以执行本申请实施例的轨迹规划模型的训练方法。

其中，真实驾驶数据集，可以是指由人驾驶采集车采集的驾驶数据构成的数据集。真实驾驶数据，可以是指由人驾驶采集车在真实路况行驶的过程中，由采集车中的各种数据采集设备采集的数据，如由采集车中的图像采集设备采集的图像数据、视频数据等，由采集车中的各类传感器获取的感知数据等。

需要说明的是，实际使用时，真实驾驶数据集中的真实驾驶数据可以是由人员驾驶专门的采集车采集的，也可以是由大量自动驾驶车辆在长期的实际的运行过程中实时获取的，本申请实施例对此不做限定。

在本申请实施例中，可以获取采集车在真实路况中驾驶的大量原始驾驶数据，并对原始驾驶数据进行分析，确定出原始驾驶数据中包括的各个感兴趣的决策场景(如换道场景、避障场景、环岛场景、匝道驶出场景，等等)，并根据每个决策场景在原始驾驶数据中所处的时间段，以及每个决策场景的执行结果，从原始驾驶数据中截取出每个决策场景对应的驾驶数据，作为真实驾驶数据以构成真实驾驶数据集。

作为一种可能的实现方式，可以在决策场景的执行结果为执行失败时，将该决策场景对应的驾驶数据去除；并可以在决策场景的执行结果为执行成功时，将该决策场景对应的驾驶数据从原始驾驶数据中截取出来，构成真实驾驶数据集，从而使得真实驾驶数据集中仅包含决策成功的驾驶数据，提升了轨迹规划模型的训练效率。

举例来说，假设一段原始驾驶数据的时长为1小时，该原始驾驶数据中包括在这1小时内采集车的图像采集设备采集的图像数据与传感器采集的感知数据。假设在该原始驾驶数据的第10至15秒为换道场景，并在第15秒换道成功，则可以将第10至15秒采集到的图像数据与感知数据确定为一条真实驾驶数据，构成真实驾驶数据集。

作为一种可能的实现方式，由于在自动驾驶领域，自动驾驶算法通常可以通过对车辆在驾驶过程中的鸟瞰图进行处理，并生成决策结果，因此，可以根据决策场景对应的图像数据与感知数据生成该决策场景对应的鸟瞰图，并将鸟瞰图作为真实驾驶数据构成真实驾驶数据集，以使训练生成的轨迹规划模型的实用性更好。即在本申请实施例一种可能的实现方式中，上述步骤101，可以包括：

获取采集车的原始驾驶数据，其中，原始驾驶数据中包括在采集车驾驶过程中采集车中的图像采集设备采集的图像数据、及采集车中的传感器采集的感知数据；

其中，决策场景，可以是指在自动驾驶领域可能涉及到的、需要轨迹规划算法进行轨迹规划决策的场景。实际使用时，可以根据轨迹规划模型具体的应用场景确定决策场景的类型，本申请实施例对此不做限定。比如，决策场景可以包括换道场景、避障场景、环岛场景、匝道驶出场景，等等。

其中，每组驾驶数据，可以包括在一个决策场景发生至结束的过程中，采集车中的图像采集设备、各类传感器等所有的感知设备采集的图像数据、感知数据。

作为一种可能的实现方式，在通过采集车获取到大量的原始驾驶数据之后，采用预先训练好的场景分类模型对原始驾驶数据进行分类处理，以确定原始驾驶数据中包括的各个决策场景，并根据各个决策场景的发生时刻与结束时刻，将采集时刻处于决策场景的发生时刻与结束时刻之间的驾驶数据，确定为该决策场景对应的一组驾驶数据。比如，在原始驾驶数据中包含200个换道场景，则可以从该原始驾驶数据中获取到换道场景对应的200组驾驶数据；在原始驾驶数据中包含100个避障场景，则可以从该原始驾驶数据中获取到避障场景对应的100组驾驶数据。

可以理解的是，由于采集车中的图像采集设备及各个传感器的进行数据采集的时刻可以是统一的，即采集车中的图像采集设备及各个传感器可以以相同的数据采集频率同时采集数据，因此对于每组驾驶数据，都可以包含多帧图像数据和多帧感知数据，从而在确定出每个决策场景对应的各组驾驶数据之后，可以根据每组驾驶数据中每个数据采集时刻对应的图像数据和感知数据，确定出采集车在每个数据采集时刻的位置、航向角、速度、加速度、转向角等车辆信息，以及采集车在每个数据采集时刻的障碍物信息(如障碍物的尺寸、位置、速度等信息)，进而根据每组驾驶数据中的每个数据采集时刻对应的车辆信息与障碍物信息，生成该组驾驶数据对应的多个鸟瞰图，其中每个数据采集时刻可以对应一个鸟瞰图，进而将每组驾驶数据对应的各个鸟瞰图确定为真实驾驶数据集，即可以将每个鸟瞰图确定为真实驾驶数据集中的一个真实驾驶数据。

作为一种可能的实现方式，由于鸟瞰图中需要包括采集车在某个时刻的360度环视图像，因此通过一个数据采集时刻采集的驾驶数据通常无法生成该数据采集时刻的鸟瞰图，从而对于每个数据采集时刻，可以根据与该数据采集时刻相邻的多个数据采集时刻采集的驾驶数据生成该数据采集时刻的鸟瞰图。比如，对于一个数据采集时刻，可以获取与该数据采集时刻相邻、且位于该数据采集时刻之前的X个数据采集时刻采集的驾驶数据，进而根据这X个数据采集时刻采集的驾驶数据，确定这X个数据采集时刻分别对应的采集车的车辆信息与障碍物信息，进而根据这X个数据采集时刻分别对应的采集车的车辆信息，生成鸟瞰图的X个通道的数据，以及根据这X个数据采集时刻分别对应的障碍物信息，生成该鸟瞰图的另外X个通道的数据，从而生成了该数据采集时刻对应的鸟瞰图。

需要说明的是，实际使用时，可以根据实际需要及具体的应场景，确定合成鸟瞰图使用的数据帧的数量X，本申请实施例对此不做限定。比如，X的取值可以为12。

进一步的，为了提升轨迹规划模型在多个决策场景中的轨迹规划的可靠性，还可以生成每个决策场景对应的真实数据集，以分别训练每个决策场景对应的轨迹规划模型。即在本申请实施例一种可能的实现方式中，上述根据每组驾驶数据对应的各个鸟瞰图，确定真实驾驶数据集，可以包括：

在本申请实施例中，在确定出每组驾驶数据对应的各个鸟瞰图之后，则可以根据每组驾驶数据对应的决策场景，确定出每个鸟瞰图对应的决策场景，进而根据每个鸟瞰图对应的决策场景，将对应的决策场景相同的鸟瞰图确定为同一真实驾驶数据集，从而生成与每个决策场景相关的真实驾驶数据集，之后即可以利用每个决策场景相关的真实驾驶数据集对轨迹规划模型分别进行训练，以生成每个决策场景对应的轨迹规划模型。

步骤102，在每个真实驾驶数据中添加扰动信息，以生成扰动数据集，其中，扰动数据集中包括每个真实驾驶数据对应的扰动数据。

在本申请实施例中，为了提升轨迹规划模型对随机场景进行路径规划的准确性，从而可以在真实驾驶数据中添加扰动信息，以生成即包含真实驾驶数据又包含虚拟驾驶数据的训练数据，从而利用扰动数据集进行轨迹规划模型的训练，不仅可以使得模型学习到真实驾驶场景的路径规划能力，实用性强，而且可以使得模型学习到真实驾驶数据中未能采集到的场景数据，提升模型对未知场景的路径规划能力，提升了模型的可靠性和泛化能力。

作为一种可能的实现方式，可以在真实驾驶数据集中的每个真实驾驶数据中添加随机噪声，以生成扰动数据集，比如，可以在真实驾驶数据中添加随机尺寸、随机数量的障碍物，或者还可以随机调整采集车的航向角、转向角、速度等信息，以生成该真实驾驶数据对应的扰动数据。

进一步的，在真实驾驶数据集中的每个驾驶数据为鸟瞰图时，可以在每个鸟瞰图中随机添加扰动信息，以生成扰动数据集。即在本申请实施例一种可能的实现方式中，上述步骤102，可以包括：

和/或，

获取采集车在每个鸟瞰图中的航向角；

作为一种可能的实现方式，在真实驾驶数据集中的真实驾驶数据为鸟瞰图时，可以在每个鸟瞰图中的随机位置添加随机数量、随即尺寸的障碍物，以生成每个鸟瞰图对应的扰动数据，进而利用每个扰动数据构成扰动数据集。从而，通过扰动数据集对轨迹规划模型进行训练，可以使得模型可以在任意位置出现障碍物时都能表现出良好的轨迹规划能力。

作为一种可能的实现方式，在真实驾驶数据集中的真实驾驶数据为鸟瞰图时，还可以获取采集车在每个鸟瞰图中的航向角，并对采集车在每个鸟瞰图中的航向角添加随机偏移量，即使得采集车在每个鸟瞰图中的航向角随机偏移一定角度，以生成每个鸟瞰图对应的扰动数据，进而利用每个扰动数据构成扰动数据集。从而，通过扰动数据集对轨迹规划模型进行训练，可以使得模型在进行轨迹规划时具有良好的自车航向修正能力。

作为一种可能的实现方式，在真实驾驶数据集中的真实驾驶数据为鸟瞰图时，还可以同时在鸟瞰图中添加随机障碍物以及对采集车在鸟瞰图中的航向角添加随机偏移量，以生成扰动数据集。

进一步的，在真实驾驶数据集中包括多个决策场景相关的真实驾驶数据集时，可以分别对每个决策场景相关的真实驾驶数据集添加扰动信息，以生成每个决策场景相关的扰动数据集。即在本申请实施例一种可能的实现方式中，上述步骤102，可以包括：

在本申请实施例中，在真实驾驶数据集中包括多个决策场景相关的真实驾驶数据集时，可以分别对每个决策场景相关的真实驾驶数据集中的真实驾驶数据添加扰动信息，以生成与每个决策场景相关的扰动数据集。

需要说明的是，生成与每个决策场景相关的扰动数据集的方式，以上述在真实数据集中添加扰动信息的方式相同，此处不再赘述。

步骤103，将扰动数据集中的每个扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个扰动数据对应的第一预测驾驶轨迹。

其中，初始轨迹规划模型，可以是基于对抗式生成网络构建的模型，从而初始轨迹规划模型中可以包括初始生成器与初始判别器。

其中，初始生成器，可以根据输入的扰动数据进行预测，以生成扰动数据对应的预测驾驶轨迹。

其中，第一预测驾驶轨迹，可以是指初始生成器根据输入的扰动数据进行轨迹规划生成的预测驾驶轨迹。

在本申请实施例中，根据真实驾驶数据集生成扰动数据集之后，可以将扰动数据集作为训练数据集，并将每个扰动数据依次输入初始轨迹规划模型的初始生成器，以使初始生成器根据每个扰动数据进行轨迹预测，以生成每个扰动数据对应的第一预测驾驶轨迹。

进一步的，初始轨迹规划模型还可以包括多个初始轨迹规划子模型，每个初始轨迹规划子模型的结构相同，均包括初始生成器和初始判别器，各个初始轨迹规划子模型可以分别采用与不同决策场景相关的扰动数据集进行训练，以生成可以分别适用于各个决策场景的轨迹规划模型。即在本申请实施例一种可能的实现方式中，上述初始轨迹规划模型包括M个所述决策场景对应的M个初始轨迹规划子模型，M为正整数；相应的，上述步骤103，可以包括：

将与第j个决策场景相关的扰动数据集中的每个扰动数据依次输入第j个初始轨迹规划子模型的初始生成器，以生成与第j个决策场景相关的每个扰动数据对应的第一预测驾驶轨迹，其中，j为大于等于1且小于等于M的正整数。

在本申请实施例中，在对不同的决策场景分别训练对应的轨迹规划模型时，可以将于每个决策场景相关的扰动数据集分别作为相应初始轨迹规划子模型的训练数据，对各个初始轨迹规划子模型进行训练，以生成适用于每个决策场景的轨迹规划模型。

举例来说，在初始轨迹规划模型中包含换道场景、避障场景、匝道驶出场景分别对应的初始轨迹规划子模型时，可以将与换道场景相关的扰动数据集作为换道场景对应的初始轨迹规划子模型的训练数据集，并将与换道场景相关的每个扰动数据依次输入换道场景对应的初始轨迹规划子模型的初始生成器，以生成与换道场景相关的扰动数据对应的第一预测驾驶轨迹；相应的，可以按照与换道场景相同的方法，依次将避障场景、匝道驶出场景分别对应的扰动数据集输入相应的初始轨迹规划子模型，以生成与避障场景、匝道驶出场景相关的扰动数据对应的第一预测驾驶轨迹。

步骤104，将每个第一预测驾驶轨迹输入初始轨迹规划模型的初始判别器，以生成每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率。

其中，初始判别器，可以对输入的轨迹进行判断，并输出输入的轨迹为真实驾驶轨迹的概率。

在本申请实施例中，将扰动数据输入初始生成器并生成该扰动数据对应的第一预测驾驶轨迹之后，则可以将该扰动数据对应的第一预测驾驶轨迹输入初始轨迹规划模型的初始判别器，以使初始判别器输出该第一预测驾驶轨迹为真实驾驶轨迹的第一概率。

需要说明的是，第一预测驾驶轨迹为真实驾驶轨迹的第一概率越高，说明初始生成器生成的第一预测驾驶轨迹越真实，即说明初始生成器的性能越好；反之，则说明初始生成器的性能越差。

进一步的，在初始轨迹规划模型包括多个初始轨迹规划子模型，并且各个初始轨迹规划子模型可以分别采用与不同决策场景相关的扰动数据集进行训练，以生成可以分别适用于各个决策场景的轨迹规划模型时，可以将各个决策场景相关的第一预测驾驶轨迹分别输入相应的初始轨迹规划子模型的初始判别器。即在本申请实施例一种可能的实现方式中，上述步骤104，可以包括：

在本申请实施例中，在将第j个决策场景相关的扰动数据输入第j个初始轨迹规划模型的初始生成器之后，该初始生成器可以将生成的第一预测驾驶轨迹直接输入第j个初始轨迹规划模型的初始判别器，以使该初始判别器输出与第j个决策场景相关的每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率。

步骤105，根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

在本申请实施例中，可以为生成器与判别器分别设置对应的损失函数，以通过每次训练完成后损失函数的取值，对初始轨迹规划模型的网络参数进行修正。

作为一种可能的实现方式，可以将每个第一预测驾驶轨迹对应的第一概率代入生成器对应的损失函数，以确定初始生成器对应的损失值，并将每个第一概率带入判别器对应的损失函数，以确定初始判别器对应的损失值，进而根据初始生成器对应的损失值对初始生成器的网络参数进行修正，以及根据初始判别器对应的损失值对初始判别器的网络参数进行修正，以生成修正后的轨迹规划模型，进而利用修正后的轨迹规划模型继续重复上述步骤101-105进行训练，直至修正后的轨迹规划模型的生成器与判别器对应的损失值均小于预设的阈值，则可以将该修正后的轨迹规划模型确定为训练完成的轨迹规划模型。

需要说明的是，初始轨迹规划模型包括M个轨迹规划子模型时，可以根据第j个轨迹规划子模型的判别器输出的各个第一概率，生成第j个轨迹规划子模型的生成器的损失值与判别器的损失值，并根据第j个轨迹规划子模型的生成器的损失值对第j个轨迹规划子模型的生成器的网络参数进行修正，以及根据第j个轨迹规划子模型的判别器的损失值对第j个轨迹规划子模型的判别器的网络参数进行修正，并采用第j个决策场景对应的扰动数据集继续对修正后的第j个轨迹规划子模型进行训练，直至第j个轨迹规划子模型的生成器与判别器的损失值都小于预设的阈值，则确定第j个轨迹规划子模型训练完成。其中，j为大于等于1且小于等于M的正整数。

作为一种可能的实现方式，在对初始轨迹规划模型进行训练时，还可以将生成器和判别器分开进行训练，即可以先固定初始判别器的网络参数，在通过初始判别器生成每个扰动数据对应的第一预测驾驶轨迹，以及通过初始判别器生成每个第一预测驾驶轨迹对应的第一概率之后，可以根据每个第一概率确定初始生成器的损失值，进而根据初始生成器的损失值对初始生成器的网络参数进行修正，以使初始判别器在对修正后的生成器生成的第一预测驾驶轨迹进行判别时，输出的第一概率更高。直至修正后的生成器的损失值小于预设的阈值之后，则可以完成对生成器的训练，并固定生成器的网络参数，继续对初始判别器进行训练。

在本申请实施例中，对生成器训练完成并固定生成器的网络参数之后，继续将扰动数据集中的每个扰动数据依次输入训练完成的生成器，以生成每个扰动数据对应的第一预测驾驶轨迹，之后将每个第一预测驾驶轨迹输入初始生成器，以生成每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，进而根据每个第一概率确定初始判别器的损失值，并根据初始判别器的损失值对初始判别器的网络参数进行修正，进而采用修正后的判别器进行训练，直至修正后的判别器的损失值小于预设的阈值，则可以将修正后的判别器确定为训练完成的判别器，从而完成对轨迹规划模型的训练。

本申请实施例提供的轨迹规划模型的训练方法，通过在真实驾驶数据集中的每个真实驾驶数据中添加扰动信息，生成扰动数据集，并将每个扰动数据依次输入初始轨迹规划模型，生成每个扰动数据对应的第一预测驾驶轨迹，及每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，进而根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续训练，以生成训练完成的轨迹规划模型。由此，通过在真实驾驶数据集中添加扰动信息以生成扰动数据集，并利用结合了真实驾驶数据与虚拟驾驶数据的扰动数据集进行模型训练，使得生成的模型能够准确地对未出现过的复杂决策场景进行轨迹规划，从而提升了模型的泛化性和可靠性。

在本申请一种可能的实现形式中，在对轨迹规划模型进行训练时，还可以引入真实驾驶数据作为监督数据进行训练，以提升模型的收敛速度，以及进一步提升轨迹规划模型的可靠性。

下面结合图2，对本申请实施例提供的轨迹规划模型的训练方法进行进一步说明。

图2示出了本申请实施例提供的另一种轨迹规划模型的训练方法的流程示意图。

如图2所示，该轨迹规划模型的训练方法，包括以下步骤：

步骤201，获取真实驾驶数据集，其中，真实驾驶数据集中包括多个真实驾驶数据及每个真实驾驶数据对应的真实驾驶轨迹。

在本申请实施例中，为了使得轨迹规划模型在训练过程中尽快收敛，提升训练效率，并同时提升轨迹规划模型的可靠性和泛化性，还可以将真实驾驶数据集和扰动数据集同时作为训练数据对初始轨迹规划模型进行训练，并将真实驾驶数据对应的真实驾驶轨迹作为真值，监督对初始轨迹规划模型的训练，从而通过有监督学习和无监督学习相结合的方式进一步提升了轨迹规划模型的可靠性。

作为一种可能的实现方式，在从原始驾驶数据中获取真实驾驶数据集时，可以在获取到一个真实驾驶数据之后，可以根据在该真实驾驶数据之后采集的真实驾驶数据中的采集车的车辆信息，确定该真实驾驶对应的真实驾驶轨迹，并利用各个真实驾驶数据及各个真实驾驶数据对应的真实驾驶轨迹构成真实驾驶数据集。

作为一种可能的实现方式，在真实驾驶数据集中的每个真实驾驶数据为鸟瞰图时，可以根据该鸟瞰图对应的数据采集时刻，选取数据采集时刻处于该数据采集时刻之后多帧驾驶数据，生成该鸟瞰图对应的真实驾驶轨迹。即在本申请实施例一种可能的实现方式中，上述步骤201，可以包括：

根据多个第二数据采集时刻采集的图像数据及所述感知数据，确定第i个鸟瞰图对应的真实驾驶轨迹；

其中，第二数据采集时刻，可以是指处于当前的鸟瞰图对应的数据采集时刻之后、且与当前的鸟瞰图对应的数据采集时刻相邻的多个数据采集时刻。

在本申请实施例中，对于每一组驾驶数据，在生成该组驾驶数据中一个数据采集时刻对应的鸟瞰图之后，可以根据从该组驾驶数据中获取分别在多个第二数据采集时刻采集的多帧图像数据与多帧感知数据，进而根据多个第二数据采集时刻采集的多帧图像数据与多帧感知数据，确定采集车在每个第二数据采集时刻的位置，进而根据采集车在多个数据采集时刻的位置生成该鸟瞰图对应的真实驾驶轨迹。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定第二数据采集时刻的数量，本申请实施例对此不做限定。比如，第二数据采集时刻的数量可以为15。

需要说明的是，本实施例生成真实驾驶数据和鸟瞰图的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤202，在每个真实驾驶数据中添加扰动信息，以生成扰动数据集，其中，扰动数据集中包括每个真实驾驶数据对应的扰动数据。

步骤203，将扰动数据集中的每个扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个扰动数据对应的第一预测驾驶轨迹。

上述步骤202-203的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤204，将每个真实驾驶数据依次输入初始生成器，以生成每个真实驾驶数据对应的第二预测驾驶轨迹。

在本申请实施例中，为了提升轨迹规划模型的收敛速度和可靠性，可以将真实驾驶数据集和扰动数据集同时作为训练数据集对初始轨迹规划模型进行训练，从而可以将真实驾驶数据集中的每个真实驾驶数据输入初始轨迹规划模型的初始生成器，以生成每个真实驾驶数据对应的第二预测驾驶轨迹。

需要说明的是，将真实驾驶数据输入初始生成器以生成第二预测驾驶轨迹具体过程及实现原理，与将扰动数据依次输入初始生成器以生成第一预测驾驶轨迹的具体过程及实现原理相同，此处不再赘述。

步骤205，将每个第一预测驾驶轨迹输入初始轨迹规划模型的初始判别器，以生成每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率。

上述步骤205的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤206，将每个真实驾驶轨迹及每个第二预测驾驶轨迹依次输入初始判别器，以生成每个真实驾驶轨迹为真实驾驶轨迹的第二概率，及每个第二预测驾驶轨迹为真实驾驶轨迹的第三概率。

在本申请实施例中，通过初始生成器生成每个真实驾驶数据对应的第二预测驾驶轨迹之后，可以将每个真实驾驶轨迹、每个第二预测驾驶轨迹依次输入初始判别器，以生成每个真实驾驶轨迹为真实驾驶轨迹的第二概率，以及每个第二预测驾驶轨迹为真实驾驶轨迹的第三概率。从而使得初始判别器既对真实驾驶轨迹进行判别，又对初始生成器生成的虚假的预测驾驶轨迹进行判别，可以进一步提升生成器与判别器的可靠性。

需要说明的是，将真实驾驶轨迹与第二预测驾驶轨迹输入初始判别器以生成第二概率与第三概率方式，与将第一预测驾驶轨迹输入初始判别器生成第一概率的方式相同，具体的实现过程及原理，可以参照上述实施例详细描述，此处不再赘述。

步骤207，根据每个真实驾驶数据对应的真实驾驶轨迹与第二预测驾驶轨迹之间的差异、每个第一概率、每个第二概率及每个第三概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

作为一种可能的实现方式，可以利用真实驾驶数据对应的真实驾驶轨迹与对应的第二预测驾驶轨迹之间均方误差、交叉熵等，衡量真实驾驶轨迹与对应的第二预测驾驶轨迹之间的差异。实际使用时，可以根据需要及具体的应用场景，选取衡量真实驾驶轨迹与对应的第二预测驾驶轨迹之间的差异的标准，本申请实施例对此不做限定。

在本申请实施例中，真实驾驶数据对应的真实驾驶轨迹与对应的第二预测驾驶轨迹之间的差异，可以反映初始生成器的性能；初始生成器生成的第一预测驾驶轨迹为真实驾驶轨迹的第一概率与第二预测驾驶轨迹为真实驾驶轨迹的第三概率，也可以反映初始生成器的性能；初始生成器生成的第一预测驾驶轨迹为真实驾驶轨迹的第一概率、真实驾驶轨迹为真实驾驶轨迹的第二概率及第二预测驾驶轨迹为真实驾驶轨迹的第三概率，均可以反映初始判别器的性能。因此，可以根据真实驾驶数据对应的真实驾驶轨迹与对应的第二预测驾驶轨迹之间的差异、各个第一概率及各个第三概率，对初始生成器的网络参数进行修正，以及根据各个第一概率、各个第二概率及各个第三概率，对初始判别器的网络参数进行修正。

作为一种可能的实现方式，可以根据各个真实驾驶轨迹与对应的第二预测驾驶轨迹之间的差异、各个第一概率、各个第二概率及各个第三概率，确定初始生成器与初始判别器的损失值，并根据各自的损失值分别对初始生成器与初始判别器的网络参数进行修正。即在本申请实施例一种可能的实现方式中，上述步骤207，可以包括：

根据每个第一概率及每个第三概率，确定第二损失值；

在本申请实施例中，可以将每个真实驾驶数据对应的真实驾驶轨迹与第二预测驾驶轨迹之间的差异(如均方误差、交叉熵等)代入预设的第一损失函数，以生成第一损失值；并将每个第一概率及每个第二概率代入预设的第二损失函数，以生成第二损失值；以及将每个第一概率、每个第二概率及每个第三概率代入预设的第三损失函数，以生成第三损失值。

之后，可以将第一损失值与第二损失值进行加权求和，以生成初始生成器对应的损失值，并根据初始生成器对应的损失值对初始生成器的网络参数进行修正，并采用修正后的生成器继续进行训练，直至第一损失值及第二损失值处于预设范围，或者第一损失值与第二损失值的加权和处于预设范围，则可以确定生成器训练完成，并将该修正后的生成器确定为训练完成的轨迹规划模型的生成器。并且，可以采用第三损失值作为初始判别器对应的损失值，并采用第三损失值对初始判别器的网络参数进行修正，之后采用修正后的判别器继续进行训练，直至修正后的判别器的第三损失值处于预设范围，则可以确定判别器训练完成，并将该修正后的判别器确定为训练完成的轨迹规划模型的判别器。

需要说明的是，实际使用时，可以根据实际需要及具体的应用场景，确定第一损失值及第二损失值的权重，本申请实施例对此不做限定。并且，本申请实施例中涉及到的损失函数可以是适用于生成式对抗网络的任意损失函数，本申请实施例对此不做限定。

可以理解的是，在分别训练每个决策场景对应的轨迹规划子模型的情况下，也可以采用本申请实施例中的相同的方式分别对各个轨迹规划子模型进行训练，此处不再赘述。

本申请实施例提供的轨迹规划模型的训练方法，通过在真实驾驶数据集中的每个真实驾驶数据中添加扰动信息，生成扰动数据集，并将每个扰动数据及每个真实驾驶数据依次输入初始轨迹规划模型，以通过初始生成器生成每个扰动数据对应的第一预测驾驶轨迹及每个真实驾驶数据对应的第二预测驾驶轨迹，以及通过初始判别器生成每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率、每个真实驾驶轨迹为真实驾驶轨迹的第二概率及每个第二预测驾驶轨迹为真实驾驶轨迹的第三概率，进而根据每个真实驾驶轨迹与对应的第二预测驾驶轨迹之间的差异、每个第一概率、每个第二概率及每个第三概率对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续训练，以生成训练完成的轨迹规划模型。由此，通过在真实驾驶数据集中添加扰动信息以生成扰动数据集，以利用结合了真实驾驶数据与虚拟驾驶数据的扰动数据集进行模型训练，并同时引入真实驾驶数据作为监督数据进行训练，从而不仅使得生成的模型能够准确地对未出现过的复杂决策场景进行轨迹规划，进一步提升了模型的泛化性和可靠性，而且进一步提升了模型的收敛速度，提升了模型训练效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的轨迹规划模型的训练方法，图3示出了本申请实施例提供的轨迹规划模型的训练装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图3，该装置30包括：

获取模块31，用于获取真实驾驶数据集，其中，真实驾驶数据集中包括多个真实驾驶数据；

第一生成模块32，用于在每个真实驾驶数据中添加扰动信息，以生成扰动数据集，其中，扰动数据集中包括每个真实驾驶数据对应的扰动数据；

第二生成模块33，用于将扰动数据集中的每个扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个扰动数据对应的第一预测驾驶轨迹；

第三生成模块34，用于将每个第一预测驾驶轨迹输入初始轨迹规划模型的初始判别器，以生成每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率；

修正模块35，用于根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

在实际使用时，本申请实施例提供的轨迹规划模型的训练装置，可以被配置在任意终端设备中，以执行前述轨迹规划模型的训练方法。

本申请实施例提供的轨迹规划模型的训练装置，通过在真实驾驶数据集中的每个真实驾驶数据中添加扰动信息，生成扰动数据集，并将每个扰动数据依次输入初始轨迹规划模型，生成每个扰动数据对应的第一预测驾驶轨迹，及每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，进而根据每个第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续训练，以生成训练完成的轨迹规划模型。由此，通过在真实驾驶数据集中添加扰动信息以生成扰动数据集，并利用结合了真实驾驶数据与虚拟驾驶数据的扰动数据集进行模型训练，使得生成的模型能够准确地对未出现过的复杂决策场景进行轨迹规划，从而提升了模型的泛化性和可靠性。

在本申请一种可能的实现形式中，上述真实驾驶数据集中还包括每个真实驾驶数据对应的真实驾驶轨迹；相应的，上述轨迹规划模型的训练装置30，还包括：

相应的，上述修正模块35，包括：

进一步的，在本申请另一种可能的实现形式中，上述修正单元，具体用于：

根据每个第一概率及每个第三概率，确定第二损失值；

进一步的，在本申请再一种可能的实现形式中，上述获取模块31，包括：

进一步的，在本申请又一种可能的实现形式中，上述真实驾驶数据集中还包括每个真实驾驶数据对应的真实驾驶轨迹；相应的，第二确定单元，具体用于：

进一步的，在本申请又一种可能的实现形式中，上述第一生成模块32，包括：

和/或，

第二获取单元，用于获取采集车在每个鸟瞰图中的航向角；

进一步的，在本申请另一种可能的实现形式中，上述第二确定单元，还用于：

进一步的，在本申请再一种可能的实现形式中，上述第一生成模块32，包括：

进一步的，在本申请又一种可能的实现形式中，上述初始轨迹规划模型包括M个决策场景对应的M个初始轨迹规划子模型，M为正整数；相应的，上述第二生成模块33，包括：

相应的，上述第三生成模块34，包括：

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

为了实现上述实施例，本申请还提出一种终端设备。

图4为本申请一个实施例的终端设备的结构示意图。

如图4所示，上述终端设备200包括：

存储器210及至少一个处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本申请实施例所述的轨迹规划模型的训练方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

终端设备200典型地包括多种电子设备可读介质。这些介质可以是任何能够被终端设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。终端设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统260可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。

终端设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该终端设备200交互的设备通信，和/或与使得该终端设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，终端设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与终端设备200的其它模块通信。应当明白，尽管图中未示出，可以结合终端设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器220通过运行存储在存储器210中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的终端设备的实施过程和技术原理参见前述对本申请实施例的轨迹规划模型的训练方法的解释说明，此处不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种轨迹规划模型的训练方法，其特征在于，包括：

获取真实驾驶数据集，其中，所述真实驾驶数据集中包括多个真实驾驶数据；

在每个所述真实驾驶数据中添加扰动信息，以生成扰动数据集，其中，所述扰动数据集中包括每个所述真实驾驶数据对应的扰动数据；

将所述扰动数据集中的每个所述扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个所述扰动数据对应的第一预测驾驶轨迹；

将每个所述第一预测驾驶轨迹输入所述初始轨迹规划模型的初始判别器，以生成每个所述第一预测驾驶轨迹为真实驾驶轨迹的第一概率；

根据每个所述第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对所述初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

2.如权利要求1所述的方法，其特征在于，所述真实驾驶数据集中还包括每个所述真实驾驶数据对应的真实驾驶轨迹，所述根据每个所述第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对所述初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型之前，还包括：

将每个所述真实驾驶数据依次输入所述初始生成器，以生成每个所述真实驾驶数据对应的第二预测驾驶轨迹；

将每个所述真实驾驶轨迹及每个所述第二预测驾驶轨迹依次输入所述初始判别器，以生成每个所述真实驾驶轨迹为真实驾驶轨迹的第二概率，及每个所述第二预测驾驶轨迹为真实驾驶轨迹的第三概率；

所述根据每个所述第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对所述初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型，包括：

根据每个所述真实驾驶数据对应的真实驾驶轨迹与所述第二预测驾驶轨迹之间的差异、每个所述第一概率、每个所述第二概率及每个所述第三概率，对所述初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

3.如权利要求2所述的方法，其特征在于，所述根据每个所述真实驾驶数据对应的真实驾驶轨迹与所述第二预测驾驶轨迹之间的差异、每个所述第一概率、每个所述第二概率及每个所述第三概率，对所述初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型，包括：

根据每个所述真实驾驶数据对应的真实驾驶轨迹与所述第二预测驾驶轨迹之间的差异，确定第一损失值；

根据每个所述第一概率及每个所述第三概率，确定第二损失值；

根据每个所述第一概率、每个所述第二概率及每个所述第三概率，确定第三损失值；

根据所述第一损失值及所述第二损失值，对所述初始生成器的网络参数进行修正，并采用修正后的生成器继续进行训练，直至所述修正后的生成器对应的所述第一损失值与所述第二损失值处于预设范围，则将所述修正后的生成器确定为所述训练完成的轨迹规划模型的生成器；

根据所述第三损失值，对所述初始判别器进行修正，并采用修正后的判别器继续进行训练，直至所述修正后的判别器对应的所述第三损失值处于预设范围，则将所述修正后的判别器确定为所述训练完成的轨迹规划模型的判别器。

4.如权利要求1-3任一所述的方法，其特征在于，所述获取真实驾驶数据集，包括：

获取采集车的原始驾驶数据，其中，所述原始驾驶数据中包括在所述采集车行驶过程中所述采集车中的图像采集设备采集的图像数据、及所述采集车中的传感器采集的感知数据；

根据所述原始驾驶数据中包括的决策场景，从所述原始驾驶数据中截取每个所述决策场景对应的多组驾驶数据；

根据每组所述驾驶数据包含的所述图像数据及所述感知数据，确定每组所述驾驶数据中的每个数据采集时刻对应的鸟瞰图；

根据每组所述驾驶数据对应的各个所述鸟瞰图，确定所述真实驾驶数据集，其中，每个所述鸟瞰图为所述真实驾驶数据集中的一个所述真实驾驶数据。

5.如权利要求4所述的方法，其特征在于，所述真实驾驶数据集中还包括每个所述真实驾驶数据对应的真实驾驶轨迹，所述根据每组所述驾驶数据对应的各个所述鸟瞰图，确定所述真实驾驶数据集，包括：

确定与第i个所述鸟瞰图对应的数据采集时刻相邻的多个第二数据采集时刻，其中，i为大于等于1且小于等N的正整数，N为所述鸟瞰图的数量，N为正整数；

根据多个所述第二数据采集时刻采集的所述图像数据及所述感知数据，确定第i个所述鸟瞰图对应的所述真实驾驶轨迹；

根据每个所述鸟瞰图及每个所述鸟瞰图对应的所述真实驾驶轨迹，确定所述真实驾驶数据集。

6.如权利要求4所述的方法，其特征在于，所述在每个所述真实驾驶数据中添加扰动信息，以生成扰动数据集，包括：

在所述真实驾驶数据集中的每个所述鸟瞰图中添加障碍物，以生成扰动数据集；

和/或，

获取所述采集车在每个所述鸟瞰图中的航向角；

对所述采集车在每个所述鸟瞰图中的航向角添加随机偏移量，以生成所述扰动数据集。

7.如权利要求4所述的方法，其特征在于，所述根据每组所述驾驶数据对应的各个所述鸟瞰图，确定所述真实驾驶数据集，包括：

根据每组所述驾驶数据对应的所述决策场景，确定每个所述鸟瞰图对应的所述决策场景；

根据每个所述鸟瞰图对应的所述决策场景，确定与每个所述决策场景相关的真实驾驶数据集。

8.如权利要求7所述的方法，其特征在于，所述在每个所述真实驾驶数据中添加扰动信息，以生成扰动数据集，包括：

在与每个所述决策场景相关的所述真实驾驶数据集中的每个所述真实驾驶数据中添加扰动信息，以生成与每个所述决策场景相关的所述扰动数据集。

9.如权利要求8所述的方法，其特征在于，所述初始轨迹规划模型包括M个所述决策场景对应的M个初始轨迹规划子模型，M为正整数，所述将所述扰动数据集中的每个所述扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个所述扰动数据对应的第一预测驾驶轨迹，包括：

将与第j个所述决策场景相关的所述扰动数据集中的每个所述扰动数据依次输入第j个所述初始轨迹规划子模型的初始生成器，以生成与第j个所述决策场景相关的每个所述扰动数据对应的第一预测驾驶轨迹，其中，j为大于等于1且小于等于M的正整数；

所述将每个所述第一预测驾驶轨迹输入所述初始轨迹规划模型的初始判别器，以生成每个所述第一预测驾驶轨迹为真实驾驶轨迹的第一概率，包括：

将与第j个所述决策场景相关的每个所述扰动数据对应的第一预测驾驶轨迹，输入第j个所述初始轨迹规划子模型的初始判别器，以生成与第j个所述决策场景相关的每个所述第一预测驾驶轨迹为真实驾驶轨迹的第一概率。

10.一种轨迹规划模型的训练装置，其特征在于，包括：

获取模块，用于获取真实驾驶数据集，其中，所述真实驾驶数据集中包括多个真实驾驶数据；

第一生成模块，用于在每个所述真实驾驶数据中添加扰动信息，以生成扰动数据集，其中，所述扰动数据集中包括每个所述真实驾驶数据对应的扰动数据；

第二生成模块，用于将所述扰动数据集中的每个所述扰动数据依次输入初始轨迹规划模型的初始生成器，以生成每个所述扰动数据对应的第一预测驾驶轨迹；

第三生成模块，用于将每个所述第一预测驾驶轨迹输入所述初始轨迹规划模型的初始判别器，以生成每个所述第一预测驾驶轨迹为真实驾驶轨迹的第一概率；

修正模块，用于根据每个所述第一预测驾驶轨迹为真实驾驶轨迹的第一概率，对所述初始轨迹规划模型的网络参数进行修正，并采用修正后的轨迹规划模型继续进行训练，以生成训练完成的轨迹规划模型。

11.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-9中任一项所述的方法。