CN116991077A

CN116991077A - 车辆自动驾驶决策方法、装置、设备及介质

Info

Publication number: CN116991077A
Application number: CN202311254360.XA
Authority: CN
Inventors: 贺翔; 潘兴; 艾锐; 顾维灏
Original assignee: Haomo Zhixing Technology Co Ltd
Current assignee: Haomo Zhixing Technology Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-11-03

Abstract

本申请属于自动驾驶技术领域，尤其涉及车辆自动驾驶决策方法、装置、设备及介质，方法包括：获取环境数据，环境数据包括部署于指定车辆的传感器在第一时段内的采集数据，第一时段早于参考时刻；以环境数据为输入，运行自动驾驶模型，得到决策结果。该方法的生成式模型可以根据实时采集到的环境信息和历史驾驶数据进行自适应学习，解决了训练数据获取困难的问题；此外，通过历史数据进行的训练过程为模型的定制化扩展和升级提供了可能，即模型可以针对特定的需要加强的场景进行数据筛选和加强训练，以提升该场景下的决策性能。

Description

车辆自动驾驶决策方法、装置、设备及介质

技术领域

本申请属于自动驾驶技术领域，尤其涉及车辆自动驾驶决策方法、装置、设备及介质。

背景技术

基于机器学习的自动驾驶技术是一项复杂而又具有挑战性的技术，它涉及到大量的训练数据和高计算能力的需求。

具体来说，自动驾驶系统需要通过大量的训练数据来学习和理解道路环境、车辆行为以及各种交通场景。这些数据通常是对应传感器（如摄像头、激光雷达、雷达等）的数据，以提供关于道路结构、物体检测、车辆速度等信息。由于自动驾驶系统需要覆盖各种不同的驾驶场景，因此需要大规模的多样化数据来训练模型。

然而，获取高质量的自动驾驶训练数据是一个昂贵和困难的任务。这是因为自动驾驶系统需要在各种不同的交通场景中进行训练，包括不同的天气条件、道路类型和交通状况。

也就是说，一个关键的问题是如何获取代表性和多样化的训练数据。一种常见的方法是使用模拟器来生成合成数据，但如何确保合成数据与真实场景相匹配仍然是一个挑战。

此外，自动驾驶模型通常需要大量的计算资源。深度学习模型通常有数百万个参数，这要求硬件具有较高性能和专用的硬件加速器（如图形处理单元GPU）。而受限于车辆硬件的空间、能源、散热等条件，较为重型的自动驾驶模型往往无法适配到现有车辆当中，可能需要车辆其它模块予以让步。

因此，如何提供一种轻量化且易于训练的自动驾驶模型，并通过该模型完成自动驾驶功能成为了业内亟需解决的技术问题。

发明内容

本申请实施例提供了车辆自动驾驶决策方法、装置、设备及介质，可以解决自动驾驶模型训练数据获取困难的问题和重型自动驾驶模型部署困难的问题。

第一方面，本申请实施例提供了一种车辆自动驾驶决策方法，包括：

获取环境数据，所述环境数据包括部署于指定车辆的传感器在第一时段内的采集数据，所述第一时段早于参考时刻；

以所述环境数据为输入，运行自动驾驶模型，得到决策结果；其中，所述自动驾驶模型是以历史传感器数据作为样本执行第一训练得到的生成式模型，所述决策结果用于控制所述指定车辆，且所述决策结果包括如下至少一个：

第二时段内的车辆控制序列和所述车辆控制序列的置信度，所述第二时段晚于参考时刻；

所述第二时段内感知目标的感知点云和所述感知点云的置信度；

所述第二时段内所述指定车辆视角下的预测视频和所述视频的置信度。

上述方法使用生成式模型进行自动驾驶决策，相较于传统的基于规则或者分类器的决策方法，具有更高的决策效率和灵活性；同时，生成式模型可以根据实时采集到的环境信息和历史驾驶数据进行自适应学习，解决了训练数据获取困难的问题，提高决策的准确性和适应性，具备更加智能化的特点；此外，通过历史数据进行的训练过程为模型的定制化扩展和升级提供了可能，即模型可以针对特定的需要加强的场景进行数据筛选和加强训练，以提升该场景下的决策性能；

进一步地，多种决策结果的选择性使用能够对各类应用场景具有更好的适应性，从而为不同状态下的分类决策提供良好的数据基础。

在第一方面的一种可能的实现方式中，所述以所述环境数据为输入，运行自动驾驶模型，得到决策结果的步骤后，还包括：

确定迭代训练样本数量大于预设阈值，则基于所述迭代训练样本对所述自动驾驶模型执行第二训练，得到更新后的自动驾驶模型；

其中，所述迭代训练样本包括所述环境数据、对应于所述环境数据的决策结果以及对应于所述环境数据的驾驶员操作。

上述方法通过记录自动驾驶模型运行过程中输入的环境数据、输出的决策结果以及驾驶员介入操作对模型进行优化训练，使得模型能够输出更加符合驾驶员习惯的决策结果。

在第一方面的一种可能的实现方式中，所述环境数据包括激光雷达、毫米波雷达以及视觉传感器中的至少一者在所述第一时段内的采集数据。

上述方法通过激光雷达、毫米波雷达以及视觉传感器中的至少一者实现对环境数据的采集，从而为决策结果的生成提供了数据基础。

在第一方面的一种可能的实现方式中，所述获取环境数据的步骤包括：

通过部署于指定车辆的传感器获取所述第一时段内的传感器采集数据；

提取所述传感器采集数据的特征，得到所述环境数据的至少一部分。

上述方法对传感器采集数据进行特征提取的预处理后，输入自动驾驶模型，能够减少自动驾驶模型需要处理的任务量，使得自动驾驶模型更为轻量化，同时，预处理任务与自动驾驶模型的决策结果推理任务能够同时进行，即自动驾驶模型处理上一帧的推理时，当前帧的传感器数据能够随之进行采集和预处理的操作，进一步提升了自动驾驶决策的实时性。

在第一方面的一种可能的实现方式中，所述提取所述传感器采集数据的特征，得到所述环境数据的至少一部分的步骤包括：

根据所述传感器采集数据，得到交通指示灯状态、交通标识状态、车道信息、车道线信息、障碍物位置、障碍物速度以及障碍物移动方向中的至少一个作为所述环境数据的至少一部分。

上述方法通过引入交通指示灯状态、交通标识状态、车道信息、车道线信息等基础设施信息，额外为自动驾驶模型提供了信息，有利于提升决策结果的有效性；同时，预处理操作将抽象的传感器数据转换为障碍物位置、障碍物速度以及障碍物移动方向等具有实际物理含义的数据，有利于进一步减少自动驾驶模型需要处理的任务量，使得自动驾驶模型更为轻量化。

在第一方面的一种可能的实现方式中，所述车辆控制序列包括所述第二时段内指定时刻的动力开关开度、刹车开度以及方向盘转角。

上述方法在决策结果中引入第二时段内各时刻的动力开关开度、刹车开度以及方向盘转角，使得自动驾驶控制时，可以在自动驾驶模型外，通过预设逻辑以这些目标参数为约束进行操作，进一步减少了自动驾驶模型所需处理的任务量。

确定驾驶员未操作所述指定车辆，则基于所述决策结果控制所述指定车辆；

确定所述驾驶员操作所述指定车辆，则基于所述驾驶员的操作控制所述指定车辆，并记录所述驾驶员的操作。

上述方法引入了优先级高于决策结果的驾驶员操作，一方面通过驾驶员和自动驾驶模型两个维度保证驾驶的安全性，另一方面也能够通过记录驾驶员操作为自动驾驶模型的进一步优化训练累计数据。

第二方面，本申请实施例提供了一种车辆自动驾驶决策装置，包括：

获取模块，用于获取环境数据，所述环境数据包括部署于指定车辆的传感器在第一时段内的采集数据，所述第一时段早于参考时刻；

决策模块，用于以所述环境数据为输入，运行自动驾驶模型，得到决策结果；其中，所述自动驾驶模型是以历史传感器数据作为样本执行第一训练得到的生成式模型，所述决策结果用于控制所述指定车辆，且所述决策结果包括如下至少一个：

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的车辆自动驾驶决策方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的车辆自动驾驶决策方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的车辆自动驾驶决策方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的车辆自动驾驶决策方法的流程示意图；

图2是本申请实施例提供的车辆自动驾驶决策装置的结构示意图；

图3是本申请实施例提供的终端设备的结构示意图；

图4是本申请实施例提供的自动驾驶架构的流程示意图。

附图标记：

终端设备30；

处理器301；

存储器302；

计算机程序303。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

一些可选的自动驾驶决策模型通常基于以下几种类型的深度学习网络实现：

卷积神经网络（CNN）：这种网络类型擅长处理具有网格结构的数据，如图像。在自动驾驶系统中，CNN可以用于检测和识别道路上的物体，如车辆、行人、交通信号等。

递归神经网络（RNN）：这种网络类型适合处理时间序列数据，如语音、文本或自动驾驶车辆的历史轨迹数据。RNN可以用于自动驾驶系统的语言理解和预测，以及基于历史数据的未来轨迹预测。

长短期记忆网络（LSTM）：这是一种特殊的RNN变体，适合处理长序列数据。在自动驾驶系统中，LSTM可以用于预测车辆的未来行为和决策。

强化学习网络：这种网络类型是通过与环境交互并优化策略来学习行为。在自动驾驶系统中，强化学习网络可以用于学习和优化车辆的驾驶策略，以实现自主控制和决策。

这些网络在自动驾驶决策中具有以下好处：

感知与感知决策：深度学习模型可以高效地处理图像和传感器数据，并转化为车辆能够理解的信息，如车道线、交通标志、行人等。这些信息对于车辆的决策制定和操作至关重要。

目标检测和跟踪：通过深度学习模型，车辆能够高效准确地识别并跟踪道路上的其他车辆、行人和障碍物，从而更好地规划行驶路径。

数据拓展：深度学习模型可以利用平移、变换等策略生成新的训练数据，提高模型的泛化能力和性能。

正是由于这些优点的存在，这些深度神经网络在自动驾驶领域的应用已经相对较为成熟，许多现有的自动驾驶系统都依赖于这种模型。由于这种技术的成熟度和广泛的应用，它成为了自动驾驶决策模型的首选方法，进而导致本领域技术人员产生了路径依赖。

然而，生成式模型（其定义请参考后续说明）有潜力提供更高级别的可解释性和稳定性，为自动驾驶的发展和应用提供更好的基础的这一事实，往往处于被忽略的状态。

这一技术偏见的存在也是可以理解的，生成式模型常用于如下领域：

自然语言处理：用于文本生成、语言翻译、文本摘要、情感分析等任务。例如，通过生成式模型，可以将一种语言的文本自动翻译成另一种语言的文本，或者自动生成一篇文章的摘要。

图像处理：用于图像生成、图像修复、图像风格转换等任务。例如，生成式模型可以根据一些输入的图像，自动生成一张新的图像，或者将一张图像转换成另一种风格。

音频处理：用于音频生成、音频转换等任务。例如，生成式模型可以根据一些输入的音频，自动生成一段新的音频，或者将一段音频转换成另一种风格。

而这些应用领域直观上来看，与自动驾驶的决策似乎没有直接的关联，故而产生了技术偏见。

此外，生成式模型在对应一些特殊场景时（例如，复杂路况场景），可能存在着一些掣肘（例如，计算资源的限制、数据效率的限制等），但克服技术偏见后尝试对这些问题进行解决仍然是可能的。

下面将对本申请涉及到的生成式模型进行简要介绍如下。

生成式模型是指根据“上文”求解“下文”出现概率的一种模型方法，其核心是生成式算法，从应用的角度出发，生成式算法可以生成新的数据、文本、图像等内容。生成式算法的核心思想是基于某种模型，通过给定的输入数据或随机噪声，生成符合模型分布的新的数据。

生成式算法通常基于概率论，利用统计模型来建模生成过程。比如，基于语言模型的文本生成算法，就是通过建立一个能够预测下一个词出现的概率分布的模型，从而可以通过前面已经生成的文本，预测下一个最可能出现的词语，并不断迭代生成新的文本。除了基于语言模型的文本生成算法，生成式算法还有很多其他的应用，比如图像生成、音乐生成等等。

本申请将生成式模型应用在自动驾驶领域时，将其“上文”的含义赋为“过去一段时间采集到的连续信息”，将其“下文”的含义赋为“未来一段时间可能会发生的情况”，利用生成式方法可以对未来做出预测，并给出每种可能性出现的概率。

因此，可以理解，本申请涉及的生成式模型与生成对抗网络GAN具有实质性的差别。

为了克服上述问题（例如，自动驾驶模型训练数据获取困难的问题和重型自动驾驶模型部署困难的问题），本申请实施例提供了一种车辆自动驾驶决策方法，如图1所示，包括：

步骤102，获取环境数据，所述环境数据包括部署于指定车辆的传感器在第一时段内的采集数据，所述第一时段早于参考时刻；其中，第一时段早于参考时刻是指第一时段的起始时刻早于参考时刻。

在一个可选的实施方式中，参考时刻可以是执行步骤102的当前时刻，此时第一时段的起始时刻早于参考时刻，且第一时段的结束时刻为参考时刻。

步骤104，以所述环境数据为输入，运行自动驾驶模型，得到决策结果；其中，所述自动驾驶模型是以历史传感器数据作为样本执行第一训练得到的生成式模型，所述决策结果用于控制所述指定车辆，且所述决策结果包括如下至少一个：

本实施例中，环境数据的采集和获取可以是以特定频率持续进行的，频率取值与传感器/通信设施的固有属性相关，例如，对于激光雷达和毫米波雷达而言，激光雷达需要逐束扫描点云以完成单个扫描周期，则其频率通常小于毫米波雷达；又如，对于视觉传感器而言，其理论扫描频率可以相当高，然而，对于车载设备而言，其数据处理能力存在极限，故可以在决策效果和数据处理量间取得平衡，从而设置视觉传感器的扫描频率。

环境数据中通常包含多种类型的传感器，正如上段介绍的示例，不同类型的传感器可能具有不同的采集频率，对应地，步骤102和步骤104的执行中，应当在考虑各传感器的采集频率的基础上设置第一时段的具体时长；步骤102和步骤104的执行频率也应当与各传感器的采集频率相关，一个典型的反例是，假设激光雷达的扫描间隔为A，步骤102和步骤104的执行间隔为B，且A大于B，则当前帧步骤102和步骤104的执行中依赖的激光雷达数据，与上一帧（或者，下一帧）步骤102和步骤104的执行中依赖的激光雷达数据可能相同，使得激光雷达在一些帧的运算当中没有起到实质性的作用。

值得特别说明的是，决策结果包括如下至少一个：

第二时段内的车辆控制序列和所述车辆控制序列的置信度（记为控制序列）；

所述第二时段内感知目标的感知点云和所述感知点云的置信度（记为感知图）；在一个可选的实施方式中，感知图可以为BEV图（鸟瞰图）、三维网格图、体素图等指定形式的感知点云处理后图像；

所述第二时段内所述指定车辆视角下的预测视频和所述视频的置信度（记为预测视频）。

也就是说，决策结果可以包括控制序列、感知图以及预测视频中的任一者或任多者组合，这为不同场景下的自动驾驶决策路径的选择提供了基础。

特别地，本实施例限定了所述决策结果用于控制所述指定车辆，但实际应用中，控制策略并不固定，例如，控制序列可直接用于控制所述指定车辆，感知图或预测视频可以间接控制所述指定车辆（在一个可选的实施方式中，感知图和预测视频将作为另一自动驾驶模型的输入，从而通过该另一自动驾驶模型得到指定车辆的控制逻辑）。

生成式模型取决于其模型结构、训练数据以及训练方法的不同，可能在A场景下输出可靠的自动驾驶控制逻辑，同时在B场景下输出不可靠的自动驾驶控制逻辑，这也是生成式模型未被现有方案采用为自动驾驶决策模型的原因。

而本实施例提供的三种决策结果及其组合，可以为类似上述A场景、B场景的情况提供更多的决策可选路径。

只存在一种类型的决策结果的情况下：

对于控制序列类型的决策结果而言，其可以被理解并用于直接控制车辆，通常对应着类似A场景的情况中；

对于感知图类型的决策结果而言，其可以被理解为对目标（可能是道路上车辆、行人，或者路沿、树木、指示牌等）轨迹和位置的预测，从而在后续模块（例如，另一自动驾驶决策模块）中作为输入从而得到车辆控制逻辑；

对于预测视频类型的决策结果而言，其可以理解为对视觉传感器输出结果的预测，从而在后续模块（例如，另一自动驾驶决策模块）中作为输入从而得到车辆控制逻辑。

感知图和预测视频对应的后续模块具有一定的区别，由于存在着一些基于视觉传感器输入的自动驾驶预训练模型，因此可以理解，设置在预测视频下游的后续模块相对于现有自动驾驶模型具有更好的兼容性（即可以将现有模型作为与训练模型执行再次训练以节省计算资源和数据资源）；而感知图省去了目标识别的需求，能够提升自动驾驶决策的实时性，减少计算资源需求。

值得说明的是，不论是感知图还是预测视频，后续模块都应当是基于对应的样本（感知图样本或预测视频样本）和标签训练得到的自动驾驶决策模型。

存在多种类型的决策结果的情况下：

可以通过任意数量的决策结果得到多个自动驾驶控制逻辑（例如，可以有一个控制序列的自动驾驶控制逻辑、一个基于感知图二次预测得到的自动驾驶控制逻辑以及一个基于预测视频二次预测得到的自动驾驶控制逻辑），并进而通过置信度参数对多个自动驾驶控制逻辑进行筛选或融合，以更可靠地控制车辆。

由于存在着多个类型的决策结果，在具有单个类型的决策结果的实施方式中，需要明确各类型的决策结果输出时对应的执行条件。

首先应当明确，对于基于生成式模型的自动驾驶模型而言，执行训练的操作员（或测试员）能够预期，在特定的模型结构、训练数据以及训练方法下，该模型在哪些场景下具有更好的可靠性、在哪些场景下具有中等的可靠性、在哪些场景下具有较低的可靠性，在此基础上，可以将场景进行分类（例如，上述示例中的AB分类，或者更多类型的分类，当决策结果的类型仅有三种时，最多可以存在7种分类，分别对应三种类型的决策结果的7种组合）

为了实现生成式自动驾驶模型的自动输出，需要对模型进行再次调整（例如，选择性训练以使得生成式自动驾驶模型在车辆控制序列的置信度较高时输出车辆控制序列，否则，输出感知图和预测视频这二者种置信度较高者）。

具体地，在一个可选的实施方式中，可以：

1）不同路况选择不同的输出，例如拥堵路况输出感知图、简单路况输出预测视频；

2）不同道路选择不同输出，例如高速输出控制序列，城市道路输出感知图。

在一个基于单个类型的决策结果输出的实施方式中，所述自动驾驶模型被训练为根据传感器信息（即环境数据）输出特定类型的决策结果。

对于控制序列类型的输出，可以理解为自动驾驶模型认为这种场景是它擅长的，这种环境数据对应的场景就是A场景。

对于感知图或预测视频类型的输出，可以理解为自动驾驶模型认为这种场景是它不够擅长的，这种环境数据对应的场景就是B场景。

更进一步地，感知图或预测视频仍然可以对应有不同的场景。

上述实施方式中功能的实现有赖于训练数据的选取和损失函数的设定。

下面将对自动驾驶模型的训练过程进行说明。

将未经训练的自动驾驶模型的初始状态记为初始模型。

利用车辆在道路上运行的传感器数据及车辆运行数据（可以是其它模型输出的自动驾驶决策、也可以是多个驾驶员输出的操作）对初始模型进行训练，得到第一模型。

此时，第一模型已经具备了一定的决策能力，取决于训练数据的具体类型（例如，通用数据，或者，高速路上的特化数据），第一模型能够在对应类型的场景下具有一定的自动驾驶水平，但不论场景如何，第一模型的驾驶决策均是不含有驾驶员个人习惯的通用驾驶模式。

随后，将第一模型部署至指定车辆，作为示例而非限定，后续将以该指定车辆为指定驾驶员的私家车辆的情形进行说明。

由于第一模型仅经过了较为基础的训练，此时部署于该指定车辆上时，仍然需要驾驶员保持专注，一些情况下，可以将此时的自动驾驶模型理解为辅助驾驶模型，随着该指定驾驶员使用车辆，则车辆传感器采集得到的环境数据将与第一模型输出的决策结果、该指定驾驶员的操作形成对应关系，这部分数据被记录存储，随后当数据量达到一定数量时，可以利用这部分包含该指定驾驶员驾驶习惯的数据对第一模型再次进行训练，得到第二模型。

可以理解，经过训练的第二模型保留了驾驶员的部分驾驶习惯，能够使得驾驶员的使用体验更佳，在此基础上，车辆传感器采集得到的环境数据、第二模型输出的决策结果、该指定驾驶员的操作仍然将被记录，并在合适时机是进行迭代优化训练。

也就是说，在一个可选的实施方式中，所述以所述环境数据为输入，运行自动驾驶模型，得到决策结果的步骤后，还包括：

所述以所述环境数据为输入，运行自动驾驶模型，得到决策结果的步骤后，还包括：

本实施方式的有益效果在于：

通过记录自动驾驶模型运行过程中输入的环境数据、输出的决策结果以及驾驶员介入操作对模型进行优化训练，使得模型能够输出更加符合驾驶员习惯的决策结果。

本实施例的有益效果在于：

使用生成式模型进行自动驾驶决策，相较于传统的基于规则或者分类器的决策方法，具有更高的决策效率和灵活性；同时，生成式模型可以根据实时采集到的环境信息和历史驾驶数据进行自适应学习，解决了训练数据获取困难的问题，提高决策的准确性和适应性，具备更加智能化的特点；此外，通过历史数据进行的训练过程为模型的定制化扩展和升级提供了可能，即模型可以针对特定的需要加强的场景进行数据筛选和加强训练，以提升该场景下的决策性能；

根据上述实施例，在又一实施例中：

所述环境数据包括激光雷达、毫米波雷达以及视觉传感器中的至少一者在所述第一时段内的采集数据。

所述获取环境数据的步骤包括：

所述提取所述传感器采集数据的特征，得到所述环境数据的至少一部分的步骤包括：

所述车辆控制序列包括所述第二时段内指定时刻的动力开关开度、刹车开度以及方向盘转角。

自动驾驶系统中，数据采集和预处理的过程能够为自动驾驶模型提供较好的输入基础，本实施例采用多种传感器和数据源，如摄像头、激光雷达等，实时采集车辆周围的环境信息。对这些原始数据进行预处理及特征提取等操作，将其转化为模型可以处理的输入数据。

本实施例的目的之一在于提供一种车辆自动驾驶决策方法，以解决目前自动驾驶技术中存在的部分问题，包括以下几点：

1.提高自动驾驶系统的预测精度

传统的自动驾驶系统在预测路况、车辆行驶轨迹等方面存在精度不高、误差较大的问题。本技术方案采用了基于生成式模型的方法，通过学习历史行驶数据和实时感知数据，构建了一种更加准确、高效的预测模型，从而提高了自动驾驶车辆的预测精度。

2.提升自动驾驶车辆的自适应性能

目前的自动驾驶系统往往依赖于大量的预设规则和人工标注数据，难以适应复杂多变的路况和行驶环境。本技术方案利用了生成式模型的特点，通过大规模的数据学习和自我适应，构建了一种更加灵活、自适应的自动驾驶系统，能够在复杂多变的道路环境下实现更为稳定的行驶。

3.增强自动驾驶车辆的决策能力

传统的自动驾驶系统往往只能基于静态规则和先验知识做出决策，难以做出复杂的高级决策。本技术方案采用了生成式模型，通过深度学习和模型优化等技术手段，实现了一种更加智能、高效的决策模型，能够实现更加精准、高级的决策能力。

综上所述，本实施例采用了基于生成式模型的自动驾驶系统与方法，可以有效解决目前自动驾驶技术中存在的诸多问题，提高自动驾驶车辆的性能表现，进一步推动自动驾驶技术的发展和应用。

下面将对本实施例中模型的输入和输出数据进行示例性说明。

本实施例采用了基于生成式模型的方法，构建了一种生成式模型，通过学习历史传感器数据，构建了一种更加准确、高效的预测模型，从而提高了自动驾驶车辆的预测精度。

模型的输入是过去N秒传感器采集到的数据，输出是未来M秒自车决策控制系统的信号。

模型的构建和训练是一个迭代的过程，需要不断地对模型进行调整和优化，以提高模型的性能和准确率。在本技术方案中，采用了深度学习算法和模型优化技术，不断地对模型进行调整和优化，以提高自动驾驶车辆的自适应性能和决策能力。

模型求解的是车端控制序列生成的概率，即，其中/>是指车辆控制动作，包括油门开度、方向盘转角、刹车等数值，/>是指采集到的数据状态，包括障碍物长宽高及速度、红绿灯状态、车道线情况。

具体来说，可以表示：

1、油门开度：为0~1的区间，0表示完全松开油门，1表示完全踩下油门。

2、方向盘转角：表示车辆前轮的转向角度。它的取值范围可以是一个有限的角度范围，通常在负数和正数之间，表示左转和右转。具体的取值范围也可以根据车辆的设计和转向系统的要求而有所不同。

3、刹车：表示车辆的减速或停止操作。刹车的取值范围通常是0到1之间的连续值，其中0表示未踩刹车，1表示完全踩下刹车。

表示环境状态，包括：

2、前方红绿灯状态：红、黄、绿，绑定哪一条车道；

2、车道线情况：起点、终点、长度；

3、障碍物长宽高及速度、行驶方向。

下面将以实际场景为例，对本实施例的运行结果予以介绍。

利用本实施例的自动驾驶模型，用于预测车辆控制动作序列的生成概率。输入到模型的数据包括车辆控制动作的相关数值以及环境状态的描述。

具体的输入和输出数值示例如下：

输入是多帧数据，每一帧对应类似以下数值：

前方红绿灯状态：绿灯，绑定当前车道。

车道线情况：起点坐标 (x1, y1) = (100, 200)，终点坐标 (x2, y2) = (400,200)，长度为300。

障碍物1：长宽高为 (4, 2, 1) 米，速度为10 m/s，行驶方向为正前方。

障碍物2：长宽高为 (3, 3, 1.5) 米，速度为5 m/s，行驶方向为左前方。

输出是多个连续点，每一点对应数值样例如下：

油门开度：0.5 （表示油门开度为50%）。

方向盘转角：-10度（表示车辆向左转10度）。

刹车：0.2 （表示刹车开度为20%）。

图4示出了本实施例提供的自动驾驶架构的流程示意图。

在推理过程前，需要对自动驾驶模型进行预训练。

经过预训练的模型部署在指定车辆后，能够基于预处理后的车辆传感器采集数据作为输入，推理得到决策结果，该决策结果用于控制指定车辆。

随着指定车辆上自动驾驶模型的运行，车辆传感器采集得到的数据和指定车辆的控制数据将被记录为历史数据，当历史数据量满足预设的条件后，将进一步对生成式模型进行迭代训练以优化性能。

本实施例提供的基于生成式模型的自动驾驶模型能够克服传统方法的一些缺陷和局限性，包括但不限于：

1. 相对基于规则的决策方法：传统的自动驾驶系统可能使用基于规则的方法进行决策，例如采用固定的判断条件和预设的动作规则进行驾驶决策。然而，这种方法通常只适用于特定的驾驶场景和条件，对复杂的驾驶场景和环境缺乏适应性和灵活性。

2. 相对基于分类器的决策方法：另一种可能的替代方案是采用基于分类器的方法进行自动驾驶决策，例如使用神经网络或支持向量机等算法进行分类。然而，这种方法通常需要大量的数据进行训练和调整，并且对输入数据的质量和特征要求较高。

3. 相对混合式决策方法：还有一种可能的替代方案是采用混合式决策方法，即将基于规则和分类器的方法进行结合使用，从而兼顾两者的优点。然而，这种方法的实现需要考虑如何合理地组合不同的决策方法，以及如何在不同的驾驶场景和条件下选择合适的决策方式。

4. 相对基于强化学习的决策方法：另外一种替代方案是采用基于强化学习的方法进行驾驶决策，该方法通过不断地与环境交互，从而自动学习最优的驾驶策略。然而，该方法需要大量的计算资源和训练时间，并且存在过拟合和收敛速度慢等问题。

也就是说，本实施例采用车辆自动驾驶决策决策方法，能够较好地解决传统方法存在的问题，具有更高的适应性和灵活性。同时，虽然也存在替代方案，但这些方案往往存在各自的缺陷和局限性。

本实施例的有益效果在于：

安全性：本技术方案使用生成式模型进行自动驾驶决策时，可以结合实时传感器数据对环境进行感知和识别，从而避免潜在的危险和风险，提高驾驶安全性。

适应性：本技术方案使用的生成式模型可以根据实时环境信息进行适应性决策，同时还可以对历史驾驶数据进行学习，从而适应各种复杂的道路情况和驾驶场景。

可扩展性：本技术方案使用的生成式模型可以进行模型的扩展和升级，从而可以应对更多的驾驶场景和复杂道路条件。

通过以上优势和特点，本实施例可以实现自动驾驶的高效、智能、安全、适应和可扩展，从而具有广阔的应用前景和市场价值。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的车辆自动驾驶决策方法，图2示出了本申请实施例提供的车辆自动驾驶决策装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图2，该装置包括：

获取模块201，用于获取环境数据，所述环境数据包括部署于指定车辆的传感器在第一时段内的采集数据，所述第一时段早于参考时刻；

决策模块202，用于以所述环境数据为输入，运行自动驾驶模型，得到决策结果；其中，所述自动驾驶模型是以历史传感器数据作为样本执行第一训练得到的生成式模型，所述决策结果用于控制所述指定车辆，且所述决策结果包括如下至少一个：

在一个可选的实施方式中，该装置还包括：

第二训练模块，用于确定迭代训练样本数量大于预设阈值，则基于所述迭代训练样本对所述自动驾驶模型执行第二训练，得到更新后的自动驾驶模型；

在一个可选的实施方式中，所述环境数据包括激光雷达、毫米波雷达以及视觉传感器中的至少一者在所述第一时段内的采集数据。

在一个可选的实施方式中，获取模块201包括：

采集子模块，用于通过部署于指定车辆的传感器获取所述第一时段内的传感器采集数据；

提取子模块，用于提取所述传感器采集数据的特征，得到所述环境数据的至少一部分。

在一个可选的实施方式中，提取子模块包括：

特征单元，用于根据所述传感器采集数据，得到交通指示灯状态、交通标识状态、车道信息、车道线信息、障碍物位置、障碍物速度以及障碍物移动方向中的至少一个作为所述环境数据的至少一部分。

在一个可选的实施方式中，所述车辆控制序列包括所述第二时段内指定时刻的动力开关开度、刹车开度以及方向盘转角。

在一个可选的实施方式中，该装置还包括：

决策控制模块，用于确定驾驶员未操作所述指定车辆，则基于所述决策结果控制所述指定车辆；

驾驶员控制模块，用于确定所述驾驶员操作所述指定车辆，则基于所述驾驶员的操作控制所述指定车辆，并记录所述驾驶员的操作。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，如图3所示，该终端设备30包括：至少一个处理器301、存储器302以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序303，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种车辆自动驾驶决策方法，其特征在于，包括：

2.如权利要求1所述的车辆自动驾驶决策方法，其特征在于，所述以所述环境数据为输入，运行自动驾驶模型，得到决策结果的步骤后，还包括：

3.如权利要求1或2所述的车辆自动驾驶决策方法，其特征在于，所述环境数据包括激光雷达、毫米波雷达以及视觉传感器中的至少一者在所述第一时段内的采集数据。

4.如权利要求3所述的车辆自动驾驶决策方法，其特征在于，所述获取环境数据的步骤包括：

5.如权利要求4所述的车辆自动驾驶决策方法，其特征在于，所述提取所述传感器采集数据的特征，得到所述环境数据的至少一部分的步骤包括：

6.如权利要求1、2、4、5中任一项所述的车辆自动驾驶决策方法，其特征在于，所述车辆控制序列包括所述第二时段内指定时刻的动力开关开度、刹车开度以及方向盘转角。

7.如权利要求1、2、4、5中任一项所述的车辆自动驾驶决策方法，其特征在于，所述以所述环境数据为输入，运行自动驾驶模型，得到决策结果的步骤后，还包括：

8.一种车辆自动驾驶决策装置，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。