CN116088321B

CN116088321B - 一种自动驾驶决策控制方法、装置及电子设备

Info

Publication number: CN116088321B
Application number: CN202310382171.4A
Authority: CN
Inventors: 余舒; 衡阳; 夏勇; 于猛; 涂正; 周熙钦; 王敏
Original assignee: Zhejiang Geely Holding Group Co Ltd; Ningbo Geely Automobile Research and Development Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Ningbo Geely Automobile Research and Development Co Ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-04
Anticipated expiration: 2043-04-12
Also published as: CN116088321A

Abstract

本申请涉及智能驾驶技术领域，具体公开了一种自动驾驶决策控制方法、装置及电子设备，该方法包括：获取状态空间数组；将状态空间数组输入深度强化学习模型和安全控制模型，得到基于深度强化学习模型输出的第一行为动作和第一轨迹以及基于安全控制模型输出的第二行为动作和第二轨迹；计算第一轨迹的点列和第二轨迹的点列之间的均方差值，判断均方差值是否大于预设权重值；若是，则采用第二行为动作和第二轨迹；若否，则采用第一行为动作和第一轨迹。基于上述方法，可以有效提高自动驾驶决策的鲁棒性和安全性。

Description

一种自动驾驶决策控制方法、装置及电子设备

技术领域

本申请涉及智能驾驶技术领域，尤其涉及一种自动驾驶决策控制方法、装置及电子设备。

背景技术

随着人工智能的发展，基于学习的决策方法开始应用于自动驾驶决策，其中深度强化学习的应用，衍生出端到端的自动驾驶系统架构。

端到端方案集合深度学习的特征提取、强化学习的试错机制，通过智能车辆在仿真或实际的开放环境中不断行驶以及与服务器交互，获取环境的状态数据和车辆的控制参数，不断训练优化智能车辆的行为选择策略，以使车辆输出最优的行为动作。

基于深度强化学习的架构，可通过实时在线的模型训练，提升自动驾驶车辆在多样化环境下的泛化能力，一定程度上简化了自动驾驶技术的开发流程。但是，深度强化学习的端到端方案，核心之处在于神经网络的模型训练过程。若直接在实车上部署训练，会导致神经网络模型的训练效率低下，若神经网络模型未训练完成，会导致车辆输出的行为动作不是最优，输出大量无意义、危险的动作。

发明内容

本申请提供一种自动驾驶决策控制方法、装置及电子设备，通过从基于深度强化学习模型提供的决策和基于安全控制模型提供的决策中筛选出符合当前场景的最优决策，来提高自动驾驶决策的鲁棒性和安全性。同时，基于筛选出的最优决策对深度强化学习模型进行反馈更新，提高深度强化模型的训练效率。

第一方面，本申请提供了一种自动驾驶决策控制方法，所述方法包括：

获取状态空间数组，其中，所述状态空间数组包含当前车辆的车辆数据和所述当前车辆所处环境的环境数据；

将所述状态空间数组输入深度强化学习模型和安全控制模型，得到基于所述深度强化学习模型输出的第一行为动作和第一轨迹以及基于所述安全控制模型输出的第二行为动作和第二轨迹；

计算所述第一轨迹的点列和所述第二轨迹的点列之间的均方差值，判断所述均方差值是否大于预设权重值；

若是，则采用所述第二行为动作和所述第二轨迹；

若否，则采用所述第一行为动作和所述第一轨迹。

在本申请实施例中，通过将第一轨迹的点列和第二轨迹的点列之间的均方差值与对应场景的权重值进行比较，来确定选择基于深度强化学习模型输出的第一行为动作和第一轨迹或选择基于安全控制模型输出的第二行为动作和第二轨迹，这种混合决策方式可以提高自动驾驶决策的鲁棒性，提高自动驾驶的安全性。

在一种可能的设计中，所述判断所述均方差值是否大于预设权重值，包括：根据所述环境数据，确定所述当前车辆所处环境所属的场景种类；若所述当前车辆所处环境属于第一类场景，则获取所述第一类场景对应的第一权重值，将所述第一权重值作为所述预设权重值，并判断所述均方差值是否大于所述预设权重值；若所述当前车辆所处环境属于第二类场景，则获取所述第二类场景对应的第二权重值，将所述第二权重值作为所述预设权重值，并判断所述均方差值是否大于所述预设权重值，其中，所述第二权重值小于所述第一权重值。

通过比较第一轨迹的点列和第二轨迹的点列之间的均方差值是否大于场景对应的预设权重值，从而决定采用基于深度强化学习模型输出的第一行为动作和第一轨迹或采用基于安全控制模型输出的第二行为动作和第二轨迹。从两套行为动作和轨迹中确定出更符合场景情况的行为动作和轨迹，保证了当前车辆始终处于安全约束下的自动驾驶，提高了车辆自动驾驶的安全性。

在一种可能的设计中，所述获取状态空间数组，包括：获取所述当前车辆的车辆数据和所述当前车辆所处环境的环境数据，将所述车辆数据和所述环境数据进行缺省处理和异常值筛除处理，得到初始数据集；将所述初始数据集导入感知模型，基于所述感知模型输出所述状态空间数组。

通过将车辆数据和环境数据进行缺省处理和异常值筛除处理，排除掉存在干预的数据和存在错误的数据，保证得到的初始数据集拥有较高的准确性，从而得到准确的状态空间数组。

在一种可能的设计中，在所述采用所述第二行为动作和所述第二轨迹之后，还包括：将所述第二行为动作和所述第二轨迹作为反馈数据，反馈给所述深度强化学习模型；基于所述反馈数据以及更新权重值，更新所述深度强化学习模型的模型参数。

通过反馈基于安全控制模型输出的第二行为动作和第二轨迹给深度强化学习模型，基于预设的更新权重值，更新深度强化学习模型的模型参数，加快深度强化学习模型的收敛速度，提高深度强化学习模型的训练效率，提升深度强化学习模型的泛化性。

第二方面，本申请提供了一种自动驾驶决策控制装置，所述装置包括：

数组获取模块，获取状态空间数组，其中，所述状态空间数组包含当前车辆的车辆数据和所述当前车辆所处环境的环境数据；

行为获取模块，将所述状态空间数组输入深度强化学习模型和安全控制模型，得到基于所述深度强化学习模型输出的第一行为动作和第一轨迹以及基于所述安全控制模型输出的第二行为动作和第二轨迹；

权重判断模块，计算所述第一轨迹的点列和所述第二轨迹的点列之间的均方差值，判断所述均方差值是否大于预设权重值；

第一采用模块，若所述均方差值大于所述预设权重值，则采用所述第二行为动作和所述第二轨迹；

第二采用模块，若所述均方差值小于等于所述预设权重值，则采用所述第一行为动作和所述第一轨迹。

在一种可能的设计中，所述权重判断模块，具体用于：根据所述环境数据，确定所述当前车辆所处环境所属的场景种类；若所述当前车辆所处环境属于第一类场景，则获取所述第一类场景对应的第一权重值，将所述第一权重值作为所述预设权重值，并判断所述均方差值是否大于所述预设权重值；若所述当前车辆所处环境属于第二类场景，则获取所述第二类场景对应的第二权重值，将所述第二权重值作为所述预设权重值，并判断所述均方差值是否大于所述预设权重值，其中，所述第二权重值小于所述第一权重值。

在一种可能的设计中，所述数组获取模块，具体用于：获取所述当前车辆的车辆数据和所述当前车辆所处环境的环境数据，将所述车辆数据和所述环境数据进行缺省处理和异常值筛除处理，得到初始数据集；将所述初始数据集导入感知模型，基于所述感知模型输出所述状态空间数组。

在一种可能的设计中，所述装置还包括：

轨迹反馈模块，将所述第二行为动作和所述第二轨迹作为反馈数据，反馈给所述深度强化学习模型；

参数更新模块，基于所述反馈数据以及预设的更新权重值，更新所述深度强化学习模型的模型参数。

第三方面，本申请提供了一种电子设备，所述电子设备包括：

存储器，用于存放计算机程序；

处理器，用于执行所述存储器上所存放的计算机程序时，实现上述的一种自动驾驶决策控制方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种自动驾驶决策控制方法的步骤。

上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。

附图说明

图1为本申请提供的一种自动驾驶决策控制方法的流程图；

图2为本申请提供的一种可能的应用场景的结构图；

图3为本申请提供的一种可能的自动驾驶决策控制系统的结构图；

图4为本申请提供的一种自动驾驶决策控制装置的示意图；

图5为本申请提供的一种电子设备的结构的示意图。

实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。方法实施例中的具体操作方法也可以应用于装置实施例或系统实施例、以及计算机程序产品中。

在本申请的描述中“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。A与B连接，可以表示：A与B直接连接和A与B通过C连接这两种情况。另外，在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

下面对本申请实施例的设计思想进行简要介绍。

传统基于规则的自动驾驶技术采用模块化分层结构，包括：感知、定位、预测、规划、控制等模块，各模块具有一定的独立性，算法之间和算法内部可解释性强，可极为高效的分析和处理异常状态。然而，分层结构需要单独对各模块的算法进行手动调参、验证，在应对实际的复杂交通环境下时，自适应能力弱，鲁棒性欠佳。

基于深度强化学习的自动驾驶技术通过智能车辆在仿真或实际的开放环境中不断行驶以及与服务器交互，获取环境的状态数据和车辆的控制参数，不断训练优化智能车辆的行为选择策略，以使车辆输出最优的行为动作。基于深度强化学习的架构，可以利用感知检测的鸟瞰图以及地图信息作为网络输入，通过训练的网络模型，直接输出加减速度、方向盘转角等控制动作以及预测轨迹，极大地简化了各模块化的算法模型，减少了模型的搭建、训练、调参等工作，同时，也可通过实时在线的模型训练，提升自动驾驶车辆在多样化环境下的泛化能力。但是，基于深度强化学习的自动驾驶决策效果往往需要依赖大量的样本状态信息，并且容易受到状态信息的干扰，导致自动驾驶决策的鲁棒性和准确性较低。

为了解决上述技术问题，本申请提供了一种自动驾驶决策控制方法，该方法通过从基于深度强化学习模型提供的决策和基于安全控制模型提供的决策中筛选出符合当前场景的最优决策，并将最优决策反馈给深度强化学习模型，以实现对深度强化学习模型的持续更新，提高深度强化模型的训练效率，以及提高自动驾驶决策的鲁棒性和安全性。

值得说明的是，本申请实施例包含的技术特征可以任意结合使用，本领域技术人员应当明白，从实际应用情况出发，经本申请实施例中技术特征进行合理结合得到的技术方案，同样可以解决相同的技术问题或达到相同的技术效果。

下面结合附图对本申请实施例所提供的方法作出进一步详细说明。

参阅图1所示，本申请实施例提供了一种生成图像的方法，具体流程如下：

步骤101：获取状态空间数组；

在本申请实施例中，状态空间数组包含当前车辆的车辆数据和当前车辆所处环境的环境数据。

具体来说，基于当前车辆的感知系统采集当前车辆的车辆数据和当前车辆所处环境的环境数据。其中，感知系统中可以包括摄像头、激光雷达、毫米波雷达等信息采集设备。

当前车辆的车辆数据可以包括但不限于：当前车辆的行驶速度、加速度、转向信息、刹车信息以及油门信息。当前车辆所处环境数据可以包括但不限于：障碍物信息、车道信息、障碍物与当前车辆的距离信息、障碍物与车道的距离信息、障碍物与车道的夹角信息。障碍物可以是静止物体，比如石头、栏杆等，也可以是移动中的物体，比如行人、动物、其他移动车辆等。

在采集到当前车辆的车辆数据和当前车辆所处的环境数据之后，将该车辆数据和该环境数据通过时间戳切片，并经过缺省处理和异常值筛除处理，得到初始数据集。

通过将车辆数据和环境数据进行缺省处理和异常值筛除处理，排除掉存在干预的数据和错误的数据，保证得到的初始数据集拥有较高的准确性。

将初始数据集导入当前车辆的感知模型中，基于该感知模型输出：鸟瞰图、车道线向量、当前车辆与障碍物的距离数据、障碍物与车道的距离数据、障碍物与车道的夹角数据、车道拓扑图等数据。将上述数据集成为状态空间数组，该状态空间数组作为深度强化学习模型和安全控制模型的输入。

步骤102：将状态空间数组输入深度强化学习模型和安全控制模型，得到基于深度强化学习模型输出的第一行为动作和第一轨迹以及基于安全控制模型输出的第二行为动作和第二轨迹；

在本申请实施例中，深度强化学习模型是将深度学习的感知能力和强化学习的决策能力相结合的模型，通过交互的目标导向学习的方式以及不断调整奖励参数，学习出最优的决策。安全控制模型通过对场景的理解，以及基于安全驾驶规则的约束，规划出当前车辆合理的行为和轨迹。行为动作可以包括：加减速度、方向盘转角数值、油门数值、刹车数值。

具体来说，如图2所示，将状态空间数组分别输入深度强化学习模型和安全控制模型。深度强化学习模型根据输入的状态空间数组，经过模型计算，输出当前最优的第一行为动作和第一轨迹。安全控制模型根据输入的状态空间数组，进行场景理解，经过FSM（Finite-state machine，有限状态机）以及设计的安全约束模型和轨迹跟踪模型，解算出符合安全规则的第二行为动作和第二轨迹。

通过深度强化学习模型和安全控制模型分别生成两套不同的行为动作和轨迹，用以后续根据场景进行筛选后使用。在两套行为动作和轨迹中进行筛选，使最终得到的自动驾驶决策更准确，有利于提高车辆自动驾驶的安全性。

步骤103：计算第一轨迹的点列和第二轨迹的点列之间的均方差值，判断均方差值是否大于预设权重值；

在本申请实施例中，通过将第一轨迹的点列和第二轨迹的点列之间的均方差值与对应场景的权重值进行比较，来确定选择基于深度强化学习模型输出的第一行为动作和第一轨迹或选择基于安全控制模型输出的第二行为动作和第二轨迹。

具体来说，计算第一轨迹的点列和第二轨迹的点列之间的均方差值，然后根据采集的环境数据，确定当前车辆所处环境所属的场景种类。在本申请实施例中，场景种类可以分为第一类场景：普通场景，和第二类场景：边界场景。其中，普通场景表示当前车辆所处环境比较简单，比如：环境中障碍物较少、环境中障碍物与当前车辆的距离较远、当前行驶道路为直行道路等；边界场景表示当前车辆所处环境比较复杂，例如：环境中障碍物较多、当前行驶道路为多转弯道路等。

在本申请实施例中，对场景分类的具体方式不作限制，可以通过场景分类器对场景进行分类。举例来说，场景分类的方式可以为：将采集的环境数据输入场景分类器，场景分类器将环境数据中的环境图像分别与普通场景预设图像和边界场景预设图像进行匹配，得到对应的第一匹配率和第二匹配率。若第一匹配率大于第二匹配率，则判定当前车辆所处环境属于普通场景；若第二匹配率大于第一匹配率，则判定当前车辆所处环境属于边界场景。

另外，场景分类的方式还可以为：将采集的环境数据输入场景分类器，场景分类器判断环境数据中的障碍物数量、障碍物大小、车道宽度、环境温度、环境湿度等是否在对应的预设阈值范围内，若上述数据都在对应的预设阈值范围内，则判定当前车辆所处环境属于边界场景；若上述数据不在对应的预设阈值范围内，则判定当前车辆所处环境属于普通场景。

在一种可能的实施方式中，当判定当前车辆所处环境属于第一类场景：普通场景时，获取第一类场景对应的第一权重值，例如，第一类场景对应的权重值可以为0.4。将第一权重值作为预设权重值，判断第一轨迹的点列和第二轨迹的点列之间的均方差值是否大于该预设权重值。若该均方差值大于该预设权重值，则执行下述步骤105的操作；若该均方差值小于等于该预设权重值，则执行下述步骤104的操作。

在一种可能的实施方式中，当判定当前车辆所处环境属于第二类场景：边界场景时，获取第二类场景对应的第二权重值，例如，第二类场景对应的权重值可以为0.2。将第二权重值作为预设权重值，判断第一轨迹的点列和第二轨迹的点列之间的均方差值是否大于该预设权重值。若该均方差值大于该预设权重值，则执行下述步骤105的操作；若该均方差值小于等于该预设权重值，则执行下述步骤104的操作。

值得说明的是，在本申请实施例中，边界场景对应的第二权重值小于普通场景对应的第一权重值。第一权重值和第二权重值可以根据深度强化学习模型的输出情况作出适应性调整。例如，当深度强化学习模型的输出逐渐趋于安全控制模型的输出，即上述均方差值逐渐减小时，对应场景的权重值也需要进行调小。

上述通过比较第一轨迹的点列和第二轨迹的点列之间的均方差值是否大于场景对应的预设权重值，从而决定采用基于深度强化学习模型输出的第一行为动作和第一轨迹或采用基于安全控制模型输出的第二行为动作和第二轨迹。从两套行为动作和轨迹中确定出更符合场景情况的行为动作和轨迹，保证了当前车辆始终处于安全约束下的自动驾驶，提高了车辆自动驾驶的准确性和安全性。

步骤104：采用第一行为动作和第一轨迹；

在本申请实施例中，若第一轨迹的点列和第二轨迹的点列之间的均方差值小于等于预设权重值，则采用第一行为动作和第一轨迹，表明选择了基于深度强化学习模型输出的第一行为动作和第一轨迹作为当前的自动驾驶策略。

步骤105：采用第二行为动作和第二轨迹；

在本申请实施例中，若第一轨迹的点列和第二轨迹的点列之间的均方差值大于预设权重值，则采用第二行为动作和第二轨迹，表明选择了基于安全控制模型输出的第二行为动作和第二轨迹作为当前的自动驾驶策略。

进一步地，在采用第二行为动作和第二轨迹之后，将第二行为动作和第二轨迹作为反馈数据，反馈给深度强化学习模型。基于反馈数据，误差传递原则，时间差分原则以及预设的更新权重值，更新深度强化学习模型中的模型参数，训练深度强化学习模型。在本申请实施例中，预设的更新权重值为误差传递的权重参数，可以根据深度强化学习模型的学习情况进行调整。

具体来说，将第二行为动作和第二轨迹反馈给深度强化学习模型。深度强化学习模型将第一行为动作和第二行为动作进行比较，得到行为动作差异值。基于行为动作差异值以及第一轨迹和第二轨迹的均方差值，对深度强化学习模型进行更新。当行为动作差异值和均方差值大于各自对应的上限预设阈值时，比如行为动作差异值大于50%，均方差值大于50%时，扩大误差传递的权重参数，加快深度强化学习模型的收敛速度，提高深度强化学习模型的训练效率。当行为动作差异值和均方差值逐渐减小，小于各自对应的下限预设阈值时，比如行为动作差异值小于5%，均方差值小于10%，此时可以将误差传递的权重参数调小，使深度强化学习模型正常收敛。

综合上述，当自动驾驶决策采用基于安全控制模型输出的第二行为动作和第二轨迹时，可以通过反馈第二行为动作和第二轨迹给深度强化学习模型，并基于行为动作差异值和均方差值的大小变化调整预设的更新权重值，来实现提高深度强化学习模型的训练效率，以及提升深度强化学习模型的泛化性。

基于上述提供的一种自动驾驶决策控制方法，本申请实施例还提供了一种应用该方法的嵌入安全控制模型的深度强化学习自动驾驶系统，该系统具体结构参阅图3所示。

具体来说，嵌入安全控制模型的深度强化学习自动驾驶系统主要由感知模块、安全控制模型、深度强化学习模型和决策筛选单元等组成。感知模块中可以包括：相机、激光雷达、毫米波雷达、载波相位差分技术RTK测量仪、HD Map（高精地图）等。感知模块用于获取状态空间数组，状态空间数组包括：当前车辆的车辆数据和当前车辆所处环境的环境数据。例如障碍物数据、红绿灯数据、车道线数据等。

将获取到的状态空间数组经过同一时间切片，分别下发至深度强化学习模型和安全控制模型。在深度强化学习模型中经过状态估计，预测模型以及目标函数的约束，最终输出第一行为动作和第一轨迹。在安全控制模型中，经过场景理解，FSM状态机，安全约束模型以及轨迹跟踪模型，最终输出第二行为动作和第二轨迹。

将第一行为动作和第一轨迹、环境数据以及第二行为动作和第二轨迹都发送至决策筛选单元，决策筛选模块首先根据环境数据，确定出当前车辆所处环境的场景种类，并得到该场景种类对应的权重值。然后获得第一轨迹的点列和第二轨迹的点列的均方差值，通过判断均方差值是否大于该场景种类对应的权重值，来决定第一行为动作和第一轨迹为最优决策或第二行为动作和第二轨迹为最优决策。若均方差值大于该场景种类对应的权重值，则选取第二行为动作和第二轨迹作为最优决策输出；若均方差值小于等于该场景种类对应的权重值，则选取第一行为动作和第一轨迹作为最优决策输出。

当选取第二行为动作和第二轨迹作为最优决策时，决策筛选单元将该最优决策反馈给深度强化学习模型，深度强化学习模型根据反馈的第二行为动作和第二轨迹，采用对应的反馈权重参数进行模型的修正训练，进一步完善深度强化学习模型。

通过上述系统，一方面可以保证最终得到的自动驾驶决策始终处于安全约束下，提高自动驾驶的安全性，另一方面，根据反馈情况调整深度强化学习模型的收敛速度，提高了深度强化学习模型的训练效率，保证了深度强化学习模型的鲁棒性。

基于同一发明构思，本申请还提供了一种自动驾驶决策控制装置，用以实现从基于深度强化学习模型提供的决策和基于安全控制模型提供的决策中筛选出符合当前场景的最优决策，提高自动驾驶决策的鲁棒性和安全性，参见图4，该装置包括：

数组获取模块401，获取状态空间数组，其中，所述状态空间数组包含当前车辆的车辆数据和所述当前车辆所处环境的环境数据；

行为获取模块402，将所述状态空间数组输入深度强化学习模型和安全控制模型，得到基于所述深度强化学习模型输出的第一行为动作和第一轨迹以及基于所述安全控制模型输出的第二行为动作和第二轨迹；

权重判断模块403，计算所述第一轨迹的点列和所述第二轨迹的点列之间的均方差值，判断所述均方差值是否大于预设权重值；

第一采用模块404，若所述均方差值大于所述预设权重值，则采用所述第二行为动作和所述第二轨迹；

第二采用模块405，若所述均方差值小于等于所述预设权重值，则采用所述第一行为动作和所述第一轨迹。

在一种可能的设计中，所述权重判断模块403，具体用于：根据所述环境数据，确定所述当前车辆所处环境所属的场景种类；若所述当前车辆所处环境属于第一类场景，则获取所述第一类场景对应的第一权重值，将所述第一权重值作为所述预设权重值，并判断所述均方差值是否大于所述预设权重值；若所述当前车辆所处环境属于第二类场景，则获取所述第二类场景对应的第二权重值，将所述第二权重值作为所述预设权重值，并判断所述均方差值是否大于所述预设权重值，其中，所述第二权重值小于所述第一权重值。

在一种可能的设计中，所述数组获取模块401，具体用于：获取所述当前车辆的车辆数据和所述当前车辆所处环境的环境数据，将所述车辆数据和所述环境数据进行缺省处理和异常值筛除处理，得到初始数据集；将所述初始数据集导入感知模型，基于所述感知模型输出所述状态空间数组。

在一种可能的设计中，所述装置还包括：

基于上述装置，从基于深度强化学习模型提供的决策和基于安全控制模型提供的决策中筛选出符合当前场景的最优决策，提高了自动驾驶决策的鲁棒性和安全性。同时，基于筛选出的第二行为动作和第二轨迹对深度强化学习模型进行反馈更新，提高了深度强化模型的训练效率。

基于同一发明构思，本申请实施例中还提供了一种电子设备，所述电子设备可以实现前述一种自动驾驶决策控制装置的功能，参考图5，所述电子设备包括：

至少一个处理器501，以及与至少一个处理器501连接的存储器502，本申请实施例中不限定处理器501与存储器502之间的具体连接介质，图5中是以处理器501和存储器502之间通过总线500连接为例。总线500在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线500可以分为地址总线、数据总线、控制总线等，为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器501也可以称为控制器，对于名称不做限制。

在本申请实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前文论述的自动驾驶决策控制方法。处理器501可以实现图4所示的装置中各个模块的功能。

其中，处理器501是该装置的控制中心，可以利用各种接口和线路连接整个该控制设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，该装置的各种功能和处理数据，从而对该装置进行整体监控。

在一种可能的设计中，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的自动驾驶决策控制方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通过对处理器501进行设计编程，可以将前述实施例中介绍的自动驾驶决策控制方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图1所示的实施例的自动驾驶决策控制方法的步骤。如何对处理器501进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行前文论述自动驾驶决策控制方法。

在一些可能的实施方式中，本申请提供的自动驾驶决策控制方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在装置上运行时，程序代码用于使该控制设备执行本说明书上述描述的根据本申请各种示例性实施方式的自动驾驶决策控制方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种自动驾驶决策控制方法，其特征在于，所述方法包括：

计算所述第一轨迹的点列和所述第二轨迹的点列之间的均方差值，根据所述环境数据，确定所述当前车辆所处环境所属的场景种类；

若所述当前车辆所处环境属于第一类场景，则获取所述第一类场景对应的第一权重值，将所述第一权重值作为预设权重值，并判断所述均方差值是否大于所述预设权重值；

若所述当前车辆所处环境属于第二类场景，则获取所述第二类场景对应的第二权重值，将所述第二权重值作为所述预设权重值，并判断所述均方差值是否大于所述预设权重值，其中，所述第二权重值小于所述第一权重值；若所述均方差值大于所述预设权重值，则采用所述第二行为动作和所述第二轨迹；

若所述均方差值小于等于所述预设权重值，则采用所述第一行为动作和所述第一轨迹。

2.如权利要求1所述的方法，其特征在于，所述获取状态空间数组，包括：

获取所述当前车辆的车辆数据和所述当前车辆所处环境的环境数据，将所述车辆数据和所述环境数据进行缺省处理和异常值筛除处理，得到初始数据集；

将所述初始数据集导入感知模型，基于所述感知模型输出所述状态空间数组。

3.如权利要求1所述的方法，其特征在于，在所述采用所述第二行为动作和所述第二轨迹之后，还包括：

将所述第二行为动作和所述第二轨迹作为反馈数据，反馈给所述深度强化学习模型；

基于所述反馈数据以及预设的更新权重值，更新所述深度强化学习模型的模型参数。

4.一种自动驾驶决策控制装置，其特征在于，所述装置包括：

权重判断模块，计算所述第一轨迹的点列和所述第二轨迹的点列之间的均方差值，根据所述环境数据，确定所述当前车辆所处环境所属的场景种类；若所述当前车辆所处环境属于第一类场景，则获取所述第一类场景对应的第一权重值，将所述第一权重值作为预设权重值，并判断所述均方差值是否大于所述预设权重值；若所述当前车辆所处环境属于第二类场景，则获取所述第二类场景对应的第二权重值，将所述第二权重值作为所述预设权重值，并判断所述均方差值是否大于所述预设权重值，其中，所述第二权重值小于所述第一权重值；

5.如权利要求4所述的装置，其特征在于，所述数组获取模块，具体用于：

6.如权利要求4所述的装置，其特征在于，所述装置还包括：

参数更新模块，基于所述反馈数据以及预设的更新权重值，更新所述深度强化学习模型中的模型参数。

7.一种电子设备，其特征在于，包括：

存储器，用于存放计算机程序；

处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1-4中任一项所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法步骤。