CN114162144B

CN114162144B - 自动驾驶决策方法、装置以及电子设备

Info

Publication number: CN114162144B
Application number: CN202210010100.7A
Authority: CN
Inventors: 李东晨; 魏崇山; 张艺浩; 徐修信; 韩志华; 张旭
Original assignee: Suzhou Zhitu Technology Co Ltd
Current assignee: Suzhou Zhitu Technology Co Ltd
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2024-02-02
Anticipated expiration: 2042-01-06
Also published as: CN114162144A

Abstract

本发明提供了一种自动驾驶决策方法、装置以及电子设备，涉及自动驾驶技术领域，缓解了现有技术中自动驾驶决策局限性较高的技术问题。该方法包括：获取待测试车辆的预设范围内的周围车辆的信息，并基于周围车辆的信息预测周围车辆的预测意图以及预测轨迹；基于预测意图构建序贯博弈树，通过序贯博弈树得到博弈结果；将博弈结果以及预测轨迹均作为输入条件输入至DRL模型，通过DRL模型得到自动驾驶决策结果。

Description

自动驾驶决策方法、装置以及电子设备

技术领域

本申请涉及自动驾驶技术领域，尤其是涉及一种自动驾驶决策方法、装置以及电子设备。

背景技术

目前，自动驾驶决策模块是自动驾驶研发环节中优先级很高的方向，自动驾驶目前应用的决策技术主要是基于状态机的决策方法，使用逻辑推理的状态转移，从一个上层的既定逻辑进入下层决策，例如，先决定是否换道再决定向左还是向右换道。

但是，在自动驾驶领域中，需要覆盖的交通场景千变万化，状态机将不断的扩展复杂化，导致自动驾驶决策局限性较高。

发明内容

本申请的目的在于提供一种自动驾驶决策方法、装置以及电子设备，以缓解现有技术中自动驾驶决策局限性较高的技术问题。

第一方面，本申请实施例提供了一种自动驾驶决策方法，所述方法包括：

获取待测试车辆的预设范围内的周围车辆的信息，并基于所述周围车辆的信息预测所述周围车辆的预测意图以及预测轨迹；

基于所述预测意图构建序贯博弈树，通过所述序贯博弈树得到博弈结果；

将所述博弈结果以及所述预测轨迹均作为输入条件输入至DRL模型，通过所述深度强化学习(Deep Reinforcement Learning，DRL)模型得到自动驾驶决策结果。

在一个可能的实现中，所述方法还包括：

基于所述自动驾驶决策结果，构建序贯博弈模型；

通过所述序贯博弈模型对所述自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果。

在一个可能的实现中，在所述通过所述序贯博弈模型对所述自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果的步骤之后，所述方法还包括：

如果所述第一判断结果不为严格优势策略，则基于决策步长给予所述DRL模型对应的惩罚值，所述DRL模型基于所述惩罚值进行自身优化；其中，所述决策步长为所述DRL模型得到每一次自动驾驶决策结果所需要的时长。

如果所述第一判断结果为严格优势策略，则对所述自动驾驶决策结果是否符合预设条件进行判断，得到第二判断结果；

如果所述第二判断结果符合所述预设条件，则将所述自动驾驶决策结果判定为进化稳定策略，并得到第一奖励值。

在一个可能的实现中，所述方法还包括：

基于所述预测轨迹对所述待测试车辆进行碰撞检测，得到检测结果；

如果所述检测结果为所述待测试车辆通过所述碰撞检测，则得到第二奖励值。

在一个可能的实现中，所述方法还包括：

基于所述第一奖励值、所述第二奖励值以及预设奖励值，通过预设奖励函数生成综合奖励值；

所述DRL模型基于所述综合奖励值进行自身优化。

在一个可能的实现中，所述DRL模型所采用的算法为下述任意一项：

演员-评论家(Actor-Critic，AC)、深度确定性策略梯度(Deep DeterministicPolicy Gradient，DDPG)、异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)以及双延迟深度确定性策略梯度(Twin Delayed Deep DeterministicPolicy Gradient，TD3)。

第二方面，提供了一种自动驾驶决策装置，所述装置包括：

预测模块，用于获取待测试车辆的预设范围内的周围车辆的信息，并基于所述周围车辆的信息预测所述周围车辆的预测意图以及预测轨迹；

构建模块，用于基于所述预测意图构建序贯博弈树，通过所述序贯博弈树得到博弈结果；

决策模块，用于将所述博弈结果以及所述预测轨迹均作为输入条件输入至DRL模型，通过所述DRL模型得到自动驾驶决策结果。

第三方面，本申请实施例又提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。

第四方面，本申请实施例又提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述第一方面所述的方法。

本申请实施例带来了以下有益效果：

本申请实施例提供的一种自动驾驶决策方法、装置以及电子设备，首先获取待测试车辆的预设范围内的周围车辆的信息，并基于周围车辆的信息预测周围车辆的预测意图以及预测轨迹，之后基于预测意图构建序贯博弈树，通过序贯博弈树得到博弈结果，从而将博弈结果以及预测轨迹均作为输入条件输入至DRL模型，通过DRL模型得到自动驾驶决策结果。本方案中，提取了博弈论中最符合交通环境特征的序贯博弈，结合DRL进行决策，通过序贯博弈树得到博弈结果，将博弈结果与预测轨迹作为DRL模型的输入条件，进而通过DRL模型得到可靠的自动驾驶决策结果，相比于状态机，本方案根据序贯博弈指导强化学习模型，通过继承深度强化学习原有的泛化能力和可学习性，并将动态博弈中的序贯博弈结合进深度强化学习中，使其能够动态的优化策略，缓解了现有技术中自动驾驶决策局限性较高的技术问题。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种自动驾驶决策方法的流程示意图；

图2为本申请实施例提供的为本申请实施例提供的一种自动驾驶决策方法的整体架构示意图；

图3为本申请实施例提供的一种自动驾驶决策方法的决策产生方式示意图；

图4为本申请实施例提供的一种自动驾驶决策装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

自动驾驶决策模块目前是自动驾驶研发环节中优先级很高的方向。决策模块负责接收上游的感知信息，类似于人的视觉触觉味觉等，输出当前自动驾驶车辆下一步的语义行为或者时序轨迹给到下游模块进行执行。决策模块和人类的思考过程相近，其主要作用是用于指导自动驾驶车辆的下一步行为。自动驾驶目前应用的决策技术主要是基于状态机的决策方法。该方法使用逻辑推理的状态转移，从一个上层的既定逻辑进入下层决策，比如：先决定是否吃饭再决定吃什么。状态机的决策是稳定可靠的，但是随着需要使用的场景的增加，状态机将不断的扩展，复杂化。在自动驾驶领域中，要覆盖的交通场景千变万化，状态机无论是深度还是广度都不具有很好的泛化性，而且伴随着自动驾驶任务的增加，代码的数量和维护难度也都将指数级增加。如果上层决策发生了变化，下层的决策就需要一一的完善，因此适用性和泛用性都有一定的限制。

使用深度学习和强化学习等新兴技术可以使模型的泛化能力更强，基于深度强化学习的模型更是能获得更优秀的决策(已经在游戏、棋牌领域优于顶尖职业选手)，但是在做自动驾驶的决策中，由于上游模块的限制，决策模块无法获得非常准确的推演，在围棋中是可以穷尽所有寻求最优的，并且在游戏中可以无限次推演以寻求最优。自动驾驶的环境很复杂且不容失误，现阶段仿真环境搭建的复杂程度还远远不及实际的交通实况。基于博弈论的决策往往应用于某种具体的问题，比如是否换道。基于博弈的决策能够比较好的描述和建模交通行为，但是由于基础博弈中缺乏可学习的参数，其泛用性受到了很大的限制。基于深度强化学习的决策模型虽然可以替换状态机做决策，但是在建模仿真中仍然不能满足实际的需求，单纯基于博弈的决策模型缺乏泛用性。

由上述缺陷可知，现有技术中存在着自动驾驶决策局限性较高的技术问题。

基于此，本申请实施例提供了一种自动驾驶决策方法、装置以及电子设备，相比于状态机，通过继承深度强化学习原有的泛化能力和可学习性，解决了状态机决策器的泛化问题，也不存在维护的难度。相比于深度强化学习，应用了序贯博弈的方法，使用进化稳定策略去优化深度强化学习模型，使其能够动态的优化策略，缓解了现有技术中自动驾驶决策局限性较高的技术问题。

下面结合附图对本申请实施例进行进一步地介绍。

图1为本申请实施例提供的一种自动驾驶决策方法的流程示意图。如图1所示，该方法包括：

步骤S110，获取待测试车辆的预设范围内的周围车辆的信息，并基于周围车辆的信息预测周围车辆的预测意图以及预测轨迹。

示例性的，如图2所示，首先用户搭建基于交通事件的仿真模型，模型中包括待测试车辆以及若干其它车辆。在仿真环境中，系统可以按照预设筛选逻辑确认需要参与博弈的车辆，即预设范围内的周围车辆，例如，在高速道路测试中考虑待测试车辆周围的九宫格内车辆，在城市道路测试中则不考虑在本车后方的若干辆车等等。然后对周围车辆应用已经预先训练好的学习模型，使其能按照一定的概率在环境中做出一定行为，即周围车辆将随机触发一些带有观测时间的事件，例如换道、刹车急停等等。之后系统获取待测试车辆的预设范围内的周围车辆的信息，并通过预测模块基于周围车辆的信息预测周围车辆的预测意图以及预测轨迹，并进行输出。

在实际应用中，仿真环境可以根据需求的高精度地图在Carla中搭建。Carla是一个用于自动驾驶研究的开源模拟器，支持自动驾驶系统的开发、培训和验证。还支持灵活规范的传感器组件，环境条件，全面控制所有静态和动态角色，地图生成等。

步骤S120，基于预测意图构建序贯博弈树，通过序贯博弈树得到博弈结果。

示例性的，如图3所示，系统基于获取上游的预测意图，建立待测试车辆和周围车辆的序贯博弈树，并对待测试车辆应用DRL模型。上游的预测意图是一种语义预测，序贯博弈是一种基于语义模型搭建的模型，即使用语义预测构建序贯博弈树。可以理解为，语义预测是使用序贯博弈部分维护一个栈，用来评价一个连续帧的变化。博弈树包含了换道和直行两种行为，构建博弈树后，系统可以通过序贯博弈的方法得到博弈结果。

在实际应用中，可以对待测试车辆应用DRL模型使用Actor-Critic算法,将决策树的收益应用于Critic网络，更新其奖励值。

步骤S130，将博弈结果以及预测轨迹均作为输入条件输入至DRL模型，通过DRL模型得到自动驾驶决策结果。

示例性的，如图3所示，系统将博弈结果作为DRL模型的第一个输入条件，将获取到的上游的预测轨迹作为第二个输入条件，一起输入至训练好的DRL模型，通过DRL模型得到自动驾驶决策结果，决定换道或是直行，并将自动驾驶决策结果输出给下游的规划器，由规划器进行下一步的具体执行。

本申请实施例中，提取了博弈论中最符合交通环境特征的序贯博弈，结合深度强化学习进行决策，根据序贯博弈指导强化学习模型，通过序贯博弈树得到博弈结果，将博弈结果与预测轨迹作为DRL模型的输入条件，进而通过DRL模型得到可靠的自动驾驶决策结果，相比于状态机，本方案通过继承深度强化学习原有的泛化能力和可学习性，并将动态博弈中的序贯博弈结合进深度强化学习中，使其能够动态的优化策略，缓解了现有技术中自动驾驶决策局限性较高的技术问题。

下面对上述步骤进行详细介绍。

在一些实施例中，通过构建序贯博弈模型，将序贯博弈与深度强化学习相结合，将序贯博弈的评价结合到DRL模型的算法中，从而可以对自动驾驶决策结果的优劣进行精准的判断，进而便于对DRL模型进行进一步的优化，提高自动驾驶决策的可靠性，降低自动驾驶决策局限性。作为一个示例，该方法还可以包括如下步骤：

步骤a)，基于自动驾驶决策结果，构建序贯博弈模型。

步骤b)，通过序贯博弈模型对自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果。

示例性的，如图2所示，系统可以记录每一个决策步长内DRL模型所做出的自动驾驶决策结果，并基于此构建序贯博弈模型，针对每一个自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果。

其中，全面的严格的优势策略简称严格优势策略，是指不论对方采取什么策略，决策者采取的这个策略总比采取其他任何策略都好的策略。可以理解为，如果“直行”这一自动驾驶决策结果为严格优势策略，则无论待测试车辆的周围车辆做出什么行为，待测试车辆选择执行总是最好的选择。

通过使系统基于自动驾驶决策结果，构建序贯博弈模型，并通过序贯博弈模型对自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果，可以对自动驾驶决策结果的优劣进行精准的判断，进而便于对DRL模型进行进一步的优化，提高自动驾驶决策的可靠性，降低自动驾驶决策局限性。

基于上述步骤a)和步骤b)，系统可以将序贯博弈的评价结合到DRL模型所使用的算法中，基于自动驾驶决策结果是否为严格优势策略，基于DRL模型进行奖励或惩罚，例如，在自动驾驶决策结果不为严格优势策略时给予惩罚值，从而有助于DRL模型进行进一步优化，得到更为精准的决策结果，降低自动驾驶决策局限性。作为一个示例，在上述b)之后，该方法还可以包括如下步骤:

步骤c)，如果第一判断结果不为严格优势策略，则基于决策步长给予DRL模型对应的惩罚值，DRL模型基于惩罚值进行自身优化。

对于上述步骤c)，其中的决策步长为DRL模型得到每一次自动驾驶决策结果所需要的时长。

示例性的，将序贯博弈的评价结合到DRL模型所使用的算法中，如果第一判断结果不为严格优势策略，则系统基于决策步长给予DRL模型对应的惩罚值。例如，DRL模型耗费1秒做出了一个决策，则系统可以基于1秒基于DRL模型一个0.05的惩罚值。

需要说明的是，上述的决策步长可以为任意值，可以根据测试需要进行设置，本申请实施例对此不做限制。

在第一判断结果不为严格优势策略的情况下，使系统基于决策步长给予DRL模型对应的惩罚值，DRL模型基于惩罚值进行自身优化，从而可以便于对DRL模型进行进一步的优化，在以后的决策中得到更为精准的决策结果，提高自动驾驶决策的可靠性，降低自动驾驶决策局限性。

基于上述步骤a)和步骤b)，系统可以将序贯博弈的评价结合到DRL模型所使用的算法中，基于自动驾驶决策结果是否为严格优势策略，基于DRL模型进行奖励或惩罚，例如，在自动驾驶决策结果为严格优势策略时给予奖励值，从而有助于DRL模型进行进一步优化，得到更为精准的决策结果，降低自动驾驶决策局限性。作为一个示例，在上述b)之后，该方法还可以包括如下步骤:

步骤d)，如果第一判断结果为严格优势策略，则对自动驾驶决策结果是否符合预设条件进行判断，得到第二判断结果。

步骤f)，如果第二判断结果符合预设条件，则将自动驾驶决策结果判定为进化稳定策略，并得到第一奖励值。

示例性的，如图2所示，在第一判断结果为严格优势策略的情况下，系统将给予DRL模型对应的正向奖励，而且，如果DRL模型能在博弈中保证一定时间的决策，比如每0.5s做出一次决策，那么20个决策步内都是严格优势策略的决策，就可以被认为是进化稳定策略，按照一个完整的序贯博弈，评估其策略的稳定性，以奖励值的方式反馈给DRL模型。

需要说明的是，上述的决策步长以及决策步数量可以为任意值，可以根据测试需要进行设置，本申请实施例对此不做限制。

在第一判断结果为严格优势策略的情况下，针对自动驾驶决策结果是否符合预设条件进行进一步判断，进而得出进化稳定策略，将进化稳定策略作为一种指标去指导强化学习，使模型在长序的博弈中能够有更优秀的决策。

基于上述步骤d)和步骤f)，系统还可以根据预测轨迹，对待测试车辆与周围车辆是否将发生碰撞进行检测，如果待测试车辆不会发生碰撞，则可以给予DRL模型奖励值，从而有助于DRL模型进行进一步优化，得到更为精准的决策结果。作为一个示例，该方法还可以包括如下步骤:

步骤g)，基于预测轨迹对待测试车辆进行碰撞检测，得到检测结果。

步骤h)，如果检测结果为待测试车辆通过碰撞检测，则得到第二奖励值。

示例性的，如图2所示，假设待测试车辆前方有一辆车将要左转，待测试车辆有三种选择，分别为直行、向左换道和向右换道。基于预测轨迹，待测试车辆的最差选择为向左换道，将发生碰撞；其次的选择为直行，有一定概率发生碰撞；最优选择为向右换道。系统基于预测轨迹对待测试车辆进行碰撞检测，得到检测结果，如果将不发生碰撞，则给予DRL模型一个实时奖励(第二奖励值)。

系统基于预测轨迹对待测试车辆进行碰撞检测，得到检测结果，如果检测结果为待测试车辆通过碰撞检测，则得到第二奖励值，从而便于对DRL模型进行进一步的优化，在以后的决策中得到更为精准的决策结果，提高自动驾驶决策的可靠性。

基于上述步骤g)和步骤h)，通过预先设定的奖励函数，使系统基于多个奖励值计算出一个科学合理的奖励值反馈给DRL模型，便于对DRL模型进行进一步的优化，在以后的决策中得到更为精准的决策结果，提高自动驾驶决策的可靠性。作为一个示例，该方法还可以包括如下步骤:

步骤i)，基于第一奖励值、第二奖励值以及预设奖励值，通过预设奖励函数生成综合奖励值；

步骤j)，DRL模型基于综合奖励值进行自身优化。

示例性的，如图2所示，系统通过预设的奖励函数，将得到的第一奖励值、第二奖励值以及预设好的固定奖励值进行计算，最终生成一个综合奖励值发送给DRL模型，DRL模型更新奖励值后存入记忆池，通过记忆池的数据对模型进行优化，完成训练过程。

使系统基于第一奖励值、第二奖励值以及预设奖励值，通过预设奖励函数生成综合奖励值，并使DRL模型基于综合奖励值进行自身优化，据序贯博弈指导DRL模型，便于对DRL模型进行进一步的优化，在以后的决策中得到更为精准的决策结果，提高自动驾驶决策的可靠性。

在一些实施例中，DRL模型所采用的算法可以包括多种类型，从而可以灵活的将不同的算法与序贯博弈相结合，优化DRL模型针对自动驾驶的决策，降低自动驾驶决策局限性。示例性的，DRL模型所采用的算法为下述任意一项：

Actor-Critic、DDPG、A3C以及TD3。

作为一种示例，DRL模型所采用的算法可以为Actor-Critic。可以理解为通过两套不同的体系，Actor和Critic,二者都能用不同的神经网络来代替，拿一个Critic去学习奖惩机制,学习完了以后.由Actor来执行,由Critic来告诉Actor哪些执行的好，哪些执行的差,Critic通过学习环境和奖励之间的关系,能看到现在所处状态的潜在奖励,所以用它来指点Actor便能使Actor每一步都在更新。在本方案的在训练中，对每个决策步，延伸决策树，对于自车使用的Actor-Critic算法,将决策树的收益应用于Critic网络，更新其奖励值。

作为另一种示例，DRL模型所采用的算法还可以为DDPG、A3C以及TD3，三者都是基于Actor-Critic算法的优化算法。

通过使DRL模型所采用的算法包括多种类型，从而可以灵活的将不同的算法与序贯博弈相结合，使本方法的应用场景更加广泛，完备的优化DRL模型针对自动驾驶的决策，降低自动驾驶决策局限性。

图4为本申请实施例提供的一种自动驾驶决策装置的结构示意图。如图4所示，该装置包括：

预测模块401，用于获取待测试车辆的预设范围内的周围车辆的信息，并基于周围车辆的信息预测周围车辆的预测意图以及预测轨迹；

构建模块402，用于基于预测意图构建序贯博弈树，通过序贯博弈树得到博弈结果；

决策模块403，用于将博弈结果以及预测轨迹均作为输入条件输入至DRL模型，通过DRL模型得到自动驾驶决策结果。

在一些实施例中，该装置还可以包括：

构建模块，用于基于自动驾驶决策结果，构建序贯博弈模型；

通过序贯博弈模型对自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果。

在一些实施例中，该装置还可以包括：

第一判断模块，用于通过序贯博弈模型对自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果之后，如果第一判断结果不为严格优势策略，则基于决策步长给予DRL模型对应的惩罚值，DRL模型基于惩罚值进行自身优化；其中，决策步长为DRL模型得到每一次自动驾驶决策结果所需要的时长。

在一些实施例中，该装置还可以包括：

第二判断模块，用于通过序贯博弈模型对自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果之后，如果第一判断结果为严格优势策略，则对自动驾驶决策结果是否符合预设条件进行判断，得到第二判断结果；

如果第二判断结果符合预设条件，则将自动驾驶决策结果判定为进化稳定策略，并得到第一奖励值。

在一些实施例中，该装置还可以包括：

检测模块，用于基于预测轨迹对待测试车辆进行碰撞检测，得到检测结果；

如果检测结果为待测试车辆通过碰撞检测，则得到第二奖励值。

在一些实施例中，该装置还可以包括：

优化模块，用于基于第一奖励值、第二奖励值以及预设奖励值，通过预设奖励函数生成综合奖励值；

DRL模型基于综合奖励值进行自身优化。

在一些实施例中，DRL模型所采用的算法为下述任意一项：

Actor-Critic、DDPG、A3C以及TD3。

本发明实施例提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图5为本申请实施例提供的一种电子设备的结构示意图，该电子设备包括：处理器501，存储器502，总线503和通信接口504，所述处理器501、通信接口504和存储器502通过总线503连接；处理器501用于执行存储器502中存储的可执行模块，例如计算机程序。

其中，存储器502可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(Non-volatile Memory)，例如至少一个磁盘存储器。通过至少一个通信接口504(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线503可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器502用于存储程序，所述处理器501在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器501中，或者由处理器501实现。

处理器501可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种自动驾驶决策方法，其特征在于，所述方法包括：

将所述博弈结果以及所述预测轨迹均作为输入条件输入至DRL模型，通过所述DRL模型得到自动驾驶决策结果；

基于所述自动驾驶决策结果，构建序贯博弈模型；

通过所述序贯博弈模型对所述自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果；所述第一判断结果为所述自动驾驶决策结果为所述严格优势策略和所述自动驾驶决策结果不为所述严格优势策略中的一种；当所述第一判断结果为所述严格优势策略时，确定所述自动驾驶决策为最优自动驾驶决策。

2.根据权利要求1所述的方法，其特征在于，在所述通过所述序贯博弈模型对所述自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果的步骤之后，所述方法还包括：

如果所述第一判断结果不为所述严格优势策略，则基于决策步长给予所述DRL模型对应的惩罚值，所述DRL模型基于所述惩罚值进行自身优化；其中，所述决策步长为所述DRL模型得到每一次自动驾驶决策结果所需要的时长。

3.根据权利要求1所述的方法，其特征在于，在所述通过所述序贯博弈模型对所述自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果的步骤之后，所述方法还包括：

如果所述第一判断结果为所述严格优势策略，则对所述自动驾驶决策结果是否符合预设条件进行判断，得到第二判断结果；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

所述DRL模型基于所述综合奖励值进行自身优化。

6.根据权利要求1所述的方法，其特征在于，所述DRL模型所采用的算法为下述任意一项：

Actor-Critic、DDPG、A3C以及TD3。

7.一种自动驾驶决策装置，其特征在于，所述装置包括：

决策模块，用于将所述博弈结果以及所述预测轨迹均作为输入条件输入至DRL模型，通过所述DRL模型得到自动驾驶决策结果；

所述决策模型，还用于基于所述自动驾驶决策结果，构建序贯博弈模型；通过所述序贯博弈模型对所述自动驾驶决策结果是否为严格优势策略进行判断，得到第一判断结果；所述第一判断结果为所述自动驾驶决策结果为所述严格优势策略和所述自动驾驶决策结果不为所述严格优势策略中的一种；当所述第一判断结果为所述严格优势策略时，确定所述自动驾驶决策为最优自动驾驶决策。

8.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至6任一项所述的方法。