CN112406904A

CN112406904A - 自动驾驶策略的训练方法、装置、自动驾驶方法、设备、车辆和计算机可读存储介质

Info

Publication number: CN112406904A
Application number: CN202010878168.8A
Authority: CN
Inventors: 由长喜
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2021-02-26
Anticipated expiration: 2040-08-27
Also published as: CN112406904B

Abstract

本申请公开了一种自动驾驶策略的训练方法，包括：确定状态集合，其表示自动驾驶车辆的至少两个目标环境区域的可用性；确定动作集合，其表示自动驾驶车辆的驾驶动作；确定状态转移，转移后的状态是自动驾驶车辆在执行所决策的动作后、道路中的至少一个障碍物各自执行动作集合中的一个动作之后，自动驾驶车辆的至少两个目标环境区域的可用性；确定收益函数，其表示针对自动驾驶车辆的驾驶动作的评价；基于上述确定，在训练环境下使用强化学习方法获取最优策略，训练环境给定至少一个障碍物执行动作集合中的各个动作的概率。还公开了自动驾驶方法等。

Description

自动驾驶策略的训练方法、装置、自动驾驶方法、设备、车辆和计算机可读存储介质

技术领域

本申请涉及自动驾驶，更具体地，涉及自动驾驶策略的训练方法、装置、自动驾驶方法、设备、车辆和计算机可读存储介质。

背景技术

自动驾驶技术通常包括高精地图、环境感知、规划、路径追踪控制等技术，其中，换道决策属于规划的一部分，其将结合后续的路径规划和路径追踪控制，完成换道的执行。

2013年，美国交通部下辖的美国国家公路交通安全管理局（NHTSA），率先发布了自动驾驶汽车的分级标准，其对自动化的描述共有4个级别，其包括特定功能自动化、部分自动化、有条件自动化、完全自动化四个阶段，其大概意思就是车辆自动化程度和操控车辆接管时人类参与的程度，人参与度越低自动驾驶程度越高。

2014年，美国国际自动机工程师学会（SAE）也制订了一套自动驾驶汽车分级标准，其对自动化的描述分为5个等级，其增加了完全自动驾驶这一项最高水平的自动驾驶。这为我们判定目前市场上这些在售车型的自动驾驶级别提供了一个可靠的标准。

下表描述了NHTSA和SAE给出的自动驾驶级别。

发明内容

本发明的实施例提供了一种自动驾驶策略的训练方法、装置、自动驾驶方法、设备、车辆和计算机可读存储介质。

根据本发明的第一方面，提供一种自动驾驶策略的训练方法，包括：确定强化学习模型的状态集合，该状态集合表示自动驾驶车辆的至少两个目标环境区域的可用性；确定强化学习模型的动作集合，该动作集合表示该自动驾驶车辆的驾驶动作；确定强化学习模型的状态转移，该状态转移表示从转移前的状态转移到转移后的状态，该转移前的状态是当前自动驾驶车辆的至少两个目标环境区域的可用性，该转移后的状态是自动驾驶车辆在执行所决策的动作后、道路中的至少一个障碍物各自执行该动作集合中的一个动作之后，该自动驾驶车辆的至少两个目标环境区域的可用性；确定强化学习模型的收益函数，该收益函数表示针对该自动驾驶车辆的驾驶动作的评价；基于该状态集合、动作集合、状态转移和收益函数，在训练环境下使用强化学习方法获取强化学习模型的最优策略，该训练环境给定该至少一个障碍物执行该动作集合中的各个动作的概率。

根据一个实施例，所述至少两个目标环境区域的每一个目标环境区域的宽度是该目标环境区域所在的车道宽度，所述至少两个目标环境区域的每一个目标环境区域的长度是第一预定时间和该自动驾驶车辆的速度的函数。

根据一个实施例，该每一个目标环境区域的长度是该第一预定时间和该自动驾驶车辆的速度的乘积与该自动驾驶车辆的长度之和。

根据一个实施例，该至少两个目标环境区域包括：该自动驾驶车辆的区域相邻的正前和正后区域，以及在相邻车道上，与该自动驾驶车辆的区域、及该自动驾驶车辆的区域相邻的正前和正后区域沿车道延伸方向齐平的区域，其中，该自动驾驶车辆的区域是该自动驾驶车辆所在的区域，该自动驾驶车辆的区域的长度与该每一个目标环境区域的长度相等。

根据一个实施例，该确定强化学习模型的状态集合包括：基于交通规则，确定该至少两个目标环境区域的每一个目标环境区域的可用性。

根据一个实施例，该确定强化学习模型的状态集合包括：基于该至少两个目标环境区域的每一个目标环境区域是否被障碍物占用，确定该目标环境区域的可用性。

根据一个实施例，该在训练环境下使用强化学习方法获取强化学习模型的最优策略包括：确定该转移后的状态，作为下一时刻的状态，其包括：确定自动驾驶车辆在执行所决策的动作后的至少两个目标环境区域；针对该执行所决策的动作后的至少两个目标环境区域中的每一个目标环境区域：确定在该目标环境区域所在车道上，该目标环境区域相邻的正前和正后区域的障碍物、以及即将进入该正前和正后区域的障碍物作为目标障碍物；确定该目标障碍物与该目标环境区域二者中在前者与在后者的、沿车道延伸方向上的距离，以及该在后者与该在前者的速度之差与该第二预定时间的乘积与安全距离之和，其中该目标环境区域的速度为该自动驾驶车辆的速度；当该沿车道延伸方向上的距离大于或等于该和时，确定该目标障碍物不会进入该目标环境区域，而当该沿车道延伸方向上的距离小于该和时，确定该目标障碍物会进入该目标环境区域，从而确定该目标环境区域的可用性，作为该转移后的状态。

根据一个实施例，该动作集合包括：在当前车道加速、在当前车道减速、在当前车道保持速度、换至左侧车道和换至右侧车道。

根据一个实施例，该收益函数针对不同的衡量因素确定了不同的权重系数，该衡量因素包括在当前车道保持速度、在当前车道加速、在当前车道减速、换至左侧车道、换至右侧车道、超车、碰撞以及超车后回正。

根据一个实施例，针对该在当前车道保持速度、在当前车道加速、在当前车道减速、换至左侧车道、换至右侧车道、超车、碰撞以及超车后回正的权重系数依次是：0、0.075、-0.625、-0.05、-0.05、0.05、-0.1以及0.05。

根据一个实施例，该训练环境是仿真环境。

根据一个实施例，该强化学习模型是马尔可夫决策过程。

根据本发明的第二方面，提供一种一种自动驾驶方法，包括：获取自动驾驶车辆的至少两个目标环境区域的可用性，根据该至少两个目标环境区域的可用性，利用强化学习模型的最优策略确定该自动驾驶车辆的驾驶动作以进行自动驾驶，该强化学习模型的最优策略是利用本发明的第一方面的训练方法获取的。

根据一个实施例，自动驾驶方法还包括：设定该自动驾驶车辆的车道最短保持时间，当该最优策略满足该车道最短保持时间的条件，则执行该最优策略确定的该自动驾驶车辆的驾驶动作，当该最优策略不满足该车道最短保持时间的条件，则不执行该最优策略确定的该自动驾驶车辆的驾驶动作。

根据一个实施例，自动驾驶方法还包括：检测利用该最优策略确定的该自动驾驶车辆的驾驶动作所关联的目标环境区域在未来第一段时间的可用性，该自动驾驶车辆的驾驶动作所关联的目标环境区域包括执行确定的该自动驾驶车辆的驾驶动作时该自动驾驶车辆进入的目标环境区域；当所关联的目标环境区域在未来第一段时间不可用时，等待第三预定时间；以及当所关联的目标环境区域在未来第一段时间可用时，执行利用该最优策略确定的该自动驾驶车辆的驾驶动作。

根据一个实施例，自动驾驶方法还包括：当所关联的目标环境区域在未来第一段时间不可用时，在该等待第三预定时间之后，检测利用该最优策略确定的该自动驾驶车辆的驾驶动作所关联的目标环境区域在未来第二段时间的可用性；当所关联的目标环境区域在未来第二段时间不可用时，放弃利用该最优策略确定的该自动驾驶车辆的驾驶动作，以及当所关联的目标环境区域在未来第二段时间可用时，执行利用该最优策略确定的该自动驾驶车辆的驾驶动作。

根据一个实施例，自动驾驶方法还包括：根据该自动驾驶车辆的导航指示，确定该至少两个目标环境区域的可用性，该导航指示包括左拐、右拐、上匝道、下匝道中的任一项。

根据本发明的第三方面，提供一种自动驾驶策略的训练装置，包括：状态集合确定模块，其配置来确定强化学习模型的状态集合，其表示自动驾驶车辆的至少两个目标环境区域的可用性；动作集合确定模块，其配置来确定强化学习模型的动作集合，其表示该自动驾驶车辆的驾驶动作；状态转移确定模块，其配置来确定强化学习模型的状态转移，其表示从转移前的状态转移到转移后的状态，该转移前的状态是当前自动驾驶车辆的至少两个目标环境区域的可用性，该转移后的状态是自动驾驶车辆在执行所决策的动作后、道路中的至少一个障碍物各自执行该动作集合中的一个动作之后，该自动驾驶车辆的至少两个目标环境区域的可用性；收益函数确定模块，其配置来确定强化学习模型的收益函数，其表示针对该自动驾驶车辆的驾驶动作的评价；以及最优策略获取模块，其配置来基于该状态集合、动作集合、状态转移和收益函数，在训练环境下使用强化学习方法获取强化学习模型的最优策略，该训练环境给定该至少一个障碍物执行该动作集合中的各个动作的概率。

根据本发明的第四方面，提供一种自动驾驶设备，包括：处理器；以及存储器，其被配置为在其上存储有计算机可执行指令，该指令当在该处理器中执行时，使得该处理器实现本发明第一方面和第二方面的方法。

根据一个实施例，自动驾驶设备还包括：数据获取装置，配置来获取自动驾驶车辆的至少两个目标环境区域的可用性。

根据一个实施例，该数据获取装置包括车辆可用的感知系统、电子地图、电子导航系统中的一个或至少两个。

根据本发明的第五方面，提供一种车辆，包括根据本发明第四方面的自动驾驶设备。

根据本发明的第六方面，提供一种其上存储计算机可执行指令的计算机可读存储介质，该指令当由计算设备执行时，使得该计算设备实现本发明第一方面和第二方面的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1图示了自动驾驶技术的基本框架。

图2图示了强化学习模型的基本原理。

图3a和图3b图示了根据本发明实施例的自动驾驶策略的训练的强化学习模型的状态。

图4图示了根据本发明实施例的自动驾驶策略的训练的强化学习模型的状态转移。

图5图示了根据本发明实施例的自动驾驶策略的训练的目标环境区域的状态检测。

图6图示了根据本发明实施例的自动驾驶策略的训练方法的流程图。

图7图示了根据本发明实施例的自动驾驶策略的装置的框图。

图8a图示了根据本发明实施例的自动驾驶方法的一个流程图。

图8b图示了根据本发明实施例的自动驾驶方法的另一个流程图。

图8c图示了根据本发明实施例的自动驾驶方法的再一个流程图。

图9图示了根据本发明实施例的硬件实施环境示意图。

具体实施方式

本申请实施例提供的方案涉及人工智能的自动驾驶等技术，为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

虽然自动驾驶不限于人工智能技术，但是，人工智能在自动驾驶应用中扮演了越来越重要的角色。

目前，市面上大都所在售的车型基本都只支持到L2级别的自动驾驶，也就是在车辆行驶中，车辆可以在特定道路或环境条件下进行自动驾驶，驾驶员不需要操控方向盘和油门，这两大手和脚的解放基本算是开启了自动驾驶的大门，在此级别下，驾驶员需要随时注意道路情况并依旧关注路面，因此，在此级别之下，我们更多的是体验而不是彻底的开放，比如0-150km/h的全速域自适应巡航系统就是L2级别的自动驾驶。

目前致力于开发L3以上自动驾驶技术的公司和机构基本都面临处理复杂场景的难点，尤其是需要自车与周围多个车辆进行博弈与交互的场景。

特斯拉公司研发了Autopilot系统，其优点是车道线的检测与处理比较稳定，人机交互完成度较高，但是对障碍物的处理不够鲁棒，依赖纯感知数据无法准确实现场景识别处理复杂场景，例如上下匝道，换道过程面临一定的挑战。凯迪拉克公司研发了CT6系统，其同样难以在复杂场景下与多障碍物进行交互，对插入的障碍物处理迟钝，换道效果不够理想，依然适用于人工触发的换道策略。

图1图示了自动驾驶技术的基本框架。其主要包括感知、规划和控制三个部分。感知是自动驾驶系统的眼，通常使用传感器来感测、过滤数据，结合算法实现定位和检测。规划是自动驾驶系统的脑，它进行任务规划、决策制定、路径规划等，预测或计算安全、合理、舒适等的行车路线。控制是自动驾驶系统的手和脚，虽然做出了规划，但还需要借助于感知部分监控车辆是否真的依照规划的方案前行，如何调整方向、刹车与加速，在进行系统建模和系统学习之后，进行控制操作。其中，自动驾驶中的换道决策属于规划中的决策制定部分。

本文所称的道路，是指主要供各种无轨交通设施通行的基础设施，其包括多条车道，可以仅包括单向的车道，也可以包括双向的车道，本文所称的车道，又称车行道，通常用虚线或实线划分出来的道路中的一部分，通常仅可供一辆机动车通行。

强化学习（Reinforcement Learning，RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（Agent）在与环境的交互过程中通过学习策略以达成收益最大化或实现特定目标的问题。强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（exploration-exploitation）间保持平衡。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的收益（反馈）获得学习信息并更新模型参数。强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的收益指导行为，目标是使智能体获得最大的收益，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对动作的好坏作出的一种评价(通常为标量信号)，而不是告诉强化学习系统(reinforcement learning system，RLS)如何去产生正确的动作。由于外部环境提供的信息很少，强化学习系统必须靠自身的经历进行学习。通过这种方式，强化学习系统在动作—评价的环境中获得知识，改进行动方案以适应环境。

强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process，MDP）。一个强化学习任务如果满足马尔可夫性则被称为马尔可夫决策过程。MDP是在环境中模拟智能体的随机性策略与收益的数学模型，且环境的状态具有马尔可夫性质。马尔可夫性质（Markov property）是概率论中的一个概念，因为俄国数学家安德雷·马尔可夫得名。当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态；换句话说，在给定现在状态时，它与过去状态（即该过程的历史路径）是条件独立的，那么此随机过程即具有马尔可夫性质。

由确定可知，MDP包含一组交互对象，即智能体和环境。智能体是MDP中进行机器学习的代理，可以感知外界环境的状态以进行决策、对环境做出动作并通过环境的反馈调整决策。环境是MDP模型中智能体外部所有事物的集合，其状态会受智能体动作的影响而改变，且上述改变可以完全或部分地被智能体感知。环境在每次决策后可能会反馈给智能体相应的收益。

按定义，MDP包含5个模型要素，状态（state）、动作（action）、策略（policy）、收益（reward）和累计收益，也即累计收益，其常用的符号表示与说明在表1中给出。

图2图示了强化学习模型的基本原理。在表中建模要素的基础上，智能体对初始环境进行感知，按策略实施动作作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号——表示奖或惩的收益，反馈给智能体。随后智能体根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正收益(奖)的概率增大。就这样与环境持续交互。选择的动作不仅影响立即收益值，而且影响环境下一时刻的状态及最终的收益值。也就是说，如果智能体的某个行为策略导致环境正的收益，那么智能体以后产生此行为策略的趋势便会加强。智能体的目标是在每个离散状态发现最优策略以使期望的折扣收益和最大。MDP中的收益的设计方式通常取决于对应的强化学习问题。

本发明实施例中，强化学习问题是自动驾驶问题，本发明实施例使用强化学习进行训练，以获得强化学习模型的最优策略，从而实现从感测的状态到驾驶动作的映射。在本发明实施例中，自动驾驶的车辆是智能体，通过观察道路信息和/或障碍物的状态信息等确定目标环境区域的可用性作为强化学习模型的状态，根据该状态，利用所述最优策略映射到动作空间中的一个合适的驾驶动作。

图3a和图3b图示了根据本发明实施例的自动驾驶策略的训练的强化学习模型的状态。在图3a的图示中，单向行驶的道路中共有5个车道，假定5个车道均可被自动驾驶车辆所使用。用带有阴影的车辆表示自动驾驶车辆，不带有阴影的车辆即障碍物。图中仅示出了障碍物为车辆的情况，但本发明不限于此。图中纵向的虚线表示车道之间的分界线，当然，其并不代表实际道路环境下车道之间分界线的类型，实际道路环境下车道之间的分界线可以为虚线或者实线，还可以为双实线，颜色也包括多种，可以为白色和黄色，分别对应不同的交通规则。图中横向的虚线是本发明实施例出于描述需要而做的划分，纵向的虚线和横向的虚线将道路划分成多个网格，其中自动驾驶车辆处于一个网格中，障碍物可能处于一个网格中，也可能跨多个网格，例如位于横向的虚线上而跨两个网格，诸如图示车辆305，或者因为车身很长而跨两个甚至更多网格。实线方框中，自动驾驶车辆所在网格之外的其他各个网格，本文中称为目标环境区域，也即在道路中，自动驾驶车辆所在网格的正前、正后、正左、正右、左前、右前、左后、右后的网格，称为自动驾驶车辆的目标环境区域。进一步清晰的图示可以参见图3b。

图3a图示了针对三种位置的自动驾驶车辆的状态的确定。第1种位置，自动驾驶车辆310处于中间车道，其目标环境区域有8个，包括自动驾驶车辆310的区域相邻的正前和正后区域，以及在相邻的左、右车道上，与自动驾驶车辆310的区域及自动驾驶车辆310的区域相邻的正前和正后区域沿车道延伸方向齐平的区域。如图3b左侧的图所示。其中，自动驾驶车辆310左前、右前、正右和正后的目标环境区域分别被车辆302、304、305和306占用，因此状态是被占用，即不可用，而自动驾驶车辆310正前、正左、左后和右后的目标环境区域的状态是空，即可用。

注意，本文中所述的在前、在后、正前、正后、左侧、右侧、正左、正右、左后、右后、左前、右前、正右、正左等是基于自动驾驶车辆的位置而言的，以自动驾驶车辆的朝向或行驶方向为参考，除非另有所指。

第2种位置，自动驾驶车辆309处于最左侧车道，其目标环境区域有5个，包括自动驾驶车辆309的区域相邻的正前和正后区域，以及在相邻的右车道上，与自动驾驶车辆309的区域及自动驾驶车辆309相邻的正前和正后区域沿车道延伸方向齐平的区域。如图3b中间的图所示。其中，自动驾驶车辆309右前、正右和正后的目标环境区域分别被车辆301、302和303占用，因此状态是被占用，即不可用，而自动驾驶车辆309正前和右后的目标环境区域的状态是空，即可用。

第3种位置，自动驾驶车辆311处于最左侧车道，其目标环境区域有5个，包括自动驾驶车辆311的区域相邻的正前和正后的区域，以及在相邻的左车道上，与自动驾驶车辆311的区域及自动驾驶车辆311相邻的正前和正后区域沿车道延伸方向齐平的区域。其中，自动驾驶车辆311左前、左后和正后的目标环境区域分别被车辆305、307和308占用，因此状态是被占用，即不可用，而自动驾驶车辆311正前和正左的目标环境区域的状态是空，即可用。

根据本发明实施例，每一个目标环境区域的宽度是其所在的车道宽度，每一个目标环境区域的长度是第一预定时间和自动驾驶车辆的速度的函数。自动驾驶车辆的速度是可变的，但在每个离散的时间点是固定的，例如取感测时间点的那个速度。第一预定时间是可以设定的时间常数，可以根据需要设定，在一个示例中，将第一预定时间设为较小的值，可以提高换道频率，实现激进换道，反之可以降低换道频率，实现保守换道。因此每一个目标环境区域的大小体现了自动驾驶车辆的速度和期望的换道频率，是可以根据需要调整的。

根据本发明实施例，自动驾驶车辆的区域是以自动驾驶车辆为中心的宽为自动驾驶车辆所在的车道的宽度、长为所述目标环境区域的长度的区域。

在进一步的实施例中，每一个目标环境区域的长度是第一预定时间和自动驾驶车辆的速度的乘积与自动驾驶车辆的长度之和，表现为公式：

（1）

其中L表示目标环境区域的长度，

表示自动驾驶车辆的速度，

表示第一预定时间，

表示自动驾驶车辆的长度。

根据本发明实施例，可以基于目标环境区域是否被障碍物占用，确定目标环境区域的可用性。例如图3a和3b所示，一些目标环境区域被其他车辆所占用，则确定相应的目标环境区域不可用。当然，障碍物不限于车辆，也可以是临时设置的路障、本不属于车道的行人等。

根据本发明实施例，可以基于交通规则，确定每一个目标环境区域的可用性。以图3b中间图示的第2种位置情况为例，与上面的实施例不同，假定不是所有车道都可以使用，假定自动驾驶车辆309是私家车，而其整个右侧车道在感测时间点属于公交车道，则确定其右后的目标环境区域和正右、右前的目标环境区域一样均为不可用。以图3a左侧图示的第1种位置情况为例，与上面的实施例不同，假定不是所有车道都可以使用，假定交通规则不允许自动驾驶车辆310进入其左侧的车道，例如自动驾驶车辆310左侧车道与自动驾驶车辆310的当前车道之间的分界线为白实线（即不可压线、越线），或者黄线（即不可借用的相反车道），则确定自动驾驶车辆310的正左、左后的目标环境区域和左前的目标环境区域一样不可用。

由此，以离散的时间间隔工作，将自动驾驶车辆的区域周围的目标环境区域的可用性作为MDP的状态。

由表1可知，马尔可夫决策过程的要素之一策略是按状态给出的，是动作的条件概率分布，通常称为状态转移概率，因以矩阵表示，也即状态转移矩阵。在确定动作对环境的影响，也即对状态的影响之前，先确定什么是状态转移，这在马尔可夫决策过程建模中也是十分重要的。图4图示了根据本发明实施例的自动驾驶策略的训练的马尔可夫决策过程的状态转移。状态转移即从转移前的状态转移到转移后的状态，根据前述实施例，转移前的状态是当前自动驾驶车辆的至少两个目标环境区域的可用性。根据本发明的实施例，转移后的状态确定为：自动驾驶车辆在执行所决策的动作后、其所在道路中的至少一个障碍物各自执行一个动作（例如在当前车道加速、在当前车道减速、在当前车道保持速度、换至左侧车道或换至右侧车道）之后，自动驾驶车辆的至少两个目标环境区域的可用性。这里假定周围的障碍物之间不存在冲突，即，是正常的道路状况，不发生碰撞。

如图4所示，左侧的图示出了自动驾驶车辆转移前的状态，其中具有阴影的车辆是自动驾驶车辆，用点状虚线框出了其各个目标环境区域的总轮廓。第1步，该自动驾驶的车辆相对于周围车辆而言移动到图4中间的图的位置，图中用点状虚线框出了其各个目标环境区域的总轮廓，可见其目标环境区域也随自动驾驶车辆的相对移动而移动。第2步，环境中的若干车辆意图做出图4中间的图示出的相对于自动驾驶车辆而言的相对移动，注意图中的箭头表示相对移动，而不是绝对移动，因为不可能出现左右平移和向后移动的绝对移动的情况，而后环境中的若干车辆移动到图4右侧图所示的位置，从而完成了从图4左侧图示的状态到图4右侧图图示的状态的状态转移。

经过了状态转移，自动驾驶车辆的目标环境区域与障碍物之间的相对位置可能发生了或未发生变化，需确定状态转移后自动驾驶车辆的每一个目标环境区域的状态，来作为马尔可夫决策过程的环境的下一时刻的状态。

在一个实施例中，环境的下一时刻，也即状态转移后，自动驾驶车辆的每一个目标环境区域的状态可以根据自动驾驶车辆对环境的感测和预测来确定。自动驾驶的车辆对环境的预测在相关文献中有所披露，或者本领域技术人员可以实现，本文不作详述。

在一个实施例中，环境的下一时刻，也即状态转移后，自动驾驶车辆的每一个目标环境区域的状态可以根据自动驾驶的车辆对环境的感测以及公式来估测：在该目标环境区域所在车道上，该目标环境区域相邻的正前和正后区域的障碍物、以及即将进入所述正前和正后区域的障碍物（例如通过换道而即将进入所述正前和正后的障碍物）作为目标障碍物，如图5所示，目标环境区域1的目标障碍物是其车道上正前的车辆，而其正右方和右正后的障碍物如果不进入目标环境区域所在的车道，则不予考虑；确定所述目标障碍物与该目标环境区域二者中在前者与在后者的、沿车道延伸方向上的距离，以及所述在后者与所述在前者的速度之差与所述第二预定时间的乘积与安全距离之和，其中该目标环境区域的速度为所述自动驾驶车辆的速度；当所述沿车道延伸方向上的距离大于或等于所述和时，确定所述目标障碍物不会进入该目标环境区域，而当所述沿车道延伸方向上的距离小于所述和时，确定所述目标障碍物会进入该目标环境区域，从而确定该目标环境区域的可用性。以公式表示，也即：

（2）

其中ds表示当前时刻此目标环境区域与目标障碍物沿车道延伸方向的距离，并不考虑此目标环境区域与目标障碍物是否在同一车道上，也即并不考虑二者的实际距离。

和

分别表示此目标环境区域与目标障碍物中沿行驶方向在后者和在前者的速度，并不考虑二者谁的速度更大，只根据沿行驶方向的位置来确定将二者之中谁的速度用作

以及谁的速度用作

。dt是一个时间常数，表示状态转移的时间，通常取3-5秒之间的一个值。

是安全距离，通常取1-3米之间的一个值。当公式（2）成立，则可以预测目标障碍物不会进入此目标环境区域，当公式（2）不成立，则可以预测目标障碍物会进入此目标环境区域。其中，目标在障碍物的确定、目标障碍物的速度以及其与自动驾驶车辆沿车道延伸方向的距离均可以通过感测获知。

基于类似的方式，还可以确定目标环境区域中的障碍物是否会离开此目标环境区域。以图5为例，确定目标环境区域3中的车辆是否会离开目标环境区域，可以通过以下方式确定：确定该车辆与自动驾驶车辆之间的速度车与第二预定时间的乘积，确定该车辆所在目标环境区域的长度，如果所述乘积大于所述长度，则确定该车辆将驶离当前的目标环境区域。

在道路环境中，障碍物不限于车辆，例如还可以是路障或者断头路，对于这种情况，将障碍物的速度视为0，可以进行同样的处理。

图6图示了根据本发明实施例的自动驾驶策略的训练方法的流程图。在步骤601，确定强化学习模型的状态集合，其表示自动驾驶车辆的至少两个目标环境区域的可用性。关于自动驾驶策略目标环境区域的确定及其可用性的确定，可以参见上文关于图3a和图3b的描述，在此不做赘述。

在步骤602，确定强化学习模型的动作集合，其表示所述自动驾驶车辆的驾驶动作，在一个示例中，动作集合可以包括在当前车道加速、在当前车道减速、在当前车道保持速度、换至左侧车道和换至右侧车道。这样的动作集合决定了训练出来的最优策略可以用于换道决策。

在步骤603，确定强化学习模型的状态转移，其表示从转移前的状态转移到转移后的状态，所转移前的状态是当前自动驾驶车辆的至少两个目标环境区域的可用性，转移后的状态是自动驾驶车辆在执行所决策的动作后、道路中的至少一个障碍物各自执行所述动作集合中的一个动作之后，所述自动驾驶车辆的至少两个目标环境区域的可用性。注意，此时并没有确定状态转移矩阵，也即表1所述的马尔可夫决策过程的策略，在训练环境下，给定障碍物执行各个动作的概率，状态转移矩阵就确定了。

在步骤604，确定强化学习模型的收益函数，其表示针对所自动驾驶车辆在换道决策中所决策的动作的评价。在一个示例中，收益函数针对不同的衡量因素确定了不同的权重系数，所述衡量因素包括在当前车道加速、在当前车道减速、在当前车道保持速度、换至左侧车道和换至右侧车道、超车、碰撞、超车后回正，并给予不同的权重系数。表2示出了针对不同衡量因素的权重系数。

衡量因素	权重系数
		在当前车道保持速度	0
当前车道加速	0.075
		在当前车道减速	-0.625
换至左侧车道	-0.05
		换至右侧车道	-0.05
超车	0.05
		碰撞	-0.1
超车后回正	0.05

表2。

在一个示例中，收益函数确定为：

（3）

其中R(s,a)表示收益函数，s表示状态，a表示动作，W是权重系数矩阵，T表示矩阵的转置，

表示特征矢量，其物理意义即上述的衡量因素。

在步骤605，基于上述步骤确定的状态集合、动作集合、状态转移和收益函数，在训练环境下使用强化学习方法获取强化学习模型的最优策略，所述训练环境给定障碍物执行动作集合中的各个动作的概率，从而可以确定状态转移矩阵，也即表1中的策略。在一个示例中，训练环境是仿真环境。给定马尔科夫决策过程的上述要素，最优策略可通过最大化预期累计收益来求解，即

（4）

其中γ是折扣系数，γ∈(0，1)，本领域技术人员可以确定其值，R是收益函数，s表示系统状态，符号t表示t时刻。π^*是最优策略，可以使用典型的强化学习方法，例如Q-learning、SARSA等来求解。

图7图示了根据本发明实施例的自动驾驶策略的装置的框图。如图所示，该装置700包括状态集合确定模块701、动作集合确定模块702、状态转移确定模块703、收益函数确定模块704以及最优策略获取模块705。其中，状态集合确定模块701配置来确定强化学习模型的状态集合，其表示自动驾驶车辆的至少两个目标环境区域的可用性，关于其进一步的描述可以参见上文关于步骤601以及图3a和3b的描述。动作集合确定模块702配置来确定强化学习模型的动作集合，其表示所述自动驾驶车辆的驾驶动作，关于其的进一步的描述可以参见上文关于步骤602的描述。状态转移确定模块703配置来确定强化学习模型的状态转移，其表示从转移前的状态转移到转移后的状态，所述转移前的状态是当前自动驾驶车辆的至少两个目标环境区域的可用性，所述转移后的状态是自动驾驶车辆在执行所决策的动作后、道路中的至少一个障碍物各自执行所述动作集合中的一个动作之后，所述自动驾驶车辆的至少两个目标环境区域的可用性，关于其的进一步的描述可以参见上文关于步骤603以及图4的描述。收益函数确定模块704配置来确定强化学习模型的收益函数，其表示针对所述自动驾驶车辆的驾驶动作的评价，关于其的进一步的描述可以参见上文关于步骤604的描述。最优策略获取模块705配置来基于所述状态集合、动作集合、状态转移和收益函数，在训练环境下使用强化学习方法获取强化学习模型的最优策略，关于其的进一步的描述可以参见上文关于步骤605的描述。

图8a图示了根据本发明实施例的自动驾驶方法的流程图。在步骤801，获取自动驾驶车辆的至少两个目标环境区域的可用性，所述目标环境区域的确定和所述可用性的确定参见上文关于图3a和图3b的描述，在此不做赘述。在步骤802，根据所述目标环境区域的可用性，利用结合图6描述的方法或获得的强化学习模型的最优策略，或者结合图7描述的自动驾驶装置获得的强化学习模型的最优策略，确定自动驾驶车辆的驾驶动作，以进行自动驾驶。

可选的，如图8b所示的根据本发明实施例的自动驾驶方法的流程图中，自动驾驶方法还包括步骤803，设定所述自动驾驶车辆的车道最短保持时间，并且在步骤802之后，在步骤804中，当所述最优策略满足所述车道最短保持时间的条件，则执行所述最优策略确定的所述自动驾驶车辆的驾驶动作，以及在步骤805中，当所述最优策略不满足所述车道最短保持时间的条件，则不执行所述最优策略确定的所述自动驾驶车辆的驾驶动作。通过这样的步骤，可以避免在执行时频繁换道。

替代的或可选的，如图8c所示的根据本发明实施例的自动驾驶方法的流程图中，在步骤802之后，自动驾驶方法还包括步骤806，检测利用所述最优策略确定的所述自动驾驶车辆的驾驶动作所关联的目标环境区域在未来第一段时间的可用性，以确保换道安全，当所关联的目标环境区域在未来第一段时间不可用时，在步骤807，等待第三预定时间，当所关联的目标环境区域在未来第一段时间可用时，在步骤808，执行利用所述最优策略确定的所述自动驾驶车辆的驾驶动作。应理解，这里的自动驾驶车辆的驾驶动作所关联的目标环境区域包括执行确定的所述自动驾驶车辆的驾驶动作时该自动驾驶车辆进入的目标环境区域。对自动驾驶车辆的驾驶动作所关联的目标环境区域在未来第一段时间的可用性可以根据自动驾驶车辆对环境的感测和预测来确定，自动驾驶的车辆对环境的预测在相关文献中有所披露，或者本领域技术人员可以实现，本文不作详述。对自动驾驶车辆的驾驶动作所关联的目标环境区域在未来第一段时间的可用性还可以根据自动驾驶的车辆对环境的感测以及公式来估测，参见上文关于状态转移后目标环境区域的状态的确定的描述，在此不做赘述。

可选的，当所关联的目标环境区域未来第一段时间不可用时，在步骤807之后，在步骤809，再次检测，检测利用所述最优策略确定的所述自动驾驶车辆的驾驶动作所关联的目标环境区域在未来第二段时间的可用性，当所关联的目标环境区域在未来第二段时间仍然不可用时，在步骤810，放弃利用所述最优策略确定的所述自动驾驶车辆的驾驶动作，当所关联的目标环境区域在未来第二段时间可用时，则进行到步骤808，执行利用所述最优策略确定的所述自动驾驶车辆的驾驶动作。

通过这样的可选步骤，实现换道等待（步骤807）和换道放弃（步骤810），可以确保执行换道的安全性，避免换道后出现碰撞等不安全的情况。

以上图8b和8c中的可选步骤在图中以虚线方式示出，应理解，虽然这些可选步骤示出在不同的图中，本发明实施例也可以包括同时包括这些可选步骤的实施例，例如在图8c中，也包括设定所述自动驾驶车辆的车道最短保持时间的步骤，并且在步骤808之前，可以增加是否满足车道最短保持时间的判断。当然，这仅是一个示例，本发明不限于上文描述的顺序，而可以包括各种合理的步骤执行顺序。

应理解，上述步骤的描述顺序并不代表其执行顺序，除非后描述的步骤需以先描述的步骤的执行结果为前提。

图9图示了根据本发明实施例的硬件实施环境示意图。参见图9，在本发明的实施方式中，自动驾驶装置902包括处理器904，其中包括硬件原件910。处理器904例如包括一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一个或多个处理器。如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外，在一些方面中，本文描述的功能性可提供于经配置以用于自动驾驶的专用硬件和/或软件模块内，或并入在组合式的硬件和/或软件模块中。并且，可将所述技术完全实施于一个或多个电路或逻辑元件中。本公开中的方法可以在各种组件、模块或单元中实现，但不一定需要通过不同硬件单元来实现。而是，如上所述，各种组件、模块或单元可组合或由互操作硬件单元(包含如上所述的一个或多个处理器)的集合结合合适软件和/或固件来提供。

在一个或多个示例中，以上结合图1-图6所描述的技术方案可以硬件、软件、固件或其任一组合来实施。如果以软件实施，那么功能可作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质906传输，且由基于硬件的处理器执行。计算机可读介质906可包含对应于例如数据存储介质等有形介质的计算机可读存储介质，或包含促进计算机程序例如根据通信协议从一处传送到另一处的任何介质的通信介质。以此方式，计算机可读介质906通常可对应于（1）非暂时性的有形计算机可读存储介质，或（2）例如信号或载波等通信介质。数据存储介质可为可由一个或多个计算机或者一个或多个处理器读取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包含计算机可读介质906。

举例来说且并非限制，此类计算机可读存储介质可包括RAM、ROM、EEPROM、CD_ROM或其它光盘等存储器、磁盘存储器或其它磁性存储器、快闪存储器或可用来以指令或数据结构的形式存储所要程序代码且可由计算机读取的任何其它存储器912。而且，恰当地将任何连接称作计算机可读介质906。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输指令，则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于介质的定义中。然而应了解，计算机可读存储介质和数据存储介质不包含连接、载波、信号或其它瞬时介质，而是针对非瞬时有形存储介质。如本文中所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘使用激光以光学方式再生数据。上文的组合也应包含在计算机可读介质906的范围内。

自动驾驶装置902还可以与用于传输数据的I/O接口906、以及其他功能914（例如数据获取装置，配置来获取自动驾驶车辆的至少两个目标环境区域的可用性，包括诸如感知、电子地图、电子导航系统等中的一个或多个）一起设置在自动驾驶设备900中。在一个示例中，结合电子导航系统，自动驾驶车辆可以实现自主右拐、左拐、上下匝道等，例如在步骤801中，在需要右拐的导航设置下，可以将左侧车道和正前车道的目标环境区域设置为不可用，实现自动解释车辆的向右换道。

自动驾驶设备900可以包括在不同的车辆中，例如小汽车、摩托车、三轮车、卡车、客车、燃油车和/或电动车等，这里图示了小汽车916、卡车918和其它车辆920。这些配置中的每个包括可以具有一般不同的构造和能力的设备，并且因此可以根据不同车辆类别中的一个或多个配置自动驾驶设备900。此外本发明的技术还可以通过使用分布式系统、诸如通过如下所述的平台924在“云”922上全部或部分地实现。

云922包括和/或代表用于资源926的平台924。平台924抽象云922的硬件（例如，服务器）和软件资源的底层功能。资源926可以包括在远离计算设备902的服务器上执行计算机处理时可以使用的应用和/或数据。资源926还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台924可以抽象资源和功能以将计算设备902与其他计算设备连接。平台924还可以用于抽象资源的分级以提供遇到的对于经由平台924实现的资源926的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统内。例如，功能可以部分地在计算设备902上以及通过抽象云922的功能的平台924来实现。

根据本发明的各实施例，通过设定目标环境区域的可用性作为环境状态，能够灵活地实现换道策略，例如避免实现变道、占用公交车道等。通过设定目标环境区域的大小，可以使强化学习模型的最优策略倾向于主动超车，避让大型车辆，通过将目标环境区域的大小与车速关联，可以使强化学习模型的最优策略倾向于避让正前低速车辆，过将目标环境区域的大小可调，可以实现激进换道或者保守换道，通过结合导航指示设置目标环境区域的可用性，可以实现自主上下匝道、左拐、右拐等任务，提高通行效率。通过设计收益函数，可以实现避免长期占用高速车道等。通过换道等待和换道放弃等步骤，可以提高安全性。

需要说明，本公开中出现的“第一”、“第二”或“第1”、“第2”等表述不代表指示重要性或步骤的先后，仅是用于区分。方法步骤在没有特别说明或者没有前提约束（即一个步骤的执行需以另一个步骤的执行结果为前提）的情况下，方法步骤的描述先后不代表他们的执行先后，所描述的方法步骤可以以可能的、合理的顺序执行。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种自动驾驶策略的训练方法，其特征在于，包括：

确定强化学习模型的状态集合，所述状态集合表示自动驾驶车辆的至少两个目标环境区域的可用性；

确定强化学习模型的动作集合，所述动作集合表示所述自动驾驶车辆的驾驶动作；

确定强化学习模型的状态转移，所述状态转移表示从转移前的状态转移到转移后的状态，所述转移前的状态是当前自动驾驶车辆的至少两个目标环境区域的可用性，所述转移后的状态是自动驾驶车辆在执行所决策的动作后、道路中的至少一个障碍物各自执行所述动作集合中的一个动作之后，所述自动驾驶车辆的至少两个目标环境区域的可用性；

确定强化学习模型的收益函数，所述收益函数表示针对所述自动驾驶车辆的驾驶动作的评价；

基于所述状态集合、动作集合、状态转移和收益函数，在训练环境下使用强化学习方法获取强化学习模型的最优策略，所述训练环境给定所述至少一个障碍物执行所述动作集合中的各个动作的概率。

2.如权利要求1所述的训练方法，其特征在于，

所述至少两个目标环境区域的每一个目标环境区域的宽度是该目标环境区域所在的车道宽度，所述至少两个目标环境区域的每一个目标环境区域的长度是第一预定时间和所述自动驾驶车辆的速度的函数。

3.如权利要求2所述的训练方法，其特征在于，所述每一个目标环境区域的长度是所述第一预定时间和所述自动驾驶车辆的速度的乘积与所述自动驾驶车辆的长度之和。

4.如权利要求2或3所述的训练方法，其特征在于，所述至少两个目标环境区域包括：所述自动驾驶车辆的区域相邻的正前和正后区域，以及在相邻车道上，与所述自动驾驶车辆的区域、及所述自动驾驶车辆的区域相邻的正前和正后区域沿车道延伸方向齐平的区域，其中，所述自动驾驶车辆的区域是所述自动驾驶车辆所在的区域，所述自动驾驶车辆的区域的长度与所述每一个目标环境区域的长度相等。

5. 如权利要求4所述的训练方法，其特征在于，所述确定强化学习模型的状态集合包括根据以下步骤中的至少一个步骤确定所述自动驾驶车辆的至少两个目标环境区域的可用性：

基于交通规则，确定所述至少两个目标环境区域的每一个目标环境区域的可用性，和

基于所述至少两个目标环境区域的每一个目标环境区域是否被障碍物占用，确定该目标环境区域的可用性。

6.如权利要求1所述的训练方法，其特征在于，所述在训练环境下使用强化学习方法获取强化学习模型的最优策略包括：

确定所述转移后的状态，作为下一时刻的状态，包括：

确定自动驾驶车辆在执行所决策的动作后的至少两个目标环境区域；

针对所述执行所决策的动作后的至少两个目标环境区域中的每一个目标环境区域：

确定在该目标环境区域所在车道上，该目标环境区域相邻的正前和正后区域的障碍物、以及即将进入所述正前和正后区域的障碍物作为目标障碍物；

确定所述目标障碍物与该目标环境区域二者中在前者与在后者的、沿车道延伸方向上的距离，以及所述在后者与所述在前者的速度之差与所述第二预定时间的乘积与安全距离之和，其中该目标环境区域的速度为所述自动驾驶车辆的速度；

当所述沿车道延伸方向上的距离大于或等于所述和时，确定所述目标障碍物不会进入该目标环境区域，而当所述沿车道延伸方向上的距离小于所述和时，确定所述目标障碍物会进入该目标环境区域，从而确定该目标环境区域的可用性，作为所述转移后的状态。

7.如权利要求1所述的训练方法，其特征在于，

所述动作集合包括：在当前车道加速、在当前车道减速、在当前车道保持速度、换至左侧车道和换至右侧车道；

所述收益函数针对不同的衡量因素确定了不同的权重系数，所述衡量因素包括在当前车道保持速度、在当前车道加速、在当前车道减速、换至左侧车道、换至右侧车道、超车、碰撞以及超车后回正；

针对所述在当前车道保持速度、在当前车道加速、在当前车道减速、换至左侧车道、换至右侧车道、超车、碰撞以及超车后回正的权重系数依次是：0、0.075、-0.625、-0.05、-0.05、0.05、-0.1以及0.05；

所述训练环境是仿真环境；以及

所述强化学习模型是马尔可夫决策过程。

8.一种自动驾驶方法，其特征在于，包括：

获取自动驾驶车辆的至少两个目标环境区域的可用性，

根据所述至少两个目标环境区域的可用性，利用强化学习模型的最优策略确定所述自动驾驶车辆的驾驶动作以进行自动驾驶，所述强化学习模型的最优策略是利用如权利要求1所述的训练方法获取的。

9.如权利要求8所述的自动驾驶方法，其特征在于，还包括：

设定所述自动驾驶车辆的车道最短保持时间，

当所述最优策略满足所述车道最短保持时间的条件，则执行所述最优策略确定的所述自动驾驶车辆的驾驶动作，

当所述最优策略不满足所述车道最短保持时间的条件，则不执行所述最优策略确定的所述自动驾驶车辆的驾驶动作。

10.如权利要求8所述的自动驾驶方法，其特征在于，还包括：

检测利用所述最优策略确定的所述自动驾驶车辆的驾驶动作所关联的目标环境区域在未来第一段时间的可用性，所述自动驾驶车辆的驾驶动作所关联的目标环境区域包括执行确定的所述自动驾驶车辆的驾驶动作时该自动驾驶车辆进入的目标环境区域；

当所关联的目标环境区域在未来第一段时间不可用时，等待第三预定时间；以及

当所关联的目标环境区域在未来第一段时间可用时，执行利用所述最优策略确定的所述自动驾驶车辆的驾驶动作。

11.如权利要求10所述的自动驾驶方法，其特征在于，还包括：

当所关联的目标环境区域在未来第一段时间不可用时，在所述等待第三预定时间之后，检测利用所述最优策略确定的所述自动驾驶车辆的驾驶动作所关联的目标环境区域在未来第二段时间的可用性；

当所关联的目标环境区域在未来第二段时间不可用时，放弃利用所述最优策略确定的所述自动驾驶车辆的驾驶动作，以及当所关联的目标环境区域在未来第二段时间可用时，执行利用所述最优策略确定的所述自动驾驶车辆的驾驶动作。

12.如权利要求8所述的自动驾驶方法，其特征在于，还包括：

根据所述自动驾驶车辆的导航指示，确定所述至少两个目标环境区域的可用性，所述导航指示包括左拐、右拐、上匝道、下匝道中的任一项。

13. 一种自动驾驶设备，其特征在于，包括：

处理器；以及

存储器，其被配置为在其上存储有计算机可执行指令，所述指令当在所述处理器中执行时，使得所述处理器实现如权利要求1-12中任一项所述的方法。

14.如权利要求13所述的自动驾驶设备，其特征在于，还包括：

数据获取装置，配置来获取自动驾驶车辆的至少两个目标环境区域的可用性，

其中，所述数据获取装置包括车辆可用的感知系统、电子地图、电子导航系统中的一个或至少两个。

15.一种车辆，其特征在于，包括如权利要求13-14中任一项所述的自动驾驶设备。