CN111645687A

CN111645687A - 变道策略确定方法、装置及存储介质

Info

Publication number: CN111645687A
Application number: CN202010528345.XA
Authority: CN
Inventors: 乔晓利
Original assignee: Imotion Automotive Technology Suzhou Co Ltd
Current assignee: Imotion Automotive Technology Suzhou Co Ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-11

Abstract

本申请涉及一种变道策略确定方法、装置及存储介质，属于计算机技术领域，该方法包括：获取当前时刻采集到的环境信息；基于MCTS算法以当前时刻的环境信息作为根节点生成多条模拟路径，每条模拟路径包括m层子节点和不同层的节点间的传输路径，每条传输路径用于指示相邻两层节点之间的变道策略；获取多条模拟路径中每个子节点的累计质量得分和访问次数；基于累计质量得分和访问次数计算每个子节点的UCB值；将UCB值最大的目标子节点与目标子节点的父节点之间的变道策略确定为该环境信息的变道策略；可以解决仅根据当前时刻的道路环境确定变道策略时，确定出的变道策略可能不够准确的问题；可以提高确定变道策略的准确性。

Description

变道策略确定方法、装置及存储介质

技术领域

本申请涉及一种变道策略确定方法、装置及存储介质，属于计算机技术领域。

背景技术

变道策略是指自动驾驶车辆通过感知周边交通状况，结合车辆当前位置、路面情况、及导航规划选择最合适的车道行驶的策略，是自动驾驶车辆的行为策略之一。

现有技术中，变道策略的确定方式包括：获取当前时刻的道路环境；根据道路环境与变道策略之间的对应关系确定当前时刻的道路环境对应的变道策略，比如：当前时刻的道路环境为左侧行驶车辆较多，变道策略为向右变更车道。

然而，通过在道路车道数量或者道路连接形态发生变化的复杂场景下，仅根据当前时刻的道路环境确定变道策略，可能会导致一些非必要的变道，从而降低给出的变道策略的准确度。

发明内容

本申请提供了一种变道策略确定方法、装置及存储介质，可以解决仅根据当前时刻的道路环境确定变道策略时，确定出的变道策略可能不够准确的问题。本申请提供如下技术方案：

第一方面，提供了一种变道策略确定方法，所述方法包括：

获取当前时刻采集到的环境信息；

基于蒙特卡罗树搜索MCTS算法以所述环境信息作为根节点生成多条模拟路径，每条模拟路径包括m层子节点和不同层的节点间的传输路径，每条传输路径用于指示相邻两层节点之间的变道策略；每个子节点用于指示从所述子节点的父节点对应的环境信息执行变道策略后得到的变道后的环境信息，所述m为正整数；

获取所述多条模拟路径中每个子节点的累计质量得分和访问次数；

基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值；

将UCB值最大的目标子节点与所述目标子节点的父节点之间的变道策略确定为所述环境信息的变道策略。

可选地，所述变道策略的数量为n种，所述n为大于1的整数，所述基于MCTS算法以所述环境信息作为根节点生成多条模拟路径，包括：

对于第k层节点，确定与所述第k层节点相连的n个第k+1层子节点，不同的第k+1层子节点对应的变道策略不同；所述第k层节点包括所述根节点和所述m层子节点，1≤k＜m；

在所述第k+1层子节点存在未搜索的子节点时，选择未被搜索的第k+1层子节点；计算选择的第k+1层子节点的质量得分，并记录所述选择的第k+1层子节点的访问次数，并令k＝k+1，再次执行所述对于第k层节点，确定与所述第k层节点相连的n个第k+1层子节点的步骤；

在所述第k+1层子节点全部已搜索时，按照每个第k+1层子节点的UCB值从所述n个第k+1层子节点中选择一个第k+1层子节点；计算选择的第k+1层子节点的质量得分，并记录所述选择的第k+1层子节点的访问次数，并令k＝k+1，再次执行所述对于第k层节点，确定与所述第k层节点相连的n个第k+1层子节点的步骤；

对于从根节点至第m层子节点均被搜索过的路径，从第m层子节点开始，将每层子节点的质量得分反向传输至所有的父节点，得到所述路径上每个子节点的累计质量得分；基于每个子节点的累计质量得分和访问次数计算所述子节点的UCB值，得到模拟路径，直至路径模拟的迭代次数达到预设次数时停止。

可选地，所述计算选择的第k+1层子节点的质量得分，包括：

基于预先训练的神经网络模型计算所述选择的第k+1层子节点的质量得分，所述神经网络模型基于多组训练数据训练得到，每组训练数据包括：变道前的第一训练环境信息、样本变道策略、基于所述第一训练环境信息使用所述样本变道策略变道后得到的第二训练环境信息、以及所述训练数据的样本质量得分。

可选地，所述在所述第k+1层子节点存在未搜索的子节点时，选择未被搜索的第k+1层子节点，包括：

从未搜索的子节点中随机选择一个第k+1层子节点。

可选地，所述基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值，包括：

将每个子节点对应的累计质量得分和访问次数输入预设的参数计算模型，得对应子节点的UCB值。

可选地，所述参数计算模型包括：

其中，v'表示当前子节点，v表示所述子节点的父节点，Q(v’)表示所述子节点的累计质量得分，N(v’)表示所述子节点的访问次数，N(v)表示所述父节点的访问次数，c为常量参数。

可选地，所述环境信息包括当前行驶车辆的道路信息。

第二方面，提供了一种变道策略确定装置，所述装置包括：

环境获取模块，用于获取当前时刻采集到的环境信息；

路径模拟模块，用于基于蒙特卡罗树搜索MCTS算法以所述环境信息作为根节点生成多条模拟路径，每条模拟路径包括m层子节点和不同层的节点间的传输路径，每条传输路径用于指示相邻两层节点之间的变道策略；每个子节点用于指示从所述子节点的父节点对应的环境信息执行变道策略后得到的变道后的环境信息，所述m为正整数；

数据获取模块，用于获取所述多条模拟路径中每个子节点的累计质量得分和访问次数；

置信度计算模块，用于基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值；

策略确定模块，用于将UCB值最大的目标子节点与所述目标子节点的父节点之间的变道策略确定为所述环境信息的变道策略。

第三方面，提供一种变道策略确定装置，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的变道策略确定方法。

第四方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序由所述处理器加载并执行以实现第一方面所述的变道策略确定方法。

本申请的有益效果在于：通过获取当前时刻采集到的环境信息；基于MCTS算法以该当前时刻的环境信息作为根节点生成多条模拟路径，每条模拟路径包括m层子节点和不同层的节点间的传输路径，每条传输路径用于指示相邻两层节点之间的变道策略；获取多条模拟路径中每个子节点的累计质量得分和访问次数；基于累计质量得分和访问次数计算每个子节点的UCB值；将UCB值最大的目标子节点与目标子节点的父节点之间的变道策略确定为该环境信息的变道策略；可以解决仅根据当前时刻的道路环境确定变道策略时，确定出的变道策略可能不够准确的问题；由于可以对多种变道策略进行模拟，选择置信度最高的变道策略，因此，可以提高确定变道策略的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

附图说明

图1是本申请一个实施例提供的变道策略确定方法的流程图；

图2是本申请一个实施例提供的变道策略确定装置的框图；

图3是本申请一个实施例提供的变道策略确定装置的框图。

具体实施方式

下面结合附图和实施例，对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

蒙特卡罗树搜索(Monte Carlo Tree Search，MCTS)是一类树搜索算法的统称，可以解决一些探索空间巨大的问题，例如：围棋算法都是基于MCTS实现的。蒙特卡罗树搜索是一种基于树数据结构、能权衡探索与利用、在搜索空间巨大仍然比较有效的搜索算法。

MCTS算法的原理通常包括四步：

第一步选择(Selection)：在树中找到一个最好的值得探索的节点，一般策略是先选择未被探索的子节点，如果都探索过就选择UCB值最大的子节点。

第二步扩展(Expansion)：在第一步选中的子节点中创建一个新的子节点，一般策略是随机扩展一个操作并且这个操作不能与前面的子节点重复。

第三步模拟(Simulation)：在第二步扩展出的节点开始模拟，直到到达模拟结束状态。这样，可以计算出扩展出的节点的质量得分。

第四步反向传播(Backpropagation)：将扩展出的节点的质量得分反馈到前面所有父节点中，更新这些节点的质量得分和访问次数，以方便后续计算UCB值。

置信区间上界(Upper Confidence Bounds，UCB)算法：用于解决黑盒优化的算法中如何权衡探索和利用(Exploration and Exploitation)的问题。以MCTS算法为例，UCB算法用于从多条模拟路径中确定期望收益最高的最优解。

可选地，本申请中以各个实施例的执行主体为电子设备为例进行说明，该电子设备可以为终端或者服务器，终端可以为手机、计算机、车载处理系统、可穿戴式设备等，本实施例不对终端的类型作限定。

图1是本申请一个实施例提供的变道策略确定方法的流程图。该方法至少包括以下几个步骤：

步骤101，获取当前时刻采集到的环境信息。

环境信息包括当前行驶车辆的道路信息。可选地，道路信息包括：当前所在车道和当前道路的位置等，本实施例不对道路信息的内容作限定。当然，环境信息还可以包括当前行驶车辆的周边场景信息，比如：周边物体的图像信息等，本实施例不对环境信息包括的具体内容作限定。

步骤102，基于MCTS算法以当前时刻的环境信息作为根节点生成多条模拟路径，每条模拟路径包括m层子节点和不同层的节点间的传输路径，每条传输路径用于指示相邻两层节点之间的变道策略。

每个子节点用于指示从子节点的父节点对应的环境信息执行变道策略后得到的变道后的环境信息，m为正整数。

在一个示例中，变道策略的数量为n种，n为大于1的整数。此时，基于MCTS算法以环境信息作为根节点生成多条模拟路径，至少包括以下几个步骤：

步骤1、对于第k层节点，确定与第k层节点相连的n个第k+1层子节点，不同的第k+1层子节点对应的变道策略不同；第k层节点包括根节点和m层子节点，1≤k＜m；

步骤2、在第k+1层子节点存在未搜索的子节点时，选择未被搜索的第k+1层子节点；计算选择的第k+1层子节点的质量得分，并记录选择的第k+1层子节点的访问次数，并令k＝k+1，再次执行步骤1；

其中，计算选择的第k+1层子节点的质量得分(或称Q值、奖励值等)，包括：

基于预先训练的神经网络模型计算选择的第k+1层子节点的质量得分，神经网络模型基于多组训练数据训练得到，每组训练数据包括：变道前的第一训练环境信息、样本变道策略、基于第一训练环境信息使用样本变道策略变道后得到的第二训练环境信息、以及训练数据的样本质量得分。

在第k+1层子节点存在未搜索的子节点时，从未搜索的子节点中随机选择一个第k+1层子节点。

步骤3、在第k+1层子节点全部已搜索时，按照每个第k+1层子节点的UCB值从n个第k+1层子节点中选择一个第k+1层子节点；计算选择的第k+1层子节点的质量得分，并记录选择的第k+1层子节点的访问次数，并令k＝k+1，再次执行步骤1；

计算选择的第k+1层子节点的质量得分的相关说明详见步骤2，本实施例在此不再赘述。

步骤4、对于从根节点至第m层子节点均被搜索过的路径，从第m层子节点开始，将每层子节点的质量得分反向传输至所有的父节点，得到路径上每个子节点的累计质量得分；基于每个子节点的累计质量得分和访问次数计算子节点的UCB值，得到模拟路径，直至路径模拟的迭代次数达到预设次数时停止。

其中，基于每个子节点的累计质量得分和访问次数计算子节点的UCB值，包括：将每个子节点对应的累计质量得分和访问次数输入预设的参数计算模型，得对应子节点的UCB值。参数计算模型包括：

其中，v'表示当前子节点，v表示子节点的父节点，Q(v’)表示子节点的累计质量得分，N(v’)表示子节点的访问次数，N(v)表示父节点的访问次数，c为常量参数。

需要补充说明的是，迭代次数可以保证各个子节点均被搜索过。

步骤103，获取多条模拟路径中每个子节点的累计质量得分和访问次数。

在迭代完成后，每条模拟路径上的子节点会包括最后一次迭代时获取到的累计质量得分和访问次数。

步骤104，基于累计质量得分和访问次数计算每个子节点的UCB值。

基于累计质量得分和访问次数计算每个子节点的置信上限UCB值，包括：将每个子节点对应的累计质量得分和访问次数输入预设的参数计算模型，得对应子节点的UCB值。

参数计算模型的相关说明详见步骤102，本实施例在此不再赘述。

步骤105，将UCB值最大的目标子节点与目标子节点的父节点之间的变道策略确定为当前时刻的环境信息的变道策略。

综上所述，本实施例提供的变道策略确定方法，通过获取当前时刻采集到的环境信息；基于MCTS算法以该当前时刻的环境信息作为根节点生成多条模拟路径，每条模拟路径包括m层子节点和不同层的节点间的传输路径，每条传输路径用于指示相邻两层节点之间的变道策略；获取多条模拟路径中每个子节点的累计质量得分和访问次数；基于累计质量得分和访问次数计算每个子节点的UCB值；将UCB值最大的目标子节点与目标子节点的父节点之间的变道策略确定为该环境信息的变道策略；可以解决仅根据当前时刻的道路环境确定变道策略时，确定出的变道策略可能不够准确的问题；由于可以对多种变道策略进行模拟，选择置信度最高的变道策略，因此，可以提高确定变道策略的准确性。

图2是本申请一个实施例提供的变道策略确定装置的框图。该装置至少包括以下几个模块：环境获取模块210、路径模拟模块220、数据获取模块230、置信度计算模块240和策略确定模块250。

环境获取模块210，用于获取当前时刻采集到的环境信息；

路径模拟模块220，用于基于蒙特卡罗树搜索MCTS算法以所述环境信息作为根节点生成多条模拟路径，每条模拟路径包括m层子节点和不同层的节点间的传输路径，每条传输路径用于指示相邻两层节点之间的变道策略；每个子节点用于指示从所述子节点的父节点对应的环境信息执行变道策略后得到的变道后的环境信息，所述m为正整数；

数据获取模块230，用于获取所述多条模拟路径中每个子节点的累计质量得分和访问次数；

置信度计算模块240，用于基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值；

策略确定模块250，用于将UCB值最大的目标子节点与所述目标子节点的父节点之间的变道策略确定为所述环境信息的变道策略。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的变道策略确定装置在进行变道策略确定时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将变道策略确定装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的变道策略确定装置与变道策略确定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图3是本申请一个实施例提供的变道策略确定装置的框图，该装置可以是智能手机、平板电脑、笔记本电脑、台式电脑或服务器，变道策略确定装置还可能被称为用户设备、便携式终端、膝上型终端、台式终端、控制终端等，本实施例对此不作限定。该装置至少包括处理器301和存储器302。

处理器301可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的变道策略确定方法。

在一些实施例中，变道策略确定装置还可选包括有：外围设备接口和至少一个外围设备。处理器301、存储器302和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，变道策略确定装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的变道策略确定方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的变道策略确定方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种变道策略确定方法，其特征在于，所述方法包括：

获取当前时刻采集到的环境信息；

2.根据权利要求1所述的方法，其特征在于，所述变道策略的数量为n种，所述n为大于1的整数，所述基于MCTS算法以所述环境信息作为根节点生成多条模拟路径，包括：

3.根据权利要求2所述的方法，其特征在于，所述计算选择的第k+1层子节点的质量得分，包括：

4.根据权利要求2所述的方法，其特征在于，所述在所述第k+1层子节点存在未搜索的子节点时，选择未被搜索的第k+1层子节点，包括：

从未搜索的子节点中随机选择一个第k+1层子节点。

5.根据权利要求1所述的方法，其特征在于，所述基于所述累计质量得分和访问次数计算每个子节点的置信上限UCB值，包括：

6.根据权利要求5所述的方法，其特征在于，所述参数计算模型包括：

7.根据权利要求1至6任一所述的方法，其特征在于，所述环境信息包括当前行驶车辆的道路信息。

8.一种变道策略确定装置，其特征在于，所述装置包括：

环境获取模块，用于获取当前时刻采集到的环境信息；

9.一种变道策略确定装置，其特征在于，所述装置包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的变道策略确定方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至7任一项所述的变道策略确定方法。