CN115578711A

CN115578711A - 自动换道方法、装置及存储介质

Info

Publication number: CN115578711A
Application number: CN202211030605.6A
Authority: CN
Inventors: 陈晨; 钱俊; 刘武龙
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2023-01-06
Also published as: US20220080972A1; EP3965004A4; EP3965004A1; CN110532846B; CN110532846A; WO2020233495A1

Abstract

本申请涉及人工智能，提供一种自动换道方法、装置及存储介质，该方法包括：根据自动驾驶车辆当前时刻的行驶信息以及自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算自动驾驶车辆在当前时刻的局部邻居特征以及全局统计特征；进一步地，根据局部邻居特征、全局统计特征和当前控制策略获取目标动作指示，并根据目标动作指示执行目标动作。可见，通过在局部邻居特征的基础上，进一步引入全局统计特征输入当前控制策略获取目标动作指示，不仅考虑了局部的邻居障碍物的信息，还考虑了全局统计特征的宏观情况，因此，综合了局部和全部路面障碍物信息得到的目标动作是全局最优的策略动作。

Description

自动换道方法、装置及存储介质

本申请为2019年5月21日递交的申请号为201910426248.7的发明申请《自动换道方法、装置及存储介质》的分案申请。

技术领域

本申请涉及自动驾驶技术领域，尤其涉及一种自动换道方法、装置及存储介质。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

自动驾驶是人工智能领域的一种主流应用，自动驾驶技术依靠计算机视觉、雷达、监控装置和全球定位系统等协同合作，让机动车辆可以在不需要人类主动操作下，实现自动驾驶。自动驾驶的车辆使用各种计算系统来帮助将乘客从一个位置运输到另一位置。一些自动驾驶车辆可能要求来自操作者(诸如，领航员、驾驶员、或者乘客)的一些初始输入或者连续输入。自动驾驶车辆准许操作者从手动模操作式切换到自东驾驶模式或者介于两者之间的模式。由于自动驾驶技术无需人类来驾驶机动车辆，所以理论上能够有效避免人类的驾驶失误，减少交通事故的发生，且能够提高公路的运输效率。因此，自动驾驶技术越来越受到重视。在自动驾驶技术领域，自动驾驶车辆智能换道决策的设计还面临巨大的挑战。

相关技术中，通过深度网络来模拟当前状态和动作对应的动作价值函数Q；其中，动作价值函数Q的输入为以自动驾驶车辆为中心的一个局部相对语义网格，通过考虑距离自动驾驶车辆最近的邻居车的速度与距离信息，以及一些道路语义信息(例如自动驾驶车辆所在车道是加速车道或者是左转车道等)，从而选择使动作价值函数Q值最高的动作作为当前决策动作。

但相关技术中，仅考虑了自车的局部邻居车信息，没有考虑整体车流的宏观情况，因此，生成的策略动作并非全局最优的策略动作。

发明内容

本申请实施例提供一种自动换道方法、装置及存储介质，解决了相关技术中生成的策略动作并非全局最优策略动作的问题。

第一方面，本申请实施例提供一种自动换道方法，包括：

根据自动驾驶车辆当前时刻的行驶信息以及该自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算该自动驾驶车辆当前时刻的局部邻居特征以及全局统计特征；该局部邻居特征用于表示该自动驾驶车辆的特定的邻居障碍物相对于该自动驾驶车辆的运动状态信息；该全局统计特征用于表示该感知范围内各个车道的障碍物的稀疏与稠密程度；

根据该局部邻居特征、该全局统计特征和当前控制策略获取目标动作指示，该目标动作指示用于指示该自动驾驶车辆执行目标动作，该目标动作至少包括两类：换道或保持直行；

根据该目标动作指示执行该目标动作。

第一方面提供的自动换道方法中，通过根据自动驾驶车辆当前时刻的行驶信息以及自动驾驶车辆感知范围内各个车道障碍物的运动信息，计算自动驾驶车辆在当前时刻的局部邻居特征以及全局统计特征；进一步地，根据局部邻居特征、全局统计特征和当前控制策略获取目标动作指示，并根据目标动作指示执行目标动作。可见，通过在局部邻居特征的基础上，进一步引入全局统计特征输入当前控制策略获取目标动作指示，不仅考虑了局部的邻居障碍物(如他车)的信息，还考虑了全局统计特征(如整体车流)的宏观情况，因此，综合了局部和全部路面障碍物信息得到的目标动作是全局最优的策略动作。

在一种可能的实现方式中，该方法还包括：

通过执行该目标动作得到反馈信息，该反馈信息用于更新该当前控制策略；其中，该反馈信息包括该自动驾驶车辆执行该目标动作后的行驶信息，该自动驾驶车辆在下一时刻的行驶信息和该自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息；当该目标动作为换道时，该反馈信息还包括：执行该目标动作的时间与历史平均时间的比值，以及该自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况；其中，该历史平均时间包括该自动驾驶车辆在预设历史时间段内执行同类动作的平均时间；

根据该反馈信息更新该当前控制策略得到下一时刻的控制策略。

本实现方式中，通过执行目标动作得到反馈信息，并根据反馈信息更新当前控制策略得到下一时刻的控制策略，从而使得下一时刻可以根据该下一时刻的控制策略准确地确定下一时刻的目标动作。值得说明的是，在之后的时刻也可以持续的根据t时刻的反馈信息对t时刻的控制策略进行更新，得到t+1时刻的控制策略，使得生成目标动作的控制策略一直在自适应的持续更新优化中，从而保证每一个时刻都有其对应的最佳控制策略，为每一个时刻的目标动作的准确生成提供了保障。

在一种可能的实现方式中，根据该反馈信息更新该当前控制策略得到下一时刻的控制策略包括：

根据该反馈信息计算该目标动作对应的回报值，以及该自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征；

确定当前时刻的四元组信息；其中，该当前时刻的四元组信息对应当前时刻车况，包括：该当前时刻的特征、该目标动作、该目标动作对应的回报值以及该下一时刻的特征，该当前时刻的特征包括该自动驾驶车辆在当前时刻的局部邻居特征和全局统计特征，该下一时刻的特征包括该自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征；

根据该当前时刻的四元组信息对该当前控制策略进行更新得到该下一时刻的控制策略。

在一种可能的实现方式中，当该目标动作为保持直行时，该根据该当前时刻的四元组信息对该当前控制策略进行更新得到该下一时刻的控制策略，包括：

根据该当前时刻的四元组信息，生成该四元组信息对应的目标值；

利用梯度下降法对包含该目标值的第一预设函数中的参数q进行迭代更新；

将迭代更新后的参数q替换该当前控制策略中的参数q，得到该下一时刻的控制策略。

在一种可能的实现方式中，当该目标动作为换道时，该根据该当前时刻的四元组信息对该当前控制策略进行更新得到该下一时刻的控制策略，包括：

获取该当前时刻的延伸四元组信息，该当前时刻的延伸四元组信息对应当前时刻延伸车况，其中该当前时刻延伸车况是对该当前时刻车况进行对称规则和单调规则处理得到的，该对称规则是指以该自动驾驶车辆所在车道为轴，将该自动驾驶车辆所在车道的左右两侧所有车道上障碍物的位置进行对称变换；该单调规则是指将该换道的目标车道上的该自动驾驶车辆的前后邻居障碍物之间的距离增大，和/或，非目标车道上的该自动驾驶车辆的前后邻居障碍物之间的距离改变小于预设距离范围；

根据该当前时刻的四元组信息和该当前时刻的延伸四元组信息，对该当前控制策略进行更新得到该下一时刻的控制策略。

在一种可能的实现方式中，该根据该当前时刻的四元组信息和该当前时刻的延伸四元组信息，对该当前控制策略进行更新得到该下一时刻的控制策略，包括：

根据该当前时刻的四元组信息和该当前时刻的延伸四元组信息中的第i个四元组信息，生成该第i个四元组信息对应的目标值；其中，该i为取遍不大于n的正整数，n为该当前时刻的四元组信息和该当前时刻的延伸四元组信息中包括的四元组信息总数；

利用梯度下降法对包含该第i个四元组信息对应的目标值的第二预设函数中的参数q进行迭代更新；

根据该当前时刻的四元组信息、历史时刻的四元组信息和该历史时刻的延伸四元组信息对该当前控制策略进行更新得到该下一时刻的控制策略；

其中，该历史时刻的四元组信息对应历史时刻车况，包括：该历史时刻的特征、该历史时刻的目标动作、该历史时刻的目标动作对应的回报值以及该历史时刻的下一时刻的特征，该历史时刻的特征包括该自动驾驶车辆在历史时刻的局部邻居特征和全局统计特征，该历史时刻的下一时刻的特征包括该自动驾驶车辆在历史时刻的下一时刻的局部邻居特征和全局统计特征；该历史时刻的延伸四元组信息对应历史时刻延伸车况，该历史时刻延伸车况是对该历史时刻车况进行对称规则和单调规则处理得到的。

在一种可能的实现方式中，该根据该当前时刻的四元组信息、历史时刻的四元组信息和该历史时刻的延伸四元组信息对该当前控制策略进行更新得到该下一时刻的控制策略，包括：

根据该当前时刻的四元组信息、该历史时刻的四元组信息和该历史时刻的延伸四元组信息中的第j个四元组信息，生成该第j个四元组信息对应的目标值；其中，该j为取遍不大于m的正整数，m为该当前时刻的四元组信息、该历史时刻的四元组信息和该历史时刻的延伸四元组信息中包括的四元组信息总数；

利用梯度下降法对包含该第j个四元组信息对应的目标值的第三预设函数中的参数q进行迭代更新；

获取该当前时刻的延伸四元组信息；其中，该当前时刻的延伸四元组信息对应当前时刻延伸车况，该当前时刻延伸车况是对该当前时刻车况进行对称规则和单调规则处理得到的；

根据该当前时刻的四元组信息、该当前时刻的延伸四元组信息、历史时刻的四元组信息和该历史时刻的延伸四元组信息，对该当前控制策略进行更新得到该下一时刻的控制策略；其中，该历史时刻的四元组信息对应历史时刻车况，该历史时刻的延伸四元组信息对应历史时刻延伸车况，该历史时刻延伸车况是对该历史时刻车况进行对称规则和单调规则处理得到的。

在一种可能的实现方式中，该根据该当前时刻的四元组信息、该当前时刻的延伸四元组信息、历史时刻的四元组信息和该历史时刻的延伸四元组信息，对该当前控制策略进行更新得到该下一时刻的控制策略，包括：

根据该当前时刻的四元组信息、该当前时刻的延伸四元组信息、该历史时刻的四元组信息和该历史时刻的延伸四元组信息中的第k个四元组信息，生成该第k个四元组信息对应的目标值；其中，该k为取遍不大于p的正整数，p为该当前时刻的四元组信息、该当前时刻的延伸四元组信息、该历史时刻的四元组信息和该历史时刻的延伸四元组信息中包括的四元组信息总数；

利用梯度下降法对包含该第k个四元组信息对应的目标值的第四预设函数中的参数q进行迭代更新；

在一种可能的实现方式中，当该目标动作为保持直行时，该根据该反馈信息计算该目标动作对应的回报值，以及该自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征，包括：

根据该自动驾驶车辆执行该目标动作后的行驶信息计算该回报值；

根据该自动驾驶车辆在下一时刻的行驶信息和该自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息，计算该自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征。

在一种可能的实现方式中，当该目标动作为换道时，该根据该反馈信息计算该目标动作对应的回报值，以及该自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征，包括：

根据该自动驾驶车辆执行该目标动作后的行驶信息、该执行该目标动作的时间与历史平均时间的比值，以及该自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况，计算该回报值；

在一种可能的实现方式中，该自动驾驶车辆的特定的邻居障碍物包括以下至少一项：该自动驾驶车辆所在车道上与该自动驾驶车辆相邻的前后障碍物、该自动驾驶车辆所在车道的相邻左车道上与该自动驾驶车辆相邻的前后障碍物、该自动驾驶车辆所在车道的相邻右车道上与该自动驾驶车辆相邻的前后障碍物；

其中，当该自动驾驶车辆位于左边道时，该自动驾驶车辆所在车道的相邻左车道上与该自动驾驶车辆相邻的前后障碍物，相对于该自动驾驶车辆的运动状态信息为默认值；和/或，

当该自动驾驶车辆位于右边道时，该自动驾驶车辆所在车道的相邻右车道上与该自动驾驶车辆相邻的前后障碍物，相对于该自动驾驶车辆的运动状态信息为默认值。

在一种可能的实现方式中，该自动驾驶车辆当前时刻的全局车流统计特征包括以下至少一项：该感知范围内各个车道所有障碍物的平均行驶速度以及平均间隔。

第二方面，本申请实施例提供一种自动换道装置，包括：

计算模块，用于根据自动驾驶车辆当前时刻的行驶信息以及该自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算该自动驾驶车辆当前时刻的局部邻居特征以及全局统计特征；该局部邻居特征用于表示该自动驾驶车辆的特定的邻居障碍物相对于该自动驾驶车辆的运动状态信息；该全局统计特征用于表示该感知范围内各个车道的障碍物的稀疏与稠密程度；

获取模块，用于根据该局部邻居特征、该全局统计特征和当前控制策略获取目标动作指示，该目标动作指示用于指示该自动驾驶车辆执行目标动作，该目标动作至少包括两类：换道或保持直行；

执行模块，用于根据该目标动作指示执行该目标动作。

在一种可能的实现方式中，该装置还包括：

反馈模块，用于通过执行该目标动作得到反馈信息，该反馈信息用于更新该当前控制策略；其中，该反馈信息包括该自动驾驶车辆执行该目标动作后的行驶信息，该自动驾驶车辆在下一时刻的行驶信息和该自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息；当该目标动作为换道时，该反馈信息还包括：执行该目标动作的时间与历史平均时间的比值，以及该自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况；其中，该历史平均时间包括该自动驾驶车辆在预设历史时间段内执行同类动作的平均时间；

更新模块，用于根据该反馈信息更新该当前控制策略得到下一时刻的控制策略。

在一种可能的实现方式中，该更新模块包括：

计算单元，用于根据该反馈信息计算该目标动作对应的回报值，以及该自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征；

确定单元，用于确定当前时刻的四元组信息；其中，该当前时刻的四元组信息对应当前时刻车况，包括：该当前时刻的特征、该目标动作、该目标动作对应的回报值以及该下一时刻的特征，该当前时刻的特征包括该自动驾驶车辆在当前时刻的局部邻居特征和全局统计特征，该下一时刻的特征包括该自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征；

更新单元，用于根据该当前时刻的四元组信息对该当前控制策略进行更新得到该下一时刻的控制策略。

在一种可能的实现方式中，当该目标动作为保持直行时，该更新单元具体用于：

在一种可能的实现方式中，当该目标动作为换道时，该更新单元具体用于：

在一种可能的实现方式中，该更新单元具体用于：

在一种可能的实现方式中，该根据更新单元具体用于：

在一种可能的实现方式中，当该目标动作为保持直行时，该计算单元具体用于：

在一种可能的实现方式中，当该目标动作为换道时，该计算单元具体用于：

第三方面，本申请实施例提供一种自动换道装置，包括：处理器和存储器；

其中，该存储器，用于存储程序指令；

该处理器，用于调用并执行该存储器中存储的程序指令，当该处理器执行该存储器存储的程序指令时，该自动换道装置用于执行上述第一方面的任意实现方式所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行上述第一方面的任意实现方式所述的方法。

第五方面，本申请实施例提供一种程序，该程序在被处理器执行时用于执行上述第一方面的任意实现方式所述的方法。

第六方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面的任意实现方式所述的方法。

第七方面，本申请实施例提供一种控制策略的训练方法，包括：

步骤A：获取预设数量个历史时刻的四元组信息，其中，该历史时刻的四元组信息对应历史时刻车况，包括：该历史时刻的特征、该历史时刻的自动驾驶车辆的目标动作、该历史时刻的目标动作对应的回报值以及该历史时刻的下一时刻的特征，该历史时刻的特征包括该自动驾驶车辆在历史时刻的局部邻居特征和全局统计特征，该历史时刻的下一时刻的特征包括该自动驾驶车辆在该历史时刻的下一时刻的局部邻居特征和全局统计特征；

步骤B：根据至少一个第一历史时刻的四元组信息、该至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，对当前控制策略进行更新得到下一时刻的控制策略；

其中，该步骤A和步骤B的循环执行次数达到预设次数，或者该步骤A和步骤B循环执行多次直至更新后的控制策略满足预设条件时停止；该步骤A和步骤B循环执行多次最终得到的控制策略用于自动换道装置在执行自动换道方法时获取目标动作指示；

其中，该至少一个第一历史时刻的四元组信息为该预设数量个历史时刻的四元组信息中历史时刻的目标动作为换道所对应的历史时刻的四元组信息；该至少一个第二历史时刻的四元组信息为该预设数量个历史时刻的四元组信息中除该至少一个第一历史时刻的四元组信息之外的其它历史时刻的四元组信息；任意该第一历史时刻的延伸四元组信息对应第一历史时刻延伸车况，该第一历史时刻延伸车况是对第一历史时刻车况进行对称规则和单调规则处理得到的。

第七方面提供的控制策略的训练方法中，通过获取预设数量个历史时刻的四元组信息；进一步地，根据至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，对当前控制策略进行更新得到下一时刻的控制策略。可见，通过在预设数量个历史时刻的四元组信息的基础上，进一步根据预设数量个历史时刻的四元组信息中的第一历史时刻的延伸四元组信息对当前控制策略进行更新，从而可以获得更加准确的控制策略，以便于可以准确地确定出对应的目标动作。

在一种可能的实现方式中，该根据至少一个第一历史时刻的四元组信息、该至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，对当前控制策略进行更新得到下一时刻的控制策略，包括：

根据该至少一个第一历史时刻的四元组信息、该至少一个第一历史时刻的延伸四元组信息，以及该至少一个第二历史时刻的四元组信息中的第1个四元组信息，生成该第1个四元组信息对应的目标值；其中，该l为取遍不大于q的正整数，q为该至少一个第一历史时刻的四元组信息、该至少一个第一历史时刻的延伸四元组信息，以及该至少一个第二历史时刻的四元组信息中包括的四元组信息总数；

利用梯度下降法对包含该第1个四元组信息对应的目标值的预设函数中的参数q进行迭代更新；

在一种可能的实现方式中，该获取预设数量个历史时刻的四元组信息之前，还包括：

对于每个历史时刻，根据自动驾驶车辆的行驶信息以及该自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算该自动驾驶车辆在该历史时刻的局部邻居特征以及全局统计特征；

根据该历史时刻的局部邻居特征、全局统计特征和该历史时刻的控制策略获取该历史时刻的目标动作指示，该目标动作指示用于指示该自动驾驶车辆执行目标动作，该目标动作至少包括两类：换道或保持直行；

通过执行该目标动作得到反馈信息；其中，该反馈信息包括该自动驾驶车辆执行该目标动作后的行驶信息，该自动驾驶车辆在下一时刻的行驶信息和该自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息；当该目标动作为换道时，该反馈信息还包括：执行该目标动作的时间与历史平均时间的比值，以及该自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况；其中，该历史平均时间包括该自动驾驶车辆在预设历史时间段内执行同类动作的平均时间；

根据该反馈信息计算该目标动作对应的回报值，以及该自动驾驶车辆在该历史时刻的下一时刻的局部邻居特征以及全局车流统计特征；

存储该历史时刻的四元组信息。

在一种可能的实现方式中，当该目标动作为保持直行时，该根据该反馈信息计算该目标动作对应的回报值，包括：

根据该自动驾驶车辆执行该目标动作后的行驶信息计算该回报值。

在一种可能的实现方式中，当该目标动作为换道时，该根据该反馈信息计算该目标动作对应的回报值，包括：

根据该自动驾驶车辆执行该目标动作后的行驶信息、该执行该目标动作的时间与历史平均时间的比值，以及该自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况，计算该回报值。

第八方面，本申请实施例提供一种控制策略的训练装置，包括：

第一获取模块，用于执行步骤A：获取预设数量个历史时刻的四元组信息，其中，该历史时刻的四元组信息对应历史时刻车况，包括：该历史时刻的特征、该历史时刻的自动驾驶车辆的目标动作、该历史时刻的目标动作对应的回报值以及该历史时刻的下一时刻的特征，该历史时刻的特征包括该该自动驾驶车辆在历史时刻的局部邻居特征和全局统计特征，该历史时刻的下一时刻的特征包括该自动驾驶车辆在该历史时刻的下一时刻的局部邻居特征和全局统计特征；

更新模块，用于执行步骤B：根据至少一个第一历史时刻的四元组信息、该至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，对当前控制策略进行更新得到下一时刻的控制策略；

在一种可能的实现方式中，该更新模块，包括：

生成单元，用于根据该至少一个第一历史时刻的四元组信息、该至少一个第一历史时刻的延伸四元组信息，以及该至少一个第二历史时刻的四元组信息中的第1个四元组信息，生成该第1个四元组信息对应的目标值；其中，该l为取遍不大于q的正整数，q为该至少一个第一历史时刻的四元组信息、该至少一个第一历史时刻的延伸四元组信息，以及该至少一个第二历史时刻的四元组信息中包括的四元组信息总数；

更新单元，用于利用梯度下降法对包含该第1个四元组信息对应的目标值的预设函数中的参数q进行迭代更新；

替换单元，用于将迭代更新后的参数q替换该当前控制策略中的参数q，得到该下一时刻的控制策略。

在一种可能的实现方式中，该装置还包括：

第一计算模块，用于对于每个历史时刻，根据自动驾驶车辆的行驶信息以及该自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算该自动驾驶车辆在该历史时刻的局部邻居特征以及全局统计特征；

第二获取模块，用于根据该历史时刻的局部邻居特征、全局统计特征和该历史时刻的控制策略获取该历史时刻的目标动作指示，该目标动作指示用于指示该自动驾驶车辆执行目标动作，该目标动作至少包括两类：换道或保持直行；

反馈模块，用于通过执行该目标动作得到反馈信息；其中，该反馈信息包括该自动驾驶车辆执行该目标动作后的行驶信息，该自动驾驶车辆在下一时刻的行驶信息和该自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息；当该目标动作为换道时，该反馈信息还包括：执行该目标动作的时间与历史平均时间的比值，以及该自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况；其中，该历史平均时间包括该自动驾驶车辆在预设历史时间段内执行同类动作的平均时间；

第二计算模块，用于根据该反馈信息计算该目标动作对应的回报值，以及该自动驾驶车辆在该历史时刻的下一时刻的局部邻居特征以及全局车流统计特征；

存储模块，用于存储该历史时刻的四元组信息。

在一种可能的实现方式中，当该目标动作为保持直行时，该第二计算模块具体用于：

在一种可能的实现方式中，当该目标动作为换道时，该第二计算模块具体用于：

第九方面，本申请实施例提供一种控制策略的训练装置，包括：处理器和存储器；

其中，该存储器，用于存储程序指令；

该处理器，用于调用并执行该存储器中存储的程序指令，当该处理器执行该存储器存储的程序指令时，该控制策略的训练装置用于执行上述第七方面的任意实现方式所述的方法。

第十方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行上述第七方面的任意实现方式所述的方法。

第十一方面，本申请实施例提供一种程序，该程序在被处理器执行时用于执行上述第七方面的任意实现方式所述的方法。

第十二方面，本申请实施例提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第七方面的任意实现方式所述的方法。

第十三方面，本申请实施例提供一种芯片，该芯片包括处理器与数据接口，该处理器通过该数据接口读取存储器上存储的指令，执行上述第一方面或第七方面的任意实现方式所述的方法。

可选地，作为一种实现方式，该芯片还可以包括存储器，该存储器中存储有指令，该处理器用于执行该存储器上存储的指令，当该指令被执行时，该处理器用于执行上述第一方面或第七方面的任意实现方式所述的方法。

第十四方面，本申请实施例提供一种电子设备，该电子设备包括上述第二方面或第三方面的任意实现方式所述的自动换道装置。

第十五方面，本申请实施例提供一种电子设备，该电子设备包括上述第二方面或第三方面的任意实现方式所述的控制策略的训练装置。

附图说明

图1为本申请实施例提供的系统架构示意图；

图2是本申请实施例提供的车辆100的功能框图；

图3为图2中的计算机系统的结构示意图；

图4为本申请实施例提供的一种芯片硬件结构的示意图；

图5为本申请实施例提供的操作环境示意图；

图6为本申请实施例提供的对称原则示意图一；

图7为本申请实施例提供的对称原则示意图二；

图8为本申请实施例提供的单调原则示意图；

图9为本申请一实施例提供的控制策略的训练方法的流程示意图；

图10为本申请另一实施例提供的控制策略的训练方法的流程示意图；

图11为本申请一实施例提供的自动换道方法的流程示意图；

图12为本申请另一实施例提供的自动换道方法的流程示意图；

图13为本申请实施例提供的训练数据示意图；

图14为本申请一实施例提供的自动换道装置的结构示意图；

图15为本申请另一实施例提供的自动换道装置的结构示意图；

图16为本申请实施例提供的计算机程序产品的概念性局部视图；

图17为本申请一实施例提供的控制策略的训练装置的结构示意图；

图18为本申请另一实施例提供的控制策略的训练装置的结构示意图。

具体实施方式

首先，对本申请实施例所涉及的应用场景和部分术语进行解释说明。

本申请实施例提供的自动换道方法、装置及存储介质能够应用在自动驾驶车辆的换道场景。示例性地，本申请实施例提供的自动换道方法、装置及存储介质能够应用在A场景和B场景中，下面分别对A场景和B场景进行简单的介绍。

A场景：

自动驾驶车辆在多车道的行驶过程中，为了提高行驶速度，需要在适当的时机发送“直行”或者“换道”的命令。例如自动驾驶车辆所在车道的前方有车辆低速行驶，自动驾驶车辆需要绕过前方的所述车辆行驶。

B场景：

自动驾驶车辆在多车道的行驶过程中，如果自动驾驶车辆所在车道的前方有匝道或路口等道路结构，自动驾驶车辆需要在达到匝道或路口之前换到相应的目标车道，以便完成行驶任务。例如自动驾驶车辆在道路的最左边的车道行驶，前方500米是个十字路口，则自动驾驶车辆为了到达目的地需要在十字路口处右拐，需要在到达所述十字路口之前换到最右边的车道。

当然，本申请实施例提供的自动换道方法、装置及存储介质还可应用在其它场景，本申请实施例中对此并不作限制。

图1为本申请实施例提供的系统架构示意图。如图1所示，本申请实施例提供的系统架构1000可以包括：训练设备1001和执行设备1002。其中，训练设备1001用于根据本申请实施例提供的控制策略的训练方法训练控制策略；执行设备1002用于根据本申请实施例提供的自动换道方法使用训练设备1001所训练的控制策略确定目标动作；当然，执行设备1002也可以用于实时训练控制策略，或者每隔预设时长训练控制策略。

本申请实施例中，执行控制策略的训练方法的执行主体可以是上述训练设备1001，也可以是上述训练设备1001中的控制策略的训练装置。示例性地，本申请实施例提供的控制策略的训练装置可以通过软件和/或硬件实现。

本申请实施例中，执行自动换道方法的执行主体可以是上述执行设备1002，也可以是上述执行设备1002中的自动换道装置。示例性地，本申请实施例提供的自动换道装置可以通过软件和/或硬件实现。

示例性地，本申请实施例中提供的训练设备1001可以包括但不限于：模型训练平台设备。

示例性地，本申请实施例中提供的执行设备1002可以包括但不限于：自动驾驶车辆，或者自动驾驶车辆中的控制设备。

图2是本申请实施例提供的车辆100的功能框图。在一个实施例中，将车辆100配置为完全或部分地自动驾驶模式。例如，当车辆100配置为部分地自动驾驶模式时，车辆100在处于自动驾驶模式时还可通过人为操作来确定车辆及其周边环境的当前状态，确定周边环境中的至少一个其他车辆的可能行为，并确定该其他车辆执行可能行为的可能性相对应的置信水平，基于所确定的信息来控制车辆100。在车辆100处于自动驾驶模式中时，可以将车辆100置为在没有和人交互的情况下操作。

车辆100可包括各种子系统，例如行进系统102、传感系统104、控制系统106、一个或多个外围设备108以及电源110、计算机系统112和用户接口116。可选地，车辆100可包括更多或更少的子系统，并且每个子系统可包括多个元件。另外，车辆100的每个子系统和元件可以通过有线或者无线互连。

行进系统102可包括为车辆100提供动力运动的组件。在一个实施例中，行进系统102可包括引擎118、能量源119、传动装置120和车轮/轮胎121。引擎118可以是内燃引擎、电动机、空气压缩引擎或其他类型的引擎组合，例如汽油发动机和电动机组成的混动引擎，内燃引擎和空气压缩引擎组成的混动引擎。引擎118将能量源119转换成机械能量。

能量源119的示例包括汽油、柴油、其他基于石油的燃料、丙烷、其他基于压缩气体的燃料、乙醇、太阳能电池板、电池和其他电力来源。能量源119也可以为车辆100的其他系统提供能量。

传动装置120可以将来自引擎118的机械动力传送到车轮121。传动装置120可包括变速箱、差速器和驱动轴。在一个实施例中，传动装置120还可以包括其他器件，比如离合器。其中，驱动轴可包括可耦合到一个或多个车轮121的一个或多个轴。

传感系统104可包括感测关于车辆100周边的环境的信息的若干个传感器。例如，传感系统104可包括定位系统122(定位系统可以是GPS系统，也可以是北斗系统或者其他定位系统)、惯性测量单元(inertial measurement unit，IMU)124、雷达126、激光测距仪128以及相机130。传感系统104还可包括被监视车辆100的内部系统的传感器(例如，车内空气质量监测器、燃油量表、机油温度表等)。来自这些传感器中的一个或多个的传感器数据可用于检测对象及其相应特性(位置、形状、方向、速度等)。这种检测和识别是自主车辆100的安全操作的关键功能。

定位系统122可用于估计车辆100的地理位置。IMU 124用于基于惯性加速度来感测车辆100的位置和朝向变化。在一个实施例中，IMU 124可以是加速度计和陀螺仪的组合。

雷达126可利用无线电信号来感测车辆100的周边环境内的物体。在一些实施例中，除了感测物体以外，雷达126还可用于感测物体的速度和/或前进方向。

激光测距仪128可利用激光来感测车辆100所位于的环境中的物体。在一些实施例中，激光测距仪128可包括一个或多个激光源、激光扫描器以及一个或多个检测器，以及其他系统组件。

相机130可用于捕捉车辆100的周边环境的多个图像。相机130可以是静态相机或视频相机。

控制系统106为控制车辆100及其组件的操作。控制系统106可包括各种元件，其中包括转向系统132、油门134、制动单元136、传感器融合算法138、计算机视觉系统140、路线控制系统142以及障碍规避系统144。

转向系统132可操作来调整车辆100的前进方向。例如在一个实施例中可以为方向盘系统。

油门134用于控制引擎118的操作速度并进而控制车辆100的速度。

制动单元136用于控制车辆100减速。制动单元136可使用摩擦力来减慢车轮121。在其他实施例中，制动单元136可将车轮121的动能转换为电流。制动单元136也可采取其他形式来减慢车轮121转速从而控制车辆100的速度。

计算机视觉系统140可以操作来处理和分析由相机130捕捉的图像以便识别车辆100周边环境中的物体和/或特征。所述物体和/或特征可包括交通信号、道路边界和障碍物。计算机视觉系统140可使用物体识别算法、运动中恢复结构(structure from motion，SFM)算法、视频跟踪和其他计算机视觉技术。在一些实施例中，计算机视觉系统140可以用于为环境绘制地图、跟踪物体、估计物体的速度等等。

路线控制系统142用于确定车辆100的行驶路线。在一些实施例中，路线控制系统142可结合来自传感器融合算法138、全球定位系统(global positioning system，GPS)122和一个或多个预定地图的数据以为车辆100确定行驶路线。

障碍规避系统144用于识别、评估和避开或者以其他方式越过车辆100的环境中的潜在障碍物。

当然，在一个实例中，控制系统106可以增加或替换地包括除了所示出和描述的那些以外的组件。或者也可以减少一部分上述示出的组件。

车辆100通过外围设备108与外部传感器、其他车辆、其他计算机系统或用户之间进行交互。外围设备108可包括无线通信系统146、车载电脑148、麦克风150和/或扬声器152。

在一些实施例中，外围设备108提供车辆100的用户与用户接口116交互的手段。例如，车载电脑148可向车辆100的用户提供信息。用户接口116还可操作车载电脑148来接收用户的输入。车载电脑148可以通过触摸屏进行操作。在其他情况中，外围设备108可提供用于车辆100与位于车内的其它设备通信的手段。例如，麦克风150可从车辆100的用户接收音频(例如，语音命令或其他音频输入)。类似地，扬声器152可向车辆100的用户输出音频。

无线通信系统146可以直接地或者经由通信网络来与一个或多个设备无线通信。例如，无线通信系统146可使用3G蜂窝通信，例如码分多址(code division multipleaccess，CDMA)、EVD0、全球移动通信系统(global system for mobile communications，GSM)/通用分组无线服务(general packet radio service，GPRS)，或者4G蜂窝通信，例如LTE。或者5G蜂窝通信。无线通信系统146可利用无线保真(wireless-fidelity，WiFi)与无线局域网(wireless local area network，WLAN)通信。在一些实施例中，无线通信系统146可利用红外链路、蓝牙或紫蜂协议(ZigBee)与设备直接通信。其他无线协议，例如各种车辆通信系统，例如，无线通信系统146可包括一个或多个专用短程通信(dedicated shortrange communications，DSRC)设备，这些设备可包括车辆和/或路边台站之间的公共和/或私有数据通信。

电源110可向车辆100的各种组件提供电力。在一个实施例中，电源110可以为可再充电锂离子或铅酸电池。这种电池的一个或多个电池组可被配置为电源为车辆100的各种组件提供电力。在一些实施例中，电源110和能量源119可一起实现，例如一些全电动车中那样。

车辆100的部分或所有功能受计算机系统112控制。计算机系统112可包括至少一个处理器113，处理器113执行存储在例如数据存储装置114这样的非暂态计算机可读介质中的指令115。计算机系统112还可以是采用分布式方式控制车辆100的个体组件或子系统的多个计算设备。

处理器113可以是任何常规的处理器，诸如商业可获得的中央处理器(centralprocessing unit，CPU)。替选地，该处理器可以是诸如用于供专门应用的集成电路(application specific integrated circuit，ASIC)或其它基于硬件的处理器的专用设备。本领域的普通技术人员应该理解该处理器、计算机、或存储器实际上可以包括可以或者可以不存储在相同的物理外壳内的多个处理器、计算机、或存储器。例如，存储器可以是硬盘驱动器或位于不同于计算机的外壳内的其它存储介质。因此，对处理器或计算机的引用将被理解为包括对可以或者可以不并行操作的处理器或计算机或存储器的集合的引用。不同于使用单一的处理器来执行此处所描述的步骤，诸如转向组件和减速组件的一些组件每个都可以具有其自己的处理器，所述处理器只执行与特定于组件的功能相关的计算。

在此处所描述的各个方面中，处理器可以位于远离该车辆并且与该车辆进行无线通信。在其它方面中，此处所描述的过程中的一些在布置于车辆内的处理器上执行而其它则由远程处理器执行，包括采取执行单一操纵的必要步骤。

在一些实施例中，数据存储装置114可包含指令115(例如，程序逻辑)，指令115可被处理器113执行来执行车辆100的各种功能，包括以上描述的那些功能。数据存储装置114也可包含额外的指令，包括向行进系统102、传感系统104、控制系统106和外围设备108中的一个或多个发送数据、从其接收数据、与其交互和/或对其进行控制的指令。

除了指令115以外，数据存储装置114还可存储数据，例如道路地图、路线信息，车辆的位置、方向、速度以及其它这样的车辆数据，以及其他信息。这种信息可在车辆100在自主、半自主和/或手动模式中操作期间被车辆100和计算机系统112使用。

用户接口116，用于向车辆100的用户提供信息或从其接收信息。可选地，用户接口116可包括在外围设备108的集合内的一个或多个输入/输出设备，例如无线通信系统146、车载电脑148、麦克风150和扬声器152。

计算机系统112可基于从各种子系统(例如，行进系统102、传感系统104和控制系统106)以及从用户接口116接收的输入来控制车辆100的功能。例如，计算机系统112可利用来自控制系统106的输入以便控制转向系统132来避免由传感系统104和障碍规避系统144检测到的障碍物。在一些实施例中，计算机系统112可操作来对车辆100及其子系统的许多方面提供控制。

可选地，上述这些组件中的一个或多个可与车辆100分开安装或关联。例如，数据存储装置114可以部分或完全地与车辆100分开存在。上述组件可以按有线和/或无线方式来通信地耦合在一起。

可选地，上述组件只是一个示例，实际应用中，上述各个模块中的组件有可能根据实际需要增添或者删除，图2不应理解为对本申请实施例的限制。

在道路行进的自动驾驶汽车，如上面的车辆100，可以识别其周围环境内的物体以确定自身对当前速度的调整。所述物体可以是其它车辆、交通控制设备、或者其它类型的物体。在一些示例中，可以独立地考虑每个识别的障碍物，并且基于各个障碍物各自的特性，诸如它的当前速度、加速度、与车辆的间距等，来确定自动驾驶汽车(自车)所要调整的速度。

可选地，自动驾驶汽车车辆100或者与自动驾驶汽车车辆100相关联的计算设备(如图2的计算机系统112、计算机视觉系统140、数据存储装置114)可以基于所识别的障碍物的特性和周围环境的状态(例如，交通、雨、道路上的冰、等等)来预测所述识别的障碍物的行为。可选地，每一个所识别的障碍物都依赖于彼此的行为，因此还可以将所识别的所有障碍物全部一起考虑来预测单个识别的障碍物的行为。车辆100能够基于预测的所述识别的障碍物的行为来调整它的速度。换句话说，自动驾驶汽车能够基于所预测的障碍物的行为来确定车辆将需要调整到(例如，加速、减速、或者停止)什么状态。在这个过程中，也可以考虑其它因素来确定车辆100的速度，诸如，车辆100在行驶的道路中的横向位置、道路的曲率、静态和动态物体的接近度等等。

除了提供调整自动驾驶汽车的速度的指令之外，计算设备还可以提供修改车辆100的转向角的指令，以使得自动驾驶汽车遵循给定的轨迹和/或维持与自动驾驶汽车附近的障碍物(例如，道路上的相邻车道中的车辆)的安全横向和纵向距离。

上述车辆100可以为轿车、卡车、摩托车、公共汽车、船、飞机、直升飞机、割草机、娱乐车、游乐场车辆、施工设备、电车、高尔夫球车、火车、和手推车等，本发明实施例不做特别的限定。

图3为图2中的计算机系统112的结构示意图。如图3所示，计算机系统112包括处理器113，处理器113和系统总线105耦合。处理器113可以是一个或者多个处理器，其中每个处理器都可以包括一个或多个处理器核。显示适配器(video adapter)107，显示适配器107可以驱动显示器109，显示器109和系统总线105耦合。系统总线105通过总线桥111和输入输出(I/O)总线耦合。I/O接口115和I/O总线耦合。I/O接口115和多种I/O设备进行通信，比如输入设备117(如：键盘，鼠标，触摸屏等)，媒体盘(mediatray)121a，(例如，CD-ROM，多媒体接口等)。收发器123(可以发送和/或接受无线电通信信号)，摄像头155(可以捕捉静态和动态数字视频图像)和外部USB端口125。其中，可选地，和I/O接口115相连接的接口可以是通用串行总线(universal serial bus，USB)接口。

其中，处理器113可以是任何传统处理器，包括精简指令集计算(“RISC”)处理器、复杂指令集计算(“CISC”)处理器或上述的组合。可选地，处理器可以是诸如专用集成电路(“ASIC”)的专用装置。可选地，处理器113可以是神经网络处理器或者是神经网络处理器和上述传统处理器的组合。

可选地，在本文所述的各种实施例中，计算机系统可位于远离自动驾驶车辆的地方，并且可与自动驾驶车辆无线通信。在其它方面，本文所述的一些过程在设置在自动驾驶车辆内的处理器上执行，其它由远程处理器执行，包括采取执行单个操纵所需的动作。

计算机系统112可以通过网络接口129和软件部署服务器149通信。网络接口129是硬件网络接口，比如，网卡。网络127可以是外部网络，比如因特网，也可以是内部网络，比如以太网或者虚拟私人网络(VPN)。可选地，网络127还可以是无线网络，比如WiFi网络，蜂窝网络等。

硬盘驱动器接口131和系统总线105耦合。硬盘驱动器接口131和硬盘驱动器133相连接。系统内存135和系统总线105耦合。运行在系统内存135的软件可以包括计算机系统112的操作系统(operating system，OS)137和应用程序143。

操作系统包括Shell 139和内核(kernel)141。Shell 139是介于使用者和操作系统之内核(kernel)间的一个接口。shell是操作系统最外面的一层。shell管理使用者与操作系统之间的交互：等待使用者的输入，向操作系统解释使用者的输入，并且处理各种各样的操作系统的输出结果。

内核141由操作系统中用于管理存储器、文件、外设和系统资源的那些部分组成。直接与硬件交互，操作系统的内核141通常运行进程，并提供进程间的通信，提供CPU时间片管理、中断、内存管理、IO管理等等。

应用程序143包括控制汽车自动驾驶相关的程序，比如，管理自动驾驶的汽车和路上障碍物交互的程序，控制自动驾驶汽车路线或者速度的程序，控制自动驾驶汽车和路上其他自动驾驶汽车交互的程序。应用程序143也存在于软件部署服务器(deployingserver)149的系统上。在一个实施例中，在需要执行应用程序143时，计算机系统可以从deploying server149下载应用程序143。

传感器153和计算机系统关联。传感器153用于探测计算机系统112周围的环境。举例来说，传感器153可以探测动物，汽车，障碍物和人行横道等，进一步传感器还可以探测上述动物，汽车，障碍物和人行横道等物体周围的环境，比如：动物周围的环境，例如，动物周围出现的其他动物，天气条件，周围环境的光亮度等。可选地，如果计算机系统112位于自动驾驶的汽车上，传感器可以是摄像头，红外线感应器，化学检测器，麦克风等。

图4为本申请实施例提供的一种芯片硬件结构的示意图。如图4所示，该芯片可以包括神经网络处理器30。该芯片可以被设置在如图1所示的执行设备1002中，用以完成申请实施例提供的自动换道方法。该芯片也可以被设置在如图1所示的训练设备1001中，用以完成申请实施例提供的控制策略的训练方法。

神经网络处理器30可以是NPU，TPU，或者GPU等一切适合用于大规模异或运算处理的处理器。以NPU为例：NPU可以作为协处理器挂载到主CPU(host CPU)上，由主CPU为其分配任务。NPU的核心部分为运算电路303，通过控制器304控制运算电路303提取存储器(301和302)中的矩阵数据并进行乘加运算。

在一些实现中，运算电路303内部包括多个处理单元(process engine，PE)。在一些实现中，运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路303从权重存储器302中取矩阵B的权重数据，并缓存在运算电路303中的每一个PE上。运算电路303从输入存储器301中取矩阵A的输入数据，根据矩阵A的输入数据与矩阵B的权重数据进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)308中。

统一存储器306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)305，被搬运到权重存储器302中。输入数据也通过DMAC被搬运到统一存储器306中。

总线接口单元(bus interface unit，BIU)310，用于DMAC和取指存储器(instruction fetch bufier)309的交互；总线接口单元310还用于取指存储器309从外部存储器获取指令；总线接口单元310还用于存储单元访问控制器305从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器306中，或将权重数据搬运到权重存储器302中，或将输入数据搬运到输入存储器301中。

向量计算单元307多个运算处理单元，在需要的情况下，对运算电路303的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。向量计算单元307主要用于神经网络中非卷积层，或全连接层(fully connected layers，FC)的计算，具体可以处理：Pooling(池化)，Normalization(归一化)等的计算。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。

在一些实现中，向量计算单元307将经处理的向量存储到统一存储器306。在一些实现中，经向量计算单元307处理过的向量能够用作运算电路303的激活输入。

控制器304连接的取指存储器(instruction fetch buffer)309，用于存储控制器304使用的指令；

统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为On-Chip存储器。外部存储器独立于该NPU硬件架构。

图5为本申请实施例提供的操作环境示意图。如图5所示，云服务中心可以经网络502(如无线通信网络)，从其操作环境500内的自动驾驶车辆510和512接收信息(诸如车辆传感器收集到数据或者其它信息)。

示例性地，云服务中心520可以经网络502(如无线通信网络)从自动驾驶车辆510接收自动驾驶车辆510在任意时刻的行驶信息(例如行驶速度和/或行驶位置等信息)以及自动驾驶车辆510感知范围内其他车辆的行驶信息等。

云服务中心520根据接收到的信息，可以运行其存储的控制汽车自动驾驶相关的程序，从而实现对自动驾驶车辆510和512的控制。控制汽车自动驾驶相关的程序可以为，管理自动驾驶的汽车和路上障碍物交互的程序，控制自动驾驶汽车路线或者速度的程序，控制自动驾驶汽车和路上其他自动驾驶汽车交互的程序。

网络502将地图的部分提供给自动驾驶车辆510和512。

例如，多个云服务中心可以接收、证实、组合和/或发送信息报告。在一些示例中还可以在自动驾驶车辆之间发送信息报告和/传感器数据。

在一些示例中，云服务中心520可以向自动驾驶车辆(或自动驾驶汽车)发送对于基于环境内可能的驾驶情况所建议的解决方案(如，告知前方障碍物，并告知如何绕开它)。例如，云服务中心520可以辅助车辆确定当面对环境内的特定障碍时如何行进。云服务中心520可以向自动驾驶车辆发送指示该车辆应当在给定场景中如何行进的响应。例如，云服务中心基于收集到的传感器数据，可以确认道路前方具有临时停车标志的存在，并还该车道上基于“车道封闭”标志和施工车辆的传感器数据，确定该车道由于施上而被封闭。相应地，云服务中心520可以发送用于自动驾驶车辆通过障碍的建议操作模式(例如：指示车辆变道另一条道路上)。云服务中心520可以观察其操作环境内的视频流并且已确认自动驾驶车辆能安全并成功地穿过障碍时，对该自动驾驶车辆所使用操作步骤可以被添加到驾驶信息地图中。相应地，这一信息可以发送到该区域内可能遇到相同障碍的其它车辆，以便辅助其它车辆不仅识别出封闭的车道还知道如何通过。

需要说明的是，自动驾驶车辆510和/或512在运行过程中可以自主控制行驶，也可以不需要云服务中心520的控制。

本申请实施例中涉及的任意时刻的局部邻居特征用于表示自动驾驶车辆的特定的邻居障碍物相对于自动驾驶车辆的运动状态信息(例如相对距离和相对速度)。

示例性地，特定的邻居障碍物可以包括但不限于以下至少一项：自动驾驶车辆所在车道上与自动驾驶车辆相邻的前后障碍物、自动驾驶车辆所在车道的相邻左车道上与自动驾驶车辆相邻的前后障碍物、自动驾驶车辆所在车道的相邻右车道上与自动驾驶车辆相邻的前后障碍物。

示例性地，当自动驾驶车辆位于左边道时，自动驾驶车辆所在车道的相邻左车道上与自动驾驶车辆相邻的前后障碍物，相对于自动驾驶车辆的运动状态信息可以为默认值；和/或，当自动驾驶车辆位于右边道时，自动驾驶车辆所在车道的相邻右车道上与自动驾驶车辆相邻的前后障碍物，相对于自动驾驶车辆的运动状态信息可以为默认值。

本申请实施例中涉及的障碍物可以是动态移动的障碍物也可以是静态的障碍物。例如，障碍物可以包括但不限于以下至少一项：自动驾驶车辆、非自动驾驶的机动车辆、人、物体。示例性地，当特定的邻居障碍物为静态的障碍物时，则特定的邻居障碍物相对于自动驾驶车辆的相对距离可以为该邻居障碍物与自动驾驶车辆之间的距离，特定的邻居障碍物相对于自动驾驶车辆的相对速度可以为自动驾驶车辆的移动速度。

示例性地，任意时刻的自动驾驶车辆的局部邻居特征可以包括但不限于：自动驾驶车辆所在车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆所在车道上与自动驾驶车辆相邻的后障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆所在车道的相邻左车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆所在车道的相邻左车道上与自动驾驶车辆相邻的后障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆所在车道的相邻右车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆所在车道的相邻右车道上与自动驾驶车辆相邻的后障碍物相对于自动驾驶车辆的相对速度

和相对距离

可选地，任意时刻的自动驾驶车辆的局部邻居特征还可以包括：导航目标车道与自动驾驶车辆所在车道之间的位置信息flag，以及自动驾驶车辆距离沿行驶方向的下一个路口之间的距离dist2goal；其中，flag∈{0，-1，1}，其中，flag等于0代表自动驾驶车辆在导航目标车道上，flag等于-1代表导航目标车道在自动驾驶车辆所在车道的左侧，flag等于1代表导航目标车道在自动驾驶车辆所在车道的右侧。

本申请实施例中涉及的任意时刻的全局统计特征用于表示感知范围(即自动驾驶车辆的传感器可检测的范围，例如距离自动驾驶车辆的预设间隔内的范围)内各个车道的障碍物的稀疏与稠密程度。

示例性地，任意时刻的全局统计特征可以包括但不限于以下至少一项：感知范围内各个车道所有障碍物的平均行驶速度以及平均间隔。例如，若某个车道所有障碍物的平均间隔小于预设间隔，则表示该车道的障碍物比较稠密；若某个车道所有障碍物的平均间隔大于或等于预设间隔，则表示该车道的障碍物比较稀疏。例如，任意时刻的全局统计特征可以包括但不限于：自动驾驶车辆所在车道的左侧所有车道上前后相邻的两障碍物之间的平均间隔gap_L、自动驾驶车辆所在车道上前后相邻的两障碍物之间的平均间隔gap_M、自动驾驶车辆所在车道的右侧所有车道上前后相邻的两障碍物之间的平均间隔gap_R、自动驾驶车辆所在车道的左侧所有车道上障碍物的平均行驶速度V_L、自动驾驶车辆所在车道上障碍物的平均行驶速度V_M和自动驾驶车辆所在车道的右侧所有车道上障碍物的平均行驶速度V_R。

可选地，本申请实施例中涉及的任意时刻的自动驾驶车辆的局部邻居特征和全局统计特征可以为离散化处理后的特征，可以满足低速稠密场景离散粒度小，高速稀疏场景离散粒度大，例如：

1)当自动驾驶车辆的车速V_ego≤V_threshold(如20公里/小时)，则局部相对距离特征精度为0.01，局部相对速度特征精度为0.05。例如，如果某个局部相对距离特征为0.1123，则离散化后为0.11；如果某个局部相对速度特征为0.276，则离散化为0.25。

2)当自动驾驶车辆的车速V_ego＞V_threshold，则局部相对距离特征精度为0.05，局部相对速度特征精度为0.1。

3)平均间隔特征精度统一为0.01，平均速度特征精度统一为0.01。

本申请实施例中涉及的目标动作指示用于指示自动驾驶车辆执行目标动作。示例性地，目标动作可以至少包括但不限于以下两类：换道或保持直行，其中，换道可以包括：向左相邻车道换道或向右相邻车道换道。

本申请实施例中涉及的任意时刻的四元组信息(s，a，r，s′)对应该时刻车况，可以包括：该时刻的特征s、该时刻的自动驾驶车辆的目标动作a、该时刻的目标动作对应的回报值r以及该时刻的下一时刻的特征s′；其中，该时刻的特征s可以包括：自动驾驶车辆在该时刻的局部邻居特征s_l和全局统计特征s_g，该时刻的下一时刻的特征s′可以包括：自动驾驶车辆在该下一时刻的局部邻居特征s_l′和全局统计特征s_g′。

图6为本申请实施例提供的对称原则示意图一，图7为本申请实施例提供的对称原则示意图二，如图6和图7所示，本申请实施例中涉及的对称规则是指以自动驾驶车辆所在车道为轴，将自动驾驶车辆所在车道的左右两侧所有车道上障碍物的位置进行对称变换。

图8为本申请实施例提供的单调原则示意图，如图8所示，本申请实施例中涉及的单调原则是指将自动驾驶车辆换道的目标车道上的自动驾驶车辆的前后邻居障碍物之间的距离增大，和/或，非目标车道上的自动驾驶车辆的前后邻居障碍物之间的距离改变小于预设距离范围。例如，自动驾驶车辆换道的目标车道上的后邻车为A、目标车道上的前邻车为D、非目标车道上的前邻车为B、非目标车道上的后邻车为C，则单调原则可以包括但不限于以下操作：

操作一：车辆A向后挪动预设距离1或者速度减小预设数值1；

操作二：车辆D向前挪动预设距离2或者速度增大预设数值2；

操作三：车辆B向前或者向后挪动预设距离3，或者速度增大或减小预设数值3；

操作四：车辆C向前或者向后挪动预设距离4，或者速度增大或减小预设数值4。

本申请实施例中涉及的任意时刻的延伸四元组信对应该时刻延伸车况，该时刻延伸车况是对该时刻车况进行对称规则和单调规则处理得到的。

示例性地，任意时刻的延伸四元组信息可以包括：该时刻的对称四元组信息(s_e，a_e，r，s_e′)和单调四元组信息(s_m，a_m，r，sx′)；其中，该时刻的对称四元组信息(s_e，a_e，r，s_e′)是根据对称规则对该时刻的四元组信息(s，a，r，s′)进行构造得到的，s_e是s的对称特征，a_e是a的对称动作，s_e′是s′的对称特征；该时刻的单调四元组信息(s_m，a_m，r，s_m′)是根据单调规则对该时刻的四元组信息(s，a，r，s′)进行构造得到的，s_m是s的单调特征，a_m是a的单调动作(示例性地，a_m可以等于a)，s_m′是s′的单调特征。

本申请实施例中的下述部分分别对任意时刻的对称四元组信息(s_e，a_e，r，s_e′)和单调四元组信息(s_m，a_m，r，s_m′)的构造方式进行介绍。

例如，1)假设任意时刻的四元组信息(s，a，r，s′)中的s_l等于如下式子：

则根据对称原则确定该时刻的对称四元组信息(s_e，a_e，r，s_e′)中的s_el等于如下式子：

2)假设任意时刻的四元组信息(s，a，r，s′)中的s_g等于如下式子：

s_g＝(gap_L，gap_M，gap_R，V_L，V_M，V_R)

则根据对称原则确定该时刻的对称四元组信息(s_e，a_e，r，s_e′)中的s_eg等于如下式子：

s_eg＝(gap_R，gap_M，gap_V，V_R，V_M，V_L)

因此，根据s_el和s_eg构造s_e。

3)根据对称原则确定该时刻的对称四元组信息(s_e，a_e，r，s_e′)中的a_e等于如下式子：

其中，a等于0代表保持直行，a等于1代表向左相邻车道换道，a等于2代表向右相邻车道换道。

需要说明的是，该时刻的对称四元组信息(s_e，a_e，r，s_e′)中的s_e′的构造方式与s_e的构造方式类似，此处不再赘述。

例如，假设车辆A，B，C，D的相对距离特征归一化后分别为d_A，d_B，d_C，d_D，相对速度特征归一化后分别为v_A，v_B，v_C，v_D，且Δ_d为当前速度下对应的相对距离精度，Δ_v为当前车度下对应的相对速度精度，则(d_A，v_A，d_B，v_B，d_C，v_C，d_D，v_D)的值将通过单调原则被改变为以下包含2*2*3*3*3*3*2*2个元素的集合中的值：

s_ml∈{d_A-Δ_d，d_A}×{v_A-Δ_v，v_A}×{d_B-Δ_d，d_B，d_B+Δ_d}

×{v_B-Δ_v，v_v，v_B+Δ_v}×{d_C-Δ_d，d_C，d_C+Δ_d}×{v_C-Δ_v，v_v，v_C+Δ_v}×{d_D-Δ_d，d_D}×{v_D-Δ_v，v_D}因此，从上述集合中随机选取预设数量(例如10)组，从而构成该时刻的单调四元组信息(s_m，a_m，r，s_m′)中的s_ml。

可选地，假设任意时刻的四元组信息(s，a，r，s′)中的s_g等于该时刻的单调四元组信息(s_m，a_m，r，s_m′)中的s_mg，则根据s_ml和s_mg构造s_m。

需要说明的是，该时刻的单调四元组信息(s_m，a_m，r，s_m′)中的s_m′的构造方式与s_m的构造方式类似，此处不再赘述。

需要说明的是，当训练设备1001执行本申请实施例提供的控制策略的训练方法时，所涉及的自动驾驶车辆、障碍物、车道等信息可以为训练设备1001中的模拟道路信息，或实际道路信息上发生的历史数据。当执行设备1002执行本申请实施例提供的自动换道方法时，所涉及的自动驾驶车辆、障碍物、车道等信息为实际的实时道路信息。

下面从控制策略(或控制策略模型)训练侧和控制策略应用侧对本申请提供的方法进行描述：

本申请实施例提供的控制策略的训练方法，涉及计算机处理，具体可以应用于数据训练、机器学习、深度学习等数据处理方法，对训练数据(如本申请实施例中的预设数量个历史时刻的四元组信息)进行符号化和形式化的智能信息建模、抽取、预处理、训练等，最终得到训练好的控制策略；并且，本申请实施例提供的自动换道方法可以运用上述训练好的控制策略，将输入数据(如本申请实施例中的局部邻居特征和全局统计特征)输入到训练好的控制策略中，得到输出数据(如本申请实施例中的目标动作指示)。当然，自动换道方法中也可实时更新控制策略，或者每隔预设时长更新控制策略。需要说明的是，本申请实施例提供的控制策略的训练方法和应用方法是基于同一个构思产生的发明，也可以理解为一个系统中的两个部分，或一个整体流程的两个阶段：如控制策略训练阶段和控制策略应用阶段。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

下面对本申请实施例提供的控制策略的训练方法进行详细说明。

图9为本申请一实施例提供的控制策略的训练方法的流程示意图。本实施例的方法具体可以由如图1所示的训练设备1001执行。如图9所示，本申请实施例提供的方法可以包括：

步骤S901、获取预设数量个历史时刻的四元组信息。

本步骤中，从数据库获取预设数量个历史时刻的四元组信息，其中，任意历史时刻的四元组信息对应该历史时刻车况，可以包括但不限于：该历史时刻的特征、该历史时刻的自动驾驶车辆的目标动作(即在该历史时刻根据对应的控制策略所确定的目标动作)、该历史时刻的目标动作对应的回报值以及该历史时刻的下一时刻的特征。

示例性地，该历史时刻的特征可以包括但不限于：自动驾驶车辆在该历史时刻的局部邻居特征和全局统计特征。

示例性地，该历史时刻的下一时刻的特征可以包括但不限于：自动驾驶车辆在该下一时刻的局部邻居特征和全局统计特征。

本申请实施例中涉及的自动驾驶车辆的任意时刻的局部邻居特征用于表示自动驾驶车辆的特定的邻居障碍物在该时刻相对于自动驾驶车辆的运动状态信息(例如相对距离和相对速度。

示例性地，特定的邻居障碍物可以包括但不限于：自动驾驶车辆在该时刻所在车道上与自动驾驶车辆相邻的前后障碍物、自动驾驶车辆在该时刻所在车道的相邻左车道上与自动驾驶车辆相邻的前后障碍物、自动驾驶车辆在该时刻所在车道的相邻右车道上与自动驾驶车辆相邻的前后障碍物。

本申请实施例中涉及的自动驾驶车辆的任意时刻的全局统计特征用于表示自动驾驶车辆的感知范围内各个车道的障碍物在该时刻的稀疏与稠密程度，例如，各个车道所有障碍物在该时刻的平均行驶速度以及平均间隔。

示例性地，任意时刻的全局统计特征可以包括但不限于：自动驾驶车辆在该时刻所在车道的左侧所有车道上前后相邻的两障碍物之间的平均间隔、自动驾驶车辆在该时刻所在车道上前后相邻的两障碍物之间的平均间隔、自动驾驶车辆在该时刻所在车道的右侧所有车道上前后相邻的两障碍物之间的平均间隔、自动驾驶车辆在该时刻所在车道的左侧所有车道上障碍物的平均行驶速度、自动驾驶车辆在该时刻所在车道上障碍物的平均行驶速度和自动驾驶车辆在该时刻所在车道的右侧所有车道上障碍物的平均行驶速度。

步骤S902、根据至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，对当前控制策略进行更新得到下一时刻的控制策略。

示例性地，至少一个第一历史时刻的四元组信息为上述预设数量个历史时刻的四元组信息中历史时刻的自动驾驶车辆的目标动作为换道所对应的历史时刻的四元组信息。

示例性地，至少一个第二历史时刻的四元组信息为上述预设数量个历史时刻的四元组信息中除至少一个第一历史时刻的四元组信息之外的其它历史时刻的四元组信息，即预设数量个历史时刻的四元组信息中历史时刻的自动驾驶车辆的目标动作为保持执行所对应的历史时刻的四元组信息。

例如，假设预设数量个历史时刻的四元组信息可以包括：历史时刻①的四元组信息(其中，历史时刻①的自动驾驶车辆的目标动作为换道)、历史时刻②的四元组信息(其中，历史时刻②的自动驾驶车辆的目标动作为保持直行)、历史时刻③的四元组信息(其中，历史时刻③的自动驾驶车辆的目标动作为换道)和历史时刻④的四元组信息(其中，历史时刻④的自动驾驶车辆的目标动作为保持直行)，则至少一个第一历史时刻的四元组信息可以包括：历史时刻①的四元组信息和历史时刻③的四元组信息，至少一个第二历史时刻的四元组信息可以包括：历史时刻②的四元组信息和历史时刻④的四元组信息。

本申请实施例中涉及的任意第一历史时刻的延伸四元组信息对应第一历史时刻延伸车况，通过对第一历史时刻车况进行对称规则和单调规则处理得到的。

本申请实施例中涉及的对称规则是指以自动驾驶车辆所在车道为轴，将自动驾驶车辆所在车道的左右两侧所有车道上障碍物的位置进行对称变换。

本申请实施例中涉及的单调原则是指将自动驾驶车辆换道的目标车道上的自动驾驶车辆的前后邻居障碍物之间的距离增大，和/或，非目标车道上的自动驾驶车辆的前后邻居障碍物之间的距离改变小于预设距离范围。

示例性地，任意第一历史时刻的延伸四元组信息可以包括：该第一历史时刻的对称四元组信息和单调四元组信息。例如，该第一历史时刻的对称四元组信息可以是对该第一历史时刻的四元组信息进行对称原则处理得到的，该第一历史时刻的单调四元组信息可以是对该第一历史时刻的四元组信息进行单调原则处理得到的。

具体的，该第一历史时刻的对称四元组信息和单调四元组信息的构造方式，可以参考本申请上述关于“任意时刻的对称四元组信息和单调四元组信息”的构造方式，此处不再赘述。

本步骤中，根据至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，对当前控制策略中的参数进行更新得到下一时刻的控制策略(用于确定下一时刻的目标动作)。

示例性地，根据至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息中的第l个四元组信息，生成第l个四元组信息对应的目标值；进一步地，利用梯度下降法对包含第l个四元组信息对应的目标值的预设函数中的参数q进行迭代更新；进一步地，将迭代更新后的参数q替换当前控制策略中的参数q，得到下一时刻的控制策略。

本实施例中，根据至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息中的第l个四元组信息(s_l，a_l，r_l，s_l)可以采用如下公式，生成第l个四元组信息对应的目标值y_l；其中，l为取遍不大于q的正整数，q为至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息中所包括的四元组信息总数。

示例性地，

其中，结束状态是指自动驾驶车辆自动行驶完成了预设最大距离或者人为干预自动驾驶车辆的行驶；g代表预设遗忘因子，g∈(0，1)；Q(s_l′，a_l，q)代表动作价值函数；

代表遍历a_l使Q(s_l′，a_l，q)取最大值；s_l′代表第l个四元组信息中的后一个时刻的特征。

当然，根据至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息中的第l个四元组信息，还可通过上述公式的其它变形或者等效公式生成第l个四元组信息对应的目标值，本申请实施例中对此并不作限制。

进一步地，利用梯度下降法对包含第l个四元组信息对应的目标值y_l的预设函数

中的参数q进行迭代更新；其中，Q(s_l，a_l，q)为第l个四元组信息对应的动作价值函数，s_l代表第l个四元组信息中的前一个时刻的特征，a_l代表第l个四元组信息中前一个时刻的目标动作。

进一步地，将迭代更新后的参数q替换当前控制策略中的参数q，从而得到下一时刻的控制策略，以便于用于确定下一时刻的目标动作。

当然，根据至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，还可通过其它方式对当前控制策略中的参数进行更新得到下一时刻的控制策略，本申请实施例中对此并不作限制。

本申请实施例中，上述训练设备1001可以将步骤S901-步骤S902循环执行预设次数，或者可以将上述步骤S901-步骤S902循环执行多次直至更新后的控制策略满足预设条件时停止。上述训练设备1001最终得到的控制策略可以用于执行设备1002执行自动换道方法时使用。

示例性地，当上述训练设备1001首次执行上述步骤S902时，本申请实施例的当前控制策略可以是预设的初始控制策略；当上述训练设备1001不是首次执行上述步骤S902时，本申请实施例的当前控制策略可以是训练设备1001上次执行步骤S902后所得到的控制策略。

本申请实施例中，通过获取预设数量个历史时刻的四元组信息；进一步地，根据至少一个第一历史时刻的四元组信息、至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，对当前控制策略进行更新得到下一时刻的控制策略。可见，通过在预设数量个历史时刻的四元组信息的基础上，进一步根据预设数量个历史时刻的四元组信息中的第一历史时刻的延伸四元组信息对当前控制策略进行更新，从而可以获得更加准确的控制策略，以便于可以准确地确定出对应的目标动作。

图10为本申请另一实施例提供的控制策略的训练方法的流程示意图。在上述实施例的基础上，本申请实施例中对“历史时刻的四元组信息”的生成方式进行介绍。如图10所示，在上述步骤S901之前，还包括：

S1001、对于每个历史时刻，根据自动驾驶车辆的行驶信息以及自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算自动驾驶车辆在该历史时刻的局部邻居特征以及全局统计特征。

需要说明的是，当障碍物为车辆或其他移动终端时，该障碍物的运动信息为行驶信息；当障碍物为人、动物或静止物体时，该障碍物的运动信息可以包括运动速度、运动位置等相关信息。

本步骤中，对于每个历史时刻，根据自动驾驶车辆的行驶信息(例如行驶速度和/或行驶位置等信息)以及自动驾驶车辆感知范围(即自动驾驶车辆的传感器可检测的范围，例如距离自动驾驶车辆的预设间隔内的范围)内各个车道的障碍物的运动信息(例如车辆的行驶速度和/或行驶位置等信息，人物、动物或静止物体的运动速度和/或运动位置等)，计算自动驾驶车辆在该历史时刻的局部邻居特征以及全局统计特征。

本申请实施例中涉及的自动驾驶车辆在任意历史时刻的局部邻居特征用于表示自动驾驶车辆在该历史时刻的特定的邻居车(例如自动驾驶车辆所在车道上与自动驾驶车辆相邻的前后障碍物、自动驾驶车辆所在车道的相邻左侧车道上与自动驾驶车辆相邻的前后障碍物、自动驾驶车辆所在车道的相邻右侧车道上与自动驾驶车辆相邻的前后障碍物)相对于自动驾驶车辆的运动状态信息(例如相对距离和相对速度)。

示例性地，任意时刻的自动驾驶车辆的局部邻居特征s_l可以包括但不限于：自动驾驶车辆所在车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

和相对距离

自动驾驶车辆所在车道的相邻左侧车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆所在车道的相邻左侧车道上与自动驾驶车辆相邻的后障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆所在车道的相邻右侧车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆所在车道的相邻右侧车道上与自动驾驶车辆相邻的后障碍物相对于自动驾驶车辆的相对速度

和相对距离

本申请实施例中涉及的自动驾驶车辆在任意历史时刻的全局统计特征用于表示自动驾驶车辆的感知范围内各个车道的障碍物的稀疏与稠密程度，例如各个车道所有障碍物在该历史时刻的平均行驶速度以及平均间隔。

示例性地，任意时刻的自动驾驶车辆的全局车流统计特征s_g可以包括但不限于：自动驾驶车辆所在车道的左侧所有车道上前后的两障碍物之间的平均间隔gap_L、自动驾驶车辆所在车道上前后相邻的两障碍物之间的平均间隔gap_M、自动驾驶车辆所在车道的右侧所有车道上前后相邻的两障碍物之间的平均间隔gap_R、自动驾驶车辆所在车道的左侧所有车道上障碍物的平均行驶速度V_L、自动驾驶车辆所在车道上障碍物的平均行驶速度V_M和自动驾驶车辆所在车道的右侧所有车道上障碍物的平均行驶速度V_R。

S1002、根据该历史时刻的局部邻居特征、全局统计特征和该历史时刻的控制策略获取该历史时刻的目标动作指示。

本步骤中，通过将该历史时刻的局部邻居特征和全局统计特征输入到该历史时刻的控制策略，便可获取该历史时刻的目标动作指示(用于指示自动驾驶车辆执行目标动作)。

示例性地，任意时刻的控制策略(例如该历史时刻的控制策略)可以表示为：

其中，s代表该时刻的局部邻居特征和全局统计特征；a′∈(0，1，2)，a′等于0代表保持直行，a′等于1代表向左相邻车道换道，a′等于2代表向右相邻车道换道。

本实施例中针对任意历史时刻的局部邻居特征和全局统计特征，选择使动作价值函数Q(s，a′，q)取最大值的动作a′作为该历史时刻的目标动作a。

当然，该历史时刻的控制策略还可采用上述公式的其它变形或者等效公式，本申请实施例中对此并不作限制。

示例性地，目标动作至少包括两类：换道或保持直行，其中，换道可以包括：向左相邻车道换道或向右相邻车道换道。

S1003、通过执行目标动作得到反馈信息。

示例性地，反馈信息可以包括但不限于：自动驾驶车辆执行目标动作后的行驶信息(如行驶速度或行驶位置等)，自动驾驶车辆在下一时刻的行驶信息和自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息；当目标动作为换道时，反馈信息还可以包括：执行目标动作的时间与历史平均时间的比值，以及自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况；其中，历史平均时间包括自动驾驶车辆在预设历史时间段内(例如500时间窗口)执行同类动作(如换道动作)的平均时间。

示例性地，自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况可以是根据自动驾驶车辆和自动驾驶车辆感知范围内其他障碍物在自动驾驶车辆换道前后的行驶信息(例如，自动驾驶车辆换道前所在车道上前后相邻的两障碍物之间的平均间隔gap_cur，自动驾驶车辆换道前所在车道上障碍物的平均行驶速度V_cur，自动驾驶车辆换道后所在车道上前后相邻的两障碍物之间的平均间隔gap_goal，自动驾驶车辆换道后所在车道上障碍物的平均行驶速度V_goal)，以及预设全局分类模型F₀确定的。

S1004、根据反馈信息计算目标动作对应的回报值，以及自动驾驶车辆在该历史时刻的下一时刻的局部邻居特征以及全局统计特征。

本步骤中，可以根据反馈信息中的自动驾驶车辆在下一时刻的行驶信息和自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息，计算自动驾驶车辆在该历史时刻的下一时刻的局部邻居特征以及全局统计特征。具体地计算方式可以参考上述关于获取自动驾驶车辆在该历史时刻的局部邻居特征以及全局统计特征的方式，本申请实施例中对此不再赘述。

本申请实施例的下述部分对“根据反馈信息计算目标动作对应的回报值”的可实现方式进行介绍。

一种可能的实现方式，当目标动作为保持直行时，根据自动驾驶车辆执行目标动作后的行驶信息计算回报值。

示例性地，根据预设函数R(s″)和自动驾驶车辆执行目标动作后的行驶信息s″(如行驶速度或行驶位置等)计算回报值。例如，预设函数R(s″)＝V_ego′，V_ego′代表自动驾驶车辆执行目标动作后的行驶速度；当然，预设函数R(s″)还可以等于包括自动驾驶车辆执行目标动作后的行驶信息的其它函数，本申请实施例中对此并不作限制。

另一种可能的实现方式，当目标动作为换道时，根据自动驾驶车辆执行目标动作后的行驶信息、执行目标动作的时间与历史平均时间的比值，以及自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况，计算回报值。

本实现方式中，根据执行目标动作的时间T与历史平均时间T_e的比值确定局部回报系数K_l。进一步地，根据自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况确定全局回报系数K_g，其中，当自动驾驶车辆换道后所在车道比自动驾驶车辆换道前所在车道稠密时，K_g＞1；当自动驾驶车辆换道后所在车道比自动驾驶车辆换道前所在车道稀疏时，K_g＜1。进一步地，根据自动驾驶车辆执行目标动作后的行驶信息、局部回报系数K_l和全局回报系数K_g，计算回报值。

示例性地，根据公式c*K_l*K_g*R(s″)计算回报值；其中，c代表预设折扣因子(例如0.3)，R(s″)代表包含自动驾驶车辆执行目标动作后的行驶信息的预设函数；当然，还可通过上述公式的其它等效或变形公式计算回报值，本申请实施例中对此并不作限制。

若该历史时刻的自动驾驶车辆的局部邻居特征还可以包括：导航目标车道与自动驾驶车辆所在车道之间的位置信息flag，以及自动驾驶车辆距离沿行驶方向的下一个路口之间的距离dist2goal；其中，flag∈{0，-1，1}，其中，flag等于0代表自动驾驶车辆在导航目标车道上，flag等于-1代表导航目标车道在自动驾驶车辆所在车道的左侧，flag等于1代表导航目标车道在自动驾驶车辆所在车道的右侧，则根据执行目标动作的时间T与历史平均时间T_e的比值确定局部回报系数K_l。进一步地，根据自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况确定第一全局回报系数

进一步地，根据导航目标车道与自动驾驶车辆所在车道之间的位置信息flag和目标动作确定第二全局回报系数

示例性地，根据如下公式确定第二全局回报系数

其中，gap_cur代表自动驾驶车辆换道前所在车道上前后相邻的两障碍物之间的平均间隔，gap_goal代表自动驾驶车辆换道后所在车道上前后相邻的两障碍物之间的平均间隔，a代表目标动作。

当然，还可通过上述公式的其它等效或变形公式计算第二全局回报系数

本申请实施例中对此并不作限制

进一步地，根据自动驾驶车辆执行目标动作后的行驶信息、局部回报系数K_l、第一全局回报系数

和第二全局回报系数

计算回报值。

示例性地，根据公式

计算回报值；其中，c代表预设折扣因子(例如0.3)，R(s″)代表包含自动驾驶车辆执行目标动作后的行驶信息的预设函数。

例如，预设函数

V_ego′代表自动驾驶车辆执行目标动作后的行驶速度，flag′代表导航目标车道与自动驾驶车辆执行目标动作后所在车道之间的位置信息，flag′等于0代表自动驾驶车辆执行目标动作后在导航目标车道上，flag′等于-1代表导航目标车道在自动驾驶车辆执行目标动作后所在车道的左侧，flag′等于1代表导航目标车道在自动驾驶车辆执行目标动作后所在车道的右侧；dist2goal′代表自动驾驶车辆执行目标动作后距离沿行驶方向的下一个路口之间的距离；当然，预设函数R(s″)还可以等于包括自动驾驶车辆执行目标动作后的行驶信息的其它函数，本申请实施例中对此并不作限制。

当然，还可通过上述公式的其它等效或变形公式计算回报值，本申请实施例中对此并不作限制。

当然，根据反馈信息还可通过其它方式计算目标动作对应的回报值，本申请实施例中对此并不作限制。

S1005、存储该历史时刻的四元组信息。

本步骤中可以将该历史时刻的四元组信息存储在数据库中，为了便于后续训练控制策略。示例性地，该历史时刻的四元组信息对应该历史时刻车况，可以包括：该历史时刻的特征、自动驾驶车辆在该历史时刻的目标动作、该历史时刻的目标动作对应的回报值以及该历史时刻的下一时刻的特征，该历史时刻的特征包括自动驾驶车辆在该历史时刻的局部邻居特征和全局统计特征，该历史时刻的下一时刻的特征包括自动驾驶车辆在该历史时刻的下一时刻的局部邻居特征和全局统计特征。

本申请实施例中，对于每个历史时刻，通过根据自动驾驶车辆在该历史时刻的局部邻居特征、全局统计特征和该历史时刻的控制策略获取该历史时刻的目标动作指示；进一步地，通过执行目标动作得到反馈信息，并根据反馈信息计算目标动作对应的回报值以及自动驾驶车辆在该历史时刻的下一时刻的局部邻居特征以及全局统计特征，并存储该历史时刻的四元组信息。可见，通过在局部邻居特征的基础上，进一步引入全局统计特征和目标动作对应的回报值等信息，使得用于训练控制策略的训练数据更加完善，从而有利于训练出更加准确的控制策略。

进一步地，在上述实施例的基础上，本申请实施例中对“预设全局分类模型F₀”的生成方式进行介绍。

示例性地，获取全局分类模型特征；其中，全局分类模型特征可以包括但不限于：在预设时间段(例如2000000个时间窗口)内自动驾驶车辆和自动驾驶车辆感知范围内各个车道的障碍物在自动驾驶车辆每次换道前后的运动信息(例如，自动驾驶车辆每次换道前所在车道上前后相邻的两障碍物之间的平均间隔gap_cur，自动驾驶车辆每次换道前所在车道上障碍物的平均行驶速度V_cur，自动驾驶车辆每次换道后所在车道上前后相邻的两障碍物之间的平均间隔gap_goal，自动驾驶车辆每次换道后所在车道上障碍物的平均行驶速度V_goal)。进一步地，根据全局分类模型特征采用逻辑回归算法，生成预设全局分类模型F₀。

本申请实施例中，首先可以在模拟器中预设不同稀疏与稠密程度和/或不同速度的道路场景，例如，构建长度为预设长度(例如4km)的包含三个车道的地图作为训练地图以及社会车(即除自动驾驶车辆之外的其它车辆)的布置覆盖到无车场景、稀疏中速场景、稀疏高速场景、稀疏低速场景、均匀中速场景、均匀高速场景、均匀低速场景、稠密中速场景、稠密高速场景、稠密低速场景、稠密超低速场景等场景(其中，稀疏场景、均匀场景、稠密场景的车辆密度平均分别为15辆/4000米，40辆/4000米，100辆/4000米，社会车的平均速度的范围在5公里/小时，10公里/小时，20公里/小时，30公里/小时，40公里/小时，50公里/小时，60公里/小时等)。

其次，在模拟器中随机加载一个训练地图，让自动驾驶车辆以随机策略在模拟环境中行驶；所谓随机策略，就是自动驾驶车辆随机的在决策空间A(如0，1，2)中选择目标动作进行执行。假设自动驾驶车辆每次行驶到训练地图终点时将随机切换新训练地图和新的社会车配置场景，直到行驶预设时间段(例如2000000个时间窗口)后终止。

在模拟过程中，获取全局分类模型特征；其中，全局分类模型特征可以包括但不限于：在预设时间段(例如2000000个时间窗口)内自动驾驶车辆和自动驾驶车辆感知范围内其他车辆在自动驾驶车辆每次换道前后的行驶信息(例如，自动驾驶车辆每次换道前所在车道上前后相邻的两辆车之间的平均间隔gap_cur，自动驾驶车辆每次换道前所在车道上车辆的平均行驶速度V_cur，自动驾驶车辆每次换道后所在车道上前后相邻的两辆车之间的平均间隔gap_goal，自动驾驶车辆每次换道后所在车道上车辆的平均行驶速度V_goal)。

进一步地，如果任意换道前后的行驶信息中的gap_cur＜gap_goal，则换道前后的行驶信息所对应的标签为1(代表自动驾驶车辆换道后所在车道比自动驾驶车辆换道前所在车道稀疏)，否则为0(代表自动驾驶车辆换道后所在车道比自动驾驶车辆换道前所在车道稠密)。

进一步地，将每次换道前后的行驶信息和对应的标签作为样本数据添加到训练集D中，并利用训练集D中的样本数据和逻辑回归算法学习生成预设全局分类模型F₀(模型的输出是换道后所在车道更加稀疏的概率)。

当然，还可通过其它方式生成预设全局分类模型F₀，本申请实施例中对此并不作限制。

下面对本申请实施例提供的自动换道方法进行详细说明。

图11为本申请一实施例提供的自动换道方法的流程示意图。本实施例的方法具体可以由如图1所示的执行设备1002执行。如图11所示，本申请实施例提供的方法可以包括：

S1101、根据自动驾驶车辆当前时刻的行驶信息以及自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算自动驾驶车辆当前时刻的局部邻居特征以及全局统计特征。

需要说明的是，当障碍物为车辆或其他移动终端时，该运动信息为行驶信息；当障碍物为人、动物或静止物体时，该运动信息可以包括运动速度等相关信息。

本步骤中，根据自动驾驶车辆当前时刻的行驶信息(例如行驶速度和/或行驶位置等信息)以及自动驾驶车辆感知范围(即自动驾驶车辆的传感器可检测的范围，例如距离自动驾驶车辆的预设间隔内的范围)内各个车道的障碍物的运动信息(例如车辆的行驶速度和/或行驶位置等信息，人物、动物或静止物体的运动速度和/或运动位置等)，计算自动驾驶车辆在当前时刻的局部邻居特征以及全局统计特征。

本申请实施例中涉及的自动驾驶车辆在当前时刻的局部邻居特征用于表示自动驾驶车辆在当前时刻的特定的邻居障碍物(例如自动驾驶车辆在当前时刻所在车道上与自动驾驶车辆相邻的前后障碍物、自动驾驶车辆在当前时刻所在车道的相邻左侧车道上与自动驾驶车辆相邻的前后障碍物、自动驾驶车辆在当前时刻所在车道的相邻右侧车道上与自动驾驶车辆相邻的前后障碍物)相对于自动驾驶车辆的运动状态信息(例如相对距离和相对速度)。

示例性地，任意时刻的自动驾驶车辆的局部邻居特征s_l可以包括但不限于：自动驾驶车辆在该时刻所在车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆在该时刻所在车道上与自动驾驶车辆相邻的后障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆在该时刻所在车道的相邻左侧车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆在该时刻所在车道的相邻左侧车道上与自动驾驶车辆相邻的后障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆在该时刻所在车道的相邻右侧车道上与自动驾驶车辆相邻的前障碍物相对于自动驾驶车辆的相对速度

和相对距离

自动驾驶车辆在该时刻所在车道的相邻右侧车道上与自动驾驶车辆相邻的后障碍物相对于自动驾驶车辆的相对速度

和相对距离

本申请实施例中涉及自动驾驶车辆在当前时刻的全局统计特征用于表示自动驾驶车辆的感知范围内各个车道的障碍物在当前时刻的稀疏与稠密程度，例如，各个车道所有障碍物在当前时刻的平均行驶速度以及平均间隔。

示例性地，任意时刻的自动驾驶车辆的全局统计特征s_g可以包括但不限于：自动驾驶车辆在该时刻所在车道的左侧所有车道上前后相邻的两障碍物之间的平均间隔gap_L、自动驾驶车辆在该时刻所在车道上前后相邻的两障碍物之间的平均间隔gap_M、自动驾驶车辆在该时刻所在车道的右侧所有车道上前后相邻的两障碍物之间的平均间隔gap_R、自动驾驶车辆在该时刻所在车道的左侧所有车道上障碍物的平均行驶速度V_L、自动驾驶车辆在该时刻所在车道上障碍物的平均行驶速度V_M和自动驾驶车辆在该时刻所在车道的右侧所有车道上障碍物的平均行驶速度V_R。

S1102、根据局部邻居车特征、全局统计特征和当前控制策略获取目标动作指示。

示例性地，当上述执行设备1002首次执行上述步骤S1101-S1102时，本申请实施例的当前控制策略可以是预设的控制策略，例如上述训练设备1001通过执行上述控制策略的训练方法最终所得到的控制策略；当上述执行设备1002不是首次执行上述步骤S1101-S1102时，本申请实施例的当前控制策略可以是执行设备1002在上一时刻更新后得到的控制策略。

本步骤中，通过将自动驾驶车辆在当前时刻的局部邻居特征和全局统计特征输入到当前控制策略(即当前时刻的控制策略)，便可获取当前时刻的目标动作指示(用于指示自动驾驶车辆执行目标动作)。

示例性地，任意时刻的控制策略(例如当前控制策略)可以表示为：

其中，s代表该时刻的自动驾驶车辆的局部邻居特征和全局统计特征；a′∈(0，1，2)，a′等于0代表保持直行，a′等于1代表向左相邻车道换道，a′等于2代表向右相邻车道换道。

本实施例中针对任意当前时刻的自动驾驶车辆的局部邻居特征和全局统计特征，选择使Q(s，a′，q)取最大值的动作a′作为当前时刻的目标动作a。

示例性地，目标动作至少包括两类：换道或保持直行，其中，换道包括：向左相邻车道换道或向右相邻车道换道。

当然，当前时刻的控制策略还可采用上述公式的其它变形或者等效公式，本申请实施例中对此并不作限制。

S1103、根据目标动作指示执行目标动作。

示例性地，若目标动作指示换道，则自动驾驶车辆执行换道动作；若目标动作指示保持直行，则自动驾驶车辆执执行保持直行动作。

具体地，根据目标动作指示执行目标动作的方式，可以参考相关技术中的内容，本申请实施例中对此并不作限制。

本申请实施例中，根据自动驾驶车辆当前时刻的行驶信息以及自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算自动驾驶车辆在当前时刻的局部邻居特征以及全局统计特征；进一步地，根据局部邻居特征、全局统计特征和当前控制策略获取目标动作指示，并根据目标动作指示执行目标动作。可见，通过在局部邻居特征的基础上，进一步引入全局统计特征输入当前控制策略获取目标动作指示，不仅考虑了局部的邻居障碍物(如他车)的信息还考虑了全局统计特征(如整体车流)的宏观情况，因此，综合了局部和全部路面障碍物信息得到的目标动作是全局最优的策略动作。

进一步地，在上述实施例的基础上，本申请实施例中还可以通过执行目标动作得到反馈信息，并根据反馈信息更新当前控制策略得到下一时刻的控制策略，从而使得下一时刻可以根据该下一时刻的控制策略准确地确定下一时刻的目标动作。

需要说明的是，在每个t时刻可以根据该t时刻的反馈信息对该t时刻的控制策略进行更新，得到t+1时刻的控制策略，使得生成目标动作的控制策略一直在自适应的持续更新优化中，从而保证每一个时刻都有其对应的最佳控制策略，为每一个时刻的目标动作的准确生成提供了保障。

本实施例中，通过执行目标动作得到反馈信息(用于更新当前控制策略)，以便于确定目标动作对应的回报值以及自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征，从而更新当前控制策略。

示例性地，自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况可以是根据自动驾驶车辆和自动驾驶车辆感知范围内各个车道的障碍物在自动驾驶车辆换道前后的运动信息(例如，自动驾驶车辆换道前所在车道上前后相邻的两障碍物之间的平均间隔gap_cur，自动驾驶车辆换道前所在车道上障碍物的平均行驶速度V_cur，自动驾驶车辆换道后所在车道上前后相邻的两障碍物之间的平均间隔gap_goal，自动驾驶车辆换道后所在车道上障碍物的平均行驶速度V_goal)，以及预设全局分类模型F₀确定的。

图12为本申请另一实施例提供的自动换道方法的流程示意图。在上述实施例的基础上，本申请实施例对“根据反馈信息更新当前控制策略得到下一时刻的控制策略”的可实现方式进行介绍。如图12所示，本申请实施例的方法可以包括：

S1201、根据反馈信息计算目标动作对应的回报值，以及自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征。

本步骤中，可以根据反馈信息中的自动驾驶车辆在下一时刻的行驶信息和自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息，计算自动驾驶车辆在当前时刻的下一时刻的局部邻居特征以及全局统计特征。具体地计算方式可以参考上述步骤S1001中关于获取自动驾驶车辆在该历史时刻的局部邻居特征以及全局统计特征的方式，本申请实施例中对此不再赘述。

示例性地，根据预设函数R(s″)和自动驾驶车辆执行目标动作后的行驶信息s″(如行驶速度或距离等)计算回报值。例如，预设函数R(s″)＝V_ego′，V_ego′代表自动驾驶车辆执行目标动作后的行驶速度；当然，预设函数R(s″)还可以等于包括自动驾驶车辆执行目标动作后的行驶信息的其它函数，本申请实施例中对此并不作限制。

若当前时刻的自动驾驶车辆的局部邻居特征还可以包括：导航目标车道与自动驾驶车辆所在车道之间的位置信息flag，以及自动驾驶车辆距离沿行驶方向的下一个路口之间的距离dist2goal；其中，flag∈{0，-1，1}，其中，flag等于0代表自动驾驶车辆在导航目标车道上，flag等于-1代表导航目标车道在自动驾驶车辆所在车道的左侧，flag等于1代表导航目标车道在自动驾驶车辆所在车道的右侧，则根据执行目标动作的时间T与历史平均时间T_e的比值确定局部回报系数K_l。进一步地，根据自动驾驶车辆换道后所在车道与换道前所在车道在稀疏程度上的变化情况确定第一全局回报系数

示例性地，根据如下公式确定第二全局回报系数

本申请实施例中对此并不作限制

和第二全局回报系数

计算回报值。

示例性地，根据公式

例如，预设函数

步骤S1202、确定当前时刻的四元组信息。

本步骤中，根据自动驾驶车辆在当前时刻的局部邻居特征和全局统计特征、当前时刻的目标动作、上述步骤S1201中所计算得到的目标动作对应的回报值、自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征，确定出当前时刻的四元组信息。

示例性地，当前时刻的四元组信息对应当前时刻车况，可以包括：当前时刻的特征、自动驾驶车辆在当前时刻的目标动作、目标动作对应的回报值以及当前时刻的下一时刻的特征，当前时刻的特征包括自动驾驶车辆在当前时刻的局部邻居特征和全局统计特征，当前时刻的下一时刻的特征包括自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征。

S1203、根据当前时刻的四元组信息对当前控制策略进行更新得到下一时刻的控制策略。

一种可能的实现方式，当目标动作为直行时，根据当前时刻的四元组信息，生成四元组信息对应的目标值；进一步地，利用梯度下降法对包含目标值的第一预设函数中的参数q进行迭代更新；进一步地，将迭代更新后的参数q替换当前控制策略中的参数q，得到当前时刻的下一时刻的控制策略。

本实现方式中，当目标动作为直行时，根据当前时刻的四元组信息可以采用如下公式，生成四元组信息对应的目标值y。

示例性地，

其中，g代表预设遗忘因子，g∈(0，1)；Q(s′，a，q)代表动作价值函数；

代表遍历a使Q(s′，a，q)取最大值；s′代表当前时刻的下一时刻的特征。

当然，根据当前时刻的四元组信息，还可通过上述公式的其它变形或者等效公式生成四元组信息对应的目标值，本申请实施例中对此并不作限制。

进一步地，利用梯度下降法对包含目标值y的第一预设函数(y-Q(s，a，q))²中的参数q进行迭代更新；其中，Q(s，a，q)为当前时刻的四元组信息对应的动作价值函数，s代表当前时刻的四元组信息中的当前时刻的局部邻居特征和全局特征，a代表当前时刻的四元组信息中的当前时刻的目标动作。

进一步地，将迭代更新后的参数q替换当前控制策略中的参数q，从而得到当前时刻的下一时刻的控制策略，以便于用于确定下一时刻的目标动作。

另一种可能的实现方式，当目标动作为换道时，获取当前时刻的延伸四元组信息；进一步地，根据当前时刻的四元组信息和当前时刻的延伸四元组信息对当前控制策略进行更新得到当前时刻的下一时刻的控制策略。

本申请实施例中涉及的当前时刻的延伸四元组信息对应当前时刻延伸车况，通过对当前时刻车况进行对称规则和单调规则处理得到的。

示例性地，当前时刻的延伸四元组信息可以包括：当前时刻的对称四元组信息和单调四元组信息。例如，当前时刻的对称四元组信息可以是对当前时刻的四元组信息进行对称原则处理得到的，当前时刻的单调四元组信息可以是对当前时刻的四元组信息进行单调原则处理得到的。

具体的，当前时刻的对称四元组信息和单调四元组信息的构造方式，可以参考本申请上述关于“任意时刻的对称四元组信息和单调四元组信息”的构造方式，此处不再赘述。

本实现方式中，当目标动作为换道时，通过获取当前时刻的延伸四元组信息，并根据当前时刻的四元组信息和当前时刻的延伸四元组信息中的第i个四元组信息(s_i，a_i，r_i，s_i′)可以采用如下公式，生成第i个四元组信息对应的目标值y_i；其中，i为取遍不大于n的正整数，n为当前时刻的四元组信息和当前时刻的延伸四元组信息中包括的四元组信息总数。

示例性地，

其中，g代表预设遗忘因子，g∈(0，1)；Q(s_i′，a_i，q)代表动作价值函数；

代表遍历a_i使Q(s_i′，a_i，q)取最大值；s_i′代表第i个四元组信息中的后一个时刻的特征。

当然，根据当前时刻的四元组信息和当前时刻的延伸四元组信息中的第i个四元组信息，还可通过上述公式的其它变形或者等效公式生成第i个四元组信息对应的目标值，本申请实施例中对此并不作限制。

进一步地，利用梯度下降法对包含第i个四元组信息对应的目标值y_i的第二预设函数

中的参数q进行迭代更新；其中，Q(s_i，a_i，q)为第i个四元组信息对应的动作价值函数，s_i代表第i个四元组信息中的前一个时刻的特征，a_i代表第i个四元组信息中前一个时刻的目标动作。

另一种可能的实现方式，当目标动作为保持直行时，根据当前时刻的四元组信息、历史时刻的四元组信息和历史时刻的延伸四元组信息对当前控制策略进行更新得到当前时刻的下一时刻的控制策略。

本申请实施例中的历史时刻的四元组信息对应历史时刻车况，可以包括但不限于：历史时刻的特征、历史时刻的自动驾驶车辆的目标动作(即在历史时刻根据对应的控制策略所确定的目标动作)、历史时刻的目标动作对应的回报值以及该历史时刻的下一时刻的特征。

本申请实施例中涉及的历史时刻的延伸四元组信息对应历史时刻延伸车况，通过对历史时刻车况进行对称规则和单调规则处理得到的。

示例性地，历史时刻的延伸四元组信息可以包括：历史时刻的对称四元组信息和单调四元组信息。例如，历史时刻的对称四元组信息可以是对历史时刻的四元组信息进行对称原则处理得到的，历史时刻的单调四元组信息可以是对历史时刻的四元组信息进行单调原则处理得到的。

具体的，历史时刻的对称四元组信息和单调四元组信息的构造方式，可以参考本申请上述关于“任意时刻的对称四元组信息和单调四元组信息”的构造方式，此处不再赘述。

本实现方式中，当目标动作为保持直行时，根据所述当前时刻的四元组信息、历史时刻的四元组信息和历史时刻的延伸四元组信息中的第j个四元组信息(s_j，a_j，r_j，s_j′)可以采用如下公式，生成第j个四元组信息对应的目标值y_j；其中，j为取遍不大于m的正整数，m为当前时刻的四元组信息、历史时刻的四元组信息和历史时刻的延伸四元组信息中包括的四元组信息总数。

示例性地，

其中，g代表预设遗忘因子，g∈(0，1)；Q(s_j′，a_j，q)代表动作价值函数；

代表遍历a_j使Q(s_j′，a_j，q)取最大值；s_j′代表第j个四元组信息中的后一个时刻的特征。

当然，根据当前时刻的四元组信息、历史时刻的四元组信息和历史时刻的延伸四元组信息中的第j个四元组信息，还可通过上述公式的其它变形或者等效公式生成第j个四元组信息对应的目标值，本申请实施例中对此并不作限制。

进一步地，利用梯度下降法对包含第j个四元组信息对应的目标值y_j的第三预设函数

中的参数q进行迭代更新；其中，Q(s_j，a_j，q)为第j个四元组信息对应的动作价值函数，s_j代表第j个四元组信息中的前一个时刻的特征，a_j代表第j个四元组信息中前一个时刻的目标动作。

另一种可能的实现方式，当目标动作为换道时，获取当前时刻的延伸四元组信息；进一步地，根据当前时刻的四元组信息、当前时刻的延伸四元组信息、历史时刻的四元组信息和历史时刻的延伸四元组信息，对当前控制策略进行更新得到当前时刻的下一时刻的控制策略。

本实现方式中，当目标动作为换道时，通过获取当前时刻的延伸四元组信息，并根据当前时刻的四元组信息、当前时刻的延伸四元组信息、历史时刻的四元组信息和历史时刻的延伸四元组信息中的第k个四元组信息(s_k，a_k，r_k，s_k′)可以采用如下公式，生成第k个四元组信息对应的目标值y_k；其中，k为取遍不大于p的正整数，p为当前时刻的四元组信息、当前时刻的延伸四元组信息、历史时刻的四元组信息和历史时刻的延伸四元组信息中包括的四元组信息总数。

示例性地，

其中，g代表预设遗忘因子，g∈(0，1)；Q(s_k′，a_k，q)代表动作价值函数；

代表遍历a_k使Q(s_k′，a_k，q)取最大值；s_k′代表第k个四元组信息中的后一个时刻的特征。

当然，根据当前时刻的四元组信息、当前时刻的延伸四元组信息、历史时刻的四元组信息和历史时刻的延伸四元组信息中的第k个四元组信息，还可通过上述公式的其它变形或者等效公式生成第k个四元组信息对应的目标值，本申请实施例中对此并不作限制。

进一步地，利用梯度下降法对包含第k个四元组信息对应的目标值y_k的第四预设函数

中的参数q进行迭代更新；其中，Q(s_k，a_k，q)为第k个四元组信息对应的动作价值函数，s_k代表第k个四元组信息中的前一个时刻的特征，a_k代表第k个四元组信息中前一个时刻的目标动作。

当然，根据当前时刻的四元组信息，还可通过其它方式对当前控制策略进行更新得到下一时刻的控制策略，本申请实施例中对此并不作限制。

图13为本申请实施例提供的训练数据示意图。如图13所示，本申请实施例提供的控制策略的训练方法在训练过程中得到的不同阶段的控制策略在四中不同交通流(例如，稀疏场景，普通场景，拥塞场景以及非常拥塞的场景)中测试的表现趋势。图13中的横坐标代表整个训练过程的迭代次数(单位：10000次)，纵坐标代表自动驾驶车辆在固定长度的车道上行驶完全程的所用时间(单位：秒)。其中，红色曲线代表仅用局部邻居特征作为输入训练(方案一)的收敛趋势，蓝色曲线代表在局部邻居特征的基础上，进一步加入了全局统计特征后进行训练(方案二)的趋势，绿色曲线代表计算回报值时引入了局部回报系数和全局回报系数后的训练(方案三)收敛趋势。可以看出，采用了全局统计特征后的控制策略的表现明显增加；当计算回报值时引入了局部回报系数和全局回报系数后，不仅可以加速收敛，同时能够增强控制策略的表现。

表1为本申请实施例提供的训练数据示意表。如表1所示，分别在稀疏场景，普通场景，拥塞场景以及非常拥塞的场景与相关方案进行比较。可见，本方案比相关方案在平均速度、平均换道次数这两项指标上均取得优势。同时，我们也统计了一些看似局部不合理，实际长程合理的换道行为，称之为“软换道”，发现我们的方案存在一定的“软换道”比例，说明我们的模型更具长远的智能性。

表1为本申请实施例提供的训练数据示意表

图14为本申请一实施例提供的自动换道装置的结构示意图。如图14所示，本实施例提供的自动换道装置140可以包括：计算模块1401、获取模块1402以及执行模块1403。

其中，计算模块1401，用于根据自动驾驶车辆当前时刻的行驶信息以及所述自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算所述自动驾驶车辆当前时刻的局部邻居特征以及全局统计特征；所述局部邻居特征用于表示所述自动驾驶车辆的特定的邻居障碍物相对于所述自动驾驶车辆的运动状态信息；所述全局统计特征用于表示所述感知范围内各个车道的障碍物的稀疏与稠密程度；

获取模块1402，用于根据所述局部邻居特征、所述全局统计特征和当前控制策略获取目标动作指示，所述目标动作指示用于指示所述自动驾驶车辆执行目标动作，所述目标动作至少包括两类：换道或保持直行；

执行模块1403，用于根据所述目标动作指示执行所述目标动作。

在一种可能的实现方式中，所述装置还包括：

反馈模块，用于通过执行所述目标动作得到反馈信息，所述反馈信息用于更新所述当前控制策略；其中，所述反馈信息包括所述自动驾驶车辆执行所述目标动作后的行驶信息，所述自动驾驶车辆在下一时刻的行驶信息和所述自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息；当所述目标动作为换道时，所述反馈信息还包括：执行所述目标动作的时间与历史平均时间的比值，以及所述自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况；其中，所述历史平均时间包括所述自动驾驶车辆在预设历史时间段内执行同类动作的平均时间；

更新模块，用于根据所述反馈信息更新所述当前控制策略得到下一时刻的控制策略。

在一种可能的实现方式中，所述更新模块包括：

计算单元，用于根据所述反馈信息计算所述目标动作对应的回报值，以及所述自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征；

确定单元，用于确定当前时刻的四元组信息；其中，所述当前时刻的四元组信息对应当前时刻车况，包括：所述当前时刻的特征、所述目标动作、所述目标动作对应的回报值以及所述下一时刻的特征，所述当前时刻的特征包括所述自动驾驶车辆在当前时刻的局部邻居特征和全局统计特征，所述下一时刻的特征包括所述自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征；

更新单元，用于根据所述当前时刻的四元组信息对所述当前控制策略进行更新得到所述下一时刻的控制策略。

在一种可能的实现方式中，当所述目标动作为保持直行时，所述更新单元具体用于：

根据所述当前时刻的四元组信息，生成所述四元组信息对应的目标值；

利用梯度下降法对包含所述目标值的第一预设函数中的参数q进行迭代更新；

将迭代更新后的参数q替换所述当前控制策略中的参数q，得到所述下一时刻的控制策略。

在一种可能的实现方式中，当所述目标动作为换道时，所述更新单元具体用于：

获取所述当前时刻的延伸四元组信息，所述当前时刻的延伸四元组信息对应当前时刻延伸车况，其中所述当前时刻延伸车况是对所述当前时刻车况进行对称规则和单调规则处理得到的，所述对称规则是指以所述自动驾驶车辆所在车道为轴，将所述自动驾驶车辆所在车道的左右两侧所有车道上障碍物的位置进行对称变换；所述单调规则是指将所述换道的目标车道上的所述自动驾驶车辆的前后邻居障碍物之间的距离增大，和/或，非目标车道上的所述自动驾驶车辆的前后邻居障碍物之间的距离改变小于预设距离范围；

根据所述当前时刻的四元组信息和所述当前时刻的延伸四元组信息，对所述当前控制策略进行更新得到所述下一时刻的控制策略。

在一种可能的实现方式中，所述更新单元具体用于：

根据所述当前时刻的四元组信息和所述当前时刻的延伸四元组信息中的第i个四元组信息，生成所述第i个四元组信息对应的目标值；其中，所述i为取遍不大于n的正整数，n为所述当前时刻的四元组信息和所述当前时刻的延伸四元组信息中包括的四元组信息总数；

利用梯度下降法对包含所述第i个四元组信息对应的目标值的第二预设函数中的参数q进行迭代更新；

根据所述当前时刻的四元组信息、历史时刻的四元组信息和所述历史时刻的延伸四元组信息对所述当前控制策略进行更新得到所述下一时刻的控制策略；

其中，所述历史时刻的四元组信息对应历史时刻车况，包括：所述历史时刻的特征、所述历史时刻的目标动作、所述历史时刻的目标动作对应的回报值以及所述历史时刻的下一时刻的特征，所述历史时刻的特征包括所述自动驾驶车辆在历史时刻的局部邻居特征和全局统计特征，所述历史时刻的下一时刻的特征包括所述自动驾驶车辆在历史时刻的下一时刻的局部邻居特征和全局统计特征；所述历史时刻的延伸四元组信息对应历史时刻延伸车况，所述历史时刻延伸车况是对所述历史时刻车况进行对称规则和单调规则处理得到的。

在一种可能的实现方式中，所述更新单元具体用于：

根据所述当前时刻的四元组信息、所述历史时刻的四元组信息和所述历史时刻的延伸四元组信息中的第j个四元组信息，生成所述第j个四元组信息对应的目标值；其中，所述j为取遍不大于m的正整数，m为所述当前时刻的四元组信息、所述历史时刻的四元组信息和所述历史时刻的延伸四元组信息中包括的四元组信息总数；

利用梯度下降法对包含所述第j个四元组信息对应的目标值的第三预设函数中的参数q进行迭代更新；

获取所述当前时刻的延伸四元组信息；其中，所述当前时刻的延伸四元组信息对应当前时刻延伸车况，所述当前时刻延伸车况是对所述当前时刻车况进行对称规则和单调规则处理得到的；

根据所述当前时刻的四元组信息、所述当前时刻的延伸四元组信息、历史时刻的四元组信息和所述历史时刻的延伸四元组信息，对所述当前控制策略进行更新得到所述下一时刻的控制策略；其中，所述历史时刻的四元组信息对应历史时刻车况，所述历史时刻的延伸四元组信息对应历史时刻延伸车况，所述历史时刻延伸车况是对所述历史时刻车况进行对称规则和单调规则处理得到的。

在一种可能的实现方式中，所述根据更新单元具体用于：

根据所述当前时刻的四元组信息、所述当前时刻的延伸四元组信息、所述历史时刻的四元组信息和所述历史时刻的延伸四元组信息中的第k个四元组信息，生成所述第k个四元组信息对应的目标值；其中，所述k为取遍不大于p的正整数，p为所述当前时刻的四元组信息、所述当前时刻的延伸四元组信息、所述历史时刻的四元组信息和所述历史时刻的延伸四元组信息中包括的四元组信息总数；

利用梯度下降法对包含所述第k个四元组信息对应的目标值的第四预设函数中的参数q进行迭代更新；

将迭代更新后的参数q替换所述当前控制策略中的参数g，得到所述下一时刻的控制策略。

在一种可能的实现方式中，当所述目标动作为保持直行时，所述计算单元具体用于：

根据所述自动驾驶车辆执行所述目标动作后的行驶信息计算所述回报值；

根据所述自动驾驶车辆在下一时刻的行驶信息和所述自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息，计算所述自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征。

在一种可能的实现方式中，当所述目标动作为换道时，所述计算单元具体用于：

根据所述自动驾驶车辆执行所述目标动作后的行驶信息、所述执行所述目标动作的时间与历史平均时间的比值，以及所述自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况，计算所述回报值；

在一种可能的实现方式中，所述自动驾驶车辆的特定的邻居障碍物包括以下至少一项：所述自动驾驶车辆所在车道上与所述自动驾驶车辆相邻的前后障碍物、所述自动驾驶车辆所在车道的相邻左车道上与所述自动驾驶车辆相邻的前后障碍物、所述自动驾驶车辆所在车道的相邻右车道上与所述自动驾驶车辆相邻的前后障碍物；

其中，当所述自动驾驶车辆位于左边道时，所述自动驾驶车辆所在车道的相邻左车道上与所述自动驾驶车辆相邻的前后障碍物，相对于所述自动驾驶车辆的运动状态信息为默认值；和/或，

当所述自动驾驶车辆位于右边道时，所述自动驾驶车辆所在车道的相邻右车道上与所述自动驾驶车辆相邻的前后障碍物，相对于所述自动驾驶车辆的运动状态信息为默认值。

在一种可能的实现方式中，所述自动驾驶车辆当前时刻的全局车流统计特征包括以下至少一项：所述感知范围内各个车道所有障碍物的平均行驶速度以及平均间隔。

本申请实施例提供的自动换道装置140，可以用于执行本申请上述自动换道方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图15为本申请另一实施例提供的自动换道装置的结构示意图。如图15所示，本实施例提供的自动换道装置150可以包括：处理器1501和存储器1502。

其中，所述存储器1502，用于存储程序指令；

所述处理器1501，用于调用并执行所述存储器1502中存储的程序指令，当所述处理器1501执行所述存储器1502存储的程序指令时，所述自动换道装置用于执行本申请上述自动换道方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

可以理解的是，图15仅仅示出了自动换道装置的简化设计。在其他的实施方式中，自动换道装置还可以包含任意数量的处理器、存储器和/或通信单元等，本申请实施例中对此并不作限制。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行本申请上述自动换道方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种程序，所述程序在被处理器执行时用于执行本申请上述自动换道方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请上述自动换道方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。图16为本申请实施例提供的计算机程序产品的概念性局部视图，图16示意性地示出根据这里展示的至少一些实施例而布置的示例计算机程序产品的概念性局部视图，所述示例计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。在一个实施例中，示例计算机程序产品600是使用信号承载介质601来提供的。所述信号承载介质601可以包括一个或多个程序指令602，其当被一个或多个处理器运行时可以实现本申请上述自动换道方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一些示例中，信号承载介质601可以包含计算机可读介质603，诸如但不限于硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等等。在一些实施方式中，信号承载介质601可以包含计算机可记录介质604，诸如但不限于存储器、读/写(R/W)CD、R/WDVD、等等。在一些实施方式中，信号承载介质601可以包含通信介质605，诸如但不限于数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。因此，例如，信号承载介质601可以由无线形式的通信介质605(例如，遵守IEEE 802.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令602可以是，例如，计算机可执行指令或者逻辑实施指令。在一些示例中，计算设备可以被配置为响应于通过计算机可读介质603、计算机可记录介质604、和/或通信介质605中的一个或多个传达到计算设备的程序指令602，提供各种操作、功能、或者动作。应该理解，这里描述的布置仅仅是用于示例的目的。因而，本领域技术人员将理解，其它布置和其它元素(例如，机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用，并且一些元素可以根据所期望的结果而一并省略。另外，所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。

图17为本申请一实施例提供的控制策略的训练装置的结构示意图。如图17所示，本实施例提供的控制策略的训练装置170可以包括：第一获取模块1701以及更新模块1702。

其中，第一获取模块1701，用于执行步骤A：获取预设数量个历史时刻的四元组信息，其中，所述历史时刻的四元组信息对应历史时刻车况，包括：所述历史时刻的特征、所述历史时刻的自动驾驶车辆的目标动作、所述历史时刻的目标动作对应的回报值以及所述历史时刻的下一时刻的特征，所述历史时刻的特征包括所述自动驾驶车辆在历史时刻的局部邻居特征和全局统计特征，所述历史时刻的下一时刻的特征包括所述自动驾驶车辆在所述历史时刻的下一时刻的局部邻居特征和全局统计特征；

更新模块1702，用于执行步骤B：根据至少一个第一历史时刻的四元组信息、所述至少一个第一历史时刻的延伸四元组信息，以及至少一个第二历史时刻的四元组信息，对当前控制策略进行更新得到下一时刻的控制策略；

其中，所述步骤A和步骤B的循环执行次数达到预设次数，或者所述步骤A和步骤B循环执行多次直至更新后的控制策略满足预设条件时停止；所述步骤A和步骤B循环执行多次最终得到的控制策略用于自动换道装置在执行自动换道方法时获取目标动作指示；

其中，所述至少一个第一历史时刻的四元组信息为所述预设数量个历史时刻的四元组信息中历史时刻的目标动作为换道所对应的历史时刻的四元组信息；所述至少一个第二历史时刻的四元组信息为所述预设数量个历史时刻的四元组信息中除所述至少一个第一历史时刻的四元组信息之外的其它历史时刻的四元组信息；任意所述第一历史时刻的延伸四元组信息对应第一历史时刻延伸车况，所述第一历史时刻延伸车况是对第一历史时刻车况进行对称规则和单调规则处理得到的。

在一种可能的实现方式中，所述更新模块1702，包括：

生成单元，用于根据所述至少一个第一历史时刻的四元组信息、所述至少一个第一历史时刻的延伸四元组信息，以及所述至少一个第二历史时刻的四元组信息中的第l个四元组信息，生成所述第l个四元组信息对应的目标值；其中，所述1为取遍不大于q的正整数，q为所述至少一个第一历史时刻的四元组信息、所述至少一个第一历史时刻的延伸四元组信息，以及所述至少一个第二历史时刻的四元组信息中包括的四元组信息总数；

更新单元，用于利用梯度下降法对包含所述第l个四元组信息对应的目标值的预设函数中的参数q进行迭代更新；

替换单元，用于将迭代更新后的参数g替换所述当前控制策略中的参数q，得到所述下一时刻的控制策略。

在一种可能的实现方式中，所述装置还包括：

第一计算模块，用于对于每个历史时刻，根据自动驾驶车辆的行驶信息以及所述自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算所述自动驾驶车辆在所述历史时刻的局部邻居特征以及全局统计特征；

第二获取模块，用于根据所述历史时刻的局部邻居特征、全局统计特征和所述历史时刻的控制策略获取所述历史时刻的目标动作指示，所述目标动作指示用于指示所述自动驾驶车辆执行目标动作，所述目标动作至少包括两类：换道或保持直行；

反馈模块，用于通过执行所述目标动作得到反馈信息；其中，所述反馈信息包括所述自动驾驶车辆执行所述目标动作后的行驶信息，所述自动驾驶车辆在下一时刻的行驶信息和所述自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息；当所述目标动作为换道时，所述反馈信息还包括：执行所述目标动作的时间与历史平均时间的比值，以及所述自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况；其中，所述历史平均时间包括所述自动驾驶车辆在预设历史时间段内执行同类动作的平均时间；

第二计算模块，用于根据所述反馈信息计算所述目标动作对应的回报值，以及所述自动驾驶车辆在所述历史时刻的下一时刻的局部邻居特征以及全局车流统计特征；

存储模块，用于存储所述历史时刻的四元组信息。

在一种可能的实现方式中，当所述目标动作为保持直行时，所述第二计算模块具体用于：

根据所述自动驾驶车辆执行所述目标动作后的行驶信息计算所述回报值。

在一种可能的实现方式中，当所述目标动作为换道时，所述第二计算模块具体用于：

根据所述自动驾驶车辆执行所述目标动作后的行驶信息、所述执行所述目标动作的时间与历史平均时间的比值，以及所述自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况，计算所述回报值。

本申请实施例提供的控制策略的训练装置170，可以用于执行本申请上述控制策略的训练方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图18为本申请另一实施例提供的控制策略的训练装置的结构示意图。如图18所示，本实施例提供的控制策略的训练装置180可以包括：处理器1801和存储器1802；

其中，所述存储器1802，用于存储程序指令；

所述处理器1801，用于调用并执行所述存储器1802中存储的程序指令，当所述处理器1801执行所述存储器1802存储的程序指令时，所述控制策略的训练装置用于执行本申请上述控制策略的训练方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

可以理解的是，图18仅仅示出了控制策略的训练装置的简化设计。在其他的实施方式中，控制策略的训练装置还可以包含任意数量的处理器、存储器和/或通信单元等，本申请实施例中对此并不作限制。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行本申请上述控制策略的训练方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种程序，所述程序在被处理器执行时用于执行本申请上述控制策略的训练方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请上述控制策略的训练方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

示例性地，本申请实施例提供的计算机程序产品的概念性局部视图可以参考图16所示，此处不再赘述。

本申请实施例还提供一种芯片，该芯片包括处理器与数据接口，该处理器通过该数据接口读取存储器上存储的指令，执行上述控制策略的训练方法实施例或上述自动换道方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选地，作为一种实现方式，该芯片还可以包括存储器，该存储器中存储有指令，该处理器用于执行该存储器上存储的指令，当该指令被执行时，该处理器用于执行上述控制策略的训练方法实施例或上述自动换道方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种电子设备，该电子设备包括上述自动换道装置实施例中提供的自动换道装置。

本申请实施例还提供一种电子设备，该电子设备包括上述控制策略的训练装置实施例中提供的控制策略的训练装置。

本申请实施例中涉及的处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请实施例中涉及的存储器可以是非易失性存储器，比如硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)等，还可以是易失性存储器(volatilememory)，例如随机存取存储器(random-access memory，RAM)。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在上述各实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

Claims

1.一种自动换道方法，其特征在于，包括：

根据自动驾驶车辆当前时刻的行驶信息以及所述自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算所述自动驾驶车辆当前时刻的局部邻居特征以及全局统计特征；所述局部邻居特征用于表示所述自动驾驶车辆的特定的邻居障碍物相对于所述自动驾驶车辆的运动状态信息；所述全局统计特征用于表示所述感知范围内各个车道的障碍物的稀疏与稠密程度；

根据所述局部邻居特征、所述全局统计特征和当前控制策略获取目标动作指示，所述目标动作指示用于指示所述自动驾驶车辆执行目标动作，所述目标动作至少包括两类：换道或保持直行；

根据所述目标动作指示执行所述目标动作。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过执行所述目标动作得到反馈信息，所述反馈信息用于更新所述当前控制策略；其中，所述反馈信息包括所述自动驾驶车辆执行所述目标动作后的行驶信息，所述自动驾驶车辆在下一时刻的行驶信息和所述自动驾驶车辆感知范围内各个车道的障碍物在下一时刻的运动信息；当所述目标动作为换道时，所述反馈信息还包括：执行所述目标动作的时间与历史平均时间的比值，以及所述自动驾驶车辆换道后所在车道与换道前所在车道在稀疏与稠密程度上的变化情况；其中，所述历史平均时间包括所述自动驾驶车辆在预设历史时间段内执行同类动作的平均时间；

根据所述反馈信息更新所述当前控制策略得到下一时刻的控制策略。

3.根据权利要求2所述的方法，其特征在于，所述根据所述反馈信息更新所述当前控制策略得到下一时刻的控制策略包括：

根据所述反馈信息计算所述目标动作对应的回报值，以及所述自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征；

确定当前时刻的四元组信息；其中，所述当前时刻的四元组信息对应当前时刻车况，包括：所述当前时刻的特征、所述目标动作、所述目标动作对应的回报值以及所述下一时刻的特征，所述当前时刻的特征包括所述自动驾驶车辆在当前时刻的局部邻居特征和全局统计特征，所述下一时刻的特征包括所述自动驾驶车辆在下一时刻的局部邻居特征和全局统计特征；

根据所述当前时刻的四元组信息对所述当前控制策略进行更新得到所述下一时刻的控制策略。

4.根据权利要求3所述的方法，其特征在于，当所述目标动作为保持直行时，所述根据所述当前时刻的四元组信息对所述当前控制策略进行更新得到所述下一时刻的控制策略，包括：

利用梯度下降法对包含所述目标值的第一预设函数中的参数θ进行迭代更新；

将迭代更新后的参数θ替换所述当前控制策略中的参数θ，得到所述下一时刻的控制策略。

5.根据权利要求3所述的方法，其特征在于，当所述目标动作为换道时，所述根据所述当前时刻的四元组信息对所述当前控制策略进行更新得到所述下一时刻的控制策略，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述当前时刻的四元组信息和所述当前时刻的延伸四元组信息，对所述当前控制策略进行更新得到所述下一时刻的控制策略，包括：

利用梯度下降法对包含所述第i个四元组信息对应的目标值的第二预设函数中的参数θ进行迭代更新；

7.根据权利要求3所述的方法，其特征在于，当所述目标动作为保持直行时，所述根据所述当前时刻的四元组信息对所述当前控制策略进行更新得到所述下一时刻的控制策略，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述当前时刻的四元组信息、历史时刻的四元组信息和所述历史时刻的延伸四元组信息对所述当前控制策略进行更新得到所述下一时刻的控制策略，包括：

利用梯度下降法对包含所述第j个四元组信息对应的目标值的第三预设函数中的参数θ进θ时行迭行迭代更新；

9.根据权利要求3所述的方法，其特征在于，当所述目标动作为换道时，所述根据所述当前时刻的四元组信息对所述当前控制策略进行更新得到所述下一时刻的控制策略，包括：

10.一种自动换道装置，其特征在于，包括：

计算模块，用于根据自动驾驶车辆当前时刻的行驶信息以及所述自动驾驶车辆感知范围内各个车道的障碍物的运动信息，计算所述自动驾驶车辆当前时刻的局部邻居特征以及全局统计特征；所述局部邻居特征用于表示所述自动驾驶车辆的特定的邻居障碍物相对于所述自动驾驶车辆的运动状态信息；所述全局统计特征用于表示所述感知范围内各个车道的障碍物的稀疏与稠密程度；

获取模块，用于根据所述局部邻居特征、所述全局统计特征和当前控制策略获取目标动作指示，所述目标动作指示用于指示所述自动驾驶车辆执行目标动作，所述目标动作至少包括两类：换道或保持直行；

执行模块，用于根据所述目标动作指示执行所述目标动作。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求11所述的装置，其特征在于，所述更新模块包括：

13.根据权利要求12所述的装置，其特征在于，当所述目标动作为保持直行时，所述更新单元具体用于：

14.根据权利要求12所述的装置，其特征在于，当所述目标动作为换道时，所述更新单元具体用于：

15.根据权利要求14所述的装置，其特征在于，所述更新单元具体用于：

16.根据权利要求12所述的装置，其特征在于，当所述目标动作为保持直行时，所述更新单元具体用于：

17.根据权利要求16所述的装置，其特征在于，所述更新单元具体用于：

利用梯度下降法对包含所述第j个四元组信息对应的目标值的第三预设函数中的参数θ进行迭代更新；

18.根据权利要求12所述的装置，其特征在于，当所述目标动作为换道时，所述更新单元具体用于：

19.一种自动换道装置，其特征在于，包括：处理器和存储器；

其中，所述存储器，用于存储程序指令；

所述处理器，用于调用并执行所述存储器中存储的程序指令，当所述处理器执行所述存储器存储的程序指令时，所述自动换道装置用于执行如权利要求1至9中任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法。