CN110920614B

CN110920614B - 变道控制方法、装置、设备及存储介质

Info

Publication number: CN110920614B
Application number: CN201911048112.3A
Authority: CN
Inventors: 方啸; 王磊; 王秀峰; 侯广大; 李景才; 黄淋淋
Original assignee: Zhijia Usa; Suzhou Zhijia Technology Co Ltd
Current assignee: Zhijia (USA); Suzhou Zhijia Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-11-23
Anticipated expiration: 2039-10-30
Also published as: CN110920614A

Abstract

本申请公开了变道控制方法、装置、设备及存储介质，属于人工智能技术领域。方法包括：获取目标车辆的目标行驶状态的信息；基于行驶状态与变道方式的目标对应关系，获取与目标车辆的目标行驶状态对应的目标变道方式的信息，行驶状态与变道方式的目标对应关系利用强化学习算法学习得到；基于目标变道方式的信息，控制目标车辆按照目标变道方式进行变道。在此种变道控制方式中，行驶状态与变道方式的目标对应关系为利用强化学习算法在反复试错的过程中自主学习到的，学习过程无需要人工监督，行驶状态与变道方式的目标对应关系的泛化能力较强，使得目标车辆按照目标变道方式进行变道的变道效果较好，提高目标车辆在变道过程中的稳定性。

Description

变道控制方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种变道控制方法、装置、设备及存储介质。

背景技术

近年来，自动驾驶技术正在逐步发展，并且已经发展出了多种辅助系统，来辅助驾驶员实现多种场景下的车辆控制，例如，车道保持辅助系统、自动泊车辅助系统、刹车辅助系统、倒车辅助系统和行车辅助系统等。且随着自动驾驶技术越来越完善、人工智能算法的发展以及硬件技术的不断提高，采用人工智能的手段来解决自动驾驶中的自动变道控制问题逐渐成为了一种可行方案。

发明内容

本申请实施例提供了一种变道控制方法、装置、设备及存储介质，可用于解决相关技术中的问题。所述技术方案如下：

一方面，本申请实施例提供了一种变道控制方法，所述方法包括：

获取目标车辆的目标行驶状态的信息，所述目标行驶状态的信息包括所述目标车辆的重量、所述目标车辆的行驶速度和所述目标车辆的位置信息中的一种或多种；

基于行驶状态与变道方式的目标对应关系，获取与所述目标车辆的目标行驶状态对应的目标变道方式的信息，所述目标变道方式的信息包括目标转向角度和目标转向角速度，所述行驶状态与变道方式的目标对应关系利用强化学习算法学习得到；

基于所述目标变道方式的信息，控制所述目标车辆按照所述目标变道方式进行变道。

在一种可能实现方式中，所述基于行驶状态与变道方式的目标对应关系，获取与所述目标车辆的目标行驶状态对应的目标变道方式的信息之前，所述方法还包括：

随机确定训练车辆的初始化行驶状态的信息，所述初始化行驶状态的信息包括所述训练车辆的重量、所述训练车辆的行驶速度、所述训练车辆在第一车道的位置信息和变道方向中的一种或多种；

基于强化学习算法学习所述初始化行驶状态下的行驶状态与变道方式的对应关系；

当满足第一终止条件时，基于各个初始化行驶状态下的行驶状态与变道方式的对应关系，得到所述行驶状态与变道方式的目标对应关系。

在一种可能实现方式中，所述基于强化学习算法学习所述初始化行驶状态下的行驶状态与变道方式的对应关系，包括：

基于所述训练车辆的第一行驶状态和第一变道方式，获取由车辆物理模型计算得到的所述训练车辆的第二行驶状态的信息，所述训练车辆的第一行驶状态由所述车辆物理模型基于所述训练车辆的初始化行驶状态计算得到，所述第一变道方式为在所述第一行驶状态下产生的变道方式；

基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的增强信号；

基于所述增强信号，得到所述第一变道方式的反馈信息，所述反馈信息用于指示所述第一变道方式的合适程度；

基于所述第一变道方式的反馈信息，产生第二变道方式；

将所述第二变道方式输入所述车辆物理模型，所述车辆物理模型用于基于所述第二行驶状态和所述第二变道方式计算所述训练车辆的第三行驶状态；

当满足第二终止条件时，基于各个变道方式的反馈信息，将各个行驶状态与所述各个行驶状态下产生的各个变道方式的对应关系作为所述初始化行驶状态下的行驶状态与变道方式的对应关系。

在一种可能实现方式中，所述基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的增强信号，包括：

基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的变道阶段；

基于所述变道阶段，确定与所述第二行驶状态对应的增强信号。

在一种可能实现方式中，所述训练车辆包括第一子车辆和第二子车辆，所述第二行驶状态的信息包括所述第一子车辆的位置信息和所述第二子车辆的位置信息；所述基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的变道阶段，包括：

当所述第一子车辆的位置信息指示所述第一子车辆在所述第一车道，所述第二子车辆的位置信息指示所述第二子车辆在所述第一车道时，与所述第二行驶状态对应的变道阶段为第一变道阶段；

当所述第一子车辆的位置信息指示所述第一子车辆在第二车道，所述第二子车辆的位置信息指示所述第二子车辆在所述第一车道时，与所述第二行驶状态对应的变道阶段为第二变道阶段，所述第二车道为与所述变道方向对应的所述第一车道的临近车道；

当所述第一子车辆的位置信息指示所述第一子车辆在所述第二车道，所述第二子车辆的位置信息指示所述第二子车辆在所述第二车道时，与所述第二行驶状态对应的变道阶段为第三变道阶段。

在一种可能实现方式中，所述基于所述变道阶段，确定与所述第二行驶状态对应的增强信号，包括：

当所述变道阶段为第一变道阶段时，基于所述第一子车辆与第一车道线的距离和所述第二子车辆与第一车道线的距离，确定与所述第二行驶状态对应的增强信号，所述第一车道线为所述第一车道与所述第二车道共有的车道线；

当所述变道阶段为第二变道阶段时，基于所述第一子车辆与第二车道线的距离和所述第二子车辆与所述第一车道线的距离，确定与所述第二行驶状态对应的增强信号，所述第二车道线为组成所述第二车道的车道线中除所述第一车道线外的另一车道线；

当所述变道阶段为第三变道阶段时，基于所述第一子车辆与所述第二车道线的距离和所述第二子车辆与所述第二车道线的距离，确定与所述第二行驶状态对应的增强信号。

在一种可能实现方式中，所述基于所述第一变道方式的反馈信息，产生第二变道方式之前，所述方法还包括：

将所述训练车辆的行驶状态由所述第二行驶状态重置至所述初始化行驶状态；

所述将所述第二变道方式输入所述车辆物理模型，包括：

将所述初始化行驶状态和所述第二变道方式输入所述车辆物理模型，所述车辆物理模型用于基于所述初始化行驶状态和所述第二变道方式计算所述训练车辆的第三行驶状态。

在一种可能实现方式中，所述基于各个变道方式的反馈信息，将各个行驶状态与所述各个行驶状态下产生的各个变道方式的对应关系作为所述初始化行驶状态下的行驶状态与变道方式的对应关系，包括：

对于任一行驶状态与所述任一行驶状态下产生的变道方式的对应关系，当所述任一行驶状态下产生的变道方式的反馈信息指示所述任一行驶状态下产生的变道方式的合适程度超过程度阈值时，将所述任一行驶状态与所述任一行驶状态下产生的变道方式的对应关系作为所述初始化行驶状态下的行驶状态与变道方式的第一对应关系；

当所述任一行驶状态下产生的变道方式的反馈信息指示所述任一行驶状态下产生的变道方式的合适程度不超过所述程度阈值时，将所述任一行驶状态与所述任一行驶状态下产生的变道方式的对应关系作为所述初始化行驶状态下的行驶状态与变道方式的第二对应关系。

另一方面，提供了一种变道控制装置，所述装置包括：

第一获取模块，用于获取目标车辆的目标行驶状态的信息，所述目标行驶状态的信息包括所述目标车辆的重量、所述目标车辆的行驶速度和所述目标车辆的位置信息中的一种或多种；

第二获取模块，用于基于行驶状态与变道方式的目标对应关系，获取与所述目标车辆的目标行驶状态对应的目标变道方式的信息，所述目标变道方式的信息包括目标转向角度和目标转向角速度，所述行驶状态与变道方式的目标对应关系利用强化学习算法学习得到；

控制模块，用于基于所述目标变道方式的信息，控制所述目标车辆按照所述目标变道方式进行变道。

在一种可能实现方式中，所述装置还包括：

确定模块，用于随机确定训练车辆的初始化行驶状态的信息，所述初始化行驶状态的信息包括所述训练车辆的重量、所述训练车辆的行驶速度、所述训练车辆在第一车道的位置信息和变道方向中的一种或多种；

学习模块，用于基于强化学习算法学习所述初始化行驶状态下的行驶状态与变道方式的对应关系；

所述第二获取模块，还用于当满足第一终止条件时，基于各个初始化行驶状态下的行驶状态与变道方式的对应关系，得到所述行驶状态与变道方式的目标对应关系。

在一种可能实现方式中，所述学习模块，包括：

获取单元，用于基于所述训练车辆的第一行驶状态和第一变道方式，获取由车辆物理模型计算得到的所述训练车辆的第二行驶状态的信息，所述训练车辆的第一行驶状态由所述车辆物理模型基于所述训练车辆的初始化行驶状态计算得到，所述第一变道方式为在所述第一行驶状态下产生的变道方式；

确定单元，用于基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的增强信号；

所述获取单元，还用于基于所述增强信号，得到所述第一变道方式的反馈信息，所述反馈信息用于指示所述第一变道方式的合适程度；

产生单元，用于基于所述第一变道方式的反馈信息，产生第二变道方式；

输入单元，用于将所述第二变道方式输入所述车辆物理模型，所述车辆物理模型用于基于所述第二行驶状态和所述第二变道方式计算所述训练车辆的第三行驶状态；

所述获取单元，还用于当满足第二终止条件时，基于各个变道方式的反馈信息，将各个行驶状态与所述各个行驶状态下产生的各个变道方式的对应关系作为所述初始化行驶状态下的行驶状态与变道方式的对应关系。

在一种可能实现方式中，所述确定单元，用于基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的变道阶段；基于所述变道阶段，确定与所述第二行驶状态对应的增强信号。

在一种可能实现方式中，所述训练车辆包括第一子车辆和第二子车辆，所述第二行驶状态的信息包括所述第一子车辆的位置信息和所述第二子车辆的位置信息；所述确定单元，用于当所述第一子车辆的位置信息指示所述第一子车辆在所述第一车道，所述第二子车辆的位置信息指示所述第二子车辆在所述第一车道时，与所述第二行驶状态对应的变道阶段为第一变道阶段；

在一种可能实现方式中，所述确定单元，用于当所述变道阶段为第一变道阶段时，基于所述第一子车辆与第一车道线的距离和所述第二子车辆与第一车道线的距离，确定与所述第二行驶状态对应的增强信号，所述第一车道线为所述第一车道与所述第二车道共有的车道线；

在一种可能实现方式中，所述学习模块，还包括：

重置单元，用于将所述训练车辆的行驶状态由所述第二行驶状态重置至所述初始化行驶状态；

所述输入单元，用于将所述初始化行驶状态和所述第二变道方式输入所述车辆物理模型，所述车辆物理模型用于基于所述初始化行驶状态和所述第二变道方式计算所述训练车辆的第三行驶状态。

在一种可能实现方式中，所述获取单元，还用于对于任一行驶状态与所述任一行驶状态下产生的变道方式的对应关系，当所述任一行驶状态下产生的变道方式的反馈信息指示所述任一行驶状态下产生的变道方式的合适程度超过程度阈值时，将所述任一行驶状态与所述任一行驶状态下产生的变道方式的对应关系作为所述初始化行驶状态下的行驶状态与变道方式的第一对应关系；

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一所述的变道控制方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一所述的变道控制方法。

本申请实施例提供的技术方案至少带来如下有益效果：

基于利用强化学习算法学习得到的行驶状态与变道方式的目标对应关系，获取与目标车辆的目标行驶状态对应的目标变道方式的信息，控制目标车辆按照目标变道方式进行变道。在此种变道控制方式中，行驶状态与变道方式的目标对应关系为利用强化学习算法在反复试错的过程中自主学习到的，学习过程无需要人工监督，行驶状态与变道方式的目标对应关系的泛化能力较强，使得目标车辆按照目标变道方式进行变道的变道效果较好，提高目标车辆在变道过程中的稳定性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种变道控制方法的实施环境的示意图；

图2是本申请实施例提供的一种变道控制方法的流程图；

图3是本申请实施例提供的一种目标车辆的示意图；

图4是本申请实施例提供的一种卡车的甩挂现象示意图；

图5是本申请实施例提供的一种利用强化学习算法学习得到行驶状态与变道方式的目标对应关系的方法的流程图；

图6是本申请实施例提供的一种第一变道阶段的示意图；

图7是本申请实施例提供的一种第二变道阶段的示意图；

图8是本申请实施例提供的一种第三变道阶段的示意图；

图9是本申请实施例提供的一种利用强化学习算法学习得到行驶状态与变道方式的目标对应关系的过程示意图；

图10是本申请实施例提供的一种变道控制装置示意图；

图11是本申请实施例提供的一种变道控制装置示意图；

图12是本申请实施例提供的一种学习模块的结构示意图；

图13是本申请实施例提供的一种变道控制设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

对此，本申请实施例提供了一种变道控制方法，请参考图1，其示出了本申请实施例提供的变道控制方法的实施环境的示意图。该实施环境可以包括：控制终端11和服务器12。

其中，控制终端11可以利用强化学习算法学习得到行驶状态与变道方式的目标对应关系，控制终端11还可以基于行驶状态与变道方式的目标对应关系获取目标变道方式，以控制车辆按照目标变道方式进行变道。服务器12可以利用强化学习算法学习得到行驶状态与变道方式的目标对应关系，然后将行驶状态与变道方式的目标对应关系发送至控制终端11。

可选地，控制终端11可以是智能车辆上的控制终端，智能车辆为能够实现自动驾驶的车辆，智能车辆可以为汽车或电动车等。服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。控制终端11与服务器12通过有线或无线网络建立通信连接。

本领域技术人员应能理解上述控制终端11和服务器12仅为举例，其他现有的或今后可能出现的控制终端或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

基于上述图1所示的实施环境，本申请实施例提供一种变道控制方法，以该方法应用于控制终端为例。如图2所示，本申请实施例提供的方法可以包括如下步骤：

在步骤201中，获取目标车辆的目标行驶状态的信息。

其中，目标车辆是指需要进行变道的任一智能车辆。目标行驶状态是指目标车辆的当前行驶状态。目标行驶状态的信息包括目标车辆的重量、目标车辆的行驶速度和目标车辆的位置信息中的一种或多种。其中，目标车辆的位置信息可以是指目标车辆在当前行驶车道中的位置坐标以及目标车辆与当前行驶车道的车道中线的夹角等信息。

在一种可能实现方式中，目标车辆包括第一子车辆和第二子车辆。也就是说，目标车辆由第一子车辆和第二子车辆这两部分连接组成。第一子车辆是指提供动力的车辆，第二子车辆连接在第一子车辆的后端。第一子车辆和第二子车辆的连接方式为非刚性连接，也就是第一子车辆和第二子车辆可以连接组成目标车辆，也可以分离成两个单独的车辆。

例如，目标车辆为卡车，卡车包括牵引车(第一子车辆)和挂车(第二子车辆)两个部分。该卡车可以如图3所示，牵引车1的物理中心为3，挂车2的物理中心为4。其中，物理中心可以是指重心。通常，卡车满载的重量是普通轿车的20-25倍，卡车的长度是普通轿车的4-5倍。所以，在行驶过程中，卡车对车辆自身的控制较普通轿车相比更为复杂且要求更高。在变道过程中，需要同时考虑牵引车和挂车的稳定性。若变道过程不当，容易造成卡车的甩挂现象(如图4所示)，或者造成卡车侧翻。因此，如何获取合适的变道方式，是保证卡车平稳变道的关键。

对于目标车辆包括第一子车辆和第二子车辆的情况，目标车辆的位置信息包括第一子车辆的位置信息和第二子车辆的位置信息。其中，第一子车辆的位置信息可以是指第一子车辆在当前行驶车道中的位置坐标以及第一子车辆与当前行驶车道的车道中线的夹角等信息；第二子车辆的位置信息可以是指第二子车辆在当前行驶车道中的位置坐标以及第二子车辆与当前行驶车道的车道中线的夹角等信息。

在目标车辆上的控制终端中可以安装有导航系统及多种检测装置，导航系统可以采集目标车辆的行驶路径、位置等数据。检测装置可以采集目标车辆本身的速度、重量等数据以及目标车辆与周围车辆或者周围环境的距离等数据。检测装置包括但不限于速度检测装置、重量检测装置、距离检测装置等。检测装置可以是指传感器或者雷达等，本申请实施例对此不加以限定。在目标车辆的行驶过程中，控制终端可以基于导航系统和检测装置采集的数据，获取目标车辆的目标行驶状态的信息。

在一种可能实现方式中，在获取目标车辆的目标行驶状态的信息之前，控制终端可以先判断目标车辆是否可以变道，当确定可以变道时，再获取目标车辆的目标行驶状态的信息。控制终端判断目标车辆是否可以变道的过程可以包括以下两个步骤：

步骤1：控制终端获取变道指令。

其中，变道指令包括目标变道方向。变道方向包括左和右两个方向。

控制终端获取变道指令的方式包括但不限于以下三种：

方式1：控制终端基于导航系统的变道提示信息，获取变道指令。

导航系统可以根据用户输入的目的地，生成车道路径规划轨迹，并给出建议变道点，在目标车辆行驶至建议变道点附近时，导航系统将提供变道提示信息，导航系统提供的变道提示信息中包括目标变道方向。由此，控制终端可以基于变道提示信息直接获取变道指令。

方式2：控制终端基于用户的目标操作，获取变道指令。

目标操作可以是指用户触发变道开关或变道按钮，并主动输入变道信息。可以理解，用户输入的变道信息中包括目标变道方向。由此，控制终端可以基于用户的目标操作直接获取变道指令。

方式3：控制终端基于行驶数据，获取变道指令。

行驶数据是指导航系统以及检测装置在目标车辆的行驶过程中采集到的数据。控制终端可以对行驶数据进行分析，当分析的结果指示目标车辆需要进行变道时，控制终端确定需要变道的目标变道方向，然后生成变道指令。示例性地，目标车辆需要进行变道的情况可以为目标车辆与当前车道内的前车的间距小于参考间距，且目标车辆的行驶趋势为逐渐接近当前车道内的前车。其中，目标车辆的行驶趋势为逐渐接近当前车道内的前车的原因可以为目标车辆加速行驶，也可以为当前车道内的前车减速行驶，本申请实施例对此不加以限定。当存在上述情况时，控制终端自动生成变道指令，以避免发生车辆碰撞等危险。

此种方式可以通过及时地生成变道指令，使得目标车辆可以及时地变道，减少车辆碰撞隐患，提升车辆驾驶的安全可靠性。

步骤2：控制终端基于变道指令，判断目标车辆是否满足变道条件。

控制终端基于变道指令中的目标变道方向，可以确定目标车道。在一种可能实现方式中，控制终端判断目标车辆是否满足变道条件的方式为：

控制终端判断目标车辆是否同时满足以下三个条件：目标车辆与当前车道内的前车的距离大于第一安全距离、目标车辆与目标车道内的前车的距离大于第二安全距离、以及目标车辆与目标车道内的后车的距离大于第三安全距离。其中，目标车道内的前车是指在目标车道内位于目标车辆前方的第一辆车，即，在目标车道内前方能够检测到的与目标车辆距离最近的一辆车。目标车道内的后车是指在目标车道内位于目标车辆后方的第一辆车，即，在目标车道内后方能够检测到的与目标车辆距离最近的一辆车。

当目标车辆同时满足上述三个条件时，控制终端可以确定目标车辆满足变道条件，也就是说目标车辆可以变道，此时，控制终端获取目标车辆的目标行驶状态。当目标车辆不满足上述三个条件中的任一条件时，控制终端可以确定目标车辆不满足变道条件，也就是说目标车辆不可以变道，此时，控制终端可以控制目标车辆继续向前行驶。

需要说明的是，上述判断目标车辆是否满足变道条件的方式仅为一种示例性描述，本申请实施例对具体采用哪种方式判断目标车辆是否满足变道条件不加以限定。

在步骤202中，基于行驶状态与变道方式的目标对应关系，获取与目标车辆的目标行驶状态对应的目标变道方式的信息，行驶状态与变道方式的目标对应关系利用强化学习算法学习得到。

其中，目标变道方式的信息包括目标转向角度和目标转向角速度。目标转向角度和目标转向角速度是指目标车辆的方向盘需要转动的角度和转动过程中的转动角速度。控制终端在获取目标车辆的目标行驶状态后，即可获取适合该目标行驶状态的目标变道方式，以控制目标车辆按照目标变道方式进行变道。

行驶状态与变道方式的目标对应关系利用强化学习算法学习得到，行驶状态与变道方式的目标对应关系中记录有与各个行驶状态对应的最优变道方式。在一种可能实现方式中，基于行驶状态与变道方式的目标对应关系，获取与目标车辆的目标行驶状态对应的目标变道方式的信息的过程为：当行驶状态与变道方式的目标对应关系中存在与目标车辆的目标行驶状态对应的最优变道方式时，将该最优变道方式的信息作为目标变道方式的信息；当行驶状态与变道方式的目标对应关系中不存在与目标车辆的目标行驶状态对应的最优变道方式时，控制终端基于与目标车辆的目标行驶状态接近程度最高的行驶状态对应的最优变道方式的信息，获取目标变道方式的信息。

需要说明的是，计算两个行驶状态的接近程度的规则可以根据经验设置，本申请实施例对此不加以限定。例如，对于行驶状态的信息均包括重量和行驶速度的两个行驶状态，可以将两个重量的比值与1的差值的绝对值作为接近程度，差值的绝对值越小，接近程度越大；也可以将两个行驶速度的比值与1的差值的绝对值作为接近程度，差值的绝对值越小，接近程度越大；当然，还可以分别为上述两个差值的绝对值设置权重，将两个差值的绝对值按照权重相加，将相加后的值作为接近程度，相加后的值越小，接近程度越大。

在一种可能实现方式中，控制终端基于与目标车辆的目标行驶状态接近程度最高的行驶状态对应的最优变道方式的信息，获取目标变道方式的信息的方式包括但不限于以下两种：

方式一：将与目标车辆的目标行驶状态接近程度最高的行驶状态对应的最优变道方式的信息直接作为目标变道方式的信息。

方式二：将与目标车辆的目标行驶状态接近程度最高的行驶状态对应的最优变道方式的信息按照参考方式进行调整，将调整后的信息作为目标变道方式的信息。其中，参考方式可以根据经验设置，本申请实施例对此不加以限定。

需要说明的是，在控制终端执行步骤202之前，需要先利用强化学习算法学习得到行驶状态与变道方式的目标对应关系。该过程详见步骤501至步骤503所示的实施例，此处不再赘述。

在步骤203中，基于目标变道方式的信息，控制目标车辆按照目标变道方式进行变道。

控制终端在获取目标变道方式的信息后，即可控制目标车辆按照目标变道方式进行变道。在一种可能实现方式中，控制终端控制目标车辆按照目标变道方式进行变道的过程可以为：控制终端按照目标变道方式中的目标转向角度和目标转向角速度控制目标车辆的方向盘，以使目标车辆按照目标变道方式进行变道。

需要说明的是，在控制终端控制目标车辆按照目标变道方式进行变道后，还可以每隔参考时间间隔，获取一个目标车辆的新行驶状态的信息，然后基于行驶状态与变道方式的目标对应关系，获取与该新行驶状态对应的新变道方式的信息，控制目标车辆按照新变道方式继续进行变道。直至目标车辆成功变道至目标车道。

在本申请实施例中，基于利用强化学习算法学习得到的行驶状态与变道方式的目标对应关系，获取与目标车辆的目标行驶状态对应的目标变道方式的信息，控制目标车辆按照目标变道方式进行变道。在此种变道控制方式中，行驶状态与变道方式的目标对应关系为利用强化学习算法在反复试错的过程中自主学习到的，学习过程无需要人工监督，行驶状态与变道方式的目标对应关系的泛化能力较强，使得目标车辆按照目标变道方式进行变道的变道效果较好，提高目标车辆在变道过程中的稳定性。

本申请实施例提供一种利用强化学习算法学习得到行驶状态与变道方式的目标对应关系的方法，以该方法应用于控制终端为例。如图5所示，本申请实施例提供的方法可以包括如下步骤：

在步骤501中，随机确定训练车辆的初始化行驶状态的信息。

其中，训练车辆是指与目标车辆同车型的模型车辆。初始化行驶状态的信息用于指示训练车辆的初始状态，初始化行驶状态的信息包括训练车辆的重量、训练车辆的行驶速度、训练车辆在第一车道的位置信息和变道方向中的一种或多种。第一车道是指训练车辆在变道之前所处的原车道。变道方向为左或者右。

在一种可能实现方式中，训练车辆包括第一子车辆和第二子车辆，第二子车辆连接在第一子车辆的后端。训练车辆在第一车道的位置信息包括第一子车辆的位置信息和第二子车辆的位置信息。其中，第一子车辆的位置信息可以是指第一子车辆在第一车道中的位置坐标以及第一子车辆与第一车道的车道中线的夹角等信息；第二子车辆的位置信息可以是指第二子车辆在第一车道中的位置坐标以及第二子车辆与第一车道的车道中线的夹角等信息。

确定训练车辆的初始化行驶状态的信息的方式为随机确定。也就是说，随机选取重量、行驶速度、在第一车道的位置信息和变道方向作为训练车辆的初始化行驶状态的信息。

在步骤502中，基于强化学习算法学习初始化行驶状态下的行驶状态与变道方式的对应关系。

每确定一个初始化行驶状态的信息，即认为开始一次试验，该次试验的目的为基于强化学习算法学习该初始化行驶状态下的行驶状态与变道方式的对应关系。在一种可能实现方式中，控制终端基于强化学习算法学习该初始化行驶状态下的行驶状态与变道方式的对应关系的过程包括下述步骤502A至步骤502F：

步骤502A：基于训练车辆的第一行驶状态和第一变道方式，获取由车辆物理模型计算得到的训练车辆的第二行驶状态的信息。

其中，训练车辆的第一行驶状态由车辆物理模型基于训练车辆的初始化行驶状态计算得到，第一变道方式为在第一行驶状态下产生的变道方式。车辆物理模型是指用于计算模型车辆的行驶状态的模型。车辆物理模型计算模型车辆的行驶状态的目标时间间隔可以根据经验设置，也可以根据应用场景自由调整，本申请实施例对此不加以限定。例如，目标时间间隔可以设置为0.1秒等。

需要说明的是，训练车辆的第一行驶状态是由车辆物理模型直接基于训练车辆的初始化行驶状态计算得到的，也就是说，第一行驶状态是指在初始化行驶状态下行驶目标时间间隔后得到的行驶状态。第一变道方式为控制终端在第一行驶状态下随机产生的变道方式，由于在产生第一变道方式之前，未产生任何变道方式，因此第一变道方式可以随机产生。每产生一次变道方式，相当于完成了本次试验过程中的一个步长。

车辆物理模型可以基于训练车辆的第一行驶状态和第一变道方式，计算得到训练车辆的第二行驶状态。第二行驶状态是指训练车辆在第一行驶状态下执行第一变道方式，并行驶目标时间间隔后得到的行驶状态。由此，目标终端可以获取由车辆物理模型计算得到的训练车辆的第二行驶状态的信息，然后执行步骤502B。

步骤502B：基于训练车辆的第二行驶状态的信息，确定与第二行驶状态对应的增强信号。

在一种可能实现方式中，确定与第二行驶状态对应的增强信号的过程包括以下两个步骤：

步骤1：基于训练车辆的第二行驶状态的信息，确定与第二行驶状态对应的变道阶段。

在本申请实施例中，将训练车辆从第一车道变道至第二车道的变道过程分为三个变道阶段，分别为第一变道阶段、第二变道阶段和第三变道阶段，不同的变道阶段具有不同的计算增强信号的方式。控制终端可以根据训练车辆中的第一子车辆所处的位置和第二子车辆所处的位置，确定与第二行驶状态对应的变道阶段。在一种可能实现方式中，确定与第二行驶状态对应的变道阶段的过程为：

当第一子车辆的位置信息指示第一子车辆在第一车道，第二子车辆的位置信息指示第二子车辆在第一车道时，与第二行驶状态对应的变道阶段为第一变道阶段；当第一子车辆的位置信息指示第一子车辆在第二车道，第二子车辆的位置信息指示第二子车辆在第一车道时，与第二行驶状态对应的变道阶段为第二变道阶段；当第一子车辆的位置信息指示第一子车辆在第二车道，第二子车辆的位置信息指示第二子车辆在第二车道时，与第二行驶状态对应的变道阶段为第三变道阶段。

其中，第二车道为与变道方向对应的第一车道的临近车道。当变道方向为左时，第二车道为第一车道的临近左车道；当变道方向为右时，第二车道为第一车道的临近右车道。需要说明的是，第一子车辆在第一车道可以是指第一子车辆的重心在第一车道。

第一变道阶段的示意图可以如图6所示，图6中的(1)为变道方向为左的情况，图6中的(2)为变道方向为右的情况；第二变道阶段的示意图可以如图7所示，图7中的(1)为变道方向为左的情况，图7中的(2)为变道方向为右的情况；第三变道阶段的示意图可以如图8所示，图8中的(1)为变道方向为左的情况，图8中的(2)为变道方向为右的情况。

步骤2：基于变道阶段，确定与第二行驶状态对应的增强信号。

不同的变道阶段对应有不同的计算增强信号的方式。在一种可能实现方式中，确定与第二行驶状态对应的增强信号的方式可以包括以下三种：

方式1：当变道阶段为第一变道阶段时，基于第一子车辆与第一车道线的距离和第二子车辆与第一车道线的距离，确定与第二行驶状态对应的增强信号。

其中，第一车道线为第一车道与第二车道共有的车道线，第一车道线可以参见如图6或图7。

在一种可能实现方式中，基于第一子车辆与第一车道线的距离和第二子车辆与第一车道线的距离，确定与第二行驶状态对应的增强信号的方式可以为：基于第一子车辆与第一车道线的距离和第二子车辆与第一车道线的距离，按照下述公式1计算与第二行驶状态对应的增强信号：

其中，d(d>0)为车道宽度，需要说明的是，在本申请实施例中，规定所有车道的宽度均为d；d₁(d₁≥0)为第一子车辆与第一车道线的距离；d₂(d₂≥0)为第二子车辆与第一车道线的距离；α(0<α<1)为第一子车辆在变道过程中的控制权重。这种增强信号的设计方式使得在训练车辆的变道过程中，综合考虑第一子车辆和第二子车辆在车道中的位置，避免第一子车辆和第二子车辆脱离的现象发生。α可以根据经验设置，也可以根据应用场景进行自由调整，本申请实施例对此不加以限定。第一子车辆与第一车道线的距离可以是指第一子车辆的重心与第一车道线的距离。

根据公式1可知，第一子车辆和第二子车辆越接近第一车道线，增强信号的值越大。

需要说明的是，在变道阶段为第一变道阶段时，可以先判断训练车辆的第一子车辆的边缘和第二子车辆的边缘是否满足第一条件，若满足，则基于上述方式1确定与第二行驶状态对应的增强信号；若不满足，则将与第二行驶状态对应的增强信号设置为指定数值，该指定数值用于指示训练车辆的第一子车辆的边缘或者第二子车辆的边缘不满足第一条件。指定数值可以为-1。第一条件可以是指第一子车辆的边缘和第二子车辆的边缘均不超过第三车道线。第三车道线是指组成第一车道的车道线中除第一车道线外的另一车道线，第三车道线可以参见如图6或图7。

方式2：当变道阶段为第二变道阶段时，基于第一子车辆与第二车道线的距离和第二子车辆与第一车道线的距离，确定与第二行驶状态对应的增强信号。

其中，第二车道线为组成第二车道的车道线中除第一车道线外的另一车道线，第二车道线可以参见如图6或图7。

在一种可能实现方式中，基于第一子车辆与第二车道线的距离和第二子车辆与第一车道线的距离，确定与第二行驶状态对应的增强信号的方式可以为：基于第一子车辆与第二车道线的距离和第二子车辆与第一车道线的距离，按照下述公式2计算与第二行驶状态对应的增强信号：

其中，d₃(d₃≥0)为第一子车辆与第二车道线的距离。

根据公式2可知，第一子车辆越接近第二车道的车道中线以及第二子车辆越接近第一车道线时，增强信号的值越大。

需要说明的是，在变道阶段为第二变道阶段时，可以先判断训练车辆的第一子车辆的边缘和第二子车辆的边缘是否满足第二条件，若满足，则基于上述方式2确定与第二行驶状态对应的增强信号；若不满足，则将与第二行驶状态对应的增强信号设置为指定数值，该指定数值用于指示训练车辆的第一子车辆的边缘或者第二子车辆的边缘不满足第二条件。指定数值可以为-1。第二条件可以是指第一子车辆的边缘不超过第一车道线且不超过第二车道线，第二子车辆的边缘不超过第三车道线。其中，第一子车辆的边缘不超过第一车道线且不超过第二车道线是指第一子车辆的边缘处于第二车道内。

方式3：当变道阶段为第三变道阶段时，基于第一子车辆与第二车道线的距离和第二子车辆与第二车道线的距离，确定与第二行驶状态对应的增强信号。

在一种可能实现方式中，基于第一子车辆与第二车道线的距离和第二子车辆与第二车道线的距离，确定与第二行驶状态对应的增强信号的方式可以为：基于第一子车辆与第二车道线的距离和第二子车辆与第二车道线的距离，按照下述公式3计算与第二行驶状态对应的增强信号：

其中，d₄(d₄≥0)为第二子车辆与第二车道线的距离。

根据公式3可知，第一子车辆和第二子车辆越接近第二车道的车道中线，增强信号的值越大。当第一子车辆和第二子车辆都处在第二车道的车道中线上时，增强信号的值最大，最大的增强信号的值为0。

需要说明的是，在变道阶段为第三变道阶段时，可以先判断训练车辆的第一子车辆的边缘和第二子车辆的边缘是否满足第三条件，若满足，则基于上述方式3确定与第二行驶状态对应的增强信号；若不满足，则将与第二行驶状态对应的增强信号设置为指定数值，该指定数值用于指示训练车辆的第一子车辆的边缘或者第二子车辆的边缘不满足第三条件。指定数值可以为-1。第三条件可以是指第一子车辆的边缘不超过第一车道线且不超过第二车道线，第二子车辆的边缘不超过第一车道线且不超过第二车道线。也就是说，第一子车辆的边缘和第二子车辆的边缘均处于第二车道内。

步骤502C：基于增强信号，得到第一变道方式的反馈信息。

其中，反馈信息用于指示第一变道方式的合适程度。

在一种可能实现方式中，可以预先设置不同变道阶段下的增强信号的值与合适程度的对应关系。基于增强信号，得到第一变道方式的反馈信息的方式可以为：基于增强信号的值，查询与其对应的合适程度，将合适程度作为第一变道方式的反馈信息。本申请实施例对设置不同变道阶段下的增强信号的值与合适程度的对应关系的方式不加以限定，在各个变道阶段下，增强信号的值越大，合适程度越大。在得到第一变道方式的反馈信息后，基于该反馈信息执行步骤502D。

需要说明的是，基于增强信号，得到第一变道方式的反馈信息之前，可以先判断增强信号的值是否为指定数值，若为指定数值，则说明第一变道方式为错误的变道方式，在此种情况下，将训练车辆的行驶状态由第二行驶状态重置至初始化行驶状态，然后再执行步骤502D。

步骤502D：基于第一变道方式的反馈信息，产生第二变道方式。

产生第二变道方式的过程可以由强化学习网络控制，强化学习网络在产生第二变道方式的过程中，可以基于第一变道方式的反馈信息对第一变道方式进行调整，得到第二变道方式，也可以直接随机产生第二变道方式，申请实施例对此不加以限定。

步骤502E：将第二变道方式输入车辆物理模型。

车辆物理模型用于基于第二行驶状态和第二变道方式计算训练车辆的第三行驶状态。

在一种可能实现方式中，对于增强信号的值为指定数值的情况，在此步骤中，将初始化行驶状态和第二变道方式输入车辆物理模型。车辆物理模型用于基于初始化行驶状态和第二变道方式计算训练车辆的第三行驶状态。

循环执行步骤502A至步骤502E，直至满足第二终止条件，当满足第二终止条件时，执行步骤502F。第二终止条件可以为在本次试验过程中产生变道方式的次数达到第一次数阈值。第一次数阈值可以根据经验设置，也可以根据应用场景进行调整，本申请实施例对此不加以限定。在一种可能实现方式中，在循环执行步骤502A至步骤502E的过程中，记录产生变道方式的次数的数值，初始的产生变道方式的次数的数值为0，每产生一次变道方式，将产生变道方式的次数的数值增加1。然后可以基于产生变道方式的次数的数值判断是否满足第二终止条件。例如，假设第二终止条件规定的产生变道方式的总次数为10000次，则当产生变道方式的次数的数值为10000时，满足第二终止条件，执行步骤502F。

步骤502F：当满足第二终止条件时，基于各个变道方式的反馈信息，将各个行驶状态与各个行驶状态下产生的各个变道方式的对应关系作为初始化行驶状态下的行驶状态与变道方式的对应关系。

当满足第二终止条件时，说明在该初始化行驶状态下的进行的试验结束，此时可以将该次试验过程中得到的各个行驶状态与各个行驶状态下产生的各个变道方式的对应关系作为初始化行驶状态下的行驶状态与变道方式的对应关系。

在一种可能实现方式中，每个变道方式的反馈信息可以指示该变道方式的合适程度，基于各个变道方式的反馈信息，将各个行驶状态与各个行驶状态下产生的各个变道方式的对应关系作为初始化行驶状态下的行驶状态与变道方式的对应关系的过程包括：

对于任一行驶状态与任一行驶状态下产生的变道方式的对应关系，当任一行驶状态下产生的变道方式的反馈信息指示任一行驶状态下产生的变道方式的合适程度超过程度阈值时，将任一行驶状态与任一行驶状态下产生的变道方式的对应关系作为初始化行驶状态下的行驶状态与变道方式的第一对应关系；当任一行驶状态下产生的变道方式的反馈信息指示任一行驶状态下产生的变道方式的合适程度不超过程度阈值时，将任一行驶状态与任一行驶状态下产生的变道方式的对应关系作为初始化行驶状态下的行驶状态与变道方式的第二对应关系。

其中，程度阈值可以根据经验设置，也可以根据应用场景进行调整，本申请实施例对此不加以限定。当合适程度超过程度阈值时，说明任一行驶状态下产生的变道方式为合适的变道方式，也就是说第一对应关系是指合适的对应关系。当合适程度不超过程度阈值时，说明任一行驶状态下产生的变道方式为不合适的变道方式，也就是说第二对应关系是指不合适的对应关系。

在得到初始化行驶状态下的行驶状态与变道方式的对应关系后，控制终端可以将初始化行驶状态下的行驶状态与变道方式的对应关系进行存储。

循环执行步骤501和步骤502，直至满足第一终止条件，当满足第一终止条件时，执行步骤503。第一终止条件可以是指循环执行步骤501和步骤502的次数达到第二次数阈值，由于每执行一次步骤501和步骤502，完成一次试验过程，所以循环执行步骤501和步骤502的次数达到第二次数阈值可以是指试验的次数达到第二次数阈值。第二次数阈值可以根据经验设置，也可以根据应用场景进行调整，本申请实施例对此不加以限定。在一种可能实现方式中，在循环执行步骤501和步骤502的过程中，记录试验次数的数值，初始的试验次数的数值为0，每执行一次步骤501和步骤502，将试验次数的数值增加1。然后可以基于试验次数的数值判断是否满足第一终止条件。例如，假设第一终止条件规定的试验总次数为10000次，则当试验次数的数值为10000时，满足第一终止条件，执行步骤503。

在步骤503中，当满足第一终止条件时，基于各个初始化行驶状态下的行驶状态与变道方式的对应关系，得到行驶状态与变道方式的目标对应关系。

当满足第一终止条件时，说明整个利用强化学习算法学习的过程结束。此时，可以得到行驶状态与变道方式的目标对应关系。在一种可能实现方式中，基于各个初始化行驶状态下的行驶状态与变道方式的对应关系，得到行驶状态与变道方式的目标对应关系的方式包括但不限于以下两种：

方式一：将各个初始化行驶状态下的行驶状态与变道方式的对应关系，作为行驶状态与变道方式的目标对应关系。

在此种方式下，目标对应关系中包括学习到的全部对应关系，既包括合适的对应关系，也包括不合适的对应关系。

方式二：将各个初始化行驶状态下的行驶状态与变道方式的对应关系中的第一对应关系，作为行驶状态与变道方式的目标对应关系。

在此种方式下，目标对应关系中包括学习到的合适的对应关系。

在得到行驶状态与变道方式的目标对应关系后，控制终端可以将行驶状态与变道方式的目标对应关系进行存储。

综上所述，利用强化学习算法学习得到行驶状态与变道方式的目标对应关系的过程可以如图9所示。在任一次试验过程中，随机确定训练车辆的初始化行驶状态，将初始化行驶状态输入车辆物理模型，得到下一状态的信息；确定下一状态对应的变道阶段，计算增强信号；判断增强信号是否为-1，当增强信号为-1时，将行驶状态重置至初始化行驶状态并产生变道方式，当增强信号不为-1时，利用强化学习网络进行学习并产生变道方式；将产生变道方式的次数加1，判断产生变道方式的次数是否小于第一次数阈值，若产生变道方式的次数小于第一次数阈值，则将变道方式输入车辆物理模型，直至产生变道方式的次数不小于第一次数阈值，存储该次试验过程中得到的行驶状态与变道方式的对应关系，将试验次数加1；然后判断试验次数是否小于第二次数阈值，若试验次数小于第二次数阈值，则再次随机确定训练车辆的初始化行驶状态，直至试验次数不小于第二次数阈值，存储各个试验过程中得到的行驶状态与变道方式的目标对应关系。

相关技术中，将人为设定的车辆状态(行驶速度、重量等)和变道方式(转向角度、转向角速度)的对应关系作为训练样本，通过监督学习算法进行训练，得到一个将车辆状态映射为变道方式的变道模型。当车辆在实际行驶的过程中进行变道时，可以根据当前车辆状态通过变道模型获取对应的目标变道方式，基于目标变道方式进行变道。监督学习的过程需要大量人为设定的训练样本，这些训练样本的主观性较强，导致基于变道模型输出的变道方式进行变道的效果不理想。此外，人为设定的对应关系难以涵盖所有的场景，训练好的变道模型的泛化能力较差，当车辆遇到未设定的状态时，行车轨迹容易出现偏差，车辆的变道过程稳定性较差。

在本申请实施例中，行驶状态与变道方式的目标对应关系为利用强化学习算法在反复试错的过程中自主学习到的，学习过程无需要人工监督，行驶状态与变道方式的目标对应关系的泛化能力较强，使得目标车辆按照目标变道方式进行变道的变道效果较好，提高目标车辆在变道过程中的稳定性。

强化学习算法模拟人类驾驶学习过程，无需将所有场景一一模拟训练，仅需通过部分场景训练，即可得到适用于全部场景的变道方式，具有更好的自适应性。基于强化学习算法进行学习的过程中，将变道过程分为三个变道阶段，不同变道阶段对应不同的增强信号，更有效地为强化学习网络提供反馈。增强信号的设计，除考虑训练车辆的第一子车辆在车道中的位置外，还考虑第二子车辆在车道中的位置。通过权衡第一子车辆与第二子车辆在车道中的位置，设计增强信号，有效保证了基于强化学习算法产生的变道方式的可靠性，使得第一子车辆与第二子车辆保持在车道线内，避免第一子车辆与第二子车辆脱离等现象发生，提高变道过程的稳定性。

基于相同技术构思，参见图10，本申请实施例提供了一种变道控制装置，该装置包括：

第一获取模块1001，用于获取目标车辆的目标行驶状态的信息，目标行驶状态的信息包括目标车辆的重量、目标车辆的行驶速度和目标车辆的位置信息中的一种或多种；

第二获取模块1002，用于基于行驶状态与变道方式的目标对应关系，获取与目标车辆的目标行驶状态对应的目标变道方式的信息，目标变道方式的信息包括目标转向角度和目标转向角速度，行驶状态与变道方式的目标对应关系利用强化学习算法学习得到；

控制模块1003，用于基于目标变道方式的信息，控制目标车辆按照目标变道方式进行变道。

在一种可能实现方式中，参见图11，该装置还包括：

确定模块1004，用于随机确定训练车辆的初始化行驶状态的信息，初始化行驶状态的信息包括训练车辆的重量、训练车辆的行驶速度、训练车辆在第一车道的位置信息和变道方向中的一种或多种；

学习模块1005，用于基于强化学习算法学习初始化行驶状态下的行驶状态与变道方式的对应关系；

第二获取模块1002，还用于当满足第一终止条件时，基于各个初始化行驶状态下的行驶状态与变道方式的对应关系，得到行驶状态与变道方式的目标对应关系。

在一种可能实现方式中，参见图12，学习模块1005，包括：

获取单元10051，用于基于训练车辆的第一行驶状态和第一变道方式，获取由车辆物理模型计算得到的训练车辆的第二行驶状态的信息，训练车辆的第一行驶状态由车辆物理模型基于训练车辆的初始化行驶状态计算得到，第一变道方式为在第一行驶状态下产生的变道方式；

确定单元10052，用于基于训练车辆的第二行驶状态的信息，确定与第二行驶状态对应的增强信号；

获取单元10051，还用于基于增强信号，得到第一变道方式的反馈信息，反馈信息用于指示第一变道方式的合适程度；

产生单元10053，用于基于第一变道方式的反馈信息，产生第二变道方式；

输入单元10054，用于将第二变道方式输入车辆物理模型，车辆物理模型用于基于第二行驶状态和第二变道方式计算训练车辆的第三行驶状态；

获取单元10051，还用于当满足第二终止条件时，基于各个变道方式的反馈信息，将各个行驶状态与各个行驶状态下产生的各个变道方式的对应关系作为初始化行驶状态下的行驶状态与变道方式的对应关系。

在一种可能实现方式中，确定单元10052，用于基于训练车辆的第二行驶状态的信息，确定与第二行驶状态对应的变道阶段；基于变道阶段，确定与第二行驶状态对应的增强信号。

在一种可能实现方式中，训练车辆包括第一子车辆和第二子车辆，第二行驶状态的信息包括第一子车辆的位置信息和第二子车辆的位置信息；确定单元10052，用于当第一子车辆的位置信息指示第一子车辆在第一车道，第二子车辆的位置信息指示第二子车辆在第一车道时，与第二行驶状态对应的变道阶段为第一变道阶段；

当第一子车辆的位置信息指示第一子车辆在第二车道，第二子车辆的位置信息指示第二子车辆在第一车道时，与第二行驶状态对应的变道阶段为第二变道阶段，第二车道为与变道方向对应的第一车道的临近车道；

当第一子车辆的位置信息指示第一子车辆在第二车道，第二子车辆的位置信息指示第二子车辆在第二车道时，与第二行驶状态对应的变道阶段为第三变道阶段。

在一种可能实现方式中，确定单元10052，用于当变道阶段为第一变道阶段时，基于第一子车辆与第一车道线的距离和第二子车辆与第一车道线的距离，确定与第二行驶状态对应的增强信号，第一车道线为第一车道与第二车道共有的车道线；

当变道阶段为第二变道阶段时，基于第一子车辆与第二车道线的距离和第二子车辆与第一车道线的距离，确定与第二行驶状态对应的增强信号，第二车道线为组成第二车道的车道线中除第一车道线外的另一车道线；

当变道阶段为第三变道阶段时，基于第一子车辆与第二车道线的距离和第二子车辆与第二车道线的距离，确定与第二行驶状态对应的增强信号。

在一种可能实现方式中，参见图12，学习模块1005，还包括：

重置单元10055，用于将训练车辆的行驶状态由第二行驶状态重置至初始化行驶状态；

输入单元10054，用于将初始化行驶状态和第二变道方式输入车辆物理模型，车辆物理模型用于基于初始化行驶状态和第二变道方式计算训练车辆的第三行驶状态。

在一种可能实现方式中，获取单元10051，还用于对于任一行驶状态与任一行驶状态下产生的变道方式的对应关系，当任一行驶状态下产生的变道方式的反馈信息指示任一行驶状态下产生的变道方式的合适程度超过程度阈值时，将任一行驶状态与任一行驶状态下产生的变道方式的对应关系作为初始化行驶状态下的行驶状态与变道方式的第一对应关系；

当任一行驶状态下产生的变道方式的反馈信息指示任一行驶状态下产生的变道方式的合适程度不超过程度阈值时，将任一行驶状态与任一行驶状态下产生的变道方式的对应关系作为初始化行驶状态下的行驶状态与变道方式的第二对应关系。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13是本申请实施例提供的一种变道控制设备的结构示意图。该设备可以为终端，例如，智能车辆上的控制终端。

通常，终端包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1301所执行以实现本申请中方法实施例提供的变道控制方法。

在一些实施例中，终端还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地，外围设备包括：射频电路1304、触摸显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。

外围设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置在终端的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在终端的不同表面或呈折叠设计；在再一些实施例中，显示屏1305可以是柔性显示屏，设置在终端的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位终端的当前地理位置，以实现导航或LBS(Location BasedService，基于位置的服务)。定位组件1308可以是基于美国的GPS(Global PositioningSystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件，或者是建立在以上卫星定位系统基础上的地基或星基差分定位组件。

电源1309用于为终端中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号，控制触摸显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测终端的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在终端的侧边框和/或触摸显示屏1305的下层。当压力传感器1313设置在终端的侧边框时，可以检测用户对终端的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在触摸显示屏1305的下层时，由处理器1301根据用户对触摸显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商Logo集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制触摸显示屏1305的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1305的显示亮度；当环境光强度较低时，调低触摸显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，通常设置在终端的前面板。接近传感器1316用于采集用户与终端的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与终端的正面之间的距离逐渐变小时，由处理器1301控制触摸显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与终端的正面之间的距离逐渐变大时，由处理器1301控制触摸显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行，以实现上述任一种变道控制方法。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由计算机设备的处理器加载并执行，以实现上述任一种变道控制方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种变道控制方法，其特征在于，所述方法包括：

基于行驶状态与变道方式的目标对应关系，获取与所述目标车辆的目标行驶状态对应的目标变道方式的信息，所述目标变道方式的信息包括目标转向角度和目标转向角速度，所述目标转向角度和所述目标转向角速度是指所述目标车辆的方向盘需要转动的角度和转动过程中的转动角速度，所述行驶状态与变道方式的目标对应关系基于各个初始化行驶状态下的行驶状态与变道方式的对应关系得到，所述初始化行驶状态下的行驶状态与变道方式的对应关系利用强化学习算法学习得到，其中，所述各个初始化行驶状态随机确定；

2.根据权利要求1所述的方法，其特征在于，所述基于行驶状态与变道方式的目标对应关系，获取与所述目标车辆的目标行驶状态对应的目标变道方式的信息之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于强化学习算法学习所述初始化行驶状态下的行驶状态与变道方式的对应关系，包括：

基于所述第一变道方式的反馈信息，产生第二变道方式；

4.根据权利要求3所述的方法，其特征在于，所述基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的增强信号，包括：

5.根据权利要求4所述的方法，其特征在于，所述训练车辆包括第一子车辆和第二子车辆，所述第二行驶状态的信息包括所述第一子车辆的位置信息和所述第二子车辆的位置信息；所述基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的变道阶段，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述变道阶段，确定与所述第二行驶状态对应的增强信号，包括：

7.根据权利要求3所述的方法，其特征在于，所述基于所述第一变道方式的反馈信息，产生第二变道方式之前，所述方法还包括：

所述将所述第二变道方式输入所述车辆物理模型，包括：

8.根据权利要求3所述的方法，其特征在于，所述基于各个变道方式的反馈信息，将各个行驶状态与所述各个行驶状态下产生的各个变道方式的对应关系作为所述初始化行驶状态下的行驶状态与变道方式的对应关系，包括：

9.一种变道控制装置，其特征在于，所述装置包括：

第二获取模块，用于基于行驶状态与变道方式的目标对应关系，获取与所述目标车辆的目标行驶状态对应的目标变道方式的信息，所述目标变道方式的信息包括目标转向角度和目标转向角速度，所述目标转向角度和所述目标转向角速度是指所述目标车辆的方向盘需要转动的角度和转动过程中的转动角速度，所述行驶状态与变道方式的目标对应关系基于各个初始化行驶状态下的行驶状态与变道方式的对应关系得到，所述初始化行驶状态下的行驶状态与变道方式的对应关系利用强化学习算法学习得到，其中，所述各个初始化行驶状态随机确定；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述学习模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述确定单元，用于基于所述训练车辆的第二行驶状态的信息，确定与所述第二行驶状态对应的变道阶段；基于所述变道阶段，确定与所述第二行驶状态对应的增强信号。

13.根据权利要求12所述的装置，其特征在于，所述训练车辆包括第一子车辆和第二子车辆，所述第二行驶状态的信息包括所述第一子车辆的位置信息和所述第二子车辆的位置信息；所述确定单元，用于当所述第一子车辆的位置信息指示所述第一子车辆在所述第一车道，所述第二子车辆的位置信息指示所述第二子车辆在所述第一车道时，与所述第二行驶状态对应的变道阶段为第一变道阶段；

14.根据权利要求13所述的装置，其特征在于，所述确定单元，用于当所述变道阶段为第一变道阶段时，基于所述第一子车辆与第一车道线的距离和所述第二子车辆与第一车道线的距离，确定与所述第二行驶状态对应的增强信号，所述第一车道线为所述第一车道与所述第二车道共有的车道线；

15.根据权利要求11所述的装置，其特征在于，所述学习模块，还包括：

16.根据权利要求11所述的装置，其特征在于，所述获取单元，还用于对于任一行驶状态与所述任一行驶状态下产生的变道方式的对应关系，当所述任一行驶状态下产生的变道方式的反馈信息指示所述任一行驶状态下产生的变道方式的合适程度超过程度阈值时，将所述任一行驶状态与所述任一行驶状态下产生的变道方式的对应关系作为所述初始化行驶状态下的行驶状态与变道方式的第一对应关系；

17.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至8任一所述的变道控制方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至8任一所述的变道控制方法。