CN115743168A

CN115743168A - 用于换道决策的模型训练方法、目标车道确定方法及装置

Info

Publication number: CN115743168A
Application number: CN202211275623.0A
Authority: CN
Inventors: 熊方舟; 张弛; 贾砚波; 王伟宝
Original assignee: Beijing Jidu Technology Co Ltd
Current assignee: Beijing Jidu Technology Co Ltd
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-03-07

Abstract

本申请提供了一种用于换道决策的模型训练方法、目标车道确定方法及装置，属于自动驾驶领域。所述方法包括：调用特征编码模型，分别对t时刻和t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到第一样本交互特征向量和第二样本交互特征向量；通过调用车道选择模型对第一样本交互特征向量和t时刻样本道路上各个可选车道的车道特征向量进行处理，获取第一样本目标车道；基于第一样本交互特征向量、第一样本目标车道、第二样本交互特征向量及奖惩函数值进行模型训练。本申请基于对各个交通参与者的样本行驶特征向量编码得到的交互特征向量进行模型训练，所训练的模型能够根据当前驾驶场景灵活的变道。

Description

用于换道决策的模型训练方法、目标车道确定方法及装置

技术领域

本申请涉及自动驾驶技术领域，特别涉及一种用于换道决策的模型训练方法、目标车道确定方法及装置。

背景技术

随着自动驾驶技术的发展，自动驾驶车辆逐渐在生活中普及。通常自动驾驶车辆在按照预先规划的导航路径行驶过程中，会根据实际的驾驶场景执行换道决策，以确定出待切换的目标车道，从而在恰当的时间且符合行驶安全的情况下，通过切换至该目标车道完成换道。

相关技术中，预先构建换道决策规则库，该换道决策规则库中包括多条换道规则，该换道规则指示了自动驾驶车辆与障碍物的相对位置和相对速度在不同阈值范围内所对应的目标车道。在自动驾驶车辆行驶过程中，当该自动驾驶车辆与障碍物的相对位置和相对速度符合换道决策规则库中某一条换道规则时，将该换道规则所指示的车道确定为待切换的目标车道。

然而，换道决策规则库中的换道规则只是基于相对位置和相对速度进行换道，无法满足实际的驾驶场景灵活多变的需求。随着自动驾驶技术的发展，如何训练出用于换道决策的模型，进而基于所训练的模型根据当前的驾驶场景进行灵活换道，成为当前亟需解决的问题。

发明内容

本申请实施例提供了一种用于换道决策的模型训练方法、目标车道确定方法及装置，能够训练出一种可根据当前驾驶场景进行灵活变道的模型，基于该模型所确定的目标车道更准确。所述技术方案如下：

第一方面，提供了一种用于换道决策的模型训练方法，所述用于换道决策的模型包括特征编码模型和车道选择模型，所述方法包括：

调用所述特征编码模型，分别对t时刻和t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t时刻的第一样本交互特征向量和t+1时刻的第二样本交互特征向量，所述交通参与者为所述样本道路上影响所述样本目标车辆换道的车辆，所述第一样本交互特征向量和所述第二样本交互特征向量分别表征t时刻和t+1时刻所述样本道路上各个交通参与者之间的交互状态；

通过调用所述车道选择模型对所述第一样本交互特征向量和t时刻所述样本道路上各个可选车道的车道特征向量进行处理，获取t时刻为所述样本目标车辆选择的第一样本目标车道；

基于所述第一样本交互特征向量、所述第一样本目标车道、所述第二样本交互特征向量及奖惩函数值，对所述特征编码模型和所述车道选择模型进行训练，得到已训练的特征编码模型和已训练的车道选择模型，所述奖惩函数值为通过对所述样本目标车辆切换至所述第一样本目标车道的行驶过程进行多维度追踪得到的函数值，所述已训练的特征编码模型用于对目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行编码，得到交互特征向量，所述已训练的车道选择模型用于基于所述交互特征向量和所述目标道路上各个可选车道的车道特征向量，从所述目标道路上各个可选车道中选择出目标车道。

在本申请的另一个实施例中，所述t时刻样本道路上以样本目标车辆为主体的各个交通参与者包括所述样本目标车辆、多个第一样本障碍物及多个第二样本障碍物，所述第一样本障碍物为t时刻所述样本道路上与所述样本目标车辆在预设方向上距离最近的车辆，所述第二样本障碍物为t时刻所述样本道路上与所述第一样本障碍物在所述预设方向上距离最近的车辆；

所述调用所述特征编码模型，对t时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t时刻的第一样本交互特征向量，包括：

调用所述特征编码模型，对t时刻所述样本目标车辆的样本行驶特征向量和多个所述第一样本障碍物的样本行驶特征向量进行编码，得到t时刻所述样本目标车辆的第一隐式表征向量；

调用所述特征编码模型，对t时刻每个所述第一样本障碍物的样本行驶特征向量和对应的多个所述第二样本障碍物的样本行驶特征向量进行编码，得到t时刻每个所述第一样本障碍物的第二隐式表征向量；

调用所述特征编码模型，对所述第一隐式表征向量和多个所述第一样本障碍物的第二隐式表征向量进行编码，得到所述第一样本交互特征向量。

在本申请的另一个实施例中，所述调用所述特征编码模型，对t时刻所述样本目标车辆的样本行驶特征向量和多个所述第一样本障碍物的样本行驶特征向量进行编码，得到t时刻所述样本目标车辆的第一隐式表征向量，包括：

调用所述特征编码模型，对t时刻所述样本目标车辆的样本行驶特征向量进行编码，得到所述样本目标车辆的初始第一隐式表征向量；

调用所述特征编码模型，对多个所述第一样本障碍物的样本行驶特征向量进行编码，得到多个所述第一样本障碍物的初始第二隐式表征向量；

基于所述初始第一隐式表征向量和多个所述初始第二隐式表征向量，调用所述特征编码模型，对所述初始第一隐式表征向量进行更新，得到所述第一隐式表征向量。

在本申请的另一个实施例中，所述调用所述特征编码模型，对t时刻每个所述第一样本障碍物的样本行驶特征向量和对应的多个所述第二样本障碍物的样本行驶特征向量进行编码，得到t时刻每个所述第一样本障碍物的第二隐式表征向量，包括：

调用所述特征编码模型，对每个所述第一样本障碍物的样本行驶特征向量进行编码，得到每个所述第一样本障碍物的初始第二隐式表征向量；

调用所述特征编码模型，对多个所述第二样本障碍物的样本行驶特征向量进行编码，得到多个所述第二样本障碍物的初始第三隐式表征向量；

基于每个所述初始第二隐式表征向量和多个所述初始第三隐式表征向量，调用所述特征编码模型，对每个所述初始第二隐式表征向量进行更新，得到每个所述第一样本障碍物的第二隐式表征向量。

在本申请的另一个实施例中，所述t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者包括所述样本目标车辆、多个第三样本障碍物及多个第四样本障碍物，所述第三样本障碍物为t+1时刻所述样本道路上与所述样本目标车辆在预设方向上距离最近的车辆，所述第四样本障碍物为t+1时刻所述样本道路上与所述第三样本障碍物在所述预设方向上距离最近的车辆；

所述调用所述特征编码模型，对t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t+1时刻的第二样本交互特征向量，包括：

调用所述特征编码模型，对t+1时刻所述样本目标车辆的样本行驶特征向量和多个所述第三样本障碍物的样本行驶特征向量进行编码，得到t+1时刻所述样本目标车辆的第三隐式表征向量；

调用所述特征编码模型，对t+1时刻每个所述第三样本障碍物的样本行驶特征向量和对应的多个所述第四样本障碍物的样本行驶特征向量进行编码，得到t+1时刻每个所述第三样本障碍物的第四隐式表征向量；

调用所述特征编码模型，对所述第三隐式表征向量和多个所述第三样本障碍物的第四隐式表征向量进行编码，得到所述第二样本交互特征向量。

在本申请的另一个实施例中，所述通过调用所述车道选择模型对所述第一样本交互特征向量和t时刻所述样本道路上各个可选车道的车道特征向量进行处理，获取t时刻为所述样本目标车辆选择的第一样本目标车道，包括：

调用所述车道选择模型，对所述第一样本交互特征向量和t时刻所述样本道路上每条可选车道的车道特征向量进行处理，得到t时刻所述样本道路上每条可选车道的车道分数；

采用第一概率，从所述样本道路上各个可选车道中随机选择一个车道，作为所述第一样本目标车道；或者，

采用第二概率，将t时刻所述样本道路上车道分数最高的可选车道，作为所述第一样本目标车道，所述第一概率和所述第二概率之和为1，且所述第二概率大于所述第一概率。

在本申请的另一个实施例中，所述基于所述第一样本交互特征向量、所述第一样本目标车道、所述第二样本交互特征向量及奖惩函数值，对所述特征编码模型和所述车道选择模型进行训练，得到已训练的特征编码模型和已训练的车道选择模型，包括：

调用所述车道选择模型，对所述第一样本交互特征向量和所述第一样本目标车道进行处理，得到所述第一样本目标车道对应的第一车道分数；

通过调用所述车道选择模型，对所述第二样本交互特征向量和t+1时刻样本道路上多个可选车道的车道特征向量进行处理，获取t+1时刻为所述样本目标车辆选择的第二样本目标车道；

基于所述第二样本交互特征向量、所述第二样本目标车道及所述奖惩函数值，确定t时刻所述第二样本目标车道对应的第二车道分数；

将所述第一车道分数和所述第二车道分数输入到预先构建的目标损失函数中，得到目标损失函数值；

基于所述目标损失函数值，对所述特征编码模型和所述车道选择模型的模型参数进行调整，得到所述已训练的特征编码模型和所述已训练的车道选择模型。

第二方面，提供了一种目标车道确定方法，所述方法应用于第一方面所训练的特征编码模型和车道选择模型，所述方法包括：

获取当前时刻目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量；

调用所述已训练的特征编码模型，对所述目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行编码，得到当前时刻的交互特征向量；

调用所述已训练的车道选择模型，对所述交互特征向量和当前时刻所述目标道路上各个可选车道的车道特征向量进行处理，得到所述目标道路上各个可选车道的车道分数；

将所述目标道路上车道分数最大的可选车道确定为待切换的目标车道。

第三方面，提供了一种用于换道决策的模型训练装置，所述用于换道决策的模型包括特征编码模型和车道选择模型，所述装置包括：

编码模块，用于调用所述特征编码模型，分别对t时刻和t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t时刻的第一样本交互特征向量和t+1时刻的第二样本交互特征向量，所述交通参与者为所述样本道路上影响所述样本目标车辆换道的车辆，所述第一样本交互特征向量和所述第二样本交互特征向量分别表征t时刻和t+1时刻所述样本道路上各个交通参与者之间的交互状态；

获取模块，用于通过调用所述车道选择模型对所述第一样本交互特征向量和t时刻所述样本道路上各个可选车道的车道特征向量进行处理，获取t时刻为所述样本目标车辆选择的第一样本目标车道；

训练模块，用于基于所述第一样本交互特征向量、所述第一样本目标车道、所述第二样本交互特征向量及奖惩函数值，对所述特征编码模型和所述车道选择模型进行训练，得到已训练的特征编码模型和已训练的车道选择模型，所述奖惩函数值为通过对所述样本目标车辆切换至所述第一样本目标车道的行驶过程进行多维度追踪得到的函数值，所述已训练的特征编码模型用于对目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行编码，得到交互特征向量，所述已训练的车道选择模型用于基于所述交互特征向量和所述目标道路上各个可选车道的车道特征向量，从所述目标道路上各个可选车道中选择出目标车道。

所述编码模块，用于调用所述特征编码模型，对t时刻所述样本目标车辆的样本行驶特征向量和多个所述第一样本障碍物的样本行驶特征向量进行编码，得到t时刻所述样本目标车辆的第一隐式表征向量；调用所述特征编码模型，对t时刻每个所述第一样本障碍物的样本行驶特征向量和对应的多个所述第二样本障碍物的样本行驶特征向量进行编码，得到t时刻每个所述第一样本障碍物的第二隐式表征向量；调用所述特征编码模型，对所述第一隐式表征向量和多个所述第一样本障碍物的第二隐式表征向量进行编码，得到所述第一样本交互特征向量。

在本申请的另一个实施例中，所述编码模块，用于调用所述特征编码模型，对t时刻所述样本目标车辆的样本行驶特征向量进行编码，得到所述样本目标车辆的初始第一隐式表征向量；调用所述特征编码模型，对多个所述第一样本障碍物的样本行驶特征向量进行编码，得到多个所述第一样本障碍物的初始第二隐式表征向量；基于所述初始第一隐式表征向量和多个所述初始第二隐式表征向量，调用所述特征编码模型，对所述初始第一隐式表征向量进行更新，得到所述第一隐式表征向量。

在本申请的另一个实施例中，所述编码模块，用于调用所述特征编码模型，对每个所述第一样本障碍物的样本行驶特征向量进行编码，得到每个所述第一样本障碍物的初始第二隐式表征向量；调用所述特征编码模型，对多个所述第二样本障碍物的样本行驶特征向量进行编码，得到多个所述第二样本障碍物的初始第三隐式表征向量；基于每个所述初始第二隐式表征向量和多个所述初始第三隐式表征向量，调用所述特征编码模型，对每个所述初始第二隐式表征向量进行更新，得到每个所述第一样本障碍物的第二隐式表征向量。

所述编码模块，用于调用所述特征编码模型，对t+1时刻所述样本目标车辆的样本行驶特征向量和多个所述第三样本障碍物的样本行驶特征向量进行编码，得到t+1时刻所述样本目标车辆的第三隐式表征向量；调用所述特征编码模型，对t+1时刻每个所述第三样本障碍物的样本行驶特征向量和对应的多个所述第四样本障碍物的样本行驶特征向量进行编码，得到t+1时刻每个所述第三样本障碍物的第四隐式表征向量；调用所述特征编码模型，对所述第三隐式表征向量和多个所述第三样本障碍物的第四隐式表征向量进行编码，得到所述第二样本交互特征向量。

在本申请的另一个实施例中，所述获取模块，用于调用所述车道选择模型，对所述第一样本交互特征向量和t时刻所述样本道路上每条可选车道的车道特征向量进行处理，得到t时刻所述样本道路上每条可选车道的车道分数；采用第一概率，从所述样本道路上各个可选车道中随机选择一个车道，作为所述第一样本目标车道；或者，采用第二概率，将t时刻所述样本道路上车道分数最高的可选车道，作为所述第一样本目标车道，所述第一概率和所述第二概率之和为1，且所述第二概率大于所述第一概率。

在本申请的另一个实施例中，所述训练模块，用于调用所述车道选择模型，对所述第一样本交互特征向量和所述第一样本目标车道进行处理，得到所述第一样本目标车道对应的第一车道分数；通过调用所述车道选择模型对所述第二样本交互特征向量和t+1时刻样本道路上多个可选车道的车道特征向量进行处理，获取t+1时刻为所述样本目标车辆选择的第二样本目标车道；基于所述第二样本交互特征向量、所述第二样本目标车道及所述奖惩函数值，确定t时刻所述第二样本目标车道对应的第二车道分数；将所述第一车道分数和所述第二车道分数输入到预先构建的目标损失函数中，得到目标损失函数值；基于所述目标损失函数值，对所述特征编码模型和所述车道选择模型的模型参数进行调整，得到所述已训练的特征编码模型和所述已训练的车道选择模型。

第四方面，提供了一种目标车道确定装置，所述装置内安装有第一方面所训练的特征编码模型和车道选择模型，所述装置包括：

获取模块，用于获取当前时刻目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量；

编码模块，用于调用所述已训练的特征编码模型，对所述目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行编码，得到当前时刻的交互特征向量；

处理模块，用于调用所述已训练的车道选择模型，对所述交互特征向量和当前时刻所述目标道路上各个可选车道的车道特征向量进行处理，得到所述目标道路上各个可选车道的车道分数；

确定模块，用于将所述目标道路上车道分数最大的可选车道确定为待切换的目标车道。

第五方面，提供了一种电子设备，所述电子设备包括存储器及处理器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如第一方面所述的用于换道决策的模型训练方法，或实现第二方面所述的目标车道确定方法。

第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序被处理器执行时能够实现如第一方面所述的用于换道决策的模型训练方法，或实现第二方面所述的目标车道确定方法。

第七方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时能够实现如第一方面所述的用于换道决策的模型训练方法，或实现第二方面所述的目标车道确定方法。

本申请实施例提供的技术方案带来的有益效果是：

对t时刻和t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行显示编码，得到t时刻和t+1时刻的样本交互特征向量，该不同时刻的样本交互特征向量能够表征不同时刻样本道路上各个交通参与者之间的交互状态，基于不同时刻的样本交互特征向量和该时刻样本道路上各个可选车道的车道特征向量，为样本目标车辆选择出该时刻的样本目标车道，进而基于不同时刻的样本交互特征向量、对应的样本目标车道及奖惩函数值进行模型训练，采用该种训练方法训练的模型能够学习到不同的交互环境下的换道逻辑。当调用该模型进行换道时，该模型能够根据当前的驾驶场景进行灵活换道。另外，基于该模型所选择的目标车道为综合当前驾驶场景下各个交通参与者的行驶特征向量确定的车道，相比于相关技术中基于简单的换道规则确定的目标车道更为准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种用于换道决策的模型训练方法的流程图；

图2是本申请实施例提供的一种多个交通参与者的拓扑图；

图3是本申请实施例提供的另一种多个交通参与者的拓扑图；

图4是本申请实施例提供的一种样本道路上各个可选车道的示意图；

图5是本申请实施例提供的一种目标车道确定方法的流程图；

图6是本申请实施例提供的一种目标车道确定的逻辑图；

图7是本申请实施例提供的一种用于换道决策的模型训练装置的结构示意图；

图8是本申请实施例提供的一种目标车道确定装置的结构示意图；

图9示出了本申请一个示例性实施例提供的一种电子设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请实施例所使用的术语“每个”、“多个”及“任一”等，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指对应的多个中的任意一个。举例来说，多个词语包括10个词语，而每个词语是指这10个词语中的每一个词语，任一词语是指10个词语中的任意一个词语。

本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例提供了一种用于换道决策的模型训练方法，该用于换道决策的模型包括特征编码模型和车道选择模型。以电子设备执行本申请实施例为例，该电子设备可以为具有较强计算能力的终端，例如，自动驾驶车辆等；该电子设备还可以为服务器，该服务器包括单独的物理服务器、多个物理服务器组成的集群或分布式系统等，本申请实施例不对电子设备的产品类型作具体的限定。参见图1，本申请实施例提供的方法流程包括：

101、调用特征编码模型，对t时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t时刻的第一样本交互特征向量。

其中，t时刻为样本目标车道在样本道路上行驶的任一时刻。样本行驶特征向量为表征每个交通参与者行驶状态的向量，包括所在车道信息、位置信息、车速信息、加速度信息等。交通参与者为样本道路上影响样本目标车辆换道的车辆。t时刻样本道路上以样本目标车辆为主体的各个交通参与者包括样本目标车辆、多个第一样本障碍物及多个第二样本障碍物等。第一样本障碍物为t时刻样本道路上与样本目标车辆在预设方向上距离最近的车辆，第二样本障碍物为t时刻样本道路上与第一样本障碍物在预设方向上距离最近的车辆，该预设方向为对样本目标车辆换道产生影响的方向，通常该预设方向为以样本目标车道为中心的八个方向，包括前、后、左、右、左前、左后、右前、右后等方向。

电子设备在获取t时刻样本道路上以样本目标车辆为主体的各个交通参与者时，可采用如下方法：

第一步，电子设备获取t时刻样本道路上样本目标车辆的位置信息，并以该样本车辆为中心，沿着预设方向在t时刻样本道路上各个车辆中进行搜索。如果在任一预设方向上搜索到多个车辆，则获取多个车辆的位置信息，进而基于多个车辆的位置信息和样本目标车辆的位置信息，从多个车辆中获取与样本目标车辆在该预设方向上距离最近的车辆，如果该车辆与样本目标车辆的距离在预设距离范围内，则将该车辆作为样本目标车辆在该预设方向上的第一样本障碍物；如果该预设方向上未搜索到车辆或者搜索到的车辆与样本目标车辆之间的距离不在预设距离范围内，则将该预设方向上第一样本障碍物的样本行驶特征向量中各个元素采用默认值表示，该默认值可以为0。对于其他预设方向也按照该种方法进行搜索，最终可得到多个第一样本障碍物。例如图2中样本目标车辆为A车，可以找到与A车距离最近的多个第一样本障碍物，分别为B车、C车、D车、E车及F车。

第二步，对于每个第一样本障碍物，电子设备以该第一样本障碍物为中心，沿着预设方向在t时刻样本道路上各个车辆中进行搜索。如果在任一预设方向上搜索到多个车辆，则获取多个车辆的位置信息，进而基于多个车辆的位置信息和该第一样本障碍物的位置信息，从多个车辆中获取与该第一样本障碍物在该预设方向上距离最近的车辆，如果该车辆与该第一样本障碍物的距离在预设距离范围内，则将该车辆作为该第一样本障碍物在该预设方向上的第二样本障碍物；如果该预设方向上未搜索到车辆或者搜索到的车辆与该第一样本障碍物之间的距离不在预设距离范围内，则将该预设方向上第二样本障碍物的样本行驶特征向量中各个元素采用默认值表示，该默认值可以为0。对于其他预设方向也按照该种方法进行搜索，最终可得到多个第二样本障碍物。例如图3中第一样本障碍物为D车，可以找到与D车距离最近的多个第二样本障碍物，分别为A车、B车、C车、E车及F车。

具体地，调用特征编码模型，对t时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t时刻的第一样本交互特征向量时，可采用如下方法：

1011、调用特征编码模型，对t时刻样本目标车辆的样本行驶特征向量和多个第一样本障碍物的样本行驶特征向量进行编码，得到t时刻样本目标车辆的第一隐式表征向量。

其中，第一隐式表征向量融合了t时刻样本目标车辆自身的样本行驶特征向量及多个第一样本障碍物的样本行驶特征向量，该第一隐式表征向量能够更为精准地突显出在t时刻的驾驶场景下该样本目标车辆的特性。

具体地，电子设备调用特征编码模型，对t时刻样本目标车辆的样本行驶特征向量和多个第一样本障碍物的样本行驶特征向量进行编码，得到t时刻样本目标车辆的第一隐式表征向量时，可采用如下方法：

10111、调用特征编码模型，对t时刻样本目标车辆的样本行驶特征向量进行编码，得到样本目标车辆的初始第一隐式表征向量。

设定样本目标车辆的样本行驶特征向量表示为f_e，初始第一隐式表征向量表示为h_e，则调用特征编码模型，对t时刻样本目标车辆的样本行驶特征向量进行编码，得到样本目标车辆的初始第一隐式表征向量的过程，可采用如下公式表示为：

h_e＝W₁f_e

其中，W₁为可学习的关系矩阵。

10112、调用特征编码模型，对多个第一样本障碍物的样本行驶特征向量进行编码，得到多个第一样本障碍物的初始第二隐式表征向量。

设定任一第一样本障碍物的样本行驶特征向量表示为f_oi，初始第二隐式表征向量表示为h_oi，则调用特征编码模型，对该第一样本障碍物的样本行驶特征向量进行编码，得到该第一样本障碍物的初始第二隐式表征向量的过程，可采用如下公式表示为：

h_oi＝W₁f_oi。

10113、基于初始第一隐式表征向量和多个初始第二隐式表征向量，调用特征编码模型，对初始第一隐式表征向量进行更新，得到第一隐式表征向量。

基于样本目标车辆和多个第一样本障碍物之间的拓扑关系，本申请实施例可构建图神经网络，该图神经网络可以为一张有向图，也可以为一张无向图。该样本目标车辆和多个第一样本障碍物分别对应图神经网络中的一个节点，基于该图神经网络，通过学习节点间的传播关系，可以完成对样本目标车辆与多个第一样本障碍物关系的建模。

对于样本目标车辆，按照图神经网络中节点信息的传播和更新知识，基于该样本目标车辆的初始第一隐式表征向量和多个第一样本障碍物的初始第二隐式表征向量，通过对初始第一隐式表征向量进行更新，可得到第一隐式表征向量。该过程具体实现时，可采用如下公式：

其中，

表示第k次更新后的第一隐式表征向量，σ表示激活函数，W₂和W₃分别表示可学习的关系矩阵，|N(e)|表示第一样本障碍物的数量，

表示任一第一样本障碍物，

表示第k-1次更新后的第一隐式表征向量，k表示更新次数，k的值大于等于2，优选地，本申请实施例中k的值取2。

1012、调用特征编码模型，对t时刻每个第一样本障碍物的样本行驶特征向量和对应的多个第二样本障碍物的样本行驶特征向量进行编码，得到t时刻每个第一样本障碍物的第二隐式表征向量。

其中，第二隐式表征向量融合了t时刻第一样本障碍物自身的样本行驶特征向量及多个第二样本障碍物的样本行驶特征向量，该第二隐式表征向量能够更为精准地突显出在t时刻的驾驶场景下该第一样本障碍物的特性。

具体地，电子设备调用特征编码模型，对t时刻每个第一样本障碍物的样本行驶特征向量和对应的多个第二样本障碍物的样本行驶特征向量进行编码，得到t时刻每个第一样本障碍物的第二隐式表征向量时，可采用如下方法：

10121、调用特征编码模型，对每个第一样本障碍物的样本行驶特征向量进行编码，得到每个第一样本障碍物的初始第二隐式表征向量。

h_oi＝W₁f_oi。

10122、调用特征编码模型，对多个第二样本障碍物的样本行驶特征向量进行编码，得到多个第二样本障碍物的初始第三隐式表征向量。

设定任一第二样本障碍物的样本行驶特征向量表示为f_ui，初始第三隐式表征向量表示为h_ui，则调用特征编码模型，对该第二样本障碍物的样本行驶特征向量进行编码，得到该第二样本障碍物的初始第三隐式表征向量的过程，可采用如下公式表示为：

h_ui＝W₁f_ui。

10123、基于每个初始第二隐式表征向量和多个初始第三隐式表征向量，调用特征编码模型，对每个初始第二隐式表征向量进行更新，得到每个第一样本障碍物的第二隐式表征向量。

基于第一样本障碍物和多个第二样本障碍物之间的拓扑关系，本申请实施例可构建图神经网络，该图神经网络可以为一张有向图，也可以为一张无向图。该第一样本障碍物和多个第二样本障碍物分别对应图神经网络中的一个节点，基于该图神经网络，通过学习节点间的传播关系，可以完成对第一样本障碍物和多个第二样本障碍物关系的建模。

对于每个第一样本障碍物，按照图神经网络中节点信息的传播和更新知识，基于该第一样本障碍物的初始第二隐式表征向量和多个第二样本障碍物的初始第三隐式表征向量，通过对初始第二隐式表征向量进行更新，可得到第二隐式表征向量。该过程具体实现时，可采用如下公式：

其中，

表示第k次更新后的第二隐式表征向量，σ表示激活函数，W₂和W₃分别表示可学习的关系矩阵，|N(oi)|表示第二样本障碍物的数量，

表示任一第二样本障碍物，

表示k-1次更新后的第二隐式表征向量，k表示更新次数，k的值大于等于2，优选地，本申请实施例中k的值取2。

1013、调用特征编码模型，对第一隐式表征向量和多个第一样本障碍物的第二隐式表征向量进行编码，得到第一样本交互特征向量。

其中，第一样本交互特征向量用于表征t时刻样本道路上各个交通参与者之间的交互状态。基于第一隐式表征向量和多个第一样本障碍物的第二隐式表征向量，电子设备调用特征编码模型进行编码时，可采用如下公式：

s_t＝σ(W₄h_e+W₅∑h_oi)

其中，s_t表示第一样本交互特征向量，W₄和W₅分别表示可学习的关系矩阵，h_e表示第一隐式表征向量，h_oi表示第二隐式表征向量。

102、调用特征编码模型，对t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t+1时刻的第二样本交互特征向量。

其中，t+1时刻为t时刻的下一时刻。t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者包括样本目标车辆、多个第三样本障碍物及多个第四样本障碍物等。第三样本障碍物为t+1时刻样本道路上与样本目标车辆在预设方向上距离最近的车辆，第四样本障碍物为t+1时刻样本道路上与第三样本障碍物在预设方向上距离最近的车辆。

电子设备在获取t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者时，可采用如下方法：

第一步，电子设备获取t+1时刻样本道路上样本目标车辆的位置信息，并以该样本车辆为中心，沿着预设方向在t+1时刻样本道路上各个车辆中进行搜索。如果在任一预设方向上搜索到多个车辆，则获取多个车辆的位置信息，进而基于多个车辆的位置信息和样本目标车辆的位置信息，从多个车辆中获取与样本目标车辆在该预设方向上距离最近的车辆，如果该车辆与样本目标车辆的距离在预设距离范围内，则将该车辆作为样本目标车辆在该预设方向上的第三样本障碍物；如果该预设方向上未搜索到车辆或者搜索到的车辆与样本目标车辆之间的距离不在预设距离范围内，则将该预设方向上第三样本障碍物的样本行驶特征向量中各个元素采用默认值表示，该默认值可以为0。对于其他预设方向也按照该种方法进行搜索，最终可得到多个第三样本障碍物。

第二步，对于每个第三样本障碍物，电子设备以该第三样本障碍物为中心，沿着预设方向在t+1时刻样本道路上各个车辆中进行搜索。如果在任一预设方向上搜索到多个车辆，则获取多个车辆的位置信息，进而基于多个车辆的位置信息和该第三样本障碍物的位置信息，从多个车辆中获取与第三样本障碍物在该预设方向上距离最近的车辆，如果该车辆与该第三样本障碍物的距离在预设距离范围内，则将该车辆作为该第三样本障碍物在该预设方向上的第四样本障碍物；如果该预设方向上未搜索到车辆或者搜索到的车辆与该第四样本障碍物之间的距离不在预设距离范围内，则将该预设方向上第四样本障碍物的样本行驶特征向量中各个元素采用默认值表示，该默认值可以为0。对于其他预设方向也按照该种方法进行搜索，最终可得到多个第四样本障碍物。

在本申请的另一个实施例中，调用特征编码模型，对t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t+1时刻的第二样本交互特征向量时，可采用如下方法：

1021、调用特征编码模型，对t+1时刻样本目标车辆的样本行驶特征向量和多个第三样本障碍物的样本行驶特征向量进行编码，得到t+1时刻样本目标车辆的第三隐式表征向量。

本步骤具体实现时与上述步骤1011同理，具体参见上述步骤1011，此处不再赘述。

1022、调用特征编码模型，对t+1时刻每个第三样本障碍物的样本行驶特征向量和对应的多个第四样本障碍物的样本行驶特征向量进行编码，得到t+1时刻每个第三样本障碍物的第四隐式表征向量。

本步骤具体实现时与上述步骤1012同理，具体参见上述步骤1012，此处不再赘述。

1023、调用特征编码模型，对第三隐式表征向量和多个第三样本障碍物的第四隐式表征向量进行编码，得到第二样本交互特征向量。

本步骤具体实现时与上述步骤1013同理，具体参见上述步骤1013，此处不再赘述。

103、通过调用车道选择模型对第一样本交互特征向量和t时刻样本道路上各个可选车道的车道特征向量进行处理，获取t时刻为样本目标车辆选择的第一样本目标车道。

其中，t时刻样本道路上各个可选车道为t时刻发起换道时样本道路上可以选择的车道，该可选车道的数量由样本道路本身的车道数量决定。样本道路上各个可选车道可采用集合A表示，该集合A＝{lane1，lan2，lane3，…，}。例如，图4示出的一条样本道路，该样本道路行的可选车道的数量为3个，分别为lane1、lan2、lane3。

具体实施时，电子设备通过调用车道选择模型对第一样本交互特征向量和t时刻样本道路上各个可选车道的车道特征向量进行处理，获取t时刻为样本目标车辆选择的第一样本目标车道时，可采用如下方法：

1031、调用车道选择模型，对第一样本交互特征向量和t时刻样本道路上每条可选车道的车道特征向量进行处理，得到t时刻样本道路上每条可选车道的车道分数。

其中，车道选择模型可以为DQN(Deep Q Networks，深度Q网络)网络等。电子设备调用车道选择模型，对第一样本交互特征向量和t时刻样本道路上每条可选车道的车道特征向量进行处理的过程，可采用如下公式实现：

其中，W₆表示可学习的关系矩阵，s_t表示第一样本交互特征向量，a_t表示t时刻样本道路上任一条可选车道的车道特征向量。

当调用车道选择模型对第一样本交互特征向量和t时刻样本道路上每条可选车道的车道特征向量进行处理后，可得到t时刻样本道路上每条可选车道的车道分数，该车道分数用于表征可选车道被选择的概率，车道分数越高，表征可选车道被选择的概率越大；车道分数越低，表征可选车道被选择的概率越小。

基于获取到的各条可选车道的车道分数，电子设备按照ε-贪心算法，执行步骤1032，否则，执行步骤1033。

1032、采用第一概率，从样本道路上各个可选车道中随机选择一个车道，作为第一样本目标车道。

1033、采用第二概率，将t时刻样本道路上车道分数最高的可选车道，作为第一样本目标车道。

其中，第一概率和第二概率之和为1，第二概率大于第一概率。设定第一概率可以为ε，第二概率为1-ε，通常ε为一个较小的值，例如10％，1-ε为一个较大的值，例如90％。电子设备按照ε-贪心算法90％的概率会按照DQN网络来决定动作(选择哪条可选车道)，但是10％的概率是随机选择的。通常在实现上ε会随着时间递减。在初始时刻，由于还不知道哪个动作(选择哪条可选车道)是比较好的，因此，需要较长时间进行探索。随着训练次数越来越多，已经比较确定哪一个Q值比较好，此时会减少探索，把ε的值变小，主要根据DQN网络来决定动作。

上述步骤1032和1033中第一样本目标车道的选择过程，可采用如下公式表示：

104、基于第一样本交互特征向量、第一样本目标车道、第二样本交互特征向量及奖惩函数值，对特征编码模型和车道选择模型进行训练，得到已训练的特征编码模型和已训练的车道选择模型。

当确定出第一样本目标车道后，电子设备利用模型预测控制算法规划一条从样本目标车辆的当前位置至目标车道中心线的路径。为了便于对样本目标车辆的后续行驶过程进行追踪，本申请实施例构建一个奖惩函数，该奖惩函数用于在安全性、舒适性及行车效率等多个维度对样本目标车辆切换到目标车道之后的行驶过程进行追踪。该奖惩函数的形式可以为：

r_t＝r_safety+r_efficiency+r_comfort

其中，r_t表示奖惩函数；r_safety表示与安全性相关的奖励值，如果样本目标车辆与多个第一样本障碍物、道路边沿或者其他物体发生碰撞时，则会对r_safety进行惩罚；r_efficiency表示与行驶效率相关的奖励值，为了鼓励样本目标车辆以道路限速进行行驶，以提高通行效率，目标样本车辆的行驶速度与道路限速越接近，奖励值越高；r_comfort表示与舒适性相关的奖励值，该r_comfort采用目标样本车辆的减速度绝对值进行衡量，减速度绝对值越大，惩罚越高。

当获取到s_t、a_t、s_t+1、r_t之后，电子设备将s_t、a_t、s_t+1、r_t作为一个完整的片段记录存储到经验回放池中，每次进行模型训练时，从经验回放池D中随机选取N个片段(s_t,a_t,r_t,s_t+1)，进而利用梯度下降法，对上述所有的可学习矩阵(包括W₁、W₂、W₃、W₄、W₅、W₆)进行训练学习。

具体地，基于第一样本交互特征向量、第一样本目标车道、第二样本交互特征向量及奖惩函数值，对特征编码模型和车道选择模型进行训练，得到已训练的特征编码模型和已训练的车道选择模型的过程，可采用如下方法：

1041、调用车道选择模型，对第一样本交互特征向量和第一样本目标车道进行处理，得到第一样本目标车道对应的第一车道分数。

1042、通过调用车道选择模型对第二样本交互特征向量和t+1时刻样本道路上多个可选车道的车道特征向量进行处理，获取t+1时刻为样本目标车辆选择的第二样本目标车道。

电子设备调用车道选择模型，对第二样本交互特征向量和t+1时刻样本道路上每个可选车道的车道特征向量进行处理，得到t+1时刻样本道路上每个可选车道的车道分数，进而按照ε-贪心算法，采用第一概率，从样本道路上各个可选车道中随机选择一个车道，作为第二样本目标车道，否则，采用第二概率，将t时刻样本道路上车道分数最高的可选车道，作为第二样本目标车道。

1043、基于第二样本交互特征向量、第二样本目标车道及奖惩函数值，确定t时刻第二样本目标车道对应的第二车道分数。

其中，奖惩函数值为基于奖惩函数通过对样本目标车辆切换至第一样本目标车道的行驶过程进行多维度追踪得到的函数值。电子设备基于第二样本交互特征向量、第二样本目标车道及奖惩函数值，采用如下公式，确定t时刻第二样本目标车道对应的第二车道分数：

其中，y_t表示t时刻第二样本目标车道对应的第二车道分数，r_t表示奖惩函数值，s_t+1表示第二样本交互特征向量，γ表示一个已知参数，a`表示第二样本目标车道的车道特征向量。当s_t为终止状态时(比如样本目标车辆已行驶到终点)，设定y_t＝r_t。

1044、将第一车道分数和第二车道分数输入到预先构建的目标损失函数中，得到目标损失函数值。

在执行本步骤之前，需要预先构建一个目标损失函数，该目标损失函数的形式可以为：

loss＝(Q(s_t,a_t)-y_t)²

其中，Q(s_t,a_t)表示第一车道分数，y_t表示第二车道分数。

1045、基于目标损失函数值，对特征编码模型和车道选择模型的模型参数进行调整，得到已训练的特征编码模型和已训练的车道选择模型。

基于目标损失函数值，采用梯度下降方法，调整各个模型参数的参数值，进而基于调整后的模型参数继续计算目标损失函数的函数值，直至计算后的目标损失函数值满足阈值条件。获取满足阈值条件时各个模型参数的参数值，并将满足阈值条件时各个模型参数的参数值所对应的特征编码模型和车道选择模型，作为已训练的特征编码模型和已训练的车道选择模型。其中，阈值条件可根据电子设备的处理能力进行设置。

本申请实施例提供的方法，对t时刻和t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行显示编码，得到t时刻和t+1时刻的样本交互特征向量，该不同时刻的样本交互特征向量能够表征不同时刻样本道路上各个交通参与者之间的交互状态，基于不同时刻的样本交互特征向量和该时刻样本道路上各个可选车道的车道特征向量，为样本目标车辆选择出该时刻的样本目标车道，进而基于不同时刻的样本交互特征向量、对应的样本目标车道及奖惩函数值进行模型训练，采用该种训练方法训练的模型能够学习到不同的交互环境下的换道逻辑。当调用该模型进行换道时，该模型能够根据当前的驾驶场景进行灵活换道。另外，基于该模型所选择的目标车道为综合当前驾驶场景下各个交通参与者的行驶特征向量确定的车道，相比于相关技术中基于简单的换道规则确定的目标车道更为准确。另外，用于模型训练的奖惩函数包括了对待切换的目标车道在安全性、舒适性及行驶效率等方面的奖惩，使得所训练的模型能够保证安全性、舒适性及行车效率的要求，后续车辆切换到该目标车道上行驶时，无论是安全性、舒适性，还是行驶效率方面体验效果均较佳。

本申请实施例提供了一种目标车道确定方法，以电子设备执行本申请实施例为例，该电子设备中安装有上述实施例所训练的特征编码模型和车道选择模型，该电子设备可以为自动驾驶车辆等。参加图5，本申请实施例提供的方法流程包括：

501、获取当前时刻目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量。

当目标车辆在目标道路上行驶时，电子设备实时获取目标车辆的位置信息、行驶速度信息、加速度信息、所在车道信息等，进而基于目标车辆的位置信息，确定目标车道上以该目标车辆为主体的各个交通参与者，该各个交通参与者包括目标车辆、多个第一障碍物及多个第二障碍物，该第一障碍物为目标道路上与目标车辆在预设方向上距离最近的车辆，该第二障碍物为目标道路上与每个第一障碍物在预设方向上距离最近的车辆。电子设备获取当前时刻各个交通餐参与者的位置信息、行驶速度信息、加速度信息、所在车道信息等，进而基于获取到信息生成目标车辆的行驶特征向量。

502、调用已训练的特征编码模型，对目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行编码，得到当前时刻的交互特征向量。

基于当前时刻目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量，电子设备调用已训练的特征编码模型，对目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行编码，得到当前时刻的交互特征向量，该交互特征向量用于表征当前时刻目标道路上各个交通参与者之间的交互状态。

503、调用已训练的车道选择模型，对交互特征向量和当前时刻目标道路上各个可选车道的车道特征向量进行处理，得到目标道路上各个可选车道的车道分数。

基于已训练的特征编码模型编码得到的交互特征向量，电子设备调用已训练的车道选择模型，对交互特征向量和当前时刻目标道路上各个可选车道的车道特征向量进行处理，得到目标道路上各个可选车道的车道分数。

504、将目标道路上车道分数最大的可选车道确定为待切换的目标车道。

进一步地，当为目标车辆确定出待切换的目标车道之后，电子设备规划一条从当前位置行驶至目标车道中心线位置的路径，进而按照该路径行驶，以切换到目标车道，完成换道。

图6示出了申请实施例提供的目标车道确定方法的逻辑图，参见图6，当目标车车辆在目标车道上行驶过程中，电子设备基于高精度地图、感知模块及预测模块获取的目标车道上以目标车辆为主体的各个交通参与者的信息，进而对各个交通参与者进行的交互关系进行建模，通过执行换道策略，确定待切换的目标车辆，进而基于轨迹规则规划一条行车路径，通过控制目标车辆按照该行车路径行驶，完成换道。

本申请实施例提供的方法，通过调用已训练的特征编码模型，对目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行显示编码，得到交互特征向量，进而调用已训练的车道选择模型，对交互特征向量和当前时刻目标道路上各个可选车道的车道特征向量进行处理，从中选择出目标车道。由于该交互特征向量综合了当前驾驶场景下各个交通参与者的行驶特征向量，能够表征当前时刻以目标车辆为主体的各个交通参与者的交互状态，因而采用该种方法确定的目标车道更准确，当将目标车辆切换到该目标车道上行驶时，无论是安全性、舒适性，还是行驶效率方面体验效果均较佳。

参见图7，本申请实施例提供了一种提供了一种用于换道决策的模型训练装置，用于换道决策的模型包括特征编码模型和车道选择模型，该装置可以通过软件或硬件或两者相结合实现，成为点设备的全部或一部分。该装置包括：

编码模块701，用于调用特征编码模型，分别对t时刻和t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行编码，得到t时刻的第一样本交互特征向量和t+1时刻的第二样本交互特征向量，该交通参与者为样本道路上影响样本目标车辆换道的车辆，该第一样本交互特征向量和第二样本交互特征向量分别表征t时刻和t+1时刻样本道路上各个交通参与者之间的交互状态；

获取模块702，用于通过调用车道选择模型对第一样本交互特征向量和t时刻样本道路上各个可选车道的车道特征向量进行处理，获取t时刻为样本目标车辆选择的第一样本目标车道；

训练模块703，用于基于第一样本交互特征向量、第一样本目标车道、第二样本交互特征向量及奖惩函数值，对特征编码模型和车道选择模型进行训练，得到已训练的特征编码模型和已训练的车道选择模型，该奖惩函数值为通过对样本目标车辆切换至第一样本目标车道的行驶过程进行多维度追踪得到的函数值，该已训练的特征编码模型用于对目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行编码，得到交互特征向量，该已训练的车道选择模型用于基于交互特征向量和目标道路上各个可选车道的车道特征向量，从目标道路上各个可选车道中选择出目标车道。

在本申请的另一个实施例中，t时刻样本道路上以样本目标车辆为主体的各个交通参与者包括样本目标车辆、多个第一样本障碍物及多个第二样本障碍物，第一样本障碍物为t时刻样本道路上与样本目标车辆在预设方向上距离最近的车辆，第二样本障碍物为t时刻样本道路上与第一样本障碍物在预设方向上距离最近的车辆；

编码模块701，用于调用特征编码模型，对t时刻样本目标车辆的样本行驶特征向量和多个第一样本障碍物的样本行驶特征向量进行编码，得到t时刻样本目标车辆的第一隐式表征向量；调用特征编码模型，对t时刻每个第一样本障碍物的样本行驶特征向量和对应的多个第二样本障碍物的样本行驶特征向量进行编码，得到t时刻每个第一样本障碍物的第二隐式表征向量；调用特征编码模型，对第一隐式表征向量和多个第一样本障碍物的第二隐式表征向量进行编码，得到第一样本交互特征向量。

在本申请的另一个实施例中，编码模块701，用于调用特征编码模型，对t时刻样本目标车辆的样本行驶特征向量进行编码，得到样本目标车辆的初始第一隐式表征向量；调用特征编码模型，对多个第一样本障碍物的样本行驶特征向量进行编码，得到多个第一样本障碍物的初始第二隐式表征向量；基于初始第一隐式表征向量和多个初始第二隐式表征向量，调用特征编码模型，对初始第一隐式表征向量进行更新，得到第一隐式表征向量。

在本申请的另一个实施例中，编码模块701，用于调用特征编码模型，对每个第一样本障碍物的样本行驶特征向量进行编码，得到每个第一样本障碍物的初始第二隐式表征向量；调用特征编码模型，对多个第二样本障碍物的样本行驶特征向量进行编码，得到多个第二样本障碍物的初始第三隐式表征向量；基于每个初始第二隐式表征向量和多个初始第三隐式表征向量，调用特征编码模型，对每个初始第二隐式表征向量进行更新，得到每个第一样本障碍物的第二隐式表征向量。

在本申请的另一个实施例中，t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者包括样本目标车辆、多个第三样本障碍物及多个第四样本障碍物，第三样本障碍物为t+1时刻样本道路上与样本目标车辆在预设方向上距离最近的车辆，第四样本障碍物为t+1时刻样本道路上与第三样本障碍物在预设方向上距离最近的车辆；

编码模块701，用于调用特征编码模型，对t+1时刻样本目标车辆的样本行驶特征向量和多个第三样本障碍物的样本行驶特征向量进行编码，得到t+1时刻样本目标车辆的第三隐式表征向量；调用特征编码模型，对t+1时刻每个第三样本障碍物的样本行驶特征向量和对应的多个第四样本障碍物的样本行驶特征向量进行编码，得到t+1时刻每个第三样本障碍物的第四隐式表征向量；调用特征编码模型，对第三隐式表征向量和多个第三样本障碍物的第四隐式表征向量进行编码，得到第二样本交互特征向量。

在本申请的另一个实施例中，获取模块702，用于调用车道选择模型，对第一样本交互特征向量和t时刻样本道路上每条可选车道的车道特征向量进行处理，得到t时刻样本道路上每条可选车道的车道分数；采用第一概率，从样本道路上各个可选车道中随机选择一个车道，作为第一样本目标车道；或者，采用第二概率，将t时刻样本道路上车道分数最高的可选车道，作为第一样本目标车道，第一概率和第二概率之和为1，且第二概率大于第一概率。

在本申请的另一个实施例中，训练模块703，用于调用车道选择模型，对第一样本交互特征向量和第一样本目标车道进行处理，得到第一样本目标车道对应的第一车道分数；调用车道选择模型，对第二样本交互特征向量和t+1时刻样本道路上多个可选车道的车道特征向量进行处理，得到t+1时刻为样本目标车辆选择的第二样本目标车道；基于第二样本交互特征向量、第二样本目标车道及奖惩函数值，确定第二样本目标车道对应的第二车道分数；将第一车道分数和第二车道分数输入到预先构建的目标损失函数中，得到目标损失函数值；基于目标损失函数值，对特征编码模型和车道选择模型的模型参数进行调整，得到已训练的特征编码模型和已训练的车道选择模型。

本申请实施例提供的装置，对t时刻和t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者的样本行驶特征向量进行显示编码，得到t时刻和t+1时刻的样本交互特征向量，该不同时刻的样本交互特征向量能够表征不同时刻样本道路上各个交通参与者之间的交互状态，基于不同时刻的样本交互特征向量和该时刻样本道路上各个可选车道的车道特征向量，为样本目标车辆选择出该时刻的样本目标车道，进而基于不同时刻的样本交互特征向量、对应的样本目标车道及奖惩函数值进行模型训练，采用该种训练方法训练的模型能够学习到不同的交互环境下的换道逻辑。当调用该模型进行换道时，该模型能够根据当前的驾驶场景进行灵活换道。另外，基于该模型所选择的目标车道为综合当前驾驶场景下各个交通参与者的行驶特征向量确定的车道，相比于相关技术中基于简单的换道规则确定的目标车道更为准确。

参见图8，本申请实施例提供了一种目标车道确定装置，该装置内安装有上述实施例所训练的特征编码模型和车道选择模型。该装置可以通过软件或硬件或两者相结合实现，成为点设备的全部或一部分，该装置包括：

获取模块801，用于获取当前时刻目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量；

编码模块802，用于调用已训练的特征编码模型，对目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行编码，得到当前时刻的交互特征向量；

处理模块803，用于调用已训练的车道选择模型，对交互特征向量和当前时刻目标道路上各个可选车道的车道特征向量进行处理，得到目标道路上各个可选车道的车道分数；

确定模块804，用于将目标道路上车道分数最大的可选车道确定为待切换的目标车道。

综上所述，本申请实施例提供的装置，通过调用已训练的特征编码模型，对目标道路上以目标车辆为主体的各个交通参与者的行驶特征向量进行显示编码，得到交互特征向量，进而调用已训练的车道选择模型，对交互特征向量和当前时刻目标道路上各个可选车道的车道特征向量进行处理，从中选择出目标车道。由于该交互特征向量综合了当前驾驶场景下各个交通参与者的行驶特征向量，能够表征当前时刻以目标车辆为主体的各个交通参与者的交互状态，因而采用该种方法确定的目标车道更准确，当将目标车辆切换到该目标车道上行驶时，无论是安全性、舒适性，还是行驶效率方面体验效果均较佳。

图9示出了本申请一个示例性实施例提供的一种电子设备900的结构框图。通常，电子设备900包括有：处理器901和存储器902。

处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable LogicArray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是CD-ROM(Compact Disc Read-Only Memory，只读光盘)、ROM、RAM(Random AccessMemory，随机存取存储器)、磁带、软盘和光数据存储设备等。该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序被执行时能够实现上述用于车道决策的模型训练方法，或实现上述目标车道确定方法。

当然，上述电子设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。输入/输出接口为处理器和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信等。

本领域技术人员可以理解，图9中示出的结构并不构成对电子设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序被处理器执行时能够实现上述用于换道决策的模型训练方法，或实现上述目标车道确定方法。

本申请中的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备、核心网设备、OAM或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘；还可以是半导体介质，例如，固态硬盘。该计算机可读存储介质可以是易失性或非易失性存储介质，或可包括易失性和非易失性两种类型的存储介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用于换道决策的模型训练方法，其特征在于，所述用于换道决策的模型包括特征编码模型和车道选择模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述t时刻样本道路上以样本目标车辆为主体的各个交通参与者包括所述样本目标车辆、多个第一样本障碍物及多个第二样本障碍物，所述第一样本障碍物为t时刻所述样本道路上与所述样本目标车辆在预设方向上距离最近的车辆，所述第二样本障碍物为t时刻所述样本道路上与所述第一样本障碍物在所述预设方向上距离最近的车辆；

3.根据权利要求2所述的方法，其特征在于，所述调用所述特征编码模型，对t时刻所述样本目标车辆的样本行驶特征向量和多个所述第一样本障碍物的样本行驶特征向量进行编码，得到t时刻所述样本目标车辆的第一隐式表征向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述调用所述特征编码模型，对t时刻每个所述第一样本障碍物的样本行驶特征向量和对应的多个所述第二样本障碍物的样本行驶特征向量进行编码，得到t时刻每个所述第一样本障碍物的第二隐式表征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述t+1时刻样本道路上以样本目标车辆为主体的各个交通参与者包括所述样本目标车辆、多个第三样本障碍物及多个第四样本障碍物，所述第三样本障碍物为t+1时刻所述样本道路上与所述样本目标车辆在预设方向上距离最近的车辆，所述第四样本障碍物为t+1时刻所述样本道路上与所述第三样本障碍物在所述预设方向上距离最近的车辆；

6.根据权利要求1所述的方法，其特征在于，所述通过调用所述车道选择模型对所述第一样本交互特征向量和t时刻所述样本道路上各个可选车道的车道特征向量进行处理，获取t时刻为所述样本目标车辆选择的第一样本目标车道，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一样本交互特征向量、所述第一样本目标车道、所述第二样本交互特征向量及奖惩函数值，对所述特征编码模型和所述车道选择模型进行训练，得到已训练的特征编码模型和已训练的车道选择模型，包括：

通过调用所述车道选择模型对所述第二样本交互特征向量和t+1时刻样本道路上多个可选车道的车道特征向量进行处理，获取t+1时刻为所述样本目标车辆选择的第二样本目标车道；

8.一种目标车道确定方法，其特征在于，所述方法应用于权利要求1至7中任一项所训练的特征编码模型和车道选择模型，所述方法包括：

9.一种用于换道决策的模型训练装置，其特征在于，所述用于换道决策的模型包括特征编码模型和车道选择模型，所述装置包括：

10.一种目标车道确定装置，其特征在于，所述装置内安装有权利要求1至7中任一项所训练的特征编码模型和车道选择模型，所述装置包括：

11.一种电子设备，其特征在于，所述电子设备包括存储器及处理器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至7中任一项所述的用于换道决策的模型训练方法，或实现权利要求8所述的目标车道确定方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序被处理器执行时能够实现如权利要求1至7中任一项所述的用于换道决策的模型训练方法，或实现权利要求8所述的目标车道确定方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时能够实现如1至7中任一项所述的用于换道决策的模型训练方法，或实现权利要求8所述的目标车道确定方法。