CN115981302A

CN115981302A - 车辆跟驰换道行为决策方法、装置及电子设备

Info

Publication number: CN115981302A
Application number: CN202211420684.1A
Authority: CN
Inventors: 李勇; 张国祯; 李中阳; 高昌正
Original assignee: Beijing Qingpeng Intelligent Technology Co ltd
Current assignee: Beijing Qingpeng Intelligent Technology Co ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-04-18

Abstract

本发明提供一种车辆跟驰换道行为决策方法、装置、电子设备和存储介质，该方法涉及计算机技术领域，包括：获取至少一个车辆在当前时刻的初始状态信息；初始状态信息包括位置信息、速度和加速度；基于各车辆的位置信息、速度和加速度，确定各车辆分别对应的邻接图；将各邻接图输入至车辆跟驰换道行为决策模型，得到车辆跟驰换道行为决策模型输出的各车辆在下一时刻的目标状态信息；车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的，目标状态信息表示各车辆的横向加速度和纵向加速度，实现了准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

Description

车辆跟驰换道行为决策方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种车辆跟驰换道行为决策方法、装置及电子设备。

背景技术

交通流模拟是指建模车辆驾驶行为的一种技术，在开发更安全、更有效的交通系统中起着重要的作用，在交通流量分析、控制、优化等方面有多种应用。例如，城市管理者想要缓解城市交通拥堵，可以利用设计良好的交通模拟器来分析和理解拥堵的原因，并制定有针对性的政策并进一步预测策略如何与模拟器一起工作，并对其进行迭代优化。此外，交通流模拟器也是强化学习算法的试验台，其模拟的真实性是保证下游应用性能的关键。

车辆驾驶行为包括跟驰行为和换道行为，其中，跟驰行为是指行驶在当前车道的车辆根据前方位于同一车道车辆的行驶状态来调整行驶速度的纵向驾驶行为；换道行为是指行驶在车辆为了保证行驶安全或者追求更好的驾驶体验从当前车道转向另一个车道的横向驾驶行为。基于这两种驾驶行为，目前的车流模拟方法主要分为两类：动力学模型和数据驱动模型。

动力学模型一般是将行驶的车辆视为一种自动化的粒子，基于人类关于驾驶行为的认知设定一些先验假设，并根据这些假设利用高度简化的物理方程模拟驾驶者的决策。数据驱动模型则是使用机器学习或其它一些数据挖掘方法，通过从大量车辆行驶轨迹数据中提取特征来训练模型，进而由训练好的模型决策车辆下一步的驾驶行为。

然而，目前的车流模拟方法忽略了车辆行驶过程中与周围车辆的交互行为，而且大多只是对两种驾驶行为进行独立建模后再组合在一起，忽略了跟驰行为和换道行为之间的相关性，导致车辆跟驰换道时决策的预测精度低。

发明内容

本发明提供一种车辆跟驰换道行为决策方法、装置及电子设备，用以解决现有技术中车辆跟驰换道时决策的预测精度低的缺陷，实现准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

本发明提供一种车辆跟驰换道行为决策方法，包括：

获取至少一个车辆在当前时刻的初始状态信息；所述初始状态信息包括位置信息、速度和加速度；

基于各所述车辆的所述位置信息、所述速度和所述加速度，确定各所述车辆分别对应的邻接图；

将各所述邻接图输入至车辆跟驰换道行为决策模型，得到所述车辆跟驰换道行为决策模型输出的各所述车辆在下一时刻的目标状态信息；所述车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的，所述目标状态信息表示各所述车辆的横向加速度和纵向加速度。

根据本发明提供的一种车辆跟驰换道行为决策方法，所述车辆跟驰换道行为决策模型包括决策模块和执行模块；所述将各所述邻接图输入至车辆跟驰换道行为决策模型，得到所述车辆跟驰换道行为决策模型输出的各所述车辆在下一时刻的目标状态信息，包括：

将各所述邻接图输入至所述决策模块，得到所述决策模块输出的各所述车辆的决策结果；所述决策结果表示多个车道在下一时刻作为目标车道的概率；

将所述决策结果输入至所述执行模块，得到所述执行模块输出的各所述车辆的在下一时刻的目标状态信息。

根据本发明提供的一种车辆跟驰换道行为决策方法，所述决策模块包括效用函数单元、安全函数单元和综合决策单元；

所述将各所述邻接图输入至所述决策模块，得到所述决策模块输出的各所述车辆的决策结果，包括：

将各所述邻接图输入至所述效用函数单元，得到所述效用函数单元输出的各所述车辆分别在各所述车道行驶时的满意度；

将各所述邻接图输入至所述安全函数单元，得到所述安全函数单元输出的各所述车辆分别在各所述车道行驶时的安全评估值；

将所述满意度和所述安全评估值输入至所述综合决策单元，得到所述综合决策单元输出的各所述车辆的决策结果。

根据本发明提供的一种车辆跟驰换道行为决策方法，所述将所述决策结果输入至所述执行模块，得到所述执行模块输出的各所述车辆在下一时刻的目标状态信息，包括：

对所述决策结果进行解析，得到各所述车辆分别在各所述车道行驶时的概率；

选择概率最大的车道作为目标车道；

基于所述目标车道，确定各所述车辆在下一时刻的目标状态信息。

根据本发明提供的一种车辆跟驰换道行为决策方法，所述将各所述邻接图输入至所述效用函数单元，得到所述效用函数单元输出的各所述车辆分别在各所述车道行驶时的满意度，包括：

基于各所述邻接图，确定各所述车辆在各所述车道行驶时的加速度预测值；

基于所述加速度预测值，确定各所述车辆在各所述车道的效用评估值；

对所述效用评估值进行归一化，得到各所述车辆分别在各所述车道行驶时的满意度。

根据本发明提供的一种车辆跟驰换道行为决策方法，所述将各所述邻接图输入至所述安全函数单元，得到所述安全函数单元输出的各所述车辆分别在各所述车道行驶时的安全评估值，包括：

基于各所述邻接图，分别计算各所述车辆的自身注意力分数以及各所述车辆与至少一个相邻车辆之间的相邻注意力分数；

基于所述自身注意力分数和所述相邻注意力分数，确定各所述车辆分别对应的聚合特征；

基于所述聚合特征，确定各所述车辆分别在各所述车道行驶时的安全评估值。

根据本发明提供的一种车辆跟驰换道行为决策方法，所述将所述满意度和所述安全评估值输入至所述综合决策单元，得到所述综合决策单元输出的各所述车辆的决策结果，包括：

将所述满意度和所述安全评估值相乘，得到各所述车辆的决策结果。

根据本发明提供的一种车辆跟驰换道行为决策方法，所述基于所述目标车道，确定各所述车辆在下一时刻的目标状态信息，包括：

基于所述目标车道，采用加速度预测模型得到各所述车辆在下一时刻的纵向加速度；

在所述目标车道发送改变的情况下，确定各所述车辆在下一时刻的横向加速度。

本发明还提供一种车辆跟驰换道行为决策装置，包括：

获取模块，用于获取至少一个车辆在当前时刻的初始状态信息；所述初始状态信息包括位置信息、速度和加速度；

确定模块，用于基于各所述车辆的所述位置信息、所述速度和所述加速度，确定各所述车辆分别对应的邻接图；

行为决策模块，用于将各所述邻接图输入至车辆跟驰换道行为决策模型，得到所述车辆跟驰换道行为决策模型输出的各所述车辆在下一时刻的目标状态信息；所述车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的，所述目标状态信息表示各所述车辆的横向加速度和纵向加速度。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述车辆跟驰换道行为决策方法方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述车辆跟驰换道行为决策方法方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述车辆跟驰换道行为决策方法方法。

本发明提供的车辆跟驰换道行为决策方法、装置及电子设备，通过获取至少一个车辆在当前时刻的初始状态信息；初始状态信息包括位置信息、速度和加速度；再根据每个车辆的位置信息、速度和加速度，确定每个车辆分别对应的邻接图；将各邻接图输入至车辆跟驰换道行为决策模型，得到车辆跟驰换道行为决策模型输出的各车辆在下一时刻的目标状态信息；车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的，目标状态信息表示各车辆的横向加速度和纵向加速度，实现了对下一时刻各车辆的目标状态信息的预测，从而实现准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的车辆跟驰换道行为决策方法的流程示意图之一；

图2是本发明提供的车辆跟驰换道行为决策方法的流程示意图之二；

图3是本发明提供的车辆跟驰换道行为决策方法的框架示意图；

图4是本发明提供的加速度预测模型的结构示意图；

图5是本发明提供的决策模块的结构示意图；

图6是本发明提供的车辆跟驰换道行为决策装置的结构示意图；

图7是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明的车辆跟驰换道行为决策方法。

图1是本发明提供的车辆跟驰换道行为决策方法的流程示意图之一，如图1所示，该方法包括步骤101-步骤103；其中，

步骤101，获取至少一个车辆在当前时刻的初始状态信息；所述初始状态信息包括位置信息、速度和加速度。

需要说明的是，本发明提供的车辆跟驰换道行为决策方法适用于车辆驾驶的应用场景中，例如，自动驾驶场景或者交通流模拟场景；其中，在自动驾驶场景中，可以根据当前时刻每一个车辆的位置信息、速度和加速度，准确预测下一时刻各车辆的横向加速度和纵向加速度，使得车辆能够安全自动驾驶；在交通流模拟场景中，可以根据某一段路网中多个车辆的行驶轨迹数据对该段路网交通流进行模拟，即模拟不同条件下该段路网的交通流变化情况。该方法的执行主体可以为车辆跟驰换道行为决策装置，例如电子设备、或者该车辆跟驰换道行为决策装置中的用于执行车辆跟驰换道行为决策方法的控制模块。

具体地，可以通过摄像头或者激光雷达等方式采集多个车辆在当前时刻的初始状态信息，其中，初始状态信息包括位置信息、速度和加速度。以摄像头采集方式为例，根据摄像头可以采集视频，再使用目标检测等算法对视频进行处理，以路口或其它位置作为参考原点，得到视频当前帧中每个车辆在当前路段中的位置信息，再根据每个车辆的位置信息可进一步得到每个车辆的速度以及加速度。

步骤102，基于各所述车辆的所述位置信息、所述速度和所述加速度，确定各所述车辆分别对应的邻接图。

具体地，由于车辆的驾驶行为由车辆的自身状态与驾驶环境，即周围车辆的行驶状态和道路状态(车道的宽度和曲率等)共同决定，而道路状态相对比较稳定，即在一定时间范围内道路状态可以作为常量，因此可以重点关注周围车辆的行驶状态。

在车辆行驶过程中，车辆与周围车辆的交互可以看作是一种信息传播，即周围车辆的行驶状态作为一种信息可以被车辆的驾驶者获取，例如，通过后视镜等观察方式获取。因此，可以通过构建邻接图表示车辆与周围车辆的交互行为，其中，当前车辆和周围车辆是邻接图的节点，各节点的特征为各车辆的当前行驶状态，而且周围车辆节点只与当前车辆节点连边，边的权重设为1。

由于距离较远的周围车辆对当前车辆驾驶行为的影响是非常有限的，而且当前车辆的驾驶者也难以观测，因此，预设100米范围内距离当前车辆最近的八个车辆作为当前车辆的邻居车辆，该八个车辆的位置分别为当前车辆的正前方、正后方、左前方、左后方、左侧方、右前方、右侧方以及右后方。在车流密度较低时，如果邻居车辆不足八个车辆，对应位置缺失的车辆则视为无效节点，边的权重设为0。

邻接图的数量与当前时刻的路段中现存的车辆数目一致，即对每一个车辆均构建了一个邻接图，且邻接图为时变图，即邻接图中的节点和边，以及各节点的特征都在动态变化之中。因此，在车辆驾驶过程中，每一个车辆对应的邻接图是动态更新的。从而，可以根据各车辆在每一时刻的位置信息、速度和加速度，确定每个车辆分别对应的邻接图。

步骤103，将各所述邻接图输入至车辆跟驰换道行为决策模型，得到所述车辆跟驰换道行为决策模型输出的各所述车辆在下一时刻的目标状态信息；所述车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的，所述目标状态信息表示各所述车辆的横向加速度和纵向加速度。

具体地，将每个车辆的邻接图输入至车辆跟驰换道行为决策模型，可以得到车辆跟驰换道行为决策模型输出的各车辆在下一时刻的目标状态信息；目标状态信息表示各车辆的横向加速度和纵向加速度，即下一时刻各车辆的横向和纵向行为。车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的。样本状态信息为每个车辆在当前时刻的位置、速度和加速度等信息，标签数据为每个车辆在下一时刻的加速度，即将每个车辆在下一时刻的加速度作为标签数据。

实际中，在车辆跟驰换道行为决策模型的训练过程中，通过获取训练数据集对车辆跟驰换道行为决策模型进行训练，其中，训练过程中训练数据集是通过可通过摄像头或者激光雷达等方式采集某段道路上某一时间范围内多个车辆的行驶轨迹数据，再根据每个车辆的行驶轨迹数据可以得到每一时刻每一个车辆的位置、速度、加速度以及各车辆的周围其他车辆的位置、速度、加速度。每个车辆在下一时刻的加速度为预测目标以及标签数据。

由于每个车辆在行驶的过程中，换道行为的总体比例很小，而且采集的行驶轨迹数据中存在噪声干扰，因此，得到的多个时刻的横向位置偏移并非是车辆进行换道，而是行驶轨迹数据中的噪声。为了消除噪声的干扰，对车辆的横向行为的标签进行离散化处理，只标注车辆是否换道以及换道的方向，即对不换道标注0，向左换道标注1，向右换道标注2；其中，换道行为标注的时间范围是从换道开始到车辆跨过车道线。通过以上对车辆的行驶轨迹数据进行数据处理并构建训练数据集，按照时间比例3：1：1构建训练集、验证集和测试集。

在得到车辆跟驰换道行为决策模型输出的各车辆在下一时刻的目标状态信息之后，可以对各车辆的邻接图进行实时更新，以使车辆跟驰换道行为决策模型对下一时刻的下一时刻各车辆的加速度进行预测，从而得到各车辆在每一时刻的目标状态信息。

具体来说，交通流模拟可以表示为：给定路段R与时间T，时间以及车辆的数量N，每一个车辆的初始状态信息为

其中，

即i表示第i个车辆，length_i表示第i个车辆的长度，weight_i表示第i个车辆的宽度，

表示第i个车辆初始的横向位置，

表示第i个车辆初始的纵向位置，

表示第i个车辆初始的速度，

表示第i个车辆初始的加速度。length_i和weight_i是常量，

和

是随时间变化的变量。由于车辆在实际行驶过程中，存在车辆从道路入口汇入或者道路出口离开，因此，在每一时刻t，路段中现存的车辆数量为M(M≤N)，车辆跟驰换道行为决策模型在每一时刻t的输出即为当前所有现存车辆的行驶状态S_t＝[S_j,t,...,S_k,t]，j,k∈[0,N-1]，t表示第t时刻，S_j,t和S_k,t均表示车辆在每一时刻t的状态信息。

车辆跟驰换道行为决策模型的训练过程使用单步训练的方式，即车辆跟驰换道行为决策模型仅输出下一时刻车辆的纵向状态信息和横向状态状态信息，其中，纵向状态信息为纵向加速度，横向状态状态信息为离散化的横向行为的标签数据。同时，车辆跟驰换道行为决策模型训练时使用了参数搜索的方式对超参数进行搜索调优，其中，超参数包括学习率、神经网络的层数、神经元数量以及损失权重，训练使用的优化器是亚当(Adam)优化器，对神经网络中各层的参数进行更新。

本发明提供的车辆跟驰换道行为决策方法，通过获取至少一个车辆在当前时刻的初始状态信息；初始状态信息包括位置信息、速度和加速度；再根据每个车辆的位置信息、速度和加速度，确定每个车辆分别对应的邻接图；将各邻接图输入至车辆跟驰换道行为决策模型，得到车辆跟驰换道行为决策模型输出的各车辆在下一时刻的目标状态信息；车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的，目标状态信息表示各车辆的横向加速度和纵向加速度，实现了对下一时刻各车辆的目标状态信息的预测，从而实现准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

图2是本发明提供的车辆跟驰换道行为决策方法的流程示意图之二，如图2所示，该方法包括步骤201-步骤104；其中，

步骤201，获取至少一个车辆在当前时刻的初始状态信息；所述初始状态信息包括位置信息、速度和加速度。

步骤202，基于各所述车辆的所述位置信息、所述速度和所述加速度，确定各所述车辆分别对应的邻接图。

需要说明的是，关于步骤201-202的说明和解释，可以参照上述针对步骤101-102的说明和解释，且能达到相同的技术效果，为避免重复，这里不再赘述。

步骤203，将各所述邻接图输入至所述决策模块，得到所述决策模块输出的各所述车辆的决策结果；所述决策结果表示多个车道在下一时刻作为目标车道的概率。

具体地，将各车辆对应的邻接图输入至决策模块，可以得到决策模块输出的各车辆的决策结果；其中，决策结果表示多个车道在下一时刻作为目标车道的概率，即车辆行驶在多个车道时驾驶者对当前行驶状态的满意度和安全评估的综合决策结果。

步骤204，将所述决策结果输入至所述执行模块，得到所述执行模块输出的各所述车辆的在下一时刻的目标状态信息。

具体地，将决策结果输入至执行模块，可以得到执行模块输出的各车辆的在下一时刻的目标状态信息。

本发明提供的车辆跟驰换道行为决策方法，通过将各车辆分别对应的邻接图输入至决策模块，得到决策模块输出的各车辆的决策结果；决策结果表示多个车道在下一时刻作为目标车道的概率；将决策结果输入至执行模块，得到执行模块输出的各车辆的在下一时刻的目标状态信息。通过决策模块和执行模块，实现了对各车辆在下一时刻的目标状态信息的预测，从而实现准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

可选地，所述决策模块包括效用函数单元、安全函数单元和综合决策单元；上述步骤203的具体实现方式包括：

步骤1)将各所述邻接图输入至所述效用函数单元，得到所述效用函数单元输出的各所述车辆分别在各所述车道行驶时的满意度。

具体地，效用函数单元采用智能驾驶者模型(Intell-igent driver model，IDM)与残差神经网络(Residual Neural Network，ResNet),对各车辆在各车道行驶时的满意度进行预测，从而得到效用函数单元输出的各车辆分别在各车道行驶时的满意度，即驾驶者对车辆行驶在各车道的当前行驶状态的满意度E_u。

步骤2)将所述邻接图输入至所述安全函数单元，得到所述安全函数单元输出的各所述车辆分别在各所述车道行驶时的安全评估值。

具体地，安全函数单元采用基于注意力机制构建的残差神经网络，对各车辆分别在各车辆行驶时的安全性进行评估，从而得到安全函数单元输出的各车辆分别在各车道行驶时的安全评估值E_s。

步骤3)将所述满意度和所述安全评估值输入至所述综合决策单元，得到所述综合决策单元输出的各所述车辆的决策结果。

具体地，综合决策单元由神经网络构成，将满意度和安全评估值输入至综合决策单元，综合决策单元对各车辆分别在各车道行驶时的满意度和安全评估值进行综合决策，得到综合决策单元输出的各车辆的决策结果d，决策结果表示各车辆在下一时刻分别将各车道作为目标车道的概率。

本发明提供的车辆跟驰换道行为决策方法，通过将各邻接图输入至效用函数单元，得到效用函数单元输出的各车辆分别在各车道行驶时的满意度；将邻接图输入至安全函数单元，得到安全函数单元输出的各车辆分别在各车道行驶时的安全评估值；再将满意度和安全评估值输入至综合决策单元，得到综合决策单元输出的各车辆的决策结果，通过效用函数单元、安全函数单元和综合决策单元，实现了对各车辆分别在各车道行驶时的综合决策，进而可以对各车辆在下一时刻的目标状态信息的预测，从而实现准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

可选地，上述步骤204的具体实现方式包括：

步骤a)对所述决策结果进行解析，得到各所述车辆分别在各所述车道行驶时的概率。

具体地，决策解析单元对输入的决策结果进行解析，即对决策模块输出的各车辆在下一时刻分别将各车道作为目标车道的概率。对于每个车辆，该车辆行驶的车道为3个，即中间车道、左车道和右车道，因此，决策模块输出的各车辆在下一时刻分别将各车道作为目标车道的概率为3维概率向量。

步骤b)选择概率最大的车道作为目标车道。

具体地，决策解析单元的解析方式采用贪心策略，即选择3维概率向量中最大概率对应的车道作为目标车道。

步骤c)基于所述目标车道，确定各所述车辆在下一时刻的目标状态信息。

具体地，执行模块包括横向行为执行单元、纵向行为执行单元和状态更新单元，其中，纵向行为执行单元由神经网络和动力学方程构成，横向行为执行单元和状态更新单元是由交通流理论构建的动力学方程。基于目标车道的选择结果，通过纵向行为执行模块和横向行为执行单元输出各车辆在下一时刻的具体驾驶行为，驾驶行为包括纵向驾驶行为和横向驾驶行为，即横向加速度和纵向加速度。再根据输出的具体驾驶行为对各车辆分别对应的邻接图进行更新。

本发明提供的车辆跟驰换道行为决策方法，通过对决策结果进行解析，得到各车辆分别在各车道行驶时的概率；选择概率最大的车道作为目标车道；基于目标车道，确定各车辆在下一时刻的目标状态信息，实现了基于对各车辆的决策结果，对各车辆在下一时刻的目标状态信息的预测，从而实现准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

图3是本发明提供的车辆跟驰换道行为决策方法的框架示意图，如图3所示，将各车辆分别对应的邻接图301分别输入至决策模块302中的效用函数单元3021和安全函数单元3022，可以得到效用函数单元3021输出的各车辆分别在各车道行驶时的满意度和安全函数单元3022输出的各车辆分别在各车道行驶时的安全评估值；再将满意度和安全评估值输入至决策模块302中的综合决策单元3023，可以得到综合决策单元3023输出的各述车辆的决策结果；将决策结果输入至执行模块303，执行模块303中的决策解析单元3031对输入的决策结果进行解析，得到各车辆在下一时刻分别将各车道作为目标车道的概率为3维概率向量，采用贪心策略选择3维概率向量中最大概率对应的车道作为目标车道；基于目标车道的选择结果，分别通过纵向行为执行单元3032和横向行为执行单元3033，生成各车辆在下一时刻的具体驾驶行为，驾驶行为包括纵向驾驶行为和横向驾驶行为，即横向加速度a_y和纵向加速度a_x；在确定各车辆在下一时刻的横向加速度和纵向加速度之后，可以对各车辆分别对应的邻接图进行更新，进而确定各车辆分别在每一时刻的目标状态信息。

可选地，上述步骤1)的具体实现方式包括以下步骤：

步骤1-1)基于各所述邻接图，分别确定各所述车辆在各所述车道行驶时的加速度预测值。

需要说明的是，在交通流理论中，效用函数理论是指驾驶者希望行驶在让他效用最大的车道上。效用即为驾驶者对当前行驶状态的满意度，且是以加速度为自变量的函数，一般认为效用与加速度成正比。但是由于人的复杂性，效用和加速度之间并非是简单的线性关系，采用数据驱动的方式可以提高效用函数的完备性。此外，由于效用函数是以加速度为输入的函数，因此对加速度的准确预测是保证效用函数性能的关键。

使用知识-数据联合驱动的方法，即用残差神经网络来学习IDM模型的残差项，在保证模型鲁棒性的同时扩展IDM模型的完备性，大大提升了预测性能。此外，残差神经网络的输入是邻接图中所有节点的特征，包含了周围多个车辆的信息，进一步扩大了模型的感受野。

IDM模型是一个经典的动力学跟驰模型。由于IDM模型在各种车流场景中始终能够保持稳定的性能，且形式简单，便于使用，广泛应用于各种跟驰行为模拟场景中。IDM模型的数学方程形式如下公式(1)所示：

其中，α为敏感系数，δ为加速度指数，v为车辆当前的行驶速度，v₀为当前车辆的期望速度，Δv为当前车辆与当前车辆的前方车辆的速度差，s为当前车辆与当前车辆的前方车辆的距离差；s^*为当前车辆的期望车距，是一个关于车辆行驶速度和速度差的函数，s^*采用公式(2)表示，其中：

其中，s₀为静止安全距离，s₁为比例系数，T为安全车头时距，a_max为车辆的最大加速度，b为车辆的安全减速度。

需要说明的时，在模型训练的过程中，α、δ、v₀、s₀、s₁、T、a_max、b是通过提前标注的参数，使用梯度下降法和训练数据进行参数标定，即在参考范围内对参数进行随机初始化，并逐步优化得到使得拟合结果与真实值的均方误差最小的参数组合。

残差神经网络是为了解决深度神经网络中神经网络层数过多造成梯度爆炸问题以及过拟合现象而提出的神经网络结构，即多层神经网络的输出并不直接输入后续的神经网络层，而是将原始输入与当前的输出相加作为新的输入再进行后续的运算，让网络层数足够深的同时仍然能保持足够丰富的特征内容，大大提高了网络的特征表达能力，并提高了训练效率。

加速度的预测值采用公式(3)表示，其中：

a_pre＝F_a(X)

＝a_phy+a_res (3)

其中，a_pre为加速度预测值，X是邻接图中所有车辆的节点特征构成的矩阵，F_a(·)表示加速度预测函数，a_phy为IDM模型输出的结果，a_res为残差网络输出的结果。

具体地，根据各车辆的邻接图，采用加速度预测模型可以分别确定各车辆在各车道行驶时的加速度预测值。

图4是本发明提供的加速度预测模型的结构示意图，如图4所示，加速度预测模型包括残差网络和IDM模型，将车辆在当前时刻的初始状态信息401输入至特征拼接模块402，得到车辆在当前时刻的特征矩阵X_m,t，再将特征矩阵X_m,t分别输入至残差网络403和IDM模型404，分别得到残差网络403输出的结果a_res和IDM模型404输出的结果a_phy，将a_res和a_phy输入相加模块405，得到加速度预测值a_pre。

举例如下，以标号为m的车辆为例，该车辆在时刻t的特征矩阵X_m,t采用公式(4)所示：

其中，(·||·)表示向量拼接，s_m,t表示车辆m的初始状态信息，s_i,t表示第i个车辆的初始状态信息，t表示第t个时刻，m₁,...,m₈表示车辆m周围的邻居车辆，如存在缺失车辆，则用0补充。

车辆m在t+1时刻在当前车道c行驶时的加速度预测值a_m,t+1,c采用公式(5)表示，其中：

a_m,t+1,c＝F_a(X_m,t) (5)

由于在效用函数理论中，驾驶者希望行驶在效用最大的车道上，因此，神经网络效用函数的输出是对不同车道上效用的评估。由于驾驶者的观测范围一般只有三条车道(当前车道，左车道和右车道)，因此，只考虑对当前车道，左车道和右车道等三条车道的效用进行评估。由于驾驶者并没有行驶在左车道和右车道上，使用加速度预测模型估计车辆在左车道和右车道的期望加速度。

与预测当前车道加速度不同的是，加速度预测模型的输入不再是当前时刻车辆的真实特征，而是假定将车辆分别平移到左车道和右车道中，重新构建新的邻接图，将新的邻接图输入加速度预测模型，分别得到左车道和右车道的期望加速度。

例如，车辆m平移到左车道的特征矩阵X_m′,t和平移到右车道的特征矩阵X_m″,t分别采用公式(6)和公式(7)表示，其中：

其中，m′₁,...,m′₈表示车辆m平移到左侧车道后的邻居车辆，m'表示车辆m平移到左侧车道后的车辆，s_m′,t为车辆m平移后新的节点特征(x_m,t替换为左侧车道的中心线横向坐标，其余特征不变)，

表示车辆m平移到左侧车道后的邻居车辆的初始状态信息；m″₁,...,m″₈表示车辆m平移到右侧车道后的邻居车辆，s_m″,t为车辆m平移后新的节点特征(x_m,t替换为右侧车道的中心线横向坐标，其余特征不变)

表示车辆m平移到右左侧车道后的邻居车辆的初始状态信息。

车辆m在左车道的加速度预测值a_m,t+1,l和右车道的加速度预测值a_m,t+1,r分别采用公式(8)和公式(9)表示，其中：

a_m,t+1,l＝F_a(X_m′,t) (8)

a_m,t+1,r＝F_a(X_m″,t) (9)

需要说明的是，为了进一步提升加速度的预测性能，首先在单独的加速度预测任务中对加速度预测模型进行训练，直至收敛；其中，加速度预测模型训练的损失函数采用公式(10)表示，其中：

Loss＝l₁(a_real,a_pre) (10)

其中，Loss表示计算的损失值，a_real表示加速度的真实值，a_pre表示加速度的预测值。

收敛后的加速度预测模型有两个用途：一是作为效用函数单元中的加速度预测模型；二是加速度预测模型还会作为执行模块的纵向行为执行单元，输出纵向加速度。

步骤1-2)基于所述加速度预测值，确定各所述车辆在各所述车道的效用评估值。

具体地，对各车辆下一时刻在各车道行驶时的加速度预测值进行拼接，再将拼接结果输入残差网络，残差网络采用公式(11)得到各车辆在各车道的效用评估值，其中，

其中，u_m,t表示车辆m在时刻t对于3个车道的效用评估值，u_m,t,l表示左侧车道的效用评估值，u_m,t,c表示当前车道的效用评估值，u_m,t,r表示右侧车道的效用评估值，F_u表示效用评估函数。

步骤1-3)对所述效用评估值进行归一化，得到各所述车辆分别在各所述车道行驶时的满意度。

具体地，为了便于后续处理，残差网络输出的效用评估值使用归一化函数(softmax)进行归一化，得到各车辆分别在各车道行驶时的满意度，即归一化目的在于驾驶者可以从效用角度选择3条车道中的某一车道作为目标车道的概率分布。

本发明提供的车辆跟驰换道行为决策方法，通过根据各邻接图分别确定各车辆在各车道行驶时的加速度预测值；再根据加速度预测值确定各车辆在各车道的效用评估值；对效用评估值进行归一化，得到各车辆分别在各车道行驶时的满意度，进而根据满意度确定各车辆在下一时刻的目标状态信息，实现了基于对各车辆的决策结果，对各车辆在下一时刻的目标状态信息的预测，从而实现准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

可选地，上述步骤2)的具体实现方式包括以下步骤：

步骤2-1)基于各所述邻接图，分别计算各所述车辆的自身注意力分数以及各所述车辆与至少一个相邻车辆之间的相邻注意力分数。

需要说明的是，对于每一个驾驶者来说，安全是驾驶者行为决策的最大影响因素。由于IDM模型对跟驰行为有着安全约束，因此，重点关注换道过程即横向行为决策中的安全问题。驾驶者的安全评估过程可以认为是对来自周围车辆的刺激进行的综合判断。由于周围车辆和当前行驶车辆的距离以及速度差异不同，因此周围车辆所带来的刺激也是不同的，这种周围不同车辆带来的刺激差异也可以理解为行驶车辆对周围车辆的一种注意力分布的差异。因此，使用机器学习中的注意力机制对这种刺激进行建模。

具体地，该建模过程分为两步：第一步使用一个线性层将各车辆的节点特征映射到一个更高的维度空间中，第二步以当前行驶车辆自身的高维节点特征作为查询向量，计算当前行驶车辆与周围车辆的节点特征之间的相邻注意力分数，以及当前行驶车辆的自身特征的自身注意力分数。

以车辆m为例进行说明，车辆m与周围车辆的节点特征之间的相邻注意力分数score_m,mk采用公式(12)表示，其中：

其中，s′_m表示映射到高维空间后的车辆m的节点特征，

表示映射到高维空间后的车辆m周围的邻居车辆的节点特征；k＝[1,...,8]。

车辆m的自身特征的自身注意力分数score_m,m采用公式(13)表示，其中：

步骤2-2)基于所述自身注意力分数和所述相邻注意力分数，确定各所述车辆分别对应的聚合特征。

具体地，将得到的自身注意力分数和相邻注意力分数，采用softmax函数表示的公式(14)进行归一化处理，得到注意力分数的分布权重，再根据对各节点特征进行加权求和即可得到各车辆分别对应的聚合特征，其中公式(14)表示为：

其中，n∈G,G＝{m,m₁,...,m₈}。

步骤2-3)基于所述聚合特征，确定各所述车辆分别在各所述车道行驶时的安全评估值。

具体地，由于聚合特征的维度较高，而模型是为了计算三个车道对驾驶者的安全刺激差异(驾驶者会倾向于选择安全刺激最小的车道)，因此，将聚合特征会再输入到一个线性层获得各车辆分别在三个车道行驶时安全刺激评估结果。

举例如下，以车辆m为例，车辆m在三个车道行驶时的安全刺激评估结果Irr_m,t采用公式(15)所示，其中：

Irr_m,t＝[irr_m,t,l,irr_m,t,c,irr_m,t,r]^T＝F_L(s″_m,t) (15)

其中s″_m,t表示车辆m在t时刻的聚合特征，irr_m,t,l表示车辆m在左车道的刺激值，irr_m,t,c表示车辆m在当前车道的刺激值，irr_m,t,r表示车辆m在右车道的刺激值，F_L表示用于维度变化的线性层。

与效用函数单元相同，将各车辆分别在三个车道行驶时安全刺激评估结果采用softmax函数进行归一化处理，从而得到各车辆分别在各车道行驶时的安全评估值，即驾驶者从安全角度下一时刻选择三条车道作为目标车道的概率分布。

本发明提供的车辆跟驰换道行为决策方法，通过基于各邻接图，分别计算各车辆的自身注意力分数以及各车辆与至少一个相邻车辆之间的相邻注意力分数；再根据自身注意力分数和相邻注意力分数，确定各车辆分别对应的聚合特征；基于聚合特征确定各车辆分别在各车道行驶时的安全评估值，进而根据安全评估值确定各车辆在下一时刻的目标状态信息，实现了基于对各车辆的决策结果，对各车辆在下一时刻的目标状态信息的预测，从而实现准确预测车辆跟驰换道时的决策行为，提升了车辆跟驰换道时决策的准确率。

可选地，上述步骤3)的具体实现方式包括：

将满意度和安全评估值相乘，得到各车辆的决策结果。

具体地，由于驾驶者最终的决策结果是关于效用和安全的综合考虑，因此将得到的满意度(效用值)和安全评估值(归一化后的安全刺激评估结果)输入至综合决策单元，综合决策单元将满意度和安全评估值相乘，得到各车辆的决策结果，即最终的行为决策。

实际中，将各车辆的决策结果对应于下一时刻对车道的选择，各车辆的决策结果是一个归一化的三维向量，即3条车道在下一时刻成为目标车道的概率，记为d_pre。

需要说明的是，在模型训练过程中，在对行驶轨迹数据进行处理的过程中已经获得了车道选择的离散化标签d_real，因此，模型训练的优化目标是最小化损失l₂(d_real,d_pre)，其中l₂是交叉熵损失函数，通过不断最小化交叉熵损失函数值，直至交叉熵损失函数值趋于稳定，模型训练结束。

图5是本发明提供的决策模块的结构示意图，如图5所示，效用函数单元根据各车辆的邻接图中各车辆的分别在左车道的特征矩阵X_m',t、当前车道的特征矩阵X_m,t和右车道的特征矩阵X_m”,t，分别采用加速度预测模型可以分别确定各车辆在左车道、当前车道和右车道行驶时的加速度预测值，即车辆在左车道的加速度预测值为a_L、车辆在当前车道的加速度预测值为a_C、车辆在右车道的加速度预测值为a_R。再将各车辆在左车道、当前车道和右车道行驶时的加速度预测值输入至加速度拼接模块，得到加速度拼接结果；再将拼接结果输入残差网络，得到各车辆在各车道的效用评估值；对效用评估值进行归一化，得到各车辆分别在各车道行驶时的满意度E_u。

安全函数单元根据各车辆的邻接图，将车辆m在当前车道的特征矩阵X_m,t输入至线性层，线性层将各车辆的节点特征映射到一个更高的维度空间中，以当前行驶车辆自身的高维节点特征作为查询向量，采用注意力机制计算当前行驶车辆与周围车辆的节点特征之间的相邻注意力分数，以及当前行驶车辆的自身特征的自身注意力分数；将得到的自身注意力分数和相邻注意力分数，采用softmax函数进行归一化处理，得到注意力分数的分布权重，再根据对各节点特征进行加权求和即可得到各车辆分别对应的聚合特征，将聚合特征会再输入到一个线性层获得各车辆分别在三个车道行驶时安全刺激评估结果将各车辆分别在三个车道行驶时安全刺激评估结果采用softmax函数进行归一化处理，从而得到各车辆分别在各车道行驶时的安全评估值E_s。

将满意度E_u和安全评估值E_s输入至综合决策单元，综合决策单元将满意度和安全评估值相乘，得到各车辆的决策结果d。

可选地，所述基于所述目标车道，确定各所述车辆在下一时刻的目标状态信息，包括：

基于所述目标车道，采用加速度预测模型得到各所述车辆在下一时刻的纵向加速度；在所述目标车道发送改变的情况下，确定各所述车辆在下一时刻的横向加速度。

具体地，根据选择的概率最大的车道作为目标车道，在纵向行为方面，采用已经训练好的加速度预测模型，即使用F_a(·)生成车辆在下一时刻的纵向加速度；在横向行为方面，若目标车道不是车辆行驶的当前车道，即目标车道发生更改的情况下，则由公式(16)表示的方程输出车辆的横向速度，其中：

v_x,t+1＝W_lane/t_change (16)

其中，v_x,t+1表示车辆的纵向速度，W_lane表示车道宽度，t_change表示换道时间，换道时间为采集数据中换道时间的平均值，换道方向由目标车道决定。如果目标车道不发生变化，则v_x,t+1＝0。

可选地，根据行为的输出结果对车辆的初始状态信息进行更新，以车辆m为例，更新方式采用公式(17)表示，其中：

其中，dt表示仿真步长，a_m,t+1表示t+1时刻车辆m的纵向加速度，v_m,t+1表示t+1时刻车辆m的横向速度。按照这种更新方式对车辆自身的初始状态信息以及车辆的邻接图进行更新。

本发明提供的车辆跟驰换道行为决策方法，对车辆的跟驰和换道行为进行联合建模，考虑两种行为之间的相互影响以及多个车辆之间的相互交互，在提升决策精度的同时保证车辆跟驰换道行为决策模型的鲁棒性。具体来说，车辆的驾驶行为是由车辆当前的行驶状态和车辆面临的驾驶环境共同决定的，而驾驶环境是一个高度交互的复杂环境，仅靠先验假定(即驾驶者对驾驶行为的认识)或有限的数据难以对影响驾驶决策的因素进行完备描述。此外，驾驶者的驾驶决策来源于对更加舒适或者安全驾驶体验的追求，跟驰和换道行为是一种决策行为的两种执行方式，对两种行为独立建模割裂了这种相关性，也使模拟的真实性大大降低。因此，本发明采取知识-数据联合驱动的方式对跟驰和换道行为进行联合建模，使用经典交通流理论构建模型的主体框架(知识驱动)，并从真实行驶轨迹中提取数据特征对框架进行拓展(数据驱动)，从而给驾驶决策一个更加完备的描述。进一步地，车辆间的交互行为由于复杂性难以用理论概况，而数据驱动的方式仅依赖于交互数据，大大降低了交互行为的建模难度。此外，一方面由于主体框架中的交通理论约束，使得驾驶行为的决策更加规范，大大提高了模型长期模拟的鲁棒性；另一方面，由于机器学习方法强大的特征拟合能力，也让决策精度获得了进一步提升，让车辆跟驰换道行为决策模型在精度和鲁棒性两方面取得了平衡。

下面对本发明提供的车辆跟驰换道行为决策装置进行描述，下文描述的车辆跟驰换道行为决策装置与上文描述的车辆跟驰换道行为决策方法可相互对应参照。

图6是本发明提供的车辆跟驰换道行为决策装置的结构示意图，如图6所示，车辆跟驰换道行为决策装置600包括获取模块601、确定模块602和行为决策模块603；其中，

获取模块601，用于获取至少一个车辆在当前时刻的初始状态信息；所述初始状态信息包括位置信息、速度和加速度；

确定模块602，用于基于各所述车辆的所述位置信息、所述速度和所述加速度，确定各所述车辆分别对应的邻接图；

行为决策模块603，用于将各所述邻接图输入至车辆跟驰换道行为决策模型，得到所述车辆跟驰换道行为决策模型输出的各所述车辆在下一时刻的目标状态信息；所述车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的，所述目标状态信息表示各所述车辆的横向加速度和纵向加速度。

可选地，所述车辆跟驰换道行为决策模型包括决策模块和执行模块；所述行为决策模块603，具体用于：

可选地，所述决策模块包括效用函数单元、安全函数单元和综合决策单元；所述行为决策模块603，具体用于：

将所述邻接图输入至所述安全函数单元，得到所述安全函数单元输出的各所述车辆分别在各所述车道行驶时的安全评估值；

可选地，所述行为决策模块603，具体用于：

选择概率最大的车道作为目标车道；

可选地，所述行为决策模块603，具体用于：

基于各所述邻接图，分别确定各所述车辆在各所述车道行驶时的加速度预测值；

可选地，所述行为决策模块603，具体用于：

图7是本发明提供的一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行车辆跟驰换道行为决策方法，该方法包括：

将各所述邻接图输入至车辆跟驰换道行为决策模型，得到所述车辆跟驰换道行为决策模型输出的各所述车辆在下一时刻的目标状态信息；所述车辆跟驰换道行为决策模型是基于样本状态信息和样本状态信息的标签数据进行训练得到的，所述目标状态信息表示各所述车辆的横向加速度和纵向加速度。。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的车辆跟驰换道行为决策方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的车辆跟驰换道行为决策方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种车辆跟驰换道行为决策方法，其特征在于，包括：

2.根据权利要求1所述的车辆跟驰换道行为决策方法，其特征在于，所述车辆跟驰换道行为决策模型包括决策模块和执行模块；

所述将各所述邻接图输入至车辆跟驰换道行为决策模型，得到所述车辆跟驰换道行为决策模型输出的各所述车辆在下一时刻的目标状态信息，包括：

3.根据权利要求2所述的车辆跟驰换道行为决策方法，其特征在于，所述决策模块包括效用函数单元、安全函数单元和综合决策单元；

4.根据权利要求2所述的车辆跟驰换道行为决策方法，其特征在于，所述将所述决策结果输入至所述执行模块，得到所述执行模块输出的各所述车辆在下一时刻的目标状态信息，包括：

选择概率最大的车道作为目标车道；

5.根据权利要求3所述的车辆跟驰换道行为决策方法，其特征在于，所述将各所述邻接图输入至所述效用函数单元，得到所述效用函数单元输出的各所述车辆分别在各所述车道行驶时的满意度，包括：

6.根据权利要求3所述的车辆跟驰换道行为决策方法，其特征在于，所述将各所述邻接图输入至所述安全函数单元，得到所述安全函数单元输出的各所述车辆分别在各所述车道行驶时的安全评估值，包括：

7.根据权利要求3所述的车辆跟驰换道行为决策方法，其特征在于，所述将所述满意度和所述安全评估值输入至所述综合决策单元，得到所述综合决策单元输出的各所述车辆的决策结果，包括：

8.根据权利要求4所述的车辆跟驰换道行为决策方法，其特征在于，所述基于所述目标车道，确定各所述车辆在下一时刻的目标状态信息，包括：

9.一种车辆跟驰换道行为决策装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述车辆跟驰换道行为决策方法。