CN118343164A

CN118343164A - 一种自动驾驶车辆行为决策方法、系统、设备及存储介质

Info

Publication number: CN118343164A
Application number: CN202410772477.5A
Authority: CN
Inventors: 郑雪龙; 陈雪梅; 刘跃泽; 田奕宏; 肖龙; 董宪元; 沈晓旭; 姚诚达; 高丛政
Original assignee: Shandong Huichuang Information Technology Co ltd; Shandong Weichuang Information Technology Co ltd; Beijing Institute of Technology BIT; Advanced Technology Research Institute of Beijing Institute of Technology
Current assignee: Shandong Huichuang Information Technology Co ltd; Shandong Weichuang Information Technology Co ltd; Beijing Institute of Technology BIT; Advanced Technology Research Institute of Beijing Institute of Technology
Priority date: 2024-06-17
Filing date: 2024-06-17
Publication date: 2024-07-16

Abstract

本发明涉及自动驾驶技术领域，提供了一种自动驾驶车辆行为决策方法、系统、设备及存储介质。该方法包括，对自车状态量和环境车辆状态量进行编码，得到嵌入状态；对环境车辆交互表征量，进行编码，得到特征向量；对嵌入状态、特征向量和上一时刻动作，进行编码，得到嵌入状态动作；基于嵌入状态和特征向量，采用策略网络，得到价值最大的动作，将该动作映射到车辆的油门踏板和控制踏板开度，生成自车下一时刻动作；基于策略网络输出的动作、自车状态量、环境车辆状态量、嵌入状态、特征向量和嵌入状态动作，采用Critic网络，引入价值函数，通过策略梯度方式，更新策略网络参数。

Description

一种自动驾驶车辆行为决策方法、系统、设备及存储介质

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种自动驾驶车辆行为决策方法、系统、设备及存储介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

博弈论是运用交互性解决问题的一种有效模型，其能够允许智能车辆估计人类驾驶员的交互策略并做出响应，在逻辑可见性和应用性上都有良好的效果。人们将博弈论的这种特点应用到自动驾驶车辆在无信号交叉口决策的问题解决上，通过获取博弈的纳什均衡，得到较优策略。博弈论的方法虽然能够考虑交互，但是对环境表征较难约束，随着考虑的车辆数的提升，计算复杂度也随之提升，对计算设备和算法实时性满足提出挑战。

发明内容

为了解决车辆间交互行为存在的不确定性条件下决策问题，本发明提供一种自动驾驶车辆行为决策方法、系统、设备及存储介质，考虑交通环境车辆的交互意图，利用强化学习方法，建立应对交互行为的车辆行为决策模型，通过调整行为决策以安全和效率的驾驶动作完成交互通行。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种自动驾驶车辆行为决策方法。

一种自动驾驶车辆行为决策方法，包括：

获取环境中的自车状态量、环境车辆状态量以及环境车辆交互表征量；

对自车状态量和环境车辆状态量进行编码，得到嵌入状态；对环境车辆交互表征量进行编码，得到特征向量；对嵌入状态、特征向量和当前时刻动作进行编码，得到嵌入状态动作；基于嵌入状态和特征向量，采用策略网络，得到价值最大的动作，将该动作映射到车辆的油门踏板和控制踏板开度，生成自车下一时刻动作；

基于策略网络输出的动作、自车状态量、环境车辆状态量、嵌入状态、特征向量和嵌入状态动作，采用Critic网络，引入价值函数，通过策略梯度方式，更新策略网络参数。

进一步地，所述第一编码模块、第二编码模块和第三编码模块共同构成ISAR模块。

进一步地，所述行为决策方法还包括更新Critic网络参数，包括：基于当前步奖励，确定目标分布；基于嵌入状态、特征向量和当前动作，确定评估分布，根据目标分布与评估分布之间的差值，计算Critic网络的TD误差；基于Critic网络的TD误差，利用最小分位数Huber回归损失计算损失更新Critic网络。

进一步地，所述当前步奖励为：安全性奖励、舒适性奖励、效率性奖励和时间限制的累加和。

进一步地，所述环境车辆状态量包括：环境车辆相对自车位置和环境车辆速度；所述自车状态量包括：自车位置和自车速度。

进一步地，所述环境车辆交互表征量通过引入社会价值模型对环境车辆和自车的交互行为进行表征量化得到。

进一步地，所述环境车辆交互表征量通过以下方式得到：根据自车速度、环境车辆速度以及自车和环境车辆到两者冲突点的距离，确定环境车辆交互表征量。

本发明的第二个方面提供一种自动驾驶车辆行为决策系统。

一种自动驾驶车辆行为决策系统，包括：

数据获取模块，其被配置为：获取环境中的自车状态量、环境车辆状态量以及环境车辆交互表征量；

编码模块，其被配置为：对自车状态量和环境车辆状态量进行编码，得到嵌入状态；对环境车辆交互表征量进行编码，得到特征向量；对嵌入状态、特征向量和当前时刻动作进行编码，得到嵌入状态动作；决策模块，其被配置为：基于嵌入状态和特征向量，采用策略网络，得到价值最大的动作，将该动作映射到车辆的油门踏板和控制踏板开度，生成自车下一时刻动作；

参数更新模块，其被配置为：基于策略网络输出的动作、自车状态量、环境车辆状态量、嵌入状态、特征向量和嵌入状态动作，采用Critic网络，引入价值函数，通过策略梯度方式，更新策略网络参数。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的自动驾驶车辆行为决策方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的自动驾驶车辆行为决策方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明针对交互导致的不确定性下他车交互状态识别困难，自动驾驶车辆难以在保证安全的情况下高效通行问题，提出ISAR-D3PG决策模型。以社会价值导向指标表示环境车辆与自车的交互强度，提出状态动作表征模块，获取环境车辆和自车位置、速度等低维环境的高维表征特征，利用结合值分布的演员评论家强化学习获取奖励分布信息，并做出考虑交互的行为决策，提高行为决策的安全性和效率，避免维度灾难的同时，增强了对环境的特征提取能力。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明示出的虑车辆间交互影响的自动驾驶车辆行为决策方法的流程图；

图2是本发明示出的车辆行为决策模型的架构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

实施例一

如图1所示，本实施例提供了一种自动驾驶车辆行为决策方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

对自车状态量和环境车辆状态量进行编码，得到嵌入状态；对环境车辆交互表征量进行编码，得到特征向量；对嵌入状态、特征向量和上一时刻动作，进行编码，得到嵌入状态动作；其中，对自车状态量和环境车辆状态量进行编码采用ISAR-ZS，对环境车辆交互表征量进行编码采用ISAR-IA，对嵌入状态、特征向量和当前时刻动作进行编码，采用ISAR-ZAS，ISAR-ZS、ISAR-IA和ISAR-ZAS共同构成了考虑交互的状态动作表征模块（ISAR）。

基于嵌入状态和特征向量，采用策略网络，得到价值最大的动作，将该动作映射到车辆的油门踏板和控制踏板开度，生成自车下一时刻动作；其中，策略网络为Actor网络。

本发明提出基于ISAR-D3PG框架强化学习决策模型如图2所示。模型接收环境中自车和环境车辆信息，以及各环境车辆环境交互信息。ISAR模块对上述三种信息进行融合处理，并将处理后的特征向量输入到值分布深度确定性策略梯度（D3PG）。演员网络（Actor）输出价值最大的动作，该动作映射到车辆的油门踏板和控制踏板开度，生成自车下一时刻动作。Actor输出的动作同时输入给评论家网络（Critic），结合ISAR和原始状态输入，获得价值分布，用于更新Actor网络参数。

（1）状态空间由环境车辆状态量、自车状态量、环境车辆SVO组成。环境车辆状态量包括环境车辆相对自车位置、环境车辆速度；自车状态量包括自车位置和自车速度。

S_t={ _，t， _，t， _，t，S_ego，t}；

其中， _，t，i∈{1，2，3}表示t时刻环境车辆状态值，S_ego，t表示t时刻自车状态值。

环境车辆SVO是表示环境车辆交互行为的表征量化。本发明引入社会价值模型（SocialValueOrientation，SVO），对环境车辆和自车的交互进行表征量化。SVO描述了个体对结果的分配情况，用于反映个体的社会偏好，可分为合作主义、个人主义、竞争主义和利他主义。社会价值取向表现为角度偏好φ，一般情况下可以取在[-π，π]区间内，但SVO的某些范围与一般驾驶任务不一致，因此将SVO的值限制为[0，π/2]。对应在自动驾驶领域，φ越大，说明车辆越倾向于做出如让行他车的利他的行为；φ越小，说明车辆越倾向于做出如先行通过路口等利己行为。通过环境车辆不同行为对应的SVO值，模型可以识别环境车辆的不同让行意图。环境车辆的SVO输入为：

SVO_i，t={φ_i}；

其中，i=1，2，3......，φ_i表示第i辆环境车辆最优SVO的角度。

社会互动可以用三角函数来表示：u_f=ucos(φ)+u′sin(φ)。

其中，u_f为最终结果分配情况，u为自我效用，u′为他者效用。

为了最大化u_f，使得结果分配最优，需要确定最优SVO的角度以满足：。

求极值可知的表达式为：

；

自我效用和他者效用根据车辆速度和与到两者冲突点的距离表示。速度反映了车辆的通行效率、争夺路权等一系列驾驶特征和行为，到两者冲突点的距离反映了冲突的激烈程度。最终计算方法表示如下：

u=v/d；

u′=v′/d；

其中，v和v′分别表示自车和环境车辆的车速，d和d′分别表示自车和环境车辆到两者冲突点（两辆车轨迹的交点）的距离。

最终表示为：

；

ISAR模块捕获状态和动作之间的交互信息，实现对低维的环境动态状态表征的加工来学习有意义的特征，应对车车交互环境。同时利用D3PG学习价值函数的分布，获得更多相关信息支持决策。

（2）状态动作表征模块由三部分组成，分别为ISAR-ZS，ISAR-IA，ISAR-ZAS。ISAR-ZS将状态观测值s编码为嵌入状态，ISAR-IA将SVO编码为特征向量，ISAR-ZAS将和动作a编码为嵌入状态动作：

其中，表示全连接网络（FullyConnectednetwork，FC），eLU表示eLU激活函数，a表示当前状态下采取的动作，AvgL1Norm表示归一化层，将输入向量除以每个维度的平均绝对值，进行归一化处理。设为M维向量x的第i维，得到：

；

状态动作表征模块更新通过最小化均方误差实现。因此，使用状态-动作嵌入与下一状态嵌入之间的均方误差(MeanSquaredError，MSE)对SAR进行联合训练：

；

其中，|.|×表示停止迭代操作。

（3）值分布深度确定性策略梯度D3PG

D3PG是一种演员-评论家(Actor-Critic，AC)连续型强化学习算法，在DDPG的基础上引入值分布函数作为评论家，获取价值函数分布。Actor网络π(|)即策略网络用于选择动作，其中为策略网络参数。将ISAR-ZS和ISAR-IA的输出的嵌入状态输入给Actor网络，即可输出动作。

动作输出采用连续的动作空间，车辆在城市环境行驶的加速度平均分布在[-3.53.6]m/s²之间，加速度控制映射到车辆油门踏板和制动踏板执行器上，对于油门踏板和制动踏板控制参数输出为：

A^t={0-50%brake；0-80%throttle}，动作可以表示为={-0.5，0.8}，其中[-0.5，0）表示制动踏板开度，[0，0.8]表示油门踏板开度。

在训练时，动作选取采用ε-贪心算法，线性退火到最小ε值，ε的更新方法如下：

ε=max(1-，mineps)；

其中，frame为当前帧数，eps_frames代表epsilon变化的总帧数，mineps表示设置的参考最小值。

然后慢慢将ε减小到0，更新方法如下：

；

其中，N为设置的总训练帧数。

通过策略梯度方式更新Actor网络：

；

式中，Critic网络即策略网络用于评估状态价值，其中为价值网络参数。Critic网络此处为IQN网络。将状态观测值、嵌入状态、嵌入状态动作输入到网络当中，此外，IQN将均匀分布中采样的分位数τ~U(0，1)输入到网络当中，拟合价值函数即分位数值分布函数。

网络更新即缩短目标分布，即价值函数：

；

以及评估分布：

；

这两个分布之间的距离。其中，代表当前步奖励，done代表回合是否结束标志，代表Critic目标网络，代表Actor目标网络，，分别代表两个目标网络参数，代表Critic评估网络，代表评估网络参数。

奖励R_s+R_comf+R_eff+R_time。

其中，R_s表示安全性奖励，R_comf表示舒适性奖励，R_eff表示效率性奖励，R_time表示时间限制。

。

引入超参数D，D′分别代表估计这两个分布所需要的采样次数，于是有：

，~U(0，1)，1≤i≤D，1≤j≤D′；

计算Critic网络的TD误差：

；

利用最小分位数Huber回归损失计算损失更新Critic评估网络：

；

其中，代表阈值为κ的最小分位数Huber回归损失计算损失。

实施例二

本实施例提供了一种自动驾驶车辆行为决策系统。

一种自动驾驶车辆行为决策系统，包括：

此处需要说明的是，上述数据获取模块、编码模块、决策模块和参数更新模块与实施例一中的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的自动驾驶车辆行为决策方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的自动驾驶车辆行为决策方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自动驾驶车辆行为决策方法，其特征在于，包括：

2.根据权利要求1所述的自动驾驶车辆行为决策方法，其特征在于，所述第一编码模块、第二编码模块和第三编码模块共同构成ISAR模块。

3.根据权利要求1所述的自动驾驶车辆行为决策方法，其特征在于，所述行为决策方法还包括更新Critic网络参数，包括：基于当前步奖励，确定目标分布；基于嵌入状态、特征向量和当前动作，确定评估分布，根据目标分布与评估分布之间的差值，计算Critic网络的TD误差；基于Critic网络的TD误差，利用最小分位数Huber回归损失计算损失更新Critic网络。

4.根据权利要求1所述的自动驾驶车辆行为决策方法，其特征在于，所述当前步奖励为：安全性奖励、舒适性奖励、效率性奖励和时间限制的累加和。

5.根据权利要求1所述的自动驾驶车辆行为决策方法，其特征在于，所述环境车辆状态量包括：环境车辆相对自车位置和环境车辆速度；所述自车状态量包括：自车位置和自车速度。

6.根据权利要求1所述的自动驾驶车辆行为决策方法，其特征在于，所述环境车辆交互表征量通过引入社会价值模型对环境车辆和自车的交互行为进行表征量化得到。

7.根据权利要求1所述的自动驾驶车辆行为决策方法，其特征在于，所述环境车辆交互表征量通过以下方式得到：根据自车速度、环境车辆速度以及自车和环境车辆到两者冲突点的距离，确定环境车辆交互表征量。

8.一种自动驾驶车辆行为决策系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的自动驾驶车辆行为决策方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的自动驾驶车辆行为决策方法中的步骤。