CN112124310B

CN112124310B - 一种车辆的路径变换方法和装置

Info

Publication number: CN112124310B
Application number: CN201910547931.6A
Authority: CN
Inventors: 时天宇; 陈杰
Original assignee: Momenta Suzhou Technology Co Ltd
Current assignee: Momenta Suzhou Technology Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2021-12-24
Anticipated expiration: 2039-06-24
Also published as: CN112124310A

Abstract

本发明实施例公开了一种车辆的路径变换方法和装置，该方法包括：在接收到路径变换指令时，确定当前车辆的当前加速度，以及当前车辆与其他车辆之间的相对位置和相对速度，所述其他车辆包括在当前车道上，当前车辆的前车以及当前车辆在执行路径变换后在目标车道上的前车和后车；根据所述当前加速度、所述相对位置和速度，判断所述当前车辆是否可进行路径变换；如果所述当前车辆可进行路径变换，则根据所述当前加速度、所述相对位置和相对速度，并基于第一Q函数网络模型，确定所述当前车辆的位置调整策略；根据所述位置调整策略，控制当前车辆进行路径变换。通过采用上述技术方案，提升了车辆进行路径变化的安全性和准确度。

Description

一种车辆的路径变换方法和装置

技术领域

本发明涉及自动驾驶技术领域，具体涉及一种车辆的路径变换方法和装置。

背景技术

自动驾驶汽车是智能交通系统的重要组成部分。自动驾驶汽车根据传感器输入的各种参数等生成期望的路径，并将相应的控制量提供给后续的控制器。所以，决策规划是一项重要的研究内容，决定了车辆在行驶过程中车辆能否顺畅、准确的完成各种驾驶行驶。

目前，大多数经典的基于规则的方法无法解决复杂决策任务的问题，例如，专家系统决策算法是基于独立知识库(如地图、交通规则)，让条件输入产生出相应的动作或结论输出的系统。还可以用AND(与)、OR(或)和NOT(非)等运算来复合输入、输出。但专家系统的缺点在于：一、采访"专家"来建模所需时间过长，成本过高；第二、知识库可能有错误，多条规则可能出现矛盾，从而造就脆弱系统。所以，这种方法不能单独用于构建自动驾驶的决策算法。

发明内容

本发明实施例公开一种车辆的路径变换方法和装置，提升了车辆进行路径变化的安全性和准确度。

第一方面，本发明实施例公开了一种车辆的路径变换方法，该方法包括：

在需要进行路径变换时，确定当前车辆的当前加速度，以及当前车辆与其他车辆之间的相对位置和相对速度，所述其他车辆包括在当前车道上，当前车辆的前车以及当前车辆在执行路径变换后在目标车道上的前车和后车；

根据所述当前加速度、所述相对位置和速度，判断所述当前车辆是否可进行路径变换；

如果所述当前车辆可进行路径变换，则根据所述当前加速度、所述相对位置和相对速度，并基于第一Q函数网络模型，确定所述当前车辆的位置调整策略；

根据所述位置调整策略，控制当前车辆进行路径变换；

其中，所述第一Q函数网络模型中包含有第一奖励函数，当通过所述第一奖励函数的函数值确定出所述位置调整策略达到预设位置调整要求时，所述第一Q函数网络模型用于建立当前车辆的加速度、所述相对位置、相对速度和所述位置调整策略之间的关联关系。

可选的，所述第一Q函数网络模型通过如下方式构建：

获取t时刻训练车辆的历史位置调整策略，所述历史位置调整策略与所述t时刻训练车辆的加速度、训练车辆与所述其他车辆的相对位置、相对速度相对应，所述t时刻的历史位置调整策略包括t时刻的加速度；

采集所述训练车辆执行所述历史调整策略后在t+1时刻的加速度、以及所述其他车辆的相对位置和相对速度；

在所述训练车辆根据所述t+1时刻的加速度、相对位置和相对速度进行位置调整时，如果第一奖励函数达到设定阈值，则将所述t时刻的加速度、相对位置、相对速度、所述t+1时刻的加速度、相对位置、相对速度和所述第一奖励函数作为训练样本集；

基于所述训练样本集，采用迭代的方式使得初始神经网络模型的Q值逼近于预设目标Q网络的目标Q值，以得到第一Q函数网络模型，所述第一Q函数网络模型建立了当前车辆的加速度、当前车辆与所述其他车辆的相对位置、相对速度和所述位置调整策略之间的关联关系。

可选的，所述第一奖励函数为：

R_A＝R_dis+R_Δv

其中，R_dis＝-w_dis·|min(Δx_leader,Δx_target)-Δx_follow|，

R_Δv＝-w_Δv·|v_ego-min(v_leader,v_target)|；

其中，w_dis表示距离权重，w_Δv表示速度权重；Δx_leader表示在当前车道上，当前车辆与前车之间的相对纵向距离；Δx_target表示当前车辆与目标车道上的前车之间的相对纵向距离；Δx_follow表示当前车辆与所述目标车道上的后车之间的相对纵向距离；v_leader表示在当前车道上，当前车辆前车的速度；v_ego为当前车辆的速度；v_target表示在目标车道上，当前车辆前车的速度。

可选的，所述第一Q函数网络模型包括第一网络、第二网络和第三网络；其中，

所述第一网络为单隐藏层神经网络，其隐藏层中包含有150个神经元，所述第一网络通过使用soft-plus激活函数在输出层输出负数；

所述第二网络为双隐藏层神经网络，每层有200个神经元，并使用ReLU作为激活函数；

所述第三网络是与所述第一网络具有相同数量的神经元和层数的单隐藏层神经网络，所述第三网络的输出层为可输出任意标量数字的全连接层；

所述第一Q函数网络模型采用如下公式作为Q函数逼近器：

Q(s,a)＝A(s)·(B(s)-a)²+C(s)

其中，s为输入到初始神经网络模型的当前车辆的加速度、当前车辆和所述其他车辆的相对位置和相对速度，a为第二网络的输出量，A为第一网络，B为第二网络，C为第三网络，Q(s,a)为第一Q函数网络模型的Q值。

可选的，如果所述当前车辆不可进行路径变换，则根据所述当前加速度、所述相对位置和相对速度，并基于第二Q函数网络模型，确定所述当前车辆的跟车策略；

其中，第二Q函数网络模型中还包含有第二奖励函数，当通过所述第二奖励函数的函数值确定出所述跟车策略达到预设跟车位置要求时，第二Q函数网络模型建立了所述当前加速度、所述相对位置和相对速度和所述跟车策略之间的关联关系。

可选的，所述第二奖励函数如下：

R_C＝R_dis+R_Δv

其中，R_dis＝-w_dis·|x_leader-x_ego-d_ego|，R_Δv＝-w_Δv·|v_ego-v_leader|

其中，w_dis表示距离权重，w_Δv表示速度权重；v_leader为在当前车道上，当前车辆前车的纵向位置；x_ego为当前车辆的纵向位置；v_ego为当前车辆的速度；v_leader为在当前车道上，当前车辆前车的速度；d_ego表示在当前车道上当前车辆与前车之间的期望距离。

可选的，根据所述当前加速度、所述相对位置和速度，判断所述当前车辆是否可进行路径变换，包括：

根据所述当前加速度、所述相对位置和相对速度、所述当前车辆在当前车道和目标车道的期望距离，计算第三奖励函数的函数值，所述第三奖励函数建立了所述当前车辆及所述其他车辆的位置、速度和所述期望距离之间的函数关系；

根据所述第三奖励函数的函数值，确定对应的决策变量值，所述决策变量用于指示当前车辆是否可进行路径变换。

可选的，所述第三奖励函数为：

其中，w₁、w₂、w₃和w₄分别为权重系数；d_ego为当前车辆在当前车道时，距离前车的期望距离；x_leader为在当前车道上，当前车辆前车的纵向位置；x_ego为当前车辆的纵向位置；v_ego为当前车辆的速度；v_leader为在当前车道上，当前车辆前车的速度；d_target为在目标车道上当前车辆的前车和后车之间的期望距离；d_gap为目标车道上当前车辆的前车与后车之间的目标间隙；v_target表示在目标车道上，当前车辆前车的速度；a_I表示决策变量；a_I＝1表示当前车辆可进行路径变换；a_I＝0表示当前车辆不可进行路径变换；

其中，d_target＝v_egot+(x_target-x_ego)+τ(v_target-v_ego)+d₀

其中，τ为人类的反应时间；a是最大加速度；d₀是最小期望距离；t是进行路径变换的总共所需要时间。

第二方面，本发明实施例还提供了一种车辆的路径变换装置，该装置包括：

运动信息获取模块，被配置为在需要进行路径变换时，确定当前车辆的当前加速度，以及当前车辆与其他车辆之间的相对位置和相对速度，所述其他车辆包括在当前车道上，当前车辆的前车以及当前车辆在执行路径变换后在目标车道上的前车和后车；

路径变换判断模块，被配置为根据所述当前加速度、所述相对位置和速度，判断所述当前车辆是否可进行路径变换；

位置调整策略确定模块，被配置为如果所述当前车辆可进行路径变换，则根据所述当前加速度、所述相对位置和相对速度，并基于第一Q函数网络模型，确定所述当前车辆的位置调整策略；

路径变换模块，被配置为根据所述位置调整策略，控制当前车辆进行路径变换；

其中，所述第一Q函数网络模型中包含有第一奖励函数，所述第一奖励函数的函数值用于判断所述位置调整策略是否达到预设位置调整要求，所述第一Q函数网络模型使得当前车辆的加速度、所述相对位置、相对速度和所述位置调整策略之间相关联。

可选的，所述第一Q函数网络模型通过如下方式构建：

基于所述训练样本集，采用迭代的方式使得初始神经网络模型的Q值逼近于预设目标Q网络的目标Q值，以得到第一Q函数网络模型，所述第一Q函数网络模型使得当前车辆的加速度、当前车辆与所述其他车辆的相对位置、相对速度和所述位置调整策略之间相关联。

可选的，所述第一奖励函数为：

R_A＝R_dis+R_Δv

其中，R_dis＝-w_dis·|min(Δx_leader,Δx_target)-Δx_follow|，

R_Δv＝-w_Δv·|v_ego-min(v_leader,v_target)|；

其中，w_dis表示距离权重，w_Δv表示速度权重；Δx_leader表示在当前车道上，当前车辆与前车之间的相对纵向距离；Δx_target表示当前车辆与目标车道上的前车之间的相对纵向距离；Δx_follow表示当前车辆与目标车道上的后车之间的相对纵向距离；v_leader表示在当前车道上，当前车辆前车的速度；v_ego为当前车辆的速度；v_target表示目标车道上，当前车辆前车的速度。

所述第一Q函数网络模型采用如下公式作为Q函数逼近器：

Q(s，a)＝A(s)·(B(s)-a)²+C(s)

可选的，所述装置还包括：

跟车策略确定模块，被配置为如果所述当前车辆不可进行路径变换，则根据所述当前加速度、所述相对位置和相对速度，并基于第二Q函数网络模型，确定所述当前车辆的跟车策略；

其中，第二Q函数网络模型中包含有第二奖励函数，所述第二奖励函数的函数值用于判断所述跟车策略是否达到预设跟车位置要求，所述第二Q函数网络模型使得所述当前加速度、所述相对位置、相对速度和所述跟车策略之间相关联。

可选的，所述第二奖励函数如下：

R_C＝R_dis+R_Δv

可选的，路径变换判断模块，具体被配置为：

所述第三奖励函数为：

其中，w₁、w₂、w₃和w₄分别为权重系数；d_ego为当前车辆在当前车道时，距离前车的期望距离；x_leader为在当前车道上，当前车辆前车的纵向位置；x_ego为当前车辆的纵向位置；v_ego为当前车辆的速度；v_leader为在当前车道上，当前车辆前车的速度；d_target为目标车道上当前车辆的前车和后车之间的期望距离；d_gap为目标车道上当前车辆的前车与后车之间的实际间隙；v_target表示目标车道上，当前车辆前车的速度；a_I表示决策变量；a_I＝1表示当前车辆可进行路径变换；a_I＝0表示当前车辆不可进行路径变换；

其中，d_target＝v_egot+(x_target-x_ego)+τ(v_target-v_ego)+d₀

第三方面，本发明实施例还提供了一种车载终端，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明任意实施例所提供的车辆的路径变换方法的部分或全部步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其存储计算机程序，所述计算机程序包括用于执行本发明任意实施例所提供的车辆的路径变换方法的部分或全部步骤的指令。

第五方面，本发明实施例还提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明任意实施例所提供的车辆的路径变换方法的部分或全部步骤。

本实施例提供的技术方案，设计了层次式的结构，在需要进行路径变换时，首先根据当前车辆与周围车之间的相对位置、相对距离等判断当前车辆是否可进行路径变换。如果可以进行路径变换，则基于第一Q函数网络模型，确定当前车辆的位置调整策略，使得自动驾驶车辆可以具有高度的自主纵向控制功能。如果车辆不可进行路径变换，则会根据第一Q函数网络模型输出的跟车策略进行动作调整，使得当前车辆与其他车辆能够保持适当的相对距离和相对速度。通过采用上述技术方案，提升了车辆在产生路径变换意图后行驶的安全性和路径变换的准确性。

本发明的发明点包括：

1、设计了层次式的结构，将自动驾驶车辆的路径变换问题分解为是否能够进行路径变换以及如何调整车辆的位置，以使自动驾驶车辆具有高度的自主纵向控制功能，解决了传统的基于规则的方法无法解决复杂决策任务的问题，提升了车辆在产生路径变换意图后行驶的安全性和路径变换的准确性。

2、设计了两个二次形式的Q函数网络模型，该网络模型具有相同的内部结构，但其中设计了不同的奖励函数，从而使得这两个网络模型能够实现不同的功能，即可输出位置调整策略和跟车策略等不同的策略，提升了车辆在产生路径变换意图后行驶的安全性和路径变换的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例提供的一种第一Q函数网络模型的训练方法的示意图；

图1b为本发明实施例提供的一种第一奖励函数在第一Q函数网络模型训练过程中的仿真示意图；

图1c为本发明实施例提供一种第一Q函数网络模型结构示意图；

图2a是本发明实施例提供的一种车辆的路径变换方法的流程示意图；

图2b是本发明实施例提供的一种车道变化的示意图；

图3是本发明实施例提供的一种车辆的路径变换装置的结构示意图；

图4是本发明实施例提供的一种车载终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更加清楚、明白地解释各实施例的内容，下面先对本发明实施例提供的技术方案的工作原理进行简单介绍：

本发明实施例的技术方案中，设计了层次式的结构，将自动驾驶车辆的路径变换划分为在产生路径变换意图后是否可进行路径变换以及如何在路径变换之前进行车辆的位置调整。其中，如何进行位置调整采用了独特的Q函数网络模型，该网络模型可用于处理自动驾驶车辆的行动的执行。图1a为本发明实施例提供的一种第一Q函数网络模型的训练方法的示意图，如图1a所示，该第一Q函数网络模型方法可通过如下方式来建立：

110、获取t时刻训练车辆的历史位置调整策略。

其中，历史位置调整策略与t时刻训练车辆的加速度、训练车辆与其他车辆的相对位置、相对速度相对应，t时刻的历史位置调整策略包括t时刻的加速度。

120、采集训练车辆执行历史调整策略后在t+1时刻的加速度、训练车辆与其他车辆的相对位置和相对速度。

130、在训练车辆根据t+1时刻的加速度、相对位置和相对速度进行位置调整时，如果第一奖励函数达到设定阈值，则将t时刻的加速度、相对位置、相对速度、t+1时刻的加速度、相对位置、相对速度和第一奖励函数作为训练样本集。

本实施例中，所述第一奖励函数为：

R_A＝R_dis+R_Δv

其中，R_dis＝-w_dis·|min(Δx_leader,Δx_target)-Δx_follow|，

R_Δv＝-w_Δv·|v_ego-min(v_leader,v_target)|；

具体的，图1b为本发明实施例提供的一种第一奖励函数在第一Q函数网络模型训练过程中的仿真示意图，如图1b所示，横坐标为训练模型的步数，纵坐标为奖励函数的函数值。当奖励函数的函数值逼近于-10时，将对应的t时刻的加速度、相对位置、相对速度、t+1时刻的加速度、相对位置、相对速度和该第一奖励函数作为训练样本集。

140、基于训练样本集，采用迭代的方式使得初始神经网络模型的Q值逼近于预设目标Q网络的目标Q值，以得到第一Q函数网络模型，该第一Q函数网络模型使得当前车辆的加速度、当前车辆与其他车辆的相对位置、相对速度和位置调整策略之间相关联。

示例性的，在训练过程中，可将训练样本集分为多个数据块，以减小计算量。在步骤140中利用训练样本集对初始神经网络模型进行训练时，可从每个数据块中依次抽取出t时刻的加速度、相对位置、相对速度及对应的第一奖励函数、t+1时刻的加速度、相对位置和相对速度作为样本数据，以用于进行初始神经网络模型的训练。模型训练的过程主要是判断利用样本数据所得到的初始神经网络模型的Q值是否逼近于预设目标Q网络的Q值，如果初始神经网络模型的Q值与预设目标Q网络的Q值相差较大，则采用迭代的方式，通过更新样本数据，使得初始神经网络模型的Q值不断逼近于预设目标Q网络的Q值。通过梯度下降法，如果二者之间的差值小于设定阈值时，可将目标Q网络的参数作为初始神经网络模型的参数，从而得到第一Q函数网络模型。

进一步的，为了提高Q函数网络模型在应用过程中的安全性，当初始神经网络模型的Q值不断逼近于预设目标Q网络的Q值时，还可进一步判断当前车辆与前车之间的距离是否小于设定距离阈值，如果小于设定距离阈值，则说明二者之间存在碰撞的危险，或者二者已经发生碰撞，此时，则进行初始化，以重新对第一Q函数网络模型进行训练。

具体的，图1c为本发明实施例提供一种第一Q函数网络模型结构示意图，如图1c所示，该第一Q函数网络模型包括第一网络A、第二网络B和第三网络C；

其中，第一网络A为单隐藏层神经网络，其隐藏层中包含有150个神经元，第一网络通过使用soft-plus(用于解决梯度消息的问题)激活函数在输出层输出负数；

第二网络B为双隐藏层神经网络，每层有200个神经元，并使用ReLU(Rectifiedlinear unit，修正线性单元)作为激活函数；

第三网络C是与第一网络具有相同数量的神经元和层数的单隐藏层神经网络，第三网络的输出层为可输出任意标量数字的全连接层；

该第一Q函数网络模型采用如下公式作为Q函数逼近器：

Q(s，a)＝A(s)·(B(s)-a)²+C(s)

其中，s为输入到初始神经网络模型的当前车辆的加速度、当前车辆和其他车辆的相对位置和相对速度，a为第二网络的输出，A为第一网络，B为第二网络，C为第三网络，Q(s,a)为第一Q函数网络模型的Q值。

上述Q函数为二次函数，通过采用上述二次函数可以输出合理且可靠的位置调整策略，从而可利用该第一Q函数网络模型来处理自动驾驶车辆持续的控制运动。

下面，将对上述已训练完成的第一Q函数网络模型的应用过程进行具体介绍。

实施例一

请参阅图2a，图2a是本发明实施例提供的一种车辆的路径变换方法的流程示意图。该方法应用于自动驾驶中，可由车辆的路径变换装置来执行，该装置可通过软件和/或硬件的方式实现，一般可集成在车载电脑、车载工业控制计算机(Industrial personalComputer，IPC)等车载终端中，本发明实施例不做限定。如图2a所示，本实施例提供的方法具体包括：

210、在需要进行路径变换时，确定当前车辆的当前加速度，以及当前车辆与其他车辆之间的相对位置和相对速度。

本实施例中，路径变换可以是换道、汇流或位置调整等。示例性的，路径变换需求可以是自动驾驶车辆主动产生的路径变换意图，例如，当前自动驾驶车辆根据导航信息自动触发的换道意图，或者也可以是当前自动驾驶车辆在检测到其他车辆的运行轨迹将对当前车辆的运行轨迹造成影响时所触发的位置调整意图等。示例性的，路径变换需求也可以是由驾驶员根据当前车辆的实际运行情况向驾驶辅助系统发送的指令，即该路径变换指令为自动驾驶车辆被动接收到的路径变换意图。

本实施例中，在需要进行路径变换时，可以采集当前车辆的速度、位置和加速度，以及其他车辆的速度和位置。其中，其他车辆包括在当前行驶车道上当前车辆的前车以及当前车辆在执行路径变换后在目标车道上的前车和后车。在一些特殊情况下，其他车辆也包括在当前车道上，当前车辆的后车。在采集到上述信息后，可以确定出当前车辆与其他车辆之间的相对位置和速度。

220、根据当前加速度、相对位置和相对速度，判断当前车辆是否可进行路径变换，若是，则执行步骤230；否则，执行步骤250。

示例性的，可根据当前车辆的当前加速度、当前车辆与其他车辆的相对位置和相对速度，判断当前车辆与其他车辆是否会出现碰撞、当前车辆和其他车辆的运行轨迹是否会相互影响，从而判断当前车辆是否可进行路径变换。例如，当当前车辆在当前车道与前车之间的相对距离足够大时，例如相对距离为当前车辆车速的3倍时，或者当前车辆与前车之间的相对速度足够小时，例如相对速度趋近于零时，或者目标车道上当前车辆前车和后车之间的实际间隙较窄时，例如仅为1-1.5个车位时，则当前车辆保持在当前车道上的跟车状态。另一方面，当当前车辆在当前车道与前车之间的相对距离足够小时，例如仅为1-1.5个车位时，或者目标车道上当前车辆前车和后车之间的实际间隙较大时，例如为当前车速的3倍时，则当前车道可向目标车道进行路径变换。

示例性的，还可采用强化学习的方式，根据当前加速度、相对位置和相对速度，判断当前车辆是否可进行路径变换。在具体实现过程中，本实施例中可通过设计第三奖励函数的方式来确定是否进行路径变换，其中，第三奖励函数建立了当前车辆及其他车辆的位置、速度和期望距离之间的函数关系。具体的，根据当前加速度、相对位置和相对速度，判断当前车辆是否可进行路径变换可以为：

根据当前加速度、相对位置和相对速度、当前车辆在当前车道和目标车道的期望距离，计算第三奖励函数的函数值，根据第三奖励函数的函数值，确定对应的决策变量值，该决策变量用于指示当前车辆是否可进行路径变换。

本实施例中，该第三奖励函数为：

其中，w₁、w₂、w₃和w₄分别为权重系数；d_ego为当前车辆在当前车道时，距离前车的期望距离；x_leader为在当前车道上，当前车辆前车的纵向位置；x_ego为当前车辆的纵向位置；v_ego为当前车辆的速度；v_leader为在当前车道上，当前车辆前车的速度；d_target为目标车道上当前车辆的前车和后车之间的期望距离；d_gap为目标车道上当前车辆的前车与后车之间的实际间隙；v_target表示目标车道上，当前车辆前车的速度；a_I表示决策变量；a_I＝1表示当前车辆可进行路径变换；a_I＝0表示当前车辆不可进行路径变换。

其中，d_target＝v_egot+(x_target-x_ego)+τ(v_target-v_ego)+d₀

230、根据当前加速度、相对位置和相对速度，并基于第一Q函数网络模型，确定当前车辆的位置调整策略，继续执行步骤240。

其中，车辆的位置调整策略优选为车辆的纵向加速度或减速度，通过上述已完成训练的第一Q函数网络模型，可输出连续的加速度，以便在当前车辆与前方车辆保持安全距离的同时，也存在合适的路径变换间隙。

240、根据位置调整策略，控制当前车辆进行路径变换。其中，在当前车辆进行路径变换时，可生成车辆的路径变换轨迹，并根据位置调整策略和路径变换轨迹进行路径变换。

具体的，以车辆变道为例，图2b是本发明实施例提供的一种车道变化的示意图，如图2b所示，1表示当前车辆，2表示在当前车道上当前车辆的前车，3和4分别表示在目标车道上当前车辆的后车和前车；d_ego为当前车辆在当前车道时，距离前车的期望距离；d_target为目标车道上当前车辆后车3和前车4之间的期望距离。在执行车道变换时，生成车辆的路径变换轨迹需满足如下约束：当前车辆在当前车道时，当前车辆1的纵向位置小于在运行方向上前车2的纵向位置，且当前车辆1与前车2之间的实际距离与期望距离d_ego之间的差值在设定的距离范围内。当前车辆在执行车道变换后行驶到目标车道时，当前车辆1的纵向位置大于在运行方向上当前车辆之后的后车3的纵向位置，且小于当前车辆之前的前车4的纵向位置。这样设置可保证当前车辆在当前车道的跟车状态下，保持与前方车辆合适的安全距离和目标间隙，并且在变换车道后，也与前后车之间存在一定的安全距离，从而满足自动驾驶的安全性要求。

250、根据当前加速度、相对位置和相对速度，并基于第二Q函数网络模型，确定当前车辆的跟车策略。

其中，跟车策略具体指当前车辆在跟随前车行驶情况下的加速度。安全的跟车策略可保证当前车辆的加速度在一个舒适的范围内，从而可保证当前车辆与前车之间存在适当的相对距离和速度。为了实现这一功能，本实施例中，在第二Q函数网络模型中中设计了第二奖励函数，当通过第二奖励函数的函数值确定出跟车策略达到预设跟车位置要求时，第二Q函数网络模型可建立当前加速度、相对位置和相对速度和跟车策略之间的关联关系。

本实施例中，所述第二奖励函数如下：

R_C＝R_dis+R_Δv

本实施例中，第二Q函数网络模型与第一Q函数网络模型的结构相同，但二者内部设计有不同的奖励函数，从而实现了不同的功能，即步骤230中的位置调整策略和步骤240中的跟车策略。其中，第二Q函数网络模型的训练方法具体可参照第一Q函数网络模型的训练方法，本实施例不再赘述。

本实施例提供的技术方案，设计了层次式的结构，在需要进行路径变换时，首先根据当前车辆与周围车之间的相对位置、相对距离等判断当前车辆是否可进行路径变换，如果可以进行路径变换，则基于第一Q函数网络模型，确定当前车辆的位置调整策略，使得自动驾驶车辆可以具有高度的自主纵向控制功能。如果车辆不可进行路径变换，则会根据第二Q函数网络模型输出的跟车策略进行动作调整，使得当前车辆与其他车辆能够保持适当的相对距离和相对速度。通过采用上述技术方案，提升了车辆在产生路径变换意图后行驶的安全性和路径变换的准确性，使得自动驾驶车辆可以具有高度的自主纵向控制功能。

实施例二

请参阅图3，图3是本发明实施例提供的一种车辆的路径变换装置的结构示意图。如图3所示，该装置包括：运动信息获取模块310、路径变换判断模块320、位置调整策略确定模块330和路径变换模块340；其中，

运动信息获取模块310，被配置为在需要进行路径变换时，确定当前车辆的当前加速度，以及当前车辆与其他车辆之间的相对位置和相对速度，所述其他车辆包括在当前车道上，当前车辆的前车以及当前车辆在执行路径变换后在目标车道上的前车和后车；

路径变换判断模块320，被配置为根据所述当前加速度、所述相对位置和速度，判断所述当前车辆是否可进行路径变换；

位置调整策略确定模块330，被配置为如果所述当前车辆可进行路径变换，则根据所述当前加速度、所述相对位置和相对速度，并基于第一Q函数网络模型，确定所述当前车辆的位置调整策略；

路径变换模块340，被配置为根据所述位置调整策略，控制当前车辆进行路径变换；

可选的，所述第一Q函数网络模型通过如下方式构建：

可选的，所述第一奖励函数为：

R_A＝R_dis+R_Δv

其中，R_dis＝-w_dis·|min(Δx_leader，Δx_target)-Δx_follow|，

R_Δv＝-w_Δv·|v_ego-min(v_leader,v_target)|；

所述第二网络为双隐藏层神经网络，每层有200个神经元，并使用修正线性单元ReLU作为激活函数；

所述第一Q函数网络模型采用如下公式作为Q函数逼近器：

Q(s,a)＝A(s)·(B(s)-a)²+C(s)

其中，s为输入到初始神经网络模型的当前车辆的加速度、当前车辆和所述其他车辆的相对位置和相对速度，a为第二网络的输出量，A为第一网络，B为第二网络，C为第三网络，Q(s，a)为第一Q函数网络模型的Q值。

可选的，所述装置还包括：

跟车策略确定模块，被配置为如果所述当前车辆不可进行路径变换，则根据所述当前加速度、所述相对位置和相对速度，并基于所述第二Q函数网络模型，确定所述当前车辆的跟车策略；

其中，所述第二Q函数网络模型中还包含有第二奖励函数，所述第二奖励函数的函数值用于判断所述跟车策略是否达到预设跟车位置要求，所述第二Q函数网络模型使得所述当前加速度、所述相对位置、相对速度和所述跟车策略之间相关联。

可选的，所述第二奖励函数如下：

R_C＝R_dis+R_Δv

可选的，路径变换判断模块，具体被配置为：

所述第三奖励函数为：

其中，d_target＝v_egot+(x_target-x_ego)+τ(v_target-v_ego)+d₀

本发明实施例所提供的车辆的路径变换装置可执行本发明任意实施例所提供的车辆的路径变换方法，具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的车辆的路径变换方法。

实施例三

请参阅图4，图4是本发明实施例提供的一种车载终端的结构示意图。如图4所示，该车载终端可以包括：

存储有可执行程序代码的存储器701；

与存储器701耦合的处理器702；

其中，处理器702调用存储器701中存储的可执行程序代码，执行本发明任意实施例所提供的车辆的路径变换方法。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行本发明任意实施例所提供的车辆的路径变换方法。

本发明实施例公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行本发明任意实施例所提供的车辆的路径变换方法的部分或全部步骤。

在本发明的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本发明所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种车辆的路径变换方法和装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种车辆的路径变换方法，应用于自动驾驶，其特征在于，包括：

根据所述位置调整策略，控制当前车辆进行路径变换；

其中，所述第一Q函数网络模型中包含有第一奖励函数，所述第一奖励函数的函数值用于判断所述位置调整策略是否达到预设位置调整要求，所述第一Q函数网络模型使得当前车辆的加速度、所述相对位置、相对速度和所述位置调整策略之间相关联；

其中，所述第一Q函数网络模型通过如下方式构建：

采集所述训练车辆执行所述历史位置调整策略后在t+1时刻的加速度、以及所述其他车辆的相对位置和相对速度；

基于所述训练样本集，采用迭代的方式使得初始神经网络模型的Q值逼近于预设目标Q网络的目标Q值，以得到第一Q函数网络模型，所述第一Q函数网络模型使得当前车辆的加速度、当前车辆与所述其他车辆的相对位置、相对速度和所述位置调整策略之间相关联；

其中，所述第一奖励函数为：

R_A＝R_1dis+R_1Δv

其中，R_1dis＝-w_dis·|min(Δx_leader，Δx_target)-Δx_follow|，

其中，R_A为第一奖励函数、R_1dis是第一奖励函数中用于表示距离的距离奖励函数，R_1Δv是第一奖励函数中用于表示速度的速度奖励函数；w_dis表示距离权重，w_Δv表示速度权重；Δx_leader表示在当前车道上，当前车辆与前车之间的相对纵向距离；Δx_target表示当前车辆与目标车道上的前车之间的相对纵向距离；Δx_follow表示当前车辆与目标车道上的后车之间的相对纵向距离；v_leader表示在当前车道上，当前车辆前车的速度；v_ego为当前车辆的速度；v_target表示目标车道上，当前车辆前车的速度。

2.根据权利要求1所述的方法，其特征在于，所述第一Q函数网络模型包括第一网络、第二网络和第三网络；其中，

所述第一Q函数网络模型采用如下公式作为Q函数逼近器：

Q(s，a)＝A(s)·(B(s)-a)²+C(s)

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果所述当前车辆不可进行路径变换，则根据所述当前加速度、所述相对位置和相对速度，并基于第二Q函数网络模型，确定所述当前车辆的跟车策略；

4.根据权利要求3所述的方法，其特征在于，所述第二奖励函数如下：

R_C＝R_2dis+R_2Δv

其中，R_2dis＝-w_dis·|x_leader-x_ego-d_ego|，R_2Δv＝-w_Δv·|v_ego-v_leader|

其中，R_C为第二奖励函数，R_2dis是第二奖励函数中用于表示距离的距离奖励函数，R_2Δv是第二奖励函数中用于表示速度的速度奖励函数；w_dis表示距离权重，w_Δv表示速度权重；v_leader为在当前车道上，当前车辆前车的纵向位置；x_ego为当前车辆的纵向位置；v_ego为当前车辆的速度；v_leader为在当前车道上，当前车辆前车的速度；d_ego表示在当前车道上当前车辆与前车之间的期望距离。

5.根据权利要求1所述的方法，其特征在于，根据所述当前加速度、所述相对位置和速度，判断所述当前车辆是否可进行路径变换，包括：

6.根据权利要求5所述的方法，其特征在于，所述第三奖励函数为：

其中，d_target＝v_egot+(x_target-x_ego)+τ(v_target-v_ego)+d₀

7.一种车辆的路径变换装置，应用于自动驾驶，其特征在于，包括：

其中，所述第一Q函数网络模型通过如下方式构建：

其中，所述第一奖励函数为：

R_A＝R_1dis+R_1Δv

其中，R_1dis＝-w_dis·|min(Δx_leader，Δx_target)-Δx_follow|，