CN112989715B

CN112989715B - 一种燃料电池汽车多信号灯车速规划方法

Info

Publication number: CN112989715B
Application number: CN202110550474.3A
Authority: CN
Inventors: 孙超; 刘波; 孙逢春; 任强; 周飞鲲
Original assignee: Beijing Institute of Technology BIT; Guangzhou Automobile Group Co Ltd
Current assignee: Beijing Institute of Technology BIT; Guangzhou Automobile Group Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-03
Anticipated expiration: 2041-05-20
Also published as: CN112989715A

Abstract

本发明公开了一种燃料电池汽车多信号灯车速规划方法，构建包含

个交通信号灯的深度强化学习DRL训练场景，建立燃料电池汽车FCV训练模型和交通信号灯模型；定义多信号灯训练DRL环境的状态空间

、动作空间

和奖励函数

；在训练环境中对DRL网络进行训练，得到与

对应的训练好的DRL车速规划模型DRL‑L；将训练好的DRL‑L模型应用到复杂的测试场景，得到全局经济车速；建立FCV动力传动系统模型，在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗，并比较不同

对应的DRL‑L模型性能。本发明对环境具有很强的自适应能力，具有更低的氢耗和更好的舒适性。

Description

一种燃料电池汽车多信号灯车速规划方法

技术领域

本发明涉及经济车速规划领域，特别是涉及一种燃料电池汽车多信号灯车速规划方法。

背景技术

通过共享的实时交通信息和对复杂环境的感知，智能网联汽车具有超出人类驾驶员的全局规划和决策能力。利用V2X通讯技术，网联式燃料电池汽车可以获取周边交通基础设施的未来信息和其他交通参与者的实时信息，从而实现经济车速规划。

在交通信号灯环境下，现有的经济车速规划方法主要分为基于优化的方法和基于强化学习的方法。基于优化的方法能够获得最优或者近似最优的全局解，但是计算代价往往很大；基于强化学习尤其是深度强化学习的方法表现出很好的实时性和良好的性能，但是当前的基于深度强化学习的车速规划方法在训练过程中只考虑车辆前方单个交通信号灯的信息，忽略了全局最优性。相比之下，基于前方多个交通信号灯的信息进行决策具有更大的节能潜力。

发明内容

本发明的目的在于弥补现有规划方法的不足，提出一种燃料电池汽车多信号灯车速规划方法，该方法对环境具有很强的自适应能力，并且相比于单信号灯训练深度强化学习车速规划方法表现出更低的氢耗和更好的舒适性。

为实现上述目的，本发明采用以下技术方案：一种燃料电池汽车多信号灯车速规划方法，包括以下步骤：

S1.构建包含

个交通信号灯的深度强化学习DRL训练场景，建立燃料电池汽车FCV训练模型和交通信号灯模型；

S2.定义多信号灯训练DRL环境的状态空间

、动作空间

和奖励函数

；

S3.在训练环境中对DRL网络进行训练，得到与

对应的训练好的DRL车速规划模型DRL-L；

S4.将训练好的DRL-L模型应用到复杂的测试场景，得到全局经济车速；

S5.建立FCV动力传动系统模型，在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗，并比较不同

对应的DRL-L模型性能。

进一步地，步骤S1中所述的燃料电池汽车FCV训练模型采用不考虑动力传动部件的质点模型；交通信号灯模型包括信号灯位置模型和信号灯相位时序SPaT模型；

交通信号灯位置模型采用可变信号灯位置，如下所示：

其中，

表示第

个信号灯的位置

；

表示信号灯位置的容许变化量，

表示理想信号灯间距；

表示理想信号灯位置，如下所示：

交通信号灯SPaT模型使用

和

表示信号灯相位和时序信息，如下所示：

其中，

和

分别表示交通信号的红灯持续时间和绿灯持续时间；

表示交通信号的状态，

表示红灯，

表示绿灯；

表示与时间

对应的信号周期内时间，如下所示：

一旦信号灯位于车辆后方，其SPaT信息会被重置并且锁定，如下所示：

。

进一步地，步骤S2中所述的多信号灯训练DRL环境的状态空间

、动作空间

和奖励函数

具体分别为：

状态空间

包含FCV和交通信号灯的相关信息，如下所示：

其中，

表示车速；

表示信号灯位置与车辆位置的差值，

的长度均为

；

动作空间

包含FCV的加速度

，如下所示：

奖励函数

，如下所示：

其中，

与车辆预计是否闯红灯的行为有关；

与车辆是否闯红灯有关；

分别和车辆的速度、加速度和冲击度

有关；各项奖励如下所示：

其中，

表示预计通过信号灯路口的时间；

表示通过信号灯路口的时间。

进一步地，所述步骤S3中，在训练环境中对DRL网络进行训练，包括以下子步骤：

S31.初始化DRL网络、经验池

和随机探索噪声

；

S32.根据当前状态和随机探索噪声选择动作，并将相关经验添加到经验池；

S33.从经验池中选取长度为

的小批量数据，进行DRL网络参数更新；

S34.重复进行S32和S33，直至达到收敛条件。

进一步地，步骤S31中所述的DRL网络和随机探索噪声

，具体如下所示：

DRL网络包含actor网络

和critic网络

以及相对应的目标网络

和

；DRL网络均包含1个输入层、2个隐藏层和1个输出层；其中，actor网络及其目标网络的输入是状态，输出是动作；critic网络及其目标网络的输入是状态和动作，输出是动作价值

；

随机探索噪声选取Ornstein-Uhlenbeck噪声或者高斯噪声。

进一步地，步骤S32中所述的根据当前状态和随机探索噪声选择动作，并将相关经验添加到经验池，具体分别为：

actor网络根据当前状态

选择动作

，获得奖励

并转移到下一状态

；其中，动作

如下所示：

存储到经验池的相关经验为

，其中

表示每个训练回合是否结束；每个训练回合的终止条件如下所示：

其中，

和

分别为每个训练回合的最大行驶里程和最大行驶时间。

进一步地，步骤S33中所述的从经验池中选取长度为

的小批量数据，进行DRL网络参数更新，具体分别为：

critic网络以最小化损失函数为目标进行参数更新，如下所示：

其中，

；

actor网络使用策略梯度进行参数更新，如下所示：

目标网络参数采用软更新，如下所示：

其中，

。

进一步地，所述步骤S4中，将训练好的DRL-L模型应用到复杂的测试场景，得到全局经济车速，包括以下子步骤：

S41.根据测试场景中信号灯的分布情况按需引入虚拟信号灯，对测试场景进行重构；

S42.按照训练场景的尺度，在测试场景中滚动应用训练好的DRL-L模型；

S43.将DRL模型的输出组合到一起，得到完整的车速规划结果。

进一步地，所述步骤S41中，根据测试场景中信号灯的分布情况按需引入虚拟信号灯，对测试场景进行重构，具体如下所示：

设测试场景信号灯数量为

，按照训练场景中信号灯和路段一一对应的分布关系，得到测试场景中的理想信号灯数量

；如果

，则在信号灯缺失的路段上引入虚拟信号灯；

虚拟信号灯的信号状态一直保持绿灯，且虚拟信号灯的位置位于相应路段的中心。

进一步地，步骤S42中所述的按照训练场景的尺度，在测试场景中滚动应用训练好的DRL-L模型，具体如下所示：

计算

和

的大小关系：

在测试场景中滚动前进，将训练好的DRL-L模型应用

次；然后判断

是否为0，如果

，则在最后

个信号灯前引入

个虚拟信号灯，并再次应用训练好的DRL-L模型；

每一次模型应用后的环境终端状态应作为下一次应用时的环境初始状态。

进一步地，所述步骤S5中，在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗，包括以下子步骤：

S51.建立FCV动力传动系统模型，包括整车功率需求模型、供需端功率平衡模型、氢耗模型和动力电池等效电路模型；

S52.选取电池SOC作为状态变量

，燃料电池输出功率作为控制变量

，车速作为干扰变量

；

S53.建立和氢气消耗率

相关的目标函数

，在电量维持模式并满足各项约束条件下利用DP求解测试场景下全局车速规划结果的氢耗。

本发明提供的车速规划方法同样适用于包括传统燃油车、混合动力汽车等多种动力类型在内的网联式车辆，车速规划结果能耗评估需依据不同车型进行相应调整。

与现有技术相比，本发明的有益效果是：

（1）本发明面向网联式燃料电池汽车经济车速规划任务，建立了多信号灯DRL训练环境，增强了车辆的环境感知和规划决策能力。

（2）本发明提出了基于可变距离的信号灯位置模型和用三角函数表示的信号灯SPaT模型，有效提高了DRL模型对复杂信号灯行驶环境的自适应能力。

（3）本发明提出的多信号灯车速规划方法具备实时在线应用潜力，并且相比于单信号灯训练方法表现出更好的能耗经济性和舒适性。

附图说明

图1为本发明所提出的燃料电池汽车多信号灯车速规划方法流程图；

图2为本发明中多信号灯训练DRL场景；

图3为本发明中DRL网络训练流程图；

图4为本发明中测试场景下训练好的DRL-L模型应用流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细的描述，但本发明的保护范围不局限于以下所述。

本发明利用深度强化学习算法解决智能网联环境下多信号灯路口车速规划问题，以训练环境中的信号灯数量

为关键参数，提出了燃料电池汽车多信号灯车速规划算法，实现了能耗经济性和舒适性的提升。

如图1所示，一种燃料电池汽车多信号灯车速规划方法，包括以下步骤：

S1.构建包含

个交通信号灯的深度强化学习DRL训练场景，如图2所示，建立燃料电池汽车FCV训练模型和交通信号灯模型。

燃料电池汽车FCV训练模型采用不考虑动力传动部件的质点模型；交通信号灯模型包括信号灯位置模型和信号灯相位时序SPaT模型。

交通信号灯位置模型采用可变信号灯位置，如公式(1)所示：

(1)

其中，

表示第

个信号灯的位置

；

表示信号灯位置的容许变化量，

表示理想信号灯间距；

表示理想信号灯位置，如公式(2)所示：

(2)

交通信号灯SPaT模型使用

和

表示信号灯相位和时序信息，如公式(3)-(4)所示：

(3)

(4)

其中，

和

分别表示交通信号的红灯持续时间和绿灯持续时间；

表示交通信号的状态，

表示红灯，

表示绿灯；

表示与时间

对应的信号周期内时间，如公式(5)所示：

(5)

一旦信号灯位于车辆后方，其SPaT信息会被重置并且锁定，如公式(6)所示：

(6)

S2.定义多信号灯训练DRL环境的状态空间

、动作空间

和奖励函数

。

状态空间

包含FCV和交通信号灯的相关信息，如公式(7)所示：

(7)

其中，

表示车速；

表示信号灯位置与车辆位置的差值，

的长度均为

。

动作空间

包含FCV的加速度

，如公式(8)所示：

(8)

奖励函数

，如公式(9)所示：

(9)

其中，

与车辆预计是否闯红灯的行为有关；

与车辆是否闯红灯有关；

分别和车辆的速度、加速度和冲击度

有关；各项奖励如公式(10)所示：

(10)

其中，

表示预计通过信号灯路口的时间；

表示通过信号灯路口的时间。

S3.在训练环境中对DRL网络进行训练，如图3所示，得到与

对应的训练好的DRL车速规划模型DRL-L。

所述步骤S3具体包括：

S31.初始化DRL网络、经验池

和随机探索噪声

。

DRL网络包含actor网络

和critic网络

以及相对应的目标网络

和

。DRL网络均包含1个输入层、2个节点数均为256的隐藏层和1个输出层。其中，actor网络及其目标网络的输入是状态，输出是动作；critic网络及其目标网络的输入是状态和动作，输出是动作价值

。

随机探索噪声选取Ornstein-Uhlenbeck噪声。

S32.根据当前状态和随机探索噪声选择动作，并将相关经验添加到经验池。

actor网络根据当前状态

选择动作

，获得奖励

并转移到下一状态

。其中，动作

如公式(11)所示：

(11)

存储到经验池的相关经验为

，其中

表示每个训练回合是否结束。每个训练回合的终止条件如公式(12)所示：

(12)

其中，

。

S33.从经验池中选取长度为

的小批量数据，进行神经网络参数更新。

critic网络以最小化损失函数为目标进行参数更新，如公式(13)所示：

(13)

其中，

；

actor网络使用策略梯度进行参数更新，如公式(14)所示：

(14)

目标网络参数采用软更新，如公式(15)所示：

(15)

其中，

。

S34.重复进行S32和S33，直至达到收敛条件。

S4.将训练好的DRL-L模型应用到复杂的测试场景，得到全局经济车速，如图4所示。

所述步骤S4具体包括：

S41.根据测试场景中信号灯的分布情况按需引入虚拟信号灯，对测试场景进行重构。

设测试场景信号灯数量为

；如果

，则在信号灯缺失的路段上引入虚拟信号灯。

S42.按照训练场景的尺度，在测试场景中滚动应用训练好的DRL-L模型。

计算

和

的大小关系，如公式(16)所示：

(16)

在测试场景中滚动前进，将训练好的DRL-L模型应用

次；然后判断

是否为0，如果

，则在最后

个信号灯前引入

个虚拟信号灯，并再次应用训练好的DRL-L模型。

S43.将DRL模型的输出组合到一起，得到完整的车速规划结果。

对应的DRL-L模型性能。

所述步骤S5具体包括：

S52.选取电池SOC作为状态变量

，燃料电池输出功率作为控制变量

，车速作为干扰变量

；

S53.建立和氢气消耗率

Claims

1.一种燃料电池汽车多信号灯车速规划方法，其特征在于，包括以下步骤：

S1.构建包含

步骤S1中所述的燃料电池汽车FCV训练模型采用不考虑动力传动部件的质点模型；交通信号灯模型包括信号灯位置模型和信号灯相位时序SPaT模型；

交通信号灯位置模型采用可变信号灯位置，如下所示：

其中，

表示第

个信号灯的位置

；

表示信号灯位置的容许变化量，

表示理想信号灯间距；

表示理想信号灯位置，如下所示：

交通信号灯SPaT模型使用

和

表示信号灯相位和时序信息，如下所示：

其中，

和

分别表示交通信号的红灯持续时间和绿灯持续时间；

表示交通信号的状态，

表示红灯，

表示绿灯；

表示与时间

对应的信号周期内时间，如下所示：

S2.定义多信号灯训练DRL环境的状态空间

、动作空间

和奖励函数

；

S3.在训练环境中对DRL网络进行训练，得到与

对应的训练好的DRL车速规划模型DRL-L；

S4.将训练好的DRL-L模型应用到复杂的测试场景，得到全局经济车速；包括以下子步骤：

S41.根据测试场景中信号灯的分布情况按需引入虚拟信号灯，对测试场景进行重构；具体如下所示：

设测试场景信号灯数量为

；如果

，则在信号灯缺失的路段上引入虚拟信号灯；

虚拟信号灯的信号状态一直保持绿灯，且虚拟信号灯的位置位于相应路段的中心；

步骤S42中所述的按照训练场景的尺度，在测试场景中滚动应用训练好的DRL-L模型，具体如下所示：

计算

和

的大小关系：

在测试场景中滚动前进，将训练好的DRL-L模型应用

次；然后判断

是否为0，如果

，则在最后

个信号灯前引入

个虚拟信号灯，并再次应用训练好的DRL-L模型；

每一次模型应用后的环境终端状态应作为下一次应用时的环境初始状态；

S43.将DRL模型的输出组合到一起，得到完整的车速规划结果；

对应的DRL-L模型性能。

2.根据权利要求1所述的一种燃料电池汽车多信号灯车速规划方法，其特征在于：步骤S2中所述的多信号灯训练DRL环境的状态空间

、动作空间

和奖励函数

具体分别为：

状态空间

包含FCV和交通信号灯的相关信息，如下所示：

其中，

表示车速；

表示信号灯位置与车辆位置的差值，

的长度均为

；

动作空间

包含FCV的加速度

，如下所示：

奖励函数

，如下所示：

其中，

与车辆预计是否闯红灯的行为有关；

与车辆是否闯红灯有关；

分别和车辆的速度、加速度和冲击度

有关。

3.根据权利要求1所述的一种燃料电池汽车多信号灯车速规划方法，其特征在于：步骤S3中所述的在训练环境中对DRL网络进行训练，包括以下子步骤：

S31.初始化DRL网络、经验池

和随机探索噪声

；

S33.从经验池中选取长度为

的小批量数据，进行DRL网络参数更新；

S34.重复进行S32和S33，直至达到收敛条件。

4.根据权利要求3所述的一种燃料电池汽车多信号灯车速规划方法，其特征在于：步骤S31中所述的DRL网络和随机探索噪声

，具体如下所示：

DRL网络包含actor网络

和critic网络

以及相对应的目标网络

和

；

随机探索噪声选取Ornstein-Uhlenbeck噪声或者高斯噪声。

5.根据权利要求3所述的一种燃料电池汽车多信号灯车速规划方法，其特征在于：步骤S32中所述的根据当前状态和随机探索噪声选择动作，并将相关经验添加到经验池，具体分别为：

actor网络根据当前状态

选择动作

，获得奖励

并转移到下一状态

；其中，动作

如下所示：

存储到经验池的相关经验为

，其中

其中，

和

分别为每个训练回合的最大行驶里程和最大行驶时间。

6.根据权利要求3所述的一种燃料电池汽车多信号灯车速规划方法，其特征在于：步骤S33中所述的从经验池中选取长度为

的小批量数据，进行DRL网络参数更新，具体分别为：

critic网络以最小化损失函数

为目标进行参数更新；actor网络使用策略梯度

进行参数更新；目标网络参数根据对应网络进行软更新。

7.根据权利要求1所述的一种燃料电池汽车多信号灯车速规划方法，其特征在于：步骤S5中所述的在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗，包括以下子步骤：

S52.选取电池SOC作为状态变量

，燃料电池输出功率作为控制变量

，车速作为干扰变量

；

S53.建立和氢气消耗率