CN112989715B - 一种燃料电池汽车多信号灯车速规划方法 - Google Patents

一种燃料电池汽车多信号灯车速规划方法 Download PDF

Info

Publication number
CN112989715B
CN112989715B CN202110550474.3A CN202110550474A CN112989715B CN 112989715 B CN112989715 B CN 112989715B CN 202110550474 A CN202110550474 A CN 202110550474A CN 112989715 B CN112989715 B CN 112989715B
Authority
CN
China
Prior art keywords
model
drl
training
signal lamp
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110550474.3A
Other languages
English (en)
Other versions
CN112989715A (zh
Inventor
孙超
刘波
孙逢春
任强
周飞鲲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Guangzhou Automobile Group Co Ltd
Original Assignee
Beijing Institute of Technology BIT
Guangzhou Automobile Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT, Guangzhou Automobile Group Co Ltd filed Critical Beijing Institute of Technology BIT
Priority to CN202110550474.3A priority Critical patent/CN112989715B/zh
Publication of CN112989715A publication Critical patent/CN112989715A/zh
Application granted granted Critical
Publication of CN112989715B publication Critical patent/CN112989715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Traffic Control Systems (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明公开了一种燃料电池汽车多信号灯车速规划方法,构建包含
Figure 100004_DEST_PATH_IMAGE002
个交通信号灯的深度强化学习DRL训练场景,建立燃料电池汽车FCV训练模型和交通信号灯模型;定义多信号灯训练DRL环境的状态空间
Figure 100004_DEST_PATH_IMAGE004
、动作空间
Figure 100004_DEST_PATH_IMAGE006
和奖励函数
Figure 100004_DEST_PATH_IMAGE008
;在训练环境中对DRL网络进行训练,得到与
Figure 10524DEST_PATH_IMAGE002
对应的训练好的DRL车速规划模型DRL‑L;将训练好的DRL‑L模型应用到复杂的测试场景,得到全局经济车速;建立FCV动力传动系统模型,在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗,并比较不同
Figure 492321DEST_PATH_IMAGE002
对应的DRL‑L模型性能。本发明对环境具有很强的自适应能力,具有更低的氢耗和更好的舒适性。

Description

一种燃料电池汽车多信号灯车速规划方法
技术领域
本发明涉及经济车速规划领域,特别是涉及一种燃料电池汽车多信号灯车速规划方法。
背景技术
通过共享的实时交通信息和对复杂环境的感知,智能网联汽车具有超出人类驾驶员的全局规划和决策能力。利用V2X通讯技术,网联式燃料电池汽车可以获取周边交通基础设施的未来信息和其他交通参与者的实时信息,从而实现经济车速规划。
在交通信号灯环境下,现有的经济车速规划方法主要分为基于优化的方法和基于强化学习的方法。基于优化的方法能够获得最优或者近似最优的全局解,但是计算代价往往很大;基于强化学习尤其是深度强化学习的方法表现出很好的实时性和良好的性能,但是当前的基于深度强化学习的车速规划方法在训练过程中只考虑车辆前方单个交通信号灯的信息,忽略了全局最优性。相比之下,基于前方多个交通信号灯的信息进行决策具有更大的节能潜力。
发明内容
本发明的目的在于弥补现有规划方法的不足,提出一种燃料电池汽车多信号灯车速规划方法,该方法对环境具有很强的自适应能力,并且相比于单信号灯训练深度强化学习车速规划方法表现出更低的氢耗和更好的舒适性。
为实现上述目的,本发明采用以下技术方案:一种燃料电池汽车多信号灯车速规划方法,包括以下步骤:
S1.构建包含
Figure 100002_DEST_PATH_IMAGE002
个交通信号灯的深度强化学习DRL训练场景,建立燃料电池汽车FCV训练模型和交通信号灯模型;
S2.定义多信号灯训练DRL环境的状态空间
Figure 100002_DEST_PATH_IMAGE004
、动作空间
Figure 100002_DEST_PATH_IMAGE006
和奖励函数
Figure 100002_DEST_PATH_IMAGE008
S3.在训练环境中对DRL网络进行训练,得到与
Figure 519847DEST_PATH_IMAGE002
对应的训练好的DRL车速规划模型DRL-L;
S4.将训练好的DRL-L模型应用到复杂的测试场景,得到全局经济车速;
S5.建立FCV动力传动系统模型,在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗,并比较不同
Figure 346858DEST_PATH_IMAGE002
对应的DRL-L模型性能。
进一步地,步骤S1中所述的燃料电池汽车FCV训练模型采用不考虑动力传动部件的质点模型;交通信号灯模型包括信号灯位置模型和信号灯相位时序SPaT模型;
交通信号灯位置模型采用可变信号灯位置,如下所示:
Figure 100002_DEST_PATH_IMAGE010
其中,
Figure 100002_DEST_PATH_IMAGE012
表示第
Figure 100002_DEST_PATH_IMAGE014
个信号灯的位置
Figure 100002_DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE018
表示信号灯位置的容许变化量,
Figure 100002_DEST_PATH_IMAGE020
表示理想信号灯间距;
Figure 100002_DEST_PATH_IMAGE022
表示理想信号灯位置,如下所示:
Figure 100002_DEST_PATH_IMAGE024
交通信号灯SPaT模型使用
Figure 100002_DEST_PATH_IMAGE026
Figure 100002_DEST_PATH_IMAGE028
表示信号灯相位和时序信息,如下所示:
Figure 100002_DEST_PATH_IMAGE030
其中,
Figure 100002_DEST_PATH_IMAGE032
Figure 100002_DEST_PATH_IMAGE034
分别表示交通信号的红灯持续时间和绿灯持续时间;
Figure 100002_DEST_PATH_IMAGE036
表示交通信号的状态,
Figure 100002_DEST_PATH_IMAGE038
表示红灯,
Figure 100002_DEST_PATH_IMAGE040
表示绿灯;
Figure 100002_DEST_PATH_IMAGE042
表示与时间
Figure 100002_DEST_PATH_IMAGE044
对应的信号周期内时间,如下所示:
Figure 100002_DEST_PATH_IMAGE046
一旦信号灯位于车辆后方,其SPaT信息会被重置并且锁定,如下所示:
Figure 100002_DEST_PATH_IMAGE048
进一步地,步骤S2中所述的多信号灯训练DRL环境的状态空间
Figure 100002_DEST_PATH_IMAGE049
、动作空间
Figure 100002_DEST_PATH_IMAGE051
和奖励函数
Figure 100002_DEST_PATH_IMAGE053
具体分别为:
状态空间
Figure 100002_DEST_PATH_IMAGE055
包含FCV和交通信号灯的相关信息,如下所示:
Figure 100002_DEST_PATH_IMAGE057
其中,
Figure 100002_DEST_PATH_IMAGE059
表示车速;
Figure 100002_DEST_PATH_IMAGE061
表示信号灯位置与车辆位置的差值,
Figure 100002_DEST_PATH_IMAGE063
的长度均为
Figure 100002_DEST_PATH_IMAGE065
动作空间
Figure DEST_PATH_IMAGE066
包含FCV的加速度
Figure 100002_DEST_PATH_IMAGE068
,如下所示:
Figure 100002_DEST_PATH_IMAGE070
奖励函数
Figure 100002_DEST_PATH_IMAGE072
,如下所示:
Figure 100002_DEST_PATH_IMAGE074
其中,
Figure 100002_DEST_PATH_IMAGE076
与车辆预计是否闯红灯的行为有关;
Figure 100002_DEST_PATH_IMAGE078
与车辆是否闯红灯有关;
Figure 100002_DEST_PATH_IMAGE080
分别和车辆的速度、加速度和冲击度
Figure 100002_DEST_PATH_IMAGE082
有关;各项奖励如下所示:
Figure 100002_DEST_PATH_IMAGE084
其中,
Figure 100002_DEST_PATH_IMAGE086
表示预计通过信号灯路口的时间;
Figure 100002_DEST_PATH_IMAGE088
表示通过信号灯路口的时间。
进一步地,所述步骤S3中,在训练环境中对DRL网络进行训练,包括以下子步骤:
S31.初始化DRL网络、经验池
Figure 100002_DEST_PATH_IMAGE090
和随机探索噪声
Figure 100002_DEST_PATH_IMAGE092
S32.根据当前状态和随机探索噪声选择动作,并将相关经验添加到经验池;
S33.从经验池中选取长度为
Figure 100002_DEST_PATH_IMAGE094
的小批量数据,进行DRL网络参数更新;
S34.重复进行S32和S33,直至达到收敛条件。
进一步地,步骤S31中所述的DRL网络和随机探索噪声
Figure 876278DEST_PATH_IMAGE092
,具体如下所示:
DRL网络包含actor网络
Figure 100002_DEST_PATH_IMAGE096
和critic网络
Figure 100002_DEST_PATH_IMAGE098
以及相对应的目标网络
Figure 100002_DEST_PATH_IMAGE100
Figure 100002_DEST_PATH_IMAGE102
;DRL网络均包含1个输入层、2个隐藏层和1个输出层;其中,actor网络及其目标网络的输入是状态,输出是动作;critic网络及其目标网络的输入是状态和动作,输出是动作价值
Figure 100002_DEST_PATH_IMAGE104
随机探索噪声选取Ornstein-Uhlenbeck噪声或者高斯噪声。
进一步地,步骤S32中所述的根据当前状态和随机探索噪声选择动作,并将相关经验添加到经验池,具体分别为:
actor网络根据当前状态
Figure 100002_DEST_PATH_IMAGE106
选择动作
Figure DEST_PATH_IMAGE108
,获得奖励
Figure DEST_PATH_IMAGE110
并转移到下一状态
Figure DEST_PATH_IMAGE112
;其中,动作
Figure 102729DEST_PATH_IMAGE108
如下所示:
Figure DEST_PATH_IMAGE114
存储到经验池的相关经验为
Figure DEST_PATH_IMAGE116
,其中
Figure DEST_PATH_IMAGE118
表示每个训练回合是否结束;每个训练回合的终止条件如下所示:
Figure DEST_PATH_IMAGE120
其中,
Figure DEST_PATH_IMAGE122
Figure DEST_PATH_IMAGE124
分别为每个训练回合的最大行驶里程和最大行驶时间。
进一步地,步骤S33中所述的从经验池中选取长度为
Figure 951605DEST_PATH_IMAGE094
的小批量数据,进行DRL网络参数更新,具体分别为:
critic网络以最小化损失函数为目标进行参数更新,如下所示:
Figure DEST_PATH_IMAGE126
其中,
Figure DEST_PATH_IMAGE128
actor网络使用策略梯度进行参数更新,如下所示:
Figure DEST_PATH_IMAGE130
目标网络参数采用软更新,如下所示:
Figure DEST_PATH_IMAGE132
其中,
Figure DEST_PATH_IMAGE134
进一步地,所述步骤S4中,将训练好的DRL-L模型应用到复杂的测试场景,得到全局经济车速,包括以下子步骤:
S41.根据测试场景中信号灯的分布情况按需引入虚拟信号灯,对测试场景进行重构;
S42.按照训练场景的尺度,在测试场景中滚动应用训练好的DRL-L模型;
S43.将DRL模型的输出组合到一起,得到完整的车速规划结果。
进一步地,所述步骤S41中,根据测试场景中信号灯的分布情况按需引入虚拟信号灯,对测试场景进行重构,具体如下所示:
设测试场景信号灯数量为
Figure DEST_PATH_IMAGE136
,按照训练场景中信号灯和路段一一对应的分布关系,得到测试场景中的理想信号灯数量
Figure DEST_PATH_IMAGE138
;如果
Figure DEST_PATH_IMAGE140
,则在信号灯缺失的路段上引入虚拟信号灯;
虚拟信号灯的信号状态一直保持绿灯,且虚拟信号灯的位置位于相应路段的中心。
进一步地,步骤S42中所述的按照训练场景的尺度,在测试场景中滚动应用训练好的DRL-L模型,具体如下所示:
计算
Figure 605309DEST_PATH_IMAGE138
Figure DEST_PATH_IMAGE142
的大小关系:
Figure DEST_PATH_IMAGE144
在测试场景中滚动前进,将训练好的DRL-L模型应用
Figure DEST_PATH_IMAGE146
次;然后判断
Figure DEST_PATH_IMAGE148
是否为0,如果
Figure DEST_PATH_IMAGE150
,则在最后
Figure 375688DEST_PATH_IMAGE148
个信号灯前引入
Figure DEST_PATH_IMAGE152
个虚拟信号灯,并再次应用训练好的DRL-L模型;
每一次模型应用后的环境终端状态应作为下一次应用时的环境初始状态。
进一步地,所述步骤S5中,在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗,包括以下子步骤:
S51.建立FCV动力传动系统模型,包括整车功率需求模型、供需端功率平衡模型、氢耗模型和动力电池等效电路模型;
S52.选取电池SOC作为状态变量
Figure DEST_PATH_IMAGE154
,燃料电池输出功率作为控制变量
Figure DEST_PATH_IMAGE156
,车速作为干扰变量
Figure DEST_PATH_IMAGE158
S53.建立和氢气消耗率
Figure DEST_PATH_IMAGE160
相关的目标函数
Figure DEST_PATH_IMAGE162
,在电量维持模式并满足各项约束条件下利用DP求解测试场景下全局车速规划结果的氢耗。
本发明提供的车速规划方法同样适用于包括传统燃油车、混合动力汽车等多种动力类型在内的网联式车辆,车速规划结果能耗评估需依据不同车型进行相应调整。
与现有技术相比,本发明的有益效果是:
(1)本发明面向网联式燃料电池汽车经济车速规划任务,建立了多信号灯DRL训练环境,增强了车辆的环境感知和规划决策能力。
(2)本发明提出了基于可变距离的信号灯位置模型和用三角函数表示的信号灯SPaT模型,有效提高了DRL模型对复杂信号灯行驶环境的自适应能力。
(3)本发明提出的多信号灯车速规划方法具备实时在线应用潜力,并且相比于单信号灯训练方法表现出更好的能耗经济性和舒适性。
附图说明
图1为本发明所提出的燃料电池汽车多信号灯车速规划方法流程图;
图2为本发明中多信号灯训练DRL场景;
图3为本发明中DRL网络训练流程图;
图4为本发明中测试场景下训练好的DRL-L模型应用流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细的描述,但本发明的保护范围不局限于以下所述。
本发明利用深度强化学习算法解决智能网联环境下多信号灯路口车速规划问题,以训练环境中的信号灯数量
Figure DEST_PATH_IMAGE164
为关键参数,提出了燃料电池汽车多信号灯车速规划算法,实现了能耗经济性和舒适性的提升。
如图1所示,一种燃料电池汽车多信号灯车速规划方法,包括以下步骤:
S1.构建包含
Figure DEST_PATH_IMAGE166
个交通信号灯的深度强化学习DRL训练场景,如图2所示,建立燃料电池汽车FCV训练模型和交通信号灯模型。
燃料电池汽车FCV训练模型采用不考虑动力传动部件的质点模型;交通信号灯模型包括信号灯位置模型和信号灯相位时序SPaT模型。
交通信号灯位置模型采用可变信号灯位置,如公式(1)所示:
Figure DEST_PATH_IMAGE167
(1)
其中,
Figure DEST_PATH_IMAGE168
表示第
Figure DEST_PATH_IMAGE169
个信号灯的位置
Figure DEST_PATH_IMAGE170
Figure DEST_PATH_IMAGE171
表示信号灯位置的容许变化量,
Figure DEST_PATH_IMAGE172
表示理想信号灯间距;
Figure DEST_PATH_IMAGE173
表示理想信号灯位置,如公式(2)所示:
Figure DEST_PATH_IMAGE174
(2)
交通信号灯SPaT模型使用
Figure DEST_PATH_IMAGE175
Figure DEST_PATH_IMAGE176
表示信号灯相位和时序信息,如公式(3)-(4)所示:
Figure DEST_PATH_IMAGE178
(3)
Figure DEST_PATH_IMAGE180
(4)
其中,
Figure DEST_PATH_IMAGE181
Figure DEST_PATH_IMAGE182
分别表示交通信号的红灯持续时间和绿灯持续时间;
Figure DEST_PATH_IMAGE183
表示交通信号的状态,
Figure DEST_PATH_IMAGE184
表示红灯,
Figure DEST_PATH_IMAGE185
表示绿灯;
Figure DEST_PATH_IMAGE186
表示与时间
Figure DEST_PATH_IMAGE187
对应的信号周期内时间,如公式(5)所示:
Figure DEST_PATH_IMAGE188
(5)
一旦信号灯位于车辆后方,其SPaT信息会被重置并且锁定,如公式(6)所示:
Figure DEST_PATH_IMAGE189
(6)
S2.定义多信号灯训练DRL环境的状态空间
Figure DEST_PATH_IMAGE190
、动作空间
Figure DEST_PATH_IMAGE191
和奖励函数
Figure DEST_PATH_IMAGE192
状态空间
Figure DEST_PATH_IMAGE193
包含FCV和交通信号灯的相关信息,如公式(7)所示:
Figure DEST_PATH_IMAGE194
(7)
其中,
Figure DEST_PATH_IMAGE195
表示车速;
Figure DEST_PATH_IMAGE196
表示信号灯位置与车辆位置的差值,
Figure DEST_PATH_IMAGE197
的长度均为
Figure DEST_PATH_IMAGE198
动作空间
Figure DEST_PATH_IMAGE199
包含FCV的加速度
Figure DEST_PATH_IMAGE200
,如公式(8)所示:
Figure DEST_PATH_IMAGE201
(8)
奖励函数
Figure DEST_PATH_IMAGE202
,如公式(9)所示:
Figure DEST_PATH_IMAGE203
(9)
其中,
Figure DEST_PATH_IMAGE204
与车辆预计是否闯红灯的行为有关;
Figure DEST_PATH_IMAGE205
与车辆是否闯红灯有关;
Figure DEST_PATH_IMAGE206
分别和车辆的速度、加速度和冲击度
Figure DEST_PATH_IMAGE082A
有关;各项奖励如公式(10)所示:
Figure DEST_PATH_IMAGE207
(10)
其中,
Figure 3501DEST_PATH_IMAGE086
表示预计通过信号灯路口的时间;
Figure 270666DEST_PATH_IMAGE088
表示通过信号灯路口的时间。
S3.在训练环境中对DRL网络进行训练,如图3所示,得到与
Figure DEST_PATH_IMAGE209
对应的训练好的DRL车速规划模型DRL-L。
所述步骤S3具体包括:
S31.初始化DRL网络、经验池
Figure 846004DEST_PATH_IMAGE090
和随机探索噪声
Figure 447886DEST_PATH_IMAGE092
DRL网络包含actor网络
Figure DEST_PATH_IMAGE210
和critic网络
Figure DEST_PATH_IMAGE211
以及相对应的目标网络
Figure 140774DEST_PATH_IMAGE100
Figure 511712DEST_PATH_IMAGE102
。DRL网络均包含1个输入层、2个节点数均为256的隐藏层和1个输出层。其中,actor网络及其目标网络的输入是状态,输出是动作;critic网络及其目标网络的输入是状态和动作,输出是动作价值
Figure DEST_PATH_IMAGE212
随机探索噪声选取Ornstein-Uhlenbeck噪声。
S32.根据当前状态和随机探索噪声选择动作,并将相关经验添加到经验池。
actor网络根据当前状态
Figure 8684DEST_PATH_IMAGE106
选择动作
Figure 832283DEST_PATH_IMAGE108
,获得奖励
Figure 220539DEST_PATH_IMAGE110
并转移到下一状态
Figure 445984DEST_PATH_IMAGE112
。其中,动作
Figure 877971DEST_PATH_IMAGE108
如公式(11)所示:
Figure DEST_PATH_IMAGE213
(11)
存储到经验池的相关经验为
Figure 985605DEST_PATH_IMAGE116
,其中
Figure 911972DEST_PATH_IMAGE118
表示每个训练回合是否结束。每个训练回合的终止条件如公式(12)所示:
Figure 742656DEST_PATH_IMAGE120
(12)
其中,
Figure DEST_PATH_IMAGE215
S33.从经验池中选取长度为
Figure DEST_PATH_IMAGE217
的小批量数据,进行神经网络参数更新。
critic网络以最小化损失函数为目标进行参数更新,如公式(13)所示:
Figure DEST_PATH_IMAGE218
(13)
其中,
Figure DEST_PATH_IMAGE219
actor网络使用策略梯度进行参数更新,如公式(14)所示:
Figure DEST_PATH_IMAGE220
(14)
目标网络参数采用软更新,如公式(15)所示:
Figure DEST_PATH_IMAGE221
(15)
其中,
Figure 798075DEST_PATH_IMAGE134
S34.重复进行S32和S33,直至达到收敛条件。
S4.将训练好的DRL-L模型应用到复杂的测试场景,得到全局经济车速,如图4所示。
所述步骤S4具体包括:
S41.根据测试场景中信号灯的分布情况按需引入虚拟信号灯,对测试场景进行重构。
设测试场景信号灯数量为
Figure 346999DEST_PATH_IMAGE136
,按照训练场景中信号灯和路段一一对应的分布关系,得到测试场景中的理想信号灯数量
Figure 873795DEST_PATH_IMAGE138
;如果
Figure 808253DEST_PATH_IMAGE140
,则在信号灯缺失的路段上引入虚拟信号灯。
虚拟信号灯的信号状态一直保持绿灯,且虚拟信号灯的位置位于相应路段的中心。
S42.按照训练场景的尺度,在测试场景中滚动应用训练好的DRL-L模型。
计算
Figure 847622DEST_PATH_IMAGE138
Figure 133110DEST_PATH_IMAGE142
的大小关系,如公式(16)所示:
Figure 401280DEST_PATH_IMAGE144
(16)
在测试场景中滚动前进,将训练好的DRL-L模型应用
Figure 455824DEST_PATH_IMAGE146
次;然后判断
Figure 167559DEST_PATH_IMAGE148
是否为0,如果
Figure 674764DEST_PATH_IMAGE150
,则在最后
Figure 746625DEST_PATH_IMAGE148
个信号灯前引入
Figure 921254DEST_PATH_IMAGE152
个虚拟信号灯,并再次应用训练好的DRL-L模型。
每一次模型应用后的环境终端状态应作为下一次应用时的环境初始状态。
S43.将DRL模型的输出组合到一起,得到完整的车速规划结果。
S5.建立FCV动力传动系统模型,在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗,并比较不同
Figure DEST_PATH_IMAGE224
对应的DRL-L模型性能。
所述步骤S5具体包括:
S51.建立FCV动力传动系统模型,包括整车功率需求模型、供需端功率平衡模型、氢耗模型和动力电池等效电路模型;
S52.选取电池SOC作为状态变量
Figure 568005DEST_PATH_IMAGE154
,燃料电池输出功率作为控制变量
Figure 828085DEST_PATH_IMAGE156
,车速作为干扰变量
Figure 438058DEST_PATH_IMAGE158
S53.建立和氢气消耗率
Figure 217926DEST_PATH_IMAGE160
相关的目标函数
Figure DEST_PATH_IMAGE225
,在电量维持模式并满足各项约束条件下利用DP求解测试场景下全局车速规划结果的氢耗。
以上所述是本发明的优选实施方式,应被理解为本发明的保护范围并不局限于这样的特定陈述和实施例。本领域的普通技术人员依据本发明的核心思想所进行的改动和变化,都应在本发明所附权利要求的保护范围内。

Claims (7)

1.一种燃料电池汽车多信号灯车速规划方法,其特征在于,包括以下步骤:
S1.构建包含
Figure DEST_PATH_IMAGE002
个交通信号灯的深度强化学习DRL训练场景,建立燃料电池汽车FCV训练模型和交通信号灯模型;
步骤S1中所述的燃料电池汽车FCV训练模型采用不考虑动力传动部件的质点模型;交通信号灯模型包括信号灯位置模型和信号灯相位时序SPaT模型;
交通信号灯位置模型采用可变信号灯位置,如下所示:
Figure DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE006
表示第
Figure DEST_PATH_IMAGE008
个信号灯的位置
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
表示信号灯位置的容许变化量,
Figure DEST_PATH_IMAGE014
表示理想信号灯间距;
Figure DEST_PATH_IMAGE016
表示理想信号灯位置,如下所示:
Figure DEST_PATH_IMAGE018
交通信号灯SPaT模型使用
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
表示信号灯相位和时序信息,如下所示:
Figure DEST_PATH_IMAGE024
其中,
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
分别表示交通信号的红灯持续时间和绿灯持续时间;
Figure DEST_PATH_IMAGE030
表示交通信号的状态,
Figure DEST_PATH_IMAGE032
表示红灯,
Figure DEST_PATH_IMAGE034
表示绿灯;
Figure DEST_PATH_IMAGE036
表示与时间
Figure DEST_PATH_IMAGE038
对应的信号周期内时间,如下所示:
Figure DEST_PATH_IMAGE040
一旦信号灯位于车辆后方,其SPaT信息会被重置并且锁定,如下所示:
Figure DEST_PATH_IMAGE042
S2.定义多信号灯训练DRL环境的状态空间
Figure DEST_PATH_IMAGE044
、动作空间
Figure DEST_PATH_IMAGE046
和奖励函数
Figure DEST_PATH_IMAGE048
S3.在训练环境中对DRL网络进行训练,得到与
Figure DEST_PATH_IMAGE049
对应的训练好的DRL车速规划模型DRL-L;
S4.将训练好的DRL-L模型应用到复杂的测试场景,得到全局经济车速;包括以下子步骤:
S41.根据测试场景中信号灯的分布情况按需引入虚拟信号灯,对测试场景进行重构;具体如下所示:
设测试场景信号灯数量为
Figure DEST_PATH_IMAGE051
,按照训练场景中信号灯和路段一一对应的分布关系,得到测试场景中的理想信号灯数量
Figure DEST_PATH_IMAGE053
;如果
Figure DEST_PATH_IMAGE055
,则在信号灯缺失的路段上引入虚拟信号灯;
虚拟信号灯的信号状态一直保持绿灯,且虚拟信号灯的位置位于相应路段的中心;
步骤S42中所述的按照训练场景的尺度,在测试场景中滚动应用训练好的DRL-L模型,具体如下所示:
计算
Figure 639736DEST_PATH_IMAGE053
Figure DEST_PATH_IMAGE057
的大小关系:
Figure DEST_PATH_IMAGE059
在测试场景中滚动前进,将训练好的DRL-L模型应用
Figure DEST_PATH_IMAGE061
次;然后判断
Figure DEST_PATH_IMAGE063
是否为0,如果
Figure DEST_PATH_IMAGE065
,则在最后
Figure 871391DEST_PATH_IMAGE063
个信号灯前引入
Figure DEST_PATH_IMAGE067
个虚拟信号灯,并再次应用训练好的DRL-L模型;
每一次模型应用后的环境终端状态应作为下一次应用时的环境初始状态;
S42.按照训练场景的尺度,在测试场景中滚动应用训练好的DRL-L模型;
S43.将DRL模型的输出组合到一起,得到完整的车速规划结果;
S5.建立FCV动力传动系统模型,在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗,并比较不同
Figure 792074DEST_PATH_IMAGE049
对应的DRL-L模型性能。
2.根据权利要求1所述的一种燃料电池汽车多信号灯车速规划方法,其特征在于:步骤S2中所述的多信号灯训练DRL环境的状态空间
Figure DEST_PATH_IMAGE068
、动作空间
Figure DEST_PATH_IMAGE070
和奖励函数
Figure DEST_PATH_IMAGE072
具体分别为:
状态空间
Figure DEST_PATH_IMAGE074
包含FCV和交通信号灯的相关信息,如下所示:
Figure DEST_PATH_IMAGE076
其中,
Figure DEST_PATH_IMAGE078
表示车速;
Figure DEST_PATH_IMAGE080
表示信号灯位置与车辆位置的差值,
Figure DEST_PATH_IMAGE082
的长度均为
Figure DEST_PATH_IMAGE084
动作空间
Figure 233288DEST_PATH_IMAGE046
包含FCV的加速度
Figure DEST_PATH_IMAGE086
,如下所示:
Figure DEST_PATH_IMAGE088
奖励函数
Figure DEST_PATH_IMAGE090
,如下所示:
Figure DEST_PATH_IMAGE092
其中,
Figure DEST_PATH_IMAGE094
与车辆预计是否闯红灯的行为有关;
Figure DEST_PATH_IMAGE096
与车辆是否闯红灯有关;
Figure DEST_PATH_IMAGE098
分别和车辆的速度、加速度和冲击度
Figure DEST_PATH_IMAGE100
有关。
3.根据权利要求1所述的一种燃料电池汽车多信号灯车速规划方法,其特征在于:步骤S3中所述的在训练环境中对DRL网络进行训练,包括以下子步骤:
S31.初始化DRL网络、经验池
Figure DEST_PATH_IMAGE102
和随机探索噪声
Figure DEST_PATH_IMAGE104
S32.根据当前状态和随机探索噪声选择动作,并将相关经验添加到经验池;
S33.从经验池中选取长度为
Figure DEST_PATH_IMAGE106
的小批量数据,进行DRL网络参数更新;
S34.重复进行S32和S33,直至达到收敛条件。
4.根据权利要求3所述的一种燃料电池汽车多信号灯车速规划方法,其特征在于:步骤S31中所述的DRL网络和随机探索噪声
Figure DEST_PATH_IMAGE107
,具体如下所示:
DRL网络包含actor网络
Figure DEST_PATH_IMAGE109
和critic网络
Figure DEST_PATH_IMAGE111
以及相对应的目标网络
Figure DEST_PATH_IMAGE113
Figure DEST_PATH_IMAGE115
;DRL网络均包含1个输入层、2个隐藏层和1个输出层;其中,actor网络及其目标网络的输入是状态,输出是动作;critic网络及其目标网络的输入是状态和动作,输出是动作价值
Figure DEST_PATH_IMAGE117
随机探索噪声选取Ornstein-Uhlenbeck噪声或者高斯噪声。
5.根据权利要求3所述的一种燃料电池汽车多信号灯车速规划方法,其特征在于:步骤S32中所述的根据当前状态和随机探索噪声选择动作,并将相关经验添加到经验池,具体分别为:
actor网络根据当前状态
Figure DEST_PATH_IMAGE119
选择动作
Figure DEST_PATH_IMAGE121
,获得奖励
Figure DEST_PATH_IMAGE123
并转移到下一状态
Figure DEST_PATH_IMAGE125
;其中,动作
Figure 894599DEST_PATH_IMAGE121
如下所示:
Figure DEST_PATH_IMAGE127
存储到经验池的相关经验为
Figure DEST_PATH_IMAGE129
,其中
Figure DEST_PATH_IMAGE131
表示每个训练回合是否结束;每个训练回合的终止条件如下所示:
Figure DEST_PATH_IMAGE133
其中,
Figure DEST_PATH_IMAGE135
Figure DEST_PATH_IMAGE137
分别为每个训练回合的最大行驶里程和最大行驶时间。
6.根据权利要求3所述的一种燃料电池汽车多信号灯车速规划方法,其特征在于:步骤S33中所述的从经验池中选取长度为
Figure 969259DEST_PATH_IMAGE106
的小批量数据,进行DRL网络参数更新,具体分别为:
critic网络以最小化损失函数
Figure DEST_PATH_IMAGE139
为目标进行参数更新;actor网络使用策略梯度
Figure DEST_PATH_IMAGE141
进行参数更新;目标网络参数根据对应网络进行软更新。
7.根据权利要求1所述的一种燃料电池汽车多信号灯车速规划方法,其特征在于:步骤S5中所述的在电量维持模式下利用动态规划算法DP计算测试场景下全局车速规划结果的氢耗,包括以下子步骤:
S51.建立FCV动力传动系统模型,包括整车功率需求模型、供需端功率平衡模型、氢耗模型和动力电池等效电路模型;
S52.选取电池SOC作为状态变量
Figure DEST_PATH_IMAGE143
,燃料电池输出功率作为控制变量
Figure DEST_PATH_IMAGE145
,车速作为干扰变量
Figure DEST_PATH_IMAGE147
S53.建立和氢气消耗率
Figure DEST_PATH_IMAGE149
相关的目标函数
Figure DEST_PATH_IMAGE151
,在电量维持模式并满足各项约束条件下利用DP求解测试场景下全局车速规划结果的氢耗。
CN202110550474.3A 2021-05-20 2021-05-20 一种燃料电池汽车多信号灯车速规划方法 Active CN112989715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110550474.3A CN112989715B (zh) 2021-05-20 2021-05-20 一种燃料电池汽车多信号灯车速规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110550474.3A CN112989715B (zh) 2021-05-20 2021-05-20 一种燃料电池汽车多信号灯车速规划方法

Publications (2)

Publication Number Publication Date
CN112989715A CN112989715A (zh) 2021-06-18
CN112989715B true CN112989715B (zh) 2021-08-03

Family

ID=76337034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110550474.3A Active CN112989715B (zh) 2021-05-20 2021-05-20 一种燃料电池汽车多信号灯车速规划方法

Country Status (1)

Country Link
CN (1) CN112989715B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779703B (zh) * 2021-09-22 2023-12-22 北京理工大学 一种燃料电池汽车车速规划与能量管理的联合优化方法
CN114103971B (zh) * 2021-11-23 2023-10-10 北京理工大学 一种燃料电池汽车节能驾驶优化方法及装置
CN113978478B (zh) * 2021-11-23 2023-11-21 北京理工大学 一种基于分层凸优化的燃料电池汽车节能驾驶方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112339756A (zh) * 2020-10-14 2021-02-09 天津大学 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法
CN112669629A (zh) * 2020-12-17 2021-04-16 北京建筑大学 一种基于深度强化学习的实时交通信号控制方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4364671B2 (ja) * 2004-02-25 2009-11-18 株式会社タカラトミー 鉄道模型用信号機および鉄道模型用信号機の制御方法
US10295364B2 (en) * 2017-05-26 2019-05-21 Alpine Electronics, Inc. Obstacle data providing system, data processing apparatus and method of providing obstacle data
CN108828939B (zh) * 2018-05-31 2021-07-20 重庆大学 一种考虑驾驶员操作特性的车速引导方法
CN110164150B (zh) * 2019-06-10 2020-07-24 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
CN110428615B (zh) * 2019-07-12 2021-06-22 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN110718077B (zh) * 2019-11-04 2020-08-07 武汉理工大学 一种行动-评价机制下信号灯优化配时方法
CN111243271A (zh) * 2020-01-11 2020-06-05 多伦科技股份有限公司 一种基于深度循环q学习的单点交叉口信号控制方法
CN111267830B (zh) * 2020-02-10 2021-07-09 南京航空航天大学 一种混合动力公交车能量管理方法、设备和存储介质
CN111898211B (zh) * 2020-08-07 2022-11-01 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112580251B (zh) * 2020-11-16 2022-07-12 北京理工大学 基于交通信息和模型预测控制的混动汽车能量管理方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112339756A (zh) * 2020-10-14 2021-02-09 天津大学 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法
CN112669629A (zh) * 2020-12-17 2021-04-16 北京建筑大学 一种基于深度强化学习的实时交通信号控制方法及装置

Also Published As

Publication number Publication date
CN112989715A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112989715B (zh) 一种燃料电池汽车多信号灯车速规划方法
CN111061277B (zh) 一种无人车全局路径规划方法和装置
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
CN109910909B (zh) 一种多车运动状态的汽车轨迹网联交互式预测方法
Bai et al. Deep reinforcement learning based high-level driving behavior decision-making model in heterogeneous traffic
CN109726804A (zh) 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法
CN114103971B (zh) 一种燃料电池汽车节能驾驶优化方法及装置
Li et al. Adaptive traffic signal control model on intersections based on deep reinforcement learning
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN112498334B (zh) 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN115495997A (zh) 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
CN115534929A (zh) 基于多元信息融合的插电式混合动力汽车能量管理方法
Wang et al. Building transportation foundation model via generative graph transformer
Gan et al. Intelligent learning algorithm and intelligent transportation-based energy management strategies for hybrid electric vehicles: a review
Huang et al. Energy saving performance improvement of intelligent connected PHEVs via NN-based lane change decision
CN114516336B (zh) 一种考虑道路约束条件的车辆轨迹预测方法
CN113071508B (zh) 一种dcps架构下的车辆协同能量管理方法和系统
WO2022028257A1 (zh) 新能源车辆的能耗回收比预测方法、节能控制方法和系统
CN114954498A (zh) 基于模仿学习初始化的强化学习换道行为规划方法及系统
Liu et al. Adaptive eco-driving of fuel cell vehicles based on multi-light trained deep reinforcement learning
CN113435026A (zh) 一种交通管控系统
CN105138768A (zh) 一种基于社区分解的多智能体系统一致性实现方法
CN117708999B (zh) 一种面向场景的混动汽车能量管理策略评价方法
Gao et al. Multi-Vehicles Decision-Making in Interactive Highway Exit: A Graph Reinforcement Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant