CN117962633A - 一种基于深度强化学习的电动汽车力矩分配节能控制方法 - Google Patents
一种基于深度强化学习的电动汽车力矩分配节能控制方法 Download PDFInfo
- Publication number
- CN117962633A CN117962633A CN202410036764.XA CN202410036764A CN117962633A CN 117962633 A CN117962633 A CN 117962633A CN 202410036764 A CN202410036764 A CN 202410036764A CN 117962633 A CN117962633 A CN 117962633A
- Authority
- CN
- China
- Prior art keywords
- network
- torque
- target
- vehicle
- torque distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L15/00—Methods, circuits, or devices for controlling the traction-motor speed of electrically-propelled vehicles
- B60L15/20—Methods, circuits, or devices for controlling the traction-motor speed of electrically-propelled vehicles for control of the vehicle or its driving motor to achieve a desired performance, e.g. speed, torque, programmed variation of speed
- B60L15/2045—Methods, circuits, or devices for controlling the traction-motor speed of electrically-propelled vehicles for control of the vehicle or its driving motor to achieve a desired performance, e.g. speed, torque, programmed variation of speed for optimising the use of energy
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L15/00—Methods, circuits, or devices for controlling the traction-motor speed of electrically-propelled vehicles
- B60L15/32—Control or regulation of multiple-unit electrically-propelled vehicles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L2240/00—Control parameters of input or output; Target parameters
- B60L2240/40—Drive Train control parameters
- B60L2240/42—Drive Train control parameters related to electric machines
- B60L2240/423—Torque
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L2260/00—Operating Modes
- B60L2260/40—Control modes
- B60L2260/46—Control modes by self learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/72—Electric energy management in electromobility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Transportation (AREA)
- Power Engineering (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Medical Informatics (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
Abstract
本发明公开了一种基于深度强化学习的电动汽车力矩分配节能控制方法,具体涉及电动汽车动力系统优化和节能控制技术领域,设计了分层式的双层学习架构,上层使用LSTM长短时记忆网络,构建车辆需求力矩、前后轴力矩分配比系数预测模型,进行车辆需求力矩和需求前后轴力矩分配比系数的预测;通过预测力矩,判断拟采取的车辆驱动方式;下层深度强化学习网络则根据预期的驱动方式对电动汽车的转速以及力矩进行控制,对于前驱的汽车,对其力矩进行控制,对于四驱的汽车,对其前后轴力矩分配比系数进行控制,以获得优化的节能驾驶控制,同时保证当前汽车与前后车的距离保持在预期跟车距离附近,保证了汽车行驶的安全性,并且能保证交通效率。
Description
技术领域
本发明涉及电动汽车动力系统优化和节能控制技术领域,具体涉及一种基于深度强化学习的电动汽车力矩分配节能控制方法。
背景技术
随着全球能源危机的日益严重,传统燃油车辆所产生的尾气排放和对有限石油资源的依赖已经成为了一个严重的问题。电动汽车作为一种清洁能源交通工具,具有零排放和高效能的特点,成为了解决这些问题的一个重要选择。电动汽车采用电池作为动力源,通过电动机驱动车辆运行。同时,电动汽车的能源利用效率更高,可以将电能转化为机械能的效率达到70%以上,而燃油车的效率只有20%左右。优化电动机和电控系统,提高动力输出效率和驾驶性能,已成为提高电动汽车的节能性的关键技术。目前常见的优化电动机和电控系统策略大多基于规则或基于优化的方法处理,存在计算成本较大,依赖经验样本等缺点。
深度强化学习(DRL)是一种机器学习方法,通过智能体与环境的交互来学习最优的行为策略。在电动汽车力矩分配控制中,可以将电动汽车视为智能体,驾驶环境和需求为环境,通过与环境的交互来学习最优的力矩分配策略。在力矩分配控制中,通过深度强化学习方法学习到的最优力矩分配策略可以在实时驾驶中实现节能控制,从而提高电动汽车的能源利用效率。现有技术中针对电动汽车力矩分配大多基于固定工况,并且基于自学习智能控制算法的力矩分配控制研究较少。随着智能网联技术的发展,如何将深度强化学习算法技术应用于纯电动汽车在复杂交通环境下的实时力矩控制与分配策略,具备较强的实际应用意义。
发明内容
为此,本发明提供一种基于深度强化学习的电动汽车力矩分配节能控制方法,利用深度强化学习技术,通过对电动汽车系统数据采集、深度强化学习模型构建和训练,实现对电动汽车力矩分配的优化控制,以达到节能的目的。
为了实现上述目的,本发明提供如下技术方案:一种基于深度强化学习的电动汽车力矩分配节能控制方法,包括以下步骤:
S1:根据实际城市道路直线行驶工况,构建纯电动汽车动力系统模型,提出预设安全前后跟车距离L;
S2:利用LSTM长短时记忆神经网络,构建车辆力矩和分配比系数预测模型,进行车辆需求力矩和前后轴力矩分配比系数的预测;并提出力矩切换阈值N,将力矩切换阈值N与预测力矩比较,继而判断拟采取的车辆驱动模式,车辆驱动模式包括前驱模式和四驱模式。
S3:利用深度强化学习TD3算法,根据S2预期的车辆驱动模式对电动汽车的转速以及力矩进行控制,将车辆行驶因素作为奖励函数的设置依据;
S4:构建两个深度强化学习TD3网络,构建第一TD3网络,当汽车在前轮驱动模式时,使电机输出力矩分布在电机效率MAP图的高效率区;构建第二TD3网络,当汽车在四轮驱动时,对电机总输出力矩和汽车前后轴力矩分配比系数进行控制,得到使电机效率最高的前后轴力矩。
优选的,步骤S2车辆力矩和分配比系数预测模型的搭建步骤包括:
(1)提取电机效率MAP图和最优力矩分配比图上高效率区的转速以及转矩数据组成数据集,并将数据集划分为训练数据集与测试数据集;
(2)构建LSTM模型,分别通过训练数据集对LSTM模型进行训练,通过测试数据集对训练后的LSTM模型进行验证,根据验证结果反馈调整LSTM模型,完成车辆力矩和分配比系数预测模型的训练。
优选的,所述LSTM网络的遗忘门参数更新公式为:
ft=σ(Wf·[ht-1,xt])+bf
其中,ft表示t时刻的遗忘门状态,Wf和bf分别是遗忘门的权值和偏置,σ表示sigmoid函数,输出值范围为0到1,ht-1表示隐含层状态,xt表示t时刻网络的输入值;
LSTM网络的输入门用于更新输入细胞状态中的信息:
it=σ(Wi·[ht-1,xt]+bi)
其中,it表示t时刻的输入门状态,Wi和bi分别是输入门的权值和偏置;
LSTM网络记忆细胞状态Ct,由存储在前一个记忆细胞中的信息和新的候选信息进行更新:
Ct=tanh(Wc·[ht-1,xt]+bc)
其中,是t时刻的候选细胞状Ct是更新后的细胞状态,Wc、bc分别是细胞状态的权值和偏置,.代表点积;
LSTM的输出门用于控制细胞状态中的信息输出,根据记忆细胞状态Ct和输出门状态Ot计算输出隐含层状态ht-1:
Ot=σ(W0[ht-1,xt]+b0);
使用交叉熵损失函数计算预测结果与真实标签之间的差异,并使用反向传播算法更新车辆力矩和分配比系数预测模型参数,以最小化损失函数。
使用训练数据集对车辆力矩和分配比系数预测模型进行训练,通过多次迭代优化车辆力矩和分配比系数预测模型参数,使车辆力矩和分配比系数预测模型能够更好地拟合训练数据。
优选的,步骤S3具体包括:
(1)初始化六个网络:一个策略网络(Actor)、两个价值网络(Critic1、Critic2)以及对应的目标策略网络(Target-Actor)、目标价值网络(Target-Critic1、Target-Critic2),Actor网络用于选择动作,Critic网络用于评估动作的Q值;同时设置经验回放缓冲区,用于存储Agent与环境交互得到的经验数据;
(2)定义状态变量为预测力矩T′、实际力矩T、电机效率η、转速n,预测前后轴力矩分配比系数ε′、前后轴力矩分配比系数ε,角速度W的集合表示为S={T′,T,η,W,n,ε,ε′};输出的动作变量为转速n,汽车力矩T和前后轴力矩分配比系数ε,表示为:
A1={T,n}
A2={T,n,ε}
其中,第一TD3网络输出对应动作A1,第二TD3网络输出对应动作A2;
(3)在Agent采取动作后,获得相应的奖励,奖励函数R定义为:
R1=λWTη-β(D-d)2-γ(T′-T)2
R2=λWTη-β(D-d)2-γ(T′-T)2-α(ε′-ε)2
其中α、λ、β、γ为权重系数,W为角速度,η为电机效率,D为预设跟车距离,d为实际跟车距离,T′为预测力矩,T为输出力矩,ε′为预测的前后轴力矩分配系数,ε为输出的前后轴力矩分配系数;
(4)Agent根据当前策略选择动作,并与环境进行交互,到达下一个状态,并获得相应奖励。观察到的状态、选择的动作、获得的奖励以及下一个状态将被存储在经验回放缓冲区中;
(5)从经验回放缓冲区中随机采样一批经验数据。Target-Actor网络根据状态S′输出下一时刻动作A′;并对动作A′施加随机噪声,即:
A′=π(S′)+e-ξt
其中,π(S′)为Target-Actor网络,e-ξt为随机噪声,ξ为噪声衰减率;
(6)使用一对独立的Critic网络估计动作值函数;下一时刻的状态与动作作为Target-Critic网络的输入,选择两个网络中输出的最小Q值计算目标值y;Target-Critic网络目标值计算公式为:
y=Ri+γmini=1,2(Qi(S′,π(S′)))
其中,Ri为奖励函数,γ为折扣因子,Qi为Target-Critic网络输出的Q值,π(S′)为Target-Actor网络;
然后,基于TD-error梯度下降法,更新Critic网络,更新公式如下:
其中,Li为损失函数,y为Critic网络目标值,Qi(ε,a)为两个Critic网络的输出Q值;
采用梯度下降法搜索损失函数的全局最小值,即可得到最佳动作值函数;
(7)更新Actor网络和Target-Actor网络,采用梯度上升法进行更新,更新公式为:
其中,为Actor网络梯度,/>为Critic网络梯度;Es~π为在状态S下,遵从π策略,做出动作所得到奖励的期望;
(8)Critic网络和Actor网络采用延迟更新的方式:
为了防止Actor网络可能会陷入次优策略,设定Actor网络的更新频率为Critic网络的两倍;
(9)引入目标策略平滑机制:
为了防止目标逼近过程中的最优值过拟合估计现象,在Target-Critic网络中引入小的随机噪声,可以对目标的估计进行平滑处理,公式如下:
A′=π(S′)+clip·e-ξt
其中,字母clip表示剪刀操作符,在目标策略平滑中,添加的噪声被裁剪到可能的动作范围内。剪辑操作符的目标是保持目标接近原始动作,从而避免引入不可能的动作。
优选的,步骤S4包括:
(1)建立TD3网络,包括第一TD3网络和第二TD3网络;
(2)用第一TD3网络,在电动汽车在前驱模式时进行力矩控制与优化,执行所述控制动作A1,使电动汽车电机工作在高效率曲线附近;用第二TD3网络,在电动汽车在四驱模式时对前后轴力矩分配系数进行控制,执行所述控制动作A2,用于分配下一时刻电动汽车前后轴的力矩,使汽车在最优前后轴分配比系数下,节能行驶。
本发明具有如下优点:
1、本发明针对纯电动汽车力矩分配与节能驾驶控制方面,提出一种双层深度强化学习网络架构分别处理纵向速度控制与力矩分配控制,很好地解决了以往控制策略建模困难的问题,通过深度强化学习自学习能力即可完成节能驾驶优化,实现纯电动汽车高效行驶与节约能源。
2、本发明拓宽了深度强化学习理论的应用,为深度强化学习方法在纯电动汽车力矩分配与控制与自动驾驶等技术等提供了一种新的研究思路,具备较强的实际应用意义。
附图说明
图1是本发明纯电动汽车力矩分配与节能驾驶控制方法流程图;
图2是本发明基于双层深度强化学习的纯电动汽车力矩分配节能驾驶控制方法示意图;
图3是本发明建模核心部件关系图;
图4是本发明TD3深度强化学习算法流程图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供了一种基于深度强化学习的电动汽车力矩分配节能控制方法,如图1所示,首先通过摄像头、雷达、传感器等实时监测本车与前、后方的车辆情况,收集道路状况、车辆及交通信息等,并根据所述获取到当前所述车辆的车辆信息以及当前所述车辆行驶道路的道路信息,所述车辆信息包括车速以及车辆加速度等,所述交通信息包括道路交通状况、前车速度、距前车距离以及道路限速等,接着进行如下的步骤:
S1、根据实际城市道路直线行驶工况,构建纯电动汽车动力系统模型,预设前后安全跟车距离L;
本发明提出如下预设安全前后跟车距离公式:
L=(sv+1)2
其中,s为系数,L为预设安全跟车距离,v为电动汽车自身车速。
S2、利用LSTM长短时记忆神经网络,构建车辆力矩和分配比系数预测模型,进行车辆需求力矩和前后轴力矩分配比系数的预测;
车辆力矩和分配比系数预测模型的搭建步骤包括:
(1)提取电机效率MAP图和最优力矩分配比图上高效率区的转速以及转矩数据组成数据集,并将数据集划分为训练数据集与测试数据集;
(2)构建LSTM模型,分别通过训练数据集对LSTM模型进行训练,通过测试数据集对训练后的LSTM模型进行验证,根据验证结果反馈调整LSTM模型,完成车辆力矩和力矩分配比系数预测模型的训练。
如图2所示,在本实施例的具体应用中,LSTM模型一共包括3个隐藏层,其中3个隐藏层执行LSTM操作,LSTM中第一、第二和第三层分别由10、5和100个神经元组成。
在本实施例中,LSTM模型的重要组成部分是细胞状态,并沿着水平链传递信息。细胞状态中的信息被几个称为门的结构进行删除或修改。1个LSTM模型由3个门组成:遗忘门、输入门和输出门。
具体的,遗忘门决定所要丢弃的信息,该门要读取ht-1和xt,对细胞状态进行归一化,使细胞状态值对应于0-1之间的数字,1代表完全保留,0代表完全舍弃,所述LSTM网络的遗忘门参数更新公式为:
ft=σ(Wf·[ht-1,xt]+bf)
LSTM网络的输入门用于更新输入细胞状态中的信息,决定让多少新的信息加入到细胞状态中来,即下述公式:
it=σ(Wi·[ht-1,xt]+bi)
LSTM网络记忆细胞状态Ct,由存储在前一个记忆细胞中的信息和新的候选信息进行更新:
Ct=tanh(Wc·[ht-1,xt]+bc)
LSTM的输出门决定细胞状态的哪个部分输出出去,将细胞状态通过tanh进行处理,最终输出我们确定输出部分,即下述公式:
Ot=σ(W0[ht-1,xt]+b0)
具体的,所述力矩切换阈值N即为前轴电机最高效率时的力矩值,当预测力矩大于前轴电机最高效率的力矩值时采用四轮驱动,当预测力矩小于前轴电机最高效率的力矩值时采用前轮驱动。
S3、利用深度强化学习TD3算法,根据S2预期的车辆驱动模式对电动汽车的转速以及力矩进行控制,将车辆行驶时的纵向性能、车辆行驶时的前后车距和电机效率等因素作为奖励函数的设置依据;
具体步骤如下:
如图4,初始化六个网络即一个策略网络(Actor)和两个价值网络(Critic1、Critic2),以及它们的目标策略网络(Target-Actor)和目标价值网络(Target-Critic1、Target-Critic2),Actor网络用于选择动作,Critic网络用于评估动作的Q值。同时设置经验回放缓冲区,用于存储Agent与环境交互得到的经验数据。
定义状态变量为预测力矩T′、实际力矩T、电机效率η、转速n,预测前后轴力矩分配比系数ε′、前后轴力矩分配比系数ε,角速度W的集合表示为S={T′,T,η,W,n,ε,ε′};输出的动作变量为转速n,汽车力矩T和前后轴力矩分配比系数ε,表示为:
A1={T,n}
A2={T,n,ε}
其中,第一TD3网络输出对应动作A1,第二TD3网络输出对应动作A2。
在Agent采取动作后,获得相应的奖励,奖励函数R定义为:
R1=λWTη-β(D-d)2-γ(T′-T)2
R2=λWTη-β(D-d)2-γ(T′-T)2-α(ε′-ε)2
其中α、λ、β、γ为权重系数,W为角速度,η为电机效率,D为预设跟车距离,d为实际跟车距离,T′为预测力矩,T为输出力矩,ε′为预测的前后轴力矩分配系数,ε为输出的前后轴力矩分配系数;
Agent根据当前策略选择动作,并与环境进行交互。观察到的状态、选择的动作、获得的奖励以及下一个状态将被存储在经验回放缓冲区中。
从经验回放缓冲区中随机采样一批经验数据。Target-Actor网络根据状态S′输出下一时刻动作A′;并对动作A′施加随机噪声,即:
A′=π(S′)+e-ξt
其中,π(S′)为Target-Actor网络,e-ξt为随机噪声,ξ为噪声衰减率;
使用一对独立的Critic网络估计动作值函数;下一时刻的状态与动作作为Target-Critic网络的输入,选择两个网络中输出的最小Q值计算目标值y;Target-Critic网络目标值计算公式为:
y=Ri+γmini=1,2(Qi(S′,π(S′)))
其中,Ri为奖励函数,γ为折扣因子,Qi为Target-Critic网络输出的Q值;
然后,基于TD-error梯度下降法,更新Critic网络,更新公式如下:
其中,Li为损失函数,y为Critic网络目标值,Qi(s,a)为两个Critic网络的输出Q值;
采用梯度下降法搜索损失函数的全局最小值,即可得到最佳动作值函数。
更新Actor网络和Target-Actor网络,采用梯度上升法进行更新,更新公式为:
其中,为Actor网络梯度,/>为Critic网络梯度;Es~π为在状态S下,遵从π策略,做出动作所得到奖励的期望;
Critic网络和Actor网络采用延迟更新的方式:
为了防止Actor网络可能会陷入次优策略,设定Actor网络的更新频率为Critic网络的两倍。
引入目标策略平滑机制:
为了防止目标逼近过程中的最优值过拟合估计现象,在Target-Critic网络中引入小的随机噪声,可以对目标的估计进行平滑处理,公式如下:
A′=π(S′)+clip·e-ξt
其中,“clip”字母表示剪刀操作符。在目标策略平滑中,添加的噪声被裁剪到可能的动作范围内。剪辑操作符的目标是保持目标接近原始动作,从而避免引入不可能的动作。
上式可以理解为,在一定的概率指导下,动作可以在很小的动作空间范围内变化,这样对目标Q值的估计更加准确和稳健。然而,在更新行动者网络时,可以忽略噪声。这是因为行动者可以探索Q值最大的动作,而随机噪声的介入会破坏这种探索。
S4、构建两个深度强化学习TD3网络,构建第一TD3网络,当汽车在前轮驱动模式时,使电机输出力矩分布在电机效率MAP图的高效率区;构建第二TD3网络,当汽车在四轮驱动时,对电机总输出力矩和汽车前后轴力矩分配比系数进行控制,得到使电机效率最高的前后轴力矩,实现电动汽车节能驾驶优化。
步骤S4主要包括以下子步骤:
(1)建立TD3网络,包括第一TD3网络和第二TD3网络;
(2)用第一TD3网络,在电动汽车在前驱模式时进行力矩控制与优化,执行所述控制动作A1,使电动汽车电机工作在高效率曲线附近;
用第二TD3网络,在电动汽车在四驱模式时对前后轴力矩分配系数进行控制,执行所述控制动作A2,用于分配下一时刻电动汽车前后轴的力矩,是汽车在最优前后轴分配比系数下,节能行驶。
本发明提出纯电动汽车动力系统模型,如图3所示,包括动力电池、DC/DC转换器、驱动电机及驱动轮;其中,所述动力电池连接至DC/DC转换器、所述DC/DC转换器使用电力连接至驱动电机,驱动电机机械连接至驱动轮。
特别地,本发明还包括一种纯电动汽车力矩分配节能控制系统,采用如上具体实施例中描述的任一项节能驾驶控制方法,完成纯电动汽车城市直线行驶工况下的节能驾驶优化控制。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (5)
1.一种基于深度强化学习的电动汽车力矩分配节能控制方法,其特征在于:包括以下步骤:
S1:根据实际城市道路直线行驶工况,构建纯电动汽车动力系统模型,提出预设安全前后跟车距离L;
S2:利用LSTM长短时记忆神经网络,构建车辆力矩和分配比系数预测模型,进行车辆需求力矩和前后轴力矩分配比系数的预测;并提出力矩切换阈值N,将力矩切换阈值N与预测力矩比较,继而判断拟采取的车辆驱动模式,车辆驱动模式包括前驱模式和四驱模式;
S3:利用深度强化学习TD3算法,根据S2预期的车辆驱动模式对电动汽车的转速以及力矩进行控制,将车辆行驶因素作为奖励函数的设置依据;
S4:构建两个深度强化学习TD3网络,构建第一TD3网络,当汽车在前轮驱动模式时,使电机输出力矩分布在电机效率MAP图的高效率区;构建第二TD3网络,当汽车在四轮驱动时,对电机总输出力矩和汽车前后轴力矩分配比系数进行控制,得到使电机效率最高的前后轴力矩。
2.根据权利要求1所述的一种基于深度强化学习的电动汽车力矩分配节能控制方法,其特征在于:步骤S2车辆力矩和分配比系数预测模型的搭建步骤包括:
(1)提取电机效率MAP图和最优力矩分配比图上高效率区的转速以及转矩数据组成数据集,并将数据集划分为训练数据集与测试数据集;
(2)构建LSTM模型,分别通过训练数据集对LSTM模型进行训练,通过测试数据集对训练后的LSTM模型进行验证,根据验证结果反馈调整LSTM模型,完成车辆力矩和分配比系数预测模型的训练。
3.根据权利要求2所述的一种基于深度强化学习的电动汽车力矩分配节能控制方法,其特征在于:所述LSTM网络的遗忘门参数更新公式为:
ft=σ(Wf·[ht-1,xt])+bf
其中,ft表示t时刻的遗忘门状态,Wf和bf分别是遗忘门的权值和偏置,σ表示sigmoid函数,输出值范围为0到1,ht-1表示隐含层状态,xt表示t时刻网络的输入值;
LSTM网络的输入门用于更新输入细胞状态中的信息:
it=σ(Wi·[ht-1,xt]+bi)
其中,it表示t时刻的输入门状态,Wi和bi分别是输入门的权值和偏置;
LSTM网络记忆细胞状态Ct,由存储在前一个记忆细胞中的信息和新的候选信息进行更新:
Ct=tanh(Wc·[ht-1,xt]+bc)
其中,是t时刻的候选细胞状Ct是更新后的细胞状态,Wc、bc分别是细胞状态的权值和偏置,·代表点积;
LSTM的输出门用于控制细胞状态中的信息输出,根据记忆细胞状态Ct和输出门状态Ot计算输出隐含层状态ht-1:
Ot=σ(W0[ht-1,xt]+b0)。
4.根据权利要求1所述的一种基于深度强化学习的电动汽车力矩分配节能控制方法,其特征在于:步骤S3具体包括:
(1)初始化六个网络:一个策略网络Actor、两个价值网络Critic1、Critic2以及对应的目标策略网络Target-Actor、目标价值网络Target-Critic1、Target-Critic2,Actor网络用于选择动作,Critic网络用于评估动作的Q值;同时设置经验回放缓冲区,用于存储Agent与环境交互得到的经验数据;
(2)定义状态变量为预测力矩T′、实际力矩T、电机效率η、转速n,预测前后轴力矩分配比系数ε′、前后轴力矩分配比系数ε,角速度W的集合表示为B={T′,T,η,W,n,ε,ε′};输出的动作变量为转速n,汽车力矩T和前后轴力矩分配比系数ε,表示为:
A1={T,n}
A2={T,n,ε}
其中,第一TD3网络输出对应动作A1,第二TD3网络输出对应动作A2;
(3)在Agent采取动作后,获得相应的奖励,奖励函数R定义为:
R1=λWTη-β(D-d)2-γ(T′-T)2
R2=λWTη-β(D-d)2-γ(T′-T)2-α(ε′-ε)2
其中α、λ、β、γ为权重系数,W为角速度,η为电机效率,D为预设跟车距离,d为实际跟车距离,T′为预测力矩,T为输出力矩,ε′为预测的前后轴力矩分配系数,ε为输出的前后轴力矩分配系数;
(4)Agent根据当前策略选择动作,并与环境进行交互,到达下一个状态,并获得相应奖励;观察到的状态、选择的动作、获得的奖励以及下一个状态将被存储在经验回放缓冲区中;
(5)从经验回放缓冲区中随机采样一批经验数据;Target-Actor网络根据状态S′输出下一时刻动作A′;并对动作A′施加随机噪声,即:
A′=π(S′)+e-ξt
其中,π(S′)为Target-Actor网络,e-ξt为随机噪声,ξ为噪声衰减率;
(6)使用一对独立的Critic网络估计动作值函数;下一时刻的状态与动作作为Target-Critic网络的输入,选择两个网络中输出的最小Q值计算目标值y;Target-Critic网络目标值计算公式为:
y=Ri+γmini=1,2(Qi(S′,π(S′)))
其中,Ri为奖励函数,γ为折扣因子,Qi为Target-Critic网络输出的Q值,π(S′)为Target-Actor网络;
然后,基于TD-error梯度下降法,更新Critic网络,更新公式如下:
其中,Li为损失函数,y为Critic网络目标值,Qi(s,a)为两个Critic网络的输出Q值;
采用梯度下降法搜索损失函数的全局最小值,即可得到最佳动作值函数;
(7)更新Actor网络和Target-Actor网络,采用梯度上升法进行更新,更新公式为:
其中,为Actor网络梯度,/>为Critic网络梯度;Es~π为在状态S下,遵从π策略,做出动作所得到奖励的期望;
(8)Critic网络和Actor网络采用延迟更新的方式:
为了防止Actor网络可能会陷入次优策略,设定Actor网络的更新频率为Critic网络的两倍;
(9)引入目标策略平滑机制:
为了防止目标逼近过程中的最优值过拟合估计现象,在Target-Critic网络中引入小的随机噪声,可以对目标的估计进行平滑处理,公式如下:
A′=π(S′)+clip·e-ξt
其中,字母clip表示剪刀操作符。
5.根据权利要求1所述的一种基于深度强化学习的电动汽车力矩分配节能控制方法,其特征在于:步骤S4包括:
(1)建立TD3网络,包括第一TD3网络和第二TD3网络;
(2)用第一TD3网络,在电动汽车在前驱模式时进行力矩控制与优化,执行所述控制动作A1,使电动汽车电机工作在高效率曲线附近;用第二TD3网络,在电动汽车在四驱模式时对前后轴力矩分配系数进行控制,执行所述控制动作A2,用于分配下一时刻电动汽车前后轴的力矩,使汽车在最优前后轴分配比系数下,节能行驶。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410036764.XA CN117962633B (zh) | 2024-01-10 | 2024-01-10 | 一种基于深度强化学习的电动汽车力矩分配节能控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410036764.XA CN117962633B (zh) | 2024-01-10 | 2024-01-10 | 一种基于深度强化学习的电动汽车力矩分配节能控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117962633A true CN117962633A (zh) | 2024-05-03 |
CN117962633B CN117962633B (zh) | 2024-07-02 |
Family
ID=90849106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410036764.XA Active CN117962633B (zh) | 2024-01-10 | 2024-01-10 | 一种基于深度强化学习的电动汽车力矩分配节能控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117962633B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110936824A (zh) * | 2019-12-09 | 2020-03-31 | 江西理工大学 | 一种基于自适应动态规划的电动汽车双电机控制方法 |
CN111009134A (zh) * | 2019-11-25 | 2020-04-14 | 北京理工大学 | 一种基于前车与自车互动的短期车速工况实时预测方法 |
CN113269963A (zh) * | 2021-05-20 | 2021-08-17 | 东南大学 | 一种基于强化学习的网联车辆信号灯控路口经济通行方法 |
CN115140059A (zh) * | 2022-07-19 | 2022-10-04 | 山东大学 | 一种基于多目标优化的混合动力汽车能量管理方法及系统 |
CN115284893A (zh) * | 2022-08-18 | 2022-11-04 | 南昌智能新能源汽车研究院 | 电动汽车力矩分配方法、系统、计算机及可读存储介质 |
CN115339326A (zh) * | 2022-07-19 | 2022-11-15 | 厦门金龙联合汽车工业有限公司 | 一种四轮驱动车辆转矩分配方法、终端设备及存储介质 |
CN116552338A (zh) * | 2023-06-06 | 2023-08-08 | 东南大学 | 一种氢燃料电池客车节能驾驶控制方法及系统 |
CN117291104A (zh) * | 2023-10-10 | 2023-12-26 | 东南大学 | 一种双电机电动汽车电池健康能量管理方法、设备、介质 |
CN117332677A (zh) * | 2023-09-12 | 2024-01-02 | 吉林大学 | 基于深度强化学习的燃料电池混合动力汽车能量管理方法 |
-
2024
- 2024-01-10 CN CN202410036764.XA patent/CN117962633B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111009134A (zh) * | 2019-11-25 | 2020-04-14 | 北京理工大学 | 一种基于前车与自车互动的短期车速工况实时预测方法 |
WO2021103625A1 (zh) * | 2019-11-25 | 2021-06-03 | 北京理工大学 | 一种基于前车与自车互动的短期车速工况实时预测方法 |
CN110936824A (zh) * | 2019-12-09 | 2020-03-31 | 江西理工大学 | 一种基于自适应动态规划的电动汽车双电机控制方法 |
US20210170883A1 (en) * | 2019-12-09 | 2021-06-10 | Jiangxi University Of Science And Technology | Method for dual-motor control on electric vehicle based on adaptive dynamic programming |
CN113269963A (zh) * | 2021-05-20 | 2021-08-17 | 东南大学 | 一种基于强化学习的网联车辆信号灯控路口经济通行方法 |
CN115140059A (zh) * | 2022-07-19 | 2022-10-04 | 山东大学 | 一种基于多目标优化的混合动力汽车能量管理方法及系统 |
CN115339326A (zh) * | 2022-07-19 | 2022-11-15 | 厦门金龙联合汽车工业有限公司 | 一种四轮驱动车辆转矩分配方法、终端设备及存储介质 |
CN115284893A (zh) * | 2022-08-18 | 2022-11-04 | 南昌智能新能源汽车研究院 | 电动汽车力矩分配方法、系统、计算机及可读存储介质 |
CN116552338A (zh) * | 2023-06-06 | 2023-08-08 | 东南大学 | 一种氢燃料电池客车节能驾驶控制方法及系统 |
CN117332677A (zh) * | 2023-09-12 | 2024-01-02 | 吉林大学 | 基于深度强化学习的燃料电池混合动力汽车能量管理方法 |
CN117291104A (zh) * | 2023-10-10 | 2023-12-26 | 东南大学 | 一种双电机电动汽车电池健康能量管理方法、设备、介质 |
Non-Patent Citations (3)
Title |
---|
熊会元;何山;查鸿山;朱雄来;: "双轴驱动纯电动汽车驱动转矩的分配控制策略", 华南理工大学学报(自然科学版), no. 11, 15 November 2018 (2018-11-15), pages 123 - 130 * |
胡晓松;陈科坪;唐小林;王斌;: "基于机器学习速度预测的并联混合动力车辆能量管理研究", 机械工程学报, no. 16, 20 August 2020 (2020-08-20), pages 197 - 208 * |
蒋忠琦;储欣;陈伟;刘成;来勇;纪思;: "基于深度学习预测电动汽车的功率需求并优化功率分配", 电工技术, no. 13, 10 July 2020 (2020-07-10), pages 37 - 39 * |
Also Published As
Publication number | Publication date |
---|---|
CN117962633B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111267831B (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
Tang et al. | Distributed deep reinforcement learning-based energy and emission management strategy for hybrid electric vehicles | |
Du et al. | Intelligent energy management for hybrid electric tracked vehicles using online reinforcement learning | |
Liu et al. | Optimal power management based on Q-learning and neuro-dynamic programming for plug-in hybrid electric vehicles | |
CN112776673B (zh) | 智能网联燃料电池汽车实时能量优化管理系统 | |
Yuan et al. | Intelligent energy management strategy based on hierarchical approximate global optimization for plug-in fuel cell hybrid electric vehicles | |
Zhang et al. | A deep reinforcement learning-based energy management framework with Lagrangian relaxation for plug-in hybrid electric vehicle | |
WO2021103625A1 (zh) | 一种基于前车与自车互动的短期车速工况实时预测方法 | |
CN110341690A (zh) | 一种基于确定性策略梯度学习的phev能量管理方法 | |
Guo et al. | Transfer deep reinforcement learning-enabled energy management strategy for hybrid tracked vehicle | |
Gan et al. | Intelligent learning algorithm and intelligent transportation-based energy management strategies for hybrid electric vehicles: A review | |
Fang et al. | Online power management strategy for plug-in hybrid electric vehicles based on deep reinforcement learning and driving cycle reconstruction | |
CN111552185B (zh) | 一种基于pmp的插电式混合动力汽车模型预测控制的能量管理方法 | |
CN115107733B (zh) | 一种混合动力汽车的能量管理方法及系统 | |
CN113276829A (zh) | 一种基于工况预测的车辆行驶节能优化变权重方法 | |
CN115534929A (zh) | 基于多元信息融合的插电式混合动力汽车能量管理方法 | |
CN113110052B (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
Zhang et al. | Integrated velocity optimization and energy management strategy for hybrid electric vehicle platoon: A multiagent reinforcement learning approach | |
CN117275228A (zh) | 城市路网交通信号配时优化控制方法 | |
CN117818643A (zh) | 基于速度和加速度预测的人车协同驾驶方法 | |
Zhang et al. | Uncertainty-aware energy management strategy for hybrid electric vehicle using hybrid deep learning method | |
Zhang et al. | An optimal vehicle speed planning algorithm for regenerative braking at traffic lights intersections based on reinforcement learning | |
Wu et al. | Transformer-based traffic-aware predictive energy management of a fuel cell electric vehicle | |
CN116884246A (zh) | 一种基于近端策略优化的信号灯路口通行方法 | |
He et al. | Enabling intelligent transferable energy management of series hybrid electric tracked vehicle across motion dimensions via soft actor-critic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |