CN115840987A - 一种基于深度强化学习的混动汽车热管理策略生成方法 - Google Patents
一种基于深度强化学习的混动汽车热管理策略生成方法 Download PDFInfo
- Publication number
- CN115840987A CN115840987A CN202211169837.XA CN202211169837A CN115840987A CN 115840987 A CN115840987 A CN 115840987A CN 202211169837 A CN202211169837 A CN 202211169837A CN 115840987 A CN115840987 A CN 115840987A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- battery
- bat
- model
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
一种基于深度强化学习的混动汽车热管理策略生成方法,包括以下步骤:S1:获取混动汽车的车辆信息和状态信息;S2:搭建混合动力汽车仿真模型:建立整车能量模型;在Simulink中建立整车动力模型,在GT‑SUITE中搭建热管理系统模型,将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型;S3:利用深度强化学习算法构建混动汽车热管理策略,求解包含燃油经济性,电池效率及电池散热量等多目标优化问题,从而得到最优热管理策略。本设计不仅能够构建整车的能量模型、实现车辆的温度变化过程的模拟,而且应性强、能够适应不同车型的策略生成需求。
Description
技术领域
本发明涉及一种基于深度强化学习的混动汽车热管理策略生成方法,具体适用于提高汽车热管理策略的适配性。
背景技术
近几年,随着汽车在全球范围内的普及,车辆热管理问题日益受到各大汽车厂家的重视并作为新兴领域有着大好的前景待人开发。为了保证汽车的动力部件能在合理的温度范围内工作,对车辆各系统的温度需求进行合理调控已成为汽车热管理技术领域的一项重要研究发展方向。传统汽车热管理研究主要针对发动机的冷却系统,而电动汽车主要集中在动力电池温度场的技术研究上。
目前大多数都是基于规则的热管理策略和基于模糊控制算法的热管理策略,尽管这些方法对于特定车型直观且有效,但需根据工程经验进行标定,且不同车型需要重新设定,会耗费许多的人力资源与时间成本。此外,标定的结果也存在主观性较强、精确性较差现象。
发明内容
本发明的目的是克服现有技术中存在的热管理策略制定周期长、成本高、精确性差的问题,提供了一种通过建模方式生成热管理策略、提高策略精准性的基于深度强化学习的混动汽车热管理策略生成方法。
为实现以上目的,本发明的技术解决方案是:
一种基于深度强化学习的混动汽车热管理策略生成方法,包括以下步骤:
S1:获取混动汽车的车辆信息和状态信息:
获取混动汽车的车辆信息:采集待生成策略车型的车辆信息数据,
所述车辆信息数据包括:车辆的重量m、车辆迎风面积A和电池标称容量Qbat、发动机发热量map、是电机效率map;
获取混动汽车的状态信息:采集待生成策略车型的相关实车测试的车辆状态数据、电池状态数据和环境状态数据;
所述车辆状态信息包括:车速u、发动机转速nen、发动机输出扭矩Ten、空调压缩机转速nac、风扇转速nfan以及电磁阀的开闭状态K(K=0,1);
所述电池状态信息包括:电池电流Ibat、电压V、内阻Rint以及电池温度Tbat;
所述环境状态信息包括:环境温度Te;
S2:搭建混合动力汽车仿真模型:建立整车能量模型;在Simulink中建立整车动力模型,在GT-SUITE中搭建热管理系统模型,将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型;
S3:利用深度强化学习算法构建混动汽车热管理策略,求解包含燃油经济性,电池效率及电池散热量等多目标优化问题,从而得到最优热管理策略;
首先,定义奖励函数,对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At,在下个时间步获得环境新的状态St+1以及奖励信息Rt+1,通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大;随着训练进行,即损失达到收敛,所输出的状态-动作集合即为最优控制策略;此时,混动汽车热管理策略生成完成。
S2:搭建混合动力汽车仿真模型中:
S2.1在Simulink中建立整车动力系统模型,车辆的驱动功率为:
Pdem=(Pen+Pbatηm)ηT
其中,Pdem为驱动功率、Pen为发动机输出功率、Pbat为电池功率、ηm为电动机效率、ηT为变速器和车轴的效率;
建立发动机模型:
建立动力电池模型:
其中,Ibat为电池电流、Voc为电池开路电压、Rint为电池内阻、Pbat为电池功率;
S2.2:在GT-SUITE中搭建热管理系统模型,
热管理模型的建立:在GT-SUITE中根据实车参数调整热管理模型中的参数,对整车上的发热部件、散热器分别进行建模与标定,再根据实际热管理系统构型搭建系统模型;
S2.3:将整车动力系统模型与热管理系统模型在simulink中进行耦合到整车能量模型:
在整车动力系统模型中根据已知的车辆状态数据,可以分别得出发动机产热量、电机产热量、电池产热量,然后将其输入到热管理系统模型中,热管理系统模型经过模拟后将发动机温度、电机温度、电池温度及各个耗能部件消耗功率信息反馈给整车动力系统模型,整车动力系统模型根据反馈的温度信息更新相关的车辆状态数据;
所述整车动力系统模型输出发动机转速nen、扭矩Ten,根据发动机产热map查表得到的发动机产热量;
所述整车动力系统模型输出电机输出功率、转速、扭矩,根据电机效率map得到对应状态的电机效率值,进而计算出电机产热量;
所述S3:利用深度强化学习算法构建混动汽车热管理策略中,将热管理策略中,奖励函数R定义为:
其中,分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池SOC维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、ΔTbat为电池温度变化量、ΔT0为设定的温差限值为确定常数;
所述权重因子是根据不同的策略目标设定不同数值。
所述S3中:根据不同的使用环境和控制需求调整奖励函数R的定义:
其中,分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池SOC维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、ΔTbat为电池温度变化量、ΔT0为设定的温差限值为确定常数;
所述权重因子是根据不同的策略目标设定不同数值;
公式中的省略号表示其它考量的能耗部件因素,将考量参数的实际值与目标值之间相减后求平方然后乘以设定的奖励信号权重因子;考量的能耗部件参数包括:压缩机功率Pcomp、水泵功率Ppump、电机入口温度Tem_in、发动机出水口温度Teng_out、乘员舱温度Tcabin。
对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At,在下个时间步获得环境新的状态St+1以及奖励信息Rt+1,通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大;
根据ε-greedy算法选择动作,ε-greedy算法中随机选择概率为ε(0<ε<1),在每一个状态St下,根据之前训练回合的选择经验,有1-εt的概率选择能获得最大奖励的动作At,有εt的概率随机选择动作,为的是促进探索,ε的初始值很大,但是每个训练回合结束后,ε以衰减率衰减,根据公式/>对ε进行更新,使ε逐渐减小,随着训练进行,逐渐减少随机探索,最后使选择趋近于选择最优动作;
当前状态St={Te,Ten,nen,Pbat,Tbat},其中St表示包含所有状态的状态集,Te为环境温度,Ten为发动机转矩,nen为发动机转速,Pbat为电池功率,Tbat为电池温度;
以当前状态根据ε-greedy算法选择动作,动作集A={nac,nfan,K1,K2…Kn},其中nac为空调压缩机转速,nfan为风扇转速,K1,K2…Kn为各个电磁阀的开闭状态(Km=0,1(m=1,2…n));
采用Deep Q-Network(DQN)算法,算法目标是最大化智能体从环境中获得的累计奖励的期望,利用贝尔曼方程可以计算:
Q(St,At)=E[Rt+1+λmaxQ(St+1,A)|St,At]
其中,Q(St,At)表示当前状态-动作对的值函数;E为求期望;λ为对未来值函数的折扣因子,Q学习的更新规则,对Q(St,At)进行赋值:
Q(St,At)←Q(St,At)+η[maxQ(St+1,A)-Q(St,At)]
其中,η为学习率、Q(St,At)为当前状态-动作对的值函数;
随着算法的不断迭代,值函数会逐渐收敛至最优值,最优控制策略π*即是最大化Q值函数的动作序列:
利用参数为θ的深度Q网络来拟合值函数,避免状态的离散化:
Q(St,At;θ)≈Q(St,At)
为了提高算法性能,采用目标值网络的方法,分别设计两个结构一样的网络:评价网络和目标网络;其中,评价网络用于选择动作,更新参数,每隔一段时间,复制参数到目标网络,实现延时更新;这种方法降低了当前Q值和目标Q值的相关性,提高了算法的稳定性;算法目标是最小化损失函数L(θ):
L(θ)=E{[R+λmaxQ(St+1,A;θ-)-Q(St,At;θ)]2+
利用梯度下降算法,不断更新网络参数θ,直到学习收敛。为了平衡学习过程中“探索”和“利用”的关系,采用ε-greedy算法时,策略中有较小的概率ε随机选择动作,较大的概率1-ε选择最大化Q值的动作;学习初始阶段ε较大,具有增强网络探索能力,而随着训练的进行,ε逐步衰减,以加快学习速度;
随着训练进行,即损失函数达到收敛,所输出的状态-动作集合即为最优控制策略;
此时,混动汽车热管理策略生成完成。
与现有技术相比,本发明的有益效果为:
1、本发明一种基于深度强化学习的混动汽车热管理策略生成方法中,首先采集车辆的相关的实验数据和信息数据,然后利用上述数据,对车辆进行建模模仿整车的动力系统和热管理系统模型(即:产热系统),然后将动力系统模型与热管理系统模型进行耦合,得到整车的能量模型;整车的能量模型能够根据车辆状态计算产热部件的产热,然后根据产热计算车上各发热和散热部件的温度,作为下一轮计算的基础参数。构建的模型能够模拟车上的产热、散热过程,进而模拟出温度的变化,为汽车热管理策略生成的仿真提供了基础。因此,本设计构建整车的能量模型,实现车辆的温度变化过程的模拟。
2、本发明一种基于深度强化学习的混动汽车热管理策略生成方法中利用奖励函数的方式,根据不同的需求设计不同的奖励函数,从而生成不同的需求热管理策略,以适应客观环境变化的需求;同时采用深度强化学习的的方式来进行管理策略的生成,在仿真过程中尽可能多的尝试不同的动作进行试错,相对与传统的基于经验的标定方式,对车辆系统提供了更多的选择和运算依据,使策略目标更加明确,实现了热管理策略的实时性与最优性。因此,本设计为汽车热管理策略的生成提供了更加量化更加明确的方法,实现了热管理策略的实时性与最优性。
3、本发明一种基于深度强化学习的混动汽车热管理策略生成方法能够针对不同车型实现自适应,解决了传统热管理策略对不同车型的不能适用的问题;本方法仅需要对新的车型进行建模,然后建立不同的奖励函数分别进行深度强化学习,即可得到基于不同目标的汽车热管理策略。因此,本设计适应性强、能够适应不同车型的策略生成需求。
4、本发明一种基于深度强化学习的混动汽车热管理策略生成方法中的考虑燃油经济性的同时,使得动力电池的效率尽可能高,并且将电池温度维持在最佳温度值附近。因此,本发明奖励函数目标设计合理,符合车辆的性能需求。
附图说明
图1是本发明的策略生成流程图。
图2是本发明中所利用深度强化学习算法的逻辑图。
图3是实施例4在simulink中进行耦合得到整车能量模型的示意图。
图4是实施例4在训练过程中奖励值的点线图。
图5是实施例4每个训练周期中损失的平均值。
图6是实施例4在训练工况和验证工况下的油耗及电池SOC变化的对比曲线图。
图7是实施例4在训练工况和验证工况下的乘员舱、发动机出水口及电池的温度变化曲线对比图。
具体实施方式
以下结合附图说明和具体实施方式对本发明作进一步详细的说明。
参见图1至图2,一种基于深度强化学习的混动汽车热管理策略生成方法,所述策略生成方法包括以下步骤:
S1:获取混动汽车的车辆信息和状态信息:
获取混动汽车的车辆信息:采集待生成策略车型的车辆信息数据,
所述车辆信息数据包括:车辆的重量m、车辆迎风面积A和电池标称容量Qbat、发动机发热量map、是电机效率map;
获取混动汽车的状态信息:采集待生成策略车型的相关实车测试的车辆状态数据、电池状态数据和环境状态数据;
所述车辆状态信息包括:车速u、发动机转速nen、发动机输出扭矩Ten、空调压缩机转速nac、风扇转速nfan以及电磁阀的开闭状态K(K=0,1);
所述电池状态信息包括:电池电流Ibat、电压V、内阻Rint以及电池温度Tbat;
所述环境状态信息包括:环境温度Te;
S2:搭建混合动力汽车仿真模型:建立整车能量模型;在Simulink中建立整车动力模型,在GT-SUITE中搭建热管理系统模型,将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型;
S3:利用深度强化学习算法构建混动汽车热管理策略,求解包含燃油经济性,电池效率及电池散热量等多目标优化问题,从而得到最优热管理策略;
首先,定义奖励函数,对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At,在下个时间步获得环境新的状态St+1以及奖励信息Rt+1,通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大;随着训练进行,即损失达到收敛,所输出的状态-动作集合即为最优控制策略;此时,混动汽车热管理策略生成完成。
S2:搭建混合动力汽车仿真模型中:
S2.1在Simulink中建立整车动力系统模型,车辆的驱动功率为:
Pdem=(Pen+Pbatηm)ηT
其中,Pdem为驱动功率、Pen为发动机输出功率、Pbat为电池功率、ηm为电动机效率、ηT为变速器和车轴的效率;
建立发动机模型:
建立动力电池模型:
其中,Ibat为电池电流、Voc为电池开路电压、Rint为电池内阻、Pbat为电池功率;
S2.2:在GT-SUITE中搭建热管理系统模型,
热管理模型的建立:在GT-SUITE中根据实车参数调整热管理模型中的参数,对整车上的发热部件、散热器分别进行建模与标定,再根据实际热管理系统构型搭建系统模型;
S2.3:将整车动力系统模型与热管理系统模型在simulink中进行耦合到整车能量模型:
在整车动力系统模型中根据已知的车辆状态数据,可以分别得出发动机产热量、电机产热量、电池产热量,然后将其输入到热管理系统模型中,热管理系统模型经过模拟后将发动机温度、电机温度、电池温度及各个耗能部件消耗功率信息反馈给整车动力系统模型,整车动力系统模型根据反馈的温度信息更新相关的车辆状态数据;
所述整车动力系统模型输出发动机转速nen、扭矩Ten,根据发动机产热map查表得到的发动机产热量;
所述整车动力系统模型输出电机输出功率、转速、扭矩,根据电机效率map得到对应状态的电机效率值,进而计算出电机产热量;
所述S3:利用深度强化学习算法构建混动汽车热管理策略中,将热管理策略中,奖励函数R定义为:
其中,分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池SOC维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、ΔTbat为电池温度变化量、ΔT0为设定的温差限值为确定常数;
所述权重因子是根据不同的策略目标设定不同数值。
所述S3中:根据不同的使用环境和控制需求调整奖励函数R的定义:
其中,分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池SOC维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、ΔTbat为电池温度变化量、ΔT0为设定的温差限值为确定常数;
所述权重因子是根据不同的策略目标设定不同数值;
公式中的省略号表示其它考量的能耗部件因素,将考量参数的实际值与目标值之间相减后求平方然后乘以设定的奖励信号权重因子;考量的能耗部件参数包括:压缩机功率Pcomp、水泵功率Ppump、电机入口温度Tem_in、发动机出水口温度Teng_out、乘员舱温度Tcabin。
对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At,在下个时间步获得环境新的状态St+1以及奖励信息Rt+1,通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大;
根据ε-greedy算法选择动作,ε-greedy算法中随机选择概率为ε(0<ε<1),在每一个状态St下,根据之前训练回合的选择经验,有1-εt的概率选择能获得最大奖励的动作At,有εt的概率随机选择动作,为的是促进探索,ε的初始值很大,但是每个训练回合结束后,ε以衰减率衰减,根据公式/>对ε进行更新,使ε逐渐减小,随着训练进行,逐渐减少随机探索,最后使选择趋近于选择最优动作;
当前状态St={Te,Ten,nen,Pbat,Tbat},其中St表示包含所有状态的状态集,Te为环境温度,Ten为发动机转矩,nen为发动机转速,Pbat为电池功率,Tbat为电池温度;
以当前状态根据ε-greedy算法选择动作,动作集A={nac,nfan,K1,K2…Kn},其中nac为空调压缩机转速,nfan为风扇转速,K1,K2…Kn为各个电磁阀的开闭状态(Km=0,1(m=1,2…n));
采用Deep Q-Network(DQN)算法,算法目标是最大化智能体从环境中获得的累计奖励的期望,利用贝尔曼方程可以计算:
Q(St,At)=E[Rt+1+λmaxQ(St+1,A)|St,At]
其中,Q(St,At)表示当前状态-动作对的值函数;E为求期望;λ为对未来值函数的折扣因子,Q学习的更新规则,对Q(St,At)进行赋值:
Q(St,At)←Q(St,At)+η[maxQ(St+1,A)-Q(St,At)]
其中,η为学习率、Q(St,At)为当前状态-动作对的值函数;
随着算法的不断迭代,值函数会逐渐收敛至最优值,最优控制策略π*即是最大化Q值函数的动作序列:
利用参数为θ的深度Q网络来拟合值函数,避免状态的离散化:
Q(St,At;θ)≈Q(St,At)
为了提高算法性能,采用目标值网络的方法,分别设计两个结构一样的网络:评价网络和目标网络;其中,评价网络用于选择动作,更新参数,每隔一段时间,复制参数到目标网络,实现延时更新;这种方法降低了当前Q值和目标Q值的相关性,提高了算法的稳定性;算法目标是最小化损失函数L(θ):
L(θ)=E{[R+λmaxQ(St+1,A;θ-)-Q(St,At;θ)]2}
利用梯度下降算法,不断更新网络参数θ,直到学习收敛;为了平衡学习过程中“探索”和“利用”的关系,采用ε-greedy算法时,策略中有较小的概率ε随机选择动作,较大的概率1-ε选择最大化Q值的动作;学习初始阶段ε较大,具有增强网络探索能力,而随着训练的进行,ε逐步衰减,以加快学习速度;
随着训练进行,即损失函数达到收敛,所输出的状态-动作集合即为最优控制策略;
此时,混动汽车热管理策略生成完成。
本发明的原理说明如下:
对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At;本轮仿真完成后,下个时间步时在整车能量模型中获得环境新的状态St+1以及奖励信息Rt+1,往复循环;通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大,损失函数达到收敛;
实施例1:
一种基于深度强化学习的混动汽车热管理策略生成方法,所述策略生成方法包括以下步骤:
S1:获取混动汽车的车辆信息和状态信息:
获取混动汽车的车辆信息:采集待生成策略车型的车辆信息数据,
所述车辆信息数据包括:车辆的重量m、车辆迎风面积A和电池标称容量Qbat、发动机发热量map、是电机效率map;
获取混动汽车的状态信息:采集待生成策略车型的相关实车测试的车辆状态数据、电池状态数据和环境状态数据;
所述车辆状态信息包括:车速u、发动机转速nen、发动机输出扭矩Ten、空调压缩机转速nac、风扇转速nfan以及电磁阀的开闭状态K(K=0,1);
所述电池状态信息包括:电池电流Ibat、电压V、内阻Rint以及电池温度Tbat;
所述环境状态信息包括:环境温度Te;
S2:搭建混合动力汽车仿真模型:建立整车能量模型;在Simulink中建立整车动力模型,在GT-SUITE中搭建热管理系统模型,将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型;
S3:利用深度强化学习算法构建混动汽车热管理策略,求解包含燃油经济性,电池效率及电池散热量等多目标优化问题,从而得到最优热管理策略;
首先,定义奖励函数,对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At,在下个时间步获得环境新的状态St+1以及奖励信息Rt+1,通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大;随着训练进行,即损失达到收敛,所输出的状态-动作集合即为最优控制策略;此时,混动汽车热管理策略生成完成。
实施例2:
实施例2与实施例1基本相同,其不同之处在于:
S2:搭建混合动力汽车仿真模型中:
S2.1在Simulink中建立整车动力系统模型,车辆的驱动功率为:
Pdem=(Pen+Pbatηm)ηT
其中,Pdem为驱动功率、Pen为发动机输出功率、Pbat为电池功率、ηm为电动机效率、ηT为变速器和车轴的效率;
建立发动机模型:
建立动力电池模型:
其中,Ibat为电池电流、Voc为电池开路电压、Rint为电池内阻、Pbat为电池功率;
S2.2:在GT-SUITE中搭建热管理系统模型,
热管理模型的建立:在GT-SUITE中根据实车参数调整热管理模型中的参数,对整车上的发热部件、散热器分别进行建模与标定,再根据实际热管理系统构型搭建系统模型;
S2.3:将整车动力系统模型与热管理系统模型在simulink中进行耦合到整车能量模型:
在整车动力系统模型中根据已知的车辆状态数据,可以分别得出发动机产热量、电机产热量、电池产热量,然后将其输入到热管理系统模型中,热管理系统模型经过模拟后将发动机温度、电机温度、电池温度及各个耗能部件消耗功率信息反馈给整车动力系统模型,整车动力系统模型根据反馈的温度信息更新相关的车辆状态数据;
所述整车动力系统模型输出发动机转速nen、扭矩Ten,根据发动机产热map查表得到的发动机产热量;
所述整车动力系统模型输出电机输出功率、转速、扭矩,根据电机效率map得到对应状态的电机效率值,进而计算出电机产热量;
所述S3:利用深度强化学习算法构建混动汽车热管理策略中,将热管理策略中,奖励函数R定义为:
其中,分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池SOC维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、ΔTbat为电池温度变化量、ΔT0为设定的温差限值为确定常数;
所述权重因子是根据不同的策略目标设定不同数值。
对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At,在下个时间步获得环境新的状态St+1以及奖励信息Rt+1,通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大;
根据ε-greedy算法选择动作,ε-greedy算法中随机选择概率为ε(0<ε<1),在每一个状态St下,根据之前训练回合的选择经验,有1-εt的概率选择能获得最大奖励的动作At,有εt的概率随机选择动作,为的是促进探索,ε的初始值很大,但是每个训练回合结束后,ε以衰减率衰减,根据公式/>对ε进行更新,使ε逐渐减小,随着训练进行,逐渐减少随机探索,最后使选择趋近于选择最优动作;
当前状态St={Te,Ten,nen,Pbat,Tbat},其中St表示包含所有状态的状态集,Te为环境温度,Ten为发动机转矩,nen为发动机转速,Pbat为电池功率,Tbat为电池温度;
以当前状态根据ε-greedy算法选择动作,动作集A={nac,nfan,K1,K2…Kn+,其中nac为空调压缩机转速,nfan为风扇转速,K1,K2…Kn为各个电磁阀的开闭状态(Km=0,1(m=1,2…n));
采用Deep Q-Network(DQN)算法,算法目标是最大化智能体从环境中获得的累计奖励的期望,利用贝尔曼方程可以计算:
Q(St,At)=E[Rt+1+λmaxQ(St+1,A)|St,At]
其中,Q(St,At)表示当前状态-动作对的值函数;E为求期望;λ为对未来值函数的折扣因子,Q学习的更新规则,对Q(St,At)进行赋值:
Q(St,At)←Q(St,At)+η[maxQ(St+1,A)-Q(St,At)]
其中,η为学习率、Q(St,At)为当前状态-动作对的值函数;
随着算法的不断迭代,值函数会逐渐收敛至最优值,最优控制策略π*即是最大化Q值函数的动作序列:
利用参数为θ的深度Q网络来拟合值函数,避免状态的离散化:
Q(St,At;θ)≈Q(St,At)
为了提高算法性能,采用目标值网络的方法,分别设计两个结构一样的网络:评价网络和目标网络;其中,评价网络用于选择动作,更新参数,每隔一段时间,复制参数到目标网络,实现延时更新;这种方法降低了当前Q值和目标Q值的相关性,提高了算法的稳定性;算法目标是最小化损失函数L(θ):
L(θ)=E{[R+λmaxQ(St+1,A;θ-)-Q(St,At;θ)]2+
利用梯度下降算法,不断更新网络参数θ,直到学习收敛。为了平衡学习过程中“探索”和“利用”的关系,采用ε-greedy算法时,策略中有较小的概率ε随机选择动作,较大的概率1-ε选择最大化Q值的动作;学习初始阶段ε较大,具有增强网络探索能力,而随着训练的进行,ε逐步衰减,以加快学习速度;
随着训练进行,即损失函数达到收敛,所输出的状态-动作集合即为最优控制策略;
此时,混动汽车热管理策略生成完成。
实施例3:
实施例3与实施例2基本相同,其不同之处在于:
所述S3中:根据不同的使用环境和控制需求调整奖励函数R的定义:
其中,分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池SOC维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、ΔTbat为电池温度变化量、ΔT0为设定的温差限值为确定常数;
所述权重因子是根据不同的策略目标设定不同数值;
公式中的省略号表示其它考量的能耗部件因素,将考量参数的实际值与目标值之间相减后求平方然后乘以设定的奖励信号权重因子;考量的能耗部件参数包括:压缩机功率Pcomp、水泵功率Ppump、电机入口温度Tem_in、发动机出水口温度Teng_out、乘员舱温度Tcabin。
实施例4:
通过强化学习算法实现了某混合动力汽车考虑油耗、电池SOC、发动机出水口温度、电池温度及乘员舱温度,多目标的热管理策略生成,其中油耗及电池SOC与热管理系统的关系是:压缩机及水泵等耗能部件的功率由电池提供,发动机可以通过给电池充电,如果热管理策略较优,则压缩机及水泵等耗能部件的功率小的同时各部件温度也适宜导致电池输出功率小从而SOC波动小、发动机通过发电机给电池的充电功率小从而导致发动机更有机会在高效区工作。
通过步骤S3生成的整车模型如图3所示。
在每一个训练步长,智能体agent获取车辆状态信息St:发动机出水口温度Teng_out及乘员舱温度Tcabin,并随机输出动作集At={nac、npump、K},其中nac为压缩机转速、npump为发动机水泵转速、K为发动机冷却回路电子节温器的开度(K=0:电子节温器关,即发动机通过小循环冷却;K=100:电子节温器全开,即发动机全部通过大循环冷却),动作集作用系统后反馈的下一状态St+1,通过公式:
计算当前动作带来的奖励值Rt,该奖励函数的意义在于,使燃油消耗率尽量小、电池SOC波动尽量小、电池温度控制在25-40℃之间、发动机出水口温度控制在95-115℃之间、乘员舱温度控制在15-25之间,可以通过调整各项前的权重因子的大小来达到优先控制哪一项的目的。并讲上述(St、At、Rt、St+1)储存放入经验池。随着训练进行,当经验池的数据集大小达到预设值时,在后面的每一个训练步长,随机从经验池中随机抽取一定数量的数据集,在当前状态St下,有的1-ε概率选择所抽取的数据集中奖励值最大的At,也有ε的概率继续随机选择动作。随着训练的持续进行,产生的新的数据集会替换经验池中最早的数据集。每训练一轮,ε以衰减率减小,训练初期较大,可促进随机选择动作即促进智能体进行探索,随着训练进行,逐渐减小即每次都尽量选择最优动作,到训练结束时,每一步都能输出最优动作,即最优控制策略生成。如图4所示,为训练过程中的奖励值的曲线,图5为每个训练周期中损失的平均值,由图可知,当奖励不再增加或损失不再减小(在可接受范围内波动),即达到收敛,可以认为训练结束。图6为训练结束时,在训练工况下和验证工况下的油耗曲线及电池SOC变化曲线,图7为训练工况下和验证工况下的乘员舱温度、发动机出水口温度及电池温度的变化曲线。由图6、图7可知所生成的热管理策略在不同的工况下仍然有较好的控制效果。/>
Claims (7)
1.一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于:
所述策略生成方法包括以下步骤:
S1:获取混动汽车的车辆信息和状态信息:
获取混动汽车的车辆信息:采集待生成策略车型的车辆信息数据,
所述车辆信息数据包括:车辆的重量m、车辆迎风面积A和电池标称容量Qbat、发动机发热量map、是电机效率map;
获取混动汽车的状态信息:采集待生成策略车型的相关实车测试的车辆状态数据、电池状态数据和环境状态数据;
所述车辆状态信息包括:车速u、发动机转速nen、发动机输出扭矩Ten、空调压缩机转速nac、风扇转速nfan以及电磁阀的开闭状态K(K=0,1);
所述电池状态信息包括:电池电流Ibat、电压V、内阻Rint以及电池温度Tbat;
所述环境状态信息包括:环境温度Te;
S2:搭建混合动力汽车仿真模型:建立整车能量模型;在Simulink中建立整车动力模型,在GT-SUITE中搭建热管理系统模型,将整车动力系统模型与热管理系统模型在simulink中进行耦合得到整车能量模型;
S3:利用深度强化学习算法构建混动汽车热管理策略,求解包含燃油经济性,电池效率及电池散热量等多目标优化问题,从而得到最优热管理策略;
首先,定义奖励函数,对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At,在下个时间步获得环境新的状态St+1以及奖励信息Rt+1,通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大;随着训练进行,即损失达到收敛,所输出的状态-动作集合即为最优控制策略;此时,混动汽车热管理策略生成完成。
2.根据权利要求1所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于:
S2:搭建混合动力汽车仿真模型中:
S2.1在Simulink中建立整车动力系统模型,车辆的驱动功率为:
Pdem=(Pen+Pbatηm)ηT
其中,Pdem为驱动功率、Pen为发动机输出功率、Pbat为电池功率、ηm为电动机效率、ηT为变速器和车轴的效率;
建立发动机模型:
建立动力电池模型:
其中,Ibat为电池电流、Voc为电池开路电压、Rint为电池内阻、Pbat为电池功率;
3.根据权利要求2所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于:
S2:搭建混合动力汽车仿真模型中:
S2.2:在GT-SUITE中搭建热管理系统模型,
热管理模型的建立:在GT-SUITE中根据实车参数调整热管理模型中的参数,对整车上的发热部件、散热器分别进行建模与标定,再根据实际热管理系统构型搭建系统模型。
4.根据权利要求3所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于:
S2:搭建混合动力汽车仿真模型中:
S2.3:将整车动力系统模型与热管理系统模型在simulink中进行耦合到整车能量模型:
在整车动力系统模型中根据已知的车辆状态数据,可以分别得出发动机产热量、电机产热量、电池产热量,然后将其输入到热管理系统模型中,热管理系统模型经过模拟后将发动机温度、电机温度、电池温度及各个耗能部件消耗功率信息反馈给整车动力系统模型,整车动力系统模型根据反馈的温度信息更新相关的车辆状态数据;
所述整车动力系统模型输出发动机转速nen、扭矩Ten,根据发动机产热map查表得到的发动机产热量;
所述整车动力系统模型输出电机输出功率、转速、扭矩,根据电机效率map得到对应状态的电机效率值,进而计算出电机产热量;
6.根据权利要求4所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于:
所述S3中:根据不同的使用环境和控制需求调整奖励函数R的定义:
其中,分别α是奖励信号中燃油经济性的权重因子、β是奖励信号中电池SOC维持的权重因子、γ是奖励信号中电池温度保持的权重因子、为电池的荷电状态对时间的导数、ΔTbat为电池温度变化量、ΔT0为设定的温差限值为确定常数;
所述权重因子是根据不同的策略目标设定不同数值;
公式中的省略号表示其它考量的能耗部件因素,将考量参数的实际值与目标值之间相减后求平方然后乘以设定的奖励信号权重因子;考量的能耗部件参数包括:压缩机功率Pcomp、水泵功率Ppump、电机入口温度Tem_in、发动机出水口温度Teng_out、乘员舱温度Tcabin。
7.根据权利要求5或6所述的一种基于深度强化学习的混动汽车热管理策略生成方法,其特征在于:
对S2中得到的整车能量模型进行仿真,在每一个仿真步长获取当前的状态St和所获得奖励信息Rt做出决策并采取动作At,在下个时间步获得环境新的状态St+1以及奖励信息Rt+1,通过这个过程来学习并更新强化学习的策略,目标是通过试错的方式达到改进系统性能的目的,使奖励信息的累计值达到最大;
根据ε-greedy算法选择动作,ε-greedy算法中随机选择概率为ε(0<ε<1),在每一个状态St下,根据之前训练回合的选择经验,有1-εt的概率选择能获得最大奖励的动作At,有εt的概率随机选择动作,为的是促进探索,ε的初始值很大,但是每个训练回合结束后,ε以衰减率衰减,根据公式对ε进行更新,使ε逐渐减小,随着训练进行,逐渐减少随机探索,最后使选择趋近于选择最优动作;
当前状态St={Te,Ten,nen,Pbat,Tbat},其中St表示包含所有状态的状态集,Te为环境温度,Ten为发动机转矩,nen为发动机转速,Pbat为电池功率,Tbat为电池温度;
以当前状态根据ε-greedy算法选择动作,动作集A={nac,nfan,K1,K2…Kn},其中nac为空调压缩机转速,nfan为风扇转速,K1,K2…Kn为各个电磁阀的开闭状态(Km=0,1(m=1,2…n));
采用Deep Q-Network(DQN)算法,算法目标是最大化智能体从环境中获得的累计奖励的期望,利用贝尔曼方程可以计算:
Q(St,At)=E[Rt+1+λmaxQ(St+1,A)|St,At]
其中,Q(St,At)表示当前状态-动作对的值函数;E为求期望;λ为对未来值函数的折扣因子,Q学习的更新规则,对Q(St,At)进行赋值:
Q(St,At)←Q(St,At)+η[maxQ(St+1,A)-Q(St,At)]
其中,η为学习率、Q(St,At)为当前状态-动作对的值函数;
随着算法的不断迭代,值函数会逐渐收敛至最优值,最优控制策略π*即是最大化Q值函数的动作序列:
利用参数为θ的深度Q网络来拟合值函数,避免状态的离散化:
Q(St,At;θ)≈Q(St,At)
为了提高算法性能,采用目标值网络的方法,分别设计两个结构一样的网络:评价网络和目标网络;其中,评价网络用于选择动作,更新参数,每隔一段时间,复制参数到目标网络,实现延时更新;这种方法降低了当前Q值和目标Q值的相关性,提高了算法的稳定性;算法目标是最小化损失函数L(θ):
L(θ)=E{[R+λmaxQ(St+1,A;θ-)-Q(St,At;θ)]2}
利用梯度下降算法,不断更新网络参数θ,直到学习收敛;为了平衡学习过程中“探索”和“利用”的关系,采用ε-greedy算法时,策略中有较小的概率ε随机选择动作,较大的概率1-ε选择最大化Q值的动作;学习初始阶段ε较大,具有增强网络探索能力,而随着训练的进行,ε逐步衰减,以加快学习速度;
随着训练进行,即损失函数达到收敛,所输出的状态-动作集合即为最优控制策略;
此时,混动汽车热管理策略生成完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211169837.XA CN115840987A (zh) | 2022-09-22 | 2022-09-22 | 一种基于深度强化学习的混动汽车热管理策略生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211169837.XA CN115840987A (zh) | 2022-09-22 | 2022-09-22 | 一种基于深度强化学习的混动汽车热管理策略生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115840987A true CN115840987A (zh) | 2023-03-24 |
Family
ID=85574970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211169837.XA Pending CN115840987A (zh) | 2022-09-22 | 2022-09-22 | 一种基于深度强化学习的混动汽车热管理策略生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115840987A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116639135A (zh) * | 2023-05-26 | 2023-08-25 | 中国第一汽车股份有限公司 | 车辆的协同控制方法、装置及车辆 |
CN117352907A (zh) * | 2023-12-05 | 2024-01-05 | 深圳三晖能源科技有限公司 | 大型储能系统热值管理方法、装置、大型储能系统及介质 |
-
2022
- 2022-09-22 CN CN202211169837.XA patent/CN115840987A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116639135A (zh) * | 2023-05-26 | 2023-08-25 | 中国第一汽车股份有限公司 | 车辆的协同控制方法、装置及车辆 |
CN116639135B (zh) * | 2023-05-26 | 2024-07-09 | 中国第一汽车股份有限公司 | 车辆的协同控制方法、装置及车辆 |
CN117352907A (zh) * | 2023-12-05 | 2024-01-05 | 深圳三晖能源科技有限公司 | 大型储能系统热值管理方法、装置、大型储能系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111267831B (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
CN115840987A (zh) | 一种基于深度强化学习的混动汽车热管理策略生成方法 | |
CN112776673B (zh) | 智能网联燃料电池汽车实时能量优化管理系统 | |
CN108206543B (zh) | 一种基于能源梯级利用的能源路由器及其运行优化方法 | |
US11610214B2 (en) | Deep reinforcement learning based real-time scheduling of Energy Storage System (ESS) in commercial campus | |
CN108528436A (zh) | 一种内外层嵌套的ecms多目标双层优化方法 | |
CN109591659B (zh) | 一种智能学习的纯电动汽车能量管理控制方法 | |
CN112287463A (zh) | 一种基于深度强化学习算法的燃料电池汽车能量管理方法 | |
CN113572157B (zh) | 一种基于近端策略优化的用户实时自治能量管理优化方法 | |
CN113128110B (zh) | 智能网联电动汽车高寒地区动力电池热管理优化方法 | |
WO2021159660A1 (zh) | 一种混合动力汽车能量管理方法和系统 | |
CN113071506B (zh) | 考虑座舱温度的燃料电池汽车能耗优化系统 | |
CN114370698B (zh) | 基于强化学习的室内热环境学习效率提升的优化控制方法 | |
CN112460741B (zh) | 一种楼宇暖通空调系统控制方法 | |
CN112668791A (zh) | 热电联供系统的优化方法 | |
CN113159983B (zh) | 离网型光气热电联产综合能源系统协调控制方法 | |
CN110097217A (zh) | 一种基于等效rc模型的建筑动态室温预测方法 | |
CN115732810A (zh) | 一种电动汽车电池包加温系统控制方法 | |
CN110661253A (zh) | 建筑群内多类型电力弹性负荷联合调节方法 | |
CN117172499A (zh) | 一种基于强化学习的智慧社区能量优化调度方法、系统及存储介质 | |
CN113928182B (zh) | 基于全局交通信息的混合动力汽车电池热管理优化系统 | |
CN117291390A (zh) | 一种基于SumTree-TD3算法的调度决策模型建立方法 | |
CN113435042B (zh) | 一种建筑空调系统需求响应的强化学习建模方法 | |
CN112989699B (zh) | 基于深度强化学习的新能源汽车性能评价方法 | |
CN116734424B (zh) | 基于rc模型和深度强化学习的室内热环境的控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |