CN113525396A - 一种融合深度强化学习的混动汽车分层预测能量管理方法 - Google Patents

一种融合深度强化学习的混动汽车分层预测能量管理方法 Download PDF

Info

Publication number
CN113525396A
CN113525396A CN202110930227.6A CN202110930227A CN113525396A CN 113525396 A CN113525396 A CN 113525396A CN 202110930227 A CN202110930227 A CN 202110930227A CN 113525396 A CN113525396 A CN 113525396A
Authority
CN
China
Prior art keywords
road condition
representing
soc
vehicle
condition information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110930227.6A
Other languages
English (en)
Other versions
CN113525396B (zh
Inventor
何洪文
黄汝臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110930227.6A priority Critical patent/CN113525396B/zh
Publication of CN113525396A publication Critical patent/CN113525396A/zh
Application granted granted Critical
Publication of CN113525396B publication Critical patent/CN113525396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/80Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
    • Y02T10/84Data processing systems or methods, management, administration

Abstract

本发明提供了一种融合深度强化学习的混动汽车分层预测能量管理方法,其基于云计算平台并在能量管理策略的上层中,利用提取到的多维真实路况信息对DDPG算法训练至完全收敛后,将其作为电池SOC最优参考轨迹生成模型;利用智能交通系统和车联网环境预先获取目标行驶路线的多维路况信息,从而快速计算得到电池SOC最优参考轨迹。在策略下层,通过训练GRNN作为多维路况短期实时预测模型;在MPC框架中设计能量管理在线优化控制器,计算混动汽车的能量最优分配结果,能够在提高燃油经济性的同时提升实时应用潜力,从而具有了现有技术所不具备的诸多有益效果。

Description

一种融合深度强化学习的混动汽车分层预测能量管理方法
技术领域
本发明属于混合动力汽车能量管理技术领域,尤其涉及一种在模型预测控制框架中,通过融合深度确定性策略梯度DDPG算法来实现的混合动力汽车在线分层预测能量管理方法。
背景技术
电池荷电状态(State Of Charge,SOC)参考轨迹作为用于指引未来短时间内能量最优分配的重要指标,对混合动力汽车能量管理策略的性能优化具有至关重要的影响。当前对于电池SOC参考轨迹生成主要分为在线生成方法和离线生成方法两类。其中,在线生成方法是指利用线性经验模型和电池SOC轨迹的变化速率与行车时间或行车距离呈线性关系的假设,针对已知行车时间段或距离,根据预设的电池SOC初值和末值来得到对应的线性SOC参考轨迹。该方法虽然在理论上有利于MPC能量管理策略的实时应用,但由于实际行车过程中的时间难以预知,以及缺乏对车辆模型和路况信息的非线性特征的考虑,导致其实用性和优化性难以满足要求。离线生成方法主要是通过提前获取目标行驶路线的路况信息,利用全局优化算法离线计算得到目标行驶路线对应的最优电池SOC参考轨迹,从而保证了优化性能,但由于全局优化算法的运算量极大且需要消耗大量的离线计算时间,因此也存在实用性不强的缺点。
发明内容
针对上述本领域中所存在的技术问题,本发明提供了一种融合深度强化学习的混动汽车分层预测能量管理方法,旨在发挥深度强化学习算法的拟合性能以及云平台的计算能力,提供适用于混动汽车且实时性、鲁棒性更强的SOC最优参考轨迹规划与能量最优分配策略。
所述方法具体包括以下步骤:
步骤1、从路况信息数据库中提取混动汽车的各历史行驶路线中从起点至终点的多维路况信息,作为训练数据集和测试数据集;
在云计算平台中,由所述多维路况信息和电池SOC构造状态空间,由发动机功率构造动作空间,以及由整车燃油消耗与电能消耗总成本以及电池SOC偏离预设值的惩罚成本构建奖励函数,从而建立深度确定性策略梯度DDPG算法,并利用所述训练数据集和测试数据集对DDPG算法进行训练;提取训练完成的DDPG神经网络作为SOC最优参考轨迹规划模型,也即能量管理策略的上层;
步骤2、在云计算平台建立基于广义回归神经网络GRNN的短期多维路况预测模型,以所述多维路况信息作为输入、以车辆在未来时刻的运行状态、路面及载荷情况作为输出;利用所述训练数据集和测试数据集对该短期多维路况预测模型进行训练;
步骤3、基于智能交通系统,在车联网环境下提前获取目标行驶路线的多维路况信息,并利用所述SOC最优参考轨迹规划模型得到SOC最优参考轨迹;
步骤4、以整车燃油消耗与电能消耗总成本最小为控制目标,建立基于模型预测控制MPC的混动汽车能量最优分配控制器,以SOC为状态变量,发动机功率为控制变量,与所述短期多维路况预测模型共同构成能量管理策略的下层;
基于所述短期多维路况预测模型输出确定预测时域内的整车驱动需求功率,并以所述SOC最优参考轨迹作为控制时域内的SOC参考值,利用动态规划算法求解得到控制时域中的最优控制序列,最终实现提供长期的能量最优分配;
步骤5、依次重复执行前述步骤,对能量最优分配策略以及路况信息数据库进行更新。
进一步地,所述步骤1具体包括:
步骤1.1、提取包括:车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息,将这些多维路况信息作为训练数据集和测试数据集;
步骤1.2、在云计算平台中建立以下形式的DDPG算法:
Figure BDA0003211063220000021
式中,S表示状态空间,A表示动作空间,R表示奖励函数,SOC表示电池荷电状态,v表示车速,acc表示加速度,Pe表示发动机功率,fuel表示单位时间的耗油量,elec表示单位时间的耗电量,SOCtar表示目标SOC值,w1和w2分别表示燃油和电能的单位价格,α表示能耗成本的权重因子,β和ε都表示SOC维持成本的权重因子;
步骤1.3、利用所述训练数据集和测试数据集对DDPG算法进行训练,具体训练更新过程如下:
ytar(i)=ri+γQ'(si+1,μ'(si+1μ'Q')
ypre(i)=Q(si,aiQ)
Figure BDA0003211063220000022
Figure BDA0003211063220000023
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
式中,i表示训练的步数,Q(si,ai)表示动作值函数,Q表示当前Critic网络,μ表示当前Actor网络,Q'表示目标Critic网络,μ'表示目标Actor网络,θ表示神经网络参数,s表示状态,a表示动作,r表示奖励,γ表示折扣因子,ytar表示目标Q值,ypre表示实际Q值,n表示批量梯度下降的样本数,J(θQ)表示当前Critic网络的损失函数,J(θμ)表示当前Actor网络的损失函数,τ表示软更新系数;
当训练至算法完全收敛后,提取DDPG的动作选择Actor网络作为SOC最优参考轨迹规划模型。
进一步地,在所述步骤1中提取多维路况信息后、形成训练集和测试集之前,先对其所包含的不同种类数据执行以下归一化处理:
Figure BDA0003211063220000031
式中,X表示各类原始数据,Y表示归一化处理之后的数据,下标max和min分别表示最大值和最小值。
进一步地,所述步骤2具体包括:
步骤2.1、利用粒子群优化算法优化GRNN的网络参数包括:首先为用于路况预测GRNN的网络初始权重随机赋值,然后使用粒子群优化算法映射各个权重到不同的粒子上,经过多次迭代得到理想的权重值,作用是提高最终得到的短期多维路况预测模型的预测精度;
步骤2.2、建立以下形式的基于广义回归神经网络GRNN的短期多维路况预测模型:
Input={vhis,acchis,dishis,gradhis,curvdis,loadhis,ligdis}
Output={vpre,accpre,gradpre,loadpre}
Output=fGRNN(Input)
式中,Input表示输入、Output表示输出,v表示车速,acc表示加速度,dis表示路段对应的行驶里程,grad表示路面坡度,curv表示道路曲率,load表示负载质量,lig表示路段途经的交通信号灯信息,下标his和pre分别表示历史时域和预测时域,fGRNN(*)表示GRNN的函数映射关系;
步骤2.3、利用所述训练集与测试集对GRNN进行训练,得到训练好的短期多维路况预测模型,用于输出未来时刻的车速,加速度,路面坡度和负载质量。
进一步地,所述步骤3具体包括:
步骤3.1、基于智能交通系统,在车联网环境下提前获取目标车辆、目标行驶路线中,包括车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息;
步骤3.2、将所述多维路况信息输入所述SOC最优参考轨迹规划模型得到SOC最优参考轨迹。
进一步地,所述步骤4具体包括:
步骤4.1、以整车燃油消耗与电能消耗总成本最小为目标,建立基于模型预测控制MPC的混动汽车能量最优分配控制器的目标函数:
Figure BDA0003211063220000041
式中,Jk表示第k时间步的总成本,Δt表示采样步长;需要满足以下非线性物理约束:
Figure BDA0003211063220000042
式中,ω表示转速,T表示转矩,I表示电流,下标eng、mot、gen和bat分别表示发动机、电动机、发电机和电池,下标max和min分别表示上限值和下限值;
步骤4.2、针对适用于目标车辆的车辆模型,根据由短期多维路况预测模型的预测结果计算预测时域内的整车驱动需求功率;
步骤4.3、以SOC为状态变量,发动机功率为控制变量,并以所述SOC最优参考轨迹作为控制时域内的SOC参考值,利用动态规划算法求解得到控制时域中的最优控制序列;
步骤4.4、将所述最优控制序列中的第一个控制变量作为当前时刻的能量最优分配结果施加给所述车辆模型,获取更新后的下一时刻的状态变量,并开始计算下一时刻的能量最优分配结果。
上述本发明所提供的方法,基于云计算平台并在能量管理策略的上层中,利用提取到的多维真实路况信息对DDPG算法训练至完全收敛后,将其作为电池SOC最优参考轨迹生成模型;利用智能交通系统和车联网环境预先获取目标行驶路线的多维路况信息,从而快速计算得到电池SOC最优参考轨迹。在策略下层,通过训练GRNN作为多维路况短期实时预测模型;在MPC框架中设计能量管理在线优化控制器,计算混动汽车的能量最优分配结果,能够在提高燃油经济性的同时提升实时应用潜力,从而具有了现有技术所不具备的诸多有益效果。
附图说明
图1是本发明所提供方法的工作原理示意图;
图2是DDPG算法控制架构示意图;
图3是电池SOC最优参考轨迹生成模型示意图;
图4是多维路况短期实时预测模型示意图;
图5是电池SOC最优参考轨迹结果图;
图6是未来10s的车速预测结果图;
图7是电池SOC轨迹跟踪结果图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的一种融合深度强化学习的混动汽车分层预测能量管理方法,如图1所示,具体包括以下步骤:
步骤1、从路况信息数据库中提取混动汽车的各历史行驶路线中从起点至终点的多维路况信息,作为训练数据集和测试数据集;
在云计算平台中,由所述多维路况信息和电池SOC构造状态空间,由发动机功率构造动作空间,以及由整车燃油消耗与电能消耗总成本以及电池SOC偏离预设值的惩罚成本构建奖励函数,从而建立深度确定性策略梯度DDPG算法,并利用所述训练数据集和测试数据集对DDPG算法进行训练;提取训练完成的DDPG神经网络作为SOC最优参考轨迹规划模型,也即能量管理策略的上层;
步骤2、在云计算平台建立基于广义回归神经网络GRNN的短期多维路况预测模型,以所述多维路况信息作为输入、以车辆在未来时刻的运行状态、路面及载荷情况作为输出;利用所述训练数据集和测试数据集对该短期多维路况预测模型进行训练;
步骤3、基于智能交通系统,在车联网环境下提前获取目标行驶路线的多维路况信息,并利用所述SOC最优参考轨迹规划模型得到SOC最优参考轨迹;
步骤4、以整车燃油消耗与电能消耗总成本最小为控制目标,建立基于模型预测控制MPC的混动汽车能量最优分配控制器,以SOC为状态变量,发动机功率为控制变量,与所述短期多维路况预测模型共同构成能量管理策略的下层;
基于所述短期多维路况预测模型输出确定预测时域内的整车驱动需求功率,并以所述SOC最优参考轨迹作为控制时域内的SOC参考值,利用动态规划算法求解得到控制时域中的最优控制序列,最终实现提供长期的能量最优分配;
步骤5、依次重复执行前述步骤,对能量最优分配策略以及路况信息数据库进行更新。
在本发明的一个优选实施方式中,所述步骤1具体包括:
步骤1.1、提取包括:车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息,将这些多维路况信息作为训练数据集和测试数据集;
步骤1.2、如图2所示,在云计算平台中建立以下形式的DDPG算法:
Figure BDA0003211063220000051
式中,S表示状态空间,A表示动作空间,R表示奖励函数,SOC表示电池荷电状态,v表示车速,acc表示加速度,Pe表示发动机功率,fuel表示单位时间的耗油量,elec表示单位时间的耗电量,SOCtar表示目标SOC值,w1和w2分别表示燃油和电能的单位价格,α表示能耗成本的权重因子,β和ε都表示SOC维持成本的权重因子;
步骤1.3、利用所述训练数据集和测试数据集对DDPG算法进行训练,具体训练更新过程如下:
ytar(i)=ri+γQ'(si+1,μ'(si+1μ'Q')
ypre(i)=Q(si,aiQ)
Figure BDA0003211063220000061
Figure BDA0003211063220000062
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
式中,i表示训练的步数,Q(si,ai)表示动作值函数,Q表示当前Critic网络,μ表示当前Actor网络,Q'表示目标Critic网络,μ'表示目标Actor网络,θ表示神经网络参数,s表示状态,a表示动作,r表示奖励,γ表示折扣因子,ytar表示目标Q值,ypre表示实际Q值,n表示批量梯度下降的样本数,J(θQ)表示当前Critic网络的损失函数,J(θμ)表示当前Actor网络的损失函数,τ表示软更新系数;
当训练至算法完全收敛后,提取DDPG的动作选择Actor网络作为SOC最优参考轨迹规划模型,如图3所示。
在本发明的一个优选实施方式中,在所述步骤1中提取多维路况信息后、形成训练集和测试集之前,先对其所包含的不同种类数据执行以下归一化处理:
Figure BDA0003211063220000063
式中,X表示各类原始数据,Y表示归一化处理之后的数据,下标max和min分别表示最大值和最小值。
进一步地,所述步骤2具体包括:
步骤2.1、利用粒子群优化算法优化GRNN的网络参数包括:首先为用于路况预测GRNN的网络初始权重随机赋值,然后使用粒子群优化算法映射各个权重到不同的粒子上,经过多次迭代得到理想的权重值,作用是提高最终得到的短期多维路况预测模型的预测精度;
步骤2.2、建立以下形式的基于广义回归神经网络GRNN的短期多维路况预测模型:
Input={vhis,acchis,dishis,gradhis,curvdis,loadhis,ligdis}
Output={vpre,accpre,gradpre,loadpre}
Output=fGRNN(Input)
式中,Input表示输入、Output表示输出,v表示车速,acc表示加速度,dis表示路段对应的行驶里程,grad表示路面坡度,curv表示道路曲率,load表示负载质量,lig表示路段途经的交通信号灯信息,下标his和pre分别表示历史时域和预测时域,fGRNN(*)表示GRNN的函数映射关系;
步骤2.3、利用所述训练集与测试集对GRNN进行训练,得到如图4所示的训练好的短期多维路况预测模型,用于输出未来时刻的车速,加速度,路面坡度和负载质量。
如果训练前对多维路况信息进行了归一化处理,预测后还应执行相应的反归一化。
在本发明的一个优选实施方式中,所述步骤3具体包括:
步骤3.1、基于智能交通系统ITS,在车联网环境下提前获取目标车辆、目标行驶路线中,包括车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息;
步骤3.2、将所述多维路况信息输入所述SOC最优参考轨迹规划模型得到如图5所示的SOC最优参考轨迹。
进一步地,所述步骤4具体包括:
步骤4.1、以整车燃油消耗与电能消耗总成本最小为目标,建立基于模型预测控制MPC的混动汽车能量最优分配控制器的目标函数:
Figure BDA0003211063220000071
式中,Jk表示第k时间步的总成本,Δt表示采样步长;需要满足以下非线性物理约束:
Figure BDA0003211063220000072
式中,ω表示转速,T表示转矩,I表示电流,下标eng、mot、gen和bat分别表示发动机、电动机、发电机和电池,下标max和min分别表示上限值和下限值;
步骤4.2、针对适用于目标车辆的车辆模型,根据由短期多维路况预测模型的预测结果计算预测时域内的整车驱动需求功率;图6示出了基于本发明的一实例中对未来10s的车速预测结果。
步骤4.3、以SOC为状态变量,发动机功率为控制变量,并以所述SOC最优参考轨迹作为控制时域内的SOC参考值,利用动态规划算法求解得到控制时域中的最优控制序列;
步骤4.4、将所述最优控制序列中的第一个控制变量作为当前时刻的能量最优分配结果施加给所述车辆模型,获取更新后的下一时刻的状态变量,并开始计算下一时刻的能量最优分配结果。
在实际应用本发明时,所述预测时域和所述控制时域可设置为相同的时间长度。
图7示出了基于本发明的一具体实例中,对SOC轨迹的跟踪效果。
应理解,本发明实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种融合深度强化学习的混动汽车分层预测能量管理方法,其特征在于:具体包括以下步骤:
步骤1、从路况信息数据库中提取混动汽车的各历史行驶路线中从起点至终点的多维路况信息,作为训练数据集和测试数据集;
在云计算平台中,由所述多维路况信息和电池SOC构造状态空间,由发动机功率构造动作空间,以及由整车燃油消耗与电能消耗总成本以及电池SOC偏离预设值的惩罚成本构建奖励函数,从而建立DDPG算法,并利用所述训练数据集和测试数据集对DDPG算法进行训练;提取训练完成的DDPG算法的神经网络作为SOC最优参考轨迹规划模型,也即能量管理策略的上层;
步骤2、在云计算平台建立基于广义回归神经网络GRNN的短期多维路况预测模型,以所述多维路况信息作为输入、以车辆在未来时刻的运行状态、路面及载荷情况作为输出;利用所述训练数据集和测试数据集对该短期多维路况预测模型进行训练;
步骤3、基于智能交通系统,在车联网环境下提前获取目标行驶路线的多维路况信息,并利用所述SOC最优参考轨迹规划模型得到SOC最优参考轨迹;
步骤4、以整车燃油消耗与电能消耗总成本最小为控制目标,建立基于模型预测控制MPC的混动汽车能量最优分配控制器,以SOC为状态变量,发动机功率为控制变量,与所述短期多维路况预测模型共同构成能量管理策略的下层;
基于所述短期多维路况预测模型输出确定预测时域内的整车驱动需求功率,并以所述SOC最优参考轨迹作为控制时域内的SOC参考值,利用动态规划算法求解得到控制时域中的最优控制序列,最终实现提供长期的能量最优分配;
步骤5、依次重复执行前述步骤,对能量最优分配策略以及路况信息数据库进行更新。
2.如权利要求1所述的方法,其特征在于:所述步骤1具体包括:
步骤1.1、提取包括:车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息,将这些多维路况信息作为训练数据集和测试数据集;
步骤1.2、在云计算平台中建立以下形式的DDPG算法:
Figure FDA0003211063210000011
式中,S表示状态空间,A表示动作空间,R表示奖励函数,SOC表示电池荷电状态,v表示车速,acc表示加速度,Pe表示发动机功率,fuel表示单位时间的耗油量,elec表示单位时间的耗电量,SOCtar表示目标SOC值,w1和w2分别表示燃油和电能的单位价格,α表示能耗成本的权重因子,β和ε都表示SOC维持成本的权重因子;
步骤1.3、利用所述训练数据集和测试数据集对DDPG算法进行训练,具体训练更新过程如下:
ytar(i)=ri+γQ'(si+1,μ'(si+1μ'Q')
ypre(i)=Q(si,aiQ)
Figure FDA0003211063210000021
Figure FDA0003211063210000022
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
式中,i表示训练的步数,Q(si,ai)表示动作值函数,Q表示当前Critic网络,μ表示当前Actor网络,Q'表示目标Critic网络,μ'表示目标Actor网络,θ表示神经网络参数,s表示状态,a表示动作,r表示奖励,γ表示折扣因子,ytar表示目标Q值,ypre表示实际Q值,n表示批量梯度下降的样本数,J(θQ)表示当前Critic网络的损失函数,J(θμ)表示当前Actor网络的损失函数,τ表示软更新系数;
当训练至算法完全收敛后,提取DDPG的动作选择Actor网络作为SOC最优参考轨迹规划模型。
3.如权利要求2所述的方法,其特征在于:在所述步骤1中提取多维路况信息后、形成训练集和测试集之前,先对其所包含的不同种类数据执行以下归一化处理:
Figure FDA0003211063210000023
式中,X表示各类原始数据,Y表示归一化处理之后的数据,下标max和min分别表示最大值和最小值。
4.如权利要求1所述的方法,其特征在于:所述步骤2具体包括:
步骤2.1、利用粒子群优化算法优化GRNN的网络参数包括:首先为用于路况预测GRNN的网络初始权重随机赋值,然后使用粒子群优化算法映射各个权重到不同的粒子上,经过多次迭代得到理想的权重值,作用是提高最终得到的短期多维路况预测模型的预测精度;
步骤2.2、建立以下形式的基于广义回归神经网络GRNN的短期多维路况预测模型:
Input={vhis,acchis,dishis,gradhis,curvdis,loadhis,ligdis}
Output={vpre,accpre,gradpre,loadpre}
Output=fGRNN(Input)
式中,Input表示输入、Output表示输出,v表示车速,acc表示加速度,dis表示路段对应的行驶里程,grad表示路面坡度,curv表示道路曲率,load表示负载质量,lig表示路段途经的交通信号灯信息,下标his和pre分别表示历史时域和预测时域,fGRNN(*)表示GRNN的函数映射关系;
步骤2.3、利用所述训练集与测试集对GRNN进行训练,得到训练好的短期多维路况预测模型,用于输出未来时刻的车速,加速度,路面坡度和负载质量。
5.如权利要求1所述的方法,其特征在于:所述步骤3具体包括:
步骤3.1、基于智能交通系统,在车联网环境下提前获取目标车辆、目标行驶路线中,包括车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息;
步骤3.2、将所述多维路况信息输入所述SOC最优参考轨迹规划模型得到SOC最优参考轨迹。
6.如权利要求1所述的方法,其特征在于:所述步骤4具体包括:
步骤4.1、以整车燃油消耗与电能消耗总成本最小为目标,建立基于模型预测控制MPC的混动汽车能量最优分配控制器的目标函数:
Figure FDA0003211063210000031
式中,Jk表示第k时间步的总成本目标,Δt表示采样步长;需要满足以下非线性物理约束:
Figure FDA0003211063210000032
式中,ω表示转速,T表示转矩,I表示电流,下标eng、mot、gen和bat分别表示发动机、电动机、发电机和电池,下标max和min分别表示上限值和下限值;
步骤4.2、针对适用于目标车辆的车辆模型,根据由短期多维路况预测模型的预测结果计算预测时域内的整车驱动需求功率;
步骤4.3、以SOC为状态变量,发动机功率为控制变量,并以所述SOC最优参考轨迹作为控制时域内的SOC参考值,利用动态规划算法求解得到控制时域中的最优控制序列;
步骤4.4、将所述最优控制序列中的第一个控制变量作为当前时刻的能量最优分配结果施加给所述车辆模型,获取更新后的下一时刻的状态变量,并开始计算下一时刻的能量最优分配结果。
CN202110930227.6A 2021-08-13 2021-08-13 一种融合深度强化学习的混动汽车分层预测能量管理方法 Active CN113525396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110930227.6A CN113525396B (zh) 2021-08-13 2021-08-13 一种融合深度强化学习的混动汽车分层预测能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110930227.6A CN113525396B (zh) 2021-08-13 2021-08-13 一种融合深度强化学习的混动汽车分层预测能量管理方法

Publications (2)

Publication Number Publication Date
CN113525396A true CN113525396A (zh) 2021-10-22
CN113525396B CN113525396B (zh) 2023-10-13

Family

ID=78122393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110930227.6A Active CN113525396B (zh) 2021-08-13 2021-08-13 一种融合深度强化学习的混动汽车分层预测能量管理方法

Country Status (1)

Country Link
CN (1) CN113525396B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113911103A (zh) * 2021-12-14 2022-01-11 北京理工大学 一种混合动力履带车辆速度与能量协同优化方法及系统
CN114103971A (zh) * 2021-11-23 2022-03-01 北京理工大学 一种燃料电池汽车节能驾驶优化方法及装置
CN116729386A (zh) * 2023-07-07 2023-09-12 清华大学 多交叉路口场景下车辆分层规划和控制方法及装置
CN116853073A (zh) * 2023-09-04 2023-10-10 江西五十铃汽车有限公司 一种新能源电动汽车能量管理方法及系统
CN117227700A (zh) * 2023-11-15 2023-12-15 北京理工大学 串联混合动力无人履带车辆的能量管理方法及系统
CN117787925A (zh) * 2024-02-28 2024-03-29 北京北矿智能科技有限公司 一种混合动力能量管理的方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160024978A1 (en) * 2014-07-25 2016-01-28 Delphi Technologies, Inc. Camshaft phaser
WO2018104850A1 (en) * 2016-12-08 2018-06-14 Kpit Technologies Limited Model predictive based control for automobiles
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN111267831A (zh) * 2020-02-28 2020-06-12 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN111845701A (zh) * 2020-08-05 2020-10-30 重庆大学 一种跟车环境下基于深度强化学习的hev能量管理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160024978A1 (en) * 2014-07-25 2016-01-28 Delphi Technologies, Inc. Camshaft phaser
WO2018104850A1 (en) * 2016-12-08 2018-06-14 Kpit Technologies Limited Model predictive based control for automobiles
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN111267831A (zh) * 2020-02-28 2020-06-12 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN111845701A (zh) * 2020-08-05 2020-10-30 重庆大学 一种跟车环境下基于深度强化学习的hev能量管理方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114103971A (zh) * 2021-11-23 2022-03-01 北京理工大学 一种燃料电池汽车节能驾驶优化方法及装置
CN114103971B (zh) * 2021-11-23 2023-10-10 北京理工大学 一种燃料电池汽车节能驾驶优化方法及装置
CN113911103A (zh) * 2021-12-14 2022-01-11 北京理工大学 一种混合动力履带车辆速度与能量协同优化方法及系统
CN116729386A (zh) * 2023-07-07 2023-09-12 清华大学 多交叉路口场景下车辆分层规划和控制方法及装置
CN116729386B (zh) * 2023-07-07 2023-12-26 清华大学 多交叉路口场景下车辆分层规划和控制方法及装置
CN116853073A (zh) * 2023-09-04 2023-10-10 江西五十铃汽车有限公司 一种新能源电动汽车能量管理方法及系统
CN116853073B (zh) * 2023-09-04 2024-01-26 江西五十铃汽车有限公司 一种新能源电动汽车能量管理方法及系统
CN117227700A (zh) * 2023-11-15 2023-12-15 北京理工大学 串联混合动力无人履带车辆的能量管理方法及系统
CN117227700B (zh) * 2023-11-15 2024-02-06 北京理工大学 串联混合动力无人履带车辆的能量管理方法及系统
CN117787925A (zh) * 2024-02-28 2024-03-29 北京北矿智能科技有限公司 一种混合动力能量管理的方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113525396B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN113525396B (zh) 一种融合深度强化学习的混动汽车分层预测能量管理方法
WO2021103625A1 (zh) 一种基于前车与自车互动的短期车速工况实时预测方法
CN111267831B (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
Wu et al. Continuous reinforcement learning of energy management with deep Q network for a power split hybrid electric bus
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
CN112265546B (zh) 基于时空序列信息的网联汽车车速预测方法
CN110991757B (zh) 一种混合动力电动汽车综合预测能量管理方法
Phan et al. Interval type 2 fuzzy logic control for energy management of hybrid electric autonomous vehicles
CN107688343B (zh) 一种混合动力车辆的能量控制方法
CN111047085B (zh) 一种基于元学习的混合动力车辆工况预测方法
CN112561169B (zh) 一种并联混合动力汽车混杂mpc能量管理方法
CN112339756B (zh) 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法
Wu et al. An online correction predictive EMS for a hybrid electric tracked vehicle based on dynamic programming and reinforcement learning
Zhao et al. Energy control of plug-in hybrid electric vehicles using model predictive control with route preview
He et al. A novel hierarchical predictive energy management strategy for plug-in hybrid electric bus combined with deep deterministic policy gradient
Baker et al. Investigation of vehicle speed prediction from neural network fit of real world driving data for improved engine on/off control of the EcoCAR3 hybrid Camaro
CN114103924A (zh) 一种混合动力车辆能量管理控制方法及装置
CN114312845A (zh) 基于地图数据的深度强化学习型混合动力汽车控制方法
Zhou et al. A two-term energy management strategy of hybrid electric vehicles for power distribution and gear selection with intelligent state-of-charge reference
Zou et al. Inverse reinforcement learning via neural network in driver behavior modeling
CN115495997A (zh) 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
CN115257695A (zh) 一种混合动力汽车能量管理控制系统及其方法
Gan et al. Intelligent learning algorithm and intelligent transportation-based energy management strategies for hybrid electric vehicles: a review
Shen et al. Real-time scenario-based stochastic optimal energy management strategy for HEVs
Xia et al. A predictive energy management strategy for multi-mode plug-in hybrid electric vehicle based on long short-term memory neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant