CN111267831B - 一种混合动力车辆智能变时域模型预测能量管理方法 - Google Patents

一种混合动力车辆智能变时域模型预测能量管理方法 Download PDF

Info

Publication number
CN111267831B
CN111267831B CN202010129721.8A CN202010129721A CN111267831B CN 111267831 B CN111267831 B CN 111267831B CN 202010129721 A CN202010129721 A CN 202010129721A CN 111267831 B CN111267831 B CN 111267831B
Authority
CN
China
Prior art keywords
neural network
prediction
model
vehicle speed
energy management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010129721.8A
Other languages
English (en)
Other versions
CN111267831A (zh
Inventor
周健豪
薛源
薛四伍
顾诚
廖宇晖
刘军
张仁鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010129721.8A priority Critical patent/CN111267831B/zh
Publication of CN111267831A publication Critical patent/CN111267831A/zh
Application granted granted Critical
Publication of CN111267831B publication Critical patent/CN111267831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/11Controlling the power contribution of each of the prime movers to meet required power demand using model predictive control [MPC] strategies, i.e. control methods based on models predicting performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/15Control strategies specially adapted for achieving a particular effect
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics

Abstract

本发明公开了一种混合动力车辆智能变时域模型预测能量管理方法,属于插电式混合动力汽车能量管理领域,所述方法主要包括:建立双神经网络工况预测模型,进一步建立基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统;利用深度确定性策略梯度(DDPG)算法,建立DDPG控制器;将上述所构建模型结合,建立一种混合动力车辆智能变时域模型预测能量管理模型,对模型进行训练;汽车行驶时,获取汽车的相关状态与交通状况信息作用于已训练模型,实现了并联式混合动力车辆智能变时域MPC的能量管理。采用本发明,可以有效解决采用固定预测时域的MPC对工况适应性差的问题,有效提高能量管理策略的控制效果,进一步提高车辆的燃油经济性。

Description

一种混合动力车辆智能变时域模型预测能量管理方法
技术领域
本发明属于插电式混合动力汽车能量管理领域,尤其涉及一种混合动力车辆智能变时域模型预测能量管理方法。
背景技术
近些年,汽车行业快速发展,给人们的出行带来了极大的便利,但是也引起了环境污染与资源短缺等问题。为了解决这些问题,汽车行业不断改革创新,积极推动新能源汽车技术的发展,尤其是混合动力汽车。混合动力汽车分为传统的混合动力汽车(HEV)和插电式混合动力汽车(PHEV),与传统的混合动力汽车相比,插电式混合动力汽车具有大容量的动力电池、可直接接入电网充电和可以纯电动行驶的优点,因此被重点发展。PHEV具有多个能量源,在不同行驶工况下,应合理协调各个动力源能量供给分配情况,使发动机与电机保持高效率区间运转,提高燃油经济性,因此在PHEV发展中,应该对能量管理策略进行合理的制定,整车的性能与策略的好坏有直接联系。
现如今,在PHEV上应用的能量管理策略有两类:一是基于规则的能量管理策略,二是基于优化的能量管理策略。基于规则的能量管理策略需要依赖于专家经验对规则进行制定,对工况的适应性不好,难以实现最优解。基于优化的能量管理策略有两类:一是基于全局优化的能量管理策略,二是基于瞬时优化的能量管理策略。基于全局优化的能量管理策略可以实现全局最优解,但计算时间长,不可用于实时控制;基于瞬时优化的能量管理策略,计算时间短,所以广泛应用于混合动力汽车的能量管理中,实现在线实时控制,尤其是模型预测控制方法。
模型预测控制方法基于未来行驶工况,在预测时域内实现对未来车辆转矩需求的滚动优化,以实时最优的控制策略逼近全局最优的控制效果,但是模型预测控制方法均固定的预测时域,研究人员依靠经验或者进行试验对其进行确定,采用固定预测时域的MPC方法无法很好地适应工况的变化,难以保证车辆最优的燃油经济性。在汽车实际行驶过程中,天气条件与道路交通复杂多变,同时驾驶员行为具有不确定性、多样性,这些随机性问题极大地增加了模型预测控制器控制参数的调节难度。因此,在汽车实际行驶时,由于其行驶工况是变化的,故最优的预测时域也会随之变化,合理地在线实时调整预测时域的长度,可以有效提高基于模型预测控制的能量管理策略的控制效果,提高汽车整车性能。
发明内容
为了解决上述本领域中存在的技术问题,本发明提供了一种混合动力车辆智能变时域模型预测能量管理方法,在保证汽车动力性的前提下,通过DDPG控制器在线实时地调整预测时域长度Np,提高对工况的适应性,进而更加合理地分配电机与发动机所提供的转矩,使电机与发动机始终在高效率区间运作,降低燃油消耗量,提高燃油经济性。
为了实现以上目的,本发明采用以下技术方案:
一种混合动力车辆智能变时域模型预测能量管理方法,包括以下步骤:
步骤1:建立双神经网络工况预测模型,进一步建立基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统;
步骤2:利用深度确定性策略梯度(DDPG)算法,建立DDPG控制器;
步骤3:将所构建的基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统与DDPG控制器结合,建立基于DDPG的并联式混合动力车辆变时域模型预测能量管理模型,并对模型进行训练;
步骤4:通过双神经网络工况预测模型,利用历史工况对汽车未来行驶工况进行准确预测,作用于已训练模型,通过MPC输出动作控制车辆行驶,同时获取汽车的相关状态和交通状况信息,作用于DDPG控制器,在线实时调整预测时域长度Np
进一步地,所述步骤1中的建立双神经网络工况预测模型,进一步建立基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统,具体包括以下步骤:
(1)建立双神经网络工况预测模型;
(2)构建被控对象并联式混合动力汽车模型(PHEV);
(3)构建MPC控制器。
上述步骤(1)中的建立双神经网络工况预测模型,具体包括:其中双神经网络工况预测模型包括两个神经网络,两者均采用径向基神经网络(RBFNN):一是车速预测神经网络,即将历史车速序列vh作用于车速预测神经网络,输出预测时域Np内的未来车速序列v1;二是车速误差预测神经网络,即将历史真实车速与预测车速之间的误差Δvh作用于车速误差预测神经网络,输出预测时域Np内的未来车速误差序列Δv;将根据车速预测神经网络预测出的未来车速序列v1与根据车速误差预测神经网络预测出的未来车速误差序列Δv进行叠加得到更为准确的未来车速预测序列vf
上述步骤(3)中的构建MPC控制器,具体包括:其中MPC有三个要素:预测模型、滚动优化和反馈校正;在滚动优化过程中,MPC控制器的优化算法选用动态规划算法,假设当前时刻为t0,则在当前预测时域Np内,即区间[t0,t0+Np],优化目标和约束条件为:
上式中,为在预测时域[t0,t0+Np]内的成本函数,即燃油消耗量;x(t)为当前时刻的状态变量,即动力电池荷电状态SOC;u(t)为当前时刻的控制变量,此处为扭矩分配系数,即电机提供转矩与车辆总需求转矩比值;xmin与xmax为状态变量的上下限;umin与umax为控制变量的上下限;H(x(t),u(t))为在当前时刻下的成本函数,即当前时刻下油耗。
进一步地,所述步骤2中的利用深度确定性策略梯度(DDPG)算法,建立DDPG控制器,具体包括以下步骤:
步骤A:确定DDPG中的观测量(observation)、控制量(action)、程序提前终止条件(isdone)和定义奖励函数(reward);
步骤B:建立动作神经网络和评价神经网络,完成对DDPG控制器的构建。
上述步骤A中的确定DDPG中的观测量(observation)、控制量(action)和程序提前终止条件(isdone),具体包括:观测量(observation)有八个:分别为动力电池荷电状态SOC、当前时刻发动机的燃油消耗量Δfuel、当前时刻汽车车速v、当前时刻汽车加速度a、坡度、当前时刻预测车速vp、与前车相对车速vr和与前车距离dr;控制量(action)一个:模型预测控制预测时域长度Np;程序终止条件(isdone)有三个:一是模型预测控制单步计算时间Tc,考虑到算法的实时性,当Tc≥0.5s时,程序提前终止运行,此刻isdone=1,否则为0;二是动力电池荷电状态SOC,考虑到动力电池SOC的限制,当SOC<0.3时,程序提前终止运行,此刻isdone=1,否则为0;三是考虑安全性能,在当前车速v和与前车相对车速vr下,当与前车距离dr<dstd,程序提前终止运行,此刻isdone=1,否则为0,其中dstd为在当前车速v和与前车相对车速vr下的最小安全距离,是关于v与vr的函数,定义奖励函数,所述奖励函数reward的具体计算公式为:
reward=-100Δfuel-10Mt-8Ms-20Md-0.1|ev|
上式中,Δfuel为当前时刻下发动机的燃油消耗量;-10Mt为惩罚项,如果Tc≥0.5s时,此刻Mt=1,对奖励函数进行惩罚,否则Mt=0;-8Ms为惩罚项,如果SOC<0.3,此刻Ms=1,对奖励函数进行惩罚,否则Ms=0;-20Md为惩罚项,在当前车速v和与前车相对车速vr下,如果dr<dstd,此刻Ms=1,对奖励函数进行惩罚,否则Md=0;ev为预测车速vp与当前实际行驶车速v的偏差。
上述步骤B中建立动作神经网络和评价神经网络,完成对DDPG控制器的构建,具体包括:动作神经网络包括动作估计神经网络和动作目标神经网络,二者内部结构一样;评价网络包括评价估计神经网络和评价目标神经网络,二者内部结构一样;在建立动作神经网络时,其神经网络的输入为观测量(observation),即动力电池荷电状态SOC、当前时刻发动机的燃油消耗量Δfuel、当前时刻汽车车速v、当前时刻汽车加速度a、坡度、当前时刻预测车速vp、与前车相对车速vr和与前车距离dr,输出为控制量(action),即模型预测控制预测时域长度Np;在建立评价神经网络时,其中输入有两个:一是观测量(observation),二是控制量(action),输出为Q值。
进一步地,所述步骤3中的将所构建的基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统与DDPG控制器结合,建立基于DDPG的并联式混合动力车辆变时域模型预测能量管理模型,并对模型进行训练,具体包括以下步骤:
Ⅰ:初始化动作神经网络、评价神经网络和经验池Memory batch空间R;
Ⅱ:对当前网络加上高斯扰动,进行动作探索,当前状态为st,作用当前动作at,观察当前回报值rt,然后观察下一个状态st+1,将经验(st,at,rt,st+1)保存到经验池Memorybatch空间R;
III:从经验池Memory batch空间R中随机选取部分样本,用(sj,aj,rj,sj)表示,然后训练更新目标网络,学习过程为:
yj=rj+γQ′(sj+1,u′(sj+1u′)|θQ′)
上式中yj为标签;rj为学习过程中的回报;γ为折扣因子;θu′与θQ′为目标权重;
IV:定义Loss函数,用于网络更新,Loss函数为:
上式中L表示损失函数,N为元组数据的个数。
Ⅴ:计算策略梯度:
上式中,为损失函数Loss关于θQ的梯度,通过动作网络的方法调整权重值。
VI:更新目标网络权重,评价网络权重更新:τθQ+(1-τθQ′)→θQ′;动作网络权重更新:τθu+(1-τθu′)→θu′,其中τ为更新率,τ<<1,由此构建一个收敛的神经网络。
VII:当训练步数完成后,DDPG模型训练完成。
进一步地,所述步骤4中的通过双神经网络工况预测模型,利用历史工况对汽车未来行驶工况进行准确预测,作用于已训练模型,通过MPC输出动作控制车辆行驶,同时获取汽车的相关状态和交通状况信息,作用于DDPG控制器,在线实时调整预测时域长度Np,具体包括以下步骤:
第一步:通过相关传感器获取汽车的历史车速序列与历史车速误差序列,通过双神经网络工况预测模型输出预测时域Np内更为准确的未来车速预测序列;
第二步:将获取的未来车速工况作用于MPC控制器,通过动态规划算法求解并输出动作控制PHEV运行;
第三步:获取当前时刻有关车辆状态的有关信息以及通过V2V、V2I和ITS获取有关交通状况的相关信息,共同作用于已训练完成的DDPG控制器,通过DDPG控制器输出预测时域Np,在线实时调节MPC预测时域的长度Np,完成对预测时域Np的更新;
第四步:如此重复第一步至第三步,直至汽车完成行驶任务。
本发明实施的技术方案带来的有益效果至少包括:
本发明提供了一种混合动力车辆智能变时域模型预测能量管理方法,首先,建立双神经网络工况预测模型,进一步建立基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统,所采用的神经网络采用径向基神经网络(RBFNN),确定了MPC中控制算法采用动态规划算法;其次,用深度确定性策略梯度(DDPG)算法,建立DDPG控制器;然后,将所构建的基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统与DDPG控制器结合,建立基于DDPG的并联式混合动力车辆变时域模型预测能量管理模型,并对模型进行训练;最后,通过双神经网络工况预测模型,对未来工况进行预测,同时获取汽车的相关状态与交通状况信息作用于已训练模型,以在线实时自适应调节模型预测控制的预测时域长度Np。本发明提供的方法,可以利用相关传感器、V2V、V2I和ITS等获取当前时刻DDPG控制器有关需要输入的信息参数,并且基于当前时刻参数,通过DDPG控制器在线实时调整模型预测控制的预测时域长度Np,提高了能量管理算法的鲁棒性,提高了对工况的适应性,在保证汽车动力性的前提下,进一步的减小汽车的燃油消耗量,以达到最佳燃油经济性效果。
附图说明
为了更清楚地说明本发明中的技术方案,下面将对本发明中所需要使用的附图进行简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其它附图。
图1是本发明实施例中提供的一种混合动力车辆智能变时域模型预测能量管理结构示意图。
图2是本发明实施例中提供的一种混合动力车辆智能变时域模型预测能量管理设计方法流程示意图。
图3是本发明实施例中提供的双神经网络工况预测系统结构示意图。
图4是本发明实施例中提供的DDPG算法结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合说明书附图对本发明的实施方式做进一步地详细叙述。
图1是本发明实施例中提供的一种混合动力车辆智能变时域模型预测能量管理结构示意图,请参见图1,根据结构示意图,其基本工作原理是:通过相关传感器获取汽车的历史车速序列与历史车速误差序列,通过双神经网络工况预测模型输出更为准确的未来车速预测序列,将获取的未来车速预测工况作用于MPC控制器,运用动态规划算法进行,并输出动作对被控对象插电混合动力汽车进行控制,同时传感器获取当前时刻有关车辆状态的有关信息以及通过V2V、V2I和ITS获取有关交通状况的相关信息,共同作用于已训练完成的DDPG控制器,DDPG控制器通过当前时刻观测量,输出预测时域Np,在线实时调节MPC预测时域的长度Np,完成对预测时域Np的更新,如此重复以上过程,直至车辆完成行驶任务。
图2是本发明实施例中提供的一种混合动力车辆智能变时域模型预测能量管理设计方法流程示意图,请参见图2,按照流程示意图,完成对混合动力车辆智能变时域模型预测能量管理结构系统的设计。
步骤201,建立双神经网络工况预测模型,进一步建立基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统。
建立双神经网络工况预测模型,进一步建立基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统时,具体包括以下步骤:
(1)建立双神经网络工况预测模型;
(2)构建被控对象并联式混合动力汽车模型(PHEV);
(3)构建MPC控制器。
对上述步骤201中的步骤(1)中的建立双神经网络工况预测模型,图3是本发明实施例中提供的双神经网络工况预测系统结构示意图,请参见图3,其基本工作原理:其中双神经网络工况预测模型包括两个神经网络,二者均采用径向基神经网络(RBFNN):一是车速预测神经网络,即将历史车速序列vh作用于车速预测神经网络,输出预测时域Np内的未来车速序列v1;二是车速误差预测神经网络,即将历史真实车速与预测车速之间的误差Δvh作用于车速误差预测神经网络,输出预测时域Np内的未来车速误差序列Δv,将根据车速预测神经网络预测出的未来车速序列v1与根据车速误差预测神经网络预测出的未来车速误差序列Δv进行叠加得到更为准确的未来车速预测序列vf。在双神经网络工况预测模型的构建完成后,采用相关训练工况数据完成对双神经网络工况预测模型的训练。
对上述步骤201中的步骤(2)中的构建被控对象并联式混合动力汽车模型(PHEV),被控对象包括:电机、电池、发动机和变速器等。
对上述步骤201中的步骤(3)中的构建MPC控制器,其中MPC有三个要素:预测模型、滚动优化和反馈校正;在滚动优化过程中,MPC控制器的优化算法选用动态规划算法,假设当前时刻为t0,则在当前预测时域Np内,即区间[t0,t0+Np],优化目标和约束条件为:
上式中,为在预测时域[t0,t0+Np]内的成本函数,即燃油消耗量;x(t)为当前时刻的状态变量,即动力电池荷电状态SOC;u(t)为当前时刻的控制变量,此处为扭矩分配系数,即电机提供转矩与车辆总需求转矩比值;xmin与xmax为状态变量的上下限,此处xmin取0.2,xmax取0.9;umin与umax为控制变量的上下限,此处umin取-1,umax取1;H(x(t),u(t))为在当前时刻下的成本函数,即当前时刻下油耗。
步骤202,利用深度确定性策略梯度(DDPG)算法,建立DDPG控制器。
图4是本发明实施例中提供的DDPG算法结构示意图,请参见图4,其基本工作原理:其中策略网络是动作网络(Actor),用于输出动作;值函数网络是评价网络(Critic),用来评价动作网络的好坏,并且同时生成TD误差信号指导动作网络和评价网络的更新。动作网络的输入是状态,输出是动作,以DNN进行函数拟合,对连续动作NN输出层可以用tanh或sigmod,离散动作以softmax作为输出层达到概率时输出的效果;评价网络输入为状态和动作,输出为Q值。
在构建DDPG控制器时,具体包括以下步骤:
步骤A:确定DDPG中的观测量(observation)、控制量(action)、程序提前终止条件(isdone)和定义奖励函数(reward);
步骤B:建立动作神经网络和评价神经网络,完成对DDPG控制器的构建。
对上述步骤202中的步骤A中的确定DDPG中的观测量(observation)、控制量(action)和程序提前终止条件(isdone),几个参数具体包括:观测量(observation)有八个:分别为动力电池荷电状态SOC、当前时刻发动机的燃油消耗量Δfuel、当前时刻汽车车速v、当前时刻汽车加速度a、坡度、当前时刻预测车速vp、与前车相对车速vr和与前车距离dr;控制量(action)一个:模型预测控制预测时域长度Np;程序终止条件(isdone)有三个:一是模型预测控制单步计算时间Tc,考虑到算法的实时性,当Tc≥0.5s时,程序提前终止运行,此刻isdone=1,否则为0;二是动力电池荷电状态SOC,考虑到动力电池SOC的限制,当SOC<0.3时,程序提前终止运行,此刻isdone=1,否则为0;三是考虑安全性能,在当前车速v和与前车相对车速vr下,当与前车距离dr<dstd,程序提前终止运行,此刻isdone=1,否则为0,其中dstd为在当前车速v和与前车相对车速vr下的最小安全距离,是关于v与vr的函数,定义奖励函数,所述奖励函数reward的具体计算公式为:
reward=-100Δfuel-10Mt-8Ms-20Md-0.1|ev|
上式中,Δfuel为当前时刻下发动机的燃油消耗量;-10Mt为惩罚项,如果Tc≥0.5s时,此刻Mt=1,对奖励函数进行惩罚,否则Mt=0;-8Ms为惩罚项,如果SOC<0.3,此刻Ms=1,对奖励函数进行惩罚,否则Ms=0;-20Md为惩罚项,在当前车速v和与前车相对车速vr下,如果dr<dstd,此刻Ms=1,对奖励函数进行惩罚,否则Md=0;ev为预测车速vp与当前实际行驶车速v的偏差。
对上述步骤202中的步骤B中建立动作神经网络和评价神经网络,完成对DDPG控制器的构建,具体包括:动作神经网络包括动作估计神经网络和动作目标神经网络,二者内部结构一样;评价网络包括评价估计神经网络和评价目标神经网络,二者内部结构一样;在建立动作神经网络时,其神经网络的输入为观测量(observation),即动力电池荷电状态SOC、当前时刻发动机的燃油消耗量Δfuel、当前时刻汽车车速v、当前时刻汽车加速度a、坡度、当前时刻预测车速vp、与前车相对车速vr和与前车距离dr,输出为控制量(action),即模型预测控制预测时域长度Np;在建立评价神经网络时,其中输入有两个:一是观测量(observation),二是控制量(action),输出为Q值。
步骤203,将所构建的基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统与DDPG控制器结合,建立基于DDPG的并联式混合动力车辆变时域模型预测能量管理模型,并对模型进行训练。
在对所构建的模型进行训练时,具体包括以下步骤:
I:初始化动作神经网络、评价神经网络和经验池Memory batch空间R;
II:对当前网络加上高斯扰动,进行动作探索,当前状态为st,作用当前动作at,观察当前回报值rt,然后观察下一个状态st+1,将经验(st,at,rt,st+1)保存到经验池Memorybatch空间R;
III:从经验池Memory batch空间R中随机选取部分样本,用(sj,aj,rj,sj)表示,然后训练更新目标网络,学习过程为:
yj=rj+γQ′(sj+1,u′(sj+1u′)|θQ′)
上式中yj为标签;rj为学习过程中的回报;γ为折扣因子;θu′与θQ′为目标权重;
IV:定义Loss函数,用于网络更新,Loss函数为:
上式中L表示损失函数,N为元组数据的个数。
V:计算策略梯度:
上式中,为损失函数Loss关于θQ的梯度,通过动作网络的方法调整权重值。
VI:更新目标网络权重,评价网络权重更新:τθQ+(1-τθQ′)→θQ′;动作网络权重更新:τθu+(1-τθu′)→θu′,其中τ为更新率,τ<<1,由此构建一个收敛的神经网络。
VII:当训练步数完成后,DDPG模型训练完成。
步骤204,通过双神经网络工况预测模型,利用历史工况对汽车未来行驶工况进行准确预测,作用于以训练模型,通过MPC输出动作控制车辆行驶,同时获取汽车的相关状态与交通状况信息,作用于DDPG控制器,在线实时调整预测时域长度Np,具体包括以下步骤:
第一步:通过相关传感器获取汽车的历史车速序列与历史车速误差序列,通过双神经网络工况预测模型输出预测时域Np内更为准确的未来车速预测序列;
第二步:将获取的未来车速工况作用于MPC控制器,通过动态规划算法求解并输出动作控制PHEV运行;
第三步:获取当前时刻有关车辆状态的有关信息以及通过V2V/V2I/ITS获取有关交通状况的相关信息,共同作用于已训练完成的DDPG控制器,通过DDPG控制器输出预测时域Np,在线实时调节MPC预测时域的长度Np,完成对预测时域Np的更新;
第四步:如此重复第一步至第三步,直至汽车完成行驶任务。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种混合动力车辆智能变时域模型预测能量管理方法,其特征在于:包括以下步骤:
步骤1:建立双神经网络工况预测模型,进一步建立基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统;具体包括:
步骤1.1,建立双神经网络工况预测模型;
步骤1.2,构建被控对象并联式混合动力汽车模型PHEV;
步骤1.3,构建MPC控制器;
所述步骤1.3中构建MPC控制器,具体包括:MPC控制器有三个要素:预测模型、滚动优化和反馈校正;在滚动优化过程中,MPC控制器的优化算法选用动态规划算法,
设当前时刻为t0,在当前预测时域Np内,即区间[t0,t0+Np],优化目标和约束条件为:
上式(1)中,为在预测时域[t0,t0+Np]内的成本函数,即燃油消耗量;x(t)为当前时刻的状态变量,即动力电池荷电状态SOC;u(t)为当前时刻的控制变量,此处为扭矩分配系数,即电机提供转矩与车辆总需求转矩比值;xmin与xmax为状态变量的上下限;umin与umax为控制变量的上下限;H(x(t),u(t))为在当前时刻下的成本函数,即当前时刻下油耗;
步骤2:利用深度确定性策略梯度DDPG算法,建立DDPG控制器;
步骤3:将所构建的基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统与DDPG控制器结合,建立基于DDPG的并联式混合动力车辆变时域模型预测能量管理模型,并对模型进行训练;
步骤4:通过双神经网络工况预测模型,利用历史工况对汽车未来行驶工况进行准确预测,作用于已训练模型,通过MPC输出动作控制车辆行驶,同时获取汽车的相关状态和交通状况信息,作用于DDPG控制器,在线实时调整预测时域长度Np
2.根据权利要求1所述的混合动力车辆智能变时域模型预测能量管理方法,其特征在于:通过DDPG控制器用于在线实时调整模型预测控制器MPC的预测时域长度Np
3.根据权利要求1所述的混合动力车辆智能变时域模型预测能量管理方法,其特征在于:所述步骤1.1中建立双神经网络工况预测模型,具体包括:其中双神经网络工况预测模型包括两个神经网络:一是车速预测神经网络,即将历史车速序列vh作用于车速预测神经网络,输出预测时域Np内的未来车速序列v1;二是车速误差预测神经网络,即将历史真实车速与预测车速之间的误差Δvh作用于车速误差预测神经网络,输出预测时域Np内的未来车速误差序列Δv,将根据车速预测神经网络预测出的未来车速序列v1与根据车速误差预测神经网络预测出的未来车速误差序列Δv进行叠加得到更为准确的未来车速预测序列vf
4.根据权利要求1所述的混合动力车辆智能变时域模型预测能量管理方法,其特征在于:所述步骤2中的利用深度确定性策略梯度DDPG算法,建立DDPG控制器,具体包括:
步骤2.1:确定DDPG中的观测量observation、控制量action、程序提前终止条件isdone和定义奖励函数reward;
步骤2.2:建立动作神经网络和评价神经网络,完成对DDPG控制器的构建。
5.根据权利要求4所述的混合动力车辆智能变时域模型预测能量管理方法,其特征在于:所述步骤2.1中的确定DDPG中的观测量observation、控制量action和程序提前终止条件isdone,具体包括:观测量observation有八个:分别为动力电池荷电状态SOC、当前时刻发动机的燃油消耗量Δfuel、当前时刻汽车车速v、当前时刻汽车加速度a、坡度、当前时刻预测车速vp、与前车相对车速vr和与前车距离dr;控制量action一个:模型预测控制预测时域长度Np;程序终止条件isdone有三个:一是模型预测控制单步计算时间Tc,考虑到算法的实时性,当Tc≥0.5s时,程序提前终止运行,此刻isdone=1,否则为0;二是动力电池荷电状态SOC,考虑到动力电池SOC的限制,当SOC<0.3时,程序提前终止运行,此刻isdone=1,否则为0;三是考虑安全性能,在当前车速v和与前车相对车速vr下,当与前车距离dr<dstd,程序提前终止运行,此刻isdone=1,否则为0,其中dstd为在当前车速v和与前车相对车速vr下的最小安全距离,是关于v与vr的函数,定义奖励函数,所述奖励函数reward的具体计算公式为:
reward=-100Δfuel-10Mt-8Ms-20Md-0.1|ev| (2)
上式(2)中,Δfuel为当前时刻下发动机的燃油消耗量;-10Mt为惩罚项,如果Tc≥0.5s时,此刻Mt=1,对奖励函数进行惩罚,否则Mt=0;-8Ms为惩罚项,如果SOC<0.3,此刻Ms=1,对奖励函数进行惩罚,否则Ms=0;-20Md为惩罚项,在当前车速v和与前车相对车速vr下,如果dr<dstd,此刻Ms=1,对奖励函数进行惩罚,否则Md=0;ev为预测车速vp与当前实际行驶车速v的偏差。
6.根据权利要求4所述的混合动力车辆智能变时域模型预测能量管理方法,其特征在于:所述步骤2.2中的建立动作神经网络和评价神经网络,完成对DDPG控制器的构建,具体包括:动作神经网络包括动作估计神经网络和动作目标神经网络,二者结构一致;评价网络包括评价估计神经网络和评价目标神经网络,二者结构一致;在建立动作神经网络时,其神经网络的输入为观测量observation,输出为控制量action;在建立评价神经网络时,其输入有两个:一是观测量observation,二是控制量action,输出为Q值。
7.根据权利要求1所述的混合动力车辆智能变时域模型预测能量管理方法,其特征在于:所述步骤3中的将所构建的基于双神经网络工况预测的MPC的并联式混合动力车辆能量管理系统与DDPG控制器结合,建立基于DDPG的并联式混合动力车辆变时域模型预测能量管理模型,并对模型进行训练,训练过程包括:
Ⅰ:初始化动作神经网络、评价神经网络和经验池Memory batch空间R;
Ⅱ:对当前网络加上高斯扰动,进行动作探索,当前状态为st,作用当前动作at,观察当前回报值rt,然后观察下一个状态st+1,将经验(st,at,rt,st+1)保存到经验池Memory batch空间R;
III:从经验池Memory batch空间R中随机选取部分样本,用(sj,aj,rj,sj)表示,然后训练更新目标网络,学习过程为:
yj=rj+γQ′(Sj+1,u′(Sj+1u′)|θQ′) (3)
上式(3)中yj为标签;rj为学习过程中的回报;γ为折扣因子;θu′与θQ′为目标权重;
Ⅳ:定义Loss函数,用于网络更新,Loss函数为:
Ⅴ:计算策略梯度:
VI:更新目标网络权重,评价网络权重更新:τθQ+(1-τθQ′)→θQ′;动作网络权重更新:τθu+(1-τθu′)→θu′
Ⅶ:当训练步数完成后,DDPG模型训练完成。
8.根据权利要求1所述的混合动力车辆智能变时域模型预测能量管理方法,其特征在于:所述步骤4中的通过双神经网络工况预测模型,利用历史工况对汽车未来行驶工况进行准确预测,作用于已训练模型,通过MPC输出动作控制车辆行驶,同时获取汽车的相关状态和交通状况信息,作用于DDPG控制器,在线实时调整预测时域长度Np,具体包括以下步骤:
第一步:通过相关传感器获取汽车的历史车速序列与历史车速误差序列,通过双神经网络工况预测模型输出预测时域Np内更为准确的未来车速预测序列;
第二步:将获取的未来车速工况作用于MPC控制器,通过动态规划算法求解并输出动作控制PHEV运行;
第三步:获取当前时刻有关车辆状态的有关信息以及通过V2V、V2I和ITS获取有关交通状况的相关信息,共同作用于已训练完成的DDPG控制器,通过DDPG控制器输出预测时域Np,在线实时调节MPC预测时域的长度Np,完成对预测时域Np的更新;
第四步:如此重复第一步至第三步,直至汽车完成行驶任务。
CN202010129721.8A 2020-02-28 2020-02-28 一种混合动力车辆智能变时域模型预测能量管理方法 Active CN111267831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010129721.8A CN111267831B (zh) 2020-02-28 2020-02-28 一种混合动力车辆智能变时域模型预测能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010129721.8A CN111267831B (zh) 2020-02-28 2020-02-28 一种混合动力车辆智能变时域模型预测能量管理方法

Publications (2)

Publication Number Publication Date
CN111267831A CN111267831A (zh) 2020-06-12
CN111267831B true CN111267831B (zh) 2023-09-26

Family

ID=70994102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010129721.8A Active CN111267831B (zh) 2020-02-28 2020-02-28 一种混合动力车辆智能变时域模型预测能量管理方法

Country Status (1)

Country Link
CN (1) CN111267831B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084700A (zh) * 2020-08-06 2020-12-15 南京航空航天大学 一种基于a3c算法的混合动力系统能量管理方法
CN111923896B (zh) * 2020-08-17 2021-08-20 大连民族大学 基于滚动动态规划的hev车辆能量管理方法
CN112026744B (zh) * 2020-08-20 2022-01-04 南京航空航天大学 一种基于dqn变体的混联式混合动力系统能量管理方法
CN111965981B (zh) * 2020-09-07 2022-02-22 厦门大学 一种航空发动机强化学习控制方法及系统
CN112249002B (zh) * 2020-09-23 2022-06-28 南京航空航天大学 一种基于td3的启发式串并联混合动力能量管理方法
CN112193232B (zh) * 2020-09-23 2021-10-12 江苏大学 一种混合动力汽车自适应能量管理系统及方法
CN112180927B (zh) * 2020-09-27 2021-11-26 安徽江淮汽车集团股份有限公司 一种自动驾驶时域构建方法、设备、存储介质及装置
CN112158189A (zh) * 2020-09-30 2021-01-01 东南大学 基于机器视觉和深度学习的混合动力汽车能量管理方法
CN112298155B (zh) * 2020-10-30 2022-04-08 江苏紫琅汽车集团股份有限公司 一种基于变时域模型预测混合动力卡车耗能的方法
CN112319461B (zh) * 2020-11-17 2021-11-09 河南科技大学 一种基于多源信息融合的混合动力汽车能量管理方法
CN112440974B (zh) * 2020-11-27 2021-11-02 武汉理工大学 基于分布式深度确定性策略梯度的hev能量管理方法
CN112765723A (zh) * 2020-12-10 2021-05-07 南京航空航天大学 好奇心驱动的混合动力系统深度强化学习能量管理方法
CN112561169B (zh) * 2020-12-17 2023-08-01 西安理工大学 一种并联混合动力汽车混杂mpc能量管理方法
CN112668799A (zh) * 2021-01-04 2021-04-16 南京航空航天大学 基于行驶大数据的phev的智能能量管理方法和存储介质
CN112995951B (zh) * 2021-03-12 2022-04-08 南京航空航天大学 一种采用深度确定性策略梯度算法的5g车联网v2v资源分配方法
CN113335277A (zh) * 2021-04-27 2021-09-03 北京工业大学 智能巡航控制方法、装置、电子设备和存储介质
CN113034210B (zh) * 2021-04-28 2022-02-01 重庆大学 一种基于数据驱动场景下车辆行驶成本评价方法
CN113492827A (zh) * 2021-06-23 2021-10-12 东风柳州汽车有限公司 一种混合动力汽车能量管理方法及装置
CN113554337B (zh) * 2021-08-03 2023-08-08 青岛理工大学 融合交通信息的插电式混动汽车能量管理策略构建方法
CN113525396B (zh) * 2021-08-13 2023-10-13 北京理工大学 一种融合深度强化学习的混动汽车分层预测能量管理方法
CN113602252A (zh) * 2021-09-02 2021-11-05 一汽解放汽车有限公司 一种混合动力汽车控制方法及装置
CN113911103B (zh) * 2021-12-14 2022-03-15 北京理工大学 一种混合动力履带车辆速度与能量协同优化方法及系统
CN114506311B (zh) * 2022-02-22 2023-06-20 燕山大学 一种变时域预测能量管理方法、装置、汽车及存储介质
CN114475244B (zh) * 2022-04-14 2022-09-23 禾多科技(北京)有限公司 定速巡航控制方法、整车控制器及定速巡航控制系统
CN116118705B (zh) * 2022-12-09 2023-08-11 聊城大学 一种跟驰场景下插电式混合动力公交车能量管理控制方法
CN115865987B (zh) * 2023-02-20 2023-04-25 北京航空航天大学 一种基于车云协作的混动传动系统信息特征分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018104850A1 (en) * 2016-12-08 2018-06-14 Kpit Technologies Limited Model predictive based control for automobiles
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
US20200063681A1 (en) * 2018-08-21 2020-02-27 Cummins Inc. Deep reinforcement learning for air handling and fuel system referencing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018104850A1 (en) * 2016-12-08 2018-06-14 Kpit Technologies Limited Model predictive based control for automobiles
US20200063681A1 (en) * 2018-08-21 2020-02-27 Cummins Inc. Deep reinforcement learning for air handling and fuel system referencing
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A Novel Velocity Forecast Method for Improving Predictive Energy Management of Plug-in Hybrid Electric Vehicles";Ningyuan Guo等;《IEEE》;20171215;第1-6页 *

Also Published As

Publication number Publication date
CN111267831A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111267831B (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN110341690B (zh) 一种基于确定性策略梯度学习的phev能量管理方法
Tang et al. Distributed deep reinforcement learning-based energy and emission management strategy for hybrid electric vehicles
WO2021114742A1 (zh) 一种混合动力电动汽车综合预测能量管理方法
WO2021103625A1 (zh) 一种基于前车与自车互动的短期车速工况实时预测方法
Salmasi Control strategies for hybrid electric vehicles: Evolution, classification, comparison, and future trends
Lü et al. Hybrid electric vehicles: A review of energy management strategies based on model predictive control
CN112668799A (zh) 基于行驶大数据的phev的智能能量管理方法和存储介质
CN113525396B (zh) 一种融合深度强化学习的混动汽车分层预测能量管理方法
CN112158189A (zh) 基于机器视觉和深度学习的混合动力汽车能量管理方法
CN111301397B (zh) 一种插电混合动力汽车变时域模型预测能量管理方法
CN115107733A (zh) 一种混合动力汽车的能量管理方法及系统
CN114802180A (zh) 混合动力汽车动力系统协调控制的模式预测系统及方法
CN113135113B (zh) 一种全局soc规划方法及装置
CN111597750A (zh) 一种基于bp神经网络的混合动力汽车能量管理方法
CN114103924A (zh) 一种混合动力车辆能量管理控制方法及装置
CN116070783A (zh) 一种混动传动系统在通勤路段下的学习型能量管理方法
CN115805840A (zh) 一种增程式电动装载机能耗控制方法及系统
Hua et al. Energy management of multi-mode plug-in hybrid electric vehicle using multi-agent deep reinforcement learning
CN115534929A (zh) 基于多元信息融合的插电式混合动力汽车能量管理方法
Mei et al. A deep reinforcement learning approach to energy management control with connected information for hybrid electric vehicles
CN115257695A (zh) 一种混合动力汽车能量管理控制系统及其方法
Vignesh et al. Intelligent energy management through neuro-fuzzy based adaptive ECMS approach for an optimal battery utilization in plugin parallel hybrid electric vehicle
Gan et al. Intelligent learning algorithm and intelligent transportation-based energy management strategies for hybrid electric vehicles: a review
CN113479187A (zh) 一种插电式混合动力汽车分层异步长能量管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant