CN111845701B - 一种跟车环境下基于深度强化学习的hev能量管理方法 - Google Patents

一种跟车环境下基于深度强化学习的hev能量管理方法 Download PDF

Info

Publication number
CN111845701B
CN111845701B CN202010777968.0A CN202010777968A CN111845701B CN 111845701 B CN111845701 B CN 111845701B CN 202010777968 A CN202010777968 A CN 202010777968A CN 111845701 B CN111845701 B CN 111845701B
Authority
CN
China
Prior art keywords
vehicle
following
learning
energy management
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010777968.0A
Other languages
English (en)
Other versions
CN111845701A (zh
Inventor
唐小林
陈佳信
杨凯
邓忠伟
胡晓松
李佳承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202010777968.0A priority Critical patent/CN111845701B/zh
Publication of CN111845701A publication Critical patent/CN111845701A/zh
Application granted granted Critical
Publication of CN111845701B publication Critical patent/CN111845701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • B60W30/16Control of distance between vehicles, e.g. keeping a distance to preceding vehicle
    • B60W30/165Automatically following the path of a preceding lead vehicle, e.g. "electronic tow-bar"
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0037Mathematical models of vehicle sub-units
    • B60W2050/0041Mathematical models of vehicle sub-units of the drive line
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/20Steering systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Hybrid Electric Vehicles (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明涉及一种跟车环境下基于深度强化学习的HEV能量管理方法,属于智能混合动力汽车控制领域。该方法包括:基于跟随车的实时车速等信息,确定两车之间的最短安全距离以及最长跟车距离;建立串联式DDPG算法模型,学习跟车速度规划策略以及能量管理控制策略;定义DDPG算法中的变量空间;当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后,结束离线训练过程并且保存持久化模型;制定评价指标,并且利用动态规划算法作为能量管理策略的对比标准。本发明针对具有自动跟车功能的智能混合动力汽车,利用深度强化学习算法,完成跟车环境的速度规划以及传动系统的能量管理,实现整车的综合控制。

Description

一种跟车环境下基于深度强化学习的HEV能量管理方法
技术领域
本发明属于智能混合动力汽车控制领域,涉及一种跟车环境下基于深度强化学习的HEV能量管理方法。
背景技术
汽车产业的发展方向大致可分为新能源化与智能化。其中,智能汽车已经成为当前的热门研究课题,通过智能汽车可以彻底解放人类的主动驾驶活动,让日常生活变得更加轻松自在。自动驾驶模式下的跟车行驶属于一项基本功能,通过组建车队的形式进行列队驾驶,将大幅度地减小除领航车以外其余车辆驾驶员的驾驶疲劳,并且采用间歇性地更换领航车的方式,在保证安全性的情况下能够让整个车队在最短时间内到达目的地。同时,有了领航车的存在后,后方跟随车辆的空气阻力系数将会大大较小,可有效减少跟随车的燃油消耗量。
目前,自动跟车属于智能车的研究领域,而能量管理策略的研究主要面向的是混合动力汽车,前者是智能化方面,后者是新能源化方向。因此,亟需一种针对智能化与新能源化的交叉方向,在一辆具有智能控制的混合动力汽车内,同步实现无人驾驶与功率分配的最优控制方法。
发明内容
有鉴于此,本发明的目的在于提供一种跟车环境下基于深度强化学习的HEV能量管理方法,同时解决自动跟车的速度规划以及混合动力汽车的能量管理,实现无人驾驶与功率分配的最优控制,适用于无人驾驶的混合动力汽车。
为达到上述目的,本发明提供如下技术方案:
一种跟车环境下基于深度强化学习的HEV能量管理方法,包括以下步骤:
S1:建立环境模型:建立跟车环境模型以及混合动力汽车传动系统模型,并利用V2V技术采集领航车的主要行驶信息,包括实时行驶速度、加速度以及转向角等;
S2:确定跟车距离范围:基于跟随车的实时车速等信息,计算两车之间的最短安全距离以及最长跟车距离;
S3:构建算法模型:建立基于深度强化学习的串联式深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法模型,同时学习跟车速度规划策略以及能量管理控制策略;
S4:确定算法变量空间:定义DDPG算法中的状态变量空间、动作变量空间以及奖励函数;
S5:离线训练阶段:当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后,结束离线训练过程并且保存持久化模型;
S6:在线测试阶段:采用新的速度工况测试算法的训练效果,制定用来评判跟车效果的评价指标,并且利用动态规划算法作为能量管理策略的对比标准。
进一步,步骤S1中,建立跟车环境模型以及车辆传动系统模型,通过组建车队环境让后车在保持安全距离下紧跟领航车,具体包括:领航车利用V2V技术采集主要行驶信息,包括实时行驶速度、加速度以及转向角等,传输给跟随车,以便后车保持最佳跟车状态,其中加速度按照下式确定:
Figure GDA0002930776530000021
其中,v1st为t时刻的前车速度,a1st为t时刻的前车加速度,Δt为时间间隔。
混合动力汽车传动系统模型主要包括发动机模型、电机模型、电池模型以及传动系统模型。
进一步,步骤S2中,确定跟车距离范围,具体包括以下步骤:
S21:结合后车的实时车速以及当前的路面条件,计算车辆的制动距离,并且以制动距离作为最短安全距离,计算公式为:
Figure GDA0002930776530000022
其中,s为制动距离,τ'2为制动器空行程时间,τ"2为制动减速度线性增长时间,ua0为起始制动车速,abmax为制动减速度;
S22:为防止有其余机动车辆随意变道插入车队中,将最长跟车距离定义为最短安全距离加常规乘用车的车身长度。
进一步,所述步骤S3具体包括:建立串联式DDPG算法模型,选择神经网络结构,前车根据输入的环境状态信息学习跟车速度规划策略,后车根据前车的速度规划策略学习混合动力汽车的能量管理控制策略。
进一步,步骤S4中,在深度强化学习算法的计算过程中,需要根据预期的学习目标定义相应的状态变量空间、动作变量空间以及奖励函数,具体包括:
(1)针对用于学习跟车速度规划的DDPG算法模型,状态变量包括领航车行驶速度、领航车行驶加速度、领航车转向角、后车速度和两车间隔距离等;动作变量定义为后车加速度;奖励函数根据两车的实时距离定义为曲线函数形式;
(2)针对用于学习能量管理策略的DDPG算法模型,状态变量包括后车行驶车速、后车加速度、电池SOC和整车需求功率Pdemand等;动作变量定义为后车发动机的输出功率;奖励函数定义为瞬时燃油消耗率以及SOC的实时偏差,具体奖励函数为:
Figure GDA0002930776530000031
其中,α与β为权重参数,
Figure GDA0002930776530000032
为发动机瞬时燃油消耗量,SOCtarget为参考SOC,Teng与ωeng分别为发动机转矩与发动机转速。
进一步,步骤S5中,离线训练过程具体包括以下步骤:
S51:连接环境模型与算法模型,搭建环境与智能体的交互式学习框架;
S52:定义超参数以及经验池容量,在学习过程中经验池依次记录单步过程的训练样本,在经验池充满后新的样本数据将重新依次占据经验池空间,样本数据sample具体定义为:
sample={S,A,R,S'}
其中,S为当前状态,A为当前动作,R为奖励值,S'为执行动作后转移的下一个状态;
S53:设置神经网络的更新策略,在每次更新过程中,从经验池中随机抽取32组样本数据对算法模型中的神经网络进行参数更新,智能体通过损失函数计算与策略梯度更新;
S54:采用ε-贪婪算法选择动作,将算法在动作空间中选择随机动作的概率逐步由100%衰减至10%,相反,选择最佳控制动作的概率将逐步提升;
S55:开始迭代训练方式,直到两个算法模型的总奖励值都达到收敛状态并且最终学习效果达到理想状态后结束学习过程,并保存神经网络持久化模型。
更进一步,步骤S53中,损失函数及策略梯度更新公式为:
Figure GDA0002930776530000033
Figure GDA0002930776530000034
Figure GDA0002930776530000035
Figure GDA0002930776530000041
其中,r为单步奖励,s与s'分别为当前状态量与下一时刻状态量,a为当前动作量,θQ、θμ分别为评论家网络参数与演员神经网络参数,
Figure GDA0002930776530000042
分别为评论家目标网络参数与演员目标神经网络参数,Q(s,a|θQ)为动作值函数,L(s,a|θQ)为损失函数,α为学习率,τ为目标网络的跟踪率,μT(·)为目标网络拟合的策略函数,μ为在线网络拟合的策略函数,QT(·)为目标动作值。
进一步,步骤S6中,在线测试过程具体包括以下步骤:
S61:选择一段新的行驶工况让领航车运行,对后车加载之前保存的持久化控制策略模型,开始进行在线测试过程,进而得到后车的速度曲线以及燃油消耗量;
S62:比较速度规划策略,在测试结束后,后车会产生一条跟车情况下的速度曲线,以前车的速度曲线作为对比标准,分别计算后车速度的特征参数,例如:平均速度vmean、平均加速度amean、最大车速vmax、怠速时间比ridel、冲击度da/dt等,最终以误差值表示跟车效果,最佳状态下两条速度曲线应该完全相同,但是随着实际驾驶情况的随机变化,后车速度必然会存在部分差异;
S63:比较能量管理策略,获得后车的速度曲线后,利用动态规划算法计算燃油消耗量,将后车的实际燃油消耗与动态规划的计算结果进行对比评价。
本发明的有益效果在于:本发明针对具有自动跟车功能的智能混合动力汽车,利用深度强化学习算法,完成跟车环境的速度规划以及传动系统的能量管理,实现整车的综合控制。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1是本发明的HEV能量管理方法整体流程图;
图2是混合动力汽车传动结构;
图3是跟车环境下的前后车距离范围示意图;
图4是跟车速度规划策略的奖励函数曲线图;
图5是本发明中混合动力汽车能量管理策略算法框架图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图5,图1为本发明优选的一种跟车环境下基于深度强化学习的混合动力汽车能量管理策略,适用于智能混合动力汽车,该方法具体包括以下步骤:
S1:建立跟车环境模型以及车辆传动系统模型,利用V2V技术采集领航车的实时行驶速度、加速度以及转向角等;
建立两车跟随环境模型以及混合动力汽车传动系统模型,通过组建车队环境让后车在保持安全距离下紧跟领航车,而领航车利用V2V通信技术将主要行驶信息,例如:速度、加速度等,传输给跟随车,以便后车保持最佳跟车状态,其中加速度按照下式确定:
Figure GDA0002930776530000051
其中,v1st为t时刻的前车速度,时间间隔Δt=1,a1st为t时刻的前车加速度;
混合动力汽车传动系统模型主要包括发动机模型、电机模型、电池模型以及传动系统模型,具体结构如图2所示。
S2:基于跟随车的实时车速等信息,计算两车之间的最短安全距离以及最长跟车距离。具体包括以下步骤:
S21:结合后车的实时车速以及当前的路面条件,计算车辆的制动距离,并且以制动距离作为最短安全距离,具体计算如式;
Figure GDA0002930776530000052
其中,s为制动距离,τ'2为制动器空行程时间,τ"2为制动减速度线性增长时间,ua0为起始制动车速,abmax为制动减速度。
S22:为防止有其余机动车辆随意变道插入车队中,将最长跟车距离定义为最短安全距离加常规乘用车的车身长度,跟车环境如图3所示。
S3:建立深度强化学习中深度确定性策略梯度(DDPG)的串联式算法框架,同时学习跟车速度规划策略以及能量管理控制策略。具体包括:
选择神经网络结构,建立串联式深度确定性策略梯度DDPG的算法模型,前者根据输入的环境状态信息学习跟车速度规划策略,后者根据前者的速度规划策略学习混合动力汽车的能量管理控制策略。
S4:定义DDPG算法中的状态变量空间,动作变量空间以及奖励函数。
在深度强化学习算法的计算过程中,需要根据预期的学习目标定义相应的状态变量空间、动作变量空间以及奖励函数。具体包括:
S41:针对用于学习跟车速度规划的深度确定性策略梯度DDPG算法框架,状态变量包括领航车行驶速度、领航车行驶加速度、领航车转向角、后车速度、两车间隔距离等;动作变量定义为后车加速度;奖励函数根据两车的实时距离定义为曲线函数形式,具体奖励函数如图4所示;
S42:针对用于学习能量管理策略的深度确定性策略梯度DDPG算法框架,状态变量包括后车行驶车速、后车加速度、电池SOC、整车需求功率Pdemand等;动作变量定义为后车发动机的输出功率;奖励函数定义为瞬时燃油消耗率以及SOC的实时偏差
具体奖励函数如式:
Figure GDA0002930776530000061
其中,α与β为权重参数,
Figure GDA0002930776530000062
为发动机瞬时燃油消耗量,SOCtarget为参考SOC,Teng与ωeng分别为发动机转矩与发动机转速。
具体需求功率计算如式:
Figure GDA0002930776530000063
其中,Pdemand为整车需求功率,m为整车质量,G为整车重量,f为滚动阻力系数,i为道路坡度,CD为空气阻力系数,A为迎风面积,ua为行驶速度,du/dt为车辆纵向加速度,δ为旋转质量换算系数,ηT为传动系效率。
S5:离线训练阶段,当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后,结束离线训练过程并且保存持久化模型。具体包括:
S51:连接环境模块与智能体算法模块,搭建环境与智能体的交互式学习框架,具体算法框架如图5所示;
S52:定义超参数以及经验池容量,在学习过程中经验池依次记录单步过程的训练样本,在经验池充满后新的样本数据将重新依次占据经验池空间,样本数据sample具体定义为:
sample={S,A,R,S'}
其中,S为当前状态,A为当前动作,R为奖励值,S'为执行动作后转移的下一个状态。
S53:设置神经网络的更新策略,在每次更新过程中,从经验池中随机抽取32组样本数据对算法框架中的神经网络进行参数更新,智能体通过损失函数计算与策略梯度更新,实现神经网络的学习更新步骤,具体损失函数及策略梯度更新公式如下:
Figure GDA0002930776530000071
Figure GDA0002930776530000072
Figure GDA0002930776530000073
Figure GDA0002930776530000074
其中,r为单步奖励,s与s'分别为当前状态量与下一时刻状态量,a为当前动作量,θQ、θμ分别为评论家网络参数与演员神经网络参数,
Figure GDA0002930776530000075
分别为评论家目标网络参数与演员目标神经网络参数,Q(s,a|θQ)为动作值函数,L(s,a|θQ)为损失函数,α为学习率,τ为目标网络的跟踪率,μT(·)为目标网络拟合的策略函数,μ为在线网络拟合的策略函数,QT(·)为目标动作值;
S54:采用ε-贪婪算法选择动作,将算法在动作空间中选择随机动作的概率逐步由100%衰减至10%,相反,选择最佳控制动作的概率将逐步提升;
S55:开始迭代训练方式,直到两个算法模型的总奖励值都达到收敛状态并且最终学习效果达到理想状态后结束学习过程,并保存神经网络持久化模型。
S6:在线测试阶段,采用新的速度工况测试算法的训练效果,制定用来评判跟车效果的评价指标,并且利用动态规划算法作为能量管理策略的对比标准。
S61:选择一段新的行驶工况让领航车运行,对后车加载之前保存的持久化控制策略模型,开始进行在线测试过程,进而可得到后车的速度曲线以及燃油消耗量;
S62:比较速度规划策略,在测试结束后,后车会产生一条跟车情况下的速度曲线,以前车的速度曲线作为对比标准,分别计算后车速度的特征参数,例如:平均速度vmean、平均加速度amean、最大车速vmax、怠速时间比ridel、冲击度da/dt等,最终以误差值表示跟车效果,最佳状态下两条速度曲线应该完全相同,但是随着实际驾驶情况的随机变化,后车速度必然会存在部分差异。
S63:比较能量管理策略,获得后车的速度曲线后,利用动态规划算法计算燃油消耗量,将后车的实际燃油消耗与动态规划的计算结果进行对比评价。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,该方法包括以下步骤:
S1:建立环境模型:建立跟车环境模型以及混合动力汽车传动系统模型,并利用V2V技术采集领航车的行驶信息;
S2:确定跟车距离范围:计算两车之间的最短安全距离以及最长跟车距离;
S3:构建算法模型:建立基于深度强化学习的串联式深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法模型,同时学习跟车速度规划策略以及能量管理控制策略;
S4:确定算法变量空间:定义DDPG算法中的状态变量空间、动作变量空间以及奖励函数;
S5:离线训练阶段:当每次迭代过程所获得的总奖励值趋于稳定收敛状态并且学习效果较为理想后,结束离线训练过程并且保存持久化模型;
S6:在线测试阶段:采用新的速度工况测试算法的训练效果,制定用来评判跟车效果的评价指标,并且利用动态规划算法作为能量管理策略的对比标准。
2.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S1中,建立跟车环境模型以及车辆传动系统模型,通过组建车队环境让后车在保持安全距离下紧跟领航车,具体包括:领航车利用V2V技术采集行驶信息,包括实时行驶速度、加速度以及转向角,其中加速度按照下式确定:
Figure FDA0002930776520000011
其中,v1st为t时刻的前车速度,a1st为t时刻的前车加速度,Δt为时间间隔。
3.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S2中,确定跟车距离范围,具体包括以下步骤:
S21:结合后车的实时车速以及当前的路面条件,计算车辆的制动距离,并且以制动距离作为最短安全距离,计算公式为:
Figure FDA0002930776520000012
其中,s为制动距离,τ'2为制动器空行程时间,τ"2为制动减速度线性增长时间,ua0为起始制动车速,abmax为制动减速度;
S22:将最长跟车距离定义为最短安全距离加常规乘用车的车身长度。
4.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,所述步骤S3具体包括:建立串联式DDPG算法模型,选择神经网络结构,前车根据输入的环境状态信息学习跟车速度规划策略,后车根据前车的速度规划策略学习混合动力汽车的能量管理控制策略。
5.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S4中,根据预期的学习目标定义相应的状态变量空间、动作变量空间以及奖励函数,具体包括:
(1)针对用于学习跟车速度规划的DDPG算法模型,状态变量包括领航车行驶速度、领航车行驶加速度、领航车转向角、后车速度和两车间隔距离;动作变量定义为后车加速度;奖励函数根据两车的实时距离定义为曲线函数形式;
(2)针对用于学习能量管理策略的DDPG算法模型,状态变量包括后车行驶车速、后车加速度、电池SOC和整车需求功率Pdemand;动作变量定义为后车发动机的输出功率;奖励函数定义为瞬时燃油消耗率以及SOC的实时偏差,具体奖励函数为:
Figure FDA0002930776520000021
其中,α与β为权重参数,
Figure FDA0002930776520000022
为发动机瞬时燃油消耗量,SOCtarget为参考SOC,Teng与ωeng分别为发动机转矩与发动机转速。
6.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S5中,离线训练过程具体包括以下步骤:
S51:连接环境模型与算法模型,搭建环境与智能体的交互式学习框架;
S52:定义超参数以及经验池容量,在学习过程中经验池依次记录单步过程的训练样本,在经验池充满后新的样本数据将重新依次占据经验池空间,样本数据sample具体定义为:
sample={S,A,R,S'}
其中,S为当前状态,A为当前动作,R为奖励值,S'为执行动作后转移的下一个状态;
S53:设置神经网络的更新策略,在每次更新过程中,从经验池中随机抽取样本数据对算法模型中的神经网络进行参数更新,智能体通过损失函数计算与策略梯度更新;
S54:采用ε-贪婪算法选择动作,将算法在动作空间中选择随机动作的概率逐步由100%衰减至10%,相反,选择最佳控制动作的概率将逐步提升;
S55:开始迭代训练方式,直到两个算法模型的总奖励值都达到收敛状态并且最终学习效果达到理想状态后结束学习过程,并保存神经网络持久化模型。
7.根据权利要求6所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S53中,损失函数及策略梯度更新公式为:
Figure FDA0002930776520000031
Figure FDA0002930776520000032
Figure FDA0002930776520000033
Figure FDA0002930776520000034
其中,r为单步奖励,s与s'分别为当前状态量与下一时刻状态量,a为当前动作量,θQ、θμ分别为评论家网络参数与演员神经网络参数,
Figure FDA0002930776520000035
分别为评论家目标网络参数与演员目标神经网络参数,Q(s,a|θQ)为动作值函数,L(s,a|θQ)为损失函数,α为学习率,τ为目标网络的跟踪率;μT(·)为目标网络拟合的策略函数,μ为在线网络拟合的策略函数,QT(·)为目标动作值。
8.根据权利要求1所述的跟车环境下基于深度强化学习的HEV能量管理方法,其特征在于,步骤S6中,在线测试过程具体包括以下步骤:
S61:选择一段新的行驶工况让领航车运行,对后车加载之前保存的持久化控制策略模型,开始进行在线测试过程,进而得到后车的速度曲线以及燃油消耗量;
S62:比较速度规划策略,在测试结束后,后车会产生一条跟车情况下的速度曲线,以前车的速度曲线作为对比标准,分别计算后车速度的特征参数,最终以误差值表示跟车效果;
S63:比较能量管理策略,获得后车的速度曲线后,利用动态规划算法计算燃油消耗量,将后车的实际燃油消耗与动态规划的计算结果进行对比评价。
CN202010777968.0A 2020-08-05 2020-08-05 一种跟车环境下基于深度强化学习的hev能量管理方法 Active CN111845701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010777968.0A CN111845701B (zh) 2020-08-05 2020-08-05 一种跟车环境下基于深度强化学习的hev能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010777968.0A CN111845701B (zh) 2020-08-05 2020-08-05 一种跟车环境下基于深度强化学习的hev能量管理方法

Publications (2)

Publication Number Publication Date
CN111845701A CN111845701A (zh) 2020-10-30
CN111845701B true CN111845701B (zh) 2021-03-30

Family

ID=72971374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010777968.0A Active CN111845701B (zh) 2020-08-05 2020-08-05 一种跟车环境下基于深度强化学习的hev能量管理方法

Country Status (1)

Country Link
CN (1) CN111845701B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287463B (zh) * 2020-11-03 2022-02-11 重庆大学 一种基于深度强化学习算法的燃料电池汽车能量管理方法
CN114527737A (zh) * 2020-11-06 2022-05-24 百度在线网络技术(北京)有限公司 用于自动驾驶的速度规划方法、装置、设备、介质和车辆
CN112440974B (zh) * 2020-11-27 2021-11-02 武汉理工大学 基于分布式深度确定性策略梯度的hev能量管理方法
CN112613229B (zh) * 2020-12-14 2023-05-23 中国科学院深圳先进技术研究院 混合动力设备的能量管理方法、模型训练方法及装置
CN112550272B (zh) * 2020-12-14 2021-07-30 重庆大学 基于视觉感知与深度强化学习的智能混合动力汽车分层控制方法
CN112498334B (zh) * 2020-12-15 2022-03-11 清华大学 智能网联混合动力汽车的鲁棒能量管理方法及系统
CN112989699B (zh) * 2021-03-12 2022-05-24 重庆交通大学 基于深度强化学习的新能源汽车性能评价方法
CN113156963B (zh) * 2021-04-29 2022-08-12 重庆大学 基于监督信号引导的深度强化学习自动驾驶汽车控制方法
CN113264031B (zh) * 2021-07-07 2022-04-29 重庆大学 基于路面识别与深度强化学习的混合动力系统控制方法
CN113626118B (zh) * 2021-07-30 2023-07-25 中汽创智科技有限公司 能耗实时显示方法、装置及设备
CN113525396B (zh) * 2021-08-13 2023-10-13 北京理工大学 一种融合深度强化学习的混动汽车分层预测能量管理方法
CN113682293B (zh) * 2021-09-29 2023-08-22 厦门大学 智能网联混合动力汽车多系统动态协调控制系统及方法
CN115495997B (zh) * 2022-10-28 2024-01-30 东南大学 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
CN115793445B (zh) * 2022-11-16 2023-09-05 重庆大学 一种基于多智能体深度强化学习的混合动力汽车控制方法
CN116424332B (zh) * 2023-04-10 2023-11-21 重庆大学 深度强化学习型混合动力汽车能量管理策略增强更新方法
CN117601904B (zh) * 2024-01-22 2024-05-14 中国第一汽车股份有限公司 车辆行驶轨迹的规划方法、装置、车辆及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101519792B1 (ko) * 2014-06-03 2015-05-12 현대자동차주식회사 친환경 차량의 오토크루즈 제어 방법
CN107804320A (zh) * 2016-09-05 2018-03-16 现代自动车株式会社 用于混合动力电动车辆的自动巡航控制方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN111231930A (zh) * 2020-01-09 2020-06-05 重庆大学 基于mpc的hev自适应巡航中多目标的能量管理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101519792B1 (ko) * 2014-06-03 2015-05-12 현대자동차주식회사 친환경 차량의 오토크루즈 제어 방법
CN107804320A (zh) * 2016-09-05 2018-03-16 现代自动车株式会社 用于混合动力电动车辆的自动巡航控制方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN110341690A (zh) * 2019-07-22 2019-10-18 北京理工大学 一种基于确定性策略梯度学习的phev能量管理方法
CN111231930A (zh) * 2020-01-09 2020-06-05 重庆大学 基于mpc的hev自适应巡航中多目标的能量管理方法

Also Published As

Publication number Publication date
CN111845701A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111845701B (zh) 一种跟车环境下基于深度强化学习的hev能量管理方法
CN111731303B (zh) 一种基于深度强化学习a3c算法的hev能量管理方法
CN106740846B (zh) 一种双模式切换的电动汽车自适应巡航控制方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
DE112019003755T5 (de) Lernen von Fahrerverhalten und Fahrcoaching-Strategie mittels künstlicher Intelligenz
CN111267830B (zh) 一种混合动力公交车能量管理方法、设备和存储介质
Zhu et al. Safe model-based off-policy reinforcement learning for eco-driving in connected and automated hybrid electric vehicles
CN110568762A (zh) 一种抗通信延迟的智能电动车编队自适应鲁棒控制方法
CN108482481B (zh) 四轮独立驱动与转向电动汽车的四轮转向控制方法
CN114103971B (zh) 一种燃料电池汽车节能驾驶优化方法及装置
CN112249002B (zh) 一种基于td3的启发式串并联混合动力能量管理方法
CN113788021A (zh) 一种结合前车速度预测的自适应跟车巡航控制方法
CN111959492A (zh) 一种网联环境下考虑换道行为的hev能量管理分层控制方法
CN112026744B (zh) 一种基于dqn变体的混联式混合动力系统能量管理方法
CN113635879A (zh) 一种车辆制动力分配方法
CN115495997A (zh) 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
CN114580302A (zh) 基于最大熵强化学习的自动驾驶汽车决策规划方法
CN115793445A (zh) 一种基于多智能体深度强化学习的混合动力汽车控制方法
CN115805840A (zh) 一种增程式电动装载机能耗控制方法及系统
CN115534929A (zh) 基于多元信息融合的插电式混合动力汽车能量管理方法
Abdrakhmanov et al. Dynamic Programming Resolution and Database Knowledge for Online Predictive Energy Management of Hybrid Vehicles.
CN113741199B (zh) 一种基于智能网联信息的整车经济性速度规划方法
CN113264031B (zh) 基于路面识别与深度强化学习的混合动力系统控制方法
Li et al. Energy-efficient autonomous vehicle control using reinforcement learning and interactive traffic simulations
Kerbel et al. Driver assistance eco-driving and transmission control with deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant