CN117698685B - 一种面向动态场景的混动汽车自适应能量管理方法 - Google Patents

一种面向动态场景的混动汽车自适应能量管理方法 Download PDF

Info

Publication number
CN117698685B
CN117698685B CN202410166841.3A CN202410166841A CN117698685B CN 117698685 B CN117698685 B CN 117698685B CN 202410166841 A CN202410166841 A CN 202410166841A CN 117698685 B CN117698685 B CN 117698685B
Authority
CN
China
Prior art keywords
driving
vehicle
scene
traffic
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410166841.3A
Other languages
English (en)
Other versions
CN117698685A (zh
Inventor
董鹏
张源博
赵俊玮
刘学武
徐向阳
张辉
刘艳芳
王书翰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202410166841.3A priority Critical patent/CN117698685B/zh
Publication of CN117698685A publication Critical patent/CN117698685A/zh
Application granted granted Critical
Publication of CN117698685B publication Critical patent/CN117698685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hybrid Electric Vehicles (AREA)

Abstract

本发明涉及一种面向动态场景的混动汽车自适应能量管理方法,属于混动汽车能量管理策略技术领域,解决了现有技术中对实际工况的模拟精度差、与实际交通拥堵情况和驾驶人行为不相符和存在一定的不可解释性、安全性差的问题。本发明有效利用车机导航信息,对出行路况进行针对性训练,提高适应性,同时对全局交通特征进行学习,使效果更接近全局最优;考虑驾驶风格的影响,能够适应不同风格驾驶员的驾驶表现,具有个性化特征;具象化奖励函数,提高算法的鲁棒性;考虑状态对动作选择的影响,提升学习效果的同时能够加速收敛,将Dueling DQN的训练过程放在云端进行,大大提升训练速度,做到了实时应用;同时也提高了操作的安全性。

Description

一种面向动态场景的混动汽车自适应能量管理方法
技术领域
本发明涉及混动汽车能量管理策略技术领域,具体涉及一种面向动态场景的混动汽车自适应能量管理方法。
背景技术
混合动力汽车通常拥有多个动力源对于同样的轮端扭矩需求,电机和发动机提供的能量占比不同,将会导致油耗不同,因此合理的能量管理策略可以提升混动车辆的节能效果。
目前,首先,关于混动能量管理的研究均以实现全局最优为理想目标,由于未来工况具有很大的不确定性,难以直接通过获取准确的未来工况来实现全局能量利用最优,通过速度预测方法可以获取未来工况,但由于预测时域有限,短时域速度预测精度高但只能实现秒级局部最优,长时域速度预测有望实现全局最优但具有很大的不确定性;其次,随着车联网技术的不断发展,车机导航地图能够在实际行驶前提供整条路段的交通信息,因此,利用导航数据将有望获得与实际工况相同特征的全局工况。然而,直接根据导航数据规划速度范围并随机生成未来工况,得到的工况通常不符合实际驾驶行为,并且无法充分体现驾驶人特征;最后,当获取全局拟人工况后,混合动力传动系统采用的模式决策策略也将影响最后的节能效果。目前已得到实车应用的能量管理策略均为基于规则的能量管理策略,该策略安全简单但工况适应性差,难以针对每一条工况来制定规则。而全局工况难以准确获取,因此直接采用全局能量管理策略的方法难以实现。但学习型能量管理策略能够通过学习不同工况而实现动态场景自适应,并且应用时有一定的鲁棒性,不需要训练工况与应用工况完全一致。目前针对学习型能量管理策略的研究大多将控制对象定义为动力传动系统的转速和扭矩,但学习型算法通常被视为黑盒模型,存在一定的不可解释性,直接控制动力传动系统将导致安全性下降。
综上,现有技术中存在对实际工况的模拟精度差、与实际交通拥堵情况和驾驶人行为不相符和存在一定的不可解释性、安全性差的问题。
发明内容
鉴于上述问题,本发明提供了一种面向动态场景的混动汽车自适应能量管理方法,解决了现有技术中对实际工况的模拟精度差、与实际交通拥堵情况和驾驶人行为不相符和存在一定的不可解释性、安全性差的问题。
本发明提供了一种面向动态场景的混动汽车自适应能量管理方法,包括如下步骤:
步骤S1.根据车机导航数据能够提供的动态场景数据类型,预先构建覆盖所有动态场景数据类型的第一仿真环境;
步骤S2.构建虚拟驾驶场景,并对驾驶风格的表现类型进行区分,然后在每一种驾驶风格的表现类型下挑选驾驶人,并通过驾驶模拟器在虚拟驾驶场景中提取驾驶行为信息和场景信息作为专家经验;
步骤S3.将第一仿真环境作为体现不同驾驶风格的驾驶行为模型的训练环境,基于专家经验,通过对抗逆强化学习算法训练获得对应不同驾驶风格的驾驶行为模型,使其能够根据场景信息输出驾驶行为,控制仿真车辆无碰撞地通过第一仿真环境;
步骤S4.获取车机导航提供的交通特征数据,用于搭建符合交通特征的第二仿真环境,选取符合驾驶人驾驶风格的驾驶行为模型在第二仿真环境中运行,从而得到全局拟人工况;
步骤S5.基于Dueling DQN算法训练混动传动系统工作模式选择模型,将全局拟人工况作为训练集,在云端训练得到混动传动系统工作模式选择模型;
步骤S6.开始驾驶行程后,将混动传动系统工作模式选择模型参数下载至车端,根据行驶状态在车端实时进行模式选择;
确定模式后,根据动力源特征确定每种工作模式下的扭矩分配规则,依据相应的扭矩分配规则对能量进行分配,以满足当前的驾驶人扭矩需求。
进一步地,步骤S1中的动态场景数据类型具体包括交通路段流速和交通路段长度;其中,交通路段流速的形式为流速代号,每个代号对应一个固定区间的流速范围;交通路段长度为每个交通流速所占路段的长度。
进一步地,步骤S1中的第一仿真环境按照如下方式预先构建:
基于sumo平台,将交通流速区间上限作为路段限速,交通路段长度作为每个路段长度,通过xml语言以sumo的路网定义格式构建路段;
向路段中添加交通流,交通流中车辆采取跟驰模型Krauss和换道模型LC2013。
进一步地,步骤S2中构建虚拟驾驶场景需要使用工具链,包括sumo、RoadRunner、Simulink、UnrealEngine和驾驶模拟器;其中,
sumo用于仿真环境定义;RoadRunner与UnrealEngine用于虚拟驾驶场景可视化渲染;simulink用于连接不同的软件与驾驶模拟器,实现联仿;
工具链连接后运行时,驾驶模拟器输出驾驶行为,sumo输出交通流中车辆信息,经过simulink处理后传输进UnrealEngine,体现自车以及交通流车辆在场景中的可视化状态;
基于工具链构建好虚拟驾驶场景后,虚拟驾驶场景将第一仿真环境进行可视化,使驾驶人通过可视画面操作驾驶模拟器。
进一步地,步骤S3中的驾驶行为模型具体按照如下方式训练获得:
基于对抗逆强化学习算法进行训练,将训练环境确定为第一仿真环境,将步骤S2提取到的驾驶行为信息与场景信息作为专家经验,然后分别构建生成器和判别器,生成器负责产生生成策略,将第一仿真环境中由步骤S2定义过的场景信息作为生成策略的状态量,生成策略用于根据当前的场景信息状态输出相应的驾驶行为信息,驾驶行为信息的定义与步骤S2保持一致,并将生成策略优化目标设为奖励函数最大化;判别器负责判断生成策略输出的驾驶动作与专家经验之间的差异并推断出奖励函数;
在第一仿真环境中,生成策略生成驾驶行为信息,控制第一仿真环境中的车辆在环境中进行交互,然后收集每一步的状态构成动作状态轨迹,更新奖励函数,选取策略梯度更新方法来更新生成器参数;每个回合结束标志为冲出车道,发生撞击或到达终点;
训练收敛后得到能够在车道中无碰撞到达终点的生成策略,作为驾驶行为模型。
进一步地,步骤S4中全局拟人工况具体按照如下方式获得:
由驾驶人在车端的人机交互界面确定自己的驾驶风格;
由驾驶人通过车机导航确定出发地到目的地的路线,通过车机导航提取出发地到目的地的实时交通特征数据并上传至云端,在云端构建符合当前路线交通特征的第二仿真环境;
从步骤S3训练得到的不同驾驶风格的驾驶行为模型中选取与驾驶人的驾驶风格一致的驾驶行为模型,控制虚拟车辆无碰撞地完成第二仿真环境,获取全局拟人工况。
进一步地,步骤S5具体包括:
基于Dueling DQN算法,将车辆的速度、加速度和SoC作为状态量,策略根据当前状态量输出混动工作模式,将其作为动作,并根据状态量与动作计算奖励函数,Dueling DQN算法的优化目标为奖励函数最大化;
Dueling DQN算法基于Q值进行每一步的参数更新;在Q值计算过程中采用对偶网络结构,将直接输出动作价值改为输出状态价值和优势值,通过状态价值和优势值计算出动作价值;
Dueling DQN算法的训练过程在云端完成,训练得到的动作策略即为混动传动系统工作模式选择模型。
进一步地,步骤S6的扭矩分配规则包括根据车辆当前的运动状态,依据车辆纵向动力平衡方程来确定需求功率,将车辆的需求驱动力等效为汽车行驶中滚动阻力/>,空气阻力/>,加速阻力/>和坡度阻力/>
进一步地,步骤S2中的驾驶行为信息包括加速踏板开度、制动踏板开度和方向盘转角;
步骤S2中的场景信息包括自车车速、自车位置、自车行驶距离、前车到自车距离、前车速度、当前路段交通流速、当前交通状态路段长度和当前交通状态路段剩余长度。
进一步地,步骤S2的驾驶风格包括激进型、稳定型和保守型。
与现有技术相比,本发明至少具有现如下有益效果:
(1)本发明提出的能量管理方法能够充分有效地利用车机导航信息,对出行路况进行针对性训练,提高了能量管理策略的适应性,同时对全局交通特征进行学习,使能量管理策略效果更接近全局最优。
(2)本发明所提出的能量管理策略考虑驾驶风格的影响,能够适应不同风格驾驶员的驾驶表现,使能量管理策略具有个性化特征。
(3)本发明选择ARIL算法来训练驾驶行为模型,有效避免了因驾驶行为影响因素较多,难以确定奖励函数来评价动作的问题,相比于无需构建奖励函数的生成对抗模仿学习(Generative Adversarial Imitation Learning, GAIL)算法,ARIL算法具象化了奖励函数,提高了算法的鲁棒性。
(4)本发明选择Dueling DQN算法作为模式选择算法,相较于传统的DQN算法,Dueling DQN算法考虑到了状态对动作选择的影响,提升学习效果的同时能够加速收敛。并且将Dueling DQN的训练过程放在云端进行,相比于车端训练大大提升了训练速度,做到了实时应用。
(5)本发明提出的混合动力汽车能量管理策略的控制对象为混动传动系统的工作模式,并在工作模式的基础上应用基于规则的扭矩分配模型,避免了学习型算法造成的结果不可解释的问题,与直接控制发动机扭矩相比,提高了操作的安全性。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制。
图1为本发明公开的面向动态场景的混动汽车自适应能量管理方法的总步骤图;
图2为本发明公开的面向动态场景的混动汽车自适应能量管理方法的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。另外,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
针对应当采用何种全局工况模拟实际工况的问题,由于交通拥堵特征作为动态场景的重要元素,对驾驶工况表现产生直接作用,进而影响了扭矩分配与能量消耗,因此采用与实际驾驶工况相同分布特征的全局工况模拟实际工况,能够有效为能量利用决策提供新的信息源。
与此同时,由于直接根据导航数据规划速度范围并随机生成未来工况,得到的工况通常不符合实际驾驶行为,并且无法充分体现驾驶人特征。因此,如何基于车机导航地图获取合理且具有驾驶人特征的全局拟人工况,对能量管理实现近似全局最优利用具有十分重要的意义。
目前针对学习型能量管理策略的研究大多将控制对象定义为动力传动系统的转速和扭矩,但学习型算法通常被视为黑盒模型,存在一定的不可解释性,直接控制动力传动系统将导致安全性下降,因此混合动力汽车能量管理策略的控制安全性也需要在设计过程中考虑。
本发明公开了一种面向动态场景的混动汽车自适应能量管理方法,如图1所示,具体包括如下步骤:
步骤S1.根据车机导航数据能够提供的动态场景数据类型,预先构建覆盖所有动态场景数据类型的第一仿真环境。
具体来说,动态场景数据类型具体包括交通路段流速和交通路段长度;其中,交通路段流速的形式为流速代号,每个代号对应一个固定区间的流速范围,示例性地,固定区间为5km/h;交通路段长度为每个交通流速所占路段的长度,示例性地,交通路段长度的单位为0.1km。
为搭建一个能够与驾驶行为模型产生交互的仿真环境,本发明选用sumo平台进行第一仿真环境的搭建。
第一仿真环境按照如下方式预先构建:
基于sumo平台,将交通流速区间上限作为路段限速,交通路段长度作为每个路段长度,通过xml语言以sumo的路网定义格式构建路段,并保存为net.xml格式。
向路段中添加交通流,交通流中车辆采取跟驰模型Krauss和换道模型LC2013。
需要说明的是,由于在默认设置下的车辆为无碰撞模型,会发生随机换道并且遵循道路限速行驶,因此可以将其视为满足路线交通特征的随机交通流,交通流中的车辆数目根据需要决定。由于步骤S1的目的是为收集不同场景中的驾驶员行为,并将驾驶行为数据作为步骤S3中算法的专家经验,因此场景应包含导航数据能够传出的全部交通流速类型。考虑交通路段长度对驾驶行为影响较小,因此优选地,将每种交通流速对应的交通路段长度统一为1公里;车道数可任意设置,例如3车道、4车道。
步骤S2.构建虚拟驾驶场景,并对驾驶风格的表现类型进行区分,然后在每一种驾驶风格的表现类型下挑选驾驶人,并通过驾驶模拟器在虚拟驾驶场景中提取驾驶行为信息和场景信息作为专家经验。
具体来说,由于在相同路况下,不同风格驾驶人的驾驶表现也会有所不同,因此本发明提出的混动汽车能量管理策略考虑了驾驶人的个性化。为表现驾驶员特征,首先挑选具有不同风格且风格显著的驾驶人,驾驶风格包括激进型、稳定型和保守型。
驾驶行为信息包括加速踏板开度、制动踏板开度和方向盘转角;场景信息包括自车车速、自车位置、自车行驶距离、前车到自车距离、前车速度、当前路段交通流速、当前交通状态路段长度和当前交通状态路段剩余长度。
构建虚拟驾驶场景需要使用工具链,包括sumo、RoadRunner、Simulink、UnrealEngine和驾驶模拟器;其中,
sumo用于仿真环境定义;RoadRunner与UnrealEngine用于虚拟驾驶场景可视化渲染;simulink用于连接不同的软件与驾驶模拟器,实现联仿。
工具链连接后运行时,驾驶模拟器输出驾驶行为,sumo输出交通流中车辆信息,经过simulink处理后传输进UnrealEngine,体现自车以及交通流车辆在场景中的可视化状态。
基于工具链构建好虚拟驾驶场景后,虚拟驾驶场景将第一仿真环境进行可视化,使驾驶人通过可视画面操作驾驶模拟器。
步骤S3.将第一仿真环境作为体现不同驾驶风格的驾驶行为模型的训练环境,基于专家经验,通过对抗逆强化学习算法训练获得对应不同驾驶风格的驾驶行为模型,使其能够根据场景信息输出驾驶行为,控制仿真车辆无碰撞地通过第一仿真环境。
具体来说,驾驶行为模型具体按照如下方式训练获得:
基于对抗逆强化学习算法进行训练,将训练环境确定为第一仿真环境,将步骤S2提取到的驾驶行为信息与场景信息作为专家经验,然后分别构建生成器和判别器,生成器负责产生生成策略/>,将第一仿真环境中由步骤S2定义过的场景信息作为生成策略的状态量,生成策略用于根据当前的场景信息状态输出相应的驾驶行为信息,驾驶行为信息的定义与步骤S2保持一致,并将生成策略优化目标设为奖励函数最大化,奖励函数越大意味着生成策略生成的驾驶行为轨迹与专家经验之间的差别越小,奖励函数数学形式为:
其中,由生成器输出,/>表示驾驶行为信息,/>分别为第时刻的驾驶行为信息,/>表示状态,/>分别为第/>时刻的状态,由组成的轨迹为状态轨迹;/>为生成策略的优化目标,/>为判别器对生成器轨迹的判别结果。
判别器负责判断生成策略输出的驾驶行为信息与专家经验之间的差异并推断出奖励函数,判别器输出结果为:
其中,是专家经验,/>是奖励函数,/>是在/>状态下采取/>动作后的下一状态。
由于对于策略的奖励函数有无数种,因此选用保持最优策略不变的奖励转换形式,具体如下:
其中,为生成策略结果;/>为奖励项,表示状态值函数的影响;/>为折现因子。
结合生成策略优化目标,判别器输出结果与奖励函数形式,得到AIRL算法中更新生成策略的奖励函数为:
在第一仿真环境中,生成策略生成驾驶行为信息,控制第一仿真环境中的车辆在环境中进行交互,然后收集每一步的状态构成动作状态轨迹,更新奖励函数,选取策略梯度更新方法来更新生成器参数;每个回合结束标志为冲出车道,发生撞击或到达终点。
训练收敛后得到能够在车道中无碰撞到达终点的生成策略,作为驾驶行为模型。
步骤S4.获取车机导航提供的交通特征数据,用于搭建符合交通特征的第二仿真环境,选取符合驾驶人驾驶风格的驾驶行为模型在第二仿真环境中运行,从而得到全局拟人工况。
具体来说,全局拟人工况具体按照如下方式获得:
由驾驶人在车端的人机交互界面确定自己的驾驶风格。
由驾驶人通过车机导航确定出发地到目的地的路线,通过车机导航提取出发地到目的地的实时交通特征数据并上传至云端,在云端构建符合当前路线交通特征的第二仿真环境。
从步骤S3训练得到的不同驾驶风格的驾驶行为模型中选取与驾驶人的驾驶风格一致的驾驶行为模型,控制虚拟车辆无碰撞地完成第二仿真环境,获取全局拟人工况。
步骤S5.基于Dueling DQN算法训练混动传动系统工作模式选择模型,将全局拟人工况作为训练集,在云端训练得到混动传动系统工作模式选择模型。
具体来说,基于Dueling DQN算法,将车辆的速度、加速度和SoC作为状态量,策略根据当前状态量输出混动工作模式,将其作为动作,并根据状态量与动作计算奖励函数,Dueling DQN算法的优化目标为奖励函数最大化。
Dueling DQN算法基于Q值进行每一步的参数更新;在Q值计算过程中采用对偶网络结构,将直接输出动作价值改为输出状态价值和优势值,通过状态价值和优势值计算出动作价值。因此Q值计算的数学形式如下:
其中,指神经网络参数,/>指/>状态下的状态值函数,/>指网络中状态价值分支参数,/>指/>状态下执行/>动作的优势函数,用于衡量动作/>与平均动作间的差异;/>指网络中优势函数分支参数;/>指/>状态下所有可能动作的优势函数的平均值,用于消除优势函数中的偏差。
算法的动作空间、状态空间及奖励函数分别为:
状态空间:
其中:是速度,/>是加速度,/>是充电状态;
动作空间: A = {0, 1, 2, 3, 4, 5}。
以串并联式混合动力汽车为例,其中数字分别对应6种驱动模式,具体为0代表纯电模式,1代表串联增程模式,2代表并联充电模式,3代表发动机直驱模式,4代表并联驱动模式,5代表制动能量回收模式。对于不同构型的混合动力汽车,可修改动作空间以及每个代号对应的工作模式。
奖励函数:
其中,为油耗项,指t时刻的燃油消耗量;/>为电耗项,指参考SoC值与t时刻SoC值的差值;若车辆耗电目标为在行程结束后实现与初始电量平衡,则计算SoC偏离量的平方,对于不同的耗电目标,可相应修改电耗项。α和β分别为油耗项和电耗项的权重值,权重值的变化可以反映动作选择的趋势。为加速训练过程,避免算法在不合理范围内搜索,添加/>对不合理的动作搜索进行惩罚。
为加速训练,Dueling DQN算法的训练过程将在云端完成,而训练得到的动作策略即为所需的混动传动系统工作模式选择模型,该模型能够在当前路线交通特征下,根据车辆状态实时输出满足全局能耗最优的混动工作模式。
步骤S6.开始驾驶行程后,将混动传动系统工作模式选择模型参数下载至车端,根据行驶状态在车端实时进行模式选择。
确定模式后,根据动力源特征确定每种工作模式下的扭矩分配规则,依据相应的扭矩分配规则对能量进行分配,以满足当前的驾驶人扭矩需求。
基于规则的扭矩分配过程具体为:
根据车辆当前的运动状态,依据车辆纵向动力平衡方程来确定需求功率,将车辆的需求驱动力等效为汽车行驶中滚动阻力/>,空气阻力/>,加速阻力/>和坡度阻力/>,计算公式如下所示:
其中,为驱动力矩;/>为传动比,/>为主传动比,/>为传递效率,/>为车轮半径;为汽车整备质量;/>为重力加速度;/>为滚动阻力系数;/>为道路坡度,本发明不研究坡度对能量管理的影响,默认/>;/>为空气阻力系数;/>为车辆迎风面积;/>为空气密度;为车辆纵向车速;/>为道路坡度值;/>是等效质量惯量;/>为车辆纵向加速度。
随后确定电池模型,电池主要起供电与储电的作用,通过等效内阻模型建模,不考虑温度变化以及电池老化的影响,电池模型如下所示。
其中,为电池功率;/>为开路电压;/>为电池电流;/>为放电/充电电阻;/>为电池容量;/>为电池SoC采样时间。
在确定具体工作模式后,每种驱动模式对应的扭矩分配规则如表1所示,根据扭矩分配规则,计算并输出各动力源转速和扭矩,完成混动系统决策与控制任务。
表1 扭矩分配规则
本发明公开的面向动态场景的混动汽车自适应能量管理方法的流程如图2所示。
与现有技术相比,本发明提出的能量管理方法能够充分有效地利用车机导航信息,对出行路况进行针对性训练,提高了能量管理策略的适应性,同时对全局交通特征进行学习,使能量管理策略效果更接近全局最优;本发明所提出的能量管理策略考虑驾驶风格的影响,能够适应不同风格驾驶员的驾驶表现,使能量管理策略具有个性化特征;本发明选择ARIL算法来训练驾驶行为模型,有效避免了因驾驶行为影响因素较多,难以确定奖励函数来评价动作的问题,相比于无需构建奖励函数的生成对抗模仿学习算法,ARIL算法具象化了奖励函数,提高了算法的鲁棒性;本发明选择Dueling DQN算法作为模式选择算法,相较于传统的DQN算法,Dueling DQN算法考虑到了状态对动作选择的影响,提升学习效果的同时能够加速收敛;并且将Dueling DQN的训练过程放在云端进行,相比于车端训练大大提升了训练速度,做到了实时应用;本发明提出的混合动力汽车能量管理策略的控制对象为混动传动系统的工作模式,并在工作模式的基础上应用基于规则的扭矩分配模型,避免了学习型算法造成的结果不可解释的问题,与直接控制发动机扭矩相比,提高了操作的安全性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种面向动态场景的混动汽车自适应能量管理方法,其特征在于,包括如下步骤:
步骤S1.根据车机导航数据能够提供的动态场景数据类型,预先构建覆盖所有动态场景数据类型的第一仿真环境;
步骤S2.构建虚拟驾驶场景,并对驾驶风格的表现类型进行区分,然后在每一种驾驶风格的表现类型下挑选驾驶人,并通过驾驶模拟器在虚拟驾驶场景中提取驾驶行为信息和场景信息作为专家经验;
步骤S3.将第一仿真环境作为体现不同驾驶风格的驾驶行为模型的训练环境,基于专家经验,通过对抗逆强化学习算法训练获得对应不同驾驶风格的驾驶行为模型,使其能够根据场景信息输出驾驶行为,控制仿真车辆无碰撞地通过第一仿真环境;
步骤S4.获取车机导航提供的交通特征数据,用于搭建符合交通特征的第二仿真环境,选取符合驾驶人驾驶风格的驾驶行为模型在第二仿真环境中运行,从而得到全局拟人工况;
步骤S5.基于Dueling DQN算法训练混动传动系统工作模式选择模型,将全局拟人工况作为训练集,在云端训练得到混动传动系统工作模式选择模型;
步骤S6.开始驾驶行程后,将混动传动系统工作模式选择模型参数下载至车端,根据行驶状态在车端实时进行模式选择;
确定模式后,根据动力源特征确定每种工作模式下的扭矩分配规则,依据相应的扭矩分配规则对能量进行分配,以满足当前的驾驶人扭矩需求;
步骤S1中的动态场景数据类型具体包括交通路段流速和交通路段长度;其中,交通路段流速的形式为流速代号,每个代号对应一个固定区间的流速范围;交通路段长度为每个交通流速所占路段的长度;
步骤S1中的第一仿真环境按照如下方式预先构建:
基于sumo平台,将交通流速区间上限作为路段限速,交通路段长度作为每个路段长度,通过xml语言以sumo的路网定义格式构建路段;
向路段中添加交通流,交通流中车辆采取跟驰模型Krauss和换道模型LC2013;
步骤S4中全局拟人工况具体按照如下方式获得:
由驾驶人在车端的人机交互界面确定自己的驾驶风格;
由驾驶人通过车机导航确定出发地到目的地的路线,通过车机导航提取出发地到目的地的实时交通特征数据并上传至云端,在云端构建符合当前路线交通特征的第二仿真环境;
从步骤S3训练得到的不同驾驶风格的驾驶行为模型中选取与驾驶人的驾驶风格一致的驾驶行为模型,控制虚拟车辆无碰撞地完成第二仿真环境,获取全局拟人工况。
2.根据权利要求1所述的面向动态场景的混动汽车自适应能量管理方法,其特征在于,步骤S2中构建虚拟驾驶场景需要使用工具链,包括sumo、RoadRunner、Simulink、UnrealEngine和驾驶模拟器;其中,
sumo用于仿真环境定义;RoadRunner与UnrealEngine用于虚拟驾驶场景可视化渲染;simulink用于连接不同的软件与驾驶模拟器,实现联仿;
工具链连接后运行时,驾驶模拟器输出驾驶行为,sumo输出交通流中车辆信息,经过simulink处理后传输进UnrealEngine,体现自车以及交通流车辆在场景中的可视化状态;
基于工具链构建好虚拟驾驶场景后,虚拟驾驶场景将第一仿真环境进行可视化,使驾驶人通过可视画面操作驾驶模拟器。
3.根据权利要求2所述的面向动态场景的混动汽车自适应能量管理方法,其特征在于,步骤S3中的驾驶行为模型具体按照如下方式训练获得:
基于对抗逆强化学习算法进行训练,将训练环境确定为第一仿真环境,将步骤S2提取到的驾驶行为信息与场景信息作为专家经验,然后分别构建生成器和判别器,生成器负责产生生成策略,将第一仿真环境中由步骤S2定义过的场景信息作为生成策略的状态量,生成策略用于根据当前的场景信息状态输出相应的驾驶行为信息,驾驶行为信息的定义与步骤S2保持一致,并将生成策略优化目标设为奖励函数最大化;判别器负责判断生成策略输出的驾驶动作与专家经验之间的差异并推断出奖励函数;
在第一仿真环境中,生成策略生成驾驶行为信息,控制第一仿真环境中的车辆在环境中进行交互,然后收集每一步的状态构成动作状态轨迹,更新奖励函数,选取策略梯度更新方法来更新生成器参数;每个回合结束标志为冲出车道,发生撞击或到达终点;
训练收敛后得到能够在车道中无碰撞到达终点的生成策略,作为驾驶行为模型。
4.根据权利要求3所述的面向动态场景的混动汽车自适应能量管理方法,其特征在于,步骤S5具体包括:
基于Dueling DQN算法,将车辆的速度、加速度和SoC作为状态量,策略根据当前状态量输出混动工作模式,将其作为动作,并根据状态量与动作计算奖励函数,Dueling DQN算法的优化目标为奖励函数最大化;
Dueling DQN算法基于Q值进行每一步的参数更新;在Q值计算过程中采用对偶网络结构,将直接输出动作价值改为输出状态价值和优势值,通过状态价值和优势值计算出动作价值;
Dueling DQN算法的训练过程在云端完成,训练得到的动作策略即为混动传动系统工作模式选择模型。
5.根据权利要求4所述的面向动态场景的混动汽车自适应能量管理方法,其特征在于,步骤S6的扭矩分配规则包括根据车辆当前的运动状态,依据车辆纵向动力平衡方程来确定需求功率,将车辆的需求驱动力等效为汽车行驶中滚动阻力/>,空气阻力/>,加速阻力和坡度阻力/>
6.根据权利要求5所述的面向动态场景的混动汽车自适应能量管理方法,其特征在于,步骤S2中的驾驶行为信息包括加速踏板开度、制动踏板开度和方向盘转角;
步骤S2中的场景信息包括自车车速、自车位置、自车行驶距离、前车到自车距离、前车速度、当前路段交通流速、当前交通状态路段长度和当前交通状态路段剩余长度。
7.根据权利要求6所述的面向动态场景的混动汽车自适应能量管理方法,其特征在于,步骤S2的驾驶风格包括激进型、稳定型和保守型。
CN202410166841.3A 2024-02-06 2024-02-06 一种面向动态场景的混动汽车自适应能量管理方法 Active CN117698685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410166841.3A CN117698685B (zh) 2024-02-06 2024-02-06 一种面向动态场景的混动汽车自适应能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410166841.3A CN117698685B (zh) 2024-02-06 2024-02-06 一种面向动态场景的混动汽车自适应能量管理方法

Publications (2)

Publication Number Publication Date
CN117698685A CN117698685A (zh) 2024-03-15
CN117698685B true CN117698685B (zh) 2024-04-09

Family

ID=90153864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410166841.3A Active CN117698685B (zh) 2024-02-06 2024-02-06 一种面向动态场景的混动汽车自适应能量管理方法

Country Status (1)

Country Link
CN (1) CN117698685B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020060478A1 (en) * 2018-09-18 2020-03-26 Sixan Pte Ltd System and method for training virtual traffic agents
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN114148349A (zh) * 2021-12-21 2022-03-08 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN116822125A (zh) * 2023-03-07 2023-09-29 山西省智慧交通研究院有限公司 基于虚拟现实的个性化交互式车道级可变限速优化方法
CN116985778A (zh) * 2023-09-27 2023-11-03 北京航空航天大学 一种多任务跨核部署下的混动汽车全局能量管理优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021074874A1 (en) * 2019-10-16 2021-04-22 Mobileye Vision Technologies Ltd. Techniques for training systems for autonomous vehicle navigation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020060478A1 (en) * 2018-09-18 2020-03-26 Sixan Pte Ltd System and method for training virtual traffic agents
CN113561986A (zh) * 2021-08-18 2021-10-29 武汉理工大学 自动驾驶汽车决策方法及装置
CN114148349A (zh) * 2021-12-21 2022-03-08 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法
CN116822125A (zh) * 2023-03-07 2023-09-29 山西省智慧交通研究院有限公司 基于虚拟现实的个性化交互式车道级可变限速优化方法
CN116985778A (zh) * 2023-09-27 2023-11-03 北京航空航天大学 一种多任务跨核部署下的混动汽车全局能量管理优化方法

Also Published As

Publication number Publication date
CN117698685A (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN112116156B (zh) 基于深度强化学习的混动列车的能量管理方法及系统
He et al. An improved energy management strategy for hybrid electric vehicles integrating multistates of vehicle-traffic information
Wu et al. Fuzzy energy management strategy for a hybrid electric vehicle based on driving cycle recognition
Tang et al. Visual detection and deep reinforcement learning-based car following and energy management for hybrid electric vehicles
Zhang et al. Route planning and power management for PHEVs with reinforcement learning
Zhu et al. Safe model-based off-policy reinforcement learning for eco-driving in connected and automated hybrid electric vehicles
EP3859192B1 (en) Device, method and machine learning system for determining a state of a transmission for a vehicle
CN113554337A (zh) 融合交通信息的插电式混动汽车能量管理策略构建方法
CN115495997A (zh) 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法
Zhou et al. A two-term energy management strategy of hybrid electric vehicles for power distribution and gear selection with intelligent state-of-charge reference
CN115805840A (zh) 一种增程式电动装载机能耗控制方法及系统
Plianos et al. Predictive energy optimization for connected and automated HEVs
Li et al. Energy-efficient autonomous vehicle control using reinforcement learning and interactive traffic simulations
Chen et al. Deep reinforcement learning-based integrated control of hybrid electric vehicles driven by lane-level high definition map
Li et al. Dynamic energy management for hybrid electric vehicle based on approximate dynamic programming
Ruan et al. A modularized electric vehicle model-in-the-loop simulation for transportation electrification modeling and analysis
CN116424332B (zh) 深度强化学习型混合动力汽车能量管理策略增强更新方法
CN117698685B (zh) 一种面向动态场景的混动汽车自适应能量管理方法
Zhang et al. A Real-time energy management strategy for parallel HEVs with MPC
Vajedi Real-time optimal control of a plug-in hybrid electric vehicle using trip information
Van Mierlo et al. Vehicle simulation program: a tool to evaluate hybrid power management strategies based on an innovative iteration algorithm
CN113071508B (zh) 一种dcps架构下的车辆协同能量管理方法和系统
Li et al. Dynamic energy management for hybrid electric vehicle based on adaptive dynamic programming
Zhang et al. MPC based energy management strategy with on-board parameter identification
Baer Development of a Digital Twin for a Solar Powered Electric Race Vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant