CN116070783B - 一种混动传动系统在通勤路段下的学习型能量管理方法 - Google Patents

一种混动传动系统在通勤路段下的学习型能量管理方法 Download PDF

Info

Publication number
CN116070783B
CN116070783B CN202310206439.9A CN202310206439A CN116070783B CN 116070783 B CN116070783 B CN 116070783B CN 202310206439 A CN202310206439 A CN 202310206439A CN 116070783 B CN116070783 B CN 116070783B
Authority
CN
China
Prior art keywords
commute
working mode
section
road
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310206439.9A
Other languages
English (en)
Other versions
CN116070783A (zh
Inventor
董鹏
赵俊玮
张源博
刘学武
徐向阳
王书翰
刘艳芳
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202310206439.9A priority Critical patent/CN116070783B/zh
Publication of CN116070783A publication Critical patent/CN116070783A/zh
Application granted granted Critical
Publication of CN116070783B publication Critical patent/CN116070783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/11Controlling the power contribution of each of the prime movers to meet required power demand using model predictive control [MPC] strategies, i.e. control methods based on models predicting performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/12Controlling the power contribution of each of the prime movers to meet required power demand using control strategies taking into account route information
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/15Control strategies specially adapted for achieving a particular effect
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06Q50/40

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Automation & Control Theory (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Hybrid Electric Vehicles (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明公开了一种混动传动系统在通勤路段下的学习型能量管理方法,包括:确定通勤路段,记录并存储通勤路段特征数据;基于DQN强化学习训练并生成工作模式选择模型;开始通勤路段的驾驶行程,基于实时与历史动态交通信息进行拥堵程度相似度评估;通过迁移学习训练优化工作模式选择模型;采用对抗性强化学习进行短时域工作模式预测,确定目标工作模式;基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;驾驶行程结束,记录并存储此次通勤路段特征数据,加入DQN强化学习训练数据集。该方法能够有效应用于通勤路段下的能量管理,随着通勤路段驾驶工况特征数据的存储和记录,对应训练并生成的工作模式选择模型会越来越优。

Description

一种混动传动系统在通勤路段下的学习型能量管理方法
技术领域
本发明涉及混动传动系统能量管理技术领域,特别是涉及一种混动传动系统在通勤路段下的学习型能量管理方法。
背景技术
混合动力汽车将发动机和电机作为动力源,通过合理的燃油和电能利用可达到节能减排的目标。混动汽车的能耗表现与驾驶工况具有很强的相关性,发动机和电机对应的具体工作状态表现取决于能量管理策略的制定。目前,混动汽车普遍采用基于规则的能量管理策略,该类能量管理策略工况适应性较差,能量利用有很大的优化空间,而对于全局优化能量管理策略,虽然其能够达到全域工况下的能量利用最优,但需要预知全域工况,且很难在线实时应用。然而,智能学习算法的发展能够很好地解决上述问题,一方面,学习型能量管理策略能够满足混动传动系统的实时应用要求,另一方面,学习型能量管理策略能够对驾驶工况特征数据进行不断迭代学习,尤其是能够快速迁移学习相对固定的驾驶工况特征数据,例如通勤路段下的驾驶工况数据。因此,在具有高度相似性驾驶工况特征数据的通勤路段下,采用学习型能量管理策略能够使混动汽车的能量利用达到近似全局最优,显著提升混动汽车的节能减排效果。
学习型能量管理策略应用于通勤路段实现能量利用优化,一方面,尽可能使发动机和电机的工作点处于高效区内;另一方面,在高度相似的驾驶工况下,发动机和电机之间相互配合高效工作。然而,现有学习型能量管理策略直接将动力传动系统的转速和转矩作为控制变量,导致工作模式的频繁切换和车速的频繁波动脱离了实际表现,同时,动力源转速和转矩突变会对驾驶安全产生直接影响。此外,通勤路段下的驾驶工况虽然具有高度相似性,但并不是完全保持一致,其仍存在随机性、不确定性的驾驶事件发生,现有学习型能量管理策略鲜有将实时动态驾驶工况的变化考虑在内,通过迁移学习能够快速适应实时动态驾驶工况的变化并适时调整动力传动系统的工作状态。因此,上述问题需在学习型能量管理策略的制定过程中重点考虑,从而满足通勤路段下混动能量管理的高效利用。
发明内容
本发明提出一种混动传动系统在通勤路段下的学习型能量管理方法。一方面,通过不断学习通勤路段下的驾驶工况特征数据与工作模式的映射关系,从而实时在线调整混动传动系统的工作模式,有效解决目前将控制输出直接作用于动力源的转速和转矩上,从而保证行车安全。另一方面,本发明所提学习型能量管理方法能够有效应对通勤路段下随机性、不确定性驾驶事件的发生,通过迁移学习增强对通勤路段驾驶工况的适应性,不仅实现学习型能量管理策略的实时应用,而且能够使混动汽车的能量利用过程逐步迭代优化。综上,本发明所提的学习型能量管理策略有效考虑了驾驶安全,考虑了通勤路段下的驾驶工况特征,考虑了动力传动系统物理约束条件,避免混动传动系统工作模式频繁切换。
有鉴于此,本发明提出了一种混动传动系统在通勤路段下的学习型能量管理方法,能够有效应用于通勤路段下混合动力汽车能量管理。
本发明提供的一种混动传动系统在通勤路段下的学习型能量管理方法,包括如下步骤:
步骤1,根据实际通勤情况确定通勤路段,记录并存储通勤路段特征数据,包括车辆状态表现、混动传动系统工作表现和驾驶场景特征数据;
步骤2,将通勤路段特征数据作为训练数据,基于DQN强化学习训练并生成通勤路段工作模式选择模型;
步骤3,开始通勤路段的驾驶行程,在线实时获取通勤路段动态交通信息,基于实时动态交通信息与历史动态交通信息进行拥堵程度相似度评估;当评估结果为不相似时,则进入步骤4;当评估结果为相似时,则基于通勤路段工作模式选择模型生成瞬时工作模式,进入步骤5;
步骤4,通过迁移学习训练优化通勤路段工作模式选择模型,基于优化后的通勤路段工作模式选择模型生成瞬时工作模式;
步骤5,采用对抗性强化学习进行短时域工作模式预测,当短时域内所预测的工作模式为频繁切换时,将瞬时工作模式作为目标工作模式;当短时域内所预测的工作模式为稳定值时,将预测生成的稳定工作模式作为目标工作模式;
步骤6,基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;
步骤7,驾驶行程结束,记录并存储此次驾驶行程的通勤路段特征数据,将其加入步骤2的DQN强化学习训练数据集。
进一步,所述步骤1中车辆状态表现、混动传动系统工作表现和驾驶场景特征数据具体为:
车辆状态表现包括车辆速度、加速度、电池SoC;
混动传动系统工作表现包括混动传动系统工作模式、不同动力源转速和转矩、燃油消耗;
驾驶场景特征数据包括静态道路信息和动态交通信息,静态道路信息包含道路类型、道路限速、有交通信号灯的交叉路口、无交通信号灯的交叉路口,动态交通信息包含不同道路片段对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点。
进一步,所述步骤2具体为:DQN强化学习的价值函数
Figure SMS_1
Figure SMS_2
其中,
Figure SMS_3
为状态量,/>
Figure SMS_4
为动作量,/>
Figure SMS_5
为状态价值;
通勤路段的每一时刻的速度、加速度、电池SoC、动态交通信息作为状态量
Figure SMS_6
输入,工作模式作为动作量/>
Figure SMS_7
输出,DQN强化学习过程中根据所设置的奖励函数Reward评估状态/>
Figure SMS_8
对应的状态价值/>
Figure SMS_9
,奖励函数为燃油消耗量,电池SoC状态偏离惩罚以及工作模式选择惩罚,如下式所示:
Figure SMS_10
其中,
Figure SMS_11
为燃油消耗因子,/>
Figure SMS_12
为不同时刻下的瞬时燃油消耗,/>
Figure SMS_13
为电池SoC消耗因子,/>
Figure SMS_14
为给定的电池SoC参考值,/>
Figure SMS_15
为不同时刻下的电量消耗,punish为工作模式选择惩罚,当需求扭矩为正时,选择驱动工作模式,当需求扭矩为负时,选择制动工作模式,当工作模式选择错误时设置惩罚值进行惩罚;
根据贪婪系数进行随机探索实现动作选择,并将计算所得的经验值储存在记忆池中,当记忆池数据量达到预设值后,从记忆池中随机抽样进行DQN梯度下降更新DQN值函数神经网络参数值,并训练生成通勤路段工作模式选择模型;其中,DQN梯度下降更新公式为:
Figure SMS_16
式中,
Figure SMS_20
表示DQN梯度下降更新公式,/>
Figure SMS_24
为损失函数,/>
Figure SMS_28
表示
Figure SMS_19
服从/>
Figure SMS_23
分布以及/>
Figure SMS_27
服从/>
Figure SMS_31
分布的均值函数,/>
Figure SMS_17
为梯度下降对应的Q值,
Figure SMS_21
为Q值,/>
Figure SMS_25
为当前网络参数,/>
Figure SMS_29
为当前时刻状态量、动作量,/>
Figure SMS_18
为上一时刻网络参数,/>
Figure SMS_22
为上一时刻状态量、动作量,/>
Figure SMS_26
为奖励值,/>
Figure SMS_30
为奖励值的衰减;
Figure SMS_32
Figure SMS_33
其中,
Figure SMS_34
为目标Q值,/>
Figure SMS_35
表示/>
Figure SMS_36
服从/>
Figure SMS_37
分布的均值函数,/>
Figure SMS_38
表示/>
Figure SMS_39
服从
Figure SMS_40
分布的均值函数。
进一步,所述步骤3,所述相似度评估的流程为:
(1)将通勤路段的不同道路片段离散为等间隔的道路网格,道路网格根据实际道路类型进行划分;
(2)根据在线实时获取的通勤路段动态交通信息,获取驾驶行程中的拥堵起终点,对该拥堵起终点的交通拥堵程度进行归一化,基于欧式距离相似性评估方法进行相似性判断:
Figure SMS_41
其中,
Figure SMS_42
为拥堵路段交通拥堵程度与历史交通拥堵程度的相似性,/>
Figure SMS_43
为拥堵路段的交通拥堵程度,/>
Figure SMS_44
为对应拥堵路段的历史交通拥堵程度,/>
Figure SMS_45
为第i个道路网格中的交通拥堵程度,/>
Figure SMS_46
为对应第i个道路网格中的历史交通拥堵程度;/>
Figure SMS_47
为道路网格的数量;
Figure SMS_48
值小于相似性阈值时为相似拥堵程度,否则为不相似拥堵程度,其中0<相似性阈值<1。
进一步,所述步骤4,通过迁移学习训练优化通勤路段工作模式选择模型具体为:
(1)基于历史通勤路段构建不同交通拥堵程度下的速度与加速度状态转移矩阵;
(2)根据不同道路网格的拥堵程度,索引对应交通拥堵程度的速度与加速度状态转移矩阵,利用马尔可夫模型对未来道路网格的速度与加速度状态进行预测;
(3)迁移学习中的神经网络结构和步骤2中通勤路段工作模式选择模型的神经网络结构保持一致,将预测得到的速度与加速度、动力学模型计算得到的电池SoC值、动态交通信息作为迁移学习的状态量,将步骤2中生成的通勤路段工作模式选择模型的神经网络参数作为初始参数;迁移学习的输入量、动作量、神经网络超参数以及奖励函数与步骤2的DQN强化学习算法保持一致,训练优化通勤路段工作模式选择模型。
进一步,所述步骤5,采用对抗性强化学习进行短时域工作模式预测的流程为:
(1)定义两个神经网络,分别作为工作模式生成器G和判别器D,用以生成样本和评估样本;生成器的状态量为当前车辆速度、加速度、车辆当前所处位置的交通拥堵程度,动作量为短预测时域内的工作模式序列m1,专家样本为对应路段的历史车速曲线中的对应时段工作模式序列m2;
(2)训练生成器G,生成器G根据判别器D对工作模式序列m1和工作模式序列m2进行打分,根据打分差异更新生成器神经网络参数,直至损失函数
Figure SMS_49
达到最小,生成工作模式预测模型:
Figure SMS_50
其中,state代表生成器的状态量,
Figure SMS_51
指判别器对生成器样本的评估值,
Figure SMS_52
为获取判别器给生成器打分的期望值;
(3)通过生成器G预测符合实际通勤路段同行条件的工作模式序列,确定目标工作模式。
本发明的有益效果在于:
(1)本发明能够有效应用于通勤路段下的能量管理,随着通勤路段驾驶工况特征数据的存储和记录,对应训练并生成的工作模式选择模型会越来越优。
(2)本发明所提能量管理策略能够有效应对通勤路段出现的不确定性、随机性驾驶事件导致的拥堵工况,通过迁移学习增强对通勤路段随机驾驶工况的适应性,通过适时调整工作模式,能够改善不同动力源的能量利用效果。
(3)本发明所提的学习型能量管理策略不仅能够保证实车应用的实时性,而且所提出的能量管理策略能够适应不同驾驶人特征和驾驶工况特征,进而使能量管理策略的适应性更强且充分体现能量管理策略的个性化。
(4)本发明所提学习型能量管理方法能够有效避免工作模式的频繁切换,避免动力源的转速和转矩频繁波动,能够有效保证驾驶安全并提升驾驶人驾乘体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。
图1是本发明设计的一种混动传动系统在通勤路段下的学习型能量管理方法流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提供的一种混动传动系统在通勤路段下的学习型能量管理方法,包括如下步骤:
步骤1:记录并存储通勤路段特征数据,包括车辆状态表现、混动传动系统工作表现和驾驶场景特征数据。
首先,在车机导航地图中选择家庭地址与工作地址,选择并生成通勤路段。
其次,在通勤路段驾驶过程中记录车辆速度、加速度、电池SoC等车辆状态表现,以及混动传动系统工作模式、不同动力源转速和转矩、燃油消耗等混动传动系统工作表现。此外,提取驾驶场景特征数据,包括静态道路信息和动态交通信息,其中静态道路信息为通勤路段中相对固定的信息,如道路类型、道路限速、有交通信号灯的交叉路口,无交通信号灯的交叉路口等静态道路节点,以及具有一定相似性的动态交通信息,主要包括不同道路片段所对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点等。
最后,在每次通勤路段驾驶行程结束后,记录并存储每次通勤路段的开始时间及行驶时长,并对每次通勤路段的数据集赋对应时间标签,如日期-通勤路段-行程开始时间(20230101-HometoWorkplace-0830、20230101-WorkplacetoHome-1730)。
步骤2:基于DQN强化学习对步骤1所获取的通勤路段特征数据进行训练并生成通勤路段工作模式选择模型。
基于步骤1记录并存储的通勤路段特征数据,将每一时刻的速度、加速度、电池SoC、动态交通信息作为DQN强化学习离线训练的输入量,并设置奖励函数,训练通勤路段特征数据与工作模式之间的映射关系,并生成通勤路段工作模式选择模型。
其中,DQN强化学习的价值函数
Figure SMS_53
如式(1)所示,将每一时刻的速度、加速度、电池SoC、动态交通信息作为状态量/>
Figure SMS_54
输入,工作模式作为动作量/>
Figure SMS_55
输出,DQN强化学习过程中会根据所设置的奖励函数Reward评估状态/>
Figure SMS_56
对应的状态价值/>
Figure SMS_57
,奖励函数为燃油消耗量,电池SoC状态偏离惩罚以及工作模式选择惩罚,如式(2)所示,/>
Figure SMS_58
为基于DQN强化学习的通勤路段的能量管理策略。
Figure SMS_59
(1)
Figure SMS_60
(2)
其中,
Figure SMS_61
为燃油消耗因子,/>
Figure SMS_62
为不同时刻下的瞬时燃油消耗,/>
Figure SMS_63
为电池SoC消耗因子,/>
Figure SMS_64
为所设定的电池SoC参考值,/>
Figure SMS_65
为不同时刻下的电量消耗,punish为工作模式选择惩罚,当需求扭矩为正时,选择驱动工作模式,当需求扭矩为负时,选择制动工作模式,当工作模式选择错误时会设置惩罚值进行惩罚。
其中,DQN强化学习在动作量
Figure SMS_66
选择时,即工作模式选择时会根据贪婪策略ε-greedy进行随机探索,即以ε概率随机选择动作,1-ε概率选择DQN值函数最大值对应的动作量/>
Figure SMS_67
,同时得到奖励值/>
Figure SMS_68
和执行该动作后下一时刻的状态量/>
Figure SMS_69
;进一步,将每次计算过程中的状态量,动作量,奖励值以及下一时刻状态量以四元组/>
Figure SMS_70
的形式储存在记忆池中,当记忆池数据量达到预设值后,预设值优选10000,从记忆池中通过优先经验回放的机制进行抽样并进行梯度下降的计算,其中DQN的损失函数/>
Figure SMS_71
如式(3)所示,目标Q值为/>
Figure SMS_72
如式(4)所示,由式(3),(4)可以得到DQN梯度下降更新公式如式(5)所示,由梯度下降方法可以实现DQN值函数神经网络参数值的更新,即DQN神经网络每层节点的权重和偏移量;通过不断迭代训练,当DQN损失函数收敛时,则所训练的通勤路段工作模式选择模型的奖励值Reward将达到最大值,当通勤路程开始时,利用该模型实时选择工作模式。
Figure SMS_73
(3)
Figure SMS_74
(4)
Figure SMS_75
(5)
其中,
Figure SMS_77
为损失函数,/>
Figure SMS_81
为目标Q值,/>
Figure SMS_93
为Q值,/>
Figure SMS_80
为当前网络参数,/>
Figure SMS_94
为当前时刻状态量、动作量,/>
Figure SMS_86
为上一时刻网络参数,/>
Figure SMS_92
为上一时刻状态量、动作量,/>
Figure SMS_85
为奖励值,/>
Figure SMS_91
为奖励值的衰减,/>
Figure SMS_76
表示/>
Figure SMS_88
服从/>
Figure SMS_82
分布的均值函数,/>
Figure SMS_90
表示/>
Figure SMS_87
服从/>
Figure SMS_97
分布的均值函数,/>
Figure SMS_79
表示DQN梯度下降更新公式,/>
Figure SMS_95
表示/>
Figure SMS_84
服从/>
Figure SMS_96
分布以及/>
Figure SMS_78
服从/>
Figure SMS_89
分布的均值函数,/>
Figure SMS_83
为梯度下降对应的Q值。
步骤3:在线获取动态交通信息并与通勤路段历史动态交通信息进行拥堵程度相似度评估。
当通勤路段驾驶行程开始时,利用车机导航地图获取通勤路段不同道路片段所对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点等。其中,依据道路节点对通勤路段不同道路片段进行划分,如有交通信号灯的交叉路口,无交通信号灯的交叉路口等静态道路节点。
其中,相似度评估方法流程:首先,将不同道路片段离散为等间隔的道路网格,道路网格可根据实际道路类型进行划分,为体现一定时空范围内的交通拥堵程度,道路网格范围通常设定在百米级以上,如根据道路节点划分通勤路段具有5个道路片段,道路片段可进一步等间隔划分道路网格,假设道路片段长3km,按0.1km的长度划分,该道路片段下可划分30个道路网格;其次,根据在线获取的动态交通信息,获取驾驶行程中出现拥堵的起终点,对起终点所在的道路网格进行标记,并统计拥堵起终点内所含道路网格的数量,如拥堵起点至终点包含15个道路网格,记录每个网格的交通拥堵程度。同时,根据历史通勤路段特征数据,取对应网格单元中出现频次最高的交通拥堵程度。进一步,对该拥堵起终点的交通拥堵程度进行归一化,利用基于欧式距离相似性评估方法进行相似性判断,如式(6)所示。当
Figure SMS_98
值越接近于0证明拥堵程度越相似,接近于1证明拥堵程度完全不相似,可根据实际通勤路段表现设定相似性阈值进行判断。
Figure SMS_99
(6)
其中,
Figure SMS_100
为拥堵路段交通拥堵程度与历史交通拥堵程度的相似性,/>
Figure SMS_101
为拥堵路段的交通拥堵程度,/>
Figure SMS_102
为对应拥堵路段的历史交通拥堵程度,/>
Figure SMS_103
为第i个道路网格中的交通拥堵程度,/>
Figure SMS_104
为对应第i个道路网格中的历史交通拥堵程度,/>
Figure SMS_105
为道路网格的数量。
最后,在驾驶行程中,判断离当前驾驶位置距离最近的拥堵程度相似性,当拥堵程度相似时,基于步骤2生成的通勤路段工作模式选择模型生成瞬时工作模式,并执行步骤5;当拥堵程度不相似时,需通过执行步骤4通过迁移学习在线训练并生成通勤路段工作模式选择模型。
步骤4:通过迁移学习在线训练优化通勤路段工作模式选择模型。
由于通勤路段具有高度相似性,可基于步骤2的DQN强化学习所生成的通勤路段工作模式选择模型进行迁移学习。
其中,迁移学习训练优化通勤路段工作模式选择模型的流程为:首先,基于历史通勤路段构建不同交通拥堵程度下的速度与加速度状态转移矩阵,随着通勤路段特征数据的积累,该速度与加速度状态转移矩阵将逐渐达到稳定状态,可信度将随着数据的积累逐渐提升;
其次,根据步骤3获取的不同道路网格的拥堵程度,索引对应交通拥堵程度的速度与加速度状态转移矩阵,利用马尔可夫模型对未来道路网格的速度与加速度状态进行预测,生成迁移学习所需的状态量;
最后,迁移学习中的神经网络结构和步骤2中通勤路段工作模式选择模型的神经网络结构保持一致。将上述预测得到的速度与加速度状态,通过动力学模型计算得到的电池SoC值、动态交通信息作为迁移学习算法的状态量,将步骤2中生成的神经网络模型结果作为神经网络的初始参数。迁移学习的输入量、动作量、神经网络超参数以及奖励函数与步骤2的DQN强化学习算法保持一致,计算过程同步骤2,基于步骤2的所生成的工作模式选择模型进行迁移学习,提高了迁移学习的收敛速度。由于强化学习的泛化能力有限,测试效果通常依赖于测试集与训练集的相关程度,因此,采用与未来行驶过程特征一致的预测值进行训练,可以实现工作模式选择模型的快速更新,在面对新拥堵路段时采用迁移学习后的工作模式选择模型,以应对通勤路段动态交通信息的随机性和不确定性。
步骤5:对抗性强化学习进行短时域工作模式预测并确定目标工作模式。
根据步骤2和步骤4的工作模式选择模型生成瞬时工作模式,为避免工作模式频繁切换,本发明采用对抗性强化学习预测短时域内的工作模式,根据通勤路段的拥堵程度对预测时域进行设置,可设置5~20s,如拥堵程度严重可将预测时域缩短,畅通路段可将预测时域延长至20s。
当短时域内所预测的工作模式为频繁切换时,直接采用步骤2和步骤4的工作模式选择模型生成瞬时工作模式为目标工作模式并执行;当短时域内所预测的工作模式为稳定值时,需与工作模式选择模型所生成的瞬时工作模式进行对比,当两者工作模式选择相同时,即选择瞬时工作模式作为目标工作模式进行工作;如果工作模式选择模型与预测生成的工作模式选择不相同时,即选择预测生成的稳定工作模式作为目标工作模式,避免短时域内工作模式的频繁切换。
其中,对抗性强化学习的工作流程为:首先,定义两个神经网络,分别作为工作模式生成器G和判别器D,用以生成工作模式样本和评估样本。对于生成器的状态量为当前车辆速度、加速度、车辆当前所处位置的拥堵程度,动作量为短预测时域内的工作模式序列m1。同时,采用对应路段的历史车速曲线中的对应时段工作模式序列m2作为专家样本。
其次,当训练工作模式生成器G时,生成器G根据判别器D对生成器样本m1和专家样本m2进行打分,并根据打分差异更新生成器神经网络参数,直至损失函数
Figure SMS_106
达到最小,如式(7)所示,生成工作模式预测模型。/>
Figure SMS_107
(7)
其中,state代表生成器的状态量,
Figure SMS_108
指判别器对生成器样本的评估值,即评估值越小,生成器样本与专家样本越接近;/>
Figure SMS_109
为获取判别器给生成器打分的期望值。
最后,通过生成器预测符合实际通勤路段通行条件的工作模式序列,进而确定目标工作模式,避免工作模式频繁切换。
步骤6:基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,从而确定目标工作模式对应的动力源转矩和转速。
对于不同构型的混动传动系统具有不同工作模式,主要包括纯电驱动模式、制动能量回收模式、串联增程模式、并联充电模式、并联驱动模式、发动机直驱模式等。基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,进而满足驾驶人的扭矩需求和车速需求。
其中,以串并联混动传动系统为例,不同动力源的工作状态如下所述:纯电驱动模式和制动能量回收模式仅由驱动电机工作,发动机和发电机不工作;串联增程模式由驱动电机工作,发动机和发电机构成增程器,发动机在高效区工作并发电;并联充电模式由发动机和发电机工作,发动机在最优燃油消耗曲线工作,不仅满足驾驶人所需的功率需求,而且多余的功率需求供发电机发电;并联驱动模式是由发动机和驱动电机联合工作,发动机在最优燃油消耗曲线工作,额外所需的功率需求由驱动电机提供;发动机直驱模式是由发动机工作,驱动电机和发电机不工作。不同工作模式对应的扭矩分配规则如表1所示。
表1 串并联混动传动系统不同工作模式对应的扭矩分配规则
Figure SMS_110
/>
其中,
Figure SMS_113
为车辆需求扭矩,/>
Figure SMS_115
,/>
Figure SMS_118
,/>
Figure SMS_112
分别为发动机,驱动电机以及发电机扭矩,
Figure SMS_116
为制动能量回收系数,/>
Figure SMS_119
,/>
Figure SMS_120
,/>
Figure SMS_111
分别为发动机,驱动电机以及发电机能够提供的最大扭矩,/>
Figure SMS_114
为发动机和发电机之间的速比关系,/>
Figure SMS_117
为发动机最优工作曲线所能提供的扭矩。
进一步,基于驾驶人扭矩需求和不同工作模式对应的扭矩分配规则输出目标工作模式对应的动力源转矩和转速。
步骤7:迭代更新并存储通勤路段下学习型能量管理策略模型。当驾驶行程结束后,记录并存储该次通勤路段特征数据,基于DQN强化学习不断迭代更新步骤2的工作模式选择模型。当存储并记录的通勤路段的数据越来越丰富,所训练的工作模式选择模型会趋于稳定,能量利用效果会近似全局最优,应对不确定拥堵程度的驾驶适应能力会逐渐增强。
以上所述仅为本发明的优选实施例而已,本发明实施例中仅展示理想参数,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,包括以下步骤:
步骤1,根据实际通勤情况确定通勤路段,记录并存储通勤路段特征数据,包括车辆状态表现、混动传动系统工作表现和驾驶场景特征数据;
步骤2,将通勤路段特征数据作为训练数据,基于DQN强化学习训练并生成通勤路段工作模式选择模型;
步骤3,开始通勤路段的驾驶行程,在线实时获取通勤路段动态交通信息,基于实时动态交通信息与历史动态交通信息进行拥堵程度相似度评估;当评估结果为不相似时,则进入步骤4;当评估结果为相似时,则基于通勤路段工作模式选择模型生成瞬时工作模式,进入步骤5;
步骤4,通过迁移学习训练优化通勤路段工作模式选择模型,基于优化后的通勤路段工作模式选择模型生成瞬时工作模式;
步骤5,采用对抗性强化学习进行短时域工作模式预测,当短时域内所预测的工作模式为频繁切换时,将瞬时工作模式作为目标工作模式;当短时域内所预测的工作模式为稳定值时,将预测生成的稳定工作模式作为目标工作模式;
步骤6,基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;
步骤7,驾驶行程结束,记录并存储此次驾驶行程的通勤路段特征数据,将其加入步骤2的DQN强化学习训练数据集。
2.根据权利要求1所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤1中车辆状态表现、混动传动系统工作表现和驾驶场景特征数据具体为:
车辆状态表现包括车辆速度、加速度、电池SoC;
混动传动系统工作表现包括混动传动系统工作模式、不同动力源转速和转矩、燃油消耗;
驾驶场景特征数据包括静态道路信息和动态交通信息,静态道路信息包含道路类型、道路限速、有交通信号灯的交叉路口、无交通信号灯的交叉路口,动态交通信息包含不同道路片段对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点。
3.根据权利要求2所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤2具体为:DQN强化学习的价值函数
Figure QLYQS_1
Figure QLYQS_2
其中,
Figure QLYQS_3
为状态量,/>
Figure QLYQS_4
为动作量,/>
Figure QLYQS_5
为状态价值;
通勤路段的每一时刻的速度、加速度、电池SoC、动态交通信息作为状态量
Figure QLYQS_6
输入,工作模式作为动作量/>
Figure QLYQS_7
输出,DQN强化学习过程中根据所设置的奖励函数Reward评估状态量/>
Figure QLYQS_8
对应的状态价值/>
Figure QLYQS_9
,奖励函数为燃油消耗量,电池SoC状态偏离惩罚以及工作模式选择惩罚,如下式所示:
Figure QLYQS_10
其中,
Figure QLYQS_11
为燃油消耗因子,/>
Figure QLYQS_12
为不同时刻下的瞬时燃油消耗,/>
Figure QLYQS_13
为电池SoC消耗因子,/>
Figure QLYQS_14
为给定的电池SoC参考值,/>
Figure QLYQS_15
为不同时刻下的电量消耗,punish为工作模式选择惩罚,当需求扭矩为正时,选择驱动工作模式,当需求扭矩为负时,选择制动工作模式,当工作模式选择错误时设置惩罚值进行惩罚;
根据贪婪系数进行随机探索实现动作选择,并将计算所得的经验值储存在记忆池中,当记忆池数据量达到预设值后,从记忆池中随机抽样进行DQN梯度下降更新DQN值函数神经网络参数值,并训练生成通勤路段工作模式选择模型;其中,DQN梯度下降更新公式为:
Figure QLYQS_16
式中,
Figure QLYQS_20
表示DQN梯度下降更新公式,/>
Figure QLYQS_21
为损失函数,/>
Figure QLYQS_25
表示/>
Figure QLYQS_19
服从/>
Figure QLYQS_24
分布以及/>
Figure QLYQS_28
服从/>
Figure QLYQS_31
分布的均值函数,/>
Figure QLYQS_17
为梯度下降对应的Q值,/>
Figure QLYQS_22
为Q值,/>
Figure QLYQS_27
为当前网络参数,/>
Figure QLYQS_30
为当前时刻状态量、动作量,/>
Figure QLYQS_18
为上一时刻网络参数,
Figure QLYQS_23
为上一时刻状态量、动作量,/>
Figure QLYQS_26
为奖励值,/>
Figure QLYQS_29
为奖励值的衰减;
Figure QLYQS_32
Figure QLYQS_33
其中,
Figure QLYQS_34
为目标Q值,/>
Figure QLYQS_35
表示/>
Figure QLYQS_36
服从/>
Figure QLYQS_37
分布的均值函数,/>
Figure QLYQS_38
表示/>
Figure QLYQS_39
服从/>
Figure QLYQS_40
分布的均值函数。
4.根据权利要求3所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤3,所述相似度评估的流程为:
(1)将通勤路段的不同道路片段离散为等间隔的道路网格,道路网格根据实际道路类型进行划分;
(2)根据在线实时获取的通勤路段动态交通信息,获取驾驶行程中的拥堵起终点,对该拥堵起终点的交通拥堵程度进行归一化,基于欧式距离相似性评估方法进行相似性判断:
Figure QLYQS_41
其中,
Figure QLYQS_42
为拥堵路段交通拥堵程度与历史交通拥堵程度的相似性,/>
Figure QLYQS_43
为拥堵路段的交通拥堵程度,/>
Figure QLYQS_44
为对应拥堵路段的历史交通拥堵程度,/>
Figure QLYQS_45
为第i个道路网格中的交通拥堵程度,/>
Figure QLYQS_46
为对应第i个道路网格中的历史交通拥堵程度;/>
Figure QLYQS_47
为道路网格的数量;
Figure QLYQS_48
值小于相似性阈值时为相似拥堵程度,否则为不相似拥堵程度,其中0<相似性阈值<1。
5.根据权利要求4所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤4,通过迁移学习训练优化通勤路段工作模式选择模型具体为:
(1)基于历史通勤路段构建不同交通拥堵程度下的速度与加速度状态转移矩阵;
(2)根据不同道路网格的拥堵程度,索引对应交通拥堵程度的速度与加速度状态转移矩阵,利用马尔可夫模型对未来道路网格的速度与加速度状态进行预测;
(3)迁移学习中的神经网络结构和步骤2中通勤路段工作模式选择模型的神经网络结构保持一致,将预测得到的速度与加速度、动力学模型计算得到的电池SoC值、动态交通信息作为迁移学习的状态量,将步骤2中生成的通勤路段工作模式选择模型的神经网络参数作为初始参数;迁移学习的输入量、动作量、神经网络超参数以及奖励函数与步骤2的DQN强化学习算法保持一致,训练优化通勤路段工作模式选择模型。
6.根据权利要求5所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤5,采用对抗性强化学习进行短时域工作模式预测的流程为:
(1)定义两个神经网络,分别作为工作模式生成器G和判别器D,用以生成样本和评估样本;生成器的状态量为当前车辆速度、加速度、车辆当前所处位置的交通拥堵程度,动作量为短预测时域内的工作模式序列m1,专家样本为对应路段的历史车速曲线中的对应时段工作模式序列m2;
(2)训练生成器G,生成器G根据判别器D对工作模式序列m1和工作模式序列m2进行打分,根据打分差异更新生成器神经网络参数,直至损失函数
Figure QLYQS_49
达到最小,生成工作模式预测模型:
Figure QLYQS_50
其中,state代表生成器的状态量,
Figure QLYQS_51
指判别器对生成器样本的评估值,/>
Figure QLYQS_52
为获取判别器给生成器打分的期望值;
(3)通过生成器G预测符合实际通勤路段同行条件的工作模式序列,确定目标工作模式。
CN202310206439.9A 2023-03-07 2023-03-07 一种混动传动系统在通勤路段下的学习型能量管理方法 Active CN116070783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310206439.9A CN116070783B (zh) 2023-03-07 2023-03-07 一种混动传动系统在通勤路段下的学习型能量管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310206439.9A CN116070783B (zh) 2023-03-07 2023-03-07 一种混动传动系统在通勤路段下的学习型能量管理方法

Publications (2)

Publication Number Publication Date
CN116070783A CN116070783A (zh) 2023-05-05
CN116070783B true CN116070783B (zh) 2023-05-30

Family

ID=86175040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310206439.9A Active CN116070783B (zh) 2023-03-07 2023-03-07 一种混动传动系统在通勤路段下的学习型能量管理方法

Country Status (1)

Country Link
CN (1) CN116070783B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862097A (zh) * 2023-06-08 2023-10-10 深圳市蕾奥规划设计咨询股份有限公司 一种信息确定方法及设备
CN117698688B (zh) * 2024-02-06 2024-04-09 北京航空航天大学 一种基于短时车速预测的混动传动系统模式智能切换方法
CN117708999B (zh) * 2024-02-06 2024-04-09 北京航空航天大学 一种面向场景的混动汽车能量管理策略评价方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020060478A1 (en) * 2018-09-18 2020-03-26 Sixan Pte Ltd System and method for training virtual traffic agents
CN111731303A (zh) * 2020-07-09 2020-10-02 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法
CN113436443A (zh) * 2021-03-29 2021-09-24 东南大学 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN113835421A (zh) * 2020-06-06 2021-12-24 华为技术有限公司 训练驾驶行为决策模型的方法及装置
CN113997926A (zh) * 2021-11-30 2022-02-01 江苏浩峰汽车附件有限公司 基于分层强化学习的并联式混合动力汽车能量管理方法
CN115257691A (zh) * 2022-07-28 2022-11-01 同济大学 一种基于强化学习的混合动力汽车模式切换控制方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020060478A1 (en) * 2018-09-18 2020-03-26 Sixan Pte Ltd System and method for training virtual traffic agents
CN113835421A (zh) * 2020-06-06 2021-12-24 华为技术有限公司 训练驾驶行为决策模型的方法及装置
CN111731303A (zh) * 2020-07-09 2020-10-02 重庆大学 一种基于深度强化学习a3c算法的hev能量管理方法
CN113436443A (zh) * 2021-03-29 2021-09-24 东南大学 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN113997926A (zh) * 2021-11-30 2022-02-01 江苏浩峰汽车附件有限公司 基于分层强化学习的并联式混合动力汽车能量管理方法
CN115257691A (zh) * 2022-07-28 2022-11-01 同济大学 一种基于强化学习的混合动力汽车模式切换控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Practical application of energy management strategy for hybrid electric vehicles based on intelligent and connected technologies: Development stages, challenges, and future trends;Peng Dong 等;《Renewable and Sustainable Energy Reviews》;全文 *

Also Published As

Publication number Publication date
CN116070783A (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN116070783B (zh) 一种混动传动系统在通勤路段下的学习型能量管理方法
CN110775065B (zh) 一种基于工况识别的混合动力汽车电池寿命预测方法
WO2021103625A1 (zh) 一种基于前车与自车互动的短期车速工况实时预测方法
CN110936949B (zh) 基于行驶工况的能量控制方法、设备、存储介质及装置
CN109733378B (zh) 一种线下优化线上预测的转矩分配方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN111619545B (zh) 基于交通信息的混合动力汽车能量管理方法
CN112668799A (zh) 基于行驶大数据的phev的智能能量管理方法和存储介质
CN111923897B (zh) 一种插电式混合动力汽车能量智能管理方法
CN112339756B (zh) 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法
CN113554337B (zh) 融合交通信息的插电式混动汽车能量管理策略构建方法
CN112249002A (zh) 一种基于td3的启发式串并联混合动力能量管理方法
CN115071505A (zh) 燃料电池汽车分层规划方法、系统、装置及存储介质
CN114103924A (zh) 一种混合动力车辆能量管理控制方法及装置
CN115805840A (zh) 一种增程式电动装载机能耗控制方法及系统
CN113479186A (zh) 一种混合动力汽车能量管理策略优化方法
CN115534929A (zh) 基于多元信息融合的插电式混合动力汽车能量管理方法
CN115107733A (zh) 一种混合动力汽车的能量管理方法及系统
CN113135113B (zh) 一种全局soc规划方法及装置
CN116522498B (zh) 增程式电动车能耗和排放协同优化方法和增程式电动车控制方法
Zhang et al. An optimal vehicle speed planning algorithm for regenerative braking at traffic lights intersections based on reinforcement learning
CN113246958B (zh) 基于td3多目标hev能量管理方法及系统
CN113276829B (zh) 一种基于工况预测的车辆行驶节能优化变权重方法
CN114872711A (zh) 基于智能网联车辆的驾驶规划方法、系统、装置及介质
CN112440974B (zh) 基于分布式深度确定性策略梯度的hev能量管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant