CN116070783B - 一种混动传动系统在通勤路段下的学习型能量管理方法 - Google Patents
一种混动传动系统在通勤路段下的学习型能量管理方法 Download PDFInfo
- Publication number
- CN116070783B CN116070783B CN202310206439.9A CN202310206439A CN116070783B CN 116070783 B CN116070783 B CN 116070783B CN 202310206439 A CN202310206439 A CN 202310206439A CN 116070783 B CN116070783 B CN 116070783B
- Authority
- CN
- China
- Prior art keywords
- commute
- working mode
- section
- road
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 28
- 238000007726 management method Methods 0.000 title abstract description 35
- 230000002787 reinforcement Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013526 transfer learning Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 24
- 230000001133 acceleration Effects 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 16
- 239000000446 fuel Substances 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 230000003068 static effect Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000005611 electricity Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000000295 fuel oil Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W20/00—Control systems specially adapted for hybrid vehicles
- B60W20/10—Controlling the power contribution of each of the prime movers to meet required power demand
- B60W20/11—Controlling the power contribution of each of the prime movers to meet required power demand using model predictive control [MPC] strategies, i.e. control methods based on models predicting performance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W20/00—Control systems specially adapted for hybrid vehicles
- B60W20/10—Controlling the power contribution of each of the prime movers to meet required power demand
- B60W20/12—Controlling the power contribution of each of the prime movers to meet required power demand using control strategies taking into account route information
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W20/00—Control systems specially adapted for hybrid vehicles
- B60W20/10—Controlling the power contribution of each of the prime movers to meet required power demand
- B60W20/15—Control strategies specially adapted for achieving a particular effect
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06Q50/40—
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mechanical Engineering (AREA)
- Transportation (AREA)
- Automation & Control Theory (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Hybrid Electric Vehicles (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
Abstract
本发明公开了一种混动传动系统在通勤路段下的学习型能量管理方法,包括:确定通勤路段,记录并存储通勤路段特征数据;基于DQN强化学习训练并生成工作模式选择模型;开始通勤路段的驾驶行程,基于实时与历史动态交通信息进行拥堵程度相似度评估;通过迁移学习训练优化工作模式选择模型;采用对抗性强化学习进行短时域工作模式预测,确定目标工作模式;基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;驾驶行程结束,记录并存储此次通勤路段特征数据,加入DQN强化学习训练数据集。该方法能够有效应用于通勤路段下的能量管理,随着通勤路段驾驶工况特征数据的存储和记录,对应训练并生成的工作模式选择模型会越来越优。
Description
技术领域
本发明涉及混动传动系统能量管理技术领域,特别是涉及一种混动传动系统在通勤路段下的学习型能量管理方法。
背景技术
混合动力汽车将发动机和电机作为动力源,通过合理的燃油和电能利用可达到节能减排的目标。混动汽车的能耗表现与驾驶工况具有很强的相关性,发动机和电机对应的具体工作状态表现取决于能量管理策略的制定。目前,混动汽车普遍采用基于规则的能量管理策略,该类能量管理策略工况适应性较差,能量利用有很大的优化空间,而对于全局优化能量管理策略,虽然其能够达到全域工况下的能量利用最优,但需要预知全域工况,且很难在线实时应用。然而,智能学习算法的发展能够很好地解决上述问题,一方面,学习型能量管理策略能够满足混动传动系统的实时应用要求,另一方面,学习型能量管理策略能够对驾驶工况特征数据进行不断迭代学习,尤其是能够快速迁移学习相对固定的驾驶工况特征数据,例如通勤路段下的驾驶工况数据。因此,在具有高度相似性驾驶工况特征数据的通勤路段下,采用学习型能量管理策略能够使混动汽车的能量利用达到近似全局最优,显著提升混动汽车的节能减排效果。
学习型能量管理策略应用于通勤路段实现能量利用优化,一方面,尽可能使发动机和电机的工作点处于高效区内;另一方面,在高度相似的驾驶工况下,发动机和电机之间相互配合高效工作。然而,现有学习型能量管理策略直接将动力传动系统的转速和转矩作为控制变量,导致工作模式的频繁切换和车速的频繁波动脱离了实际表现,同时,动力源转速和转矩突变会对驾驶安全产生直接影响。此外,通勤路段下的驾驶工况虽然具有高度相似性,但并不是完全保持一致,其仍存在随机性、不确定性的驾驶事件发生,现有学习型能量管理策略鲜有将实时动态驾驶工况的变化考虑在内,通过迁移学习能够快速适应实时动态驾驶工况的变化并适时调整动力传动系统的工作状态。因此,上述问题需在学习型能量管理策略的制定过程中重点考虑,从而满足通勤路段下混动能量管理的高效利用。
发明内容
本发明提出一种混动传动系统在通勤路段下的学习型能量管理方法。一方面,通过不断学习通勤路段下的驾驶工况特征数据与工作模式的映射关系,从而实时在线调整混动传动系统的工作模式,有效解决目前将控制输出直接作用于动力源的转速和转矩上,从而保证行车安全。另一方面,本发明所提学习型能量管理方法能够有效应对通勤路段下随机性、不确定性驾驶事件的发生,通过迁移学习增强对通勤路段驾驶工况的适应性,不仅实现学习型能量管理策略的实时应用,而且能够使混动汽车的能量利用过程逐步迭代优化。综上,本发明所提的学习型能量管理策略有效考虑了驾驶安全,考虑了通勤路段下的驾驶工况特征,考虑了动力传动系统物理约束条件,避免混动传动系统工作模式频繁切换。
有鉴于此,本发明提出了一种混动传动系统在通勤路段下的学习型能量管理方法,能够有效应用于通勤路段下混合动力汽车能量管理。
本发明提供的一种混动传动系统在通勤路段下的学习型能量管理方法,包括如下步骤:
步骤1,根据实际通勤情况确定通勤路段,记录并存储通勤路段特征数据,包括车辆状态表现、混动传动系统工作表现和驾驶场景特征数据;
步骤2,将通勤路段特征数据作为训练数据,基于DQN强化学习训练并生成通勤路段工作模式选择模型;
步骤3,开始通勤路段的驾驶行程,在线实时获取通勤路段动态交通信息,基于实时动态交通信息与历史动态交通信息进行拥堵程度相似度评估;当评估结果为不相似时,则进入步骤4;当评估结果为相似时,则基于通勤路段工作模式选择模型生成瞬时工作模式,进入步骤5;
步骤4,通过迁移学习训练优化通勤路段工作模式选择模型,基于优化后的通勤路段工作模式选择模型生成瞬时工作模式;
步骤5,采用对抗性强化学习进行短时域工作模式预测,当短时域内所预测的工作模式为频繁切换时,将瞬时工作模式作为目标工作模式;当短时域内所预测的工作模式为稳定值时,将预测生成的稳定工作模式作为目标工作模式;
步骤6,基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;
步骤7,驾驶行程结束,记录并存储此次驾驶行程的通勤路段特征数据,将其加入步骤2的DQN强化学习训练数据集。
进一步,所述步骤1中车辆状态表现、混动传动系统工作表现和驾驶场景特征数据具体为:
车辆状态表现包括车辆速度、加速度、电池SoC;
混动传动系统工作表现包括混动传动系统工作模式、不同动力源转速和转矩、燃油消耗;
驾驶场景特征数据包括静态道路信息和动态交通信息,静态道路信息包含道路类型、道路限速、有交通信号灯的交叉路口、无交通信号灯的交叉路口,动态交通信息包含不同道路片段对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点。
通勤路段的每一时刻的速度、加速度、电池SoC、动态交通信息作为状态量输入,工作模式作为动作量/>输出,DQN强化学习过程中根据所设置的奖励函数Reward评估状态/>对应的状态价值/>,奖励函数为燃油消耗量,电池SoC状态偏离惩罚以及工作模式选择惩罚,如下式所示:
其中,为燃油消耗因子,/>为不同时刻下的瞬时燃油消耗,/>为电池SoC消耗因子,/>为给定的电池SoC参考值,/>为不同时刻下的电量消耗,punish为工作模式选择惩罚,当需求扭矩为正时,选择驱动工作模式,当需求扭矩为负时,选择制动工作模式,当工作模式选择错误时设置惩罚值进行惩罚;
根据贪婪系数进行随机探索实现动作选择,并将计算所得的经验值储存在记忆池中,当记忆池数据量达到预设值后,从记忆池中随机抽样进行DQN梯度下降更新DQN值函数神经网络参数值,并训练生成通勤路段工作模式选择模型;其中,DQN梯度下降更新公式为:
式中,表示DQN梯度下降更新公式,/>为损失函数,/>表示服从/>分布以及/>服从/>分布的均值函数,/>为梯度下降对应的Q值,为Q值,/>为当前网络参数,/>为当前时刻状态量、动作量,/>为上一时刻网络参数,/>为上一时刻状态量、动作量,/>为奖励值,/>为奖励值的衰减;
进一步,所述步骤3,所述相似度评估的流程为:
(1)将通勤路段的不同道路片段离散为等间隔的道路网格,道路网格根据实际道路类型进行划分;
(2)根据在线实时获取的通勤路段动态交通信息,获取驾驶行程中的拥堵起终点,对该拥堵起终点的交通拥堵程度进行归一化,基于欧式距离相似性评估方法进行相似性判断:
其中,为拥堵路段交通拥堵程度与历史交通拥堵程度的相似性,/>为拥堵路段的交通拥堵程度,/>为对应拥堵路段的历史交通拥堵程度,/>为第i个道路网格中的交通拥堵程度,/>为对应第i个道路网格中的历史交通拥堵程度;/>为道路网格的数量;
进一步,所述步骤4,通过迁移学习训练优化通勤路段工作模式选择模型具体为:
(1)基于历史通勤路段构建不同交通拥堵程度下的速度与加速度状态转移矩阵;
(2)根据不同道路网格的拥堵程度,索引对应交通拥堵程度的速度与加速度状态转移矩阵,利用马尔可夫模型对未来道路网格的速度与加速度状态进行预测;
(3)迁移学习中的神经网络结构和步骤2中通勤路段工作模式选择模型的神经网络结构保持一致,将预测得到的速度与加速度、动力学模型计算得到的电池SoC值、动态交通信息作为迁移学习的状态量,将步骤2中生成的通勤路段工作模式选择模型的神经网络参数作为初始参数;迁移学习的输入量、动作量、神经网络超参数以及奖励函数与步骤2的DQN强化学习算法保持一致,训练优化通勤路段工作模式选择模型。
进一步,所述步骤5,采用对抗性强化学习进行短时域工作模式预测的流程为:
(1)定义两个神经网络,分别作为工作模式生成器G和判别器D,用以生成样本和评估样本;生成器的状态量为当前车辆速度、加速度、车辆当前所处位置的交通拥堵程度,动作量为短预测时域内的工作模式序列m1,专家样本为对应路段的历史车速曲线中的对应时段工作模式序列m2;
(3)通过生成器G预测符合实际通勤路段同行条件的工作模式序列,确定目标工作模式。
本发明的有益效果在于:
(1)本发明能够有效应用于通勤路段下的能量管理,随着通勤路段驾驶工况特征数据的存储和记录,对应训练并生成的工作模式选择模型会越来越优。
(2)本发明所提能量管理策略能够有效应对通勤路段出现的不确定性、随机性驾驶事件导致的拥堵工况,通过迁移学习增强对通勤路段随机驾驶工况的适应性,通过适时调整工作模式,能够改善不同动力源的能量利用效果。
(3)本发明所提的学习型能量管理策略不仅能够保证实车应用的实时性,而且所提出的能量管理策略能够适应不同驾驶人特征和驾驶工况特征,进而使能量管理策略的适应性更强且充分体现能量管理策略的个性化。
(4)本发明所提学习型能量管理方法能够有效避免工作模式的频繁切换,避免动力源的转速和转矩频繁波动,能够有效保证驾驶安全并提升驾驶人驾乘体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。
图1是本发明设计的一种混动传动系统在通勤路段下的学习型能量管理方法流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提供的一种混动传动系统在通勤路段下的学习型能量管理方法,包括如下步骤:
步骤1:记录并存储通勤路段特征数据,包括车辆状态表现、混动传动系统工作表现和驾驶场景特征数据。
首先,在车机导航地图中选择家庭地址与工作地址,选择并生成通勤路段。
其次,在通勤路段驾驶过程中记录车辆速度、加速度、电池SoC等车辆状态表现,以及混动传动系统工作模式、不同动力源转速和转矩、燃油消耗等混动传动系统工作表现。此外,提取驾驶场景特征数据,包括静态道路信息和动态交通信息,其中静态道路信息为通勤路段中相对固定的信息,如道路类型、道路限速、有交通信号灯的交叉路口,无交通信号灯的交叉路口等静态道路节点,以及具有一定相似性的动态交通信息,主要包括不同道路片段所对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点等。
最后,在每次通勤路段驾驶行程结束后,记录并存储每次通勤路段的开始时间及行驶时长,并对每次通勤路段的数据集赋对应时间标签,如日期-通勤路段-行程开始时间(20230101-HometoWorkplace-0830、20230101-WorkplacetoHome-1730)。
步骤2:基于DQN强化学习对步骤1所获取的通勤路段特征数据进行训练并生成通勤路段工作模式选择模型。
基于步骤1记录并存储的通勤路段特征数据,将每一时刻的速度、加速度、电池SoC、动态交通信息作为DQN强化学习离线训练的输入量,并设置奖励函数,训练通勤路段特征数据与工作模式之间的映射关系,并生成通勤路段工作模式选择模型。
其中,DQN强化学习的价值函数如式(1)所示,将每一时刻的速度、加速度、电池SoC、动态交通信息作为状态量/>输入,工作模式作为动作量/>输出,DQN强化学习过程中会根据所设置的奖励函数Reward评估状态/>对应的状态价值/>,奖励函数为燃油消耗量,电池SoC状态偏离惩罚以及工作模式选择惩罚,如式(2)所示,/>为基于DQN强化学习的通勤路段的能量管理策略。
其中,为燃油消耗因子,/>为不同时刻下的瞬时燃油消耗,/>为电池SoC消耗因子,/>为所设定的电池SoC参考值,/>为不同时刻下的电量消耗,punish为工作模式选择惩罚,当需求扭矩为正时,选择驱动工作模式,当需求扭矩为负时,选择制动工作模式,当工作模式选择错误时会设置惩罚值进行惩罚。
其中,DQN强化学习在动作量选择时,即工作模式选择时会根据贪婪策略ε-greedy进行随机探索,即以ε概率随机选择动作,1-ε概率选择DQN值函数最大值对应的动作量/>,同时得到奖励值/>和执行该动作后下一时刻的状态量/>;进一步,将每次计算过程中的状态量,动作量,奖励值以及下一时刻状态量以四元组/>的形式储存在记忆池中,当记忆池数据量达到预设值后,预设值优选10000,从记忆池中通过优先经验回放的机制进行抽样并进行梯度下降的计算,其中DQN的损失函数/>如式(3)所示,目标Q值为/>如式(4)所示,由式(3),(4)可以得到DQN梯度下降更新公式如式(5)所示,由梯度下降方法可以实现DQN值函数神经网络参数值的更新,即DQN神经网络每层节点的权重和偏移量;通过不断迭代训练,当DQN损失函数收敛时,则所训练的通勤路段工作模式选择模型的奖励值Reward将达到最大值,当通勤路程开始时,利用该模型实时选择工作模式。
其中,为损失函数,/>为目标Q值,/>为Q值,/>为当前网络参数,/>为当前时刻状态量、动作量,/>为上一时刻网络参数,/>为上一时刻状态量、动作量,/>为奖励值,/>为奖励值的衰减,/>表示/>服从/>分布的均值函数,/>表示/>服从/>分布的均值函数,/>表示DQN梯度下降更新公式,/>表示/>服从/>分布以及/>服从/>分布的均值函数,/>为梯度下降对应的Q值。
步骤3:在线获取动态交通信息并与通勤路段历史动态交通信息进行拥堵程度相似度评估。
当通勤路段驾驶行程开始时,利用车机导航地图获取通勤路段不同道路片段所对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点等。其中,依据道路节点对通勤路段不同道路片段进行划分,如有交通信号灯的交叉路口,无交通信号灯的交叉路口等静态道路节点。
其中,相似度评估方法流程:首先,将不同道路片段离散为等间隔的道路网格,道路网格可根据实际道路类型进行划分,为体现一定时空范围内的交通拥堵程度,道路网格范围通常设定在百米级以上,如根据道路节点划分通勤路段具有5个道路片段,道路片段可进一步等间隔划分道路网格,假设道路片段长3km,按0.1km的长度划分,该道路片段下可划分30个道路网格;其次,根据在线获取的动态交通信息,获取驾驶行程中出现拥堵的起终点,对起终点所在的道路网格进行标记,并统计拥堵起终点内所含道路网格的数量,如拥堵起点至终点包含15个道路网格,记录每个网格的交通拥堵程度。同时,根据历史通勤路段特征数据,取对应网格单元中出现频次最高的交通拥堵程度。进一步,对该拥堵起终点的交通拥堵程度进行归一化,利用基于欧式距离相似性评估方法进行相似性判断,如式(6)所示。当值越接近于0证明拥堵程度越相似,接近于1证明拥堵程度完全不相似,可根据实际通勤路段表现设定相似性阈值进行判断。
其中,为拥堵路段交通拥堵程度与历史交通拥堵程度的相似性,/>为拥堵路段的交通拥堵程度,/>为对应拥堵路段的历史交通拥堵程度,/>为第i个道路网格中的交通拥堵程度,/>为对应第i个道路网格中的历史交通拥堵程度,/>为道路网格的数量。
最后,在驾驶行程中,判断离当前驾驶位置距离最近的拥堵程度相似性,当拥堵程度相似时,基于步骤2生成的通勤路段工作模式选择模型生成瞬时工作模式,并执行步骤5;当拥堵程度不相似时,需通过执行步骤4通过迁移学习在线训练并生成通勤路段工作模式选择模型。
步骤4:通过迁移学习在线训练优化通勤路段工作模式选择模型。
由于通勤路段具有高度相似性,可基于步骤2的DQN强化学习所生成的通勤路段工作模式选择模型进行迁移学习。
其中,迁移学习训练优化通勤路段工作模式选择模型的流程为:首先,基于历史通勤路段构建不同交通拥堵程度下的速度与加速度状态转移矩阵,随着通勤路段特征数据的积累,该速度与加速度状态转移矩阵将逐渐达到稳定状态,可信度将随着数据的积累逐渐提升;
其次,根据步骤3获取的不同道路网格的拥堵程度,索引对应交通拥堵程度的速度与加速度状态转移矩阵,利用马尔可夫模型对未来道路网格的速度与加速度状态进行预测,生成迁移学习所需的状态量;
最后,迁移学习中的神经网络结构和步骤2中通勤路段工作模式选择模型的神经网络结构保持一致。将上述预测得到的速度与加速度状态,通过动力学模型计算得到的电池SoC值、动态交通信息作为迁移学习算法的状态量,将步骤2中生成的神经网络模型结果作为神经网络的初始参数。迁移学习的输入量、动作量、神经网络超参数以及奖励函数与步骤2的DQN强化学习算法保持一致,计算过程同步骤2,基于步骤2的所生成的工作模式选择模型进行迁移学习,提高了迁移学习的收敛速度。由于强化学习的泛化能力有限,测试效果通常依赖于测试集与训练集的相关程度,因此,采用与未来行驶过程特征一致的预测值进行训练,可以实现工作模式选择模型的快速更新,在面对新拥堵路段时采用迁移学习后的工作模式选择模型,以应对通勤路段动态交通信息的随机性和不确定性。
步骤5:对抗性强化学习进行短时域工作模式预测并确定目标工作模式。
根据步骤2和步骤4的工作模式选择模型生成瞬时工作模式,为避免工作模式频繁切换,本发明采用对抗性强化学习预测短时域内的工作模式,根据通勤路段的拥堵程度对预测时域进行设置,可设置5~20s,如拥堵程度严重可将预测时域缩短,畅通路段可将预测时域延长至20s。
当短时域内所预测的工作模式为频繁切换时,直接采用步骤2和步骤4的工作模式选择模型生成瞬时工作模式为目标工作模式并执行;当短时域内所预测的工作模式为稳定值时,需与工作模式选择模型所生成的瞬时工作模式进行对比,当两者工作模式选择相同时,即选择瞬时工作模式作为目标工作模式进行工作;如果工作模式选择模型与预测生成的工作模式选择不相同时,即选择预测生成的稳定工作模式作为目标工作模式,避免短时域内工作模式的频繁切换。
其中,对抗性强化学习的工作流程为:首先,定义两个神经网络,分别作为工作模式生成器G和判别器D,用以生成工作模式样本和评估样本。对于生成器的状态量为当前车辆速度、加速度、车辆当前所处位置的拥堵程度,动作量为短预测时域内的工作模式序列m1。同时,采用对应路段的历史车速曲线中的对应时段工作模式序列m2作为专家样本。
最后,通过生成器预测符合实际通勤路段通行条件的工作模式序列,进而确定目标工作模式,避免工作模式频繁切换。
步骤6:基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,从而确定目标工作模式对应的动力源转矩和转速。
对于不同构型的混动传动系统具有不同工作模式,主要包括纯电驱动模式、制动能量回收模式、串联增程模式、并联充电模式、并联驱动模式、发动机直驱模式等。基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,进而满足驾驶人的扭矩需求和车速需求。
其中,以串并联混动传动系统为例,不同动力源的工作状态如下所述:纯电驱动模式和制动能量回收模式仅由驱动电机工作,发动机和发电机不工作;串联增程模式由驱动电机工作,发动机和发电机构成增程器,发动机在高效区工作并发电;并联充电模式由发动机和发电机工作,发动机在最优燃油消耗曲线工作,不仅满足驾驶人所需的功率需求,而且多余的功率需求供发电机发电;并联驱动模式是由发动机和驱动电机联合工作,发动机在最优燃油消耗曲线工作,额外所需的功率需求由驱动电机提供;发动机直驱模式是由发动机工作,驱动电机和发电机不工作。不同工作模式对应的扭矩分配规则如表1所示。
表1 串并联混动传动系统不同工作模式对应的扭矩分配规则
其中,为车辆需求扭矩,/>,/>,/>分别为发动机,驱动电机以及发电机扭矩,为制动能量回收系数,/>,/>,/>分别为发动机,驱动电机以及发电机能够提供的最大扭矩,/>为发动机和发电机之间的速比关系,/>为发动机最优工作曲线所能提供的扭矩。
进一步,基于驾驶人扭矩需求和不同工作模式对应的扭矩分配规则输出目标工作模式对应的动力源转矩和转速。
步骤7:迭代更新并存储通勤路段下学习型能量管理策略模型。当驾驶行程结束后,记录并存储该次通勤路段特征数据,基于DQN强化学习不断迭代更新步骤2的工作模式选择模型。当存储并记录的通勤路段的数据越来越丰富,所训练的工作模式选择模型会趋于稳定,能量利用效果会近似全局最优,应对不确定拥堵程度的驾驶适应能力会逐渐增强。
以上所述仅为本发明的优选实施例而已,本发明实施例中仅展示理想参数,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,包括以下步骤:
步骤1,根据实际通勤情况确定通勤路段,记录并存储通勤路段特征数据,包括车辆状态表现、混动传动系统工作表现和驾驶场景特征数据;
步骤2,将通勤路段特征数据作为训练数据,基于DQN强化学习训练并生成通勤路段工作模式选择模型;
步骤3,开始通勤路段的驾驶行程,在线实时获取通勤路段动态交通信息,基于实时动态交通信息与历史动态交通信息进行拥堵程度相似度评估;当评估结果为不相似时,则进入步骤4;当评估结果为相似时,则基于通勤路段工作模式选择模型生成瞬时工作模式,进入步骤5;
步骤4,通过迁移学习训练优化通勤路段工作模式选择模型,基于优化后的通勤路段工作模式选择模型生成瞬时工作模式;
步骤5,采用对抗性强化学习进行短时域工作模式预测,当短时域内所预测的工作模式为频繁切换时,将瞬时工作模式作为目标工作模式;当短时域内所预测的工作模式为稳定值时,将预测生成的稳定工作模式作为目标工作模式;
步骤6,基于不同动力源的工作状态设定不同工作模式对应的扭矩分配规则,基于驾驶人扭矩需求和扭矩分配规则确定目标工作模式对应的动力源转矩和转速;
步骤7,驾驶行程结束,记录并存储此次驾驶行程的通勤路段特征数据,将其加入步骤2的DQN强化学习训练数据集。
2.根据权利要求1所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤1中车辆状态表现、混动传动系统工作表现和驾驶场景特征数据具体为:
车辆状态表现包括车辆速度、加速度、电池SoC;
混动传动系统工作表现包括混动传动系统工作模式、不同动力源转速和转矩、燃油消耗;
驾驶场景特征数据包括静态道路信息和动态交通信息,静态道路信息包含道路类型、道路限速、有交通信号灯的交叉路口、无交通信号灯的交叉路口,动态交通信息包含不同道路片段对应的交通拥堵程度、拥堵持续时长以及拥堵距离、拥堵状态起终点。
通勤路段的每一时刻的速度、加速度、电池SoC、动态交通信息作为状态量输入,工作模式作为动作量/>输出,DQN强化学习过程中根据所设置的奖励函数Reward评估状态量/>对应的状态价值/>,奖励函数为燃油消耗量,电池SoC状态偏离惩罚以及工作模式选择惩罚,如下式所示:
其中,为燃油消耗因子,/>为不同时刻下的瞬时燃油消耗,/>为电池SoC消耗因子,/>为给定的电池SoC参考值,/>为不同时刻下的电量消耗,punish为工作模式选择惩罚,当需求扭矩为正时,选择驱动工作模式,当需求扭矩为负时,选择制动工作模式,当工作模式选择错误时设置惩罚值进行惩罚;
根据贪婪系数进行随机探索实现动作选择,并将计算所得的经验值储存在记忆池中,当记忆池数据量达到预设值后,从记忆池中随机抽样进行DQN梯度下降更新DQN值函数神经网络参数值,并训练生成通勤路段工作模式选择模型;其中,DQN梯度下降更新公式为:
式中,表示DQN梯度下降更新公式,/>为损失函数,/>表示/>服从/>分布以及/>服从/>分布的均值函数,/>为梯度下降对应的Q值,/>为Q值,/>为当前网络参数,/>为当前时刻状态量、动作量,/>为上一时刻网络参数,为上一时刻状态量、动作量,/>为奖励值,/>为奖励值的衰减;
4.根据权利要求3所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤3,所述相似度评估的流程为:
(1)将通勤路段的不同道路片段离散为等间隔的道路网格,道路网格根据实际道路类型进行划分;
(2)根据在线实时获取的通勤路段动态交通信息,获取驾驶行程中的拥堵起终点,对该拥堵起终点的交通拥堵程度进行归一化,基于欧式距离相似性评估方法进行相似性判断:
其中,为拥堵路段交通拥堵程度与历史交通拥堵程度的相似性,/>为拥堵路段的交通拥堵程度,/>为对应拥堵路段的历史交通拥堵程度,/>为第i个道路网格中的交通拥堵程度,/>为对应第i个道路网格中的历史交通拥堵程度;/>为道路网格的数量;
5.根据权利要求4所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤4,通过迁移学习训练优化通勤路段工作模式选择模型具体为:
(1)基于历史通勤路段构建不同交通拥堵程度下的速度与加速度状态转移矩阵;
(2)根据不同道路网格的拥堵程度,索引对应交通拥堵程度的速度与加速度状态转移矩阵,利用马尔可夫模型对未来道路网格的速度与加速度状态进行预测;
(3)迁移学习中的神经网络结构和步骤2中通勤路段工作模式选择模型的神经网络结构保持一致,将预测得到的速度与加速度、动力学模型计算得到的电池SoC值、动态交通信息作为迁移学习的状态量,将步骤2中生成的通勤路段工作模式选择模型的神经网络参数作为初始参数;迁移学习的输入量、动作量、神经网络超参数以及奖励函数与步骤2的DQN强化学习算法保持一致,训练优化通勤路段工作模式选择模型。
6.根据权利要求5所述的混动传动系统在通勤路段下的学习型能量管理方法,其特征在于,所述步骤5,采用对抗性强化学习进行短时域工作模式预测的流程为:
(1)定义两个神经网络,分别作为工作模式生成器G和判别器D,用以生成样本和评估样本;生成器的状态量为当前车辆速度、加速度、车辆当前所处位置的交通拥堵程度,动作量为短预测时域内的工作模式序列m1,专家样本为对应路段的历史车速曲线中的对应时段工作模式序列m2;
(3)通过生成器G预测符合实际通勤路段同行条件的工作模式序列,确定目标工作模式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206439.9A CN116070783B (zh) | 2023-03-07 | 2023-03-07 | 一种混动传动系统在通勤路段下的学习型能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206439.9A CN116070783B (zh) | 2023-03-07 | 2023-03-07 | 一种混动传动系统在通勤路段下的学习型能量管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116070783A CN116070783A (zh) | 2023-05-05 |
CN116070783B true CN116070783B (zh) | 2023-05-30 |
Family
ID=86175040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310206439.9A Active CN116070783B (zh) | 2023-03-07 | 2023-03-07 | 一种混动传动系统在通勤路段下的学习型能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116070783B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116862097A (zh) * | 2023-06-08 | 2023-10-10 | 深圳市蕾奥规划设计咨询股份有限公司 | 一种信息确定方法及设备 |
CN117698688B (zh) * | 2024-02-06 | 2024-04-09 | 北京航空航天大学 | 一种基于短时车速预测的混动传动系统模式智能切换方法 |
CN117708999B (zh) * | 2024-02-06 | 2024-04-09 | 北京航空航天大学 | 一种面向场景的混动汽车能量管理策略评价方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020060478A1 (en) * | 2018-09-18 | 2020-03-26 | Sixan Pte Ltd | System and method for training virtual traffic agents |
CN111731303A (zh) * | 2020-07-09 | 2020-10-02 | 重庆大学 | 一种基于深度强化学习a3c算法的hev能量管理方法 |
CN113436443A (zh) * | 2021-03-29 | 2021-09-24 | 东南大学 | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 |
CN113835421A (zh) * | 2020-06-06 | 2021-12-24 | 华为技术有限公司 | 训练驾驶行为决策模型的方法及装置 |
CN113997926A (zh) * | 2021-11-30 | 2022-02-01 | 江苏浩峰汽车附件有限公司 | 基于分层强化学习的并联式混合动力汽车能量管理方法 |
CN115257691A (zh) * | 2022-07-28 | 2022-11-01 | 同济大学 | 一种基于强化学习的混合动力汽车模式切换控制方法 |
-
2023
- 2023-03-07 CN CN202310206439.9A patent/CN116070783B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020060478A1 (en) * | 2018-09-18 | 2020-03-26 | Sixan Pte Ltd | System and method for training virtual traffic agents |
CN113835421A (zh) * | 2020-06-06 | 2021-12-24 | 华为技术有限公司 | 训练驾驶行为决策模型的方法及装置 |
CN111731303A (zh) * | 2020-07-09 | 2020-10-02 | 重庆大学 | 一种基于深度强化学习a3c算法的hev能量管理方法 |
CN113436443A (zh) * | 2021-03-29 | 2021-09-24 | 东南大学 | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 |
CN113997926A (zh) * | 2021-11-30 | 2022-02-01 | 江苏浩峰汽车附件有限公司 | 基于分层强化学习的并联式混合动力汽车能量管理方法 |
CN115257691A (zh) * | 2022-07-28 | 2022-11-01 | 同济大学 | 一种基于强化学习的混合动力汽车模式切换控制方法 |
Non-Patent Citations (1)
Title |
---|
Practical application of energy management strategy for hybrid electric vehicles based on intelligent and connected technologies: Development stages, challenges, and future trends;Peng Dong 等;《Renewable and Sustainable Energy Reviews》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116070783A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116070783B (zh) | 一种混动传动系统在通勤路段下的学习型能量管理方法 | |
CN110775065B (zh) | 一种基于工况识别的混合动力汽车电池寿命预测方法 | |
WO2021103625A1 (zh) | 一种基于前车与自车互动的短期车速工况实时预测方法 | |
CN110936949B (zh) | 基于行驶工况的能量控制方法、设备、存储介质及装置 | |
CN109733378B (zh) | 一种线下优化线上预测的转矩分配方法 | |
CN111267831A (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
CN111619545B (zh) | 基于交通信息的混合动力汽车能量管理方法 | |
CN112668799A (zh) | 基于行驶大数据的phev的智能能量管理方法和存储介质 | |
CN111923897B (zh) | 一种插电式混合动力汽车能量智能管理方法 | |
CN112339756B (zh) | 一种基于强化学习的新能源汽车红绿灯路口能量回收优化速度规划算法 | |
CN113554337B (zh) | 融合交通信息的插电式混动汽车能量管理策略构建方法 | |
CN112249002A (zh) | 一种基于td3的启发式串并联混合动力能量管理方法 | |
CN115071505A (zh) | 燃料电池汽车分层规划方法、系统、装置及存储介质 | |
CN114103924A (zh) | 一种混合动力车辆能量管理控制方法及装置 | |
CN115805840A (zh) | 一种增程式电动装载机能耗控制方法及系统 | |
CN113479186A (zh) | 一种混合动力汽车能量管理策略优化方法 | |
CN115534929A (zh) | 基于多元信息融合的插电式混合动力汽车能量管理方法 | |
CN115107733A (zh) | 一种混合动力汽车的能量管理方法及系统 | |
CN113135113B (zh) | 一种全局soc规划方法及装置 | |
CN116522498B (zh) | 增程式电动车能耗和排放协同优化方法和增程式电动车控制方法 | |
Zhang et al. | An optimal vehicle speed planning algorithm for regenerative braking at traffic lights intersections based on reinforcement learning | |
CN113246958B (zh) | 基于td3多目标hev能量管理方法及系统 | |
CN113276829B (zh) | 一种基于工况预测的车辆行驶节能优化变权重方法 | |
CN114872711A (zh) | 基于智能网联车辆的驾驶规划方法、系统、装置及介质 | |
CN112440974B (zh) | 基于分布式深度确定性策略梯度的hev能量管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |