CN117131606A - 一种可跨运动维度迁移的混合动力履带车辆能量管理方法 - Google Patents
一种可跨运动维度迁移的混合动力履带车辆能量管理方法 Download PDFInfo
- Publication number
- CN117131606A CN117131606A CN202311344723.9A CN202311344723A CN117131606A CN 117131606 A CN117131606 A CN 117131606A CN 202311344723 A CN202311344723 A CN 202311344723A CN 117131606 A CN117131606 A CN 117131606A
- Authority
- CN
- China
- Prior art keywords
- representing
- vehicle
- retraining
- environment
- energy management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 40
- 230000002787 reinforcement Effects 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000009194 climbing Effects 0.000 claims abstract description 15
- 239000000446 fuel Substances 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000001133 acceleration Effects 0.000 claims description 18
- 230000009975 flexible effect Effects 0.000 claims description 18
- 210000002569 neuron Anatomy 0.000 claims description 17
- 230000014509 gene expression Effects 0.000 claims description 15
- 239000003795 chemical substances by application Substances 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 9
- 238000012423 maintenance Methods 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013526 transfer learning Methods 0.000 abstract description 5
- 238000013508 migration Methods 0.000 abstract description 4
- 230000005012 migration Effects 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W20/00—Control systems specially adapted for hybrid vehicles
- B60W20/10—Controlling the power contribution of each of the prime movers to meet required power demand
- B60W20/15—Control strategies specially adapted for achieving a particular effect
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0037—Mathematical models of vehicle sub-units
- B60W2050/0039—Mathematical models of vehicle sub-units of the propulsion unit
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2300/00—Indexing codes relating to the type of vehicle
- B60W2300/44—Tracked vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/62—Hybrid vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Geometry (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Aviation & Aerospace Engineering (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Hybrid Electric Vehicles (AREA)
Abstract
本发明提供了一种可跨运动维度迁移的混合动力履带车辆能量管理方法,其采用了目前能量管理技术中较为先进的深度强化学习算法SAC,并在此基础上和迁移学习相结合来构建新型可迁移能量管理策略,能够实现良好的燃料经济性与稳定的电池荷电状态之间的兼顾平衡,具有良好的应用前景。该方法通过将基于深度强化学习的能量管理策略从单一直线行驶迁移到包含直线行驶、转向和爬坡的三维运动中,克服了现有技术普遍只能在相同运动维度间开展的缺陷。利用经验回放池实现经验样本迁移,本发明能够有效提升深度迁移强化学习的效果,也可为其他车型混合动力车辆开发可跨运动维度迁移的能量管理提供了一个典型有效的参考。
Description
技术领域
本发明属于混合动力车辆能量管理技术领域,具体涉及一种可跨运动维度迁移的混合动力履带车辆能量管理方法。
背景技术
对于混合动力履带车辆来说,由于其相比常规混动车辆的用车环境大多更加复杂,负载需求功率也更高,因而在此类车辆的能量管理中存在诸多难题。目前,在一些常规混动车辆的能量管理现有技术中,深度强化学习算法被较广泛地采用。然而,利用深度强化学习开发能量管理策略是一项耗时且费力的任务,因为算法中的智能体需要通过与环境进行不断地交互来探索得到理想的策略。当遇到新的能量管理任务时,往往需要重新开发能量管理策略,这也导致基于深度强化学习算法的能量管理策略较难推广应用在用车环境复杂多变的混动履带车辆上。在深度强化学习的基础上结合迁移学习虽有助于加速能量管理策略的开发,但现有深度迁移强化学习通常只能在一维直线运动中进行能量管理策略的迁移,对同时涉及直线驾驶、转向和爬坡的全地形多维运动尚不具有较好的解决手段。因此,目前亟需一种新的能量管理方法,既能拓展深度迁移强化学习的应用空间,实现混合动力履带车辆可跨运动维度迁移的能量管理,也能实现高效节能的控制目标。
发明内容
有鉴于此,针对本领域中存在的技术问题,本发明提供了一种可跨运动维度迁移的混合动力履带车辆能量管理方法,具体包括以下步骤:
步骤一、基于串联式混合动力履带式车辆构型和动力系统参数,搭建整车动力总成仿真模型;该整车动力总成仿真模型由发动机-发电机组模型、动力电池模型、驱动电机模型和包含直线行驶、转向和爬坡的三维驾驶工况的整车功率需求模型;
设计面向整车能量管理的深度强化学习SAC算法,包括:将整车能量管理问题的状态转化为动力系统运行情况和车辆运动状态,并基于车辆速度、加速度、荷电状态SOC和发动机转速定义车辆只进行直线行驶时的系统状态空间,并在此基础上增加道路坡度、横摆角速度和横摆角加速度,定义车辆进行包含直线行驶、转向和爬坡的三维驾驶工况下的系统状态空间;考虑燃油消耗、SOC维持和发动机转速变化定义奖励函数,以及相应的系统约束条件;
以及设置由一个策略网络、四个柔性网络和一个经验回放池组成的深度强化学习算法结构;
步骤二、从真实混合动力履带车辆的历史驾驶循环中提取收集包含高速行驶、匀速行驶和频繁变速等的直线行驶工况数据,构建一维直线行驶工况数据库并作为SAC算法的预训练环境;在每个训练回合从预训练环境中随机选择一个直线驾驶循环对算法智能体进行预训练,过程中算法智能体根据实时系统状态st选择相应动作at、获得奖励rt、得到下一个系统状态st+1,并将获得的每个时刻的经验样本[st,at,rt,st+1]存入经验回放池;直到算法稳定收敛预训练结束;
步骤三、保存预训练后的除输出层以外的神经网络结构和经验回放池,结合与道路坡度、横摆角速度和横摆角加速度对应的随机神经元网络参数,对用于再训练环境中的神经网络参数初始化;
步骤四、从真实混合动力履带车辆的历史驾驶循环中提取收集包含直线行驶、转向和爬坡的三维驾驶循环工况数据,构建三维行驶工况数据库并作为再训练环境;对经步骤三初始化后的算法智能体进行再训练,待算法稳定收敛再训练结束,最终获得目标能量管理策略。
进一步地,步骤一所建立的整车动力总成仿真模型中,所述发动机-发电机组模型具体采用基于发动机和驱动电机台架测试数据建立的查表模型;动力电池模型采用内阻模型;发动机-发电机组与动力电池之间选择:由发动机-发电机组产生交流电并通过交流-直流(AC/DC)变换器全波整流变为直流电,然后直接连接到直流母线,与电池组实现功率耦合的配合工作方式;整车功率需求模型具体采用以下形式:
其中,Pd表示混合动力履带车辆整车需求功率,Plon表示纵向需求功率,Plat表示横向需求功率,m表示车辆重力,g表示重力加速度,f表示滚动阻力系数,θ表示道路坡度,CD表示空气阻力系数,A表示迎风面积,v表示车辆速度(单位:m/s),表示车辆加速度,Mr表示转向阻力矩,w表示横摆角速度。
进一步地,步骤一中定义车辆只进行直线行驶时的系统状态空间具体形式为:
定义车辆进行包含直线行驶、转向和爬坡的三维驾驶工况下的系统状态空间具体形式为:
其中,SOC表示动力电池的荷电状态,ωg表示发电机的转速,表示车辆横摆角加速度;能量管理问题的动作变量为发动机节气门开度thr,取值范围是[0,1];
定义奖励函数的表达式如下:
其中,R表示t时刻的奖励函数,由r1、r2和r3三项奖励组成,α1代表燃油消耗权重因子,α2代表电池SOC维持权重因子,α3代表发动机转速变化限制权重因子;表示发动机的燃油消耗率,SOC0表示初始时刻的SOC,ωe表示发动机的转速,Δωe表示发动机的转速变化,Δωmax表示发动机最大转速变化,当发动机转速变化的绝对值大于Δωmax时,r3=α3,当发动机转速变化的绝对值小于Δωmax时,r3=0;
系统的约束条件具体包括:
其中,Te表示发动机扭矩,Tg表示发电机扭矩,ωm表示驱动电机转速,Tm表示驱动电机扭矩,Ig表示发电机输出电流,Ib表示动力电池组输出电流,下标max和min分别表示各变量的最大值和最小值。
进一步地,在深度强化学习算法神经网络结构中,四个柔性网络具体包括两个柔性Q网络和两个目标柔性Q网络/>其网络参数分别为θi和θ′i;策略网络πφ的网络参数为φ;
最优策略的表达式如下:
其中,arg max·表示使函数取到最大值的变量值,是数学期望,γt是折扣因子,r(st,at)是在时间步t的状态st和动作at下的奖励,/>表示策略π的熵,α是温度因子;
柔性动作价值函数Qsoft(st,at)的表达式如下:
柔性价值网络、策略网络和温度因子的损失函数L的表达式分别如下:
其中,表示动作价值函数的估计,πφ(at|st)表示根据随机性策略πφ并在状态st时执行动作at的概率,at+1~πφ(·|st)表示at+1服从分布πφ(·|st),z(st)是对分布进行归一化的配分函数,/>是目标熵;
参数θi、θ′i、φ和α的更新方式分别如下:
其中,λQ表示价值网络的学习率,τ为软更新因子,λφ为策略网络的学习率,λα表示温度因子的学习率,表示求损失函数L对下标变量的梯度。
进一步地,步骤三中再训练环境的输入层神经元包含了与预训练环境的输入层一致的神经元以及不一致的输入层神经元/>在初始化再训练环境的神经网络时,具体是利用在预训练环境中得到的输入层神经元的网络参数,初始化再训练环境中的输入层神经元/>的网络参数;随机初始化与再训练环境中不一致的输入层神经元/>的网络参数;随机初始化再训练环境中输出层的网络参数;利用在预训练环境中训练得到的网络参数,初始化再训练环境中其余各层的神经网络参数。
进一步地,在对算法智能体的再训练开始之前,先将通过预训练得到的经验回放池中的全部样本填充至再训练环境中的经验回放池中;在填充时须执行以下数据预处理:
在预训练环境经验样本的状态量st中,新增三个状态量元素i1,i2,i3于元素前,保证和再训练环境中经验样本的状态量元素个数一致,使数据处理后的经验样本的状态量表达式为/>其中,i1,i2,i3均为随机数。
上述本发明所提供的可跨运动维度迁移的混合动力履带车辆能量管理方法,与现有技术相比至少能够提供以下有益效果:
(1)本发明采用了目前能量管理技术中较为先进的深度强化学习算法SAC,并在此基础上和迁移学习相结合来构建新型可迁移能量管理策略,能够实现良好的燃料经济性与稳定的电池荷电状态之间的兼顾平衡,具有良好的应用前景;
(2)本发明通过将基于深度强化学习的能量管理策略从单一直线行驶迁移到包含直线行驶、转向和爬坡的三维运动中,克服了现有技术普遍只能在相同运动维度间开展的缺陷;
(3)本发明利用经验回放池实现经验样本迁移,能够有效提升深度迁移强化学习的效果,也可为其他车型混合动力车辆开发可跨运动维度迁移的能量管理提供了一个典型有效的参考。
附图说明
图1是本发明所提供方法的整体流程图;
图2是基于神经网络的迁移学习流程图;
图3是可跨运动维度迁移的混合动力履带车辆能量管理方法的总体架构图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的可跨运动维度迁移的混合动力履带车辆能量管理方法,如图1所示,具体包括以下步骤:
步骤一、基于串联式混合动力履带式车辆构型和动力系统参数,搭建整车动力总成仿真模型;该整车动力总成仿真模型由发动机-发电机组模型、动力电池模型、驱动电机模型和包含直线行驶、转向和爬坡的三维驾驶工况的整车功率需求模型;
设计面向整车能量管理的深度强化学习SAC算法,包括:将整车能量管理问题的状态转化为动力系统运行情况和车辆运动状态,并基于车辆速度、加速度、荷电状态SOC和发动机转速定义车辆只进行直线行驶时的系统状态空间,并在此基础上增加道路坡度、横摆角速度和横摆角加速度,定义车辆进行包含直线行驶、转向和爬坡的三维驾驶工况下的系统状态空间;考虑燃油消耗、SOC维持和发动机转速变化定义奖励函数,以及相应的系统约束条件;
以及设置由一个策略网络、四个柔性网络和一个经验回放池组成的深度强化学习算法结构;
步骤二、从真实混合动力履带车辆的历史驾驶循环中提取收集包含高速行驶、匀速行驶和频繁变速等的直线行驶工况数据,构建一维直线行驶工况数据库并作为SAC算法的预训练环境;在每个训练回合从预训练环境中随机选择一个直线驾驶循环对算法智能体进行预训练,过程中算法智能体根据实时系统状态st选择相应动作at、获得奖励rt、得到下一个系统状态st+1,并将获得的每个时刻的经验样本[st,at,rt,st+1]存入经验回放池;直到算法稳定收敛预训练结束;
步骤三、保存预训练后的除输出层以外的神经网络结构和经验回放池,结合与道路坡度、横摆角速度和横摆角加速度对应的随机神经元网络参数,对用于再训练环境中的神经网络参数初始化;
步骤四、从真实混合动力履带车辆的历史驾驶循环中提取收集包含直线行驶、转向和爬坡的三维驾驶循环工况数据,构建三维行驶工况数据库并作为再训练环境;对经步骤三初始化后的算法智能体进行再训练,待算法稳定收敛再训练结束,最终获得目标能量管理策略。
在本发明的一个优选实施方中,步骤一所建立的整车动力总成仿真模型中,所述发动机-发电机组模型具体采用基于发动机和驱动电机台架测试数据建立的查表模型;动力电池模型采用内阻模型;发动机-发电机组与动力电池之间选择:由发动机-发电机组产生交流电并通过交流-直流(AC/DC)变换器全波整流变为直流电,然后直接连接到直流母线,与电池组实现功率耦合的配合工作方式;整车功率需求模型具体采用以下形式:
其中,Pd表示混合动力履带车辆整车需求功率,Plon表示纵向需求功率,Plat表示横向需求功率,m表示车辆重力,g表示重力加速度,f表示滚动阻力系数,θ表示道路坡度,CD表示空气阻力系数,A表示迎风面积,v表示车辆速度(单位:m/s),表示车辆加速度,Mr表示转向阻力矩,w表示横摆角速度。
在本发明的一个优选实施方中,步骤一中定义车辆只进行直线行驶时的系统状态空间具体形式为:
定义车辆进行包含直线行驶、转向和爬坡的三维驾驶工况下的系统状态空间具体形式为:
其中,SOC表示动力电池的荷电状态,ωg表示发电机的转速,表示车辆横摆角加速度;能量管理问题的动作变量为发动机节气门开度thr,取值范围是[0,1];
定义奖励函数的表达式如下:
其中,R表示t时刻的奖励函数,由r1、r2和r3三项奖励组成,α1代表燃油消耗权重因子,α2代表电池SOC维持权重因子,α3代表发动机转速变化限制权重因子;表示发动机的燃油消耗率,SOC0表示初始时刻的SOC,ωe表示发动机的转速,Δωe表示发动机的转速变化,Δωmax表示发动机最大转速变化,当发动机转速变化的绝对值大于Δωmax时,r3=α3,当发动机转速变化的绝对值小于Δωmax时,r3=0;
系统的约束条件具体包括:
其中,Te表示发动机扭矩,Tg表示发电机扭矩,ωm表示驱动电机转速,Tm表示驱动电机扭矩,Ig表示发电机输出电流,Ib表示动力电池组输出电流,下标max和min分别表示各变量的最大值和最小值。
在本发明的一个优选实施方中,在深度强化学习算法神经网络结构中,四个柔性网络具体包括两个柔性Q网络和两个目标柔性Q网络/>其网络参数分别为θi和θ′i;策略网络πφ的网络参数为φ;
最优策略的表达式如下:
其中,arg max·表示使函数取到最大值的变量值,是数学期望,γt是折扣因子,r(st,at)是在时间步t的状态st和动作at下的奖励,/>表示策略π的熵,α是温度因子;
柔性动作价值函数Qsoft(st,at)的表达式如下:
柔性价值网络、策略网络和温度因子的损失函数L的表达式分别如下:
其中,表示动作价值函数的估计,πφ(at|st)表示根据随机性策略πφ并在状态st时执行动作at的概率,at+1~πφ(·|st)表示at+1服从分布πφ(·|st),z(st)是对分布进行归一化的配分函数,/>是目标熵;
参数θi、θ′i、φ和α的更新方式分别如下:
其中,λQ表示价值网络的学习率,τ为软更新因子,λφ为策略网络的学习率,λα表示温度因子的学习率,表示求损失函数L对下标变量的梯度。
在本发明的一个优选实施方中,步骤三中再训练环境的输入层神经元包含了与预训练环境的输入层一致的神经元以及不一致的输入层神经元/>在初始化再训练环境的神经网络时,具体是利用在预训练环境中得到的输入层神经元的网络参数,初始化再训练环境中的输入层神经元/>的网络参数;随机初始化与再训练环境中不一致的输入层神经元/>的网络参数;随机初始化再训练环境中输出层的网络参数;利用在预训练环境中训练得到的网络参数,初始化再训练环境中其余各层的神经网络参数。
在本发明的一个优选实施方中,在对算法智能体的再训练开始之前,先将通过预训练得到的经验回放池中的全部样本填充至再训练环境中的经验回放池中;在填充时须执行以下数据预处理:
在预训练环境经验样本的状态量st中,新增三个状态量元素i1,i2,i3于元素前,保证和再训练环境中经验样本的状态量元素个数一致,使数据处理后的经验样本的状态量表达式为/>其中,i1,i2,i3均为随机数。
在基于本发明的实例中,基于神经网络的迁移学习可选流程如图2所示;融合深度神经网络的混合动力履带车辆功率分配的可选总体架构如图3所示。
应理解,本发明实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种可跨运动维度迁移的混合动力履带车辆能量管理方法,其特征在于:具体包括以下步骤:
步骤一、基于串联式混合动力履带式车辆构型和动力系统参数,搭建整车动力总成仿真模型;该整车动力总成仿真模型由发动机-发电机组模型、动力电池模型、驱动电机模型和包含直线行驶、转向和爬坡的三维驾驶工况的整车功率需求模型;
设计面向整车能量管理的深度强化学习SAC算法,包括:将整车能量管理问题的状态转化为动力系统运行情况和车辆运动状态,并基于车辆速度、加速度、荷电状态SOC和发动机转速定义车辆只进行直线行驶时的系统状态空间,并在此基础上增加道路坡度、横摆角速度和横摆角加速度,定义车辆进行包含直线行驶、转向和爬坡的三维驾驶工况下的系统状态空间;考虑燃油消耗、SOC维持和发动机转速变化定义奖励函数,以及相应的系统约束条件;
以及设置由一个策略网络、四个柔性网络和一个经验回放池组成的深度强化学习算法结构;
步骤二、从真实混合动力履带车辆的历史驾驶循环中提取收集包含高速行驶、匀速行驶和频繁变速的直线行驶工况数据,构建一维直线行驶工况数据库并作为SAC算法的预训练环境;在每个训练回合从预训练环境中随机选择一个直线驾驶循环对算法智能体进行预训练,过程中算法智能体根据实时系统状态st选择相应动作at、获得奖励rt、得到下一个系统状态st+1,并将获得的每个时刻的经验样本[st,at,rt,st+1]存入经验回放池;直到算法稳定收敛预训练结束;
步骤三、保存预训练后的除输出层以外的神经网络结构和经验回放池,结合与道路坡度、横摆角速度和横摆角加速度对应的随机神经元网络参数,对用于再训练环境中的神经网络参数初始化;
步骤四、从真实混合动力履带车辆的历史驾驶循环中提取收集包含直线行驶、转向和爬坡的三维驾驶循环工况数据,构建三维行驶工况数据库并作为再训练环境;对经步骤三初始化后的算法智能体进行再训练,待算法稳定收敛再训练结束,最终获得目标能量管理策略。
2.如权利要求1所述的方法,其特征在于:步骤一所建立的整车动力总成仿真模型中,所述发动机-发电机组模型具体采用基于发动机和驱动电机台架测试数据建立的查表模型;动力电池模型采用内阻模型;发动机-发电机组与动力电池之间选择:由发动机-发电机组产生交流电并通过交流-直流变换器全波整流变为直流电,然后直接连接到直流母线,与电池组实现功率耦合的配合工作方式;整车功率需求模型具体采用以下形式:
其中,Pd表示混合动力履带车辆整车需求功率,Plon表示纵向需求功率,Plat表示横向需求功率,m表示车辆重力,g表示重力加速度,f表示滚动阻力系数,θ表示道路坡度,CD表示空气阻力系数,A表示迎风面积,v表示车辆速度,表示车辆加速度,Mr表示转向阻力矩,w表示横摆角速度。
3.如权利要求2所述的方法,其特征在于:步骤一中定义车辆只进行直线行驶时的系统状态空间具体形式为:
定义车辆进行包含直线行驶、转向和爬坡的三维驾驶工况下的系统状态空间具体形式为:
其中,SOC表示动力电池的荷电状态,ωg表示发电机的转速,表示车辆横摆角加速度;能量管理问题的动作变量为发动机节气门开度thr,取值范围是[0,1];
定义奖励函数的表达式如下:
其中,R表示t时刻的奖励函数,由r1、r2和r3三项奖励组成,α1代表燃油消耗权重因子,α2代表电池SOC维持权重因子,α3代表发动机转速变化限制权重因子;表示发动机的燃油消耗率,SOC0表示初始时刻的SOC,ωe表示发动机的转速,Δωe表示发动机的转速变化,Δωmax表示发动机最大转速变化,当发动机转速变化的绝对值大于Δωmax时,r3=α3,当发动机转速变化的绝对值小于Δωmax时,r3=0;
系统的约束条件具体包括:
其中,Te表示发动机扭矩,Tg表示发电机扭矩,ωm表示驱动电机转速,Tm表示驱动电机扭矩,Ig表示发电机输出电流,Ib表示动力电池组输出电流,下标max和min分别表示各变量的最大值和最小值。
4.如权利要求3所述的方法,其特征在于:在深度强化学习算法神经网络结构中,四个柔性网络具体包括两个柔性Q网络和两个目标柔性Q网络/>其网络参数分别为θi和θ′i;策略网络πφ的网络参数为φ;
最优策略的表达式如下:
其中,argmax·表示使函数取到最大值的变量值,是数学期望,γt是折扣因子,r(st,at)是在时间步t的状态st和动作at下的奖励,/>表示策略π的熵,α是温度因子;
柔性动作价值函数Qsoft(st,at)的表达式如下:
柔性价值网络、策略网络和温度因子的损失函数L的表达式分别如下:
其中,表示动作价值函数的估计,πφ(at|st)表示根据随机性策略πφ并在状态st时执行动作at的概率,at+1~πφ(·|st)表示at+1服从分布πφ(·|st),Z(st)是对分布进行归一化的配分函数,/>是目标熵;
参数θi、θ′i、φ和α的更新方式分别如下:
其中,λQ表示价值网络的学习率,τ为软更新因子,λφ为策略网络的学习率,λα表示温度因子的学习率,表示求损失函数L对下标变量的梯度。
5.如权利要求4所述的方法,其特征在于:步骤三中再训练环境的输入层神经元包含了与预训练环境的输入层一致的神经元以及不一致的输入层神经元/>在初始化再训练环境的神经网络时,具体是利用在预训练环境中得到的输入层神经元的网络参数,初始化再训练环境中的输入层神经元/>的网络参数;随机初始化与再训练环境中不一致的输入层神经元/>的网络参数;随机初始化再训练环境中输出层的网络参数;利用在预训练环境中训练得到的网络参数,初始化再训练环境中其余各层的神经网络参数。
6.如权利要求5所述的方法,其特征在于:在对算法智能体的再训练开始之前,先将通过预训练得到的经验回放池中的全部样本填充至再训练环境中的经验回放池中;在填充时须执行以下数据预处理:
在预训练环境经验样本的状态量st中,新增三个状态量元素i1,i2,i3于元素v,SOC,ωg前,保证和再训练环境中经验样本的状态量元素个数一致,使数据处理后的经验样本的状态量表达式为/>其中,i1,i2,i3均为随机数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311344723.9A CN117131606A (zh) | 2023-10-17 | 2023-10-17 | 一种可跨运动维度迁移的混合动力履带车辆能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311344723.9A CN117131606A (zh) | 2023-10-17 | 2023-10-17 | 一种可跨运动维度迁移的混合动力履带车辆能量管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117131606A true CN117131606A (zh) | 2023-11-28 |
Family
ID=88861266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311344723.9A Pending CN117131606A (zh) | 2023-10-17 | 2023-10-17 | 一种可跨运动维度迁移的混合动力履带车辆能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131606A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117578679A (zh) * | 2024-01-15 | 2024-02-20 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN117962863A (zh) * | 2024-03-28 | 2024-05-03 | 无锡泓阳电动科技有限公司 | 一种混合驱动的能源转换管理方法及系统 |
CN117984983A (zh) * | 2024-04-03 | 2024-05-07 | 中汽研汽车检验中心(天津)有限公司 | 混合动力车能量实时控制方法、车辆控制器以及混合动力车 |
-
2023
- 2023-10-17 CN CN202311344723.9A patent/CN117131606A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117578679A (zh) * | 2024-01-15 | 2024-02-20 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN117578679B (zh) * | 2024-01-15 | 2024-03-22 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN117962863A (zh) * | 2024-03-28 | 2024-05-03 | 无锡泓阳电动科技有限公司 | 一种混合驱动的能源转换管理方法及系统 |
CN117984983A (zh) * | 2024-04-03 | 2024-05-07 | 中汽研汽车检验中心(天津)有限公司 | 混合动力车能量实时控制方法、车辆控制器以及混合动力车 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111731303B (zh) | 一种基于深度强化学习a3c算法的hev能量管理方法 | |
CN110341690B (zh) | 一种基于确定性策略梯度学习的phev能量管理方法 | |
Lian et al. | Cross-type transfer for deep reinforcement learning based hybrid electric vehicle energy management | |
Wu et al. | Continuous reinforcement learning of energy management with deep Q network for a power split hybrid electric bus | |
CN117131606A (zh) | 一种可跨运动维度迁移的混合动力履带车辆能量管理方法 | |
CN112287463B (zh) | 一种基于深度强化学习算法的燃料电池汽车能量管理方法 | |
CN112116156B (zh) | 基于深度强化学习的混动列车的能量管理方法及系统 | |
Du et al. | Heuristic energy management strategy of hybrid electric vehicle based on deep reinforcement learning with accelerated gradient optimization | |
CN102729987B (zh) | 一种混合动力公交车能量管理方法 | |
CN107748498A (zh) | 一种基于模型预测控制的混合动力船舶的能量管理方法 | |
Guo et al. | Transfer deep reinforcement learning-enabled energy management strategy for hybrid tracked vehicle | |
CN109703548B (zh) | 一种基于混合动力的汽车动力分配方法 | |
CN113554337B (zh) | 融合交通信息的插电式混动汽车能量管理策略构建方法 | |
He et al. | Deep Q-learning based energy management strategy for a series hybrid electric tracked vehicle and its adaptability validation | |
CN115793445B (zh) | 一种基于多智能体深度强化学习的混合动力汽车控制方法 | |
Hou et al. | An all-in-one design method for plug-in hybrid electric buses considering uncertain factor of driving cycles | |
Li et al. | A real-time energy management strategy combining rule-based control and ECMS with optimization equivalent factor for HEVs | |
CN112765723A (zh) | 好奇心驱动的混合动力系统深度强化学习能量管理方法 | |
CN115805840A (zh) | 一种增程式电动装载机能耗控制方法及系统 | |
CN114969982A (zh) | 一种基于策略迁移的燃料电池汽车深度强化学习能量管理方法 | |
CN110077389A (zh) | 一种插电式混合动力电动汽车能量管理方法 | |
Zhou et al. | Multi-objective real-time energy management for series–parallel hybrid electric vehicles considering battery life | |
CN116811836A (zh) | 基于双延迟q学习的插电式混合动力汽车能量管理方法 | |
CN106347373A (zh) | 一种基于电池荷电状态预测的动态规划方法 | |
Huang et al. | A novel hierarchical predictive energy management strategy for plug-in hybrid electric bus combined with deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |