CN115150787A - 基于深度强化学习的能量管理策略包的部署系统及方法 - Google Patents
基于深度强化学习的能量管理策略包的部署系统及方法 Download PDFInfo
- Publication number
- CN115150787A CN115150787A CN202210789591.XA CN202210789591A CN115150787A CN 115150787 A CN115150787 A CN 115150787A CN 202210789591 A CN202210789591 A CN 202210789591A CN 115150787 A CN115150787 A CN 115150787A
- Authority
- CN
- China
- Prior art keywords
- energy management
- management strategy
- vehicle
- package
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012795 verification Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000011161 development Methods 0.000 claims abstract description 20
- 230000005540 biological transmission Effects 0.000 claims abstract description 19
- 238000005516 engineering process Methods 0.000 claims abstract description 17
- 238000004891 communication Methods 0.000 claims abstract description 14
- 230000006855 networking Effects 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000004088 simulation Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013526 transfer learning Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 239000000446 fuel Substances 0.000 abstract description 7
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 abstract description 3
- 229910052739 hydrogen Inorganic materials 0.000 abstract description 3
- 239000001257 hydrogen Substances 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 209
- 238000010586 diagram Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 9
- 238000013508 migration Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000005265 energy consumption Methods 0.000 description 4
- 238000010295 mobile communication Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010420 art technique Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0813—Configuration setting characterised by the conditions triggering a change of settings
- H04L41/0816—Configuration setting characterised by the conditions triggering a change of settings the condition being an adaptation, e.g. in response to network events
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0866—Checking the configuration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
Abstract
本发明公开了一种基于深度强化学习的能量管理策略包的部署系统及方法,属于混合动力汽车、氢燃料电池汽车等多种新能源汽车的能量管理技术领域,包括:云平台、车端,所述云平台与所述车端通过车联网进行数据传输;所述车端包括:能量管理系统、车载中央网关和动力系统,所述能量管理系统与所述车载中央网关以及所述动力系统通信连接;通过云平台、车联网技术、车端和HiL平台的协同配合,实现深度强化学习能量管理策略包的快速训练、开发、验证和部署,加快了能量管理策略的更新迭代;车联网技术能够实现能量管理策略包和数据的点对点传输,使得车端的能量管理策略模型易于更新替换。
Description
技术领域
本发明涉及混合动力汽车、氢燃料电池汽车等新能源汽车能量管理技术领域,特别涉及一种基于深度强化学习的能量管理策略包的部署系统及方法。
背景技术
持续存在的环境问题和周期性的能源危机是汽车工业关注的主要问题,混合动力汽车、氢燃料电池汽车等新能源汽车作为各国新能源的战略规划,是节能与新能源汽车的重要组成部分,与此同时,能量管理系统作为上述新能源汽车的核心技术,决定了整车能耗经济性和整车动力性。
针对混合动力汽车的能量管理策略主要可以分成以下三类:
基于规则的控制策略是实现混合动力汽车实时控制最常用的方法,由于简单性和实时性的特点,在工业界占有主导地位。控制规则通常基于启发法或者工程师的经验,旨在使发动机在高效区间运行,以及通过再生制动实现能量回收。基于规则的方法包括基于确定性规则的方法和基于模糊规则的方法。
为了减少对专业工程师直觉和经验的依赖,引入了基于优化方法的能量管理策略,其通过最小化总能耗或瞬时能耗来获得更好的燃油经济性。基于优化的方法可以成全局优化的方法和实时的优化方法。
基于强化学习的能量管理策略通过马尔可夫决策过程对问题进行建模,智能体通过与环境的不断交互,从而获得策略的最优解。该方法对不同的行驶工况数据具有较强的表征能力和适应能力,而且实时性强。
前面提到的三种现有技术存在诸多缺点:
1.基于规则式的能量管理策略存在的问题:针对特定的工况集进行设计,其有限的最优性和对人类专业知识的需求阻碍了其进一步的应用,其通常不能保证实现最优的功率分配和电池荷电状态稳定之间的平衡;通常只适用于特定类型的混合动力汽车,因此,汽车工程师需要根据每一种混合动力汽车的特性重新开发相应的能量管理策略。但由于混合动力汽车的复杂性,为每种类型的混合动力汽车开发一种高效的能量管理策略是一项费时费力的工作。
2.基于优化方法的能量管理策略存在的问题:基于优化的方法算法的复杂度高,需要耗费大量的计算时间,且依赖于未来工况信息等先验知识和参数的调节,实车部署较为困难。
3.基于强化学习的能量管理策略存在的问题:该方法需要大量、多源的行驶数据,因此策略的训练、生成过程需要耗费巨大的计算资源且容易出错,仅仅依赖于现有的车载微型处理设备远远不能满足大数据驱动模型训练和部署的需求。
综上所述,现有的能量管理策略仅仅针对特定的车型和有限的行驶工况,部分算法的实时性也未能得到保证,且完成实车部署后一般不再更新,缺少一套闭环的能量管理策略更新和部署方案。再者,基于深度强化学习的能量管理策略训练对计算性能要求较高,无法在车端完成训练,因此需要高性能的云端计算服务。
发明内容
本发明的目的在于克服现有技术中所存在的传统能量管理策略优化性和适应性差、针对多车型的能量管理策略重新开发的繁琐、大数据驱动模型训练和部署计算负载过大以及实车部署成本高,阻塞网络、减慢数据传输、降低系统可靠性的不足,提供一种基于深度强化学习的能量管理策略包的部署系统及方法。
为了实现上述发明目的,本发明提供了以下技术方案:
一种基于深度强化学习的能量管理策略包的部署系统,包括:云平台、车端,所述云平台与所述车端通过车联网进行数据传输;
所述云平台用于基于深度强化学习和迁移学习的多车型能量管理策略云端服务,运用上传的行驶工况数据对现有的能量管理策略模型进行训练,得到稳定的能量管理策略模型;然后基于所述多车型能量管理策略云端服务中的能量管理策略模型存储服务对能量管理策略包进行迭代更新,并基于所述多车型能量管理策略云端服务中的能量管理策略模型验证服务将更新后的能量管理策略包发送到HiL(环平台)平台进行验证;最后将验证后的能量管理策略包部署到所述车端的能量管理系统中;
所述车端包括:能量管理系统、车载中央网关和动力系统(被控对象,及动力、传动系统),所述能量管理系统与所述车载中央网关和所述动力系统通信连接,所述车载中央网关用于接收采集的行驶工况数据并通过车联网上传到云端,以及将所述云平台验证后的能量管理策略包发送到所述能量管理系统中进行更新部署,并运用更新后的能量管理策略进行决策,从而实现动力系统的能耗最优。
采用上述技术方案,通过云平台、车联网技术、车端和HiL平台的协同配合,实现深度强化学习能量管理策略包的快速训练、开发、验证和部署,加快能量管理策略的更新迭代,车联网技术能够实现能量管理策略包和数据的点对点传输,车端的能量管理策略模型易于更新迭代。
作为本发明的优选方案,所述车载中央网关与所述云平台和所述能量管理系统通信连接,所述能量管理系统与所述动力系统的各个部件通信连接。
采用上述技术方案,通过车载中央网关与云平台建立高速率的移动通信,实现深度强化学习能量管理策略模型的载入和车辆运行数据的上传,同时车载中央网关与能量管理系统之间实现了大数据的载入与传输,能量管理系统与各个动力系统部件实现了各部件的控制以及数据的通信。
作为本发明的优选方案,所述行驶工况数据包括车辆自身的状态和交通环境的信息,所述自身的状态包括:行驶速度、加速度、电池荷电状态,所述交通环境的信息包括:前车状态信息、道路坡度、红绿灯正时信息。
另一方面,提供了一种根据上述任一所述的基于深度强化学习的能量管理策略包的部署系统的部署方法,包括以下步骤:
S1:在云平台基于深度强化学习和迁移学习的多车型能量管理策略云端服务,运用上传的行驶工况数据对现有的能量管理策略模型进行训练,得到稳定的能量管理策略模型;
S2:基于能量管理策略模型存储服务对能量管理策略包进行迭代更新,并基于能量管理策略模型验证服务将更新后的能量管理策略包发送到所述HiL平台进行验证;
S3:通过车联网技术将所述云平台验证后的所述能量管理策略包部署到车端,完成车端的能量管理策略包的部署。
采用上述技术方案,通过深度迁移学习的方法,实现了跨车型的能量管理策略的快速开发,从而避免了不同车型能量管理策略从头开发的繁琐过程,同时,基于HiL平台的深度强化学习能量管理策略模型的验证方法,提升了深度强化学习能量管理策略包的验证、部署的效率,基于构建的车端架构,实现了深度强化学习的能量管理策略包的实车部署和更新迭代。
作为本发明的优选方案,所述步骤S1包括:对现有的能量管理策略模型,基于Actor-Critic算法,并利用所述行驶工况数据来训练所述能量管理策略模型,通过不断地训练迭代,待深度强化学习中的平均奖励值和电池荷电状态收敛至稳定的状态,得到稳定的能量管理策略模型。
作为本发明的优选方案,所述步骤S1还包括:将所述稳定的能量管理策略模型迁移到其他车型的能量管理策略模型进行开发。
作为本发明的优选方案,所述开发的过程包括:利用在源域中预先训练好的神经网络参数,并利用它初始化目标域中相应的神经网络,针对不同车型的能量管理策略,在相同神经网络结构的基础上,从所述源域中提取出筛选后的所述能量管理策略模型的神经网络参数,将其作为目标域车型的能量管理策略模型的初始化参数,来开发所述目标域车型的能量管理策略模型。
作为本发明的优选方案,所述S2中:提取所述稳定的能量管理策略模型中的参数,根据提取的参数和所述稳定的能量管理策略模型编写成可编译的能量管理策略模型,对所述可编译的能量管理策略模型的状态输入做相应的归一化处理,在所述HiL平台将所述可编译的能量管理策略模型写入能量管理系统中,采用标准的行驶工况或采集的行驶工况数据,对所述可编译的能量管理策略模型进行测试验证,并与仿真结果进行比对,得到比对结果。
作为本发明的优选方案,所述步骤S3中,所述车联网技术的数据传输包括:所述能量管理策略包从所述能量管理策略云端传输到所述车端,所述行驶工况数据从所述车端传输到所述能量管理策略云端。
作为本发明的优选方案,所述步骤S3包括:在驾驶员特定的工作指令下,经过所述云平台训练和更新后的所述能量管理策略包通过所述车载中央网关烧录嵌入到所述能量管理系统中,完成所述车端的所述能量管理策略包的部署。
与现有技术相比,本发明的有益效果在于:通过云平台、车联网技术、车端和HiL平台的协同配合,实现深度强化学习能量管理策略包的快速训练、开发、验证和部署,加快了能量管理策略的更新迭代,车联网技术能够实现能量管理策略包和数据的点对点传输,车端的能量管理策略模型易于更新替换;通过深度迁移学习的方法,实现了跨车型的能量管理策略的快速开发,从而避免了不同车型能量管理策略从头开发的繁琐过程,同时,基于HiL平台的深度强化学习能量管理策略模型的验证方法,提升了深度强化学习能量管理策略包的验证、部署的效率,基于构建的车端架构,实现了深度强化学习的能量管理策略包的实车部署和更新迭代。
附图说明
图1为本发明实施例1所述的一种基于深度强化学习的能量管理策略包的部署系统的结构框图;
图2为本发明实施例1所述的一种基于深度强化学习的能量管理策略包的部署系统车端的结构框图;
图3为本发明实施例2所述的一种基于深度强化学习的能量管理策略包的部署方法的流程图;
图4为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的基于DDPG算法的能量管理策略图;
图5为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的Actor网络和Critic网络的结构图;
图6为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的多车型能量管理策略迁移学习框架图;
图7为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的硬件在环平台结构框图;
图8为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的基于车联网技术的数据传输流程图;
图9为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的车端能量管理策略部署框架图;
图10为本发明实施例4所述的一种基于深度强化学习的能量管理策略包的部署方法的Prius车型在CTUDC工况下的SoC曲线图;
图11为本发明实施例4所述的一种基于深度强化学习的能量管理策略包的部署方法的插电式功率分流混合动力客车在CTUDC工况下的SoC曲线图;
图12为本发明实施例4所述的一种基于深度强化学习的能量管理策略包的部署方法的插电式串联混合动力车型在行驶工况1下硬件在环验证与仿真SoC曲线一致性的对比图;
图13为本发明实施例4所述的一种基于深度强化学习的能量管理策略包的部署方法的插电式串联混合动力车型在行驶工况1下硬件在环验证策略在控制器中的实时性图。
具体实施方式
下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
一种基于深度强化学习的能量管理策略包的部署系统,如图1所示,包括:云平台、车端,所述云平台与所述车端通过车联网进行数据传输;
所述云平台用于基于深度强化学习和迁移学习的多车型能量管理策略云端服务,运用上传的行驶工况数据对现有的能量管理策略模型进行训练,得到稳定的能量管理策略模型;然后基于所述多车型能量管理策略云端服务中的能量管理策略模型存储服务对能量管理策略包进行迭代更新,并基于所述多车型能量管理策略云端服务中的能量管理策略模型验证服务将更新后的能量管理策略包发送到HiL平台进行验证;最后将验证后的能量管理策略包部署到所述车端的能量管理系统中;
所述车端包括:能量管理系统、车载中央网关和动力系统,所述能量管理系统、所述车载中央网关和所述动力系统通信连接,所述车载中央网关不仅能够用于接收采集的行驶工况数据并通过车联网上传到云端,还能将所述云平台验证后的能量管理策略包发送到所述能量管理系统中进行更新部署,并运用更新后的能量管理策略进行决策,从而实现动力系统的能耗最优。
如图2所示,所述车载中央网关与所述云平台和所述能量管理系统通信连接,所述能量管理系统与所述动力系统的各个部件通信连接。
具体的,所述车载中央网关与所述云平台建立高速率的移动通信,所述车载中央网关与所述能量管理系统采用高速以太通讯,所述能量管理系统以及各个所述动力系统部件之间兼容CAN(控制器局域网络)通讯。
所述行驶工况数据包括车辆自身的状态和交通环境的信息,所述自身的状态包括:行驶速度、加速度、电池荷电状态,所述交通环境的信息包括:前车状态信息、道路坡度、红绿灯正时信息。
采用上述技术方案,通过云平台、车联网技术和车端的协同配合,实现深度强化学习能量管理策略包的快速训练、开发、验证和部署,加快了能量管理策略的更新迭代,车联网技术能够实现能量管理策略包和数据的点对点传输,车端的能量管理策略模型易于更新替换;通过车载中央网关与云平台建立高速率的移动通信,实现深度强化学习能量管理策略模型的载入和车辆运行数据的上传,同时车载中央网关与能量管理系统之间实现了大数据的载入与传输,能量管理系统与各个动力系统部件实现了各部件的控制以及数据的通讯。
实施例2
一种根据实施例1所述的基于深度强化学习的能量管理策略包的部署系统的部署方法,如图3所示,包括以下步骤:
S1:在云平台基于深度强化学习和迁移学习的多车型能量管理策略云端服务,运用上传的行驶工况数据对现有的能量管理策略模型进行训练,得到稳定的能量管理策略模型;
S2:基于能量管理策略模型存储服务对能量管理策略包进行迭代更新,并基于能量管理策略模型验证服务将更新后的能量管理策略包发送到所述HiL平台进行验证;
S3:通过车联网技术将所述云平台验证后的所述能量管理策略包部署到车端,完成车端的能量管理策略包的部署。
所述步骤S1包括:对现有的能量管理策略模型,基于Actor-Critic算法,并利用所述行驶工况数据来训练所述能量管理策略模型,通过不断地训练迭代,待深度强化学习中的平均奖励值和电池荷电状态收敛至稳定的状态,得到稳定的能量管理策略模型。
所述步骤S1还包括:将所述稳定的能量管理策略模型迁移到其他车型的能量管理策略模型进行开发。
所述开发的过程包括:利用在源域中预先训练好的神经网络参数,并利用它初始化目标域中相应的神经网络,针对不同车型的能量管理策略,在相同神经网络结构的基础上,从所述源域中提取出筛选后的所述能量管理策略模型的神经网络参数,将其作为目标域车型的能量管理策略模型的初始化参数,来开发所述目标域车型的能量管理策略模型。
所述S2中:提取所述稳定的能量管理策略模型中的参数,根据提取的参数和所述稳定的能量管理策略模型编写成可编译的能量管理策略模型,对所述可编译的能量管理策略模型的状态输入做相应的归一化处理,在所述HiL平台将所述可编译的能量管理策略模型写入能量管理系统中,采用标准的行驶工况或采集的行驶工况数据,对所述可编译的能量管理策略模型进行测试验证,并与仿真结果进行比对,得到比对结果。
所述步骤S3中,所述车联网技术的数据传输包括:所述能量管理策略包从所述能量管理策略云端传输到所述车端,所述行驶工况数据从所述车端传输到所述能量管理策略云端。
所述步骤S3包括:在驾驶员特定的工作指令下,经过所述云平台训练和更新后的所述能量管理策略包通过所述车载中央网关烧录嵌入到所述能量管理系统中,完成所述车端的所述能量管理策略包的部署。
采用上述技术方案,通过深度迁移学习的方法,实现了跨车型的能量管理策略的快速开发,从而避免了不同车型能量管理策略从头开发的繁琐过程,同时,基于HiL平台的深度强化学习能量管理策略模型的验证方法,提升了深度强化学习能量管理策略包的验证、部署的效率,基于构建的车端架构,实现了深度强化学习的能量管理策略包的实车部署和更新迭代。
实施例3
本实施例为实施例2的具体实施例,包括:
能量管理策略的训练基于具有连续状态和动作空间的深度确定性策略梯度(DDPG, Deep deterministic policy gradient)算法,是最具代表性的 Actor-Critic方法之一,他是一种离线策略、无模型的算法,在整个训练过程中通过对记忆池中的经验进行采样来学习最优策略,利用车端上传到云平台的大量、多源的行驶工况数据,来训练表征能力强的深度神经网络,如图4和图5所示,基于Actor-Critic网络的深度强化学习包含Actor网络和Critic网络,通过随机梯度下降的优化方法以及反向传播算法更新Actor-Critic网络的参数:
能量管理策略包的筛选和存储:通过不断地训练迭代,待深度强化学习中的平均奖励值和电池荷电状态收敛至稳定的状态:
其中 表示平均奖励, 和 分别表示电池荷电状态预先设定的上下边界。根据收敛性的判断,从达到稳定状态的神经网络参数中挑选50个参数集合,然后在标准循环工况下,如新欧洲驾驶循环工况NEDC、中国典型城市工况CTUDC等工况下,对筛选的50个参数集合的燃油经济性进行测试,从中选择出燃油经济性最优的参数包,并将最优的参数包进行存储。
基于神经网络的深度迁移学习与深度强化学习算法相结合,实现能量管理策略在源域和目标域之间的迁移,基本原理是重用在源域中预先训练好的部分Actor-Critic网络的参数,并利用它初始化目标域中相应的Actor-Critic网络,如图6所示,深度学习方法可以将数据转换为内部表征,其中通过神经网络提取的通用特征可以在相似领域中重新利用。
针对不同车型的能量管理策略,在相同神经网络结构的基础上,从源域车型中提取筛选后的策略模型的部分神经网络参数,例如:
将其作为目标域(其他混合动力车型)能量管理策略神经网络的初始化参数,再通过微调的方法来实现目标域车型能量管理策略的快速开发,从而缩短不同混合动力汽车能量管理策略的开发时间。
能量管理策略模型验证包括:能量管理策略中神经网络参数的提取,模型网络的重建以及基于硬件在HiL平台的模型验证,如图7所示。
首先,基于深度强化学习的能量管理策略的提取,即Actor-Critic网络中 Actor网络的参数的提取,其中Actor网络的参数包括:权重[w1,w2,…,wi]和偏置 [b1,b2,…,bi]。再者,根据提取的参数和上述的Actor-Critic网络的架构,在 MATLAB中将提取的参数和相应的激活函数编写成可编译的能量管理策略模型,从而完成模型网络的重建。其中,所述能量管理策略模型的状态输入需要做相应的归一化处理。最后,基于硬件在环平台,将所述能量管理策略模型写入到微型控制器当中,采用标准的行驶工况或者采集的行驶工况数据,如NEDC、 CTUDC等,在HiL平台上进行测试验证;并与计算机仿真的结果进行对比,以验证策略的可靠性、实时性和优化性。
其中,深度强化学习能量管理策略的验证平台基于Dspace、Matlab和CANoe的联合验证方法。首先在 MATLAB/Simulink 中搭建车辆模型以及上述提取出的控制策略模型,并根据仿真节点的需求对各部分进行封装创建子系统。然后利用 Dspace 软件将 Matlab/Simulink 搭建的控制策略下载到实时控制器 MicroAutoBox 中,同时通过 CANoe 软件将Simulink 搭建的车辆模型生成实时仿真内核,下载至实时仿真机 VT 系统中,从而建立控制系统的测试环境。最后,利用真实 CAN 总线连接实时控制器和实时仿真机,利用专业CAN 总线仿真软件 CANoe 对总线环境实现监测和评价,完成硬件在环试验平台的开发与搭建。
基于车联网技术的数据传输包括:能量管理策略包从云端到车端的传输和车辆行驶工况数据从车端到云端的上传,如图8所示。
云服务平台通过蜂窝网通信接口,将更新后的能量管理策略包通过蜂窝网络传输到车端的远程信息处理器(T-Box),然后T-Box通过车载以太网将策略包发送到相应的能量管理控制单元上。
T-Box通过以太网可以读取车辆总线的数据,包括车辆的静态数据和动态数据,获取数据后,通过蜂窝网通信接口使用 SIM 卡将采集到的信息按既定的传输协议打包发送给云端服务器。信息包含车辆自身的状态和外部感知设备采集的交通环境的信息,用以能量管理策略包的训练、更新。
基于车辆域集中式电子电气架构,在新能源汽车动力系统中,能量管理策略车载服务主要包括:深度强化学习能量管理模型的载入和应用服务、车辆运行数据的上传服务。车端能量管理策略部署整体框架如图9所示。
首先车载中央网关与云平台建立高速率的移动通信,实现深度强化学习能量管理模型的载入和车辆运行数据的上传。另外,在车端内部,车载中央网关与能量管理系统采用高速以太通讯,实现大数据的载入与传输。能量管理系统和各个动力系统部件间兼容CAN通讯,实现各部件的控制以及数据通讯。
在驾驶员特定工作指令下,经过云端训练及更新后的能量管理策略包通过中央网关烧录嵌入到能量管理系统中。在车辆行驶时,能量管理策略包在能量管理系统中实时应用,完成对车内各个动力系统部件的能量控制与管理。同时能量管理系统将车辆运行中动力系统中各部件信息状态实时上报至中央网关,用于中央网关与云平台的数据传送以及进一步的迭代更新。
实施例4
本实施例为实施例3的具体实施例,包括:
基于深度强化学习和迁移学习的跨车型能量管理策略的开发服务,实现能量管理策略在源域和目标域之间的迁移,从而缩短不同混合动力汽车能量管理策略的开发时间。如图10和图11所示的源域车型Prius与目标域车型插电式功率分流混合动力客车的SoC曲线,显示了不同车型能量管理策略之间的差异性。跨车型的能量管理策略迁移实验结果如表1所示,表明采用了该框架的训练服务能够有效缩短目标车型能量管理策略65%的训练时间。
表1 迁移不同层数的训练时间对比
能量管理策略模型验证包括:能量管理策略中神经网络参数的提取,模型网络的重建以及基于硬件在HiL平台的模型验证。HiL平台验证的实验结果主要展示了HiL平台与仿真实验结果的一致性如图12和表2所示,以及能量管理策略在控制器当中的实时性,如图13和表3所示。
表2 HiL平台与仿真平台的燃油经济性
表3 能量管理策略在HiL平台上的计算时间
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度强化学习的能量管理策略包的部署系统,其特征在于,包括:云平台、车端,所述云平台与所述车端通过车联网进行数据传输;
所述云平台用于基于深度强化学习和迁移学习的多车型能量管理策略云端服务,运用所述车端上传的行驶工况数据对现有的能量管理策略模型进行训练,得到稳定的能量管理策略模型;然后基于所述多车型能量管理策略云端服务中的能量管理策略模型存储服务对能量管理策略包进行迭代更新,并基于所述多车型能量管理策略云端服务中的能量管理策略模型验证服务将更新后的能量管理策略包发送到HiL平台进行验证;最后将验证后的能量管理策略包部署到所述车端的能量管理系统中;
所述车端包括:能量管理系统、车载中央网关和动力系统,所述能量管理系统、所述车载中央网关和所述动力系统通信连接,所述车载中央网关用于接收采集到的行驶工况数据并通过车联网上传到云端,以及将所述云平台验证后的能量管理策略包发送到所述能量管理系统中进行更新部署,并运用更新后的能量管理策略进行决策。
2.根据权利要求1所述的一种基于深度强化学习的能量管理策略包的部署系统,其特征在于,所述车载中央网关与所述云平台和所述能量管理系统通信连接,所述能量管理系统与所述动力系统的各个部件通信连接。
3.根据权利要求1所述的一种基于深度强化学习的能量管理策略包的部署系统,其特征在于,所述行驶工况数据包括车辆自身的状态和交通环境的信息,所述自身的状态包括:行驶速度、加速度、电池荷电状态,所述交通环境的信息包括:前车状态信息、道路坡度、红绿灯正时信息。
4.一种根据权利要求1-3任一所述的基于深度强化学习的能量管理策略包的部署系统的部署方法,其特征在于,包括以下步骤:
S1:在所述云平台基于深度强化学习和迁移学习的多车型能量管理策略云端服务,运用所述车载上传的行驶工况数据对现有的能量管理策略模型进行训练,得到稳定的能量管理策略模型;
S2:基于能量管理策略模型存储服务对能量管理策略包进行迭代更新,并基于能量管理策略模型验证服务将更新后的能量管理策略包发送到所述HiL平台进行验证;
S3:通过车联网技术将所述云平台验证后的所述能量管理策略包部署到车端,完成车端的能量管理策略包的部署。
5.根据权利要求4所述的一种基于深度强化学习的能量管理策略包的部署方法,其特征在于,所述步骤S1包括:对现有的能量管理策略模型,基于Actor-Critic算法,并利用所述行驶工况数据来训练所述能量管理策略模型,通过不断地训练迭代,待深度强化学习中的平均奖励值和电池荷电状态收敛至稳定的状态,得到稳定的能量管理策略模型。
6.根据权利要求5所述的一种基于深度强化学习的能量管理策略包的部署方法,其特征在于,所述步骤S1还包括:将所述稳定的能量管理策略模型迁移到其他车型的能量管理策略模型进行开发。
7.根据权利要求6所述的一种基于深度强化学习的能量管理策略包的部署方法,其特征在于,所述开发的过程包括:利用在源域中预先训练好的神经网络参数,并利用它初始化目标域中相应的神经网络,针对不同车型的能量管理策略,在相同神经网络结构的基础上,从所述源域中提取出筛选后的所述能量管理策略模型的神经网络参数,将其作为目标域车型的能量管理策略模型的初始化参数,来开发所述目标域车型的能量管理策略模型。
8.根据权利要求4所述的一种基于深度强化学习的能量管理策略包的部署方法,其特征在于,所述S2中:提取所述稳定的能量管理策略模型中的参数,根据提取的参数和所述稳定的能量管理策略模型编写成可编译的能量管理策略模型,对所述可编译的能量管理策略模型的状态输入做相应的归一化处理,在所述HiL平台将所述可编译的能量管理策略模型写入能量管理系统中,采用标准的行驶工况或采集的行驶工况数据,对所述可编译的能量管理策略模型进行测试验证,并与仿真结果进行比对,得到比对结果。
9.根据权利要求4所述的一种基于深度强化学习的能量管理策略包的部署方法,其特征在于,所述步骤S3中,所述车联网技术的数据传输包括:所述能量管理策略包从所述能量管理策略云端传输到所述车端,所述行驶工况数据从所述车端传输到所述能量管理策略云端。
10.根据权利要求4所述的一种基于深度强化学习的能量管理策略包的部署方法,其特征在于,所述步骤S3包括:在驾驶员特定的工作指令下,经过所述云平台训练和更新后的所述能量管理策略包通过所述车载中央网关烧录嵌入到所述能量管理系统中,完成所述车端的所述能量管理策略包的部署。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210789591.XA CN115150787A (zh) | 2022-07-06 | 2022-07-06 | 基于深度强化学习的能量管理策略包的部署系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210789591.XA CN115150787A (zh) | 2022-07-06 | 2022-07-06 | 基于深度强化学习的能量管理策略包的部署系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115150787A true CN115150787A (zh) | 2022-10-04 |
Family
ID=83411506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210789591.XA Pending CN115150787A (zh) | 2022-07-06 | 2022-07-06 | 基于深度强化学习的能量管理策略包的部署系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115150787A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730529A (zh) * | 2022-12-16 | 2023-03-03 | 长安大学 | 基于工况识别的phet能量管理策略生成方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104635715A (zh) * | 2013-11-06 | 2015-05-20 | 上海航天汽车机电股份有限公司 | 一种用于abs/esc的故障自诊断系统及其hil自动化测试系统 |
CN109389174A (zh) * | 2018-10-23 | 2019-02-26 | 四川大学 | 一种人群聚集敏感图像检测方法 |
CN110333730A (zh) * | 2019-08-12 | 2019-10-15 | 安徽江淮汽车集团股份有限公司 | 自动驾驶算法预期功能安全的验证方法、平台及存储介质 |
CN110941202A (zh) * | 2019-12-12 | 2020-03-31 | 中国科学院深圳先进技术研究院 | 一种汽车能量管理策略的验证方法和设备 |
CN112116156A (zh) * | 2020-09-18 | 2020-12-22 | 中南大学 | 基于深度强化学习的混动列车的能量管理方法及系统 |
CN113034210A (zh) * | 2021-04-28 | 2021-06-25 | 重庆大学 | 一种基于数据驱动场景下车辆行驶成本评价方法 |
CN113051667A (zh) * | 2021-03-29 | 2021-06-29 | 东南大学 | 一种混合动力汽车能量管理策略的加速学习方法 |
-
2022
- 2022-07-06 CN CN202210789591.XA patent/CN115150787A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104635715A (zh) * | 2013-11-06 | 2015-05-20 | 上海航天汽车机电股份有限公司 | 一种用于abs/esc的故障自诊断系统及其hil自动化测试系统 |
CN109389174A (zh) * | 2018-10-23 | 2019-02-26 | 四川大学 | 一种人群聚集敏感图像检测方法 |
CN110333730A (zh) * | 2019-08-12 | 2019-10-15 | 安徽江淮汽车集团股份有限公司 | 自动驾驶算法预期功能安全的验证方法、平台及存储介质 |
CN110941202A (zh) * | 2019-12-12 | 2020-03-31 | 中国科学院深圳先进技术研究院 | 一种汽车能量管理策略的验证方法和设备 |
CN112116156A (zh) * | 2020-09-18 | 2020-12-22 | 中南大学 | 基于深度强化学习的混动列车的能量管理方法及系统 |
CN113051667A (zh) * | 2021-03-29 | 2021-06-29 | 东南大学 | 一种混合动力汽车能量管理策略的加速学习方法 |
CN113034210A (zh) * | 2021-04-28 | 2021-06-25 | 重庆大学 | 一种基于数据驱动场景下车辆行驶成本评价方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730529A (zh) * | 2022-12-16 | 2023-03-03 | 长安大学 | 基于工况识别的phet能量管理策略生成方法及系统 |
CN115730529B (zh) * | 2022-12-16 | 2024-02-27 | 长安大学 | 基于工况识别的phet能量管理策略生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107784152A (zh) | 包括多个模拟器的模拟 | |
Liu et al. | Impact, challenges and prospect of software-defined vehicles | |
CN110632857B (zh) | 用于大规模层次化控制系统的控制性能验证方法 | |
CN109740222A (zh) | 一种针对汽车网联化场景的测试装置和系统 | |
CN115495997B (zh) | 一种基于异构多智能体深度强化学习的新能源汽车生态驾驶方法 | |
CN115150787A (zh) | 基于深度强化学习的能量管理策略包的部署系统及方法 | |
Ruan et al. | Real‐Time Energy Management Strategy Based on Driver‐Action‐Impact MPC for Series Hybrid Electric Vehicles | |
WO2021114167A1 (zh) | 一种汽车能量管理策略的验证方法和设备 | |
Shoukat et al. | Application of digital twin technology in the field of autonomous driving test | |
CN113779913B (zh) | 一种面向ai多芯片系统的验证平台结构和测试方法 | |
Sun et al. | Transit-gym: A simulation and evaluation engine for analysis of bus transit systems | |
CN105808805A (zh) | 一种基于混合诊断模型的测试性建模方法 | |
Lin et al. | AER adaptive control strategy via energy prediction for PHEV | |
WO2023092398A1 (zh) | 整车级测试装置、方法以及云管理平台 | |
CN114896802A (zh) | 基于VISSIM和Python的混合自动驾驶交通流仿真方法 | |
Peng et al. | Development for Control Strategy of ISG Hybrid Electric Vehicle Based on Model | |
Xu et al. | A Simulation Study on V2X for Road Traffic Management | |
Biswas et al. | Detailed Implementation of Hardware-In-the-Loop Validation of an Advanced Energy Management Controller for Power-Split HEVs | |
Sivashankar et al. | A modeling environment for production powertrain controller development | |
East | Optimal energy management in electric vehicles: Convex optimization for model predictive control | |
Sagar et al. | Design and development of power management framework for electrical vehicles in smart city grid | |
Taneem et al. | Automation Testing and Validation of Electric Drive System | |
Tong et al. | Design and Verification of an Integrated Multi-task Testing Platform for FCV Powertrain System | |
CN114624525A (zh) | Cbtc自动自测试方法及装置 | |
Bhatti | Model Based Design Framework Development of a Hybrid Supervisory Controller for a P4 Parallel Hybrid Vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |