CN115150787A

CN115150787A - 基于深度强化学习的能量管理策略包的部署系统及方法

Info

Publication number: CN115150787A
Application number: CN202210789591.XA
Authority: CN
Inventors: 连仁宗; 伍元凯; 韩若岩; 王勇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-10-04

Abstract

本发明公开了一种基于深度强化学习的能量管理策略包的部署系统及方法，属于混合动力汽车、氢燃料电池汽车等多种新能源汽车的能量管理技术领域，包括：云平台、车端，所述云平台与所述车端通过车联网进行数据传输；所述车端包括：能量管理系统、车载中央网关和动力系统，所述能量管理系统与所述车载中央网关以及所述动力系统通信连接；通过云平台、车联网技术、车端和HiL平台的协同配合，实现深度强化学习能量管理策略包的快速训练、开发、验证和部署，加快了能量管理策略的更新迭代；车联网技术能够实现能量管理策略包和数据的点对点传输，使得车端的能量管理策略模型易于更新替换。

Description

基于深度强化学习的能量管理策略包的部署系统及方法

技术领域

本发明涉及混合动力汽车、氢燃料电池汽车等新能源汽车能量管理技术领域，特别涉及一种基于深度强化学习的能量管理策略包的部署系统及方法。

背景技术

持续存在的环境问题和周期性的能源危机是汽车工业关注的主要问题，混合动力汽车、氢燃料电池汽车等新能源汽车作为各国新能源的战略规划，是节能与新能源汽车的重要组成部分，与此同时，能量管理系统作为上述新能源汽车的核心技术，决定了整车能耗经济性和整车动力性。

针对混合动力汽车的能量管理策略主要可以分成以下三类：

基于规则的控制策略是实现混合动力汽车实时控制最常用的方法，由于简单性和实时性的特点，在工业界占有主导地位。控制规则通常基于启发法或者工程师的经验，旨在使发动机在高效区间运行，以及通过再生制动实现能量回收。基于规则的方法包括基于确定性规则的方法和基于模糊规则的方法。

为了减少对专业工程师直觉和经验的依赖，引入了基于优化方法的能量管理策略，其通过最小化总能耗或瞬时能耗来获得更好的燃油经济性。基于优化的方法可以成全局优化的方法和实时的优化方法。

基于强化学习的能量管理策略通过马尔可夫决策过程对问题进行建模，智能体通过与环境的不断交互，从而获得策略的最优解。该方法对不同的行驶工况数据具有较强的表征能力和适应能力，而且实时性强。

前面提到的三种现有技术存在诸多缺点：

1.基于规则式的能量管理策略存在的问题：针对特定的工况集进行设计，其有限的最优性和对人类专业知识的需求阻碍了其进一步的应用，其通常不能保证实现最优的功率分配和电池荷电状态稳定之间的平衡；通常只适用于特定类型的混合动力汽车，因此，汽车工程师需要根据每一种混合动力汽车的特性重新开发相应的能量管理策略。但由于混合动力汽车的复杂性，为每种类型的混合动力汽车开发一种高效的能量管理策略是一项费时费力的工作。

2.基于优化方法的能量管理策略存在的问题：基于优化的方法算法的复杂度高，需要耗费大量的计算时间，且依赖于未来工况信息等先验知识和参数的调节，实车部署较为困难。

3.基于强化学习的能量管理策略存在的问题：该方法需要大量、多源的行驶数据，因此策略的训练、生成过程需要耗费巨大的计算资源且容易出错，仅仅依赖于现有的车载微型处理设备远远不能满足大数据驱动模型训练和部署的需求。

综上所述，现有的能量管理策略仅仅针对特定的车型和有限的行驶工况，部分算法的实时性也未能得到保证，且完成实车部署后一般不再更新，缺少一套闭环的能量管理策略更新和部署方案。再者，基于深度强化学习的能量管理策略训练对计算性能要求较高，无法在车端完成训练，因此需要高性能的云端计算服务。

发明内容

本发明的目的在于克服现有技术中所存在的传统能量管理策略优化性和适应性差、针对多车型的能量管理策略重新开发的繁琐、大数据驱动模型训练和部署计算负载过大以及实车部署成本高，阻塞网络、减慢数据传输、降低系统可靠性的不足，提供一种基于深度强化学习的能量管理策略包的部署系统及方法。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于深度强化学习的能量管理策略包的部署系统，包括：云平台、车端，所述云平台与所述车端通过车联网进行数据传输；

所述云平台用于基于深度强化学习和迁移学习的多车型能量管理策略云端服务，运用上传的行驶工况数据对现有的能量管理策略模型进行训练，得到稳定的能量管理策略模型；然后基于所述多车型能量管理策略云端服务中的能量管理策略模型存储服务对能量管理策略包进行迭代更新，并基于所述多车型能量管理策略云端服务中的能量管理策略模型验证服务将更新后的能量管理策略包发送到HiL（环平台）平台进行验证；最后将验证后的能量管理策略包部署到所述车端的能量管理系统中；

所述车端包括：能量管理系统、车载中央网关和动力系统（被控对象，及动力、传动系统），所述能量管理系统与所述车载中央网关和所述动力系统通信连接，所述车载中央网关用于接收采集的行驶工况数据并通过车联网上传到云端，以及将所述云平台验证后的能量管理策略包发送到所述能量管理系统中进行更新部署，并运用更新后的能量管理策略进行决策，从而实现动力系统的能耗最优。

采用上述技术方案，通过云平台、车联网技术、车端和HiL平台的协同配合，实现深度强化学习能量管理策略包的快速训练、开发、验证和部署，加快能量管理策略的更新迭代，车联网技术能够实现能量管理策略包和数据的点对点传输，车端的能量管理策略模型易于更新迭代。

作为本发明的优选方案，所述车载中央网关与所述云平台和所述能量管理系统通信连接，所述能量管理系统与所述动力系统的各个部件通信连接。

采用上述技术方案，通过车载中央网关与云平台建立高速率的移动通信，实现深度强化学习能量管理策略模型的载入和车辆运行数据的上传，同时车载中央网关与能量管理系统之间实现了大数据的载入与传输，能量管理系统与各个动力系统部件实现了各部件的控制以及数据的通信。

作为本发明的优选方案，所述行驶工况数据包括车辆自身的状态和交通环境的信息，所述自身的状态包括：行驶速度、加速度、电池荷电状态，所述交通环境的信息包括：前车状态信息、道路坡度、红绿灯正时信息。

另一方面，提供了一种根据上述任一所述的基于深度强化学习的能量管理策略包的部署系统的部署方法，包括以下步骤：

S1：在云平台基于深度强化学习和迁移学习的多车型能量管理策略云端服务，运用上传的行驶工况数据对现有的能量管理策略模型进行训练，得到稳定的能量管理策略模型；

S2：基于能量管理策略模型存储服务对能量管理策略包进行迭代更新，并基于能量管理策略模型验证服务将更新后的能量管理策略包发送到所述HiL平台进行验证；

S3：通过车联网技术将所述云平台验证后的所述能量管理策略包部署到车端，完成车端的能量管理策略包的部署。

采用上述技术方案，通过深度迁移学习的方法，实现了跨车型的能量管理策略的快速开发，从而避免了不同车型能量管理策略从头开发的繁琐过程，同时，基于HiL平台的深度强化学习能量管理策略模型的验证方法，提升了深度强化学习能量管理策略包的验证、部署的效率，基于构建的车端架构，实现了深度强化学习的能量管理策略包的实车部署和更新迭代。

作为本发明的优选方案，所述步骤S1包括：对现有的能量管理策略模型，基于Actor-Critic算法，并利用所述行驶工况数据来训练所述能量管理策略模型，通过不断地训练迭代，待深度强化学习中的平均奖励值和电池荷电状态收敛至稳定的状态，得到稳定的能量管理策略模型。

作为本发明的优选方案，所述步骤S1还包括：将所述稳定的能量管理策略模型迁移到其他车型的能量管理策略模型进行开发。

作为本发明的优选方案，所述开发的过程包括：利用在源域中预先训练好的神经网络参数，并利用它初始化目标域中相应的神经网络，针对不同车型的能量管理策略，在相同神经网络结构的基础上，从所述源域中提取出筛选后的所述能量管理策略模型的神经网络参数，将其作为目标域车型的能量管理策略模型的初始化参数，来开发所述目标域车型的能量管理策略模型。

作为本发明的优选方案，所述S2中：提取所述稳定的能量管理策略模型中的参数，根据提取的参数和所述稳定的能量管理策略模型编写成可编译的能量管理策略模型，对所述可编译的能量管理策略模型的状态输入做相应的归一化处理，在所述HiL平台将所述可编译的能量管理策略模型写入能量管理系统中，采用标准的行驶工况或采集的行驶工况数据，对所述可编译的能量管理策略模型进行测试验证，并与仿真结果进行比对，得到比对结果。

作为本发明的优选方案，所述步骤S3中，所述车联网技术的数据传输包括：所述能量管理策略包从所述能量管理策略云端传输到所述车端，所述行驶工况数据从所述车端传输到所述能量管理策略云端。

作为本发明的优选方案，所述步骤S3包括：在驾驶员特定的工作指令下，经过所述云平台训练和更新后的所述能量管理策略包通过所述车载中央网关烧录嵌入到所述能量管理系统中，完成所述车端的所述能量管理策略包的部署。

与现有技术相比，本发明的有益效果在于：通过云平台、车联网技术、车端和HiL平台的协同配合，实现深度强化学习能量管理策略包的快速训练、开发、验证和部署，加快了能量管理策略的更新迭代，车联网技术能够实现能量管理策略包和数据的点对点传输，车端的能量管理策略模型易于更新替换；通过深度迁移学习的方法，实现了跨车型的能量管理策略的快速开发，从而避免了不同车型能量管理策略从头开发的繁琐过程，同时，基于HiL平台的深度强化学习能量管理策略模型的验证方法，提升了深度强化学习能量管理策略包的验证、部署的效率，基于构建的车端架构，实现了深度强化学习的能量管理策略包的实车部署和更新迭代。

附图说明

图1为本发明实施例1所述的一种基于深度强化学习的能量管理策略包的部署系统的结构框图；

图2为本发明实施例1所述的一种基于深度强化学习的能量管理策略包的部署系统车端的结构框图；

图3为本发明实施例2所述的一种基于深度强化学习的能量管理策略包的部署方法的流程图；

图4为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的基于DDPG算法的能量管理策略图；

图5为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的Actor网络和Critic网络的结构图；

图6为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的多车型能量管理策略迁移学习框架图；

图7为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的硬件在环平台结构框图；

图8为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的基于车联网技术的数据传输流程图；

图9为本发明实施例3所述的一种基于深度强化学习的能量管理策略包的部署方法的车端能量管理策略部署框架图；

图10为本发明实施例4所述的一种基于深度强化学习的能量管理策略包的部署方法的Prius车型在CTUDC工况下的SoC曲线图；

图11为本发明实施例4所述的一种基于深度强化学习的能量管理策略包的部署方法的插电式功率分流混合动力客车在CTUDC工况下的SoC曲线图；

图12为本发明实施例4所述的一种基于深度强化学习的能量管理策略包的部署方法的插电式串联混合动力车型在行驶工况1下硬件在环验证与仿真SoC曲线一致性的对比图；

图13为本发明实施例4所述的一种基于深度强化学习的能量管理策略包的部署方法的插电式串联混合动力车型在行驶工况1下硬件在环验证策略在控制器中的实时性图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

一种基于深度强化学习的能量管理策略包的部署系统，如图1所示，包括：云平台、车端，所述云平台与所述车端通过车联网进行数据传输；

所述云平台用于基于深度强化学习和迁移学习的多车型能量管理策略云端服务，运用上传的行驶工况数据对现有的能量管理策略模型进行训练，得到稳定的能量管理策略模型；然后基于所述多车型能量管理策略云端服务中的能量管理策略模型存储服务对能量管理策略包进行迭代更新，并基于所述多车型能量管理策略云端服务中的能量管理策略模型验证服务将更新后的能量管理策略包发送到HiL平台进行验证；最后将验证后的能量管理策略包部署到所述车端的能量管理系统中；

所述车端包括：能量管理系统、车载中央网关和动力系统，所述能量管理系统、所述车载中央网关和所述动力系统通信连接，所述车载中央网关不仅能够用于接收采集的行驶工况数据并通过车联网上传到云端，还能将所述云平台验证后的能量管理策略包发送到所述能量管理系统中进行更新部署，并运用更新后的能量管理策略进行决策，从而实现动力系统的能耗最优。

如图2所示，所述车载中央网关与所述云平台和所述能量管理系统通信连接，所述能量管理系统与所述动力系统的各个部件通信连接。

具体的，所述车载中央网关与所述云平台建立高速率的移动通信，所述车载中央网关与所述能量管理系统采用高速以太通讯，所述能量管理系统以及各个所述动力系统部件之间兼容CAN（控制器局域网络）通讯。

所述行驶工况数据包括车辆自身的状态和交通环境的信息，所述自身的状态包括：行驶速度、加速度、电池荷电状态，所述交通环境的信息包括：前车状态信息、道路坡度、红绿灯正时信息。

采用上述技术方案，通过云平台、车联网技术和车端的协同配合，实现深度强化学习能量管理策略包的快速训练、开发、验证和部署，加快了能量管理策略的更新迭代，车联网技术能够实现能量管理策略包和数据的点对点传输，车端的能量管理策略模型易于更新替换；通过车载中央网关与云平台建立高速率的移动通信，实现深度强化学习能量管理策略模型的载入和车辆运行数据的上传，同时车载中央网关与能量管理系统之间实现了大数据的载入与传输，能量管理系统与各个动力系统部件实现了各部件的控制以及数据的通讯。

实施例2

一种根据实施例1所述的基于深度强化学习的能量管理策略包的部署系统的部署方法，如图3所示，包括以下步骤：

所述步骤S1包括：对现有的能量管理策略模型，基于Actor-Critic算法，并利用所述行驶工况数据来训练所述能量管理策略模型，通过不断地训练迭代，待深度强化学习中的平均奖励值和电池荷电状态收敛至稳定的状态，得到稳定的能量管理策略模型。

所述步骤S1还包括：将所述稳定的能量管理策略模型迁移到其他车型的能量管理策略模型进行开发。

所述开发的过程包括：利用在源域中预先训练好的神经网络参数，并利用它初始化目标域中相应的神经网络，针对不同车型的能量管理策略，在相同神经网络结构的基础上，从所述源域中提取出筛选后的所述能量管理策略模型的神经网络参数，将其作为目标域车型的能量管理策略模型的初始化参数，来开发所述目标域车型的能量管理策略模型。

所述S2中：提取所述稳定的能量管理策略模型中的参数，根据提取的参数和所述稳定的能量管理策略模型编写成可编译的能量管理策略模型，对所述可编译的能量管理策略模型的状态输入做相应的归一化处理，在所述HiL平台将所述可编译的能量管理策略模型写入能量管理系统中，采用标准的行驶工况或采集的行驶工况数据，对所述可编译的能量管理策略模型进行测试验证，并与仿真结果进行比对，得到比对结果。

所述步骤S3中，所述车联网技术的数据传输包括：所述能量管理策略包从所述能量管理策略云端传输到所述车端，所述行驶工况数据从所述车端传输到所述能量管理策略云端。

所述步骤S3包括：在驾驶员特定的工作指令下，经过所述云平台训练和更新后的所述能量管理策略包通过所述车载中央网关烧录嵌入到所述能量管理系统中，完成所述车端的所述能量管理策略包的部署。

实施例3

本实施例为实施例2的具体实施例，包括：

能量管理策略的训练基于具有连续状态和动作空间的深度确定性策略梯度(DDPG, Deep deterministic policy gradient)算法，是最具代表性的 Actor-Critic方法之一，他是一种离线策略、无模型的算法，在整个训练过程中通过对记忆池中的经验进行采样来学习最优策略，利用车端上传到云平台的大量、多源的行驶工况数据，来训练表征能力强的深度神经网络，如图4和图5所示，基于Actor-Critic网络的深度强化学习包含Actor网络和Critic网络，通过随机梯度下降的优化方法以及反向传播算法更新Actor-Critic网络的参数：

其中，

表示神经网络的权重，

表示神经网络的偏置，state表示高维、多源的状态向量，action表示输出的动作向量，

表示每层的输出，

表示Q值，激活函数采用ReLu以及Sigmoid。

能量管理策略包的筛选和存储：通过不断地训练迭代，待深度强化学习中的平均奖励值和电池荷电状态收敛至稳定的状态：

其中

表示平均奖励，

和

分别表示电池荷电状态预先设定的上下边界。根据收敛性的判断，从达到稳定状态的神经网络参数中挑选50个参数集合，然后在标准循环工况下，如新欧洲驾驶循环工况NEDC、中国典型城市工况CTUDC等工况下，对筛选的50个参数集合的燃油经济性进行测试，从中选择出燃油经济性最优的参数包，并将最优的参数包进行存储。

基于神经网络的深度迁移学习与深度强化学习算法相结合，实现能量管理策略在源域和目标域之间的迁移，基本原理是重用在源域中预先训练好的部分Actor-Critic网络的参数，并利用它初始化目标域中相应的Actor-Critic网络，如图6所示，深度学习方法可以将数据转换为内部表征，其中通过神经网络提取的通用特征可以在相似领域中重新利用。

针对不同车型的能量管理策略，在相同神经网络结构的基础上，从源域车型中提取筛选后的策略模型的部分神经网络参数，例如：

将其作为目标域（其他混合动力车型）能量管理策略神经网络的初始化参数，再通过微调的方法来实现目标域车型能量管理策略的快速开发，从而缩短不同混合动力汽车能量管理策略的开发时间。

能量管理策略模型验证包括：能量管理策略中神经网络参数的提取，模型网络的重建以及基于硬件在HiL平台的模型验证，如图7所示。

首先，基于深度强化学习的能量管理策略的提取，即Actor-Critic网络中 Actor网络的参数的提取，其中Actor网络的参数包括：权重[w₁，w₂，…，w_i]和偏置 [b₁，b₂，…，b_i]。再者，根据提取的参数和上述的Actor-Critic网络的架构，在 MATLAB中将提取的参数和相应的激活函数编写成可编译的能量管理策略模型，从而完成模型网络的重建。其中，所述能量管理策略模型的状态输入需要做相应的归一化处理。最后，基于硬件在环平台，将所述能量管理策略模型写入到微型控制器当中，采用标准的行驶工况或者采集的行驶工况数据，如NEDC、 CTUDC等，在HiL平台上进行测试验证；并与计算机仿真的结果进行对比，以验证策略的可靠性、实时性和优化性。

其中，深度强化学习能量管理策略的验证平台基于Dspace、Matlab和CANoe的联合验证方法。首先在 MATLAB/Simulink 中搭建车辆模型以及上述提取出的控制策略模型，并根据仿真节点的需求对各部分进行封装创建子系统。然后利用 Dspace 软件将 Matlab/Simulink 搭建的控制策略下载到实时控制器 MicroAutoBox 中，同时通过 CANoe 软件将Simulink 搭建的车辆模型生成实时仿真内核，下载至实时仿真机 VT 系统中，从而建立控制系统的测试环境。最后，利用真实 CAN 总线连接实时控制器和实时仿真机，利用专业CAN 总线仿真软件 CANoe 对总线环境实现监测和评价，完成硬件在环试验平台的开发与搭建。

基于车联网技术的数据传输包括：能量管理策略包从云端到车端的传输和车辆行驶工况数据从车端到云端的上传，如图8所示。

云服务平台通过蜂窝网通信接口，将更新后的能量管理策略包通过蜂窝网络传输到车端的远程信息处理器（T-Box），然后T-Box通过车载以太网将策略包发送到相应的能量管理控制单元上。

T-Box通过以太网可以读取车辆总线的数据，包括车辆的静态数据和动态数据，获取数据后，通过蜂窝网通信接口使用 SIM 卡将采集到的信息按既定的传输协议打包发送给云端服务器。信息包含车辆自身的状态和外部感知设备采集的交通环境的信息，用以能量管理策略包的训练、更新。

基于车辆域集中式电子电气架构，在新能源汽车动力系统中，能量管理策略车载服务主要包括：深度强化学习能量管理模型的载入和应用服务、车辆运行数据的上传服务。车端能量管理策略部署整体框架如图9所示。

首先车载中央网关与云平台建立高速率的移动通信，实现深度强化学习能量管理模型的载入和车辆运行数据的上传。另外，在车端内部，车载中央网关与能量管理系统采用高速以太通讯，实现大数据的载入与传输。能量管理系统和各个动力系统部件间兼容CAN通讯，实现各部件的控制以及数据通讯。

在驾驶员特定工作指令下，经过云端训练及更新后的能量管理策略包通过中央网关烧录嵌入到能量管理系统中。在车辆行驶时，能量管理策略包在能量管理系统中实时应用，完成对车内各个动力系统部件的能量控制与管理。同时能量管理系统将车辆运行中动力系统中各部件信息状态实时上报至中央网关，用于中央网关与云平台的数据传送以及进一步的迭代更新。

实施例4

本实施例为实施例3的具体实施例，包括：

基于深度强化学习和迁移学习的跨车型能量管理策略的开发服务，实现能量管理策略在源域和目标域之间的迁移，从而缩短不同混合动力汽车能量管理策略的开发时间。如图10和图11所示的源域车型Prius与目标域车型插电式功率分流混合动力客车的SoC曲线，显示了不同车型能量管理策略之间的差异性。跨车型的能量管理策略迁移实验结果如表1所示，表明采用了该框架的训练服务能够有效缩短目标车型能量管理策略65%的训练时间。

表1 迁移不同层数的训练时间对比

能量管理策略模型验证包括：能量管理策略中神经网络参数的提取，模型网络的重建以及基于硬件在HiL平台的模型验证。HiL平台验证的实验结果主要展示了HiL平台与仿真实验结果的一致性如图12和表2所示，以及能量管理策略在控制器当中的实时性，如图13和表3所示。

表2 HiL平台与仿真平台的燃油经济性

表3 能量管理策略在HiL平台上的计算时间

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的能量管理策略包的部署系统，其特征在于，包括：云平台、车端，所述云平台与所述车端通过车联网进行数据传输；

所述云平台用于基于深度强化学习和迁移学习的多车型能量管理策略云端服务，运用所述车端上传的行驶工况数据对现有的能量管理策略模型进行训练，得到稳定的能量管理策略模型；然后基于所述多车型能量管理策略云端服务中的能量管理策略模型存储服务对能量管理策略包进行迭代更新，并基于所述多车型能量管理策略云端服务中的能量管理策略模型验证服务将更新后的能量管理策略包发送到HiL平台进行验证；最后将验证后的能量管理策略包部署到所述车端的能量管理系统中；

所述车端包括：能量管理系统、车载中央网关和动力系统，所述能量管理系统、所述车载中央网关和所述动力系统通信连接，所述车载中央网关用于接收采集到的行驶工况数据并通过车联网上传到云端，以及将所述云平台验证后的能量管理策略包发送到所述能量管理系统中进行更新部署，并运用更新后的能量管理策略进行决策。

2.根据权利要求1所述的一种基于深度强化学习的能量管理策略包的部署系统，其特征在于，所述车载中央网关与所述云平台和所述能量管理系统通信连接，所述能量管理系统与所述动力系统的各个部件通信连接。

3.根据权利要求1所述的一种基于深度强化学习的能量管理策略包的部署系统，其特征在于，所述行驶工况数据包括车辆自身的状态和交通环境的信息，所述自身的状态包括：行驶速度、加速度、电池荷电状态，所述交通环境的信息包括：前车状态信息、道路坡度、红绿灯正时信息。

4.一种根据权利要求1-3任一所述的基于深度强化学习的能量管理策略包的部署系统的部署方法，其特征在于，包括以下步骤：

S1：在所述云平台基于深度强化学习和迁移学习的多车型能量管理策略云端服务，运用所述车载上传的行驶工况数据对现有的能量管理策略模型进行训练，得到稳定的能量管理策略模型；

5.根据权利要求4所述的一种基于深度强化学习的能量管理策略包的部署方法，其特征在于，所述步骤S1包括：对现有的能量管理策略模型，基于Actor-Critic算法，并利用所述行驶工况数据来训练所述能量管理策略模型，通过不断地训练迭代，待深度强化学习中的平均奖励值和电池荷电状态收敛至稳定的状态，得到稳定的能量管理策略模型。

6.根据权利要求5所述的一种基于深度强化学习的能量管理策略包的部署方法，其特征在于，所述步骤S1还包括：将所述稳定的能量管理策略模型迁移到其他车型的能量管理策略模型进行开发。

7.根据权利要求6所述的一种基于深度强化学习的能量管理策略包的部署方法，其特征在于，所述开发的过程包括：利用在源域中预先训练好的神经网络参数，并利用它初始化目标域中相应的神经网络，针对不同车型的能量管理策略，在相同神经网络结构的基础上，从所述源域中提取出筛选后的所述能量管理策略模型的神经网络参数，将其作为目标域车型的能量管理策略模型的初始化参数，来开发所述目标域车型的能量管理策略模型。

8.根据权利要求4所述的一种基于深度强化学习的能量管理策略包的部署方法，其特征在于，所述S2中：提取所述稳定的能量管理策略模型中的参数，根据提取的参数和所述稳定的能量管理策略模型编写成可编译的能量管理策略模型，对所述可编译的能量管理策略模型的状态输入做相应的归一化处理，在所述HiL平台将所述可编译的能量管理策略模型写入能量管理系统中，采用标准的行驶工况或采集的行驶工况数据，对所述可编译的能量管理策略模型进行测试验证，并与仿真结果进行比对，得到比对结果。

9.根据权利要求4所述的一种基于深度强化学习的能量管理策略包的部署方法，其特征在于，所述步骤S3中，所述车联网技术的数据传输包括：所述能量管理策略包从所述能量管理策略云端传输到所述车端，所述行驶工况数据从所述车端传输到所述能量管理策略云端。

10.根据权利要求4所述的一种基于深度强化学习的能量管理策略包的部署方法，其特征在于，所述步骤S3包括：在驾驶员特定的工作指令下，经过所述云平台训练和更新后的所述能量管理策略包通过所述车载中央网关烧录嵌入到所述能量管理系统中，完成所述车端的所述能量管理策略包的部署。