CN117227700B

CN117227700B - 串联混合动力无人履带车辆的能量管理方法及系统

Info

Publication number: CN117227700B
Application number: CN202311514751.0A
Authority: CN
Inventors: 谭颖琦; 陈慧岩; 龚建伟; 臧政
Original assignee: Beijing University of Technology; Beijing Institute of Technology BIT
Current assignee: Beijing University of Technology; Beijing Institute of Technology BIT
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-06
Anticipated expiration: 2043-11-15
Also published as: CN117227700A

Abstract

本发明公开一种串联混合动力无人履带车辆的能量管理方法及系统，涉及能量管理技术领域，基于串联混合动力无人履带车辆的多目标奖励函数对基于深度确定性策略梯度算法的能量管理控制器进行训练，得到训练好的能量管理控制器，在实际应用时，直接以串联混合动力无人履带车辆的车辆参数为输入，利用训练好的能量管理控制器即可确定串联混合动力无人履带车辆的能量管理策略，从而可在线实时输出能量管理策略，且由于多目标奖励函数的优化目标包括燃油消耗量、电池荷电状态和机组输出功率，故所输出的能量管理策略能够在满足车辆性能前提下最小化燃油消耗，并同时实现电池荷电状态维稳和机组输出功率平衡。

Description

串联混合动力无人履带车辆的能量管理方法及系统

技术领域

本发明涉及能量管理技术领域，特别是涉及一种基于DDPG-HER的串联混合动力无人履带车辆的能量管理方法及系统。

背景技术

串联混合动力无人履带车辆（Series Hybrid Electric Unmanned TrackedVehicle，SHEUTV）因具有高通过性、高机动性、强动力性以及燃油经济性等优势，已成为地面军事战争的重要研究方向，为串联混合动力无人履带车辆设计具有良好越野工况适应性的能量管理策略（Energy Management Strategy，EMS）是改善燃油经济性、远距离静音行驶、扩大作战半径、提高混合动力系统效率等综合性能的关键。由于串联混合动力无人履带车辆的动力系统与轮式车辆的动力系统有着本质的区别，因此需要进行能量管理策略优化，将串联混合动力无人履带车辆的特定动态参数有针对性的纳入设计策略中。目前，基于规则的能量管理策略对于复杂多变的越野工况适应性差，且节油性能达到瓶颈；基于优化的能量管理策略比较依赖于固定标准工况，虽然可获得较好的燃油经济性，但通常无法在线实时应用。

基于此，亟需一种新型的串联混合动力无人履带车辆的能量管理方法及系统。

发明内容

本发明的目的是提供一种串联混合动力无人履带车辆的能量管理方法及系统，可在线实时输出能量管理策略，在满足车辆性能前提下最小化燃油消耗，并同时实现电池荷电状态维稳和机组输出功率平衡。

为实现上述目的，本发明提供了如下方案：

一种串联混合动力无人履带车辆的能量管理方法，所述能量管理方法包括：

构建串联混合动力无人履带车辆的多目标奖励函数；所述多目标奖励函数的优化目标包括燃油消耗量、电池荷电状态和机组输出功率；

基于所述多目标奖励函数对基于深度确定性策略梯度算法的能量管理控制器进行训练，得到训练好的能量管理控制器；

以所述串联混合动力无人履带车辆的车辆参数为输入，利用所述训练好的能量管理控制器确定所述串联混合动力无人履带车辆的能量管理策略；所述车辆参数包括车辆纵向速度、车辆纵向加速度和电池荷电状态；所述能量管理策略包括发动机转矩。

一种串联混合动力无人履带车辆的能量管理系统，所述能量管理系统包括：

函数构建模块，用于构建串联混合动力无人履带车辆的多目标奖励函数；所述多目标奖励函数的优化目标包括燃油消耗量、电池荷电状态和机组输出功率；

训练模块，用于基于所述多目标奖励函数对基于深度确定性策略梯度算法的能量管理控制器进行训练，得到训练好的能量管理控制器；

能量管理模块，用于以所述串联混合动力无人履带车辆的车辆参数为输入，利用所述训练好的能量管理控制器确定所述串联混合动力无人履带车辆的能量管理策略；所述车辆参数包括车辆纵向速度、车辆纵向加速度和电池荷电状态；所述能量管理策略包括发动机转矩。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明用于提供一种串联混合动力无人履带车辆的能量管理方法及系统，基于串联混合动力无人履带车辆的多目标奖励函数对基于深度确定性策略梯度算法的能量管理控制器进行训练，得到训练好的能量管理控制器，在实际应用时，直接以串联混合动力无人履带车辆的车辆参数为输入，利用训练好的能量管理控制器即可确定串联混合动力无人履带车辆的能量管理策略，从而可在线实时输出能量管理策略，且由于多目标奖励函数的优化目标包括燃油消耗量、电池荷电状态和机组输出功率，故所输出的能量管理策略能够在满足车辆性能前提下最小化燃油消耗，并同时实现电池荷电状态维稳和机组输出功率平衡。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1所提供的能量管理方法的方法流程图；

图2为本发明实施例2所提供的能量管理系统的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

基于学习的能量管理策略能够以控制目标为导向，在未知环境中通过“试错”的训练过程，从状态转移训练样本数据中自主学习最优能量管理策略，实现从观测量到能量管理的端对端控制，显然这种基于学习的能量管理策略在无人驾驶能量管理领域的应用中具有一定的潜力。基于此，本实施例提出一种基于深度确定性策略梯度（Deep DeterministicPolicy Gradient，DDPG）算法和事后经验池机制（Hindsight Experience Replay，HER）的能量管理方法，设计能量管理策略的多目标奖励函数，以对能量管理控制器进行训练，并利用训练好的能量管理控制器来实时在线输出能量管理策略，可以控制串联混合动力无人履带车辆在行驶过程中最小化燃油消耗，并能够使发动机工作点尽可能落在最佳燃油消耗曲线附近，且能同时实现电池荷电状态SOC（State of Charge）在合理区间范围内的稳持和机组输出功率的平衡。在深度确定性策略梯度算法中引入事后经验池机制，通过数据回放再利用思想提高能量管理控制器的训练效率。

如图1所示，本实施例提供一种串联混合动力无人履带车辆的能量管理方法，所述能量管理方法包括：

S1：构建串联混合动力无人履带车辆的多目标奖励函数；所述多目标奖励函数的优化目标包括燃油消耗量、电池荷电状态和机组输出功率。

对于本实施例的能量管理问题而言，优化目标为在满足车辆性能前提下燃油消耗量小，并保持动力电池组的电池荷电状态SOC维稳和机组输出功率平衡，因此本实施例的多目标奖励函数如下：

；（1）。

式（1）中，r_t为t时刻的多目标奖励函数输出的奖励值；m（t）为t时刻的燃油消耗量；为电池荷电状态对应的第一权重系数；SOC_ref为电池荷电状态的参考值；SOC（t）为t时刻的电池荷电状态；/>为机组输出功率对应的第二权重系数，由于串联混合动力无人履带车辆的发动机和发电机是一体的，故机组由发动机和发电机构成，可称为发动机发电机组；/>为t时刻的机组输出功率相较于t-1时刻的机组输出功率的变化值。

S2：基于所述多目标奖励函数对基于深度确定性策略梯度算法的能量管理控制器进行训练，得到训练好的能量管理控制器。

本实施例具体构建基于深度确定性策略梯度算法的能量管理控制器，此时能量管理优化问题被建模为智能体（即Agent，也即能量管理控制器）与车辆（即Environment）之间的相互作用，并利用DDPG算法进行最优能量分配，即能量管理控制器根据串联混合动力无人履带车辆的车辆纵向速度v、车辆纵向加速度a、动力电池组电池荷电状态SOC，选择不同的发动机转矩T_e来控制能量分配，并通过不断交互试错，寻求到最优的能量管理策略，使车辆在某一工况行驶过程中的燃油消耗量最小，尽可能维持稳定的电池荷电状态，并控制发动机发电机组输出功率平衡。

DDPG算法借鉴行动器-评判器（Actor-Critic，AC）算法结构，结合了确定性策略梯度算法和DQN（Deep Q-Learning，深度强化学习）算法优势，输出确定性策略。本实施例的基于深度确定性策略梯度算法的能量管理控制器包括Actor策略网络、Critic价值网络、Actor目标网络和Critic目标网络，DDPG算法利用Actor策略网络学习最优策略并输出最优动作，利用Critic价值网络/>学习动作价值函数/>并评估当前动作，Actor策略网络通过梯度计算公式，沿梯度方向进行自我更新，Critic价值网络根据目标Q值，沿价值估计误差减小方向进行自我更新。Actor策略网络负责对网络参数/>的迭代更新，并根据当前状态s选择当前动作a，用于与车辆交互生成下一状态/>'和奖励r。Critic价值网络负责对网络参数/>的迭代更新，并计算当前Q值。DDPG算法为Actor策略网络和Critic价值网络分别创建了相对独立的Actor目标网络/>（网络参数为/>）和Critic目标网络/>（网络参数为/>），Actor目标网络负责根据经验池中采样的下一状态/>'选择最优动作/>，Critic目标网络负责计算下一状态/>'下选择最优动作/>的目标Q值y_i。

目标Q值y_i的计算公式如下：

；（2）。

式（2）中，r_i为奖励值；为折扣因子；s_i+1为下一状态。Critic价值网络计算的Q值不断逼近目标Q值，以此来更新Critic价值网络的网络参数/>。

DDPG算法采用软更新的方式对目标网络进行更新，更新公式如下：

；（3）。

式（3）中，为学习率。

在本实施例中，基于DDPG算法的能量管理控制器的状态量和动作量设置如下：

状态量={电池荷电状态SOC，车辆纵向速度v，车辆纵向加速度a}；

动作量={发动机转矩T_e}。

为了提高能量管理控制器的训练效率，本实施例在DDPG算法中引入事后经验池机制，则具体的，S2可以包括：

（1）获取多个最佳发动机转矩。

（2）对于每一最佳发动机转矩，获取初始时刻的观测值，以初始时刻的观测值为输入，利用能量管理控制器确定发动机转矩；基于发动机转矩确定下一时刻的观测值，以初始时刻的观测值和发动机转矩为输入，利用多目标奖励函数计算得到奖励值；将初始时刻的观测值、发动机转矩、下一时刻的观测值和奖励值作为一个训练样本，存储到经验池中；观测值包括车辆纵向速度、车辆纵向加速度和电池荷电状态。

其中，以初始时刻的观测值为输入，利用能量管理控制器确定发动机转矩可以包括：以初始时刻的观测值为输入，利用Actor策略网络确定发动机转矩。

基于发动机转矩确定下一时刻的观测值可以包括：基于发动机转矩来对车辆进行能量管理，以确定下一时刻的观测值。

以初始时刻的观测值和发动机转矩为输入，利用多目标奖励函数计算得到奖励值可以包括：以初始时刻的观测值和发动机转矩为输入，利用串联混合动力无人履带车辆的车辆模型计算得到电池荷电状态和机组输出功率；基于发动机转矩计算得到燃油消耗量；以电池荷电状态、机组输出功率和燃油消耗量为输入，利用多目标奖励函数计算得到奖励值。

串联混合动力无人履带车辆的车辆模型包括下式（4）、式（5）和式（6）：

发动机和发电机的转速、转矩和输出功率的关系式为：

；（4）。

式（4）中，n_e为发动机转速；n_g为发电机输入轴转速；T_e为发动机转矩；T_g为发电机输入轴转矩；J_e为发动机的转动惯量；J_g为发电机的转动惯量；P_g为机组输出功率；为发电机效率。

功率平衡关系式为：

；（5）。

式（5）中，P_zs为车辆直驶需求功率；f为地面阻力系数；m为整车质量；g为重力加速度；C_w为空气阻力系数；A为迎风面积；v为车辆纵向速度；a为车辆行驶的车辆纵向加速度；为地面坡度角；P_zx为车辆转向需求功率；/>为转向阻力系数；L为履带接地长度；/>为车辆旋转角速度；P_req为整车行驶需求功率；/>为电机效率；s为电机的充放电系数，s=1表示电机处于电动状态，即处于放电状态，s=-1表示电机处于充电状态；/>为减速器等机械传动系统效率；P_b为动力电池组输出功率。

电池荷电状态SOC是串联混合动力无人履带车辆动力电池组的重要指标之一，其被定义为电池剩余容量与额定容量之比，计算公式如下：

；（6）。

式（6）中，I_b为电池电流；V_OC为电池开路电压；R_b为电池内阻；SOC为电池荷电状态；Q₀为电池初始容量；t表示t时刻；Q_b为电池额定容量。

燃油消耗量的计算公式如下：

；（7）。

式（7）中，为根据台架试验数据确定的发动机油耗特性图查表函数；T_e为发动机转矩；n_e为发动机转速。

（3）从经验池中抽取部分训练样本组成训练集，利用训练集对能量管理控制器的网络参数进行更新，得到更新后能量管理控制器。

其中，利用训练集对能量管理控制器的网络参数进行更新，得到更新后能量管理控制器可以包括：对于训练集中的每一训练样本，以训练样本为输入，利用Critic目标网络计算得到训练样本的目标价值，即利用式（2）计算得到y_i；以所有训练样本和训练样本的目标价值为输入，利用第一损失函数对Critic价值网络的网络参数进行更新，得到更新后Critic价值网络；以所有训练样本为输入，利用第二损失函数对Actor策略网络的网络参数进行更新，得到更新后Actor策略网络；利用更新后Actor策略网络的网络参数对Actor目标网络的网络参数进行更新，得到更新后Actor目标网络；利用更新后Critic价值网络的网络参数对Critic目标网络的网络参数进行更新，得到更新后Critic目标网络；更新后Actor策略网络、更新后Critic价值网络、更新后Actor目标网络和更新后Critic目标网络组成更新后能量管理控制器。

（4）判断是否达到迭代终止条件；若是，则以更新后能量管理控制器作为训练好的能量管理控制器；若否，则以更新后能量管理控制器作为下一迭代的能量管理控制器，返回“获取多个最佳发动机转矩”的步骤。

本实施例的迭代终止条件可为多目标奖励函数收敛，即奖励值达到预设值。

更为具体的，训练过程的流程如下：

（1）初始化Critic价值网络的权重/>和Actor策略网络/>的权重/>。

（2）将Critic目标网络的权重设为与Critic价值网络的权重相同，即，将Actor目标网络的权重设为与Actor策略网络的权重相同，即/>。

（3）初始化经验池R，动作探索的随机过程N（即产生一个随机探索噪声施加到确定策略输出上）以及超参数K。

（4）for步数episode=1:M，即对于每一步episode，执行以下操作：

（5）采样一个目标g（即最佳发动机转矩），获取初始观测值s_t。

（6）for时间t=1:T，即对于每个时间点t，执行以下操作：

（7）根据当前的策略和添加的探索噪声，选择动作/>。

（8）执行动作a_t，获得新的状态s_t+1。

（9）利用多目标奖励函数计算奖励值r_t=r（s_t，a_t，g）。

（10）将样本（s_t，a_t，r_t，s_t+1）存储到经验池R中。

（11）抽取一部分附加的目标作为回放目标G。

（12）for ，对于每个在G中的g'，执行以下操作：

（13）获取初始观测值，选择动作/>，执行动作/>，获得新的状态/>，利用多目标奖励函数计算奖励值/>。

（14）将样本存储到经验池R中。

（15）结束g'的循环。

（16）从经验池R中抽取一小部分样本，代表/>下的初始观测值/>，/>代表/>下的动作/>，/>代表/>下的新的状态/>。

（17）计算。

（18）通过最小化第一损失函数更新Critic价值网络的权重。

（19）通过计算策略梯度，即利用第二损失函数更新Actor策略网络的权重。

（20）利用更新Critic目标网络和Actor目标网络的权重。

（21）结束时间t的循环。

（22）在达到迭代终止条件时，结束步数的循环。

上述训练过程会在M个episode中重复进行，每个episode包含T个时间步，在每个时间步中，根据当前的状态和策略选择动作，然后执行动作并观察新的状态和奖励，这些信息被存储在经验池中，从经验池中抽取一部分训练样本来更新网络参数（即权重），这个过程不断重复，以此来训练网络并改进策略。

S3：以所述串联混合动力无人履带车辆的车辆参数为输入，利用所述训练好的能量管理控制器确定所述串联混合动力无人履带车辆的能量管理策略；所述车辆参数包括车辆纵向速度、车辆纵向加速度和电池荷电状态；所述能量管理策略包括发动机转矩。

本实施例所建立的串联混合动力无人履带车辆的车辆模型包括发动机和发电机的转速、转矩和输出功率的关系式以及车辆的需求功率和功率平衡的关系式。在构建基于深度确定性策略梯度算法的能量管理方法时，首先确定优化目标，优化目标是在满足车辆性能前提下燃油消耗量小，并保持动力电池SOC维稳和发动机功率平衡，因此设计一个多目标奖励函数。然后构建一个强化学习模型（即能量管理控制器），使用两组深度神经网络分别拟合控制策略函数和动作价值函数，即构建Actor策略网络和Critic价值网络，在这个强化学习模型中，选择状态量为电池荷电状态、车辆纵向速度和车辆纵向加速度，选择动作量为发动机转矩。再使用基于深度确定性策略梯度优化算法（DDPG-HER）训练强化学习模型，在训练过程中，初始化Critic价值网络和Actor策略网络的权重，并将Critic目标网络的权重设为与Critic价值网络相同，将Actor目标网络的权重设为与Actor策略网络相同，初始化经验池、动作探索的随机过程和超参数，在每一步episode中，采样一个目标，获取初始观测值，对于每个时间点，根据当前的策略和添加的探索噪声，选择动作，执行动作，获得新的状态，计算奖励，将样本存储到经验池中，抽取一部分附加的目标作为回放目标，对于每个附加的目标，计算奖励，将样本存储到经验池中，从经验池中抽取一小部分样本，设置目标值，通过最小化损失函数更新Critic价值网络权重，通过计算策略梯度更新Actor策略网络权重，更新目标网络权重，在多个episode中重复进行，每个episode包含多个时间步，在每个时间步中，根据当前的状态和策略选择动作，然后执行动作并观察新的状态和奖励，这些信息被存储在经验池中，从经验池中抽取一部分样本来更新网络参数，这个过程不断重复，以此来训练网络并改进策略。

本实施例所提供的一种基于改进深度确定性策略梯度算法（即DDPG-HER）的多目标SHEUTV能量管理方法，相比基本的深度确定性策略梯度算法，引入事后经验池机制算法，通过添加附加目标，随机抽取附加目标状态中的一部分，依次向经验池R中存入目标状态，并运用数据回放再利用思想提高算法采样效率和训练收敛能力，从而引导车辆在选择动作时能尽可能多地靠近最佳燃油经济曲线。通过设计能量管理策略的多目标奖励函数，可以控制车辆在行驶过程中最小化燃油消耗，同时实现电池荷电状态在合理区间范围内的稳持和机组输出功率的平衡，以获得更优的能量管理策略。

实施例2：

本实施例用于提供一种串联混合动力无人履带车辆的能量管理系统，如图2所示，所述能量管理系统包括：

函数构建模块M1，用于构建串联混合动力无人履带车辆的多目标奖励函数；所述多目标奖励函数的优化目标包括燃油消耗量、电池荷电状态和机组输出功率。

训练模块M2，用于基于所述多目标奖励函数对基于深度确定性策略梯度算法的能量管理控制器进行训练，得到训练好的能量管理控制器。

能量管理模块M3，用于以所述串联混合动力无人履带车辆的车辆参数为输入，利用所述训练好的能量管理控制器确定所述串联混合动力无人履带车辆的能量管理策略；所述车辆参数包括车辆纵向速度、车辆纵向加速度和电池荷电状态；所述能量管理策略包括发动机转矩。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种串联混合动力无人履带车辆的能量管理方法，其特征在于，所述能量管理方法包括：

以所述串联混合动力无人履带车辆的车辆参数为输入，利用所述训练好的能量管理控制器确定所述串联混合动力无人履带车辆的能量管理策略；所述车辆参数包括车辆纵向速度、车辆纵向加速度和电池荷电状态；所述能量管理策略包括发动机转矩；

所述多目标奖励函数为：

；

其中，r _t为t时刻的多目标奖励函数输出的奖励值；m（t）为t时刻的燃油消耗量；为电池荷电状态对应的第一权重系数；SOC _ref为电池荷电状态的参考值；SOC（t）为t时刻的电池荷电状态；/>为机组输出功率对应的第二权重系数；/>为t时刻的机组输出功率相较于t-1时刻的机组输出功率的变化值；

所述基于所述多目标奖励函数对基于深度确定性策略梯度算法的能量管理控制器进行训练，得到训练好的能量管理控制器具体包括：

获取多个最佳发动机转矩；

对于每一所述最佳发动机转矩，获取初始时刻的观测值，以所述初始时刻的观测值为输入，利用能量管理控制器确定发动机转矩；基于所述发动机转矩确定下一时刻的观测值，以所述初始时刻的观测值和所述发动机转矩为输入，利用多目标奖励函数计算得到奖励值；将所述初始时刻的观测值、所述发动机转矩、所述下一时刻的观测值和所述奖励值作为一个训练样本，存储到经验池中；所述观测值包括车辆纵向速度、车辆纵向加速度和电池荷电状态；

从所述经验池中抽取部分训练样本组成训练集，利用所述训练集对所述能量管理控制器的网络参数进行更新，得到更新后能量管理控制器；

判断是否达到迭代终止条件；若是，则以所述更新后能量管理控制器作为训练好的能量管理控制器；若否，则以所述更新后能量管理控制器作为下一迭代的能量管理控制器，返回“获取多个最佳发动机转矩”的步骤。

2.根据权利要求1所述的能量管理方法，其特征在于，所述能量管理控制器包括Actor策略网络、Critic价值网络、Actor目标网络和Critic目标网络，则所述以所述初始时刻的观测值为输入，利用能量管理控制器确定发动机转矩具体包括：以所述初始时刻的观测值为输入，利用Actor策略网络确定发动机转矩。

3.根据权利要求1所述的能量管理方法，其特征在于，所述以所述初始时刻的观测值和所述发动机转矩为输入，利用多目标奖励函数计算得到奖励值具体包括：

以所述初始时刻的观测值和所述发动机转矩为输入，利用所述串联混合动力无人履带车辆的车辆模型计算得到电池荷电状态和机组输出功率；

基于所述发动机转矩计算得到燃油消耗量；

以所述电池荷电状态、所述机组输出功率和所述燃油消耗量为输入，利用多目标奖励函数计算得到奖励值。

4.根据权利要求3所述的能量管理方法，其特征在于，所述串联混合动力无人履带车辆的车辆模型包括：

；

其中，n _e为发动机转速；n _g为发电机输入轴转速；T _e为发动机转矩；T _g为发电机输入轴转矩；J _e为发动机的转动惯量；J _g为发电机的转动惯量；P _g为机组输出功率；为发电机效率；

；

其中，P _zs为车辆直驶需求功率；f为地面阻力系数；m为整车质量；g为重力加速度；C _w为空气阻力系数；A为迎风面积；v为车辆纵向速度；a为车辆纵向加速度；为地面坡度角；P _zx为车辆转向需求功率；/>为转向阻力系数；L为履带接地长度；/>为车辆旋转角速度；P _req为整车行驶需求功率；/>为电机效率；s为电机的充放电系数；/>为机械传动系统效率；P _b为动力电池组输出功率；

；

其中，I _b为电池电流；V _OC为电池开路电压；R _b为电池内阻；SOC为电池荷电状态；Q ₀为电池初始容量；t表示t时刻；Q _b为电池额定容量。

5.根据权利要求2所述的能量管理方法，其特征在于，所述利用所述训练集对所述能量管理控制器的网络参数进行更新，得到更新后能量管理控制器具体包括：

对于所述训练集中的每一训练样本，以所述训练样本为输入，利用所述Critic目标网络计算得到所述训练样本的目标价值；

以所有所述训练样本和所述训练样本的目标价值为输入，利用第一损失函数对所述Critic价值网络的网络参数进行更新，得到更新后Critic价值网络；

以所有所述训练样本为输入，利用第二损失函数对所述Actor策略网络的网络参数进行更新，得到更新后Actor策略网络；

利用所述更新后Actor策略网络的网络参数对所述Actor目标网络的网络参数进行更新，得到更新后Actor目标网络；

利用所述更新后Critic价值网络的网络参数对所述Critic目标网络的网络参数进行更新，得到更新后Critic目标网络；所述更新后Actor策略网络、所述更新后Critic价值网络、所述更新后Actor目标网络和所述更新后Critic目标网络组成更新后能量管理控制器。

6.一种串联混合动力无人履带车辆的能量管理系统，其特征在于，所述能量管理系统包括：

能量管理模块，用于以所述串联混合动力无人履带车辆的车辆参数为输入，利用所述训练好的能量管理控制器确定所述串联混合动力无人履带车辆的能量管理策略；所述车辆参数包括车辆纵向速度、车辆纵向加速度和电池荷电状态；所述能量管理策略包括发动机转矩；

所述多目标奖励函数为：

；

获取多个最佳发动机转矩；