CN113525396A

CN113525396A - 一种融合深度强化学习的混动汽车分层预测能量管理方法

Info

Publication number: CN113525396A
Application number: CN202110930227.6A
Authority: CN
Inventors: 何洪文; 黄汝臣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-10-22
Anticipated expiration: 2041-08-13
Also published as: CN113525396B

Abstract

本发明提供了一种融合深度强化学习的混动汽车分层预测能量管理方法，其基于云计算平台并在能量管理策略的上层中，利用提取到的多维真实路况信息对DDPG算法训练至完全收敛后，将其作为电池SOC最优参考轨迹生成模型；利用智能交通系统和车联网环境预先获取目标行驶路线的多维路况信息，从而快速计算得到电池SOC最优参考轨迹。在策略下层，通过训练GRNN作为多维路况短期实时预测模型；在MPC框架中设计能量管理在线优化控制器，计算混动汽车的能量最优分配结果，能够在提高燃油经济性的同时提升实时应用潜力，从而具有了现有技术所不具备的诸多有益效果。

Description

一种融合深度强化学习的混动汽车分层预测能量管理方法

技术领域

本发明属于混合动力汽车能量管理技术领域，尤其涉及一种在模型预测控制框架中，通过融合深度确定性策略梯度DDPG算法来实现的混合动力汽车在线分层预测能量管理方法。

背景技术

电池荷电状态(State Of Charge，SOC)参考轨迹作为用于指引未来短时间内能量最优分配的重要指标，对混合动力汽车能量管理策略的性能优化具有至关重要的影响。当前对于电池SOC参考轨迹生成主要分为在线生成方法和离线生成方法两类。其中，在线生成方法是指利用线性经验模型和电池SOC轨迹的变化速率与行车时间或行车距离呈线性关系的假设，针对已知行车时间段或距离，根据预设的电池SOC初值和末值来得到对应的线性SOC参考轨迹。该方法虽然在理论上有利于MPC能量管理策略的实时应用，但由于实际行车过程中的时间难以预知，以及缺乏对车辆模型和路况信息的非线性特征的考虑，导致其实用性和优化性难以满足要求。离线生成方法主要是通过提前获取目标行驶路线的路况信息，利用全局优化算法离线计算得到目标行驶路线对应的最优电池SOC参考轨迹，从而保证了优化性能，但由于全局优化算法的运算量极大且需要消耗大量的离线计算时间，因此也存在实用性不强的缺点。

发明内容

针对上述本领域中所存在的技术问题，本发明提供了一种融合深度强化学习的混动汽车分层预测能量管理方法，旨在发挥深度强化学习算法的拟合性能以及云平台的计算能力，提供适用于混动汽车且实时性、鲁棒性更强的SOC最优参考轨迹规划与能量最优分配策略。

所述方法具体包括以下步骤：

步骤1、从路况信息数据库中提取混动汽车的各历史行驶路线中从起点至终点的多维路况信息，作为训练数据集和测试数据集；

在云计算平台中，由所述多维路况信息和电池SOC构造状态空间，由发动机功率构造动作空间，以及由整车燃油消耗与电能消耗总成本以及电池SOC偏离预设值的惩罚成本构建奖励函数，从而建立深度确定性策略梯度DDPG算法，并利用所述训练数据集和测试数据集对DDPG算法进行训练；提取训练完成的DDPG神经网络作为SOC最优参考轨迹规划模型，也即能量管理策略的上层；

步骤2、在云计算平台建立基于广义回归神经网络GRNN的短期多维路况预测模型，以所述多维路况信息作为输入、以车辆在未来时刻的运行状态、路面及载荷情况作为输出；利用所述训练数据集和测试数据集对该短期多维路况预测模型进行训练；

步骤3、基于智能交通系统，在车联网环境下提前获取目标行驶路线的多维路况信息，并利用所述SOC最优参考轨迹规划模型得到SOC最优参考轨迹；

步骤4、以整车燃油消耗与电能消耗总成本最小为控制目标，建立基于模型预测控制MPC的混动汽车能量最优分配控制器，以SOC为状态变量，发动机功率为控制变量，与所述短期多维路况预测模型共同构成能量管理策略的下层；

基于所述短期多维路况预测模型输出确定预测时域内的整车驱动需求功率，并以所述SOC最优参考轨迹作为控制时域内的SOC参考值，利用动态规划算法求解得到控制时域中的最优控制序列，最终实现提供长期的能量最优分配；

步骤5、依次重复执行前述步骤，对能量最优分配策略以及路况信息数据库进行更新。

进一步地，所述步骤1具体包括：

步骤1.1、提取包括：车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息，将这些多维路况信息作为训练数据集和测试数据集；

步骤1.2、在云计算平台中建立以下形式的DDPG算法：

式中，S表示状态空间，A表示动作空间，R表示奖励函数，SOC表示电池荷电状态，v表示车速，acc表示加速度，P_e表示发动机功率，fuel表示单位时间的耗油量，elec表示单位时间的耗电量，SOC_tar表示目标SOC值，w₁和w₂分别表示燃油和电能的单位价格，α表示能耗成本的权重因子，β和ε都表示SOC维持成本的权重因子；

步骤1.3、利用所述训练数据集和测试数据集对DDPG算法进行训练，具体训练更新过程如下：

y_tar(i)＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')θ^Q')

y_pre(i)＝Q(s_i,a_i|θ^Q)

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

式中，i表示训练的步数，Q(s_i,a_i)表示动作值函数，Q表示当前Critic网络，μ表示当前Actor网络，Q'表示目标Critic网络，μ'表示目标Actor网络，θ表示神经网络参数，s表示状态，a表示动作，r表示奖励，γ表示折扣因子，y_tar表示目标Q值，y_pre表示实际Q值，n表示批量梯度下降的样本数，J(θ^Q)表示当前Critic网络的损失函数，J(θ^μ)表示当前Actor网络的损失函数，τ表示软更新系数；

当训练至算法完全收敛后，提取DDPG的动作选择Actor网络作为SOC最优参考轨迹规划模型。

进一步地，在所述步骤1中提取多维路况信息后、形成训练集和测试集之前，先对其所包含的不同种类数据执行以下归一化处理：

式中，X表示各类原始数据，Y表示归一化处理之后的数据，下标max和min分别表示最大值和最小值。

进一步地，所述步骤2具体包括：

步骤2.1、利用粒子群优化算法优化GRNN的网络参数包括：首先为用于路况预测GRNN的网络初始权重随机赋值，然后使用粒子群优化算法映射各个权重到不同的粒子上，经过多次迭代得到理想的权重值，作用是提高最终得到的短期多维路况预测模型的预测精度；

步骤2.2、建立以下形式的基于广义回归神经网络GRNN的短期多维路况预测模型：

Input＝{v_his,acc_his,dis_his,grad_his,curv_dis,load_his,lig_dis}

Output＝{v_pre,acc_pre,grad_pre,load_pre}

Output＝f_GRNN(Input)

式中，Input表示输入、Output表示输出，v表示车速，acc表示加速度，dis表示路段对应的行驶里程，grad表示路面坡度，curv表示道路曲率，load表示负载质量，lig表示路段途经的交通信号灯信息，下标his和pre分别表示历史时域和预测时域，f_GRNN(*)表示GRNN的函数映射关系；

步骤2.3、利用所述训练集与测试集对GRNN进行训练，得到训练好的短期多维路况预测模型，用于输出未来时刻的车速，加速度，路面坡度和负载质量。

进一步地，所述步骤3具体包括：

步骤3.1、基于智能交通系统，在车联网环境下提前获取目标车辆、目标行驶路线中，包括车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息；

步骤3.2、将所述多维路况信息输入所述SOC最优参考轨迹规划模型得到SOC最优参考轨迹。

进一步地，所述步骤4具体包括：

步骤4.1、以整车燃油消耗与电能消耗总成本最小为目标，建立基于模型预测控制MPC的混动汽车能量最优分配控制器的目标函数：

式中，J_k表示第k时间步的总成本，Δt表示采样步长；需要满足以下非线性物理约束：

式中，ω表示转速，T表示转矩，I表示电流，下标eng、mot、gen和bat分别表示发动机、电动机、发电机和电池，下标max和min分别表示上限值和下限值；

步骤4.2、针对适用于目标车辆的车辆模型，根据由短期多维路况预测模型的预测结果计算预测时域内的整车驱动需求功率；

步骤4.3、以SOC为状态变量，发动机功率为控制变量，并以所述SOC最优参考轨迹作为控制时域内的SOC参考值，利用动态规划算法求解得到控制时域中的最优控制序列；

步骤4.4、将所述最优控制序列中的第一个控制变量作为当前时刻的能量最优分配结果施加给所述车辆模型，获取更新后的下一时刻的状态变量，并开始计算下一时刻的能量最优分配结果。

上述本发明所提供的方法，基于云计算平台并在能量管理策略的上层中，利用提取到的多维真实路况信息对DDPG算法训练至完全收敛后，将其作为电池SOC最优参考轨迹生成模型；利用智能交通系统和车联网环境预先获取目标行驶路线的多维路况信息，从而快速计算得到电池SOC最优参考轨迹。在策略下层，通过训练GRNN作为多维路况短期实时预测模型；在MPC框架中设计能量管理在线优化控制器，计算混动汽车的能量最优分配结果，能够在提高燃油经济性的同时提升实时应用潜力，从而具有了现有技术所不具备的诸多有益效果。

附图说明

图1是本发明所提供方法的工作原理示意图；

图2是DDPG算法控制架构示意图；

图3是电池SOC最优参考轨迹生成模型示意图；

图4是多维路况短期实时预测模型示意图；

图5是电池SOC最优参考轨迹结果图；

图6是未来10s的车速预测结果图；

图7是电池SOC轨迹跟踪结果图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的一种融合深度强化学习的混动汽车分层预测能量管理方法，如图1所示，具体包括以下步骤：

在本发明的一个优选实施方式中，所述步骤1具体包括：

步骤1.2、如图2所示，在云计算平台中建立以下形式的DDPG算法：

y_tar(i)＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')θ^Q')

y_pre(i)＝Q(s_i,a_i|θ^Q)

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

当训练至算法完全收敛后，提取DDPG的动作选择Actor网络作为SOC最优参考轨迹规划模型，如图3所示。

在本发明的一个优选实施方式中，在所述步骤1中提取多维路况信息后、形成训练集和测试集之前，先对其所包含的不同种类数据执行以下归一化处理：

进一步地，所述步骤2具体包括：

Input＝{v_his,acc_his,dis_his,grad_his,curv_dis,load_his,lig_dis}

Output＝{v_pre,acc_pre,grad_pre,load_pre}

Output＝f_GRNN(Input)

步骤2.3、利用所述训练集与测试集对GRNN进行训练，得到如图4所示的训练好的短期多维路况预测模型，用于输出未来时刻的车速，加速度，路面坡度和负载质量。

如果训练前对多维路况信息进行了归一化处理，预测后还应执行相应的反归一化。

在本发明的一个优选实施方式中，所述步骤3具体包括：

步骤3.1、基于智能交通系统ITS，在车联网环境下提前获取目标车辆、目标行驶路线中，包括车速、加速度、每段路线中的行驶里程、路面坡度、道路曲率、负载质量以及路线中途经的交通信号灯信息的多维路况信息；

步骤3.2、将所述多维路况信息输入所述SOC最优参考轨迹规划模型得到如图5所示的SOC最优参考轨迹。

进一步地，所述步骤4具体包括：

步骤4.2、针对适用于目标车辆的车辆模型，根据由短期多维路况预测模型的预测结果计算预测时域内的整车驱动需求功率；图6示出了基于本发明的一实例中对未来10s的车速预测结果。

在实际应用本发明时，所述预测时域和所述控制时域可设置为相同的时间长度。

图7示出了基于本发明的一具体实例中，对SOC轨迹的跟踪效果。

应理解，本发明实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合深度强化学习的混动汽车分层预测能量管理方法，其特征在于：具体包括以下步骤：

在云计算平台中，由所述多维路况信息和电池SOC构造状态空间，由发动机功率构造动作空间，以及由整车燃油消耗与电能消耗总成本以及电池SOC偏离预设值的惩罚成本构建奖励函数，从而建立DDPG算法，并利用所述训练数据集和测试数据集对DDPG算法进行训练；提取训练完成的DDPG算法的神经网络作为SOC最优参考轨迹规划模型，也即能量管理策略的上层；

2.如权利要求1所述的方法，其特征在于：所述步骤1具体包括：

步骤1.2、在云计算平台中建立以下形式的DDPG算法：