CN117131606A

CN117131606A - 一种可跨运动维度迁移的混合动力履带车辆能量管理方法

Info

Publication number: CN117131606A
Application number: CN202311344723.9A
Authority: CN
Inventors: 何洪文; 苏启聪; 黄汝臣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-28

Abstract

本发明提供了一种可跨运动维度迁移的混合动力履带车辆能量管理方法，其采用了目前能量管理技术中较为先进的深度强化学习算法SAC，并在此基础上和迁移学习相结合来构建新型可迁移能量管理策略，能够实现良好的燃料经济性与稳定的电池荷电状态之间的兼顾平衡，具有良好的应用前景。该方法通过将基于深度强化学习的能量管理策略从单一直线行驶迁移到包含直线行驶、转向和爬坡的三维运动中，克服了现有技术普遍只能在相同运动维度间开展的缺陷。利用经验回放池实现经验样本迁移，本发明能够有效提升深度迁移强化学习的效果，也可为其他车型混合动力车辆开发可跨运动维度迁移的能量管理提供了一个典型有效的参考。

Description

一种可跨运动维度迁移的混合动力履带车辆能量管理方法

技术领域

本发明属于混合动力车辆能量管理技术领域，具体涉及一种可跨运动维度迁移的混合动力履带车辆能量管理方法。

背景技术

对于混合动力履带车辆来说，由于其相比常规混动车辆的用车环境大多更加复杂，负载需求功率也更高，因而在此类车辆的能量管理中存在诸多难题。目前，在一些常规混动车辆的能量管理现有技术中，深度强化学习算法被较广泛地采用。然而，利用深度强化学习开发能量管理策略是一项耗时且费力的任务，因为算法中的智能体需要通过与环境进行不断地交互来探索得到理想的策略。当遇到新的能量管理任务时，往往需要重新开发能量管理策略，这也导致基于深度强化学习算法的能量管理策略较难推广应用在用车环境复杂多变的混动履带车辆上。在深度强化学习的基础上结合迁移学习虽有助于加速能量管理策略的开发，但现有深度迁移强化学习通常只能在一维直线运动中进行能量管理策略的迁移，对同时涉及直线驾驶、转向和爬坡的全地形多维运动尚不具有较好的解决手段。因此，目前亟需一种新的能量管理方法，既能拓展深度迁移强化学习的应用空间，实现混合动力履带车辆可跨运动维度迁移的能量管理，也能实现高效节能的控制目标。

发明内容

有鉴于此，针对本领域中存在的技术问题，本发明提供了一种可跨运动维度迁移的混合动力履带车辆能量管理方法，具体包括以下步骤：

步骤一、基于串联式混合动力履带式车辆构型和动力系统参数，搭建整车动力总成仿真模型；该整车动力总成仿真模型由发动机-发电机组模型、动力电池模型、驱动电机模型和包含直线行驶、转向和爬坡的三维驾驶工况的整车功率需求模型；

设计面向整车能量管理的深度强化学习SAC算法，包括：将整车能量管理问题的状态转化为动力系统运行情况和车辆运动状态，并基于车辆速度、加速度、荷电状态SOC和发动机转速定义车辆只进行直线行驶时的系统状态空间，并在此基础上增加道路坡度、横摆角速度和横摆角加速度，定义车辆进行包含直线行驶、转向和爬坡的三维驾驶工况下的系统状态空间；考虑燃油消耗、SOC维持和发动机转速变化定义奖励函数，以及相应的系统约束条件；

以及设置由一个策略网络、四个柔性网络和一个经验回放池组成的深度强化学习算法结构；

步骤二、从真实混合动力履带车辆的历史驾驶循环中提取收集包含高速行驶、匀速行驶和频繁变速等的直线行驶工况数据，构建一维直线行驶工况数据库并作为SAC算法的预训练环境；在每个训练回合从预训练环境中随机选择一个直线驾驶循环对算法智能体进行预训练，过程中算法智能体根据实时系统状态s_t选择相应动作a_t、获得奖励r_t、得到下一个系统状态s_t+1，并将获得的每个时刻的经验样本[s_t,a_t,r_t,s_t+1]存入经验回放池；直到算法稳定收敛预训练结束；

步骤三、保存预训练后的除输出层以外的神经网络结构和经验回放池，结合与道路坡度、横摆角速度和横摆角加速度对应的随机神经元网络参数，对用于再训练环境中的神经网络参数初始化；

步骤四、从真实混合动力履带车辆的历史驾驶循环中提取收集包含直线行驶、转向和爬坡的三维驾驶循环工况数据，构建三维行驶工况数据库并作为再训练环境；对经步骤三初始化后的算法智能体进行再训练，待算法稳定收敛再训练结束，最终获得目标能量管理策略。

进一步地，步骤一所建立的整车动力总成仿真模型中，所述发动机-发电机组模型具体采用基于发动机和驱动电机台架测试数据建立的查表模型；动力电池模型采用内阻模型；发动机-发电机组与动力电池之间选择：由发动机-发电机组产生交流电并通过交流-直流(AC/DC)变换器全波整流变为直流电，然后直接连接到直流母线，与电池组实现功率耦合的配合工作方式；整车功率需求模型具体采用以下形式：

其中，P_d表示混合动力履带车辆整车需求功率，P_lon表示纵向需求功率，P_lat表示横向需求功率，m表示车辆重力，g表示重力加速度，f表示滚动阻力系数，θ表示道路坡度，C_D表示空气阻力系数，A表示迎风面积，v表示车辆速度(单位：m/s)，表示车辆加速度，M_r表示转向阻力矩，w表示横摆角速度。

进一步地，步骤一中定义车辆只进行直线行驶时的系统状态空间具体形式为：

定义车辆进行包含直线行驶、转向和爬坡的三维驾驶工况下的系统状态空间具体形式为：

其中，SOC表示动力电池的荷电状态，ω_g表示发电机的转速，表示车辆横摆角加速度；能量管理问题的动作变量为发动机节气门开度thr，取值范围是[0,1]；

定义奖励函数的表达式如下：

其中，R表示t时刻的奖励函数，由r₁、r₂和r₃三项奖励组成，α₁代表燃油消耗权重因子，α₂代表电池SOC维持权重因子，α₃代表发动机转速变化限制权重因子；表示发动机的燃油消耗率，SOC₀表示初始时刻的SOC，ω_e表示发动机的转速，Δω_e表示发动机的转速变化，Δω_max表示发动机最大转速变化，当发动机转速变化的绝对值大于Δω_max时，r₃＝α₃，当发动机转速变化的绝对值小于Δω_max时，r₃＝0；

系统的约束条件具体包括：

其中，T_e表示发动机扭矩，T_g表示发电机扭矩，ω_m表示驱动电机转速，T_m表示驱动电机扭矩，I_g表示发电机输出电流，I_b表示动力电池组输出电流，下标max和min分别表示各变量的最大值和最小值。

进一步地，在深度强化学习算法神经网络结构中，四个柔性网络具体包括两个柔性Q网络和两个目标柔性Q网络/>其网络参数分别为θ_i和θ′_i；策略网络π_φ的网络参数为φ；

最优策略的表达式如下：

其中，arg max·表示使函数取到最大值的变量值，是数学期望，γ^t是折扣因子，r(s_t,a_t)是在时间步t的状态s_t和动作a_t下的奖励，/>表示策略π的熵，α是温度因子；

柔性动作价值函数Q_soft(s_t,a_t)的表达式如下：

柔性价值网络、策略网络和温度因子的损失函数L的表达式分别如下：

其中，表示动作价值函数的估计，π_φ(a_t|s_t)表示根据随机性策略π_φ并在状态s_t时执行动作a_t的概率，a_t+1～π_φ(·|s_t)表示a_t+1服从分布π_φ(·|s_t)，z(s_t)是对分布进行归一化的配分函数，/>是目标熵；

参数θ_i、θ′_i、φ和α的更新方式分别如下：

其中，λ_Q表示价值网络的学习率，τ为软更新因子，λ_φ为策略网络的学习率，λ_α表示温度因子的学习率，表示求损失函数L对下标变量的梯度。

进一步地，步骤三中再训练环境的输入层神经元包含了与预训练环境的输入层一致的神经元以及不一致的输入层神经元/>在初始化再训练环境的神经网络时，具体是利用在预训练环境中得到的输入层神经元的网络参数，初始化再训练环境中的输入层神经元/>的网络参数；随机初始化与再训练环境中不一致的输入层神经元/>的网络参数；随机初始化再训练环境中输出层的网络参数；利用在预训练环境中训练得到的网络参数，初始化再训练环境中其余各层的神经网络参数。

进一步地，在对算法智能体的再训练开始之前，先将通过预训练得到的经验回放池中的全部样本填充至再训练环境中的经验回放池中；在填充时须执行以下数据预处理：

在预训练环境经验样本的状态量s_t中，新增三个状态量元素i₁,i₂,i₃于元素前，保证和再训练环境中经验样本的状态量元素个数一致，使数据处理后的经验样本的状态量表达式为/>其中，i₁,i₂,i₃均为随机数。

上述本发明所提供的可跨运动维度迁移的混合动力履带车辆能量管理方法，与现有技术相比至少能够提供以下有益效果：

(1)本发明采用了目前能量管理技术中较为先进的深度强化学习算法SAC，并在此基础上和迁移学习相结合来构建新型可迁移能量管理策略，能够实现良好的燃料经济性与稳定的电池荷电状态之间的兼顾平衡，具有良好的应用前景；

(2)本发明通过将基于深度强化学习的能量管理策略从单一直线行驶迁移到包含直线行驶、转向和爬坡的三维运动中，克服了现有技术普遍只能在相同运动维度间开展的缺陷；

(3)本发明利用经验回放池实现经验样本迁移，能够有效提升深度迁移强化学习的效果，也可为其他车型混合动力车辆开发可跨运动维度迁移的能量管理提供了一个典型有效的参考。

附图说明

图1是本发明所提供方法的整体流程图；

图2是基于神经网络的迁移学习流程图；

图3是可跨运动维度迁移的混合动力履带车辆能量管理方法的总体架构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明所提供的可跨运动维度迁移的混合动力履带车辆能量管理方法，如图1所示，具体包括以下步骤：

在本发明的一个优选实施方中，步骤一所建立的整车动力总成仿真模型中，所述发动机-发电机组模型具体采用基于发动机和驱动电机台架测试数据建立的查表模型；动力电池模型采用内阻模型；发动机-发电机组与动力电池之间选择：由发动机-发电机组产生交流电并通过交流-直流(AC/DC)变换器全波整流变为直流电，然后直接连接到直流母线，与电池组实现功率耦合的配合工作方式；整车功率需求模型具体采用以下形式：

在本发明的一个优选实施方中，步骤一中定义车辆只进行直线行驶时的系统状态空间具体形式为：

定义奖励函数的表达式如下：

系统的约束条件具体包括：

在本发明的一个优选实施方中，在深度强化学习算法神经网络结构中，四个柔性网络具体包括两个柔性Q网络和两个目标柔性Q网络/>其网络参数分别为θ_i和θ′_i；策略网络π_φ的网络参数为φ；

最优策略的表达式如下：

柔性动作价值函数Q_soft(s_t,a_t)的表达式如下：

参数θ_i、θ′_i、φ和α的更新方式分别如下：

在本发明的一个优选实施方中，步骤三中再训练环境的输入层神经元包含了与预训练环境的输入层一致的神经元以及不一致的输入层神经元/>在初始化再训练环境的神经网络时，具体是利用在预训练环境中得到的输入层神经元的网络参数，初始化再训练环境中的输入层神经元/>的网络参数；随机初始化与再训练环境中不一致的输入层神经元/>的网络参数；随机初始化再训练环境中输出层的网络参数；利用在预训练环境中训练得到的网络参数，初始化再训练环境中其余各层的神经网络参数。

在本发明的一个优选实施方中，在对算法智能体的再训练开始之前，先将通过预训练得到的经验回放池中的全部样本填充至再训练环境中的经验回放池中；在填充时须执行以下数据预处理：

在基于本发明的实例中，基于神经网络的迁移学习可选流程如图2所示；融合深度神经网络的混合动力履带车辆功率分配的可选总体架构如图3所示。

应理解，本发明实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种可跨运动维度迁移的混合动力履带车辆能量管理方法，其特征在于：具体包括以下步骤：

步骤二、从真实混合动力履带车辆的历史驾驶循环中提取收集包含高速行驶、匀速行驶和频繁变速的直线行驶工况数据，构建一维直线行驶工况数据库并作为SAC算法的预训练环境；在每个训练回合从预训练环境中随机选择一个直线驾驶循环对算法智能体进行预训练，过程中算法智能体根据实时系统状态s_t选择相应动作a_t、获得奖励r_t、得到下一个系统状态s_t+1，并将获得的每个时刻的经验样本[s_t,a_t,r_t,s_t+1]存入经验回放池；直到算法稳定收敛预训练结束；

2.如权利要求1所述的方法，其特征在于：步骤一所建立的整车动力总成仿真模型中，所述发动机-发电机组模型具体采用基于发动机和驱动电机台架测试数据建立的查表模型；动力电池模型采用内阻模型；发动机-发电机组与动力电池之间选择：由发动机-发电机组产生交流电并通过交流-直流变换器全波整流变为直流电，然后直接连接到直流母线，与电池组实现功率耦合的配合工作方式；整车功率需求模型具体采用以下形式：

其中，P_d表示混合动力履带车辆整车需求功率，P_lon表示纵向需求功率，P_lat表示横向需求功率，m表示车辆重力，g表示重力加速度，f表示滚动阻力系数，θ表示道路坡度，C_D表示空气阻力系数，A表示迎风面积，v表示车辆速度，表示车辆加速度，M_r表示转向阻力矩，w表示横摆角速度。

3.如权利要求2所述的方法，其特征在于：步骤一中定义车辆只进行直线行驶时的系统状态空间具体形式为：

定义奖励函数的表达式如下：

系统的约束条件具体包括：

4.如权利要求3所述的方法，其特征在于：在深度强化学习算法神经网络结构中，四个柔性网络具体包括两个柔性Q网络和两个目标柔性Q网络/>其网络参数分别为θ_i和θ′_i；策略网络π_φ的网络参数为φ；

最优策略的表达式如下：

其中，argmax·表示使函数取到最大值的变量值，是数学期望，γ^t是折扣因子，r(s_t,a_t)是在时间步t的状态s_t和动作a_t下的奖励，/>表示策略π的熵，α是温度因子；

柔性动作价值函数Q_soft(s_t,a_t)的表达式如下：

参数θ_i、θ′_i、φ和α的更新方式分别如下：

5.如权利要求4所述的方法，其特征在于：步骤三中再训练环境的输入层神经元包含了与预训练环境的输入层一致的神经元以及不一致的输入层神经元/>在初始化再训练环境的神经网络时，具体是利用在预训练环境中得到的输入层神经元的网络参数，初始化再训练环境中的输入层神经元/>的网络参数；随机初始化与再训练环境中不一致的输入层神经元/>的网络参数；随机初始化再训练环境中输出层的网络参数；利用在预训练环境中训练得到的网络参数，初始化再训练环境中其余各层的神经网络参数。

6.如权利要求5所述的方法，其特征在于：在对算法智能体的再训练开始之前，先将通过预训练得到的经验回放池中的全部样本填充至再训练环境中的经验回放池中；在填充时须执行以下数据预处理：

在预训练环境经验样本的状态量s_t中，新增三个状态量元素i₁,i₂,i₃于元素v,SOC,ω_g前，保证和再训练环境中经验样本的状态量元素个数一致，使数据处理后的经验样本的状态量表达式为/>其中，i₁,i₂,i₃均为随机数。