CN112116156A

CN112116156A - 基于深度强化学习的混动列车的能量管理方法及系统

Info

Publication number: CN112116156A
Application number: CN202010989685.2A
Authority: CN
Inventors: 彭勇; 伍元凯; 范超杰; 张洪浩
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-22
Anticipated expiration: 2040-09-18
Also published as: CN112116156B

Abstract

本发明公开了一种基于深度强化学习的混动列车的能量管理方法及系统，该方法包括：获取混动列车的列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息的历史数据作为源数据；从源数据中提取速度、加速度以及电池电量作为输入，以能量管理策略作为输出，建立能量管理策略模型；建立列车动力仿真模型，将能量管理策略输入至列车动力仿真模型，获得仿真运行状态和奖励参数；以奖励参数对能量管理策略模型进行优化；通过深度强化学习进行离线训练得到优化后的能量管理策略模型；以混动列车的实时数据输入优化后的能量管理策略模型，获得优化的能量管理策略。本发明可实现完全应用机器学习人工智能手段进行混合动力列车能量管理。

Description

基于深度强化学习的混动列车的能量管理方法及系统

技术领域

本发明涉及混合动力列车的能量管理技术领域，尤其涉及一种基于深度强化学习的混动列车的能量管理方法及系统。

背景技术

混合动力铁路列车(Hybrid Electric Train，HET)是使用可充电储能装置辅助牵引系统的铁路动力列车。混合动力铁路列车会在车上安装可充电储能装置，使用动力源(通常是柴油引擎)的过剩能量或者再生制动回收的电力替储能装置充电。混合动力列车具有多源的动力来源，动力源的来源较传统的列车更为复杂，因此高效节能的能量管理策略成为实现混合动力节能减排的关键。

目前商业应用中采用较多的简单规则式模式，电量消耗较快，且进入电量稳持模式后，燃油经济性提升空间将大幅受限。一种自适应最小能源消耗策略的实时能量管理策略可有效提高列车的燃油经济性，降低排放。

深度强化学习(DRL，deep reinforcement learning，DRL)是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用，得以解决现实场景中的复杂控制问题。如以DeepMind团队为代表的研究团队首次提出基于DQN(Deep Q-Network)的深度强化学习方法，并使用Atari 2600部分游戏作为测试对象，结果可以超过人类玩家。该机器学习技术上的突破随后在Nature期刊上进行发表，引起了机器学习研究领域的巨大轰动。与此同时，逐渐出现的深度强化学习能量管理策略在混合动力汽车上也展示了其良好的燃油经济性和鲁棒性。这些研究显示出了深度强化学习方法在混合动力列车能量管理上的潜力。

但是，目前基于深度强化学习方法的铁路列车能量管理策略仍无相关研究。

发明内容

本发明提供了一种基于深度强化学习的混动列车的能量管理方法及系统，用以解决混合动力铁路列车采用简单规则式模式进行能量管理，燃油经济性提升空间受限的技术问题。

为解决上述技术问题，本发明提出的技术方案为：

一种基于深度强化学习的混动列车的能量管理方法，包括以下步骤：

获取混动列车的列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息的历史数据，作为源数据；

从源数据中提取速度、加速度以及电池电量作为输入，以能量管理策略作为输出，建立能量管理策略模型；

建立列车动力仿真模型，将能量管理策略模型输出的能量管理策略输入至列车动力仿真模型，获得列车动力仿真模型在能量管理策略下的仿真运行状态，根据仿真运行状态以及奖励函数获得对应的奖励参数；以奖励参数作为反馈数据对能量管理策略模型进行优化；

通过深度强化学习进行离线训练，迭代至收敛，得到优化后的能量管理策略模型；

以混动列车的实时的速度、加速度以及电池电量输入优化后的能量管理策略模型，获得优化的能量管理策略。

优选地，能量管理策略包括发动机的转速和转矩。

优选地，列车动力仿真模型包括：动力学模型、动力源模型以及电池模型，仿真运行状态包括列车运行能耗信息、发动机启停状态以及电池组的温度；动力源模型为按照列车的不同能量源的功率和连接结构建立的动力学分配模型。

优选地，能量管理策略的输入还包括列车的位置。

优选地，动力学模型为列车纵向运动动力学模型，方程如下：

其中，M为列车质量，V为列车纵向速度，∑F_l为列车的总牵引力，∑f_l为列车的总阻力，γ为列车的回转质量系数。

优选地，动力源模型包括建立动力学分配模型：

T_eng＝T_isg，T_mot＝T_axle

W_eng＝W_isg，W_mot＝W_axle

T_eng,T_isg,T_mot和T_axle分别为发动机、发电机、驱动电机和轴的转矩，而W_eng,W_isg,W_mot和W_axle分别为发动机、发电机、驱动电机和轴的转速；T_axle和W_axle通过列车运行速度和动力学模型仿真获得。

优选地，深度强化学习采用包括表演者网络和评论家网络的深度神经网络结构进行训练；表演者网络用于根据输入的速度、加速度以及电池电量，拟合输出能量管理策略；评论家网络用于通过奖励参数优化能量管理策略的收益；

表演者网络和评论家网络均包括：输入层、N个全连接神经网络层、以及输出层。

优选地，全连接神经网络层采用线性整流函数作为激活函数；表演者网络的输出层采用linear激活函数；评论家网络的输出层采用sigmoid激活函数。

优选地，奖励函数为

其中，RMB(E+Fuel)为电耗和油耗的人民币价格，表示列车的瞬时能耗；i(engine)表示发动机在某一时刻是否启动，如果发动机启动i(engine)＝－1，如果发动机不启动i(engine)＝0；―temperature表示电池组的温度奖励函数；w₁,w₂和w₃是对应的加权参数。

本发明还提供一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的步骤。

本发明具有以下有益效果：

本发明的基于深度强化学习的混动列车的能量管理方法及系统，通过进行基于深度强化学习方法的列车能量管理策略学习训练，与搭建列车仿真模型环境进行不断的交互学习；通过仿真环境产生的奖励函数指导列车之后的能量管理策略，并通过策略更新机制，得到所述机车最终的能量管理策略，可实现完全应用机器学习人工智能手段进行混合动力列车能量管理。是一种列车运行环境和策略训练、在线应用、效果检测、反馈更新等的闭环管理方法和系统。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的基于深度强化学习的混动列车的能量管理方法的流程示意图；

图2是本发明优选实施例的计算机系统的结构示意图；

图3是本发明优选实施例的深度神经网络的结构示意图；

图4是本发明优选实施例的混合动力列车的动力模型示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

参见图1，本发明的基于深度强化学习的混动列车的能量管理方法，包括以下步骤：

S1、获取混动列车的列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息的历史数据，作为源数据。

S2、从源数据中提取速度、加速度以及电池电量作为输入，以能量管理策略作为输出，建立能量管理策略模型。实施时，从列车运行速度、列车运行环境和动力总成信息中提取出列车运行速度，电池电量(SoC)以及到站点距离等做为状态数据。能量管理策略的输入还可包括列车的位置，如到站点距离等。本实施例中能量管理策略包括发动机的转速和转矩，即模型的控制参数。

S3、建立列车动力仿真模型，将能量管理策略模型输出的能量管理策略输入至列车动力仿真模型，获得列车动力仿真模型在能量管理策略下的仿真运行状态，根据仿真运行状态以及奖励函数获得对应的奖励参数；以奖励参数作为反馈数据对能量管理策略模型进行优化。实施时，还可从数据源中提取出列车运行能耗信息作为奖励参数。本实施例中，列车动力仿真模型包括：动力学模型、动力源模型以及电池模型，仿真运行状态包括列车运行能耗信息、发动机启停状态以及电池组的温度。

实施时，可从动力总成数据中提取出列车的电机和柴油发动机运行Map图，电池的充放电电压，但数据不足时，可进行台架实验提取相关信息，根据列车的运行数据对列车的动力学参数进行标定。对柴油机和主发电机的map图进行标定，得到其在不同转速和转矩下的工作效率。对动力电池组进行标定，得到不同充放电功率下的内阻。

然后，搭建动力学模型搭建。由于列车能量消耗之中，纵向运动消耗了绝大部分的能量，本列车仿真模型中只考虑纵向动力学模型。列车在纵向运动过程中，驱动轮在轮轨接触面上的牵引力推动车辆向前运动，该作用力由动力驱动装置(发动机和电机)转矩产生，并通过传动装置传递，最终带动驱动轮。当列车运行时，将受到阻碍其运动的阻力的作用。仿真模块的列车纵向运动动力学方程可表示为：

其中，M为列车质量，V为列车纵向速度，∑F_l为列车的总牵引力，∑f_l为列车的总阻力，γ为列车的回转质量系数。列车的基本阻力一般由摩擦阻力，运行阻力和空气阻力三部分构成。阻力部分可以通过根据不同车型的经验常数计算获得。此外，在考虑阻力时还需加入列车运行阻力，如列车经常经过弯道，需考虑弯道阻力。列车经过隧道时，需考虑隧道阻力。这些列车运行环境可以通过数据源模块中的列车运行日志信息得到。

再建立动力学分配模型。混合动力列车的驱动系统类型取决与发动机和电机如何机械耦合到传动轴。混合动力列车有一个由众多组成的复杂结构子系统，各子系统相互配合提升燃油经济性，混合动力列车的驱动模型可分为多种类型，最为常见的为串联式和并联式。动力学分配模型主要用于建模混合动力列车的发动机和电机的功率分配方式。参见图4，本实施例主要涉及包含一个驱动电机，一个发电机和一个发动机的混合动力列车，当涉及到并联构型时，本实施例以如下方式建模三者的转矩和转速的关系，电机和发动机通过机械耦合连接到传动轴。牵引力可以由发动机或电机单独提供，也可以由两者共同提供：

T_eng+T_mo_t+T_isg＝T_axle，

W_eng＝W_mot＝W_isg＝W_axle

当采用串联时，发动机与驱动轴没有机械耦合，所有牵引功率都是由电能转换而来的。发动机输出的机械能先通过发电机转换为电能，转换后的电能既可以对电池充电，也可以不经过电池直接通过驱动电机和变速器驱动车轮旋转，本实施例采用如下方式进行建模：

T_eng＝T_isg，T_mot＝T_axle

W_eng＝W_isg，W_mot＝W_axle

T_eng,T_isg,T_mot和T_axle分别为发动机，发电机，驱动电机和轴的转矩，而W_eng,W_isg,W_mot和W_axle分别为发动机，发电机，驱动电机和轴的转速。T_axle和W_axle可以通过列车运行速度和动力学模型仿真获得，T_eng和W_eng为系统的控制变量。

本实施例的奖励函数为

其中，RMB(E+Fuel)为电耗和油耗的人民币价格，表示列车的瞬时能耗；i(engine)表示发动机在某一时刻是否启动，如果发动机启动i(engine)＝-1，如果发动机不启动i(engine)＝0；这一函数设计是为了鼓励发动机尽量少启动，是的列车乘坐体验更为平顺，更为舒适。―temperature表示电池组的温度奖励函数；这一部分是为了控制电池的温度，使得动力总成的状态更加安全。w₁,w₂和w₃是对应的加权参数。

S4、通过深度强化学习进行离线训练，迭代至收敛，得到优化后的能量管理策略模型。

深度强化学习模块中的状态、动作和奖励信号的定义。深度强化学习能量管理工具的训练过程为在一个离散的时间序列下的每个时间步t，智能体观察其在环境中的状态s_t，并且根据当前策略π执行动作a_t，与是该智能体的状态发生转移，智能体观测到奖励r_t。本实施例将状态设计为列车的速度、加速度和电池电量状态，由于列车运行的状态与列车运行的路段有关系，在设计状态变量时也加入列车的位置。动作为发动机的转速和转矩。奖励设计为列车的瞬时油耗，此外，也将列车的舒适性和动力总成的安全性加入到奖励之中。由于电机驱动相较于发动机较为平顺，列车的柴油发动机启动次数越少就越为舒适，本实施例定义柴油发动机的启动次数为舒适性奖励函数。列车电池温度过高会对混动力车动力总成的安全性以及电池的寿命造成巨大影响，所以本实施例采用电池温度的负数作为动力总成安全奖励函数。

继而设计深度强化学习的深度神经网络结构，深度神经网络结构主要进行状态到动作的映射。由于发动机的转速和转矩为连续变量，本发明设计“表演者-评论家”(Actor-Critic，AC)框架作为基础载体。这一框架最为适用于连续型控制问题。它包含两个深度神经网络：表演者网络和评论家网络。表演者网络是通过深层神将网络权重来参数化表征，由它来拟合能量管理策略。评论家网络通过网络权重来参数化表征，由它来直接学习从状态和动作向最佳收益(Q值)的映射关系。即，本实施例的深度强化学习采用包括表演者网络和评论家网络的深度神经网络结构进行训练；表演者网络用于根据输入的速度、加速度以及电池电量，拟合输出能量管理策略；评论家网络用于通过奖励参数优化能量管理策略的收益。

参见图3，本实施例的表演者网络和评论家网络均包括：输入层、N个全连接神经网络层、以及输出层。全连接神经网络层采用线性整流函数作为激活函数，可更加有效率的进行梯度下降以及反向传播：避免了深层结构中的梯度爆炸和梯度消失问题。表演者网络的输出层采用linear激活函数；评论家网络的输出层采用sigmoid激活函数。图3中设计的网络由三层神经元为100。评价者网络的训练目标就是去更好的评判智能体当前的行为，同时表演者网络需要在当前评论家的评价体系下获取更高的值函数。因此，动作值需要沿着Q值增加的方向更新。

可采用如下方式构建表演者网络和评论家网络：

定义：控制变量a＝(W_eng,T_eng)，状态变量s＝(SoC,v,acc)，其中包括：电池的SoC，列车运行速度v以及列车的加速度acc。

构建表演家函数，即状态s与动作a之间的映射关系，本实施例提供双层全连接深度神经网络构建两者之间的关系：

σ()为激活函数，本发明提供线性整流函数作为激活函数，

为表演家的训练参数。

构建评论家函数，本实施例提供双层全连接深度神经网络来建模表演家函数：

concat()表示将两向量合并，

为评论家的训练参数。

实施时，对“表演者-评论家”框架能量管理器进行学习，首先建立一个驾驶历史经验数据库，用于储存历史数据并从中采样用于网络训练。通过利用数据模块每时刻的状态、动作和奖励数据储存下来，在实车环境应用中，驾驶历史经验数据库储存在云端并在远程服务器中结合仿真模型完成网络训练，由此可以减少混合动力列车控制单元的计算负荷。经验数据库的数据采集过程如下：每一时间步长下混合动力汽车状态s_t下，能量管理系统输出控制量a_t然后车辆状态转移至s_t+1并记录奖励r_t。将这一时刻下上述变量以(s_t,a_t,s_t+1,r_t)数据元组的形式保存。经验数据库的数据容量设置为50000个元组。在AC网络训练时，按照优先经验回放的方法每次抽取32个数据元组作为一个训练批次。采用Sum-Tree的搜索算法使得重要性较大的经验被优先抽取。

对本发明的能量管理策略模型的参数进行更新，本实施例设计决定策略梯度(DDPG)对网络参数进行更新。基于决定策略梯度的混动列车能量管理在连续空间搜索最优策略，连续空间的探索是DDPG的一个关键的组成部分。DDPG作为一个离线强化学习框架，一个优势在于它可以独立于探索算法。探索可通过添加服从某分布的噪声N到动作a_t来完成。本实施例将噪声建模为服从拉普拉斯分布

参数b_t将会随着训练时间而逐渐变小。

综上所述，本实施例的能量管理方法的训练过程见于算法1：

实施时，本实施例还可以设置控制策略步骤，主要负责执行深度强化学习输出的能量管理策略。为了执行深度强化学习算法输出的能量分配功率(列车的不同能量源的功率分配)。具备调整精确地调节发动机的转速和转矩的功能，能量管理时需与列车动力总成以及传感器通信以获取相应的列车动力总成以及传感器信息，在实时输出深度强化学习算法输出的动作后，可采集实时的能耗与列车运行状态，反馈到基于深度强化学习算法的能量管理策略模型中，支撑能量管理策略的实时更新。实时更新方式如下：

获取实时控制的动作、列车运行状态和奖励数据，将其存储与记忆池之中，执行算法1中的13-15步，完成深度强化学习中的评论家网络和表演者网络的更新。

S5、以混动列车的实时的速度、加速度以及电池电量输入优化后的能量管理策略模型，获得优化的能量管理策略。

本发明实施例还提供一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法实施例的步骤。

实施时，参见图2，上述计算机系统可设计为包括：数据源模块、机车动力总成仿真模块、深度强化学习模块和控制策略在线学习模块。

数据源模块用于对获得的数据源进行数据预处理，数据源包括列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息。数据预处理后将列车运行数据输送至机车运行环境学习模块。

列车动力总成仿真模块构成混动机车能量管理策略的离线训练模块，包括根据数据源模块产生的数据进行动力学建模、动力源建模以及电池建模等模块，该模块可根据深度强化学习算法产生的能量管理策略相对应产生高精度的仿真运行状态和奖励数据，数据将输送至深度强化学习模块对深度强化学习算法进行离线训练；

深度强化学习模块从动力总成仿真模块获得机车具体的运行环境和奖励函数，搭建深度神经网络和强化学习经验池，并进行基于深度强化学习方法的列车能量管理策略学习训练，与搭建机车仿真环境进行不断的交互学习，通过仿真环境产生的奖赏函数指导列车之后的能量管理策略，并通过策略更新机制，得到机车最终的能量管理策略。

控制策略在线学习模块在执行深度强化学习模块得到的能量管理策略时，根据数据源产生实时车辆状态，记录瞬时燃油消耗率，判断是否需要对学习到的能量管理策略进行更新，如需要更新，则结合列车实时产生的状态和奖励函数对深度强化学习模块所建立的神经网络进行再训练。

综上可知，本发明通过进行基于深度强化学习方法的列车能量管理策略学习训练，与搭建列车仿真模型环境进行不断的交互学习；通过仿真环境产生的奖励函数指导列车之后的能量管理策略，并通过策略更新机制，得到所述机车最终的能量管理策略，可实现完全应用机器学习人工智能手段进行混合动力列车能量管理。本发明是一种列车运行环境和策略训练、在线应用、效果检测、反馈更新等的闭环管理方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的混动列车的能量管理方法，其特征在于，包括以下步骤：

建立列车动力仿真模型，将所述能量管理策略模型输出的能量管理策略输入至所述列车动力仿真模型，获得所述列车动力仿真模型在所述能量管理策略下的仿真运行状态，根据所述仿真运行状态以及奖励函数获得对应的奖励参数；以所述奖励参数作为反馈数据对所述能量管理策略模型进行优化；

以混动列车的实时的速度、加速度以及电池电量输入所述优化后的能量管理策略模型，获得优化的能量管理策略。

2.根据权利要求1所述的基于深度强化学习的混动列车的能量管理方法，其特征在于，所述能量管理策略包括发动机的转速和转矩。

3.根据权利要求1所述的基于深度强化学习的混动列车的能量管理方法，其特征在于，所述列车动力仿真模型包括：动力学模型、动力源模型以及电池模型，所述仿真运行状态包括列车运行能耗信息、发动机启停状态以及电池组的温度；所述动力源模型为按照列车的不同能量源的功率和连接结构建立的动力学分配模型。

4.根据权利要求1所述的基于深度强化学习的混动列车的能量管理方法，其特征在于，所述能量管理策略的输入还包括列车的位置。

5.根据权利要求2所述的基于深度强化学习的混动列车的能量管理方法，其特征在于，所述动力学模型为列车纵向运动动力学模型，方程如下：

6.根据权利要求2所述的基于深度强化学习的混动列车的能量管理方法，其特征在于，所述动力源模型为：

T_eng＝T_isg，T_mot＝T_axle

W_eng＝W_isg，W_mot＝W_axle

T_eng，T_isg，T_mot和T_axle分别为发动机、发电机、驱动电机和轴的转矩，而W_eng，W_isg，W_mot和W_axle分别为发动机、发电机、驱动电机和轴的转速T_axle和W_axle通过列车运行速度和动力学模型仿真获得。

7.根据权利要求1至6中任一项所述的基于深度强化学习的混动列车的能量管理方法，其特征在于，所述深度强化学习采用包括表演者网络和评论家网络的深度神经网络结构进行训练；所述表演者网络用于根据输入的速度、加速度以及电池电量，拟合输出能量管理策略；所述评论家网络用于通过奖励参数优化能量管理策略的收益；

所述表演者网络和评论家网络均包括：输入层、N个全连接神经网络层、以及输出层。

8.根据权利要求7所述的基于深度强化学习的混动列车的能量管理方法，其特征在于，所述全连接神经网络层采用线性整流函数作为激活函数；所述表演者网络的输出层采用linear激活函数；所述评论家网络的输出层采用sigmoid激活函数。

9.根据权利要求7所述的基于深度强化学习的混动列车的能量管理方法，其特征在于，所述奖励函数为

其中，RMB(E+Fuel)为电耗和油耗的人民币价格，表示列车的瞬时能耗；i(engine)表示发动机在某一时刻是否启动，如果发动机启动i(engine)＝-1，如果发动机不启动i(engine)＝0；-temperature表示电池组的温度奖励函数；w₁，w₂和w₃是对应的加权参数。

10.一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至9中任一所述方法的步骤。