CN112116156A - 基于深度强化学习的混动列车的能量管理方法及系统 - Google Patents
基于深度强化学习的混动列车的能量管理方法及系统 Download PDFInfo
- Publication number
- CN112116156A CN112116156A CN202010989685.2A CN202010989685A CN112116156A CN 112116156 A CN112116156 A CN 112116156A CN 202010989685 A CN202010989685 A CN 202010989685A CN 112116156 A CN112116156 A CN 112116156A
- Authority
- CN
- China
- Prior art keywords
- train
- energy management
- model
- reinforcement learning
- management strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 99
- 230000002787 reinforcement Effects 0.000 title claims abstract description 54
- 238000004088 simulation Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000005265 energy consumption Methods 0.000 claims abstract description 15
- 230000001133 acceleration Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 37
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 11
- 239000000446 fuel Substances 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 230000005611 electricity Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000009471 action Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000003137 locomotive effect Effects 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 5
- 238000011217 control strategy Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004146 energy storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 235000006679 Mentha X verticillata Nutrition 0.000 description 1
- 235000002899 Mentha suaveolens Nutrition 0.000 description 1
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical class CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B61—RAILWAYS
- B61L—GUIDING RAILWAY TRAFFIC; ENSURING THE SAFETY OF RAILWAY TRAFFIC
- B61L27/00—Central railway traffic control systems; Trackside control; Communication systems specially adapted therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/14—Force analysis or force optimisation, e.g. static or dynamic forces
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Geometry (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Molecular Biology (AREA)
- Development Economics (AREA)
- Water Supply & Treatment (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Aviation & Aerospace Engineering (AREA)
Abstract
本发明公开了一种基于深度强化学习的混动列车的能量管理方法及系统,该方法包括:获取混动列车的列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息的历史数据作为源数据;从源数据中提取速度、加速度以及电池电量作为输入,以能量管理策略作为输出,建立能量管理策略模型;建立列车动力仿真模型,将能量管理策略输入至列车动力仿真模型,获得仿真运行状态和奖励参数;以奖励参数对能量管理策略模型进行优化;通过深度强化学习进行离线训练得到优化后的能量管理策略模型;以混动列车的实时数据输入优化后的能量管理策略模型,获得优化的能量管理策略。本发明可实现完全应用机器学习人工智能手段进行混合动力列车能量管理。
Description
技术领域
本发明涉及混合动力列车的能量管理技术领域,尤其涉及一种基于深度强化学习的混动列车的能量管理方法及系统。
背景技术
混合动力铁路列车(Hybrid Electric Train,HET)是使用可充电储能装置辅助牵引系统的铁路动力列车。混合动力铁路列车会在车上安装可充电储能装置,使用动力源(通常是柴油引擎)的过剩能量或者再生制动回收的电力替储能装置充电。混合动力列车具有多源的动力来源,动力源的来源较传统的列车更为复杂,因此高效节能的能量管理策略成为实现混合动力节能减排的关键。
目前商业应用中采用较多的简单规则式模式,电量消耗较快,且进入电量稳持模式后,燃油经济性提升空间将大幅受限。一种自适应最小能源消耗策略的实时能量管理策略可有效提高列车的燃油经济性,降低排放。
深度强化学习(DRL,deep reinforcement learning,DRL)是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂控制问题。如以DeepMind团队为代表的研究团队首次提出基于DQN(Deep Q-Network)的深度强化学习方法,并使用Atari 2600部分游戏作为测试对象,结果可以超过人类玩家。该机器学习技术上的突破随后在Nature期刊上进行发表,引起了机器学习研究领域的巨大轰动。与此同时,逐渐出现的深度强化学习能量管理策略在混合动力汽车上也展示了其良好的燃油经济性和鲁棒性。这些研究显示出了深度强化学习方法在混合动力列车能量管理上的潜力。
但是,目前基于深度强化学习方法的铁路列车能量管理策略仍无相关研究。
发明内容
本发明提供了一种基于深度强化学习的混动列车的能量管理方法及系统,用以解决混合动力铁路列车采用简单规则式模式进行能量管理,燃油经济性提升空间受限的技术问题。
为解决上述技术问题,本发明提出的技术方案为:
一种基于深度强化学习的混动列车的能量管理方法,包括以下步骤:
获取混动列车的列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息的历史数据,作为源数据;
从源数据中提取速度、加速度以及电池电量作为输入,以能量管理策略作为输出,建立能量管理策略模型;
建立列车动力仿真模型,将能量管理策略模型输出的能量管理策略输入至列车动力仿真模型,获得列车动力仿真模型在能量管理策略下的仿真运行状态,根据仿真运行状态以及奖励函数获得对应的奖励参数;以奖励参数作为反馈数据对能量管理策略模型进行优化;
通过深度强化学习进行离线训练,迭代至收敛,得到优化后的能量管理策略模型;
以混动列车的实时的速度、加速度以及电池电量输入优化后的能量管理策略模型,获得优化的能量管理策略。
优选地,能量管理策略包括发动机的转速和转矩。
优选地,列车动力仿真模型包括:动力学模型、动力源模型以及电池模型,仿真运行状态包括列车运行能耗信息、发动机启停状态以及电池组的温度;动力源模型为按照列车的不同能量源的功率和连接结构建立的动力学分配模型。
优选地,能量管理策略的输入还包括列车的位置。
优选地,动力学模型为列车纵向运动动力学模型,方程如下:
其中,M为列车质量,V为列车纵向速度,∑Fl为列车的总牵引力,∑fl为列车的总阻力,γ为列车的回转质量系数。
优选地,动力源模型包括建立动力学分配模型:
Teng=Tisg,Tmot=Taxle
Weng=Wisg,Wmot=Waxle
Teng,Tisg,Tmot和Taxle分别为发动机、发电机、驱动电机和轴的转矩,而Weng,Wisg,Wmot和Waxle分别为发动机、发电机、驱动电机和轴的转速;Taxle和Waxle通过列车运行速度和动力学模型仿真获得。
优选地,深度强化学习采用包括表演者网络和评论家网络的深度神经网络结构进行训练;表演者网络用于根据输入的速度、加速度以及电池电量,拟合输出能量管理策略;评论家网络用于通过奖励参数优化能量管理策略的收益;
表演者网络和评论家网络均包括:输入层、N个全连接神经网络层、以及输出层。
优选地,全连接神经网络层采用线性整流函数作为激活函数;表演者网络的输出层采用linear激活函数;评论家网络的输出层采用sigmoid激活函数。
其中,RMB(E+Fuel)为电耗和油耗的人民币价格,表示列车的瞬时能耗;i(engine)表示发动机在某一时刻是否启动,如果发动机启动i(engine)=-1,如果发动机不启动i(engine)=0;―temperature表示电池组的温度奖励函数;w1,w2和w3是对应的加权参数。
本发明还提供一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
本发明具有以下有益效果:
本发明的基于深度强化学习的混动列车的能量管理方法及系统,通过进行基于深度强化学习方法的列车能量管理策略学习训练,与搭建列车仿真模型环境进行不断的交互学习;通过仿真环境产生的奖励函数指导列车之后的能量管理策略,并通过策略更新机制,得到所述机车最终的能量管理策略,可实现完全应用机器学习人工智能手段进行混合动力列车能量管理。是一种列车运行环境和策略训练、在线应用、效果检测、反馈更新等的闭环管理方法和系统。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例的基于深度强化学习的混动列车的能量管理方法的流程示意图;
图2是本发明优选实施例的计算机系统的结构示意图;
图3是本发明优选实施例的深度神经网络的结构示意图;
图4是本发明优选实施例的混合动力列车的动力模型示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
参见图1,本发明的基于深度强化学习的混动列车的能量管理方法,包括以下步骤:
S1、获取混动列车的列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息的历史数据,作为源数据。
S2、从源数据中提取速度、加速度以及电池电量作为输入,以能量管理策略作为输出,建立能量管理策略模型。实施时,从列车运行速度、列车运行环境和动力总成信息中提取出列车运行速度,电池电量(SoC)以及到站点距离等做为状态数据。能量管理策略的输入还可包括列车的位置,如到站点距离等。本实施例中能量管理策略包括发动机的转速和转矩,即模型的控制参数。
S3、建立列车动力仿真模型,将能量管理策略模型输出的能量管理策略输入至列车动力仿真模型,获得列车动力仿真模型在能量管理策略下的仿真运行状态,根据仿真运行状态以及奖励函数获得对应的奖励参数;以奖励参数作为反馈数据对能量管理策略模型进行优化。实施时,还可从数据源中提取出列车运行能耗信息作为奖励参数。本实施例中,列车动力仿真模型包括:动力学模型、动力源模型以及电池模型,仿真运行状态包括列车运行能耗信息、发动机启停状态以及电池组的温度。
实施时,可从动力总成数据中提取出列车的电机和柴油发动机运行Map图,电池的充放电电压,但数据不足时,可进行台架实验提取相关信息,根据列车的运行数据对列车的动力学参数进行标定。对柴油机和主发电机的map图进行标定,得到其在不同转速和转矩下的工作效率。对动力电池组进行标定,得到不同充放电功率下的内阻。
然后,搭建动力学模型搭建。由于列车能量消耗之中,纵向运动消耗了绝大部分的能量,本列车仿真模型中只考虑纵向动力学模型。列车在纵向运动过程中,驱动轮在轮轨接触面上的牵引力推动车辆向前运动,该作用力由动力驱动装置(发动机和电机)转矩产生,并通过传动装置传递,最终带动驱动轮。当列车运行时,将受到阻碍其运动的阻力的作用。仿真模块的列车纵向运动动力学方程可表示为:
其中,M为列车质量,V为列车纵向速度,∑Fl为列车的总牵引力,∑fl为列车的总阻力,γ为列车的回转质量系数。列车的基本阻力一般由摩擦阻力,运行阻力和空气阻力三部分构成。阻力部分可以通过根据不同车型的经验常数计算获得。此外,在考虑阻力时还需加入列车运行阻力,如列车经常经过弯道,需考虑弯道阻力。列车经过隧道时,需考虑隧道阻力。这些列车运行环境可以通过数据源模块中的列车运行日志信息得到。
再建立动力学分配模型。混合动力列车的驱动系统类型取决与发动机和电机如何机械耦合到传动轴。混合动力列车有一个由众多组成的复杂结构子系统,各子系统相互配合提升燃油经济性,混合动力列车的驱动模型可分为多种类型,最为常见的为串联式和并联式。动力学分配模型主要用于建模混合动力列车的发动机和电机的功率分配方式。参见图4,本实施例主要涉及包含一个驱动电机,一个发电机和一个发动机的混合动力列车,当涉及到并联构型时,本实施例以如下方式建模三者的转矩和转速的关系,电机和发动机通过机械耦合连接到传动轴。牵引力可以由发动机或电机单独提供,也可以由两者共同提供:
Teng+Tmot+Tisg=Taxle,
Weng=Wmot=Wisg=Waxle
当采用串联时,发动机与驱动轴没有机械耦合,所有牵引功率都是由电能转换而来的。发动机输出的机械能先通过发电机转换为电能,转换后的电能既可以对电池充电,也可以不经过电池直接通过驱动电机和变速器驱动车轮旋转,本实施例采用如下方式进行建模:
Teng=Tisg,Tmot=Taxle
Weng=Wisg,Wmot=Waxle
Teng,Tisg,Tmot和Taxle分别为发动机,发电机,驱动电机和轴的转矩,而Weng,Wisg,Wmot和Waxle分别为发动机,发电机,驱动电机和轴的转速。Taxle和Waxle可以通过列车运行速度和动力学模型仿真获得,Teng和Weng为系统的控制变量。
其中,RMB(E+Fuel)为电耗和油耗的人民币价格,表示列车的瞬时能耗;i(engine)表示发动机在某一时刻是否启动,如果发动机启动i(engine)=-1,如果发动机不启动i(engine)=0;这一函数设计是为了鼓励发动机尽量少启动,是的列车乘坐体验更为平顺,更为舒适。―temperature表示电池组的温度奖励函数;这一部分是为了控制电池的温度,使得动力总成的状态更加安全。w1,w2和w3是对应的加权参数。
S4、通过深度强化学习进行离线训练,迭代至收敛,得到优化后的能量管理策略模型。
深度强化学习模块中的状态、动作和奖励信号的定义。深度强化学习能量管理工具的训练过程为在一个离散的时间序列下的每个时间步t,智能体观察其在环境中的状态st,并且根据当前策略π执行动作at,与是该智能体的状态发生转移,智能体观测到奖励rt。本实施例将状态设计为列车的速度、加速度和电池电量状态,由于列车运行的状态与列车运行的路段有关系,在设计状态变量时也加入列车的位置。动作为发动机的转速和转矩。奖励设计为列车的瞬时油耗,此外,也将列车的舒适性和动力总成的安全性加入到奖励之中。由于电机驱动相较于发动机较为平顺,列车的柴油发动机启动次数越少就越为舒适,本实施例定义柴油发动机的启动次数为舒适性奖励函数。列车电池温度过高会对混动力车动力总成的安全性以及电池的寿命造成巨大影响,所以本实施例采用电池温度的负数作为动力总成安全奖励函数。
继而设计深度强化学习的深度神经网络结构,深度神经网络结构主要进行状态到动作的映射。由于发动机的转速和转矩为连续变量,本发明设计“表演者-评论家”(Actor-Critic,AC)框架作为基础载体。这一框架最为适用于连续型控制问题。它包含两个深度神经网络:表演者网络和评论家网络。表演者网络是通过深层神将网络权重来参数化表征,由它来拟合能量管理策略。评论家网络通过网络权重来参数化表征,由它来直接学习从状态和动作向最佳收益(Q值)的映射关系。即,本实施例的深度强化学习采用包括表演者网络和评论家网络的深度神经网络结构进行训练;表演者网络用于根据输入的速度、加速度以及电池电量,拟合输出能量管理策略;评论家网络用于通过奖励参数优化能量管理策略的收益。
参见图3,本实施例的表演者网络和评论家网络均包括:输入层、N个全连接神经网络层、以及输出层。全连接神经网络层采用线性整流函数作为激活函数,可更加有效率的进行梯度下降以及反向传播:避免了深层结构中的梯度爆炸和梯度消失问题。表演者网络的输出层采用linear激活函数;评论家网络的输出层采用sigmoid激活函数。图3中设计的网络由三层神经元为100。评价者网络的训练目标就是去更好的评判智能体当前的行为,同时表演者网络需要在当前评论家的评价体系下获取更高的值函数。因此,动作值需要沿着Q值增加的方向更新。
可采用如下方式构建表演者网络和评论家网络:
定义:控制变量a=(Weng,Teng),状态变量s=(SoC,v,acc),其中包括:电池的SoC,列车运行速度v以及列车的加速度acc。
构建表演家函数,即状态s与动作a之间的映射关系,本实施例提供双层全连接深度神经网络构建两者之间的关系:
构建评论家函数,本实施例提供双层全连接深度神经网络来建模表演家函数:
实施时,对“表演者-评论家”框架能量管理器进行学习,首先建立一个驾驶历史经验数据库,用于储存历史数据并从中采样用于网络训练。通过利用数据模块每时刻的状态、动作和奖励数据储存下来,在实车环境应用中,驾驶历史经验数据库储存在云端并在远程服务器中结合仿真模型完成网络训练,由此可以减少混合动力列车控制单元的计算负荷。经验数据库的数据采集过程如下:每一时间步长下混合动力汽车状态st下,能量管理系统输出控制量at然后车辆状态转移至st+1并记录奖励rt。将这一时刻下上述变量以(st,at,st+1,rt)数据元组的形式保存。经验数据库的数据容量设置为50000个元组。在AC网络训练时,按照优先经验回放的方法每次抽取32个数据元组作为一个训练批次。采用Sum-Tree的搜索算法使得重要性较大的经验被优先抽取。
对本发明的能量管理策略模型的参数进行更新,本实施例设计决定策略梯度(DDPG)对网络参数进行更新。基于决定策略梯度的混动列车能量管理在连续空间搜索最优策略,连续空间的探索是DDPG的一个关键的组成部分。DDPG作为一个离线强化学习框架,一个优势在于它可以独立于探索算法。探索可通过添加服从某分布的噪声N到动作at来完成。本实施例将噪声建模为服从拉普拉斯分布参数bt将会随着训练时间而逐渐变小。
综上所述,本实施例的能量管理方法的训练过程见于算法1:
实施时,本实施例还可以设置控制策略步骤,主要负责执行深度强化学习输出的能量管理策略。为了执行深度强化学习算法输出的能量分配功率(列车的不同能量源的功率分配)。具备调整精确地调节发动机的转速和转矩的功能,能量管理时需与列车动力总成以及传感器通信以获取相应的列车动力总成以及传感器信息,在实时输出深度强化学习算法输出的动作后,可采集实时的能耗与列车运行状态,反馈到基于深度强化学习算法的能量管理策略模型中,支撑能量管理策略的实时更新。实时更新方式如下:
获取实时控制的动作、列车运行状态和奖励数据,将其存储与记忆池之中,执行算法1中的13-15步,完成深度强化学习中的评论家网络和表演者网络的更新。
S5、以混动列车的实时的速度、加速度以及电池电量输入优化后的能量管理策略模型,获得优化的能量管理策略。
本发明实施例还提供一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法实施例的步骤。
实施时,参见图2,上述计算机系统可设计为包括:数据源模块、机车动力总成仿真模块、深度强化学习模块和控制策略在线学习模块。
数据源模块用于对获得的数据源进行数据预处理,数据源包括列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息。数据预处理后将列车运行数据输送至机车运行环境学习模块。
列车动力总成仿真模块构成混动机车能量管理策略的离线训练模块,包括根据数据源模块产生的数据进行动力学建模、动力源建模以及电池建模等模块,该模块可根据深度强化学习算法产生的能量管理策略相对应产生高精度的仿真运行状态和奖励数据,数据将输送至深度强化学习模块对深度强化学习算法进行离线训练;
深度强化学习模块从动力总成仿真模块获得机车具体的运行环境和奖励函数,搭建深度神经网络和强化学习经验池,并进行基于深度强化学习方法的列车能量管理策略学习训练,与搭建机车仿真环境进行不断的交互学习,通过仿真环境产生的奖赏函数指导列车之后的能量管理策略,并通过策略更新机制,得到机车最终的能量管理策略。
控制策略在线学习模块在执行深度强化学习模块得到的能量管理策略时,根据数据源产生实时车辆状态,记录瞬时燃油消耗率,判断是否需要对学习到的能量管理策略进行更新,如需要更新,则结合列车实时产生的状态和奖励函数对深度强化学习模块所建立的神经网络进行再训练。
综上可知,本发明通过进行基于深度强化学习方法的列车能量管理策略学习训练,与搭建列车仿真模型环境进行不断的交互学习;通过仿真环境产生的奖励函数指导列车之后的能量管理策略,并通过策略更新机制,得到所述机车最终的能量管理策略,可实现完全应用机器学习人工智能手段进行混合动力列车能量管理。本发明是一种列车运行环境和策略训练、在线应用、效果检测、反馈更新等的闭环管理方法。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度强化学习的混动列车的能量管理方法,其特征在于,包括以下步骤:
获取混动列车的列车运行速度、列车运行环境、列车运行能耗信息和列车运行动力总成信息的历史数据,作为源数据;
从源数据中提取速度、加速度以及电池电量作为输入,以能量管理策略作为输出,建立能量管理策略模型;
建立列车动力仿真模型,将所述能量管理策略模型输出的能量管理策略输入至所述列车动力仿真模型,获得所述列车动力仿真模型在所述能量管理策略下的仿真运行状态,根据所述仿真运行状态以及奖励函数获得对应的奖励参数;以所述奖励参数作为反馈数据对所述能量管理策略模型进行优化;
通过深度强化学习进行离线训练,迭代至收敛,得到优化后的能量管理策略模型;
以混动列车的实时的速度、加速度以及电池电量输入所述优化后的能量管理策略模型,获得优化的能量管理策略。
2.根据权利要求1所述的基于深度强化学习的混动列车的能量管理方法,其特征在于,所述能量管理策略包括发动机的转速和转矩。
3.根据权利要求1所述的基于深度强化学习的混动列车的能量管理方法,其特征在于,所述列车动力仿真模型包括:动力学模型、动力源模型以及电池模型,所述仿真运行状态包括列车运行能耗信息、发动机启停状态以及电池组的温度;所述动力源模型为按照列车的不同能量源的功率和连接结构建立的动力学分配模型。
4.根据权利要求1所述的基于深度强化学习的混动列车的能量管理方法,其特征在于,所述能量管理策略的输入还包括列车的位置。
6.根据权利要求2所述的基于深度强化学习的混动列车的能量管理方法,其特征在于,所述动力源模型为:
Teng=Tisg,Tmot=Taxle
Weng=Wisg,Wmot=Waxle
Teng,Tisg,Tmot和Taxle分别为发动机、发电机、驱动电机和轴的转矩,而Weng,Wisg,Wmot和Waxle分别为发动机、发电机、驱动电机和轴的转速Taxle和Waxle通过列车运行速度和动力学模型仿真获得。
7.根据权利要求1至6中任一项所述的基于深度强化学习的混动列车的能量管理方法,其特征在于,所述深度强化学习采用包括表演者网络和评论家网络的深度神经网络结构进行训练;所述表演者网络用于根据输入的速度、加速度以及电池电量,拟合输出能量管理策略;所述评论家网络用于通过奖励参数优化能量管理策略的收益;
所述表演者网络和评论家网络均包括:输入层、N个全连接神经网络层、以及输出层。
8.根据权利要求7所述的基于深度强化学习的混动列车的能量管理方法,其特征在于,所述全连接神经网络层采用线性整流函数作为激活函数;所述表演者网络的输出层采用linear激活函数;所述评论家网络的输出层采用sigmoid激活函数。
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至9中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010989685.2A CN112116156B (zh) | 2020-09-18 | 2020-09-18 | 基于深度强化学习的混动列车的能量管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010989685.2A CN112116156B (zh) | 2020-09-18 | 2020-09-18 | 基于深度强化学习的混动列车的能量管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112116156A true CN112116156A (zh) | 2020-12-22 |
CN112116156B CN112116156B (zh) | 2023-02-03 |
Family
ID=73800776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010989685.2A Active CN112116156B (zh) | 2020-09-18 | 2020-09-18 | 基于深度强化学习的混动列车的能量管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112116156B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819215A (zh) * | 2021-01-26 | 2021-05-18 | 北京百度网讯科技有限公司 | 推荐策略训练方法、装置、电子设备及可读存储介质 |
CN112906296A (zh) * | 2021-02-02 | 2021-06-04 | 武汉理工大学 | 混合动力汽车全服役期能量优化方法、系统和存储介质 |
CN113111445A (zh) * | 2021-05-12 | 2021-07-13 | 西华大学 | 一种燃料电池汽车半实物仿真系统 |
CN113561829A (zh) * | 2021-06-30 | 2021-10-29 | 福建时代星云科技有限公司 | 一种基于机器学习的储充站控制方法及终端 |
CN113609102A (zh) * | 2021-08-11 | 2021-11-05 | 佛山仙湖实验室 | 一种混合驱动矿用卡车的能量管理数据库的构建方法 |
CN113682293A (zh) * | 2021-09-29 | 2021-11-23 | 厦门大学 | 智能网联混合动力汽车多系统动态协调控制系统及方法 |
CN113715805A (zh) * | 2021-10-09 | 2021-11-30 | 南京天航智能装备研究院有限公司 | 一种基于工况辨识的规则融合深度强化学习能量管理方法 |
CN114880770A (zh) * | 2022-04-29 | 2022-08-09 | 西南交通大学 | 一种基于参考深度强化学习的列车协同运行控制方法 |
CN115150787A (zh) * | 2022-07-06 | 2022-10-04 | 四川大学 | 基于深度强化学习的能量管理策略包的部署系统及方法 |
WO2022205175A1 (zh) * | 2021-03-31 | 2022-10-06 | 西门子股份公司 | 列车运行优化方法及装置 |
CN115489320A (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种基于深度强化学习的列车受电弓智能控制方法 |
WO2024025623A1 (en) * | 2022-07-28 | 2024-02-01 | Google Llc | Oneshot neural architecture and hardware architecture search |
CN117578679A (zh) * | 2024-01-15 | 2024-02-20 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194612A (zh) * | 2017-06-20 | 2017-09-22 | 清华大学 | 一种基于深度强化学习的列车运行调度方法及系统 |
EP3557489A1 (en) * | 2018-04-19 | 2019-10-23 | Siemens Mobility GmbH | Energy optimisation in operation of a rail vehicle |
CN110481536A (zh) * | 2019-07-03 | 2019-11-22 | 中国科学院深圳先进技术研究院 | 一种应用于混合动力汽车的控制方法及设备 |
CN110497943A (zh) * | 2019-09-03 | 2019-11-26 | 西南交通大学 | 一种基于强化学习的城轨列车节能运行策略在线优化方法 |
JP6705545B1 (ja) * | 2019-10-18 | 2020-06-03 | トヨタ自動車株式会社 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
CN111369181A (zh) * | 2020-06-01 | 2020-07-03 | 北京全路通信信号研究设计院集团有限公司 | 一种列车自主调度深度强化学习方法和模块 |
JP6744597B1 (ja) * | 2019-10-18 | 2020-08-19 | トヨタ自動車株式会社 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
-
2020
- 2020-09-18 CN CN202010989685.2A patent/CN112116156B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194612A (zh) * | 2017-06-20 | 2017-09-22 | 清华大学 | 一种基于深度强化学习的列车运行调度方法及系统 |
EP3557489A1 (en) * | 2018-04-19 | 2019-10-23 | Siemens Mobility GmbH | Energy optimisation in operation of a rail vehicle |
CN110481536A (zh) * | 2019-07-03 | 2019-11-22 | 中国科学院深圳先进技术研究院 | 一种应用于混合动力汽车的控制方法及设备 |
CN110497943A (zh) * | 2019-09-03 | 2019-11-26 | 西南交通大学 | 一种基于强化学习的城轨列车节能运行策略在线优化方法 |
JP6705545B1 (ja) * | 2019-10-18 | 2020-06-03 | トヨタ自動車株式会社 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
JP6744597B1 (ja) * | 2019-10-18 | 2020-08-19 | トヨタ自動車株式会社 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
CN111369181A (zh) * | 2020-06-01 | 2020-07-03 | 北京全路通信信号研究设计院集团有限公司 | 一种列车自主调度深度强化学习方法和模块 |
Non-Patent Citations (3)
Title |
---|
JINGDA WU等: "Continuous reinforcement learning of energy management with deep Q network for a power split hybrid electric bus", 《APPLIED ENERGY》, 15 July 2018 (2018-07-15), pages 801 * |
ROMAN LIESSNER等: "Deep Reinforcement Learning for Advanced Energy Management of Hybrid Electric Vehicles", 《ICAART 2018 - 10TH INTERNATIONAL CONFERENCE ON AGENTS AND ARTIFICIAL INTELLIGENCE》, 31 January 2018 (2018-01-31) * |
郑春花等: "强化学习在混合动力汽车能量管理方面的应用", 《哈尔滨理工大学学报》, no. 04, 14 September 2020 (2020-09-14) * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819215A (zh) * | 2021-01-26 | 2021-05-18 | 北京百度网讯科技有限公司 | 推荐策略训练方法、装置、电子设备及可读存储介质 |
CN112819215B (zh) * | 2021-01-26 | 2024-01-12 | 北京百度网讯科技有限公司 | 推荐策略训练方法、装置、电子设备及可读存储介质 |
CN112906296A (zh) * | 2021-02-02 | 2021-06-04 | 武汉理工大学 | 混合动力汽车全服役期能量优化方法、系统和存储介质 |
CN112906296B (zh) * | 2021-02-02 | 2022-05-10 | 武汉理工大学 | 混合动力汽车全服役期能量优化方法、系统和存储介质 |
WO2022205175A1 (zh) * | 2021-03-31 | 2022-10-06 | 西门子股份公司 | 列车运行优化方法及装置 |
CN113111445A (zh) * | 2021-05-12 | 2021-07-13 | 西华大学 | 一种燃料电池汽车半实物仿真系统 |
CN113111445B (zh) * | 2021-05-12 | 2022-05-10 | 西华大学 | 一种燃料电池汽车半实物仿真系统 |
CN113561829A (zh) * | 2021-06-30 | 2021-10-29 | 福建时代星云科技有限公司 | 一种基于机器学习的储充站控制方法及终端 |
WO2023272958A1 (zh) * | 2021-06-30 | 2023-01-05 | 福建时代星云科技有限公司 | 一种基于机器学习的储充站控制方法及终端 |
CN113609102B (zh) * | 2021-08-11 | 2024-03-19 | 佛山仙湖实验室 | 一种混合驱动矿用卡车的能量管理数据库的构建方法 |
CN113609102A (zh) * | 2021-08-11 | 2021-11-05 | 佛山仙湖实验室 | 一种混合驱动矿用卡车的能量管理数据库的构建方法 |
CN113682293A (zh) * | 2021-09-29 | 2021-11-23 | 厦门大学 | 智能网联混合动力汽车多系统动态协调控制系统及方法 |
CN113682293B (zh) * | 2021-09-29 | 2023-08-22 | 厦门大学 | 智能网联混合动力汽车多系统动态协调控制系统及方法 |
CN113715805A (zh) * | 2021-10-09 | 2021-11-30 | 南京天航智能装备研究院有限公司 | 一种基于工况辨识的规则融合深度强化学习能量管理方法 |
CN113715805B (zh) * | 2021-10-09 | 2023-01-06 | 南京天航智能装备研究院有限公司 | 一种基于工况辨识的规则融合深度强化学习能量管理方法 |
CN114880770B (zh) * | 2022-04-29 | 2023-03-07 | 西南交通大学 | 一种基于参考深度强化学习的列车协同运行控制方法 |
CN114880770A (zh) * | 2022-04-29 | 2022-08-09 | 西南交通大学 | 一种基于参考深度强化学习的列车协同运行控制方法 |
CN115150787A (zh) * | 2022-07-06 | 2022-10-04 | 四川大学 | 基于深度强化学习的能量管理策略包的部署系统及方法 |
WO2024025623A1 (en) * | 2022-07-28 | 2024-02-01 | Google Llc | Oneshot neural architecture and hardware architecture search |
CN115489320A (zh) * | 2022-09-23 | 2022-12-20 | 西南交通大学 | 一种基于深度强化学习的列车受电弓智能控制方法 |
CN117578679A (zh) * | 2024-01-15 | 2024-02-20 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
CN117578679B (zh) * | 2024-01-15 | 2024-03-22 | 太原理工大学 | 基于强化学习的锂电池智能充电控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112116156B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112116156B (zh) | 基于深度强化学习的混动列车的能量管理方法及系统 | |
Qi et al. | Hierarchical reinforcement learning based energy management strategy for hybrid electric vehicle | |
Wu et al. | Fuzzy energy management strategy for a hybrid electric vehicle based on driving cycle recognition | |
Singh et al. | Feed-forward modeling and real-time implementation of an intelligent fuzzy logic-based energy management strategy in a series–parallel hybrid electric vehicle to improve fuel economy | |
Li et al. | Power management for a plug-in hybrid electric vehicle based on reinforcement learning with continuous state and action spaces | |
Qi et al. | Self-supervised reinforcement learning-based energy management for a hybrid electric vehicle | |
Guo et al. | Transfer deep reinforcement learning-enabled energy management strategy for hybrid tracked vehicle | |
Wei et al. | Comparison of architecture and adaptive energy management strategy for plug-in hybrid electric logistics vehicle | |
CN113635879B (zh) | 一种车辆制动力分配方法 | |
CN112249002A (zh) | 一种基于td3的启发式串并联混合动力能量管理方法 | |
Saju et al. | Modeling and control of a hybrid electric vehicle to optimize system performance for fuel efficiency | |
Ruan et al. | Real‐Time Energy Management Strategy Based on Driver‐Action‐Impact MPC for Series Hybrid Electric Vehicles | |
Goodarzi et al. | Stability enhancement and fuel economy of the 4-wheel-drive hybrid electric vehicles by optimal tyre force distribution | |
Zhang et al. | Online updating energy management strategy based on deep reinforcement learning with accelerated training for hybrid electric tracked vehicles | |
Zhang et al. | Driving behavior oriented torque demand regulation for electric vehicles with single pedal driving | |
Xue et al. | An improved energy management strategy for 24t heavy-duty hybrid emergency rescue vehicle with dual-motor torque increasing | |
CN115805840A (zh) | 一种增程式电动装载机能耗控制方法及系统 | |
Wang et al. | An Online Predictive Energy Management Strategy for Multi-Mode Plug-in Hybrid Electric Vehicle With Mode Transition Schedule Optimization | |
Zhang et al. | A Real-time energy management strategy for parallel HEVs with MPC | |
Nguyen et al. | Optimal Energy Management Strategy based on Driving Pattern Recognition for a Dual-Motor Dual-Source Electric Vehicle | |
Li et al. | A novel energy management strategy for series hybrid electric rescue vehicle | |
Hu et al. | Supplementary learning control for energy management strategy of hybrid electric vehicles at scale | |
Zhou et al. | Energy optimization for intelligent hybrid electric vehicles based on hybrid system approach in a car‐following process | |
Xie et al. | Driving Intention Oriented Real-Time Energy Management Strategy for PHEV in Urban V2X Scenario | |
CN117698685B (zh) | 一种面向动态场景的混动汽车自适应能量管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |