CN116523228A - 基于深度强化学习的移动能源网络实时能量管理方法及系统 - Google Patents

基于深度强化学习的移动能源网络实时能量管理方法及系统 Download PDF

Info

Publication number
CN116523228A
CN116523228A CN202310451380.XA CN202310451380A CN116523228A CN 116523228 A CN116523228 A CN 116523228A CN 202310451380 A CN202310451380 A CN 202310451380A CN 116523228 A CN116523228 A CN 116523228A
Authority
CN
China
Prior art keywords
soc
state
network
real
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310451380.XA
Other languages
English (en)
Inventor
文书礼
顾明昌
叶惠丽
朱淼
董晊兴
马建军
江昇
潘春阳
徐莉婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202310451380.XA priority Critical patent/CN116523228A/zh
Publication of CN116523228A publication Critical patent/CN116523228A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Educational Administration (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)

Abstract

本发明提供了一种基于深度强化学习的移动能源网络实时能量管理方法及系统,包括:步骤S1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;步骤S2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;步骤S3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。

Description

基于深度强化学习的移动能源网络实时能量管理方法及系统
技术领域
本发明涉及电气工程与计算机科学领域,具体地,涉及基于深度强化学习的移动能源网络实时能量管理方法。
背景技术
随着减排政策的日趋严格,以电动汽车、电气化船舶、移动储能车为代表的移动能源网络成为交通电气化不可逆转的趋势。得益于电力推进技术与综合电力系统的不断发展,电气化船舶、电动汽车的渗透率正在逐步提升。传统交通工具运行模式中,人为操控起着至关重要的作用,而随着移动能源网络复杂性不断提高,智能化成为移动能源网络发展的必然趋势。
目前,移动能源网络的能量管理大多基于对能源和负荷的准确预测,侧重于建立全航程的数学优化模型,未能将航行过程中的实时动态变化因素考虑在内。但实时航行时,由于环境的复杂性和不确定性,移动能源网络自身能源系统和所处环境均处于动态变化的过程中,准确预测在实际场景中很难实现。移动能源网络的实时能量管理系统需增强对负荷变化的适应性和能量调控的灵活性。
专利文献CN114498753A(申请号:202210160754.8)公开了一种数据驱动的低碳船舶微电网实时能量管理方法,首先,通过预测误差拟合、等概率逆变换场景集生成、同步回代法场景集削减建立考虑预测误差时序相关性的船舶净负荷场景集;其次,结合场景集信息及滚动优化、反馈校正机制,建立各场景下控制动作运行成本与荷电状态偏离惩罚成本之和期望最小的随机模型预测控制能量管理模型;随后,基于随机模型预测控制生成大量训练数据样本,训练随机森林算法对数据样本进行多变量回归;分别得到低、中、高三种不同功率等级负荷下的数据驱动随机模型预测控制实时能量管理策略。该专利针对船舶微电网提出了一种基于数据驱动的实时能量管理方法。该方法着眼于船舶负荷的准确预测,并通过数学优化模型求解得到控制变量,然而准确预测往往难以实现,此外该专利也未考虑船速动态变化对船舶实时能量调控的影响。而本发明所提方案无需事先进行负荷的准确预测,训练好的船舶智能体能够基于船速和负荷的动态变化实时地优化出柴油发电机组和储能的功率分配。
Y.Hu,W.Li,K.Xu,T.Zahid,F.Qin,and C.Li,“Energy Management Strategy fora Hybrid Electric Vehicle Based on Deep Reinforcement Learning,”AppliedSciences,vol.8,no.2,p.187,Jan.2018.该文献利用深度强化学习研究了混合动力汽车的实时能量管理策略。该方法能够根据数据输入自主学习最优策略,然而该文献中状态空间、动作空间以及奖励函数的设计并不适用于全电力船舶。本发明根据全电力船舶能源系统的特点设计了相应的状态空间、动作空间以及奖励函数,能够有效解决全电力船舶的实时能量管理问题。
Kumar S.Deep Reinforcement learning based energy management in marinehybrid vehicle[D].NTNU,2021.该文献基于深度强化学习研究了混合动力船舶的实时能量管理策略。然而该文献对于船舶航行过程中的动态变化因素考虑不够全面,仅考虑了负荷的不确定性,并未考虑船速变化对实时能量管理智能决策系统的影响。本发明将船舶航速以及加速度等状态变量考虑在内,能够更好地识别船舶航行的动态变化规律,进一步提升了船舶航行的智能决策水平。
为了实现移动能源网络实时的能量优化调控,提高移动能源网络航行过程中的智能决策水平并减少燃油消耗,本发明基于深度强化学习思想,提出移动能源网络实时能量管理方法,可以大幅度提升移动能源网络运行效率。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度强化学习的移动能源网络实时能量管理方法及系统。
根据本发明提供的一种基于深度强化学习的移动能源网络实时能量管理方法,包括:
步骤S1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;
步骤S2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;
步骤S3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;
所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。
优选地,所述状态空间采用:
其中,表示t时段的船速;/>表示t时段的船速加速度;/>表示t时段的生活服务负荷的功率需求;SOCt表示t时段储能系统的荷电状态;
所述动作空间采用:
At={ratiot}
其中, 表示t时段柴油发电机组的输出功率;PGN表示柴油发电机组的额定功率;ratiot在0到1的范围内离散化取值;当ratiot等于1时,表示柴油发电机组按最大功率运行;ratiot等于0时表示此时柴油发电机组空载运行,由储能系统提供全部负荷支撑;
所述奖励函数采用:
智能决策系统做出决策动作At,储能系统荷电状态由SOCt变为SOCt+1,若SOCt+1超出规定的荷电状态上下限,则获得SOCt+1和SOCt的变化趋势,若变化趋势和期望相反,则通过奖励函数施加惩罚;
当SOCt+1<0或SOCt+1>1时:
rt=-C
其中,rt表示智能决策系统做出决策动作At后获得的奖励值;C表示正数;
当0≤SOCt+1<SOCregion_L时:
其中,SOCregion_L表示储能系统荷电状态安全区间的下限;|ΔSOCmax|表示一个时间段储能系统荷电状态最大变化量的绝对值;
当SOCregion_H≤SOCt+1<1时:
其中,SOCregion_H表示储能系统荷电状态安全区间的上限;
当SOCregion_L≤SOCt+1<SOCregion_H时,表示荷电状态在安全区间时,奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数:
其中,和β为拟合参数,使得此时rt的取值大致在[-1,1]的区间内变化,ratioopt为柴油发电机组燃油效率最佳运行点。
优选地,所述Q网络模型采用:
其中,t表示时间,Gt表示t时段的回报,St表示t时段的状态,At表示t时段智能决策系统做出的决策动作,Rt+k表示t+k时段的奖励;Eπ表示在策略π下求期望,γ表示折扣因子。
优选地,所述步骤S2采用:
步骤S2.1:初始化当前Q网络模型Qω(s,a),并采用相同参数初始化目标网络
步骤S2.2:初始化经验回放池R;
步骤S2.3:基于马尔科夫决策序列获取初始状态s1
步骤S2.4:根据当前网络Qω(s,a)以ε-贪婪策略选择当前状态st下的动作at,执行动作at,获得奖励rt,环境状态变化为st+1;将(st,at,rt,st+1)存储到经验回放池中;重复触发步骤S2.4,当经验回放池中数据满足预设要求时,则采样N个数据{(si,ai,ri,s′i)}i=1,…,N;对于每个数据利用目标网络计算损失函数,并通过随机梯度下降算法最小化损失,更新当前网络Qω(s,a)的参数;每隔一定的时间将当前网络的参数同步至目标网络;重复触发步骤S2.4,直至当前马尔科夫决策序列为终止状态;获取新的马尔科夫决策序列,重复触发步骤S2.3至步骤S2.4,直至训练完毕。
优选地,所述步骤S2.4采用:
利用目标网络计算
其中,γ表示折扣因子;
计算损失函数:
根据本发明提供的一种基于深度强化学习的移动能源网络实时能量管理系统,包括:
模块M1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;
模块M2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;
模块M3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;
所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。
优选地,所述状态空间采用:
其中,表示t时段的船速;/>表示t时段的船速加速度;/>表示t时段的生活服务负荷的功率需求;SOCt表示t时段储能系统的荷电状态;
所述动作空间采用:
At={ratiot}
其中, 表示t时段柴油发电机组的输出功率;PGN表示柴油发电机组的额定功率;ratiot在0到1的范围内离散化取值;当ratiot等于1时,表示柴油发电机组按最大功率运行;ratiot等于0时表示此时柴油发电机组空载运行,由储能系统提供全部负荷支撑;
所述奖励函数采用:
智能决策系统做出决策动作At,储能系统荷电状态由SOCt变为SOCt+1,若SOCt+1超出规定的荷电状态上下限,则获得SOCt+1和SOCt的变化趋势,若变化趋势和期望相反,则通过奖励函数施加惩罚;
当SOCt+1<0或SOCt+1>1时:
rt=-C
其中,rt表示智能决策系统做出决策动作At后获得的奖励值;C表示正数;
当0≤SOCt+1<SOCregion_L时:
其中,SOCregion_L表示储能系统荷电状态安全区间的下限;|ΔSOCmax|表示一个时间段储能系统荷电状态最大变化量的绝对值;
当SOCregion_H≤SOCt+1<1时:
其中,SOCregion_H表示储能系统荷电状态安全区间的上限;
当SOCregion_L≤SOCt+1<SOCregion_H时,表示荷电状态在安全区间时,奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数:
其中,和β为拟合参数,使得此时rt的取值大致在[-1,1]的区间内变化,ratioopt为柴油发电机组燃油效率最佳运行点。
优选地,所述Q网络模型采用:
其中,t表示时间,Gt表示t时段的回报,St表示t时段的状态,At表示t时段智能决策系统做出的决策动作,Rt+k表示t+k时段的奖励;Eπ表示在策略π下求期望,γ表示折扣因子。
优选地,所述模块M2采用:
模块M2.1:初始化当前Q网络模型Qω(s,a),并采用相同参数初始化目标网络
模块M2.2:初始化经验回放池R;
模块M2.3:基于马尔科夫决策序列获取初始状态s1
模块M2.4:根据当前网络Qω(s,a)以ε-贪婪策略选择当前状态st下的动作at,执行动作at,获得奖励rt,环境状态变化为st+1;将(st,at,rt,st+1)存储到经验回放池中;重复触发模块M2.4,当经验回放池中数据满足预设要求时,则采样N个数据{(si,ai,ri,s′i)}i=1,...,N;对于每个数据利用目标网络计算损失函数,并通过随机梯度下降算法最小化损失,更新当前网络Qω(s,a)的参数;每隔一定的时间将当前网络的参数同步至目标网络;重复触发模块M2.4,直至当前马尔科夫决策序列为终止状态;获取新的马尔科夫决策序列,重复触发模块M2.3至模块M2.4,直至训练完毕。
优选地,所述模块M2.4采用:
利用目标网络计算
其中,γ表示折扣因子;
计算损失函数:
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出的实时能量管理方法可提升移动能源网络对航行过程中动态变化因素的适应性,可以使全电力船舶实现航行时的在线决策;
2、本发明将船速和生活服务负荷作为状态变量,可以计及船速的动态变化以及生活服务负荷的不确定性实现全电力船舶的实时能量管理,从而达到更优的能量管理水平;
3、本发明提出采用深度强化学习方法部署移动能源网络实时能量管理智能决策系统,无需对船舶能源系统进行精确的数学建模,具有广泛的适用性和良好的延展性,可有效提高全电力船舶的智能决策水平;
4、本发明并不局限于全电力船舶的实时能量管理,对于移动能源网络的实时能量管理具有一定的普适性;
5、本发明在船舶实时能量调控过程中无需实现对船舶自身能源系统和海洋环境的准确预测,能够基于实时的状态做出最优的动作决策,相比于传统的数学优化方法具有显著优势。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为全电力船舶实时能量调控过程示意图。
图2为基于深度强化学习的全电力船舶实时能量管理方法流程图。
图3为训练过程示意图。
图4为储能系统荷电状态变化曲线以及充放电功率情况示意图。
图5为柴油发电机组及储能系统功率分配情况示意图。
图6为采用DQN算法训练Q网络模型流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明旨在解决现有移动能源网络实时能量管理问题的不足。为此,本发明提供了一种基于深度强化学习的移动能源网络实时能量管理方法及系统,以期达到更优的实时能量管理水平,使得本发明能有效应对移动能源网络实时航行过程中的动态变化因素。
本发明为基于深度强化学习的移动能源网络实时能量管理,本发明运用深度强化学习方法为全电力船舶部署实时能量管理智能决策系统,聚焦全电力船舶,将全电力船舶的实时能量调控过程表征为马尔科夫决策过程,并设计了相应的状态空间、动作空间以及奖励函数,基于DQN算法训练船舶智能体,求取最优的实时能量管理策略,以实现全电力船舶智能化航行。
实施例1
根据本发明提供的一种基于深度强化学习的移动能源网络实时能量管理方法,包括:
步骤S1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;
步骤S2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;
步骤S3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;
所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。
具体地,基于马尔科夫决策过程表征移动能源网络的实时能量调控过程,包括:
移动能源网络实时能量调控的关键在于为量身定制出具有自适应性和良好经济性的实时能量管理智能决策系统,需要能够根据船舶运行状态协调控制每一时段船舶能源系统的功率流动,以期最大限度地减少运行成本,提高经济和环境效益;
全电力船舶的实时能量调控问题可以视为一个在有限时域内的顺序决策问题,可通过马尔科夫决策过程进行表征,其基本性质为系统当前的状态只与前一时刻的状态以及动作有关。在本发明中,船舶的实时能量管理智能决策系统可以看作是马尔科夫决策过程中的智能体,与整个船舶能源系统和所处的海洋环境进行交互,每一个时段船舶实时能量管理智能决策系统根据环境反馈的状态和上一时段动作决策的奖励信号决定该时段的动作决策,其基本交互过程如图1所示。
在马尔科夫决策过程中,智能体负责执行动作,与其所在环境进行交互,环境状态变化的过程既有来自环境自发改变的随机过程的影响,也有来自智能体动作行为的影响。
马尔科夫决策过程可以用一个五元组(S,A,T,r,γ)进行表示,其中,S表示状态空间,A表示动作空间,T表示状态转移函数,T(s′|s,a)表示在状态s执行动作a之后到达状态s′的概率,r是奖励函数,取决于状态s和动作a,γ是折扣因子,取值范围为[0,1),γ接近1则智能体更关注长期的累计奖励,接近0则更考虑短期奖励。
在给定状态下,智能体在动作空间中选取动作行为的概率分布即被称为策略,通常用π表示。假设智能体在状态s下采取动作a,之后的动作依旧遵循策略π,此时得到的期望回报定义为动作价值函数,用Qπ(s,a)表示,数学表达为:
其中,t表示时间,Gt表示t时段的回报,St表示t时段的状态,At表示t时段智能决策系统做出的决策动作,Rt+k表示t+k时段的奖励。
最优策略下的动作价值函数称为最优动作价值函数,记为Q*(s,a),其数学表达为:
应用深度强化学习方法为全电力船舶部署实时能量管理策略并不依赖对船舶能源系统进行精确的数学建模,关键在于明确实时能量管理智能决策系统的目标和能够从船舶能源系统及环境中得到的状态反馈。因此需要基于马尔科夫决策过程设计船舶实时能量调控的状态空间、动作空间以及奖励函数。
所述状态空间采用:
状态变量的选取需要能够表征全电力船舶在航行过程中的状态。在船舶航行过程中,船速是动态变化的,船速的变化又进一步决定了推进功率的需求,船舶的实时能量管理智能决策系统需要能够跟踪这种动态变化。为此,船速和加速度被选为状态变量。此外,由于船舶生活服务负荷的需求本质上是随机的和高度不确定的,难以实现准确预测,船舶的实时能量管理智能决策系统仅能够准确获知当前时段的生活服务负荷需求,为此,生活服务负荷的功率需求被选为状态变量。本发明中全电力船舶的能量源考虑由柴油发电机组和储能系统构成,其中储能系统既可以发出功率也可以吸收柴油发电机组的功率。为了使储能系统的荷电状态状态维持在安全区间,荷电状态也被选为状态变量。综上,本发明中状态空间定义如下:
其中,表示t时段的船速,/>表示t时段的船速加速度,/>表示t时段的生活服务负荷的功率需求,SOCt表示t时段储能系统的荷电状态。前三个状态量/>和/>对于船舶实时能量管理智能决策系统来说是具有不确定性的外生变量,是无法控制的,而状态量SOCt则是受到智能决策系统决策影响的内生变量。
所述动作空间采用:
动作空间代表了智能决策系统可以控制的动作行为。为了决策全电力船舶能量源之间的功率分配,本发明提出采用柴油发电机组负载比例因子作为决策变量,记为ratiot,其定义为:
其中,表示t时段柴油发电机组的输出功率,PGN表示柴油发电机组的额定功率。当ratiot等于1时表示柴油发电机组按最大功率运行;ratiot等于0时表示此时柴油发电机组空载运行,由储能系统提供全部负荷支撑。因此本发明动作空间定义如下:
At={ratiot} (5)
其中,ratiot在0到1的范围内离散化取值,设置为{0,0.2,0.4,0.6,0.8,1.0}。
所述奖励函数采用:
奖励函数决定了算法关注的性能指标,也是引导智能体实现最优决策的标尺。为了提高燃油利用效率,降低运行成本,减少碳排放。船舶实时能量管理智能决策系统需要尽可能地使柴油发电机组工作在经济运行点附近,并且使储能系统的荷电状态维持在安全区间。本发明根据储能系统荷电状态对奖励函数进行分段设置。智能决策系统做出决策动作At,储能系统荷电状态由SOCt变为SOCt+1,若SOCt+1超出规定的荷电状态上下限,则需考虑SOCt+1和SOCt的变化趋势,若变化趋势和期望相反,则需通过奖励函数施加惩罚,具体如下所示。
1)SOCt+1<0或SOCt+1>1时:
rt=-C (6)
其中,在C表示正数,其中本发明C取值为3,效果最佳;rt表示智能决策系统做出决策动作At后获得的奖励值。式表示SOCt+1的取值无实际物理含义时,反馈的奖励值为-3。
2)0≤SOCt+1<SOCregion_L时:
其中,SOCregion_L表示储能系统荷电状态安全区间的下限。|ΔSOCmax|表示一个时间段储能系统荷电状态最大变化量的绝对值。
3)SOCregion_H≤SOCt+1<1时:
其中,SOCregion_H表示储能系统荷电状态安全区间的上限。
4)SOCregion_L≤SOCt+1<SOCregion_H即荷电状态在安全区间时,奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数:
其中,和β为拟合参数,使得此时rt的取值大致在[-1,1]的区间内变化,ratioopt为柴油发电机组燃油效率最佳运行点。
基于DQN算法训练船舶实时能量管理智能决策系统
部署船舶实时能量管理智能决策系统的核心在于不断提升和优化实时能量管理策略。若能求解出最优动作价值函数,便可以很容易地确定出最优策略。然而,真实情况下直接求解最优动作价值函数通常是不可行的,深度强化学习方法则能够通过深度神经网络近似地估计出最优动作价值函数。本发明采用深度Q网络(Deep Q Network,DQN)算法训练船舶智能体,即训练全电力船舶的实时能量管理智能决策系统。
DQN算法引入了两套Q网络来拟合最优动作价值函数,分别为当前网络Qω(s,a)和目标网络其中ω和/>分别当前网络和目标网络的参数。目标网络可以看作是当前网络的副本,其网络参数每隔一段时间才会与当前网络进行同步。如图6所示,DQN算法的基本流程如步骤a至步骤o所示:
步骤a:初始化当前网络Qω(s,a)并采用相同参数来初始化目标网络
步骤b:初始化经验回放池。
步骤c:开始新的马尔科夫决策,执行步骤d到n:
步骤d:得到该马尔科夫决策序列的初始状态s1
步骤e:对每一个时间步t=1→T执行步骤f到m:
步骤f:根据当前网络Qω(s,a)以ε-贪婪策略选择当前状态st下的动作at
步骤g:执行动作at,获得奖励rt,环境状态变为st+1
步骤h:将(st,at,rt,st+1)存储到经验回放池中。
步骤i:若经验回放池中数据足够,则从中采样N个数据{(si,ai,ri,s′i)}i=1,…,N
步骤j:对每个数据,用目标网络计算
步骤k:计算损失
步骤l:通过随机梯度下降算法最小化损失,并更新当前网络Qω(s,a)的参数。
步骤m:每隔一定的时间步将当前网络的参数同步到目标网络。
步骤n:回到步骤e直到该马尔科夫决策序列的终止状态。
步骤o:回到步骤c直到所有马尔科夫决策序列训练完毕。
通过DQN算法对船舶智能体进行训练之后,Q网络便可以实现对最优动作价值函数的近似估计,任意一个状态下智能体依据Q网络便可以识别到动作价值最大的动作。
基于深度强化学习的移动能源网络实时能量管理方法
首先将全电力船舶的实时能量调控过程制定为考虑环境不确定性的马尔可夫决策过程,设计船舶实时能量调控的状态空间、动作空间以及奖励函数;进一步采用将强化学习思想和神经网络相结合的DQN算法来训练船舶的实时能量管理智能决策系统,从历史数据中学习,捕捉船速和负荷消耗的不确定性特征;最后,基于训练好的船舶实时能量管理智能决策系统实现全电力船舶的实时能量管理。其基本流程如图2所示。
本发明提供的基于深度强化学习的移动能源网络实时能量管理系统,可以通过本发明提供的基于深度强化学习的移动能源网络实时能量管理方法中的步骤流程实现。本领域技术人员,可以将所述基于深度强化学习的移动能源网络实时能量管理方法理解为基于深度强化学习的移动能源网络实时能量管理系统的一个优选例。
本发明不囿于传统的数学优化方法,提出一种计及船速动态变化以及生活服务负荷不确定性的移动能源网络实时能量管理方法,有助于移动能源网络进一步提升航行经济性,降低碳排放。
同时,本发明区别于现有的移动能源网络能量管理方法,将移动能源网络的实时能量调控过程表征为马尔科夫决策过程,丰富细化了状态空间、动作空间以及奖励函数,其中,奖励函数的设计计及了柴油发电机组的经济运行点和储能系统荷电状态的动态变化趋势。
本发明基于深度强化学习方法给出了部署实时能量管理智能决策系统的算法框架,采用神经网络拟合最优动作价值函数从而求取最优实时能量管理策略,能够有效提高移动能源网络航行过程中的智能决策水平。
实施例2
下面结合附图及具体实施例对本发明方案进行进一步的详细说明。
本发明以某艘全电力船舶实际航行数据为例,按照表1的参数构建DQN算法,并通过500个马尔科夫决策序列对船舶智能体进行训练,训练过程如图3所示。将训练好的船舶实时能量管理智能决策系统在测试场景上进行测试,测试结果如图4和图5所示。
表1Q网络及超参数设计
可以看出,在线决策过程中,尽管总负荷需求在159.2kW至715.9kW之间波动,峰谷差约557kW,训练好的船舶实时能量管理智能决策系统能够将储能系统荷电状态始终维持在0.3到0.8的安全区间内,并且在负荷高峰期,储能系统能够有足够的电量提供负荷支撑,在负荷低谷期,储能系统又能及时补充电能。此外,柴油发电机组带负载运行时大多运行在400kW和500kW,极少运行在低效率区间。
本实施例说明基于DQN算法训练过后的船舶实时能量管理智能决策系统能够实现船舶航行过程中的在线决策,并且可以应对负荷动态变化的不确定性,能够根据当前时段负荷情况以及储能系统荷电状态合理分配柴油发电机组和储能的功率流动。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,包括:
步骤S1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;
步骤S2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;
步骤S3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;
所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。
2.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述状态空间采用:
其中,表示t时段的船速;/>表示t时段的船速加速度;/>表示t时段的生活服务负荷的功率需求;SOCt表示t时段储能系统的荷电状态;
所述动作空间采用:
At={ratiot}
其中, 表示t时段柴油发电机组的输出功率;PGN表示柴油发电机组的额定功率;ratiot在0到1的范围内离散化取值;当ratiot等于1时,表示柴油发电机组按最大功率运行;ratiot等于0时表示此时柴油发电机组空载运行,由储能系统提供全部负荷支撑;
所述奖励函数采用:
智能决策系统做出决策动作At,储能系统荷电状态由SOCt变为SOCt+1,若SOCt+1超出规定的荷电状态上下限,则获得SOCt+1和SOCt的变化趋势,若变化趋势和期望相反,则通过奖励函数施加惩罚;
当SOCt+1<0或SOCt+1>1时:
rt=-C
其中,rt表示智能决策系统做出决策动作At后获得的奖励值;C表示正数;
当0≤SOCt+1<SOCregion_L时:
其中,SOCregion_L表示储能系统荷电状态安全区间的下限;|ΔSOCmax|表示一个时间段储能系统荷电状态最大变化量的绝对值;
当SOCregion_H≤SOCt+1<1时:
其中,SOCregion_H表示储能系统荷电状态安全区间的上限;
当SOCregion_L≤SOCt+1<SOCregion_H时,表示荷电状态在安全区间时,奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数:
其中,和β为拟合参数,使得此时rt的取值大致在[-1,1]的区间内变化,ratioopt为柴油发电机组燃油效率最佳运行点。
3.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述Q网络模型采用:
其中,t表示时间,Gt表示t时段的回报,St表示t时段的状态,At表示t时段智能决策系统做出的决策动作,Rt+k表示t+k时段的奖励;Eπ表示在策略π下求期望,γ表示折扣因子。
4.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述步骤S2采用:
步骤S2.1:初始化当前Q网络模型Qω(s,a),并采用相同参数初始化目标网络
步骤S2.2:初始化经验回放池R;
步骤S2.3:基于马尔科夫决策序列获取初始状态s1
步骤S2.4:根据当前网络Qω(s,a)以ε-贪婪策略选择当前状态st下的动作at,执行动作at,获得奖励rt,环境状态变化为st+1;将(st,at,rt,st+1)存储到经验回放池中;重复触发步骤S2.4,当经验回放池中数据满足预设要求时,则采样N个数据{(si,ai,ri,s′i)}i=1,...,N;对于每个数据利用目标网络计算损失函数,并通过随机梯度下降算法最小化损失,更新当前网络Qω(s,a)的参数;每隔一定的时间将当前网络的参数同步至目标网络;重复触发步骤S2.4,直至当前马尔科夫决策序列为终止状态;获取新的马尔科夫决策序列,重复触发步骤S2.3至步骤S2.4,直至训练完毕。
5.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法,其特征在于,所述步骤S2.4采用:
利用目标网络计算
其中,γ表示折扣因子;
计算损失函数:
6.一种基于深度强化学习的移动能源网络实时能量管理系统,其特征在于,包括:
模块M1:基于马尔科夫决策过程表征全电力船舶的实时能量调控过程,包括:状态空间、动作空间以及奖励函数;
模块M2:构建表示动作价值函数的Q网络模型,并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型;
模块M3:基于当前状态空间通过训练后的Q网络模型选择决策动作,实现船舶的实时能量管理智能决策;
所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程,实现了从状态空间到动作空间的映射,达到了依据船舶运行的实时状态进行最优能量管理的目的。
7.根据权利要求6所述的基于深度强化学习的移动能源网络实时能量管理系统,其特征在于,所述状态空间采用:
其中,表示t时段的船速;/>表示t时段的船速加速度;/>表示t时段的生活服务负荷的功率需求;SOCt表示t时段储能系统的荷电状态;
所述动作空间采用:
At={ratiot}
其中, 表示t时段柴油发电机组的输出功率;PGN表示柴油发电机组的额定功率;ratiot在0到1的范围内离散化取值;当ratiot等于1时,表示柴油发电机组按最大功率运行;ratiot等于0时表示此时柴油发电机组空载运行,由储能系统提供全部负荷支撑;
所述奖励函数采用:
智能决策系统做出决策动作At,储能系统荷电状态由SOCt变为SOCt+1,若SOCt+1超出规定的荷电状态上下限,则获得SOCt+1和SOCt的变化趋势,若变化趋势和期望相反,则通过奖励函数施加惩罚;
当SOCt+1<0或SOCt+1>1时:
rt=-C
其中,rt表示智能决策系统做出决策动作At后获得的奖励值;C表示正数;
当0≤SOCt+1<SOCregion_L时:
其中,SOCregion_L表示储能系统荷电状态安全区间的下限;|ΔSOCmax|表示一个时间段储能系统荷电状态最大变化量的绝对值;
当SOCregion_H≤SOCt+1<1时:
其中,SOCregion_H表示储能系统荷电状态安全区间的上限;
当SOCregion_L≤SOCt+1<SOCregion_H时,表示荷电状态在安全区间时,奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数:
其中,和β为拟合参数,使得此时rt的取值大致在[-1,1]的区间内变化,ratioopt为柴油发电机组燃油效率最佳运行点。
8.根据权利要求6所述的基于深度强化学习的移动能源网络实时能量管理系统,其特征在于,所述Q网络模型采用:
其中,t表示时间,Gt表示t时段的回报,St表示t时段的状态,At表示t时段智能决策系统做出的决策动作,Rt+k表示t+k时段的奖励;Eπ表示在策略π下求期望,γ表示折扣因子。
9.根据权利要求6所述的基于深度强化学习的移动能源网络实时能量管理系统,其特征在于,所述模块M2采用:
模块M2.1:初始化当前Q网络模型Qω(s,a),并采用相同参数初始化目标网络
模块M2.2:初始化经验回放池R;
模块M2.3:基于马尔科夫决策序列获取初始状态s1
模块M2.4:根据当前网络Qω(s,a)以ε-贪婪策略选择当前状态st下的动作at,执行动作at,获得奖励rt,环境状态变化为st+1;将(st,at,rt,st+1)存储到经验回放池中;重复触发模块M2.4,当经验回放池中数据满足预设要求时,则采样N个数据{(si,ai,ri,s′i)}i=1,…,N;对于每个数据利用目标网络计算损失函数,并通过随机梯度下降算法最小化损失,更新当前网络Qω(s,a)的参数;每隔一定的时间将当前网络的参数同步至目标网络;重复触发模块M2.4,直至当前马尔科夫决策序列为终止状态;获取新的马尔科夫决策序列,重复触发模块M2.3至模块M2.4,直至训练完毕。
10.根据权利要求6所述的基于深度强化学习的移动能源网络实时能量管理系统,其特征在于,所述模块M2.4采用:
利用目标网络计算
其中,γ表示折扣因子;
计算损失函数:
CN202310451380.XA 2023-04-24 2023-04-24 基于深度强化学习的移动能源网络实时能量管理方法及系统 Pending CN116523228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310451380.XA CN116523228A (zh) 2023-04-24 2023-04-24 基于深度强化学习的移动能源网络实时能量管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310451380.XA CN116523228A (zh) 2023-04-24 2023-04-24 基于深度强化学习的移动能源网络实时能量管理方法及系统

Publications (1)

Publication Number Publication Date
CN116523228A true CN116523228A (zh) 2023-08-01

Family

ID=87393448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310451380.XA Pending CN116523228A (zh) 2023-04-24 2023-04-24 基于深度强化学习的移动能源网络实时能量管理方法及系统

Country Status (1)

Country Link
CN (1) CN116523228A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350496A (zh) * 2023-10-17 2024-01-05 安徽大学 基于混合动作空间强化学习的远洋海岛群能量管理方法
CN117595346A (zh) * 2024-01-18 2024-02-23 国网冀北电力有限公司 基于强化学习的充放电策略网络训练方法和储能控制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350496A (zh) * 2023-10-17 2024-01-05 安徽大学 基于混合动作空间强化学习的远洋海岛群能量管理方法
CN117350496B (zh) * 2023-10-17 2024-05-24 安徽大学 基于混合动作空间强化学习的远洋海岛群能量管理方法
CN117595346A (zh) * 2024-01-18 2024-02-23 国网冀北电力有限公司 基于强化学习的充放电策略网络训练方法和储能控制方法
CN117595346B (zh) * 2024-01-18 2024-04-05 国网冀北电力有限公司 基于强化学习的充放电策略网络训练方法和储能控制方法

Similar Documents

Publication Publication Date Title
Pereira et al. Nonlinear model predictive control for the energy management of fuel cell hybrid electric vehicles in real time
CN116523228A (zh) 基于深度强化学习的移动能源网络实时能量管理方法及系统
Fernandez et al. An adaptive state machine based energy management strategy for a multi-stack fuel cell hybrid electric vehicle
Rafiei et al. Energy management of a zero-emission ferry boat with a fuel-cell-based hybrid energy system: Feasibility assessment
CN112186799B (zh) 基于深度强化学习的分布式能源系统自治控制方法及系统
Brivio et al. Battery energy storage system for primary control reserve and energy arbitrage
Ripaccioli et al. A stochastic model predictive control approach for series hybrid electric vehicle power management
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
WO2023134759A1 (zh) 数据处理方法及装置
Benmouna et al. Efficient experimental energy management operating for FC/battery/SC vehicles via hybrid Artificial Neural Networks-Passivity Based Control
CN112810504A (zh) 基于非线性预测模型控制的燃料电池汽车能量管理方法
Nunez Forestieri et al. Energy flow control and sizing of a hybrid battery/supercapacitor storage in MVDC shipboard power systems
Shen et al. Two-level energy control strategy based on ADP and A-ECMS for series hybrid electric vehicles
CN116207750A (zh) 一种基于深度确定性策略梯度算法的配电网无功优化方法
CN116454914A (zh) 一种多类型资源复合调频模型的构建方法及装置
Zhang et al. A review of energy management optimization based on the equivalent consumption minimization strategy for fuel cell hybrid power systems
Ramasamy et al. Energy management in plugin hybrid electric vehicles with hybrid energy storage system using hybrid approach
Xiao et al. Ship energy scheduling with DQN-CE algorithm combining bi-directional LSTM and attention mechanism
Xu et al. Prediction-based game-theoretic strategy for energy management of hybrid electric vehicles
Fan et al. Energy management strategies and comprehensive evaluation of parallel hybrid ship based on improved fuzzy logic control
Chen et al. Energy management strategy for hybrid power ships based on nonlinear model predictive control
CN111516702B (zh) 一种混合动力车辆在线实时分层能量管理方法和系统
Habib A comparative study of the machine learning-based energy management system for hydrogen fuel cell electric vehicles
Yoshida et al. Charge/discharge control of wayside batteries via reinforcement learning for energy‐conservation in electrified railway systems
Hou et al. Real-time energy management of low-carbon ship microgrid based on data-driven stochastic model predictive control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination