CN116523228A

CN116523228A - 基于深度强化学习的移动能源网络实时能量管理方法及系统

Info

Publication number: CN116523228A
Application number: CN202310451380.XA
Authority: CN
Inventors: 文书礼; 顾明昌; 叶惠丽; 朱淼; 董晊兴; 马建军; 江昇; 潘春阳; 徐莉婷
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-08-01

Abstract

本发明提供了一种基于深度强化学习的移动能源网络实时能量管理方法及系统，包括：步骤S1：基于马尔科夫决策过程表征全电力船舶的实时能量调控过程，包括：状态空间、动作空间以及奖励函数；步骤S2：构建表示动作价值函数的Q网络模型，并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型；步骤S3：基于当前状态空间通过训练后的Q网络模型选择决策动作，实现船舶的实时能量管理智能决策；所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程，实现了从状态空间到动作空间的映射，达到了依据船舶运行的实时状态进行最优能量管理的目的。

Description

基于深度强化学习的移动能源网络实时能量管理方法及系统

技术领域

本发明涉及电气工程与计算机科学领域，具体地，涉及基于深度强化学习的移动能源网络实时能量管理方法。

背景技术

随着减排政策的日趋严格，以电动汽车、电气化船舶、移动储能车为代表的移动能源网络成为交通电气化不可逆转的趋势。得益于电力推进技术与综合电力系统的不断发展，电气化船舶、电动汽车的渗透率正在逐步提升。传统交通工具运行模式中，人为操控起着至关重要的作用，而随着移动能源网络复杂性不断提高，智能化成为移动能源网络发展的必然趋势。

目前，移动能源网络的能量管理大多基于对能源和负荷的准确预测，侧重于建立全航程的数学优化模型，未能将航行过程中的实时动态变化因素考虑在内。但实时航行时，由于环境的复杂性和不确定性，移动能源网络自身能源系统和所处环境均处于动态变化的过程中，准确预测在实际场景中很难实现。移动能源网络的实时能量管理系统需增强对负荷变化的适应性和能量调控的灵活性。

专利文献CN114498753A(申请号：202210160754.8)公开了一种数据驱动的低碳船舶微电网实时能量管理方法，首先，通过预测误差拟合、等概率逆变换场景集生成、同步回代法场景集削减建立考虑预测误差时序相关性的船舶净负荷场景集；其次，结合场景集信息及滚动优化、反馈校正机制，建立各场景下控制动作运行成本与荷电状态偏离惩罚成本之和期望最小的随机模型预测控制能量管理模型；随后，基于随机模型预测控制生成大量训练数据样本，训练随机森林算法对数据样本进行多变量回归；分别得到低、中、高三种不同功率等级负荷下的数据驱动随机模型预测控制实时能量管理策略。该专利针对船舶微电网提出了一种基于数据驱动的实时能量管理方法。该方法着眼于船舶负荷的准确预测，并通过数学优化模型求解得到控制变量，然而准确预测往往难以实现，此外该专利也未考虑船速动态变化对船舶实时能量调控的影响。而本发明所提方案无需事先进行负荷的准确预测，训练好的船舶智能体能够基于船速和负荷的动态变化实时地优化出柴油发电机组和储能的功率分配。

Y.Hu,W.Li,K.Xu,T.Zahid,F.Qin,and C.Li,“Energy Management Strategy fora Hybrid Electric Vehicle Based on Deep Reinforcement Learning,”AppliedSciences,vol.8,no.2,p.187,Jan.2018.该文献利用深度强化学习研究了混合动力汽车的实时能量管理策略。该方法能够根据数据输入自主学习最优策略，然而该文献中状态空间、动作空间以及奖励函数的设计并不适用于全电力船舶。本发明根据全电力船舶能源系统的特点设计了相应的状态空间、动作空间以及奖励函数，能够有效解决全电力船舶的实时能量管理问题。

Kumar S.Deep Reinforcement learning based energy management in marinehybrid vehicle[D].NTNU,2021.该文献基于深度强化学习研究了混合动力船舶的实时能量管理策略。然而该文献对于船舶航行过程中的动态变化因素考虑不够全面，仅考虑了负荷的不确定性，并未考虑船速变化对实时能量管理智能决策系统的影响。本发明将船舶航速以及加速度等状态变量考虑在内，能够更好地识别船舶航行的动态变化规律，进一步提升了船舶航行的智能决策水平。

为了实现移动能源网络实时的能量优化调控，提高移动能源网络航行过程中的智能决策水平并减少燃油消耗，本发明基于深度强化学习思想，提出移动能源网络实时能量管理方法，可以大幅度提升移动能源网络运行效率。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度强化学习的移动能源网络实时能量管理方法及系统。

根据本发明提供的一种基于深度强化学习的移动能源网络实时能量管理方法，包括：

步骤S1：基于马尔科夫决策过程表征全电力船舶的实时能量调控过程，包括：状态空间、动作空间以及奖励函数；

步骤S2：构建表示动作价值函数的Q网络模型，并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型；

步骤S3：基于当前状态空间通过训练后的Q网络模型选择决策动作，实现船舶的实时能量管理智能决策；

所述Q网络模型是通过神经网络的输入输出拟合船舶期望做出最优能量管理智能决策的这一行为过程，实现了从状态空间到动作空间的映射，达到了依据船舶运行的实时状态进行最优能量管理的目的。

优选地，所述状态空间采用：

其中，表示t时段的船速；/>表示t时段的船速加速度；/>表示t时段的生活服务负荷的功率需求；SOC^t表示t时段储能系统的荷电状态；

所述动作空间采用：

A_t＝{ratio^t}

其中，表示t时段柴油发电机组的输出功率；P_GN表示柴油发电机组的额定功率；ratio^t在0到1的范围内离散化取值；当ratio^t等于1时，表示柴油发电机组按最大功率运行；ratio^t等于0时表示此时柴油发电机组空载运行，由储能系统提供全部负荷支撑；

所述奖励函数采用：

智能决策系统做出决策动作A_t，储能系统荷电状态由SOC^t变为SOC^t+1，若SOC^t+1超出规定的荷电状态上下限，则获得SOC^t+1和SOC^t的变化趋势，若变化趋势和期望相反，则通过奖励函数施加惩罚；

当SOC^t+1<0或SOC^t+1>1时：

r_t＝-C

其中，r_t表示智能决策系统做出决策动作A_t后获得的奖励值；C表示正数；

当0≤SOC^t+1<SOC_{region_L}时：

其中，SOC_{region_L}表示储能系统荷电状态安全区间的下限；|ΔSOC_max|表示一个时间段储能系统荷电状态最大变化量的绝对值；

当SOC_{region_H}≤SOC^t+1<1时：

其中，SOC_{region_H}表示储能系统荷电状态安全区间的上限；

当SOC_{region_L}≤SOC^t+1<SOC_{region_H}时，表示荷电状态在安全区间时，奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数：

其中，和β为拟合参数，使得此时r_t的取值大致在[-1,1]的区间内变化，ratio_opt为柴油发电机组燃油效率最佳运行点。

优选地，所述Q网络模型采用：

其中，t表示时间，G_t表示t时段的回报，S_t表示t时段的状态，A_t表示t时段智能决策系统做出的决策动作，R_t+k表示t+k时段的奖励；E_π表示在策略π下求期望，γ表示折扣因子。

优选地，所述步骤S2采用：

步骤S2.1：初始化当前Q网络模型Q_ω(s,a)，并采用相同参数初始化目标网络

步骤S2.2：初始化经验回放池R；

步骤S2.3：基于马尔科夫决策序列获取初始状态s₁；

步骤S2.4：根据当前网络Q_ω(s,a)以ε-贪婪策略选择当前状态s_t下的动作a_t，执行动作a_t，获得奖励r_t，环境状态变化为s_t+1；将(s_t,a_t,r_t,s_t+1)存储到经验回放池中；重复触发步骤S2.4，当经验回放池中数据满足预设要求时，则采样N个数据{(s_i,a_i,r_i,s′_i)}_i＝1,…,N；对于每个数据利用目标网络计算损失函数，并通过随机梯度下降算法最小化损失，更新当前网络Q_ω(s,a)的参数；每隔一定的时间将当前网络的参数同步至目标网络；重复触发步骤S2.4，直至当前马尔科夫决策序列为终止状态；获取新的马尔科夫决策序列，重复触发步骤S2.3至步骤S2.4，直至训练完毕。

优选地，所述步骤S2.4采用：

利用目标网络计算

其中，γ表示折扣因子；

计算损失函数：

根据本发明提供的一种基于深度强化学习的移动能源网络实时能量管理系统，包括：

模块M1：基于马尔科夫决策过程表征全电力船舶的实时能量调控过程，包括：状态空间、动作空间以及奖励函数；

模块M2：构建表示动作价值函数的Q网络模型，并利用状态空间、动作空间以及奖励函数采用DQN算法训练Q网络模型；

模块M3：基于当前状态空间通过训练后的Q网络模型选择决策动作，实现船舶的实时能量管理智能决策；

优选地，所述状态空间采用：

所述动作空间采用：

A_t＝{ratio^t}

所述奖励函数采用：

当SOC^t+1<0或SOC^t+1>1时：

r_t＝-C

当0≤SOC^t+1<SOC_{region_L}时：

当SOC_{region_H}≤SOC^t+1<1时：

其中，SOC_{region_H}表示储能系统荷电状态安全区间的上限；

优选地，所述Q网络模型采用：

优选地，所述模块M2采用：

模块M2.1：初始化当前Q网络模型Q_ω(s,a)，并采用相同参数初始化目标网络

模块M2.2：初始化经验回放池R；

模块M2.3：基于马尔科夫决策序列获取初始状态s₁；

模块M2.4：根据当前网络Q_ω(s,a)以ε-贪婪策略选择当前状态s_t下的动作a_t，执行动作a_t，获得奖励r_t，环境状态变化为s_t+1；将(s_t,a_t,r_t,s_t+1)存储到经验回放池中；重复触发模块M2.4，当经验回放池中数据满足预设要求时，则采样N个数据{(s_i,a_i,r_i,s′_i)}_i＝1,...,N；对于每个数据利用目标网络计算损失函数，并通过随机梯度下降算法最小化损失，更新当前网络Q_ω(s,a)的参数；每隔一定的时间将当前网络的参数同步至目标网络；重复触发模块M2.4，直至当前马尔科夫决策序列为终止状态；获取新的马尔科夫决策序列，重复触发模块M2.3至模块M2.4，直至训练完毕。

优选地，所述模块M2.4采用：

利用目标网络计算

其中，γ表示折扣因子；

计算损失函数：

与现有技术相比，本发明具有如下的有益效果：

1、本发明提出的实时能量管理方法可提升移动能源网络对航行过程中动态变化因素的适应性，可以使全电力船舶实现航行时的在线决策；

2、本发明将船速和生活服务负荷作为状态变量，可以计及船速的动态变化以及生活服务负荷的不确定性实现全电力船舶的实时能量管理，从而达到更优的能量管理水平；

3、本发明提出采用深度强化学习方法部署移动能源网络实时能量管理智能决策系统，无需对船舶能源系统进行精确的数学建模，具有广泛的适用性和良好的延展性，可有效提高全电力船舶的智能决策水平；

4、本发明并不局限于全电力船舶的实时能量管理，对于移动能源网络的实时能量管理具有一定的普适性；

5、本发明在船舶实时能量调控过程中无需实现对船舶自身能源系统和海洋环境的准确预测，能够基于实时的状态做出最优的动作决策，相比于传统的数学优化方法具有显著优势。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为全电力船舶实时能量调控过程示意图。

图2为基于深度强化学习的全电力船舶实时能量管理方法流程图。

图3为训练过程示意图。

图4为储能系统荷电状态变化曲线以及充放电功率情况示意图。

图5为柴油发电机组及储能系统功率分配情况示意图。

图6为采用DQN算法训练Q网络模型流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明旨在解决现有移动能源网络实时能量管理问题的不足。为此，本发明提供了一种基于深度强化学习的移动能源网络实时能量管理方法及系统，以期达到更优的实时能量管理水平，使得本发明能有效应对移动能源网络实时航行过程中的动态变化因素。

本发明为基于深度强化学习的移动能源网络实时能量管理，本发明运用深度强化学习方法为全电力船舶部署实时能量管理智能决策系统，聚焦全电力船舶，将全电力船舶的实时能量调控过程表征为马尔科夫决策过程，并设计了相应的状态空间、动作空间以及奖励函数，基于DQN算法训练船舶智能体，求取最优的实时能量管理策略，以实现全电力船舶智能化航行。

实施例1

具体地，基于马尔科夫决策过程表征移动能源网络的实时能量调控过程，包括：

移动能源网络实时能量调控的关键在于为量身定制出具有自适应性和良好经济性的实时能量管理智能决策系统，需要能够根据船舶运行状态协调控制每一时段船舶能源系统的功率流动，以期最大限度地减少运行成本，提高经济和环境效益；

全电力船舶的实时能量调控问题可以视为一个在有限时域内的顺序决策问题，可通过马尔科夫决策过程进行表征，其基本性质为系统当前的状态只与前一时刻的状态以及动作有关。在本发明中，船舶的实时能量管理智能决策系统可以看作是马尔科夫决策过程中的智能体，与整个船舶能源系统和所处的海洋环境进行交互，每一个时段船舶实时能量管理智能决策系统根据环境反馈的状态和上一时段动作决策的奖励信号决定该时段的动作决策，其基本交互过程如图1所示。

在马尔科夫决策过程中，智能体负责执行动作，与其所在环境进行交互，环境状态变化的过程既有来自环境自发改变的随机过程的影响，也有来自智能体动作行为的影响。

马尔科夫决策过程可以用一个五元组(S,A,T,r,γ)进行表示，其中，S表示状态空间，A表示动作空间，T表示状态转移函数，T(s′|s,a)表示在状态s执行动作a之后到达状态s′的概率，r是奖励函数，取决于状态s和动作a，γ是折扣因子，取值范围为[0,1)，γ接近1则智能体更关注长期的累计奖励，接近0则更考虑短期奖励。

在给定状态下，智能体在动作空间中选取动作行为的概率分布即被称为策略，通常用π表示。假设智能体在状态s下采取动作a，之后的动作依旧遵循策略π，此时得到的期望回报定义为动作价值函数，用Q_π(s,a)表示，数学表达为：

其中，t表示时间，G_t表示t时段的回报，S_t表示t时段的状态，A_t表示t时段智能决策系统做出的决策动作，R_t+k表示t+k时段的奖励。

最优策略下的动作价值函数称为最优动作价值函数，记为Q_*(s,a)，其数学表达为：

应用深度强化学习方法为全电力船舶部署实时能量管理策略并不依赖对船舶能源系统进行精确的数学建模，关键在于明确实时能量管理智能决策系统的目标和能够从船舶能源系统及环境中得到的状态反馈。因此需要基于马尔科夫决策过程设计船舶实时能量调控的状态空间、动作空间以及奖励函数。

所述状态空间采用：

状态变量的选取需要能够表征全电力船舶在航行过程中的状态。在船舶航行过程中，船速是动态变化的，船速的变化又进一步决定了推进功率的需求，船舶的实时能量管理智能决策系统需要能够跟踪这种动态变化。为此，船速和加速度被选为状态变量。此外，由于船舶生活服务负荷的需求本质上是随机的和高度不确定的，难以实现准确预测，船舶的实时能量管理智能决策系统仅能够准确获知当前时段的生活服务负荷需求，为此，生活服务负荷的功率需求被选为状态变量。本发明中全电力船舶的能量源考虑由柴油发电机组和储能系统构成，其中储能系统既可以发出功率也可以吸收柴油发电机组的功率。为了使储能系统的荷电状态状态维持在安全区间，荷电状态也被选为状态变量。综上，本发明中状态空间定义如下：

其中，表示t时段的船速，/>表示t时段的船速加速度，/>表示t时段的生活服务负荷的功率需求，SOC^t表示t时段储能系统的荷电状态。前三个状态量/>和/>对于船舶实时能量管理智能决策系统来说是具有不确定性的外生变量，是无法控制的，而状态量SOC^t则是受到智能决策系统决策影响的内生变量。

所述动作空间采用：

动作空间代表了智能决策系统可以控制的动作行为。为了决策全电力船舶能量源之间的功率分配，本发明提出采用柴油发电机组负载比例因子作为决策变量，记为ratio^t，其定义为：

其中，表示t时段柴油发电机组的输出功率，P_GN表示柴油发电机组的额定功率。当ratio^t等于1时表示柴油发电机组按最大功率运行；ratio^t等于0时表示此时柴油发电机组空载运行，由储能系统提供全部负荷支撑。因此本发明动作空间定义如下：

A_t＝{ratio^t} (5)

其中，ratio^t在0到1的范围内离散化取值，设置为{0,0.2,0.4,0.6,0.8,1.0}。

所述奖励函数采用：

奖励函数决定了算法关注的性能指标，也是引导智能体实现最优决策的标尺。为了提高燃油利用效率，降低运行成本，减少碳排放。船舶实时能量管理智能决策系统需要尽可能地使柴油发电机组工作在经济运行点附近，并且使储能系统的荷电状态维持在安全区间。本发明根据储能系统荷电状态对奖励函数进行分段设置。智能决策系统做出决策动作A_t，储能系统荷电状态由SOC^t变为SOC^t+1，若SOC^t+1超出规定的荷电状态上下限，则需考虑SOC^t+1和SOC^t的变化趋势，若变化趋势和期望相反，则需通过奖励函数施加惩罚，具体如下所示。

1)SOC^t+1<0或SOC^t+1>1时:

r_t＝-C (6)

其中，在C表示正数，其中本发明C取值为3，效果最佳；r_t表示智能决策系统做出决策动作A_t后获得的奖励值。式表示SOC^t+1的取值无实际物理含义时，反馈的奖励值为-3。

2)0≤SOC^t+1<SOC_{region_L}时：

其中，SOC_{region_L}表示储能系统荷电状态安全区间的下限。|ΔSOC_max|表示一个时间段储能系统荷电状态最大变化量的绝对值。

3)SOC_{region_H}≤SOC^t+1<1时:

其中，SOC_{region_H}表示储能系统荷电状态安全区间的上限。

4)SOC_{region_L}≤SOC^t+1<SOC_{region_H}即荷电状态在安全区间时，奖励函数根据柴油发电机组燃油效率最佳运行点设计奖励函数:

基于DQN算法训练船舶实时能量管理智能决策系统

部署船舶实时能量管理智能决策系统的核心在于不断提升和优化实时能量管理策略。若能求解出最优动作价值函数，便可以很容易地确定出最优策略。然而，真实情况下直接求解最优动作价值函数通常是不可行的，深度强化学习方法则能够通过深度神经网络近似地估计出最优动作价值函数。本发明采用深度Q网络(Deep Q Network,DQN)算法训练船舶智能体，即训练全电力船舶的实时能量管理智能决策系统。

DQN算法引入了两套Q网络来拟合最优动作价值函数，分别为当前网络Q_ω(s,a)和目标网络其中ω和/>分别当前网络和目标网络的参数。目标网络可以看作是当前网络的副本，其网络参数每隔一段时间才会与当前网络进行同步。如图6所示，DQN算法的基本流程如步骤a至步骤o所示：

步骤a：初始化当前网络Q_ω(s,a)并采用相同参数来初始化目标网络

步骤b：初始化经验回放池。

步骤c：开始新的马尔科夫决策，执行步骤d到n：

步骤d：得到该马尔科夫决策序列的初始状态s₁。

步骤e：对每一个时间步t＝1→T执行步骤f到m：

步骤f：根据当前网络Q_ω(s,a)以ε-贪婪策略选择当前状态s_t下的动作a_t。

步骤g：执行动作a_t，获得奖励r_t，环境状态变为s_t+1。

步骤h：将(s_t,a_t,r_t,s_t+1)存储到经验回放池中。

步骤i：若经验回放池中数据足够，则从中采样N个数据{(s_i,a_i,r_i,s′_i)}_i＝1,…,N。

步骤j：对每个数据，用目标网络计算

步骤k：计算损失

步骤l：通过随机梯度下降算法最小化损失，并更新当前网络Q_ω(s,a)的参数。

步骤m：每隔一定的时间步将当前网络的参数同步到目标网络。

步骤n：回到步骤e直到该马尔科夫决策序列的终止状态。

步骤o：回到步骤c直到所有马尔科夫决策序列训练完毕。

通过DQN算法对船舶智能体进行训练之后，Q网络便可以实现对最优动作价值函数的近似估计，任意一个状态下智能体依据Q网络便可以识别到动作价值最大的动作。

基于深度强化学习的移动能源网络实时能量管理方法

首先将全电力船舶的实时能量调控过程制定为考虑环境不确定性的马尔可夫决策过程，设计船舶实时能量调控的状态空间、动作空间以及奖励函数；进一步采用将强化学习思想和神经网络相结合的DQN算法来训练船舶的实时能量管理智能决策系统，从历史数据中学习，捕捉船速和负荷消耗的不确定性特征；最后，基于训练好的船舶实时能量管理智能决策系统实现全电力船舶的实时能量管理。其基本流程如图2所示。

本发明提供的基于深度强化学习的移动能源网络实时能量管理系统，可以通过本发明提供的基于深度强化学习的移动能源网络实时能量管理方法中的步骤流程实现。本领域技术人员，可以将所述基于深度强化学习的移动能源网络实时能量管理方法理解为基于深度强化学习的移动能源网络实时能量管理系统的一个优选例。

本发明不囿于传统的数学优化方法，提出一种计及船速动态变化以及生活服务负荷不确定性的移动能源网络实时能量管理方法，有助于移动能源网络进一步提升航行经济性，降低碳排放。

同时，本发明区别于现有的移动能源网络能量管理方法，将移动能源网络的实时能量调控过程表征为马尔科夫决策过程，丰富细化了状态空间、动作空间以及奖励函数，其中，奖励函数的设计计及了柴油发电机组的经济运行点和储能系统荷电状态的动态变化趋势。

本发明基于深度强化学习方法给出了部署实时能量管理智能决策系统的算法框架，采用神经网络拟合最优动作价值函数从而求取最优实时能量管理策略，能够有效提高移动能源网络航行过程中的智能决策水平。

实施例2

下面结合附图及具体实施例对本发明方案进行进一步的详细说明。

本发明以某艘全电力船舶实际航行数据为例，按照表1的参数构建DQN算法，并通过500个马尔科夫决策序列对船舶智能体进行训练，训练过程如图3所示。将训练好的船舶实时能量管理智能决策系统在测试场景上进行测试，测试结果如图4和图5所示。

表1Q网络及超参数设计

可以看出，在线决策过程中，尽管总负荷需求在159.2kW至715.9kW之间波动，峰谷差约557kW，训练好的船舶实时能量管理智能决策系统能够将储能系统荷电状态始终维持在0.3到0.8的安全区间内，并且在负荷高峰期，储能系统能够有足够的电量提供负荷支撑，在负荷低谷期，储能系统又能及时补充电能。此外，柴油发电机组带负载运行时大多运行在400kW和500kW，极少运行在低效率区间。

本实施例说明基于DQN算法训练过后的船舶实时能量管理智能决策系统能够实现船舶航行过程中的在线决策，并且可以应对负荷动态变化的不确定性，能够根据当前时段负荷情况以及储能系统荷电状态合理分配柴油发电机组和储能的功率流动。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于深度强化学习的移动能源网络实时能量管理方法，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法，其特征在于，所述状态空间采用：

所述动作空间采用：

A_t＝{ratio^t}

所述奖励函数采用：

当SOC^t+1<0或SOC^t+1>1时：

r_t＝-C

当0≤SOC^t+1<SOC_{region_L}时：

当SOC_{region_H}≤SOC^t+1<1时：

其中，SOC_{region_H}表示储能系统荷电状态安全区间的上限；

3.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法，其特征在于，所述Q网络模型采用：

4.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法，其特征在于，所述步骤S2采用：

步骤S2.2：初始化经验回放池R；

步骤S2.3：基于马尔科夫决策序列获取初始状态s₁；

步骤S2.4：根据当前网络Q_ω(s,a)以ε-贪婪策略选择当前状态s_t下的动作a_t，执行动作a_t，获得奖励r_t，环境状态变化为s_t+1；将(s_t,a_t,r_t,s_t+1)存储到经验回放池中；重复触发步骤S2.4，当经验回放池中数据满足预设要求时，则采样N个数据{(s_i,a_i,r_i,s′_i)}_i＝1,...,N；对于每个数据利用目标网络计算损失函数，并通过随机梯度下降算法最小化损失，更新当前网络Q_ω(s,a)的参数；每隔一定的时间将当前网络的参数同步至目标网络；重复触发步骤S2.4，直至当前马尔科夫决策序列为终止状态；获取新的马尔科夫决策序列，重复触发步骤S2.3至步骤S2.4，直至训练完毕。

5.根据权利要求1所述的基于深度强化学习的移动能源网络实时能量管理方法，其特征在于，所述步骤S2.4采用：

利用目标网络计算

其中，γ表示折扣因子；

计算损失函数：

6.一种基于深度强化学习的移动能源网络实时能量管理系统，其特征在于，包括：

7.根据权利要求6所述的基于深度强化学习的移动能源网络实时能量管理系统，其特征在于，所述状态空间采用：

所述动作空间采用：

A_t＝{ratio^t}

所述奖励函数采用：

当SOC^t+1<0或SOC^t+1>1时：

r_t＝-C

当0≤SOC^t+1<SOC_{region_L}时：

当SOC_{region_H}≤SOC^t+1<1时：

其中，SOC_{region_H}表示储能系统荷电状态安全区间的上限；

8.根据权利要求6所述的基于深度强化学习的移动能源网络实时能量管理系统，其特征在于，所述Q网络模型采用：

9.根据权利要求6所述的基于深度强化学习的移动能源网络实时能量管理系统，其特征在于，所述模块M2采用：

模块M2.2：初始化经验回放池R；

模块M2.3：基于马尔科夫决策序列获取初始状态s₁；

模块M2.4：根据当前网络Q_ω(s,a)以ε-贪婪策略选择当前状态s_t下的动作a_t，执行动作a_t，获得奖励r_t，环境状态变化为s_t+1；将(s_t,a_t,r_t,s_t+1)存储到经验回放池中；重复触发模块M2.4，当经验回放池中数据满足预设要求时，则采样N个数据{(s_i,a_i,r_i,s′_i)}_i＝1,…,N；对于每个数据利用目标网络计算损失函数，并通过随机梯度下降算法最小化损失，更新当前网络Q_ω(s,a)的参数；每隔一定的时间将当前网络的参数同步至目标网络；重复触发模块M2.4，直至当前马尔科夫决策序列为终止状态；获取新的马尔科夫决策序列，重复触发模块M2.3至模块M2.4，直至训练完毕。

10.根据权利要求6所述的基于深度强化学习的移动能源网络实时能量管理系统，其特征在于，所述模块M2.4采用：

利用目标网络计算

其中，γ表示折扣因子；

计算损失函数：