CN117726133A

CN117726133A - 一种基于强化学习的分布式能源实时调度方法及系统

Info

Publication number: CN117726133A
Application number: CN202311852643.4A
Authority: CN
Inventors: 王凌; 陈欣; 余竞航; 赵一辰; 毕思博; 邹昊东; 牧军; 陈斌
Original assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-19

Abstract

本发明公开了一种基于强化学习的分布式能源实时调度方法及系统，属于数据处理技术领域，方法包括：构建分布式能源实时调度的智能体，智能体包括：状态空间、动作空间以及奖励函数，状态空间包括能源状态；动作空间包括能源调度动作；奖励函数用于根据能源调度动作的实施效果，为智能体提供奖励或者惩罚；根据历史能源状态，基于长短时记忆神经网络，预测下一时刻的能源状态；根据下一时刻的能源状态预测值，在约束条件的约束下，基于改进的近端策略优化算法，确定下一时刻的调度动作；根据调度动作，向各个区域分配各个分布式能源设备产生的能源；根据能源调度动作的实施效果，通过奖励函数，为智能体提供奖励或者惩罚。

Description

一种基于强化学习的分布式能源实时调度方法及系统

技术领域

本发明属于数据处理系统技术领域，具体涉及一种基于强化学习的分布式能源实时调度方法及系统。

背景技术

分布式能源网络将能源系统中的分散化的能源设备紧密联系在一起，分布式能源的改变了传统能源系统的结构，向着更加灵活、可持续和智能的方向发展。对分布式能源进行实时调度可以最大程度地利用能源，减轻电网负荷，降低碳排放。

传统的分布式能源调度方法主要有基于规则的能源调度方法以及基于经济模型的能源调度方法。

基于规则的能源调度方法通过制定规则来进行能源调度。然而规则通常是基于专家知识或经验制定的，通常是静态的，其调度策略在设计时就被固定下来，难以适应系统环境的变化，尤其是在面对不断变化的能源生产、需求和环境条件时。

基于经济模型的能源调度方法通过考虑市场机制和能源价格，以经济效益为主要目标，来优化能源的分配和调度。然而经济模型容易受到市场波动的影响，如果市场价格波动较大，调度结果可能会受到不稳定的影响，导致能源调度的准确性与合理性降低，造成能源浪费。

发明内容

为了解决当前基于规则的能源调度方法中调度策略在设计时就被固定下来，难以适应系统环境的变化，尤其是在面对不断变化的能源生产、需求和环境条件时，基于经济模型的能源调度方法容易受到市场波动的影响，如果市场价格波动较大，调度结果可能会受到不稳定的影响，导致能源调度的准确性与合理性降低，造成能源浪费的技术问题，本发明提供一种基于强化学习的分布式能源实时调度方法及系统。

第一方面

本发明提供了一种基于强化学习的分布式能源实时调度方法，包括：

S1：构建分布式能源实时调度的智能体，所述智能体包括：状态空间、动作空间以及奖励函数，所述状态空间包括能源状态，所述能源状态包括各个区域的能源需求量以及各个分布式能源设备的能源生产量；所述动作空间包括能源调度动作；所述奖励函数用于根据所述能源调度动作的实施效果，为所述智能体提供奖励或者惩罚；

S2：根据历史能源状态，基于长短时记忆神经网络，预测下一时刻的能源状态；

S3：根据下一时刻的能源状态预测值，在约束条件的约束下，基于改进的近端策略优化算法，确定下一时刻的调度动作；

S4：根据所述调度动作，向各个区域分配各个分布式能源设备产生的能源；

S5：根据所述能源调度动作的实施效果，通过所述奖励函数，为所述智能体提供奖励或者惩罚，返回S2。

第二方面

本发明提供了一种基于强化学习的分布式能源实时调度系统，包括处理器和用于存储处理器可执行指令的存储器；所述处理器被配置为调用所述存储器存储的指令，以执行第一方面中的基于强化学习的分布式能源实时调度方法。

与现有技术相比，本发明至少具有以下有益技术效果：

(1)在本发明中，基于强化学习构建智能体，通过智能体智能决策能源调度，面对不断变化的能源生产、需求和环境条件时，智能体可以根据环境变化自适应地学习和调整策略，提升了能源调度决策的适用性，不会受到市场价格波动等外部因素的影响，面对外界因素的波动，可以保持能源调度的准确性与合理性，提升能源利用率。

(2)在本发明中，通过使用长短时记忆神经网络对历史能源状态进行建模和预测，系统能够更准确地预测未来时刻的能源状态，有助于更准确地进行能源调度。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一次说明。

图1是本发明提供的一种基于强化学习的分布式能源实时调度方法的流程示意图。

图2是本发明提供的一种基于强化学习的分布式能源实时调度系统的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一次理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。可以是机械连接，也可以是电连接。可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

在一个实施例中，参考说明书附图1，示出了本发明提供的一种基于强化学习的分布式能源实时调度方法的流程示意图。

本发明提供的一种基于强化学习的分布式能源实时调度方法，包括：

S1：构建分布式能源实时调度的智能体。

其中，智能体是一个具有感知和行动能力的实体，它通过观察环境的状态，选择执行某些动作，然后根据执行的动作和环境的反馈获得奖励或惩罚。

具体地，智能体包括：状态空间、动作空间以及奖励函数。

其中，状态空间是描述环境可能处于的所有状态的集合。

具体地，状态空间包括能源状态，能源状态包括各个区域的能源需求量以及各个分布式能源设备的能源生产量。

其中，动作空间是智能体可以采取的所有可能动作的集合。每个动作对应着智能体在某个状态下可以执行的一种行为。

具体地，动作空间包括能源调度动作。能源调度动作决定从各个能源设备中调度多少能源至各个区域。

其中，奖励函数是一种将环境的状态和智能体执行的动作映射到一个实数奖励的函数。

具体地，奖励函数用于根据能源调度动作的实施效果，为智能体提供奖励或者惩罚。

S2：根据历史能源状态，基于长短时记忆神经网络，预测下一时刻的能源状态。

其中，长短时记忆神经网络(Long Short-Term Memory，LSTM)是一种特殊类型的循环神经网络(Recurrent Neural Network，RNN)，用于处理和学习时间序列数据以及其他具有时间依赖性的任务。LSTM的设计旨在解决传统RNN在处理长时序列时可能遇到的梯度消失和梯度爆炸的问题。

在本发明中，通过使用长短时记忆神经网络对历史能源状态进行建模和预测，系统能够更准确地预测未来时刻的能源状态，有助于更准确地进行能源调度。

在一种可能的实施方式中，S2具体包括：

S201：将历史能源状态序列[s₁,s₂,…,s_T]输入至长短时记忆神经网络，t表示时刻，s_t表示第t时刻的能源状态，t＝1,2,…,T，T表示总时长。

S202：通过长短时记忆神经网络，提取各个时刻的隐状态：

I_t＝Sigmoid(W_XIX_t+W_HIh_t-1+b_I)

F_t＝Sigmoid(W_XFX_t+W_HFh_t-1+b_F)

O_t＝Sigmoid(W_XOX_t+W_HOh_t-1+b_O)

h_t＝O_t·tanh(C_t)

其中，I_t表示t时刻输入门的激活输出向量，Sigmoid()表示Sigmoid激活函数，W_XI表示分词序列和输入门之间的权重矩阵，W_HI表示隐藏状态和输入门之间的权重矩阵，b_I表示输入门的偏置项，F_t表示t时刻忘记门的激活输出向量，W_XF表示分词序列和忘记门之间的权重矩阵，W_HF表示隐藏状态和忘记门之间的权重矩阵，b_F表示忘记门的偏置项，O_t表示t时刻输出门的激活输出向量，W_XO表示分词序列和输出门之间的权重矩阵，W_HO表示隐藏状态和输出门之间的权重矩阵，C_t表示t时刻细胞存储单元的激活输出向量，表示t时刻细胞存储单元的临时细胞状态，C_t-1表示t-1时刻细胞存储单元的激活输出向量，tanh()表示tanh激活函数，W_XC表示分词序列和细胞存储单元之间的权重矩阵，W_HC表示隐藏状态和细胞存储单元之间的权重矩阵，b_C表示细胞存储单元的偏置项，h_t表示t时刻的隐状态，h_t-1表示t-1时刻的隐状态。

S203：对各个时刻的隐状态进行聚合处理，预测下一时刻的能源状态：

其中，s_t+1表示t+1时刻的能源状态，w_t表示t时刻的权重系数，b_s表示预测偏置值。

在本发明中，长短时记忆神经网络中的记忆单元处理长期依赖性，更好地应对能源系统中受季节性和日夜变化等长期因素影响的情况，能够适应动态环境，通过学习历史数据的模式提高对未来能源状态的预测准确性，具备实时性，可用于实时能源调度和决策。

S3：根据下一时刻的能源状态预测值，在约束条件的约束下，基于改进的近端策略优化算法，确定下一时刻的调度动作。

其中，近端策略优化算法是一类用于解决带有约束条件的优化问题的方法，通常应用于实时决策和控制系统。这些算法的目标是在满足约束条件的前提下，找到一个局部最优解，以实现系统的性能最优化。

在本发明中，结合下一时刻的能源状态预测值和改进的近端策略优化算法进行调度决策，有助于提高能源系统的稳定性、可靠性，实现经济高效的能源调度。

在一种可能的实施方式中，S3具体包括：

S301：策略网络根据下一时刻的能源状态预测值以及价值评估网络的价值评估，估算优势函数，根据优势函数估算结果，在约束条件的约束下，选择下一时刻的调度动作。

在本发明中，优势函数衡量了采取某个动作相对于平均水平的优越性，能够帮助系统更有针对性地选择合适的动作，有助于提高调度决策的准确性和效率。同时，在约束条件下选择调度动作，确保了系统的可行性和合法性。通过在优势函数估算过程中考虑约束条件，使得调度动作更符合实际操作的要求，避免了不可行的决策。

在一种可能的实施方式中，优势函数具体为：

A(s,a)＝Q(s,a)-V(s,a)

其中，A()表示优势函数，s表示能源状态，a表示调度动作，Q()表示动作价值函数，V()表示状态价值函数。

需要说明的是，优势函数的引入有助于提高算法的稳定性和抗噪声性。由于优势函数考虑了平均水平，对于奖励信号的波动和噪声具有一定的缓冲效果，使得算法更加稳定。

在本发明中，通过考虑动作价值函数(Q函数)和状态价值函数(V函数)，优势函数能够平衡探索和利用的问题。动作价值函数衡量了采取某个动作的长期价值，而状态价值函数衡量了处于某个状态下的长期价值。优势函数综合考虑了这两个因素，使得算法更好地平衡在已知和未知状态之间的选择。

在一种可能的实施方式中，能源设备包括发电设备、供气设备以及供热设备。

进一步地，约束条件具体包括：

配电网有功功率约束：

P_min≤P_t≤P_max

其中，P_t表示t时刻采取调度动作a_t时配电网有功功率，P_min表示配电网有功功率最小值，P_max表示配电网有功功率最大值。

配电网无功功率约束：

Q_min≤Q_t≤Q_max

其中，Q_t表示t时刻采取调度动作a_t时配电网无功功率，Q_min表示配电网无功功率最小值，Q_max表示配电网无功功率最大值。

需要说明的是，配电网有功功率和无功功率的约束确保了能源的合理分配，防止超过系统容量，从而维护了电网的稳定运行。

设备功率约束：

P_j,min≤P_jt≤P_j,max

其中，P_jt表示t时刻第j个能源设备的功率，P_j,min第j个能源设备的功率最小值，P_j,max第j个能源设备的功率最大值。

需要说明的是，设备功率约束的设定有助于保护能源设备免受过度负载的影响。通过限制设备功率在安全范围内，可以避免设备过热或损坏，延长设备的使用寿命。

发电设备节点电压约束：

U_k,min≤U_kt≤U_k,max

其中，U_jt表示t时刻第k个发电设备的电压，U_k,min第k个发电设备的电压最小值，U_k,max第k个发电设备的电压最大值。

供气设备节点气压约束：

ρ_k,min≤ρ_kt≤ρ_k,max

其中，ρ_jt表示t时刻第k个供气设备的气压，ρ_k,min第k个供气设备的气压最小值，ρ_k,max第k个供气设备的气压最大值。

供气设备节点管道流量约束：

F_k,min≤F_kt≤F_k,max

其中，F_jt表示t时刻第k个供气设备的管道流量，F_k,min第k个供气设备的管道流量最小值，F_k,max第k个供气设备的管道流量最大值。

需要说明的是，发电设备节点电压、供气设备节点气压、供气设备节点管道流量等约束条件的设置有助于维持各个设备的正常运行。这确保了电网电压、气压等在安全范围内，减少了设备运行中的不稳定因素。

供热设备节点供热量约束：

B_k,min≤B_kt≤B_k,max

其中，B_jt表示t时刻第k个供热设备的供热量，B_k,min第k个供热设备的供热量最小值，B_k,max第k个供热设备的供热量最大值。

需要说明的是，通过对供热设备节点供热量的约束，可以协调各个供热设备的运行，确保整个系统在供热方面的均衡和高效运行。

在本发明中，约束条件的设定有助于保障系统的稳定性，有助于保护能源设备免受过度负载的影响。同时，约束条件同时也可以影响调度动作的奖励值，当调度动作违反约束条件时，将受到惩罚。

S302：根据选择的调度动作，确定下一时刻的能源状态以及奖励值。

在本发明中，状态的更新考虑了所采取动作的实际影响，为系统提供了实时的状态信息，有助于更准确地进行下一时刻的调度决策。

S303：根据下一时刻的能源状态、奖励值以及优势函数，以最大化目标函数为目标，更新策略网络与价值评估网络的网络参数。

在本发明中，通过最大化目标函数，更新策略网络与价值评估网络的网络参数，使得系统能够根据实际经验不断优化策略，提高对未知环境的适应性和泛化能力。同时，以最大化目标函数为目标，有助于系统在长期内实现更高的累积奖励，可以使得系统在动态环境中更好地适应，并在整个调度过程中获得更好的性能。

在一种可能的实施方式中，目标函数具体为：

其中，L()表示目标函数，θ表示当前模型参数，表示期望估计运算，π_θ(a_t|s_t)表示t时刻当前模型参数θ下处于能源状态s_t时采取调度动作a_t的行为概率，s_t表示t时刻能源状态，a_t表示t时刻调度动作，/>表示t时刻之前模型参数θ_old下处于能源状态s_t时采取调度动作a_t的行为概率，At表示t时刻的优势函数值，β表示惩罚系数，KL[]表示KL散度计算。

其中，本领域技术人员可以根据实际情况设置惩罚系数β的大小，本发明不做限定。

需要说明的是，目标函数中的第一项涉及到优势函数，它度量了当前采取的动作相对于期望值的优势。优势函数可以帮助算法更好地评估采取某个动作相对于其他动作的优越性。通过优势函数，算法可以更精准地更新策略，从而提高训练效率和稳定性。这有助于强化学习模型更好地学习和适应环境。

进一步地，目标函数中的第二项是KL散度的计算。KL散度用于度量两个概率分布之间的相似性，这里衡量的是当前策略与之前策略之间的相似性。通过引入KL散度的惩罚，可以保证策略的更新在一定的范围内，防止策略更新过于剧烈，从而提高训练的稳定性。这有助于防止模型在训练过程中偏离过于远离初始策略，防止训练过程中发散。

在本发明中，通过综合考虑优势函数和KL散度，目标函数的设计有助于在训练过程中保持稳定性。优势函数提高了训练的效率，KL散度项提供了对策略更新的约束，使得训练更加稳定。这种综合的设计有助于提高算法的收敛性，使得训练更容易达到理想的状态。

在一种可能的实施方式中，惩罚系数β的确定方式为：

计算新旧模型参数的KL散度：

计算KL散度的期望估计：

其中，KL_e表示KL散度的期望估计

当时，通过以下方式更新惩罚系数：

其中，KL₀表示预设散度值，β_t+1表示t+1时刻的惩罚系数，β_t表示t时刻的惩罚系数，γ表示缩放参数，γ＞1。

在本发明中，引入了缩放参数γ，该参数控制着惩罚系数的增减幅度。这样的设计允许在模型变化较大或较小时分别采取不同的缩放幅度，以保持对模型变化的适应性。

当时，通过以下方式更新惩罚系数：

β_t+1＝β_t。

需要说明的是，当KL散度的期望估计在一定范围内时，采用保持或减小惩罚系数的策略。这有助于防止过度惩罚，使得模型在训练过程中不会因为KL散度略微超过预设值而受到严重的惩罚。这样的策略有助于保持训练的平稳性。

当时，通过以下方式更新惩罚系数：

β_t+1＝γβ_t。

需要说明的是，当KL散度的期望估计显著超过预设值时，采用增加惩罚系数的策略。这有助于避免模型在训练中过度自由，使得训练更加稳定。通过适时地增加惩罚系数，可以引导模型更加谨慎地更新策略。

在本发明中，算法通过计算新旧模型参数之间的KL散度，动态地调整惩罚系数。这种动态性质使得在训练过程中能够灵活地适应模型的变化，而不是采用固定的惩罚系数。这样的动态调整有助于适应训练过程中模型的不同阶段和变化。

S4：根据调度动作，向各个区域分配各个分布式能源设备产生的能源。

S5：根据能源调度动作的实施效果，通过奖励函数，为智能体提供奖励或者惩罚，返回S2。

在一种可能的实施方式中，奖励函数具体为：

其中，R()表示奖励函数，A表示能源调度动作，C表示成本项，λ₁表示成本项的权重系数，Q表示能耗项，λ₂表示能耗项的权重系数，E表示环境破坏项，λ₃表示环境破坏项的权重系数，r表示惩罚项，λ₄表示惩罚项的权重系数，当能源调度动作不满足约束条件时，产生惩罚项。

需要说明的是，引入了惩罚项r来考虑能源调度动作是否满足约束条件。这有助于在奖励函数中引入对不符合系统要求的决策进行惩罚，促使智能体更好地满足实际约束条件。

在本发明中，奖励函数考虑了多个因素，包括成本项、能耗项、环境破坏项以及惩罚项。通过综合考虑这些因素，奖励函数能够在一个综合性的框架下对能源调度的表现进行评估，有助于在训练中平衡各个因素，使得智能体能够更全面地考虑问题。

在一种可能的实施方式中，成本项C具体为：

其中，P_j表示从第j个能源设备中调度的总能原量，c_j表示第j个能源设备的成本系数。

需要说明的是，成本项考虑了能源设备的调度成本，其中包括了各个设备的成本系数。通过考虑这一项，奖励函数能够鼓励智能体在进行能源调度决策时选择更经济的方案，从而降低整体的运营成本。

在一种可能的实施方式中，能耗项Q具体为：

其中，q_j表示第j个能源设备的能耗系数。

需要说明的是，能耗项考虑了能源设备的能耗系数，这是对系统能源效率的一个度量。通过引入这一项，奖励函数能够促使智能体更加注重能源的有效利用，从而减少系统的能耗，提高能源利用效率。

在一种可能的实施方式中，环境破坏项E具体为：

其中，表示第j个能源设备的CO₂产生系数，/>表示第j个能源设备的NO_x产生系数，α表示CO₂产生项的权重系数。

需要说明的是，环境破坏项考虑了能源设备的CO2和NOx产生系数，通过权衡二者，体现了对环境友好的考虑。这一项的引入有助于智能体在决策中更加注重减少对环境的负面影响，从而实现可持续能源调度。

在一种可能的实施方式中，惩罚项r具体为：

r＝n_r·r₀

其中，n_r表示不满足的约束条件的个数，r₀表示惩罚基础值。

需要说明的是，惩罚项引入了对不满足约束条件的惩罚，即n_r表示不满足的约束条件的个数。通过这一项，奖励函数能够迫使智能体在决策中尽量避免违反系统的约束条件，保证调度方案的合规性。

与现有技术相比，本发明至少具有以下有益技术效果：

实施例2

在一个实施例中，参考说明书附图2，示出了本发明提供的一种基于强化学习的分布式能源实时调度系统的结构示意图。

本发明提供的一种基于强化学习的分布式能源实时调度系统，包括处理器201和用于存储处理器201可执行指令的存储器202。处理器201被配置为调用存储器202存储的指令，以执行实施例1中的基于强化学习的分布式能源实时调度方法。

本发明提供的一种基于强化学习的分布式能源实时调度系统可以实现上述实施例1中的基于强化学习的分布式能源实时调度方法的次骤和效果，为避免重复，本发明不再赘述。

与现有技术相比，本发明至少具有以下有益技术效果：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的分布式能源实时调度方法，其特征在于，包括：

2.根据权利要求1所述的基于强化学习的分布式能源实时调度方法，其特征在于，所述S2具体包括：

S201：将历史能源状态序列[s₁,s₂,…,s_T]输入至长短时记忆神经网络，t表示时刻，s_t表示第t时刻的能源状态，t＝1,2,…,T，T表示总时长；

S202：通过长短时记忆神经网络，提取各个时刻的隐状态：

I_t＝Sigmoid(W_XIX_t+W_HIh_t-1+b_I)

F_t＝Sigmoid(W_XFX_t+W_HFh_t-1+b_F)

O_t＝Sigmoid(W_XOX_t+W_HOh_t-1+b_O)

h_t＝O_t·tanh(C_t)

其中，I_t表示t时刻输入门的激活输出向量，Sigmoid()表示Sigmoid激活函数，W_XI表示分词序列和输入门之间的权重矩阵，W_HI表示隐藏状态和输入门之间的权重矩阵，b_I表示输入门的偏置项，F_t表示t时刻忘记门的激活输出向量，W_XF表示分词序列和忘记门之间的权重矩阵，W_HF表示隐藏状态和忘记门之间的权重矩阵，b_F表示忘记门的偏置项，O_t表示t时刻输出门的激活输出向量，W_XO表示分词序列和输出门之间的权重矩阵，W_HO表示隐藏状态和输出门之间的权重矩阵，C_t表示t时刻细胞存储单元的激活输出向量，表示t时刻细胞存储单元的临时细胞状态，C_t-1表示t-1时刻细胞存储单元的激活输出向量，tanh()表示tanh激活函数，W_XC表示分词序列和细胞存储单元之间的权重矩阵，W_HC表示隐藏状态和细胞存储单元之间的权重矩阵，b_C表示细胞存储单元的偏置项，h_t表示t时刻的隐状态，h_t-1表示t-1时刻的隐状态；

3.根据权利要求1所述的基于强化学习的分布式能源实时调度方法，其特征在于，所述S3具体包括：

S301：策略网络根据下一时刻的能源状态预测值以及价值评估网络的价值评估，估算优势函数，根据优势函数估算结果，在约束条件的约束下，选择下一时刻的调度动作；

S302：根据选择的调度动作，确定下一时刻的能源状态以及奖励值；

4.根据权利要求3所述的基于强化学习的分布式能源实时调度方法，其特征在于，所述优势函数具体为：

A(s,a)＝Q(s,a)-V(s,a)

5.根据权利要求3所述的基于强化学习的分布式能源实时调度方法，其特征在于，所述能源设备包括发电设备、供气设备以及供热设备，所述约束条件具体包括：

配电网有功功率约束：

P_min≤P_t≤P_max

其中，P_t表示t时刻采取调度动作a_t时配电网有功功率，P_min表示配电网有功功率最小值，P_max表示配电网有功功率最大值；

配电网无功功率约束：

Q_min≤Q_t≤Q_max

其中，Q_t表示t时刻采取调度动作a_t时配电网无功功率，Q_min表示配电网无功功率最小值，Q_max表示配电网无功功率最大值；

设备功率约束：

P_j,min≤P_jt≤P_j,max

其中，P_jt表示t时刻第j个能源设备的功率，P_j,min第j个能源设备的功率最小值，P_j,max第j个能源设备的功率最大值；

发电设备节点电压约束：

U_k,min≤U_kt≤U_k,max

其中，U_jt表示t时刻第k个发电设备的电压，U_k,min第k个发电设备的电压最小值，U_k,max第k个发电设备的电压最大值；

供气设备节点气压约束：

ρ_k,min≤ρ_kt≤ρ_k,max

其中，ρ_jt表示t时刻第k个供气设备的气压，ρ_k,min第k个供气设备的气压最小值，ρ_k,max第k个供气设备的气压最大值；

供气设备节点管道流量约束：

F_k,min≤F_kt≤F_k,max

其中，F_jt表示t时刻第k个供气设备的管道流量，F_k,min第k个供气设备的管道流量最小值，F_k,max第k个供气设备的管道流量最大值；

供热设备节点供热量约束：

B_k,min≤B_kt≤B_k,max

6.根据权利要求4所述的基于强化学习的分布式能源实时调度方法，其特征在于，所述目标函数具体为：

7.根据权利要求6所述的基于强化学习的分布式能源实时调度方法，其特征在于，所述惩罚系数β的确定方式为：

计算新旧模型参数的KL散度：

计算KL散度的期望估计：

其中，KL_e表示KL散度的期望估计

当时，通过以下方式更新所述惩罚系数：

其中，KL₀表示预设散度值，β_t+1表示t+1时刻的惩罚系数，β_t表示t时刻的惩罚系数，γ表示缩放参数，γ＞1；

当时，通过以下方式更新所述惩罚系数：

β_t+1＝β_t；

当时，通过以下方式更新所述惩罚系数：

β_t+1＝γβ_t。

8.根据权利要求1所述的基于强化学习的分布式能源实时调度方法，其特征在于，所述奖励函数具体为：

其中，R()表示奖励函数，A表示能源调度动作，C表示成本项，λ₁表示成本项的权重系数，Q表示能耗项，λ₂表示能耗项的权重系数，E表示环境破坏项，λ₃表示环境破坏项的权重系数，r表示惩罚项，λ₄表示惩罚项的权重系数，当能源调度动作不满足约束条件时，产生所述惩罚项。

9.根据权利要求8所述的基于强化学习的分布式能源实时调度方法，其特征在于，所述成本项C具体为：

其中，P_j表示从第j个能源设备中调度的总能原量，c_j表示第j个能源设备的成本系数；

所述能耗项Q具体为：

其中，q_j表示第j个能源设备的能耗系数；

所述环境破坏项E具体为：

其中，表示第j个能源设备的CO₂产生系数，/>表示第j个能源设备的NO_x产生系数，α表示CO₂产生项的权重系数；

所述惩罚项r具体为：

r＝n_r·r₀

10.一种基于强化学习的分布式能源实时调度系统，其特征在于，包括处理器和用于存储处理器可执行指令的存储器；所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至9中任意一项所述的基于强化学习的分布式能源实时调度方法。