CN116976523A

CN116976523A - 基于部分可观测强化学习的分布式经济调度方法

Info

Publication number: CN116976523A
Application number: CN202311027473.6A
Authority: CN
Inventors: 陈刚; 白雨
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-10-31

Abstract

本发明涉及一种基于部分可观测强化学习的分布式经济调度方法，属于电网技术领域。近年来，人工智能的迅速崛起为经济调度提供了一种良好的解决思路。人工智能技术具有动态可预测性与强容错性，在面对干扰时，体现出良好的鲁棒性。多智能体强化学习作为人工智能的一个分支，有效处理了部分可观测的马尔可夫决策过程，减少了对电力系统物理模型的依赖，在应对非线性优化目标与状态不确定性时具有良好的效果。本发明大力构建分布式能源网络，推广天然气、热、电三联供、分布式再生能源发电等供能模式，加强热、电、气等能源生产耦合集成和互补利用，并在构建多能互补、供需协调的智慧能源系统上取得一定成效。

Description

基于部分可观测强化学习的分布式经济调度方法

技术领域

本发明属于电网技术领域，涉及基于部分可观测强化学习的分布式经济调度方法。

背景技术

为了实现向智能电网的过渡，能源管理是一个需要重新审视的重要问题。传统电网通常采用集中式控制架构，但是随着数据规模的扩大，传统的求解方法计算量较大，且难以进行整体求解；对于不确定因素，集中式控制架构缺乏灵活性。此时的智能电网系统已经是复杂的动态系统，针对变量高维度问题，高维特征的冗余性和不相关性会降低传统算法的求解速度和精度，系统中复杂多样的约束条件会导致模型的非线性化，也将加大求解难度；因此，传统的集中式控制架构可拓展性较差，可能无法实现对新型电力系统的准确优化调控。

目前，已有大量文献对多智能体强化学习在智能电网经济调度中的应用进行了研究。新型电力系统中的经济调度问题一方面解决了电力系统能源供需平衡的优化问题，另一方面提升了电力系统整体的稳定性与经济性。

面向电力系统的综合能源系统设计和优化近年来也被广泛研究。为了适应工业生产规模扩大，解决工业园区效率低、成本高等严重问题，并满足多能源需求，在工业园区引入了能源管理中心进行多能源管理。在环境的设定上，大部分研究聚焦于状态已知的马尔可夫过程，针对综合能源的高度不确定性，传统的优化方法建立能源系统的动态模型，这类方法计算量大，并且优化结果不理想。基于强化学习的分布式能源管理不依赖精确的模型，在分布式控制架构中，各节点通过自身与邻居节点交互信息，按照设定进一步完成相应的计算。

发明内容

有鉴于此，本发明的目的在于提供一种基于部分可观测强化学习的分布式经济调度方法。

为达到上述目的，本发明提供如下技术方案：

基于部分可观测强化学习的分布式经济调度方法，其特征在于：该方法包括以下步骤：

S1：对于一个具有N节点的有向通信拓扑图G＝(ν,ε,Α)，其中ν为顶点的非空有限集，为有向路径的有限集，Α_N＝(a_ij)∈R^N×N为邻接矩阵；有向通信链路表示节点i可以接受节点j传输的消息，a_ij表示节点i分配给邻居节点j的权重；如果任意两个节点之间存在着有向路径使得消息可达，则图G是强连通的，不讨论自环的情况，即/>对于和/>分别表示节点i的入度邻居集合和出度邻居集合；ν_i表示节点i的邻居节点集合；定义节点i的入度为/>有向网络由对角矩阵/>表示；

存在以下定义：

(1)定义L＝Dⁱ-Α＝[l_ij]∈R^N×N为有向图的拉普拉斯矩阵，其中

(2)Ρ_N＝(p_ij)_N×N为耦合权重矩阵，

(3)对于一个没有重边的加权图，若对所有的顶点，有入度等于出度，即满足时，则称该有向网络是平衡网络；设智能体i在时刻m的标量状态为则其一阶离散时间平均一致协议为：

x_i[m+1]＝x_i[m]+σ∑a_ij(x_j[m]-x_i[m])

或者

x[m+1]＝x[m]+σLx[m]

其中，为步长；

部分可观测马尔可夫决策过程POMDP由一个六元组<S,A,R,P,Z,O>定义,S表示状态集合，并且环境状态为部分可观测；A表示动作集合；R表示奖励函数；P表示状态转移函数，状态转移矩阵表述了不可观测状态按照Markov链随机转移，观测矩阵联系了系统的输出与真实不可观测状态；Z表示观测值集合；O表示对于每个状态和动作的观测函数，代表基于观测值的概率分布，表示智能体执行动作后，转移到状态得到观测值的概率，O(s′,a,z)＝p(z|s′,a)；

用信度状态表示有效的历史信息，b(s)为状态s的信度状态，所有状态的信度之和为1，b_t(s)表示t时刻智能体处于状态s的概率p_t(s:s∈S)；信度状态的更新基于智能体所采取的动作和观测信息；求解POMDP问题时，就是得到一个从动作集合到信度状态的映射；

对于t时刻信度状态b_t(s)已知的智能体，在t时刻执行动作，从状态s转移到状态s′，得到观测值z，智能体在新状态s′的信度状态表示为：

其中，分子O(s′,a,z)表示观测函数，P(s,a,s′)表示转换函数，分母p(z|a,b_t)表示观测模块由前一时刻的信度状态和执行动作所得到的全部感知概率值：

在POMDP问题中，最优值函数求解公式变更为：

其中，B是所有信度状态的集合，

S2：建立分布式经济调度问题；

S3：进行分布式经济调度的多智能体深度强化学习。

可选的，所述S2具体为：

园区里包括热电联产装置CHP、传统发电机组TG和用户；

针对设备CHP、TG和能源交换过程进行建模，具体过程如下：

(1)热电联供装置

CHP通过消耗天然气，产生热能和电能，满足用户热能需求；CHP的热功率比表示为：

H_CHP＝η_hG_CHP，

E_CHP＝η_PG_CHP

其中H_CHP和E_CHP分别代表CHP生产输出的热能和电能，η_h和η_P分别代表CHP装置通过消耗天然气G_CHP产生热能和电能的效率；其成本函数表示为C_CHP；

能量约束如下所示：

其中，和/>分别是CHP的热量上限和功率上限,/>是设定的最大热功率比；

(2)传统电力生产

TG为传统的发电方式，其成本函数表示为C_TG；

其中，g、h、k是TG固有的参数；

发电量约束表示为：

其中，E_TG是TG输出的电能，和/>分别是TG电能输出的下限和上限；

(3)与公司进行能源交换

工业园区分别以价格p_g和p_p从天然气公司和电力公司购买天然气和电能；其成本函数分别表示为：

C_g＝p_gG_GC

C_p＝p_pE_PC

与公用事业公司进行能源交易的约束条件表示为：

0≤G_GC≤G_max

0≤E_PC≤E_max

其中，G_GC和G_max表示天然气的购买量和购买上限；E_PC和E_max表示电能的购买量和购买上限；

电能、热能、天然气用总量分别表示如下：

其中，E_i表示第i位用户的电力需求；n、m分别是CHP和TG的总数；I是区域内电力需求用户的总数；

其中，H_i表示第i位用户的热力需求；

其中，G_i表示第i位用户的天然气需求；

可用能量域Y＝{E,G,H}，总可用能量域约束条件为：

其中，y_i表示第i位用户对能量y∈Y的需求；

优化目标定义为最佳能源分配策略，使用最小的运营成本实现能源供需平衡；优化问题的目标函数表示为：

其中，C是运营总成本；包括CHP、TG发电的成本消耗和从天然气公司购买天然气、电力公司购电的成本花费；优化过程的约束整理如下：

对于此系统，假设f_i(x)为智能体i的局部目标函数，其中为智能体i的决策变量，分布式优化问题描述为：

s.t.g(x)≤0

f(x)＝0

其中g(x)、f(x)表示所有智能体的局部约束，g(x_i)、f(x_i)是智能体i的局部约束。

可选的，所述S3具体为：进行分布式经济调度的多智能体深度强化学习；

S31：部分可观测的能量管理系统；

S311：多智能体深度强化学习网络；

在生产园区中，多个能源设备与工业环境相互作用，并学习最佳策略，以最大化奖励函数；每个CHP和TG都被视为单个智能体，采用静态优化的深度学习方案；每个agent获取本地信息并采取行动，然后MAS从当前状态转移到下一个状态，并向agent分配相应的奖励；每个agent的状态、行动和奖励详情如下：

状态：在工业园区中，每个能源装置都有自己的观察结果，包括其能源消耗和发电；agent TG的状态向量包括园区总电力需求；agent CHP，状态向量包括园区总电力需求、总热力需求、总天然气需求；

动作：对于agent TG，其任务是控制是否发电，动作集合为电功率输出P_TG,i；AgentCHP的动作集合包括热功率比α_CHP,i和电功率输出P_CHP,i；

奖励：根据上面给出的运营总成本函数，设定该工业园区的奖励函数与成本函数负相关其中/>为目标需求，α₁和α₂为效用系数；假设每个能量装置/代理获得相同的奖励；因此，所有的代理都将以最大化共同奖励为目标；

为了引导策略走向满足约束的解，在奖励函数中应该添加一个局部不等式约束的惩罚项；奖励函数被修改为：

其中p_i(s′_i)是智能体i关于其局部不等式约束的惩罚函数，/>其中λ_i为惩罚系数；

S312：奖励记录器

在每个状态，智能体都会获得相应的奖励，算法通过平均一致性协议求取平均奖励，实现多智能体全局一致；对于智能体i当前状态<s_i,t,a_i,t,s_i,t+1>，设置奖励网络其中/>为奖励网络的估计参数，奖励网络的损失函数定义为：

通过平均一致协议得到平均奖励，有效奖励为平均奖励和对应记录奖励/>的最大值：

然后由更新奖励记录器；最后将状态、动作、有效奖励组成的样本<s_i,t,a_i,t,s_i,t+1,r_i,t+1>存储在经验回放池中；

S313：贝尔曼算子收缩分析

状态空间S＝{s₁,…,s_m}；动作空间A＝{a₁,…,a_n}，随机性策略为π(a|s)，确定性策略为π(s)＝a；考虑一个m维空间，每一维对应S中的一个状态；将值函数当作这个空间的一个向量，坐标为[v(s₁),…,v(s_m)]；策略π的值函数为/>最优值函数为满足：

对于所有的s∈S和贝尔曼期望算子定义如下：

其中0≤γ≤1为折扣系数，定义两个值函数相差最大的状态的值定义为值函数的度量：对于任意两个v₁(s)和v₂(s)，满足：

即贝尔曼期望算子是s∈S的收缩映射；用迭代的方法求得策略的价值或最优价值；

对于MDP的序列有如下关系：

…

≤γ^m||B_πv_π-v_π||_∞

其中m是价值迭代的次数，随着m接近无穷大，与之间的差值接近于0，即序列收敛到一个不动点，为最优价值函数；

将智能体i的POMDP表示为<S_i,A_i,R_i,P_i>，为实现全局一致性，智能体的奖励函数由R(r|s,a,s')改写为其中/>为平均奖励；/>为所有智能体的当前状态向量；/>为所有智能体的当前动作向量；/>为所有智能体的下一状态向量；状态价值函数的贝尔曼方程和贝尔曼期望算子改写为：

定义多个智能体在值迭代次数为m时的奖励函数为奖励函数随着迭代次数m变化；对于处于任意不同迭代次数m₁和m₂的V₁(s)和V₂(s)：

多个智能体收敛的条件为：当且仅当γ＜1以及对都有即：

对于智能体的POMDP序列

…

≤γ^m||B_πV_π-V_π||_∞

即序列会随着m趋近于无穷大，最终收敛到不动点V^*；

对于基于奖励记录器的多智能体强化学习，推导出即为对于/>和m＞1成立；当m＝1时，有/>即大于奖励记录器的初始值；对于基于奖励记录器的多智能体强化学习，解决部分可观测影响时需要满足条件：r₀＜＜0，γ＜1

S314：具体算法如下：

(1)训练开始时，先初始化各参数，包括与邻居节点的通信权重、入度邻居、清空经验回放池、贪心策略ε、两层网络的估计神经网络权重参数；

(2)在每一个状态点，智能体i观测电力需求P_i,t并由平均一致性协议计算总功率需求P_t作为各智能体状态s_t，由贪婪策略获取执行动作a_i,t，得到奖赏r_i,t+1和观测o_t+1；假如智能体在m时刻的状态为x_i(m)，被观测对象是向量x；基于一致性协议，设计分布式观测器；

y_i(m+1)←y_i(m)+σ∑a_ij(x_j(m)-x_i(m))

(3)使用二分查找法求解满足平衡约束的功率输出，调整功率输出其执行动作更新为/>计算信念表示b_t+1；

(4)执行约束动作并整合样本发送至经验回放池，在固定的步数结束该回合；

(5)在每一个回合结束后，智能体从经验回放池中抽取小量样本进行学习，智能体i中的Q网络通过迭代调整参数θ_i来训练减少贝尔曼方程中的均方误差,目标Q网络定义为估计Q网络定义为/>其中/>为智能体i的目标神经网络权重参数，/>为智能体i的估计神经网络权重参数；在POMDP环境中，状态s无法直接获取，在此情况下，应该利用信念模型的近似表示b，将Q(s,a,θ)近似为Q(b,a,θ)，并以此进行策略优化；

定义估计Q网络的损失函数为：

目标值y_i,t定义为：

经过固定迭代次数后，使用估计网络的相关参数更新目标网络；

S32：部分可观测的发电控制系统

负荷频率控制是通过控制各发电机组的出力，来消除各个区域电网间的联络线功率偏差和频率偏差，以达到让整个电网稳定的目的；

频率调整FR是通过平衡发电和负载要求使电力系统的频率保持在标准值附近，部分可观测的发电模型为：

状态：现实频率动态模型：其中s＝{Δω_i,ΔP_ij}为系统状态，Δω_i是总线i的频率偏差，ΔP_ij是从总线i到总线j的流量偏差；ΔP_M为发电机机械功率；ΔP_L为其他功率注入的偏差；发电机的调速涡轮控制模型表示为：

动作：对于agentFC，其任务是调频，动作选取设为标幺值，基准值根据运行电网的运行状态合理设置；

奖励：将系统的奖励函数设置为指数形式：r＝ab^|Δω|，a表示最大可实现奖励，b∈(0,1)代表控制奖励衰减率的参数，此形式下Δω越接近于0，奖励值就越大；

观测：多区域自动发电控制系统通常使用区域控制误差信号ACE的比例、积分或者微分形式为观测结果，

可选的，所述S314为DQN算法，具体为：

(1)初始化各参数，包括两层网络的估计神经网络权重参数、贪心策略、清空经验回放池；

(2)采用贪婪策略选择智能体执行的动作，获取当前状态的信度表示；

(3)执行约束动作并整合样本发送至经验回放池，在固定的步数结束该回合；

(4)在每一个回合结束后，智能体从经验回放池中抽取小量样本进行学习，智能体中的Q网络通过迭代调整参数来训练减少贝尔曼方程中的均方误差。

本发明的有益效果在于：

1、解决了智能电网非凸经济调度问题，针对智能电网中动态经济调度问题设计了分布式深度Q学习算法。

2、将经济调度问题细化为能量分配问题和发电功率控制问题，并考虑环境的复杂性、高纬度性，建立经济调度中的部分可观测马尔可夫过程。

3、引入奖励记录器，减少了环境变化对奖励的不稳定影响，并且良好适配所提出的多智能体深度强化学习算法，同时将单智能体贝尔曼算子的收缩性质推广至多智能体强化学习，消除了部分可观测性对一致性的不利影响。

4、基于园区的部分可观测环境，设计了具有分布式观测器和经验池回放池的分布式强化学习。

5、在生产园区的气热电联供多智能体系统中，设计分布式查找法修改平均功率，完善了分布式强化学习中的平均一致性算法。

针对发电控制系统中的复杂环境进行部分可观测，提出了部分可观测的深度Q学习发电控制算法。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为园区内的气-热-电一体化结构；

图2为分布式多智能体强化学习框架；

图3为部分可观测的DQN算法流程；

图4为二分查找法。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

在实际的多智能体系统一致性控制中，随着系统规模和多智能体维数的增加，计算资源的消耗也越来越大，而且各个智能体之间总是存在通信网络带宽和计算资源的限制，因此很多时候求得出的一致性控制策略往往不可行。为了延长智能体的使用寿命，减少智能体之间不必要的通信和控制器的更新，使得智能体之间可以更为有效的节省有限的传输与计算资源，将分布式控制算法引入了多智能体的一致性控制当中。将多智能体系统的环境构造成一个部分可观测的马尔科夫决策过程(POMDP)，智能体的内部算法框架包含多智能体强化学习网络、经验回放池、POMDP执行模块、交互模块四个部分。

对于一个有多个智能体的智能电网系统，经济调度问题的目标是在满足功率平衡约束和功率输出限制的前提下求解各发电单元的能量输出分配。在此算法中，将经济调度问题分解为上层能量管理模块和下层控制发电模块，多智能体强化学习部分设计为一个基于价值的off-policy算法，如图2所示。交互模块实现环境观测以及与邻居节点进行交流；POMDP模块根据当前时刻的状态、价值函数和贪婪策略生成动作；交互模块将POMDP动作决策、环境观测结果以及一系列反馈整合成为batch存储在经验回放池中，经验回放池中有价值迭代所需的大量数据；智能体随机抽取样本进行训练。

该发明的主要步骤是，针对电力系统的经济调度问题，实现对多智能体系统的一致性控制。

一、基本工具

对于一个具有N节点的有向通信拓扑图G＝(ν,ε,Α)，其中ν为顶点的非空有限集，为有向路径的有限集，Α_N＝(a_ij)∈R^N×N为邻接矩阵。有向通信链路表示节点i可以接受节点j传输的消息，a_ij表示节点i分配给邻居节点j的权重。如果任意两个节点之间存在着有向路径使得消息可达，则图G是强连通的，不讨论自环的情况，即/>对于/> 和/>分别表示节点i的入度邻居集合和出度邻居集合；ν_i表示节点i的邻居节点集合。定义节点i的入度为/>有向网络可以由对角矩阵/>表示。

存在以下定义：

1.定义L＝Dⁱ-Α＝[l_ij]∈R^N×N为有向图的拉普拉斯矩阵，其中

2.Ρ_N＝(p_ij)_N×N为耦合权重矩阵，

3.对于一个没有重边的加权图，若对所有的顶点，有入度等于出度，即a_ij满足时，则称该有向网络是平衡网络。设智能体i在时刻m的标量状态为则其一阶离散时间平均一致协议为：

x_i[m+1]＝x_i[m]+σ∑a_ij(x_j[m]-x_i[m])

或者

x[m+1]＝x[m]+σLx[m]

其中，为步长。

二、部分可观测马尔可夫决策过程

部分可观测马尔可夫决策过程(POMDP)通常由一个六元组<S,A,R,P,Z,O>定义,S表示状态集合，并且环境状态为部分可观测；A表示动作集合；R表示奖励函数；P表示状态转移函数，状态转移矩阵表述了不可观测状态按照Markov链随机转移，观测矩阵联系了系统的输出与真实不可观测状态；Z表示观测值集合；O表示对于每个状态和动作的观测函数，代表基于观测值的概率分布，表示智能体执行动作后，转移到状态得到观测值的概率，O(s′,a,z)＝p(z|s′,a)。

用信度状态表示有效的历史信息，b(s)为状态s的信度状态，所有状态的信度之和为1，b_t(s)表示t时刻智能体处于状态s的概率p_t(s:s∈S)。信度状态的更新基于智能体所采取的动作和观测信息。在我们求解POMDP问题时，就是得到一个从动作集合到信度状态的映射。

对于t时刻信度状态b_t(s)已知的智能体，在t时刻执行动作，从状态s转移到状态s′，得到观测值z，智能体在新状态s′的信度状态可以表示为：

在POMDP问题中，最优值函数求解公式变更为：

其中，B是所有信度状态的集合，

/>

三、分布式经济调度

1、问题描述

考虑如下由电力公司(powerplant)、天然气公司(gas company)和一个需要电力、热能和天然气三种能源的工业生产园区组成的热-气-电混合系统。园区里包括热电联产装置(CHP units)、传统发电机组(traditional generator)和用户(user)。

在此，考虑两个区域间的能量供需平衡，即源-荷协同区域和能源供给区域。源-荷协同区域包括热电联产机组、传统发电机组和需求客户，每个CHP、TG群都可以视为单个智能体；能源供给区域包括电力公司和天然气公司。其中，CHP和TG都可以独立决定其能量输出。能源调度中心可以感知该区域用户的电力负荷需求、热负荷需求和天然气负荷需求，并将相关信息传输至决策智能体。在信息流方面，智能体之间均采用远程点对点通信，以允许智能体以分布式的方式学习能量管理策略并做出最优决策。

2、组件建模

在如上所述系统中，针对主要设备CHP、TG和能源交换过程进行建模，具体过程如下：

(1)热电联供装置

CHP通过消耗天然气，产生热能和电能，主要满足用户热能需求。CHP的热功率比表示为：

H_CHP＝η_hG_CHP，

E_CHP＝η_PG_CHP

其中H_CHP和E_CHP分别代表CHP生产输出的热能和电能，η_h和η_P分别代表CHP装置通过消耗天然气G_CHP产生热能和电能的效率。其成本函数可以表示为C_CHP。

能量约束如下所示：

其中，和/>分别是CHP的热量上限和功率上限,/>是设定的最大热功率比。

(2)传统电力生产

TG为传统的发电方式，其成本函数表示为C_TG。

其中，g、h、k是TG固有的参数。

发电量约束可以表示为：

/>

其中，E_TG是TG输出的电能，和/>分别是TG电能输出的下限和上限。

(3)与公司进行能源交换

工业园区分别以价格p_g和p_p从天然气公司和电力公司购买天然气和电能。其成本函数分别表示为：

C_g＝p_gG_GC

C_p＝p_pE_PC

与公用事业公司进行能源交易的约束条件可以表示为：

0≤G_GC≤G_max

0≤E_PC≤E_max

其中，G_GC和G_max表示天然气的购买量和购买上限；E_PC和E_max表示电能的购买量和购买上限。

3、能源平衡

园区用户的可用能源总量取决于园区内的能源生产和公用事业公司间的能源流动。电能、热能、天然气可用总量分别表示如下：

其中，E_i表示第i位用户的电力需求；n、m分别是CHP和TG的总数；I是区域内电力需求用户的总数。

其中，H_i表示第i位用户的热力需求。

其中，G_i表示第i位用户的天然气需求。

可用能量域Y＝{E,G,H}，总可用能量域约束条件为：

其中，y_i表示第i位用户对能量y∈Y的需求。

4、分布式优化问题

在此系统中，优化目标定义为最佳能源分配策略，使用最小的运营成本实现能源供需平衡。优化问题的目标函数可以表示为：

其中，C是运营总成本。包括CHP、TG发电的成本消耗和从天然气公司购买天然气、电力公司购电的成本花费。优化过程的约束整理如下：

对于此系统，假设f_i(x)为智能体i的局部目标函数，其中为智能体i的决策变量，分布式优化问题可以描述为：

s.t.g(x)≤0

f(x)＝0

四、分布式经济调度的多智能体深度强化学习

1部分可观测的能量管理系统

1.1多智能体深度强化学习网络

在生产园区中，多个能源设备与工业环境相互作用，并学习最佳策略，以最大化奖励函数。每个CHP和TG都被视为单个智能体，采用静态优化的深度学习方案。每个agent获取本地信息并采取行动，然后MAS从当前状态转移到下一个状态，并向agent分配相应的奖励。每个agent的状态、行动和奖励详情如下：

状态：在工业园区中，每个能源装置都有自己的观察结果，包括其能源消耗和发电。agent TG的状态向量包括园区总电力需求；agent CHP，状态向量包括园区总电力需求、总热力需求、总天然气需求。

动作：对于agent TG，其任务是控制是否发电，动作集合为电功率输出P_TG,i；AgentCHP的动作集合包括热功率比α_CHP,i和电功率输出P_CHP,i。

奖励：根据上面给出的运营总成本函数，设定该工业园区的奖励函数与成本函数负相关其中/>为目标需求，α₁和α₂为效用系数。假设每个能量装置/代理获得相同的奖励。因此，所有的代理都将以最大化共同奖励为目标。

为了引导策略走向满足约束的解，在奖励函数中应该添加一个局部不等式约束的惩罚项。奖励函数被修改为：

其中p_i(s′_i)是智能体i关于其局部不等式约束的惩罚函数，/>其中λ_i为惩罚系数。

1.2奖励记录器

在每个状态，智能体都会获得相应的奖励，算法通过平均一致性协议求取平均奖励，实现多智能体全局一致。对于智能体i当前状态<s_i,t,a_i,t,s_i,t+1>，设置奖励网络其中/>为奖励网络的估计参数，奖励网络的损失函数定义为：

然后由更新奖励记录器。最后将状态、动作、有效奖励组成的样本<s_i,t,a_i,t,s_i,t+1,r_i,t+1>存储在经验回放池中。

1.3贝尔曼算子收缩分析

状态空间S＝{s₁,…,s_m}；动作空间A＝{a₁,…,a_n}，随机性策略为π(a|s)，确定性策略为π(s)＝a。考虑一个m维空间，每一维对应S中的一个状态。将值函数当作这个空间的一个向量，坐标为[v(s₁),…,v(s_m)]。策略π的值函数为/>最优值函数为满足：

对于所有的s∈S和贝尔曼期望算子定义如下：

即贝尔曼期望算子是s∈S的收缩映射。由于贝尔曼期望算子的不动点就是策略价值，贝尔曼最优算子的不动点就是最优价值，所以这就意味着我们可以用迭代的方法求得策略的价值或最优价值。

对于MDP的序列有如下关系：

…

≤γ^m||B_πv_π-v_π||_∞

其中m是价值迭代的次数，随着m接近无穷大，与之间的差值接近于0，即序列收敛到一个不动点，为最优价值函数

将智能体i的POMDP表示为<S_i,A_i,R_i,P_i>，为实现全局一致性，智能体的奖励函数由R(r|s,a,s')改写为其中/>为平均奖励；/>为所有智能体的当前状态向量；/>为所有智能体的当前动作向量；/>为所有智能体的下一状态向量。由此，状态价值函数的贝尔曼方程和贝尔曼期望算子改写为：

定义多个智能体在值迭代次数为m时的奖励函数为奖励函数随着迭代次数m变化。对于处于任意不同迭代次数m₁和m₂的V₁(s)和V₂(s)：

多个智能体收敛的条件为：当且仅当γ＜1以及对都有即：

||(B_πV₁(s))-(B_πV₂)(s)||_∞≤γmax|V₁(s')-V₂(s')|

＝γ||V₁(s')-V₂(s')||_∞

因此，对于智能体的POMDP序列

…

≤γ^m||B_πV_π-V_π||_∞

即序列会随着m趋近于无穷大，最终收敛到不动点V^*。

对于基于奖励记录器的多智能体强化学习，可以推导出即为/>因此对于/>和m＞1成立；当m＝1时，有/>即大于奖励记录器的初始值。因此对于基于奖励记录器的多智能体强化学习，解决部分可观测影响时需要满足条件：

(1)r₀＜＜0

(2)γ＜1

1.4算法流程

部分可观测的深度Q学习算法流程如图3所示，具体算法如下：

(2)在每一个状态点，智能体i观测电力需求P_i,t并由平均一致性协议计算总功率需求P_t作为各智能体状态s_t，由贪婪策略获取执行动作a_i,t，得到奖赏r_i,t+1和观测o_t+1。假如智能体在m时刻的状态为x_i(m)，被观测对象是向量x。基于一致性协议，设计分布式观测器；

y_i(m+1)←y_i(m)+σ∑a_ij(x_j(m)-x_i(m))

(3)使用二分查找法求解满足平衡约束的功率输出，调整功率输出如图4所示，其执行动作更新为/>计算信念表示b_t+1。

(5)在每一个回合结束后，智能体从经验回放池中抽取小量样本进行学习，智能体i中的Q网络可以通过迭代调整参数θ_i来训练减少贝尔曼方程中的均方误差,目标Q网络定义为估计Q网络定义为/>其中/>为智能体i的目标神经网络权重参数，/>为智能体i的估计神经网络权重参数。在POMDP环境中，状态s无法直接获取，在此情况下，应该利用信念模型的近似表示b，将Q(s,a,θ)近似为Q(b,a,θ)，并以此进行策略优化。

定义估计Q网络的损失函数为：

目标值y_i,t定义为：

经过固定迭代次数后，使用估计网络的相关参数更新目标网络，这种缓慢更新的目标网络有效的提高了算法稳定性。

2部分可观测的发电控制系统

电力系统的安全稳定运行需要保证电力系统频率稳定。传统的自动发电控制不能很好的解决新型分布式电力系统，因此从分布式领域提出负荷频率控制。负荷频率控制是通过控制各发电机组的出力，来消除各个区域电网间的联络线功率偏差和频率偏差，以达到让整个电网稳定的目的。

在发电网络的内部决策控制器中加入强化学习算法时，需要将自动控制系统与强化学习算法的运行特性加以结合并分析，才能准确的获取运行所需要的状态集S与动作集A。若状态变量过于密集则会影响系统频率质量；若状态变量太分散，就会导致算法维度过高而不利于电网频率的控制，会降低算法寻优效率，且随着程序的执行会给电网的控制系统带来了“维数灾”的难题。因此需要确定合适的状态集、动作集。

频率调整(Frequency Regulation)FR主要是通过平衡发电和负载要求使电力系统的频率保持在标准值附近，由于发电过程中一些环境变化是复杂难以观测的，发电机的控制模型是高度非线性和复杂的，因此可以提出部分可观测的发电模型：

状态：现实频率动态模型：其中s＝{△ω_i,△P_ij}为系统状态，Δω_i是总线i的频率偏差，ΔP_ij是从总线i到总线j的流量偏差；ΔP_M为发电机机械功率；ΔP_L为其他功率注入的偏差。发电机的调速涡轮控制模型可以表示为：

动作：对于agentFC，其任务是调频，动作选取设为标幺值，基准值可根据运行电网的运行状态合理设置。

奖励：将系统的奖励函数设置为指数形式：r＝ab^|Δω|，a表示最大可实现奖励，b∈(0,1)代表控制奖励衰减率的参数，此形式下Δω越接近于0，奖励值就越大。

其算法流程为部分可观测的DQN算法：

(4)在每一个回合结束后，智能体从经验回放池中抽取小量样本进行学习，智能体中的Q网络可以通过迭代调整参数来训练减少贝尔曼方程中的均方误差。

目前在智能电网经济调度方面已经取得了良好的研究成果，现在的研究热点是多能互补的综合能源系统。不仅将多种能源进行互联，实现了综合能量优化，促进了能源的多元化利用；同时还符合全球低碳的治理理念，有效改善了环境污染。

将具备感知能力的深度学习(deep learning，DL)引入具备决策能力的强化学习，形成的深度强化学习(deep reinforcement learning，DRL)算法展现出了超越以往大部分人工智能的算法。现有的研究对解决经济调度问题取得一定成效，但是所用的控制方案大多数都采用集中训练，分布执行的方式，随着智能电网节点数量增加，全局数据极大的增大了模型的求解难度，并且传统的分布式控制并非完全分布式协议，鲁棒性相对不足。环境并非完全可知，部分可观测性导致单个智能体无法感知其他智能体的行为对平均奖励的影响。各主体相互独立又相互耦合影响，直接使用多个独立的强化学习算法对智能体进行单独训练和决策难以达到理想效果。

本发明以多能源工业园区为对象，提出一个基于Q学习的多智能体深度强化学习算法，不仅可以学习隐式多能量设备的关系，还结合奖励记录机制改善神经网络的更新方式，从分布式随机过程收敛性理论上弱化了部分可观测性引起的不良效果，提升了系统的稳定性。在深度强化学习的基础之上，将平均一致性算法和二分法相结合，设计了分布式优化算法，求解了电网中带有平衡约束和不等式约束的能源管理问题；并且将环境不可全部观测的发电控制过程进行建模，求解出最佳的频率调整策略，响应能源调度。

本发明大力构建分布式能源网络，推广天然气、热、电三联供、分布式再生能源发电等供能模式，加强热、电、气等能源生产耦合集成和互补利用，并在构建多能互补、供需协调的智慧能源系统上取得一定成效。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于部分可观测强化学习的分布式经济调度方法，其特征在于：该方法包括以下步骤：

S1：对于一个具有N节点的有向通信拓扑图G＝(ν,ε,Α)，其中ν为顶点的非空有限集，为有向路径的有限集，Α_N＝(a_ij)∈R^N×N为邻接矩阵；有向通信链路表示节点i可以接受节点j传输的消息，a_ij表示节点i分配给邻居节点j的权重；如果任意两个节点之间存在着有向路径使得消息可达，则图G是强连通的，不讨论自环的情况，即/>对于/> 和/>分别表示节点i的入度邻居集合和出度邻居集合；ν_i表示节点i的邻居节点集合；定义节点i的入度为/>有向网络由对角矩阵/>表示；

存在以下定义：

(2)Ρ_N＝(p_ij)_N×N为耦合权重矩阵，

x_i[m+1]＝x_i[m]+σ∑a_ij(x_j[m]-x_i[m])

或者

x[m+1]＝x[m]+σLx[m]

其中，为步长；

在POMDP问题中，最优值函数求解公式变更为：

其中，B是所有信度状态的集合，

S2：建立分布式经济调度问题；

S3：进行分布式经济调度的多智能体深度强化学习。

2.根据权利要求1所述的基于部分可观测强化学习的分布式经济调度方法，其特征在于：所述S2具体为：

园区里包括热电联产装置CHP、传统发电机组TG和用户；

针对设备CHP、TG和能源交换过程进行建模，具体过程如下：

(1)热电联供装置

H_CHP＝η_hG_CHP，

E_CHP＝η_PG_CHP

能量约束如下所示：

(2)传统电力生产

TG为传统的发电方式，其成本函数表示为C_TG；

其中，g、h、k是TG固有的参数；

发电量约束表示为：

(3)与公司进行能源交换

C_g＝p_gG_GC

C_p＝p_pE_PC

与公用事业公司进行能源交易的约束条件表示为：

0≤G_GC≤G_max

0≤E_PC≤E_max

电能、热能、天然气用总量分别表示如下：

其中，H_i表示第i位用户的热力需求；

其中，G_i表示第i位用户的天然气需求；

可用能量域Y＝{E,G,H}，总可用能量域约束条件为：

其中，y_i表示第i位用户对能量y∈Y的需求；

s.t.g(x)≤0

f(x)＝0

3.根据权利要求2所述的基于部分可观测强化学习的分布式经济调度方法，其特征在于：所述S3具体为：进行分布式经济调度的多智能体深度强化学习；

S31：部分可观测的能量管理系统；

S311：多智能体深度强化学习网络；

动作：对于agent TG，其任务是控制是否发电，动作集合为电功率输出P_TG,i；Agent CHP的动作集合包括热功率比α_CHP,i和电功率输出P_CHP,i；

S312：奖励记录器

S313：贝尔曼算子收缩分析

状态空间S＝{s₁,…,s_m}；动作空间A＝{a₁,…,a_n}，随机性策略为π(a|s)，确定性策略为π(s)＝a；考虑一个m维空间，每一维对应S中的一个状态；将值函数v:当作这个空间的一个向量，坐标为[v(s₁),…,v(s_m)]；策略π的值函数为v_π:/>最优值函数为v_*:满足：

对于所有的s∈S和v:贝尔曼期望算子定义如下：

对于MDP的序列有如下关系：

多个智能体收敛的条件为：当且仅当γ＜1以及对都有即：

||(B_πV₁(s))-(B_πV₂)(s)||_∞≤γmax|V₁(s')-V₂(s')|

＝γ||V₁(s')-V₂(s')||_∞

对于智能体的POMDP序列

即序列会随着m趋近于无穷大，最终收敛到不动点V^*；

对于基于奖励记录器的多智能体强化学习，推导出即为/>对于/>和m＞1成立；当m＝1时，有/>即大于奖励记录器的初始值；对于基于奖励记录器的多智能体强化学习，解决部分可观测影响时需要满足条件：r₀＜＜0，γ＜1

S314：具体算法如下：

y_i(m+1)←y_i(m)+σ∑a_ij(x_j(m)-x_i(m))

(5)在每一个回合结束后，智能体从经验回放池中抽取小量样本进行学习，智能体i中的Q网络通过迭代调整参数θ_i来训练减少贝尔曼方程中的均方误差,目标Q网络定义为Q_i ^tar＝(s_i,a_i,θ_i ^tar)；估计Q网络定义为Q_i ^pre＝(s_i,a_i,θ_i ^pre)，其中θ_i ^tar为智能体i的目标神经网络权重参数，θ_i ^pre为智能体i的估计神经网络权重参数；在POMDP环境中，状态s无法直接获取，在此情况下，应该利用信念模型的近似表示b，将Q(s,a,θ)近似为Q(b,a,θ)，并以此进行策略优化；

定义估计Q网络的损失函数为：

目标值y_i,t定义为：

S32：部分可观测的发电控制系统

4.根据权利要求3所述的基于部分可观测强化学习的分布式经济调度方法，其特征在于：所述S314为DQN算法，具体为：