CN114331059A

CN114331059A - 电氢互补的园区多楼宇供能系统及其协调调度方法

Info

Publication number: CN114331059A
Application number: CN202111533241.9A
Authority: CN
Inventors: 范宏; 于伟南; 彭瑞
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-12

Abstract

本发明涉及一种电氢互补的园区多楼宇供能系统及其协调调度方法，根据实际园区工程，分析园区内部能量流、信息流和控制流的运行机理，按照不同楼宇的可靠性和经济性要求进行分类，建立含氢储能的电氢互补的园区多楼宇供能系统；对供电系统中能源与负载分别建模，并应用在电氢互补的园区多楼宇供能系统的调度模型当中；建立园区多楼宇供能系统中多个楼宇互联的交互机制，在多智能体强化学习算法的支持下，根据楼宇的历史数据，以“离线集中学习，在线分布执行”的方式，实时供能调度。利用电氢互补特性和楼宇间的电能共享，构建碳中和园区的运行结构，在多智能体强化学习算法的支持下，各楼宇自我优化过程中实现整体最优，避免了维数灾和次优动作的选择。

Description

电氢互补的园区多楼宇供能系统及其协调调度方法

技术领域

本发明涉及一种能源管理技术，特别涉及一种双碳目标下考虑电氢互补的园区多楼宇供能系统及其协调调度方法。

背景技术

随着可生再能源发电技术的不断创新和发展以及成本的大幅下降，其渗透率也在逐渐提高，这可能会给电网带来间歇性和可靠性问题，因此需要新的解决方案来灵活调配系统中的资源。通过多种能源的转化和存储来提高能源利用率是目前主流的研究方向，其中储能的作用尤为重要。但传统的电储能方式，例如，蓄电池、超级电容等，具有自燃风险，不适宜安装在人流密集或对安全性有较高要求的场所。而氢储能技术不仅安全、稳定，而且能量的转换过程几乎没有碳排放，能够有效地解决“碳中和”发展瓶颈问题。

作为电力系统的终端应用形式，以智能楼宇为模块化单元，自底层向上构建智慧园区供能体系，不仅能够实现电力系统的灵活调度，而且可以增强智慧园区的“韧性”，使园区在面临极端场景时有更强大的防御力和恢复力。但楼宇位于系统底层，容量较小且用能行为各异，需要在楼宇中安装氢储能设备，以提高楼宇的可控性、协调性以及就地消纳可再生能源的能力。在现实场景中，楼宇往往是呈集群分布的，协调楼宇间的电能交互不仅可以实现内部资源的协同互济和可再生能源的就近消纳，而且对配电系统与用户间的电能交互可以起到过渡作用。

目前已有的研究大多关注的是集中式的调度方法，这类方法需要频繁的信息交互，计算负担较重且存在暴露用户隐私的潜在风险。分布式优化调度可以将问题分解成多个子问题分别独立求解，只需要少量信息交互就可以达到全局最优。近年来，深度强化学习方法具有高速精准的决策能力，在建筑能耗评估、用电设备调度、需求侧管和自动电压控制等方面都有不错的表现，非常适合具有高实时性、自主性要求且对电压波动不敏感的智慧园区。将深度强化学习方法应用于智慧园区的分布式协调调度，智能体经过离线训练在实际运行中仅利用少量的本地状态信息就可以快速确定调度方案。

发明内容

针对智能园区建立问题，提出了一种电氢互补的园区多楼宇供能系统及其协调调度方法，通过利用电氢互补特性和楼宇间的电能共享，构建碳中和智慧园区的运行结构，在MADDPG(多智能体强化学习)算法的支持下，各楼宇可以在自我优化过程中实现整体最优，避免了维数灾和次优动作的选择。

本发明的技术方案为：一种电氢互补的园区多楼宇供能系统，在园区中，每栋楼宇属于不同主体，对不可断电的楼宇配置一个含氢储能系统；所有楼宇共同构成了一个整体，楼宇之间由一条母线连接，楼宇之间存在电力共享；每栋楼宇都分配了一个智能体，智能体与楼宇设备的控制器之间有通信线路，用于获取传感器测量的实时状态数据；同时实时状态数据被所属智能体储存起来，每隔一段时间经过通信线路传输给其他楼宇的智能体，用于智能体的离线学习；智能体根据实时数据，在线确定楼宇内部可控组件的最佳参考值并传输给相应组件的控制器，控制器控制通过控制换流器和智能开关使设备跟踪最佳参考值。

进一步，所述楼宇组成的园区通过由园区管理器控制的公共连接点连接到配电网，每栋楼宇根据自身负荷配备不同容量的光伏面板、风电机组、柴油发电机和氢储能系统。

进一步，所述电氢互补的园区多楼宇供能系统的协调调度方法，具体包括如下步骤：

1)根据实际园区工程，分析园区内部能量流、信息流和控制流的运行机理，按照不同楼宇的可靠性和经济性要求进行分类，建立含氢储能的电氢互补的园区多楼宇供能系统；

2)对供电系统中能源与负载分别建模，其中氢储能系统电解、加氢、脱氢、燃烧四个环节，分别建立了运行模型以及储氢罐的荷载状态函数，并将其作为约束条件应用在电氢互补的园区多楼宇供能系统的调度模型当中；

3)建立园区多楼宇供能系统中多个楼宇互联的交互机制，在多智能体强化学习算法的支持下，根据楼宇的历史数据，以“离线集中学习，在线分布执行”的方式，实现了园区的实时供能调度。

进一步，所述步骤2)具体包括以下步骤：

2.1)针对建立的碳中和园区多楼宇运行环境，对其中的能源与负载建模；

2.2)根据园区供需量不同形成调度策略：

2.2.1)各楼宇发电满足自身负荷需求后功率均有剩余：若此时可再生能源出力有剩余功率，则优先利用氢储能系统将剩余能量储存起来，若还有剩余功率，则将其出售给配电网获取收益；

2.2.2)各楼宇发电均不能满足自身负荷需求：此时优先调用楼宇自身氢储能系统储存的能量，直至达到储氢罐的容量下限或燃料电池的最大放电功率；

2.2.3)部分楼宇发电满足自身负荷需求后功率有剩余，部分楼宇发电不能满足自身负荷需求：秉承可再生能源发电就地消纳的原则，缺电楼宇优先从有剩余功率的楼宇购电，当前者剩余功率小于后者功率缺额时，缺额功率由自身储能电池供给，直至储能电池容量下限，若仍不能满足用电需求，则缺额功率从配电网中获取；当前者剩余功率大于后者负荷需求时，峰时段多余功率卖给配电网或平时段、谷时段先给自身储能电池充电再卖给配电网；

2.3)根据整个园区总运行成本最小化的优化目标，建立园区优化调度模型。

进一步，所述步骤3)具体步骤为：

3.1)马尔可夫决策过程；

多智能体深度强化学习算法是以马尔可夫决策过程为基础的随机博弈架构，用高维元组<S，A，R，P，γ>表示，其中，状态向量组S＝{s₁,s₂,…,s_i,…,s_I}表征各楼宇调度智能体所处环境的状态集合，I为智能体的数量，每栋楼宇对自身设备状态时完全感知的，但不能感知到其他楼宇的设备状态，即智能体i的观测空间o_i＝s_i；联合动作A＝{a₁,a₂,…,a_i,…,a_I}表征各智能体的动作集合；回报R＝{r₁,r₂,…,r_i,…,r_I}表征各智能体在当前状态执行动作得到的奖励S×A×S→R；状态转移矩阵P表示智能体执行当前动作后环境由当前状态转移到下一状态的概率分布；累计折扣回报的衰减系数γ表征远期回报对当前动作的影响程度；

楼宇的观测空间包括负荷需求、上一时段储氢罐的荷能状态、风电、光伏的输出功率和当前所处调度时段；

3.2)离线集中训练；

每个智能体都是一个行动者-评论家架构，行动者和评论家的策略网络和目标网络均使用深度Q网络逼近最优策略和价值的实际值，解决了动作和价值离散而不能覆盖所有的可能值的问题；

3.3)在线分布执行：园区执行动作A_t并且获得当前时段的奖励R_t和下一时段的环境状态S_t+1，然后将S_t+1作为下一时段的智能体输入并制定该时段的决策，直到得到全部时段的调度动作。

本发明的有益效果在于：本发明电氢互补的园区多楼宇供能系统及其协调调度方法，含氢储能系统的智能楼宇在考虑电解制氢的电力来源的前提下利用电价引导氢储能系统灵活调整楼宇的净负荷曲线，优化用户用能成本的同时保证了系统的低碳节能运行。将MADDPG方法与智慧园区运行结构相结合，设计分布式实时经济调度方法，使得各楼宇在自我优化过程中实现整体最优。并通过算例分析和比较，验证了所提方法的有效性，具有逻辑结构清晰、实用合理的优点。

附图说明

图1为本发明电氢互补的园区多楼宇供能系统协调调度方法建立流程图；

图2为本发明实施例电氢互补的园区多楼宇供能系统结构示意图；

图3为本发明实施例的具体调度策略流程图；

图4a为本发明实施例一的智慧楼宇的训练数据集分布图；

图4b为本发明实施例二的智慧楼宇的训练数据集分布图；

图4c为本发明实施例三的智慧楼宇的训练数据集分布图；

图5为本发明三个实施例的各楼宇回报值曲线图；

图6a为本发明实施例一的智慧楼宇在不考虑绿氢制备条件下的优化结果图；

图6b为本发明实施例二的智慧楼宇在不考虑绿氢制备条件下的优化结果图；

图6c为本发明实施例三的智慧楼宇在不考虑绿氢制备条件下的优化结果图；

图6d为本发明实施例一的智慧楼宇在考虑绿氢制备条件下的优化结果图；

图6e为本发明实施例二的智慧楼宇在考虑绿氢制备条件下的优化结果图；

图6f为本发明实施例三的智慧楼宇在考虑绿氢制备条件下的优化结果图；

图7a为本发明实施例基于价格驱动的楼宇交互电功率图；

图7b为本发明实施例考虑绿氢制备的楼宇交互电功率图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示电氢互补的园区多楼宇供能系统协调调度方法建立流程图，方法包括以下步骤：

S1根据实际园区工程，详细分析了园区内部能量流、信息流和控制流的运行机理，按照不同楼宇的可靠性和经济性要求进行分类，建立含氢储能的电氢互补的园区多楼宇供能系统；

S2针对氢储能电解、加氢、脱氢、燃烧四个环节，分别建立了详细的运行模型以及储氢罐的荷载状态函数，并将其作为约束条件应用在电氢互补的园区多楼宇供能系统的调度模型当中；

S3为了实现楼宇间自主运行能力，建立园区多楼宇供能系统中多个楼宇互联的交互机制，并根据楼宇的历史数据，以“离线集中学习，在线分布执行”的方式，实现了智慧园区的实时供能调度；

S4为验证本发明所提方法的有效性，比较了基于价格信号的调度策略与考虑可再生能源制氢的调度方法，并将本发明所提方法与其他深度强化学习方法的优化性能作了比较。

步骤S1中针对实际智慧园区工程，详细分析了园区内部能量流、信息流和控制流的运行机理，按照不同楼宇的可靠性和经济性要求进行分类，建立了电氢互补的园区多楼宇供能系统，其中实施例的园区多楼宇供能系统结构示意图如图2所示。

在该园区中，每个智能楼宇都分属于不同主体，每栋楼宇配置一个含氢储能系统，其调度均为使自身的运行成本最小。但它们共同构成了一个整体，楼宇之间由一条母线连接，楼宇之间存在电力共享。每栋楼宇都分配了一个智能体i，智能体与楼宇设备的控制器之间有通信线路，用于获取传感器测量的实时状态数据。同时这些数据将被储存起来，每隔一段时间经过通信线路传输给其他楼宇的智能体，智能体直接信息互通，用于智能体的离线学习。智能体根据实时数据，在线确定楼宇内部可控组件的最佳参考值并传输给相应组件的控制器，控制器控制通过控制换流器和智能开关使设备跟踪这些参考值。这样，以完全分布式的方式从每栋楼宇自我优化的过程中实现了园区整体最优。

假设全天的调度时段集合为Ω_T＝{1,…,t,…,T}，园区内的楼宇集合Ω_B＝{1,…,n,…,N}，由智能楼宇组成的智慧园区通过由园区管理器控制的公共连接点(PCC)连接到配电网。每栋楼宇的都配备了不同容量的光伏面板、风电机组和柴油发电机，对于供电可靠性要求较高不可断电的楼宇(如医院、警察局等)需要配备了氢储能系统，氢储能系统相应的集合为

同时，还考虑了柔性负荷的调峰作用，部分楼宇的负荷要求不高，可在一定范围内减少部分对柔性负荷的供电，相应的集合为

以上元件都配有相应的传感器、控制器和智能开关。

步骤S2中针对氢储能系统电解、加氢、脱氢、燃烧四个环节，分别建立了详细的运行模型以及储氢罐的荷载状态函数，并将其作为约束条件应用在智慧园区的调度模型当中，具体步骤为：

步骤S21：针对建立的碳中和智慧园区多楼宇运行环境，对其中的关键设备建模；

电解过程：

式中，

为电解得到的氢气产量；η^EL为电解效率；ξ^EL为电解槽的转换效率；

为电解槽消耗的电功率；

为电解槽消耗的电功率最大、最小值。

加氢过程：

式中，

是存储到储氢罐中的液态氢；ξ^LH为储氢单元(LOHC)的容积存储密度；

为氢化反应效率；

为氢化反应消耗的电功率；

为氢化反应的耗电率。

脱氢过程：

式中，

为脱氢反应产生的用于燃料电池发电的氢气；

为脱氢反应效率；

为脱氢反应消耗的电功率；

为脱氢反应的耗电率。

氢燃料电池的能量转换过程和燃料电池的出力约束：

式中，

为燃料电池产生的电功率；η^FC为氢-电转换因子；ξ^FC为燃料电池的发电效率；

分别为氢燃料电池发电的上、下限。

氢储能系统的荷载状态

式中，μ_loss≈0表示储氢罐的损失系数，Δt＝t-t₀，t₀表示优化周期的初始时刻，

分别为氢储能系统的荷载的上、下限。

采用柴油发电机作为可控机组，其数学模型为：

式中，

表示柴油发电机当前时段出力；

表示柴油发电机的出力上、下限。

柔性负荷数学模型为：

式中，

表示第n栋楼宇在时段t的净负荷；

表示第n栋楼宇在时段t的固定负荷；

表示第n栋楼宇在时段t的柔性负荷；

表示第n栋楼宇在时段t内柔性负荷的削减量。

步骤S22：根据园区供需量不同形成调度策略。

图3为实施例的调度策略流程图，其具体步骤如下：

(1)各楼宇发电满足自身负荷需求后功率均有剩余。若此时可再生能源出力有剩余功率，则优先利用氢储能系统将这部分能量储存起来，若还有剩余功率，则将其出售给配电网获取收益；

(2)各楼宇发电均不能满足自身负荷需求。此时优先调用楼宇自身氢储能系统储存的能量，直至达到储氢罐的容量下限或燃料电池的最大放电功率；

(3)部分楼宇发电满足自身负荷需求后功率有剩余，部分楼宇发电不能满足自身负荷需求。秉承可再生能源发电就地消纳的原则，缺电楼宇优先从有剩余功率的楼宇购电，当前者剩余功率小于后者功率缺额时，缺额功率由自身储能电池供给，直至储能电池容量下限，若仍不能满足用电需求，则缺额功率从配电网中获取；当前者剩余功率大于后者负荷需求时，多余功率卖给配电网(峰时段)或先给自身储能电池充电再卖给配电网(平时段、谷时段)。

步骤S23：根据整个园区总运行成本最小化的优化目标，建立园区优化调度模型。

考虑了购电成本、运行成本、维护成本、碳排放成本、削减柔性负荷的补偿成本以及售电收益，具体的目标函数如下：

第n栋楼宇购电成本包括从其他楼宇和上级电网购电的费用：

式中，m表示第m栋楼宇且m≠n，

分别为第n栋楼宇从楼宇m和上级电网的购电量，

和

表示楼宇间的购电价格和上级电网的购电价格。

运行成本主要为柴油发电机燃料成本：

式中，a_i，b_i和c_i为柴油发电机的燃料成本系数。

维护成本主要包括分布式电源维护成本、储能电池折损成本：

式中，σ^PV、σ^WT、

和σ^DE分别表示光伏、风机、氢储能系统和柴油发电机的运行维护费用；

和

分别表示第n栋楼宇在时段t的光伏、风机和柴油发电机输出电功率。

柴油发电机组和配电网产生的碳排放成本：

式中，

和

分别表示柴油发电机和上级电网的碳排放成本系数。

柔性负荷的补偿成本：

售电收益为各楼宇出售给微网层级和配网层级的电功率：

在时段t，各楼宇的功率平衡约束：

主网与楼宇之间、楼宇和楼宇之间有功率交换的上下限约束：

步骤S3中针对具有自主运行能力的智能楼宇，建立了多个楼宇互联的交互机制，并根据楼宇的历史数据，以“离线集中学习，在线分布执行”的方式，实现了智慧园区的实时调度，具体步骤为：

步骤S31：马尔可夫决策过程；

多智能体深度强化学习算法是以马尔可夫决策过程为基础的随机博弈架构，可用高维元组<S，A，R，P，γ>表示。其中，状态向量组S＝{s₁,s₂,…,s_i,…,s_I}表征各楼宇调度智能体所处环境的状态集合，I为智能体的数量，每栋楼宇对自身设备状态时完全感知的，但不能感知到其他楼宇的设备状态，即智能体i的观测空间o_i＝s_i；联合动作A＝{a₁,a₂,…,a_i,…,a_I}表征各智能体的动作集合；回报R＝{r₁,r₂,…,r_i,…,r_I}表征各智能体在当前状态执行动作得到的奖励S×A×S→R；状态转移矩阵P表示智能体执行当前动作后环境由当前状态转移到下一状态的概率分布；累计折扣回报的衰减系数γ表征远期回报对当前动作的影响程度。

楼宇的观测空间包括负荷需求(包括固定负荷和柔性负荷)、上一时段储氢罐的荷能状态、风电、光伏的输出功率和当前所处调度时段，具体为：

智能体输出的动作可由柔性负荷的响应功率和柴油发电机的发电功率表示，具体如下：

确定柔性负荷的响应功率和柴油发电机的发电功率后，电解池、燃料电池和楼宇的购、售电功率均可由制定的调度策略确定。

根据案例的调度模型，将各个楼宇运行成本最小化的目标转化为智能体的奖励最大化的形式，得到第n个智能体在调度时段t获得的回报表达式为：

r_i＝n,t＝-F_n,t

步骤S32：离线集中训练；

每个智能体都是一个行动者-评论家(Actor-Critic,A2C)架构。Actor和Critic的策略网络和目标网络均使用深度Q网络逼近最优策略和价值的实际值，解决了动作和价值离散而不能覆盖所有的可能值的问题。假设I个智能体对应的深度Q网络的参数集合为θ＝(θ₁,θ₂,...,θ_i,…,θ_I)，则联合策略为π＝(π(θ₁),π(θ₂),…,π(θ_i),…,π(θ_I))。Actor的主网络θ^π和目标网络θ^π'的输出分别为当前时段和下一时段的柴油发电机出力以及柔性负荷响应量，其中下一时段的动作是智能体基于环境执行当前时段动作进入的状态确定的。Critic的主网络θ^Q和目标网络θ^Q'分别根据当前时段策略和下一时段策略估计状态价值函数Q和动作价值函数Q'的值。

状态价值函数表示环境在状态S_t执行策略π后获得的折现回报，动作价值函数表示环境在状态S_t下，执行动作A_t后，如果继续执行策略π所能获得的回报期望值。状态价值函数和动作价值函数的贝尔曼方程可表示如下：

V_i(s_i)＝E_i[r_i,t+1+γV_i(S_t+1)|S_t＝s]

Q_i(s,a)＝E_i[r_i,t+1+γQ_i(S_t+1,A_t+1)|S_t＝s,A_t＝a]

MADDPG算法的训练步骤如下：

(1)设置训练次数N；

(2)初始化一个随机动作采样过程；

(3)设置LOHC初始状态等状态初始值；

(4)设置训练回合次数T＝24；

(5)每个Actor主网络根据o_i,t用

确定动作a_i,t构成动作集合A_t；

(6)楼宇群运行环境执行动作A_t，并向各智能体返回奖励R_t、当前状态S_t和下一状态S_t+1；

(7)Actor目标网络基于A_t,o_i,t+1确定下一回合动作a_i,t+1构成动作集合A_t+1；

(8)将S_t,o_i,t,A_t,r_i,t,S_t+1,o_i,t+1,A_t+1储存到经验池D_i；

(9)每回合更新智能体的网络参数；

(10)从D_i中随机采样小批量数据；

(11)用

计算Actor和Critic的损失函数；

(12)按照策略梯度分别用

更新Actor和Critic的主网络参数；

(13)智能体回合结束；

(14)用

对Critic和Actor的目标网络进行软更新；

(15)回合结束；

(16)训练结束。

步骤S33：在线分布执行。

表1为实施例的神经网络结构及超参数设置，智慧园区执行动作A_t并且获得当前时段的奖励R_t和下一时段的环境状态S_t+1，然后将S_t+1作为下一时段的智能体输入并制定该时段的决策，直到得到全部时段的调度动作。

表1

步骤S4中为验证本发明所提方法的有效性，比较了基于价格信号的调度策略与考虑可再生能源制氢的调度方法，并将文发明所提方法与其他深度强化学习方法的优化性能作了比较，具体步骤为：

步骤S41：基于训练数据和环境参数，对每个楼宇智能体进行训练，得到3个楼宇智能体在训练过程中的回报值曲线；

图4a-4c为本发明3个实施例智慧楼宇的训练数据集分布图，图5为3个实施例的各楼宇回报值曲线，从图5中可以看出，智能体在训练初期获得的奖励值较小，且奖励值的分布较为松散，说明此时智能体尚不稳定，处于初步探索阶段；经历约8000次训练后，智能体获得的奖励值在训练过程中逐渐增加且最终稳定在一个较小的区间内，说明智能体在不断地试错中获得了经验，并最终学习到了最小化系统运行成本的最优调度策略。由于在每个训练回合中的训练数据都有变化，因此在训练过程中奖励值会出现振荡。

步骤S42：为说明系统的实时调度性能，以该智慧园区2018年5月1日的调度数据为例，基于本发明提出的分布式协调调度方法模拟了两种情景的调度情况；

情景1：楼宇采用传统电储能，储能装置的动作不受电力来源的限制，调度策略采用一般的基于市场价格驱动的策略；

情景2：楼宇采用氢储能系统，且考虑可再生能源制氢设备，制氢的电力来源均为可再生能源，调度策略采用步骤S22中所提策略。

图6a～6f为实施例的两种调度策略下的调度结果，其中图6a、6c、6e为情景1中楼宇1、2、3的调度结果，6b、6d、6f为情景2中楼宇1、2、3的调度结果。由此可看出，在情景1中，氢储能系统在电价的引导下进行充放电，在谷电价且电负荷较小时充电以备负荷高峰时段的放电需求，如23：00—04：00时段，楼宇1、2、3均选择在此时段将电能转化成液态氢储存起来；在06：00—09：00时段，此时处于平电价时段，此时楼宇1缺电而楼宇2、3有多余电量，因此楼宇1的功率缺额由楼宇2、3补足；相比之下，在15：00—17：00时段，此时楼宇1、2、3的电负荷较高而风、光出力不足，整个微网呈现缺电状态，因此楼宇1、3选择释放氢储能系统存储的电量，剩余缺电量从配电网购电补充，而楼宇2没有氢储能系统，只能选择从配电网购电。在11：00—14：00时段，此时楼宇1、3的风、光出力的总和大于负荷需求，且在调度初期氢储能系统已经储存了足够多的电量，因此楼宇1、3选择将多余电能向外输送以获取收益；而楼宇2此时处于缺电状态，由柴油发电机发电补充。在时段18：00—22：00，此时处于峰电价时段，各楼宇均处于缺电状态，楼宇1、3的氢储能系统受输出功率限制不能完全满足其用电需求，因此需要调用柴油发电机补充剩余缺电功率。在情景2中，制氢的电力来源均为智慧园区中的可再生能源发电装置，因此电解池动作在可再生能源较充裕的时段，如4：00-8：00。氢燃料电池的动作与情景1相近，集中在15：00-21：00时段，此时电价较高，氢燃料电池出力以减少智慧园区的运行成本。在11：00-14：00时段，虽然可再生能源也比较充裕，但此时售电价格价高，楼宇仍选择向配电网售电以获取收益。两种情景下智慧园区的总运行成本分别为2416.341元和2231.559元，其中每栋楼宇的碳排放成本如表2所示，园区的总碳排放成本分别为15.254元和12.278元，本发明设计的考虑电氢互补的智慧园区结构较采用传统电储能的智慧园区运行成本降低了7.643％，碳排放水平降低了19.510％。

表2

图7a、7b为本发明实施例基于价格驱动、考虑绿氢制备的楼宇交互电功率图，结合图7a、7b对比两种调度策略可以看出，情景1中的楼宇选择在谷电价时段从配电网购电储能，而在平、峰电价时段，由于售电价格高于内部交易价格，楼宇更倾向于将自身剩余功率出售给配电网以提高自身收益；而情景2中楼宇在可再生能源出力有富余时制备绿氢，相当于提高了内部功率交互的优先级，提高了园区就地消纳可再生能源的能力。

步骤S43：为验证基于MADDPG算法的碳中和智慧园区多楼宇协调调度方法的有效性，将基于MADDPG算法的调度方法与基于DQN的调度方法以及基于DDPG的调度方法进行对比。

表3为实施例不同算法的优化结果比较，给出了3种方法优化后的平均日运行成本的统计数据。其中，基于MADQN算法的日运行成本为2437.124元，较MADDPG算法增加了5.19％；基于DDPG算法的平均日运行成本为2355.129元，较MADDPG算法增加了2.08％。这是因为在MADQN方法中，由于柔性负荷响应量、氢储能的出力需取设定的离散值，导致动作的选择不能覆盖整个动作空间，筛选出的动作很可能是一个次优动作。DDPG算法采用单个智能体对所有楼宇同时进行调度，状态集合和动作集合非常庞大，导致智能体选择了次优动作，而且在实际运行中需要大量的通信。由此可见，本发明所提出的基于MADDPG算法的调度方法较其他两种算法能够更容易地探索到动作空间中的最优动作，更适合解决含氢储能系统的多智慧楼宇协调调度问题。

表3

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种电氢互补的园区多楼宇供能系统，其特征在于，在园区中，每栋楼宇属于不同主体，对不可断电的楼宇配置一个含氢储能系统；所有楼宇共同构成了一个整体，楼宇之间由一条母线连接，楼宇之间存在电力共享；每栋楼宇都分配了一个智能体，智能体与楼宇设备的控制器之间有通信线路，用于获取传感器测量的实时状态数据；同时实时状态数据被所属智能体储存起来，每隔一段时间经过通信线路传输给其他楼宇的智能体，用于智能体的离线学习；智能体根据实时数据，在线确定楼宇内部可控组件的最佳参考值并传输给相应组件的控制器，控制器控制通过控制换流器和智能开关使设备跟踪最佳参考值。

2.根据权利要求1所述电氢互补的园区多楼宇供能系统，其特征在于，所述楼宇组成的园区通过由园区管理器控制的公共连接点连接到配电网，每栋楼宇根据自身负荷配备不同容量的光伏面板、风电机组、柴油发电机和氢储能系统。

3.根据权利要求1所述电氢互补的园区多楼宇供能系统的协调调度方法，其特征在于，具体包括如下步骤：

4.根据权利要求3所述电氢互补的园区多楼宇供能系统的协调调度方法，其特征在于，所述步骤2)具体包括以下步骤：

2.2)根据园区供需量不同形成调度策略：

5.根据权利要求4所述电氢互补的园区多楼宇供能系统的协调调度方法，其特征在于，所述步骤3)具体步骤为：

3.1)马尔可夫决策过程；

3.2)离线集中训练；