CN117726143B

CN117726143B - 基于深度强化学习的环境友好型微网优化调度方法及系统

Info

Publication number: CN117726143B
Application number: CN202410171476.5A
Authority: CN
Inventors: 刘帅; 杜瑞琦; 王小文; 徐昊天; 刘龙成; 赵浩然; 华友情; 吴颖颖
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2024-02-07
Filing date: 2024-02-07
Publication date: 2024-05-17
Anticipated expiration: 2044-02-07
Also published as: CN117726143A

Abstract

本发明公开一种基于深度强化学习的环境友好型微网优化调度方法及系统，涉及电力系统优化运行与调度技术领域，该方法包括：搭建包括供需预测模块、碳交易模块、电力交易模块、固碳储能模块、可控分布式电源模块的环境友好型智能微网；获取环境友好型智能微网的运行数据，以收益最大化、成本最小化、供需平衡和碳排放量最小化为综合优化目标，构建环境友好型智能微网优化调度模型；根据深度强化学习理论，采用两层多目标奖励机制和改进的随机高斯策略梯度算法优化微网运行，输出智能微网最优优化调度策略。本发明能够实现对智能微网能源的最优调度，实现微网经济效益、供需平衡和碳排放等多方面的综合优化目标。

Description

基于深度强化学习的环境友好型微网优化调度方法及系统

技术领域

本发明涉及电力系统优化运行与调度技术领域，尤其涉及一种基于深度强化学习的环境友好型微网优化调度方法及系统。

背景技术

随着全球气温变暖，气候问题已成为世界各国普遍关注的热点问题之一。同时，随着科技进步、社会发展以及人口增长，促使全球能源需求急剧增加，导致以煤炭、石油为主的传统化石能源日益枯竭，传统能源供应面临资源短缺、价格波动和环境污染等问题。在此背景下，以分布式发电为核心的可再生能源得到越来越多的关注和推广。然而，分布式发电易受气候变化和环境因素的干扰，具有间歇性和随机性，导致供电质量和可靠性大大降低，通过优化调度智能微网，可有效地解决分布式发电装置并网时供电质量不高和可靠性不强的问题，提高可再生能源的渗透率，并为用户提供“绿色电力”，降低用户用电成本。

然而，现有针对微网调度优化的研究，主要关注的是经济效益，并未着重将节能减排深入到发电端、储能端、用户端的全过程，目前迫切需要设计考虑固碳节能减排的环境友好型智能微网系统，通过合理安排分布式发电、能量存储与交易以及减排固碳的协调运行，提高微网收益、减少碳排放并提高能源利用效率，实现长期的碳封存，减少二氧化碳的积累。

此外，深度强化学习是一种机器学习方法，具备感知环境能力和决策能力，可感知环境中的不确定性，目前深度强化学习已在电网无功优化、电力市场等领域得到一定的效果，通过深度强化学习是当前解决微网优化调度问题的主要方式之一。然而，传统的基于深度强化学习的微网能源调度方法，通常采用确定性策略和基于值的算法进行求解，考虑到智能微电网优化调度问题的高维连续动作空间和寻找全局最优解的需求，这一传统方法的适应性、灵活性、全局收敛性差，难以实现对智能微网的最优调度。

发明内容

为解决上述现有技术的不足，本发明提供了一种基于深度强化学习的环境友好型微网优化调度方法及系统，解决智能微网在运行过程中面临的能源利用效率低、碳排放量大等问题，通过建立完整的环境友好型智能微网模型，结合深度强化学习的马尔可夫决策过程(Markov Decision Processes,MDP)，在满足供需关系平衡的前提下，综合考虑经济效益最大化和二氧化碳实际排放量最小化，利用所提出的A2C-GP-TRLW优化调度算法实现对智能微网能源的最优调度，以此实现微网经济效益、供需平衡和碳排放等多方面的综合优化目标。

第一方面，本发明提供了一种基于深度强化学习的环境友好型微网优化调度方法。

一种基于深度强化学习的环境友好型微网优化调度方法，包括：

搭建包括供需预测模块、碳交易模块、电力交易模块、固碳储能模块、可控分布式电源模块的环境友好型智能微网；

获取环境友好型智能微网的运行数据，以收益最大化、成本最小化、供需平衡和碳排放量最小化为综合优化目标，构建环境友好型智能微网优化调度模型；

根据深度强化学习理论，采用两层多目标奖励机制和改进的随机高斯策略梯度算法优化微网运行，输出智能微网最优优化调度策略。

第二方面，本发明提供了一种基于深度强化学习的环境友好型微网优化调度系统。

一种基于深度强化学习的环境友好型微网优化调度系统，包括：

智能微网搭建模块，用于搭建包括供需预测模块、碳交易模块、电力交易模块、固碳储能模块、可控分布式电源模块的环境友好型智能微网；

智能微网优化调度模型构建模块，用于获取环境友好型智能微网的运行数据，以收益最大化、成本最小化、供需平衡和碳排放量最小化为综合优化目标，构建环境友好型智能微网优化调度模型；

优化调度策略求解模块，用于根据深度强化学习理论，采用两层多目标奖励机制和改进的随机高斯策略梯度算法优化微网运行，输出智能微网最优优化调度策略。

以上一个或多个技术方案存在以下有益效果：

1、本发明提供了一种基于深度强化学习的环境友好型微网优化调度方法及系统，搭建环境友好型智能微网的微电网框架和模型，将固碳、节能、减排的环境友好思想融入到包括供需预测模块、碳交易模块、电力交易模块、固碳储能模块、可控分布式电源模块以及微网智能体在内的微电网框架设计中，在此基础上结合深度强化学习的马尔可夫决策过程，在满足供需关系平衡的前提下，综合考虑经济效益最大化和二氧化碳实际排放量最小化，利用所提出的A2C-GP-TRLW优化调度算法实现对智能微网能源的最优调度，以此实现微网经济效益、供需平衡和碳排放等多方面的综合优化目标。相较于传统的微网能源调度方法，本发明这一方法具有更好的适应性和灵活性，能够在不同的运行环境下实现智能微网能源的快速优化调度，可以有效提高智能微网的能源利用效率，降低碳排放量，并促进可再生能源的大规模应用和智能微网技术的发展，为环境友好型能源系统的构建做出贡献。

2、本发明中，基于智能微网的高维复杂空间以及学习率难以调整的问题，提出了A2C-GP-TRLW优化调度算法，该算法通过加入目标网络缓解“自举”问题，在Critic网络中加入GRU层，实现对包含电价在内的多个变量进行隐式预测，使用A2C框架更新带有置信域层的随机高斯策略，相较于传统的确定性策略算法和基于值的算法更能解决现实问题，能够实现更快收敛并找到全局最优解。

3、本发明中，在根据深度强化学习理论进行微网优化调度的过程中，提出两层多目标奖励机制作为MDP模型的奖励函数，根据构建的优化目标函数，将减排固碳量作为奖励函数之一，以便微网智能体在与环境交互选择动作时着重考虑固碳减排。

4、本发明中，针对供需预测模块，采用更具有针对性和特异性、更具有相对准确性和灵活性的基于ANN的预测算法，对用户负载和可再生能源出力进行预测；采用ANN-LSTM双层预测算法对具有强周期性的区域用户负载进行点预测，采用基于自举方法的ANN对不确定性强的光伏发电和风力发电的出力进行区间预测。相较于传统的线性回归、基于模型或规则的预测，点预测能够提供更准确、实时性更强的负载估计，而区间预测则提供一个出力可能的范围，避免因单一预测值出现偏差而导致微电网运行问题，具有更高的可靠性和灵活性。

5、本发明中，针对固碳储能模块，引用了一种新型储能装置，将锂-二氧化碳(Li-)固碳储能电池应用于环境友好型智能微网中，并基于传统储能装置构建其动态模型。相较于传统的储能装置，将固碳引入储能系统能够提供额外的灵活性，除了二氧化碳固定选项外，还可以选择二氧化碳储能选项，这一灵活的设计不仅可以减少二氧化碳排放，还可以将二氧化碳用作可再生能源载体，提高可再生能源利用率。

6、本发明中，针对电力交易模块，在传统的电力市场交易的基础上，构建了基于阶梯碳价的碳市场交易机制模型，提高智能微网固碳减排的积极性和能源调度的灵活性。考虑将分布式发电和固碳所产生的碳指标，通过企业履约或者参与碳交易市场进行交易，从而获得除电费以外的收益，使得智能微网内部的能源可以根据电价和碳价的相对波动来进行更加灵活的调度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例所述基于深度强化学习的环境友好型微网优化调度方法的整体流程图；

图2为本发明实施例中环境友好型智能微网优化调度示意图；

图3为本发明实施例中环境友好型智能微网的物理框架示意图；

图4为本发明实施例中Li-固碳储能过程的机理图；

图5为本发明实施例所提出的A2C-GP-TRLW算法的框架图；

图6为本发明实施例中基于A2C-GP-TRLW框架的策略更新算法2的执行流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，仅是为了描述具体实施方式，旨在对本发明提供进一步的说明，并非意图限制根据本发明的示例性实施方式。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于深度强化学习的环境友好型微网优化调度方法，如图1所示，包括以下步骤：

具体的，本实施例所提出的基于深度强化学习的环境友好型微网优化调度方法中，首先建立智能微网的优化调度框架，根据环境友好型微网内部的各种能源组件(如太阳能、风能、储能系统等)运行机理及相关特性进行数学建模，并分析建立优化调度的目标函数；然后，根据马尔可夫决策过程，建立基于随机高斯策略算法的智能微网优化调度模型；最后，通过所提出的A2C-GP-TRLW优化调度算法来训练能源管理系统智能体，在考虑能源平衡和负载需求的情况下，通过学习和探索来制定最佳的能源调度策略，这一深度学习过程为：智能体根据当前状态和接收到的信息，选择合适的动作来实现微网能源的优化调度，通过不断与环境进行交互和反馈，智能体逐渐优化其决策策略，以此实现对环境友好型智能微网能源的最优调度。通过下述内容对本申请所提出方法进行更详细的介绍。

首先，搭建环境友好型智能微网优化调度框架。该框架如图2所示，由以下部分组成：(1)微电网能源管理系统(Energy Management System, EMS)：该系统负责采集和处理微电网内各种能源设备的数据，并使用数据分析、预测、优化算法等技术，提供微网的能量管理策略和控制指令。(2)多能源互联接口：微电网通常由多种能源设备组成，如光伏发电装置、风力发电装置、柴油发电机组、固碳储能系统等，多能源互联接口负责将这些设备连接在一起，并与外部主电网连接，实现能源调度过程中的协调和优化。(3)智能负荷管理系统：该系统负责对微电网内的负荷进行监测、预测和优化控制，以实现能量的高效利用和负载的平衡。(4)远程监控和控制系统：该系统通过远程监控和控制微电网内部的各种设备，实现对微电网的实时监控和管理，并能够响应突发事件和故障情况。(5)智能能量交易系统：该系统通过智能合约和区块链技术，实现微电网内部和外部电力市场和碳交易市场的交易和分配，以提高微电网的经济效益和社会价值。

通过上述智能化技术的应用，智能微网优化调度框架可在实现微电网的高效能量管理、负荷平衡、可靠运行、经济运营和社会价值最大化的同时，有效降低二氧化碳排放量，提高的能量利用率和绿色固定CO₂的能力。

其次，根据智能微网优化调度框架，搭建包括供需预测模块、碳交易模块、电力交易模块、固碳储能模块、可控分布式电源模块的环境友好型智能微网，如图3所示。下面介绍该环境友好型智能微网中的各模块。

（1）供需预测模块，包括用户负载及其点预测模型和可再生能源及其发电区间预测模型。

（1.1）用户负载及其点预测模型

用户负载在较长时间周期内往往会显示出一定的规律性和可预测性，因此，本实施例采用ANN-LSTM双层预测算法对区域用户负载进行合理预测，根据微电网区域内用户负载和电力交易价格的历史时间序列数据，对第N天第t时刻的区域用电功率进行预测，其中时间尺度设为1小时。构建基于ANN-LSTM的用户负载预测模型，将LSTM用于序列数据的特征提取和建模，并将其输出连接到ANN中进行特征表达和预测。即，LSTM用于处理序列数据，提取有用的特征表示，然后将这些特征输入到ANN中进行进一步的特征表达和预测。结合使用LSTM和ANN的双层结构可以充分发挥其各自的优势，提高预测模型的性能。本实施例所提出的这两层预测方法的主要步骤如下。

步骤S1.1、数据准备及数据预处理。收集微电网区域内按时间顺序排序的历史时间序列数据，该数据包括用户负载功率和电力交易价格，并对所收集的数据进行归一化处理。

步骤S1.2、特征提取和建模。

步骤S1.2.1、LSTM特征提取。将预处理后前N-1天的用户负载功率数据{}以及电力交易价格数据{/>}，输入到LSTM网络中，LSTM网络学习序列数据中的长期依赖关系，并提取出有用的特征表示，输出是一个表示序列数据特征的向量或矩阵。其中，1≤d≤N，1≤t≤T，T=24表示共24个小时。

步骤S1.2.2、ANN特征表达和预测。将LSTM的输出特征作为ANN的输入，输入到ANN网络中，ANN网络可以是一个标准的前馈神经网络，包括多个隐藏层，通过多层结构，ANN网络进一步提取和表达特征，并进行最终的预测，其输出层通常是一个线性层，用于预测下一个时间步的区域用电功率。

步骤S1.3、模型训练。将准备好的数据集分为训练集和测试集，利用训练集对基于LSTM-ANN的预测模型进行训练。在训练过程中，通过反向传播算法和Adam优化器来最小化模型的预测误差。

步骤S1.4、模型预测。利用训练好的基于LSTM-ANN的预测模型对第N天第t时刻的区域用户用电功率进行预测，具体的，将前N-1天的历史序列数据输入到基于LSTM-ANN的预测模型中，获得对第N天第t时刻用户用电功率的预测结果。另外，由于T=24，因此，预测结果/>是一个包含24个元素的一维向量，每个时刻的预测结果是/>。

（1.2）可再生能源及其发电区间预测模型

鉴于可再生能源的随机不确定性特征，点预测结果的准确定性大大降低，而区间预测提供了一种独特的、可靠的、灵活的解决方案，它可以预先预测和量化系统运行的潜在影响和风险，给出预测量所在的量化区间。因此，本实施例在给出置信度的情况下，使用基于自举方法的ANN网络模型对光伏发电和风力发电的出力进行区间预测。具体的，由于模型结构、参数和噪声等因素造成的误差，其不确定性可以反映在预测结果中。区间预测可以通过置信水平来量化这些随机因素的影响。本实施例中，以光伏发电区间预测为例，其预测过程如下。

在时间t的光伏发电实际观测值为：/>。

其中，是真实回归的平均值，/>是期望值为0的随机变量，用以表示额外噪声，/>是输入变量/>和真实回归的平均值/>之间的映射，该输入变量/>是指设定时间段内的历史光伏发电量数据，在本实施例中为24小时的历史发电量数据。由于经过良好训练的神经网络能够捕捉到目标的条件期望值的特征，因此神经网络模型的输出/>是真实回归的平均值的估计值，/>，则预测误差为：。

区间预测量化了与实际值和预测值/>之间的差异有关的不确定性，由于上式两项的统计独立性，与实际测量值相关的总方差/>可以表示为：。

其中，是实际值的噪声方差，/>是由于模型结构和参数估计造成的模型方差。下面使用神经网络对以上两个方差进行估计。

首先，估计由于参数的随机初始化和训练集的不同而造成的模型结构和参数的误差。从原始数据集中均匀地重新采样得n个训练数据集，并使用n个神经网络模型/>来估计由模型设定偏误而引起的方差，通过对m个模型的点预测求平均来估计真实的回归，为：/>。

其中，表示由第i个自举模型生成的第t个样本的预测。

然后，利用样本均数来代替总体均数，使用n个模型输出结果的样本方差来估计因模型结构和参数设定导致的模型方差，为：。

之后，利用一个神经网络来估计因噪声引起的误差，该神经网络的输出单元的传递函数是指数函数，而不是一个线性传递函数，以此来确保方差为正。用方差平方的残差以有监督的方式训练/>，同时，采用这些具有相应输入的残差来形成新的数据集/>，即。

进一步的，所提出的方法需要两个数据集和/>来训练m个自举神经网络模型和噪声方差估计神经网络模型/>。在训练过程的第一阶段，训练自举神经网络模型/>以估计/>；在第二阶段，一旦自举神经网络模型固定，则可以用/>数据集通过以下最小化损失函数训练/>，该最小化损失函数定义如下：/>。

当两个方差都已知时，可以通过下式构造置信水平为的第t个预测区间，即：/>。

其中，是具有/>自由度的累积t分布函数的/>分位数，其定义为训练样本数与神经网络模型参数之差。这里取/>和/>作为光伏发电预测区间的上界和下界，为：/>。

同样的，风力发电区间预测流程与光伏发电区间预测相似，可以得到关于风力发电预测区间的上界和下界，分别是和/>，在此不再赘述。

（2）固碳储能模块

锂-二氧化碳(Li-CO₂)电池因其在能源存储和碳中和应用方面的潜力，引起了广泛的关注。Li-CO₂电池的正极材料使用CO₂，可以将CO₂直接转化为固态产物，从而实现了固碳储能的效果。在如图4所示的关于电化学技术固定CO₂新的反应途径，CO₂固定的能量转换效率达到了73.3%，并采用贵金属催化剂将不可逆循环变成可逆循环，实现CO₂的固定和储能的灵活应用。

本实施例所提及的环境友好型智能微网属于小型微电网，为了控制建造成本、方便固态碳的集中处理，储能设备配置的是新型Li-CO₂储能电池，采用集中能源储存系统(Energy Storage System, ESS)而不是分布式的用户储能电池，所利用的ESS满电状态下能够覆盖微电网区域至少2小时的能源需求。为了保证固碳储能装置的正常运行，并降低其寿命损耗，需要对储能装置的荷电状态、充放电功率、固碳功率进行限制，包括：

（2.1）荷电状态SoC约束：依据储能装置的物理限制，其荷电状态需要控制在自身限制范围内，如果超出限制范围，会发生过充或过放的情况，从而对储能装置造成损伤，缩短其使用寿命。

（2.2）充放电功率约束以及固碳功率约束。固碳储能装置的存在最大充放电功率以及最大固碳功率，超过这个限制则会产生安全隐患，同时削减使用寿命。

基于上述内容，在每个时间步t下，ESS的固碳储能动态模型表示为：

；/>；。

其中，为时刻t存储的能量，/>为ESS最大容量；/>是时刻t的荷电状态；/>分别为充电和放电效率系数；/>表示在时刻t的充放电功率，表示时刻t的充放电功率受到最大充放电速率/>和/>的限制；/>是一个充放电指示函数，当参数/>时，等于0，否则等于1，具体的，若/>，表示充电，，表示放电；/>表示t时刻的累计固碳量，/>为固碳效率，/>是在时刻t的固碳功率，/>表示时刻t电池的固碳功率受到固碳最大功率/>的约束；/>是一个储能装置工作模式指示函数，当参数/>时，/>等于0且/>置为0，否则等于1，具体的，若，ESS工作储能模式，/>，ESS工作在固碳模式，/>在固碳模式下值为0。

（3）可控分布式电源模块——柴油发电机组

柴油发电机是以柴油为燃料的小型发电设备，可用于居民用户、办公室、中小型企业的日常发电以及应急发电。本实施例中配置有分布式可再生能源的居民微电网，为了防止由于可再生能源不确定性带来的能源紧急短缺问题，配置了j台柴油发电机构成的灵活的、可控的分布式发电装置。

在时刻t，柴油发电机组的总出力为：/>；其中，/>是柴油发电机k在时刻t的功率。

运行约束为可控柴油机组的输出约束，如下：；其中，/>，/>，/>，/>分别是柴油发电机k的输出功率和爬坡功率的上下限。

运行成本为j台柴油机在时刻t的运行成本，可用二次曲线近似，为：；其中，/>,/>,/>是柴油发电机k的输出功率成本的计算参数；/>是其他成本的成本系数，/>是柴油发电机包括关闭和热启动成本在内的其他成本的计算项。

（4）电力交易模块——外部主电网

由于可再生能源的间歇性和不可控性，仅使用光伏和风力发电装置可能无法平衡微电网内部的供需关系，微电网连接到一个作为监管储备的主电网，在能源不足时向主电网购电，也可以在特定情况下向主电网出售电能。主电网和微电网之间的交易通过共享实时上网电价和主电网售电价格/>实时进行。在每个时间t，智能体发出电力市场交易量/>的指令，其中，/>表示购买的能源/>，/>；/>表示出售的能源/>，。

（5）碳交易模块

本实施例中，碳交易模块包括实际碳排放模型和阶梯碳价交易模型。

（5.1）实际碳排放模型

本实施例中的微电网地区不具备配额条件，为了促进环境友好型微电网减少碳排放，鼓励增加固碳量，该微电网地区的碳排放配额视为0。实际碳排放模型主要是包括以下方面：

（5.1.1）由于目前外部电网的主要电力来源是燃煤发电，因此微电网从主电网购电视为在一定比例上增加了二氧化碳的排放，可表示为：；其中，/>是调度周期内向主电网总购电量等效的碳排放量；/>,/>,/>是燃煤机组碳排放量的计算参数。

（5.1.2）由于可再生能源的高度不确定性，为了确保在能源匮乏时，比如夜间无风且储能不足的情况下，用户能正常用电，微电网区域内配置了j台采油发电机作为灵活可控的供能端，使用柴油发电机将会增加二氧化碳的排放，可表示为：；其中，/>是调度周期内向使用柴油发电机组总发电量等效的碳排放量；/>,/>,/>是柴油发电机组出力时碳排放量的计算参数；/>是t时刻j台柴油发电机的总输出功率。

（5.1.3）可再生能源发电的等效碳减排量等于其发电量替代该区域电网内火电厂生产同等发电量所产生的CO₂排放量。因此，光伏发电和风力发电获得的碳核算CCER额度可以表示为：；其中，/>是调度周期内可再生能源发电设备的碳减排量；/>是可再生能源项目所在区域的电网电量边际排放因子。

（5.1.4）固碳电池获得的碳核算CCER额度可以表示为：；其中，是调度周期内固碳量等效的碳减排量；/>是储能固碳装置固碳量和碳配额之间的转换参数；/>是运行周期T结束时的累计固碳量。

因此，调度周期内，该微电网区域内的实际碳排放量为，可表示为：。

若，即区域内的等效实际碳排放量为正值，IMS需要向碳交易市场购买大小为/>的碳排放配额；若/>，即区域内的等效实际碳排放量为负值，IMS可以向碳交易市场出售大小为/>的碳排放配额。

（5.2）阶梯碳价交易模型

与传统碳交易模式中的统一定价机制相比，为了实现进一步控制碳减排，促进碳固定的目标，本实施例采用了阶梯式碳交易定价模式。该阶梯式定价机制划分了多个购买(或出售)区间，随着需要购买或者出售更多的碳排放额度，相应区间的价格就越高，阶梯式碳交易机制的交易额为：

；其中，/>价格是阶梯式碳交易额，/>为碳交易的底价，/>是碳排放间隔的长度，/>是价格的增长率。

若，/>=/>;若/>，/>=/>；若/>说明调度周期内微电网的运行实现了碳中和，其中，/>是实际利润，用于后期奖励的计算。

进一步的，本实施例针对上述环境友好型智能微网还设置了微电网能源管理系统EMS智能体，该EMS智能体利用不同网格组件和可观测环境提供的信息来确定最优的供需平衡策略，因此智能体针对如下所述的能源不足和能源过剩两种情况对微电网进行全面管理，目标是在运行周期内获得最大化综合收益。

1、能源不足行动

当本地分布式可再生能源发电量无法满足需求时(基于当前时间的发电和需求预测值)，本地微电网既可以使用ESS中存储的能源，也可以从主电网购买能源，或者使用柴油发电机组提供电能，以便节省ESS能源，供以后使用。在每个时间步t中，EMS智能体都会设置这三个资源之间的组合连续动作，若优先资源是ESS，而所需的能量不能完全满足，则剩余的需求将自动从主电网或者柴油发电机组供应。具体操作依赖于长期奖励最大化。

2、能源过剩行动

由当地的光伏发电装置和风力发电装置产生的能量也可能会超过需求(基于当前时间的发电和需求预测值)，在这种情况下，多余的能量需要固碳储能装置开启储能模式或开启固碳模式，或出售给主电网。EMS智能体会预先指定超额能源使用的优先选项或者联合动作，类似于能源不足场景。若ESS储能是优先级选项，并且达到了电池容量，那么剩余的能量可以用于固碳，也可以出售给主电网，固碳可以得到碳配额收益，以及有助于减排的额外设定奖励，售电可以获得电力交易收益。具体操作依赖于长期奖励最大化。

在上述搭建的环境友好型智能微网的基础上，获取环境友好型智能微网的运行数据，以收益最大化、成本最小化、供需平衡和碳排放量最小化为综合优化目标，构建环境友好型智能微网优化调度模型，解决微电网经济效益、供需平衡和碳排放等方面的问题。具体的，通过建立完整的微电网模型，以1h为调度时间间隔，一个月(30*24=720h)为一个调度时间周期，使得强化学习算法能够在不断迭代的过程中找到最优策略，从而达到收益最大化、成本最小化、供需平衡、碳排放量最小化的联合优化目标，该目标可表示为：

；其中，/>,/>分别是时刻t的收入和成本，/>是调度周期内的实际碳排放量。

之后，根据深度强化学习理论，采用两层多目标奖励机制和改进的随机高斯策略梯度算法优化微网运行，输出智能微网最优优化调度策略。具体的，针对微电网优化调度问题，参与调度的决策变量有储能固碳系统的工作模式选择、充放电动作、固碳动作，以及电力市场交易动作和柴油发电机组的动作；依照微网组分的可观测数据信息、预测数据信息和控制变量空间的特性，建立基于高斯策略梯度的微电网优化调度的强化学习模型，给出算法的优化流程。

1、状态、动作和奖励设计

深度强化学习指的是一种控制方法，通过智能体与环境之间的交互学习来实现最优控制策略，学习的过程是通过马尔可夫决策过程(Markov Decision Processes, MDP )来实现的。在每个时间步中，智能体都会根据环境的当前状态来执行一个动作，作为回报，智能体将会收到一个奖励和关于下一个状态的信息。在MDP模型中，MDP具有状态空间S、动作空间A和奖励函数R。

1.1、描述状态，构建状态空间

状态空间由智能体在每个时刻t的决策过程中使用的信息组成。在本实施例中，状态空间由可控状态分量、外生状态分量/>和含时分量/>组成，其中，ESS储能固碳装置的荷电状态SoC、固碳量/>构成可控状态分量；外生状态分量包括智能体无法控制的所有变量，包括上一时刻的光伏发电和风力发电的实际值/>和/>、光伏发电和风力发电预测区间的上下界/>和/>、电力市场规定的上网电价/>和售电电价/>；含时分量/>包含时刻t的负载预测量/>和上一时刻负载实际值/>。因此，状态空间可描述为：

。

1.2、描述动作，构建动作空间

动作空间由三个组成部分组成：柴油发电机组的动作(每台柴油机的出力)、储能固碳电池的动作(固碳功率/>/充放电功率/>)、电力市场交易/>的动作组合。因此，动作空间由这三个组件可能发生动作的潜在组合组成，且以上动作出于实际需求考虑，均为连续动作，因此智能微网智能体的动作空间是一个复杂的高维连续空间，该动作空间可描述为：/>。

1.3、两层多目标奖励机制

为了实现收益最大化、成本最小化、供需平衡、碳排放量最小化的联合优化目标，由于阶梯碳交易机制的不能在t时间尺度上进行交易的设置，因此奖励机制分为即时的逐步奖励和最终的周期奖励两个阶段。该奖励根据智能微网优化调度模型的综合优化目标制定，奖励在观测到当前时间t下实际负载和可再生能源发电量/>后计算，奖励计算包括了经济效益、供需平衡奖励、固碳减排奖励三部分，其中，即时的逐步奖励用于评估每一时间步下每个动作的表现，包括经济效益即时奖励、供需平衡即时奖励和固碳减排即时奖励；最终的周期奖励用于评估整个调度周期内所有动作的整体表现，包括经济效益周期奖励和固碳减排周期奖励。

1.3.1、奖励多目标

1.3.1.1、经济效益：运营产生的毛利润，即向微电网向主电网出售电力所获得的收入，减去与发电、购买和从外部电网传输相关的成本。

总收入-总成本，表示为：。

其中，总收入为即时奖励/>和周期奖励/>，可表示为：/>；；/>。

其中，是时间t时智能体向外部主电网售电的收益；/>是调度周期结束时获得的碳配额收益，是第二阶段周期奖励的一部分。/>

总成本为向主电网购买电能成本+(光伏发电成本+风力发电成本+柴油机发电成本)+向主电网购电、售电的传输成本，可表示为：；其中，/>，/>和/>分别是风力涡轮机和光伏的发电成本系数，/>和/>分别是向外部主电网买卖电力的输电成本系数。

1.3.1.2、供需平衡=总体平衡奖励/>+自平衡奖励/>。

若智能体在每个时间t选择的动作能够使得微电网内部能源供需平衡时获得的奖励，其本质是一个惩罚，总体平衡奖励可表示为：

；其中，/>是智能体在时间步t执行所有动作后盈余或者不足的能量，此时供需不平衡，给智能体一个负值的奖励；/>是总体供需不平衡率，用于后面固碳减排奖励的计算；/>是供需不平衡的惩罚系数。

自平衡奖励可表示为：/>；其中，/>是自平衡奖励系数，鼓励智能体在不通过向外部主电网购电而采取其他动作使得内部供需平衡。

1.3.1.3、固碳减排奖励包括即时奖励和周期奖励/>。

为了促进双碳目标的实现，鼓励使用过剩的可再生能源进行固碳工作，减少空气中的二氧化碳，该固碳减排奖励可表示为：；其中，是针对固碳行为/>的奖励系数；/>评估了智能体的固碳行为对微电网供需总体平衡的贡献，属于周期奖励的部分，/>是衡量固碳动作/>对总体供需平衡的贡献所对应的奖励系数。

1.3.2、两级奖励，包括逐步奖励和周期奖励/>。

其中，逐步奖励=/>+/>+/>，在每个时间步t的即时奖励，用于评估时间t下每个动作的表现。

周期奖励=/>+/>，周期奖励是在调度周期结束，在时间T获得的奖励，用于评估整个调度周期内的性能表现。

上述两层多目标奖励机制被设计为算法1，该算法1的执行过程包括以下步骤：

步骤1：初始化超参数。

在训练开始之前，首先需要初始化一系列的超参数，包括成本系数、惩罚系数和奖励系数。这些参数对于调整智能体在训练过程中的行为模式至关重要，其影响着智能体如何权衡不同类型的奖励和惩罚。

步骤2：迭代训练以获得奖励。这一步骤是算法核心，涵盖了整个训练过程，具体步骤为：

步骤2.1：迭代每一轮训练(Episode)：对于每一轮训练，从第1轮迭代到最大轮数Max_episodes，执行以下操作。

步骤2.2：初始化奖励：在每轮训练的开始，初始化逐步奖励和周期奖励/>及其组成的各个奖励项。这意味着在每个新的episode开始时，所有的奖励值都被重置。

步骤2.3：在每个时间步骤中执行操作：对于每个时间步骤t，从1到T(T为每个episode的总时间步数)，执行以下操作：a)观测当前环境状态空间s _t，并基于此状态，智能体选择一个动作空间a _t；b)执行所选动作a _t，并观测结果，包括时间t的实际观测值；c)根据观测结果计算时间t的逐步奖励/>；d)计算时间t的周期奖励的/>，通过将逐步奖励累加到之前的周期奖励上(周期奖励初始为0，并随每个时间步t进行累加)。

步骤2.4：结束条件与奖励计算：若达到了episode的终止条件(即t = T)，则执行以下操作：a)计算最终的周期奖励的/>以及/>=/>+/>，这可能涉及到对至今为止累积的奖励进行最终的调整或计算；b)计算时间T的奖励/>：/>，这是基于整个episode的表现来评估的，否则，/>，不计算最终的周期奖励。

步骤3：环境重置与准备下一轮训练。

在每个episode结束后，需要重置环境到初始状态，以便开始新一轮的训练。这确保了每次训练都是从相同的起点开始，使得训练过程公平且一致。

通过上述步骤，智能体在多次迭代训练中逐渐学习和适应环境，以优化其决策过程，目标是最大化累积奖励。这种两级多目标奖励机制旨在通过细粒度的奖励分配，促进智能体在面对复杂环境和任务时的性能提升。

2、智能微网优化调度算法

考虑到智能微电网优化调度问题的高维连续动作空间和寻找全局最优解的需求，本实施例采用改进的随机高斯策略解决环境友好型智能微网的优化调度问题，其克服了确定性策略优化算法的一些劣势，具备更好的全局收敛性、鲁棒性和适应性，找到全局最优解，能够高效可靠地优化微电网的调度过程。该改进的随机高斯策略梯度算法为A2C-GP-TRLW算法，是指：利用A2C框架(Advantage Actor-Critic)更新带有可微置信域层(Differentiable Trust Region Layer)的高斯策略，并采用瓦瑟斯坦L2距离(Wasserstein L2 Distance,)来判定新旧策略是否符合置信域范围，以此更新优化策略。

在本实施例中，利用A2C-GP-TRLW算法与智能微网环境交互，学习并输出智能微网最优优化调度策略，包括：

构建状态空间和动作空间，确定迭代次数和调度周期长度，初始化算法超参数；

开始迭代，在每一迭代步中，根据当前状态选择动作，执行动作后根据两步观察环境反馈的奖励，并获取下一时刻的状态；

基于两层奖励和下一时刻的状态，更新A2C-GPS-RLWC算法的网络参数，以此生成优化策略；其中，更新的网络参数包括价值网络、目标网络和动作网络的参数；

通过多次迭代训练，使得A2C-GPS-RLWC算法生成策略收敛至最优优化策略，输出最终的最优优化调度策略。

A2C-GP-TRLW算法的框架如图5所示，该算法具有以下特点：1)使用A2C学习随机高斯策略网络的参数，加入目标网络，缓解自举过程带来的偏差。2)在Critic网络中添加GRU层，实现对电力市场交易电价的隐式预测。考虑到电力交易价格受到政策调整的影响较大，为了增强适应性，本发明并没有对电力市场交易价格进行直接预测，而是在Critic网络中添加了一个RNN层，使得交易预测价格隐藏在GRU层的高维输出中，实现对包括电力市场交易价格在内的诸多状态量的隐式预测。3)直接优化优势函数更新参数，即更新Actor(动作网络)的网络参数。

优势函数是指状态动作对的价值函数与状态值函数之间的差异，优化优势函数的目标是最大化预期的长期累积奖励，优化回归是指优化状态动作对的价值函数。相比之下，优化优势函数可以获得方差较小的梯度估计和无偏的梯度估计，进而提高强化学习的优化效果。优化优势函数可表示为：；其中，/>是参数为/>的Actor网络的输出策略，/>是参数为/>的actor网络的输出策略，/>是从策略中采样得到的轨迹；/>是优势函数，/>和/>分别是动作值函数和状态值函数。

4)使用瓦瑟斯坦L2距离衡量旧策略和当前策略之间的相似度，用以判定策略的更新是否符合置信域的要求。

具体的，和/>分别代表先前的旧策略和Actor产生的当前策略，使用瓦瑟斯坦L2距离/>来衡量旧策略和当前策略之间的相似度，为：/>。

上式中，tr()表示矩阵的迹，即表示矩阵对角线之和。

基于瓦瑟斯坦L2距离，可以对优化过程中策略熵更新加以限制，策略学习就转化为求解以下带约束的最大化目标函数的问题，为：/>；其中，参数/>是置信域的大小，/>是基于瓦瑟斯坦L2距离/>衡量的两个策略之间的距离（相似度的差异）。

5)在Actor网络中引入一个可微的置信域层，将从Actor网络中学习到的策略投影到信任区域中，找到符合置信域要求的且最接近原始参数的参数，产生更鲁棒的策略更新。

在策略搜索过程中，基于策略梯度的方法存在学习率难以调整的问题。高学习率会导致缺乏探索和过早收敛，低学习率导致收敛速度慢，甚至陷入不理想的局部最优解。考虑到调整学习率的本质就是限制策略更新的速度，因此使用基于信任区域的方法可以约束策略的更新。本实施例中，在Actor网络输出层后添加一个可微的神经网络层，将从Actor网络中学习到的策略投影到信任区域中，以限制策略的变化，同时找到最接近原始参数的参数，产生更鲁棒的策略更新。

具体的，由于原始的Actor网络可忽略信任区域的边界，直接输出高斯分布的参数和/>。为了满足置信域的约束条件，使用一个可微的置信域层作为网络的最后一层，来解决带约束的最大化目标函数的问题。若得到的当前策略和旧策略的距离违反了指定的边界(超过了置信域的大小)，该层将当前的策略/>投影到信任区域内，作为输出，其生成一个满足信任区域边界的投影均值和方差，找到尽可能接近原始均值/>和方差/>的均值/>和方差/>，该投影基于瓦瑟斯坦L2距离/>。

对于这个可微的置信域层，当输入和/>的均值和方差时，会输出一个满足置信域大小的新策略/>的均值/>和方差/>。下面分别对均值和协方差设置独立的置信域及边界，产生对应于每个状态的以下优化问题：/>；/>；其中，参数/>和/>分别是均值部分和协方差部分的置信域大小，和/>分别是均值部分和协方差部分两个策略之间的距离。

针对上述问题，首先解决均值部分的更新问题。对于这两个信任区域目标，考虑相同的距离度量——马氏距离。将上面公式中参数优化问题重新表述如下，从而直观地使投影策略尽可能接近当前策略/>，将问题重新表述为：/>；其中，参数/>表示范围大小，其可根据需求自行设定为一个极小值。

选择基于拉格朗日乘子的方法来求解上述的约束问题，可计算出高斯策略的均值如下：/>；其中，/>是拉格朗日乘子。

然后，根据瓦瑟斯坦L2距离，解决方差的优化问题，为：；其中，参数/>表示范围大小，其可根据需求自行设定为一个极小值。

同样的，利用拉格朗日乘子法可以得到投影协方差的平方根—标准差，为：；/>。

选择的相似度度量—瓦瑟斯坦L2距离，再次出现在拉格朗日乘子的表达式中，投影是旧策略的/>和当前高斯策略的/>的相应参数的加权平均值。

基于上述A2C-GP-TRLW框架，策略更新被设计为算法2，该算法2的输入输出分别为状态空间和动作空间。

其中，输入为状态空间，即智能微网环境的当前状态，为：；输出为动作组合，即智能体根据当前状态所采取的一系列动作，为：/>。

该算法2的执行过程如图6所示，包括以下步骤：

步骤1：参数初始化。

在训练开始之前，初始化所有相关的超参数和神经网络参数。这些参数为后续的学习过程提供了起始点。

步骤2：收集轨迹。

对于每次迭代i(从1到Max_i)，智能体在智能微网环境中基于两步多目标奖励机制运行策略，以收集一组轨迹/>。

步骤3：开始训练，依据两步多目标奖励机制计算奖励。

步骤4：利用A2C(Advantage Actor-Critic)框架更新带置信域层的网络参数，具体步骤如下：

步骤4.1：更新价值网络参数，并对目标网络进行软更新，/>。其中，/>是价值网络更新后的参数，/>是学习率，/>是TD误差(即时间差分误差)，/>是状态价值函数在状态/>下对当前网络参数/>的偏导，是目标网络更新后的参数，/>是目标网络的当前参数，/>是软间隔更新系数。

步骤4.2：通过广义优势估计(Generalized Advantage Estimation, GAE)来估计优势函数。

步骤4.3：使用产生的轨迹预测高斯动作分布，计算瓦瑟斯坦L2距离，根据新旧策略距离条件计算或更新相应的值。

步骤4.4：使用策略梯度方法，结合Adam优化器，更新策略网络参数，以实现连续的策略更新，公式为：。其中，/>为更新后的新参数，/>是梯度算子，/>是每一论训练的初始策略，/>是通过置信域层得到的符合置信域大小的投影策略，/>是投影策略与Actor网络输出策略/>之间的瓦瑟斯坦L2距离，/>是惩罚系数，其目的是使投影策略在符合置信域要求的前提下尽可能的接近Actor网络的输出策略，/>是每一轮训练初始策略的状态价值函数的期望，/>是每一轮训练下两个策略的瓦瑟斯坦L2距离的期望。

步骤5：环境重置。

在每轮训练结束后，重置环境到初始状态，准备进行下一轮训练。这一步骤确保了每次训练都是在相同条件下开始，有利于评估策略的改进和智能体的学习进度。

本实施例提出了一种基于深度强化学习的环境友好型智能微网优化调度方法，通过建立完整的环境友好型智能微网模型以及马尔可夫决策过程的公式化表达，利用所提出的A2C-GP-TRLW优化调度算法，在不断迭代的过程中寻找最优策略，以实现微电网经济效益、供需平衡和碳排放等方面的综合优化目标。通过这一方法，可以实现微电网的经济效益最大化、成本最小化、供需平衡和碳排放量最小化的综合优化目标，为环境友好型智能微电网的优化调度提供了一种高效可行的解决方案。

实施例二

本实施例提供了一种基于深度强化学习的环境友好型微网优化调度系统，包括：

以上实施例二中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度强化学习的环境友好型微网优化调度方法，其特征是，包括：

根据深度强化学习理论，采用两层多目标奖励机制和改进的随机高斯策略梯度算法优化微网运行，输出智能微网最优优化调度策略；

所述两层多目标奖励机制中，两层多目标奖励包括即时的逐步奖励和最终的周期奖励两个阶段；

其中，奖励根据智能微网优化调度模型的综合优化目标制定，即时的逐步奖励用于评估每一时间步下每个动作的表现，包括经济效益即时奖励、供需平衡即时奖励和固碳减排即时奖励；最终的周期奖励用于评估整个调度周期内所有动作的整体表现，包括经济效益周期奖励和固碳减排周期奖励；

所述改进的随机高斯策略梯度算法为A2C-GP-TRLW算法，是指：利用A2C框架即Advantage Actor-Critic框架来更新带有可微置信域层的高斯策略，并采用瓦瑟斯坦L2距离来判定新旧策略是否符合置信域范围，以此更新优化策略；具体的，所述A2C-GP-TRLW算法具备：利用A2C学习随机高斯策略网络的参数，并加入目标网络以缓解自举过程造成的偏差；在Critic网络中添加GRU层，对电力市场交易电价进行隐式预测；直接优化优势函数更新参数，即更新Actor网络的网络参数；使用瓦瑟斯坦L2距离衡量旧策略和当前策略之间的相似度，用以判定策略的更新是否符合置信域的要求；在Actor网络中引入一个可微的置信域层，将从Actor网络中学习到的策略投影到信任区域中，找到符合置信域要求的且最接近原始参数的参数，产生策略更新；

利用所述A2C-GP-TRLW算法与智能微网环境交互，学习并输出智能微网最优优化调度策略，包括：

基于两层奖励和下一时刻的状态，更新A2C-GP-RLWC算法的网络参数，以此生成优化策略；其中，更新的网络参数包括价值网络、目标网络和动作网络的参数；

通过多次迭代训练，使得A2C-GP-RLWC算法生成策略收敛至最优优化策略，输出最终的最优优化调度策略。

2.如权利要求1所述的基于深度强化学习的环境友好型微网优化调度方法，其特征是，所述供需预测模块包括用户负载及其点预测模型和可再生能源及其发电区间预测模型。

3.如权利要求1所述的基于深度强化学习的环境友好型微网优化调度方法，其特征是，所述固碳储能模块包括固碳储能动态模型，固碳储能动态模型的约束条件包括荷电状态SoC约束、充放电功率约束和固碳功率约束。

4.如权利要求1所述的基于深度强化学习的环境友好型微网优化调度方法，其特征是，所述碳交易模块包括实际碳排放模型和阶梯碳价交易模型。

5.一种基于深度强化学习的环境友好型微网优化调度系统，其特征是，包括：

优化调度策略求解模块，用于根据深度强化学习理论，采用两层多目标奖励机制和改进的随机高斯策略梯度算法优化微网运行，输出智能微网最优优化调度策略；