CN116961139B

CN116961139B - 一种电力系统的调度方法、调度装置和电子装置

Info

Publication number: CN116961139B
Application number: CN202311208057.6A
Authority: CN
Inventors: 李鹏; 黄文琦; 习伟; 梁凌宇; 曹尚; 陈亦平; 张焕明
Original assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Current assignee: Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2024-03-19
Anticipated expiration: 2043-09-19
Also published as: CN116961139A

Abstract

本申请涉及一种电力系统的调度方法、装置和电子装置，其中，该调度方法包括：将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征；通过电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景；根据多个子场景构建多个子场景电力系统优化调度模型；将多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，得到多个子场景智能体；利用多个子场景智能体生成电力系统的调度策略；基于电力系统的调度策略对电力系统中的机组设备进行调度。通过本申请，解决了电力系统调度依赖电力系统物理模型与专家经验的技术问题，实现了电力系统安全、经济、绿色运行。

Description

一种电力系统的调度方法、调度装置和电子装置

技术领域

本申请涉及电力系统的调度领域，特别是涉及一种电力系统的调度方法、调度装置和电子装置。

背景技术

电力系统优化调度是在一定调度周期内，在满足电力系统安全约束的同时，以成本最小为目标来制定合理的机组启停和发电计划。然而，随着高比例新能源不断接入，新能源出力的不确定性、波动性和间歇性的特点使得电力系统优化调度难度越来越大。

传统的电力系统优化调度方法多采用基于物理模型驱动的方法，而在高渗透率可再生能源的复杂电力系统优化调度场景中，传统的电力系统优化调度方法存在建模困难、计算资源浪费和适应性差等问题，且难以保障决策的实时性。基于数据驱动电力系统优化调度的方法是基于实际数据开展，较传统电力系统优化调度方法具有更好的实用性，能够解决许多电力系统优化调度实际生产环境中的痛点问题。此外，电力系统蕴含了丰富的数据，为实现基于数据驱动的人工智能算法进行电力系统实时优化调度提供了基础。基于数据驱动的优化调度方法具有可适应环境不确定性、平衡短期收益与长期收益、实时决策效率高等优点，其在电力系统应用已经成为了近期的研究热点和趋势。虽然基于数据驱动的电力系统优化调度方法处于研究热点，但是在复杂的电力系统场景应用尚存在不足，主要面临的关键问题包括：离散的状态空间和动作空间导致求解过程出现维数灾问题；庞大的动作空间导致训练过程时间长，且很难收敛至最优策略。

针对相关电力系统优化调度技术存在依赖精确的电力系统物理模型与专家经验的技术问题，目前还没有提出有效的解决方案。

发明内容

在本实施例中提供了一种电力系统的调度方法、调度装置、电子装置和计算机可读存储介质，以解决相关技术中电力系统优化调度技术存在依赖精确的电力系统物理模型与专家经验的问题。

第一个方面，在本实施例中提供了一种电力系统的调度方法，所述方法包括：

将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征；

通过所述电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景；

根据所述多个子场景构建多个子场景电力系统优化调度模型；基于近端策略优化算法，将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练得到多个子场景智能体；利用所述多个子场景智能体生成电力系统的调度策略；所述电力系统中的机组设备根据所述调度策略进行调度后，进入新的状态，同时生成反馈信息反馈给所述多个子场景智能体；

所述利用所述多个子场景智能体生成电力系统的调度策略包括建立关于马尔可夫决策过程的模型；其中，所述马尔可夫决策过程的变量包括状态、机组观测值、动作、反馈信息；在每个决策阶段中，获取当前时刻所述状态和当前时刻所述机组观测值，根据当前时刻所述状态和当前时刻所述机组观测值做出所述动作，并将所述动作应用于实际电力系统环境中，再得到从所述实际电力系统环境反馈的所述反馈信息与下一调度时刻所述新的状态，重复这一过程，直到整个调度周期结束；

通过所述多个子场景智能体从实际电力系统环境中获取包含所述机组观测值的状态空间并给出所述动作，通过与所述实际电力系统环境交互获得所述反馈信息进行更新，所述状态空间包含多个时刻的所述状态；

基于所述电力系统的调度策略对所述电力系统中的机组设备进行调度。

在其中的一些实施例中，所述通过所述电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景包括：

将所述电力系统运行场景特征、所述源荷特性的关键物理特征作为多场景划分依据；

基于最小化信息量准则，通过高斯混合模型分类器进行聚类，根据轮廓系数将所述电力系统运行场景划分成多个子场景。

在其中的一些实施例中，所述根据所述多个子场景构建多个子场景电力系统优化调度模型包括：

根据被划分后得到的所述多个子场景，得到所述多个子场景的训练数据集；

根据所述多个子场景的训练数据集，构建多个子场景电力系统优化调度模型。

在其中的一些实施例中，所述基于近端策略优化算法，将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练得到多个子场景智能体包括：

基于多场景划分后的训练数据集，各子场景智能体与电力系统仿真环境不断交互；

采用所述近端策略优化算法，利用梯度下降机制训练更新所述各子场景智能体至收敛。

在其中的一些实施例中，所述电力系统的运行数据包括电力系统运行过程中的机组、负荷功率、线路预测值和线路潮流；

所述源荷特性的关键物理特征包括负荷峰值、负荷均值、新能源峰值、新能源均值和新能源峰谷差。

第二个方面，在本实施例中提供了一种电力系统的调度装置，所述调度装置包括：

特征提取模块，用于将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征；

划分模块，用于通过所述电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景；

建模模块，用于根据所述多个子场景构建多个子场景电力系统优化调度模型；

训练模块，基于近端策略优化算法，将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练得到多个子场景智能体；利用所述多个子场景智能体生成电力系统的调度策略；所述电力系统中的机组设备根据所述调度策略进行调度后，进入新的状态，同时生成反馈信息反馈给所述多个子场景智能体；

生成模块，利用所述多个子场景智能体生成电力系统的调度策略，包括建立关于马尔可夫决策过程的模型；其中，所述马尔可夫决策过程的变量包括状态、机组观测值、动作、反馈信息；在每个决策阶段中，获取当前时刻所述状态和当前时刻所述机组观测值，根据当前时刻所述状态和当前时刻所述机组观测值做出所述动作，并将所述动作应用于实际电力系统环境中，再得到从所述实际电力系统环境反馈的所述反馈信息与下一调度时刻所述新的状态，重复这一过程，直到整个调度周期结束；

调度模块，用于基于所述电力系统的调度策略对所述电力系统中的机组设备进行调度。

在其中的一些实施例中，所述划分模块，还用于将所述电力系统运行场景特征、所述源荷特性的关键物理特征作为多场景划分依据；基于最小化信息量准则，通过高斯混合模型分类器进行聚类，根据轮廓系数将所述电力系统运行场景划分成多个子场景。

在其中的一些实施例中，所述建模模块，还用于根据被划分后得到的所述多个子场景，得到所述多个子场景的训练数据集；根据所述多个子场景的训练数据集，构建多个子场景电力系统优化调度模型。

第三个方面，在本实施例中提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一个方面所述的电力系统的调度方法。

第四个方面，在本实施例中提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一个方面所述的电力系统的调度方法。

与相关技术相比，在本实施例中提供的一种电力系统的调度方法、调度装置、电子装置和计算机可读存储介质，通过将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征；通过所述电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景；根据所述多个子场景构建多个子场景电力系统优化调度模型；将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，得到多个子场景智能体；利用所述多个子场景智能体生成电力系统的调度策略；基于所述电力系统的调度策略对所述电力系统中的机组设备进行调度，解决了电力系统调度依赖电力系统物理模型与专家经验的技术问题，实现了电力系统安全、经济、绿色运行。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是执行本实施例的一种电力系统的调度方法的终端的硬件结构框图；

图2是本实施例的一种划分电力系统运行场景的方法的流程图；

图3是本实施例的一种电力系统的调度方法的流程图；

图4是本优选实施例的一种训练智能体的方法的流程；

图5是本优选实施例的一种电力系统的调度方法的流程图；

图6是本优选实施例的经过多场景划分后各场景智能体的训练结果示意图；

图7是本实施例的一种电力系统调度装置的结构框图。

实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行，图1是执行本实施例的一种电力系统的调度方法的终端的硬件结构框图。如图1所示，终端可以包括一个或多个（图1中仅示出一个）处理器102和用于存储数据的存储器104，其中，处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限制。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本实施例中的一种电力系统的调度方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（NetworkInterface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种划分电力系统运行场景的方法，图2是本实施例的一种划分电力系统运行场景的方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征。

具体的，电力系统的运行数据包括电力系统运行过程中的机组、负荷功率，线路预测值，线路潮流等数据。变分自动编码器VAE是改进的自编码器，主要由编码器与解码器两部分构成，编码器将输入的高维数据编码得到低维隐变量，再由解码器对隐变量进行还原得到原始数据。通过将电力系统的运行数据输入至训练好的变分自动编码器中，可以获得电力系统运行场景关键特征。

步骤S204，考虑源荷特性，选取的关键物理特征。

具体的，考虑源荷不确定性造成的分布偏移对基于数据驱动方法的电力系统优化调度决策的影响，基于神经网络的数据降维方法利用强大的非线性变换能力能有效提取高维数据的潜在特征，但潜在特征仅从数据层面考虑其复杂映射关系，不可避免地会对原始信息造成一定程度地损失。本实施例针对目前基于神经网络的数据降维方法存在的局限，考虑融合能有效刻画源荷特性的关键物理特征共同构成多场景划分依据，能更深入地挖掘数据信息，充分反映不同电力系统运行场景的差异化特征。选取关键物理特征包括负荷峰值、负荷均值、新能源峰值、新能源均值、新能源峰谷差；其中，负荷峰值的物理含义是负荷最大水平，负荷均值的物理含义是负荷平均水平，新能源峰值的物理含义是新能源最大水平，新能源均值的物理含义是新能源平均水平，新能源峰谷差的物理含义是新能源出力变化。

步骤S206，通过电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景。

具体的，将通过变分自动编码器VAE提取的潜在特征与考虑源荷特性的关键物理特征作为多场景划分依据，基于AIC准则选取最佳多场景聚类数，通过高斯混合模型进行聚类，并以轮廓系数作为多场景划分有效性的判据。

通过上述步骤，通过电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景，实现电力系统运行多场景有效划分，削弱了源荷不确定性对强化学习机组调度决策的影响。

在本实施例中提供了一种电力系统的调度方法，图3是本实施例的一种电力系统的调度方法的流程图，如图3所示，该流程包括如下步骤：

步骤S302，将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征。

进一步的，基于融合关键物理特征的变分自动编码器VAE提取电力系统运行场景关键特征；VAE的解码器为带参数的/>，为推断网络，用于生成隐变量/>的变分概率分布，编码器为带参数的/>的/>，为生成网络，通过/>还原原始数据的近似概率分布，两个概率分布密度模型由多层神经网络构建，具有强大的数据感知与拟合能力，能有效表征运行场景高维数据，其中KL散度作为衡量两个概率分布近似程度的评判指标，散度表示的就是概率/>与概率/>之间的差异，散度越小，说明概率/>与概率/>之间越接近，那么估计的概率分布真实的概率分布也就越接近。

变分自编码器与解码器VAE网络为全连接神经网络，该神经网络具有高度灵活且便于扩展的优势，能实现对大量、高维数据的降维处理，提取运行场景潜在特征。

步骤S304，通过所述电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景。

进一步的，基于AIC准则的模型选择理论，通过拟合精度和参数个数的加权函数综合最优化配置，选取最佳多场景聚类数。通过多个高斯子模型刻画整体数据分布，通过学习先验分布推导后验分布实现“软聚类”的概率生成高斯混合模型，并通过高斯混合模型进行聚类。以轮廓系数评估划分为多场景的聚类模型的性能，进行有效划分为多个子场景。

步骤S306，根据所述多个子场景构建多个子场景电力系统优化调度模型；基于近端策略优化算法，将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练得到多个子场景智能体；利用所述多个子场景智能体生成电力系统的调度策略；所述电力系统中的机组设备根据所述调度策略进行调度后，进入新的状态，同时生成反馈信息反馈给所述多个子场景智能体。

具体的，将多个子场景划分后，得到多个子场景训练数据集；基于数据驱动方法，构建多个子场景电力系统优化调度模型。将电力系统优化调度问题建模为马尔可夫决策过程，建立关于马尔可夫决策过程的模型，并利用强化学习方法进行求解。马尔可夫决策过程主要包含：状态、观测/>、动作/>和奖励/>。在每个决策阶段中，获取状态/>和机组观测值/>，根据状态/>和机组观测值/>做出动作/>，并将动作/>应用于实际电力系统环境中。

其中，马尔可夫决策过程包括，（一）、状态表示系统状态空间。因此，电网滚动调度第/>时段决策时刻的状态/>可表示为：

，机组调度问题的状态空间包括第/>时段的机组的有功出力/>和无功出力/>；第/>时段的机组的预测有功出力/>；第/>时段和第/>时段的新能源机组最大有功出力/>和/>；第/>时段的机组的最大有功出力/>和最小有功出力/>；第/>时段的机组的最大无功出力/>和最小无功出力/>；第/>时段的各节点负荷有功/>；第/>时段的各节点负荷预测有功/>；第/>时段的各节点负荷无功/>；第/>时段的各节点的电压幅值和相角/>；第/>时段的电网损耗（网损值）/>；第/>时段的支路电流/>，第/>时段的支路电流负载率/>；第/>时段的支路起始端有功/>和无功/>；第/>时段的支路起始端电压/>和电流/>；第/>时段的支路末端有功/>和无功/>；第/>时段的支路末端电压/>和电流/>，时间步数timestep，当前时刻/>，第/>时段的机组状态/>。

（二）观测值表示智能体的观测空间。电力系统优化调度第/>时段决策时刻的智能体的观测值/>可表示为：/>，/>考虑到实际环境中智能体可获取的信息将受到物理通信系统以及数据隐私性的限制，同时也考虑大规模状态空间影响模型收敛速度，设置智能体的观测值/>仅包括第/>时段的机组的有功出力/>；第/>时段的各节点负荷有功/>；第/>时段的机组的无功出力/>；第/>时段的各节点负荷无功/>；第/>时段的各节点的电压幅值/>；第/>时段的电网损耗（网损值）；第/>时段的支路电流负载率/>。

（三）动作，第/>时段的电力系统优化调度的联合动作可表示为：/> 基于强化学习的电力系统优化调度模型中，智能体的输出为机组的有功/>和无功。/>表示智能体的动作空间。

（四）奖励，奖励函数用于描述环境评价智能体动作/>，本实施例设置的奖励函数分别为：

1）线路越限情况（正奖励）的奖励项为；

2）新能源机组消纳量（正奖励）的奖励项为；

3）平衡机组功率越限（负奖励）的奖励项为；

4）机组运行费用（负奖励）的奖励项为；

5）时间步数（正奖励）的奖励项为。

对于奖励项和/>进行归一化。

综上所述，奖励项、/>和/>的域值为/>，奖励项/>、/>的域值为/>。总奖励公式如下：

其中，表示第/>时段第/>项的奖励，/>表示第/>奖励项的系数，/>：

具体的，基于近端策略优化算法对各子场景模型进行差异化训练，得到能实现电力系统在线调度最优决策的各子场景调度智能体。引入优势函数的近端策略优化算法，基于近端策略优化算法，将所构建的各子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练各子场景智能体。

基于近端策略优化算法的智能体训练流程，各子场景智能体训练步骤为：基于多场景划分后的训练数据集，各子场景智能体与电力系统仿真环境不断交互，近端策略网络引入重要性采样、优势函数、动态步长更新等技术，利用梯度下降机制训练更新智能体至收敛。差异化训练的各子场景智能体在输入数据驱动下，可实现电力系统在线调度最优决策。

步骤S308，利用所述多个子场景智能体生成电力系统的调度策略包括建立关于马尔可夫决策过程的模型；其中，所述马尔可夫决策过程的变量包括状态、机组观测值、动作、反馈信息；在每个决策阶段中，获取当前时刻所述状态和当前时刻所述机组观测值，根据当前时刻所述状态和当前时刻所述机组观测值做出所述动作，并将所述动作应用于实际电力系统环境中，再得到从所述实际电力系统环境反馈的所述反馈信息与下一调度时刻所述新的状态，重复这一过程，直到整个调度周期结束；通过所述多个子场景智能体从实际电力系统环境中获取包含所述机组观测值的状态空间并给出所述动作，通过与所述实际电力系统环境交互获得所述反馈信息进行更新，所述状态空间包含多个时刻的所述状态。

具体的，各子场景智能体训练完成后，调度中心可根据采集的电力系统运行场景状态信息，提取电力系统运行场景特征判断其所属子场景，并利用对应子场景智能体制定电力系统优化调度决策。多个子场景智能体从环境中获取包含机组观测值的状态空间并给出动作，通过与环境交互获得的奖励进行更新，最终得到符合运行约束条件的成本最小的最优机组动作决策。

步骤S310，基于所述电力系统的调度策略对所述电力系统中的机组设备进行调度。

具体的，电力系统的各发电机组按调度策略出力调节后，进入新的状态，同时将奖励反馈给多个子场景智能体。

通过上述步骤，将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征；通过电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景；根据多个子场景构建多个子场景电力系统优化调度模型；将多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，得到多个子场景智能体；利用多个子场景智能体生成电力系统的调度策略；基于电力系统的调度策略对电力系统中的机组设备进行调度。实现电力系统运行多场景有效划分，削弱了源荷不确定性对强化学习机组调度决策的影响，针对所划分的多个子场景，采用能单调提升的近端策略优化算法差异化训练智能体，有效解决了分布偏移造成的电力系统优化调度决策次优问题，实现了电力系统安全、经济、绿色运行。

因此，本实施例提出划分电力系统运行场景的优化调度方法，通过提取重要特征将复杂的电力系统运行场景划分成多个子场景，然后针对各子场景建立子任务模型并进行差异化训练，得到用于电力系统优化调度的不同场景智能体。在克服传统基于物理模型驱动的方法求解效率不足难题的同时，也能平衡长短期收益，加快在线决策速度，为电力系统优化调度提供一种新的技术方案。

在其中的一些实施例中，通过电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景包括：

将电力系统运行场景特征、源荷特性的关键物理特征作为多场景划分依据；基于最小化信息量准则，通过高斯混合模型进行聚类，根据轮廓系数将电力系统运行场景划分成多个子场景。

具体的，考虑源荷特性的关键物理特征选取，基于神经网络的数据降维方法利用强大的非线性变换能力能有效提取高维数据的潜在特征，但潜在特征仅从数据层面考虑其复杂映射关系，不可避免地会对原始信息造成一定程度地损失。针对目前基于神经网络的数据降维方法存在的局限，考虑融合能有效刻画源荷特性的关键物理特征共同构成多场景划分依据，能更深入地挖掘数据信息，充分反映不同电力系统运行场景的差异化特征。

在其中的一些实施例中，根据多个子场景构建多个子场景电力系统优化调度模型包括：根据被划分后得到的多个子场景，得到多个子场景的训练数据集；

根据多个子场景的训练数据集，构建多个子场景电力系统优化调度模型。

在其中的一些实施例中，基于近端策略优化算法，将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练得到多个子场景智能体包括：基于多场景划分后的训练数据集，各子场景智能体与电力系统仿真环境不断交互；采用近端策略优化算法，利用梯度下降机制训练更新各子场景智能体至收敛。

在其中的一些实施例中，电力系统的运行数据包括电力系统运行过程中的机组、负荷功率、线路预测值和线路潮流；源荷特性的关键物理特征包括负荷峰值、负荷均值、新能源峰值、新能源均值和新能源峰谷差。

下面通过优选实施例对本实施例进行描述和说明。

图4是本优选实施例的一种训练智能体的方法的流程图，如图4所示，该训练智能体的方法包括如下步骤：

步骤S402，从某子场景训练集下随机采样得到某日运行数据。

步骤S404，获取当前断面的初始状态。

具体的，根据当前发电机组、新能源出力、负荷与线路潮流数据，得到初始状态。

步骤S406，从状态空间中选取智能体的观测值。

具体的，从状态空间中选取发电机组有功和无功出力、负荷有功和无功，节点电压幅值、电网损耗、电流负载率构成智能体的观测值。

步骤S408，输出联合动作返回奖励与训练是否结束标志系统状态转移。

具体的，子场景对应智能体输出调度动作后，联合动作输入电力系统仿真交互环境，经潮流计算后计算并返回奖励r与训练是否结束标志，若是，系统转移到下一时刻状态。

步骤S410，经验池内存放电力系统仿真交互环境与智能体交互的轨迹数据。

步骤S412，训练各子场景智能体。

具体的，从经验池中随机抽取个经验样本，将智能体观测量输入评价网络并估计优势函数，通过最大化PPO目标函数更新策略网络，通过最小化损失函数更新评价网络。

步骤S414，判断当前场景跑完或训练结束标志done是否为真，若是继续执行步骤S416，若否，则执行步骤S404。

具体的，若智能体已跑完当前场景下所有步数，或训练结束标志为真进入步骤S416，否则进入步骤S404。

步骤S416，每间隔指定轮数后从测试集随机采样某日数据测试智能体得分。

步骤S418，判断训练轮数是否达到设定值或者测试智能体得分是否超过给定值，若是，则结束；若否，则进入步骤S402。

具体的，判断训练回合数达到设定值或智能体测试得分超过给定值则结束训练过程，否则重新进入步骤S402。

图5是本优选实施例的一种电力系统的调度方法的流程图，如图5所示，该电力系统的调度方法包括如下步骤：

步骤S502，基于融合关键物理特征的VAE提取电力系统运行场景特征，并配合高斯混合模型划分多场景。

具体的，调度中心获取电力系统运行过程中的机组、负荷功率，线路预测值，线路潮流等电力系统的运行数据。将电力系统的运行数据输入至训练好的基于融合关键物理特征的变分自动编码器VAE中，获得电力系统运行场景特征；并基于关键特征通过高斯混合模型划分多个场景。将通过变分自动编码器VAE提取的潜在特征与考虑源荷特性的关键物理特征作为多场景划分依据，基于AIC准则选取最佳多场景聚类数，通过高斯混合模型进行聚类，并以轮廓系数作为多场景划分有效性的判据。VAE的解码器为带参数的/>，为推断网络，用于生成隐变量/>的变分概率分布，编码器为带参数的/>的/>，为生成网络，通过/>还原原始数据的近似概率分布，两个概率分布密度模型由多层神经网络构建，具有强大的数据感知与拟合能力，能有效表征运行场景高维数据，其中KL散度作为衡量两个概率分布近似程度的评判指标，神经网络的优化目标函数具体表示如(1)式所示：

其中，KL散度的计算具体如（2）、（3）式所示：

而表示的就是概率/>与概率/>之间的差异，散度越小，说明概率/>与概率/>之间越接近。表示/>取最小值时，的取值。

基于AIC准则的模型选择理论，通过拟合精度和参数个数的加权函数综合最优化配置，其具体计算式如（4）式所示：

式中，为信息准则值，/>为模型超参数个数；/>为估计模型最大似然函数值。

高斯混合模型通过多个高斯子模型刻画整体数据分布，是通过学习先验分布推导后验分布实现“软聚类”的概率生成模型。

高斯混合模型的概率分布可表示为式（5）：

式中，混合模型中子高斯模型的数量为为概率密度函数；为高斯混合模型的第/>个概率分布模型；/>分别为第/>个高斯混合模型的期望、方差（或协方差）；/>为各子模型分布权重，满足/>且为正整数。

轮廓系数（Silhouette Coefficient）结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果，反映同一场景内数据密集程度和不同场景间数据分散程度，该值处于-1至1之间，值越大，表示聚类效果越好。具体计算式如(6)式所示：

式中，为当前数据与同类其他数据的平均距离；/>为当前数据与最接近的另一类中数据的平均距离，/>表示轮廓系数。

进一步的，变分自编码器与解码器VAE网络为全连接神经网络，该神经网络具有高度灵活且便于扩展的优势，能实现对大量、高维数据的降维处理，提取运行场景潜在特征。考虑源荷特性的关键物理特征选取，基于神经网络的数据降维方法利用强大的非线性变换能力能有效提取高维数据的潜在特征，但潜在特征仅从数据层面考虑其复杂映射关系，不可避免地会对原始信息造成一定程度地损失。针对目前基于神经网络的数据降维方法存在的局限，考虑融合能有效刻画源荷特性的关键物理特征共同构成多场景划分依据，能更深入地挖掘数据信息，充分反映不同电力系统运行场景的差异化特征。

步骤S504，构建基于数据驱动方法的电力系统优化调度模型。

具体的，将电力系统优化调度问题建模为马尔可夫决策过程，并利用强化学习方法进行求解。马尔可夫决策过程主要包含：状态S、观测O、动作A和奖励R。在本实施例中，多个子场景智能体从环境中获取包含机组观测值的状态空间并给出动作，通过与环境交互获得的奖励进行更新，最终得到符合运行约束条件的成本最小的最优机组动作决策。

（一）状态，机组调度问题的状态空间包括第/>时段的机组的有功出力/>和无功出力/>；第/>时段的机组的预测有功出力/>；第/>时段和第/>时段的新能源机组最大有功出力/>和/>；第/>时段的机组的最大有功出力/>和最小有功出力/>；第/>时段的机组的最大无功出力/>和最小无功出力/>；第/>时段的各节点负荷有功/>；第/>时段的各节点负荷预测有功/>；第/>时段的各节点负荷无功/>；第/>时段的各节点的电压幅值/>和相角/>；第/>时段的电网损耗（网损值）/>；第/>时段的支路电流/>，第/>时段的支路电流负载率/>；第/>时段的支路起始端有功/>和无功/>；第/>时段的支路起始端电压/>和电流/>；第/>时段的支路末端有功/>和无功/>；第/>时段的支路末端电压/>和电流/>，时间步数timestep，当前时刻/>，第/>时段的机组状态/>。表示系统状态空间。因此，电网滚动调度第/>时段决策时刻的状态/>可表示为式：

（二）观测值，考虑到实际环境中智能体可获取的信息将受到物理通信系统以及数据隐私性的限制，同时也考虑大规模状态空间影响模型收敛速度，设置智能体的观测值仅包括第/>时段的机组的有功出力/>；第/>时段的各节点负荷有功/>；第/>时段的机组的无功出力/>；第/>时段的各节点负荷无功/>；第/>时段的各节点的电压幅值/>；第/>时段的电网损耗（网损值）/>；第/>时段的支路电流负载率/>。/>表示智能体的观测空间。因此，电力系统优化调度第/>时段决策时刻的智能体的观测值/>可表示为式：

动作，基于强化学习的电力系统优化调度模型中，智能体的输出为机组的有功和无功/>。/>表示智能体的动作空间。第/>时段的电力系统优化调度的联合动作可表示为：

1）线路越限情况（正奖励）

其中，表示电网支路个数，/>表示第/>时段支路/>的电流负载率，/>为奖励项。

2）新能源机组消纳量（正奖励）

其中，表示新能源机组个数，/>表示第/>号新能源机组在第/>时段的有功出力，/>表示新能源机组/>在当前时间步的最大出力，/>为奖励项。

3）平衡机组功率越限（负奖励）

/>

其中，表示平衡机组个数，/>表示第/>时段的平衡机组/>的实际有功出力，/>表示第/>时段的平衡机组的出力上限，/>为奖励项。

4）机组运行费用（负奖励）

其中，表示机组总数，/>表示机组/>的实际有功出力，/>分别表示第号机组的成本系数，/>为奖励项。

5）时间步数（正奖励）

其中，timestep表示智能体探索的步长，为奖励项。

对奖励项和/>进行归一化，公式如下：/>。

步骤S506，基于近端策略优化算法对各子场景模型进行差异化训练，得到能实现电力系统在线调度最优决策的各子场景调度智能体。

具体的，基于近端策略优化算法对各子场景模型进行差异化训练，得到能实现电力系统在线调度最优决策的各子场景调度智能体，（一）引入优势函数的近端策略优化算法。基于近端策略优化算法，将所构建的各子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练各子场景智能体。近端策略优化算法是基于演员-评论家架构的强化学习算法，算法引入优势函数剪切机制限制策略更新步长，并有效结合梯度更新机制，能确保策略性能逐步提升，其中，近端策略网络所优化的目标函数为：

式中，/>表示策略参数，/>表示新旧策略比，/>需要尽量靠近1，/>表示在旧策略/>下/>决策步优势函数的估计值，表示与采取平均动作相比采取当前动作的优势值，chip函数为剪切函数，新旧策略比人为限定到/>范围内，保证了算法整体稳定性，提升了算法性能。基于近端策略优化算法的智能体训练流程，各子场景智能体训练步骤为：基于多场景划分后的训练数据集，各子场景智能体与电力系统仿真环境不断交互，近端策略网络引入重要性采样、优势函数、动态步长更新等技术，利用梯度下降机制训练更新智能体至收敛。差异化训练的各子场景智能体在输入数据驱动下，可实现电力系统在线调度最优决策。

步骤S508，智能体的电力系统优化调度在线决策。

具体的，各子场景智能体训练完成后，调度中心可根据采集的电力系统运行场景状态信息，提取电力系统运行场景特征判断其所属子场景，并利用对应子场景智能体制定电力系统优化调度决策。

进一步的，对经过从某地区748节点电力系统实际运行数据中抽取140日进行仿真验证，设置训练测试比为4:1, 基于融合关键物理特征的VAE方法提取电力系统运行场景特征，将29184高维数据降维至562维，并依据AIC准则设置最佳场景聚类数为5，对差异化训练各子场景智能体至训练结束，训练结果如图6所示，相较未分场景的原始数据，进行多场景划分后各场景的平均奖励显著增加，说明子场景智能体性能得到提升，利用子场景智能体进行电力系统优化调度决策效果更优。

通过以上步骤，基于融合关键物理特征的VAE提取电力系统运行场景特征，充分挖掘数据信息，实现电力系统运行多场景有效划分，削弱了源荷不确定性对强化学习机组调度决策的影响；将电力系统优化调度问题建模为马尔科夫决策过程，构建基于数据驱动方法的电力系统优化调度模型，不依赖精确的电力系统物理模型与专家经验，打破传统数学方法求解局限性，能实现在线调度快速决策；针对所划分的多个子场景，采用能单调提升的近端策略优化算法差异化训练智能体，有效解决了分布偏移造成的电力系统优化调度决策次优问题，实现了电力系统安全、经济、绿色运行。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中还提供了一种电力系统调度装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图7是本实施例的一种电力系统调度装置的结构框图，如图7所示，该装置包括：

特征提取模块10，用于将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征；

划分模块20，用于通过所述电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景；

建模模块30，用于根据所述多个子场景构建多个子场景电力系统优化调度模型；

训练模块40，基于近端策略优化算法，将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练得到多个子场景智能体；利用所述多个子场景智能体生成电力系统的调度策略；所述电力系统中的机组设备根据所述调度策略进行调度后，进入新的状态，同时生成反馈信息反馈给所述多个子场景智能体；

生成模块50，利用所述多个子场景智能体生成电力系统的调度策略，包括建立关于马尔可夫决策过程的模型；其中，所述马尔可夫决策过程的变量包括状态、机组观测值、动作、反馈信息；在每个决策阶段中，获取当前时刻所述状态和当前时刻所述机组观测值，根据当前时刻所述状态和当前时刻所述机组观测值做出所述动作，并将所述动作应用于实际电力系统环境中，再得到从所述实际电力系统环境反馈的所述反馈信息与下一调度时刻所述新的状态，重复这一过程，直到整个调度周期结束；

调度模块60，用于基于所述电力系统的调度策略对所述电力系统中的机组设备进行调度。

在其中的一些实施例中，划分模块20，还用于将电力系统运行场景特征、源荷特性的关键物理特征作为多场景划分依据；基于最小化信息量准则，通过高斯混合模型进行聚类，根据轮廓系数将电力系统运行场景划分成多个子场景。

在其中的一些实施例中，建模模块30，还用于根据被划分后得到的多个子场景，得到多个子场景的训练数据集；根据多个子场景的训练数据集，构建多个子场景电力系统优化调度模型。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在本实施例中还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将电力系统的运行数据输入至训练好的变分自动编码器中，获得电力系统运行场景特征；

S2，通过所述电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景；

S3，根据所述多个子场景构建多个子场景电力系统优化调度模型；基于近端策略优化算法，将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练得到多个子场景智能体；利用所述多个子场景智能体生成电力系统的调度策略；所述电力系统中的机组设备根据所述调度策略进行调度后，进入新的状态，同时生成反馈信息反馈给所述多个子场景智能体；

S4，所述利用所述多个子场景智能体生成电力系统的调度策略包括建立关于马尔可夫决策过程的模型；其中，所述马尔可夫决策过程的变量包括状态、机组观测值、动作、反馈信息；在每个决策阶段中，获取当前时刻所述状态和当前时刻所述机组观测值，根据当前时刻所述状态和当前时刻所述机组观测值做出所述动作，并将所述动作应用于实际电力系统环境中，再得到从所述实际电力系统环境反馈的所述反馈信息与下一调度时刻所述新的状态，重复这一过程，直到整个调度周期结束；通过所述多个子场景智能体从实际电力系统环境中获取包含所述机组观测值的状态空间并给出所述动作，通过与所述实际电力系统环境交互获得所述反馈信息进行更新，所述状态空间包含多个时刻的所述状态；

S5，基于所述电力系统的调度策略对所述电力系统中的机组设备进行调度。

需要说明的是，在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，在本实施例中不再赘述。

此外，结合上述实施例中提供的一种电力系统的调度方法，在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种电力系统的调度方法。

应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本申请提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本申请保护范围。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本申请中描述的实施例在没有冲突的情况下，可以与其它实施例结合。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种电力系统的调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述的电力系统的调度方法，其特征在于，所述通过所述电力系统运行场景特征、源荷特性的关键物理特征以及高斯混合模型分类器将电力系统运行场景划分成多个子场景包括：

3.根据权利要求2所述的电力系统的调度方法，其特征在于，所述根据所述多个子场景构建多个子场景电力系统优化调度模型包括：

4.根据权利要求1所述的电力系统的调度方法，其特征在于，所述基于近端策略优化算法，将所述多个子场景电力系统优化调度模型与电力系统仿真环境进行交互训练，差异化训练得到多个子场景智能体包括：

5.根据权利要求1所述的电力系统的调度方法，其特征在于，所述电力系统的运行数据包括电力系统运行过程中的机组、负荷功率、线路预测值和线路潮流；

6.一种电力系统的调度装置，其特征在于，所述调度装置包括：

7.根据权利要求6所述的电力系统的调度装置，其特征在于，所述划分模块，还用于将所述电力系统运行场景特征、所述源荷特性的关键物理特征作为多场景划分依据；基于最小化信息量准则，通过高斯混合模型分类器进行聚类，根据轮廓系数将所述电力系统运行场景划分成多个子场景。

8.根据权利要求6所述的电力系统的调度装置，其特征在于，所述建模模块，还用于根据被划分后得到的所述多个子场景，得到所述多个子场景的训练数据集；根据所述多个子场景的训练数据集，构建多个子场景电力系统优化调度模型。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求5中任一项所述的电力系统的调度方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求5中任一项所述的电力系统的调度方法的步骤。