CN117439066A

CN117439066A - 一种电网在线调度系统、方法和存储介质

Info

Publication number: CN117439066A
Application number: CN202311395078.3A
Authority: CN
Inventors: 赵莹莹; 李凡; 苏运; 吴裔; 郭乃网; 陈宏福; 高峰; 郑成; 张梦圆; 田英杰
Original assignee: State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Current assignee: State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2024-01-23

Abstract

本发明涉及一种电网在线调度系统、方法和存储介质，系统中，混合动作空间统一映射模块将混合决策空间映射到离散动作空间，仿真采样模块执行蒙特卡洛树搜索并与电网仿真环境进行交互收集数据，数据存储模块存储采样数据，策略优化模块读取数据进行学习；之后使用经过训练阶段的调度系统进行电网在线调度。与现有技术相比，本发明具有通过深度神经网络的自适应学习和大规模的仿真模拟探索电网系统的调度策略，避免了对领域知识的依赖；通过大量积累的统计信息进行决策，可以为高度随机性事件提供有效的解决方案；将混合的决策空间统一映射到离散决策空间，实现了同时针对离散和连续的调节任务做出有效决策等优点。

Description

一种电网在线调度系统、方法和存储介质

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种电网在线调度系统、方法和存储介质。

背景技术

电网是一个将电力从生产商(发电站)输送到消费者(楼房、工厂等)的互连系统。电网系统的稳定运行是一个动态平衡的过程，需要熟练的专家进行不间断的监测，并经常进行干预，以安全可靠地将电力从生产商输送到所有连接的消费者，以及避免电力系统的失衡造成停电事件引发甚至安全事故，对社会经济和公共安全造成严重影响。

现有的电网系统调度方法主要有基于专家经验的人工调控方法，基于数学模型的建立和求解方法，以及传统的深度强化学习方法。然而现有的电网系统调度决策方法存在如下缺陷和不足：第一，依赖专家经验和领域知识，无论是人工调节方法还是建立数学模型的方法，都高度依赖领域知识，这增加了新型方法和模型的引入成本；第二，难以适应高度的随机性和不确定性，电力设备尤其是新能源设备的发电功率极大程度地受到天气、气候等外部因素的影响，再加之设备故障，灾祸事故以及需求的剧烈变化，电力系统存在高度的随机性和不确定性，而现有的电网调度方法往往难以为这种高度随机性提供有效的解决方案；第三，复杂的混合决策空间，现代电网系统的调度不仅包括对拓扑结构的调整，还包括对机组发电功率的调整，而现有的调度方法往往仅能单独调节拓扑或者单独调节功率，无法同时针对离散和连续的调节任务做出有效决策。

经过检索，申请公布号CN116545025A公开了一种配电网优化调度方法、装置、设备及存储介质，具体公开了：根据用户需求侧响应的数据信息，建立需求响应模型；基于所述需求响应模型，构建配电网日前优化调度模型，并通过预设算法形成得到配电网日前优化的初步调度策略；通过预设预测模型得到所述初步调度策略的预测数据，并根据所述预测数据，对所述初步调度策略进行优化，得到最终调度策略，从而完成配电网的多时间尺度优化调度。

授权公告号CN111864743B公开了一种电网调度控制模型的构建方法及电网调度控制方法，具体公开了：该电网调度控制模型的构建方法包括：获取电网的多个历史断面潮流数据；根据预设的安全运行需求和控制目标，构造基于最大熵强化学习算法的电网调度控制模型；从多个历史断面潮流数据中提取训练样本，并将训练样本输入电网调度控制模型进行模型训练，得到各电网控制动作；根据历史断面潮流数据执行各电网控制动作后的电网运行特征，更新电网调度控制模型的模型参数，并返回从多个历史断面潮流数据中提取当前电网运行指标对应的电网运行特征作为训练样本的步骤，直至所有训练样本训练完成；根据训练结果确定最优电网调度控制模型。

综上，现有技术主要采用建立数学模型的方法，依赖领域知识；且无法同时针对离散和连续的复杂调节任务做出有效决策。因此，如何提出一种不依赖领域知识且适应复杂任务的系统为需要解决的技术问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的依赖领域知识程度高和不适应复杂调节任务等缺陷而提供一种电网在线调度系统、方法和存储介质。

本发明的目的可以通过以下技术方案来实现：

根据本发明的第一个方面，提供了一种电网在线调度系统，包括混合动作空间统一映射模块、仿真采样模块、数据存储模块和策略优化模块，所述调度系统具有训练阶段和运行阶段，所述训练阶段中，所述混合动作空间统一映射模块将混合决策空间映射到离散动作空间，所述仿真采样模块执行蒙特卡洛树搜索并与电网仿真环境进行交互收集数据，所述数据存储模块存储采样数据，所述策略优化模块读取数据进行学习；所述运行阶段中，使用经过训练阶段的调度系统进行电网在线调度。

作为优选的技术方案，所述的电网在线调度包括拓扑结构的调整和发电站功率的调整，所述拓扑结构的调整包括调整各变电站中不同支线和母线的连接方式；所述发电站功率的调整包括对电网系统中发电机组功率调节。

作为优选的技术方案，所述的混合动作空间统一映射模块对发电机组功率调节的连续动作空间进行映射，映射后电网调度的决策动作统一表述。

作为优选的技术方案，所述的仿真采样模块通过多线程并行的方式实现电网系统仿真模拟和训练数据收集采样；所述多线程中的每个子线程P_i独立维护自身的决策树T_i、策略网络π_i、价值网络V_i以及电网仿真环境e_i，独立执行树搜索过程和与电网仿真环境的交互过程，实时收集交互过程中的电网状态观测o_i和决策动作a_i数据，并存入数据存储模块，其中i为节点。

作为优选的技术方案，所述的数据存储模块将实时接收的采样数据存入全局共享空间，在全局共享空间中维护一个有限长度队列q＝((o₁，a₁，R₁，P₁)，(o₂，a₂，R₂，P₂)，…，(o_L，a_L，R_L，P_L))，其中R_i为当前路径下节点i的折扣奖励，L为队列长度上限。

作为优选的技术方案，所述的策略优化模块以固定频率从全局共享空间中批量读取数据进行学习以优化电网调度策略，即维护全局策略网络π和价值网络V，读取的数据用于网络的更新。

根据本发明的第二个方面，提供了一种采用电网在线调度系统的调度方法，具体包括以下步骤：

步骤S1，混合动作空间统一映射模块将混合决策空间映射到离散动作空间；

步骤S2，仿真采样模块执行蒙特卡洛树搜索并与电网仿真环境进行交互收集数据；

步骤S3，数据存储模块存储仿真采样模块收集的数据；

步骤S4，策略优化模块从数据存储模块中读取数据进行学习；

步骤S5，调度系统根据结果进行电网在线调度。

作为优选的技术方案，所述的步骤S2具体包括以下步骤：

步骤S201，子结点选择，子线程从根节点出发，计算当前结点的每个子结点的分数，不断选择分数最高的结点，直到叶结点；

步骤S202，子结点扩展，若当前叶结点为非终态，则根据当前结点所代表的电网观测状态o遍历当前所有可能的调度动作，并为当前结点建立新的子结点；

步骤S203，回溯，对步骤S201和步骤S202所选路径上的每个结点i的访问次数、累积价值进行更新；

步骤S204，决策执行，子线程基于步骤S201～步骤S203所形成的搜索树选择下一步动作并执行，仿真环境e_i经过潮流仿真进入下一步状态，并以新的电网状态为根节点，返回步骤S201，直到仿真结束。

作为优选的技术方案，所述的步骤S204中状态电网观测状态o、决策动作a、折扣奖励R以及各动作的选择概率P被记录并存入全局共享内存。

根据本发明的第三个方面，提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现一种电网在线调度方法。

与现有技术相比，本发明具有以下优点：

1)本发明通过深度神经网络的自适应学习和大规模的仿真模拟探索电网系统的调度策略，避免了对领域知识的依赖；

2)本发明通过模拟和抽样统计的方式通过大量积累的统计信息进行决策，弱化了随机事件对电网系统造成的影响，可以为高度随机性事件提供有效的解决方案；

3)本发明通过对连续决策空间的离散化，将“离散—连续”混合的决策空间统一映射到离散决策空间，进而借助统一的框架对拓扑结构调整问题和发电功率调整问题进行决策，实现了同时针对离散和连续的调节任务做出有效决策。

附图说明

图1为本发明一种电网在线调度系统工作流程图；

图2为本发明仿真采样模块执行流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明提出了一种电网在线调度系统、方法和存储介质。

本发明通过深度神经网络的自适应学习和大规模的仿真模拟探索电网系统的调度策略，避免了对领域知识的依赖，这种模拟和抽样统计的方式通过大量积累的统计信息进行决策，弱化了随机事件对电网系统造成的影响。在此基础上，通过对连续决策空间的离散化，将“离散—连续”混合的决策空间统一映射到离散决策空间，进而借助统一的框架对拓扑结构调整问题和发电功率调整问题进行决策。

实施例1

如图1所示，本发明提供了一种电网在线调度系统，系统包含四个模块：混合动作空间统一映射模块、仿真采样模块、数据存储模块以及策略优化模块。该系统一方面以蒙特卡洛树搜索方法解决电网系统调度问题，通过大规模分布式地仿真模拟、遍历搜索和深度神经网络的自适应学习，计算最优的电网调度策略。另一方面，通过动作空间映射将离散——连续的混合决策空间映射到统一的离散决策空间，有利于借助统一的决策算法框架同时解决电网的拓扑结构调节问题以及发电机组的功率调节问题。

对于调度模型的训练，具体包括四个模块(混合动作空间统一映射模块、仿真采样模块、数据存储模块以及策略优化模块)的动作。其中混合动作空间统一映射模块将混合动作空间统一映射为离散动作空间，以满足蒙特卡洛树搜索模型的训练要求；仿真采样模块通过多线程并行的方式基于当前策略与电网仿真环境进行交互并实时记录电网状态观测(例如电网拓扑连接情况、各类机组出力、各类机组电压、线损、网损等信息)和决策动作(例如电路开关、接线方式、功率调整区间等)；数据存储模块实时接收各采样线程的数据并存入全局共享空间；策略优化模块以固定频率从全局共享空间中批量读取数据进行学习以优化电网调度策略。

(1)混合动作空间统一映射模块

电力系统的运行调度主要包括拓扑结构的调整和发电站的功率调整两大任务，前者涉及调整各变电站中不同支线和母线的连接方式，以改变电网系统的拓扑结构，假设电网系统中每一变电站都包含2条可接入的母线，则t时刻拓扑结构调节操作可表述为G_t∈g₀×g₁×…×g_n，其中表示每个变电站中支线数目Sub(i)的总和，该操作构成离散的动作空间；后者涉及调整电网系统中不同发电机组的功率调节，t时刻功率调节操作可表述为/>其中/>表示电网系统中发电机i的功率调整数值，N_gen表示发电机组的总数，该操作构成连续的动作空间。

为了统一求解上述混合动作空间上的决策问题，首先对发电机组功率调节的连续动作空间进行映射，设发电机j功率的调整范围为[l^j,h^j]，则t时刻发电机j经过离散化的功率调节操作决策空间的第i个分段可表述为其中K表示划分的动作区间数目。经过对于连续动作空间的离散化映射，电网调度的决策动作可统一表述为/>

(2)仿真采样模块

如图2所示，仿真采样模块通过多线程并行的方式实现高效的电网系统仿真模拟和训练数据收集采样，具体而言，本模块维护多个子线程并行参与仿真采样，其中每个子线程P_i独立维护自身的决策树T_i、策略网络π_i、价值网络V_i以及电网仿真环境e_i，独立执行树搜索过程和与电网仿真环境的交互过程，实时收集交互过程中的电网状态观测o_i和决策动作a_i等数据，并实时存入全局共享空间。

从决策回合开始，每个子采样线程P_i初始化其搜索树为T_i＝{N₀}，其中N₀为代表初始电网状态的根结点，子采样线程在随后与仿真环境交互过程中的每一步决策可分为如图2所示的4个阶段：子结点选择阶段、子结点扩展阶段、回溯阶段以及决策执行阶段。

·子结点选择阶段：在该阶段中子线程从根节点出发，按照如下公式计算当前结点的每个子结点的分数，不断选择分数最高的结点，直到叶结点。其中N(i)表示表该子结点的访问次数，Q(i)表示子结点的累积价值，P(i)表示该子结点的先验概率，C为权重系数。

·子结点扩展阶段：上一阶段达到叶子结点后若当前叶结点为非终态，则根据当前结点所代表的电网观测状态o遍历当前所有可能的调度动作，并为当前结点建立新的子结点，新的子节点a_new其初始累计价值Q(a_new)和先验概率P(a_new)分别通过自身价值网络V_i和策略网络π_i进行初始化，即：

·回溯阶段：本阶段基于如下公式对于前两个阶段所选路径上的每个结点i的访问次数、累积价值进行更新，其中R_i为当前路径下结点i的折扣奖励。

N_i’＝N_i+1

Q_i＝Q_i+(R_i-Q_i)/N_i’)

·决策执行阶段：前3个阶段反复执行到一定的次数上限，决策树从根节点逐渐扩展为一颗多叉树，采样子线程基于当前搜索树选择下一步动作(子结点)，每个动作a的选择概率P’如下式所示：

P’(a)＝(1-ε)(a)+εd

其中T为控制选择概率随机程度的温度系数，d为迪利克雷噪声。本阶段结束后，子线程执行所选择的决策动作a，仿真环境e_i经过潮流仿真进入下一步状态，并以新的电网状态为根节点，继续执行上述4个步骤，直到仿真结束。执行过程中阶段4的每一步状态o、决策动作a、折扣奖励R以及各动作的选择概率P被记录并存入全局共享内存。

(3)数据存储模块

本方法中，数据存储模块负责实时接收各采样线程的数据并存入全局共享空间。具体而言，本模块在全局共享空间中维护一个有限长度队列q＝((o₁，a₁，R₁，P₁)，(o₂，a₂，R₂，P₂)，…，(o_L，a_L，R_L，P_L))，其中L为队列长度上限。该队列中的数据被仿真采样模块中的所有采样子线程以及策略优化模块所共享，数据的更新遵循“先入先出”原则，且通过互斥锁机制保证数据的共享访问。

(4)策略优化模块

本方法中，策略优化模块以固定频率从全局共享空间中批量读取数据进行学习以优化电网调度策略。具体而言，本模块维护全局策略网络π和价值网络V，每一次更新，批数据B＝((o₁，a₁，R₁，P₁)，(o₂，a₂，R₂，P₂)，…，(o_b，a_b，R_b，P_b))从全局共享空间中读取并用于网络的更新，对应的误差函数如下所示：

其中代表策略误差函数，/> 代表值误差函数；A_i为电网系统处于观测状态o_i时刻所有可执行的动作集合，θ和/>分别为策略网络和价值网络的参数，L₂为网络参数的正则项误差函数。为了保证策略的实时性，仿真采样模块中的子线程按照固定得到频率访问策略优化模块获取策略网络和价值网络的最新参数并用于更新自身的网络。

实施例2

本发明提供了一种电网在线调度方法，采用电网在线调度系统，进行调度。

本方法主要分为调度模型训练和调度模型推理两个阶段。其中调度模型训练阶段用于采样包括电网拓扑、机组出力、线损等在内的大量仿真数据，并训练一个基于蒙特卡洛树搜索的强化学习模型，该模型可支持电网拓扑与功率的自主调节。调度模型推理阶段用于真实电网的运行过程中，实时采集模型所需的电网拓扑、机组出力、线损等数据并输入到模型中，输出需要调节的电路开关以及功率信息，从而辅助开展电网在线调度。

训练阶段中，混合动作空间统一映射模块将混合决策空间映射到离散动作空间；仿真采样模块执行蒙特卡洛树搜索并与电网仿真环境进行交互收集数据；数据存储模块存储仿真采样模块收集的数据；策略优化模块从数据存储模块中读取数据进行学习。

仿真采样模块采用蒙特卡洛树搜索的思想，主要分为四个阶段：

1)子结点选择阶段，子线程从根节点出发，计算当前结点的每个子结点的分数，不断选择分数最高的结点，直到叶结点；

2)子结点扩展阶段，若当前叶结点为非终态，则根据当前结点所代表的电网观测状态o遍历当前所有可能的调度动作，并为当前结点建立新的子结点；

3)回溯阶段，对子结点选择阶段和子结点扩展阶段所选路径上的每个结点i的访问次数、累积价值进行更新；

4)决策执行阶段，子线程基于子结点选择阶段、子结点扩展阶段和回溯阶段所形成的搜索树选择下一步动作并执行，仿真环境e_i经过潮流仿真进入下一步状态，并以新的电网状态为根节点，返回子结点选择阶段直到仿真结束。

实施例3

本发明提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现一种电网在线调度方法。

对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(ProgrammableLogic Device，PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware DescriptionLanguage，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated CircuitHardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本发明中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种电网在线调度系统，其特征在于，包括混合动作空间统一映射模块、仿真采样模块、数据存储模块和策略优化模块，所述调度系统具有训练阶段和运行阶段，所述训练阶段中，所述混合动作空间统一映射模块将混合决策空间映射到离散动作空间，所述仿真采样模块执行蒙特卡洛树搜索并与电网仿真环境进行交互收集数据，所述数据存储模块存储采样数据，所述策略优化模块读取数据进行学习；所述运行阶段中，使用经过训练阶段的调度系统进行电网在线调度。

2.根据权利要求1所述的一种电网在线调度系统，其特征在于，所述的电网在线调度包括拓扑结构的调整和发电站功率的调整，所述拓扑结构的调整包括调整各变电站中不同支线和母线的连接方式；所述发电站功率的调整包括对电网系统中发电机组功率调节。

3.根据权利要求2所述的一种电网在线调度系统，其特征在于，所述的混合动作空间统一映射模块对发电机组功率调节的连续动作空间进行映射，映射后电网调度的决策动作统一表述。

4.根据权利要求2所述的一种电网在线调度系统，其特征在于，所述的仿真采样模块通过多线程并行的方式实现电网系统仿真模拟和训练数据收集采样；所述多线程中的每个子线程P_i独立维护自身的决策树T_i、策略网络π_i、价值网络V_i以及电网仿真环境e_i，独立执行树搜索过程和与电网仿真环境的交互过程，实时收集交互过程中的电网状态观测o_i和决策动作a_i数据，并存入数据存储模块，其中i为节点。

5.根据权利要求4所述的一种电网在线调度系统，其特征在于，所述的数据存储模块将实时接收的采样数据存入全局共享空间，在全局共享空间中维护一个有限长度队列q＝((o₁，a₁，R₁，P₁)，(o₂，a₂，R₂，P₂)，…，(o_L，a_L，R_L，P_L))，其中R_i为当前路径下节点i的折扣奖励，L为队列长度上限。

6.根据权利要求5所述的一种电网在线调度系统，其特征在于，所述的策略优化模块以固定频率从全局共享空间中批量读取数据进行学习以优化电网调度策略，即维护全局策略网络π和价值网络V，读取的数据用于网络的更新。

7.一种采用权利要求1所述电网在线调度系统的调度方法，其特征在于，具体包括以下步骤：

步骤S3，数据存储模块存储仿真采样模块收集的数据；

步骤S5，调度系统根据结果进行电网在线调度。

8.根据权利要求7所述的一种调度方法，其特征在于，所述的步骤S2具体包括以下步骤：

9.根据权利要求8所述的一种调度方法，其特征在于，所述的步骤S204中状态电网观测状态o、决策动作a、折扣奖励R以及各动作的选择概率P被记录并存入全局共享内存。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求7中所述的调度方法。