CN116599061B

CN116599061B - 一种基于强化学习的电网运行控制方法

Info

Publication number: CN116599061B
Application number: CN202310879623.XA
Authority: CN
Inventors: 李颖毅; 朱雷鹤; 洪建光; 翁格平; 马丽军; 李琪; 任娇蓉; 郑瑞云; 蔡振华; 杨建立; 翁秉宇; 娄一艇; 江涵; 韩寅峰; 叶木生; 刁永锴; 黄俊惠; 孙晨航; 徐杰; 胡铁军
Original assignee: Zhejiang Siji Technology Service Co ltd; Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang Siji Technology Service Co ltd; Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-10-24
Anticipated expiration: 2043-07-18
Also published as: CN116599061A

Abstract

本发明提供一种基于强化学习的电网运行控制方法，涉及电网控制领域，所述方法包括：获取电网在当前时刻的初始数据；对初始数据进行预处理，得到电网在当前时刻的运行数据；通过强化学习算法，得到电网的控制动作；将电网在当前时刻的运行数据和控制动作输入电网环境动力学模型，得到所述控制动作对应的电网的状态转移和控制动作对应的奖励；根据电网的状态转移和控制动作对应的奖励，通过强化学习算法，更新电网的控制动作；当控制动作对应的奖励连续预设次数均超过预设奖励阈值时，停止更新电网的控制动作，并根据最后一次更新的控制动作控制电网的控制单元运行。本发明可提高电网运行的准确性。

Description

一种基于强化学习的电网运行控制方法

技术领域

本发明涉及电网控制领域，具体而言，涉及一种基于强化学习的电网运行控制方法。

背景技术

在对电网进行运行控制过程中，通常会根据当前电网状态，即供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态等信息，通过强化学习对上述的当前信息进行分析，得到合适的控制动作后，按照该控制动作控制电网运行。

在现有技术中，电网运行若出现大量状态变动，导致当前电网状态出现较大波动，此时，电网运行环境则会因电网状态的突变而变得复杂，基于强化学习的电网运行控制方法在面对复杂的电网环境下，有可能无法做出准确控制动作。

发明内容

本发明解决的技术问题是如何提高基于强化学习的电网运行控制的准确性。

为解决上述问题，本发明提供一种基于强化学习的电网运行控制方法，包括：获取电网在当前时刻的初始数据；

对所述初始数据进行预处理，得到所述电网在所述当前时刻的运行数据，其中，所述运行数据包括所述电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态；

根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态，通过强化学习算法，得到所述电网的控制动作；

将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型，得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励，其中，所述电网的状态转移为所述电网收到所述控制动作后的动态变化，所述控制动作对应的所述奖励代表所述控制动作的好坏，每输入一个所述控制动作对应一个所述奖励；

根据所述电网的所述状态转移和所述控制动作对应的所述奖励，通过所述强化学习算法，更新所述电网的所述控制动作；当所述控制动作对应的所述奖励连续预设次数均超过所述预设奖励阈值时，停止更新所述电网的所述控制动作，并根据最后一次更新的所述控制动作控制所述电网的控制单元运行。

可选地，所述根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态，通过强化学习算法，得到所述电网的控制动作，包括：

将所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态作为所述强化学习算法的状态，输入所述强化学习算法；

根据所述强化学习算法的输出，得到所述强化学习算法的动作；

根据所述强化学习算法的动作，得到所述电网的所述控制动作，其中，所述电网的所述控制动作包括调整发电容量和调整输电线路的功率分配。

可选地，所述将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型，得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励，包括：

根据所述电网在所述当前时刻的所述运行数据和所述电网的控制动作，通过所述电网环境动力学模型的状态转移函数，得到所述控制动作对应的所述电网的所述状态转移；

通过所述电网环境动力学模型的奖励函数，得到所述控制动作对应的所述奖励。

可选地，所述状态转移函数为：；

其中，s为所述电网在当前的所述运行数据，a为所述电网的控制动作，S'为所述控制动作对应的所述电网的所述状态转移，T代表状态转移函数；

所述奖励函数为：；

其中，表示在所述电网在当前的所述运行数据下采取所述电网的控制动作所获得的奖励，是一个单一标量值，表示每一步中所获得的奖励。

可选地，所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励，通过所述强化学习算法，更新所述电网的所述控制动作，包括：

根据所述电网的所述状态转移和所述控制动作对应的所述奖励，通过所述强化学习算法的值函数，更新所述电网的所述控制动作；

所述值函数为：；

其中，为值函数，α为学习率，γ为折扣因子，r为所述控制动作对应的所述奖励，为所述控制动作对应的所述电网的所述状态转移的最大Q值。

可选地，在所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励，通过所述强化学习算法的值函数，更新所述电网的所述控制动作之前，所述方法还包括：

初始化Q值函数表，使为零；

设置所述学习率以及折扣因子，使所述学习率在0至1的范围内，使所述折扣因子在0至1的范围内。

可选地，所述对所述初始数据进行预处理，得到所述电网在所述当前时刻的运行数据，包括：

通过预设数据清洗方法，对所述初始数据进行清洗，得到清洗后的所述初始数据；

通过预设特征转换原则，对清洗后的所述初始数据进行特征转换，得到具有特征表现形式的所述初始数据；

通过预设归一化方法，对具有特征表现形式的所述初始数据进行归一化处理，得到标准化的所述初始数据；

将所述标准化的所述初始数据作为所述电网在所述当前时刻的所述运行数据。

可选地，所述基于强化学习的电网运行控制方法还包括：

当所述控制动作对应的所述奖励没有在连续预设次数超过预设奖励阈值时，将更新后的所述控制动作输入所述电网环境动力学模型，重新获取所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励；

直至所述控制动作对应的所述奖励连续所述预设次数均超过所述预设奖励阈值时，停止更新所述电网的所述控制动作，并根据最后一次更新的所述控制动作控制所述电网的控制单元运行。

可选地，所述基于强化学习的电网运行控制方法，还包括：构建所述电网环境动力学模型；

所述构建所述电网环境动力学模型包括：

获取数据集，其中，所述数据集包括所述电网的历史运行数据；

建立初始环境模型，并根据所述数据集对所述初始环境模型的参数进行优化，得到优化后的所述初始环境模型；

当所述优化后的所述初始环境模型的输出与所述电网的行为达到预设相似条件后，将所述优化后的所述初始环境模型作为所述电网环境动力学模型。

可选地，所述基于强化学习的电网运行控制方法，还包括：

通过分布式系统控制所述电网的所述控制单元，其中，一个所述电网包括多个所述控制单元；

其中，分布式系统包括多个节点，每个所述节点对应控制一个所述控制单元，同时每个所述节点对应一个所述电网环境动力学模型的镜像。

本发明的基于强化学习的电网运行控制方法，在基于强化学习的电网运行控制方法中，引入一个电网环境动力学模型，具有电网环境动力学模型模型的强化学习算法，可以预测每个控制动作所造成的电网的状态变化，即状态转移以及每个控制动作对应的奖励，再根据每个控制动作的奖励以及该控制动作对未来所产生的影响，通过深度学习算法对控制动作进行更新，直到满足停止更新控制动作的预设条件。利用电网环境动力学模型对电网环境进行建模，实现对不同控制动作在不同状态下的后果进行预测，即得到电网的状态转移，从而更好地规划控制动作，提高了控制动作的准确性，同时，由于针对每个控制动作进行电网对应的状态变化的预测，因此，则不受电网状态的突变的影响导致降低控制动作的精确度和准确性。

附图说明

图1为本发明实施例基于强化学习的电网运行控制方法的流程图之一；

图2为本发明实施例基于强化学习的电网运行控制方法的流程图之二。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

结合图1所示，本发明提供一种基于强化学习的电网运行控制方法，包括：获取电网在当前时刻的初始数据；

具体地，电网在当前时刻的初始数据即实时数据，包括各个发电站的发电量、负荷需求、输电线路的状态，通常电网的实时数据需要通过专业的电力系统监测设备和技术来获取。例如：电力系统监测设备，电网运营商会部署各种监测设备，如传感器、智能电表等，在电网的关键节点上收集数据；可以实时监测发电厂的发电情况、变电站的运行状态、负荷变化等，并将数据传输到中央监控系统中从而进行电网的实时数据的获取。或，能源管理系统，大型电网通常配备能源管理系统（EMS，energy management system），用于监控和控制电力系统的运行，EMS可以接收来自各个子系统的数据从而进行电网的实时数据的获取。或，网络监测平台，一些电力系统监测公司或独立的能源数据提供商可能提供在线的电力系统监测平台，可以通过该平台获取电网的实时数据。

对所述初始数据进行预处理，得到所述电网在所述当前时刻的运行数据，其中，所述运行数据包括所述电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态；根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态，通过强化学习算法，得到所述电网的控制动作；

具体地，在对初始数据进行预处理阶段，要将采集到的原始数据（电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态）进行整理、清洗、筛选，并进行必要的转换和特征提取，将处理好的初始数据通过强化学习算法进而得到电网的控制动作，其中，供电负荷可以根据时间进行分类（按小时或者按天进行分类），电压和频率可以进行统计分析以检测异常情况，发电容量可以与负荷需求进行比较，输电线路状态和变电站状态可以进行监测和记录；

具体地，将电网在当前时刻的运行数据和控制动作作为电网环境动力学模型的输入，从而得到控制动作对应的电网的状态转移和控制动作对应的奖励，根据电网在接收到控制动作后所表现的动态变化给与相应的奖励，每输入一个控制动作给与一个相应的奖励，奖励代表控制动作的好坏，在本实施例中，可通过奖励函数判定该控制动作的好坏。

具体地，使用强化学习算法对电网进行控制动作的优化，其中，强化学习是一种机器学习方法，通过智能体（在本实施例中，智能体即电网的控制单元）与环境交互来学习最优策略，在每一个时间步骤，电网控制单元基于当前的运行数据选择一个控制动作，例如：调整发电机组的输出功率、调节变电站的开关状态。根据控制动作对应的状态转移和奖励，更新电网的控制动作，其中，状态转移指的是根据当前的控制动作和当前的运行数据，推算下一个时间步骤的电网状态；奖励是对当前控制动作的评价，用于判断其对电网运行的贡献程度。通过不断与环境交互，强化学习算法逐渐学习到最优的控制策略，以使电网能够稳定运行、优化供电质量和效率，控制动作更新与停止；根据预设的奖励阈值，其中，奖励阈值可人为设定，在本实施例中，不做限定，判断监测控制动作对应的奖励是否连续超过阈值，如果连续预设次数均超过预设奖励阈值，则停止更新电网的控制动作，这表示强化学习算法已经找到了满足预期要求的最优控制策略，在停止更新之后，根据最后一次更新的控制动作来控制电网的控制单元的运行，从而确保电网继续按照之前学习到的最优策略运行，以实现良好的控制效果。

本发明所述的基于强化学习的电网运行控制方法，在此方法中，引入一个电网环境动力学模型，具有电网环境动力学模型的强化学习算法，可以预测每个控制动作所造成的电网的状态变化，即状态转移以及每个控制动作对应的奖励，再根据每个控制动作的奖励以及该控制动作对未来所产生的影响，通过深度学习算法对控制动作进行更新，直到满足停止更新控制动作的预设条件。利用电网环境动力学模型对电网环境进行建模，实现对不同控制动作在不同状态下的后果进行预测，即得到电网的状态转移，从而更好地规划控制动作，提高了控制动作的准确性，同时，由于针对每个控制动作进行电网对应的状态变化的预测，因此，则不受电网状态的突变的影响导致降低控制动作的精确度和准确性。

在本实施例中，将供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态作为强化学习算法的状态输入，强化学习算法会根据当前的状态进行计算，并输出一个动作，根据强化学习算法的输出动作，来调整电网的控制动作，其中，控制动作包括调整发电容量和调整输电线路的功率分配。

在一些优选地实施例中，可通过不断重复以上步骤，持续使用强化学习算法输出的动作来控制电网，直到满足设定的条件或达到预设奖励阈值，从而有效地控制电网运行。

具体地，在电网控制中，状态转移函数用于描述控制动作对电网状态的影响，从而体现电网在给定控制动作下的状态演变过程；奖励函数用于评估控制动作的好坏，在强化学习中起到引导学习的作用。

在一些优选地实施例中，奖励函数可以根据电网的运行目标进行设计，例如：最大化供电质量、降低能源损耗或提高系统稳定性，可根据具体情况，以设置不同的奖励信号来引导强化学习算法进行优化。

可选地，所述状态转移函数为：；

所述奖励函数为：；

在本实施例中，状态转移函数 T(s, a) 描述了环境在给定状态 s 下，采取动作 a 后将进入的下一个状态 s'，通过所定义的状态转移函数得到控制动作对应的电网的状态转移，再根据奖励函数得到控制动作对应的奖励；例如：将电网在当前的运行数据s和电网的控制动作a代入状态转移函数得到控制动作对应的电网的状态转移S'；通过每一步控制动作的奖励得到电网在当前的运行数据下采取电网的控制动作所获得的奖励；以此定义的状态转移函数和奖励函数可以用于强化学习框架中，通过不断地选择控制动作并观察环境状态的转移和获得的奖励，强化学习算法可以学习到最优的控制策略，从而实现电网运行过程中各种目标的优化。

所述值函数为：；

具体地，表示状态s下采取动作a的值函数，α在每次更新时控制新旧值的权重，一般取值范围为 0 到 1，γ在计算未来奖励的累积效果时起作用，一般取值范围也是 0 到 1；r是采取动作a后获得的即时奖励，即控制动作对应的奖励，表示在状态s'下所有可能动作a'对应的值函数中的最大值，即为控制动作对应的电网的状态转移的最大Q值。

在本实施例中，通过强化学习算法的值函数，更新电网的控制动作，其中，值函数，可表示在本实施例中的更新规则，该更新规则的作用是将当前状态下采取的动作的值函数更新为当前奖励 r 加上未来折扣考虑的最大值，通过不断地进行值函数的更新，强化学习算法可以逐步优化控制策略，使电网系统在不同状态下能够选择最优的控制动作。

初始化Q值函数表，使为零；

具体地，在开始时，将所有状态-动作对的值函数都初始化为零，将学习率设置在0到1的范围内，表示每次更新时新旧值之间的权重比例。一般来说，较小的学习率可以使算法收敛得更稳定，而较大的学习率可以使算法更快地学习到新的信息。

在一些优选地实施例中，可根据具体情况，尝试不同的学习率来找到最合适的取值，将折扣因子设置在0到1的范围内，表示未来奖励对当前动作价值的影响程度；较接近1的折扣因子会更加关注长期回报，而较接近0的折扣因子则更注重即时奖励。根据电网系统的特性和目标，可以选择适当的折扣因子来平衡即时奖励和长期回报的重要性，可根据具体情况，进行试验调整从而找到最合适的学习率和折扣因子，以获得更好的的强化学习效果。

可选地，通过预设数据清洗方法，对所述初始数据进行清洗，得到清洗后的所述初始数据；

具体地，通过预设的数据清洗方法对初始数据进行清洗，去除或修正其中的异常值、缺失值、重复值等问题，以得到清洗后的初始数据。根据预设特征转换原则，对清洗后的初始数据进行特征转换，其中，预设特征转换原则包括将原始数据进行编码、聚合、离散化、平滑处理操作，以提取出与之相关的有效特征，并将数据转换为具有特征表现形式的形式；根据预设归一化方法，对具有特征表现形式的初始数据进行归一化处理，其中，预设归一化方法可以为包最小-最大缩放或Z-Score标准化，以确保特征具有相同的尺度和范围，避免某些特征对建模和分析的影响过大，经过归一化处理后，将得到的标准化的初始数据视为电网在当前时刻的运行数据。

在本实施例中，通过数据清洗方法、特征转换原则和归一化方法对初始数据进行处理，以确保获得准确、可靠且易于处理的运行数据。

可选地，所述基于强化学习的电网运行控制方法还包括：

具体地，首先进入程序初始化，开始时，设定预设奖励阈值和连续预设次数为0，并选择初始的控制动作，将当前的控制动作输入电网环境动力学模型，获取电网的状态转移和相应的奖励，如果该奖励没有连续预设次数超过预设奖励阈值，则执行以下步骤：步骤1：更新控制动作：根据当前状态和奖励，使用某种算法或策略调整控制动作的取值；步骤2：重复上述步骤：将更新后的控制动作再次输入电网环境动力学模型，得到新的状态转移和奖励；步骤3：判断停止条件：当控制动作对应的奖励连续预设次数都超过预设奖励阈值时，停止更新控制动作；步骤4：最后一次更新的控制动作：根据最后一次更新的控制动作，控制电网的控制单元运行。

在本实施例中，通过设置循环判断，直至控制动作对应的奖励连续预设次数均超过预设奖励阈值时，停止更新电网的控制动作，其中，预设次数和预设奖励阈值可根据实际情况进行设定，在此不做限定，最后，根据最后一次更新的控制动作控制电网的控制单元运行，从而确保电网继续按照之前学习到的最优策略运行，以实现良好的控制效果。

所述构建所述电网环境动力学模型包括：

在本实施例中，将历史运行数据作为初始环境模型的输入，对初始环境模型的参数进行优化从而得到优化后的初始环境模型，进而得到优化后的初始环境模型的输出，当优化后的初始环境模型的输出与电网的行为达到预设相似条件后，即代表该初始环境模型训练完成，将优化后的初始环境模型作为电网环境动力学模型，从而通过电网环境动力学模型预测每个控制动作所造成的电网的状态变化。

可选地，所述基于强化学习的电网运行控制方法，还包括：

具体地，通过分布式系统控制电网，可以将每个控制单元对应一个节点，并为每个节点创建一个电网环境动力学模型的镜像，这些镜像电网环境动力学模型可以与真实电网环境保持同步更新，并由各个节点进行独立的控制决策；在分布式系统中，每个节点可以利用本地的电网环境动力学模型镜像进行控制策略的训练和优化，节点之间可以通过通信方式来共享信息和协调行动。

例如：分布式系统中的每个节点可通过以下步骤进行操作：步骤a：获取当前的电网状态信息；步骤b：基于本地的电网环境动力学模型镜像，预测电网未来的状态转移和奖励；步骤c：基于预测结果，制定控制策略或决策；步骤d：将控制指令发送到相应的控制单元执行，该控制单元属于当前节点所控制的范围；步骤e：监控电网响应，并更新本地的电网环境动力学模型镜像；步骤f：与其他节点进行信息交换和协调，以实现整体电网控制的目标。

在本实施例中，通过分布式系统控制电网，可以提高系统的鲁棒性、可扩展性和响应速度，使得控制决策更加灵活和高效。

结合图2所示，本发明所述的基于强化学习的电网运行控制方法，首先获取电网在当前时刻的初始数据；通过预设数据清洗方法，对初始数据进行清洗，得到清洗后的初始数据；再通过预设特征转换原则，对清洗后的初始数据进行特征转换，得到具有特征表现形式的初始数据；通过预设归一化方法，对具有特征表现形式的初始数据进行归一化处理得到标准化的初始数据；将标准化的初始数据作为电网在当前时刻的运行数据，其中，运行数据包括电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态；将供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态作为强化学习算法的状态，输入强化学习算法，根据强化学习算法的输出，得到强化学习算法的动作；再根据强化学习算法的动作，得到电网的控制动作，其中，电网的控制动作包括调整发电容量和调整输电线路的功率分配；根据电网在当前时刻的运行数据和电网的控制动作；通过电网环境动力学模型的状态转移函数，得到控制动作对应的电网的状态转移；通过电网环境动力学模型的奖励函数，得到控制动作对应的奖励，其中，建立电网环境动力学模型包括：获取数据集，其中，数据集包括所述电网的历史运行数据，建立初始环境模型，并根据数据集对初始环境模型的参数进行优化，得到优化后的初始环境模型，当优化后的初始环境模型的输出与电网的行为达到预设相似条件后，将优化后的初始环境模型作为电网环境动力学模型；初始化Q值函数表，使为零；设置所述学习率以及折扣因子，使所述学习率在0至1的范围内，使所述折扣因子在0至1的范围内；根据电网的状态转移和控制动作对应的奖励，通过强化学习算法的值函数，更新电网的控制动作；当控制动作对应的奖励连续预设次数均超过预设奖励阈值时停止更新电网的控制动作，并根据最后一次更新的控制动作通过分布式系统控制电网的所述控制单元运行；当控制动作对应的奖励没有在连续预设次数超过预设奖励阈值时，将更新后的控制动作输入电网环境动力学模型，重新获取控制动作对应的电网的状态转移和控制动作对应的奖励；直至控制动作对应的奖励连续预设次数均超过预设奖励阈值时，停止更新电网的控制动作，并根据最后一次更新的控制动作通过分布式系统控制电网的所述控制单元运行，本发明的基于强化学习的电网运行控制方法，在基于强化学习的电网运行控制方法中，引入一个电网环境动力学模型，具有电网环境动力学模型模型的强化学习算法，可以预测每个控制动作所造成的电网的状态变化，即状态转移以及每个控制动作对应的奖励，再根据每个控制动作的奖励以及该控制动作对未来所产生的影响，通过深度学习算法对控制动作进行更新，直到满足停止更新控制动作的预设条件。利用电网环境动力学模型对电网环境进行建模，实现对不同控制动作在不同状态下的后果进行预测，即得到电网的状态转移，从而更好地规划控制动作，提高了控制动作的准确性，同时，由于针对每个控制动作进行电网对应的状态变化的预测，因此，则不受电网状态的突变的影响导致降低控制动作的精确度和准确性。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于强化学习的电网运行控制方法，其特征在于，包括：

S1：获取电网在当前时刻的初始数据；

S2：对所述初始数据进行预处理，得到所述电网在所述当前时刻的运行数据，其中，所述运行数据包括所述电网的供电负荷、电压、频率、发电容量、输电线路状态以及变电站状态；

S3：根据所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态，通过强化学习算法，得到所述电网的控制动作；

S3具体包括：S31：将所述供电负荷、所述电压、所述频率、所述发电容量、所述输电线路状态以及所述变电站状态作为所述强化学习算法的状态，输入所述强化学习算法；

S32：根据所述强化学习算法的输出，得到所述强化学习算法的动作；

S33：根据所述强化学习算法的动作，得到所述电网的所述控制动作，其中，所述电网的所述控制动作包括调整发电容量和调整输电线路的功率分配；

S4：构建电网环境动力学模型；

所述构建所述电网环境动力学模型具体包括：

S41：获取数据集，其中，所述数据集包括所述电网的历史运行数据；

S42：建立初始环境模型，并根据所述数据集对所述初始环境模型的参数进行优化，得到优化后的所述初始环境模型；

S43：当所述优化后的所述初始环境模型的输出与所述电网的行为达到预设相似条件后，将所述优化后的所述初始环境模型作为所述电网环境动力学模型；

S5：将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型，得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励，其中，所述电网的状态转移为所述电网收到所述控制动作后的动态变化，所述控制动作对应的所述奖励代表所述控制动作的好坏，每输入一个所述控制动作对应一个所述奖励；

S6：根据所述电网的所述状态转移和所述控制动作对应的所述奖励，通过所述强化学习算法，更新所述电网的所述控制动作；

S7：当所述控制动作对应的所述奖励连续预设次数均超过预设奖励阈值时，停止更新所述电网的所述控制动作，并根据最后一次更新的所述控制动作控制所述电网的控制单元运行；

S8：通过分布式系统控制所述电网的所述控制单元，其中，一个所述电网包括多个所述控制单元；其中，分布式系统包括多个节点，每个所述节点对应控制一个所述控制单元，同时每个所述节点对应一个所述电网环境动力学模型的镜像。

2.根据权利要求1所述的基于强化学习的电网运行控制方法，其特征在于，所述将所述电网在所述当前时刻的所述运行数据和所述控制动作输入电网环境动力学模型，得到所述控制动作对应的所述电网的状态转移和所述控制动作对应的奖励，包括：

3.根据权利要求2所述的基于强化学习的电网运行控制方法，其特征在于，所述状态转移函数为：S' = T(s, a)；

其中，s为所述电网在当前的所述运行数据，a为所述电网的控制动作，S'为所述控制动作对应的所述电网的所述状态转移；

所述奖励函数为：R(s, a) = r_step；

其中，R(s, a) 表示在所述电网在当前的所述运行数据下采取所述电网的控制动作所获得的奖励，r_step 是一个单一标量值，表示每一步中所获得的奖励。

4.根据权利要求3所述的基于强化学习的电网运行控制方法，其特征在于，所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励，通过所述强化学习算法，更新所述电网的所述控制动作，包括：

所述值函数为：Q(s, a) ← (1 - α) * Q(s, a) + α * [r + γ * max(Q(s',a'))]；

其中，Q(s, a)为值函数，α为学习率，γ为折扣因子，r为所述控制动作对应的所述奖励，max(Q(s', a'))为所述控制动作对应的所述电网的所述状态转移的最大Q值。

5.根据权利要求4所述的基于强化学习的电网运行控制方法，其特征在于，在所述根据所述电网的所述状态转移和所述控制动作对应的所述奖励，通过所述强化学习算法的值函数，更新所述电网的所述控制动作之前，所述方法还包括：

初始化Q值函数表，使Q(s, a)为零；

6.根据权利要求1所述的基于强化学习的电网运行控制方法，其特征在于，所述对所述初始数据进行预处理，得到所述电网在所述当前时刻的运行数据，包括：

7.根据权利要求1所述的基于强化学习的电网运行控制方法，其特征在于，还包括：