CN111293703A

CN111293703A - 一种基于时序强化学习的电网无功电压调控方法和系统

Info

Publication number: CN111293703A
Application number: CN201911102126.9A
Authority: CN
Inventors: 范士雄; 刘幸蔚; 魏智慧; 冯长有; 刘瑞叶; 王松岩; 皮俊波; 王晶; 于继来; 李立新; 於益军; 卫泽晨; 王伟; 韩巍; 陈晓刚; 毛航银
Original assignee: Harbin Institute of Technology; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: Harbin Institute of Technology; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-06-16

Abstract

本发明提出一种基于时序强化学习的电网无功电压调控方法和系统，包括：获取待调控节点的电压幅值和投入电容器数量；根据投入电容器数量从预先建立的智能体群组中选择智能体；对选择出的智能体，按照为智能体预先建立的Q表、电压幅值和当前时序已投入电容器的状态，通过对电容器动作，实现对电网无功电压进行调控。本发明中各智能体对电网状态的感知包括电压幅值和电容器投入数量，并以“电容器投入数量”判断选取群组中相应的智能体，该智能体再根据电压幅值对电容器动作调控电网无功电压，本发明所提方法弥补了现有研究在负荷变动和无功补偿设备资源有限双因素影响下无功电压调控方法失效的缺陷，可以较好改善负荷中心节点的电压状况。

Description

一种基于时序强化学习的电网无功电压调控方法和系统

技术领域

本发明属于电力系统的无功电压优化控技术领域，具体涉及一种基于时序强化学习的电网无功电压调控方法和系统。

背景技术

电网电压与无功关系密切，电网必须要有足够的无功电源或无功补偿装置满足全网的无功损耗和负荷的无功需求。局部无功实时平衡是保证全网电压稳定的前提条件，因此深入研究电网动态无功电压调控方法对保障用户安全用电和电网可靠运行意义重大。

无功电压调控问题属于电力系统经典研究领域，国内外学者对此展开了大量研究。经典优化算法受系统时变性、网络参数变化和电网运行条件等多因素影响，易陷入局部最优解。采用现代启发式算法求解动态无功电压调控的模型，摆脱了非智能算法容易陷入局部最优解的困局，但该方法对建模的精确度有较高的要求。本质而言，无功电压调控是一个多变量、多约束、非线性、控制规律难以用精确的数学模型来描述的复杂控制问题，而当前人工智能技术的发展为解决该问题提供了新的技术途径。强化学习算法可自主学习获取知识，在解决非线性多约束动态规划问题具有优势。

Q学习(Q_learning)算法属于强化学习算法中的主流分支算法。智能体通过探索未知环境获得代表经验的奖励，然后以Q值函数记录探索过程中连续动作的累积奖励并储存在Q表中，智能体依据Q表，选择下一个状态(State)Q值最大的动作采取行动。算法采取动作的核心策略是“探索-利用”策略(“ε-greedy”)，可有效避免决策陷入局部最优，其数学描述如下：

式中：ε是服从均匀分布的随机数。当ε大于ε₀时，智能体按下一个状态最大的Q值选择动作，否则，随机选择当前状态下的可执行动作，a_s表示按0-1范围随机从动作集中选择动作。

在无功电压调控问题中，智能体根据电网的无功电压等运行状态特征，随机产生动作并根据动作结果产生的奖励值生成Q表。通过大量的离线学习与在线修正相配合实现Q表收敛后，智能体将通过Q表实现状态与最优动作的映射。由此可见，基于Q学习生成的智能体可有效回避无功电压调控模型求解技术路线中的相关问题，具有技术潜力。若真正实现将Q学习技术有效应用于电网无功电压调控环境，需面对智能体的“状态”、“动作”及“奖励”环节与无功调控特征相结合的问题。

基于Q学习算法，在不考虑负荷时序变化的条件下，通过训练智能体，在线给出当前时间断面的地区电网无功电压控制策略比较容易。然而，电网运行状态会跟随负荷变化而时序变化。这也意味着无功电压调控不宜采用一步到位式调控，而是应该随电网状态变化而不断改变调控措施。进一步地，电容器在不同时段是否投入或从电网切除，本身也是描述电网状态时变的因素。若变电站耗尽无功调节资源无电容器可投(或无电容器可切)，则变电站的无功调节“动作”必然受限。具体而言，变电站当前时段投切电容器不光改变电网当前的“状态”，同时也改变了未来时段负荷变动电网状态改变下的变电站自身电容器投切方式。这又意味着电网时序动态无功电压调控是一个状态与动作高度耦合的强化学习问题。现有无功电压调控方法在负荷变动和无功补偿设备资源有限双因素影响下无法奏效。

发明内容

为克服上述现有技术的不足，本发明提出一种基于时序强化学习的电网无功电压调控方法，其改进之处在于，包括：

获取待调控节点的电压幅值和投入电容器数量；

根据投入电容器数量从预先建立的智能体群组中选择智能体；

对选择出的所述智能体，按照为所述智能体预先建立的Q表、所述电压幅值和当前时序已投入电容器的状态，通过对电容器动作，实现对电网无功电压进行调控；

所述Q表对应的电容器动作包括：切、投和保持。

本发明提供的第一优选技术方案，其改进之处在于，所述智能体Q表的建立，包括：

根据待调控节点设置的电容器数量生成智能体群组；其中，所述智能体群组中的每个智能体分别对应不同的投入电容器数量，每个所述智能体分别对应一个Q表，所述Q表中每个Q值分别对应不同电压状态和电容器动作；

将每个所述智能体对应的Q表中的值以及Q学习算法参数的值进行初始化；

分别对每个智能体的Q表进行训练，直到Q表收敛，得到稳定的Q表；

其中，电压状态根据低压越限、高压越限和不越限的情况划分区间。

本发明提供的第二优选技术方案，其改进之处在于，所述分别对每个智能体的Q表进行训练，直到Q表收敛，得到稳定的Q表，包括：

针对每个智能体，分别根据待调控节点的电压幅值，按照探索-利用策略，给出电容器调控动作；

根据电容器动作前后的电压幅值，得到奖励值；

根据所述奖励值，计算Q表中对应电压状态和电容器动作的Q值；

判断探索-利用策略中的服从均匀分布的随机数的值是否为零，若是，则Q表收敛，得到稳定的Q表并结束；否则，转入根据待调控节点的电压幅值，按照探索-利用策略，给出电容器调控动作。

本发明提供的第三优选技术方案，其改进之处在于，所述根据电容器动作前后的电压幅值，得到奖励值，包括：

基于电容器动作前电压幅值与低压越限值及高压越限值间的关系，并结合电容器动作后的电压幅值，得到奖励值。

本发明提供的第四优选技术方案，其改进之处在于，所述基于电容器动作前电压幅值与低压越限值及高压越限值间的关系，并结合电容器动作后的电压幅值，得到奖励值，包括：当电容器动作前的电压幅值小于或等于低压越限值时，所述奖励值的取值如下：

式中，a表示低压越限值，b表示高压越限值，R表示奖励值，abs表示取绝对值，U_s表示电容器动作前的电压幅值，U_s_表示电容器动作后的电压幅值。

本发明提供的第五优选技术方案，其改进之处在于，所述基于电容器动作前电压幅值与低压越限值及高压越限值间的关系，并结合电容器动作后的电压幅值，得到奖励值，包括：当电容器动作前的电压幅值大于低压越限值且小于或等于高压越限值时，所述奖励值的取值如下：

本发明提供的第六优选技术方案，其改进之处在于，所述基于电容器动作前电压幅值与低压越限值及高压越限值间的关系，并结合电容器动作后的电压幅值，得到奖励值，包括：当电容器动作前的电压幅值大于高压越限值时，所述奖励值的取值如下：

本发明提供的第七优选技术方案，其改进之处在于，所述对选择出的所述智能体，按照为所述智能体预先建立的Q表和所述电压幅值，通过对电容器动作，实现对电网无功电压进行调控，包括：

根据当前时序已投入电容器的状态确定能够执行的电容器动作；

在选择出所述智能体预先建立的Q表中，从对应能够执行的电容器动作且对应所述电压幅值的多个Q值中选择最大的Q值；

执行最大Q值对应的电容器动作，实现对电网无功电压进行调控。

基于同一发明构思，本发明还提供了一种基于时序强化学习的电网无功电压调控系统，包括：数据获取模块、智能体选择模块和调控模块；

所述数据获取模块，用于获取待调控节点的电压幅值和投入电容器数量；

所述智能体选择模块，用于根据投入电容器数量从预先建立的智能体群组中选择智能体；

所述调控模块，用于对选择出的所述智能体，按照为所述智能体预先建立的Q表和所述电压幅值，通过对电容器动作，实现对电网无功电压进行调控；

所述Q表对应的电容器动作包括：切、投和保持。

本发明提供的第八优选技术方案，其改进之处在于，还包括用于建立智能体Q表的Q表建立模块，所述Q表建立模块包括：群组生成单元、初始化单元和训练单元；

所述群组生成单元，用于根据待调控节点设置的电容器数量生成智能体群组；其中，所述智能体群组中的每个智能体分别对应不同的投入电容器数量，每个所述智能体分别对应一个Q表，所述Q表中每个Q值分别对应不同电压状态和电容器动作；

所述初始化单元，用于将每个所述智能体对应的Q表中的值以及Q学习算法参数的值进行初始化；

所述训练单元，用于分别对每个智能体的Q表进行训练，直到Q表收敛，得到稳定的Q表；

与最接近的现有技术相比，本发明具有的有益效果如下：

本发明提出一种基于时序强化学习的电网无功电压调控方法和系统，包括：获取待调控节点的电压幅值和投入电容器数量；根据投入电容器数量从预先建立的智能体群组中选择智能体；对选择出的智能体，按照为智能体预先建立的Q表、电压幅值和当前时序已投入电容器的状态，通过对电容器动作，实现对电网无功电压进行调控；Q表对应的电容器动作包括：切、投和保持。本发明设计了含多个智能体的群组，群组中各智能体对电网状态的感知包括电压幅值和电容器投入数量两方面，并且以“电容器投入数量”作为智能体的选择判据。针对目标节点已投电容器数量，判断选取群组中相应的智能体，该智能体再根据电压幅值，通过对电容器动作，实现对电网无功电压进行调控，实践表明本发明所提方法弥补了现有研究在负荷变动和无功补偿设备资源有限双因素影响下无功电压调控方法失效的缺陷，可以较好改善负荷中心节点的电压状况。

附图说明

图1为本发明提供的一种基于时序强化学习的电网无功电压调控方法流程示意图；

图2为本发明涉及的改进的IEEE10机39节点系统的结构示意图；

图3为本发明提供的多智能体优化流程示意图；

图4为本发明提供的群组选择智能体过程示意图；

图5为本发明实施例中提供的利用训练生成的智能体群组实现某天24时刻动态无功电压调控的一个示例图；

图6为本发明提供的一种基于时序强化学习的电网无功电压调控系统基本结构示意图；

图7为本发明提供的一种基于时序强化学习的电网无功电压调控系统详细结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

实施例1：

本发明提供的一种基于时序强化学习的电网无功电压调控方法流程示意图如图1所示，包括：

步骤1：获取待调控节点的电压幅值和投入电容器数量；

步骤2：根据投入电容器数量从预先建立的智能体群组中选择智能体；

步骤3：对选择出的智能体，按照为智能体预先建立的Q表、电压幅值和当前时序已投入电容器的状态，通过对电容器动作，实现对电网无功电压进行调控；

Q表对应的电容器动作包括：切、投和保持。

本发明提出一种基于时序强化学习的电网无功电压调控方法。首先，将电网状态描述为节点电压幅值和电容器投切数量的综合。其次，针对负荷时序变化以及动作-状态耦合问题，设计了一种新的强化学习智能体群组。通过判断节点当前投入电容器数量，针对性选择群组内相应智能体。最终在时序场景下通过训练实现不同智能体的Q表收敛，智能体依据Q表，选择相应状态下对应的Q值最大的动作，能够实现对多时段负荷中心节点的无功电压调控。

第一，变电站电容器接入的状态是前后关联的，某时刻执行动作后变电站投入运行的电容器数量将会影响下一时段变电站的动作，因此变电站当前电容器的投切状况理应作为电网状态的描述特征。本发明设计的环境状态集的描述不仅包括电压幅值还包括电容器投入数量。第二，本发明针对负荷时序变化以及动作-状态耦合问题，设计了一种新的强化学习智能体群组，群组中各智能体对电网状态的感知包括待调控节点的负荷电压幅值和电容器投入数量两方面。以“电容器投入数量”作为智能体的选择机制，从物理机制上将变电站连续投切电容器的物理过程描述为群组中各个智能体的“接力”动作。不同的智能体针对变电站电容器组不同的运行状态而采取动作，其动作集具有差异性，本发明考虑各智能体的特点，分别设计其动作集。第三，本发明设计了一种“逐步式”奖励函数。“逐步式”奖励的动作集设计不需要考虑电容器数量的组合关系，动作至多为“投”、“切”或“保持”。简单的动作集及清晰的奖励机制设计更有利于智能体Q表快速收敛。

本发明提供的具体技术方案如下：

(1)、无功电压环境状态的描述

无功电压环境状态的描述包括电压幅值和电容器投入数量两方面，其中电压划分基本原则如下：

1-i电网负荷电压幅值要求在低压越限值和高压越限值，例如0.95p.u.～1.05p.u.之间，划分多个区间，例如按0.01p.u.进行等间距划分，可划分10个电压状态，分度值选择上，保证执行投切电容器动作后电压幅值不会落入同一个状态区间。

1-ii考虑到电压幅值低于0.95p.u.或者高于1.05p.u.都是越限状态，可不取分度值，将位于这两个区间的电压幅值分别作为一个电压状态即可。

1-iii对目标节点已投入n个电容器的情况而言，其电压状态描述包含(i)和(ii)中的所有的12种电压状态。

(2)、智能体群组及其可行动作集设计

若变电站节点有N个电容器，则投入电容器数量有N+1种情况，该变电站对映的智能体群组有N+1个智能体。不同的智能体针对变电站电容器组不同的运行状态而采取动作，其动作集具有差异性。

2-i在仅有电容器可投和仅有电容器可切的限制下分别去除动作集中的“切”和“投”。

2-ii相比于以往的强化学习智能体动作集一般仅设计投切两种动作，在动作集中增加了“保持”。

由于Q表的维数由状态集和动作集的元素数量决定，设计好状态集和动作集，Q表的维数也就随之确定。

下表1是群组中各智能体的环境状态集。

表1变电站投入n个电容器条件下的环境状态集

下表2是智能体组及其动作集。Q_table即Q表，agent即智能体。

表2智能体组及其动作集

(3)、“逐步式”奖励函数

Q学习算法用Q表存储状态-动作对应的Q值函数，其更新策略见如下：

Q(S,A)←Q(S,A)+α[R+γmax_a Q(S',A)-Q(S,A)]

式中：a∈A，A表示动作集，a是A中的元素；s∈S，s’∈S，S表示状态集，s和s’是S中的元素，s指当前状态，s’指采取动作后的状态，R即reward表示奖励值，γ表示衰减率且γ∈[0,1]，α表示学习因子且α∈[0,1]。等式左侧的Q(s,a)表示更新后的Q值，等式右边的Q(s,a)表示当前的Q值，等式右边Q(s‘,a)表示采取动作后所对应状态下的最大Q值。由上可见，当前Q值由奖励(reward)和后续环境状态下最优动作的Q值组成，而奖励则起到后续Q值与当前Q值的纽带作用。因此奖励的设计对Q值的更新至关重要。

结合电网无功电压运行状态，将初态电压划分三个大区间，(-∞,0.95]、(0.95,1.05)以及[1.05,+∞)。(-∞,0.95]、[1.05,+∞)为越限状态，正常情况下的电压区间位于(0.95,1.05)，设定期望电压幅值为1.0p.u.。三大区间相对应的奖励设计如下：

3-i若智能体执行动作后电压幅值从(-∞,0.95]或[1.05,+∞)两个区间落入(0.95,1.05)，说明智能体执行动作后的状态比动作前的状态有进步，奖励值reward为1；

3-ii若智能体执行动作后电压幅值从区间(-∞,0.95]落入[1.05,+∞)，或[1.05,+∞)落入(-∞,0.95]，意味着动作存在无功过补偿和欠补偿的情况，reward为-1；

3-iii若智能体执行动作前后电压幅值所在区间均在(-∞,0.95]，同时动作后的次态电压幅值Us_相比初态电压幅值Us距离0.95p.u.更近，则说明电网电压状态得到改善，reward为1；否则若电网状态没有改善，reward为0，恶化reward为-1；

3-iv若智能体执行动作前后电压幅值所在区间均在[1.05,+∞)，同时动作后的次态电压幅值Us_相比初态电压幅值Us距离1.05p.u.更近，则说明电网电压状态得到改善，reward为1；否则若电网状态没有改善，reward为0，恶化reward为-1；

3-v电压幅值动作前后均在区间(0.95,1.05)，动作后的次态电压幅值Us_比初态电压幅值Us离1.0p.u更近，则说明电网电压状态得到改善，reward为1；否则若电网状态没有改善，reward为0，恶化reward为-1；

以上奖励可进一步以数学形式进行分类描述，见下式：

a)U_s∈(-∞,0.95]

b)U_s∈(0.95,1.05]

c)U_s∈(1.05,+∞)

定义无功电压环境状态的描述、智能体群组及其可行动作集和奖励函数后，本发明中的智能体根据目标节点电压幅值，按照“探索-利用”策略，给出电容器调控动作，然后智能体再根据目标节点电压前后状态的变化获得奖励，将代表经验的累积奖励Q值存储在Q表中，通过反复训练直到Q表收敛，从而得到负荷中心节点的动态无功电压调控策略。电压调控过程中，根据获取的投入电容器数量选择智能体，并根据待调控节点电压幅值，根据选中智能体对应Q表给出调控动作，用电容器执行调控动作，对无功电压进行调控。

实施例2：

下面采用改进的IEEE10机39节点系统无功电压调控为例并结合附图、附表对本发明的具体实施方式作进一步的详细说明。

改进的IEEE10机39节点系统的结构如图2所示，由离发电机较远的8节点引出40节点作为负荷节点，在该节点设有三个电容器，容量均为0.6p.u.。按照表2生成智能体群组{agent1,agent2,agent3,agnet4}，分别对应变电站投入电容器的数量为{0，1，2，3}，群组中各智能体的环境状态集如表1所示。多智能体优化流程如图3，具体步骤如下：

步骤201：四个智能体的Q表初始化为0，Q值更新公式中的α取值为0.01，γ取值为0.9，并将探索-利用策略即ε-greedy策略中的ε取值为0.2。其中，ε为从均匀分布的随机数。

步骤202：智能体感知当前电网的状态量，包括电压幅值及电容器投入数量两方面。

步骤203：群组以“电容器投入数量”作为智能体的选择判据。群组选择智能体的过程如图4所示，图4中的agent为智能体，Q-table为Q表，图4中左上的小图即为图2，图4中右上的小图即为图5。针对目标节点已投电容器数量，判断选取群组中相应的智能体。然后，该智能体再根据目标节点电压幅值，按照“ε-greedy”策略给出调控动作；

步骤204：用Q表记录环境反馈的累计奖励即Q值。判断ε是否衰减到0，如果没有衰减到0，回到步骤203，继续选择智能体，按照“ε-greedy”策略给出调控动作；否则就认为Q表已经稳定。经过多时段大量的训练，就能得到稳定的Q表，如表3-6。

表3 agent1对应Q表

表4 agent2对应Q表

表5 agent3的Q表

表6 agent4对应Q表

图5是利用训练生成的智能体群组实现某天24时刻动态无功电压调控的一个示例图，U_pre是未调控优化的电压幅值，U_opt是调控优化后的电压幅值。连续动态无功电压调控任务开始的0时刻负荷中心节点已经接入1个电容器，群组选择agent2，根据节点电压值对照agent2的Q表执行动作(投入电容器)，负荷中心节点电压变为0.99p.u.；接下来，由于节点40已投入2个电容器，群组选择agent3。根据agent3的Q表执行动作(保持)，以此类推，每一步群组选择相应智能体并给出决策，最终实现系统全过程的动态无功电压调控。

实施例3：

基于同一发明构思，本发明还提供了一种基于时序强化学习的电网无功电压调控系统，由于这些设备解决技术问题的原理与基于时序强化学习的电网无功电压调控方法相似，重复之处不再赘述。

该系统基本结构如图6所示，包括：数据获取模块、智能体选择模块和调控模块；

其中，数据获取模块，用于获取待调控节点的电压幅值和投入电容器数量；

智能体选择模块，用于根据投入电容器数量从预先建立的智能体群组中选择智能体；

调控模块，用于对选择出的智能体，按照为智能体预先建立的Q表、电压幅值当前时序已投入电容器的状态，通过对电容器动作，实现对电网无功电压进行调控；

Q表对应的电容器动作包括：切、投和保持。

基于时序强化学习的电网无功电压调控系统详细结构如图7所示。

其中，基于时序强化学习的电网无功电压调控系统还包括用于建立智能体Q表的Q表建立模块，Q表建立模块包括：群组生成单元、初始化单元和训练单元；

群组生成单元，用于根据待调控节点设置的电容器数量生成智能体群组；其中，智能体群组中的每个智能体分别对应不同的投入电容器数量，每个智能体分别对应一个Q表，Q表中每个Q值分别对应不同电压状态和电容器动作；

初始化单元，用于将每个智能体对应的Q表中的值以及Q学习算法参数的值进行初始化；

训练单元，用于分别对每个智能体的Q表进行训练，直到Q表收敛，得到稳定的Q表；

其中，训练单元包括：调控动作子单元、奖励值子单元、Q值计算子单元和收敛判断子单元；

调控动作子单元，用于针对每个智能体，分别根据待调控节点的电压幅值，按照探索-利用策略，给出电容器调控动作；

奖励值子单元，用于根据电容器动作前后的电压幅值，得到奖励值；

Q值计算子单元，用于根据奖励值，计算Q表中对应电压状态和电容器动作的Q值；

收敛判断子单元，用于判断探索-利用策略中的服从均匀分布的随机数的值是否为零，若是，则Q表收敛，得到稳定的Q表并结束；否则，转入根据待调控节点的电压幅值，按照探索-利用策略，给出电容器调控动作。

其中，调控模块包括：动作选择单元、Q值选择单元和调控动作单元；

动作选择单元，用于根据当前时序已投入电容器的状态确定能够执行的电容器动作；

Q值选择单元，用于在选择出智能体预先建立的Q表中，从对应能够执行的电容器动作且对应电压幅值的多个Q值中选择最大的Q值；

调控动作单元，用于执行最大Q值对应的电容器动作，实现对电网无功电压进行调控。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种基于时序强化学习的电网无功电压调控方法，其特征在于，包括：

获取待调控节点的电压幅值和投入电容器数量；

所述Q表对应的电容器动作包括：切、投和保持。

2.如权利要求1所述的方法，其特征在于，所述智能体Q表的建立，包括：

3.如权利要求2所述的方法，其特征在于，所述分别对每个智能体的Q表进行训练，直到Q表收敛，得到稳定的Q表，包括：

根据电容器动作前后的电压幅值，得到奖励值；

4.如权利要求3所述的方法，其特征在于，所述根据电容器动作前后的电压幅值，得到奖励值，包括：

5.如权利要求4所述的方法，其特征在于，所述基于电容器动作前电压幅值与低压越限值及高压越限值间的关系，并结合电容器动作后的电压幅值，得到奖励值，包括：当电容器动作前的电压幅值小于或等于低压越限值时，所述奖励值的取值如下：

6.如权利要求4所述的方法，其特征在于，所述基于电容器动作前电压幅值与低压越限值及高压越限值间的关系，并结合电容器动作后的电压幅值，得到奖励值，包括：当电容器动作前的电压幅值大于低压越限值且小于或等于高压越限值时，所述奖励值的取值如下：

7.如权利要求4所述的方法，其特征在于，所述基于电容器动作前电压幅值与低压越限值及高压越限值间的关系，并结合电容器动作后的电压幅值，得到奖励值，包括：当电容器动作前的电压幅值大于高压越限值时，所述奖励值的取值如下：

8.如权利要求1所述的方法，其特征在于，所述对选择出的所述智能体，按照为所述智能体预先建立的Q表、所述电压幅值和当前时序已投入电容器的状态，通过对电容器动作，实现对电网无功电压进行调控，包括：

9.一种基于时序强化学习的电网无功电压调控系统，其特征在于，包括：数据获取模块、智能体选择模块和调控模块；

所述Q表对应的电容器动作包括：切、投和保持。

10.如权利要求9所述的系统，其特征在于，还包括用于建立智能体Q表的Q表建立模块，所述Q表建立模块包括：群组生成单元、初始化单元和训练单元；