CN112564189A

CN112564189A - 一种有功无功协调优化控制方法

Info

Publication number: CN112564189A
Application number: CN202011470839.3A
Authority: CN
Inventors: 田启东; 刘雪飞; 林志贤; 李俊; 黄光磊
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-26
Anticipated expiration: 2040-12-15
Also published as: CN112564189B

Abstract

本发明公开一种有功无功协调优化控制方法，包括：将电力系统节点电压的初值集合，以及发电机的有功功率初值集合输入训练好的多智能体系统；所述多智能体系统采用DRQN网络和Q值混合网络相结合的结构，网络的输入量为发电机的有功功率和节点电压，网络的动作量为发电机的有功功率和节点电压的变化量，回报函数以成本函数、有功损耗和电压偏差最小来设定，通过仿真探索以及反向传递的参数更新，直至网络收敛得到训练好的多智能体；所述多智能体系统输出对应的有功功率调节量、节点电压调节量，用于有功无功的协调优化控制，使得混合网络的全局动作值函数最大。本发明能提升现有调度系统在全网范围精益化调控的决策能力。

Description

一种有功无功协调优化控制方法

技术领域

本发明涉及电力系统技术领域，尤其涉及一种有功无功协调优化控制方法。

背景技术

我国特高压交直流互联大电网的建设，电网在更大范围内优化配置资源的能力进一步增强，但同时也对现有电网调控系统提出了新挑战。首先，特高压交直流混联电网往往输电距离长、输送功率大，穿越全国多个具有明显差异的气候区，运行时环境复杂多变、受环境因素影响比较严峻，对电网的可靠性、灵活性和应变能力有较高要求；其次，特高压电网有功和无功呈现出强耦合的特性，调度系统如仍保持当前以解耦控制为前提的有功和无功功率独立控制，则可能存在有功控制与无功控制相互影响彼此控制效果的情况，引起控制设备反复调节等问题，不利于电力系统的稳定运行，需要在全网层面进行有功与无功的协调控制；最后，为实现特高压交直流互联电网在大范围内对资源优化配置的能力，需要提升现有调度系统在全网范围精益化调控的决策能力。原有调度系统难以满足强混联大电网调度控制精益化的需求，迫切需要开展有功与无功协调控制的研究，提升大电网运行安全预警能力和对不同运行环境的适应能力。

多智能体深度强化学习Qmix是机器学习领域的一个新兴的研究热点和应用方向，涵盖众多算法、规则、框架，以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合，并通过将复杂的强化学习问题分解成若干个子问题并分别解决，可以有效解决空间维数灾难问题。这就使得多个智能体能在更高维且动态的真实场景中通过交互和决策完成更错综复杂的任务。多智能体深度强化学习广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划等现实领域，具有极高的研究价值和意义，成为解决大规模复杂背景下智能决策问题的一种潜在途径。

发明内容

本发明所要解决的技术问题在于，提出一种有功无功协调优化控制方法，以提升现有调度系统在全网范围精益化调控的决策能力。

为了解决上述技术问题，本发明提供一种有功无功协调优化控制方法，包括：

步骤S1，将电力系统节点电压的初值集合，以及发电机的有功功率初值集合输入训练好的多智能体系统；所述多智能体系统采用DRQN网络和Q值混合网络相结合的结构，网络的输入量为发电机的有功功率和节点电压，网络的动作量为发电机的有功功率和节点电压的变化量，回报函数以成本函数、有功损耗和电压偏差最小来设定，通过仿真探索以及反向传递的参数更新，直至网络收敛得到训练好的多智能体；

步骤S2，所述多智能体系统输出对应的有功功率调节量、节点电压调节量，使得混合网络的全局动作值函数最大；

步骤S3，将所述有功功率调整量、节点电压调整量用于有功无功的协调优化控制。

进一步地，所述回报函数具体：

其中，函数f₁为发电机成本函数，函数f₂为电网的有功损耗函数，函数f₃为电压偏差量函数。

进一步地，有功无功协调优化过程中满足潮流的等式约束和各发电机组有功功率、无功功率的上下限不等式约束，节点电压幅值不等式约束以及线路有功潮流不等式约束：

其中，S_G为电网发电机的集合，S_N为电网各节点的集合，S_L为电网各输电线路的集合。

进一步地，智能体的DRQN网络由全连接层、GRU网络层、全连接层组成，Q值混合网络由全连接层、Relu激活函数、全连接层组成，混合网络的参数由单独的超参数网络生成，输入量为全局状态信息，输出为混合网络的权重和偏置。

进一步地，有功优化的智能体包含一个DRQN网络，其输入量是电网各节点的有功功率组成的观测序列，输出量为优化的有功功率控制方案以及相应的局部动作值函数Q。

进一步地，无功电压优化的智能体包含一个DRQN网络，其输入量是各负荷节点的电压和网络的功率损耗，输出量为电网电压控制方案。

进一步地，所述电网电压控制方案包含发电机端电压控制量{V_G}和无功补偿装置的投入量{Q_G}。

进一步地，所有智能体的状态-动作评价值通过前馈混合网络生成全局动作值函数Q_tot，用来对各智能体的动作做出整体的评价。

进一步地，所述多智能体系统的训练过程包括：

将系统发电机的有功功率和节点电压初始值分别作为状态量输入各自的DRQN网络，通过DRQN网络给出各自的动作量并转移到下一个时刻的状态量，将智能体给出的有功功率和电压控制量在虚拟仿真环境中执行，计算回报函数；

把状态量、动作量、下一时刻的状态量、回报函数值作为一条经验存入经验池中；

再将动作量和下一时刻的状态量输入各自的DRQN网络，通过DRQN网络给出下一时刻各自的动作量并得到下下个时刻的状态量；

通过策略探索与仿真环境不断地交互形成经验池，智能体开始学习知识。

进一步地，智能体以回报函数值为导向，通过反向传递来修正网络参数的权重，当智能体输出最优的有功功率调节量、节点电压调节量时，全局动作值函数最大。

本发明实施例的有益效果在于：通过多智能体深度强化学习的新方法，对电网的有功无功进行协调优化控制，提升了现有调度系统在全网范围精益化调控的决策能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种有功无功协调优化控制方法的流程示意图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

请参照图1所示，本发明实施例提供一种有功无功协调优化控制方法，包括：

具体地，本发明实施例通过多智能体深度强化学习Qmix的新方法，对电网的有功无功进行协调优化控制。Qmix采用集中式学习，分布式执行应用的框架。通过集中式的信息学习，得到每个智能体的分布式策略。它采用一个混合网络对单智能体局部值函数进行合并，并在训练学习过程中加入全局状态信息辅助，来提高算法性能。

为了能够沿用先前算法利用集中式学习得到分布式策略的优势，Qmix算法让联合动作值函数Q_tot对每个智能体的局部动作值函数Q_i的导数大于等于0，即：

当通过一些限制满足公式(1)时，将会保证对联合动作值函数Q_tot做最大化等价于对每个局部动作值函数Q_i做最大化，如公式(2)所示：

其中，τ为联合动作-观测历史，表示为τⁱ＝(a_i,0,o_i,1,...,a_i,t-1,o_i,t)；a为联合动作值。

这样做的好处是一方面求解Q_tot时更为方便，只需要对每个Q_i做最大化即可；另一方面从Q_tot中可以提取分布式执行的各个智能体的策略。

Qmix由智能体网络和混合网络组成。其中，每一个智能体都对应一个智能体网络，智能体网络为DRQN网络(Deep Recurrent Q-Learning Network)，输入量是自己的观测序列和上一个动作值，输出量为局部动作值函数Q。采用DRQN网络的原因是传统的DQN网络存在经验数据存储的内存有限并需要完整的观测信息的局限性，而DRQN网络将DQN中的全连接层替换为LSTM网络，使其在观测质量变化的情况下，具有更强的适应性。混合网络是一个前馈神经网络，其输入量为每个DRQN网络的输出量Q_i，输出为Q_tot。为了能够更多地利用到系统的状态信息，混合网络的参数由单独的超参数网络生成，输入量为全局状态信息，输出为混合网络的权重和偏置，其中权重需要满足非负的要求，因此需要设置Relu激活函数得到非线性映射并使负数项置零。

Qmix最终的代价函数如公式(3)所示：

更新用到了传统的DQN的思想，如公式(4)所示：

其中，

表示目标网络，τ'表示下一时刻的联合动作-观测历史，a'表示下一时刻的联合动作，s'表示下一时刻的状态量，

表示DRQN的网络参数。

由于满足上面的单调性约束，对Q_tot进行取最大值操作的计算量就不再是随智能体数量呈指数增长了，而是随智能体数量线性增长，极大地提高了算法效率。

本实施例有功无功协调优化的优化目标是通过对该协调控制效果、指标进行评价，得到最优控制调节量。优化目标一般是为了保证电网运行的安全、优质、经济，因此，选取发电机成本、有功损耗和电压偏差作为评价指标来评价协调优化的控制效果。目标函数如公式(5)所示：

电网的有功无功协调优化过程中需要满足潮流的等式约束(见公式6)和各发电机组有功、无功出力的上下限不等式约束，节点电压幅值不等式约束以及线路有功潮流不等式约束等(见公式7)，以构成完整的综合优化控制层模型：

其中，S_G为电网发电机的集合；S_N为电网各节点的集合；S_L为电网各输电线路的集合。

智能体的DRQN网络由全连接层、GRU网络层、全连接层组成，Q值混合网络由全连接层、Relu激活函数、全连接层组成，混合网络的参数由单独的超参数网络生成，输入量为全局状态信息，输出为混合网络的权重和偏置。

Qmix算法采用系统发电机的有功功率和节点电压作为状态量、系统发电机的有功功率和节点电压的变化量作为动作量进行计算，回报函数以成本函数、有功损耗和电压偏差最小来设定。其回报函数形式见公式5，状态、动作量形式如下：

状态量：[P₁，P₂，...，P_n，V₁，V₂，...，V_n]

动作量：[ΔP₁，ΔP₂，...，ΔP_n，ΔV₁，ΔV₂，...，ΔV_n]。

步骤S1首先给定电力系统节点控制电压的初值集合{V⁽⁰⁾}，以及发电机的有功功率初值集合

给定DRQN网络和混合网络的结构(由全连接层和GRU网络层构成，激活函数选择为Relu)，随机初始化神经网络的权重参数θ。

电力系统的稳态仿真模型作为智能体探索的环境模型，提供智能体探索的收益信息。对于有功优化的智能体，其包含一个DRQN网络，其输入量是电网各节点的有功功率组成的观测序列，输出量为优化的有功功率控制方案以及相应的局部动作值函数Q。对于任务为无功电压优化的智能体，也构建相应的DRQN神经网络，输入量各负荷节点的电压和网络的功率损耗，输出量为电网电压控制方案(包含发电机端电压控制量{V_G}和无功补偿装置的投入量{Q_C})所有智能体的状态-动作评价值通过前馈混合网络生成全局动作值函数Q_tot，用来对各智能体的动作做出整体的评价。

将系统发电机的有功功率和节点电压初始值分别作为状态量输入各自的DRQN网络，通过DRQN网络给出各自的动作量并转移到下一个时刻的状态量，将智能体给出的有功功率和电压控制量在虚拟仿真环境中执行，计算公式(5)描述的回报指标。随后，把状态量、动作量、下一时刻的状态量、回报函数值作为一条经验存入经验池中。然后再将动作量和下一时刻的状态量输入各自的DRQN网络，通过DRQN网络给出下一时刻各自的动作量并得到下下个时刻的状态量。如此反复，通过策略探索与仿真环境不断地交互形成经验池。当经验足够多时，智能体开始学习知识。智能体以回报函数值为导向，通过反向传递来修正网络参数的权重，最终目的是当智能体给出好的控制策略时，Q_tot的值较大，反之较小。

通过智能体不断的协同学习，最终能够习得最优的优化控制策略，即给出一组有功、电压初始值，智能体能够给出最优的有功功率调节量、节点电压调节量，使得混合网络的全局动作值函数Q_tot最大。

有功功率调节量、节点电压调节量将直接用于有功无功的协调优化控制。

通过上述说明可知，本发明实施例的有益效果在于：通过多智能体深度强化学习的新方法，对电网的有功无功进行协调优化控制，提升了现有调度系统在全网范围精益化调控的决策能力。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种有功无功协调优化控制方法，其特征在于，包括：

2.根据权利要求1所述的有功无功协调优化控制方法，其特征在于，所述回报函数具体：

3.根据权利要求1所述的有功无功协调优化控制方法，其特征在于，有功无功协调优化过程中满足潮流的等式约束和各发电机组有功功率、无功功率的上下限不等式约束，节点电压幅值不等式约束以及线路有功潮流不等式约束：

4.根据权利要求1所述的有功无功协调优化控制方法，其特征在于，智能体的DRQN网络由全连接层、GRU网络层、全连接层组成，Q值混合网络由全连接层、Relu激活函数、全连接层组成，混合网络的参数由单独的超参数网络生成，输入量为全局状态信息，输出为混合网络的权重和偏置。

5.根据权利要求4所述的有功无功协调优化控制方法，其特征在于，有功优化的智能体包含一个DRQN网络，其输入量是电网各节点的有功功率组成的观测序列，输出量为优化的有功功率控制方案以及相应的局部动作值函数Q。

6.根据权利要求5所述的有功无功协调优化控制方法，其特征在于，无功电压优化的智能体包含一个DRQN网络，其输入量是各负荷节点的电压和网络的功率损耗，输出量为电网电压控制方案。

7.根据权利要求6所述的有功无功协调优化控制方法，其特征在于，所述电网电压控制方案包含发电机端电压控制量{V_G}和无功补偿装置的投入量{Q_c}。

8.根据权利要求7所述的有功无功协调优化控制方法，其特征在于，所有智能体的状态-动作评价值通过前馈混合网络生成全局动作值函数Q_to_t，用来对各智能体的动作做出整体的评价。

9.根据权利要求4所述的有功无功协调优化控制方法，其特征在于，所述多智能体系统的训练过程包括：

10.根据权利要求9所述的有功无功协调优化控制方法，其特征在于，智能体以回报函数值为导向，通过反向传递来修正网络参数的权重，当智能体输出最优的有功功率调节量、节点电压调节量时，全局动作值函数最大。