CN116706997A

CN116706997A - 一种微网群的协同控制方法、装置、系统及存储介质

Info

Publication number: CN116706997A
Application number: CN202310686335.2A
Authority: CN
Inventors: 熊平; 冀肖彤; 柳丹; 叶畅; 江克证; 夏勇军; 王伟; 邓万婷; 刘巨; 陈孝明; 胡畔; 肖繁; 蔡萱; 曹侃; 谭道军; 何宇航; 罗恒; 李喆; 宿磊
Original assignee: State Grid Hubei Electric Power Co Ltd; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Hubei Electric Power Co Ltd; Electric Power Research Institute of State Grid Hubei Electric Power Co Ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-05

Abstract

本发明提供一种微网群的协同控制方法、装置、系统及存储介质，该方法包括：通过响应接收到的负荷扰动信号，初始化预设的分布式三区域微网群协同自动发电控制模型中的强化学习控制器内的初始参数；强化学习控制器根据所述初始参数和初始系统状态，选择并执行初始目标调节总功率指令，得到新的系统状态；根据所述新的系统状态计算奖励函数值，并更新强化学习控制器对应的值函数和资格迹；根据更新后的值函数和资格迹，输出当前的系统状态对应的目标调节总功率指令。本发明实现了对拓扑结构和运行环境更为复杂的分布式多区域微网群的协同控制，解决了在能源出力不确定、负荷随机波动的情况下控制性能变差的问题。

Description

一种微网群的协同控制方法、装置、系统及存储介质

技术领域

本发明涉及微电网控制领域，具体是一种微网群的协同控制方法、装置、系统及存储介质。

背景技术

能源需求的快速增长与环境问题促使各国积极发展新能源，基于风、光、热、储等的分布式电源蓬勃发展，而大规模分布式电源单机入网会给电网带来巨大冲击与强烈扰动，因此可有效整合多种分布式电源、提高配电网可靠性的微电网随之被广泛运用。但单个微电网存在抗干扰能力差、工作容量有限等缺点，故联结了各子微网、使其能够相互支撑的分布式多区域微网群应运而生。

微网群的拓扑结构和运行环境更为复杂，如何才能有效实现微网群的多区域协同控制这一问题亟待解决。被分为集中式和分布式两大控制类型的自动发电控制(automaticgeneration control, AGC)在电网控制中一直发挥着重要作用。其中集中式AGC总是只优先保证自身区域控制性能达到最优化，各区域间协同控制程度较低，将传统集中式AGC作为分布式多区域微电网协同控制的重要手段已经难以满足其保持良好协同控制性能的需求。因此从分布式AGC的控制策略角度出发，探索一种面向多区域微网群的AGCWDQ(λ)控制策略对有效实现微网群多区域协同控制具有重大意义。

近年来，许多分布式AGC控制策略研究将强化学习(reinforcement learning,RL)、神经网络、深度学习等引入分布式AGC控制器中，提出了一系列分布式AGC控制算法。但基于传统强化学习算法在探索过程中总是存在动作值的“高估现象”，存在决策质量低等缺点。基于双估计量法的双重Q学习算法通过将去耦“动作评估”和“动作选择”相结合，有效降低了动作值高估的概率，然而双重Q学习算法在解决了动作探索值高估问题的同时，又不可避免地产生负偏差，造成对动作值的低估，同样不利于智能体探索到最优策略。

发明内容

本发明的目的在于提供一种微网群的协同控制方法、装置、系统及存储介质，在双Q学习基础上引入权重思想，同时融入资格迹，提出了一种全新的面向多区域微网群的多智能体WDQ(λ)控制策略，即weighted double Q(λ)，简称为WDQ(λ)，可在强随机扰动下维持电网频率稳定，实现对拓扑结构和运行环境更为复杂的分布式多区域微网群的协同控制。

一种微网群的协同控制方法，包括如下步骤：

通过响应接收到的负荷扰动信号，初始化预设的分布式三区域微网群协同自动发电控制模型中的强化学习控制器内的初始参数；

强化学习控制器根据所述初始参数和初始系统状态，选择并执行初始目标调节总功率指令，得到新的系统状态；

根据所述新的系统状态计算奖励函数值，并更新强化学习控制器对应的值函数和资格迹；

根据更新后的值函数和资格迹，输出当前的系统状态对应的目标调节总功率指令。

进一步的，所述分布式三区域微网群协同自动发电控制模型，包括光伏、小水电、风电、柴油发电机储、燃料电池、微型燃气轮机、生物质能多种分布式电源的分布式三区域微网群协同AGC模型，其中，光伏、风电参与系统调频，仅作负荷扰动处理，系统响应接收到来自分布式电源的负荷扰动信号，强化学习控制器根据区域控制误差ACE、频率偏差△f以及控制性能标准CPS实时监测系统及长期历史数据库提供的系统状态量和奖励值，向所述分布式三区域微网群协同AGC模型发出总功率调节指令。

进一步的，所述强化学习控制器根据初始参数和初始系统状态，选择并执行初始目标调节总功率指令，得到新的系统状态，包括：

（1）基于所述初始参数和初始系统状态s0，确定对应的初始目标调节总功率指令，所述初始参数包括WDQ(λ)控制策略中的值函数Q^A、 Q^B以及基于该控制策略的多区域微网群AGC系统参数，学习因子α, 速度因子β, 折扣因子γ, 权重参数c；

（2）通过所述强化学习控制器执行所述初始目标调节总功率指令，得到新的系统状态。

进一步的，所述根据新的系统状态计算奖励函数值，并更新强化学习控制器对应的值函数和资格迹，包括：

（1）基于所述新的系统状态，对区域控制误差ACE和频率偏差Δf的量纲进行归一化处理，并对ACE的瞬时值ACE(i)和频率偏差的瞬时绝对值|Δf(i)|进行线性加权以使微网群输出平稳且CPS长期收益最大；通过所述分布式三区域微网群协同自动发电控制模型确定对应的区域控制误差的瞬时值ACE(i)和系统频率偏差的瞬时值Δf(i)，计算对应的奖励函数值：

式中η取为0.5；

（2）根据新的系统状态s_k，使用协同控制WDQ(λ)随机更新强化学习控制器对应的值函数Q^A或Q^B；

其中，WDQ(λ)控制策略在第k次随机更新Q^A或Q^B，具体为：

其中，s_k表示当前状态，a_k表示动作，α为学习因子，为当前状态和动作下的资格迹，和为时间差误差，第k次更新Q^A或Q^B时对应的时间差误差和具体表示如下：

其中，r为奖励函数，γ为折扣因子，s_k和s_k+1分别表示当前和是下一时刻的状态，和为权重函数，权重函数和分别表示如下：

其中，非负实数c≥0，a*和a_L分别为在下一个状态s_k+1下所对应的奖励函数值最大的动作值和奖励函数值最小的动作值；

（3）更新资格迹，公式具体表示如下：

其中，λ为衰减因子，γ为折扣因子。

一种微网群的协同控制装置，包括：

响应信号模块，用于通过响应接收到的负荷扰动信号，初始化预设的两区域互联模型中的强化学习控制器内的初始参数；

强化学习控制器，用于根据所述初始参数和初始系统状态，选择并执行初始目标调节总功率指令，得到新的系统状态；；

更新参数模块，用于根据新的系统状态计算奖励函数值，并更新强化学习控制器对应的值函数和资格迹；

输出指令模块，根据更新后的值函数和资格迹，输出当前的系统状态对应的目标调节总功率指令。

进一步的，所述强化学习控制器具体用于：

（1）基于所述初始参数和初始系统状态s0，确定对应的初始目标调节总功率指令，所述初始参数包括值函数Q^A、 Q^B以及参数值α, β, γ, c；

进一步的，所述更新参数模块具体用于：

式中η取为0.5；

其中，WDQ(λ)控制策略在第k次随机更新Q^A或Q^B，具体为：

（3）更新资格迹，公式具体表示如下：

其中，λ为衰减因子，γ为折扣因子。

一种微网群的协同控制系统，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上所述的强化学习自动发电控制方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上所述的强化学习自动发电控制方法。

本发明在避免传统强化学习动作探索值被高估与低估的同时获取分布式多区域协同，即避免了传统强化学习动作探索值被高估与低估的问题，其权重思想可在单估计量法的高估和双估计量法的低估之间进行权重平衡，从而使多智能体可以适度乐观地选择和探索动作值，很大程度上优化了收敛性能，提高了收敛速度；同时在能源出力不确定、负荷随机波动的情况下仍能保持稳定优越的控制性能，有效获取微网群的分布式多区域协同。

附图说明

图1是本发明实施例分布式三区域微网群协同AGC模型；

图2是本发明实施例WDQ(λ)控制器的预学习效果；

图3是本发明实施例一种微网群的协同控制方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图3，本发明实施例提出一种微网群的协同控制方法，包括如下步骤：

A：通过响应接收到的负荷扰动信号，初始化预设的分布式三区域微网群协同自动发电控制模型中的强化学习控制器内的初始参数；

所述分布式三区域微网群协同自动发电控制模型，包括光伏、小水电、风电、柴油发电机储、燃料电池、微型燃气轮机、生物质能多种分布式电源的分布式三区域微网群协同AGC模型，其中，光伏、风电参与系统调频，仅作负荷扰动处理，系统响应接收到来自分布式电源的负荷扰动信号，强化学习控制器根据区域控制误差ACE、频率偏差△f以及控制性能标准CPS实时监测系统及长期历史数据库提供的系统状态量和奖励值，向所述分布式三区域微网群协同AGC模型发出总功率调节指令。

B：强化学习控制器根据所述初始参数和初始系统状态，选择并执行初始目标调节总功率指令，得到新的系统状态；具体的，步骤B包括：

C：根据所述新的系统状态计算奖励函数值，并更新强化学习控制器对应的值函数和资格迹；具体的，步骤C包括：

式中η取为0.5；

（2）根据新的系统状态s_k，随机更新强化学习控制器对应的值函数Q^A或Q^B。强化学习理论中的核心内容之一是时间差分学习方法(temporal-difference learning, TD)，其值函数估计法包括单估计量法和双估计量法。单估计量法用一组相同的样本来确定动作选择值和估计值，过度乐观的估计导致了累积正偏差，从而造成对动作值的大量高估。双估计量法则使用两组不同的样本子集来将动作选择与动作评估分离，这在很大程度上解决了动作值高估问题，但当两组样本子集变量有不同的期望值和重叠的分布时，会不可避免地造成对动作值的低估，仍然不利于智能体进行最优决策。对此本发明在双Q框架的基础上引入权重思想，形成的权重双Q(weighted double Q, WDQ)算法可有效解决动作值的高估和低估问题。

WDQ算法在第k次随机更新Q^A或Q^B时有：

收敛速度慢是强化学习算法的主要不足之一，而资格迹可有效解决时间信度分配问题，优化算法的收敛性能，进而提高算法的收敛速度，因此在WDQ基础上融入资格迹，形成WDQ(λ)强化学习算法。

所述的微网群的WDQ(λ)控制策略在第k次随机更新Q^A或Q^B，具体为：

（3）在WDQ基础上融入资格迹，有效解决时间信度分配问题，优化所提协同控制方法的收敛性能，进而提高其收敛速度，资格迹的更新公式具体表示如下：

其中，λ为衰减因子，γ为折扣因子。

基于WDQ(λ)控制策略的多区域微网群AGC系统参数如表1所示。

表1 基于WDQ(λ)控制策略的多区域微网群AGC系统参数

综上，WDQ(λ)控制策略的算法流程图如表2所示。

表2 WDQ(λ)控制策略的算法流程

D：根据更新后的值函数和资格迹，输出当前的系统状态对应的目标调节总功率指令。

仿真分析验证：

步骤1：分布式三区域微网群协同AGC模型搭建

本发明实施例搭建了包含光伏(photovoltaics, PV)、小水电(small hydro-powers, SH)、风电(wind farms, WF)、柴油发电机储(diesel generators, DG)、燃料电池(fuel cells, FC)、微型燃气轮机(micro-gas turbines, MT)、生物质能(biomassenergy, BE)等多种分布式电源的分布式三区域微网群协同AGC模型，以验证WDQ(λ)控制策略的实际工程应用效果，其模型拓扑结构如图1，模型参数如表3，AGC机组参数如表4，其中，区域2和区域3的模型参数与AGC机组参数相同。此外，为简化模型，光伏、风电和电动汽车不参与系统调频，仅作负荷扰动处理。

表3 分布式三区域微网群协同AGC模型参数

表4 AGC机组参数

步骤2：正弦负荷离线预学习

在WDQ(λ)控制器被投入正式在线运行前，引入周期1200 sec,时长10000 sec，幅值1000 MW的正弦负荷扰动来令其进行充分的离线试错预学习以优化状态值函数及Q值函数，从而使系统得到最优化运行。WDQ(λ)控制器的三区域预学习效果如图2所示。由图2(a)可知，三区域WDQ(λ)控制器在探索试错进行到4000 sec左右时其输出功率已能稳定跟踪负荷扰动；图2(b)为三区域频率变化曲线，其最大频率偏差绝对值|Δfmax|分别为0.068 Hz、0.087 Hz和0.093 Hz，远小于实际工程要求的0.2 Hz；图2(c)为三区域10-min CPS1平均值的学习曲线，其值分别为199.3293%、199.3454%和199.3601%，控制性能标准(controlperformance standard, CPS) 的10 min 考核指标均保持在186%以上；图2(d)为三区域10-min ACE平均值的学习曲线，其平均值分别为1.3879 MW、1.8685 MW和2.0024 MW，区域控制误差(area control error, ACE) 的10 min考核指标均保持在3 MW以内；图2(e)为区域间联络线交换功率偏差(Ptie)变化曲线，其值最终都收敛在1 MW以内。综上，WDQ(λ)控制器在经过大量的学习探索后可获取一个确定性最优控制策略，具备较强的动态控制性能，且可有效实现微网群区域间协同控制。

步骤3：随机负荷扰动在线运行

经过预学习并获得了确定性最优控制策略的WDQ(λ)控制器可投入在线运行。为模拟微网群实际运行时新能源的强随机性和负荷的间歇性，引入幅值1000 MW的随机负荷信号，来对WDQ(λ)控制器和另外引入的WDQ、DQ(λ)和DQ(σ, λ)三种控制器进行24 h实时仿真，通过仿真结果的比较来验证WDQ(λ)控制策略的有效性和优越性。

表5为区域1中WDQ(λ)、WDQ、DQ(λ)和DQ(σ, λ)四种控制器的控制性能指标，由表5可知，WDQ(λ)可降低|Δf |约44.9393%-54.8173%，可降低|ACE|约69.3476%-90.9194%，可提高CPS合格率约0.9953%-2.6005%。综上，相较于其他控制方法，WDQ(λ)控制策略在复杂多区域强随机环境下仍能保持强鲁棒性和强适应性，具有最优越的控制性能，能够实现对多区域微网群的稳定协同控制。

表5 随机负荷扰动下区域1四种控制器的控制性能指标

本发明具有如下效果和优点：

（1）搭建了包含多种分布式电源的分布式三区域微网群协同AGC模型，并针对该模型从分布式自动发电控制角度出发提出了基于强化学习算法的WDQ(λ)多智能体WDQ(λ)控制策略，实现了对分布式多区域微网群的协同控制。

（2）提出了的WDQ(λ)多智能体WDQ(λ)控制策略，在双Q学习基础上引入权重思想和资格迹，不仅避免了传统强化学习动作探索值被高估与低估的问题，而且很大程度上优化了收敛性能，提高了收敛速度。

（3）引入随机负荷扰动进行实时仿真，结果表明，与其他控制方法相比，本发明所提控制策略在能源出力不确定、负荷随机波动的情况下仍能保持稳定优越的控制性能，从而有效获取微网群的分布式多区域协同。

本发明另一方面提供了一种微网群的协同控制装置，包括：

本发明另一方面提供了一种微网群的协同控制系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的微网群的协同控制方法。

本发明另一方面提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面所述的微网群的协同控制方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种微网群的协同控制方法，其特征在于，包括如下步骤：

2.如权利要求1所述的微网群的协同控制方法，其特征在于：所述分布式三区域微网群协同自动发电控制模型，包括光伏、小水电、风电、柴油发电机储、燃料电池、微型燃气轮机、生物质能多种分布式电源的分布式三区域微网群协同AGC模型，其中，光伏、风电参与系统调频，仅作负荷扰动处理，系统响应接收到来自分布式电源的负荷扰动信号，强化学习控制器根据区域控制误差ACE、频率偏差△f以及控制性能标准CPS实时监测系统及长期历史数据库提供的系统状态量和奖励值，向所述分布式三区域微网群协同AGC模型发出总功率调节指令。

3.如权利要求1所述的微网群的协同控制方法，其特征在于，所述强化学习控制器根据初始参数和初始系统状态，选择并执行初始目标调节总功率指令，得到新的系统状态，包括：

4.根据权利要求1所述的微网群的协同控制方法，其特征在于，所述根据新的系统状态计算奖励函数值，并更新强化学习控制器对应的值函数和资格迹，包括：

；

式中η取为0.5；

（2）根据新的系统状态s_k，使用WDQ(λ)控制策略随机更新强化学习控制器对应的值函数Q^A或Q^B；

其中，WDQ(λ)控制策略在第k次随机更新Q^A或Q^B，具体为：

；

其中，r为奖励函数，γ为折扣因子，s_k和s_k+1分别表示当前和是下一时刻的状态，和为权重函数，权重函数/>和/>分别表示如下：

；

（3）更新资格迹，公式具体表示如下：

；

其中，λ为衰减因子，γ为折扣因子。

5.一种微网群的协同控制装置，其特征在于，包括：

6.如权利要求5所述的微网群的协同控制装置，其特征在于，所述分布式三区域微网群协同自动发电控制模型，包括光伏、小水电、风电、柴油发电机储、燃料电池、微型燃气轮机、生物质能多种分布式电源的分布式三区域微网群协同AGC模型，其中，光伏、风电参与系统调频，仅作负荷扰动处理，系统响应接收到来自分布式电源的负荷扰动信号，强化学习控制器根据区域控制误差ACE、频率偏差△f以及控制性能标准CPS实时监测系统及长期历史数据库提供的系统状态量和奖励值，向所述分布式三区域微网群协同AGC模型发出总功率调节指令。

7.如权利要求5所述的微网群的协同控制装置，其特征在于，所述强化学习控制器具体用于：

8.如权利要求5所述的微网群的协同控制装置，其特征在于，所述更新参数模块具体用于：

；

式中η取为0.5；

其中，WDQ(λ)控制策略在第k次随机更新Q^A或Q^B，具体为：

；

（3）更新资格迹，公式具体表示如下：

；

其中，λ为衰减因子，γ为折扣因子。

9.一种微网群的协同控制系统，其特征在于，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-4中任一项所述的强化学习自动发电控制方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1-4中任一项所述的强化学习自动发电控制方法。