CN112688345B

CN112688345B - 考虑多维度频率控制性能标准的智能频率控制方法

Info

Publication number: CN112688345B
Application number: CN202011383203.5A
Authority: CN
Inventors: 谢琼瑶; 何奇; 项川; 金潇; 杨荆宜
Original assignee: Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Current assignee: Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-06-03
Anticipated expiration: 2040-12-01
Also published as: CN112688345A

Abstract

考虑多维度频率控制性能标准的智能频率控制方法，在CPS频率控制策略基础上，引入CPS控制与BAAL控制实现协同控制。构建多维度频率控制性能标准协同评价的智能频率控制策略，包括针对多维度频率控制性能标准在时间尺度上的冲突，构建协同奖励函数；基于构建的协同奖励函数，更新多目标强化学习的Q值。用TOPQ学习策略，计算MORL算法的最大Q值，以对动作空间进行智能决策。对优化控制后的系统稳定性改善效果进行综合评估。本发明该控制方法能够有效应对风电等新能源并网时带来的短时功率扰动问题，能有效解决多维度频率控制性能指标在时间尺度上的矛盾，提高了系统稳定性。

Description

考虑多维度频率控制性能标准的智能频率控制方法

技术领域

本发明属于电网频率协同控制技术领域，具体涉及一种考虑多维度频率控制性能标准的智能频率控制方法。

背景技术

在二次调频工程实际中，计及区域控制偏差比例分量、积分分量、以及CPS控制分量联合影响的阀值分区AGC控制方法被我国广泛采用。近年来随着大规模新能源并网以各类调频手段的引入，互联电网频率协同控制变得日益复杂。

智能频率控制方法因其不依赖于模型的特征特性，在国内得到了大量关注并做了大量研究。传统的模糊控制、启发式遗传控制策略、粒子群优化控制方法相继被应用于智能AGC控制中。随着深度学习和强化学习的深入研究，基于深度神经网络模型并采用反向传播方法训练的区域控制偏差(Area Control Error，ACE)最优智能AGC控制策略得到应用。为解决基于深度学习泛化能力较差，极易陷入局部最小值的问题，基于强化学习的互联电网AGC控制策略被提出，有效提高了智能频率控制器的收敛速度。

尽管以上智能AGC控制方法已有较为充分的研究，但上述智能控制方法均构建在CPS频率控制性能评价标准基础上，CPS指标对短时区域间功率支援的评估灵敏度低，无法兼顾频率控制性能的短期收益。在含大规模风电并网的系统中，各区域遵守CPS指标的能力受到限制，仅考虑CPS控制准则的智能AGC控制策略，极易造成频率短期集中越线，严重影响智能AGC控制策略的控制效果。

发明内容

为解决上述技术问题，本发明提供一种考虑多维度频率控制性能标准的智能频率控制方法，该方法基于多目标强化学习思想(Multi Objective Reinforcement Learning,MORL)，充分考虑多维度频率控制性能标准在时间尺度上的冲突问题，在多目标强化学习算法的奖励函数中引入协调因子从而构成协同奖励函数；同时采用TOPQ学习策略替代传统贪婪学习策略，以提高智能体的寻优精度。该控制方法能够有效应对风电等新能源并网时带来的短时功率扰动问题，能有效解决多维度频率控制性能指标在时间尺度上的矛盾，提高了系统稳定性。

本发明采取的技术方案为：考虑多维度频率控制性能标准的智能频率控制方法，包括以下步骤：

步骤S1：在CPS频率控制策略基础上，引入CPS控制与BAAL控制实现协同控制；

CPS控制由下式表示：

其中：T为整个时间周期，△F为频率偏差，△P_tie为联络线功率偏差，

为本区域自身的频率偏差贡献度，

为其他区域对本区域的频率贡献度，

为综合频率偏差贡献度；定义

为综合频率偏差因子，用ψ表示。

BAAL控制由下式表示：

其中：T'为任意开始越线时间节点；T”为持续越线时间；T_v为规定的允许连续越限时长。

步骤S2：构建多维度频率控制性能标准协同评价的智能频率控制策略，包括以下步骤：步骤S2.1：针对多维度频率控制性能标准在时间尺度上的冲突，构建协同奖励函数：

构建了考虑协调CPS1指标与BAAL指标的协同奖励函数：

其中：i为Ri(s,s',a)为第i个目标的奖励函数，值越大表示频率控制性能越好，值越小表示频率质量较差；CPS1^*为目标值；λ_i为第i个目标的协调因子。

步骤S2.2：基于构建的协同奖励函数，更新多目标强化学习的Q值，更新表达式如下：

其中：s和s'分别为当前状态ACE(t)和下一时刻状态ACE(t+1)，具体值见附录表2；Ri(s,s',a)R(s,s′,a)为环境由状态ACE(t)经过动作a转移到状态ACE(t+1)所获得的即时奖励值，α(0<α<1)为学习率，较大的学习率会加快收敛速度；γ为折扣系数，Q_i(s,a)Q(s,a)表示第i个目标状态ACE(t)ΔP_Σ(t)下选择动作△P(t){α_t1,α_t2,...,α_ti}的Q值，Q表的大小为S*A S×A，Q表的初始值一般设为0。

步骤S2.3：用TOPQ学习策略，计算MORL算法的最大Q值，以对动作空间进行智能决策，具体包括：

首先，通过对各目标当前状态下的Q值进行探索，获得各目标的局部最优解W_i(s)：

然后，在局部W_i(s)集合中进一步探索以寻求最大的目标Q值，并将其定义为W_max(s)：

最后，智能体通过学习到的W_max(s)对动作空间做出智能决策：

步骤S3，对优化控制后的系统稳定性改善效果进行综合评估，综合评估包括：优化后的频率偏差绝对值平均值、优化后的CPS1平均值、BAAL达标率。

本发明一种考虑多维度频率控制性能标准的智能频率控制方法，技术效果如下：

(1)：本发明的提出对CPS指标与BAAL指标协同评价问题中存在的技术难点，提供了一种解决方法，该方法解决了仅考虑CPS控制准则极易造成频率短期集中越线问题，为智能频率控制方法改善系统在全时间尺度上的频率控制性能提供了新思路。

(2)：多目标强化学习贪婪策略存在的易陷入局部最优解问题，按照本发明方法融入TOPQ策略能够得到有效解决，提高了传统多目标强化学习的决策质量以更加逼近全局最优解。(3)：本发明方法能够解决Q函数线性加权法下的智能体不能充分探索动作集合问题，有效改善了系统频率质量以及各项频率性能指标。

(4)：本发明能够有效应对风电等新能源并网时带来的短时功率扰动问题，能有效解决多维度频率控制性能指标在时间尺度上的矛盾，提高了系统稳定性。

附图说明

图1为BAAL和CPS1的随时间变化考核曲线示意图。

图2(a)为CPS1指标综合频率偏差因子与BAAL指标综合频率偏差因子分布曲线图；

l₁为CPS1指标综合频率偏差因子分布曲线；

l₂为CPS1指标综合频率偏差因子分布曲线；

图2(b)为CPS1与BAAL指标协调配合下的综合频率偏差因子分布曲线。

l₃为CPS1与BAAL指标协调配合下的综合频率偏差因子分布曲线。

图3(a)为BAAL与CPS指标联合控制策略示意图。

图3(b)为图3(a)中控制器功能模块框图。

图4为TOPQ-MORL算法框架示意图。

图5(a)为不同控制算法下频率偏差自身贡献度变化曲线图。

图5(b)为图5(a)的局部放大视图。

图6为不同控制算法下CPS指标变化曲线图。

图7为不同学习策略下CPS1变化曲线图。

具体实施方式

考虑多维度频率控制性能标准的智能频率控制方法，包括以下步骤：

步骤S1：针对传统CPS频率控制策略短期时间尺度下的频率安全问题，引入短期频率控制性能标准BAAL与CPS联合控制性能分析。

联合控制包括：CPS控制、BAAL控制、多维度频率控制性能标准协同控制；

①、CPS控制仅以实际频率高于计划频率为例，由下式表示：

为本区域自身的频率偏差贡献度，

为其他区域对本区域的频率贡献度，B_i为区域i的频率偏差系数，代表分配给区域i的频率调节责任，ε为区域i i的频率偏移目标控制上限，

为综合频率偏差贡献度，为分析方便，定义

为综合频率偏差因子，用ψ表示。

②、BAAL控制仅以实际频率高于计划频率为例，由下式表示：

其中：T'为任意开始越线时间节点；T”为持续越线时间；T_v为规定的允许连续越限时长。BALL表征的是1min平均频率偏差的绝对值超出预设范围的持续时间不超过规定的时间长度。

③、多维度频率控制性能标准协同控制：

由于BAAL指标对ACE的约束是随着允许连续越线时间变化而动态变化的，考虑时间尺度影响下的两种指标考核曲线如图1所示。CPS1指标要求互联电网1年内1min平均频率偏差的均方根在限定范围内，由图1可知，它通过松弛频率偏差在时间尺度上的连续分布以加强对ACE幅值的限制能力。而BAAL指标则是通过牺牲对ACE幅值的限制能力，来保证频率偏差在连续越线时间上的短时约束能力。可见BAAL的作用是在CPS1标准保证系统长期频率质量的基础之上防止短期频率质量恶化。

为进一步分析两种指标的联合控制性能，假设单一指标下均满足指标要求，只考虑另一时间尺度下的指标对自身综合频率偏差因子的影响。两种指标协调配合下的综合频率偏差因子分布情况如图2(a)、图2(b)所示。可知，CPS1和BAAL指标在不同时间维度上各司其职，但是在评价效果上又互相牵制，需要一种协调策略来权衡二者的权重。

步骤S2：构建多维度频率控制性能标准协同评价的智能频率控制策略，包括以下步骤：

步骤2.1：针对多维度频率控制性能标准在时间尺度上的冲突，构建协同奖励函数。由于MORL算法以综合折扣报酬最大为目标进行动作选择，因此奖励函数直接影响状态-动作价值函数向量的更新。本发明以系统每时段多维控制性能标准响应重要性为标准，构建了考虑协调CPS1指标与BAAL指标的协同奖励函数：

其中：R_i(s,s',a)为第i个目标的奖励函数，值越大表示频率控制性能越好，值越小表示频率质量较差；s和s'分别为当前状态ACE(t)和下一时刻状态ACE(t+1)；具体值见表1；

CPS1^*为控制标准所要求的目标值或设定值，一般取200％；

λ_i为第i个目标的协调因子，代表当前情况下协调两种目标的最优选择，受协调因子影响下选出的动作，是系统兼顾两种目标重要程度不同而选出的适应当前环境下的最优动作。

表1功率生成Q控制器的状态划分表

步骤2.2：多目标强化学习算法Q值更新表达式如下：

R_i(s,s',a)为环境由状态ACE(t)经过动作a转移到状态ACE(t+1)所获得的即时奖励值，一般视控制目标而定；具体见式(10)。

α(0<α<1)为学习率，较大的学习率会加快收敛速度，但是失去了较好的搜索空间，为提高Q学习收敛的稳定性，本发明取0.01；

γ为折扣系数，本发明取0.9；

Qi(s,a)表示第i个目标状态ACE(t)下选择动作△P(t)的Q值，Q表的大小为S*A，Q表的初始值一般设为0。

表示多目标强化学习算法的最大Q值。

步骤2.3：TOPQ学习策略是一种最大目标Q值筛选策略，用TOPQ学习策略计算MORL算法的最大Q值，以对动作空间进行智能决策，具体包括：

代表MORL算法的最大Q值，i代表目标的编号,即CPS1和BALL，N代表目标的个数，N＝2。

表示局部W_i(s)集合中MORL算法的最大目标Q值

a^*表示最优动作，即最优调节量△P,

表示在该策略下做出的最优选择。

本发明智能频率控制方法，将探索环境采集的ACE数据作为多目标强化学习智能体的输入，智能体通过感知当前各目标协同奖励函数来同时更新各目标的状态-动作价值函数Q_i(s,a)。采用TOPQ策略对各目标Q_i(s,a)同时寻优以寻求满足当前状态下的最优全局动作。

S3、对优化控制后的系统稳定性改善效果进行综合评估，评估内容包括：优化后的频率偏差绝对值平均值、优化后的CPS1平均值、BAAL达标率；

a：优化后的频率偏差绝对值平均值：采用本发明方法系统频率偏差绝对值平均值更小，故系统运行稳定性可以得到有效改善；

b：优化后的CPS1平均值：采用本发明方法CPS1曲线在整个仿真周期内上下波动幅度较小，收敛速度更快，且整个周期内本发明下的CPS1值均高于传统单一CPS控制策略。可知，综合考虑多维度频率性能指标协同配合评价能有效改善系统CPS1控制性能指标。

c：优化后的BAAL达标率：采用本发明方法BAAL达标率更高，故系统短时间尺度频率质量可以得到有效改善。

为了证明本发明所提方法的有效性及优越性，设置了三组实施方案进行对比分析：

方案一：

本实施方案以典型两区域互联电网AGC负荷频率控制模型为基础，在A区域施加周期为1200s、幅值为100MW的随机扰动，指令执行间隔为5s，ε取0.01，系统基准容量为1000MW，算法输出动作离散集A＝{-500，-300，-100，-50，-10，0，10，50，100，300，500}，共设置11个离散动作。本案例主要比较了传统基于CPS1频率控制性能评价指标的单目标强化学习智能频率控制算法(CPS1-MORL)和基于多维频率控制性能评价指标协同奖励函数的改进TOPQ策略多目标强化学习智能频率控制算法(TOPQ-MORL)的频率贡献度情况以及CPS1实时变化情况。

针对单一CPS评价标准和多维度评价标准协同评价，分别绘制频率偏差以及CPS1变化曲线。由图5(a)、图5(b)和图6可知，本发明方法在整个仿真周期下对频率的约束能力更加严格，同时综合考虑多维度频率性能指标协同配合评价能有效改善系统CPS1控制性能指标。这主要是因为：其一是本发明方法通过实时松弛两种指标的权重大小对频率进行控制，在仿真周期内若出现频率连续越线的情况，将给长期频率控制性能指标CPS1赋予较大权重。若仿真周期内出现频率上下波动幅度较大或是出现“频率坠落”现象，将给短期频率控制性能指标BAAL赋予更大权重，致使系统频率在整个时间尺度下均在控制范围以内。其二是由于本发明方法同时考虑两种指标协同参与评价AGC控制，有效解决了风电并网带来的短时频率集中越线问题。

方案二：

本实施方案以典型两区域互联电网AGC负荷频率控制模型为基础，在A区域施加周期为1200s、幅值为100MW的随机扰动，指令执行间隔为5s，ε取0.01，系统基准容量为1000MW，算法输出动作离散集A＝{-500，-300，-100，-50，-10，0，10，50，100，300，500}，共设置11个离散动作。本案例主要比较了基于多维频率控制性能评价指标协同奖励函数的传统贪婪策略多目标强化学习智能频率控制算法(Greedy-MORL)和基于多维频率控制性能评价指标协同奖励函数的改进TOPQ策略多目标强化学习智能频率控制算法(TOPQ-MORL)的CPS1实时变化情况。

由图7可看出，采用TOPQ学习策略能有效提高多目标强化学习算法的频率控制性能。同时，采用TOPQ学习策略能够有效提高多目标强化学习算法的寻优速度。这是因为TOPQ策略从全局考虑对动作进行选择，有效改善了传统贪婪策略容易陷入局部最优解问题。

方案三：

本实施方案以典型两区域互联电网AGC负荷频率控制模型为基础，在A区域施加周期为1200s、幅值为100MW的随机扰动，指令执行间隔为5s，ε取0.01，系统基准容量为1000MW，算法输出动作离散集A＝{-500，-300，-100，-50，-10，0，10，50，100，300，500}，共设置11个离散动作，各项性能指标值为20min的平均值。本案例主要比较了基于多维频率控制性能评价指标协同多目标Q函数的传统贪婪策略多目标强化学习智能频率控制算法(CoordinateQ-MORL)与基于多维频率控制性能评价指标协同奖励函数的传统贪婪策略多目标强化学习智能频率控制算法(Greedy-MORL)的控制性能指标值。

表2是方案三中的协同奖励函数与Q函数线性加权控制性能对比表

由表2可看出，Greedy-MORL的各项控制性能指标相较CoordinateQ-MORL而言效果更优。这是因为在多目标状态-动作价值函数之间引入协调因子可能会导致智能体不能充分探索动作集合，一些动作在整个探索周期内都不会被选中，可能导致遗漏关键动作。

Claims

1.考虑多维度频率控制性能标准的智能频率控制方法，其特征在于包括以下步骤：

步骤S1：在CPS1频率控制策略基础上，引入CPS1控制与BAAL控制实现协同控制；

CPS1控制由下式表示：

为本区域自身的频率偏差贡献度，

其他区域对本区域的频率贡献度，

为综合频率偏差贡献度；ε为区域i的频率偏移目标控制上限；定义

为综合频率偏差因子，用ψ表示；

BAAL控制由下式表示：

其中：T'为任意开始越限时间节点；T”为持续越限时间；T_v为规定的允许连续越限时长；

步骤S2.1：针对多维度频率控制性能标准在时间尺度上的冲突，构建协同奖励函数：

构建了考虑协调CPS1指标与BAAL指标的协同奖励函数：

R₁(s,s',a)＝-λ₁(ACE-BAAL)²

R₂(s,s',a)＝-λ₂(CPS1^*-CPS1)²；

其中：R_i(s,s',a)为第i个目标的奖励函数，值越大表示频率控制性能越好，值越小表示频率质量较差；CPS1^*为目标值；λ_i为第i个目标的协调因子；ACE表示区域控制偏差；

其中：s和s'分别为当前状态ACE(t)和下一时刻状态ACE(t+1)，R_i(s,s',a)为环境由状态ACE(t)经过动作a转移到状态ACE(t+1)所获得的即时奖励值，α为学习率,0<α<1，较大的学习率会加快收敛速度；γ为折扣系数，Q_i(s,a)表示第i个目标状态ACE(t)为ΔP_∑(t)下选择动作△P(t){α_t1,α_t2,...,α_ti}的Q值，Q值的大小为S*A，Q值的初始值设为0；

2.根据权利要求1所述考虑多维度频率控制性能标准的智能频率控制方法，其特征在于：还包括步骤S3，对优化控制后的系统稳定性改善效果进行综合评估，综合评估包括：优化后的频率偏差绝对值平均值、优化后的CPS1平均值、BAAL达标率。