CN115809597A - 强化学习紧急直流功率支援的频率稳定系统及方法 - Google Patents
强化学习紧急直流功率支援的频率稳定系统及方法 Download PDFInfo
- Publication number
- CN115809597A CN115809597A CN202211514021.6A CN202211514021A CN115809597A CN 115809597 A CN115809597 A CN 115809597A CN 202211514021 A CN202211514021 A CN 202211514021A CN 115809597 A CN115809597 A CN 115809597A
- Authority
- CN
- China
- Prior art keywords
- direct current
- reinforcement learning
- emergency
- power support
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000006641 stabilisation Effects 0.000 title claims abstract description 19
- 238000011105 stabilization Methods 0.000 title claims abstract description 19
- 238000005457 optimization Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims description 69
- 230000003993 interaction Effects 0.000 claims description 42
- 230000008859 change Effects 0.000 claims description 25
- 230000000694 effects Effects 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 18
- 238000011084 recovery Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims description 2
- 230000009471 action Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E60/00—Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
- Y02E60/60—Arrangements for transfer of electric power between AC networks or generators via a high voltage DC link [HVCD]
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开的强化学习紧急直流功率支援的频率稳定系统及方法,属于电力系统频率控制技术领域,本发明将邻近优化策略算法的强化学习模型作为决策主体,实际电力系统作为环境,通过提取电力系统节点模型的多个历史时刻的特征电气量作为强化学习中的状态值以构建观测数据;构建基于近端策略优化算法的强化学习网络;对电气量进行分析和分类,部分电气量作为强化学习网络的输入,部分电气量用于更新强化学习网络参数,紧急直流功率支援措施作为强化学习网络的输出,通过强化学习进行优化训练生成策略模型;通过对策略模型的提取,直流系统能够在电力系统发生扰动时快速、准确的给出相应的紧急直流功率支援措施使得系统频率恢复到安全范围。
Description
技术领域
本发明涉及电力系统频率控制技术领域,更具体地,涉及一种强化学习紧急直流功率支援的频率稳定系统及方法。
背景技术
目前,伴随“双碳”战略的推进,大力发展新能源发电成为加快降低碳排放,引导绿色技术创新,持续推进产业结构和能源结构调整的不可或缺的重要因素。但具有波动性和随机性的新能源取代众多同步发电机组,导致电力系统中系统惯量下降,同时伴随着大型交直流混联电网的形成,进而使功率扰动引发的频率波动问题更大,系统抗扰动能力下降,非常容易引发脱网问题,且易引发连锁故障,电网的频率稳定控制显得尤为重要。
传统的低频减载速度较慢,切负荷控制经济性低,因此紧急直流功率支援作为一种能够兼顾动作速度和经济性的控制手段在当今复杂电网的频率稳定控制中具有明显优势。
目前紧急直流功率支援策略多是通过系统的物理模型和特性制定数据模型,受限于考虑因素的全面性,当系统工况复杂多变时制定策略准确性低,存在策略制定的计算量巨大、过程繁琐、工况难覆盖的问题。
发明内容
针对上述问题本发明提出了一种强化学习紧急直流功率支援的频率稳定系统及方法,提高了电力系统发生扰动时控制策略的准确性,减少了电力系统的控制策略求解的计算量,提高了复杂电力系统下的频率安全稳定性。
本发明所提出的强化学习紧急直流功率支援的频率稳定系统,包括:
初始化模块,用于配置基于邻近优化策略算法的强化学习网络的网路参数、设置交互间每次循环的最大交互次数和所要训练的循环数,读取预设的紧急直流功率支援指令集合及电力系统的特征电气量集合;
交互模块,用于执行以下操作:在电力系统运行一个交互间隔步长后读取一次特征电气量数据,若强化学习网络有紧急直流功率支援的指令输出,则将指令传递给电力系统;
数据处理模块,用于将交互模块所读取的特征电气量分为以下三类:决策措施电气量、控制效果电气量和安全约束电气量;
评判模块,用于根据直流系统两端的交流母线频率值,利用奖励函数得到奖励值;
决策模块,用于将所述决策措施电气量作为强化学习网络的输入数据传入至强化学习网络,将紧急直流功率支援指令作为强化学习网络的输出,使得直流系统能够在电力系统发生扰动时给出相应的紧急直流功率支援措施使得系统频率恢复到安全范围;
学习模块,用于根据控制效果电气量判断频率恢复效果及根据安全约束电气量判断是否触发电力系统安全约束,并在此基础上结合评判模块得到的奖励值更新强化学习网络的网路参数。
所述基于邻近优化策略算法的强化学习网络包含两个神经网络,分别为策略神经网络和价值神经网络,其中策略神经网络的输入为实时的直流系统两端的交流母线频率值及其变化率,输出为紧急直流功率支援指令;价值神经网络的输入为实时的直流系统两端的交流母线频率值及其变化率和所述紧急直流功率支援指令,输出为用于更新策略神经网络和价值神经网络的神经网络权重;所述特征电气量包括最近的一个或多个交互间隔内若干时间点的直流系统两端的交流母线频率值及其变化率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率;所述基于邻近优化策略算法的强化学习网络的网络参数包括学习率、批大小、梯度裁剪大小和折扣因子大小;所述紧急直流功率支援指令集合由电力系统中参与紧急直流功率支援的设备和允许的紧急直流功率支援范围构建而成;所述紧急直流功率支援的设备即所控制的电力系统中能够进行紧急直流功率支援的直流系统;所述允许的紧急直流功率支援范围即整个电力系统或单个直流系统所允许输出功率的最低值和最高值,允许的紧急直流功率支援范围为直流联网线路额定传输功率的20%至50%。
所述交互间隔为强化学习网络每隔多久与电力系统进行一次交互的时间,设定每个交互间隔为1秒。
所述决策措施电气量包括直流系统两端的交流母线频率值及其变化率,决策措施电气量用于作为强化学习网络的输入值;所述控制效果电气量包括直流系统两端的交流母线频率值,通过频率的恢复程度判断上一个交互间隔内强化学习网络给出的紧急直流功率支援指令控制效果;安全约束电气量包括直流系统两端的交流母线频率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率。
所述决策模块中强化学习网络的输入为决策措施电气量,输出为紧急直流功率支援指令,紧急直流功率支援指令包括所要进行紧急直流功率支援的设备和紧急直流功率支援的支援量。
所述奖励函数设置如下:
若频率恢复值在49.8Hz~50.5Hz之间,则奖励值为10000;
若频率恢复值小于49.8Hz,则奖励值为当前频率值与理想频率值差值的绝对值的负值;
若频率恢复值大于50.5Hz,则奖励值为-10000;
同时若观测到直流系统逆变侧换流母线电压低于安全阈值或线路功率超过安全功率约束,则奖励值会被减去10000。
本发明提出的强化学习紧急直流功率支援的频率稳定方法,包括:
步骤一、提取电力系统节点模型的多个历史时刻的特征电气量作为强化学习中的状态值以构建观测数据,特征电气量包括最近的一个或多个交互间隔内若干时间点的直流系统两端的交流母线频率值及其变化率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率;
步骤二、构建基于邻近优化策略算法的强化学习网络
所述基于邻近优化策略算法的强化学习网络包含两个神经网络,分别为策略神经网络和价值神经网络,其中策略神经网络的输入为实时的直流系统两端的交流母线频率值及其变化率,输出为紧急直流功率支援指令;价值神经网络的输入为实时的直流系统两端的交流母线频率值及其变化率和所述紧急直流功率支援指令,输出为用于更新策略神经网络和价值神经网络的神经网络权重;
步骤三、对提取的特征电气量进行分析和分类;
特征电气量分为决策措施电气量、控制效果电气量和安全约束电气量;所述决策措施电气量包括直流系统两端的交流母线频率值及其变化率,决策措施电气量用于作为强化学习网络的输入值;所述控制效果电气量包括直流系统两端的交流母线频率值,通过频率的恢复程度判断上一个交互间隔内强化学习网络给出的紧急直流功率支援指令控制效果;安全约束电气量包括直流系统两端的交流母线频率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率;
步骤四、利用所构建的基于邻近优化策略算法的强化学习网络对各类特征电气量数据进行优化训练生成策略模型;
步骤五、提取电力系统实时的决策措施电气量,作为策略模型的输入,输出为紧急直流功率支援指令,将输出的指令下发给电力系统执行,使得直流系统能够在线针对不同工况给出相应的紧急直流功率支援措施。
步骤四中,所述的策略模型即为训练完成的基于邻近优化策略算法的强化学习网络中策略神经网络结构和参数,输入层为决策措施电气量,输出为紧急直流功率支援指令。
通过上述设计方案,本发明可以带来如下有益效果:本发明将基于邻近策略优化算法的强化学习模型作为决策主体,实际电力系统作为环境,通过提取电力系统节点模型的多个历史时刻的特征电气量作为强化学习中的状态值以构建观测数据;构建基于邻近策略优化算法的强化学习网络;对电气量进行分析和分类,一部分电气量作为强化学习网络的输入,另一部分电气量用于更新强化学习网络参数,紧急直流功率支援措施作为强化学习网络的输出,通过强化学习进行优化训练生成策略模型;通过对策略模型的提取,直流系统能够在电力系统发生扰动时快速、准确的给出相应的紧急直流功率支援措施使得系统频率恢复到安全范围。本发明提高了当今新型电力系统处于复杂工况时紧急直流功率支援策略的准确性,减少了新型电力系统的控制策略求解的计算量,提高了复杂电力系统下的频率安全稳定性。
附图说明
图1是本发明所提出的强化学习紧急直流功率支援的频率稳定方法的流程图;
图2是实例演示所用的39节点系统算例;
图3是实例展示所得的平均奖励图;
图4是实例展示的在本发明提出的强化学习紧急直流功率支援的频率稳定方法下电力系统频率恢复曲线。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面结合本发明的实施例中的附图,对本发明中的技术方案进行清楚完整地描述。显然,本发明不受下述实施例的限制,可根据本发明的技术方案与实际情况来确定具体的实施方式。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
本发明所提出的强化学习紧急直流功率支援的频率稳定方法,包括:
1)提取电力系统节点模型的多个历史时刻的特征电气量作为强化学习中的状态值以构建观测数据,特征电气量包括最近的一个或多个交互间隔内若干时间点的直流系统两端的交流母线频率值及其变化率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率;
2)根据电力系统中参与紧急直流功率支援的设备和允许的紧急直流功率支援范围构建强化学习网络输出指令集合;
3)构建基于邻近优化策略算法的强化学习网络,强化学习网络的网络结构包含两个神经网络,分别为策略网络和价值网络;
策略神经网络的输入层输入为实时的直流系统两端的交流母线频率值及其变化率,隐含层为4层且每层64个通道,输出层输出为紧急直流功率支援指令;
价值神经网络的输入层输入为实时的直流系统两端的交流母线频率值及其变化率和紧急直流功率支援指令,隐含层为4层且每层64个通道,输出层输出为用于更新策略神经网络和价值神经网络的神经网络权重;
4)对提取的特征电气量进行分析,直流系统两端的交流母线频率值及其变化率作为基于邻近优化策略算法的强化学习网络输入层的输入数据,基于邻近优化策略算法的强化学习网络用于输出紧急直流功率支援指令;邻近直流系统的线路功率用于避免直流功率支援导致邻近直流系统的线路过载;直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角和超前触发角用于计算避免直流换相失败的最小逆变侧换流母线电压Uaci,其公式如下:
式中:Idc为直流电流;Xt为逆变侧换流变漏抗;Ti为逆变侧换流变变比;γ为逆变侧关断角;β为超前触发角;
5)根据直流系统两端的交流母线频率值计算奖励值,若频率恢复值在49.8Hz~50.5Hz之间,则奖励值为10000;
若频率恢复值小于49.8Hz,则奖励值为当前频率值与理想频率值差值的绝对值的负值;
若频率恢复值大于50.5Hz,则奖励值为-10000;
计算奖励值的公式如下:
式中:faci为直流系统两端的交流母线频率值;f0为理想频率值,一般为50Hz;
同时若观测到直流系统逆变侧换流母线电压低于最小逆变侧换流母线电压或线路功率超过安全功率约束,则奖励值会被减去10000;
6)策略
策略为状态到动作的映射,指的是给定状态时,动作集上的一个分布,也即在每个状态s指定一个动作概率;
7)在最开始电力系统处于某种初始状态s0下,调度中心系统的强化学习网络根据策略分布π对电网下达动作a0,确定下一阶段各直流系统的输出有功功率,将动作指令与环境交互,环境状态发生改变,并反馈给调度中心系统作为下一决策阶段的状态s1,计算奖励r0,循环进行这一过程直至最后一个决策阶段;
将上述过程采用深度强化学习算法求解,得到最优的紧急直流功率支援决策;
8)所用深度强化学习算法为邻近优化策略算法,邻近优化策略算法中包括策略神经网络和价值神经网络;
其中,t代表强化学习和电力系统第t次交互;θ为策略神经网络参数;πθold(at|st)为更新前的策略神经网络参数;T为一次循环的总交互次数;rt(θ)为新旧策略中状态st下动作at被选中的概率比;λ为早期学习值的引导程度,意味着在更多偏差(低λ)和更多方差(高λ)之间进行权衡;Q(st,at)为实际的采样折扣奖励,表示在状态st下,执行动作at的价值;V(st)为拟合的折扣奖励,表示状态st的价值,也可表示在状态st,执行所有动作的平均价值;V(sT)为一次循环的折扣奖励;σ为折扣因子,在强化学习中用来调节近远期影响,范围为[0,1]优为势函数,表示当前动作与平均动作相比的优势;r(t)为t时刻的奖励值;ε为梯度裁剪度,通常取0.2,clip代表使policy更新前后KL散度控制在1-ε到1+ε之间,超出该范围的梯度直接被忽略。
价值神经网络的输入为状态st,输出为神经网络权重用于更新策略神经网络和价值神经网络;
评价网络的损失函数L(θ):
L(θ)=E[(δ)2]=E[(z-V(st))2] (6)
z=rt+σV(st+1) (7)
其中,δ为TD误差,评价网络通过最小化TD误差更新网络参数;z为折扣累计奖励;E代表数学期望;V(st)为拟合的折扣奖励。
9)基于邻近优化策略算法的强化学习紧急直流功率支援流程包括如下步骤:
步骤1:神经网络权重与偏置初始化;学习率、批大小batch、梯度裁剪大小ε、折扣因子大小γ等参数初始化,环境初始化,训练交互步数置0;
步骤2:读取时刻t的观测状态st,包括:最近的一个或多个交互间隔内若干时间点的直流系统两端的交流母线频率值及其变化率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和部分线路功率;
步骤3:将观测数据输入至策略神经网络,策略神经网络输出对应的策略,也即动作分布,对该分布采样得到紧急直流功率支援指令;
步骤4:将紧急直流功率支援指令应用在t至t+1时刻的实时电力系统中,动作与环境交互后环境更新,得到t+1时刻的观测状态st+1,根据公式(1)-(2)计算即时奖励rt;
步骤5:存储st、at、rt;更新状态观测值st=st+1;
步骤6:更新时间t=t+1,循环步骤2至步骤5,直到到达指定交互步数;
步骤7:将观测状态st+1输入至价值神经网络中,价值神经网络输出拟合的折扣奖励V(st);根据步骤5存储的奖励rt,根据公式(5)中的Q(st,at),计算每个时刻对应的累计折扣奖励;
步骤8:存储每次交互的状态st、动作at、折扣奖励Q(st,at),形成一个batch的数据,并以此batch的数据更新策略神经网络和价值神经网络;更新步骤:
①计算优势函数。将batch内的状态st输入至价值神经网络,价值神经网络输出该batch的V(st);根据公式(5)以及batch的Q(st,at),计算batch内每个状态的优势函数;
②更新策略神经网络:根据公式(3),以及批数据状态st、动作at;策略神经网络需最小化损失函数,因此将目标函数取负作为损失函数,反向传递更新策略神经网络的参数;
③更新价值神经网络:根据公式(6),以及批数据状态st、折扣奖励Q(st,at)计算损失函数L(θ),并反向传递更新价值神经网络参数;
步骤9:交互次数加一,再循环步骤2至步骤8,直到到达指定交互次数,停止训练;
步骤10:保存策略与价值神经网络模型,并进行测试,保存测试数据。
10)当电力系统发生扰动时,提取最近的一个或多个交互间隔内若干时间点的直流系统两端的交流母线频率值及其变化率作为紧急直流功率支援策略模型输入,能够输出该状态下最优的紧急直流功率支援指令。
如图1所示,一种强化学习紧急直流功率支援的频率稳定方法的具体实施流程如下:
S1、执行初始化模块,配置基于邻近策略优化算法的强化学习参数;设置交互间每次循环的最大交互次数和所要训练的循环数,读取预设的紧急直流功率支援指令集和需要观测哪些电气量数据的集合;
S2、执行交互模块,在电力系统运行一个交互间隔步长后读取一次电气量数据,若强化学习网络有紧急直流功率支援的指令输出则将指令传递给电力系统;
S3、执行数据处理模块,强化学习将步骤S2所得电气量数据分类为控制效果电气量、决策措施电气量和安全约束电气量;
S4、执行评判模块,通过公式(1)-(2)得到奖励值;
S5、执行决策模块,将直流系统两端的交流母线频率值及其变化率作为强化学习网路的输入,得到紧急直流功率支援指令作为输出;
S6、执行学习模块,强化学习网络根据步骤S4所得奖励值结合公式(3)-(7)更新自身神经网络的参数,使得若所得奖励值高则增加在步骤S2的电力系统工况下步骤S5所给出的紧急直流功率支援指令被选择的概率,反之则减少;
S7、判断是否达到单个循环的最大交互次数,若否,重复S2至S6步骤,反之,则结束当前循环;
S8、判断是否达到所要完成的循环数,若否,则返回步骤S1,反之,则自动保存训练完成的模型并退出运行;
S9、应用阶段则为调用训练完成的强化学习网络重复S1至S5步骤,保证电力系统的频率稳定。
实例演示
为展示发明效果,构建了如图2所示的39节点电力系统,其发明相关设置如下:
1)紧急直流功率支援设备:高压直流输电系统
2)紧急直流功率支援幅度:200MW至500MW;
3)训练故障场景:同步机G04退出运行、同步机G09退出运行、风电场1退出运行、光伏场退出运行;
4)故障发生时间:2秒;
5)每个循环的最大交互次数:20;
6)交互间隔:1秒;
7)观测的电气量:母线39的频率值及其变化率、母线39的电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角,线路1-2的有功功率;
8)训练循环数:200000;
9)强化学习参数:学习率为0.000636、批大小为256、梯度裁剪大小为0.2、折扣因子大小为0.9。
奖励函数设置如下所示:
式中:faci为母线39的频率值;f0为理想频率值,为50Hz。
同时若观测到母线39的电压低于最小逆变侧换流母线电压,或线路功率超过350MW,则奖励值会被减去10000。
图3为强化学习训练时每个循环的平均奖励值,排除每个训练集前几步动作后的频率恢复时间,理想情况下每个训练集的平均奖励值应该低于200000,实际平均奖励值在170000左右,是符合预期的。
经过利用强化学习在电力系统发生扰动时进行紧急直流功率支援决策,如图4所示,证明了本发明提出的强化学习紧急直流功率支援的频率稳定方法对于电力系统频率稳定恢复的有效性。
Claims (8)
1.一种强化学习紧急直流功率支援的频率稳定系统,其特征在于,包括:
初始化模块,用于配置基于邻近优化策略算法的强化学习网络的网路参数、设置交互间每次循环的最大交互次数和所要训练的循环数,读取预设的紧急直流功率支援指令集合及电力系统的特征电气量集合;
交互模块,用于执行以下操作:在电力系统运行一个交互间隔步长后读取一次特征电气量数据,若强化学习网络有紧急直流功率支援的指令输出,则将指令传递给电力系统;
数据处理模块,用于将交互模块所读取的特征电气量分为以下三类:决策措施电气量、控制效果电气量和安全约束电气量;
评判模块,用于根据直流系统两端的交流母线频率值,利用奖励函数得到奖励值;
决策模块,用于将所述决策措施电气量作为强化学习网络的输入数据传入至强化学习网络,将紧急直流功率支援指令作为强化学习网络的输出,使得直流系统能够在电力系统发生扰动时给出相应的紧急直流功率支援措施使得系统频率恢复到安全范围;
学习模块,用于根据控制效果电气量判断频率恢复效果及根据安全约束电气量判断是否触发电力系统安全约束,并在此基础上结合评判模块得到的奖励值更新强化学习网络的网路参数。
2.根据权利要求1所述的强化学习紧急直流功率支援的频率稳定系统,其特征在于:所述基于邻近优化策略算法的强化学习网络包含两个神经网络,分别为策略神经网络和价值神经网络,其中策略神经网络的输入为实时的直流系统两端的交流母线频率值及其变化率,输出为紧急直流功率支援指令;价值神经网络的输入为实时的直流系统两端的交流母线频率值及其变化率和所述紧急直流功率支援指令,输出为用于更新策略神经网络和价值神经网络的神经网络权重;所述特征电气量包括最近的一个或多个交互间隔内若干时间点的直流系统两端的交流母线频率值及其变化率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率;所述基于邻近优化策略算法的强化学习网络的网络参数包括学习率、批大小、梯度裁剪大小和折扣因子大小;所述紧急直流功率支援指令集合由电力系统中参与紧急直流功率支援的设备和允许的紧急直流功率支援范围构建而成;所述紧急直流功率支援的设备即所控制的电力系统中能够进行紧急直流功率支援的直流系统;所述允许的紧急直流功率支援范围即整个电力系统或单个直流系统所允许输出功率的最低值和最高值,允许的紧急直流功率支援范围为直流联网线路额定传输功率的20%至50%。
3.根据权利要求2所述的强化学习紧急直流功率支援的频率稳定系统,其特征在于:所述交互间隔为强化学习网络每隔多久与电力系统进行一次交互的时间,设定每个交互间隔为1秒。
4.根据权利要求3所述的强化学习紧急直流功率支援的频率稳定系统,其特征在于:所述决策措施电气量包括直流系统两端的交流母线频率值及其变化率,决策措施电气量用于作为强化学习网络的输入值;所述控制效果电气量包括直流系统两端的交流母线频率值,通过频率的恢复程度判断上一个交互间隔内强化学习网络给出的紧急直流功率支援指令控制效果;安全约束电气量包括直流系统两端的交流母线频率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率。
5.根据权利要求1所述的强化学习紧急直流功率支援的频率稳定系统,其特征在于:所述决策模块中强化学习网络的输入为决策措施电气量,输出为紧急直流功率支援指令,紧急直流功率支援指令包括所要进行紧急直流功率支援的设备和紧急直流功率支援的支援量。
6.根据权利要求1所述的强化学习紧急直流功率支援的频率稳定系统,其特征在于:所述奖励函数设置如下:
若频率恢复值在49.8Hz~50.5Hz之间,则奖励值为10000;
若频率恢复值小于49.8Hz,则奖励值为当前频率值与理想频率值差值的绝对值的负值;
若频率恢复值大于50.5Hz,则奖励值为-10000;
同时若观测到直流系统逆变侧换流母线电压低于安全阈值或线路功率超过安全功率约束,则奖励值会被减去10000。
7.一种强化学习紧急直流功率支援的频率稳定方法,其特征在于,包括:
步骤一、提取电力系统节点模型的多个历史时刻的特征电气量作为强化学习中的状态值以构建观测数据,特征电气量包括最近的一个或多个交互间隔内若干时间点的直流系统两端的交流母线频率值及其变化率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率;
步骤二、构建基于邻近优化策略算法的强化学习网络
所述基于邻近优化策略算法的强化学习网络包含两个神经网络,分别为策略神经网络和价值神经网络,其中策略神经网络的输入为实时的直流系统两端的交流母线频率值及其变化率,输出为紧急直流功率支援指令;价值神经网络的输入为实时的直流系统两端的交流母线频率值及其变化率和所述紧急直流功率支援指令,输出为用于更新策略神经网络和价值神经网络的神经网络权重;
步骤三、对提取的特征电气量进行分析和分类;
特征电气量分为决策措施电气量、控制效果电气量和安全约束电气量;所述决策措施电气量包括直流系统两端的交流母线频率值及其变化率,决策措施电气量用于作为强化学习网络的输入值;所述控制效果电气量包括直流系统两端的交流母线频率值,通过频率的恢复程度判断上一个交互间隔内强化学习网络给出的紧急直流功率支援指令控制效果;安全约束电气量包括直流系统两端的交流母线频率、直流系统逆变侧换流母线电压、直流电流、逆变侧换流变漏抗、逆变侧换流变变比、逆变侧关断角、超前触发角和邻近直流系统的线路功率;
步骤四、利用所构建的基于邻近优化策略算法的强化学习网络对各类特征电气量数据进行优化训练生成策略模型;
步骤五、提取电力系统实时的决策措施电气量,作为策略模型的输入,输出为紧急直流功率支援指令,将输出的指令下发给电力系统执行,使得直流系统能够在线针对不同工况给出相应的紧急直流功率支援措施。
8.根据权利要求7所述的强化学习紧急直流功率支援的频率稳定方法,其特征在于:步骤四中,所述的策略模型即为训练完成的基于邻近优化策略算法的强化学习网络中策略神经网络结构和参数,输入层为决策措施电气量,输出为紧急直流功率支援指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211514021.6A CN115809597B (zh) | 2022-11-30 | 2022-11-30 | 强化学习紧急直流功率支援的频率稳定系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211514021.6A CN115809597B (zh) | 2022-11-30 | 2022-11-30 | 强化学习紧急直流功率支援的频率稳定系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115809597A true CN115809597A (zh) | 2023-03-17 |
CN115809597B CN115809597B (zh) | 2024-04-30 |
Family
ID=85484400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211514021.6A Active CN115809597B (zh) | 2022-11-30 | 2022-11-30 | 强化学习紧急直流功率支援的频率稳定系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115809597B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200119556A1 (en) * | 2018-10-11 | 2020-04-16 | Di Shi | Autonomous Voltage Control for Power System Using Deep Reinforcement Learning Considering N-1 Contingency |
CN111179121A (zh) * | 2020-01-17 | 2020-05-19 | 华南理工大学 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
US20200327411A1 (en) * | 2019-04-14 | 2020-10-15 | Di Shi | Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning |
CN112531745A (zh) * | 2020-12-08 | 2021-03-19 | 国网山东省电力公司电力科学研究院 | 一种电力系统频率安全预防控制优化方法 |
US20210143639A1 (en) * | 2019-11-08 | 2021-05-13 | Global Energy Interconnection Research Institute Co. Ltd | Systems and methods of autonomous voltage control in electric power systems |
US20210174209A1 (en) * | 2019-09-29 | 2021-06-10 | Huawei Technologies Co., Ltd. | Neural network obtaining method and related device |
CN114784823A (zh) * | 2022-04-15 | 2022-07-22 | 华中科技大学 | 基于深度确定性策略梯度的微电网频率控制方法及系统 |
WO2022160705A1 (zh) * | 2021-01-26 | 2022-08-04 | 中国电力科学研究院有限公司 | 综合能源系统调度模型构建方法、装置、介质及电子设备 |
CN114865638A (zh) * | 2022-03-22 | 2022-08-05 | 武汉大学 | 一种基于图深度强化学习的电网低压减载紧急控制方法 |
CN115207958A (zh) * | 2022-08-17 | 2022-10-18 | 华北电力大学 | 一种基于深度强化学习的电流偏差控制方法及系统 |
CN115409650A (zh) * | 2022-08-30 | 2022-11-29 | 广东电网有限责任公司广州供电局 | 一种基于近端策略优化算法的电力系统电压控制方法 |
-
2022
- 2022-11-30 CN CN202211514021.6A patent/CN115809597B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200119556A1 (en) * | 2018-10-11 | 2020-04-16 | Di Shi | Autonomous Voltage Control for Power System Using Deep Reinforcement Learning Considering N-1 Contingency |
US20200327411A1 (en) * | 2019-04-14 | 2020-10-15 | Di Shi | Systems and Method on Deriving Real-time Coordinated Voltage Control Strategies Using Deep Reinforcement Learning |
US20210174209A1 (en) * | 2019-09-29 | 2021-06-10 | Huawei Technologies Co., Ltd. | Neural network obtaining method and related device |
US20210143639A1 (en) * | 2019-11-08 | 2021-05-13 | Global Energy Interconnection Research Institute Co. Ltd | Systems and methods of autonomous voltage control in electric power systems |
CN111179121A (zh) * | 2020-01-17 | 2020-05-19 | 华南理工大学 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
CN112531745A (zh) * | 2020-12-08 | 2021-03-19 | 国网山东省电力公司电力科学研究院 | 一种电力系统频率安全预防控制优化方法 |
WO2022160705A1 (zh) * | 2021-01-26 | 2022-08-04 | 中国电力科学研究院有限公司 | 综合能源系统调度模型构建方法、装置、介质及电子设备 |
CN114865638A (zh) * | 2022-03-22 | 2022-08-05 | 武汉大学 | 一种基于图深度强化学习的电网低压减载紧急控制方法 |
CN114784823A (zh) * | 2022-04-15 | 2022-07-22 | 华中科技大学 | 基于深度确定性策略梯度的微电网频率控制方法及系统 |
CN115207958A (zh) * | 2022-08-17 | 2022-10-18 | 华北电力大学 | 一种基于深度强化学习的电流偏差控制方法及系统 |
CN115409650A (zh) * | 2022-08-30 | 2022-11-29 | 广东电网有限责任公司广州供电局 | 一种基于近端策略优化算法的电力系统电压控制方法 |
Non-Patent Citations (4)
Title |
---|
LI, JIAN等: "Load Shedding Control Strategy in Power Grid Emergency State Based on Deep Reinforcement Learning", CSEE JOURNAL OF POWER AND ENERGY SYSTEMS, 31 July 2022 (2022-07-31) * |
余涛;周斌;甄卫国;: "强化学习理论在电力系统中的应用及展望", 电力系统保护与控制, no. 14, 16 July 2009 (2009-07-16) * |
刘威;张东霞;王新迎;侯金秀;刘丽平;: "基于深度强化学习的电网紧急控制策略研究", 中国电机工程学报, no. 01, 31 January 2018 (2018-01-31) * |
李政男: "计及可控负荷的微电网频率恢复与低频减载策略研究", 中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑, 15 September 2019 (2019-09-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN115809597B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Coordinated load frequency control of multi-area integrated energy system using multi-agent deep reinforcement learning | |
CN112615379B (zh) | 基于分布式多智能体强化学习的电网多断面功率控制方法 | |
CN113363997B (zh) | 基于多时间尺度多智能体深度强化学习无功电压控制方法 | |
CN110443447B (zh) | 一种基于深度强化学习调整电力系统潮流的方法及系统 | |
CN114362196B (zh) | 一种多时间尺度主动配电网电压控制方法 | |
CN113489015B (zh) | 一种基于强化学习的配电网多时间尺度无功电压控制方法 | |
CN108512258B (zh) | 一种基于改进多智能体一致性算法的风电场有功调度方法 | |
CN105119543B (zh) | 一种发电机组调速系统远端线路甩负荷的控制方法及系统 | |
CN112310980B (zh) | 交直流混联电网直流闭锁频率安全稳定评估方法及系统 | |
CN116796644A (zh) | 基于多智能体sac深度强化学习的风电场参数辨识方法 | |
CN111555297A (zh) | 一种具有三态能源单元的统一时间尺度电压控制方法 | |
CN115345380A (zh) | 一种基于人工智能的新能源消纳电力调度方法 | |
CN116470511A (zh) | 基于深度强化学习的线路潮流控制方法 | |
CN113872213B (zh) | 一种配电网电压自主优化控制方法及装置 | |
CN114722693A (zh) | 一种水轮机调节系统二型模糊控制参数的优化方法 | |
CN112202196B (zh) | 一种双馈风力发电机的量子深度强化学习控制方法 | |
CN105720574A (zh) | 基于spsa的电力系统单区域负荷频率的数据驱动控制方法 | |
CN115133540B (zh) | 一种配电网无模型的实时电压控制方法 | |
CN115809597A (zh) | 强化学习紧急直流功率支援的频率稳定系统及方法 | |
CN111130122A (zh) | 一种风电场无功控制能力在线监测方法 | |
CN115912367A (zh) | 一种基于深度强化学习的电力系统运行方式智能生成方法 | |
CN115313510A (zh) | 一种自适应无功补偿的光伏逆变器控制方法与系统 | |
CN114139809A (zh) | 基于XGBoost电力系统动态频率响应曲线预测方法及系统 | |
Cao et al. | Optimal control with deep reinforcement learning for shunt compensations to enhance voltage stability | |
CN117856673B (zh) | 基于神经网络的电力系统电压智能控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |