CN114386330B

CN114386330B - 一种基于q学习网络攻击的电网连锁故障预测方法

Info

Publication number: CN114386330B
Application number: CN202210041989.5A
Authority: CN
Inventors: 张晶晶; 赵沛东; 齐先军; 杨熙
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2024-02-20
Anticipated expiration: 2042-01-14
Also published as: CN114386330A

Abstract

本发明公开了一种基于Q学习网络攻击的电网连锁故障预测方法，包括：1构建网络攻击模型，确定断路器无故障跳闸攻击的各攻击路径成功概率，2构建基于Q学习的连锁故障演化模型，并使用Q学习算法进行训练，生成Q值表以选取最优网络攻击方案，可筛选出产生较大风险的攻击路径。本发明在考虑网络攻击成功概率的基础上，利用Q学习算法选取网络攻击路径，既能避免类似遍历算法的大范围计算，极大缩短计算时间，在工作量与完备性之间有较好的平衡，为网络攻击场景下的电网连锁故障防控提供理论指导。

Description

一种基于Q学习网络攻击的电网连锁故障预测方法

技术领域

本发明属于电力系统领域，具体的说是一种基于Q学习网络攻击的电网连锁故障预测方法。

背景技术

随着电力系统与信息系统深度耦合，信息系统在提高电网性能的同时也引入新的故障形式，改变连锁故障传播路径，因此传统的连锁故障预测方式需要相应改进。当前大多数学者在研究网络攻击的时候，主要针对由单一网络攻击或信息网自身故障引起的连锁故障，并未考虑多次网络攻击的场景，且传统的连锁故障分析模型难以发现普遍规律或计算量过于庞大。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于Q学习网络攻击的电网连锁故障预测方法，以期能更精准地预测网络攻击情形下的事故链，并对连锁故障进行风险评估，进一步提高风险预测的准确率，并在工作量与完备性之间取得平衡，从而能为电网连锁故障防控提供理论指导。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于Q学习网络攻击的电网连锁故障预测方法的特点是按如下步骤进行：

步骤1、以断路器无故障跳闸为目标，构建基于模糊层次分析法的攻击树模型，并得到断路器无故障跳闸攻击的各攻击路径成功概率，其中，第i条攻击路径M_i的成功概率记为P(M_i)；

步骤2、构建基于Q学习的连锁故障演化模型，并使用Q学习算法进行训练：

步骤2.1、初始化迭代次数x＝1，初始化事故链所处环节数y＝1，定义最大迭代次数为N，随机网络攻击的迭代次数阈值为m；

步骤2.2、若迭代次数x小于等于m，则采用随机攻击；

若迭代次数x大于m次，则按照概率ε采用随机攻击，按照概率1-ε采用最大Q值的对应线路作为攻击目标；

步骤2.3、判断第x次连锁故障过程的事故链所处环节的环节数y是否为1，若是，则将网络攻击线路直接作为初始故障线路，令初始故障概率P_C＝P(M_i)并转步骤2.6，否则执行步骤2.4；

步骤2.4、判断电网是否解列为两部分或者事故链是否达到预定的演化深度，若是，则表示结束第x次连锁故障过程，并转至步骤2.7，否则执行步骤2.5；

步骤2.5、后续故障线路的选取：

若第x次连锁故障过程中事故链的第y环节有线路严重过负荷，则将严重过负荷线路直接作为下级停运线路；

若第x次连锁故障过程中事故链的第y环节无严重过负荷线路，判断是否有线路一般过负荷，若是，则采用基于灵敏度的过负荷控制方法消除一般过负荷线路，再计算所有线路停运概率，选取停运概率最高的线路作为下级停运线路，若否，则直接计算所有线路停运概率，选取停运概率最高的线路作为下级停运线路；其中，所述线路停运概率包括：潮流转移因素、隐性故障因素、网络攻击因素；

步骤2.6、跳开所选的初始故障线路或下级停运线路，计算第x次连锁故障过程中的环节风险值，并用于更新Q值表后，将y+1赋值给y，并转至步骤2.2；

步骤2.7、判断x是否达到N，若是，则表示训练结束，得到最终的连锁故障演化模型并执行步骤3，否则，将x+1赋值给x后，初始化事故链所处的环节数y＝1，并转至步骤2.2顺序执行；

步骤3、输出相应数据包括：事故链路径、事故链各环节采取控制量，事故发生概率，各环节风险值、Q值表，从而得到最优攻击方案，即产生较大风险的攻击路径。

本发明所述的基于Q学习网络攻击的电网连锁故障预测方法的特点也在于，所述步骤2.5的线路停运概率是按如下步骤计算：

步骤2.5.1、利用式(1)得到线路k的潮流转移因素的随机停运概率

式(1)中，Cor_i表示线路i的关联性指标；Cor_k表示线路k的关联性指标；N_P为电力系统中的线路集合；

步骤2.5.2、利用式(2)得到保护误动和断路器误动所引起的线路k的隐性故障因素的停运概率

式(2)中，P_{mis_b}，P_{mis_d}分别表示保护装置、断路器的误动概率，P_{inact_d}为断路器拒动的概率；

步骤2.5.3、利用式(3)得到网络攻击引起的线路k的网络攻击因素的停运概率

步骤2.5.4、利用式(4)得到无线路过负荷的后续线路k的停运概率

所述步骤2.6包括：

步骤2.6.1、令s_t为第t阶段下电网线路的状态，即s_t＝{s_t(1),…s_t(w)…,s_t(W)}，其中，s_t(w)表示第t阶段下线路w的状态，W为电网的线路总数，1<w<W；并有：

式(5)中，当s_t(w)＝1时，表示线路w正常运行，当s_t(w)＝0时，表示线路w停运；

步骤2.6.2、利用式(6)得到单次网络攻击造成的风险值并作为奖罚值r_t+1：

式(6)中，Sev为事故链环节的控制量，为第x次连锁故障过程中严重过负荷后线路k的停运概率；

步骤2.6.3、利用式(7)更新Q值表：

Q′(s_t,a_t)＝Q(s_t,a_t)+α[r_t+1+γmaxQ(s_t+1,a_t)-Q(s_t,a_t)] (7)

式(7)中，α表示学习因子，a_t表示Agent在t阶段采取的动作方案；r_t+1表示Agent处于状态s_t，采取某一动作a_t后的奖罚值；γ为折扣因子；maxQ(s_t+1,a_t)表示Agent目前状态s_t到达下一状态所取的最大Q值。

与现有技术相比，本发明的有益效果在于：

1、本发明将Q学习算法与多次网络攻击结合，在考虑网络攻击的基础上预测高风险事故链路径；并使用强化学习解决了类似遍历算法的大范围计算问题，有效缩短了计算时间，同时也兼顾完备性，提高预测效率。通过调整折扣因子参数，可以综合考虑每一环节风险和总风险的影响，解决了传统连锁故障风险计算中事故链长度和总风险值间的矛盾。

2、本发明在连锁故障分析中考虑网络攻击成功概率，将网络攻击作为下级线路停运的因素之一，完善多次网络攻击场景，克服了现有后续故障线路选取的局限性，考虑了多次攻击对连锁故障的影响，同时兼顾了潮流转移因素和隐性故障因素的影响，提高了事故链预测的精准性。

附图说明

图1为本发明断路器无故障跳闸攻击树模型；

图2为现有技术中IEEE39节点系统结构图；

图3为本发明各断路器被攻击的成功概率。

具体实施方式

本实施例中，一种基于Q学习网络攻击的电网连锁故障预测方法是按如下步骤进行：

实现断路器无故障跳闸目标G的方案有：攻击控制中心、攻击控制中心与变电站之间的通信网络、访问变电站HMI、访问RTU和访问保护继电器，分别用V1～V5表示，构建攻击树模型如图1所示，F₁-F₁₁为叶节点，F₁、F₂分别表示通过端口扫描方式和访问交换机并入侵控制中心服务器；F₃表示截获测量值以及状态包；V6表示虚假信息注入；F₄、F₅表示实现V6的两种方法，即安装窃听设备和用恰当解码方法破解信息；F₆、F₇表示通过端口扫描访问系统端口和访问并入侵变电站用户接口；F₈、F₉表示拨号连接到达变电站应答调制解调器和破解密码访问RTU；F₁₀、F₁₁表示端口扫描变电站网络和破解密码访问保护继电器。

叶节点F的攻击成功概率由三个属性表示，即叶节点F的攻击成本cost_F、叶节点F的攻击难度diff_F和叶节点F的攻击被发现可能性det_F，评分标准有5级，利用式(1)可得叶节点F的攻击成功概率P(F)：

P(F)＝W_cost×U(cost_F)+W_diff×U(diff_F)+W_det×U(det_F) (1)

式(1)中，W_cost、W_diff、W_det分别为叶节点F攻击成本cost_F、叶节点F攻击难度diff_F、叶节点F攻击被发现可能性det_F三个属性对应的权重；U(cost_F)、U(diff_F)、U(det_F)分别为叶节点F攻击成本cost_F、叶节点F攻击难度diff_F、叶节点F攻击被发现可能性det_F三个属性对应的效用值。权重可由模糊层次分析法得出，各叶节点属性评分由计算分析人员给出，效用值则由各属性评分得到。

综上所述，利用式(2)可得各路径攻击成功概率：

式(2)中，P(M_i)表示第i条攻击路径被攻击的成功概率，f表示攻击路径总数。

本实施例中，以IEEE39节点电力系统模拟网络攻击情形下的电网连锁故障传播过程，IEEE39节点系统结构如图2所示，计算可得6个攻击路径实现断路器无故障开断的成功概率，其中由于V2有两种实现方法，故共有6个攻击路径，结果如图3所示。

步骤2.2、若迭代次数x小于等于m，则采用随机攻击；

训练初期Agent经验较少，难以采用最优攻击。攻击方案通常先采取随机攻击，获取尽可能多的方案，实现对环境的初步探索。随着训练的增多，一定程度可根据学习经验选取局部最优攻击方案，主要采用ε-greed算法选择攻击方案，利用式(3)可得选择局部最优攻击方案概率：

式(3)中，a_t表示Agent在t阶段采取的动作方案，表示Agent处于状态s_t，采取局部最优攻击方案/>的概率值。ε为探索参数，为1表示Agent完全随机选取攻击方案，为0表示按照Q值选取。训练后期，ε会随着训练的深入不断减小。

步骤2.3、判断第x次连锁故障过程的事故链所处环节数y是否为1，若是，则将网络攻击线路直接作为初始故障线路，令初始故障概率P_C＝P(M_i)并转步骤2.6，否则执行步骤2.4；

步骤2.5、后续故障线路的选取：

若第x次连锁故障过程中事故链第y环节有线路严重过负荷，则将严重过负荷线路直接作为下级停运线路；

本实施例中，线路停运概率是按如下步骤计算：

步骤2.5.1、利用式(4)得到线路k的潮流转移因素的随机停运概率

式(4)中，Cor_i表示线路i的关联性指标；Cor_k表示线路k的关联性指标；N_P为电力系统中的线路集合，Cor_k按如下计算：

利用式(5)～式(8)定义线路k的潮流负载情况指标D_k、线路k的潮流耦合关系指标S_k、线路k的潮流波动指标B_k来描述线路k断开后对其他线路的影响，以此评估线路k因潮流转移因素引起的随机停运，得到下级线路k的关联性指标Cor_k：

Cor_k＝D_k×S_k×B_k (5)

D_k＝(F_k,j-F_k,j-1)/F_kmax (6)

S_k＝|(F_k,j-F_k,j-1)/F_i,j-1 (7)

B_k＝|(F_Lk,j-F_Lk,j-1)/F_k,j-1 (8)

式(5)～式(8)中，F_k,j、F_k,j-1分别表示线路k在事故链第j和j-1阶段的潮流值；F_kmax表示线路k的热稳定极限值。

步骤2.5.2、利用式(9)得到保护误动和断路器误动所引起的线路k的隐性故障因素的停运概率

式(9)中，P_{mis_b}，P_{mis_d}分别表示保护装置、断路器的误动概率，P_{inact_d}为断路器拒动的概率；

步骤2.5.3、利用式(10)得到网络攻击引起的线路k的网络攻击因素的停运概率

步骤2.5.4、利用式(11)得到无线路过负荷的后续线路k的停运概率

步骤2.6、跳开所选的初始故障线路或下级停运线路，计算第x次连锁故障过程中的环节风险值，并用于更新Q值表后将y+1赋值给y并转至步骤2.2；

步骤2.6包括：

式(12)中，当s_t(w)＝1时，表示线路w正常运行，当s_t(w)＝0时，表示线路w停运；

步骤2.6.2、利用式(13)得到单次网络攻击造成的风险值并作为奖罚值r_t+1：

式(13)中，Sev为事故链环节的控制量，为第x次连锁故障过程中严重过负荷后线路k的停运概率；

本实施例中，严重过负荷线路k的停运概率按如下方式计算：

当线路k严重过负荷时，其故障概率应为过负荷保护不拒动且断路器不拒动的概率，利用式(14)可得严重过负荷线路k的停运概率

P_jk1＝(1-P_{inact_b})(1-P_{inact_d}) (14)

式(14)中，P_{inact_b}、P_{inact_d}分别为保护拒动和断路器拒动的概率。

步骤2.6.3、利用式(15)更新Q值表：

Q′(s_t,a_t)＝Q(s_t,a_t)+α[r_t+1+γmaxQ(s_t+1,a_t)-Q(s_t,a_t)] (15)

式(15)中，α表示学习因子，α＝1表示Agent完全接收实时奖罚值，易导致学习过程中波动性较大；α＝0表示Agent完全保守，不接受更新。a_t表示Agent在t阶段采取的动作方案。r_t+1表示Agent处于状态s_t，采取某一动作a_t后的奖罚值。γ为折扣因子，表示接下来的决策对目前Q值更新的影响程度。maxQ(s_t+1,a_t)表示Agent目前状态s_t到达下一状态所取的最大Q值。

步骤2.7、判断x是否达到N，若是，则表示训练结束，得到最终的连锁故障演化模型并执行步骤3，否则，将x+1赋值给x后，初始化事故链所处环节数y＝1，并转至步骤2.2顺序执行。

Claims

1.一种基于Q学习网络攻击的电网连锁故障预测方法，其特征是按如下步骤进行：

步骤2.2、若迭代次数x小于等于m，则采用随机攻击；

步骤2.5、后续故障线路的选取：

2.根据权利要求1所述的基于Q学习网络攻击的电网连锁故障预测方法，其特征是，所述步骤2.5的线路停运概率是按如下步骤计算：

3.根据权利要求2所述的基于Q学习网络攻击的电网连锁故障预测方法，其特征是，所述步骤2.6包括：

步骤2.6.3、利用式(7)更新Q值表：

Q′(s_t,a_t)＝Q(s_t,a_t)+α[r_t+1+γmaxQ(s_t+1,a_t)-Q(s_t,a_t)] (7)