CN112347716A

CN112347716A - 基于q学习的电网脆弱点检测方法、系统、设备及介质

Info

Publication number: CN112347716A
Application number: CN202011183120.1A
Authority: CN
Inventors: 贺亮; 张萌; 凌晨皓; 樊海波; 蔡刚山; 雷雄
Original assignee: WUHAN ENGINEERING SCIENCE & TECHNOLOGY INSTITUTE; Xian Jiaotong University
Current assignee: WUHAN ENGINEERING SCIENCE & TECHNOLOGY INSTITUTE; Xian Jiaotong University
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-02-09
Anticipated expiration: 2040-10-29
Also published as: CN112347716B

Abstract

本发明属于智能电网安全领域，公开了一种基于Q学习的电网脆弱点检测方法、系统、设备及介质，包括以下步骤：S1：获取待检测智能电网的电力系统模型；S2：基于电力系统模型，根据节点重要程度从待检测智能电网中选取预设数量的脆弱传输线，得到脆弱传输线集合；S3：以脆弱传输线集合为Q学习方法的动作空间，以待检测智能电网在脆弱传输线被拓扑攻击下的线路切断数量及发电功率损失为优化参数，通过Q学习方法迭代优化，得到最优的传输线攻击序列；S4：将最优的传输线攻击序列作为智能电网脆弱点。能够降低基于Q学习的电网脆弱点检测的计算复杂度，并且需要的信息较少，且能够提高基于Q学习的电网脆弱点检测的精度。

Description

基于Q学习的电网脆弱点检测方法、系统、设备及介质

技术领域

本发明属于智能电网安全领域，涉及一种基于Q学习的电网脆弱点检测方法、系统、设备及介质。

背景技术

智能电网作为最重要的基础设施之一，关系到国民生活、经济发展和社会稳定，在信息和通信技术的帮助下，智能电网已逐渐成为新一代的将电力系统与通信网络紧密结合的电力信息物理融合系统。智能电网在带来大量经济效益的同时，也面临日益增长的智能电网网络物理安全问题，比如：在智能电网状态变量中注入恶意数据误导系统操作，攻击特定元件集合使电网产生级联故障等攻击手段，已经证明面对网络和物理攻击，智能电网具有多方面的脆弱性。近期的研究表明，序列拓扑攻击揭示出智能电网新的脆弱性，相比于直接的并发攻击方案，针对特定的经过攻击者筛选的元件的序列攻击会导致更大的对智能电网的破坏，采用序列与并发两种方式切断相同的线路，其中，序列切断可能会造成更大的系统故障。所以，迫切的需要针对智能电网在序列拓扑攻击下的脆弱点检测的相关方法。

为了识别可能导致大规模级联故障的关键拓扑攻击序列，现有方法包括：启发式的基于图的方法、基于穷举搜索的方法以及基于工程专家的方法。但是，以上方法在面对大容量的电力系统时往往会有计算复杂度过高，需要的信息较多，脆弱点检测精度不足等问题。

综上所述，现有的基于Q学习的电网脆弱点检测方法，大多集中于并发攻击方案上，且多以探测当前机制无法检测的攻击为导向。少量针对序列攻击的脆弱点检测方案，在面对大容量电力系统时，也往往会有计算复杂度过高，需要的信息较多，脆弱点检测精度不足等问题。

发明内容

本发明的目的在于克服上述现有技术中，在面对大容量电力系统时，基于Q学习的电网脆弱点检测往往会有计算复杂度过高，需要的信息较多，脆弱点检测精度不足的缺点，提供一种基于Q学习的电网脆弱点检测方法、系统、设备及介质。

为达到上述目的，本发明采用以下技术方案予以实现：

本发明第一方面，一种基于Q学习的电网脆弱点检测方法，包括以下步骤：

S1：获取待检测智能电网的电力系统模型；

S2：基于电力系统模型，根据节点重要程度从待检测智能电网中选取预设数量的脆弱传输线，得到脆弱传输线集合；

S3：以脆弱传输线集合为Q学习方法的动作空间，以待检测智能电网在脆弱传输线被拓扑攻击下的线路切断数量及发电功率损失为优化参数，通过Q学习方法迭代优化，得到最优的传输线攻击序列；

S4：将最优的传输线攻击序列作为智能电网脆弱点。

本发明基于Q学习的电网脆弱点检测方法进一步的改进在于：

所述S1的具体方法为：

获取并根据待检测智能电网的电力拓扑、发电功率及负载功率，进行待检测智能电网的建模，得到待检测智能电网的电力系统模型。

所述S2的具体方法为：

S201：基于电力系统模型，获取并通过待检测智能电网中分布的总功率，将各节点的输出功率进行归一化得到各节点的归一化输出功率；

S202：选取归一化输出功率最大的节点，选取该节点所连接的传输线中输出功率最大的弱传输线为脆弱传输线；

S203：在待检测智能电网的所有传输线中去除已选取的传输线，更新电力系统模型，并重复S201～S202至获得预设数量的脆弱传输线。

所述S3中通过Q学习方法迭代优化，得到最优的传输线攻击序列的具体方法为：

S301：初始化Q学习方法的Q值表，并预设Q学习方法的探索阈值；

S302：从动作空间内随机选取一条脆弱传输线进行拓扑攻击；

S303：获取拓扑攻击下待检测智能电网的线路切断数量及发电功率损失，根据线路切断数量及发电功率损失确定该脆弱传输线的Q值并写入Q值表；

S304：生成一随机数，当随机数大于探索阈值时，从动作空间内随机选取一条脆弱传输线进行拓扑攻击并进行一次S303；否则，从动作空间内选取Q值最大的脆弱传输线进行拓扑攻击并进行一次S303；

S305：迭代进行S304至当前Q值表与上次迭代的Q值表之间的变化值收敛至预设阈值以下，得到并根据最终的Q值表，获取最优的传输线攻击序列。

所述S303的具体方法为：

S3031：检测智能电网中是否存在孤岛，当智能电网中存在孤岛时，进行S3032；否则，进行S3034；

S3032：根据电网潮流方程约束，进行待检测智能电网发电与负载的再分配；

S3033：解算并根据待检测智能电网的电网潮流确定待检测智能电网是否达到稳态，当待检测智能电网达到稳态，进行S3034；否则，重复S3031～S3032至待检测智能电网达到稳态；

S3034：获取并输出拓扑攻击下待检测智能电网的线路切断数量及发电功率损失，由线路切断数量及发电功率损失确定该脆弱传输线的Q值并写入Q值表。

所述S3034中根据线路切断数量及发电功率损失确定该脆弱传输线的Q值的具体方法为：

根据线路切断数量及发电功率损失，通过下式确定该脆弱传输线的Q值Q(s,a)：

其中，s为状态向量，以待检测智能电网的各传输线的通断状况组成的向量作为状态向量，a为进行拓扑攻击的脆弱传输线，α为Q学习方法的学习率，s′为拓扑攻击后电网达到稳态时的状态向量，Q(s′,a′)为该状态向量下最大的Q值，a′为该状态向量下最大的Q值对应的传输线；l_loss为当前拓扑攻击后待测智能电网的线路切断数量；l_total为待测智能电网的传输线总数；p_loss为当前拓扑攻击后线路切断数量的发电功率损失；p_total为待测智能电网的总功率，R(a)为Q学习方法的奖励函数。

所述S3032的具体方法为：

根据电网潮流方程约束，得到待检测智能电网中发电功率与负载功率的比值；

当比值大于1时，则按比例下调所有发电机的输出功率，至发电功率与负载功率平衡或者达到发电机的输出功率下限，当达到发电机的输出功率下限后发电功率与负载功率仍不平衡时，逐一切除发电机至发电功率与负载功率平衡；

否则，则按比例上调所有发电机的输出功率，至发电功率与负载功率平衡或者达到发电机的输出功率上限，当达到发电机的输出功率上限后发电功率与负载功率仍不平衡时，逐一切除负载至发电功率与负载功率平衡。

本发明第二方面，一种基于Q学习的电网脆弱点检测系统，包括：

建模模块，用于获取待检测智能电网的电力系统模型；

脆弱传输线选取模块，用于基于电力系统模型，根据节点重要程度从待检测智能电网中选取预设数量的脆弱传输线，得到脆弱传输线集合；

攻击序列确定模块，用于以脆弱传输线集合为Q学习方法的动作空间，以待检测智能电网的各传输线的通断状况组成的向量作为Q学习方法的状态向量，通过Q学习方法，得到最优的传输线攻击序列；以及

脆弱点模块，用于将最优的传输线攻击序列作为智能电网脆弱点。

本发明第三方面，一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于Q学习的电网脆弱点检测方法的步骤。

本发明第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于Q学习的电网脆弱点检测方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明基于Q学习的电网脆弱点检测方法，通过以待检测智能电网在脆弱传输线被拓扑攻击下的线路切断数量及发电功率损失为优化参数，考虑智能电网遭受拓扑攻击后的影响，基于影响对于智能电网的破坏考虑智能电网脆弱点，进而通过优化参数优化Q值表中的Q值，最后通过Q值表获得待检测智能电网面对序列拓扑攻击的脆弱点，提高基于Q学习的电网脆弱点检测的精度。同时，利用节点重要度策略，根据节点重要程度筛选待检测智能电网中的脆弱传输线，以脆弱传输线集合为Q学习方法的动作空间，提前对动作空间进行剪枝，缩小了动作空间，一定程度上缓解了在面对大容量、大规模的智能电网时，存在的计算复杂度高等问题，显著降低基于Q学习的电网脆弱点检测的计算复杂度，以及需要的信息。

进一步的，通过设置探索阈值使得Q学习方法在选择动作时平衡的选择当前最优动作和探索新动作，一定程度上避免了陷入局部最优点，进一步提高基于Q学习的电网脆弱点检测的精度。

附图说明

图1为本发明实施例的基于Q学习的电网脆弱点检测方法流程示意图；

图2为本发明实施例的脆弱传输线的选取流程示意图；

图3为本发明实施例的Q学习方法迭代优化流程示意图；

图4为本发明实施例的线路切断数量及发电功率损失的获取流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明一实施例中，提供一种基于Q学习的电网脆弱点检测方法，在面对大容量电力系统时，能够降低基于Q学习的电网脆弱点检测的计算复杂度，并且需要的信息较少，且能够提高基于Q学习的电网脆弱点检测的精度。具体的，该基于Q学习的电网脆弱点检测方法包括以下步骤。

S1：获取待检测智能电网的电力系统模型。

具体的，本实施例中，待检测智能电网为常见的标准示例智能电网或是实际存在的智能电网。通过获取并根据待检测智能电网的电力拓扑、发电功率及负载功率，进行待检测智能电网的建模，得到待检测智能电网的电力系统模型。

S2：基于电力系统模型，根据节点重要程度从待检测智能电网中选取预设数量的脆弱传输线，得到脆弱传输线集合。

具体的，参见图2，示出了脆弱传输线的选取过程，具体包括以下步骤：

S201：基于电力系统模型，获取并通过待检测智能电网中分布的总功率，将各节点的输出功率进行归一化得到各节点的归一化输出功率。

S202：选取归一化输出功率最大的节点，即脆弱节点，选取该脆弱节点所连接的传输线中输出功率最大的弱传输线为脆弱传输线。

S203：在待检测智能电网的所有传输线中去除已选取的传输线，即将该传输线的功率置零，然后更新电力系统模型，并重复S201～S202至获得预设数量的脆弱传输线，预设数量可根据智能电网的规模人为指定。

通过该过程，可以一定程度上解决面对大容量、大规模的智能电网时，现有穷举搜索等方法的计算复杂度高及需要的时间长等问题，增加了该基于Q学习的电网脆弱点检测方法的可用性。

S3：以脆弱传输线集合为Q学习方法的动作空间，以待检测智能电网在脆弱传输线被拓扑攻击下的线路切断数量及发电功率损失为优化参数，通过Q学习方法迭代优化，得到最优的传输线攻击序列。

具体的，参见图3，示出了Q学习方法迭代优化的过程，具体包括以下步骤：

S301：初始化Q学习方法的Q值表，并预设Q学习方法的探索阈值。

S302：从动作空间内随机选取一条脆弱传输线进行拓扑攻击。

S303：获取拓扑攻击下待检测智能电网的线路切断数量及发电功率损失，根据线路切断数量及发电功率损失确定该脆弱传输线的Q值并写入Q值表。

具体的，参见图4，示出了线路切断数量及发电功率损失的获取过程，具体包括以下步骤：

S3031：检测智能电网中是否存在孤岛，当智能电网中存在孤岛时，进行S3032；否则，进行S3034。

S3032：根据电网潮流方程约束，进行待检测智能电网发电与负载的再分配。

具体的，根据电网潮流方程约束，得到待检测智能电网中发电功率与负载功率的比值；当比值大于1时，则按比例下调所有发电机的输出功率，至发电功率与负载功率平衡或者达到发电机的输出功率下限，当达到发电机的输出功率下限后发电功率与负载功率仍不平衡时，逐一切除发电机至发电功率与负载功率平衡；否则，则按比例上调所有发电机的输出功率，至发电功率与负载功率平衡或者达到发电机的输出功率上限，当达到发电机的输出功率上限后发电功率与负载功率仍不平衡时，逐一切除负载至发电功率与负载功率平衡。

S3033：解算并根据待检测智能电网的电网潮流确定待检测智能电网是否达到稳态，当待检测智能电网达到稳态，即待检测智能电网的拓扑攻击的级联故障结束，进行S3034；否则，重复S3031～S3032至待检测智能电网达到稳态。

其中，当受攻击的待检测智能电网恢复到稳态后，统计该次拓扑攻击对待检测智能电网造成的线路损失，即线路切断数量，以及发电功率损失，通过下式确定该脆弱传输线的Q值Q(s,a)：

其中，s为状态向量，以待检测智能电网的各传输线的通断状况组成的向量作为状态向量，a为进行拓扑攻击的脆弱传输线，α为Q学习方法的学习率，s′为拓扑攻击后电网达到稳态时的状态向量，Q(s′,a′)为该状态向量下最大的Q值，a′为该状态向量下最大的Q值对应的传输线；l_loss为当前拓扑攻击后待测智能电网的线路切断数量；l_total为待测智能电网的传输线总数；p_loss为当前拓扑攻击后线路切断数量的发电功率损失；p_total为待测智能电网的总功率，R(α)为Q学习方法的奖励函数。

s′为拓扑攻击后电网达到稳态时的状态向量，Q(s′,a′)为该状态向量下最大的Q值，a′为其对应的传输线；

S304：生成一随机数，可以为0-1间的随机数，当随机数大于探索阈值时，从动作空间内随机选取一条脆弱传输线进行拓扑攻击并进行一次S303；否则，从动作空间内选取Q值最大的脆弱传输线进行拓扑攻击并进行一次S303。通过这种方法，平衡选择当前最优动作与探索新的动作，一定程度上解决了Q学习方法陷入局部最优值的缺陷。

其中，Q学习方法是一种与模型无关的强化学习方法，在Q学习方法中智能体为算法中实施动作的主体，本实施例中，动作指从动作空间中选择一条脆弱传输线进行拓扑攻击，然后获取待检测智能电网在脆弱传输线被拓扑攻击下的线路切断数量及发电功率损失为优化参数，进行评估当前动作的效果，更新Q学习方法的Q值表，智能体可以选择随机探索动作空间选择动作，也可以根据Q值表选择当前状态向量下Q值最大的动作，即当前最优动作。Q值表是一个哈希表，状态向量和Q值构成一组键值对，以键值对的形式保存各状态向量下各动作的Q值，代表了这些动作在各状态向量时的效果。

S4：将最优的传输线攻击序列作为智能电网脆弱点。

具体的，最优的传输线攻击序列指的是按照这个序列顺序逐一进行拓扑攻击，效果最好，即这个序列是电网的脆弱点，比如：顺序攻击编号1、3、5、7、9的传输线，会导致智能电网的线路切断数量及发电功率损失最大，则最优的传输线攻击序列为1、3、5、7、9。

综上所述，本发明基于Q学习的电网脆弱点检测方法，通过以待检测智能电网在脆弱传输线被拓扑攻击下的线路切断数量及发电功率损失为优化参数，考虑智能电网遭受拓扑攻击后的影响，基于影响对于智能电网的破坏考虑智能电网脆弱点，进而通过优化参数优化Q值表中的Q值，最后通过Q值表获得待检测智能电网面对序列拓扑攻击的脆弱点，提高基于Q学习的电网脆弱点检测的精度。同时，利用节点重要度策略，根据节点重要程度筛选待检测智能电网中的脆弱传输线，以脆弱传输线集合为Q学习方法的动作空间，提前对动作空间进行剪枝，缩小了动作空间，一定程度上缓解了在面对大容量、大规模的智能电网时，存在的计算复杂度高等问题，显著降低基于Q学习的电网脆弱点检测的计算复杂度，以及需要的信息。

同时，通过设置探索阈值使得Q学习方法在选择动作时平衡的选择当前最优动作和探索新动作，一定程度上避免了陷入局部最优点，进一步提高基于Q学习的电网脆弱点检测的精度。

本发明再一实施例中，提供一种基于Q学习的电网脆弱点检测系统，该基于Q学习的电网脆弱点检测系统能够用于实现上述的基于Q学习的电网脆弱点检测方法，具体的，包括建模模块、脆弱传输线选取模块、攻击序列确定模块以及脆弱点模块。

其中，建模模块用于获取待检测智能电网的电力系统模型；脆弱传输线选取模块用于基于电力系统模型，根据节点重要程度从待检测智能电网中选取预设数量的脆弱传输线，得到脆弱传输线集合；攻击序列确定模块用于以脆弱传输线集合为Q学习方法的动作空间，以待检测智能电网的各传输线的通断状况组成的向量作为Q学习方法的状态向量，通过Q学习方法，得到最优的传输线攻击序列；脆弱点模块用于将最优的传输线攻击序列作为智能电网脆弱点。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于Q学习的电网脆弱点检测方法的操作，包括以下步骤：S1：获取待检测智能电网的电力系统模型；S2：基于电力系统模型，根据节点重要程度从待检测智能电网中选取预设数量的脆弱传输线，得到脆弱传输线集合；S3：以脆弱传输线集合为Q学习方法的动作空间，以待检测智能电网在脆弱传输线被拓扑攻击下的线路切断数量及发电功率损失为优化参数，通过Q学习方法迭代优化，得到最优的传输线攻击序列；S4：将最优的传输线攻击序列作为智能电网脆弱点。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于Q学习的电网脆弱点检测方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：S1：获取待检测智能电网的电力系统模型；S2：基于电力系统模型，根据节点重要程度从待检测智能电网中选取预设数量的脆弱传输线，得到脆弱传输线集合；S3：以脆弱传输线集合为Q学习方法的动作空间，以待检测智能电网在脆弱传输线被拓扑攻击下的线路切断数量及发电功率损失为优化参数，通过Q学习方法迭代优化，得到最优的传输线攻击序列；S4：将最优的传输线攻击序列作为智能电网脆弱点。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于Q学习的电网脆弱点检测方法，其特征在于，包括以下步骤：

S1：获取待检测智能电网的电力系统模型；

S4：将最优的传输线攻击序列作为智能电网脆弱点。

2.根据权利要求1所述的基于Q学习的电网脆弱点检测方法，其特征在于，所述S1的具体方法为：

3.根据权利要求1所述的基于Q学习的电网脆弱点检测方法，其特征在于，所述S2的具体方法为：

S202：选取归一化输出功率最大的节点，选取该节点所连接的传输线中输出功率最大的传输线为脆弱传输线；

4.根据权利要求1所述的基于Q学习的电网脆弱点检测方法，其特征在于，所述S3中通过Q学习方法迭代优化，得到最优的传输线攻击序列的具体方法为：

S302：从动作空间内随机选取一条脆弱传输线进行拓扑攻击；

5.根据权利要求4所述的基于Q学习的电网脆弱点检测方法，其特征在于，所述S303的具体方法为：

6.根据权利要求5所述的基于Q学习的电网脆弱点检测方法，其特征在于，所述S3034中根据线路切断数量及发电功率损失确定该脆弱传输线的Q值的具体方法为：

根据线路切断数量及发电功率损失，通过下式确定该脆弱传输线的Q值Q(s，a)：

其中，s为状态向量，以待检测智能电网的各传输线的通断状况组成的向量作为状态向量，a为进行拓扑攻击的脆弱传输线，α为Q学习方法的学习率，s′为拓扑攻击后电网达到稳态时的状态向量，Q(s′，a′)为该状态向量下最大的Q值，a′为该状态向量下最大的Q值对应的传输线；l_loss为当前拓扑攻击后待测智能电网的线路切断数量；l_total为待测智能电网的传输线总数；p_loss为当前拓扑攻击后线路切断数量的发电功率损失；p_total为待测智能电网的总功率，R(a)为Q学习方法的奖励函数。

7.根据权利要求5所述的基于Q学习的电网脆弱点检测方法，其特征在于，所述S3032的具体方法为：

8.一种基于Q学习的电网脆弱点检测系统，其特征在于，包括：

建模模块，用于获取待检测智能电网的电力系统模型；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于Q学习的电网脆弱点检测方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于Q学习的电网脆弱点检测方法的步骤。