CN112651110B

CN112651110B - 基于多阶段动态博弈的恶性数据注入攻击防御方法

Info

Publication number: CN112651110B
Application number: CN202011466027.1A
Authority: CN
Inventors: 王征; 穆永强; 郭尚民; 王勇; 佟永吉; 李剑峰; 姜涛; 朱洪波; 陈明丰; 刘鑫蕊; 常鹏; 高靖; 潘霄; 穆昱壮; 王鹤霏; 王义贺; 王春凤; 邓鑫阳; 刘静波; 姜雪
Original assignee: STATE GRID LIAONING ECONOMIC TECHNIQUE INSTITUTE; State Grid Corp of China SGCC
Current assignee: STATE GRID LIAONING ECONOMIC TECHNIQUE INSTITUTE; State Grid Corp of China SGCC
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2024-01-26
Anticipated expiration: 2040-12-14
Also published as: CN112651110A

Abstract

本发明提供一种基于多阶段动态博弈的恶性数据注入攻击防御方法，涉及电力信息物理系统技术领域。该方法首先将博弈过程视为攻防双方参与的双人博弈，将攻防双方的一次动作视为攻防博弈过程的一个阶段；计算节点中心度来表征电网不同节点的重要性，将节点中心度作为权向量，计算电网最优减载量作为攻防双方的收益；然后计算恶性数据在电网节点之间传播的渗流传播概率，建立多阶段攻防博弈模型；最后基于改进的Q学习算法，在每个博弈阶段引入不同的学习速率，重新定义攻防双方的最大收益计算公式，求解每个博弈阶段的纳什均衡解，并判断是否达到攻防博弈预估的总阶段Γ，若达到，则得到最优防御策略；反之则进行下一阶段攻防博弈。

Description

基于多阶段动态博弈的恶性数据注入攻击防御方法

技术领域

本发明涉及电力信息物理系统技术领域，尤其涉及一种基于多阶段动态博弈的恶性数据注入攻击防御方法。

背景技术

随着信息物理系统的发展，信息系统与物理系统高度融合的发展格局下，单一物理电网正逐步被智能电网、能源互联网等新一代典型的CPS所取代，信息物理系统的融合度日渐增强，提高了电力系统管理的便捷性、准确性，也给电力系统的安全问题带来了隐患，信息环节引入电网存在着网络攻击的风险。在电网CPS的环境下，研究恶性数据注入攻击的防御方法，对电网CPS的安全可靠运行具有极为关键的理论与应用价值。

与单人独立决策的传统分析方法不同，博弈论强调决策主体各方策略的相互依存性，侧重对多主体行为相互影响的分析，体现了合作与冲突的对立统一关系。现有基于博弈论的方案评估、决策方法，其研究结论有诸多可借鉴之处，但针对恶性数据注入攻击下的信息物理系统防御方案优选这一问题，现有成果并不完全适用。

大多数博弈论方法都考虑了博弈方法的阶段性，但是没有考虑博弈过程不确定性，即传统的博弈论方法并未考虑到恶性数据注入攻击的传播性；也没有考虑到不同节点遭受恶性数据注入攻击对电网的影响大小不同。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于多阶段动态博弈的恶性数据注入攻击防御方法，先实现对恶性数据注入攻击的防御。

为解决上述技术问题，本发明所采取的技术方案是：基于多阶段动态博弈的恶性数据注入攻击防御方法，包括以下步骤：

步骤1：将博弈过程视为攻防双方参与的双人博弈，将攻防双方的一次动作视为攻防博弈过程的一个阶段；

步骤2：计算节点中心度来表征电网不同节点的重要性，将节点中心度作为权向量，计算电网最优减载量作为攻防双方的收益；

步骤2.1：使用节点中心度来表征电网中不同节点的重要性，如下公式所示：

其中，k_i为电网中第i个节点的节点中心度，i＝1,2，…，N，N为电网中节点总数，μ_i、μ_j分别为第i个节点和第j个节点在电网中的权重；α为节点的保留因素；d_ij为节点i和节点j之间的路由距离；

步骤2.2：将电网最优减载量作为衡量攻击方收益的指标，并将电网最优减载量表示为如下最优化问题：

s.t.(1)A^TBQsin(Aθ)＝L_m

(2)θ_min≤Aθ≤θ_max

(3)PW′≡PW_m′_ax

(4)PW_min≤PW≤PW_max

(5)E_min≤E≤E_max

其中，L表示电网所有负载线路减少的总负载；k′_m和k′_m′分别代表电网第m条负载线路两端节点的节点中心度；L_m为电网中第m条负载线路减少的负载，m为负载线路序号，M为电网中负载线路数量；A为电网节点关联矩阵；Q为电网拓扑的入射矩阵；B为电网线路导纳组成的对角矩阵；θ为电网节点电压相角，θ_min、θ_max为电网节点电压相角的最小值和最大值；PW′、PW_m′_ax为电网中受保护线路流过的功率和最大功率；PW为电网线路上流过的功率，PW_min、PW_max为电网线路上流过的最小功率和最大功率；E为电网发电机发出的功率，E_min、E_max为发电机发出的最小功率和最大功率；

步骤3：计算恶性数据在电网节点之间传播的渗流传播概率，建立多阶段攻防博弈模型；

步骤3.1：当电网中节点i受到恶性数据注入攻击后，节点j被节点i渗流传播的概率p_ij如下公式所示：

其中，d_ij为节点i和j之间的路由距离；λ为两个相邻节点之间恶性数据传播的概率；

当电网中有N_j个与节点j的路由距离为d_j的受攻击节点时，则节点j被这些受攻击节点渗流传播的概率p_j如下公式所示：

步骤3.2：基于加权零和博弈理论，设定攻击方收益为正值，防御方收益为负值，将多阶段攻防博弈模型表示为八元组Ω＝{A,D,P(A),P(D),R,p,Γ,S}，其中表示攻击方可以选择的攻击策略集合，N_A为攻击方可选择攻击策略的个数；/>表示防御方可以选择的防御策略集合，N_D为防御方可选择防御策略的个数；/>表示攻击方选择每种攻击策略的概率；表示防御方选择每种防御策略的概率；R(s)＝{R^A(s),R^D(s)}为攻防双方的收益矩阵，R^A和R^D分别表示攻击方和防御方的收益，R^A＝-R^D×η，η为攻击方与防御方收益的权重系数；/>表示在状态空间S中，攻击向量a∈A对抗保护向量d∈D得到的预期回报函数；表示在状态空间S中，保护向量d∈D对抗攻击向量a∈A得到的预期回报函数；p＝{p_ij|i∈N,j∈N,i≠j}表示电网中节点渗流传播的概率，N为电网中节点数；Γ为多阶段攻防博弈的总段数；/>表示在攻防博弈不同阶段下的电网状态；

步骤3.3：在多阶段攻防博弈过程中，首先确定攻防双方的策略集合，依据策略集合估计出攻防博弈的总段数Γ；然后在当前所处的博弈阶段考虑渗流传播概率计算后续博弈阶段攻击方总的可能收益，如下公式所示：

其中，p′和p″为电网第m条负载线路两端节点被渗流传播的概率；

再根据加权零和博弈理论得到防御方收益矩阵R^D；

步骤4：基于改进的Q学习算法，在每个博弈阶段引入不同的学习速率，重新定义攻防双方的最大收益计算公式，求解每个博弈阶段的纳什均衡解(A^·,D^·)，A^·,D^·分别为每个阶段的最优攻击策略和最优防御策略，判断是否达到攻防博弈预估的总阶段Γ，若达到，则得到最优防御策略反之则进行下一阶段攻防博弈；

步骤4.1：在极大Q学习算法中，在每一个攻防博弈阶段引入不同的学习速率τ为博弈阶段；通过引入学习速率α_t，重新定义了迭代得到防御方最大收益Q^*的计算公式：

其中，表示防御方在第τ个攻防博弈阶段的收益，/>表示防御方在第τ个攻防博弈阶段的策略，γ为折扣因子，V_D(s′)表示后续不同攻防博弈阶段所有防御策略组合的收益，s′表示后续攻击阶段；

步骤4.2：将防御方最大收益的计算公式改写为线性约束优化问题：

类似地，将攻击方的最大收益利用如下线性约束优化问题得出:

其中，为攻击方在第τ个攻防博弈阶段的收益，/>表示攻击方在第τ个攻防博弈阶段的策略，V_A(s′)表示后续不同攻防博弈阶段所有攻击策略组合的收益；

步骤4.3：由加权零和博弈的性质，V_D(s′)与V_A(s′)是按一定权重等价的，因此通过步骤4.2的两个线性约束优化问题可以得出纳什均衡的一对结果其中，分别为攻防双方最优的防御策略和攻击策略。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于多阶段动态博弈的恶性数据注入攻击防御方法，进一步完善了恶性数据注入攻击对多阶段攻防博弈过程的影响，引入了节点中心度和渗流传播风险，节点中心度和渗流转播风险充分体现了恶性数据注入攻击易传播的特点。本发明提出的根据不同节点的重要性计算节点中心度，将节点中心度作为权向量，计算系统最优减载量作为攻防双方的收益，节点中心度充分考虑了各节点及其相邻节点的的重要性，将其作为权向量来计算线路负载损失最优值可以反映不同线路负载在电网中的重要程度，从而得到数量和质量综合的最优值，而不仅仅是数量上的最优值。本发明提出的基于渗流理论建立多阶段攻防博弈模型，通过渗流理论分析恶性数据在电网中的传播，提出的渗流传播概率，能有效的表示出各阶段恶性数据注入攻击对电网的后续影响。本发明提出的基于改进的Q学习算法求解纳什均衡解，在每一个攻防博弈阶段引入不同的学习速率，解决了Q学习算法难以应用于大型电网的问题，通过改进的Q学习算法得到攻防博弈的纳什均衡解，就可以得到最优防御策略。

附图说明

图1为本发明实施例提供的基于多阶段动态博弈的恶性数据注入攻击防御方法的流程图；

图2为本发明实施例提供的IEEE-14节点系统拓扑图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以IEEE-14节点系统为例，采用本发明的基于多阶段动态博弈的恶性数据注入攻击防御方法对该电网的恶性数据注入攻击进行防御。

本实施例中，基于多阶段动态博弈的恶性数据注入攻击防御方法，如图1所示，包括以下步骤：

步骤2.1：根据电网中节点所处位置以及其功能的不同，每个节点的重要性是不同的。此外，当节点被视为关键节点时，其相邻节点的重要性也会相应提升，因为相邻节点的恶性数据传播至关键节点的可能性相对更高。因此，使用节点中心度来表征电网中不同节点的重要性，如下公式所示：

其中，k_i为电网中第i个节点的节点中心度，i＝1,2，…，N，N为电网中节点总数，μ_i、μ_j分别为第i个节点和第j个节点在电网中的权重；α为节点的保留因素；d_ij为节点i和节点j之间的路由距离；使用权重的原因是如果一个节点的相邻节点都是关键节点，则该节点通常更关键。而保留因素表示每个节点的重要性不仅取决于其他节点，也取决于自身。

步骤2.2：当电网受到恶性数据注入攻击后，为了保持电网的稳定状态，线路必须要减少一定的负载，将电网减少负载的最小值称为电网最优减载量，因此可以将电网最优减载量作为衡量攻击方收益的指标，并将电网最优减载量表示为如下最优化问题：

s.t.(1)A^TBQsin(Aθ)＝L_m

(2)θ_min≤Aθ≤θ_max

(3)PW′≡PW_m′_ax

(4)PW_min≤PW≤PW_max

(5)E_min≤E≤E_max

其中，L表示电网所有负载线路减少的总负载；k′_m和k″_m分别代表电网第m条负载线路两端节点的节点中心度；L_m为电网中第m条负载线路减少的负载，m为负载线路序号，M为电网中负载线路数量；A为电网节点关联矩阵；Q为电网拓扑的入射矩阵；B为电网线路导纳组成的对角矩阵；θ为电网节点电压相角，θ_min、θ_max为电网节点电压相角的最小值和最大值；PW′、PW_m′_ax为电网中受保护线路流过的功率和最大功率；PW为电网线路上流过的功率，PW_min、PW_max为电网线路上流过的最小功率和最大功率；E为电网发电机发出的功率，E_min、E_max为发电机发出的最小功率和最大功率；

约束1表示电网需要满足的物理潮流约束；约束2表示电网节点需要满足的电压相角约束；约束3表示某些重要线路的负载不能减少；约束4表示电网线路上流过的功率应在约束范围内；约束5表示电网发电机发出的功率要在承受范围内；

步骤3.1：考虑恶性数据注入攻击在各节点之间会发生传播，而且恶性数据的传播与流体在介质中的传播有很多相似之处，因此基于渗流理论提出了恶性数据传播概率p。当电网中节点i受到恶性数据注入攻击后，节点j被节点i渗流传播的概率p_ij如下公式所示：

步骤3.2：基于加权零和博弈理论，设定攻击方收益为正值，防御方收益为负值，将多阶段攻防博弈模型表示为八元组Ω＝{A,D,P(A),P(D),R,p,Γ,S}，其中表示攻击方可以选择的攻击策略集合，N_A为攻击方可选择攻击策略的个数；/>表示防御方可以选择的防御策略集合，N_D为防御方可选择防御策略的个数；/>表示攻击方选择每种攻击策略的概率；表示防御方选择每种防御策略的概率；R(s)＝{R^A(s),R^D(s)}为攻防双方的收益矩阵，R^A和R^D分别表示攻击方和防御方的收益，由于采用加权零和博弈，R^A＝-R^D×η，η为攻击方与防御方收益的权重系数；表示在状态空间S中，攻击向量a∈A对抗保护向量d∈D得到的预期回报函数；/>表示在状态空间S中，保护向量d∈D对抗攻击向量a∈A得到的预期回报函数；p＝{p_ij|i∈N,j∈N,i≠j}表示电网中节点渗流传播的概率，N为电网中节点数；Γ为多阶段攻防博弈的总段数；表示在攻防博弈不同阶段下的电网状态；

再根据加权零和博弈理论得到防御方收益矩阵R^D；

步骤4：基于改进的Q学习算法，在每个博弈阶段引入不同的学习速率，重新定义攻防双方的最大收益计算公式，求解每个博弈阶段的纳什均衡解(A^·,D^·)，A^·,D^·分别为每个阶段的最优攻击策略和最优防御策略，判断是否达到攻防博弈预估的总阶段Γ，若达到，则得到最优防御策略反之则进行下一阶段博弈；

步骤4.1：传统Q学习算法的每次迭代结果都仅取决于当前收益而没有考虑之前的收益，这种算法的计算复杂度随着电网规模的增加指数上升，使其应用于大规模电网变得不切实际。为解决该不足，在极大Q学习算法中，在每一个攻防博弈阶段引入不同的学习速率τ为博弈阶段；通过引入学习速率α_t，重新定义了迭代得到防御方最大收益Q^*的计算公式：

其中，表示防御方在第τ个攻防博弈阶段的收益，/>表示防御方在第τ个攻防博弈阶段的策略，γ为折扣因子，可以避免在迭代过程中产生无限收益，V_D(s′)表示后续不同攻防博弈阶段所有防御策略组合的收益，s′表示后续攻击阶段；

本实施例中，IEEE-14节点系统的系统拓扑图如图2所示，包括14条负载线路，使用MATLABR2019a分别对单阶段和多阶段动态博弈进行仿真分析。

本实施例首先分析所有可能攻击的情况，得到表1的攻击情况，从表1中可以看出，以上攻击方式中，序号为11、14、17、18、20-21、23、25、27以及30的协同攻击会造成电网中减载，因此，将这十种协同攻击策略记为a₁、a₂、a₃、a₄、a₅、a₆、a₇、a₈、a₉、a₁₀。

表1 IEEE14节点系统中的减载结果

攻击编号	攻击目标	减载(MW)	攻击编号	攻击目标	减载(MW)
						1	Line 1	0	18	Line4 and 7	386
2	Line 3	0	19	Line4 and 8	0
						3	Line 4	0	20	Line 4 and 11	244
4	Line 7	0	21	Line 4 and12	157
						5	Line 8	0	22	Line 7 and 9	0
6	Line 9	0	23	Line 7 and 11	26
						7	Line 11	0	24	Line 7 and 12	0
8	Line 12	0	25	Line 7 and 14	216
						9	Line 14	0	26	Line 8 and 9	0
10	Line 1 and 3	0	27	Line 8 and 11	379
						11	Line 1 and 4	127	28	Line 8 and 12	0
12	Line 1 and 7	0	29	Line 8 and 14	0
						13	Line 1 and 12	0	30	Line 9 and 11	247
14	Line 3 and 4	224	31	Line 9 and 12	0
						15	Line 3 and 9	0	32	Line 9 and 14	0
16	Line 3 and 11	0	33	Line 11 and 12	0
						17	Line 3 and 14	138	34	Line 12 and 14	0

在多阶段攻防博弈中，第一阶段防御者综合考虑三个阶段的减载结果，对每个节点的攻击用减载值来量化，通过求取纳什均衡点求得第一阶段最优防御策略。第一阶段之后电网处于一个已知的确定状态，在第二阶段对所有可能的确定状态进行离线博弈，得到下一步的最优防御策略，形成离线决策表。仿真结果汇总如表2所示。在第一阶段考虑多阶段整体回报情况下的最优防御策略为：对攻击策略a₇采取防御措施，其防御成功的概率最大，为31.5％，期望的减载值为152.6MW，而采用单阶段防御策略则为：对攻击策略a₄采取防御措施，其防御成功的概率最大，为23.5％，期望的减载值为165.8MW。

表2防御方三个阶段博弈与单阶段博弈期望结果对比

相比之下，多阶段的防御模型效果更好。对于第二阶段，可以得到相同的结论，并且对于多阶段防御模型越早考虑到多阶段的可能效果越好。对于第三阶段，作为最后一个阶段，两种方法都只考虑当前阶段，因此得到的防御策略相同。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于多阶段动态博弈的恶性数据注入攻击防御方法，其特征在于：包括以下步骤：

s.t.(1)A^TBQsin(Aθ)＝L_m

(2)θ_min≤Aθ≤θ_max

(3)PW′≡PW′_max

(4)PW_min≤PW≤PW_max

(5)E_min≤E≤E_max

其中，L表示电网所有负载线路减少的总负载；k′_m和k″_m分别代表电网第m条负载线路两端节点的节点中心度；L_m为电网中第m条负载线路减少的负载，m为负载线路序号，M为电网中负载线路数量；A为电网节点关联矩阵；Q为电网拓扑的入射矩阵；B为电网线路导纳组成的对角矩阵；θ为电网节点电压相角，θ_min、θ_max为电网节点电压相角的最小值和最大值；PW′、PW′_max为电网中受保护线路流过的功率和最大功率；PW为电网线路上流过的功率，PW_min、PW_max为电网线路上流过的最小功率和最大功率；E为电网发电机发出的功率，E_min、E_max为发电机发出的最小功率和最大功率；

步骤3.2：基于加权零和博弈理论，设定攻击方收益为正值，防御方收益为负值，将多阶段攻防博弈模型表示为八元组Ω＝{A,D,P(A),P(D),R,p,Γ,S}，其中表示攻击方可以选择的攻击策略集合，N_A为攻击方可选择攻击策略的个数；表示防御方可以选择的防御策略集合，N_D为防御方可选择防御策略的个数；/>表示攻击方选择每种攻击策略的概率；表示防御方选择每种防御策略的概率；R(s)＝{R^A(s),R^D(s)}为攻防双方的收益矩阵，R^A和R^D分别表示攻击方和防御方的收益，R^A＝-R^D×η，η为攻击方与防御方收益的权重系数；/>表示在状态空间S中，攻击向量a∈A对抗保护向量d∈D得到的预期回报函数；表示在状态空间S中，保护向量d∈D对抗攻击向量a∈A得到的预期回报函数；p＝{p_ij|i∈N,j∈N,i≠j}表示电网中节点渗流传播的概率，N为电网中节点数；Γ为多阶段攻防博弈的总段数；/>表示在攻防博弈不同阶段下的电网状态；

再根据加权零和博弈理论得到防御方收益矩阵R^D；

步骤4：基于改进的Q学习算法，在每个博弈阶段引入不同的学习速率，重新定义攻防双方的最大收益计算公式，求解每个博弈阶段的纳什均衡解(A^·,D^·)，A^·,D^·分别为每个阶段的最优攻击策略和最优防御策略，判断是否达到攻防博弈预估的总阶段Γ，若达到，则得到最优防御策略反之则进行下一阶段攻防博弈。

2.根据权利要求1所述的基于多阶段动态博弈的恶性数据注入攻击防御方法，其特征在于：所述步骤4的具体方法为：

将攻击方的最大收益利用如下线性约束优化问题得出:

步骤4.3：由加权零和博弈的性质，V_D(s′)与V_A(s′)是按一定权重等价的，因此通过步骤4.2的两个线性约束优化问题得出纳什均衡的一对结果其中，/>分别为攻防双方最优的防御策略和攻击策略。