CN115134130B

CN115134130B - 一种基于DQN算法的智能电网DoS攻击检测方法

Info

Publication number: CN115134130B
Application number: CN202210672597.9A
Authority: CN
Inventors: 张阔; 吴争光; 陆康迪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2023-04-18
Anticipated expiration: 2042-06-14
Also published as: CN115134130A

Abstract

本发明公开了一种基于DQN算法的智能电网DoS攻击检测方法。传统的坏数据检测法十分依赖阈值设置，本发明通过使用DQN算法减少对于阈值设置的依赖程度。在观察值构造方面，本发明使用连乘积的方式构造观察值，相较于传统的滑窗法，可以对观察值进行大幅度的降维。同时，在检测到攻击后，本发明对未收到的信号进行剔除得到一个新的状态估计，该估计可作为后续计算的参照。最后使用DQN算法对DoS攻击检测进行训练。本发明实现了DoS攻击的快速检测，增加了检测速度与成功率，其实现方法简单，检测效率能够有显著提升。

Description

一种基于DQN算法的智能电网DoS攻击检测方法

技术领域

本发明属于智能电网领域，尤其涉及一种基于DQN算法的智能电网DoS攻击检测方法。

背景技术

智能电网是一种典型的信息物理系统，它将信息传输通道与电力传输通道分离，从而使电网拥有更高效的电力资源配置、更强的抗干扰能力的新型电网技术。但由于对信息技术的广泛使用，信息安全也称为电网中的重要一环。DoS攻击是信息物理系统的一种典型攻击方式，其核心思想是使用信息技术对电网信息系统进行攻击，造成系统丢包进而影响电力系统的安全稳定。传统的检测方法为坏数据检测法。但该方法仅能检测攻击额而不能检测攻击位置，同时由于其采用单阈值因此检测成功率一般，当前一些其他的检测方法可实现DoS攻击的检测，但阈值设置时期的检测成功率依然不高。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于DQN算法的智能电网DoS攻击检测方法。

本发明的目的是通过以下技术方案来实现的：一种基于DQN算法的智能电网DoS攻击检测方法，包括以下步骤：

步骤一：建立电网的一般线性模型：

x_t＝Ax_t-1+v_t (1)

y_t＝Hx_t+w_t (2)

其中，x_t＝[x_1，t，…，x_n，t，…，x_N，t]为t时刻系统状态，x_n，t表示t时刻第n个节点上的相角，N表示系统的总状态数；t时刻测量值表示为y_t＝[y_1，t，…，y_m，t，…，y_M，t]，y_m，t表示t时刻第m个测量仪表的检测值，M表示总测量仪表值；

为状态转移矩阵，

为雅克比矩阵，

表示实数集；

表示t时刻系统噪声，

表示过程噪声的方差，I_N表示N维单位矩阵；

表示t时刻测量噪声，

表示测量噪声的方差，I_M表示M维单位矩阵；

步骤二：虚拟攻击获得样本：对于DoS攻击可以使用式(3)获得受攻击的测量值：

y_m，t＝d_m，t×(h_mx_t+w_m，t) (3)

式中，d_m，t表示t时刻y_m，t是否遭受DoS攻击，当y_m，t遭受攻击时d_m，t＝0，当y_m，t未遭受攻击时d_m，t＝1，h_m为系统矩阵H的第m行向量，w_m，t为t时刻时第m个检测值检测时所面对的噪声；

步骤三：观察值获取：使用式(4)卡尔曼滤波获得状态估计：

其中，

为t时刻状态估计

获得状态估计后，使用式(5)获得检测值的估计值：

得到检测值估计后，进行观察值R_t的获取；

步骤四：修正观察值获取：当系统被判定在t时刻遭受攻击或在前T时段内被判定遭受过攻击时，需要对测量值进行修正，并构造了修正观察值

设剔除受攻击后的测量值序列为

相应的系统矩阵与测量值估计也变为H^e与

乘数G_t对应变为

步骤五：配置DQN：将整个检测过程视作马尔科夫决策问题；将系统划分为两个状态，分别为系统未受到攻击s_n与系统受到攻击s_a；令t时刻的观测为o_t；将检测器动作也分为两个状态，其中a_s表示算法认为系统存在异常发出警报，a_c表示算法认为系统正常运行不发出警报；回报为r_t；系统的状态转移概率设为未知；设置神经网络为两层，每层神经元个数根据电网结构大小进行设置，使用BP神经网络进行训练，设置学习率和学习率下降比；

步骤六：观测获取：获得R_t与

后，使用阈值分割法对其进行降维；再使用滑窗法，最后整合得到观测；

步骤七：使用ε贪婪策略得到t时刻检测器动作a_t：在动作选择上采用ε贪婪策略，检测器以概率1-ε选择最优动作、以概率ε随机选择动作，使用式(14)更新ε：

ε＝max(ε×d_ε，ε_min) (14)

其中，d_ε为ε的衰减速率，ε_min为ε最小值；选择动作后，根据动作与状态得到回报r_t；

步骤八：DQN训练：在训练前确定攻击时间与次数，令攻击集合为Tau；使用步骤一至步骤四，与步骤六至步骤七，进行训练，并对DQN网络进行更新，具体更新公式如下；最后重复该步骤直到样本总数E用尽；

ζ_t＝r_t+μmax_aQ(o_t+1，·；δ) (16)

ξ_t＝(ζ_t-Q(o_t，a_t；δ))² (17)

式中，Q代表DQN网络，μ为DQN算法中的折扣因子，δ为权重，ξ_t为损失函数，得到ξ_t后使用梯度下降法对DQN网络进行更新；

步骤九：检测：在进行检测时，需要放弃使用ε贪婪策略，而采用最优动作进行动作选取，最优动作选取公式如式(18)所示：

a_t＝max(Q(o_t，·；δ)) (18)

式中，Q为已经训练好的DQN神经网络。

进一步地，步骤三中，求观察值：

式中，γ为R_t的折扣比率，G_t为乘数。

进一步地，步骤四包括：

(4.1)修正测量值，包括：

首先，可将测量值分为不同区域(1，2，...，K)，其中第k区域含有l_k个检测器，每个检测器只能在一个区域；其次将区域划组(1，2，...，P)，其中第p组含有z_p个区域，每个区域只能分在一个组中；最后当系统受到攻击时，使用式(8)至式(10)，判断该组与该区域是否存在受攻击检测值：

式中，

为属于第p组中第k个区域的第j个测量值；当系统遭受DoS攻击时f_t＝0，此时寻找使f_t＝0的

即寻找

再通过

寻找

最后找到

(4.2)对于修正观察值，若系统在t时刻与之前的T时段内未发现异常，则令

若在t时刻未发现异常但在之前的T时段内存在异常，则可使用式(11)与式(12)，分别对修正观察值

与修正乘数

进行计算；若在t时刻发现异常，则首先需要根据式(6)获取观察值R_t，再使用式(8)至式(10)剔除异常测量值后，使用式(12)进行计算：

进一步地，步骤六通过以下子步骤来实现：

(6.1)获取观测的阈值分割：设置b个阈值[δ₁，δ₂，…，δ_b]，则可根据下式获得阈值分割后的值：

式中，上角标(e)代表修正值与非修正值均可使用此式；φ₁～φ_b+1为区域符号；

(6.2)获取观测的滑窗法：在获得

与

后，令

在获得t+1时刻的值

与

后，使用滑窗法除去最旧的观察值并将其他观察值后移，最后加入新的观察值；具体地，在使用o_t获得o_t+1的过程中，需要将最旧的的

与

移除，加入新的观察值得到新的观测

进一步地，回报r_t的设置为：当出现系统未受到攻击却发出警报与系统受到攻击却不发出警报两种情况时，会受到惩罚：

其中，r₀为标准惩罚参数，其值为正数。

进一步地，步骤八包括：

(8.1)在每轮训练时，首先要获取上一轮训练的DQN网络，初始化其他参数：包括系统结构矩阵A与H、总训练幕长度E、阈值集合、折扣比率γ、标准惩罚参数r₀、随机动作选择概率ε、ε的衰减速率d_ε、ε的最小值ε_min，确定实施攻击时刻的集合Tau；

(8.2)判断当前训练幕e是否处于总训练幕长度之中，是则继续训练，否则执行(8.17)；

(8.3)初始化时间t＝0，观测o₀＝[φ₁，φ₁，φ₁，φ₁]，动作a₀＝a_c，初始状态x₀，初始测量值y₀及卡尔曼滤波中P_0|0为与A同维度的单位矩阵；

(8.4)使用式(14)对ε进行更新；

(8.5)判断时间t是否小于第一预设值，若是则进行(8.6)至(8.8)，否则跳至(8.9)；

(8.6)对时刻t进行加1的更新操作；

(8.7)使用步骤一获得系统测量值y_t；

(8.8)使用步骤三、步骤四与步骤六获得观察值R_t与修正观察值

及它们对应的乘数G_t与

进而获得t时刻观测o_t，返回(8.5)；

(8.9)判断时间t是否小于第二预设值，若是则进行(8.10)至(8.15)，否则结束该轮训练跳至(8.16)；

(8.10)更新t值，并根据上一时刻的观测和动作获取回报；

(8.11)更新DQN网络；

(8.12)使用步骤一获得系统测量值y_t；

(8.13)若当前时刻t属于实施攻击时刻的集合Tau，则实施步骤二，否则越过此步直接执行(8.14)；

(8.14)使用步骤三、步骤四与步骤六获得观察值R_t与修正观察值

及它们对应的乘数G_t与

进而获得t时刻观测o_t；

(8.15)使用ε贪婪策略选择当前时刻的动作，并返回至(8.9)；

(8.16)重复(8.1)至(8.15)直到训练完所有样本，即当前训练幕e要大于等于总训练幕长度E，然后执行(8.17)；

(8.17)结束DQN网络的训练。

进一步地，步骤九包括：

(9.1)导入训练好的DQN网络，初始化其他参数：包括系统结构矩阵A与H、阈值集合、折扣比率γ；

(9.2)确定攻击时间集合Tau；

(9.3)初始化时间t＝0，观测o₀＝[φ₁，φ₁，φ₁，φ₁]，动作a₀＝a_c，初始状态x₀，初始测量值y₀及卡尔曼滤波中P_0|0为与A同维度的单位矩阵；

(9.4)判断时间t是否小于第一预设值，若是则进行(9.5)至(9.7)，否则跳至(9.8)；

(9.5)对时刻t进行加1的更新操作；

(9.6)使用步骤一获得系统测量值y_t；

(9.7)使用步骤三、步骤四与步骤六获得观察值R_t与修正观察值

及它们对应的乘数G_t与

进而获得t时刻观测o_t，返回(9.4)；

(9.8)判断时间t是否小于第二预设值，若是则进行(9.9)至(9.14)，否则执行(9.15)；

(9.9)对时刻t进行加1的更新操作；

(9.10)使用步骤一获得系统测量值y_t；

(9.11)若当前时刻t属于实施攻击时刻的集合Tau，则实施步骤二，否则越过此步直接执行(9.12)；

(9.12)使用步骤三、步骤四与步骤六获得观察值R_t与修正观察值

及它们对应的乘数G_t与

进而获得t时刻观测o_t；

(9.13)使用最优策略进行动作选择，如式(18)所示：

a_t＝max(Q(o_t，·；δ)) (18)

式中，Q表示导入的DQN网络，δ表示权重；

(9.14)根据动作选择是否发出警报，若动作为a_s，则警报后返回(9.8)，否则直接返回(9.8)；

(9.15)检测结束。

本发明的有益效果是：本发明使用DQN算法实现了DoS攻击的检测，提高了DoS攻击的检测准确率与检测速度，可以同时实现攻击的检测与攻击位置的检测。

附图说明

图1为IEEE-118节点图；

图2为训练DQN流程图。

图3为检测流程图。

图4为γ＝0.9的条件下，受DoS攻击测量值数目为5个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.9。横轴代表攻击间隔方式，方式1到5分别为随机攻击(攻击次数为5至30次)，间隔为3进行攻击，间隔为5进行攻击，间隔为10进行攻击，间隔为20进行攻击。纵轴代表警报覆盖率。使用了Sarsa算法与BDD算法进行对比。

图5为γ＝0.9的条件下，受DoS攻击测量值数目为5个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.9。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图6为γ＝0.9的条件下，受DoS攻击测量值数目为7个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.9。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图7为γ＝0.9的条件下，受DoS攻击测量值数目为7个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.9。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图8为γ＝0.9的条件下，受DoS攻击测量值数目为10个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.9。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图9为γ＝0.9的条件下，受DoS攻击测量值数目为10个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.9。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图10为γ＝0.7的条件下，受DoS攻击测量值数目为5个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.7。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图11为γ＝0.7的条件下，受DoS攻击测量值数目为5个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.7。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图12为γ＝0.7的条件下，受DoS攻击测量值数目为7个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.7。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图13为γ＝0.7的条件下，受DoS攻击测量值数目为7个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.7。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图14为γ＝0.7的条件下，受DoS攻击测量值数目为10个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.7。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图15为γ＝0.7的条件下，受DoS攻击测量值数目为10个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.7。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图16为γ＝0.5的条件下，受DoS攻击测量值数目为5个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.5。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图17为γ＝0.5的条件下，受DoS攻击测量值数目为5个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.5。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图18为γ＝0.5的条件下，受DoS攻击测量值数目为7个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.5。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图19为γ＝0.5的条件下，受DoS攻击测量值数目为7个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.5。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图20为γ＝0.5的条件下，受DoS攻击测量值数目为10个(均为随机选择)情况下的警报覆盖率图；此检测所用DQN网络需满足γ＝0.5。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

图21为γ＝0.5的条件下，受DoS攻击测量值数目为10个(均为随机选择)情况下的错误警报率图；此检测所用DQN网络需满足γ＝0.5。横轴代表攻击间隔方式，纵轴代表警报覆盖率，使用了Sarsa算法与BDD算法进行对比。

具体实施方式

下面根据附图详细说明本发明。

本发明一种基于DQN算法的智能电网DoS攻击检测方法，包括以下步骤：

步骤一：建立电网的一般线性模型：

x_t＝Ax_t-1+v_t (1)

y_t＝Hx_t+w_t (2)

其中，x_t＝[x_1，t，…，x_n，t，…，x_N，t]为t时刻系统状态，x_n，t表示t时刻第n个节点上的相角，N表示系统的总状态数，取118；y_t＝[y_1，t，…，y_m，t，…，y_M，t]为t时刻测量值，y_m，t表示为t时刻第m个测量仪表的检测值，M表示测量仪表的总数量，取216。

为状态转移矩阵，取单位矩阵；

为由电网拓扑结构决定的雅克比矩阵，可根据图1获得；

表示实数集。

表示t时刻系统噪声；

表示过程噪声的方差，其值取10^-4(由系统决定)；I_N表示N维单位矩阵。

表示t时刻测量噪声；

表示测量噪声的方差，其值取2×10^-4(由测量设备决定)；I_M表示M维单位矩阵。

步骤二：虚拟攻击获得样本，对于DoS攻击可以使用式(3)获得受攻击的测量值；

y_m，t＝d_m，t×(h_mX_t+w_m，t) (3)

式中，y_m，t表示t时刻第m个检测仪表的检测值，d_m，t表示t时刻y_m，t是否遭受DoS攻击，当y_m，t遭受攻击时d_m，t＝0，当y_m，t未遭受攻击时d_m，t＝1；h_m为系统矩阵H的第m行向量，w_m，t为t时刻第m个检测值检测时所面对的噪声。

步骤三：观察值获取。

(3.1)使用式(4)卡尔曼滤波获得状态估计：

其中，

表示对系统的状态估计，

为t时刻卡尔曼滤波计算下的状态估计，将其计算结果赋值至

表示根据t-1时刻的状态估计对t时刻状态估计的预测；P_t|t表示t时刻下的状态协方差矩阵的估计，P_t|t-1表示对t时刻下的状态协方差矩阵的估计的预测；G_t表示t时刻下的卡尔曼滤波增益矩阵。

(3.2)获得状态估计后，使用式(5)获得检测值的估计值

(3.3)得到检测值估计后，可进行观察值R_t的获取。求观察值，需使用式(6)计算：

式中，γ为R_t的折扣比率，G_t为该算法的乘数，其具体计算方式如式(7)所示。由于R_t中含有过去时刻的观察值，因此只需要两个观察值即可得到R_t的变化规律，即在时间t时，使用[R_t，R_t-1]。

步骤四：修正观察值获取。当系统被判定遭受攻击，或在T时段(T可由操作员设置)内被判定遭受过攻击时，需要对测量值进行修正，以保证后续状态估计的准确性。除此之外，为了保证后续观察值的计算稳定性，即清除攻击对于R_t的影响，本发明构造了修正观察值

该步骤是本发明的核心之一，包括以下子步骤：

(4.1)修正测量值。

首先，可将测量值分为不同区域k(1，2，...，20)；其中，前4个区域的每个区域含有10个检测器，后16个区域每个区域含11个检测器。每个检测器只能在一个区域，即

K＝20。

其次，将区域划组(1，2)；其中，每组含10个区域。每个区域只能分在一个组中，即

P＝2。该组可称为第一层组，可根据电网结构构造多层组，具体方法与一层组构造类似，即将数个第一层组加入某个第二层组。

最后，当系统受到攻击时，使用式(8)至式(10)，判断该组与该区域是否存在受攻击检测值(当有更多上层组时公式可扩展至更多)：

式中，f_t表示t时刻总的受攻击的测量值的位置检测判断依据，

表示t时刻第p组受攻击测量值位置检测的判断依据，

表示t时刻属于第p组中第k个区域受攻击测量值的位置检测的判断依据，

为t时刻属于第p组中第k个区域的第j个测量值。当系统遭受DoS攻击时，f_t＝0，此时可寻找使f_t＝0的

即寻找

再通过

寻找

最后找到

尽管此方法需要连乘计算，但是可以将不为0的测量值设为1，减小计算量；由于DoS攻击一般都为小规模攻击，因此，该方法相较于直接从测量值上找受到攻击的测量值，速度更快。

(4.2)设剔除受攻击的测量值序列为

其获得方式为，在检测到攻击后，将y_t中所有测量值为零的或无法获取测量值的检测，即上文中发现的

从y_t中移除。

在找到

的位置后，在系统结构矩阵中也要移除相应的行得到H^e，以保证H^e的行与

中的值依然有一一对应关系。修正观察值对应为

修正乘数对应为

对于修正观察值，若系统在t时刻与之前的T时段内未发现异常，则可令

若在t时刻未发现异常但在之前的T时段内存在异常，则可使用式(11)与式(12)分别对修正观察值

与修正乘数

进行计算；若在t时刻发现异常，则首先需要根据式(6)获取观察值R_t，再使用式(8)至式(10)剔除异常测量值后使用式(12)进行计算。

步骤五：配置DQN算法。

将整个检测过程视作马尔科夫决策问题。将系统划分为两个状态，分别为系统未受到攻击s_n与系统受到攻击s_a。但由于无法直接观察到状态，因此需要构造观测，令t时刻的观测为o_t，该值可在后续步骤获取。将检测器动作也分为两个状态，其中a_s为算法认为系统存在异常发出警报，a_c表示算法认为系统正常运行不发出警报。回报为r_t，该值根据不同状态与观测下的不同动作有不同取值。系统的状态转移概率设为未知。设置神经网络为两层，每层神经元为10个，使用BP神经网络进行训练，学习率设置为0.1，学习率下降比设置为0.8，重放储存区尺寸设置为10000，采样样本数设置为200，其余设置默认。

步骤六：观测获取。获得R_t与

后，考虑到R_t与

的维度为[0，+∞]，因此使用阈值分割法，对其进行降维；由于该方法使用的是DNQ，因此不存在Q表维度过大的问题，可以设置多个阈值。由于R_t中包含过去时刻的状态，因此只需要增加一个R_t-1来观察R_t的走向即可，即在阈值分割法后再使用滑窗法，最后整合得到观测。该步骤是本发明的核心之一，包括以下子步骤：

(6.1)获取观测的阈值分割。

为了最大可能的减小维度灾难，本发明使用DQN算法进行学习，这可以在设置多个阈值下，减小Q表维度过大的问题；具体阈值设置可根据电网规模与DQN规模，设置阈值[δ₁，δ₂，δ₃，δ₄，δ₅，δ₆，δ₇，δ₈，δ₉，δ₁₀，δ₁₁，δ₁₂，δ₁₃，δ₁₄，δ₁₅]＝[0.015，0.03，0.04，0.06，0.1，0.12，0.15，0.2，0.5，1，5，10，20，50，100]。

可根据式(13)获得阈值分割后的值：

式中，上角标(e)代表修正值与非修正值均可使用此式。

表示t时刻观察值R_t所处的阈值区间，

表示t时刻修正观察值

所处的阈值区间；φ₁～φ₁₆表示不同阈值范围下所处的阈值区间。例如，观察值R_t满足δ₁₀≤R_t＜δ₁₁，此时R_t所处的区间为φ₁₁，即

(6.2)获取观测的滑窗法。

在获得

与

后，可令

在获得t+1时刻的值，使用滑窗法除去最旧的观察值并将其他观察值后移，最后加入新的观察值，例如在使用o_t获得o_t+1的过程中，需要将o_t中最旧的的

与

移除，加入新的观察值

与

后，得到新的观测

步骤七：使用ε贪婪策略，得到t时刻检测器动作a_t，并获得回报反馈。

(7.1)在动作选择上可以采用ε贪婪策略，即检测器以概率1-ε选择最优动作、以概率ε随机选择动作。由于前期需要更多探索，因此前期需要赋予ε更大的值，而后期需要赋予ε更小的值，因此可使用式(14)进行更新：

ε＝max(ε×d_ε，ε_min) (14)

其中，d_ε为ε的衰减速率，取值0.95。ε_min为ε的最小值，为0.01。初始ε为0.2。

(7.2)选择动作后，可以根据训练结果(动作与状态)，得到回报，如式(15)所示：

其中，r₀表示一个标准惩罚参数，其值为1。当出现系统未受到攻击却发出警报情况，与系统受到攻击却不发出警报情况时，回报值为-r₀，其余情况回报值为0。

步骤八：DQN训练。如图2所示，包括：

(8.1)在每轮训练时，首先要获取上一轮训练的DQN网络(若无上一轮则获取初始化的DQN网络)与初始化其他参数，包括系统结构矩阵A与H、总训练幕长度E、阈值集合、折扣比率γ、标准惩罚参数r₀、随机动作选择概率ε、ε的衰减速率d_ε、ε的最小值ε_min，确定实施攻击时刻的集合Tau。

(8.2)判断当前训练幕e是否处于总训练幕长度之中，是则继续训练，否则执行(8.17)。

(8.3)初始化时间t＝0，观测o₀＝[φ₁，φ₁，φ₁，φ₁]，动作a₀＝a_c，初始状态x₀，初始测量值y₀及卡尔曼滤波中P_0|0为与A同维度的单位矩阵。

(8.4)使用式(14)对ε进行更新。

(8.5)判断时间t是否小于20(此值可以根据需要进行其他设置)，若是则进行(8.6)至(8.8)，否则跳至(8.9)。

(8.6)对时刻t进行加1的更新操作。

(8.7)使用步骤一获得系统测量值yt。

及它们对应的乘数G_t与

进而获得t时刻观测o_t，返回(8.5)。

(8.9)判断时间t是否小于200(此值可以根据需要进行其他设置)，若是则进行(8.10)至(8.15)，否则结束该轮训练跳至(8.16)。

(8.10)更新t值，并由式(15)对根据上一时刻的观测和动作获取回报。

(8.11)更新DQN网络，具体更新公式如下：

ζ_t＝r_t+μmax_a Q(o_t+1，·；δ) (16)

ξ_t＝(ζ_t-Q(o_t，a_t；δ))² (17)

式中，Q代表DQN网络；μ为DQN算法中的折扣因子，取值为0.9；δ为该算法中的权重；ξ_t为损失函数，得到ξ_t后可以使用梯度下降法对DQN网络进行更新。

(8.12)使用步骤一获得系统测量值y_t。

(8.13)若当前时刻t属于实施攻击时刻的集合Tau，则实施步骤二，否则越过此步直接执行(8.14)。

及它们对应的乘数G_t与

进而获得t时刻观测o_t。

(8.15)使用ε贪婪策略选择当前时刻的动作，并返回至(8.9)。

(8.16)重复(8.1)至(8.15)直到训练完所有样本，即当前训练幕e要大于等于总训练幕长度E，然后执行(8.17)。

(8.17)结束DQN网络的训练。

步骤九：检测。如图3所示，包括：

(9.1)导入已经训练好的DQN网络，初始化其他参数，包括系统结构矩阵A与H、阈值集合、折扣比率γ。

(9.2)确定攻击时间集合Tau，该时间的确定可以为随机确定，也可以间隔确定。

(9.3)初始化时间t＝0，观测o₀＝[φ₁，φ₁，φ₁，φ₁]，动作a₀＝a_c，初始状态x₀，初始测量值y₀及卡尔曼滤波中P_0|0为与A同维度的单位矩阵。

(9.4)判断时间t是否小于20(此值可以根据需要进行其他设置)，若是则进行(9.5)至(9.7)，否则跳至(9.8)。

(9.5)对时刻t进行加1的更新操作。

(9.6)使用步骤一获得系统测量值y_t。

及它们对应的乘数G_t与

进而获得t时刻观测o_t，返回(9.4)。

(9.8)判断时间t是否小于200(此值可以根据需要进行其他设置)，若是则进行(9.9)至(9.14)，否则执行(9.15)。

(9.9)对时刻t进行加1的更新操作。

(9.10)使用步骤一获得系统测量值y_t。

(9.11)若当前时刻t属于实施攻击时刻的集合Tau，则实施步骤二，否则越过此步直接执行(9.12)。

及它们对应的乘数G_t与

进而获得t时刻观测o_t。

(9.13)由于在检测阶段不再需要探索，因此使用最优策略进行动作选择，如式(18)所示：

a_t＝max(Q(o_t，·；δ)) (18)

式中，Q表示导入的DQN网络，δ表示该网络的权重。

(9.14)根据动作选择是否发出警报，若动作为a_s，则警报后返回(9.8)，否则直接返回(9.8)。

(9.15)该轮检测结束。

为了突出本发明的优越性，本发明实施例采用Sarsa算法(M.N.Kurt，O.Ogundijo，C.Li and X.Wang，”Online Cyber-Attack Detection in Smart Grid：A ReinforcementLearning Approach，″in IEEE Transactions on Smart Grid，vol.10，no.5，pp.5174-5185，Sept.2019，doi：10.1109/TSG.2018.2878570.)、BDD算法与本发明进行对比。其中，警报覆盖率表示，在警报集合K中存在于攻击集合Tau的攻击个数在Tau中所占的比率。错误警报率表示，在警报集合K中，不在攻击集合Tau中的警报个数在警报集合K中所占的比率。

图4表明在γ＝0.9的条件下，受DoS攻击测量值数目为5个(均为随机选择)的情况下，本发明方法在警报覆盖率总体要略好于Sarsa算法，略差于BDD算法。

图5表明在γ＝0.9的条件下，受DoS攻击测量值数目为5个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

图6表明在γ＝0.9的条件下，受DoS攻击测量值数目为7个(均为随机选择)的情况下，本发明方法在警报覆盖率总体要略好于Sarsa算法，略差于BDD算法。

图7表明在γ＝0.9的条件下，受DoS攻击测量值数目为7个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

图8表明在γ＝0.9的条件下，受DoS攻击测量值数目为10个(均为随机选择)的情况下，本发明方法在警报覆盖率总体要略好于Sarsa算法，略差于BDD算法。

图9表明在γ＝0.9的条件下，受DoS攻击测量值数目为10个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

图10表明在γ＝0.7的条件下，受DoS攻击测量值数目为5个(均为随机选择)的情况下，本发明方法在警报覆盖率总体要略好于Sarsa算法，略差于BDD算法。

图11表明在γ＝0.7的条件下，受DoS攻击测量值数目为5个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

图12表明在γ＝0.7的条件下，受DoS攻击测量值数目为7个(均为随机选择)的情况下，本发明方法在警报覆盖率总体上与Sarsa算法表现相近，略差于BDD算法。

图13表明在γ＝0.7的条件下，受DoS攻击测量值数目为7个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

图14表明在γ＝0.7的条件下，受DoS攻击测量值数目为10个(均为随机选择)的情况下，本发明方法在警报覆盖率总体要略好于Sarsa算法，略差于BDD算法。

图15表明在γ＝0.5的条件下，受DoS攻击测量值数目为10个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

图16表明在γ＝0.5的条件下，受DoS攻击测量值数目为5个(均为随机选择)的情况下，本发明方法在警报覆盖率总体要略好于Sarsa算法，略差于BDD算法。

图17表明在γ＝0.5的条件下，受DoS攻击测量值数目为5个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

图18表明在γ＝0.5的条件下，受DoS攻击测量值数目为7个(均为随机选择)的情况下，本发明方法在警报覆盖率总体要略好于Sarsa算法，略差于BDD算法。

图19表明在γ＝0.5的条件下，受DoS攻击测量值数目为7个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

图20表明在γ＝0.5的条件下，受DoS攻击测量值数目为10个(均为随机选择)的情况下，本发明方法在警报覆盖率总体要略好于Sarsa算法，略差于BDD算法。

图21表明在γ＝0.5的条件下，受DoS攻击测量值数目为10个(均为随机选择)的情况下，本发明方法在错误警报率远远好于Sarsa算法与BDD算法。

本发明并不限于上述实施方式，采用与本发明上述实施方式相同或近似的方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均在本发明专利的保护范围之内。

Claims

1.一种基于DQN算法的智能电网DoS攻击检测方法，其特征在于，包括以下步骤：

步骤一：建立电网的线性模型：

x_t＝Ax_t-1+v_t (1)

y_t＝Hx_t+w_t (2)

为状态转移矩阵，

为雅克比矩阵，

表示实数集；

表示t时刻系统噪声，

表示过程噪声的方差，I_N表示N维单位矩阵；

表示t时刻测量噪声，

表示测量噪声的方差，I_M表示M维单位矩阵；

y_m，t＝d_m，t×(h_mX_t+w_m，t) (3)

步骤三：观察值获取：使用式(4)卡尔曼滤波获得状态估计：

其中，

为t时刻状态估计

表示根据t-1时刻的状态估计对t时刻状态估计的预测；

P_t|t表示t时刻下的状态协方差矩阵的估计，P_t|t-1表示对t时刻下的状态协方差矩阵的估计的预测；G_t表示t时刻下的卡尔曼滤波增益矩阵；获得状态估计后，使用式(5)获得检测值的估计值：

得到检测值估计后，进行观察值R_t的获取；求观察值，需使用式(6)计算：

式中，γ为R_t的折扣比率，G_t为该算法的乘数，其具体计算方式如式(7)所示；由于R_t中含有过去时刻的观察值，因此只需要两个观察值即可得到R_t的变化规律，即在时间t时，使用[R_t，R_t-1]；

设剔除受攻击后的测量值序列为

相应的系统矩阵与测量值估计也变为H^e与

乘数G_t对应变为

步骤六：观测获取：获得R_t与

ε＝max(ε×d_ε，ε_min) (14)

其中，d_ε为ε的衰减速率，ε_min为ε最小值；选择动作后，根据动作与状态得到回报r_t，如式(15)所示：

其中，r₀表示一个标准惩罚参数，其值为1；当出现系统未受到攻击却发出警报情况，与系统受到攻击却不发出警报情况时，回报值为-r₀，其余情况回报值为0；

ζ_t＝r_t+μmax_aQ(o_t+1，·；δ) (16)

ξ_t＝(ζ_t-Q(o_t，a_t；δ))² (17)

a_t＝max(Q(o_t，·；δ)) (18)

式中，Q为已经训练好的DQN神经网络，δ表示该网络的权重。

2.根据权利要求1所述基于DQN算法的智能电网DoS攻击检测方法，其特征在于，步骤三中，求观察值：

式中，γ为R_t的折扣比率，G_t为乘数。

3.根据权利要求1所述基于DQN算法的智能电网DoS攻击检测方法，其特征在于，步骤四包括：

(4.1)修正测量值，包括：

表示t时刻第p组受攻击测量值位置检测的判断依据，

即寻找

再通过

寻找

最后找到

与修正乘数

4.根据权利要求1所述基于DQN算法的智能电网DoS攻击检测方法，其特征在于，步骤六通过以下子步骤来实现：

(6.2)获取观测的滑窗法：在获得

与

后，令

在获得t+1时刻的值

与

与

移除，加入新的观察值得到新的观测

5.根据权利要求1所述基于DQN算法的智能电网DoS攻击检测方法，其特征在于，回报r_t的设置为：当出现系统未受到攻击却发出警报与系统受到攻击却不发出警报两种情况时，会受到惩罚：

其中，r₀为标准惩罚参数，其值为正数。

6.根据权利要求1所述基于DQN算法的智能电网DoS攻击检测方法，其特征在于，步骤八包括：

(8.4)使用式(14)对ε进行更新；

(8.6)对时刻t进行加1的更新操作；

(8.7)使用步骤一获得系统测量值y_t；

及它们对应的乘数G_t与

进而获得t时刻观测o_t，返回(8.5)；

(8.10)更新t值，并使用步骤七根据上一时刻的观测和动作获取回报；

(8.11)更新DQN网络；

(8.12)使用步骤一获得系统测量值y_t；

及它们对应的乘数G_t与

进而获得t时刻观测o_t；

(8.15)使用ε贪婪策略选择当前时刻的动作，并返回至(8.9)；

(8.17)结束DQN网络的训练。

7.根据权利要求1所述基于DQN算法的智能电网DoS攻击检测方法，其特征在于，步骤九包括：

(9.2)确定攻击时间集合Tau；

(9.5)对时刻t进行加1的更新操作；

(9.6)使用步骤一获得系统测量值y_t；

及它们对应的乘数G_t与

进而获得t时刻观测o_t，返回(9.4)；

(9.9)对时刻t进行加1的更新操作；

(9.10)使用步骤一获得系统测量值y_t；

及它们对应的乘数G_t与

进而获得t时刻观测o_t；

(9.13)使用最优策略进行动作选择，如式(18)所示：

a_t＝max(Q(o_t，·；δ)) (18)

式中，Q表示导入的DQN网络，δ表示权重；

(9.15)检测结束。