CN109960631B

CN109960631B - 一种安全事件异常的实时侦测方法

Info

Publication number: CN109960631B
Application number: CN201910210405.0A
Authority: CN
Inventors: 崔煜华; 何黎刚; 吴文泰
Original assignee: Shandong Kyushu Xintai Information Polytron Technologies Inc
Current assignee: Shandong Kyushu Xintai Information Polytron Technologies Inc
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2020-01-03
Anticipated expiration: 2039-03-19
Also published as: CN109960631A

Abstract

一种安全事件异常的实时侦测方法，可以快速、有效地提取多通道安全事件计数序列在多个时间维度（如年、月、星期和日）上的周期性并量化为周期项（即各时间维度对安全事件计数值的贡献）。能够以低训练成本的方式针对多通道、长周期安全事件计数序列构建出高精度、实时预测模型，由于本方法向预测模型中引入多时间维度的周期项作为额外输入，训练循环神经网络预测模型的时间步长度可大幅缩短，使得网络复杂度下降，训练成本和过拟合可能性降低，同时提升预测精度。使用预测模型结合基于偏差分布估计的概率性异常判定方法，实现了相比目前基于绝对阈值、基于相对变化和基于简单预测等判定方式更加科学而准确的异常判定机制。

Description

一种安全事件异常的实时侦测方法

技术领域

本发明涉及服务器(集群)异常/受攻击监控与侦测技术领域，具体涉及一种安全事件异常的实时侦测方法。

背景技术

服务器系统安全监控、网络安全监控是实现生产环境安全防护的基础，是运维工作中最重要的一部分。服务器/网络安全监控一直受到IT企业的高度重视，但长期实践表明恶意攻击和安全异常的出现往往具有不规律性，攻击/异常产生的效果(主要指目标系统的状态变化)则具有不可预测性，导致安全监控中对它们的侦测十分困难。

目前有非常多的异常/攻击(以下统称异常)判定技术被运用在服务器系统/网络安全监控领域，包括基于绝对阈值的异常侦测方法、基于相对变化的异常侦测方法、基于序列比对的异常侦测方法和基于简单预测的异常侦测方法等等，但均存在一些问题，主要表现在：

a)基于绝对阈值的异常侦测方法通过检查目标事件序列计数的绝对值是否超过预设阈值进行异常判定；基于相对变化的异常侦测方法则监听的是序列的波动大小，并依据波动阈值作异常判定。这两种方法实现简单、运用广泛且不容易出现“漏报”，但“误报”的概率相对较高。

b)基于序列比对的异常侦测方法一般事先挖掘正常序列的模式并存储下来，从而通过对照正常模型和目标事件的时间序列片段来进行异常判定；该类方法的主要问题是时间开销大(模式挖掘和序列比对均具有高时间复杂度)、仅适用单通道序列并且依赖基准序列的有效性，不能用于多通道安全事件的实时异常侦测。

c)基于预测的异常侦测方法是机器学习兴起后使用较多的方法，核心在于构建序列预测模型来学习序列的正常变化，从而根据预测和实际值偏差找出异常出现的时间点。目前，虽然有多样化的模型和工具可用于构建安全事件计数序列的预测模型(其本质为时间序列)，例如自回归模型、周期性分解模型和循环神经网络等等，然而大多数现有解决方案采用单一模型实现简单预测，因此往往存在缺陷；例如自回归模型(如ARMA)无法学习到周期性，分解模型(如 Facebook.Prophet)对周期性弱的数据拟合不佳，循环神经网络模型对长周期、多周期数据学习困难且学习代价高。

发明内容

本发明为了克服以上技术的不足，提供了一种在不需要明显增加网络复杂度和训练代价的同时提升网络的预测精度的安全事件异常的实时侦测方法。

本发明克服其技术问题所采用的技术方案是：

一种安全事件异常的实时侦测方法，包括如下步骤：

a)通过公式

计算预设的周期时间维度为p的且构造序列通道为m的周期项

的傅里叶级数，通过公式β_m，p＝(α_m，p，0，α_m，p，1，b_m，p，1，...，α_m，p，O，b_m，p，O)在带时间戳的训练数据集上进行拟合，拟合得到第m个通道在时间周期维度p上的级数系数向量β_m，p，其中O为阶数，P为周期长度，k为傅里叶级数的项标，t为当前时刻，α和b均为傅里叶级数中的系数；

b)通过公式

计算复杂非线性函数值

其中x(t)为当前时间帧事件序列向量，s(t)为当前帧周期项向量，x(t-1)，x(j-2)，...，x(0)为历史窗口帧序列向量；

c)利用已训练完成的并融入了多维周期性特征的循环神经网络在不含异常数据的基准数据集上预测输出，通过公式计算均方偏差序列ε(t)，将预测输出结合标签输出计算得到均方偏差序列，利用最大似然估计法计算偏差遵从的高斯分布的均值μ_e及高斯分布的标准差σ_e；

d)通过公式

拟合密度函数f_ε(ε_i)，其中ε_i为基准数据集上得到的偏差序列中的各样本对应的偏差，根据公式

建立最大似然估计函数L，式中Nb为基准测试集大小，通过公式

计算最大似然估计函数L的对数ln(L)；

e)通过公式

及公式

使用最小二乘法求解对数ln(L)，得到分布参数的估计值和

f)以t-1时刻序列值x(t-1)和各通道周期项s(t-1)作为输入，代入步骤b)中公式

对t时刻序列值x(t)进行预测得到预测值在t时刻计算预测值

与实际值x的均方偏差ε(t)，将均方偏差ε(t)带入步骤d)中公式中使ε_i＝ε(t)计算得到偏差概率p(ε(t))，根据用户对异常数据的敏感度设置偏差概率阈值H，当p(ε(t))≥H时系统判定为无异常，当p(ε(t))≤H且p(ε(t))≥μ时，系统判定当前侦测窗口出现了异常，μ为偏差序列ε_i的平均值。

本发明的有益效果是：可以快速、有效地提取多通道安全事件计数序列在多个时间维度(如年、月、星期和日)上的周期性并量化为周期项(即各时间维度对安全事件计数值的贡献)。能够以低训练成本的方式针对多通道、长周期安全事件计数序列构建出高精度、实时预测模型，由于本方法向预测模型中引入多时间维度的周期项作为额外输入，训练循环神经网络预测模型的时间步长度可大幅缩短，使得网络复杂度下降，训练成本和过拟合可能性降低，同时提升预测精度。使用预测模型结合基于偏差分布估计的概率性异常判定方法，实现了相比目前基于绝对阈值、基于相对变化和基于简单预测等判定方式更加科学而准确的异常判定机制。

具体实施方式

下面对本发明做进一步说明。

一种安全事件异常的实时侦测方法，包括如下步骤：

a)通过公式计算预设的周期时间维度为p的且构造序列通道为m的周期项s_m，p(t)的傅里叶级数，通过公式β_m，p＝(α_m，p，0，α_m，p，1，b_m，p，1，...，α_m，p，O，b_m，p，O)在带时间戳的训练数据集上进行拟合，拟合得到第m个通道在时间周期维度P上的级数系数向量β_m，p，其中O为阶数，P为周期长度，k为傅里叶级数的项标，t为当前时刻。通过构建周期性模型，模型原理是根据预设的周期时间维度p(例如月和星期)构造序列通道m的周期项s_m，p(t)相应的傅里叶级数，并在带时间戳的训练数据集上进行拟合。具体实现方法是使用Facebook的开源周期性模型 Prophet依次拟合经过筛选、聚合、序列化和标准化预处理的输入序列的各个通道，每个通道的拟合结果中取为预定义的年、月、星期和日周期中的一个或多个；然后将相应的时间戳分量(一个日周期、星期周期的事件计数及其对应的时刻) 代入各通道的周期性模型，以得到相应的周期项，例如在第1个通道中星期一对应周期项为s_1，7(l)，α和b均为傅里叶级数中的系数。

b)以提取出的序列周期项为新特征、安全事件计数序列值为原始特征，构建并训练以未来时间点的安全事件序列取值为输出的循环神经网络，该网络作为多通道事件序列的预测模型；使用循环神经网络建立预测模型的基本原理是将多通道序列的预测值构建为一个复杂非线性函数。通过公式

计算复杂非线性函数值

其中x(t)为当前时间帧事件序列向量(即预测值)，s(t)为当前帧周期项向量(即实际值)，x(t-1)，x(t-2)，...，x(0)为历史窗口帧序列向量。

c)利用已训练完成的并融入了多维周期性特征的循环神经网络在不含异常数据的基准数据集上预测输出，通过公式

计算均方偏差序列ε(t)，将预测输出结合标签输出计算得到均方偏差序列，利用最大似然估计法计算偏差遵从的高斯分布的均值μ_e及高斯分布的标准差σ_e。

d)通过公式

计算最大似然估计函数L的对数ln(L)。

e)通过公式

使用最小二乘法求解对数ln(L)，得到分布参数的估计值

和

分布参数的估计值决定了本方法对偏差的高斯分布的估计。该估计作为后续事件序列异常判定的依据。 f)以t-1时刻序列值x(t-1)和各通道周期项s(t-1)作为输入，代入步骤b)中公式

对t时刻序列值x(t)进行预测得到预测值

在t时刻计算预测值

与实际值x的均方偏差ε(t)，将均方偏差ε(t)带入步骤d)中公式

中使ε_i＝ε(t)计算得到偏差概率p(ε(t))，根据用户对异常数据的敏感度设置偏差概率阈值H，当p(ε(t))≥H时系统判定为无异常，当p(ε(t))≤H且 p(ε(t))≥μ时，系统判定当前侦测窗口出现了异常，μ为偏差序列ε_i的平均值。

本安全事件异常的实时侦测方法对多通道安全事件计数序列的周期性特征进行了有效的提取，利用Prophet工具构建了准确的周期性模型并通过拟合多周期傅里叶级数的方式分别提取(经过聚合、序列化和数据标准化等预处理后得到的) 多通道安全事件计数序列在多个预设时间维度上的周期项。进一步以提取出的序列周期项为新特征、安全事件计数序列为原始特征，构建低复杂度但高精度的循环神经网络。该网络作为预测模型，用以在小时间粒度(例如秒级)上实现高效的连续预测；相比单纯的端到端循环神经网络，本发明使用的预测模型在长时间序列上训练成本低且不易出现过拟合。预测模型在当前帧的均方预测偏差为依据，结合在基准数据集上的偏差序列预先估计的偏差分布以及预先设定的偏差概率阈值，实时判定被监控系统当前是否出现了异常。

通过上述操作步骤，可以快速、有效地提取多通道安全事件计数序列在多个时间维度(如年、月、星期和日)上的周期性并量化为周期项(即各时间维度对安全事件计数值的贡献)。能够以低训练成本的方式针对多通道、长周期安全事件计数序列构建出高精度、实时预测模型，由于本方法向预测模型中引入多时间维度的周期项作为额外输入，训练循环神经网络预测模型的时间步长度可大幅缩短，使得网络复杂度下降，训练成本和过拟合可能性降低，同时提升预测精度。使用预测模型结合基于偏差分布估计的概率性异常判定方法，实现了相比目前基于绝对阈值、基于相对变化和基于简单预测等判定方式更加科学而准确的异常判定机制。

Claims

1.一种安全事件异常的实时侦测方法，其特征在于，包括如下步骤：

a)通过公式

计算预设的周期时间维度为p的且构造序列通道为m的周期项s_m，p(t)的傅里叶级数，通过公式β_m，p＝(α_m，p，0，α_m，p，1，b_m，p，1，...，α_m，p，O，b_m，p，O)在带时间戳的训练数据集上进行拟合，拟合得到第m个通道在时间周期维度p上的级数系数向量β_m，p，其中O为阶数，P为周期长度，k为傅里叶级数的项标，t为当前时刻，α和b均为傅里叶级数中的系数；

b)通过公式