CN110753053B

CN110753053B - 一种基于大数据分析的流量异常预判方法

Info

Publication number: CN110753053B
Application number: CN201911008033.XA
Authority: CN
Inventors: 傅卫国
Original assignee: Beijing Dingxingda Information Technology Co ltd
Current assignee: Beijing Dingxingda Information Technology Co ltd
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2021-07-20
Anticipated expiration: 2039-10-22
Also published as: CN110753053A

Abstract

本发明公开了一种基于大数据分析的流量异常预判方法，涉及网络安全技术领域。该方法通过从流数据信息中提取数据特征，并验证数据特征之间的线性相关性，如果数据特征之间线性相关，则计算残差e，最后通过比较|e_i|和z_α/2的大小，判定第i个时间片的流量是否异常。可见，采用本发明提供的方法，通过将网络安全结合业务做精细化的流量解析，可以实现对流量异常情况的预判，可以在安全威胁爆发前预判网络安全趋势，而不只是被动防御，不会出现误告或新型攻击漏告的情况，从而能够有效保护网络安全。

Description

一种基于大数据分析的流量异常预判方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于大数据分析的流量异常预判方法。

背景技术

随着网络和业务的不断发展，网络中包含大量的数据，既有大量的正常数据，各种异常行为数据，而这些异常行为数据可能会暗含病毒、网络攻击行为数据，还可能导致业务设备无法正常运行，从而影响整体业务的正常运行，进而带来一系列连锁问题，所以，异常行为检测对于维护网络安全具有重要的作用。

目前，网络异常行为的检测方法通常为：依赖单个或多个安全设备通过将告警日志等数据与已知异常行为特征库对比，发现网络病毒及网络攻击等行为数据，而由于异常行为数据千变万化且不断衍生新版本，所以，异常行为特征收集更新速度远跟不上异常行为产生速度，因此，目前这种通过异常行为特征识别异常数据的方法，只能是被动防御，无法在安全威胁爆发前预判网络安全趋势，对很多未知或者新的异常行为也无法进行识别，从而不能有效保护网络安全。

发明内容

本发明的目的在于提供一种基于大数据分析的流量异常预判方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于大数据分析的流量异常预判方法，包括如下步骤：

S1，获取流数据信息；

S2，根据所述流数据信息提取数据特征；

S3，验证所述数据特征之间的线性相关性，如果验证通过，则根据数据特征的值采用如下公式计算残差e；

y＝α₁x+α₀+e

其中，x、y均为数据特征，e为残差，α₁，α₀为参数；

S4，比较|e_i|和z_α/2的大小，若|e_i|>z_α/2，则判定第i个时间片的流量出现异常，其中，|e_i|为第i个时间片的残差绝对值；

z_α/2为正态分布表中查找到的值，表示当前分位数α/2下的误差概率，α是预设的正态分位数。

优选地，所述流数据信息包括源IP地址、目的IP地址、源端口号、目的端口号、协议号、包数、字节数。

优选地，S2包括：

S201，以流数据作为键值，利用哈希算法将每个时间片的流数据分到m个组中；

S202，统计每个时间片内每个组中的数据流的数量和字节数，分别得到n×m的流数量矩阵FCM和字节数矩阵FOM，FCM和FOM作为数据特征，其中n为时间片的个数，m为每个时间片内的流数据的分组数目。

优选地，S202之后还包括步骤S203，对FCM和FOM分别计算每一行的熵值，对应得到两个n维数组FCIM和FOIM，作为新的数据特征。

优选地，

第i个时间片内的FCIM按照如下公式进行计算：

其中，C(i，j)为FCM中第i行第j列的元素；

第i个时间片内的FOIM按照如下公式进行计算：

其中，O(i，j)为FOM中第i行第j列的元素。

优选地，

验证FCIM与FOIM的线性相关性，如果验证通过，则根据FCIM与FOIM的值采用如下公式计算残差e：

y＝α₁x+α₀+e

其中，x为FCIM，y为FOIM，e为残差，α₁，α₀为参数。

优选地，所述验证FCIM与FOIM的线性相关性，包括：

绘制Q-Q图，直观判断FCIM和FOIM的线性相关性；

计算皮尔逊相关系数验证FCIM和FOIM的线性相关性。

优选地，参数α₁，α₀按照如下公式计算得到：

其中，x_i为FCIM中的第i个元素；

为FCIM中所有元素的均值；

y_i为FOIM中的第i个元素；

为FOIM中所有元素的均值。

优选地，S3和S4之间还包括步骤利用标准差估计值σ对残差e进行标准化：

其中，

得到残差e的标准化结果为：

优选地，S4之后还包括步骤：

对流量出现异常的第i个时间片的数据流详细信息进行统计；

根据异常数据特征库，判断第i个时间片的数据流的异常类型，所述异常类型包括：流量网络攻击异常、扫描行为异常和端口异常；

将数据流和判断结果均加入到所述异常数据特征库，对其进行更新。

本发明的有益效果是：本发明提供的基于大数据分析的流量异常预判方法，通过从流数据信息中提取数据特征，并验证数据特征之间的线性相关性，如果数据特征之间线性相关，则计算残差e，最后通过比较|e_i|和z_α/2的大小，判定第i个时间片的流量是否异常。可见，采用本发明提供的方法，通过将网络安全结合业务做精细化的流量解析，可以实现对流量异常情况的预判，可以在安全威胁爆发前预判网络安全趋势，而不只是被动防御，不会出现误告或新型攻击漏告的情况，从而能够有效保护网络安全。

附图说明

图1是本发明提供的基于大数据分析的流量异常预判方法流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种基于大数据分析的流量异常预判方法，包括如下步骤：

S1，获取流数据信息；

S2，根据所述流数据信息提取数据特征；

y＝α₁x+α₀+e

其中，x、y均为数据特征，e为残差，α₁，α₀为参数；

z_α/2为正态分布表中查找的值，表示当前分位数α/2下的误差概率，α是预设的正态分位数。

其中，所述流数据信息包括源IP地址、目的IP地址、源端口号、目的端口号、协议号、包数、字节数。

作为一个实施例，本发明中所用到的流数据数据可以为采集自铁路的NetFlow流量数据。采集器可以以1∶1000的采样率采集数据，时间长度为5分钟。具体的，模型训练数据采集了2019年7月14日0点到13点共十三个小时的数据，以5分钟为一个时间片，共有156个时间片。

该实施例中采集的流数据信息中，包括源IP地址、目的IP地址、源端口号、目的端口号、协议号、包数、字节数。

在本发明中，S2包括：

在一个实施例中，可以以流数据的五元组(源IP地址、目的IP地址、源端口号、目的端口号、协议号)作为键值，将每个时间片的流数据利用哈希算法分到m个组中。统计每个时间片内每个组中的数据流的数量和字节数，分别得到n×m的流数量矩阵FCM和字节数矩阵FOM，FCM和FOM作为数据特征，其中n为时间片的个数，m为每个时间片内的流数据的分组数目。流数量矩阵FCM中的元素FCM(i，j)表示第i个时间片第j组的数据流数量，字节数矩阵FOM中的元素FOM(i，j)表示第i个时间片第j组的数据字节数。

如果一个时间片某个组内的数据流数量越多，则其字节数也应该会越大，也就是说，数据流的数目分布和字节数具有相似的分布。而熵值能够反映数据的分布程度。因此，可以对FCM和FOM分别计算每一行的熵值，通过得到的熵值结果判断数据流的数目分布和字节数是否具有相似的分布。

本发明实施例中，S202之后还包括步骤S203，对FCM和FOM分别计算每一行的熵值，对应得到两个n维数组FCIM和FOIM，作为新的数据特征。

然后，根据FCIM和FOIM判断数据流的数目分布和字节数是否具有相似的分布。

其中，

第i个时间片内的FCIM按照如下公式进行计算：

其中，C(i，j)为FCM中第i行第j列的元素；

第i个时间片内的FOIM按照如下公式进行计算：

其中，O(i，j)为FOM中第i行第j列的元素。

本发明实施例中，验证FCIM与FOIM的线性相关性，如果验证通过，则根据FCIM与FOIM的值采用如下公式计算残差e：

y＝α₁x+α₀+e

其中，x为FCIM，y为FOIM，e为残差，α₁，α₀为参数。

上述方法中，如果通过验证，发现FCIM与FOIM线性相关，则可以根据FCIM与FOIM的值以及上述公式计算残差e。

其中，可以首先通过绘制Q-Q图的方式直观判断FCIM和FOIM的线性相关性，然后计算皮尔逊相关系数验证两者的线性相关性。Q-Q图原理是分别以两个概率分布的分位数作为自变量和因变量绘制曲线图，如果该曲线近似于一条直线，则说明这两个概率分布具有很强的相关性。

皮尔逊相关系数是统计学中验证两个变量线性相关程度的指标，具体计算公式如下：

其中，FCIM序列记作c(i)，其样本均值为

FOIM序列记作o(i)，其样本均值为

皮尔逊相关系数越接近-1，说明两者具有越强的负相关性；越接近1说明两者具有越强的正相关性。

本发明实施例中，利用采集自铁路的NetFlow流量数据计算得到皮尔逊相关系数结果为0.932，因此FCIM与FOIM具有很强的正线性相关性。

另外，本发明中，如下公式

y＝α₁x+α₀+e

中的参数α₁，α₀可以按照如下公式计算得到：

其中，x_i为FCIM中的第i个元素；

为FCIM中所有元素的均值；

y_i为FOIM中的第i个元素；

为FOIM中所有元素的均值。

参数α₁，α₀的计算公式可以按照如下方法得到：

按照如下公式计算残差平方和：

然后分别对α₀和α₁求导，再令导数等于0，得到参数α₁，α₀的计算公式。

在本发明的一个优选实施例中，S3和S4之间还包括步骤利用标准差估计值σ对残差e进行标准化：

其中，

得到残差e的标准化结果为：

则，S4中利用标准化残差e与z_α/2进行比较，判定第i个时间片的流量是否出现异常。

本发明实施例中，首先进行时间片段异常检测，然后进行流量网络攻击异常检测、扫描行为异常检测、端口异常检测，从而得到最终结果。时间片异常检测可以从全局观判断某个时间片内流量是否发生异常，但并不能确定何种异常。而流量网络攻击异常检测、扫描行为异常检测、端口异常检测是在时间片异常的基础上进行深入分析从而对具体异常类型进行判断。

因此，本发明中，如果判定出第i个时间片的流量出现了异常，S4之后还包括步骤：

对流量出现异常的第i个时间片的数据流详细信息进行统计；

将数据流和判断结果均加入到所述异常数据特征库，对其进行更新。上述方法中，主要是对于某个时间片流量出现异常的数据进行更深入的分析，推断异常产生类型和重点怀疑端口和IP。通过对异常数据进行统计分析得到异常数据特征库，异常数据类型包括流量网络攻击、扫描行为异常、端口异常三大类。以视频监控应用流量为例，每类特征判断逻辑如下：

1.流量网络攻击

判断连续一段时间段内摄像头与存储服务器、磁盘阵列是否有交互数据，若没有则产生流量中断异常告警；若下次采集仍没有交互则继续告警，否则恢复正常。

2.扫描行为异常

对该时间段内的服务器、磁盘阵列的请求和响应数据进行统计，若有请求有响应则正常；若有请求无响应，则统计服务器、磁盘阵列是否超出对端IP数量最大阈值，若超出则产生扫描行为异常告警，否则不属于扫描行为异常。

3.端口异常

通过统计历史数据自学习建立历史端口模型，以及系统提前录入的黑名单异常端口，实时监测针对服务器、磁阵对摄像头、终端的端口，只分析定义为正常范围内的请求行为，对交互行为中响应端的端口检测，端口超出交互行为端口范围或属于黑名单端口进行告警，对其他类型的资产根据网络中的交互放入的记录分析表根据其特征进行深入分析。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明提供的基于大数据分析的流量异常预判方法，通过从流数据信息中提取数据特征，并验证数据特征之间的线性相关性，如果数据特征之间线性相关，则计算残差e，最后通过比较|e_i|和z_α/2的大小，判定第i个时间片的流量是否异常。可见，采用本发明提供的方法，通过将网络安全结合业务做精细化的流量解析，可以实现对流量异常情况的预判，可以在安全威胁爆发前预判网络安全趋势，而不只是被动防御，不会出现误告或新型攻击漏告的情况，从而能够有效保护网络安全。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。