CN110430224B

CN110430224B - 一种基于随机块模型的通信网络异常行为检测方法

Info

Publication number: CN110430224B
Application number: CN201910864914.5A
Authority: CN
Inventors: 左宇; 王颖舒; 刘晴; 张娟娟; 袁舒; 黄韬; 徐拓之; 李易; 韦倩
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-11-16
Anticipated expiration: 2039-09-12
Also published as: CN110430224A

Abstract

本发明公开了一种基于随机块模型的通信网络异常行为检测方法，它包括：步骤1、处理网络数据：从获得的网络数据中提取源IP地址目的IP地址；步骤2、构建邻接矩阵A；步骤3、确定随机块模型输入矩阵；步骤4、通过随机块模型输入矩阵得到网络拓扑图；步骤5、计算z‑score值；步骤6、通过z‑score值判断网络是否异常；解决了现有技术针对网络异常行为检测没有考虑到网络数据之间的交互信息,不能够全面地展现通信网络行为的特征等技术问题。

Description

一种基于随机块模型的通信网络异常行为检测方法

技术领域

本发明属于网络异常检测技术，尤其涉及一种基于随机块模型的通信网络异常行为检测方法。

背景技术

随着互联网的发展和业务量的不断增长，通信网络正在向高速化，多样化，复杂化方向发展，网络为人们提供很好便利性的同时，通信网络异常行为也应运而生。使网络的服务率下降，人们的网络体验变低，网络通信的安全性、可靠性和高效性已经成为我们重点关注的问题。

网络异常行为的特点是发作突然，先兆特征未知，大量消耗网络资源，导致网络拥塞、网络链路利用率下降、显著降低网络服务质量，有可能在短时间内给网络运营商和客户都产生极大的危害，因此实时检测和响应网络异常行为是防范攻击、制定网络配置策略以实现合理利用网络资源的重要手段。

然而，在实际的网络中，要进行实时统计的数据量是巨大的，由于测量、分析和存储等计算机资源的限制，无法实现全部网络行为的分析。异常检测算法的最终目标是要从巨大且处于不断变化的正常网络行为中，检测到相对较小的网络异常行为，而且要满足实时性的要求，因而系统设计和实现的难度很大。

网络异常行为检测技术自提出以来，经过了几十年的不断发展，从最初的简单方法迅速发展成种类繁多的各种算法，成为保证网络安全不可或缺的方法。近年来，常用的异常检测方法主要有统计分析、神经网络、机器学习、数据挖掘等多种方法。

现有的网络异常行为检测技术都有一些缺点，如报警意义不明确、可扩展性较差、实时性和精确性依旧不高等。另外传统的网络异常行为检测方法没有考虑到网络数据之间的交互信息,不能够全面地展现通信网络行为的特征。

发明内容

本发明要解决的技术问题是：提供一种基于随机块模型的通信网络异常行为检测方法，以解决现有技术针对网络异常行为检测没有考虑到网络数据之间的交互信息,不能够全面地展现通信网络行为的特征等技术问题。

本发明的技术方案是：

一种基于随机块模型的通信网络异常行为检测方法，它包括：

步骤1、处理网络数据：从获得的网络数据中提取源IP地址目的IP地址；

步骤2、构建邻接矩阵A；

步骤3、确定随机块模型输入矩阵；

步骤4、通过随机块模型输入矩阵得到网络拓扑图；

步骤5、计算z-score值；

步骤6、通过z-score值判断网络是否异常。

步骤2所述构建邻接矩阵A的方法为：将网络数据中的源IP地址和目的IP地址抽象为网络拓扑图中的节点，一条网络流代表着网络拓扑图的一条边；然后根据得到的网络拓扑图，构建邻接矩阵A，构建邻接矩阵有N个节点就是N×N的矩阵，矩阵中的元素由每条网络流决定，如果两个节点有通信行为，对应矩阵中的元素就为1，两个节点没有通信行为，对应矩阵中的元素就为0。

确定随机块模型矩阵的方法包括：

(1)定义随机块模型的块数为k，k∈R；

(2)定义块中节点成员z,z∈{1,...,k}^N,z_i表示节点在第i块中，N表示节点的总数；

(3)定义随机块模型矩阵M∈R^k×k,其中矩阵中的元素M_rs的意义为块r中的节点连接到块s中的节点的概率；

(4)确定随机块模型矩阵M中的元素M_rs的公式(1-1)如下：

式中n_r是块r中的节点数，n_s是块s中的节点数，m_rs是块r和块s之间联系的总边数；

(2)确定块中节点成员z的公式(1-2)如下：

(3)利用极大似然法计算概率分布参数P(A|z,M)，公式(1-3)如下：

计算z-score值的公式为：

由随机块模型得到归一化互信息值：

式中：H(A)是节点A根据随机块模型分配到某个社团的概率计算得到的信息熵，H(B)是节点B根据随机块模型分配到某个社团的概率计算得到的信息熵，H(A,B)是根据节点A和节点B的联合概率密度计算得到的互信息；

计算z-score值的公式为：

本发明有益效果：

本发明引入随机块模型方法，利用随机块模型的核心思想，块內具有很高的相似性,块间具有很高的差别性,来将正常行为节点和异常行为节点进行聚类划分；研究常见通信网络异常行为通过随机块模型后网络拓扑图的变化特征；从网络拓扑图中直观的看出通信网络异常行为。

本发明引入z-score值方法：将由正常通信网络行为通过随机块模型得到的归一化互信息值看作一组观测值，计算其均值和标准差，进而将正常通信网络行为数据的均值和标准差作为标准，利用z-score值的公式，计算各个观测值的z-score值。

本发明基于随机块模型的网络异常检测算法，实现了网络异常的检测，具有如下优点：

(1)通过随机块模型的引入，能够直接地、准确的将通信网络正常行为与通信网络异常行为通过随机块模型后的网络拓扑图特征特点进行区分。

(2)通过引入z-score值，根据其在统计学中的经验法则，进而搭建基于归一化互信息的z-score值图谱，能够直观地判断是否有疑似异常发生，以及疑似异常发生的时刻和程度。

解决了现有技术针对网络异常行为检测没有考虑到网络数据之间的交互信息,不能够全面地展现通信网络行为的特征等技术问题。

附图说明

图1是本发明流程示意图。

具体实施方式

网络数据的转换提取

直接获得的网络数据是以二进制形式存储的,所以在分析之前要将这些原始二进制网络流数据转换成可识别的信息。数据中,并不是每一项都是本文关心的,所以转换时.只关心源IP地址目的IP地址。

将相似行为定义为具有相同目的节点的连接行为，通常情况下，正常的通信网络行为中，存在相似行为的节点数量很少，异常的通信网络行为中，存在的相似行为的节点数量一般很多，根据可是别的网络数据，主要关注源IP地址，和目的IP地址，由不同的通信网楼异常行为的原理和特性，就可以发现异常网络数据的特点。

分布式拒绝服务攻击通信网络异常行为，它的网络数据特点为，源IP地址随机分布，但是目的IP地址全部一致，再比如网络扫描通信网络异常行为，它的网络数据特点为，源IP地址全部一致，但是目的IP地址逐一增加。而对于正常的通信网络行为，它的网络数据特点为，源IP地址随机分布，目的IP地址也是随机分布的。

由以上的分析可以总结出，正常的通信网络行为的网络数据特点与异常的通信网络行为的网络流数据特点是有明显区别的。通过可识别的网络数据可知，异常的通信网络行为中的确有大量的相似节点，符合理论假设。所以我们就可以根据网络行为特征特点，设计检测通信网络异常行为的方法。

构建邻接矩阵A；

得到网络数据，我要把网络数据中的源IP地址，目的IP地址，提取出来。网络数据中的源IP地址，目的IP地址，这两个地址可以抽象为网络拓扑图中的节点，一条网络流代表着网络拓扑图的一条边。然后就可以根据得到的网络拓扑图，构建邻接矩阵A，构建邻接矩阵是有N个节点就是N×N的矩阵，矩阵中的元素由每条网络流决定，假如两个节点有通信行为，对应矩阵中的元素就为1，两个节点没有通信行为，对应矩阵中的元素就为0。通常情况下，邻接矩阵A中的元素A[i][j]存在值时，可以认为节点i与节点j连接关系密切。

确定随机块模型输入矩阵

首先随机块模型根据网络拓扑图定义了一个概率分布参数P(A|z,M),计算这个概率分布参数，需要定义几个关于随机块模型的特定参数，通过定义的参数可以灵活的构建随机块模型矩阵，定义参数如下：

(1)定义随机块模型的块数为k，其中k∈R，R表示全体实数空间。

(2)定义块中节点成员z,其中z∈{1,...,k}^N,z_i表示节点在第i块中，N表示节点的总数。

(3)定义随机块矩阵M∈R^k×k,其中矩阵中的元素M_rs的意义为块r中的节点连接到块s中的节点的概率。

有了以上的定义，我们就可以把网络拓扑图简化为很多的块，和块与块之间的连接关系。随机块模型的中心假设是，每个节点仅基于节点的块成员身份去连接到其它节点。另外每个块内的节点共享同一个参数，即M_rs。

根据随机块模型生成的网络拓扑图会根据参数M(随机块矩阵)，k(划分块数)，z(节点的分配情况)，唯一确定，不同的参数会生成不同的网络拓扑图。我们的任务解释计算出这几个参数，我们采用已知的邻接矩阵对P(A|z,M)中的参数M，z进行计算，对于参数k,因为k是一个自由参数，可以自行选择，选择的原则是参数k的值尽可能远离节点总数N的值，因为当参数k与节点总数N接近时，生成的网络图拓扑结构不够明显。因此本发明中的节点总数N根据一秒网络数据中的实际节点数确定，规定参数k的值为2。当k值为2时能很好的通过网络拓扑与检测出通信网络异常行为。下面介绍在给定具体的邻接矩阵A(A∈R^N×N)的情况下求解参数M，k。

(1)确定参数M(随机块模型矩阵)中的元素M_rs的公式(1-1)如下：

其中n_r是块r中的节点数，n_s是块s中的节点数，m_rs是块r和块s之间联系的总边数。

(2)确定参数z(节点的分配情况)的公式(1-2)如下：

(3)利用极大似然法计算概率分布参数P(A|z,M)，公式(1-3)如下:

以上就是随机块模型算法，我们可以根据网络数据预处理得到邻接矩阵A，然后计算以上参数，最后得到通过随机块模型后的网络拓扑图。

计算z-score值；

由随机块模型可以得到归一化互信息值，这个值是度量节点之间相似性的一种表达方式，其中归一化互信息的值越大，就表明节点之间的相似程度越高，反之归一化互信息的值越小说明节点之间的相似程度越低，同时归一化互信息的值介于0-1之间。通常情况下，正常的通信网络行为中，存在相似行为的节点数量很少，异常的通信网络行为中，存在的相似行为的节点数量一般很多，利用网络的这个属性，再根据归一化互信息的定义，可以得出归一化互信息值越大，发生通信网络异常行为的概率就越大，反之归一化互信息值越小，发生通信网络异常行为的概率就越小。下面是计算归一化互信息的公式(1-4)。

其中H(A)是节点A根据随机块模型分配到某个社团的概率，计算得到的信息熵，同理H(B)是节点B根据随机块模型分配到某个社团的概率，计算得到的信息熵，H(A,B)是根据节点A和节点B的联合概率密度，计算得到的互信息。有以上的想法就可以引入z-score来作为判断是否发生异常行为的数值依据，z-score也叫标准分数，可以理解为是一个数与平均数的差再除以标准差的过程，通过引入z-score，可以设置置信区间。基于经验法则,当观测值的z得分的绝对值小于2时,观测值可以认为是正常值；当观测值的2得分的绝对值大于2时,观测值视为异常值。计算z-score值的公式(1-5),(1-6),(1-7)如下：

其中I表示的是公式(1-4)中的归一化互信息值，

表示的是多个不同归一化互信息值的平均值，S²表示的是整个运算过程中归一化互信息值的方差。

由随机块模型可以得到归一化互信息值能够表征这个采样点的网络数据节点的相似性,而不同的采样点所表示的网络数据信息会随着网络的动态变化而变化。所以可以计算每个采样点对应不同的归一化互信息值,用来表示这个采样点的网络节点的相似性大小。本发明针对50个采样点的网络流,进行若干个相应归一化互信息值计算和样本训练,就可以获得正常的网络流行为的轮廓信息。进而将即时的采样点的网络数据的z-score值进行比对,获得与正常网络行为的偏离程度,实现异常检测。

根据经验在正态分布的假设下，计算得到的z-score值的绝对值小于2就是正常网络行为，z-score分数的绝对值大于2则视为异常网络行为。之后通过对50次正常网络行为的训练，计算得到了I＝0.00404,s＝0.00232，有了这个数据作为依据就可以计算出要测试网络行为的z-score值的具体数值，判别要测试的网络行为是否为正常行为。z-score值会受历史时刻的样本值的影响,譬如,历史时刻存在一个非常大或非常小的样本值会对均值和标准差产生影响,进而影响z-score值,导致相比的变化程度不够明显而造成漏检。因此本文在引入z-score值的基础之上,通过排除极大值，极小值的方法,以减小历史时刻样本值的影响,凸显样本值相对于均值的偏差程度,以达到更加准确检测异常行为的目的。

Claims

1.一种基于随机块模型的通信网络异常行为检测方法，它包括：

步骤2、构建邻接矩阵A；

所述构建邻接矩阵A的方法为：将网络数据中的源IP地址和目的IP地址抽象为网络拓扑图中的节点，一条网络流代表着网络拓扑图的一条边；然后根据得到的网络拓扑图，构建邻接矩阵A，构建邻接矩阵有N个节点就是N×N的矩阵，矩阵中的元素由每条网络流决定，如果两个节点有通信行为，对应矩阵中的元素就为1，两个节点没有通信行为，对应矩阵中的元素就为0；

步骤3、确定随机块模型输入矩阵；

确定随机块模型矩阵的方法包括：

(1)定义随机块模型的块数为k，k∈R；

(4)确定随机块模型矩阵M中的元素M_rs的公式(1-1)如下：