CN102158372A

CN102158372A - 一种分布式系统异常检测方法

Info

Publication number: CN102158372A
Application number: CN2011100932784A
Authority: CN
Inventors: 张乐君; 张健沛; 杨静; 国林
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2011-04-14
Filing date: 2011-04-14
Publication date: 2011-08-17
Anticipated expiration: 2031-04-14
Also published as: CN102158372B

Abstract

本发明提供的是一种分布式系统异常检测方法。确定测度属性的关联度，并生成测度属性关系网络模型；构建测度属性关系网络划分模型；构建基于测度属性关系网络划分的分布式系统异常检测模型，并利用该模型进行异常检测。本发明可以动态的增量式更新分布式系统的测度属性关系网络的划分结果，并构建基于测度属性网络划分的分布式系统异常检测模型。

Description

一种分布式系统异常检测方法

技术领域

本发明涉及的是一种网络安全检测方法。具体地说是一种分布式系统中异常检测方法。

背景技术

随着网络规模和新服务的不断增加，分布式系统得到了广泛的应用，由于构成分布式系统的网络自身存在的局限性和信息系统的脆弱性，使得网络和计算机系统的硬件资源、通信资源、软件及信息资源等因各种原因而遭到破坏、更改、泄露或功能失效，使分布式信息系统处于异常状态，甚至引起系统的崩溃瘫痪，造成巨大的经济损失。因此如何对分布式系统的异常进行检测，成为亟待解决的问题。在计算机故障诊断、入侵检测等领域，一般只存在符合期望的、正常类的行为数据模式，而不符合期望行为的数据模式由于采样代价高昂或者采样非常困难，使得对异常行为所知甚少，但是在异常行为中却蕴含了显著的(通常具有很大危害甚至致命性的)行为信息。异常检测旨在检测出不符合期望行为的数据，因而适合应用于分布式系统的故障诊断、入侵检测等领域。

国内外的研究学者对信息系统异常检测方法的研究可以分为以下几类：1)基于安全模式的异常检测：由安全专家定义安全异常事件模式，在系统安全事件流中发现安全异常事件模式，并实时计算其出现的频度，在分布式系统的监控平台中，安全异常事件模式的偶尔出现，认为在正常范围内，当其出现的频度超过其阈值，则将其认为是异常。2)协议异常检测；协议异常检测不需要对网络的正常行为进行建模，该方法根据RFC(Request for Comment)文档中的规定对协议建模，将不符合协议状态之间的转换描述为异常行为，典型的方法包括：Proc of the 2004 IEEE 5th Annual IEEE Workshop on Assurence and Security刊登的Protocol anomaly detection and verification提出基于有限状态机的协议异常检测模；计算机科学杂志刊登的《基于Markov chain的协议异常检测模型》一文提出的基于隐Markov模型的协议异常检测等，再此基础上计算机学报杂志在《面向业务流程的数据模型异常检测方法》一文中对协议异常检测进行了扩展，提出面向业务流程规范的数据模型异常检测方法。3)数据流量异常检测：通过建立正常情况下的网络流量模型，对异常情况进行捕获；或利用人工智能等方法对流量进行预测，主要有阈值方法、统计模型方法、小波分析方法、奇异值分解等。分布式系统的复杂性和攻击手段的多样性，导致基于安全模式的异常检测无法应用；由于分布式系统的规模过大使得无法直接对数据流进行协议分析来发现异常，目前基于数据流量分析的异常检测方法中还过于粗糙，无法将正常流量的短时间内的增大和异常流量分割开，导致算法误报率过高。

发明内容

本发明的目的在于提供能将正常流量的短时间内的增大和异常流量分割开，误报率低的分布式系统异常检测方法。

本发明的目的是这样实现的：

(1)确定测度属性的关联度，并生成测度属性关系网络模型；

(2)构建测度属性关系网络划分模型；

(3)构建基于测度属性关系网络划分的分布式系统异常检测模型，并利用该模型进行异常检测。

所述的确定测度属性的关联度，并生成测度属性关系网络模型的方法为：1)从系统日志文件，系统审计活动和网络流量统计中获得测度参数的历史数据；2)计算测度属性的相似度，并将其视为属性之间的关联度；3)以系统中的每一个测度属性为结点，以测度属性的关联度为边，构成测度属性的关系网络模型。

所述的构建测度属性关系网络划分模型的方法是：1)对测度属性关系网络模型用隐马尔可夫(HMRF)模型来形式化；2)通过Hammersley-Clifford定理，将MRF(马尔可夫随机场)转换为Gibbs吉布斯公式；3)用吉布斯公式计算划分，实现测度属性划分模型的构建。

所述的构建基于测度属性网络关系划分的分布式系统异常检测模型，并利用该模型进行异常检测的方法是：1)根据最新的监测属性数据计算属性关联度；2)在已构建的测度属性关系网络划分模型中加入最新关联度数据，生成最新的划分结果；3)比较历史划分结果和当前划分结果，构建基于测度属性网络关系划分的分布式系统异常检测模型，通过划分结果的变化情况检测异常事件。

针对已有技术中存在的问题，本发明从分布式系统异常检测问题出发，提出基于测度属性关系网络划分的异常检测方法。

本发明是基于如下问题而设计的：

在分布式系统中自动的异常检测是一个挑战性的任务，因为正常和异常的行为都是异构的和动态的。监测系统测度属性之间的关联度而不是个别的监测每个测度是发现异常的有效要途径。应该把当发现许多测量值升高但是他们的相关性却并不改变标示一种正常的行为。因此，刻画不同测度属性的关联网络进行划分能够帮助发现系统中真正的异常事件，减少误报。

本发明的主要技术特征体现在：

1)建立测度属性关系网络的动态划分模型而不是静态模型。

具体技术路线是：1.根据历史监测数据产生上一时刻测度属性的关系网络划分结果；2.根据当前时间的新数据注入到划分结果中，实现增量的划分，而不需要重新进行划分。

2)建立基于测度属性关系网络划分差异比较的异常检测模型。

具体技术路线：1.根据相继两个时刻的划分结果不同标注异常测度属性；2)根据异常属性集合确定异常事件。

本发明的优点在于：可以动态的增量式更新分布式系统的测度属性关系网络的划分结果，并构建基于测度属性网络划分的分布式系统异常检测模型。

附图说明

图1测度属性关系网络示意图；

图2基于测度属性关系网络划分的异常检测流程示意图。

具体实施方式

下面结合附图举例对本发明做更详细地描述：

1)定义测度属性的关联度，并生成测度属性关系网络模型的方法

对于数据的处理通常可以将数据映射到一个网络模型中，然后利用网络的分析方法对其进行分析，发现其中的规律，具体的构建测度属性关系网络模型的方法步骤如下：

●统计分析所有系统日志文件，系统审计活动和网络流量统计等数据中所包含测度属性的数值；

●根据测度属性的运行趋势，将测度属性的相似度定义测度属性的关联度值；

●以系统中每一个测度属性为节点V，以测度属性的关联度为边W，构建测度属性关系网络模型G＝(V，W)，示意图如图1所示。

2)构建基于测度属性网络关系划分的分布式系统异常检测模型的方法

通过对测度属性的网络划分可以区分分布式系统中不同服务的作用范围，更准确的给出测度属性整体结构之间的关系，本技术将网络模型用隐马尔可夫形式化描述，并用吉布斯公式计算划分结果，具体步骤如下：

●使用隐马尔可夫(HMRF)模型来形式化描述测度属性关系网络的方法：

a)隐含划分符号

Z＝{z₁，z₂，...，z_m}是一组隐含的随机变量，它们的值是不可观测的。每个变量z_i表示v_i的划分。假设有K个划分，那么z_i∈{0，1，...，K}。如果z_i＝0，那么v_i是离群点。如果z_i＝k(k≠0)，那么v_i属于第k个划分。

b)邻近系统

权重为W的连接可以在隐含符号中推导出依赖关系，如果两个对象v_i和v_j的关联度超过设定的阈值χ，那么它们很可能属于相同的划分。然而，离群点是随机产生的，所以离群点的邻近点不必要仍是离群点。本文将邻近关系系统调整如下：

这里N_i代表对象v_i的邻近点集。当z_i≠0时，那么v_i的邻近关系在G中包含正常的邻近点。与此相反，如果v_i是离群点，那么v_i的邻近点集为空。

c)隐含变量间的依赖

在隐含变量Z上定义的随机变量场，是一马尔可夫变量场，满足马尔可夫属性：

P(z_i|z_I-{i})＝P(z_i|z_Ni)，z_i≠0

该公式表明，如果z_i和一个共同体对应，z_i的概率分布仅仅依赖于v_i在G中的邻近点的符号。如果z_i＝0，v_i是离群点，而且没有和该随机场中的其他任何对象的关联度超过χ，我们使P(z_i＝0)＝η(η是一个常量)。

●将马尔可夫随机场转换为Gibbs吉布斯公式的方法：

根据Hammersley-Clifford定理，MRF(马尔可夫随机场)可以相当于具有吉布斯分布的特征：

其中：H₁是规格化常量，U(Z)＝∑_c∈CV_c(Z)，势函数，是团能的V_c(Z)总和(遍及G中所有的团(c∈C))。由于离群点是独立的对象，因此其在G中的连接被忽略，

基于标准对象的邻近关系来定义这个势函数，可以得到

其中：λ是常量，w_ij表示两个对象v_i和v_j之间有链接，而且z_i和z_j都不等于零。δ函数定义如下：如果x＝0，δ(x)＝1；否则，δ(x)≠0。势函数表明，如果v_i和v_j是正常的对象，当在G中他们之间有链接时，那么它们更可能在相同的共同体中，而且如果连接的权值w_ij越大，这种可能性就越高。

●用吉布斯公式计算测度属性关系网络划分的方法：

使能量函数最小化，即：

其中：

U_{i} (k) = \{\begin{matrix} - λ \underset{j &Element; N_{i}}{Σ} w_{ij} δ (k - z_{j}), & k &NotEqual; 0 \\ a, & k = 0 \end{matrix},

为了最小化U_i(k)，首先选择一个标准簇k^*，使得k^*＝arg min_kU_i(k)，(k≠0)。然后比较U_i(k^*)和U_i(0)，U_i(0)是一个预先定义的阈值a。如果U_i(k^*)＞a，令

否则

如以下算法所示，首先为所有的对象初始化符号分配，然后重复更新过程直到聚合。每一步，符号通过最小化U_i(k^*)被顺序的更新，U_i(k^*)是已知其他对象符号情况下的能量，每个测度属性得到的隐含标签z_i代表该测度属性所在的划分。

3)构建基于测度属性关系网络划分的分布式系统异常检测模型，并利用该模型进行异常检测的方法

分布式系统测度属性的相关数据在时序上是相关的，系统正常情况下划分结果是不会发生改变的，因此，分布式系统的异常可以通过这种划分结果的变化来体现。如果这些变化是由系统结构变化所导致的(如：定义了新的服务，转换了系统工作流程等)，则要忽略这个异常，如果不是则认为发生了异常。具体实现如下：

●根据最新的检测属性数据，计算单一属性与其他属性的关联度值；

●针对每一个属性，利用公式k^*＝arg min_kU_i(k)，(k≠0)重新计算所有属性的划分结果；

●如果同一个测度属性的前后两次划分结果不同，则在测度属性异常检测符号A＝{a₁，a₂，...，a_m}中的对应位置标注为1，表明该测度属性发生异常，否则为正常。最终构建基于测度属性网络关系划分的分布式系统异常检测模型。

●如果同一个计算机中的大部分属性为异常，则代表该主机异常，若某一服务工作流中的若干属性异常，则标记为服务异常。

Claims

1.一种分布式系统异常检测方法，其特征是：

(1)确定测度属性的关联度，并生成测度属性关系网络模型；

(2)构建测度属性关系网络划分模型；

2.根据权利要求1所述的一种分布式系统异常检测方法，其特征是所述的确定测度属性的关联度，并生成测度属性关系网络模型的方法为：1)从系统日志文件，系统审计活动和网络流量统计中获得测度参数的历史数据；2)计算测度属性的相似度，并将其视为属性之间的关联度；3)以系统中的每一个测度属性为结点，以测度属性的关联度为边，构成测度属性的关系网络模型。

3.根据权利要求1或2所述的一种分布式系统异常检测方法，其特征是所述的构建测度属性关系网络划分模型的方法是：1)对测度属性关系网络模型用隐马尔可夫模型来形式化；2)通过Hammersley-Clifford定理，将马尔可夫随机场转换为吉布斯公式；3)用吉布斯公式计算划分，实现测度属性划分模型的构建。

4.根据权利要求1或2所述的一种分布式系统异常检测方法，其特征是所述的构建基于测度属性网络关系划分的分布式系统异常检测模型，并利用该模型进行异常检测的方法是：1)根据最新的监测属性数据计算属性关联度；2)在已构建的测度属性关系网络划分模型中加入最新关联度数据，生成最新的划分结果；3)比较历史划分结果和当前划分结果，构建基于测度属性网络关系划分的分布式系统异常检测模型，通过划分结果的变化情况检测异常事件。

5.根据权利要求3所述的一种分布式系统异常检测方法，其特征是所述的构建基于测度属性网络关系划分的分布式系统异常检测模型，并利用该模型进行异常检测的方法是：1)根据最新的监测属性数据计算属性关联度；2)在已构建的测度属性关系网络划分模型中加入最新关联度数据，生成最新的划分结果；3)比较历史划分结果和当前划分结果，构建基于测度属性网络关系划分的分布式系统异常检测模型，通过划分结果的变化情况检测异常事件。