CN112422546A

CN112422546A - 一种基于变邻域算法和模糊聚类的网络异常检测方法

Info

Publication number: CN112422546A
Application number: CN202011243442.0A
Authority: CN
Inventors: 缪祥华; 高妍妍
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-26

Abstract

本发明涉及一种基于变邻域算法和模糊聚类的网络异常检测方法，属于网络安全技术领域。本发明首先对收集到的正常网络数据流、主机系统日志等进行模糊聚类，生成正常数据流的模型，在聚类过程中利用变邻域搜索帮助模糊聚类算法跳出局部最优解，由于收集到的原始数据噪声和冗余过大因此利用曼哈顿距离减少噪声数据对聚类结果的影响，提高了正常数据流模型的正确性；接着利用该模型对待检测的网络数据进行判别，对判定为了异常的流量进行警报。本发明将变邻域算法和模糊聚类混合应用于网络异常检测，有利于充分发挥各自算法的优势，进一步提高优化效率并提供更好的结果。

Description

一种基于变邻域算法和模糊聚类的网络异常检测方法

技术领域

本发明涉及一种基于变邻域算法和模糊聚类的网络异常检测方法，属于网络安全领域。

背景技术

在网络安全日趋严峻的情况下，研究开发能够及时、准确对网络异常进行检测并能做出响应的网络安全防范技术，成为一个有效的解决网络安全问题的途径。异常检测也称基于行为的检测。它是建立在任何一种入侵检测行为都由偏离正常或所期望的系统和用户的活动而被检测出来。描述正常或合法活动的模型是从过去通过各种渠道收集到的大量历史活动资料的分析中得出的。异常检测的安全性高，但是要保证它具有较高的正确性却很困难。

发明内容

本发明提供了一种基于变邻域算法和模糊聚类的网络异常检测方法，可以高效快速检测到网络中存在的异常行为。

本发明采用的技术方案是：一种基于变邻域算法和模糊聚类的网络异常检测方法，包括如下步骤：

第一步：收集网络历史正常数据流，对数据进行初始化；所述的初始化包括字符型变量数值化，不同范围数据归一化以及利用主成分分析法及进行降维操作；

第二步：利用优化后的聚类算法对第一步的数据集进行分析，获得网络正常行为聚类模型；

第三步：输入当前待检测的数据集，利用第二步获得的网络正常行为模型对输入的未知网络流量进行分类，判定待检测数据是否为正常数据的方法为：计算当前数据与聚类中心的距离，如果待检测数据与所有聚类中心的距离均大于当前正常流量的阈值，则输出聚类结果判定为异常流量，并进行相应的响应。

具体地，第二步获得网络正常行为聚类模型的具体步骤如下：

第2.1步：初始化参数：数据集D，迭代次数t，聚类中心数c；

第2.2步：用值0-1之间的随机数初始化隶属度矩阵U，使其满足公式(1)

其中u_ij为第i个类的第j个元素的隶属度；

第2.3步：利用公式(2)计算C个聚类中心C_i,i＝1,…,c

其中C_i为第i类的聚类中心；u_ij为0-1之前的隶属度；n为元素的个数；m为模糊指数，通常设为2；x_j表示第j个数据；

第2.4步：利用公式(3)计算目标函数

J_i是i个聚类中心的目标函数值；第SAD_ij为第i个聚类中心到第j个数据点的曼哈顿距离，且是一个加权指数；

第2.5步：判断是否陷入局部最优：局部最优表现为在算法前期聚类中心的目标函数值相差不大且波动很小，设定一组t_ε、t_γ、ε_γ，其中t_ε、t_γ表示当前迭代的次数，ε_γ是为判定是否陷入局部最优提前设定的阈值大小，如果在算法的前t_ε迭代中，聚类中心在t_γ中每次平均波动值均小于ε_γ，则有理由相信此时陷入了局部最优；如果陷入局部最优则利用变邻域算法，改变邻域的大小，帮助聚类中心跳出局部最优，达到更好的聚类效果；

第2.6步：判断算法的终止条件，如果迭代次数达到最大或满足预先设定的误差阈值，则获取聚类结果，算法结束，否则继续执行步骤2.7；

第2.7步：按照公式(4)计算新的隶属度矩阵，返回第2.3步；

其中k表示第k个聚类中心。

本发明的有益效果在于：本发明利用改进后的模糊聚类算法可以高效快速检测到网络中存在的异常行为。

附图说明

图1是本发明整体流程图；

图2是本发明基于变邻域算法的模糊聚类算法流程图。

具体实施方式

本发明提供了一种基于变邻域算法和模糊聚类的网络异常检测方法，旨在利用变邻域算法强大的跳出局部最优的能力，提高模糊聚类算法对网络异常行为数据的聚类正确性。为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体事实例，并参照附图，对本发明进一步详细说明。

实施例1：一种基于变邻域算法和模糊聚类的网络异常检测方法，包括如下步骤：

第一步：选取KDD CUP99数据集进行实验，该数据集包含正常流量和攻击流量，选取其中的正常流量进行模型的训练。将选中的数据集进行初始化；所述的初始化包括字符型变量数值化，不同范围数据归一化以及利用主成分分析法及进行降维操作；

第二步：利用图1所述的改进过的模糊聚类算法进行网络正常行为聚类模型的训练，获得网络正常行为聚类模型；

进一步地，第二步获得网络正常行为聚类模型的具体步骤如下：

第2.1步：初始化参数：网络正常数据流D，迭代次数t，聚类中心数C；

第2.2步：用值0-1之间的随机数初始化每条正常数据流到聚类中心的隶属度矩阵U，使其满足公式(1)

其中u_ij为第j条网络正常数据流读对第i个类的隶属度。

第2.3步：利用公式(2)计算C个聚类中心C_i,i＝1,…,c

其中C_i为第i类的聚类中心；u_ij为0-1之间的隶属度；n为网络正常数据流的条数；m为模糊指数，通常设为2；x_j表示第j条网络正常数据流。

第2.4步：利用公式(3)计算目标函数

J_i是i个聚类中心的目标函数值；SAD_ij为第i个聚类中心到第j条网络正常数据流的曼哈顿距离，且是一个加权指数。

第2.5步：判断是否陷入局部最优。局部最优表现为在算法前期聚类中心的目标函数值相差不大且波动很小。因此本方法设定一组t_ε、t_γ、ε_γ，其中t_ε、t_γ表示当前迭代的次数，ε_γ是为判定是否陷入局部最优提前设定的阈值大小。如果在算法的前t_ε迭代中，聚类中心在t_γ中每次平均波动值均小于ε_γ，则有理由相信此时陷入了局部最优。如果陷入局部最优则利用变邻域算法，改变邻域的大小，帮助聚类中心跳出局部最优，达到更好的聚类效果；

第2.6步：判断算法的终止条件，如果迭代次数达到最大或满足预先设定的误差阈值，则获取聚类结果，算法结束，否则继续执行步骤2.7。

第2.7步：按照公式(4)计算新的隶属度矩阵，返回第2.3步。

其中k表示第k个聚类中心。

本发明首先在计算网络正常数据流的模糊矩阵和目标函数时将非相似指标欧式距离更新为曼哈顿距离，用每条网络数据流到聚类中心的最小距离代替其到聚类中心的平均距离，有效减少噪声数据对网络正常行为聚类模型的影响，提高该模型的性能。当目标函数值在阈值规定的迭代范围内没有发生太大幅度的波动时，调用变邻域搜索算子，从当前聚类的网络流量出发扩大或缩小当前网络数据流的聚类范围，更新当前聚类中心的位置，逐步提高网络流量的聚类质量帮助模糊聚类算法跳出局部最优。该算法无需设置繁杂的参数，而且实现简单、算法独立性强，易于嵌入其它算法中改善求解精度与收敛速度。

本发明方法在异常检测的精度及时间效率方面，相比于传统的异常检测方法，不仅具有较好的检测速度，而且提高了检测的准确性。

以上所述仅为本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于变邻域算法和模糊聚类的网络异常检测方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于变邻域算法和模糊聚类的网络异常检测方法，其特征在于：第二步获得网络正常行为聚类模型的具体步骤如下：

第2.1步：初始化参数：数据集D，迭代次数t，聚类中心数c；

其中u_ij为第i个类的第j个元素的隶属度；

第2.3步：利用公式(2)计算C个聚类中心C_i,i＝1,…,c

第2.4步：利用公式(3)计算目标函数

第2.7步：按照公式(4)计算新的隶属度矩阵，返回第2.3步；

其中k表示第k个聚类中心。