CN107895171A

CN107895171A - 一种基于k均值与深度置信网络的入侵检测方法

Info

Publication number: CN107895171A
Application number: CN201711054047.6A
Authority: CN
Inventors: 王琳琳; 刘敬浩
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-04-10

Abstract

本发明涉及一种基于K均值与深度置信网络的入侵检测方法，包括：对数据集中的网络流量数据进行预处理，将训练集与测试集进行归一化与标准化处理；将训练数据按照标注的攻击类型进行分类，对每一类的训练数据集，均执行聚类分析；以所得到各类聚类中心数据集作为作为训练数据，训练深度置信网络DBN模型。

Description

一种基于K均值与深度置信网络的入侵检测方法

技术领域

本发明属于计算机网络技术领域，涉及一种入侵检测方法。

背景技术

网络的快速发展带来了日益严峻的网络安全威胁，入侵检测系统对于保障网络安全至关重要。聚类分析作为一种常用的数据挖掘技术，其算法简单、计算复杂度低，适用于入侵检测系统。基于聚类分析的入侵检测技术，利用无标签的数据进行训练，从而检测出未知攻击。K均值(K-means)算法是经典的聚类算法。深度置信网络(DBN)是一种深度学习网络，由多层受限玻尔兹曼机(RBM)和一层反向传播(BP)神经网络堆叠而成。DBN通过逐层训练网络，实现高维度非线性数据特征抽取与分类。DBN模型作为一种有效的分类方法，适用于入侵检测之中。传统的单一检测算法很难对于不同种类的攻击都有很好检测效果，将多种算法进行级联可以提高入侵检测系统的准确率。

发明内容

本发明的目的是提供一种具有更高准确率的网络入侵检测方法。技术方案如下：

一种基于K均值与深度置信网络的入侵检测方法，包括以下步骤：

步骤(1)：对数据集中的网络流量数据进行预处理，将测试集与训练集中字符型特征值协议类型protocol type、网络服务(service)以及连接的状态flag转化为数值型特征值，将训练集与测试集进行归一化与标准化处理；

步骤(2)：将训练数据按照标注的攻击类型进行分类，对每一类的训练数据集，均执行下面的步骤3-6；

步骤(3)：随机选取训练数据集中的一条数据作为第一个聚类中心，设定距离阈值λ，对于其他所有的数据，计算这些数据到这第一个数据中心的欧式距离，若欧式距离大于距离阈值，则成为新的中心，从而得到初始聚类中心数据集；

步骤(4)：分别计算此类训练数据集中剩余其他数据与步骤(3)得到的初始聚类中心的欧式距离，并将它们划分到最小的类中；

步骤(5)：分别计算每一类中数据的平均值，将此平均值作为新的聚类中心；

步骤(6)：重复步骤(4)和(5)，直至步骤(5)生成的聚类中心保持稳定；

步骤(7)：以所得到各类聚类中心数据集作为作为训练数据，训练深度置信网络DBN模型；

步骤(8)：采用训练后的DBN模型，对测试网络流量进行分类检测，评价指标采用检测率与误报率，以进行检测算法的效果评价。

步骤(2)中，可将训练数据按照标注的攻击类型分为Normal、DoS、Probe、U2R以及R2L等五种。

本发明的有益效果如下：

1.本发明采用了改进的K-means算法，改进的K-means算法避免了初始中心选择不当对聚类效果的影响。采用聚类后的聚类中心数据集作为训练数据集，使训练数据更具有代表性，降低训练样本中的冗余度。

2.本发明采用DBN算法作为检测算法，DBN模型通过深层学习网络，能够更好的提取到更深层次的特征，进一步提高了入侵检测的识别率，降低了误报率。

附图说明

图1算法模型流程图

具体实施方式

传统的K-means算法其聚类结果受初始簇中心点的影响严重，初始簇中心点选取不当很容易造成聚类结果陷入局部最优解或导致错误的聚类结果。传统的K-means算法需要人为事先确定聚类数目k，但是算法不能分辨出所设定的聚类数目是否合适。本发明通过设定距离阈值来选择初始聚类中心，且可以通过计算自动生成聚类数目k，最终通过比较数据点与邻近点的距离从而进行聚类的改进的K-means算法。

为了提高入侵检测的分类效果，本发明将K-means算法与DBN算法进行算法级联。对于不同类型的网络数据，分别采用改进的K-means算法进行聚类，生成若干种类的聚类中心数据集作为新的高质量的训练数据集。采用DBN作为分类器，用聚类中心数据集训练DBN模型，进行网络流量识别。算法模型流程如图1所示。

发明的改进的K-means算法描述如下：

输入：数据集D、距离阈值λ

输出：聚成k类的聚类中心数据集D′

步骤1 随机选择α_j∈D作为第一个聚类中心c₁，令k＝1；

步骤2

步骤3 If(欧式距离d(α_i,c_n)>λ,n＝1,…,k)

步骤4 k＝k+1，α_i为新的聚类中心c_k；

步骤5 End If；

步骤6 以c_n为中心，计算欧式距离d(α_i,c_n)，将a_i划分到d_min(α_i,c_n)的类c_n中；

步骤7 计算每一个类c_n中数据的平均值将作为新的聚类中心；

步骤8 End For；

步骤9

步骤10 重复步骤6-步骤7；

步骤11 If(生成的聚类中心c_n保持稳定)

步骤12 输出聚成k类的聚类中心数据集D′；

步骤13 End If；

步骤14 End For；

对训练集中的正常网络连接Normal数据以及DOS、Probe、U2R以及R2L网络攻击数据，分别采用改进的K-means算法进行聚类，生成5类聚类中心数据集，以聚类得到的聚类中心数据集作为新的高质量的训练数据集。用聚类中心数据集训练DBN模型，用训练好的DBN模型进行网络流量种类的分类识别。

本发明提出的一种基于改进K-means与深度置信网络的入侵检测方法具体步骤如下：

步骤(1)：对数据集中的网络流量数据进行预处理。将测试集与训练集中字符型特征值协议类型(protocol type)、网络服务(service)以及连接的状态(flag)转化为数值型特征值，将训练数据按照标注的攻击类型分为Normal、DoS、Probe、U2R以及R2L五类。将训练集与测试集进行归一化与标准化处理。

步骤(2)：针对五种不同类型的网络流量数据，分别采用改进后的K-means算法进行聚类得到五种聚类中心数据集。

步骤(3)：用聚类后的五种中心数据集作为训练数据，训练DBN模型。

步骤(4)：采用训练后的DBN模型，对测试网络流量进行分类检测。评价指标采用检测率与误报率，以进行检测算法的效果评价。

实施例如下：

数据预处理阶段，将字符型特征值protocol type分别转化为数值1至4，service特征值转化为1至67，flag特征值转化为1至11。改进的K-means算法的阈值设定为0.6。DBN模型采用3层RBM结构，RBM预训练的学习率设置为0.05，每层RBM的迭代次数为10次，BP神经网络的学习率设置为0.05，迭代次数为1000次。采用批训练的方式提高训练速度，批训练样本数设置为100。

Claims

1.一种基于K均值与深度置信网络的入侵检测方法，包括以下步骤：

2.根据权利要求1所述的入侵检测方法，其特征在于，步骤(2)：将训练数据按照标注的攻击类型分为Normal、DoS、Probe、U2R以及R2L等五种。