CN110278189B

CN110278189B - 一种基于网络流量特征权重图谱的入侵检测方法

Info

Publication number: CN110278189B
Application number: CN201910412297.5A
Authority: CN
Inventors: 章坚武; 杨宇航
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2021-12-10
Anticipated expiration: 2039-05-17
Also published as: CN110278189A

Abstract

本发明公开了一种基于网络流量特征权重图谱的入侵检测方法，对公开数据集进行预处理，利用预处理得到的数据集获得特征基准图谱，并利用每个样本和特征基准图谱得到样本特征权重图谱，将特征权重图谱导入神经网络进行训练，获得训练好的神经网络，利用训练好的神经网络来对待检测网络流量进行检测。由于在特征权重图谱中强化了重要的分类特征，类图形矩阵中图形轮廓加深后，能有更好的识别效果。相较于以往的方法，本发明提升了识别率。

Description

一种基于网络流量特征权重图谱的入侵检测方法

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于网络流量特征权重图谱的入侵检测方法。

背景技术

近几年，网络空间的信息流动量每年都在以惊人的速度增长，网络信息安全问题在近几年受到越来越多的关注，而基于机器学习算法的入侵检测模型建立是目前最主流的研究方向。

目前入侵检测系统(intrusion detection system,IDS)分为基于主机的IDS和基于网络的IDS，其中基于主机的IDS依赖于主机的可靠性，不能检测网络攻击，且所能检测的攻击类型较为有限。随着网络技术的发展，网络攻击手段越来越多样化，基于网络的IDS研究是迫切需要的。传统的基于网络流量的IDS模型针对不同类别的特征进行筛选，或者单纯输入样本全特征，并没有对不同流量类别进行特征权重的计算，难免会造成特征丢失或冗余。

发明内容

本发明的目的是提供一种基于网络流量特征权重图谱的入侵检测方法，针对不同流量类别进行了特征权重的计算，并生成一个特征基准图谱，通过特征基准图谱和流量样本获得样本特征权重图谱，对神经网络进行训练，利用训练得到的神经网络对网络流量进行检测识别。

为了实现上述目的，本发明技术方案如下：

一种基于网络流量特征权重图谱的入侵检测方法，包括：

对公开数据集进行预处理，利用预处理得到的数据集获得特征基准图谱，并利用每个样本和特征基准图谱得到样本特征权重图谱，将特征权重图谱导入神经网络进行训练，获得训练好的神经网络；

将待检测网络流量的特征值与特征基准图谱结合获得待检测网络流量对应的特征权重图谱；

将待检测网络流量对应的特征权重图谱输入训练好的神经网络识别，进行检测识别。

本发明的一种实现方式，所述利用预处理得到的数据集获得特征基准图谱，包括：

将权重矩阵C引入到共聚距离函数中，加上权重矩阵C的正则化函数可得如下目标函数：

上述公式的约束条件如下：

通过最小化目标函数所得的权重矩阵C即为所要求的特征基准图谱；

上述公式中，η是正则化参数，c_g,j是第g行簇中第j列的权重值；U＝[u_i,g]_N×K是数据集的行聚类矩阵，u_i,g＝1代表第i个数据分类在第g个行簇内；V＝[v_j,h]_M×L是数据集的列聚类矩阵，v_j,h＝1代表数据第j特征分类在第h个列簇内；

Z＝[z_g,h]_K×L是K×L共聚的中心距，距离d(x_i,j,z_g,h)的定义为：

d(x_i,j,z_g,h)＝(x_i,j-z_g,h)²，

其中x_i,j为数据集中第i条数据，第j个特征的数值，N为数据集的条数，M为数据的特征数量，K为行聚类矩阵的行簇数量，L为列聚类矩阵的列簇数量。

本发明的另一种实现方式，所述利用预处理得到的数据集获得特征基准图谱，包括：

构建目标函数：

及其约束条件：

其中，U＝[u_i,g]_N×K是数据集的行聚类矩阵，u_i,g＝1代表第i个数据分类在第g个行簇内，通过最小化目标函数所得的权重矩阵C即为所要求的特征基准图谱；

其中，E_g,j是g行簇中关于第j个特征属性的均值；

D_g,j是g行簇中关于第j个特征属性的方差；

是各个行簇关于第j个特征属性均值E_g,j的均值；

是各个行簇中关于第j个特征属性方差D_g,j的均值；

η是正则化参数，c_g,j是第g行簇中第j列的权重值，x_i,j为数据集中第i条数据，第j个特征的数值，N为数据集的条数，M为数据的特征数量，K为行聚类矩阵的行簇数量。

本发明提出的一种基于网络流量特征权重图谱的入侵检测方法，利用预处理得到的数据集获得特征基准图谱，并利用每个样本和特征基准图谱得到样本特征权重图谱，将特征权重图谱导入神经网络进行训练，获得训练好的神经网络，利用训练好的神经网络来对待检测网络流量进行检测。由于在特征权重图谱中强化了重要的分类特征，类图形矩阵中图形轮廓加深后，能有更好的识别效果。相较于以往的方法，本发明在识别率上有一定的提升。

附图说明

图1为本发明基于网络流量特征权重图谱的入侵检测方法流程图；

图2为本发明实施例正则化参数与识别率的变化示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图2所示，提供的一种基于网络流量特征权重图谱的入侵检测方法，包括：

步骤S1、对公开数据集进行预处理，利用预处理得到的数据集获得特征基准图谱，并利用每个样本和特征基准图谱得到样本特征权重图谱，将特征权重图谱导入神经网络进行训练，获得训练好的神经网络。

本实施例选择的数据集为NSL-KDD数据集，NSL-KDD数据集分布不均衡，将其分成五大类后，其中normal类和dos类占极大比例。为了均衡训练集数据，将数据按一定比例随机分布为训练样本集合或测试样本集合，对训练集合中normal类和dos类等样本占比较大的类别进行随机抽样，减小其样本占比；对于其中占比小数量小的类别进行重复采样。

然后将样本的特征数据中字符特征进行量化处理，最后将数字特征样本进行归一化处理。

本实施例将预处理后的数据集采用矩阵X表示，假设数据集有N条数据，每条数据有M个特征，数据集每条数据的特征作为矩阵X一行，则数据集矩阵X为M×N的矩阵。如某条数据是正常的，则该数据对应表示为[1,0,0,0,0]；如果某数据是第二类攻击，则该数据对应表示为[0,1,0,0,0]。

用于训练神经网络的数据集带有标签，标签表示数据的分类结果(例如属于哪种攻击种类)，本实施例用U＝[u_i,g]_N×K表示数据集的行聚类矩阵，U＝[u_i,g]_N×K是一个分类的0或1矩阵，数据集共有N条数据，标签分为K类，其中u_i,g＝1代表第i个数据分类在第g个类别内，由于数据集是带标签的，因此U＝[u_i,g]_N×K为已知的。

本实施例还采用V＝[v_j,h]_M×L表示数据集的列聚类矩阵，V＝[v_j,h]_M×L是一个列聚类的0或1矩阵，每条数据有M个特征，设定列聚类参数L＝5(列簇)，其中v_j,h＝1代表数据集中第j特征，分类在第h个列簇内。

本实施例利用预处理得到的数据集来获得特征基准图谱，这里列举了两种不同的算法。

实施例1、空间权重共聚法。

具体的方法是将权重矩阵C引入到共聚距离函数中，加上权重矩阵C的正则化函数可得如下目标函数：

公式(1)的约束条件如下：

通过最小化公式目标函数所得的权重矩阵C即为所求最佳权重矩阵C，也即本申请中所要求的特征基准图谱。

上述公式中，η是正则化参数，正则化参数η作用是约束权重矩阵C，防止权重矩阵C中出现过大权重值，越大的η可以使得矩阵C越平均。

Z＝[z_g,h]_K×L是K×L共聚的中心距，距离d(x_i,j,z_g,h)的定义为：

d(x_i,j,z_g,h)＝(x_i,j-z_g,h)²(3)

其中x_i,j为数据集X中第i条数据，第j个特征的数值，N为数据集的条数，M为数据的特征数量，K为行聚类矩阵的行簇数量，L为列聚类矩阵的列簇数量。

其中，c_g,j是第g行簇中第j列的权重值；U＝[u_i,g]_N×K是一个行聚类的0或1矩阵，u_i,g＝1代表第i个数据分类在第g个行簇内；V＝[v_j,h]_M×L是一个列聚类的0或1矩阵，v_j,h＝1代表数据第j特征分类在第h个列簇内。

可通过迭代求解以下3个最小化步骤来完成求解公式(1)的最小化：

给定变量Z＝[z_g,h]_K×L、C＝[c_g,j]_K×M，求

最小值。

给定变量V＝[v_j,h]_M×L、C＝[c_g,j]_K×M，求

最小值。

给定变量V＝[v_j,h]_M×L、Z＝[z_g,h]_K×L，求

最小值。

在一个实施例中，

最小值可以用公式(4)求出：

为求V＝[v_j,h]_M×L，本申请引进平均最小值的概念。在V＝[v_j,h]_M×L的每一行中，分别计算平均最小值集合[h]。若t在集合[h]内，则v_j,h＝1；若t不在集合[h]内，则v_j,h＝0。

在一个实施例中，

最小值可以用公式(5)求出：

在一个实施例中，

最小值可用公式(6)求出：

其中：

通过迭代上述三个步骤，直到公式(1)达到局部最小值，得出的权重矩阵C＝[c_g,j]_K×M即为所求的特征基准图谱。

实施例2、特征权重矩阵算法。

众所周知，每个分类中有用特征属性应较为接近，即每个有用分类中特征属性的方差较小。所以，将每类中特征属性的方差结合该属性的均值进行对比，若出现较小方差、较大均值，则认为该属性在该分类中贡献明显，赋予其较大的权重值；若出现较小方差、较小均值或者较大方差，则最终赋予较小的权重值。

基于上述思想，给出目标函数：

约束条件：

其中：U＝[u_i,g]_N×K是数据集的行聚类矩阵，u_i,g＝1代表第i个数据分类在第g个行簇内，通过最小化目标函数所得的权重矩阵C即为所要求的特征基准图谱；

其中，E_g,j是g行簇中关于第j个特征属性的均值；

D_g,j是g行簇中关于第j个特征属性的方差；

是各个行簇关于第j个特征属性均值E_g,j的均值；

是各个行簇中关于第j个特征属性方差D_g,j的均值。

根据上述公式，可将问题转化为求出其最小值来优化P(C)，进而得到权重矩阵C，η是正则化参数，c_g,j是第g行簇中第j列的权重值，x_i,j为数据集中第i条数据，第j个特征的数值，N为数据集的条数，M为数据的特征数量，K为行聚类矩阵的行簇数量。

本实施例权重矩阵C中的元素c_g,j可由公式(13)求出：

在实施例2中，用U＝[u_i,g]_N×K表示数据集的行聚类矩阵，U＝[u_i,g]_N×K是一个分类的0或1矩阵，数据集共有N条数据，标签分为K类，其中u_i,g＝1代表第i个数据分类在第g个类别内，由于数据集是带标签的，因此U＝[u_i,g]_N×K为已知的。

由于NSL-KDD数据集分为5大类，41维特征，所以得到的权重矩阵C＝[c_g,j]_K×M的矩阵大小为5*41。将得到的C＝[c_g,j]_K×M作为特征基准图谱，其中特征基准图谱一共分为5行，每一行代表一个分类中各个特征所占的权重值序列。将特征基准图谱每行的权重值序列中每个权重值分别对应相乘上每一条数据相应的特征值，即将单个数据向量放入基准图谱中去。这样，可将原本一维向量数据扩展成大小为5*41的特征图谱，得到样本特征权重图谱。

然后，将得到的样本特征权重图谱通过CNN神经网络来寻找特征与特征之间的隐藏特征关系，从而进行训练识别。设W为最小维度值，选用的卷积核大小为F×F，卷积步长为S，Padding用0填充的个数值为P，最大池化层大小为D×D时，输出最小边长N通过公式(14)、(15)计算可得：

在本实施例中，通过特征基准图谱行乘一维向量数据，从而产生特征图谱大小为5*41数值矩阵，所以最小边W＝5。样本数据集中可以分为5大类，所以CNN神经网络最终输出为1*5的一维向量。设置模型参数数值为F＝3，S＝1，P＝0，D＝3，f＝64。将上述基准图谱算法获得的样本特征权重图谱分别带入CNN网络中进行训练识别，能够训练得到CNN神经网络的各个参数，从而完成CNN神经网络的训练。关于神经网络的训练，在本领域是比较成熟的技术，这里不再赘述。

步骤S2、将待检测网络流量的特征值与特征基准图谱结合获得待检测网络流量对应的特征权重图谱。

对于待检测网络流量数据，采用与步骤S1中同样的方法进行预处理，并将其特征值与特征基准图谱结合获得待检测网络流量对应的特征权重图谱，这里不再赘述。

步骤S3、将待检测网络流量对应的特征权重图谱输入训练好的神经网络识别，进行检测识别。

最后，利用训练好的神经网络，将待检测网络流量对应的特征权重图谱输入训练好的神经网络识别，就可以对待检测网络流量进行检测分类。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在实验中，η是正则化参数，将不同参数η所产生的20个共簇结果带入网络中求出最终识别率，并做平均处理，用识别率率平均值大小来评估不同参数η所产生权重矩阵在模型中的性能，如图2所示。最终选取识别率最高的η值作为模型参数。

本申请在一个实验中，设定的实验参数如下：

参数	值
		η	0.1
CNN学习率	0.01
		CNN迭代次数	500

表1

实验结果如下：

表2

在表2中，算法1为传统神经网络识别的结果，算法2为本申请技术方案实施例1的识别结果，算法2为本申请技术方案实施例2的识别结果.可以看到，对于各类攻击种类，在TPR、FPR和最终识别率三个性能指标上比传统神经网络识别方法好，可以看出本发明的方法具有更好的性能。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。