CN113505826B

CN113505826B - 基于联合特征选择的网络流量异常检测方法

Info

Publication number: CN113505826B
Application number: CN202110772466.3A
Authority: CN
Inventors: 朱笑岩; 赵晓娟; 张琳杰; 马建峰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2024-04-19
Anticipated expiration: 2041-07-08
Also published as: CN113505826A

Abstract

本发明公开了一种基于联合特征选择的网络流量异常检测方法，主要解决现有网络流量异常检测方法检测准确率低及性能较差的问题，其方案包括：采集网络流量数据，进行数据预处理；对预处理后的网络流量数据进行特征选择，得到相关性最大和互信息最大的特征序列集合；对两个特征序列集合进行特征集成，得到特征筛选集合；利用特征筛选集合对网络流量数据进行特征筛选，并生成训练样本集和测试样本集；构建随机森林分类模型，并对其进行训练；将测试样本集输入到训练好的随机森林分类模型中，得到检测结果。本发明由于综合考虑了属性特征和类别特征的相关性和互信息，提高了检测准确率和性能，可用于故障检测、恶意软件检测、数据外泄及恶意挖矿。

Description

基于联合特征选择的网络流量异常检测方法

技术领域

本发明属于网络安全技术领域，更进一步涉及一种网络流量异常检测方法，可用于故障检测、恶意软件检测、数据外泄及恶意挖矿。

背景技术

随着互联网技术的快速发展和网络规模的不断扩大，各种新技术蓬勃爆发，互联网已经成为人类生活中不可缺少的一部分，人们利用互联网进行社交、购物、工作等。但是同时，人们在享受互联网便利的过程中，不可避免地遭受网络异常的危害。目前普遍存在的多种网络异常，网络扫描，DDoS攻击，网络蠕虫病毒等，都可以通过网络流量的异常表现出来，网络流量异常能较全面地反映网络的实时状况。目前，网络流量异常检测已经作为一种有效的网络安全防护手段。但是，随着网络流量数据量的增加，主流的异常检测模型的识别效率越来越低，因为这些流量数据不仅规模庞大，而且有较高的维度，流量数据中存在着大量的噪声信息和冗余信息，这些信息极大降低了异常检测的效果。对网络流量进行有效的特征选择可以有效解决这一问题，良好的特征选择算法可以高效地剔除流量数据中的噪声特征和冗余特征，提升异常检测的效率和性能。因此，选择有效且高效的特征选择算法对异常流量检测是非常重要的。

华北电力大学和国家电网公司在专利申请号202011313089.9，申请公开号CN112511519 A的专利申请文献中提出“一种基于特征选择算法的网络入侵检测方法”。该方法的实施步骤是：第一步，从物联网设备中获得网络流量数据；第二步，使用QBSO-FS算法，对获得的网络流量数据在多种机器学习模型上的分类效果进行优化，获得优化子集；第三步，使用优化子集，利用决策策略，联合决策出新的特征子集；第四步，使用新的特征子集在复杂机器学习模型上进行分类训练，得出检测结果。该方法由于特征选择算法单一，不能剔除噪声或冗余的特征，导致检测模型的性能不佳。

中国科学院深圳先进技术研究院在专利申请号201911268314.9，申请公开号CN111064721 A的专利文献中提出“网络流量异常检测模型的训练方法及检测方法”。该方法的实施步骤是：第一步，根据训练样本确定隐藏层的层数和每层隐藏层中的神经元个数；第二步，根据所述隐藏层的层数和每层隐藏层中的神经元个数构建初始的特征提取网络；第三步，利用训练样本对所述的特征提取网络进行训练，得到训练完成的特征提取网络；第四步，去除所述训练完成的特征提取网络中的分类层，得到优化的特征提取网络；第五步，利用优化的特征提取网络提取训练样本的高级抽象特征数据，训练分类网络，完成网络流量检测模型的训练。由于网络流量数据具有较高的维度，该方法采用固定阈值的方法提取特征，导致原始流量数据的部分重要特征丢失，不能快速有效地进行网络流量检测，降低了检测模型的准确率和性能。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于联合特征选择的网络流量异常检测方法，以更加准确地选择网络流量的不同特征，提高网络异常流量检测准确率和性能。

为实现上述目的，本发明基于联合特征选择的网络流量异常检测方法，其特征在于，包括如下：

A)采集网络流量数据，进行数据预处理：

A1)从互联网网站上采集流量数据，提取能够反映流量特性的基本流量数据，包括数值型特征数据和字符型特征数据；

A2)对提取到的基本流量数据进行特征数据类型转换，并对转换后的数据进行标准化处理，得到预处理后的网络流量数据；

B)对预处理后的网络流量数据进行特征选择：

B1)利用基于相关性的特征选择算法和最佳优先搜索方法，从预处理后的网络流量数据中选出属性特征和类别特征相关性最大的特征序列集合M；

B2)利用基于互信息的特征选择算法和前向搜索方法，从预处理后的网络流量数据中选出属性特征和类别特征互信息最大的特征序列集合S；

C)对相关性最大的特征序列集合M与互信息最大的特征序列集合S进行特征集成，得到特征筛选集合Q：

C1)对相关性最大的特征序列集合M按照特征重要性从高到低进行排序，将其均分为优先特征子集M1、有用特征子集M2和无用特征子集M3；

C2)对互信息最大的特征序列集合S按照特征重要性从高到低进行排序，将其均分为优先特征子集S1、有用特征子集S2和无用特征子集S3；

C3)根据C1)和C2)的结果，对两个优先特征子集M1和S1进行并操作，得到优先特征集合U；对两个有用特征子集M2和S2进行交操作，得到有用特征集合I；删除无用特征子集M3和S3；

C4)对优先特征集合U和有用特征集合I进行并操作，得到特征筛选集合Q；

D)对预处理后的网络流量数据，利用特征筛选集合Q进行特征筛选，随机选取70％组成训练样本集，剩下的30％组成测试样本集；

E)以决策树作为个体分类器，将d个决策树进行组合构成随机森林分类模型，其中5≤d≤20；

F)训练随机森林分类模型：

从训练样本集中利用自助采样方法生成d个训练样本子集，分别对d个训练样本子集，选择其基尼指数最小的特征进行分裂，对获得的特征，重复上述操作，直到分裂停止时结束，得到d个训练好的决策树，输出d个分类结果；

对d个分类结果利用多数投票法得到最终的检测结果，即构成训练好的随机森林分类模型；

G)将测试样本集中的数据输入已经训练好的随机森林分类模型中，得到流量异常检测的检测结果。

本发明与现有技术相比，具有以下优点：

第一：本发明由于利用基于相关性特征选择算法和基于互信息特征选择算法分别提取网络流量数据的重要特征，减少了数据处理的时间和空间资源的消耗，降低了数据维度，剔除了噪声特征和冗余特征，保证了提取的特征的准确性；

第二：本发明由于对相关性最大的特征序列集合和互信息最大的特征序列集合，按照特征重要性排序并分为六个特征子集，并分别对其进行了并或交操作，使最终选择的特征集合对流量数据的表征更准确，提升模型检测结果的准确率；

第三：本发明由于采用决策树作为个体分类器构成随机森林分类模型，运算复杂度低，速度快，有效减少了模型检测的时间，提升了模型检测的效率。

附图说明

图1为本发明的实现流程图；

图2为随机森林分类模型图。

具体实施方式

下面结合附图对本发明的实施例和效果做进一步详细的描述。

参照图1，本实施例的实施包括如下步骤：

步骤1，采集网络流量数据，进行数据预处理。

1.1)从互联网网站上采集流量数据，提取能够反映流量特性的基本流量数据，包括数值型特征数据和字符型特征数据；

1.2)对提取到的基本流量数据进行特征数据类型转换：

本实例采取但不限于用独热编码技术，将基本流量数据中的字符型特征转换成数值型特征，比如将有4个取值的类别特征转换为(1，0，0，0)、(0,1,0,0)、(0,0,1,0)、(0,0,0,1)；

1.3)对转换后的数据进行标准化处理，得到预处理后的网络流量数据：

其中，x'_i代表第i个特征标准化后的值，x_i代表第i个特征标准化前的值，min(X(i))代表第i个特征中的最小值，max(X(i))代表第i个特征中的最大值。

该网络流量数据中含有属性特征和类别特征，其中属性特征包括：TCP连接基本特征、TCP连接内容特征、基于时间的网络流量统计特征和基于主机的网络流量统计特征。

步骤2，对预处理后的网络流量数据进行特征选择。

2.1)利用基于相关性的特征选择算法和最佳优先搜索方法，从预处理后的网络流量数据中选出属性特征和类别特征相关性最大的特征序列集合M：

2.1.1)利用初始的属性特征集合F＝{f₁,f₂,…f_i,…,f_j,…,f_n}，计算第i个属性特征f_i分别与第j个属性特征f_j的相关系数和与类别特征c的相关系数/>

其中，n为属性特征的数量，f'_i为第i个属性特征的值，f'_j为第j个属性特征的值，c'为类别特征的值；

2.1.2)利用上述两个相关系数和/>分别计算第i个属性特征f_i与第j个属性特征f_j的平均相关度/>和与类别特征c的平均相关度/>

其中，k代表集合M中的特征个数；

2.1.3)利用上述两个平均相关度和/>计算集合M的启发式估计值M_s：

其中，M_s为集合M的启发式估计值；

2.1.4)选择启发式估计值最大的一个特征加入集合M，随后选择启发式估计值次大的特征加入集合M，重复步骤2.1.1)至2.1.3)，计算出新的启发式估计值M'_s；

2.1.5)将新的启发式估计值M'_s与原来的启发式估计值M_s进行比较：

如果M'_s＜M_s则去除这个启发式估计值次大的特征，然后再选择下一个，直到特征被选择完，得到属性特征和类别特征相关性最大的特征序列集合M；

否则，保留此启发式估计值次大的特征，返回2.1.1)；

2.2)利用基于互信息的特征选择算法和前向搜索方法，从预处理后的网络流量数据中选出属性特征和类别特征互信息最大的特征序列集合S：

2.2.1)利用初始的候选属性特征集合G＝{g₁,g₂,…,g_i,…,g_n}，计算属性特征集合G中每个属性特征和类别特征c的互信息I(G；c)：

其中，p(g_i,c)表示第i个属性特征g_i和类别特征c的联合概率密度函数，p(g_i)和p(c)分别表示第i个属性特征g_i和类别特征c的边缘概率密度函数；

2.2.2)利用上述互信息I(G；c)，计算已选属性特征集合S与类别特征c之间的互信息I(S；c)：

I(S；c)＝I(G；c)-∑{I(G；S)-I(G；S|c)}，

其中，I(G；S)代表候选属性特征集合G和已选属性特征集合S之间的互信息，I(F；S|c)代表给定类别特征c条件下，候选属性特征集合G和已选属性特征集合S之间的互信息；

2.2.3)将互信息I(S；c)最高的属性特征放入已选属性特征集合S中，并从候选属性特征集合G中删除此属性特征，重复2.2.1)至2.2.2)，直到候选属性特征集合G中的特征被删除完，得到属性特征和类别特征互信息最大的特征序列集合S。

步骤3，对相关性最大的特征序列集合M与互信息最大的特征序列集合S进行特征集成，得到特征筛选集合Q。

3.1)对相关性最大的特征序列集合M按照特征重要性从高到低进行排序，将其均分为优先特征子集M1、有用特征子集M2和无用特征子集M3；

3.2)对互信息最大的特征序列集合S按照特征重要性从高到低进行排序，将其均分为优先特征子集S1、有用特征子集S2和无用特征子集S3；

3.3)根据3.1)和3.2)的结果，对两个优先特征子集M1和S1进行并操作，即将两个优先特征子集中所有的特征进行组合，得到优先特征集合U；

3.4)根据3.1)和3.2)的结果，对两个有用特征子集M2和S2进行交操作，即将两个有用特征子集中共有的特征进行组合，得到有用特征集合I，并删除无用特征子集M3和S3；

3.5)根据3.3)和3.4)的结果，对优先特征集合U和有用特征集合I进行并操作，即将优先特征集合U和有用特征集合I中所有的特征进行组合，得到特征筛选集合Q。

步骤4，对预处理后的网络流量数据，利用特征筛选集合Q进行特征筛选，随机选取70％组成训练样本集，剩下的30％组成测试样本集。

步骤5，以决策树作为个体分类器，将d个决策树进行组合构成随机森林分类模型，其中5≤d≤20,本实例采取d＝10。

所述个体分类器不限于决策树，还可以采用信息增益最大的ID3分类器，信息增益比最大的C4.5分类器。

步骤6，训练随机森林分类模型。

参照图2，本步骤通过训练构成训练好的随机森林分类模型，其包括从训练样本集中生成d个训练样本子集；分别训练d个决策树，输出d个分类结果；对d个分类结果利用多数投票法得到最终的检测结果这三部分，具体实现如下：

6.1)利用自助采样方法从训练样本集中生成d个训练样本子集{D₁,D₂,…D_i,…,D_d}，其中D_i是第i个训练样本子集，i∈(1,d)；

6.2)分别利用d个训练样本子集，训练d个决策树：

6.2.1)输入训练样本子集D_i，从训练样本子集的所有属性特征中随机选择m个属性特征构成特征子集，其中1≤m≤41，本实例采取m＝20；

6.2.2)计算特征子集中每个特征可能取值的基尼指数Gini_index(D_i,a)：

其中，a是对训练样本子集D_i进行划分的特征，a有V个可能取值{a¹,a²,…,aⁱ,…,a^v}，D_i ^v即是第v个子节点所包含的样本集，Gini(D_i ^v)是第v个子节点所包含的样本集的基尼值：

其中，p_k是第k类样本在第v个子节点所包含的样本集D_i ^v中所占的比例，k＝1,2,…,|y|，y是样本类别的总数；

6.2.3)选择具有最小基尼指数的特征进行分裂；

6.2.4)对获得的特征，重复6.2.2)和6.2.3)，直到分裂停止时结束，得到一个训练好的决策树，输出一个分类结果；

6.3)重复6.2.1)至6.2.4)共d次，得到d个训练好的决策树，对应d个分类结果；

6.4)对d个分类结果，利用多数投票法得到最终的检测结果，即构成训练好的随机森林分类模型。

步骤7，将测试样本集中的数据输入已经训练好的随机森林分类模型中，得到流量异常检测的检测结果。

下面结合仿真实验，对本发明的效果做进一步的说明。

1.仿真实验条件：

本发明的仿真实验运行环境是：处理器为Interl(R)Core(TM)i5-5200 CPU@2.20GHz，内存为4.00GB，硬盘为457G，操作系统为Windows 8.1，编程环境为Python 3.8，编程软件为PyCharm Edition 2020.1.2x64。

本发明采用NSL-KDD数据集，是公认的网络流量数据集，为构建检测模型提供了数据基准，其中包括41个属性特征字段和1个类别特征字段。

2.仿真内容及其结果分析：

仿真实验：用本发明与现有3种差异化方法对NSL-KDD数据集的异常情况进行检测，对比其检测准确率和检测时间，结果如表1：

现有差异化方法有以下3种：

1、使用全部特征进行检测，不进行特征选择处理。

2、单独使用基于相关性的特征选择算法。

3、单独使用基于互信息的特征选择算法。

表1各差异化方法的准确率和检测时间

差异化方法	准确率(％)	检测时间(s)
			不进行特征选择	70.56	4
利用基于相关性的特征选择算法	78.17	3
			利用基于互信息的特征选择算法	78.90	3
本发明方法	82.59	1.5

表中的准确率是利用不同检测方法对NSL-KDD数据集进行分类异常检测，通过得到各自被正确划分为正常的样本数TP、被错误划分为正常的样本数FP、被错误划分为异常的样本数FN、被正确划分为异常的样本数TN，计算得到其各自的准确率为

表中检测时间是指利用python语言的time.clock()函数对不同检测方法的开始检测时间startTime及检测结束时间endTime进行记录，计算得到不同检测方法的检测时间为：检测结束时间endTime减开始检测时间startTime。

由表1可以看出，现有3种差异化方法进行网络流量异常检测的准确率低，本发明方法较高，且本发明的检测时间均比3种差异化方法的检测时间短。表明本发明方法的采用决策树作为个体分类器构建随机森林分类模型，节省了时间消耗，检测的效率高于现有的差异化方法。

Claims

1.一种基于联合特征选择的网络流量异常检测方法，其特征在于，包括：

A)采集网络流量数据，进行数据预处理：

B)对预处理后的网络流量数据进行特征选择：

F)训练随机森林分类模型：

2.根据权利要求1所述的方法，其特征在于，A2)中对提取到的基本流量数据进行特征数据类型转换，是采用独热编码技术，将基本流量数据中的字符型特征转换成数值型特征。

3.根据权利要求1所述的方法，其特征在于，A2)中对转换后的数据进行标准化处理，通过如下公式进行：

其中，x′_i代表第i个特征标准化后的值，x_i代表第i个特征标准化前的值，min(X(i))代表第i个特征中的最小值，max(X(i))代表第i个特征中的最大值。

4.根据权利要求1所述的方法，其特征在于，B1)从网络流量数据中选出属性特征和类别特征相关性最大的特征序列集合M，实现如下：

B1a)利用初始的属性特征集合F＝{f₁,f₂,…f_i,…,f_j,…,f_n}，计算第i个属性特征f_i分别与第j个属性特征f_j的相关系数和与类别特征c的相关系数/>

其中，n为属性特征的数量，f_i′为第i个属性特征的值，f_j'为第j个属性特征的值，c'为类别特征的值；

B1b)利用上述两个相关系数和/>分别计算第i个属性特征f_i与第j个属性特征f_j的平均相关度/>和与类别特征c的平均相关度/>

其中，k代表集合M中的特征个数；

B1c)利用上述两个平均相关度和/>计算集合M的启发式估计值M_s：

其中，M_s为集合M的启发式估计值；

B1d)选择启发式估计值最大的一个特征加入集合M，随后选择启发式估计值次大的特征加入集合M，重复步骤B1a)至B1c)，计算出新的启发式估计值M′_s；

B1e)将新的启发式估计值M′_s与原来的启发式估计值M_s进行比较：

如果M′_s＜M_s则去除这个启发式估计值次大的特征，然后再选择下一个，直到特征被选择完，得到属性特征和类别特征相关性最大的特征序列集合M；

否则，保留此启发式估计值次大的特征，返回B1a)。

5.根据权利要求1所述的方法，其特征在于，B2)从网络流量数据中选出属性特征和类别特征互信息最大的特征序列集合S，实现如下：

B2a)利用初始的候选属性特征集合G＝{g₁,g₂,…,g_i,…,g_n}，计算属性特征集合G中每个属性特征和类别特征c的互信息I(G；c)：

B2b)利用上述互信息I(G；c)，计算已选属性特征集合S与类别特征c之间的互信息I(S；c)：

I(S；c)＝I(G；c)-∑{I(G；S)-I(G；S|c)}，

B2c)将互信息I(S；c)最高的属性特征放入已选属性特征集合S中，并从候选属性特征集合G中删除此属性特征，重复B2a)至B2b)，直到候选属性特征集合G中的特征被删除完，得到属性特征和类别特征互信息最大的特征序列集合S。

6.根据权利要求1所述的方法，其特征在于：所述C3)中对两个优先特征子集M1和S1进行并操作，是将两个优先特征子集中所有的特征进行组合，得到优先特征集合U。

7.根据权利要求1所述的方法，其特征在于：所述C3)中对两个有用特征子集M2和S2进行交操作，是将两个有用特征子集中共有的特征进行组合，得到有用特征集合I。

8.根据权利要求1所述的方法，其特征在于，所述C4)中，对优先特征集合U和有用特征集合I进行并操作，是将优先特征集合U和有用特征集合I中所有的特征进行组合，得到特征筛选集合Q。

9.根据权利要求1所述的方法，其特征在于，F)中训练随机森林分类模型，实现如下：

F1)利用自助采样方法从训练样本集中生成d个训练样本子集{D₁,D₂,…D_i,…,D_d}；

F2)分别利用d个训练样本子集，训练d个决策树：

F2a)输入训练样本子集D_i，从训练样本子集的所有属性特征中随机选择m个属性特征构成特征子集，其中1≤m≤41；

F2b)计算特征子集中每个特征可能取值的基尼指数Gini_index(D_i,a)：

其中，a是对训练样本子集D_i进行划分的特征，a有V个可能取值{a¹,a²,…，aⁱ,…,a^v}，其中D_i是第i个训练样本子集，i∈(1,d)，D_i ^v即是第v个子节点所包含的样本集，Gini(D_i ^v)是第v个子节点所包含的样本集的基尼值：

F2c)选择具有最小基尼指数的特征进行分裂；

F2d)对获得的特征，重复F2b)和F2c)，直到分裂停止时结束，得到一个训练好的决策树，输出一个分类结果；

F3)重复F2a)至F2d)共d次，得到d个训练好的决策树，对应d个分类结果；

F4)对d个分类结果，利用多数投票法得到最终的检测结果，即构成训练好的随机森林分类模型。