CN113313138A

CN113313138A - 基于概率生成模型的入侵行为特征转换方法、检测方法

Info

Publication number: CN113313138A
Application number: CN202110383712.6A
Authority: CN
Inventors: 宗国浩; 冯伟华; 陈瑞; 王迪; 王锐; 王峙; 王永胜; 郑新章
Original assignee: Zhengzhou Tobacco Research Institute of CNTC
Current assignee: Zhengzhou Tobacco Research Institute of CNTC
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-08-27

Abstract

本发明涉及一种基于概率生成模型的入侵行为特征转换方法、检测方法，属于网络入侵行为检测技术领域。本发明采用高斯混合生成模型(GMM)作为概率生成模型，利用GMM参数，将原始训练数据集特征转换成距离特征和密度特征两组高质量且简洁的特征，更加凸显出了原始特征中包含的潜在类别差异；然后利用转换后的特征数据进行入侵行为的检测，能够有效地提升后续入侵行为的检测效果。

Description

基于概率生成模型的入侵行为特征转换方法、检测方法

技术领域

本发明涉及一种基于概率生成模型的入侵行为特征转换方法、检测方法，属于网络入侵行为检测技术领域。

背景技术

在现实的网络环境中，网络交互行为复杂多样，现有IDS(Intrusion DetectionSystems，入侵检测系统)无法建立完整的用户行为数据库，导致在没有已知样本类型的情况下无法识别新的攻击，或者先前未出现过的系统行为可能被标记为潜在的入侵，这两种情况分别表现为低检测率和高误报率。在人工智能领域中，输入的训练数据的质量往往比使用的入侵检测算法更能显著地影响模型的检测性能。然而，很少有研究关注于正常和恶意网络连接(注：一条网络连接记录表示在特定时间段内从源IP到目的IP的TCP包序列)构造出有代表性和区分性的特征，导致模型的检测性能难以提升。因此，发明一种新的特征转换方式是非常必要的，以实现在不损失原始信息的基础上进行特征重构。

概率生成模型可以根据样本的分布来生成概率密度函数，进而通过概率密度函数生成的条件概率函数来实现入侵检测。由于概率生成模型可以学习并还原出联合概率分布，能更好的拟合样本数据分布，并且不需要经历多次迭代的过程，所以收敛速度更快，因而在样本容量较大时，相较于传统判别模型更有优势。现有文献大多使用基于距离的聚类算法进行特征转换，如kmeans等，而这类算法有两个明显的缺点，一是，其只适合于刻画凸形数据，对未知形状的数据集刻画性能较差，局限性较强，对于安全数据，由于网络环境等各因素的综合影响，并不能保证数据集的凸性；二是，其给出的分类结果为所属类别，较为绝对。

申请公开号为CN110070141A的中国专利申请文件公开了一种网络入侵检测方法，该方法利用核主成分分析法进行特征提取，将训练数据集放入SVM中训练，得到特征数据集，利用遗传算法从特征数据集中获取最优特征子集，利用萤火虫群优化算法从最优特征子集中获取整体局部最优特征子集和最优支持向量机参数，根据整体局部最优特征子集对训练数据集进行处理，并输入到支持向量机分类器中进行分类建模，得到网络入侵检测模型。申请公开号为CN110875912A的中国专利申请文件公开了一种基于深度学习的网络入侵检测方法、装置和存储介质，该方法对原始数据进行预处理后转换为图片格式数据，利用卷积神经网络对训练数据集中的网络连接样本数据进行训练得到的网络入侵检测模型，利用网络入侵检测模型进行检测。申请公开号为CN111741002A的中国专利申请文件公开了一种网络入侵检测模型的训练方法和装置，将网络数据和其攻击属性标签输入至卷积神经网络，通过比较最佳网络参数对应的攻击属性标签与真实标签以确定奖励值，将奖励值应用于误差函数，直至迭代的训练样本数量达到预设数量，得到网络入侵检测模型。上述方法虽然够能够实现网络入侵行为的检测，但是上述方法都是直接使用入侵行为的特征，没有进行特征转换，导致检测过程中的模型所用的数据量大，且有些特征还会影响检测的精度。

发明内容

本发明的目的是提供一种基于概率生成模型的入侵行为特征转换方法、检测方法，以提高描述入侵行为数据分布的准确性和入侵行为检测的准确性。

本发明为解决上述技术问题而提供一种基于概率生成模型的入侵行为特征转换方法，该特征转换方法包括以下步骤：

1)获取表征网络入侵行为的特征以及对应的网络入侵行为类别，形成原始训练集；

2)将原始训练集中每个网络入侵行为类别的特征数据输入到高斯混合模型中，获得每个类别对应的GMM参数；

3)根据每个类别对应的GMM参数，将表征网络入侵行为的特征转换成新的数据特征，形成新的训练集，新的数据特征包括距离特征和密度特征，所述的距离特征是原始训练数据集中样本数据点距离每个类别对应的高斯分布之间的马氏距离；所述密度特征是原始训练数据集中样本数据点在该类别的样本空间上的GMM生成概率。

本发明采用高斯混合生成模型(GMM)作为概率生成模型，利用GMM参数，将原始训练数据集特征转换成距离特征和密度特征两组高质量且简洁的特征，更加凸显出了原始特征中包含的潜在类别差异；综合考虑了距离特征和密度特征，能够有效地提升后续入侵行为的检测效果。

进一步地，为准确获取GMM参数，所述步骤2)中得到GMM参数的过程为：

利用贝叶斯信息准则BIC确定高斯成分的个数K；

利用EM算法求解高斯成分个数为K的GMM混合模型的GMM参数。

进一步地，为保证训练集中数据的准确性，所述步骤1)还包括对获取表征网络入侵行为的特征进行预处理，所述的预处理包括括空缺值的删除、数值型特征的归一化。

本发明还提供了一种基于概率生成模型的入侵行为检测方法，该检测方法包括以下步骤：

3)根据每个类别对应的GMM参数，将表征网络入侵行为的特征转换成新的数据特征，形成新的训练集，新的数据特征包括距离特征和密度特征，所述的距离特是原始训练数据集中样本数据点距离每个类别对应的高斯分布之间的马氏距离；所述密度特征是原始训练数据集中样本数据点在该类别的样本空间上的GMM生成概率；

4)利用深度学习模型建立入侵行为检测模型，利用所述新的训练集对入侵行为检测模型进行训练，获取待测入侵行为特征并将其转换成距离特征和密度特征，并将转换成后特征输入到训练好的入侵行为检测模型中进行检测。

本发明采用高斯混合生成模型(GMM)作为概率生成模型，利用GMM参数，将原始训练数据集特征转换成距离特征和密度特征两组高质量且简洁的特征，，更加凸显出了原始特征中包含的潜在类别差异；再利用转换后的特征进行检测模型的训练，提高了检测模型的精度。本发明综合考虑了距离特征和密度特征，能够有效地提升后续入侵行为的检测效果。

利用贝叶斯信息准则BIC确定高斯成分的个数K；

利用EM算法求解高斯成分个数为K的GMM混合模型的GMM参数。

进一步地，所述的深度学习模型为神经网络模型。

3)获取待测测入侵行为，计算待测入侵行为在各个类别上的密度特征；所述密度特征是待测入侵行为特征在各类别的样本空间上的GMM生成概率；

4)利用待测入侵行为在各个类别上的密度特征筛选出待选入侵行为类别，根据待测测入侵行为与待选类别中各数据点之间的距离关系对待测数据进行分类，实现待测测入侵行为的检测。

本发明采用高斯混合生成模型(GMM)作为概率生成模型，利用GMM参数，将待测入侵行为的特征转换成密度特征，充分利用密度特征先进行一轮类别筛选，再通过对KNN算法的改进，利用距离特征进行检测，一方面降低了计算复杂度，另一方面也克服了KNN算法中由于k值选择的随机性带来的分类准确性低的缺点，对于聚类后样本离类别中心点分布较为分散的数据集分类结果更为准确。

进一步地，为快速、准确地确定入侵行为类别，所述步骤4)的实现过程如下：

A.计算待测入侵行为数据点与提取出的待选入侵行为类别中所有数据点之间的欧式距离；

B.选取距离值最小的k个数据点以及k个数据点分别所属的类别，计算出每一类别内的质心点，并计算各类别内所有数据点与对应质心点的欧式距离的平均值，记为各类别的离散度；

C.计算待测入侵行为数据点与每一类别质心点的欧式距离，将其与对应类别的离散度进行比较，选取差异最小的类别，该类别即为待测入侵行为所属类别。

进一步地，所述的待选类别的确定过程如下：利用待测入侵行为数据点的密度特征进行一次筛选，根据密度特征获得待测入侵行为数据点属于不同类别的概率，选取概率值较大的设定个数的类别作为待测入侵行为数据点的待选类别。

附图说明

图1是本发明基于概率生成模型的入侵行为特征转换方法的流程图；

图2是本发明基于概率生成模型的入侵行为检测方法实施例1的流程图；

图3是本发明基于概率生成模型的入侵行为检测方法实施例2中改进KNN算法示意图；

图4是本发明基于概率生成模型的入侵行为特征转换方法实施例中的KDD CUP 99数据集中的三条示例数据。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步地说明。

特征转换方法实施例

本申请提供的基于概率生成模型的入侵行为特征转换方法，具体选用高斯混合生成模型(GMM)作为概率生成模型，利用GMM参数，将原始训练数据集特征转换成距离特征和密度特征两组高质量且简洁的特征，更加凸显出了原始特征中包含的潜在类别差异；综合考虑了距离特征和密度特征，可以有效地提升后续分类器的检测效果；GMM避免了基于距离的聚类方法的弊端，其可以有效刻画和拟合非凸形状的数据空间，更准确地描述正常和异常网络活动的数据分布。如图1所示，该方法包括：

1.获取表征网络入侵行为的特征数据以及对应的网络入侵行为类别，以形成训练数据。

首先获取各类网络入侵行为以及对应的特征数据，然后对获取的数据进行预处理，包括空缺值的删除、数值型特征的归一化、字符型特征的编码等处理，然后将预处理后的数据根据其标签(网络入侵行为类别)分成n个类别，得到训练集。将每个类别的特征数据输入到高斯混合模型中，获得每个类别对应的GMM参数，其中，n＞1。

GMM(Gaussian Mixture Model，高斯混合模型或混合高斯模型)，其是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。其中，训练集按照标签进行分类，分成n个类别。

2.将每个类别的数据输入到高斯混合模型中，获得每个类别对应的GMM参数，具体方法为：

1)利用贝叶斯信息准则BIC确定高斯成分的个数K；

其中，BIC＝-2logp(X∣Θ)+dlog(N) (1)

式(1)中(X∣Θ)表示训练样本的对数似然函数，d表示K个高斯成分所具有的自由参数的个数，N表示训练样本的个数；

BIC(Bayesian information Criteria，贝叶斯信息准则)分数综合考虑了模型对数据的拟合程度与模型的复杂度，所以使用BIC分数作为评判标准。通过试验多种参数组合，选择最低BIC分数对应的高斯成分的个数K，可以获得更加简单的模型，并且使得高斯混合模型具有较高的拟合程度。

2)利用EM算法求解高斯成分个数为K的GMM混合模型的GMM参数。

本步骤利用有限个高斯成分表示输入数据，从空间分布的角度呈现整个训练集。GMM 的训练过程即找到有限个高斯成分来完美的拟合输入数据，因此本步骤的输出是每个类别的输入数据训练好的GMM，而训练好的GMM由隐向量来表示，隐向量由高斯子成分的均值、方差和权重三部分组成。

3.根据每个类别对应的GMM参数，将原始训练数据集中的特征转换成新的数据特征，新的数据特征包括距离特征和密度特征。

其中，距离特征是原始训练数据集中样本数据点距离每个类别对应的高斯分布之间的平均距离；密度特征是原始训练数据集中样本数据点在该类别的样本空间上的GMM生成概率。

本实施例以KDD CUP 99数据集为例，其中包括了四种攻击大类(四种攻击类型分别为DOS,U2R,R2L和Probing，每个大类中又包括若干攻击小类)和一种正常类Normal，共5大类别。每一条数据包含41个特征，再加上最后的类别标签(label)，共有42维。其中41个特征分别从TCP连接基本特征、TCP连接内容特征、基于时间的网络流量统计特征和基于主机的网络流量统计特征等四方面对网络连接进行描述。如图4展示的为 KDD CUP 99数据集中的三条示例数据，其中类别标签“portsweep”为类别“Probing”大类中的子类。

具体的，距离特征的计算方法如下：

原始训练数据集中样本数据点距离每个类别对应的高斯分布之间的平均马氏距离。其中，马氏距离计算了样本数据点距离某个类别对应的高斯分布之间的距离，比如，DOS类别的GMM拟合结果是6个高斯成分，那对于每个数据点来说，其与DOS类别之间的距离即为该数据点与6个高斯函数的马氏距离求平均。该样本与其他类别的距离计算方式与此相同。

密度特征的计算方法如下：

训练集每个类别的数据点样本计算每一个数据点在该每个类别的样本空间上的GMM生成概率。如果原始训练数据集有5个类别，则所有的原始训练数据集被转换为 5+5＝10个特征。

通过上述过程可将表征入侵行为的特征数据转换成距离特征和密度特征，转换后的特征数据可以用来进行网络入侵行为检测。

检测方法的实施例1

本实施例的检测方法是在上个实施例中特征转换方法的基础上实现的，如图2所示，首先需要根据特征转换方法将入侵行为的特征进行转换，得到距离特征和密度特征。将转换后的数据形成新的训练集，该新的训练集包括各类入侵行为以及对应的距离特征和密度特征。然后利用深度学习算法建立入侵检测模型，本发明的中入侵检测模型可采用神经网络模型等，将训练集输入到该入侵检测模型中进行训练，得到训练后的入侵检测模型。

获取待分类的网络入侵行为特征数据，按照上述特征转换方法将入侵行为特征转换成距离特征和密度特征，将得到上述特征数据输入到训练后的入侵检测模型中，即可实现对网络入侵行为的检测，判断出网络入侵行为的类别。

检测方法的实施例2

本实施例中的检测方法采用改进的KNN算法来进行分类，与检测方法的实施例1相比，在于所采用的入侵检测模型不一样，本实施例中入侵检测模型改进的KNN算法来实现。该方法的具体实现过程如下。

1.待测数据进行特征转换。

按照本发明的特征转换方法对获取的待测数据进行特征转换，将待测数据中表征入侵行为的各特征转换成密度特征。

2.利用密度特征进行筛选。

利用待测数据点的密度特征进行一次筛选，根据密度特征获得待测数据点属于不同类别的概率，将对应的概率值从大到小进行排序，并提取前P个类别作为待测数据点的待选类别。

3.根据待测数据与待选类别中各数据点之间的距离关系对待测数据进行分类。

本实施例采用特征转换方法实施例中原始训练集作为各类别的数据点，计算待测数据与提取出的P个待选类别中所有数据点之间的欧式距离。然后将欧式距离由大到小进行排序，选取距离值最小的k个数据点；分别确定k个数据点分别所属的类别；求出每一类别内的质心点，并计算该类别内所有数据点与质心点的欧式距离的平均值 d_i ^(ave)(i＝1,2,…P)；其中质心点μ_i的计算公式为：

其中，其中|C_i|表示类别i 的特征向量数；分别计算待测数据点与每一类别质心点的欧式距离d_c；从上述所有类的平均值d_i ^(ave)中找到与距离值d_c最接近的值，其对应的类别即为待测数据所属的类别检测结果。

如图3所示，假设筛选出的待选类别有3个，如图3所示，分别为类1、类2和类3，各类中的数据点为训练集中的数据。先计算待测数据点与类1中各数据点之间的距离，这里的距离的为数据点各特征之间的欧式距离，通过上述方式可计算出待测点与3个类别中各数据点之间的距离，选取距离最小的若干个数据点并确定其所属的类别，假设确定的所属类别还是两个，分别是类1、类2和类3，那么先分别确定各类质心点，并分别计算类1中所有数据点与类1质心点的欧式距离的平均值d₁ ^(ave)、类2中所有数据点与类2质心点的欧式距离的平均值d₂ ^(ave)以及类3中所有数据点与类3质心点的欧式距离的平均值d₃ ^(ave)；然后分别计算待测数据与类1、类2和类3质心点的欧式距离d₁、d₂和d₃；从上述所有类的平均值d_i ^(ave)中找到与距离值d_i最接近的值，其对应的类别就是待测数据所属的的类别。假设计算出的d₁ ^(ave)＝3、 d₂ ^(ave)＝4、d₃ ^(ave)＝5、d₁＝3.3、d₂＝6、d₃＝7，d₁ ^(ave)与d₁的差值为0.3，d₂ ^(ave)和d₂的差值为2， d₃ ^(ave)和d₃的差值为2，可见d₁ ^(ave)与d₁的差值最小，那么待测数据点所属类别为类别1。

通过上述过程，本发明能够准确、快速确定入侵行为的类别，实现对入侵行为的检测。

KNN算法由于采用投票机制，遵循少数服从多数原则，此方法当数据集样本容量较小时，或当聚类后样本离类别中心点分布较为分散的情况下，算法难以取得良好效果；本发明通过对KNN算法的改进，充分利用密度特征先进行一轮类别筛选，再通过对KNN算法的改进，利用距离特征进行检测，一方面降低了计算复杂度，另一方面也克服了KNN算法中由于k值选择的随机性带来的分类准确性低的缺点，对于聚类后样本离类别中心点分布较为分散的数据集分类结果更为准确。

Claims

1.一种基于概率生成模型的入侵行为特征转换方法，其特征在于，该特征转换方法包括以下步骤：

2.根据权利要求1所述的基于概率生成模型的入侵行为特征转换方法，其特征在于，所述步骤2)中得到GMM参数的过程为：

利用贝叶斯信息准则BIC确定高斯成分的个数K；

利用EM算法求解高斯成分个数为K的GMM混合模型的GMM参数。

3.根据权利要求1所述的基于概率生成模型的入侵行为特征转换方法，其特征在于，所述步骤1)还包括对获取表征网络入侵行为的特征进行预处理，所述的预处理包括括空缺值的删除、数值型特征的归一化。

4.一种基于概率生成模型的入侵行为检测方法，其特征在于，该检测方法包括以下步骤：

5.根据权利要求4所述的基于概率生成模型的入侵行为检测方法，其特征在于，所述步骤2)中得到GMM参数的过程为：

利用贝叶斯信息准则BIC确定高斯成分的个数K；

利用EM算法求解高斯成分个数为K的GMM混合模型的GMM参数。

6.根据权利要求4或5所述的基于概率生成模型的入侵行为检测方法，其特征在于，所述的深度学习模型为神经网络模型。

7.一种基于概率生成模型的入侵行为检测方法，其特征在于，该检测方法包括以下步骤：

8.根据权利要求7所述的基于概率生成模型的入侵行为检测方法，其特征在于，所述步骤4)的实现过程如下：

9.根据权利要求7或8所述的基于概率生成模型的入侵行为检测方法，其特征在于，所述的待选类别的确定过程如下：利用待测入侵行为数据点的密度特征进行一次筛选，根据密度特征获得待测入侵行为数据点属于不同类别的概率，选取概率值较大的设定个数的类别作为待测入侵行为数据点的待选类别。