CN111641598A

CN111641598A - 一种基于宽度学习的入侵检测方法

Info

Publication number: CN111641598A
Application number: CN202010394701.3A
Authority: CN
Inventors: 高英; 宋彬杰; 吴烘锐
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-08

Abstract

一种基于宽度学习的入侵检测方法，其特征在于，采用步骤为，步骤一：对流量数据进行格式处理；步骤二：构建g项带权重的决策树；步骤三：构建宽度学习中的输入节点组与特征节点组；步骤四：计算输入节点组与特征节点组到输出层的权重。本发明使用宽度学习系统对互联网流量进行异常检测，采用简单的数据预处理方法，不需要大量的专家经验作为前提，而且能够较好的保存数据特征的完整性，根据实验结果比较，本发明具有准确率高、适应性强、可扩展性、可移植性等特点，发明优势显著，应用场景宽广。

Description

一种基于宽度学习的入侵检测方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于宽度学习的入侵检测方法。

背景技术

随着计算机网络规模和应用领域的日益增大，网络已经成为人们日常工作和生活的重要组成部分。但是由于网络复杂性和异构性的不断增加，通过网络传播的病毒数量和各种人为破坏因素越来越多，对网络性能的影响越来越大，严重干扰了正常的网络运行秩序。

现有技术中异常流量检测的分类问题有三种方法，即基于端口的方法，基于流量特征统计的方法和基于原始有效载荷的方法。

基于端口的方法，使用数据包标头中的端口号来检查已知的应用程序，该方法简单易行，但许多最近的应用程序使用动态端口甚至通过使用其他应用程序的众所周知的端口来隐藏自己，因此基于端口的方法并不能提供可靠的结果。

基于流量特征统计的方法采用有监督和无监督的机器学习算法来将网络流量分类为已知应用的预定义类别，但是需要专家依靠大量的经验，对流量信息进行统计，耗费较多的人力。

基于原始有效载荷的方法通过原始数据利用深度学习等方法学习数据的内在特征。但是基于深度学习的方法在学习数据内在特征时，存在数据信息的丢失，特征提取不完备。

虽然入侵检测虽然取得一定的检测效果，但是面对训练集稀缺的“零日攻击”，分类器学习过程难以学习有关知识，异常检测效果并不理想。

发明内容

本发明针对现有技术的不足，提出使用宽度学习系统对互联网流量进行异常检测，采用简单的数据预处理方法，不需要大量的专家经验作为前提，而且能够较好的保存数据特征的完整性，根据实验结果比较，准确率高、适应性强、可扩展性、可移植性等特点的基于宽度学习的入侵检测方法，具体技术方案如下：

一种基于宽度学习的入侵检测方法，采用步骤为，

步骤一：对流量数据进行格式处理；

步骤二：构建g项带权重的决策树；

步骤三：构建宽度学习中的输入节点组与特征节点组；

步骤四：计算输入节点组与特征节点组到输出层的权重。

为更好的实现本发明：

作为优化，所述步骤一具体为：

1.1、对数据进行规范化，实现数据维度统一，对未达到MIS值的数据进行补“0”操作；

1.2、为了便于处理数据，把数据映射到[0,1]，用于生成检测的最终特征；

1.3、对数据集进行降维处理；

1.4采用采样法对数据进行采样。

作为优化，所述步骤二具体为：为了保证每棵决策树的多样性，且尽可能拟合数据样本的真实分布，决策树算法是一个递归选择最优切分点，即特征，并根据该特征对训练数据集进行分割，使得对各个子数据集有一个最好的分类过程，这一过程对应着对特征空间的划分，也对应着决策树的构建，继续在子数据集上循环这个切割的过程，直到所有的训练数据子集被基本正确分类，或者没有合适的特征为止；

其中在选择最优切分点时，我们通过计算信息熵来衡量数据的不纯度或者不确定性，同时用信息熵来决定类别变量的最优二分值得切分问题，计算公式如下：

其中，D表示训练数据集，c表示数据类别数，pi表示类别i样本数量占所有样本的比例，确定某一特征作为结点后，以该结点为根对数据进行分类，分类后的数据集信息熵会比分类前的小，计算公式如下所示：

k表示样本D被分为k部分，信息增益，即信息熵之差，衡量某个特征对分类结果的影响，计算公式如下：

Gain(A)＝Info(D)-Info_A(D)

将训练集输入DT模块后，DT模块计算各个特征值的信息熵，通过信息熵值大小，选择出第一切分点，然后排除已选择的特征，对剩下的特征进行递归操作，直到数据不可再分；

生成特征进行拼接，每颗决策树，生成i(i＞1)个特征，一共有g颗决策树，生成后的流量包含特征数量n＝g*i个，

通过重采样的方法生成样本子集，即通过不将样本放回的循环采样的方式构建样本子集，假设样本数据表示为S＝(X，Y)，其中X＝{x₁，x₂，...，x_n}表示特征数据的集合，Y＝{y₁，y₂，...，y_n}表示标签数据的集合，采样率为r，那么采样的数据数量为

由于需要训练g个决策树，因此采样方法采样的子集数量同样也为g，并表示成{B₁，B₂，...，B_g}，采样完成后，样本子集将用于训练决策树，训练后的g个决策树模型的集合表示为{I₁，I₂，...，I_g}，在多分类的情况下，对于任一样本x∈X，它在决策树C_i下的预测值表示为：

I_i(x)＝[P_i(y＝1|x)…P_i(y＝k|x)]

其中P_i(y＝j|x)表示在第i个决策树下样本x属于第j类的概率。训练后的g项决策树的输出结果通过列连接的方式，构成宽度学习系统中的输入节点组，输入节点组I(x)的表示方式如下：

I(x)＝[I₁(x) … I_g(x)]

输入节点组用以生成特征节点组以及预测输出。

作为优化，所述步骤三具体为：

输入节点组是由决策树的输出结果构成，而特征节点组是通过输入节点组进行非线性变换生成，宽度学习通过在某一层增加特征节点的方式，增加模型的复杂度，提升模型的特征学习能力，从而提高对数据的拟合能力，宽度学习的神经网络模型只有两层，而神经元的个数较多，特征节点组中的节点通过输入节点组进行一定的运算生成，

假设特征节点为F(x)＝[F₁(x) … F_l(x)]，节点数为l，那么对于每个特征节点，其计算方式如下：

F_i(x)＝δ(w_i(I(x))^T+b_i)

其中δ(·)表示激活函数，这里将采用tanh函数作为激活函数，即

w_i，j＝1，2，...，m为权重矩阵，b_i，i＝1，2，...，m表示偏移，这两组参数通过高斯分布N(μ，0)随机地初始化，权重W_i的维度为(g·k)×o，偏移b_i的维度为(g·k)×1，o表示每个特征节点的输出维度，计算了输出节点层与特征节点层后，宽度学习的第一层网络层A(x)可以表示成：

A(x)＝[I(x)|F(x)]

＝[C₁(x) … C_g(x) F₁(x) … F_l(x)]

宽度学习将根据A(x)与样本标签数据计算层与层间的最优权重，实现向输入层的转化；

最后是计算输入节点组与特征节点组到输出层的权重W，为了能够得到最优权重W，采用基于梯度的训练方法，由于在宽度学习模型中，神经网络的层数只有两层，因此可以采用简单的求逆方法计算得到最优权重，在使用了整个样本集作为输入后，通过W＝(A(X))^-1Y的计算得到最优权重，然而，A(X)是不可逆，无法得到(A(X))^-1的计算结果，因此，采用伪逆运算来代替矩阵逆运算，使计算公式A(X)W≈Y，伪逆运算可以通过以下公式进行计算：

同样的，宽度学习模型中的A(X)伪逆以及最优权重W的计算如下：

W＝(A(X))⁺Y

最终构成的宽度学习模型用χ表示，对于任一样本x∈X，其分类结果输出为χ(x)。

本发明的有益效果为：本发明所使用宽度学习系统对互联网流量进行异常检测，采用简单的数据预处理方法，不需要大量的专家经验作为前提，而且能够较好的保存数据特征的完整性，根据实验结果比较；

从网络原始数据生成多维特征的方案，有效保留了大量数据的原始特征分布，对未曾出现的新型异常也具有一定的可检测性，避免了传统统计特征无法有效检测异常的缺点，并且简化了专家对流量特征进行人工分析和提取特征的操作，然后本发明研究宽度学习系统，设计基于宽度学习的工业异常流量检测行为检测模型，使宽度学习算法能够灵活应用于网络空间安全领域，最终实现在公开数据集上获得准确率不低于90％，误报率不高于2.0％的异常检测结果，本发明具有准确率高、适应性强、可扩展性、可移植性等特点，发明优势显著，应用场景宽广。

附图说明

图1为本发明中宽度树学习框架图。

图2为本发明中对数据进行规范化处理的示意图。

图3为本发明中特征拼接的结构示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

术语解释：

Maximum Investigation Size(MIS):根据实验需求，对数据维度进行处理时设置的最大值。

Padding：对数据进行规范化，实现数据维度统一，对未达到MIS值的数据进行补“0”操作。

Normalization：为了便于处理数据，把数据映射到[0,1]，用于生成检测的最终特征。

极大似然估计：利用已知的样本结果，反推最有可能(最大概率)导致这样结果的参数值。

人工神经网络：(Artificial Neural Networks，简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model)，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

宽度学习系统(BLS)：与深度学习中采用的神经网络思想相同，宽度学习的主要结构也是人工神经网络结构。基于深度学习的算法主要通过叠加其神经网络的层数，增加其深度来学习更深层次的数据特征，而基于宽度学习的算法通过在每层增加神经元的方式来提高其结构的复杂度，扩展特征，从而实现对复杂且多元数据的特征解析与识别。

如图1、图2和图3所示：一种基于宽度学习的入侵检测方法，采用步骤为，步骤一：对数据进行处理；

原始的数据包是以二进制进行存储的，数据包存在长短不一致的情况，本方法将数据包的每个字节作为一个特征，为了使分类算法更好地学习样本数据的特征，每一个原始数据包将作为数据样本集中的一条数据，本发明对数据样本进行对齐处理，将数据样本的特征数设置MIS。当收集的数据包的长度，即特征数量大于MIS值时，丢弃MIS值之后的特征，当收集到的流量特征值数量小于MIS值时，在数据包的后面进行“0”填充，使其特征数为MIS值，如图2 所示。公式如下所示：

其中，p_i，i＝1，2，...，MIS表示数据包的第i个特征。

1.2、为了便于处理数据，把数据映射到[0,1]，用于生成检测的最终特征。

将Padding后的流量数据进行归一化处理，将其特征缩放到[0,1]之间，如果不进行归一化，那么由于特征向量中不同特征的取值相差较大，会导致目标函数变“扁”。这样在进行梯度下降的时候，梯度的方向就会偏离最小值的方向，训练时间过长。归一化的计算公式如下：

其中，a_i表示具体的特征值，A_min表示特征值的最小取值，A_max表示特征值的最大取值，max＝1,min＝0；

1.3、数据集D进行主成分分析(PCA)降维

PCA可以概括为对应分析(Correspondence Analysis，CA)，以处理定性变量，也可以概括为多元因子分析(Multiple Factor Analysis，MFA)，以处理异构变量集。在数学上，PCA取决于正半定矩阵的特征分解以及矩形矩阵的奇异值分解(Singular ValueDecomposition，SVD)。实验中，其基于正交变化的方法，在流量特征为MIS维的流量中，提取m(m＜MIS)维的新正交变量，并且将该正交变量组成m维的特征作为降维后重构特征。

1.4、通过PCA降维后，数据集中的每一条流量包含n个特征，然后采用 Bootstrap采样方法(自展法)对数据进行采样，Bootstrap又称自展法，是用小样本估计总体值的一种非参数方法，在进化和生态学研究中应用十分广泛。例如进化树分化节点的自展支持率等。Bootstrap的思想，是生成一系列bootstrap 伪样本，每个样本是初始数据有放回抽样。通过对伪样本的计算，获得统计量的分布。例如，要进行1000次bootstrap，求平均值的置信区间，可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着1000个平均值的分位数进行计算，即可获得置信区间。已经证明，在初始样本足够大的情况下，bootstrap 抽样能够无偏得接近总体的分布。

步骤二：构建g项带权重的决策树；

首先是构建g项带权重的决策树，为了保证每棵决策树的多样性，且尽可能拟合数据样本的真实分布，决策树算法通常是一个递归选择最优切分点(即特征)，并根据该特征对训练数据集进行分割，使得对各个子数据集有一个最好的分类过程，这一过程对应着对特征空间的划分，也对应着决策树的构建，继续在子数据集上循环这个切割的过程，直到所有的训练数据子集被基本正确分类，或者没有合适的特征为止。本实施例中，在选择最优切分点时，我们通过计算信息熵来衡量数据的不纯度或者不确定性，同时用信息熵来决定类别变量的最优二分值得切分问题，计算公式如下：

其中，D表示训练数据集，c表示数据类别数，p_i表示类别i样本数量占所有样本的比例，确定某一特征作为结点后，以该结点为根对数据进行分类，分类后的数据集信息熵会比分类前的小，计算公式如下所示：

k表示样本D被分为k部分。信息增益，即信息熵之差，衡量某个特征对分类结果的影响，计算公式如下：

Gain(A)＝Info(D)-Info_A(D)

将训练集输入DT模块后，DT模块计算各个特征值的信息熵，通过信息熵值大小，选择出第一切分点，然后排除已选择的特征，对剩下的特征进行递归操作，直到数据不可再分。

生成特征进行拼接

每颗决策树，生成i(i＞1)个特征，一共有g颗决策树，生成后的流量包含特征数量n＝g*i个。

通过重采样的方法生成样本子集，换言之，即通过不将样本放回的循环采样的方式构建样本子集。假设样本数据表示为S＝(X，Y)，其中X＝{x₁，x₂，...，x_n}表示特征数据的集合，Y＝{y₁，y₂，...，y_n}表示标签数据的集合，采样率为r，那么采样的数据数量为

由于需要训练g个决策树，因此Bootstrap方法采样的子集数量同样也为g，并表示成{B₁，B₂，...，B_g}。采样完成后，样本子集将用于训练决策树，训练后的g个决策树模型的集合表示为{I₁，I₂，...，I_g}。在多分类的情况下，对于任一样本x∈X，它在决策树C_i下的预测值表示为：

I_i(x)＝[P_i(y＝1|x) … P_i(y＝k|x)]

I(x)＝[I₁(x) … I_g(x)]

输入节点组用以生成特征节点组以及预测输出。

步骤三：构建宽度学习中的输入节点组与特征节点组；

F_i(x)＝δ(w_i(I(x))^T+b_i)

w_i，i＝1，2，...，m为权重矩阵，b_i，i＝1，2，...，m表示偏移，这两组参数通过高斯分布N(μ，0)随机地初始化，权重W_i的维度为(g·k)×o，偏移b_i的维度为(g·k)×1，o表示每个特征节点的输出维度，计算了输出节点层与特征节点层后，宽度学习的第一层网络层A(x)可以表示成：

A(x)＝[I(x)|F(x)]

＝[C₁(x) … C_g(x) F₁(x) … F_l(x)]

最后是计算输入节点组与特征节点组到输出层的权重W，为了能够得到最优权重W，采用基于梯度的训练方法，由于在宽度学习模型中，神经网络的层数只有两层，因此可以采用简单的求逆方法计算得到最优权重，在使用了整个样本集作为输入后，通过W＝(A(X))^-1Y的计算得到最优权重，然而，A(X)是不可逆，无法得到(A(X))^-1的计算结果，因此，采用伪逆运算来代替矩阵逆运算，使用计算公式A(X)W≈Y，伪逆运算可以通过以下公式进行计算：

W＝(A(X))⁺Y

最终构成的宽度学习模型用X表示，对于任一样本x∈X，其分类结果输出为 X(x)

步骤四：计算输入节点组与特征节点组到输出层的权重。

Claims

1.一种基于宽度学习的入侵检测方法，其特征在于，采用步骤为，

步骤一：对流量数据进行格式处理；

步骤二：构建g项带权重的决策树；

步骤三：构建宽度学习中的输入节点组与特征节点组；

步骤四：计算输入节点组与特征节点组到输出层的权重。

2.根据权利要求1所述一种基于宽度学习的入侵检测方法，其特征在于：

所述步骤一具体为：

1.3、对数据集进行降维处理；

1.4采用采样法对数据进行采样。

3.根据权利要求1所述一种基于宽度学习的入侵检测方法，其特征在于：所述步骤二具体为：为了保证每棵决策树的多样性，且拟合数据样本的真实分布，决策树算法是一个递归选择最优切分点，即特征，并根据该特征对训练数据集进行分割，使得对各个子数据集有一个最好的分类过程，这一过程对应对特征空间的划分，也对应决策树的构建，继续在子数据集上循环这个切割的过程，直到所有的训练数据子集被正确分类，或者没有合适的特征为止；

Gain(A)＝Info(D)-Info_A(D)

I_i(x)＝[P_i(y＝1|x)…P_i(y＝k|x)]

其中P_i(y＝j|x)表示在第i个决策树下样本x属于第j类的概率，训练后的g项决策树的输出结果通过列连接的方式，构成宽度学习系统中的输入节点组，输入节点组I(x)的表示方式如下：

I(x)＝[I₁(x)…I_g(x)]

输入节点组用以生成特征节点组以及预测输出。

4.根据权利要求1所述一种基于宽度学习的入侵检测方法，其特征在于：所述步骤三具体为：

假设特征节点为F(x)＝[F₁(x)…F_l(x)]，节点数为l，那么对于每个特征节点，其计算方式如下：

F_i(x)＝δ(w_i(I(x))^T+b_i)

w_i，i＝1，2，...，m为权重矩阵，b_i，i＝1，2，...，m表示偏移，这两组参数通过高斯分布N(μ，0)随机地初始化，权重W_i的维度为(g·k)×o，偏移bi的维度为(g·k)×1，o表示每个特征节点的输出维度，计算了输出节点层与特征节点层后，宽度学习的第一层网络层A(x)可以表示成：

A(x)＝[I(x)|F(x)]

＝[C₁(x)…C_g(x) F₁(x)…F_l(x)]

W＝(A(X))⁺Y