CN106161458A

CN106161458A - 基于双加权在线极限学习机的网络入侵检测方法

Info

Publication number: CN106161458A
Application number: CN201610628776.7A
Authority: CN
Inventors: 张永; 刘文哲; 刘博�
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2016-08-03
Filing date: 2016-08-03
Publication date: 2016-11-23
Anticipated expiration: 2036-08-03
Also published as: CN106161458B

Abstract

本发明公开一种基于双加权在线极限学习机的网络入侵检测方法，在初始训练阶段，从数据集中随机选择样本作为初始训练样本，随机分配权值和阈值，进而计算在时间层面的权值，训练初始的概率神经网络，获得每个样本属于每个类别的得分，并计算隶属度，得到在空间层面的权值，最终组合在时间层面和空间层面的权值，得到最终的初始权值；在连续学习阶段，对每一块新到达的数据更新在时间层面的权值并对权值对角化，更新概率神经网络得到当前块的得分，进而更新空间层面的权值，最终组合在时间层面和空间层面更新好的权值得到最终的输出权值。

Description

基于双加权在线极限学习机的网络入侵检测方法

技术领域

本发明涉及数据挖掘领域，尤其是一种可同时应对数据中的类不均衡和概念漂移问题，有效提高检测精度的基于双加权在线极限学习机的网络入侵检测方法。

背景技术

随着计算机网络的飞速发展，网络通信已经渗透到各行各业，对人类社会的发展起到了关键作用，并影响和改变着人们的生活。网络虽然给人们带来了便利，但同时也因为网络入侵而带来了各种安全问题。如：网络黑客可以攻破机密文件，盗取银行存款，篡改并破坏数据块等等。目前，对于网络入侵产生的大量数据，基本上是借助数据挖掘的相关方法从中挖掘出有用的知识，进而对网络入侵进行检测，因此对数据流挖掘的分类技术则成为目前研究的重中之重。

数据流分类是数据流挖掘的关键技术，它是通过训练样本集训练一个分类模型，将一个未知类的新样本映射到一个已知类，它是一种有指导的学习方法。数据流分类主要涵盖以下两个方面：首先，训练一个模型，根据已知类标签的训练样本集构建分类模型；其次，利用所训练的模型学习新样本，用评价指标评估分类模型。现有数据流的分类方法主要分为单分类器模型和多分类器模型。单分类器模型就是用一个学习器分类数据流。早期的数据是非动态的且数量有限，因此用单分类器模型就能得到较好的分类效果，然而数据流是快速、连续且动态的，用原来的单分类器模型很难准确分类，因此很多学者展开了对数据流单分类器模型的研究。例如，决策树是最流行的挖掘数据流的工具之一，Domingos和Hulten提出了快速决策树（VFDT）算法分类数据流，VFDT能够在线处理数据流。之后，Hulten对VFDT进行改进，提出了适应概念的快速决策树（CVFDT），CVFDT是一个增量的学习算法，在数据流发生概念漂移时能够重新构建决策树分类器。相比于单分类器模型，多分类器（即集成分类器）模型是一个比较流行的解决数据流分类问题的方法。集成方法是使用多个相同或不同的单分类模型来产生具有更好预测性能的新模式，集成方法的预测模型能被增量地更新或使用最近的数据块重新训练分类模型。Enwall和Polikar提出了一个动态集成方法Learn++.NSE，能够处理不同类型的概念漂移。然而，Learn++.NSE方法是根据最近数据块的分类误差给集成模型中的分类器赋权重，这并不适用于处理不均衡分布的数据。Brzezinski和Stefanowski提出了一个新的增量集成分类器，在线准确率更新集成，它组合了基于块的和在线方法处理概念漂移，但提出的方法也并不适用于不均衡的数据流。即现有的网络入侵方法并不能同时应对数据中的类不均衡和概念漂移问题。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种可同时应对数据中的类不均衡和概念漂移问题，有效提高检测精度的的基于双加权在线极限学习机的网络入侵检测方法。

本发明的技术解决方案是：一种基于双加权在线极限学习机的网络入侵检测方法，其特征在于：

a．在线极限学习机按照如下步骤进行：

步骤1：初始化

1.1 从训练集D 中随机选择n ₀个样本作为初始训练集D ₀；

1.2随机分配输入权重和阈值；

1.3利用式对初始训练样本集D ₀计算初始中间层输出矩阵H ₀，g (x )为激励函数；

1.4 利用式，计算在时间方面的权重w ₀，并对角化矩阵；

1.5 利用式计算矩阵M ₀；

1.6 训练初始的PNN，获得每个样本属于每个类别的得分scores ₀，并利用公式计算隶属度，得到在空间层次的权重u ₀；

1.7 利用式组合在时间层次的权重w ₀和在空间层次的权重u ₀，计算初始输出权重，其中T ₀为真实输出；

步骤2：连续学习阶段

2.1将训练集D 中剩下的数据进行分块处理，第k +1块数据集D _k+1到达后，利用式更新中间层输出矩阵H _k+1；

2.2 利用式，更新在时间层面的权值w _k+1，并对角化矩阵；所述和分别代表第j 个数据块的正类数目和负类数目，；

2.3 利用式计算矩阵;

2.4 更新PNN得到scores _k+1，用与初始化阶段相同的方法得到空间层面的权值；

2.5 利用式更新输出权值矩阵；

b．对于网络数据进行检测：

当第k +1块网络数据集D _k+1到达后，利用式更新中间层输出矩阵H _k+1；按照计算输出层的权值；分类判决。

本发明考虑到网络入侵中数据的动态性及不均衡性，利用在线极限学习机（OS-ELM）作为分类器，采用自适应双加权策略，即从时间和空间角度分析样本的分布特点，分别采用概率密度函数计算在时间层面的权值，以及采用增量式的概率神经网络（PNN）计算在空间层面的权值。利用双权值来平衡当前数据的类分布，更新整个模型，既考虑了类不均衡率也考虑了类的概率分布，从而解决了基于块的学习或在线学习的类不均衡和概念漂移问题，保证了分类准确率及健壮性，有效提高分类精度，从而能够准确检测入侵网络。

具体实施方式：

一种基于双加权在线极限学习机的网络入侵检测方法，其特征在于：

a．在线极限学习机按照如下步骤进行：

步骤1：初始化

1.1 从训练集D 中随机选择n ₀个样本作为初始训练集D _0，，本发明选训练集D 的5 %作为初始训练集，剩下的数据进行分块处理，对于不同的数据采用不同的块大小。为了确保测试集的不均衡率与整个数据集的不均衡率相同，根据不均衡率大小，本发明选择剩下的95%数据中的20%作为测试数据， 80%的数据作为训练数据。

1.2随机分配输入权重和阈值；

1.4 利用式，计算在时间方面的权重w ₀，并对角化矩阵；和分别代表正类的权值和负类的权值，和分别代表初始训练集中正类总数和负类总数，，为了计算方便，对角化权值w ₀并生成对角矩阵。

1.5 利用式计算矩阵M ₀；

1.6训练初始的PNN，获得每个样本属于每个类别的得分scores ₀，归一化这

些得分并获得的模糊隶属度矩阵，

利用所获得的模糊隶属度矩阵计算隶属度，得到在空间层次的权重u ₀；其中 scores ₊和scores _-分别代表属于正类和负类样本的得分；

1.7 利用式组合在时间层次的权重w ₀和在空间层次的权重u ₀，计算初始输出权重，代表矩阵的整除操作，比如相对应的矩阵A 和B ，的表示方式为；

步骤2：连续学习阶段

2.2 利用式，更新在时间层面的权值w _k+1，并对角化矩阵；所述和分别代表第j 个数据块的正类（被入侵）数目和负类（未被入侵）数目，；

2.3 利用式计算矩阵;

和分别代表第j 个数据块的正类数目和负类数目，。

2.5 利用式更新输出权值矩阵；

b．对于网络数据进行检测：

针对本发明实施例，进行实验分析如下：

准确率是重要的评估分类表现的标准，然而，它不适用于具有不均衡分布的数据流。为了评估分类器的表现，本发明使用G-mean和F-measure作为评估标准。这两个标准同时涵盖了正类和负类的表现性能，因此被广泛用于研究中。它们的定义如下：

用TP (true positive)，FN (false negative)，FP (false positive)和TN (truenegative)分别表示真正类，假负类，假正类和真负类。在G-mean中，真正率(TPR =TP/(TP + F N ) )是指被分类器正确分类的正类样本，代表少数类的表现性能，真负率(TNR=TN/ (TN + F P ) )是指被分类器正确分类的负类样本，代表了多数类的表现性能。在F-measure中，精确率Precision=TP/(TP+FP)，召回率Recall=TP/(TP+FN)。是平衡precision和recall相对重要性的系数，本发明中设定值为1。

本发明使用网络入侵的数据如表1。

表1 数据描述

本发明实施例与以下三个方法进行了实验比较：OS-ELM（Online Sequential ExtremeLearning Machine），WOS-ELM（Weighted Online Sequential Extreme LearningMachine）以及基于采样的OS-ELM方法。一般用过采样和欠采样方法解决数据的不均衡分类问题。SMOTE方法改进了过采样方法，它随机合成新的少数类样本来平衡数据。在基于采样的OS-ELM方法中，本发明选择SMOTE作为采样策略。

首先通过基于块的模型验证四种方法在测试集上的表现。实验采用十折交叉验证。表2列出了实验结果，每个标准采用“平均值标准差”的形式。

表2 四种算法的实验结果

从表2中看出，本发明实施例的网络入侵检测方法的表现性能高于其他三个算法(基于采样的OS-ELM，OS-ELM，WOS-ELM)。同时，本发明还评估了在类不均衡环境下的鲁棒性。在实验中，对网络入侵数据采用不同的块大小，增量学习样本，在测试数据集上评估每个增量学习阶段的G-mean。

为公平起见，比较的四种方法采用相同的增量学习阶段，在每个过程中，它们采用相同的增量数据块。实验重复执行10次。本发明首先随机地把每个训练集平等的分成几个动态数据块。之后，对于剩下的9次，根据与第一次具有相同不均衡率的情况下把训练样本集平等分成几个数据块。

Claims

1.一种基于双加权在线极限学习机的网络入侵检测方法，其特征在于：

a．在线极限学习机按照如下步骤进行：

步骤1：初始化

1.1 从训练集中随机选择n ₀个样本作为初始训练集D ₀；

1.2随机分配输入权重和阈值；

1.3利用式对初始训练样本集D ₀计算初始中间层输出矩阵H ₀，g(x)为激励函数；

1.4 利用式，计算在时间方面的权重w ₀，并对角化矩阵；

1.5 利用式计算矩阵M ₀；

步骤2：连续学习阶段

2.3 利用式计算矩阵;

2.4 更新PNN得到scores _k+1，得到空间层面的权值；

2.5 利用式更新输出权值矩阵；

b．对于网络数据进行检测：