CN113591915B

CN113591915B - 基于半监督学习和单分类支持向量机的异常流量识别方法

Info

Publication number: CN113591915B
Application number: CN202110725480.8A
Authority: CN
Inventors: 石凯; 张锋军; 牛作元; 李庆华; 许杰
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-05-19
Anticipated expiration: 2041-06-29
Also published as: CN113591915A

Abstract

本发明公开了一种基于半监督学习和单分类支持向量机的异常流量识别方法，包括以下步骤：1.采集网络流量数据并提取数据描述特征；2.利用采集的网络流量数据经过单分类支持向量机算法，生成异常流量识别的初始化模型；3.将网络流量数据输入样本筛选策略，样本筛选策略选用最近边界策略及其变形；4.根据样本筛选策略选择典型网络流量并进行标注，得到典型的已标注样本；5.将典型的已标注样本输入异常流量识别的初始化模型中，结合半监督学习思想进行模型的迭代优化以得到异常流量识别模型；6.将网络流量数据输入异常流量识别模型中，进行异常流量的识别。本发明能够为大量不平衡流量数据提供准确、快速建模的方法以识别已知和未知攻击。

Description

基于半监督学习和单分类支持向量机的异常流量识别方法

技术领域

本发明涉及电数字数据处理技术领域，尤其涉及一种基于半监督学习和单分类支持向量机的异常流量识别方法。

背景技术

随着互联网的飞速发展和计算机应用、手机软件的迅速扩张以及云计算、大数据、人工智能、5G等新技术的诞生，异常流量识别传统方法的准确性和有效性已经无法满足现今大数据时代的需求，而结合机器学习算法的异常流量识别技术日趋成为主流。目前基于机器学习的异常流量识别的主流技术有以下5种：基于贝叶斯网络的异常流量识别技术、基于决策树的异常流量识别技术、基于KNN的异常流量识别技术、基于AdaBoost的异常流量识别技术、基于支持向量机的异常流量识别技术。异常流量识别技术依托于机器学习模型的特性而产生不同的分类效果，这些机器学习模型具有以下技术特点和优缺点。

(1)方法一：基于贝叶斯网络的异常流量识别技术

贝叶斯网络又名信念网络(Belif Network)，其核心是条件概率，本质上是利用先验知识，确立随机变量(特征和类别)之间的关联约束关系，最终达成方便求取条件概率的目的。其优点在于，训练大规模或超大规模流量数据时，由于其针对特征概率进行数学运算，所以该方法计算并生成模型的速度最快。但是，它无法处理多个特征组合所产生的变化结果。

(2)方法二：基于决策树的异常流量识别技术

该方法采用树型结构，使用层层推理来实现网络流量的最终分类。其优点在于，易于实现、可解释性强，并且完全符合人类的直观思维，应用广泛，也能在相对短时间内对大规模网络流量数据做出可行且效果良好的结果。但是，其容易发生过拟合，并且会忽略流量数据集属性间的相互关联，而且计算的信息增益会不可逆转的偏向数值比较多的特征。

(3)方法三：基于KNN的异常流量识别技术

该方法的思路是，根据最邻近的K个已标识过的网络流量数据，通过多数表决等方式预测新样本的类别。其优点在于，无需参数估计和训练，十分适合多分类问题。但是，当样本不平衡时，如一个类的样本容量很大，而其它类的样本容量很小，加入的新样本可能导致流量分类结果偏向于大容量的分类。并且网络流量的数据量较大时，内存开销大，模型构建的速度较慢，而且对高维网络流量数据的分类表现不佳。

(4)方法四：基于AdaBoost的异常流量识别技术

该方法是一种由原始网络流量数据集生成不同弱学习器的迭代算法，然后根据结合策略，如投票策略，将这些弱生成器结合为强学习器。其优点在于，作为分类器其精度很高，不容易发生过拟合，并且可以灵活的使用各种回归分类模型来构建弱学习器。但是，其对噪声数据敏感，噪声数据在迭代过程中会获得较高的权重，从而对强学习器的预测准确性造成很大的影响。

(5)方法五：基于支持向量机的异常流量识别技术

该方法将网络流量数据样本作为向量映射到高维空间中，在这个空间中建立一个间隔超平面分隔建立的数据空间，超平面与分隔开的数据空间的距离最大化，而分隔开的数据空间为不同的流量类别，因此也被称为最大边缘区分类器。其优点在于，可以通过核函数向高维空间映射，所以可以用作高维流量分类，并且可以解决非线性分类和多特征组合分类的问题，分类思想简单而有效。但是，该方法对缺失数据敏感，数据不平衡或者存在异常样本时，模型预测的准确性将受到影响，并且这种监督学习的方式依赖大量已有标记的纯净数据。

发明内容

为了解决上述问题，本发明提出一种基于半监督学习和单分类支持向量机的异常流量识别方法，旨在解决如下技术问题：

(1)若采用基于传统机器学习方法，当正常流量远大于异常流量或者没有异常流量时，导致无法生成分类模型或者使用生成的模型产生的预测结果不准确；

(2)以异常流量为载体的未知攻击手段难以识别；

(3)已有标记的网络数据的数据量较少、分布不均匀时，导致生成的分类模型不准确。

本发明采用的技术方案如下：

一种基于半监督学习和单分类支持向量机的异常流量识别方法，包括以下步骤：

S1.采集网络流量数据并提取数据描述特征；

S2.利用采集的网络流量数据经过单分类支持向量机算法，生成异常流量识别的初始化模型：通过非线性变换将目标样本映射到一个高维特征空间，并在该空间建立一个封闭而紧凑的包含所有正常数据的最优超球体，通过该超球体将网络数据流量数据划分为正常流量和异常流量；

S3.将网络流量数据输入样本筛选策略，样本筛选策略选用最近边界策略及其变形；

S4.根据样本筛选策略选择典型网络流量，并进行标注，得到典型的已标注样本；

S5.将典型的已标注样本输入异常流量识别的初始化模型中，结合半监督学习思想进行模型的迭代优化以得到异常流量识别模型；

S6.将网络流量数据输入异常流量识别模型中，进行异常流量的识别以区分开异常流量和正常流量。

进一步的，步骤S2包括：

通过非线映射

将目标样本x_i映射到一个高维特征空间

并在该空间建立一个封闭而紧凑的超球体，原始数据经过非线性变换后，在高维特征空间

计算得到一个以c为中心、R为半径的包含所有正常数据的超球面，数据样本的异常程度通过计算其与球心c的距离来获取，给定数据集

x_i∈R^N，单分类支持向量机模型的初始化为：

若实例落入超球面内即对应的评价函数值f(x)<0，则被判定为常规正常流量；若实例落在超球面外则评价函数值f(x)>0，被判别为异常流量。

进一步的，步骤S3包括：

选用距离分类边界最近的样本进行标注，其核心公式如下：

此样本筛选策略结合初始化模型的参数，筛选出低置信度的样本，确定其类型，以提高数据集的纯净程度和模型的检测精确度；并筛选出有代表性样本，使样本尽可能覆盖所有数据区域，以提高模型的完整性，从而筛选出需要标注的典型样本。

进一步的，步骤S5中：

训练样本集包括有标签样本和无标签样本，给定m个有标签样本

其中x_i∈R^N，y_i∈{-1,1}，其中1代表正常数据，表示标签为-1代表异常数据表示标签为；并给定n-m个无标签样本

且m＜＜n；半监督单分类支持向量机通过优化参数R,C和ε使下面函数结果最小化：

其中，γ≥0为两类标记数据边缘之间的距离，m₁表示标签为1的样本，m₂表示标签为-1的样本，C₁、C₂、C₃分别为无标记数据、正例数据和负例数据的权衡参数，ε_i、ε_j、ε_k分别均为在优化问题的约束中引入的松弛变量，其取值与样本和球体中心在特征空间的距离成反比，即距离球心较近的样本被错误分类的代价较大。

进一步的，权衡参数C₁反映无标记数据的约束作用，若C₁取值过大，则模型中标记数据的作用会减弱，直至退化为无监督模型；反之若C₁取值过小，则模型中无标记数据作用会减弱，直至退化为只包含少量标记数据的有监督模型。

进一步的，权衡参数C₂、C₃反映标记数据的类型引导作用，对于C₂、C₃，根据具体情况下对误报率和漏报率的要求进行选择。

进一步的，由于在异常检测中，将异常数据误判的代价高于正常数据，因此选择C₂<C₃；将标记数据误判的代价高于无标记数据，因此选择C₁<C₂<C₃。

进一步的，步骤S5中，使用的半监督学习思想包括自训练法、期望最大法、多视图法和/或基于图的方法。

本发明的有益效果在于：

(1)本发明利用单分类支持向量机的分类特点，以无监督方式完成模型的初始化过程，经过非线性变换将目标样本映射到一个高维特征空间，并在该空间建立一个封闭而紧凑的包含大多数正常数据的最优超球体，通过该超球体可以将网络数据流量划分为正常流量和异常流量，异常流量可以包含已知的攻击和未知的攻击，在区分异常流量和正常流量的同时，解决了无法识别以异常流量为载体的未知攻击的问题。

(2)本发明提供了一种采用单分类支持向量机的方法对正常流量进行，该方法不仅具备传统支持向量机建模速度快的特点，还同样适用于大量数据的准确建模。此外，在正常流量的数据量较大，而异常流量的数据量较小这种数据不平衡的情况下，也能准确建立模型，从而达到识别网络异常数据的目的。

(3)本发明引入了半监督学习的思想，以较低的标记代价提升单分类支持向量机模型的识别准确性。传统方法依赖高质量的纯净数据集完成正常流量轮廓的建立，然而在实际应用中，纯净数据集难以获取，从原始数据集中挑选和标记数据费时费力，因此该方法实现了以较小标记代价、较低的人工标记成本，提高了异常流量识别模型的性能。

综上所述，本发明能够为大量不平衡流量数据提供准确、快速建模的方法，以识别已知和未知攻击。利用网络空间中任意采集的真实数据，通过单分类支持向量机算法快速高效的建立适用性强可扩展更新的异常识别“超球体”；融合半监督学习的思想，在减轻人工标注数据的工作量的同时，有效提高了模型的检测准确度。此外，本发明采用了易于实现的、相对成熟的技术和算法。本发明可以适用于网络空间中从流量数据的主动选择标注、到建立识别模型，达到识别所有异常流量的目的，是现今防范种类繁多的网络攻击的关键一步。

附图说明

图1是本发明实施例1中异常流量识别方法的流程图；

图2是本发明实施例1中模型的迭代优化流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，一种基于半监督学习和单分类支持向量机的异常流量识别方法，包括以下步骤：

S1.采集网络流量数据并提取数据描述特征；

S5.如图2所示，将典型的已标注样本输入异常流量识别的初始化模型中，结合半监督学习思想进行模型的迭代优化以得到异常流量识别模型；优选的，使用的半监督学习思想包括自训练法、期望最大法、多视图法和/或基于图的方法。

优选的，步骤S2中，通过非线映射

将目标样本x_i映射到一个高维特征空间

x_i∈R^N，单分类支持向量机模型的初始化为：

优选的，步骤S3中，选用距离分类边界最近的样本进行标注，其核心公式如下：

优选的，涉及到的半监督支持向量机的基本思想和构成形式中，训练样本集包括有标签样本和无标签样本，给定m个有标签样本

具体的，权衡参数C₁反映无标记数据的约束作用，若C₁取值过大，则模型中标记数据的作用会减弱，直至退化为无监督模型；反之若C₁取值过小，则模型中无标记数据作用会减弱，直至退化为只包含少量标记数据的有监督模型。权衡参数C₂、C₃反映标记数据的类型引导作用，对于C₂、C₃，根据具体情况下对误报率和漏报率的要求进行选择。

优选的，由于在异常检测中，将异常数据误判的代价高于正常数据，因此选择C₂<C₃；将标记数据误判的代价高于无标记数据，因此选择C₁<C₂<C₃。

本实施例的异常流量识别方法能够为大量不平衡流量数据提供准确、快速建模的方法，以识别已知和未知攻击。利用网络空间中任意采集的真实数据，通过单分类支持向量机算法快速高效的建立适用性强可扩展更新的异常识别“超球体”。融合了半监督学习的思想，在减轻人工标注数据的工作量的同时，有效提高了模型的检测准确度。此外，本异常流量识别方法采用了易于实现的、相对成熟的技术和算法。本异常流量识别方法可以适用于网络空间中从流量数据的主动选择标注、到建立识别模型，达到识别所有异常流量的目的，是现今防范种类繁多的网络攻击的关键一步。

实施例2

本实施例在实施例1的基础上：

本实施例提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行该计算机程序时实现实施例1的基于半监督学习和单分类支持向量机的异常流量识别方法的步骤。

其中，计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。

实施例3

本实施例在实施例1的基础上：

本实施例提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现实施例1的基于半监督学习和单分类支持向量机的异常流量识别方法的步骤。

其中，计算机程序可以为源代码形式、对象代码形式、可执行文件或者某些中间形式等。存储介质包括：能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM)、随机存取存储器(RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，存储介质不包括电载波信号和电信信号。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

需要说明的是，对于前述的方法实施例，为了简便描述，故将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。