CN110191081A

CN110191081A - 基于学习自动机的网络流量攻击检测的特征筛选系统及方法

Info

Publication number: CN110191081A
Application number: CN201810153375.XA
Authority: CN
Inventors: 马颖华; 苏宇; 李生红; 狄冲; 张波; 李怡晨; 冯帅
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-02-22
Filing date: 2018-02-22
Publication date: 2019-08-30

Abstract

一种基于学习自动机的网络流量攻击检测的特征筛选系统及方法，该系统包括：数据预处理模块、设置模块、学习自动机模块、随机环境模块、特征筛选模块以及攻击检测模块，本发明通过与分类器的交互和学习自动机的演变，冗余特征被逐个去除，最终最优的特征被筛选出来，组成最优特征子集，有效的解决了网络流量数据量大、维度高的问题，利用这些筛选出的特征可以有效提高网络流量攻击检测的效率，可以被应用于电网工控网络等大规模网络的环境中。

Description

基于学习自动机的网络流量攻击检测的特征筛选系统及方法

技术领域

本发明涉及的是一种特征筛选领域的技术，具体是一种基于学习自动机的网络流量攻击检测的特征筛选系统及方法。

背景技术

随着攻击手段的不断变化，基于已知攻击特征攻击检测技术已经不能保护网络免遭攻击,对网络流量进行攻击检测非常有必要。攻击网络流量包由海量的流量数据组成，这些流量数据记录了电网终端的所有活动和行为。通过分析和整合这些网络流量包，可以从中提取特征，来发现攻击。但由于网络流量数量巨大，要达成攻击识别，就必须达成实时处理，对检测算法的效率要求很高。传统的神经网络学习方法和大部分机器学习方法往往在处理这方面的问题上会出现捉襟见肘的情况，对于电网网络流量攻击检测系统，如何高效、高精度的处理这些海量数据是一个巨大的挑战。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于学习自动机的网络流量攻击检测的特征筛选系统及方法，创新地将学习自动机的思想用于特征筛选，不仅有效的解决了网络流量数据量大、维度高的问题，还兼顾了每个网络流量特征等概率的被丢弃，通过逐步的更新概率，保证被去除的特征足够冗余，通过使用这些最优特征进行攻击检测，可以有效的提高网络流量攻击检测的准确率，对网络攻击有很好的探测率。

本发明是通过以下技术方案实现的：

本发明涉及一种基于学习自动机的网络流量攻击检测的特征筛选系统，包括：数据预处理模块、学习自动机模块、用于对学习自动机模块进行参数设置和初始化的设置模块、随机环境模块、特征筛选模块以及攻击检测模块，其中：数据预处理模块对网络流量数据进行数据清洗和预处理；学习自动机模块读取数据预处理模块和设置模块的信息，根据行为概率对特征集合进行行为选择，将选出的行为输出至随机环境模块并对其反馈的奖惩响应进行行为概率更新，即当最大行为概率高于行为概率阈值时，将该行为输出至特征筛选模块；随机环境模块在每次迭代中，对学习自动机模块传来的选择行为做出奖惩响应并传回学习自动机模块；特征筛选模块从特征集合中筛选出最优特征子集；攻击检测模块根据最优特征子集进行网络流量攻击检测。

所述的数据清洗和预处理是指：将网络流量数据中字符型类型的特征，即值为字符类型的特征离散化为数字型特征，比如特征协议类型的值为UDP、TCP、ICMP等协议名称，将这些字符型值转换为用{1,2,3,…}数字表示；再将数字型特征归一化到[0,1]之间。

所述的参数包括但不限于准确率阈值、行为概率阈值、可选行为集合、行为概率，概率变化最小步长、剩余特征集合等，其中：准确率阈值是指决定被选择的行为是否被奖励或者不作为的阈值，当分类准确率高于阈值，选中的行为被环境所奖励；行为概率阈值是指决定最大行为概率的行为是否应被去除的阈值，当最大行为概率高于阈值，此行为将被去除；可选行为集合是指所有网络流量特征组成的集合；行为概率是指可选行为集合的选择概率集合，行为概率P一开始被初始化为p_i＝1/r,i＝1,2,...,r，其中r为可选行为的个数，即为网络流量特征的个数；概率变化最小步长是指行为每次受到奖励后行为概率变化的最小步长，初始化为Δ＝1/αr，其中α为分辨率参数；剩余特征集合是指用于存储去除了冗余特征的特征集合。

所述的奖惩响应是指随机环境对所选行为的奖励或惩罚反应，即β＝{0,1}，其中0和1分别代表奖励和惩罚；当响应为奖励时，进行行为概率更新，即行为概率向量仅在收到环境奖励时升级，在收到环境惩罚时不改变行为概率向量。

所述的特征筛选模块读取学习自动机模块传入的行为概率足够高的行为，这些行为被认为是足够冗余的特征，将这些冗余特征从剩余特征集合中去除，筛选出最优特征子集。

所述的攻击检测模块在学习自动机满足收敛条件后获取特征筛选模块的最优特征子集，利用该子集对网络流量进行攻击检测。

本发明涉及上述系统的网络流量攻击检测的特征筛选方法，包括以下步骤：

第一步、根据行为概率对特征集合进行特征选择，将选出的特征从特征集合中暂时去除，剩余的特征集合与随机环境进行交互，并对反馈做出回应，根据反馈的结果更新行为概率。

第二步、当最大行为概率高于阈值时，选择出最大行为概率的特征，从特征集合中去除。依次重复该过程，筛选出最优特征子集。

第三步、获得筛选后的最优特征子集，利用该子集对网络流量进行攻击检测。

技术效果

与现有技术相比，本发明对特征丢弃的随机性更大，根据选择概率选出特征更符合实际，只有当该特征的选择概率足够高高于0.8，即该特征冗余度很高时，才对其进行丢弃，更有效的保证被丢弃特征的冗余度，显著提高特征筛选的效果。本方法可以更清楚的了解特征被去除的顺序，实时观测各特征行为概率的变化情况，便于进行进一步的调整和修正，显著降低输入数据特征的复杂度的同时攻击检测率可以比之前提高约10％。

附图说明

图1为本发明系统结构示意图；

图2为实施例流程图。

具体实施方式

特征筛选问题可以映射到自动机的学习问题，学习自动机的学习过程包括四个主要的实体：学习自动机、行为、随机环境和反馈。本实施例中，所有的网络流量特征被建模为一个整体的学习自动机，特征集合F＝{f₁,f₂,...,f_n}表示学习自动机的可选行为集合，每个特征都是一个可选行为。一种经典的学习自动机算法DL_RI被应用于从整个特征集中选择最优特征子集的问题上，随机环境是允许的反馈是二元的，包括奖励和惩罚的P型环境，行为概率更新策略是RI(Reward-Inaction)策略。只有当被选择的特征降低了整体的准确率，才会奖励该行为，并且提高该行为的选中概率。否则，行为概率不做任何变化。

离散线性学习自动机的结构可以描述如下：

1、行为：α＝{α₁,α₂,...,α_r}行为集合定义为网络流量特征的集合F。每个特征都是一个可选行为。在每次迭代中，自动机根据行为概率P选择一个行为。

2、反馈：β＝{0,1}随机环境的反馈是二值的，其中0和1分别代表奖励和惩罚。只有在反馈是奖励时，行为概率P(t)会被更新。分类结果被映射到随机环境的反馈中。

3、随机环境：随机环境负责在每次迭代中响应关于所选行为的反馈。另外，在所述的随机环境模块中，环境对应于网络流量攻击检测的分类。

4、学习自动机：考虑到行为集合和随机环境的情况，经典的学习自动机算法DL_RI被应用到学习自动机模块。

如图1所示，为本实施例涉及的一种基于学习自动机的网络流量攻击检测的特征筛选系统，包括：数据预处理模块、学习自动机模块、用于对学习自动机模块进行参数设置和初始化的设置模块、随机环境模块、特征筛选模块以及攻击检测模块，其中：数据预处理模块对网络流量数据进行数据清洗和预处理；学习自动机模块读取数据预处理模块和设置模块的信息，根据行为概率对特征集合进行行为选择，将选出的行为输出至随机环境模块并对其反馈的奖惩响应进行行为概率更新，即当最大行为概率高于行为概率阈值时，将该行为输出至特征筛选模块；随机环境模块在每次迭代中，对学习自动机模块传来的选择行为做出奖惩响应并传回学习自动机模块；特征筛选模块从特征集合中筛选出最优特征子集；攻击检测模块根据最优特征子集进行网络流量攻击检测。

如图2所示，在特征筛选过程开始之前，应该进行初始化和设置一些参数。T₁是决定选择的行为是否被奖励或不作为的准确率阈值，T₁初始化为对训练子集随机训练测试多次的准确率平均值。T₂是决定行为是否应该被去除的行为概率阈值，初始化为0.8，当行为概率增长到0.8时，此时该特征被选择的概率足够大，特征的冗余度很高。假设输入行为集合为α＝{α₁,α₂,...,α_r}，行为概率向量P应初始化为1/r，以确保每个可选动作可以以相等的概率被选择，概率变化的最小步长定义为Δ＝1/αr，其中α是分辨率参数，R是通过每次迭代不断移除冗余特征的剩余特征集合，在迭代开始之前，集合R包含所有的网络流量特征。

在每次迭代中，首先保留训练集中剩余特征集R中的特征，并构造一个训练子集；然后根据行为概率向量，学习自动机在t时刻选择一个行为α(t)＝α_i，为了保证奖励随机性，随机从训练子集中选取了两个小批量集合，分别是小批量训练集合Tr(t)和验证集合Va(t)，两者不能相等。根据被选到的行为，暂时从Tr(t)和Va(t)中去除第i个特征f_i，经过处理的小批量训练集用于训练分类器，并得到包含优化参数的训练模型，然后分类器使用小批量验证集对模型进行测试，并获得分类准确性。如果分类准确度高于准确率阈值T₁，说明所选择的特征过于冗余，无法提高分类精度，即检测准确率。然后，随机环境将回应一个反馈β(t)＝0给学习自动机，奖励所选的行为，并对行为概率向量P进行更新：

通过这种方式，冗余特征的行为概率会不断增加，其他的会减少。如果更新过程继续进行下去，这些冗余特征的概率将会增长的越来越快，其他特征的概率将逐渐减小到零。最后，冗余特征的概率将大大高于那些最重要和有效的特征概率。

之后，当最大行为概率增大到高于阈值T₂时，找到最大行为概率的行为索引m，这表明第m个特征是网络流量攻击检测冗余特征之一。因此，剩余特征集合R将被更新，并从集合中将第m个特征删除。然后，行为概率P和行为集合α被重新初始化，进行下一次迭代。直到学习自动机满足收敛条件，冗余和不相关的特征将被从剩余的特征集合中一个接一个地去除。最终，剩余的特征集R就是网络流量攻击检测特征筛选的最终结果。

在本实施例中，为了验证特征筛选方法的性能和有效性，在两个不同的网络流量攻击检测数据集对本发明所述的特征筛选方法进行了广泛的分析和评估，使用特征筛选方法可以有效地去除75％的特征，保留总特征数25％的最优有效特征，使用这些最优特征进行网络流量攻击检测可以比不使用特征筛选提高约10％的准确率。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于学习自动机的网络流量攻击检测的特征筛选系统，其特征在于，包括：数据预处理模块、学习自动机模块、用于对学习自动机模块进行参数设置和初始化的设置模块、随机环境模块、特征筛选模块以及攻击检测模块，其中：数据预处理模块对网络流量数据进行数据清洗和预处理；学习自动机模块读取数据预处理模块和设置模块的信息，根据行为概率对特征集合进行行为选择，将选出的行为输出至随机环境模块并对其反馈的奖惩响应进行行为概率更新，即当最大行为概率高于行为概率阈值时，将该行为输出至特征筛选模块；随机环境模块在每次迭代中，对学习自动机模块传来的选择行为做出奖惩响应并传回学习自动机模块；特征筛选模块从特征集合中筛选出最优特征子集；攻击检测模块根据最优特征子集进行网络流量攻击检测。

2.根据权利要求1所述的系统，其特征是，所述的数据清洗和预处理是指：将网络流量数据中字符型类型的特征，即值为字符类型的特征离散化为数字型特征。

3.根据权利要求2所述的系统，其特征是，所述的数据清洗和预处理是指：当特征协议类型的值为UDP、TCP、ICMP协议名称，将这些字符型值转换为用{1,2,3,…}数字表示；再将数字型特征归一化到[0,1]之间。

4.根据权利要求1所述的系统，其特征是，所述的参数包括：准确率阈值、行为概率阈值、可选行为集合、行为概率，概率变化最小步长、剩余特征集合等，其中：准确率阈值是指决定被选择的行为是否被奖励或者不作为的阈值，当分类准确率高于阈值，选中的行为被环境所奖励；行为概率阈值是指决定最大行为概率的行为是否应被去除的阈值，当最大行为概率高于阈值，此行为将被去除；可选行为集合是指所有网络流量特征组成的集合；行为概率是指可选行为集合的选择概率集合，行为概率P一开始被初始化为p_i＝1/r,i＝1,2,...,r，其中r为可选行为的个数，即为网络流量特征的个数；概率变化最小步长是指行为每次受到奖励后行为概率变化的最小步长，初始化为Δ＝1/αr，其中α为分辨率参数；剩余特征集合是指用于存储去除了冗余特征的特征集合。

5.根据权利要求1所述的系统，其特征是，所述的奖惩响应是指随机环境对所选行为的奖励或惩罚反应，即β＝{0,1}，其中0和1分别代表奖励和惩罚；当响应为奖励时，进行行为概率更新，即行为概率向量仅在收到环境奖励时升级，在收到环境惩罚时不改变行为概率向量。

6.根据权利要求1所述的系统，其特征是，所述的特征筛选模块读取学习自动机模块传入的行为概率足够高的行为，即足够冗余的特征，将其从剩余特征集合中去除，筛选出最优特征子集。

7.根据权利要求1所述的系统，其特征是，所述的攻击检测模块在学习自动机满足收敛条件后获取特征筛选模块的最优特征子集，利用该子集对网络流量进行攻击检测。

8.一种基于上述任一权利要求所述系统的网络流量攻击检测的特征筛选方法，其特征在于，包括以下步骤：

第一步、根据行为概率对特征集合进行特征选择，将选出的特征从特征集合中暂时去除，剩余的特征集合与随机环境进行交互，即对反馈做出回应，根据反馈的结果更新行为概率；

第二步、当最大行为概率高于阈值时，选择出最大行为概率的特征，从特征集合中去除；依次重复该过程，筛选出最优特征子集；

9.根据权利要求8所述的方法，其特征是，所述的反馈，β＝{0,1}，其中：0和1分别代表奖励和惩罚，当反馈为奖励时，更新行为概率P(t)。

10.根据权利要求8或9所述的方法，其特征是，所述的更新行为概率，即：p_i(t+1)＝min{1-∑_j≠ip_j(t),1}。

11.根据权利要求8或9所述的方法，其特征是，所述的第二步具体为：当最大行为概率增大到高于阈值T₂时，找到最大行为概率的行为索引m，即第m个特征是网络流量攻击检测冗余特征之一；对剩余特征集合R进行更新，并从集合中将第m个特征删除；然后重新初始化行为概率P和行为集合α并进行下一次迭代，直到学习自动机满足收敛条件，冗余和不相关的特征将被从剩余的特征集合中一个接一个地去除；最终剩余的特征集R就是网络流量攻击检测特征筛选的最终结果。