CN108520005A

CN108520005A - 基于机器学习的针对网络主动监控系统的误报消除方法

Info

Publication number: CN108520005A
Application number: CN201810204996.6A
Authority: CN
Inventors: 胡昌振; 吕坤; 郑宇坤
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-09-11

Abstract

本发明设计了一种基于机器学习的针对网络主动监控系统的误报消除方法，属于信息安全技术领域。具体为：步骤一、建立实验数据集。步骤二、对实验数据集进行预处理，然后利用模糊聚类算法进行处理，检测出非攻击数据。步骤三、对数据的最终分类结果进行输出。本发明提出的基于机器学习的针对网络主动监控系统的误报消除方法与已有技术相比较，具有以下优点：①利用聚类方法对数据进一步处理，能够降低整体误报率。②采用的数据集是经过分类检测处理之后的数据，去除了无关数据。

Description

基于机器学习的针对网络主动监控系统的误报消除方法

技术领域

本发明设计了一种基于机器学习的针对网络主动监控系统的误报消除方法，属于信息安全技术领域。

背景技术

为了保护网络系统的安全，实时鉴别并且阻止系统内外的攻击行为和用户的越权行为，研究者们提出了网络系统的主动监控技术。目前的主动监控系统由于是基于经验的数据处理，而新的漏洞和攻击手段不断涌现导致攻击类型的数据特征也不断变化，因此主动监控系统存在大量的误报，而误报往往会浪费大量的人力物力对相关攻击行为进行处理，因此提出优秀的误报消除算法以降低主动监控系统的误报率就显得尤为重要。

机器学习是通过计算机模拟人类的学习活动，通过从已有的经验中构建学习机，通过学习机进一步对未知的数据进行预测，并在这一过程中不断完善所构建的学习机。将机器学习技术引入主动监控技术提高了数据分析的精确程度，非监督学习在对历史数据进行归类整理上使用的较为广泛，根据历史的数据特征也容易鉴别系统识别出的数据的类型是否合理。

发明内容

本发明的目的是提出一种基于机器学习的针对网络主动监控系统的误报消除方法。本发明通过构建机器学习模型对网络主动监控系统的分类检测结果进行误报消除以提高系统的综合性能；通过非监督学习的思想寻找真正的攻击行为数据而筛选出被误报的正常行为数据，从而降低主动监控系统的误报率。

本发明的目的是通过以下技术方案实现的。

本发明提出的一种基于机器学习的针对网络主动监控系统的误报消除方法，具体操作步骤是：

步骤一、利用已有攻击数据，建立攻击数据集。所述攻击数据带有攻击类型标签。然后，周期性的收集主动监控系统检测出的攻击行为数据作为警报数据集，将警报数据集和攻击数据集整合为实验数据集，用符号n表示实验数据集的数据数量，用符号n₁表示攻击数据集的数据数量，用符号n₂表示警报数据集的数据数量；n>10000，n₁/n₂≥10。

步骤二、对实验数据集进行预处理，然后利用模糊聚类算法(Fuzzy ClusterMethod，FCM)进行处理，检测出非攻击数据。具体步骤为：

步骤2.1：将实验数据集中的一条数据表示为m维的特征向量，(用符号x表示)，m为数据的特征数量，m>30，x＝{x₁,x₂,x₃…x_m}。将实验数据集划分为C个类簇，其中，C为人为设定值，C∈(1,n/10)。为实验数据集中的数据设置隶属度的阈值，用符号δ表示，δ为人为设定值，δ≤0.5。

步骤2.2：用0到1之间的随机数初始化数据的隶属度，使其满足如公式(1)所示的约束条件。

其中，μ_ik表示第k条数据对第i个类簇的归属度，i∈[1,C]。

步骤2.3：根据各点的隶属度求解各个类簇的聚类中心，计算方法如公式(2)所示。

其中，P_i表示第i个类簇的聚类中心；m是控制算法柔性的参数，m为人为设定值，取值范围为(0,1)；x_k表示第k条数据对应的特征向量。

步骤2.4：用最小平方误差函数作为算法的目标函数，求解目标函数的最小值。目标函数的计算方法如公式(3)所示。

其中，J是目标函数；||P_i-M_i||²表示聚类中心P_i到点M_i的欧氏距离。

步骤2.5：设置目标函数J的阈值为ε，ε为人为设定值，ε为正实数。当目标函数J的结果大于阈值ε时，执行步骤2.6的操作；否则，执行步骤2.7的操作。

步骤2.6：根据公式(4)更新数据的隶属度，然后重复操作2.3至2.5的操作。

其中d_jk表示距离范数，d_jk＝||x_k-p_i||A(x_k-p_i)，其中A为人为设定值，取值范围为(0,10]。

步骤2.7：更新实验数据集中各数据的隶属度。判断各数据的隶属度的取值和阈值的大小关系，如果隶属度小于阈值δ，表示所述数据为非攻击数据，将这部分数据标记为正常数据，完成对攻击行为的误报消除操作；将隶属度大于阈值δ的数据标记为攻击数据。

步骤三、对步骤二得到的实验数据集各数据的最终分类结果进行输出。

有益效果

本发明提出的基于机器学习的针对网络主动监控系统的误报消除方法与已有技术相比较，具有以下优点：

①利用聚类方法对数据进一步处理，能够降低整体误报率。

②采用的数据集是经过分类检测处理之后的数据，去除了无关数据。

附图说明

图1为本发明具体实施方式中基于机器学习的针对网络主动监控系统的误报消除方法的操作流程图。

具体实施方式

下面通过附图和具体实施例对本发明方案做进一步描述。

使用本发明提出的基于机器学习的针对网络主动监控系统的误报消除方法对主动监控系统检测出的攻击行为数据中的误报数据进行识别并消除，其操作流程如图1所示，具体操作过程为：

步骤一、获取KDD CUP99数据，并对KDD CUP99数据集抽样20000条攻击数据攻击数据，建立攻击数据集。所述攻击数据带有攻击类型标签。然后，周期性的收集主动监控系统检测出的攻击行为数据作为警报数据集，将警报数据集和攻击数据集整合为实验数据集，用符号n表示实验数据集的数据数量，用符号n₁表示攻击数据集的数据数量，用符号n₂表示警报数据集的数据数量；n>10000，n₁/n₂≥10。本实施例中n＝22000，n₁＝20000，n₂＝2000。

步骤二、对实验数据集进行预处理，然后利用模糊聚类算法FCM进行处理，具体步骤为：

步骤2.1：将实验数据集中的一条数据表示为m维的特征向量，(用符号x表示)，m为数据的特征数量，m＝41，x＝{x₁,x₂,x₃…x_m}。将实验数据集划分为C个类簇，其中，C＝20。为实验数据集中的数据设置隶属度的阈值δ表示，δ为人为设定值，δ≤0.5。

其中，μ_ik表示第k条数据对第i个类簇的归属度，i∈[1,C]。

其中，P_i表示第i个类簇的聚类中心；m是控制算法柔性的参数，m＝0.8，x_k表示第k条数据对应的特征向量。

步骤2.5：设置目标函数J的阈值为ε，ε＝4.6。当目标函数J的结果大于阈值ε时，执行步骤2.6的操作；否则，执行步骤2.7的操作。

其中d_jk表示距离范数，d_jk＝||x_k-p_i||A(x_k-p_i)，其中A＝2.5。

步骤三、将经过步骤二处理之后的分类结果输出并作为数据最终的分类结果。

指标F1是综合评估准确率和召回率的一个综合指标。本发明采用指标F1评分来分别评估已有主动监控系统与使用本发明提出的误报消除方法后的综合性能，已有主动监控系统的F1评分为0.33，使用了本发明提出的误报消除方法后，F1评分提升为0.35，因此证明了本发明提出的误报消除方法提高了主动监控系统的综合性能。

Claims

1.一种基于机器学习的针对网络主动监控系统的误报消除方法，其特征在于：其具体操作步骤是：

步骤一、利用已有攻击数据，建立攻击数据集；所述攻击数据带有攻击类型标签；然后，周期性的收集主动监控系统检测出的攻击行为数据作为警报数据集，将警报数据集和攻击数据集整合为实验数据集，用符号n表示实验数据集的数据数量，用符号n₁表示攻击数据集的数据数量，用符号n₂表示警报数据集的数据数量；n>10000，n₁/n₂≥10；

步骤二、对实验数据集进行预处理，然后利用模糊聚类算法进行处理，检测出非攻击数据；具体步骤为：

步骤2.1：将实验数据集中的一条数据表示为m维的特征向量x，m为数据的特征数量，m>30，x＝{x₁,x₂,x₃…x_m}；将实验数据集划分为C个类簇，其中，C为人为设定值，C∈(1,n/10)；为实验数据集中的数据设置隶属度的阈值，用符号δ表示，δ为人为设定值，δ≤0.5；

步骤2.2：用0到1之间的随机数初始化数据的隶属度，使其满足如公式(1)所示的约束条件；

其中，μ_ik表示第k条数据对第i个类簇的归属度，i∈[1,C]；

步骤2.3：根据各点的隶属度求解各个类簇的聚类中心，计算方法如公式(2)所示；

其中，P_i表示第i个类簇的聚类中心；m是控制算法柔性的参数，m为人为设定值，取值范围为m∈(0,1)；x_k表示第k条数据对应的特征向量；

步骤2.4：用最小平方误差函数作为算法的目标函数，求解目标函数的最小值；目标函数的计算方法如公式(3)所示；

其中，J是目标函数；||P_i-M_i||²表示聚类中心P_i到点M_i的欧氏距离；

步骤2.5：设置目标函数J的阈值为ε，ε为人为设定值，ε为正实数；当目标函数J的结果大于阈值ε时，执行步骤2.6的操作；否则，执行步骤2.7的操作；

步骤2.6：根据公式(4)更新数据的隶属度，然后重复操作2.3至2.5的操作；

其中d_jk表示距离范数，d_jk＝||x_k-p_i||A(x_k-p_i)，其中A为人为设定值，取值范围为(0,10]；

步骤2.7：更新实验数据集中各数据的隶属度；判断各数据的隶属度的取值和阈值的大小关系，如果隶属度小于阈值δ，表示所述数据为非攻击数据，将这部分数据标记为正常数据，完成对攻击行为的误报消除操作；将隶属度大于阈值δ的数据标记为攻击数据；