CN108520005A - 基于机器学习的针对网络主动监控系统的误报消除方法 - Google Patents

基于机器学习的针对网络主动监控系统的误报消除方法 Download PDF

Info

Publication number
CN108520005A
CN108520005A CN201810204996.6A CN201810204996A CN108520005A CN 108520005 A CN108520005 A CN 108520005A CN 201810204996 A CN201810204996 A CN 201810204996A CN 108520005 A CN108520005 A CN 108520005A
Authority
CN
China
Prior art keywords
data
attack
membership
degree
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810204996.6A
Other languages
English (en)
Inventor
胡昌振
吕坤
郑宇坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810204996.6A priority Critical patent/CN108520005A/zh
Publication of CN108520005A publication Critical patent/CN108520005A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明设计了一种基于机器学习的针对网络主动监控系统的误报消除方法,属于信息安全技术领域。具体为:步骤一、建立实验数据集。步骤二、对实验数据集进行预处理,然后利用模糊聚类算法进行处理,检测出非攻击数据。步骤三、对数据的最终分类结果进行输出。本发明提出的基于机器学习的针对网络主动监控系统的误报消除方法与已有技术相比较,具有以下优点:①利用聚类方法对数据进一步处理,能够降低整体误报率。②采用的数据集是经过分类检测处理之后的数据,去除了无关数据。

Description

基于机器学习的针对网络主动监控系统的误报消除方法
技术领域
本发明设计了一种基于机器学习的针对网络主动监控系统的误报消除方法,属于信息安全技术领域。
背景技术
为了保护网络系统的安全,实时鉴别并且阻止系统内外的攻击行为和用户的越权行为,研究者们提出了网络系统的主动监控技术。目前的主动监控系统由于是基于经验的数据处理,而新的漏洞和攻击手段不断涌现导致攻击类型的数据特征也不断变化,因此主动监控系统存在大量的误报,而误报往往会浪费大量的人力物力对相关攻击行为进行处理,因此提出优秀的误报消除算法以降低主动监控系统的误报率就显得尤为重要。
机器学习是通过计算机模拟人类的学习活动,通过从已有的经验中构建学习机,通过学习机进一步对未知的数据进行预测,并在这一过程中不断完善所构建的学习机。将机器学习技术引入主动监控技术提高了数据分析的精确程度,非监督学习在对历史数据进行归类整理上使用的较为广泛,根据历史的数据特征也容易鉴别系统识别出的数据的类型是否合理。
发明内容
本发明的目的是提出一种基于机器学习的针对网络主动监控系统的误报消除方法。本发明通过构建机器学习模型对网络主动监控系统的分类检测结果进行误报消除以提高系统的综合性能;通过非监督学习的思想寻找真正的攻击行为数据而筛选出被误报的正常行为数据,从而降低主动监控系统的误报率。
本发明的目的是通过以下技术方案实现的。
本发明提出的一种基于机器学习的针对网络主动监控系统的误报消除方法,具体操作步骤是:
步骤一、利用已有攻击数据,建立攻击数据集。所述攻击数据带有攻击类型标签。然后,周期性的收集主动监控系统检测出的攻击行为数据作为警报数据集,将警报数据集和攻击数据集整合为实验数据集,用符号n表示实验数据集的数据数量,用符号n1表示攻击数据集的数据数量,用符号n2表示警报数据集的数据数量;n>10000,n1/n2≥10。
步骤二、对实验数据集进行预处理,然后利用模糊聚类算法(Fuzzy ClusterMethod,FCM)进行处理,检测出非攻击数据。具体步骤为:
步骤2.1:将实验数据集中的一条数据表示为m维的特征向量,(用符号x表示),m为数据的特征数量,m>30,x={x1,x2,x3…xm}。将实验数据集划分为C个类簇,其中,C为人为设定值,C∈(1,n/10)。为实验数据集中的数据设置隶属度的阈值,用符号δ表示,δ为人为设定值,δ≤0.5。
步骤2.2:用0到1之间的随机数初始化数据的隶属度,使其满足如公式(1)所示的约束条件。
其中,μik表示第k条数据对第i个类簇的归属度,i∈[1,C]。
步骤2.3:根据各点的隶属度求解各个类簇的聚类中心,计算方法如公式(2)所示。
其中,Pi表示第i个类簇的聚类中心;m是控制算法柔性的参数,m为人为设定值,取值范围为(0,1);xk表示第k条数据对应的特征向量。
步骤2.4:用最小平方误差函数作为算法的目标函数,求解目标函数的最小值。目标函数的计算方法如公式(3)所示。
其中,J是目标函数;||Pi-Mi||2表示聚类中心Pi到点Mi的欧氏距离。
步骤2.5:设置目标函数J的阈值为ε,ε为人为设定值,ε为正实数。当目标函数J的结果大于阈值ε时,执行步骤2.6的操作;否则,执行步骤2.7的操作。
步骤2.6:根据公式(4)更新数据的隶属度,然后重复操作2.3至2.5的操作。
其中djk表示距离范数,djk=||xk-pi||A(xk-pi),其中A为人为设定值,取值范围为(0,10]。
步骤2.7:更新实验数据集中各数据的隶属度。判断各数据的隶属度的取值和阈值的大小关系,如果隶属度小于阈值δ,表示所述数据为非攻击数据,将这部分数据标记为正常数据,完成对攻击行为的误报消除操作;将隶属度大于阈值δ的数据标记为攻击数据。
步骤三、对步骤二得到的实验数据集各数据的最终分类结果进行输出。
有益效果
本发明提出的基于机器学习的针对网络主动监控系统的误报消除方法与已有技术相比较,具有以下优点:
①利用聚类方法对数据进一步处理,能够降低整体误报率。
②采用的数据集是经过分类检测处理之后的数据,去除了无关数据。
附图说明
图1为本发明具体实施方式中基于机器学习的针对网络主动监控系统的误报消除方法的操作流程图。
具体实施方式
下面通过附图和具体实施例对本发明方案做进一步描述。
使用本发明提出的基于机器学习的针对网络主动监控系统的误报消除方法对主动监控系统检测出的攻击行为数据中的误报数据进行识别并消除,其操作流程如图1所示,具体操作过程为:
步骤一、获取KDD CUP99数据,并对KDD CUP99数据集抽样20000条攻击数据攻击数据,建立攻击数据集。所述攻击数据带有攻击类型标签。然后,周期性的收集主动监控系统检测出的攻击行为数据作为警报数据集,将警报数据集和攻击数据集整合为实验数据集,用符号n表示实验数据集的数据数量,用符号n1表示攻击数据集的数据数量,用符号n2表示警报数据集的数据数量;n>10000,n1/n2≥10。本实施例中n=22000,n1=20000,n2=2000。
步骤二、对实验数据集进行预处理,然后利用模糊聚类算法FCM进行处理,具体步骤为:
步骤2.1:将实验数据集中的一条数据表示为m维的特征向量,(用符号x表示),m为数据的特征数量,m=41,x={x1,x2,x3…xm}。将实验数据集划分为C个类簇,其中,C=20。为实验数据集中的数据设置隶属度的阈值δ表示,δ为人为设定值,δ≤0.5。
步骤2.2:用0到1之间的随机数初始化数据的隶属度,使其满足如公式(1)所示的约束条件。
其中,μik表示第k条数据对第i个类簇的归属度,i∈[1,C]。
步骤2.3:根据各点的隶属度求解各个类簇的聚类中心,计算方法如公式(2)所示。
其中,Pi表示第i个类簇的聚类中心;m是控制算法柔性的参数,m=0.8,xk表示第k条数据对应的特征向量。
步骤2.4:用最小平方误差函数作为算法的目标函数,求解目标函数的最小值。目标函数的计算方法如公式(3)所示。
其中,J是目标函数;||Pi-Mi||2表示聚类中心Pi到点Mi的欧氏距离。
步骤2.5:设置目标函数J的阈值为ε,ε=4.6。当目标函数J的结果大于阈值ε时,执行步骤2.6的操作;否则,执行步骤2.7的操作。
步骤2.6:根据公式(4)更新数据的隶属度,然后重复操作2.3至2.5的操作。
其中djk表示距离范数,djk=||xk-pi||A(xk-pi),其中A=2.5。
步骤2.7:更新实验数据集中各数据的隶属度。判断各数据的隶属度的取值和阈值的大小关系,如果隶属度小于阈值δ,表示所述数据为非攻击数据,将这部分数据标记为正常数据,完成对攻击行为的误报消除操作;将隶属度大于阈值δ的数据标记为攻击数据。
步骤三、将经过步骤二处理之后的分类结果输出并作为数据最终的分类结果。
指标F1是综合评估准确率和召回率的一个综合指标。本发明采用指标F1评分来分别评估已有主动监控系统与使用本发明提出的误报消除方法后的综合性能,已有主动监控系统的F1评分为0.33,使用了本发明提出的误报消除方法后,F1评分提升为0.35,因此证明了本发明提出的误报消除方法提高了主动监控系统的综合性能。

Claims (1)

1.一种基于机器学习的针对网络主动监控系统的误报消除方法,其特征在于:其具体操作步骤是:
步骤一、利用已有攻击数据,建立攻击数据集;所述攻击数据带有攻击类型标签;然后,周期性的收集主动监控系统检测出的攻击行为数据作为警报数据集,将警报数据集和攻击数据集整合为实验数据集,用符号n表示实验数据集的数据数量,用符号n1表示攻击数据集的数据数量,用符号n2表示警报数据集的数据数量;n>10000,n1/n2≥10;
步骤二、对实验数据集进行预处理,然后利用模糊聚类算法进行处理,检测出非攻击数据;具体步骤为:
步骤2.1:将实验数据集中的一条数据表示为m维的特征向量x,m为数据的特征数量,m>30,x={x1,x2,x3…xm};将实验数据集划分为C个类簇,其中,C为人为设定值,C∈(1,n/10);为实验数据集中的数据设置隶属度的阈值,用符号δ表示,δ为人为设定值,δ≤0.5;
步骤2.2:用0到1之间的随机数初始化数据的隶属度,使其满足如公式(1)所示的约束条件;
其中,μik表示第k条数据对第i个类簇的归属度,i∈[1,C];
步骤2.3:根据各点的隶属度求解各个类簇的聚类中心,计算方法如公式(2)所示;
其中,Pi表示第i个类簇的聚类中心;m是控制算法柔性的参数,m为人为设定值,取值范围为m∈(0,1);xk表示第k条数据对应的特征向量;
步骤2.4:用最小平方误差函数作为算法的目标函数,求解目标函数的最小值;目标函数的计算方法如公式(3)所示;
其中,J是目标函数;||Pi-Mi||2表示聚类中心Pi到点Mi的欧氏距离;
步骤2.5:设置目标函数J的阈值为ε,ε为人为设定值,ε为正实数;当目标函数J的结果大于阈值ε时,执行步骤2.6的操作;否则,执行步骤2.7的操作;
步骤2.6:根据公式(4)更新数据的隶属度,然后重复操作2.3至2.5的操作;
其中djk表示距离范数,djk=||xk-pi||A(xk-pi),其中A为人为设定值,取值范围为(0,10];
步骤2.7:更新实验数据集中各数据的隶属度;判断各数据的隶属度的取值和阈值的大小关系,如果隶属度小于阈值δ,表示所述数据为非攻击数据,将这部分数据标记为正常数据,完成对攻击行为的误报消除操作;将隶属度大于阈值δ的数据标记为攻击数据;
步骤三、对步骤二得到的实验数据集各数据的最终分类结果进行输出。
CN201810204996.6A 2018-03-13 2018-03-13 基于机器学习的针对网络主动监控系统的误报消除方法 Pending CN108520005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810204996.6A CN108520005A (zh) 2018-03-13 2018-03-13 基于机器学习的针对网络主动监控系统的误报消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810204996.6A CN108520005A (zh) 2018-03-13 2018-03-13 基于机器学习的针对网络主动监控系统的误报消除方法

Publications (1)

Publication Number Publication Date
CN108520005A true CN108520005A (zh) 2018-09-11

Family

ID=63433627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810204996.6A Pending CN108520005A (zh) 2018-03-13 2018-03-13 基于机器学习的针对网络主动监控系统的误报消除方法

Country Status (1)

Country Link
CN (1) CN108520005A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051571A (zh) * 2019-12-27 2021-06-29 中国移动通信集团湖南有限公司 一种误报漏洞的检测方法、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795595A (zh) * 2014-02-13 2014-05-14 杨启帆 一种局域网内网入侵的智能检测方法
CN104836805A (zh) * 2015-05-04 2015-08-12 南京邮电大学 基于模糊免疫理论的网络入侵检测方法
CN106604267A (zh) * 2017-02-21 2017-04-26 重庆邮电大学 一种动态自适应的无线传感器网络入侵检测智能算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795595A (zh) * 2014-02-13 2014-05-14 杨启帆 一种局域网内网入侵的智能检测方法
CN104836805A (zh) * 2015-05-04 2015-08-12 南京邮电大学 基于模糊免疫理论的网络入侵检测方法
CN106604267A (zh) * 2017-02-21 2017-04-26 重庆邮电大学 一种动态自适应的无线传感器网络入侵检测智能算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SWAIN SUNITA等: "A hybrid approach of intrusion detection using ANN and FCM", 《EUROPEAN JOURNAL OF ADVANCES IN ENGINEERING AND TECHNOLOGY》 *
翟自领等: "模糊C均值聚类在入侵检测中的应用研究综述", 《电脑知识与技术》 *
解男男: "机器学习方法在入侵检测中的应用研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051571A (zh) * 2019-12-27 2021-06-29 中国移动通信集团湖南有限公司 一种误报漏洞的检测方法、装置及计算机设备
CN113051571B (zh) * 2019-12-27 2022-11-29 中国移动通信集团湖南有限公司 一种误报漏洞的检测方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN110263846B (zh) 基于故障数据深度挖掘及学习的故障诊断方法
CN106888205B (zh) 一种非侵入式基于功耗分析的plc异常检测方法
CN102098180B (zh) 一种网络安全态势感知方法
CN109962909B (zh) 一种基于机器学习的网络入侵异常检测方法
CN107528823A (zh) 一种基于改进的K‑Means聚类算法的网络异常检测方法
CN109766992B (zh) 基于深度学习的工控异常检测及攻击分类方法
CN111598179B (zh) 电力监控系统用户异常行为分析方法、存储介质和设备
CN113378990B (zh) 基于深度学习的流量数据异常检测方法
CN107579846B (zh) 一种云计算故障数据检测方法及系统
CN113518063A (zh) 基于数据增强和BiLSTM的网络入侵检测方法及系统
CN109143848A (zh) 基于fcm-gasvm的工业控制系统入侵检测方法
CN110162968A (zh) 一种基于机器学习的网络入侵检测系统
CN106991435A (zh) 基于改进的字典学习的入侵检测方法
CN107025468A (zh) 基于pca‑ga‑svm算法的高速公路拥堵识别方法
CN110851422A (zh) 一种基于机器学习的数据异常监测模型构建方法
CN116823227A (zh) 一种基于物联网的智能设备管理系统及方法
CN106907927A (zh) 一种核灵活流形嵌入电熔镁炉故障监测方法
CN110334508B (zh) 一种主机序列入侵检测方法
CN108520005A (zh) 基于机器学习的针对网络主动监控系统的误报消除方法
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN112418281A (zh) 一种火灾探测传感器数据异常检测方法及系统
CN117014193A (zh) 一种基于行为基线的未知Web攻击检测方法
CN116433049A (zh) 一种基于模糊粗糙熵的用电异常检测方法
CN110929800B (zh) 一种基于sax算法的商业体异常用电检测方法
CN113609480B (zh) 基于大规模网络流的多路学习入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180911