CN107895171A - 一种基于k均值与深度置信网络的入侵检测方法 - Google Patents

一种基于k均值与深度置信网络的入侵检测方法 Download PDF

Info

Publication number
CN107895171A
CN107895171A CN201711054047.6A CN201711054047A CN107895171A CN 107895171 A CN107895171 A CN 107895171A CN 201711054047 A CN201711054047 A CN 201711054047A CN 107895171 A CN107895171 A CN 107895171A
Authority
CN
China
Prior art keywords
data
training
network
cluster centre
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711054047.6A
Other languages
English (en)
Inventor
王琳琳
刘敬浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201711054047.6A priority Critical patent/CN107895171A/zh
Publication of CN107895171A publication Critical patent/CN107895171A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于K均值与深度置信网络的入侵检测方法,包括:对数据集中的网络流量数据进行预处理,将训练集与测试集进行归一化与标准化处理;将训练数据按照标注的攻击类型进行分类,对每一类的训练数据集,均执行聚类分析;以所得到各类聚类中心数据集作为作为训练数据,训练深度置信网络DBN模型。

Description

一种基于K均值与深度置信网络的入侵检测方法
技术领域
本发明属于计算机网络技术领域,涉及一种入侵检测方法。
背景技术
网络的快速发展带来了日益严峻的网络安全威胁,入侵检测系统对于保障网络安全至关重要。聚类分析作为一种常用的数据挖掘技术,其算法简单、计算复杂度低,适用于入侵检测系统。基于聚类分析的入侵检测技术,利用无标签的数据进行训练,从而检测出未知攻击。K均值(K-means)算法是经典的聚类算法。深度置信网络(DBN)是一种深度学习网络,由多层受限玻尔兹曼机(RBM)和一层反向传播(BP)神经网络堆叠而成。DBN通过逐层训练网络,实现高维度非线性数据特征抽取与分类。DBN模型作为一种有效的分类方法,适用于入侵检测之中。传统的单一检测算法很难对于不同种类的攻击都有很好检测效果,将多种算法进行级联可以提高入侵检测系统的准确率。
发明内容
本发明的目的是提供一种具有更高准确率的网络入侵检测方法。技术方案如下:
一种基于K均值与深度置信网络的入侵检测方法,包括以下步骤:
步骤(1):对数据集中的网络流量数据进行预处理,将测试集与训练集中字符型特征值协议类型protocol type、网络服务(service)以及连接的状态flag转化为数值型特征值,将训练集与测试集进行归一化与标准化处理;
步骤(2):将训练数据按照标注的攻击类型进行分类,对每一类的训练数据集,均执行下面的步骤3-6;
步骤(3):随机选取训练数据集中的一条数据作为第一个聚类中心,设定距离阈值λ,对于其他所有的数据,计算这些数据到这第一个数据中心的欧式距离,若欧式距离大于距离阈值,则成为新的中心,从而得到初始聚类中心数据集;
步骤(4):分别计算此类训练数据集中剩余其他数据与步骤(3)得到的初始聚类中心的欧式距离,并将它们划分到最小的类中;
步骤(5):分别计算每一类中数据的平均值,将此平均值作为新的聚类中心;
步骤(6):重复步骤(4)和(5),直至步骤(5)生成的聚类中心保持稳定;
步骤(7):以所得到各类聚类中心数据集作为作为训练数据,训练深度置信网络DBN模型;
步骤(8):采用训练后的DBN模型,对测试网络流量进行分类检测,评价指标采用检测率与误报率,以进行检测算法的效果评价。
步骤(2)中,可将训练数据按照标注的攻击类型分为Normal、DoS、Probe、U2R以及R2L等五种。
本发明的有益效果如下:
1.本发明采用了改进的K-means算法,改进的K-means算法避免了初始中心选择不当对聚类效果的影响。采用聚类后的聚类中心数据集作为训练数据集,使训练数据更具有代表性,降低训练样本中的冗余度。
2.本发明采用DBN算法作为检测算法,DBN模型通过深层学习网络,能够更好的提取到更深层次的特征,进一步提高了入侵检测的识别率,降低了误报率。
附图说明
图1算法模型流程图
具体实施方式
传统的K-means算法其聚类结果受初始簇中心点的影响严重,初始簇中心点选取不当很容易造成聚类结果陷入局部最优解或导致错误的聚类结果。传统的K-means算法需要人为事先确定聚类数目k,但是算法不能分辨出所设定的聚类数目是否合适。本发明通过设定距离阈值来选择初始聚类中心,且可以通过计算自动生成聚类数目k,最终通过比较数据点与邻近点的距离从而进行聚类的改进的K-means算法。
为了提高入侵检测的分类效果,本发明将K-means算法与DBN算法进行算法级联。对于不同类型的网络数据,分别采用改进的K-means算法进行聚类,生成若干种类的聚类中心数据集作为新的高质量的训练数据集。采用DBN作为分类器,用聚类中心数据集训练DBN模型,进行网络流量识别。算法模型流程如图1所示。
发明的改进的K-means算法描述如下:
输入:数据集D、距离阈值λ
输出:聚成k类的聚类中心数据集D′
步骤1 随机选择αj∈D作为第一个聚类中心c1,令k=1;
步骤2
步骤3 If(欧式距离d(αi,cn)>λ,n=1,…,k)
步骤4 k=k+1,αi为新的聚类中心ck
步骤5 End If;
步骤6 以cn为中心,计算欧式距离d(αi,cn),将ai划分到dmini,cn)的类cn中;
步骤7 计算每一个类cn中数据的平均值作为新的聚类中心;
步骤8 End For;
步骤9
步骤10 重复步骤6-步骤7;
步骤11 If(生成的聚类中心cn保持稳定)
步骤12 输出聚成k类的聚类中心数据集D′;
步骤13 End If;
步骤14 End For;
对训练集中的正常网络连接Normal数据以及DOS、Probe、U2R以及R2L网络攻击数据,分别采用改进的K-means算法进行聚类,生成5类聚类中心数据集,以聚类得到的聚类中心数据集作为新的高质量的训练数据集。用聚类中心数据集训练DBN模型,用训练好的DBN模型进行网络流量种类的分类识别。
本发明提出的一种基于改进K-means与深度置信网络的入侵检测方法具体步骤如下:
步骤(1):对数据集中的网络流量数据进行预处理。将测试集与训练集中字符型特征值协议类型(protocol type)、网络服务(service)以及连接的状态(flag)转化为数值型特征值,将训练数据按照标注的攻击类型分为Normal、DoS、Probe、U2R以及R2L五类。将训练集与测试集进行归一化与标准化处理。
步骤(2):针对五种不同类型的网络流量数据,分别采用改进后的K-means算法进行聚类得到五种聚类中心数据集。
步骤(3):用聚类后的五种中心数据集作为训练数据,训练DBN模型。
步骤(4):采用训练后的DBN模型,对测试网络流量进行分类检测。评价指标采用检测率与误报率,以进行检测算法的效果评价。
实施例如下:
数据预处理阶段,将字符型特征值protocol type分别转化为数值1至4,service特征值转化为1至67,flag特征值转化为1至11。改进的K-means算法的阈值设定为0.6。DBN模型采用3层RBM结构,RBM预训练的学习率设置为0.05,每层RBM的迭代次数为10次,BP神经网络的学习率设置为0.05,迭代次数为1000次。采用批训练的方式提高训练速度,批训练样本数设置为100。

Claims (2)

1.一种基于K均值与深度置信网络的入侵检测方法,包括以下步骤:
步骤(1):对数据集中的网络流量数据进行预处理,将测试集与训练集中字符型特征值协议类型protocol type、网络服务(service)以及连接的状态flag转化为数值型特征值,将训练集与测试集进行归一化与标准化处理;
步骤(2):将训练数据按照标注的攻击类型进行分类,对每一类的训练数据集,均执行下面的步骤3-6;
步骤(3):随机选取训练数据集中的一条数据作为第一个聚类中心,设定距离阈值λ,对于其他所有的数据,计算这些数据到这第一个数据中心的欧式距离,若欧式距离大于距离阈值,则成为新的中心,从而得到初始聚类中心数据集;
步骤(4):分别计算此类训练数据集中剩余其他数据与步骤(3)得到的初始聚类中心的欧式距离,并将它们划分到最小的类中;
步骤(5):分别计算每一类中数据的平均值,将此平均值作为新的聚类中心;
步骤(6):重复步骤(4)和(5),直至步骤(5)生成的聚类中心保持稳定;
步骤(7):以所得到各类聚类中心数据集作为作为训练数据,训练深度置信网络DBN模型;
步骤(8):采用训练后的DBN模型,对测试网络流量进行分类检测,评价指标采用检测率与误报率,以进行检测算法的效果评价。
2.根据权利要求1所述的入侵检测方法,其特征在于,步骤(2):将训练数据按照标注的攻击类型分为Normal、DoS、Probe、U2R以及R2L等五种。
CN201711054047.6A 2017-10-31 2017-10-31 一种基于k均值与深度置信网络的入侵检测方法 Pending CN107895171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711054047.6A CN107895171A (zh) 2017-10-31 2017-10-31 一种基于k均值与深度置信网络的入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711054047.6A CN107895171A (zh) 2017-10-31 2017-10-31 一种基于k均值与深度置信网络的入侵检测方法

Publications (1)

Publication Number Publication Date
CN107895171A true CN107895171A (zh) 2018-04-10

Family

ID=61803065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711054047.6A Pending CN107895171A (zh) 2017-10-31 2017-10-31 一种基于k均值与深度置信网络的入侵检测方法

Country Status (1)

Country Link
CN (1) CN107895171A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109120632A (zh) * 2018-09-04 2019-01-01 中国人民解放军陆军工程大学 基于在线特征选择的网络流异常检测方法
CN109150830A (zh) * 2018-07-11 2019-01-04 浙江理工大学 一种基于支持向量机和概率神经网络的层次入侵检测方法
CN109218321A (zh) * 2018-09-25 2019-01-15 北京明朝万达科技股份有限公司 一种网络入侵检测方法及系统
CN110262467A (zh) * 2019-07-15 2019-09-20 北京工业大学 基于深度学习的工控系统入侵攻击及线索发现方法
CN112749739A (zh) * 2020-12-31 2021-05-04 天博电子信息科技有限公司 一种网络入侵检测方法
WO2022012144A1 (zh) * 2020-07-17 2022-01-20 湖南大学 基于不平衡数据深度信念网络的并行入侵检测方法和系统
CN114092272A (zh) * 2021-10-09 2022-02-25 云南电网有限责任公司 一种基于动态聚类算法的窃电智能判别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959316A (zh) * 2016-07-06 2016-09-21 吴本刚 网络安全性验证系统
CN105959162A (zh) * 2016-07-06 2016-09-21 吴本刚 分布式电力企业信息网络安全管理系统
CN107241358A (zh) * 2017-08-02 2017-10-10 重庆邮电大学 一种基于深度学习的智能家居入侵检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959316A (zh) * 2016-07-06 2016-09-21 吴本刚 网络安全性验证系统
CN105959162A (zh) * 2016-07-06 2016-09-21 吴本刚 分布式电力企业信息网络安全管理系统
CN107241358A (zh) * 2017-08-02 2017-10-10 重庆邮电大学 一种基于深度学习的智能家居入侵检测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
夏淑华: ""模糊k均值算法和神经网络算法在入侵检测中的应用"", 《网络安全技术与应用》 *
孔令智: ""基于网络异常的入侵检测算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
孙鑫等: ""基于改进K-均值算法的未知雷达信号分选"", 《现代电子技术》 *
安琪: ""基于深度置信网络的入侵检测研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
曾庆山等: ""基于距离阈值的自适应 K-均值聚类算法"", 《郑州大学学报(理学版)》 *
梁本来等: ""一种混合入侵检测模型"", 《计算机测量与控制》 *
邬斌亮等: ""融合K-均值聚类、FNN、SVM的网络入侵检测模型"", 《计算机应用与软件》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109150830A (zh) * 2018-07-11 2019-01-04 浙江理工大学 一种基于支持向量机和概率神经网络的层次入侵检测方法
CN109150830B (zh) * 2018-07-11 2021-04-06 浙江理工大学 一种基于支持向量机和概率神经网络的层次入侵检测方法
CN109120632A (zh) * 2018-09-04 2019-01-01 中国人民解放军陆军工程大学 基于在线特征选择的网络流异常检测方法
CN109218321A (zh) * 2018-09-25 2019-01-15 北京明朝万达科技股份有限公司 一种网络入侵检测方法及系统
CN110262467A (zh) * 2019-07-15 2019-09-20 北京工业大学 基于深度学习的工控系统入侵攻击及线索发现方法
WO2022012144A1 (zh) * 2020-07-17 2022-01-20 湖南大学 基于不平衡数据深度信念网络的并行入侵检测方法和系统
US11977634B2 (en) 2020-07-17 2024-05-07 Hunan University Method and system for detecting intrusion in parallel based on unbalanced data Deep Belief Network
CN112749739A (zh) * 2020-12-31 2021-05-04 天博电子信息科技有限公司 一种网络入侵检测方法
CN114092272A (zh) * 2021-10-09 2022-02-25 云南电网有限责任公司 一种基于动态聚类算法的窃电智能判别方法

Similar Documents

Publication Publication Date Title
CN107895171A (zh) 一种基于k均值与深度置信网络的入侵检测方法
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN107846392B (zh) 一种基于改进协同训练-adbn的入侵检测算法
CN103716204B (zh) 一种基于维纳过程的异常入侵检测集成学习方法及装置
CN107070943A (zh) 基于流量特征图和感知哈希的工业互联网入侵检测方法
CN107360152A (zh) 一种基于语义分析的Web威胁感知系统
CN106817248A (zh) 一种apt攻击检测方法
CN111598179B (zh) 电力监控系统用户异常行为分析方法、存储介质和设备
CN112819059B (zh) 一种基于流行保持迁移学习的滚动轴承故障诊断方法
CN109299741A (zh) 一种基于多层检测的网络攻击类型识别方法
CN111259219B (zh) 恶意网页识别模型建立方法、识别方法及系统
CN104809393B (zh) 一种基于流行度分类特征的托攻击检测算法
CN111507385B (zh) 一种可扩展的网络攻击行为分类方法
Chandrashekhar et al. Performance evaluation of data clustering techniques using KDD Cup-99 Intrusion detection data set
CN107145778B (zh) 一种入侵检测方法及装置
CN114707571B (zh) 基于增强隔离森林的信用数据异常检测方法
CN114422184A (zh) 基于机器学习的网络安全攻击类型和威胁等级预测方法
CN103136540B (zh) 一种基于隐结构推理的行为识别方法
CN111047173A (zh) 基于改进d-s证据理论的社团可信度评估方法
CN107483451A (zh) 基于串并行结构网络安全数据处理方法及系统、社交网络
Wang et al. A high-performance intrusion detection method based on combining supervised and unsupervised learning
CN114254691A (zh) 基于主动识别及智能监测的多渠道运营风控方法
CN113343123A (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN108647497A (zh) 一种基于特征提取的api密钥自动识别系统
CN105488413A (zh) 一种基于信息增益的恶意代码检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180410