CN107454084A - 基于杂交带的最近邻入侵检测算法 - Google Patents

基于杂交带的最近邻入侵检测算法 Download PDF

Info

Publication number
CN107454084A
CN107454084A CN201710678826.7A CN201710678826A CN107454084A CN 107454084 A CN107454084 A CN 107454084A CN 201710678826 A CN201710678826 A CN 201710678826A CN 107454084 A CN107454084 A CN 107454084A
Authority
CN
China
Prior art keywords
mrow
detection
data
hybrid belt
msubsup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710678826.7A
Other languages
English (en)
Other versions
CN107454084B (zh
Inventor
江泽涛
韩立尧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201710678826.7A priority Critical patent/CN107454084B/zh
Publication of CN107454084A publication Critical patent/CN107454084A/zh
Application granted granted Critical
Publication of CN107454084B publication Critical patent/CN107454084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Burglar Alarm Systems (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种基于杂交带的最近邻入侵检测算法,包括如下步骤:步骤1.数据预处理,对收集到的原始数据去掉其中重复的,不完整的数据来降低训练检测模型的时间;步骤2.生成检测对象的感知哈希摘要,将预处理后的数据进行数值化和归一化成为标准数据,将每一条数据的不同属性值相加,生成一段感知哈希摘要;步骤3.生成检测子集合,将感知哈希摘要做向下取整,然后将所有具有相同感知哈希摘要的训练样本构建一个检测集合;步骤4.在相同感知哈希的入侵检测对象构建的集合上构建杂交带;步骤5.对检测对象做投票分类,加快入侵检测速度。采用本发明的技术方案可以提高入侵检测速度,并且随着测试数据的增大,速度的提高的效果会越发显著。

Description

基于杂交带的最近邻入侵检测算法
技术领域
本发明涉入侵检测领域中的网络入侵检测算法,具体涉及一种基于杂交带的最近邻入侵检测算法。
背景技术
入侵检测是保证计算机系统安全的重要防线,当前的入侵检测中存在误报率高,漏报率高,检测速度低等问题。使得当前的入侵检测系统很难适应高速网络环境的要求。因此,为了提高入侵检测的速度,降低入侵检测系统的漏报率和误报率等问题,需要选择合适的入侵检测算法在提高检测率的同时降低入侵检测带来的系统开销。近年来,入侵检测领域也取得了不错的研究成果,主要是将模式识别的相关算法引入到了入侵检测中。常用来做入侵检测的算法包括决策树算法,贝叶斯分类算法,支持向量机算法,神经网络算法,粗糙集和理论和模糊集合理论。上述这些方法主要是在训练集合上建立适当的模型,然后在测试集合上做相应的测试。虽然在测试集合上取得了很好的效果,但是检测的过程需要耗费大量的时间,使得入侵检测系统很难达到当前实时性的要求。因此如何提高入侵检测系统的检测率,降低漏报率和误报率同时提高入侵检测系统的检测效率一直是学术界和工业界研究的热点和重点。
现有技术的不足:
1)为了提高入侵检测系统的检测率,需要建立复杂的属性模型。同时需要对模型的参数做相应的调整。但是建立复杂的模型需要大量的相关专家知识,同时建模的时间长,系统开销大。在入侵检测系统建立的初期需要耗费大量的时间来建立模型,这无疑为系统的安全造成了隐患。
2)唐成华提出了采用特征选择的方法来降低入侵检测计算的开销。但是由于检测对象在训练集合和测试集合上的分布不均匀,很容易对系统的检测率造成影响。
3)采用粗糙集来描述检测对象能很好的表达对象与不同集合之间的隶属度关系。通过加权可以动态调整入侵检测系统的漏报率和误报率,从而来满足当前入侵检测的需要。然而要为不同的集合赋予不同的权重需要大量的相关知识,从而增加了系统的复杂度。
发明内容
针对现有技术的不足,本发明所解决的问题是如何解决网络入侵检测过程中,由于建模数据和测试数据分布不完全相同造成的概念漂移,同时建模需要大量的专家知识问题。
为解决上述技术问题,本发明采用的技术方案是一种基于杂交带的最近邻入侵检测算法,包括如下步骤:
步骤1数据预处理,对收集到的原始数据去掉其中重复的,不完整的数据来降低训练检测模型的时间。
步骤2生成检测对象的感知哈希摘要,将预处理后的数据进行数值化和归一化成为标准数据,将每一条数据的不同属性值相加,生成一段感知哈希摘要;
所述感知哈希摘要根据公式
hash(x)=(hi,j·W)/N (1)
将入侵检测对象转换而成,其中:
H(x)i,j代表在检测对象组成的集合X中的第i个样本的第j个分量;
W是该分量在转换成为感知哈希摘要的时候的每一维度上分量的权重;
N为确定感知哈希摘要生成子集的大小的影响因子;
所述W权重的确定采用逻辑回归算法,计算训练集合中每一个维度对最终分类的影响因子。
步骤3生成检测子集合,将感知哈希摘要做向下取整,然后将所有具有相同感知哈希摘要的训练样本构建一个检测集合;
步骤4在相同感知哈希摘要的入侵检测对象组成的集合上构建杂交带,对生成的若干个检测集合,根据公式
计算子集合内的样本间的相似度;
如果两个样本的感知哈希值相同并且它们的相似度大于阈值θ,但是这两个样本属于不同的攻击类型,则将他们加入到杂交带集合中;
所述阈值是指在选取某一个阈值θ下的检测率与误报率的比值,以T_DS表示阈值测评值,则
T_DSθ=DRθ/FRθ (3)其中:
θ表示建立杂交带时选定的阈值;
DRθ表示选定阈值θ的检测率;
FRθ表示选定阈值θ下的误报率。若在某一个阈值下检测率越高,误报率越低,其阈值测评值越大,则分类能力越好;
步骤5对检测对象做投票分类,加快入侵检测速度;入侵检测阶段,计算检测对象感知哈希值,使用该感知哈希值对应的集合中的杂交带中的样本对检测对象做投票分类;如果杂交带中的对象无法完成投票分类,则使用该集合中的非杂交带中的样本做投票分类来加快入侵检测速度。
采用本发明的技术方案可以提高入侵检测速度,并且随着测试数据的增大,速度的改进效果会越发显著。
附图说明
图1为本发明的流程图;
图2为训练集合去重前后的结果;
图3为对不同类型攻击的检测;
图4为不同小样本分类器的比较;
图5为本发明对不同类型的攻击的检测时间。
具体实施方式
下面结合附图和实施例对本发明的具体实施方式作进一步的说明,但不是对本发明的限定。
图1示出了本发明的流程,一种基于杂交带的最近邻入侵检测算法,包括如下步骤:
步骤1数据预处理,对收集到的原始数据去掉其中重复的,不完整的数据来降低训练检测模型的时间。
步骤2生成检测对象的感知哈希摘要,将预处理后的数据进行数值化和归一化成为标准数据,将每一条数据的不同属性值相加,生成一段感知哈希摘要;
所述感知哈希摘要根据公式
hash(x)=(hi,j·W)/N (1)
将入侵检测对象转换而成,其中:
H(x)i,j代表在检测对象组成的集合X中的第i个样本的第j个分量;
W是该分量在转换成为感知哈希摘要的时候的每一维度上分量的权重;
N为确定感知哈希摘要生成子集的大小的影响因子;
所述W权重的确定采用逻辑回归算法,计算训练集合中每一个维度对最终分类的影响因子。
步骤3生成检测子集合,将感知哈希摘要做向下取整,然后将所有具有相同感知哈希摘要的训练样本构建一个检测集合;
步骤4在相同感知哈希摘要的入侵检测对象组成的集合上构建杂交带,对生成的若干个检测集合,根据公式
计算子集合内的样本间的相似度;
如果两个样本的感知哈希值相同并且它们的相似度大于阈值θ,但是这两个样本属于不同的攻击类型,则将他们加入到杂交带集合中;
所述阈值是指在选取某一个阈值θ下的检测率与误报率的比值,以T_DS表示阈值测评值,则
T_DSθ=DRθ/FRθ (3)其中:
θ表示建立杂交带时选定的阈值;
DRθ表示选定阈值θ的检测率;
FRθ表示选定阈值θ下的误报率。若在某一个阈值下检测率越高,误报率越低,其阈值测评值越大,则分类能力越好;
步骤5对检测对象做投票分类,加快入侵检测速度;入侵检测阶段,计算检测对象感知哈希值,使用该感知哈希值对应的集合中的杂交带中的样本对检测对象做投票分类;如果杂交带中的对象无法完成投票分类,则使用该集合中的非杂交带中的样本做投票分类来加快入侵检测速度。
图2展示出了对训练样本做数据预处理后的相关结果,训练样本中存在大量的DOS攻击,但是U2R类型的攻击只有52条样本。在样本数量严重失衡的情况下,本发明对于U2R类型的攻击的检测率仍然可以维持在60%。对于R2L类型的攻击的数量为999,本发明的检测率可以达到98.05%。
图3示出了本方法对不同类型的攻击的检测结果。其中本方法对于DOS攻击,PROBE攻击和R2L类型的攻击具有很好的检测效果。
图4示出了不同类型小样本分类器的比较结果,清楚显示了本发明在做小样本分类的时候优势明显。其原因在于:
NB算法的准确率依赖于在训练集样本上先验概率的获取,同时需要保证训练样本与测试样本中入侵检测对象在特征空间中分布的一致性。
SVM方法则侧重通过核方法将原始空间线性不可分的样本投影到高维空间变得线性可分,当训练的样本数量少且样本特征维度高的时候很容易造成梯度爆炸的问题从而严重影响了分类器的性能。
DT算法在训练集上建立决策规则,在训练样本少的前提下建立的决策规则很难刻画测试集合中的检测对象。然而杂交带上的分类则避免了上述分类器中存在的问题,并且杂交带近邻分类器的建模时间只与比较样本个数有关。从而在测试时间和分类准确率上明显优于其他分类器。
图5示了选择了10w,30w,50w,100w四种规模的数据对算法进行了性能测试。其中曲线1为对正常连接的检测情况,曲线2为对整个网络连接的检测情况,曲线3为对DOS攻击的检测情况,曲线4为对U2R类型的攻击的检测情况。从图中可以看出检测的时间随着检测样本的规模的增大而增大。本发明在异常入侵检测所需要的时间为1e-6s.正常检测需要的时间为1e-3.同时可以看出检测到系统入侵所需要的时间仅仅是检测到正常状态的1/100。主要原因在于正常对象在特征空间中的分布比较集中,需要在杂交带上做近似度计算,从而保证较高的检测率和较低的误报率。因此可以看出本发明可以满足当前实时性的要求。且对于异常行为具有较高的敏感性。
以上结合附图对本发明的实施方式做出了详细说明,但本发明不局限于所描述的实施方式。对于本领域技术人员而言,在不脱离本发明的原理和精神的情况下,对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。

Claims (4)

1.一种基于杂交带的最近邻入侵检测算法,其特征在于:包括如下步骤:
步骤1数据预处理,对收集到的原始数据去掉其中重复的,不完整的数据来降低训练检测模型的时间;
步骤2生成检测对象的感知哈希摘要,将预处理后的数据进行数值化和归一化成为标准数据,将每一条数据的不同属性值相加,生成一段感知哈希摘要;
步骤3生成检测子集合,将感知哈希摘要做向下取整,然后将所有具有相同感知哈希摘要的训练样本构建一个检测集合;
步骤4在相同感知哈希摘要的入侵检测对象组成的集合上构建杂交带,对生成的若干个检测集合,根据公式
<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>d</mi> <mi>f</mi> </mrow> </msubsup> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>*</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mrow> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>d</mi> <mi>f</mi> </mrow> </msubsup> <msubsup> <mi>x</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> <mo>*</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>d</mi> <mi>f</mi> </mrow> </msubsup> <msubsup> <mi>x</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
计算子集合内的样本间的相似度;
如果两个样本的感知哈希值相同并且它们的相似度大于阈值θ,但是这两个样本属于不同的攻击类型,则将他们加入到杂交带集合中;
步骤5对检测对象做投票分类,加快入侵检测速度;入侵检测阶段,计算检测对象感知哈希值,使用该感知哈希值对应的集合中的杂交带中的样本对检测对象做投票分类;如果杂交带中的对象无法完成投票分类,则使用该集合中的非杂交带中的样本做投票分类来加快入侵检测速度。
2.根据权利要求1所述的基于杂交带的最近邻入侵检测算法,其特征在于:步骤2中,所述感知哈希摘要根据公式
hash(x)=(hi,j·W)/N (1)
将入侵检测对象转换而成,其中:
H(x)i,j代表在检测对象组成的集合X中的第i个样本的第j个分量;
W是该分量在转换成为感知哈希摘要的时候的每一维度上分量的权重;
N为确定感知哈希摘要生成子集的大小的尺度因子。
3.根据权利要求2所述的基于杂交带的最近邻入侵检测算法,其特征在于:所述W权重的确定采用逻辑回归算法,计算训练集合中每一个维度对最终分类的影响因子。
4.根据权利要求1或2所述的基于杂交带的最近邻入侵检测算法,其特征在于:步骤4中,所述阈值是指在选取某一个阈值θ下的检测率与误报率的比值,以T_DS表示阈值测评值,则
T_D Sθ=D Rθ/FRθ (3)
其中:
θ表示建立杂交带时选定的阈值;
DRθ表示选定阈值θ的检测率;
FRθ表示选定阈值θ下的误报率;若在某一个阈值下检测率越高,误报率越低,其阈值测评值越大,则分类能力越好。
CN201710678826.7A 2017-08-10 2017-08-10 基于杂交带的最近邻入侵检测算法 Active CN107454084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710678826.7A CN107454084B (zh) 2017-08-10 2017-08-10 基于杂交带的最近邻入侵检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710678826.7A CN107454084B (zh) 2017-08-10 2017-08-10 基于杂交带的最近邻入侵检测算法

Publications (2)

Publication Number Publication Date
CN107454084A true CN107454084A (zh) 2017-12-08
CN107454084B CN107454084B (zh) 2020-06-02

Family

ID=60491458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710678826.7A Active CN107454084B (zh) 2017-08-10 2017-08-10 基于杂交带的最近邻入侵检测算法

Country Status (1)

Country Link
CN (1) CN107454084B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874927A (zh) * 2018-05-31 2018-11-23 桂林电子科技大学 基于超图和随机森林的入侵检测方法
CN109639739A (zh) * 2019-01-30 2019-04-16 大连理工大学 一种基于自动编码器网络的异常流量检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7607016B2 (en) * 2001-04-20 2009-10-20 Digimarc Corporation Including a metric in a digital watermark for media authentication
CN103618744A (zh) * 2013-12-10 2014-03-05 华东理工大学 一种基于快速knn算法的入侵检测方法
CN103870751A (zh) * 2012-12-18 2014-06-18 中国移动通信集团山东有限公司 入侵检测方法及系统
CN104699701A (zh) * 2013-12-05 2015-06-10 深圳先进技术研究院 基于敏感哈希的并行最邻近节点计算方法及分布式系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7607016B2 (en) * 2001-04-20 2009-10-20 Digimarc Corporation Including a metric in a digital watermark for media authentication
CN103870751A (zh) * 2012-12-18 2014-06-18 中国移动通信集团山东有限公司 入侵检测方法及系统
CN104699701A (zh) * 2013-12-05 2015-06-10 深圳先进技术研究院 基于敏感哈希的并行最邻近节点计算方法及分布式系统
CN103618744A (zh) * 2013-12-10 2014-03-05 华东理工大学 一种基于快速knn算法的入侵检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭三,刘宁: "基于阈值聚类和KNN分类的入侵检测", 《郑州大学学报(理学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874927A (zh) * 2018-05-31 2018-11-23 桂林电子科技大学 基于超图和随机森林的入侵检测方法
CN109639739A (zh) * 2019-01-30 2019-04-16 大连理工大学 一种基于自动编码器网络的异常流量检测方法

Also Published As

Publication number Publication date
CN107454084B (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN110070060B (zh) 一种轴承设备的故障诊断方法
Arbin et al. Comparative analysis between k-means and k-medoids for statistical clustering
CN104598813B (zh) 一种基于集成学习和半监督svm的计算机入侵检测方法
CN107395590A (zh) 一种基于pca和随机森林分类的入侵检测方法
CN112491796A (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN103853744B (zh) 一种面向用户生成内容的欺骗性垃圾意见检测方法
CN110334508A (zh) 一种主机序列入侵检测方法
CN106484838A (zh) 基于数据挖掘的安全检查标准库动态更新方法
CN107454084A (zh) 基于杂交带的最近邻入侵检测算法
Xu et al. An improved LOF outlier detection algorithm
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
Thanh et al. An approach to reduce data dimension in building effective network intrusion detection systems
CN110097120A (zh) 网络流量数据分类方法、设备及计算机存储介质
CN113837002A (zh) 基于改进TimeGan模型的小样本数据故障诊断方法
CN111612531B (zh) 一种点击欺诈的检测方法及系统
CN111507649B (zh) 一种基于区块链的金融大数据风控平台
Shirazi Anomaly intrusion detection system using information theory, K-NN and KMC algorithms
CN116776334A (zh) 一种基于大数据的办公软件漏洞分析方法
CN110472188A (zh) 一种面向传感数据的异常模式检测方法
Lu et al. One intrusion detection method based on uniformed conditional dynamic mutual information
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN114118680A (zh) 一种网络安全态势评估方法及系统
Dehghani et al. Toward a distinguishing approach for improving the apriori algorithm
CN113919415A (zh) 一种基于无监督算法的异常群组检测方法
CN113792141A (zh) 基于协方差度量因子的特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171208

Assignee: Guilin Biqi Information Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980045309

Denomination of invention: Nearest neighbor intrusion detection algorithm based on hybrid bands

Granted publication date: 20200602

License type: Common License

Record date: 20231102