CN110266672B - 基于信息熵和置信度下采样的网络入侵检测方法 - Google Patents
基于信息熵和置信度下采样的网络入侵检测方法 Download PDFInfo
- Publication number
- CN110266672B CN110266672B CN201910498992.8A CN201910498992A CN110266672B CN 110266672 B CN110266672 B CN 110266672B CN 201910498992 A CN201910498992 A CN 201910498992A CN 110266672 B CN110266672 B CN 110266672B
- Authority
- CN
- China
- Prior art keywords
- downsampling
- information entropy
- training
- sample
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种基于信息熵和置信度下采样的网络入侵检测方法。本发明同时采用了信息熵以及算法置信度来作为下采样的采样基准,以代替传统对多数类的随机下采样策略;其次,通过Boosting的集成思想,将该动态下采样的方法推广至任何算法;并且本发明中使用的信息熵同时包含了样本模糊隶属度以及结构信息,因此能够有效抑制多数类的信息损失。相较于传统的不平衡分类集成方法,本发明首次将动态下采样与信息熵以及置信度结合,不但能够使得集成模型能够适应于更多的基算法,更有效提升了模型对不平衡网络入侵的检测性能。
Description
技术领域
本发明涉及一种不平衡网络入侵检测识别方法,属于网络信息安全领域
背景技术
在网络技术飞速发展的这十几年里,网络安全问题逐渐被大众所重视。其中网络入侵识别方法的相关研究是现今的热门研究领域。对现有的网络攻击进行初步分类,基本的攻击类型包括拒绝服务(Denial of Service,DoS)、未授权的远程主机访问(Remote-to-Login,R2L)、未经授权获取超级用户访问(User-to-Root,U2R)、监听探测(Probing)等。上述的网络攻击手段同时存在一些子类型的变种,因此对这些网络入侵方法进行识别有着重大的实际应用价值。
现有的常用网络攻击检测方法可以简单总结如下:1)基于规则的检测方法来进行筛选,对现有规则数据库依赖性高,但是对新类型的网络入侵的更新效率低,容易造成巨大损失; 2)依赖于网络流特征分布的检测方法,但是这种方法的检测准确率不佳,存在随机性,可以通过部分攻击手段进行规避;3)基于机器学习的入侵检测方法,例如使用支持向量机,随机森林,神经网络等。使用基于机器学习方法能够有效及时应对未知的网络攻击。但是受限于不同的物理条件和环境限制,网络入侵的数量在类别上往往是不平衡的,因此传统的机器学习方法难以解决不平衡类型的网络入侵。
在数据层面上的采样算法能够很好地针对不平衡网络入侵问题。采样算法可以进一步分为静态采样和动态采样,静态采样算法独立于算法模型,具有代表性的是随机下采样,随机上采样,SMOTE,以及基于聚类的采样算法。此外,静态采样算法还有一些基于边界采样进行的,例如边界SMOTE和单边下采样等,由于边界样本往往在训练的时候更具有价值,因此能够在相当一部分数据集上得到更好的效果。另一方面,动态采样充分利用了算法的性能补充了静态采样的信息丢失,具有代表性的算法有,活跃SVM学习(LASVM-AL),单边动态下采样(ODU)等。由于在采样的时候需要分类器算法的输出作为参考,因此动态边界采样算法往往都只能基于迭代性质的算法上。
使用集成学习来解决不平衡问题往往是与数据采样或者代价敏感相结合的。这些基于采样的集成方法以不同的集成、采样的交叉策略又能进一步分为基于不同采样模式的bagging 集成,boosting集成以及混合集成的策略。这些方法在集成领域都已经有了不少代表性的算法。集成算法结合代价敏感,一般是基于boosting策略的。然而在集成算法中使用的采样算法往往都比较简单,没有考虑到样本的信息保护。
然而,仍然存在以下三个问题:1)边界动态采样算法存在对边界样本的过拟合现象, 2)在基于数据预处理的集成学习中如何有效保留样本的结构信息,3)如何让动态采样算法不受限于迭代算法,使其能够推广至更广的领域。本发明将Boosting集成算法和动态边界下采样进行结合,同时引入了样本模糊隶属度和结构信息熵来保护样本的结构信息,将其与输出置信度进行归一化后将动态下采样推广至随机森林等非迭代算法领域。通过在KDD99不平衡网络入侵分类问题上的实验结果可以得知本发明拥有对于不平衡网络入侵问题具有更优秀的分类性能,在平均准确率上取得了优异的效果。
发明内容
针对现存的采样集成算法无法有效解决不平衡网络入侵问题,本发明同时使用了自定义了信息熵以及算法置信度来作为下采样的采样基准,以代替传统对多数类的随机下采样策略;其次,通过Boosting的集成思想,将该动态下采样的方法推广至任何算法;并且本发明中使用的信息熵同时包含了样本模糊隶属度以及结构信息,因此能够有效抑制多数类的信息损失。相较于传统的不平衡分类集成方法,本发明首次将动态下采样与信息熵以及置信度结合,不但有效提升了不平衡分类问题中的泛化性能,更能够使得集成模型能够适应于更多的基算法。
本发明解决其技术问题所采用的技术方案:在预处理阶段,后台根据具体问题描述,将采集的样本集特征转为适于后续处理的数据矩阵;在训练过程中,首先分别计算多数类样本的模糊隶属度以及结构信息熵,将其等权重归一化后求和作为采样基准之一;使用随机下采样的方法来训练第一个随机森林。将训练得到的置信度信息归一化后与之前的信息熵结果进行加权并得到Rank,作为下一轮的下采样的基准;最后,使用训练所得模型构造的置信度重新计算Rank进行下采样,循环迭代直到集成次数上限L;在测试过程中,将测试数据集输入所得的Boosting集成模型中,测试过程中无需下采样。
本发明解决其技术问题所采用的技术方案还可以进一步细化。所述的Boosting集成模型的基分类器并不依赖于迭代性的算法,因此除了随机森林能够有更多的拓展。考虑到问题的解释性以及方法的实现难易程度,本实验中选择随机森林作为基分类器,因为作为非迭代算法,随机森林在平衡数据上有较理想的泛化性能。同时在测试和验证过程中,本发明使用多数类和少数类的平均准确率作为评价指标以客观地体现算法的性能。
本发明有益的效果是:通过设计一个基于信息熵和置信度下采样的Boosting集成模型,将动态下采样与Boosting集成结合解决不平衡分类问题;充分利用信息熵保留样本结构信息;运用置信度降低算法对迭代方法的依赖性。
附图说明
本发明整体流程图见附图1
本发明中结构信息熵的直观理解见附图2
本发明中随机森林置信度计算方法见附图3
具体实施方式
下面结合附图和实例对本发明作进一步介绍:本发明所设计的系统共分四个模块。
第一部分:数据采集
数据采集过程是将现实样本数据化,生成向量表示的数据集便于后续模块进行处理。在该步骤中,将采集到的样本分为训练样本与测试样本。先处理训练样本。一个训练样本生成一个向量其中,i表示该样本是总训练样本的第i个,c表示该样本属于第c个类。向量的每一元素对应样本的一个属性,向量的维度d为样本的属性数。为方便后续计算,将所有训练样本合成一个训练矩阵D,该矩阵中,每一行是一个样本。其中的特征可以进一步分为连续特征和离散特征,离散特征我们进行了one-hot处理。
第二部分:训练分类模型
在这个模块中,上一模块生成的训练样本矩阵D将被代入发明的核心算法中进行训练。主要步骤如下:
1)分别计算多数类样本的模糊隶属度以及结构信息熵,将其等权重归一化后求和作为采样基准之一:模糊隶属度由如下信息熵公式改进得到
Entropymax=-ln0.5
其中k为样本xi的近邻数,和分别表示近邻样本中多数类和少数类的数量。在本算法中使用的模糊隶属度对离群点进行了特殊处理,当的时候,仍然能够保持单调性。因此,倾向于放弃离群的噪声点,同时能够对边界样本保持一定的鲁棒性。结构信息熵同样启发于信息熵的公式结构,定义为:
其中diq=‖xi-xq‖表示样本xi与周围k个样本欧氏距离。的分母显然是基于信息熵公式,因此当k近邻的欧式距离变化大的时候,则越大,反之则其值越小。显然,倾向于选择近邻样本变化小的结构稳定样本。对结构信息熵的直观理解可见附图2。在混合2种熵的时候使用了min-max归一化
2)使用随机下采样的方法来训练第一个随机森林。将训练得到的置信度信息归一化后与之前的信息熵结果进行加权并得到Rank,作为下一轮的下采样的基准:通过随机下采样来训练第一个随机森林,在下采样的时候随机选择等量于少数类数量的多数类样本Np参与训练。训练所得模型输出的置信度计算方法为:
可以直观理解为叶节点中所属类别y′样本比例的均值,具体可以参考附件图3。多数类样本xi下采样的最终基准Ranki为
其中λ为权重系数,λ越大则倾向于信息熵,下采样则更偏向于保护稳定的样本,反之,则倾向于边界的活跃样本。在下采样的时候,将所有Rank值从小到大排序后选择Rank值最小的 Np(少数类数量)个多数类样本参与下一轮迭代训练。在实验中,我们使用皮尔逊相关系数来检验和的相关性,并证明其结合是有效的。
3)使用训练所得模型构造的置信度重新计算Rank进行下采样,循环迭代直到集成次数上限L:对所有已经完成训练的模型进行置信度计算,所得值的均值来重新构造Confn以及 Rank,从而来指导进行下一次的下采样。一般算法在5次迭代后样本的更替将趋于稳定。
第三部分:测试未知数据
该模块首先将第一模块中随机划分出的另一半样本作为测试样本构成测试样本矩阵,其中训练集和测试需要满足同概率分布的前提。将测试数据集输入所得的Boosting集成模型中,测试过程中无需下采样,具体实现为:训练集和测试需要满足同概率分布的前提。最终使用所有的L个模型进行判别:
其中,当yi=1,xi属于少数类,否则则属于多数类。
实验设计
1)实验数据集选取与介绍:KDD是数据挖掘与知识发现(Data Mining andKnowledge Discovery)的简称,KDD CUP是由ACM(Association for Computing Machiner)的 SIGKDD(Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛。“KDD CUP 99数据集”是网络入侵检测领域的标准,为基于计算智能的网络入侵检测研究奠定基础。而不同种类的网络攻击数据在数量上有着明显的不平衡现象,这也就构成了影响分类性能的主要因素。该实验选择了来自KEEL数据库的5个不平衡KDD Cup99数据集。分别为‘land_vs_satan’,‘guess_passwd_vs_satan’,‘land_vs_portsweep’,‘buffer_overflow_vs_back’和‘rootkit-imap_vs_back’。其数据信息如下表,数据中的离散特征均以替换为one-hot表示。
所有使用的数据集均采用5轮交叉验证进行检验,即将数据集打乱均等分为5份,每次训练使用其中4份进行训练,1份用于测试,并且总共进行5轮。即所有数据都会作为测试集参与测试。
2)对比模型:该发明所提出的系统命名为ECUBoost,基于随机森林的模型分别命名为ECUBoost-RF。另外,我们选择随机森林(RF),双重子空间SVM(ABRS-SVM)以及基于代价敏感的SVM(CS-SVM)作为对比。
3)参数选择:ECUBoost中的系数λ={0,0.2,0.4,0.6,0.8},近邻数k={3,5,7,…,15},随机森林的树个数为50,SVM使用RBF核,其松弛系数C和核半径σ取值均为{0.01,0.1,1,10,100},特征采样率均选自{0.5,0.7,0.9}
4)性能度量方法:实验统一使用多数类和少数类的平均准确率M-ACC作为评价标准。
5)所有模型在各KDD CUP 99数据集上的M-ACC结果如下表。表中最后一行是它们的平均M-ACC,黑色字体表示最优的结果。
上表可以发现本发明ECUBoost-RF能够在不平衡网络入侵检测中发挥优异的性能,明显超过了其他的对比算法。
Claims (5)
1.基于信息熵和置信度下采样的网络入侵检测方法,其特征在于:具体步骤是:
1)预处理第一步:通过网络数据采集工具来构建网络攻击特征,将采集的样本集特征转为适于后续处理的数据矩阵;
2)预处理第二步:分别整理数据中的连续特征和离散特征,对所有离散特征进行one-hot的转换;
3)训练第一步:分别计算多数类样本的模糊隶属度以及结构信息熵,将其等权重归一化后求和作为采样基准之一;
4)训练第二步:使用随机下采样的方法来训练第一个随机森林,采用本发明所提Rank计算方法,将训练得到的置信度信息归一化后与之前的信息熵结果进行加权并得到Rank,作为下一轮的下采样的基准,其中第i个样本的Rank计算公式如下:
5)训练第三步:使用训练所得模型构造的置信度重新计算Rank进行下采样,循环迭代直到集成次数上限L;
6)测试:将测试数据集输入所得的Boosting集成模型中,测试过程中无需下采样,最终得到对网络入侵检测的分类结果。
2.根据权利要求1所述的基于信息熵和置信度下采样的网络入侵检测方法,其特征在于:所述的训练第一步,分别计算多数类样本的模糊隶属度以及结构信息熵,将其等权重归一化后求和作为采样基准之一,详细描述如下:模糊隶属度由如下信息熵公式改进得到
Entropymax=-ln 0.5
其中k为样本xi的近邻数,和分别表示近邻样本中多数类和少数类的数量,在本算法中使用的模糊隶属度对离群点进行了特殊处理,当的时候,仍然能够保持单调性,因此,倾向于放弃离群的噪声点,同时能够对边界样本保持一定的鲁棒性,结构信息熵同样启发于信息熵的公式结构,定义为:
其中diq=‖xi-xq‖表示样本xi与周围k个样本欧氏距离,的分母显然是基于信息熵公式,因此当k近邻的欧式距离变化大的时候,则越大,反之则其值越小,显然,倾向于选择近邻样本变化小的结构稳定样本,在混合2种熵的时候使用了min-max归一化
3.根据权利要求1所述的基于信息熵和置信度下采样的网络入侵检测方法,其特征在于:所述的训练第二步,使用随机下采样的方法来训练第一个随机森林,将训练得到的置信度信息归一化后与之前的信息熵结果进行加权并得到Rank,作为下一轮的下采样的基准,其具体实现为:通过随机下采样来训练第一个随机森林,在下采样的时候随机选择等量于少数类数量的多数类样本Np参与训练,训练所得模型输出的置信度计算方法为:
可以直观理解为叶节点中所属类别y′样本比例的均值,多数类样本xi下采样的最终基准Ranki为
其中λ为权重系数,λ越大则倾向于信息熵,下采样则更偏向于保护稳定的样本,反之,则倾向于边界的活跃样本,在下采样的时候,将所有Rank值从小到大排序后选择Rank值最小的Np个多数类样本参与下一轮迭代训练,其中Np为少数类数量,即少数类包含的样本数。
4.根据权利要求1所述的基于信息熵和置信度下采样的网络入侵检测方法,其特征在于:所述训练第三步,使用训练所得模型构造的置信度重新计算Rank进行下采样,循环迭代直到集成次数上限L,其具体实现为:对所有已经完成训练的模型进行置信度计算,所得值的均值来重新构造Confn以及Rank,从而来指导进行下一次的下采样,一般算法在5次迭代后样本的更替将趋于稳定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910498992.8A CN110266672B (zh) | 2019-06-06 | 2019-06-06 | 基于信息熵和置信度下采样的网络入侵检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910498992.8A CN110266672B (zh) | 2019-06-06 | 2019-06-06 | 基于信息熵和置信度下采样的网络入侵检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110266672A CN110266672A (zh) | 2019-09-20 |
CN110266672B true CN110266672B (zh) | 2021-09-28 |
Family
ID=67917469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910498992.8A Active CN110266672B (zh) | 2019-06-06 | 2019-06-06 | 基于信息熵和置信度下采样的网络入侵检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110266672B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689074A (zh) * | 2019-09-26 | 2020-01-14 | 哈尔滨工程大学 | 一种基于模糊集特征熵值计算的特征选择方法 |
CN110855650B (zh) * | 2019-11-05 | 2021-05-07 | 西安交通大学 | 一种非法文件上传检测方法 |
CN113052198B (zh) * | 2019-12-28 | 2024-06-21 | 中移信息技术有限公司 | 一种数据处理方法、装置、设备及存储介质 |
CN111611293B (zh) * | 2020-04-24 | 2023-09-29 | 太原太工天宇教育科技有限公司 | 一种基于特征加权与MapReduce的离群数据挖掘方法 |
CN112187752A (zh) * | 2020-09-18 | 2021-01-05 | 湖北大学 | 一种基于随机森林的入侵检测分类方法及装置 |
CN112966741B (zh) * | 2021-03-05 | 2022-08-02 | 北京理工大学 | 一种可防御拜占庭攻击的联邦学习图像分类方法 |
CN113673573B (zh) * | 2021-07-22 | 2024-04-30 | 华南理工大学 | 一种基于自适应集成随机模糊分类的异常检测方法 |
CN115296933B (zh) * | 2022-10-08 | 2022-12-23 | 国家工业信息安全发展研究中心 | 一种工业生产数据风险等级评估方法及系统 |
CN118348572A (zh) * | 2024-04-19 | 2024-07-16 | 无锡匡胜科技有限公司 | 一种适用于社区机器人自适应定位方法及计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105429977A (zh) * | 2015-11-13 | 2016-03-23 | 武汉邮电科学研究院 | 基于信息熵度量的深度包检测设备异常流量监控方法 |
CN106330906A (zh) * | 2016-08-23 | 2017-01-11 | 上海海事大学 | 一种大数据环境下的DDoS攻击检测方法 |
CN108460421A (zh) * | 2018-03-13 | 2018-08-28 | 中南大学 | 不平衡数据的分类方法 |
CN108768946A (zh) * | 2018-04-27 | 2018-11-06 | 中山大学 | 一种基于随机森林算法的网络入侵检测模型 |
CN108764346A (zh) * | 2018-05-30 | 2018-11-06 | 华东理工大学 | 一种基于熵的混合采样集成分类器 |
-
2019
- 2019-06-06 CN CN201910498992.8A patent/CN110266672B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105429977A (zh) * | 2015-11-13 | 2016-03-23 | 武汉邮电科学研究院 | 基于信息熵度量的深度包检测设备异常流量监控方法 |
CN106330906A (zh) * | 2016-08-23 | 2017-01-11 | 上海海事大学 | 一种大数据环境下的DDoS攻击检测方法 |
CN108460421A (zh) * | 2018-03-13 | 2018-08-28 | 中南大学 | 不平衡数据的分类方法 |
CN108768946A (zh) * | 2018-04-27 | 2018-11-06 | 中山大学 | 一种基于随机森林算法的网络入侵检测模型 |
CN108764346A (zh) * | 2018-05-30 | 2018-11-06 | 华东理工大学 | 一种基于熵的混合采样集成分类器 |
Non-Patent Citations (1)
Title |
---|
EDOS: Entropy Difference-based Oversampling;Lusi Li, Haibo He, Jie Liy, and Weijun Li;《2018 International Joint Conference on Neural Networks (IJCNN)》;20181015;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110266672A (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110266672B (zh) | 基于信息熵和置信度下采样的网络入侵检测方法 | |
Kang et al. | A weight-incorporated similarity-based clustering ensemble method based on swarm intelligence | |
Isa et al. | Using the self organizing map for clustering of text documents | |
CN107292350A (zh) | 大规模数据的异常检测方法 | |
CN111860638A (zh) | 基于不平衡数据深度信念网络的并行入侵检测方法和系统 | |
Arbin et al. | Comparative analysis between k-means and k-medoids for statistical clustering | |
CN110008983A (zh) | 一种基于分布式模糊支持向量机的自适应模型的网络流量分类方法 | |
CN108898154A (zh) | 一种电力负荷som-fcm分层聚类方法 | |
CN106203478A (zh) | 一种用于智能电表大数据的负荷曲线聚类方法 | |
Yi et al. | An improved initialization center algorithm for K-means clustering | |
CN109886284B (zh) | 基于层次化聚类的欺诈检测方法及系统 | |
Guo et al. | An anomaly detection framework based on autoencoder and nearest neighbor | |
Cai et al. | ARIS: a noise insensitive data pre-processing scheme for data reduction using influence space | |
Huang et al. | Weighting method for feature selection in k-means | |
Wang et al. | An improving majority weighted minority oversampling technique for imbalanced classification problem | |
CN109902754A (zh) | 一种高效的半监督多层次入侵检测方法及系统 | |
CN110177112B (zh) | 基于双重子空间采样和置信偏移的网络入侵检测方法 | |
CN115577357A (zh) | 一种基于堆叠集成技术的Android恶意软件检测方法 | |
An et al. | A k-means improved ctgan oversampling method for data imbalance problem | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN114841241A (zh) | 一种基于聚类和距离加权的不平衡数据分类方法 | |
CN113378900B (zh) | 一种基于聚类的大规模不规则kpi时间序列的异常检测方法 | |
Zhou et al. | Credit card fraud identification based on principal component analysis and improved AdaBoost algorithm | |
CN115797041A (zh) | 基于深度图半监督学习的金融信用评估方法 | |
CN117155701A (zh) | 一种网络流量入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |