CN114844677B - 一种集成式的smote方法 - Google Patents
一种集成式的smote方法 Download PDFInfo
- Publication number
- CN114844677B CN114844677B CN202210346804.1A CN202210346804A CN114844677B CN 114844677 B CN114844677 B CN 114844677B CN 202210346804 A CN202210346804 A CN 202210346804A CN 114844677 B CN114844677 B CN 114844677B
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- synthesized
- density
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 239000002131 composite material Substances 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 11
- 238000012549 training Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种集成式的SMOTE方法,该技术方法包括以下步骤,预训练分类器,对于攻击类型中的每个样本的xi计算的pt值。将该样本加入pt样本集合中。计算pt样本集合中每一个样本xi与K近邻样本距离。计算pt样本集合中样本xi的密度系数。将pt集合中密度系数高于ri安全值minr的样本加入新集合Q;计算需要合成的样本总数;计算集合Q中的样本xi需要合成的新样本数量,记为gi。本发明把这两种不同关注点整合起来,使得在合成新样本的时候能够同时从两个不同的角度去关注攻击类型的样本,能够有效地应对入侵检测的类别不平衡问题。
Description
技术领域
本发明涉及入侵检测领域,尤其涉及在恶意攻击样本与正常流量样本数量差距较大的情况下,深度神经网络模型非常容易将几乎所有的样本识别成正常流量样本。为了解决用于训练的数据集类别不平等的问题,本发明提出了一种集成的SMOTE算法来合成攻击样本。
背景技术
随着网络技术的高速发展,人类社会逐渐高度互联。依托于云技术、大数据和人工智能等技术设计的产品及提供的服务方便着人类的生产和生活,人类可以网络购物、在线办公、云数据的存储等等。当今社会,互联网技术不仅对个人,对于企业乃至国家和世界已经成为不可缺少的一部分。与此同时,网络安全问题也越来越严重,网络安全事件也频频爆发,个人信息的泄露、医疗机构系统的瘫痪、财险公司信息被窃取等重大恶性事件发生频率正在逐年增高。
众多事件表明,网络安全问题迫在眉睫,足以引起人们的重视,设计了防火墙和入侵检测系统进行防御。
目前,入侵检测方法除去传统的方法外,在机器学习技术和深度学习技术中都有在入侵检测领域应用。然而,机器学习的技术在特征提取过程中需要专家来指定,对于高维和海量的数据不具有优势,有着较高的误报率。深度学习可在数据中自动提取特征,深层的非线性网络结构对于特征有着强有力的拟合能力,对复杂的入侵行为预测能力更强,因此逐渐成为近年的研究热点。但是深度学习模型易受到训练数据集的样本数量及样本中类别比例的干扰,同时在训练过程中存在训练时间长、收敛速度慢等问题。本发明的目的在于为实现更好的检测效果,针对数据不平衡的问题采用过采样的方法扩充原始数据集,保证训练样本的类别比例适合。同时优化深度学习模型中的损失函数,使其主要关注那些少且难以区分的样本,加快模型的收敛。通过对非平衡数据的扩充,深度学习模型的优化使得在入侵检测系统中性能的提升,在网络安全技术发展的方向具有重要意义。
发明内容
为解决入侵检测数据集中正常流量样本与攻击样本数量差别过大的问题,本发明从数据方面着手,采用合成新的攻击样本方式增加其数量,最终使得两种不同的类别在数量上能够趋于平衡。
为了合成新样本,前人提出过不少的方法。例如,ADASYN算法引入了自适应的思想,根据一个少数类样本的K近邻中多数类样本的多少来决定合成样本的数量。受这一思想启发,本发明提出了一种集成的SMOTE算法来合成攻击样本。它主要能够从两个角度去合成新样本。一是从攻击类型样本的pt值的角度合成新样本,二是基于攻击样本的所处空间的密度值去合成新样本。在普通的交叉熵损失函数中,会得到一个损失值p。pt的计算公式如下:
对于一个具体的样本来说,pt值越大则表示一个样本越是难分。那么在合成新样本的时候要关注到那些难分的样本。同样地如果一个攻击样本所处的空间位置缺少其他攻击类型的样本,那么分类模型也很难学习到它的特征。为了能够学习到这些样本的特征,在合成新的攻击样本时应当着重以这些样本为核心去合成新样本。
本发明采用的技术方案为一种基于SMOTE的入侵检测数据集样本合成方法,
1)预训练分类器,对于攻击类型中的每个样本的xi计算的pt值,记为pti。
2)对于攻击类型中pti高于pt安全值minp的样本,将该样本加入pt样本集合中。
3)对于pt样本集合中每一个样本xi计算在pt样本集合中的K个最近邻样本。
4)计算pt样本集合中每一个样本xi与K近邻样本距离,记为dij。
5)对于pt样本集合中每一个样本xi,计算其与K近邻样本距离之和为di,公式如下:
6)计算pt样本集合中样本xi的密度系数,记为ri,公式为:
当ri越大时,该样本所处的位置攻击类样本的密度越低;当ri越大时,该位置的密度越高。其中ms表示当前所处pt集合样本的数量。
7)将pt集合中密度系数高于ri安全值minr的样本加入新集合Q
8)对于集合Q中的每一个样本xi,归一化其pt值与密度系数ri。公式如下:
其中,rmin,rmax分别是集合Q中样本的密度系数最小值与最大值。pt_max与
pt_min分别表示集合Q中样本的pt的最小值与最大值。
9)对于集合Q中的每个xi,根据两个参数r'i和p'ti计算合成系数,记为rpi,公式如下:
公式里的α是[0,1]区间的有理数,它作为一个超参数用来调整基于密度和基于pt的关注程度。mQ表示的是集合Q的样本数量。
10)计算需要合成的样本总数,公式如下:
G=(ml-ms)×β
其中ml为原数据集中多数类样本数量。β是[0,1]区间的有理数。在合成新样本的过程中,β作为超参数来调整合成样本的数量。
11)计算集合Q中的样本xi需要合成的新样本数量,记为gi。公式如下:
gi=g×rpi
对于集合Q中每一个样本xi,根据gi值来合成新的少数类样本。
与现有技术相比较,本发明将把这两种不同关注点整合起来,使得在合成新样本的时候能够同时从两个不同的角度去关注攻击类型的样本,这能够更加有效地应对入侵检测的类别不平衡问题。在设计集成式的SMOTE算法时,设置超参数α来控制两种不同的角度在合成新样本中的权重占比,使得合成的新样本具有一定的偏向性。
附图说明
图1为本发明所提供的整体流程示意图。
图2为采用本方法的分类模型示意图。
具体实施方式
本发明将把这两种不同关注点整合起来,使得在合成新样本的时候能够同时从两个不同的角度去关注攻击类型的样本,这能够更加有效地应对入侵检测的类别不平衡问题。在设计集成式的SMOTE算法时,设置超参数α来控制两种不同的角度在合成新样本中的权重占比,使得合成的新样本具有一定的偏向性。
以下是集成式SMOTE算法详细描述:
预训练分类器,对于攻击类型中的每个样本的xi计算的pt值,记为pti。
对于攻击类型中pti高于pt安全值minp的样本,将该样本加入pt样本集合中。
对于pt样本集合中每一个样本xi计算在pt样本集合中的K个最近邻样本。
计算pt样本集合中每一个样本xi与K近邻样本距离,记为dij。
对于pt样本集合中每一个样本xi,计算其与K近邻样本距离之和为di,公式如下:
计算pt样本集合中样本xi的密度系数,记为ri,公式为:
当ri越大时,该样本所处的位置攻击类样本的密度越低;当ri越大时,该位置的密度越高。其中ms表示当前所处pt集合样本的数量。将pt集合中密度系数高于ri安全值minr的样本加入新集合Q;对于集合Q中的每一个样本xi,归一化其pt值与密度系数ri。公式如下:
其中,rmin,rmax分别是集合Q中样本的密度系数最小值与最大值。pt_max与pt_min分别表示集合Q中样本的pt的最小值与最大值。对于集合Q中的每个xi,根据两个参数r'i和p'ti计算合成系数,记为rpi,公式如下:
公式里的α是[0,1]区间的有理数,它作为一个超参数用来调整基于密度和基于pt的关注程度。mQ表示的是集合Q的样本数量。
计算需要合成的样本总数,公式如下:
G=(ml-ms)×β
其中ml为原数据集中多数类样本数量。β是[0,1]区间的有理数。在合成新样本的过程中,β作为超参数来调整合成样本的数量。
计算集合Q中的样本xi需要合成的新样本数量,记为gi。公式如下:
gi=g×rpi
对于集合Q中每一个样本xi,根据gi值来合成新的少数类样本。
在样本合成算法方面,采用以下较为简单的方式:
1)对于集合Q的一个样本xi,选取K近邻中的任意两个个样本xj,xk;利用这两个样本合成一个临时样本xtem,公式如下
xtem=xi+rand(0,1)*(xj-xk)
其中rand(0,1)并不只是在指区间(0,1)的一个随机数,而是一个随机向量,其维度与与数据集中样本的特征维度一致,如[0.1,0.05,0.2,0.3……]。这样不再是两个样本的简单特征的合成。
2)使用xtem与xi合成新样本xnew,公式如下:
xnew=xtem+e(rand(0,1)-1)*5*(xtem-xi)
采用新的成全方式,避免新生成的样本呈现现出在xtem与xi均匀分布的现象,而是具有向xi的倾向性,并且xnew也不是xtem与xi这个两个样本的简单特征的合成的向量组合。这样的方法使得合成的xnew更具真实性,更加具备攻击类型样本的特征。示意图如图2所示,对于攻击样本来说,在第二步中去除了高于pt安全值minp的样本,在第四步中去除了密度系数高于ri安全值minr的样本,最终得到了集合Q。这样用来合成新样本的集合Q都从样本的pt值和密度两个角度排除了一部分噪音样本,可以在一定程度上减少噪音的合成,有利于分类模型的训练。
Claims (1)
1.一种集成式的SMOTE方法,其特征在于:包括以下步骤:
1)预训练分类器,对于攻击类型中的每个样本的xi计算的pt值,记为pti;
2)对于攻击类型中pti高于pt安全值minp的样本,将该样本加入pt样本集合中;
3)对于pt样本集合中每一个样本xi计算在pt样本集合中的K个最近邻样本;
4)计算pt样本集合中每一个样本xi与K个最近邻样本距离,记为dij;
5)对于pt样本集合中每一个样本xi,计算其与K个最近邻样本距离之和为di,公式如下:
6)计算pt样本集合中样本xi的密度系数,记为ri,公式为:
当ri越大时,该样本所处的位置攻击类样本的密度越低;当ri越大时,该位置的密度越高;其中ms表示当前所处pt集合样本的数量;
7)将pt集合中密度系数高于ri安全值minr的样本加入新集合Q
8)对于集合Q中的每一个样本xi,归一化其pt值与密度系数ri;公式如下:
其中,rmin,rmax分别是集合Q中样本的密度系数最小值与最大值;pt_max与pt_min分别表示集合Q中样本的pt的最小值与最大值;
9)对于集合Q中的每个xi,根据两个参数r'i和p'ti计算合成系数,记为rpi,公式如下:
公式里的α是[0,1]区间的有理数,它作为一个超参数用来调整基于密度和基于pt的关注程度;mQ表示的是集合Q的样本数量;
10)计算需要合成的样本总数,公式如下:
G=(ml-ms)×β
其中ml为原数据集中多数类样本数量;β是[0,1]区间的有理数;在合成新样本的过程中,β作为超参数来调整合成样本的数量;
11)计算集合Q中的样本xi需要合成的新样本数量,记为gi;公式如下:
gi=g×rpi
对于集合Q中每一个样本xi,根据gi值来合成新的少数类样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210346804.1A CN114844677B (zh) | 2022-03-31 | 2022-03-31 | 一种集成式的smote方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210346804.1A CN114844677B (zh) | 2022-03-31 | 2022-03-31 | 一种集成式的smote方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114844677A CN114844677A (zh) | 2022-08-02 |
CN114844677B true CN114844677B (zh) | 2024-05-28 |
Family
ID=82563247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210346804.1A Active CN114844677B (zh) | 2022-03-31 | 2022-03-31 | 一种集成式的smote方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114844677B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015154484A1 (zh) * | 2014-09-11 | 2015-10-15 | 中兴通讯股份有限公司 | 流量数据分类方法及装置 |
CN108768946A (zh) * | 2018-04-27 | 2018-11-06 | 中山大学 | 一种基于随机森林算法的网络入侵检测模型 |
CN110324178A (zh) * | 2019-06-05 | 2019-10-11 | 华东理工大学 | 一种基于多经验核学习的网络入侵检测方法 |
CN111343165A (zh) * | 2020-02-16 | 2020-06-26 | 重庆邮电大学 | 基于birch和smote的网络入侵检测方法及系统 |
WO2021022571A1 (zh) * | 2019-08-05 | 2021-02-11 | 南京智谷人工智能研究院有限公司 | 一种基于交互建模的多标记距离度量学习方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514297B2 (en) * | 2019-05-29 | 2022-11-29 | Anomalee Inc. | Post-training detection and identification of human-imperceptible backdoor-poisoning attacks |
-
2022
- 2022-03-31 CN CN202210346804.1A patent/CN114844677B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015154484A1 (zh) * | 2014-09-11 | 2015-10-15 | 中兴通讯股份有限公司 | 流量数据分类方法及装置 |
CN108768946A (zh) * | 2018-04-27 | 2018-11-06 | 中山大学 | 一种基于随机森林算法的网络入侵检测模型 |
CN110324178A (zh) * | 2019-06-05 | 2019-10-11 | 华东理工大学 | 一种基于多经验核学习的网络入侵检测方法 |
WO2021022571A1 (zh) * | 2019-08-05 | 2021-02-11 | 南京智谷人工智能研究院有限公司 | 一种基于交互建模的多标记距离度量学习方法 |
CN111343165A (zh) * | 2020-02-16 | 2020-06-26 | 重庆邮电大学 | 基于birch和smote的网络入侵检测方法及系统 |
Non-Patent Citations (2)
Title |
---|
一种基于密度的SMOTE方法研究;王俊红;段冰倩;;智能系统学报;20171231(06);全文 * |
基于密度均衡的网络入侵检测;张燕;杜红乐;李楠;;微型电脑应用(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114844677A (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113554089B (zh) | 一种图像分类对抗样本防御方法、系统及数据处理终端 | |
CN110853668B (zh) | 基于多种特征融合的语音篡改检测方法 | |
CN113242259B (zh) | 网络异常流量检测方法及装置 | |
CN113094707B (zh) | 一种基于异质图网络的横向移动攻击检测方法及系统 | |
JP4484643B2 (ja) | 時系列データ異常判定用プログラム及び時系列データ異常判別方法 | |
CN114091661B (zh) | 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法 | |
CN112087442A (zh) | 基于注意力机制的时序相关网络入侵检测方法 | |
CN113488073A (zh) | 一种基于多特征融合的伪造语音检测方法及装置 | |
Elisa et al. | Dendritic cell algorithm enhancement using fuzzy inference system for network intrusion detection | |
CN113901448A (zh) | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 | |
CN111613240A (zh) | 一种基于注意力机制和Bi-LSTM的伪装语音检测方法 | |
Liang et al. | Image resampling detection based on convolutional neural network | |
CN114844677B (zh) | 一种集成式的smote方法 | |
CN109660522A (zh) | 面向综合电子系统的基于深层自编码器的混合入侵检测方法 | |
Maciejewski et al. | Neural networks for vehicle recognition | |
CN112151067B (zh) | 一种基于卷积神经网络的数字音频篡改被动检测方法 | |
Leng et al. | A hybrid learning algorithm with a similarity-based pruning strategy for self-adaptive neuro-fuzzy systems | |
Spathoulas et al. | Using a fuzzy inference system to reduce false positives in intrusion detection | |
He et al. | A weighted partial domain adaptation for acoustic scene classification and its application in fiber optic security system | |
Gomathy et al. | Network intrusion detection using genetic algorithm and neural network | |
CN113851149A (zh) | 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法 | |
Zhao et al. | Evaluation of GAN Architectures for Adversarial Robustness of Convolution Classifier. | |
Farrokhrooz et al. | A new method for spread value estimation in multi-spread PNN and its application in ship noise classification | |
Ramya et al. | Intrusion Detection in Healthcare using Sand-Cat Optimization based Long-Short Term Memory | |
CN113869182B (zh) | 一种视频异常检测网络及其训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |