CN112990286A - 一种数据不平衡场景下的恶意流量检测方法 - Google Patents

一种数据不平衡场景下的恶意流量检测方法 Download PDF

Info

Publication number
CN112990286A
CN112990286A CN202110249229.9A CN202110249229A CN112990286A CN 112990286 A CN112990286 A CN 112990286A CN 202110249229 A CN202110249229 A CN 202110249229A CN 112990286 A CN112990286 A CN 112990286A
Authority
CN
China
Prior art keywords
sample
data
training
class
mean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110249229.9A
Other languages
English (en)
Inventor
戚岱杰
窦凤虎
郑超
王媛娣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Jizhi Hainan Information Technology Co Ltd
Original Assignee
Zhongdian Jizhi Hainan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jizhi Hainan Information Technology Co Ltd filed Critical Zhongdian Jizhi Hainan Information Technology Co Ltd
Priority to CN202110249229.9A priority Critical patent/CN112990286A/zh
Publication of CN112990286A publication Critical patent/CN112990286A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种数据不平衡场景下的恶意流量检测方法,包括以下操作步骤:S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本。涉及网络信息安全技术领域。该数据不平衡场景下的恶意流量检测方法,通过使用四元组来标识每个网络流,提取每条流的统计特征并做标准化处理,将端口信息、统计特征联合作为特征向量,构成训练集和测试集,在算法层面,通过将k‑means聚类算法与SMOTE过采样技术相结合,其设法通过仅在安全区域进行过采样来避免产生噪声,重点放在类别之间的不平衡和类别内部的不平衡,通过增加少数样本稀疏区域的少数类样本来对抗少数类样本分散的问题,扩充了少数类的样本量,为分类模型提供良好的训练数据。

Description

一种数据不平衡场景下的恶意流量检测方法
技术领域
本发明涉及网络信息安全技术领域,具体为一种数据不平衡场景下的恶意流量检测方法。
背景技术
通常情况下,从现实场景中获取的数据大多都是不平衡的,少数类的样本数量往往远少于多数类样本,然而属于少数类的样本却往往具有更大的意义,例如欺诈检测、故障诊断以及网络入侵检测等领域,在机器学习领域类别不平衡问题一直受到研究人员们的关注,因此需要对该类恶意流量进行检测,针对该问题发展出了多种解决方法,主要可以分为四类:数据抽样、代价敏感学习、决策边界移动和集成学习方法,但是当传统的学习算法应用于不平衡数据集时,少数类很容易发生错误分类。
目前,基于规则的恶意流量检测方法由于其在检测效果、检测效率以及人工干预上的局限性,很难适用于现如今海量网络数据的情况,随着人工智能技术的发展,越来越多的人使用机器学习或深度学习方法进行恶意流量检测,目前在恶意流量检测领域所用的训练数据可以分为正常流量样本和恶意流量样本,然而在实际网络环境中,恶意流量占比很小,因此存在着类别不平衡的问题,使用一般的学习算法进行分类时,恶意流量的召回率较低,对少数类的区分能力不足,在正负样本不平衡情况下,并不能保证恶意流量分类的准确性。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种数据不平衡场景下的恶意流量检测方法,解决了现有的恶意流量检测方法中,使用一般的学习算法进行分类时,恶意流量的召回率较低,对少数类的区分能力不足,在正负样本不平衡情况下,并不能保证恶意流量分类的准确性的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种数据不平衡场景下的恶意流量检测方法,包括以下操作步骤:
S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;
S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;
S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;
S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;
S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器;
为了改善经典的ELM算法在不平衡数据学习中的不足,基于G-mean定义了新的损失函数,提出了新的ELM算法,其中G-mean是广泛应用于不平衡数据学习中的评价度量指标,其定义如下:
Figure BDA0002965306100000021
假设给定训练集Φ={(xi,ti),ti∈RM,i=1,2,…,N} (2);
其中Φ中有M类,xi是一条流的特征向量,ti∈RM是其对应的标签,式(1)中vj是在第j类的元素中正确分类的元素的数量,Vj是第j类样本的总量,训练集Φ也可以写成
Figure BDA0002965306100000031
其中Φj代表第j类,因此每类的训练误差定义为:
Figure BDA0002965306100000032
其中ξ(x)表示第j类中样本x的分类误差,ξ(x)定义为ξ(x)=h(x)β-t(x),其中t(x)是样本x对应的标签,h(x)是隐藏层的输出,综上,可将传统的ELM的损失函数写作:
Figure BDA0002965306100000033
从式(4)可以看出,训练误差越小,分类精度越好,考虑到使用G-mean作为评价指标,可以重新设计损失函数,使其更适用于样本不平衡情况,根据Ξj的定义可知:
Figure BDA0002965306100000034
进而有
Figure BDA0002965306100000035
根据式(1)可以得出:
Figure BDA0002965306100000036
由式(5)可以得出,每个类别的训练误差乘积越小,G-mean越大,因此最大化G-mean等价于最小化每个类别训练误差乘积,即
Figure BDA0002965306100000037
Figure BDA0002965306100000041
因此可以将基于G-mean的ELM的代价函数定义如下:
Figure BDA0002965306100000042
将式(3)带入可得:
Figure BDA0002965306100000043
最后将新的优化目标定义如下:
Figure BDA0002965306100000044
为了得到LGELM的最小值,需要通过梯度下降等迭代优化算法对式(8)进行求解,最后通过训练数据对改进的ELM模型进行训练,得到训练好的分类模型后对测试集进行测试,并使用G-mean作为评价分类性能的值;
S6、对测试集进行预测:输入测试集,使用训练好的ELM分类器对所有测试样本进行分类,并使用G-mean作为评价指标。
进一步地,所述S1中对于数据集,根据四元组将其划分为不同的流,并提取每条流的统计特征,与端口信息合并作为总特征,对于分类型特征需要使用one-hot编码将其转换为多维向量,对于连续性特征需要对其进行标准化处理,最后得到数据集Φ={(xi,ti),ti∈RM,i=1,2,…,N},其中xi是每条流的特征向量,ti是xi对应的标签。
进一步地,所述S1中采用标准的公开数据集,如KDD99、ISCX_VPN2016等,这些数据集被广泛用作各类算法的评估,并经过了众多研究人员的检验且标注完善。
进一步地,所述S2中聚类是为了根据恶意流量的特征向量的数据分布情况将其分为k个类簇,考察各个类簇内样本的紧凑程度和不同类簇间的分离程度。
进一步地,所述S4中使用使用SMOTE进行过采样时,需要注意的是,SMOTE原本定义的插值公式不适用于分类型特征,对于分类型特征采取复制的策略。
进一步地,所述S5中为了最小化优化过的损失函数,可以采用梯度下降的方式进行模型的训练,其中根据式(8)可得LGELM相对于β的导数为:
Figure BDA0002965306100000051
(三)有益效果
本发明具有以下有益效果:
(1)、该数据不平衡场景下的恶意流量检测方法,通过使用四元组来标识每个网络流,提取每条流的统计特征并做标准化处理,将端口信息、统计特征联合作为特征向量,构成训练集和测试集,在数据层面,根据恶意流量具有多个类别的特性,使用IR值来衡量数据的不平衡程度,针对少数类,通过应用KMeansSMOTE算法,对少数类进行重采样,进而增加少数类的样本数,在算法层面,通过将k-means聚类算法与SMOTE过采样技术相结合,其设法通过仅在安全区域进行过采样来避免产生噪声,重点放在类别之间的不平衡和类别内部的不平衡,通过增加少数样本稀疏区域的少数类样本来对抗少数类样本分散的问题,扩充了少数类的样本量,为分类模型提供良好的训练数据;
(2)、该数据不平衡场景下的恶意流量检测方法,通过在类别不平衡情况下同时考虑数据层面和算法层面,旨在确保恶意流量检测准确率的同时,减少错分情况,可以同时适用于二分类或是多分类问题,很好的改善了一般的学习算法进行分类时,恶意流量的召回率较低,对少数类的区分能力不足的问题,能够在正负样本不平衡情况下,保证恶意流量分类的准确性。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
图1为本发明提供的一种数据不平衡场景下的恶意流量检测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。
请参阅图1,本发明实施例提供一种技术方案:一种数据不平衡场景下的恶意流量检测方法,包括以下操作步骤:
S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;
S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;
S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;
S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;
S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器;
为了改善经典的ELM算法在不平衡数据学习中的不足,基于G-mean定义了新的损失函数,提出了新的ELM算法,其中G-mean是广泛应用于不平衡数据学习中的评价度量指标,其定义如下:
Figure BDA0002965306100000071
假设给定训练集Φ={(xi,ti),ti∈RM,i=1,2,…,N} (2);
其中Φ中有M类,xi是一条流的特征向量,ti∈RM是其对应的标签,式(1)中vj是在第j类的元素中正确分类的元素的数量,Vj是第j类样本的总量,训练集Φ也可以写成
Figure BDA0002965306100000072
其中Φj代表第j类,因此每类的训练误差定义为:
Figure BDA0002965306100000073
其中ξ(x)表示第j类中样本x的分类误差,ξ(x)定义为ξ(x)=h(x)β-t(x),其中t(x)是样本x对应的标签,h(x)是隐藏层的输出,综上,可将传统的ELM的损失函数写作:
Figure BDA0002965306100000081
从式(4)可以看出,训练误差越小,分类精度越好,考虑到使用G-mean作为评价指标,可以重新设计损失函数,使其更适用于样本不平衡情况,根据Ξj的定义可知:
Figure BDA0002965306100000082
进而有
Figure BDA0002965306100000083
根据式(1)可以得出:
Figure BDA0002965306100000084
由式(5)可以得出,每个类别的训练误差乘积越小,G-mean越大,因此最大化G-mean等价于最小化每个类别训练误差乘积,即
Figure BDA0002965306100000085
Figure BDA0002965306100000086
因此可以将基于G-mean的ELM的代价函数定义如下:
Figure BDA0002965306100000087
将式(3)带入可得:
Figure BDA0002965306100000088
最后将新的优化目标定义如下:
Figure BDA0002965306100000091
为了得到LGELM的最小值,需要通过梯度下降等迭代优化算法对式(8)进行求解,最后通过训练数据对改进的ELM模型进行训练,得到训练好的分类模型后对测试集进行测试,并使用G-mean作为评价分类性能的值;
S6、对测试集进行预测:输入测试集,使用训练好的ELM分类器对所有测试样本进行分类,并使用G-mean作为评价指标。
所述S1中对于数据集,根据四元组将其划分为不同的流,并提取每条流的统计特征,与端口信息合并作为总特征,对于分类型特征需要使用one-hot编码将其转换为多维向量,对于连续性特征需要对其进行标准化处理,最后得到数据集Φ={(xi,ti),ti∈RM,i=1,2,…,N},其中xi是每条流的特征向量,ti是xi对应的标签。
所述S1中采用标准的公开数据集,如KDD99、ISCX_VPN2016等,这些数据集被广泛用作各类算法的评估,并经过了众多研究人员的检验且标注完善。
所述S2中聚类是为了根据恶意流量的特征向量的数据分布情况将其分为k个类簇,考察各个类簇内样本的紧凑程度和不同类簇间的分离程度。
所述S4中使用使用SMOTE进行过采样时,需要注意的是,SMOTE原本定义的插值公式不适用于分类型特征,对于分类型特征采取复制的策略。
所述S5中为了最小化优化过的损失函数,可以采用梯度下降的方式进行模型的训练,其中根据式(8)可得LGELM相对于β的导数为:
Figure BDA0002965306100000092
工作原理:
S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;
S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;
S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;
S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;
S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器,最后通过训练数据对改进的ELM模型进行训练,得到训练好的分类模型后对测试集进行测试,并使用G-mean作为评价分类性能的值;
S6、对测试集进行预测:输入测试集,使用训练好的ELM分类器对所有测试样本进行分类,并使用G-mean作为评价指标。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (6)

1.一种数据不平衡场景下的恶意流量检测方法,其特征在于,包括以下操作步骤:
S1、获取训练集和测试集:通过手动收集各个恶意软件样本的流量作为负样本,并在不运行恶意软件的相同环境下收集正常流量作为正样本,或是直接采用标准的公开数据集,将对正常流量和恶意流量构建特征向量,划分出测试集和训练集;
S2、对恶意流量进行k-means聚类:将S1中收集的恶意流量作为输入样本,然后通过k-means聚类将输入样本分为k组;
S3、分配要生成的样本数量:根据预先设置的过采样目标,为各个类簇分配要生成的样本数,然后为少数类样本占比较高的类簇分配较少的样本数,将更多样本分配给少数样本稀疏分布的类簇;
S4、使用SMOTE进行过采样:使用SMOTE进行对S3中分配好的样本进行过采样,根据指定的用于构建合成样本的簇内最近邻居数进行插值,进而生成新样本;
S5、训练基于G-mean改进过的ELM分类器:使用新构建的数据集训练G-mean改进过的ELM分类器;
为了改善经典的ELM算法在不平衡数据学习中的不足,基于G-mean定义了新的损失函数,提出了新的ELM算法,其中G-mean是广泛应用于不平衡数据学习中的评价度量指标,其定义如下:
Figure FDA0002965306090000011
假设给定训练集Φ={(xi,ti),ti∈ZM,i=1,2,…,N} (2);
其中Φ中有M类,xi是一条流的特征向量,ti∈RM是其对应的标签,式(1)中vj是在第j类的元素中正确分类的元素的数量,Vj是第j类样本的总量,训练集Φ也可以写成
Figure FDA0002965306090000021
其中Φj代表第j类,因此每类的训练误差定义为:
Figure FDA0002965306090000022
其中ξ(x)表示第j类中样本x的分类误差,ξ(x)定义为ξ(x)=h(x)β-t(x),其中t(x)是样本x对应的标签,h(x)是隐藏层的输出,综上,可将传统的ELM的损失函数写作:
Figure FDA0002965306090000023
从式(4)可以看出,训练误差越小,分类精度越好,考虑到使用G-mean作为评价指标,可以重新设计损失函数,使其更适用于样本不平衡情况,根据Ξj的定义可知:
Figure FDA0002965306090000024
进而有,
Figure FDA0002965306090000025
根据式(1)可以得出:
Figure FDA0002965306090000026
由式(5)可以得出,每个类别的训练误差乘积越小,G-mean越大,因此最大化Gmean等价于最小化每个类别训练误差乘积,即
Figure FDA0002965306090000027
Figure FDA0002965306090000028
因此可以将基于G-mean的ELM的代价函数定义如下:
Minimize:
Figure FDA0002965306090000031
将式(3)带入可得:
Minimize:
Figure FDA0002965306090000032
最后将新的优化目标定义如下:
Figure FDA0002965306090000033
为了得到LGELM的最小值,需要通过梯度下降等迭代优化算法对式(8)进行求解,最后通过训练数据对改进的ELM模型进行训练,得到训练好的分类模型后对测试集进行测试,并使用G-mean作为评价分类性能的值;
S6、对测试集进行预测:输入测试集,使用训练好的ELM分类器对所有测试样本进行分类,并使用G-mean作为评价指标。
2.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S1中对于数据集,根据四元组将其划分为不同的流,并提取每条流的统计特征,与端口信息合并作为总特征,对于分类型特征需要使用one-hot编码将其转换为多维向量,对于连续性特征需要对其进行标准化处理,最后得到数据集Φ={(xi,ti),ti∈RM,i=1,2,…,N},其中xi是每条流的特征向量,ti是xi对应的标签。
3.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S1中采用标准的公开数据集,如KDD99、ISCX_VPN2016等,这些数据集被广泛用作各类算法的评估,并经过了众多研究人员的检验且标注完善。
4.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S2中聚类是为了根据恶意流量的特征向量的数据分布情况将其分为k个类簇,考察各个类簇内样本的紧凑程度和不同类簇间的分离程度。
5.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S4中使用使用SMOTE进行过采样时,需要注意的是,SMOTE原本定义的插值公式不适用于分类型特征,对于分类型特征采取复制的策略。
6.根据权利要求1所述的一种数据不平衡场景下的恶意流量检测方法,其特征在于:所述S5中为了最小化优化过的损失函数,可以采用梯度下降的方式进行模型的训练,其中根据式(8)可得LGELM相对于β的导数为:
Figure FDA0002965306090000041
CN202110249229.9A 2021-03-08 2021-03-08 一种数据不平衡场景下的恶意流量检测方法 Pending CN112990286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110249229.9A CN112990286A (zh) 2021-03-08 2021-03-08 一种数据不平衡场景下的恶意流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110249229.9A CN112990286A (zh) 2021-03-08 2021-03-08 一种数据不平衡场景下的恶意流量检测方法

Publications (1)

Publication Number Publication Date
CN112990286A true CN112990286A (zh) 2021-06-18

Family

ID=76335518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110249229.9A Pending CN112990286A (zh) 2021-03-08 2021-03-08 一种数据不平衡场景下的恶意流量检测方法

Country Status (1)

Country Link
CN (1) CN112990286A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434401A (zh) * 2021-06-24 2021-09-24 杭州电子科技大学 基于样本分布特征和spy算法的软件缺陷预测方法
CN113657428A (zh) * 2021-06-30 2021-11-16 北京邮电大学 网络流量数据的抽取方法及装置
CN114006745A (zh) * 2021-10-28 2022-02-01 西安热工研究院有限公司 一种基于改进自编码器的网络入侵流量分类方法
CN114422268A (zh) * 2022-03-28 2022-04-29 科大天工智能装备技术(天津)有限公司 一种基于注意力机制的电网恶意流量检测方法及系统
CN115801463A (zh) * 2023-02-06 2023-03-14 山东能源数智云科技有限公司 工业互联网平台入侵检测的方法、装置和电子设备
CN117527446A (zh) * 2024-01-03 2024-02-06 上海人工智能网络系统工程技术研究中心有限公司 一种网络异常流量精细化检测方法
CN117593783A (zh) * 2023-11-20 2024-02-23 广州视景医疗软件有限公司 基于自适应smote的视觉训练方案生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572382A (zh) * 2019-09-02 2019-12-13 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法
CN111967520A (zh) * 2020-08-18 2020-11-20 黑龙江大学 一种基于改进的smote算法的不平衡数据处理方法
US20200372383A1 (en) * 2019-05-24 2020-11-26 Canon Information And Imaging Solutions, Inc. Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法
CN112261007A (zh) * 2020-09-27 2021-01-22 北京六方云信息技术有限公司 基于机器学习的https恶意加密流量检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372383A1 (en) * 2019-05-24 2020-11-26 Canon Information And Imaging Solutions, Inc. Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset
CN110572382A (zh) * 2019-09-02 2019-12-13 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法
CN111967520A (zh) * 2020-08-18 2020-11-20 黑龙江大学 一种基于改进的smote算法的不平衡数据处理方法
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法
CN112261007A (zh) * 2020-09-27 2021-01-22 北京六方云信息技术有限公司 基于机器学习的https恶意加密流量检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JONGHYOK RI 等: "G-mean based extreme learning machine for imbalance learning", 《DIGITAL SIGNAL PROCESSING》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434401A (zh) * 2021-06-24 2021-09-24 杭州电子科技大学 基于样本分布特征和spy算法的软件缺陷预测方法
CN113434401B (zh) * 2021-06-24 2022-10-28 杭州电子科技大学 基于样本分布特征和spy算法的软件缺陷预测方法
CN113657428A (zh) * 2021-06-30 2021-11-16 北京邮电大学 网络流量数据的抽取方法及装置
CN114006745A (zh) * 2021-10-28 2022-02-01 西安热工研究院有限公司 一种基于改进自编码器的网络入侵流量分类方法
CN114006745B (zh) * 2021-10-28 2024-01-26 西安热工研究院有限公司 一种基于改进自编码器的网络入侵流量分类方法
CN114422268A (zh) * 2022-03-28 2022-04-29 科大天工智能装备技术(天津)有限公司 一种基于注意力机制的电网恶意流量检测方法及系统
CN115801463A (zh) * 2023-02-06 2023-03-14 山东能源数智云科技有限公司 工业互联网平台入侵检测的方法、装置和电子设备
CN115801463B (zh) * 2023-02-06 2023-04-18 山东能源数智云科技有限公司 工业互联网平台入侵检测的方法、装置和电子设备
CN117593783A (zh) * 2023-11-20 2024-02-23 广州视景医疗软件有限公司 基于自适应smote的视觉训练方案生成方法及装置
CN117593783B (zh) * 2023-11-20 2024-04-05 广州视景医疗软件有限公司 基于自适应smote的视觉训练方案生成方法及装置
CN117527446A (zh) * 2024-01-03 2024-02-06 上海人工智能网络系统工程技术研究中心有限公司 一种网络异常流量精细化检测方法
CN117527446B (zh) * 2024-01-03 2024-03-12 上海人工智能网络系统工程技术研究中心有限公司 一种网络异常流量精细化检测方法

Similar Documents

Publication Publication Date Title
CN112990286A (zh) 一种数据不平衡场景下的恶意流量检测方法
CN110213222B (zh) 基于机器学习的网络入侵检测方法
CN110287439A (zh) 一种基于lstm的网络行为异常检测方法
CN104601565B (zh) 一种智能优化规则的网络入侵检测分类方法
CN105389480B (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
Mishra et al. Microscopic image classification using DCT for the detection of acute lymphoblastic leukemia (ALL)
CN109993236A (zh) 基于one-shot Siamese卷积神经网络的少样本满文匹配方法
CN114492768B (zh) 一种基于小样本学习的孪生胶囊网络入侵检测方法
CN113489685B (zh) 一种基于核主成分分析的二次特征提取及恶意攻击识别方法
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN106326915B (zh) 一种基于改进核Fisher的化工过程故障诊断方法
CN111460441A (zh) 一种基于批归一化卷积神经网络的网络入侵检测方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN112860183B (zh) 基于高阶矩匹配的多源蒸馏-迁移机械故障智能诊断方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN109257383A (zh) 一种bgp异常检测方法及系统
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN115165366A (zh) 一种旋转机械变工况故障诊断方法及系统
CN106570514A (zh) 一种基于词袋模型和支持向量机的汽车轮毂分类方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN117349786A (zh) 基于数据均衡的证据融合变压器故障诊断方法
CN111292182A (zh) 一种信贷欺诈检测方法及系统
CN115880472A (zh) 一种电力红外图像数据智能诊断分析系统
CN106530199B (zh) 基于窗口式假设检验的多媒体综合隐写分析方法
CN115700558A (zh) 一种基于时空特征解析的异常流量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210618