CN113657428B - 网络流量数据的抽取方法及装置 - Google Patents

网络流量数据的抽取方法及装置 Download PDF

Info

Publication number
CN113657428B
CN113657428B CN202110734331.8A CN202110734331A CN113657428B CN 113657428 B CN113657428 B CN 113657428B CN 202110734331 A CN202110734331 A CN 202110734331A CN 113657428 B CN113657428 B CN 113657428B
Authority
CN
China
Prior art keywords
sample
class
information
determining
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110734331.8A
Other languages
English (en)
Other versions
CN113657428A (zh
Inventor
杨杨
高志鹏
郭义豪
赵斌男
郭少勇
王臻
赵龙军
李恒
陆继钊
孟慧平
董刚松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Xiongan Group Digital Urban Technology Co ltd
Beijing University of Posts and Telecommunications
Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Original Assignee
China Xiongan Group Digital Urban Technology Co ltd
Beijing University of Posts and Telecommunications
Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Xiongan Group Digital Urban Technology Co ltd, Beijing University of Posts and Telecommunications, Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd filed Critical China Xiongan Group Digital Urban Technology Co ltd
Priority to CN202110734331.8A priority Critical patent/CN113657428B/zh
Publication of CN113657428A publication Critical patent/CN113657428A/zh
Application granted granted Critical
Publication of CN113657428B publication Critical patent/CN113657428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种网络流量数据的抽取方法及装置,方法包括:根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;根据所述类密度信息,确定样本信息量和类信息量;根据所述样本信息量和所述类信息量,确定抽取的代表样本集。所述装置用于执行上述方法。本发明通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量,依照样本信息量和类信息量来抽取用于合成的代表样本,解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。

Description

网络流量数据的抽取方法及装置
技术领域
本发明涉及数字信息处理技术领域,尤其涉及一种网络流量数据的抽取方法及装置。
背景技术
随着互联网规模日益扩大,互联网的架构的日益复杂,网络安全攻击越来越复杂和隐秘,需要分析的特征维度也在大规模增长。网络监控成为网络管理中一个非常重要和基础的环节。网络管理员根据网络流量数据,对网络及其主要成分的性能进行分析,及时获得网络运行态势及异常情况,为网络异常处理提供重要的信息支撑,对维持网络正常运行和保障网络安全有着重要意义。目前基于分类的网络流量异常检测技术是异常检测的重点研究领域之一,研究者大多采用支持向量机、决策树、人工神经网络等技术对网络流量数据进行训练,构建学习模型,从而识别出由于攻击行为导致的偏离正常表现的异常流量数据。
在网络流量异常检测中,通常会遇到需要识别多种类别网络流量数据的情况,例如识别正常网络行为、拒绝式服务攻击、端口攻击等,即需处理多分类的网络流量数据集。但是,由于网络本身特性,网络流量数据存在天然的不平衡的问题,这会导致训练过程向多数类过拟合,影响模型的准确率。针对此问题,可以从数据的角度出发,采用技术手段对少数类数据进行增强,从而让数据集中不同类别的数据信息相对均衡。在二分类数据集中,常用基于聚类的数据增强方法,但在多分类数据集中,如果使用聚类进行预处理,容易产生过多的聚类区域,难以避免噪声的影响。同时,因为类别的增多,数据的分布也更加复杂,只依靠多数类和少数类的数量比难以表明两者之间的信息不平衡,因为可能存在数量不平衡,但是容易分类的数据分布,也会存在数量差距不大,但是分布复杂,难以分类的情况。
现有技术常常通过以下方案解决上述问题:
方案一:基于类别均衡的代表样本发现方法,对数据集进行样本发现工作以有效地发现及组合高质量的代表样本,其中采用类别数目均衡的思想分配代表样本个数。在分配聚类合成样本数量方法中,如果只考虑样本数量比例,而忽视样本的分布情况,就可能为某些数量少但分布密集、信息量大的类别分配过多样本,而为某些数量多但分布复杂、难以分类的类别分配过少样本,难以消除两者之间的信息不平衡。
方案二:基于人工合成数据过采样技术的不平衡物体识别方法,依据样本点的k近邻包含本类的数目情况,将源领域少数类训练样本分为孤立型、危险型、安全型三种类型,对孤立型样本进行过滤,对危险型、安全型样本进行不同的计算合成,在一定程度上考虑了样本的分布情况,但三种粗略的分类不能完全体现样本的分布情况,未能精确地利用每个样本的信息量,使增强后的数据集达到信息的平衡。
发明内容
本发明提供的网络流量数据的抽取方法,用于克服现有技术中存在的上述问题,通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量,依照样本信息量和类信息量来抽取用于合成的代表样本,解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。
本发明提供一种网络流量数据的抽取方法,包括:
根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
根据所述类密度信息,确定样本信息量和类信息量;
根据所述样本信息量和所述类信息量,确定抽取的代表样本集。
根据本发明提供的一种网络流量数据的抽取方法,所述样本的样本密度信息是通过如下方式获取的:
基于密度聚类DBSCAN算法,确定所述原始网络流量数据集中样本的邻居集合;
根据所述邻居集合,确定样本的同类邻居集合;
根据样本与同类邻居集合中所有样本之间的距离,确定所述样本密度信息。
根据本发明提供的一种网络流量数据的抽取方法,所述根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息,包括:
根据所述样本的样本密度信息和样本所属类别中所有样本的样本密度信息,确定所述样本的样本密度信息所占所述样本所属类别中所有样本的样本密度信息的百分比;
根据所述百分比,确定所述类密度信息。
根据本发明提供的一种网络流量数据的抽取方法,所述根据所述类密度信息,确定样本信息量和类信息量,包括:
根据所述类密度信息和近似值,确定所述样本信息量;
根据所述样本信息量,确定所述类信息量;
其中,所述近似值是根据缺失目标样本之后的样本所属类别的类密度信息确定的;
所述目标样本是根据目标子集中的样本确定的;
所述目标子集是根据样本的同类邻居集合的子集确定的。
根据本发明提供的一种网络流量数据的抽取方法,所述根据所述类密度信息和近似值,确定所述样本信息量,包括:
根据所述类密度信息和所述近似值,确定样本信息差;
根据激活sigmoid函数将所述样本信息差映射到预设区间,以确定所述样本信息量。
根据本发明提供的一种网络流量数据的抽取方法,所述根据所述样本信息量和所述类信息量,确定抽取的代表样本集,包括:
根据所述原始网络流量数据集中每个样本所属类别的类信息量,确定最小的类信息量;
根据所述每个样本所属类别的类信息量和所述最小的类信息量,确定类别信息差;
根据所述样本信息量,确定样本的权重;
根据所述样本的权重和所述类别信息差,确定抽取的所述代表样本集。
根据本发明提供的一种网络流量数据的抽取方法,所述根据所述样本的权重和所述类别信息差,确定抽取的所述代表样本集,包括:
根据所述样本的权重抽取采样样本,并将抽取到的所述采样样本添加到初始代表样本集中,以对初始代表样本集进行更新;
根据采样样本的样本信息量,对目标类别信息差进行更新,直至更新后的目标类别信息差满足预设条件,停止抽取采样样本;
根据更新后的初始代表样本集,确定所述代表样本集;
其中,目标类别信息差是根据采样样本所属类别的类信息量与所述最小的类信息量之间的类别信息差确定的。
本发明还提供一种网络流量数据的抽取装置,包括:第一获取模块、第二获取模块和数据抽取模块;
所述第一获取模块,用于根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
所述第二获取模块,用于根据所述类密度信息,确定样本信息量和类信息量;
所述数据抽取模块,用于根据所述样本信息量和所述类信息量,确定抽取的代表样本集。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网络流量数据的抽取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网络流量数据的抽取方法的步骤。
本发明提供的网络流量数据的抽取方法及装置,通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量,依照样本信息量和类信息量来抽取用于合成的代表样本,解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的网络流量数据的抽取方法的流程示意图;
图2是本发明提供的网络流量数据的抽取装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在网络流量异常检测和分类中,常遇到需要识别多种网络行为的情况,例如识别正常网络行为、拒绝式服务攻击、端口攻击等,即需处理多分离的原始网络流量数据集。在多分类数据集中,如果使用聚类进行预处理,容易产生过多的聚类区域,难以避免噪声的影响。同时,因为类别的增多,数据的分布也更加复杂,只依靠多数类和少数类的数量比难以表明两者之间的信息不平衡,因为可能存在数量不平衡,但是容易分类的数据分布,也会存在数量差距不大,但是分布复杂,难以分类的情况。
因此,本发明提供了一种网络流量数据的抽取方法及装置,通过计算原始网络流量数据集中样本和类所携带的信息量,依照样本信息量和类别信息差来抽取用于合成的代表样本。对于原始网络流量数据集中的样本,首先根据其相邻的同类邻居集合的密度来统计样本和类所携带的信息。然后,因为样本本身处于某一类中,样本的信息量取决于该样本对这个类包含信息的影响,因此使用假设缺失某样本及其近邻的方式,计算原始数据集和缺失样本后数据集信息差作为样本的信息携带量(即样本信息量),并根据样本的信息携带量来计算类的信息携带量(即类信息量)。最终目的是合成代表样本后的不同类携带信息量和最多数类的信息量差值(即类别信息差)趋近于0,因此根据信息量分配样本权重,并按照合成样本后的不同类携带信息量和最多数类的信息量差值趋近于0的原则,对样本进行按权重抽取,从而完成网络流量数据样本的选择,具体实现如下:
图1是本发明提供的网络流量数据的抽取方法的流程示意图,如图1所示,方法包括:
S1、根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
S2、根据类密度信息,确定样本信息量和类信息量;
S3、根据样本信息量和所述类信息量,确定抽取的代表样本集。
需要说明的是,上述方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本发明不作具体限定。
可选地,假设待抽取的原始网络流量数据集X中样本xi的样本密度信息为λ(xi),根据样本xi的样本密度信息λ(xi)通过计算可以得到样本xi所属类别(假设,样本xi所属类别为r)的类密度信息θr。
根据得到的样本xi所属类别r的类密度信息θr,通过计算得到样本xi的样本信息量和样本xi所属类别r的类信息量。然后根据得到的样本xi的样本信息量和样本xi所属类别r的类信息量,从原始网络流量数据集X中样本xi所属类别r抽取样本,并将抽取到的样本作为样本xi所属类别r抽取的代表样本。
对原始网络流量数据集X的每一个样本,执行上述过程,最终可以得到从原始网络流量数据集X中每个样本所属类别抽取的代表样本,通过合并各个类别的代表样本,得到原始网络流量数据集X抽的代表样本集。
需要说明的是,原始网络流量数据集X中各个类别抽取的代表样本可以是一个或者多个。
本发明提供的网络流量数据的抽取方法,通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量,依照样本信息量和类信息量来抽取用于合成的代表样本,解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。
进一步地,在一个实施例中,步骤S1中样本的样本密度信息是通过如下方式获取的:
步骤A、基于密度聚类(Density—Based Spatial Clustering of Applicationwith Noise,DBSCAN)算法,确定原始网络流量数据集中样本的邻居集合;
步骤B、根据邻居集合,确定样本的同类邻居集合;
步骤C、根据样本与同类邻居集合中所有样本之间的距离,确定样本密度信息。
可选地,基于密度聚类DBSCAN算法,找到原始网络流量数据集X中样本(例如样本xi)的邻居集合KNN(xi),根据样本xi的邻居集合KNN(xi)可以找到样本xi的同类邻居集合Q(xi),其中,
Figure BDA0003140998430000081
Figure BDA0003140998430000082
假设,样本xi的同类邻居集合Q(xi)包含的样本数量为ti,0≤ti≤k,k为大于0的正整数。
基于样本xi和同类邻居集合Q(xi)的距离,通过如下公式计算得到样本xi的样本密度信息λ(xi):
Figure BDA0003140998430000083
其中,dist((xi,Q(xi)l)代表样本xi和它的第l个同类邻居的距离,当ti∈[1,k]时,公式(1)中的分母代表样本xi到集合Q(xi)所有样本的距离,而不包含其他类别的样本。
公式(1)中分母的数值越小,代表样本xi和同类邻居集合的距离越近,样本xi的所处的类间分布密度越大,样本xi重要程度越高。ti=0代表样本xi的k个邻居均属于其他类别,则样本xi一定为离群值,为了方便计算,需要赋值一个极小的小数,防止直接赋值为零导致后面计算出现异常。
本发明提供的网络流量数据的抽取方法,通过根据样本的相邻邻居的距离确定样本的样本密度信息,为后续基于样本密度信息来统计样本和类所携带的信息,依照样本信息量和类别信息差来抽取用于合成的样本,解决只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题奠定了基础。
进一步地,在一个实施例中,步骤S1可以具体包括:
S11、根据样本的样本密度信息和样本所属类别中所有样本的样本密度信息,确定样本的样本密度信息所占样本所属类别中所有样本的样本密度信息的百分比;
S12、根据百分比,确定类密度信息。
可选地,根据上述得到的样本xi的样本密度信息λ(xi)和样本所属类别中所有样本的样本密度信息,通过如下公式计算得到样本xi的样本密度信息λ(xi)所占样本所属类别中所有样本的样本密度信息的百分比γi
Figure BDA0003140998430000091
其中,μ=min(λ(xi)),对每个类,基于信息熵的类密度信息由θr表示,对应类Cr∈C(r=1,2,……),θr是Cr类中样本信息的平均值。其中,Nr是r类中样本的数量,γi是Cr类中的样本xi占整个类样本密度的百分比,可以看作是在Cr类中样本xi的概率。因此对于Cr类而言,信息熵越低,其不确定性越低,那么该类所携带的基于密度的信息值就越大。
根据计算得到的百分比γi,通过以下公式计算得到类别r的类密度信息θr:
Figure BDA0003140998430000101
本发明提供的网络流量数据的抽取方法,通过计算数据集中类密度信息,为后续基于类密度信息计算数据集中的样本信息量和类信息量,并基于样本信息量和类信息量来抽取用于合成的代表样本奠定了基础。
进一步地,在一个实施例中,步骤S2可以具体包括:
S21、根据类密度信息和近似值,确定样本信息量;
S22、根据样本信息量,确定类信息量;
其中,近似值是根据缺失目标样本之后的样本所属类别的类密度信息确定的;
目标样本是根据目标子集中的样本确定的;
目标子集是根据样本的同类邻居集合的子集确定的。
进一步地,在一个实施例中,步骤S21可以具体包括:
S211、根据类密度信息和近似值,确定样本信息差;
S212、根据激活sigmoid函数将样本信息差映射到预设区间,以确定样本信息量。
可选地,θr为类别r的真实的预期平均信息(类密度信息),
Figure BDA0003140998430000102
为θr的一个近似值,表示类别r缺失目标样本例如xi之后的类密度信息,因此,对于Cr(r=1,2,……),计算两者的信息差值/>
Figure BDA0003140998430000103
Figure BDA0003140998430000104
联合公式(2)至(4),可以得到样本信息差
Figure BDA0003140998430000105
Figure BDA0003140998430000106
其中,Li是包含了样本xi和对应同类邻居集合Q(xi)的子集。
Figure BDA0003140998430000107
表示在类Cr中,如果用/>
Figure BDA0003140998430000108
来表示θr,需要额外附加的信息,即代表了样本xi和对应同类邻居集合Q(xi)对类Cr的重要程度。样本xi和对应同类邻居集合Q(xi)自身携带的信息量越大,那么缺失他们时所需要的附加的额外信息越多,那么/>
Figure BDA0003140998430000111
的值就越大。
Figure BDA0003140998430000112
利用激活sigmoid函数样本信息差
Figure BDA0003140998430000113
映射到预设区间例如[0,1],具体如下式所示。对于xi∈Cr,用/>
Figure BDA0003140998430000114
表示xi自身信息对类Cr的信息差值,即样本信息量。
Figure BDA0003140998430000115
根据计算得到样本xi的样本信息量
Figure BDA0003140998430000116
通过如下公式计算得到类别r的类信息量ηr
Figure BDA0003140998430000117
其中,ηr取值范围在[0,1],表示类Cr的平均信息影响程度,也就是是缺失类Cr中样本后所需要补充的平均信息量,ηr越大,平均缺失样本所需补充的信息量越大,即携带信息越少。因此拥有最多信息的类,拥有最小的ηr
本发明提供的网络流量数据的抽取方法,根据相邻的同类邻居的密度来统计样本和类所携带的信息,使用假设缺失某样本及其近邻的方式,计算原始数据集和缺失样本后数据集信息差作为样本的信息携带量,并依照样本信息量和类信息量来抽取用于合成的样本,解决了在多分类数据集中,使用聚类进行预处理,容易产生过多的聚类区域,从而受到噪声影响,同时,因为类别的增多,数据的分布也更加复杂,只依靠最多数类和最少数类的数量比难以表明两者之间的信息不平衡的问题。
进一步地,在一个实施例中,步骤S3可以具体包括:
S31、根据原始网络流量数据集中每个样本所属类别的类信息量,确定最小的类信息量;
S32、根据每个样本所属类别的类信息量和最小的类信息量,确定类别信息差;
S33、根据样本信息量,确定样本的权重;
S34、根据样本的权重和类别信息差,确定抽取的代表样本集。
可选地,根据上述过程可以得到原始网络流量数据集X中每个样本所属类别的类信息量,从中筛选出最小的类信息量,记作φ,并将最小的类信息量作为多数类的类信息量,其他类别作为少数类,根据原始网络流量数据集X每个样本所属类别的类信息量和最小的类信息量,计算少数类和多数类类别之间的类别信息差。
例如,对于原始网络流量数据集X中样本xi所属类别r与多数类之间的类别信息差Δ为:
Δ=ηr-φ (8)
根据样本xi的样本信息量ηr分配样本xi的权重wi,样本xi的权重wi计算公式如下:
Figure BDA0003140998430000121
其中,
Figure BDA0003140998430000122
根据样本xi的权重wi和样本xi的类别r的类别信息差,确定类别r中抽取的代表样本,通过计算原始网络流量数据集X的每个样本的权重,然后根据原始网络流量数据集X的每个样本的权重和每个样本所属类别的类信息量与多数类的类信息量之间的类别信息差,抽取每个样本对应类别的代表样本,最后将各个类别抽取的代表样本合成原始网络流量数据集X最终抽取的代表样本集。
本发明提供的网络流量数据的抽取方法,根据信息量分配样本权重,并按照合成样本后的不同类携带信息量和多数类的信息量差值,完成对网络流量数据集的抽取,避免了在多分类数据集中仅使用聚类进行预处理而产生过多的聚类区域的问题,并加强了代表样本选择的合理性,保证增强后的数据集达到信息量的平衡。
进一步地,在一个实施例中,步骤S34可以具体包括:
S341、根据样本的权重抽取采样样本,并将抽取到的采样样本添加到初始代表样本集中,以对初始代表样本集进行更新;
S342、根据采样样本的样本信息量,对目标类别信息差进行更新,直至更新后的目标类别信息差满足预设条件,停止抽取采样样本;
S343、根据更新后的初始代表样本集,确定代表样本集;
其中,目标类别信息差是根据采样样本所属类别的类信息量与最小的类信息量之间的类别信息差确定的。
可选地,根据样本的权重例如根据原始网络流量数据集X中样本xi的权重,假设第一次从样本xi的类别r之中抽取的样本为样本ct,并将抽取到的采样样本(样本ct)添加到初始代表样本集Cchoose中,以对初始代表样本集Cchoose进行更新,假设样本ct的所属类别为r,初始代表样本集Cchoose为空集。
根据上述公式可以得到采样样本ct的样本信息量
Figure BDA0003140998430000131
利用采样样本c的样本信息量/>
Figure BDA0003140998430000132
对目标类别信息差(即类别r的类信息量与多数类的类信息量之间的类别信息差Δ)进行更新,直至更新后的目标类别信息差Δ′满足预设条件时,停止对类别r的样本抽取,根据抽取的样本ct得到从类别r中抽取的代表样本集,其中,预设条件为Δ′的值趋近于零。
Figure BDA0003140998430000141
C′choose=Cchoose∪Xchoose (11)
其中,1≤t≤num,num代表从类别r中抽取的采样样本总数,Δ′代表更新后的类别信息差,C′choose代表从类别r中抽取的代表样本集,Xchoose代表从类别r中抽取的采样样本ct的集合。
将步骤S34应用于原始网络流量数据集X中的每一个类别,完成对原始网络流量数据集X的样本抽取。
实际应用场景中,以公有数据集OBS-Network作为原始输入数据,具体如下:
对于数据集OBS-Network中每一个类,使用DBSCAN算法找到样本xi的邻居集合KNN(xi),由公式(1)计算样本密度信息(即信息熵),并由公式(2)至(3)计算数据集OBS-Network的类密度信息,具体如表1所示:
表1
r θr
r1 0.1257
r2 0.1382
r3 0.0863
r4 0.2329
其中,r1至r4代表OBS-Network数据集的类别。
由公式(4)至(6)通过计算缺失某样本及其k近邻时与原本信息量差值的方式,计算样本信息量,并由公式(7)通过样本信息量计算类信息量,得到各类别的类信息量,具体如表2所示,差值越小代表平均缺失样本所需补充的信息量越少,即携带信息量越大。
表2
r ηr
r1 0.0512
r2 0.1090
r3 0.2037
r4 0.0674
获取最小的类信息量φ=0.0512,即r1作为多数类。由公式(8)计算类ri(r1至r4)需要增加多少信息,使用Δ来表示少数类ri和拥有最多信息量的类别信息差,具体如表3所示:
表3
r Δ
r1 0.0000
r2 0.0578
r3 0.1525
r4 0.0162
对于每一个少数类,由公式(9)根据样本信息量为每个样本分配权重。
按照权重抽取样本,每抽取一个样本,根据公式(10)减少采样类和多数类之间的信息差,并将选择的样本并入初始代表样本集。重复该步骤直至类别信息差Δ趋近于0,得到抽取的代表性样本集。
本发明提供的网络流量数据的抽取方法,根据信息量分配样本权重,并按照合成样本后的不同类携带信息量和最多数类的信息量差值趋近于0的原则,按权重抽取样本,完成网络流量数据样本的选择,避免了在多分类数据集中仅使用聚类进行预处理而产生过多的聚类区域的问题,并加强了代表样本选择的合理性,保证增强后的数据集达到信息量的平衡。
下面对本发明提供的网络流量数据的抽取装置进行描述,下文描述的网络流量数据的抽取装置与上文描述的网络流量数据的抽取方法可相互对应参照。
图2是本发明提供的网络流量数据的抽取装置的结构示意图,如图2所示,包括:第一获取模块210、第二获取模块211和数据抽取模块212;
第一获取模块210,用于根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
第二获取模块211,用于根据类密度信息,确定样本信息量和类信息量;
数据抽取模块212,用于根据样本信息量和类信息量,确定抽取的代表样本集。
本发明提供的网络流量数据的抽取装置,通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量,依照样本信息量和类信息量来抽取用于合成的代表样本,解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。
图3是本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communication interface)311、存储器(memory)312和总线(bus)313,其中,处理器310,通信接口311,存储器312通过总线313完成相互间的通信。处理器310可以调用存储器312中的逻辑指令,以执行如下方法:
根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
根据类密度信息,确定样本信息量和类信息量;
根据样本信息量和类信息量,确定抽取的代表样本集。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的网络流量数据的抽取方法,例如包括:
根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
根据类密度信息,确定样本信息量和类信息量;
根据样本信息量和类信息量,确定抽取的代表样本集。
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的网络流量数据的抽取方法,例如包括:
根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
根据类密度信息,确定样本信息量和类信息量;
根据样本信息量和类信息量,确定抽取的代表样本集。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种网络流量数据的抽取方法,其特征在于,包括:
根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
根据所述类密度信息,确定样本信息量和类信息量;
根据所述样本信息量和所述类信息量,确定抽取的代表样本集;
所述根据所述样本信息量和所述类信息量,确定抽取的代表样本集,包括:
根据所述原始网络流量数据集中每个样本所属类别的类信息量,确定最小的类信息量;
根据所述每个样本所属类别的类信息量和所述最小的类信息量,确定类别信息差;
根据所述样本信息量,确定样本的权重;
根据所述样本的权重和所述类别信息差,确定抽取的所述代表样本集。
2.根据权利要求1所述的网络流量数据的抽取方法,其特征在于,所述样本的样本密度信息是通过如下方式获取的:
基于密度聚类DBSCAN算法,确定所述原始网络流量数据集中样本的邻居集合;
根据所述邻居集合,确定样本的同类邻居集合;
根据样本与同类邻居集合中所有样本之间的距离,确定所述样本密度信息。
3.根据权利要求1所述的网络流量数据的抽取方法,其特征在于,所述根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息,包括:
根据所述样本的样本密度信息和样本所属类别中所有样本的样本密度信息,确定所述样本的样本密度信息所占所述样本所属类别中所有样本的样本密度信息的百分比;
根据所述百分比,确定所述类密度信息。
4.根据权利要求3所述的网络流量数据的抽取方法,其特征在于,所述根据所述类密度信息,确定样本信息量和类信息量,包括:
根据所述类密度信息和近似值,确定所述样本信息量;
根据所述样本信息量,确定所述类信息量;
其中,所述近似值是根据缺失目标样本之后的样本所属类别的类密度信息确定的;
所述目标样本是根据目标子集中的样本确定的;
所述目标子集是根据样本的同类邻居集合的子集确定的。
5.根据权利要求4所述的网络流量数据的抽取方法,其特征在于,所述根据所述类密度信息和近似值,确定所述样本信息量,包括:
根据所述类密度信息和所述近似值,确定样本信息差;
根据激活sigmoid函数将所述样本信息差映射到预设区间,以确定所述样本信息量。
6.根据权利要求1所述的网络流量数据的抽取方法,其特征在于,所述根据所述样本的权重和所述类别信息差,确定抽取的所述代表样本集,包括:
根据所述样本的权重抽取采样样本,并将抽取到的所述采样样本添加到初始代表样本集中,以对初始代表样本集进行更新;
根据采样样本的样本信息量,对目标类别信息差进行更新,直至更新后的目标类别信息差满足预设条件,停止抽取采样样本;
根据更新后的初始代表样本集,确定所述代表样本集;
其中,目标类别信息差是根据采样样本所属类别的类信息量与所述最小的类信息量之间的类别信息差确定的。
7.一种网络流量数据的抽取装置,其特征在于,包括:第一获取模块、第二获取模块和数据抽取模块;
所述第一获取模块,用于根据原始网络流量数据集中样本的样本密度信息,确定样本所属类别的类密度信息;
所述第二获取模块,用于根据所述类密度信息,确定样本信息量和类信息量;
所述数据抽取模块,用于根据所述样本信息量和所述类信息量,确定抽取的代表样本集;
所述根据所述样本信息量和所述类信息量,确定抽取的代表样本集,包括:
根据所述原始网络流量数据集中每个样本所属类别的类信息量,确定最小的类信息量;
根据所述每个样本所属类别的类信息量和所述最小的类信息量,确定类别信息差;
根据所述样本信息量,确定样本的权重;
根据所述样本的权重和所述类别信息差,确定抽取的所述代表样本集。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述网络流量数据的抽取方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述网络流量数据的抽取方法的步骤。
CN202110734331.8A 2021-06-30 2021-06-30 网络流量数据的抽取方法及装置 Active CN113657428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110734331.8A CN113657428B (zh) 2021-06-30 2021-06-30 网络流量数据的抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110734331.8A CN113657428B (zh) 2021-06-30 2021-06-30 网络流量数据的抽取方法及装置

Publications (2)

Publication Number Publication Date
CN113657428A CN113657428A (zh) 2021-11-16
CN113657428B true CN113657428B (zh) 2023-07-14

Family

ID=78477780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110734331.8A Active CN113657428B (zh) 2021-06-30 2021-06-30 网络流量数据的抽取方法及装置

Country Status (1)

Country Link
CN (1) CN113657428B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547489A (zh) * 2018-12-31 2019-03-29 南京理工大学 一种针对Obfuscated-Openssh协议流量的检测方法
CN111835763A (zh) * 2020-07-13 2020-10-27 北京邮电大学 一种dns隧道流量检测方法、装置及电子设备
WO2020259582A1 (zh) * 2019-06-25 2020-12-30 腾讯科技(深圳)有限公司 神经网络模型的训练方法、装置和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521656B (zh) * 2011-12-29 2014-02-26 北京工商大学 非平衡样本分类的集成迁移学习方法
EP2947879B1 (en) * 2013-01-17 2018-11-07 Samsung Electronics Co., Ltd. Method for decoding video on basis of decoder setting
CN106341845A (zh) * 2016-08-11 2017-01-18 盐城师范学院 一种移动网络服务信息传输中冗余量消除方法
CN106778853A (zh) * 2016-12-07 2017-05-31 中南大学 基于权重聚类和欠抽样的不平衡数据分类方法
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法
CN110138784A (zh) * 2019-05-15 2019-08-16 重庆大学 一种基于特征选择的网络入侵检测系统
CN111275011B (zh) * 2020-02-25 2023-12-19 阿波罗智能技术(北京)有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
CN111786951B (zh) * 2020-05-28 2022-08-26 东方红卫星移动通信有限公司 流量数据特征提取方法、恶意流量识别方法及网络系统
CN111817982B (zh) * 2020-07-27 2023-04-07 南京信息工程大学 一种面向类别不平衡下的加密流量识别方法
CN112990286A (zh) * 2021-03-08 2021-06-18 中电积至(海南)信息技术有限公司 一种数据不平衡场景下的恶意流量检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547489A (zh) * 2018-12-31 2019-03-29 南京理工大学 一种针对Obfuscated-Openssh协议流量的检测方法
WO2020259582A1 (zh) * 2019-06-25 2020-12-30 腾讯科技(深圳)有限公司 神经网络模型的训练方法、装置和电子设备
CN111835763A (zh) * 2020-07-13 2020-10-27 北京邮电大学 一种dns隧道流量检测方法、装置及电子设备

Also Published As

Publication number Publication date
CN113657428A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN111475804A (zh) 一种告警预测方法及系统
CN111783875A (zh) 基于聚类分析的异常用户检测方法、装置、设备及介质
Rodriguez et al. Patent clustering and outlier ranking methodologies for attributed patent citation networks for technology opportunity discovery
CN109840413B (zh) 一种钓鱼网站检测方法及装置
WO2020052168A1 (zh) 反欺诈模型的生成及应用方法、装置、设备及存储介质
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN108805174A (zh) 聚类方法及装置
CN111143838A (zh) 数据库用户异常行为检测方法
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN114091661A (zh) 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法
CN114494771B (zh) 一种可防御后门攻击的联邦学习图像分类方法
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN114448657B (zh) 一种配电通信网络安全态势感知与异常入侵检测方法
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN117155771B (zh) 一种基于工业物联网的设备集群故障溯源方法及装置
CN113657428B (zh) 网络流量数据的抽取方法及装置
CN115115369A (zh) 数据处理方法、装置、设备及存储介质
CN111245815A (zh) 数据处理方法、装置、存储介质及电子设备
CN109992960B (zh) 一种伪造参数检测方法、装置、电子设备及存储介质
Jie Research on malicious TLS traffic identification based on hybrid neural network
CN110837853A (zh) 一种快速分类模型构建方法
CN109389571B (zh) 一种遥感影像变化检测方法、装置及终端
Sharma et al. Iot: Smart city parking solutions with metric-chisini-jensen-shannon divergence based kernels
CN115758336A (zh) 一种资产识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant