CN113657428B

CN113657428B - 网络流量数据的抽取方法及装置

Info

Publication number: CN113657428B
Application number: CN202110734331.8A
Authority: CN
Inventors: 杨杨; 高志鹏; 郭义豪; 赵斌男; 郭少勇; 王臻; 赵龙军; 李恒; 陆继钊; 孟慧平; 董刚松
Original assignee: China Xiongan Group Digital Urban Technology Co ltd; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Current assignee: China Xiongan Group Digital Urban Technology Co ltd; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2023-07-14
Anticipated expiration: 2041-06-30
Also published as: CN113657428A

Abstract

本发明提供一种网络流量数据的抽取方法及装置，方法包括：根据原始网络流量数据集中样本的样本密度信息，确定样本所属类别的类密度信息；根据所述类密度信息，确定样本信息量和类信息量；根据所述样本信息量和所述类信息量，确定抽取的代表样本集。所述装置用于执行上述方法。本发明通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量，依照样本信息量和类信息量来抽取用于合成的代表样本，解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。

Description

网络流量数据的抽取方法及装置

技术领域

本发明涉及数字信息处理技术领域，尤其涉及一种网络流量数据的抽取方法及装置。

背景技术

随着互联网规模日益扩大，互联网的架构的日益复杂，网络安全攻击越来越复杂和隐秘，需要分析的特征维度也在大规模增长。网络监控成为网络管理中一个非常重要和基础的环节。网络管理员根据网络流量数据，对网络及其主要成分的性能进行分析，及时获得网络运行态势及异常情况，为网络异常处理提供重要的信息支撑，对维持网络正常运行和保障网络安全有着重要意义。目前基于分类的网络流量异常检测技术是异常检测的重点研究领域之一，研究者大多采用支持向量机、决策树、人工神经网络等技术对网络流量数据进行训练，构建学习模型，从而识别出由于攻击行为导致的偏离正常表现的异常流量数据。

在网络流量异常检测中，通常会遇到需要识别多种类别网络流量数据的情况，例如识别正常网络行为、拒绝式服务攻击、端口攻击等，即需处理多分类的网络流量数据集。但是，由于网络本身特性，网络流量数据存在天然的不平衡的问题，这会导致训练过程向多数类过拟合，影响模型的准确率。针对此问题，可以从数据的角度出发，采用技术手段对少数类数据进行增强，从而让数据集中不同类别的数据信息相对均衡。在二分类数据集中，常用基于聚类的数据增强方法，但在多分类数据集中，如果使用聚类进行预处理，容易产生过多的聚类区域，难以避免噪声的影响。同时，因为类别的增多，数据的分布也更加复杂，只依靠多数类和少数类的数量比难以表明两者之间的信息不平衡，因为可能存在数量不平衡，但是容易分类的数据分布，也会存在数量差距不大，但是分布复杂，难以分类的情况。

现有技术常常通过以下方案解决上述问题：

方案一：基于类别均衡的代表样本发现方法，对数据集进行样本发现工作以有效地发现及组合高质量的代表样本，其中采用类别数目均衡的思想分配代表样本个数。在分配聚类合成样本数量方法中，如果只考虑样本数量比例，而忽视样本的分布情况，就可能为某些数量少但分布密集、信息量大的类别分配过多样本，而为某些数量多但分布复杂、难以分类的类别分配过少样本，难以消除两者之间的信息不平衡。

方案二：基于人工合成数据过采样技术的不平衡物体识别方法，依据样本点的k近邻包含本类的数目情况，将源领域少数类训练样本分为孤立型、危险型、安全型三种类型，对孤立型样本进行过滤，对危险型、安全型样本进行不同的计算合成，在一定程度上考虑了样本的分布情况，但三种粗略的分类不能完全体现样本的分布情况，未能精确地利用每个样本的信息量，使增强后的数据集达到信息的平衡。

发明内容

本发明提供的网络流量数据的抽取方法，用于克服现有技术中存在的上述问题，通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量，依照样本信息量和类信息量来抽取用于合成的代表样本，解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。

本发明提供一种网络流量数据的抽取方法，包括：

根据原始网络流量数据集中样本的样本密度信息，确定样本所属类别的类密度信息；

根据所述类密度信息，确定样本信息量和类信息量；

根据所述样本信息量和所述类信息量，确定抽取的代表样本集。

根据本发明提供的一种网络流量数据的抽取方法，所述样本的样本密度信息是通过如下方式获取的：

基于密度聚类DBSCAN算法，确定所述原始网络流量数据集中样本的邻居集合；

根据所述邻居集合，确定样本的同类邻居集合；

根据样本与同类邻居集合中所有样本之间的距离，确定所述样本密度信息。

根据本发明提供的一种网络流量数据的抽取方法，所述根据原始网络流量数据集中样本的样本密度信息，确定样本所属类别的类密度信息，包括：

根据所述样本的样本密度信息和样本所属类别中所有样本的样本密度信息，确定所述样本的样本密度信息所占所述样本所属类别中所有样本的样本密度信息的百分比；

根据所述百分比，确定所述类密度信息。

根据本发明提供的一种网络流量数据的抽取方法，所述根据所述类密度信息，确定样本信息量和类信息量，包括：

根据所述类密度信息和近似值，确定所述样本信息量；

根据所述样本信息量，确定所述类信息量；

其中，所述近似值是根据缺失目标样本之后的样本所属类别的类密度信息确定的；

所述目标样本是根据目标子集中的样本确定的；

所述目标子集是根据样本的同类邻居集合的子集确定的。

根据本发明提供的一种网络流量数据的抽取方法，所述根据所述类密度信息和近似值，确定所述样本信息量，包括：

根据所述类密度信息和所述近似值，确定样本信息差；

根据激活sigmoid函数将所述样本信息差映射到预设区间，以确定所述样本信息量。

根据本发明提供的一种网络流量数据的抽取方法，所述根据所述样本信息量和所述类信息量，确定抽取的代表样本集，包括：

根据所述原始网络流量数据集中每个样本所属类别的类信息量，确定最小的类信息量；

根据所述每个样本所属类别的类信息量和所述最小的类信息量，确定类别信息差；

根据所述样本信息量，确定样本的权重；

根据所述样本的权重和所述类别信息差，确定抽取的所述代表样本集。

根据本发明提供的一种网络流量数据的抽取方法，所述根据所述样本的权重和所述类别信息差，确定抽取的所述代表样本集，包括：

根据所述样本的权重抽取采样样本，并将抽取到的所述采样样本添加到初始代表样本集中，以对初始代表样本集进行更新；

根据采样样本的样本信息量，对目标类别信息差进行更新，直至更新后的目标类别信息差满足预设条件，停止抽取采样样本；

根据更新后的初始代表样本集，确定所述代表样本集；

其中，目标类别信息差是根据采样样本所属类别的类信息量与所述最小的类信息量之间的类别信息差确定的。

本发明还提供一种网络流量数据的抽取装置，包括：第一获取模块、第二获取模块和数据抽取模块；

所述第一获取模块，用于根据原始网络流量数据集中样本的样本密度信息，确定样本所属类别的类密度信息；

所述第二获取模块，用于根据所述类密度信息，确定样本信息量和类信息量；

所述数据抽取模块，用于根据所述样本信息量和所述类信息量，确定抽取的代表样本集。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述网络流量数据的抽取方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述网络流量数据的抽取方法的步骤。

本发明提供的网络流量数据的抽取方法及装置，通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量，依照样本信息量和类信息量来抽取用于合成的代表样本，解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的网络流量数据的抽取方法的流程示意图；

图2是本发明提供的网络流量数据的抽取装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在网络流量异常检测和分类中，常遇到需要识别多种网络行为的情况，例如识别正常网络行为、拒绝式服务攻击、端口攻击等，即需处理多分离的原始网络流量数据集。在多分类数据集中，如果使用聚类进行预处理，容易产生过多的聚类区域，难以避免噪声的影响。同时，因为类别的增多，数据的分布也更加复杂，只依靠多数类和少数类的数量比难以表明两者之间的信息不平衡，因为可能存在数量不平衡，但是容易分类的数据分布，也会存在数量差距不大，但是分布复杂，难以分类的情况。

因此，本发明提供了一种网络流量数据的抽取方法及装置，通过计算原始网络流量数据集中样本和类所携带的信息量，依照样本信息量和类别信息差来抽取用于合成的代表样本。对于原始网络流量数据集中的样本，首先根据其相邻的同类邻居集合的密度来统计样本和类所携带的信息。然后，因为样本本身处于某一类中，样本的信息量取决于该样本对这个类包含信息的影响，因此使用假设缺失某样本及其近邻的方式，计算原始数据集和缺失样本后数据集信息差作为样本的信息携带量(即样本信息量)，并根据样本的信息携带量来计算类的信息携带量(即类信息量)。最终目的是合成代表样本后的不同类携带信息量和最多数类的信息量差值(即类别信息差)趋近于0，因此根据信息量分配样本权重，并按照合成样本后的不同类携带信息量和最多数类的信息量差值趋近于0的原则，对样本进行按权重抽取，从而完成网络流量数据样本的选择，具体实现如下：

图1是本发明提供的网络流量数据的抽取方法的流程示意图，如图1所示，方法包括：

S1、根据原始网络流量数据集中样本的样本密度信息，确定样本所属类别的类密度信息；

S2、根据类密度信息，确定样本信息量和类信息量；

S3、根据样本信息量和所述类信息量，确定抽取的代表样本集。

需要说明的是，上述方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本发明不作具体限定。

可选地，假设待抽取的原始网络流量数据集X中样本x_i的样本密度信息为λ(x_i)，根据样本x_i的样本密度信息λ(x_i)通过计算可以得到样本x_i所属类别(假设，样本x_i所属类别为r)的类密度信息θr。

根据得到的样本x_i所属类别r的类密度信息θr，通过计算得到样本x_i的样本信息量和样本x_i所属类别r的类信息量。然后根据得到的样本x_i的样本信息量和样本x_i所属类别r的类信息量，从原始网络流量数据集X中样本x_i所属类别r抽取样本，并将抽取到的样本作为样本x_i所属类别r抽取的代表样本。

对原始网络流量数据集X的每一个样本，执行上述过程，最终可以得到从原始网络流量数据集X中每个样本所属类别抽取的代表样本，通过合并各个类别的代表样本，得到原始网络流量数据集X抽的代表样本集。

需要说明的是，原始网络流量数据集X中各个类别抽取的代表样本可以是一个或者多个。

本发明提供的网络流量数据的抽取方法，通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量，依照样本信息量和类信息量来抽取用于合成的代表样本，解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。

进一步地，在一个实施例中，步骤S1中样本的样本密度信息是通过如下方式获取的：

步骤A、基于密度聚类(Density—Based Spatial Clustering of Applicationwith Noise，DBSCAN)算法，确定原始网络流量数据集中样本的邻居集合；

步骤B、根据邻居集合，确定样本的同类邻居集合；

步骤C、根据样本与同类邻居集合中所有样本之间的距离，确定样本密度信息。

可选地，基于密度聚类DBSCAN算法，找到原始网络流量数据集X中样本(例如样本x_i)的邻居集合KNN(x_i)，根据样本x_i的邻居集合KNN(x_i)可以找到样本x_i的同类邻居集合Q(x_i)，其中，

假设，样本x_i的同类邻居集合Q(x_i)包含的样本数量为t_i，0≤t_i≤k，k为大于0的正整数。

基于样本x_i和同类邻居集合Q(x_i)的距离，通过如下公式计算得到样本x_i的样本密度信息λ(x_i)：

其中，dist((x_i,Q(x_i)_l)代表样本x_i和它的第l个同类邻居的距离，当t_i∈[1，k]时，公式(1)中的分母代表样本x_i到集合Q(x_i)所有样本的距离，而不包含其他类别的样本。

公式(1)中分母的数值越小，代表样本x_i和同类邻居集合的距离越近，样本x_i的所处的类间分布密度越大，样本x_i重要程度越高。t_i＝0代表样本x_i的k个邻居均属于其他类别，则样本x_i一定为离群值，为了方便计算，需要赋值一个极小的小数，防止直接赋值为零导致后面计算出现异常。

本发明提供的网络流量数据的抽取方法，通过根据样本的相邻邻居的距离确定样本的样本密度信息，为后续基于样本密度信息来统计样本和类所携带的信息，依照样本信息量和类别信息差来抽取用于合成的样本，解决只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题奠定了基础。

进一步地，在一个实施例中，步骤S1可以具体包括：

S11、根据样本的样本密度信息和样本所属类别中所有样本的样本密度信息，确定样本的样本密度信息所占样本所属类别中所有样本的样本密度信息的百分比；

S12、根据百分比，确定类密度信息。

可选地，根据上述得到的样本x_i的样本密度信息λ(x_i)和样本所属类别中所有样本的样本密度信息，通过如下公式计算得到样本x_i的样本密度信息λ(x_i)所占样本所属类别中所有样本的样本密度信息的百分比γ_i：

其中，μ＝min(λ(x_i))，对每个类，基于信息熵的类密度信息由θr表示，对应类C_r∈C(r＝1,2,……)，θr是C_r类中样本信息的平均值。其中，N_r是r类中样本的数量，γ_i是C_r类中的样本x_i占整个类样本密度的百分比，可以看作是在C_r类中样本x_i的概率。因此对于C_r类而言，信息熵越低，其不确定性越低，那么该类所携带的基于密度的信息值就越大。

根据计算得到的百分比γ_i，通过以下公式计算得到类别r的类密度信息θr：

本发明提供的网络流量数据的抽取方法，通过计算数据集中类密度信息，为后续基于类密度信息计算数据集中的样本信息量和类信息量，并基于样本信息量和类信息量来抽取用于合成的代表样本奠定了基础。

进一步地，在一个实施例中，步骤S2可以具体包括：

S21、根据类密度信息和近似值，确定样本信息量；

S22、根据样本信息量，确定类信息量；

其中，近似值是根据缺失目标样本之后的样本所属类别的类密度信息确定的；

目标样本是根据目标子集中的样本确定的；

目标子集是根据样本的同类邻居集合的子集确定的。

进一步地，在一个实施例中，步骤S21可以具体包括：

S211、根据类密度信息和近似值，确定样本信息差；

S212、根据激活sigmoid函数将样本信息差映射到预设区间，以确定样本信息量。

可选地，θ_r为类别r的真实的预期平均信息(类密度信息)，

为θ_r的一个近似值，表示类别r缺失目标样本例如x_i之后的类密度信息，因此，对于C_r(r＝1,2,……)，计算两者的信息差值/>

联合公式(2)至(4)，可以得到样本信息差

其中，L_i是包含了样本x_i和对应同类邻居集合Q(x_i)的子集。

表示在类C_r中，如果用/>

来表示θ_r，需要额外附加的信息，即代表了样本x_i和对应同类邻居集合Q(x_i)对类C_r的重要程度。样本x_i和对应同类邻居集合Q(x_i)自身携带的信息量越大，那么缺失他们时所需要的附加的额外信息越多，那么/>

的值就越大。

利用激活sigmoid函数样本信息差

映射到预设区间例如[0，1]，具体如下式所示。对于x_i∈C_r，用/>

表示x_i自身信息对类C_r的信息差值，即样本信息量。

根据计算得到样本x_i的样本信息量

通过如下公式计算得到类别r的类信息量η_r：

其中，η_r取值范围在[0,1]，表示类C_r的平均信息影响程度，也就是是缺失类C_r中样本后所需要补充的平均信息量，η_r越大，平均缺失样本所需补充的信息量越大，即携带信息越少。因此拥有最多信息的类，拥有最小的η_r。

本发明提供的网络流量数据的抽取方法，根据相邻的同类邻居的密度来统计样本和类所携带的信息，使用假设缺失某样本及其近邻的方式，计算原始数据集和缺失样本后数据集信息差作为样本的信息携带量，并依照样本信息量和类信息量来抽取用于合成的样本，解决了在多分类数据集中，使用聚类进行预处理，容易产生过多的聚类区域，从而受到噪声影响，同时，因为类别的增多，数据的分布也更加复杂，只依靠最多数类和最少数类的数量比难以表明两者之间的信息不平衡的问题。

进一步地，在一个实施例中，步骤S3可以具体包括：

S31、根据原始网络流量数据集中每个样本所属类别的类信息量，确定最小的类信息量；

S32、根据每个样本所属类别的类信息量和最小的类信息量，确定类别信息差；

S33、根据样本信息量，确定样本的权重；

S34、根据样本的权重和类别信息差，确定抽取的代表样本集。

可选地，根据上述过程可以得到原始网络流量数据集X中每个样本所属类别的类信息量，从中筛选出最小的类信息量，记作φ，并将最小的类信息量作为多数类的类信息量，其他类别作为少数类，根据原始网络流量数据集X每个样本所属类别的类信息量和最小的类信息量，计算少数类和多数类类别之间的类别信息差。

例如，对于原始网络流量数据集X中样本x_i所属类别r与多数类之间的类别信息差Δ为：

Δ＝η_r-φ (8)

根据样本x_i的样本信息量η_r分配样本x_i的权重w_i，样本x_i的权重w_i计算公式如下：

其中，

根据样本x_i的权重w_i和样本x_i的类别r的类别信息差，确定类别r中抽取的代表样本，通过计算原始网络流量数据集X的每个样本的权重，然后根据原始网络流量数据集X的每个样本的权重和每个样本所属类别的类信息量与多数类的类信息量之间的类别信息差，抽取每个样本对应类别的代表样本，最后将各个类别抽取的代表样本合成原始网络流量数据集X最终抽取的代表样本集。

本发明提供的网络流量数据的抽取方法，根据信息量分配样本权重，并按照合成样本后的不同类携带信息量和多数类的信息量差值，完成对网络流量数据集的抽取，避免了在多分类数据集中仅使用聚类进行预处理而产生过多的聚类区域的问题，并加强了代表样本选择的合理性，保证增强后的数据集达到信息量的平衡。

进一步地，在一个实施例中，步骤S34可以具体包括：

S341、根据样本的权重抽取采样样本，并将抽取到的采样样本添加到初始代表样本集中，以对初始代表样本集进行更新；

S342、根据采样样本的样本信息量，对目标类别信息差进行更新，直至更新后的目标类别信息差满足预设条件，停止抽取采样样本；

S343、根据更新后的初始代表样本集，确定代表样本集；

其中，目标类别信息差是根据采样样本所属类别的类信息量与最小的类信息量之间的类别信息差确定的。

可选地，根据样本的权重例如根据原始网络流量数据集X中样本x_i的权重，假设第一次从样本x_i的类别r之中抽取的样本为样本c_t，并将抽取到的采样样本(样本c_t)添加到初始代表样本集C_choose中，以对初始代表样本集C_choose进行更新，假设样本c_t的所属类别为r，初始代表样本集C_choose为空集。

根据上述公式可以得到采样样本c_t的样本信息量

利用采样样本c的样本信息量/>

对目标类别信息差(即类别r的类信息量与多数类的类信息量之间的类别信息差Δ)进行更新，直至更新后的目标类别信息差Δ′满足预设条件时，停止对类别r的样本抽取，根据抽取的样本c_t得到从类别r中抽取的代表样本集，其中，预设条件为Δ′的值趋近于零。

C′_choose＝C_choose∪X_choose (11)

其中，1≤t≤num，num代表从类别r中抽取的采样样本总数，Δ′代表更新后的类别信息差，C′_choose代表从类别r中抽取的代表样本集，X_choose代表从类别r中抽取的采样样本c_t的集合。

将步骤S34应用于原始网络流量数据集X中的每一个类别，完成对原始网络流量数据集X的样本抽取。

实际应用场景中，以公有数据集OBS-Network作为原始输入数据，具体如下：

对于数据集OBS-Network中每一个类，使用DBSCAN算法找到样本x_i的邻居集合KNN(x_i)，由公式(1)计算样本密度信息(即信息熵)，并由公式(2)至(3)计算数据集OBS-Network的类密度信息，具体如表1所示：

表1

r	θr
		r₁	0.1257
r₂	0.1382
		r₃	0.0863
r₄	0.2329

其中，r₁至r₄代表OBS-Network数据集的类别。

由公式(4)至(6)通过计算缺失某样本及其k近邻时与原本信息量差值的方式，计算样本信息量，并由公式(7)通过样本信息量计算类信息量，得到各类别的类信息量，具体如表2所示，差值越小代表平均缺失样本所需补充的信息量越少，即携带信息量越大。

表2

r	η_r
		r₁	0.0512
r₂	0.1090
		r₃	0.2037
r₄	0.0674

获取最小的类信息量φ＝0.0512，即r₁作为多数类。由公式(8)计算类r_i(r₁至r₄)需要增加多少信息，使用Δ来表示少数类r_i和拥有最多信息量的类别信息差，具体如表3所示：

表3

r	Δ
		r₁	0.0000
r₂	0.0578
		r₃	0.1525
r₄	0.0162

对于每一个少数类，由公式(9)根据样本信息量为每个样本分配权重。

按照权重抽取样本，每抽取一个样本，根据公式(10)减少采样类和多数类之间的信息差，并将选择的样本并入初始代表样本集。重复该步骤直至类别信息差Δ趋近于0，得到抽取的代表性样本集。

本发明提供的网络流量数据的抽取方法，根据信息量分配样本权重，并按照合成样本后的不同类携带信息量和最多数类的信息量差值趋近于0的原则，按权重抽取样本，完成网络流量数据样本的选择，避免了在多分类数据集中仅使用聚类进行预处理而产生过多的聚类区域的问题，并加强了代表样本选择的合理性，保证增强后的数据集达到信息量的平衡。

下面对本发明提供的网络流量数据的抽取装置进行描述，下文描述的网络流量数据的抽取装置与上文描述的网络流量数据的抽取方法可相互对应参照。

图2是本发明提供的网络流量数据的抽取装置的结构示意图，如图2所示，包括：第一获取模块210、第二获取模块211和数据抽取模块212；

第一获取模块210，用于根据原始网络流量数据集中样本的样本密度信息，确定样本所属类别的类密度信息；

第二获取模块211，用于根据类密度信息，确定样本信息量和类信息量；

数据抽取模块212，用于根据样本信息量和类信息量，确定抽取的代表样本集。

本发明提供的网络流量数据的抽取装置，通过根据原始网络流量数据集中的样本的信息携带量来计算类的信息携带量，依照样本信息量和类信息量来抽取用于合成的代表样本，解决了只依靠多数类和少数类的数量比难以表明两者之间信息不平衡的问题。

图3是本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(communication interface)311、存储器(memory)312和总线(bus)313，其中，处理器310，通信接口311，存储器312通过总线313完成相互间的通信。处理器310可以调用存储器312中的逻辑指令，以执行如下方法：

根据类密度信息，确定样本信息量和类信息量；

根据样本信息量和类信息量，确定抽取的代表样本集。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的网络流量数据的抽取方法，例如包括：

根据类密度信息，确定样本信息量和类信息量；

根据样本信息量和类信息量，确定抽取的代表样本集。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的网络流量数据的抽取方法，例如包括：

根据类密度信息，确定样本信息量和类信息量；

根据样本信息量和类信息量，确定抽取的代表样本集。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络流量数据的抽取方法，其特征在于，包括：

根据所述类密度信息，确定样本信息量和类信息量；

根据所述样本信息量和所述类信息量，确定抽取的代表样本集；

所述根据所述样本信息量和所述类信息量，确定抽取的代表样本集，包括：

根据所述样本信息量，确定样本的权重；

2.根据权利要求1所述的网络流量数据的抽取方法，其特征在于，所述样本的样本密度信息是通过如下方式获取的：

根据所述邻居集合，确定样本的同类邻居集合；

3.根据权利要求1所述的网络流量数据的抽取方法，其特征在于，所述根据原始网络流量数据集中样本的样本密度信息，确定样本所属类别的类密度信息，包括：

根据所述百分比，确定所述类密度信息。

4.根据权利要求3所述的网络流量数据的抽取方法，其特征在于，所述根据所述类密度信息，确定样本信息量和类信息量，包括：

根据所述类密度信息和近似值，确定所述样本信息量；

根据所述样本信息量，确定所述类信息量；

所述目标样本是根据目标子集中的样本确定的；

所述目标子集是根据样本的同类邻居集合的子集确定的。

5.根据权利要求4所述的网络流量数据的抽取方法，其特征在于，所述根据所述类密度信息和近似值，确定所述样本信息量，包括：

根据所述类密度信息和所述近似值，确定样本信息差；

6.根据权利要求1所述的网络流量数据的抽取方法，其特征在于，所述根据所述样本的权重和所述类别信息差，确定抽取的所述代表样本集，包括：

根据更新后的初始代表样本集，确定所述代表样本集；

7.一种网络流量数据的抽取装置，其特征在于，包括：第一获取模块、第二获取模块和数据抽取模块；

所述数据抽取模块，用于根据所述样本信息量和所述类信息量，确定抽取的代表样本集；

根据所述样本信息量，确定样本的权重；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述网络流量数据的抽取方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述网络流量数据的抽取方法的步骤。