CN107948147B

CN107948147B - 网络连接数据分类方法

Info

Publication number: CN107948147B
Application number: CN201711160880.9A
Authority: CN
Inventors: 韩景倜; 梁贺君; 袁光辉
Original assignee: Shanghai university of finance and economics
Current assignee: Shanghai university of finance and economics
Priority date: 2017-08-31
Filing date: 2017-11-21
Publication date: 2020-01-17
Anticipated expiration: 2037-11-21
Also published as: CN107809439B; CN107809439A; CN107948147A

Abstract

本发明提供了一种提高网络连接数据的分类准确率的网络连接数据分类装置。本发明提供的网络连接数据分类装置，用于对W个不同的网络连接数据进行分类，包括：设定M个分类；根据d个特征属性值设定一个d维求解空间；在d维求解空间中随机生成N个粒子；分别计算每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离；根据每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离的大小将所有网络连接数据分成M类，并根据n个数据点进行n次分类；计算每次分类中的所有网络连接数据到对应的中心数据P_dhg之间的距离和；判断N次分类中距离和最小的粒子；调整其他粒子的当前位置以及当前变化率；判断是否结束分类；将结果进行输出。

Description

网络连接数据分类方法

技术领域

本发明具体涉及一种网络连接数据分类方法。

背景技术

随着近年来互联网的爆炸式普及，网络已经深入人们的生活、娱乐和工作中。但互联网的开放性和安全性是一把双刃剑，它在给人们带来便利的同时，互联网的无主管性、跨国性、不设防性使得网络安全问题越来越突出。网络入侵检测是网络安全系统的重要组成部分，其对未经授权的使用、滥用网络资源的行为进行监控和响应，具有保护信息完整性、机密性作用。

通常来说，网络入侵检测方法包括异常入侵检测和误用入侵检测方法。误用入侵检测方法认为异常行为和正常行为之间的交集很大，其检测结果与检测知识库完备性密切相关，不能发现新入侵行为，检测结果没有实际意义，因此异常入侵检测方法是当前网络入侵检测主要研究方向。异常检测是以网络的正常运行状态为基础，构造模型及规则来描述网络在正常情况下的各种特征。将当前网络特征发生较大偏差时来判断网络是否有异常或攻击存在。

数据挖掘是异常入侵检测系统中当前最主要的网络入侵检测工具。数据挖掘主要对互联网的网络纪录进行分析，从中挖掘隐含的、实现未知的潜在有用信息，并用这些信息去检测异常入侵和已知的入侵。

为了保证数据挖掘的准确率并减小误警率，需要事先构建准确的网络连接数据的分类，但是在构建数据分类的过程中，往往容易陷入局部最优的问题，造成分类相当不准确。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种提高网络连接数据的分类准确率的网络连接数据分类方法。

本发明提供了一种网络连接数据分类方法，用于对W个不同的网络连接数据进行分类，具有这样的特征，包括：步骤一，设定M 个分类；步骤二，根据d个特征属性值设定一个d维求解空间；步骤三，在d维求解空间中随机生成N个粒子，并且对每一个粒子相应地设定M个d维的中心数据(P_dh1，P_dh2，···，P_dhM)(h＝1，···，N) 作为粒子的当前位置、以及设定M个d维的变化率(v_dh1，v_dh2，···，v_dhM)作为粒子的当前变化率，每个中心数据P_dhg(g＝1，···，M)包含与d个特征属性值相呼应的d个粒子位置属性值，每个当前变化率v_dhg包含与d个粒子位置属性值相对应的d个中心粒子变化率；步骤四，分别计算每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离；步骤五，根据每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离的大小将所有网络连接数据分成M类，数据分类部对网络连接数据进行N次分类；步骤六，计算每次分类中的所有网络连接数据到对应的中心数据P_dhg之间的距离和；步骤七，判断 N次分类中距离和最小的粒子，并设定该粒子为基准粒子；步骤八，调整除基准粒子外的其他粒子的当前位置以及当前变化率；步骤九，再次分别计算每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离；步骤十，再次根据每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离的大小将所有网络连接数据分成M类，并根据n个粒子对网络连接数据进行n次分类；步骤十一，再次计算每次所有网络连接数据到对应的中心数据P_dhg之间的距离和；步骤十二，判断调整的次数是否大于到预定次数，并判断相邻两次调整的距离和差值是否小于预定阈值；步骤十三，当两个判断中任意一个为是时，将基准粒子作为分类中心，M个中心数据P_dhg所在的分类作为最终分类进行输出；步骤十四，当判断均为否时，再次调整除基准粒子外的粒子的当前位置以及当前变化率，其中，N、M、W、d均为大于1的正整数，且W＞M，N≥5M。

在本发明提供的网络连接数据分类方法中，还可以具有这样的特征：其中，d个特征属性值含有连接时间、连接的数据包、网络服务类型、连接标记以及连接时的记录参数。

在本发明提供的网络连接数据分类方法中，还可以具有这样的特征，还包括以下步骤：步骤十五，将基准粒子作为分类中心，M个中心数据P_dgh所在的分类作为最终分类进行存储。

在本发明提供的网络连接数据分类方法中，还可以具有这样的特征：其中，步骤八包含以下步骤：步骤8-1，根据每个其他粒子的当前变化率调整每个其他粒子的当前位置，并根据基准粒子的当前变化率调整其他粒子的当前变化率。

在本发明提供的网络连接数据分类方法中，还可以具有这样的特征：其中，步骤八还包含以下步骤：步骤8-2，在位置变化率调整单元调整其他粒子的当前位置和当前变化率后，选取N个粒子中任意Z 个粒子并将Z个粒子中任意两个粒子的当前位置以及当前变化率进行交叉运算生成第一交叉位置以及第一交叉变化率，5％×N≤Z≤ 40％×N，Z为正整数。

在本发明提供的网络连接数据分类方法中，还可以具有这样的特征：其中，步骤八还包含以下步骤：步骤8-3，选择当前基准粒子作为父本；步骤8-4，选取进行交叉运算后的N个粒子中任意k个粒子，并将父本的当前位置以及当前变化率与被选取的粒子的当前位置以及当前变化率分别叠加；步骤8-5，将叠加后的所有粒子不重复地两两配对，并再次执行交叉运算生成第二交叉位置以及第二交叉变化率；以及步骤8-6，对每个生成的第二交叉位置以及第二交叉变化率的空间粒子进行变异运算重新生成作为变异位置的当前位置以及作为变异变化率的当前变化率，5％×N≤k≤14％×N，k为正整数。

在本发明提供的网络连接数据分类方法中，还可以具有这样的特征：其中，交叉运算的运算公式如下：

其中，iter代表当前生成位置和变化率的调整次数，

分别代表选择交叉运算前的两个粒子的当前位置和当前变化率，

分别代表选择交叉运算后的两个粒子的当前位置和当前变化率，p为运算参数。

在本发明提供的网络连接数据分类方法中，还可以具有这样的特征：其中，变异运算的运算公式如下：

iter代表当前生成位置和变化率的调整次数，c_k是区间

上均匀分布的随机数，x^L，x^U分别是可行区间的边界，

为当前位置，

为变异运算后的当前位置，

为当前位置，

为变异运算后的当前位置，fit代表适应度函数，γ为更新变化率系数。

在本发明提供的网络连接数据分类方法中，还可以具有这样的特征：其中，步骤三中所生成的粒子是用于为W个网络连接数据进行 M种分类而使用的代理观测量。

发明的作用与效果

根据本发明所涉及的网络连接数据分类方法，因为具有以下步骤：设定M个分类；根据d个特征属性值设定一个d维求解空间；在d维求解空间中随机生成N个粒子；分别计算每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离；根据每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离的大小将所有网络连接数据分成M类，并根据n个数据点进行n次分类；计算每次分类中的所有网络连接数据到对应的中心数据P_dhg之间的距离和；判断N 次分类中距离和最小的粒子；调整其他粒子的当前位置以及当前变化率；判断是否结束分类；将结果进行输出，所以，本发明的网络连接数据分类方法可以准确地对网络连接数据进行分类，而且具有更高的检测率和更低的误报率，且具有较好的收敛性。不仅如此，本发明的网络连接数据分类方法还可以用于对运营数据的异常数据、证券交易数据的异常数据进行准确分类，并有效检测判断出异常数据。

附图说明

图1是本发明的实施例中网络连接数据分类系统的框图；

图2是本发明的实施例中网络连接数据分类方法的流程图；

图3是本发明的实施例中位置和变化率调整部的动作流程图；以及

图4是本发明的实施例中网络连接数据分类方法的分类效果图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下实施例结合附图对本发明网络连接数据分类方法作具体阐述。

图1是本发明的实施例中网络连接数据分类系统的框图。

如图1所示，网络连接数据分类系统10具有数据存储部11、分类设定部12、空间设定部22、随机生成设定部13、距离计算部14、数据分类部15、判断设定部16、位置和变化率调整部17、分类结束判断部18、结果输出部19、存储控制部20以及控制部21。

数据存储部11存储有一个网络流量测试数据集，在本实施例中，该网络流量测试数据集为KDD Cup 99数据集，KDD Cup 99数据集是由麻省理工学院Lincoln实验室仿真美国空军局域网环境而建立的网络流量测试数据集，且该数据集包含了7个星期网络流量，大约50万条网络连接数据，考虑到KDD Cup 99数据集比较庞大，所以将其分为训练集A1和测试集A2，其中训练集A1用来生成检测模型，主要是用来生成分类需要的分类中心向量；余下的数据作为进行验证的测试集A2，(即、W＝25万)。这些网络连接数据中包括多种广泛的网络环境下的模拟入侵，包括22种攻击类型和1个正常类型，如下表1所示。

表1网络连接数据标识类型

从上表可以看出网络连接数据集中的异常类型按攻击手段分为：DoS、R2L、U2R、Probe四类。其中每个连接实例包含42个属性且均标识为正常或特定的攻击类型。数据集的数据格式如下：

0,udp,private,SF，105，146，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，2，2，0.00，0.00，0.00，0.00，1.00，0.00，0.00， 255,254，1.00，0.01，0.00，0.00，0.00，0.00，0.00，0.00，snmpgetattack

在这条数据中，第一个属性是连接时间；第二个属性表明该连接是TCP还是UDP数据包；第三个属性表示服务类型，如http、ftp、smtp等；第四个属性表明连接标记，如SF、REJ、RSTR等；随后的 37个为该连接的数值属性，即连接时的记录参数；最后一个属性是类标记属性，表明这条记录是正常连接还是入侵连接。在本实施例中， d为41，在41个固定的特征属性中，9个特征属性为离散(symbolic) 型,其他均为连续(continuous)型。

分类设定部12设定分类的数目，在本实施例中，数目为M个， M为大于1的正整数。

空间设定部22根据d个特征属性值设定一个d维求解空间。

随机生成设定部13在d维求解空间中随机生成N个粒子，并且对每一个粒子相应地设定M个d维的中心数据(P_dh1，P_dh2，···，P_dhM) (h＝1，···，N)作为粒子的当前位置、以及设定M个d维的变化率 (v_dh1，v_dh2，···，v_dhM)作为粒子的当前变化率，每个中心数据P_dhg(g＝1，···，M)包含与d个特征属性值相呼应的d个粒子位置属性值，每个v_dhg包含与d个粒子位置属性值相对应的d个中心粒子变化率。其中，N≥5M。粒子是用于为W个网络连接数据进行M种分类而使用的代理观测量。

距离计算部14根据每个网络连接数据的前41个特征属性值分别计算每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离，并计算每次分类中的所有网络连接数据到对应的中心数据P_dhg之间的距离和。

当某个特征能使不同类别的网络连接数据之间具有最大距离，而同类网络连接数据之间具有最小距离时，算法赋予该特征最高Fisher 分值。当d＝2时，粒子的当前位置以及当前变化率均符合

X＝{(x₁,y₁),(x₂,y₂),···,(x_m,y_m)}，x_i(i＝1,2,···,D)∈R^d，

d为特征空间的维数，类标记为y_i∈{+1,-1}，W为网络连接数据数。如此Fisher分值定义为：

F＝S_b/S_w

其中S_b表示类间离散度和，描述两类网络连接数据间的距离；S_w为类内离散度和，描述同类网络连接数据间的离散度和。定义

分别为正常网络连接数据、异常网络连接数据和所有网络连接数据的均值。由此可以得到

分别为正常网络连接数据、异常网络连接数据的方差。对于数据集中的41个属性可以得到第r个属性的 Fisher分值表达式为

同理，式中

分别为第i类网络连接数据和所有网络连接数据的第r个特征的均值；

为第i类网络连接数据第r个特征的方差。计算41个属性的Fisher分值可以得到其排序。

数据分类部15根据每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离的大小将所有网络连接数据分成M类。数据分类部15根据N个粒子对网络连接数据进行N次分类。

判断设定部16判断N次分类中距离和最小的粒子，并设定该粒子为基准粒子。

位置和变化率调整部17调整除基准粒子外的其他粒子的当前位置以及当前变化率。

位置和变化率调整部17包括：位置变化率调整单元171、第一交叉位置变化率生成单元172、父本选择单元173、变化率位置叠加单元174、第二交叉位置变化率生成单元175以及位置变化率变异单元176。

位置变化率调整单元171根据每个其他粒子的当前变化率调整每个其他粒子的当前位置，并根据基准粒子的当前变化率调整其他粒子的当前变化率。

网络连接数据的当前变化率、当前位置的调整方程表示为：

在网络连接数据集中每个网络连接数据都是d维空间内的一个点。第i个网络连接数据可以表示为自身搜索到的历史最优值p_i， p_i＝(p_i1,p_i2,...,p_iD)，p_g为所有网络连接数据搜索到的最优值，c_i是网络连接数据跟踪自己历史最优值的权重系数，它表示网络连接数据自身的认识。c₂是网络连接数据跟踪群体最优值的权重系数，它表示网络连接数据对整个群体知识的认识。ξ，η是[0,1]区间内均匀分布的随机数。γ是位置更新变化率系数。

ω是保持当前变化率的系数，表示网络连接数据的先前变化率对当前变化率的影响程度。若ω较大，网络连接数据有能力扩展搜索空间，全局搜索能力强。若ω较小，网络连接数据主要在当前粒子的附近搜索，局部搜索能力较强。改变ω的取值可以调整算法全局和局部搜索能力。ω由式子：ω＝ω_max-(ω_max-ω_min)/iter_max×iter确定，其中iter_max是调整次数的最大值，iter是当前调整次数。

在位置变化率调整单元171调整其他粒子的当前位置和当前变化率后，第一交叉位置变化率生成单元172选取N个粒子中任意Z 个粒子并将Z个粒子中任意两个不重复的粒子的当前位置以及当前变化率进行交叉运算生成第一交叉位置以及第一交叉变化率。Z的取值范围是5％×N≤Z≤40％×N，且Z为正整数。

交叉运算的运算公式如下：

其中，iter代表当前生成位置和变化率的调整次数，

父本选择单元173选择当前基准粒子作为父本。

变化率位置叠加单元174选取进行交叉运算后的n个粒子中任意 k个粒子，并将父本的当前位置以及当前变化率与被选取的粒子的当前位置以及当前变化率分别叠加，k的取值范围为5％×n≤k≤14％×n， k为正整数。

第二交叉位置变化率生成单元175将叠加后的所有粒子不重复地两两配对，并再次执行交叉运算生成第二交叉位置以及第二交叉变化率。

位置变化率变异单元176对每个生成的第二交叉位置以及第二交叉变化率的空间粒子进行变异运算重新生成作为变异位置的当前位置以及作为变异变化率的当前变化率。

变异运算的运算公式如下：

c_k是区间

上均匀分布的随机数，x^L，x^U分别是可行区间的边界，

为当前位置，

为变异运算后的当前位置，

为当前位置，

为变异运算后的当前位置，fit代表适应度函数，γ为位置更新变化率系数。

距离计算部14再次分别计算每个网络连接数据与每个调整后的粒子的M个中心数据P_dhg之间的距离。

分类结束判断部18判断位置和变化率调整部17调整的次数是否大于到预定次数，并判断相邻两次调整的距离和差值是否小于预定阈值。在本实施例中，预定次数为400次，预定阈值为万分之一。

当两个判断中任意一个为是时，结果输出部19将基准粒子作为分类中心，m个中心数据P_dhg所在的分类作为最终分类进行输出。结果输出部19对不同的类别设定不同的编号。结果输出部19给定分类中心后分类的划分按照最邻近法则决定：

若对于某一个网络连接数据X_i和分类编号j若满足：

则说明该网络连接数据取到所有分类的最佳匹配，X_i属于第j类。

当两个判断均为否时，位置和变化率调整部17再次调整除基准粒子外的粒子的当前位置以及当前变化率。

存储控制部20控制数据存储部11存储最终分类。

控制部21包含用于控制数据存储部11、分类设定部12、空间设定部22、随机生成设定部13、距离计算部14、数据分类部15、判断设定部16、位置和变化率调整部17、分类结束判断部18、结果输出部19以及存储控制部20运行的计算机程序。

图2是本发明的实施例中网络连接数据分类方法的流程图。

如图2所示，本实施例的网络连接数据分类方法的动作流程图包含以下步骤：

步骤S1-1a，分类设定部12设定M个分类，然后进入步骤S1-1b。

步骤S1-1b，空间设定部根据d个特征属性值设定一个d维求解空间，然后进入步骤S1-2。

步骤S1-2，随机生成设定部13生成N个粒子，然后进入步骤 S1-3。

步骤S1-3，距离计算部14分别计算每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离，然后进入步骤S1-4。

步骤S1-4，数据分类部15根据每个网络连接数据与每个粒子的 M个中心数据P_dhg之间的距离的大小将所有网络连接数据分成M类，然后进入步骤S1-5。

步骤S1-5，距离计算部14计算每次分类中的所有网络连接数据到对应的中心数据P_dhg之间的距离和，然后进入步骤S1-6。

步骤S1-6，判断设定部16判断N次分类中距离和最小的粒子，并设定该粒子为基准粒子，然后进入步骤S1-7。

步骤S1-7，位置和变化率调整部17调整除基准粒子外的其他粒子的当前位置以及当前变化率，然后进入步骤S1-8。

步骤S1-8，距离计算部14再次分别计算每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离，然后进入步骤S1-9。

步骤S1-9，数据分类部15再次根据每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离的大小将所有网络连接数据分成 m类，然后进入步骤S1-10。

步骤S1-10，距离计算部14再次计算每次分类中的所有网络连接数据到对应的中心数据P_dhg之间的距离和，然后进入步骤S1-11。

步骤S1-11，分类结束判断部18判断位置和变化率调整部调整的次数是否大于预定次数，并判断相邻两次调整的距离和差值是否小于预定阈值，当判断均为否时，进入步骤S1-7；当两个判断中任意一个为是时，进入步骤S1-12。

步骤S1-12，结果输出部19将基准粒子作为分类中心，m个中心数据P_dhg所在的分类作为最终分类进行输出，然后进入步骤S1-13。

步骤S1-13，存储控制部20控制数据存储部存储最终分类，然后进入结束状态。

图3是本发明的实施例中位置和变化率调整部的动作流程图。

如图3所示，本实施例的位置和变化率调整部17的动作流程图包含以下步骤：

步骤S7-1，位置变化率调整单元171根据每个其他粒子的当前变化率调整每个其他粒子的当前位置，并根据基准粒子的当前变化率调整其他粒子的当前变化率，然后进入步骤S7-2。

步骤S7-2，第一交叉位置变化率生成单元172选取N个粒子中任意Z个粒子并将Z个粒子中任意两个不重复的粒子的当前位置以及当前变化率进行交叉运算生成第一交叉位置以及第一交叉变化率，然后进入步骤S7-3。

步骤S7-3，父本选择单元173选择当前基准粒子作为父本，然后进入步骤S7-4。

步骤S7-4，变化率位置叠加单元174选取进行交叉运算后的n 个粒子中任意k个粒子，并将父本的当前位置以及当前变化率与被选取的粒子的当前位置以及当前变化率分别叠加，然后进入步骤S7-5。

步骤S7-5，第二交叉位置变化率生成单元175将叠加后的所有粒子不重复地两两配对，并再次执行交叉运算生成第二交叉位置以及第二交叉变化率，然后进入步骤S7-6。

步骤S7-6，位置变化率变异单元176对每个生成的第二交叉位置以及第二交叉变化率的空间粒子进行变异运算重新生成作为变异位置的当前位置以及作为变异变化率的当前变化率，然后进入结束状态。

实验结果对比及分析

实验的数据集选取了比较权威KDD Cup 99数据的“kddcup.data_10.percent”，该数据集共有491421条记录，正常的总和为97278条，其余的396473均为异常型。异常的分为四类：DoS、 U2R、R2L和Probe。其中每种类型的具体标识种类在表1中列出。在“kddcup.data_10.percent”数据集中被识别出来的标识有22种攻击类型。为了评价分析结果，采用误报率FAR和检测率DR来衡量。

其定义描述如下：

FAR＝被误判为入侵的正常记录数/总测试记录中的正常记录数；

DR＝检测出来的入侵记录数/总测试中的入侵记录数。

分类算法能够应用在网络异常检测是基于以下两个基本的假设：

(1)正常数据的数量远远大于异常数据量；

(2)异常数据在某些属性的取值上明显偏离正常的取值范围。

实验环境：本实验的软硬件环境为：CPU：主频3.0GHz，内存4GB，操作系统Windows7以及Matlab2014a。配置主要参数为：分类数目 M＝2；粒子种群规模N＝15；最大调整次数_{max_iter}＝400；交叉、变异概率p_c,p_m＝rand[0,1]；c₁,c₂均为1。

从测试集A2提取出4组作为测试样本。详细列出随机抽取的各个样本的集合如下表2所示。

表2数据集选取和分类表

该数据集随机抽样满足上述分类算法应用在异常检测中的数据抽取要求，可以作为实验数据进行后续分析。由于该数据集中属性特征之间存在着很大差异性，而且它们可能是采用不同的单位来度量。为了消除由于度量标准的不同对分类的影响，必须对样本中的数据做标准归一化处理，即将原始数据从原来所处空间转换到一个标准化空间。对于一个n×k的矩阵，方法如下：

其中,

即为标准化后的实验数据值。通过计算每个特征值与平均值之问的标准偏差，可得到该特征值存正规化空间中的新值。

试验开始需要先获取分类中心，选取训练集A1进行普通K均值分类,将该结果保存作为后续使用。

Fisher分值定义为：F＝S_b/S_w，其中S_b表示类间离散度，描述两类样本间的距离；S_w为类内离散度，描述同类样本间的离散度。定义分别为正常样本、异常样本和所有样本的均值。由此可以得到

分别为正常样本，异常样本的方差。对于数据集中的41个属性可以得到第r个属性的Fisher分值表达式为

式中

分别为第i类样本和所有样本的第r个特征的均值；为第i类样本第r个特征的方差。计算41个属性的Fisher分值可以得到其排序。在进行Fisher分排序时不用具体区分攻击方式，即将所有入侵类型都归为异常，这样形成了二值分类问题。按照Fisher判别法得到41个属性Fisher分排序为：

(12,23,32,2,24,36,31,6,39,25,26,38,29,4,34,33,37,35,13,28,27,41,14,3,19,8,13,22,14,18,7,11,5,15,1,17,16,10,9,20,21)。

为了验证该Fisher排序进行特征提取的作用，设计实验，将排序的结果抽取前10，20，13分别自成一组特征组，随机抽取10，20， 13个特征分别自成一组特征组，将41个属性全部作为一组特征组，分别对这7个特征组输入测试集A2-混合类型测试，采用本实施例中的网络连接数据分类方法统计FAR，DR和运行时间如下表3所示。

表3网络连接数据分类方法的特征提取列表

从上述表格中可以看出Fisher排序提取特征属性能够极大地减少运行时间。可以看出异常检测的误报率在Fisher排序后相对于随机抽取和完全属性组有改善，说明有些冗余特征属性会给异常检测带来干扰。

在上述实验的基础上，本发明选取Fisher排序前15个特征作为该 PSO算法的输入数据向量，并比较位置和变化率调整部17中仅采用位置变化率调整单元171的网络连接数据分类系统(第一分类)、仅采用位置变化率调整单元171和第一交叉位置变化率生成单元172 (第二分类)的网络连接数据分类系统以及采用位置变化率调整单元 171、第一交叉位置变化率生成单元172、父本选择单元173、变化率位置叠加单元174、第二交叉位置变化率生成单元175和位置变化率变异单元176(第三分类)的网络连接数据分类系统的性能。如下表 4给出3种算法的在测试集A2中的检测结果和运行时间。

表4三种算法检测效果对比表

从上表看出采用第一分类的装置异常检测效果明显低于第三分类的网络连接数据分类系统，而采用第二分类的装置要略优于采用第一分类的装置。当然，在时间消耗上采用第三分类的网络连接数据分类系统相对其他两种来说较多。

如图4所示，本实施例的网络连接数据分类系统10在采用第三分类的分类过程中后期收敛，前期有略微波动。虽然第三分类在第 261次后出现跳动，是由于本实施例在研究过程中加入了变异因子，其虽然引起了短期内的跳动，但为后代的持续优化提供了更好的基础，因此此处跳动属于增加变异因子的正常现象。而第一分类的收敛变化率最快，也很容易陷入局部最优值；第二分类的收敛过程较为平稳，但是最终的离散度和整体高于第三分类的网络连接数据分类系统。

实施例的作用与效果

根据本实施例所涉及的网络连接数据分类方法，因为具有以下步骤：设定M个分类；根据d个特征属性值设定一个d维求解空间；在d维求解空间中随机生成N个粒子；分别计算每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离；根据每个网络连接数据与每个粒子的M个中心数据P_dhg之间的距离的大小将所有网络连接数据分成M类，并根据n个数据点进行n次分类；计算每次分类中的所有网络连接数据到对应的中心数据P_dhg之间的距离和；判断N 次分类中距离和最小的粒子；调整其他粒子的当前位置以及当前变化率；判断是否结束分类；将结果进行输出，所以，本实施例的网络连接数据分类方法可以准确地对网络连接数据进行分类，而且具有更高的检测率和更低的误报率，且具有较好的收敛性。不仅如此，本实施例的网络连接数据分类方法还可以用于对运营数据的异常数据、证券交易数据的异常数据进行准确分类，并有效检测判断出异常数据。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种网络连接数据分类方法，用于对E个不同的网络连接数据进行分类，每个所述网络连接数据含有d个特征属性值，其特征在于，包括以下步骤：

步骤一，设定M个表示所述网络连接数据为正常类型或不同的攻击类型的分类；

步骤二，根据所述d个特征属性值设定一个d维求解空间；

步骤三，在所述d维求解空间中随机生成N个粒子，并且对每一个所述粒子相应地设定M个d维的中心数据(P_dh1，P_dh2，···，P_dhM)(h＝1，···，N)作为所述粒子的当前位置、以及设定M个d维的变化率(v_dh1，v_dh2，···，v_dhM)作为所述粒子的当前变化率，每个中心数据P_dhg(g＝1，···，M)包含与所述d个特征属性值相呼应的d个粒子位置属性值，每个当前变化率v_dhg包含与所述d个粒子位置属性值相对应的d个中心粒子变化率；

步骤四，分别计算每个所述网络连接数据与每个所述粒子的M个中心数据P_dhg之间的距离；

步骤五，根据每个所述网络连接数据与每个所述粒子的M个中心数据P_dhg之间的所述距离的大小将所有所述网络连接数据分成M类，并根据N个粒子对所述网络连接数据进行N次分类；

步骤六，计算每次分类中的所有所述网络连接数据到对应的中心数据P_dhg之间的距离和；

步骤七，判断N次分类中所述距离和最小的粒子，并设定该粒子为基准粒子；

步骤八，调整除所述基准粒子外的其他粒子的当前位置以及当前变化率；

步骤九，再次分别计算每个所述网络连接数据与每个所述粒子的M个中心数据P_dhg之间的距离；

步骤十，再次根据每个所述网络连接数据与每个所述粒子的M个中心数据P_dhg之间的所述距离的大小将所有所述网络连接数据分成M类，所述数据分类部再次对所述网络连接数据进行n次分类；

步骤十一，再次计算每次所有所述网络连接数据到对应的中心数据P_dhg之间的距离和；

步骤十二，判断调整的次数是否大于预定次数，并判断相邻两次调整的距离和差值是否小于预定阈值；

步骤十三，当两个判断中任意一个为是时，将所述基准粒子作为分类中心，M个中心数据P_dhg所在的分类作为最终分类进行输出；

步骤十四，当判断均为否时，再次调整除所述基准粒子外的粒子的当前位置以及当前变化率，

其中，N、M、W、d均为大于1的正整数，且W＞M，N≥5M，