CN110391955B

CN110391955B - 网络数据预处理方法、装置、设备及可读存储介质

Info

Publication number: CN110391955B
Application number: CN201910662548.5A
Authority: CN
Inventors: 林明锋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2022-04-12
Anticipated expiration: 2039-07-22
Also published as: WO2021012535A1; CN110391955A

Abstract

本发明涉及人工智能技术领域，公开了一种网络数据预处理方法，包括以下步骤：使用第一样本数据训练第一支持向量机模型，得到第二支持向量机模型；通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据；判断分类正确率是否小于预设阈值；若是，则采用反向传播算法调整所述第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述分类正确率大于或等于所述预设阈值；通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到干扰数据与非干扰数据。本发明还公开了一种网络数据预处理装置、设备及计算机可读存储介质。本发明可从网络数据中有效分类出干扰数据。

Description

网络数据预处理方法、装置、设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种网络数据预处理方法、装置、设备及计算机可读存储介质。

背景技术

目前，随着网络数据数量的增多，网络故障的数量以及网络故障率也有明显增幅，因此对网络数据网络故障诊断的正确性提出了更高的要求。由于网络数据中一般都不可避免地夹带干扰数据，干扰数据的存在会导致网络故障诊断结果的正确率偏低，尤其是对于一些对网络故障诊断的准确率要求较高的高精尖企业来说，干扰数据对其的不利影响更为显著，现有技术中一般在发生网络故障警报时，获取网络数据日志，并对网络数据日志诊断，得到初步诊断结果，再由人工网络故障诊断专家结合实际场景中的各种干扰因素给出最终诊断结果，这样的诊断方式往往会因为人的主观因素而造成对网络故障诊断的误判。从网络数据中有效分类出干扰数据，是提高网络故障诊断结果正确率的重要因素。因此，对待诊断网络数据进行预处理，从待诊断网络数据中有效分类出干扰数据与非干扰数据，以避免干扰数据对网络诊断结果造成干扰，是目前亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种网络数据预处理方法、装置、设备及计算机可读存储介质，旨在解决现有技术中干扰数据对网络诊断结果造成干扰的技术问题。

为实现上述目的，本发明提供一种网络数据预处理方法，所述网络数据预处理方法包括以下步骤：

将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，得到第一支持向量机模型；

使用第一样本数据训练所述第一支持向量机模型，得到第二支持向量机模型；

通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据；

根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初始异常网络数据的第一分类正确率；

判断所述第一分类正确率是否小于第一预设阈值；

若所述第一分类正确率小于第一预设阈值，则采用反向传播算法调整所述第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第一分类正确率大于或等于所述第一预设阈值,若否，则不处理；

通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据，其中，所述多层第三支持向量机模型中各层的模型数为2^K-1，K为所述预置多层第三支持向量机模型的第K层；

判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦合类型；

若所述第一干扰类异常网络数据的所属类型为数据耦合类型，则对所述第一干扰类异常网络数据进行解耦处理，得到解耦数据，并通过所述预置多层第三支持向量机模型对所述解耦数据进行分类，得到第二非干扰类异常网络数据和第二干扰类异常网络数据,若否，则不处理。

可选地，所述通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据具体包括以下步骤：

根据预设规则调整所述第二支持向量机模型的系数，得到系数调整后的第二支持向量机模型；

通过所述系数调整后的第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据。

可选地，所述通过所述第二支持向量机模型对第二样本数据进行分类，得到第二初始异常网络数据和第二初始正常网络数据具体包括以下步骤：

根据预置异常网络数据，计算所述第二支持向量机模型分类出的所述第二初始异常网络数据的第二分类正确率，并判断所述第二正确率是否大于第二预置阈值；

若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率大于第二预设阈值，则调整所述第二支持向量机模型的松弛因子；

若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率小于或等于第二预设阈值，则根据预置正常网络数据，计算所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率；

判断所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率是否小于第三预设阈值；

若所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率小于第三预设阈值，则调整所述第二支持向量机模型惩罚项系数的大小，直至所述第二支持向量机模型分类出的所述正常网络数据的分类正确率大于或等于第三预设阈值，得到系数调整后的第二支持向量机模型，若否，则得到系数调整后的第二支持向量机模型。

可选地，在所述通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据的步骤之前，还包括以下步骤：

利用第三训练样本对多层第三支持向量机模型中各层初始第三支持向量机模型依次进行初始训练，得到初始第一非干扰类异常网络数据和初始第一干扰类异常网络数据，其中，在所述多层第三支持向量机模型中，上一层初始多层第三支持向量机模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入；

根据预置初始第一干扰类异常网络数据，计算所述初始第一干扰类异常网络数据的第四分类正确率；

判断所述第四分类正确率是否大于第四预设阈值；

若所述第四分类正确率大于所述第四预设阈值，则得到训练完成的多层第三支持向量机模型，若否，则利用所述第三训练样本继续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向量机模型，直至所述第四分类正确率大于第四预设阈值。

进一步地，为实现上述目的，本发明还提供一种网络数据预处理装置，所述网络数据预处理装置包括：

部署模块，用于将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，得到第一支持向量机模型；

第一训练模块，用于使用第一样本数据训练所述第一支持向量机模型，得到第二支持向量机模型；

第一分类模块，用于通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据；

第一计算模块，用于根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初始异常网络数据的第一分类正确率；

第一判断模块，用于判断所述第一分类正确率是否小于第一预设阈值；

第一调整模块，用于若所述第一分类正确率小于第一预设阈值，则采用反向传播算法调整第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第一分类正确率大于或等于所述第一预设阈值；

第二分类模块，用于通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据，其中，所述多层第三支持向量机模型中各层的模型数为2^K-1，K为所述预置多层第三支持向量机模型的第K层；

第二判断模块，判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦合类型；

第三分类模块，用于若所述第一干扰类异常网络数据的所属干扰类型为数据耦合类型，则对所述第一干扰类异常网络数据进行解耦处理，得到解耦数据，并通过所述预置多层第三支持向量机模型对所述解耦数据进行分类，得到第二非干扰类异常网络数据和第二干扰类异常网络数据。

可选地，所述网络数据预处理装置，还包括：

第一确定模块，用于基于初始支持向量机模型的初始参数，确定所述初始支持向量机模型的训练次序，所述初始参数包括惩罚项系数；

第二确定模块，用于计算所述第一训练样本中的异常网络数据数量和非异常网络数据数量的比值，基于所述比值确定所述初始支持向量机模型的初始权重。

可选地，所述第一分类模块包括：

第一调整单元，用于根据预设规则调整所述第二支持向量机模型的系数，得到系数调整后的第二支持向量机模型；

分类单元，用于通过所述系数调整后的第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据。

可选地，所述第一调整单元具体用于：

通过所述第二支持向量机模型对第二样本数据进行分类，得到第二初始异常网络数据和第二初始正常网络数据；

若所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率小于第三预设阈值，则调整所述第二支持向量机模型惩罚项系数的大小，直至所述第二支持向量机模型分类出的所述正常网络数据的分类正确率大于或等于第三预设阈值，得到系数调整后的第二支持向量机模型。

可选地，所述网络数据预处理装置，还包括：

第二训练模块，用于利用第三训练样本对多层第三支持向量机模型中各层初始第三支持向量机模型依次进行初始训练，得到初始第一非干扰类异常网络数据和初始第一干扰类异常网络数据，其中，在所述多层第三支持向量机模型中，上一层初始多层第三支持向量机模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入；

第四计算模块，用于根据预置初始第一干扰类异常网络数据，计算所述初始第一干扰类异常网络数据的第四分类正确率；

第五判断模块，用于判断所述第四分类正确率是否大于第四预设阈值；

第三训练模块，用于若所述第四分类正确率小于或等于第四预设阈值，则利用所述第三训练样本继续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向量机模型，直至所述第四分类正确率大于第四预设阈值。

进一步地，为实现上述目的，本发明还提供第二种网络数据预处理装置，所述网络数据预处理装置包括：

第二确定模块，用于计算所述第一训练样本中的异常网络数据数量和非异常网络数据数量的比值，基于所述比值确定所述初始支持向量机模型的初始权重；

训练模块，用于使用第一样本数据训练所述第一支持向量机模型，得到第二支持向量机模型；

调整模块，用于若所述第一分类正确率小于第一预设阈值，则采用反向传播算法调整第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第一分类正确率大于或等于所述第一预设阈值；

第二分类模块，用于通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据；

进一步地，为实现上述目的，本发明还提供第三种网络数据预处理装置，所述网络数据预处理装置包括：

第二计算模块，用于根据预置初始第一干扰类异常网络数据，计算所述初始第一干扰类异常网络数据的第四分类正确率；

第二判断模块，用于判断所述第四分类正确率是否大于第四预设阈值；

第三训练模块，用于利用所述第三训练样本继续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向量机模型，直至所述第四分类正确率大于第四预设阈值；

第二分类模块，用于通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据。

进一步地，为实现上述目的，本发明还提供一种网络数据预处理设备，所述网络数据预处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的网络数据预处理程序，所述网络数据预处理程序被所述处理器执行时实现如上述任一项所述的网络数据预处理方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有网络数据预处理程序，所述网络数据预处理程序被处理器执行时实现如上述任一项所述的网络数据预处理方法的步骤。

本发明将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，得到第一支持向量机模型，由于初始支持向量机模型的数量至少为三个，且以不同的方式进行连接，可以提高第一支持向量机模型对网络数据的分类能力，除此之外，本发明还通过预置多层第三支持向量机模型对异常网络数据进行多次分类，实现从网络数据中有效分类出干扰数据，避免干扰数据对网络诊断结果造成干扰。

附图说明

图1为本发明实施例方案涉及的网络数据预处理设备运行环境的结构示意图；

图2为本发明网络数据预处理方法第一实施例的流程示意图；

图3为本发明网络数据预处理方法第二实施例的流程示意图；

图4为图2中步骤S30的细化流程示意图；

图5为图4中步骤S301的细化流程示意图；

图6为本发明网络数据预处理方法第三实施例的流程示意图；

图7为本发明网络数据预处理装置第一实施例的功能模块示意图；

图8为本发明网络数据预处理装置第二实施例的功能模块示意图；

图9为本发明网络数据预处理装置第三实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种网络数据预处理设备。

参照图1，图1为本发明实施例方案涉及的网络数据预处理设备运行环境的结构示意图。

如图1所示，该网络数据预处理设备包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volati le memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的网络数据预处理设备的硬件结构并不构成对网络数据预处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及网络数据预处理程序。其中，操作系统是管理和控制网络数据预处理设备和软件资源的程序，支持网络数据预处理程序以及其它软件和/或程序的运行。

在图1所示的网络数据预处理设备的硬件结构中，网络接口1004主要用于接入网络；用户接口1003主要用于侦测确认指令和编辑指令等。而处理器1001可以用于调用存储器1005中存储的网络数据预处理程序，并执行以下网络数据预处理方法的各实施例的操作。

基于上述网络数据预处理设备硬件结构，提出本发明网络数据预处理方法的各个实施例。

参照图2，图2为本发明网络数据预处理方法第一实施例的流程示意图。本实施例中，所述网络数据预处理方法包括以下步骤：

步骤S10，将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，得到第一支持向量机模型；

本实施例中,将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，各个初始支持向量机模型都具有不同的初始参数，各个初始支持向量机模型之间既可以以串联的方式进行连接，也可以以并联的方式进行连接，还可以以串联与并联相互组合的方式进行连接，采用由至少三个初始支持向量机模型可以增加对网络数据的处理量，同时多个初始支持向量机模型共同对网络数据进行分类决策。

步骤S20，使用第一样本数据训练所述第一支持向量机模型，得到第二支持向量机模型；

本实施例中,第一支持向量机模型不具备准确分类的能力，因此需要使用第一样本数据训练所述第一支持向量机模型，得到第二支持向量机模型。

步骤S30，通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据；

本实施例中，为了使用第一训练样本训练出可以对网络数据进行粗粒度分类的第二支持向量机模型，每一次训练，都要通过第二支持向量机模型输出初始异常网络数据和初始正常网络数据。

步骤S40，根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初始异常网络数据的第一分类正确率；

本实施例中，第一支持向量机模型只是个最初的模型，并不能准确的去对数据进行分类，对于分类好的的结果需要人工去检查分类的结果是否是当前场景所需的，但是在本方案中可以从预先归类好的数据库中去获取人工预先分开好的异常网络数据，如果第二支持向量机模型分类出的初始异常网络数据与人工预先分开好的异常网络数据相比较，得到第一分类正确率，例如正确率为20％。

步骤S50，判断所述第一分类正确率是否小于第一预设阈值；

本实施例中,为了使第二支持向量机模型对第二训练样本进行分类后，得到的分类结果满第一预设阈值，例如90％，需要根据第一分类正确率判断第一支持向量机模型分类的准确率是否小于第一预设阈值。

步骤S60，若所述第一分类正确率小于第一预设阈值，则采用反向传播算法，调整所述第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第二支持向量机模型分类出的所述初始异常网络数据的第一分类正确率大于或等于所述第一预设阈值，得到第二支持向量机模型，若所述第一分类正确率大于或等于第一预设阈值，则得到第二支持向量机模型；

本实施例中,由于网络数据的分类结果是通过第二支持向量机模型中的至少是三个初始支持向量机模型共同决策的，因此会出现多个分类结果，对于不同的分类结果，其误差值也是不尽相同，在此用到了反向传播算法去调节各个初始支持向量机模型所占的权重，使得最终输出的结果满足第一预设阈值。

步骤S70，通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据，其中，所述多层第三支持向量机模型中各层的模型数为2^K-1，K为所述预置多层第三支持向量机模型的第K层；

本实施例中，通过预置多层第三支持向量机模型对异常网络数据进行分类，其中，预置多层第三支持向量机模型中各层预置初始第三支持相量机的个数为N＝2^K-1，其中，N为预置多层第三支持向量机模型中第K层预置初始第三支持相量机的个数，K为预置多层第三支持向量机模型的第K层。

步骤S80，判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦合类型；

本实施例中，为了确认干扰类异常网络数据集中的数据所属的干扰类型，本实施例中采用遍历的方式，得到遍历数据。将遍历数据与预置干扰类异常网络数据的干扰类型进行匹配，得到匹配结果，根据所述预置匹配结果判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦合类型。

步骤S90，若所述第一干扰类异常网络数据的所属干扰类型为数据耦合类型，则对所述第一干扰类异常网络数据进行解耦处理，得到解耦数据，并通过所述预置多层第三支持向量机模型对所述解耦数据进行分类，得到第二非干扰类异常网络数据和第二干扰类异常网络数据，若否，则不处理。

本实施例中，若所述第一干扰类异常网络数据的所属干扰类型为数据耦合类型，则对所述第一干扰类异常网络数据进行解耦处理，得到解耦数据,并通过预置多层第三支持向量机模型对所述解耦数据进行分类，得到第二非干扰类异常网络数据和第二干扰类异常网络数据。

参照图3，图3为本发明网络数据预处理方法第二实施例的流程示意图。本实施例中，所述网络数据预处理方法包括以下步骤：

步骤S100，基于初始支持向量机模型的初始参数，确定所述初始支持向量机模型的训练次序，所述初始参数包括惩罚项系数；

本实施例中，在初始场景下，不同的初始支持向量机模型，均有不同的初始参数，初始参数可以是初始支持向量机模型的惩罚项系数，根据初始参数可以确定具有不同初始参数的初始支持向量机模型的训练次序。

步骤S110，计算所述第一训练样本中的异常网络数据数量和非异常网络数据数量的比值，基于所述比值确定所述初始支持向量机模型的初始权重。

本实施例中，计算所述第一训练样本中的异常网络数据数量和非异常网络数据数量的比值，基于所述比值确定所述初始支持向量机模型的初始权重。例如，有甲乙丙丁四个初始支持向量机模型，第一训练样本中的异常网络数据数量和非异常网络数据数量的比值为1:1，则甲乙丙丁四个初始支持向量机模型的初始权重均为25。

参照图4，图4为图2中步骤S30的细化流程示意图，本实施例中，所述步骤S30包括以下步骤：

步骤S301，根据预设规则调整所述第二支持向量机模型的系数，得到系数调整后的第二支持向量机模型；

本实施例中，根据预设规则调整所述第二支持向量机模型的系数，得到系数调整后的第二支持向量机模型。并不是直接使用第二支持向量机模型对网络数据进行分类的，而是根据预设规则调整所述第二支持向量机模型的系数，再使系数调整后的第二支持向量机模型对网络数据进行分类。

步骤S302，通过所述系数调整后的第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据。

本实施例中，之所以用系数调整后的第二支持向量机模型对第二样本数据进行分类，是因为在没有对第二支持向量机模型的系数系数调整前，分类出了的数据的正确率很难达到要求，例如，分类出的第一初始异常网络数据数据的正确率为99％，分类出的第一初始正常网络数据的正确率为10％，则说明第一初始正常网络数据中包含大量第一初始异常网络数据数据。

参照图5，图5为图4中步骤S301的细化流程示意图，本实施例中，所述步骤S301包括以下步骤：

步骤S3011，通过所述第二支持向量机模型对第二样本数据进行分类，得到第二初始异常网络数据和第二初始正常网络数据；

本实施例中，通过所述第二支持向量机模型对第二样本数据进行分类，得到第二初始异常网络数据和第二初始正常网络数据。

步骤S3012，根据预置异常网络数据，计算所述第二支持向量机模型分类出的所述第二初始异常网络数据的第二分类正确率，并判断所述第二正确率是否大于第二预置阈值；

本实施例中，根据预置异常网络数据，计算所述第二支持向量机模型分类出的所述第二初始异常网络数据的第二分类正确率，并判断所述第二正确率是否大于第二预置阈值。

本实施例中，第二预设阈值指的是对干扰类异常网络数据的分类的准确率为99％，即以干扰类异常网络数据为重点关注对象，即使非干扰类异常网络数据的分类区域内出现干扰类异常网络数据也忽略不计，只需干扰类异常网络数据的准确率高于99％即可。

步骤S3013，若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率大于第二预设阈值，则调整所述第二支持向量机模型的松弛因子；

本实施例中，若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率大于第二预设阈值，则调整所述第二支持向量机模型的松弛因子。松弛因子指的是用于调节各个分类中不同数据占比的系数，调整第二支持向量机模型的松弛因子，将尽可能多的初始异常网络数据分类出来，例如，干扰类异常网络数据中非干扰类异常网络数据的占比为10％，非干扰类异常网络数据中干扰类异常网络数据的占比为90％，则说明大量的干扰类异常网络数据被划分到了非干扰类异常网络数据的分类中，这样在对非干扰类异常网络数据进行网络故障诊断时，就会对诊断结果造成影响。

步骤S3014，若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率小于或等于第二预设阈值，则根据预置正常网络数据，计算所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率；

本实施例中，若所述第二支持向量机模型分类出的所述初始异常网络数据的第二分类正确率小于或等于第二预设阈值，根据预置正常网络数据，计算所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率。

步骤S3015，判断所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率是否小于第三预设阈值；

本实施例中，判断所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率是否小于第三预设阈值，第三预设阈值指的是非干扰类异常网络数据的分类区域内会出现的干扰类异常网络数据的数量为一定数值，例如，10％。由于在第二支持向量机模型中加入了松弛因子，即可以容纳一定的错误率，那么非干扰类异常网络数据的分类区域内会出现干扰类异常网络数据。

步骤S3016，若所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率小于第三预设阈值，则调整所述第二支持向量机模型惩罚项系数的大小，直至所述第二支持向量机模型分类出的所述正常网络数据的分类正确率大于或等于第三预设阈值，得到系数调整后的第二支持向量机模型，若否，则不处理。

本实施例中，惩罚项系数指的是用于调节各个分类中不同数据的占比的系数，变更惩罚项系数可以防止由于条件过于松弛，而导致将一部分干扰类异常网络数据划分到非干扰类异常网络数据的分类区域中。可允许分类器在对样本进行分类时出现错误，这样做可以避免第二支持向量机模型过拟合，若发生过拟合，则第二支持向量机模型仅能对以往学习到的数据进行分类。

参照图6，图6为本发明网络数据预处理方法第三实施例的流程示意图。本实施例中，所述网络数据预处理方法包括以下步骤：

步骤120，利用第三训练样本对多层第三支持向量机模型中各层初始第三支持向量机模型依次进行初始训练，得到初始非干扰类异常网络数据和初始干扰类异常网络数据，其中，在所述多层第三支持向量机模型中，上一层初始多层第三支持向量机模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入；

本实施例中，利用第三训练样本对多层第三支持向量机模型中各层初始第三支持向量机模型依次进行初始训练，得到初始分类结果，其中，所述初始分类结果为：初始非干扰类异常网络数据和初始干扰类异常网络数据，在所述多层第三支持向量机模型中，上一层初始多层第三支持向量机模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入。

步骤S130，根据预置初始干扰类异常网络数据计算所述初始干扰类异常网络数据的第四分类正确率；

本实施例中，根据预置初始干扰类异常网络数据计算所述初始干扰类异常网络数据的第四分类正确率。

步骤S140，判断所述第四分类正确率是否大于第四预设阈值；

本实施例中，判断所述第四分类正确率是否大于第四预设阈值。

步骤S150，若所述第四分类正确率大于所述第四预设阈值，则得到训练完成的多层第三支持向量机模型,若否，则返回步骤S120。

本实施例中，若所述第四分类正确率大于所述第四预设阈值，则得到训练完成的多层第三支持向量机模型，若所述第四分类正确率小于或等于所述第四预设阈值，则利用所述第三训练样本继续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向量机模型，直至所述第四分类正确率大于所述第四预设阈值。

本发明还提供一种网络数据预处理装置。

参照图7，图7为本发明网络数据预处理装置第一实施例的功能模块示意图。本实施例中，所述网络数据预处理装置包括：

部署模块10，用于将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，得到第一支持向量机模型；

第一训练模块20，用于使用第一样本数据训练所述第一支持向量机模型，得到第二支持向量机模型；

第一分类模块30，用于通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据；

第一计算模块40，用于根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初始异常网络数据的第一分类正确率；

第一判断模块50，用于判断所述第一分类正确率是否小于第一预设阈值；

第一调整模块60，用于若所述第一分类正确率小于第一预设阈值，则采用反向传播算法调整第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第一分类正确率大于或等于所述第一预设阈值；

第二分类模块70，用于通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据，其中，所述多层第三支持向量机模型中各层的模型数为2^K-1，K为所述预置多层第三支持向量机模型的第K层；

第二判断模块80，用于判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦合类型；

第三分类模块90，用于若所述第一干扰类异常网络数据的所属干扰类型为数据耦合类型，则对所述第一干扰类异常网络数据进行解耦处理，得到解耦数据，并通过所述预置多层第三支持向量机模型对所述解耦数据进行分类，得到第二非干扰类异常网络数据和第二干扰类异常网络数据。

本实施例中，部署模块10用于将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，得到第一支持向量机模型；第一训练模块20用于使用第一样本数据训练所述第一支持向量机模型，得到第二支持向量机模型；第一分类模块30用于通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据；第一计算模块40用于根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初始异常网络数据的第一分类正确率；第一判断模块50用于判断所述第一分类正确率是否小于第一预设阈值；第一调整模块60用于若所述第一分类正确率小于第一预设阈值，则采用反向传播算法调整第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第一分类正确率大于或等于所述第一预设阈值；本装置还包括：第二分类模块70、第二判断模块80和第三分类模块90用于对第一干扰类异常网络数据进行解耦处理，得到解耦数据，并通过所述预置多层第三支持向量机模型对所述解耦数据进行分类，得到第二非干扰类异常网络数据和第二干扰类异常网络数据。本实施例提供的装置可以实现将干扰类数据与非干扰类数据进行分类。

参照图8，图8为本发明网络数据预处理装置第二实施例的功能模块示意图。本实施例中，所述网络数据预处理装置包括：

第一确定模块20，用于基于初始支持向量机模型的初始参数，确定所述初始支持向量机模型的训练次序，所述初始参数包括惩罚项系数；

第二确定模块30，用于计算所述第一训练样本中的异常网络数据数量和非异常网络数据数量的比值，基于所述比值确定所述初始支持向量机模型的初始权重；

训练模块40，用于使用第一样本数据训练所述第一支持向量机模型，得到第二支持向量机模型；

第一分类模块50，用于通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据；

第一计算模块60，用于根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述初始异常网络数据的第一分类正确率；

第一判断模块70，用于判断所述第一分类正确率是否小于第一预设阈值；

调整模块80，用于若所述第一分类正确率小于第一预设阈值，则采用反向传播算法调整第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第一分类正确率大于或等于所述第一预设阈值；

第二分类模块90，用于通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据；

第二判断模块100，用于判断所述第一干扰类异常网络数据的所属干扰类型是否为数据耦合类型；

第三分类模块110，用于若所述第一干扰类异常网络数据的所属干扰类型为数据耦合类型，则对所述第一干扰类异常网络数据进行解耦处理，得到解耦数据，并通过所述预置多层第三支持向量机模型对所述解耦数据进行分类，得到第二非干扰类异常网络数据和第二干扰类异常网络数据。

本实施例中，本装置还包括部署模块10、第一确定模块20、第二确定模块30、训练模块40、第一分类模块50、第一计算模块60、第一判断模块70、调整模块80、第二分类模块90、第二判断模块100和第三分类模块110。本实施例提供的装置可以为不同的初始支持向量机模型设置权重，并对第一支持向量机模型进行训练，得到第二支持向量机模型，可采用多个支持向量机模型分别对数据进行分类处理。

参照图9，图9为本发明网络数据预处理装置第三实施例的功能模块示意图。本实施例中，所述网络数据预处理装置包括：

调整模块60，用于若所述第一分类正确率小于第一预设阈值，则采用反向传播算法调整第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第一分类正确率大于或等于所述第一预设阈值；

第二训练模块70，用于利用第三训练样本对多层第三支持向量机模型中各层初始第三支持向量机模型依次进行初始训练，得到初始第一非干扰类异常网络数据和初始第一干扰类异常网络数据；

第二计算模块80，用于根据预置初始第一干扰类异常网络数据，计算所述初始第一干扰类异常网络数据的第四分类正确率；

第二判断模块90，用于判断所述第四分类正确率是否大于第四预设阈值；

第三训练模块100，用于利用所述第三训练样本继续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向量机模型，直至所述第四分类正确率大于第四预设阈值；

第二分类模块110，用于通过预置多层第三支持向量机模型对所述初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据，所述多层第三支持向量机模型中各层的模型数为2^K-1，K为所述预置多层第三支持向量机模型的第K层。

本实施例中，部署模块10用于将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，得到第一支持向量机模型；本实施例中还用到了第一训练模块20、第一分类模块30、第一计算模块40、第一判断模块50、调整模块60、第二训练模块70、第二计算模块80、第二判断模块90、第三训练模块100和第二分类模块110。通过上述装置实现了从待诊断网络数据中分类出干扰数据的目的。

本发明还提供一种计算机可读存储介质。

本实施例中，所述计算机可读存储介质上存储有网络数据预处理程序，所述网络数据预处理程序被处理器执行时实现如上述任一项实施例中所述的网络数据预处理方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种网络数据预处理方法，其特征在于，所述网络数据预处理方法包括以下步骤：

根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述第一初始异常网络数据的第一分类正确率；

判断所述第一分类正确率是否小于第一预设阈值；

若是，则采用反向传播算法调整所述第二支持向量机模型中各个初始支持向量机模型的当前权重，直至所述第一分类正确率大于或等于所述第一预设阈值；

通过预置多层第三支持向量机模型对所述第一初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据，其中，所述多层第三支持向量机模型中各层的模型数为2^K-1，K为所述预置多层第三支持向量机模型的第K层；

判断所述第一干扰类异常网络数据的所属类型是否为数据耦合类型；

若所述第一干扰类异常网络数据的所属类型为数据耦合类型，则对所述第一干扰类异常网络数据进行解耦处理，得到解耦数据，并通过所述预置多层第三支持向量机模型对所述解耦数据进行分类，得到第二非干扰类异常网络数据和第二干扰类异常网络数据。

2.如权利要求1所述的网络数据预处理方法，其特征在于，在所述将至少三个初始支持向量机模型以串联或/和并联的方式部署在分布式计算框架内，得到第一支持向量机模型的步骤之后，还包括：

基于初始支持向量机模型的初始参数，确定所述初始支持向量机模型的训练次序，所述初始参数包括惩罚项系数；

计算所述第一样本数据中的异常网络数据数量和非异常网络数据数量的比值，基于所述比值确定所述初始支持向量机模型的初始权重。

3.如权利要求1所述的网络数据预处理方法，其特征在于，所述通过所述第二支持向量机模型对第二样本数据进行分类，得到第一初始异常网络数据和第一初始正常网络数据的步骤包括：

4.如权利要求3所述的网络数据预处理方法，其特征在于，所述根据预设规则调整所述第二支持向量机模型的系数，得到系数调整后的第二支持向量机模型的步骤包括：

根据预置异常网络数据，计算所述第二支持向量机模型分类出的所述第二初始异常网络数据的第二分类正确率，并判断所述第二分类正确率是否大于第二预设阈值；

若所述第二支持向量机模型分类出的所述第二初始异常网络数据的第二分类正确率大于第二预设阈值，则调整所述第二支持向量机模型的松弛因子；

若所述第二支持向量机模型分类出的所述第二初始异常网络数据的第二分类正确率小于或等于第二预设阈值，则根据预置正常网络数据，计算所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率；

若是，则调整所述第二支持向量机模型惩罚项系数的大小，直至所述第二支持向量机模型分类出的所述第二初始正常网络数据的第三分类正确率大于或等于第三预设阈值，得到系数调整后的第二支持向量机模型。

5.如权利要求1所述的网络数据预处理方法，其特征在于，在所述通过预置多层第三支持向量机模型对所述第一初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据的步骤之前，还包括以下步骤：

利用第三样本数据对多层第三支持向量机模型中各层初始第三支持向量机模型依次进行初始训练，得到初始第一非干扰类异常网络数据和初始第一干扰类异常网络数据，其中，在所述多层第三支持向量机模型中，上一层初始多层第三支持向量机模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入；

判断所述第四分类正确率是否大于第四预设阈值；

若是，则得到训练完成的多层第三支持向量机模型，若否，则利用所述第三样本数据继续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向量机模型，直至所述第四分类正确率大于第四预设阈值。

6.一种网络数据预处理装置，其特征在于，所述网络数据预处理装置包括：

第一计算模块，用于根据预置异常网络数据,计算所述第二支持向量机模型分类出的所述第一初始异常网络数据的第一分类正确率；

第二分类模块，用于通过预置多层第三支持向量机模型对所述第一初始异常网络数据进行分类，得到第一非干扰类异常网络数据和第一干扰类异常网络数据，其中，所述多层第三支持向量机模型中各层的模型数为2^K-1，K为所述预置多层第三支持向量机模型的第K层；

第二判断模块，用于判断所述第一干扰类异常网络数据的所属类型是否为数据耦合类型；

7.如权利要求6所述的网络数据预处理装置，其特征在于，所述网络数据预处理装置还包括：

第二确定模块，用于计算所述第一样本数据中的异常网络数据数量和非异常网络数据数量的比值，基于所述比值确定所述初始支持向量机模型的初始权重。

8.如权利要求6所述的网络数据预处理装置，其特征在于，所述网络数据预处理装置还包括：

第二训练模块，用于利用第三样本数据对多层第三支持向量机模型中各层初始第三支持向量机模型依次进行初始训练，得到初始第一非干扰类异常网络数据和初始第一干扰类异常网络数据，其中，在所述多层第三支持向量机模型中，上一层初始多层第三支持向量机模型输出的上一初始分类结果为下一层初始多层第三支持向量机模型的输入；

第三判断模块，用于判断所述第四分类正确率是否大于第四预设阈值；

第三训练模块，用于利用所述第三样本数据继续训练所述多层第三支持向量机模型中的下一层初始多层第三支持向量机模型，直至所述第四分类正确率大于第四预设阈值。

9.一种网络数据预处理设备，其特征在于，所述网络数据预处理设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的网络数据预处理程序，所述网络数据预处理程序被所述处理器执行时实现如权利要求1-5中任一项所述的网络数据预处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有网络数据预处理程序，所述网络数据预处理程序被处理器执行时实现如权利要求1-5中任一项所述的网络数据预处理方法的步骤。