CN104766098A

CN104766098A - 一种分类器的构建方法

Info

Publication number: CN104766098A
Application number: CN201510213464.5A
Authority: CN
Inventors: 余翔湛; 叶麟; 张伟哲; 何慧; 张宏莉; 丛小亮; 王岳
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2015-04-30
Filing date: 2015-04-30
Publication date: 2015-07-08

Abstract

本申请涉及一种分类器的构建方法，该构建方法包括：利用欠采样方法来去除训练样本集中的部分多数类训练样本，并用欠采样处理后的训练样本集更新当前的训练样本集，其中训练样本集包括多数类训练样本和少数类训练样本，且训练样本集中的每个训练样本均已知类别；以及对训练样本集中的少数类训练样本进行过采样，以利用经过过采样处理后的训练样本集构建分类器。本发明的一种分类器的构建方法，有效去除训练样本中的噪声，能够有效地改善数据不平衡的问题，大大提高对训练样本数据分类的准确率，而且计算量较小、方法简单。

Description

一种分类器的构建方法

技术领域

本发明涉及数据处理领域，具体涉及一种分类器的构建方法。

背景技术

基于机器学习的流量识别方法中，在流量数据集中会出现噪声数据，这种数据对于不平衡数据中的小样本数据的识别影响尤为巨大，所以对网络流量进行数据清理去噪对于分类的准确性有着重要的意义。针对网络流量分类的机器学习方法，由于在流量识别中可能同时存在小部分的噪声流量以及小部分需要获取的有用的流量。

目前，现有的用于例如流量数据等数据的识别或分类技术，分类的准确率较低，而且计算量大、方法复杂，过于耗时。

发明内容

本发明提供一种分类器的构建方法，其目的是解决现有的用于例如流量数据等数据的识别或分类技术分类的准确率较低的问题。

为了实现上述发明目的，本发明采取的技术方案如下：

一种分类器的构建方法，该构建方法包括：利用欠采样方法来去除训练样本集中的部分多数类训练样本，并用欠采样处理后的训练样本集更新当前的训练样本集，其中训练样本集包括多数类训练样本和少数类训练样本，且训练样本集中的每个训练样本均已知类别；以及对训练样本集中的少数类训练样本进行过采样，以利用经过过采样处理后的训练样本集构建分类器。

优选地，在对训练样本集中的少数类训练样本进行过采样的步骤之后还包括：利用Tomek links方法对当前的训练样本集进行清理。

优选地，对训练样本集中的少数类训练样本进行过采样的步骤包括：确定少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本；以及对孤立训练样本、边界训练样本和中心训练样本分别采用对应的倍率进行过采样。

优选地，确定少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本的步骤包括：设当前训练样本集包括至少一个少数类子集和至少一个多数类子集，针对每一个少数类子集中的每个少数类训练样本执行如下处理：计算该少数类训练样本与其他子集中各个样本之间的距离，以在其他子集中确定该少数类训练样本的K最近邻，k为正整数，计算多数类训练样本在该少数类训练样本的K最近邻中所占比值，若该比值为100％，则将该少数类训练样本确定为孤立训练样本，若该比值大于或等于0且小于预定值，则将该少数类训练样本确定为中心训练样本，其中预定值大于0且小于100％，以及若该比值大于或等于预定值，则将该少数类训练样本确定为边界训练样本。

优选地，对孤立训练样本、边界训练样本和中心训练样本分别采用对应的倍率进行过采样的步骤包括：对于中心训练样本，按照第一倍率在该中心训练样本的K最近邻所包括的少数类训练样本与该中心训练样本之间进行随机线性插值；以及对于边界训练样本，按照第二倍率在该边界训练样本的K最近邻与该边界训练样本之间进行随机线性插值。

优选地，第一倍率大于第二倍率。

优选地，利用欠采样方法来去除训练样本集中的部分多数类训练样本的步骤包括：假设训练样本集为，选择一个多数类训练样本(例如训练样本集中的任一个多数类训练样本)，将所选的一个多数类训练样本和训练样本集中所有的少数类训练样本所构成的集合作为待处理子集；根据1-NN(1 NearestNeighbor，即K最近邻(kNN，k-Nearest Neighbor)分类算法中的k为1)方法，反复利用待处理子集对训练样本进行分类，将误分类的样本加入到待处理子集中以更新待处理子集，直至待处理子集不变为止；以及将当前的待处理子集作为经过欠采样处理后的训练样本集。

优选地，利用经过过采样处理后的训练样本集构建分类器的步骤包括：利用最佳优先(BestFirst)算法对经过过采样处理后的训练样本集进行特征选择，以降低该训练样本集的维度；对当前的训练样本集的各个维度进行离散化处理；以及根据朴素贝叶斯、支持向量机和C4.5决策树算法中任一种方法，利用离散化处理后的训练样本集构建分类器。

优选地，分类器的构建方法应用于网络流量识别。

本发明和现有技术相比，具有如下有益效果：

上述根据本发明实施例的一种分类器的构建方法，能够有效去除训练样本中的噪声，能够有效地改善数据不平衡的问题，大大提高对训练样本数据分类的准确率，而且计算量较小、方法简单，耗时较短。该方法对少数类的识别率相对现有技术提高较大(误报率降低)，准确率能够达到98％。

附图说明

图1A是本发明实施例的一种分类器的构建方法的一个示例的流程图；

图1B是本发明实施例的一种分类器的构建方法的另一个示例的流程图；

图2A是欠抽样处理前的训练样本集；

图2B是欠抽样处理后的训练样本集；

图2C是利用传统Smote方法进行过采样所得到的训练样本集；

图2D是利用本发明的分类器的构建方法进行过采样所得到的训练样本集；

图2E是利用Tomek links进行清理的训练样本集。

具体实施方式

为使本发明的发明目的、技术方案和有益效果更加清楚明了，下面结合附图对本发明的实施例进行说明，需要说明的是，在不冲突的情况下，本申请中的实施例和实施例中的特征可以相互任意组合。

本发明的实施例提供了一种分类器的构建方法，该构建方法包括：利用欠采样方法来去除训练样本集中的部分多数类训练样本，并用欠采样处理后的训练样本集更新当前的训练样本集，其中训练样本集包括多数类训练样本和少数类训练样本，且训练样本集中的每个训练样本均已知类别；以及对训练样本集中的少数类训练样本进行过采样，以利用经过过采样处理后的训练样本集构建分类器。

图1A示出了根据本发明实施例的一种分类器的构建方法的一个示例处理的流程图。如图1A所示，该处理流程开始之后，首先执行步骤S110。

在步骤S110中，利用欠采样方法来去除训练样本集中的部分多数类训练样本，并用欠采样处理后的训练样本集更新当前的训练样本集，其中训练样本集包括多数类训练样本和少数类训练样本，且训练样本集中的每个训练样本均已知类别。然后，执行步骤S120。

由此，通过步骤S110中的欠采样处理，能够去除掉训练样本集中一些不重要的样本，从而达到压缩样本空间的目的。

其中，上述训练样本集可以包括多个类别，该多个类别可以包括至少一个少数类和至少一个多数类，并且，每个类别都分别对应地包括一个或多个训练样本。例如，假设训练样本集包括三类，即第一类、第二类和第三类，其中第一类和第二类是多数类，而第三类是少数类，第一类中包括多个样本(作为该类别下的多数类样本的示例)，第二类中包括多个样本(作为该类别下的多数类样本的示例)，而第三类中也包括多个样本(作为该类别下的少数类样本的示例)。

在步骤S120中，对训练样本集中的少数类训练样本进行过采样，以利用经过过采样处理后的训练样本集构建分类器。然后，结束处理。

这样，通过步骤S120中的过采样处理，能够减少少数类训练样本中的噪声对分类学习的不利影响，使得所构建的分类器能够更准确地识别测试样本的类别。

优选地，步骤S110中利用欠采样方法来去除训练样本集中的部分多数类训练样本的步骤可以包括：选择一个多数类训练样本，将所选的一个多数类训练样本和所有的少数类训练样本所构成的集合作为待处理子集；根据1-NN方法，反复利用待处理子集对训练样本进行分类，将误分类的样本加入到待处理子集中以更新待处理子集，直至待处理子集不变为止；以及将当前的待处理子集作为经过欠采样处理后的训练样本集。

优选地，步骤S120中对训练样本集中的少数类训练样本进行过采样的步骤可以包括：确定少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本；以及对孤立训练样本、边界训练样本和中心训练样本分别采用对应的倍率进行过采样。

优选地，确定少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本的步骤可以包括：设当前训练样本集包括至少一个少数类子集和至少一个多数类子集，针对每一个少数类子集中的每个少数类训练样本执行如下处理：计算该少数类训练样本与其他子集中各个样本之间的距离，以在其他子集中确定该少数类训练样本的K最近邻，k为正整数(k例如为5)，计算多数类训练样本在该少数类训练样本的K最近邻中所占比值，若该比值为100％，则将该少数类训练样本确定为孤立训练样本，若该比值大于或等于0且小于预定值(预定值例如可以为50％)，则将该少数类训练样本确定为中心训练样本，其中预定值大于0且小于100％，以及若该比值大于或等于预定值，则将该少数类训练样本确定为边界训练样本。其中，预定值例如可以根据经验值来设定，或者也可以通过试验的方法来确定，这里不再详述

其中，每个少数类子集即该少数类下的所有训练样本所构成的集合，而每个多数类子集即该多数类下的所有训练样本所构成的集合。例如，假设当前训练样本集中包括如上所述的第一类(多数类)、第二类(多数类)和第三类(少数类)，则当前训练样本集的所有子集包括两个多数类子集和一个少数类子集。

此外，上述“计算该少数类训练样本与其他子集中各个样本之间的距离”中所述的“其他子集”是指在当期训练样本集的所有子集中除了“该少数类训练样本”所属子集之外的其他各个子集。例如，假设“该少数类训练样本”为第一类所对应的多数类子集中的一个训练样本，则“计算该少数类训练样本与其他子集中各个样本之间的距离”，也即，计算该少数类训练样本与第二类所对应的多数类子集中每个训练样本之间的距离，以及计算该少数类训练样本与第三类所对应的少数类子集中每个训练样本之间的距离。

优选地，对孤立训练样本、边界训练样本和中心训练样本分别采用对应的倍率进行过采样的步骤可以包括：对于中心训练样本，按照第一倍率在该中心训练样本的K最近邻所包括的少数类训练样本与该中心训练样本之间进行随机线性插值；以及对于边界训练样本，按照第二倍率在该边界训练样本的K最近邻与该边界训练样本之间进行随机线性插值。其中，在上述过采样步骤中，对于孤立训练样本不进行处理。

优选地，第一倍率可以大于第二倍率。其中，第一倍率和第二倍率例如可以根据经验值来设定，或者也可以通过试验的方法来确定，这里不再详述。

上述对于中心训练样本或边界训练样本所进行的随机线性插值例如可以根据如下公式一来进行。

公式一：x_new＝x+rand(0,1)*(y_i-x)

其中，x_new为构造的新样本，x为少数类中的样本x，rand()为random(随机)函数，rand(0,1)取0-1间的随机数，y_i为x的k邻近少数类样本。

优选地，利用经过过采样处理后的训练样本集构建分类器的步骤包括：利用最佳优先算法对经过过采样处理后的训练样本集进行特征选择，以降低该训练样本集的维度；对当前的训练样本集的各个维度进行离散化处理；以及根据朴素贝叶斯、支持向量机和C4.5决策树算法中任一种方法，利用离散化处理后的训练样本集构建分类器。

优选地，分类器的构建方法应用于网络流量识别。

根据一种实现方式，如图1B所示，在上述步骤S120中，当执行完对训练样本集中的少数类训练样本所进行的过采样之后，还可以利用Tomek links方法对当前的训练样本集进行清理，然后利用清理后的训练样本集构建分类器。

这样，通过Tomek links方法的清理处理，能够消除孤立点(即噪声)对分类学习的影响，进一步优化训练样本集。

在步骤S120中，对于训练样本集中每个类别中的每个样本，在其他各个类别中，分别找到与该样本之间距离最小的那个匹配样本，这样，该样本就与所找到的各个匹配样本之间分别构成Tomek links。例如，对于训练样本集中的上述三个类，假设样本x1为第一类中的任一个训练样本，在第二类中，假设在第二类所有训练样本之中找到样本x2与样本x1之间的距离d(x2,x1)最小，也即，第二类中不存在其他样本x使得该样本x到样本x1之间的距离d(x,x1)<d(x2,x1)，并且，在第一类中也不存在其他样本x’使得该样本x’到样本x2之间的距离d(x’,x2)<d(x2,x1)，这样，样本对(x2，x1)构成一个Tomek links；此外，在第三类中，假设在第三类所有训练样本之中找到样本x3与样本x1之间的距离d(x3,x1)最小，则样本对(x3，x1)构成一个Tomek links。

由此，对于所得到的每个Tomek links，如果该Tomek links对应的样本对中的至少一个样本为噪点、或者其对应的两个样本在其对应两类的边界上，则将该Tomek links对应的样本对中的两个样本全部从当前的训练样本集中删除，由此可将分错的训练样本去除。

下面描述根据本发明实施例的一种分类器的构建方法的应用示例。

首先采用欠抽样算法去除不重要的多数类样本，压缩样本空间。图2A为欠抽样(即欠采样)处理前的训练样本集，图2B为欠抽样处理后的训练样本集。由图2A和图2B可以看出，例如上述欠抽样处理可以去除大量不重要的多数类训练样本。对于整个训练样本空间E，需要寻找一个不变的子集F。首先，随机挑选一个多数类训练样本和所有少数类训练样本加入F。然后使用1-NN(1Nearest Neighbor，即K最近邻(kNN，k-Nearest Neighbor)分类算法中的k为1)方法用F中的训练样本对E进行分类，将错误分类的训练样本加入F，重复迭代这一过程直到F不变。就得到了欠抽样后的训练样本集F，并利用F设置训练样本的线性搜索器，用于后面Tomek links算法。由于后续需要多次计算样本的k邻近这种需要高计算能力的操作，在压缩后的数据集上能大大减少这方面的需求。如图2A-2D所示，在该应用示例中，训练样本集中共包括两个类别，即圆形样本所表示的多数类训练样本、以及三角形样本所表示的少数类训练样本。此外，在图2C和图2D中，方形样本表示过抽样处理所得的少数类训练样本。

接着对数据集进行过采样：

1)对于原始数据集S，S₀为少数类训练样本集，S₁为多数类训练样本集。为了找到S₀中的边界训练样本集S₀₀，对S₀中的每个训练样本x，计算其到其它训练样本集中每个训练样本的距离。获得其k个最近邻，一般k＝5。Y为x的K最近邻中的少数类训练样本，y∈Y。Z为x的K最近邻样本，z∈Z。

2)对于K最近邻中的多数类训练样本所占比率V，若V＝1，则确定该训练样本为孤立点，不处理。

3)若0<＝V<V₀(一般V₀＝50％)，则确定该训练样本为安全样本(即中心训练样本)，按倍率n(作为第一倍率的示例)，在x与y之间进行随机线性插值，插入上述公式一。

4)若V₀<＝V，则确定该训练样本为边界样本，按倍率m(m<n)(m作为第二倍率的示例)，在x与z之间进行随机线性插值，公式同公式一。

如图2A所示，少数类训练样本存在噪点。如果利用传统的Smote方法处理，其对所有少数类训练样本均按相同倍率进行了过采样，会造成更多的噪声数据，如图2C所示，从而影响少数类的分类效果。而利用本发明的上述方法在过抽样过程中，就对少数类中孤立、边界及中心的训练样本分别进行不同倍率的过抽样处理来平衡数据集，尽可能地减少了少数类中噪声对过抽样的影响，所得处理后的训练样本集如图2D所示。

然后，对于上述处理后的当前训练样本集，再使用Tomek links进行清理。对于不属于同一个类的两个训练样本(xi,xj)，它们间的距离为d(xi,xj)。若不存在其他训练样本x，使得d(xi,x)<d(xi,xj)或d(x,xj)<d(xi,xj)，则样本对(xi,xj)构成一个Tomek links。那么(xi,xj)中的某个训练样本为噪点或者(xi,xj)在这两个类的边界上，样本(xi,xj)都将被删除。这样，可以得到如图2E所示的训练样本集。

以上就完成了训练数据集的预处理工作。接着采用Bayes朴素贝叶斯、SVM支持向量机或C4.5决策树算法，使用经过上述去噪平衡处理后的训练集(图2E所示)得出的分类器，对测试集进行分类。其中，采用Bayes朴素贝叶斯、SVM支持向量机或C4.5决策树算法、利用训练集得到分类器的过程对于本领域技术人员来说是公知的，这里不再详述。

在该应用示例中，采用由加拿大达尔豪斯大学(Dalhousie University)NIMS实验室采集的网络流量数据集(https://projects.cs.dal.ca/projectx/Download.html)，每个样本集包含500001条数据实例，其中少数类样本数约为几百到几千，比重不到1％。经过实验验证，对符合条件的数据集(不平衡且含有噪声的网络流量数据集)，经过本发明的方法处理后的训练集得出的分类器，对少数类的识别率相对现有技术提高较大(误报率降低)，准确率能够达到98％。

通过以上描述可知，上述根据本发明实施例的一种分类器的构建方法，其能够有效去除训练样本中的噪声，能够有效地改善数据不平衡的问题，大大提高对训练样本数据分类的准确率，而且计算量较小、方法简单，耗时较短。上述分类器的构建方法，充分考虑了网络流量数据可能存在的不平衡性以及噪声问题，针对不平衡的网络流量数据并且少数类和多数类均含有噪声数据的训练样本进行预处理后，能为监督学习的机器学习算法训练出更为准确(误报率降低)的分类器。

虽然本发明所揭示的实施方式如上，但其内容只是为了便于理解本发明的技术方案而采用的实施方式，并非用于限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭示的核心技术方案的前提下，可以在实施的形式和细节上做任何修改与变化，但本发明所限定的保护范围，仍须以所附的权利要求书限定的范围为准。

Claims

1.一种分类器的构建方法，其特征在于，所述分类器的构建方法包括：

利用欠采样方法来去除训练样本集中的部分多数类训练样本，并用欠采样处理后的训练样本集更新当前的训练样本集，其中所述训练样本集包括多数类训练样本和少数类训练样本，且所述训练样本集中的每个训练样本均已知类别；以及

对训练样本集中的少数类训练样本进行过采样，以利用经过所述过采样处理后的训练样本集构建分类器。

2.根据权利要求1所述的分类器的构建方法，其特征在于，在所述对训练样本集中的少数类训练样本进行过采样的步骤之后还包括：

利用Tomek links方法对当前的所述训练样本集进行清理。

3.根据权利要求1或2所述的分类器的构建方法，其特征在于，所述对训练样本集中的少数类训练样本进行过采样的步骤包括：

确定所述少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本；以及

对所述孤立训练样本、所述边界训练样本和所述中心训练样本分别采用对应的倍率进行过采样。

4.根据权利要求3所述的分类器的构建方法，其特征在于，所述确定所述少数类训练样本中的孤立训练样本、边界训练样本和中心训练样本的步骤包括：

设当前所述训练样本集包括至少一个少数类子集和至少一个多数类子集，针对每一个少数类子集中的每个少数类训练样本执行如下处理：

计算该少数类训练样本与其他子集中各个样本之间的距离，以在所述其他子集中确定该少数类训练样本的K最近邻，k为正整数，

计算多数类训练样本在该少数类训练样本的K最近邻中所占比值，

若该比值为100％，则将该少数类训练样本确定为孤立训练样本，

若该比值大于或等于0且小于预定值，则将该少数类训练样本确定为中心训练样本，其中所述预定值大于0且小于100％，以及

若该比值大于或等于所述预定值，则将该少数类训练样本确定为边界训练样本。

5.根据权利要求4所述的分类器的构建方法，其特征在于，所述对所述孤立训练样本、所述边界训练样本和所述中心训练样本分别采用对应的倍率进行过采样的步骤包括：

对于所述中心训练样本，按照第一倍率在该中心训练样本的K最近邻所包括的少数类训练样本与该中心训练样本之间进行随机线性插值；以及

对于所述边界训练样本，按照第二倍率在该边界训练样本的K最近邻与该边界训练样本之间进行随机线性插值。

6.根据权利要求5所述的分类器的构建方法，其特征在于，所述第一倍率大于所述第二倍率。

7.根据权利要求1或2所述的分类器的构建方法，其特征在于，所述利用欠采样方法来去除训练样本集中的部分多数类训练样本的步骤包括：

选择一个多数类训练样本，将所选的一个多数类训练样本和所有的少数类训练样本所构成的集合作为待处理子集；

根据1-NN方法，反复利用所述待处理子集对所述训练样本进行分类，将误分类的样本加入到所述待处理子集中以更新所述待处理子集，直至所述待处理子集不变为止；以及

将当前的待处理子集作为经过欠采样处理后的训练样本集。

8.根据权利要求1或2所述的分类器的构建方法，其特征在于，所述利用经过所述过采样处理后的训练样本集构建分类器的步骤包括：

利用最佳优先算法对经过所述过采样处理后的训练样本集进行特征选择，以降低该训练样本集的维度；

对当前的训练样本集的各个维度进行离散化处理；以及

根据朴素贝叶斯、支持向量机和C4.5决策树算法中任一种方法，利用离散化处理后的训练样本集构建分类器。

9.根据权利要求1或2所述的分类器的构建方法，其特征在于，所述分类器的构建方法应用于网络流量识别。