CN105574547B

CN105574547B - 适应动态调整基分类器权重的集成学习方法及装置

Info

Publication number: CN105574547B
Application number: CN201510974685.4A
Authority: CN
Inventors: 李智星; 张亮; 王进; 王占; 王占一
Original assignee: Beijing Qihoo Technology Co Ltd; Chongqing University of Post and Telecommunications
Current assignee: Beijing Qihoo Technology Co Ltd; Chongqing University of Post and Telecommunications
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2019-03-05
Anticipated expiration: 2035-12-22
Also published as: CN105574547A

Abstract

一种自适应动态调整基分类器权重的集成学习方法及装置，其中方法包括：构建多个基分类器；基于多个所述基分类器，对采集到的训练样本进行聚类；确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；计算所述测试样本与聚类后的训练样本各个簇的相似度；对所述适应度和所述相似度进行整合，得到每个所述测试样本针对各个所述基分类器相适应的权重，并将多个所述权重组合为一个强分类器；装置包括：构建模块、聚类模块、适应度确定模块、相似度计算模块以及组合模块。本发明通过结合聚类算法，并考虑测试样本与基分类器的适应性，动态地对基分类器进行权重赋值，可有效提高分类器的泛化能力和分类精确率。

Description

适应动态调整基分类器权重的集成学习方法及装置

技术领域

本发明涉及数据挖掘、机器学习等领域，尤其涉及一种自适应动态调整基分类器权重的集成学习方法及装置。

背景技术

集成学习是近年来数据挖掘和机器学习领域的研究热点之一。集成学习通过将多个基分类器的分类结果按一定的方式进行组合集成，从而决定最终的分类，可以显著提高学习系统的泛化能力，被视为具有广泛应用前景的技术。

现有集成学习方法在集成过程中，往往忽略了测试样本与基分类器之间的适应性问题，即有的测试样本适合第一个基分类器，有的适合第二个基分类器等。

Boosting方法是一种应用广泛的基分类器组合方法，该算法虽然在一定程度上提高了基分类器的分类性能，但是由于该算法是静态地对基分类器进行权重赋值，这样就可能会导致给予与测试样本不相匹配的基分类器权重分配，降低了集成分类正确率。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述测试样本与基分类器的适应性问题。

根据本发明的一个方面，提供了一种自适应动态调整基分类器权重的集成学习方法，包括：

构建多个基分类器；

基于多个所述基分类器，对采集到的训练样本进行聚类；

确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；

计算所述测试样本与聚类后的训练样本各个簇的相似度；

对所述适应度和所述相似度进行整合，得到每个所述测试样本针对各个所述基分类器相适应的权重，并将多个所述权重组合为一个强分类器。

进一步地，采用下列任意一种方式构建多个所述基分类器：

通过对相同的所述训练样本选取不同的分类算法训练得到；

调整所述训练样本的权重并利用不同或相同的分类算法训练得到；

调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。

进一步地，采用下列任意一种方式对所述训练样本进行聚类：

划分聚类、层次聚类、密度聚类、网格聚类。

进一步地，计算各个所述基分类器对聚类后的训练样本的各个簇的适应度矩阵的过程进一步包括：

利用n个所述基分类器对聚类算法生成的k个簇分别进行测试，计算得出基分类器在各个簇上的错误率e_ij；

利用错误率e_ij进行相应的对数处理，从而得到n个基分类器对k个簇的适应度f_ij，并以n*k矩阵的形式进行存储，得到适应度矩阵；其中，i表示第i个基分类器，j表示第j个簇类。

进一步地，计算所述测试样本与聚类后的训练样本各个簇的相似度向量的过程进一步包括：

针对某一个测试样本，在动态求出所述测试样本到各个簇质心的距离d_j后，得出所述测试样本与各个簇的相似度1/d_j，并以k*1向量的形式进行存储，得到相似度向量。

进一步地，当所述适应度以适应度矩阵形式存以及所述相似度以相似度向量形式存储时，则所述适应度矩阵和所述相似度向量进行整合的过程进一步包括：

将所述适应度矩阵和所述相似度向量相乘，最终得到针对每一个所述测试样本的多个基分类器的权重向量，将多个基分类器的权重向量组合为一个适合所述测试样本的强分类器。

根据本发明的另一个方面，提供了一种自适应动态调整基分类器权重的集成学习装置，包括：

构建模块，用于构建多个基分类器；

聚类模块，用于基于多个所述基分类器，对采集到的训练样本进行聚类；

适应度确定模块，用于确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；

相似度计算模块，用于计算所述测试样本与聚类后的训练样本各个簇的相似度；

组合模块，用于对所述适应度和所述相似度进行整合，得到每个所述测试样本针对各个所述基分类器相适应的权重，并将多个所述权重组合为一个强分类器。

进一步地，所述构建模块采用下列任意一种方式构建多个所述基分类器：

通过对相同的所述训练样本选取不同的分类算法训练得到；

进一步地，所述聚类模块采用下列任意一种方式对所述训练样本进行聚类：

划分聚类、层次聚类、密度聚类、网格聚类。

进一步地，所述适应度确定模块进一步用于，利用n个所述基分类器对聚类算法生成的k个簇分别进行测试，计算得出基分类器在各个簇上的错误率e_ij；利用错误率e_ij进行相应的对数处理，从而得到n个基分类器对k个簇的适应度f_ij，并以n*k矩阵的形式进行存储，得到适应度矩阵；其中，i表示第i个基分类器，j表示第j个簇类。

进一步地，所述相似度计算模块进一步用于，针对某一个测试样本，在动态求出所述测试样本到各个簇质心的距离d_j后，得出所述测试样本与各个簇的相似度1/d_j，并以k*1向量的形式进行存储，得到相似度向量。

进一步地，当所述适应度以适应度矩阵形式存以及所述相似度以相似度向量形式存储时，所述组合模块进一步用于，将所述适应度矩阵和所述相似度向量相乘，最终得到针对每个所述测试样本的多个基分类器的权重向量，将多个基分类器的权重向量组合为适合所述测试样本的强分类器。

本发明的有益效果为：

本发明通过结合聚类算法，并考虑测试样本与基分类器的适应性，动态地对基分类器进行权重赋值，可有效提高分类器的泛化能力和分类精确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明所述方法实施例的流程示意图；

图2为本发明所述方法实施例中，单层决策树基分类器构建流程示意图；

图3为本发明所述方法实施例中，测试样本与基分类器的关系示意图；

图4为本发明所述装置实施例的结构示意图。

具体实施例

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

下面结合附图和具体的实施方式对本发明所述方法作进一步的描述。

参考图1，图1为本发明实施例一提供基于数据流量特征的流量异常检测中的自适应动态调整基分类器权重的集成学习方法流程图，具体可以包括如下步骤：

S101，基分类器构建

参考图2，图2为本实施例提供单层决策树基分类器构建流程示意图，其中，g_i代表第i个训练样本集的权重向量，D_i代表第i个训练样本集，DS_i代表第i个单层决策树。本实施例中，使用给定带有标签的数据样本对单层决策树进行训练，选择AdaBoost算法的方式构建n个单层决策树，每个单层决策树即为一个基分类器。

其中，带有标签的数据样本是由多维特征属性组成，数据样本为异常的，其标签为1；反之，数据样本正常的，其标签为0。

其中，多个基分类器的构建可选择下列任意一种方式：

通过对相同的训练样本选取不同的分类算法得到；调整训练样本的权重并利用不同(或相同)的分类算法得到；调整训练样本的特征权重并利用不同(或相同)的分类算法得到。

本实施例选择调整训练样本的权重并利用相同的分类器方式构建基分类器作为示例，在每一轮构建基分类器过程中，集中关注上一轮难分的训练样本，具体步骤如下：

1)对训练样本D的权值初始化为1/d，其中，d表示带有标签的数据样本的数目；

2)根据样本权重从训练样本D中有放回抽样得到新的训练样本集D_i，其中，i＝1,2,...n；

3)通过新的训练样本集D_i训练出第i个单层决策树。

4)计算第i个单层决策树对训练样本集D_i的错误率Error_i，Error_i是通过训练样本集D_i中每个错分的数据样本的加权和求得，具体公式如下所示：

其中，err(X_j)是样本X_j的误分类误差，即当样本X_j被错分，err(X_j)为1，反之为0，g_ij为第i个训练样本集的第j个样本权重，j＝1,2,...d。

5)当Error_i大于预先设定的阈值，说明当前构建的第i单层决策树分类性能差，需丢弃，转至步骤2)重新构建第i个单层决策树。

6)当一个训练样本若被第i个单层决策树正确分类，该样本的权重则需乘以Error_i/(1-Error_i)。然后对训练样本D中所有样本进行规范化，使得它们的权值总和与初始权重总和保持相同。为此，每个训练样本需乘以旧的权值之和再与新权重之和相除。

7)转至步骤2)，直至i达到预先设定的值n。

本实施例中，关于单层决策树构建过程如下：

数据训练样本集D_i，其中样本集中有0、1标签，为此该样本集有2个标签，记C_u(u＝1,2)。p_u表示样本集D_i中任意样本属于C_u的概率，并计算对D_i中的样本分类所需的平均信息量Info(D_i)：

同时按照某属性A划分D_i的样本，其中属性A为有v个不同值。若A为离散值，则将D_i划分为{D_i1,D_i2,...,D_iv}，并计算基于属性A对D_i中的样本分类所需的平均信息量Info_A(D_i)。

其中，|D_ix|表示子集D_ix的样本数目，|D_i|表示样本集D_i的数目d，x＝1,2,3...v。

若属性A为连续值，需确定A的最佳分裂点。首先将A的值进行递增排序，并取每一对相连值的中点为可能的分裂点。由于属性A有v个值，为此产生v-1个可能分裂点，计算该v-1个点中每一个点Info_A(D_i)，其分区的个数为2，即x＝1,2。哪一个点的Info_A(D_i)最小，则将该点选为属性A中的最佳分裂点。其中D_i1中样本集合A的属性值是小于等于分裂点，D_i2中样本集合A的属性值是大于分裂点。

综合上述，计算其信息增益Gain(A)＝Info(D_i)-Info_A(D_i)，同时计算属性A的分裂信息值SplitInfo_A(D_i)：

最终得到增益率GrianRate(A)：

通过上述步骤，分别计算流量数据样本的各个属性，选择增益率最大的那个属性为单层决策树的根节点。

S102，测试样本聚类

需要说明的是，对测试样本进行聚类的方法可选择下列任意一种方式：

划分方式(比如K-means，K-centroid)、层次聚类、密度聚类、网格聚类等。

本实施例通过K-means对带有标签的数据样本进行聚类。

首先对初始带有标签的数据样本集D随机取k个样本，作为k个簇各自的中心，然后将剩下的样本指派到距离最近的质心，形成k个簇，并更新每个簇的质心，直到簇不再发生变化或者达到最大的迭代次数。

S103，计算各个基分类器对训练样本各个簇的适应度

本实施例针对训练样本的每个簇，通过训练好的n个单层决策树对其进行分类，计算n个单层决策树分别对k个簇样本集的错误率e_ij，其中，i代表第i个单层决策树，j代表第j个训练样本簇，并用矩阵E_n*k的形式存储起来，如下为矩阵E_n*k存储格式：

当一个单层决策树对一个簇的识别率越小，则说明这个簇的样本越不适合该基分类器，即表明该基分类器分类这个簇的样本能力越小。在本实施例中，通过如下公式计算出第i个单层决策树对第j个训练样本簇分类的适应度f_ij，并用矩阵F_n*k存储n个单层决策树分别对训练样本k个簇分类的适应度，如下为矩阵F_n*k存储格式：

S104，计算测试样本与训练样本各个簇的相似度

针对m个待测的数据样本，计算其到训练样本k个簇的中心点的距离d_ij，其中，i代表第i个训练样本簇，j表示第j个待测数据样本，并用矩阵D_k*m存储，如下为矩阵D_k*m存储格式：

当一个样本离一个簇类中心越近，则说明该样本与这个簇类越相似。在本实施例中，利用如下公式计算出第j个待测样本与第i个训练样本簇的相似度s_ij，并用矩阵S_k*m存储m个待测数据样本分别对k个训练样本簇的相似度，如下为矩阵S_k*m存储格式：

S105，计算每个基分类器对测试样本的适应度(即权重)

参考图3，图3为本实施例提供测试样本与基分类器的关系示意图。在本次实施例中，通过综合考虑基分类器的适应度与测试样本的相似度，利用如下公式计算，可得到第i个单层决策树对第j个待测样本数据的适应度，即权重w_ij。并用矩阵W_n*m存储n个单层决策树分别对m个待测数据样本的权重，即通过适应度矩阵F_n*k与相似度矩阵S_k*m进行相乘从而得到，如下为矩阵W_n*m存储格式：

在本次实施例中，选用m个待测数据样本，其中矩阵W_n*m的第i列代表n个单层决策树分别对第i个待测数据样本的权重。针对第i个待测数据样本，将分类为1的所有单层决策树权重叠加，同样将分类为0的所有单层决策树权重叠加。当分类为1的总权重高于分类为0的总权重，表明当前数据样本是异常，反之，则为正常。

S106，多个基分类器权重组合为一个强分类器

整合每个簇对各个基分类器的适应度矩阵和该测试样本与各个簇的相似度向量，即将适应度矩阵和相似度向量相乘，最终得到针对一个测试样本的多个基分类器的权重向量，进而将多个基分类器组合为一个适合该测试样本的强分类器。

接下来结合附图4对本发明的装置实施例进一步说明。

如图4所示，图4为本发明所述装置实施例的结构示意图，具体可以包括：

构建模块401，主要负责构建多个基分类器；该构建模块采用下列任意一种方式构建多个所述基分类器：

通过对相同的所述训练样本选取不同的分类算法训练得到；

聚类模块402，主要负责基于多个所述基分类器，对采集到的训练样本进行聚类；该聚类模块采用下列任意一种方式对所述训练样本进行聚类：

划分聚类、层次聚类、密度聚类、网格聚类。

适应度确定模块403，主要负责确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；具体的说就是，该适应度确定模块利用n个所述基分类器对聚类算法生成的k个簇分别进行测试，计算得出基分类器在各个簇上的错误率e_ij；利用错误率e_ij进行相应的对数处理，从而得到n个基分类器对k个簇的适应度f_ij，并以n*k矩阵的形式进行存储，得到适应度矩阵；其中，i表示第i个基分类器，j表示第j个簇类。

相似度计算模块404，主要负责计算所述测试样本与聚类后的训练样本各个簇的相似度；具体的说就是，该相似度计算模块针对某一个测试样本，在动态求出所述测试样本到各个簇质心的距离d_j后，得出所述测试样本与各个簇的相似度1/d_j，并以k*1向量的形式进行存储，得到相似度向量。

组合模块405，主要用于对上述所述适应度矩阵和所述相似度向量进行整合，即将上述适应度矩阵和相似度向量相乘，得到每个所述测试样本针对各个所述基分类器相适应的权重，并将多个所述权重组合为一个强分类器。最终得到针对每个所述测试样本的多个基分类器的权重向量，将多个基分类器的权重向量组合为适合所述测试样本的强分类器。

需要说明是的是，上述装置的具体实现过程，由于方法实施例中已有详细说明，故此处不再赘述。

综上所述，在本次方法及装置实施例中，根据每个测试样本与训练样本各个簇的相似度，与每个簇对各个单层决策树的适应度联系，可以动态的调整各个单层决策树权重组合，最终得到针对不同测试样本动态地对单层决策树进行权重赋值的强分类器。通过结合聚类算法，并考虑测试样本与基分类器的适应性，动态地对基分类器进行权重赋值，可有效提高分类器的泛化能力和分类精确率。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种自适应动态调整基分类器权重的集成学习方法，其特征在于，应用于基于数据流量特征的流量异常检测中，包括：

构建多个基分类器，分别计算流量数据样本的各个属性；

基于多个所述基分类器，对采集到的训练样本进行聚类；

计算测试样本与聚类后的训练样本各个簇的相似度；

对所述适应度和所述相似度进行整合；当所述适应度以适应度矩阵形式存储以及所述相似度以相似度向量形式存储时，将所述适应度矩阵和所述相似度向量相乘，最终得到针对每一个所述测试样本的多个基分类器的权重向量，将多个基分类器的权重向量组合为一个适合所述测试样本的强分类器；

所述适应度的确定利用n个所述基分类器对聚类算法生成的k个簇分别进行测试，计算得出基分类器在各个簇上的错误率e_ij；利用错误率e_ij进行相应的对数处理，从而得到n个基分类器对k个簇的适应度并以n*k矩阵的形式进行存储，得到适应度矩阵；其中，i表示第i个基分类器，j表示第j个簇类；

所述训练样本和测试样本均为流量数据样本。

2.根据权利要求1所述的一种自适应动态调整基分类器权重的集成学习方法，其特征在于，采用下列任意一种方式构建多个所述基分类器：

通过对相同的所述训练样本选取不同的分类算法训练得到；

3.根据权利要求1所述的一种自适应动态调整基分类器权重的集成学习方法，其特征在于，采用下列任意一种方式对所述训练样本进行聚类：

划分聚类、层次聚类、密度聚类、网格聚类。

4.根据权利要求1到3中任意一项所述的一种自适应动态调整基分类器权重的集成学习方法，其特征在于，计算所述测试样本与聚类后的训练样本各个簇的相似度向量的过程进一步包括：

5.一种自适应动态调整基分类器权重的集成学习装置，其特征在于，应用于基于数据流量特征的流量异常检测中，包括：

构建模块，用于构建多个基分类器，分别计算流量数据样本的各个属性；

适应度确定模块，用于确定各个所述基分类器对聚类后的训练样本的各个簇的适应度；利用n个所述基分类器对聚类算法生成的k个簇分别进行测试，计算得出基分类器在各个簇上的错误率e_ij；利用错误率e_ij进行相应的对数处理，从而得到n个基分类器对k个簇的适应度并以n*k矩阵的形式进行存储，得到适应度矩阵；其中，i表示第i个基分类器，j表示第j个簇类；

相似度计算模块，用于计算测试样本与聚类后的训练样本各个簇的相似度；

组合模块，用于对所述适应度和所述相似度进行整合；当所述适应度以适应度矩阵形式存储以及所述相似度以相似度向量形式存储时，所述组合模块将所述适应度矩阵和所述相似度向量相乘，最终得到针对每一个所述测试样本的多个基分类器的权重向量，将多个基分类器的权重向量组合为一个适合所述测试样本的强分类器；

所述训练样本和测试样本均为流量数据样本。

6.根据权利要求5所述的一种自适应动态调整基分类器权重的集成学习装置，其特征在于，所述构建模块采用下列任意一种方式构建多个所述基分类器：

通过对相同的所述训练样本选取不同的分类算法训练得到；

7.根据权利要求6所述的一种自适应动态调整基分类器权重的集成学习装置，其特征在于，所述聚类模块采用下列任意一种方式对所述训练样本进行聚类：

划分聚类、层次聚类、密度聚类、网格聚类。

8.根据权利要求5到7中任一项所述一种自适应动态调整基分类器权重的集成学习装置，其特征在于，所述相似度计算模块进一步用于，针对某一个测试样本，在动态求出所述测试样本到各个簇质心的距离d_j后，得出所述测试样本与各个簇的相似度1/d_j，并以k*1向量的形式进行存储，得到相似度向量。