CN105574547B - 适应动态调整基分类器权重的集成学习方法及装置 - Google Patents

适应动态调整基分类器权重的集成学习方法及装置 Download PDF

Info

Publication number
CN105574547B
CN105574547B CN201510974685.4A CN201510974685A CN105574547B CN 105574547 B CN105574547 B CN 105574547B CN 201510974685 A CN201510974685 A CN 201510974685A CN 105574547 B CN105574547 B CN 105574547B
Authority
CN
China
Prior art keywords
cluster
sample
fitness
weight
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510974685.4A
Other languages
English (en)
Other versions
CN105574547A (zh
Inventor
李智星
张亮
王进
王占
王占一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Chongqing University of Post and Telecommunications
Original Assignee
Beijing Qihoo Technology Co Ltd
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Chongqing University of Post and Telecommunications filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510974685.4A priority Critical patent/CN105574547B/zh
Publication of CN105574547A publication Critical patent/CN105574547A/zh
Application granted granted Critical
Publication of CN105574547B publication Critical patent/CN105574547B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种自适应动态调整基分类器权重的集成学习方法及装置,其中方法包括:构建多个基分类器;基于多个所述基分类器,对采集到的训练样本进行聚类;确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;计算所述测试样本与聚类后的训练样本各个簇的相似度;对所述适应度和所述相似度进行整合,得到每个所述测试样本针对各个所述基分类器相适应的权重,并将多个所述权重组合为一个强分类器;装置包括:构建模块、聚类模块、适应度确定模块、相似度计算模块以及组合模块。本发明通过结合聚类算法,并考虑测试样本与基分类器的适应性,动态地对基分类器进行权重赋值,可有效提高分类器的泛化能力和分类精确率。

Description

适应动态调整基分类器权重的集成学习方法及装置
技术领域
本发明涉及数据挖掘、机器学习等领域,尤其涉及一种自适应动态调整基分类器权重的集成学习方法及装置。
背景技术
集成学习是近年来数据挖掘和机器学习领域的研究热点之一。集成学习通过将多个基分类器的分类结果按一定的方式进行组合集成,从而决定最终的分类,可以显著提高学习系统的泛化能力,被视为具有广泛应用前景的技术。
现有集成学习方法在集成过程中,往往忽略了测试样本与基分类器之间的适应性问题,即有的测试样本适合第一个基分类器,有的适合第二个基分类器等。
Boosting方法是一种应用广泛的基分类器组合方法,该算法虽然在一定程度上提高了基分类器的分类性能,但是由于该算法是静态地对基分类器进行权重赋值,这样就可能会导致给予与测试样本不相匹配的基分类器权重分配,降低了集成分类正确率。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述测试样本与基分类器的适应性问题。
根据本发明的一个方面,提供了一种自适应动态调整基分类器权重的集成学习方法,包括:
构建多个基分类器;
基于多个所述基分类器,对采集到的训练样本进行聚类;
确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;
计算所述测试样本与聚类后的训练样本各个簇的相似度;
对所述适应度和所述相似度进行整合,得到每个所述测试样本针对各个所述基分类器相适应的权重,并将多个所述权重组合为一个强分类器。
进一步地,采用下列任意一种方式构建多个所述基分类器:
通过对相同的所述训练样本选取不同的分类算法训练得到;
调整所述训练样本的权重并利用不同或相同的分类算法训练得到;
调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
进一步地,采用下列任意一种方式对所述训练样本进行聚类:
划分聚类、层次聚类、密度聚类、网格聚类。
进一步地,计算各个所述基分类器对聚类后的训练样本的各个簇的适应度矩阵的过程进一步包括:
利用n个所述基分类器对聚类算法生成的k个簇分别进行测试,计算得出基分类器在各个簇上的错误率eij
利用错误率eij进行相应的对数处理,从而得到n个基分类器对k个簇的适应度fij,并以n*k矩阵的形式进行存储,得到适应度矩阵;其中,i表示第i个基分类器,j表示第j个簇类。
进一步地,计算所述测试样本与聚类后的训练样本各个簇的相似度向量的过程进一步包括:
针对某一个测试样本,在动态求出所述测试样本到各个簇质心的距离dj后,得出所述测试样本与各个簇的相似度1/dj,并以k*1向量的形式进行存储,得到相似度向量。
进一步地,当所述适应度以适应度矩阵形式存以及所述相似度以相似度向量形式存储时,则所述适应度矩阵和所述相似度向量进行整合的过程进一步包括:
将所述适应度矩阵和所述相似度向量相乘,最终得到针对每一个所述测试样本的多个基分类器的权重向量,将多个基分类器的权重向量组合为一个适合所述测试样本的强分类器。
根据本发明的另一个方面,提供了一种自适应动态调整基分类器权重的集成学习装置,包括:
构建模块,用于构建多个基分类器;
聚类模块,用于基于多个所述基分类器,对采集到的训练样本进行聚类;
适应度确定模块,用于确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;
相似度计算模块,用于计算所述测试样本与聚类后的训练样本各个簇的相似度;
组合模块,用于对所述适应度和所述相似度进行整合,得到每个所述测试样本针对各个所述基分类器相适应的权重,并将多个所述权重组合为一个强分类器。
进一步地,所述构建模块采用下列任意一种方式构建多个所述基分类器:
通过对相同的所述训练样本选取不同的分类算法训练得到;
调整所述训练样本的权重并利用不同或相同的分类算法训练得到;
调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
进一步地,所述聚类模块采用下列任意一种方式对所述训练样本进行聚类:
划分聚类、层次聚类、密度聚类、网格聚类。
进一步地,所述适应度确定模块进一步用于,利用n个所述基分类器对聚类算法生成的k个簇分别进行测试,计算得出基分类器在各个簇上的错误率eij;利用错误率eij进行相应的对数处理,从而得到n个基分类器对k个簇的适应度fij,并以n*k矩阵的形式进行存储,得到适应度矩阵;其中,i表示第i个基分类器,j表示第j个簇类。
进一步地,所述相似度计算模块进一步用于,针对某一个测试样本,在动态求出所述测试样本到各个簇质心的距离dj后,得出所述测试样本与各个簇的相似度1/dj,并以k*1向量的形式进行存储,得到相似度向量。
进一步地,当所述适应度以适应度矩阵形式存以及所述相似度以相似度向量形式存储时,所述组合模块进一步用于,将所述适应度矩阵和所述相似度向量相乘,最终得到针对每个所述测试样本的多个基分类器的权重向量,将多个基分类器的权重向量组合为适合所述测试样本的强分类器。
本发明的有益效果为:
本发明通过结合聚类算法,并考虑测试样本与基分类器的适应性,动态地对基分类器进行权重赋值,可有效提高分类器的泛化能力和分类精确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明所述方法实施例的流程示意图;
图2为本发明所述方法实施例中,单层决策树基分类器构建流程示意图;
图3为本发明所述方法实施例中,测试样本与基分类器的关系示意图;
图4为本发明所述装置实施例的结构示意图。
具体实施例
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
下面结合附图和具体的实施方式对本发明所述方法作进一步的描述。
参考图1,图1为本发明实施例一提供基于数据流量特征的流量异常检测中的自适应动态调整基分类器权重的集成学习方法流程图,具体可以包括如下步骤:
S101,基分类器构建
参考图2,图2为本实施例提供单层决策树基分类器构建流程示意图,其中,gi代表第i个训练样本集的权重向量,Di代表第i个训练样本集,DSi代表第i个单层决策树。本实施例中,使用给定带有标签的数据样本对单层决策树进行训练,选择AdaBoost算法的方式构建n个单层决策树,每个单层决策树即为一个基分类器。
其中,带有标签的数据样本是由多维特征属性组成,数据样本为异常的,其标签为1;反之,数据样本正常的,其标签为0。
其中,多个基分类器的构建可选择下列任意一种方式:
通过对相同的训练样本选取不同的分类算法得到;调整训练样本的权重并利用不同(或相同)的分类算法得到;调整训练样本的特征权重并利用不同(或相同)的分类算法得到。
本实施例选择调整训练样本的权重并利用相同的分类器方式构建基分类器作为示例,在每一轮构建基分类器过程中,集中关注上一轮难分的训练样本,具体步骤如下:
1)对训练样本D的权值初始化为1/d,其中,d表示带有标签的数据样本的数目;
2)根据样本权重从训练样本D中有放回抽样得到新的训练样本集Di,其中,i=1,2,...n;
3)通过新的训练样本集Di训练出第i个单层决策树。
4)计算第i个单层决策树对训练样本集Di的错误率Errori,Errori是通过训练样本集Di中每个错分的数据样本的加权和求得,具体公式如下所示:
其中,err(Xj)是样本Xj的误分类误差,即当样本Xj被错分,err(Xj)为1,反之为0,gij为第i个训练样本集的第j个样本权重,j=1,2,...d。
5)当Errori大于预先设定的阈值,说明当前构建的第i单层决策树分类性能差,需丢弃,转至步骤2)重新构建第i个单层决策树。
6)当一个训练样本若被第i个单层决策树正确分类,该样本的权重则需乘以Errori/(1-Errori)。然后对训练样本D中所有样本进行规范化,使得它们的权值总和与初始权重总和保持相同。为此,每个训练样本需乘以旧的权值之和再与新权重之和相除。
7)转至步骤2),直至i达到预先设定的值n。
本实施例中,关于单层决策树构建过程如下:
数据训练样本集Di,其中样本集中有0、1标签,为此该样本集有2个标签,记Cu(u=1,2)。pu表示样本集Di中任意样本属于Cu的概率,并计算对Di中的样本分类所需的平均信息量Info(Di):
同时按照某属性A划分Di的样本,其中属性A为有v个不同值。若A为离散值,则将Di划分为{Di1,Di2,...,Div},并计算基于属性A对Di中的样本分类所需的平均信息量InfoA(Di)。
其中,|Dix|表示子集Dix的样本数目,|Di|表示样本集Di的数目d,x=1,2,3...v。
若属性A为连续值,需确定A的最佳分裂点。首先将A的值进行递增排序,并取每一对相连值的中点为可能的分裂点。由于属性A有v个值,为此产生v-1个可能分裂点,计算该v-1个点中每一个点InfoA(Di),其分区的个数为2,即x=1,2。哪一个点的InfoA(Di)最小,则将该点选为属性A中的最佳分裂点。其中Di1中样本集合A的属性值是小于等于分裂点,Di2中样本集合A的属性值是大于分裂点。
综合上述,计算其信息增益Gain(A)=Info(Di)-InfoA(Di),同时计算属性A的分裂信息值SplitInfoA(Di):
最终得到增益率GrianRate(A):
通过上述步骤,分别计算流量数据样本的各个属性,选择增益率最大的那个属性为单层决策树的根节点。
S102,测试样本聚类
需要说明的是,对测试样本进行聚类的方法可选择下列任意一种方式:
划分方式(比如K-means,K-centroid)、层次聚类、密度聚类、网格聚类等。
本实施例通过K-means对带有标签的数据样本进行聚类。
首先对初始带有标签的数据样本集D随机取k个样本,作为k个簇各自的中心,然后将剩下的样本指派到距离最近的质心,形成k个簇,并更新每个簇的质心,直到簇不再发生变化或者达到最大的迭代次数。
S103,计算各个基分类器对训练样本各个簇的适应度
本实施例针对训练样本的每个簇,通过训练好的n个单层决策树对其进行分类,计算n个单层决策树分别对k个簇样本集的错误率eij,其中,i代表第i个单层决策树,j代表第j个训练样本簇,并用矩阵En*k的形式存储起来,如下为矩阵En*k存储格式:
当一个单层决策树对一个簇的识别率越小,则说明这个簇的样本越不适合该基分类器,即表明该基分类器分类这个簇的样本能力越小。在本实施例中,通过如下公式计算出第i个单层决策树对第j个训练样本簇分类的适应度fij,并用矩阵Fn*k存储n个单层决策树分别对训练样本k个簇分类的适应度,如下为矩阵Fn*k存储格式:
S104,计算测试样本与训练样本各个簇的相似度
针对m个待测的数据样本,计算其到训练样本k个簇的中心点的距离dij,其中,i代表第i个训练样本簇,j表示第j个待测数据样本,并用矩阵Dk*m存储,如下为矩阵Dk*m存储格式:
当一个样本离一个簇类中心越近,则说明该样本与这个簇类越相似。在本实施例中,利用如下公式计算出第j个待测样本与第i个训练样本簇的相似度sij,并用矩阵Sk*m存储m个待测数据样本分别对k个训练样本簇的相似度,如下为矩阵Sk*m存储格式:
S105,计算每个基分类器对测试样本的适应度(即权重)
参考图3,图3为本实施例提供测试样本与基分类器的关系示意图。在本次实施例中,通过综合考虑基分类器的适应度与测试样本的相似度,利用如下公式计算,可得到第i个单层决策树对第j个待测样本数据的适应度,即权重wij。并用矩阵Wn*m存储n个单层决策树分别对m个待测数据样本的权重,即通过适应度矩阵Fn*k与相似度矩阵Sk*m进行相乘从而得到,如下为矩阵Wn*m存储格式:
在本次实施例中,选用m个待测数据样本,其中矩阵Wn*m的第i列代表n个单层决策树分别对第i个待测数据样本的权重。针对第i个待测数据样本,将分类为1的所有单层决策树权重叠加,同样将分类为0的所有单层决策树权重叠加。当分类为1的总权重高于分类为0的总权重,表明当前数据样本是异常,反之,则为正常。
S106,多个基分类器权重组合为一个强分类器
整合每个簇对各个基分类器的适应度矩阵和该测试样本与各个簇的相似度向量,即将适应度矩阵和相似度向量相乘,最终得到针对一个测试样本的多个基分类器的权重向量,进而将多个基分类器组合为一个适合该测试样本的强分类器。
接下来结合附图4对本发明的装置实施例进一步说明。
如图4所示,图4为本发明所述装置实施例的结构示意图,具体可以包括:
构建模块401,主要负责构建多个基分类器;该构建模块采用下列任意一种方式构建多个所述基分类器:
通过对相同的所述训练样本选取不同的分类算法训练得到;
调整所述训练样本的权重并利用不同或相同的分类算法训练得到;
调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
聚类模块402,主要负责基于多个所述基分类器,对采集到的训练样本进行聚类;该聚类模块采用下列任意一种方式对所述训练样本进行聚类:
划分聚类、层次聚类、密度聚类、网格聚类。
适应度确定模块403,主要负责确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;具体的说就是,该适应度确定模块利用n个所述基分类器对聚类算法生成的k个簇分别进行测试,计算得出基分类器在各个簇上的错误率eij;利用错误率eij进行相应的对数处理,从而得到n个基分类器对k个簇的适应度fij,并以n*k矩阵的形式进行存储,得到适应度矩阵;其中,i表示第i个基分类器,j表示第j个簇类。
相似度计算模块404,主要负责计算所述测试样本与聚类后的训练样本各个簇的相似度;具体的说就是,该相似度计算模块针对某一个测试样本,在动态求出所述测试样本到各个簇质心的距离dj后,得出所述测试样本与各个簇的相似度1/dj,并以k*1向量的形式进行存储,得到相似度向量。
组合模块405,主要用于对上述所述适应度矩阵和所述相似度向量进行整合,即将上述适应度矩阵和相似度向量相乘,得到每个所述测试样本针对各个所述基分类器相适应的权重,并将多个所述权重组合为一个强分类器。最终得到针对每个所述测试样本的多个基分类器的权重向量,将多个基分类器的权重向量组合为适合所述测试样本的强分类器。
需要说明是的是,上述装置的具体实现过程,由于方法实施例中已有详细说明,故此处不再赘述。
综上所述,在本次方法及装置实施例中,根据每个测试样本与训练样本各个簇的相似度,与每个簇对各个单层决策树的适应度联系,可以动态的调整各个单层决策树权重组合,最终得到针对不同测试样本动态地对单层决策树进行权重赋值的强分类器。通过结合聚类算法,并考虑测试样本与基分类器的适应性,动态地对基分类器进行权重赋值,可有效提高分类器的泛化能力和分类精确率。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (8)

1.一种自适应动态调整基分类器权重的集成学习方法,其特征在于,应用于基于数据流量特征的流量异常检测中,包括:
构建多个基分类器,分别计算流量数据样本的各个属性;
基于多个所述基分类器,对采集到的训练样本进行聚类;
确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;
计算测试样本与聚类后的训练样本各个簇的相似度;
对所述适应度和所述相似度进行整合;当所述适应度以适应度矩阵形式存储 以及所述相似度以相似度向量形式存储时,将所述适应度矩阵和所述相似度向量相乘,最终得到针对每一个所述测试样本的多个基分类器的权重向量,将多个基分类器的权重向量组合为一个适合所述测试样本的强分类器;
所述适应度的确定利用n个所述基分类器对聚类算法生成的k个簇分别进行测试,计算得出基分类器在各个簇上的错误率eij;利用错误率eij进行相应的对数处理,从而得到n个基分类器对k个簇的适应度并以n*k矩阵的形式进行存储,得到适应度矩阵;其中,i表示第i个基分类器,j表示第j个簇类;
所述训练样本和测试样本均为流量数据样本。
2.根据权利要求1所述的一种自适应动态调整基分类器权重的集成学习方法,其特征在于,采用下列任意一种方式构建多个所述基分类器:
通过对相同的所述训练样本选取不同的分类算法训练得到;
调整所述训练样本的权重并利用不同或相同的分类算法训练得到;
调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
3.根据权利要求1所述的一种自适应动态调整基分类器权重的集成学习方法,其特征在于,采用下列任意一种方式对所述训练样本进行聚类:
划分聚类、层次聚类、密度聚类、网格聚类。
4.根据权利要求1到3中任意一项所述的一种自适应动态调整基分类器权重的集成学习方法,其特征在于,计算所述测试样本与聚类后的训练样本各个簇的相似度向量的过程进一步包括:
针对某一个测试样本,在动态求出所述测试样本到各个簇质心的距离dj后,得出所述测试样本与各个簇的相似度1/dj,并以k*1向量的形式进行存储,得到相似度向量。
5.一种自适应动态调整基分类器权重的集成学习装置,其特征在于,应用于基于数据流量特征的流量异常检测中,包括:
构建模块,用于构建多个基分类器,分别计算流量数据样本的各个属性;
聚类模块,用于基于多个所述基分类器,对采集到的训练样本进行聚类;
适应度确定模块,用于确定各个所述基分类器对聚类后的训练样本的各个簇的适应度;利用n个所述基分类器对聚类算法生成的k个簇分别进行测试,计算得出基分类器在各个簇上的错误率eij;利用错误率eij进行相应的对数处理,从而得到n个基分类器对k个簇的适应度并以n*k矩阵的形式进行存储,得到适应度矩阵;其中,i表示第i个基分类器,j表示第j个簇类;
相似度计算模块,用于计算测试样本与聚类后的训练样本各个簇的相似度;
组合模块,用于对所述适应度和所述相似度进行整合;当所述适应度以适应度矩阵形式存储以及所述相似度以相似度向量形式存储时,所述组合模块将所述适应度矩阵和所述相似度向量相乘,最终得到针对每一个所述测试样本的多个基分类器的权重向量,将多个基分类器的权重向量组合为一个适合所述测试样本的强分类器;
所述训练样本和测试样本均为流量数据样本。
6.根据权利要求5所述的一种自适应动态调整基分类器权重的集成学习装置,其特征在于,所述构建模块采用下列任意一种方式构建多个所述基分类器:
通过对相同的所述训练样本选取不同的分类算法训练得到;
调整所述训练样本的权重并利用不同或相同的分类算法训练得到;
调整所述训练样本的特征权重并利用不同或相同的分类算法训练得到。
7.根据权利要求6所述的一种自适应动态调整基分类器权重的集成学习装置,其特征在于,所述聚类模块采用下列任意一种方式对所述训练样本进行聚类:
划分聚类、层次聚类、密度聚类、网格聚类。
8.根据权利要求5到7中任一项所述一种自适应动态调整基分类器权重的集成学习装置,其特征在于,所述相似度计算模块进一步用于,针对某一个测试样本,在动态求出所述测试样本到各个簇质心的距离dj后,得出所述测试样本与各个簇的相似度1/dj,并以k*1向量的形式进行存储,得到相似度向量。
CN201510974685.4A 2015-12-22 2015-12-22 适应动态调整基分类器权重的集成学习方法及装置 Expired - Fee Related CN105574547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510974685.4A CN105574547B (zh) 2015-12-22 2015-12-22 适应动态调整基分类器权重的集成学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510974685.4A CN105574547B (zh) 2015-12-22 2015-12-22 适应动态调整基分类器权重的集成学习方法及装置

Publications (2)

Publication Number Publication Date
CN105574547A CN105574547A (zh) 2016-05-11
CN105574547B true CN105574547B (zh) 2019-03-05

Family

ID=55884653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510974685.4A Expired - Fee Related CN105574547B (zh) 2015-12-22 2015-12-22 适应动态调整基分类器权重的集成学习方法及装置

Country Status (1)

Country Link
CN (1) CN105574547B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127232B (zh) * 2016-06-16 2020-01-14 北京市商汤科技开发有限公司 卷积神经网络训练方法和系统、对象分类方法和分类器
CN107483455B (zh) * 2017-08-25 2020-07-14 国家计算机网络与信息安全管理中心 一种基于流的网络节点异常检测方法和系统
CN108521636A (zh) * 2018-04-02 2018-09-11 深圳市创艺工业技术有限公司 一种基于区块链技术的空气污染数据处理系统
CN108537041B (zh) * 2018-04-04 2021-07-13 贵州师范学院 一种Linux病毒检测方法
CN109685635A (zh) * 2018-09-11 2019-04-26 深圳平安财富宝投资咨询有限公司 金融业务的风险评估方法、风控服务端及存储介质
CN109947945B (zh) * 2019-03-19 2021-01-15 合肥工业大学 基于词向量和集成svm的文本数据流分类方法
CN111950588B (zh) * 2020-07-03 2023-10-17 国网冀北电力有限公司 一种基于改进Adaboost算法的分布式电源孤岛检测方法
CN113807391A (zh) * 2021-08-04 2021-12-17 北京百度网讯科技有限公司 任务模型的训练方法、装置、电子设备及存储介质
CN117435981B (zh) * 2023-12-22 2024-03-01 四川泓宝润业工程技术有限公司 机泵设备运行故障诊断方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646200A (zh) * 2012-03-08 2012-08-22 武汉大学 多分类器自适应权值融合的影像分类方法及系统
CN103942562A (zh) * 2014-03-27 2014-07-23 河海大学 基于多分类器组合的高光谱图像分类方法
CN104504393A (zh) * 2014-12-04 2015-04-08 西安电子科技大学 基于集成学习的极化sar图像半监督分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7467116B2 (en) * 2004-09-17 2008-12-16 Proximex Corporation Incremental data fusion and decision making system and associated method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646200A (zh) * 2012-03-08 2012-08-22 武汉大学 多分类器自适应权值融合的影像分类方法及系统
CN103942562A (zh) * 2014-03-27 2014-07-23 河海大学 基于多分类器组合的高光谱图像分类方法
CN104504393A (zh) * 2014-12-04 2015-04-08 西安电子科技大学 基于集成学习的极化sar图像半监督分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A selective ensemble classification method on microarray data;Tao Chen;《Journal of Chemical and Pharmaceutical Research》;20140630;第6卷(第6期);2860-2866
基于AdaBoost-SVM的图像型火焰识别;廖雨婷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815(第08期);I138-1347
基于动态权重的AdaBoost算法研究;张亮 等;《计算机应用研究》;20161128;第34卷(第11期);3233-3236

Also Published As

Publication number Publication date
CN105574547A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN105574547B (zh) 适应动态调整基分类器权重的集成学习方法及装置
CN106973057B (zh) 一种适用于入侵检测的分类方法
CN103559504B (zh) 图像目标类别识别方法及装置
CN105589806B (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN105243388B (zh) 基于动态时间规整和划分算法的波形分类方法
Wahono et al. Metaheuristic optimization based feature selection for software defect prediction.
CN108023876A (zh) 基于可持续性集成学习的入侵检测方法及入侵检测系统
CN103617429A (zh) 一种主动学习分类方法和系统
CN110287439A (zh) 一种基于lstm的网络行为异常检测方法
CN106845526B (zh) 一种基于大数据融合聚类分析的关联参数故障分类方法
CN103617435B (zh) 一种主动学习图像分类方法和系统
Gabrys et al. Combining labelled and unlabelled data in the design of pattern classification systems
CN102944769A (zh) 基于极限学习机的电力变压器故障诊断方法
CN108460421A (zh) 不平衡数据的分类方法
CN103632168A (zh) 一种机器学习中的分类器集成方法
CN106408939A (zh) 基于密度峰值聚类的交通流量序列划分方法
CN105760888A (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN110880369A (zh) 基于径向基函数神经网络的气体标志物检测方法及应用
CN105975611A (zh) 自适应组合降采样增强学习机
CN105912690A (zh) 基于分组朴素贝叶斯模型的多因子在线预测方法及系统
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN108920477A (zh) 一种基于二叉树结构的不平衡数据处理方法
CN109376790A (zh) 一种基于渗流分析的二元分类方法
CN108768772A (zh) 基于代价敏感的自组织网络的故障探测方法
CN107423319B (zh) 一种垃圾网页检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190305

Termination date: 20191222