CN103605990A - 基于图聚类标签传播的集成多分类器融合分类方法和系统 - Google Patents

基于图聚类标签传播的集成多分类器融合分类方法和系统 Download PDF

Info

Publication number
CN103605990A
CN103605990A CN201310502891.6A CN201310502891A CN103605990A CN 103605990 A CN103605990 A CN 103605990A CN 201310502891 A CN201310502891 A CN 201310502891A CN 103605990 A CN103605990 A CN 103605990A
Authority
CN
China
Prior art keywords
classification
label
cluster
sample
test sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310502891.6A
Other languages
English (en)
Other versions
CN103605990B (zh
Inventor
毛启容
胡素黎
王丽
詹永照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201310502891.6A priority Critical patent/CN103605990B/zh
Publication of CN103605990A publication Critical patent/CN103605990A/zh
Application granted granted Critical
Publication of CN103605990B publication Critical patent/CN103605990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于图聚类标签传播的集成多分类器融合分类方法,包括:使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;根据聚类划分状态进行标签传播,得到测试样本的聚类类别标签;所有聚类划分状态和基本分类器上述步骤处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,并根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数以控制其在融合中的限制范围,根据分类融合目标方程将待分类样本的聚类类别信息和基本分类器的预测标签信息使用BGCM法进行融合分类,得到最终的类别标签。本发明在样本存在差异时,分类准确率高。

Description

基于图聚类标签传播的集成多分类器融合分类方法和系统
技术领域
本发明属于分类领域,特别涉及一种基于图聚类标签传播的集成多分类器融合分类方法和系统。
背景技术
在实际分类情况下,存在待分类样本和训练样本之间具有分布差异的情况。由于待分类样本和训练样本之间存在聚类误差,常用分类器无法克服样本之间差异性以达到对待分类样本的准确分类。
在模式分类中,单一分类器一般是从某一角度对样本的属性进行描述,待分类样本与训练样本之间存在分布差距时,容易出现分类误差。多分类器集成分类方法是指将多个分类器联合起来达到最优分类的方法,如现有技术中主要是由多分类器的预测标签进行融合得到待分类样本的类别标签,待分类样本与训练样本存在分布差距时,分类器得到的预测标签存在误差,导致最终的分类准确率低。再如聚类集成分类方法中,现有技术中根据训练样本的聚类划分分别训练分类器,该类方法的聚类误差容易导致分类误差。为了避免以上研究中的问题,本发明弥补现有聚类集成分类方法中因样本聚类误差而导致分类准确率低的问题,使用待分类样本的聚类信息和基本分类器的预测标签集合进行分类融合以提高分类准确率。
发明内容
本发明使用多种基本分类器和多种聚类划分共同推断样本类别信息。在样本之间存在聚类误差的情况下,可以克服训练样本得到的基本分类器的分类误差,充分利用了样本聚类划分,避免聚类误差影响分类准确率。本发明结合基本分类器和聚类划分的分类方法解决现有集成分类器在样本存在差异时分类准确率低的问题。
本发明提供了一种基于图聚类标签传播的集成多分类器融合分类方法,从而得到样本类别标签的方法,包括以下步骤:
步骤1使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;
步骤2根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;
步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;
步骤4根据分类融合目标方程,将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类,得到最终的类别标签。
进一步的,上述步骤2,具体包括:对测试样本进行语音信号预处理和特征提取;对训练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行预分类,得到测试样本的预分类结果;使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI。
进一步的,上述第一方面中的所述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI,具体包括:
根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num];根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签;若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。
本发明实施例还提供了一种基于图聚类标签传播的集成多分类器融合分类的系统,包括训练模块和分类模块,其中,
训练模块,用于使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;以及根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;
分类模块,用于所有聚类划分状态和基本分类器经过训练模块的处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;以及根据分类融合目标方程,将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类,得到最终的类别标签。
进一步的,上述训练模块,具体用于对测试样本进行语音信号预处理和特征提取;对训练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行预分类,得到测试样本的预分类结果;以及使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI。
进一步的,上述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI,具体包括:
根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num];根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签;若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。
本发明有益的效果是:本发明针对待分类样本与训练样本存在分布差异时,集成多分类方法中聚类和分类器两方面存在的分类准确率低的问题,发明基于图聚类标签传播方法和系统,得到与基本分类器和聚类划分相对应的聚类类别信息,然后将聚类类别信息和基本分类器组成集成分类器,对聚类类别信息和分类器信息使用修改参数的融合方法以提高分类准确率。弥补现有基本分类器对分布存在差距的样本的分类准确率低的问题,充分利用样本的聚类划分和基本分类器的分类结果以达到对待分类样本类别属性的全面描述,构建一个比较完备的集成分类器实现对待分类样本的准确分类。将本方法应用于语音情感分类,对6类情感的分类准确率提高至73.89%,比支持向量机(SVM,Support Vector Machine)提高了3.33%,在多维特征样本上本方法比二分图最大共识法(BGCM,Bipartite Graph ConsensusMaximization)的平均分类准确率提高8.33%,比使用有标签样本的BGCM的分类准确率提高了1.11%
附图说明
图1是本发明基于图聚类标签传播的集成多分类器融合分类方法的流程图;
图2是本发明应用于语音情感分类的分类准确率以及与其它方法的分类准确率对比图;
图3是本发明基于图聚类标签传播的集成多分类器融合分类系统的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明,应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明提供的基于图聚类标签传播的集成多分类器融合分类方法,可以应用在如下场景:在进行语音情感分类时,采用的情感语音库包括6类典型情感:高兴,伤心,惊讶,生气,害怕,厌恶。语音库由10个非专业演职人员(5男5女)录制,对每种情感每人各录制12句长度与内容均不同的情感语料。采样率为11025Hz,对每种情感每人各录制12句长度与内容均不同的情感语料。语音库中共有720个样本,实验采用五倍交叉验证法,每类情感抽取90个样本共540个样本作为训练样本,剩余180作为测试样本。如图1所示,基于图聚类标签传播的集成多分器融合分类方法对语音情感分类主要分为三个阶段:训练阶段、聚类标签传播阶段、融合分类阶段,以下分别给出这三个阶段的具体的实施方式。
1、训练阶段,此阶段根据训练样本训练建立基本分类器,分3步:
101,语音信号的预处理:这一步是采用传统的语音信号预处理方法对情感语音信号进行预处理,包括端点检测、预加重、分帧、加窗处理。
102,特征提取:语音帧的特征提取包括基频、时长、强度、美尔倒谱系数、共振峰等语音的声学与韵律学特征。共提取了101维语音情感特征。
103,训练基本分类器,这里的基本分类器可采用诸如SVM、OVA分类器(One-Vs-All),GMM(Gaussian Mixture Model)以及HMM(Hidden Markov Model)之类的各种统计模型作为基本分类器。
2、聚类标签传播阶段,此阶段根据训练样本和测试样本的聚类划分进行标签传播,得到测试样本的聚类类别标签(CCI,cluster class information)。
聚类标签传播阶段的具体过程可以包括:
201,测试样本首先经过语音信号预处理,该过程同训练阶段的语音信号预处理101过程。
202,测试样本的特征提取,该过程同训练阶段的特征提取102过程,
203,样本的聚类划分,该过程包括:将全部样本使用聚类方法进行聚类,得到全部样本的聚类划分,其中,全部样本包括训练样本和测试样本,聚类方法可以有多种,如k-means或FCM(Fuzzy-C-Means)、LSC(Landmark-based Spectral Clustering)。
204,使用基本分类器f对测试样本进行预分类,得到测试样本的预测集合f_pre。
205,使用基于图的近邻标签传播方法(GBCP,Graph Based Cluster label Propagation)得到测试样本的聚类类别标签(CCI)。
2051,建立近邻关系,具体的:根据聚类划分对测试样本建立近邻关系图G,标签图LG。
近邻关系图为:
Figure BDA0000400301720000041
如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离;否则w(xi,xj)=0。
标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num]。
2052,确定测试测试样本的可能类别近邻集合。
测试样本xi首先进行OVA预分类,首先将最大决策值devalue值对应类别放入xi可能类别集合set中,然后将devalue>0对应的类别放入set,且set中类别唯一。set={cl1,cl2...clm},0<m<num。OVA分类方法中共有num个OVA分类器,其中单一类别为正类,OVA分类中所有决策值大于0的类别都是xi可能的类别。xi的近邻样本为g(xi)={g|g=G(xi,xj),g(xi,xj)>0且LG(xj)∈set}其对应的类别标签为lg(xi),将g(xi)按照值降序排序,同时对lg(xi)排序。
2053,近邻标签传播。
对lg(xi)中所有样本按类别按公式1分别计算类别相似值f(i,c),表示数据xi与c类近邻数据的相似性。
f ( x i c ) = 1 / n &times; &Sigma; c = lg ( x i , x j ) s ( x i , x j | c ) &times; g ( x i , x j ) &times; exp ( - gamma &Sigma; x j &Element; c ( x j - x i ) p ) , c &Element; { 0 } &cup; set - - - ( 1 )
其中n表示在g(xi)中属于类c的样本总数,p等于2。s(xi,xj|c)表示基本分类器对样本的分类情况,定义如公式(2)。
s ( x i , x j | c ) = 1 if x j classified correct and c &Element; { 0 } &cup; set &PartialD; + 1 else &PartialD; > 0 - - - ( 2 )
公式(2)中,加大了被分类器错误分类的训练样本的值,以此降低待分类样本因分类误差而导致标签传播的误差。最后取最大相似值对应的类别c作为其聚类类别标签。
CCI(xi)=c,LG(xi)=c。
2054,标签确立
假设xi的近邻样本中与其他未标记的待分类样本相似,此时无法得到xi的聚类类别标签。此时可以借助无标签样本之间共有近邻样本的类别信息推断此xi的聚类类别标签。则xi聚类类别标签为0时,取g(xi)前n个近邻{gi,1,gi,2,...gi,n1},并对它们进行近邻扫描得到(g(xi),g(gi,1),g(gi,2),...g(gi,n1))总共有n+1个近邻样本集合,统计集合中的最大近邻子集V,计算pre(V)∪CCI(V)集合中所有类别样本的相似值(包括无标签类别即c=0),将得最大相似性类别c(不为0)作为其聚类类别标签,CCI(xi)=c。
3、融合分类阶段
301,将第一阶段得到的r个基本分类器M1,...,Mr和第二阶段得到的m-r个聚类分类信息CCIr+1,....,CCIm,分别按照类别初始化分组信息,得到其中每个都将样本划分成c组,共有v=mc个分组g1,...gv,其中s=rc个来自基本分类器,剩余v-s个是聚类类别信息。
302,定义基本分类器每个分组的限制范围参数,其定义如下表示:
k j = 1 0 < j &le; s &lambda; s < j &le; v , 0 < &lambda; < 1 - - - ( 3 )
表示在融合过程中s个分类器分组起限制作用,聚类类别信息的限制作用比分类器的限制作用小。
303,融合目标方程如公式(4)所示:
F = min Q , U ( &Sigma; i = 1 n &Sigma; j = 1 v a ij | | u &RightArrow; i - q &RightArrow; j | | 2 + &Sigma; j = 1 v a i k j | | q &RightArrow; j - y &RightArrow; j | | 2 + &beta; &Sigma; i = 1 n h i | | u &RightArrow; i - f &RightArrow; i | | 2 ) - - - ( 4 )
s . t u &RightArrow; i &CenterDot; > 0 , | u &RightArrow; i &CenterDot; | = 1 , i = l : n q &RightArrow; j &CenterDot; > 0 , | q &RightArrow; &RightArrow; j &CenterDot; | = 1 , j = l : v
其中An×v,aij=1如果xi被划分到gj中,否则为0;Un×c
Figure BDA0000400301720000064
表示xi被分类成Z类的概率;Qv×c表示gi被分为Z类的概率;yjz=1是基本分类器分类为Z概率,否则yjz=0。α,β为限制参数,定义如下:
&alpha; i = N fi , correct N fi , all + &PartialD; 1 i = 1 : s N fci , correct N fci , all + &PartialD; 2 i = s + 1 : v
其中Nfi,all和Nfci,all分别表示使用分类器和CCI分类的样本总数,Nfi,correct,Nfci,correct分别表示其正确分类的样本个数。
Figure BDA0000400301720000067
当融合过程中不使用有标签样本辅助融合时,则β=0;否则,当使用部分有标签样本用来提高分类准确率时为BGCM标记为BGCM_L(Bipartite Graph ConsensusMaximization-Label)算法,此时β≠0,fiz=1有标签样本xi的类别标签为类别Z。BGCM算法通过优化目标方程,得到所有样本xi的预测类别U。
通过上述分类方法,本发明与各种BGCM融合分类方法进行分类准确率对比,对每类情感的分类准确率如表1所示,可以看出利用本发明的方法,对每类情感的分类准确率是比较高的。其中BGCM(180)是在180个测试样本上使用BGCM的分类方法;BGCM和BGCM_L分别是指在720个全部样本集合上分别使用BGCM和部分测试样本参与的BGCM融合分类方法;GBCP_1是指在全部样本集合上使用通过GBCP方法得到的CCI的BGCM分类方法;GBCP_2是GBCP_1在融合时候使用了部分有标签测试样本参与BGCM融合的分类方法;GBCP_BGCMxg_L是指本发明的分类方法。
Figure BDA0000400301720000071
表1各方法对每种情感的分类准确率(%)
将本发明的分类方法与其他方法在多维特征样本上做分类准确率对比,其中96维特征是使用序列浮动前向选择(SFFS,Sequential Floating Forward Selection)方法选择得到的,遗传算法选出43维特征。聚簇个数为6时,不同特征维数的测试样本的分类准确率如表2所示:
表2不同特征维数分类准确率对比(%)
如图3所示,本发明还公开了一种基于图聚类标签传播的集成多分类器融合分类的系统,包括训练模块31和分类模块32,其中,
训练模块31,用于使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;以及根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;
分类模块32,用于所有聚类划分状态和基本分类器经过训练模块31的处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;以及根据分类融合目标方程,将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类,得到最终的类别标签。
进一步的,上述训练模块31,具体用于对测试样本进行语音信号预处理和特征提取;对训练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行预分类,得到测试样本的预分类结果;以及使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI。
进一步的,上述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI,具体包括:根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num];根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签;若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。
上面描述仅是本发明的一个具体实施例,显然在本发明的技术方案指导下本领域的任何人所作的修改或局部替换,均属于本发明权利要求书限定的范围。

Claims (7)

1.一种基于图聚类标签传播的集成多分类器融合分类方法,其特征在于,包括:
步骤1使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;
步骤2根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;
步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;
步骤4根据分类融合目标方程,将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类,得到最终的类别标签。
2.如权利要求1所述的方法,其特征在于,所述步骤2,具体包括:
对测试样本进行语音信号预处理和特征提取;
对训练样本和测试样本进行聚类划分,获得聚类划分状态;
使用基本分类器对测试样本进行预分类,得到测试样本的预分类结果;
使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI。
3.如权利要求2所述的方法,其特征在于,所述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI,具体包括:
根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num];
根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签;若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。
4.如权利要求1所述的方法,其特征在于,所述目标方程为:
F = min Q , U ( &Sigma; i = 1 n &Sigma; j = 1 v a ij | | u &RightArrow; i - q &RightArrow; j | | 2 + &Sigma; j = 1 v a i k j | | q &RightArrow; j - y &RightArrow; j | | 2 + &beta; &Sigma; i = 1 n h i | | u &RightArrow; i - f &RightArrow; i | | 2 )
s . t u &RightArrow; i &CenterDot; > 0 , | u &RightArrow; i &CenterDot; | = 1 , i = l : n q &RightArrow; j &CenterDot; > 0 , | q &RightArrow; &RightArrow; j &CenterDot; | = 1 , j = l : v
其中 k j = 1 0 < j &le; s &lambda; s < j &le; v , 0 < &lambda; < 1 A n &times; v , a ij = 1 , 如果xi被划分到gj中,否则为0;Un×c
Figure FDA0000400301710000023
表示xi被分类成Z类的概率;Qv×c表示gi被分为Z类的概率;yjz=1是基本分类器分类为Z概率,否则yjz=0;α,β为限制参数,定义如下:
&alpha; i = N fi , correct N fi , all + &PartialD; 1 i = 1 : s N fci , correct N fci , all + &PartialD; 2 i = s + 1 : v
其中Nfi,all和Nfci,all分别表示使用分类器和聚类类别信息的样本总数,Nfi,correct,Nfci,correct分别表示其正确分类的样本个数;
Figure FDA0000400301710000026
当融合过程中不使用有标签样本辅助融合时,则β=0;否则,当使用部分有标签样本用来提高分类准确率时为BGCM_L算法,此时β≠0,fiz=1有标签样本xi的类别标签为类别Z。
5.一种基于图聚类标签传播的集成多分类器融合分类的系统,其特征在于,包括训练模块和分类模块,其中,
训练模块,用于使用训练样本训练基本分类器,对训练样本和测试样本进行多次聚类,得到多种聚类划分状态;以及根据训练样本和测试样本的聚类划分状态进行标签传播,得到测试样本的聚类类别标签CCI;
分类模块,用于所有聚类划分状态和基本分类器经过训练模块的处理,得到测试样本的聚类类别信息集合;将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵,根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数,以便于限制参数在融合中的限制范围;以及根据分类融合目标方程,将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类,得到最终的类别标签。
6.如权利要求5所述的系统,其特征在于,所述训练模块,具体用于对测试样本进行语音信号预处理和特征提取;对训练样本和测试样本进行聚类划分,获得聚类划分状态;使用基本分类器对测试样本进行预分类,得到测试样本的预分类结果;以及使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI。
7.如权利要求6所述的系统,其特征在于,所述使用基于图的近邻标签传播方法,得到测试样本的聚类类别标签CCI,具体包括:
根据聚类划分对测试样本建立近邻关系图G和标签图LG,其中,近邻关系图G为:G(xi,xj)=w(xi,xj),如果xi和xj在同一簇中且互为近邻,w(xi,xj)=(1+dist(xi,xj))-1,其中dist(xi,xj)表示样本xi,xj之间的距离,否则w(xi,xj)=0;标签图LG为:LG(xi)=l,l=label(xi)l∈[0...num];
根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签;若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为无标签的待分类样本,此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。
CN201310502891.6A 2013-10-23 2013-10-23 基于图聚类标签传播的集成多分类器融合分类方法和系统 Active CN103605990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310502891.6A CN103605990B (zh) 2013-10-23 2013-10-23 基于图聚类标签传播的集成多分类器融合分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310502891.6A CN103605990B (zh) 2013-10-23 2013-10-23 基于图聚类标签传播的集成多分类器融合分类方法和系统

Publications (2)

Publication Number Publication Date
CN103605990A true CN103605990A (zh) 2014-02-26
CN103605990B CN103605990B (zh) 2017-02-08

Family

ID=50124210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310502891.6A Active CN103605990B (zh) 2013-10-23 2013-10-23 基于图聚类标签传播的集成多分类器融合分类方法和系统

Country Status (1)

Country Link
CN (1) CN103605990B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及系统
CN104750875A (zh) * 2015-04-23 2015-07-01 苏州大学 一种机器错误数据分类方法及系统
CN104794489A (zh) * 2015-04-23 2015-07-22 苏州大学 一种基于深度标签预测的诱导式图像分类方法及系统
CN104933442A (zh) * 2015-06-16 2015-09-23 陕西师范大学 一种基于最小代价路径进行图像标签传播的方法
CN105843919A (zh) * 2016-03-24 2016-08-10 云南大学 一种基于多特征融合与聚类集成的移动对象轨迹聚类方法
WO2017117799A1 (zh) * 2016-01-08 2017-07-13 富士通株式会社 分类结果的融合装置及方法
CN107958216A (zh) * 2017-11-27 2018-04-24 沈阳航空航天大学 基于半监督的多模态深度学习分类方法
WO2018171531A1 (en) * 2017-03-23 2018-09-27 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for predicting classification for object
CN108932950A (zh) * 2018-05-18 2018-12-04 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN109242515A (zh) * 2018-08-29 2019-01-18 阿里巴巴集团控股有限公司 跨平台的异常账号识别方法和装置
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109800781A (zh) * 2018-12-07 2019-05-24 北京奇艺世纪科技有限公司 一种图像处理方法、装置及计算机可读存储介质
CN109903840A (zh) * 2019-02-28 2019-06-18 数坤(北京)网络科技有限公司 一种模型整合方法及设备
CN111104599A (zh) * 2019-12-23 2020-05-05 北京百度网讯科技有限公司 用于输出信息的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090092299A1 (en) * 2007-10-03 2009-04-09 Siemens Medical Solutions Usa, Inc. System and Method for Joint Classification Using Feature Space Cluster Labels
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102654865A (zh) * 2011-03-02 2012-09-05 朱鹏翔 一种数字对象分类方法和系统
CN102819548A (zh) * 2012-03-31 2012-12-12 常熟市支塘镇新盛技术咨询服务有限公司 基于聚类的循环集成动态选择方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090092299A1 (en) * 2007-10-03 2009-04-09 Siemens Medical Solutions Usa, Inc. System and Method for Joint Classification Using Feature Space Cluster Labels
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102654865A (zh) * 2011-03-02 2012-09-05 朱鹏翔 一种数字对象分类方法和系统
CN102819548A (zh) * 2012-03-31 2012-12-12 常熟市支塘镇新盛技术咨询服务有限公司 基于聚类的循环集成动态选择方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A. ACHARYA ETC: "C3E: A Framework for Combining Ensembles of Classifiers and Clusterers", 《SPRINGER BERLIN HEIDELBERG》 *
JING GAO ETC: "Graph-based Consensus Maximization among Multiple Supervised and Unsupervised Models", 《NEURAL INFOMATION PROCESSING SYSTEMS》 *
JING GAO.ETC: "A Graph-Based Consensus Maximization Approach for Combining Multiple Supervised and Unsupervised Models", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463202B (zh) * 2014-11-28 2017-09-19 苏州大学 一种多类图像半监督分类方法及系统
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及系统
CN104794489B (zh) * 2015-04-23 2019-03-08 苏州大学 一种基于深度标签预测的诱导式图像分类方法及系统
CN104750875A (zh) * 2015-04-23 2015-07-01 苏州大学 一种机器错误数据分类方法及系统
CN104794489A (zh) * 2015-04-23 2015-07-22 苏州大学 一种基于深度标签预测的诱导式图像分类方法及系统
CN104750875B (zh) * 2015-04-23 2018-03-02 苏州大学 一种机器错误数据分类方法及系统
CN104933442A (zh) * 2015-06-16 2015-09-23 陕西师范大学 一种基于最小代价路径进行图像标签传播的方法
WO2017117799A1 (zh) * 2016-01-08 2017-07-13 富士通株式会社 分类结果的融合装置及方法
CN105843919A (zh) * 2016-03-24 2016-08-10 云南大学 一种基于多特征融合与聚类集成的移动对象轨迹聚类方法
WO2018171531A1 (en) * 2017-03-23 2018-09-27 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for predicting classification for object
CN107958216A (zh) * 2017-11-27 2018-04-24 沈阳航空航天大学 基于半监督的多模态深度学习分类方法
CN108932950A (zh) * 2018-05-18 2018-12-04 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN108932950B (zh) * 2018-05-18 2021-07-09 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN109242515A (zh) * 2018-08-29 2019-01-18 阿里巴巴集团控股有限公司 跨平台的异常账号识别方法和装置
CN109242515B (zh) * 2018-08-29 2021-07-23 创新先进技术有限公司 跨平台的异常账号识别方法和装置
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109800781A (zh) * 2018-12-07 2019-05-24 北京奇艺世纪科技有限公司 一种图像处理方法、装置及计算机可读存储介质
CN109903840A (zh) * 2019-02-28 2019-06-18 数坤(北京)网络科技有限公司 一种模型整合方法及设备
CN111104599A (zh) * 2019-12-23 2020-05-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111104599B (zh) * 2019-12-23 2023-08-18 北京百度网讯科技有限公司 用于输出信息的方法和装置

Also Published As

Publication number Publication date
CN103605990B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103605990A (zh) 基于图聚类标签传播的集成多分类器融合分类方法和系统
Saito et al. Open set domain adaptation by backpropagation
Luo et al. Audio Sentiment Analysis by Heterogeneous Signal Features Learned from Utterance-Based Parallel Neural Network.
CN102664011B (zh) 一种快速说话人识别方法
CN108932950B (zh) 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN104992191B (zh) 基于深度学习的特征和最大置信路径的图像分类方法
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN108984745A (zh) 一种融合多知识图谱的神经网络文本分类方法
CN107301858B (zh) 基于音频特征空间分层描述的音频分类方法
CN104573013A (zh) 结合类别权重的集成学习分类方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN106909946A (zh) 一种多模态融合的商品分类系统
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN105261367A (zh) 一种说话人识别方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN110297888A (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN103035239B (zh) 一种基于局部学习的说话人识别方法
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
Zhang et al. Singer identification using deep timbre feature learning with knn-net
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
Cheng et al. Handwritten Chinese character recognition by joint classification and similarity ranking
CN113436684A (zh) 一种癌症分类和特征基因选择方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant