CN103605990A

CN103605990A - 基于图聚类标签传播的集成多分类器融合分类方法和系统

Info

Publication number: CN103605990A
Application number: CN201310502891.6A
Authority: CN
Inventors: 毛启容; 胡素黎; 王丽; 詹永照
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2014-02-26
Anticipated expiration: 2033-10-23
Also published as: CN103605990B

Abstract

一种基于图聚类标签传播的集成多分类器融合分类方法，包括：使用训练样本训练基本分类器，对训练样本和测试样本进行多次聚类，得到多种聚类划分状态；根据聚类划分状态进行标签传播，得到测试样本的聚类类别标签；所有聚类划分状态和基本分类器上述步骤处理，得到测试样本的聚类类别信息集合；将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵，并根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数以控制其在融合中的限制范围，根据分类融合目标方程将待分类样本的聚类类别信息和基本分类器的预测标签信息使用BGCM法进行融合分类，得到最终的类别标签。本发明在样本存在差异时，分类准确率高。

Description

基于图聚类标签传播的集成多分类器融合分类方法和系统

技术领域

本发明属于分类领域，特别涉及一种基于图聚类标签传播的集成多分类器融合分类方法和系统。

背景技术

在实际分类情况下，存在待分类样本和训练样本之间具有分布差异的情况。由于待分类样本和训练样本之间存在聚类误差，常用分类器无法克服样本之间差异性以达到对待分类样本的准确分类。

在模式分类中，单一分类器一般是从某一角度对样本的属性进行描述，待分类样本与训练样本之间存在分布差距时，容易出现分类误差。多分类器集成分类方法是指将多个分类器联合起来达到最优分类的方法，如现有技术中主要是由多分类器的预测标签进行融合得到待分类样本的类别标签，待分类样本与训练样本存在分布差距时，分类器得到的预测标签存在误差，导致最终的分类准确率低。再如聚类集成分类方法中，现有技术中根据训练样本的聚类划分分别训练分类器，该类方法的聚类误差容易导致分类误差。为了避免以上研究中的问题，本发明弥补现有聚类集成分类方法中因样本聚类误差而导致分类准确率低的问题，使用待分类样本的聚类信息和基本分类器的预测标签集合进行分类融合以提高分类准确率。

发明内容

本发明使用多种基本分类器和多种聚类划分共同推断样本类别信息。在样本之间存在聚类误差的情况下，可以克服训练样本得到的基本分类器的分类误差，充分利用了样本聚类划分，避免聚类误差影响分类准确率。本发明结合基本分类器和聚类划分的分类方法解决现有集成分类器在样本存在差异时分类准确率低的问题。

本发明提供了一种基于图聚类标签传播的集成多分类器融合分类方法，从而得到样本类别标签的方法，包括以下步骤：

步骤1使用训练样本训练基本分类器，对训练样本和测试样本进行多次聚类，得到多种聚类划分状态；

步骤2根据训练样本和测试样本的聚类划分状态进行标签传播，得到测试样本的聚类类别标签CCI；

步骤3所有聚类划分状态和基本分类器经过步骤1和步骤2处理，得到测试样本的聚类类别信息集合；将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵，根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数，以便于限制参数在融合中的限制范围；

步骤4根据分类融合目标方程，将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类，得到最终的类别标签。

进一步的，上述步骤2，具体包括：对测试样本进行语音信号预处理和特征提取；对训练样本和测试样本进行聚类划分，获得聚类划分状态；使用基本分类器对测试样本进行预分类，得到测试样本的预分类结果；使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI。

进一步的，上述第一方面中的所述使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI，具体包括：

根据聚类划分对测试样本建立近邻关系图G和标签图LG，其中，近邻关系图G为：G(x_i,x_j)=w(x_i,x_j)，如果x_i和x_j在同一簇中且互为近邻，w(x_i,x_j)=(1+dist(x_i,x_j))^-1，其中dist(x_i,x_j)表示样本x_i,x_j之间的距离，否则w(x_i,x_j)=0；标签图LG为：LG(x_i)=l,l=label(x_i)l∈[0...num]；根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签；若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为无标签的待分类样本，此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。

本发明实施例还提供了一种基于图聚类标签传播的集成多分类器融合分类的系统，包括训练模块和分类模块，其中，

训练模块，用于使用训练样本训练基本分类器，对训练样本和测试样本进行多次聚类，得到多种聚类划分状态；以及根据训练样本和测试样本的聚类划分状态进行标签传播，得到测试样本的聚类类别标签CCI；

分类模块，用于所有聚类划分状态和基本分类器经过训练模块的处理，得到测试样本的聚类类别信息集合；将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵，根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数，以便于限制参数在融合中的限制范围；以及根据分类融合目标方程，将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类，得到最终的类别标签。

进一步的，上述训练模块，具体用于对测试样本进行语音信号预处理和特征提取；对训练样本和测试样本进行聚类划分，获得聚类划分状态；使用基本分类器对测试样本进行预分类，得到测试样本的预分类结果；以及使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI。

进一步的，上述使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI，具体包括：

本发明有益的效果是：本发明针对待分类样本与训练样本存在分布差异时，集成多分类方法中聚类和分类器两方面存在的分类准确率低的问题，发明基于图聚类标签传播方法和系统，得到与基本分类器和聚类划分相对应的聚类类别信息，然后将聚类类别信息和基本分类器组成集成分类器，对聚类类别信息和分类器信息使用修改参数的融合方法以提高分类准确率。弥补现有基本分类器对分布存在差距的样本的分类准确率低的问题，充分利用样本的聚类划分和基本分类器的分类结果以达到对待分类样本类别属性的全面描述，构建一个比较完备的集成分类器实现对待分类样本的准确分类。将本方法应用于语音情感分类，对6类情感的分类准确率提高至73.89%，比支持向量机(SVM，Support Vector Machine)提高了3.33%，在多维特征样本上本方法比二分图最大共识法(BGCM,Bipartite Graph ConsensusMaximization)的平均分类准确率提高8.33%，比使用有标签样本的BGCM的分类准确率提高了1.11%

附图说明

图1是本发明基于图聚类标签传播的集成多分类器融合分类方法的流程图；

图2是本发明应用于语音情感分类的分类准确率以及与其它方法的分类准确率对比图；

图3是本发明基于图聚类标签传播的集成多分类器融合分类系统的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明提供的基于图聚类标签传播的集成多分类器融合分类方法，可以应用在如下场景：在进行语音情感分类时，采用的情感语音库包括6类典型情感：高兴，伤心，惊讶，生气，害怕，厌恶。语音库由10个非专业演职人员（5男5女）录制，对每种情感每人各录制12句长度与内容均不同的情感语料。采样率为11025Hz,对每种情感每人各录制12句长度与内容均不同的情感语料。语音库中共有720个样本，实验采用五倍交叉验证法，每类情感抽取90个样本共540个样本作为训练样本，剩余180作为测试样本。如图1所示，基于图聚类标签传播的集成多分器融合分类方法对语音情感分类主要分为三个阶段：训练阶段、聚类标签传播阶段、融合分类阶段，以下分别给出这三个阶段的具体的实施方式。

1、训练阶段，此阶段根据训练样本训练建立基本分类器，分3步：

101，语音信号的预处理：这一步是采用传统的语音信号预处理方法对情感语音信号进行预处理，包括端点检测、预加重、分帧、加窗处理。

102，特征提取：语音帧的特征提取包括基频、时长、强度、美尔倒谱系数、共振峰等语音的声学与韵律学特征。共提取了101维语音情感特征。

103，训练基本分类器，这里的基本分类器可采用诸如SVM、OVA分类器(One-Vs-All)，GMM(Gaussian Mixture Model)以及HMM(Hidden Markov Model)之类的各种统计模型作为基本分类器。

2、聚类标签传播阶段，此阶段根据训练样本和测试样本的聚类划分进行标签传播，得到测试样本的聚类类别标签(CCI,cluster class information)。

聚类标签传播阶段的具体过程可以包括：

201，测试样本首先经过语音信号预处理，该过程同训练阶段的语音信号预处理101过程。

202，测试样本的特征提取，该过程同训练阶段的特征提取102过程，

203，样本的聚类划分，该过程包括：将全部样本使用聚类方法进行聚类，得到全部样本的聚类划分，其中，全部样本包括训练样本和测试样本，聚类方法可以有多种，如k-means或FCM(Fuzzy-C-Means)、LSC(Landmark-based Spectral Clustering)。

204，使用基本分类器f对测试样本进行预分类,得到测试样本的预测集合f_pre。

205，使用基于图的近邻标签传播方法(GBCP,Graph Based Cluster label Propagation)得到测试样本的聚类类别标签(CCI)。

2051，建立近邻关系，具体的：根据聚类划分对测试样本建立近邻关系图G，标签图LG。

近邻关系图为：

如果x_i和x_j在同一簇中且互为近邻，w(x_i,x_j)=(1+dist(x_i,x_j))^-1，其中dist(x_i,x_j)表示样本x_i,x_j之间的距离；否则w(x_i,x_j)=0。

标签图LG为：LG(x_i)=l,l=label(x_i)l∈[0...num]。

2052，确定测试测试样本的可能类别近邻集合。

测试样本x_i首先进行OVA预分类，首先将最大决策值devalue值对应类别放入x_i可能类别集合set中，然后将devalue>0对应的类别放入set，且set中类别唯一。set={cl₁,cl₂...cl_m},0<m<num。OVA分类方法中共有num个OVA分类器，其中单一类别为正类，OVA分类中所有决策值大于0的类别都是x_i可能的类别。x_i的近邻样本为g(x_i)={g|g=G(x_i,x_j),g(x_i,x_j)>0且LG(x_j)∈set}其对应的类别标签为lg(x_i)，将g(x_i)按照值降序排序，同时对lg(x_i)排序。

2053，近邻标签传播。

对lg(x_i)中所有样本按类别按公式1分别计算类别相似值f(i,c)，表示数据x_i与c类近邻数据的相似性。

f (x_{i} c) = 1 / n \times \underset{c = \lg (x_{i}, x_{j})}{Σ} s (x_{i}, x_{j} | c) \times g (x_{i}, x_{j}) \times \exp (- gamma \underset{x_{j} &Element; c}{Σ} {(x_{j} - x_{i})}^{p}), c &Element; {0} \cup set - - - (1)

其中n表示在g(x_i)中属于类c的样本总数，p等于2。s(x_i,x_j|c)表示基本分类器对样本的分类情况，定义如公式(2)。

s (x_{i}, x_{j} | c) = \{\begin{matrix} 1 & if & x_{j} & classified & correct & and & c &Element; {0} \cup set \\ &PartialD; + 1 & else & &PartialD; > 0 \end{matrix} - - - (2)

公式（2）中，加大了被分类器错误分类的训练样本的值，以此降低待分类样本因分类误差而导致标签传播的误差。最后取最大相似值对应的类别c作为其聚类类别标签。

CCI(x_i)=c,LG(x_i)=c。

2054，标签确立

假设x_i的近邻样本中与其他未标记的待分类样本相似，此时无法得到x_i的聚类类别标签。此时可以借助无标签样本之间共有近邻样本的类别信息推断此x_i的聚类类别标签。则x_i聚类类别标签为0时，取g(x_i)前n个近邻{g_i,1,g_i,2,...g_i,n1}，并对它们进行近邻扫描得到(g(x_i),g(g_i,1),g(g_i,2),...g(g_i,n1))总共有n+1个近邻样本集合，统计集合中的最大近邻子集V，计算pre(V)∪CCI(V)集合中所有类别样本的相似值（包括无标签类别即c=0），将得最大相似性类别c（不为0）作为其聚类类别标签，CCI(x_i)=c。

3、融合分类阶段

301，将第一阶段得到的r个基本分类器M₁,...,M_r和第二阶段得到的m-r个聚类分类信息CCI_r+1,....,CCI_m，分别按照类别初始化分组信息，得到其中每个都将样本划分成c组，共有v=mc个分组g₁,...g_v,其中s=rc个来自基本分类器，剩余v-s个是聚类类别信息。

302，定义基本分类器每个分组的限制范围参数，其定义如下表示：

k_{j} = \{\begin{matrix} 1 & 0 < j \leq s \\ λ & s < j \leq v, 0 < λ < 1 \end{matrix} - - - (3)

表示在融合过程中s个分类器分组起限制作用，聚类类别信息的限制作用比分类器的限制作用小。

303，融合目标方程如公式（4）所示：

F = \min_{Q, U} (Σ_{i = 1}^{n} Σ_{j = 1}^{v} a_{ij} {| | {\overset{&RightArrow;}{u}}_{i} - {\overset{&RightArrow;}{q}}_{j} | |}^{2} + Σ_{j = 1}^{v} a_{i} k_{j} {| | {\overset{&RightArrow;}{q}}_{j} - {\overset{&RightArrow;}{y}}_{j} | |}^{2} + β Σ_{i = 1}^{n} h_{i} {| | {\overset{&RightArrow;}{u}}_{i} - {\overset{&RightArrow;}{f}}_{i} | |}^{2}) - - - (4)

\begin{matrix} s . t & {\overset{&RightArrow;}{u}}_{i \cdot} > 0, | {\overset{&RightArrow;}{u}}_{i \cdot} | = 1, i = l : n & {\overset{&RightArrow;}{q}}_{j \cdot} \end{matrix} > 0, | {\overset{&RightArrow;}{\overset{&RightArrow;}{q}}}_{j \cdot} | = 1, j = l : v

其中A_n×v，a_ij=1如果x_i被划分到g_j中，否则为0；U_n×c，

表示x_i被分类成Z类的概率；Q_v×c，表示g_i被分为Z类的概率；y_jz=1是基本分类器分类为Z概率，否则y_jz=0。α,β为限制参数，定义如下：

α_{i} = \{\begin{matrix} \frac{N_{fi, correct}}{N_{fi, all}} + {&PartialD;}_{1} & i = 1 : s \\ \frac{N_{fci, correct}}{N_{fci, all}} + {&PartialD;}_{2} & i = s + 1 : v \end{matrix}

其中N_fi,all和N_fci,all分别表示使用分类器和CCI分类的样本总数，N_fi,correct,N_fci,correct分别表示其正确分类的样本个数。

当融合过程中不使用有标签样本辅助融合时，则β=0；否则，当使用部分有标签样本用来提高分类准确率时为BGCM标记为BGCM_L（Bipartite Graph ConsensusMaximization_-Label）算法,此时β≠0，f_iz=¹有标签样本x_i的类别标签为类别Z。BGCM算法通过优化目标方程，得到所有样本x_i的预测类别U。

通过上述分类方法，本发明与各种BGCM融合分类方法进行分类准确率对比，对每类情感的分类准确率如表1所示，可以看出利用本发明的方法，对每类情感的分类准确率是比较高的。其中BGCM(180)是在180个测试样本上使用BGCM的分类方法；BGCM和BGCM_L分别是指在720个全部样本集合上分别使用BGCM和部分测试样本参与的BGCM融合分类方法；GBCP_1是指在全部样本集合上使用通过GBCP方法得到的CCI的BGCM分类方法；GBCP_2是GBCP_1在融合时候使用了部分有标签测试样本参与BGCM融合的分类方法；GBCP_BGCMxg_L是指本发明的分类方法。

表1各方法对每种情感的分类准确率(%)

将本发明的分类方法与其他方法在多维特征样本上做分类准确率对比，其中96维特征是使用序列浮动前向选择(SFFS,Sequential Floating Forward Selection)方法选择得到的，遗传算法选出43维特征。聚簇个数为6时，不同特征维数的测试样本的分类准确率如表2所示：

表2不同特征维数分类准确率对比(%)

如图3所示，本发明还公开了一种基于图聚类标签传播的集成多分类器融合分类的系统，包括训练模块31和分类模块32，其中，

训练模块31，用于使用训练样本训练基本分类器，对训练样本和测试样本进行多次聚类，得到多种聚类划分状态；以及根据训练样本和测试样本的聚类划分状态进行标签传播，得到测试样本的聚类类别标签CCI；

分类模块32，用于所有聚类划分状态和基本分类器经过训练模块31的处理，得到测试样本的聚类类别信息集合；将聚类类别信息和基本分类器的分类信息共同构成集成分类器的决策矩阵，根据聚类类别信息和基本分类器的分类信息的分类准确率设置分类融合目标方程的参数，以便于限制参数在融合中的限制范围；以及根据分类融合目标方程，将待分类样本的聚类类别信息和基本分类器的预测标签信息使用二分图最大共识法进行融合分类，得到最终的类别标签。

进一步的，上述训练模块31，具体用于对测试样本进行语音信号预处理和特征提取；对训练样本和测试样本进行聚类划分，获得聚类划分状态；使用基本分类器对测试样本进行预分类，得到测试样本的预分类结果；以及使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI。

进一步的，上述使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI，具体包括：根据聚类划分对测试样本建立近邻关系图G和标签图LG，其中，近邻关系图G为：G(x_i,x_j)=w(x_i,x_j)，如果x_i和x_j在同一簇中且互为近邻，w(x_i,x_j)=(1+dist(x_i,x_j))^-1，其中dist(x_i,x_j)表示样本x_i,x_j之间的距离，否则w(x_i,x_j)=0；标签图LG为：LG(x_i)=l,l=label(x_i)l∈[0...num]；根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签；若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为无标签的待分类样本，此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。

上面描述仅是本发明的一个具体实施例，显然在本发明的技术方案指导下本领域的任何人所作的修改或局部替换，均属于本发明权利要求书限定的范围。

Claims

1.一种基于图聚类标签传播的集成多分类器融合分类方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述步骤2，具体包括：

对测试样本进行语音信号预处理和特征提取；

对训练样本和测试样本进行聚类划分，获得聚类划分状态；

使用基本分类器对测试样本进行预分类，得到测试样本的预分类结果；

使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI。

3.如权利要求2所述的方法，其特征在于，所述使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI，具体包括：

根据聚类划分对测试样本建立近邻关系图G和标签图LG，其中，近邻关系图G为：G(x_i,x_j)=w(x_i,x_j)，如果x_i和x_j在同一簇中且互为近邻，w(x_i,x_j)=(1+dist(x_i,x_j))^-1，其中dist(x_i,x_j)表示样本x_i,x_j之间的距离，否则w(x_i,x_j)=0；标签图LG为：LG(x_i)=l,l=label(x_i)l∈[0...num]；

根据待分类样本的近邻样本的类别标签计算类别相似值以推断其聚类类别标签；若无法得到聚类类别标签则此时待分类样本的近邻样本大多数均为无标签的待分类样本，此时利用此待分类样本的最大近邻子集和基本分类器的分类结果计算类别相似值推断其在此聚类情况下的类别信息。

4.如权利要求1所述的方法，其特征在于，所述目标方程为：

F = \min_{Q, U} (Σ_{i = 1}^{n} Σ_{j = 1}^{v} a_{ij} {| | {\overset{&RightArrow;}{u}}_{i} - {\overset{&RightArrow;}{q}}_{j} | |}^{2} + Σ_{j = 1}^{v} a_{i} k_{j} {| | {\overset{&RightArrow;}{q}}_{j} - {\overset{&RightArrow;}{y}}_{j} | |}^{2} + β Σ_{i = 1}^{n} h_{i} {| | {\overset{&RightArrow;}{u}}_{i} - {\overset{&RightArrow;}{f}}_{i} | |}^{2})

\begin{matrix} s . t & {\overset{&RightArrow;}{u}}_{i \cdot} > 0, | {\overset{&RightArrow;}{u}}_{i \cdot} | = 1, i = l : n & {\overset{&RightArrow;}{q}}_{j \cdot} \end{matrix} > 0, | {\overset{&RightArrow;}{\overset{&RightArrow;}{q}}}_{j \cdot} | = 1, j = l : v

其中

k_{j} = \{\begin{matrix} 1 & 0 < j \leq s \\ λ & s < j \leq v, 0 < λ < 1 A_{n \times v}, a_{ij} = 1, \end{matrix}

如果x_i被划分到g_j中，否则为0；U_n×c，

表示x_i被分类成Z类的概率；Q_v×c，表示g_i被分为Z类的概率；y_jz=1是基本分类器分类为Z概率，否则y_jz=0；α,β为限制参数，定义如下：

α_{i} = \{\begin{matrix} \frac{N_{fi, correct}}{N_{fi, all}} + {&PartialD;}_{1} & i = 1 : s \\ \frac{N_{fci, correct}}{N_{fci, all}} + {&PartialD;}_{2} & i = s + 1 : v \end{matrix}

其中N_fi,all和N_fci,all分别表示使用分类器和聚类类别信息的样本总数，N_fi,correct,N_fci,correct分别表示其正确分类的样本个数；

当融合过程中不使用有标签样本辅助融合时，则β=0；否则，当使用部分有标签样本用来提高分类准确率时为BGCM_L算法，此时β≠0，f_iz=1有标签样本x_i的类别标签为类别Z。

5.一种基于图聚类标签传播的集成多分类器融合分类的系统，其特征在于，包括训练模块和分类模块，其中，

6.如权利要求5所述的系统，其特征在于，所述训练模块，具体用于对测试样本进行语音信号预处理和特征提取；对训练样本和测试样本进行聚类划分，获得聚类划分状态；使用基本分类器对测试样本进行预分类，得到测试样本的预分类结果；以及使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI。

7.如权利要求6所述的系统，其特征在于，所述使用基于图的近邻标签传播方法，得到测试样本的聚类类别标签CCI，具体包括：