CN104732241A

CN104732241A - 一种多分类器构建方法和系统

Info

Publication number: CN104732241A
Application number: CN201510163098.7A
Authority: CN
Inventors: 张莉; 黄晓娟; 王邦军; 张召; 杨季文; 李凡长
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-04-08
Filing date: 2015-04-08
Publication date: 2015-06-24

Abstract

本发明的多分类器构建方法和系统，本发明将包含多类样本数据的训练样本集处理为多个两类数据集合；并对每个两类数据集合进行特征选择，得到相应的训练样本子集；之后对每个训练样本子集进行建模，得到相应的子分类器。可见，本发明通过把多类问题分解为多个两类问题，并对每个两类问题进行冗余特征剔除，使每个子分类器具备了特征挑选能力；从而后续进行类别诊断时，可预先基于各子分类器的特征挑选能力对待测数据进行特征挑选，通过利用各子分类器剔除待测数据中的冗余特征，为最终得到较高准确率的类别诊断结果提供了支持。

Description

一种多分类器构建方法和系统

技术领域

本发明属于支持向量机(SVM，Support Vector Machine)的多分类技术领域，尤其涉及一种多分类器构建方法和系统。

背景技术

在多分类问题中，某些数据，如DNA(Deoxyribonucleic acid，脱氧核糖核酸)微阵列数据分析中的基因表达数据具有维数高，样本小，非线性等特点，从而在对此类数据进行分类时，对数据的特征选择处理非常关键。

目前，支持向量机的多分类器，譬如，Shieh等人在文章“MulticlassSVM-RFE for product form feature selection”中提出的MSVM-RFE(multiclassSVM-Recursive Feature Elimination，多类SVM-递归特征消除)算法，考虑的是所有子分类器的权重融合(即将特征在各类上的权重平方和作为特征挑选的衡量准则)，而构成多分类器的各子分类器自身不具备挑选特征的能力，最终导致类别诊断的准确率较低。

发明内容

有鉴于此，本发明的目的在于提供一种多分类器构建方法和系统，旨在解决现有的支持向量机多分类器因其各子分类器自身不具备挑选特征的能力，而导致分类准确率较低的问题。

为此，本发明公开如下技术方案：

一种多分类器构建方法，包括：

将包含l类样本数据的训练样本集处理为l个两类数据集合；所述两类数据集合中包括的两类数据为：依据预设分类方法对所述l类样本数据重新进行两类类别划分后所得的两类数据，l为大于1的自然数；

依据预设的特征选择方法对每个所述两类数据集合进行特征选择，得到相应的训练样本子集；

利用支持向量机SVM模型分别对每个所述训练样本子集进行建模，得到l个子分类器。

上述方法，优选的，所述预设分类方法为一对多OVA方法，所述预设的特征选择方法为支持向量机-递归特征消除SVM-RFE方法。

上述方法，优选的，所述训练样本集为其中：

x_i为样本数据，x_i∈R^D，R为实数空间；

y_i是x_i的类别标签，y_i∈{1,2,...,l}，l是类别的数目；

N是训练样本的总个数；

D是样本的维数。

上述方法，优选的，所述两类数据集合为

X_{j} = {x_{i}, v_{i}}_{i = 1}^{N}, v_{i} = \{\begin{matrix} + 1, & y_{i} = j \\ - 1, & y_{i} &NotEqual; j \end{matrix},

其中，j＝1,…,l。

上述方法，优选的，所述训练样本子集为

X_{j}^{'} = {{x^{'}}_{i}, v_{i}}_{i = 1}^{N}, v_{i} = \{\begin{matrix} + 1, & y_{i} = j \\ - 1, & y_{i} &NotEqual; j \end{matrix},

其中，x′_i为进行特征选择后的样本数据，|F_j|<D，j＝1,…,l。

上述方法，优选的，还包括：

利用特征索引子集F_j对第一测试样本x进行特征选择，得到相应的第二测试样本x′_j；其中，特征索引子集F_j为训练样本子集X′_j的特征集合，j＝1,…,l；

利用子分类器C_j对所述第二测试样本x′_j进行类别诊断，得到相应的诊断结果f_j(x′_j)；所述子分类器C_j为与所述特征索引子集F_j相对应的分类器；

对l个所述诊断结果f_j(x′_j)进行预设处理，得到所述第一测试样本x最终的类别诊断结果y。

上述方法，优选的，所述对l个所述诊断结果f_j(x′_j)进行预设处理，得到所述第一测试样本x所属的类别y为：

基于式获取第一测试样本x的类别诊断结果y。

一种多分类器构建系统，包括：

第一处理模块，用于将包含l类样本数据的训练样本集处理为l个两类数据集合；所述两类数据集合中包括的两类数据为：依据预设分类方法对所述l类样本数据重新进行两类类别划分后所得的两类数据，l为大于1的自然数；

第一特征选择模块，用于依据预设的特征选择方法对每个所述两类数据集合进行特征选择，得到相应的训练样本子集；

建模模块，用于利用支持向量机SVM模型分别对每个所述训练样本子集进行建模，得到l个子分类器。

上述系统，优选的，还包括：

第二特征选择模块，用于利用特征索引子集F_j对第一测试样本x进行特征选择，得到相应的第二测试样本x′_j；其中，特征索引子集F_j为训练样本子集X′_j的特征集合，j＝1,…,l；

诊断模块，用于利用子分类器C_j对所述第二测试样本x′_j进行类别诊断，得到相应的诊断结果f_j(x′_j)；所述子分类器C_j为与所述特征索引子集F_j相对应的分类器；

第二处理模块，用于对l个所述诊断结果f_j(x′_j)进行预设处理，得到所述第一测试样本x最终的类别诊断结果y。

上述系统，优选的，所述第二处理模块为：

获取单元，用于基于式获取第一测试样本x的类别诊断结果y。

由以上方案可知，本发明将包含多类样本数据的训练样本集处理为多个两类数据集合；并对每个两类数据集合进行特征选择，得到相应的训练样本子集；之后对每个训练样本子集进行建模，得到相应的子分类器。可见，本发明通过把多类问题分解为多个两类问题，并对每个两类问题进行冗余特征剔除，使每个子分类器具备了特征挑选能力；从而后续进行类别诊断时，可预先基于各子分类器的特征挑选能力对待测数据进行特征挑选，通过利用各子分类器剔除待测数据中的冗余特征，为最终得到较高准确率的类别诊断结果提供了支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一公开的多分类器构建方法的一种流程图；

图2是本发明实施例二公开的多分类器构建方法的另一种流程图；

图3是本发明实施例二公开的本发明与MSVM-RFE方法的分类性能对比图；

图4是本发明实施例三公开的多分类器构建系统的一种结构示意图；

图5是本发明实施例三公开的多分类器构建系统的另一种结构示意图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结解释如下：

SVM模型：即SVM分类器，SVM模型采用了结构风险最小化原则，借助一个最优超平面，将两类样本无错误地分开，而且使两类之间的分类间隔达到最大。

SVM-RFE：Support Vector Machine-Recursive Feature Elimination，支持向量机-递归特征消除，该方法把需要的特征集合初始化为整个基因集合，然后每次剔除一个排序准则分数最小的基因，直到获得最后的特征集，SVM-RFE是一个基于SVM的最大间隔原理的序列后向选择算法(SBS，SequentialBackward Selection)。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例一公开一种多分类器构建方法，参考图1，所述方法可以包括以下步骤：

S101：将包含l类样本数据的训练样本集处理为l个两类数据集合；所述两类数据集合中包括的两类数据为：依据预设分类方法对所述l类样本数据重新进行两类类别划分后所得的两类数据，l为大于1的自然数。

本实施例将所述训练样本集表示为：

X = {x_{i}, y_{i}}_{i = 1}^{N} - - - (1)

其中，x_i为样本数据，x_i∈R^D，R为实数空间；y_i是x_i的类别标签，y_i∈{1,2,...,l}，l是类别的数目；N是训练样本的总个数；D是样本的维数。

本步骤采用OVA(One-Versus-All，一对多)方法，对所述训练样本集进行预处理，即具体地，从所述训练样本集包含的l类样本数据中选择一个类别作为+1，其他类别均看作-1，在此条件下对原数据(即原有的l类样本数据)进行+1、-1两类类别的分类训练，在依次将l类样本数据中的每类数据作为+1类别进行了l轮训练后，可得到l个两类数据集合：

X_{j} = {x_{i}, v_{i}}_{i = 1}^{N}, v_{i} = \{\begin{matrix} + 1, & y_{i} = j \\ - 1, & y_{i} &NotEqual; j \end{matrix} - - - (2)

其中，j＝1,…,l。

本申请具体以医疗领域中的胚数据集(Cns5c)数据为例对所述方法进行解释说明。所述胚数据集中共包含42名患者的数据样本，每个样本有989个基因，其中，42个样本中包括10个成神经管细胞瘤(M)、5个胚胎性肿瘤的中枢神经系统(CNS/RTs)及5个肾内外杆状的肿瘤(CRE)、8个幕上的PNETs(S)、10个无胚芽脑部肿瘤(恶性神经胶质瘤)(MG)、4个正常的人类小脑组织(N)，这5类样本数据。

此处需要说明的是，胚胎性肿瘤的中枢神经系统(CNS/RTs)及肾内外杆状的肿瘤均属于CRE。

接下来，本实例将所述胚数据集分为如下两个子集：

1)26个训练样本，具体包括6个M、6个CRE、6个MG、5个S和3个N，用来选择基因和调整分类器的权重；

2)16个测试样本，具体包括4个M、4个CRE、4个MG、3个S和1个N，用来测试、评价所构建的分类器的性能；为了达到较好的实验效果，所述训练样本和测试样本中不存在重叠样本。

每个样本都有989个基因，每个基因均可作为样本的一个特征，从而每个样本具有989个特征，本实例中将所述M视为第一类，CRE视为第二类,MG视为第三类，S视视为第四类，N视为第五类，分别用数字1、2…..5表示，则在由所述26个训练样本构成的训练样本集x_i∈R^D，y_i∈{1,2,...,l}中，N＝26，D＝989，l＝5。

采用所述OVA方法，对所述26个训练样本构成的训练样本集进行预处理后，可得到5个两类数据集合X_j，其中

X_{j} = {x_{i}, v_{i}}_{i = 1}^{N}, v_{i} = \{\begin{matrix} + 1, & y_{i} = j \\ - 1, & y_{i} &NotEqual; j \end{matrix},

N＝26，j＝1,…,5。

S102：依据预设的特征选择方法对每个所述两类数据集合进行特征选择，得到相应的训练样本子集。

在得到l个两类数据集合X_j，j＝1,…,l后，本步骤采用SVM-RFE(SVM-Recursive Feature Elimination，支持向量机-递归特征消除)方法对每个两类数据集合X_j进行特征选择，得到对应的特征索引子集和训练样本子集。

所述特征索引子集为：

F_{j} &SubsetEqual; {1, . . ., D}, j = 1, . . ., l - - - (3)

令对所述两类数据集合进行特征选择后所得到的训练样本子集为：

X_{j}^{'} = {{x^{'}}_{i}, v_{i}}_{i = 1}^{N}, v_{i} = \{\begin{matrix} + 1, & y_{i} = j \\ - 1, & y_{i} &NotEqual; j \end{matrix} - - - (4)

上述医疗数据的实例中，利用SVM-RFE方法对5个两类数据集合X_j，j＝1,…,5进行特征选择，可相应得到5个特征索引子集j＝1,…,5，以及5个训练样本子集

X_{j}^{'} = {{x^{'}}_{i}, v_{i}}_{i = 1}^{N}, v_{i} = \{\begin{matrix} + 1, & y_{i} = j \\ - 1, & y_{i} &NotEqual; j \end{matrix},

N＝26，j＝1,…,5。

S103：利用支持向量机SVM模型分别对每个所述训练样本子集进行建模，得到l个子分类器。

在以上步骤的基础上，本步骤采用SVM模型分别对特征选择后所得的各个训练样本子集j＝1,…,l进行建模，得到l个子分类器模型函数f_j(x)，j＝1,…,l。

上述医疗数据的实例中，采用SVM模型对特征选择后所得的5个训练样本子集进行建模后，可得到一个包含5个子分类器模型的医疗诊断系统，该系统可基于其所包含的5个子分类器模型，来鉴别患者数据具体属于所述五类类别(M、CRE、MG、N及S)中的哪一种类别，最终实现医疗诊断。

实施例二

本实施例二中，参考图2，所述方法还可以包括以下步骤：

S104：利用特征索引子集F_j对第一测试样本x进行特征选择，得到相应的第二测试样本x′_j；其中，特征索引子集F_j为训练样本子集X′_j的特征集合，

F_{j} &SubsetEqual; {1, . . ., D},

j＝1,…,l；

S105：利用子分类器C_j对所述第二测试样本x′_j进行类别诊断，得到相应的诊断结果f_j(x′_j)；所述子分类器C_j为与所述特征索引子集F_j相对应的分类器；

S106：对l个所述诊断结果f_j(x′_j)进行预设处理，得到所述第一测试样本x最终的类别诊断结果y。

在采用SVM模型对特征选择后的数据集合进行建模，得到l个子分类器后，可基于各个子分类器的分类功能对待测数据进行类别诊断。

本实施例中，令待测数据为x，其中，x∈R^D。

在对待测数据进行类别诊断时，首先利用各个子分类器所对应的特征集合，即实施例一中提供的特征索引子集F_j对待测数据x进行特征挑选，得到消除了冗余特征的待测数据x′_j，j＝1,…,l。之后再利用子分类器C_j的模型函数f_j(x)，对消除了冗余特征的待测数据x′_j进行类别诊断，得到相应的诊断结果f_j(x'_j),j＝1,…l。

在此基础上，融合l个模型函数的值，并取其中最大值作为待测数据x最终的类别诊断结果y，即：

y = \max_{j = 1, . . . 5} f_{j} ({x^{'}}_{j}) - - - (5) .

本实施例具体利用上述医疗实例中的16个测试样本，对所构建的分类器进行性能评估。参考图3，在利用本发明对16个989维的医疗数据测试样本进行分类的基础上，将本发明的分类情况与MSVM-RFE算法的分类情况进行比对，其中，MSVM-RFE算法的分类基于相同的数据集。随机取26个训练样本重复实验10次，平均结果如图3所示，可以发现：本发明比MSVM-RFE算法收敛得更快，在选择了相同基因个数的情况下，本发明具有更好的分类性能。

表1给出了两种方法所具有的最好分类性能的对比数据：

表1

特征选择方法	MSVM-RFE	本发明
			最佳基因个数	56	223
平均正确率(％)	85.62	88.75

通过表1可知本发明的分类准确率相比于MSVM-RFE方法提高了3个百分点。

实施例三

本实施例公开一种多分类器构建系统，该系统与以上各实施例公开的多分类器构建方法相对应。

相应于实施例一，参考图4，所述系统包括第一处理模块100、第一特征选择模块200和建模模块300，其中：

第一处理模块100，用于将包含l类样本数据的训练样本集处理为l个两类数据集合；所述两类数据集合中包括的两类数据为：依据预设分类方法对所述l类样本数据重新进行两类类别划分后所得的两类数据，l为大于1的自然数；

第一特征选择模块200，用于依据预设的特征选择方法对每个所述两类数据集合进行特征选择，得到相应的训练样本子集；

建模模块300，用于利用支持向量机SVM模型分别对每个所述训练样本子集进行建模，得到l个子分类器。

相应于实施例二，参考图5，所述系统还包括：

第二特征选择模块400，用于利用特征索引子集F_j对第一测试样本x进行特征选择，得到相应的第二测试样本x′_j；其中，特征索引子集F_j为训练样本子集X′_j的特征集合，j＝1,…,l；

诊断模块500，用于利用子分类器C_j对所述第二测试样本x′_j进行类别诊断，得到相应的诊断结果f_j(x′_j)；所述子分类器C_j为与所述特征索引子集F_j相对应的分类器；

第二处理模块600，用于对l个所述诊断结果f_j(x′_j)进行预设处理，得到所述第一测试样本x最终的类别诊断结果y。

其中，第二处理模块600具体为获取单元，用于基于式获取第一测试样本x的类别诊断结果y。

对于本发明实施例三公开的多分类器构建系统而言，由于其与实施例一和实施例二公开的多分类器构建方法相对应，所以描述的比较简单，相关相似之处请参见实施例一和实施例二中多分类器构建方法部分的说明即可，此处不再详述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

最后，还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多分类器构建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设分类方法为一对多OVA方法，所述预设的特征选择方法为支持向量机-递归特征消除SVM-RFE方法。

3.根据权利要求2所述的方法，其特征在于，所述训练样本集为

X = {x_{i}, y_{i}}_{i = 1}^{N},

其中：

x_i为样本数据，x_i∈R^D，R为实数空间；

y_i是x_i的类别标签，y_i∈{1,2,...,l}，l是类别的数目；

N是训练样本的总个数；

D是样本的维数。

4.根据权利要求3所述的方法，其特征在于，所述两类数据集合为

X_{j} = {x_{i}, v_{i}}_{i = 1}^{N},

v_{i} = \{\begin{matrix} + 1, & y_{i} = j \\ - 1, & y_{i} &NotEqual; j \end{matrix},

其中，j＝1,…,l。

5.根据权利要求4所述的方法，其特征在于，所述训练样本子集为

{X_{j}^{'} = {x_{i}^{'}, v_{i}}}_{i = 1}^{N},

v_{i} = \{\begin{matrix} + 1, & y_{i} = j \\ - 1, & y_{i} &NotEqual; j \end{matrix},

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述对l个所述诊断结果f_j(x′_j)进行预设处理，得到所述第一测试样本x所属的类别y为：

基于式获取第一测试样本x的类别诊断结果y。

8.一种多分类器构建系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，还包括：

第二处理模块，用于对_l个所述诊断结果f_j(x′_j)进行预设处理，得到所述第一测试样本x最终的类别诊断结果y。

10.根据权利要求9所述的系统，其特征在于，所述第二处理模块为：