CN106971201A

CN106971201A - 基于集成学习的多标签分类方法

Info

Publication number: CN106971201A
Application number: CN201710178952.6A
Authority: CN
Inventors: 胡军; 程龙; 欧阳卫华
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2017-07-21

Abstract

本发明公开一种基于集成学习的多标签分类方法，包括以下步骤：预先设置参数m，k，t；然后对原始训练样本集进行聚类，根据聚类结果计算标签的重要性程度；再依据标签重要性程度，从原始训练集中获取m个训练集学习基分类器；最后将基分类器的训练结果进行集成，得到最终的分类结果。本发明在已知训练样本及其标签的情况下，通过聚类的方法预先学习样本的属性，因为在多标签的问题中，一组标签其实是属性的另一种表达，建立这种标签表达属性的关系，也即哪些标签可以表达什么样的属性，可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。

Description

基于集成学习的多标签分类方法

技术领域

本发明涉及智能信息处理的技术领域，具体涉及一种基于集成学习的多标签分类方法。

背景技术

现如今的人类生活在一个信息大爆炸的时代，从复杂信息中定位自己需求信息的要求也在不断提高。多标签分类就是这样一种技术，它可以为人们将信息准确的分门别类，从而在一系列的标签信息中就可以获取该信息的精华部分。与传统的单标签分类技术不同的是，单标签分类只能解决是与否的问题，比如说电影是否好看，一本书是否是小说等等；而多标签分类技术则能提供更高精度的信息描述，电影可以用历史、战争、爱情、明星等标签同时描述，书可以用小说，推理，福尔摩斯，密室等标签来标记。

多标签分类学习的定义：

假设X＝R^d表示d维实例空间，Y＝{y₁,y₂,...,y_q}表示有q个类标签的标签空间；

多标签学习的目标就是从多标签训练集D＝{(X_i,Y_i)|1≤i≤m}中学习映射函数h:X→2^Y；

对于每一个学习样本(X_i，Y_i)，X_i∈X是一个d维的特征向量，而是与之对应的标签集。

多标签分类技术主要有两类：一种是问题转化方法，它通过将现有的多标签问题转化多个单标签问题来解决；一种是算法适应方法，它用传统的机器学习算法直接处理多标签问题。

现有技术说明：

RAkEL算法是一种算法适应算法，主要思想是集成学习，它有三个参数m、k、t，分两步步完成。第一步从训练数据集中的L个标签中得到个标签子集，取)个标签子集获取训练子集，每个训练子集使用LP分类器进行训练，得到个基分类器；第二步，在集成阶段，通过基分类器训练得到结果中每个标签的支持比率与t进行比较，确定最终的分类结果。

发明内容

针对上述技术中存在的不足之处，本发明提供一种能提升集成效果的基于集成学习的多标签分类方法。

为了达到上述目的，本发明一种基于集成学习的多标签分类方法，包括以下步骤：

A1、预先设置参数m，k，t，其中：m表示基分类器的个数，k表示基分类器中训练集标签个数，t表示在集成阶段分类器判断是否含有标签的阈值；

A2、对原始训练样本集进行聚类，根据聚类结果计算标签的重要性程度；

A3、依据标签重要性程度，从原始训练集中获取m个训练集学习基分类器；

A4、将基分类器的训练结果进行集成，得到最终的分类结果。

所述步骤A2中，标签重要性的计算方法为:

A21、通过聚类得到样本所属类簇以及类簇数|C|＝n，其聚类结果可用集合的方式表达C＝{c₁，c₂,...,c_n}；

A22、计算每个标签对任意类簇的表达能力p_ij，其中|Y_ij|表示在类簇cj中含有标签i的样本数，|c_j|表示类簇cj中样本的总数，|Y_i|表示在原始样本中含有标签i的样本数，|D_i|表示样本总数；

A23、计算每个标签对类簇的表达的能力的离差e_i，即标签重要性，公式为：

A24、进行归一化

所述步骤A3中，学习基分类器的方法为：

A31、依据E_i值的大小即标签重要性的大小从原始标签集中非等概率的获得m个k大小的标签子集Y_m，要求

A32、每个标签子集Y_m对应含有该标签子集的样本组成的集合为基分类器的训练集D_m；

A33、使用LP分类器学习训练集D_m，得到m个基分类器h₁，h₂，…，h_m。

所述步骤A4中，集成的过程具体为：

A41、对于测试样本，任意标签Y_i,统计基分类器h_m中学习过标签Y_i的基分类器个数Sum_i，并统计认为样本含有Y_i的基分类器个数Vote_i；

A42、比较Vote_i/Sum_i与阈值t的大小，如果Vote_i/Sum_i大，则样本含有标签Y_i，反之则不含标签Y_i；

A43、最终判断测试样本所包含的标签集合。

本发明的有益效果是：本发明在原有多标签集成学习RAkEL方法的基础上作了改进，通过聚类的方法预先学习样本集的属性部分，再结合标签集，达到一种预学习的效果，在保证基分类器本身正确率的基础上，能够有效改善集成学习中各个基分类器之间的多样性，并最终提升多标签分类的正确率。在已知训练样本及其标签的情况下，通过聚类的方法预先学习样本的属性，因为在多标签的问题中，一组标签其实是属性的另一种表达，建立这种标签表达属性的关系，也即哪些标签可以表达什么样的属性，可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。

附图说明

图1为本发明基于集成学习的多标签分类方法的流程图；

图2为本发明标签重要性的计算方法的流程图；

图3为本发明基分类器的训练结果进行集成的流程图。

具体实施方式

下面结合附图对本发明作进一步地描述。

如图1所示的基于集成学习的多标签分类方法，包括以下步骤：

A1、预先设置参数m，k，t；其中：m表示基分类器的个数，k表示基分类器中训练集标签个数，t表示在集成阶段分类器判断是否含有标签的阈值。

A2、对原始训练样本集进行聚类，根据聚类结果计算标签的重要性程度。

A3、依据标签重要性程度，从原始训练集中获取m个训练集学习基分类器。

本发明所述的基于集成学习的多标签分类方法，在原有多标签集成学习RAkEL方法的基础上作了改进，通过聚类的方法预先学习样本集的属性部分，再结合标签集，达到一种预学习的效果，在保证基分类器本身正确率的基础上，能够有效改善集成学习中各个基分类器之间的多样性，并最终提升多标签分类的正确率。在已知训练样本及其标签的情况下，通过聚类的方法预先学习样本的属性，因为在多标签的问题中，一组标签其实是属性的另一种表达，建立这种标签表达属性的关系，也即哪些标签可以表达什么样的属性，可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。

在本实施例中，首先会用到多标签学习数据集yeast，它是生物信息领域的数据，包含2417个样本，103个属性，和14个标签。根据留出法，使用2175条样本作为训练集，即原始数据的90％样本，另外242条样本作为测试集。所述A1中，设置参数m＝100，k＝3，t＝0.5。

如图2所示，所述步骤A2中，标签重要性的计算方法为:

A21、在对训练集聚类时，我们使用AP(affinity propagation)聚类方法进行聚类；

其中AP聚类方法是一种不需指定类簇个数的聚类方法，但是需要设置preference参数，本实验中preference设置为-10。

A22、通过聚类得到样本所属类簇以及类簇数|C|，其聚类结果可用集合的方式表达C＝{c₁，c₂,...,c_n}，yeast数据的具体聚类结果依据AP聚类的参数决定；计算每个标签对任意Y_i类簇cj的表达能力p_ij，其中|Y_ij|表示在类簇cj中含有标签i的样本数，|c_j|表示类簇cj中样本的总数，|Y_i|表示在原始样本中含有标签i的样本数，|D_i|表示样本总数。

A23：计算每个标签对类簇的表达的能力的离差e_i，即标签重要性，公式为：

A24、进行归一化

在本实施例中，所述步骤A3中，学习基分类器的方法为：

A32、每个标签子集Y_m对应含有该标签子集的样本组成的集合为基分类器的训练集D_m。

A33、使用LP(标签幂集)分类器学习训练集D_m，得到m个基分类器h₁，h₂，…，h_m，本实施例中具体的LP分类器使用基于OVR(一对多)的支持向量机分类器，支持向量机的使用RBF(径向基函数)核函数。

如图3所示，所述步骤A4中，集成的过程具体为：

A41、对于测试集中的样本，任意标签Y_i,统计基分类器h_m中已学习过标签Y_i的基分类器个数Sum_i，并统计认为样本含有Y_i的基分类器个数Vote_i，即投票。

A42、比较Vote_i/Sum_i与阈值t的大小，如果Vote_i/Sum_i大，则样本含有标签Y_i，反之则不含标签Y_i。

A43、最终判断测试样本所包含的标签集合。

A44、计算测试集的准确率。

以上公开的仅为本发明的几个具体实施例，但是本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于集成学习的多标签分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于集成学习的多标签分类方法，其特征在于，所述步骤A2中，标签重要性的计算方法为:

A24、进行归一化

3.根据权利要求2所述的基于集成学习的多标签分类方法，其特征在于，所述步骤A3中，学习基分类器的方法为：

4.根据权利要求3所述的基于集成学习的多标签分类方法，其特征在于，所述步骤A4中，集成的过程具体为：

A41、对于测试样本，任意标签Y_i,统计基分类器h_m中已学习过标签Y_i的基分类器个数Sum_i，并统计认为样本含有Y_i的基分类器个数Vote_i；

A43、最终判断测试样本所包含的标签集合。