CN106971201A - 基于集成学习的多标签分类方法 - Google Patents

基于集成学习的多标签分类方法 Download PDF

Info

Publication number
CN106971201A
CN106971201A CN201710178952.6A CN201710178952A CN106971201A CN 106971201 A CN106971201 A CN 106971201A CN 201710178952 A CN201710178952 A CN 201710178952A CN 106971201 A CN106971201 A CN 106971201A
Authority
CN
China
Prior art keywords
label
sample
base grader
tag
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710178952.6A
Other languages
English (en)
Inventor
胡军
程龙
欧阳卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710178952.6A priority Critical patent/CN106971201A/zh
Publication of CN106971201A publication Critical patent/CN106971201A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于集成学习的多标签分类方法,包括以下步骤:预先设置参数m,k,t;然后对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度;再依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器;最后将基分类器的训练结果进行集成,得到最终的分类结果。本发明在已知训练样本及其标签的情况下,通过聚类的方法预先学习样本的属性,因为在多标签的问题中,一组标签其实是属性的另一种表达,建立这种标签表达属性的关系,也即哪些标签可以表达什么样的属性,可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。

Description

基于集成学习的多标签分类方法
技术领域
本发明涉及智能信息处理的技术领域,具体涉及一种基于集成学习的多标签分类方法。
背景技术
现如今的人类生活在一个信息大爆炸的时代,从复杂信息中定位自己需求信息的要求也在不断提高。多标签分类就是这样一种技术,它可以为人们将信息准确的分门别类,从而在一系列的标签信息中就可以获取该信息的精华部分。与传统的单标签分类技术不同的是,单标签分类只能解决是与否的问题,比如说电影是否好看,一本书是否是小说等等;而多标签分类技术则能提供更高精度的信息描述,电影可以用历史、战争、爱情、明星等标签同时描述,书可以用小说,推理,福尔摩斯,密室等标签来标记。
多标签分类学习的定义:
假设X=Rd表示d维实例空间,Y={y1,y2,...,yq}表示有q个类标签的标签空间;
多标签学习的目标就是从多标签训练集D={(Xi,Yi)|1≤i≤m}中学习映射函数h:X→2Y
对于每一个学习样本(Xi,Yi),Xi∈X是一个d维的特征向量,而是与之对应的标签集。
多标签分类技术主要有两类:一种是问题转化方法,它通过将现有的多标签问题转化多个单标签问题来解决;一种是算法适应方法,它用传统的机器学习算法直接处理多标签问题。
现有技术说明:
RAkEL算法是一种算法适应算法,主要思想是集成学习,它有三个参数m、k、t,分两步步完成。第一步从训练数据集中的L个标签中得到个标签子集,取)个标签子集获取训练子集,每个训练子集使用LP分类器进行训练,得到个基分类器;第二步,在集成阶段,通过基分类器训练得到结果中每个标签的支持比率与t进行比较,确定最终的分类结果。
发明内容
针对上述技术中存在的不足之处,本发明提供一种能提升集成效果的基于集成学习的多标签分类方法。
为了达到上述目的,本发明一种基于集成学习的多标签分类方法,包括以下步骤:
A1、预先设置参数m,k,t,其中:m表示基分类器的个数,k表示基分类器中训练集标签个数,t表示在集成阶段分类器判断是否含有标签的阈值;
A2、对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度;
A3、依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器;
A4、将基分类器的训练结果进行集成,得到最终的分类结果。
所述步骤A2中,标签重要性的计算方法为:
A21、通过聚类得到样本所属类簇以及类簇数|C|=n,其聚类结果可用集合的方式表达C={c1,c2,...,cn};
A22、计算每个标签对任意类簇的表达能力pij其中|Yij|表示在类簇cj中含有标签i的样本数,|cj|表示类簇cj中样本的总数,|Yi|表示在原始样本中含有标签i的样本数,|Di|表示样本总数;
A23、计算每个标签对类簇的表达的能力的离差ei,即标签重要性,公式为:
A24、进行归一化
所述步骤A3中,学习基分类器的方法为:
A31、依据Ei值的大小即标签重要性的大小从原始标签集中非等概率的获得m个k大小的标签子集Ym,要求
A32、每个标签子集Ym对应含有该标签子集的样本组成的集合为基分类器的训练集Dm
A33、使用LP分类器学习训练集Dm,得到m个基分类器h1,h2,…,hm
所述步骤A4中,集成的过程具体为:
A41、对于测试样本,任意标签Yi,统计基分类器hm中学习过标签Yi的基分类器个数Sumi,并统计认为样本含有Yi的基分类器个数Votei
A42、比较Votei/Sumi与阈值t的大小,如果Votei/Sumi大,则样本含有标签Yi,反之则不含标签Yi
A43、最终判断测试样本所包含的标签集合。
本发明的有益效果是:本发明在原有多标签集成学习RAkEL方法的基础上作了改进,通过聚类的方法预先学习样本集的属性部分,再结合标签集,达到一种预学习的效果,在保证基分类器本身正确率的基础上,能够有效改善集成学习中各个基分类器之间的多样性,并最终提升多标签分类的正确率。在已知训练样本及其标签的情况下,通过聚类的方法预先学习样本的属性,因为在多标签的问题中,一组标签其实是属性的另一种表达,建立这种标签表达属性的关系,也即哪些标签可以表达什么样的属性,可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。
附图说明
图1为本发明基于集成学习的多标签分类方法的流程图;
图2为本发明标签重要性的计算方法的流程图;
图3为本发明基分类器的训练结果进行集成的流程图。
具体实施方式
下面结合附图对本发明作进一步地描述。
如图1所示的基于集成学习的多标签分类方法,包括以下步骤:
A1、预先设置参数m,k,t;其中:m表示基分类器的个数,k表示基分类器中训练集标签个数,t表示在集成阶段分类器判断是否含有标签的阈值。
A2、对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度。
A3、依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器。
A4、将基分类器的训练结果进行集成,得到最终的分类结果。
本发明所述的基于集成学习的多标签分类方法,在原有多标签集成学习RAkEL方法的基础上作了改进,通过聚类的方法预先学习样本集的属性部分,再结合标签集,达到一种预学习的效果,在保证基分类器本身正确率的基础上,能够有效改善集成学习中各个基分类器之间的多样性,并最终提升多标签分类的正确率。在已知训练样本及其标签的情况下,通过聚类的方法预先学习样本的属性,因为在多标签的问题中,一组标签其实是属性的另一种表达,建立这种标签表达属性的关系,也即哪些标签可以表达什么样的属性,可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。
在本实施例中,首先会用到多标签学习数据集yeast,它是生物信息领域的数据,包含2417个样本,103个属性,和14个标签。根据留出法,使用2175条样本作为训练集,即原始数据的90%样本,另外242条样本作为测试集。所述A1中,设置参数m=100,k=3,t=0.5。
如图2所示,所述步骤A2中,标签重要性的计算方法为:
A21、在对训练集聚类时,我们使用AP(affinity propagation)聚类方法进行聚类;
其中AP聚类方法是一种不需指定类簇个数的聚类方法,但是需要设置preference参数,本实验中preference设置为-10。
A22、通过聚类得到样本所属类簇以及类簇数|C|,其聚类结果可用集合的方式表达C={c1,c2,...,cn},yeast数据的具体聚类结果依据AP聚类的参数决定;计算每个标签对任意Yi类簇cj的表达能力pij其中|Yij|表示在类簇cj中含有标签i的样本数,|cj|表示类簇cj中样本的总数,|Yi|表示在原始样本中含有标签i的样本数,|Di|表示样本总数。
A23:计算每个标签对类簇的表达的能力的离差ei,即标签重要性,公式为:
A24、进行归一化
在本实施例中,所述步骤A3中,学习基分类器的方法为:
A31、依据Ei值的大小即标签重要性的大小从原始标签集中非等概率的获得m个k大小的标签子集Ym,要求
A32、每个标签子集Ym对应含有该标签子集的样本组成的集合为基分类器的训练集Dm
A33、使用LP(标签幂集)分类器学习训练集Dm,得到m个基分类器h1,h2,…,hm,本实施例中具体的LP分类器使用基于OVR(一对多)的支持向量机分类器,支持向量机的使用RBF(径向基函数)核函数。
如图3所示,所述步骤A4中,集成的过程具体为:
A41、对于测试集中的样本,任意标签Yi,统计基分类器hm中已学习过标签Yi的基分类器个数Sumi,并统计认为样本含有Yi的基分类器个数Votei,即投票。
A42、比较Votei/Sumi与阈值t的大小,如果Votei/Sumi大,则样本含有标签Yi,反之则不含标签Yi
A43、最终判断测试样本所包含的标签集合。
A44、计算测试集的准确率。
以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (4)

1.一种基于集成学习的多标签分类方法,其特征在于,包括以下步骤:
A1、预先设置参数m,k,t,其中:m表示基分类器的个数,k表示基分类器中训练集标签个数,t表示在集成阶段分类器判断是否含有标签的阈值;
A2、对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度;
A3、依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器;
A4、将基分类器的训练结果进行集成,得到最终的分类结果。
2.根据权利要求1所述的基于集成学习的多标签分类方法,其特征在于,所述步骤A2中,标签重要性的计算方法为:
A21、通过聚类得到样本所属类簇以及类簇数|C|=n,其聚类结果可用集合的方式表达C={c1,c2,...,cn};
A22、计算每个标签对任意类簇的表达能力pij其中|Yij|表示在类簇cj中含有标签i的样本数,|cj|表示类簇cj中样本的总数,|Yi|表示在原始样本中含有标签i的样本数,|Di|表示样本总数;
A23、计算每个标签对类簇的表达的能力的离差ei,即标签重要性,公式为:
A24、进行归一化
3.根据权利要求2所述的基于集成学习的多标签分类方法,其特征在于,所述步骤A3中,学习基分类器的方法为:
A31、依据Ei值的大小即标签重要性的大小从原始标签集中非等概率的获得m个k大小的标签子集Ym,要求
A32、每个标签子集Ym对应含有该标签子集的样本组成的集合为基分类器的训练集Dm
A33、使用LP分类器学习训练集Dm,得到m个基分类器h1,h2,…,hm
4.根据权利要求3所述的基于集成学习的多标签分类方法,其特征在于,所述步骤A4中,集成的过程具体为:
A41、对于测试样本,任意标签Yi,统计基分类器hm中已学习过标签Yi的基分类器个数Sumi,并统计认为样本含有Yi的基分类器个数Votei
A42、比较Votei/Sumi与阈值t的大小,如果Votei/Sumi大,则样本含有标签Yi,反之则不含标签Yi
A43、最终判断测试样本所包含的标签集合。
CN201710178952.6A 2017-03-23 2017-03-23 基于集成学习的多标签分类方法 Pending CN106971201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710178952.6A CN106971201A (zh) 2017-03-23 2017-03-23 基于集成学习的多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710178952.6A CN106971201A (zh) 2017-03-23 2017-03-23 基于集成学习的多标签分类方法

Publications (1)

Publication Number Publication Date
CN106971201A true CN106971201A (zh) 2017-07-21

Family

ID=59329600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710178952.6A Pending CN106971201A (zh) 2017-03-23 2017-03-23 基于集成学习的多标签分类方法

Country Status (1)

Country Link
CN (1) CN106971201A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537270A (zh) * 2018-04-04 2018-09-14 厦门理工学院 基于多标签学习的图像标注方法、终端设备及存储介质
CN109117859A (zh) * 2018-06-15 2019-01-01 国网浙江省电力有限公司 用于计算机视觉的多标签聚类方法
CN111325264A (zh) * 2020-02-17 2020-06-23 武汉大学 一种基于熵的多标签数据分类方法
CN111476276A (zh) * 2020-03-17 2020-07-31 中国平安人寿保险股份有限公司 智能化数据分类方法、装置、电子设备及可读存储介质
CN115828093A (zh) * 2022-11-02 2023-03-21 四川帕诺米克生物科技有限公司 组学样本的分析方法、装置、电子设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537270A (zh) * 2018-04-04 2018-09-14 厦门理工学院 基于多标签学习的图像标注方法、终端设备及存储介质
CN109117859A (zh) * 2018-06-15 2019-01-01 国网浙江省电力有限公司 用于计算机视觉的多标签聚类方法
CN111325264A (zh) * 2020-02-17 2020-06-23 武汉大学 一种基于熵的多标签数据分类方法
CN111476276A (zh) * 2020-03-17 2020-07-31 中国平安人寿保险股份有限公司 智能化数据分类方法、装置、电子设备及可读存储介质
CN111476276B (zh) * 2020-03-17 2024-06-14 中国平安人寿保险股份有限公司 智能化数据分类方法、装置、电子设备及可读存储介质
CN115828093A (zh) * 2022-11-02 2023-03-21 四川帕诺米克生物科技有限公司 组学样本的分析方法、装置、电子设备及存储介质
CN115828093B (zh) * 2022-11-02 2024-04-05 四川帕诺米克生物科技有限公司 组学样本的分析方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN106971201A (zh) 基于集成学习的多标签分类方法
CN104573669B (zh) 图像物体检测方法
Zhang et al. Local density adaptive similarity measurement for spectral clustering
CN103886330B (zh) 基于半监督svm集成学习的分类方法
WO2021120834A1 (zh) 基于生物识别的手势识别方法、装置、计算机设备及介质
CN103745233B (zh) 基于空间信息迁移的高光谱图像分类方法
CN107239736A (zh) 基于多任务级联卷积神经网络的人脸检测方法及检测装置
CN112801146B (zh) 一种目标检测方法及系统
CN102968626B (zh) 一种人脸图像匹配的方法
CN107239731A (zh) 一种基于Faster R‑CNN的手势检测和识别方法
CN104616029B (zh) 数据分类方法及装置
CN104102922B (zh) 一种基于上下文感知字典学习的害虫图像分类方法
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN104298963B (zh) 一种鲁棒的基于人脸形状回归模型的多姿态疲劳监测方法
CN107563445A (zh) 一种基于半监督学习的提取图像特征的方法与装置
CN104156690B (zh) 一种基于图像空间金字塔特征包的手势识别方法
CN103235947B (zh) 一种手写体数字识别方法及装置
CN110490236A (zh) 基于神经网络的自动图像标注方法、系统、装置和介质
CN108280488A (zh) 基于共享神经网络的可抓取物体识别方法
CN105976397B (zh) 一种目标跟踪方法
CN106845358A (zh) 一种手写体字符图像特征识别的方法及系统
CN103279746A (zh) 一种基于支持向量机的人脸识别方法及系统
CN104376308B (zh) 一种基于多任务学习的人体动作识别方法
CN109614990A (zh) 一种目标检测装置
CN110046941A (zh) 一种人脸识别方法、系统及电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170721

RJ01 Rejection of invention patent application after publication