CN106971201A - 基于集成学习的多标签分类方法 - Google Patents
基于集成学习的多标签分类方法 Download PDFInfo
- Publication number
- CN106971201A CN106971201A CN201710178952.6A CN201710178952A CN106971201A CN 106971201 A CN106971201 A CN 106971201A CN 201710178952 A CN201710178952 A CN 201710178952A CN 106971201 A CN106971201 A CN 106971201A
- Authority
- CN
- China
- Prior art keywords
- label
- sample
- base grader
- tag
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于集成学习的多标签分类方法,包括以下步骤:预先设置参数m,k,t;然后对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度;再依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器;最后将基分类器的训练结果进行集成,得到最终的分类结果。本发明在已知训练样本及其标签的情况下,通过聚类的方法预先学习样本的属性,因为在多标签的问题中,一组标签其实是属性的另一种表达,建立这种标签表达属性的关系,也即哪些标签可以表达什么样的属性,可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。
Description
技术领域
本发明涉及智能信息处理的技术领域,具体涉及一种基于集成学习的多标签分类方法。
背景技术
现如今的人类生活在一个信息大爆炸的时代,从复杂信息中定位自己需求信息的要求也在不断提高。多标签分类就是这样一种技术,它可以为人们将信息准确的分门别类,从而在一系列的标签信息中就可以获取该信息的精华部分。与传统的单标签分类技术不同的是,单标签分类只能解决是与否的问题,比如说电影是否好看,一本书是否是小说等等;而多标签分类技术则能提供更高精度的信息描述,电影可以用历史、战争、爱情、明星等标签同时描述,书可以用小说,推理,福尔摩斯,密室等标签来标记。
多标签分类学习的定义:
假设X=Rd表示d维实例空间,Y={y1,y2,...,yq}表示有q个类标签的标签空间;
多标签学习的目标就是从多标签训练集D={(Xi,Yi)|1≤i≤m}中学习映射函数h:X→2Y;
对于每一个学习样本(Xi,Yi),Xi∈X是一个d维的特征向量,而是与之对应的标签集。
多标签分类技术主要有两类:一种是问题转化方法,它通过将现有的多标签问题转化多个单标签问题来解决;一种是算法适应方法,它用传统的机器学习算法直接处理多标签问题。
现有技术说明:
RAkEL算法是一种算法适应算法,主要思想是集成学习,它有三个参数m、k、t,分两步步完成。第一步从训练数据集中的L个标签中得到个标签子集,取)个标签子集获取训练子集,每个训练子集使用LP分类器进行训练,得到个基分类器;第二步,在集成阶段,通过基分类器训练得到结果中每个标签的支持比率与t进行比较,确定最终的分类结果。
发明内容
针对上述技术中存在的不足之处,本发明提供一种能提升集成效果的基于集成学习的多标签分类方法。
为了达到上述目的,本发明一种基于集成学习的多标签分类方法,包括以下步骤:
A1、预先设置参数m,k,t,其中:m表示基分类器的个数,k表示基分类器中训练集标签个数,t表示在集成阶段分类器判断是否含有标签的阈值;
A2、对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度;
A3、依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器;
A4、将基分类器的训练结果进行集成,得到最终的分类结果。
所述步骤A2中,标签重要性的计算方法为:
A21、通过聚类得到样本所属类簇以及类簇数|C|=n,其聚类结果可用集合的方式表达C={c1,c2,...,cn};
A22、计算每个标签对任意类簇的表达能力pij,其中|Yij|表示在类簇cj中含有标签i的样本数,|cj|表示类簇cj中样本的总数,|Yi|表示在原始样本中含有标签i的样本数,|Di|表示样本总数;
A23、计算每个标签对类簇的表达的能力的离差ei,即标签重要性,公式为:
A24、进行归一化
所述步骤A3中,学习基分类器的方法为:
A31、依据Ei值的大小即标签重要性的大小从原始标签集中非等概率的获得m个k大小的标签子集Ym,要求
A32、每个标签子集Ym对应含有该标签子集的样本组成的集合为基分类器的训练集Dm;
A33、使用LP分类器学习训练集Dm,得到m个基分类器h1,h2,…,hm。
所述步骤A4中,集成的过程具体为:
A41、对于测试样本,任意标签Yi,统计基分类器hm中学习过标签Yi的基分类器个数Sumi,并统计认为样本含有Yi的基分类器个数Votei;
A42、比较Votei/Sumi与阈值t的大小,如果Votei/Sumi大,则样本含有标签Yi,反之则不含标签Yi;
A43、最终判断测试样本所包含的标签集合。
本发明的有益效果是:本发明在原有多标签集成学习RAkEL方法的基础上作了改进,通过聚类的方法预先学习样本集的属性部分,再结合标签集,达到一种预学习的效果,在保证基分类器本身正确率的基础上,能够有效改善集成学习中各个基分类器之间的多样性,并最终提升多标签分类的正确率。在已知训练样本及其标签的情况下,通过聚类的方法预先学习样本的属性,因为在多标签的问题中,一组标签其实是属性的另一种表达,建立这种标签表达属性的关系,也即哪些标签可以表达什么样的属性,可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。
附图说明
图1为本发明基于集成学习的多标签分类方法的流程图;
图2为本发明标签重要性的计算方法的流程图;
图3为本发明基分类器的训练结果进行集成的流程图。
具体实施方式
下面结合附图对本发明作进一步地描述。
如图1所示的基于集成学习的多标签分类方法,包括以下步骤:
A1、预先设置参数m,k,t;其中:m表示基分类器的个数,k表示基分类器中训练集标签个数,t表示在集成阶段分类器判断是否含有标签的阈值。
A2、对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度。
A3、依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器。
A4、将基分类器的训练结果进行集成,得到最终的分类结果。
本发明所述的基于集成学习的多标签分类方法,在原有多标签集成学习RAkEL方法的基础上作了改进,通过聚类的方法预先学习样本集的属性部分,再结合标签集,达到一种预学习的效果,在保证基分类器本身正确率的基础上,能够有效改善集成学习中各个基分类器之间的多样性,并最终提升多标签分类的正确率。在已知训练样本及其标签的情况下,通过聚类的方法预先学习样本的属性,因为在多标签的问题中,一组标签其实是属性的另一种表达,建立这种标签表达属性的关系,也即哪些标签可以表达什么样的属性,可以保证在后续的集成学习过程中基分类器的训练集之间的多样性。
在本实施例中,首先会用到多标签学习数据集yeast,它是生物信息领域的数据,包含2417个样本,103个属性,和14个标签。根据留出法,使用2175条样本作为训练集,即原始数据的90%样本,另外242条样本作为测试集。所述A1中,设置参数m=100,k=3,t=0.5。
如图2所示,所述步骤A2中,标签重要性的计算方法为:
A21、在对训练集聚类时,我们使用AP(affinity propagation)聚类方法进行聚类;
其中AP聚类方法是一种不需指定类簇个数的聚类方法,但是需要设置preference参数,本实验中preference设置为-10。
A22、通过聚类得到样本所属类簇以及类簇数|C|,其聚类结果可用集合的方式表达C={c1,c2,...,cn},yeast数据的具体聚类结果依据AP聚类的参数决定;计算每个标签对任意Yi类簇cj的表达能力pij,其中|Yij|表示在类簇cj中含有标签i的样本数,|cj|表示类簇cj中样本的总数,|Yi|表示在原始样本中含有标签i的样本数,|Di|表示样本总数。
A23:计算每个标签对类簇的表达的能力的离差ei,即标签重要性,公式为:
A24、进行归一化
在本实施例中,所述步骤A3中,学习基分类器的方法为:
A31、依据Ei值的大小即标签重要性的大小从原始标签集中非等概率的获得m个k大小的标签子集Ym,要求
A32、每个标签子集Ym对应含有该标签子集的样本组成的集合为基分类器的训练集Dm。
A33、使用LP(标签幂集)分类器学习训练集Dm,得到m个基分类器h1,h2,…,hm,本实施例中具体的LP分类器使用基于OVR(一对多)的支持向量机分类器,支持向量机的使用RBF(径向基函数)核函数。
如图3所示,所述步骤A4中,集成的过程具体为:
A41、对于测试集中的样本,任意标签Yi,统计基分类器hm中已学习过标签Yi的基分类器个数Sumi,并统计认为样本含有Yi的基分类器个数Votei,即投票。
A42、比较Votei/Sumi与阈值t的大小,如果Votei/Sumi大,则样本含有标签Yi,反之则不含标签Yi。
A43、最终判断测试样本所包含的标签集合。
A44、计算测试集的准确率。
以上公开的仅为本发明的几个具体实施例,但是本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (4)
1.一种基于集成学习的多标签分类方法,其特征在于,包括以下步骤:
A1、预先设置参数m,k,t,其中:m表示基分类器的个数,k表示基分类器中训练集标签个数,t表示在集成阶段分类器判断是否含有标签的阈值;
A2、对原始训练样本集进行聚类,根据聚类结果计算标签的重要性程度;
A3、依据标签重要性程度,从原始训练集中获取m个训练集学习基分类器;
A4、将基分类器的训练结果进行集成,得到最终的分类结果。
2.根据权利要求1所述的基于集成学习的多标签分类方法,其特征在于,所述步骤A2中,标签重要性的计算方法为:
A21、通过聚类得到样本所属类簇以及类簇数|C|=n,其聚类结果可用集合的方式表达C={c1,c2,...,cn};
A22、计算每个标签对任意类簇的表达能力pij,其中|Yij|表示在类簇cj中含有标签i的样本数,|cj|表示类簇cj中样本的总数,|Yi|表示在原始样本中含有标签i的样本数,|Di|表示样本总数;
A23、计算每个标签对类簇的表达的能力的离差ei,即标签重要性,公式为:
A24、进行归一化
3.根据权利要求2所述的基于集成学习的多标签分类方法,其特征在于,所述步骤A3中,学习基分类器的方法为:
A31、依据Ei值的大小即标签重要性的大小从原始标签集中非等概率的获得m个k大小的标签子集Ym,要求
A32、每个标签子集Ym对应含有该标签子集的样本组成的集合为基分类器的训练集Dm;
A33、使用LP分类器学习训练集Dm,得到m个基分类器h1,h2,…,hm。
4.根据权利要求3所述的基于集成学习的多标签分类方法,其特征在于,所述步骤A4中,集成的过程具体为:
A41、对于测试样本,任意标签Yi,统计基分类器hm中已学习过标签Yi的基分类器个数Sumi,并统计认为样本含有Yi的基分类器个数Votei;
A42、比较Votei/Sumi与阈值t的大小,如果Votei/Sumi大,则样本含有标签Yi,反之则不含标签Yi;
A43、最终判断测试样本所包含的标签集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710178952.6A CN106971201A (zh) | 2017-03-23 | 2017-03-23 | 基于集成学习的多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710178952.6A CN106971201A (zh) | 2017-03-23 | 2017-03-23 | 基于集成学习的多标签分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106971201A true CN106971201A (zh) | 2017-07-21 |
Family
ID=59329600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710178952.6A Pending CN106971201A (zh) | 2017-03-23 | 2017-03-23 | 基于集成学习的多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106971201A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537270A (zh) * | 2018-04-04 | 2018-09-14 | 厦门理工学院 | 基于多标签学习的图像标注方法、终端设备及存储介质 |
CN109117859A (zh) * | 2018-06-15 | 2019-01-01 | 国网浙江省电力有限公司 | 用于计算机视觉的多标签聚类方法 |
CN111325264A (zh) * | 2020-02-17 | 2020-06-23 | 武汉大学 | 一种基于熵的多标签数据分类方法 |
CN111476276A (zh) * | 2020-03-17 | 2020-07-31 | 中国平安人寿保险股份有限公司 | 智能化数据分类方法、装置、电子设备及可读存储介质 |
CN115828093A (zh) * | 2022-11-02 | 2023-03-21 | 四川帕诺米克生物科技有限公司 | 组学样本的分析方法、装置、电子设备及存储介质 |
-
2017
- 2017-03-23 CN CN201710178952.6A patent/CN106971201A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537270A (zh) * | 2018-04-04 | 2018-09-14 | 厦门理工学院 | 基于多标签学习的图像标注方法、终端设备及存储介质 |
CN109117859A (zh) * | 2018-06-15 | 2019-01-01 | 国网浙江省电力有限公司 | 用于计算机视觉的多标签聚类方法 |
CN111325264A (zh) * | 2020-02-17 | 2020-06-23 | 武汉大学 | 一种基于熵的多标签数据分类方法 |
CN111476276A (zh) * | 2020-03-17 | 2020-07-31 | 中国平安人寿保险股份有限公司 | 智能化数据分类方法、装置、电子设备及可读存储介质 |
CN111476276B (zh) * | 2020-03-17 | 2024-06-14 | 中国平安人寿保险股份有限公司 | 智能化数据分类方法、装置、电子设备及可读存储介质 |
CN115828093A (zh) * | 2022-11-02 | 2023-03-21 | 四川帕诺米克生物科技有限公司 | 组学样本的分析方法、装置、电子设备及存储介质 |
CN115828093B (zh) * | 2022-11-02 | 2024-04-05 | 四川帕诺米克生物科技有限公司 | 组学样本的分析方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106971201A (zh) | 基于集成学习的多标签分类方法 | |
CN104573669B (zh) | 图像物体检测方法 | |
Zhang et al. | Local density adaptive similarity measurement for spectral clustering | |
CN103886330B (zh) | 基于半监督svm集成学习的分类方法 | |
WO2021120834A1 (zh) | 基于生物识别的手势识别方法、装置、计算机设备及介质 | |
CN103745233B (zh) | 基于空间信息迁移的高光谱图像分类方法 | |
CN107239736A (zh) | 基于多任务级联卷积神经网络的人脸检测方法及检测装置 | |
CN112801146B (zh) | 一种目标检测方法及系统 | |
CN102968626B (zh) | 一种人脸图像匹配的方法 | |
CN107239731A (zh) | 一种基于Faster R‑CNN的手势检测和识别方法 | |
CN104616029B (zh) | 数据分类方法及装置 | |
CN104102922B (zh) | 一种基于上下文感知字典学习的害虫图像分类方法 | |
CN104834941A (zh) | 基于计算机输入下的稀疏自编码的脱机手写体识别方法 | |
CN104298963B (zh) | 一种鲁棒的基于人脸形状回归模型的多姿态疲劳监测方法 | |
CN107563445A (zh) | 一种基于半监督学习的提取图像特征的方法与装置 | |
CN104156690B (zh) | 一种基于图像空间金字塔特征包的手势识别方法 | |
CN103235947B (zh) | 一种手写体数字识别方法及装置 | |
CN110490236A (zh) | 基于神经网络的自动图像标注方法、系统、装置和介质 | |
CN108280488A (zh) | 基于共享神经网络的可抓取物体识别方法 | |
CN105976397B (zh) | 一种目标跟踪方法 | |
CN106845358A (zh) | 一种手写体字符图像特征识别的方法及系统 | |
CN103279746A (zh) | 一种基于支持向量机的人脸识别方法及系统 | |
CN104376308B (zh) | 一种基于多任务学习的人体动作识别方法 | |
CN109614990A (zh) | 一种目标检测装置 | |
CN110046941A (zh) | 一种人脸识别方法、系统及电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170721 |
|
RJ01 | Rejection of invention patent application after publication |