CN104899596A - 一种多标签分类方法及其装置 - Google Patents

一种多标签分类方法及其装置 Download PDF

Info

Publication number
CN104899596A
CN104899596A CN201510114326.1A CN201510114326A CN104899596A CN 104899596 A CN104899596 A CN 104899596A CN 201510114326 A CN201510114326 A CN 201510114326A CN 104899596 A CN104899596 A CN 104899596A
Authority
CN
China
Prior art keywords
label
classification
predicted
jth
number value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510114326.1A
Other languages
English (en)
Other versions
CN104899596B (zh
Inventor
程翔
肖绚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdezhen Ceramic Institute
Original Assignee
Jingdezhen Ceramic Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdezhen Ceramic Institute filed Critical Jingdezhen Ceramic Institute
Priority to CN201510114326.1A priority Critical patent/CN104899596B/zh
Publication of CN104899596A publication Critical patent/CN104899596A/zh
Application granted granted Critical
Publication of CN104899596B publication Critical patent/CN104899596B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多标签分类方法及相应装置,该方法利用问题转换算法将多标签分类问题转换成多个单标签分类问题;对于每个待预测的未标签实例X*,计算第j个预测实数值j=1,…,q,q为标签向量的维数;判断每个待预测标签实例X*的第j个预测实数值所属类别;综合所有单标签完成多标签分类。本发明提出的多标签分类方法通过特定的技术手段,将待预测样本标签进行标记,结果为与已知训练样本的距离最接近的标签,而无需计算每个样本之间的距离,运算效率高于ML-KNN,可以应用于大数据处理,可应用于生物信息、文本分类和音乐分类等多标签分类中。

Description

一种多标签分类方法及其装置
技术领域
本发明涉及机器学习、模式识别和数据挖掘,特别涉及一种多标签分类方法及其相应装置。
背景技术
多标签最先应用在自动文档分类。随着最近一些年海量数字信息的出现,人们迫切需要开发出自动方法来对这些内容进行自动注释。比如,Irie et al.提出了用于电影情感场景(movie affective scene)多标签分类方法,Su et al.给出一种方法叫图像-概念分布模型注释方法(annotation by Image-to-Concept Distribution Model,AICDM)用于图像注释,而Lo et al.记录标签次数作为代价,将声音标记问题转变成代价敏感分类问题(cost-sensitive classification problem)。如今,除了自动内容注释,多标签学习应用到许多其他领域,包括生物信息,网络挖掘,图像等。
解剖治疗化学(Anatomical Therapeutic Chemical,ATC)分类系统是著名的,被世界健康组织(the World Health Organization,WHO)推荐的药物分类系统。识别药物的ATC分类是一个重要的课题,它有助于对药物的开发和利用。现有的药物ATC分类系统仅仅是用于药物的单标签(single-label,单标记)分类。单标签分类学习是从一个只属于一个标签I的样本集合中学习,其中每一个标签属于一个互斥的标签集合L(|L|>1)。在多标签(多标记,multi-label)分类中,每个样本属于一个L样本集合的一个子集。
多标签(multi-label)分类器给一个新的实例指定多个类别。这个分类模型有很广泛的实际应用,如:一个新闻文档可能同时涉及多个主题,如音乐、运动和奥林匹克竞赛;一个蛋白质可能具有多个功能,如Geminin是一种定位于核内的蛋白质,它通过调节细胞周期时相中的重要事件作用于细胞增殖:经多种途径参与DNA复制的调节;抑制中心体重复复制;推进G2/M期和维持正常胞质分裂等。
定义1假设多标签分类任务,指定一个数据集
D={(x1,y1),...,(xn,yn)}X×Y     (1) 
输入xi∈X和输出标签子集yi∈Y。依附于每个输入的标签通常是指与输入项相关的标签。有时,当输入空间是p维欧式空间(Euclidean space)时,我们将学习任务表示为一对矩阵的形式:
D≡(X,Y)   (2)
公式中X=(x1,...,xn),Y=(y1,...,yn)。当标签j与实例i相关时,其中Y中的元素yi j为1,否则为0。多标签分类任务的目的就是要诱导以下假设。
定义2多标签假设是一个从输入空间到输出空间(即标签的幂集P(L))的映射函数,表示如下:
h:x→y=P(L)={0,1}L   (3) 
所以,h(x)指对象x通过h关联的标签集。有时,我们用h(X)=Y表示为对输入集(用矩阵X表示)的h预测是矩阵Y所表示的标签集。
过去几年,多标签学习已经成为机器学习领域一个热门话题,并且取得了相当大的进步。Madjarov et al.将多标签学习归成三个类:(I)算法适应方法(Algorithm adaptation methods),(II)问题转换方法(Problem transformation methods)和(III)集成方法(Ensemble methods)。算法适应方法将一个已经存在的机器学习算法进行改进,从而应用于多标签学习。ML-KNN,BPMLL和ML-C4.5都是算法适应方法。问题变换方法将多标签问题转换成一个或者多个单标签问题。最为人所熟知的问题转换方法是BR方法,分类器链方法(Classifier Chain method,CC)和标签幂集方法(label power-set method,LP)等。集成方法包括分类器链的集成(ensembles of classifier  chains,ECC),随机K标签集(randomk-labelsets,RAKEL),修剪集(pruned sets,EPS),等。
传统的多标签分类方法计算效率低,不适合高维特征数据或者大数据,或者准确性(Accuracy)比较低,限制了多标签分类方法在实际工作和生活中的应用。随着Internet技术和生物基因工程技术的发展,数字信息量如爆炸性地增长,大数据处理得到越来越多的科研人员的关注。如何快速、准确地进行预测成为急需解决的问题,传统的多标签分类方法计算效率低,不适合于大数据和高维特征数据,或者准确性(Accuracy)比较低,限制了多标签分类方法在实际工作和生活中的应用,大部分多标签分类方法在学习效率和精确度方面都不能同时满足这两个要求,而药物的ATC分类是典型的多标签分类问题。
发明内容
本发明提供一种新的多标签分类方法ML-GKR(Multi-label Gaussian Kernel Regression),以解决传统多标签分类方法中计算效率低,不适合于大数据和高维特征数据,或者准确性(Accuracy)比较低的问题。
为实现上述目的,本发明是通过以下技术方案来实现的:
本发明提供一种多标签分类方法,包括:
步骤1,利用问题转换算法将多标签分类问题转换成多个单标签分类问题;
步骤2,对于每个待预测的未标签实例X*,计算第j个预测实数值j=1,…,q,q为标签向量的维数;
步骤3,判断每个待预测标签实例X*的第j个预测实数值所属类别; 
步骤4,综合所有单标签完成多标签分类。
进一步,步骤2中所述第j个预测实数值其中 ||X*-Xi||为两个向量X*和Xi之间的距离,已知一组训练数据(Xi,yi),i=1,…,N,Xi是第i个训练数据输入,yi是第i个训练数据的标签,b是输入空间的长度尺度。
进一步,所述两个向量X*和Xi之间的距离可以是欧氏距离、曼哈顿距离(Manhattan Distance)或马氏距离(Mahalanobis distances)。
进一步,对于每个待预测标签实例X*,第j个标签预测为:
进一步,如果X*属于类j,j=1,…,q,否则,如果X*不属于类j。
进一步,所述问题转换算法是BR(二元关联,Binary relevance)算法。
进一步,所述步骤1具体为:利用问题转换算法将药物的ATC分类问题转换成多个ATC组别的单标签分类问题;
所述步骤2具体为:根据待分类药物的药物分子间交互特征、药物分子间相似特征和药物分子指纹特征,计算第j个预测实数值j=1,…,q,q为ATC组别个数;
所述步骤3具体为,判断第j个预测实数值所属类别; 
所述步骤4具体为,综合所有组别的单标签完成药物的ATC分类。
进一步,所述步骤1具体为:利用问题转换算法将音乐的情感分类问题转换为多个情感类别分类的单标签问题;
所述步骤2具体为:根据待分类的音乐的节奏特征和音色特征,计算第j个预测实数值j=1,…,q,q为音乐情感的类别数;
所述步骤3具体为,判断第j个预测实数值所属类别; 
所述步骤4具体为,综合所有单标签完成音乐的情感分类。
本发明还提供一种多标签分类装置,包括:第一模块,用于利用问题转换算法将多标签分类问题转换成多个单标签分类问题;
第二模块,用于对于每个待预测的未标签实例X*,计算第j个预测实数值 j=1,…,q,q为标签向量的维数;
第三模块,用于判断每个待预测标签实例X*的第j个预测实数值所属类别; 
第四模块,用于综合所有单标签问题完成多标签分类。
本发明的有益效果在于:
本发明提出的ML-GKR方法通过特定的技术手段,将待预测样本标签进行标记,结果为与已知训练样本的距离最接近的标签,而无需计算每个样本之间的距离。
在运算效率方面,ML-GKR时间复杂度为0(Cnm)(设样本维数n,训练样本个数m,C为常数),而ML-KNN的时间复杂度为0(Cm2n2)。因此,运算效率高于ML-KNN,可以应用于大数据处理。
此外ML-GKR可以用Matlab、Java和python等多种语言实现,应用于生物信息、文本分类和音乐分类等多标签学习中。
附图说明
图1高斯核回归算法
图2本发明ML-GKR多标签分类方法流程图
图3利用本发明的ML-GKR多标签方法实现药物ATC分类的流程图
图4利用本发明的ML-GKR多标签分类方法实现音乐情感分类的流程图
具体实施方式
本发明的主要思想在于,使用问题转换算法将多标签学习问题转化为“二类分类(binary classification)”问题求解。在已知训练样本及其标签的情况下,通过高斯核回归方法预测未知样本的二类分类的标签,结合多个二类分类结果,得到多标签分类的结果。
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
首先介绍GKR方法(又叫高斯核平滑算法,Gaussian Kernel Smoother,或者基于高斯核的线性回归Gaussian Kernel-based linear regression,径向基回归,RBF kernel regression)。
设(x1,y1)…(xN,yN)为训练数据集,x*为待预测的实例,预测它的实值输出y*。GKR模型如下所示:
y * = Σ i = 1 N k ( x * , x i ) y i Σ i = 1 N k ( x * , x i ) - - - ( 4 )
公式(4)中的xi是第i个训练数据输入,yi是第i个训练数据输出,x*是待预测未标签样本(a query point),y*是预测输出。k(x*,xi)为高斯核函数,定义为公式(5),函数的另一个名字是径向基函数(Radial Basis Function,RBF),因为它与高斯函数又不完全一样。
其中b是输入空间的长度尺度。
下面,我们给出ML-GKR的定义。已知一组数据(Xi,Yi),i=1,…,N,为训练数据,通过它来构造预测规则。Xi是d-维实例,Yi=(yi,1,yi,2…yi,q)为Xi的q-维标签向量,如果yi,j=+1,Xi属于类j,j=1,…,q,否则,如果yi,j=-1,Xi不属于类j。
给定实例X*,第j个标签预测为:
的定义为
通过k(x*,xi)可以获得。
k → ( X * , X i ) = exp ( - | | X * - X i | | 2 b 2 ) - - - ( 8 )
||X*-Xi||为两个向量X*和Xi之间的距离,这个距离可以是欧氏距离、曼哈顿距离(Manhattan Distance)、马氏距离(Mahalanobis distances)等。最常见的是欧氏距离,在此简单介绍一下欧氏距离。两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的欧氏距离可以表示为:
d 12 = Σ k = 1 n ( x 1 k - x 2 k ) 2 - - - ( 9 )
参见图3,给出本发明利用ML-GKR方法实现药物的ATC分类的实施例:
药物分子特征由三个部分组成:药物分子间交互(interaction)特征、药物分子间相似(simulation)特征和药物分子指纹相似特征,然后,将三种特 征信息融合。
1)药物分子间交互特征
http://stitch.embl.de:8080/download/chemical_chemical.links.v2.0.tsv.gz,从上述网址可以下载化合物-化合物交互成分信息。任何药物di的化合物-化合物交互成分可以用下面公式表示:
C(di)={ci,1,ci,2,...,ci,14}   (i=1,2,...,n)   (10)
c i , j = max { Q i ( d i , d k ) , ∀ d k ∈ c j } ( j=1,2,...,14;i=1,2,...,n ) - - - ( 11 )
(10)式中,ci,1指药物di的14种化合物-化合物交互成分中的第一个成分,ci,2是第二个成分,ci,j第j个成分。Qi(di,dk)指药物di和dk的交互信任分(interaction confidence score)。Qi下标“i”代表英文“interaction”的第一个字母,意思是这个指标是药物di和dk的化合物-化合物交互成分。
2)药物分子间相似特征
化合物之间的相似分数可以从http://www.genome.jp/tools/simcomp2/获取。
药物di的化合物-化合物相似成分可以用下面公式表示:
E(di)={ei,1,ei,2,...,ei,14}   (i=1,2,...,n)   (12)
e i , j = max { Q s ( d i , d k ) , ∀ d k ∈ c j } ( j=1,2,...,14;i=1,2,...,n ) - - - ( 13 )
公式(12)中的ei,1指药物di的14种化合物-化合物相似成分中的第一个成分,ei,2指药物di的14种化合物-化合物相似成分中的第二个成分,ei,j指药物di的14种化合物-化合物相似成分中的第j个成分。Qs(di,dk)指di和dk的相似信任分(similarity confidence score),下标“s”代表“similarity”的第一个字母,代表分值是基于化合物-化合物相似成分。
3)FP2分子指纹成分(Fingerprint Composition)
FP2分子指纹是基于路径的分子指纹,它将小分子片段(多达7个原子的线性片段)进行编号(类似Daylight分子指纹)。通过辨识长度为1-7个原子的线性片段来分析分子结构。单原子片段C,N,和0被忽视,当原子形成一个环,一个片段终止,对于每个片段,原子、原子键合(bonding)及它们是否形成一个完整的环,都被记录、保存在一个集中,每个片段类型都是唯一的。化学上等同的多版本(如多个原子逆序方式表示及一个相同的环以不同的原子为起点表示)被标识出来,并只保留一个经典片段。每个保留的片段赋予一个哈希数,从0到1020,对应1024位的向量。
分子指纹方法能为人们研究和分析复杂生物系统提供有用的依据和见解,有不少研究论文都用到该方法。对药物di的分子指纹成分可以用公式表示为:
F(di)={fi,1,fi,2,...fi,14}   (i=1,2,...,n)   (14)
f i , j = max { Q t ( d i , d k ) , ∀ d k ∈ c j } ( j=1,2,...,14;i=1,2,...,n ) - - - ( 15 )
Qt(di,dk)是一种使用Tanimoto描述两个化合物相似性或距离的指标,公式16给出了Tanimoto的计算公式,其中的一些中间量在公式17、18、19中给出:
Qt(di,dk)=c/(a+b-c)   (16) 
a = Σ i ∈ F A α i 2 - - - ( 17 )
b = Σ i ∈ F B β i 2 - - - ( 18 )
c = Σ i ∈ F A ∩ F B α i β i - - - ( 19 )
FA是药物A的分子指纹,FB是药物B的分子指纹,a是FA中置1位的数量,b是FB中置1位的数量,c是FA和FB共同置1位的数量。
对药物进行ATC分类,实际是将多标签分类问题转换14个ATC组别的单标签分类问题,根据待预测药物的药物分子间交互特征、药物分子间相似特征、 FP2分子指纹成分,利用公式(6)、(7)、(8),对每个ATC组别预测,最后将所有组别进行融合,得到药物的ATC分类。
以药物D07091为例,提取3882个药物作为训练样本,分别属于14个主要ATC类,
A:消化系统 
B:血液系统 
C:心血管系统 
D:皮肤科用药 
G:泌尿生殖系统及性激素
H:体激素
J:抗感染药 
L:抗肿瘤药及免疫用药
M:肌骨骼系统 
N:神经系统 
P:抗寄生虫药 
R:呼吸系统 
S:感觉器
V:其它
找D07091与A:消化系统中的所有药物分子间交互信息(interaction),最大值为359,与B:血液系统中的所有药物分子间交互信息,最大值为0,与C:心血管系统中的所有药物分子间交互信息,最大值为171,D:皮肤科用药中的所有药物分子间交互信息,最大值为0,G:泌尿生殖系统及性激素中的所有药物分子间交互信息,最大值为151,H:体激素中的所有药物分子间交互信息, 最大值为0,J:抗感染药中的所有药物分子间交互信息,最大值为211,L:抗肿瘤药及免疫用药中的所有药物分子间交互信息,最大值为0,M:肌骨骼系统中的所有药物分子间交互信息,最大值为242,N:神经系统中的所有药物分子间交互信息,最大值为0,P:抗寄生虫药中的所有药物分子间交互信息,最大值为0,R:呼吸系统中的所有药物分子间交互信息,最大值为0,S:感觉器中的所有药物分子间交互信息,最大值为0,V:其它中的所有药物分子间交互信息,最大值为0,我们可以得到公式(10)的向量:
(359,0,171,0,151,0,211,0,242,0,0,0,0,0)
同样,找D07091与A:消化系统中的所有药物分子间相似信息,最大值为0.95,与B:血液系统中的所有药物分子间相似信息,最大值为0.11,与C:心血管系统中的所有药物分子间相似信息,最大值为0.16,D:皮肤科用药中的所有药物分子间相似信息,最大值为0,G:泌尿生殖系统及性激素中的所有药物分子间相似信息,最大值为0,H:体激素中的所有药物分子间相似信息,最大值为0.34,J:抗感染药中的所有药物分子间相似信息,最大值为0,L:抗肿瘤药及免疫用药中的所有药物分子间相似信息,最大值为0.45,M:肌骨骼系统中的所有药物分子间相似信息,最大值为0,N:神经系统中的所有药物分子间相似信息,最大值为0,P:抗寄生虫药中的所有药物分子间相似信息,最大值为0,R:呼吸系统中的所有药物分子间相似信息,最大值为0,S:感觉器中的所有药物分子间相似信息,最大值为0,V:其它中的所有药物分子间相似信息,最大值为0,我们可以得到公式(12)的向量:
(0.95,0.11,0.16,0,0,0.34,0,0.45,0,0,0,0,0,0)
同样,找D07091与A:消化系统中的所有药物分子指纹信息,最大值为0.85, 与B:血液系统中的所有药物分子指纹信息,最大值为0.79,与C:心血管系统中的所有药物分子指纹信息,最大值为0.45,D:皮肤科用药中的所有药物分子指纹信息,最大值为0.34,G:泌尿生殖系统及性激素中的所有药物分子指纹信息,最大值为0.22,H:体激素中的所有药物分子指纹信息,最大值为0.12,J:抗感染药中的所有药物子指纹信息,最大值为0.26,L:抗肿瘤药及免疫用药中的所有药物分子指纹信息,最大值为0.27,M:肌骨骼系统中的所有药物分子指纹信息,最大值为0.41,N:神经系统中的所有药物分子指纹信息,最大值为0.37,P:抗寄生虫药中的所有药物分子指纹信息,最大值为0.18,R:呼吸系统中的所有药物分子指纹信息,最大值为0.26,S:感觉器中的所有药物分子指纹信息,最大值为0.39,V:其它中的所有药物分子指纹信息,最大值为0.32,我们可以得到公式(14)的向量:
(0.85,0.79,0.45,0.34,0.22,0.12,0.26,0.27,0.41,0.37,0.18,0.26,0.39,0.32)。
三种向量融合后,得到:
(359,0,171,0,151,0,211,0,242,0,0,0,0,0,0.95,0.11,0.16,0,0,0.34,0,0.45,0,0,0,0,0,0,0.85,0.79,0.45,0.34,0.22,0.12,0.26,0.27,0.41,0.37,0.18,0.26,0.39,0.32)
将这个向量输入到ML-GKR模型,分别得到每个ATC组别的单标签,融合后得到这种药的预测向量为
(+1,-1,+1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1)
+1表示属于这个类,-1表示不属于这个类,因此D07091属于A:消化系统,C:心血管系统。
参见图4,给出本发明利用ML-GKR方法实现音乐情感分类的实施例:-
Hevner是第一个研究音乐与情感的关系的人,她发现通过聚类可以把音乐分为8个类。Farnsworth将音乐继续进行细化为10个类。
特征抽取
节奏特征(Rhythmic Features)
节奏特征通过从节奏柱状图提取周期性的变化。使用自相关算法识别峰值,选择两个最高峰值,计算它们的振幅,频率(BMPs,beats per minute),和BMPs高-低比,另外,3个特征是计算频率在40-90,90-140和140-250之间的直方图模块的和。整个过程得到8个节奏特征。 
音色特征(Timbre Features)
使用了梅尔倒频谱参数(Mel Frequency Cepstral Coefficients,MFCCs)来进行语音识别和音乐建模。为了获取MFCCs特征,信号按帧获取帧和振幅谱,然后使用对数进行规划,最后选择13个MFCCs特征。另外三个特征与音质相关,使用快速傅里叶变换(Fourier Transform,FFT)获取。所有帧对以上16个特征,每个特征计算平均值(mean),标准差(standard deviation),均数标准差(mean standard deviation)和标准差的标准差(standard deviation of standard deviation),我们可以获得64个特征值。
情感标签(Emotion Labeling)
使用了Tellegen-Watson-Clark模型进行情感标签,相应的标签如表一所示。
标签 描述
L1 惊讶
[0125] 
L2 高兴
L3 放松
L4 平静
L5 伤心
L6 生气
已知M个训练样本,每个样本有72个特征和6个标签,当L1为+1时,表示该音乐为惊讶,为-1时,该音乐非惊讶,其它标签依次类推。给定一个未知标签的案例,
(0.092565,0.31292,0.085962,-69.077208,2.639976,1.564388,1.576656,0.255043,0.955882,0.587556,0.423435,0.520499,0.40651,0.554551,0.31633,0.321789,0.084952,0.281762,0.032662,5.498476,1.505243,0.990168,1.078498,0.95629,0.624933,0.591018,0.647529,0.531299,0.585403,0.546337,0.511499,0.511172,0.026462,0.067844,0.007887,2.361893,0.579488,0.626683,0.411554,0.407856,0.199635,0.265587,0.211859,0.235174,0.220972,0.192332,0.176956,0.175724,0.035017,0.077664,0.029688,3.714091,0.406592,0.252498,0.246138,0.186199,0.120267,0.102217,0.119625,0.090132,0.085782,0.105026,0.095775,0.083248,0.312616,64,0.034558,192,3,0.481622,0.262755,0.832237),
72个属性值分别为
attribute Mean_Acc1298_Mean_Mem40_Centroid numeric 
attribute Mean_Acc1298_Mean_Mem40_Rolloff numeric
attribute Mean_Acc1298_Mean_Mem40_Flux numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_0 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_1 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_2 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_3 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_4 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_5 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_6 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_7 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_8 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_9 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_10 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_11 numeric
attribute Mean_Acc1298_Mean_Mem40_MFCC_12 numeric
attribute Mean_Acc1298_Std_Mem40_Centroid numeric
attribute Mean_Acc1298_Std_Mem40_Rolloff numeric
attribute Mean_Acc1298_Std_Mem40_Flux numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_0 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_1 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_2 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_3 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_4 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_5 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_6 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_7 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_8 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_9 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_10 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_11 numeric
attribute Mean_Acc1298_Std_Mem40_MFCC_12 numeric
attribute Std_Acc1298_Mean_Mem40_Centroid numeric
attribute Std_Acc1298_Mean_Mem40_Rolloff numeric
attribute Std_Acc1298_Mean_Mem40_Flux numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_0 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_1 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_2 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_3 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_4 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_5 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_6 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_7 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_8 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_9 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_10 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_11 numeric
attribute Std_Acc1298_Mean_Mem40_MFCC_12 numeric
attribute Std_Acc1298_Std_Mem40_Centroid numeric
attribute Std_Acc1298_Std_Mem40_Rolloff numeric
attribute Std_Acc1298_Std_Mem40_Flux numeric
attribute Std_Acc1298_Std_Mem40_MFCC_0 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_1 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_2 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_3 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_4 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_5 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_6 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_7 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_8 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_9 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_10 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_11 numeric
attribute Std_Acc1298_Std_Mem40_MFCC_12 numeric
attribute BH_LowPeakAmp numeric
attribute BH_LowPeakBPM numeric
attribute BH_HighPeakAmp numeric
attribute BH_HighPeakBPM numeric
attribute BH_HighLowRatio numeric
attribute BHSUM1 numeric
attribute BHSUM2 numeric
attribute BHSUM3 numeric
使用ML-GKR进行预测,L1-L6的标签分别是(0,0,0,0,0,1),可以得出结论,该音乐属于L6(生气)。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本 发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种多标签分类方法,其特征在于,所述方法包括:
步骤1,利用问题转换算法将多标签分类问题转换成多个单标签分类问题;
步骤2,对于每个待预测的未标签实例X*,计算第j个预测实数值j=1,…,q,q为标签向量的维数;
步骤3,判断每个待预测标签实例X*的第j个预测实数值所属类别;
步骤4,综合所有单标签完成多标签分类。
2.如权利要求1所述的多标签分类方法,其特征在于:步骤2中所述第j个预测实数值 y j * → = Σ i = 1 N k → ( X * , X i ) y i , j Σ i = 1 N k → ( X * , X i ) , 其中 k → ( X * , X i ) = exp ( - | | X * - X i | | 2 b 2 ) , ||X*-Xi||为两个向量X*和Xi之间的距离,已知一组训练数据(Xi,yi),i=1,…,N,Xi是第i个训练数据输入,yi是第i个训练数据的标签,b是输入空间的长度尺度。
3.如权利要求2所述的多标签分类方法,其特征在于,所述两个向量X*和Xi之间的距离可以是欧氏距离、曼哈顿距离或马氏距离。
4.如权利要求2所述的多标签分类方法,对于每个待预测标签实例X*,第j个标签预测为:
y j * = - 1 , y j * &RightArrow; < 0 + 1 , y j * &RightArrow; &GreaterEqual; 0 .
5.如权利要求4所述的多标签分类方法,其特征在于:如果X*属于类j,j=1,…,q,否则,如果X*不属于类j。
6.如权利要求1-5任一项所述的多标签分类方法,其特征在于,所述问题转换算法是BR算法。
7.如权利要求1-5任一项所述的多标签分类方法,其特征在于:
所述步骤1具体为:利用问题转换算法将药物的ATC分类问题转换成多个ATC组别的单标签分类问题;
所述步骤2具体为:根据待分类药物的药物分子间交互特征、药物分子间相似特征和药物分子指纹特征,计算第j个预测实数值j=1,…,q,q为ATC组别个数;
所述步骤3具体为,判断第j个预测实数值所属类别;
所述步骤4具体为,综合所有组别的单标签完成药物的ATC分类。
8.如权利要求1-5任一项所述的多标签分类方法,其特征在于:
所述步骤1具体为:利用问题转换算法将音乐的情感分类问题转换为多个情感类别分类的单标签问题;
所述步骤2具体为:根据待分类的音乐的节奏特征和音色特征,计算第j个预测实数值j=1,…,q,q为音乐情感的类别数;
所述步骤3具体为,判断第j个预测实数值所属类别;
所述步骤4具体为,综合所有单标签完成音乐的情感分类。
9.如权利要求7或8所述的多标签分类方法,其特征在于,所述问题转换算法是BR算法。
10.一种多标签分类装置,其特征在于,所述装置包括:
第一模块,用于利用问题转换算法将多标签分类问题转换成多个单标签分类问题;
第二模块,用于对于每个待预测的未标签实例X*,计算第j个预测实数值j=1,…,q,q为标签向量的维数;
第三模块,用于判断每个待预测标签实例X*的第j个预测实数值所属类别;
第四模块,用于综合所有单标签问题完成多标签分类。
CN201510114326.1A 2015-03-16 2015-03-16 一种多标签分类方法及其装置 Expired - Fee Related CN104899596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510114326.1A CN104899596B (zh) 2015-03-16 2015-03-16 一种多标签分类方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510114326.1A CN104899596B (zh) 2015-03-16 2015-03-16 一种多标签分类方法及其装置

Publications (2)

Publication Number Publication Date
CN104899596A true CN104899596A (zh) 2015-09-09
CN104899596B CN104899596B (zh) 2018-09-14

Family

ID=54032250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510114326.1A Expired - Fee Related CN104899596B (zh) 2015-03-16 2015-03-16 一种多标签分类方法及其装置

Country Status (1)

Country Link
CN (1) CN104899596B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529585A (zh) * 2016-10-25 2017-03-22 天津大学 一种基于大间隔投影空间学习的钢琴乐谱难度识别方法
CN106886569A (zh) * 2017-01-13 2017-06-23 重庆邮电大学 一种基于mpi的ml‑knn多标签中文文本分类方法
CN107292519A (zh) * 2017-06-26 2017-10-24 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法
CN107301426A (zh) * 2017-06-14 2017-10-27 大连海事大学 一种鞋底花纹图像的多标签聚类方法
CN108154177A (zh) * 2017-12-20 2018-06-12 广东宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN109102006A (zh) * 2018-07-24 2018-12-28 东南大学 一种基于音频特征诱导信息增强的音乐自动标记方法
CN109840531A (zh) * 2017-11-24 2019-06-04 华为技术有限公司 训练多标签分类模型的方法和装置
CN109840530A (zh) * 2017-11-24 2019-06-04 华为技术有限公司 训练多标签分类模型的方法和装置
CN111261174A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 音频的分类方法、装置、终端及计算机可读存储介质
CN111353516A (zh) * 2018-12-21 2020-06-30 华为技术有限公司 一种用于在线学习的样本分类方法及模型更新方法
CN111985567A (zh) * 2020-08-21 2020-11-24 河北先河环保科技股份有限公司 一种基于机器学习的污染源类型自动识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246824A (zh) * 2013-05-24 2013-08-14 景德镇陶瓷学院 一种药物在atc系统解剖学层中分类的预测方法
CN103927394A (zh) * 2014-05-04 2014-07-16 苏州大学 一种基于svm的多标签主动学习分类方法及系统
US20150039613A1 (en) * 2013-07-31 2015-02-05 Linkedln Corporation Framework for large-scale multi-label classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246824A (zh) * 2013-05-24 2013-08-14 景德镇陶瓷学院 一种药物在atc系统解剖学层中分类的预测方法
US20150039613A1 (en) * 2013-07-31 2015-02-05 Linkedln Corporation Framework for large-scale multi-label classification
CN103927394A (zh) * 2014-05-04 2014-07-16 苏州大学 一种基于svm的多标签主动学习分类方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANJUN HE ET AL: "Imbalanced Multi-Modal Multi-Label Learning for Subcellular Localization Prediction of Human Proteins with Both Single and Multiple Sites", 《PLOS ONE》 *
KONSTANTINOS TROHIDIS ET AL: "multi-label classification of music into emotions", 《ISMIR 2008-SESSION 3A-CONTENT BASED RETRIEVAL,CATEGORIZATION AND SIMILARITY 1》 *
冯元佶 等: "带Spearman相关性的多标签GRF算法", 《模式识别与人工智能》 *
张丹普 等: "基于浮动阈值分类器组合的多标签分类算法", 《计算机应用》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529585A (zh) * 2016-10-25 2017-03-22 天津大学 一种基于大间隔投影空间学习的钢琴乐谱难度识别方法
CN106886569A (zh) * 2017-01-13 2017-06-23 重庆邮电大学 一种基于mpi的ml‑knn多标签中文文本分类方法
CN106886569B (zh) * 2017-01-13 2020-05-12 重庆邮电大学 一种基于mpi的ml-knn多标签中文文本分类方法
CN107301426B (zh) * 2017-06-14 2020-06-30 大连海事大学 一种鞋底花纹图像的多标签聚类方法
CN107301426A (zh) * 2017-06-14 2017-10-27 大连海事大学 一种鞋底花纹图像的多标签聚类方法
CN107292519A (zh) * 2017-06-26 2017-10-24 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法
CN107292519B (zh) * 2017-06-26 2020-11-03 北京联合大学 一种基于多标记学习的浏览类业务感知指标预测方法
CN109840531B (zh) * 2017-11-24 2023-08-25 华为技术有限公司 训练多标签分类模型的方法和装置
CN109840531A (zh) * 2017-11-24 2019-06-04 华为技术有限公司 训练多标签分类模型的方法和装置
CN109840530A (zh) * 2017-11-24 2019-06-04 华为技术有限公司 训练多标签分类模型的方法和装置
CN108154177A (zh) * 2017-12-20 2018-06-12 广东宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN108154177B (zh) * 2017-12-20 2020-01-21 宜通世纪科技股份有限公司 业务识别方法、装置、终端设备及存储介质
CN109102006B (zh) * 2018-07-24 2021-09-07 东南大学 一种基于音频特征诱导信息增强的音乐自动标记方法
CN109102006A (zh) * 2018-07-24 2018-12-28 东南大学 一种基于音频特征诱导信息增强的音乐自动标记方法
CN111261174A (zh) * 2018-11-30 2020-06-09 杭州海康威视数字技术股份有限公司 音频的分类方法、装置、终端及计算机可读存储介质
CN111261174B (zh) * 2018-11-30 2023-02-17 杭州海康威视数字技术股份有限公司 音频的分类方法、装置、终端及计算机可读存储介质
CN111353516A (zh) * 2018-12-21 2020-06-30 华为技术有限公司 一种用于在线学习的样本分类方法及模型更新方法
CN111985567A (zh) * 2020-08-21 2020-11-24 河北先河环保科技股份有限公司 一种基于机器学习的污染源类型自动识别方法

Also Published As

Publication number Publication date
CN104899596B (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN104899596A (zh) 一种多标签分类方法及其装置
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
Chang et al. A novel content based image retrieval system using k-means/knn with feature extraction
Raychev et al. Language-independent sentiment analysis using subjectivity and positional information
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN103927366B (zh) 一种根据图片自动播放歌曲的方法及系统
Mathivanan et al. Improving classification accuracy using clustering technique
Meena et al. Identifying emotions from facial expressions using a deep convolutional neural network-based approach
CN103778206A (zh) 一种网络服务资源的提供方法
Shi et al. The exploration of artificial intelligence application in fashion trend forecasting
Gu et al. Image-based hot pepper disease and pest diagnosis using transfer learning and fine-tuning
CN112035757A (zh) 医疗瀑布流推送方法、装置、设备及存储介质
Bisio et al. Data intensive review mining for sentiment classification across heterogeneous domains
Han et al. Bin similarity‐based domain adaptation for fine‐grained image classification
Murtaza et al. Clothes retrieval using M-AlexNet with mish function and feature selection using Joint Shannon’s Entropy Pearson’s correlation coefficient
Alicante et al. Semantic cluster labeling for medical relations
Kaur et al. Combining Image and Caption Analysis for Classifying Charts in Biodiversity Texts.
Song et al. Extracting product features from online reviews for sentimental analysis
Nandan et al. SAP-RI: a constrained and supervised approach for aspect-based sentiment analysis
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
Allaoui et al. A machine learning-based tool for exploring covid-19 scientific literature
Benzarti et al. Cross-Model Retrieval Via Automatic Medical Image Diagnosis Generation
Chaib et al. Improved multi-label medical text classification using features cooperation
Trinh et al. Automatic process resume in talent pool by applying natural language processing
Becattini et al. Indexing quantized ensembles of exemplar-SVMs with rejecting taxonomies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 333403 Tao Yang South Road, Jingdezhen, Jiangxi, Jingdezhen

Applicant after: JINGDEZHEN CERAMIC INSTITUTE

Address before: 333403 Tao Yang South Road, Jingdezhen, Jiangxi, Jingdezhen

Applicant before: Jingdezhen College of Ceramic Industry

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180914

Termination date: 20210316