CN109948735A - 一种多标签分类方法、系统、装置及存储介质 - Google Patents

一种多标签分类方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN109948735A
CN109948735A CN201910261794.XA CN201910261794A CN109948735A CN 109948735 A CN109948735 A CN 109948735A CN 201910261794 A CN201910261794 A CN 201910261794A CN 109948735 A CN109948735 A CN 109948735A
Authority
CN
China
Prior art keywords
dictionary
optimal solution
label
sparse coding
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910261794.XA
Other languages
English (en)
Other versions
CN109948735B (zh
Inventor
宋科建
刘波
肖燕珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910261794.XA priority Critical patent/CN109948735B/zh
Publication of CN109948735A publication Critical patent/CN109948735A/zh
Application granted granted Critical
Publication of CN109948735B publication Critical patent/CN109948735B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多标签分类方法,首先确定训练数据,然后利用待学习字典对训练数据进行学习得到对应的目标字典和稀疏编码,并且本方案再次对稀疏编码进行投影得到分析字典,然后确定分析字典、目标字典、稀疏编码与预设分类器的最优解,利用相应的最优解进行多标签分类。相比现有技术,本方案中,在进行一次字典学习的基础上,又对稀疏编码进行了字典学习,即对稀疏编码进行投影得到相应的分析字典,然后结合两个字典进行多标签分类。两次字典学习可以对训练数据中的特征提取更加完备,从而使分类结果更加准确。本申请还提供了一种多标签分类系统、装置及计算机可读存储介质,同样可以实现上述技术效果。

Description

一种多标签分类方法、系统、装置及存储介质
技术领域
本发明涉及标签分类领域,更具体地说,涉及一种多标签分类方法、系统、装置及计算机可读存储介质。
背景技术
近年来,互联网技术的蓬勃发展,给世界带来了翻天覆地的变化,数据资源呈现指数级别的速度增长,数据量越来越多,形式也千变万化。信息化已渗透到我们生活中的各个角落,我们正置身于一个信息极其丰富的数字化时代,为我们搜索信息带来了极大的便利;然而,面对如此丰富的数据资源,如何从中快速有效的找到对我们有价值的信息,成为研究者们关注的一大热点,因此对资源进行适当分类的各项技术应运而生。其中,数据集中标签个数有多个时,对应的标签分类方法为多标签分类。
在现有方案中有一种方法,对训练数据进行字典学习,得到对应训练数据的字典数据,并将具有类似标签的字典组合为一个数据进行分类。但是目前这种方案得到的标签分类结果的准确性较低。
因此,如何提高多标签分类准确性,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种多标签分类方法、系统、装置及计算机可读存储介质,以解决如何提高多标签分类准确性的问题。
为实现上述目的,本发明实施例提供了如下技术方案:
一种多标签分类方法,包括:
确定训练数据;其中所述训练数据包括训练样本和对应每个训练样本的标签集合;
利用待学习字典对所述训练数据进行学习,得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码;
对所述稀疏编码进行投影,得到每个标签的分析字典;
利用所述分析字典、所述目标字典与预设分类器得到目标优化问题;其中,所述预设分类器为对应预设矩阵的分类器,所述预设矩阵为对应标签个数与样本个数的矩阵;
利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解;
利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。
可选地,所述对所述稀疏编码进行投影,得到每个标签的分析字典之前,还包括:
利用l2,1范数对所述系数编码进行约束处理。
可选地,所述目标优化函数包括:
式中,Xl为具有第l个标签的样本集合,为不具有第l个标签的样本集合,为分析非相关促进项,Sl为Xl的稀疏编码,Pl为对稀疏编码进行投影得到的分析字典;
为分析稀疏编码提取项,为预设分类器训练函数,α、σ和τ均为预设正则化参数;M为实数集中大小为L×N的矩阵,其中L为标签的个数,N为训练样本的个数,Ml为矩阵的第l行;β>0为正则化实数,δl为实数;C为正则化参数,用于调整误差的惩罚;ξl>0为松弛变量。
可选地,所述预设分类器为二分类的SVM分类器。
为实现上述目的,本申请还提供了一种多标签分类系统,包括:
训练数据确定模块,用于确定训练数据;其中所述训练数据包括训练样本和对应每个训练样本的标签集合;
学习模块,用于利用待学习字典对所述训练数据进行学习,得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码;
投影模块,用于对所述稀疏编码进行投影,得到每个标签的分析字典;
目标优化问题确定模块,用于利用所述分析字典、所述目标字典与预设分类器得到目标优化问题;其中,所述预设分类器为对应预设矩阵的分类器,所述预设矩阵为对应标签个数与样本个数的矩阵;
最优解确定模块,用于利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解;
分类模块,用于利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。
可选地,所述系统还包括:
约束处理模块,用于对所述稀疏编码进行投影,得到每个标签的分析字典之前,利用l2,1范数对所述系数编码进行约束处理。
可选地,所述目标优化函数包括:
式中,Xl为具有第l个标签的样本集合,为不具有第l个标签的样本集合,为分析非相关促进项,Sl为Xl的稀疏编码,Pl为对稀疏编码进行投影得到的分析字典;
为分析稀疏编码提取项,为二元分类器训练函数,α、σ和τ均为预设正则化参数;M为实数集中大小为L×N的矩阵,其中L为标签的个数,N为训练样本的个数,Ml为矩阵的第l行;β>0为正则化实数,δl为实数;C为正则化参数,用于调整误差的惩罚;ξl>0为松弛变量。
可选地,所述预设分类器为二分类的SVM分类器。
为实现上述目的,本申请还提供一种多标签分类装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如任意一项多标签分类方法的步骤。
为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如任意一项多标签分类方法的步骤。
通过以上方案可知,本发明提供的一种多标签分类方法,包括:确定训练数据;其中所述训练数据包括训练样本和对应每个训练样本的标签集合;利用待学习字典对所述训练数据进行学习,得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码;对所述稀疏编码进行投影,得到每个标签的分析字典;利用所述分析字典、所述目标字典与预设分类器得到目标优化问题;其中,所述预设分类器为对应预设矩阵的分类器,所述预设矩阵为对应标签个数与样本个数的矩阵;利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解;利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。
由此可见,本申请提供的一种多标签分类方法,首先确定训练数据,然后利用待学习字典对训练数据进行学习得到对应的目标字典和稀疏编码,并且本方案再次对稀疏编码进行投影得到分析字典,然后确定分析字典、目标字典、稀疏编码与预设分类器的最优解,利用相应的最优解进行多标签分类。相比现有技术,本方案中,在进行一次字典学习的基础上,又对稀疏编码进行了字典学习,即对稀疏编码进行投影得到相应的分析字典,然后结合两个字典进行多标签分类。两次字典学习可以对训练数据中的特征提取更加完备,从而使分类结果更加准确。本申请还提供了一种多标签分类系统、装置及计算机可读存储介质,同样可以实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种多标签分类方法流程图;
图2为本发明实施例公开的一种多标签分类系统结构示意图;
图3为本发明实施例公开的一种多标签分类装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种多标签分类方法、系统、装置及计算机可读存储介质,以解决如何提高多标签分类准确性的问题。
参见图1,本发明实施例提供的一种多标签分类方法,具体包括:
S101,确定训练数据;其中所述训练数据包括训练样本和对应每个训练样本的标签集合。
在本方案中,首先确定训练数据,训练数据中包括多个训练样本,和每个训练样本对应的标签集合。
例如,训练数据为{(x1,Y1),(x2,Y2),......(xN,YN)},其中,xi是第i个训练样本,xi∈X,X∈Rd×N,X代表训练样本集合,d代表每一个样本的特征维度,N标识样本集合中样本的个数,Yi是第i样本所对应的标签集合。进一步地,Xl代表具有第l个标签的样本集合,是Xl的互补矩阵,也就是说,表示不具有第l个标签的样本集合。Yi=[y1,y2,...yL]T表示样本x所有可能的标签集合,这里的L表示标签的个数。如果样本xi具有标签yi,设置yi的值为1,否则设置yi的值为0。
S102,利用待学习字典对所述训练数据进行学习,得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码。
需要说明的是,字典学习技术近年来已经成功应用在图像分类领域,在多种分类任务中均取得了良好的分类性能。通过超完备的区分性字典,数据被转换到一个更高维的空间中,获得了稀疏的特性,和直接在数据上进行分类的方法相比,字典学习算法使得分类任务变得更加简单。
在本方案中,预先设定一个字典初始值,也就是待学习字典,例如D=[d1,d2,......dK]∈Rd×K是待学习字典,经过学习后可以得到每个标签的目标字典Dl∈Rd×K,代表了第l个标签所对应的字典,和每个标签的样本集合Xl的稀疏编码Sl∈RK×N,表示拥有第l个标签的样本集Xl的集合的稀疏编码。
需要说明的是,稀疏编码Sl需要能够很好的表示样本集Xl,也就是说,需要满足Xl≈DlSl
S103,对所述稀疏编码进行投影,得到每个标签的分析字典。
在本方案中,需要对上述稀疏编码进行再一次的字典学习,即对稀疏编码进行投影,得到每个标签的分析字典。
具体地,对上述稀疏编码Sl进行投影后得到分析字典Pl∈RK×d
需要说明的是,分析字典Pl需要很好的表示样本集合的特征,将样本与近似编码系数进行桥接,也就是说,需要PlXl能够很好地近似稀疏编码Sl,即PlXl≈Sl
在一个优选的实施方式中,进行投影之前,利用l2,1范数对所述系数编码进行约束处理。
相比现有技术中使用l0范数或l1范数,l2,1范数可以提高行稀疏性。
S104,利用所述分析字典、所述目标字典与预设分类器得到目标优化问题;其中,所述预设分类器为对应预设矩阵的分类器,所述预设矩阵为对应标签个数与样本个数的矩阵。
具体地,利用上述分析字典、目标字典、以及预设的分类器可以得到目标优化问题。
具体可以为
式中,Xl为具有第l个标签的样本集合,为不具有第l个标签的样本集合,为分析非相关促进项,Sl为Xl的稀疏编码,Pl为对稀疏编码进行投影得到的分析字典;
为分析稀疏编码提取项,为二元分类器训练函数,α、σ和τ均为预设正则化参数;M为实数集中大小为L×N的矩阵,其中L为标签的个数,N为训练样本的个数,Ml为矩阵的第l行;β>0为正则化实数,δl为实数;C为正则化参数,用于调整误差的惩罚;ξl>0为松弛变量。
S105,利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解。
通过上述目标优化问题即可确定中所述稀疏编码的最优解、分析字典的最优解、目标字典的最优解与所述预设矩阵的最优解。
具体地,在第一次计算时:
计算目标字典的最优解时,固定S、P、M,即用自定义常量作为S、P、M,代入到上述目标优化问题中,得到D的最优解:
计算稀疏编码的最优解时,固定D、M、P,即用自定义常量作为D、M、P,代入到上述目标优化问题中,得到S的最优解:
计算分析字典的最优解时,固定S、D、M,即用自定义常量作为S、D、M,代入到上述目标优化问题中,得到P的最优解:
计算预设分类器的最优解时,固定D、S、P,即用自定义常量作为D、S、P,代入到上述目标优化问题中,得到M的最优解:
第一次计算时分别用自定义常量代替相应的变量,在第二次以及后续每次迭代计算时,都需要用上一次计算的最优解结果代替相应的变量,当满足迭代停止条件时,当前这一次计算的最优解结果就是最终的最优解结果。需要说说明的是,迭代停止条件可以根据实际情况来设定,例如,设定满足预设迭代次数时为满足迭代停止条件,也可以是设定本次迭代的计算结果与上一次迭代的计算结果的差值小于预设阈值为满足迭代停止条件,具体如何设定在本方案中不做具体限定。
S106,利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。
具体地,在计算出上述最优解后,即可利用最优解进行分类操作。
计算出分析字典P=[P1,P2,...Pl…PL]∈RK×d的最优解以及分类器M=[M1,M2,...Ml...ML]∈RL×N后,对于一个新的测试数据x,确定数据x是否具有第l个标签。我们首先通过简单地将其嵌入到Pl中来计算其稀疏编码,即使用PlXl近似其稀疏编码。然后进一步将PlXl和Ml嵌入到Ml(PlXl)中,因此通过下式即可计算得到测试数据x的标签集Yl
Ml(PlXl)=Yl
需要说明的是,本方案中优选采用SVM二元分类器作为预设分类器,将多标签分类问题转化为多个二分类问题,可以使分类结果的准确率更高。
由此可见,本申请实施例提供的一种多标签分类方法,首先确定训练数据,然后利用待学习字典对训练数据进行学习得到对应的目标字典和稀疏编码,并且本方案再次对稀疏编码进行投影得到分析字典,然后确定分析字典、目标字典、稀疏编码与预设分类器的最优解,利用相应的最优解进行多标签分类。相比现有技术,本方案中,在进行一次字典学习的基础上,又对稀疏编码进行了字典学习,即对稀疏编码进行投影得到相应的分析字典,然后结合两个字典进行多标签分类。两次字典学习可以对训练数据中的特征提取更加完备,从而使分类结果更加准确。
本申请实施例提供的方案可以在7个多标签数据集上与现有技术进行比较实验。
7个多标签数据集可以来自不用应用领域而且是大小不同的。具体数据参见表1。表1为试验中使用的数据集的统计,n为实例数;d为实例的维数;L是可能的标签数量;cardinality是每个实例的平均标签数量。
表1
No Data sets N d L Cardinality 领域
1 cal500 502 68 174 26.044 音乐
2 genbase 645 1186 27 1.252 生物
3 medical 978 1449 45 1.245 文本
4 emotions 593 72 6 1.869 音乐
5 Image 2000 294 5 1.236 图像
6 scene 2407 294 5 1.236 图像
7 yeast 2417 103 14 4.237 生物
参见表2至表5,分别给出了本发明(ADML)与5种比较算法(MLDL、ML-kNN、BR、ECC、RAKEL)以及4种评估准则(Hamming loss、accuracy、F1、Ranking loss)应用在数据集上的详细实验结果。
表2各比较算法应用在各个数据集上的汉明损失的预测性能
表3各比较算法应用在各个数据集上的准确度上的预测性能
表4各比较算法应用在各个数据集上的F1上的预测性能
表5各比较算法应用在各个数据集上的排名损失上的预测性能
根据以上实验结果,可以得到以下观察结果:
(1)BR在汉明损失排序中,平均表现优于所有方法。本申请的ADML模型在汉明损失方面除了BR外,比其他模型有更好的性能。
(2)ADML和MLDL在准确度和F1上的评价指标性能指标明显优于BR、MLKNN、ECC和RAKEL,这说明字典学习用于分类时可以大大提高分类的准确性。
(3)对于ADML和MLDL算法,ADML的分类效果优于MLDL。这说明了分析判别字典学习在多标签分类中的有效性。
下面对本申请实施例提供的一种多标签分类系统进行介绍,下文描述的一种多标签分类系统与上述实施例可以相互参照。
参见图2,本申请实施例提供的一种多标签分类系统具体包括:
训练数据确定模块201,用于确定训练数据;其中所述训练数据包括训练样本和对应每个训练样本的标签集合。
学习模块202,用于利用待学习字典对所述训练数据进行学习,得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码。
投影模块203,用于对所述稀疏编码进行投影,得到每个标签的分析字典;
目标优化问题确定模块204,用于利用所述分析字典、所述目标字典与预设分类器得到目标优化问题;其中,所述预设分类器为对应预设矩阵的分类器,所述预设矩阵为对应标签个数与样本个数的矩阵。
最优解确定模块205,用于利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解。
分类模块206,用于利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。
可选地,所述系统还包括:
约束处理模块,用于对所述稀疏编码进行投影,得到每个标签的分析字典之前,利用l2,1范数对所述系数编码进行约束处理。
可选地,所述目标优化函数包括:
式中,Xl为具有第l个标签的样本集合,为不具有第l个标签的样本集合,为分析非相关促进项,Sl为Xl的稀疏编码,Pl为对稀疏编码进行投影得到的分析字典;
为分析稀疏编码提取项,为二元分类器训练函数,α、σ和τ均为预设正则化参数;M为实数集中大小为L×N的矩阵,其中L为标签的个数,N为训练样本的个数,Ml为矩阵的第l行;β>0为正则化实数,δl为实数;C为正则化参数,用于调整误差的惩罚;ξl>0为松弛变量。
可选地,所述预设分类器为二分类的SVM分类器。
本实施例的多标签分类系统用于实现前述的多标签分类方法,因此多标签分类系统中的具体实施方式可见前文中的多标签分类方法的实施例部分,例如多训练数据确定模块201,学习模块202,投影模块203,目标优化问题确定模块205,最优解确定模块206,分类模块207,分别用于实现上述多标签分类方法中步骤S101,S102,S103,S104,S105,S106,S107所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
下面对本申请实施例提供的一种多标签分类装置进行介绍,下文描述的一种多标签分类装置与上述任一实施例可以相互参照。
参见图3,本申请实施例提供的一种多标签分类装置,具体包括:
存储器100,用于存储计算机程序;
处理器200,用于执行所述计算机程序时实现上述任一多标签分类方法的步骤。
具体的,存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令,该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。
进一步的,本实施例中的多标签分类装置,还可以包括:
输入接口300,用于获取外界导入的计算机程序,并将获取到的计算机程序保存至所述存储器100中,还可以用于获取外界终端设备传输的各种指令和参数,并传输至处理器200中,以便处理器200利用上述各种指令和参数展开相应的处理。本实施例中,所述输入接口300具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。
输出接口400,用于将处理器200产生的各种数据输出至与其相连的终端设备,以便于与输出接口400相连的其他终端设备能够获取到处理器200产生的各种数据。本实施例中,所述输出接口400具体可以包括但不限于USB接口、串行接口等。
通讯单元500,用于在多标签分类装置和其他节点之间建立远程链接,以便于接收交易,并同步区块数据。
键盘600,用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。
显示器700,用于对多标签分类过程的相关信息进行实时显示,以便于用户及时地了解当前多标签分类情况。
鼠标800,可以用于协助用户输入数据并简化用户的操作。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种多标签分类方法,其特征在于,包括:
确定训练数据;其中所述训练数据包括训练样本和对应每个训练样本的标签集合;
利用待学习字典对所述训练数据进行学习,得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码;
对所述稀疏编码进行投影,得到每个标签的分析字典;
利用所述分析字典、所述目标字典与预设分类器得到目标优化问题;其中,所述预设分类器为对应预设矩阵的分类器,所述预设矩阵为对应标签个数与样本个数的矩阵;
利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解;
利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。
2.根据权利要求1所述的方法,其特征在于,所述对所述稀疏编码进行投影,得到每个标签的分析字典之前,还包括:
利用l2,1范数对所述系数编码进行约束处理。
3.根据权利要求1所述的方法,其特征在于,所述目标优化函数包括:
式中,v∈{1,2......K},Xl为具有第l个标签的样本集合,为不具有第l个标签的样本集合,为分析非相关促进项,Sl为Xl的稀疏编码,Pl为对稀疏编码进行投影得到的分析字典;
为分析稀疏编码提取项,为预设分类器训练函数,α、σ和τ均为预设正则化参数;M为实数集中大小为L×N的矩阵,其中L为标签的个数,N为训练样本的个数,Ml为矩阵的第l行;β>0为正则化实数,δl为实数;C为正则化参数,用于调整误差的惩罚;ξl>0为松弛变量。
4.根据权利要求1所述的方法,其特征在于,所述预设分类器为二分类的SVM分类器。
5.一种多标签分类系统,其特征在于,包括:
训练数据确定模块,用于确定训练数据;其中所述训练数据包括训练样本和对应每个训练样本的标签集合;
学习模块,用于利用待学习字典对所述训练数据进行学习,得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码;
投影模块,用于对所述稀疏编码进行投影,得到每个标签的分析字典;
目标优化问题确定模块,用于利用所述分析字典、所述目标字典与预设分类器得到目标优化问题;其中,所述预设分类器为对应预设矩阵的分类器,所述预设矩阵为对应标签个数与样本个数的矩阵;
最优解确定模块,用于利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解;
分类模块,用于利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括:
约束处理模块,用于对所述稀疏编码进行投影,得到每个标签的分析字典之前,利用l2,1范数对所述系数编码进行约束处理。
7.根据权利要求5所述的系统,其特征在于,所述目标优化函数包括:
式中,v∈{1,2......K},Xl为具有第l个标签的样本集合,为不具有第l个标签的样本集合,为分析非相关促进项,Sl为Xl的稀疏编码,Pl为对稀疏编码进行投影得到的分析字典;
为分析稀疏编码提取项,为二元分类器训练函数,α、σ和τ均为预设正则化参数;M为实数集中大小为L×N的矩阵,其中L为标签的个数,N为训练样本的个数,Ml为矩阵的第l行;β>0为正则化实数,δl为实数;C为正则化参数,用于调整误差的惩罚;ξl>0为松弛变量。
8.根据权利要求5所述的系统,其特征在于,所述预设分类器为二分类的SVM分类器。
9.一种多标签分类装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任意一项多标签分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任意一项多标签分类方法的步骤。
CN201910261794.XA 2019-04-02 2019-04-02 一种多标签分类方法、系统、装置及存储介质 Expired - Fee Related CN109948735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910261794.XA CN109948735B (zh) 2019-04-02 2019-04-02 一种多标签分类方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910261794.XA CN109948735B (zh) 2019-04-02 2019-04-02 一种多标签分类方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN109948735A true CN109948735A (zh) 2019-06-28
CN109948735B CN109948735B (zh) 2021-11-26

Family

ID=67012467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910261794.XA Expired - Fee Related CN109948735B (zh) 2019-04-02 2019-04-02 一种多标签分类方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109948735B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532384A (zh) * 2019-08-02 2019-12-03 广东工业大学 一种多任务字典单分类方法、系统、装置及存储介质
CN110647907A (zh) * 2019-08-05 2020-01-03 广东工业大学 利用多层分类和字典学习的多标签图像分类算法
CN111414972A (zh) * 2020-03-30 2020-07-14 王雁 一种基于XGBoost的眼屈光矫正多源数据自动分类方法
CN111783831A (zh) * 2020-05-29 2020-10-16 河海大学 基于多源多标签共享子空间学习的复杂图像精确分类方法
CN113807408A (zh) * 2021-08-26 2021-12-17 华南理工大学 基于数据驱动的有监督字典学习音频分类方法、系统及介质
WO2022006734A1 (zh) * 2020-07-07 2022-01-13 香港中文大学(深圳) 一种数据稀疏投影算法、系统、电子装置及存储介质
CN115329032A (zh) * 2022-10-14 2022-11-11 杭州海康威视数字技术股份有限公司 基于联邦字典学习数据传输方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100142803A1 (en) * 2008-12-05 2010-06-10 Microsoft Corporation Transductive Multi-Label Learning For Video Concept Detection
CN103116762A (zh) * 2013-03-20 2013-05-22 南京大学 一种基于自调制字典学习的图像分类方法
CN105938544A (zh) * 2016-04-05 2016-09-14 大连理工大学 基于综合型线性分类器和解析型字典的行为识别方法
CN107527023A (zh) * 2017-08-07 2017-12-29 西安理工大学 基于超像素和主题模型的极化sar图像分类方法
CN108509833A (zh) * 2017-12-21 2018-09-07 苏州大学 一种基于结构化分析字典的人脸识别方法、装置及设备
CN109034200A (zh) * 2018-06-22 2018-12-18 广东工业大学 一种基于联合稀疏表示和多视图字典学习的学习方法
CN109447113A (zh) * 2018-09-25 2019-03-08 北京工业大学 一种基于Beta先验过程的深度字典学习方法
CN109447123A (zh) * 2018-09-28 2019-03-08 昆明理工大学 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100142803A1 (en) * 2008-12-05 2010-06-10 Microsoft Corporation Transductive Multi-Label Learning For Video Concept Detection
CN103116762A (zh) * 2013-03-20 2013-05-22 南京大学 一种基于自调制字典学习的图像分类方法
CN105938544A (zh) * 2016-04-05 2016-09-14 大连理工大学 基于综合型线性分类器和解析型字典的行为识别方法
CN107527023A (zh) * 2017-08-07 2017-12-29 西安理工大学 基于超像素和主题模型的极化sar图像分类方法
CN108509833A (zh) * 2017-12-21 2018-09-07 苏州大学 一种基于结构化分析字典的人脸识别方法、装置及设备
CN109034200A (zh) * 2018-06-22 2018-12-18 广东工业大学 一种基于联合稀疏表示和多视图字典学习的学习方法
CN109447113A (zh) * 2018-09-25 2019-03-08 北京工业大学 一种基于Beta先验过程的深度字典学习方法
CN109447123A (zh) * 2018-09-28 2019-03-08 昆明理工大学 一种基于标签一致性约束与拉伸正则化字典学习的行人再识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAO-YUAN JING ET AL;: "《Multi-Label Dictionary Learning》", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
李杰龙 等;: "《基于SVM 的多示例多标签主动学习》", 《计算机工程与设计》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532384A (zh) * 2019-08-02 2019-12-03 广东工业大学 一种多任务字典单分类方法、系统、装置及存储介质
CN110532384B (zh) * 2019-08-02 2022-04-19 广东工业大学 一种多任务字典单分类方法、系统、装置及存储介质
CN110647907A (zh) * 2019-08-05 2020-01-03 广东工业大学 利用多层分类和字典学习的多标签图像分类算法
CN111414972A (zh) * 2020-03-30 2020-07-14 王雁 一种基于XGBoost的眼屈光矫正多源数据自动分类方法
CN111414972B (zh) * 2020-03-30 2023-09-05 王雁 一种基于XGBoost的眼屈光矫正多源数据自动分类方法
CN111783831A (zh) * 2020-05-29 2020-10-16 河海大学 基于多源多标签共享子空间学习的复杂图像精确分类方法
CN111783831B (zh) * 2020-05-29 2022-08-05 河海大学 基于多源多标签共享子空间学习的复杂图像精确分类方法
WO2022006734A1 (zh) * 2020-07-07 2022-01-13 香港中文大学(深圳) 一种数据稀疏投影算法、系统、电子装置及存储介质
CN113807408A (zh) * 2021-08-26 2021-12-17 华南理工大学 基于数据驱动的有监督字典学习音频分类方法、系统及介质
CN113807408B (zh) * 2021-08-26 2023-08-22 华南理工大学 基于数据驱动的有监督字典学习音频分类方法、系统及介质
CN115329032A (zh) * 2022-10-14 2022-11-11 杭州海康威视数字技术股份有限公司 基于联邦字典学习数据传输方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109948735B (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN109948735A (zh) 一种多标签分类方法、系统、装置及存储介质
Yu et al. Hierarchical deep click feature prediction for fine-grained image recognition
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN109376796A (zh) 基于主动半监督学习的图像分类方法
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
WO2021139316A1 (zh) 建立表情识别模型方法、装置、计算机设备及存储介质
CN116049412B (zh) 文本分类方法、模型训练方法、装置及电子设备
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
CN112465231A (zh) 地区人口健康状态预测方法、设备和可读存储介质
WO2020135054A1 (zh) 视频推荐方法、装置、设备及存储介质
CN110135769A (zh) 货品属性填充方法及装置、存储介质及电子终端
CN112052663B (zh) 客服语句质检方法及相关设备
CN110222737A (zh) 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
CN113535960A (zh) 一种文本分类方法、装置和设备
CN106033546A (zh) 基于自上而下学习的行为分类方法
CN113705159A (zh) 商户名称的标注方法、装置、设备及存储介质
WO2024098282A1 (zh) 一种几何解题方法、装置、设备及存储介质
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
CN111339258A (zh) 基于知识图谱的大学计算机基础习题推荐方法
WO2023173541A1 (zh) 基于文本的情绪识别方法、装置、设备及存储介质
CN110334204A (zh) 一种基于用户记录的习题相似度计算推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211126

CF01 Termination of patent right due to non-payment of annual fee