CN109948735A

CN109948735A - 一种多标签分类方法、系统、装置及存储介质

Info

Publication number: CN109948735A
Application number: CN201910261794.XA
Authority: CN
Inventors: 宋科建; 刘波; 肖燕珊
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-06-28
Anticipated expiration: 2039-04-02
Also published as: CN109948735B

Abstract

本发明公开了一种多标签分类方法，首先确定训练数据，然后利用待学习字典对训练数据进行学习得到对应的目标字典和稀疏编码，并且本方案再次对稀疏编码进行投影得到分析字典，然后确定分析字典、目标字典、稀疏编码与预设分类器的最优解，利用相应的最优解进行多标签分类。相比现有技术，本方案中，在进行一次字典学习的基础上，又对稀疏编码进行了字典学习，即对稀疏编码进行投影得到相应的分析字典，然后结合两个字典进行多标签分类。两次字典学习可以对训练数据中的特征提取更加完备，从而使分类结果更加准确。本申请还提供了一种多标签分类系统、装置及计算机可读存储介质，同样可以实现上述技术效果。

Description

一种多标签分类方法、系统、装置及存储介质

技术领域

本发明涉及标签分类领域，更具体地说，涉及一种多标签分类方法、系统、装置及计算机可读存储介质。

背景技术

近年来，互联网技术的蓬勃发展，给世界带来了翻天覆地的变化，数据资源呈现指数级别的速度增长，数据量越来越多，形式也千变万化。信息化已渗透到我们生活中的各个角落，我们正置身于一个信息极其丰富的数字化时代，为我们搜索信息带来了极大的便利；然而，面对如此丰富的数据资源，如何从中快速有效的找到对我们有价值的信息，成为研究者们关注的一大热点，因此对资源进行适当分类的各项技术应运而生。其中，数据集中标签个数有多个时，对应的标签分类方法为多标签分类。

在现有方案中有一种方法，对训练数据进行字典学习，得到对应训练数据的字典数据，并将具有类似标签的字典组合为一个数据进行分类。但是目前这种方案得到的标签分类结果的准确性较低。

因此，如何提高多标签分类准确性，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种多标签分类方法、系统、装置及计算机可读存储介质，以解决如何提高多标签分类准确性的问题。

为实现上述目的，本发明实施例提供了如下技术方案：

一种多标签分类方法，包括：

确定训练数据；其中所述训练数据包括训练样本和对应每个训练样本的标签集合；

利用待学习字典对所述训练数据进行学习，得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码；

对所述稀疏编码进行投影，得到每个标签的分析字典；

利用所述分析字典、所述目标字典与预设分类器得到目标优化问题；其中，所述预设分类器为对应预设矩阵的分类器，所述预设矩阵为对应标签个数与样本个数的矩阵；

利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解；

利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。

可选地，所述对所述稀疏编码进行投影，得到每个标签的分析字典之前，还包括：

利用l_2,1范数对所述系数编码进行约束处理。

可选地，所述目标优化函数包括：

式中，X_l为具有第l个标签的样本集合，为不具有第_l个标签的样本集合，为分析非相关促进项，S_l为X_l的稀疏编码，P_l为对稀疏编码进行投影得到的分析字典；

为分析稀疏编码提取项，为预设分类器训练函数，α、σ和τ均为预设正则化参数；M为实数集中大小为L×N的矩阵，其中L为标签的个数，N为训练样本的个数，M_l为矩阵的第l行；β＞0为正则化实数，δ_l为实数；C为正则化参数，用于调整误差的惩罚；ξ_l＞0为松弛变量。

可选地，所述预设分类器为二分类的SVM分类器。

为实现上述目的，本申请还提供了一种多标签分类系统，包括：

训练数据确定模块，用于确定训练数据；其中所述训练数据包括训练样本和对应每个训练样本的标签集合；

学习模块，用于利用待学习字典对所述训练数据进行学习，得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码；

投影模块，用于对所述稀疏编码进行投影，得到每个标签的分析字典；

目标优化问题确定模块，用于利用所述分析字典、所述目标字典与预设分类器得到目标优化问题；其中，所述预设分类器为对应预设矩阵的分类器，所述预设矩阵为对应标签个数与样本个数的矩阵；

最优解确定模块，用于利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解；

分类模块，用于利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。

可选地，所述系统还包括：

约束处理模块，用于对所述稀疏编码进行投影，得到每个标签的分析字典之前，利用l_2,1范数对所述系数编码进行约束处理。

可选地，所述目标优化函数包括：

式中，X_l为具有第l个标签的样本集合，为不具有第l个标签的样本集合，为分析非相关促进项，S_l为X_l的稀疏编码，P_l为对稀疏编码进行投影得到的分析字典；

为分析稀疏编码提取项，为二元分类器训练函数，α、σ和τ均为预设正则化参数；M为实数集中大小为L×N的矩阵，其中L为标签的个数，N为训练样本的个数，M_l为矩阵的第l行；β＞0为正则化实数，δ_l为实数；C为正则化参数，用于调整误差的惩罚；ξ_l＞0为松弛变量。

可选地，所述预设分类器为二分类的SVM分类器。

为实现上述目的，本申请还提供一种多标签分类装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如任意一项多标签分类方法的步骤。

为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如任意一项多标签分类方法的步骤。

通过以上方案可知，本发明提供的一种多标签分类方法，包括：确定训练数据；其中所述训练数据包括训练样本和对应每个训练样本的标签集合；利用待学习字典对所述训练数据进行学习，得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码；对所述稀疏编码进行投影，得到每个标签的分析字典；利用所述分析字典、所述目标字典与预设分类器得到目标优化问题；其中，所述预设分类器为对应预设矩阵的分类器，所述预设矩阵为对应标签个数与样本个数的矩阵；利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解；利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。

由此可见，本申请提供的一种多标签分类方法，首先确定训练数据，然后利用待学习字典对训练数据进行学习得到对应的目标字典和稀疏编码，并且本方案再次对稀疏编码进行投影得到分析字典，然后确定分析字典、目标字典、稀疏编码与预设分类器的最优解，利用相应的最优解进行多标签分类。相比现有技术，本方案中，在进行一次字典学习的基础上，又对稀疏编码进行了字典学习，即对稀疏编码进行投影得到相应的分析字典，然后结合两个字典进行多标签分类。两次字典学习可以对训练数据中的特征提取更加完备，从而使分类结果更加准确。本申请还提供了一种多标签分类系统、装置及计算机可读存储介质，同样可以实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种多标签分类方法流程图；

图2为本发明实施例公开的一种多标签分类系统结构示意图；

图3为本发明实施例公开的一种多标签分类装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种多标签分类方法、系统、装置及计算机可读存储介质，以解决如何提高多标签分类准确性的问题。

参见图1，本发明实施例提供的一种多标签分类方法，具体包括：

S101，确定训练数据；其中所述训练数据包括训练样本和对应每个训练样本的标签集合。

在本方案中，首先确定训练数据，训练数据中包括多个训练样本，和每个训练样本对应的标签集合。

例如，训练数据为{(x₁,Y₁),(x₂,Y₂),......(x_N,Y_N)}，其中，x_i是第i个训练样本，x_i∈X，X∈R^d×N，X代表训练样本集合，d代表每一个样本的特征维度，N标识样本集合中样本的个数，Y_i是第i样本所对应的标签集合。进一步地，X_l代表具有第l个标签的样本集合，是X_l的互补矩阵，也就是说，表示不具有第l个标签的样本集合。Y_i＝[y₁,y₂,...y_L]^T表示样本x所有可能的标签集合，这里的L表示标签的个数。如果样本x_i具有标签y_i，设置y_i的值为1，否则设置y_i的值为0。

S102，利用待学习字典对所述训练数据进行学习，得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码。

需要说明的是，字典学习技术近年来已经成功应用在图像分类领域，在多种分类任务中均取得了良好的分类性能。通过超完备的区分性字典，数据被转换到一个更高维的空间中，获得了稀疏的特性，和直接在数据上进行分类的方法相比，字典学习算法使得分类任务变得更加简单。

在本方案中，预先设定一个字典初始值，也就是待学习字典，例如D＝[d₁,d₂,......d_K]∈R^d×K是待学习字典，经过学习后可以得到每个标签的目标字典D_l∈R^d×K，代表了第l个标签所对应的字典，和每个标签的样本集合X_l的稀疏编码S_l∈R^K×N，表示拥有第l个标签的样本集X_l的集合的稀疏编码。

需要说明的是，稀疏编码S_l需要能够很好的表示样本集X_l，也就是说，需要满足X_l≈D_lS_l。

S103，对所述稀疏编码进行投影，得到每个标签的分析字典。

在本方案中，需要对上述稀疏编码进行再一次的字典学习，即对稀疏编码进行投影，得到每个标签的分析字典。

具体地，对上述稀疏编码S_l进行投影后得到分析字典P_l∈R^K×d。

需要说明的是，分析字典P_l需要很好的表示样本集合的特征，将样本与近似编码系数进行桥接，也就是说，需要P_lX_l能够很好地近似稀疏编码S_l，即P_lX_l≈S_l。

在一个优选的实施方式中，进行投影之前，利用l_2,1范数对所述系数编码进行约束处理。

相比现有技术中使用l₀范数或l₁范数，l_2,1范数可以提高行稀疏性。

S104，利用所述分析字典、所述目标字典与预设分类器得到目标优化问题；其中，所述预设分类器为对应预设矩阵的分类器，所述预设矩阵为对应标签个数与样本个数的矩阵。

具体地，利用上述分析字典、目标字典、以及预设的分类器可以得到目标优化问题。

具体可以为

S105，利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解。

通过上述目标优化问题即可确定中所述稀疏编码的最优解、分析字典的最优解、目标字典的最优解与所述预设矩阵的最优解。

具体地，在第一次计算时：

计算目标字典的最优解时，固定S、P、M，即用自定义常量作为S、P、M，代入到上述目标优化问题中，得到D的最优解：

计算稀疏编码的最优解时，固定D、M、P，即用自定义常量作为D、M、P，代入到上述目标优化问题中，得到S的最优解：

计算分析字典的最优解时，固定S、D、M，即用自定义常量作为S、D、M，代入到上述目标优化问题中，得到P的最优解：

计算预设分类器的最优解时，固定D、S、P，即用自定义常量作为D、S、P，代入到上述目标优化问题中，得到M的最优解：

第一次计算时分别用自定义常量代替相应的变量，在第二次以及后续每次迭代计算时，都需要用上一次计算的最优解结果代替相应的变量，当满足迭代停止条件时，当前这一次计算的最优解结果就是最终的最优解结果。需要说说明的是，迭代停止条件可以根据实际情况来设定，例如，设定满足预设迭代次数时为满足迭代停止条件，也可以是设定本次迭代的计算结果与上一次迭代的计算结果的差值小于预设阈值为满足迭代停止条件，具体如何设定在本方案中不做具体限定。

S106，利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。

具体地，在计算出上述最优解后，即可利用最优解进行分类操作。

计算出分析字典P＝[P₁,P₂,...P_l…P_L]∈R^K×d的最优解以及分类器M＝[M₁,M₂,...M_l...M_L]∈R^L×N后，对于一个新的测试数据x，确定数据x是否具有第l个标签。我们首先通过简单地将其嵌入到P_l中来计算其稀疏编码，即使用P_lX_l近似其稀疏编码。然后进一步将P_lX_l和M_l嵌入到M_l(P_lX_l)中，因此通过下式即可计算得到测试数据x的标签集Y_l：

M_l(P_lX_l)＝Y_l

需要说明的是，本方案中优选采用SVM二元分类器作为预设分类器，将多标签分类问题转化为多个二分类问题，可以使分类结果的准确率更高。

由此可见，本申请实施例提供的一种多标签分类方法，首先确定训练数据，然后利用待学习字典对训练数据进行学习得到对应的目标字典和稀疏编码，并且本方案再次对稀疏编码进行投影得到分析字典，然后确定分析字典、目标字典、稀疏编码与预设分类器的最优解，利用相应的最优解进行多标签分类。相比现有技术，本方案中，在进行一次字典学习的基础上，又对稀疏编码进行了字典学习，即对稀疏编码进行投影得到相应的分析字典，然后结合两个字典进行多标签分类。两次字典学习可以对训练数据中的特征提取更加完备，从而使分类结果更加准确。

本申请实施例提供的方案可以在7个多标签数据集上与现有技术进行比较实验。

7个多标签数据集可以来自不用应用领域而且是大小不同的。具体数据参见表1。表1为试验中使用的数据集的统计，n为实例数；d为实例的维数；L是可能的标签数量；cardinality是每个实例的平均标签数量。

表1

No	Data sets	N	d	L	Cardinality	领域
							1	cal500	502	68	174	26.044	音乐
2	genbase	645	1186	27	1.252	生物
							3	medical	978	1449	45	1.245	文本
4	emotions	593	72	6	1.869	音乐
							5	Image	2000	294	5	1.236	图像
6	scene	2407	294	5	1.236	图像
							7	yeast	2417	103	14	4.237	生物

参见表2至表5，分别给出了本发明(ADML)与5种比较算法(MLDL、ML-kNN、BR、ECC、RAKEL)以及4种评估准则(Hamming loss、accuracy、F₁、Ranking loss)应用在数据集上的详细实验结果。

表2各比较算法应用在各个数据集上的汉明损失的预测性能

表3各比较算法应用在各个数据集上的准确度上的预测性能

表4各比较算法应用在各个数据集上的F₁上的预测性能

表5各比较算法应用在各个数据集上的排名损失上的预测性能

根据以上实验结果，可以得到以下观察结果：

(1)BR在汉明损失排序中，平均表现优于所有方法。本申请的ADML模型在汉明损失方面除了BR外，比其他模型有更好的性能。

(2)ADML和MLDL在准确度和F₁上的评价指标性能指标明显优于BR、MLKNN、ECC和RAKEL，这说明字典学习用于分类时可以大大提高分类的准确性。

(3)对于ADML和MLDL算法，ADML的分类效果优于MLDL。这说明了分析判别字典学习在多标签分类中的有效性。

下面对本申请实施例提供的一种多标签分类系统进行介绍，下文描述的一种多标签分类系统与上述实施例可以相互参照。

参见图2，本申请实施例提供的一种多标签分类系统具体包括：

训练数据确定模块201，用于确定训练数据；其中所述训练数据包括训练样本和对应每个训练样本的标签集合。

学习模块202，用于利用待学习字典对所述训练数据进行学习，得到对应每个标签的目标字典与每个标签的样本集合的稀疏编码。

投影模块203，用于对所述稀疏编码进行投影，得到每个标签的分析字典；

目标优化问题确定模块204，用于利用所述分析字典、所述目标字典与预设分类器得到目标优化问题；其中，所述预设分类器为对应预设矩阵的分类器，所述预设矩阵为对应标签个数与样本个数的矩阵。

最优解确定模块205，用于利用所述优化问题确定所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解。

分类模块206，用于利用所述稀疏编码的最优解、所述分析字典的最优解、所述目标字典的最优解与所述预设矩阵的最优解对待分类标签进行分类。

可选地，所述系统还包括：

可选地，所述目标优化函数包括：

可选地，所述预设分类器为二分类的SVM分类器。

本实施例的多标签分类系统用于实现前述的多标签分类方法，因此多标签分类系统中的具体实施方式可见前文中的多标签分类方法的实施例部分，例如多训练数据确定模块201，学习模块202，投影模块203，目标优化问题确定模块205，最优解确定模块206，分类模块207，分别用于实现上述多标签分类方法中步骤S101，S102，S103，S104，S105，S106，S107所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

下面对本申请实施例提供的一种多标签分类装置进行介绍，下文描述的一种多标签分类装置与上述任一实施例可以相互参照。

参见图3，本申请实施例提供的一种多标签分类装置，具体包括：

存储器100，用于存储计算机程序；

处理器200，用于执行所述计算机程序时实现上述任一多标签分类方法的步骤。

具体的，存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令，该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。

进一步的，本实施例中的多标签分类装置，还可以包括：

输入接口300，用于获取外界导入的计算机程序，并将获取到的计算机程序保存至所述存储器100中，还可以用于获取外界终端设备传输的各种指令和参数，并传输至处理器200中，以便处理器200利用上述各种指令和参数展开相应的处理。本实施例中，所述输入接口300具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。

输出接口400，用于将处理器200产生的各种数据输出至与其相连的终端设备，以便于与输出接口400相连的其他终端设备能够获取到处理器200产生的各种数据。本实施例中，所述输出接口400具体可以包括但不限于USB接口、串行接口等。

通讯单元500，用于在多标签分类装置和其他节点之间建立远程链接，以便于接收交易，并同步区块数据。

键盘600，用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。

显示器700，用于对多标签分类过程的相关信息进行实时显示，以便于用户及时地了解当前多标签分类情况。

鼠标800，可以用于协助用户输入数据并简化用户的操作。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多标签分类方法，其特征在于，包括：

对所述稀疏编码进行投影，得到每个标签的分析字典；

2.根据权利要求1所述的方法，其特征在于，所述对所述稀疏编码进行投影，得到每个标签的分析字典之前，还包括：

利用l_2,1范数对所述系数编码进行约束处理。

3.根据权利要求1所述的方法，其特征在于，所述目标优化函数包括：

式中，v∈{1,2......K},X_l为具有第l个标签的样本集合，为不具有第l个标签的样本集合，为分析非相关促进项，S_l为X_l的稀疏编码，P_l为对稀疏编码进行投影得到的分析字典；

4.根据权利要求1所述的方法，其特征在于，所述预设分类器为二分类的SVM分类器。

5.一种多标签分类系统，其特征在于，包括：

6.根据权利要求5所述的系统，其特征在于，所述系统还包括：

7.根据权利要求5所述的系统，其特征在于，所述目标优化函数包括：

8.根据权利要求5所述的系统，其特征在于，所述预设分类器为二分类的SVM分类器。

9.一种多标签分类装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任意一项多标签分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任意一项多标签分类方法的步骤。