CN110516704A

CN110516704A - 一种基于关联规则的mlknn多标签分类方法

Info

Publication number: CN110516704A
Application number: CN201910654421.9A
Authority: CN
Inventors: 江东; 郝蒙蒙; 付晶莹; 张珣; 杨岚雁
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS; Beijing Technology and Business University
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS; Beijing Technology and Business University
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-11-29
Anticipated expiration: 2039-07-19
Also published as: CN110516704B

Abstract

本发明提供了一种基于关联规则的MLKNN多标签分类方法，包括以下步骤：A、对多标签数据集的标签进行处理，将标签转换成关联规则算法中的项集，采用算法进行关联规则的挖掘生成，得到标签置信度；B、利用MLKNN多标签分类算法根据特征属性计算出验证集中每个样本拥有标签的概率，即特征置信度；C、将步骤A得到的标签置信度与步骤B得到的特征置信度进行融合，融合后的置信度即为计算得到的该多标签数据集拥有某标签的概率。本发明极大地提高了多标签数据分类的准确性。

Description

一种基于关联规则的MLKNN多标签分类方法

技术领域

本发明属于机器学习多标签算法分类领域，具体涉及一种基于关联规则的MLKNN(Multi-label knn)多标签分类方法。

背景技术

在传统的监督学习中，大部分算法都是基于多分类单标签问题的，即每个样本只对应唯一标签。然而随着信息技术的发展与社会的进步，多标签分类已经成为分类问题中不可或缺的一部分，在现实生活中多标签分类问题的应用也变得越来越广泛。例如，一张图片可能包含多个语义信息；一篇文章可能拥有多个主题；一段音频可能包含多种语音信息；一个人可能拥有多种爱好等等。这种一个样本拥有多个标签的分类问题就被称为多标签分类问题。

多标签分类问题的多标签性使得传统的多分类算法已经不适用于多标签分类数据集。因此，相关学者进行了大量的研究，提出了许多适用于多标签分类问题的算法。总的来说这些方法主要分为两类，问题转换法和算法转换法。问题转化法主要是将多标签分类问题转化为单标签分类问题，具体来说就是通过特定方法将多标签数据集转化为单标签数据集，然后再利用传统的单标签多分类算法进行分类，简单且容易进行。但是这样就忽视了多标签数据集的所有特性。Binary relevance(BR)是假设标签之间是相互独立的从而对每个标签进行一对一的学习，可以直接利用现有的单标签分类算法对处理后的数据进行训练来判断样本有无对应的标签，但是这种方法忽略了标签和标签之间的相关性，降低了分类准确率；Label Power-set(LP)方法考虑到了标签之间的相关性，将每个样本的可能拥有的标签合并成为一个新的标签，但是该方法会导致融合后的标签呈指数级增长，导致样本不足不具备良好的泛化性。算法转化法是将传统的多分类单标签问题转化为适应于多标签数据集的分类，该类方法主要有基于BP神经网络、Adaboost、SVM等多标签分类方法。

发明内容

针对上述问题，本发明基于标签之间的相关性解决多标签分类问题。目前，基于标签相关性的算法策略主要有三种：一阶策略逐一考察单个标签而忽略标签之间的相关性，这类策略效率较高并且实现简单，但是没有考虑标签之间相关性导致准确率低以及泛化性差。二阶策略通过考察标签两两之间的相关性(例如相关标签与无关标签之间的排序关系等)，这类策略在一定程度上考察了标签之间的相关性，其泛化性能较优，但是当真实数据集之间关系超过二阶时该类方法的效果会大打折扣。高阶策略通过考察高阶的标签相关性(例如处理任一标签对其他所有标签的影响等)，这类策略可以较好地反映真实世界问题的标签相关性。关联规则可以发现标签之间的高阶相关性，本发明基于标签之间的关联规则对现有的多标签分类算法MLKNN作出改进。

鉴于上述技术问题，本发明的目的在于提供一种基于关联规则的MLKNN多标签分类方法。

为了达到上述目的，本发明通过关联规则挖掘、MLKNN计算、算法改进、算法验证完成对多标签数据集的分类，本发明所采用的技术方案如下：

根据本发明的一个方面，提供了一种基于关联规则的MLKNN多标签分类方法，包括以下步骤：

A、对多标签数据集的标签进行处理，将标签转换成关联规则算法中的项集，采用算法进行关联规则的挖掘生成，得到标签置信度；

B、利用MLKNN多标签分类算法根据特征属性计算出验证集中每个样本拥有标签的概率，即特征置信度；

C、将步骤A得到的标签置信度与步骤B得到的特征置信度进行融合，融合后的置信度即为计算得到的该多标签数据集拥有某标签的概率。

在本发明某些实施例中，步骤A包括以下步骤：

A1、对多标签数据集的标签进行处理，将其转换成关联规则算法中的项集；

A2、采用算法对多标签数据集标签的项集进行频繁项集的挖据，然后根据频繁项集生成多标签数据集标签的关联规则，然后对关联规则进行筛选，得到标签置信度。

在本发明某些实施例中，在步骤A2中，采用FP-growth算法对多标签数据集标签的项集进行频繁项集的挖据。

在本发明某些实施例中，步骤A2包括以下步骤：

A2.1、对经过转换后的数据样本标签进行扫描，收集频繁项集及对应的支持度，并放入项头表；然后删除支持度低于阈值的项，并按照支持度进行降序排列；

A2.2、对标签项集进行扫描，将读到的原始数据删除非频繁项集，并且按照支持度降序排序；

A2.3、读取排序后的数据构建FP树，构建时按照排序号的顺序插入FP树中；

A2.4、从项头表的底部项依次向上找到项头表项对应的条件模式基，从条件模式基递归挖掘得到项头表项的频繁项集；

A2.5、如果没有限制频繁项集的项数，则返回步骤A2.4所有的频繁项集，否则只返回满足项数要求的频繁项集；

A2.6、根据挖掘出的频繁项集计算出标签的支持度与置信度。

在本发明某些实施例中，基于关联规则的MLKNN多标签分类方法还包括以下步骤：

D、利用多标签分类算法评价指标对基于关联规则的MLKNN多标签分类方法进行有效性验证。

从上述技术方案可以看出，本发明至少具有以下有益效果：本发明所提出的基于关联规则的MLKNN多标签分类方法针对多标签数据考虑标签与标签之间的相关性，采用关联规则算法挖掘标签之间的高阶相关性，将标签之间的关联规则应用到MLKNN算法中进行改进，并通过了算法的有效性检验，本发明极大地提高了多标签数据分类的准确性。

附图说明

图1为本发明实施例基于关联规则的MLKNN多标签分类方法的流程框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

在本发明实施例中，提供了一种基于关联规则的MLKNN多标签分类方法，针对多标签数据考虑标签与标签之间的相关性，采用关联规则算法挖掘标签之间的相关性，并将其融入到MLKNN中进行改进。通过关联规则挖掘、MLKNN计算、算法改进、算法验证完成对多标签数据集的分类，并通过了算法的有效性检验。

如图1所示，本发明基于关联规则的MLKNN多标签分类方法包括以下步骤：

A、对多标签数据集的标签进行处理，将标签转换成关联规则算法中的项集，采用FP-growth进行关联规则的挖掘生成，得到标签置信度；

B、利用MLKNN多标签分类算法根据其特征属性计算出验证集中每个样本拥有标签的概率，即特征置信度；

C、将步骤A得到的标签置信度与步骤B得到的特征置信度进行融合，融合后的置信度即为改进后的算法(即基于关联规则的MLKNN多标签分类方法)计算得到的该样本拥有某标签的概率；

D、利用Hamming loss、one-error、coverage、ranking loss和average precision多标签分类算法评价指标对基于关联规则的MLKNN多标签分类方法进行有效性验证。

本发明实施例以yeast、emotions和enron三种数据集为例进行实验，数据集的具体信息如表1所示。

表1数据集具体信息

Name	instances	labels	cardinality	density
					emotions	593	6	1.869	0.311
yeast	2417	14	4.237	0.303
					enron	1702	53	3.378	0.064

其中，cardinality和density分别表示标签的基数和标签的密度，标签的基数为样本的平均标签个数，标签的密度为标签的基数与标签总数的比值。

下面对基于关联规则的MLKNN多标签分类方法的各个步骤进行详细说明。

A、对多标签数据集的标签进行处理，将标签转换成关联规则算法中的项集，采用FP-growth进行关联规则的挖掘生成，得到标签置信度。

若两个或多个变量的取值之间存在某种规律性，则称为关联。关联规则是反映一个事物与其他事物之间的相互依存性和关联性。关联规则中有两个重要的概念：支持度(Support)和置信度(Confidence)。支持度是两事件(A∩B)在总事件中出现的概率，即A和B同时出现的概率。置信度是出现A事件后出现B事件的条件概率，简单来说就是A和B的交集部分在A中出现的概率。关联规则可以挖掘标签与标签之间的高阶相关性，因此本发明基于关联规则改进MLKNN多标签分类算法。步骤A具体包括以下步骤：

A1、对以上三种多标签数据集的标签进行处理，将其转换成关联规则中的项集，以便后续关联规则的挖据应用。

多标签数据集中样本的标签是形如L＝[0,1,0,0,0,0...]的形式。列表的长度表示数据集标签的数量，L[i]表示第i个标签，当L[i]为0时，表示样本不属于该标签；当L[i]为1时，表示样本属于该标签。本发明首先对数据集标签进行处理，将其转化为项集的形式。如L1＝[0,1,1,0,1,0]转化成[1,2,4]的形式，表示该样本拥有的标签下标为1,2,4。对上述三种多标签数据集进行样本标签的转化，便于关联规则的挖据。

A2、采用FP-growth算法对多标签数据集标签的项集进行频繁项集的挖据，然后根据频繁项集生成多标签数据集标签的关联规则，然后对关联规则进行筛选。

本发明实施例采用FP-growth算法进行关联规则的挖掘。FP-growth算法只需要对数据库进行两次扫描，通过FP-tree数据结构对原始数据进行压缩，工作效率比较高。当然，还可以采用Apriori算法进行关联规则的挖掘。

FP-growth算法主要分为两部分：构建FP树以及利用FP树进行频繁项集的挖掘，并根据频繁项集计算出标签的支持度与置信度，具体步骤如下：

A2.1、对事务数据库即经过转换后的数据样本标签进行扫描，收集频繁项集(1-项集)以及对应的支持度，并放入项头表；然后删除支持度低于阈值的项，并按照支持度进行降序排列。

A2.2、对标签项集进行扫描，将读到的原始数据删除非频繁1-项集，并且按照支持度降序排序。

A2.3、读取排序后的数据构建FP树，构建时按照排序号的顺序插入FP树中。排序靠前的节点是祖先节点，靠后的节点是子孙节点。如果有公用的祖先节点，则对应的公用祖先节点加1。插入后，如果有新的节点出现，则项头表对应的节点会通过节点链表连接上新节点。当所有的数据都插入到FP树后，FP树建立完成。

A2.4、从项头表的底部项依次向上找到项头表项对应的条件模式基。从条件模式基递归挖掘得到项头表项的频繁项集。

A2.5、如果没有限制频繁项集的项数，则返回步骤4所有的频繁项集，否则只返回满足项数要求的频繁项集。

A2.6、根据挖掘出的频繁项集计算出标签的支持度与置信度。

B、利用MLKNN多标签分类算法计算出每个样本根据特征得到的拥有标签的概率，即特征置信度。

MLKNN多标签分类算法是依据KNN算法改进而来的，采用K近邻分类准则。在求出距离样本最近的K个近邻后统计近邻样本包含的标签信息，通过最大化后验概率的方式来预测测试样本的标签集合。设数据集X＝{x₁,x₂,…,x_q}，标签集空间Y＝{y₁,y₂,…,y_q}。

已知测试样本x和其对应的标签集合y且有y_x表示样本x的标签集向量，对于每一个标签若x拥有标签l，则y_x(l)＝1；否则，y_x(l)＝0。设N(x)表示测试样本x在训练集中的k个最近邻的集合，C_x(l)表示近邻集合N(x)中拥有标签l的样本数。表示样本x含有标签l的事件，表示样本x不含有标签l的事件。表示样本x的k近邻中有j个样本含有标签l的事件。

基于贝叶斯概率公式的MLKNN方法的分类函数如式(1)所示，通过式(1)来确定样本x是否包含标签l。

对于每一个单独的标签l，其对应的先验概率可以由式(2)计算得到。

式中s是平滑参数，一般设s为1，m为训练样本集个数，训练集中含有标签l的样本个数。

后验概率可由公式(3)和公式(4)计算得到。

式中c[j]表示自身拥有标签l且该样本的k近邻中有j个拥有标签l的样本数，c′[j]表示自身不含有标签l且该样本的k近邻中有j个拥有标签l的样本数。

通过式(5)计算得到样本x属于标签l的概率：

式中，P(l)代表样本x属于标签l的概率；表示样本x属于标签l的事件，表示样本x不属于标签l的事件；表示样本x的近邻中有j个样本属于标签l的事件。

C、将步骤A得到的标签置信度与步骤B得到的特征置信度进行融合，融合后的置信度即为改进后的算法(即本发明的基于关联规则的MLKNN多标签分类方法)计算得到的该样本拥有某标签的概率，融合规则如下(9)到(17)所示：

本发明的基于关联规则的MLKNN多标签分类方法的算法过程如下：

(1)输入：训练数据集D＝{(X₁,Y₁),(X₂,Y₂),…,(X_n,Y_n)},测试集为X_t近邻数K＝10,标签相关性的影响程度w。

(2)输出：测试集X_t的标签Y_t

(3)标签集合L＝(l₁,l₂,l₃…,l_q)

(4)for(i＝1,2,3…q)do

(5)由MLKNN计算得到测试集X_t的特征置信度→

(6)end

(7)由关联规则算法FP-growth计算得到→

(8)通过调节支持度(support)与置信度(confidence)得到一系列强关联规则Conf_b。

(9)for(i＝1,2,3…q)do

(10)将X_t对应的标签l_i的特征置信度大于0.5的作为转化为集合L_t

(11)end

(12)for Conf_b in Confs_b

(13)if Conf_b中的A是L_t的子集

(14)Conf_b＝p(l_i|A＝{l₁∪l₂…l_n})

(15)end

(16)for(i＝1,2,3…q)do

(17)P(l_i)＝w*Conf_a+(1-w)*max(Confs_b)

具体实施时，为了训练和测试基于关联规则的MKNN多标签分类方法的性能，本发明采用十折交叉验证法。即将数据集分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行验证。本发明进行了10次十折交叉验证，并求其平均值作为最终对模型精度的估计。

Hamming loss指标考察样本在单个标签上的错误分类的情况，即属于该样本的标签没有出现在该样本的标签集合中，不属于该样本的标签出现在该样本的标签集合中。

式中，Δ表示两个集合之间的对称差，|·|表示返回的集合大小。

One-error指标表示在样本拥有的标签集合排序序列中，序列最前端的标记不属于该样本的情况。

Coverage指标表示在样本拥有的标签集合排序序列中，覆盖隶属于该样本所拥有的标签需要的搜索深度情况。

Ranking loss指标表示在样本拥有的标签集合排序序列中出现错误排序的情况。

式中，代表Y_i在集合Y中的补集。

Average precision指标表示在样本拥有的标签集合排序序列中，排在隶属于该样本拥有的标签之前的标签仍然属于该样本所拥有的标签集合的情况。

对于Hamming loss、one-error、coverage、ranking loss评价指标而言，值越小则模型性能越好；对于Average precision评价指标则是值越大模型性能越好。

对基于关联规则的MLKNN多标签分类方法进行有效性验证的具体步骤如下：

D1.采用基于关联规则的MLKNN多标签分类方法在yeast、emotions和enron三种数据集进行实验。首先，选取合适的支持度与置信度筛选出每个数据集合适的强关联规则；然后，调整相关性的影响程度w进行验证。实验结果如表2所示，符号↓表示该指标越小性能越好，↑表示该指标越大性能越好，加粗表示在同一行中对应参数下性能最好的算法。

表2原始算法以及改进算法不同w值得算法比较

从表2可以看出，对于不同的数据集，使得算法性能最好的w值是不一样的。对于不同的数据集，其对应的标签的关联规则是不同的。因此，要选择合适的w进行算法的改进。

D2.将基于关联规则的MLKNN多标签分类方法(FP-MLKNN)与其他多标签分类算法MLKNN、BPMLL和AdaBoostMH多标签分类算法进行实验对比，如表3所示。从实验对比可知，本发明提供的基于关联规则的MLKNN多标签分类方法FP-MLKNN均优于其他多标签分类算法。

表3多标签分类算法实验对比

实验对比综合说明本发明提出的基于关联规则的MLKNN多标签分类方法的的科学性和精确性。

至此，已经结合附图对本实施例进行了详细描述。依据以上描述，本领域技术人员应当对本发明基于关联规则的MLKNN多标签分类方法有了清楚的认识。本发明提出了一种基于关联规则的MLKNN多标签分类方法，针对多标签数据考虑标签与标签之间的相关性，采用关联规则算法挖掘标签之间的高阶相关性，将标签之间的关联规则应用到MLKNN算法中进行改进。基于关联规则的MLKNN多标签分类方法综合考虑多标签数据的特征置信度与标签置信度，在具体实施中，采用改进后的算法对yeast、emotions和enron三种数据集进行实验，实验结果表明本发明所提出的基于关联规则的MLKNN多标签分类方法极大地提高了多标签数据分类的准确性。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

除非特别描述或必须依序发生的步骤，上述步骤的顺序并无限制于以上所列，且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关联规则的MLKNN多标签分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于关联规则的MLKNN多标签分类方法，其特征在于，步骤A包括以下步骤：

3.根据权利要求2所述的基于关联规则的MLKNN多标签分类方法，其特征在于，在步骤A2中，采用FP-growth算法对多标签数据集标签的项集进行频繁项集的挖据。

4.根据权利要求3所述的基于关联规则的MLKNN多标签分类方法，其特征在于，步骤A2包括以下步骤：

A2.6、根据挖掘出的频繁项集计算出标签的支持度与置信度。

5.根据权利要求1所述的基于关联规则的MLKNN多标签分类方法，其特征在于，还包括以下步骤：