CN112463894A

CN112463894A - 一种基于条件互信息和交互信息的多标签特征选择方法

Info

Publication number: CN112463894A
Application number: CN202011352442.4A
Authority: CN
Inventors: 蒋文田; 杨柏林; 马希骜
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-09
Anticipated expiration: 2040-11-26
Also published as: CN112463894B

Abstract

本发明公开了一种基于条件互信息和交互信息的多标签特征选择方法。本发明基于条件互信息重新定义特征相关项将已选特征的条件互信息纳入进来。又从特征交互的角度定义标签之间的冗余，将其纳入冗余项，定义了一个多标签特征选择算法，有效地选择特征子集，提高多标签分类模型的性能。其中，所述发明包括：对多标签数据集进行预处理，其中包括缺失值填充，数据离散化等；利用多标签特征选择算法MCIMII对处理过的数据集进行特征筛选，得到筛选后的特征集。将得到的特征数据集输入到MLKNN模型中，得到数据集优化后的MLKNN模型。

Description

一种基于条件互信息和交互信息的多标签特征选择方法

技术领域

本发明属于机器学习与模式识别领域，具体涉及一种基于条件互信息和交互信息的多标签特征选择方法。

背景技术

在传统的监督学习任务中，每个样本被默认为只包含一种分类标签。然而，这样的假设往往与现实世界的真实情况不符，例如，在图片分类任务中，一张风景图片往往同时包含“花”“鸟”“树”等景物，由此可见，使用单一标签无法充分表达其信息，同样使用传统的单标签分类方法将很难对这种情况进行准确的分类，多标签分类应运而生，并在文本分类、音乐分类以及基因功能预测等领域取得了出色的成果。

随着多标签算法的广泛应用，多标签特征选择算法也激发人们的热情，使其被发展用于降维和提高分类性能。因为和传统的监督学习一样，多标签学习也存在着高维的数据，数据中存在着大量无关特征和冗余特征，降低多标签模型的准确性，浪费了模型的时间和空间。于是多标签特征选择就显得十分重要。

国内外现在有关多标签特征选择主要分成两个策略。一个是问题转化，将多标签数据集转化成单标签数据集，然后使用传统的单标签特征选择算法，选择一个特征子集。这个方面往往没有考虑到标签和标签之间的分类信息，所以效果不是很好。另一个策略就是算法适应，提出一个符合多标签数据集特征选择算法，直接进行选出特征子集。

发明内容

本发明针对现有技术的不足，提出一种基于条件互信息和交互信息的多标签特征选择方法。

本发明包括以下步骤：

步骤1：给定多标签数据样本的集合M和指定特征子集维度K，其中集合M含有p个特征，q个标签。

步骤2：对所给的集合M进行预处理，包括缺失值填充和连续特征的离散化。然后按照训练集Train与测试集Test为3:1的比例，将集合M划分成两个部分。此时，已选特征集合S为空，候选特征集合J的元素为训练集Train中p个特征。

步骤3：给出多标签特征选择算法J(x_k)；

其中x_k表示候选特征，x_j表示已选特征，y_i表示标签，S是已选特征的集合，Y是标签的集合，J(x_k)表示候选特征在此算法下的得分，I(x_k；y_i|x_j)表示在给定x_j条件下，x_k和y_i的相关性，I(x_j；y_i|x_k)表示在给定x_k条件下，x_j和y_i的相关性，I(x_k；y_i；y_j)表示x_k、y_j和y_i的相关性。

步骤4：对候选特征集合J中所有的特征使用多标签特征选择算法进行评价。候选特征集合J中的每个候选特征都有属于自己的一个分数，选择得分最高的特征，将其索引加入到已选特征集合S中，同时在候选集合J中移除该特征，更新多标签特征选择算法。

步骤5：如果已选特征集合中元素个数等于最开始指定特征子集的维度K，则停止。否则不断重复步骤4。

步骤6：已选特征集合中的元素就是集合J中特征的索引，然后根据这些索引构建一个特征子集MM。

步骤7：将构造好的特征子集输入到MLKNN模型中，由特征子集训练得到MLKNN模型MLKNN_mm。

本发明的有益效果：本发明基于条件互信息重新定义特征相关项，将已选特征的条件互信息纳入进来；又从特征交互的角度定义标签之间的冗余，将其纳入冗余项，定义了一个名为多标签特征选择算法，有效地选择特征子集，提高多标签分类模型的性能。

附图说明

图1为发明整体流程图；

图2为多标签特征选择方法进行多标签特征选择过程图。

具体实施方式

本发明所采用的技术方案步骤如下：

步骤3：给出多标签特征选择算法J(x_k)—Maximum Conditional InteractionMinimum Information Interaction(MCIMII)；

在这里x_k表示候选特征，x_j表示已选特征，y_i表示标签，S是已选特征的集合，Y是标签的集合，J(x_k)表示候选特征在此算法下的得分，I(x_k；y_i|x_j)表示在给定x_j条件下，x_k和y_i的相关性，I(x_j；y_i|x_k)表示在给定x_k条件下，x_j和y_i的相关性，I(x_k；y_i；y_j)表示x_k、y_j和y_i的相关性。

步骤7：将构造好的特征子集输入到Multi-Label k-Nearest Neighbor(MLKNN)模型中，由特征子集训练得到MLKNN模型MLKNN_mm。

步骤2中，缺失值填充和特征离散化具体是：

所述缺失值填充是对每一列的缺失值，填充当列的众数。

所述特征离散化是将特征的取值范围等间隔分割，从最小值到最大值之间，均分N等份。

当存在某列缺失值过多，众数为nan的情况时，采取的策略是每列删除掉nan值后的众数。

步骤3中，给出多标签特征选择算法的步骤包括：

定义熵信息熵：

信息熵是表示集合中的混乱程度，其中log是对数函数，一般以2为底

条件熵：

条件熵表示已知集合y，求x的混乱程度，其中p(xi,yi)表示联合概率，p(xi|yi)表示条件概率。

互信息：I(x；y)＝H(x)-H(x|y)

互信息表示两个随机变量之间的相关程度。

条件互信息：I(x；y|z)＝H(x|z)+H(y|z)-H(x,y|z)

条件互信息表示在给定z条件下，随机变量x和y的相关性。

特征交互：I(x；y；z)＝I(x；z)-I(x；z|y)

特征交互表示三个随机变量之间的相关性。

给出多标签特征选择算法J(x_k)；

步骤7中，训练MLKNN分类器的步骤包括：

新产生的特征子集MM输入MLKNN模型中，此时MLKNN模型的参数k的个数为10，其他参数保持默认，最终的得到优化的MLKNN模型。

实施例：

首先观察数据集，Emotions数据集是一个比较典型的多标签数据集。其根据Tellegen-Watson-Clark的情绪模型，将音乐唤起的情绪进行分类：惊讶-惊奇、高兴-愉悦、放松-平静、安静-静止、悲伤-孤独和愤怒-怨恨。它由593首歌曲组成，共有6个等级。即Emotions数据集有593个实例，标签有6个。且Emotions数据集特征数目是72个。

根据图1发明整体流程图和图2MCIMII算法进行多标签特征选择过程图的步骤。可知此时输入的集合M为Emotions，输入的特征子集维度K为35。之后，通过MCIMII算法得到的特征集合为：{4,28,49,3,17,58,26,39,23,57,0,71,1,25,40,22,53,38,46,5,16,60,56,24,36,52,30,61,55,35,44,21,70,51}，然后根据已选特征集合创建特征子集mm，最后由特征子集mm来训练MLKNN分类器模型，得到模型MLKNN_mm。

使用Hamming Loss、Ranking Loss、Coverage Error和Average Precision等作为评判多标签分类模型的标准。接下来做对比实验，用训练集Train直接来训练MLKNN模型，不经过MCIMII特征选择，得到模型MKLNN_Train。代入测试集Test，得到MLKNN_Train模型的四个指标。将以上数据汇聚成表格如下：

表1特征子集mm与全部特征数据集Emotions四种指标对比

表1中Average Precision指标是越大越好，而Coverage Error、Hamming Loss和Ranking Loss这三者的指标是越小越好。实验结果表明MLKNN_mm分类器在多种指标上均比MLKNN_Train分类器要好。这表明了MCIMII多标签特征选择算法，可以有效地提高多标签分类模型的性能。

Claims

1.一种基于条件互信息和交互信息的多标签特征选择方法，其特征在于该方法包括以下步骤：

步骤1：给定多标签数据样本的集合M和指定特征子集维度K，其中集合M含有p个特征，q个标签；

步骤2：对所给的集合M进行预处理，包括缺失值填充和连续特征的离散化；然后按照训练集Train与测试集Test为3:1的比例，将集合M划分成两个部分；此时，已选特征集合S为空，候选特征集合J的元素为训练集Train中p个特征；

步骤3：给出多标签特征选择算法J(x_k)；

其中x_k表示候选特征，x_j表示已选特征，y_i表示标签，S是已选特征的集合，Y是标签的集合，J(x_k)表示候选特征在此算法下的得分，I(x_k；y_i|x_j)表示在给定x_j条件下，x_k和y_i的相关性，I(x_j；y_i|x_k)表示在给定x_k条件下，x_j和y_i的相关性，Ix_k；y_i；y_j)表示x_k、y_j和y_i的相关性；

步骤4：对候选特征集合J中所有的特征使用多标签特征选择算法进行评价；候选特征集合J中的每个候选特征都有属于自己的一个分数，选择得分最高的特征，将其索引加入到已选特征集合S中，同时在候选集合J中移除该特征，更新多标签特征选择算法；

步骤5：如果已选特征集合中元素个数等于最开始指定特征子集的维度K，则停止；否则不断重复步骤4；

步骤6：已选特征集合中的元素就是集合J中特征的索引，然后根据这些索引构建一个特征子集MM；

2.根据权利要求1所述的一种基于条件互信息和交互信息的多标签特征选择方法，其特征在于，步骤2中，缺失值填充和特征离散化具体是：

所述缺失值填充是对每一列的缺失值，填充当列的众数；

3.根据权利要求2所述的一种基于条件互信息和交互信息的多标签特征选择方法，其特征在于，当存在某列缺失值过多，众数为nan的情况时，采取的策略是每列删除掉nan值后的众数。

4.根据权利要求1所述的一种基于条件互信息和交互信息的多标签特征选择方法，其特征在于，步骤7中，训练MLKNN分类器的步骤包括：