CN112766383A

CN112766383A - 一种基于特征聚类和标签相似性的标签增强方法

Info

Publication number: CN112766383A
Application number: CN202110088305.2A
Authority: CN
Inventors: 蒋文田; 杨柏林; 马希骜
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-07
Anticipated expiration: 2041-01-22
Also published as: CN112766383B

Abstract

本发明提出了一种基于特征聚类和标签相似性的新型标签增强方法。本发明采用的方法如下：给定多标签样本的集合M，将集合M分成两部分，一部分是表示特征的集合F，另一部分表示标签的集合L；先对集合M进行预处理，主要包括数据缺失值处理、数据归一化；通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S；确定邻近样本集合S之后，通过标签权重的方法将样本a的标签从多标签数据状态，转化成标签分布的标签描述度；需要对所有的样本基于特征聚类和标签相似性的方法和标签权重的方法，得到标签分布的集合D。本发明简单高效，结合特征信息和标签信息，能有效地将多标签数据集转成标签分布数据集。

Description

一种基于特征聚类和标签相似性的标签增强方法

技术领域

本发明属于机器学习与模式识别领域，涉及多标签分类学习和标签分布学习，具体涉及一种基于特征聚类和标签相似性的标签增强方法。

背景技术

对比于单标签学习和多标签学习，标签分布学习则更加精确。单标签学习往往只有一个标签，只能将一个实例简单地映射到一个单一的逻辑标签，在实践中存在局限性。而多标签学习解决了这个问题，在多标签学习中，每个样本由一个标签向量描述，其中的元素为1或0，以证明该实例是否属于相应的标签。尽管多标签学习在许多地方上取得了成功，但是在一些复杂的场景中，例如面部表情识别和图片美学评估等，原始多标签学习的性能受到阻碍，因为模型精确地将实例映射到具有定量描述度的实值标签向量，即标签分布，在这些任务中是必需的。并且在多标签学习中标签对实例的描述具有不同的重要性，而且多标签学习中标签之间的重要性不完全相等。于是乎，标签分布学习就应运而生。标签分布学习是多标签学习的自然延伸。不同于传统的多标签学习来决定简单的0/1标签归属，标签分布学习输出一个软标签归属。此外，每个标签描述实例的程度由一个标签分布的相应值表示，称为描述度，且一个样本的所有描述度加起来的和等于1。

然而，标签分布数据集由于手工标注的原因，而极为稀少。于此相对的，多标签数据集较为丰富。因此我们考虑一种基于特征聚类和标签相似性的方法将多标签数据集转成标签分布数据集。

发明内容

本发明针对现有技术的不足，提出了一种基于特征聚类和标签相似性的新型标签增强方法。

本发明解决其技术问题所采用的技术方案具体步骤如下：

步骤1：给定多标签样本的集合M，将集合M分成两部分，一部分是表示特征的集合F，另一部分表示标签的集合L。

步骤2：对集合M进行预处理，主要包括数据缺失值处理、数据归一化。

步骤3：通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S。

步骤4：确定邻近样本集合S之后，通过标签权重的方法将样本a的标签从多标签数据状态，转化成标签分布的标签描述度。

步骤5：对所有的样本重复步骤3和4，得到标签分布的集合D。

本发明的有益效果：本发明简单高效，结合特征信息和标签信息，能有效地将多标签数据集转成标签分布数据集。

附图说明

图1为本发明方法流程图。

具体实施方式

以下结合附图1对本发明做一步说明。

如图1所示，本发明包括以下步骤：

步骤1：给定多标签样本的集合M，将集合M分成两个部分，一个是表示特征的集合F，另一个表示标签的集合L。对于每个实例来说有p个特征，q个标签。

步骤2：对集合M进行预处理操作，主要包括数据缺失值处理、数据归一化等。

步骤4：确定邻近样本集合S之后，通过名为标签权重(LabelWeight)的方法将样本a的标签从多标签数据状态，转化成标签分布的标签描述度。

步骤5：对所有的样本重复步骤3和4，得到标签分布的集合D，任务完成。

进一步的，步骤2中，数据缺失值处理和数据归一化的具体做法是：

所述缺失值填充是对每一列的缺失值，填充当列的众数。

所述数据归一化是将数据映射到指定的范围，如：把数据映射到[0-1]的范围之内处理。作用是把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。经过归一化后，将有量纲的数据，还可以达到简化计算的作用。这里的方法是：采用min-max标准化(Min-Max Normalization)对原始数据进行线性变换，使结果值映射到[0-1]之间。转换函数如下：

进一步的，步骤3中，所述基于特征聚类和标签相似性的方法找到样本a的邻近样本的具体做法是：

通过计算特征聚类得到集合S1，通过计算标签相似性得到集合S2；将在集合S1和集合S2都出现的样本添加到邻近样本集合S中。

所述的特征聚类是指计算样本a的特征与其它样本的特征之间的距离，如果某个样本b的特征与样本a的特征之间的距离小于阈值，将样本b的序号加入到集合S1中。

距离公式如下：

其中取k＝2，即欧式距离，a_i、b_i表示样本a、样本b的特征，p表示特征的个数。

所述的标签相似性是指样本a的标签与其它样本的标签之间的相似性，如果某个样本b的标签与样本a的标签之间的距离大于阈值，将样本b的序号加入到集合S2中。

这里样本标签之间的相似性采用杰卡德系数，其值越大相似性越高。其含义为：样本a的标签A和样板b的标签B交集元素的个数在标签A、B的并集中所占的比例，用符号J(A,B)表示。具体公式如下：

进一步的，步骤4中，标签权重(LabelWeight)方法具体做法是：

根据邻近样本集合S中所有样本的标签来构建矩阵；

统计矩阵中所有标签为1的个数，记为X；

统计矩阵每一列标签为1的个数，使用向量表示为：Y＝{y₁,y₂,…,y_q}；

则标签权重LW表示为：

对标签A进行权重化，得到Z：

采用以下方法对Z进行归一化：

其中，q表示标签的个数，得到的LD就是样本a的标签分布的标签描述度。

实施例：

步骤1：给定一个多标签数据集合R。

步骤2：集合R经过数据预处理后，有10个样本，10个特征和6个标签。具体如表1所示。

表1多标签数据集

步骤3：求样本1的邻近样本集合，设置特征聚类的阈值是1.6，标签相似度的阈值是0.3。

根据特征聚类之间的距离公式：

可以计算出与样本1特征距离小于1.6的样本集合S1＝{1,9,5,2,6,10,8}。

根据标签相似性公式：

可以计算出与样本1标签相似性大于0.3的样本集合S2＝{1,10,4,5,6}。

根据S1和S2，可以算出既在集合S1出现又在集合S2中出现的邻近样本的集合S＝{1,5,6,10}。

步骤4：根据邻近样本集合S的标签，可以构建一个相似标签矩阵如表2所示。

表2相似标签矩阵

	L1	L2	L3	L4	L5	L6
							1	0	1	1	0	1	1
5	0	0	1	1	1	1
							6	0	0	0	0	1	0
10	0	0	1	0	0	1

由此，可以计算出所有标签为1的个数X＝11，而Y＝{0,1,3,1,3,3}。由此可以计算出：

结合样本1的标签A＝{0,1,1,0,1,1}，最终可以计算得到样本1的标签分布的标签描述度LD＝{0,0.1,0.3,0,0.3,0.3}。

步骤5：重复步骤3和步骤4，直到遍历完所有的样本。表3就是得到的所有样本标签分布的标签描述度。

表3最终结果

	0	1	2	3	4	5
							1	0.000	0.100	0.300	0.000	0.300	0.300
2	0.267	0.200	0.200	0.200	0.000	0.133
							3	0.200	0.200	0.000	0.200	0.200	0.200
4	0.000	0.250	0.250	0.250	0.250	0.000
							5	0.000	0.000	0.300	0.100	0.300	0.300
6	0.000	0.000	0.000	0.000	1.000	0.000
							7	0.222	0.222	0.222	0.222	0.111	0.000
8	0.154	0.231	0.231	0.231	0.154	0.000
							9	0.400	0.000	0.000	0.000	0.000	0.600
10	0.000	0.000	0.429	0.000	0.000	0.571

Claims

1.一种基于特征聚类和标签相似性的标签增强方法，其特征在于该方法包括以下步骤：

步骤1：给定多标签样本的集合M，将集合M分成两部分，一部分是表示特征的集合F，另一部分表示标签的集合L；

步骤2：对集合M进行预处理，主要包括数据缺失值处理、数据归一化；

步骤3：通过一种基于特征聚类和标签相似性的方法找到样本a的邻近样本集合S；

步骤4：确定邻近样本集合S之后，通过标签权重的方法将样本a的标签从多标签数据状态，转化成标签分布的标签描述度；

步骤5：对所有的样本重复步骤3和4，得到标签分布的集合D。

2.根据权利要求1所述的一种基于特征聚类和标签相似性的标签增强方法，其特征在于：步骤2中，数据缺失值处理和数据归一化具体是：

所述数据缺失值处理采用缺失值填充，所述缺失值填充是对每一列的缺失值填充当列的众数；

所述数据归一化是将数据映射到指定的范围，具体是对原始数据线性变换，使结果值映射到[0-1]之间。

3.根据权利要求1所述的一种基于特征聚类和标签相似性的标签增强方法，其特征在于：步骤3中所述的基于特征聚类和标签相似性的方法具体是：

通过计算特征聚类得到集合S1，通过计算标签相似性得到集合S2；将在集合S1和集合S2都出现的样本添加到邻近样本集合S中；

所述的特征聚类是指计算样本a的特征与其它样本的特征之间的距离，如果某个样本b的特征与样本a的特征之间的距离小于阈值，将样本b的序号加入到集合S1中；

4.根据权利要求3所述的一种基于特征聚类和标签相似性的标签增强方法，其特征在于：所述距离采用以下公式计算：

其中k＝2，即欧式距离，a_i，b_i表示样本a，b的特征，p表示特征的个数。

5.根据权利要求3所述的一种基于特征聚类和标签相似性的标签增强方法，其特征在于：所述的标签相似性采用杰卡德系数，采用以下公式计算：

其中A表示样本a的标签，B表示样本b的标签。

6.根据权利要求1所述的一种基于特征聚类和标签相似性的标签增强方法，其特征在于：步骤4中标签权重的方法具体是：

根据邻近样本集合S中所有样本的标签来构建矩阵；

统计矩阵中所有标签为1的个数，记为X；

则标签权重LW表示为:

对标签A进行权重化，得到Z：

对Z进行归一化操作，得到LD作为样本a的标签分布的标签描述度，q表示标签的个数。