CN111144454A

CN111144454A - 一种基于图像标记特定特征的延迟多标记学习方法

Info

Publication number: CN111144454A
Application number: CN201911268772.2A
Authority: CN
Inventors: 许�鹏; 李永
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-05-12

Abstract

本发明公开了一种基于图像标记特定特征的延迟多标记学习方法，属于机器学习领域的多标记学习技术。步骤1：对原始数据集进行划分，将原始数据集分为训练数据集和测试数据集。步骤2：对训练数据集进行标记特征提取，构建标记特征空间。步骤3：训练模型；步骤4：采用算法对公开酵母数据集Yeast Dataset进行模型的训练预测，并与步骤3的结果对比。本方法以公开数据集相关数据为基础，相关模型建立均是基于数据分析比较进行的，最终得到的模型也是服务于数据的比对，整个技术方案是能够有效实施的，本方法能够大大提高标记预测能力，在预测效果和模型的稳定性方面比一般的多标记学习算法有优势。

Description

一种基于图像标记特定特征的延迟多标记学习方法

技术领域

本发明属于机器学习领域的多标记学习技术，涉及一种图像标记预测模型构建的方法，特别是关于一种基于图像标记特定特征的延迟多标记学习方法MLF-KNN(Multi-label-Featurek-NearestNeighbor)。

背景技术

传统监督学习框架认为某一实例只属于某一种类别，学习样本具有单一的语义标记，属于“一对一”的关系。然而现实世界中，学习样本往往是丰富多彩的，一个实例往往具有多个语义信息，属于“一对多”的关系。例如在文本分类领域，一篇新闻报道可能会同时涉及政治和改革两个主题。在图像标注领域，一张风景图片中可能会同时包含蓝天，白云和草原三种标记。在多标记学习框架下，单个样本是由一个实例和多个标记构成的，相比传统机器学习，多标记学习可以更好的反应真实世界所包含的语义信息。多标记学习是一个充满挑战性和前景的课题，最初起源于文本分类，如今已经在图像标注、基因检测、多媒体信息处理、个性化推荐等领域得到广泛应用。但是目前针对多标记学习算法的研究只是对标记之间的相关性进行了考虑，并未从考虑标记特征这一角度出发。因此，在考虑标记之间相关性的基础上，对标记特征信息加以利用改进算法，对于提高多标记算法的标记预测性能和促进多标记学习的发展具有一定的意义。

通常在多标记学习中，定义X∈R^d代表d维实例空间，Y＝ {y₁，y₂，y₃，…，y_q}代表q维标记空间，多标记学习的任务就是从数据集D 中学习得到一个多标记分类方法h:X→2^Y,h(·)也被叫做多标记分类器,其中数据集D＝{(x_i，Y_i)|1≤i≤m}，每个实例样本为(x_i，Y_i)，其中x_i代表一个d维实例向量(x_i1，x_i2，…，x_id)^T，其中x_i∈X。Y_i∈Y是x_i对应的标记集合。多标记分类器h(·)能够对没有出现过的实例x预测其所属标记分类h(x)，其中

通常分类器h(·)返回值为一个实数。

目前对多标记算法的研究，大都集中在对标记空间中标记之间相关性的利用上，根据对标记相关性利用程度的不同，可以将多标记学习算法分为一阶算法、二阶算法和高阶算法。[1]一阶算法是将多标记学习转换为传统的二分类学习，并未考虑标记之间的相关性，算法相对简单但学习结果可能并不是最优的。二阶算法考虑标记空间中标记的两两相关性，考虑到标记之间的相关性，该类算法具有很好的泛化性，然而在实际应用中，标记之间的相关性可能已经超过了二阶假设。高阶算法考虑到每个标记与其他所有标记之间的相关性，相比一阶和二阶算法，具有更好的建模能力，但同时对计算要求更高，可伸缩性较差。上述三类算法均假设标记空间中的标记信息具有同等重要性，所有样本共享同一标记特征空间。然而这种算法改进思路可能并不是最优的，因为它忽略了标记特征这一重要信息。例如在识别天空和草原的场景中，颜色特征相比其他标记特征而言应该是相对重要的。在目前多标记学习算法中，大都是直接在原始数据集中训练模型，并未针对每种类别标记对其标记特征进行分析。

近年来，随着多标记学习的不断发展，出现了不少经典有效的算法。其中，ML-KNN算法[2]作为一种简单有效的多标记学习方法，在图像分类场景中得到了广泛应用。本发明从利用标记特征这一信息的角度出发，选取ML-KNN算法作为基础算法模型，在模型训练过程中考虑标记特定特征信息对这一算法进行改进,提出MLF-KNN算法，使其能够更全面的预测未知图像标记，到达更为精准的图像分类效果。

综上所述，通过对多标记学习算法ML-KNN进行改进，在算法训练过程中加入标记特定特征信息，能够进一步提升在图像分类场景中模型对未知图像的分类效果。

发明内容

针对目前在图像分类场景中，多标记学习算法忽略标记特定特征信息的问题，本发明的目的是提供一种简单易用，考虑标记特征信息的多标记学习算法MLF-KNN，并将其应用在图像分类场景，提高图像分类的精准度。

为实现上述目的，本发明采取以下技术方案：一种基于图像标记特定特征的延迟多标记学习方法，，针对数据集中图像的每种类别标记构建其对应的标记特征空间进行模型的训练，该方法的实施步骤如下：

步骤1：对原始数据集进行划分，将原始数据集分为训练数据集和测试数据集。数据集来源可以从多标记学习领域中公开的数据集直接获取，在图像分类领域中，常用的公开数据集有MNIST、Yeast Dataset、CIFAR-10、CIFAR-100等类型。也可以通过人工对图像文件进行标注的方式手动构建数据集。划分后的训练数据集用于模型训练，测试数据集用于模型训练性能的检测。

步骤2：对训练数据集进行标记特征提取，构建标记特征空间。针对训练数据集中每种图像标记类别，分别使用支持向量机(SVM) [3]对其进行聚类分析，构建与当前标记相关的图像样本实例空间和不相关的实例空间。通过对标记特征进行提取，可以挖掘出与该类别标记最为相关的实例样本以及实例中的相关属性。

步骤3：训练模型，在标记特征空间中，分别对每种图像类别标记采用MLF-KNN算法进行训练，训练结果为包含q个分类器的分类器簇。当有新的图像需要进行分类时，针对该图像包含的每一个标记 MLF-KNN方法会选择其对应的分类器进行标记预测以及分类。

步骤4：采用ML-KNN、BoosTexter[4]、BR[5]、RANK-SVM[6] 等算法对公开酵母数据集YeastDataset进行模型的训练预测，并与步骤3的结果对比。

作为优选，步骤1具体包括对原始数据集进行划分。针对手工构建的图像数据集，可以使用“留出法”(holdout)直接将原始数据集分为两个互斥的集合。即D＝S∪T，S∩T＝φ,其中S代表训练数据集， T代表测试数据集，φ代表空集。如果采用公开数据集，公开数据集Yeast Dataset已经对训练数据集和测试数据集进行了划分，无须使用“留出法”，直接进行使用即可。

步骤2：确定训练数据集中的标记信息，对每一种标记信息进行聚类分析，得出从属于该标记的样本空间集合和不属于该标记的样本空间集合。这里采用支持向量机进行聚类分析。然后通过对每一种聚簇结果进行查询，从而针对每一种标记信息构建标记特征空间。

步骤3：训练算法，构建多标记学习算法模型。为了保持对标记相关性的利用，本发明使用ML-KNN在步骤2中生成的标记特征空间进行训练，而不是原始数据集，同时ML-KNN算法中用到的最大后验概率估计原理对标记特征空间具有良好的适配性。针对每一种类别标记，算法训练的结果会得到对应每一种类别标记的分类器。当对新的图像文件进行分类时，对所有分类器进行遍历迭代预测新图像文件所包含的标记信息，最后将每次预测的标记信息通过矩阵的形式进行组合最为图像类别标记输出。在模型训练过程中考虑标记特征信息，使本发明提出的算法能够达到更好的预测效果。

步骤4：实验结果对比：同时采用了ML-KNN、BoosTexter、BR、 RANK-SVM等算法对Yeast Dataset数据集进行了预测，通过实验的对比，发现无论是在训练集上还是测试集上本发明所提出的算法都取得了较好的预测效果，同时也验证了本发明的所取得的图像分类效果。

附图说明

图1本发明提出的整体的技术路线图

图2本发明提出的数据集处理方法图。

图3本发明提出的标记特征构建方法图。

图4本发明的MLF-KNN方法图。

图5本发明预测结果对比图。

图6为各个算法标记的表现对比参考图。

具体实施方式

如图1所示，这是本发明的整体框架，包括从处理数据集，对标记特征空间进行构建再到多标记学习模型建立的整个过程。首先使用公开数据集Yeast Dataset作为多标记学习数据集。数据集Yeast Dataset 是机器学习领域分类技术中经常用到的酵母数据集，在多标记学习方面数据集Yeast Dataset具有一定的代表性。对该数据集中测试标记集 Y＝{y₁，y₂，y₃，…，y_q}进行分析，分别对每一种标记类别 y_i(1≤i≤q)进行聚类分析操作，采用支持向量机对数据集中的样本进行分类操作。针对每个标记信息y_i，支持向量机的聚簇结果会将原始样本空间分为与该标记相关的集合Ρ_i和不相关的集合N_i。对Ρ_i和N_i构建矩阵作为标记特征空间。然后提出针对所构建的标记特征空间进行学习，会输出q个分类器，最后将q个分类器分别对测试数据集进行标记预测，将q个分类器的预测结果还原为预测标记矩阵。

如图1所示，一种基于标记特定特征的延迟多标记学习方法，具体包括以下步骤：

步骤1：如图2，为了保证训练样本空间和测试样本空间具有代表性，如果为手工构建的数据集，则需要将数据集采用“留出法”进行划分，分别划分为训练实例集合、训练标记集合、测试实例集合和测试标记集合。通常为75％的训练数据集和25％的测试数据集。数据集 YeastDataset已经进行了划分，直接使用即可。定义数据集D＝ {(x_i，Y_i)|1≤i≤m}，其中m代表样本个数，x_i＝(x_i1,x_i2,...,x_id)代表d维图像实例向量，其中x_ij是第i个实例在第j个属性上的取值， Y_i＝(y₁,y₂,...,y_q)代表第i个实例所对应的q个类别标记信息，y_i通常取值为+1或者-1，分别代表当前图像中包含该标记信息和不包含该标记信息。

步骤2:如图3，构建标记特征空间，对图像测试标记集Y中的每个标记进行聚类操作。对于图像训练样本(x,Y)(x∈X,Y∈Y),如果标记l_k∈Y,则分类器f_k会将实例x判定为正相关样本,即x∈P_k，否则判定为负相关样本，即x∈N_k。此处采用二分类算法，本方法采用支持向量机进行分类操作。假设标记向量Y＝(y₁，y₂，…，y_q)，经过支持向量机分类操作后，会生成q个二分类器Φ:X→Z_k，Z_k代表第k个标记所对应的标记特征。根据与每个标记的相关性，生成对应的数量为2q个正负相关样本集。最后对这2q个样本集构建矩阵，作为标记特征空间。

步骤3：如图4所示，标记预测模型的构建：本次模型训练采用的是基于ML-KNN作为训练的基本算法改进模型MLF-KNN。 MLF-KNN算法借鉴了传统KNN算法的思想，寻找k个近邻样本，并应用贝叶斯计算所属标记概率，非常适合处理多标记问题，而且也比对了其他的一些机器学习方法，发现ML-KNN算法是在标记空间上最为简单易用的算法模型。针对ML-KNN算法对k值较为敏感的情况，经过多次实验，发现在采用k＝10的情况下，算法取得较好的分类结果。当遇到一个新的实例x时，会在标记特征空间中寻找k个近邻样本，按照投票最高样本所属标记以判断x所属类别。

步骤4：实验结果比较：如图5，本发明同时采用了目前多标记学习方面常用的机器学习算法ML-KNN、BoosTexter、BR、 RANK-SVM等对Yeast Dataset数据集进行了预测，通过实验结果的对比以及模型的评估标准，发现无论是在训练集上还是验证集上本发明都取得了较好的效果。如图6，在多标记学习评价指标中，在Haming Loss、Coverage和AveragePrecision三个指标上相比于其他多标记算法表现优异，尤其是相比于改进前的ML-KNN算法，除了One-error 外其余各指标得到了一定的提升。

需要特别说明的是，本方法以公开数据集相关数据为基础，相关模型建立均是基于数据分析比较进行的，最终得到的模型也是服务于数据的比对，整个技术方案是能够有效实施的，本方法能够大大提高标记预测能力。

综上所述，本发明提出的算法对未知实例进行了比较好的预测，通过对其他多标记学习算法模型预测结果的对比突出了该算法的优势，在预测效果和模型的稳定性方面比一般的多标记学习算法有优势。

参考文献：

[1]Zhang M L,Zhou Z H.A review on multi-label learning algorithms[J].IEEE transactions on knowledge and dataengineering,2013,26(8):1819-1837.

[2]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(01):2-10.

[3]Zhang M L,Zhou Z H.ML-KNN:A lazy learning approach to multi-labellearning[J].Pattern recognition,2007,40(7):2038-2048.

[4]Schapire R E,Singer Y.BoosTexter:A boosting-based system for textcategorization[J].Machine learning,2000,39(2-3):135-168.

[5]Luaces O,Díez J,Barranquero J,et al.Binary relevance efficacy formultilabel classification[J]. Progress in Artificial Intelligence,2012,1(4):303-313.

[6]Briggs F,Fern X Z,Raich R.Rank-loss support instance machines forMIML instance annotation[C]//Proceedings of the 18th ACM SIGKDD internationalconference on Knowledge discovery and data mining.ACM,2012:534-542。

Claims

1.一种基于图像标记特定特征的延迟多标记学习方法，其特征在于：针对数据集中图像的每种类别标记构建其对应的标记特征空间进行模型的训练，该方法的实施步骤如下：

步骤1：对原始数据集进行划分，将原始数据集分为训练数据集和测试数据集；划分后的训练数据集用于模型训练，测试数据集用于模型训练性能的检测；

步骤2：对训练数据集进行标记特征提取，构建标记特征空间；针对训练数据集中每种图像标记类别，分别使用支持向量机SVM对其进行聚类分析，构建与当前标记相关的图像样本实例空间和不相关的实例空间；通过对标记特征进行提取，挖掘出与该类别标记最为相关的实例样本以及实例中的相关属性；

步骤3：训练模型，在标记特征空间中，分别对每种图像类别标记采用MLF-KNN算法进行训练，训练结果为包含q个分类器的分类器簇；当有新的图像需要进行分类时，针对该图像包含的每一个标记MLF-KNN方法会选择其对应的分类器进行标记预测以及分类；

步骤4：采用ML-KNN、BoosTexter、BR、RANK-SVM算法对公开酵母数据集Yeast Dataset进行模型的训练预测，并与步骤3的结果对比。

2.根据权利要求1所述的一种基于图像标记特定特征的延迟多标记学习方法，其特征在于：步骤1具体包括对原始数据集进行划分；针对手工构建的图像数据集，使用“留出法”(hold out)直接将原始数据集分为两个互斥的集合；即D＝S∪T，S∩T＝φ,其中S代表训练数据集，T代表测试数据集，φ代表空集；如果采用公开数据集，公开数据集Yeast Dataset已经对训练数据集和测试数据集进行了划分，无须使用“留出法”，直接进行使用即可。

3.根据权利要求1所述的一种基于图像标记特定特征的延迟多标记学习方法，其特征在于：步骤2：确定训练数据集中的标记信息，对每一种标记信息进行聚类分析，得出从属于该标记的样本空间集合和不属于该标记的样本空间集合；这里采用支持向量机进行聚类分析；然后通过对每一种聚簇结果进行查询，从而针对每一种标记信息构建标记特征空间。

4.根据权利要求1所述的一种基于图像标记特定特征的延迟多标记学习方法，其特征在于：步骤3：训练算法，构建多标记学习算法模型；为保持对标记相关性的利用，使用ML-KNN在步骤2中生成的标记特征空间进行训练，而不是原始数据集，同时ML-KNN算法中用到的最大后验概率估计原理对标记特征空间具有良好的适配性；针对每一种类别标记，算法训练的结果会得到对应每一种类别标记的分类器；当对新的图像文件进行分类时，对所有分类器进行遍历迭代预测新图像文件所包含的标记信息，最后将每次预测的标记信息通过矩阵的形式进行组合最为图像类别标记输出；在模型训练过程中考虑标记特征信息，使提出的算法能够达到更好的预测效果。

5.根据权利要求1所述的一种基于图像标记特定特征的延迟多标记学习方法，其特征在于：步骤4：实验结果对比：同时采用ML-KNN、BoosTexter、BR、RANK-SVM算法对YeastDataset数据集进行了预测。

6.根据权利要求1所述的一种基于图像标记特定特征的延迟多标记学习方法，其特征在于：数据集来源从多标记学习领域中公开的数据集直接获取，公开数据集有MNIST、YeastDataset、CIFAR-10、CIFAR-100类型，或者通过人工对图像文件进行标注的方式手动构建数据集。