CN110647907A

CN110647907A - 利用多层分类和字典学习的多标签图像分类算法

Info

Publication number: CN110647907A
Application number: CN201910718140.5A
Authority: CN
Inventors: 罗志锋; 徐维超
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2020-01-03
Anticipated expiration: 2039-08-05
Also published as: CN110647907B

Abstract

本发明公开了一种利用多层分类和字典学习的多标签图像分类算法，首先确定了多标签分类的图像数据集，经过数据预处理后利用待学习字典对多标签训练数据进行训练学习，并且借助通用嵌入学习，引导低秩编码的字典学习，由此得到目标优化问题，确定最优解得到分类器；建立树形结构，将分类器嵌入到树形结构的节点中，形成多层分类器结构对图像数据集中的数据进行分类，提高多标签分类效果。相比现有技术，本方法很好的解决了标签矩阵稀疏是的多标签分类的挑战，有助于低秩编码字典学习的同时，更是提升了分类器的分辨度和数据场景适用性，即对稀疏编码进行投影得到相应的分析字典，类似决策树的多层分类器嵌入的思想，进一步提升多标签分类的精度。

Description

利用多层分类和字典学习的多标签图像分类算法

技术领域

本发明涉及机器学习、图像处理技术领域，具体涉及一种利用多层分类和字典学习的多标签图像分类算法。

背景技术

随着图像，视频，网页等在线内容的快速增长，设计可扩展且有效的分类系统以自动组织，存储和搜索内容至关重要。在传统分类中，假设每个实例属于有限数量的候选类中的恰好一个类。但是，在现代应用程序中，实例可以有多个标签。例如，图像可以通过多个概念标签的语义分类来进行注释。多标签数据在许多应用领域中无处不在：多媒体信息检索，标签推荐，查询分类，基因功能预测，医学诊断等领域。

在生活中，我们总是面临很多数据是存在已标记实例和未标记混杂的样本。因此，研究出半监督的多标签学习方法是非常重要的，该方法可以同时使用多标记数据和未标记数据来很好地处理多标签问题。

在过去几年中，已经开展了大量的研究工作来解决。一般来说，在不同领域的多标签学习任务的工作主要集中在寻找视觉图像和标签之间的相关性，标签之间的相关性和实例之间的相关性。目前，多标签分类可以归纳为三种方式：

一、基于算法适应的方法(Algorithm Adaptation)

自适应算法类则是通过改编算法让其能用在多标签数据，能直接执行多标签分类任务，相比于传统的分类问题，多标签分类问题的输出空间呈现指数级增长，分类效果和分类效率也有待提升。

二、基于问题转化的方法(Problem Transformation)

通过对多标签训练样本进行处理转为单标签分类，将多标记学习问题转换为其它已知的学习问题进行求解，其对问题数据的处理，使得数据集能满足现有的分类算法。然而，当标签规模趋于庞大时，它们的性能会受到限制。

三，标签嵌入法(Label Embedding)

这种方法将标签特征转换为新空间，以此捕获标签潜在相关性信息。通过投射到新的标签空间，我们能够以更低的计算成本进行多标签预测。尤其在图像方面，采用低秩嵌入将视觉特征投射到潜在标签空间中，能增强模型在标签不完备情况下的恢复和预测的能力。

发明内容

为了应对存在缺失部分标签的多标签分类问题，本发明提出了一种利用多层分类和字典学习的多标签图像分类算法，解决标签不完备时的分类困难的挑战，实现对多标签任务的标签修复和多标签分类预测。

为了实现上述任务，本发明采用以下技术方案：

一种利用多层分类和字典学习的多标签图像分类算法，包括以下步骤：

建立图像数据集并进行预处理；所述的图像数据集中包括多个图像以及对应每个图像的标签集合；

利用待学习字典对图像数据集中的数据进行学习，得到对应每个标签的目标字典与每个标签的图像集合的稀疏编码；对所述稀疏编码进行投影，得到低秩编码的通用嵌入语义字典；利通用嵌入语义字典的学习，得到目标优化问题；求解目标优化问题，得到图像分类器；

建立树形结构，树形结构的每一个节点中设置一个分类器；将预处理后的图像数据集聚类分为两部分数据，将两部分数据分别放入树形结构的第一层的两个节点中，按照由上至下的顺序利用分类器进行分类。

进一步地，所述的利用分类器进行分类，包括：

对于树形结构中的每个节点，使用分类器执行多标签分类，对于汉明损失小于设定损失阈值的图像，送入下一层节点，在下一层节点中分为两部分，然后继续利用分类器分类；递归地重复该过程，直至树形结构的节点内的图像小于设定的数量或树形结构的层数超过给定的层数阈值。

进一步地，所述的预处理包括：

将图像数据集中的图像进行行灰度化，然后经过直方图均衡化处理以增强灰度化图像的全局对比度，使得图像像素强度能分配更为平均。

进一步地，所述的目标优化问题表示为：

其中，

表示L2范数，||·||_*表示核范数，α,λ是平衡参数，β是惩罚参数，L为半监督方式的拉普拉斯图，X表示图像集合，包含已有标签的图像X_l和没有标签的图像X_u；Y是图像集合对应的标签的集合，Y＝[Y_l+Y_u]，Y_l表示已有标签的图像X_l对应的标签矩阵，Y_u表示没有标签的图像对应的标签矩阵；Z表示修复后的新标签的集合，Z＝[Z_l+Z_u]，Z_l表示有标签的图像修复后的新标签矩阵，Z_u表示没有标签的图像修复后的新标签矩阵。

本发明具有以下技术特点：

1.本发明为了实现多分类任务数据的分类精度和分类速度，采用标签嵌入法，在将标签特征转换为新空间，以此捕获标签潜在相关性信息的基础上，结合字典学习，和类四决策树的分成嵌入分类器的模型，是一个通用嵌入式字典学习框架和决策树分层分类器的多标签模型；

在标签修复上：利用字典学习和低秩编码，这种通用嵌入式字典(GED)学习框架充分考虑labeled data和unlabeled data之间的内在关系(利用低秩嵌入和图形正则化来修复标签的缺点)，利用通用嵌入和语义字典来处理弱标签数据的多标签学习。使用秩约束来修复缺失标签，得到通用性嵌入机制，探索了判别信息和数据的内在结构，以半监督的方式指导通用嵌入学习，得到良好的修复效果和分类效果。

在多标签分类上：采用类似决策树结构的思路，使用分层嵌入方法，对数据集聚类处理，在每层树节点嵌入一个多标签分类器，逐层进行多标签数据分类，有助于进一步提升多标签分类的精度。

2.本发明提出通用型的标签嵌入和字典学习来处理多标签数据，尤其是在数据集部分标签缺失的应用场景；寻找更好的通用型嵌入方法，通过低秩约束来修复缺失的数据标签，解决标签不完备时的分类困难的挑战，实现对多标签任务的标签修复和多标签分类预测。

附图说明

图1为树形结构的多层分类器示意图；

图2的(a)和(b)为试验部分中对于两个图像样本的分类结果。

具体实施方式

多标签问题应用在许多领域，包括图像、文本等多媒体数据分类，并引起了对计算机视觉和机器学习研究者的极大兴趣。然而，现有方法不能很好的解决两个关键挑战：利用标签之间的相关性并弥补标签数据的缺乏甚至缺少标签。常规的方案只是建立数据和标签之间的映射关系来达到分类目的，我的研究方案是把数据和标签间的关系投射到高维特征空间和低维属性空间，捕获数据之间的内在结构，使用秩约束来修复缺失标签，得到通用性嵌入机制，探索了判别信息和数据的内在结构，以半监督的方式指导通用嵌入学习，得到良好的修复效果和分类效果。在类似决策树的结构上，逐层进行多标签数据分类，有助于进一步提升多标签分类的精度。

本发明提供的一种利用多层分类和字典学习的多标签图像分类算法，步骤如下：

步骤1，图像数据集的建立

建立图像数据集；图像数据集中包括多个图像和对应每个图像的标签集合。

图像数据集表示为{(X₁,Y₁),(X₂,Y₂),......(X_N,Y_N)}，其中，X_i是第i个图像，X_i∈X，X代表图像集合；Y_i是第i个图像所对应的标签集合(原始标签)，其中包含多个标签；Y_i∈Y，Y是图像集合对应的标签的集合。

例如图2的(a)给出的示例中，该图像样本的原始标签集合Y_i为建筑、天空，利用本算法对该图像进行分类预测的结果是建筑、天空、草。对于训练样本集合，一些样本的真实标签(即原始标签)可能存在缺失，因此需要对其进行修复，修复后的标签即为所述的“新的标签”，修复后的标签构成所述新标签集合。

步骤2，图像数据的预处理

对图像数据集中的图像进行数据预处理，具体方法为：

图像数据集中的图像均为RGB三通道的彩色图片，如果直接将RGB三通道彩色样本图片输入模型，其数据量将是灰度单通道样本图像的3倍。为了尽可能减少不必要的数量处理量，将图像进行灰度化，然后经过直方图均衡化处理以增强灰度化图像的全局对比度，使得图像像素强度能分配更为平均，均衡化后的像素分布更为平均。

步骤3，利用待学习字典对图像数据集中的数据进行学习，得到对应每个标签的目标字典与每个标签的图像集合的稀疏编码；

对所述稀疏编码进行投影，得到低秩编码的通用嵌入语义字典；

利通用嵌入语义字典的学习，得到目标优化问题。具体地：

在本方案中，预先设定一个字典初始值，也就是待学习字典，例如D＝[d₁,d₂,......d_K]是待学习字典，经过学习后可以得到每个标签的目标字典D_l，代表了第l个标签所对应的字典，和每个标签的图像集合的稀疏编码；表示拥有第l个标签的图像集合的稀疏编码。

对上述稀疏编码S_l进行再一次的字典学习，即对稀疏编码进行投影，得到通用嵌入语义字典A。

利用上述通用嵌入语义字典的学习，得到目标优化问题，表示为：

上式中，

表示L2范数，α,λ是平衡参数，用来控制约束项的权重程度；L为半监督方式的X拉普拉斯图，在X上构建了一个带有标记X_l和未标记X_u的图G，通过探索X中每个图像的K近邻方法来构建图，通过这种方式，可以保留更多的样本关联来帮助缺失标签的恢复工作。

W为通用型嵌入函数，其满足W^TW＝I，I表示单位矩阵；借助通用嵌入学习，引导低秩编码的通用嵌入语义字典A的学习能很好地使得模型效果迁移到新的测试数据里，提高了模型的多标签的可辨性和普遍性，此外还能克服每个X_i和其重建特征AZ_i耦合在原始空间而造成的维度爆炸的困难。此外，借助通用型嵌入函数W函数和语义字典A的结合，能对给定的新的图像数据X′_i进行准确地预测出其多重标签y′_i。

||·||_*表示核范数，采用其来解决优化过程的最小化的问题；β是惩罚参数，起到约束作用。tr(Y^TZ)：通过最大化tr(Y^TZ)来满足原始低秩约束

X表示图像集合，包含已有标签的图像X_l和没有标签的图像X_u。

Z表示修复后的新标签的集合，Y是图像集合对应的标签的集合，即原始标签集合；Z即为在学习过程中修复过后的标签构成的集合，即对Y进行修复完善后的集合；所述的学习过程，即语义字典A的更新过程，而标签修复，即Z的更新过程，这是本算法的优点之一。其中Y＝[Y_l+Y_u]，Y_l表示已有标签的图像X_l对应的标签矩阵，Y_u表示没有标签的图像对应的标签矩阵，因此可能在标签矩阵Y_u中缺少值。学习过程中，对部分甚至全部缺失的Y进行修复，最终得到修复后的新标签的集合。Z＝[Z_l+Z_u]，Z_l表示有标签的图像修复后的新标签矩阵，Z_u表示没有标签的图像修复后的新标签矩阵。

结合上面的通用嵌入函数W，本算法实现了多标签问题中的修复和分类的问题。

步骤4，求解所述目标优化问题，得到图像分类器

根据所述的目标优化问题，确定通用嵌入型函数W、通用嵌入语义字典A、以及修复后的新标签的集合Z的最优解，对W、A、Z进行优化，得到图像分类器；具体步骤为：

步骤4.1，固定W和Z，更新A；即用自定义常量作为W、Z，代入到上述的目标优化问题中，得到A的最优解：

步骤4.2，固定W和A，更新Z；即用自定义常量作为W、A，代入到上述的目标优化问题中，得到Z的最优解：

上式中，μ表示正的惩罚分，J为松弛变量，把约束条件由不等式变为等式；Q为拉格朗日乘数。

步骤4.3，固定Z和A，更新W；即用自定义常量作为Z、A，代入到上述的目标优化问题中，得到W的最优解：

将优化后得到的W、A、Z代入到上述的目标优化问题中，得到了最终的目标方程，该目标方程即为对图像进行预测分类的分类器(即步骤3所述的树的节点中的分类器)；将该分类器送入树的节点中。

步骤5，将把图像数据集用K-means聚类方法分为两部分数据，建立树形结构，树形结构的每一个节点中设置一个步骤4建立的分类器，并将所述的两部分数据分别放入树形结构第一层(根节点的下一层为第一层)的两个节点中，按照由上至下的顺序利用所述的分类器进行分类，具体过程为：

对于树形结构中的每个节点，使用分类器执行多标签分类，对于汉明损失小于设定损失阈值的图像，送入下一层节点，在下层用K-means聚类方法聚为两部分，然后继续利用分类器进行分类；递归地重复该过程，直至树节点内的图像小于设定的数量或树形结构的层数超过给定的层数阈值；相关的程序伪代码如下：

对于每个树的节点，执行以下流程：

解释：判断汉明损失是否大于给定分类精度阈值T，将被分类为可接受精度的训练样本分配给当前嵌入，并将分类精度不达标的数据分离出来以便送到下一层的树节点处理。在两个聚类各自的样本数据中，把分类的汉明损失大于设定的分类精度阈值T的样本放入下一层。操作是：把未达到分类要求的样本再次进行聚类，聚成两类送入下一层的两个子节点。在节点的样本数很小或者树的节点层数超过层数阈值h，分层分类的结构树不再生长，即不再往下分子节点。

在某种意义上，本算法分层选择具有不同适合度的训练集用于多标签分类。层次结构的深度决定了更精细的分类水平。

本方案将分类器嵌入树的每一个节点中，形成多层分类器结构，一开始把数据用k-means分成两部分，在第一层的两个节点进行训练和分类，然后计算这一层各自的汉明损失(真实标签和预测标签的误差)，把预测误差严重的数据，即计算的汉明损失值大于设定阈值T的数据放到第二层来进一步训练和预测(第二层由此产生)，第二层各个节点也是如上述操作，把第二层预测误差大的数据放到第三层来预测，以此类推。

本发明公开了一种利用多层分类和字典学习的多标签图像分类算法，首先确定了多标签分类的图像数据集，经过数据预处理后利用待学习字典对多标签训练数据进行训练学习，并且借助通用嵌入学习，引导低秩编码的字典学习，由此得到目标优化问题，确定最优解得到分类器；建立树形结构，将分类器嵌入到树形结构的节点中，形成多层分类器结构对图像数据集中的数据进行分类，提高多标签分类效果。相比现有技术，本方法很好的解决了标签矩阵稀疏是的多标签分类的挑战，摒弃传统的解决思路--值研究高维特征空间与低维属性空间的关系，本方法研究每个属性标签对应的元素。本方案中，在进行语义字典学习的基础上，加入通用嵌入学习，有助于低秩编码字典学习的同时，更是提升了分类器的分辨度和数据场景适用性，即对稀疏编码进行投影得到相应的分析字典，类似决策树的多层分类器嵌入的思想，进一步提升多标签分类的精度。

实验部分：

1.实验数据集

实验数据集介绍：

MSRC：包括来自23个不同对象类别的591张图像。采用GIST特征向量，每个图像有960个维度。

Corel5K：多标签图像数据集，其中包含来自50个Corel Stock Photo CD的近5,000张图像。

MirFlickr：大规模的图像基准数据集，在这个实验中随机选择了38个类别的5,000个图像样本。

MediaMill：大规模的多媒体基准测试数据，有42,023个样本，每个实例都有120维度特征。

2.实验对比算法

将以下七种多标签学习算法与本算法的模型进行比较：

BR：用于训练多个SVM分类器，每个分类符用于每个标签。

MLR-GL：使用group lasso来处理不完整的多标签场景。

FastTag：寻求标签特征的潜在信息，以通过边缘化去噪策略恢复缺失的标签。

LERM：通过最小化经验风险来处理缺失的标签问题。

SMLIL：在标签矩阵上结合了秩最小化，以在流形约束模型中恢复缺失的模型。

SLRM：利用秩约束来有效地探索标签和标签之间的相关性。

SSC：使用结构化语义相关来恢复缺失的标签。

3.实验结果

标准偏差的VERAGE M ICRO-F1分数。每个数据集最好的结果如下：

BR

MLR-GL

FastTag

LERM

SMLIL

SLRM

SSC

本算法

Corel5K

0.169±0.008

0.217±0.002

0.208±0.001

0.189±0.003

0.262±0.008

0.255±0.005

0.271±0.003

0.294±0.001

MediaMill

0.413±0.014

0.456±0.011

0.525±0.011

0.566±0.002

0.515±0.003

0.530±0.001

0.522±0.008

0.604±0.009

MSRC

0.433士0.001

0.472±0.012

0.485±0.010

0.398士0.010

0.571±0.016

0.556±0.012

0.586±0.015

0.615±0.012

MirFlicker

0.281±0.005

0.376±0.011

0.344±0.009

0.318±0.001

0.431±0.005

0.418±0.008

0.424±0.010

0.463±0.011

标准偏差的VERAGE M ACRO-F1分数。每个数据集最好的结果如下：

BR

MLR-GL

FastTag

LERM

SMLIL

SLRM

SSC

本算法

Corel5K

0.109±0.001

0.158±0.007

0.178±0.003

0.139±0.004

0.180±0.005

0.189±0.002

0.189±0.005

0.215±0.003

MediaMill

0.211±0.002

0.259±0.009

0.203±0.008

0.223±0.002

0.249±0.003

0.252±0.005

0.268±0.002

0.288±0.007

MSRC

0.341±0.002

0.421±0.011

0.387±0.011

0.331±0.009

0.439±0.015

0.422±0.019

0.459±0.011

0.489±0.016

MirFlicker

0.161±0.002

0.231±0.002

0.169±0.004

0.151±0.002

0.240±0.004

0.256±0.001

0.259±0.003

0.279±0.002

从结果可以看出，本发明方法在几个数据集中的表现都比其他方法要好。

在标签预测的效果上，实验结果如下2的(a)和(b)所示。可以看到预测标签应该与图像的原始标签高度相关。

Claims

1.一种利用多层分类和字典学习的多标签图像分类算法，其特征在于，包括以下步骤：

2.如权利要求1所述的利用多层分类和字典学习的多标签图像分类算法，其特征在于，所述的利用分类器进行分类，包括：

3.如权利要求1所述的利用多层分类和字典学习的多标签图像分类算法，其特征在于，所述的预处理包括：

4.如权利要求1所述的利用多层分类和字典学习的多标签图像分类算法，其特征在于，所述的目标优化问题表示为：

其中，