CN109376796A

CN109376796A - 基于主动半监督学习的图像分类方法

Info

Publication number: CN109376796A
Application number: CN201811379861.XA
Authority: CN
Inventors: 杨猛; 钟琴
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-02-22

Abstract

本发明涉及图像处理技术领域，提出一种基于主动半监督学习的图像分类方法，包括以下步骤：随机选择部分标记样本和所有未标记样本，用于训练模型中的半监督字典学习组件；基于预估计类概率的准则从未标记的数据集中迭代地选择含有信息量最大的未标记样本，即最翔实样本；引入一个用户来标记所述最翔实样本，然后将完成标记的最翔实样本添加到标记的数据集中，用于训练模型中的主动学习组件；重复上述步骤迭代更新模型直至算法最终收敛或达到某一迭代次数；对测试样本使用模型进行图像分类。本发明解决了类间表达能力差的问题，结合半监督学习和主动学习，有效地利用所有训练数据，提高了该算法模型的性能。

Description

基于主动半监督学习的图像分类方法

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种基于主动半监督学习的图像分类方法。

背景技术

随着手机、照相机和社交网络的发展，大量的照片通过用户被迅速地创造出来，而为了能够利用这些照片，我们需要一种以简单、快速和有效的方式收集、分类和组织它们的自动化分类的网络相册，而提供自动化分类技术的基础是能够通过数据训练一个鲁棒的机器学习分类模型。但是，收集标记数据用于训练分类模型是机器学习中最耗时和耗力的工作之一。在现实环境中，通常标记的训练样本非常有限，而获得丰富的未标记训练样本则相对容易。

半监督学习和主动学习是当训练数据中的标记样本数量稀缺时，能够得到判别性更强模型的两种重要的机器学习方法。半监督学习主要通过利用未标记训练样本从而提升模型的泛化能力增强模型的鲁棒性。现有的一些半监督学习算法包括：生成式模型，协同训练(Co-Training)，基于图的半监督学习(graph-based semi-supervised learning)，半监督支持向量机(S3VM)，半监督字典学习(SSDL)。尽管半监督学习算法在解决少量有标签数据和大量无标签数据的模型训练问题上取得了不错的成绩，但当存在大量的噪声样本和离群值时，直接使用未标记数据可能会显著地减少模型的性能。而主动学习则是通过以交互的方式训练模型，使得其能够基于在每次迭代中学习的模型来选择最有代表性的数据进行下一轮的迭代。然而，主动学习的性能还需要依赖于从相当有限的标记训练数据中能够学习到高判别性的初始分类器。

发明内容

本发明为克服上述现有技术所述的不能直接使用未标记数据、依赖于初始分类器的性能等至少一种缺陷，提供一种基于主动半监督学习的图像分类方法，将半监督学习和主动学习相结合，能够充分利用所有的训练数据，且有效提升模型的性能。

为解决上述技术问题，本发明的技术方案如下：

基于主动半监督学习的图像分类方法，包括以下步骤：

S1：随机选择部分标记样本和所有未标记样本，用于训练模型中的半监督字典学习组件；

S2：采用基于预估计类概率的准则从未标记的数据集中迭代地选择含有信息量最大的未标记样本，即最翔实样本；

S3：引入一个用户来标记所述最翔实样本，然后将完成标记的最翔实样本添加到标记的数据集中，用于训练模型中的主动学习组件；

S4：重复S1～S3步骤，通过新的标记样本和剩余未标记数据来迭代更新模型，直至算法最终收敛或达到某一迭代次数；

S5：对测试样本使用模型进行图像分类。

本技术方案通过使用半监督字典学习来训练初始字典，使其具有良好的类内代表性，再通过主动学习技术基于预估计类概率的准则选择信息量最大的样本，引入一个用户注释它，并将用户注释后的样本添加到标记的数据集中，参与下一轮字典的训练，直到算法最终收敛或达到某一迭代次数，解决了类间表达能力差的问题，结合半监督学习和主动学习，有效地利用所有训练数据，提高了该算法模型的性能。

优选地，S1步骤中的半监督字典学习组件公式化为：

其中，为该公式输出，表示特定类联合字典；A_i为系数矩阵，表示第i类标记样本数据，i为1～C的常数，系数矩阵A_i中的每一列是一个训练样本；D_i为被A_i初始化得到的第i类的有监督字典；b_j为系数矩阵，表示第j类无标签数据，j为1～N的常数；P_i,j为第j个无标签训练样本和第i个类之间的关系；为系数矩阵A_i在特定类联合字典的编码，为无标签数据b_j在特定类联合字典的编码，M_i为具有与相同大小的平均系数矩阵，且取的平均列向量作为M_i的列向量；L为通过主动学习标注的样本数目；F表示Fisher判别准则；γ为稀疏编码系数的一个参数；λ为判别编码系数的一个参数；β为最大熵的一个参数；为无标签数据b_j的编码类的估计可能性的置信度，表示该类估计的不确定性。

其中β参数与熵的权重相关，且由于强熵正则化过程中会使得未标记样本在不同类别中的概率相似，导致分类性能较差，因此不能设置过大。

优选地，模型的字典分为D＝[D₁,...,D_i,...,D_C]以及E＝[E₁,...,E_i,...,E_C]两部分，其中E_i为无标签训练样本中判别性的第i类扩展字典。D_i和E_i都与i存在联系，并且它们都需要对第i类数据有很好的表示但对其他类有较差的表示。

优选地，S2步骤中，所述最翔实样本由样本的不确定性决定；所述样本的不确定性的计算公式如下：

Uncertainy(x)＝p(c₁|x)-p(c₂|x)

其中，x为所选择的样本，p(c₁|x)为最大类后继概率，c₁为最大类后继概率的类，p(c₂|x)为第二大类后继概率，c₂为第二大类后继概率的类。当输出值很小，即p(c₁|x)和p(c₂|x)的间隔很小，则意味着该模型在样本上更加困惑，因而具有高不确定性。该算法与传统的基于熵的二值分类方法等价，且在多个基准数据集上有显著的改进。

优选地，S5步骤中，所述模型包括协同表示和局部表示，其中协同表示的公式如下：

局部表示的公式如下：

其中，y＝[y¹,...,yⁱ,...,y^C]表示编码系数是基于全字典的编码向量。对未标记数据与测试数据编码时采用相同的编码模型，能够确保学习的分类适合于最终的分类。

优选地，S5步骤中，所述分类方法如下：

其中，b为测试图像在特定类联合字典中的稀疏码向量。

与现有技术相比，本发明技术方案的有益效果是：通过结合主动学习算法的判别性和半监督字典学习组件，使整体性能得到了提升，提高了模型的判别能力和泛化性；通过整合主动学习组件，使模型能够充分利用所有训练数据，从而进一步提升模型的性能，且模型的训练更加灵活。

附图说明

图1为本实施例的基于主动半监督学习的图像分类方法的流程图。

图2为本实施例的LFW数据集中数据划分的示例。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

本实施例的基于主动半监督学习的图像分类方法流程图如图1所示，具体包括以下步骤：

S1：随机选择部分标记样本和所有未标记样本，用于训练模型中的半监督字典学习组件。其中，半监督字典学习组件可公式化为：

其中，为该公式输出，表示特定类联合字典；A_i为系数矩阵，表示第i类标记样本数据，i为1～C的常数，系数矩阵A_i中的每一列是一个训练样本；D_i为被A_i初始化得到的第i类的有监督字典；b_j为系数矩阵，表示第j类无标签数据，j为1～N的常数；P_i,j为第j个无标签训练样本和第i个类之间的关系；为系数矩阵A_i在特定类联合字典的编码，为无标签数据b_j在特定类联合字典的编码，M_i为具有与相同大小的平均系数矩阵，且取的平均列向量作为M_i的列向量；L为通过主动学习标注的样本数目；F表示Fisher判别准则；γ为稀疏编码系数的一个参数；λ为判别编码系数的一个参数；β为最大熵的一个参数。

与监督字典学习不同，组件将所需的字典分为D＝[D₁,...,D_i,...D_C]以及E＝[E₁,...,E_i,...,E_C]两部分，其中E_i为无标签训练样本中判别性的第i类扩展字典，D_i和E_i都与i存在联系，并且它们都需要对第i类数据有很好的表示但对其他类有较差的表示。β参数与熵的权重相关，且由于强熵正则化过程中会使得未标记样本在不同类别中的概率相似，导致分类性能较差，因此不能设置过大，适当降低错误分类的未分类样本的权重，能够更好地利用学习字典的鉴别能力。

式中的所计算得到的熵表示为无标签数据b_j的编码类的估计可能性的置信度，表示该类估计的不确定性。当未标记的数据被明确地指派给某类时，其熵值为0。

当类估计是可信的时候上述模型公式可改变为：

其中T是一个阈值，通常设置为0.5.在字典学习中，我们只使用熵小于阈值的未标记数据，即未标记数据的类估计是相对有信心的。

S2：基于预估计类概率的准则从未标记的数据集中迭代地选择含有信息量最大的未标记样本，即最翔实样本。

该步骤中的最翔实样本由样本的不确定性决定，样本的不确定性计算公式如下：

Uncertainy(x)＝p(c₁|x)-p(c₂|x)

其中，x为所选择的样本，p(c₁|x)为最大类后继概率，c₁为最大类后继概率的类，p(c₂|x)为第二大类后继概率，c₂为第二大类后继概率的类。

对于未标记的数据，有C个候选类，即半监督字典学习提供了C个分类器。当多个学习者存在时，一般选择具有最大分歧的样本，其分歧也被视为不确定性度量，因此通过计算样本的不确定性可选择最翔实样本。公式中通过计算最大类后继概率和第二大类后继概率之间的间隔，体现模型在该样本上的不确定性，其间隔越小，不确定性越高。

S3：引入一个用户来标记所述最翔实样本，然后将完成标记的最翔实样本添加到标记的数据集中，用于训练模型中的主动学习组件。

S4：重复S1～S3步骤，通过新的标记样本和剩余未标记数据来迭代更新模型，直至算法最终收敛或达到某一迭代次数。

S5：对测试样本使用不同的编码模型进行图像分类。

该步骤中的不同编码模型包括协同表示和局部表示，其中协同表示的公式如下：

局部表示的公式如下：

其中，y＝[y¹,...,yⁱ,...,y^C]表示编码系数是基于全字典的编码向量。对未标记数据与测试数据编码时采用相同的编码模型，从而确保学习的分类适合于最终的分类。

该步骤中图像分类的方法如下：

其中，b为测试图像在特定类联合字典中的稀疏码向量。

在具体实施过程中，对本发明的模型公式中的稀疏编码系数参数γ、判别编码系数参数λ和最大熵参数β分别设置为γ＝0.001，λ＝0.01，β＝0.01。

本实施例在MNIST数据集以及USPS数据集中进行手写字体识别，在人脸数据集LFW数据集进行人脸识别，以及在大型网络图像分类数据集Web Vision数据集上进行网络图像分类任务。同时，本实施例与几种有代表性的有监督字典学习方法和半监督字典学习方法相比较，包括：FDDL、SRC、M-SVM、DKSVD、LCKSVD、SVGDL、S2D2、JDL、OSSDL、SSRD以及最近提出的SSP-DL算法和DSSDL算法。并且参考FDDL中使用的编码规则，在模型中未标记训练数据与测试数据的编码方式，在数字识别任务中采用局部表示而在其他实验中使用协同表示。除了取top-1的识别率之外，在Web Vision数据集实验中，我们还取了top-5的识别率。

本实施例中的LFW数据集是一个包含姿势、光照、表情、错位和遮挡的大型数据集，其中选择了143个对象，每个对象的样本不少于11个，共4174张图像。对每个类别来说，前10个样本用于训练，而剩余样本用作进行测试的数据。通过将人脸图像分为10x8补丁从中抽取出Uniform-LBP的直方图，然后利用主成分分析法PCA将直方图维数降到500。

首先，从每个类中随机选择2个样本作为初始标记数据，然后设置5次用户查询迭代，在每次迭代中查询143个样本，使查询的数目与类别数目相同，且标记数据的最终数量与其他方法相同，即随机从每一类选择7个标记数据用作训练集，而用剩余的训练数据未标记数据。

如图2所示，为本实施例的LFW数据集中数据划分的示例，将LFW数据集的数据划分为三个部分，包括未使用数据集、训练数据集和测试数据集，其中训练数据集中包括初始标记数据和未标记数据。本实施例中，首先随机选择其中2个作为初始标记数据，其余为未标记数据，然后通过AL算法从未标记数据中选择数据进行标记，逐渐添加已标记数据来提升模型，最后使用测试数据来测试模型。

本实施例的LFW数据集的实施结果如表1所示。

表1 LFW数据集下结果对比

从表1可以看出，本实施例在具有相同数量的标记数据的前提下，在所有竞争方案中达到最高的识别率。相较监督字典学习方法LC-KSVD提高了14％，而与目前最优的半监督字典模型DSSDL相比，本实施例模型的识别率提高了5％。与监督字典学习方法LC-KSVD相对比，本实施例方法只使用标记数据进行训练，模型性能的提升源于利用鉴别性表示残差和系数，对标记和未标记训练数据进行区分进而充分利用所有训练数据。而与半监督字典模型DSSDL相比，本实施例模型性能的提高源于主动学习算法的集成，因此可以选择最多信息的样本进行训练。特别地，使用基于预估计类概率的准则来选择具有置信类别估计的未标记数据和含有信息量最大的未标记数据，它们分别用于训练半监督字典学习组件和主动学习组件，并且结合主动学习后，模型的训练不需要一开始准备好所有的标记数据。

本实施例在USPS和MNIST数据集下的实施结果如表2所示。

表2 USPS与MINIST数据集下结果对比

半监督字典模型DSSDL方法相比于其他方法，之所以优于其他方法是因为其能够有效地利用未标记样本的信息，从表2可以看出半监督字典模型DSSDL方法的分类精度比其他字典方法高出至少2.4％。在附加未标记训练样本的情况下，通过自适应地扩展字典的大小能够更好地利用未标记样本的鉴别能力。而本实施例通过在半监督字典模型DSSDL方法上引入主动学习的样本选择技术筛选出训练所需的更能提升模型精度的样本，从而获得更好的性能，与半监督字典模型DSSDL方法相比拥有相同的高分类精度。

本实施例在Web Vision数据集下的实施结果如表3所示。

表3 Web Vision数据集下结果对比

从表3可以看出本实施例的精度与半监督字典模型DSSDL方法以及监督字典学习LC-KSVD方法相比都有不同程度的提高。前者说明结合主动学习算法后本实施例模型的性能得到了提升，后者说明本实施例模型利用鉴别性表示残差和系数，对标记和未标记训练数据进行区分以及对未标记数据类估计，而熵正则项用来规范它们的估计概率的有效性。

从上述数据可以看出，本实施例的模型性能有很大的提升，提高了模型的判别能力和泛化性，通过整合主动学习组件，使模型充分利用所有的训练数据，从而提升了模型的性能，而且在模型的训练过程中不需要在一开始就准备好所有的训练数据，使模型的训练过程更加灵活。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于主动半监督学习的图像分类方法，其特征在于，包括以下步骤：

S5：对测试样本使用模型进行图像分类。

2.根据权利要求1所述的基于主动半监督学习的图像分类方法，其特征在于：所述S1步骤中的半监督字典学习组件公式化为：

3.根据权利要求2所述的基于主动半监督学习的图像分类方法，其特征在于：所述模型的字典分为D＝[D₁,...,D_i,...D_C]以及E＝[E₁,...,E_i,...,E_C]两部分，其中E_i为无标签训练样本中判别性的第i类扩展字典。

4.根据权利要求3所述的基于主动半监督学习的图像分类方法，其特征在于：所述S2步骤中，所述最翔实样本由样本的不确定性决定；所述样本的不确定性的计算公式如下：

Uncertainy(x)＝p(c₁|x)-p(c₂|x)

5.根据权利要求4所述的基于主动半监督学习的图像分类方法，其特征在于：所述S5步骤中，所述模型包括协同表示和局部表示，其中协同表示的公式如下：

局部表示的公式如下：

其中，y＝[y¹,...,yⁱ,...,y^C]表示编码系数是基于全字典的编码向量。

6.根据权利要求5所述的基于主动半监督学习的图像分类方法，其特征在于：所述S5步骤中，所述分类方法如下：

其中，b为测试图像在特定类联合字典中的稀疏码向量。