CN110309871A

CN110309871A - 一种基于随机重采样的半监督学习图像分类方法

Info

Publication number: CN110309871A
Application number: CN201910566485.3A
Authority: CN
Inventors: 张晓雷; 王建宇
Original assignee: Northwest University of Technology; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University; Northwest University of Technology; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-08

Abstract

本发明涉及一种基于随机重采样的半监督学习图像分类方法，属于机器学习中半监督学习算法研究，用于提升半监督学习算法在无模型假设下的准确率精度。该算法包括如下步骤：1)采用随机重采样+投票的方法构造核矩阵；2)构造概率转移矩阵，并使用EM迭代算法不断迭代；3)在无标记数据样本中选取迭代后概率最大的标签。在手写数据集MNIST上的实验结果表明，同原始半监督学习算法分析相比，在使用随机重采样构造时，LP算法在MNIST数据集上有标记数据与无标记数据1：5的情况下识别错误率(equal error rate)相对下降67.96％。

Description

一种基于随机重采样的半监督学习图像分类方法

技术领域

本发明属于图像分类技术领域，提出使用不依赖模型假设的随机重采样的密度估计方法改进基于图的半监督学习算法。

背景技术

图像分类作为图像领域的一种重要领域，一直以来都是图像处理中的一个重要研究热点。近些年来，很多研究学者在图像分类问题上进行了大量的研究，提出了很多先进的分类算法，如支持向量机(SVM)、深层神经网络(DNN)、随机森林(Random forest)等。大部分图像分类算法都是基于统计模型的，用户需要耗费大量的人力物力对图像样本进行标注，然后通过训练标注样本得到模型。

在实际应用中，标注大量图像样本耗费时间，并且时比较困难的。因此我们采用半监督学习方法，用少量标记的图像训练模型，从而实现图像分类。

半监督学习(semi-supervised learning)目前是机器学习领域中的一个研究热点方向，结合了有监督学习和无监督学习算法，通过大量的未标记数据和少量标记数据来构造更好的分类器。

半监督学习算法同时利用有标记样本和无标记样本进行学习。将数据集 X＝{x₁,x₂,…,x_n}(n＝l+u)(X代表每个数据点，例如，在图像中表示每个图象，x_i代表第i个图像的所有像素点特征值)分为两部分，一部分是有标记数据集X₁＝ {x₁,…,x_l}，这部分数据点x_i标记由y_i给出，另一部分无标记数据集为X_u＝{x_l+1,…,x_l+u} 并且有u＞＞l，即无标记数据远远多于有标记数据。

半监督学习算法主要是利用所有数据信息及有标记数据的标签信息来估计无标记数据的标签信息。最早用到半监督学习思想的算法是自训练方法(见参考文献 self-training)(Chapelle,Olivier,Bernhard Scholkopf,and Alexander Zien. "Semi-supervised learning(chapelle,o.et al.,eds.；2006)[book reviews]."IEEETransactions on Neural Networks 20.3(2009):542-542.)，这是一个重复使用监督学习方法的包装算法，半监督学习在20世纪70年代真正起步，当时考虑了用未标记数据估计fisher线性判别式规则(Fisher linear discriminant rule)的问题(见参考文献HosmerJr, David W."A comparison of iterative maximum likelihood estimates of theparameters of a mixture of two normal distributions under three differenttypes of sample."Biometrics (1973):761-770.)。该方法是在其中每个类别密度(classconditional density)是高斯协方差矩阵(Gaussian with equal covariancematrix)的情况，然后借助迭代算法如期望最大化 (EM)算法，使标记和未标记的数据最大化模型成立。经过几十年的发展，半监督学习算法主要分为半监督生成模型、自训练方法、协同训练和多视角学习、半监督支持向量机(也称作直推式支持向量机)、基于图的方法等。近几年，随着深度学习的兴起，一些基于深度学习的半监督学习算法模型被提出。总的来说，半监督学习算法主要采用核方法或者多层神经网络的方法对数据进行密度估计。

半监督学习算法已在生物图像分析、文本分析、哈希算法等众多领域中得到广泛应用，利用少量标记数据通过半监督学习算法预测出未标记数据标签，避免昂贵且费时的人工标记，减少实验周期。但传统的基于核方法的半监督学习算法在进行数据密度估计时采用了模型假设的方法，例如采用高斯核方法估计数据密度分布时假设了数据呈高斯分布，这种假设不一定准确。

如果避免模型假设，基于半监督学习的图像分类算法会有较大的改进空间。因此我们提出了采用基于随机冲采样半监督学习的图像分类算法，该方法较好的解决了图像分类问题中样本的分布假设不准确问题，使得图像分类结果更稳定可靠。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于随机重采样的半监督学习图像分类方法，以提升数据分类的准确率。

技术方案

一种基于随机重采样的半监督学习图像分类方法，其特征在于步骤如下：

步骤1：准备训练数据

分别读取手写体MNIST图像数据集，数据点数是70000，每个数据样本点包含 784个数据维度特征或者手写体USPS图像数据集，数据点数是9298，每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集，数据点数是1440，每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集，数据点数是7200，每个数据样本点包含1024个数据维度特征；将图像数据样本按照有标签到无标签的顺序排列；

步骤2：利用随机重采样和投票方法构造核矩阵

首先，训练k-中心聚类器：

第一步：随机地选择每个图像数据集的多维特征；

第二步：随机地选择k个数据点作为聚类器的中心点；

第三步：对输入的训练数据做k-中心聚类，并输出[0,1]值的稀疏矢量；

经过k-中心聚类器输出稀疏矢量：h_v

求内积构造核矩阵：

步骤3：利用得到的核矩阵构造概率转移矩阵：

其中，T_i,j表示标签从点j传递至i的概率，w_ij为核矩阵第i行第j列元素，w_kj为核矩阵第i行元素之和；

将概率转移矩阵根据数据点有无标签分为四个子矩阵：P_uu、P_ul、P_lu、P_ll，P_uu为标签从已预测的无标记的点至没有预测的无标记的点的概率，P_ul为标签从有标记的点至没有预测的无标记的点的概率，P_lu为标签从没有预测的无标记的点对有标记的点的概率，P_ll为标签从有标记的点至有标记的点的概率；

步骤4：利用期望最大化算法不断迭代，利用有标记数据点的标签信息及数据样本信息估计无标记数据的标签信息：

f_u＝(I-P_uu)^-1P_ulf_l

其中，f_l为已知的标签，f_u为待预测的标签；

根据估计出的标签信息对图像进行分类。

有益效果

本发明提出的一种基于随机重采样的半监督学习图像分类方法，通过随即重采样+ 投票构造核矩阵替代传统半监督学习算法中的核矩阵，实现无模型假设的半监督学习图像分类算法，避免了传统模型对数据的空间密度分布假设，在生物图像分析、文本分类、哈希算法等领域中相比传统方法而言提升了分类精度，增强了实验结果的可信度。

附图说明

图1本发明算法具体流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

该算法通过对数据进行随机重采样替代传统半监督学习算法中核矩阵，算法具体流程图见附图1所示，具体包括以下步骤：

步骤1：准备训练数据

利用手写体数据集MNIST和USPS以及物体识别数据集COIL20和COIL100进行实验。分别读取手写体MNIST图像数据集，数据点数是70000，每个数据样本点包含784个数据维度特征或者手写体USPS图像数据集，数据点数是9298，每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集，数据点数是1440，每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集，数据点数是7200，每个数据样本点包含1024个数据维度特征；将图像数据样本按照有标签到无标签的顺序排列。在实验中，有标记数据样本点与无标记数据样本点的比例对半监督学习算法的准确率有一定的影响。因此，在实验中不断增加有标记数据占比，比较随机重采样改进的半监督学习算法与原始的半监督学习算法。

步骤2：利用随机重采样和投票方法构造核矩阵

首先，训练k-中心聚类器：

第一步：随机地选择每个图像数据集的多维特征；

第二步：随机地选择k个数据点作为聚类器的中心点；

经过k-中心聚类器输出稀疏矢量：h_v

求内积构造核矩阵：

步骤3：利用得到的核矩阵构造概率转移矩阵：

将概率转移矩阵根据数据点有无标签分为四个子矩阵：P_uu、P_ul、P_lu、P_ll，P_uu为标签从已预测的无标记的点至没有预测的无标记的点的概率，P_ul为标签从有标记的点至没有预测的无标记的点的概率，P_lu为标签从没有预测的无标记的点对有标记的点的概率，P_ll为标签从有标记的点至有标记的点的概率；P_lu和P_ll对算法没有实际意义，在本发明中不予考虑；

f_u＝(I-P_uu)^-1P_ulf_l

其中，f_l为已知的标签，f_u为待预测的标签；

选取迭代后概率最大的标签作为估计的标签信息，根据估计出的标签信息对图像进行分类。

本发明在半监督学习算法框架下代替原始的核方法，采用随机重采样+投票构造核矩阵，实现无模型假设的半监督学习算法。在实验中改进了3种经典的基于图的半监督学习算法，与原始的半监督学习算法进行准确率的比较，并对超参数进行调整，比较算法性能。

(一)标签传播算法(Label Propagation)

记(x₁,y₁)…(x_l,y_l)是标记数据，Y_L＝{y₁,…,y_l}∈{1,…,C}是类别标签。这里假设标签类别数量C是未知的，同时有标注数据包含了所有类别信息。记 (x_l+1,y_l+1),…(x_l+u,y_l+u)是未标记数据，而Y_u＝{y_l+1,…,y_l+u}是未知的，通常有l＜＜u。记X＝{x₁,…,x_l+u}∈R^D，而标签传播算法是通过X和Y_L来预测估计Y_U。

标签传递算法(LP)是一种基于图的半监督方法，记连接图为G＝(V,E)，其中V代表n个数据样本点，E代表点与点之间的连接权重，连接权重一般由n×n对称矩阵W 表示：

其中表示x_i的第d个属性值，向量x_i∈R_m，σ是超参数宽度尺寸(length scalehyperparameters)。

图G中的所有节点分布都可以等效成数据的标签分布，如若让一个节点标签通过边缘传播到所有节点，则较大的传播权重可以让标签更容易传递。本文采用 (l+u)×(l+u)概率传播矩阵T表示标签传播的难易程度或标签传递的可能性。

其中，T_ij表示标签从点j传递至i的概率。同时又定义一个(l+u)×C的标签矩阵Y，

在图G上引入一个实值函数并且在f上分配标签。在有标记数据点上使用f(i)＝f_l(i)≡y_i,i＝1,…,l约束f。为了使得在图上相邻的无标记数据点具被相似的标签，引入二次能量函数(quadratic energy function)：

为了得到分配函数f的概率分布，构造了高斯场其中β是一种“逆温 (inverse temperature”参数，Z_β是一种间隔函数注意在有标记数据样本点上一定要归一化约束函数f_l。

最小化能量函数可以得到为了使能量函数满足协调性(harmonic)，在无标记数据样本点上需要满足Δf＝0，这里Δ是一种组合拉普拉斯算子(combinatorial Laplacian)，并且算子的矩阵表示形式为Δ＝D-W这里有D＝diag(d_i)并且d_i＝∑_jω_ij,W＝[ω_ij]是权重矩阵。

协调属性意味着在每一个无标记数据样本点处f的值是f的邻域均值当j＝l+1,…,l+u，用矩阵表示协调属性有f＝Pf，其中P＝D^-1W,f是一致连续的并且满足0≤f(j)≤1，其中，j∈U。

为了计算协调解，将权重矩阵W划分成四块子矩阵：

其中，协调函数的解推导结果如下：

f_u＝(D_uu-W_uu)^-1W_ulf_l＝(I-P_uu)^-1P_ulf_l

标签传播(Label Propagation)的半监督方法是以高斯随机场模型为基础的算法，它提供了高斯核函数来度量相似性矩阵。影响标签传播算法的主要参数就是高斯核带宽参数σ。

(二)局部和全局一致性学习算法(LGC)

半监督学习的一个原则性方法是设计一个分类函数，该分类函数在已知标记点和未知标记点之间的内在结构是平滑的。一般来说，半监督学习问题的关键问题在于一致性的先验假设，这使得：

(1)局部假设：分布在图G上相邻近的点可能具有相同的标签。

(2)全局假设：同一结构上的点(通常称为簇或流行)可能具有相同的标签。

局部和全局一致性学习算法(LGC)提出了一个简单的迭代算法来构建一个平滑的分类函数，让每个点迭代地将它的标签传播给它邻近的点，直到达到全局稳定状态。

局部全局一致性学习算法首先需要定义数据集χ上的成对数据点间对角元素为零的权重关系矩阵W，此时已经定义了图G＝(V；E)中的顶点χ和边E的权重W；第二步， G的权重矩阵W需要对称归一化，才能使得迭代收敛；在第三步的每次迭代期间，每个点都会从相邻的数据样本点收集信息，并保留其原始的信息。参数α决定了每个点中来自其相邻数据点信息的相对量及其初始标签信息。由于W矩阵的对角元素被设置为0，所以避免了自增强(self-enhancement)。每个未标记点的标签被认为是在迭代过程中它已经接收到最多信息的类别，这样就完成了标签传播，并且避免了全局不收敛。

在第三步中，序列{F(t)}的是收敛的并且其极限是F^*＝(1-α)(I-αS)^-1Y，其中 F(0)＝Y。通过迭代公式F(t+1)＝αSF(t)+(1-α)Y，可以得到：

因为0<α<1，并且S的特征值在[-1,1]区间，所以有：

所以就有：

当α→0时，(1-α)→1，所以有：

F^*＝(I-αS)^-1Y

(三)基于贪心梯度最大切割的标签传递算法(GGMC)

局部全局一致性(LGC)算法是一种通过最小化二次能量函数而被形式化为正则函数的估计问题，将分类函数作为唯一感兴趣的变量来最小化成本。因为标签的扩散传播使得算法对初始标签的选择和任何标签的噪音非常的敏感，为了减轻对初始标签的依赖性，参考文献(Wang,Jun,Tony Jebara,and Shih-Fu Chang."Semi-supervised learningusing greedy max-cut."Journal of Machine Learning Research 14.Mar(2013):771-800.)提出了基于图的半监督学习算法的二元公式，其中二进制标签和连续分类函数都是优化参数。通过贪心梯度最大切割(GGMC)得到一个有效的解决方案，它收敛并将未标记的顶点分配给每个具有最小连通性的类，与LGC方法相比，它可以获得更高的分类准确度，弥补了以前方法对初始标签条件的不稳定性。

假设给出独立同分布(iid)的有标签数据样本点{(x₁,y₁),…,(x_l,y_l)}和具有p(x,y)分布的无标签数据样本点{x_l+1,…,x_l+u}。记输入带标签集合X_l＝{x₁,…,x_l}和无标签数据集合X_u＝{x_l+1,…,x_l+u}，有标签集合X_l对应标签Y_l＝{y₁,…,y_l}，其中y_i∈ {1,…,c},i＝1,2,…,l，算法的目标是推测未知标签{y_l+1,…,y_l+u}。因此，标签算法利用图和已知标签来估计未知标签通过选择适当的损失函数去逐渐逼近真实标签

图中，顶点X＝{x_i}，边界集合E＝{e_ij}，每个数据样本点x_i被视为图的顶点，而图的边界集合便是权重ω_ij。图的拉普拉斯核是Δ＝D-W，归一化的拉普拉斯核是

通常，半监督学习中图是从X中估计的。第一步是使用相似性函数计算所有顶点对之间的得分，由此产生邻接矩阵其中，K_ij＝k(x_i,x_j)使用核函数k(·)计算得到简单相似性。第二步在图结构中，矩阵K被稀疏并重新加权以产生最终矩阵W。

LGC算法就是定义由全局平滑和局部拟合精度组成的损失函数并最小化损失函数得到预测函数F：

由于之前的半监督方法对图的结构和噪声十分敏感，因此提出了GMCC算法以此解决敏感性问题。

对于标准化的Max-Cut问题，已经开发出很多技术，然而由于初始标签的约束，这些方案并不能解决Y的约束最大切割问题，参考文献(Wang,Jun,Tony Jebara,and Shih-FuChang."Semi-supervised learning using greedy max-cut."Journal of MachineLearning Research 14.Mar(2013):771-800.)提出使用基于贪婪梯度的策略来找到局部最优解，将每个未标记的顶点分配给具有最小连通性的标签集，以迭代方式最大化交叉集的边权重。

贪婪的Max-Cut算法随机选择未标记的顶点，并将它们中每一个放入适当的类子集中，具体取决于该未标记顶点与标记子集中顶点之间的边。给定标签信息，j类的初始标签集可以表示为定义未标记定点x_i和标记子集之间的连通性：

其中A_i.是A和Y的第i行向量。j是Y的第j列向量。直观地c_ij表示给定具有边权重A的图的顶点x_i和标签集合之间的边权重的总和。根据定义，初始化标签确定未标签顶点和标签子集之间的连通性。如果计算出的连通性为负数，则随机搜索将优先将未标记的顶点分配给具有最多标记顶点的标签集，这会导致偏差分区。其他标签初始化问题也可能导致糟糕的切割。另外，算法对未标记顶点的随机选择导致不稳定预测，因为所选择的未标记顶点x_i可能具有与多个标记子集同样低的连接性。

为了解决这些问题，首先修改连接的原始定义以减轻不同类别间的标签不平衡。加权连接计算为：

对角矩阵Λ＝diag([λ₁,λ₂,…,λ_n])被称为标签权重矩阵：

其中是标签集合中顶点的度数之和。该启发式设置是基于减轻异常值的不利影响的程度来加权每个标签的重要性。最后，为了处理由于随机搜索算法造成的任何不稳定性，参考文献(Wang,Jun,Tony Jebara,and Shih-Fu Chang. "Semi-supervised learning using greedy max-cut."Journal of Machine LearningResearch 14.Mar(2013):771-800.)提出了一种贪婪梯度搜索方法，其中最有利的顶点被分配给具有最小连接性的标签集。换句话说，需要首先计算连接矩阵该连通性矩阵给出了所有未标记顶点与现有标签集之间的连通性：

C＝AΛY

最终，检查C以确定最小值为的元素(i^*,j^*)：

本发明对上述三个算法框架在MNIST、USPS、COIL20以及COIL100等图像数据集上进行了实验验证。

本发明通过使用随机重采样方法替代半监督学习算法框架中的核方法，在实验中对比替换前后在数据集上的准确率，MNIST数据集的实验结果如下：

表1改进算法绝对错误率

表2算法下降的相对错误率

上述实验结果证明了本发明公布方案的有效性。

Claims

1.一种基于随机重采样的半监督学习图像分类方法，其特征在于步骤如下：

步骤1：准备训练数据

分别读取手写体MNIST图像数据集，数据点数是70000，每个数据样本点包含784个数据维度特征或者手写体USPS图像数据集，数据点数是9298，每个数据样本点包含256个数据维度特征或者物体识别COIL20图像数据集，数据点数是1440，每个数据样本点包含1024个数据维度特征或者物体识别COIL100图像数据集，数据点数是7200，每个数据样本点包含1024个数据维度特征；将图像数据样本按照有标签到无标签的顺序排列；

步骤2：利用随机重采样和投票方法构造核矩阵

首先，训练k-中心聚类器：

第一步：随机地选择每个图像数据集的多维特征；

第二步：随机地选择k个数据点作为聚类器的中心点；

经过k-中心聚类器输出稀疏矢量：h_v

求内积构造核矩阵：

步骤3：利用得到的核矩阵构造概率转移矩阵：

f_u＝(I-P_uu)^-1P_ulf_l

其中，f_l为已知的标签，f_u为待预测的标签；

根据估计出的标签信息对图像进行分类。