CN109492680A

CN109492680A - 基于自适应图的半监督学习方法

Info

Publication number: CN109492680A
Application number: CN201811246236.8A
Authority: CN
Inventors: 袁媛; 王�琦; 李欣
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-03-19

Abstract

本发明提供了一种基于自适应图的半监督学习方法。首先，构造得到样本集合的初始图和标签矩阵，并设置正则化参数；然后，通过最小化目标函数进行半监督学习，得到样本的软标签矩阵；最后，计算得到所有样本的结果标签矩阵。由于在半监督学习中自适应地进行图的更新，不易受到初始图的影响，算法鲁棒性更高；通过设置正则化参数，可以缓解错误标签带来的影响，还可以发现新的类别，在提高方法准确性的同时使得方法更具实用性。

Description

基于自适应图的半监督学习方法

技术领域

本发明属计算机视觉、图形处理技术领域，具体涉及一种基于自适应图的半监督学习方法。

背景技术

随着计算机网络技术的快速发展和人们对数据访问的多样化，人们可以获得的信息呈指数级别增长，如何利用这些海量数据来提高人们获取知识的能力，是当前科学家面临的共同挑战。在监督学习中，通过学习大量标记数据，建立模型来预测未标记数据，当标记的数据数量较少时，训练模型具有较弱的泛化能力并且易于过拟合。在许多实际应用中，未标记的数据非常容易获得且数量丰富，而标记数据由于标记过程需要消耗大量人力物力，其数量较少，如何通过少量的已标记样本和大量的未标记样本训练出一个较好的模型成为机器学习领域的一个重要研究方向。半监督学习(semi-supervised learning，SSL)就是为了解决上述问题而产生的。

为了有效地利用未标记数据，SSL有两个常用的假设：簇假设和流形假设。在这些假设的基础上，人们提出了许多SSL方法。基于图的半监督学习方法是基于流形假设的方法的一种，由于其性能优越、易于实现、具有良好的泛化能力，已成为最受欢迎的半监督学习方法之一。基于图的半监督学习方法通常先构造一个图，图中节点由所有样本构成，图中边的权重是样本之间的相似度，利用构造的图，将已标记样本的标签信息传播到未标记样本，从而预测未标记样本的标签(即对未标记样本分类)。因此，基于图的半监督学习方法的性能很大程度上取决于构造图的质量。Roweis等人在文献“Roweis S T,Saul L K.NonlinearDimensionality Reduction by Locally Linear Embedding[J].Science,2000,290(5500):2323.”中提出LLE算法，其基本思想则是在数据集中任意一个数据点和它的邻域点之间构造局部线性坐标，并建立最终的优化目标函数，从而保持局部的几何结构不变。Karasuyama等人在文献“Karasuyama M,Mamitsuka H.Adaptive edge weighting forgraph-based learning algorithms[J].Machine Learning,2016,106(2):1-29.”中提出自适应边缘加权策略，通过局部线性重建误差最小化来优化边缘权重，获得更高质量的图，进而增强算法性能。

上述方法的局限性在于：由于绝大部分算法默认已标记的标签是正确的，未标记数据是完全根据已标记数据进行分类，但是在实际标注中，难免会有些标记错误的样本，同时，由于已标记数据的数量远远少于未标记数据，还会存在没有标记出的新的类别；按照错误的标签对未标记数据分类会产生重大错误。其次，由初始构造图的质量对算法性能有很大的影响，初始构造图质量很差时算法性能也很差。通常算法都是在进行半监督学习之前构造与数据点权重矩阵相关联的图，在后期没有办法对图进行改进。

发明内容

为了克服现有技术的不足，本发明提供一种基于自适应图的半监督学习方法。

一种基于自适应图的半监督学习方法，其特征在于步骤如下：

步骤1：利用聂等人在2016年的工作“Nie F,Wang X,Jordan M I,et al.TheConstrained Laplacian Rank algorithm for graph-based clustering[C]//ThirtiethAAAI Conference on Artificial Intelligence.AAAI Press,2016:1969-1976”中提出的构图方法构造得到样本集合X＝{x₁,x₂,…,x_n}初始图的权重矩阵W；所述的样本集合的前l个样本为已标记的样本，其余样本为未标记样本，样本类别集合为C＝{1,2,…,c+1}，其中，已标记样本共有c个类别；

设样本的标签矩阵Y∈R^n×(c+1)，对于已标记的样本x_i，若它的类别为j，则令样本标签矩阵Y中第i行j列元素y_ij＝1，i＝1,2,…,l，j＝1,2,…,c；对于未标记样本x_i，将其初始标签设置为c+1，即令标签矩阵Y中第c+1列元素y_i,c+1＝1，此时，i＝l+1,l+2,…,n；令标签矩阵Y中其余元素为0，即得到样本标签矩阵Y；

步骤2：对于所有已标记的样本，设其正则化参数为μ_l，对于所有未标记的样本，设其正则化参数为μ_u，令对角矩阵U的第i个对角线元素μ_ii为第i个样本的正则化参数，即i∈[1,l]时，μ_ii＝μ_l，i∈[l+1,n]时，μ_ii＝μ_u，得到正则化参数矩阵U∈R^n×n，i＝1,2,…,n；

其中，正则化参数μ_l的设置为：如果已标记样本的标签完全正确，则设置μ_l满足否则，设置μ_l满足正则化参数μ_u的设置为：对未标记样本按已标记样本类别分类，则设置μ_u满足否则，设置μ_u满足

步骤3：分别以步骤1得到的初始图权重矩阵W、标签矩阵Y和步骤2得到的正则化参数矩阵U为输入构建目标函数，并最小化目标函数得到软标签矩阵Z，即：

其中，S表示更新后的图的权重矩阵，D是S的度矩阵，为对角线元素d_ii＝1的对角矩阵，s_ij表示矩阵S中第i行j列的元素，i∈[1,n]，j∈[1,n]，L是S的拉普拉斯矩阵，L＝D-S；||·||_F表示F范数，Tr(·)表示矩阵的迹，λ是罚项参数，取值范围为[10^-5,10⁵]；

步骤4：构造结果标签矩阵设置其元素均为0，然后，寻找软标签矩阵Z中的每一行的最大值并记录其位置，并令结果标签矩阵中对应行对应位置处元素的值为1，如此更新标签矩阵中所有行对应元素，即得到所有样本的结果标签矩阵

本发明的有益效果是：由于在半监督学习中自适应地进行图的更新，不易受到初始图的影响，方法鲁棒性更高；通过设置正则化参数，可以缓解错误标签带来的影响，还可以发现新的类别，在提高方法准确性的同时使得方法更具实用性。

附图说明

图1是本发明的一种基于自适应图的半监督学习方法流程图

图2是模拟数据集1以及本发明方法在模拟数据集1上的实验结果

图3是模拟数据集2以及本发明方法在模拟数据集2上的实验结果

图中，点表示未标记样本，星号表示已标记样本并且其类别为1，三角表示已标记样本并且其类别为2，圈表示已标记样本并且其类别为3。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明的一种基于自适应图的半监督学习方法，其实现过程如下：

1、构造初始图

对于样本集合X＝{x₁,x₂,…,x_n}，其中，前l个样本为已标记的样本，其余样本为未标记样本，已标记样本共有c个类别。

利用聂等人在2016年的工作“Nie F,Wang X,Jordan M I,et al.TheConstrained Laplacian Rank algorithm for graph-based clustering[C]//ThirtiethAAAI Conference on Artificial Intelligence.AAAI Press,2016:1969-1976”中提出的构图方法构造得到样本集合初始图的权重矩阵W，W中第i行j列的元素w_ij为：

其中，权重矩阵W是稀疏的并且具有c个联通分量，更适合半监督学习的任务。

为了发现新的类别，在已有的c个类别上增加一个类别，即类别集合为C＝{1,2,…,c+1}。设样本的标签矩阵Y∈R^n×(c+1)，对于已标记的样本x_i(i＝1,2,…,l)，若它的类别为j(j＝1,2,…,c)，则y_ij＝1，对于未标记样本x_i(i＝l+1,l+2,…,n)，将其初始标签设置为1，即设置y_i,c+1＝1，i＝l+1,l+2,…,n；令标签矩阵Y中其余元素为0，即得到样本标签矩阵Y。

2、设置正则化参数

令U是正则化参数矩阵，U∈R^n×n为对角矩阵，其第i个对角线元素μ_ii即为第i个样本的正则化参数。为了方便起见，将所有的已标记样本的正则化参数都设置为统一的值μ_l，将所有未标记样本的正则化参数设置为统一的值μ_u。

如果已标记样本的标签正确，令则半监督学习中不会改变现有的已标记标签；如果已标记样本的标签中存在错误，令则半监督学习中会改变现有的已标记样本标签。对于未标记样本，令则按照已有类别将未标记样本分类即不会增加新的类别；令则有能力发现未标注的新类别。

通过设置正则化参数，可以改变方法对于已有标签的置信度，从而达到发现新的类别以及修改已有标签的错误标签的目的。

3、利用半监督学习得到未标记样本的软标签矩阵Z

以步骤1得到的初始图权重矩阵W、标签矩阵Y和步骤2得到的正则化参数矩阵U为输入，最小化以下目标函数：

即得到软标签矩阵Z，其中，Z∈R^n×(c+1),z_ij是软标签矩阵的第i行第j列的元素，它表示的是第i个样本x_i属于第j个类别的概率。

S表示更新后的图的权重矩阵，D是S的度矩阵也是对角线矩阵，其对角线元素d_ii＝1，s_ij表示S矩阵第i行j列的元素(i,j∈[1,n])，L是S的拉普拉斯矩阵，L＝D-S。||·||_F表示F范数，Tr(·)表示矩阵的迹，λ是罚项参数，取值范围为[10^-5,10⁵]。

可以利用迭代优化方法来求解上述目标函数。S的初始值设置为W，λ取值为0.1。

4、计算所有样本的结果标签矩阵

构造结果标签矩阵初始时令其元素均为0，然后，寻找软标签矩阵Z中的每一行的最大值并记录其位置，并令结果标签矩阵中对应行对应位置处元素的值为1，即如果矩阵Z中第i行的最大值为z_ij，则认为第i个样本的标签为j，令矩阵中的第i行j列元素如此找到所有样本的标签，并更新标签矩阵对应元素，即得到所有样本的结果标签矩阵

本实施例在中央处理器为i5-3470 3.2GHz CPU、内存4G、WINDOWS 7操作系统上，运用MATLAB软件进行的仿真。仿真中分别使用模拟数据集和基准数据集。

两个模拟数据集分别为：模拟数据集1是三种类别的数据，其中包含两个已标记的数据，如图2(a)所示；模拟数据集2是两个类别的数据，其中包含8个已标记的数据，其中2个已标记数据的标签是错误的，如图3(a)所示。

对于模拟数据集1，令和则其分类结果如图2(b)所示，可以看出本发明方法具有发现新的类别的能力。对于模拟数据集2，令和则其分类结果如图3(b)所示，可以看出本发明方法具有修正已标记数据的错误标签的能力。即通过设置正则化参数，本发明方法可以缓解错误标签带来的影响以及发现新的类别，在提高方法准确性的同时使得方法更具有实用性。

使用“Chapelle O,Scholkopf B,Eds A Z.Semi-Supervised Learning,(Chapelle,O.et al.Eds.；2006)[Book reviews][J].IEEE Transactions on NeuralNetworks,2009,20(3):542-542.”文献提供的基准训练集(包含数据集Digit1，USPS，COIL和BCI)对不同方法进行准确率测试。该基准数据集在每个数据集上随机选择100个点给出其标签，共12种随机选择的结果，在这12中情况下分别测试然后求出其平均错误率。

分别选择LDS算法、LGC算法、GGSSL1和AEW算法作为对比算法。其中，LDS算法记载在文献“Chapelle O.Semi-Supervised Classification by Low Density Separation[J].Proc.AISTATS'05,2005.”中；LGC算法记载在文献“Zhou D,Bousquet O,Lal T N,etal.Learning with local and global consistency[C]//International Conference onNeural Information Processing Systems.MIT Press,2003:321-328.”中；GGSSL1算法记载在文献“Nie F,Xiang S,Liu Y,et al.A general graph-based semi-supervisedlearning with novel class discovery[J].Neural Computing&Applications,2010,19(4):549-555.”中；AEW算法记载在文献“Karasuyama M,Mamitsuka H.Adaptive edgeweighting for graph-based learning algorithms[J].Machine Learning,2016,106(2):1-29.”中。在这里基准数据集的已标记数据都是正确的，令和计算结果如表1所示。可以看出，本发明的方法在这五个数据集上错误率最低，具有良好的性能，算法鲁棒性更高。

表1

Method	Digit1	USPS	COIL	BCI
					LDS	3.46	4.96	13.72	43.97
LGC	2.38	7.08	14.97	44.81
					AEW	2.43	11.34	10.69	42.22
GGSSL1	2.39	6.38	9.48	45.44
					本发明方法	1.71	4.34	8.66	34.29

Claims

1.一种基于自适应图的半监督学习方法，其特征在于步骤如下：

步骤2：对于所有已标记的样本，设其正则化参数为μ_l，对于所有未标记的样本，设其正则化参数为μ_u，令对角矩阵U的第i个对角线元素μ_ii为第i个样本的正则化参数，即i∈[1,l]时，μ_ii＝μ_l，i∈[l+1,n]时，μ_ii＝μ_u，得到正则化参数矩阵U∈Rⁿ×ⁿ，i＝1,2,…,n；