CN111488923B

CN111488923B - 增强的锚点图半监督分类方法

Info

Publication number: CN111488923B
Application number: CN202010263894.9A
Authority: CN
Inventors: 马君亮; 肖冰; 敬欣怡; 汪西莉
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2023-02-07
Anticipated expiration: 2040-04-03
Also published as: CN111488923A

Abstract

一种增强的锚点图半监督分类方法，包括：S100、准备数据集；S200、对S100准备的数据集采用锚点提取方法提取m个锚点，得到锚点集U；S300、根据S200得到的锚点集U，使用基于锚点的概率近邻方法建立锚点集U中的锚点或已标记数据集X_l中的节点与数据集中其他节点之间的关系，得到关系矩阵Z^*；S400、将S200中得到的锚点集U中的锚点和已标记数据集X_l中的节点作为节点构造图结构，利用扩展标签传播方法进行标签传播；S500、根据S300中得到的关系矩阵Z^*和S400中得到的标签矩阵F^*进行标签传播得到最终分类结果。本公开提出的分类方法能够降低半监督分类过程中的时间复杂度和空间复杂度，提高效率。

Description

增强的锚点图半监督分类方法

技术领域

本公开涉及数据分类方法，具体地讲，涉及一种增强的锚点图半监督分类方法(Enhanced Semi-supervised Classification with Anchor Graph，ESCAG)。

背景技术

基于图的半监督学习为建模高维空间中可能存在于海量数据源中的流形结构提供了一个很有效的范例，它已被证明能有效地将有限数量的初始标签传播到大量的未标记数据，对已标记样本数量要求较低，从而满足许多新兴应用的需要，例如图像注释和信息检索。但是，目前大多数基于图的半监督学习方法侧重于分类的准确性，对降低方法复杂性研究较少。基于图的半监督学习方法随着数据样本数量的增加，耗费巨大的内存空间，矩阵运算十分耗时，甚至出现内存溢出的现象，空间复杂度和时间复杂度限制了基于图的半监督方法应用范围，其数据规模扩展性差，处理大型数据集的能力差。

基于锚点图的半监督分类方法能够实现对大数据集的有效分类，将大量未标记样本点的标记预测问题转换成少量锚点标签的加权平均，将方法的时间复杂度缩小到O(m²k)，空间复杂度也降低到O(m+n)，其中m为锚点个数，n为样本数量，m＜＜n，k是常量。但是该方法的锚点对噪声较为敏感；同时将节点与固定数量的锚点相关联，自适应性较差。由于存在上述缺点，因此亟需一种新的半监督分类方法，以降低分类的时间复杂度和空间复杂度，提高方法效率。

发明内容

针对上述问题，本公开提出了一种增强的锚点图半监督分类方法，对数据集进行锚点提取。通过建立样本点和锚点之间的关系矩阵标记未标记的样本点，从而进行分类，该方法能够降低半监督分类过程中的时间复杂度和空间复杂度，提高方法效率。

本公开提出的增强的锚点图半监督分类方法，可根据不同的数据集类型采用不同的锚点提取方法，例如对于像素级数据使用超像素分割(Simple Linear IterativeClustering，SLIC)方法进行锚点提取，对于图像级数据使用(K-Means ClusteringAlgorithm，K-Means)方法进行锚点提取，然后建立样本点与锚点之间的关系矩阵，使用扩展的标签传播(Extended Label Propagation，ELP)方法对锚点进行标记，最后通过关系矩阵与锚点的标记进行分类。

具体地，一种增强的锚点图半监督分类方法，包括：

S100、准备数据集，所述数据集包括已标记数据集X_l和未标记数据集X_u两部分，已标记数据集X_l的标记信息为F^l，数据集中数据的特征通过数据属性信息来描述，l表示已标记数据的个数，将数据集中的所有数据抽象为t维空间上的n个节点，其中第b个节点表示为p_b；

S200、对步骤S100中准备的数据集采用锚点提取方法提取m个锚点，得到锚点集U；

S300、根据步骤S200中得到的锚点集U，使用基于锚点的概率近邻方法建立锚点集U中的锚点或已标记数据集X_l中的节点二者中任一与数据集中其他节点之间的关系，得到关系矩阵Z^*，关系矩阵Z^*是一个n×m的矩阵，

代表锚点集U中的锚点或已标记数据集X_l中的节点p_j二者中任一与数据集中其他节点p_i之间的相似度，具体为：

其中，

代表p_j和p_i之间的相似度，p_j表示锚点集U中的锚点或已标记数据集X_l中的节点，p_i表示数据集中的其他节点，

表示p_j与p_i之间的距离，q表示p_j是p_i的第q个近邻，r为参数，其表示节点p_i连接距离其最近的r个已标记样本点或锚点作为该节点的近邻；

S400、将步骤S200中得到的锚点集U中的锚点和已标记数据集X_l中的节点作为节点构造图结构，利用扩展的标签传播(ELP)方法进行标签传播，具体为：

S401、根据已标记数据集的标记信息F^l和锚点的标记信息建立初始的标签矩阵F，

F＝[F^l；F^u]，

标签矩阵F是一个n′×c的矩阵，其中n′＝(l+m)为已标记节点和锚点的总数，c为标记的类别数，F^u表示锚点的标记信息，初始为0；若已标记数据集和锚点集的节点p_j的标记为v，则F_jv＝1，否则F_jv＝0，其中F_jv表示标签矩阵F第j行第v列的元素；

S402、根据锚点和已标记数据集中的节点的属性信息将其抽象为t维空间上的n′个节点，由n′个节点组成图，计算图中节点间的欧式距离，得到距离矩阵S，距离矩阵S是一个n′×n′的二维矩阵，S_lj表示矩阵中第l行第j列的值，存储图中节点p_l和节点p_j之间的欧氏距离，其中p_l和p_i都包括已标记数据集中的节点和锚点集中的锚点；

S403、根据步骤S402中得到的距离矩阵S选择每个节点的近邻并定义权值矩阵W，权值矩阵W是一个n′×n′的矩阵，其中W_lj用来描述节点p_l和节点p_j之间的相似度，即权值矩阵W第l行第j列的值；

S404、根据步骤S403中的权值矩阵W定义概率转移矩阵P，概率转移矩阵P是一个n′×n′的矩阵，其中P_lj是概率转移矩阵P第l行第j列的值，用来描述标签信息从节点p_l传播到节点p_j的概率，即节点p_j获取节点p_l的标签信息的概率；

S405、根据步骤S401中的标签矩阵F和步骤S404中的概率转移矩阵P迭代求解得到锚点的标记信息，锚点的标记信息和已标记节点的标记信息共同组成迭代后的标签矩阵F^*，标签矩阵F^*是一个n′×c的矩阵，

表示矩阵中第i行第j列的元素；

S500、根据步骤S300中得到的关系矩阵Z^*和步骤S400中得到的标签矩阵F^*进行标签传播得到最终的分类结果。

优选的，所述步骤S200中，若数据集为像素级，则对像素级数据采用的锚点提取方法为超像素分割(SLIC)方法，具体为：

S211，将图像细分成多个图像子区域，即图中的网格，每个图像子区域为一个聚类，其大小是s×s，

其中n为像素个数即数据集中的节点个数，m为锚点个数，初始时，选定每个网格中心的节点作为聚类中心，相邻两个聚类中心之间的距离为s；

S212，以步骤S211中选定的聚类中心为中心，在3×3的邻域内重新选择聚类中心，具体为，移动聚类中心到该邻域内梯度值最低的位置，梯度值低表示此处的像素样本点相似度高，为每个像素点p_x设置距离d(p_x)＝∞，d(p_x)表示像素点p_x到其所在聚类的聚类中心的距离；

S213，对步骤S212得到的每一个聚类中心遍历其2s×2s的邻域内的每一个像素点，计算邻域内的每个像素点p_x和聚类中心之间的距离

若

则

并将该像素点p_x划分到该聚类中心所在的聚类中；

S214，重复步骤S213直到每个像素点的聚类中心达到收敛，则此时所有的聚类中心作为提取的锚点集合U。

优选的，所述步骤S200中，若数据集为图像级，则对图像级数据分类采用的锚点提取方法为K均值聚类(K-Means)方法，具体为：

S221，图像级数据中每幅图像作为一个数据点，随机选取m个数据点作为初始的聚类中心；

S222，计算其他数据点与各个聚类中心的距离，并根据最小的距离对相应的数据点进行划分，即对于每个数据点来说，将其划分进距离其最近的聚类中心所在的聚类；

S223，计算每个聚类的均值并根据均值选择新的聚类中心，并选择均值最低的作为新的聚类中心，若聚类中心收敛，则方法终止，否则重复执行S222、S223，最终得到的所有聚类中心即为锚点集合U。

优选的，所述步骤S401中，F^l为已标记节点的标记信息矩阵，具体定义为：

其中

是矩阵F^l第h行第v列的值，它表示对于已标记数据集中的节点p_h，如果它的标记信息为v，则

否则

y_h是节点p_h的标记；

F^u为锚点的标记信息矩阵，矩阵F^u的取值范围为：

其中

是矩阵F^u第g行第v列的值，它表示对于锚点u_g，如果它的标记信息为v，则

否则

l为已标记数据集中的节点个数，n′为锚点和已标记节点的总数，初始时F^u＝0。

优选的，所述步骤S402中，图中节点p_l和节点p_j之间的欧式距离为：

其中t表示数据的维度，p_l、p_j表示图中的第l、j个节点，包括已标记节点和锚点，x_lw和x_jw分别是节点p_l、p_j第w维的坐标，根据节点间的欧氏距离生成距离矩阵S。

优选的，所述步骤S403中，根据距离矩阵S，使用kNN方法选择近邻，具体的：对于图中的每个节点，选择距离其最近的k个节点作为该节点的近邻，根据选择的近邻生成邻接矩阵A，A是一个n′×n′的矩阵，邻接矩阵A中，若p_j是p_l的近邻，则矩阵中相应位置A_lj的值为1，否则为0，A_lj表示邻接矩阵A中第l行第j列的值，p_l和p_j均包括已标记节点和锚点。

优选的，所述步骤S403中还包括，根据邻接矩阵A和距离矩阵S定义权值矩阵W，具体为：

当l≠j时，

当l＝j时，W_lj＝0；e是自然底数。

优选的，所述步骤S404中样本特征空间的概率转移矩阵P，具体为：

优选的，所述步骤S405中的迭代求解具体为：

S4051，F₀＝F，P₀＝P，其中F₀为初始的标签矩阵，P₀为初始的样本特征空间的概率转移矩阵；

S4052，F_t+1←F_tF_t，其中F_t+1为第t次迭代后得到的标签矩阵，P_t为第t-1次迭代后得到的概率转移矩阵，F_t为第t-1次迭代后得到的标签矩阵，该步骤将第t－1次迭代得到的概率转移矩阵和标签矩阵的乘积赋值给F_t+1；

S4053，

其中

为第t次迭代后得到的已标记节点的标记信息矩阵，Y^l为初始的标记信息矩阵，该步骤将初始的标记信息矩阵赋值给

目的是保证初始的标记信息不会改变；

S4054，

其中

为样本标记空间的概率转移矩阵，Nor表示对矩阵的归一化，

表达的是类别标签之间的相关性，即，如果p_l和p_j属于同类样本，则

的第l行第j列元素为1，否则为0，该步骤将第t-1次迭代后得到的标签矩阵与其转置矩阵相乘后的矩阵归一化后赋值给

S4055，

其中P_t+1为第t次迭代后得到的概率转移矩阵，P_t为第t-1次迭代后得到的概率转移矩阵，α为参数，一般取0.4，该参数用于调整P_t和

所占比例，M是一个n′×n′的矩阵，其中，M_lj＝1表示节点p_j是节点p_l的k个最相似的样本之一，否则，M_lj＝0；其中节点p_j和节点p_l均包括已标记节点和锚点，⊙是Hadamard乘积，

表示两个矩阵的对应位置元素相乘组成的新的矩阵，

为第t次迭代后得到的样本标记空间的概率转移矩阵，该步骤将第t-1次迭代后得到的概率转移矩阵和

矩阵以一定比例相加后得到的矩阵赋值给P_t+1；

S4056，重复执行步骤S4052至S4055直到收敛，此时的矩阵F_t即为迭代后的已标记节点和锚点的标签矩阵F^*。

优选的，所述步骤S500中，根据关系矩阵Z^*和标签矩阵F^*计算未标记样本的标记信息，具体包括：

其中，a_j表示标签矩阵F^*中第j列元素组成的向量，

为关系矩阵第i行组成的向量，

表示节点p_i取得标记信息j的概率，参数λ_j用于归一化，

其中，1^T是一个1×n的矩阵，矩阵中所有元素均为1，对于不同的类别j，有其对应的参数λ_j，1为已标记节点的个数，n为节点总数，argmax代表将当

取得最大值时所得的j值赋值给y_i，即将标记y_i作为节点p_i的标记，对所有节点获得标记后即完成数据的分类。

与现有技术相比，本公开具有下述有益技术效果：

(1)利用锚点实现不同分辨率下的图半监督分类方法，大大降低了构图和图正则化过程的时间复杂度和空间复杂度；

(2)采用灵活的锚点提取方法，针对不同类型的数据设计不同的锚点提取方法，进一步降低了时间复杂度；

(3)采用ELP方法进行锚点图的推导，提高了锚点图正则化的方法效率。

附图说明

图1表示本公开的增强的锚点图半监督分类方法流程图；

图2(a)表示图像分割的示例图像：person7.jpg；

图2(b)表示图像分割的示例图像：Sheep.jpg；

图2(c)表示图像分割的示例图像：388016.jpg；

图2(d)表示图像分割的示例图像：227092.jpg；

图2(e)表示图像分割的示例图像：189080.jpg；

图2(f)表示图像分割的示例图像：Teddy.jpg；

图2(g)表示图像分割的示例图像：banana2.bmp；

图2(h)表示图像分割的示例图像：music.jpg；

图3(a)表示person7.jpg的原图；

图3(b)表示person7.jpg的带标记的带分割图像；

图3(c)表示person7.jpg的标准分割结果图；

图3(d)表示person7.jpg的AGR(核回归)分割结果图；

图3(e)表示person7.jpg的AGR(LAE)分割结果图；

图3(f)表示person7.jpg的ESCAG分割结果图；

图4(a)表示Sheep.jpg的原图；

图4(b)表示Sheep.jpg的带标记的带分割图像；

图4(c)表示Sheep.jpg的标准分割结果图；

图4(d)表示Sheep.jpg的AGR(核回归)分割结果图；

图4(e)表示Sheep.Jpg的AGR(LAE)分割结果图；

图4(f)表示Sheep.Jpg的ESCAG分割结果图；

图5(a)表示388016.jpg的原图；

图5(b)表示388016.jpg的带标记的带分割图像；

图5(c)表示388016.jpg的标准分割结果图；

图5(d)表示388016.jpg的AGR(核回归)分割结果图；

图5(e)表示388016.jpg的AGR(LAE)分割结果图；

图5(f)表示388016.jpg的ESCAG分割结果图；

图6(a)表示227092.jpg的原图；

图6(b)表示227092.jpg的带标记的带分割图像；

图6(c)表示227092.jpg的标准分割结果图；

图6(d)表示227092.jpg的AGR(核回归)分割结果图；

图6(e)表示227092.jpg的AGR(LAE)分割结果图；

图6(f)表示227092.jpg的ESCAG分割结果图；

图7(a)表示189080.jpg的原图；

图7(b)表示189080.jpg的带标记的带分割图像；

图7(c)表示189080.jpg的标准分割结果图；

图7(d)表示189080.jpg的AGR(核回归)分割结果图；

图7(e)表示189080.jpg的AGR(LAE)分割结果图；

图7(f)表示189080.jpg的ESCAG分割结果图；

图8(a)表示Teddy.jpg的原图；

图8(b)表示Teddy.jpg的带标记的带分割图像；

图8(c)表示Teddy.jpg的标准分割结果图；

图8(d)表示Teddy.jpg的AGR(核回归)分割结果图；

图8(e)表示Teddy.jpg的AGR(LAE)分割结果图；

图8(f)表示Teddy.jpg的ESCAG分割结果图；

图9(a)表示banana2.bmp的原图；

图9(b)表示banana2.bmp的带标记的带分割图像；

图9(c)表示banana2.bmp的标准分割结果图；

图9(d)表示banana2.bmp的AGR(核回归)分割结果图；

图9(e)表示banana2.bmp的AGR(LAE)分割结果图；

图9(f)表示banana2.bmp的ESCAG分割结果图；

图10(a)表示music.jpg的原图；

图10(b)表示music.jpg的带标记的带分割图像；

图10(c)表示music.jpg的标准分割结果图；

图10(d)表示music.jpg的AGR(核回归)分割结果图；

图10(e)表示music.jpg的AGR(LAE)分割结果图；

图10(f)表示music.jpg的ESCAG分割结果图；

图11(a)表示USPS数据集上分类错误率随已标记样本数量变化的曲线；

图11(b)表示MNIST数据集上分类错误率随已标记样本数量变化的曲线；

图12(a)表示USPS数据集上执行时间随已标记样本数量变化的曲线；

图12(b)表示MNIST数据集上执行时间随已标记样本数量变化的曲线；

图13(a)表示USPS数据集上分类错误率随锚点数量变化的曲线；

图13(b)表示MNIST数据集上分类错误率随锚点数量变化的曲线；

图13(c)表示Letter Recognition数据集上分类错误率随锚点数量变化的曲线；

图14(a)表示USPS数据集上执行时间随锚点数量变化的曲线；

图14(b)表示MNIST数据集上执行时间随锚点数量变化的曲线；

图14(c)表示Letter Recognition数据集上执行时间随锚点数量变化的曲线。

具体实施方式

本公开提出的增强的锚点图半监督分类方法：

在一个实施例中，如图1所示，一种增强的锚点图半监督分类方法，包括：

其中，

F＝[F^l；F^u]，

S402、根据锚点和已标记数据集中的节点的属性信息将其抽象为t维空间上的n′个节点，由n′个节点组成图，计算图中节点间的欧式距离，得到距离矩阵S，距离矩阵S是一个n′×n′的二维矩阵，S_lj表示矩阵中第l行第j列的值，存储图中节点p_l和节点p_j之间的欧氏距离，其中p_l和p_j都包括已标记数据集中的节点和锚点集中的锚点；

表示矩阵中第i行第j列的元素；

在该实施例中，步骤Si00中准备的数据集包括已标记数据集X_l和未标记数据集X_u，所有数据抽象为t维空间上的n个节点，其中第b个节点表示为p_b，其可能是已标记数据，也可能是未标记数据。步骤S200中对准备的数据集(即抽象后的数据集)采用锚点提取方法提取锚点，得到锚点集，由于数据集可能是像素级数据或图像集数据等不同类型的数据，因此针对不同的数据集类型可以采用不同的锚点提取方法，后续将进一步说明。步骤S300是根据步骤S200得到的锚点集U，建立锚点集U中的锚点或已标记数据集X_l中的节点与数据集中其他节点之间的关系，得到关系矩阵Z^*；其中，相似度公式中的r参数，表示节点p_i连接距离其最近的r个已标记样本点或锚点作为该节点的近邻，具体来说，计算节点p_i与所有已标记样本点或锚点之间的欧氏距离，选择欧式距离最小的r个已标记样本点或锚点作为该节点的近邻。步骤S400是将步骤S200中得到的锚点集U中的锚点和已标记数据集X_l中的节点作为节点构造图结构，利用扩展的标签传播(Extended Label Propagation，ELP)方法进行标签传播，得到迭代后的标签矩阵F^*；步骤S500根据步骤S300中得到的关系矩阵Z^*和步骤S400中得到的标签矩阵F^*进行标签传播得到最终的分类结果。

其中，具体的，所述步骤S300中得到的关系矩阵Z^*通过如下方法得到：

首先建立关于矩阵Z的目标函数：

其中，Z_ij表示对于数据集中的样本p_i，样本p_j成为其近邻的概率，其满足0≤Z_ij≤1，p_j表示已标记节点和锚点中的第j个节点，p_i表示除此之外的节点中的第i个节点，；向量Z_i表示样本空间{p₁，p₂，...，p_n′}中所有样本成为p_i的近邻的概率，且Z_i中元素之和等于1，记为

γ是正则参数，γ＞0；n′＝m+l为锚点和已标记节点的总数；

表示样本点p_i与样本点p_j之间的距离，其表示为

q表示p_j是p_i的第q个近邻；由此可得到优化后的目标函数：

其中向量

表示样本空间{p₁，p₂，...，p_n′}中所有样本与样本p_i的欧氏距离；

由于正则参数γ＞0，因此通过拉格朗日乘子法求解上式，拉格朗日乘子法的主要思想是将约束条件函数与原函数联立，从而求出使原函数取得极值的各个变量的解，可得：

其中β_i＞0且η＞0，

为求得的三个变量的解，

表示向量β_i的转置，η为拉格朗日乘子；根据Karush-Kuhn-Tucker(KKT)条件，KKT条件是非线性规划中求最佳解的必要条件，在求解不等式约束的优化问题的极值时，KKT条件包括原可行性、对偶可行性、互补松弛条件和拉格朗日平稳性，由此可以证实最优解Z_ii为：

其中Z_ij表示向量Z_i的第j个元素，γ_i表示对于数据样本点p_i其正则参数γ的取值；为了自适应确定数据样本点p_i的近邻个数，近邻个数设置为不超过r，因此Z_i的最优解中非零元素个数不超过r个，p_i为除已标记节点和锚点之外的所有节点中的第i个节点；

由于

可以得到：

将Z_ij的最近邻约束设置为：

求解上式可得：

基于最小-最大归一化思想，最小-最大归一化是对数据进行归一化的最常用方法之一，用于将原始数据变换到[0，1]区间，将γ_i的值设置为：

将γ_i的取值代入最优解公式中可得关系矩阵Z^*为：

由于

满足条件：向量

中的元素之和等于1，因此可进一步改进关系矩阵Z^*为：

即为关系矩阵Z^*中第i行第j列的元素，

即为所求得的关系矩阵。

在该实施例中，在准备好的数据集进行锚点提取，在此基础上建立未标记样本和由已标记样本和锚点组成的样本集之间的关系矩阵Z^*，使用ELP方法在已标记样本点和锚点之间进行标签传播，得到锚点的标记信息，最后通过关系矩阵Z^*及已标记样本标记信息和锚点标记信息进行标签传播得到最终的分类结果；该方法能够降低半监督分类过程中的时间复杂度和空间复杂度，提高方法效率。

在另一个实施例中，所述步骤S200中，若数据集为像素级，则对像素级数据采用的锚点提取方法为超像素分割(SLIC)方法，具体为：

若

则

并将该像素点p_x划分到该聚类中心所在的聚类中；

在该实施例中，由于数据集可能有像素级或者图像集等不同的类别，像素级数据是图像中的像素点作为数据样本点组成数据集，图像级数据将每一幅图像作为数据样本点组成数据集。

锚点是局部的数据中心，它可以反映数据的分布，不论是像素级数据或图像集数据都可以使用不同的方法提取锚点，U表示锚点的集合，它有m个元素，即代表共有m个锚点，第i个锚点表示为u_i；锚点的数量远小于数据集中数据点的数量，因而可以在计算大规模数据集时提高效率。

像素级数据主要用于图像分割，一个像素级数据就是一幅图像；在该实施例中，针对像素级数据采用超像素分割(Simple Linear Iterative Clustering，SLIC)方法来提取锚点，获得锚点集U。其中，聚类中心收敛即表示聚类中心基本不再变化。

其中，步骤S212中的梯度值是指函数在该点的变化率，对于像素点p_x(x_x1，x_x2，...，x_xw)，其中x_x1，x_x2，...，x_xw分别表示像素点p_x第1，2，...，w维的坐标，其梯度值的计算过程具体表示为：

其中G(p_x)表示像素点p_x在该处的梯度值。

在另一个实施例中，所述步骤S200中，若数据集为图像级，则对图像级数据分类采用的锚点提取方法为K均值聚类(K-Means)方法，具体为：

在该实施例中，针对图像集数据提取锚点集，该方法根据数据对象之间的特征相似性，将相似性较高的数据对象划分到同一类，将相异度较高的数据对象划分到不同类，每一类有一个聚类中心，每个聚类中心都是一个锚点。聚类中心收敛即表示聚类中心基本不再变化。

在另一个实施例中，所述步骤S401中，F^l为已标记节点的标记信息矩阵，具体定义为：

其中

否则

y_h是节点p_h的标记；

F^u为锚点的标记信息矩阵，矩阵F^u的取值范围为：

其中

否则

该实施例中，具体说明了已标记节点的标记信息矩阵F^l和锚点的标记信息矩阵F^u如何取值。

在另一个实施例中，所述步骤S402中，图中节点p_l和节点p_j之间的欧式距离为：

在另一个实施例中，所述步骤S403中，根据距离矩阵S，使用kNN方法选择近邻，具体的：对于图中的每个节点，选择距离其最近的k个节点作为该节点的近邻，根据选择的近邻生成邻接矩阵A，A是一个n′×n′的矩阵，邻接矩阵A中，若p_i是p_l的近邻，则矩阵中相应位置A_lj的值为1，否则为0，A_lj表示邻接矩阵A中第1行第j列的值，p_l和p_j均包括已标记节点和锚点。

在另一个实施例中，所述步骤S403中还包括，根据邻接矩阵A和距离矩阵S定义权值矩阵W，具体为：

当l≠j时，

当l＝j时，W_lj＝0；e是自然底数。

在该实施例中，权值矩阵W是一个n′×n′的矩阵，其中W_lj用来描述节点p_l和节点p_j之间的相似度，即权值矩阵W第l行第j列的值，其中p_l和p_j都包括已标记数据集中的节点和锚点集中的锚点。

在另一个实施例中，所述步骤S404中样本特征空间的概率转移矩阵P，具体为：

在该实施例中，概率转移矩阵P是一个n′×n′的矩阵，其中P_lj是概率转移矩阵P第l行第j列的值，用来描述标签信息从节点p_l传播到节点p_j的概率，即节点p_j获取节点p_l的标签信息的概率，其中p_l和p_j都包括已标记数据集中的节点和锚点集中的锚点。

在另一个实施例中，所述步骤S405中的迭代求解具体为：

S4052，F_t+1←P_tF_t，其中F_t+1为第t次迭代后得到的标签矩阵，P_t为第t-1次迭代后得到的概率转移矩阵，F_t为第t-1次迭代后得到的标签矩阵，该步骤将第t-1次迭代得到的概率转移矩阵和标签矩阵的乘积赋值给F_t+1；

S4053，

其中

目的是保证初始的标记信息不会改变；

S4054，

其中

为样本标记空间的概率转移矩阵，Nor表示对矩阵的归一化，

S4055，

表示两个矩阵的对应位置元素相乘组成的新的矩阵，

矩阵以一定比例相加后得到的矩阵赋值给P_t+1；

该实施例具体说明了步骤步骤S405中的迭代求解过程，得到已标记节点和锚点的标签矩阵F^*。

在另一个实施例中，所述步骤S500中，根据关系矩阵Z^*和标签矩阵F^*计算未标记样本的标记信息，具体包括：

其中，a_j表示标签矩阵F^*中第j列元素组成的向量，

为关系矩阵第i行组成的向量，

表示节点p_i取得标记信息j的概率，参数λ_j用于归一化，

其中，1^T是一个1×n的矩阵，矩阵中所有元素均为1，对于不同的类别j，有其对应的参数λ_j，l为已标记节点的个数，n为节点总数，argmax代表将当

该实施例中，说明了根据关系矩阵Z^*和标签矩阵F^*计算未标记样本的标记信息的过程，最终对所有节点获得标记后即完成对数据的分类，获得了最终的分类结果，完成了本公开提出的增强的锚点图半监督分类方法ESCAG的全部流程。

以上对本公开提出的增强的锚点图半监督分类方法步骤进行了具体介绍，以下再通过具体实验对比来说明本公开提出的分类方法相比现有的数据分类方法的优越性。

实验

为了说明本公开提出的增强的锚点图半监督分类方法的优越性，分别在像素级数据集和图像级数据集上进行了实验，主要目的在于验证所提出的方法能够降低方法的时间复杂度和空间复杂度，提高方法效率。将本公开提出的ESCAG方法与AGR(核回归)方法和AGR(LAE)方法进行比较，AGR(核回归)方法是利用核回归方法求解关系矩阵Z^*，AGR(LAE)方法是利用LAE方法求解关系矩阵Z^*。

像素级数据分类实验结果

为了测试本公开提出的增强的锚点图半监督分类方法对于像素级数据的分类性能，在Geodesic star-dataset数据集上进行测试。Geodesic star-dataset是一个交互式图像分割数据集，该数据集包含151张图像，其中49张来自GrabCut数据集，99张来自PASCALVOC数据集和3张来自Alpha matting数据集的图片。该数据库中图像具有代表性，有的图像简单易分类，有的图像具有复杂的背景和目标，有的图像背景颜色接近于目标图形，可以充分体现所提方法的优点。

示例图像如图2(a)至图2(h)所示，图2(a)为person7.jpg，图2(b)为Sheep.jpg，图2(c)为388016.jpg，图2(d)为227092.jpg，图2(e)为189080.jpg，图2(f)为Teddy.jpg，图2(g)为banana2.bmp，图2(h)为music.jpg。将本公开ESCAG方法与AGR(核回归)方法和AGR(LAE)方法在图2(a)至图2(h)所示图像上进行比较。分割结果如图3(a)到图10(f)所示。在图3(a)到图10(f)中，图3(a)、图4(a)、图5(a)、图6(a)、图7(a)、图8(a)、图9(a)、图10(a)为原始图像，图3(b)、图4(b)、图5(b)、图6(b)、图7(b)、图8(b)、图9(b)、图10(b)上涂鸦线为已标记像素点，物体外的线为背景像素，物体上的线为待分割目标的像素，图3(c)、图4(c)、图5(c)、图6(c)、图7(c)、图8(c)、图9(c)、图10(c)为标准分割结果图像，图3(d)至图3(f)、图4(d)至图4(f)、图5(d)至图5(f)、图6(d)至图6(f)、图7(d)至图7(f)、图8(d)至图8(f)、图9(d)至图9(f)、图10(d)至图10(f)分别为AGR(核回归)、AGR(LAE)、ESCAG方法得到的图像分割结果。

为了从量化角度比较各个方法的分割效果，像素的分类错误率和方法运行的时间如表1所示，该表中第一列为实验图片，第二列和第三列分别是AGR(核回归)方法和AGR(LAE)方法的实验结果，第四列是本公开提出的ESCAG方法的实验结果，从结果可以看出，除了Sheep.jpg和music.jpg两幅图像以外，本公开提出的ESCAG方法都具有最低的分类错误率。在方法执行时间上，AGR(核回归)的执行时间最短，本公开提出的ESCAG方法的执行时间居中，略高于AGR(核回归)的时间，AGR(LAE)方法的执行时间远远大于另外两种方法。因此，本公开提出的ESCAG方法具有最高分类准确率，在保证分类准确率的情况下，相比而言具有较好的时间性能。

表1图像分割的错误率和执行时间(％/秒)

图片	AGR(核回归)	AGR(LAE)	ESCAG
				Person7.jpg	9.60/15.9043	10.30/277.5916	9.40/18.1013
Sheep.jpg	5.23/6.1289	6.17/143.1793	5.58/18.2267
				388016.jpg	3.63/5.9078	3.73/73.9042	3.44/23.0022
227092.jpg	1.75/5.3404	1.74/32.4136	1.70/20.5297
				189080.jpg	3.38/5.0340	2.10/45.2084	2.03/18.5609
Teddy.jpg	1.52/3.6332	1.46/31.8552	1.27/13.7847
				banana2.bmp	5.46/41.6738	5.31/170.1211	5.14/53.4346
muslc.jpg	3.89/107.6147	3.87/238.8077	3.88/56.2570

图像级数据分类实验结果

为了测试本公开提出的增强的锚点图半监督分类方法对于图像级数据的分类性能，在USPS，MNIST，Letter Recognition数据集上进行图像分类的实验，各数据集的样本数、类别数和特征维度如表2所示。

表2图像数据集列表

	USPS	MNIST	Letter Recognition
				样本数	7,291	70,000	20,000
类别数	10	10	26
				维度	256	784	16

以上数据集都是现有的数据集，在ImageNet数据库中可以获取。

1.方法性能与已标记样本数量相关性实验

为了验证不同数量已标记样本对方法分类准确率的影响，在锚点数取1000的情况下，在USPS数据集和MNIST数据集上进行分类实验。在每个数据集的每类样本中随机选择10-100个样本作为已标记样本，两个数据集中的样本分别为10类，因此，已标记样本总数为100-1000。

在两个数据集上的分类结果见图11(a)至图11(b)，图11(a)为USPS数据集上的分类错误率随已标记样本数量变化的曲线，图11(b)为MNIST数据集上的分类错误率随已标记样本数量变化的曲线。随着已标记样本数的增加，在两个数据集上，AGR(核回归)方法的分类错误率都快速下降，而AGR(LAE)和本公开提出的ESCAG方法的分类错误率没有明显的变化，说明AGR(核回归)方法性能受已标记样本数量的影响很大，AGR(LAE)和本公开提出的ESCAG方法几乎不受已标记样本数量的影响。AGR(核回归)方法的错误率远高于另外两种方法。AGR(LAE)和ESCAG方法在已标记样本数为100时，即可取得较低的分类错误率，其中本公开提出的ESCAG方法的错误率低于AGR(LAE)方法。因此，针对已标记样本数量的变化，本公开提出的增强的锚点图半监督分类方法在分类准确率上优于其它两种方法，对已标记样本数量要求较少。

在USPS数据集和MNIST数据集上，分类方法的执行时间如图12(a)至图12(b)所示，图12(a)为USPS数据集上执行时间随已标记样本数量变化的曲线，图12(b)为MNIST数据集上执行时间随已标记样本数量变化的曲线。随着已标记样本数量的增加，在USPS数据集和MNIST数据集上，三种方法的执行时间基本没有明显的变化，只有AGR(LAE)方法的执行时间会有少数的明显波动，因此，基于锚点的方法的执行时间受已标记样本数量的影响较小。AGR(LAE)执行时间最长，明显高于AGR(核回归)方法和本公开提出的ESCAG方法执行时间，其中AGR(核回归)方法的执行时间略低于本公开提出的ESCAG方法。

计算上述三种方法在MNIST数据集上，随已标记样本数量变化的分类错误率平均值和执行时间平均值，结果如表3所示。由图11(b)和图12(b)可知，在MNIST数据集上，随已标记样本数量变化的分类错误率平均值和执行时间平均值与表3具有类似的趋势。如表3所示，第一列为平均分类错误率，第二列为平均执行时间。从结果可以看出，AGR(核回归)方法的平均执行时间最短，但平均分类错误远高于另外两种方法。AGR(LAE)方法的平均分类错误率较低，与本公开提出的ESCAG方法的平均错误率差别不大，但是平均执行时间远高于其它两种方法。本公开提出的ESCAG方法平均分类错误率最低，并远低于AGR(核回归)方法的错误率，平均执行时间居中，略高于AGR(核回归)方法，但远低于AGR(LAE)方法。因此，本公开提出的ESCAG方法可较好地兼顾分类准确率和分类效率，在分类有效性和分类效率上达到平衡。

表3在已标记样本数量变化时，MNIST数据集上的平均分类错误率和执行时间

	平均分类错误率	平均执行时间
			AGR(核回归)	48.529(最高)	3.06682(最短)
AGR(LAE)	7.726(居中)	120.50861(最长)
			ESCAG(本公开提出)	7.047(最低)	7.05083(居中)

2.方法性能与锚点数量相关性实验

为了验证不同数量锚点对方法分类准确率的影响，在USPS数据集、MNIST数据集和Letter Recognition数据集上进行实验。根据图11(a)至12(b)所示的实验结果，在USPS数据集和MNIST数据集中，从每类样本中随机选择50个样本作为已标记样本，每个数据集的已标记样本总数为500个。在Letter Recognition数据集上，从每类样本中随机选择10个样本作为已标记样本，已标记样本总数为260个。锚点数选取100-3000，分类结果随锚点数变化的曲线如图13(a)至图13(c)所示，图13(a)为USPS数据集上分类错误率随锚点数量变化的曲线，图13(b)为MNIST数据集上分类错误率随锚点数量变化的曲线，图13(c)为LetterRecognition数据集上分类错误率随锚点数量变化的曲线。在USPS数据集和MNIST数据集上，当锚点数超过400之后，随着锚点数量的增加，AGR(核回归)方法的错误率迅速增加。在Letter Recognition数据集上，当锚点数在100-400之间时，AGR(核回归)方法的错误率迅速增加接近最大值，之后错误率变化平缓。由图13(a)至图13(c)可以看出，AGR(LAE)方法和本公开提出的ESCAG方法随着锚点数的增加，分类错误率基本呈下降趋势，但变化平缓。在USPS数据集和MNIST数据集上，当锚点数超过400之后，AGR(LAE)方法和本公开提出的ESCAG方法的分类错误率远低于AGR(核回归)方法，在LetterRecognition数据集上，除锚点数等于100的情况外，AGR(LAE)方法和本公开提出的ESCAG方法的分类错误率明显低于AGR(核回归)方法。其中，在三个数据集上，随着锚点数的变化，本公开提出的ESCAG方法的分类错误率基本上保持最低。

三种方法的执行时间随锚点数量变化的趋势如图14(a)至图14(c)所示，图14(a)为USPS数据集上执行时间随锚点数量变化的曲线，图14(b)为MNIST数据集上执行时间随锚点数量变化的曲线，图14(c)为Letter Recognition数据集上执行时间随锚点数量变化的曲线。随着锚点数量的增加，三种方法的执行时间都呈上升趋势。AGR(LAE)方法的执行时间最长，其次为本公开提出的ESCAG方法，AGR(核回归)方法用时最短，并且AGR(LAE)方法的执行时间远远超过另外两种方法的执行时间。因此，本公开提出的ESCAG方法可较好地兼顾分类准确率和分类效率，在分类有效性和分类效率上达到平衡。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种增强的锚点图半监督分类方法，包括：

S100、准备数据集，所述数据集包括已标记数据

和未标记数据集

两部分，已标记数据集

的标记信息为

，数据集中数据的特征通过数据属性信息来描述，

表示已标记数据的个数，将数据集中的所有数据抽象为

维空间上的

个节点，其中第

个节点表示为

；

S200、对步骤S100中准备的数据集采用锚点提取方法提取

个锚点，得到锚点集

；

S300、根据步骤S200中得到的锚点集

，使用基于锚点的概率近邻方法建立锚点集

中的锚点或已标记数据集

中的节点二者中任一与数据集中其他节点之间的关系，得到关系矩阵

，关系矩阵

是一个

的矩阵，

代表锚点集

中的锚点或已标记数据集

中的节点

二者中任一与数据集中其他节点

之间的相似度，具体为：

，

其中，

代表

和

之间的相似度，

表示锚点集

中的锚点或已标记数据集

中的节点，

表示数据集中的其他节点，

表示

与

之间的距离，

表示

是

的第

个近邻，

为参数，其表示节点

连接距离其最近的

个已标记样本点或锚点作为该节点的近邻；

S400、将步骤S200中得到的锚点集

中的锚点和已标记数据集

中的节点作为节点构造图结构，利用扩展的标签传播（ELP）方法进行标签传播，具体为：

S401、根据已标记数据集的标记信息

和锚点的标记信息建立初始的标签矩阵

，

，

标签矩阵

是一个

的矩阵，其中

为已标记节点和锚点的总数，

为标记的类别数，

表示锚点的标记信息，初始为0；若已标记数据集和锚点集的节点

的标记为

，则

，否则

，其中

表示标签矩阵

第

行第

列的元素；

S402、根据锚点和已标记数据集中的节点的属性信息将其抽象为

维空间上的

个节点，由

个节点组成图，计算图中节点间的欧式距离，得到距离矩阵

，距离矩阵

是一个

的二维矩阵，

表示矩阵中第

行第

列的值，存储图中节点

和节点

之间的欧氏距离，其中

和

都包括已标记数据集中的节点和锚点集中的锚点；

S403、根据步骤S402中得到的距离矩阵

选择每个节点的近邻并定义权值矩阵

，权值矩阵

是一个

的矩阵，其中

用来描述节点

和节点

之间的相似度，即权值矩阵

第

行第

列的值；

S404、根据步骤S403中的权值矩阵

定义概率转移矩阵

，概率转移矩阵

是一个

的矩阵，其中

是概率转移矩阵

第

行第

列的值，用来描述标签信息从节点

传播到节点

的概率，即节点

获取节点

的标签信息的概率；

S405、根据步骤S401中的标签矩阵

和步骤S404中的概率转移矩阵

迭代求解得到锚点的标记信息，锚点的标记信息和已标记节点的标记信息共同组成迭代后的标签矩阵

，标签矩阵

是一个

的矩阵，

表示矩阵中第

行第

列的元素；

S500、根据步骤S300中得到的关系矩阵

和步骤S400中得到的标签矩阵

进行标签传播得到最终的分类结果；

其中，所述步骤S200中，若数据集为像素级，则对像素级数据采用的锚点提取方法为超像素分割（SLIC）方法，具体为：

S211，将图像细分成多个图像子区域，即图中的网格，每个图像子区域为一个聚类，其大小是

，

，其中

为像素个数即数据集中的节点个数，

为锚点个数，初始时，选定每个网格中心的节点作为聚类中心，相邻两个聚类中心之间的距离为

；

S212，以步骤S211中选定的聚类中心为中心，在

的邻域内重新选择聚类中心，具体为，移动聚类中心到该邻域内梯度值最低的位置，梯度值低表示此处的像素样本点相似度高，为每个像素点

设置距离

，

表示像素点

到其所在聚类的聚类中心的距离；

S213，对步骤S212得到的每一个聚类中心遍历其

的邻域内的每一个像素点，计算邻域内的每个像素点

和聚类中心之间的距离

，若

，则

，并将该像素点

划分到该聚类中心所在的聚类中；

S214，重复步骤S213直到每个像素点的聚类中心达到收敛，则此时所有的聚类中心作为提取的锚点集合

。

2.根据权利要求1所述的方法，所述步骤S200中，若数据集为图像级，则对图像级数据分类采用的锚点提取方法为K均值聚类（K-Means）方法，具体为：

S221，图像级数据中每幅图像作为一个数据点，随机选取

个数据点作为初始的聚类中心；

S223，计算每个聚类的均值并根据均值选择新的聚类中心，并选择均值最低的作为新的聚类中心，若聚类中心收敛，则方法终止，否则重复执行S222、S223，最终得到的所有聚类中心即为锚点集合

。

3.根据权利要求1所述的方法，所述步骤S401中，

为已标记节点的标记信息矩阵，具体定义为：

其中

是矩阵

第

行第

列的值，它表示对于已标记数据集中的节点

，如果它的标记信息为

，则

，否则

，

是节点

的标记；

为锚点的标记信息矩阵，矩阵

的取值范围为：

其中

是矩阵

第

行第

列的值，它表示对于锚点

，如果它的标记信息为

，则

，否则

，

为已标记数据集中的节点个数，

为锚点和已标记节点的总数，初始时

。

4.根据权利要求1所述的方法，所述步骤S402中，图中节点

和节点

之间的欧式距离为：

其中

表示数据的维度，

、

表示图中的第

、

个节点，包括已标记节点和锚点，

和

分别是节点

、

第

维的坐标，根据节点间的欧氏距离生成距离矩阵

。

5.根据权利要求1所述的方法，所述步骤S403中，根据距离矩阵

，使用kNN方法选择近邻，具体的：对于图中的每个节点，选择距离其最近的

个节点作为该节点的近邻，根据选择的近邻生成邻接矩阵

，

是一个

的矩阵，邻接矩阵

中，若

是

的近邻，则矩阵中相应位置

的值为1，否则为0，

表示邻接矩阵

中第

行第

列的值，

和

均包括已标记节点和锚点。

6.根据权利要求5所述的方法，所述步骤S403中还包括，根据邻接矩阵

和距离矩阵

定义权值矩阵

，具体为：

当

时，

当

时，

；

是自然底数。

7.根据权利要求1所述的方法，所述步骤S404中样本特征空间的概率转移矩阵

，具体为：

。

8.根据权利要求1所述的方法，所述步骤S405中的迭代求解具体为：

S4051，

，

，其中

为初始的标签矩阵，

为初始的样本特征空间的概率转移矩阵；

S4052，

，其中

为第

次迭代后得到的标签矩阵，

为第

次迭代后得到的概率转移矩阵，

为第

次迭代后得到的标签矩阵，该步骤将第

次迭代得到的概率转移矩阵和标签矩阵的乘积赋值给

；

S4053，

，其中

为第

次迭代后得到的已标记节点的标记信息矩阵，

为初始的标记信息矩阵，该步骤将初始的标记信息矩阵赋值给

，目的是保证初始的标记信息不会改变；

S4054，

，其中

为样本标记空间的概率转移矩阵，Nor表示对矩阵的归一化，

表达的是类别标签之间的相关性，即，如果

和

属于同类样本，则

的第

行第

列元素为1，否则为0，该步骤将第

次迭代后得到的标签矩阵与其转置矩阵相乘后的矩阵归一化后赋值给

；

S4055，

，其中

为第

次迭代后得到的概率转移矩阵，

为第

次迭代后得到的概率转移矩阵，

为参数，一般取0.4，该参数用于调整

和

所占比例，

是一个

的矩阵，其中，

表示节点

是节点

的

个最相似的样本之一，否则，

；其中节点

和节点

均包括已标记节点和锚点，

是Hadamard乘积，

表示两个矩阵的对应位置元素相乘组成的新的矩阵，

为第

次迭代后得到的样本标记空间的概率转移矩阵，该步骤将第

次迭代后得到的概率转移矩阵和

矩阵以一定比例相加后得到的矩阵赋值给

；

S4056，重复执行步骤S4052至S4055直到收敛，此时的矩阵

即为迭代后的已标记节点和锚点的标签矩阵

。

9.根据权利要求1所述的方法，所述步骤S500中，根据关系矩阵

和标签矩阵

计算未标记样本的标记信息，具体包括：

其中，

表示标签矩阵

中第

列元素组成的向量，

为关系矩阵第

行组成的向量，

表示节点

取得标记信息

的概率，参数

用于归一化，

，其中，

是一个

的矩阵，矩阵中所有元素均为1，对于不同的类别

，有其对应的参数

，

为已标记节点的个数，

为节点总数，

代表将当

取得最大值时所得的

值赋值给

，即将标记

作为节点

的标记，对所有节点获得标记后即完成数据的分类。