CN111639674B

CN111639674B - 一种基于半监督学习图像聚类的数据处理方法和系统

Info

Publication number: CN111639674B
Application number: CN202010353510.2A
Authority: CN
Inventors: 盛佳佳; 孙丽萍; 杜亭莉; 郑孝遥; 陈付龙; 罗永龙
Original assignee: Anhui Normal University
Current assignee: Anhui Normal University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-10-31
Anticipated expiration: 2040-04-29
Also published as: CN111639674A

Abstract

本发明公开了一种基于半监督学习图像聚类的数据处理方法和系统，该方法将样本的局部密度作为样本在传播过程中具有的影响力，将样本的局部密度和样本的k近邻信息相结合。基于半监督学习的图像聚类方法选择局部密度和高局部密度点距离都相对较大的样本作为种子样本，种子样本作为样本集中的中心节点在基于密度的k近邻连接图上完成标签传播。基于密度的k近邻连接图的边为有向边，边的权重衡量了标签传播的强弱程度，边的数值与标签传播的方向相关。本发明的图像聚类效果优于一般的图像聚类算法。

Description

一种基于半监督学习图像聚类的数据处理方法和系统

技术领域

本发明涉及计算机数据处理领域，尤其涉及图像聚类技术领域，更具体的说是一种基于半监督学习的图像聚类方法。

背景技术

聚类算法在数据分析和数据处理中发挥着重要作用。聚类算法依靠数据对象的相似性对样本集进行类簇划分，同一类簇中的数据对象之间相似性较高，不同类簇的数据对象之间的相似性较低。图像聚类是将相同或相似的图片划分到同一类中，不同的图片划分到不同簇中。常见的图像聚类算法通过采用提取图像的特征值再进行相似度的衡量，但是在提取特征值时往往难以达到完整和准确。

半监督学习中的标签传播算法利用样本中少量已知标签的样本来预测未知标签样本的标签。标签传播算法依靠样本之间的关联程度完成标签的传播，但是算法仅依靠距离计算样本点的关联程度，关联程度计算不准确，容易产生标签震荡和产生唯一的类簇。在标签传播过程中若样本的标签按照一定的更新顺序并且能够准确的选择出中心节点的样本，就能够充分的发挥中心节点的传播能力。在样本集中，具有较强传播能力的样本能够传播标签给更多相似的样本。

然而目前在数据处理方面，并没有将半监督学习方法与图像聚类方法进行结合的技术，无法对对未知标签的样本的标签预测，聚类方法的精度不足，导致难以实现对复杂人脸图像识别等图像数据的处理工作。

发明内容

本发明所要解决的技术问题是实现一种基于半监督学习的图像聚类方法和系统。充分发挥中心节点在传播过程中的影响力，聚类效果优于原始的标签传播聚类以及经典的聚类算法。本发明用局部密度来衡量样本在传播过程中的影响力，选择出种子样本作为样本的中心节点，为种子样本分配类别标签之后采用基于密度的k近邻连接图的标签传播算法，预测未知类别的样本的类别标签，能够有效的解决聚类方法的精度不足等问题，能够帮助计算机实现对复杂图像数据处理的工作。

为了实现上述目的，本发明采用的技术方案为：一种基于半监督学习图像聚类的数据处理方法，

包括以下步骤：

步骤1、获取图像样本集阶段：所述图像样本集包括：若干图像，对每个图像灰度化，提取灰度化后的图像的灰度值并存储到行向量中，每个样本对应一个行向量β＝(β₁，β₂，……，β_M)，由N个样本构成大小为N×M的图像样本集X。

步骤2、计算局部密度和高局部密度点距离阶段：计算局部密度时将样本的局部密度和样本的k近邻信息相结合；

步骤3、种子样本选择阶段：选择局部密度相对较大且高局部密度点距离相对较大的样本作为种子样本；

步骤4、构建基于密度的k近邻连接图阶段：基于密度的k近邻连接图中的边的权重衡量了标签传播的强弱程度；

步骤5、剩余样本分配阶段：为每个种子样本分配类别标签，在基于密度的k近邻连接图上进行标签传播，样本的标签信息即为样本所属的类别。

所述步骤1中，首先对每个图像进行灰度化处理，提取灰度化后的图像的灰度值并存储到行向量中，每个样本对应一个行向量β＝(β₁，β₂，……，β_M)，由N个样本构成大小为N×M的图像样本集X。

所述步骤2中，首先计算样本的k近邻样本集，之后在计算样本的局部密度时将样本的局部密度和样本的k近邻信息相结合；所述高局部密度点距离为该样本到比该样本局部密度高的样本之间的高局部密度点距离，若该样本为最高密度的样本，则高局部密度点距离为该样本到其他样本的最长距离。

所述步骤3中，根据步骤2中得到的样本的局部密度和高局部密度点距离，选择局部密度相对较大并且高局部密度点距离相对较大的样本作为种子样本。

所述步骤4中，依靠样本和其k近邻样本集中的样本构造基于密度的k近邻连接图，基于密度的k近邻连接图中的每个顶点在样本集中都有相对应的样本，图中边的权重衡量了标签传播的强弱程度。

所述步骤5中，样本所携带的标签信息即为样本所属的类别，为种子样本分配类别标签之后开始标签传播，并引入梯度下降算法计算传播损失值。具有相同标签的样本为划分到同一类簇中。

所述步骤2包括以下步骤：

步骤2.1、对于大小为N×M的样本集X，则对于任意样本都有x_i＝(x_i1,x_i2,...,x_iM)，N表示样本的总个数，利用以下公式计算样本x_i(1≤j≤N)和样本x_j(1≤j≤N)之间的欧氏距离：

步骤2.2、记kNN(x_i)为样本x_i(1≤i≤N)的k近邻集，定义式如下：

kNN(x_i)＝{x_j∈X|d(x_i,x_j)≤dk(x_i)}

其中dk(x_i)为样本集X中的样本x_i到其他样本的欧氏距离按照升序排列得到的第k个距离，d(x_i,x_j)表示样本x_i与样本x_j之间的欧氏距离；

其中，s表示下标，1≤s≤M,由样本为样本集中对应的行向量，则有x_i＝[x_i1,x_i2,...,x_iM]，X_is表示样本x_i对应的行向量中的元素，X_js则表示样本x_j对应的行向量中的元素；

步骤2.3、将样本的局部密度和样本的k近邻信息相结合。记ρ_i为样本x_i的局部密度，定义式如下：

步骤2.4、记δ_i为样本x_i的高局部密度点距离，δ_i为x_i到其他较高密度样本之间的最短距离，如果该样本已经是最高密度的样本，高局部密度点距离等于该样本到其他样本的最长距离，δ_i的计算公式如下：

所述步骤3包括以下步骤：

步骤3.1、根据步骤2计算得到的样本的局部密度ρ和高局部密度点距离δ，选择局部密度和高局部密度点距离都相对较大的样本作为种子样本。首先计算γ_i＝ρ_i×δ_i，之后将样本按照γ值降序排列记为

步骤3.2、选择中的前npeaks个样本(选择的样本个数)为种子样本。

步骤3.3、为种子样本分配类簇标号，将样本按照局部密度降序排列并记作

所述步骤4包括以下步骤：

步骤4.1、构建基于密度的k近邻连接图，图中的顶点由样本与其k近邻样本集构成，顶点只与其k近邻样本集中的每个样本之间存在着有向边，与其他样本之间不存在有向边。

步骤4.2、记W_ij表示样本x_i和其k近邻样本x_j在基于密度的k近邻连接图中对应的边的权重，其计算公式如下：

W_ij＝exp(ρ_i-ρ_j)

其中ρ_i表示样本x_i的局部密度，ρ_j表示样本x_j的局部密度。

所述步骤5包括以下步骤：

步骤5.1、由种子样本和kNN(x_i)得到每个种子样本的k近邻样本，之后为每个种子样本的k近邻样本分配类别标签，记已分配类别标签的样本集为Q。

步骤5.2、由已分配类别标签的样本构建已知类别矩阵L，L是大小为l×kc的矩阵，其中l表示已知类别的样本个数，kc表示已知的类簇个数；

步骤5.3、根据未知类别的样本构建未知类别矩阵U，U是大小为(N-l)×kc的零矩阵，其中N表示样本的个数，l表示已知类别的样本个数，kc表示已知的类簇个数。根据已知类别矩阵L和未知类别矩阵U初始化标签传播矩阵F，F是大小为N×kc的矩阵，F_ij则代表第i行代表的样本属于第j列代表的类别的概率；

步骤5.4、根据已分配类别标签的样本开始标签传播进行样本标签的初始更新，在原始的更新标签传播算法中引入梯度下降函数来计算标签在传播过程中的损失情况，初始更新的计算公式如下：

其中表示样本x_m在第n次迭代完成更新后的矩阵，/>为样本x_j未开始标签更新时对应的初始标签传播矩阵，x_i∈Q，x_j∈kNN(x_i)，W_ij表示样本x_i和其k近邻样本x_j在基于密度的k近邻连接图中对应的边的权重，η为权重系数，设定η初值为0.1。

步骤5.5、依次取出中的样本/>

步骤5.6、由样本以及样本x_j∈kNN(x_i)完成第t次的标签传播，t值的初值为1，计算公式如下：

其中，W_ij表示样本和其k近邻样本x_j在基于密度的k近邻连接图中对应的边的权重。

步骤5.7、更新迭代次数t，t＝t+1；

步骤5.8、更新η，其中N为样本的个数；

步骤5.9、根据第t次迭代后的传播矩阵F^(t)预测未知类别样本x_i的类别计算公式如下：

若满足条件此次与前一次这两次预测的样本类别一致，将类别相同的样本划分到同一个类簇中，所有剩余样本分配完成；若不满足条件则转到步骤5.5。

第二方面，本发明还提供了基于半监督学习的图像聚类系统；

基于半监督学习的图像聚类系统，包括：

获取图像样本集模块，其被配置为获取图像样本集；所述图像样本集包括：若干个图像；对每个图像进行灰度化，提取灰度化后的图像的灰度值并存储到行向量中，每个样本对应一个行向量β＝(β₁，β₂，……，β_M)，由N个样本构成大小为N×M的图像样本集X。

选择种子样本模块，其被配置为求解样本的局部密度和高局部密度点距离，选择局部密度和高局部密度点距离都相对较大的样本作为种子样本，为种子样本分配类别标签；

构造连接图模块，其被配置为构造基于密度的k近邻连接图，图中边的权重衡量了标签传播的强弱程度；

获取待聚类图像标签模块，其被配置为在基于密度的k近邻连接图上进行标签传播，得到待聚类图像的类别标签。

本发明通过种子样本的影响力来完成在基于密度的k近邻连接图上的标签传播，按照局部密度从高到低顺序开始标签传播充分发挥了种子样本作为关键节点在传播过程中的影响力。不同于原始的标签传播算法构建完全图且仅依靠样本之间的距离计算图中边的权重，本方法构建基于密度的k近邻连接图，图中边的权重与样本的局部密度相结合。该方法将相同标签的样本划分到同一类簇中，完成待聚类图像的聚类，不需要进行提取图像的特征值，只需要对种子样本和其k近邻样本分配类别标签即可完成对待聚类图像的类簇划分，在图像聚类的准确度上优于一般的聚类算法。

附图说明

下面对本发明说明书中每幅附图表达的内容作简要说明：

图1为基于半监督学习图像聚类的方法流程图；

图2为基于密度的k近邻连接图；

图3为基于半监督学习图像聚类的数据处理系统结构示意图。

具体实施方式

下面对照附图，通过对实施例的描述，本发明的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等，作进一步详细的说明，以帮助本领域技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

在基于半监督的图像聚类方法中，需要通过学习已分配标签的样本来实现对未知标签的样本的标签预测，标签信息即为样本所属的类别。半监督学习聚类能够在有类别标签的监督学习实现聚类，聚类效果比只用无类别标签的样本进行聚类的效果更好，能够提高聚类方法的精度。

如图1所示，基于半监督学习的图像聚类方法包括以下步骤：

步骤1:获取图像样本集阶段,具体步骤包括：

步骤1.1、首先对每个图像进行灰度化处理，提取灰度化后的图像的灰度值并存储到行向量中，每个样本对应一个行向量β＝(β₁，β₂，……，β_M)，由N个样本构成大小为N×M的图像样本集X。

步骤2:计算局部密度和高局部密度点距离阶段，具体包括步骤：

kNN(x_i)＝{x_j∈X|d(x_i,x_j)≤dk(x_i)}

步骤3:种子样本选择阶段，具体包括：

步骤3.2、选择中的前npeaks个样本为种子样本。

步骤4:构建基于密度的k近邻连接图阶段，具体步骤包括：

W_ij＝exp(ρ_i-ρ_j)

步骤5:剩余样本分配阶段，具体步骤包括：

步骤5.2、由已分配类别标签的样本构建已知类别矩阵L，L是大小为l×kc的矩阵，其中N表示样本的个数，l表示已知类别的样本个数，kc表示已知的类簇个数。

步骤5.3、根据未知类别的样本构建未知类别矩阵U，U是大小为(N-l)×kc的零矩阵，根据已知类别矩阵L和未知类别矩阵U初始化标签传播矩阵F，F是大小为N×kc的矩阵，F_ij则代表第i行代表的样本属于第j列代表的类别的概率。

步骤5.5、依次取出中的样本/>

步骤5.6、由以及样本x_j∈kNN(x_i)完成第t次的标签传播，t值的初值为1，计算公式如下：

步骤5.7、更新迭代次数t，t＝t+1；

步骤5.8、更新η，其中N为样本的个数；

如图2所示，构建样本基于密度的k近邻连接图：基于密度的k近邻连接图中样本只与其k近邻样本集中的样本存在有向边，有向边的权重衡量了标签传播的强弱程度。图中样本x_a，样本x_f，样本x_d为已经分配类别标签的样本点，样本右侧标注为样本的类别标签，图中标注未分配标签的样本所属的类别标签为0。在图中，样本x_a的邻居样本点为样本x_b，样本x_e，样本x_d。样本x_d的邻居样本为x_a，样本x_g。样本x_f的邻居样本为x_b。

如图3所示，基于半监督学习的图像聚类系统包括以下模块。

根据本发明获取类别标签的方法，可以将其应用在识别指纹、识别手写字体、识别人脸等图像的数据处理中，能够解决大量因为数据处理复杂，而无法进行识别的技术问题。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于半监督学习图像聚类的数据处理方法，其特征在于，包括以下步骤：

步骤1、获取图像样本集；

步骤2、计算局部密度和高局部密度的点距离；

步骤3、根据局部密度和高局部密度的点距离数据选择种子样本；

步骤4、依靠样本和k近邻样本集中的样本构造基于密度的k近邻连接图，基于密度的k近邻连接图中的每个顶点在样本集中都有相对应的样本，并存在有向边，利用图中有向边的权重来衡量标签传播的强弱程度；

步骤5、每个种子样本分配类别标签，在基于密度的k近邻连接图上进行标签传播，样本的标签信息为样本所属的类别，将具有相同标签的样本为划分到同一类簇中；

所述步骤2中，计算局部密度时将样本的局部密度和样本的k近邻信息相结合；计算的高局部密度点距离为将该样本到比该样本局部密度高的样本之间的高局部密度点距离，若该样本为最高密度的样本，则高局部密度点距离为该样本到其他样本的最长距离；

所述步骤2包括以下步骤：

步骤2.1、对于大小为N×M的样本集X，则对于任意样本都有x_i＝(x_i1,x_i2,...,x_iM)，N表示样本的总个数，利用以下公式计算样本x_i和样本x_j之间的欧氏距离，其中1≤i≤N，1≤j≤N；

步骤2.2、记kNN(x_i)为样本x_i的k近邻集，其中1≤i≤N，定义式如下：

kNN(x_i)＝{x_j∈X|d(x_i,x_j)≤dk(x_i)}

步骤2.3、将样本的局部密度和样本的k近邻信息相结合，记ρ_i为样本x_i的局部密度，定义式如下：

所述步骤3中，根据步骤2中得到的样本的局部密度和高局部密度点距离，选择局部密度相对较大并且高局部密度点距离相对较大的样本作为种子样本，包括以下步骤：

步骤3.1、根据步骤2计算得到的样本的局部密度ρ和高局部密度点距离δ，选择局部密度和高局部密度点距离都相对较大的样本作为种子样本，先计算γ_i＝ρ_i×δ_i，之后将样本按照γ值降序排列记为

步骤3.2、选择中的前npeaks个样本作为种子样本；

所述步骤5中，样本所携带的标签信息即为样本所属的类别，为种子样本分配类别标签之后开始标签传播，并引入梯度下降算法计算传播损失值；

所述步骤5包括以下步骤：

步骤5.1、由种子样本和kNN(x_i)得到每个种子样本的k近邻样本，之后为每个种子样本的k近邻样本分配类别标签，记已分配类别标签的样本集为Q；

步骤5.3、根据未知类别的样本构建未知类别矩阵U，U是大小为(N-l)×kc的零矩阵，其中N表示样本的个数，l表示已知类别的样本个数，kc表示已知的类簇个数，根据已知类别矩阵L和未知类别矩阵U初始化标签传播矩阵F，F是大小为N×kc的矩阵，F_ij则代表第i行代表的样本属于第j列代表的类别的概率；

步骤5.4、根据已分配类别标签的样本开始标签传播进行样本标签的初始更新，在原始的更新标签传播算法中引入梯度下降算法来计算标签在传播过程中的损失情况，初始更新的计算公式如下：

其中表示样本x_m在第n次迭代完成更新后的矩阵，/>为样本x_j未开始标签更新时对应的初始标签传播矩阵，x_i∈Q，x_j∈kNN(x_i)，W_ij表示样本x_i和其k近邻样本x_j在基于密度的k近邻连接图中对应的边的权重，η为权重系数，设定η初值为0.1；

步骤5.5、依次取出中的样本/>

其中，表示样本/>和其k近邻样本x_j在基于密度的k近邻连接图中对应的边的权重；

步骤5.7、更新迭代次数t，t＝t+1；

步骤5.8、更新η，其中N为样本的个数；

2.根据权利要求1所述的基于半监督学习图像聚类的数据处理方法，其特征在于：所述步骤1中，所述图像样本集由若干图像构成，获取图像样本集后，对其中每个图像进行灰度化处理，提取灰度化后的图像的灰度值并存储到行向量中，每个样本对应一个行向量β＝(β₁，β₂，……，β_M)，由N个样本构成大小为N×M的图像样本集X。

3.根据权利要求2所述的基于半监督学习图像聚类的数据处理方法，其特征在于：所述步骤4包括以下步骤：

步骤4.1、构建基于密度的k近邻连接图，图中的顶点由样本与其k近邻样本集构成，顶点只与其k近邻样本集中的每个样本之间存在着有向边，与其他样本之间不存在有向边；

W_ij＝exp(ρ_i-ρ_j)

4.一种基于半监督学习图像聚类的数据处理系统，其特征在于，包括以下模块：

获取图像样本集模块：其被配置为获取图像样本集；所述图像样本集包括：若干个图像；对每个图像进行灰度化，提取灰度化后的图像的灰度值并存储到行向量中，每个样本对应一个行向量β＝(β₁，β₂，……，β_M)，由N个样本构成大小为N×M的图像样本集X；

获取待聚类图像标签模块，其被配置为在基于密度的k近邻连接图上进行标签传播，得到待聚类图像的类别标签；

该系统执行权利要求1-3中任一基于半监督学习图像聚类的数据处理方法。