CN111639674B - 一种基于半监督学习图像聚类的数据处理方法和系统 - Google Patents

一种基于半监督学习图像聚类的数据处理方法和系统 Download PDF

Info

Publication number
CN111639674B
CN111639674B CN202010353510.2A CN202010353510A CN111639674B CN 111639674 B CN111639674 B CN 111639674B CN 202010353510 A CN202010353510 A CN 202010353510A CN 111639674 B CN111639674 B CN 111639674B
Authority
CN
China
Prior art keywords
sample
samples
local density
density
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010353510.2A
Other languages
English (en)
Other versions
CN111639674A (zh
Inventor
盛佳佳
孙丽萍
杜亭莉
郑孝遥
陈付龙
罗永龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Normal University
Original Assignee
Anhui Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Normal University filed Critical Anhui Normal University
Priority to CN202010353510.2A priority Critical patent/CN111639674B/zh
Publication of CN111639674A publication Critical patent/CN111639674A/zh
Application granted granted Critical
Publication of CN111639674B publication Critical patent/CN111639674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于半监督学习图像聚类的数据处理方法和系统,该方法将样本的局部密度作为样本在传播过程中具有的影响力,将样本的局部密度和样本的k近邻信息相结合。基于半监督学习的图像聚类方法选择局部密度和高局部密度点距离都相对较大的样本作为种子样本,种子样本作为样本集中的中心节点在基于密度的k近邻连接图上完成标签传播。基于密度的k近邻连接图的边为有向边,边的权重衡量了标签传播的强弱程度,边的数值与标签传播的方向相关。本发明的图像聚类效果优于一般的图像聚类算法。

Description

一种基于半监督学习图像聚类的数据处理方法和系统
技术领域
本发明涉及计算机数据处理领域,尤其涉及图像聚类技术领域,更具体的说是一种基于半监督学习的图像聚类方法。
背景技术
聚类算法在数据分析和数据处理中发挥着重要作用。聚类算法依靠数据对象的相似性对样本集进行类簇划分,同一类簇中的数据对象之间相似性较高,不同类簇的数据对象之间的相似性较低。图像聚类是将相同或相似的图片划分到同一类中,不同的图片划分到不同簇中。常见的图像聚类算法通过采用提取图像的特征值再进行相似度的衡量,但是在提取特征值时往往难以达到完整和准确。
半监督学习中的标签传播算法利用样本中少量已知标签的样本来预测未知标签样本的标签。标签传播算法依靠样本之间的关联程度完成标签的传播,但是算法仅依靠距离计算样本点的关联程度,关联程度计算不准确,容易产生标签震荡和产生唯一的类簇。在标签传播过程中若样本的标签按照一定的更新顺序并且能够准确的选择出中心节点的样本,就能够充分的发挥中心节点的传播能力。在样本集中,具有较强传播能力的样本能够传播标签给更多相似的样本。
然而目前在数据处理方面,并没有将半监督学习方法与图像聚类方法进行结合的技术,无法对对未知标签的样本的标签预测,聚类方法的精度不足,导致难以实现对复杂人脸图像识别等图像数据的处理工作。
发明内容
本发明所要解决的技术问题是实现一种基于半监督学习的图像聚类方法和系统。充分发挥中心节点在传播过程中的影响力,聚类效果优于原始的标签传播聚类以及经典的聚类算法。本发明用局部密度来衡量样本在传播过程中的影响力,选择出种子样本作为样本的中心节点,为种子样本分配类别标签之后采用基于密度的k近邻连接图的标签传播算法,预测未知类别的样本的类别标签,能够有效的解决聚类方法的精度不足等问题,能够帮助计算机实现对复杂图像数据处理的工作。
为了实现上述目的,本发明采用的技术方案为:一种基于半监督学习图像聚类的数据处理方法,
包括以下步骤:
步骤1、获取图像样本集阶段:所述图像样本集包括:若干图像,对每个图像灰度化,提取灰度化后的图像的灰度值并存储到行向量中,每个样本对应一个行向量β=(β1,β2,……,βM),由N个样本构成大小为N×M的图像样本集X。
步骤2、计算局部密度和高局部密度点距离阶段:计算局部密度时将样本的局部密度和样本的k近邻信息相结合;
步骤3、种子样本选择阶段:选择局部密度相对较大且高局部密度点距离相对较大的样本作为种子样本;
步骤4、构建基于密度的k近邻连接图阶段:基于密度的k近邻连接图中的边的权重衡量了标签传播的强弱程度;
步骤5、剩余样本分配阶段:为每个种子样本分配类别标签,在基于密度的k近邻连接图上进行标签传播,样本的标签信息即为样本所属的类别。
所述步骤1中,首先对每个图像进行灰度化处理,提取灰度化后的图像的灰度值并存储到行向量中,每个样本对应一个行向量β=(β1,β2,……,βM),由N个样本构成大小为N×M的图像样本集X。
所述步骤2中,首先计算样本的k近邻样本集,之后在计算样本的局部密度时将样本的局部密度和样本的k近邻信息相结合;所述高局部密度点距离为该样本到比该样本局部密度高的样本之间的高局部密度点距离,若该样本为最高密度的样本,则高局部密度点距离为该样本到其他样本的最长距离。
所述步骤3中,根据步骤2中得到的样本的局部密度和高局部密度点距离,选择局部密度相对较大并且高局部密度点距离相对较大的样本作为种子样本。
所述步骤4中,依靠样本和其k近邻样本集中的样本构造基于密度的k近邻连接图,基于密度的k近邻连接图中的每个顶点在样本集中都有相对应的样本,图中边的权重衡量了标签传播的强弱程度。
所述步骤5中,样本所携带的标签信息即为样本所属的类别,为种子样本分配类别标签之后开始标签传播,并引入梯度下降算法计算传播损失值。具有相同标签的样本为划分到同一类簇中。
所述步骤2包括以下步骤:
步骤2.1、对于大小为N×M的样本集X,则对于任意样本都有xi=(xi1,xi2,...,xiM),N表示样本的总个数,利用以下公式计算样本xi(1≤j≤N)和样本xj(1≤j≤N)之间的欧氏距离:
步骤2.2、记kNN(xi)为样本xi(1≤i≤N)的k近邻集,定义式如下:
kNN(xi)={xj∈X|d(xi,xj)≤dk(xi)}
其中dk(xi)为样本集X中的样本xi到其他样本的欧氏距离按照升序排列得到的第k个距离,d(xi,xj)表示样本xi与样本xj之间的欧氏距离;
其中,s表示下标,1≤s≤M,由样本为样本集中对应的行向量,则有xi=[xi1,xi2,...,xiM],Xis表示样本xi对应的行向量中的元素,Xjs则表示样本xj对应的行向量中的元素;
步骤2.3、将样本的局部密度和样本的k近邻信息相结合。记ρi为样本xi的局部密度,定义式如下:
步骤2.4、记δi为样本xi的高局部密度点距离,δi为xi到其他较高密度样本之间的最短距离,如果该样本已经是最高密度的样本,高局部密度点距离等于该样本到其他样本的最长距离,δi的计算公式如下:
所述步骤3包括以下步骤:
步骤3.1、根据步骤2计算得到的样本的局部密度ρ和高局部密度点距离δ,选择局部密度和高局部密度点距离都相对较大的样本作为种子样本。首先计算γi=ρi×δi,之后将样本按照γ值降序排列记为
步骤3.2、选择中的前npeaks个样本(选择的样本个数)为种子样本。
步骤3.3、为种子样本分配类簇标号,将样本按照局部密度降序排列并记作
所述步骤4包括以下步骤:
步骤4.1、构建基于密度的k近邻连接图,图中的顶点由样本与其k近邻样本集构成,顶点只与其k近邻样本集中的每个样本之间存在着有向边,与其他样本之间不存在有向边。
步骤4.2、记Wij表示样本xi和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重,其计算公式如下:
Wij=exp(ρij)
其中ρi表示样本xi的局部密度,ρj表示样本xj的局部密度。
所述步骤5包括以下步骤:
步骤5.1、由种子样本和kNN(xi)得到每个种子样本的k近邻样本,之后为每个种子样本的k近邻样本分配类别标签,记已分配类别标签的样本集为Q。
步骤5.2、由已分配类别标签的样本构建已知类别矩阵L,L是大小为l×kc的矩阵,其中l表示已知类别的样本个数,kc表示已知的类簇个数;
步骤5.3、根据未知类别的样本构建未知类别矩阵U,U是大小为(N-l)×kc的零矩阵,其中N表示样本的个数,l表示已知类别的样本个数,kc表示已知的类簇个数。根据已知类别矩阵L和未知类别矩阵U初始化标签传播矩阵F,F是大小为N×kc的矩阵,Fij则代表第i行代表的样本属于第j列代表的类别的概率;
步骤5.4、根据已分配类别标签的样本开始标签传播进行样本标签的初始更新,在原始的更新标签传播算法中引入梯度下降函数来计算标签在传播过程中的损失情况,初始更新的计算公式如下:
其中表示样本xm在第n次迭代完成更新后的矩阵,/>为样本xj未开始标签更新时对应的初始标签传播矩阵,xi∈Q,xj∈kNN(xi),Wij表示样本xi和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重,η为权重系数,设定η初值为0.1。
步骤5.5、依次取出中的样本/>
步骤5.6、由样本以及样本xj∈kNN(xi)完成第t次的标签传播,t值的初值为1,计算公式如下:
其中,Wij表示样本和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重。
步骤5.7、更新迭代次数t,t=t+1;
步骤5.8、更新η,其中N为样本的个数;
步骤5.9、根据第t次迭代后的传播矩阵F(t)预测未知类别样本xi的类别计算公式如下:
若满足条件此次与前一次这两次预测的样本类别一致,将类别相同的样本划分到同一个类簇中,所有剩余样本分配完成;若不满足条件则转到步骤5.5。
第二方面,本发明还提供了基于半监督学习的图像聚类系统;
基于半监督学习的图像聚类系统,包括:
获取图像样本集模块,其被配置为获取图像样本集;所述图像样本集包括:若干个图像;对每个图像进行灰度化,提取灰度化后的图像的灰度值并存储到行向量中,每个样本对应一个行向量β=(β1,β2,……,βM),由N个样本构成大小为N×M的图像样本集X。
选择种子样本模块,其被配置为求解样本的局部密度和高局部密度点距离,选择局部密度和高局部密度点距离都相对较大的样本作为种子样本,为种子样本分配类别标签;
构造连接图模块,其被配置为构造基于密度的k近邻连接图,图中边的权重衡量了标签传播的强弱程度;
获取待聚类图像标签模块,其被配置为在基于密度的k近邻连接图上进行标签传播,得到待聚类图像的类别标签。
本发明通过种子样本的影响力来完成在基于密度的k近邻连接图上的标签传播,按照局部密度从高到低顺序开始标签传播充分发挥了种子样本作为关键节点在传播过程中的影响力。不同于原始的标签传播算法构建完全图且仅依靠样本之间的距离计算图中边的权重,本方法构建基于密度的k近邻连接图,图中边的权重与样本的局部密度相结合。该方法将相同标签的样本划分到同一类簇中,完成待聚类图像的聚类,不需要进行提取图像的特征值,只需要对种子样本和其k近邻样本分配类别标签即可完成对待聚类图像的类簇划分,在图像聚类的准确度上优于一般的聚类算法。
附图说明
下面对本发明说明书中每幅附图表达的内容作简要说明:
图1为基于半监督学习图像聚类的方法流程图;
图2为基于密度的k近邻连接图;
图3为基于半监督学习图像聚类的数据处理系统结构示意图。
具体实施方式
下面对照附图,通过对实施例的描述,本发明的具体实施方式如所涉及的各构件的形状、构造、各部分之间的相互位置及连接关系、各部分的作用及工作原理、制造工艺及操作使用方法等,作进一步详细的说明,以帮助本领域技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
在基于半监督的图像聚类方法中,需要通过学习已分配标签的样本来实现对未知标签的样本的标签预测,标签信息即为样本所属的类别。半监督学习聚类能够在有类别标签的监督学习实现聚类,聚类效果比只用无类别标签的样本进行聚类的效果更好,能够提高聚类方法的精度。
如图1所示,基于半监督学习的图像聚类方法包括以下步骤:
步骤1、获取图像样本集阶段:所述图像样本集包括:若干图像,对每个图像灰度化,提取灰度化后的图像的灰度值并存储到行向量中,每个样本对应一个行向量β=(β1,β2,……,βM),由N个样本构成大小为N×M的图像样本集X。
步骤2、计算局部密度和高局部密度点距离阶段:计算局部密度时将样本的局部密度和样本的k近邻信息相结合;
步骤3、种子样本选择阶段:选择局部密度相对较大且高局部密度点距离相对较大的样本作为种子样本;
步骤4、构建基于密度的k近邻连接图阶段:基于密度的k近邻连接图中的边的权重衡量了标签传播的强弱程度;
步骤5、剩余样本分配阶段:为每个种子样本分配类别标签,在基于密度的k近邻连接图上进行标签传播,样本的标签信息即为样本所属的类别。
步骤1:获取图像样本集阶段,具体步骤包括:
步骤1.1、首先对每个图像进行灰度化处理,提取灰度化后的图像的灰度值并存储到行向量中,每个样本对应一个行向量β=(β1,β2,……,βM),由N个样本构成大小为N×M的图像样本集X。
步骤2:计算局部密度和高局部密度点距离阶段,具体包括步骤:
步骤2.1、对于大小为N×M的样本集X,则对于任意样本都有xi=(xi1,xi2,...,xiM),N表示样本的总个数,利用以下公式计算样本xi(1≤j≤N)和样本xj(1≤j≤N)之间的欧氏距离:
步骤2.2、记kNN(xi)为样本xi(1≤i≤N)的k近邻集,定义式如下:
kNN(xi)={xj∈X|d(xi,xj)≤dk(xi)}
其中dk(xi)为样本集X中的样本xi到其他样本的欧氏距离按照升序排列得到的第k个距离,d(xi,xj)表示样本xi与样本xj之间的欧氏距离;
步骤2.3、将样本的局部密度和样本的k近邻信息相结合。记ρi为样本xi的局部密度,定义式如下:
步骤2.4、记δi为样本xi的高局部密度点距离,δi为xi到其他较高密度样本之间的最短距离,如果该样本已经是最高密度的样本,高局部密度点距离等于该样本到其他样本的最长距离,δi的计算公式如下:
步骤3:种子样本选择阶段,具体包括:
步骤3.1、根据步骤2计算得到的样本的局部密度ρ和高局部密度点距离δ,选择局部密度和高局部密度点距离都相对较大的样本作为种子样本。首先计算γi=ρi×δi,之后将样本按照γ值降序排列记为
步骤3.2、选择中的前npeaks个样本为种子样本。
步骤3.3、为种子样本分配类簇标号,将样本按照局部密度降序排列并记作
步骤4:构建基于密度的k近邻连接图阶段,具体步骤包括:
步骤4.1、构建基于密度的k近邻连接图,图中的顶点由样本与其k近邻样本集构成,顶点只与其k近邻样本集中的每个样本之间存在着有向边,与其他样本之间不存在有向边。
步骤4.2、记Wij表示样本xi和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重,其计算公式如下:
Wij=exp(ρij)
其中ρi表示样本xi的局部密度,ρj表示样本xj的局部密度。
步骤5:剩余样本分配阶段,具体步骤包括:
步骤5.1、由种子样本和kNN(xi)得到每个种子样本的k近邻样本,之后为每个种子样本的k近邻样本分配类别标签,记已分配类别标签的样本集为Q。
步骤5.2、由已分配类别标签的样本构建已知类别矩阵L,L是大小为l×kc的矩阵,其中N表示样本的个数,l表示已知类别的样本个数,kc表示已知的类簇个数。
步骤5.3、根据未知类别的样本构建未知类别矩阵U,U是大小为(N-l)×kc的零矩阵,根据已知类别矩阵L和未知类别矩阵U初始化标签传播矩阵F,F是大小为N×kc的矩阵,Fij则代表第i行代表的样本属于第j列代表的类别的概率。
步骤5.4、根据已分配类别标签的样本开始标签传播进行样本标签的初始更新,在原始的更新标签传播算法中引入梯度下降函数来计算标签在传播过程中的损失情况,初始更新的计算公式如下:
其中表示样本xm在第n次迭代完成更新后的矩阵,/>为样本xj未开始标签更新时对应的初始标签传播矩阵,xi∈Q,xj∈kNN(xi),Wij表示样本xi和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重,η为权重系数,设定η初值为0.1。
步骤5.5、依次取出中的样本/>
步骤5.6、由以及样本xj∈kNN(xi)完成第t次的标签传播,t值的初值为1,计算公式如下:
其中,Wij表示样本和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重。
步骤5.7、更新迭代次数t,t=t+1;
步骤5.8、更新η,其中N为样本的个数;
步骤5.9、根据第t次迭代后的传播矩阵F(t)预测未知类别样本xi的类别计算公式如下:
若满足条件此次与前一次这两次预测的样本类别一致,将类别相同的样本划分到同一个类簇中,所有剩余样本分配完成;若不满足条件则转到步骤5.5。
如图2所示,构建样本基于密度的k近邻连接图:基于密度的k近邻连接图中样本只与其k近邻样本集中的样本存在有向边,有向边的权重衡量了标签传播的强弱程度。图中样本xa,样本xf,样本xd为已经分配类别标签的样本点,样本右侧标注为样本的类别标签,图中标注未分配标签的样本所属的类别标签为0。在图中,样本xa的邻居样本点为样本xb,样本xe,样本xd。样本xd的邻居样本为xa,样本xg。样本xf的邻居样本为xb
如图3所示,基于半监督学习的图像聚类系统包括以下模块。
获取图像样本集模块,其被配置为获取图像样本集;所述图像样本集包括:若干个图像;对每个图像进行灰度化,提取灰度化后的图像的灰度值并存储到行向量中,每个样本对应一个行向量β=(β1,β2,……,βM),由N个样本构成大小为N×M的图像样本集X。
选择种子样本模块,其被配置为求解样本的局部密度和高局部密度点距离,选择局部密度和高局部密度点距离都相对较大的样本作为种子样本,为种子样本分配类别标签;
构造连接图模块,其被配置为构造基于密度的k近邻连接图,图中边的权重衡量了标签传播的强弱程度;
获取待聚类图像标签模块,其被配置为在基于密度的k近邻连接图上进行标签传播,得到待聚类图像的类别标签。
根据本发明获取类别标签的方法,可以将其应用在识别指纹、识别手写字体、识别人脸等图像的数据处理中,能够解决大量因为数据处理复杂,而无法进行识别的技术问题。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (4)

1.一种基于半监督学习图像聚类的数据处理方法,其特征在于,包括以下步骤:
步骤1、获取图像样本集;
步骤2、计算局部密度和高局部密度的点距离;
步骤3、根据局部密度和高局部密度的点距离数据选择种子样本;
步骤4、依靠样本和k近邻样本集中的样本构造基于密度的k近邻连接图,基于密度的k近邻连接图中的每个顶点在样本集中都有相对应的样本,并存在有向边,利用图中有向边的权重来衡量标签传播的强弱程度;
步骤5、每个种子样本分配类别标签,在基于密度的k近邻连接图上进行标签传播,样本的标签信息为样本所属的类别,将具有相同标签的样本为划分到同一类簇中;
所述步骤2中,计算局部密度时将样本的局部密度和样本的k近邻信息相结合;计算的高局部密度点距离为将该样本到比该样本局部密度高的样本之间的高局部密度点距离,若该样本为最高密度的样本,则高局部密度点距离为该样本到其他样本的最长距离;
所述步骤2包括以下步骤:
步骤2.1、对于大小为N×M的样本集X,则对于任意样本都有xi=(xi1,xi2,...,xiM),N表示样本的总个数,利用以下公式计算样本xi和样本xj之间的欧氏距离,其中1≤i≤N,1≤j≤N;
步骤2.2、记kNN(xi)为样本xi的k近邻集,其中1≤i≤N,定义式如下:
kNN(xi)={xj∈X|d(xi,xj)≤dk(xi)}
其中dk(xi)为样本集X中的样本xi到其他样本的欧氏距离按照升序排列得到的第k个距离,d(xi,xj)表示样本xi与样本xj之间的欧氏距离;
步骤2.3、将样本的局部密度和样本的k近邻信息相结合,记ρi为样本xi的局部密度,定义式如下:
步骤2.4、记δi为样本xi的高局部密度点距离,δi为xi到其他较高密度样本之间的最短距离,如果该样本已经是最高密度的样本,高局部密度点距离等于该样本到其他样本的最长距离,δi的计算公式如下:
所述步骤3中,根据步骤2中得到的样本的局部密度和高局部密度点距离,选择局部密度相对较大并且高局部密度点距离相对较大的样本作为种子样本,包括以下步骤:
步骤3.1、根据步骤2计算得到的样本的局部密度ρ和高局部密度点距离δ,选择局部密度和高局部密度点距离都相对较大的样本作为种子样本,先计算γi=ρi×δi,之后将样本按照γ值降序排列记为
步骤3.2、选择中的前npeaks个样本作为种子样本;
步骤3.3、为种子样本分配类簇标号,将样本按照局部密度降序排列并记作
所述步骤5中,样本所携带的标签信息即为样本所属的类别,为种子样本分配类别标签之后开始标签传播,并引入梯度下降算法计算传播损失值;
所述步骤5包括以下步骤:
步骤5.1、由种子样本和kNN(xi)得到每个种子样本的k近邻样本,之后为每个种子样本的k近邻样本分配类别标签,记已分配类别标签的样本集为Q;
步骤5.2、由已分配类别标签的样本构建已知类别矩阵L,L是大小为l×kc的矩阵,其中l表示已知类别的样本个数,kc表示已知的类簇个数;
步骤5.3、根据未知类别的样本构建未知类别矩阵U,U是大小为(N-l)×kc的零矩阵,其中N表示样本的个数,l表示已知类别的样本个数,kc表示已知的类簇个数,根据已知类别矩阵L和未知类别矩阵U初始化标签传播矩阵F,F是大小为N×kc的矩阵,Fij则代表第i行代表的样本属于第j列代表的类别的概率;
步骤5.4、根据已分配类别标签的样本开始标签传播进行样本标签的初始更新,在原始的更新标签传播算法中引入梯度下降算法来计算标签在传播过程中的损失情况,初始更新的计算公式如下:
其中表示样本xm在第n次迭代完成更新后的矩阵,/>为样本xj未开始标签更新时对应的初始标签传播矩阵,xi∈Q,xj∈kNN(xi),Wij表示样本xi和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重,η为权重系数,设定η初值为0.1;
步骤5.5、依次取出中的样本/>
步骤5.6、由样本以及样本xj∈kNN(xi)完成第t次的标签传播,t值的初值为1,计算公式如下:
其中,表示样本/>和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重;
步骤5.7、更新迭代次数t,t=t+1;
步骤5.8、更新η,其中N为样本的个数;
步骤5.9、根据第t次迭代后的传播矩阵F(t)预测未知类别样本xi的类别计算公式如下:
若满足条件此次与前一次这两次预测的样本类别一致,将类别相同的样本划分到同一个类簇中,所有剩余样本分配完成;若不满足条件则转到步骤5.5。
2.根据权利要求1所述的基于半监督学习图像聚类的数据处理方法,其特征在于:所述步骤1中,所述图像样本集由若干图像构成,获取图像样本集后,对其中每个图像进行灰度化处理,提取灰度化后的图像的灰度值并存储到行向量中,每个样本对应一个行向量β=(β1,β2,……,βM),由N个样本构成大小为N×M的图像样本集X。
3.根据权利要求2所述的基于半监督学习图像聚类的数据处理方法,其特征在于:所述步骤4包括以下步骤:
步骤4.1、构建基于密度的k近邻连接图,图中的顶点由样本与其k近邻样本集构成,顶点只与其k近邻样本集中的每个样本之间存在着有向边,与其他样本之间不存在有向边;
步骤4.2、记Wij表示样本xi和其k近邻样本xj在基于密度的k近邻连接图中对应的边的权重,其计算公式如下:
Wij=exp(ρij)
其中ρi表示样本xi的局部密度,ρj表示样本xj的局部密度。
4.一种基于半监督学习图像聚类的数据处理系统,其特征在于,包括以下模块:
获取图像样本集模块:其被配置为获取图像样本集;所述图像样本集包括:若干个图像;对每个图像进行灰度化,提取灰度化后的图像的灰度值并存储到行向量中,每个样本对应一个行向量β=(β1,β2,……,βM),由N个样本构成大小为N×M的图像样本集X;
选择种子样本模块,其被配置为求解样本的局部密度和高局部密度点距离,选择局部密度和高局部密度点距离都相对较大的样本作为种子样本,为种子样本分配类别标签;
构造连接图模块,其被配置为构造基于密度的k近邻连接图,图中边的权重衡量了标签传播的强弱程度;
获取待聚类图像标签模块,其被配置为在基于密度的k近邻连接图上进行标签传播,得到待聚类图像的类别标签;
该系统执行权利要求1-3中任一基于半监督学习图像聚类的数据处理方法。
CN202010353510.2A 2020-04-29 2020-04-29 一种基于半监督学习图像聚类的数据处理方法和系统 Active CN111639674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010353510.2A CN111639674B (zh) 2020-04-29 2020-04-29 一种基于半监督学习图像聚类的数据处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010353510.2A CN111639674B (zh) 2020-04-29 2020-04-29 一种基于半监督学习图像聚类的数据处理方法和系统

Publications (2)

Publication Number Publication Date
CN111639674A CN111639674A (zh) 2020-09-08
CN111639674B true CN111639674B (zh) 2023-10-31

Family

ID=72329887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010353510.2A Active CN111639674B (zh) 2020-04-29 2020-04-29 一种基于半监督学习图像聚类的数据处理方法和系统

Country Status (1)

Country Link
CN (1) CN111639674B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942836A (zh) * 2014-04-25 2014-07-23 杭州梅德珥智能科技有限公司 三维网格模型四面体化方法
CN105868711A (zh) * 2016-03-28 2016-08-17 电子科技大学 一种基于稀疏低秩的人体行为识别方法
CN109033944A (zh) * 2018-06-07 2018-12-18 西安电子科技大学 一种全天空极光图像分类与关键局部结构定位方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8170306B2 (en) * 2007-04-25 2012-05-01 Siemens Aktiengesellschaft Automatic partitioning and recognition of human body regions from an arbitrary scan coverage image

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942836A (zh) * 2014-04-25 2014-07-23 杭州梅德珥智能科技有限公司 三维网格模型四面体化方法
CN105868711A (zh) * 2016-03-28 2016-08-17 电子科技大学 一种基于稀疏低秩的人体行为识别方法
CN109033944A (zh) * 2018-06-07 2018-12-18 西安电子科技大学 一种全天空极光图像分类与关键局部结构定位方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范小刚.基于k近邻树的离群检测算法研究.《万方数据学位论文库》.2014,第1-60页. *

Also Published As

Publication number Publication date
CN111639674A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
US11875267B2 (en) Systems and methods for unifying statistical models for different data modalities
Zhdanov Diverse mini-batch active learning
US20080101705A1 (en) System for pattern recognition with q-metrics
KR102305568B1 (ko) 일정한 처리 시간 내에 k개의 극값을 찾는 방법
CN116643246A (zh) 一种基于内积距离度量的深度聚类雷达脉冲信号分选方法
CN112766400A (zh) 高维数据基于多个数据变换空间的半监督分类集成方法
Vazhayil et al. DeepProteomics: protein family classification using Shallow and Deep Networks
Hussein et al. Deep learning and machine learning via a genetic algorithm to classify breast cancer DNA data
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
CN112183580B (zh) 一种基于动态知识路径学习的小样本分类方法
Sungheetha et al. Extreme learning machine and fuzzy K-nearest neighbour based hybrid gene selection technique for cancer classification
CN111639674B (zh) 一种基于半监督学习图像聚类的数据处理方法和系统
CN116662597A (zh) 一种域适应检索方法、装置、设备及介质
CN114116669A (zh) 一种基于霍夫丁树的多标签流数据分类方法
Pirim et al. Performance of an ensemble clustering algorithm on biological data sets
Malik et al. Matrix factorization-based improved classification of gene expression data
Birkenes et al. Isolated-word recognition with penalized logistic regression machines
CN113298009B (zh) 一种基于熵正则化的自适应近邻人脸图像聚类方法
Yagoubi et al. A hybrid deep learning and handcrafted feature approach for the prediction of protein structural class
Le et al. A new fuzzy clustering-based imputation method
CN116304983A (zh) 一种数据驱动的层次递归加权传感器信息融合识别方法
Eluri Feature Extraction In Gene Expression Dataset Using Multilayer Perceptron
Abdolrazzagh et al. Multi-Objective Feature Selection based on Clustering and Principal Component Analysis by Enhanced Electromagnetic-likes Algorithm
Joshi et al. Graph-Convolutional Deep Learning to Identify Optimized Molecular Configurations
Deng et al. English letter recognition based on adaptive optimization spiking neural P systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant