CN112990265A - 基于二部图的后期融合多视图聚类机器学习方法及系统 - Google Patents

基于二部图的后期融合多视图聚类机器学习方法及系统 Download PDF

Info

Publication number
CN112990265A
CN112990265A CN202110173493.9A CN202110173493A CN112990265A CN 112990265 A CN112990265 A CN 112990265A CN 202110173493 A CN202110173493 A CN 202110173493A CN 112990265 A CN112990265 A CN 112990265A
Authority
CN
China
Prior art keywords
clustering
view
bipartite graph
fusion
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110173493.9A
Other languages
English (en)
Inventor
朱信忠
徐慧英
梁伟轩
刘新旺
赵建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202110173493.9A priority Critical patent/CN112990265A/zh
Publication of CN112990265A publication Critical patent/CN112990265A/zh
Priority to LU502853A priority patent/LU502853B1/en
Priority to PCT/CN2021/136557 priority patent/WO2022170840A1/zh
Priority to ZA2022/07736A priority patent/ZA202207736B/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Catalysts (AREA)

Abstract

本发明公开了基于二部图的后期融合多视图聚类机器学习方法,包括:S11.获取聚类任务和目标数据样本;S12.通过对获取的聚类任务和目标数据样本相对应的各个视图运行核k均值聚类,得到基础划分,并计算各视图多样化正则项;S13.利用随机初始化选定各个视图的代表点,建立基于二部图的后期融合多视图聚类目标函数;S14.采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数,得到视图融合后的二部图;S15.对得到的二部图进行谱聚类,得到聚类结果。本发明使得经过优化后的代表点不但可以代表单个视图的信息,也能更好地服务于视图融合,进而使学习得到的二部图能更好地融合各个视图的信息,达到聚类效果提升的目的。

Description

基于二部图的后期融合多视图聚类机器学习方法及系统
技术领域
本发明涉及计算机视觉和模式识别技术领域,尤其涉及基于二部图的后期融合多视图聚类机器学习方法及系统。
背景技术
聚类是一种非常重要的无监督学习方法,其目的是将没有标签的数据划分成k个类。k均值聚类是一种应用最为广泛的方法,它迭代执行以下两个步骤直至收敛:(1)根据样本点所属的类,更新k个聚类中心;(2)根据聚类中心,更新样本所属的类。其中核k均值聚类因其可以学习到样本非线性信息而被广泛研究。
从不同角度观察一个事物,能得到对该事物更为深刻的认识。随着信息采集技术的发展,对于同一个数据样本,我们可以轻易得到它不同视图的信息。我们称拥有多个视图信息的数据为多视图数据。为了对多视图数据进行聚类,学术界衍生了多视图聚类算法。
按照视图融合的时机不同,现有的多视图聚类算法可以大致分为以下两类:(1)基于前期融合的多视图聚类算法。前期融合,是指在进行聚类之前,将多个视图的表征融合起来,得到一个统一的表示。接着,再对其运行聚类算法,得到最终的聚类结果。以上可称之为“两步法”。或者可以将最终的聚类目标式和视图融合的目标式组合成一个目标式进行优化,可以称之为“一步法”。这其中比较经典的算法有多核聚类算法(Liu X,Dou Y,Yin J,etal.“Multiple Kernel k-Means Clustering with Matrix-Induced Regularization”,inAAAI 2016,pp.1888–1894)、多视图谱聚类算法(Son J-W,Jeon J,Lee A,et al.“Spectralclustering with brainstorming process for multi-view data”,in AAAI 2017,pp.2548–2554)以及多视图子空间聚类算法(Kang Z,Zhou W,Zhao Z,et al.“Large-scalemulti-view subspace clustering in linear time”in AAAI 2020,pp.4412-4419)等。前期融合多视图聚类算法根据各自的信息融合机制大大地提高了聚类表现。(2)基于后期融合的多视图聚类算法。与前期融合不同,后期融合多视图聚类首先从每个单视图中获得基础划分,然后再利用这些基础划分中获得一个最优的聚类结果。所有的集成聚类算法均可以视作一种后期融合方法。对于基础划分的使用,不同的方法也导致了不同的聚类效果和计算复杂度。文献“From Ensemble Clustering to Multi-View Clustering”(Tao Z,LiuH,Li S,et al.,in IJCAI,2017,pp.2843–2849)利用基础划分先构造各个视图的关联矩阵,即判断样本两两之间是否归为同一类的n×n维的0-1矩阵,通过低秩和稀疏矩阵分解的方式从中学习到一个统一的表示,用以实现较好的聚类效果。文献“Self-PacedClustering Ensemble”(Zhou P,Du L,Liu X,et al.,in TNNLS,2020,pp.1–15)则是构造各视图关联矩阵后,给定一个样本学习难度的测量准则,利用自步学习按照从简到难的顺序对样本进行聚类。文献“Multi-view Clustering via Late Fusion AlignmentMaximization”(Wang S,Liu X,Zhu E,et al.,in IJCAI,2019,pp.3778–3784)则是最大化一致划分和基础划分之间的线性组合之间的内积。文献“Efficient and EffectiveRegularized Incomplete Multi-view Clustering”(Liu X,Li M,Tang C,et al.,inTPAMI,2020,preprint)则利用后期融合的方法处理缺失多视图聚类问题,取得了非常好的效果。
虽然上述算法取得了较好的效果,然而:(1)绝大部分的前期融合多视图聚类算法在空间和时间上的消耗非常大,例如多核k均值聚类和多视图谱聚类,它们的空间复杂均为O(n^2),时间复杂度均为O(n^3)。这导致这类算法无法在大规模数据集上得到应用。(2)现有后期融合多视图聚类基于的假设是最大化最优聚类指示矩阵与基础聚类指示矩阵线性组合的内积,用以求取最优聚类指示矩阵。这种做法过分简化了最优聚类指示矩阵的搜索空间。
发明内容
本发明的目的是针对现有技术的缺陷,提供了基于二部图的后期融合多视图聚类机器学习方法及系统。
为了实现以上目的,本发明采用以下技术方案:
基于二部图的后期融合多视图聚类机器学习方法,包括:
S1.获取聚类任务和目标数据样本;
S2.通过对获取的聚类任务和目标数据样本相对应的各个视图运行核k均值聚类,得到基础划分,并计算各视图多样化正则项;
S3.利用随机初始化选定各个视图的代表点,建立基于二部图的后期融合多视图聚类目标函数;
S4.采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数,得到视图融合后的二部图;
S5.对得到的二部图进行谱聚类,得到聚类结果。
进一步的,所述步骤S2中运行核k均值聚类,具体为:
核k均值聚类的目标为最小化基于划分矩阵B∈{0,1}n×k的平方误差和,表示为:
Figure BDA0002939574680000031
其中,
Figure BDA0002939574680000032
表示由n个样本组成的数据集;
Figure BDA0002939574680000033
表示将样本x投射到一个再生核希尔伯特空间
Figure BDA0002939574680000034
的特征映射;
Figure BDA0002939574680000035
表示属于第c个簇的样本个数,1≤c≤k;i表示样本序号;当第i个样本属于第c个簇时,Bic=1,否则,Bic=0。
公式(1)化为:
Figure BDA0002939574680000036
其中,K表示核矩阵,K的元素为Kij=φ(xi)Tφ(xj),
Figure BDA0002939574680000037
Figure BDA0002939574680000038
表示所有元素都为1的向量。
Figure BDA0002939574680000039
并将离散约束转换为实值正交约束,即HTH=Ik,则公式(2)转换为:
Figure BDA00029395746800000310
其中,Ik表示k维单位矩阵。
进一步的,所述步骤S3中基于二部图的后期融合多视图聚类目标函数,表示为:
Figure BDA00029395746800000311
s.t.Z1s=1n,Z≥0,γT1m=1,γ≥0
其中,
Figure BDA0002939574680000041
表示由核k均值聚类得到的各个视图的基础划分;
Figure BDA0002939574680000042
表示各个视图的代表点;
Figure BDA0002939574680000043
为视图融合后的二部图;n,k,s分别表示样本数、聚类簇数和代表点数;λ表示正则化参数;γ表示各个视图的组合系数;M表示视图多样化正则项,元素为
Figure BDA0002939574680000044
m表示视图数量。
进一步的,所述步骤S4中采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数具体为:
利用三步交替法求解公式(3),具体为:
A1.固定γ和
Figure BDA0002939574680000045
优化Z;
设Z的第i行为zi,则表示为:
Figure BDA0002939574680000046
其中,
Figure BDA0002939574680000047
比哦啊哈矩阵
Figure BDA0002939574680000048
的第i行;
A2.固定γ和Z,优化
Figure BDA0002939574680000049
采用令目标函数关于Ap偏导等于0,得到闭式解
Figure BDA00029395746800000410
A3.固定
Figure BDA00029395746800000411
和Z,优化γ,将目标函数转化为带有线性约束的二次规划问题,表示为:
Figure BDA00029395746800000412
其中,
Figure BDA00029395746800000413
进一步的,所述步骤S4中利用三步交替法求解公式(3),其中三步交替法终止条件表示为:
(obj(t-1)-obj(t))/obj(t)≤ε
其中,obj(t-1)、obj(t)分别表示第t和t-1轮迭代的公式(3)的值,ε表示设定精度。
进一步的,还提供基于二部图的后期融合多视图聚类机器学习系统,包括:
获取模块,用于获取聚类任务和目标数据样本;
运行模块,用于通过对获取的聚类任务和目标数据样本相对应的各个视图运行核k均值聚类,得到基础划分,并计算各视图多样化正则项;
建立模块,用于利用随机初始化选定各个视图的代表点,建立基于二部图的后期融合多视图聚类目标函数;
求解模块,用于采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数,得到视图融合后的二部图;
聚类模块,用于对得到的二部图进行谱聚类,得到聚类结果。
进一步的,所述运行模块中运行核k均值聚类,具体为:
核k均值聚类的目标为最小化基于划分矩阵B∈{0,1}n×k的平方误差和,表示为:
Figure BDA0002939574680000051
其中,
Figure BDA0002939574680000052
表示由n个样本组成的数据集;
Figure BDA0002939574680000053
表示将样本x投射到一个再生核希尔伯特空间
Figure BDA00029395746800000510
的特征映射;
Figure BDA0002939574680000054
表示属于第c个簇的样本个数,1≤c≤k;i表示样本序号;当第i个样本属于第c个簇时,Bic=1,否则,Bic=0。公式(1)化为:
Figure BDA0002939574680000055
其中,K表示核矩阵,K的元素为Kij=φ(xi)Tφ(xj),
Figure BDA0002939574680000056
Figure BDA0002939574680000057
表示所有元素都为1的向量。
Figure BDA0002939574680000058
并将离散约束转换为实值正交约束,即HTH=Ik,则公式(2)转换为:
Figure BDA0002939574680000059
其中,Ik表示k维单位矩阵。
进一步的,所述建立模块中基于二部图的后期融合多视图聚类目标函数,表示为:
Figure BDA0002939574680000061
s.t.Z1s=1n,Z≥0,γT1m=1,γ≥0
其中,
Figure BDA0002939574680000062
表示由核k均值聚类得到的各个视图的基础划分;
Figure BDA0002939574680000063
表示各个视图的代表点;
Figure BDA0002939574680000064
为视图融合后的二部图;n,k,s分别表示样本数、聚类簇数和代表点数;λ表示正则化参数;γ表示各个视图的组合系数;M表示视图多样化正则项,元素为
Figure BDA0002939574680000065
m表示视图数量。
进一步的,所述求解模块中采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数具体为:
利用三步交替法求解公式(3),具包括:
第一固定模块,用于固定γ和
Figure BDA0002939574680000066
优化Z;
设Z的第i行为zi,则表示为:
Figure BDA0002939574680000067
其中,
Figure BDA0002939574680000068
比哦啊哈矩阵
Figure BDA0002939574680000069
的第i行;
第二固定模块,用于固定γ和Z,优化
Figure BDA00029395746800000610
采用令目标函数关于Ap偏导等于0,得到闭式解
Figure BDA00029395746800000611
第三固定模块,用于固定
Figure BDA00029395746800000612
和Z,优化γ,将目标函数转化为带有线性约束的二次规划问题,表示为:
Figure BDA00029395746800000613
其中,
Figure BDA00029395746800000614
进一步的,所述求解模块中利用三步交替法求解公式(3),其中三步交替法终止条件表示为:
(obj(t-1)-obj(t))/obj(t)≤ε
其中,obj(t-1)、obj(t)分别表示第t和t-1轮迭代的公式(3)的值,ε表示设定精度。
与现有技术相比,本发明提出了一种新颖的基于二部图的后期融合多视图聚类机器学习方法,该方法包括获取基础聚类划分和计算图多样化正则项、优化目标函数获取二部图和利用二部图进行聚类等模块。通过对代表点进行优化,本发明使得经过优化后的代表点不但可以代表单个视图的信息,也能更好地服务于视图融合,进而使学习得到的二部图能更好地融合各个视图的信息,达到聚类效果提升的目的。在六个公共数据集上的实验结果证明了本发明的性能优于现有方法。
附图说明
图1是实施例一提供的基于二部图的后期融合多视图聚类机器学习方法流程图;
图2是实施例二提供的参数λ敏感性图示意图;
图3是实施例二提供的不同代表点数s对聚类效果的影响示意图;
图4是实施例二提供的随迭代次数增加,聚类性能和目标函数值的变化示意图;
图5是实施例三提供的基于二部图的后期融合多视图聚类机器学习系统结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明针对现有缺陷,提供了基于二部图的后期融合多视图聚类机器学习方法及系统。
实施例一
本实施例提供的基于二部图的后期融合多视图聚类机器学习方法,如图1所示,包括:
S11.获取聚类任务和目标数据样本;
S12.通过对获取的聚类任务和目标数据样本相对应的各个视图运行核k均值聚类,得到基础划分,并计算各视图多样化正则项;
S13.利用随机初始化选定各个视图的代表点,建立基于二部图的后期融合多视图聚类目标函数;
S14.采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数,得到视图融合后的二部图;
S15.对得到的二部图进行谱聚类,得到聚类结果。
本实施例提出的一种通过后期融合学习多视图信息进行聚类的新方法,用于表示视图代表点法,相比于在优化过程中不进行更新的锚点,代表点能够更好地服务于多视图聚类;且在后期融合算法中利用二部图进行图学习的方法,降低了计算和存储复杂度。
在步骤S12中,通过对获取的聚类任务和目标数据样本相对应的各个视图运行核k均值聚类,得到基础划分,并计算各视图多样化正则项。具体为:
核k均值聚类的目标为最小化基于划分矩阵B∈{0,1}n×k的平方误差和,表示为:
Figure BDA0002939574680000081
其中,
Figure BDA0002939574680000082
表示由n个样本组成的数据集;
Figure BDA0002939574680000083
表示将样本x投射到一个再生核希尔伯特空间
Figure BDA0002939574680000089
的特征映射;
Figure BDA0002939574680000084
表示属于第c个簇的样本个数,1≤c≤k;i表示样本序号;当第i个样本属于第c个簇时,Bic=1,否则,Bic=0。
公式(1)可以化为:
Figure BDA0002939574680000085
其中,K表示核矩阵,K的元素为Kij=φ(xi)Tφ(xj),
Figure BDA0002939574680000086
Figure BDA0002939574680000087
表示所有元素都为1的向量;T是约定俗成的,为矩阵转置,KBL是K、B和L的矩阵相乘。
由于上式中的变量B是离散的,优化较为困难。令
Figure BDA0002939574680000088
并将离散约束转换为实值正交约束,即HTH=Ik,则公式(2)转换为:
Figure BDA0002939574680000091
其中,Ik表示k维单位矩阵。
其闭式解为核矩阵K前k最大特征值对应的特征向量,可通过对K进行特征分解获得。
在步骤S13中,利用随机初始化选定各个视图的代表点,建立基于二部图的后期融合多视图聚类目标函数。
其中基于二部图的后期融合多视图聚类目标函数,表示为:
Figure BDA0002939574680000092
s.t.Z1s=1n,Z≥0,γT1m=1,γ≥0
其中,
Figure BDA0002939574680000093
表示由核k均值聚类得到的各个视图的基础划分;
Figure BDA0002939574680000094
表示各个视图的代表点;
Figure BDA0002939574680000095
为视图融合后的二部图;n,k,s分别表示样本数、聚类簇数和代表点数;λ表示正则化参数;γ表示各个视图的组合系数;M表示视图多样化正则项,元素为
Figure BDA0002939574680000096
m表示视图数量。
在步骤S14中,采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数,得到视图融合后的二部图,具体为:
利用三步交替法求解公式(3),具体为:
A1.固定γ和
Figure BDA0002939574680000097
优化Z;
设Z的第i行为zi,可以对其逐行优化,即一个在单纯型上的优化问题,则表示为:
Figure BDA0002939574680000098
其中,
Figure BDA0002939574680000099
比哦啊哈矩阵
Figure BDA00029395746800000910
的第i行;
A2.固定γ和Z,优化
Figure BDA00029395746800000911
可采用令目标函数关于Ap偏导等于0,得到闭式解
Figure BDA00029395746800000912
A3.固定
Figure BDA0002939574680000101
和Z,优化γ,将目标函数转化为带有线性约束的二次规划问题,表示为:
Figure BDA0002939574680000102
其中,
Figure BDA0002939574680000103
上述三步交替法终止条件表示为:
(obj(t-1)-obj(t))/obj(t)≤ε
其中,obj(t-1)、obj(t)分别表示第t和t-1轮迭代的公式(3)的值,ε表示设定精度。
在步骤S15中,对得到的二部图进行谱聚类,得到聚类结果。
对二部图Z进行谱聚类的过程具体为:
Figure BDA0002939574680000104
其中Λ=diag(ZT1n)。对
Figure BDA0002939574680000105
进行特征值分解,设其前k个最大特征值组成的对角矩阵和对应的特征向量分别为Σk和Vk。令
Figure BDA0002939574680000106
按行对F进行标准的k均值聚类即可得到最终的聚类结果。
与现有技术相比,本实施例提出了一种新颖的基于二部图的后期融合多视图聚类机器学习方法,该方法包括获取基础聚类划分和计算图多样化正则项、优化目标函数获取二部图和利用二部图进行聚类等模块。通过对代表点进行优化,本实施例使得经过优化后的代表点不但可以代表单个视图的信息,也能更好地服务于视图融合,进而使学习得到的二部图能更好地融合各个视图的信息,达到聚类效果提升的目的。
实施例二
本实施例提供基于二部图的后期融合多视图聚类机器学习方法与实施例一的不同之处在于:
本实施例在6个MKL标准数据集上测试了本发明方法的聚类性能,包括OxfordFlower17、Oxford Flower102、Protein fold prediction、UCI-Digital、ColumbiaConsumer Video(CCV)和Caltech102。数据集的相关信息参见表1。
Figure BDA0002939574680000107
Figure BDA0002939574680000111
表1
对于ProteinFold,本实施例产生了12个基准核矩阵,其中前10特征集使用了二阶多项式核,最后两个使用了cosine内积核。对于CCV,通过应用一个高斯核在SIFT、STIP和MFCC特征上,生成三个基核,三个高斯核的宽度设置成每对样本距离的均值。其他数据集的核矩阵可从互联网下载。
本实验采用平均多核聚类算法(A-MKKM)、最优单视图核k均值聚类算法(SB-MKKM)、多核k均值聚类(MKKM)、鲁棒的多核聚类(RMKKM)、带矩阵诱导正则化项的多核k均值聚类(MKKM-MR)、最优邻居多核聚类(ONKC)、基于后期融合的最大化对齐多视图聚类(MVC-LFA)。在所有实验中,所有基准核首先被中心化和正则化。对于所有数据集,假设类别数量已知且被设置为聚类类别数量。另外,本实验使用了网格搜索RMKKM、MKKM-MR、ONKC和MVC-LFA的参数。本实施例方法的正则化参数也通过网格搜索[2-15,2-12,…,215]的范围来确定,代表点数取s=8k,k为聚类簇数。
本实验使用了常见的聚类准确度(ACC)、归一化互信息(NMI)和纯度(Purity)来显示每种方法的聚类性能。所有方法随机初始化并重复50次并显示最佳结果以减少k-means造成的随机性。
Figure BDA0002939574680000112
Figure BDA0002939574680000121
表2
表2展示了上述方法以及对比算法在所有数据集上的聚类效果。根据该表可以观察到:1.所提出的算法在三种评价标准下,均优于所有对比算法。2.ONKC在多核算法中是一种重要的基准算法,而所提出的算法在六个数据集ACC上的表现要分别优于ONKC达7.14%,10.22%,3.17%,3.45%,6.07%和10.2%。3.MVC-LFA是一种后期融合算法,通常表现要比其他绝大部分多视图算法要好,而所提出的算法在三个聚类指标下,分别平均超出其7.58%,7.07%和7.34%。
此外,我们还对比了在优化过程中不进行更新的锚点的表现,即分别用k均值聚类和随机采样选定锚点,代入目标式,在算法运行过程中不进行更新。为了避免算法随机性的影响,我们重复了该实验50次,取所有结果的平均值。结果如表3所示。
Figure BDA0002939574680000131
表3
从表3可以看出,无论是通过k均值选定或者是随机选定的代表点的效果,都比我们提出的代表点法要差很多。因此,我们代表点在算法优化过程中的更新是有效的。
本实施例引入了正则化参数λ以平衡二部图学习和多样化正则项的比重。如图2所示,绘出了当λ在[2-15,2-12,…,215]范围内变化时NMI的变化,以在该数据集上效果最好的对比算法作为基本参照。从该图可以看出:1)最佳NMI总是在适当地平衡两项时得到;2)所提出的算法在大部分数据集上无论λ如何变化,效果均优于最好的对比算法。
本实施例还有一个重要的参数,即代表点的个数s。我们在[2k,4k,...,14k]范围内选取代表点个数,其中k为聚类簇数,并进行实验,结果如图3所示。可以看出随着s的增大,聚类效果呈总体上升的趋势。但是较大的s必将带来较高的计算开销,为了兼顾聚类效果和复杂度,可以经验地选择代表点数s=8k。
本实施例也给出了每次迭代时的目标函数值和聚类表现的变化,如图4所示。可以看出目标函数值单调减少且通常在25次迭代之内即可收敛。可以看出,随着目标函数的减少,聚类效果会有所波动,但整体呈现上升趋势,本实例说明算法在训练过程中,能够不断提高聚类性能。
实施例三
本实施例提供基于二部图的后期融合多视图聚类机器学习系统,如图5所示,包括:
获取模块11,用于获取聚类任务和目标数据样本;
运行模块12,用于通过对获取的聚类任务和目标数据样本相对应的各个视图运行核k均值聚类,得到基础划分,并计算各视图多样化正则项;
建立模块13,用于利用随机初始化选定各个视图的代表点,建立基于二部图的后期融合多视图聚类目标函数;
求解模块14,用于采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数,得到视图融合后的二部图;
聚类模块15,用于对得到的二部图进行谱聚类,得到聚类结果。
进一步的,所述运行模块中运行核k均值聚类,具体为:
核k均值聚类的目标为最小化基于划分矩阵B∈{0,1}n×k的平方误差和,表示为:
Figure BDA0002939574680000151
其中,
Figure BDA0002939574680000152
表示由n个样本组成的数据集;
Figure BDA0002939574680000153
表示将样本x投射到一个再生核希尔伯特空间
Figure BDA00029395746800001515
的特征映射;
Figure BDA0002939574680000154
表示属于第c个簇的样本个数,1≤c≤k;i表示样本序号;当第i个样本属于第c个簇时,Bic=1,否则,Bic=0。公式(1)化为:
Figure BDA0002939574680000155
其中,K表示核矩阵,K的元素为Kij=φ(xi)Tφ(xj),
Figure BDA0002939574680000156
Figure BDA0002939574680000157
表示所有元素都为1的向量。
Figure BDA0002939574680000158
并将离散约束转换为实值正交约束,即HTH=Ik,则公式(2)转换为:
Figure BDA0002939574680000159
其中,Ik表示k维单位矩阵。
进一步的,所述建立模块中基于二部图的后期融合多视图聚类目标函数,表示为:
Figure BDA00029395746800001510
s.t.Z1s=1n,Z≥0,γT1m=1,γ≥0
其中,
Figure BDA00029395746800001511
表示由核k均值聚类得到的各个视图的基础划分;
Figure BDA00029395746800001512
表示各个视图的代表点;
Figure BDA00029395746800001513
为视图融合后的二部图;n,k,s分别表示样本数、聚类簇数和代表点数;λ表示正则化参数;γ表示各个视图的组合系数;M表示视图多样化正则项,元素为
Figure BDA00029395746800001514
m表示视图数量。
进一步的,所述求解模块中采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数具体为:
利用三步交替法求解公式(3),具包括:
第一固定模块,用于固定γ和
Figure BDA0002939574680000161
优化Z;
设Z的第i行为zi,则表示为:
Figure BDA0002939574680000162
其中,
Figure BDA0002939574680000163
比哦啊哈矩阵
Figure BDA0002939574680000164
的第i行;
第二固定模块,用于固定γ和Z,优化
Figure BDA0002939574680000165
采用令目标函数关于Ap偏导等于0,得到闭式解
Figure BDA0002939574680000166
第三固定模块,用于固定
Figure BDA0002939574680000167
和Z,优化γ,将目标函数转化为带有线性约束的二次规划问题,表示为:
Figure BDA0002939574680000168
其中,
Figure BDA0002939574680000169
进一步的,所述求解模块中利用三步交替法求解公式(3),其中三步交替法终止条件表示为:
(obj(t-1)-obj(t))/obj(t)≤ε
其中,obj(t-1)、obj(t)分别表示第t和t-1轮迭代的公式(3)的值,ε表示设定精度。
需要说明的是,本实施例提供的基于二部图的后期融合多视图聚类机器学习系统与实施例一类似,在此不多做赘述。
与现有技术相比,本实施例包括获取基础聚类划分和计算图多样化正则项、优化目标函数获取二部图和利用二部图进行聚类等模块。通过对代表点进行优化,本实施例使得经过优化后的代表点不但可以代表单个视图的信息,也能更好地服务于视图融合,进而使学习得到的二部图能更好地融合各个视图的信息,达到聚类效果提升的目的。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.基于二部图的后期融合多视图聚类机器学习方法,其特征在于,包括:
S1.获取聚类任务和目标数据样本;
S2.通过对获取的聚类任务和目标数据样本相对应的各个视图运行核k均值聚类,得到基础划分,并计算各视图多样化正则项;
S3.利用随机初始化选定各个视图的代表点,建立基于二部图的后期融合多视图聚类目标函数;
S4.采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数,得到视图融合后的二部图;
S5.对得到的二部图进行谱聚类,得到聚类结果。
2.根据权利要求1所述的基于二部图的后期融合多视图聚类机器学习方法,其特征在于,所述步骤S2中运行核k均值聚类,具体为:
核k均值聚类的目标为最小化基于划分矩阵B∈{0,1}n×k的平方误差和,表示为:
Figure FDA0002939574670000011
其中,
Figure FDA0002939574670000012
表示由n个样本组成的数据集;φ(·):
Figure FDA0002939574670000013
表示将样本x投射到一个再生核希尔伯特空间
Figure FDA0002939574670000014
的特征映射;
Figure FDA0002939574670000015
表示属于第c个簇的样本个数,1≤c≤k;i表示样本序号;当第i个样本属于第c个簇时,Bic=1,否则,Bic=0;
公式(1)化为:
Figure FDA0002939574670000016
其中,K表示核矩阵,K的元素为Kij=φ(xi)Tφ(xj),
Figure FDA0002939574670000017
Figure FDA0002939574670000018
表示所有元素都为1的向量;
Figure FDA0002939574670000019
并将离散约束转换为实值正交约束,即HTH=Ik,则公式(2)转换为:
Figure FDA00029395746700000110
其中,Ik表示k维单位矩阵。
3.根据权利要求2所述的基于二部图的后期融合多视图聚类机器学习方法,其特征在于,所述步骤S3中基于二部图的后期融合多视图聚类目标函数,表示为:
Figure FDA0002939574670000021
s.t.Z1s=1n,Z≥0,γT1m=1,γ≥0
其中,
Figure FDA0002939574670000022
表示由核k均值聚类得到的各个视图的基础划分;
Figure FDA0002939574670000023
表示各个视图的代表点;
Figure FDA0002939574670000024
为视图融合后的二部图;n,k,s分别表示样本数、聚类簇数和代表点数;λ表示正则化参数;γ表示各个视图的组合系数;M表示视图多样化正则项,元素为
Figure FDA0002939574670000025
m表示视图数量。
4.根据权利要求3所述的基于二部图的后期融合多视图聚类机器学习方法,其特征在于,所述步骤S4中采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数具体为:
利用三步交替法求解公式(3),具体为:
A1.固定γ和
Figure FDA0002939574670000026
优化Z;
设Z的第i行为zi,则表示为:
Figure FDA0002939574670000027
其中,
Figure FDA0002939574670000028
Figure FDA0002939574670000029
比哦啊哈矩阵
Figure FDA00029395746700000210
的第i行;
A2.固定γ和Z,优化
Figure FDA00029395746700000211
采用令目标函数关于Ap偏导等于0,得到闭式解
Figure FDA00029395746700000212
A3.固定
Figure FDA00029395746700000213
和Z,优化γ,将目标函数转化为带有线性约束的二次规划问题,表示为:
Figure FDA00029395746700000214
其中,
Figure FDA00029395746700000215
5.根据权利要求4所述的基于二部图的后期融合多视图聚类机器学习方法,其特征在于,所述步骤S4中利用三步交替法求解公式(3),其中三步交替法终止条件表示为:
(obj(t-1)-obj(t))/obj(t)≤ε
其中,obj(t-1)、obj(t)分别表示第t和t-1轮迭代的公式(3)的值,ε表示设定精度。
6.基于二部图的后期融合多视图聚类机器学习系统,其特征在于,包括:
获取模块,用于获取聚类任务和目标数据样本;
运行模块,用于通过对获取的聚类任务和目标数据样本相对应的各个视图运行核k均值聚类,得到基础划分,并计算各视图多样化正则项;
建立模块,用于利用随机初始化选定各个视图的代表点,建立基于二部图的后期融合多视图聚类目标函数;
求解模块,用于采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数,得到视图融合后的二部图;
聚类模块,用于对得到的二部图进行谱聚类,得到聚类结果。
7.根据权利要求6所述的基于二部图的后期融合多视图聚类机器学习系统,其特征在于,所述运行模块中运行核k均值聚类,具体为:
核k均值聚类的目标为最小化基于划分矩阵B∈{0,1}n×k的平方误差和,表示为:
Figure FDA0002939574670000031
其中,
Figure FDA0002939574670000032
表示由n个样本组成的数据集;φ(·):
Figure FDA0002939574670000033
表示将样本x投射到一个再生核希尔伯特空间
Figure FDA0002939574670000034
的特征映射;
Figure FDA0002939574670000035
表示属于第c个簇的样本个数,1≤c≤k;i表示样本序号;当第i个样本属于第c个簇时,Bic=1,否则,Bic=0;
公式(1)化为:
Figure FDA0002939574670000036
其中,K表示核矩阵,K的元素为Kij=φ(xi)Tφ(xj),
Figure FDA0002939574670000037
Figure FDA0002939574670000038
表示所有元素都为1的向量;
Figure FDA0002939574670000039
并将离散约束转换为实值正交约束,即HTH=Ik,则公式(2)转换为:
Figure FDA0002939574670000041
其中,Ik表示k维单位矩阵。
8.根据权利要求7所述的基于二部图的后期融合多视图聚类机器学习系统,其特征在于,所述建立模块中基于二部图的后期融合多视图聚类目标函数,表示为:
Figure FDA0002939574670000042
s.t.Z1s=1n,Z≥0,γT1m=1,γ≥0
其中,
Figure FDA0002939574670000043
表示由核k均值聚类得到的各个视图的基础划分;
Figure FDA0002939574670000044
表示各个视图的代表点;
Figure FDA0002939574670000045
为视图融合后的二部图;n,k,s分别表示样本数、聚类簇数和代表点数;λ表示正则化参数;γ表示各个视图的组合系数;M表示视图多样化正则项,元素为
Figure FDA0002939574670000046
m表示视图数量。
9.根据权利要求8所述的基于二部图的后期融合多视图聚类机器学习系统,其特征在于,所述求解模块中采用循环方式求解建立的基于二部图的后期融合多视图聚类目标函数具体为:
利用三步交替法求解公式(3),具包括:
第一固定模块,用于固定γ和
Figure FDA0002939574670000047
优化Z;
设Z的第i行为zi,则表示为:
Figure FDA0002939574670000048
其中,
Figure FDA0002939574670000049
Figure FDA00029395746700000410
比哦啊哈矩阵
Figure FDA00029395746700000411
的第i行;
第二固定模块,用于固定γ和Z,优化
Figure FDA00029395746700000412
采用令目标函数关于Ap偏导等于0,得到闭式解
Figure FDA00029395746700000413
第三固定模块,用于固定
Figure FDA00029395746700000414
和Z,优化γ,将目标函数转化为带有线性约束的二次规划问题,表示为:
Figure FDA0002939574670000051
其中,
Figure FDA0002939574670000052
10.根据权利要求-所述的基于二部图的后期融合多视图聚类机器学习系统,其特征在于,所述求解模块中利用三步交替法求解公式(3),其中三步交替法终止条件表示为:
(obj(t-1)-obj(t))/obj(t)≤ε
其中,obj(t-1)、obj(t)分别表示第t和t-1轮迭代的公式(3)的值,ε表示设定精度。
CN202110173493.9A 2021-02-09 2021-02-09 基于二部图的后期融合多视图聚类机器学习方法及系统 Pending CN112990265A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110173493.9A CN112990265A (zh) 2021-02-09 2021-02-09 基于二部图的后期融合多视图聚类机器学习方法及系统
LU502853A LU502853B1 (en) 2021-02-09 2021-12-08 Bipartite graphs based post-fusion multi-view clustering machine learning methods and systems
PCT/CN2021/136557 WO2022170840A1 (zh) 2021-02-09 2021-12-08 基于二部图的后期融合多视图聚类机器学习方法及系统
ZA2022/07736A ZA202207736B (en) 2021-02-09 2022-07-12 Bipartite graphs based post-fusion multi-view clustering machine learning methods and systems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110173493.9A CN112990265A (zh) 2021-02-09 2021-02-09 基于二部图的后期融合多视图聚类机器学习方法及系统

Publications (1)

Publication Number Publication Date
CN112990265A true CN112990265A (zh) 2021-06-18

Family

ID=76347689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110173493.9A Pending CN112990265A (zh) 2021-02-09 2021-02-09 基于二部图的后期融合多视图聚类机器学习方法及系统

Country Status (4)

Country Link
CN (1) CN112990265A (zh)
LU (1) LU502853B1 (zh)
WO (1) WO2022170840A1 (zh)
ZA (1) ZA202207736B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591879A (zh) * 2021-07-22 2021-11-02 大连理工大学 基于自监督学习的深度多视图聚类方法、网络、装置及存储介质
CN114067395A (zh) * 2021-06-24 2022-02-18 浙江师范大学 基于局部最大对齐的后期融合多视图聚类方法及系统
CN114065850A (zh) * 2021-06-24 2022-02-18 浙江师范大学 基于统一锚点与子空间学习的谱聚类方法及系统
WO2022170840A1 (zh) * 2021-02-09 2022-08-18 浙江师范大学 基于二部图的后期融合多视图聚类机器学习方法及系统
CN115293220A (zh) * 2021-06-24 2022-11-04 浙江师范大学 基于矩阵分解和多划分对齐的多视图聚类方法及系统
WO2023020391A1 (zh) * 2021-08-17 2023-02-23 浙江师范大学 一种基于一步后融合多视图的文本聚类方法及系统
WO2023088288A1 (zh) * 2021-11-19 2023-05-25 华为技术有限公司 二部图构建方法、显示方法和装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009838B (zh) * 2023-09-27 2024-01-26 江西师范大学 一种多尺度融合对比学习多视图聚类方法及系统
CN117292162B (zh) * 2023-11-27 2024-03-08 烟台大学 一种多视图图像聚类的目标跟踪方法、系统、设备及介质
CN118245651B9 (zh) * 2024-05-27 2024-08-30 陕西智引科技有限公司 一种基于欧氏距离及图拉普拉斯矩阵强约束的自适应多视图聚类算法的5g矿井下定位方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117881A (zh) * 2018-08-10 2019-01-01 聚时科技(上海)有限公司 一种具有缺失核的多视图聚类机器学习方法
CN109214429A (zh) * 2018-08-14 2019-01-15 聚时科技(上海)有限公司 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11709855B2 (en) * 2019-07-15 2023-07-25 Microsoft Technology Licensing, Llc Graph embedding already-collected but not yet connected data
CN112132224A (zh) * 2020-09-28 2020-12-25 广东工业大学 一种基于图学习的快速谱嵌入聚类方法
CN112287974B (zh) * 2020-09-28 2024-05-28 北京工业大学 一种基于自适应权重的多视k多均值的图像聚类方法
CN112990265A (zh) * 2021-02-09 2021-06-18 浙江师范大学 基于二部图的后期融合多视图聚类机器学习方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117881A (zh) * 2018-08-10 2019-01-01 聚时科技(上海)有限公司 一种具有缺失核的多视图聚类机器学习方法
CN109214429A (zh) * 2018-08-14 2019-01-15 聚时科技(上海)有限公司 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUSI LI等: "Bipartite Graph Based Multi-View Clustering", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 3 September 2020 (2020-09-03), pages 2 - 4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022170840A1 (zh) * 2021-02-09 2022-08-18 浙江师范大学 基于二部图的后期融合多视图聚类机器学习方法及系统
CN114067395A (zh) * 2021-06-24 2022-02-18 浙江师范大学 基于局部最大对齐的后期融合多视图聚类方法及系统
CN114065850A (zh) * 2021-06-24 2022-02-18 浙江师范大学 基于统一锚点与子空间学习的谱聚类方法及系统
CN115293220A (zh) * 2021-06-24 2022-11-04 浙江师范大学 基于矩阵分解和多划分对齐的多视图聚类方法及系统
WO2022267955A1 (zh) * 2021-06-24 2022-12-29 浙江师范大学 基于局部最大对齐的后期融合多视图聚类方法及系统
WO2022267956A1 (zh) * 2021-06-24 2022-12-29 浙江师范大学 基于矩阵分解和多划分对齐的多视图聚类方法及系统
WO2022267954A1 (zh) * 2021-06-24 2022-12-29 浙江师范大学 基于统一锚点与子空间学习的谱聚类方法及系统
CN113591879A (zh) * 2021-07-22 2021-11-02 大连理工大学 基于自监督学习的深度多视图聚类方法、网络、装置及存储介质
WO2023020391A1 (zh) * 2021-08-17 2023-02-23 浙江师范大学 一种基于一步后融合多视图的文本聚类方法及系统
WO2023088288A1 (zh) * 2021-11-19 2023-05-25 华为技术有限公司 二部图构建方法、显示方法和装置

Also Published As

Publication number Publication date
LU502853B1 (en) 2023-01-30
WO2022170840A1 (zh) 2022-08-18
ZA202207736B (en) 2022-07-27

Similar Documents

Publication Publication Date Title
CN112990265A (zh) 基于二部图的后期融合多视图聚类机器学习方法及系统
Wen et al. Unified embedding alignment with missing views inferring for incomplete multi-view clustering
Zhang et al. Unsupervised feature selection via adaptive graph learning and constraint
Guo et al. Unsupervised feature selection with ordinal locality
Feng et al. Adaptive unsupervised multi-view feature selection for visual concept recognition
CN108776812A (zh) 基于非负矩阵分解和多样-一致性的多视图聚类方法
Verbanck et al. Regularised PCA to denoise and visualise data
CN109214429A (zh) 基于矩阵引导正则化的局部缺失多视图聚类机器学习方法
CN109508752A (zh) 一种基于结构化锚图的快速自适应近邻聚类方法
CN105718999B (zh) 一种启发式代谢共表达网络的构建方法及系统
WO2022267954A1 (zh) 基于统一锚点与子空间学习的谱聚类方法及系统
CN114969648B (zh) 基于模态自适应调整降维的故障检测方法及系统
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
WO2022253153A1 (zh) 基于代理图改善的后期融合多核聚类机器学习方法及系统
WO2022227956A1 (zh) 一种基于局部核的最优邻居多核聚类方法及系统
CN112967755B (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
CN110705648A (zh) 大规模多视图数据自降维K-means算法及系统
WO2022267955A1 (zh) 基于局部最大对齐的后期融合多视图聚类方法及系统
Levin et al. Out-of-sample extension of graph adjacency spectral embedding
CN109145975A (zh) 一种矩阵范数导出正则化的多视图聚类机器学习方法
CN115311483A (zh) 基于局部结构与平衡感知的不完备多视图聚类方法及系统
CN110414560A (zh) 一种用于高维图像数据的自主子空间聚类方法
JP2014501965A (ja) ロバストなパターン分類のためのシステムおよび方法
Hsieh et al. Adaptive structural co-regularization for unsupervised multi-view feature selection
Li et al. Multi-view clustering with learned bipartite graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination