CN113947135A - 基于缺失图重构和自适应近邻的不完整多视图聚类方法 - Google Patents

基于缺失图重构和自适应近邻的不完整多视图聚类方法 Download PDF

Info

Publication number
CN113947135A
CN113947135A CN202111136027.XA CN202111136027A CN113947135A CN 113947135 A CN113947135 A CN 113947135A CN 202111136027 A CN202111136027 A CN 202111136027A CN 113947135 A CN113947135 A CN 113947135A
Authority
CN
China
Prior art keywords
view
data
incomplete
representing
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111136027.XA
Other languages
English (en)
Other versions
CN113947135B (zh
Inventor
张楠
孙仕亮
赵静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202111136027.XA priority Critical patent/CN113947135B/zh
Publication of CN113947135A publication Critical patent/CN113947135A/zh
Application granted granted Critical
Publication of CN113947135B publication Critical patent/CN113947135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于缺失图重构和自适应近邻的不完整多视图聚类方法,该方法通过学习一致性非负特征实现不完整多视图数据的聚类。本发明考虑到不同视图上的不完整图结构将其分解成一个视图一致性特征和多个视图特定特征,其中视图一致性特征用来保留多视图数据的近邻图结构信息。本发明的创新点在于从不完整视图的图结构分解角度重新思考不完整多视图聚类问题,同时学习缺失多视图数据的一致性非负特征与公共图结构,其中一致性非负特征满足公共图结构约束。本发明的不完整多视图聚类框架由矩阵分解模型和自适应近邻模型组成,同时推导了训练目标和推导过程;本发明方法能够在不填充缺失视图的情况下处理各种不完整多视图场景。

Description

基于缺失图重构和自适应近邻的不完整多视图聚类方法
技术领域
本发明涉及计算机技术领域,涉及多视图学习技术,特别涉及一种基于缺失图重构和自适应近邻的不完整多视图聚类方法。
背景技术
背景技术涉及三大块:基于非负与正交约束的矩阵分解算法,基于自适应近邻的聚类算法,基于非负特征与谱特征的多视图谱聚类算法。
1)基于非负与正交约束的矩阵分解算法
谱聚类是从图论中演化出来的算法,后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看作空间中的点,这些点之间用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高。然而,随着数据规模的增长,谱聚类算法的计算成本很高,并且其结果需要通过其他聚类模型对谱特征聚类得到。针对这一问题,基于非负与正交约束的矩阵分解算法将数据的图结构A分解成非负特征H与谱特征F的乘积,并且使用非负特征H近似谱特征F,其目标函数写成
Figure BDA0003282062870000011
其中,λ是正则化参数。并且,使用坐标梯度下降方法优化目标函数。非负与正交约束的矩阵分解算法的步骤分解成两步:
a1.固定H,计算F
固定H,模型的目标函数变成
Figure BDA0003282062870000012
这样,对ATH+λH奇异值分解得到U′S′V′T,然后计算得到F=U′V′T
a2.固定F,计算H
固定F,模型的目标函数变成
Figure BDA0003282062870000013
这样,计算得到H=max((ATF+λF)/(1+λ),0)。
2)基于自适应近邻的聚类算法
基于非负与正交约束的矩阵分解算法将数据的图结构分解得到非负特征,这样非负特征能保留样本的图结构信息,但是该模型并不能更新数据的图结构。与基于非负与正交约束的矩阵分解算法相比,基于自适应近邻的聚类算法旨在学习一个新的相似性图进行聚类。基于自适应近邻的聚类算法的目标函数表达成
Figure BDA0003282062870000021
其中,A是需要学习的近邻矩阵,L是A的拉普拉斯矩阵,F是谱特征,γ,λ是正则化参数。基于自适应近邻的聚类算法通过对学习得到的稀疏近邻矩阵进行图切割得到聚类结果。并且,基于自适应近邻的聚类算法也需要迭代学习A,F,具体步骤如下:
b1.固定F,计算A
固定F,模型的目标函数变成
Figure BDA0003282062870000022
其中,
Figure BDA0003282062870000023
βi.≥0,ξ,βi.是拉格朗日系数,A是稀疏矩阵。假定每个样例只有K个近邻样例,Ai.的计算表达成
Figure BDA0003282062870000024
其中,Ai.中只有K个非零元素,
Figure BDA0003282062870000025
Figure BDA0003282062870000026
表示di.中第k小的元素。
b2.固定A,计算F
固定A,模型的目标函数变成
Figure BDA0003282062870000027
这样,对L奇异值分解得到F。
3)基于非负特征与谱特征的多视图谱聚类算法
基于自适应近邻的聚类算法与基于非负与正交约束的矩阵分解算法都是典型的单视图数据聚类方法,它们并不能处理多视图数据。针对多视图数据,基于非负特征与谱特征的多视图谱聚类算法将多个视图上的图结构
Figure BDA0003282062870000028
分解成一致性表示H和多个谱特征
Figure BDA0003282062870000029
这样,基于非负特征与谱特征的多视图谱聚类算法的目标函数定义成
Figure BDA0003282062870000031
其中,
Figure BDA00032820628700000310
表示需要学习的变量,
Figure BDA0003282062870000032
用来平衡多个视图。并且,当
Figure BDA0003282062870000033
给定时,δv=1/||Av-HFvT||F表示每个视图上的权重。类似地,基于非负特征与谱特征的多视图谱聚类算法也需要迭代学习
Figure BDA0003282062870000039
基于非负特征与谱特征的多视图谱聚类算法虽然能够得到多视图数据的一致性表示,但是其不能学习多视图数据的一致性图结构。也就是说,该算法不能实现一致性图结构与一致性特征的联合学习。并且,基于非负特征与谱特征的多视图谱聚类算法也只能处理完整的多视图数据,不能处理缺失视图场景。当出现任意一个数据不完整的情况,该算法不能学习缺失数据的一致性特征,从而无法实现缺失数据的聚类。
发明内容
本发明的目的是提供一种基于缺失图重构和自适应近邻的不完整多视图聚类方法,该方法通过学习一致性非负特征实现不完整多视图数据的聚类。该方法考虑到不同视图上的不完整图结构将其分解成一个视图一致性非负特征和多个视图特定特征,其中视图一致性特征用来保留多视图数据的近邻图结构信息。
实现本发明目的的具体技术方案是:
一种基于缺失图重构和自适应近邻的不完整多视图聚类方法,特点是:该方法包括如下步骤:
步骤一:建立包含不完整多视图数据集
所述不完整多视图数据集格式为:
Figure BDA0003282062870000034
Figure BDA0003282062870000035
其中V表示数据的视图数量,
Figure BDA0003282062870000036
表示第v个视图上观测到的数据,Nv表示第v个视图上观测到的数据数量,Dv表示第v个视图上观测到的数据维度,
Figure BDA0003282062870000037
表示第v个视图上的观测数据与不完整多视图数据的对应关系,N表示所有多视图数据的数量;
步骤二:确定所有视图上的缺失图结构
采用欧式距离计算每个视图上观测数据间的距离,并依此得到每个视图上的缺失图结构;具体包括如下步骤:
步骤a1:采用欧式距离计算每个视图上观测数据间的距离,即
Figure BDA0003282062870000038
其中
Figure BDA0003282062870000041
表示第v个视图上第i个观测数据,||·||F表示矩阵的Frobenius范数;
步骤a2:通过下述公式计算每个视图上观测数据的近邻图结构:
Figure BDA0003282062870000042
其中,
Figure BDA0003282062870000043
表示数据
Figure BDA0003282062870000044
在第v个视图的k近邻结合,
Figure BDA0003282062870000045
Figure BDA0003282062870000046
的第j'近的观测数据;并且,Sv是不对称的,需要对其对称化:Sv=(Sv+(Sv)T)/2,(Sv)T表示矩阵Sv的转置;
步骤a3:根据每个视图上的近邻图结构构建每个视图的缺失图结构Av
Av=GvT(Dv-1/2SvDv-1/2)Gv
其中,
Figure BDA0003282062870000047
表示第i个多视图数据的第v视图是缺失的。
步骤三:基于多视图数据
Figure BDA0003282062870000048
与所有视图上的缺失图结构
Figure BDA0003282062870000049
确定不完整多视图聚类模型的目标函数,所述不完整多视图聚类模型的目标函数是关于一致性非负特征H与公共图结构A的函数,包括缺失图重构项、协同正则化项、公共图正则化项;如下公式描述:
Figure BDA00032820628700000410
其中,
Figure BDA00032820628700000411
表示需要学习的变量,
Figure BDA00032820628700000412
是一致性非负特征,Hi.表示第i个观测数据的一致性非负特征,
Figure BDA00032820628700000418
表示两个矩阵对位元素相乘,
Figure BDA00032820628700000413
表示第v个视图上视图相关的谱特征,C表示不完整多视图数据的聚类数目,A表示多视图数据的公共图结构,
Figure BDA00032820628700000414
||·||F表示矩阵的Frobenius范数,
Figure BDA00032820628700000415
表示维度为Nv×K的全1矩阵,FvT表示矩阵Fv的转置,λ12,γ表示正则化参数,人为指定;在优化目标中,多个视图上的缺失图重构项通过矩阵分解的方式将不完整图结构
Figure BDA00032820628700000416
分解成统一的一致性非负特征H和多个视图相关的谱特征
Figure BDA00032820628700000417
协同正则化项约束一致性非负特征H满足公共图近邻约束;公共图正则化项约束公共图结构保留不完整多视图数据的近邻信息;
步骤四:采用坐标梯度下降的方法优化步骤三所述不完整多视图聚类模型的目标函数,得到多视图数据的一致性非负特征H;具体包括:
步骤b1:设置超参数λ12,γ,C,最大迭代次数;
步骤b2:根据
Figure BDA0003282062870000051
初始化公共图结构A:A=∑vAv./∑vP′v,其中./表示两个矩阵对位元素相除;
步骤b3:初始化
Figure BDA0003282062870000052
对Av进行奇异值分解得到Av=FvΛFvT
步骤b4:固定
Figure BDA0003282062870000053
更新H:
Figure BDA0003282062870000054
其中,L表示A的拉普拉斯矩阵,
Figure BDA00032820628700000512
看作不同视图的重要性权重;
步骤b5:固定H,A,更新
Figure BDA0003282062870000055
Figure BDA00032820628700000513
奇异值分解得到USVT,然后计算得到Fv=UVT
步骤b6:固定
Figure BDA0003282062870000056
更新A:优化
Figure BDA0003282062870000057
得到
Figure BDA0003282062870000058
其中,Ai.中只有K个非零元素,
Figure BDA0003282062870000059
Figure BDA00032820628700000510
是拉格朗日系数,
Figure BDA00032820628700000511
表示di.中第k小的元素;
步骤b7:迭代进行步骤b4-b6,并设置早停机制,即Early stop机制,以目标函数的值为标准,当目标函数的值变化小于10-8或当训练达到最大迭代次数后,中止模型的训练;
步骤b8:返回多视图数据的一致性非负特征H;
步骤五:训练完毕后,根据一致性非负特征对不完整多视图数据进行聚类:
在一致性非负特征H中,每一行Hi.表示第i个多视图数据的一致性特征,Hi.中最大值对应的列数就是该数据所述的类别。
本发明的有益效果包括:
1)本发明从不完整视图的图结构分解角度重新思考不完整多视图聚类问题,同时学习缺失多视图数据的一致性非负特征与公共图结构,其中一致性非负特征满足公共图结构约束;
2)本发明的不完整多视图聚类框架由矩阵分解模型和自适应近邻模型组成,能够在不填充缺失视图的情况下处理各种不完整多视图场景。
附图说明
图1为本发明的流程图;
图2为本发明基于缺失图重构和自适应近邻的不完整多视图聚类模型示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。本发明包括如下步骤:
1、建立包含不完整多视图数据集
所述不完整多视图数据集格式为:
Figure BDA0003282062870000061
Figure BDA0003282062870000062
其中V表示数据的视图数量,
Figure BDA0003282062870000063
表示第v个视图上观测到的数据,Nv表示第v个视图上观测到的数据数量,Dv表示第v个视图上观测到的数据维度,
Figure BDA0003282062870000064
表示第v个视图上的观测数据与不完整多视图数据的对应关系(也就是说,如果
Figure BDA0003282062870000065
那个第v个视图上观测到的第i个数据对应第j个多视图数据的第v个视图),N表示所有多视图数据的数量;
2、确定所有视图上的缺失图结构
采用欧式距离计算每个视图上观测数据间的距离,并依此得到每个视图上的缺失图结构;具体包括如下步骤:
a1.采用欧式距离计算每个视图上观测数据间的距离,即
Figure BDA0003282062870000066
其中
Figure BDA0003282062870000067
表示第v个视图上第i个观测数据,||·||F表示矩阵的Frobenius范数;
a2.通过下述公式计算每个视图上观测数据的近邻图结构:
Figure BDA0003282062870000068
其中,
Figure BDA0003282062870000069
表示数据
Figure BDA00032820628700000610
在第v个视图的k近邻结合,
Figure BDA00032820628700000611
Figure BDA00032820628700000612
的第j'近的观测数据。并且,Sv是不对称的,需要对其对称化:Sv=(Sv+(Sv)T)/2,(Sv)T表示矩阵Sv的转置;
a3.根据每个视图上的近邻图结构构建每个视图的缺失图结构Av
Av=GvT(Dv-1/2SvDv-1/2)Gv
其中,
Figure BDA00032820628700000613
表示第i个多视图数据的第v视图是缺失的。
3、确定不完整多视图聚类模型的目标函数
根据多视图数据
Figure BDA00032820628700000614
与所有视图上的缺失图结构
Figure BDA00032820628700000615
不完整多视图聚类模型的目标函数是关于一致性非负特征H与公共图结构A的函数,包括缺失图重构项、协同正则化项、公共图正则化项。如下公式描述:
Figure BDA0003282062870000071
其中,
Figure BDA0003282062870000072
表示需要学习的变量,
Figure BDA0003282062870000073
是一致性非负特征,Hi.表示第i个观测数据的一致性非负特征,
Figure BDA00032820628700000717
表示两个矩阵对位元素相乘,
Figure BDA0003282062870000074
表示第v个视图上视图相关的谱特征,C表示不完整多视图数据的聚类数目,A表示多视图数据的公共图结构,
Figure BDA0003282062870000075
||·||F表示矩阵的Frobenius范数,
Figure BDA0003282062870000076
表示维度为Nv×K的全1矩阵,FvT表示矩阵Fv的转置,λ12,γ表示正则化参数。在优化目标中,多个视图上的缺失图重构项通过矩阵分解的方式将不完整图结构
Figure BDA0003282062870000077
分解成统一的一致性非负特征H和多个视图相关的谱特征
Figure BDA0003282062870000078
协同正则化项约束一致性非负特征H满足公共图近邻约束;公共图正则化项约束公共图结构保留不完整多视图数据的近邻信息。
4、优化不完整多视图聚类模型的目标函数,得到不完整多视图数据的一致性非负表示H
在基于缺失图重构和自适应近邻的不完整多视图聚类模型中,模型的目标函数采用坐标梯度下降的方法优化,迭代更新三种变量
Figure BDA0003282062870000079
具体训练如下:
b1.固定
Figure BDA00032820628700000710
更新H
固定
Figure BDA00032820628700000711
模型的目标函数退化成
Figure BDA00032820628700000712
求f(H)关于变量H的偏导,得到
Figure BDA00032820628700000713
其中,
Figure BDA00032820628700000714
看出δv依赖于变量H,这样上述关于变量H的目标函数不能直接计算。但是可以将δv看作固定值,关于变量H的目标函数转换成
Figure BDA00032820628700000715
将f(H,δ)关于变量H的偏导等于零,得到
Figure BDA00032820628700000716
其中,L是A的拉普拉斯矩阵。这样,一致性非负特征H表达成:
Figure BDA0003282062870000081
b2.固定H,A,更新
Figure BDA0003282062870000082
固定H,A,模型的目标函数退化成
Figure BDA0003282062870000083
这样,对
Figure BDA0003282062870000084
奇异值分解得到USVT,然后计算得到Fv=UVT
b3.固定
Figure BDA0003282062870000085
更新A
固定
Figure BDA0003282062870000086
模型的目标函数退化成
Figure BDA0003282062870000087
其中,
Figure BDA0003282062870000088
βi.≥0,ξ,βi.是拉格朗日系数,A是稀疏矩阵。假定每个样例只有K个近邻样例,Ai.的计算表达成
Figure BDA0003282062870000089
其中,Ai.中只有K个非零元素,
Figure BDA00032820628700000810
Figure BDA00032820628700000811
表示di.中第k小的元素。
5、训练完毕后,根据一致性非负特征对不完整多视图数据进行聚类
在一致性非负特征H中,每一行Hi.表示第i个多视图数据的一致性特征,Hi.中最大值对应的列数就是该数据所述的类别。
实施例
以下是本实施例的实施过程:
1,如图1和图2所示,首先将不完整多视图处理成
Figure BDA00032820628700000812
Figure BDA00032820628700000813
的格式,其中
Figure BDA00032820628700000814
表示第v个视图上观测到的数据,
Figure BDA00032820628700000815
表示第v个视图上的观测数据与不完整多视图数据的对应关系。
2,得到数据
Figure BDA0003282062870000091
Figure BDA0003282062870000092
之后,然后采用欧式距离计算每个视图上观测数据间的距离,并依此得到每个视图上的缺失图结构Av。具体如下:
c1.采用欧式距离计算每个视图上观测数据间的距离,即
Figure BDA0003282062870000093
其中
Figure BDA0003282062870000094
表示第v个视图上第i个观测数据,||·||F表示矩阵的Frobenius范数;
c2.通过下述公式计算每个视图上观测数据的近邻图结构:
Figure BDA0003282062870000095
其中,
Figure BDA0003282062870000096
表示数据
Figure BDA0003282062870000097
在第v个视图的k近邻结合,
Figure BDA0003282062870000098
Figure BDA0003282062870000099
的第j'近的观测数据。并且,Sv是不对称的,需要对其对称化:Sv=(Sv+(Sv)T)/2,(Sv)T表示矩阵Sv的转置;
c3.根据每个视图上的近邻图结构构建每个视图的缺失图结构Av
Av=GvT(Dv-1/2SvDv-1/2)Gv
其中,
Figure BDA00032820628700000910
表示第i个多视图数据的第v视图是缺失的。
3,根据多视图数据
Figure BDA00032820628700000911
与所有视图上的缺失图结构
Figure BDA00032820628700000912
确定不完整多视图聚类模型的目标函数。具体如下:
Figure BDA00032820628700000913
其中,
Figure BDA00032820628700000914
表示需要学习的变量,
Figure BDA00032820628700000915
是一致性非负特征,Hi.表示第i个观测数据的一致性非负特征,
Figure BDA00032820628700000920
表示两个矩阵对位元素相乘,
Figure BDA00032820628700000916
表示第v个视图上视图相关的谱特征,C表示不完整多视图数据的聚类数目,A表示多视图数据的公共图结构,
Figure BDA00032820628700000917
||·||F表示矩阵的Frobenius范数,
Figure BDA00032820628700000918
表示维度为Nv×K的全1矩阵,FvT表示矩阵Fv的转置,λ12,γ表示正则化参数。
4,指定超参数λ12,γ与最大迭代次数,接着优化不完整多视图聚类模型的目标函数,得到不完整多视图数据的一致性表示H。具体如下:
d1.根据
Figure BDA00032820628700000919
初始化公共图结构A:A=∑vAv./∑vP′v,其中./表示两个矩阵对位元素相除;
d2.初始化
Figure BDA0003282062870000101
对Av进行奇异值分解得到Av=FvΛFvT
d3.固定
Figure BDA0003282062870000102
更新H:
Figure BDA0003282062870000103
其中,L表示A的拉普拉斯矩阵,
Figure BDA0003282062870000104
看作不同视图的重要性权重;
d4.固定H,A,更新
Figure BDA0003282062870000105
Figure BDA0003282062870000106
奇异值分解得到USVT,然后计算得到Fv=UVT
d5.固定
Figure BDA0003282062870000107
更新A:优化
Figure BDA0003282062870000108
得到
Figure BDA0003282062870000109
其中,Ai.中只有K个非零元素,
Figure BDA00032820628700001010
Figure BDA00032820628700001011
表示di.中第k小的元素,
Figure BDA00032820628700001012
是拉格朗日系数;
d6.迭代进行上面三个步骤,并设置早停机制,即Early stop机制,以目标函数的值为标准,当目标函数的值变化小于10-8或当训练达到最大迭代次数后,中止模型的训练;
d7.返回不完整多视图数据的一致性非负表示H。
5,训练完毕后,在一致性非负特征H中,每一行Hi.表示第i个多视图数据的一致性特征,Hi.中最大值对应的列数就是该数据所述的类别。这样实现不完整多视图数据的聚类。
根据以上流程,本发明将得到不完整多视图数据的聚类结果。
本发明的实验数据集是Caltech7数据集,它是Caltech101数据集的子集,由1474个样例组成,包括“faces”、“motorbikes”、“dollar bill”、“garfield”、“snoopy”、“stopsign”和“windsor chair”七个类别与“Gabor”、“wavelet moments”、“Cenhist”、“Hog”、“Gist”和“LBP”六个视图。在Caltech7数据集上,本发明把每个视图上的数据随机丢失一定比例p,其中p选自10%、30%与50%)。并且,本发明所有算法在这个数据集上随机丢失15次,给出运行15次的均值和标准差。
表1测试数据集、对比方法以及ACC/NMI/purity得分(%)
Figure BDA00032820628700001013
表1是本发明提出的方法和一些传统方法在Caltech7数据集上ACC/NMI/purity得分,其中MNIGA(Multiview Nonnegative representation learning with IncompleteGraph reconstruction and Adaptive neighbors)是本发明提出的方法,OMVC(OnlineMulti-View Clustering)、DAIMC(Doubly Aligned Incomplete Multiview Clustering)、IMSC-AGL(Incomplete Multiview Spectral Clustering with Adaptive GraphLearning)、GPMVC(Graph regularized Partial Multi-View Clustering)、GIMC-FLSD(Generalized Incomplete Multiview Clustering with Flexible Locality StructureDiffusion)是传统的不完整多视图聚类方法。本发明模型在Caltech7数据集上的ACC/NMI/purity分数好于所有的对比方法。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (3)

1.一种基于缺失图重构和自适应近邻的不完整多视图聚类方法,其特征在于,该方法包括如下步骤:
步骤一:建立包含不完整多视图数据集
所述不完整多视图数据集格式为:
Figure FDA0003282062860000011
Figure FDA0003282062860000012
其中V表示数据的视图数量,
Figure FDA0003282062860000013
表示第v个视图上观测到的数据,Nv表示第v个视图上观测到的数据数量,Dv表示第v个视图上观测到的数据维度,
Figure FDA0003282062860000014
表示第v个视图上的观测数据与不完整多视图数据的对应关系,N表示所有多视图数据的数量;
步骤二:确定所有视图上的缺失图结构
采用欧式距离计算每个视图上观测数据间的距离,并依此得到每个视图上的缺失图结构;具体包括如下步骤:
步骤a1:采用欧式距离计算每个视图上观测数据间的距离,即
Figure FDA0003282062860000015
其中
Figure FDA0003282062860000016
表示第v个视图上第i个观测数据,||·||F表示矩阵的Frobenius范数;
步骤a2:通过下述公式计算每个视图上观测数据的近邻图结构:
Figure FDA0003282062860000017
其中,
Figure FDA0003282062860000018
表示数据
Figure FDA0003282062860000019
在第v个视图的k近邻结合,
Figure FDA00032820628600000110
Figure FDA00032820628600000111
的第j'近的观测数据;并且,Sv是不对称的,需要对其对称化:Sv=(Sv+(Sv)T)/2,(Sv)T表示矩阵Sv的转置;
步骤a3:根据每个视图上的近邻图结构构建每个视图的缺失图结构Av
Av=GvT(Dv-1/2SvDv-1/2)Gv
其中,
Figure FDA00032820628600000112
表示第i个多视图数据的第v视图是缺失的;
步骤三:基于多视图数据
Figure FDA00032820628600000113
与所有视图上的缺失图结构
Figure FDA00032820628600000114
确定不完整多视图聚类模型的目标函数,所述不完整多视图聚类模型的目标函数是关于一致性非负特征H与公共图结构A的函数;
步骤四:采用坐标梯度下降的方法优化步骤三所述不完整多视图聚类模型的目标函数,得到多视图数据的一致性非负特征H;
步骤五:训练完毕后,根据一致性非负特征对不完整多视图数据进行聚类:
在一致性非负特征H中,每一行Hi.表示第i个多视图数据的一致性特征,Hi.中最大值对应的列数就是该数据所述的类别。
2.根据权利要求1所述的基于缺失图重构和自适应近邻的不完整多视图聚类方法,其特征在于,步骤三所述不完整多视图聚类模型的目标函数包括缺失图重构项、协同正则化项、公共图正则化项;如下公式描述:
Figure FDA0003282062860000021
Figure FDA0003282062860000022
其中,
Figure FDA0003282062860000023
表示需要学习的变量,
Figure FDA0003282062860000024
是一致性非负特征,Hi.表示第i个观测数据的一致性非负特征,
Figure FDA0003282062860000025
表示两个矩阵对位元素相乘,
Figure FDA0003282062860000026
表示第v个视图上视图相关的谱特征,C表示不完整多视图数据的聚类数目,A表示多视图数据的公共图结构,
Figure FDA0003282062860000027
P′v=GvTG,X′v=GvTXv,||·||F表示矩阵的Frobenius范数,
Figure FDA0003282062860000028
表示维度为Nv×K的全1矩阵,FvT表示矩阵Fv的转置,λ1,λ2,γ表示正则化参数,人为指定;在优化目标中,多个视图上的缺失图重构项通过矩阵分解的方式将不完整图结构
Figure FDA0003282062860000029
分解成统一的一致性非负特征H和多个视图相关的谱特征
Figure FDA00032820628600000210
协同正则化项约束一致性非负特征H满足公共图近邻约束;公共图正则化项约束公共图结构保留不完整多视图数据的近邻信息。
3.根据权利要求1所述的基于缺失图重构和自适应近邻的不完整多视图聚类方法,其特征在于,所述步骤四具体包括:
步骤b1:设置超参数λ1,λ2,γ,C,最大迭代次数;
步骤b2:根据
Figure FDA00032820628600000211
初始化公共图结构A:A=∑vAv./∑vP′v,其中./表示两个矩阵对位元素相除;
步骤b3:初始化
Figure FDA00032820628600000212
对Av进行奇异值分解得到Av=FvΛFvT
步骤b4:固定
Figure FDA00032820628600000213
更新H:
Figure FDA00032820628600000214
其中,L表示A的拉普拉斯矩阵,
Figure FDA00032820628600000215
看作不同视图的重要性权重;
步骤b5:固定H,A,更新
Figure FDA00032820628600000216
Figure FDA00032820628600000217
奇异值分解得到USVT,然后计算得到Fv=UVT
步骤b6:固定
Figure FDA0003282062860000031
更新A:优化
Figure FDA0003282062860000032
得到
Figure FDA0003282062860000033
其中,Ai.中只有K个非零元素,
Figure FDA0003282062860000034
Figure FDA0003282062860000035
是拉格朗日系数,
Figure FDA0003282062860000036
表示di.中第k小的元素;
步骤b7:迭代进行步骤b4-b6,并设置早停机制,即Early stop机制,以目标函数的值为标准,当目标函数的值变化小于10-8或当训练达到最大迭代次数后,中止模型的训练;
步骤b8:返回多视图数据的一致性非负特征H。
CN202111136027.XA 2021-09-27 2021-09-27 基于缺失图重构和自适应近邻的不完整多视图聚类方法 Active CN113947135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111136027.XA CN113947135B (zh) 2021-09-27 2021-09-27 基于缺失图重构和自适应近邻的不完整多视图聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111136027.XA CN113947135B (zh) 2021-09-27 2021-09-27 基于缺失图重构和自适应近邻的不完整多视图聚类方法

Publications (2)

Publication Number Publication Date
CN113947135A true CN113947135A (zh) 2022-01-18
CN113947135B CN113947135B (zh) 2022-07-08

Family

ID=79328843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111136027.XA Active CN113947135B (zh) 2021-09-27 2021-09-27 基于缺失图重构和自适应近邻的不完整多视图聚类方法

Country Status (1)

Country Link
CN (1) CN113947135B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020989A (zh) * 2012-12-05 2013-04-03 河海大学 一种基于在线场景特征聚类的多视角目标跟踪方法
CN107292341A (zh) * 2017-06-20 2017-10-24 西安电子科技大学 基于成对协同正则化和nmf的自适应多视图聚类方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN109063757A (zh) * 2018-07-20 2018-12-21 西安电子科技大学 基于块对角表示和视图多样性的多视图子空间聚类方法
CN109117881A (zh) * 2018-08-10 2019-01-01 聚时科技(上海)有限公司 一种具有缺失核的多视图聚类机器学习方法
CN109508752A (zh) * 2018-12-20 2019-03-22 西北工业大学 一种基于结构化锚图的快速自适应近邻聚类方法
CN109992744A (zh) * 2019-03-14 2019-07-09 南京理工大学 一种基于自适应近邻的矩阵补全方法
CN110263815A (zh) * 2019-05-27 2019-09-20 广东工业大学 基于块对角表示和视图一致性的多视图子空间聚类方法
CN110705648A (zh) * 2019-10-12 2020-01-17 中国民航大学 大规模多视图数据自降维K-means算法及系统
CN112418286A (zh) * 2020-11-16 2021-02-26 武汉大学 基于约束非负矩阵分解的多视图聚类方法
CN113221974A (zh) * 2021-04-26 2021-08-06 中山大学 一种交叉图匹配不完整多视图聚类方法及装置
CN113239983A (zh) * 2021-04-25 2021-08-10 浙江师范大学 基于高阶关联保持的缺失多视图子空间聚类方法及系统
CN113298009A (zh) * 2021-06-05 2021-08-24 西北工业大学 一种基于熵正则化的自适应近邻人脸图像聚类方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020989A (zh) * 2012-12-05 2013-04-03 河海大学 一种基于在线场景特征聚类的多视角目标跟踪方法
CN107292341A (zh) * 2017-06-20 2017-10-24 西安电子科技大学 基于成对协同正则化和nmf的自适应多视图聚类方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN109063757A (zh) * 2018-07-20 2018-12-21 西安电子科技大学 基于块对角表示和视图多样性的多视图子空间聚类方法
CN109117881A (zh) * 2018-08-10 2019-01-01 聚时科技(上海)有限公司 一种具有缺失核的多视图聚类机器学习方法
CN109508752A (zh) * 2018-12-20 2019-03-22 西北工业大学 一种基于结构化锚图的快速自适应近邻聚类方法
CN109992744A (zh) * 2019-03-14 2019-07-09 南京理工大学 一种基于自适应近邻的矩阵补全方法
CN110263815A (zh) * 2019-05-27 2019-09-20 广东工业大学 基于块对角表示和视图一致性的多视图子空间聚类方法
CN110705648A (zh) * 2019-10-12 2020-01-17 中国民航大学 大规模多视图数据自降维K-means算法及系统
CN112418286A (zh) * 2020-11-16 2021-02-26 武汉大学 基于约束非负矩阵分解的多视图聚类方法
CN113239983A (zh) * 2021-04-25 2021-08-10 浙江师范大学 基于高阶关联保持的缺失多视图子空间聚类方法及系统
CN113221974A (zh) * 2021-04-26 2021-08-06 中山大学 一种交叉图匹配不完整多视图聚类方法及装置
CN113298009A (zh) * 2021-06-05 2021-08-24 西北工业大学 一种基于熵正则化的自适应近邻人脸图像聚类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUOQING CHAO ET AL: ""Multi-view cluster analysis with incomplete data to understand treatment effects"", 《INFORMATION SCIENCES》 *
JIE WEN ET AL: ""Unified Embedding Alignment with Missing Views Inferring for Incomplete Multi-View Clustering"", 《THE THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-19)》 *
何雪梅 等: ""多视图聚类算法综述"", 《软件导刊》 *
刘小兰 等: ""基于StarGAN和子空间学习的缺失多视图聚类"", 《华南理工大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN113947135B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN112836672B (zh) 一种基于自适应近邻图嵌入的无监督数据降维方法
CN108647742B (zh) 基于轻量级神经网络的快速目标检测方法
CN111401452B (zh) 一种基于偏微分算子的等变卷积网络模型的图像分类方法
CN109615452B (zh) 一种基于矩阵分解的产品推荐方法
CN108171279B (zh) 一种多视角视频自适应乘积Grassmann流形子空间聚类方法
CN110990775B (zh) 基于多流形对偶图正则化非负矩阵分解的多视图聚类方法
CN107220311B (zh) 一种利用局部嵌入话题建模的文本表示方法
CN109284411B (zh) 一种基于有监督超图离散化图像二值编码方法
CN107480636B (zh) 基于核非负矩阵分解的人脸识别方法、系统及存储介质
CN110533024A (zh) 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN108121962B (zh) 基于非负自适应特征提取的人脸识别方法、装置及设备
CN109063725B (zh) 面向多视图聚类的多图正则化深度矩阵分解方法
CN107609596A (zh) 无参数自动加权多图正则化非负矩阵分解及图像聚类方法
CN109190511A (zh) 基于局部与结构约束低秩表示的高光谱分类方法
Jiang et al. Consensus style centralizing auto-encoder for weak style classification
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
CN114512191A (zh) 一种基于迁移成分分析的青霉素浓度预测方法
CN114399653A (zh) 一种基于锚点图的快速多视图离散聚类方法及系统
CN102930258B (zh) 一种人脸图像识别方法
CN113947135B (zh) 基于缺失图重构和自适应近邻的不完整多视图聚类方法
CN114005044A (zh) 基于超像素和渐进式低秩表示的高光谱图像异常检测方法
CN114692809A (zh) 基于神经集群的数据处理方法及装置、存储介质、处理器
US11875263B2 (en) Method and apparatus for energy-aware deep neural network compression
CN115631361A (zh) 一种融合低秩核学习和自适应超图的图像聚类方法
CN109145749A (zh) 一种跨数据集的面部表情识别模型构建及识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant