CN116050119A - 一种基于二元表示的正负图分割多视图聚类方法 - Google Patents
一种基于二元表示的正负图分割多视图聚类方法 Download PDFInfo
- Publication number
- CN116050119A CN116050119A CN202310017753.2A CN202310017753A CN116050119A CN 116050119 A CN116050119 A CN 116050119A CN 202310017753 A CN202310017753 A CN 202310017753A CN 116050119 A CN116050119 A CN 116050119A
- Authority
- CN
- China
- Prior art keywords
- binary representation
- matrix
- positive
- view
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于二元表示的正负图分割多视图聚类方法,该方法包括:获取待聚类的多视图数据;通过核函数对待聚类的多视图数据进行生成处理,得到多视图数据的非线性表示;基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数;对目标函数进行迭代更新处理,直至所述目标函数满足预设条件,输出聚类结果,所述聚类结果为目标函数中的指示矩阵。通过使用本发明,能够解决现存二元表示多视图聚类方法不能划分非线性二元表示和多视图图切割聚类方法中图包含的信息不充分的问题。本发明作为一种基于二元表示的正负图分割多视图聚类方法,可广泛应用于数据挖掘技术领域。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于二元表示的正负图分割多视图聚类方法。
背景技术
随着互联网的发展,产生了越来越多的数据,数据来源也越来越广泛,因此,如何从广泛的数据中挖掘出有用的信息是当今数据挖掘的重要课题。聚类分析方法作为数据挖掘领域重要分析工具和预处理工具,广泛应用各种挖掘任务中,是数据挖掘的重要研究方向,在过去几十年间,出现了大量的单视图数据聚类分析方法,能够处理各种单视图数据聚类任务,然而,现今出现了许多多视图数据,多视图数据是指数据拥有多个特征,不同特征之间一般是信息互补,因此,如何通过聚类分析方法挖掘多视图数据里面的有用信息,仍旧是一个重大问题;现有的也有通过二元表示学习方法进行解决,二元表示学习方法,作为一个数据编码的方法,能够快速将数据投影到一个二元表示空间中,在获取数据的简便二元表示为进一步计算提供一个良好的基础的同时,很好地保留数据间相互关系,被广泛应用于各种数据挖掘任务中,特别是大规模数据挖掘任务中,现有提出了用各个数据的非线性表示投影到一个共同的二元表示中,然后对这个二元表示运行二元k均值算法,获得最终的聚类结果。虽然这个方法通过快速获得二元表示,高效地解决了大规模多视图聚类问题,但k均值算法是一种线性划分算法,二元k均值也是如此,而很多数据的二元表示并不是线性可分的,因此在划分非线性可分的二元表示时聚类质量较差,不能很好完成聚类任务,也有提出了用各个视图数据的锚点图来构建一个合成图,然后直接对合成图进行划分,获取聚类结果,然而所构成的合成图中数据间的相似度只有正值和0,不包含负值信息,不能很好表达数据间的信息,导致聚类结果不够优秀。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于二元表示的正负图分割多视图聚类方法,能够解决现存二元表示多视图聚类方法不能划分非线性二元表示和多视图图切割聚类方法中图包含的信息不充分的问题。
本发明所采用的第一技术方案是:一种基于二元表示的正负图分割多视图聚类方法,包括以下步骤:
获取待聚类的多视图数据;
通过核函数对待聚类的多视图数据进行生成处理,得到多视图数据的非线性表示;
基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数,所述目标函数包括二元表示学习,投影矩阵正则化和正负图分割;
对目标函数进行迭代更新处理,直至所述目标函数满足预设条件,输出聚类结果,所述聚类结果为目标函数中的指示矩阵。
进一步,所述通过核函数对待聚类的多视图数据进行生成处理,得到多视图数据的非线性表示这一步骤,其具体包括:
通过k均值算法获取待聚类的多视图数据的锚点数据;
根据锚点数据与待聚类的多视图数据,构建距离矩阵;
用高斯核方法对距离矩阵进行处理,得多视图数据的非线性表示。
进一步,所述基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数,所述目标函数包括二元表示学习,投影矩阵正则化和正负图分割这一步骤,其具体包括:
引入投影约束项系数,通过投影矩阵对多视图数据的非线性表示进行投影处理,得到二元表示;
基于二元表示构建正负图;
对正负图进行切割为多个子图,并最大化每个子图内部的边的权重和和子图中数据个数的比值,其中,子图中的数据的归属关系通过指示矩阵表示;
引入正负图切割的约束系数,将二元表示学习、投影矩阵正则项和正负图切割子图进行相加处理,构建二元表示的正负图分割多视图聚类的目标函数。
进一步,所述二元表示的表达式具体如下所示:
上式中,nv表示待聚类的多视图的个数,am表示权重系数,Um表示投影矩阵,Zm表示第m个视图数据的非线性表示,B表示二元表示,β表示投影约束项系数,‖·‖F表示矩阵的F范数。
进一步,所述二元表示的正负图分割多视图聚类的目标函数的表达式具体如下所示:
上式中,λ表示重要性系数,Tr(·)表示矩阵的迹,F表示指示矩阵,FT表示指示矩阵的转置矩阵,A表示二元表示与二元表示转置的乘积。
进一步,还包括对二元表示的正负图分割多视图聚类的目标函数进行初始化,其具体包括:
初始化二元表示、指示矩阵、投影矩阵和权重系数;
将二元表示的任一元素随机初始化为{+1,-1}中的一个;
将指示矩阵每行中的随机一个元素设置为1,其他的元素置为0;
将投影矩阵中的元素初始化为(-1,1)之间的随机数。
进一步,所述投影矩阵的迭代更新公式具体如下所示:
进一步,所述二元表示的迭代更新具体如下所示:
进一步,逐行更新指示矩阵,对指示矩阵的第i行元素更新方式如下,所述指示矩阵的第i行更新具体如下所示:
上式中,Fij表示假设将指示矩阵F第i行的第j个元素为1,其他为0,Fio表示指示矩阵第i行的所有元素为0,Oi={O1,O2,…,Ok}代表将指示矩阵F中的k个元素都分别设置为1,其他设置为0得出的将数据移到对应子图增加或减少的目标函数值,然后找出Oi中最大值所对应的索引q,将指示矩阵F的第i行的第q个元素设为1,其他第i行的元素设为0,完成对指示矩阵F第i行的更新,然后用更新之后的数据更新其他指示矩阵F其他行的数据,直到收敛。
进一步,所述权重系数的迭代更新具体如下所示:
上式中,am表示第m个视图的权重系数。
本发明方法的有益效果是:本发明通过利用投影的方法,通过核函数对待聚类的多视图数据进行生成处理,学习一个共同的二元表示,并用一个平衡参数来衡量每个视图的权重,自动学习每个视图的权重,学习更加合理的二元表示,并用二元表示构建正负图,用正负图表示数据间的关系,然后对正负图进行切割,获得非线性划分的结果,有效提高了多视图聚类的聚类质量。
附图说明
图1是本发明一种基于二元表示的正负图分割多视图聚类方法的步骤流程图;
图2是本发明本发明与一些现有方法在BBCSport数据集上的对比实验结果示意图;
图3是本发明与一些现有方法在Mfeat数据集上的对比实验结果示意图;
图4是本发明与一些现有方法在Citeseer数据集上的对比实验结果示意图;
图5是本发明与一些现有方法在MNIST-10K数据集上的对比实验结果示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1,本发明提供了一种基于二元表示的正负图分割多视图聚类方法,该方法包括以下步骤:
S2、通过核函数生成每个视图数据Xm的非线性表示Zm∈Rp×N,其中Zm代表第m个视图的非线性表示,p代表非线性表示的特征数,所有视图拥有一样的p,N代表数据的数目;
具体地,从每个视图中用k均值算法获取p个数据作为锚点其中Pm代表第m个视图的锚点;对于每个视图,计算锚点Pm到Xm的距离矩阵Dm∈Rp×N,其中距离矩阵Dm第i行第j列元素代表第m个视图中锚点矩阵Pm的第i列和数据Xm第j列的距离;第m个视图的高斯核函数表示为其中σ代表带宽参数,取值为距离矩阵Dm的均值;第m个视图的非线性表示为Zm=Φ(Xm)-mean(Φ(Xm)),其中mean(Φ(Xm))代表Φ(Xm)的均值。
S3、构建二元表示的正负图分割多视图聚类的目标函数;
具体地,设定投影约束项系数β,通过投影矩阵Um∈Rp×L将每个视图的非线性Zm表示投影到L维度空间,学习共同的二元表示B∈RL×N,并且并采用自适应的方法,利用学习误差自动学习每个视图对应的权重am,此外,每个投影矩阵都一个约束项,作为投影误差的正则约束项,其中Um代表第m个视图的投影矩阵,nv代表视图的个数;用共同的二元表示B构建一个正负图A∈RN×N,其中A=BTB,BT代表二元表示B的转置,所述二元表示的学习表达式为:
上式中,nv表示待聚类的多视图的个数,am表示权重系数,Um表示投影矩阵,Zm表示第m个多视图数据的非线性表示,B表示二元表示,β表示投影约束项系数,‖·‖F表示矩阵的F范数;
将正负图A切割为k个子图,最大化每个子图内部的边的权重和和子图中数据个数的比值,数据的归属关系通过指示矩阵F∈RN×k来表示,其中边的权重为正负矩阵A中对应的数值,指示矩阵F的每行只有1个元素为1,其他为0,代表该数据属于为1那一维所对应的子图,k代表最终聚类的目标簇数,所述将正负图A切割为k个子图,最大化每个子图内部的边的权重和和子图个数的比值的表达式为:
maxTr(FTAF)
上式中,Tr(·)表示矩阵的迹,k表示聚类目标簇的个数;
获取二元表示的正负图分割多视图聚类的目标函数:设置重要性参数λ,将λ作为正负图切割的约束系数,am为每个视图非线性表示的投影于共同二元表示误差的权重系数,对二元表示误差项,投影矩阵正则项和正负图切割项相加,获得基于二元表示的正负图分割多视图聚类的目标函数,所述二元表示的正负图分割多视图聚类的目标函数的表达式具体如下所示:
S4、初始化二元表示B∈RL×N、指示矩阵F、投影矩阵Um和权重系数am;
具体地,将二元表示B的任一元素随机初始化为{+1,-1}中的一个,将指示矩阵F每行中的随机一个元素设置为1,其他的元素置为0,将投影矩阵Um中的元素初始化为(-1,1)之间的随机数,将am初始化为其中nv表示视图的个数;
S5、不断依次更新投影矩阵Um、二元表示B、指示矩阵F和权重系数am,直到满足更新停止条件;
具体地,不断依次更新投影矩阵Um、二元表示B、指示矩阵F和权重系数am,直到满足更新停止条件的步骤为,设定更新停止条件为更新次数达到一个数值;利用投影矩阵Um、二元表示B、指示矩阵F和权重系数am的更新方法分别依次迭代更新,并在每次更新之后判断是否满足更新停止条件;
投影矩阵Um的更新方式如下:
上式中,(·)-1表示矩阵的逆矩阵,I表示单位矩阵;
二元表示B的更新方式如下:
指示矩阵F的更新的相关目标函数为max Tr(FTAF),方法是逐行更新指示矩阵,对指示矩阵的第i行元素更新方式如下,所述指示矩阵的第i行更新具体如下所示:
上式中,Fij表示假设将指示矩阵F第i行的第j个元素为1,其他为0,Fio表示指示矩阵第i行的所有元素为0,Oi={O1,O2,…,Ok}代表将指示矩阵F中的k个元素都分别设置为1,其他设置为0得出的将数据移到对应子图增加或减少的目标函数值,然后找出Oi中最大值所对应的索引q,将指示矩阵F的第i行的第q个元素设为1,其他第i行的元素设为0,完成对指示矩阵F第i行的更新,然后用更新之后的数据更新其他指示矩阵F其他行的数据,直到收敛;
权重系数am的更新方式如下:
上式中,am表示第m个视图的权重系数;
判断更新次数是否满足更新停止条件。
本发明的仿真实验内容为:
本发明的仿真实验中计算机配置为Intel(R)Core(i9-10900)3.70GHZ中央处理器、内存16G、WINDOWS 10操作系统,计算机仿真软件采用MATLAB R2022a软件,本发明在常见的多视图数据集BBCSport、Mfeat、MNIST-10K和Citeseer上进行仿真;
本发明的方法与四种多视图聚类算法进行比较,其中包括:BMVC(Binary Multi-view clustering)、AIMC(Adaptively-weighted Integral Space for FastMultiviewClustering)、SMVSC(Scalable Multi-view Subspace Clustering with UnifiedAnchors)和DPMKKM(Discrete Multiple Kernel k-means),实验中,上述4种方法和本发明方法的各个超参数都是从0.00001以步长为0.1变化到1,取最好的结果展示在图2至图5中,特别地,为减少误差,实验的结果都是重复10次取平均值,图2至图5中所用的精确度、归一化互信息和纯度都是聚类的常用的聚类评价标准,每个数值的取值范围都在0到100之间,数值越高代表聚类质量越好,如图2至图5所示,本申请方法仅仅在图4中有2个指标获得第二名,其他情况都是获得最高指标,这表明了本申请的有效性。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于二元表示的正负图分割多视图聚类方法,其特征在于,包括以下步骤:
获取待聚类的多视图数据;
通过核函数对待聚类的多视图数据进行生成处理,得到多视图数据的非线性表示;
基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数,所述目标函数包括二元表示学习,投影矩阵正则化和正负图分割;
对目标函数进行迭代更新处理,直至所述目标函数满足预设条件,输出聚类结果,所述聚类结果为目标函数中的指示矩阵。
2.根据权利要求1所述一种基于二元表示的正负图分割多视图聚类方法,其特征在于,所述通过核函数对待聚类的多视图数据进行生成处理,得到多视图数据的非线性表示这一步骤,其具体包括:
通过k均值算法获取待聚类的多视图数据的锚点数据;
根据锚点数据与待聚类的多视图数据,构建距离矩阵;
用高斯核方法对距离矩阵进行处理,得多视图数据的非线性表示。
3.根据权利要求2所述一种基于二元表示的正负图分割多视图聚类方法,其特征在于,所述基于多视图数据的非线性表示构建二元表示的正负图分割多视图聚类的目标函数,所述目标函数包括二元表示学习,投影矩阵正则化和正负图分割这一步骤,其具体包括:
引入投影约束项系数,通过投影矩阵对多视图数据的非线性表示进行投影处理,得到二元表示;
基于二元表示构建正负图;
对正负图进行切割为多个子图,并最大化每个子图内部的边的权重和和子图中数据个数的比值,其中,子图中的数据的归属关系通过指示矩阵表示;
引入正负图切割的约束系数,将二元表示学习、投影矩阵正则项和正负图切割子图进行相加处理,构建二元表示的正负图分割多视图聚类的目标函数。
6.根据权利要求5所述一种基于二元表示的正负图分割多视图聚类方法,其特征在于,还包括对二元表示的正负图分割多视图聚类的目标函数进行初始化,其具体包括:
初始化二元表示、指示矩阵、投影矩阵和权重系数;
将二元表示的任一元素随机初始化为{+1,-1}中的一个;
将指示矩阵每行中的随机一个元素设置为1,其他的元素置为0;
将投影矩阵中的元素初始化为(-1,1)之间的随机数。
9.根据权利要求8所述一种基于二元表示的正负图分割多视图聚类方法,其特征在于,逐行更新指示矩阵,对指示矩阵的第i行元素更新方式如下,所述指示矩阵的第i行更新具体如下所示:
上式中,Fij表示假设将指示矩阵F第i行的第j个元素为1,其他为0,Fio表示指示矩阵第i行的所有元素为0,Oi={O1,O2,...,Ok}代表将指示矩阵F中的k个元素都分别设置为1,其他设置为0得出的将数据移到对应子图增加或减少的目标函数值,然后找出Oi中最大值所对应的索引q,将指示矩阵F的第i行的第q个元素设为1,其他第i行的元素设为0,完成对指示矩阵F第i行的更新,然后用更新之后的数据更新其他指示矩阵F其他行的数据,直到收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310017753.2A CN116050119A (zh) | 2023-01-06 | 2023-01-06 | 一种基于二元表示的正负图分割多视图聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310017753.2A CN116050119A (zh) | 2023-01-06 | 2023-01-06 | 一种基于二元表示的正负图分割多视图聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116050119A true CN116050119A (zh) | 2023-05-02 |
Family
ID=86130974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310017753.2A Pending CN116050119A (zh) | 2023-01-06 | 2023-01-06 | 一种基于二元表示的正负图分割多视图聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116050119A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252930A (zh) * | 2023-09-21 | 2023-12-19 | 之江实验室 | 一种大型展厅多相机监控系统内外参标定方法和系统 |
-
2023
- 2023-01-06 CN CN202310017753.2A patent/CN116050119A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252930A (zh) * | 2023-09-21 | 2023-12-19 | 之江实验室 | 一种大型展厅多相机监控系统内外参标定方法和系统 |
CN117252930B (zh) * | 2023-09-21 | 2024-05-28 | 之江实验室 | 一种大型展厅多相机监控系统内外参标定方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106067034B (zh) | 一种基于高维矩阵特征根的配电网负荷曲线聚类方法 | |
Horenko | On a scalable entropic breaching of the overfitting barrier for small data problems in machine learning | |
CN112084328A (zh) | 一种基于变分图自编码器与K-Means的科技论文聚类分析方法 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN110889865A (zh) | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 | |
CN112101574B (zh) | 一种机器学习有监督模型解释方法、系统及设备 | |
CN114065850A (zh) | 基于统一锚点与子空间学习的谱聚类方法及系统 | |
CN113449802A (zh) | 基于多粒度互信息最大化的图分类方法及装置 | |
CN111191699A (zh) | 基于非负矩阵分解和划分自适应融合的多视角聚类方法 | |
CN116050119A (zh) | 一种基于二元表示的正负图分割多视图聚类方法 | |
CN114863151B (zh) | 一种基于模糊理论的图像降维聚类方法 | |
Shen et al. | One-hot graph encoder embedding | |
CN114743058A (zh) | 基于混合范数正则约束的宽度学习图像分类方法及装置 | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
de Miranda Cardoso et al. | Learning bipartite graphs: Heavy tails and multiple components | |
CN109614581B (zh) | 基于对偶局部学习的非负矩阵分解聚类方法 | |
CN116383441A (zh) | 社群检测方法、装置、计算机设备和存储介质 | |
CN113611368B (zh) | 基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备 | |
CN112270374B (zh) | 基于som聚类模型的数学表达式的聚类方法 | |
CN111882441A (zh) | 一种基于理财产品推荐场景的用户预测解释Treeshap方法 | |
CN114419382A (zh) | 一种无监督的多视图图像的图嵌入方法及系统 | |
CN114120447A (zh) | 一种基于原型对比学习的行为识别方法及系统、存储介质 | |
CN112768001A (zh) | 一种基于流形学习和主曲线的单细胞轨迹推断方法 | |
Stuber et al. | Multivariate models and analyses | |
CN113469450B (zh) | 一种数据分类方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |