CN113807393B - 基于多属性非负矩阵分解的聚类方法 - Google Patents

基于多属性非负矩阵分解的聚类方法 Download PDF

Info

Publication number
CN113807393B
CN113807393B CN202110911805.1A CN202110911805A CN113807393B CN 113807393 B CN113807393 B CN 113807393B CN 202110911805 A CN202110911805 A CN 202110911805A CN 113807393 B CN113807393 B CN 113807393B
Authority
CN
China
Prior art keywords
clustering
data
attribute
different
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110911805.1A
Other languages
English (en)
Other versions
CN113807393A (zh
Inventor
孙艳丰
王杰
郭继鹏
胡永利
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110911805.1A priority Critical patent/CN113807393B/zh
Publication of CN113807393A publication Critical patent/CN113807393A/zh
Application granted granted Critical
Publication of CN113807393B publication Critical patent/CN113807393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多属性非负矩阵分解的聚类方法,该方法将希尔伯特施密特准则和图正则化同时引入到单视图非负矩阵分解领域。对原始数据进行多属性分解,多方面理解数据,得到不同降维后的数据矩阵。利用希尔伯特施密特准则增加不同属性分解之间的多样性,减少冗余特征,每个低维表示都保持独立,并且对应数据特定的属性,以求能够得到更加准确的原始数据的低维表示。许多低维表示仅仅是对高维数据进行降维,但是原始的数据往往存在着某种几何结构,这对聚类有很大的帮助,也是极其重要的信息,利用图正则化项能够保持数据的局部几何结构。最后,在聚类阶段直接采取多视图下k‑means方法来整合不同属性的低维表示,充分利用了来自各个属性的信息。

Description

基于多属性非负矩阵分解的聚类方法
技术领域
本发明涉及基于多属性非负矩阵分解的聚类方法,适用于机器学习领域的降维聚类技术。
背景技术
非负矩阵分解是D.D.Lee和H.S.Seung在1999年《Nature》中首次提出的算法,它是一种新兴的降维技术,已经被广泛应用到科学、工程、医学等许多领域。非负矩阵分解的思想可以简单描述为:对于任意一个非负矩阵X,非负矩阵分解算法能够寻找到一个非负矩阵U和一个非负矩阵V,使得满足X=UVT,从而将一个非负矩阵分解为左右两个非负矩阵的乘积。和一些传统的降维算法相比,非负矩阵分解算法不仅便于实现,而且在分解形式和分解结果上具有更强的可解释性。通过矩阵分解,一方面将描述问题的矩阵的维数进行削减,另一方面也可以对大量的数据进行压缩和概括。
由于非负矩阵分解的良好性质,许多基于非负矩阵分解的研究发展起来,其变体也取得了良好的聚类效果。Wang等提出了基于fisher的线性判别分析约束的公式,以保留空间的局部特征,从而提高性能;Hou等以对非负矩阵分解增加惩罚项的方式提出了局部非负矩阵分解;Stefanos Zafeiriou等将线性判别信息融入到非负矩阵分解中,并应用于人脸图像的处理问题;Cai等人开发出了一种图正则化非负矩阵分解,它通过最近邻图对数据分布的几何结构进行编码,并寻求一种基于图结构的矩阵分解。这些基于非负矩阵分解提出来的方法,都取得了不错的效果,显著提高了聚类的性能。
希尔伯特施密特独立准则用于度量两个随机变量之间的统计相关性。但是,该准则并不是直接度量统计相关性,而是先将两个随机向量转换到再生希尔伯特空间(RKHS),然后使用这两个RKHS的算子来度量它们的度量相关性。HSIC已经被研究了很长的时间,并且使用效果良好,但是回顾其发展历史发现,HSIC在2005年前后才受到关注。此外,HSIC经常被用在研究多视方面来提高不同视图之间的互补性,探索更多有用的信息,比如曹晓春等提出了DiMSC用HSIC作为多样性项来探讨多视域表示的互补性,与其他多视图方法相比,增强互补性减少了多视图表示之间的冗余。
现有的NMF方法大多只专注于单个因子分解,并得到一个聚类结果。然而,真实数据通常是复杂的,往往可以从多个属性或多个特征来描述。例如,人脸图像不仅包含性别属性,还包含表情属性、肤色属性等。此外,数据的各种属性提供了互补的信息。过去基于NMF的方法由于未能探索数据的多种属性表示并充分利用此种互补信息,很难学习具有判别性的数据表示。如何充分利用包含在数据中的多属性信息,是当前研究中补可忽略的问题。
发明内容
本发明提出一种基于多属性非负矩阵分解的聚类方法。该方法首次将希尔伯特施密特准则和图正则化同时引入到单视图非负矩阵分解领域。对原始数据进行多属性分解,多方面理解数据,得到不同降维后的数据矩阵。利用希尔伯特施密特准则增加不同属性分解之间的多样性,减少冗余特征,而且每个低维表示都保持独立,并且对应数据特定的属性,以求能够得到更加准确的原始数据的低维表示。其次,许多低维表示仅仅是对高维数据进行降维,但是原始的数据往往存在着某种几何结构,这对聚类有很大的帮助,也是极其重要的信息,利用图正则化项能够保持数据的局部几何结构。最后,在聚类阶段直接采取多视图下k-means方法来整合不同属性的低维表示,充分利用了来自各个属性的信息。
本发明所提出的基于多属性非负矩阵分解的聚类方法能够有效避免传统非负矩阵分解方法的不足,探索了数据的多属性分解,从不同方面理解数据。利用希尔伯特施密特准则有效增加不同分解之间的多样性,减少冗余特征;利用图正则化项保持数据的局部几何结构,有利于提高聚类;对降维后的系数矩阵进行聚类应用,图1给出了基于多属性非负矩阵分解聚类流程图。
本发明通过以下技术方案实现:
选取四个不同的图像数据集作为输入对象,以增加本实验的可靠性;再选择五个不同的聚类方法做对比,以体现本方法的优越性,增加可信度;选择四个不同的实验度量方法,用不同的评估标准度量聚类效果;然后再对模型使用拉格朗日乘法更新法则进行求解;最后用得到的系数矩阵进行后续的聚类,并记录评价指标做对比。其具体步骤如下:
步骤一:构建样本点
本发明首先使用四个经典的数据库(ORL,PIE,Yale和Extended YaleB)来构建输入样本点,任选一个数据库其中xi是一个样本点。
步骤二:数据降维
根据得到的数据库X,利用所提出的方法对数据进行降维处理:
其中,λ1和λ2是平衡多样性项和图正则化项的参数,取值范围为{10-4,10-3,10-2,10-1,100,101,102,103,104};k是分解出的不同低维表示V的数量;Tr是矩阵的迹;W是度量两个点距离的邻接矩阵;D是度矩阵,并且L=D-W是拉普拉斯矩阵。本方法的更新规则如下。
步骤三、后续聚类
根据上述方法及其更新规则可以得到多属性解,得到的多个Vi相当于多视图的多个输入,所以直接利用多视图k-means方法对多个解Vi进行聚类,聚类方法具体介绍如下:
其中,表示第i个视图的特征;/>是第i个视图的质心矩阵;是第i个视图的聚类指标;给出M种异构特征,i=1,2,...M;α(i)是第i个视图的权重因子;γ是控制权重分布的参数;根据公式(3)对多属性分解得到的不同系数矩阵进行聚类。
本发明对上述方法进行了实验验证,并取得了很好的聚类结果。所有实验图像来自于四个数据集,以下是数据集的部分图像如图2、3、4、5所示。
与现有技术相比,本发明具有以下优点:
(1)本方法考虑了数据的多重属性,从多方面分解并解释数据。与以往的分解方法相比探索更多的互补信息,增强数据的聚类效果。
(2)本方法利用图正则化技术保持数据的局部结构信息,充分利用原始数据中的几何结构信息。
附图说明
图1:多属性非负矩阵分解聚类流程图。
图2:ORL数据集。
图3:PIE数据集。
图4:Yale数据集。
图5:Extended YaleB数据集。
具体实施方式
本发明对所提出的方法做出定性评估和定量评估,具体介绍如下。
一、定性评估
本发明是在非负矩阵分解的模型基础上提出来的,并且额外增加了图正则化项和共正则化项。从模型可以看出,当平衡参数设置为0的话,模型会退化为非负矩阵分解的形式,所以本发明的效果不会比非负矩阵分解的聚类效果差。而当平衡参数设置合适,本发明模型会退化为GNMF模型,所以本模型的聚类效果不会低于GNMF。因为增加了共正则化项,去除冗余特征,理论上系数矩阵具有更多有利于聚类的信息。
一、定量评估
本实验共采用4种评价标准对多属性非负矩阵分解的聚类进行评估,评价指标分别是归一化信息(NMI)、准确率(ACC)、F-score和purity。并和六种经典降维方法k-means、PCA、Ncut、NMF、GNMF和MCNMF进行比较。具体的结果如下表所示:
表1不同数据集的聚类结果
表1显示了在ORL、PIE、Yale和Extended YaleB数据库上不同算法的聚类结果。使用多个评估指标来评估聚类结果,并用粗体标记最佳结果。从表1中可以看出,本发明在大多数情况下优于其他聚类结果,这证明了探索不同属性之间的不同信息的有效性,特别是在ORL和PIE数据库上。这表明,提出的方法可以更好地学习基于部分的数据表示。从上述实验结果中,还发现本发明提出的模型效果由于MCNMF,而且GNMF模型在大多数情况下优于k-均值聚类方法,表明几何结构可以在学习表示数据表示中保持局部结构,提高聚类性能。此外,由于使用的数据是非标准化的数据,因此捕获特征信息更加困难。然而,的方法仍然可以获得整体上更好的实验结果。结果表明,可以实现非负矩阵多分解,通过图正则化保持局部结构,HSIC正则化器减少冗余特征。此外,本发明探索多个独立的低维表示中的不同信息来学习更全面的数据信息,并将它们集成在一起以提高聚类结果。
表2 ORL和PIE数据集聚类结果对比
使用两个例子来研究任何学习的基于部分的表示Vi的有效性。分别对所有表示Vi进行了k-means聚类方法。相关研究结果详见表2。GNMF是当k=1和λ1=0时本文提出模型的特殊情况。通过表2可以发现,本发明的任何基于学习部分的表示Vi在大部分情况下都优于GNMF,这表明了本发明在学习更有区别的表示方面的有效性,这主要是因为本发明从原始数据中学习了具有丰富信息的多属性表示。

Claims (1)

1.基于多属性非负矩阵分解的聚类方法,其特征在于:选取四个不同的图像数据集作为输入对象,以增加本实验的可靠性;再选择五个不同的聚类方法做对比,以体现本方法的优越性,增加可信度;选择四个不同的实验度量方法,用不同的评估标准度量聚类效果;然后再对模型使用拉格朗日乘法更新法则进行求解;最后用得到的系数矩阵进行后续的聚类,并记录评价指标做对比;其具体步骤如下:
步骤一:构建样本点
首先使用四个经典的数据库ORL,PIE,Yale和ExtendedYaleB来构建输入样本点,任选一个数据库其中xi是一个样本点;
步骤二:数据降维
根据得到的数据库X,利用所提出的方法对数据进行降维处理:
其中,λ1和λ2是平衡多样性项和图正则化项的参数,取值范围为{10-4,10-3,10-2,10-1,100,101,102,103,104};k是分解出的不同低维表示V的数量;Tr是矩阵的迹;W是度量两个点距离的邻接矩阵;D是度矩阵,并且L=D-W是拉普拉斯矩阵;本方法的更新规则如下;
步骤三、后续聚类
根据上述步骤及其更新规则得到多属性解,得到的多个Vi相当于多视图的多个输入,所以直接利用多视图k-means方法对多个解Vi进行聚类,聚类方法具体介绍如下:
其中,表示第i个视图的特征;/>是第i个视图的质心矩阵;/>是第i个视图的聚类指标;给出M种异构特征,i=1,2,...M;α(i)是第i个视图的权重因子;γ是控制权重分布的参数;根据公式(3)对多属性分解得到的不同系数矩阵进行聚类。
CN202110911805.1A 2021-08-10 2021-08-10 基于多属性非负矩阵分解的聚类方法 Active CN113807393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110911805.1A CN113807393B (zh) 2021-08-10 2021-08-10 基于多属性非负矩阵分解的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110911805.1A CN113807393B (zh) 2021-08-10 2021-08-10 基于多属性非负矩阵分解的聚类方法

Publications (2)

Publication Number Publication Date
CN113807393A CN113807393A (zh) 2021-12-17
CN113807393B true CN113807393B (zh) 2024-04-26

Family

ID=78942929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110911805.1A Active CN113807393B (zh) 2021-08-10 2021-08-10 基于多属性非负矩阵分解的聚类方法

Country Status (1)

Country Link
CN (1) CN113807393B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415883A (zh) * 2018-02-13 2018-08-17 中国科学院西安光学精密机械研究所 基于子空间聚类的凸非负矩阵分解方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN111191719A (zh) * 2019-12-27 2020-05-22 北京工业大学 一种基于自表示和图谱约束的非负矩阵分解的图像聚类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415883A (zh) * 2018-02-13 2018-08-17 中国科学院西安光学精密机械研究所 基于子空间聚类的凸非负矩阵分解方法
CN108776812A (zh) * 2018-05-31 2018-11-09 西安电子科技大学 基于非负矩阵分解和多样-一致性的多视图聚类方法
CN111191719A (zh) * 2019-12-27 2020-05-22 北京工业大学 一种基于自表示和图谱约束的非负矩阵分解的图像聚类方法

Also Published As

Publication number Publication date
CN113807393A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
Ayesha et al. Overview and comparative study of dimensionality reduction techniques for high dimensional data
CN111667884B (zh) 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型
CN107203787B (zh) 一种无监督正则化矩阵分解特征选择方法
Liu et al. Supervised learning via unsupervised sparse autoencoder
Kong et al. Deep PLS: A lightweight deep learning model for interpretable and efficient data analytics
CN114708903A (zh) 一种基于自注意力机制的蛋白质残基间距离预测方法
Shang et al. Sparse and low-dimensional representation with maximum entropy adaptive graph for feature selection
Shang et al. Unsupervised feature selection via discrete spectral clustering and feature weights
CN115795333A (zh) 一种基于低秩约束自适应图学习的不完整多视图聚类方法
Wang et al. Feature selection with multi-class logistic regression
Peng et al. Multiview clustering via hypergraph induced semi-supervised symmetric nonnegative matrix factorization
CN110175631B (zh) 一种基于共同学习子空间结构和聚类指示矩阵的多视图聚类方法
Ding et al. Survey of spectral clustering based on graph theory
He et al. Unsupervised feature selection based on decision graph
CN113807393B (zh) 基于多属性非负矩阵分解的聚类方法
CN113221965A (zh) 一种基于属性条件冗余的特征选择方法
Yang et al. Robust landmark graph-based clustering for high-dimensional data
Ding et al. Time-varying Gaussian Markov random fields learning for multivariate time series clustering
CN111461257B (zh) 一种流形空间中多视点视频的共享-差异表示及聚类方法
CN114037931B (zh) 一种自适应权重的多视图判别方法
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
CN107607723A (zh) 一种基于随机投影集成分类的蛋白质间相互作用测定方法
Qiang et al. Multi-View Discrete Clustering: A Concise Model
Mo et al. Semi-supervised nonnegative matrix factorization with label propagation and constraint propagation
Krier et al. Supervised variable clustering for classification of NIR spectra.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant