CN109614581A - 基于对偶局部学习的非负矩阵分解聚类方法 - Google Patents

基于对偶局部学习的非负矩阵分解聚类方法 Download PDF

Info

Publication number
CN109614581A
CN109614581A CN201811221673.4A CN201811221673A CN109614581A CN 109614581 A CN109614581 A CN 109614581A CN 201811221673 A CN201811221673 A CN 201811221673A CN 109614581 A CN109614581 A CN 109614581A
Authority
CN
China
Prior art keywords
matrix
clustering
coefficient
clustering index
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811221673.4A
Other languages
English (en)
Other versions
CN109614581B (zh
Inventor
舒振球
孙燕武
陆翼
范洪辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Technology
Original Assignee
Jiangsu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Technology filed Critical Jiangsu University of Technology
Priority to CN201811221673.4A priority Critical patent/CN109614581B/zh
Publication of CN109614581A publication Critical patent/CN109614581A/zh
Application granted granted Critical
Publication of CN109614581B publication Critical patent/CN109614581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于对偶局部学习的非负矩阵分解聚类方法,包括:S10根据待聚类图像选定待分类的数据矩阵V、簇类号a1和a2;S20根据数据矩阵V构建目标函数O;S30根据目标函数O,使用迭代的方法,输出类结果;S40根据类结果对待聚类图像进行聚类。该聚类方法结合了双结构学习,将协同聚类问题转化为具有正交约束的非负矩阵分解问题,简化了问题的复杂度,更具有代表性和普适性,其复杂度低,大大加快了聚类过程中的运行的速度,提高了聚类效率。

Description

基于对偶局部学习的非负矩阵分解聚类方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于对偶局部学习的非负矩阵分解聚类方法。
背景技术
在数据挖掘、机器学习、计算机视觉等研究领域中,聚类问题是一个难题,其旨在将学习任务中给定的数据对象集合分成不同的簇,同时最小化聚类内的差距以及最大化聚类之间的可区分度。给定数据集合V,根据数据对象之间的相似程度将数据集合分组,并满足:{Ci|j=1,2,...,k},在这个过程中Ci称为簇,好的聚类方法要能够产生高质量的聚类结果—类,这些类要具备以下两个特点:高的类内相似性和低的类间相似性。
目前,处理聚类问题的方法主要有两类:基于约束的方法和基于度量的方法,其中,基于约束的方法通过对基本的聚类模型添加某些约束使用从而捕获数据的结构信息;基于度量的方法要学习某些度量,但不限于矩阵范数,从而对样本相似性进行聚类评估。在使用基于约束的方法进行数字图像处理时,我们常采用非负矩阵分解的方法处理数据,从而实现数据的降维。非负矩阵分解提供了许多优化机器学习问题的方法,但是严格意义上的非负矩阵分解要求数据矩阵的每个因子均是非负矩阵,在很多情况下,缺乏了一定的实用性。同时,上述的方法仅考虑了单向聚类来分组相似的对象,但是在实际的应用中,协同聚类(也称双向聚类)更有实际价值,其目的在于同时对数据点和特征进行分类。因此,协同聚类在基因表达、图像处理、数据挖掘等方面具有强大的优势。
但是,考虑到协同聚类的正交性约束问题,迄今为止,如何开发有效的算法仍是一个难题。局部学习基于每个数据点能够被该点附近的局部连接的数据点较好地预测,目的是为了具体的学习任务学习低维的特征子空间,同时能够保持某些局部结构。但是,如何找到一个高效的局部学习,并且把它嵌入到具体的学习任务中,同样是一个难题。
发明内容
针对上述问题,本发明提供了一种基于对偶局部学习的非负矩阵分解聚类方法,有效解决现有技术中协同聚类复杂度过高的技术问题。
本发明提供的技术方案如下:
一种基于对偶局部学习的非负矩阵分解聚类方法,包括:
S10根据待聚类图像选定待分类的数据矩阵V、簇类号a1和a2
S20根据所述数据矩阵V构建目标函数O;
其中,F和A均为聚类指标矩阵,且F≥0,A≥0,FTF=E, E为单位矩阵;LX为数据矩阵的局部正则化矩阵,LY为数据矩阵的特征的局部正则化矩阵;X为基矩阵,Y为系数矩阵;μ为基矩阵X的结构保持系数,λ为系数矩阵Y的结构保持系数,ω为聚类指标矩阵F的局部学习正则化系数,γ为聚类指标矩阵A的局部学习正则化系数;
S30根据所述目标函数O,使用迭代的方法,输出类结果;
S40根据所述类结果对待聚类图像进行聚类。
在本技术方案中,为了提高聚类结果的精确度,对于两个聚类指标矩阵(F和A)的选取,应尽可能的保持区分度,保持较大的不同(限定矩阵的结构特征)。如果有两个指标的作用完全相同,那么,在统计分析中采用这两个指标与只用其中一个指标是没有太大区别的,因此,在指标体系容量有限的条件下,应该尽量减少相似程度较大的指标。
进一步优选地,在步骤S30中,包括:
S31使用拉格朗日乘子法对目标函数O进行优化,构造拉格朗日函数L;
其中,以及
S32根据所述拉格朗日函数L分别得到聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式;
S33根据聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式进行迭代,输出类结果。
进一步优选地,在步骤S32中,包括:
S321根据拉格朗日函数L分别对聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y求偏导;
S322同时约定根据库恩塔克条件限定αijFij=0、βijAij=0及得到聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式;
其中,i和j分别表示矩阵中的行和列;
进一步优选地,在步骤S32之后,还包括:
S34针对聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y分别构建变量函数g(F)、g(Y)及g(A);
在步骤S33中,根据聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式进行迭代,直到变量函数g(F)、g(Y)及g(A)均为凸函数,输出类结果。
在本发明提供的基于对偶局部学习的非负矩阵分解聚类方法中:
非负矩阵分解是个NP(Non-deterministic Polynomial,非确定性多项式)问题,本发明中将其转化为优化问题,用迭代方法求解基矩阵X和系数矩阵Y,收敛速度快且左右非负矩阵存储空间小,同时将高维数据矩阵进行降维处理,对于大规模数据的处理同样适用。另外,该聚类方法结合了双结构学习,将协同聚类问题转化为具有正交约束的非负矩阵分解问题,简化了问题的复杂度,更具有代表性和普适性,其复杂度低,大大加快了聚类过程中的运行的速度,提高了聚类效率。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1为本发明中基于对偶局部学习的非负矩阵分解聚类方法流程示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
对于非负矩阵分解来说,其原理是:对于任意给定的非负的数据矩阵V,通过寻找低秩,将非负的原数据矩阵V分解为权重矩阵X(矩阵)和特征矩阵Y(矩阵)乘积的形式,使两者乘积尽可能与原数据矩阵近似相等。由于分解前后的矩阵中仅包含非负的元素,所以,原数据矩阵V中的一个列向量可以解释为对左矩阵X中所有列向量(称为基向量)的加权和,而权重系数为右矩阵Y中对应的列向量中的元素,即非负矩阵分解的形式可写成:V+=X+Y+,其中,V为数据矩阵,X为基矩阵,Y为系数矩阵,+代表矩阵中元素的非负性。这种基于基向量组合的表现形式具有很直观的语义解释,它反映了人类思维中“局部构成整体”的概念。
对于基于双重聚类的局部学习来说,其原理是:为了降低每个区域的预测代价,我们将输入空间划分成若干个局部区域。对于数据矩阵V=(v1;...;vn)=(f1,...,fd)∈in×m(n行d列矩阵),其中,vi是一个n维的行向量,fi是一个m维的列向量。假定原始的数据矩阵被投影到一个低维的特征子空间z={z1,...,zn}上,其中,zi是一个p维的行向量,且p=m,减少的数据为Z={z1;...;zn}∈in×p。协同聚类问题是对输入的数据矩阵的行和列同时分组,即将分类。假设样本簇的数值为a1,特征簇的数值为a2。那么,协同聚类问题可以转换为如下矩阵分解的形式:
且满足:F≥0,A≥0,FTF=E,ATA=E,F和A是两个聚类指标矩阵,Y为系数矩阵,E为单位矩阵。考虑多数情况下,无法学习数据的几何结构和拓扑结构,所以为了保持输入数据的局部结构,在(1)式中添加两项,得到式(2):
其中,μ为基矩阵X的结构保持系数,λ为系数矩阵Y的结构保持系数,LX∈in×n,LY∈im×m,LX和LY分别是输入样本和特征的局部正则化矩阵。对于基矩阵X和系数矩阵Y,以基矩阵为例:基于基矩阵X的某些核函数,拉普拉斯算子图如下定义:LX=H-X,其中,对于任意的i∈{1,2,...,n},H为Hij的对角线,邻域嵌入正则化定义为:LX=(E-X)T(E-X)。同理可得系数矩阵Y的变换。
显然,上述方法是一个NP-hard问题,如若拓展其正交性和非负性,会破坏聚类的性能,从而不具备实际意义,故本发明中提出了一种求解具有正交约束的一般共聚类问题的高阶矩阵分解方法,通过利用惩罚项吸收高阶约束,实现发明目的。如图1所示为本发明提出的基于对偶局部学习的非负矩阵分解聚类方法,在该聚类方法中包括:
S10根据待聚类图像选定待分类的数据矩阵V、类号a1和a2
S20根据迭代数据矩阵V构建如式(3)的目标函数O;
其中,F和A均为聚类指标矩阵,且F≥0,A≥0,FTF=E,ATA=E,E为单位矩阵;LX为数据矩阵的局部正则化矩阵,LY为数据矩阵的特征的局部正则化矩阵;X为基矩阵,Y为系数矩阵;μ为基矩阵X的结构保持系数,λ为系数矩阵Y的结构保持系数,ω为聚类指标矩阵F的局部学习正则化系数,γ为聚类指标矩阵A的局部学习正则化系数;
S30根据迭代目标函数O,使用迭代的方法,输出类结果;
S40根据迭代类结果对待聚类图像进行聚类。
具体,在聚类的过程中,选定并输入了数据矩阵V、簇类号a1和a2(a1为样本簇值,a2为特征簇值)之后,随即对其进行半非负矩阵分解得到基矩阵X和系数矩阵Y;接着初始化聚类指标矩阵F和A、及系数矩阵Y,并分别计算聚类指标矩阵F和A的局部学习正则化矩阵,进而构建目标函数O,之后算法进行优化,采用拉格朗日乘子法来解决共聚类问题,具体,分别使用确保聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的非负性,拉格朗日函数可以构造为如式(4):
其中,表示聚类指标矩阵F的拉格朗日乘子系数;表示聚类指标矩阵A的拉格朗日乘子系数;表示系数矩阵Y的拉格朗日乘子系数。
之后,依次对聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y求偏导,得到式(5)、(6)和(7);
基于此,同时约定根据库恩塔克条件限定αijFij=0、βijAij=0及得到式(8)、(9)和(10);
(-VA YT+FYATA YT)+λLFF+ω(FFTF-F)ijFij=0 (8)
(-FTVA+FTFYATA)ijYij=0 (9)
(-VTFY+A YTFTFY+μLAA+γ(AATA-A))ijAij=0 (10)
进而得到聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式,如式(11)、(12)和(13);
其中,i和j分别表示矩阵中的行和列;矩阵LF和矩阵LA,均被分成两个正的部分,
此外,就矩阵中的每个变量构造辅助函数,以进一步解决协同聚类问题:
针对聚类指标矩阵F构造如式(14)的变量函数g(F)及如式(15)的辅助函数h(F,F'):
从式(15)中看出,辅助函数h(F,F')为凸函数,全局极小值如式(16):
针对系数矩阵Y构造如式(17)的变量函数g(Y)及如式(18)的辅助函数h(Y,Y'):
从式(18)中看出,辅助函数h(Y,Y')也是凸函数,全局极小值为如式(19):
针对聚类指标矩阵A构造如式(20)的变量函数g(A)及如式(21)的辅助函数h(A,A'):
从式(21)中看出,辅助函数h(A,A')也是凸函数,全局极小值为如式(22):
由上述,聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y构造的变量函数g(F)、g(Y)及g(A)均为单调递减函数,且聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y均有下界,故对于聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的更新规则即为变量函数g(F)、g(Y)及g(A)是否为凸函数,直到根据迭代式迭代后,变量函数g(F)、g(Y)及g(A)同时为凸函数(上述辅助函数h(F,F')、h(Y,Y')及h(A,A')为凸函数表示变量函数g(F)、g(Y)及g(A)在函数的各自局部区域内经过若干次迭代后可为凸函数,这里需满足由三个变量函数组成的整体函数中,迭代了一定次数后,三个变量函数均为凸函数),输出类结果,以此根据该类结果对待聚类图像进行聚类。具体,这里的类结果即为迭代后得到的聚类指标矩阵F和A,在聚类过程中,将待聚类图像的数据矩阵与聚类指标矩阵F和A进行比较,判断待聚类图像的数据矩阵是否满足聚类指标矩阵F和A的结构需求,若是,聚为同一类。
应当说明的是,上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通相关人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于对偶局部学习的非负矩阵分解聚类方法,其特征在于,所述聚类方法中包括:
S10根据待聚类图像选定待分类的数据矩阵V、簇类号a1和a2
S20根据所述数据矩阵V构建目标函数O;
其中,F和A均为聚类指标矩阵,且F≥0,A≥0,FTF=E,ATA=E,E为单位矩阵,n和m分别表示数据矩阵V的行数和列数;LX为数据矩阵的局部正则化矩阵,LY为数据矩阵的特征的局部正则化矩阵;X为基矩阵,Y为系数矩阵;μ为基矩阵X的结构保持系数,λ为系数矩阵Y的结构保持系数,ω为聚类指标矩阵F的局部学习正则化系数,γ为聚类指标矩阵A的局部学习正则化系数;
S30根据所述目标函数O,使用迭代的方法,输出类结果;
S40根据所述类结果对待聚类图像进行聚类。
2.如权利要求1所述的聚类方法,其特征在于,在步骤S30中,包括:
S31使用拉格朗日乘子法对目标函数O进行优化,构造拉格朗日函数L;
其中,以及
S32根据所述拉格朗日函数L分别得到聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式;
S33根据聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式进行迭代,输出类结果。
3.如权利要求2所述的聚类方法,其特征在于,在步骤S32中,包括:
S321根据拉格朗日函数L分别对聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y求偏导;
S322同时约定根据库恩塔克条件限定αijFij=0、βijAij=0及得到聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式;
其中,i和j分别表示矩阵中的行和列;
4.如权利要求2或3所述的聚类方法,其特征在于,在步骤S32之后,还包括:
S34针对聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y分别构建变量函数g(F)、g(Y)及g(A);
在步骤S33中,根据聚类指标矩阵F、聚类指标矩阵A及系数矩阵Y的迭代式进行迭代,直到变量函数g(F)、g(Y)及g(A)均为凸函数,输出类结果。
CN201811221673.4A 2018-10-19 2018-10-19 基于对偶局部学习的非负矩阵分解聚类方法 Active CN109614581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811221673.4A CN109614581B (zh) 2018-10-19 2018-10-19 基于对偶局部学习的非负矩阵分解聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811221673.4A CN109614581B (zh) 2018-10-19 2018-10-19 基于对偶局部学习的非负矩阵分解聚类方法

Publications (2)

Publication Number Publication Date
CN109614581A true CN109614581A (zh) 2019-04-12
CN109614581B CN109614581B (zh) 2023-09-22

Family

ID=66002474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811221673.4A Active CN109614581B (zh) 2018-10-19 2018-10-19 基于对偶局部学习的非负矩阵分解聚类方法

Country Status (1)

Country Link
CN (1) CN109614581B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717538A (zh) * 2019-10-08 2020-01-21 广东工业大学 一种基于非负张量环的彩色图片聚类方法
CN111930934A (zh) * 2020-06-05 2020-11-13 江苏理工学院 一种基于对偶局部一致的约束稀疏概念分解的聚类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016878A1 (en) * 2010-07-15 2012-01-19 Xerox Corporation Constrained nonnegative tensor factorization for clustering
CN107609596A (zh) * 2017-09-22 2018-01-19 江苏理工学院 无参数自动加权多图正则化非负矩阵分解及图像聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016878A1 (en) * 2010-07-15 2012-01-19 Xerox Corporation Constrained nonnegative tensor factorization for clustering
CN107609596A (zh) * 2017-09-22 2018-01-19 江苏理工学院 无参数自动加权多图正则化非负矩阵分解及图像聚类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717538A (zh) * 2019-10-08 2020-01-21 广东工业大学 一种基于非负张量环的彩色图片聚类方法
CN110717538B (zh) * 2019-10-08 2022-06-24 广东工业大学 一种基于非负张量环的彩色图片聚类方法
CN111930934A (zh) * 2020-06-05 2020-11-13 江苏理工学院 一种基于对偶局部一致的约束稀疏概念分解的聚类方法
CN111930934B (zh) * 2020-06-05 2023-12-26 江苏理工学院 一种基于对偶局部一致的约束稀疏概念分解的聚类方法

Also Published As

Publication number Publication date
CN109614581B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
Sun et al. What and how: generalized lifelong spectral clustering via dual memory
Xie et al. Hyper-Laplacian regularized multilinear multiview self-representations for clustering and semisupervised learning
Zhang et al. Unsupervised feature selection via adaptive graph learning and constraint
Wu et al. Multi-label boosting for image annotation by structural grouping sparsity
Zhao et al. On similarity preserving feature selection
Yuan et al. Adaptive reverse graph learning for robust subspace learning
Bai et al. Multi-view feature selection via nonnegative structured graph learning
US9070047B2 (en) Decision tree fields to map dataset content to a set of parameters
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
CN110222213B (zh) 一种基于异构张量分解的图像分类方法
Wei et al. Scalable one-pass self-representation learning for hyperspectral band selection
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
Fan et al. Multi-view subspace learning via bidirectional sparsity
Cong et al. Self-supervised online metric learning with low rank constraint for scene categorization
Li et al. Multi-label feature selection via robust flexible sparse regularization
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
Zhang et al. Dual-constrained deep semi-supervised coupled factorization network with enriched prior
Deng et al. Large-scale multi-task image labeling with adaptive relevance discovery and feature hashing
Zamiri et al. MVDF-RSC: Multi-view data fusion via robust spectral clustering for geo-tagged image tagging
CN109063555B (zh) 基于低秩分解和稀疏表示残差对比的多姿态人脸识别方法
CN106570173B (zh) 一种基于Spark的高维稀疏文本数据聚类方法
Li et al. Unsupervised transfer learning via low-rank coding for image clustering
Zamiri et al. Image annotation based on multi-view robust spectral clustering
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
CN112364747A (zh) 一种有限样本下的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant