CN103617292A - 一种基于互正则化约束子空间表达的多视角数据聚类方法 - Google Patents

一种基于互正则化约束子空间表达的多视角数据聚类方法 Download PDF

Info

Publication number
CN103617292A
CN103617292A CN201310687876.3A CN201310687876A CN103617292A CN 103617292 A CN103617292 A CN 103617292A CN 201310687876 A CN201310687876 A CN 201310687876A CN 103617292 A CN103617292 A CN 103617292A
Authority
CN
China
Prior art keywords
mutual
sample
regularization
subspace
visual angles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310687876.3A
Other languages
English (en)
Other versions
CN103617292B (zh
Inventor
王亮
谭铁牛
赫然
尹奇跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310687876.3A priority Critical patent/CN103617292B/zh
Publication of CN103617292A publication Critical patent/CN103617292A/zh
Application granted granted Critical
Publication of CN103617292B publication Critical patent/CN103617292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于互正则化约束子空间表达的多视角数据聚类方法,该方法包括以下步骤:组成多视角数据库,提取不同视角数据的视角特征;选择互正则化方法,确定互正则化约束;基于一优化目标函数和不同视角数据的视角特征,得到所有样本的协同表示向量;将协同表示向量按照其所对应的样本顺序排序,得到子空间表达矩阵;对子空间表达矩阵进行处理,得到亲和矩阵;根据需要聚类的数目分割亲和矩阵,得到多视角数据库的样本聚类结果。本发明利用子空间表达来挖掘样本之间的隐含结构信息,采用两种互正则化方式来约束不同视角的子空间表达,以利用多视角的互补信息,进一步加强样本集隐含结构信息的表示,从而能够广泛的应用于多视角数据聚类。

Description

一种基于互正则化约束子空间表达的多视角数据聚类方法
技术领域
本发明涉及模式识别技术领域,尤其是一种基于互正则化约束子空间表达的多视角数据聚类方法。
背景技术
现实世界中的数据往往具有多种视角,此处视角可以是同一图像的不同特征表达,也可以是不同模态的数据,比如网页信息既包含图片信息,又包含文本信息以及超链接信息。多视角聚类,作为模式识别的基本任务,旨在利用不同视角下的互补信息提高聚类性能,其面临的核心挑战有两方面:(1)挖掘数据之间的隐含结构信息,即数据之间的相似性与相异性;(2)利用多视角数据提供的互补信息。传统的多视角聚类方法在解决这两个挑战时,一般找到多视角数据的一个统一的有判别能力的低维表达,但是它们不能显式地利用数据本身的先验信息,如稀疏性,协同表示特性。因此,传统的多视角聚类方法并不能有效的进行多视角数据的聚类。
发明内容
鉴于以往的方法不能有效的满足多视角数据聚类的需求,本发明提出了一种基于互正则化约束子空间表达的多视角数据聚类方法。该方法的子空间表达利用子空间聚类领域中协同表示的方法来深入挖掘数据之间的相似与相异特性,同时互正则化约束使得不同视角子空间表达相互促进,以达到利用视角之间的互补信息。
为了解决现有技术存在的缺陷,本发明的目的是提供一种基于互正则化约束子空间表达的多视角数据聚类方法,该方法包括以下步骤:
步骤S1,收集多视角数据样本,组成多视角数据库,并对不同视角的数据,分别提取其视角特征;
步骤S2,选择互正则化方法,并确定所选择的互正则化方法的互正则化约束;
步骤S3,根据所述步骤S2选定的互正则化方法,基于一优化目标函数和不同视角的数据的视角特征,学习得到所述多视角数据库中所有样本的协同表示向量;
步骤S4,将所述协同表示向量按照其所对应的样本顺序按列排序,得到子空间表达矩阵;
步骤S5,对所述子空间表达矩阵进行处理,得到度量所述多视角数据库中样本相似性的亲和矩阵;
步骤S6,根据需要聚类的数目,对于所述亲和矩阵进行分割,得到所述多视角数据库的样本聚类结果。
本发明提出的上述方法能够广泛的应用于多视角数据聚类分析问题。在该方法中,首先提取出数据集在不同视角下的特征;然后利用互正则化约束的方式求出各个视角下样本的协同表示向量,又称为子空间表达;将所有样本的子空间表达按列排序得到子空间表达矩阵,所述矩阵的元素值反映了样本之间的相似性权重;最后将子空间表达矩阵构造为对称非负的亲和矩阵(Affinity matrix),并利用Normalized Cuts谱聚类算法进行多视角的聚类。本发明方法利用子空间表达来挖掘样本之间的隐含结构信息,并采用两种互正则化方式来约束不同视角的子空间表达,以利用多视角的互补信息,进一步加强样本集隐含结构信息的表示,同时,本发明还提出了一种交替优化的算法来有效的求解不同互正则化约束的目标函数。
附图说明
图1是本发明基于互正则化约束子空间表达的多视角数据聚类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1是本发明基于互正则化约束子空间表达的多视角数据聚类方法的流程图,如图1所示,该方法包括以下步骤:
步骤S1,收集多视角数据样本,组成多视角数据库,并对不同视角的数据,分别提取其视角特征;
所述多视角可以是图片的不同特征表达,如GIST特征,Color特征,也可以是不同模态的数据,如网页数据可以由图片相关特征以及文本相关特征来进行表示。
步骤S2,选择互正则化方法以利用多视角数据的互补信息,并确定所选择的互正则化方法的互正则化约束;
该步骤中,互正则化方法包括两两互正则化方法(pairwiseco-regularization)和基于中心的互正则化方法(centroid-basedco-regularization),在性能上,一般两者能达到相似的效果。但是基于中心的互正则化方法,可将求得的中心(或隐变量)直接用于后续的计算,较为方便,在实际应用中,可根据需要自由选择互正则化方法。
步骤S3,根据所述步骤S2选定的互正则化方法,基于一优化目标函数和不同视角的数据的视角特征,学习得到所述多视角数据库中所有样本的协同表示向量,所述协同表示向量又称为子空间表达,其元素值反映了样本之间的关系;
所述优化目标函数表示为:
min z i v , z i w Σ v loss ( z i v ) + α Σ v reg ( z i v ) + β Σ v ≠ w co _ reg ( z i v , z i w ) ,
其中,
Figure BDA0000439010620000032
是样本i在v视角下的子空间表达,
Figure BDA0000439010620000033
是样本i在w视角下的子空间表达,
Figure BDA0000439010620000035
的损失函数,在本发明一实施例中,所述损失函数选择为平方损失函数,
Figure BDA0000439010620000036
是对
Figure BDA0000439010620000037
的正则化约束,选择为协同表示的
Figure BDA0000439010620000038
Figure BDA0000439010620000039
表示向量2-范数的平方,
Figure BDA00004390106200000310
是对同一个样本不同视角下子空间表达的互正则化约束,α和β是预设的比例系数。
所述步骤S3进一步包括以下步骤:
步骤S3.1,当互正则化约束为两两互正则化约束时,所述目标函数改写为:
min z i v , z i w &Sigma; v | | x i v - X - i v z i v | | 2 2 + &alpha; &Sigma; v | | z i v | | 2 2 + &beta; &Sigma; 1 &le; v < w &le; l | | z i v - z i w | | 2 2 ,
其中,
Figure BDA00004390106200000313
为样本i在v视角下的特征向量,为所述多视角数据库中v视角下除去
Figure BDA00004390106200000315
的所有样本,l为所述多视角数据库中的视角总数。
对于所述改写后的目标函数,采用交替优化的方式求解
Figure BDA0000439010620000041
直至算法收敛,若固定
Figure BDA0000439010620000042
则满足:
z i v = ( ( X - i v ) T ( X - i v ) + &alpha;I + ( l - 1 ) &beta;I ) - 1 ( ( X - i v ) T x i v + &beta; &Sigma; &omega; &NotEqual; v z i &omega; ) ,
其中,l为所述数据库视角总数,I为单位矩阵。
步骤S3.2,当互正则化约束
Figure BDA0000439010620000044
为基于中心的互正则化约束时,所述目标函数改写为:
min z i v , z i * &Sigma; v | | x i v - X - i v z i v | | 2 2 + &alpha; &Sigma; v | | z i v | | 2 2 + &beta; &Sigma; v | | z i v - z i * | | 2 2 ,
其中,
Figure BDA0000439010620000046
为隐变量,表示所述多视角数据库中样本i的不依赖视角的本征子空间表达,称为隐协同表示向量或者隐子空间表达。
对于所述改写后的目标函数,采用交替优化的方式求解
Figure BDA0000439010620000047
Figure BDA0000439010620000048
直至算法收敛,若固定
Figure BDA0000439010620000049
Figure BDA00004390106200000410
Figure BDA00004390106200000411
满足:
z i v = ( ( X - i v ) T ( X - i v ) + &alpha;I + &beta;I ) - 1 ( ( X - i v ) T x i v + &beta; z i * ) ,
若固定 z i &omega; ( v = 1 : l ) ,
Figure BDA00004390106200000414
满足:
z i * = &Sigma; v z i v / l ,
即所有视角的子空间表达向量的均值。
步骤S4,将所述协同表示向量按照其所对应的样本顺序按列排序,得到子空间表达矩阵Z;
该步骤中,对于两两互正则化约束,得到子空间表达矩阵Zv(v=1,2,…,l),;对于基于中心的互正则化约束,得到子空间表达矩阵Zv(v=1,2,…,l)和Z*
步骤S5,对所述子空间表达矩阵进行处理,得到度量所述多视角数据库中样本相似性的亲和矩阵A(Affinity matrix);
该步骤中,亲和矩阵A=1/2*(|Z|+|ZT|),这里Z表示子空间表达矩阵。对于两两互正则化约束,得到亲和矩阵Av(v=1,2,…,l),;对于基于中心的互正则化约束,得到亲和矩阵Av(v=1,2,…,l)和A*
步骤S6,根据需要聚类的数目,利用谱聚类算法对于所述亲和矩阵A进行分割,得到所述多视角数据库的样本聚类结果。
该步骤中,利用现有技术中常用的Normalized Cuts算法对所述亲和矩阵进行分割,该算法根据需要聚类的数目,将所述亲和矩阵所对应的多视角数据库样本集合分割成不同的聚类。对于两两互正则化约束,选择使得聚类性能达到最优的Av作为待分割亲和矩阵;对于基于中心的互正则化约束,选择A*作为待分割亲和矩阵。
为了验证本发明的实施效果,接下来以USPS Digits0-9数字数据库为例对于本发明方法进行说明,USPS Digits0-9数据库中包含2000幅图像,共计10类,每类包含200幅图像,基于互正则化约束子空间表达的多视角数据聚类包括以下步骤:
步骤S1,提取所有图像的Karhunen-love系数特征以及傅里叶变换系数特征作为所述数据库的两个视角;
步骤S2,选择基于中心的互正则化约束方法,即 CO reg ( z i v , z i w ) = &Sigma; v | | z i v - z i * | | 2 2 ;
步骤S3,令α和β取值为1,求解所述数据库每一个样本的协同表示向量以及隐协同表示向量
Figure BDA0000439010620000054
步骤S4,将步骤S3中得到的隐协同表示向量按照其所对应的样本顺序按列排序,得到其对应的子空间表达矩阵Z1,Z2以及Z*
步骤S5,利用步骤S4中得到的子空间表达矩阵Z*求解度量多视角数据相似性的亲和矩阵A:A=1/2*(|Z*|+|(Z*)T|);
步骤S6,利用Normalized Cuts算法将所述亲和矩阵分割为10块,每一块对应一个聚类。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于互正则化约束子空间表达的多视角数据聚类方法,其特征在于,该方法包括以下步骤:
步骤S1,收集多视角数据样本,组成多视角数据库,并对不同视角的数据,分别提取其视角特征;
步骤S2,选择互正则化方法,并确定所选择的互正则化方法的互正则化约束;
步骤S3,根据所述步骤S2选定的互正则化方法,基于一优化目标函数和不同视角的数据的视角特征,学习得到所述多视角数据库中所有样本的协同表示向量;
步骤S4,将所述协同表示向量按照其所对应的样本顺序按列排序,得到子空间表达矩阵;
步骤S5,对所述子空间表达矩阵进行处理,得到度量所述多视角数据库中样本相似性的亲和矩阵;
步骤S6,根据需要聚类的数目,对于所述亲和矩阵进行分割,得到所述多视角数据库的样本聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述多视角是图片的不同特征表达或者是不同模态的数据。
3.根据权利要求1所述的方法,其特征在于,所述互正则化方法包括两两互正则化方法和基于中心的互正则化方法。
4.根据权利要求1所述的方法,其特征在于,所述协同表示向量又称为子空间表达,其元素值反映了样本之间的关系。
5.根据权利要求1所述的方法,其特征在于,所述优化目标函数表示为:
min z i v , z i w &Sigma; v loss ( z i v ) + &alpha; &Sigma; v reg ( z i v ) + &beta; &Sigma; v &NotEqual; w co _ reg ( z i v , z i w ) ,
其中,是样本i在v视角下的子空间表达,
Figure FDA0000439010610000013
是样本i在w视角下的子空间表达,
Figure FDA0000439010610000014
Figure FDA0000439010610000015
的损失函数,
Figure FDA0000439010610000016
是对
Figure FDA0000439010610000017
的正则化约束
Figure FDA0000439010610000018
是对同一个样本不同视角下子空间表达的互正则化约束,α和β是预设的比例系数。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括以下步骤:
步骤S3.1,当互正则化约束为两两互正则化约束时,改写所述目标函数,采用交替优化的方式求解协同表示向量,直至收敛;
步骤S3.2,当互正则化约束为基于中心的互正则化约束时,改写所述目标函数,采用交替优化的方式求解协同表示向量,直至收敛。
7.根据权利要求6所述的方法,其特征在于,所述步骤S3.1中,所述目标函数被改写为:
min z i v , z i w &Sigma; v | | x i v - X - i v z i v | | 2 2 + &alpha; &Sigma; v | | z i v | | 2 2 + &beta; &Sigma; 1 &le; v < w &le; l | | z i v - z i w | | 2 2 ,
其中,
Figure FDA0000439010610000022
是样本i在v视角下的子空间表达,
Figure FDA0000439010610000023
是样本i在w视角下的子空间表达,
Figure FDA0000439010610000024
为样本i在v视角下的特征向量,
Figure FDA0000439010610000025
为所述多视角数据库中v视角下除去的所有样本,l为所述多视角数据库中的视角总数,α和β是预设的比例系数。
8.根据权利要求6所述的方法,其特征在于,所述步骤S3.2中,所述目标函数被改写为:
min z i v , z i * &Sigma; v | | x i v - X - i v z i v | | 2 2 + &alpha; &Sigma; v | | z i v | | 2 2 + &beta; &Sigma; v | | z i v - z i * | | 2 2 ,
其中,
Figure FDA0000439010610000028
是样本i在v视角下的子空间表达,
Figure FDA0000439010610000029
为隐变量,表示所述多视角数据库中样本i的不依赖视角的本征子空间表达,
Figure FDA00004390106100000210
为样本i在v视角下的特征向量,
Figure FDA00004390106100000211
为所述多视角数据库中v视角下除去
Figure FDA00004390106100000212
的所有样本,α和β是预设的比例系数。
9.根据权利要求1所述的方法,其特征在于,所述亲和矩阵A表示为:
A=1/2*(|Z|+|ZT|),
其中,Z表示子空间表达矩阵。
10.根据权利要求1所述的方法,其特征在于,所述步骤S6中,利用谱聚类算法对于所述亲和矩阵A进行分割。
CN201310687876.3A 2013-12-16 2013-12-16 一种基于互正则化约束子空间表达的多视角数据聚类方法 Active CN103617292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310687876.3A CN103617292B (zh) 2013-12-16 2013-12-16 一种基于互正则化约束子空间表达的多视角数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310687876.3A CN103617292B (zh) 2013-12-16 2013-12-16 一种基于互正则化约束子空间表达的多视角数据聚类方法

Publications (2)

Publication Number Publication Date
CN103617292A true CN103617292A (zh) 2014-03-05
CN103617292B CN103617292B (zh) 2017-02-22

Family

ID=50167995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310687876.3A Active CN103617292B (zh) 2013-12-16 2013-12-16 一种基于互正则化约束子空间表达的多视角数据聚类方法

Country Status (1)

Country Link
CN (1) CN103617292B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139031A (zh) * 2015-08-21 2015-12-09 天津中科智能识别产业技术研究院有限公司 一种基于子空间聚类的数据处理方法
CN105160357A (zh) * 2015-08-31 2015-12-16 中国科学院自动化研究所 基于全局一致性和局部拓扑的多模态数据子空间聚类方法
CN105718950A (zh) * 2016-01-22 2016-06-29 天津中科智能识别产业技术研究院有限公司 一种基于结构约束的半监督多视角聚类方法
CN106022351A (zh) * 2016-04-27 2016-10-12 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法
CN106971197A (zh) * 2017-03-02 2017-07-21 北京工业大学 基于差异性与一致性约束的多视数据的子空间聚类方法
CN109272022A (zh) * 2018-08-22 2019-01-25 天津大学 一种联合场景和运动多特征的视频行为聚类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363961B1 (en) * 2008-10-14 2013-01-29 Adobe Systems Incorporated Clustering techniques for large, high-dimensionality data sets
CN103020989B (zh) * 2012-12-05 2016-06-08 河海大学 一种基于在线场景特征聚类的多视角目标跟踪方法
CN103400143B (zh) * 2013-07-12 2017-03-01 中国科学院自动化研究所 一种基于多视角的数据子空间聚类方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139031A (zh) * 2015-08-21 2015-12-09 天津中科智能识别产业技术研究院有限公司 一种基于子空间聚类的数据处理方法
CN105160357A (zh) * 2015-08-31 2015-12-16 中国科学院自动化研究所 基于全局一致性和局部拓扑的多模态数据子空间聚类方法
CN105718950A (zh) * 2016-01-22 2016-06-29 天津中科智能识别产业技术研究院有限公司 一种基于结构约束的半监督多视角聚类方法
CN105718950B (zh) * 2016-01-22 2018-11-27 天津中科智能识别产业技术研究院有限公司 一种基于结构约束的半监督多视角聚类方法
CN106022351A (zh) * 2016-04-27 2016-10-12 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法
CN106971197A (zh) * 2017-03-02 2017-07-21 北京工业大学 基于差异性与一致性约束的多视数据的子空间聚类方法
CN106971197B (zh) * 2017-03-02 2019-12-13 北京工业大学 基于差异性与一致性约束的多视数据的子空间聚类方法
CN109272022A (zh) * 2018-08-22 2019-01-25 天津大学 一种联合场景和运动多特征的视频行为聚类方法
CN109272022B (zh) * 2018-08-22 2021-06-04 天津大学 一种联合场景和运动多特征的视频行为聚类方法

Also Published As

Publication number Publication date
CN103617292B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN103617292A (zh) 一种基于互正则化约束子空间表达的多视角数据聚类方法
Duong ks: Kernel density estimation and kernel discriminant analysis for multivariate data in R
CN101763429B (zh) 一种基于颜色和形状特征的图像检索方法
CN103400143A (zh) 一种基于多视角的数据子空间聚类方法
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN103020993B (zh) 一种双通道颜色对比度融合的视觉显著性检测方法
TWI464604B (zh) 資料分群方法與裝置、資料處理裝置及影像處理裝置
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN103366178A (zh) 一种用于对目标图像进行颜色分类的方法与设备
CN113569788B (zh) 一种建筑物语义分割网络模型训练方法、系统及应用方法
CN103679719A (zh) 一种图像分割方法
CN104966285A (zh) 一种显著性区域的检测方法
CN102222234A (zh) 基于均值偏移和k均值聚类技术的图像对象提取方法
CN103235947A (zh) 一种手写体数字识别方法及装置
CN103049340A (zh) 基于纹理上下文约束的视觉词汇的图像超分辨率重建方法
CN103955942A (zh) 一种基于svm的2d图像的深度图提取方法
CN104966075A (zh) 一种基于二维判别特征的人脸识别方法与系统
CN102708589B (zh) 一种基于特征聚类的三维目标多视点视图建模方法
CN103714340A (zh) 基于图像分块的自适应特征提取方法
CN104318224A (zh) 一种人脸识别方法及监控设备
Kumar et al. A hybrid cluster technique for improving the efficiency of colour image segmentation
CN103530656B (zh) 基于隐结构学习的图像摘要生成方法
Zhang et al. Imbalanced learning for RR Lyrae stars based on SDSS and GALEX databases
Li et al. Design of medical graphic aided visual elements active communication algorithm in print advertising
CN104112147B (zh) 一种基于最近特征线的人脸特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant