CN103617292A - 一种基于互正则化约束子空间表达的多视角数据聚类方法 - Google Patents
一种基于互正则化约束子空间表达的多视角数据聚类方法 Download PDFInfo
- Publication number
- CN103617292A CN103617292A CN201310687876.3A CN201310687876A CN103617292A CN 103617292 A CN103617292 A CN 103617292A CN 201310687876 A CN201310687876 A CN 201310687876A CN 103617292 A CN103617292 A CN 103617292A
- Authority
- CN
- China
- Prior art keywords
- mutual
- sample
- regularization
- subspace
- visual angles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000014509 gene expression Effects 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 239000013604 expression vector Substances 0.000 claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims description 87
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000013341 scale-up Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000000295 complement effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于互正则化约束子空间表达的多视角数据聚类方法,该方法包括以下步骤:组成多视角数据库,提取不同视角数据的视角特征;选择互正则化方法,确定互正则化约束;基于一优化目标函数和不同视角数据的视角特征,得到所有样本的协同表示向量;将协同表示向量按照其所对应的样本顺序排序,得到子空间表达矩阵;对子空间表达矩阵进行处理,得到亲和矩阵;根据需要聚类的数目分割亲和矩阵,得到多视角数据库的样本聚类结果。本发明利用子空间表达来挖掘样本之间的隐含结构信息,采用两种互正则化方式来约束不同视角的子空间表达,以利用多视角的互补信息,进一步加强样本集隐含结构信息的表示,从而能够广泛的应用于多视角数据聚类。
Description
技术领域
本发明涉及模式识别技术领域,尤其是一种基于互正则化约束子空间表达的多视角数据聚类方法。
背景技术
现实世界中的数据往往具有多种视角,此处视角可以是同一图像的不同特征表达,也可以是不同模态的数据,比如网页信息既包含图片信息,又包含文本信息以及超链接信息。多视角聚类,作为模式识别的基本任务,旨在利用不同视角下的互补信息提高聚类性能,其面临的核心挑战有两方面:(1)挖掘数据之间的隐含结构信息,即数据之间的相似性与相异性;(2)利用多视角数据提供的互补信息。传统的多视角聚类方法在解决这两个挑战时,一般找到多视角数据的一个统一的有判别能力的低维表达,但是它们不能显式地利用数据本身的先验信息,如稀疏性,协同表示特性。因此,传统的多视角聚类方法并不能有效的进行多视角数据的聚类。
发明内容
鉴于以往的方法不能有效的满足多视角数据聚类的需求,本发明提出了一种基于互正则化约束子空间表达的多视角数据聚类方法。该方法的子空间表达利用子空间聚类领域中协同表示的方法来深入挖掘数据之间的相似与相异特性,同时互正则化约束使得不同视角子空间表达相互促进,以达到利用视角之间的互补信息。
为了解决现有技术存在的缺陷,本发明的目的是提供一种基于互正则化约束子空间表达的多视角数据聚类方法,该方法包括以下步骤:
步骤S1,收集多视角数据样本,组成多视角数据库,并对不同视角的数据,分别提取其视角特征;
步骤S2,选择互正则化方法,并确定所选择的互正则化方法的互正则化约束;
步骤S3,根据所述步骤S2选定的互正则化方法,基于一优化目标函数和不同视角的数据的视角特征,学习得到所述多视角数据库中所有样本的协同表示向量;
步骤S4,将所述协同表示向量按照其所对应的样本顺序按列排序,得到子空间表达矩阵;
步骤S5,对所述子空间表达矩阵进行处理,得到度量所述多视角数据库中样本相似性的亲和矩阵;
步骤S6,根据需要聚类的数目,对于所述亲和矩阵进行分割,得到所述多视角数据库的样本聚类结果。
本发明提出的上述方法能够广泛的应用于多视角数据聚类分析问题。在该方法中,首先提取出数据集在不同视角下的特征;然后利用互正则化约束的方式求出各个视角下样本的协同表示向量,又称为子空间表达;将所有样本的子空间表达按列排序得到子空间表达矩阵,所述矩阵的元素值反映了样本之间的相似性权重;最后将子空间表达矩阵构造为对称非负的亲和矩阵(Affinity matrix),并利用Normalized Cuts谱聚类算法进行多视角的聚类。本发明方法利用子空间表达来挖掘样本之间的隐含结构信息,并采用两种互正则化方式来约束不同视角的子空间表达,以利用多视角的互补信息,进一步加强样本集隐含结构信息的表示,同时,本发明还提出了一种交替优化的算法来有效的求解不同互正则化约束的目标函数。
附图说明
图1是本发明基于互正则化约束子空间表达的多视角数据聚类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1是本发明基于互正则化约束子空间表达的多视角数据聚类方法的流程图,如图1所示,该方法包括以下步骤:
步骤S1,收集多视角数据样本,组成多视角数据库,并对不同视角的数据,分别提取其视角特征;
所述多视角可以是图片的不同特征表达,如GIST特征,Color特征,也可以是不同模态的数据,如网页数据可以由图片相关特征以及文本相关特征来进行表示。
步骤S2,选择互正则化方法以利用多视角数据的互补信息,并确定所选择的互正则化方法的互正则化约束;
该步骤中,互正则化方法包括两两互正则化方法(pairwiseco-regularization)和基于中心的互正则化方法(centroid-basedco-regularization),在性能上,一般两者能达到相似的效果。但是基于中心的互正则化方法,可将求得的中心(或隐变量)直接用于后续的计算,较为方便,在实际应用中,可根据需要自由选择互正则化方法。
步骤S3,根据所述步骤S2选定的互正则化方法,基于一优化目标函数和不同视角的数据的视角特征,学习得到所述多视角数据库中所有样本的协同表示向量,所述协同表示向量又称为子空间表达,其元素值反映了样本之间的关系;
所述优化目标函数表示为:
其中,是样本i在v视角下的子空间表达,是样本i在w视角下的子空间表达,是的损失函数,在本发明一实施例中,所述损失函数选择为平方损失函数,是对的正则化约束,选择为协同表示的 表示向量2-范数的平方,是对同一个样本不同视角下子空间表达的互正则化约束,α和β是预设的比例系数。
所述步骤S3进一步包括以下步骤:
步骤S3.1,当互正则化约束为两两互正则化约束时,所述目标函数改写为:
其中,l为所述数据库视角总数,I为单位矩阵。
即所有视角的子空间表达向量的均值。
步骤S4,将所述协同表示向量按照其所对应的样本顺序按列排序,得到子空间表达矩阵Z;
该步骤中,对于两两互正则化约束,得到子空间表达矩阵Zv(v=1,2,…,l),;对于基于中心的互正则化约束,得到子空间表达矩阵Zv(v=1,2,…,l)和Z*。
步骤S5,对所述子空间表达矩阵进行处理,得到度量所述多视角数据库中样本相似性的亲和矩阵A(Affinity matrix);
该步骤中,亲和矩阵A=1/2*(|Z|+|ZT|),这里Z表示子空间表达矩阵。对于两两互正则化约束,得到亲和矩阵Av(v=1,2,…,l),;对于基于中心的互正则化约束,得到亲和矩阵Av(v=1,2,…,l)和A*。
步骤S6,根据需要聚类的数目,利用谱聚类算法对于所述亲和矩阵A进行分割,得到所述多视角数据库的样本聚类结果。
该步骤中,利用现有技术中常用的Normalized Cuts算法对所述亲和矩阵进行分割,该算法根据需要聚类的数目,将所述亲和矩阵所对应的多视角数据库样本集合分割成不同的聚类。对于两两互正则化约束,选择使得聚类性能达到最优的Av作为待分割亲和矩阵;对于基于中心的互正则化约束,选择A*作为待分割亲和矩阵。
为了验证本发明的实施效果,接下来以USPS Digits0-9数字数据库为例对于本发明方法进行说明,USPS Digits0-9数据库中包含2000幅图像,共计10类,每类包含200幅图像,基于互正则化约束子空间表达的多视角数据聚类包括以下步骤:
步骤S1,提取所有图像的Karhunen-love系数特征以及傅里叶变换系数特征作为所述数据库的两个视角;
步骤S2,选择基于中心的互正则化约束方法,即
步骤S4,将步骤S3中得到的隐协同表示向量按照其所对应的样本顺序按列排序,得到其对应的子空间表达矩阵Z1,Z2以及Z*;
步骤S5,利用步骤S4中得到的子空间表达矩阵Z*求解度量多视角数据相似性的亲和矩阵A:A=1/2*(|Z*|+|(Z*)T|);
步骤S6,利用Normalized Cuts算法将所述亲和矩阵分割为10块,每一块对应一个聚类。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于互正则化约束子空间表达的多视角数据聚类方法,其特征在于,该方法包括以下步骤:
步骤S1,收集多视角数据样本,组成多视角数据库,并对不同视角的数据,分别提取其视角特征;
步骤S2,选择互正则化方法,并确定所选择的互正则化方法的互正则化约束;
步骤S3,根据所述步骤S2选定的互正则化方法,基于一优化目标函数和不同视角的数据的视角特征,学习得到所述多视角数据库中所有样本的协同表示向量;
步骤S4,将所述协同表示向量按照其所对应的样本顺序按列排序,得到子空间表达矩阵;
步骤S5,对所述子空间表达矩阵进行处理,得到度量所述多视角数据库中样本相似性的亲和矩阵;
步骤S6,根据需要聚类的数目,对于所述亲和矩阵进行分割,得到所述多视角数据库的样本聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述多视角是图片的不同特征表达或者是不同模态的数据。
3.根据权利要求1所述的方法,其特征在于,所述互正则化方法包括两两互正则化方法和基于中心的互正则化方法。
4.根据权利要求1所述的方法,其特征在于,所述协同表示向量又称为子空间表达,其元素值反映了样本之间的关系。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括以下步骤:
步骤S3.1,当互正则化约束为两两互正则化约束时,改写所述目标函数,采用交替优化的方式求解协同表示向量,直至收敛;
步骤S3.2,当互正则化约束为基于中心的互正则化约束时,改写所述目标函数,采用交替优化的方式求解协同表示向量,直至收敛。
9.根据权利要求1所述的方法,其特征在于,所述亲和矩阵A表示为:
A=1/2*(|Z|+|ZT|),
其中,Z表示子空间表达矩阵。
10.根据权利要求1所述的方法,其特征在于,所述步骤S6中,利用谱聚类算法对于所述亲和矩阵A进行分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310687876.3A CN103617292B (zh) | 2013-12-16 | 2013-12-16 | 一种基于互正则化约束子空间表达的多视角数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310687876.3A CN103617292B (zh) | 2013-12-16 | 2013-12-16 | 一种基于互正则化约束子空间表达的多视角数据聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103617292A true CN103617292A (zh) | 2014-03-05 |
CN103617292B CN103617292B (zh) | 2017-02-22 |
Family
ID=50167995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310687876.3A Active CN103617292B (zh) | 2013-12-16 | 2013-12-16 | 一种基于互正则化约束子空间表达的多视角数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103617292B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139031A (zh) * | 2015-08-21 | 2015-12-09 | 天津中科智能识别产业技术研究院有限公司 | 一种基于子空间聚类的数据处理方法 |
CN105160357A (zh) * | 2015-08-31 | 2015-12-16 | 中国科学院自动化研究所 | 基于全局一致性和局部拓扑的多模态数据子空间聚类方法 |
CN105718950A (zh) * | 2016-01-22 | 2016-06-29 | 天津中科智能识别产业技术研究院有限公司 | 一种基于结构约束的半监督多视角聚类方法 |
CN106022351A (zh) * | 2016-04-27 | 2016-10-12 | 天津中科智能识别产业技术研究院有限公司 | 一种基于非负字典对学习的鲁棒多视角聚类方法 |
CN106971197A (zh) * | 2017-03-02 | 2017-07-21 | 北京工业大学 | 基于差异性与一致性约束的多视数据的子空间聚类方法 |
CN109272022A (zh) * | 2018-08-22 | 2019-01-25 | 天津大学 | 一种联合场景和运动多特征的视频行为聚类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8363961B1 (en) * | 2008-10-14 | 2013-01-29 | Adobe Systems Incorporated | Clustering techniques for large, high-dimensionality data sets |
CN103020989B (zh) * | 2012-12-05 | 2016-06-08 | 河海大学 | 一种基于在线场景特征聚类的多视角目标跟踪方法 |
CN103400143B (zh) * | 2013-07-12 | 2017-03-01 | 中国科学院自动化研究所 | 一种基于多视角的数据子空间聚类方法 |
-
2013
- 2013-12-16 CN CN201310687876.3A patent/CN103617292B/zh active Active
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105139031A (zh) * | 2015-08-21 | 2015-12-09 | 天津中科智能识别产业技术研究院有限公司 | 一种基于子空间聚类的数据处理方法 |
CN105160357A (zh) * | 2015-08-31 | 2015-12-16 | 中国科学院自动化研究所 | 基于全局一致性和局部拓扑的多模态数据子空间聚类方法 |
CN105718950A (zh) * | 2016-01-22 | 2016-06-29 | 天津中科智能识别产业技术研究院有限公司 | 一种基于结构约束的半监督多视角聚类方法 |
CN105718950B (zh) * | 2016-01-22 | 2018-11-27 | 天津中科智能识别产业技术研究院有限公司 | 一种基于结构约束的半监督多视角聚类方法 |
CN106022351A (zh) * | 2016-04-27 | 2016-10-12 | 天津中科智能识别产业技术研究院有限公司 | 一种基于非负字典对学习的鲁棒多视角聚类方法 |
CN106971197A (zh) * | 2017-03-02 | 2017-07-21 | 北京工业大学 | 基于差异性与一致性约束的多视数据的子空间聚类方法 |
CN106971197B (zh) * | 2017-03-02 | 2019-12-13 | 北京工业大学 | 基于差异性与一致性约束的多视数据的子空间聚类方法 |
CN109272022A (zh) * | 2018-08-22 | 2019-01-25 | 天津大学 | 一种联合场景和运动多特征的视频行为聚类方法 |
CN109272022B (zh) * | 2018-08-22 | 2021-06-04 | 天津大学 | 一种联合场景和运动多特征的视频行为聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103617292B (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103617292A (zh) | 一种基于互正则化约束子空间表达的多视角数据聚类方法 | |
Duong | ks: Kernel density estimation and kernel discriminant analysis for multivariate data in R | |
CN101763429B (zh) | 一种基于颜色和形状特征的图像检索方法 | |
CN103400143A (zh) | 一种基于多视角的数据子空间聚类方法 | |
CN108090472B (zh) | 基于多通道一致性特征的行人重识别方法及其系统 | |
CN103020993B (zh) | 一种双通道颜色对比度融合的视觉显著性检测方法 | |
TWI464604B (zh) | 資料分群方法與裝置、資料處理裝置及影像處理裝置 | |
CN110210492B (zh) | 一种基于深度学习的立体图像视觉显著性检测方法 | |
CN103366178A (zh) | 一种用于对目标图像进行颜色分类的方法与设备 | |
CN113569788B (zh) | 一种建筑物语义分割网络模型训练方法、系统及应用方法 | |
CN103679719A (zh) | 一种图像分割方法 | |
CN104966285A (zh) | 一种显著性区域的检测方法 | |
CN102222234A (zh) | 基于均值偏移和k均值聚类技术的图像对象提取方法 | |
CN103235947A (zh) | 一种手写体数字识别方法及装置 | |
CN103049340A (zh) | 基于纹理上下文约束的视觉词汇的图像超分辨率重建方法 | |
CN103955942A (zh) | 一种基于svm的2d图像的深度图提取方法 | |
CN104966075A (zh) | 一种基于二维判别特征的人脸识别方法与系统 | |
CN102708589B (zh) | 一种基于特征聚类的三维目标多视点视图建模方法 | |
CN103714340A (zh) | 基于图像分块的自适应特征提取方法 | |
CN104318224A (zh) | 一种人脸识别方法及监控设备 | |
Kumar et al. | A hybrid cluster technique for improving the efficiency of colour image segmentation | |
CN103530656B (zh) | 基于隐结构学习的图像摘要生成方法 | |
Zhang et al. | Imbalanced learning for RR Lyrae stars based on SDSS and GALEX databases | |
Li et al. | Design of medical graphic aided visual elements active communication algorithm in print advertising | |
CN104112147B (zh) | 一种基于最近特征线的人脸特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |