CN110135520A - 基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质 - Google Patents

基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN110135520A
CN110135520A CN201910446754.2A CN201910446754A CN110135520A CN 110135520 A CN110135520 A CN 110135520A CN 201910446754 A CN201910446754 A CN 201910446754A CN 110135520 A CN110135520 A CN 110135520A
Authority
CN
China
Prior art keywords
visual angle
sample
angle
iteration
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910446754.2A
Other languages
English (en)
Inventor
陈润泽
文杰
徐勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201910446754.2A priority Critical patent/CN110135520A/zh
Publication of CN110135520A publication Critical patent/CN110135520A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质,该不完备多视角聚类方法包括:步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法(如k‑means)得到聚类类别。本发明的有益效果是:本发明通过相似图补全技术和视角权重鉴别因子的引入,有效地捕捉了数据的本质结构,提高了聚类性能。

Description

基于图补全和自适应视角权重分配的不完备多视角聚类方 法、装置、系统及存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质。
背景技术
在机器学习领域,多视角聚类能够利用目标的多个视角特征将海量无标签数据自动地划分成若干类别,该技术已经广泛应用于图像聚类、医学诊断等场景。多种单视角聚类方法被扩展到多视角情形,例如多视角期望最大化算法(Multi-View ExpectationMaximum Clustering,MVEM)、多视角k-means方法(Multi-View K-Means Clustering,MVKM)、基于谱聚类的多视角聚类方法(Multi-View Spectral Clustering,MVSC)、基于非负矩阵分解的多视角聚类方法(Multi-View Nonnegative Matrix Factorization,MultiNMF)、基于典型相关分析的多视角数据低维映射(Multi-view CanonicalCorrelation Analysis,MCCA)等。其中,基于谱聚类和基于非负矩阵分解的多视角聚类方法的核心都是从不同视角中学习一致的子空间,然后在该子空间上实施传统的单视角聚类方法(如k-means)得到最终的聚类结果。由于每一个视角从不同的方面揭示了目标的特征,不同视角在含有一致的类别归属信息的同时,也包含了互为补充的鉴别有益信息,因此利用多个视角进行聚类性能可以超过单视角或者对多视角的简单拼接。
由于特征收集过程中的一些不可控因素,视角缺失情况时有发生。例如,将不同报社对同一新闻的报道看作该新闻的不同视角,由于不同报社报道的新闻覆盖面不完全相同,在对新闻主题进行聚类时,视角缺失是常见的情形。同样地,将不同设备或者不同光照下对物体采集的照片视作该物体的不同视角,由于部分设备损坏或者光照条件不达标,也可能出现视角缺失的情形。近年来,学者们越来越多地关注不完备多视角情形下的聚类方法。着眼于视角缺失的挑战,学者们提出了很多方法来降低缺失视角的负面影响。一些方法(Partial multi-View Clustering,PVC,Incomplete Multi-modality Grouping,IMG)利用完备样本(样本在各视角中的实例都存在)指导一致子空间的学习,由于这些方法要求完备样本的存在,其应用范围受到较大限制;一些方法(Multi-Incomplete-Viewclustering,MIC,Doubly Aligned Incomplete Multi-view Clustering,DAIMC)采用非负矩阵分解(Nonnegative Matrix Factorization,NMF)的框架,对视角中缺失样例的重构误差项赋予较低甚至为零的权重,这类方法往往不能捕获数据的本质结构,同时对噪声较为敏感。一些方法考虑了数据本质结构,如利用完备视角的仿射图对缺失视角的样例相似关系进行估计(Multiview Clustering with Incomplete Views,MCIC),但实际的多视角数据集中常常不存在完备的视角。一些方法为了克服这个问题,直接对所有的缺失样例的相似关系进行估计(Incomplete multi-View Clustering,IVC,Incomplete MultiviewSpectral Clustering with Adaptive Graph Learning,IMSC_AGL),然而不恰当的估计往往会在缺失率较大时造成大幅偏离真实结果的情况。
虽然学者们提出了大量的不完备多视角聚类框架,可以在一定程度上降低视角缺失所带来的负面影响,但是这些方法普遍存在如下的问题:第一种缺陷,现有方法不能很好地捕捉数据的本质结构。只针对视角完备的样本对齐低维表征或者对缺失样例及其相似关系进行不合理的填充,都会造成数据本质结构的偏离,从而影响聚类性能。第二种缺陷,现有方法没有考虑各视角在聚类鉴别信息方面的不均衡性。由于各视角所代表的特征本身所蕴含的鉴别信息的差异性、视角受噪声干扰程度的不同、不同的缺失率导致鉴别性能下降的差异等,各视角对聚类学习的指导作用是不同的。现有方法普遍均衡地利用各视角的鉴别信息来指导聚类,导致了聚类性能的下降。
发明内容
本发明提供了一种基于图补全和自适应视角权重分配的不完备多视角聚类方法,包括如下步骤:
步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;
步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;
步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。
作为本发明的进一步改进,步骤1,多视角仿射图的构建及补全步骤包括:
特征抽取和归一化步骤:提取目标事物的多种特征,并将每种特征视为一个视角:用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;
各视角仿射图的构建及填补校正步骤:
首先,在各视角X(v)中利用式构建仿射图W(v)
其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;
最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。
作为本发明的进一步改进,步骤2,学习各视角间一致的低维表征步骤包括:
变量初始化步骤:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v)(v)求取;
迭代第一步:更新全局低维表征Y*。具体来说,首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征
迭代第二步:更新各视角的低维表征Y(v)(v=1,...,l)。具体来说,针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征Y(v),即
迭代第三步:更新各视角的权重鉴别因子ω(v)(v=1,...,l)。具体来说,针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中γ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));
判断收敛条件步骤:计算当前第t次迭代目标函数值若迭代次数小于设定值,则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,则终止迭代,输出一致低维表征Y*;否则不断迭代,直到满足收敛条件,或者迭代次数超过预设最大值,强制终止迭代,输出全局低维表征Y*
作为本发明的进一步改进,在步骤3,聚类步骤中,低维表征Y*的第i行可视作第i个样本的低维表征,首先归一化每行为单位向量,然后利用传统的单视角聚类方法(如k-means)将n个样本划分为c个簇,从而得到样本聚类结果。
本发明还提供了一种基于图补全和自适应视角权重分配的不完备多视角聚类装置,包括:
多视角仿射图的构建及补全单元:用于归一化各视角中的样本实例,构建并补全各视角的仿射图;
学习各视角间一致的低维表征单元:用于迭代求取各视角间一致的低维表征;
聚类单元:用于归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。
作为本发明的进一步改进,多视角仿射图的构建及补全单元包括:
特征抽取和归一化模块:提取目标事物的多种特征,并将每种特征视为一个视角:用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;
各视角仿射图的构建及填补校正模块:
首先,在各视角X(v)中利用式构建仿射图W(v)
其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;
最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。
作为本发明的进一步改进,学习各视角间一致的低维表征模块包括:
变量初始化模块:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v)(v)求取;
迭代第一步:更新全局低维表征Y*。具体来说,首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征
迭代第二步:更新各视角的低维表征Y(v)(v=1,...,l)。具体来说,针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征Y(v),即
迭代第三步:更新各视角的权重鉴别因子ω(v)(v=1,...,l)。具体来说,针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中γ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));
判断收敛条件模块:用于计算当前第t次迭代目标函数值若迭代次数小于设定值,则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,则终止迭代,输出一致低维表征Y*;否则不断迭代,直到满足收敛条件,或者迭代次数超过预设最大值,强制终止迭代,输出全局低维表征Y*
作为本发明的进一步改进,在聚类单元中,低维表征Y*的第i行可视作第i个样本的低维表征,首先归一化每行为单位向量,然后利用传统的单视角聚类方法(如k-means)将n个样本划分为c个簇,从而得到样本聚类结果。
本发明还提供了一种基于图补全和自适应视角权重分配的不完备多视角聚类系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明的有益效果是:本发明通过相似图补全技术和视角权重鉴别因子的引入,有效地捕捉了数据的本质结构,提高了聚类性能。
附图说明
图1是本发明的原理示意图。
图2是本发明的方法流程图。
具体实施方式
针对背景技术的第一种缺陷,本发明通过图补全技术共享多个视角间样本的相似关系,挖掘数据的本质结构,同时利用谱聚类进一步捕获数据的非线性流形结构。针对背景技术的第二种缺陷,本发明引入视角权重鉴别因子,自适应地平衡每个视角在聚类学习中的重要性,从而获得更好的聚类性能。
本发明公开了一种基于图补全和自适应视角权重分配的不完备多视角聚类方法,可以合理地填充从缺失视角中学习到的仿射图,并降低各视角鉴别信息差异所带来的负面影响。为了便于从多个视角中学习到尽量一致的子空间,我们利用各视角中样本的相似信息补全从缺失视角中学习到的仿射图。与已有方法不同的是,该图填充策略填补对象是仿射图,不需要对缺失样例数据直接评估,而且该策略可以共享多个视角间的互补信息,从而大幅降低缺失样例带来的负面影响。此外,考虑到多个不同视角代表的特征鉴别能力不同、样本缺失率的差异、噪声干扰程度不同,本发明引入自适应学习的视角权重鉴别因子,来平衡鉴别信息不同的视角在聚类学习中的作用,从而大幅提高聚类的性能。
首先给定不完备多视角数据集 dv和nv分别是第v个视角的特征维度和样例数。同时给定包含所有样本的总序列其中我们可以根据不完备数据集得到视角—样本指示矩阵H=[h1,h2,…,hl]∈Rn ×l,其中第i列hi代表了第i个视角中样本的存在情况,如果第i个视角中存在第j个样本的实例,那么hi中的对应元素为1,否则为0。同时,我们可以得到第v个视角样例和所有样本的对应关系矩阵其中第k列gk代表了样本总序列中第k个样本在第v个视角中的实例对应关系,如果对应第v个视角中的某个样例,如第l个样例那么gk的第l个元素为1,其他元素为0。
在本发明中,首先在各视角X(v)中使用高斯核函数(Gaussian kernel)构建相似矩阵,即利用式构建相似矩阵其中参数σ用于控制两样例间相似度随其距离增大而下降的速率,我们取σ=1。然后利用对应关系矩阵G(v)将该仿射图扩展到n维,即此时中与缺失样例相关的相似权重为0,在接下来的步骤中,首先利用多个视角的相似信息对各个视角仿射图中缺失样例的相似权重进行估计校正,然后使用迭代模型求得各视角一致的子空间表示。
仿射图校正过程中,若样本总序列中第i个样本在视角X(v)中缺失了对应的实例,则利用式对该缺失样例的相似权重进行补全,即通过其他含有该样本实例的视角中的相似关系估计得到该视角缺失实例的相似关系,然后利用保证仿射图的对称特性。上述仿射图的校正过程保证了各视角具有相似的内在结构,同时便于挖掘各视角间的互补信息。
传统的多视角谱聚类框架设计了如下的优化问题:
其中是仿射图的拉普拉斯矩阵,D(v)的度矩阵,其对角元素通过式计算得到,非对角元素均为0。Y(v),Y*∈Rn×c分别为第v个视角的低维表征和各视角一致的低维表征,c为类别数目,需提前指定。
传统的谱聚类框架在指导子空间的学习过程中等同看待各个视角,这使得被噪声污染严重或特征鉴别信息弱的视角与鉴别信息丰富的视角对子空间学习的贡献等同,从而导致了聚类性能的下降。为了自适应地平衡鉴别信息不同的视角在子空间学习中的作用,基于前面得到的各视角补全的仿射图,本发明提出以下的子空间学习模型来学习各视角间一致的低维表征Y*
其中ω(v)为自适应学习的视角权重鉴别因子,用来平衡各视角在子空间学习中的作用,权重幂次r起平滑作用。λ是平衡因子。通过视角权重鉴别因子ω(v)的引入,本发明能够有效降低各视角鉴别信息的差异性所带来的负面影响,从而指导模型学习到更优的子空间表示。
模型(2)中含有多个未知变量,难以求其最优解。我们使用迭代更新方法逼近模型(2)的最优解,即求解某变量时,固定其他未知变量,通过该策略对模型中的未知变量Y(v),Y*(v)逐一进行求解。
1)求解一致的低维表征Y*
固定变量Y(v)(v),针对一致的低维表征Y*,模型(2)退化为如下优化问题:
该优化问题是特征值分解问题,故Y*的最优解为矩阵的最大c个特征值对应的特征向量作为列向量组成的矩阵。
2)求解各视角的低维表征Y(v)
观察模型(2)可以发现,不同视角的低维表征可以单独优化,固定变量Y*(v),关于Y(v),优化问题(2)退化为如下的优化问题:
该问题亦为典型的特征值分解问题,即Y(v)的最优解为矩阵(λY*Y*T-L(v))最大的c个特征值对应的特征向量构成的矩阵。
3)求解视角鉴别因子ω(v)
同样地,固定Y(v),Y*,模型(2)退化为下式:
其中γ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T))。在变量Y(v),Y*固定的情形下,γ(v)为固定值,该优化问题的解为
通过迭代地对以上变量进行求解,我们得到模型(2)的逼近解,迭代过程总结为算法1:
综上,本发明的具体实施步骤:
对于任意的多视角聚类问题,包括样本完全对应的完备多视角数据和任意缺失情形的不完备多视角数据,首先归一化各视角中的样本实例,构建并补全各视角的仿射图,然后学习各视角间一致的低维表征,最后归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。下面具体描述该发明实施过程的步骤细节:
步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;
步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;
步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。
步骤1,多视角仿射图的构建及补全步骤包括:
(1)特征抽取和归一化步骤:针对包含多个视角的聚类任务,首先灵活地提取目标事物的多种特征,并将每种特征视为一个视角。例如针对网页数据,可以提取其内容和其超链接信息视为该聚类任务的两个视角,亦可提取其文字内容和图片内容视为其两个视角。对于图像数据的聚类,可以将原始图像的元素作为特征,同时提取其HOG特征等作为该任务的其他视角。用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;
(2)各视角仿射图的构建及填补校正步骤:
首先,在各视角X(v)中利用式构建仿射图W(v)
其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;
最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。
步骤2,学习各视角间一致的低维表征步骤包括:
变量初始化步骤:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v)(v)求取;
迭代第一步:更新全局低维表征Y*。具体来说,首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征
迭代第二步:更新各视角的低维表征Y(v)(v=1,...,l)。具体来说,针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征
迭代第三步:更新各视角的权重鉴别因子ω(v)(v=1,...,l)。具体来说,针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中γ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));
判断收敛条件步骤:计算当前第t次迭代目标函数值若迭代次数较少(迭代次数小于设定值),如t≤5则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,如|Lt-Lt-1|<10-5,则终止迭代,输出一致低维表征Y*;否则不断迭代,直到满足收敛条件,或者迭代次数超过预设最大值,如t>100强制终止迭代,输出全局低维表征Y*
在步骤3,聚类步骤中:将步骤2学习得到的低维表征Y*的第i行可视作第i个样本的低维表征,首先归一化每行为单位向量,然后利用传统的单视角聚类方法(如k-means)将n个样本划分为c个簇,即可得到样本聚类结果。
本发明还公开了一种基于图补全和自适应视角权重分配的不完备多视角聚类装置,包括:
多视角仿射图的构建及补全单元:用于归一化各视角中的样本实例,构建并补全各视角的仿射图;
学习各视角间一致的低维表征单元:用于迭代求取各视角间一致的低维表征;
聚类单元:用于归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。
多视角仿射图的构建及补全单元包括:
特征抽取和归一化模块:提取目标事物的多种特征,并将每种特征视为一个视角:用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;
各视角仿射图的构建及填补校正模块:
首先,在各视角X(v)中利用式构建仿射图W(v)
其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;
最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。
学习各视角间一致的低维表征模块包括:
变量初始化模块:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v)(v)求取;
迭代第一步:更新全局低维表征Y*。具体来说,首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征
迭代第二步:更新各视角的低维表征Y(v)(v=1,...,l)。具体来说,针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征
迭代第三步:更新各视角的权重鉴别因子ω(v)(v=1,...,l)。具体来说,针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中γ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));
判断收敛条件模块:用于计算当前第t次迭代目标函数值若迭代次数小于设定值,则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,则终止迭代,输出一致低维表征Y*;否则不断迭代,直到满足收敛条件,或者迭代次数超过预设最大值,强制终止迭代,输出全局低维表征Y*
在聚类单元中,低维表征Y*的第i行可视作第i个样本的低维表征,首先归一化每行为单位向量,然后利用传统的单视角聚类方法(如k-means)将n个样本划分为c个簇,从而得到样本聚类结果。
本发明还公开了一种基于图补全和自适应视角权重分配的不完备多视角聚类系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明属于机器学习领域,是一种针对视角不完备情形的多视角聚类新方法,具体为一种利用计算机技术、数字图像处理、文本信息处理等技术实现聚类的技术。本发明应用领域较为广泛,可用于各种具有多种特征维度的目标识别和聚类场景,如基于人脸、步态等多特征识别的安防系统、企业用户画像分析、搜索引擎二次聚类、文本主题聚类、蛋白质功能属性预测等。
本发明着重于捕捉数据的本质结构,并为每个视角自适应地分配不同权重,来平衡各视角在聚类学习中的作用。具体地,本发明通过共享视角的样本相似结构进行仿射图补全,然后在各视角补全的仿射图上实施联合谱聚类学习一致的子空间,以捕捉到数据的本质结构。同时,本发明提出自适应视角权重鉴别因子,来平衡各视角在子空间学习过程中的作用。总而言之,本发明通过相似图补全技术和视角权重鉴别因子的引入,有效地捕捉了数据的本质结构,提高了聚类性能。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于图补全和自适应视角权重分配的不完备多视角聚类方法,其特征在于,包括如下步骤:
步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;
步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;
步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。
2.根据权利要求1所述的不完备多视角聚类方法,其特征在于,步骤1,多视角仿射图的构建及补全步骤包括:
特征抽取和归一化步骤:提取目标事物的多种特征,并将每种特征视为一个视角:用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;
各视角仿射图的构建及填补校正步骤:
首先,在各视角X(v)中利用式构建仿射图W(v)
其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;
最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。
3.根据权利要求1所述的不完备多视角聚类方法,其特征在于,步骤2,学习各视角间一致的低维表征步骤包括:
变量初始化步骤:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v)(v)求取;
迭代第一步:首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征
迭代第二步:针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征
迭代第三步:针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中Υ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));
判断收敛条件步骤:计算当前第t次迭代目标函数值若迭代次数小于设定值,则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,则终止迭代,输出一致低维表征Y*;否则不断迭代,直到满足收敛条件,或者迭代次数超过预设最大值,强制终止迭代,输出全局低维表征Y*
4.根据权利要求1所述的不完备多视角聚类方法,其特征在于,在步骤3,聚类步骤中,低维表征Y*的第i行可视作第i个样本的低维表征,首先归一化每行为单位向量,然后利用传统的单视角聚类方法将n个样本划分为c个簇,从而得到样本聚类结果。
5.一种基于图补全和自适应视角权重分配的不完备多视角聚类装置,其特征在于,包括:
多视角仿射图的构建及补全单元:用于归一化各视角中的样本实例,构建并补全各视角的仿射图;
学习各视角间一致的低维表征单元:用于迭代求取各视角间一致的低维表征;
聚类单元:用于归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。
6.根据权利要求5所述的不完备多视角聚类装置,其特征在于,多视角仿射图的构建及补全单元包括:
特征抽取和归一化模块:提取目标事物的多种特征,并将每种特征视为一个视角:用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;
各视角仿射图的构建及填补校正模块:
首先,在各视角X(v)中利用式构建仿射图W(v)
其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;
最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。
7.根据权利要求5所述的不完备多视角聚类装置,其特征在于,学习各视角间一致的低维表征模块包括:
变量初始化模块:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v)(v)求取;
迭代第一步:首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征
迭代第二步:针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征Y(v),即
迭代第三步:针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中γ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));
判断收敛条件模块:用于计算当前第t次迭代目标函数值若迭代次数小于设定值,则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,则终止迭代,输出一致低维表征Y*;否则不断迭代,直到满足收敛条件,或者迭代次数超过预设最大值,强制终止迭代,输出全局低维表征Y*
8.根据权利要求4所述的不完备多视角聚类装置,其特征在于,在聚类单元中,低维表征Y*的第i行可视作第i个样本的低维表征,首先归一化每行为单位向量,然后利用传统的单视角聚类方法将n个样本划分为c个簇,从而得到样本聚类结果。
9.一种基于图补全和自适应视角权重分配的不完备多视角聚类系统,其特征在于:包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-4中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-4中任一项所述的方法的步骤。
CN201910446754.2A 2019-05-27 2019-05-27 基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质 Pending CN110135520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910446754.2A CN110135520A (zh) 2019-05-27 2019-05-27 基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910446754.2A CN110135520A (zh) 2019-05-27 2019-05-27 基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN110135520A true CN110135520A (zh) 2019-08-16

Family

ID=67582214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910446754.2A Pending CN110135520A (zh) 2019-05-27 2019-05-27 基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110135520A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046745A (zh) * 2019-11-20 2020-04-21 北京工业大学 基于软块对角的多视聚类方法
CN113128600A (zh) * 2021-04-23 2021-07-16 湖北珞珈环创科技有限公司 一种结构化深度非完整多视角聚类方法
CN113887591A (zh) * 2021-09-22 2022-01-04 大连理工大学 基于双层加权联合分解的多视角聚类方法
CN113901921A (zh) * 2021-10-11 2022-01-07 郑州大学 一种综合双重联系的多视角信息瓶颈聚类算法
CN116415121A (zh) * 2021-12-24 2023-07-11 江南大学 一种基于不完整多视角聚类的金融缺失数据填补方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784318A (zh) * 2017-09-12 2018-03-09 天津大学 一种应用于多视角聚类的鲁棒性相似图表示的学习方法
CN109002854A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于隐表示和自适应的多视图子空间聚类方法
CN109255726A (zh) * 2018-09-07 2019-01-22 中国电建集团华东勘测设计研究院有限公司 一种混合智能技术的超短期风功率预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784318A (zh) * 2017-09-12 2018-03-09 天津大学 一种应用于多视角聚类的鲁棒性相似图表示的学习方法
CN109002854A (zh) * 2018-07-20 2018-12-14 西安电子科技大学 基于隐表示和自适应的多视图子空间聚类方法
CN109255726A (zh) * 2018-09-07 2019-01-22 中国电建集团华东勘测设计研究院有限公司 一种混合智能技术的超短期风功率预测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046745A (zh) * 2019-11-20 2020-04-21 北京工业大学 基于软块对角的多视聚类方法
CN111046745B (zh) * 2019-11-20 2023-08-04 北京工业大学 基于软块对角的多视聚类方法
CN113128600A (zh) * 2021-04-23 2021-07-16 湖北珞珈环创科技有限公司 一种结构化深度非完整多视角聚类方法
CN113128600B (zh) * 2021-04-23 2024-02-23 湖北珞珈环创科技有限公司 一种结构化深度非完整多视角聚类方法
CN113887591A (zh) * 2021-09-22 2022-01-04 大连理工大学 基于双层加权联合分解的多视角聚类方法
CN113901921A (zh) * 2021-10-11 2022-01-07 郑州大学 一种综合双重联系的多视角信息瓶颈聚类算法
CN116415121A (zh) * 2021-12-24 2023-07-11 江南大学 一种基于不完整多视角聚类的金融缺失数据填补方法
CN116415121B (zh) * 2021-12-24 2024-04-19 江南大学 一种基于不完整多视角聚类的金融缺失数据填补方法

Similar Documents

Publication Publication Date Title
CN110135520A (zh) 基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Lu et al. Learning optimal seeds for diffusion-based salient object detection
CN107194341B (zh) Maxout多卷积神经网络融合人脸识别方法和系统
CN107766850B (zh) 基于结合人脸属性信息的人脸识别方法
CN105760821B (zh) 基于核空间的分类聚集稀疏表示的人脸识别方法
CN104657718B (zh) 一种基于人脸图像特征极限学习机的人脸识别方法
CN106897669B (zh) 一种基于一致迭代多视角迁移学习的行人再辨识方法
CN105678231A (zh) 一种基于稀疏编码和神经网络的行人图片检测方法
CN110781766B (zh) 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法
CN106295694A (zh) 一种迭代重约束组稀疏表示分类的人脸识别方法
CN107480623B (zh) 基于协作表示的近邻保持人脸识别方法
CN102982322A (zh) 基于pca图像重构和lda的人脸识别方法
CN109376787B (zh) 流形学习网络及基于其的计算机视觉图像集分类方法
CN107092931B (zh) 一种奶牛个体识别的方法
CN109492625A (zh) 一种基于宽度学习的人脸识别考勤方法
CN101515328B (zh) 一种用于鉴别具有统计不相关性的局部保持投影方法
CN109344856B (zh) 一种基于多层判别式特征学习的脱机签名鉴别方法
CN104881852B (zh) 基于免疫克隆和模糊核聚类的图像分割方法
CN110516533A (zh) 一种基于深度度量的行人再辨识方法
CN106599833B (zh) 一种基于领域适应和流形距离度量的人脸识别方法
CN104091181A (zh) 基于深度受限玻尔兹曼机的害虫图像自动识别方法及系统
Chen et al. Agricultural remote sensing image cultivated land extraction technology based on deep learning
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
Cui et al. Face recognition via convolutional neural networks and siamese neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination