CN106203471A - 一种基于融合Kendall Tau距离度量的谱聚类方法 - Google Patents

一种基于融合Kendall Tau距离度量的谱聚类方法 Download PDF

Info

Publication number
CN106203471A
CN106203471A CN201610478805.6A CN201610478805A CN106203471A CN 106203471 A CN106203471 A CN 106203471A CN 201610478805 A CN201610478805 A CN 201610478805A CN 106203471 A CN106203471 A CN 106203471A
Authority
CN
China
Prior art keywords
sample
distance
spectral clustering
kendall tau
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610478805.6A
Other languages
English (en)
Inventor
张道强
光俊叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201610478805.6A priority Critical patent/CN106203471A/zh
Publication of CN106203471A publication Critical patent/CN106203471A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于融合Kendall Tau距离度量的谱聚类方法。谱聚类方法在聚类分析问题中已经得到了广泛应用。但是现存的谱聚类算法中,一般只使用传统的欧几里得距离来度量样本之间的相似性,忽略了样本之间有用的近邻信息等。于是,本发明提供了一种新的基于混合Kendall Tau距离度量的谱聚类方法。首先,本发明提供了一种新的距离度量方法,这种方法以一种非线性的方式融合了欧几里得距离和Kendall Tau距离,实现了从多个角度综合挖掘样本之间底层结构信息的目标,得到样本之间加强之后的相似性度量结果。然后,将新的相似性度量结果应用到谱聚类算法中,进行聚类分析。本发明提供的方法能够更加全面地反映样本之间的结构性信息,并提高谱聚类算法的聚类精度。

Description

一种基于融合Kendall Tau距离度量的谱聚类方法
一、技术领域
本发明涉及一种基于融合Kendall Tau距离度量的谱聚类方法,涉及到距离度量、相似性融合、谱聚类分析等方面,旨在通过对样本之间距离度量方法的改善,进而谱聚类算法的聚类精度,多应用于数据挖掘领域。
二、背景技术
随着信息化时代的迅速发展,大数据以及与其相关的数据分析受到了越来越多的关注。为了从海量数据中挖掘出有用的信息,数据分析探索中最常使用的技术之一---聚类分析再次成为了各界讨论的焦点。目前,聚类分析已经在诸如商务智能、图像处理、网页搜索、生物学和安全保障等领域得到了成功地应用。近年来,谱聚类成为了当今最受欢迎的聚类算法之一,是国际机器学习领域一个新的研究热点。
谱聚类算法建立在谱图理论的基础上,与传统的聚类算法,如:K-means、期望最大化(EM)算法相比,它具有能够在任意形状的样本空间上聚类且收敛于全局最优解的优点。近年来,有很多学者在研究谱聚类算法。其中一些学者的研究着重于在特定条件下优化谱聚类算法以期望算法在特定的场合下获得更加优越的效果,如:X.Wang等人提出的带约束性的谱聚类以及应用,Rohe等人研究的谱聚类和高维随机块模型,A.Kumar等人提出的多视图谱聚类的联合训练法,W.Chen等人提出的在分布式环境中的谱聚类算法的应用,Smith等人提出的谱聚类在疫情扩散情景中的应用等。另一些学者则希望获取一个最佳参数从而更加合理地计算数据样本点之间的相似性,如:L.Li等人提出的在子空间的谱聚类算法的跳跃线性模型的参数估计,Dhanjal等人提出的高效率更新特征值的谱聚类方法。谱聚类的成功应用一方面说明该算法对聚类数据集的原始分布没有严格的限制和过多的假设,另一方面也说明对谱聚类进行研究和改进具有重要意义。
距离度量对聚类来说非常重要。传统的距离度量一般采用欧几里得距离。但是用欧氏距离计算两个样本之间的相似性时,一般只考虑这两个样本之间的距离信息。但现实世界中,事物之间的联系是错综复杂的,仅仅考虑两个样本之间的欧氏距离是不够全面的。近年来,很多学者研究新的距离度量方法来评估数据样本点之间的相似性。但是不同的距离度量可能产生完全不同的聚类结果,那么在实际应用中到底应该选择哪种度量方法呢?
本发明基于上述问题,提出一种新的基于融合Kendall Tau距离的谱聚类方法。该方法首先融合了传统的具有局部性质的欧几里得距离和就我们所知,还没有应用到聚类分析的距离度量的新的具有全性质的Kendall Tau距离。然后将新的距离度量方法构建的相似性矩阵应用到谱聚类中,可以有效提高聚类精度。
三、发明内容
为解决传统谱聚类算法中普遍使用欧几里得距离,一般只考虑这两个样本之间的距离信息而忽略周围其他样本信息的问题,本发明提出一种新的基于融合Kendall Tau距离的谱聚类方法,具体步骤如下:
(1)计算样本之间的欧几里得距离和Kendall Tau距离
欧几里得距离是使用最为广泛、最简单的距离度量,而且具有平移和旋转不变性。Kendall Tau距离一般可以用来测量两个由相同元素组成,只是元素的排列顺序不同的两个序列之间的相关性。假设有两个这样的序列:L1=(L11,L21,...,Ln1)和L2=(L12,L22,...,Ln2),序列中的元素为1到N的整数。那么这两个序列之间的差异性可以被定义为:
KT(L1,L2)=|{(i,j):i<j,(Li1<Lj1∧Li2>Lj2)or(Li1>Lj1∧Li2<Lj2)}| (1)
公式(1)中的Li1和Li2分别表示第i个样本在L1和L2两个序列中的排列次序。符号|·|表示一个集合中的元素数量。如果两个序列中的元素的排列次数是完全相同的,那么K(L1,L2)=0。如果两个序列中的元素的排列次数是完全不同的,那么K(L1,L2)=n(n-1)/2。为了方便计算,可以将Kendall Tau距离除以n(n-1)/2进行归一化处理。这样Kendall Tau距离应该在区间[0,1]。本发明中所提到的Kendall Tau距离都是归一化之后的距离。
具体的,在本发明提供的方法中,使用样本之间的欧几里得距离对样本进行排序,这样每一个样本对可以得到两个以其余样本为元素,但是排列顺序不一定相同的两个序列,然后可以计算得到两个序列之间的相似度,最后将这个相似度定义为该样本对之间的Kendall Tau距离;
(2)利用欧几里得距离和Kendall Tau距离分别计算对应的相似性矩阵
计算对应的相似性矩阵时,本发明提供的方法中使用高斯核函数来计算样本之间的相似性,但是其中的σ核函数是自适应的;
(3)通过非线性的迭代更新方法计算融合的相似性矩阵
不同的距离度量方法可以从不同的角度挖掘数据之间的结构信息,那么把多种方法融合应该可以实现从多个角度反映数据之间的综合性结构信息,更有利于后续的数据分析。距离度量方法的融合可以从多个角度反映数据结构信息,相比较线性融合方法对权重系数的敏感性,非线性融合不需要设置不同度量方法的权重,可以通过迭代更新的方法逐步加强数据之间的强关联性,弱化弱关联性;
(4)将相似性矩阵作为输入,进行谱聚类分析
构建的相似性矩阵作为输入,进行谱聚类分析。
本发明提供的方法能够更加全面地反映样本之间的结构性信息,而且不容易受噪声数据的影响,并提高谱聚类算法的聚类精度。
四、附图说明
附图1基于融合Kendall Tau距离的谱聚类方法流程图
五、具体实施方式
下面将结合附图对本发明的技术内容作进一步说明,本具体实施方式中实验数据均来自UCI标准数据库中的真实数据集。
附图1展示了本发明提到的基于融合Kendall Tau距离的谱聚类方法的具体流程图,包括如下步骤:
第一步,计算样本之间的欧几里得距离和Kendall Tau距离。
给定样本X={x1,x2,..,xn}∈RD,那么样本xi和xj之间的欧几里得距离为:
公式(2)中xim表示第i个样本的第m个属性。距离矩阵E是一个对称矩阵。将矩阵的第i列中的除了Ei,i和Ej,i之外到的元素进行排序,可以得到一个序列:Listi=(List1i,List2i,...,Listmi,...,Listni)m≠i;m≠j,其中Listmi表示样本xi和xm之间的距离在与其余样本相比的情况下的排列次序。同样的方法,我们也可以得到Listj。然后我们计算序列Listi和Listj之间的Kendall Tau距离,并将其定义为样本xi和xj之间的Kendall Tau距离:
这样我们得到了一个对称的Kendall Tau距离矩阵KT。
第二步,利用欧几里得距离和Kendall Tau距离分别计算对应的相似性矩阵。
样本之间的相似性与它们之间的距离是成负相关的。本发明提供的方法中使用高斯核函数来计算样本之间的相似性。样本xi和xj之间,基于欧几里得距离的相似性可以定义为:
公式(4)中的εij是一个自适应的高斯函数,具体定义为:
其中,mean(d(xi,Ni))表示样本xi和它的近邻之间的距离的平均值。
基于Kendall Tau距离的相似性可以定义为:
第三步,通过非线性的迭代更新方法计算融合的相似性矩阵。
基于欧几里得距离的相似性矩阵可以反映样本对之间的几何信息,基于KendallTau距离的相似性矩阵可以反映样本对之间的拓扑信息。为了避免仅仅使用一种度量方法得到的相似性的不完整性,本发明提出的方法使用一种基于消息传递原理的非线性迭代更新融合方法。为了计算融合的加强型相 似性矩阵,首先需要为每种度量方法定义两个相似性矩阵,一个是归一化的全局性相似性矩阵,一个是稀疏化的局部性相似性矩阵。
基于欧几里得距离的全局性相似性矩阵定义为:
假定KNN(xi)表示样本xi的近邻。本发明方法中使用K近邻方法计算稀疏的近邻矩阵。那么基于欧几里得距离的局部性相似性矩阵定义为:
同样的方法,可以将基于Kendall Tau距离的全局性相似性矩阵定义为:
基于Kendall Tau距离的局部性相似性矩阵定义为:
接着,使得作为初始状态,相似性融合的关键性步骤如下:
这样,是经过h步迭代之后的基于欧几里得距离的相似性矩阵,是经过h步迭代之后的基于Kendall Tau距离的相似性矩阵。经过h步迭代之后,可以得到一个最终的相似性矩阵W定义为:
因为局部性相似性矩阵使用了KNN局部性信息,可以减少噪声的影响。这样融合之后得到的相似性矩阵对噪声是鲁棒的。
第四步,将相似性矩阵作为输入,进行谱聚类分析。
得到融合之后的加强型相似性矩阵W,可以将其作为输入,应用到谱聚类分析中。接下来的步骤如下:
(1)计算拉普拉斯矩阵L=D-1/2WD-1/2,其中D是一个对角矩阵,Dii=∑jwij
(2)对拉普拉斯矩阵进行特征值分解,找到其前k个最大的特征值对应的特征向量,然后构造一个n×k的矩阵U;
(3)对矩阵U的行向量进行再归一化,得到矩阵V;
(4)把矩阵V的每一行看作一个样本,然后将这些样本用K-means算法进行聚类;
(5)最后,把最初的样本xi划分为第j个聚类当且仅当矩阵V的第i行被划分为第j个聚类。
为了验证本发明提出方法的有效性,结合本发明的实施方案进行实验分析,将所提方法与三种方法,也就是K-means、传统谱聚类和基于单一Kendall Tau距离的谱聚类方法进行对比。验证数据集为UCI标准数据集,如表1所示。
表1 UCI数据集描述
通过对比实验的聚类精度结果可知,经过融合的距离度量方法确实有效,使得聚类性能得到了提升,验证了本发明提出的聚类方法有效。

Claims (5)

1.一种基于融合Kendall Tau距离度量的谱聚类方法,其特征在于,包括如下步骤:
步骤一、计算样本之间的欧几里得距离和Kendall Tau距离;
步骤二、利用欧几里得距离和Kendall Tau距离分别计算对应的相似性矩阵;
步骤三、通过非线性的迭代更新方法计算融合的相似性矩阵;
步骤四、将相似性矩阵作为输入,进行谱聚类分析。
2.根据权利要求1所述的一种基于融合Kendall Tau距离度量的谱聚类方法,其特征在于:所述步骤一中,计算样本之间的欧几里得距离和Kendall Tau距离。欧几里得距离是使用最为广泛、最简单的距离度量,而且具有平移和旋转不变性。Kendall Tau距离一般可以用来测量两个由相同元素组成,只是元素的排列顺序不同的两个序列之间的相关性。在本发明提供的方法中,使用样本之间的欧几里得距离对样本进行排序,这样每一个样本对可以得到两个以其余样本为元素,但是排列顺序不一定相同的两个序列,然后可以计算得到两个序列之间的相似度,最后将这个相似度定义为该样本对之间的Kendall Tau距离。
3.根据权利要求1所述的一种基于融合Kendall Tau距离度量的谱聚类方法,其特征在于:所述步骤二中,利用欧几里得距离和Kendall Tau距离分别计算对应的相似性矩阵时,本发明提供的方法中使用高斯核函数来计算样本之间的相似性,但是其中的σ核函数是自适应的。
4.根据权利要求1所述的一种基于融合Kendall Tau距离度量的谱聚类方法,其特征在于:所述步骤三中,计算融合的相似性矩阵时,采用非线性的迭代更新方法。距离度量方法的融合可以从多个角度反映数据结构信息,相比较线性融合方法对权重系数的敏感性,非线性融合不需要设置不同度量方法的权重,可以通过迭代更新的方法逐步加强数据之间的强关联性,弱化弱关联性。
5.根据权利要求1所述的一种基于融合Kendall Tau距离度量的谱聚类方法,其特征在于:所述步骤四中,将构建好的相似性矩阵作为输入,进行谱聚类分析。
CN201610478805.6A 2016-06-22 2016-06-22 一种基于融合Kendall Tau距离度量的谱聚类方法 Pending CN106203471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610478805.6A CN106203471A (zh) 2016-06-22 2016-06-22 一种基于融合Kendall Tau距离度量的谱聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610478805.6A CN106203471A (zh) 2016-06-22 2016-06-22 一种基于融合Kendall Tau距离度量的谱聚类方法

Publications (1)

Publication Number Publication Date
CN106203471A true CN106203471A (zh) 2016-12-07

Family

ID=57461958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610478805.6A Pending CN106203471A (zh) 2016-06-22 2016-06-22 一种基于融合Kendall Tau距离度量的谱聚类方法

Country Status (1)

Country Link
CN (1) CN106203471A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778078A (zh) * 2016-12-20 2017-05-31 福建师范大学 基于kendall相关系数的DNA序列相似性比对方法
CN111009285A (zh) * 2019-05-28 2020-04-14 江南大学 一种基于相似性网络融合算法的生物数据网络处理方法
CN112348120A (zh) * 2020-12-01 2021-02-09 江苏南高智能装备创新中心有限公司 数控机床退化轨迹模式识别方法及装置
CN116052873A (zh) * 2023-01-18 2023-05-02 齐齐哈尔大学 一种基于权重k-近邻的疾病-代谢物关联预测系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778078A (zh) * 2016-12-20 2017-05-31 福建师范大学 基于kendall相关系数的DNA序列相似性比对方法
CN106778078B (zh) * 2016-12-20 2019-04-09 福建师范大学 基于kendall相关系数的DNA序列相似性比对方法
CN111009285A (zh) * 2019-05-28 2020-04-14 江南大学 一种基于相似性网络融合算法的生物数据网络处理方法
CN112348120A (zh) * 2020-12-01 2021-02-09 江苏南高智能装备创新中心有限公司 数控机床退化轨迹模式识别方法及装置
CN116052873A (zh) * 2023-01-18 2023-05-02 齐齐哈尔大学 一种基于权重k-近邻的疾病-代谢物关联预测系统
CN116052873B (zh) * 2023-01-18 2024-01-26 齐齐哈尔大学 一种基于权重k-近邻的疾病-代谢物关联预测系统

Similar Documents

Publication Publication Date Title
Jia et al. Label distribution learning with label correlations on local samples
Cao et al. Hyperspectral image classification with convolutional neural network and active learning
Rhee et al. Active and semi-supervised learning for object detection with imperfect data
US20220076150A1 (en) Method, apparatus and system for estimating causality among observed variables
Yin et al. Incomplete multi-view clustering via subspace learning
US7890512B2 (en) Automatic image annotation using semantic distance learning
JP5615931B2 (ja) クラスタ化方法およびシステム
Popat et al. Hierarchical document clustering based on cosine similarity measure
CN110362660A (zh) 一种基于知识图谱的电子产品质量自动检测方法
Cao et al. Towards information-theoretic k-means clustering for image indexing
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
US20140324864A1 (en) Graph matching by sub-graph grouping and indexing
Li et al. Multi-label learning from crowds
CN106203471A (zh) 一种基于融合Kendall Tau距离度量的谱聚类方法
Liu et al. RGB-D joint modelling with scene geometric information for indoor semantic segmentation
Simran et al. Content based image retrieval using deep learning convolutional neural network
Liu et al. Neighbor selection for multilabel classification
Shao et al. Clustering on multi-source incomplete data via tensor modeling and factorization
Jia et al. A Feature Weighted Spectral Clustering Algorithm Based on Knowledge Entropy.
Zhang et al. l2, 1 norm regularized fisher criterion for optimal feature selection
Li et al. Symmetry discovery and retrieval of nonrigid 3D shapes using geodesic skeleton paths
Fang et al. Graph embedding framework for link prediction and vertex behavior modeling in temporal social networks
Wang et al. Joint global metric learning and local manifold preservation for scene recognition
Chang et al. Semantic clusters based manifold ranking for image retrieval
Shah 8 Computing Choice: Learning Distributions over Permutations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207