CN114118299A

CN114118299A - 一种结合相似性度量和社区发现的聚类方法

Info

Publication number: CN114118299A
Application number: CN202111506676.4A
Authority: CN
Inventors: 吕欣; 蔡梦思; 谭索怡; 宋兵; 谭跃进
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-01

Abstract

本发明公开了一种结合相似性度量和社区发现的聚类方法，所述聚类方法首先采用改进的

指数计算每两个数据对象之间的相似度，然后筛选出相似度较高的数据对象构建相似性网络，在此基础上利用社区发现算法对该网络进行社区划分，最终得到若干个聚类簇。该算法创新性地拓展了复杂网络理论与方法在数据聚类中的应用，能够明显提升聚类效果，帮助发现数据内部隐藏的结构和关系，并通过网络社区划分的形式对聚类结果进行有效且直观的可视化展示。

Description

一种结合相似性度量和社区发现的聚类方法

技术领域

本发明属于信息处理技术领域，涉及一种结合相似性度量和社区发现的聚类方法。

背景技术

随着信息技术的发展和全球化进程的深化，社会系统的复杂性特征日益凸显，在生物、经济、社会等多个领域，采用聚类算法快速地从无规律的、错综复杂的数据集中挖掘潜在的分布特征，是我们进一步认识世界、了解事物、分析行为等的重要手段。对此，将相似度高的数据准确地归到一个数据簇，相似性低的数据放到不同类簇中，并对不同数据簇之间的关系进行可视化展示，是分析数据内部的结构和规律所需要解决的关键问题。

发明内容

本发明为了解决上述问题，提出了一种结合相似性度量和社区发现的聚类方法，该聚类方法的模块化程度较高，在实际应用中具有良好的可扩展性，可以适应不同的应用场景，实现多样化的聚类目标。

所述聚类方法具体为：

获取包含n个数据对象的数据集X＝{x₁，x₂，...，x_n}，采用相似度算法计算每两个数据对象之间的相似度s(x_i，x′_i)，其中x_i≠x′_i，得到关于数据集X中n个数据对象所构成的

个数据对之间的相似度集合；

将所述相似度集合中的数据对按照相似度s(x_i，x′_i)进行排列，得到相似度阈值，所述相似度阈值为能够覆盖所有数据对象的最大相似度；

筛选出所述相似度集合中满足相似度s(x_i，x′_i)大于等于所述相似度阈值的p条数据，p大于0，将所述p条数据中包含的所有数据对象作为节点，每个数据对之间构建一条边，数据对的相似度s(x_i，x′_i)作为边的权重，构建相似性网络，得到一个节点数量为n，边数量为p的加权相似性网络G；

对所述加权相似性网络G采用社区发现算法得到基于节点间相似度的社区划分结果，相似度高的数据对象被划分到同一类簇，相似度低的数据对象被划分到不同类簇。

上述方法包括相似度计算、相似度阈值计算、相似性网络构建、网络社区划分等四个高内聚低耦合的主要步骤，模块化程度较高，能够明显提升聚类效果，帮助发现数据内部隐藏的结构和关系。

进一步的，所述相似度算法采用改进的

指数来计算，使用改进的

指数算法时，其相似度s(x_i，x′_i)计算公式为：

其中，每个数据对象具有m个属性特征，k_i1，k_i2，...，k_im为属性特征，x_i＝{k_i1，k_i2，...，k_im}，x_j为x′_i。

进一步的，所述社区发现算法采用Louvain社区发现算法，包括可以迭代执行的两个阶段，第一阶段：初始化每个节点为一个唯一的社区，然后按照预先设定的规则将这些节点划分到各个社区中，第二阶段：将第一阶段得到的社区整合为新节点，每个新节点对应一个社区，构造新的加权网络图，待新的加权网络构造完成后，运用第一阶段的方法继续处理所述新的加权网络，多次迭代执行两个阶段直到总的模块度值Q达到最大，得到最终的社区划分结果。

所述预先设定的规则为，针对每一个节点i，计算将所述节点i移动到其他节点所在社区对应的模块度增量ΔQ，并将节点i移动到模块度增量最大的邻居社区中，直到任何节点都不能移动以增加总的模块度值Q时，进入第二阶段。

将节点i移动到社区C所对应的模块度增量ΔQ计算公式为：

其中，∑_in表示社区C中所有边的权重之和，∑_tot表示与社区C中节点相连的边的权重之和，k_i表示与节点i相连的边的权重之和，k_i，in表示连接节点i与社区C中节点的边的权重之和，m表示该网络中所有边的权重之和。

所述总的模块度值Q的计算公式为：

其中，A_ij表示节点i和j之间的边的权重，k_i＝∑_jA_ij表示指向节点i的边的权重之和，c_i代表节点i所在的社区，若c_i＝c_j，则δ函数的值为1，否则δ函数的值为0，

进一步的，在上述方法中，得到相似度阈值还可以为将所述相似度集合中的数据对按照相似度s(x_i，x′_i)进行降序排列，顺序遍历所述相似度集合中的数据，直到找到所述相似度阈值。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述聚类方法的步骤。

本发明的有益效果为：该算法创新性地拓展了复杂网络理论与方法在数据聚类中的应用，能够明显提升聚类效果，帮助发现数据内部隐藏的结构和关系，并通过网络社区划分的形式对聚类结果进行有效且直观的可视化展示。本发明的方法在实际应用中该算法具有良好的可扩展性，除了使用本发明中提到的改进的

指数，还可以采用余弦相似度、Jaccard相似度等其他相似性指标来计算数据对象间的相似度，除了使用Louvain社区发现算法，还可以采用Newman快速算法、Infomap、GN、Multilevel等其他社区发现算法来进行网络社区划分，以适应不同的应用场景，实现多样化的聚类目标。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为结合相似性度量和社区发现的聚类方法流程示意图。

图2为采用网络社区划分展示的聚类结果。

图3为采用主成分分析进行降维展示的聚类结果。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

本发明的聚类方法流程示意图如图1所示，具体步骤为：

第一步，计算每两个数据对象之间的相似度。

给定任意数值型数据集X＝{x₁，x₂，...，x_n}为n个数据对象的集合，每个数据对象具有m个属性特征，即任意x_i＝{k_i1，k_i2，...，k_im}，采用改进的

指数计算每两个数据对象(用x_i和x_j表示)之间的相似度，记为s(x_i，x_j)，计算公式为：

指数也称为

相似系数，是一种用于比较两个样本相似度的统计量。与欧几里得距离相比，

距离在更异构的数据集中保留了敏感性，并且对异常值的权重较小。

除了使用改进的

指数，还可以采用余弦相似度、Jaccard相似度等其他相似性指标来计算数据对象间的相似度。

第二步，计算覆盖所有数据对象的相似度阈值。

由第一步可得到关于数据集X中n个数据对象所构成的

个数据对之间的相似度集合，记为

则

基于此，将S^X中的数据对按照相似度s(x_i，x′_i)降序排列，顺序遍历S^X中的数据，直到找到能够覆盖所有数据对象的最大相似度，即相似度阈值，记为s_threshold，使S^X中s(x_i，x′_i)≥s_threshold的数据对刚好覆盖数据集X中的所有数据对象。

相似度阈值s_threshold的具体计算步骤如下：

第三步，根据相似度阈值选择满足条件的数据对象构建相似性网络。

筛选出相似度集合S^X中满足s(x_i，x′_i)≥s_threshold的p条数据，记为

将

中包含的所有数据对象作为节点，每个数据对之间构建一条边，数据对的相似度s(x_i，x′_i)作为边的权重，构建相似性网络G＝(V，E)，其中，V表示所有节点(数据对象)的集合，E表示所有边(数据对关系)的集合，由此，得到一个节点数量为n，边数量为p的加权相似性网络，即|V|＝n，|E|＝p。

第四步，采用社区发现算法对相似性网络进行社区划分。

针对包含n个节点(即数据对象)的加权相似性网络G，相似度较高的节点间存在连边，且节点间的相似度越高其连边的权值越大，采用Louvain社区发现算法得到基于节点间相似度的社区划分结果，使同一社区中的节点连接紧密(即节点间相似度较高)，不同社区间节点连接稀疏(即节点间相似度较低)，从而达到数据聚类效果。由此，不同社区代表不同的类簇，相似度高的数据对象被划分到同一类簇，相似度低的数据对象被划分到不同类簇。

Louvain社区发现算法主要包括可以迭代执行的两个阶段：

第一阶段：首先初始化每个节点为一个唯一的社区，然后按照一定的规则将这些节点划分到各个社区中。具体地，针对每一个节点i，计算将其移动到其他节点所在社区对应的模块度增量ΔQ，并将节点i移动到模块度增量最大的邻居社区中(此处要求最大模块化增量必须为正值，若为负值，则节点i保持在原社区不动；若有多个相同的最大模块化增量值，则将节点i移动到任意其中一个社区)，直到任何节点都不能移动以增加总的模块度值Q时，进入下一阶段。

将节点i移动到社区C所对应的模块度增量ΔQ计算公式为，

网络的总的模块度值Q的计算公式为：

式中，A_ij表示节点i和j之间的边的权重，k_i＝∑_jA_ij表示指向节点i的边的权重之和，c_i代表节点i所在的社区，若c_i＝c_j，则δ函数的值为1，否则δ函数的值为0，

第二阶段：将第一阶段得到的社区整合为新的“节点”，每个“节点”对应一个社区，构造新的加权网络图。在新的加权网络图中，新节点为第一阶段的各个社区，社区与社区之间的连边数量之和构成新节点之间的边权重，社区内部的连边则构成新节点的自环边。待新的加权网络构造完成后，运用第一阶段的方法继续处理该加权网络。

上述两个阶段可以继续迭代执行，直到总的模块度值Q达到最大，此时，得到最终的社区划分结果，每个社区代表一个类簇。

实验验证：

利用UCI数据集中的Wine数据集对本文所提新聚类算法进行验证，数据下载链接为https：//archive.ics.uci.edu/ml/datasets/Wine。如表1所示，该数据集包含178款葡萄酒的数据，每种葡萄酒包含13个特征属性，即alcohol(酒精)、malic acid(苹果酸)、ash(灰烬)、alcalinityofash(灰的碱度)、magnesium(镁)、total phenols(总酚)、flavanoids(类黄酮)、nonflavanoid phenols(非黄酮类酚类)、proanthocyanins(原华青素)、colorintensity(颜色强度)、hue(色调)、OD280/OD315 ofdilutedwines(稀释葡萄酒的OD280/OD315)和proline(脯氨酸)。该数据集为已标注数据集，178款葡萄酒被划分为3个类别，分别为类别1、类别2和类别3，其中类别1包含59款葡萄酒，类别2包含71款葡萄酒，类别3包含48款葡萄酒。

表1Wine数据集描述

样本数	属性数量/维数	类别数
			178	13	3

使用本发明所提新聚类算法对Wine数据集中的178个数据对象(即葡萄酒)进行聚类分析时，首先采用改进的

指数计算每两个数据对之间的相似度，并得出覆盖所有数据对象的相似度阈值为s_threshold＝0.8578，然后根据该阈值共筛选出5545对数据对构建出一个包含178个节点和5545条边的相似性网络后，采用Louvain社区发现算法共得到3个类簇。最后，采用聚类准确率(Clustering Accuracy，CA)、F值(F1 score)、归一化互信息(Normalized Mutual Information，NMI)来评价聚类效果，并与传统的K-means聚类算法得到的结果进行比较，得到验证结果如表2所示。由表可见，本发明所提结合相似性度量和社区发现的新聚类算法的聚类效果显著，准确度明显高于K-means算法。

表2验证结果

聚类算法	CA	F值	NMI
				K-means	0.702	0.703	0.429
本发明所提方法	0.933	0.935	0.801

聚类结果的可视化展示效果如图2所示，节点表示数据对象，边表示节点对之间的相似度大于s_threshold边的粗细与边权重(即节点间的相似度)成正比，不同的颜色代表本发明所提方法得到的聚类结果(共3类)，节点内部的数值表示该节点的原始类别(共3类)。由该图可见，本文所提聚类算法能够达到非常好的聚类效果，仅类别1和类别3中分别有9个和3个数据对象被错误地划分到了类别2中。与此同时，与传统的基于降维的聚类结果可视化展示方式相比(如图3所示的采用主成分分析进行降维展示的聚类结果，其中X为主成分1，Y为主成分2)，本算法通过网络社区划分的方式可以更直观且清晰地展示出各数据对象之间的相似性关系，为聚类结果的可视化呈现提供了一种有效且独特的新视角和新途径。

依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种结合相似性度量和社区发现的聚类方法，其特征在于，所述方法包括：

个数据对之间的相似度集合；

2.根据权利要求1所述的聚类方法，其特征在于，所述相似度算法采用改进的

指数来计算。

3.根据权利要求2所述的聚类方法，其特征在于，所述相似度s(x_i，x′_i)计算公式为：

4.根据权利要求1所述的聚类方法，其特征在于，所述社区发现算法采用Louvain社区发现算法。

5.根据权利要求4所述的聚类方法，其特征在于，所述Louvain社区发现算法包括可以迭代执行的两个阶段，第一阶段：初始化每个节点为一个唯一的社区，然后按照预先设定的规则将这些节点划分到各个社区中，第二阶段：将第一阶段得到的社区整合为新节点，每个新节点对应一个社区，构造新的加权网络图，待新的加权网络构造完成后，运用第一阶段的方法继续处理所述新的加权网络，多次迭代执行两个阶段直到总的模块度值Q达到最大，得到最终的社区划分结果。

6.根据权利要求5所述的聚类方法，其特征在于，所述预先设定的规则为，针对每一个节点i，计算将所述节点i移动到其他节点所在社区对应的模块度增量ΔQ，并将节点i移动到模块度增量最大的邻居社区中，直到任何节点都不能移动以增加总的模块度值Q时，进入第二阶段。

7.根据权利要求6所述的聚类方法，其特征在于，将节点i移动到社区C所对应的模块度增量ΔQ计算公式为：

8.根据权利要求6所述的聚类方法，其特征在于，所述总的模块度值Q的计算公式为：

9.根据权利要求1-8所述的聚类方法，其特征在于，将所述相似度集合中的数据对按照相似度s(x_i，x′_i)进行降序排列，顺序遍历所述相似度集合中的数据，直到找到所述相似度阈值。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述聚类方法的步骤。