CN104281674B

CN104281674B - 一种基于集聚系数的自适应聚类方法及系统

Info

Publication number: CN104281674B
Application number: CN201410512802.0A
Authority: CN
Inventors: 蒋昌俊; 陈闳中; 闫春钢; 丁志军; 钟明洁; 孙海春
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2014-09-29
Filing date: 2014-09-29
Publication date: 2017-07-11
Anticipated expiration: 2034-09-29
Also published as: DE112014006756T5; WO2016049975A1; CN104281674A; US10037495B2; US20170278016A1

Abstract

本发明提供一种基于集聚系数的自适应聚类方法，包括：根据已提取出的数据点对的属类和每次提取出的数据点间的关联关系的大小以确定数据点归于哪个属类，属类数目，建立数据点间的关联关系和属类间的关联关系；对每个属类进行预分割，计算两个子类的类内相似度和两个子类的类间相似度，判断预分割的两个子类是否满足分割条件，若是，则接收预分割；若否，则取消预分割；计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度，判断两个属类是否满足合并条件，若是，则合并两个属类生成新的属类；若否，则放弃合并。本发明首次将类中数据点两两之间的关系考虑进来，基于集聚系数计算类内相似程度和类间相似程度，使之更精确地集聚数据。

Description

一种基于集聚系数的自适应聚类方法及系统

技术领域

本发明属于基于网络技术的文本分析技术领域，涉及一种基于网络技术的自适应聚类方法，特别是涉及一种基于集聚系数的自适应聚类方法及系统。

背景技术

现实世界数据的逐步网络化和虚拟化，使得网络上数据的数量迅猛增长。随着数据的不断积累，网络上面的数据隐含了大量固有知识，可以帮助人们完成数据分析、决策支持等一系列的智能应用。人们越来越渴望从这些大量的数据中获取信息和知识，便于揭示出隐含的，先前未知的并有潜在价值的信息。数据挖掘相关领域也再度成为当下热门的研究方向之一。聚类分析是数据挖掘中的一个很活跃的研究领域。简单来说，它是将物理或者抽象的对象集合进行分析，把特征相似的对象分到同一个类，而特征不相似的对象分到不同的类的过程。聚类算法在模式识别，智能搜索，生物信息和语义消歧等领域都发挥重大的作用。

目前已有许多聚类算法被提出。概述来讲，现有的聚类算法可以分为五类：划分方法，层次方法，基于密度的方法，基于网格的方法和基于模型的方法。大多数的聚类算法在考虑类内相似度时，只考虑类内其它元素和核心元素之间的相似度，或者考虑相邻元素之间的相似度，并没有考虑类中元素间两两之间的相似度，因此，现有的聚类算法无法更精确地将网络数据集聚。

因此，如何提供一种应用于计算机网络中基于集聚系数的自适应聚类方法及系统，以解决现有技术中在数据的聚类过程中仅考虑类内其它元素和核心元素之间的相似度，或者考虑相邻元素之间的相似度的聚类方法，而不存在考虑类中元素间两两之间的相似度的聚类算法，无法更精确地聚类数据的种种缺陷，实已成为本领域从业者亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于集聚系数的自适应聚类方法及系统，用于解决现有技术中在数据的聚类过程中仅考虑类内其它元素和核心元素之间的相似度，或者考虑相邻元素之间的相似度的聚类方法，而不存在考虑类中元素间两两之间的相似度的聚类算法，无法更精确地聚类数据的问题。

为实现上述目的及其他相关目的，本发明一方面提供一种基于集聚系数的自适应聚类方法，藉由多台服务器及客户端构建的计算机网络系统中，用于需要聚类的元素的集合，该集合中包括若干聚类对象集中的数据点，所述基于集聚系数的自适应聚类方法包括：初步聚类步骤，即获取若干聚类对象集中的数据点间的关联关系，获取适用于查找邻节点数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的分布曲线收敛速率；按照所述数据点间的关联关系的大小依次提取数据点对，根据已提取出的数据点对的属类和每次提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类，属类数目，并建立数据点间的关联关系和属类间的关联关系，直至处理完所有数据点以获取初步聚类结果；自学习聚类步骤，包括：分割步骤，即计算每个属类的类内相似度和计算每个属类中的数据点的局部集聚系数，将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比较，按照将每个属类分割成数据点的局部集聚系数大于等于类内相似度和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割，并计算两个子类的类内相似度和两个子类的类间相似度，判断预分割的两个子类是否满足分割条件，若是，则接收所述预分割，产生由多个属类组成的属类集合，并继续下一步步骤；若否，则取消所述预分割；查找步骤，在所述属类集合中查找具有关联关系的两个属类；合并步骤，即计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度，判断具有关联关系的两个属类是否满足合并条件，若是，则表示所述两个属类之间的关系密切，合并所述两个属类生成新的属类；若否，则表示所述两个属类之间的关系疏远，放弃合并。

可选地，所述基于集聚系数的自适应聚类方法中初步聚类步骤还包括：将若干聚类对象集中的数据点间的关联关系的分布信息进行统计，并根据统计的分布信息和采用所述曲线拟合技术获取关于若干聚类对象集中的数据点间的关联关系的曲线收敛速率；根据所述查找邻节点数目的最近邻算法统计所述数据点间的邻节点数目的分布信息，获取邻节点数目的确定值，判断所述数据点拥有邻节点数目大于所述邻节点数目的确定值的数据点是否大于预定数量，若是，则继续执行按照所述数据点间的关联关系的大小依次提取数据点对步骤；若否，则结束进程。

可选地，在所述分割步骤中还包括更新所述两个子类与其它属类之间的类间关联关系，删除所述两个子类原所属属类与其它属类之间的类间关联关系；在所述合并步骤中还包括更新生成的新的属类与其它属类之间的类间关联关系，删除所述两个属类与其它属类之间的类间关联关系。

可选地，在所述分割步骤中的两个子类包括子类A和子类B，计算两个子类A和B的类内相似度的公式分别为：其中，V_i表示数据点i，V_A表示子类A中数据点的集合，V_B表示子类B中数据点的集合，|V_A|表示子类A中数据点的数目，|V_B|表示子类B中数据点的数目，e_ij表示连接数据点i和数据点j的边，E_A表示子类A中边的集合，E_B表示子类B中边的集合，C(i)为数据点V_i的局部集聚系数，其中，V_j，V_k表示数据点j，k，N(i)表示数据点V_i的邻节点集合，E是边的集合，k_i表示N(i)的数目，e_jk表示连接数据点j和数据点k的边；计算两个子类A和子类B的类间相似度的公式分别为：其中，V_i表示数据点i，A'表示子类A和属于子类B并与子类A有关联关系的数据点的类，B'表示子类B和属于子类A并与子类B有关联关系的数据点的类，|V_A'|表示A'类中数据点的数目，|V_B'|表示类B'中数据点的数目，V_A表示子类A中数据点的集合，V_B表示子类B中数据点的集合，e_ij表示连接数据点i和数据点j的边，C(i)为数据点V_i的局部集聚系数，

可选地，所述分割条件为两个子类的类内相似度是否分别大于所述两个子类的类间相似度，即clu(A)＞assoc(A')，且clu(B)＞assoc(B')。

可选地，在所述合并过程中两个属类包括属类A1和属类A2，计算两个属类A1和属类A2的类内相似度的公式分别为：其中，V_i表示数据点i，V_A1表示属类A1中数据点的集合，V_A2表示属类A2中数据点的集合，|V_A1|表示属类A1中数据点的数目，|V_A2|表示属类A2中数据点的数目，e_ij表示连接数据点i和数据点j的边，E_A1表示属类A1中边的集合，E_A2表示属类A2中边的集合，C(i)为数据点V_i的局部集聚系数，其中，V_j，V_k表示数据点j，k，N(i)表示数据点V_i的邻节点集合，E是边的集合，k_i表示N(i)的数目，e_jk表示连接数据点j和数据点k的边；计算两个属类A1和属类A2的类间相似度的公式分别为：其中，V_i表示数据点i，A1'表示属类A1和属类A2并与属类A1有关联关系的数据点的属类，A2'表示属类A2和属类A1并与属类A2有关联关系的数据点的属类，|V_A1'|表示A1'属类中数据点的数目，|V_A2'|表示属类A2'中数据点的数目，V_A1表示属类A1中数据点的集合，V_A2表示属类A2中数据点的集合，e_ij表示连接数据点i和数据点j的边，C(i)为数据点V_i的局部集聚系数，

可选地，所述合并条件为两个属类的类间相似度是否分别大于等于所述两个属类的类内相似度，即clu(A1)≤assoc(A1')，且clu(A2)≤assoc(A2')。

可选地，按照所述数据点间的关联关系的大小依次提取数据点对的步骤还包括根据检测原则检测提取出的数据点对是否满足一属类的特征。

可选地，所述检测原则为：所述一属类中的数据点个数为n₁，属类内平均关系权重为avg(n₁)，提取出来的数据点与所述一属类中类内数据点之间的关系权重为w₁，所述一属类的平均关系权重收敛速率为若满足公式提取出来的数据点便能加入到所述一属类中；反之，不能加入。

本发明另一方面还提供一种基于集聚系数的自适应聚类系统，藉由多台服务器及客户端构建的计算机网络系统中，用于需要聚类的元素的集合，该集合中包括若干聚类对象集中的数据点，所述基于集聚系数的自适应聚类系统包括：初步聚类模块，用于完成初步聚类，所述初步聚类模块包括预处理单元和初步聚类单元，其中，所述预处理单元用于获取若干聚类对象集中的数据点间的关联关系，获取适用于查找邻节点数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的分布曲线收敛速率；所述初步聚类单元用于按照所述数据点间的关联关系的大小依次提取数据点对，根据已提取出的数据点对的属类和已提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类，属类数目，并建立数据点间的关联关系和属类间的关联关系，直至处理完所有数据点以获取初步聚类结果；自学习聚类模块，用于完成自学习聚类，所述自学习聚类模块包括第一计算单元、预分割单元、第一判断单元、查找单元、第二计算单元、第二判断单元、及合并单元；其中，所述第一计算单元用于计算每个属类的类内相似度和计算每个属类中的数据点的局部集聚系数，将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比较，调用所述预分割单元；所述预分割单元用于按照将每个属类分割成数据点的局部集聚系数大于等于类内相似度和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割，并计算两个子类的类内相似度和两个子类的类间相似度；所述第一判断单元用于判断预分割的两个子类是否满足分割条件，若是，则接收所述预分割，产生由多个属类组成的属类集合；若否，则取消所述预分割；所述查找单元，用于在所述属类集合中查找具有关联关系的两个属类；所述第二计算单元，用于计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度；所述第二判断单元用于判断具有关联关系的两个属类是否满足合并条件，若是，则表示所述两个属类之间的关系密切，调用所述合并单元合并所述两个属类生成新的属类；若否，则表示所述两个属类之间的关系疏远，放弃合并。

如上所述，本发明的基于集聚系数的自适应聚类方法及系统，具有以下有益效果：

本发明所述的基于集聚系数的自适应聚类方法及系统首次将数据点两两之间的关系引进聚类算法，使之能够更精确地集聚数据。

附图说明

图1显示为本发明的基于集聚系数的自适应聚类方法流程示意图。

图2显示为本发明的初步聚类步骤的具体流程示意。

图3显示为本发明的步骤S15的具体流程示意图。

图4显示为本发明的基于集聚系数的自适应聚类系统的原理结构示意图。

元件标号说明

1 基于集聚系数的自适应聚类系统

11 初步聚类模块

12 自学习聚类模块

111 预处理单元

112 初步聚类单元

121 第一计算单元

122 预分割单元

123 第一判断单元

124 查找单元

124 第二计算单元

125 第二判断单元

126 合并单元

S1～S2 步骤

S151～S170 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明针对现有的聚类算法在聚类过程中仅考虑数据点和核心数据点，或者数据点和相邻数据点之间的关系，并没有考虑数据点两两之间的关系而提出一种新的聚类算法。该聚类算法在聚类过程中引入图论中的集聚系数，并基于集聚系数计算数据点两两之间的关系，以此计算类内和类间的相似程度。

实施例一

本实施例提供一种基于集聚系数的自适应聚类方法，应用于需要聚类的元素的集合，该集合中包括若干聚类对象集中的数据点。在本实施例中，所述基于集聚系数的自适应聚类方法应用于藉由多台服务器及客户端构建的计算机网络系统中，藉由网络通信技术挖掘网络数据信息以更精确地聚类网络数据。

请参阅图1，显示为基于集聚系数的自适应聚类方法的流程示意图，所述基于集聚系数的自适应聚类方法包括：

S1，初步聚类步骤，请参图2，显示为初步聚类步骤的具体流程示意图。如图2所示，所述初步聚类步骤包括以下步骤：

S11，获取若干聚类对象集中的数据点间的关联关系，将所述数据点间的关联关系从大到小排序。例如，关联关系可以用关联度值表示，关联度值从图的角度看，就是边的权重大小。此时数据点就是图中的顶点，数据点之间的关联关系就是顶点之间的边。有关联关系就是有一条边，关联关系的大小就是边的权重大小(关联关系值越大，边的长度越短，直观上来说就是关联关系越大，顶点间的距离越小，顶点间越紧密)。可以将原始的关联关系值的倒数表示成顶点间的边长，即在算法中所谓的关联度值。

S12，将若干聚类对象集中的数据点间的关联关系的分布信息进行统计，并根据统计的分布信息和采用所述曲线拟合技术获取关于若干聚类对象集中的数据点间的关联关系的曲线收敛速率。

S13，根据所述查找邻节点数目的最近邻算法，即k最近邻算法，k表示邻节点的数目，统计所述数据点间的邻节点数目的分布信息，获取邻节点数目确定值。

S14，判断拥有邻节点数目大于所述邻节点数目确定值的数据点是否大于预定数量，若是，则继续执行步骤S15；若否，则结束进程。在本步骤S14中，预定数量为聚类对象集中的数据点的90％的数据点。

S15，按照所述数据点间的关联关系的大小依次提取数据点对，根据已提取出的数据点对的属类和已提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类，属类数目，并建立数据点间的关联关系和属类间的关联关系，直至处理完所有数据点以获取初步聚类结果，继续执行自学习聚类步骤。请参阅图3，显示为步骤S15的具体流程示意图。所述步骤S15包括：

S151，按照所述数据点间的关联关系的大小依次提取数据点对，例如，在本步骤S151中提取出的数据点对为I(a,b)，其中a，b分别为数据点。

S152，检测提取出的数据点a是否已经属于一个属类A，若是，则继续执行步骤S153，若否，则执行步骤S154。

S153，同理检测提取出的数据点b是否属于一个属类A；若是，则执行步骤S155；若否，则执行步骤S156。

S155，判断数据点a和b是否互为k最近邻，若是，则执行步骤S157，即，在数据点a和数据点b之间建立关联关系；若否，则表示在数据点a和数据点b之间不建立关联关系，结束进程。

S156，判断数据点b是否已经属于另一个属类B，若是，则执行步骤S158，若否，则执行步骤S159。

S158，判断数据点a和b是否互为k最近邻，若是，则执行步骤S160，即在数据点a和数据点b之间建立关联关系，并更新属类A和属类B之间的关联关系；若否，则表示在数据点a和数据点b之间不建立关联关系，结束进程。

S159，判断提取出来的数据点a和数据点b之间的关联关系的大小是否满足属类A的结构特征；本步骤是根据以下检测原则进行判断的，所述检测原则为：所述一属类A中的数据点个数为n₁，属类内平均关系权重为avg(n₁)，提取出来的数据点与所述一属类中类内数据点之间的关系权重为w₁，所述一属类的平均关系权重收敛速率为若满足公式则执行步骤S161；反之，则数据点b不加入属类A中，执行步骤S163。

S161，提取出来的数据点b便能加入到所述属类A中，并判断数据点a和b是否互为k最近邻，若是，则执行步骤S162，即在数据点a和数据点b之间建立关联关系，并更新属类A和属类B之间的关联关系；若否，则表示在数据点a和数据点b之间不建立关联关系，结束进程。

S163，重新构建另一属类C，将数据点b插入到属类C中，并判断数据点a和b是否互为k最近邻，若是，则执行步骤S164，即在数据点a和数据点b之间建立关联关系，并更新属类A和属类C之间的关联关系；若否，则表示在数据点a和数据点b之间不建立关联关系，结束进程。

在执行步骤S152检测提取出的数据点a是否已经属于一个属类A，若否，则执行步骤S154，判断数据点b是否属于属类B，若是，则执行步骤S165，若否，则执行步骤S169。

S165，判断提取出来的数据点a和数据点b之间的关联关系的大小是否满足属类B的结构特征；本步骤是根据以下检测原则进行判断的，所示检测原则为：所述一属类B中的数据点个数为n₁，属类内平均关系权重为avg(n₁)，提取出来的数据点与所述一属类中类内数据点之间的关系权重为w₁，所述一属类的平均关系权重收敛速率为若满足公式则执行步骤S166；反之，则数据点a不加入属类A中，执行步骤S167。

S166，数据点a插入到属类B中，并判断数据点a和b是否互为k最近邻，若是，则执行步骤S168，即在数据点a和数据点b之间建立关联关系；若否，则表示在数据点a和数据点b之间不建立关联关系，结束进程。

S167，重新构建另一属类E，将数据点a插入到属类E中，更新属类B，E之间的关联关系。

S169，重新构建另一属类F，将数据点a和数据点b构成的数据点对插入到属类F中，并判断数据点a和b是否互为k最近邻，若是，则执行步骤S170，即在数据点a和数据点b之间建立关联关系；若否，则表示在数据点a和数据点b之间不建立关联关系，结束进程。

在本实施例中，初步聚类完成的标志为提取完若干聚类对象集中的数据点。

S2，自学习聚类步骤，所述自学习聚类步骤包括以下步骤：

第一步骤，计算每个属类的类内相似度和计算每个属类中的数据点的局部集聚系数，将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比较，按照将每个属类分割成数据点的局部集聚系数大于等于类内相似度和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割。

第二步骤，计算两个子类的类内相似度和两个子类的类间相似度。在本实施例中，所述两个子类包括子类A和子类B，计算两个子类A和B的类内相似度的公式分别为：

其中，V_i表示数据点i，V_A表示子类A中数据点的集合，V_B表示子类B中数据点的集合，|V_A|表示子类A中数据点的数目，|V_B|表示子类B中数据点的数目，e_ij表示连接数据点i和数据点j的边，E_A表示子类A中边的集合，E_B表示子类B中边的集合，C(i)为数据点V_i的局部集聚系数，

其中，V_j，V_k表示数据点j，k，N(i)表示数据点V_i的邻节点集合，E是边的集合，k_i表示N(i)的数目，e_jk表示连接数据点j和数据点k的边。

计算两个子类的类间相似度的公式分别为：

其中，V_i表示数据点i，A'表示子类A和属于子类B并与子类A有关联关系的数据点的类，B'表示子类B和属于子类A并与子类B有关联关系的数据点的类，|V_A'|表示A'类中数据点的数目，|V_B'|表示类B'中数据点的数目，V_A表示子类A中数据点的集合，V_B表示子类B中数据点的集合，e_ij表示连接数据点i和数据点j的边，C(i)为数据点V_i的局部集聚系数，

第三步骤，判断预分割的两个子类是否满足分割条件，所述分割条件为两个子类的类内相似度是否分别大于所述两个子类的类间相似度，即clu(A)＞assoc(A')，且clu(B)＞assoc(B')。若是，则接收所述预分割，并产生由多个属类组成的属类集合。在本实施例中，预分割的两个子类A和子类B，即新生成的属类，也属于属类集合中；若否，则取消所述预分割，结束进程。在接收所述预分割步骤中还包括更新所述两个新生成的属类与其它属类之间的类间关联关系，删除所述两个新属类原所属属类与其它属类之间的类间关联关系。在本实施例在执行分割步骤时需遍历所有属类。

第四步骤，在所述属类集合中查找具有关联关系的两个属类。由于每个属类中都包括数据点，具有关联关系的两个属类就是指两个属类之间有交集。

第五步骤，计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度。在本实施例中，具有关联关系的两个属类为属类A1和属类A2。具体计算过程为：

计算两个属类A1和属类A2的类内相似度的公式分别为：

其中，V_i表示数据点i，V_A1表示属类A1中数据点的集合，V_A2表示属类A2中数据点的集合，|V_A1|表示属类A1中数据点的数目，|V_A2|表示属类A2中数据点的数目，e_ij表示连接数据点i和数据点j的边，E_A1表示属类A1中边的集合，E_A2表示属类A2中边的集合，C(i)为数据点V_i的局部集聚系数，其中，V_j，V_k表示数据点j，k，N(i)表示数据点V_i的邻节点集合，E是边的集合，k_i表示N(i)的数目，e_jk表示连接数据点j和数据点k的边。

计算两个属类A1和属类A2的类间相似度的公式分别为：

其中，V_i表示数据点i，A1'表示属类A1和属类A2并与属类A1有关联关系的数据点的属类，A2'表示属类A2和属类A1并与属类A2有关联关系的数据点的属类，|V_A1'|表示A1'属类中数据点的数目，|V_A2'|表示属类A2'中数据点的数目，V_A1表示属类A1中数据点的集合，V_A2表示属类A2中数据点的集合，e_ij表示连接数据点i和数据点j的边，C(i)为数据点V_i的局部集聚系数，

第六步骤，判断两个属类A1和A2是否满足合并条件，所述合并条件为两个属类的类间相似度是否分别大于等于所述两个属类的类内相似度，即clu(A1)≤assoc(A1')，且clu(A2)≤assoc(A2')。若是，则表示所述两个属类之间的关系密切，执行第七步骤，即合并所述两个属类生成新的属类；若否，则表示所述两个属类之间的关系疏远，放弃合并，结束进程。在合并所述两个属类生成新的属类步骤中还包括更新生成的新的属类与其它属类之间的类间关联关系，删除所述两个属类与其它属类之间的类间关联关系。在本实施例在执行合并步骤时需遍历所有属类。

第八步骤，对分割和合并后产生的所有属类再进行预分割，判断预分割后的属类是否满足分割条件，若符合分割条件，则接收该预分割，并对分割后的新的属类集合中的两个属类判断属类两两之间是否符合合并条件，若符合，就将符合合并条件的两个属类进行合并，若不符合，则放弃合并操作。若不符合分割条件，则放弃预分割。在本步骤中，循环执行所述第八步骤，每一次分割和合并都是在对上一次分割和合并后产生的属类进行。

第九步骤，判断执行分割和合并步骤的次数是否已达到迭代次数阈值或判断是否不存在还需要分割或合并的属类，若是，结束进程，若否，则返回第八步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通孔程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，所述可读存储介质可以是只读存储器、磁盘或光盘等。在本实施例中，所述基于集聚系数的自适应聚类方法可以通过服务器端中中央处理单元根据只读存储器中存储的程序或加载在随机存储器的程序执行各种处理。

在本实施例中所述的基于集聚系数的自适应聚类方法，与现有技术相比，所述的基于集聚系数的自适应聚类方法首次将数据点两两之间的关系，即属类间的相似度引进聚类算法，使之能够更精确地集聚数据。

实施例二

本实施例提供一种基于集聚系数的自适应聚类系统1，应用于需要聚类的元素的集合，该集合中包括若干聚类对象集中的数据点。在本实施例中，所述基于集聚系数的自适应聚类系统应用于藉由多台服务器及客户端构建的计算机网络系统中，藉由网络通信技术挖掘网络数据信息以更精确地聚类网络数据。

请参阅图4，显示为基于集聚系数的自适应聚类系统的原理结构示意图。所述基于集聚系数的自适应聚类系统包括：初步聚类模块11和自学习聚类模块12。需要特别说明的是，在不同的应用实例中，所述初步聚类模块11和自学习聚类模块12可以被配置在计算机网络系统的服务器中，亦可被配置在计算机网络系统的服务器中的客户端中，或者被分别配置在服务器和客户端中。

所述初步聚类模块11用于完成初步聚类，所述初步聚类模块11包括预处理单元111和初步聚类单元112，其中，所述预处理单元111用于获取若干聚类对象集中的数据点间的关联关系，获取适用于查找邻节点数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的分布曲线收敛速率。所述初步聚类单元112用于按照所述数据点间的关联关系的大小依次提取数据点对，根据已提取出的数据点对的属类和已提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类，属类数目，并建立数据点间的关联关系和属类间的关联关系，直至处理完所有数据点以获取初步聚类结果。

以下将具体分析所述预处理单元111和所述初步聚类单元112的功能。

所述预处理单元111用于获取若干聚类对象集中的数据点间的关联关系，将所述数据点间的关联关系从大到小排序。例如，关联关系可以用关联度值表示，关联度值从图的角度看，就是边的权重大小。此时数据点就是图中的顶点，数据点之间的关联关系就是顶点之间的边。有关联关系就是有一条边，关联关系的大小就是边的权重大小(关联关系值越大，边的长度越短，直观上来说就是关联关系越大，顶点间的距离越小，顶点间越紧密)。可以将原始的关联关系值的倒数表示成顶点间的边长，即在算法中所谓的关联度值。

所述预处理单元111还用于将若干聚类对象集中的数据点间的关联关系的分布信息进行统计，并根据统计的分布信息和采用所述曲线拟合技术获取关于若干聚类对象集中的数据点间的关联关系的曲线收敛速率。

所述预处理单元111还用于根据所述查找邻节点数目的最近邻算法，即k最近邻算法，k表示邻节点的数目，统计所述数据点间的邻节点数目的分布信息，获取邻节点数目的确定值。

所述预处理单元111还用于判断所述数据点拥有邻节点数目大于所述邻节点数目的确定值的数据点是否大于预定数量，若是，则继续调用所述初步聚类单元112；若否，则结束进程。预定数量为聚类对象集中的数据点的90％的数据点。

所述初步聚类单元112用于按照所述数据点间的关联关系的大小依次提取数据点对，根据已提取出的数据点对的属类和已提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类，属类数目，并建立数据点间的关联关系和属类间的关联关系，直至处理完所有数据点以获取初步聚类结果，继续执行自学习聚类步骤。

所述自学习聚类模块12用于完成自学习聚类，所述自学习聚类模块12包括第一计算单元121、预分割单元122、第一判断单元123、第一处理单元124、查找单元125、第二计算单元126、第二判断单元127、合并单元128、及第二处理单元129。其中，所述第一计算单元121用于计算每个属类的类内相似度和计算每个属类中的数据点的局部集聚系数，将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比较，调用预分割单元122。

所述预分割单元122按照将每个属类分割成数据点的局部集聚系数大于等于类内相似度和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割，并计算两个子类的类内相似度和两个子类的类间相似度，在本实施例中，所述两个子类包括子类A和子类B，计算两个子类A和B的类内相似度的公式分别为：

计算两个子类的类间相似度的公式分别为：

所述第一判断单元123用于判断预分割的两个子类是否满足分割条件，所述分割条件为两个子类的类内相似度是否分别大于所述两个子类的类间相似度，即clu(A)＞assoc(A')，且clu(B)＞assoc(B')，若是，则接收所述预分割，产生由多个属类组成的属类集合。在本实施例中，预分割的两个子类A和子类B，即新生成的属类，也属于属类集合中；若否，则取消所述预分割。

所述第一处理单元124用于更新所述两个新生成的属类与其它属类之间的类间关联关系，删除所述两个新属类原所属属类与其它属类之间的类间关联关系。

所述查找单元125用于在所述属类集合中查找具有关联关系的两个属类。由于每个属类中都包括数据点，具有关联关系的两个属类就是指两个属类之间有交集。

所述第二计算单元126用于计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度。在本实施例中，具有关联关系的两个属类为属类A1和属类A2。具体计算过程为：

计算两个属类A1和属类A2的类内相似度的公式分别为：

计算两个属类A1和属类A2的类间相似度的公式分别为：

所述第二判断单元127用于判断具有关联关系的两个属类是否满足合并条件，所述合并条件为两个属类的类间相似度是否分别大于等于所述两个属类的类内相似度，即clu(A)≤assoc(A')，且clu(B)≤assoc(B')。若是，则表示所述两个属类之间的关系密切，调用所述合并单元128合并所述两个属类生成新的属类；若否，则表示所述两个属类之间的关系疏远，放弃合并。

所述第二处理单元129用于更新生成的新的属类与其它属类之间的类间关联关系，删除所述两个属类与其它属类之间的类间关联关系。在本实施例在执行合并步骤时需遍历所有属类。

在本实施例中，所述自学习聚类模块12还用于循环执行分割和合并操作，该分割和合并操作都是对上一次分割和合并后产生的所有属类再进行预分割，判断预分割后的属类是否满足分割条件，若符合分割条件，则接收该预分割，并对分割后的新的属类集合中的两个属类判断属类两两之间是否符合合并条件，若符合，就将符合合并条件的两个属类进行合并，若不符合，则放弃合并操作。若不符合分割条件，则放弃预分割。

本实施例所述的基于集聚系数的自适应聚类系统可以应用于服务器端的中央处理单元上，通过中央处理单元执行基于集聚系数的自适应聚类系统具有的功能。

本发明所述的基于集聚系数的自适应聚类方法及系统，与现有技术相比，所述的基于集聚系数的自适应聚类方法首次将数据点两两之间的关系，引进聚类算法，使之能够更精确地集聚数据。

所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于集聚系数的自适应聚类方法，藉由多台服务器及客户端构建的计算机网络系统中，用于需要聚类的元素的集合，该集合中包括若干聚类对象集中的数据点，其特征在于，所述基于集聚系数的自适应聚类方法包括：

初步聚类步骤，即获取若干聚类对象集中的数据点间的关联关系，获取适用于查找邻节点数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的分布曲线收敛速率；按照所述数据点间的关联关系的大小依次提取数据点对，根据已提取出的数据点对的属类和每次提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类，属类数目，并建立数据点间的关联关系和属类间的关联关系，直至处理完所有数据点以获取初步聚类结果；

自学习聚类步骤，包括：

分割步骤，即计算每个属类的类内相似度和计算每个属类中的数据点的局部集聚系数，将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比较，按照将每个属类分割成数据点的局部集聚系数大于等于类内相似度和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割，并计算两个子类的类内相似度和两个子类的类间相似度，判断预分割的两个子类是否满足分割条件，若是，则接收所述预分割，产生由多个属类组成的属类集合，并继续下一步步骤；若否，则取消所述预分割；

查找步骤，在所述属类集合中查找具有关联关系的两个属类；

合并步骤，即计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度，判断具有关联关系的两个属类是否满足合并条件，若是，则表示所述两个属类之间的关系密切，合并所述两个属类生成新的属类；若否，则表示所述两个属类之间的关系疏远，放弃合并。

2.根据权利要求1所述的基于集聚系数的自适应聚类方法，其特征在于：所述基于集聚系数的自适应聚类方法中初步聚类步骤还包括：

将若干聚类对象集中的数据点间的关联关系的分布信息进行统计，并根据统计的分布信息和采用所述曲线拟合技术获取关于若干聚类对象集中的数据点间的关联关系的曲线收敛速率；

根据所述查找邻节点数目的最近邻算法统计所述数据点间的邻节点数目的分布信息，获取邻节点数目的确定值，判断所述数据点拥有邻节点数目大于所述邻节点数目的确定值的数据点是否大于预定数量，若是，则继续执行按照所述数据点间的关联关系的大小依次提取数据点对步骤；若否，则结束进程。

3.根据权利要求1所述的基于集聚系数的自适应聚类方法，其特征在于：

在所述分割步骤中还包括更新所述两个子类与其它属类之间的类间关联关系，删除所述两个子类原所属属类与其它属类之间的类间关联关系；在所述合并步骤中还包括更新生成的新的属类与其它属类之间的类间关联关系，删除所述两个属类与其它属类之间的类间关联关系。

4.根据权利要求1所述的基于集聚系数的自适应聚类方法，其特征在于：在所述分割步骤中的两个子类包括子类A和子类B，

计算两个子类A和B的类内相似度的公式分别为：

c l u (A) = \frac{Σ_{v_{i} &Element; V_{A}, e_{i j} &Element; E_{A}} C (i)}{| V_{A} |};

c l u (B) = \frac{Σ_{v_{i} &Element; V_{B}, e_{i j} &Element; E_{B}} C (i)}{| V_{B} |};

其中，V_i表示数据点i，V_A表示子类A中数据点的集合，V_B表示子类B中数据点的集合，|V_A|表示子类A中数据点的数目，|V_B|表示子类B中数据点的数目，e_ij表示连接数据点i和数据点j的边，E_A表示子类A中边的集合，E_B表示子类B中边的集合，C(i)为数据点V_i的局部集聚系数，其中，V_j，V_k表示数据点j，k，N(i)表示数据点V_i的邻节点集合，E是边的集合，k_i表示N(i)的数目，e_jk表示连接数据点j和数据点k的边；

计算两个子类A和子类B的类间相似度的公式分别为：

a s s o c (A^{'}) = \frac{Σ_{v_{i} &Element; V_{A}, e_{i j} &Element; U} C (i)}{| V_{A^{'}} |};

a s s o c (B^{'}) = \frac{Σ_{v_{i} &Element; V_{B}, e_{i j} &Element; U} C (i)}{| V_{B^{'}} |};

5.根据权利要求4所述的基于集聚系数的自适应聚类方法，其特征在于：所述分割条件为两个子类的类内相似度是否分别大于所述两个子类的类间相似度，即clu(A)＞assoc(A')，且clu(B)＞assoc(B′)。

6.根据权利要求1所述的基于集聚系数的自适应聚类方法，其特征在于：在所述合并过程中两个属类包括属类A1和属类A2，

计算两个属类A1和属类A2的类内相似度的公式分别为：

c l u (A 1) = \frac{Σ_{v_{i} &Element; V_{A 1}, e_{i j} &Element; E_{A 1}} C (i)}{| V_{A 1} |};

c l u (A 2) = \frac{Σ_{v_{i} &Element; V_{A 2}, e_{i j} &Element; E_{A 2}} C (i)}{| V_{A 2} |};

其中，V_i表示数据点i，V_A1表示属类A1中数据点的集合，V_A2表示属类A2中数据点的集合，|V_A1|表示属类A1中数据点的数目，|V_A2|表示属类A2中数据点的数目，e_ij表示连接数据点i和数据点j的边，E_A1表示属类A1中边的集合，E_A2表示属类A2中边的集合，C(i)为数据点V_i的局部集聚系数，其中，V_j，V_k表示数据点j，k，N(i)表示数据点V_i的邻节点集合，E是边的集合，k_i表示N(i)的数目，e_jk表示连接数据点j和数据点k的边；

计算两个属类A1和属类A2的类间相似度的公式分别为：

a s s o c (A 1^{'}) = \frac{Σ_{v_{i} &Element; V_{A 1}, e_{i j} &Element; U} C (i)}{| V_{A 1^{'}} |};

a s s o c (A 2^{'}) = \frac{Σ_{v_{i} &Element; V_{A 2}, e_{i j} &Element; U} C (i)}{| V_{A 2^{'}} |};

7.根据权利要求6所述的基于集聚系数的自适应聚类方法，其特征在于：所述合并条件为两个属类的类间相似度是否分别大于等于所述两个属类的类内相似度，即clu(A1)≤assoc(A1')，且clu(A2)≤assoc(A2')。

8.根据权利要求1所述的基于集聚系数的自适应聚类方法，其特征在于：按照所述数据点间的关联关系的大小依次提取数据点对的步骤还包括根据检测原则检测提取出的数据点对是否满足一属类的特征。

9.根据权利要求8所述的基于集聚系数的自适应聚类方法，其特征在于：所述检测原则为：所述一属类中的数据点个数为n₁，属类内平均关系权重为avg(n₁)，提取出来的数据点与所述一属类中类内数据点之间的关系权重为w₁，所述一属类的平均关系权重收敛速率为若满足公式提取出来的数据点便能加入到所述一属类中；反之，不能加入。

10.一种基于集聚系数的自适应聚类系统，藉由多台服务器及客户端构建的计算机网络系统中，用于需要聚类的元素的集合，该集合中包括若干聚类对象集中的数据点，其特征在于，所述基于集聚系数的自适应聚类系统包括：

初步聚类模块，用于完成初步聚类，所述初步聚类模块包括预处理单元和初步聚类单元，其中，所述预处理单元用于获取若干聚类对象集中的数据点间的关联关系，获取适用于查找邻节点数目的最近邻算法中邻节点的数目以及通过曲线拟合技术获取所述数据点的分布曲线收敛速率；所述初步聚类单元用于按照所述数据点间的关联关系的大小依次提取数据点对，根据已提取出的数据点对的属类和已提取出的数据点间的关联关系的大小以确定所述数据点归于哪个属类，属类数目，并建立数据点间的关联关系和属类间的关联关系，直至处理完所有数据点以获取初步聚类结果；

自学习聚类模块，用于完成自学习聚类，所述自学习聚类模块包括第一计算单元、预分割单元、第一判断单元、查找单元、第二计算单元、第二判断单元、及合并单元；

其中，所述第一计算单元用于计算每个属类的类内相似度和计算每个属类中的数据点的局部集聚系数，将每个属类的类内相似度与每个属类中的数据点的局部集聚系数进行比较，调用所述预分割单元；

所述预分割单元用于按照将每个属类分割成数据点的局部集聚系数大于等于类内相似度和数据点的局部集聚系数小于类内相似度的两个子类的分割方式进行预分割，并计算两个子类的类内相似度和两个子类的类间相似度；

所述第一判断单元用于判断预分割的两个子类是否满足分割条件，若是，则接收所述预分割，产生由多个属类组成的属类集合；若否，则取消所述预分割；

所述查找单元，用于在所述属类集合中查找具有关联关系的两个属类；

所述第二计算单元，用于计算具有关联关系的两个属类的类内相似度和两个属类间的类间相似度；

所述第二判断单元用于判断具有关联关系的两个属类是否满足合并条件，若是，则表示所述两个属类之间的关系密切，调用所述合并单元合并所述两个属类生成新的属类；若否，则表示所述两个属类之间的关系疏远，放弃合并。