CN102184216B

CN102184216B - 基于数据场划分网格的自动聚类方法

Info

Publication number: CN102184216B
Application number: CN 201110114544
Authority: CN
Inventors: 王树良; 陈亚森
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2011-05-04
Filing date: 2011-05-04
Publication date: 2013-01-09
Anticipated expiration: 2031-05-04
Also published as: CN102184216A

Abstract

本发明提供了一种基于数据场划分网格的自动聚类方法，将划分所得每个网格看作一个具有质量的数据点，它们之间彼此相互影响形成数据场，所有数据点之间的相互叠加作用表现为数据场的势值。本发明首先通过搜索数据场势值的局部极大值来发现数据的簇中心，进而根据簇中心向周围搜索并确定簇的边缘，最终将整个簇搜索出来，可以被应用于图像处理、社区发现、异常检测、市场研究等领域。与现有的聚类方法相比，本方法具有处理速度快，并且对噪声不敏感的特点。

Description

基于数据场划分网格的自动聚类方法

技术领域

本发明涉及聚类分析技术领域，尤其涉及一种基于数据场划分网格的自动聚类方法。

背景技术

聚类方法能够根据数据本身的相似性，自动地将数据分成若干个小的簇，使每个簇内部的数据之间彼此相似，而与其他簇内的数据相异。通过这样的自动聚合，聚类分析能够帮助人们发现隐藏在数据背后的潜在知识，对于信息的处理和知识的发现有着非常重要的意义。目前，聚类方法已经被广泛地应用于图像处理、异常检测、Web热点发现、社区发现、信用卡欺诈检测、商务数据分析等方面。例如，在模式识别方面，通过对图片特征向量的处理，自动将一组动物的图片自动归类为羊、狗、蛇等；在异常检测方面，通过对产品属性的聚类，自动发现其中的次品；在市场研究方面，通过对用户进行聚类来将用户自动归类，进而辅助决策者制定市场策略。

现有的聚类方法为了能够得到较好的处理效果大都采用了较为复杂的计算方式，处理速度较慢，无法适用于大规模的数据处理。另外，噪声也是影响聚类方法质量的一个重要因素。

发明内容

针对以上存在的技术问题，本发明的目的是基于数据场，提出了一种快速高效的自动聚类方法，以解决对大量数据进行聚类处理时的速度和效率问题。

为达到上述目的，本发明采用下的技术方案包括以下步骤：

步骤1，读取待进行聚类分析的所有数据，数据的维度为n，根据用户提供的网格划分参数k将数据空间等分为kⁿ个网格，根并将每个数据分配到相应的网格中；

步骤2，将数据场的影响因子σ设定为步骤1所划分网格的最大边长；

步骤3，将每个网格看作一个具有一定质量的数据点，数据点的质量在数值上等于网格中包含的数据总数量，数据点的坐标为网格的重心坐标，计算由这些数据点相互作用形成的数据场在各个网格重心处的势值和一阶偏导绝对值；

步骤4，遍历步骤1划分所得每个网格，如果其中某一网格的势值取值大于该网格每个维度上所有直接相邻网格的势值取值，则认为该网格包含聚类中心；

步骤5，分别以步骤4找到的每个包含聚类中心的网格为起点，搜索满足条件的直接相邻网格，再以搜索到的网格为起点继续搜索满足条件的直接相邻网格，直到搜索不到满足条件的直接相邻网格为止，搜索得到的所有满足条件的网格构成聚类簇；所述条件为，势值小于作为起点的网格，并且一阶偏导绝对值大于作为起点的网格；

步骤6，计算步骤5找到的所有聚类簇中所有网格的质量平均值，将该平均值作为噪声阀值t；

步骤7，根据步骤6所得噪声阀值t，将步骤5找到的各聚类簇中的所有质量小于噪声阀值t的网格删除；

步骤8，当存在两个或者以上聚类簇包含有相同的网格时，将这两个或者以上聚类簇合并；

步骤9，将所得各聚类簇作为聚类结果输出。

本发明的技术方案与已有的聚类方法相比，利用划分网格的方式将运算复杂度降低为O(k)，其中k为网格划分参数，极大地提高了方案实施的处理速度；通过一阶偏导来确定簇的中心和边缘，可以有效地避免对噪声的处理，从而使方法具有很好的健壮性。

附图说明

图1是数据场势函数的变化曲线；

图2是数据场势函数及一阶偏导绝对值的变化曲线；

图3是本发明实施例二维数据的坐标分布示意图；

图4是本发明实施例划分网格示意图；

图5是本发明实施例根据势值找到的局部聚类中心示意图；

图6是本发明实施例根据聚类中心找到的聚类网格簇示意图；

图7是本发明实施例的聚类结果示意图。

具体实施方式

受到物理学中场论的启发，王树良等提出数据场的思想。数据通过数据辐射将其数据能量从样本空间辐射到整个母体空间，接受数据能量并被数据辐射所覆盖的空间，叫做数据场。数据场可视为一个充满数据能量的空间，数据通过自己的数据场，对场中的另一数据发射能量。数据场中的数据点之间会相互辐射能量，这些能量相互叠加形成数据场的势。根据数据对象的不同，数据场的场强函数可以定义为多种形式，在本发明中采用核辐射衍生场，则相应的势函数如公式(一)。

公式(一)

其中，x，y为两个数据点，σ为数据场的影响因子，||x-y||²为两个数据点x，y之间的欧氏距离，m为数据点y的质量，e为数学常数。所求得

表示数据点y在x处的影响作用。

公式(一)所定义的数据场势值函数具有很好的衰减性(如附图1中σ分别取值1、0.5和2时的曲线)，适用于聚类方法根据相似性划分簇的根本目的。附图1中横轴是数据场源点的距离，纵轴是m＝1时对应的势值和一阶偏导值。另外，由于数据场定义的势函数具有很好的连续性，所以只要选取合适的影响因子，数据场就能够很好地反映数据的分布特性。附图2即为附图3所示的数据集中划线区域的势值及一阶偏导绝对值，横轴是数据点的(图3中竖直方向)属性值，纵轴是势值和一阶偏导绝对值。从簇的边缘到中心再到边缘的变化过程中，数据场的势值是一个先增后减的变化过程，并且在簇中心处取取最大值。

数据场势值的变化情况可以用一阶导数来进行描述。在本发明中，数据场势值的一阶偏导根据公式(二)来进行计算，即：

F_{(x)} = (y - x) \cdot m \cdot e^{- {[\frac{| | x - y | |}{σ}]}^{2}}

公式(二)

其中，各变量的含义与公式(一)中的变量含义相同。所求得F(x)表示数据场中x处的一阶偏导绝对值。

通过分析数据场势值的一阶偏导绝对值的变化曲线(附图2)可以发现，从簇的两个边缘，数据场一阶偏导值分别取最大值。

通过这两个特性我们可以归纳出基于数据场划分网格的聚类方法的基本原理：通过计算数据场中每处的势值，找出其中具有局部极大势值的点，并以该点为中心找到其附近所有一阶偏导势值不断增大的区域，这一区域即为技术方案找到的完整的聚类。

由于数据场势值的计算为指数运算，并且需要点与点之间的一一计算，其复杂度为O(N²)，N为数据点的数量，不适合处理大量的数据。所以为了降低算法复杂度，提高算法运行效率，算法在实际运行时通过划分网格给予了改进。通过划分网格，将点与点之间的一一计算近似为点与网格之间的计算，从而大大地减少计算量，提高聚类分析的运行速度。

从附图1中数据场势值的变化曲线可以看出，势值在||x-y||≤0.5σ时较大，而在||x-y||＞2σ时很小，即较近的数据点之间的相互作用力强，而较远的相互作用力弱。因此，在划分网格时可以将整个数据空间划分为大小等于影响因子的网格，将网格抽象为数据点，从而可以将计算量为O(k)，并不会对聚类效果造成很大的影响。

本发明技术方案对噪声数据不敏感，能够被应用于处理数据格式较为复杂的实际应用中。另外，技术方案的复杂度仅为O(k)，远远低于传统的大多数聚类方案，这样在数据量较大的实际应用(如对沃尔玛中国地区一年的销售记录的挖掘处理)中，运用本发明就能够显示出非常明显的优势。对于具体的数据格式，本发明技术方案适用于那些比例标度变量，如商品的销售数量、像素的坐标值、房屋的分布坐标、网络的通信记录等。具体举例来说：在图像处理领域，本发明技术方案可以处理由图像特征值(如图像像素点坐标以及像素点灰度值)组成的图像特征数据，从而自动发现其中任意形状的聚类，每个聚类对应于图像中的一个物体，如石头、汽车等；在社区划分方面，本发明技术方案可以被用于处理房屋分布的社区发现，处理得到的每一个聚类簇对应于现实生活中的一个社区；在异常检测方面，本发明技术方案可以用于处理某个网络的通信记录，将那些没有被包括到聚类簇中或者较小的聚类簇当作噪声来进行分析，找出相应的原因，从而保证网络的稳定和安全；在市场研究方面，本发明技术方案可以被用于处理用户的商品购买记录，从中自动发现商品的聚类或用户的消费模式，从而能够帮助管理人员了解市场，制定相应的市场政策；在工厂次品的检测方面，通过将产品的若干属性(如质量、长度等)表示成为数值之后，利用本发明技术方案进行聚类，那么在聚类处理后，那些未能被包括到聚类簇(或是被包括在较小的聚类簇中)的数据点就可以被认为是可能的次品。

下面结合附图及实施例，对本发明作进一步详细的描述。实施例为对一张包含若干图标的实际图片进行特征提取后的结果，采用计算机软件技术实现自动运行，流程包括步骤如下：

步骤1，输入需要处理的n维原始数据，使用者提供一个网格划分参数k。网格划分参数k用于将整个数据空间进行划分，应为自然数，具体实施时，网格划分参数k的取值可以参考数据的实际分布。本发明实施例中数据的维度n＝2，如附图3。

待进行聚类分析的所有数据在所构成数据空间内分布，为区别于后续代表网格的数据点，这些原始数据在实施例中称为原始数据点。遍历n维原始数据中所有的原始数据点，找到原始数据点中的最大值和最小值，将最大最小值之间的区域划分为k等份，形成kⁿ个网格，如附图4所示，每一个网格用n维矩阵M中的一个单元表示。

实施例中，确定需要处理的n维原始数据中每个原始数据点所属的网格，并添加到相应的n维矩阵M中，M中的每个单元记录对应网格所包含的原始数据点数量和所有原始数据点的平均坐标。

步骤2，将步骤1所划分网格的长度的最大值设为影响因子σ的取值。考虑到各个维度上的边长可能不一样，因此本步骤选取网格的最大边长为影响因子σ的取值。

步骤3，将步骤1划分所得每个网格看作一个数据点，数据点的质量等于网格包含的原始数据点数量，数据点的坐标等于网格包含的原始数据点的平均坐标(即网格的重心坐标)。实施例于步骤1在n维矩阵M中对网格包含的原始数据点数量和平均坐标已预先进行记录，也可以放在此步骤求取。这些数据点之间相互作用形成数据场，设某网格的重心处于坐标x处，该网格的势值和一阶偏导绝对值分别按照公式(1)和(2)进行计算，附图2即为附图3中划线区域的势值与一阶偏导绝对值的变化曲线。

步骤4，遍历步骤1划分所得每个网格，如果其中某一网格的势值取值大于该网格每个维度上所有直接相邻网格的势值取值，则认为该网格包含聚类中心。如果n维矩阵M中的两个网格在一个维度上相邻，其他维度上的坐标相同，那么就认为这两个网格直接相邻。本发明实施例中数据的维度n＝2，比较的就是某一网格势值取值与它上下左右四个直接相邻网格的势值取值。附图5中标记1、2、3、4处即为实施例找到的包含聚类中心的网格。

步骤5，分别以步骤4找到的每个包含聚类中心的网格为起点，搜索满足条件的直接相邻网格，再以搜索到的网格为起点继续搜索满足条件的直接相邻网格，直到搜索不到满足条件的直接相邻网格为止。一次搜索得到的所有满足条件的网格构成一个聚类簇，也就是说根据步骤4所得每个包含聚类中心的网格分别找到一个相应的聚类簇。所述条件是指，势值小于作为起点的网格，一阶偏导绝对值大于作为起点的网格。可以看作从一个聚类中心出发到其周围某个网格的路径上，存在一条势值不断下降且一阶偏导绝对值不断上升的通路.

步骤6，计算每个聚类簇中所有网格包含的原始数据点数量的平均值，即步骤5找到的所有聚类簇中所有网格的质量求和然后平均，将平均值作为噪声阀值t。具体实施时，也可以将该平均值作为噪声阀值的参考值输出，并接收用户输入根据该参考值自行设定的噪声阀值t。

步骤7，遍历步骤5中找到的所有聚类簇，删除每个聚类簇中包含的原始数据点数量小于步骤6所得噪声阀值t的网格。

步骤8，遍历步骤7中删除噪声后的聚类簇，将所包含网格存在交叉的聚类簇合并。这样可以保证聚类簇的完整性。本实施例把噪声阀值设的比较大，将那些可能导致合并的地方去掉了，因此未出现合并，处理后的结果如附图6。

步骤9，将步骤8得到的聚类簇作为聚类分析结果输出，如附图7以分别以标记1、2、3、4处网格为聚类中心的四个聚类簇。至此，完成聚类操作。本聚类分析流程发现的每一个聚类簇对应于图像中的一个图标，噪声数据对应于拍摄过程中产生的杂质。

以上内容是结合最佳实施方案对本发明说做的进一步详细说明，不能认定本发明的具体实施只限于这些说明。本领域的技术人员应该理解，在不脱离由所附权利要求书限定的情况下，可以在细节上进行各种修改，都应当视为属于本发明的保护范围。

Claims

1.一种用于图像处理的基于数据场划分网格的自动聚类方法，其特征在于，包括以下步骤：

步骤1，读取待进行聚类分析的所有数据，数据的维度为n，根据用户提供的网格划分参数k将数据空间等分为kⁿ个网格，并将每个数据分配到相应的网格中；

步骤6，计算步骤5找到的所有聚类簇中所有网格的质量平均值，将该平均值作为噪声阈值t；

步骤7，根据步骤6所得噪声阈值t，将步骤5找到的各聚类簇中的所有质量小于噪声阈值t的网格删除；

步骤9，将所得各聚类簇作为聚类结果输出。