CN111291276B

CN111291276B - 一种基于局部方向中心性度量的聚类方法

Info

Publication number: CN111291276B
Application number: CN202010032456.1A
Authority: CN
Inventors: 彭德华; 桂志鹏; 吴华意
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-05-19
Anticipated expiration: 2040-01-13
Also published as: CN111291276A

Abstract

本发明公开了一种基于局部方向中心性度量的聚类方法，包括S1、根据企业POI位置数据的空间分布，建立KD‑Tree的二维空间索引；S2、遍历每个POI点，基于KD‑Tree的回溯操作搜索它的空间K最邻近；S3、计算每个点与其KNN邻域构成的角度方差，并将它归一化；S4、根据指定的角度方差阈值把所有点划分为内部点和边界点；S5、根据连接的规则把内部点连接成多个聚类簇，直到所有内部点都已经有归属的聚类簇；S6、将所有边界点归类到与其最邻近的内部点的聚类簇。本发明采用基于KNN和基于方向的核心思想能够有效解决这两个问题，既能同时准确地识别密集和稀疏的聚类簇，也能将连接的多个不同簇进行合理的分割。

Description

一种基于局部方向中心性度量的聚类方法

技术领域

本发明涉及POI位置数据的空间集聚模式分析技术领域，具体涉及一种基于局部方向中心性度量的聚类方法。

背景技术

空间聚类是一种经典且有效的点集聚模式分析的方法，它通过计算地理对象的空间距离度量其相似性，将相似性高的地理对象划分为一类，这种方法被广泛应用于交通、地质、经济和医学等领域。

传统的聚类方法可以分为五类：基于划分、基于密度、基于层次、基于网格和基于模型的聚类方法。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

传统方法难以解决数据中存在的弱连接和密度分布不均的问题，对于存在弱连接的聚类簇传统方法容易将它们划分为同一个簇，或者将连接的部分点识别为噪声而剔除，破坏簇的完整性。而对于密度不均的聚类簇，稀疏的簇往往容易被当作噪声而剔除。这使得传统聚类方法在空间结构复杂、聚类形态各异、密度分布不均的海量POI位置点数据空间集聚模式分析的场景下，难以适应数据的分布形态和显著的簇密度差异，而无法准确地识别所有聚类簇的空间分布模式。

由此可知，现有技术中的方法由于数据中存在弱连接和密度分布不均，从而导致分析不够准确的技术问题。

发明内容

有鉴于此，本发明提供了一种基于局部方向中心性度量的聚类方法，用以解决或者至少部分解决现有技术中的方法由于数据中存在弱连接和密度分布不均，从而导致分析不够准确的技术问题。

为了解决上述技术问题，本发明提供了一种基于局部方向中心性度量的聚类方法，包括：

S1：根据POI位置数据的空间分布，构建KD树，其中KD树的结点表示POI点，KD树的边表示POI点之间属于划分的上下级关系；

S2：对构建的KD树进行回溯操作，搜索每个POI点的K最邻近对象；

S3：计算每个POI点与对应的K最邻近对象构成的角度方差，将角度方差作为POI点局部方向中心性度量，并将角度方差进行归一化处理；

S4：根据归一化处理后的角度方差与角度方差阈值之间的关系，将所有POI点划分为内部点和边界点；

S5：对于划分的内部点，根据预设连接规则连接成多个聚类簇，直到所有内部点都具有归属的聚类簇；

S6：对于划分的边界点，归类至与边界点最邻近的内部点的聚类簇。

在一种实施方式中，S1具体包括：

S1.1：计算POI点集在不同属性维度的方差，并选择方差最大对应的属性维度作为初始划分维度；

S1.2：获取所有POI点在初始划分维度的取值，根据POI点在初始划分维度的取值计算初始划分维度对应的中位数，并将中位数对应的POI点作为KD树的根结点，以根结点作为切分点，将根结点对应的超矩形区域切分为两个子区域，其中，根结点对应的超矩形区域表示根结点表示的POI点分布的最小空间，切分的两个子区域表示下一级的划分；

S1.3：对于每个子区域内，重复执行S1.1～S1.2，直到所有POI点都被保存为子结点，构建得到KD树。

在一种实施方式中，S1.2中以根结点作为切分点，将根结点对应的超矩形区域切分为两个子区域，包括：

将垂直于初始划分维度的超平面作为分割线对整个超矩形区域进行划分，其中，由根结点生成深度为1的左、右子结点：左子结点对应坐标小于切分点的子区域，右子结点对应于坐标大于切分点的子区域，将超平面切割经过的POI点保存在根结点。

在一种实施方式中，S2具体包括：

S2.1：搜索每个POI点的K最邻近对象，计算POI点与其父节点的空间距离，并以该POI点为圆心、POI点与其父节点的空间距离为半径作圆形搜索域，寻找与圆形搜索域相交的子空间；

S2.2：计算子空间中结点与该POI点的空间距离，与搜索域半径比较大小；如果大于半径，则回溯到该结点父结点的父结点，重复执行S2.1-S2.2；如果小于半径，则更新最邻近距离，继续向上回溯遍历，直到回溯到KD树的根结点；

S2.3：重复执行S2.1-S2.2，直到所有POI点都搜索到对应的K最邻近对象。

在一种实施方式中，S3具体包括：

S3.1：以(x_i，y_i)为中心点建立极坐标系；

S3.2：计算中心点与其K最邻近对象(x_j，y_j)的x坐标差Δx＝x_j-x_i和y坐标差Δ_y＝y_j-y_i；

S3.3：判断K最邻近对象(x_j，y_j)在建立的极坐标系中的象限，并计算在该坐标系下构成的角度：

S3.4：计算每个POI点与对应的K最邻近对象构成的角度方差，将角度方差作为中心点的局部方向中心性度量值：

其中，α_i表示第i个K最邻近对象与中心点构成的角度，DC表示中心点的局部方向中心性度量值：

S3.5：将度量值进行归一化处理：

其中，DC′表示归一化处理后的度量值。

在一种实施方式中，S4具体包括：

如果POI点与对应的K最邻近对象构成的角度方差小于角度方差阈值T，则该POI点被归类为聚类簇的内部点；如果POI点与对应的K最邻近对象构成的角度方差大于角度方差阈值T，则该POI点被归类为聚类簇的边界点。

在一种实施方式中，S5具体包括：

S5.1：将内部点p_i与最邻近边界点的距离作为内部点p_i的可达距离d_i、其他内部点p_j与最邻近边界点的距离作为内部点p_j的可达距离d_j；

S5.2：连接内部点p_i与其他内部点p_j，判断两个点的欧氏距离与内部点可达距离和之间的关系，如果d_ij≤d_i+d_j，则将这两个内部点归为同一个聚类簇；如果d_ij>d_i+d_j，则跳过点p_j，遍历其余内部点，直到所有内部点都具有归属的聚类簇，d_ij表示内部点p_i与其他内部点p_j的欧氏距离。

在一种实施方式中，S6具体包括：

搜索每个边界点最邻近的内部点，并将边界点归属于该内部点所在的聚类簇。

在一种实施方式中，在S6之后，所述方法还包括S7：

将所有聚类结果在地图上面进行可视化显示。

在一种实施方式中，为每个POI点归属的聚类簇赋予聚类簇ID，S7具体包括：将所有POI点以及对应的聚类簇ID上传至Kepler.gl开源Web可视化库，并设置要素类型、样式颜色对聚类结果进行前端可视化，分析POI的空间集聚模式。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明公开的一种基于局部方向中心性度量的聚类方法，对于划分的内部点，根据预设连接规则连接成多个聚类簇，对于划分的边界点，归类至与边界点最邻近的内部点的聚类簇，能够根据聚类簇边界点和内部点不同的分布规律而有效地区分两者，通过对边界点的有效识别，聚类簇的基本空间形态可以被确定，从而能够将弱连接的连接部分有效划分给其连接的多个簇而不破坏簇的完整性。另一方面，本发明计算每个POI点与对应的K最邻近对象构成的角度方差，将角度方差作为POI点局部方向中心性度量，即采用了KNN的邻域搜索方法，可以有效地处理不同密度的点分布，从而解决簇密度分布不均的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于局部方向中心性度量的聚类方法示意图；

图2是本发明实施例中基于局部方向中心性度量的聚类方法的流程图；

图3是本发明在人造数据集的边界点提取结果示意图；

图4是本发明与传统聚类方法在数据集DS1-DS3的结果对比示意图；

图5是本发明与传统聚类方法在数据集DS4-DS6的结果对比示意图；

图6是不同聚类算法的运行时间结果对比示意图。

具体实施方式

本发明提供的一种基于局部方向中心性度量的聚类方法包括：S1、根据企业POI位置数据的空间分布，建立KD-Tree的二维空间索引，以此快速搜索POI的空间最邻近点对象；S2、遍历每个POI点，基于KD-Tree的回溯操作搜索它的空间K最邻近；S3、计算每个点与其KNN邻域构成的角度方差，并将它归一化；S4、根据指定的角度方差阈值把所有点划分为内部点和边界点；S5、根据连接的规则把内部点连接成多个聚类簇，直到所有内部点都已经有归属的聚类簇；S6、将所有边界点归类到与其最邻近的内部点的聚类簇；S7、将所有聚类结果在地图上面进行可视化。

针对传统聚类方法难以解决弱连接和密度分布不均的问题，本发明的方法采用基于KNN和基于方向的核心思想能够有效解决这两个问题，既能同时准确地识别密集和稀疏的聚类簇，也能将连接的多个不同簇进行合理的分割。本发明方法可应用于具有位置信息各类POI数据集，以分析它们的空间聚集模式。例如，基于全国工商企业注册数据的产业空间聚集模式挖掘，基于出租车上下车点的数据进行热点探测，以及基于社交媒体数据的人类活动空间分布与聚集模式挖掘等。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于局部方向中心性度量的聚类方法，该方法结合KNN和边界点提取的思想，能够有效解决海量POI位置点数据空间集聚模式分析中存在的弱连接和密度分布不均的问题。对于聚类簇的内部点，它周围往往都会分布其他POI点，而对于聚类簇的边界点来说，只会在特点的方向范围内存在邻近点对象。基于此，本发明设计了一种基于方向度量POI中心性的指标，相对传统的Mean shift方法能够有效地识别聚类簇的内部点与边界点，效果如图3所示。而KNN的思想能够适应存在显著密度差异的点分布，辅助聚类方法将稠密和稀疏的聚类簇同时识别，聚类效果如图4和5所示。对于本算法的效率来说，它介于DBSCAN和LGC之间，多种传统方法的计算效率比较如图6所示。本发明方法可应用于具有位置信息各类POI数据集，以分析它们的空间聚集模式和时空演化规律。例如，基于全国工商企业注册数据的产业空间聚集模式挖掘，基于出租车上下车点的数据进行热点探测，以及基于社交媒体数据的人类活动空间分布与聚集模式挖掘等。

本实施例提供了一种基于局部方向中心性度量的聚类方法，请参见图2，该方法包括：

S1：根据POI位置数据的空间分布，构建KD树，其中KD树的结点表示POI点，KD树的边表示POI点之间属于划分的上下级关系。

具体来说，KD树是一种二叉树，KD树中包含的结点为POI点，边表示POI点之间属于划分的上下级关系，即上层的结点为下层结点的父结点，通过KD树的二维空间索引可以快速搜索POI的空间最邻近点对象：K最邻近对象。

S2：对构建的KD树进行回溯操作，搜索每个POI点的K最邻近对象。

具体来说，对于构建的KD树，遍历每一个结点(即每一个POI点)基于回溯操作，搜索每个POI点的K最邻近对象。

S3：计算每个POI点与对应的K最邻近对象构成的角度方差，将角度方差作为POI点局部方向中心性度量，并将角度方差进行归一化处理。

具体来说，可以根据POI点与对应的K最邻近对象在预设坐标下的坐标差计算角度，进而计算角度方差，将其作为POI点局部方向中心性度量。

S4：根据归一化处理后的角度方差与角度方差阈值之间的关系，将所有POI点划分为内部点和边界点。

S5：对于划分的内部点，根据预设连接规则连接成多个聚类簇，直到所有内部点都具有归属的聚类簇。

具体来说，S5是对步骤S4划分出的内部点的聚类方法，可以将两个内部点相连，然后判断两点之间的距离与各自点的可达距离之和的关系，从而对内部点进行聚类簇划分。

具体来说，具体来说，S6是对步骤S4划分出的边界点的聚类方法，将边界点划分到最邻近的内部点所在的簇。

在一种实施方式中，S1具体包括：

具体来说，POI点集即为所有POI点构成的集合，每个POI点都包含若干属性维度，例如经度、维度就是两种属性维度。在构建KD树的时候，先计算每个属性维度的方差，具体地，例如计算所有POI纬度的方差，计算所有POI经度的方差。在每个维度下，n个POI点构成一个长度为n的一维向量{x1，x2..xn}，计算这n个数的方差，即为POI点集在该属性维度的方差。

KD树的构建过程是在每个属性维度进行二分操作，目的在于使得每个分区包含的点数量尽可能相等。而计算方差则可以挑选出点分布离散的维度，选择这些维度优先进行划分则可以保证所有点尽可能分布在各个分区而且数量接近相等。

每个POI点在每个属性维度都具有相对应的取值，取所有POI点在该属性维度的取值，比如取所有POI点的纬度，计算所有维度的中位数。通过计算最大方差的维度的方式来确定根结点，首先选择该维度所有POI取值的中位数，这个中位数对应的POI点作为KD树的根结点。树的结点对应每个POI点，每个矩形区域都相当于是空间的一个划分。

具体来说，切分由通过切分点并与该属性维度垂直的超平面来实现。超矩形区域是所有POI点分布的最小空间，比如二维POI点就是最小外接矩形。超平面则是选取方差最大的维度之后，取垂直该维度的平面，超平面作为分割线对整个超矩形区域进行划分，比如二维POI点，如果计算所有点的x坐标的方差最大(即X维度方差最大)，则利用平行于y轴垂直于x轴的直线把整个最小外接矩形划分。

在具体的实施过程，切分超平面上的点可能不止一个，比如用垂直于x轴的直线划分矩形区域，这条在中位数POI点上的直线可能还有其他POI点，这些点都可以保存在根结点。

下面以A、B和C三个POI点为例，说明划分过程：

根结点表示最开始的一次划分，切分平面上的点。结点之间的边表示它们属于划分的上下级关系，比如A作为根结点连接着B和C，说明第一次划分经过A，而B和C分别在A的左右两边，下一次划分分别穿过了B和C。

在一种实施方式中，S2具体包括：

具体来说，通过将与圆形搜索域有交集的子空间上的结点与该POI点的空间距离与搜索域半径进行比较，搜索还有没有离这个点更近的点。

在搜索KNN对象的过程中，每个POI点都要被遍历一次，都要去搜索它的KNN。S2.2中重复执行是为了找到一个POI点的KNN，S2.3中的重复执行是为了使得所有点都找到各自的KNN，两处重复执行相当于两层循环。

通过构建KD树则可以降低点与点之间距离计算的成本，节约查询每个点KNN的计算开销。

在一种实施方式中，S3具体包括：

S3.1：以(x_i，y_i)为中心点建立极坐标系；

S3.2：计算中心点与其K最邻近对象(x_j，y_j)的x坐标差Δx＝x_j-x_i和y坐标差Δy＝y_j-y_i；

其中，α_i表示第i个K最邻近对象与中心点构成的角度，DC表示中心点的局部方向中心性度量值；

S3.5：将度量值进行归一化处理：

其中，DC′表示归一化处理后的度量值。

具体来说，S3.3可以通过下述方式来实现：

1)若Δx＝0且Δy＝0，则α_i＝0；

2)若Δx＝0且Δy＞0，则

3)若Δx＝0且Δy＜0，则

4)若Δx＞0且

则/>

5)若Δx＞0且

则/>

6)若Δx＜0，则

在一种实施方式中，S4具体包括：

在一种实施方式中，S5具体包括：

具体来说，其他内部点p_j是指除内部点p_i之外的内部点，当d_ij>d_i+d_j，则跳过点p_j，遍历其余内部点，即除内部点p_i、内部点p_j之外的内部点。

在一种实施方式中，S6具体包括：

在一种实施方式中，在S6之后，所述方法还包括S7：

将所有聚类结果在地图上面进行可视化显示。

本发明提出了一种基于局部方向中心性度量的聚类方法，该方法结合KNN和边界点提取的思想，能够有效解决海量POI位置点数据空间集聚模式分析中存在的弱连接和密度分布不均的问题。

下面通过一个具体示例对本发明提供的方法进行介绍。

现有21404条企业兴趣点(Point of Interest，POI)数据，包含各企业实体的注册位置数据，需要对上述企业POI位置点数据进行空间集聚模式分析。企业POI呈多中心分布，聚类簇之间的密度差异较大，而且存在大量的噪声点数据，传统的方法难以适应这种空间结构复杂、聚类形态各异、密度分布不均的海量POI位置点数据空间集聚模式分析场景。本发明方法在此应用场景下，选取K＝30作为KNN的参数，T＝0.3作为区分内部点和边界点的阈值，并在四核英特尔i7处理器和16GB内存的单机上进行实验，操作系统为Windows 10，算法采用Matlab实现。

本发明结合KNN的邻域思想，能够有效处理稠密和稀疏聚类簇同时存在的情况。此外，本发明根据边界点与内部点其邻域点对象的分布特征区分两者，在聚类之前提取聚类簇的边界信息，能够很好地解决聚类簇之间的弱连接问题。从而实现高精度聚类，支持海量POI位置点数据的空间集聚模式分析。

下面将结合本发明中的附图，对本发明的算法过程进行详细阐述，具体步骤如下：

1)对输入的海量POI位置点数据进行去噪处理，这里采用LOF(Local OutlierFactor)离群值检测方法对噪声数据进行检测：

其中，p是指中心点，o_i是指中心点的第i个KNN对象，r_dis_k(p，o_i)是指点p到点o_i的可达距离，

是指两点之间的欧氏距离，r_i是指第i个KNN对象的第k邻近距离。lrd_k(p)是指点p的局部可达密度，|N_k(p)|表示点p的KNN包含的点数，N_k(p)表示它的KNN的点集合。LOF_k(p)表示点p的局部异常因子。

2)计算企业POI点集x，y两个维度的方差，选择方差最大的x作为初始划分维度。搜索所有POIx值的中位数，将该中位数作为切分点，将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与x垂直的y轴实现。由根结点生成深度为1的左、右子结点：左子结点对应坐标小于切分点的子区域，右子结点对应于坐标大于切分点的子区域，将落在切分超平面上的实例点保存在根结点。按上述步骤进行递归操作，直到所有POI点都被保存为子节点，构建完成KD-Tree；

3)搜索每个POI点的K最邻近对象，这里设定的K＝30。计算该点与其父节点的空间距离并以该点为圆心，距离为半径作圆形搜索域，寻找与其相交的子空间。计算子空间节点与该点的空间距离，与搜索域半径比较大小，如果大于半径，则回溯到该点父节点的父节点，否则更新最邻近距离，继续向上回溯遍历，直到回溯到KD-Tree的根结点。重复上述步骤，直到所有POI点都搜索到其KNN点对象。

4)先遍历每一个POI位置点，根据每个KNN对象与中心点构成的角度，计算的步骤如图1中的②所示，计算中心点的局部方向中心性度量值：

并且把度量值进行归一化：

5)如果该点的局部方向中心性度量DC值小于设定的阈值T＝0.3，则该点被归类为聚类簇的内部点；如果该点的局部方向中心性度量DC值大于设定的阈值T，则该点被归类为聚类簇的边界点，计算的步骤如图1中的③所示。

6)计算每个内部点p_i到与其最邻近边界点的距离作为它的可达距离d_i。然后连接内部点p_i与其他内部点p_j，如果d_ij≤d_i+d_j，则把这两个内部点归为同一个聚类簇；如果d_ij>d_i+d_j，则跳过点p_j，遍历其余内部点，直到所有内部点都被赋予聚类簇ID，计算的步骤如图1中的④所示。

7)搜索每个边界点最邻近的内部点，并且把该内部点的聚类簇ID信息赋予该边界点，计算的步骤如图1中的⑤所示。

8)将所有POI及其聚类簇ID上传至Kepler.gl开源Web可视化库，并设置合适的要素类型、样式颜色等对聚类结果进行前端可视化，分析POI的空间集聚模式。

本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于局部方向中心性度量的聚类方法，其特征在于，包括：

S6：对于划分的边界点，归类至与边界点最邻近的内部点的聚类簇；

其中，S3具体包括：

S3.1：以(x_i,y_i)为中心点建立极坐标系；

S3.2：计算中心点与其K最邻近对象(x_j,y_j)的x坐标差Δx＝x_j-x_i和y坐标差Δy＝y_j-y_i；

S3.3：判断K最邻近对象(x_j,y_j)在建立的极坐标系中的象限，并计算在该坐标系下构成的角度：

S3.5：将度量值进行归一化处理：

其中，DC′表示归一化处理后的度量值。

2.如权利要求1所述的方法，其特征在于，S1具体包括：

3.如权利要求2所述的方法，其特征在于，S1.2中以根结点作为切分点，将根结点对应的超矩形区域切分为两个子区域，包括：

4.如权利要求1所述的方法，其特征在于，S2具体包括：

5.如权利要求1所述的方法，其特征在于，S4具体包括：

6.如权利要求1所述的方法，其特征在于，S5具体包括：

7.如权利要求1所述的方法，其特征在于，S6具体包括：

8.如权利要求1所述的方法，其特征在于，在S6之后，所述方法还包括S7：

将所有聚类结果在地图上面进行可视化显示。

9.如权利要求8所述的方法，其特征在于，为每个POI点归属的聚类簇赋予聚类簇ID，S7具体包括：将所有POI点以及对应的聚类簇ID上传至Kepler.gl开源Web可视化库，并设置要素类型、样式颜色对聚类结果进行前端可视化，分析POI的空间集聚模式。