CN111291276A - 一种基于局部方向中心性度量的聚类方法 - Google Patents

一种基于局部方向中心性度量的聚类方法 Download PDF

Info

Publication number
CN111291276A
CN111291276A CN202010032456.1A CN202010032456A CN111291276A CN 111291276 A CN111291276 A CN 111291276A CN 202010032456 A CN202010032456 A CN 202010032456A CN 111291276 A CN111291276 A CN 111291276A
Authority
CN
China
Prior art keywords
point
points
poi
cluster
nearest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010032456.1A
Other languages
English (en)
Other versions
CN111291276B (zh
Inventor
彭德华
桂志鹏
吴华意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010032456.1A priority Critical patent/CN111291276B/zh
Publication of CN111291276A publication Critical patent/CN111291276A/zh
Application granted granted Critical
Publication of CN111291276B publication Critical patent/CN111291276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于局部方向中心性度量的聚类方法,包括S1、根据企业POI位置数据的空间分布,建立KD‑Tree的二维空间索引;S2、遍历每个POI点,基于KD‑Tree的回溯操作搜索它的空间K最邻近;S3、计算每个点与其KNN邻域构成的角度方差,并将它归一化;S4、根据指定的角度方差阈值把所有点划分为内部点和边界点;S5、根据连接的规则把内部点连接成多个聚类簇,直到所有内部点都已经有归属的聚类簇;S6、将所有边界点归类到与其最邻近的内部点的聚类簇。本发明采用基于KNN和基于方向的核心思想能够有效解决这两个问题,既能同时准确地识别密集和稀疏的聚类簇,也能将连接的多个不同簇进行合理的分割。

Description

一种基于局部方向中心性度量的聚类方法
技术领域
本发明涉及POI位置数据的空间集聚模式分析技术领域,具体涉及一种基于局部方向中心性度量的聚类方法。
背景技术
空间聚类是一种经典且有效的点集聚模式分析的方法,它通过计算地理对象的空间距离度量其相似性,将相似性高的地理对象划分为一类,这种方法被广泛应用于交通、地质、经济和医学等领域。
传统的聚类方法可以分为五类:基于划分、基于密度、基于层次、基于网格和基于模型的聚类方法。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
传统方法难以解决数据中存在的弱连接和密度分布不均的问题,对于存在弱连接的聚类簇传统方法容易将它们划分为同一个簇,或者将连接的部分点识别为噪声而剔除,破坏簇的完整性。而对于密度不均的聚类簇,稀疏的簇往往容易被当作噪声而剔除。这使得传统聚类方法在空间结构复杂、聚类形态各异、密度分布不均的海量POI位置点数据空间集聚模式分析的场景下,难以适应数据的分布形态和显著的簇密度差异,而无法准确地识别所有聚类簇的空间分布模式。
由此可知,现有技术中的方法由于数据中存在弱连接和密度分布不均,从而导致分析不够准确的技术问题。
发明内容
有鉴于此,本发明提供了一种基于局部方向中心性度量的聚类方法,用以解决或者至少部分解决现有技术中的方法由于数据中存在弱连接和密度分布不均,从而导致分析不够准确的技术问题。
为了解决上述技术问题,本发明提供了一种基于局部方向中心性度量的聚类方法,包括:
S1:根据POI位置数据的空间分布,构建KD树,其中KD树的结点表示POI点,KD树的边表示POI点之间属于划分的上下级关系;
S2:对构建的KD树进行回溯操作,搜索每个POI点的K最邻近对象;
S3:计算每个POI点与对应的K最邻近对象构成的角度方差,将角度方差作为POI点局部方向中心性度量,并将角度方差进行归一化处理;
S4:根据归一化处理后的角度方差与角度方差阈值之间的关系,将所有POI点划分为内部点和边界点;
S5:对于划分的内部点,根据预设连接规则连接成多个聚类簇,直到所有内部点都具有归属的聚类簇;
S6:对于划分的边界点,归类至与边界点最邻近的内部点的聚类簇。
在一种实施方式中,S1具体包括:
S1.1:计算POI点集在不同属性维度的方差,并选择方差最大对应的属性维度作为初始划分维度;
S1.2:获取所有POI点在初始划分维度的取值,根据POI点在初始划分维度的取值计算初始划分维度对应的中位数,并将中位数对应的POI点作为KD树的根结点,以根结点作为切分点,将根结点对应的超矩形区域切分为两个子区域,其中,根结点对应的超矩形区域表示根结点表示的POI点分布的最小空间,切分的两个子区域表示下一级的划分;
S1.3:对于每个子区域内,重复执行S1.1~S1.2,直到所有POI点都被保存为子结点,构建得到KD树。
在一种实施方式中,S1.2中以根结点作为切分点,将根结点对应的超矩形区域切分为两个子区域,包括:
将垂直于初始划分维度的超平面作为分割线对整个超矩形区域进行划分,其中,由根结点生成深度为1的左、右子结点:左子结点对应坐标小于切分点的子区域,右子结点对应于坐标大于切分点的子区域,将超平面切割经过的POI点保存在根结点。
在一种实施方式中,S2具体包括:
S2.1:搜索每个POI点的K最邻近对象,计算POI点与其父节点的空间距离,并以该POI点为圆心、POI点与其父节点的空间距离为半径作圆形搜索域,寻找与圆形搜索域相交的子空间;
S2.2:计算子空间中结点与该POI点的空间距离,与搜索域半径比较大小;如果大于半径,则回溯到该结点父结点的父结点,重复执行S2.1-S2.2;如果小于半径,则更新最邻近距离,继续向上回溯遍历,直到回溯到KD树的根结点;
S2.3:重复执行S2.1-S2.2,直到所有POI点都搜索到对应的K最邻近对象。
在一种实施方式中,S3具体包括:
S3.1:以(xi,yi)为中心点建立极坐标系;
S3.2:计算中心点与其K最邻近对象(xj,yj)的x坐标差Δx=xj-xi和y坐标差Δy=yj-yi
S3.3:判断K最邻近对象(xj,yj)在建立的极坐标系中的象限,并计算在该坐标系下构成的角度:
S3.4:计算每个POI点与对应的K最邻近对象构成的角度方差,将角度方差作为中心点的局部方向中心性度量值:
Figure BDA0002364832000000031
其中,αi表示第i个K最邻近对象与中心点构成的角度,DC表示中心点的局部方向中心性度量值;
S3.5:将度量值进行归一化处理:
Figure BDA0002364832000000032
其中,DC′表示归一化处理后的度量值。
在一种实施方式中,S4具体包括:
如果POI点与对应的K最邻近对象构成的角度方差小于角度方差阈值T,则该POI点被归类为聚类簇的内部点;如果POI点与对应的K最邻近对象构成的角度方差大于角度方差阈值T,则该POI点被归类为聚类簇的边界点。
在一种实施方式中,S5具体包括:
S5.1:将内部点pi与最邻近边界点的距离作为内部点pi的可达距离di、其他内部点pj与最邻近边界点的距离作为内部点pj的可达距离dj
S5.2:连接内部点pi与其他内部点pj,判断两个点的欧氏距离与内部点可达距离和之间的关系,如果dij≤di+dj,则将这两个内部点归为同一个聚类簇;如果dij>di+dj,则跳过点pj,遍历其余内部点,直到所有内部点都具有归属的聚类簇,dij表示内部点pi与其他内部点pj的欧氏距离。
在一种实施方式中,S6具体包括:
搜索每个边界点最邻近的内部点,并将边界点归属于该内部点所在的聚类簇。
在一种实施方式中,在S6之后,所述方法还包括S7:
将所有聚类结果在地图上面进行可视化显示。
在一种实施方式中,为每个POI点归属的聚类簇赋予聚类簇ID,S7具体包括:将所有POI点以及对应的聚类簇ID上传至Kepler.gl开源Web可视化库,并设置要素类型、样式颜色对聚类结果进行前端可视化,分析POI的空间集聚模式。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明公开的一种基于局部方向中心性度量的聚类方法,对于划分的内部点,根据预设连接规则连接成多个聚类簇,对于划分的边界点,归类至与边界点最邻近的内部点的聚类簇,能够根据聚类簇边界点和内部点不同的分布规律而有效地区分两者,通过对边界点的有效识别,聚类簇的基本空间形态可以被确定,从而能够将弱连接的连接部分有效划分给其连接的多个簇而不破坏簇的完整性。另一方面,本发明计算每个POI点与对应的K最邻近对象构成的角度方差,将角度方差作为POI点局部方向中心性度量,即采用了KNN的邻域搜索方法,可以有效地处理不同密度的点分布,从而解决簇密度分布不均的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于局部方向中心性度量的聚类方法示意图;
图2是本发明实施例中基于局部方向中心性度量的聚类方法的流程图;
图3是本发明在人造数据集的边界点提取结果示意图;
图4是本发明与传统聚类方法在数据集DS1-DS3的结果对比示意图;
图5是本发明与传统聚类方法在数据集DS4-DS6的结果对比示意图;
图6是不同聚类算法的运行时间结果对比示意图;
图7是基于湖北省企业POI位置点数据生成的聚类结果示意图。
具体实施方式
本发明提供的一种基于局部方向中心性度量的聚类方法包括:S1、根据企业POI位置数据的空间分布,建立KD-Tree的二维空间索引,以此快速搜索POI的空间最邻近点对象;S2、遍历每个POI点,基于KD-Tree的回溯操作搜索它的空间K最邻近;S3、计算每个点与其KNN邻域构成的角度方差,并将它归一化;S4、根据指定的角度方差阈值把所有点划分为内部点和边界点;S5、根据连接的规则把内部点连接成多个聚类簇,直到所有内部点都已经有归属的聚类簇;S6、将所有边界点归类到与其最邻近的内部点的聚类簇;S7、将所有聚类结果在地图上面进行可视化。
针对传统聚类方法难以解决弱连接和密度分布不均的问题,本发明的方法采用基于KNN和基于方向的核心思想能够有效解决这两个问题,既能同时准确地识别密集和稀疏的聚类簇,也能将连接的多个不同簇进行合理的分割。本发明方法可应用于具有位置信息各类POI数据集,以分析它们的空间聚集模式。例如,基于全国工商企业注册数据的产业空间聚集模式挖掘,基于出租车上下车点的数据进行热点探测,以及基于社交媒体数据的人类活动空间分布与聚集模式挖掘等。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于局部方向中心性度量的聚类方法,该方法结合KNN和边界点提取的思想,能够有效解决海量POI位置点数据空间集聚模式分析中存在的弱连接和密度分布不均的问题。对于聚类簇的内部点,它周围往往都会分布其他POI点,而对于聚类簇的边界点来说,只会在特点的方向范围内存在邻近点对象。基于此,本发明设计了一种基于方向度量POI中心性的指标,相对传统的Mean shift方法能够有效地识别聚类簇的内部点与边界点,效果如图3所示。而KNN的思想能够适应存在显著密度差异的点分布,辅助聚类方法将稠密和稀疏的聚类簇同时识别,聚类效果如图4和5所示。对于本算法的效率来说,它介于DBSCAN和LGC之间,多种传统方法的计算效率比较如图6所示。本发明方法可应用于具有位置信息各类POI数据集,以分析它们的空间聚集模式和时空演化规律。例如,基于全国工商企业注册数据的产业空间聚集模式挖掘,基于出租车上下车点的数据进行热点探测,以及基于社交媒体数据的人类活动空间分布与聚集模式挖掘等。
本实施例提供了一种基于局部方向中心性度量的聚类方法,请参见图2,该方法包括:
S1:根据POI位置数据的空间分布,构建KD树,其中KD树的结点表示POI点,KD树的边表示POI点之间属于划分的上下级关系。
具体来说,KD树是一种二叉树,KD树中包含的结点为POI点,边表示POI点之间属于划分的上下级关系,即上层的结点为下层结点的父结点,通过KD树的二维空间索引可以快速搜索POI的空间最邻近点对象:K最邻近对象。
S2:对构建的KD树进行回溯操作,搜索每个POI点的K最邻近对象。
具体来说,对于构建的KD树,遍历每一个结点(即每一个POI点)基于回溯操作,搜索每个POI点的K最邻近对象。
S3:计算每个POI点与对应的K最邻近对象构成的角度方差,将角度方差作为POI点局部方向中心性度量,并将角度方差进行归一化处理。
具体来说,可以根据POI点与对应的K最邻近对象在预设坐标下的坐标差计算角度,进而计算角度方差,将其作为POI点局部方向中心性度量。
S4:根据归一化处理后的角度方差与角度方差阈值之间的关系,将所有POI点划分为内部点和边界点。
S5:对于划分的内部点,根据预设连接规则连接成多个聚类簇,直到所有内部点都具有归属的聚类簇。
具体来说,S5是对步骤S4划分出的内部点的聚类方法,可以将两个内部点相连,然后判断两点之间的距离与各自点的可达距离之和的关系,从而对内部点进行聚类簇划分。
S6:对于划分的边界点,归类至与边界点最邻近的内部点的聚类簇。
具体来说,具体来说,S6是对步骤S4划分出的边界点的聚类方法,将边界点划分到最邻近的内部点所在的簇。
在一种实施方式中,S1具体包括:
S1.1:计算POI点集在不同属性维度的方差,并选择方差最大对应的属性维度作为初始划分维度;
S1.2:获取所有POI点在初始划分维度的取值,根据POI点在初始划分维度的取值计算初始划分维度对应的中位数,并将中位数对应的POI点作为KD树的根结点,以根结点作为切分点,将根结点对应的超矩形区域切分为两个子区域,其中,根结点对应的超矩形区域表示根结点表示的POI点分布的最小空间,切分的两个子区域表示下一级的划分;
S1.3:对于每个子区域内,重复执行S1.1~S1.2,直到所有POI点都被保存为子结点,构建得到KD树。
具体来说,POI点集即为所有POI点构成的集合,每个POI点都包含若干属性维度,例如经度、维度就是两种属性维度。在构建KD树的时候,先计算每个属性维度的方差,具体地,例如计算所有POI纬度的方差,计算所有POI经度的方差。在每个维度下,n个POI点构成一个长度为n的一维向量{x1,x2..xn},计算这n个数的方差,即为POI点集在该属性维度的方差。
KD树的构建过程是在每个属性维度进行二分操作,目的在于使得每个分区包含的点数量尽可能相等。而计算方差则可以挑选出点分布离散的维度,选择这些维度优先进行划分则可以保证所有点尽可能分布在各个分区而且数量接近相等。
每个POI点在每个属性维度都具有相对应的取值,取所有POI点在该属性维度的取值,比如取所有POI点的纬度,计算所有维度的中位数。通过计算最大方差的维度的方式来确定根结点,首先选择该维度所有POI取值的中位数,这个中位数对应的POI点作为KD树的根结点。树的结点对应每个POI点,每个矩形区域都相当于是空间的一个划分。
在一种实施方式中,S1.2中以根结点作为切分点,将根结点对应的超矩形区域切分为两个子区域,包括:
将垂直于初始划分维度的超平面作为分割线对整个超矩形区域进行划分,其中,由根结点生成深度为1的左、右子结点:左子结点对应坐标小于切分点的子区域,右子结点对应于坐标大于切分点的子区域,将超平面切割经过的POI点保存在根结点。
具体来说,切分由通过切分点并与该属性维度垂直的超平面来实现。超矩形区域是所有POI点分布的最小空间,比如二维POI点就是最小外接矩形。超平面则是选取方差最大的维度之后,取垂直该维度的平面,超平面作为分割线对整个超矩形区域进行划分,比如二维POI点,如果计算所有点的x坐标的方差最大(即X维度方差最大),则利用平行于y轴垂直于x轴的直线把整个最小外接矩形划分。
在具体的实施过程,切分超平面上的点可能不止一个,比如用垂直于x轴的直线划分矩形区域,这条在中位数POI点上的直线可能还有其他POI点,这些点都可以保存在根结点。
下面以A、B和C三个POI点为例,说明划分过程:
根结点表示最开始的一次划分,切分平面上的点。结点之间的边表示它们属于划分的上下级关系,比如A作为根结点连接着B和C,说明第一次划分经过A,而B和C分别在A的左右两边,下一次划分分别穿过了B和C。
在一种实施方式中,S2具体包括:
S2.1:搜索每个POI点的K最邻近对象,计算POI点与其父节点的空间距离,并以该POI点为圆心、POI点与其父节点的空间距离为半径作圆形搜索域,寻找与圆形搜索域相交的子空间;
S2.2:计算子空间中结点与该POI点的空间距离,与搜索域半径比较大小;如果大于半径,则回溯到该结点父结点的父结点,重复执行S2.1-S2.2;如果小于半径,则更新最邻近距离,继续向上回溯遍历,直到回溯到KD树的根结点;
S2.3:重复执行S2.1-S2.2,直到所有POI点都搜索到对应的K最邻近对象。
具体来说,通过将与圆形搜索域有交集的子空间上的结点与该POI点的空间距离与搜索域半径进行比较,搜索还有没有离这个点更近的点。
在搜索KNN对象的过程中,每个POI点都要被遍历一次,都要去搜索它的KNN。S2.2中重复执行是为了找到一个POI点的KNN,S2.3中的重复执行是为了使得所有点都找到各自的KNN,两处重复执行相当于两层循环。
通过构建KD树则可以降低点与点之间距离计算的成本,节约查询每个点KNN的计算开销。
在一种实施方式中,S3具体包括:
S3.1:以(xi,yi)为中心点建立极坐标系;
S3.2:计算中心点与其K最邻近对象(xj,yj)的x坐标差Δx=xj-xi和y坐标差Δy=yj-yi
S3.3:判断K最邻近对象(xj,yj)在建立的极坐标系中的象限,并计算在该坐标系下构成的角度:
S3.4:计算每个POI点与对应的K最邻近对象构成的角度方差,将角度方差作为中心点的局部方向中心性度量值:
Figure BDA0002364832000000091
其中,αi表示第i个K最邻近对象与中心点构成的角度,DC表示中心点的局部方向中心性度量值;
S3.5:将度量值进行归一化处理:
Figure BDA0002364832000000092
其中,DC′表示归一化处理后的度量值。
具体来说,S3.3可以通过下述方式来实现:
1)若Δx=0且Δy=0,则αi=0;
2)若Δx=0且Δy>0,则
Figure BDA0002364832000000093
3)若Δx=0且Δy<0,则
Figure BDA0002364832000000094
4)若Δx>0且
Figure BDA0002364832000000095
Figure BDA0002364832000000096
5)若Δx>0且
Figure BDA0002364832000000101
Figure BDA0002364832000000102
6)若Δx<0,则
Figure BDA0002364832000000103
在一种实施方式中,S4具体包括:
如果POI点与对应的K最邻近对象构成的角度方差小于角度方差阈值T,则该POI点被归类为聚类簇的内部点;如果POI点与对应的K最邻近对象构成的角度方差大于角度方差阈值T,则该POI点被归类为聚类簇的边界点。
在一种实施方式中,S5具体包括:
S5.1:将内部点pi与最邻近边界点的距离作为内部点pi的可达距离di、其他内部点pj与最邻近边界点的距离作为内部点pj的可达距离dj
S5.2:连接内部点pi与其他内部点pj,判断两个点的欧氏距离与内部点可达距离和之间的关系,如果dij≤di+dj,则将这两个内部点归为同一个聚类簇;如果dij>di+dj,则跳过点pj,遍历其余内部点,直到所有内部点都具有归属的聚类簇,dij表示内部点pi与其他内部点pj的欧氏距离。
具体来说,其他内部点pj是指除内部点pi之外的内部点,当dij>di+dj,则跳过点pj,遍历其余内部点,即除内部点pi、内部点pj之外的内部点。
在一种实施方式中,S6具体包括:
搜索每个边界点最邻近的内部点,并将边界点归属于该内部点所在的聚类簇。
在一种实施方式中,在S6之后,所述方法还包括S7:
将所有聚类结果在地图上面进行可视化显示。
在一种实施方式中,为每个POI点归属的聚类簇赋予聚类簇ID,S7具体包括:将所有POI点以及对应的聚类簇ID上传至Kepler.gl开源Web可视化库,并设置要素类型、样式颜色对聚类结果进行前端可视化,分析POI的空间集聚模式。
本发明提出了一种基于局部方向中心性度量的聚类方法,该方法结合KNN和边界点提取的思想,能够有效解决海量POI位置点数据空间集聚模式分析中存在的弱连接和密度分布不均的问题。
下面通过一个具体示例对本发明提供的方法进行介绍。
现有21404条湖北省企业兴趣点(Point of Interest,POI)数据,包含各企业实体的注册位置数据,需要对上述企业POI位置点数据进行空间集聚模式分析。企业POI呈多中心分布,聚类簇之间的密度差异较大,而且存在大量的噪声点数据,传统的方法难以适应这种空间结构复杂、聚类形态各异、密度分布不均的海量POI位置点数据空间集聚模式分析场景。本发明方法在此应用场景下,选取K=30作为KNN的参数,T=0.3作为区分内部点和边界点的阈值,并在四核英特尔i7处理器和16GB内存的单机上进行实验,操作系统为Windows10,算法采用Matlab实现。
本发明结合KNN的邻域思想,能够有效处理稠密和稀疏聚类簇同时存在的情况。此外,本发明根据边界点与内部点其邻域点对象的分布特征区分两者,在聚类之前提取聚类簇的边界信息,能够很好地解决聚类簇之间的弱连接问题。从而实现高精度聚类,支持海量POI位置点数据的空间集聚模式分析。
下面将结合本发明中的附图,对本发明的算法过程进行详细阐述,具体步骤如下:
1)对输入的海量POI位置点数据进行去噪处理,这里采用LOF(Local OutlierFactor)离群值检测方法对噪声数据进行检测:
Figure BDA0002364832000000111
Figure BDA0002364832000000112
Figure BDA0002364832000000113
其中,p是指中心点,oi是指中心点的第i个KNN对象,r_disk(p,oi)是指点p到点oi的可达距离,
Figure BDA0002364832000000114
是指两点之间的欧氏距离,ri是指第i个KNN对象的第k邻近距离。lrdk(p)是指点p的局部可达密度,|Nk(p)|表示点p的KNN包含的点数,Nk(p)表示它的KNN的点集合。LOFk(p)表示点p的局部异常因子。
2)计算企业POI点集x,y两个维度的方差,选择方差最大的x作为初始划分维度。搜索所有POIx值的中位数,将该中位数作为切分点,将根结点对应的超矩形区域切分为两个子区域。切分由通过切分点并与x垂直的y轴实现。由根结点生成深度为1的左、右子结点:左子结点对应坐标小于切分点的子区域,右子结点对应于坐标大于切分点的子区域,将落在切分超平面上的实例点保存在根结点。按上述步骤进行递归操作,直到所有POI点都被保存为子节点,构建完成KD-Tree;
3)搜索每个POI点的K最邻近对象,这里设定的K=30。计算该点与其父节点的空间距离并以该点为圆心,距离为半径作圆形搜索域,寻找与其相交的子空间。计算子空间节点与该点的空间距离,与搜索域半径比较大小,如果大于半径,则回溯到该点父节点的父节点,否则更新最邻近距离,继续向上回溯遍历,直到回溯到KD-Tree的根结点。重复上述步骤,直到所有POI点都搜索到其KNN点对象。
4)先遍历每一个POI位置点,根据每个KNN对象与中心点构成的角度,计算的步骤如图1中的②所示,计算中心点的局部方向中心性度量值:
Figure BDA0002364832000000121
并且把度量值进行归一化:
Figure BDA0002364832000000122
5)如果该点的局部方向中心性度量DC值小于设定的阈值T=0.3,则该点被归类为聚类簇的内部点;如果该点的局部方向中心性度量DC值大于设定的阈值T,则该点被归类为聚类簇的边界点,计算的步骤如图1中的③所示。
6)计算每个内部点pi到与其最邻近边界点的距离作为它的可达距离di。然后连接内部点pi与其他内部点pj,如果dij≤di+dj,则把这两个内部点归为同一个聚类簇;如果dij>di+dj,则跳过点pj,遍历其余内部点,直到所有内部点都被赋予聚类簇ID,计算的步骤如图1中的④所示。
7)搜索每个边界点最邻近的内部点,并且把该内部点的聚类簇ID信息赋予该边界点,计算的步骤如图1中的⑤所示。
8)将所有POI及其聚类簇ID上传至Kepler.gl开源Web可视化库,并设置合适的要素类型、样式颜色等对聚类结果进行前端可视化,分析POI的空间集聚模式,可视化的结果如图7所示。
本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种基于局部方向中心性度量的聚类方法,其特征在于,包括:
S1:根据POI位置数据的空间分布,构建KD树,其中KD树的结点表示POI点,KD树的边表示POI点之间属于划分的上下级关系;
S2:对构建的KD树进行回溯操作,搜索每个POI点的K最邻近对象;
S3:计算每个POI点与对应的K最邻近对象构成的角度方差,将角度方差作为POI点局部方向中心性度量,并将角度方差进行归一化处理;
S4:根据归一化处理后的角度方差与角度方差阈值之间的关系,将所有POI点划分为内部点和边界点;
S5:对于划分的内部点,根据预设连接规则连接成多个聚类簇,直到所有内部点都具有归属的聚类簇;
S6:对于划分的边界点,归类至与边界点最邻近的内部点的聚类簇。
2.如权利要求1所述的方法,其特征在于,S1具体包括:
S1.1:计算POI点集在不同属性维度的方差,并选择方差最大对应的属性维度作为初始划分维度;
S1.2:获取所有POI点在初始划分维度的取值,根据POI点在初始划分维度的取值计算初始划分维度对应的中位数,并将中位数对应的POI点作为KD树的根结点,以根结点作为切分点,将根结点对应的超矩形区域切分为两个子区域,其中,根结点对应的超矩形区域表示根结点表示的POI点分布的最小空间,切分的两个子区域表示下一级的划分;
S1.3:对于每个子区域内,重复执行S1.1~S1.2,直到所有POI点都被保存为子结点,构建得到KD树。
3.如权利要求2所述的方法,其特征在于,S1.2中以根结点作为切分点,将根结点对应的超矩形区域切分为两个子区域,包括:
将垂直于初始划分维度的超平面作为分割线对整个超矩形区域进行划分,其中,由根结点生成深度为1的左、右子结点:左子结点对应坐标小于切分点的子区域,右子结点对应于坐标大于切分点的子区域,将超平面切割经过的POI点保存在根结点。
4.如权利要求1所述的方法,其特征在于,S2具体包括:
S2.1:搜索每个POI点的K最邻近对象,计算POI点与其父节点的空间距离,并以该POI点为圆心、POI点与其父节点的空间距离为半径作圆形搜索域,寻找与圆形搜索域相交的子空间;
S2.2:计算子空间中结点与该POI点的空间距离,与搜索域半径比较大小;如果大于半径,则回溯到该结点父结点的父结点,重复执行S2.1-S2.2;如果小于半径,则更新最邻近距离,继续向上回溯遍历,直到回溯到KD树的根结点;
S2.3:重复执行S2.1-S2.2,直到所有POI点都搜索到对应的K最邻近对象。
5.如权利要求1所述的方法,其特征在于,S3具体包括:
S3.1:以(xi,yi)为中心点建立极坐标系;
S3.2:计算中心点与其K最邻近对象(xj,yj)的x坐标差Δx=xj-xi和y坐标差Δy=yj-yi
S3.3:判断K最邻近对象(xj,yj)在建立的极坐标系中的象限,并计算在该坐标系下构成的角度:
S3.4:计算每个POI点与对应的K最邻近对象构成的角度方差,将角度方差作为中心点的局部方向中心性度量值:
Figure FDA0002364831990000021
其中,αi表示第i个K最邻近对象与中心点构成的角度,DC表示中心点的局部方向中心性度量值;
S3.5:将度量值进行归一化处理:
Figure FDA0002364831990000022
其中,DC'表示归一化处理后的度量值。
6.如权利要求1所述的方法,其特征在于,S4具体包括:
如果POI点与对应的K最邻近对象构成的角度方差小于角度方差阈值T,则该POI点被归类为聚类簇的内部点;如果POI点与对应的K最邻近对象构成的角度方差大于角度方差阈值T,则该POI点被归类为聚类簇的边界点。
7.如权利要求1所述的方法,其特征在于,S5具体包括:
S5.1:将内部点pi与最邻近边界点的距离作为内部点pi的可达距离di、其他内部点pj与最邻近边界点的距离作为内部点pj的可达距离dj
S5.2:连接内部点pi与其他内部点pj,判断两个点的欧氏距离与内部点可达距离和之间的关系,如果dij≤di+dj,则将这两个内部点归为同一个聚类簇;如果dij>di+dj,则跳过点pj,遍历其余内部点,直到所有内部点都具有归属的聚类簇,dij表示内部点pi与其他内部点pj的欧氏距离。
8.如权利要求1所述的方法,其特征在于,S6具体包括:
搜索每个边界点最邻近的内部点,并将边界点归属于该内部点所在的聚类簇。
9.如权利要求1所述的方法,其特征在于,在S6之后,所述方法还包括S7:
将所有聚类结果在地图上面进行可视化显示。
10.如权利要求9所述的方法,其特征在于,为每个POI点归属的聚类簇赋予聚类簇ID,S7具体包括:将所有POI点以及对应的聚类簇ID上传至Kepler.gl开源Web可视化库,并设置要素类型、样式颜色对聚类结果进行前端可视化,分析POI的空间集聚模式。
CN202010032456.1A 2020-01-13 2020-01-13 一种基于局部方向中心性度量的聚类方法 Active CN111291276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010032456.1A CN111291276B (zh) 2020-01-13 2020-01-13 一种基于局部方向中心性度量的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010032456.1A CN111291276B (zh) 2020-01-13 2020-01-13 一种基于局部方向中心性度量的聚类方法

Publications (2)

Publication Number Publication Date
CN111291276A true CN111291276A (zh) 2020-06-16
CN111291276B CN111291276B (zh) 2023-05-19

Family

ID=71021217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010032456.1A Active CN111291276B (zh) 2020-01-13 2020-01-13 一种基于局部方向中心性度量的聚类方法

Country Status (1)

Country Link
CN (1) CN111291276B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113899971A (zh) * 2021-09-30 2022-01-07 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011142A1 (en) * 2010-07-08 2012-01-12 Qualcomm Incorporated Feedback to improve object recognition
CN104462190A (zh) * 2014-10-24 2015-03-25 中国电子科技集团公司第二十八研究所 一种基于海量空间轨迹挖掘的在线的位置预测方法
US20150363660A1 (en) * 2014-06-12 2015-12-17 Asap54.Com Ltd System for automated segmentation of images through layout classification
CN105912611A (zh) * 2016-04-05 2016-08-31 中国科学技术大学 一种基于cnn的快速图像检索方法
US20160342677A1 (en) * 2015-05-21 2016-11-24 Dell Products, Lp System and Method for Agglomerative Clustering
CN107038248A (zh) * 2017-04-27 2017-08-11 杭州杨帆科技有限公司 一种基于弹性分布数据集的海量空间数据密度聚类方法
CN108537274A (zh) * 2018-04-08 2018-09-14 武汉大学 一种基于网格的空间多尺度快速聚类方法
US20180276885A1 (en) * 2017-03-27 2018-09-27 3Dflow Srl Method for 3D modelling based on structure from motion processing of sparse 2D images
US20190155837A1 (en) * 2010-08-10 2019-05-23 Navvis Gmbh Visual localization method
CN109858545A (zh) * 2019-01-28 2019-06-07 长江师范学院 一种基于并行自然邻的局部核心点聚类算法
CN110008215A (zh) * 2019-03-22 2019-07-12 武汉大学 一种基于改进的kd树并行算法的大数据搜索方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120011142A1 (en) * 2010-07-08 2012-01-12 Qualcomm Incorporated Feedback to improve object recognition
US20190155837A1 (en) * 2010-08-10 2019-05-23 Navvis Gmbh Visual localization method
US20150363660A1 (en) * 2014-06-12 2015-12-17 Asap54.Com Ltd System for automated segmentation of images through layout classification
CN104462190A (zh) * 2014-10-24 2015-03-25 中国电子科技集团公司第二十八研究所 一种基于海量空间轨迹挖掘的在线的位置预测方法
US20160342677A1 (en) * 2015-05-21 2016-11-24 Dell Products, Lp System and Method for Agglomerative Clustering
CN105912611A (zh) * 2016-04-05 2016-08-31 中国科学技术大学 一种基于cnn的快速图像检索方法
US20180276885A1 (en) * 2017-03-27 2018-09-27 3Dflow Srl Method for 3D modelling based on structure from motion processing of sparse 2D images
CN107038248A (zh) * 2017-04-27 2017-08-11 杭州杨帆科技有限公司 一种基于弹性分布数据集的海量空间数据密度聚类方法
CN108537274A (zh) * 2018-04-08 2018-09-14 武汉大学 一种基于网格的空间多尺度快速聚类方法
CN109858545A (zh) * 2019-01-28 2019-06-07 长江师范学院 一种基于并行自然邻的局部核心点聚类算法
CN110008215A (zh) * 2019-03-22 2019-07-12 武汉大学 一种基于改进的kd树并行算法的大数据搜索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张硕;孙殿柱;李延瑞;梁增凯;: "海量采样点集法向聚类并行估计及增量统一算法" *
张硕;孙殿柱;李延瑞;梁增凯;: "海量采样点集法向聚类并行估计及增量统一算法", 组合机床与自动化加工技术 *
杜沛;程晓荣;: "一种基于K近邻的比较密度峰值聚类算法", 计算机工程与应用 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113899971A (zh) * 2021-09-30 2022-01-07 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法
CN113899971B (zh) * 2021-09-30 2023-11-14 广东电网有限责任公司广州供电局 基于密度相似稀疏聚类的变压器异常工况判别方法

Also Published As

Publication number Publication date
CN111291276B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
WO2020134082A1 (zh) 一种路径规划方法、装置和移动设备
CN111640089B (zh) 一种基于特征图中心点的缺陷检测方法及装置
CN104766084B (zh) 一种多目标匹配的近复制图像检测方法
CN112847343B (zh) 动态目标跟踪定位方法、装置、设备和存储介质
CN108416785B (zh) 面向封闭空间的拓扑分割方法及装置
CN110909788B (zh) 一种基于统计聚类的轨迹数据中道路交叉口位置识别方法
CN111444767B (zh) 一种基于激光雷达的行人检测和追踪方法
US20140125663A1 (en) 3d model shape analysis method based on perception information
CN107622499A (zh) 一种基于目标二维轮廓模型的识别与空间定位方法
Jiang et al. Identifying K Primary Corridors from urban bicycle GPS trajectories on a road network
CN107818338B (zh) 一种面向地图综合的建筑物群组模式识别的方法及系统
CN117495891B (zh) 点云边缘检测方法、装置和电子设备
CN110781943A (zh) 一种基于毗邻网格搜索的聚类方法
CN111291276A (zh) 一种基于局部方向中心性度量的聚类方法
CN108629315B (zh) 一种针对三维点云的多平面识别方法
Zhang et al. A new outlier detection algorithm based on fast density peak clustering outlier factor.
CN116721410A (zh) 一种航空发动机密集零部件三维实例分割方法和系统
Liu et al. A process-oriented spatiotemporal clustering method for complex trajectories of dynamic geographic phenomena
CN116452826A (zh) 基于机器视觉的遮挡情况下煤矸石轮廓估计方法
CN114357099B (zh) 一种聚类方法、聚类系统和存储介质
CN112418339B (zh) 基于随机森林的空中移动对象识别方法
CN115308770A (zh) 一种基于拟合图形的动态障碍物检测方法
CN111523576B (zh) 一种适用于电子质量检测的密度峰值聚类离群点检测方法
CN113887590A (zh) 一种目标典型航迹及区域分析方法
Su et al. SLIBO-Net: Floorplan Reconstruction via Slicing Box Representation with Local Geometry Regularization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant