CN106326923B - 一种顾及位置重复和密度峰值点的签到位置数据聚类方法 - Google Patents

一种顾及位置重复和密度峰值点的签到位置数据聚类方法 Download PDF

Info

Publication number
CN106326923B
CN106326923B CN201610707243.8A CN201610707243A CN106326923B CN 106326923 B CN106326923 B CN 106326923B CN 201610707243 A CN201610707243 A CN 201610707243A CN 106326923 B CN106326923 B CN 106326923B
Authority
CN
China
Prior art keywords
density
point
cluster
registering
core
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610707243.8A
Other languages
English (en)
Other versions
CN106326923A (zh
Inventor
邬群勇
刘萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201610707243.8A priority Critical patent/CN106326923B/zh
Publication of CN106326923A publication Critical patent/CN106326923A/zh
Application granted granted Critical
Publication of CN106326923B publication Critical patent/CN106326923B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及了一种顾及位置重复和密度峰值点的签到位置数据聚类方法,包括以下步骤:1.构建原始签到对象并进行预处理;2.统计每个位置上原始签到对象数量以此构建新对象FPi并构成集合F;3.计算截断距离dc;4.计算每个FPi的局部密度ρi和高密度最邻近距离δi;5.计算阈值ρ0和δ0并筛选出密度峰值点;6.获取与每个峰值点密度连通的核心点簇;7.搜索每个核心点簇的边界点添加到核心点簇中构成峰值密度簇,完成全部聚类过程。本发明充分考虑了签到位置重复的问题,有效避免了位置重复数量较高的离群点选为峰值并聚类的情况,聚类结果更加准确可靠,可以更好地反映城市居民空间聚集和活动变化情况,具有较高的实用价值。

Description

一种顾及位置重复和密度峰值点的签到位置数据聚类方法
技术领域
本发明涉及一种顾及位置重复和密度峰值点的签到位置数据聚类方法。
背景技术
随着带有位置服务功能的移动设备如智能手机、平板电脑的普及,基于位置的社交网络LBSN不断发展壮大,为城市商圈探索,解决城市交通、资源配置等问题提供了良好的数据源。位置签到是LBSN中一个具有代表性的功能,表示了用户利用具有LBS功能的设备记录自己当前位置、表情以及照片等信息并发布到社交网络上的行为。由于获取用户准确的位置是十分困难的,现有的LBSN普遍带有位置候选模块,列出了用户可能处于的已知位置来让用户自己选择。因此,当不同的签到行为(不同用户或不同时间)选择同一候选位置进行签到时,就会出现签到位置重复现象。
空间聚类是空间数据挖掘中一个重要方法。基于密度的空间聚类能够自动剔除空间分布较稀疏的对象,将局部空间密度较高的对象聚集为一类。因此采用基于密度的空间聚类可以较好地发现位置签到数据所形成的活动热区从而挖掘出城市居民的活动规律。
现有的基于密度的空间聚类法包括:基于密度的空间聚类方法(DBSCAN)、适应局部密度变化的空间聚类方法(ADBSC)、以及格网密度法等。但是这些方法大多直接以点对象的空间距离作为相似性度量指标来进行聚类,没有考虑要素在空间位置上的重复性问题。直接采用以上方法对签到数据进行聚类很有可能将某一重复位置上的全部对象聚成一类,点位过少,不利于活动热区的空间表达。并且这类方法把密度簇内部的看成是密度均匀的,无法获取密度峰值等重要信息,由此无法了解签到行为的集中趋势。
2014年,Rodriguez等提出了快速搜索和查找密度峰值聚类算法(CFSFDP),但是对于带有位置重复的签到数据,很容易将位置重复度较高的离群对象选为密度峰值,造成结果的可靠性下降;此外,由于在聚类过程才有基于密度阈值的划分方法,没有考虑峰值与核心点之间的连通性,很难保证密度簇的连续与完整。
发明内容
有鉴于此,本发明的目的在于提供一种顾及位置重复和密度峰值点的签到位置数据聚类方法,提高了聚类簇的表达效果。
为实现上述目的,本发明采用如下技术方案:一种顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于,包括以下步骤:
步骤S1:从签到文本中提取出每条签到信息的编号以及经纬度信息构成原始签到对象,对所有的原始签到对象进行预处理后构成集合O;
步骤S2:统计集合O中每个位置上的原始签到对象的数量dFreq,以索引号、该位置的坐标和dFreq构建对象FPi,将所有的对象FPi构成集合F,记F的总量为NF
步骤S3:计算集合F中两两对象间的欧式距离并构成距离矩阵D,并根据所述距离矩阵D计算出截断距离dc,其中D=[dij],为NF×NF方阵,dij为对象FPi与FPj之间的欧氏距离;
步骤S4:计算每个对象FPi的局部密度ρi和高密度最邻近距离δi
步骤S5:求出阈值ρ0和δ0,选择集合F中ρi0且δi0的对象FPi为密度峰值对象,将所有的密度峰值对象构成集合P,余下的对象构成集合F’;
步骤S6:任取集合P中的某一密度峰值对象Pi,遍历集合F’,以指定搜索半径Eps为范围和密度大于ρt为条件搜索与密度峰值对象Pi连通的核心点,构成密度峰值对象Pi的核心点簇{C}i
步骤S7:寻找密度峰值对象Pi和对应核心点周围所有的边界点,然后并入核心点簇{C}i构成密度峰值对象Pi的峰值点密度簇{P}i
步骤S8:重复步骤S6至S7直到集合P中对所有密度峰值对象Pi全部找完峰值点密度簇{P}i,获得最终聚类结果。
进一步的,所述步骤S1中的预处理包括:
(1)将原始签到对象的经纬度信息转换成墨卡托平面坐标;
(2)以研究区范围的区划图作为底图,将原始签到对象与底图进行叠置,剔除研究区域以外的对象。
进一步的,所述步骤S3中截断距离dc的计算方法如下:
取距离矩阵D中上三角中的元素(不包含对角线元素)进行升序排序,取第[(NF-1)*NF/2]*1%个元素作为截断距离dc
进一步的,所述步骤S4中对象FPi的局部密度ρi和高密度最邻近距离δi的计算方法如下:
其中,dij为dij为对象FPi与FPj之间的欧氏距离。
进一步的,所述步骤S5中阈值ρ0和δ0的确定步骤如下:
步骤S51:获取集合F中每个对象FPi的局部密度ρi构成集合L;
步骤S52:核计算集合L中每个局部密度ρi的核密度值kdi
步骤S53:对集合L中所有的局部密度ρi和核密度值kdi分别进行归一化处理,并以局部密度ρi为横轴,核密度值kdi为纵轴绘制归一化后的核密度曲线;
步骤S54:计算每个局部密度ρi处的斜率ki构成集合K;
步骤S55:设置阈值t,在集合K中逆序遍历寻找第一个绝对值大于阈值t的元素ki,取其对应的局部密度为ρ0
步骤S56:筛选集合F中局部密度大于ρ0的对象构成集合Fρ,以Fρ中对象的δ值构成集合Dρ
步骤S57:设集合Dρ中小于δ0的元素为正常部分,其概率为pt,根据异常检查的方式计算出δ0
进一步的,所述步骤S6中的核心点与核心点簇的定义如下:
核心点:对于数据对象p∈F’,若p的局部密度ρp大于等于密度阈值ρt,则称p为核心点;
核心点簇:以指定搜索半径Eps为范围和密度大于ρt为条件下,与密度峰值对象Pi密度连通的所有核心点构成的点簇,具体获取步骤如下:
步骤S61:遍历集合F’,以指定搜索半径Eps为范围和密度大于ρt为条件搜索与密度峰值对象Pi密度直达的所有核心点构成初级核心点簇{C’}i并从集合F’中去除相应元素;
步骤S62:对于初级核心点簇{C’}i中的任一成员PCi,在集合F’中以指定搜索半径Eps为范围和密度大于ρt为条件搜索与PCi密度直达、密度连通、密度相连的所有核心点构成核心点簇{C}i并从集合F’去除相应元素,直到对所有PCi找完为止。
进一步的,所述步骤S7中的边界点定义如下:
边界点:对于数据对象p∈F’,如果p的局部密度ρp小于密度阈值ρt,但p位于某个核心点或峰值点的Eps邻域内,则称p为边界点。
进一步的,所述步骤S8中的最终聚类结果包括峰值点密度簇和噪声集合两大部分,其中每个峰值点与其核心点簇及边界点构成峰值点密度簇,集合F’中不属于任何峰值密度簇的对象划入噪声集合。
本发明与现有技术相比具有以下有益效果:
1、本发明充分考虑并合理解决了签到位置存在重复的问题,有效避免现有CFSFDP算法将位置重复数量较高的离群点选为峰值并聚成一类的情况,所获取的峰值更加准确。此外,在聚类时考虑了密度连通性从而保证了密度簇的完整与连续,可以用来更好地表达城市居民空间聚集和活动变化情况;
2、本发明不同于DBSCAN、ADBSC等算法将聚类簇看成是密度均等的,而是基于“先找峰值后聚类”的算法思想,由此所获取的密度峰值点不仅可用来表示居民聚集的中心,还能够反映居民活动的聚集情况;
3、本发明对于不同结构的城市空间都能准确发现位置签到数据所汇聚成的密度簇,具有较好的空间适用性。
附图说明
图1是本发明的方法流程图。
图2是本发明核心点簇的获取流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于,包括以下步骤:
步骤S1:从签到文本中提取出每条签到信息的编号以及经纬度信息构成原始签到对象,对所有的原始签到对象进行预处理后构成集合O;所述预处理包括:
(1)将原始签到对象的经纬度信息转换成墨卡托平面坐标;这一步是为了便于在后续步骤中对象间欧式空间距离的计算与表示。转换方法如下:
Y=L·K
其中B为纬度,L为经度,X表示横坐标,Y为纵坐标,R=6378137m,为地球平均半径。
(2)以研究区范围的区划图作为底图,将原始签到对象与底图进行叠置,剔除研究区域以外的对象。
步骤S2:统计集合O中每个位置上的原始签到对象的数量dFreq,以索引号、该位置的坐标和dFreq构建对象FPi,将所有的FPi对象构成集合F,记F的总量为NF;FPi对象按照如下数据结构进行设计:
其中ptype字段包含以下几种类型值:1表示峰值;2表示核心点;3表示边界点;-1表示噪声;0表示未分配;FPi对象间的密度关系由横纵坐标和位置重复频率这三要素决定。F中FPi的总量等于O中所有不重复的签到位置的数量,记原始签到对象的总量为NO,集合F的总量为NF,则位置重复的签到对象总量ND=NO-NF
步骤S3:计算集合F中两两对象间的欧式距离并构成距离矩阵D,并根据所述距离矩阵D计算出截断距离dc,其中D=[dij],为NF×NF方阵,dij为对象FPi与FPj之间的欧氏距离;截断距离dc的计算方法如下:
取距离矩阵D中不含对角线的上三角中元素(不包含对角线元素)进行升序排序,取第[(NF-1)*NF/2]*1%个元素作为截断距离dc
步骤S4:计算每个对象FPi的局部密度ρi和高密度最邻近距离δi;分别赋值给FPi的density和delta属性字段;
局部密度ρi
在本方法中,FPi的空间密度关系由空间位置和位置重复频率共同决定,位置重复频率dFreq作为要素密度关系表达的第三维,属于纵向的量值,反映该位置上签到信息的规模,目的是为了能够较好地解决背景技术中所提到的位置重复度较高的离群对象聚成一类的问题。根据以上理论,FPi的局部密度ρi按照如下形式给出:
ρi=ρd·df
其中ρd表示的是FPi间的空间密度,表达式如下:
为了避免不同的点要素具有相同的局部密度的同时又能具有识别异形簇的能力,采用指数核的形式来替代,即
df表示的是重复频率dFreq在局部密度中占的权重值,为了能够很好地降低dFreq极差过大对ρi所造成的影响,df的定义如下:
df=ln(dFreq+1)
综上所述,局部密度ρi按照如下方式计算:
高密度最邻近距离δi
δi表示密度大于ρi并与pi的距离最近的点与pi的空间距离。如果ρi为全局最大值,则δi为距离pi最远的点对象与pi之间的距离:
步骤S5:求出阈值ρ0和δ0,选择集合F中ρi0且δi0的对象FPi为密度峰值对象,将所有的密度峰值对象构成集合P,余下的对象构成集合F’;其中阈值ρ0和δ0的确定步骤如下:
步骤S51:获取集合F中每个对象FPi的density属性值,得到局部密度ρi构成集合L;
步骤S52:以标准正态函数为核计算集合L中每个局部密度ρi的核密度值kdi,以fh(ρ)表示,计算方法如下;
式中参数h表示核密度的窗宽。本方法中采用全局固定的窗宽,根据积分均方误差(MISE)最小化原理计算方法如下:
式中σ表示ρi的标准差。
步骤S53:对集合L中所有的局部密度ρi和核密度值kdi分别进行归一化处理,并以局部密度ρi为横轴,核密度值kdi为纵轴绘制归一化后的核密度曲线;
步骤S54:计算每个局部密度ρi处的斜率ki构成集合K:
步骤S55:观察曲线特征来设置阈值t,在集合K中逆序遍历寻找第一个绝对值大于阈值t的元素ki,取其对应的局部密度为ρ0;阈值t推荐取0.5左右的值,根据实际效果调整。
步骤S56:筛选集合F中局部密度大于ρ0的对象构成集合Fρ,以Fρ中对象的δ值(delta值)构成集合Dρ;在Dρ中,δ值较小的元素占主体,δ值越大数量越少;
步骤S57:设集合Dρ中小于δ0的元素为正常部分,其概率为pt,根据异常检查的方式计算出δ0;具体计算方法如下:
假定Fρ中对象的δ值服从指数分布,采用极大似然估计的方式来获取该指数分布的参数θ:
设新对象集中δ值小于δ0的概率为pt,根据指数分布的分布函数计算出δ0
δ0=-θ1n(1-pt)
式中pt推荐取99%~99.5%之间的值,根据实际效果调整。
步骤S6:任取集合P中的某一密度峰值对象Pi,遍历集合F’,寻找在(Eps,ρt)条件下所有与密度峰值对象Pi连通的核心点,构成密度峰值对象Pi的核心点簇{C}i
核心点:对于数据对象p∈F’,若p的局部密度ρp大于等于密度阈值ρt,则称p为核心点;
核心点簇:与密度峰值对象Pi在以指定搜索半径Eps为范围和密度大于ρt条件下密度连通的所有核心点构成的点簇;
根据步骤S4,FPi的局部密度ρi由ρd和df两个部分共同确定。对于核心点对象,ρd过小而df较大的对象会偏离峰值形成离群点位,在密度聚类时采用密度连通性来剔除这类核心点保证核心簇的完整与连续。核心簇中峰值点、核心点之间的密度连通性表现为如下的三种关系:
密度直达:对于对象p和q,若p在q的Eps邻域内,且p为核心点,q也为核心点或峰值点,则称对象p是从对象q出发直接密度可达的,简称密度直达;
密度可达:对于点集F’,当存在一个对象链p1,p2,p3…pn,其中p1=q,pn=p。对于pi∈F1,如果在指定搜索半径Eps为范围和密度大于ρt为条件下pi+1从pi密度直达,则称对象p从对象q在条件(Eps,ρt)下密度可达;
密度相连:如果对象集F’中存在一个对象o,使得对象p和q是从o在(Eps,ρt)条件下密度可达的,那么称对象p和q在(Eps,ρt)条件下密度相连;
根据以上的三种密度连通关系结合图2,Pi的核心簇{C}i的具体获取步骤如下:
步骤S61:遍历集合F’,以指定搜索半径Eps为范围和密度大于ρt为条件搜索与密度峰值对象Pi密度直达的所有核心点构成初级核心点簇{C’}i并从集合F’中去除相应元素;
步骤S62:对于初级核心点簇{C’}i中的任一成员PCi,在集合F’中以指定搜索半径Eps为范围和密度大于ρt为条件搜索与PCi密度直达、密度连通、密度相连的所有核心点构成核心点簇{C}i并从集合F’去除相应元素,直到对所有PCi找完为止,这一步就是完成{C’}i的扩展。
本步骤中参数Eps,ρt的选择方法如下:
Eps:对F中对象按照局部密度ρ字段采用Jenks自然断裂点法进行分类,如果某个类别可以保证每个峰值点周围都有足够多的该类成员,就以该类别的下界作为密度阈值ρt
ρt:对于每个峰值点pi,记pi周围局部密度大于ρt且距离pi最远的对象与峰值点之间的距离为Epsi,取Epsi中的最小值作为参数Eps。步骤S7:寻找密度峰值对象Pi和对应核心点周围所有的边界点,将其ptype属性字段设为3,然后并入核心点簇{C}i构成密度峰值对象Pi的峰值点密度簇{P}i;边界点定义如下:
边界点:对于数据对象p∈F’,如果p的局部密度ρp小于密度阈值ρt,但p位于某个核心点或峰值点的Eps邻域内,则称p为边界点。
步骤S8:重复步骤S6至S7直到集合P中对所有密度峰值对象Pi全部找完峰值点密度簇{P}i为止,完成全部聚类过程,获得最终聚类结果;最终聚类结果包括峰值点密度簇和噪声集合两大部分,其中每个峰值点与其核心点簇及边界点构成峰值点密度簇,集合F’中不属于任何峰值密度簇的对象FPi划入噪声集合并将ptype属性字段设为-1。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (8)

1.一种顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于,包括以下步骤:
步骤S1:从签到文本中提取出每条签到信息的编号以及经纬度信息构成原始签到对象,对所有的原始签到对象进行预处理后构成集合O;
步骤S2:统计集合O中每个位置上的原始签到对象的数量dFreq,以索引号、该位置坐标和dFreq构建对象FPi,将所有的FPi构成集合F,记F的总量为NF
步骤S3:计算集合F中两两对象间的欧式距离并构成距离矩阵D,并根据D计算出截断距离dc,其中D=[dij],为NF×NF方阵,dij为第i个对象FPi与第j个对象FPj之间的欧氏距离, i,j∈1~NF,其中i≠j;
步骤S4:计算每个对象FPi的局部密度ρi和高密度最邻近距离δi
步骤S5:求出阈值ρ0和δ0,选择集合F中ρi0且δi0的对象为密度峰值对象,将所有的密度峰值对象构成集合P,余下的对象构成集合F’;
步骤S6:任取集合P中的某一密度峰值对象Pi,遍历集合F’,以指定搜索半径Eps为范围和密度大于ρt为条件搜索与密度峰值对象Pi连通的所有核心点,构成密度峰值对象Pi的核心点簇{C}i
步骤S7:寻找密度峰值对象Pi和对应核心点周围所有的边界点,然后并入核心点簇{C}i构成密度峰值对象Pi的峰值点密度簇{P}i
步骤S8: 重复步骤S6至S7直到集合P中的所有密度峰值对象Pi全部找完峰值点密度簇{P}i,获得最终聚类结果。
2.根据权利要求1所述的顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S1中的预处理包括:
将原始签到对象的经纬度信息转换成墨卡托平面坐标;
以研究区范围的区划图作为底图,将原始签到对象与底图进行叠置,剔除研究区域以外的对象。
3.根据权利要求1所述的顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于: 所述步骤S3中截断距离dc的计算方法如下:
取距离矩阵D中上三角中的元素(不包含对角线元素)进行升序排序,取第 [(NF -1)*NF /2] *1%个元素作为截断距离dc
4.根据权利要求1所述的顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S4中对象FPi的局部密度ρi和高密度最邻近距离δi的计算方法如下:
其中,dij为对象FPi与FPj之间的欧氏距离。
5.根据权利要求1所述的顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S5中阈值ρ0和δ0的确定步骤如下:
步骤S51:获取集合F中每个对象FPi的局部密度ρi构成集合L;
步骤S52:计算集合L中每个局部密度ρi的核密度值kdi
步骤S53:对集合L中所有的局部密度ρi和核密度值kdi分别进行归一化处理,并以局部密度ρi为横轴,核密度值kdi为纵轴绘制归一化后的核密度曲线;
步骤S54:计算每个局部密度ρi处的斜率ki构成集合K;
步骤S55:设置阈值t,在集合K中逆序遍历寻找第一个绝对值大于阈值t的元素ki,取其对应的局部密度为ρ0
步骤S56:筛选集合F中局部密度大于ρ0的对象构成集合Fρ,以Fρ中对象的δ值构成集合Dρ
步骤S57:设集合Dρ中小于δ0的元素为正常部分,其概率为pt,根据异常检查的方式计算出δ0
6.根据权利要求1所述的顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S6中的核心点与核心点簇的定义如下:
核心点:对于数据对象p∈F’,若p的局部密度ρp大于等于密度阈值ρt,则称p为核心点;
核心点簇:以搜索半径Eps为范围且密度大于ρt为条件,能够与密度峰值对象Pi连通的所有核心点构成的点簇,具体获取步骤如下:
步骤S61:遍历集合F’,以指定搜索半径Eps为范围和密度大于ρt为条件搜索与密度峰值对象Pi密度直达的所有核心点构成初级核心点簇{C’}i并从集合F’中去除相应元素构成F’i
步骤S62:对于初级核心点簇{C’}i中的任一成员PCi,在F’i中以搜索半径Eps为范围和密度大于ρt为条件搜索与PCi密度直达、密度连通、密度相连的所有核心点构成核心点簇{C}i并从集合F’i去除相应元素,直到对所有PCi找完为止。
7.根据权利要求1所述的顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S7中的边界点定义如下:
边界点:对于数据对象p∈F’,如果p的局部密度ρp小于密度阈值ρt,但p位于某个核心点或峰值点的Eps邻域内,则称p为边界点。
8.根据权利要求1所述的顾及位置重复和密度峰值点的签到位置数据聚类方法,其特征在于:所述步骤S8中的最终聚类结果包括峰值点密度簇和噪声集合两大部分,其中每个峰值点与其核心点簇及边界点构成峰值点密度簇,集合F’中不属于任何峰值密度簇的对象划入噪声集合。
CN201610707243.8A 2016-08-23 2016-08-23 一种顾及位置重复和密度峰值点的签到位置数据聚类方法 Expired - Fee Related CN106326923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610707243.8A CN106326923B (zh) 2016-08-23 2016-08-23 一种顾及位置重复和密度峰值点的签到位置数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610707243.8A CN106326923B (zh) 2016-08-23 2016-08-23 一种顾及位置重复和密度峰值点的签到位置数据聚类方法

Publications (2)

Publication Number Publication Date
CN106326923A CN106326923A (zh) 2017-01-11
CN106326923B true CN106326923B (zh) 2019-03-12

Family

ID=57742095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610707243.8A Expired - Fee Related CN106326923B (zh) 2016-08-23 2016-08-23 一种顾及位置重复和密度峰值点的签到位置数据聚类方法

Country Status (1)

Country Link
CN (1) CN106326923B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460534A (zh) * 2018-03-20 2018-08-28 广东电网有限责任公司佛山供电局 一种基于改进型密度聚类的负荷管理方法
CN109102028A (zh) * 2018-08-20 2018-12-28 南京邮电大学 基于改进的快速密度峰值聚类和lof离群点检测算法
CN111708853B (zh) * 2020-05-25 2022-08-30 安徽师范大学 特征化密度峰聚类的出租车热点区域提取方法
CN112395475B (zh) * 2020-11-02 2021-11-26 清华大学 一种基于快速搜索与密度峰值聚类的服务商聚类方法
CN112734777B (zh) * 2021-01-26 2022-10-11 中国人民解放军国防科技大学 一种基于簇形状边界闭包聚类的图像分割方法及系统
CN112633427B (zh) * 2021-03-15 2021-05-28 四川大学 一种基于离群点检测的超高次谐波发射信号检测方法
CN115631416B (zh) * 2022-10-31 2024-07-23 南京林业大学 一种基于modis燃烧数据产品的火灾足迹提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160021A (zh) * 2015-09-29 2015-12-16 滴滴(中国)科技有限公司 基于目的地偏好的订单分配方法及装置
CN105488477A (zh) * 2015-12-02 2016-04-13 华侨大学 一种基于双重检验的假密度峰值检测算法
CN105631465A (zh) * 2015-12-18 2016-06-01 中国科学院重庆绿色智能技术研究院 一种基于密度峰值的高效层次聚类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2565826B1 (en) * 2000-05-11 2019-11-06 Becton Dickinson and Company System for indentifying clusters in scatter plots using smoothed polygons with optimal boundaries
US20060047655A1 (en) * 2004-08-24 2006-03-02 William Peter Fast unsupervised clustering algorithm

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160021A (zh) * 2015-09-29 2015-12-16 滴滴(中国)科技有限公司 基于目的地偏好的订单分配方法及装置
CN105488477A (zh) * 2015-12-02 2016-04-13 华侨大学 一种基于双重检验的假密度峰值检测算法
CN105631465A (zh) * 2015-12-18 2016-06-01 中国科学院重庆绿色智能技术研究院 一种基于密度峰值的高效层次聚类方法

Also Published As

Publication number Publication date
CN106326923A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN106326923B (zh) 一种顾及位置重复和密度峰值点的签到位置数据聚类方法
Hong et al. Hierarchical community detection and functional area identification with OSM roads and complex graph theory
Zheng et al. Detecting collective anomalies from multiple spatio-temporal datasets across different domains
CN107679558B (zh) 一种基于度量学习的用户轨迹相似性度量方法
Yuan et al. Measuring similarity of mobile phone user trajectories–a Spatio-temporal Edit Distance method
Tang et al. Retrieving k-nearest neighboring trajectories by a set of point locations
Wei et al. On the spatial distribution of buildings for map generalization
CN106156528B (zh) 一种轨迹数据停留识别方法及系统
Xu et al. A supervoxel approach to the segmentation of individual trees from LiDAR point clouds
Xiong et al. Drainage basin object-based method for regional-scale landform classification: A case study of loess area in China
Raimbault et al. Space matters: Extending sensitivity analysis to initial spatial conditions in geosimulation models
Vajakas et al. Trajectory reconstruction from mobile positioning data using cell-to-cell travel time information
CN111144452A (zh) 一种基于信令数据和聚类算法的移动用户出行链提取方法
CN110856186A (zh) 一种无线网络知识图谱的构建方法及系统
CN110298687B (zh) 一种区域吸引力评估方法及设备
Zhang et al. Detecting colocation flow patterns in the geographical interaction data
US20140370920A1 (en) Systems and methods for generating and employing an index associating geographic locations with geographic objects
CN104850649A (zh) 一种在地图上进行兴趣点采样的方法及系统
CN112015937B (zh) 一种图片地理定位方法及系统
CN111310340B (zh) 基于人类移动的城市区域交互异常关系识别方法及设备
Jenson et al. Mining location information from users' spatio-temporal data
Cheng et al. Automated detection of impervious surfaces using night-time light and Landsat images based on an iterative classification framework
CN108197134B (zh) 大数据支持下的点群目标自动综合算法
Xie et al. Hot time periods discovery for facility proportioning in urban commercial districts using POIs and mobile phone data
Song et al. A clustering algorithm incorporating density and direction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190312

Termination date: 20210823