CN110135450A - 一种基于密度聚类的热点路径分析方法 - Google Patents
一种基于密度聚类的热点路径分析方法 Download PDFInfo
- Publication number
- CN110135450A CN110135450A CN201910231648.2A CN201910231648A CN110135450A CN 110135450 A CN110135450 A CN 110135450A CN 201910231648 A CN201910231648 A CN 201910231648A CN 110135450 A CN110135450 A CN 110135450A
- Authority
- CN
- China
- Prior art keywords
- path
- corep
- collection
- core
- density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于密度聚类的热点路径分析方法,针对将目标路径表征为由若干路径点构成的路径点集合,构建相似度距离矩阵,比较两两路径点集合之间的相似度,基于相似度距离矩阵、距离门限ε与密度门限MinPts采用密度聚类迭代式地计算路径点集合构成的簇,最后将各簇的路径集众数的作为目标热点路径输出。本发明的优点:(1)提出了针对目标路径点集合的相似度比较方法;(2)密度门限MinPts的选择具有一定的灵活性、鲁棒性;(3)计算成本低,实现方法工程化。
Description
技术领域
本发明涉及目标路径分析挖掘领域,尤其涉及一种基于密度聚类的热点路径分析方法。
背景技术
众所周知,当今目标路径相关测量数据量越来越大,仅靠人工进行分析处理难以及时、准确的总结出目标路径规律,难以及时支撑高实时的辅助决策。传统的目标路径分析预测技术大多针对目标位置测量数据,没有基于关键路径点进行分析,无法聚焦高层次的路径特征、提取多粒度的目标路径模式,计算成本高。
发明内容
发明目的:针对现有技术的问题,本发明提出一种基于密度聚类的热点路径分析方法,包括如下步骤:
步骤1,针对将目标路径表征为由若干路径点构成的路径点集合,构建相似度距离矩阵;
步骤2,比较两两路径点集合之间的相似度,基于相似度距离矩阵、距离门限ε与密度门限MinPts从路径点集合中挖掘出核心路径集,再根据针对核心路径集的“直接密度可达”关系,采用密度聚类迭代式地生成由核心路径集聚合成的簇;
步骤3,将各簇的路径点集合众数作为目标热点路径输出。
相比传统密度聚类中的相似度距离矩阵,步骤1中矩阵的行、列对应的不再是固定维数的向量,而是非固定长度的路径点集合,步骤1包括:
步骤1-1,设定采集了n条目标路径相对应的n个路径点集合,每个路径点集合对应一条目标路径,而路径点集合中的每个元素为对应目标路径中的一个路径点,则定义第i个路径点集合Pi和第j个路径点集合Pj之间的Jaccard距离JaccardDist(Pi,Pj)为:
步骤1-2,对路径点集合排序:将n个路径点集合首先按集合大小由大到小、其次按索引值由小到大排序,记为P1、P2、…、Pn,满足|P1|≥|P2|≥…≥|Pn|;
步骤1-3,初始化相似度距离矩阵:设定距离门限ε,其取值范围为0<ε<1,一般情况下可以取值为路径点集合最近邻距离的均值,即:
初始化相似度距离矩阵DistArray为空,其矩阵大小n×n,即矩阵的行数和列数均为n,因为相似度距离矩阵关于多角线对称,所以只保留上三角部分。
步骤2创新性地提出了一种基于路径点集合大小与距离门限ε的相似度比较策略(步骤2-3),大大简化了两两路径点集合的相似度比较计算成本,并在集合型相似度距离计算的基础上进一步创新性地提出了针对路径点集合的“ε邻域”、“核心路径集”、“直接密度可达”、“间接密度可达”、“密度相连”的概念(步骤2-8、2-9),从而将传统针对固定维数向量的密度聚类规则拓展到集合型数据上,步骤2包括:
步骤2-1,设置当前集合索引:设置当前路径点集合索引s=1;
步骤2-2,设置待比较集合索引:设置待比较路径点集合索引t=s+1;
步骤2-3,判断待比较集合索引:判断待比较路径点集合索引,如果不满足t≤n且|Pt|/|Ps|≥1-ε,继续步骤2-4,如果满足则执行步骤2-6;
步骤2-4,更新当前集合索引:更新当前集合索引值s=s+1;
步骤2-5,判断当前集合索引:判断当前集合索引,如果满足s≥n,继续步骤2-8,否则,返回步骤2-2;
步骤2-6,计算相似度距离:计算当前集合索引与待比较集合索引对应的两个路径点集合之间的Jaccard距离JaccardDist(Ps,Pt),如果满足JaccardDist(Ps,Pt)≤ε,更新相似度矩阵中对应矩阵单元值:
DistArray[s,t]=JaccardDist(Ps,Pt) (3)
DistArray[s,t]表示相似度距离矩阵DistArray第s行第t列的值;
步骤2-7,更新待比较集合索引:t=t+1,返回步骤2-3;
步骤2-8,计算路径点邻域大小:给定任意路径点集合P,将与路径点集合P的相似度距离在距离门限ε以内的其他所有路径点集合定义为该路径点集合P的ε邻域,记为Nε(P):
Nε(P)={Q|JaccardDist(P,Q)≤ε&&Q≠P}(4),
其中Q表示任意路径点集合Q,根据公式(4)计算各路径点集合Pi的ε邻域大小,记为|Nε(Pi)|;
步骤2-9,构建核心路径集:设定密度门限MinPts,将ε邻域大小不小于MinPts的路径点集合定义为核心路径集,其取值为大于等于1并小于n的自然数,一般情况下可取值为即任一核心路径集CoreP满足:
|Nε(CoreP)|≥MinPts (5);
步骤2-10,基于密度的迭代聚合:分别以各核心路径集作为初始簇,给定距离门限ε与密度门限MinPts,如果两核心路径集CoreP与CoreQ满足:
CoreQ∈Nε(CoreP) (6),
则称核心路径集CoreQ从核心路径集CoreP“直接密度可达的”,表示为:
CoreP<CoreQ;
如果存在一个长度非零的核心路径集链,使得核心路径集CoreQ与核心路径集CoreP满足如下条件(a)和(b):
(a)CoreP<CoreP1<CoreP2<……<CorePn<CoreQ,且
(b)n≥1 (7),
则称核心路径集CoreQ是从核心路径集CoreP“间接密度可达的”,表示为:
CoreP<I CoreQ;
另外,如果存在一核心路径集CoreO,使得核心路径集CoreP与CoreQ分别从核心路径集CoreO直接或间接密度可达,即满足如下条件(c)和(d):
(c)CoreO<I CoreP或者CoreO<CoreP,且
(d)CoreO<I CoreQ或者CoreO<CoreQ (8)
则称核心路径集CoreP与CoreQ是“密度相连”的;
继而,根据距离门限ε与密度门限MinPts,基于密度聚类进行迭代式聚合,聚合直接密度可达、间接密度可达与密度相连的核心路径集后生成的簇数目记为u;
步骤2-11,计算路径集众数:分别针对u个簇C1,C2,……,Cu中的各个簇Ck,Ck包含k’个核心路径集:Ck={CoreP1,CoreP2,……,CorePk’},CorePk’表示第k’个核心路径集,计算簇Ck的路径集众数Modek,其中1≤k≤u,Ck表示第k个簇。
步骤2-10包括:
给定距离门限ε与密度门限MinPts,从任一核心路径集CoreP开始,首先把所有与核心路径集CoreP直接密度可达的核心路径集聚合在一起,直至所有核心路径集都已经被处理,具体过程包括:
步骤2-10-1,判断是否有未处理的核心路径集,如果有继续步骤2-10-2,如果没有继续步骤2-10-3;
步骤2-10-2,针对未处理的任一核心路径集CoreP,把所有满足与核心路径集CoreP直接密度可达的核心路径集聚合在一起,回到步骤2-10-1;
步骤2-10-3,将所有聚合在一起的核心路径集作为同一个簇,输出形成的簇,簇数目记为u。
步骤2-10-3中,同一个簇C中,两两核心路径集之间的关系必然属于以下三种情况之一:直接密度可达、间接密度可达或者密度相连,具体证明如下:
设定当前簇C中两两核心路径集是满足直接密度可达、间接密度可达或者密度相连的,当新聚合一个从核心路径集CoreO直接密度可达的核心路径集CoreQ时,即CoreO<CoreQ且CoreO∈C,簇C中原有的任意核心路径集CoreP与新加入的核心路径集CoreQ存在以下四种情况:
1、当核心路径集CoreP就是核心路径集CoreO时,CoreP<CoreQ,核心路径集CoreQ从核心路径集CoreP直接密度可达;
2、当核心路径集CoreP从核心路径集CoreO直接密度可达或间接密度可达时,CoreO<CoreP或者CoreO<ICoreP,而同时CoreO<CoreQ,因此核心路径集CoreP与CoreQ是经核心路径集CoreO密度相连的;
3、当核心路径集CoreO从核心路径集CoreP直接密度可达或间接密度可达时,即CoreP<CoreO或者CoreP<ICoreO,而同时CoreO<CoreQ,因此CoreP<ICoreQ,核心路径集CoreQ从核心路径集CoreP间接密度可达;
4、当核心路径集CoreO与核心路径集CoreP是密度相连时,即存在某核心路径集CoreR,使得CoreR<ICoreO或者CoreR<CoreO,且CoreR<ICoreP或者CoreR<CoreP,则有CoreR<ICoreQ,因此核心路径集CoreP与核心路径集CoreQ也是经核心路径集CoreR密度相连的。
由此可见,新聚合的核心路径集CoreQ与簇中原有的核心路径集仍然满足直接密度可达、间接密度可达或密度相连的关系。
步骤2-11中,根据如下公式计算簇Ck的路径集众数Modek,
Modek=argminP∑1≤q≤k’JaccardDist(P,CorePq)(9),
其中,P表示路径点集合,CorePq表示簇Ck中的第q个核心路径集,而路径集众数Modek表示当与簇Ck中所有核心路径集Jaccard距离之和最小时对应的路径点集合。
步骤2-11包括:
步骤2-11-1,计算交集系数和并集系数:给定簇Ck,包含k’个核心路径集:Ck={CoreP1,CoreP2,……,CorePk’},先计算簇Ck中包含的路径点字典Ωk:
Ωk=∪1≤q≤k’CorePq’
即路径点字典是簇Ck中所有核心路径集的并集,然后针对路径点字典中的各路径点pr’计算路径点pr在簇Ck各核心路径集CorePq中的交集系数αrq与并集系数βrq’如下式所示:
步骤2-11-2,基于交集系数和并集系数计算路径点与核心路径集的Jaccard距离,基于交并集系数,路径点集合P={pr}与各核心路径集CorePq的Jaccard距离可以简化为:
步骤2-11-3,基于交集系数和并集系数计算路径点集合众数:
步骤3包括:将Modek作为第k个簇Ck的路径热点输出。
距离门限ε用于比较路径点集合之间的相似度,由于两两路径点集合之间的Jaccard距离取值范围在区间[0,1]之内,距离门限ε取值同样在区间[0,1]之内。
由于两路径点集合之间的Jaccard距离取值满足上限条件:因此如果要满足JaccardDist(Ps,Pt)≤ε,则必须
传统密度聚类方法仅适用于固定维数向量数据,并不适用与非固定长度的路径点集合数据上。本发明创新性地提出了专门针对路径点集合的“核心路径集”及其“直接密度可达”、“间接密度可达”、“密度相连”概念,从而将仅适用于固定维数向量的传统密度聚类方法拓展应用到非固定长度的路径点集合数据上。本发明还提出了基于交集、并集系数的热点路径挖掘方法,显著提升了热点路径分析效能并提出了基于交集、并集系数的热点路径挖掘方法,显著提升了热点路径分析效能。
有益效果:(1)提出了针对目标路径点集合的相似度比较方法;(2)密度门限MinPts的选择具有一定的灵活性、鲁棒性;(3)计算成本低,实现方法工程化。本发明采用基于路径点集合的分析挖掘方法,简化了路径点顺序,有利于聚合具有相同路径点的测量数据,能够大大降低计算成本、提高计算效率。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是本发明的流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明针对将目标路径表征为由若干路径点构成的路径点集合,构建相似度距离矩阵,比较两两路径点集合之间的相似度,基于相似度距离矩阵、距离门限ε与密度门限MinPts采用密度聚类迭代式地计算路径点集合的簇,最后将各簇的路径集众数的作为目标热点路径输出。
如图1所示,本发明方法具体包括以下步骤:
假设采集了n条目标路径相对应的n个路径点集合,每个路径点集合对应一条目标路径,而路径点集合中的每个元素为对应目标路径中的一个路径点,则定义两两路径点集合Pi和Pj之间的Jaccard距离为:
(1)路径点集合排序:将n个路径点集合首先按集合大小由大到小、其次按索引值由小到大排序,记为P1、P2、…、Pn,满足|P1|≥|P2|≥…≥|Pn|;
(2)相似度距离矩阵初始化:设定距离门限ε,其取值范围满足0<ε<1,初始化相似度距离矩阵DistArray为空,其矩阵大小n×n,即矩阵的行数和列数均为n,因为相似度距离矩阵关于多角线对称,所以只保留上三角部分;
(3)当前集合索引设置:设置当前路径点集合索引s=1;
(4)待比较集合索引设置:设置待比较路径点集合索引t=s+1;
(5)待比较集合索引判断:判断待比较路径点集合索引,如果不满足t≤n且|Pt|/|Ps|≥1-ε,继续步骤(6),如果满足继续步骤(8);
(6)当前集合索引更新:更新当前集合索引值s=s+1;
(7)当前集合索引判断:判断当前集合索引,如果满足s≥n,继续步骤(10),否则,返回步骤(4);
(8)相似度距离计算:计算当前集合索引与待比较集合索引对应的两个路径点集合之间的Jaccard距离,如果满足JaccardDist(Ps,Pt)≤ε,更新相似度矩阵中对应矩阵单元值:
DistArray[s,t]=JaccardDist(Ps,Pt); (2)
(9)待比较集合索引更新:t=t+1,返回步骤(5);
(10)路径点邻域大小计算:给定任意路径点集合P,将与路径点集合P的相似度距离在距离门限ε以内的其他所有路径点集合定义为该路径点集合P的ε邻域,记为Nε(P):
Nε(P)={Q|JaccardDist(P,Q)≤ε&&Q≠P} (3),
计算各路径点集合Pi邻域大小,|Nε(Pi)|;
(11)核心路径集构建:设定密度门限MinPts,将ε邻域大小不小于MinPts的路径点集合定义为核心路径集,即任一核心路径集CoreP满足:
|Nε(CoreP)|≥MinPts (4);
(12)基于密度的迭代聚合:分别以各核心路径集作为初始簇,给定距离门限ε与密度门限MinPts,如果两核心路径集CoreP与CoreQ满足:
CoreQ∈Nε(CoreP) (5),
则称核心路径集CoreQ从核心路径集CoreP“直接密度可达”,表示为CoreP<CoreQ;如果存在一个长度非零的核心路径集链,使得核心路径集CoreQ与核心路径集CoreP满足:
(a)CoreP<CoreP1<CoreP2<……<CorePn<CoreQ,且
(b)n≥1 (6),
则称核心路径集CoreQ是从核心路径集CoreP“间接密度可达”的,表示为:CoreP<I CoreQ;另外,如果存在一核心路径集CoreO,使得核心路径集CoreP与CoreQ分别从核心路径集CoreO直接或间接密度可达,即,
(a)CoreO<I CoreP或者CoreO<CoreP,且
(b)CoreO<I CoreQ或者CoreO<CoreQ (7)
则称核心路径集CoreP与CoreQ是“密度相连”的;继而,根据距离门限ε与密度门限MinPts,基于密度聚类进行迭代式聚合,聚合直接密度可达、间接密度可达与密度相连的核心路径集后生成的簇数目记为u;
(13)路径集众数计算:分别针对u个簇C1,C2,……,Cu中的各个簇Ck,包含k’个核心路径集:Ck={CoreP1,CoreP2,……,CorePk’},并计算簇Ck的路径集众数Modek,Modek=argminP∑1≤q≤k’JaccardDist(P,CorePq) (8),
其中1≤k≤u,Ck表示第k个簇,CorePj表示第j个核心路径集,将Modek其作为簇Ck的路径热点输出。
本发明方法可以提升目标位置量测不精确情形下的目标路径分析能力,有利于减少目标位置量测的冗余性,增加空间粒度的灵活性,可以更好地完成目标路径分析任务。下面通过一个实例来说明本发明的基于密度聚类的热点路径分析方法。
本实施例中,在某城市道路交通管理中,基于出租车轨迹信息采集到n=5条高频目标路径,对应着5个路径点集合,路径点集合中的每个元素对应该路径中的一个路径点,距离门限ε取值为0.3,密度门限MinPts取值为1,则基于密度聚类的热点路径分析步骤如下:
步骤1,路径点集合排序,首先按路径点集合大小由大到小、其次按索引值由小到大排序为P1、P2、P3、P4、P5,,如表1所示:
表1
路径索引 | 对应路径点集合 | 集合大小 |
1 | P<sub>1</sub>={a,b,c,d} | 4 |
2 | P<sub>2</sub>={a,b,c} | 3 |
3 | P<sub>3</sub>={a,b,c} | 3 |
4 | P<sub>4</sub>={e,f} | 2 |
5 | P<sub>5</sub>={e,f} | 2 |
步骤2,相似度距离矩阵初始化,距离门限ε取值为0.3,初始化相似度距离矩阵DistArray为空,矩阵大小5×5,因为相似度距离矩阵关于多角线对称,所以只保留上三角部分,如表2所示:
表2
步骤3,当前集合索引设置,设置当前路径点集合索引s=1;
步骤4,待比较集合索引设置,设置待比较路径点集合索引t=s+1=2;
步骤5,待比较集合索引判断,满足“t≤n且|Pt|/|Ps|=0.75>1-ε=0.7”,继续步骤8;
步骤8,相似度距离计算,计算路径点集合P1和P2之间的Jaccard距离为0.25,小于距离门限ε=0.3,更新相似度矩阵DistArray,如表3所示:
表3
路径点集合 | P<sub>1</sub> | P<sub>2</sub> | P<sub>3</sub> | P<sub>4</sub> | P<sub>5</sub> |
P<sub>1</sub> | - | 0.25 | - | - | - |
P<sub>2</sub> | - | - | - | - | - |
P<sub>3</sub> | - | - | - | - | - |
P<sub>4</sub> | - | - | - | - | - |
P<sub>5</sub> | - | - | - | - | - |
步骤9,待比较集合索引更新,更新待比较雷达辐射源索引t=t+1=3,返回步骤5;
步骤5,待比较集合索引判断,满足“t≤n且|Pt|/|Ps|=0.75>1-ε”,继续步骤8;
步骤8,相似度距离计算,计算路径点集合P1和P3之间的Jaccard距离,更新相似度矩阵DistArray,如表4所示:
表4
路径点集合 | P<sub>1</sub> | P<sub>2</sub> | P<sub>3</sub> | P<sub>4</sub> | P<sub>5</sub> |
P<sub>1</sub> | - | 0.25 | 0.25 | - | - |
P<sub>2</sub> | - | - | - | - | - |
P<sub>3</sub> | - | - | - | - | - |
P<sub>4</sub> | - | - | - | - | - |
P<sub>5</sub> | - | - | - | - | - |
步骤9,待比较集合索引更新,更新待比较雷达辐射源索引t=t+1=4,返回步骤5;
步骤5,待比较集合索引判断,判断待比较目标索引值不满足“|Pt|/|Ps|=0.5≥1-ε”,继续步骤6;
步骤6,当前集合索引更新,更新当前集合索引值s=s+1=2;
步骤7,当前集合索引判断,判断当前集合索引s<n,返回步骤4;
步骤4,待比较集合索引设置,设置待比较集合索引t=s+1=3;
步骤5,待比较集合索引判断,判断待比较目标索引值t=3满足“t<n且|Pt|/|Ps|=1≥1-ε”,继续步骤8;
步骤8,相似度距离计算,计算路径点集合P2和P3之间的Jaccard距离,更新相似度矩阵DistArray,如表5所示:
表5
路径点集合 | P<sub>1</sub> | P<sub>2</sub> | P<sub>3</sub> | P<sub>4</sub> | P<sub>5</sub> |
P<sub>1</sub> | - | 0.25 | 0.25 | - | - |
P<sub>2</sub> | - | - | 0.00 | - | - |
P<sub>3</sub> | - | - | - | - | - |
P<sub>4</sub> | - | - | - | - | - |
P<sub>5</sub> | - | - | - | - | - |
步骤9,待比较集合索引更新,更新待比较雷达辐射源索引t=t+1=4,返回步骤5;
步骤5,待比较集合索引判断,判断待比较目标索引值t=4不满足“|Pt|/|Ps|=0.667≥1-ε”,继续步骤6;
步骤6,当前集合索引更新,更新当前集合索引值s=s+1=3;
步骤7,当前集合索引判断,判断当前集合索引s<n,返回步骤4;
步骤4,待比较集合索引设置,设置待比较路径点集合索引t=s+1=4;
步骤5,待比较集合索引判断,判断待比较目标索引值t=4不满足“|Pt|/|Ps|≥1-ε”,继续步骤6;
步骤6,当前集合索引更新,更新当前集合索引值s=s+1=4;
步骤7,当前集合索引判断,判断当前集合索引s<n,返回步骤4;
步骤4,待比较集合索引设置,设置待比较路径点集合索引t=s+1=5;
步骤5,待比较集合索引判断,判断待比较路径点集合索引满足“t=5≤n且|Pt|/|Ps|=1≥1-ε,继续步骤8;
步骤8,相似度距离计算,计算路径点集合P4和P5之间的Jaccard距离为零,满足JaccardDist(P4,P5)≤0.3,更新相似度矩阵DistArray,如表6所示:
表6
路径点集合 | P<sub>1</sub> | P<sub>2</sub> | P<sub>3</sub> | P<sub>4</sub> | P<sub>5</sub> |
P<sub>1</sub> | - | 0.25 | 0.25 | - | - |
P<sub>2</sub> | - | - | 0.00 | - | - |
P<sub>3</sub> | - | - | - | - | - |
P<sub>4</sub> | - | - | - | - | 0.00 |
P<sub>5</sub> | - | - | - | - | - |
步骤9,待比较集合索引更新,更新待比较雷达辐射源索引t=t+1=6,返回步骤5;
步骤5,待比较集合索引判断,判断待比较目标索引值t=6不满足“t≤n”,继续步骤6;
步骤6,当前集合索引更新,更新当前集合索引值s=s+1=5;
步骤7,当前集合索引判断,判断当前集合索引s=n,继续步骤10;
步骤10,路径点邻域大小计算,计算各路径点集合Pi的ε邻域大小|Nε(Pi)|,如表7所示:
表7
i | 路径点集合 | |N<sub>ε</sub>(P<sub>i</sub>)| |
1 | P<sub>1</sub>={a,b,c,d} | 2 |
2 | P<sub>2</sub>={a,b,c} | 2 |
3 | P<sub>3</sub>={a,b,c} | 2 |
4 | P<sub>4</sub>={e,f} | 1 |
5 | P<sub>5</sub>={e,f} | 1 |
步骤11,核心路径集构建,将ε邻域大小不小于MinPts的路径点集合设置为核心路径集,其取值为大于等于1并小于n的自然数,一般情况下可取值为P1,P2,P3,P4,P5均为核心路径集;
步骤12,基于密度的迭代聚合,初始簇有5个,分别为{P1},{P2},{P3},{P4}和{P5},经过迭代式聚合,最终生成的簇为u=2个:C1={P1,P2,P3}与C2={P4,P5},簇C1中,P1,P2,P3两两之间是直接密度可达的,簇C2中,P4与P5也是直接密度可达的;
步骤13,路径集众数计算,针对每个簇构建由其所有核心路径集合组成的核心集,C1={P1,P2,P3}与C2={P4,P5},分别计算其众数为:Mode1={a,b,c},Mode2={e,f},以Mode1为例,其交并集系数如表8所示:
表8
对应的最小Jaccard距离总和为:
在城市道路交通管理中,则可以针对挖掘出的热点路径{a,b,c}与{e,f},加强对应道路、红绿灯,以保障道路畅通、控制车流量。本发明的研究成果有利于提升目标位置量测不精确情形下的目标路径分析能力,有利于减少目标位置量测的冗余性,增加空间粒度的灵活性,可以更好地完成目标路径分析任务。
本发明的研究工作得到了国家自然科学基金(No.61771177)资助。
本发明提供了一种基于密度聚类的热点路径分析方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (8)
1.一种基于密度聚类的热点路径分析方法,其特征在于,包括如下步骤:
步骤1,针对将目标路径表征为由若干路径点构成的路径点集合,构建相似度距离矩阵;
步骤2,比较两两路径点集合之间的相似度,基于相似度距离矩阵、距离门限ε与密度门限MinPts从路径点集合中挖掘出核心路径集,再根据针对核心路径集的直接密度可达关系,采用密度聚类迭代式地生成由核心路径集聚合成的簇;
步骤3,将各簇的路径点集合众数作为目标热点路径输出。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,设定采集了n条目标路径相对应的n个路径点集合,每个路径点集合对应一条目标路径,而路径点集合中的每个元素为对应目标路径中的一个路径点,则定义第i个路径点集合Pi和第j个路径点集合Pj之间的Jaccard距离JaccardDist(Pi,Pj)为:
步骤1-2,对路径点集合排序:将n个路径点集合首先按集合大小由大到小、其次按索引值由小到大排序,记为P1、P2、…、Pn,满足|P1|≥|P2|≥…≥|Pn|;
步骤1-3,初始化相似度距离矩阵:设定距离门限ε,初始化相似度距离矩阵DistArray为空,其矩阵大小n×n,即矩阵的行数和列数均为n。
3.根据权利要求2所述的方法,其特征在于,步骤1-3中,距离门限ε取值为所有路径点集合最近邻距离的均值,即:
4.根据权利要求3所述的方法,其特征在于,步骤2包括:
步骤2-1,设置当前集合索引:设置当前路径点集合索引s=1;
步骤2-2,设置待比较集合索引:设置待比较路径点集合索引t=s+1;
步骤2-3,判断待比较集合索引:判断待比较路径点集合索引,如果不满足t≤n且|Pt|/|Ps|≥1-ε,继续步骤2-4,如果满足则执行步骤2-6;
步骤2-4,更新当前集合索引:更新当前集合索引值s=s+1;
步骤2-5,判断当前集合索引:判断当前集合索引,如果满足s≥n,继续步骤2-8,否则,返回步骤2-2;
步骤2-6,计算相似度距离:计算当前集合索引与待比较集合索引对应的两个路径点集合之间的Jaccard距离JaccardDist(Ps,Pt),如果满足JaccardDist(Ps,Pt)≤ε,更新相似度矩阵中对应矩阵单元值:
DistArray[s,t]=JaccardDist(Ps,Pt) (3),
DistArray[s,t]表示相似度距离矩阵DistArray第s行第t列的值;
步骤2-7,更新待比较集合索引:t=t+1,返回步骤2-3;
步骤2-8,计算路径点邻域大小:给定任意路径点集合P,将与路径点集合P的相似度距离在距离门限ε以内的其他所有路径点集合定义为该路径点集合P的ε邻域,记为Nε(P):
Nε(P)={Q|JaccardDist(P,Q)≤ε&&Q≠P}(4),
其中Q表示任意路径点集合Q,根据公式(4)计算各路径点集合Pi的ε邻域大小,记为|Nε(Pi)|;
步骤2-9,构建核心路径集:设定密度门限MinPts,将ε邻域大小不小于MinPts的路径点集合定义为核心路径集,即任一核心路径集CoreP满足:
|Nε(CoreP)|≥MinPts (5);
步骤2-10,基于密度的迭代聚合:分别以各核心路径集作为初始簇,给定距离门限ε与密度门限MinPts,如果两核心路径集CoreP与CoreQ满足:
CoreQ∈Nε(CoreP) (6),
则称核心路径集CoreQ从核心路径集CoreP直接密度可达的,表示为:
CoreP<CoreQ;
如果存在一个长度非零的核心路径集链,使得核心路径集CoreQ与核心路径集CoreP满足如下条件(a)和(b):
(a)CoreP<CoreP1<CoreP2<……<CorePn<CoreQ,且
(b)n≥1 (7),
则称核心路径集CoreQ是从核心路径集CoreP间接密度可达的,表示为:
CoreP<ICoreQ;
如果存在一核心路径集CoreO,使得核心路径集CoreP与CoreQ分别从核心路径集CoreO直接或间接密度可达,即满足如下条件(c)和(d):
(c)CoreO<ICoreP或者CoreO<CoreP,且
(d)CoreO<ICoreQ或者CoreO<CoreQ (8)
则称核心路径集CoreP与CoreQ是密度相连的;
继而,根据距离门限ε与密度门限MinPts,基于密度聚类进行迭代式聚合,聚合直接密度可达、间接密度可达与密度相连的核心路径集后生成的簇数目记为u;
步骤2-11,计算路径集众数:分别针对u个簇C1,C2,……,Cu中的各个簇Ck,Ck包含k’个核心路径集:Ck={CoreP1,CoreP2,……,CorePk’},CorePk’表示第k’个核心路径集,计算簇Ck的路径集众数Modek,其中1≤k≤u,Ck表示第k个簇。
5.根据权利要求4所述的方法,其特征在于,步骤2-10包括:
给定距离门限ε与密度门限MinPts,从任一核心路径集CoreP开始,首先把所有与核心路径集CoreP直接密度可达的核心路径集聚合在一起,直至所有核心路径集都已经被处理,具体过程包括:
步骤2-10-1,判断是否有未处理的核心路径集,如果有继续步骤2-10-2,如果没有继续步骤2-10-3;
步骤2-10-2,针对未处理的任一核心路径集CoreP,把所有满足与核心路径集CoreP直接密度可达的核心路径集聚合在一起,回到步骤2-10-1;
步骤2-10-3,将所有聚合在一起的核心路径集作为同一个簇,输出形成的簇,簇数目记为u。
6.根据权利要求5所述的方法,其特征在于,步骤2-11中,根据如下公式计算簇Ck的路径集众数Modek,
Modek=argminP∑1≤q≤k’JaccardDist(P,CorePq) (9),
其中,P表示路径点集合,CorePq表示簇Ck中的第q个核心路径集,而路径集众数Modek表示当与簇Ck中所有核心路径集Jaccard距离之和最小时对应的路径点集合。
7.根据权利要求6所述的方法,其特征在于,步骤2-11包括:
步骤2-11-1,计算交集系数和并集系数:给定簇Ck,包含k’个核心路径集:Ck={CoreP1,CoreP2,……,CorePk’},先计算簇Ck中包含的路径点字典Ωk:
Ωk=∪1≤q≤k’CorePq,
即路径点字典是簇Ck中所有核心路径集的并集,然后针对路径点字典中的各路径点pr,计算路径点pr在簇Ck各核心路径集CorePq中的交集系数αrq与并集系数βrq,
如下式所示:
步骤2-11-2,基于交集系数和并集系数计算路径点与核心路径集的Jaccard距离:路径点集合P={pr}与各核心路径集CorePq的Jaccard距离简化为:
步骤2-11-3,基于交集系数和并集系数计算路径点集合众数:
8.根据权利要求7所述的方法,其特征在于:步骤3包括:将Modek作为第k个簇Ck的路径热点输出。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910231648.2A CN110135450B (zh) | 2019-03-26 | 2019-03-26 | 一种基于密度聚类的热点路径分析方法 |
JP2020545145A JP6912672B2 (ja) | 2019-03-26 | 2019-05-13 | 密度クラスタリングに基づくホットルートの分析方法 |
PCT/CN2019/086517 WO2020191876A1 (zh) | 2019-03-26 | 2019-05-13 | 一种基于密度聚类的热点路径分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910231648.2A CN110135450B (zh) | 2019-03-26 | 2019-03-26 | 一种基于密度聚类的热点路径分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135450A true CN110135450A (zh) | 2019-08-16 |
CN110135450B CN110135450B (zh) | 2020-06-23 |
Family
ID=67568587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910231648.2A Active CN110135450B (zh) | 2019-03-26 | 2019-03-26 | 一种基于密度聚类的热点路径分析方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6912672B2 (zh) |
CN (1) | CN110135450B (zh) |
WO (1) | WO2020191876A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990537A (zh) * | 2019-12-11 | 2020-04-10 | 中山大学 | 一种基于边缘信息和语义信息的句子相似度计算方法 |
CN111915631A (zh) * | 2020-06-18 | 2020-11-10 | 湖南农业大学 | 一种基于路径点分析的农机作业面积计算方法 |
CN111968365A (zh) * | 2020-07-24 | 2020-11-20 | 武汉理工大学 | 一种非信号交叉口车辆行为分析方法、系统及存储介质 |
CN112116806A (zh) * | 2020-08-12 | 2020-12-22 | 深圳技术大学 | 车流量特征提取方法及系统 |
CN112382398A (zh) * | 2020-11-12 | 2021-02-19 | 平安科技(深圳)有限公司 | 多尺度临床路径挖掘方法、装置、计算机设备及存储介质 |
CN113011472A (zh) * | 2021-02-26 | 2021-06-22 | 广东电网有限责任公司电力调度控制中心 | 一种多段电力报价曲线相似性判断方法及装置 |
CN113627702A (zh) * | 2020-05-08 | 2021-11-09 | 中国移动通信集团浙江有限公司 | 业务路径分析方法、装置及计算设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749743B (zh) * | 2021-01-04 | 2023-07-21 | 清华大学 | 一种轨迹时空聚类方法、系统以及存储装置 |
CN117633563B (zh) * | 2024-01-24 | 2024-05-10 | 中国电子科技集团公司第十四研究所 | 一种基于optics算法的多目标自顶向下式层次化分群方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095281A (zh) * | 2014-05-13 | 2015-11-25 | 南京理工大学 | 一种基于日志挖掘的网站分类目录优化分析方法 |
CN106909805A (zh) * | 2017-03-01 | 2017-06-30 | 广西大学 | 基于多条代谢路径比对重建物种系统发生树的方法 |
CN108345864A (zh) * | 2018-03-06 | 2018-07-31 | 中国电子科技集团公司第二十八研究所 | 基于加权聚类的随机集合型雷达辐射源信号参数高频模式挖掘方法 |
US20180268253A1 (en) * | 2015-01-23 | 2018-09-20 | Highspot, Inc. | Systems and methods for identifying semantically and visually related content |
US10176198B1 (en) * | 2016-05-09 | 2019-01-08 | A9.Com, Inc. | Techniques for identifying visually similar content |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
US20190019030A1 (en) * | 2017-07-14 | 2019-01-17 | Mitsubishi Electric Research Laboratories, Inc | Imaging system and method for object detection and localization |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150127323A1 (en) * | 2013-11-04 | 2015-05-07 | Xerox Corporation | Refining inference rules with temporal event clustering |
CN105091889B (zh) * | 2014-04-23 | 2018-10-02 | 华为技术有限公司 | 一种热点路径的确定方法及设备 |
CN106153031B (zh) * | 2015-04-13 | 2019-08-30 | 骑记(厦门)科技有限公司 | 运动轨迹表示方法和装置 |
CN105930862A (zh) * | 2016-04-13 | 2016-09-07 | 江南大学 | 一种基于密度自适应距离的密度峰聚类算法 |
CN108427965B (zh) * | 2018-03-05 | 2022-08-23 | 重庆邮电大学 | 一种基于路网聚类的热点区域挖掘方法 |
-
2019
- 2019-03-26 CN CN201910231648.2A patent/CN110135450B/zh active Active
- 2019-05-13 WO PCT/CN2019/086517 patent/WO2020191876A1/zh active Application Filing
- 2019-05-13 JP JP2020545145A patent/JP6912672B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095281A (zh) * | 2014-05-13 | 2015-11-25 | 南京理工大学 | 一种基于日志挖掘的网站分类目录优化分析方法 |
US20180268253A1 (en) * | 2015-01-23 | 2018-09-20 | Highspot, Inc. | Systems and methods for identifying semantically and visually related content |
US10176198B1 (en) * | 2016-05-09 | 2019-01-08 | A9.Com, Inc. | Techniques for identifying visually similar content |
CN106909805A (zh) * | 2017-03-01 | 2017-06-30 | 广西大学 | 基于多条代谢路径比对重建物种系统发生树的方法 |
US20190019030A1 (en) * | 2017-07-14 | 2019-01-17 | Mitsubishi Electric Research Laboratories, Inc | Imaging system and method for object detection and localization |
CN108345864A (zh) * | 2018-03-06 | 2018-07-31 | 中国电子科技集团公司第二十八研究所 | 基于加权聚类的随机集合型雷达辐射源信号参数高频模式挖掘方法 |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
Non-Patent Citations (1)
Title |
---|
冯琦森: ""基于出租车轨迹的居民出行热点路径和区域挖掘"", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990537A (zh) * | 2019-12-11 | 2020-04-10 | 中山大学 | 一种基于边缘信息和语义信息的句子相似度计算方法 |
CN110990537B (zh) * | 2019-12-11 | 2023-06-27 | 中山大学 | 一种基于边缘信息和语义信息的句子相似度计算方法 |
CN113627702A (zh) * | 2020-05-08 | 2021-11-09 | 中国移动通信集团浙江有限公司 | 业务路径分析方法、装置及计算设备 |
CN113627702B (zh) * | 2020-05-08 | 2023-07-25 | 中国移动通信集团浙江有限公司 | 业务路径分析方法、装置及计算设备 |
CN111915631A (zh) * | 2020-06-18 | 2020-11-10 | 湖南农业大学 | 一种基于路径点分析的农机作业面积计算方法 |
CN111968365A (zh) * | 2020-07-24 | 2020-11-20 | 武汉理工大学 | 一种非信号交叉口车辆行为分析方法、系统及存储介质 |
CN112116806A (zh) * | 2020-08-12 | 2020-12-22 | 深圳技术大学 | 车流量特征提取方法及系统 |
CN112382398A (zh) * | 2020-11-12 | 2021-02-19 | 平安科技(深圳)有限公司 | 多尺度临床路径挖掘方法、装置、计算机设备及存储介质 |
CN113011472A (zh) * | 2021-02-26 | 2021-06-22 | 广东电网有限责任公司电力调度控制中心 | 一种多段电力报价曲线相似性判断方法及装置 |
CN113011472B (zh) * | 2021-02-26 | 2023-09-01 | 广东电网有限责任公司电力调度控制中心 | 一种多段电力报价曲线相似性判断方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020191876A1 (zh) | 2020-10-01 |
CN110135450B (zh) | 2020-06-23 |
JP6912672B2 (ja) | 2021-08-04 |
JP2021514090A (ja) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135450A (zh) | 一种基于密度聚类的热点路径分析方法 | |
CN103134505B (zh) | 路径规划系统及其方法 | |
Zhang et al. | Subject clustering analysis based on ISI category classification | |
Hou et al. | H^ 2-MIL: exploring hierarchical representation with heterogeneous multiple instance learning for whole slide image analysis | |
CN106326923B (zh) | 一种顾及位置重复和密度峰值点的签到位置数据聚类方法 | |
CN113705931B (zh) | 一种利用k最邻近法预测径流要素的方法 | |
Gupta et al. | Region invariant normalizing flows for mobility transfer | |
CN106844642A (zh) | 一种基于gis计算路网网格中人口密度的方法 | |
CN110442800A (zh) | 一种融合节点属性和图结构的半监督社区发现方法 | |
CN112052405B (zh) | 一种基于司机经验的寻客区域推荐方法 | |
Chen et al. | Field-road classification for GNSS recordings of agricultural machinery using pixel-level visual features | |
Cheng et al. | Multi-task learning and multimodal fusion for road segmentation | |
CN105574363A (zh) | 一种基于svm-rfe和重叠度的特征选择方法 | |
CN106611339B (zh) | 种子用户筛选方法、产品的用户影响力评价方法及装置 | |
CN104794431B (zh) | 一种基于模糊匹配的雷达辐射源脉间模式挖掘方法 | |
CN108280210A (zh) | 一种基于烟花算法的交通路线确定方法及系统 | |
Zhang et al. | Prnet: Outdoor position recovery for heterogenous telco data by deep neural network | |
CN111739582B (zh) | 一种基于协同作用网络的生物组学数据分析方法 | |
CN105760303A (zh) | 基于最大互信息和改进Adaboost的软件缺陷数据特征选择方法 | |
CN105654115A (zh) | 一种面向行为识别的密度适应性聚类方法 | |
CN111125541B (zh) | 面向多用户的可持续多云服务组合的获取方法 | |
Sucharita et al. | A comprehensive study on the application of grey wolf optimization for microarray data | |
Yu et al. | Optimized fuzzy information granulation of temporal data | |
US20050246361A1 (en) | Processing of high-dimensional categorical predictors in classification settings | |
CN109256215A (zh) | 一种基于自回避随机游走的疾病关联miRNA预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |