CN110135450B

CN110135450B - 一种基于密度聚类的热点路径分析方法

Info

Publication number: CN110135450B
Application number: CN201910231648.2A
Authority: CN
Inventors: 徐欣; 刁联旺; 易侃; 李青山
Original assignee: China Electric Rice Information System Co ltd
Current assignee: China Electric Rice Information System Co ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2020-06-23
Anticipated expiration: 2039-03-26
Also published as: JP6912672B2; CN110135450A; WO2020191876A1; JP2021514090A

Abstract

本发明公开了一种基于密度聚类的热点路径分析方法，针对将目标路径表征为由若干路径点构成的路径点集合，构建相似度距离矩阵，比较两两路径点集合之间的相似度，基于相似度距离矩阵、距离门限ε与密度门限MinPts采用密度聚类迭代式地计算路径点集合构成的簇，最后将各簇的路径集众数的作为目标热点路径输出。本发明的优点：(1)提出了针对目标路径点集合的相似度比较方法；(2)密度门限MinPts的选择具有一定的灵活性、鲁棒性；(3)计算成本低，实现方法工程化。

Description

一种基于密度聚类的热点路径分析方法

技术领域

本发明涉及目标路径分析挖掘领域，尤其涉及一种基于密度聚类的热点路径分析方法。

背景技术

众所周知，当今目标路径相关测量数据量越来越大，仅靠人工进行分析处理难以及时、准确的总结出目标路径规律，难以及时支撑高实时的辅助决策。传统的目标路径分析预测技术大多针对目标位置测量数据，没有基于关键路径点进行分析，无法聚焦高层次的路径特征、提取多粒度的目标路径模式，计算成本高。

发明内容

发明目的：针对现有技术的问题，本发明提出一种基于密度聚类的热点路径分析方法，包括如下步骤：

步骤1，针对将目标路径表征为由若干路径点构成的路径点集合，构建相似度距离矩阵；

步骤2，比较两两路径点集合之间的相似度，基于相似度距离矩阵、距离门限ε与密度门限MinPts从路径点集合中挖掘出核心路径集，再根据针对核心路径集的“直接密度可达”关系，采用密度聚类迭代式地生成由核心路径集聚合成的簇；

步骤3，将各簇的路径点集合众数作为目标热点路径输出。

相比传统密度聚类中的相似度距离矩阵，步骤1中矩阵的行、列对应的不再是固定维数的向量，而是非固定长度的路径点集合，步骤1包括：

步骤1-1，设定采集了n条目标路径相对应的n个路径点集合，每个路径点集合对应一条目标路径，而路径点集合中的每个元素为对应目标路径中的一个路径点，则定义第i个路径点集合P_i和第j个路径点集合P_j之间的Jaccard距离JaccardDist(P_i,P_j)为：

步骤1-2，对路径点集合排序：将n个路径点集合首先按集合大小由大到小、其次按索引值由小到大排序，记为P₁、P₂、…、P_n，满足|P₁|≥|P₂|≥…≥|P_n|；

步骤1-3，初始化相似度距离矩阵：设定距离门限ε，其取值范围为0<ε<1，一般情况下可以取值为路径点集合最近邻距离的均值，即：

初始化相似度距离矩阵DistArray为空，其矩阵大小n×n，即矩阵的行数和列数均为n，因为相似度距离矩阵关于多角线对称，所以只保留上三角部分。

步骤2创新性地提出了一种基于路径点集合大小与距离门限ε的相似度比较策略(步骤2-3)，大大简化了两两路径点集合的相似度比较计算成本，并在集合型相似度距离计算的基础上进一步创新性地提出了针对路径点集合的“ε邻域”、“核心路径集”、“直接密度可达”、“间接密度可达”、“密度相连”的概念(步骤2-8、2-9)，从而将传统针对固定维数向量的密度聚类规则拓展到集合型数据上，步骤2包括：

步骤2-1，设置当前集合索引：设置当前路径点集合索引s＝1；

步骤2-2，设置待比较集合索引：设置待比较路径点集合索引t＝s+1；

步骤2-3，判断待比较集合索引：判断待比较路径点集合索引，如果不满足t≤n且|P_t|/|P_s|≥1-ε，继续步骤2-4，如果满足则执行步骤2-6；

步骤2-4，更新当前集合索引：更新当前集合索引值s＝s+1；

步骤2-5，判断当前集合索引：判断当前集合索引，如果满足s≥n，继续步骤2-8，否则，返回步骤2-2；

步骤2-6，计算相似度距离：计算当前集合索引与待比较集合索引对应的两个路径点集合之间的Jaccard距离JaccardDist(P_s,P_t)，如果满足JaccardDist(P_s,P_t)≤ε，更新相似度矩阵中对应矩阵单元值：

DistArray[s,t]＝JaccardDist(P_s,P_t) (3)

DistArray[s,t]表示相似度距离矩阵DistArray第s行第t列的值；

步骤2-7，更新待比较集合索引：t＝t+1，返回步骤2-3；

步骤2-8，计算路径点邻域大小：给定任意路径点集合P，将与路径点集合P的相似度距离在距离门限ε以内的其他所有路径点集合定义为该路径点集合P的ε邻域，记为N_ε(P)：

N_ε(P)＝{Q|JaccardDist(P,Q)≤ε&&Q≠P}(4)，

其中Q表示任意路径点集合Q，根据公式(4)计算各路径点集合P_i的ε邻域大小，记为|N_ε(P_i)|；

步骤2-9，构建核心路径集：设定密度门限MinPts，将ε邻域大小不小于MinPts的路径点集合定义为核心路径集，其取值为大于等于1并小于n的自然数，一般情况下可取值为

即任一核心路径集CoreP满足：

|N_ε(CoreP)|≥MinPts (5)；

步骤2-10，基于密度的迭代聚合：分别以各核心路径集作为初始簇，给定距离门限ε与密度门限MinPts，如果两核心路径集CoreP与CoreQ满足：

CoreQ∈N_ε(CoreP) (6)，

则称核心路径集CoreQ从核心路径集CoreP“直接密度可达的”，表示为：

CoreP＜CoreQ；

如果存在一个长度非零的核心路径集链，使得核心路径集CoreQ与核心路径集CoreP满足如下条件(a)和(b)：

(a)CoreP＜CoreP₁＜CoreP₂＜……＜CoreP_n＜CoreQ，且

(b)n≥1 (7)，

则称核心路径集CoreQ是从核心路径集CoreP“间接密度可达的”，表示为：

CoreP＜^I CoreQ；

另外，如果存在一核心路径集CoreO，使得核心路径集CoreP与CoreQ分别从核心路径集CoreO直接或间接密度可达，即满足如下条件(c)和(d)：

(c)CoreO＜^I CoreP或者CoreO＜CoreP，且

(d)CoreO＜^I CoreQ或者CoreO＜CoreQ (8)

则称核心路径集CoreP与CoreQ是“密度相连”的；

继而，根据距离门限ε与密度门限MinPts，基于密度聚类进行迭代式聚合，聚合直接密度可达、间接密度可达与密度相连的核心路径集后生成的簇数目记为u；

步骤2-11，计算路径集众数：分别针对u个簇C₁，C₂，……,C_u中的各个簇C_k，C_k包含k’个核心路径集：C_k＝{CoreP₁,CoreP₂,……,CoreP_k’}，CoreP_k’表示第k’个核心路径集，计算簇C_k的路径集众数Mode_k，其中1≤k≤u，C_k表示第k个簇。

步骤2-10包括：

给定距离门限ε与密度门限MinPts，从任一核心路径集CoreP开始，首先把所有与核心路径集CoreP直接密度可达的核心路径集聚合在一起，直至所有核心路径集都已经被处理，具体过程包括：

步骤2-10-1，判断是否有未处理的核心路径集，如果有继续步骤2-10-2，如果没有继续步骤2-10-3；

步骤2-10-2，针对未处理的任一核心路径集CoreP，把所有满足与核心路径集CoreP直接密度可达的核心路径集聚合在一起，回到步骤2-10-1；

步骤2-10-3，将所有聚合在一起的核心路径集作为同一个簇，输出形成的簇，簇数目记为u。

步骤2-10-3中，同一个簇C中，两两核心路径集之间的关系必然属于以下三种情况之一：直接密度可达、间接密度可达或者密度相连，具体证明如下：

设定当前簇C中两两核心路径集是满足直接密度可达、间接密度可达或者密度相连的，当新聚合一个从核心路径集CoreO直接密度可达的核心路径集CoreQ时，即CoreO＜CoreQ且CoreO∈C，簇C中原有的任意核心路径集CoreP与新加入的核心路径集CoreQ存在以下四种情况：

1、当核心路径集CoreP就是核心路径集CoreO时，CoreP＜CoreQ，核心路径集CoreQ从核心路径集CoreP直接密度可达；

2、当核心路径集CoreP从核心路径集CoreO直接密度可达或间接密度可达时，CoreO＜CoreP或者CoreO＜^ICoreP，而同时CoreO＜CoreQ，因此核心路径集CoreP与CoreQ是经核心路径集CoreO密度相连的；

3、当核心路径集CoreO从核心路径集CoreP直接密度可达或间接密度可达时，即CoreP＜CoreO或者CoreP＜^ICoreO，而同时CoreO＜CoreQ，因此CoreP＜^ICoreQ，核心路径集CoreQ从核心路径集CoreP间接密度可达；

4、当核心路径集CoreO与核心路径集CoreP是密度相连时，即存在某核心路径集CoreR，使得CoreR＜^ICoreO或者CoreR＜CoreO，且CoreR＜^ICoreP或者CoreR＜CoreP，则有CoreR＜^ICoreQ，因此核心路径集CoreP与核心路径集CoreQ也是经核心路径集CoreR密度相连的。

由此可见，新聚合的核心路径集CoreQ与簇中原有的核心路径集仍然满足直接密度可达、间接密度可达或密度相连的关系。

步骤2-11中，根据如下公式计算簇C_k的路径集众数Mode_k，

Mode_k＝argmin_P∑_1≤q≤k’JaccardDist(P,CoreP_q)(9)，

其中，P表示路径点集合，CoreP_q表示簇C_k中的第q个核心路径集，而路径集众数Mode_k表示当与簇C_k中所有核心路径集Jaccard距离之和最小时对应的路径点集合。

步骤2-11包括：

步骤2-11-1，计算交集系数和并集系数：给定簇C_k，包含k’个核心路径集：C_k＝{CoreP₁,CoreP₂,……,CoreP_k’}，先计算簇C_k中包含的路径点字典Ω_k：

Ω_k＝∪_1≤q≤k’CoreP_q’

即路径点字典是簇C_k中所有核心路径集的并集，然后针对路径点字典中的各路径点p_r’计算路径点p_r在簇C_k各核心路径集CoreP_q中的交集系数α_rq与并集系数β_rq’如下式所示：

步骤2-11-2，基于交集系数和并集系数计算路径点与核心路径集的Jaccard距离，基于交并集系数，路径点集合P＝{p_r}与各核心路径集CoreP_q的Jaccard距离可以简化为：

步骤2-11-3，基于交集系数和并集系数计算路径点集合众数：

步骤3包括：将Mode_k作为第k个簇C_k的路径热点输出。

距离门限ε用于比较路径点集合之间的相似度，由于两两路径点集合之间的Jaccard距离取值范围在区间[0,1]之内，距离门限ε取值同样在区间[0,1]之内。

由于两路径点集合之间的Jaccard距离取值满足上限条件：

因此如果要满足JaccardDist(P_s,P_t)≤ε，则必须

传统密度聚类方法仅适用于固定维数向量数据，并不适用与非固定长度的路径点集合数据上。本发明创新性地提出了专门针对路径点集合的“核心路径集”及其“直接密度可达”、“间接密度可达”、“密度相连”概念，从而将仅适用于固定维数向量的传统密度聚类方法拓展应用到非固定长度的路径点集合数据上。本发明还提出了基于交集、并集系数的热点路径挖掘方法，显著提升了热点路径分析效能并提出了基于交集、并集系数的热点路径挖掘方法，显著提升了热点路径分析效能。

有益效果：(1)提出了针对目标路径点集合的相似度比较方法；(2)密度门限MinPts的选择具有一定的灵活性、鲁棒性；(3)计算成本低，实现方法工程化。本发明采用基于路径点集合的分析挖掘方法，简化了路径点顺序，有利于聚合具有相同路径点的测量数据，能够大大降低计算成本、提高计算效率。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1是本发明的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本发明针对将目标路径表征为由若干路径点构成的路径点集合，构建相似度距离矩阵，比较两两路径点集合之间的相似度，基于相似度距离矩阵、距离门限ε与密度门限MinPts采用密度聚类迭代式地计算路径点集合的簇，最后将各簇的路径集众数的作为目标热点路径输出。

如图1所示，本发明方法具体包括以下步骤：

假设采集了n条目标路径相对应的n个路径点集合，每个路径点集合对应一条目标路径，而路径点集合中的每个元素为对应目标路径中的一个路径点，则定义两两路径点集合P_i和P_j之间的Jaccard距离为：

(1)路径点集合排序：将n个路径点集合首先按集合大小由大到小、其次按索引值由小到大排序，记为P₁、P₂、…、P_n，满足|P₁|≥|P₂|≥…≥|P_n|；

(2)相似度距离矩阵初始化：设定距离门限ε，其取值范围满足0<ε<1，初始化相似度距离矩阵DistArray为空，其矩阵大小n×n，即矩阵的行数和列数均为n，因为相似度距离矩阵关于多角线对称，所以只保留上三角部分；

(3)当前集合索引设置：设置当前路径点集合索引s＝1；

(4)待比较集合索引设置：设置待比较路径点集合索引t＝s+1；

(5)待比较集合索引判断：判断待比较路径点集合索引，如果不满足t≤n且|P_t|/|P_s|≥1-ε，继续步骤(6)，如果满足继续步骤(8)；

(6)当前集合索引更新：更新当前集合索引值s＝s+1；

(7)当前集合索引判断：判断当前集合索引，如果满足s≥n，继续步骤(10)，否则，返回步骤(4)；

(8)相似度距离计算：计算当前集合索引与待比较集合索引对应的两个路径点集合之间的Jaccard距离，如果满足JaccardDist(P_s，P_t)≤ε，更新相似度矩阵中对应矩阵单元值:

DistArray[s,t]＝JaccardDist(P_s,P_t)；(2)

(9)待比较集合索引更新：t＝t+1，返回步骤(5)；

(10)路径点邻域大小计算：给定任意路径点集合P，将与路径点集合P的相似度距离在距离门限ε以内的其他所有路径点集合定义为该路径点集合P的ε邻域，记为N_ε(P)：

N_ε(P)＝{Q|JaccardDist(P,Q)≤ε&&Q≠P} (3)，计算各路径点集合P_i邻域大小，|N_ε(P_i)|；

(11)核心路径集构建：设定密度门限MinPts，将ε邻域大小不小于MinPts的路径点集合定义为核心路径集，即任一核心路径集CoreP满足：

|N_ε(CoreP)|≥MinPts (4)；

(12)基于密度的迭代聚合：分别以各核心路径集作为初始簇，给定距离门限ε与密度门限MinPts，如果两核心路径集CoreP与CoreQ满足：

CoreQ∈N_ε(CoreP) (5)，

则称核心路径集CoreQ从核心路径集CoreP“直接密度可达”，表示为CoreP＜CoreQ；如果存在一个长度非零的核心路径集链，使得核心路径集CoreQ与核心路径集CoreP满足：

(a)CoreP＜CoreP₁＜CoreP₂＜……＜CoreP_n＜CoreQ，且

(b)n≥1 (6),

则称核心路径集CoreQ是从核心路径集CoreP“间接密度可达”的，表示为：CoreP＜^I CoreQ；另外，如果存在一核心路径集CoreO，使得核心路径集CoreP与CoreQ分别从核心路径集CoreO直接或间接密度可达，即，

(a)CoreO＜^I CoreP或者CoreO＜CoreP，且

(b)CoreO＜^I CoreQ或者CoreO＜CoreQ (7)

则称核心路径集CoreP与CoreQ是“密度相连”的；继而，根据距离门限ε与密度门限MinPts，基于密度聚类进行迭代式聚合，聚合直接密度可达、间接密度可达与密度相连的核心路径集后生成的簇数目记为u；

(13)路径集众数计算：分别针对u个簇C₁，C₂，……,C_u中的各个簇C_k，包含k’个核心路径集：C_k＝{CoreP₁,CoreP₂,……,CoreP_k’}，并计算簇C_k的路径集众数Mode_k，Mode_k＝argmin_P∑_1≤q≤k’JaccardDist(P,CoreP_q) (8)，

其中1≤k≤u，C_k表示第k个簇，CoreP_j表示第j个核心路径集，将Mode_k其作为簇C_k的路径热点输出。

本发明方法可以提升目标位置量测不精确情形下的目标路径分析能力，有利于减少目标位置量测的冗余性，增加空间粒度的灵活性，可以更好地完成目标路径分析任务。下面通过一个实例来说明本发明的基于密度聚类的热点路径分析方法。

本实施例中，在某城市道路交通管理中，基于出租车轨迹信息采集到n＝5条高频目标路径，对应着5个路径点集合，路径点集合中的每个元素对应该路径中的一个路径点，距离门限ε取值为0.3，密度门限MinPts取值为1，则基于密度聚类的热点路径分析步骤如下：

步骤1，路径点集合排序，首先按路径点集合大小由大到小、其次按索引值由小到大排序为P₁、P₂、P₃、P₄、P₅，，如表1所示：

表1

路径索引	对应路径点集合	集合大小
			1	P<sub>1</sub>＝{a,b,c,d}	4
2	P<sub>2</sub>＝{a,b,c}	3
			3	P<sub>3</sub>＝{a,b,c}	3
4	P<sub>4</sub>＝{e,f}	2
			5	P<sub>5</sub>＝{e,f}	2

步骤2，相似度距离矩阵初始化，距离门限ε取值为0.3，初始化相似度距离矩阵DistArray为空，矩阵大小5×5，因为相似度距离矩阵关于多角线对称，所以只保留上三角部分，如表2所示：

表2

步骤3，当前集合索引设置，设置当前路径点集合索引s＝1；

步骤4，待比较集合索引设置，设置待比较路径点集合索引t＝s+1＝2；

步骤5，待比较集合索引判断，满足“t≤n且|P_t|/|P_s|＝0.75>1-ε＝0.7”，继续步骤8；

步骤8，相似度距离计算，计算路径点集合P₁和P₂之间的Jaccard距离为0.25，小于距离门限ε＝0.3，更新相似度矩阵DistArray，如表3所示：

表3

路径点集合	P<sub>1</sub>	P<sub>2</sub>	P<sub>3</sub>	P<sub>4</sub>	P<sub>5</sub>
						P<sub>1</sub>	-	0.25	-	-	-
P<sub>2</sub>	-	-	-	-	-
						P<sub>3</sub>	-	-	-	-	-
P<sub>4</sub>	-	-	-	-	-
						P<sub>5</sub>	-	-	-	-	-

步骤9，待比较集合索引更新，更新待比较雷达辐射源索引t＝t+1＝3，返回步骤5；

步骤5，待比较集合索引判断，满足“t≤n且|P_t|/|P_s|＝0.75>1-ε”，继续步骤8；

步骤8，相似度距离计算，计算路径点集合P₁和P₃之间的Jaccard距离，更新相似度矩阵DistArray，如表4所示：

表4

路径点集合	P<sub>1</sub>	P<sub>2</sub>	P<sub>3</sub>	P<sub>4</sub>	P<sub>5</sub>
						P<sub>1</sub>	-	0.25	0.25	-	-
P<sub>2</sub>	-	-	-	-	-
						P<sub>3</sub>	-	-	-	-	-
P<sub>4</sub>	-	-	-	-	-
						P<sub>5</sub>	-	-	-	-	-

步骤9，待比较集合索引更新，更新待比较雷达辐射源索引t＝t+1＝4，返回步骤5；

步骤5，待比较集合索引判断，判断待比较目标索引值不满足“|P_t|/|P_s|＝0.5≥1-ε”，继续步骤6；

步骤6，当前集合索引更新，更新当前集合索引值s＝s+1＝2；

步骤7，当前集合索引判断，判断当前集合索引s<n，返回步骤4；

步骤4，待比较集合索引设置，设置待比较集合索引t＝s+1＝3；

步骤5，待比较集合索引判断，判断待比较目标索引值t＝3满足“t<n且|P_t|/|P_s|＝1≥1-ε”，继续步骤8；

步骤8，相似度距离计算，计算路径点集合P₂和P₃之间的Jaccard距离，更新相似度矩阵DistArray，如表5所示：

表5

路径点集合	P<sub>1</sub>	P<sub>2</sub>	P<sub>3</sub>	P<sub>4</sub>	P<sub>5</sub>
						P<sub>1</sub>	-	0.25	0.25	-	-
P<sub>2</sub>	-	-	0.00	-	-
						P<sub>3</sub>	-	-	-	-	-
P<sub>4</sub>	-	-	-	-	-
						P<sub>5</sub>	-	-	-	-	-

步骤5，待比较集合索引判断，判断待比较目标索引值t＝4不满足“|P_t|/|P_s|＝0.667≥1-ε”，继续步骤6；

步骤6，当前集合索引更新，更新当前集合索引值s＝s+1＝3；

步骤4，待比较集合索引设置，设置待比较路径点集合索引t＝s+1＝4；

步骤5，待比较集合索引判断，判断待比较目标索引值t＝4不满足“|P_t|/|P_s|≥1-ε”，继续步骤6；

步骤6，当前集合索引更新，更新当前集合索引值s＝s+1＝4；

步骤4，待比较集合索引设置，设置待比较路径点集合索引t＝s+1＝5；

步骤5，待比较集合索引判断，判断待比较路径点集合索引满足“t＝5≤n且|P_t|/|P_s|＝1≥1-ε，继续步骤8；

步骤8，相似度距离计算，计算路径点集合P₄和P₅之间的Jaccard距离为零，满足JaccardDist(P₄,P₅)≤0.3，更新相似度矩阵DistArray，如表6所示：

表6

路径点集合	P<sub>1</sub>	P<sub>2</sub>	P<sub>3</sub>	P<sub>4</sub>	P<sub>5</sub>
						P<sub>1</sub>	-	0.25	0.25	-	-
P<sub>2</sub>	-	-	0.00	-	-
						P<sub>3</sub>	-	-	-	-	-
P<sub>4</sub>	-	-	-	-	0.00
						P<sub>5</sub>	-	-	-	-	-

步骤9，待比较集合索引更新，更新待比较雷达辐射源索引t＝t+1＝6，返回步骤5；

步骤5，待比较集合索引判断，判断待比较目标索引值t＝6不满足“t≤n”，继续步骤6；

步骤6，当前集合索引更新，更新当前集合索引值s＝s+1＝5；

步骤7，当前集合索引判断，判断当前集合索引s＝n，继续步骤10；

步骤10，路径点邻域大小计算，计算各路径点集合P_i的ε邻域大小|N_ε(P_i)|，如表7所示：

表7

i	路径点集合	\|N<sub>ε</sub>(P<sub>i</sub>)\|
			1	P<sub>1</sub>＝{a,b,c,d}	2
2	P<sub>2</sub>＝{a,b,c}	2
			3	P<sub>3</sub>＝{a,b,c}	2
4	P<sub>4</sub>＝{e,f}	1
			5	P<sub>5</sub>＝{e,f}	1

步骤11，核心路径集构建，将ε邻域大小不小于MinPts的路径点集合设置为核心路径集，其取值为大于等于1并小于n的自然数，一般情况下可取值为

P₁,P₂,P₃,P₄,P₅均为核心路径集；

步骤12，基于密度的迭代聚合，初始簇有5个，分别为{P₁},{P₂}，{P₃},{P₄}和{P₅}，经过迭代式聚合，最终生成的簇为u＝2个：C₁＝{P₁,P₂,P₃}与C₂＝{P₄,P₅}，簇C₁中，P₁,P₂,P₃两两之间是直接密度可达的，簇C₂中，P₄与P₅也是直接密度可达的；

步骤13，路径集众数计算，针对每个簇构建由其所有核心路径集合组成的核心集，C₁＝{P₁,P₂,P₃}与C₂＝{P₄,P₅}，分别计算其众数为：Mode₁＝{a,b,c}，Mode₂＝{e,f}，以Mode₁为例，其交并集系数如表8所示：

表8

对应的最小Jaccard距离总和为：

在城市道路交通管理中，则可以针对挖掘出的热点路径{a,b,c}与{e,f}，加强对应道路、红绿灯，以保障道路畅通、控制车流量。本发明的研究成果有利于提升目标位置量测不精确情形下的目标路径分析能力，有利于减少目标位置量测的冗余性，增加空间粒度的灵活性，可以更好地完成目标路径分析任务。

本发明的研究工作得到了国家自然科学基金(No.61771177)资助。

本发明提供了一种基于密度聚类的热点路径分析方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种用于城市道路交通管理的基于密度聚类的热点路径分析方法，其特征在于，包括如下步骤：

步骤2，比较两两路径点集合之间的相似度，基于相似度距离矩阵、距离门限ε与密度门限MinPts从路径点集合中挖掘出核心路径集，再根据针对核心路径集的直接密度可达关系，采用密度聚类迭代式地生成由核心路径集聚合成的簇；

步骤3，将各簇的路径点集合众数作为目标热点路径输出；

步骤1包括：

步骤1-1，设定基于出租车轨迹信息采集了n条目标路径相对应的n个路径点集合，每个路径点集合对应一条目标路径，而路径点集合中的每个元素为对应目标路径中的一个路径点，则定义第i个路径点集合P_i和第j个路径点集合P_j之间的Jaccard距离JaccardDist(P_i,P_j)为：

步骤1-3，初始化相似度距离矩阵：设定距离门限ε，初始化相似度距离矩阵DistArray为空，其矩阵大小n×n，即矩阵的行数和列数均为n；

步骤1-3中，距离门限ε取值为所有路径点集合最近邻距离的均值，即：

步骤2包括：

步骤2-4，更新当前集合索引：更新当前集合索引值s＝s+1；

DistArray[s,t]＝JaccardDist(P_s,P_t) (3)，

DistArray[s,t]表示相似度距离矩阵DistArray第s行第t列的值；

步骤2-7，更新待比较集合索引：t＝t+1，返回步骤2-3；

N_ε(P)＝{Q|JaccardDist(P,Q)≤ε&&Q≠P} (4)，

步骤2-9，构建核心路径集：设定密度门限MinPts，将ε邻域大小不小于MinPts的路径点集合定义为核心路径集，即任一核心路径集CoreP满足：

|N_ε(CoreP)|≥MinPts (5)；

CoreQ∈N_ε(CoreP) (6)，

则称核心路径集CoreQ从核心路径集CoreP直接密度可达的，表示为：

CoreP＜CoreQ；

(a)CoreP＜CoreP₁＜CoreP₂＜……＜CoreP_n＜CoreQ，且

(b)n≥1 (7)，

则称核心路径集CoreQ是从核心路径集CoreP间接密度可达的，表示为：

CoreP＜^ICoreQ；

如果存在一核心路径集CoreO，使得核心路径集CoreP与CoreQ分别从核心路径集CoreO直接或间接密度可达，即满足如下条件(c)和(d)：

(c)CoreO＜^ICoreP或者CoreO＜CoreP，且

(d)CoreO＜^ICoreQ或者CoreO＜CoreQ (8)

则称核心路径集CoreP与CoreQ是密度相连的；

步骤2-11，计算路径集众数：分别针对u个簇C₁，C₂，……,C_u中的各个簇C_k，C_k包含k’个核心路径集：C_k＝{CoreP₁,CoreP₂,……,CoreP_k’}，CoreP_k’表示第k’个核心路径集，计算簇C_k的路径集众数Mode_k，其中1≤k≤u，C_k表示第k个簇；

步骤2-10包括：

步骤2-10-3，将所有聚合在一起的核心路径集作为同一个簇，输出形成的簇，簇数目记为u；

步骤2-11中，根据如下公式计算簇C_k的路径集众数Mode_k，

Mode_k＝argmin_P∑_1≤q≤k’JaccardDist(P,CoreP_q) (9)，

其中，P表示路径点集合，CoreP_q表示簇C_k中的第q个核心路径集，而路径集众数Mode_k表示当与簇C_k中所有核心路径集Jaccard距离之和最小时对应的路径点集合；

步骤2-11包括：

Ω_k＝∪_1≤q≤k’CoreP_q’

步骤2-11-2，基于交集系数和并集系数计算路径点与核心路径集的Jaccard距离：路径点集合P＝{p_r}与各核心路径集CoreP_q的Jaccard距离简化为：

步骤2-11-3，基于交集系数和并集系数计算路径点集合众数：

在城市道路交通管理中，针对挖掘出的热点路径，加强对应道路、红绿灯，以保障道路畅通、控制车流量。

2.根据权利要求1所述的方法，其特征在于：步骤3包括：将Mode_k作为第k个簇C_k的路径热点输出。