CN110046209B

CN110046209B - 一种基于高斯模型的轨迹停止点提取方法

Info

Publication number: CN110046209B
Application number: CN201910233961.XA
Authority: CN
Inventors: 杨雨晴; 蔡江辉; 杨海峰; 张继福; 赵旭俊
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2022-08-09
Anticipated expiration: 2039-03-26
Also published as: CN110046209A

Abstract

本发明公开了一种基于高斯模型的轨迹停止点提取方法，给定初始半径和密度，计算各个数据点在半径范围内的邻居点的数量记为该点的密度，标记密度小于MD的所有轨迹点，求出所有标记轨迹点的邻居数量的均值和方差，建立移动点的密度高斯模型，通过调整半径和密度相应的调整移动点的密度高斯模型，直到剩余停止点的结构不再发生变化，获得最终的移动点密度高斯模型。利用该密度高斯模型拟合各条轨迹数据，并按不同的时间段进行划分，得到最终的停止点的聚集模式。该方法从移动点的聚集特征分析出发，通过移动点的密度特征建立高斯模型，通过高斯模型来排除轨迹中的移动点，从而提高停止点的提取精度。

Description

一种基于高斯模型的轨迹停止点提取方法

技术领域

本发明一种基于高斯模型的轨迹停止点提取方法，属于轨迹数据挖掘技术领域。

背景技术

轨迹数据是描述移动对象的移动位置随时间的变化的数据结构，其中蕴含着丰富的有价值的信息或知识。通常情况下，轨迹数据中包含移动点和停止点两类数据点。轨迹中的停止点对应于特定的地理位置或者场所，或者某些重要事件发生的位置，比如说：超市，购物中心，学校，办公楼，聚集游行活动，交通事故等发生的场所等。对这些特殊的地理位置进行发现能够用于分析移动对象的行为模型并预测该事件的下一次聚集模式的发生时间。因此，轨迹中停止点相对于轨迹中的移动点来说更具有重要性，如何有效利用轨迹数据，挖掘其中的停止点，从而分析停止点中有价值的知识或者模式意义重大。

目前来说，大部分针对停止点的提取和分析方法均是从停止点本身角度出发，通过分析停止点的各种特征，如停止点的速度，密度，移动特性，方向角等，来提取停止点。然而实际数据分布中，停止点反应的是移动对象复杂的行为模式，各移动点的速度，密度，移动特性，方向角之间存在较大差异，使得停止点的提取精度在不同轨迹数据上存在一定程度的波动。此外，相同或者不同轨迹中，停止点聚集位置的规模各异，对于这些聚集规模不一的停止点，仅仅利用唯一确定的邻域半径阈值极大影响了轨迹聚类的精度。

与之相反，轨迹中的移动点通常对应的是某条路径，连着着两个相邻的停止点所聚集的位置，这些移动点的速度和密度彼此之间存在的差异相对较小，因此，相对来说，移动点的提取难度要小于停止点的提取难度，如果能够从移动点特征分析的角度出发，对轨迹中的移动点进行提取，然后对提取后剩余的点进行聚类分析，不仅可以提高停止点聚类分析的精度，还可以作为停止点提取的一种预处理手段，减少停止点聚类时参与的数据量从而提高聚类的时间效率。

发明内容

本发明提供了一种基于高斯模型的轨迹停止点提取方法，该方法从移动点的聚集特征分析出发，通过移动点的密度特征建立高斯模型，通过高斯模型来排除轨迹中的移动点，从而提高停止点的提取精度。

本发明通过以下技术方案实现：

一种基于高斯模型的轨迹停止点提取方法，包括以下步骤：

S1，数据采集和预处理，以GPS等定位设备采集的轨迹数据为基础，删除轨迹数据中的无关属性，获得目标轨迹数据作为本方法的输入数据；

S2，参数初始化，初始化参数邻域半径R和密度阈值MD，并将得到的初始化值作为参数的初值输入到方法中；

S3，轨迹点密度计算，计算各轨迹点的R半径范围内的邻居点的数量，将该数量作为该轨迹点的密度值，并保存到密度数组D中；

优选地，所述S3中轨迹点密度计算包括以下步骤：

S31：对于轨迹数据中的所有轨迹点，计算各轨迹点与其余轨迹点的距离：

假设P_i(Lat_i，Long_i，Ti)和P_j(Lat_j，Long_j，T_j)分别为某条轨迹中的两轨迹点，则P_i和P_j的距离Dis(P_i,P_j)的计算方法如下：

式中，6378137为地球半径，单位为米；radLat_i和radLat_j分别为轨迹点Pi和Pj的纬度对应的弧度值，即：

radLat_i＝Lat_i*π/180,radLat_j＝Lat_j*π/180；

a和b分别为轨迹点Pi和Pj的纬度对应的弧度值之差，即：

a＝radLat_i-radLat_j,b＝radLong_i-radLong_j；

S32：当P_i和P_j的距离Dis(P_i,P_j)≤R时，该两点P_i和P_j互为邻居，P_i的密度值加1；

轨迹点P_i的密度ρ_i计算公式为：

其中n为轨迹中包含的数据点的数量；

S33：将各轨迹点的密度值保存到数组D中。

S4，高斯模型建立，对各轨迹点中密度值小于密度阈值MD的轨迹点进行标记，求出所述被标记轨迹点的密度值的均值和方差，并利用该均值和方差建立移动点的密度高斯模型；

优选地，所述S4中的高斯模型建立包括以下步骤：

S41：遍历密度数组D，标记数组D中元素值小于MD的轨迹点；

假设参数MD当前的值为10，则密度数组D中ρ_i值小于10的点将在本过程中被标记(轨迹点的密度越大则其为停止点的可能性越大，为移动点的可能性越小)。这些被标记的点由于密度较小，则其很有可能为移动点，也即本方法要考察的特征点。

S42：求出密度数组D中所有被标记轨迹点的元素值的均值μ和方差σ，建立所述被标记轨迹点的均值μ和方差σ的密度高斯模型；

以密度数组D中被标记轨迹点为基础，求出其均值和方差：假设这些被标记轨迹点的均值和方差分别为μ和σ，通过下述方式获得与μ和σ相关的一维高斯函数模型GM(μ，σ²)：

式中，x为密度数组D中各元素对应的值；

根据高斯函数的3σ准则，先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，将含有粗大误差的数据予以剔除；

根据高斯函数的函数值的3σ分布特性，本文密度数组D带入到调整后的高斯模型GM(μ，σ²)中后，得到的密度数组D中各元素对应的函数值分布在(μ—σ，μ+σ)中的概率为0.6526；数值分布在(μ—2σ，μ+2σ)中的概率为0.9544，数值分布在(μ—3σ，μ+3σ)中的概率为0.9974，因此可以认为，数值分布几乎全部集中在(μ-3σ，μ+3σ)区间内，超出这个范围的可能性仅占不到0.3％；

根据3σ准则，取μ-3σ或μ+3σ作为函数拟合的下界，同时由于函数的对称分布特性，μ-3σ或μ+3σ出对应的函数值相等。因此，本方法取(μ，μ+3σ)作为本方法模型拟合区间的上下界，包含在所述上下界对应的高斯函数值以内的轨迹点被视为移动点，反之，不满足该上下界约束的轨迹点被视为潜在停止点。

S5，高斯模型调整，调整参数邻域半径R和密度阈值MD的值，重复S3和S4步骤，来相应的调整高斯模型；利用调整后的高斯模型拟合轨迹点的密度值，直到拟合不上的轨迹点的数据结构趋于稳定，得到最终的移动点的密度高斯模型GM(μ，σ²)；

优选地，所述S5中高斯模型调整包括以下步骤：

S51：改变初始的R和MD值，将改变后的R和MD值，代入到所述步骤S3和S4中，获得变化后的密度数组D以及新的均值μ和方差σ；

S52：利用新的μ和σ建立调整后的高斯模型；

S53：将调整后的高斯模型作用到变化后的轨迹数据的密度数组D上；

S54：使用调整后的高斯函数模型GM(μ，σ²)去拟合密度数组D，不满足上下界约束的点为停止点，随着R和MD的调整，停止点的结构会相应发生变化，观察停止点的结构也即簇内的成员不再发生变化。趋于稳定时，则停止对模型的结构进行调整，从而得到最终的移动点的高斯函数GM(μ，σ²)；否则，继续调整R和MD的值，并执行所述步骤S3和S4。

S6，停止点提取：利用移动点的密度高斯模型拟合调整后的密度数组D，剔除所有满足拟合条件的的轨迹点，并将剩余的轨迹点按照时间段进行划分，得到最终的轨迹停止点的聚集模式。

优选地，所述S6中停止点提取包括以下步骤：

S61：以调整后的各轨迹点的密度值为依据，利用最终得到的移动点的密度高斯模型GM(μ，σ²)拟合上述密度值得到各密度值对应的拟合值；

S62：分别将μ，μ+3σ带入到最终的高斯模型GM(μ，σ²)中获得模型拟合的上下界，将拟合值不满足上下界约束的轨迹点作为停止点提取出来；

S63：将提取到的所有停止点按照时间区间进行划分，得到停止点的聚集模式。

优选地，所述模型拟合的上下界确定方法如下：

根据高斯函数3σ准则，高斯函数的函数值分布在(μ—σ，μ+σ)中的概率为0.6526；高斯函数的函数值分布在(μ—2σ，μ+2σ)中的概率为0.9544，高斯函数的函数值分布在(μ—3σ，μ+3σ)中的概率为0.9974，可以认为，高斯函数的函数值分布几乎全部集中在(μ-3σ，μ+3σ)区间内，超出这个范围的可能性仅占不到0.3％；

与现有技术相比，本发明具有如下有益效果：

1，本发明方法从移动点特征分析的角度出发，利用移动点的密度特征建立高斯模型来对停止点进行提取。然而目前大部分从停止点的特征出发的方法，由于停止点的特征复杂多变难以对其进行准确把握，使得这些方法的最终结果在不同轨迹上波动较大，方法的复杂性和可理解性不强。本文方法，从轨迹中包含的特性简单的移动点出发，通过密度特征更加准确的区分停止点和移动点，从而获得更高精度的停止点聚类结果。

2，本方法通过调整参数R和MD的值来获得最佳移动点的密度高斯模型，从而提高的停止点提取精度，克服了仅仅利用唯一确定的邻域半径阈值极大影响了轨迹聚类的精度的缺陷，能够发现相同或者不同轨迹中聚集规模不一的停止点，且不受到停止点聚集簇的形状的限制，能够发现聚集形状各异的停止点。

3，本方法利用高斯函数来拟合移动点，拟合不上的轨迹点被视为本方法发现的停止点。因此，本方法还可以作为现有众多方法中停止点提取的一种预处理手段，先粗略地将目标轨迹点以外的移动点拟合剔除，然后对剩余的点进行进一步的停止点特性分析，减少停止点聚类时参与的轨迹点的数量从而提高聚类的时间效率。

附图说明

图1为本发明方法流程图；

图2为移动对象的移动轨迹Tra；

图3轨迹点p的邻居

图4为一维高斯分布图；

图5(a)为轨迹Tra的拟合图(R＝10，MD＝10)；

图5(b)为图5(a)的部分放大图；

图6(a)为轨迹Tra的拟合图(R＝30，MD＝30)；

图6(b)为图6(a)的部分放大图；

图7(a)为轨迹Tra的拟合图(R＝50，MD＝35)；

图7(b)为图7(a)的部分放大图；

图8为移动轨迹Tra的密度；

图9为移动对象的移动速度；

图10为轨迹中不同规模的停止点；

图11为本发明方法提取到的不同轨迹中的停止点。

具体实施方式

下面结合具体实施例对本发明做进一步的详细说明，但是本发明的保护范围并不限于这些实施例，凡是不背离本发明构思的改变或等同替代均包括在本发明的保护范围之内。

本发明所涉及到的定义包括：

定义1：轨迹：

一条轨迹为包含n个轨迹点的时空数据序列，Tra_j[Id]＝{P₀，P₁，…P_n}，且P_i＝{(Latitude，Longitude)，T_i}，0≤i≤n，T_i<T_i+1。其中(Latitude，Longitude)为轨迹点P_i对应的经纬度坐标，T_i为移动对象到达位置(Latitude，Longitude)的时间，如图2所示，为移动对象的一条真实移动轨迹，各个圆圈为移动对象在特定采样时间下所处的经纬度坐标位置，图中的轨迹共包含了标号为P₁—P₇₂₅的共725个轨迹点，时间跨度为2012-04-10,14:38:54—2012-04-10,16:16:29。

定义2：邻居：

给定邻域半径R，在某种距离度量下，如果轨迹中某两点的距离小于给定的邻域半径R，则该两点彼此互为邻居。

定义3：密度：

一条轨迹中，到某点的距离小于邻域半径R的所有邻居点的数量记作该点的密度，某点邻居数越多，其密度越大。

本发明方法从移动点的密度特征分析的角度出发，

首先给定初始半径R和密度MD，计算各个轨迹的R半径范围内的邻居点的数量，记为该点的密度，然后标记密度小于MD的所有轨迹点，

其次，求出所有标记的轨迹点的邻居数量的均值和方差，并利用该均值和方差建立移动点的密度高斯模型，

再次，通过调整R和MD的值来获得变化后的标记点的均值和方差并相应的调整移动点的密度高斯模型，直到剩余停止点的结构不再发生变化获得最终的移动点的密度高斯模型。

最后，利用该密度高斯模型拟合各条轨迹数据，并将拟合后剩余的轨迹点按不同的时间段进行划分，得到最终的停止点的聚集模式。

如图1所示，本发明方法的执行流程主要包含数据采集和预处理，参数初始化，轨迹点密度计算，高斯模型建立，高斯模型调整，停止点提取6个步骤。

S1：数据采集和预处理，以GPS等定位设备采集的轨迹数据为基础，删除合法轨迹数据中与时空密度计算不相关的属性信息，仅仅保留轨迹点的经纬度和时间信息；数据预处理后得到图2中轨迹的目标轨迹数据如表1所示；

表1：图2中的轨迹预处理后的目标轨迹数据

Point	Latitude	Longitude	Time
				P<sub>1</sub>	39.9779	116.304011666667	2012-04-10，14:38:54
P<sub>2</sub>	39.977563333333	116.303376666667	2012-04-10，14:38:59
				P<sub>3</sub>	39.977483333333	116.30325	2012-04-10，14:39:04

S2：参数初始化，初始化参数邻域半径R和密度阈值MD。轨迹各簇的覆盖范围是不一样的，一般情况下，停止点所在的区域代表的是特定的地理位置或者活动场所，移动点通常为连接特定位置的路径，因此，相同半径范围内移动点的邻居数量要远远小于停止点的邻居数量，也即移动点的密度要远远小于停止点的密度。随着半径R的变化，轨迹点包含的邻居数量也会相应发生变化，设置合理的R和MD有利于更好的区分移动点和停止点。本文方法首先对R和MD分别给定初值，输入到本文的方法中，然后通过观察簇结构的变化情况来动态调整R和MD的值。

S3：轨迹点密度计算，统计各轨迹点的邻域半径R范围内的邻居点的数量，并将该数量作为该轨迹点的密度值并保存。所述S3的轨迹点的密度计算包括以下步骤：

其中，6378137为地球半径，单位：米；

radLati和radLatj分别为轨迹点Pi和Pj的纬度对应的弧度值，即：

radLat_i＝Lat_i*π/180,radLat_j＝Lat_j*π/180；

a和b分别为轨迹点Pi和Pj的纬度对应的弧度值之差，即：

a＝radLat_i-radLat_j,b＝radLong_i-radLong_j。

以表1中的数据为例，轨迹点P₁和P₂的距离为：

radLat₁＝39.9779*π/180＝0.697745983033041，

radLat₂＝39.977563333333*π/180＝0.6977401070912255，

a＝radLat₁-radLat₂＝5.875941815558505×10^-6，

b＝radLong₁-radLong₂＝1.108284075046484×10^-5，

Dis(P₁,P₂)＝65m。

同理可得：P₁和P₃的距离Dis(P₁，P₃)＝79m；P₂和P₃的距离Dis(P₂，P₃)＝14m；

S32：如果P_i和P_j的距离Dis(P_i,P_j)≤R，则该两轨迹点互为邻居，P_i的密度值加1。轨迹点P_i的密度ρ_i计算公式为：

其中n为轨迹中包含的轨迹点的数量。

如图3所示，闭合虚线圈中的点为轨迹点P半径R范围内的所有邻居，根据本方法中的定义2和定义3，将轨迹点P的邻居数量记为该点的密度。

假设图3中R＝10m，从图3可得到，轨迹点P的10m范围内点的数量为25个，因此，轨迹点P在半径R＝10m时的密度ρ为：

ρ(P/R＝10)＝25

S33：将各轨迹点的密度值保存到数组D中。图2中轨迹中各轨迹点在半径R＝10时的密度值如表2所示。

表2：图3中轨迹的密度(R＝10)数组D

S4：高斯模型建立，标记各点的密度值小于MD的轨迹点，并求出被标记点的密度值的均值和方差，并利用该均值和方差建立移动点的密度高斯模型。

所述S4的高斯模型建立包括以下步骤：

S41：遍历密度数组D，标记数组D中元素值小于MD的点。

以表2中所得到轨迹的密度为例，假设参数MD当前的值为10，则数组D中ρ_i值小于10的点将在本过程中被标记(某个轨迹点的密度越大则其为停止点的可能性越大，为移动点的可能性越小)。这些被标记的点由于密度较小，则其很有可能为移动点，也即本方法要考察的特征点。

S42：求出D中所有带标记点的元素值的均值和方差σ，将均值作为高斯莫模型的均值μ和方差σ，建立标记点均值μ和方差σ的高斯模型。

以表2D中被标记的点为基础，求出其均值和方差。通过计算表2中所有小于密度小于10的值的均值为：4.142857143，方差为：6.051186598。利用上述μ和σ，可以获得与μ和σ相关的一维高斯函数模型GM(μ，σ²)，本方法构造获得高斯函数模型的具体形式如下：

将均值4.142857143和方差6.051186598带入上述GM(μ，σ²)求得表2中数组元素对应的高斯函数值，这组高斯函数值反映了数组D中各数据与均值和方差的差异程度，差异值越小说明数据是移动点的可能性大，否则可能性小。

根据高斯函数的3σ准则，先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。高斯函数值分布在(μ—σ，μ+σ)中的概率为0.6526；高斯函数值分布在(μ—2σ，μ+2σ)中的概率为0.9544，高斯函数值分布在(μ—3σ，μ+3σ)中的概率为0.9974。因此可以认为，高斯函数值值分布几乎全部集中在(μ-3σ，μ+3σ)区间内，超出这个范围的可能性仅占不到0.3％。

均值和方差分别为-5和1的一维高斯函数的图像如图4所示。从图4可得，一维高斯函数的图像关于虚线X＝μ左右对称，函数图像的最高点为横坐标值取μ时对应的点，因此可以以该点作为函数的上界。根据3σ准则，高斯函数值分布在(μ—3σ，μ+3σ)中的概率为0.9974，即可以认为几乎所有数据点的高数值均位于(μ—3σ，μ+3σ)区间，则可以取μ-3σ或μ+3σ作为函数拟合的下界，同时由于函数的对称分布特性，μ-3σ或μ+3σ出对应的函数值相等，且x＝μ处对应函数值对应于高斯函数图像的顶点，综上所述，本方法以(μ，μ±3σ)作为模型拟合的上下界，包含在该上下界对应的高斯函数值以内的点被视为移动点，反之，不满足该上下界约束的点被视为潜在停止点。

则将R＝10,MD＝10时的均值和方差确定的上下界(4.142857143，4.142857143+3*6.051186598)带入模型可得模型能够拟合上的移动点对应的高斯函数值应该位于：(0.00180455792,0.162441115684)之间。

将数组D中的所有元素对应的高斯函数值和(0.00180455792,0.162441115684)相比较，如果某点的函数值位于(0.00180455792,0.162441115684)之间，则说明该轨迹点为停止点，否则为移动点。拟合后的轨迹数据图像如图5(a)和5(b)所示。图5(b)为5(a)的部分放大图，图中圆圈标记的轨迹点为拟合上的点，也即移动点，星号标记的部分为停止点。

S5：高斯模型调整，调整参数R和MD的值，重复S3和S4，来相应的调整高斯模型，利用调整后的高斯模型拟合轨迹点的密度数组D，直到拟合不上的轨迹点的数据结构趋于稳定时得到最终的移动点的密度高斯模型GM(μ，σ²)。

所述S5的高斯模型调整包括以下步骤：

S51：改变初始的R和MD值，将改变后的R和MD值代入到S3和S4中，获得变化后的数组D以及新的均值μ和方差σ。

图5(a)可得，轨迹中的大部分停止点都被拟合上了，因此需要对R和MD作出调整，调整后的R＝30，MD＝30。

S52：利用新的μ和σ建立调整后的高斯模型。

S53：将调整后的高斯模型作用到轨迹数据的密度数组D上。

S54：高斯函数GM(μ，σ²)去拟合密度数值D，不满足上下界约束的点为停止点。随着R和MD的调整，停止点的结构会相应发生变化，观察停止点的结构是否趋于稳定，也即簇内的成员不再放生变化。如果趋于稳定则停止对模型的结构进行调整，从而得到最终的移动点的高斯函数GM(μ，σ²)，否则，继续调整R和MD的值，并执行S3和S4。

当调整后(R＝30，MD＝30)的高斯函数拟合图如图6(a)和5(d)所示，其中5(d)为5(c)中的部分放大图，图中的圆圈和星号依然分别标记拟合上的移动点和没有拟合上的停止点，图中。相较于5(a)和5(b)，更多的停止点没有被拟合上，因此，5(c)相对于5(a)拟合更接近了本文发明的目标。进一步调整后的函数拟合图像及其部分放大图如图7(a)和7(b)所示。

从图7(a)和7(b)中可以看出，簇的结构已经基本发现，因此，可以停止对模型进行调整，R＝50，MD＝35即为调整后的最终参数值。

S6：停止点提取：利用移动点的密度高斯模型拟合各轨迹点的密度值，剔除所有满足拟合条件的的轨迹点，并将剩余的轨迹点按照时间段进行划分，得到最终的轨迹停止点的聚集模式。

所述S6的停止点提取包括以下步骤：

S61：以调整R和MD后最终获得的密度数组D为依据，利用最终得到的移动点的密度高斯模型GM(μ，σ²)拟合上述密度值得到各密度值对应的拟合值。

S62：分别将μ，μ+3σ带入到GM(μ，σ²)中获得模型拟合的上下界，将拟合值不满足上下界约束的点作为停止点提取出来。

如图7(b)所示，图中星号标记部分即为高斯函数没有拟合上的部分，也即本发明所需要提取的停止点。对图6(b)中的所有星号区域的点的位置信息进行提取即可完成本发明停止点的提取任务。

以下对本发明有效性进行分析及验证：

1.密度特性的有效性分析

如图1为某个移动对象的移动轨迹Tra，图中圆圈为一个轨迹点。图中有大量的轨迹点集中在经度为116.330—116.335附近所示的位置，很明显轨迹中其他位置的集中程度要明显低于116.330—116.335附近所示的位置轨迹点的集中程。按照本发明中给出的轨迹点的密度计算方法，计算了图1中各轨迹点的密度，并根据各轨迹点的密度值绘制成了密度曲线(如图8中黑色实线所示)。以图8中位于标号为100—200之间某个轨迹点的密度值为界，该点之后的轨迹点的密度值要明显高于该点之前轨迹点的密度值。如果以图中虚线为密度阈值参考，可以将图2中的这条轨迹大致分为两部分，密度低轨迹点对应于移动点，密度高的对应于停止点。

因此，从密度或者数据点的规模的特性出发在一定程度上可以区分轨迹中的移动点和停止点。

2.轨迹点速度特性不确定性。

如图9所示，图中给出了移动轨迹Tra的速度变化曲线。图中每个点的速度值是通过计算时间邻的两个轨迹点的欧式距离与该两点的采样时间间隔得到。整体来说，各轨迹点在各采样时间间隔内的速度变化特征是不确定的。与图2和图8中所示的停止点和移动点区域中均包含有速度较大和速度较小的点，速度阈值的确定难度很大。因此，本发明并不考虑轨迹点的速度特性。

3.全局唯一的半径阈值参数的影响

图10为圆圈和加号标记的两条轨迹，虚线圈出来的部分为轨迹中的停止点区域。116.330—116.335附近所示的位置的停止点的规模要远远大于图10中其他圈中区域停止点的规模。这种簇规模差异的存在，使得116.330—116.335所在区域的停止点的特性太强，密度太大，很容易掩盖其他簇的特性，当半径阈值参数设置为全局唯一值时，半径太小，簇的发现可能就不完，半径太大，有些簇意外的点可能就被错误的包含进来，使得整体聚类的精度下降。

因此，本发明自适应的选择半径阈值，半径阈值能够根据簇的结构做出调整，从而提高聚类的精度。

利用本发明所述的方法，采用GeoLife轨迹数据对方法的有效性进行了验证。图11为本发明方法在不同和R和MD的情况下得到的不同轨迹中的停止点。图11为重复本发明中的上述方法得到的不同轨迹中的停止点，除图中小实线圆圈所示部分外，其余被星号标记的部分为本发明提取到的轨迹中的停止点，这些停止点聚集的区域在图11中分别用虚线圆圈圈出。根据移动点的定义，移动点是移动对象从一个地理位置过渡到下一个地理位置经过的点，对相邻停止点聚集的区域起着链接作用，图中这些用小实线圆圈表示的轨迹点为本文方法拟合上的轨迹中的移动点，这些移动点将所起到的连接作用正正好将不同的停止点区域进行了分割(即图中用不同虚线圆圈圈出的区域)，因此除了小实线圆圈标记的移动点，图中被虚线圆圈标记的多个区域即为本发明提取到的停止点聚集区域。

本发明涉及的方法通过上述处理后能够更加准确的描述轨迹点移动点的密度分布，利用移动点的密度值建立高斯模型，区别以往直接从停止点的特征的角度出发，克服了从停止点特征出发难以把握停止点复杂的特征的缺陷，从而实现停止点提取的目的，该方法的聚类精度更高，方法的可拓展性更好。

本发明不会限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖性特点相一致的最宽范围。

Claims

1.一种基于高斯模型的轨迹停止点提取方法，其特征在于，包括以下步骤：

S1，数据采集和预处理，以定位设备采集的轨迹数据为基础，删除轨迹数据中的无关属性，获得目标轨迹数据作为本方法的输入数据；

S6，停止点提取：利用移动点的密度高斯模型拟合调整后的密度数组D，剔除所有满足拟合条件的轨迹点，并将剩余的轨迹点按照时间段进行划分，得到最终的轨迹停止点的聚集模式；

所述S6中停止点提取包括以下步骤：

2.根据权利要求1所述的一种基于高斯模型的轨迹停止点提取方法，其特征在于，所述S3中轨迹点密度计算包括以下步骤：

radLat_i＝Lat_i*π/180,radLat_j＝Lat_j*π/180；

a和b分别为轨迹点Pi和Pj的纬度对应的弧度值之差，即：

a＝radLat_i-radLat_j,b＝radLong_i-radLong_j；

轨迹点P_i的密度ρ_i计算公式为：

其中n为轨迹中包含的轨迹点的数量；

S33：将各轨迹点的密度值保存到数组D中。

3.根据权利要求1所述的一种基于高斯模型的轨迹停止点提取方法，其特征在于，所述S4中的高斯模型建立包括以下步骤：

S41：遍历密度数组D，标记数组D中元素值小于MD的轨迹点；

式中，x为密度数组D中的各元素对应的值；

根据3σ准则，密度数组D对应元素的高斯函数值分布在(μ—σ，μ+σ)中的概率为0.6526；数值分布在(μ—2σ，μ+2σ)中的概率为0.9544，数值分布在(μ—3σ，μ+3σ)中的概率为0.9974，密度数组D对应元素的高斯函数值分布超过99.7％集中在(μ-3σ，μ+3σ)区间内，超出这个范围的可能性仅占不到0.3％；

根据3σ准则，取μ-3σ或μ+3σ作为函数拟合的下界，同时由于函数的对称分布特性，μ-3σ或μ+3σ出对应的函数值相等；因此，本方法取(μ，μ±3σ)作为模型拟合的上下界，包含在所述上下界对应的高斯函数值以内的轨迹点被视为移动点，反之，不满足该上下界约束的轨迹点被视为潜在停止点。

4.根据权利要求1所述的一种基于高斯模型的轨迹停止点提取方法，其特征在于，所述S5中高斯模型调整包括以下步骤：

S52：利用新的μ和σ建立调整后的高斯模型；

S54：使用调整后的高斯函数模型GM(μ，σ²)去拟合密度数组D，不满足上下界约束的点为停止点，随着R和MD的调整，停止点的结构会相应发生变化，观察停止点的结构趋于稳定时，则停止对模型的结构进行调整，从而得到最终的移动点的高斯函数GM(μ，σ²)；否则，继续调整R和MD的值，并执行所述步骤S3和S4。

5.根据权利要求1所述的一种基于高斯模型的轨迹停止点提取方法，其特征在于，所述定位设备包括但不限于GPS。