CN111770452B

CN111770452B - 一种基于个人出行轨迹特征的手机信令停留点识别方法

Info

Publication number: CN111770452B
Application number: CN202010462249.XA
Authority: CN
Inventors: 熊宸; 张紫萱; 蔡铭
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-06-01
Anticipated expiration: 2040-05-27
Also published as: CN111770452A

Abstract

本发明提出了一种基于个人出行轨迹特征的手机信令停留点识别方法，该方法首先获取手机信令数据，并对其进行数据清洗，得到个人时空轨迹；然后，引入“单位时空积”，按照“时空积”最小原则将轨迹点聚类成簇；然后，对聚类后的轨迹簇进一步判断后划分为更小的簇；然后，对所有的轨迹簇按照其时空特征赋予属性(停留或移动)，得到了移动簇和候选停留簇；最后将时空属性相同的轨迹簇合并，并重新判断其时空属性，最终得到个人时空轨迹的停留点和移动点。本发明应用于时空轨迹的停留点识别，该方法与传统方法相比，其优点在于不需要设置固定的时空阈值和聚类数目，能够有效提高停留点识别的准确率，推动手机信令数据在交通领域的应用。

Description

一种基于个人出行轨迹特征的手机信令停留点识别方法

技术领域

本发明涉及城市交通控制算法领域，更具体地，涉及一种基于个人出行轨迹特征的手机信令停留点识别方法。

背景技术

近年来，手机信令数据以其样本量大、采样周期短、观测周期长、跟随性强等特点在交通领域异军突起。相比于传统交通调查等数据，手机信令数据具有明显优势。因此，手机信令数据的研究目前已经成为了国内外学者的研究热点。基于手机信令的交通出行特征模型的研究以及在各地区交通领域的应用能够对交通发展战略的制定、交通方案的评价，以及对城市交通问题、合理引导交通发展等方面产生积极的影响。停留点识别是将空间轨迹转化为交通语义的重要前提，对利用交通时空大数据分析城市交通出行、掌握城市交通运行的规律具有重要意义。

现有的手机信令数据停留点识别算法主要有三类，第一类是基于时空规则的停留点识别算法，这类算法通过设置停留时间和活动范围阈值来确定轨迹点是否为停留点。这类方法由于设置了固定阈值，因此识别精度较低，并且阈值的选取需要结合具体的数据，不具有可解释性。第二类是基于聚类的停留点识别算法，这类方法首先采用各种聚类算法(如k-means、DBSCAN等)对时空轨迹进行聚类，然后再结合轨迹簇特征制定规则确定是否为停留点。这类算法的缺点在于在聚类时需要预先设置具体的聚类数目或密度。第三类基于机器学习的停留点识别算法，这类方法通过采用大量的真实数据去训练分类器(如朴素贝叶斯、支持向量机等)，然后利用训练好的分类器就可以得到所有输入轨迹的停留点和移动点。这类方法存在的主要问题是由于个人隐私保护以至于难以获取大量真实的数据。因此，在判断用户的停留点时，应从数据本身出发，重复考虑轨迹的时空特性，从而获得更为准确的用户出行停留点。

申请号为201711393085的专利提供了一种基于用户手机信令的公交线路识别方法，但是无法实现基于个人出行轨迹特征的手机信令停留点识别。

发明内容

本发明提供一种提高停留点识别的准确率的基于个人出行轨迹特征的手机信令停留点识别方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于个人出行轨迹特征的手机信令停留点识别方法，包括以下步骤：

S1：获取手机信令数据，并对其进行数据清洗，得到个人时空轨迹；

S2：引入“单位时空积”S₀，根据“时空积”最小原则将个人时空轨迹聚类成簇；

S3：对聚类后的轨迹簇进一步判断后划分为更小的簇；

S4：对所有的轨迹簇按照其时空特征赋予属性即停留或移动，得到了移动簇和候选停留簇；

S5：将时空属性相同的轨迹簇合并，并重新判断其时空属性，最终得到个人时空轨迹的停留点和移动点。

进一步地，所述步骤S2中，“单位时空积”S₀计算公式如下：

式中，D_mean为输入的手机信令轨迹中基站间的平均距离，T_mean为轨迹中所有基站的平均停留时间。

进一步地，所述步骤S2中，“时空积”最小原则为：如果用n(n＜轨迹点总数)个矩形去框输入的个人时空轨迹，那么可以预见当n＝1时，矩形的时空面积最大，聚类效果最差；反之，当n＝m时，若这m个矩形所形成的时空面积和最小，则聚类效果最好。

进一步地，所述步骤S2中，将个人时空轨迹聚类成簇的具体过程为：

S21：对输入的一个人一天的手机信令时空轨迹按时间大小排序T_i＝[t₁，t₂，...，t_n]，其中n为输入的轨迹点的数量；

S22：假设从t₁到t_m这m个轨迹点形成了一个轨迹簇，记为cluster₀，然后计算该轨迹簇的“时空积”area₀：

area₀＝D₀×T₀ (1)

式中，T₀为cluster₀内最后一条记录与第一条记录的时间差，其计算公式如下：

T₀＝time_m-time₁ (2)

D₀为cluster₀内基站的经度最大值和纬度最大值构成的点与经度最小值和纬度最小值构成的点的距离值，定义D₀为簇内距离，其计算公式如下：

式中R为地球半径，lat1和lon1分别为簇内纬度最大值和经度最大值，lat2和lon2分别为簇内纬度最小值和经度最小值；

S23：将cluster₀的“时空积”与m倍的“最小时空积”进行比较，若area₀＜m×S₀，则继续遍历下一个点t_m+1；反之，认为t₁到t_m-1这m-1个轨迹点形成一个轨迹簇；

S24：重复步骤S22、S23直至所有轨迹点遍历完毕。

进一步地，所述步骤S3中，对聚类后的轨迹簇的簇内点个数进行判断，如果簇内的轨迹点个数大于3，需要进一步拆分该轨迹簇。

进一步地，所述步骤S3中，轨迹点数量大于3的轨迹簇的具体拆分方法如下：

S31：假设某轨迹簇内共有n个轨迹点，其中n＞3，记为cluster[0：n]；将轨迹簇内轨迹点按时间递增排序；

S32：从第0个轨迹点开始遍历，计算cluster[0：m]的“时空积”S_m，以及cluster[0：m+1]的“时空积”S_m+1，其中m＜n，“时空积”的计算方法同公式(1)；

S33：计算“时空积”S_m与m+1倍“单位时空积”S₀的差值，即ΔS_m＝S_m-(m+1)×S₀；计算“时空积”S_m+1与m+2倍“单位时空积”S₀的差值，即ΔS_m+1＝S_m+1-(m+2)×S₀；

S34：比较ΔS_m与ΔS_m+1的大小，若ΔS_m≥ΔS_m+1，进入步骤S35；若ΔS_m＜ΔS_m+1，则将cluster[0：m]单独拆分为一个小簇，进入步骤S36；

S35：继续遍历下一个轨迹点，令m＝m+1，计算其形成的“时空积”及与“单位时空积”的差值，重复步骤S34，若一直没有出现ΔS_m＜ΔS_m+1，则该轨迹簇最终不需要拆分；

S36：从第m+1个点开始遍历该轨迹簇，重复步骤S32、S33、S34，直至该轨迹簇内的所有轨迹点遍历完毕，完成拆分。

进一步地，所述步骤S4中，轨迹簇的时空特征是指轨迹簇的停留时间T和簇内距离D，其计算方法同公式(2)(3)；判断轨迹簇的时空属性的规则如下：

其中，“1”表示该轨迹簇时空属性为停留，“0”表示该轨迹簇的时空属性为移动。

进一步地，所述步骤S5中，若相邻轨迹簇的时空属性相同，则将这些轨迹簇合并为一个轨迹簇。

进一步地，所述步骤S5中，重新计算合并后的轨迹簇的停留时间和簇内距离，并比较其大小，得到合并后轨迹簇的时空属性，即得到了所有候选停留簇和移动簇。

进一步地，所述步骤S5中，如果候选停留簇满足以下条件之一，认为该簇满足出行条件，修改其时空属性为移动：

(1)簇内距离D与停留时间T比值大于0.5，且停留时间小于5分钟的候选停留簇；

(2)簇内距离D与停留时间T比值大于0.5，且簇内第一个基站与其相邻的上一个簇的最后一个基站之间的距离大于400米的候选停留簇。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出了基于个人出行轨迹特征的手机信令停留点识别方法。该方法创新性地提出了按“时空积”最小原则对时空轨迹进行聚类，与以往方法相比不需要设置固定的聚类阈值。之后在判断轨迹簇的时空属性时，综合考虑了轨迹簇的时空特征，并且不需要设置固定阈值就可以直接判断出其时空属性，最后针对时空特征不明显的停留簇作了进一步判断，有效提高了停留点识别的准确率。

附图说明

图1是本发明流程示意图；

图2是步骤S2具体流程图；

图3是本实施例的停留点识别流程示意图；

图4是轨迹点拆分示意图；

图5是候选停留簇时空属性示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，本发明提供一种基于个人出行轨迹特征的手机信令停留点识别方法。通过以下步骤实现：

步骤S1：获取手机信令数据。

本实施例中，所使用的手机信令数据是通过自主研发的数据采集APP获取，其主要字段格式如表1.

表1手机信令数据主要字段及其数据示意表

表1中，isdn代表每个手机用户的唯一识别号，base_lon和base_lat分别表示手机用户当前所连接的基站的经度和纬度，date表示手机与基站发生信令交换时的时间戳，state为APP中特意设置的用于采集用户当前处于停留或移动状态的字段，用于验证本实施例停留点识别算法的准确性。

如图2所示，步骤S2：对步骤S1中获取的手机信令数据进行数据清洗，具体包括步骤S2-1至步骤S2-5。

手机信令数据本质上时运营商的运营副产物，因此存在着许多异常数据，如乒乓切换数据、漂移数据等，需要进行数据清洗。

步骤S2-1：删除存在缺失值的数据记录：如果某一条记录中某个字段的内容缺失，删除整条记录；

步骤S2-2：剔除完全重复的记录：如果某几条记录的字段内容完全一致，仅保留一条记录；

步骤S2-3：合并同位置点数据：将手机信令数据按时间记录排序，如果相邻记录的基站经纬度一致，则合并这几条数据记录，仅保留一条，同时新增字段记录在该基站的记录开始时间和结束时间，以及记录数；

步骤S2-4：漂移数据处理：漂移数据出现的情况是在连续几条记录中，有某条记录手机突然与远处的某个基站连接，然后再恢复正常记录，因此漂移数据存在短时间长距离的特征，因此本实施例中处理漂移数据的方法是计算相邻记录之间的距离和速度，剔除速度大于阈值120km/h(城市驾车最高限速)的数据记录；

步骤S2-5：乒乓切换数据处理：根据乒乓数据来回切换的特点，当相邻三条记录出现了来回切换的现象就标记为乒乓切换数据，即第i条记录的基站经纬度与第i+2条记录的基站经纬度一致，与第i+1条不一致时，认为第i至i+2条记录均为乒乓切换数据。本实施例根据此特征识别乒乓切换数据，考虑到乒乓切换数据产生的场景是手机用户在几个基站之间来回切换，因此，几个基站的中间位置极大可能反应了手机用户的真实位置。因此，在识别出所有的乒乓切换数据后，对连续的乒乓记录的经纬度取均值，重新计算记录开始时间和结束时间，得到新纪录后，插入原来的乒乓切换记录处，并删除原有乒乓切换记录；

通过步骤S2后，就得到了清洗后的个人出行时空轨迹，将一个人一天的手机信令时空轨迹输入步骤S3。

步骤S3：根据输入的一个人一天的手机信令出行时空轨迹，计算该轨迹的“单位时空积”S₀，其公式如下：

式中，D_mean为输入的一个人一天的手机信令时空轨迹中基站间的平均距离，T_mean为该轨迹中所有基站的平均停留时间。

步骤S4：根据“时空积”最小原则，对输入的个人时空轨迹进行聚类，具体包括步骤S4-1至步骤S4-5。

步骤S4-1：对输入的一个人一天的手机信令时空轨迹按时间大小排序T_i＝[t₁，t₂，...，t_n]，其中n为输入的轨迹点的数量；

步骤S4-2：假设从t₁到t_m这m个轨迹点形成了一个轨迹簇，记为cluster₀，然后计算该轨迹簇的“时空积”area₀：

area₀＝D₀×T₀ (1)

T₀＝time_m-time₁ (2)

式中R为地球半径，lat1和lon1分别为簇内纬度最大值和经度最大值.lat2和lon2分别为簇内纬度最小值和经度最小值。

步骤S4-3：将cluster₀的“时空积”与m倍的“最小时空积”进行比较，若area₀＜m×S₀，则继续遍历下一个点t_m+1；反之，认为t₁到t_m-1这m-1个轨迹点形成一个轨迹簇。

步骤S4-4：重复步骤S4-2和步骤S4-3直至所有轨迹点遍历完毕。

通过步骤S4，可以得到聚类后的轨迹簇，如图3中的(a)所示，一个方框代表一个轨迹簇。

步骤S5：判断每个轨迹簇的数量是否大于3个，如果小于等于3个，则保留该轨迹簇，否则进入步骤S6。

城市内基站的覆盖范围大致为两百至五百米，因此3个基站的覆盖范围为一千米左右，本实施例认为超过一千米可能既包含移动也包含停留，因此包含超过3个轨迹点的轨迹簇在时空上不完全独立，需要进一步处理。

步骤S6：拆分轨迹点数量大于3的轨迹簇，如图3中的(b)所示。

如图4所示，待拆分的轨迹簇中共有6个时空轨迹点，从左下角第一个轨迹点开始遍历计算“时空积”。图示例子的主要计算步骤如下：

1)、计算ΔS₁-2×S₀和ΔS₂-3×S₀；

2)、比较ΔS₁和ΔS₂，ΔS₁＞ΔS₂，计算ΔS₃-4×S₀；

3)、比较ΔS₂和ΔS₃，ΔS₂＞ΔS₃，计算ΔS₄-5×S₀；

4)、比较ΔS₃和ΔS₄，ΔS₃＜ΔS₄，此处拆分，将前四个轨迹点归为一个小簇；

5)、从第五个轨迹点开始遍历，发现仅剩两个轨迹点，不满足拆分的前提条件，终止拆分，剩下两个轨迹点自动归为一个簇，得到拆分结果。

本实施例的步骤S6中，仅说明了拆分算法中的其中一种情况。

步骤S7：根据公式(2)(3)计算每个轨迹簇的停留时间T和簇内距离D。步骤S8：根据T和D值判断每个轨迹簇的时空属性，如图3中的(c)所示，判断规则如下：

步骤S9：合并时空属性相同的相邻簇，并重新计算合并后的轨迹簇的停留时间和簇内距离，并判断其时空属性，得到所有移动簇和候选停留簇，如图3中的(d)所示。

步骤S10：如果候选停留簇满足以下条件之一，认为该簇满足出行条件，修改其时空属性为移动：

条件(1)：簇内距离D与停留时间T比值大于0.5，且簇内第一个基站与其相邻的上一个簇的最后一个基站之间的距离大于400米的候选停留簇，如图5中的(a)所示。

条件(2)：簇内距离D与停留时间T比值大于0.5，且停留时间小于5分钟的候选停留簇；如图5中的(b)所示。

具体实施效果

本研究采用基站采集App数据对本研究提出的出行方式识别算法进行验证，共采集了6名志愿者在2019年11月10日共6条手机信令出行轨迹。其停留点识别的结果如下表2。本实施例的结果采用了准确率、精确率、召回率和F1值为指标：

表2停留点识别结果

志愿者编号	准确率	精确率	召回率	F1
					001	85.71％	80.00％	100％	88.89％
002	80.00％	75.00％	100％	85.72％
					003	88.89％	83.33％	100％	90.91％
004	100％	100％	100％	100％
					005	88.89％	83.33％	100％	90.91％
006	100％	100％	100％	100％
					合计	91.67％	87.10％	100％	93.11％

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于个人出行轨迹特征的手机信令停留点识别方法，其特征在于，包括以下步骤：

S3：对聚类后的轨迹簇进一步判断后划分为更小的簇；

S5：将时空属性相同的轨迹簇合并，并重新判断其时空属性，最终得到个人时空轨迹的停留点和移动点；

所述步骤S2中，“单位时空积”S₀计算公式如下：

式中，D_mean为输入的手机信令轨迹中基站间的平均距离，T_mean为轨迹中所有基站的平均停留时间；

所述步骤S2中，“时空积”最小原则为：如果用n(n＜轨迹点总数)个矩形去框输入的个人时空轨迹，那么可以预见当n＝1时，矩形的时空面积最大，聚类效果最差；反之，当n＝m时，若这m个矩形所形成的时空面积和最小，则聚类效果最好；

所述步骤S2中，将个人时空轨迹聚类成簇的具体过程为：

area₀＝D₀×T₀ (1)

T₀＝time_m-time₁ (2)

S24：重复步骤S22、S23直至所有轨迹点遍历完毕；

所述步骤S4中，轨迹簇的时空特征是指轨迹簇的停留时间T和簇内距离D，其计算方法同公式(2)(3)；判断轨迹簇的时空属性的规则如下：

2.根据权利要求1所述的基于个人出行轨迹特征的手机信令停留点识别方法，其特征在于，所述步骤S3中，对聚类后的轨迹簇的簇内点个数进行判断，如果簇内的轨迹点个数大于3，需要进一步拆分该轨迹簇。

3.根据权利要求2所述的基于个人出行轨迹特征的手机信令停留点识别方法，其特征在于，所述步骤S3中，轨迹点数量大于3的轨迹簇的具体拆分方法如下：

4.根据权利要求3所述的基于个人出行轨迹特征的手机信令停留点识别方法，其特征在于，所述步骤S5中，若相邻轨迹簇的时空属性相同，则将这些轨迹簇合并为一个轨迹簇。

5.根据权利要求4所述的基于个人出行轨迹特征的手机信令停留点识别方法，其特征在于，所述步骤S5中，重新计算合并后的轨迹簇的停留时间和簇内距离，并比较其大小，得到合并后轨迹簇的时空属性，即得到了所有候选停留簇和移动簇。

6.根据权利要求5所述的基于个人出行轨迹特征的手机信令停留点识别方法，其特征在于，所述步骤S5中，如果候选停留簇满足以下条件之一，认为该簇满足出行条件，修改其时空属性为移动：