CN111291278A

CN111291278A - 轨迹相似度的计算方法、装置、存储介质及终端

Info

Publication number: CN111291278A
Application number: CN202010048660.2A
Authority: CN
Inventors: 胡仕军
Original assignee: Shenzhen Qianhai Handy Data Service Co Ltd
Current assignee: Shenzhen Kaniu Technology Co ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-16
Anticipated expiration: 2040-01-16
Also published as: CN111291278B

Abstract

本发明实施例公开了一种轨迹相似度的计算方法、装置、存储介质及终端。所述方法包括：获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征；根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度。通过采用上述技术方案，能够较好地衡量用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似程度，从而有助于后续基于行为轨迹相似度进一步挖掘更深入的用户画像。

Description

轨迹相似度的计算方法、装置、存储介质及终端

技术领域

本发明实施例涉及数据分析技术领域，尤其涉及轨迹相似度的计算方法、装置、存储介质及终端。

背景技术

随着移动互联网的快速发展，基于用户位置的服务越来越多，如基于位置的个性化推荐服务或者基于位置信息的风控反欺诈服务。但目前缺乏用户行为轨迹相似度的计算方式，导致无法判断用户与用户之间，或者用户当前与用户过去一段时间内的行为轨迹的相似度或异常度等量化指标，约束了用户位置信息的数据价值的利用。

发明内容

本发明实施例提供一种轨迹相似度的计算方法、装置、存储介质及终端，能够较好地衡量用户行为轨迹间的相似度。

第一方面，本发明实施例提供了一种轨迹相似度的计算方法，该方法包括：

获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征；

根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度。

第二方面，本发明实施例还提供了一种轨迹相似度的计算装置，该装置包括：

轨迹特征获取模块，用于获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征；

相似度计算模块，用于根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的轨迹相似度的计算方法。

第四方面，本发明实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例提供的轨迹相似度的计算方法。

本发明实施例中提供的轨迹相似度的计算方法，获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征；根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度。通过采用上述技术手段，能够较好地衡量用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似程度，从而有助于后续基于行为轨迹相似度进一步挖掘更深入的用户画像。

附图说明

图1为本发明实施例提供的一种轨迹相似度的计算方法的流程示意图；

图2为本发明实施例提供的基于各个时间区间内的位置中心点构造的用户轨迹示意图；

图3为本发明实施例提供的另一种轨迹相似度的计算方法的流程示意图；

图4为本发明实施例提供的另一种轨迹相似度的计算方法的流程示意图；

图5为本发明实施例提供的一种轨迹相似度的计算装置的结构框图；

图6为本发明实施例提供的一种终端的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的一种轨迹相似度的计算方法的流程示意图，该方法可以由轨迹相似度的计算装置执行，其中该装置可由软件和/或硬件实现，一般可集成在终端设备中。如图1所示，该方法包括：

步骤101、获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征。

示例性的，终端可以包括但不限于智能手机、平板电脑、笔记本电脑、掌上电脑等终端设备。其中，该终端的操作系统可以包括但不限于Android操作系统、IOS操作系统、Windows Phone8操作系统等。

在本发明实施例中，第一行为轨迹和第二行为轨迹可以是同一时间段内获取的两个移动对象(如两个不同用户)的运动轨迹，也可以是同一移动对象(如同一用户)在不同时间段内的两条运动轨迹，还可以是不同时间段内两个移动对象的运动轨迹。其中，第一行为轨迹和第二行为轨迹中包含移动对象的位置信息，通常包括按时间排序的多个轨迹点。

示例性的，不同的行为轨迹对应不同的轨迹特征，获取第一行为轨迹对应的第一轨迹特征以及第二行为轨迹对应的第二轨迹特征。可选的，所述第一轨迹特征包括第一轨迹点向量和第一轨迹密度向量，所述第二轨迹特征包括第二轨迹点向量和第二轨迹密度向量。可选的，所述第一轨迹点向量或第二轨迹点向量包括基于至少两个时间区间内的位置中心点构造的向量，第一轨迹点密度向量或第二轨迹点密度向量包括基于至少两个时间区间的位置中心点密度构造的向量。其中，各个时间区间内的位置中心点反映了用户在各个不同时间段内最可能出现的位置，各个时间区间内的位置中心点密度反映了用户在各个时间段内出现在对应位置中心点的概率。

步骤102、根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度。

可选的，所述第一轨迹特征包括第一轨迹点向量和第一轨迹密度向量，所述第二轨迹特征包括第二轨迹点向量和第二轨迹密度向量；根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度，包括：确定所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度；根据所述轨迹饱和度、第一轨迹点向量、第一轨迹密度向量、第二轨迹点向量及第二轨迹密度向量计算所述第一行为轨迹和所述第二行为轨迹间的相似度。

可选的，所述第一轨迹点向量或第二轨迹点向量包括基于至少两个时间区间内的位置中心点构造的向量，第一轨迹点密度向量或第二轨迹点密度向量包括基于至少两个时间区间的位置中心点密度构造的向量；确定所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度，包括：确定所述第一行为轨迹和所述第二行为轨迹在所述至少两个时间区间内的分布重合度；其中，所述分布重合度包括在同一时间区间内所述第一轨迹点向量和所述第二轨迹点向量均包含位置中心点的时间区间的数量和；或者，所述分布重合度包括在同一时间区间内所述第一轨迹点密度向量和所述第二轨迹点密度向量的位置中心点密度均为非空量的时间区间的数量和；将所述分布重合度作为所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度。

可选的，根据所述轨迹饱和度、第一轨迹点向量、第一轨迹密度向量、第二轨迹点向量及第二轨迹密度向量计算所述第一行为轨迹和所述第二行为轨迹间的相似度，包括：根据如下公式计算所述第一行为轨迹和所述第二行为轨迹间的相似度：

其中，sim表示所述第一行为轨迹和所述第二行为轨迹间的相似度，Cover表示所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度，Distance(P_ai,P_bi)表示在第i个时间区间内所述第一轨迹点向量中的位置中心点P_ai和所述第二轨迹点向量中的位置中心点P_bi的距离，D_ai表示第一轨迹密度向量中与第一轨迹点向量中的位置中心点P_ai对应的位置中心点密度，D_bi表示第二轨迹密度向量中与第二轨迹点向量中的位置中心点P_bi对应的位置中心点密度，n表示时间区间的数量。

示例性的，第一轨迹特征中的第一轨迹点向量为TraceA＝[Pa1,Pa2,Pa3,...,Pan]，第一轨迹特征中的第一轨迹密度向量为Da＝[Da1,Da2,…,Dan]；其中，n表示时间区间的数量，Pai表示用户在第i个时间区间内的位置中心点，Dai表示用户在第i个时间区间内的位置中心点密度，其中，i＝1,2,...n。第二轨迹特征中的第二轨迹点向量为TraceB＝[Pb1,Pb2,Pb3,...Pbn]，第二轨迹特征中的第二轨迹密度向量为Db＝[Db1,Db2,……Dbn]；其中，n表示时间区间的数量，Pbi表示用户在第i个时间区间内的位置中心点，Dbi表示用户在第i个时间区间内的位置中心点密度，其中，i＝1,2,...n。需要说明的是，获取第一行为轨迹对应的第一轨迹特征时划分的至少两个时间区间与获取第二行为轨迹对应的第二轨迹特征时划分的至少两个时间区间完全相同。例如，第一轨迹点向量为0-4点，4-8点，8-12点，12-16点，16-20点，20-24点这6个时间区间内的位置中心点构造的向量，第一轨迹点密度向量为0-4点，4-8点，8-12点，12-16点，16-20点，20-24点这6个时间区间内的位置中心点密度构造的向量，则第二轨迹点向量也为0-4点，4-8点，8-12点，12-16点，16-20点，20-24点这6个时间区间内的位置中心点构造的向量，第二轨迹点点向量也为0-4点，4-8点，8-12点，12-16点，16-20点，20-24点这6个时间区间内的位置中心点密度构造的向量。

在本发明实施例中，第一行为轨迹和第二行为轨迹间的轨迹饱和度表示两个行为轨迹在至少两个时间区间内的分布重合度。可以理解的是，当用户轨迹在某个时间区间内不存在轨迹数据时，则在该时间区间内的位置中心点通常为空，也即在该时间区间内不存在位置中心点；或者，当用户轨迹在某个时间区间内不存在轨迹数据时，则在该时间区间内的位置中心点密度通常为空。因此，可确定在同一时间区间内第一轨迹点向量和所述第二轨迹点向量均包含位置中心点的时间区间的数量和，将该数量和作为第一行为轨迹和第二行为轨迹间的轨迹饱和度；或者，可确定在同一时间区间内第一轨迹点密度向量和第二轨迹点密度向量的位置中心点密度均为非空量的时间区间的数量和，将该数量和作为第一行为轨迹和第二行为轨迹间的轨迹饱和度。示例性的，第一轨迹特征和第二轨迹特征均为0-4点，4-8点，8-12点，12-16点，16-20点，20-24点这6个时间区间内的位置数据构造的特征向量，但是，第一行为轨迹在0-4点，4-8点，8-12点，12-16点这4个时间区间内均存在轨迹特征数据，而在16-20点，20-24点这两个时间区间内没有轨迹特征数据；而第二行为轨迹在0-4点，8-12点，12-16点，16-20点这4个时间区间内均存在轨迹特征数据，而在4-8点，20-24点这两个时间区间内没有轨迹特征数据。显然，第一行为轨迹和第二行为轨迹均在0-4点，8-12点，12-16点这三个时间区间内存在轨迹特征数据，则第一行为轨迹和第二行为轨迹间的轨迹饱和度Cover＝3。

示例性的，计算在同一时间区间内第一轨迹点向量中的位置中心点P_ai和第二轨迹点向量中的位置中心点P_bi的距离Distance(P_ai,P_bi)，其中，可以根据位置中心点P_ai和位置中心点P_bi的经纬度信息，计算出两个位置中心点间的距离。然后基于公式

计算出第一行为轨迹和第二行为轨迹间的相似度。可以理解的是，相似度sim的取值范围为(0,1)，计算出的相似度sim越大，越接近1，表示第一行为轨迹和第二行为轨迹间的相似度越高；反之，当计算出的相似度sim越小，越接近0，表示第一行为轨迹和第二行为轨迹间的相似度越低，因此，通过计算两条行为轨迹间的相似度可以较好地衡量用户行为轨迹的相似程度。

本发明实施例中提供的轨迹相似度的计算方案，获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征，并根据第一轨迹特征和第二轨迹特征计算第一行为轨迹和第二行为轨迹间的相似度。通过采用上述技术手段，能够计算出用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似度，能够较好地衡量用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似程度，从而有助于后续基于行为轨迹相似度进一步挖掘更深入的用户画像，进而为基于用户位置数据的服务应用带来较大价值。

在一些实施例中，获取行为轨迹对应的轨迹特征，包括：获取至少两个时间区间内的用户位置数据；针对各个时间区间，根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点；针对各个位置中心点，从所述位置中心点对应的时间区间内的用户位置数据中确定与所述位置中心点的距离小于预设距离阈值的目标位置数据；根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度；将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为轨迹特征。这样设置的好处在于，不仅能够快速计算出第一行为轨迹对应的第一轨迹特征和第二行为轨迹对应的第二轨迹特征，而且能够将离散非结构化的用户位置数据转化为结构化、标准化的用户行为轨迹特征，从而准确地刻画出用户的日常行为轨迹，有利于后续轨迹数据的深度挖掘及应用。

在本发明实施例中，获取至少两个时间区间内的用户位置数据，其中，至少两个时间区间可以连续，也可以不连续，还可以部分连续。例如，获取8-12点，12-16点，16-20点这三个连续的时间区间内的用户位置数据；又如，获取8-12点，13-17点，18-22点这三个不连续的时间区间内的用户位置数据；再如，获取8-11点，13-16点，16-19点，20-23点这四个时间区间内的用户位置数据。另外，至少两个时间区间中的每个时间区间的长度可以相同，也可以不同，本发明实施例对此也不做限定。

示例性的，可以将用户使用的移动终端(如手机)中的定位模块获取的位置信息作为用户位置数据。其中，可对获取至少两个时间区间内大量的原始用户位置数据进行预处理，删除其中非有效的位置数据，如去除属性缺失的位置数据。

可选的，获取至少两个时间区间内的用户位置数据，包括：获取预设时间段内的用户位置数据集；获取按照预设时间划分规则确定的至少两个时间区间；从所述用户位置数据集中提取各个时间区间内的用户位置数据。

示例性的，获取预设时间段内的用户位置数据集，其中，用户位置数据集可以理解为大量的用户位置数据构成的集合，例如，收集用户在当前时间往前追溯60天内的用户位置数据。其中，本发明实施例可以根据需要对预设时间段进行调整，如预设时间段可以是1个月、3个月或6个月等等。获取按照预设时间划分规则确定的至少两个时间区间，例如，将每天24小时按小时划分为若干个时间区间，具体的，可以将一天的时间划分为0-4点，4-8点，8-12点，12-16点，16-20点，20-24点6个这样的时间区间。需要说明的是，本发明实施例对预设时间划分规则不做限定，可以将一天的时间按3小时或6小时一个时间区间长度进行划分。另外，由于0-5点这段时间通常为也用户休息的时间，用户的位置数据的数据量较少或几乎为零，因此，可以只对5-24点这段时间进行时间区间的划分。最后，在预设时间段内的用户位置数据集中，提取各个时间区间内的用户位置数据，也即将预设时间段内的用户位置数据划分到各个时间区间内，以此作为时间区间内对应的用户位置数据。

可选的，可根据业务场景情况筛选用户位置数据集，例如当用户在预设时间段内的用户位置数据非常稀少或者频次非常低，不足以反映用户的轨迹特征的可以视情况删除，例如如果用户在预设时间段内仅仅收集到3条用户位置数据，或者用户在预设时间段内划分的时间区间中分布较分散，例如，在第一个时间区间内0-4点收集到3条用户位置数据，除此之外的时间区间内没有收集到用户位置数据，而在另一个预设时间段内，在16-20点间收集到4条用户位置数据，除此之外也没有在别的时间区间收集到数据，这种情况下，可以认为用户位置数据过于稀疏，收集的用户位置数据不够完整，不能准确反映用户习惯行为轨迹，可根据业务场景保留或者删除这样的用户位置数据。

可选的，根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点，包括：基于预先设定的聚类算法对所述时间区间内的用户位置数据进行聚类，根据聚类结果确定聚类中心点；将所述聚类中心点作为所述时间区间内的位置中心点。这样设置的好处在于，可以准确、快速地确定出各个时间区间内用户位置数据的位置中心点。

示例性的，分别对各个时间区间内的用户位置数据进行聚类分析，根据分析结果确定聚类中心点，并将聚类中心点作为时间区间内的位置中心点。可以理解的是，可以针对每个时间区间内的位置数据获取对应的位置中心点，因此，时间区间的数量与位置中心点的数量相同。需要说明的是，本发明是实施例对预先设定的聚类算法不做限定，可以是基于位置的聚类算法，如Kmeans，Kmedians，还可以是层次聚类算法，如agglomerative，还可以是基于模型的聚类，如GMM或基于神经网络的算法。

可选的，根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点密度，包括：针对各个位置中心点，从所述位置中心点对应的时间区间内的用户位置数据中确定与所述位置中心点的距离小于预设距离阈值的目标位置数据；根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度。

示例性的，在分别确定了各个时间区间内的位置中心点之后，针对各个位置中心点，从位置中心点对应的时间区间内的用户位置数据中确定与位置中心点的距离小于预设距离阈值的用户位置数据，将与位置中心点的距离小于预设距离阈值的用户位置数据作为目标位置数据。需要说明的是，本发明实施例对预设距离阈值的大小不做限定，例如，预设距离阈值可设定为1km。然后，针对各个时间区间，分别根据各个时间区间内的目标位置数据以及用户位置数据计算位置中心点密度。可选的，根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度，包括：确定目标位置数据出现的第一频次以及所述时间区间内的用户位置数据出现的第二频次；计算所述第一频次与第二频次的比值，并将所述比值作为位置中心点密度。示例性的，针对各个时间区间，确定时间区间内目标位置数据出现的第一频次，其中，第一频次可以理解为目标位置数据的数量和，并统计时间区间内所有用户位置数据出现的第二频次，其中，第二频次可以理解为时间区间内所有用户位置数据的数量总和。计算第一频次与第二频次的比值，并将该比值作为对应时间区间内的位置中心点密度。

示例性的，获取的至少两个时间区间内的用户位置数据为0-4点，4-8点，8-12点，12-16点，16-20点，20-24点这6个时间区间内的用户位置数据，对这6个时间区间进行编号，分别为1，2，3，4，5及6，且获取用户位置数据为用户a的位置数据。通过上述步骤102确定的各个时间区间的位置中心点及位置中心点密度如下表所示：

根据上表可知，各个时间区间的位置中心点分别为wwgqfcng0gbk，wwgqfcnfc1e5，wwgqfcng0p8f，wwgqfcng0su6，wwgqfcng42gb及wwgqfcng0xjq，则构造的轨迹点向量为[wwgqfcng0gbk，wwgqfcnfc1e5，wwgqfcng0p8f，wwgqfcng0su6，wwgqfcng42gb，wwgqfcng0xjq]，其中，各个时间区间内的位置中心点反映了用户在各个不同时间段内最可能出现的位置。确定的各个时间区间内的位置中心点密度分别为0.83，0.59，0.64，0.78，0.92及0.85，则构造的轨迹密度向量为[0.83，0.59，0.64，0.78，0.92，0.85]，其中，各个时间区间内的位置中心点密度反映了用户在各个时间段内出现在对应位置中心点的概率。

图2为本发明实施例提供的基于各个时间区间内的位置中心点构造的用户轨迹示意图。

图3为本发明实施例提供的另一种轨迹相似度的计算方法的流程示意图，如图3所示，该方法包括如下步骤：

步骤301、获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征；其中，第一轨迹特征包括第一轨迹点向量和第一轨迹密度向量，第二轨迹特征包括第二轨迹点向量和第二轨迹密度向量；第一轨迹点向量和第二轨迹点向量包括基于至少两个时间区间内的位置中心点构造的向量，第一轨迹点密度向量第二轨迹点密度向量包括基于至少两个时间区间的位置中心点密度构造的向量。

步骤302、确定在同一时间区间内第一轨迹点向量和第二轨迹点向量均包含位置中心点的时间区间的数量和；或者，确定在同一时间区间内第一轨迹点密度向量和第二轨迹点密度向量的位置中心点密度均为非空量的时间区间的数量和。

步骤303、将数量和作为第一行为轨迹和第二行为轨迹间的轨迹饱和度。

步骤304、根据轨迹饱和度、第一轨迹点向量、第一轨迹密度向量、第二轨迹点向量及第二轨迹密度向量计算第一行为轨迹和第二行为轨迹间的相似度。

可选的，根据如下公式计算所述第一行为轨迹和所述第二行为轨迹间的相

似度：

本发明实施例中提供的轨迹相似度的计算方法，能够计算出用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似度，能够较好地衡量用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似程度，从而有助于后续基于行为轨迹相似度进一步挖掘更深入的用户画像，进而为基于用户位置数据的服务应用带来较大价值。

图4为本发明实施例提供的另一种轨迹相似度的计算方法的流程示意图，如图4所示，该方法包括如下步骤：

步骤401、获取第一预设时间段内的第一用户位置数据集和第二预设时间段内的第二用户位置数据集。

步骤402、获取按照预设时间划分规则确定的至少两个时间区间。

其中，至少两个时间区间连续。

步骤403、从第一用户位置数据集中提取各个时间区间内的第一用户位置数据，并从第二用户位置数据集中提取各个时间区间内的第二用户位置数据。

步骤404、针对各个时间区间，基于预先设定的聚类算法分别对时间区间内的第一用户位置数据和第二用户位置数据进行聚类，根据聚类结果确定第一聚类中心点和第二聚类中心点，并将第一聚类中心点作为时间区间内的第一位置中心点，将第二聚类中心点作为时间区间内的第二位置中心点。

步骤405、针对各个第一位置中心点，从第一位置中心点对应的时间区间内的第一用户位置数据中确定与第一位置中心点的距离小于预设距离阈值的第一目标位置数据，并针对各个第二位置中心点，从第二位置中心点对应的时间区间内的第二用户位置数据中确定与第二位置中心点的距离小于预设距离阈值的第二目标位置数据。

步骤406、确定第一目标位置数据出现的第一频次和时间区间内的第一用户位置数据出现的第二频次，以及第二目标位置数据出现的第三频次和时间区间内的第二用户位置数据出现的第四频次。

步骤407、分别计算第一频次与第二频次的第一比值以及第三频次与第四频次的第二比值，并将第一比值作为第一位置中心点密度，将第二比值作为第二位置中心点密度。

步骤408、将各个时间区间内的第一位置中心点构造的第一轨迹点向量和各个时间区间内的第一位置中心点密度构造的第一轨迹密度向量作为第一轨迹特征；将各个时间区间内的第二位置中心点构造的第二轨迹点向量和各个时间区间内的第二位置中心点密度构造的第二轨迹密度向量作为第二轨迹特征。

步骤409、确定在同一时间区间内第一轨迹点向量和第二轨迹点向量均包含位置中心点的时间区间的数量和；或者，确定在同一时间区间内第一轨迹点密度向量和第二轨迹点密度向量的位置中心点密度均为非空量的时间区间的数量和。

步骤410、将数量和作为第一行为轨迹和第二行为轨迹间的轨迹饱和度。

步骤411、根据轨迹饱和度、第一轨迹点向量、第一轨迹密度向量、第二轨迹点向量及第二轨迹密度向量计算第一行为轨迹和第二行为轨迹间的相似度。

似度：

本发明实施例中提供的轨迹相似度的计算方法，不仅能够将离散非结构化的用户位置数据转化为结构化、标准化的用户行为轨迹特征，从而准确地刻画出用户的日常行为轨迹，而且能够计算出用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似度，能够较好地衡量用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似程度，从而有助于后续基于行为轨迹相似度进一步挖掘更深入的用户画像，进而为基于用户位置数据的服务应用带来较大价值。

图5为本发明实施例提供的一种轨迹相似度的计算装置的结构框图，该装置可由软件和/或硬件实现，一般集成在终端中，可通过执行轨迹相似度的计算方法来进行轨迹相似度的计算。如图5所示，该装置包括：

轨迹特征获取模块501，用于获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征；

相似度计算模块502，用于根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度。

本发明实施例中提供的轨迹相似度的计算装置，获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征；根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度。通过采用上述技术手段，能够较好地衡量用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似程度，从而有助于后续基于行为轨迹相似度进一步挖掘更深入的用户画像。

可选的，所述第一轨迹特征包括第一轨迹点向量和第一轨迹密度向量，所述第二轨迹特征包括第二轨迹点向量和第二轨迹密度向量；

所述相似度计算模块，包括：

轨迹饱和度确定单元，用于确定所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度；

相似度计算单元，用于根据所述轨迹饱和度、第一轨迹点向量、第一轨迹密度向量、第二轨迹点向量及第二轨迹密度向量计算所述第一行为轨迹和所述第二行为轨迹间的相似度。

可选的，所述第一轨迹点向量和第二轨迹点向量包括基于至少两个时间区间内的位置中心点构造的向量，第一轨迹点密度向量和第二轨迹点密度向量包括基于至少两个时间区间的位置中心点密度构造的向量；

所述轨迹饱和度确定单元，用于：

确定所述第一行为轨迹和所述第二行为轨迹在所述至少两个时间区间内的分布重合度；其中，所述分布重合度包括在同一时间区间内所述第一轨迹点向量和所述第二轨迹点向量均包含位置中心点的时间区间的数量和；或者，所述分布重合度包括在同一时间区间内所述第一轨迹点密度向量和所述第二轨迹点密度向量的位置中心点密度均为非空量的时间区间的数量和；

将所述分布重合度作为所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度。

可选的，所述相似度计算单元，用于：

根据如下公式计算所述第一行为轨迹和所述第二行为轨迹间的相似度：

可选的，所述轨迹特征获取模块，包括：

位置数据获取单元，用于获取至少两个时间区间内的用户位置数据；

位置中心点确定单元，用于针对各个时间区间，根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点；

目标位置数据确定单元，用于针对各个位置中心点，从所述位置中心点对应的时间区间内的用户位置数据中确定与所述位置中心点的距离小于预设距离阈值的目标位置数据；

位置中心点密度计算单元，用于根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度；

轨迹特征确定单元，用于将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为轨迹特征。

可选的，所述位置中心点确定单元，用于：

基于预先设定的聚类算法对所述时间区间内的用户位置数据进行聚类，根据聚类结果确定聚类中心点；

将所述聚类中心点作为所述时间区间内的位置中心点。

可选的，所述位置中心点密度计算单元，用于：

确定目标位置数据出现的第一频次以及所述时间区间内的用户位置数据出现的第二频次；

计算所述第一频次与第二频次的比值，并将所述比值作为位置中心点密度。

可选的，所述位置数据获取单元，用于：

获取预设时间段内的用户位置数据集；

获取按照预设时间划分规则确定的至少两个时间区间；

从所述用户位置数据集中提取各个时间区间内的用户位置数据。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行轨迹相似度的计算方法，该方法包括：

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDRRAM、SRAM、EDORAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的轨迹相似度的计算操作，还可以执行本发明任意实施例所提供的轨迹相似度的计算方法中的相关操作。

本发明实施例提供了一种终端，该终端中可集成本发明实施例提供的轨迹相似度的计算装置。图6为本发明实施例提供的一种终端的结构框图。终端600可以包括：存储器601，处理器602及存储在存储器601上并可在处理器运行的计算机程序，所述处理器602执行所述计算机程序时实现如本发明实施例所述的轨迹相似度的计算方法。

本发明实施例中提供的终端，获取第一行为轨迹对应的第一轨迹特征及第二行为轨迹对应的第二轨迹特征；根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度。通过采用上述技术手段，能够较好地衡量用户与用户之间或者同一个用户在不同时间窗口内的行为轨迹的相似程度，从而有助于后续基于行为轨迹相似度进一步挖掘更深入的用户画像。

上述实施例中提供的轨迹相似度的计算装置、存储介质及终端可执行本发明任意实施例所提供的轨迹相似度的计算方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的轨迹相似度的计算方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种轨迹相似度的计算方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一轨迹特征包括第一轨迹点向量和第一轨迹密度向量，所述第二轨迹特征包括第二轨迹点向量和第二轨迹密度向量；

根据所述第一轨迹特征和所述第二轨迹特征计算所述第一行为轨迹和所述第二行为轨迹间的相似度，包括：

确定所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度；

根据所述轨迹饱和度、第一轨迹点向量、第一轨迹密度向量、第二轨迹点向量及第二轨迹密度向量计算所述第一行为轨迹和所述第二行为轨迹间的相似度。

3.根据权利要求2所述的方法，其特征在于，所述第一轨迹点向量和第二轨迹点向量包括基于至少两个时间区间内的位置中心点构造的向量，第一轨迹点密度向量和第二轨迹点密度向量包括基于至少两个时间区间的位置中心点密度构造的向量；

确定所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述轨迹饱和度、第一轨迹点向量、第一轨迹密度向量、第二轨迹点向量及第二轨迹密度向量计算所述第一行为轨迹和所述第二行为轨迹间的相似度，包括：

其中，sim表示所述第一行为轨迹和所述第二行为轨迹间的相似度，Cover表示所述第一行为轨迹和所述第二行为轨迹间的轨迹饱和度，Dis tan ce(P_ai,P_bi)表示在第i个时间区间内所述第一轨迹点向量中的位置中心点P_ai和所述第二轨迹点向量中的位置中心点P_bi的距离，D_ai表示第一轨迹密度向量中与第一轨迹点向量中的位置中心点P_ai对应的位置中心点密度，D_bi表示第二轨迹密度向量中与第二轨迹点向量中的位置中心点P_bi对应的位置中心点密度，n表示时间区间的数量。

5.根据权利要求1所述的方法，其特征在于，获取行为轨迹对应的轨迹特征，包括：

获取至少两个时间区间内的用户位置数据；

针对各个时间区间，根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点；

针对各个位置中心点，从所述位置中心点对应的时间区间内的用户位置数据中确定与所述位置中心点的距离小于预设距离阈值的目标位置数据；

根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度；

将各个时间区间内的位置中心点构造的轨迹点向量和各个时间区间内的位置中心点密度构造的轨迹密度向量作为轨迹特征。

6.根据权利要求5所述的方法，其特征在于，根据所述时间区间内的用户位置数据确定所述时间区间内的位置中心点，包括：

将所述聚类中心点作为所述时间区间内的位置中心点。

7.根据权利要求5所述的方法，其特征在于，根据所述目标位置数据以及所述时间区间内的用户位置数据计算位置中心点密度，包括：

8.根据权利要求5所述的方法，其特征在于，获取至少两个时间区间内的用户位置数据，包括：

获取预设时间段内的用户位置数据集；

获取按照预设时间划分规则确定的至少两个时间区间；

9.一种轨迹相似度的计算装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8任一所述的轨迹相似度的计算方法。

11.一种终端，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任一所述的轨迹相似度的计算方法。