CN112434084B

CN112434084B - 基于geohash和LCSS的轨迹相似度匹配方法及装置

Info

Publication number: CN112434084B
Application number: CN202011393010.8A
Authority: CN
Inventors: 李智杰
Original assignee: Tenth Research Institute Of Telecommunications Technology Co ltd
Current assignee: Tenth Research Institute Of Telecommunications Technology Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2023-04-07
Anticipated expiration: 2040-12-02
Also published as: CN112434084A

Abstract

本发明公开了一种基于geohash和LCSS的轨迹相似度匹配方法及装置，该方法包括：根据待分析目标标识和目标时间段或者目标轨迹序列，获取多个时空关联标识；获取各时空关联标识与目标轨迹序列的命中输入轨迹序列，并计算其geohash占比、时间分布率和空间分布率；获取各时空关联标识的完整轨迹序列，并计算其LCSS相似度；将geohash占比、时间分布率和空间分布率以及LCSS相似度分别加权后求和，计算轨迹相似度；按照轨迹相似度升序排列的方式，输出各时空关联标识的完整轨迹序列。本发明有效解决了现有技术中的轨迹相似度算法存在的对轨迹采样数据要求高、计算结果易存在偏差或容易受到局部极端情况影响等问题。

Description

基于geohash和LCSS的轨迹相似度匹配方法及装置

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于geohash和LCSS的轨迹相似度匹配方法及装置。

背景技术

随着技术的发展，现在人们活动的位置或轨迹信息被各种各样的系统记录下来。在某些领域中，比对目标轨迹之间相似程度以及查找与目标轨迹相似的其他同行目标，对全面分析同一个物理对象具有重要的意义，比如在侦案过程中将嫌疑人的全部轨迹信息关联进来可以更好的找到线索以侦破案件。

通常，会采用算法来实现轨迹的相似度比对，并输出相似度达到一定程度的轨迹或目标，以达到减少人工用肉眼进行比对带来的工作量和误差。目前，常用的轨迹相似度算法主要有：基于欧式距离的相似度算法、基于时间动态规整(Dynamic Time Wraping，DTW)的轨迹相似度算法以及基于最近采样点对距离(Closest-Pair Distance，CPD)的轨迹相似度算法。

然而，基于欧式距离的相似度算法求参与计算的两条轨迹采样点是一一对应的，因此其对轨迹数据采样率和采样点有着严格的要求，对数据中的噪声非常敏感，如果数据质量不佳会导致轨迹相似度的运算准确度下降。基于时间动态规整的轨迹相似度算法通过采用重复之前的记录点填补对应空缺的方式，由此求出的最小距离作为轨迹的相似度量，因此其要求匹配具有连续性，而如果轨迹存在完全不相似的区间，该方法无法准确度量噪音与不相似这种情况，导致计算结果存在偏差。基于最近采样点对距离的轨迹相似度算法要找出两条轨迹中两点距离最近的两个点，以该点对的距离作为轨迹距离，因此其容易受到局部极端情况的影响，无法准确地描述各种情况的相似度。

需要注意的是，本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

本发明实施例提供一种基于geohash和LCSS的轨迹相似度匹配方法及装置，以解决现有技术中的轨迹相似度算法存在的对轨迹采样数据要求高、计算结果易存在偏差或容易受到局部极端情况影响等问题。

第一方面，本发明实施例提供一种基于geohash和LCSS的轨迹相似度匹配方法，包括：

根据输入的待分析目标标识和目标时间段，通过查询标识索引数据库获取目标轨迹序列，或者根据输入的所述目标轨迹序列，然后通过查询geohash索引数据库获取与所述目标轨迹序列相关联的多个时空关联标识；

获取各所述时空关联标识与所述目标轨迹序列相匹配的命中输入轨迹序列，并计算各所述时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率；

通过查询所述标识索引数据库，获取各所述时空关联标识在所述目标时间段内相对应的完整轨迹序列，并计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的LCSS相似度；

将所述geohash占比、所述时间分布率和所述空间分布率以及所述LCSS相似度分别加权后求和，计算所述各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的轨迹相似度；

按照所述轨迹相似度升序排列的方式，输出各所述时空关联标识的完整轨迹序列。

作为本发明第一方面的优选方式，在所述根据待分析目标标识和目标时间段，通过查询标识索引数据库获取目标轨迹序列，并通过查询geohash索引数据库获取与所述目标轨迹序列相关联的多个时空关联标识之前，还包括：

构建所述geohash索引数据库和所述标识索引数据库。

作为本发明第一方面的优选方式，所述构建所述geohash索引数据库和标识索引数据库，包括：

获取多个异构型位置类数据；

将各所述位置类数据清洗后进行格式标准化操作，使所述位置类数据至少包括标识参数、发生时刻参数、经纬度参数以及所述经纬度参数对应的geohash字符串；

以所述geohash字符串和所述发生时刻参数为索引进行数据加工，构建所述geohash索引数据库；以所述标识参数和所述发生时刻参数为索引进行数据加工，构建所述标识索引数据库。

作为本发明第一方面的优选方式，所述获取各所述时空关联标识与所述目标轨迹序列相匹配的命中输入轨迹序列，并计算各所述时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率，包括：

获取各所述时空关联标识与所述目标轨迹序列相匹配的命中输入轨迹序列；

根据下式计算各所述时空关联标识的命中输入轨迹序列的geohash占比：

geohiti＝length(geobi)/length(tracea)，

其中，geohiti为第i个时空关联标识的命中输入轨迹序列的geohash占比，length(tracea)为目标轨迹序列的长度，length(geobi)为第i个时空关联标识的命中输入轨迹序列的长度，i为不大于目标轨迹序列中包含的元素个数的正整数；

根据下式计算各所述时空关联标识的命中输入轨迹序列的时间分布率：

timeratei＝length(spiltTimebi)/length(spiltTimea)，

其中，timeratei为第i个时空关联标识的命中输入轨迹序列的时间分布率，length(spiltTimea)为根据固定时间间隔对目标轨迹序列分割得到的时间切片序列的长度，length(spiltTimebi)为根据对应的固定时间间隔对第i个时空关联标识的命中输入轨迹序列分割得到的时间切片序列的长度；

根据下式计算各所述时空关联标识的命中输入轨迹序列的空间分布率：

spaceratei＝length(spiltgeobi)/length(spiltTracea)，

其中，spaceratei为第i个时空关联标识的命中输入轨迹序列的空间分布率，length(spiltTracea)为根据固定空间距离对目标轨迹序列分割得到的空间切片序列的长度，length(spiltgeobi)为根据对应的固定空间距离对第i个时空关联标识的命中输入轨迹序列分割得到的空间切片序列的长度。

作为本发明第一方面的优选方式，所述通过查询所述标识索引数据库，获取各所述时空关联标识在所述目标时间段内相对应的完整轨迹序列，并计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的LCSS相似度，包括：

通过查询所述标识索引数据库，获取各所述时空关联标识在所述目标时间段内相对应的完整轨迹序列；

计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的最长公共子序列以及所述最长公共子序列的长度；

计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的时间序列相似性；

根据所述最长公共子序列的长度和所述时间序列相似性，通过下式计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的LCSS相似度：

DLCSSi＝1-((LCSS(tracea,tracebi))/min(length(tracea),length(tracebi)))*SimTimes(tracea,tracebi))，

其中，DLCSSi为第i个时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度，LCSS(tracea,tracebi)为第i个时空关联标识的完整轨迹序列与目标轨迹序列的最长公共子序列的长度，length(tracea)为目标轨迹序列的长度，length(tracebi)为第i个时空关联标识的完整轨迹序列的长度，SimTimes(tracea,tracebi)为第i个时空关联标识的完整轨迹序列与目标轨迹序列的时间序列相似性。

作为本发明第一方面的优选方式，所述将所述geohash占比、所述时间分布率和所述空间分布率以及所述LCSS相似度分别加权后求和，计算所述各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的轨迹相似度，包括：

根据所述geohash占比、所述时间分布率和所述空间分布率以及所述LCSS相似度，通过下式计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的轨迹相似度：

TraceSimi＝w1*geohiti+w2*spaceratei+w3*timeratei+w4*DLCSSi，

其中，TraceSimi为第i个时空关联标识的完整轨迹序列与目标轨迹序列的轨迹相似度，geohiti为第i个时空关联标识的命中输入轨迹序列的geohash占比，w1为geohiti的权重系数，spaceratei为第i个时空关联标识的命中输入轨迹序列的空间分布率，w2为spaceratei的权重系数，timeratei为第i个时空关联标识的命中输入轨迹序列的时间分布率，w3为timeratei的权重系数，，DLCSSi为第i个时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度，w4为DLCSSi的权重系数。

第二方面，本发明实施例提供一种基于geohash和LCSS的轨迹相似度匹配装置，包括：

第一获取单元，用于根据输入的待分析目标标识和目标时间段，通过查询标识索引数据库获取目标轨迹序列，或者根据输入的所述目标轨迹序列，然后通过查询geohash索引数据库获取与所述目标轨迹序列相关联的多个时空关联标识；

第二获取单元，用于获取各所述时空关联标识与所述目标轨迹序列相匹配的命中输入轨迹序列，并计算各所述时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率；

第三获取单元，用于通过查询所述标识索引数据库，获取各所述时空关联标识在所述目标时间段内相对应的完整轨迹序列，并计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的LCSS相似度；

相似度计算单元，用于将所述geohash占比、所述时间分布率和所述空间分布率以及所述LCSS相似度分别加权后求和，计算所述各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的轨迹相似度；

排序输出单元，用于按照所述轨迹相似度升序排列的方式，输出各所述时空关联标识的完整轨迹序列。

作为本发明第二方面的优选方式，还包括：

数据库构建单元，用于所述构建geohash索引数据库和所述标识索引数据库。

第三方面，本发明实施例提供一种计算设备，包括处理器和存储器，其中所述存储器内存储有执行指令，所述处理器读取所述存储器内的执行指令用于执行如上述基于geohash和LCSS的轨迹相似度匹配方法所述的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，包含计算机执行指令，所述计算机执行指令被用于执行如上述基于geohash和LCSS的轨迹相似度匹配方法所述的步骤。

本发明提供一种基于geohash和LCSS的轨迹相似度匹配方法及装置，根据输入的待分析的目标标识和时间段通过查询标识索引数据库获取到对应的目标轨迹序列，然后通过查询geohash索引数据库挖掘出与目标轨迹序列相关联的多个时空关联标识，并采用包括geohash占比、时间分布率和空间分布率以及LCSS相似度在内的多个特征加权后描述各个时空关联标识对应的完整轨迹序列与目标轨迹序列的轨迹相似度，最后按照轨迹相似度从大到小进行排序后将各个时空关联标识对应的完整轨迹序列输出，呈现给使用者进行判断。

本发明采用geohash作为位置类数据建模的地理位置标识，比现有传统做法中采用经纬度作为地理位置为标识，将二维编码一维化，在进行轨迹相似度运算时有更高的检索和计算性能。同时，还分别以geohash和标识为索引设计geohash索引库和标识索引库，比现有传统做法常采用单个关系型数据库表提升算法计算过程中的性能，尤其在大数据量位置类数据挖掘中，有更优秀的性能表现。

此外，本发明采用LCSS算法以及增加时间序列相似性作为算法中的特征指标，比现有传统做法常采用欧式距离，DWT算法更加能容忍数据噪音，在精准度和采样率差异大的各种异构位置类数据来源下表现出稳定的准确率。本发明还设计了空间分布律和时间分布律，比现有传统做法常仅采用轨迹点匹配比来描述轨迹相似程度可以区分静止、速度不同的场景，同时也能在需要比较轨迹因采样率不同导致比较轨迹之间轨迹点稀疏比差异大的情况下进行正确的轨迹相似度区分，匹配结果更加精确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的轨迹相似度匹配的流程示意图；

图2为本发明实施例提供的geohash标识区域的示意图；

图3为本发明实施例提供的轨迹序列的示意图；

图4为本发明实施例提供的一种基于geohash和LCSS的轨迹相似度匹配方法的实现流程图；

图5为本发明实施例提供的一种基于geohash和LCSS的轨迹相似度匹配装置的结构示意图；

图6为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本发明公开了一种基于geohash地理编码技术进行轨迹数据建模，并应用LCSS(最长公共子序列)和其改进方法进行轨迹相似度匹配的方法。本方法对输入的目标轨迹进行比对，将与目标轨迹相似度达到一定程度的轨迹按照相似程度排序后输出，呈现给使用者进行判断。

本方法对轨迹数据进行统一的处理与建模，对轨迹数据的产生来源、设备制式以及格式没有特定要求。在实际采集的数据测试表明，本方法对数据噪音和异常轨迹点时有较好的鲁棒性，也在仅获得轨迹部分片段、采样点较为稀疏、比对轨迹之间采样点稀疏比差异很大的情况下保持稳定的轨迹相似性匹配能力和准确度。并且，在方法应用在系统中实现时，对轨迹数据的存储、查询和算法执行流程进行了优化设计，使得在进行大数据量的轨迹相似度挖掘时也能够快速得出结果，保持稳定的性能。

在介绍本发明所述的方法之前，先对本方法中使用的一些基本定义做如下说明：

(1)轨迹相似度匹配：输入一个轨迹或者一个标识，以及对应的时间窗口，在所有与输入轨迹同时空下的位置类数据中，计算该时间窗口下与输入轨迹或标识对应的轨迹相似的其他轨迹以及产生轨迹的标识，并量化输入轨迹和相似轨迹之间的相似程度，按照量化的相似程度升序排序并且输出。具体参照图1所示。

(2)geohash：一种空间索引方式，即把二维的经纬度编码成一维的字符串，一个geohash字符串可以表示一个矩形的区域，geohash字符串的前缀可以表示包含此geohash标识区域的更大区域。geohash字符串长度即代表geohash位数，geohash位数越小表示的区域越大。本方法中使用6至8位数的geohash字符串。具体参照图2所示。

(3)轨迹：本方法中轨迹定义为：

Trace＝<(g1,t1),(g2,t2),…,(gn,tn)>，其中序列的每个元素包含一个geohash和一个时刻t，trace是一个有序的序列集合，按照时刻t有序排列。具体参照图3所示。

下面将详细展开说明本发明中所述的基于geohash和LCSS的轨迹相似度匹配方法。

参照图4所示，本发明实施例公开了一种基于geohash和LCSS的轨迹相似度匹配方法，该方法主要包括：

401、根据输入的待分析目标标识和目标时间段，通过查询标识索引数据库获取目标轨迹序列，或者根据输入的目标轨迹序列，然后通过查询geohash索引数据库获取与目标轨迹序列相关联的多个时空关联标识；

402、获取各时空关联标识与目标轨迹序列相匹配的命中输入轨迹序列，并计算各时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率；

403、通过查询标识索引数据库，获取各时空关联标识在目标时间段内相对应的完整轨迹序列，并计算各时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度；

404、将geohash占比、时间分布率和空间分布率以及LCSS相似度分别加权后求和，计算所述各时空关联标识的完整轨迹序列与目标轨迹序列的轨迹相似度；

405、按照轨迹相似度升序排列的方式，输出各时空关联标识的完整轨迹序列。

本方法主要对输入的目标轨迹进行比对，将与目标轨迹相似度达到一定程度的轨迹按照相似程度排序后输出，呈现给使用者进行判断。在本方法中，通过对轨迹类数据进行数据挖掘来比对轨迹相似度，而用于数据挖掘的很大一部分数据，来自于移动设备与附近基站进行信令交换的数据，再由基站ID和位置转化成的异构位置类数据。此类数据有以下特点：

(1)使用基站位置的采样点代替基站覆盖范围内设备位置，使得形成的数据轨迹序列与实际轨迹有差异；

(2)基站的所属运营商，其制式的不同会影响最终产生的轨迹数据的质量，轨迹中异常采样点的比重以及不同轨迹之间或同一轨迹的不同时间窗口之间的采样点稀疏程度参差不齐；

(3)数据量巨大，且不同设备产生的信令数据混合在一起。

从而，使用传统的轨迹相似度算法进行特殊领域中轨迹相似度数据挖掘时，由于数据量巨大以及存在的较大数据噪音，无法保证稳定的准确率和性能。因此，本方法旨在对大量的异构位置类数据进行轨迹相似度的数据挖掘时，保证稳定的性能与准确率。

本方法优选采用geohash作为位置类数据建模的地理位置标识，比现有传统做法中采用经纬度作为地理位置为标识，将二维编码一维化，在进行轨迹相似度运算时有更高的检索和计算性能。

因此，在介绍本方法的步骤401之前，本方法还包括如下步骤：

400、构建geohash索引数据库和标识索引数据库。

在步骤400中，先根据获取到的用于进行数据挖掘的多个异构位置类数据，分别构建geohash索引数据库和标识索引数据库。

在本申请提供的一种可选实施例中，步骤400可按照如下步骤具体实施：

400-1、获取多个异构型位置类数据。

该步骤中，获取数据量尽可能大的异构型位置类数据，用于进行数据挖掘，以从中挖掘出与输入的目标轨迹相似的轨迹，并最终按照其相似度从大到小的顺序输出。

400-2、将各位置类数据清洗后进行格式标准化操作，使位置类数据至少包括标识参数、发生时刻参数、经纬度参数以及经纬度参数对应的geohash字符串。

该步骤中，将每个位置类数据进行数据清洗和格式标准化操作，先去除位置类数据中错误的和异常的数据，再将位置类数据格式标准化。标准格式中，每一条数据至少包含产生的标识参数、发生时刻参数、经维度参数以及经纬度参数对应的geohash字符串。

400-3、以geohash字符串和发生时刻参数为索引进行数据加工，构建geohash索引数据库；以标识参数和发生时刻参数为索引进行数据加工，构建标识索引数据库。

该步骤中，以geohash字符串和发生时刻参数为索引进行数据加工，每个索引下包含对应时间段的geohash下的所有标识，来构建geohash索引数据库。

在geohash索引数据库中，根据场景的不同，每个索引采用一个6至8位的geohash加上一个以分钟为精度的发生时刻参数作为索引，该索引下的值为全量数据中在该发生时刻下经过此geohash的所有标识的集合。查询时，输入geohash和时间段，将geohash和时间段拆分成多个索引对应的geohash位数和发生时刻后，查询geohash索引数据库中对应索引下所有标识集合，就可以得到输入geohash的该时间段下经过的所有标识集合。

另外，还以geohash字符串和发生时刻参数为索引进行数据加工，每个索引下包含标识对应时刻的轨迹序列信息，来构建标识索引数据库。

在标识索引数据库中，采用标识和发生时刻作为索引，索引顺序根据时刻的顺序确定，该索引下的值为全量数据中此标识对应时刻下的轨迹序列信息。查询时，输入标识和时间段，查询输入标识的该时间段下所有时刻的轨迹序列信息，按照时间排序后输出。

上述步骤中，设计了数据加工流程，分别以geohash和标识为索引构建geohash索引数据库和标识索引数据库，比现有的传统方法中常采用单个关系型数据库，能够有效提升算法计算过程中的性能，尤其在数据量较大的位置类数据挖掘中，有更优秀的性能表现。

在步骤401中，根据上述步骤中构建的geohash索引数据库和标识索引数据库，先根据输入的待分析的目标标识和目标时间段，通过查询标识索引数据库获取到对应的目标轨迹序列，或者，还可以直接输入该目标轨迹序列。在实际应用中，用户可以根据实际情况优选其中的一种输入方式。

该目标轨迹序列记为：

tracea＝<(g1,t1),(g2,t2),…,(gn,tn)>，

其中，序列中包括的每个元素均包含一个geohash字符串和对应的发生时刻，t1、t2、…、tn为按顺序排列的发生时刻，而g1、g2、…、gn为对应发生时刻的geohash字符串，n为序列中包括的元素的个数。然后，通过将目标轨迹序列中的每个geohash字符串和对应的发生时刻依次查询geohash索引数据库，获取到与目标轨迹序列相关联的多个时空关联标识。

在步骤402中，根据上述步骤获取到的每个时空关联标识，先获取各时空关联标识与目标轨迹序列相匹配的命中输入轨迹序列，然后分别计算各时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率。

在本申请提供的一种可选实施例中，步骤402可按照如下步骤具体实施：

402-1、获取各时空关联标识与目标轨迹序列相匹配的命中输入轨迹序列。

该步骤中，针对每个时空关联标识，得到每个时空关联标识与目标轨迹序列相匹配的命中输入轨迹序列，该命中输入轨迹序列记为：

geobi＝<gi1,gi2,..gik>，

其中，geobi为第i个时空关联标识的命中输入轨迹序列，该序列中包括的每个元素均包含一个geohash字符串和对应的发生时刻，其下标i1、i2、...、ik为目标轨迹序列中的下标(1、2、…、n)的子集。

402-2、根据下式计算各时空关联标识的命中输入轨迹序列的geohash占比：

geohiti＝length(geobi)/length(tracea)，

其中，geohiti为第i个时空关联标识的命中输入轨迹序列的geohash占比，length(tracea)为目标轨迹序列的长度，length(geobi)为第i个时空关联标识的命中输入轨迹序列的长度，i为不大于目标轨迹序列中包含的元素个数的正整数。

该步骤中，根据上述步骤中获取到的每个时空关联标识的命中输入轨迹序列，采用上式分别计算每个时空关联标识的命中输入轨迹序列的geohash占比。

402-3、根据下式计算各时空关联标识的命中输入轨迹序列的时间分布率：

timeratei＝length(spiltTimebi)/length(spiltTimea)，

其中，timeratei为第i个时空关联标识的命中输入轨迹序列的时间分布率，length(spiltTimea)为根据固定时间间隔对目标轨迹序列分割得到的时间切片序列的长度，length(spiltTimebi)为根据对应的固定时间间隔对第i个时空关联标识的命中输入轨迹序列分割得到的时间切片序列的长度。

该步骤中，根据上述步骤中获取到的每个时空关联标识的命中输入轨迹序列，采用上式分别计算每个时空关联标识的命中输入轨迹序列的时间分布率。

402-4、根据下式计算各时空关联标识的命中输入轨迹序列的空间分布率：

spaceratei＝length(spiltgeobi)/length(spiltTracea)，

该步骤中，根据上述步骤中获取到的每个时空关联标识的命中输入轨迹序列，采用上式分别计算每个时空关联标识的命中输入轨迹序列的空间分布率。

需要说明的是，在具体实施时，步骤402-2～402-4没有严格的执行顺序，本领域技术人员可以根据实际情况选择合适的执行顺序，也可以将上述步骤同步执行。

上述步骤中，除计算了每个时空关联标识的命中输入轨迹序列的geohash占比外，还分别计算了时间分布率和空间分布率，相比现有的传统方法仅采用轨迹点匹配比来描述轨迹相似程度，其可以区分静止、速度不同的场景，同时也能在需要比较轨迹因采样率不同导致比较轨迹之间轨迹点稀疏比差异大的情况下进行正确的轨迹相似度区分，匹配结果更加精确。通过计算空间分布率与时间分布率，可以更好地区分真实的相似情况。

在步骤403中，根据上述步骤获取到的每个时空关联标识，先通过查询标识索引数据库，获取每个时空关联标识在目标时间段内相对应的完整轨迹序列，然后分别计算每个时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度。

在本申请提供的一种可选实施例中，步骤403可按照如下步骤具体实施：

403-1、通过查询标识索引数据库，获取各时空关联标识在目标时间段内相对应的完整轨迹序列。

该步骤中，将每个时空关联标识和目标时间段，通过查询标识索引数据库，获取每个时空关联标识在目标时间段内相对应的完整轨迹序列，该完整轨迹序列集合记为：

traceb＝<traceb1,traceb2,...tracebi>。

该集合中的元素为每一个时空关联标识对应的完整轨迹序列，该完整轨迹序列记为：

tracebi＝<(gi1,ti1),(gi2,ti2),…,(gij,tij)>，该序列中包括的每个元素均包含一个geohash字符串和对应的发生时刻，j为序列中包括的元素的个数。

403-2、计算各时空关联标识的完整轨迹序列与目标轨迹序列的最长公共子序列以及最长公共子序列的长度。

该步骤中，根据下式计算各时空关联标识的完整轨迹序列的最长公共子序列(LCSS)的长度：

其中，n为目标轨迹序列tracea中包括的元素的个数，j为时空关联标识的完整轨迹序列tracebi中包括的元素的个数，tail(tracea,n)为目标轨迹序列第n个元素开始的子序列，tail(tracebi,j)为时空关联标识的完整轨迹序列tracebi中第j个元素开始的子序列。

403-3、计算各时空关联标识的完整轨迹序列与目标轨迹序列的时间序列相似性。

该步骤中，根据下式计算各时空关联标识的完整轨迹序列与目标轨迹序列的时间序列相似性：

其中，ΔT为发生时刻阈值；δ为重合公式，当两个序列tracea和tracebi的元素中存在两个geohash相等时，其值为1，否则为0；length(tracea)为目标轨迹序列的长度，n为目标轨迹序列中包括的元素的个数，length(geobi)为第i个时空关联标识的命中输入轨迹序列的长度，k为第i个时空关联标识的命中输入轨迹序列中包括的元素的个数；|tn-tik|为两个序列tracea和tracebi的元素之间发生时刻的差值绝对值。

403-4、根据最长公共子序列的长度和时间序列相似性，通过下式计算各时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度：

该步骤中，根据上述步骤中获取到的最长公共子序列的长度和时间序列相似性，采用上式分别计算每个各时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度。

上述步骤中，采用LCSS算法以及增加时间序列相似性作为方法的特征指标，比现有的传统方法常采用的欧式距离和DWT算法更加能容忍数据噪音，在精准度和采样率差异大的各种异构位置类数据来源下表现出稳定的准确率。

需要说明的是，在具体实施时，步骤402和步骤403没有严格的执行顺序，本领域技术人员可以根据实际情况选择合适的执行顺序，也可以将上述步骤同步执行。

在步骤404中，根据上述步骤获取到的每个时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率以及每个时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度分别加权后求和，从而计算每个时空关联标识的完整轨迹序列与目标轨迹序列的轨迹相似度。

在本申请提供的一种可选实施例中，步骤404可按照如下步骤具体实施：

根据geohash占比、时间分布率和空间分布率以及LCSS相似度，通过下式计算各时空关联标识的完整轨迹序列与目标轨迹序列的轨迹相似度：

TraceSimi＝w1*geohiti+w2*spaceratei+w3*timeratei+w4*DLCSSi，

该步骤中，根据上述步骤中获取到的每个时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率以及每个时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度，采用上式分别计算每个各时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度。

上式中的各个权重系数，可以根据需要，通过计算位置类数据来源的场景，依靠经验值获得；优选地，还可以针对位置类数据进行监督训练，通过计算该线性回归方程的系数解来获得。

上述步骤中，采用多个特征来描述轨迹相似度，多个特征的权重系数优选根据所需要挖掘的位置类数据进行监督训练，通过线性回归获得，在不同的位置类数据源情况下训练最优的系数，保证算法在不同场景数据源下的准确率。

在步骤405中，将上述步骤计算出的每个时空关联标识的完整轨迹序列与目标轨迹序列的轨迹相似度，按照轨迹相似度从大到小的升序排列方式，将各时空关联标识的完整轨迹序排序后输出，呈现给使用者进行判断。

排序越靠前，就说明该输入该时空关联标识的完整轨迹序列与目标轨迹序列的相似程度越高。

综上所述，本发明实施例提供一种基于geohash和LCSS的轨迹相似度匹配方法，采用geohash作为位置类数据建模的地理位置标识，比现有传统做法中采用经纬度作为地理位置为标识，将二维编码一维化，在进行轨迹相似度运算时有更高的检索和计算性能。同时，还分别以geohash和标识为索引设计geohash索引库和标识索引库，比现有传统做法常采用单个关系型数据库表提升算法计算过程中的性能，尤其在大数据量位置类数据挖掘中，有更优秀的性能表现。

此外，本发明采用LCSS算法以及增加时间序列相似性作为算法中的特征指标，比现有传统做法常采用欧式距离，DWT算法更加能容忍数据噪音，在精准度和采样率差异大的各种异构位置类数据来源下表现出稳定的准确率。本发明还设计了空间分布律和时间分布律，比现有传统做法常仅采用轨迹点匹配比来描述轨迹相似程度可以区分静止，速度不同的场景，同时也能在需要比较轨迹因采样率不同导致比较轨迹之间轨迹点稀疏比差异大的情况下进行正确的轨迹相似度区分，匹配结果更加精确。

需要说明的是，对于上述方法的实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器或者网络设备等)执行本申请上述实施例所述的方法。

参照图5所示，基于同一发明构思，本发明实施例提供一种基于geohash和LCSS的轨迹相似度匹配装置，该装置主要包括：

第一获取单元51，用于根据待分析目标标识和目标时间段，通过查询标识索引数据库获取目标轨迹序列，并通过查询geohash索引数据库获取与所述目标轨迹序列相关联的多个时空关联标识；

第二获取单元52，用于获取各所述时空关联标识与所述目标轨迹序列相匹配的命中输入轨迹序列，并计算各所述时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率；

第三获取单元53，用于通过查询所述标识索引数据库，获取各所述时空关联标识在所述目标时间段内相对应的完整轨迹序列，并计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的LCSS相似度；

相似度计算单元54，用于将所述geohash占比、所述时间分布率和所述空间分布率以及所述LCSS相似度分别加权后求和，计算所述各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的轨迹相似度；

排序输出单元55，用于按照所述轨迹相似度升序排列的方式，输出各所述时空关联标识的完整轨迹序列。

此处需要说明的是，上述第一获取单元51、第二获取单元52、第二获取单元53、相似度计算单元54和排序输出单元55对应于上述方法实施例中的步骤401至步骤405，五个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述方法实施例所公开的内容。

在本申请提供的一种可选实施例中，还包括：

数据库构建单元50，用于构建所述geohash索引数据库和所述标识索引数据库。

在本申请提供的一种可选实施例中，所述数据库构建单元50具体用于：

获取多个异构型位置类数据；

在本申请提供的一种可选实施例中，所述第二获取单元52具体用于：

geohiti＝length(geobi)/length(tracea)，

timeratei＝length(spiltTimebi)/length(spiltTimea)，

spaceratei＝length(spiltgeobi)/length(spiltTracea)，

在本申请提供的一种可选实施例中，所述第三获取单元53具体用于：

其中，DLCSSi为第i个时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度，LCSS(tracea,tracebi)为第i个时空关联标识的完整轨迹序列与目标轨迹序列的最长公共子序列的长度，length(tracea)为目标轨迹序列的长度，length(tracebi)为第i个时空关联标识的完整轨迹序列的长度，SimTimes(tracea,

tracebi)为第i个时空关联标识的完整轨迹序列与目标轨迹序列的时间序列相似性。

在本申请提供的一种可选实施例中，所述相似度计算单元54具体用于：

TraceSimi＝w1*geohiti+w2*spaceratei+w3*timeratei+w4*DLCSSi，

综上所述，本发明实施例提供一种基于geohash和LCSS的轨迹相似度匹配装置，采用geohash作为位置类数据建模的地理位置标识，比现有传统做法中采用经纬度作为地理位置为标识，将二维编码一维化，在进行轨迹相似度运算时有更高的检索和计算性能。同时，还分别以geohash和标识为索引设计geohash索引库和标识索引库，比现有传统做法常采用单个关系型数据库表提升算法计算过程中的性能，尤其在大数据量位置类数据挖掘中，有更优秀的性能表现。

需要说明的是，本发明实施例提供的基于geohash和LCSS的轨迹相似度匹配装置与前述实施例所述的基于geohash和LCSS的轨迹相似度匹配方法属于相同的技术构思，其具体实施过程可参照前述实施例中对方法步骤的说明，在此不再赘述。

应当理解，以上一种基于geohash和LCSS的轨迹相似度匹配装置包括的单元仅为根据该装置实现的功能进行的逻辑划分，实际应用中，可以进行上述单元的叠加或拆分。并且该实施例提供的一种基于geohash和LCSS的轨迹相似度匹配装置所实现的功能与上述实施例提供的一种基于geohash和LCSS的轨迹相似度匹配方法一一对应，对于该装置所实现的更为详细的处理流程，在上述方法实施例中已做详细描述，此处不再详细描述。

参照图6所示，基于同一发明构思，本发明实施例提供一种计算设备，该计算设备主要包括处理器61和存储器62，其中存储器62内存储有执行指令。该处理器61读取存储器62内的执行指令用于执行上述基于geohash和LCSS的轨迹相似度匹配方法任一个实施例中所述的步骤。或者，该处理器61读取存储器62内的执行指令用于实现上述基于geohash和LCSS的轨迹相似度匹配装置任一个实施例中各单元的功能。

图6为本发明实施例提供的计算设备的一种结构示意图，如图6所示，该计算设备包括处理器61、存储器62和收发器63；其中，处理器61、存储器62和收发器63通过总线64相互连接。

存储器62用于存储程序；具体地，程序可以包括程序代码，程序代码包括计算机操作指令。存储器62可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，简称RAM)；存储器62也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，简称HDD)或固态硬盘(solid-state drive，简称SSD)；存储器62还可以包括上述种类的存储器的组合。

存储器62存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

总线64可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器61可以是中央处理器(central processing unit，简称CPU)，网络处理器(network processor，简称NP)或者CPU和NP的组合。还可以是硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，简称ASIC)，可编程逻辑器件(programmable logic device，简称PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，简称CPLD)，现场可编程逻辑门阵列(fieldprogrammable gate array，简称FPGA)，通用阵列逻辑(generic array logic，简称GAL)或其任意组合。

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，包含计算机执行指令，所述计算机执行指令被用于执行上述基于geohash和LCSS的轨迹相似度匹配方法任一个实施例中所述的步骤。或者，所述计算机执行指令被用于执行上述基于geohash和LCSS的轨迹相似度匹配装置实施例中各单元的功能。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于geohash和LCSS的轨迹相似度匹配方法，其特征在于，包括：

按照所述轨迹相似度升序排列的方式，输出各所述时空关联标识的完整轨迹序列；

所述获取各所述时空关联标识与所述目标轨迹序列相匹配的命中输入轨迹序列，并计算各所述时空关联标识的命中输入轨迹序列的geohash占比、时间分布率和空间分布率，包括：

geohiti＝length(geobi)/length(tracea)，

timeratei＝length(spiltTimebi)/length(spiltTimea)，

spaceratei＝length(spiltgeobi)/length(spiltTracea)，

2.根据权利要求1所述的方法，其特征在于，在所述根据待分析目标标识和目标时间段，通过查询标识索引数据库获取目标轨迹序列，并通过查询geohash索引数据库获取与所述目标轨迹序列相关联的多个时空关联标识之前，还包括：

构建所述geohash索引数据库和所述标识索引数据库。

3.根据权利要求2所述的方法，其特征在于，所述构建所述geohash索引数据库和所述标识索引数据库，包括：

获取多个异构型位置类数据；

4.根据权利要求1所述的方法，其特征在于，所述通过查询所述标识索引数据库，获取各所述时空关联标识在所述目标时间段内相对应的完整轨迹序列，并计算各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的LCSS相似度，包括：

DLCSSi＝1-((LCSS(tracea,tracebi))/min(length(tracea),length(tracebi)))*(SimTi mes(tracea,tracebi))，

5.根据权利要求1所述的方法，其特征在于，所述将所述geohash占比、所述时间分布率和所述空间分布率以及所述LCSS相似度分别加权后求和，计算所述各所述时空关联标识的完整轨迹序列与所述目标轨迹序列的轨迹相似度，包括：

TraceSimi＝w1*geohiti+w2*spaceratei+w3*timeratei+w4*DLCSSi，

其中，TraceSimi为第i个时空关联标识的完整轨迹序列与目标轨迹序列的轨迹相似度，geohiti为第i个时空关联标识的命中输入轨迹序列的geohash占比，w1为geohiti的权重系数，spaceratei为第i个时空关联标识的命中输入轨迹序列的空间分布率，w2为spaceratei的权重系数，timeratei为第i个时空关联标识的命中输入轨迹序列的时间分布率，w3为timeratei的权重系数，DLCSSi为第i个时空关联标识的完整轨迹序列与目标轨迹序列的LCSS相似度，w4为DLCSSi的权重系数。

6.一种基于geohash和LCSS的轨迹相似度匹配装置，其特征在于，包括：

排序输出单元，用于按照所述轨迹相似度升序排列的方式，输出各所述时空关联标识的完整轨迹序列；

所述第二获取单元具体用于获取各所述时空关联标识与所述目标轨迹序列相匹配的命中输入轨迹序列；

geohiti＝length(geobi)/length(tracea)，

timeratei＝length(spiltTimebi)/length(spiltTimea)，

spaceratei＝length(spiltgeobi)/length(spiltTracea)，

7.根据权利要求6所述的装置，其特征在于，还包括：

数据库构建单元，用于构建所述geohash索引数据库和所述标识索引数据库。

8.一种计算设备，其特征在于，包括处理器和存储器，其中存储器内存储有执行指令，处理器读取存储器内的执行指令用于执行如权利要求1～5中任一项所述的基于geohash和LCSS的轨迹相似度匹配方法中的步骤。

9.一种计算机可读存储介质，其特征在于，包含计算机执行指令，所述计算机执行指令被用于执行如权利要求1～5中任一项所述的基于geohash和LCSS的轨迹相似度匹配方法中的步骤。