CN111651527B

CN111651527B - 基于轨迹相似度的身份关联方法、装置、设备及存储介质

Info

Publication number: CN111651527B
Application number: CN202010314741.2A
Authority: CN
Inventors: 冯和辉; 潘谷; 王科峰; 刘双广
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2023-06-13
Anticipated expiration: 2040-04-21
Also published as: CN111651527A

Abstract

本发明公开了一种基于轨迹相似度的身份关联方法、装置、设备及存储介质，该方法包括：将获取到的每个系统的待分析轨迹数据进行序列化，得到每个系统中的每个轨迹序列；计算每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的细节相似度和整体相似度；对于每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的细节相似度和整体相似度进行加权计算，得到其与其他系统中的每个轨迹序列之间的加权轨迹相似度；根据每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联。采用本发明能够准确地将不同系统间互为相似的轨迹对应的身份信息进行关联。

Description

基于轨迹相似度的身份关联方法、装置、设备及存储介质

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种基于轨迹相似度的身份关联方法、装置、设备及存储介质。

背景技术

随着技术的发展，现在人们活动的信息被各种各样的系统记录下来，如手机运营商记录下的用户轨迹、手机APP记录的用户移动轨迹、车载导航记录下的车辆移动轨迹、银行记录下的银行卡刷卡信息、宾馆记录下住户的住宿信息等等。这些信息所记录的身份ID各不相同，比方说手机运营商记录的身份ID是手机号，手机APP记录的是APP开户ID，车载导航记录的身份ID是导航仪的机器代码，银行记录的身份ID是银行卡号，宾馆记录的身份ID是身份证号。这些不同的身份ID都可能指向同一个物理对象，将同一个物理对象的不同身份ID关联起来，对全面分析同一个物理对象具有重要的意义，比如在侦案过程中将嫌疑人的全部信息关联进来可以更好的找到线索，侦破案件稳定社会。

目前，一般是通过DTW(Dynamic Time Warping，动态时间归整)算法，计算目标轨迹与所有待比对轨迹的相似度，再将相似度高的轨迹对应的身份信息与目标轨迹的身份信息进行关联。

然而，发明人在实施本发明的过程中发现，由于DTW算法本身更适合于轨迹之间整体趋势比较的特性，现有的身份关联方法仅基于目标轨迹与所有待比对轨迹之间的整体特征的相似程度进行身份关联，而忽略了轨迹之间的细节特征的相似程度，影响身份关联的准确率。

发明内容

本发明实施例提供一种基于轨迹相似度的身份关联方法、装置、设备及存储介质，能够准确地将不同系统间互为相似的轨迹对应的身份信息进行关联。

为了实现上述目的，本发明一实施例提供一种基于轨迹相似度的身份关联方法，包括：

获取每个系统的待分析轨迹数据；

基于所述每个系统中的各用户身份信息，按照时间顺序排序，对所述每个系统的待分析轨迹数据进行序列化处理，得到所述每个系统中的每个轨迹序列；

对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度；

对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的整体相似度；

对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的细节相似度、整体相似度、细节相似度权重和整体相似度权重进行加权计算，得到其与其他系统中的每个轨迹序列之间的加权轨迹相似度；

根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联。

作为上述方案的改进，通过以下方式计算两个轨迹序列之间的细节相似度：

检测两个轨迹序列的轨迹长度，并将所述两个轨迹序列中轨迹长度较短的轨迹序列设为第一轨迹序列，轨迹长度较长的轨迹序列设为第二轨迹序列；

通过判断所述第一轨迹序列中的每一轨迹点是否为所述第二轨迹序列的细节相似点，得到所述两个轨迹序列对应的细节相似点序列；

根据所述第一轨迹序列中的轨迹点个数和所述细节相似点序列中的细节相似点个数进行计算，得到所述第一轨迹序列和所述第二轨迹序列之间的细节相似度。

作为上述方案的改进，通过以下方式判断所述第一轨迹序列中的某个轨迹点是否为所述第二轨迹序列的细节相似点：

将所述第一轨迹序列中的该轨迹点作为待分析轨迹点，判断所述第二轨迹序列中是否存在与所述待分析轨迹点的时间戳之差的绝对值小于或等于预设时间阈值，且与所述待分析轨迹点之间的地点距离小于或等于预设距离阈值的第一轨迹点；若是，则确定所述待分析轨迹点为所述第二轨迹序列的细节相似点；若否，则执行下一步骤；

从所述第二轨迹序列中的第一区间中选取时间戳最大的轨迹点作为第二轨迹点，从所述第二轨迹序列中的第二区间中选取时间戳最小的轨迹点作为第三轨迹点；其中，所述第一区间内的轨迹点的时间戳均小于或等于所述待分析轨迹点的时间戳，所述第二区间内的轨迹点的时间戳均大于或等于所述待分析轨迹点的时间戳；

分别将所述第二轨迹点和所述第三轨迹点中，与所述待分析轨迹点之间的地点距离较小和较大的点，设为距离较小点和距离较大点；

按照时间戳先后顺序，将所述距离较小点和所述待分析轨迹点连接为第一向量，并将所述距离较小点和距离较大点连接为第二向量；

判断所述第一向量与所述第二向量之间的夹角是否大于或等于第一预设夹角阈值且小于或等于第二预设夹角阈值；若是，则进入下一步骤；若否，则判定所述待分析轨迹点不是所述第二轨迹序列的细节相似点；

判断所述待分析轨迹点到所述第二向量的垂直距离是否小于或等于预设垂直距离阈值；若是，则判定所述待分析轨迹点是所述第二轨迹序列的细节相似点；若否，则判定所述待分析轨迹点不是所述第二轨迹序列的细节相似点。

作为上述方案的改进，在所述对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度之后，还包括步骤：

对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度权重和整体相似度权重；其中，所述整体相似度权重等于1与所述细节相似度权重之差；

其中，通过以下方式计算两个轨迹序列之间的细节相似度权重：

获取两个轨迹序列对应的细节相似点序列中的最大时间戳和最小时间戳；

获取所述两个轨迹序列中的最大时间戳和最小时间戳；

计算所述两个轨迹序列对应的细节相似点序列中的最大时间戳和最小时间戳之差与所述两个轨迹序列中的最大时间戳和最小时间戳之差的比值，并将计算得到的比值作为两个轨迹序列之间的细节相似度权重。

作为上述方案的改进，所述对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的整体相似度，具体包括：

对于所述每个系统中的每个轨迹序列，对其进行轨迹压缩，得到其对应的压缩轨迹序列；

对于所述每个系统中的每个轨迹序列，根据其对应的压缩轨迹序列和其他系统中的每个轨迹序列对应的压缩轨迹序列进行整体相似度计算，并将计算结果作为其与其他系统中的每个轨迹序列之间的整体相似度。

作为上述方案的改进，所述对于所述每个系统中的每个轨迹序列，根据其对应的压缩轨迹序列和其他系统中的每个轨迹序列对应的压缩轨迹序列进行整体相似度计算，并将计算结果作为其与其他系统中的每个轨迹序列之间的整体相似度，具体为：

对于所述每个系统中的每个轨迹序列，通过动态时间规整算法，计算其对应的压缩轨迹序列与其他系统中的每个轨迹序列对应的压缩轨迹序列之间的DTW相似度，并将计算结果作为其与其他系统中的每个轨迹序列之间的整体相似度。

作为上述方案的改进，所述根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联，具体包括：

对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的加权轨迹相似度，判断每个其他系统中是否存在与其相似的轨迹序列，并将判定为与其相似的轨迹序列作为其对应的相似轨迹序列；

根据所述每个系统中的每个轨迹序列对应的相似轨迹序列，确定不同系统间互为相似的轨迹序列；

将所述不同系统间互为相似的轨迹序列的用户身份信息进行关联；

其中，对于所述每个系统中的每个轨迹序列，通过以下方式判断某个系统中是否存在与其相似的轨迹序列：

对于所述每个系统中的每个轨迹序列，获取该系统中与其之间的加权轨迹相似度最高的轨迹序列，以作为候选轨迹序列；

对于所述每个系统中的每个轨迹序列，判断所述候选轨迹序列与其之间的加权轨迹相似度是否大于预设相似度阈值；若是，则判定该系统中的所述候选轨迹序列为与其相似的轨迹序列。

相应地，本发明另一实施例提供了一种基于轨迹相似度的身份关联装置，包括：

轨迹数据获取模块，用于获取每个系统的待分析轨迹数据；

轨迹序列生成模块，用于基于所述每个系统中的各用户身份信息，按照时间顺序排序，对所述每个系统的待分析轨迹数据进行序列化处理，得到所述每个系统中的每个轨迹序列；

细节相似度计算模块，用于对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度；

整体相似度计算模块，用于对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的整体相似度；

加权轨迹相似度计算模块，用于对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的细节相似度、整体相似度、细节相似度权重和整体相似度权重进行加权计算，得到其与其他系统中的每个轨迹序列之间的加权轨迹相似度；

用户身份信息关联模块，用于根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联。

本发明另一实施例提供了一种基于轨迹相似度的身份关联设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上任意一项所述的基于轨迹相似度的身份关联方法。

本发明另一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的基于轨迹相似度的身份关联方法。

与现有技术相比，本发明实施例提供的一种基于轨迹相似度的身份关联方法、装置、设备及存储介质，首先基于每个系统中的各用户身份信息，按照时间顺序排序，将获取到的每个系统的待分析轨迹数据进行序列化处理，得到所述每个系统中的每个轨迹序列，再计算所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的细节相似度和整体相似度，接着对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的细节相似度、整体相似度、细节相似度权重和整体相似度权重进行加权计算，得到其与其他系统中的每个轨迹序列之间的加权轨迹相似度，然后根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联。本发明实施例在进行身份关联的过程中，由于是通过结合细节相似度和整体相似度来进行轨迹间的相似程度比较，增加了不同轨迹间的细节相似度对轨迹相似度的影响，能够区分出轨迹间的细节冲突，提高轨迹间的区分度，能够在最大限度的利用不同系统已有的信息进行精确匹配，在现有信息的基础上局部保证轨迹之间的匹配正确性，以保证不同系统间互为相似的轨迹识别的准确性，从而准确地将不同系统间互为相似的轨迹对应的身份信息进行关联。

附图说明

图1是本发明一实施例提供的一种基于轨迹相似度的身份关联方法的流程示意图。

图2(a)是本发明一实施例提供的第一向量和第二向量的示意图。

图2(b)是本发明另一实施例提供的第一向量和第二向量的示意图。

图3(a)是本发明一实施例提供的轨迹序列压缩过程的第一示意图。

图3(b)是本发明一实施例提供的轨迹序列压缩过程的第二示意图。

图3(c)是本发明一实施例提供的轨迹序列压缩过程的第三示意图。

图4是本发明一实施例提供的一种基于轨迹相似度的身份关联装置的结构示意图。

图5是本发明一实施例提供的一种基于轨迹相似度的身份关联设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种基于轨迹相似度的身份关联方法的流程示意图。

本发明实施例提供的基于轨迹相似度的身份关联方法，包括步骤S11至步骤S16，具体如下：

S11、获取每个系统的待分析轨迹数据。

其中，可以是通过直接从各系统中读入原始轨迹数据文件，从而获得每个系统的待分析轨迹数据，也可以是通过从各系统中读入原始轨迹数据文件后，按指定筛选条件(时间范围、区域范围等)过滤出准备要分析的轨迹数据，从而获得每个系统的待分析轨迹数据。

S12、基于所述每个系统中的各用户身份信息，按照时间顺序排序，对所述每个系统的待分析轨迹数据进行序列化处理，得到所述每个系统中的每个轨迹序列。

其中，对各系统的待分析轨迹数据，根据各系统的各用户身份信息，分别按时间顺序排序进行序列化处理，从而得到各系统中的每个轨迹序列。可以理解的，每个系统中的每个轨迹序列与该系统中的用户身份信息对应。

需要说明的是，每一轨迹序列的单位元素为(地点，时间戳)，地点由纬度、经度组成，例如，轨迹序列S_i中的单位元素为(p_ij,t_ij)，分别指的是轨迹序列S_i的第j个地点的(地点，时间戳)，地点p_ij由纬度、经度(lat_ij,lon_ij)组成。其中，各系统的轨迹序列集合可以是记为S，轨迹序列的数量n记为|S|。

S13、对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度。

其中，对于每个系统中的每个轨迹序列，计算该轨迹序列与除其所属系统之外的其他系统中的每个轨迹序列之间的细节相似度。可以理解的，两个轨迹序列之间的细节相似度，即为该两个轨迹序列之间的相对占比较小却有着丰富信息的细节部分的相似程度。在具体实施时，可以是提取每个系统中的每个轨迹序列的细节特征信息，再根据每个系统中的每个轨迹序列的细节特征信息计算其与其他系统中的每个轨迹序列之间的细节相似度。细节相似度的计算方法有多种，例如欧几里得距离、曼哈顿距离、明可夫斯基距离、余弦相似度或皮尔森相关系数等方法，在此不做限定。

S14、对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的整体相似度。

其中，对于每个系统中的每个轨迹序列，计算该轨迹序列与除其所属系统之外的其他系统中的每个轨迹序列之间的整体相似度。可以理解的，两个轨迹序列之间的整体相似度，即为该两个轨迹序列的整体趋势之间的相似程度。整体相似度的计算方法，具体可以是SPD算法或DTW算法,也可以是其他轨迹计算方法,这里不做限定。

S15、对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的细节相似度、整体相似度、细节相似度权重和整体相似度权重进行加权计算，得到其与其他系统中的每个轨迹序列之间的加权轨迹相似度。

其中，在计算加权轨迹相似度的过程中，通过对权重的控制，能够扩大本实施例的适用场景。例如，在采样数据条件良好的情况下，也即采样点还原轨迹性能较高的时候，加大细节相似度权重，能够尽可能利用已有数据保证准确率。又例如，在采样条件差异较大的情况下，加大整体相似度权重，从而在获取已知活动点相似的前提下，避免局部细节高相似导致的相似度误判，寻找更准确的轨迹。

具体的，计算两个轨迹序列之间的加权轨迹相似度的公式具体为：

Similarity(S_i,S_j)＝ρ×Point_Sim+(1-ρ)×DTW_S

其中，Similarity(S_i,S_j)表示第一个轨迹序列S_i和第二个轨迹序列S_j之间的加权轨迹相似度，ρ表示细节相似度权重，Point_Sim表示所述第一个轨迹序列S_i和所述第二个轨迹序列S_j之间的细节相似度，(1-ρ)表示整体相似度权重，DTW_S表示所述第一个轨迹序列S_i和所述第二个轨迹序列S_j之间的整体相似度。

需要说明的是，在具体实施时，细节相似度权重ρ可以是根据实际情况进行设置，在此不作限定，总体原则为在系统采样点还原度高的情况下，加大细节相似度权重，尽可能保留已有可知数据的信息，在系统采样点还原度低的情况下，提升DTW相似度的权重，降低不同系统轨迹因为局部的细节相似度的误导，提升轨迹相似度的准确率。

S16、根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联。

其中，对于每个系统中的每个轨迹序列，根据该轨迹序列与除其所属系统外的其他系统中的每个轨迹序列之间的加权轨迹相似度，在每个其他系统中查找与该轨迹序列互为相似的轨迹序列，可以理解的，互为相似的轨迹序列对应的不同系统用户为相同物理对象，在完成对所有系统中的所有轨迹序列的互为相似的轨迹序列查找后，将查找到的不同系统间互为相似的轨迹序列的用户身份信息进行关联，从而实现多系统身份关联。

本发明实施例在进行身份关联的过程中，通过结合细节相似度和整体相似度来进行轨迹间的相似程度比较，增加了不同轨迹间的细节相似度对轨迹相似度的影响，能够区分出轨迹间的细节冲突，提高轨迹间的区分度，能够在最大限度的利用不同系统已有的信息进行精确匹配，在现有信息的基础上局部保证轨迹之间的匹配正确性，以保证不同系统间互为相似的轨迹识别的准确性，从而准确地将不同系统间互为相似的轨迹对应的身份信息进行关联。

作为一个可选实施例，通过以下方式计算两个轨迹序列之间的细节相似度：

S131、检测两个轨迹序列的轨迹长度，并将所述两个轨迹序列中轨迹长度较短的轨迹序列设为第一轨迹序列，轨迹长度较长的轨迹序列设为第二轨迹序列。

S132、通过判断所述第一轨迹序列中的每一轨迹点是否为所述第二轨迹序列的细节相似点，得到所述两个轨迹序列对应的细节相似点序列。

其中，判断第一轨迹序列中的每一轨迹点是否为第二轨迹序列的细节相似点的方法有多种，例如根据欧几里得距离、曼哈顿距离、明可夫斯基距离、余弦相似度进行判断，在此不做限定。

S133、根据所述第一轨迹序列中的轨迹点个数和所述细节相似点序列中的细节相似点个数进行计算，得到所述第一轨迹序列和所述第二轨迹序列之间的细节相似度。

其中，计算两个轨迹序列之间的细节相似度的公式具体为：

其中，Point_Sim表示两个轨迹序列之间的细节相似度，Point_Sum表示两个轨迹序列对应的细节相似点序列中的细节相似点个数，n表示第一轨迹序列中的轨迹点个数。

进一步地，通过以下方式判断所述第一轨迹序列中的某个轨迹点是否为所述第二轨迹序列的细节相似点：

S1321、将所述第一轨迹序列中的该轨迹点作为待分析轨迹点，判断所述第二轨迹序列中是否存在与所述待分析轨迹点的时间戳之差的绝对值小于或等于预设时间阈值，且与所述待分析轨迹点之间的地点距离小于或等于预设距离阈值的第一轨迹点；若是，则确定所述待分析轨迹点为所述第二轨迹序列的细节相似点；若否，则执行下一步骤。

其中，作为举例，设两个轨迹序列分别为S_i和S_j，两个轨迹序列中轨迹长度较短的轨迹序列S_i为第一轨迹序列，轨迹长度较长的轨迹序列S_j为第二轨迹序列。在判断第一轨迹序列S_i中的某个轨迹点(p_ik,t_ik)是否为第二轨迹序列S_j的细节相似点时，首先将第一轨迹序列S_i中的该轨迹点(p_ik,t_ik)作为待分析轨迹点，再判断第二轨迹序列中是否存在第一轨迹点(p_jm,t_jm),使得|t_ik-t_jm|≤α且d(p_ik,p_jm)≤β，如果是，则确定待分析轨迹点(p_ik,t_ik)为第二轨迹序列S_j的细节相似点，否则，则执行下一步骤S1322。需要说明的是，α为预设时间阈值，表示的是接受系统采样误差认为同一时间的时间阈值，β为预设距离阈值，表示的是接受系统采样误差认为同一个地点的距离阈值，d(p_ik,p_jm)表示待分析轨迹点(p_ik,t_ik)和第一轨迹点(p_jm,t_jm)的距离。

S1322、从所述第二轨迹序列中的第一区间中选取时间戳最大的轨迹点作为第二轨迹点，从所述第二轨迹序列中的第二区间中选取时间戳最小的轨迹点作为第三轨迹点；其中，所述第一区间内的轨迹点的时间戳均小于或等于所述待分析轨迹点的时间戳，所述第二区间内的轨迹点的时间戳均大于或等于所述待分析轨迹点的时间戳。

作为举例，在第二轨迹序列S_j中不存在上述的第一轨迹点时，则在第二轨迹序列S_j中找出时间上最小覆盖待分析轨迹点(o_ik,t_ik)的第二轨迹点(p_ju,t_ju)和第三轨迹点(p_jv,t_jv)，其中，时间上最小覆盖指的是，t_ju≤t_ik≤t_jv，并且，

S1323、分别将所述第二轨迹点和所述第三轨迹点中，与所述待分析轨迹点之间的地点距离较小和较大的点，设为距离较小点和距离较大点。

作为举例，分别计算第二轨迹点(p_ju,t_ju)、第三轨迹点(p_jv,t_jv)与待分析轨迹点(p_ik,t_ik)的地点距离，不失一般性，假设第二轨迹点(p_ju,t_ju)离待分析轨迹点(p_ik,t_ik)更近，则将第二轨迹点(p_ju,t_ju)设为距离较小点，第三轨迹点(p_jv,t_jv)设为距离较大点。

S1324、按照时间戳先后顺序，将所述距离较小点和所述待分析轨迹点连接为第一向量，并将所述距离较小点和距离较大点连接为第二向量。

以第二轨迹点(p_ju,t_ju)为距离较小点，第三轨迹点(p_jv,t_jv)为距离较大点为例，按时间顺序连接第一向量

和第二向量/>

示意图可参考图2(a)。作为另一个例子，当第三轨迹点(p_jv,t_jv)离待分析轨迹点(p_ik,t_ik)更近时，按时间顺序连接第一向量/>

和第二向量/>

示意图可参考图2(b)。

S1325、判断所述第一向量与所述第二向量之间的夹角是否大于或等于第一预设夹角阈值且小于或等于第二预设夹角阈值；若是，则进入下一步骤；若否，则判定所述待分析轨迹点不是所述第二轨迹序列的细节相似点。

以第二轨迹点(p_ju,t_ju)为距离较小点，第三轨迹点(p_jv,t_jv)为距离较大点为例，计算向量

与向量/>

的夹角的公式如下：

其中，

表示向量/>

的模，cos^-1表示反余弦函数。设第一预设夹角阈值为0，若夹角0≤θ≤θ_threshold，则认为两个轨迹同方向移动，此时进入下一步骤S1326，否则，则判定待分析轨迹点(p_ik,t_ik)不是第二轨迹序列的细节相似点。需要说明的是，θ_threshold为第二预设夹角阈值，表示认为两个轨迹同方向移动偏差可接受的最大夹角，第二预设夹角阈值一般不超过90°，在具体实施时可以是根据实际情况进行设定，在此不做限定。

S1326、判断所述待分析轨迹点到所述第二向量的垂直距离是否小于或等于预设垂直距离阈值；若是，则判定所述待分析轨迹点是所述第二轨迹序列的细节相似点；若否，则判定所述待分析轨迹点不是所述第二轨迹序列的细节相似点。

以第二轨迹点(p_ju,t_ju)为距离较小点，第三轨迹点(p_jv,t_jv)为距离较大点为例，计算待分析轨迹点(p_ik,t_ik)到第二向量

的垂直距离d，当d≤d_threshold时，则认为第一轨迹序列S_i和第二轨迹序列S_j在待分析轨迹点(p_ik,t_ik)相似，判定待分析轨迹点(p_ik,t_ik)是第二轨迹序列S_j的细节相似点，否则，则判定待分析轨迹点(p_ik,t_ik)不是第二轨迹序列S_j的细节相似点。需要说明的是，其中d_threshold为预设垂直距离阈值，表示认为两个轨迹同方向移动可接受的最大垂直距离偏差，在具体实施时可以是根据实际情况进行设定，在此不做限定。

在计算轨迹细节相似度的过程中，由于各系统的采样方式不同，采样的时间密度、距离密度均有不同程度的差异，导致对于同一个物理对象的不同系统轨迹，有些点在一条轨迹中出现而在另外一条轨迹可能没有，或者采样技术的问题导致经纬度、时间上的偏差，这都给轨迹细节相似度的计算带来困难。本实施例在轨迹细节相似度计算方面，在采用时间阈值和距离阈值判断细节相似点方法的基础上，引用了结合夹角阈值判断方向和距离阈值判断距离偏差的方法，在采样产生遗漏或者偏差的情况下，对不同系统轨迹产生一定程度的包容性，能够提高细节相似度的准确性，进而提高轨迹相似判断的准确性，从而提高身份关联的准确性。

进一步地，在所述步骤S13之后、所述步骤S15之前，还包括步骤：

S13'、对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度权重和整体相似度权重；其中，所述整体相似度权重等于1与所述细节相似度权重之差；

获取所述两个轨迹序列中的最大时间戳和最小时间戳；

需要说明的是，对于每个系统中的每个轨迹序列，在计算得到其与其他系统中的每个轨迹序列之间的细节相似度之后，已经分别得到了其和其他系统中的每个轨迹序列对应的细节相似点序列。设两个轨迹序列分别为S_i和S_j，求出两个轨迹序列S_i和S_j对应的细节相似点序列path中的最大时间

和最小时间/>

两个轨迹序列S_i和S_j中最大时间t^max和最小时间t^min，则细节相似度权重/>

作为一个可选实施例，所述步骤S14，具体包括：

S141、对于所述每个系统中的每个轨迹序列，对其进行轨迹压缩，得到其对应的压缩轨迹序列。

其中，轨迹压缩的方法有多种，例如Douglas-Peucker算法和Sliding Windo w算法等，在具体实施时可以是根据实际情况进行选用，在此不做限定。

S142、对于所述每个系统中的每个轨迹序列，根据其对应的压缩轨迹序列和其他系统中的每个轨迹序列对应的压缩轨迹序列进行整体相似度计算，并将计算结果作为其与其他系统中的每个轨迹序列之间的整体相似度。

其中，在对每个系统的每个轨迹序列进行轨迹压缩后，再根据每个系统的每个轨迹序列对应的压缩轨迹序列进行整体相似度计算，从而得到每个系统的每个轨迹序列与其他系统中的每个轨迹序列之间的整体相似度。

进一步地，所述步骤S142具体为：

其中，对于每个系统中的每个轨迹序列，可以是先通过动态时间规整算法，计算其对应的压缩轨迹序列与其他系统中的每个轨迹序列对应的压缩轨迹序列之间的DTW距离，由于DTW距离越大表示两个轨迹整体相似度越小，与常规的相似度正好相反，因此，再做一个公式转换使计算得到的DTW距离映射到(0,1]区间内，从而转换为DTW相似度，转换得到的DTW相似度即为其与其他系统中的每个轨迹序列之间的整体相似度。

具体的，对于两个压缩轨迹序列S′_i和S′_j，通过动态时间规整算法计算其之间的DTW距离的公式如下：

其中，p_i1表示轨迹S′_i第一个地点，p_j1表示轨迹S′_j第一个地点，S′_i[-1]表示轨迹S′_i删除最后一个元素之后的轨迹序列，S′_j[-1]表示轨迹S′_j删除最后一个元素之后的轨迹序列，p_il表示轨迹S′_i最后一个地点，p_jl表示轨迹S′_j最后一个地点，d(p_il,p_jl)表示两个地点的距离，|S′_i|表示轨迹S′_i的长度(即轨迹点的个数)，|S′_j|表示轨迹S′_j的长度(即轨迹点的个数)。

具体的，对于两个压缩轨迹序列S′_i和S′_j，DTW距离转换为DTW相似度的公式如下：

其中，DTW_S值越大表示两个压缩轨迹序列S′_i和S′_j的整体相似程度越高。其中R是阈值，表示DTW距离可接受的程度。当DTW距离与R相等的时候，DTW相似度DTW_S等于0.5；当DTW距离等于0时，DTW_S等于1，表示DTW相似度为100％，两个轨迹极其相似；当DTW距离趋于无穷大时，DTW_S趋于0，表示DTW相似度为0。

需要说明的是，本步骤的轨迹压缩方法采用Douglas-Peucker算法，更倾向保留原轨迹的整体轮廓，从而使得通过动态时间规整算法计算整体相似度的结果更贴合实际。

具体的，采用Douglas-Peucker算法对轨迹序列S_i进行轨迹压缩的步骤如下：

(1)轨迹S_i首尾两个点连线，计算轨迹S_i上每个点到这条连线的垂直距离，选择垂直距离最大的点p′₁。

(2)比较p′₁对应的垂直距离d′₁与距离阈值δ(δ≥0)。当d′₁≥δ时，p′₁为保留点，p′₁将轨迹S_i分为两段轨迹

和/>

当d′₁<δ时，p′₁为可去除点，轨迹S_i压缩结束。

(3)对分段后的轨迹S_{i_1}和S_{i_2}分别进行步骤(1)和步骤(2)，直到所有分段压缩结束后进入步骤(4)。

(4)将所有保留点以及轨迹S_i的起点、终点所组成的点集，按时间顺序重新排序即为轨迹S_i主要路径S′_i，S′_i即为轨迹序列S_i对应的压缩轨迹序列。

需要说明的是，在对该算法步骤(2)中分段后两个轨迹进行并行计算，可以大大降低所需耗时提升计算效率。

作为举例，对轨迹序列S_i进行轨迹压缩的过程可以是参见图3(a)-图3(c)。如图3(a)所示，找出与轨迹序列S_i中p_i1p_i8连线垂直距离最大的点p_i3且该距离大于等于阈值δ，所以点p_i3为保留点；接着，如图3(b)所示，分别找出与p_i1p_i3连线垂直距离最大的点p_i2，与p_i3p_i8连线垂直距离最大的点p_i5，但只有点p_i5对应的垂直距离大于等于阈值δ，所以点p_i5为保留点；然后，如图3(c)所示，分别找出与p_i3p_i5连线垂直距离最大的点p_i4，与p_i5p_i8连线垂直距离最大的点p_i7，但它们都小于距离阈值δ，所以它们都不是保留点，最终轨迹序列S_i的轨迹压缩结果为p_i1p_i3p_i5p_i8。

需要说明的是，因各系统的轨迹数据采样方式不同，数据采样的时间密度、距离密度不完全相同，甚至差别很大，有一些采样点在一个系统中出现，在另外一个系统可能漏采样或者偏差采样，这些活动点都会变成整体相似度计算中的干扰点，使得整体相似度的计算结果有偏差，尤其一些采样点稀疏的采样渠道，如宾馆住宿活动点、信用卡消费点、固定卡口收集活动点等，上述情况更甚。在本实施例中，通过对轨迹序列进行压缩，在保持轨迹整体趋势的基础上，去除轨迹分支上的活动点，提取了轨迹序列的主要路径，勾画出轨迹序列的主要轮廓，在一定程度上降低了不同系统采样条件不同产生的采样点密度不同产生的影响，精简了轨迹趋势，同时降低干扰点对不同系统轨迹序列之间比较的影响，更有利于发现两个轨迹整体的相似程度，从而提高身份关联的准确度，并且，减少了轨迹序列的长度，能够大大降低不同系统轨迹序列之间的整体相似度计算量，从而提升身份关联效率。

作为一个可选实施例，所述步骤S16具体包括：

S161、对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的加权轨迹相似度，判断每个其他系统中是否存在与其相似的轨迹序列，并将判定为与其相似的轨迹序列作为其对应的相似轨迹序列；

S162、根据所述每个系统中的每个轨迹序列对应的相似轨迹序列，确定不同系统间互为相似的轨迹序列；

S163、将所述不同系统间互为相似的轨迹序列的用户身份信息进行关联；

S1611、对于所述每个系统中的每个轨迹序列，获取该系统中与其之间的加权轨迹相似度最高的轨迹序列，以作为候选轨迹序列；

S1612、对于所述每个系统中的每个轨迹序列，判断所述候选轨迹序列与其之间的加权轨迹相似度是否大于预设相似度阈值；若是，则判定该系统中的所述候选轨迹序列为与其相似的轨迹序列。

在本实施例中，通过将各系统中各轨迹序列之间的加权轨迹相似度进行不同系统的交叉计算，分别记录每个轨迹序列在其他系统中加权轨迹相似度最高且高于可接受的最小相似度阈值的相似轨迹序列，对于两个不同系统中的轨迹序列，如果两个系统中交叉验证之后，相似轨迹序列都为彼此，则认为这两个不同系统中的轨迹序列的用户身份信息为相同物理对象，将这两个不同系统中的轨迹序列的用户身份信息进行关联。比方说，对于系统A，其中一个轨迹序列为a，它在系统B中加权轨迹相似度最高且高于预设相似度阈值的相似轨迹序列为b，而对于系统B中的轨迹序列b，它在系统A中相似度最高且高于预设相似度阈值的相似轨迹序列为a，此时轨迹序列a和b在系统A和B交叉计算后相似度都是彼此最高，且相似度高于可接受的预设相似度阈值，则认为这两个轨迹序列是系统A和系统B间互为相似的轨迹序列，这两个轨迹序列对应的系统的用户身份信息为相同物理对象，将其进行关联。

参见图4，是本发明一实施例提供的一种基于轨迹相似度的身份关联装置的结构示意图。

本发明实施例提供的基于轨迹相似度的身份关联装置，包括：

轨迹数据获取模块21，用于获取每个系统的待分析轨迹数据；

轨迹序列生成模块22，用于基于所述每个系统中的各用户身份信息，按照时间顺序排序，对所述每个系统的待分析轨迹数据进行序列化处理，得到所述每个系统中的每个轨迹序列；

细节相似度计算模块23，用于对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度；

整体相似度计算模块24，用于对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的整体相似度；

加权轨迹相似度计算模块25，用于对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的细节相似度、整体相似度、细节相似度权重和整体相似度权重进行加权计算，得到其与其他系统中的每个轨迹序列之间的加权轨迹相似度；

用户身份信息关联模块26，用于根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联。

该基于轨迹相似度的身份关联装置实现身份关联的原理与上述方法实施例相同，在此不再赘述。

本发明实施例在进行身份关联的过程中，由于是通过结合细节相似度和整体相似度来进行轨迹间的相似程度比较，增加了不同轨迹间的细节相似度对轨迹相似度的影响，能够区分出轨迹间的细节冲突，提高轨迹间的区分度，能够在最大限度的利用不同系统已有的信息进行精确匹配，在现有信息的基础上局部保证轨迹之间的匹配正确性，以保证不同系统间互为相似的轨迹识别的准确性，从而准确地将不同系统间互为相似的轨迹对应的身份信息进行关联。

作为其中一个可选实施例，通过以下方式计算两个轨迹序列之间的细节相似度：

作为其中一个可选实施例，所述基于轨迹相似度的身份关联装置还包括：

权重计算模块，用于对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度权重和整体相似度权重；其中，所述整体相似度权重等于1与所述细节相似度权重之差；

获取所述两个轨迹序列中的最大时间戳和最小时间戳；

作为其中一个可选实施例，所述整体相似度计算模块具体包括：

轨迹序列压缩单元，用于对于所述每个系统中的每个轨迹序列，对其进行轨迹压缩，得到其对应的压缩轨迹序列；

相似度计算单元，用于对于所述每个系统中的每个轨迹序列，根据其对应的压缩轨迹序列和其他系统中的每个轨迹序列对应的压缩轨迹序列进行整体相似度计算，并将计算结果作为其与其他系统中的每个轨迹序列之间的整体相似度。

进一步地，所述相似度计算单元具体用于：

作为其中一个可选实施例，所述用户身份信息关联模块具体包括：

第一确定单元，用于对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的加权轨迹相似度，判断每个其他系统中是否存在与其相似的轨迹序列，并将判定为与其相似的轨迹序列作为其对应的相似轨迹序列；

第二确定单元，用于根据所述每个系统中的每个轨迹序列对应的相似轨迹序列，确定不同系统间互为相似的轨迹序列；

身份关联单元，用于将所述不同系统间互为相似的轨迹序列的用户身份信息进行关联；

参见图5，是本发明一实施例提供的一种基于轨迹相似度的身份关联设备的结构示意图。

本发明实施例提供的一种基于轨迹相似度的身份关联设备，包括处理器31、存储器32以及存储在所述存储器32中且被配置为由所述处理器31执行的计算机程序，所述处理器31执行所述计算机程序时实现如上任一实施例所述的基于轨迹相似度的身份关联方法。

另外，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任一实施例所述的基于轨迹相似度的身份关联方法。

所述处理器31执行所述计算机程序时实现上述基于轨迹相似度的身份关联方法实施例中的步骤，例如图1所示的基于轨迹相似度的身份关联方法的所有步骤。或者，所述处理器31执行所述计算机程序时实现上述基于轨迹相似度的身份关联装置实施例中各模块/单元的功能，例如图4所示的基于轨迹相似度的身份关联装置的各模块的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器32中，并由所述处理器31执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于轨迹相似度的身份关联设备中的执行过程。例如，所述计算机程序可以被分割成轨迹数据获取模块、轨迹序列生成模块、细节相似度计算模块、整体相似度计算模块、加权轨迹相似度计算模块和用户身份信息关联模块，各模块具体功能如下：轨迹数据获取模块，用于获取每个系统的待分析轨迹数据；轨迹序列生成模块，用于基于所述每个系统中的各用户身份信息，按照时间顺序排序，对所述每个系统的待分析轨迹数据进行序列化处理，得到所述每个系统中的每个轨迹序列；细节相似度计算模块，用于对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度；整体相似度计算模块，用于对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的整体相似度；加权轨迹相似度计算模块，用于对于所述每个系统中的每个轨迹序列，根据其与其他系统中的每个轨迹序列之间的细节相似度、整体相似度、细节相似度权重和整体相似度权重进行加权计算，得到其与其他系统中的每个轨迹序列之间的加权轨迹相似度；用户身份信息关联模块，用于根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联。

所述基于轨迹相似度的身份关联设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于轨迹相似度的身份关联设备可包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，所述示意图仅仅是基于轨迹相似度的身份关联设备的示例，并不构成对基于轨迹相似度的身份关联设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于轨迹相似度的身份关联设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器31是所述基于轨迹相似度的身份关联设备的控制中心，利用各种接口和线路连接整个基于轨迹相似度的身份关联设备的各个部分。

所述存储器32可用于存储所述计算机程序和/或模块，所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块，以及调用存储在存储器32内的数据，实现所述基于轨迹相似度的身份关联设备的各种功能。所述存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据基于轨迹相似度的身份关联设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于轨迹相似度的身份关联设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于轨迹相似度的身份关联方法，其特征在于，包括：

获取每个系统的待分析轨迹数据；

根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联；

通过以下方式计算两个轨迹序列之间的细节相似度：

根据所述第一轨迹序列中的轨迹点个数和所述细节相似点序列中的细节相似点个数进行计算，得到所述第一轨迹序列和所述第二轨迹序列之间的细节相似度；

所述对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的整体相似度，具体包括：

2.如权利要求1所述的基于轨迹相似度的身份关联方法，其特征在于，通过以下方式判断所述第一轨迹序列中的某个轨迹点是否为所述第二轨迹序列的细节相似点：

3.如权利要求1所述的基于轨迹相似度的身份关联方法，其特征在于，在所述对于所述每个系统中的每个轨迹序列，计算其与其他系统中的每个轨迹序列之间的细节相似度之后，还包括步骤：

获取所述两个轨迹序列中的最大时间戳和最小时间戳；

4.如权利要求1所述的基于轨迹相似度的身份关联方法，其特征在于，所述对于所述每个系统中的每个轨迹序列，根据其对应的压缩轨迹序列和其他系统中的每个轨迹序列对应的压缩轨迹序列进行整体相似度计算，并将计算结果作为其与其他系统中的每个轨迹序列之间的整体相似度，具体为：

5.如权利要求1所述的基于轨迹相似度的身份关联方法，其特征在于，所述根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联，具体包括：

6.一种基于轨迹相似度的身份关联装置，其特征在于，包括：

轨迹数据获取模块，用于获取每个系统的待分析轨迹数据；

用户身份信息关联模块，用于根据所述每个系统中的每个轨迹序列与其他系统中的每个轨迹序列之间的加权轨迹相似度，将不同系统间互为相似的轨迹序列的用户身份信息进行关联；

通过以下方式计算两个轨迹序列之间的细节相似度：

所述整体相似度计算模块具体包括：

7.一种基于轨迹相似度的身份关联设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任意一项所述的基于轨迹相似度的身份关联方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-5中任意一项所述的基于轨迹相似度的身份关联方法。