CN111309977A

CN111309977A - 一种id时空轨迹匹配方法及装置

Info

Publication number: CN111309977A
Application number: CN202010112614.4A
Authority: CN
Inventors: 梁秀钦; 周紫昊; 林晓明; 罗华刚; 周广一; 王俊威; 李迪民; 陈栋; 齐云飞
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-19

Abstract

本发明提供了一种ID时空轨迹匹配方法及装置，该方法包括：通过采集器采集不同类型的第一ID数据和第二ID数据；将所述数据记录按相同采集地点和日期进行分组，将所述数据记录按相同数据类型分组并转换为哈希表；在所述哈希表中遍历各地点日期组，对于同一地点日期组，如果两条数据记录采集时间区间相同或相邻，则保存为预选的ID配对；遍历各预选的ID配对，对于每个预选的ID配对，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据，并按时间顺序分别合并两组轨迹数据；计算两组轨迹相似度，将轨迹相似度高于阈值的预选ID配对确定为匹配。

Description

一种ID时空轨迹匹配方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种ID时空轨迹匹配方法及装置。

背景技术

随着各种信息采集技术的快速发展，在多个固定地点可以采集到周边的多种大规模ID数据，如车牌号、手机IMSI、手机MAC地址等。通过多地大量部署采集器，可以得到相同ID在多个采集器部署地点间的时空轨迹(定点轨迹)。轨迹数据是轨迹点的序列，轨迹点是ID在某一采集器旁出现的记录，它由采集器的编号和ID的出现时间戳组成，每个采集器对应一组经纬度坐标。通过衡量不同种类的ID的定点轨迹相似度，可以设定相似度阈值以判别多种ID是否属于同一人。这对于建立个人ID数据库有很大帮助。

现有轨迹相似度衡量方法主要分为空间相似度(Spatial SimilaritV)衡量方法和时空相似度(Spatio-Temporal Similarity)衡量方法。其中空间相似度衡量方法完全不考虑轨迹点出现的时序，因此无法被使用于匹配定点轨迹。时空相似度则考虑了轨迹点出现的时序。具有代表性的时空相似度衡量是动态时间规整(Dynamic Time Wraping，DTW)距离，它通过在不调换轨迹点次序的情况下任意拉伸/压缩时间尺度来匹配距离最短的轨迹点，最终求得两个轨迹的距离。然而，该法并不利用轨迹的时间戳信息。除DTW以外，不利用轨迹的时间戳信息的衡量还有实补偿编辑距离(Edit distance with Real Penalty，ERP)、实序列编辑距离(Edit Distance on Real Sequence，EDR)、最长公共子序列(Longest Common Subsequences，LCSS)等。很少有衡量利用时间戳信息，知识范围内只有时间规整编辑距离(Time Wrap Edit Distance，TWED)它将匹配两条轨迹所需拉伸/压缩时间尺度的量也作为轨迹相似度的参考。

然而，定点轨迹数据与常见的轨迹数据(即GPS/AP/基站定位轨迹)有很大的区别。常见的轨迹数据的数据量大，有地点噪音，相邻记录时间等间隔或接近等间隔。而定点轨迹单个ID数据量稀少，不存在地点噪音，同时相邻记录时间差从几秒到几小时不等，记录时间本身也有较大的误差。而且判别多种ID是否属于同一人所需要的衡量标准和普通的相似度衡量标准也有很大的区别，这导致在根据定点轨迹匹配ID的任务中，现有的相似度衡量方法表现不佳。

发明内容

本发明实施例提供了一种ID时空轨迹匹配方法及装置，以至少解决相关技术中在定点轨迹匹配ID的任务中，现有的相似度衡量方法表现不佳的问题。

根据本发明的一个实施例，提供了一种ID时空轨迹匹配方法，包括：通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据，其中，所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳；将所述数据记录按相同采集地点和日期进行分组，以及将所述数据记录按相同数据类型分组，并转换为哈希表；在所述哈希表中遍历各地点日期组，对于同一地点日期组，如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻，则将所述第一ID数据和所述第二ID数据保存为预选的ID配对；遍历各预选的ID配对，对于每个预选的ID配对，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据，并按时间顺序分别合并两组轨迹数据；计算两组轨迹相似度，将轨迹相似度高于阈值的预选ID配对确定为匹配。

可选地，在遍历各预选的ID配对之前，还可包括：删除重复保存的所述预选的ID配对。

可选地，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据之后，还可包括：判断所述两组轨迹的所有数据是否来源于同一个采集器，如果是，则不计算该两组轨迹的相似度。

可选地，计算两组轨迹相似度之前，还可包括：遍历两组轨迹数据，将时间间隔短于μ_t，距离间隔短于μ_d的轨迹点合并，仅保留首个轨迹点，其中，μ_t为采集器的时间延迟误差范围，μ_d为该时间范围内行人可能触发的两个采集器的最大距离。

可选地，计算两组轨迹相似度包括：根据采集器经纬度信息，计算出每两个采集器位置间的大圆距离并储存为哈希表；根据两点相似度函数计算两组轨迹相似度。

根据本发明的另一个实施例，提供了一种ID时空轨迹匹配装置，包括：采集模块，用于通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据，其中，所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳；分组模块，用于将所述数据记录按相同采集地点和日期进行分组，以及将所述数据记录按相同数据类型分组，并转换为哈希表；第一遍历模块，用于在所述哈希表中遍历各地点日期组，对于同一地点日期组，如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻，则将所述第一ID数据和所述第二ID数据保存为预选的ID配对；轨迹模块，用于遍历各预选的ID配对，对于每个预选的ID配对，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据，并按时间顺序合并两组轨迹数据；确定模块，计算两组轨迹相似度，将轨迹相似度高于阈值的预选ID配对确定为匹配。

可选地，所述装置还可包括：删除模块，用于在遍历各预选的ID配对之前，删除重复保存的预选的ID配对。

可选地，所述装置还包括：判断模块，在获取第一ID数据和第二ID数据对应的轨迹数据之后，判断所述两组轨迹的所有数据是否来源于同一个采集器，如果是，则不计算该两组轨迹的相似度。

可选地，所述装置还包括：第二遍历模块，用于在计算两组轨迹相似度之前，遍历两组轨迹数据，将时间间隔短于μ_t，距离间隔短于μ_d的轨迹点合并，只保留首个轨迹点，其中，μ_t为采集器的时间延迟误差范围，μ_d为该时间范围内行人可能触发的两个采集器的最大距离。

可选地，确定模块还可包括：第一计算单元，用于根据采集器经纬度信息，计算出每两个采集器位置间的大圆距离并储存为哈希表；第二计算单元，用于根据两点相似度函数计算两组轨迹相似度。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明上述实施例的步骤，解决了相关技术中在定点轨迹匹配ID的任务中，现有的相似度衡量方法表现不佳的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的ID时空轨迹匹配方法流程图。

图2是根据本发明实施例的针对在多个固定地点采集的ID时空轨迹的匹配方法流程图；

图3是根据本发明实施例的ID数据记录示意图；

图4是根据本发明实施例的两个ID对应的轨迹数据示意图；

图5是根据本发明实施例的两组ID轨迹数据合并后的示意图；

图6是根据本发明实施例的时间衰减函数示意图；

图7是根据本发明实施例的距离奖惩函数效果示意图；

图8是根据本发明实施例的ID时空轨迹匹配装置结构示意图；

图9是根据本发明可选实施例的ID时空轨迹匹配装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种ID时空轨迹匹配方法，图1是根据本发明实施例的方法流程图，如图1所示，该流程包括如下步骤：

步骤S102，通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据，其中，所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳；

步骤S104，将所述数据记录按相同采集地点和日期进行分组，以及将所述数据记录按相同数据类型分组，并转换为哈希表；

步骤S106，在所述哈希表中遍历各地点日期组，对于同一地点日期组，如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻，则将所述第一ID数据和所述第二ID数据保存为预选的ID配对；

步骤S108，遍历各预选的ID配对，对于每个预选的ID配对，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据，并按时间顺序分别合并两组轨迹数据；

步骤S110，计算两组轨迹相似度，将轨迹相似度高于阈值的预选ID配对确定为匹配。

在本实施例的步骤S106中，在遍历各预选的ID配对之前，删除重复保存的所述预选的ID配对。

在本实施例中的步骤S108中，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据之后，还可包括：判断所述两组轨迹的所有数据是否来源于同一个采集器，如果是，则不计算该两组轨迹的相似度。

在本实施例中的步骤S110中，在计算两组轨迹相似度之前，还可包括：遍历两组轨迹数据，将时间间隔短于μ_t，距离间隔短于μ_d的轨迹点合并，仅保留首个轨迹点，其中，μ_t为采集器的时间延迟误差范围，μ_d为该时间范围内行人可能触发的两个采集器的最大距离。

在本实施例的步骤S110中，计算两组轨迹相似度还可包括：根据采集器经纬度信息，计算出每两个采集器位置间的大圆距离并储存为哈希表；根据两点相似度函数计算两组轨迹相似度。

为了便于对本发明所提供的技术方案的理解，下面通过具体的实施例进行详细描述。

如前文所述，现有技术的轨迹相似度衡量方法用于定点轨迹通常会存在如下问题：

1)时间序列问题

大部分现有技术假设输入的两个轨迹是等间隔时间序列，而定点轨迹不仅不等间隔，而且不可能补足间隔间的缺失位置：只知道轨迹什么时间来到特定位置，不知道轨迹某个时间在什么位置。

以DTW为例，DTW在计算轨迹相似度时会允许任意变化时间尺度。这意味着即使在完全不同的时间，只要按同样顺序访问了一系列位置，DTW仍然会认为两条轨迹完全相同，这是与判别多个ID是否属于同一人的目的相悖的。LCSS、EDR等因为不利用时间戳信息，也无疑存在相同的问题。

2)缺失点(漏检)问题

对噪音鲁棒的现有技术，在知识范围内，都是对于地理位置上的噪音鲁棒。例如LCSS，在求两条轨迹的最长相似部分时会设置一个阈值，只要地理距离小于该阈值就认为是相似的。而在定点轨迹中，地理位置并不是连续空间中的值，而是离散集合(即采集器位置集合)中的值。如果两个采集器的记录是由同一人产生的，那么记录的地理距离就会是0，不存在位置噪音。

相对地，定点轨迹的噪音是缺失点：一个设备来到了多种采集器旁，未必所有采集器都能检出该设备。真正属于同一人的两条时空轨迹，经常会有只有一侧有的点。点未被检出是常态。DTW虽然允许任意变化时间尺度，但仍要求所有点都有配对，因此在出现较远的缺失点时会受很大干扰。许多方法对于常有缺失点的轨迹完全不具备鲁棒性。

另外，实际生活中，同一人可能也会携带不同的手机出门，驾驶不同的汽车，或为手机更换不同的SIM卡(即一段时间内轨迹完全缺失，下称缺失段)。衡量ID定点轨迹的相似度，应该不受个别缺失轨迹点、缺失段影响。

LCSS相对对缺失点鲁棒；在匹配相似部分时，它可以跳过缺失点匹配两条轨迹。但缺失段对于LCSS的影响仍是较严重的，因为每跳过一个点，LCSS便会减少一部分相似度。对EDR来讲，缺失段的影响更加严重，因为为跳过点增加了额外惩罚。

3)重合点问题

上文提出：如果两个采集器的记录是由同一人产生的，那么记录的地理距离就会是0。在判定多种ID是否属于同一人时，有大量完全重合的点是重要的信息。而现有技术相对于距离相近的点，不会特别重视重合点。

4)复检点问题

一个设备如果停留在某个采集器旁，采集器有可能反复检出该设备，得到短时间内ID在同一位置出现的大量记录。编辑距离(Edit Distance)类型的方法，如TWED，对这种轨迹进行相似度判断时，会计算将大量记录删改匹配的代价，产生很大的误差。

鉴于上述现有技术中的不足之处，本发明提供一种针对在多个固定地点采集的ID时空轨迹的匹配方法，克服现有技术对于缺失点、缺失段鲁棒性不足，易受复检点影响及不重视轨迹重合点的问题。

图2示出了一种针对在多个固定地点采集的ID时空轨迹的匹配方法，如图2所示，主要包括如下步骤：

步骤S201，通过各地布置的采集器采集周边两种ID数据。每条记录包含该种类ID、采集器位置号码与时间戳。如图3所示。在本实施例中，两种类型ID下称ID1和ID2。

步骤S202，通过时间戳，计算每条记录对应的日期、小时(如下午6：00～7：00)。

步骤S203，将记录按相同地点和日期分组。另将记录按相同ID分组，转换为哈希表。

步骤S204，遍历各地点日期组。对于同一组，ID1和ID2的两条记录如小时相同或相邻(如一条ID1记录在下午6：00～7：00，一条ID2记录在下午5：00～6：00)，将两个对应ID保存为可能的ID配对。删除重复保存的配对。

步骤S205，遍历各配对。对于每个配对，从哈希表中获取两个ID对应的轨迹数据，如图4所示。如果两组轨迹的所有数据来源于同一个采集器位置，跳过之，不计算其轨迹相似度。

步骤S206，定义参数。μ_t为采集器的时间延迟误差范围(例如，实际可采用1分钟)，μ_d为该时间范围内行人可能触发的两个采集器的最大距离(例如，实际可采用400米)。遍历两组数据，将时间间隔短于μ_t，距离间隔短于μ_d的轨迹点合并，只保留首个轨迹点。

步骤S207，为两组数据添加标签1和2，按时间顺序合并两组数据。合并。如图5所示。

步骤S208，根据采集器经纬度信息，用半正矢公式计算出每两个采集器位置间的大圆距离并储存为哈希表。

步骤S209，对于两个轨迹点x₁＝(d₁，t₁)与x₂＝(d₂，t₂)，定义两点相似度函数为：

△d＝|d₁-d₂|

△t＝|t₁-t₂|

Δd为采集器位置距离(查步骤S208的哈希表获得)，Δt为时间差，

v_b为参数。

步骤S210，根据合并后矩阵

计算轨迹相似度：

步骤S211，定义一个为正的阈值，相似度高于阈值的可能配对为匹配结果。

下面对本实施例中，涉及的一些相关函数和术语的功能和作用进行解释。

两点相似度函数：

上述方法的出发点在于：融合两条轨迹后，在不超过正常误差的短时间内，如果有相同位置的不同种轨迹点，则提高相似度。如果有距离较近(在理解范围内)的不同种轨迹点，则小幅提高相似度。如果有距离极远的不同种轨迹点，大幅降低相似度。

时间衰减函数：时间差越长越无法作为相似度依据，

取-6～inf部分的逻辑斯蒂函数，拉宽x轴使-6映射到0，0映射到2μ_t，则强度在2μ_t时衰减最快，公式为：

以μ_t＝1为例，如图6所示，可以看到在0～μ_t区域内函数接近于1，意味着μ_t内的相似度不会被冲淡，无论是奖励还是惩罚都几乎全盘接受(因为是正常的时间误差范围)。相对而言，在一分钟以上奖惩快速被冲淡，因为距离差已经不是一个很好的判定指标。虽然倾向短时间不移动，不能在中长时间继续倾向于不移动。

距离奖惩函数：重视重合点，惩罚短时间距离变化过大。

取三次函数，向右移动，公式为：

如图7所示，可以看到距离损失函数强烈倾向于ID1、ID2出现在同一位置，会给予较大的奖励。设备稍稍离开，奖励便大幅下降。在接近max(μ_d，v_bΔt)时，只能说这是有可能的，而不给予奖惩。一旦距离差的极大，惩罚便急速增加。

但如果时间拉得比较长，时间损失函数趋近0的速度会比距离惩罚下降的速度更快，两函数之积仍为0。

中值由v_b(背景速度)和μ_d决定。v_b的存在是为了容忍移动过快的状况。例如，如果车一小时出现在了相隔六十公里的地方，那么相隔短短60秒出现在相隔一公里的地方也是可以理解的，中值就会被推高到1000米。如果背景速度过陵、甚至为0，那么中值会被设为μ_d。

轨迹相似度：

轨迹相似度计算时，检测合并后每一串ID种类顺序为[121]，[1221]或[12221]...的记录，计算最左边的一对[12]和最右边的一对[21]的相似度，记入总相似度。然后再检测每一串顺序为[212]，[2112]或[21112]...的记录，计算最左边的一对[21]和最右边的一对[12]的相似度，记入总相似度。这么做是因为：

1.在一定程度上认为相似度是融合两个轨迹后，新轨迹的置信度(出现短时间长距离移动，置信度降低)，相较原两个轨迹的置信度增加或减少的量。

2.合并两条轨迹后，即使[2222]这部分记录出现了不寻常现象，它也属原两个轨迹的置信度，而非新轨迹的置信度。新轨迹的置信度改变基本全部来源于[12]，[21]这样的「转换点」。用实验打比方，属于要计算组间差异而非组内差异。

3.[12221]这样的模式，方便通过最前和最后两条记录间的位置、时间差异看出原轨迹隐含的背景速度，代入奖惩计算。

预处理：

将μ_t(例如，一分钟)之内出现的相同或相近地点合并。不做合并，导致极短时间距离相近的两条记录也被考虑，可能会有以下后果：

慢速行走的行人，首先被一ID1采集器检出，然后被相隔200米的ID1采集器检出。因为第一个采集器延迟，显示为极短时间通过了200米。另一条轨迹在这段时间内有矛盾轨迹点，但因为行人被判定为高速移动，导致过少惩罚。

极短时间距离相近在计算背景速度时会被认为是高速移动，而实际上却很有可能只是延迟或者两个采集器同时检出(一般发生在采集器布置过近情况下)。该预处理也是为降低复检点导致的过度奖励。设定为一分钟(而非更长)是为应对这样的情况：

MAC：1秒检出一次，59秒检出一次

IMSI：59秒检出一次

轨迹本来有重合点，预处理却会删除重合点。但此处即使将MAC的后一次检出删除，因为时间强度函数在一分钟内无甚改变，依然不会影响对于相似点的奖励。

本实施例除解决了前文涉及的问题外，并且还具有其他技术效果，例如，对于时间序列问题，在本实施例中，使用时间戳信息，且不对原序列时间间隔做任何假设。关于缺失点问题，在本实施例中，对于缺失点不增加也不减少相似度。对于重合点问题，在本实施例中，对于相近点(即时间差较短、距离差较近的点)增加有限的相似度，对于重合点(即时间差较短，距离差为0的点)增加较高的相似度。对于复检点问题，在本实施例中，对于复检点不敏感。关于其他优势，在本实施例中，对于随机时间误差(即ID在同一地点出现，两设备记录的延迟差异)有强鲁棒性。新方法重视矛盾点，会大幅降低相似度。

另外，在本实例的步骤S201至S204可根据需要使用极弱规则(相同小时相同地点出现过至少一次)得出大量可能的配对。也可以使用稍强的规则(例如间隔小于15分钟相同地点出现过至少一次)减少配对量，从而降低后续相似度计算量。甚至可以直接放弃相似度的计算，直接使用强规则(例如出现地点重合度高于X％)完成匹配。但过强的规则往往隐含了过多假设，容易误删事实上匹配的轨迹，误匹配个别特征符合规则要求的事实上不匹配的轨迹，效果逊于规则+相似度方法。

在本实施例的步骤S208使用半正矢公式计算采集器经纬度地理距离，该地理距离不一定完全符合实际。例如，两采集器地理距离只有200米，但可能实际相隔悬崖，任何人不可能直线穿过这段距离。可以使用城市地图计算每两采集器间的实际地图行走/行车距离代替地理距离。

在本实施例的步骤S209中，距离奖惩函数可由三次方更改为任意奇数次方；次方数越大，惩罚相较奖励比例越大。也可以自行按照采集器距离，对各距离分别定义奖励/惩罚(分段函数)。时间衰减函数可以由逻辑斯蒂函数更改为从1直接下降到0的分段函数。

在上述实施例中，通过对如[12221]的模式检索进行轨迹间的一一配对，在一一配对时跳过如[222]的组内记录，只重视转换点，从而规避缺失点问题。利用模式检索独有的背景速度容忍异常点，通过时间衰减函数利用时间戳信息，区分有信息点(会产生重合/冲突的点)和无信息点(可能只是缺失点)。通过距离奖惩函数强调重合点，弱化相近点，大幅惩罚矛盾点。通过预处理削弱复检点。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种ID时空轨迹匹配装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的术语“模块”和“单元”。可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本发明实施例的ID时空轨迹匹配装置结构示意图，如图8所示，该装置包括采集模块10、分组模块20、第一遍历模块30、轨迹模块40和确定模块50。

采集模块10，用于通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据，其中，所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳。

分组模块20，用于将所述数据记录按相同采集地点和日期进行分组，以及将所述数据记录按相同数据类型分组，并转换为哈希表。

第一遍历模块30，用于在所述哈希表中遍历各地点日期组，对于同一地点日期组，如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻，则将所述第一ID数据和所述第二ID数据保存为预选的ID配对。

轨迹模块40，用于遍历各预选的ID配对，对于每个预选的ID配对，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据，并按时间顺序合并两组轨迹数据。

确定模块50，计算两组轨迹相似度，将轨迹相似度高于阈值的预选ID配对确定为匹配。

图9是根据本发明可选实施例的ID时空轨迹匹配装置结构示意图，如图9所示，该装置除包括图8所示的模块外，还包括删除模块60、判断模块70和第二遍历模块80。

删除模块60，用于在遍历各预选的ID配对之前，删除重复保存的预选的ID配对。

判断模块70，用于在获取第一ID数据和第二ID数据对应的轨迹数据之后，判断所述两组轨迹的所有数据是否来源于同一个采集器，如果是，则不计算该两组轨迹的相似度。

第二遍历模块80，同于在计算两组轨迹相似度之前，遍历两组轨迹数据，将时间间隔短于μ_t，距离间隔短于μ_d的轨迹点合并，只保留首个轨迹点，其中，μ_t为采集器的时间延迟误差范围，μ_d为该时间范围内行人可能触发的两个采集器的最大距离。

在本实施例中，确定模块50还可包括：第一计算单元501，用于根据采集器经纬度信息，计算出每两个采集器位置间的大圆距离并储存为哈希表；第二计算单元502，用于根据两点相似度函数计算两组轨迹相似度需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种ID时空轨迹匹配方法，其特征在于，包括：

通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据，其中，所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳；

将所述数据记录按相同采集地点和日期进行分组，以及将所述数据记录按相同数据类型分组，并转换为哈希表；

在所述哈希表中遍历各地点日期组，对于同一地点日期组，如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻，则将所述第一ID数据和所述第二ID数据保存为预选的ID配对；

遍历各预选的ID配对，对于每个预选的ID配对，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据，并按时间顺序分别合并两组轨迹数据；

计算两组轨迹相似度，将轨迹相似度高于阈值的预选ID配对确定为匹配。

2.根据权利要求1所述的方法，其特征在于，遍历各预选的ID配对之前，还包括：

删除重复保存的所述预选的ID配对。

3.根据权利要求1所述的方法，其特征在于，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据之后，还包括：

判断所述两组轨迹的所有数据是否来源于同一个采集器，如果是，则不计算该两组轨迹的相似度。

4.根据权利要求1所述的方法，其特征在于，计算两组轨迹相似度之前，还包括：

遍历两组轨迹数据，将时间间隔短于μ_t，距离间隔短于μ_d的轨迹点合并，仅保留首个轨迹点，其中，μ_t为采集器的时间延迟误差范围，μ_d为该时间范围内行人可能触发的两个采集器的最大距离。

5.根据权利要求1所述的方法，其特征在于，计算两组轨迹相似度包括：

根据采集器经纬度信息，计算出每两个采集器位置间的大圆距离并储存为哈希表；

根据两点相似度函数计算两组轨迹相似度。

6.一种ID时空轨迹匹配装置，其特征在于，包括：

采集模块，用于通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据，其中，所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳；

分组模块，用于将所述数据记录按相同采集地点和日期进行分组，以及将所述数据记录按相同数据类型分组，并转换为哈希表；

第一遍历模块，用于在所述哈希表中遍历各地点日期组，对于同一地点日期组，如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻，则将所述第一ID数据和所述第二ID数据保存为预选的ID配对；

轨迹模块，用于遍历各预选的ID配对，对于每个预选的ID配对，从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据，并按时间顺序合并两组轨迹数据；

确定模块，计算两组轨迹相似度，将轨迹相似度高于阈值的预选ID配对确定为匹配。

7.根据权利要求6所述的装置，其特征在于，还包括：

删除模块，用于在遍历各预选的ID配对之前，删除重复保存的预选的ID配对。

8.根据权利要求6所述的装置，其特征在于，还包括：

判断模块，用于在获取第一ID数据和第二ID数据对应的轨迹数据之后，判断所述两组轨迹的所有数据是否来源于同一个采集器，如果是，则不计算该两组轨迹的相似度。

9.根据权利要求6所述的装置，其特征在于，还包括：

第二遍历模块，用于在计算两组轨迹相似度之前，遍历两组轨迹数据，将时间间隔短于μ_t，距离间隔短于μ_d的轨迹点合并，只保留首个轨迹点，其中，μ_t为采集器的时间延迟误差范围，μ_d为该时间范围内行人可能触发的两个采集器的最大距离。

10.根据权利要求6所述的装置，其特征在于，确定模块还包括：

第一计算单元，用于根据采集器经纬度信息，计算出每两个采集器位置间的大圆距离并储存为哈希表；

第二计算单元，用于根据两点相似度函数计算两组轨迹相似度。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。

12.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。