CN112328649A

CN112328649A - 一种多轨迹数据相似度的计算方法和存储设备

Info

Publication number: CN112328649A
Application number: CN202011070710.3A
Authority: CN
Inventors: 李年勇; 庄莉; 苏江文; 王秋琳
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-02-05

Abstract

本发明涉及数据处理技术领域，特别涉及一种多轨迹数据相似度的计算方法和存储设备。所述一种多轨迹数据相似度的计算方法，包括步骤：对来自不同数据源的数据进行预处理，预处理后的数据呈同一数据格式；根据案件信息确定目标轨迹数据；根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集；对所述嫌疑轨迹数据集内的数据进行分组，得分组后的嫌疑轨迹数据；通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。因为可以并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度，效率大大提高。

Description

一种多轨迹数据相似度的计算方法和存储设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种多轨迹数据相似度的计算方法和存储设备。

背景技术

随着信息化的普及，人们的活动信息被更多的电子设备进行记录，例如治安卡口数据、电子围栏数据、治安监控数据、交通监控数据、WI-FI探针数据等等。各类基于大范围监测数据的智能交通应用快速发展。多种轨迹碰撞是其中的一类重要应用，它利用目标对象(人员或车辆)的监控数据，挖掘出目标对象轨迹间的相似关系。

传统的算法对数据集合按人物分成多个集合，并依次遍历多个集合获取不同的数据组合，当数据集合越来越多时，时间复杂度会快速增长。通过全量数据循环遍历比对，来推断一个案件中多个人是否有接触或碰面，以及统计接触或碰面的次数来推断案件中多人的关系。在现今可获取的原始数据量大幅增长，犯罪案件涉及人数越来越多，关系越来越复杂的背景下，传统分析方法的运算量显著增长，分析效率低下，无法满足大数据量、多人物应用场景下的数据分析要求。

发明内容

为此，需要提供一种多轨迹数据相似度的计算方法，用以解决现有算法在数据量大、人物多的情况下效率低下、精准度低的问题。具体技术方案如下：

一种多轨迹数据相似度的计算方法，包括步骤：

对来自不同数据源的数据进行预处理，预处理后的数据呈同一数据格式；

根据案件信息确定目标轨迹数据；

根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集；

对所述嫌疑轨迹数据集内的数据进行分组，得分组后的嫌疑轨迹数据；

通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度；

所述案件关键元素包括：案件的发生时间和/或归属地。

进一步的，所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”，还包括步骤：

通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。

进一步的，所述呈同一数据格式的数据内容包括以下中的一种或多种：数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型；

所述用户唯一标识码包括：车牌号或IMSI；

所述目标轨迹数据为包含经度、纬度的数组。

进一步的，所述“对所述嫌疑轨迹数据集内的数据进行分组”，还包括步骤：以所述用户唯一标识码和数据类型作为分组标识。

进一步的，还包括步骤：

筛选出大于预设相似度阈值的相似度，对筛选出的嫌疑轨迹数据进行分析得嫌疑人。

为解决上述技术问题，还提供了一种存储设备，具体技术方案如下：

一种存储设备，其中存储有指令集，所述指令集用于执行：

根据案件信息确定目标轨迹数据；

所述案件关键元素包括：案件的发生时间和/或归属地。

进一步的，所述指令集还用于执行：所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”，还包括步骤：

进一步的，所述指令集还用于执行：所述呈同一数据格式的数据内容包括以下中的一种或多种：数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型；

所述用户唯一标识码包括：车牌号或IMSI；

所述目标轨迹数据为包含经度、纬度的数组。

进一步的，所述指令集还用于执行：所述“对所述嫌疑轨迹数据集内的数据进行分组”，还包括步骤：以所述用户唯一标识码和数据类型作为分组标识。

进一步的，所述指令集还用于执行：筛选出大于预设相似度阈值的相似度，对筛选出的嫌疑轨迹数据进行分析得嫌疑人。

本发明的有益效果是：通过对来自不同数据源的数据进行预处理，预处理后的数据呈同一数据格式；根据案件信息确定目标轨迹数据；根据案件关键元素检索得到嫌疑轨迹数据集；对所述嫌疑轨迹数据集内的数据进行分组，得分组后的嫌疑轨迹数据；通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。通过该方式，来挖掘不同对象间轨迹的相似度，无论数据量多大，因为可以并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度，效率大大提高，且是使用最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度，最长公共子序列算法对于轨迹数据间的相似度分析的精准度很高，为办理涉车案件、犯罪嫌疑车辆落脚点分析提供业务支撑。

附图说明

图1为具体实施方式所述一种多轨迹数据相似度的计算方法的流程图；

图2为具体实施方式所述分组后的数据集示意图；

图3为具体实施方式所述计算相似度的结果的示意图；

图4为具体实施方式所述存储设备的模块示意图。

附图标记说明：

400、存储设备。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，在本实施方式中，一种多轨迹数据相似度的计算方法可应用在一种存储设备上，所述存储设备包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备等。所述存储设备上有以spark搭建的分析平台。

在本实施方式中对于两个轨迹数据间相似度的计算采用的是最长公共子序列算法LCSS。以下对LCSS的原理进行介绍说明：

原理：假设现在有两个长度分别为n和m的时间序列数据A和B，那么最长公共子序列的长度为：

其中，a_t代表的是某一个A列中的数据，b_i代表的是某一个B列中的数据，γ为一个成员相似阈值，t＝1,2,...,n；i＝1,2,...,m。基于上述公式，最长公共子序列的相似度公式为：

D_LCSS＝1-(LCSS(A，B))/min(len_A，len_B)

LCSS算法可以计算两个子序列之间的最长公共子序列。(子序列是有序的，但不一定是连续的，作用对象是序列)。

现有技术中常用于计算多轨迹相似度的DTW和欧式距离算法对轨迹的个别点差异性非常敏感，如果两个时间序列在大多数时间段具有相似的形态，仅仅在很短的时间具有一定的差异，(即很小的差异也会对相似度衡量产生影响)欧式距离和DTW无法准确衡量这两个时间序列的相似度。LCSS算法却不存在该问题，确保了相似度计算结果的准确性。

以下展开具体说明：

步骤S101：对来自不同数据源的数据进行预处理，预处理后的数据呈同一数据格式。具体可如下：在本实施方式中，需要用到的是治安卡口数据和电子围栏数据，故只需对治安卡口数据和电子围栏数据两类数据进行预处理。在其它实施方式中，根据实际业务场景的需要，对来自不同数据源的数据都需要进行预处理。治安卡口数据格式为：数据时间、设备编号、卡口位置名称、归属地、经度、纬度、车牌号、车身颜色。电子围栏数据格式为：数据时间、设备编码、设备位置名称、归属地、经度、纬度、IMSI、IMEI、运营商。

所述呈同一数据格式的数据内容包括以下中的一种或多种：数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型；所述用户唯一标识码包括：车牌号或IMSI。

在本实施方式中，优选地预处理后结果数据格式统一为：数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型。

步骤S102：根据案件信息确定目标轨迹数据。具体可如下：当案件发生时，必然存在案件发生时间、归属地。针对涉车案件，犯罪行为人利用车辆快速作案，快速逃离等特点作案，则涉及多时空、多区域。此时需要先根据案件信息描述出嫌疑人的作案轨迹。假如目标人员轨迹数为： ["A1","A2","A3","B1","B2","B3","B4","C1","C2","D1"]。所述目标轨迹数据为包含经度、纬度的数组，其中经度、纬度是必须包含的，其它参数则根据实际的业务场景做不同的调整变化，如：涉嫌车辆窃取的案件，则与涉嫌抢劫的案件中则会存在一些参数上的不同。

步骤S103：根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集。在本实施方式中，所述案件关键元素包括：案件的发生时间和/或归属地。通过案件的发生时间和归属地进行数据筛选。自动根据筛选条件，过滤出对应的预处理后的嫌疑轨迹数据集。所述嫌疑轨迹数据集作为比对数据集。

步骤S104：对所述嫌疑轨迹数据集内的数据进行分组，得分组后的嫌疑轨迹数据。在本实施方式中，以所述用户唯一标识码和数据类型作为分组标识。具体可如下：分组标识为：用户唯一标识+类型，轨迹数据为包含经纬度的数组。即一条分组记录即为一个目标用户特定条件下的运动轨迹数据。分组后数据集格式如图2所示。

步骤S105：通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度；所述案件关键元素包括：案件的发生时间和/或归属地。在本实施方式中，所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”，还包括步骤：通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。具体可如下：将目标轨迹数据和分组数据集放入以spark搭建的分析平台并行计算。根据实际硬件能力，分批对应任务数，假设，所有的分组数据量为5000万，按1000个任务进行分批。每个任务为5万的数据。并行计算每条分组数据和目标人员轨迹数据的相似度。得到结果集如图3所示。

通过对来自不同数据源的数据进行预处理，预处理后的数据呈同一数据格式；根据案件信息确定目标轨迹数据；根据案件关键元素检索得到嫌疑轨迹数据集；对所述嫌疑轨迹数据集内的数据进行分组，得分组后的嫌疑轨迹数据；通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。通过该方式，来挖掘不同对象间轨迹的相似度，无论数据量多大，因为可以并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度，效率大大提高，且是使用最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度，最长公共子序列算法对于轨迹数据间的相似度分析的精准度很高，为办理涉车案件、犯罪嫌疑车辆落脚点分析提供业务支撑。

进一步的，在本实施方式中，还包括步骤：筛选出大于预设相似度阈值的相似度，对筛选出的嫌疑轨迹数据进行分析得嫌疑人。具体可如下：预设相似度阈值为0.85，则筛选出符合条件的数据，并按相似度值大小倒序排序。得出的记录即为嫌疑人的数据。再根据车牌号、IMSI结合基础库信息，即可定位嫌疑人身份信息。也可能包含犯罪团队信息。同个嫌疑人存在多条轨迹相似度较高的记录，例如：车牌号A记录和IMSIA为同个人，则设定为嫌疑人的概率最高。

请参阅图4，一种存储设备400的具体实施方式如下：

一种存储设备400，其中存储有指令集，所述指令集用于执行：

根据案件信息确定目标轨迹数据；

所述案件关键元素包括：案件的发生时间和/或归属地。

具体可如下：在本实施方式中，需要用到的是治安卡口数据和电子围栏数据，故只需对治安卡口数据和电子围栏数据两类数据进行预处理。在其它实施方式中，根据实际业务场景的需要，对来自不同数据源的数据都需要进行预处理。治安卡口数据格式为：数据时间、设备编号、卡口位置名称、归属地、经度、纬度、车牌号、车身颜色。电子围栏数据格式为：数据时间、设备编码、设备位置名称、归属地、经度、纬度、IMSI、IMEI、运营商。

当案件发生时，必然存在案件发生时间、归属地。针对涉车案件，犯罪行为人利用车辆快速作案，快速逃离等特点作案，则涉及多时空、多区域。此时需要先根据案件信息描述出嫌疑人的作案轨迹。假如目标人员轨迹数为： ["A1","A2","A3","B1","B2","B3","B4","C1","C2","D1"]。所述目标轨迹数据为包含经度、纬度的数组。其中经度、纬度是必须包含的，其它参数则根据实际的业务场景做不同的调整变化，如：涉嫌车辆窃取的案件，则与涉嫌抢劫的案件中则会存在一些参数上的不同。

在本实施方式中，所述案件关键元素包括：案件的发生时间和/或归属地。通过案件的发生时间和归属地进行数据筛选。自动根据筛选条件，过滤出对应的预处理后的嫌疑轨迹数据集。所述嫌疑轨迹数据集作为比对数据集。

在本实施方式中，以所述用户唯一标识码和数据类型作为分组标识。具体可如下：分组标识为：用户唯一标识+类型，轨迹数据为包含经纬度的数组。即一条分组记录即为一个目标用户特定条件下的运动轨迹数据。分组后数据集格式如图2所示。

进一步的，所述指令集还用于执行：所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”，还包括步骤：通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。具体可如下：将目标轨迹数据和分组数据集放入以spark搭建的分析平台并行计算。根据实际硬件能力，分批对应任务数，假设，所有的分组数据量为5000万，按1000个任务进行分批。每个任务为5万的数据。并行计算每条分组数据和目标人员轨迹数据的相似度。得到结果集如图3所示。

进一步的，所述指令集还用于执行：筛选出大于预设相似度阈值的相似度，对筛选出的嫌疑轨迹数据进行分析得嫌疑人。具体可如下：预设相似度阈值为0.85，则筛选出符合条件的数据，并按相似度值大小倒序排序。得出的记录即为嫌疑人的数据。再根据车牌号、IMSI结合基础库信息，即可定位嫌疑人身份信息。也可能包含犯罪团队信息。同个嫌疑人存在多条轨迹相似度较高的记录，例如：车牌号A记录和IMSIA为同个人，则设定为嫌疑人的概率最高。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种多轨迹数据相似度的计算方法，其特征在于，包括步骤：

根据案件信息确定目标轨迹数据；

所述案件关键元素包括：案件的发生时间和/或归属地。

2.根据权利要求1所述的一种多轨迹数据相似度的计算方法，其特征在于，所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”，还包括步骤：

3.根据权利要求1所述的一种多轨迹数据相似度的计算方法，其特征在于，所述呈同一数据格式的数据内容包括以下中的一种或多种：数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型；

所述用户唯一标识码包括：车牌号或IMSI；

所述目标轨迹数据为包含经度、纬度的数组。

4.根据权利要求3所述的一种多轨迹数据相似度的计算方法，其特征在于，

所述“对所述嫌疑轨迹数据集内的数据进行分组”，还包括步骤：以所述用户唯一标识码和数据类型作为分组标识。

5.根据权利要求1所述的一种多轨迹数据相似度的计算方法，其特征在于，还包括步骤：

6.一种存储设备，其中存储有指令集，其特征在于，所述指令集用于执行：

根据案件信息确定目标轨迹数据；

所述案件关键元素包括：案件的发生时间和/或归属地。

7.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”，还包括步骤：

8.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：所述呈同一数据格式的数据内容包括以下中的一种或多种：数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型；

所述用户唯一标识码包括：车牌号或IMSI；

所述目标轨迹数据为包含经度、纬度的数组。

9.根据权利要求8所述的一种存储设备，其特征在于，所述指令集还用于执行：所述“对所述嫌疑轨迹数据集内的数据进行分组”，还包括步骤：以所述用户唯一标识码和数据类型作为分组标识。

10.根据权利要求6所述的一种存储设备，其特征在于，所述指令集还用于执行：筛选出大于预设相似度阈值的相似度，对筛选出的嫌疑轨迹数据进行分析得嫌疑人。