CN112328649A - 一种多轨迹数据相似度的计算方法和存储设备 - Google Patents

一种多轨迹数据相似度的计算方法和存储设备 Download PDF

Info

Publication number
CN112328649A
CN112328649A CN202011070710.3A CN202011070710A CN112328649A CN 112328649 A CN112328649 A CN 112328649A CN 202011070710 A CN202011070710 A CN 202011070710A CN 112328649 A CN112328649 A CN 112328649A
Authority
CN
China
Prior art keywords
data
track data
similarity
suspected
grouped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011070710.3A
Other languages
English (en)
Inventor
李年勇
庄莉
苏江文
王秋琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Fujian Yirong Information Technology Co Ltd, Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202011070710.3A priority Critical patent/CN112328649A/zh
Publication of CN112328649A publication Critical patent/CN112328649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,特别涉及一种多轨迹数据相似度的计算方法和存储设备。所述一种多轨迹数据相似度的计算方法,包括步骤:对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;根据案件信息确定目标轨迹数据;根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集;对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。因为可以并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度,效率大大提高。

Description

一种多轨迹数据相似度的计算方法和存储设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种多轨迹数据相似度的计算方法和存储设备。
背景技术
随着信息化的普及,人们的活动信息被更多的电子设备进行记录,例如治安卡口数据、电子围栏数据、治安监控数据、交通监控数据、WI-FI探针数据等等。各类基于大范围监测数据的智能交通应用快速发展。多种轨迹碰撞是其中的一类重要应用,它利用目标对象(人员或车辆)的监控数据,挖掘出目标对象轨迹间的相似关系。
传统的算法对数据集合按人物分成多个集合,并依次遍历多个集合获取不同的数据组合,当数据集合越来越多时,时间复杂度会快速增长。通过全量数据循环遍历比对,来推断一个案件中多个人是否有接触或碰面,以及统计接触或碰面的次数来推断案件中多人的关系。在现今可获取的原始数据量大幅增长,犯罪案件涉及人数越来越多,关系越来越复杂的背景下,传统分析方法的运算量显著增长,分析效率低下,无法满足大数据量、多人物应用场景下的数据分析要求。
发明内容
为此,需要提供一种多轨迹数据相似度的计算方法,用以解决现有算法在数据量大、人物多的情况下效率低下、精准度低的问题。具体技术方案如下:
一种多轨迹数据相似度的计算方法,包括步骤:
对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;
根据案件信息确定目标轨迹数据;
根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集;
对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;
通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度;
所述案件关键元素包括:案件的发生时间和/或归属地。
进一步的,所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”,还包括步骤:
通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。
进一步的,所述呈同一数据格式的数据内容包括以下中的一种或多种:数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型;
所述用户唯一标识码包括:车牌号或IMSI;
所述目标轨迹数据为包含经度、纬度的数组。
进一步的,所述“对所述嫌疑轨迹数据集内的数据进行分组”,还包括步骤:以所述用户唯一标识码和数据类型作为分组标识。
进一步的,还包括步骤:
筛选出大于预设相似度阈值的相似度,对筛选出的嫌疑轨迹数据进行分析得嫌疑人。
为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:
一种存储设备,其中存储有指令集,所述指令集用于执行:
对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;
根据案件信息确定目标轨迹数据;
根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集;
对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;
通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度;
所述案件关键元素包括:案件的发生时间和/或归属地。
进一步的,所述指令集还用于执行:所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”,还包括步骤:
通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。
进一步的,所述指令集还用于执行:所述呈同一数据格式的数据内容包括以下中的一种或多种:数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型;
所述用户唯一标识码包括:车牌号或IMSI;
所述目标轨迹数据为包含经度、纬度的数组。
进一步的,所述指令集还用于执行:所述“对所述嫌疑轨迹数据集内的数据进行分组”,还包括步骤:以所述用户唯一标识码和数据类型作为分组标识。
进一步的,所述指令集还用于执行:筛选出大于预设相似度阈值的相似度,对筛选出的嫌疑轨迹数据进行分析得嫌疑人。
本发明的有益效果是:通过对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;根据案件信息确定目标轨迹数据;根据案件关键元素检索得到嫌疑轨迹数据集;对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。通过该方式,来挖掘不同对象间轨迹的相似度,无论数据量多大,因为可以并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度,效率大大提高,且是使用最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度,最长公共子序列算法对于轨迹数据间的相似度分析的精准度很高,为办理涉车案件、犯罪嫌疑车辆落脚点分析提供业务支撑。
附图说明
图1为具体实施方式所述一种多轨迹数据相似度的计算方法的流程图;
图2为具体实施方式所述分组后的数据集示意图;
图3为具体实施方式所述计算相似度的结果的示意图;
图4为具体实施方式所述存储设备的模块示意图。
附图标记说明:
400、存储设备。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,在本实施方式中,一种多轨迹数据相似度的计算方法可应用在一种存储设备上,所述存储设备包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备等。所述存储设备上有以spark搭建的分析平台。
在本实施方式中对于两个轨迹数据间相似度的计算采用的是最长公共子序列算法LCSS。以下对LCSS的原理进行介绍说明:
原理:假设现在有两个长度分别为n和m的时间序列数据A和B,那么最长公共子序列的长度为:
Figure RE-GDA0002803584700000051
其中,at代表的是某一个A列中的数据,bi代表的是某一个B列中的数据,γ为一个成员相似阈值,t=1,2,...,n;i=1,2,...,m。基于上述公式,最长公共子序列的相似度公式为:
DLCSS=1-(LCSS(A,B))/min(lenA,lenB)
LCSS算法可以计算两个子序列之间的最长公共子序列。(子序列是有序的,但不一定是连续的,作用对象是序列)。
现有技术中常用于计算多轨迹相似度的DTW和欧式距离算法对轨迹的个别点差异性非常敏感,如果两个时间序列在大多数时间段具有相似的形态,仅仅在很短的时间具有一定的差异,(即很小的差异也会对相似度衡量产生影响)欧式距离和DTW无法准确衡量这两个时间序列的相似度。LCSS算法却不存在该问题,确保了相似度计算结果的准确性。
以下展开具体说明:
步骤S101:对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式。具体可如下:在本实施方式中,需要用到的是治安卡口数据和电子围栏数据,故只需对治安卡口数据和电子围栏数据两类数据进行预处理。在其它实施方式中,根据实际业务场景的需要,对来自不同数据源的数据都需要进行预处理。治安卡口数据格式为:数据时间、设备编号、卡口位置名称、归属地、经度、纬度、车牌号、车身颜色。电子围栏数据格式为:数据时间、设备编码、设备位置名称、归属地、经度、纬度、IMSI、IMEI、运营商。
所述呈同一数据格式的数据内容包括以下中的一种或多种:数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型;所述用户唯一标识码包括:车牌号或IMSI。
在本实施方式中,优选地预处理后结果数据格式统一为:数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型。
步骤S102:根据案件信息确定目标轨迹数据。具体可如下:当案件发生时,必然存在案件发生时间、归属地。针对涉车案件,犯罪行为人利用车辆快速作案,快速逃离等特点作案,则涉及多时空、多区域。此时需要先根据案件信息描述出嫌疑人的作案轨迹。假如目标人员轨迹数为: ["A1","A2","A3","B1","B2","B3","B4","C1","C2","D1"]。所述目标轨迹数据为包含经度、纬度的数组,其中经度、纬度是必须包含的,其它参数则根据实际的业务场景做不同的调整变化,如:涉嫌车辆窃取的案件,则与涉嫌抢劫的案件中则会存在一些参数上的不同。
步骤S103:根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集。在本实施方式中,所述案件关键元素包括:案件的发生时间和/或归属地。通过案件的发生时间和归属地进行数据筛选。自动根据筛选条件,过滤出对应的预处理后的嫌疑轨迹数据集。所述嫌疑轨迹数据集作为比对数据集。
步骤S104:对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据。在本实施方式中,以所述用户唯一标识码和数据类型作为分组标识。具体可如下:分组标识为:用户唯一标识+类型,轨迹数据为包含经纬度的数组。即一条分组记录即为一个目标用户特定条件下的运动轨迹数据。分组后数据集格式如图2所示。
步骤S105:通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度;所述案件关键元素包括:案件的发生时间和/或归属地。在本实施方式中,所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”,还包括步骤:通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。具体可如下:将目标轨迹数据和分组数据集放入以spark搭建的分析平台并行计算。根据实际硬件能力,分批对应任务数,假设,所有的分组数据量为5000万,按1000个任务进行分批。每个任务为5万的数据。并行计算每条分组数据和目标人员轨迹数据的相似度。得到结果集如图3所示。
通过对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;根据案件信息确定目标轨迹数据;根据案件关键元素检索得到嫌疑轨迹数据集;对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。通过该方式,来挖掘不同对象间轨迹的相似度,无论数据量多大,因为可以并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度,效率大大提高,且是使用最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度,最长公共子序列算法对于轨迹数据间的相似度分析的精准度很高,为办理涉车案件、犯罪嫌疑车辆落脚点分析提供业务支撑。
进一步的,在本实施方式中,还包括步骤:筛选出大于预设相似度阈值的相似度,对筛选出的嫌疑轨迹数据进行分析得嫌疑人。具体可如下:预设相似度阈值为0.85,则筛选出符合条件的数据,并按相似度值大小倒序排序。得出的记录即为嫌疑人的数据。再根据车牌号、IMSI结合基础库信息,即可定位嫌疑人身份信息。也可能包含犯罪团队信息。同个嫌疑人存在多条轨迹相似度较高的记录,例如:车牌号A记录和IMSIA为同个人,则设定为嫌疑人的概率最高。
请参阅图4,一种存储设备400的具体实施方式如下:
一种存储设备400,其中存储有指令集,所述指令集用于执行:
对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;
根据案件信息确定目标轨迹数据;
根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集;
对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;
通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度;
所述案件关键元素包括:案件的发生时间和/或归属地。
具体可如下:在本实施方式中,需要用到的是治安卡口数据和电子围栏数据,故只需对治安卡口数据和电子围栏数据两类数据进行预处理。在其它实施方式中,根据实际业务场景的需要,对来自不同数据源的数据都需要进行预处理。治安卡口数据格式为:数据时间、设备编号、卡口位置名称、归属地、经度、纬度、车牌号、车身颜色。电子围栏数据格式为:数据时间、设备编码、设备位置名称、归属地、经度、纬度、IMSI、IMEI、运营商。
所述呈同一数据格式的数据内容包括以下中的一种或多种:数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型;所述用户唯一标识码包括:车牌号或IMSI。
在本实施方式中,优选地预处理后结果数据格式统一为:数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型。
当案件发生时,必然存在案件发生时间、归属地。针对涉车案件,犯罪行为人利用车辆快速作案,快速逃离等特点作案,则涉及多时空、多区域。此时需要先根据案件信息描述出嫌疑人的作案轨迹。假如目标人员轨迹数为: ["A1","A2","A3","B1","B2","B3","B4","C1","C2","D1"]。所述目标轨迹数据为包含经度、纬度的数组。其中经度、纬度是必须包含的,其它参数则根据实际的业务场景做不同的调整变化,如:涉嫌车辆窃取的案件,则与涉嫌抢劫的案件中则会存在一些参数上的不同。
在本实施方式中,所述案件关键元素包括:案件的发生时间和/或归属地。通过案件的发生时间和归属地进行数据筛选。自动根据筛选条件,过滤出对应的预处理后的嫌疑轨迹数据集。所述嫌疑轨迹数据集作为比对数据集。
在本实施方式中,以所述用户唯一标识码和数据类型作为分组标识。具体可如下:分组标识为:用户唯一标识+类型,轨迹数据为包含经纬度的数组。即一条分组记录即为一个目标用户特定条件下的运动轨迹数据。分组后数据集格式如图2所示。
进一步的,所述指令集还用于执行:所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”,还包括步骤:通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。具体可如下:将目标轨迹数据和分组数据集放入以spark搭建的分析平台并行计算。根据实际硬件能力,分批对应任务数,假设,所有的分组数据量为5000万,按1000个任务进行分批。每个任务为5万的数据。并行计算每条分组数据和目标人员轨迹数据的相似度。得到结果集如图3所示。
通过对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;根据案件信息确定目标轨迹数据;根据案件关键元素检索得到嫌疑轨迹数据集;对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。通过该方式,来挖掘不同对象间轨迹的相似度,无论数据量多大,因为可以并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度,效率大大提高,且是使用最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度,最长公共子序列算法对于轨迹数据间的相似度分析的精准度很高,为办理涉车案件、犯罪嫌疑车辆落脚点分析提供业务支撑。
进一步的,所述指令集还用于执行:筛选出大于预设相似度阈值的相似度,对筛选出的嫌疑轨迹数据进行分析得嫌疑人。具体可如下:预设相似度阈值为0.85,则筛选出符合条件的数据,并按相似度值大小倒序排序。得出的记录即为嫌疑人的数据。再根据车牌号、IMSI结合基础库信息,即可定位嫌疑人身份信息。也可能包含犯罪团队信息。同个嫌疑人存在多条轨迹相似度较高的记录,例如:车牌号A记录和IMSIA为同个人,则设定为嫌疑人的概率最高。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (10)

1.一种多轨迹数据相似度的计算方法,其特征在于,包括步骤:
对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;
根据案件信息确定目标轨迹数据;
根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集;
对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;
通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度;
所述案件关键元素包括:案件的发生时间和/或归属地。
2.根据权利要求1所述的一种多轨迹数据相似度的计算方法,其特征在于,所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”,还包括步骤:
通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。
3.根据权利要求1所述的一种多轨迹数据相似度的计算方法,其特征在于,所述呈同一数据格式的数据内容包括以下中的一种或多种:数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型;
所述用户唯一标识码包括:车牌号或IMSI;
所述目标轨迹数据为包含经度、纬度的数组。
4.根据权利要求3所述的一种多轨迹数据相似度的计算方法,其特征在于,
所述“对所述嫌疑轨迹数据集内的数据进行分组”,还包括步骤:以所述用户唯一标识码和数据类型作为分组标识。
5.根据权利要求1所述的一种多轨迹数据相似度的计算方法,其特征在于,还包括步骤:
筛选出大于预设相似度阈值的相似度,对筛选出的嫌疑轨迹数据进行分析得嫌疑人。
6.一种存储设备,其中存储有指令集,其特征在于,所述指令集用于执行:
对来自不同数据源的数据进行预处理,预处理后的数据呈同一数据格式;
根据案件信息确定目标轨迹数据;
根据案件关键元素对所述预处理后的数据检索得到嫌疑轨迹数据集;
对所述嫌疑轨迹数据集内的数据进行分组,得分组后的嫌疑轨迹数据;
通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度;
所述案件关键元素包括:案件的发生时间和/或归属地。
7.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“通过在预先搭建好的分析平台上以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度”,还包括步骤:
通过在spark搭建的分析平台以最长公共子序列算法并行计算所述目标轨迹数据与所述分组后的嫌疑轨迹数据的相似度。
8.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:所述呈同一数据格式的数据内容包括以下中的一种或多种:数据时间、设备编码、设备位置名称、归属地、经度、纬度、用户唯一标识码、数据类型;
所述用户唯一标识码包括:车牌号或IMSI;
所述目标轨迹数据为包含经度、纬度的数组。
9.根据权利要求8所述的一种存储设备,其特征在于,所述指令集还用于执行:所述“对所述嫌疑轨迹数据集内的数据进行分组”,还包括步骤:以所述用户唯一标识码和数据类型作为分组标识。
10.根据权利要求6所述的一种存储设备,其特征在于,所述指令集还用于执行:筛选出大于预设相似度阈值的相似度,对筛选出的嫌疑轨迹数据进行分析得嫌疑人。
CN202011070710.3A 2020-10-09 2020-10-09 一种多轨迹数据相似度的计算方法和存储设备 Pending CN112328649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011070710.3A CN112328649A (zh) 2020-10-09 2020-10-09 一种多轨迹数据相似度的计算方法和存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011070710.3A CN112328649A (zh) 2020-10-09 2020-10-09 一种多轨迹数据相似度的计算方法和存储设备

Publications (1)

Publication Number Publication Date
CN112328649A true CN112328649A (zh) 2021-02-05

Family

ID=74314580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011070710.3A Pending CN112328649A (zh) 2020-10-09 2020-10-09 一种多轨迹数据相似度的计算方法和存储设备

Country Status (1)

Country Link
CN (1) CN112328649A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633279A (zh) * 2019-09-09 2019-12-31 四川东方网力科技有限公司 多源时空轨迹数据处理方法、装置、设备和存储介质
CN112995915A (zh) * 2021-03-25 2021-06-18 中兴飞流信息科技有限公司 一种统计用户在预设时间内运动轨迹的方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778245A (zh) * 2015-04-09 2015-07-15 北方工业大学 基于海量车牌识别数据的相似轨迹挖掘方法及装置
JP2017000481A (ja) * 2015-06-11 2017-01-05 株式会社日立製作所 分析システム、及び、分析方法
CN106960006A (zh) * 2017-02-24 2017-07-18 河海大学 一种不同轨迹间相似度度量系统及其度量方法
CN108595606A (zh) * 2018-04-20 2018-09-28 广东亿迅科技有限公司 基于运营商数据的公安案件时空分析方法及装置
CN109242024A (zh) * 2018-09-13 2019-01-18 中南大学 一种基于卡口数据的车辆行为相似度计算方法
US20200019585A1 (en) * 2018-07-16 2020-01-16 Here Global B.V. Triangulation for k-anonymity in location trajectory data
CN111090681A (zh) * 2019-11-12 2020-05-01 高新兴科技集团股份有限公司 一种团伙挖掘方法、装置、设备及存储介质
CN111292356A (zh) * 2020-02-20 2020-06-16 清华大学 运动轨迹与道路的匹配方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778245A (zh) * 2015-04-09 2015-07-15 北方工业大学 基于海量车牌识别数据的相似轨迹挖掘方法及装置
JP2017000481A (ja) * 2015-06-11 2017-01-05 株式会社日立製作所 分析システム、及び、分析方法
CN106960006A (zh) * 2017-02-24 2017-07-18 河海大学 一种不同轨迹间相似度度量系统及其度量方法
CN108595606A (zh) * 2018-04-20 2018-09-28 广东亿迅科技有限公司 基于运营商数据的公安案件时空分析方法及装置
US20200019585A1 (en) * 2018-07-16 2020-01-16 Here Global B.V. Triangulation for k-anonymity in location trajectory data
CN109242024A (zh) * 2018-09-13 2019-01-18 中南大学 一种基于卡口数据的车辆行为相似度计算方法
CN111090681A (zh) * 2019-11-12 2020-05-01 高新兴科技集团股份有限公司 一种团伙挖掘方法、装置、设备及存储介质
CN111292356A (zh) * 2020-02-20 2020-06-16 清华大学 运动轨迹与道路的匹配方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊志英: ""一种卡口车辆轨迹相似度算法的研究和实现"", 《现代电子技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633279A (zh) * 2019-09-09 2019-12-31 四川东方网力科技有限公司 多源时空轨迹数据处理方法、装置、设备和存储介质
CN112995915A (zh) * 2021-03-25 2021-06-18 中兴飞流信息科技有限公司 一种统计用户在预设时间内运动轨迹的方法及系统
CN112995915B (zh) * 2021-03-25 2022-05-13 中兴飞流信息科技有限公司 一种统计用户在预设时间内运动轨迹的方法及系统

Similar Documents

Publication Publication Date Title
CN110334111B (zh) 一种多维轨迹分析方法及装置
CN109634946B (zh) 一种基于大数据挖掘的轨迹智能匹配关联分析方法
CN110705477A (zh) 行为分析方法、装置、电子设备和计算机存储介质
CN106875679B (zh) 识别伴随车辆的方法及装置
CN112328649A (zh) 一种多轨迹数据相似度的计算方法和存储设备
CN111523577A (zh) 一种基于改进的lcss算法的海量轨迹相似度计算方法
CN112131325A (zh) 轨迹确定方法、装置及设备、存储介质
CN111090681A (zh) 一种团伙挖掘方法、装置、设备及存储介质
CN111949701B (zh) 一种基于轨迹相似度的移动对象出行规律分析方法及装置
Barbará et al. Mining malicious corruption of data with hidden Markov models
CN111414933B (zh) 基于rfid与聚类算法的电动车销赃区域分析方法和系统
CN111367906B (zh) 异常车辆识别方法、装置、设备及计算机可读存储介质
CN111598753A (zh) 一种嫌疑人推荐方法、装置、电子设备和存储介质
CN112637548B (zh) 一种基于摄像机的信息关联预警方法及装置
CN103034866B (zh) 一种目标识别方法、装置及系统
CN114743132A (zh) 一种目标算法的选取方法、装置、电子设备及存储介质
CN111369790B (zh) 过车记录校正方法、装置、设备及存储介质
Haberman et al. The sensitivity of repeat and near repeat analysis to geocoding algorithms
CN115146729A (zh) 异常店铺识别方法、装置、计算机设备和存储介质
CN112528818B (zh) 数据统计方法、装置、电子设备及机器可读存储介质
CN114003674A (zh) 双录地址确定方法、装置、设备及存储介质
CN112925948A (zh) 视频处理方法及其装置、介质、芯片和电子设备
CN113160565A (zh) 一种套牌车辆的识别方法、装置、存储介质及终端
CN111159511A (zh) 轨迹数据的处理方法、装置及计算机存储介质
CN115965137B (zh) 特定对象关联性预测方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination