CN108595539B

CN108595539B - 一种基于大数据的行迹相似对象识别方法与系统

Info

Publication number: CN108595539B
Application number: CN201810299875.4A
Authority: CN
Inventors: 于瑞强; 王林; 刘伯栋; 翟特; 刘波; 杜星学; 徐婧; 李经帅
Original assignee: YANTAI HAIYI SOFTWARE CO Ltd
Current assignee: YANTAI HAIYI SOFTWARE CO Ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2021-09-03
Anticipated expiration: 2038-04-04
Also published as: CN108595539A

Abstract

本发明属于数据分析领域，涉及一种基于大数据的行迹相似对象识别方法与系统。本发明利用空间归一化模块、数据整理模块、空间点位序列生成模块、行为轨迹序列提取模块、行为矩阵生成模块、行为矩阵运算模块依次连接，对行迹位置原始数据构建行迹标识字典；依据行迹标识字典标准化传入数据；统合属于每个对象的行迹点位数据；构建每个对象在时间窗口内的行迹点位序列；对每个对象的行迹点位序列生成位移轨迹序列；构建行为计算矩阵来计算轨迹相似度；输出行为相似性符合条件的结果。本发明通过获取分析不同对象的空间位置移动信息并利用算法计算不同对象空间位置变化相互间的相似度，探究对象之间的相似性关系、识别及寻找行为相似的对象与群体。

Description

一种基于大数据的行迹相似对象识别方法与系统

技术领域

本发明属于数据分析技术领域，具体涉及行为相似性数据分析技术领域，尤其涉及一种基于大数据的行迹相似对象识别方法与系统。

背景技术

在电子商务、公共安全等领域，会希望通过分析遍布于四处的大量数据采集设备或用户所访问网络节点等采集到的数据找到与目标人员或群体具有相似行为的对象。使用传统的基于精确位置的行迹匹配方法进行识别时常常有耗时长、疑似数据过多、难以过滤的问题，特别在当今数据量几何式增长的情况下，传统方法基于本地化集中计算的局限性日益突出，越发难以满足需要。

发明内容

针对现有技术中的问题，本发明提供一种基于大数据的行迹相似对象识别方法与系统，通过获取分析不同对象的空间位置移动信息并利用算法计算不同对象空间位置变化相互间的相似度，探究对象之间的相似性关系、识别及寻找行为相似的对象与群体。

为实现上述目的，本发明是通过以下技术方案实现的：

本发明提供一种基于大数据的行迹相似对象识别系统，其特殊之处在于，包括用于对行迹字典数据进行离散化、生成行迹标识字典的空间归一化模块，用于数据准备、数据过滤和清洗、数据标准化的数据整理模块，用于统合对象并对每个对象的行迹点位数据按照空间位置随时间演变的情况进行序列化处理的空间点位序列生成模块，用于提取行为轨迹并序列化的行为轨迹序列提取模块，用于将需要分析的对象数据与全部数据统合并构建行为计算矩阵的行为矩阵生成模块，用于计算行为轨迹序列相似度的行为矩阵运算模块，以及用于对结果进行分析过滤存储的结果整理模块；其中空间归一化模块、数据整理模块、空间点位序列生成模块、行为轨迹序列提取模块、行为矩阵生成模块、行为矩阵运算模块依次连接。

进一步地，所述空间归一化模块用于通过分析作为数据来源的采集设备的位置关系信息，对位置相近的设备进行整合分组并分配点位标识代码，构建用于匹配采集数据中的空间点位信息映射为标识代码的行迹标识字典。

进一步地，所述数据整理模块用于通过行迹标识字典对初始数据进行接收、标准化、整理与整合，并利用分布式存储对初始数据进行特征抽取和数据校验，过滤异常或无效数据，最终将结果包装储存到分布式存储系统中。

进一步地，所述空间点位序列生成模块负责读取数据整理模块处理后的数据并构建行迹点位序列，在空间点位序列生成模块对数据的处理包括统合各个对象的数据，将其行迹点位数据按照时间演变情况进行序列化处理，同时对序列中因长期驻留而产生的噪声数据进行除重。

进一步地，所述行为轨迹序列提取模块通过对序列在时间上相邻的点位进行分析处理，提取空间点位序列生成模块提供的行迹点位序列中的位移特征，即提取每次位移的起点及终点的点位标识代码，构成位移编码，并依照原来的序列重新序列化成位移轨迹序列。

进一步地，所述行为矩阵生成模块负责从行为轨迹序列提取模块提供的位移轨迹序列表中提取待分析数据，每个数据轨迹作为一个元素，构建待分析对象向量，然后将待分析对象向量与全部对象轨迹构成的向量进行笛卡尔积。

进一步地，所述行为矩阵运算模块负责对笛卡尔积得到的矩阵进行计算，计算矩阵每一行各个对象的位移轨迹序列中同步位移序列的长度，即各个对象均发生过的、起止点相同的、发生顺序相同的位移子序列长度，然后与该行对象中位移轨迹序列较长一方的序列长度求商，以此作为二者的行迹相似度。

进一步地，所述结果整理模块通过对行为矩阵运算模块算得的行迹相似度进行衡量，对相似度较低对象的过滤及对行为相似对象识别结果进行排序、存储、输出。

本发明还提供一种基于大数据的行迹相似对象识别方法，其特殊之处在于，基于大数据的行迹相似对象识别方法具体是：

步骤1、对行迹位置原始数据进行离散化、归一化构建行迹标识字典；

步骤2、依据行迹标识字典标准化传入数据；

步骤3、统合属于每个对象的行迹点位数据；

步骤4、按照时间演变对每个对象行迹点位数据进行序列化处理，从而构建该对象在特定时间窗口内的行迹点位序列；

步骤5、对每个对象的行迹点位序列进行特征提取，为其分别生成位移轨迹序列；

步骤6、基于处理之后的全部位移轨迹序列构建行为计算矩阵；

步骤7、对该矩阵的上三角矩阵，利用算法计算行为相似点位进而计算轨迹相似度；

步骤8、过滤掉相似度较低的组合，最终输出行为相似性符合条件的结果。

进一步地，对于识别方法中的具体步骤如下：

步骤1、获取并分析作为数据来源的采集设备的位置关系信息，将距离相近的设备划分为同一组，然后为每个分组分配唯一、单字段的点位标识代码，进而构建通过分析匹配数据的来源采集设备将数据的空间点位信息映射为上述标识代码的行迹标识字典；

步骤2、对采集到的数据进行预处理，并发式的对每条数据进行包括抛弃数据中与目标数据无关的字段、筛选并过滤不健康数据，然后从中提取所设定的时段内的数据组成数据集；

步骤3、对步骤2中处理过的数据进行并发式的标准化操作，即将步骤1生成的行迹标识字典广播给所有节点，对节点并发式的对每条数据分别通过行迹标识字典将空间点位信息映射为点位标识代码，并将采集时间信息通过计算转换为统一数值型时间戳；

步骤4、将经过步骤3标准化后的数据根据其对象识别编码进行分组结合操作，即统合属于每个对象的数据，获取这个对象的每条数据中的点位标识代码并按照时间演化顺序进行序列化组成行迹点位序列；并对序列化后的行迹点位序列进行除重；

步骤5、将步骤4行迹点位序列中的每个点位标识代码转化为具有起止点的位移信息，即并发式的将每一行数据的形迹点位序列，通过对序列在时间上相邻的点位进行分析处理，提取其中每次位移的起点及终点信息，转化生成位移编码组，并依照原来的序列重新序列化成位移轨迹序列，然后统合生成新的数据表；

在步骤6中按照以下步骤构建行为计算矩阵；

步骤61、根据预设的阈值对待分析对象的数量进行判断，

如果需要分析的目标对象数量较少则进入步骤62；反之如果需要分析的目标对象数量较多，或者如果对整个数据表进行分析则进入步骤64；

步骤62、从步骤5生成的数据表中收集需要分析的目标对象及其数据并广播，即在数据表中将属于需要分析的目标对象的数据收集到集群的主节点，构成小型数据集并依据每行数据的对象识别代码的哈希值进行排序，将其作为广播变量分发到每个节点；

步骤63、并发式的对数据表中的每行数据进行操作，计算该行数据的对象识别代码的哈希值，然后与被分发到该节点的小型数据集中相比较小的所有数据分别构建成行，组成分布式的行为计算矩阵，然后进入步骤7；

步骤64、通过结合操作将步骤5生成的数据表过滤为仅包含需要分析对象的数据表，将该表与原数据表进行笛卡儿积运算构建行为计算矩阵，最后根据矩阵每行对象的对象标识代码的哈希值筛选并保留位置靠前对象的哈希值大于靠后对象的部分；

步骤7、并发式计算矩阵每行中各个对象位移轨迹序列中同步位移序列的长度，即各个对象均发生过的、起止点相同的、发生顺序也相同的最长位移子序列长度；并通过算得的同步位移序列长度、与该行对象中位移轨迹序列较长一方的序列长度的商作为二者的行迹相似度，用于衡量两个对象的行为相似度，然后进行下一步；

步骤8、整理步骤7的计算结果，通过预先设定的最低关系度阈值过滤掉关系度过低的数据，将数据根据关系度进行排序，最终输出以关系度大小作为衡量标准、以位移轨迹序列为佐证的识别结果作为判断依据，并根据需要将结果储存到分布式集群中。

本发明与现有技术相比，其有益之处在于：本发明解决了传统的基于精确位置的行迹匹配方法存在坐标位置要求高、连续时间范围内计算量大、数据量过大时识别效率低的问题，其具有以下优势。

1、利用分布式的数据存储与查询技术，提供了海量信息的存储平台，实现了对采集数据的大规模处理及快速写入；通过集群的资源管理调度框架和大数据集群架构，使系统拥有良好的扩展能力以及更高的稳定性。

2、充分利用分布式集群的并发作业能力，在面对海量数据时可以在保持负载稳定的前提下实现并发式的高速作业，提高了整体资源利用率，降低了硬件资源需求，相较于传统的本地化集中计算方法有巨大优势。

3、通过使用位移轨迹序列而非传统方法坐标位置序列进行识别的方式，相较于传统方法大幅提升了识别精度，减少了80%以上的疑似匹配数据，因而可以在精确识别的同时降低了后期验证压力，减少时间花费。

附图说明

图1为本发明的系统的结构示意图。

图2为本发明空间标准化原理示意图。

图3为本发明匹配时采用的算法一。

图4为本发明匹配时采用的算法二。

图5 为本发明将路径轨迹转化为位移轨迹进行相似度计算。

图6为本发明相似度运算原理示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

本发明基于大数据的行迹相似对象识别系统，包括用于对行迹字典数据进行离散化、生成行迹标识字典的空间归一化模块，用于数据准备、数据过滤和清洗、数据标准化的数据整理模块，用于统合对象并对每个对象的行迹点位数据按照空间位置随时间演变的情况进行序列化处理的空间点位序列生成模块，用于提取行为轨迹并序列化的行为轨迹序列提取模块，用于将需要分析的对象数据与全部数据统合并构建行为计算矩阵的行为矩阵生成模块，用于计算行为轨迹序列相似度的行为矩阵运算模块，以及用于对结果进行分析过滤存储的结果整理模块。

其中空间归一化模块、数据整理模块、空间点位序列生成模块、行为轨迹序列提取模块、行为矩阵生成模块、行为矩阵运算模块依次连接，对传入的数据依次进行处理。

空间归一化模块用于通过分析作为数据来源的采集设备的位置关系信息，对位置相近的设备进行整合分组并分配点位标识代码，以此构建用于匹配采集数据中的空间点位信息映射为上述标识代码的行迹标识字典。

数据整理模块用于通过上述字典对初始数据进行接收、标准化、整理与整合，并利用分布式存储技术对这些数据进行特征抽取和数据校验，以此过滤异常或无效数据，最终将结果包装储存到分布式存储系统中。

空间点位序列生成模块负责读取上述数据并构建行迹点位序列。包括统合各个对象的数据，将其行迹点位数据按照时间演变情况进行序列化处理，同时对序列中因长期驻留而产生的噪声数据进行除重以减少对结果的不良影响。

行为轨迹序列提取模块通过对序列在时间上相邻的点位进行分析处理，提取上述行迹点位序列中的位移特征，即提取其中每次位移的起点及终点的点位标识代码，构成位移编码，并依照原来的序列重新序列化成位移轨迹序列。

行为矩阵生成模块负责从上述位移轨迹序列表中提取属于需要分析的对象的那部分，并与整表进行笛卡尔积运算构建行为计算矩阵，最后根据矩阵每行对象的对象标识代码的哈希值筛选并保留位置靠前对象的哈希值大于靠后对象的部分。

行为矩阵运算模块负责对上述矩阵进行计算，即计算矩阵每一行各个对象的位移轨迹序列中同步位移序列的长度，即各个对象均发生过的、起止点相同的、发生顺序也相同的位移子序列长度，然后与该行对象中位移轨迹序列较长一方的序列长度求商，以此作为二者的行迹相似度。

结果整理模块通过对算得的相似度进行衡量，按照需求进行对相似度较低对象的过滤及对行为相似对象识别结果进行排序、存储、输出等后期任务。

本发明基于大数据的行迹相似对象识别方法，具体是通过以下步骤实现，

步骤1、对行迹位置原始数据进行离散化、归一化构建行迹标识字典。

步骤2、依据行迹标识字典标准化传入数据。

步骤3、统合属于每个对象的行迹点位数据。

步骤4、按照时间演变对每个对象行迹点位数据进行序列化处理，从而构建该对象在特定时间窗口内的行迹点位序列。

步骤5、对每个对象的行迹点位序列进行特征提取，为其分别生成位移轨迹序列。

步骤6、基于处理之后的全部位移轨迹序列构建行为计算矩阵。

步骤7、对矩阵的上三角矩阵，利用算法计算行为相似点位进而计算轨迹相似度。

对于识别方法更为具体的通过以下实现：

步骤1、获取并分析作为数据来源的采集设备的位置关系信息，将距离相近的设备划分为同一组，此处，对于相近的距离可以根据需要进行设定；如果有设备与其它采集设备均间隔相对于设定的距离较远则其自身分为一组，然后为每个分组分配唯一、单字段的点位标识代码，进而构建可以通过分析匹配数据的来源采集设备将数据的空间点位信息映射为上述标识代码的行迹标识字典，之后进入步骤2。

步骤2、对采集到的数据进行预处理，并发式的对每条数据进行包括抛弃数据中与本项目无关的字段、筛选并过滤发生字段缺失、来源采集设备无法匹配、采集时间明显出错等问题的不健康数据，然后从中提取特定时段内的数据组成数据集，此处的特定时间段，根据实际需要进行设定，例如一天或按小时计算，之后进入步骤3。

步骤3、对步骤2处理过的数据进行并发式的标准化操作，即将步骤1生成的行迹标识字典广播给所有节点，在这些节点并发式的对每条数据分别通过上述字典将空间点位信息映射为点位标识代码，并将采集时间信息通过计算转换为易于计算的统一数值型时间戳，实现标准化，之后进入步骤4。

步骤4、将经过步骤3标准化后的数据根据它的对象识别编码进行分组结合操作，即统合属于每个对象的数据，获取这个对象的每条数据中的点位标识代码并按照时间演化顺序进行序列化组成形迹点位序列，之后对序列化后的行迹点位序列进行除重，即对因原地驻留等原因而产生的重复冗余数据进行过滤，然后分析该序列中涉及到的点位总数，过滤掉总数小于给定阈值的难以匹配部分，然后进入步骤5。

步骤5、由于每个点位中包含的信息过少会被轻易匹配、容易导致疑似匹配过多、识别精度过低，而将步骤4行迹点位序列中的每个点位标识代码转化为包含起止点的位移信息来提高信息量并以此提高识别精度。即并发式的将每一行数据的形迹点位序列，通过对序列在时间上相邻的点位进行分析处理，提取其中每次位移的起点及终点信息，转化生成位移编码，组并依照原来的序列重新序列化成位移轨迹序列，然后统合生成新的数据表，之后进入步骤6。

步骤6、在步骤6中按照以下步骤构建行为计算矩阵；

步骤61、根据提前预设的阈值对待分析对象的数量进行判断，如果需要分析的目标对象数量较少则进入步骤62；反之如果需要分析的目标对象数量较多，或者欲对整个数据表进行分析则进入步骤64；不是针对阈值而言。跟踪分析的目标的数量，例如分析两三个目标就属于较少，但是如果从几十万甚至上百万中分析两两对象的相似性，就属于较多，则需要构造矩阵；

步骤62、从步骤5生成的数据表中收集需要分析的目标对象及其数据并广播，即在数据表中将属于需要分析的目标对象的数据收集到集群的主节点，构成小型数据集并依据每行数据的对象识别代码的哈希值进行排序，将其作为广播变量分发到每个节点，之后进入步骤63；

步骤63、并发式的对数据表中的每行数据进行操作，计算该行数据的对象识别代码的哈希值，然后与被分发到该节点的小型数据集中相比较小的所有数据分别构建成行，组成分布式的行为计算矩阵；

步骤64、通过结合操作将步骤5生成的数据表过滤为仅包含需要分析对象的数据表，在此处如果需要分析全部对象则直接使用原数据表，之后，将该表与原数据表进行笛卡儿积运算构建行为计算矩阵，最后根据矩阵每行对象的对象标识代码的哈希值筛选并保留位置靠前对象的哈希值大于靠后对象的部分，然后进入步骤7。

步骤7、并发式计算矩阵每行中各个对象位移轨迹序列中同步位移序列的长度，即各个对象均发生过的、起止点相同的、发生顺序也相同的最长位移子序列长度。并通过算得的同步位移序列长度、与该行对象中位移轨迹序列较长一方的序列长度的商作为二者的行迹相似度，用于衡量两个对象的行为相似度，然后进行步骤8。

步骤8、整理步骤7的计算结果，通过预先设定的最低关系度阈值过滤掉关系度过低的数据，将数据根据关系度进行排序，最终输出以关系度大小作为衡量标准、以位移轨迹序列为佐证的识别结果供研究人员进行判断，并根据需要将结果储存到分布式集群中。

本申请空间归一化，以地理位置为空间标记举例，不同的信号采集设备分别设置在不同的地点，而有些设备往往设置的地点很相近。以往类似的算法中往往以每一个杆位进行标记，从而会带来以下问题：第一、计算量过大，如果设备的设置数量比较大，以每个设备独立进行空间标记则会导致计算量非常大；计算性能比较差；第二、重复计算，如果设备设置的比较密集且信号覆盖范围比较近，那么就会导致一个对象在某个位置出现一次，会被不同的设备采集到，从而识别成多次，导致这些点位的重复计算从而引起信号噪声、计算失准。

由于空间标准化过程中需要将地理位置临近的采集点归为同一组，而计算“地理位置相近采集点”只能通过比较两个点坐标距离的方式完成，而如果对所有采集点采取两两比对的方式会产生空间复杂度为n²级别的大量运算。因而本发明了以下方法来解决这个问题：

1）分箱：先任选一个点。然后计算每个设备采集点到这个特定点间的距离，距离的计算根据空间的定义不同而不同，如果是地球坐标，则采用geohash算法计算两个坐标间的距离；其他空间定义可根据需要采用欧式距离或者曼哈顿距离等，然后根据距离进行分箱，如图2所示，距离的选取通常可以采用采集设备的信号覆盖范围。

2）分组：由于距离计算概念上是一个圆，而圆上个点虽然离圆心距离相同，但是彼此间相距较远。为了避免把相互间距离较远但是与圆心距离相同的采集点错误的归一化成一个标记点。因此在分箱基础上进行了分组操作。将每个点与其所在的箱及与其相邻且较远的箱中的每个距离比该点远的点计算距离，即图2中对于灰度最深圈内的点只计算与灰度最深圈中和灰度浅色圈内各点的距离，足够近的分为一组，这样就只需要比对2个箱中的少量数据即可。如果设定的箱边界间隔较远则仅当采集点靠近箱边界时才同时计算相邻箱的离采集点较近那一半距离的数据，通常而言判断为同一组的距离阈值是分箱距离边界的一半以内，并且由于到给定地点的距离可以无需外部关联由每个采集点单独运算，并且在计算后引入了离散型的距离分箱数据，计算过程可以全程并发，数据收集也可以通关过join简单完成，非常适合大数据的并发运算。本申请方法的优点在于：降低复杂度，适合大数据的并发运算

对于去噪和常驻信号的识别，由于那些固定在一个点或在几个点长时间巡逻的数据会与大量数据匹配形成噪音，对匹配精度产生不良影响，我们采取预先处理、匹配时除重及匹配后审核的方式来去除噪音，具体为：

在匹配前对在相当长（如1天内）的时间内仅仅停留在同一地点的数据进行除重，因为仅停留在原地的数据很可能是数量巨大的固定设备，并且这种数据即使匹配出来也无法发挥预期作用。

在匹配过程中有根据采集设备时间戳精度选择时间窗口代替具体时间的过程，在此过程中使用特殊的降噪方法：对于在较长时间段内足够多次经过某个采集点的被采集信号进行整合并给予一个特殊的、不可能与正常数据进行匹配的窗口时间戳。这种整合可以保证有类似行为的被采集信号会被整合到同样的时间戳中匹配一次，有效减少了“多来多匹配”型数据对整体结果的影响。

在匹配结束后采取两个步骤对匹配结果进行最后的过滤和验证，其一是对被匹配的信号本身进行分析，对不可能同源的信号（如一个信号源来自手机，而另一个来自路由器）进行过滤。其二是使用排除法，首先假设被匹配的两种信号同源，然后对其轨迹进行分析，如果出现了不可能出现的轨迹（如出现了时速数百公里的轨迹段）则认为二者实际并非同源。

匹配时采用的算法，首先对同一组采集点的数据按照时间分窗，如果采集到的时间在窗口边界则仅针对该数据额外计算其相邻窗口。将窗口内所有被采集数据与该数据计一次匹配次数，如图3所示，S分别与A、B、C、D的匹配。

然后对采集到的所有信号的所有的匹配结果进行整合计数,如果需要还可以与其他计算的结果数据进行整合计算，如图4所示，S与3组信号内的A、B、C、D之间的匹配次数，同时与另外的来自S,5的数据进行整合，得到来自8组信号中，S分别与A、B、C、D的匹配次数。直到有且只有一条（根据实际情况也可能是2条）数据匹配次数特别多，且匹配次数/总次数的比率足够高则得出匹配结果。如果该比率过低则直接抛弃数据，减少噪音影响。

本申请匹配算法的优势：大部分计算是针对单一行数据进行行内运算，其余的也是通过groupby进行的分组整合运算，二者都可以并发执行，非常适合大数据计算环境。并且算法本身不容易出现误匹配，再加上最终审核机制，匹配结果的可靠性高。未匹配的结果可以参与后续运算，运算可以分批进行，对设备要求低，整体匹配率期待很高。

行迹相同与相似的挖掘算法2-GRAM，本发明使用2-gram算法将路径轨迹转化为位移轨迹进行相似度计算的优势：

如果直接对路径轨迹进行相似度比对的话，会出现“只要2个目标对象按照顺序经过同几个点，那么不管它们的路径差距有多大都会有相当高的相似度的问题，如图5所示，沿直线的目标对象经过ACDE点，沿曲线的目标对象经过ABCE点，那么两个目标对象的相似路径就是ACE，它们的路径相似度看起来非常高，高达75%的相似度。

但是实际上并非如此，由图可以看出两个目标对象的路径其实完全不相似，只是偶然经过同几个点这种偶然经常发生，因为只要在活动范围内并且行进整体方向类似，则有些关键位置是必经之路，而采集设备也多设立在这些关键位置。

但是经过2-gram算法将单纯的路径轨迹转化为位移轨迹后就只有起止点相同的位移才会被匹配了，如图5曲线会被转化为[A->B][B->C][C->E]，而直线会被转化为[A->C][C->D][D->E]，可以看出二者虽然部分位移的起点或者终点相同，但是整体位移完全不同，匹配度为0。

通过2-gram算法进行处理后，匹配精度会大幅度提升-如果追求更高匹配精度的话可以采用更高元的n-gram算法，但是2-gram已经有足够好的表现

如果不考虑时间维度，本算法得出的结果为行迹相似；如果考虑时间维度，将轨迹点标记上时间，则计算结果为行迹相同。

本申请中构成行为计算矩阵并对其下三角进行相似度计算，如图6所示，算法要求对所有对象两两间进行相似度运算，即笛卡尔积运算。

该笛卡儿积运算会被转化为矩阵运算，由于相似度运算时A×B和B×A是相同的，并且与本身的相似度没有意义，所以为简化计算过程只计算下三角区域。

对于最长公共子序列（LCS）计算相似度，如前面n-gram算法所述，算法对轨迹相似度的衡量是以LCS算法为核心的，该算法能找出两个序列间的最长子序列。如ABD和ACD的最长公共子序列为AD，该算法可以计算出两个序列相重合的部分外还有较高的容错性，序列中偶尔存在的不同并不会对其整体的相似度衡量产生致命性的影响。在通过衡量二条轨迹序列长度与其公共子序列长度的比值后得到的轨迹相似度可以很好的权衡两条轨迹的相似程度，进而判断两目标对象的行为相似度。

本发明针对传统的基于精确位置的行迹匹配方法存在的坐标位置要求高、连续时间范围内计算量大的问题，通过对坐标位置的预先拟合、用轨迹数据代替具体位置信息进行识别等方式进行改善，大幅度提高了计算效率和计算精度。同时本发明采用大数据集群作业，相较于传统的本地化集中计算方法，可实现多服务器并发式的高性能处理，减少了单一服务器的运算负载，降低了硬件成本，在对海量数据的识别方面拥有巨大的优势，可广泛应用于电子商务、公共安全等领域的相似行为分析。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于大数据的行迹相似对象识别系统，其特征在于：包括用于对行迹字典数据进行离散化、生成行迹标识字典的空间归一化模块，用于数据准备、数据过滤和清洗、数据标准化的数据整理模块，用于统合对象并对每个对象的行迹点位数据按照空间位置随时间演变的情况进行序列化处理的空间点位序列生成模块，用于提取行为轨迹并序列化的行为轨迹序列提取模块，用于将需要分析的对象数据与全部数据统合并构建行为计算矩阵的行为矩阵生成模块，用于计算行为轨迹序列相似度的行为矩阵运算模块，以及用于对结果进行分析过滤存储的结果整理模块；其中空间归一化模块、数据整理模块、空间点位序列生成模块、行为轨迹序列提取模块、行为矩阵生成模块、行为矩阵运算模块依次连接；

所述空间归一化模块用于通过分析作为数据来源的采集设备的位置关系信息，对位置相近的设备进行整合分组并分配点位标识代码，构建用于匹配采集数据中的空间点位信息映射为标识代码的行迹标识字典；

所述数据整理模块用于通过行迹标识字典对初始数据进行接收、标准化、整理与整合，并利用分布式存储对初始数据进行特征抽取和数据校验，过滤异常或无效数据，最终将结果包装储存到分布式存储系统中；

所述空间点位序列生成模块负责读取数据整理模块处理后的数据并构建行迹点位序列，在空间点位序列生成模块对数据的处理包括统合各个对象的数据，将其行迹点位数据按照时间演变情况进行序列化处理，同时对序列中因长期驻留而产生的噪声数据进行除重；

所述行为轨迹序列提取模块通过对序列在时间上相邻的点位进行分析处理，提取空间点位序列生成模块提供的行迹点位序列中的位移特征，即提取每次位移的起点及终点的点位标识代码，构成位移编码，并依照原来的序列重新序列化成位移轨迹序列；

所述行为矩阵生成模块负责从行为轨迹序列提取模块提供的位移轨迹序列表中提取待分析数据，每个数据轨迹作为一个元素，构建待分析对象向量，然后将待分析对象向量与全部对象轨迹构成的向量进行笛卡尔积；

所述行为矩阵运算模块负责对笛卡尔积得到的矩阵进行计算，计算矩阵每一行各个对象的位移轨迹序列中同步位移序列的长度，即各个对象均发生过的、起止点相同的、发生顺序相同的位移子序列长度，然后与该行对象中位移轨迹序列较长一方的序列长度求商，以此作为二者的行迹相似度；

所述结果整理模块通过对行为矩阵运算模块算得的行迹相似度进行衡量，对相似度较低对象的过滤及对行为相似对象识别结果进行排序、存储、输出。

2.一种基于大数据的行迹相似对象识别方法，其特征在于：具体步骤如下：

步骤6、基于处理之后的全部位移轨迹序列构建行为计算矩阵，包括：

步骤61、根据预设的阈值对待分析对象的数量进行判断，

如果需要分析的目标对象数量少于阈值则进入步骤62；反之如果需要分析的目标对象数量多余阈值，或者如果对整个数据表进行分析则进入步骤64；