CN115422479A

CN115422479A - 轨迹关联方法、装置、电子设备及机器可读存储介质

Info

Publication number: CN115422479A
Application number: CN202211191991.7A
Authority: CN
Inventors: 朱健超
Original assignee: Hangzhou Hikvision System Technology Co Ltd
Current assignee: Hangzhou Hikvision System Technology Co Ltd
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-02

Abstract

本申请提供一种轨迹关联方法、装置、电子设备及机器可读存储介质，该方法包括：获取待搜索轨迹；依据所述待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成所述待搜索轨迹对应的轨迹向量；基于向量检索方式，从轨迹库中搜索所述待搜索轨迹的相似轨迹；其中，所述轨迹库中存储多个轨迹、以及所述多个轨迹中每个轨迹对应的轨迹向量。该方法可以提高轨迹关联的效率，减少轨迹关联的资源消耗。

Description

轨迹关联方法、装置、电子设备及机器可读存储介质

技术领域

本申请涉及物联网技术领域，尤其涉及一种轨迹关联方法、装置、电子设备及机器可读存储介质。

背景技术

随着物联网技术的发展，各种类型的数据采集设备的应用逐渐普及，例如，用于进行人员图像采集的人像采集设备(如监控摄像头)、用于进行手机的国际移动用户识别码(International Mobile Subscriber Identity，简称IMSI码)采集的电子围栏设备等。人像采集设备采集人脸图片数据，通过后端人像建模和比对算法，将其打上人员身份唯一识别码(human_id)。电子围栏设备采用伪基站的原理，采集一定空间范围内手机的国际移动用户识别码。

依据多个采集设备在多个不同采集时间对同一采集对象的采集数据，可以生成该采集对象的一条轨迹。

例如，依据多个人像采集设备在多个不同采集时间对同一人员的采集数据，可以生成该人员的一条轨迹(可以称为人员轨迹)；依据多个电子围栏设备在多个不同采集时间对同一IMSI码的采集数据，可以生成该IMSI码的一条轨迹(可以称为IMSI轨迹)。

在一些业务场景中，存在依据某一轨迹(也称待匹配轨迹)关联相似轨迹的需求，例如将同一人员的利用不同类型的采集设备所采集的不同轨迹之间进行关联，例如对人员轨迹与IMSI轨迹进行关联。而目前仅能通过分析待匹配轨迹与其他轨迹中各轨迹点之间的时空关联性的方式实现不同类型的轨迹的关联，其实现效率较低，且需要消耗大量的资源。

发明内容

有鉴于此，本申请提供一种轨迹关联方法、装置、电子设备及机器可读存储介质。

根据本申请实施例的第一方面，提供一种轨迹关联方法，包括：

获取待搜索轨迹；其中，任一轨迹包括多个轨迹点，任一轨迹点对应的轨迹点数据包括采集设备标识以及采集时间；

依据所述待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成所述待搜索轨迹对应的轨迹向量；

基于向量检索方式，从轨迹库中搜索所述待搜索轨迹的相似轨迹；其中，所述轨迹库中存储多个轨迹、以及所述多个轨迹中每个轨迹对应的轨迹向量。

根据本申请实施例的第二方面，提供一种轨迹关联装置，包括：

获取单元，被配置为获取待搜索轨迹；其中，任一轨迹包括多个轨迹点，任一轨迹点对应的轨迹点数据包括采集设备标识以及采集时间；

生成单元，被配置为依据所述待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成所述待搜索轨迹对应的轨迹向量；

轨迹关联单元，被配置为基于向量检索方式，从轨迹库中搜索所述待搜索轨迹的相似轨迹；其中，所述轨迹库中存储多个轨迹、以及所述多个轨迹中每个轨迹对应的轨迹向量。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面提供的方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现第一方面提供的方法。

根据本申请实施例的第五方面，提供一种计算机程序，该计算机程序存储于计算机可读存储介质，并且当处理器执行该计算机程序时，促使处理器执行第一方面提供的方法。

本申请实施例的轨迹关联方法，在获取到待搜索轨迹的情况下，通过依据待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量，并基于向量检索方式，从轨迹库中搜索待搜索轨迹的相似轨迹，提高了轨迹关联的效率，减少了轨迹关联的资源消耗。

附图说明

图1是本申请实施例提供的一种轨迹关联方法的流程示意图；

图2是本申请实施例提供的一种BERT模型的训练流程示意图；

图3是本申请实施例提供的一种轨迹数据入库实现流程示意图；

图4是本申请实施例提供的一种关联轨迹挖掘实现流程示意图；

图5是本申请实施例提供的一种轨迹关联装置的结构示意图；

图6是本申请实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

需要说明的是，本申请实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参见图1，为本申请实施例提供的一种轨迹关联方法的流程示意图，如图1所示，该轨迹关联方法可以包括以下步骤：

步骤S100、获取待搜索轨迹；其中，任一轨迹包括多个轨迹点，任一轨迹点对应的轨迹点数据包括采集设备标识以及采集时间。

示例性的，待搜索轨迹为需要进行关联轨迹搜索的轨迹。

例如，用户可以向本申请实施例提供的轨迹关联系统输入待搜索轨迹，由该轨迹关联系统通过本申请实施例提供的轨迹关联方法，搜索与该待搜索轨迹关联的轨迹(可以称为待搜索轨迹的相似轨迹)。

示例性的，轨迹可以依据多个同一类型的采集设备，在多个不同时间采集到同一采集对象的采集数据生成。

示例性的，该轨迹中的任一轨迹点可以对应一个该类型的采集设备在某个采集时间对该采集对象的一条采集数据。

其中，对于任一轨迹点，该轨迹点对应的轨迹数据可以包括该轨迹点对应的采集数据中的采集时间，以及，采集到该采集数据的采集设备的标识(即采集设备标识)。

示例性的，采集设备的类型可以包括但不限于人像采集设备或电子围栏设备。

对于任一类型的采集设备，其均设置有采集设备标识，如设备编号，用于对相同类型的不同采集设备进行标识。

步骤S110、依据待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量。

步骤S120、基于向量检索方式，从轨迹库中搜索待搜索轨迹的相似轨迹；其中，轨迹库中存储多个轨迹、以及多个轨迹中每个轨迹对应的轨迹向量。

本申请实施例中，为了提高轨迹关联的效率，可以依据轨迹中各轨迹点对应的采集设备标识以及采集时间，将轨迹转换为轨迹向量，并基于向量检索方式，进行轨迹关联。

相应地，对于获取到的待搜索轨迹，可以依据待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量。

对于轨迹库中存储的任一轨迹，也可以依据该轨迹中各轨迹点对应的采集设备标识以及采集时间，生成该轨迹对应的轨迹，并将轨迹与轨迹对应的轨迹向量关联存储在轨迹库中。

示例性的，在生成了待搜索轨迹对应的轨迹向量的情况下，可以基于向量检索方式，从轨迹库中搜索待搜索轨迹的相似轨迹。

例如，可以分别确定待搜索轨迹对应的轨迹向量与轨迹库中存储的轨迹对应的轨迹向量之间的相似度，将该相似度确定为待搜索轨迹与轨迹库中存储的轨迹之间的相似度，并依据待搜索轨迹与轨迹库中存储的轨迹之间的相似度，确定待搜索轨迹的相似轨迹(也可以称为关联轨迹)。

示例性的，可以依据待搜索轨迹与轨迹库中存储的轨迹之间的相似度，将轨迹库中存储的与待搜索轨迹的相似度最高的N(N≥1)条(即Top N)轨迹，确定为待搜索轨迹的相似轨迹，并返回给轨迹关联发起方。

可见，在图1所示方法流程中，在获取到待搜索轨迹的情况下，通过依据待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量，并基于向量检索方式，从轨迹库中搜索待搜索轨迹的相似轨迹，提高了轨迹关联的效率，减少了轨迹关联的资源消耗。

在一些实施例中，上述依据待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量，可以包括：

依据待搜索轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将待搜索轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到训练好的BERT模型；

对训练好的BERT模型的输出结果进行池化处理，生成待搜索轨迹对应的轨迹向量；

其中，对于任一轨迹点，该轨迹点对应的采集设备标识与该轨迹点对应的统一设备标识一一对应，统一设备标识用于唯一标识相互绑定的不同类型的采集设备。

示例性的，考虑到对于任一采集对象的任一轨迹，该轨迹是依据多个采集设备在不同时间对该采集对象进行数据采集得到的采集数据形成的，即轨迹可以视为一个有序(按照采集时间顺序)的采集设备序列，因此，在依据轨迹之间的相似度进行关联轨迹挖掘时，可以采用Sentence(句子)-BERT(可以简称为SBERT)算法，利用BERT(BidirectionalEncoder Representation from Transformers，一种预训练的语言表征模型)模型，以采集设备标识为token(标记)，将轨迹转换为对应的轨迹向量，并基于向量检索方式，实现关联轨迹挖掘。

此外，考虑到在进行不同类型的轨迹之间的关联时，不同类型的轨迹是依据不同类型的采集设备的采集数据生成的，为了提高基于向量检索方式实现的轨迹关联的准确性，可以通过相同的标识信息来标识相互关联的不同类型的采集设备，以便不同类型的轨迹转换成的轨迹向量之间的相似度可以更准确地表征不同类型的轨迹之间的关联性。

再者，考虑到实际场景中，不同类型的采集设备的标识(即上述采集设备标识)通常是不统一的。

相应地，为了保证轨迹关联的准确性，对于不同类型的轨迹关联场景，可以为相互绑定的不同类型的采集设备设置统一的设备标识(本文中称为统一设备标识)，该统一设备标识可以用于唯一标识相互绑定的不同类型采集设备。

示例性的，不同类型的采集设备之间的绑定可以依据不同类型的采集设备之间的距离来实现，例如，可以对设备之间的距离小于预设距离阈值的不同类型采集设备进行绑定。

举例来说，以人像采集设备和电子围栏设备为例，可以依据人像采集设备的位置信息(如经纬度信息)和电子围栏设备的位置信息，确定人像采集设备与电子围栏设备之间的距离，并将距离小于预设距离阈值的人像采集设备和电子围栏设备进行绑定，得到(人像采集设备，电子围栏设备)设备对，并为各设备对设置统一设备标识，如UUID(UniversallyUnique Identifier，通用唯一识别码)。

示例性的，一个采集设备至多与一个其它类型的采集设备绑定。

例如，一个人像采集设备至多与一个电子围栏设备绑定，一个电子围栏设备至多与一个人像采集设备绑定。

其中，对于相互绑定的不同类型采集设备，为该相互绑定的不同类型采集设备设置的统一设备标识分别与该相互绑定的不同类型采集设备的标识(即上述采集设备标识)一一对应。

例如，假设人像采集设备1与电子围栏设备1绑定，为其设置的统一设备标识为UUID1，则人脸采集设备1的标识(如采集设备标识A1)与UUID1一一对应，且电子围栏设备1的标识(如采集设备标识B1)与UUID1一一对应。

需要说明的是，在实际应用中，也可以对相互关联的不同类型的采集设备，例如，距离小于预设距离阈值的不同类型采集设备，设置相同的采集设备标识(该情况下，该相同的采集设备标识等同于统一设备标识)，在该情况下，可以不需要进行统一设备标识的转换，而是可以直接依据采集设备标识进行轨迹向量的生成。

例如，对于距离小于预设距离阈值的人像采集设备和电子围栏设备，可以设置相同的采集设备标识。

在该情况下，可以依据(采集设备标识，设备类型)来识别采集设备。

示例性的，轨迹的类型可以依据采集对象的类型(如人员或IMSI码等)确定。

例如，待搜索轨迹的类型为人员轨迹，则目标轨迹的类型可以为IMSI轨迹；或者，待搜索轨迹的类型为IMSI轨迹，则目标轨迹的类型可以为人员轨迹。

需要说明的是，待搜索轨迹的类型可以作为轨迹级别的参数，携带在轨迹的属性信息中，也可以作为轨迹点级别的参数，携带在轨迹点的属性信息中。

以轨迹的类型作为轨迹点级别的参数为例，对于任一轨迹点，该轨迹点对应的轨迹点数据还可以包括轨迹类别，如人员轨迹或IMSI轨迹等。

此外，在本申请实施例中，采集对象的类型并不限于人员或IMSI，其还可以包括车辆或车载智能终端，一方面，可以通过图像采集设备采集车辆图像，并识别车辆的车牌号码，得到车辆轨迹；另一方面，可以通过车载智能终端对应的采集设备采集车载智能终端的标识信息，得到车载智能终端的标识信息对应的轨迹。在进行轨迹关联时，也可以对车辆轨迹与车载智能终端的标识信息对应的轨迹，按照上述实施例中描述的方式进行关联。

相应地，对于获取到的待搜索轨迹，可以依据待搜索轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将待搜索轨迹中各轨迹点对应的统一设备标识或者采集设备标识(对应相互绑定的不同类型采集设备设置有相同采集设备标识的情况)输入到训练好的BERT模型。

由于BERT模型的输出为多个多维向量，依据该多个多维向量无法准确地确定轨迹之间的关联性，因此，在将待搜索轨迹中各轨迹点对应的统一设备标识或采集设备标识输入到训练好的BERT模型之后，可以对训练好的BERT模型的输出进行池化处理，将训练好的BERT模型输出的多个多维向量处理为一个多维向量，得到待搜索轨迹对应的轨迹向量。

例如，可以对训练好的BERT模型的输出进行平均池化处理，生成待搜索轨迹对应的轨迹向量。

在一些实施例中，上述获取待搜索轨迹，可以包括：

获取初始待搜索轨迹；

依据初始待搜索轨迹中各轨迹点对应的采集时间所归属的时间分区，确定初始待搜索轨迹中，在各个时间分区内的子轨迹；

确定任一子轨迹为待搜索轨迹。

示例性的，考虑到关联轨迹通常还要求轨迹之间在时间上具有关联性，因此，为了提高基于向量检索方式实现关联轨迹挖掘的准确性，需要在相同时间范围内进行关联轨迹挖掘。

再者，考虑到若时间跨度过大，则对应的轨迹可能会比较长，不利用存储和检索，也不利于轨迹关联。

因而，可以依据绝对时间，以一定的时间间隔(可以称为第一时间间隔，如3天、5天等)，对轨迹进行截断分组。

例如，假设第一时间间隔为T₁，开始时间为UNIX时间戳0，则第一个时间分区(绝对时间分区)为0～T₁，第二个时间分区为T₁～2T₁，依次类推。

对于任一轨迹，可以依据上述时间分区对该轨迹进行截断，确定该轨迹在对应时间分区中的部分(可以称为子轨迹)。

相应地，在获取到初始待搜索轨迹的情况下，可以依据初始待搜索轨迹中各轨迹点对应的采集时间所属的时间分区，确定初始待搜索轨迹在相应时间分区内的子轨迹，并分别将各子轨迹确定为待搜索轨迹，按照上述实施例中描述的方式搜索相应时间分区内的相似轨迹。

例如，假设初始待搜索轨迹的前10个轨迹点归属于第一个时间分区，中间15个轨迹点归属于第二个时间分区，后10个轨迹点归属于第三个时间分区，则初始待搜索轨迹可以划分为第一个时间分区内的子轨迹1(包括前10个轨迹点)，第二个时间分区内的子轨迹2(包括中间15个轨迹点)，以及，第三个时间分区内的子轨迹3(包括后10个轨迹点)。

在一个示例中，轨迹库中存储有多个不同时间分区内的轨迹、以及每个轨迹对应的轨迹向量；

上述基于向量检索方式，从轨迹库中搜索待搜索轨迹的相似轨迹，可以包括：

基于向量检索方式，从轨迹库中待搜索轨迹对应的时间分区内的轨迹中，搜索与待搜索轨迹相似的轨迹。

示例性的，在将轨迹存储在轨迹库中时，可以依据轨迹所归属的时间分区对轨迹进行存储，即轨迹库中可以存储多个不同时间分区的轨迹，以及，每个轨迹对应的轨迹向量。

相应地，在按照上述方式将初始待搜索轨迹划分为多个子轨迹的情况下，对于初始待搜索轨迹在任一时间分区内的子轨迹，可以以该子轨迹为待搜索轨迹，依据该子轨迹中各轨迹点对应的采集设备标识，利用训练好的BERT模型，使用SBERT算法，生成该子轨迹对应的轨迹向量。

示例性的，对于任一子轨迹，可以将该子轨迹输入到训练好的BERT模型，并对BERT模型的输出进行池化处理，例如，平均池化处理，生成该子轨迹对应的轨迹向量。

在得到了该子轨迹对应的轨迹向量的情况下，可以基于向量检索方式，对轨迹库中该时间分区内的轨迹进行搜索，如分别确定该轨迹向量与轨迹库中该时间分区内各轨迹的轨迹向量之间的相似度(如余弦相似度)，并依据轨迹向量之间的相似度，确定与该子轨迹相似的轨迹(可以称为目标轨迹)。

在一个示例中，轨迹库中存储的轨迹以及各轨迹对应轨迹向量通过以下方式生成：

获取轨迹点数据，该轨迹点数据包括轨迹点类别、采集设备标识、采集时间以及采集对象标识；

对于任一时间分区，依据获取到的采集时间归属于该时间分区，且包括的采集对象标识相同的轨迹点数据，生成该采集对象标识对应的该时间分区内的轨迹，并依据该采集对象标识对应的该时间分区内的轨迹，利用训练好的BERT模型，生成该轨迹对应的轨迹向量；将该轨迹和轨迹向量存储于轨迹点类别对应的轨迹库。

示例性的，为了实现基于向量检索的轨迹关联，在依据获取到的轨迹点数据(可以依据获取到的采集数据生成)生成轨迹存储到轨迹库中时，也需要按照时间分区进行轨迹的生成和存储，且需要按照上述实施例中描述的方式生成各轨迹对应轨迹向量，并将轨迹和轨迹向量存储于轨迹点类别对应的轨迹库，其具体实现可以在下文中结合具体实例进行说明。

在一个示例中，待搜索轨迹的相似轨迹的数量至少为2；

本申请实施例提供的轨迹关联方法还可以包括：

对依据待搜索轨迹的相似轨迹对应的采集对象，将不同时间分区内对应同一采集对象的相似轨迹融合为完整轨迹；

依据各完整轨迹的相似度，对各完整轨迹进行排序；

输出相似度最高的指定数量的完整轨迹。

示例性的，在待搜索轨迹的相似轨迹的数量至少为2的情况下，可以依据待搜索轨迹的相似轨迹对应的采集对象，将不同时间分区内对应同一采集对象的相似轨迹融合为完整轨迹，并依据各完整轨迹的相似度对各完整轨迹进行排序，将相似度最高的一条或者多条完整轨迹确定为初始待搜索轨迹的关联轨迹进行输出。

示例性的，对于任一完整轨迹，该完整轨迹的相似度可以为该完整轨迹对应的各目标轨迹的相似度(目标轨迹与初始待搜索轨迹的子轨迹的相似度)的平均值，如算术平均值或加权平均值。

举例来说，假设初始待搜索轨迹包括不同时间分区的子轨迹1、2以及3，在按照上述实施例中描述的方式确定了各子轨迹关联的目标轨迹(假设子轨迹1关联的目标轨迹为第一目标轨迹(即TOP1)、第二目标轨迹(即TOP2)，子轨迹2关联的目标轨迹为第三目标轨迹(即TOP1)、第四目标轨迹(即TOP2)，子轨迹3关联的目标轨迹为第五目标轨迹(即TOP1)、第六目标轨迹(即TOP2))的情况下，可以依据各目标轨迹对应的采集对象，将对应同一采集对象的目标轨迹融合为完整轨迹。

例如，第一目标轨迹1、第二目标轨迹2、第三目标轨迹3、第四目标轨迹4、第五目标轨迹5、第六目标轨迹6均对应同一采集对象(如同一IMSI)，则可以将第一目标轨迹1与第二目标轨迹2中选择其一、第三目标轨迹3与第四目标轨迹4中选择其一、以及第五目标轨迹5与第六目标轨迹6中选择其一，将选择出的3条目标轨迹融合为一条完整轨迹，进而比较该完整轨迹与待搜索轨迹的相似度。该完整轨迹的相似度与待搜索轨迹的相似度可以为参与融合的各目标轨迹与对应的子轨迹的相似度的数学运算值。例如，若参与融合的目标轨迹为第一目标轨迹1、第三目标轨迹3、第五目标轨迹5，则该完整轨迹的相似度可以为第一目标轨迹1与子轨迹1的相似度、第三目标轨迹3与子轨迹2的相似度，以及，第五目标轨迹5与子轨迹3的相似度的平均值。

在按照上述方式得到了多条完整轨迹的情况下，可以按照完整轨迹的相似度从高到低的顺序对各完整轨迹进行排序，并将前N(N≥1)条(即Top N)完整轨迹确定为初始待搜索轨迹的关联轨迹。

在一些实施例中，上述依据待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量之前，还可以包括：

依据同一轨迹中各轨迹点对应的采集时间所属时间分片，对同一时间分片内，且对应的采集设备标识相同的轨迹点进行去重处理；

上述依据待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量，可以包括：

依据待搜索轨迹中去重后的各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量。

示例性的，考虑到实际应用场景中，可能会存在同一个采集设备在短时间内对同一采集对象进行多次采集的情况。

例如，以人像采集设备为例，若人员在某人像采集设备的采集范围内逗留或徘徊，则该人像采集设备可能会在短时间内对该人员进行多次采集。

在该情况下，同一轨迹中可能会连续多次出现同一采集设备的采集数据对应的轨迹点，可能对降低后续轨迹关联的准确性。

相应地，为了提高轨迹关联的准确性，可以依据同一轨迹中各轨迹点对应的采集时间所属时间分片，对对应的采集设备标识相同的轨迹点进行去重处理。

示例性的，一个时间分区可以包括多个时间分片。

例如，一个时间分区可以为3～5个自然日，一个时间分片可以为1～10分钟。

示例性的，对轨迹点进行去重可以在对轨迹进行时间分区划分之前进行(即对完整的轨迹进行轨迹点去重)，或，也可以在对轨迹进行时间分区划分之后进行(即分别对各子轨迹进行轨迹点去重)。

举例来说，以对完整的轨迹进行轨迹点去重为例，可以以UNIX时间戳0为起始时间，每隔第二时间间隔划分一个时间分片。

例如，假设第二时间间隔为T₂，开始时间为UNIX时间戳0，则第一个时间分片(绝对时间分区)为0～T₂，第二个时间分片为T₂～2T₂，依次类推。

又举例来说，以对子轨迹进行轨迹点去重为例，可以以子轨迹对应的时间分区的起始时间为起始时间，每隔第二时间间隔划分一个时间分片。

例如，假设第二时间间隔为T₂，时间分区的起始时间为nT₁，则第一个时间分片可以为nT₁～nT₁+T₂，第二个时间分片可以为nT₁+T₂～nT₁+2T₂，依次类推。

示例性的，对于任一时间分片，若该时间分片中存在多个对应的采集设备标识相同的轨迹点(来源于同一轨迹或子轨迹)，则可以对该多个轨迹点进行去重处理。例如，仅保留其中一个轨迹点。

需要说明的是，在对同一时间分片中的多个轨迹点进行去重处理时，保留的轨迹点的采集时间可以为该多个轨迹点中任一轨迹点对应的采集时间，或者，可以为该多个轨迹点中各轨迹点对应的采集时间的平均值。

示例性的，可以依据待搜索轨迹中去重后的各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量。

例如，依据待搜索轨迹中去重后的各轨迹点对应的采集时间，按采集时间从先到后的顺序，将待搜索轨迹中去重后的各轨迹点对应的采集设备标识输入到训练好的BERT模型，并对训练好的BERT模型的输出进行池化处理，生成待搜索轨迹的轨迹向量。

在一些实施例中，BERT模型通过以下方式训练：

获取已知关联结果的轨迹对，一个轨迹对包括一条第一轨迹和一条第二轨迹；

对于任一轨迹对，依据该轨迹对包括的第一轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将该第一轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到待训练的BERT模型，得到待训练的BERT模型的第一输出结果；以及，依据该轨迹对包括的第二轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将该第二轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到待训练的BERT模型，得到待训练的BERT模型的第二输出结果；

对第一输出结果进行池化处理，生成该第一轨迹对应的第一轨迹向量；以及，对第二输出结果进行池化处理，生成该第二轨迹的第二轨迹向量；

将第一轨迹向量与第二轨迹向量之间的相似度，确定为该轨迹对包括的人员轨迹和IMSI轨迹之间的相似度；

依据轨迹对包括的第一轨迹和第二轨迹之间的相似度，以及，轨迹对的关联结果，确定待训练的BERT模型的损失，并依据待训练的BERT模型的损失对待训练的BERT模型进行反馈优化。

示例性的，为了实现BERT模型的训练，需要获取一定数量的已知关联结果的轨迹对。

其中，一个轨迹对包括一条第一轨迹和一条第二轨迹。第一轨迹与第二轨迹的轨迹类型(即采集该轨迹的采集设备类型)可以相同，也可以不同。

示例性的，任一用于对BERT模型进行训练的轨迹对包括的第一轨迹和第二轨迹之间的关联结果(包括关联或不关联)可以预先标定好。

为了便于理解和说明，下文中以第一轨迹为人员轨迹，第二轨迹为IMSI轨迹为例。

在对BERT模型的训练过程中，对于任一轨迹对，可以依据该轨迹对包括的人员轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将该人员轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到待训练的BERT模型，得到待训练的BERT模型的输出结果(本文中称为第一输出结果)，并对第一输出结果进行池化处理，生成该人员轨迹对应的轨迹向量(本文中称为第一类型轨迹)。

同理，可以依据该轨迹对包括的IMSI轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将该IMSI轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到待训练的BERT模型，得到待训练的BERT模型的输出结果(本文中称为第二输出结果)，并对第二输出结果进行池化处理，生成该IMSI轨迹对应的轨迹向量(本文中称为第二类型轨迹)。

在按照上述方式得到了第一轨迹向量和第二轨迹向量的情况下，可以确定第一轨迹向量和第二轨迹向量之间的相似度(如余弦相似度)，并将该第一轨迹向量和第二轨迹向量之间的相似度，确定为该轨迹对包括的人员轨迹和IMSI轨迹之间的相似度，进而，可以依据轨迹对包括的人员轨迹和IMSI轨迹之间的相似度，以及，轨迹对的关联结果，确定待训练的BERT模型的损失，如MSE(Mean Square Error，均方误差)损失，并依据待训练BERT模型的损失对待训练的BERT模型进行反馈优化。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

在该实施例中，以人员轨迹与IMSI轨迹关联为例。

在该实施例中，轨迹关联实现方案包括：

1.1、点位映射归一化

人像采集数据和IMSI采集数据均是对应设备的采集数据，数据包括采集对象标识(human_id或者IMSI)、采集时间，以及，采集设备标识(如点位编号)。

由于目前的实际场景中，人像采集设备的点位编号和电子围栏设备的点位编号通常并不一致，利用基于向量检索的方式进行轨迹关联的准确性较低，因此，可以基于时空关系，对人像采集设备和电子围栏设备进行绑定。

示例性的，可以使用设备的经纬度信息，并参考设备的采集特性，使用时空关联的方式将电子围栏设备和人像采集设备关联在一起。

举例来说，假设有n台电子围栏设备，编号为A₁～A_n，对应的经纬度对为a₁～a_n(a_i为经纬度对，包含经度和纬度，下述人像采集设备类似)。同时，假设有m台人像采集设备，编号为B₁～B_m，对应的经纬度对为b₁～b_m。

使用设备经纬度进行距离计算，将距离小于阈值dis_bound(即上述预设距离阈值)的抓拍点位和电子围栏点位绑定在一起。最终绑定好的抓拍机点位j和电子围栏点位i满足如下关系：

distance(a_i，b_j)≤dis_bound

绑定好的点位编号对为(A_i，B_j)，将所有绑定好的点位编号对进行UUID编码，并构建A_i和UUID以及B_j和UUID之间的查询表(可以称为UUID映射表，记录有点位编号与UUID的映射关系)，以备快速查询。

1.2、轨迹和轨迹向量构建

1.2.1、轨迹构建

假设同个human_id的长度k1的抓拍轨迹序列为：

(B_i time_human₁)，(B_i+1 time_human₂)，...，(B_i+k1-1 ttime_human_k1)

其中，time_human_m，1≤m≤k₁代表抓拍采集时间，B_x，i≤x≤i+k₁-1，代表人像采集设备的点位编号，该点位编号为采集序列中的人像采集设备的点位编号，在同个序列中，点位编号可能出现重复的情况。

类似的，同个IMSI码，长为k₂的采集序列轨迹为：

(A_j time_imsi₁)，(A_j+1 time_imsi₂)，...，(A_j+k2-1 time_imsi_k2)

其中，time_imsi_n，1≤n≤k₂代表IMSI采集时间，A_x，j≤x≤j+k₂-1，代表电子围栏设备的点位编号，该点位编号为IMSI采集序列中电子围栏设备的点位编号，在同个序列中，点位编号可能出现重复的情况。

需要说明的是，k₁和k₂可以相同，也可以不同。

示例性的，依据点位映射归一化过程中构建的UUID映射表，可以将上述两种轨迹序列的点位编号替换成UUID。转换后的轨迹序列可以分别如下所示：(uuid_i time_human₁)，(uuid_i+1 time_human₂)，...，(uuid_i+k1-1time_human_k1)(uuid_j time_imsi₁)，(uuid_j+1time_imsi₂)，...，(uuid_j+k2-1 time_imsi_k2)

示例性的，考虑到若轨迹时间跨度过长，构建得到的轨迹会比较长，不利于存储和检索，也不利于轨迹关联。因而，可以对轨迹进行截断分组。

示例性的，可以按照绝对时间分区对轨迹进行截断分组。

例如，假设截断的时间间隔为T_limit(即上述T₁)，开始时间为UNIX时间戳0，则第一时间分区为0～T_limit，第二个区间为T_limit～2T_limit，依次类推。

示例性的，T_limit取值一般较大，常见的取值可以为3～5个自然日。

1.2.2、轨迹时间片映射去重

在该实施例中，为了避免短时间内同个设备重复采集的情况对轨迹关联的影响，可以将轨迹按照时间片去重。

示例性的，可以采用绝对时间片，设时间分片长度(即上述第二时间间隔)为Δt(即上述T₂)，绝对时间分片定义如下：

开始时间为UNIX时间戳0，第一个时间分片为0～Δt，第二个时间分片为Δt～2Δt，依次类推。

将人员轨迹和IMSI轨迹中各轨迹点按照采集时间投射到时间分片中，并将同条轨迹在同个时间分片内同个采集设备采集的轨迹点进行去重，得到轨迹时间分片映射序列。

示例性的，Δt取值一般较小，常见取值可以为1～10分钟。

1.2.3、轨迹向量构建

原始轨迹经过2.1和2.2的处理，得到最终的轨迹(各时间分片内、且进行了轨迹点去重的轨迹)。

对于任一轨迹，可以将该轨迹中各轨迹点对应的UUID，按采集时间从先到后的顺序，输入到训练好的BERT模型，生成对应的轨迹向量。

示例性的，BERT模型的训练可以如图2所示，模型训练可以使用SBERT算法。

在实际应用场景下，训练数据可以包括已知匹配结果(包括匹配或不匹配)的人员和IMSI对，对于任一已知匹配结果的人员和IMSI对，可以抽取人员的人员轨迹和IMSI的IMSI轨迹，按照1.1和1.2中所述方法进行处理后，依据SBERT训练方式，用于训练BERT模型。最终训练好后的模型可以用于轨迹向量的生成。

示例性的，当人员和IMSI匹配时，同一时间分区内的人员轨迹和IMSI轨迹关联；当人员和IMSI不匹配时，同一时间分区内的人员轨迹和IMSI轨迹不关联。

如图2所示，对于已知关联结果(包括关联或不关联)的人员轨迹(假设为轨迹A)和IMSI轨迹(假设为轨迹B)(即上述轨迹对)，可以按照上述方式进行点位编号到UUID的映射、时间分区的截断、轨迹点去重等处理，并分别输入到同一BERT模型中，并对BERT模型的输出进行池化处理，生成轨迹A和轨迹B对应的轨迹向量(可以分别记为u和v)，并计算u和v的余弦相似度。

在训练过程中，可以通过损失函数，如MSE(Mean Square Error，均方误差)损失函数，对BERT模型进行反馈优化，使在轨迹A和轨迹B在关联的情况下，u和v的相似度趋近于1，在轨迹A和轨迹B不关联的情况下，u和v的相似度趋近于-1。

示例性的，在训练过程中，若轨迹A和轨迹B关联，则训练数据的标签为1；若轨迹A和轨迹B不关联，则训练数据的标签为-1。

1.3、轨迹数据入库

如图3所示，轨迹数据入库实现流程可以包括：

1.3.1、获取轨迹点数据，轨迹点数据的内容可以包括但不限于：轨迹点类别、采集设备的点位编号(即上述采集设备标识)、采集时间和采集对象标识(人像数据为human_id、电子围栏采集数据为IMSI码)；

1.3.2、按照相同轨迹点类别和相同采集对象标识的原则，对轨迹点数据进行缓存；

1.3.3、判断缓存中的数据是否满足截断条件(即是否获取到新的时间分区的轨迹点数据，若获取到，则确定满足截断条件；否则，确定不满足截断条件)；若满足，则进行下一步；否则，继续进行数据缓存；

1.3.4、按照1.2.1以及1.2.2中描述的方式处理轨迹数据；

1.3.5、按照1.2.3中描述的方式将轨迹输入到训练好的BERT模型，生成对应的轨迹向量；

1.3.6、按照轨迹类型(人员轨迹或IMSI轨迹)插入到对应的轨迹库中。插入数据可以包括：原始未处理的轨迹序列、human_id或IMSI码、时间分区标识。

1.4、关联轨迹挖掘

如图4所示，关联轨迹挖掘实现流程可以包括：

1.4.1、获取原始轨迹序列(即待搜索轨迹)；

1.4.2、按照1.2.1以及1.2.1中描述的方式进行点位编号到UUID的映射、时间分区的截断，以及，轨迹点去重处理，得到待搜索的轨迹集合(即得到各时间分区的子轨迹)；

1.4.3、针对1.4.2中的任一子轨迹，按照1.2.3中描述的方式生成对应的轨迹向量；

1.4.4、依据原始轨迹序列的轨迹类型，选择待查询的轨迹库；

示例性的，若原始轨迹序列的轨迹类型为人员轨迹，则待查询的轨迹库为IMSI轨迹的轨迹库(可以称为IMSI轨迹库)；若原始轨迹序列的轨迹类型为IMSI轨迹，则待查询的轨迹库为人员轨迹的轨迹库(可以称为人员轨迹库)；

1.4.5、在所选择的查询库中，选择与当前子轨迹归属的时间分区相同的轨迹，基于向量检索方式，依据轨迹向量之间的余弦相似度，确定该子轨迹关联的目标轨迹；

1.4.6、在各时间分区的目标轨迹的数量为多条的情况下，对各子轨迹关联的目标轨迹进行融合，输出topN(相似度排序最高的N条轨迹，N≥1)。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图5，为本申请实施例提供的一种轨迹关联装置的结构示意图，如图5所示，该轨迹关联装置可以包括：

获取单元510，被配置为获取待搜索轨迹；其中，任一轨迹包括多个轨迹点，任一轨迹点对应的轨迹点数据包括采集设备标识以及采集时间；

生成单元520，被配置为依据待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成待搜索轨迹对应的轨迹向量；

轨迹关联单元530，被配置为基于向量检索方式，从轨迹库中搜索待搜索轨迹的相似轨迹；其中，轨迹库中存储多个轨迹、以及多个轨迹中每个轨迹对应的轨迹向量。

在一些实施例中，生成单元520，具体被配置为依据待搜索轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将待搜索轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到训练好的BERT模型；对训练好的BERT模型的输出结果进行池化处理，生成待搜索轨迹对应的轨迹向量；其中，对于任一轨迹点，该轨迹点对应的采集设备标识与该轨迹点对应的统一设备标识一一对应，统一设备标识用于唯一标识相互绑定的不同类型的采集设备。

在一些实施例中，获取单元510，具体被配置为获取初始待搜索轨迹；依据初始待搜索轨迹中各轨迹点对应的采集时间所归属的时间分区，确定初始待搜索轨迹中，在各个时间分区内的子轨迹；确定任一子轨迹为所述待搜索轨迹。

在一些实施例中，轨迹库中存储有多个不同时间分区内的轨迹、以及每个轨迹对应的轨迹向量；

轨迹关联单元530，具体被配置为基于向量检索方式，从轨迹库中待搜索轨迹对应的时间分区内的轨迹中，搜索与待搜索轨迹相似的轨迹。

在一些实施例中，待搜索轨迹的相似轨迹的数量至少为2；

轨迹关联单元530，还被配置为依据待搜索轨迹的相似轨迹对应的采集对象，将不同时间分区内对应同一采集对象的相似轨迹融合为完整轨迹；依据各完整轨迹的相似度，对各完整轨迹进行排序；输出相似度最高的指定数量的完整轨迹。

在一些实施例中，BERT模型通过以下方式训练：

获取已知关联结果的轨迹对，一个轨迹对包括一条第一类型轨迹和一条第二类型轨迹；

对于任一轨迹对，依据该轨迹对包括的第一类型轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将该第一类型轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到待训练的BERT模型，得到待训练的BERT模型的第一输出结果；以及，依据该轨迹对包括的第二类型轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将该第二类型轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到待训练的BERT模型，得到待训练的BERT模型的第二输出结果；

对第一输出结果进行池化处理，生成该第一类型轨迹对应的第一轨迹向量；以及，对第二输出结果进行池化处理，生成该第二类型轨迹的第二轨迹向量；

将第一轨迹向量与第二轨迹向量之间的相似度，确定为该轨迹对包括的第一类型轨迹和第二类型轨迹之间的相似度；

依据轨迹对包括的第一类型轨迹和第二类型轨迹之间的相似度，以及，轨迹对的关联结果，确定待训练的BERT模型的损失，并依据待训练的BERT模型的损失对待训练的BERT模型进行反馈优化。

请参见图6，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器601、通信接口602、存储器603和通信总线606。处理器601、通信接口602以及存储器603通过通信总线606完成相互间的通信。其中，存储器603上存放有计算机程序；处理器601可以通过执行存储器603上所存放的程序，执行上文描述的轨迹关联方法。

本文中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器603可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

本申请实施例还提供了一种存储有计算机程序的计算机可读存储介质，例如图6中的存储器603，该计算机程序可由图6所示电子设备中的处理器601执行以实现上文中描述的轨迹关联方法。

本申请实施例还提供了一种计算机程序，存储于计算机可读存储介质，例如图6中的存储器603，并且当处理器执行该计算机程序时，促使处理器601执行上文中描述的轨迹关联方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种轨迹关联方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述依据所述待搜索轨迹中各轨迹点对应的采集设备标识以及采集时间，生成所述待搜索轨迹对应的轨迹向量，包括：

依据所述待搜索轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将所述待搜索轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到训练好的BERT模型；

对训练好的BERT模型的输出结果进行池化处理，生成所述待搜索轨迹对应的轨迹向量；

3.根据权利要求1所述的方法，其特征在于，所述获取待搜索轨迹，包括：

获取初始待搜索轨迹；

依据所述初始待搜索轨迹中各轨迹点对应的采集时间所归属的时间分区，确定所述初始待搜索轨迹中，在各个时间分区内的子轨迹；

确定任一所述子轨迹为所述待搜索轨迹。

4.根据权利要求3所述的方法，其特征在于，所述轨迹库中存储有多个不同时间分区内的轨迹、以及每个轨迹对应的轨迹向量；所述基于向量检索方式，从轨迹库中搜索所述待搜索轨迹的相似轨迹，包括：

基于向量检索方式，从所述轨迹库中所述待搜索轨迹对应的时间分区内的轨迹中，搜索与所述待搜索轨迹相似的轨迹。

5.根据权利要求2所述的方法，其特征在于，所述BERT模型通过以下方式训练：

对所述第一输出结果进行池化处理，生成该第一轨迹对应的第一轨迹向量；以及，对所述第二输出结果进行池化处理，生成该第二轨迹的第二轨迹向量；

将所述第一轨迹向量与所述第二轨迹向量之间的相似度，确定为该轨迹对包括的第一轨迹和第二轨迹之间的相似度；

依据轨迹对包括的第一轨迹和第二轨迹之间的相似度，以及，轨迹对的关联结果，确定所述待训练的BERT模型的损失，并依据所述待训练的BERT模型的损失对所述待训练的BERT模型进行反馈优化。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述待搜索轨迹的相似轨迹的数量至少为2；所述方法还包括：

依据所述待搜索轨迹的相似轨迹对应的采集对象，将不同时间分区内对应同一采集对象的相似轨迹融合为完整轨迹；

依据各完整轨迹的相似度，对各完整轨迹进行排序；

输出相似度最高的指定数量的完整轨迹。

7.一种轨迹关联装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，

所述生成单元，具体被配置为依据所述待搜索轨迹中各轨迹点对应的采集时间，按采集时间从先到后的顺序，将所述待搜索轨迹中各轨迹点对应的统一设备标识或者采集设备标识输入到训练好的BERT模型；对训练好的BERT模型的输出结果进行池化处理，生成所述待搜索轨迹对应的轨迹向量；其中，对于任一轨迹点，该轨迹点对应的采集设备标识与该轨迹点对应的统一设备标识一一对应，统一设备标识用于唯一标识相互绑定的不同类型的采集设备；

其中，所述获取单元，具体被配置为获取初始待搜索轨迹；依据所述初始待搜索轨迹中各轨迹点对应的采集时间所归属的时间分区，确定所述初始待搜索轨迹中，在各个时间分区内的子轨迹；确定任一所述子轨迹为所述待搜索轨迹；

其中，所述轨迹库中存储有多个不同时间分区内的轨迹、以及每个轨迹对应的轨迹向量；

所述轨迹关联单元，具体被配置为基于向量检索方式，从所述轨迹库中所述待搜索轨迹对应的时间分区内的轨迹中，搜索与所述待搜索轨迹相似的轨迹；

其中，所述待搜索轨迹的相似轨迹的数量至少为2；

所述轨迹关联单元，还被配置为依据所述待搜索轨迹的相似轨迹对应的采集对象，将不同时间分区内对应同一采集对象的相似轨迹融合为完整轨迹；依据各完整轨迹的相似度，对各完整轨迹进行排序；输出相似度最高的指定数量的完整轨迹；

其中，所述BERT模型通过以下方式训练：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。