CN113591527A

CN113591527A - 一种对象轨迹识别方法、装置、电子设备和存储介质

Info

Publication number: CN113591527A
Application number: CN202110049271.6A
Authority: CN
Inventors: 邱泰儒; 陈冠先; 祁仲昂; 单瀛; 李斌; 薛向阳
Original assignee: Tencent Technology Shenzhen Co Ltd; Fudan University
Current assignee: Tencent Technology Shenzhen Co Ltd; Fudan University
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-11-02

Abstract

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种对象轨迹识别方法、装置、电子设备和存储介质，用以提高视频中对象重识别的准确率。其中，方法包括：对待识别视频进行镜头分割，获得多个视频片段，每个视频片段对应一个镜头；对获得的各视频片段进行对象检测，分别确定在各视频片段中检测到的各对象的检测框；将同一对象在同一视频片段不同视频帧中的各检测框连接，分别获得各视频片段中，各对象各自的追踪轨迹；针对各对象，将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中各对象的运动轨迹。本申请结合视频的特性，将对象轨迹识别过程划分为对象检测，轨迹追踪和重识别这三个部分，提高了对象重识别的准确率。

Description

一种对象轨迹识别方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种对象轨迹识别方法、装置、电子设备和存储介质。

背景技术

随着社会和科技的进步，目标识别越来越成为一项可依赖的技术，如人脸识别已经被作为广泛应用的安防手段。对于对象重识别任务，相关技术中的做法大多集中于某一个或者某几个特定类别上，如人、汽车等，来进行重识别，并且所处场景大部分为校园里或者马路上的监控摄像头，相对比较简单。基于这些相对简单的方法，难以在像小视频这样的复杂场景中实现较佳的检测效果。因而如何提高视频中对象重识别的准确率，在小视频等复杂场景中实现较佳的检测效果是亟待解决的。

发明内容

本申请实施例提供一种对象轨迹识别方法、装置、电子设备和存储介质，用以提高视频中对象重识别的准确率。

本申请实施例提供的一种对象轨迹识别方法，包括：

对待识别视频进行镜头分割，获得多个视频片段，其中，每个视频片段对应一个镜头，且每个视频片段包含至少一个视频帧；

对获得的各个视频片段进行对象检测，分别确定在所述各个视频片段中检测到的各个对象的检测框；

分别针对所述各个视频片段，将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，分别获得所述各个视频片段中，所述各个对象各自的追踪轨迹；

针对所述各个对象，将同一对象在不同视频片段内的追踪轨迹进行连接，获得所述待识别视频中的所述各个对象各自的运动轨迹。

本申请实施例提供的一种对象轨迹识别装置，包括：

镜头分割单元，用于对待识别视频进行镜头分割，获得多个视频片段，其中，每个视频片段对应一个镜头，且每个视频片段包含至少一个视频帧；

对象检测单元，用于对获得的各个视频片段进行对象检测，分别确定在所述各个视频片段中检测到的各个对象的检测框；

轨迹追踪单元，用于分别针对所述各个视频片段，将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，分别获得所述各个视频片段中，所述各个对象各自的追踪轨迹；

重识别单元，用于针对所述各个对象，将同一对象在不同视频片段内的追踪轨迹进行连接，获得所述待识别视频中的所述各个对象各自的运动轨迹。

可选的，所述对象检测单元具体用于：

针对所述各个视频片段中的各个视频帧，分别采用如下操作获得所述各个对象的检测框：

获取所述各个视频帧中的一个视频帧对应的局部语义信息、局部位置信息以及全局语义信息；

将所述一个视频帧以及所述一个视频帧之前的视频帧各自对应的局部语义信息、局部位置信息和全局语义信息分别进行融合，获得相应的局部语义融合特征、局部位置融合特征和全局语义融合特征；

基于所述局部语义融合特征、所述局部位置融合特征和所述全局语义融合特征，对所述一个视频帧进行对象检测，确定在所述一个视频帧中检测到的各个对象的检测框。

可选的，所述对象检测单元具体用于：

在所述一个视频帧归属的视频片段中，获取所述一个视频帧之前的视频帧中包含目标对象的区域的特征图，与所述一个视频帧对应的特征图之间的第一互相关度；

基于所述第一互相关度确定所述一个视频帧中与所述目标对象相应的对象所在的第一区域，并通过增强所述第一区域的特征，获得相应的局部语义融合特征；

在所述一个视频帧归属的视频片段中，获取所述一个视频帧之前的视频帧中的检测框的位置信息，基于所述位置信息确定所述一个视频帧对应的特征图中相应的第二区域，并通过增强所述第二区域的特征，获得相应的局部位置融合特征；

在所述一个视频帧归属的视频片段中，获取所述一个视频帧之前的视频帧中的至少一个对象的平均特征，与所述一个视频帧对应的特征图之间的第二互相关度；

基于所述第二互相关度获取所述一个视频帧中与所述至少一个对象相应的对象所在的第三区域，并通过增强所述第三区域的特征，获得相应的全局语义融合特征。

可选的，所述轨迹追踪单元具体用于：

分别获取所述各个视频片段内的各个视频帧中，各个检测框内的对象检测结果；

对于同一视频片段内的各个视频帧，逐帧获取所述各个视频帧对应的各个对象检测结果的特征与各个现存追踪轨迹对应的特征之间的特征相似度，其中，所述现存追踪轨迹为基于当前视频帧之前的视频帧获得的对象的追踪轨迹；

针对所述各个对象检测结果，分别执行以下操作：

对于所述各个对象检测结果中的一个对象检测结果，若所述一个对象检测结果与对应的特征相似度最高的现存追踪轨迹之间的特征相似度大于第一预设阈值，则将所述一个对象检测结果与所述特征相似度最高的现存追踪轨迹拼接，获得所述特征相似度最高的现存追踪轨迹对应的对象在所述同一视频片段内的追踪轨迹；

若所述一个对象检测结果与所有的现存追踪轨迹的特征相似度都低于所述第一预设阈值，则将所述一个对象检测结果对应的对象作为新增对象，并以当前帧作为初始帧创建一条新的追踪轨迹。

可选的，所述轨迹追踪单元具体用于：

针对所述各个对象检测结果与所述各个现存追踪轨迹，分别执行以下操作：

对于所述各个对象检测结果中的一个对象检测结果与所述各个现存追踪轨迹中的一个现存追踪轨迹，基于所述一个对象检测结果的特征和所述一个现存追踪轨迹的特征，获取对应的响应图，其中，所述响应图用于表征所述一个对象检测结果对应的特征图中的像素与所述一个现存追踪轨迹对应的特征图中的像素之间的相似度；

将所述响应图中设定数量个幅值最高的区域对应的相似度的均值，作为所述一个对象检测结果与所述一个现存追踪轨迹之间的特征相似度。

可选的，所述重识别单元具体用于：

将第一个视频片段内的各个追踪轨迹初始化为查询集，并将剩余视频片段内的各个追踪轨迹作为检索库；

按时间顺序逐个遍历所述检索库中的各个追踪轨迹，分别获取所述检索库中的各个追踪轨迹与所述查询集中的各个追踪轨迹之间的第一轨迹相似度；

基于所述第一轨迹相似度对各个视频片段内的各个追踪轨迹进行匹配，并将匹配到的属于同一对象的各个追踪轨迹进行连接，获得所述各个对象的运动轨迹。

可选的，所述重识别单元具体用于：

若所述对象为人物，则基于人脸识别方法和行人重识别方法，对不同视频片段内的人物进行重识别，获得不同视频片段内的人物的第一对象相似度；根据所述第一相似度确定不同视频片段内的同一对象，并将所述同一对象在不同视频片段内的追踪轨迹进行连接，获得所述待识别视频中的各个对象的运动轨迹；

若所述对象为非人物，则基于行人重识别方法，对不同视频片段内的非人物进行重识别，获得不同视频片段内的非人物的第二对象相似度，根据所述第二相似度确定不同视频片段内的同一对象，并将所述同一对象在不同视频片段内的追踪轨迹进行连接，获得所述待识别视频中的各个对象的运动轨迹；

其中，所述第一对象相似度是基于人脸相似度和重识别相似度确定的，所述第二对象相似度为基于重识别相似度确定的，所述人脸相似度为通过人脸识别获得的不同视频片段内的对象的人脸特征之间的相似度，所述重识别相似度为通过行人重识别获得的不同视频片段内的对象的行人重识别特征之间的相似度。

可选的，所述装置还包括：

更新单元，用于针对所述检索库中的各个追踪轨迹，分别执行以下操作：

对于所述检索库中的各个追踪轨迹中的一个追踪轨迹，分别获取所述一个追踪轨迹与所述查询集中的各个追踪轨迹之间的第二轨迹相似度；

基于获取到的所述第二轨迹相似度，从所述查询集中查找与所述一个追踪轨迹最匹配的追踪轨迹，并确定所述最匹配的追踪轨迹的轨迹标识；

若所述查询集中的各个第一追踪轨迹与所述一个追踪轨迹之间的最大相似度，和所述查询集中的各个第二追踪轨迹与所述一个追踪轨迹之间的平均相似度的差值大于第二预设阈值，则将所述一个追踪轨迹加入所述查询集中，其中，所述第一追踪轨迹为所述查询集中具有与所述轨迹标识相同的标识的追踪轨迹，所述第二追踪轨迹为所述查询集中具有与所述轨迹标识不同的标识的追踪轨迹，所述一个追踪轨迹在所述查询集中的轨迹标识与所述轨迹标识相同。

可选的，所述对象检测单元具体用于：

将所述各个视频片段输入已训练的重识别模型，基于所述重识别模型中的对象检测部分，分别对所述各个视频片段进行对象检测，获得在所述各个视频片段中检测到的各个对象的检测框；

所述轨迹追踪单元具体用于：

将检测到的检测框与相应的视频片段输入所述重识别模型中的对象追踪部分，基于所述对象追踪部分分别将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，获得所述各个视频片段中，所述各个对象各自的追踪轨迹；

所述重识别单元具体用于：

基于所述重识别模型中的对象重识别部分，将同一对象在不同视频片段内的追踪轨迹进行连接，获得所述待识别视频中的所述各个对象各自的运动轨迹；

其中，所述重识别模型是基于训练样本数据集训练获得的，所述训练样本数据集中的训练样本包括对样本视频进行镜头分割获得的多个样本视频片段，所述样本视频为包含至少一个样本对象的视频，所述样本视频片段包含至少一个视频帧。

可选的，所述装置还包括：

模型训练单元，用于通过下列方式训练获得重识别模型：

根据所述训练样本数据集中的训练样本，对重识别模型执行循环迭代训练，并在训练完毕时，输出训练完毕的重识别模型；其中，在一次循环迭代训练过程中执行以下操作：

从所述训练样本数据集中选取一个训练样本；

分别将所述训练样本中的各个样本视频片段输入重识别模型，基于所述重识别模型中的对象检测部分，分别对所述各个样本视频片段进行对象检测，获得在所述各个样本视频片段中检测到的各个样本对象的检测框；

将检测到的检测框与相应的样本视频片段输入所述重识别模型中的对象追踪部分，基于所述对象追踪部分分别将同一样本对象在同一样本视频片段内不同视频帧中的各个检测框进行连接，获得所述各个样本视频片段中，所述各个样本对象各自的追踪轨迹；

基于所述重识别模型中的样本对象重识别部分，将同一样本对象在不同视频片段内的追踪轨迹进行连接，获得所述样本视频中的各个样本对象各自的运动轨迹；

基于所述各个样本对象各自的运动轨迹构建损失函数，并基于所述损失函数对所述重识别模型进行参数调整。

可选的，所述装置还包括：

视频筛选单元，用于对所述待识别视频中的各个对象进行筛选，获取至少一个候选对象；

基于所述至少一个候选对象的运动轨迹，从预设视频集合中获得包含所述至少一个候选对象的其他视频。

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述一种对象轨迹识别方法的步骤。

本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任意一种对象轨迹识别方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行上述一种对象轨迹识别方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种对象轨迹识别方法、装置、电子设备和存储介质。由于本申请实施例中结合视频的特性，首先对视频进行镜头分割，划分为多个视频片段，每个视频片段各自对应一个镜头，这样分镜头进行轨迹追踪后，再将各镜头内对象对应的追踪轨迹进行匹配和拼接，即可获得待识别视频中各个对象完整的运动轨迹，避免视频中原有的镜头切换导致的物体运动不连续，进而导致追踪会中断的问题。本申请实施例结合视频的特性，将对象轨迹识别过程划分为对象检测，轨迹追踪和重识别这三个部分，有效提高了对象重识别的准确率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中的一种应用场景的一个可选的示意图；

图2为本申请实施例中的一种对象轨迹识别方法的流程示意图；

图3为本申请实施例中的一种小视频相似物体搜索方法的流程图；

图4为本申请实施例中的一种小视频相似物体搜索结果示意图；

图5为本申请实施例中的一种确定检测框的方法的流程示意图；

图6为本申请实施例中的一种时序信息融合网络的结构示意图；

图7为本申请实施例中的一种局部语义信息融合过程示意图；

图8为本申请实施例中的一种局部位置信息融合过程示意图；

图9为本申请实施例中的一种全局语义信息融合过程示意图；

图10为本申请实施例中的一种点对点的相似度计算方式示例图；

图11为本申请实施例中的一种重识别模型的训练方法流程图；

图12为本申请实施例中的一种对象轨迹识别装置的组成结构示意图；

图13为应用本申请实施例中的第一种电子设备的组成结构示意图；

图14为应用本申请实施例中的第二种电子设备的组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

行人重识别(Person re-identification，Re-ID)：也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补相关技术中固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

小视频：指短视频，即短片视频，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在5分钟以内的视频；随着移动终端普及和网络的提速，短平快的大流量传播内容逐渐获得各大平台、粉丝和资本的青睐。

语义信息：是信息的表现形式之一，指能够消除事物不确定性的有一定意义的信息。对信息接受者来说，信息可表现为语法信息、语义信息和语用信息三个层次。语义信息可以借助自然语言去领会和解释。只有人类社会的信息才包含语义信息。凡科学信息都属于语义信息。由于个人在知识水平和认识能力方面有差异，因此，对语义信息的理解往往带有较强的主观色彩。不同的人从同一语法信息中所得到的语义信息和语用信息明显不同。在本申请实施例中，语义信息分为局部语义信息和全局语义信息，这两个都是针对视频帧图像的特征图而言，其中，局部和全局所对应的时间域融合范围不同。具体的，局部的融合范围是当前帧的前tau帧，全局的融合范围是当前帧以前的所有帧。

融合特征：是指对本文中的局部语义信息进行融合，对局部位置信息进行融合，对全局语义信息进行融合所得到的，包括局部语义融合特征，全局语义融合特征和局部位置融合特征。其中，局部语义融合特征指当前帧视频帧，以及在同一镜头内，该帧视频帧之前的tau个视频帧对应的局部语义信息进行融合所得到的融合特征。局部位置融合特征指当前帧视频帧，以及在同一镜头内，该帧视频帧之前的tau个视频帧对应的局部位置信息进行融合所得到的融合特征。全局语义融合特征指当前帧视频帧，以及在同一镜头内，该帧视频帧之前的所有视频帧对应的全局语义信息进行融合所得到的融合特征。

本申请实施例涉及人工智能(Artificial Intelligence，AI)和机器学习技术，基于人工智能中的计算机视觉技术和机器学习(Machine Learning，ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域获得应用，并发挥越来越重要的价值。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言，机器学习更加注重算法的设计，让计算机能够自动地从数据中“学习”规律，并利用规律对未知数据进行预测。

机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。强化学习(Reinforcement Learning，RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

本申请实施例在对视频中的对象进行轨迹识别时，采用机器学习的重识别模型。在本申请实施例中提出的训练重识别模型的方法可分为两部分，包括训练部分和应用部分；其中，训练部分就涉及到机器学习这一技术领域，在训练部分中，通过机器学习这一技术训练重识别模型，使得本申请实施例中给出的包含至少一个样本对象的样本视频作为训练样本来训练重识别模型，训练样本通过重识别模型后，获取重识别模型的输出结果，结合输出结果，通过优化算法不断调整模型参数；应用部分用于使用在训练部分训练获得的重识别模型来对待识别视频中的各个对象进行对象检测，轨迹追踪和重识别等，最终获得待识别视频中的各个对象的运动轨迹。另外，还需要说明的是，本申请实施例中重识别模型可以是在线训练也可以是离线训练，在此不做具体限定。在本申请实施例中是以离线训练为例进行举例说明的。

下面对本申请实施例的设计思想进行简要介绍：

对象重识别问题，是利用计算机视觉技术判断图像或者视频序列中是否存在特定目标的问题。具体地，在利用视频跟踪特定目标时，由于视频源来自固定位置，所以当目标离开视野范围时，需要进行跨视频接力跟踪，这时，在其他视频源中检测出该特定目标的问题则属于对象重识别问题。

然而，对于对象重识别任务，相关技术中的做法大多集中于某一个或者某几个特定类别上，如人、汽车等，来进行重识别，并且所处场景大部分为校园里或者马路上的监控摄像头，相对比较简单。基于这些相对简单的方法，难以在像小视频这样的复杂场景中实现较佳的检测效果。

有鉴于此，本申请实施例提出了一种对象轨迹识别方法、装置、电子设备和存储介质。由于本申请实施例提供了一种对象轨迹识别方法、装置、电子设备和存储介质。由于本申请实施例中结合视频的特性，首先对视频进行镜头分割，划分为多个视频片段，每个视频片段各自对应一个镜头，这样分镜头进行轨迹追踪后，再将各镜头内对象对应的追踪轨迹进行匹配和拼接，即可获得待识别视频中各个对象完整的运动轨迹，避免视频中原有的镜头切换导致的物体运动不连续，进而导致追踪会中断的问题。本申请实施例结合视频的特性，将对象轨迹识别过程划分为对象检测，轨迹追踪和重识别这三个部分，有效提高了对象重识别的准确率。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，其为本申请实施例的应用场景示意图。其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。终端设备110与服务器120之间可以通过通信网络进行通信。用户可通过终端设备110浏览视频，终端设备110上可以安装有视频相关的应用，例如视频软件，短视频软件等，本申请实施例涉及的应用可以是软件，也可以是网页、小程序等客户端，后台服务器则是与软件或是网页、小程序等相对应的后台服务器，不限制客户端的具体类型。

在一种可选的实施方式中，通信网络是有线网络或无线网络。终端设备110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在本申请实施例中，终端设备110为用户使用的电子设备，该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器120，服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，重识别模型可部署于服务器120上进行训练，服务器120中可存储有大量训练样本，用于训练重识别模型。可选的，在基于本申请实施例中的训练方法训练得到重识别模型之后，可直接将训练好的重识别模型部署于服务器120或终端设备110上。一般情况下都是直接将重识别模型部署于服务器120上，在本申请实施例中，重识别模型主要用于对待识别视频中的各个对象进行重识别，获得各个对象的运动轨迹。依据该模型即可自动提取小视频中关键物体的运动轨迹和语义特征，并且基于运动轨迹和语义特征，还可在多个视频中找到含有相同物体的其他视频，等等。

在一种可能的应用场景中，本申请中的训练样本可以采用云存储技术进行存储。云存储(cloudstorage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

在一种可能的应用场景中，为了便于降低通信时延，可以在各个地区部署服务器120，或为了负载均衡，可以由不同的服务器120分别去服务各个终端备10对应的地区。多个服务器120以通过区块链实现数据的共享，多个服务器120相当于多个服务器120组成的数据共享系统。例如终端设备110位于地点a，与服务器120之间进行通信连接，终端设备110位于地点b，与其他服务器120之间通信连接。

对于数据共享系统中的每个服务器120，均具有与该服务器120对应的节点标识，数据共享系统中的每个服务器120均可以存储有数据共享系统中其他服务器120的节点标识，以便后续根据其他服务器120的节点标识，将生成的区块广播至数据共享系统中的其他服务器120。每个服务器120中可维护一个如下表所示的节点标识列表，将服务器120名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为网络之间互联的协议(InternetProtocol，IP)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1

服务器名称	节点标识
		节点1	119.115.151.174
节点2	118.116.189.145
		…	…
节点N	119.124.789.258

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的对象轨迹识别方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图2所示，为本申请实施例提供的一种对象轨迹识别方法的实施流程图，该方法的具体实施流程如下：

S21：对待识别视频进行镜头分割，获得多个视频片段，其中，每个视频片段对应一个镜头，且每个视频片段包含至少一个视频帧；

在本申请实施例中，为了应对视频中原有的镜头切换导致的物体运动不连续，进而导致追踪会中断的问题，本申请实施例中对待识别视频进行镜头分割，将待识别视频按照镜头切割开来，划分成多个视频片段。

其中，对待识别视频进行镜头分割时，一些常见的镜头分割方法有：

直方图法，根据前后帧各像素的颜色分布统计直方图的变化量是否超过阈值，来判断是否发生了镜头切换；像素法，根据前后帧所有像素的亮度、灰度或色彩度和的差别来判断；或者是一些基于深度网络训练学习来判断的方法等，在此不做具体限定。

以待识别视频为小视频(短视频)为例，对于输入的长度为T的小视频

首先进行镜头分割，从而得到K个视频片段序列

表示K个镜头，其中

表示从时刻t^*开始的第k个镜头，其中参数t表示时间。

S22：对获得的各个视频片段进行对象检测，分别确定在各个视频片段中检测到的各个对象的检测框；

在本申请实施例中，通过对象检测，来识别小视频内各个视频片段的各帧视频帧中包含的对象，对各个对象进行定位和分类。

在一种可选的实施方式中，可基于机器学习模型来执行步骤S22，具体的：将各个视频片段输入已训练的重识别模型，基于重识别模型中的对象检测部分，分别对各个视频片段进行对象检测，获得在各个视频片段中检测到的各个对象的检测框。

例如上述所列举的，将各个视频片段分别输入到重识别模型中的对象检测部分，基于该对象检测部分对各个视频片段分别进行对象检测，得到各个视频片段中的各帧视频帧中的N个物体的检测框

S23：分别针对各个视频片段，将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，分别获得各个视频片段中，各个对象各自的追踪轨迹；

在一种可选的实施方式中，步骤S23也可基于机器学习模型来执行，具体的：将检测到的检测框与相应的视频片段输入重识别模型中的对象追踪部分，基于对象追踪部分分别将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，获得各个视频片段中，各个对象各自的追踪轨迹。

基于上述过程，可以将对象检测部分得到的不同镜头内同一对象在不同时间的视频帧内检测到的各个检测框给连接起来，得到在各个视频片段中，各个对象各自的追踪轨迹，该追踪轨迹是指各个镜头内，对各个对象进行轨迹追踪所得到的追踪轨迹。

具体的，将步骤S22中检测到的各个检测框以及与各个检测框相应的视频片段一同输入到重识别模型中的对象追踪部分，基于对象追踪部分将对象检测部分得到的不同镜头内同一对象在不同时间的视频帧内检测到的各个检测框给连接起来，得到各个对象在各个镜头内的追踪轨迹，记作

S24：针对各个对象，将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中的各个对象各自的运动轨迹。

在一种可选的实施方式中，步骤S24也可基于机器学习模型来执行，具体的：基于重识别模型中的对象重识别部分，将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中的各个对象各自的运动轨迹。

在对象重识别部分，主要用于将对象追踪部分得到的同一对象在不同镜头内的追踪轨迹连接为完整的运动轨迹。因而，在识别不同镜头内的同一对象时，具体工作流程是先将第一个镜头内的各个追踪轨迹初始化为查询集(query)，而将剩余的各个追踪轨迹作为检索库(gallery)，然后逐个按时间顺序遍历检索库中的各个追踪轨迹，分别与查询集中的各个追踪轨迹计算特征相似度来进行匹配和连接，最终得到各个对象完整的运动轨迹。

需要说明的是，本申请实施例中跨镜头通用对象重识别部分需要分为两个分支，分别处理人的跨镜头重识别任务和非人对象的跨镜头重识别任务。因而，可将轨迹区分为人的轨迹和非人对象的轨迹，分别得到人和非人对象在视频中的完整运动轨迹

并输出。

在一种可选的实施方式中，还可对待识别视频中的各个对象进行筛选，获取至少一个候选对象；基于至少一个候选对象的运动轨迹，从预设视频集合中获得包含至少一个候选对象的其他视频。另外，也可基于该至少一个候选对象的运动轨迹和提取到的特征，从预设视频集合中查找包含有相同的候选对象的其他视频，实现小视频相似物体的搜索。

参阅图3所示，其为本申请实施例中的一种小视频相似物体搜索方法的流程图。对于待识别的小视频，首先将该小视频进行镜头分割，得到多个视频片段(Video Clip)，表示为Fq，将各个视频片段进行对象检测(Detection)，得到各个检测框，表示为B^1：t，之后，基于检测框和视频片段进行对象追踪(Tracking)，得到各个追踪轨迹，表示为traj_1:n，其中的1，2，3是根据对象的类别划分的，分别对应3个对象。轨迹划分为人物轨迹(PersonTracklets)和非人物体轨迹(Non-Person Tracklets)，例如中所示，其中对象2为人物，对象1和对象3为非人对象。

在本申请实施例中，将各个对象在不同镜头中的追踪轨迹合并之后，即可获得各个对象完整的运动轨迹(Tracklets)。接下来，还可进一步进行主要物体筛选(MajorObject Selecting)，筛选其中的主要物体，进而根据这些主要物体的运动轨迹traji∈major(N)(也可进一步参考这些主要物体的特征)进行对象识别检测(Indentical ObjectRetrieval)，筛选出包含这些物体的其它小视频集合{Fg}。

在上述实施方式中，针对小视频的特殊性，提出了结合视频对象检测、视频对象追踪、视频对象重识别三个模块的系统，从而找到小视频中的主要物体，针对小视频的复杂场景进行物体轨迹及特征的提取，并利用其可以在其他视频中找到与之一致的物体，有效实现了小视频相似物体的搜索。

参阅图4所示，其为本申请实施例中的一种小视频相似物体搜索结果示意图。其中，基于箭头左侧的小视频可以搜索到与该小视频包含同一人物的其它小视频，图4中列举出了三个，即箭头右侧的这三个小视频。此外，也可以搜索到更多具有相同或相似物体的小视频，在图4中并未全部列举。

基于上述方法，可以有效从一堆小视频中识别出与目标视频包含相似物体，或者是包含相同物体的小视频，实现小视频相似物体搜索。

在一种可选的实施方式中，对获得的各个视频片段进行对象检测，分别确定在各个视频片段中检测到的各个对象的检测框时，具体是针对各个视频片段进行单独检测的，分别对同一视频片段中的各个视频帧进行检测，获得各个对象在各个视频片段中的检测框。具体的，针对各个视频片段中的每个视频片段而言，都需要对该视频片段中的各个视频帧进行对象检测，分别采用如下操作获得各个视频帧中的各个对象的检测框，参阅图5所示，其为本申请实施例中的一种确定检测框的方法的流程示意图：

S51：获取各个视频帧中的一个视频帧对应的局部语义信息、局部位置信息以及全局语义信息；

在本申请实施例中，全局语义信息和局部语义信息主要是指对象的语义信息，局部位置信息主要是指检测框的位置信息。

S52：将一个视频帧以及一个视频帧之前的视频帧各自对应的局部语义信息、局部位置信息和全局语义信息分别进行融合，获得相应的局部语义融合特征、局部位置融合特征和全局语义融合特征；

在本申请实施例中，局部与全局指的是时间域上的局部与全局，其中，局部的融合范围是当前帧的前tau帧，全局的融合范围是当前帧以前的所有帧。该步骤中的一个视频帧可以是指逐帧检测过程中的当前帧视频帧，对于当前帧而言，该步骤具体是将当前帧以及当前帧之前的几帧视频帧(例如tau帧)各自对应的局部语义信息进行融合，获得相应的局部语义融合特征；将当前帧以及当前帧之前的几帧视频帧(例如tau帧)各自对应的局部位置信息进行融合，获得相应的局部位置融合特征；将当前帧以及当前帧之前的所有帧视频帧各自对应的全局语义信息进行融合，获得相应的全局语义融合特征。

S53：基于局部语义融合特征、局部位置融合特征和全局语义融合特征，对一个视频帧进行对象检测，确定在一个视频帧中检测到的各个对象的检测框。

该步骤具体是指，基于步骤S52中确定的局部语义融合特征、局部位置融合特征和全局语义融合特征，来对当前帧视频帧进行对象检测，获得在该帧视频帧中检测到的各个对象的检测框。

在上述实施方式中，通过不断重复上述步骤，对每个视频片段中的各个视频帧进行对象检测，即可获得各个对象的检测框。

参阅图6所示，其为本申请实施例中的一种时序信息融合网络(TemporalInformation Fusion Network，TIFN)的结构示意图。其中，将t^*-τ至t^*这几个时刻的视频帧

至

输入TIFN，假设当前帧为

经由残差模块，空间金字塔模块，时序信息融合模块等进行相应的处理，另外中间还涉及如图6所示的下采样操作，上采样操作和拼接操作等，最终即可获得相应的局部语义融合特征，局部位置融合特征和全局语义融合特征。

在本申请实施例中，通过使用针对小视频场景提出的TIFN进行信息融合，其主要使用局部语义信息、局部位置信息以及全局语义信息来对小视频中当前帧的特征进行聚合强化，将语义相似性和位置连续性进行分离处理，并引入全局特征，增强了视频对象检测的鲁棒性，更好地适应小视频的复杂场景特点，使得视频对象检测算法能够在小视频等复杂场景下仍能保持良好的检测效果。

具体的，本申请实施例中的TIFN中使用了三个不同的子模块来分别融合局部语义信息、局部位置信息以及全局语义信息。其中图6中的“×3”即表示分别经过三个不同的子模块进行融合。下面结合图7至图9这几个附图对本申请实施例中所列举的信息融合的过程进行详细介绍：

参阅图7所示，其为本申请实施例中所列举的一种局部语义信息融合过程示意图。对于局部语义信息，具体的：在一个视频帧归属的视频片段中，获取该视频帧之前的视频帧中包含目标对象的区域的特征图，与该视频帧对应的特征图之间的互相关度，即第一互相关度，基于第一互相关度确定该视频帧中与目标对象相应的对象所在的第一区域，并通过增强第一区域的特征，获得相应的局部语义融合特征。

其中，该子模块中主要是使用前几帧中检测到的对象区域特征(指包含目标对象的区域的特征图)来与当前帧特征图计算第一互相关度，即图7所示，

可表示t^*-τ帧的特征图，

可表示t^*帧的特征图，通过互相关(xcorr)操作计算第一互相关度，

表示t^*-τ帧中的检测框。在实际代码实现中，本申请通过将包含目标对象的区域的特征图作为卷积核，即图中的

在当前帧特征图上进行卷积操作，得到表示当前帧各区域与目标对象的相似度响应图Attn_ls，从而找到当前帧中相应对象所在的区域并增强该区域的特征，得到当前帧视频帧对应的局部语义融合特征。最终可基于该融合特征确定

中的检测框

参阅图8所示，其为本申请实施例中的一种局部位置信息融合过程示意图。对于局部位置信息，具体的：在一个视频帧归属的视频片段中，获取该视频帧之前的视频帧中的检测框的位置信息，基于位置信息确定该视频帧对应的特征图中相应的第二区域，并通过增强第二区域的特征，获得相应的局部位置融合特征。

其中，该子模块中主要是使用前几帧中检测到的对象检测框位置信息，在当前帧的特征图相应区域通过创建二维汉宁窗的方式，即图中的

得到注意力集中于与前几帧中目标对象所在位置相同的区域的注意力图Attn_ll，从而增强该区域的特征，获得相应的局部位置融合特征。最终可基于该融合特征确定

中的检测框

参阅图9所示，其为本申请实施例中的一种全局语义信息融合过程示意图。对于全局语义信息，具体的：在一个视频帧归属的视频片段中，获取一个视频帧之前的视频帧中的至少一个对象的平均特征，与一个视频帧对应的特征图之间的第二互相关度；基于第二互相关度获取一个视频帧中与至少一个对象相应的对象所在的第三区域，并通过增强第三区域的特征，获得相应的全局语义融合特征。

其中，该子模块中主要是使用一个全局池(global set)来存储当前帧之前的所有帧中出现过的主要对象的平均特征{crop_n}G，并用这些特征来与当前帧特征图计算互相关度，即第二互相关度，通过与局部语义信息子模块相同的方式，得到相似度响应图Attn_gs，从而找到当前帧中相应对象所在的区域并增强该区域的特征，获得相应的全局语义融合特征。最终可基于该融合特征确定

中的检测框

在上述实施方式中，分别确定在各个视频片段中检测到的各个对象的检测框之后，即可进行对象追踪和重识别。

在一种可选的实施方式，在执行步骤S23时，具体包括如下流程：

首先，分别获取各个视频片段内的各个视频帧中，各个检测框内的对象检测结果；进而，对于同一视频片段内的各个视频帧，逐帧获取各个视频帧对应的各个对象检测结果的特征与各个现存追踪轨迹对应的特征之间的特征相似度，其中，现存追踪轨迹为基于当前视频帧之前的视频帧获得的对象的追踪轨迹。

在本申请实施例中，针对同一视频片段获得的各个对象检测结果，分别执行以下操作：

对于各个对象检测结果中的一个对象检测结果，若该对象检测结果与对应的特征相似度最高的现存追踪轨迹之间的特征相似度大于第一预设阈值，则将该对象检测结果与特征相似度最高的现存追踪轨迹拼接，即将该对象检测结果分配给与其特征相似度最高的现存追踪轨迹，然后将该结果与该现存追踪轨迹进行拼接即可，最终将拼接得到的追踪轨迹作为该对象检测结果分配给相似度最高的追踪轨迹特征相似度最高的现存追踪轨迹对应的对象在该视频片段内的追踪轨迹。若该对象检测结果与所有的现存追踪轨迹的特征相似度都很低，都低于第一预设阈值，则表明该对象是一个在当前帧视频新出现的对象，将该对象检测结果对应的对象作为新增对象，并以当前帧作为初始帧创建一条新的追踪轨迹。

在本申请实施例中，采用了一个去除了最后的全连接层的ResNet50网络来作为对象追踪部分的主干网络，提取检测框内对象的特征，并逐帧计算当前帧中各对象检测结果的特征与各现存追踪轨迹的特征的特征相似度，可表示为相似度矩阵的形式，最终基于特征相似度的大小，来分配各对象检测结果，与相应的现存追踪轨迹进行拼接，或者是创建一条新的追踪轨迹，实现同一镜头内个对象的追踪轨迹的有效检测。

在本申请实施例中，与常规的追踪算法不同的是，为了得到更为细粒度级别的特征相似度，实现检测物体局部区域之间的相互匹配，本申请采用了点对点式的相似度计算方式。为了方便计算，本申请采用余弦距离来度量局部区域的特征相似度，当然也可以采用其他距离来度量特征相似度，例如欧式距离，在此不做具体限定。

在一种可选的实施方式中，针对各个对象检测结果与各个现存追踪轨迹，在计算各个对象检测结果中的一个对象检测结果与各个现存追踪轨迹中的一个现存追踪轨迹之间的特征相似度时，基于该对象检测结果的特征和该现存追踪轨迹的特征，获取对应的响应图，其中，响应图用于表征该对象检测结果对应的特征图中的像素与该现存追踪轨迹对应的特征图中的像素之间的相似度；将响应图中设定数量个幅值最高的区域对应的相似度的均值，作为该对象检测结果与该现存追踪轨迹之间的特征相似度。

例如设定数量为k时，计算过程如公式1和公式2所示：

其中，f_det，f_tr分别表示当前帧对象检测结果的特征和现存追踪轨迹的特征，φ(f_det，f_tr)是两特征点对点的响应图，top_k(·)表示响应图中k个幅值最高的区域，通过对响应图中k个幅值最高的区域求均值的方式得到最终的相似度结果。

参阅图10所示，其为本申请实施例中的一种点对点的相似度计算方式示例图。其中，F_d表示当前帧的一个对象检测结果的特征图，P₁₁，P₁₂分别表示该特征图中的两个特征点；F_t表示一个现存追踪轨迹的特征图，P₂₁，P₂₂分别表示该特征图中的两个特征点。如图10所示，Rensponse Map表示对应的响应图，其中，将响应图中k个幅值最高的区域求均值(mean)的方式得到最终的特征相似度结果，即图中的similarity。

在上述实施方式中，经过轨迹追踪获得各个镜头内各对象的追踪轨迹之后，即可将不同镜头内同一对象的追踪轨迹进行拼接，获得待识别视频内各个对象完整的运动轨迹。

在一种可选的实施方式中，在将同一对象在不同视频片段内的追踪轨迹进行连接时，需要匹配出不同镜头内的同一对象，在本申请实施例中主要是基于轨迹相似度来实现的，具体的，首先将第一个视频片段内的各个追踪轨迹初始化为查询集，并将剩余视频片段内的各个追踪轨迹作为检索库；进而，按时间顺序逐个遍历检索库中的各个追踪轨迹，分别获取检索库中的各个追踪轨迹与查询集中的各个追踪轨迹之间的第一轨迹相似度；最后，基于第一轨迹相似度对各个视频片段内的各个追踪轨迹进行匹配，并将匹配到的属于同一对象的各个追踪轨迹进行连接，即可获得各个对象完整的运动轨迹。

若检索库中的一条追踪轨迹B1与查询集中的一条追踪轨迹A1两者之间的第一轨迹相似度比较高，比如大于一定的相似度阈值，即可认为这两条追踪轨迹为同一对象的追踪轨迹，即A1与B1相匹配。若除B1之外，检索库还有其它追踪轨迹B2，B3也和A1的第一轨迹相似度较高，这两条追踪轨迹属于同一对象，因而即可将B1，B2，B3以及A1进行连接，获得A1对应的对象完整的运动轨迹。其中，在将B1，B2，B3以及A1进行连接时，按各自对应的镜头之间的时序来拼接即可。

在一种可选的实施方式中，基于第一轨迹相似度对各个视频片段内的各个追踪轨迹进行匹配，并将匹配到的属于同一对象的各个追踪轨迹进行连接，获得各个对象的运动轨迹时，可以将对象分为人物和非人对象，分情况进行讨论，下面对这两种情况进行详细介绍：

情况一、对象为人物。

该情况下，基于人脸识别方法和行人重识别方法，对不同视频片段内的人物进行重识别，获得不同视频片段内的人物的第一对象相似度；根据第一相似度确定不同视频片段内的同一对象，并将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中的各个对象的运动轨迹。

其中，第一对象相似度是基于人脸相似度和重识别相似度确定的，人脸相似度为通过人脸识别获得的不同视频片段内的对象的人脸特征之间的相似度，重识别相似度为通过行人重识别获得的不同视频片段内的对象的行人重识别特征之间的相似度。

即，在本申请实施例中，对于人的重识别分支，同时使用人脸识别算法和ReID算法，共同来对不同镜头内的人物进行重识别。由于常规的行人重识别算法往往依赖于人物的衣着来进行重识别，而在许多小视频中会出现人物衣着变更的情况。此外又因为行人重识别算法的应用场景是监控摄像头所取得的视频，其中的人物往往距离摄像头较远，较难得到脸部细节，只能够依赖于外观信息更明显的衣着、装饰、人物姿态等特征，而在小视频场景下恰好相反，人物的衣着、装饰、姿态更为复杂且变化幅度更大，而人脸由于人物距离摄像头较近，反而成为了人物在不同镜头内最具辨识性和一致性的特征。所以本申请实施例中的人物重识别分支在常规的行人重识别算法以外，还额外引入了人脸识别算法。而对于人脸无法被检测到的情况下，则使用行人重识别特征来作为判断基准。本申请实施例中直接引用基于局部信息的可卷积基线算法(Part-based Convolutional Baseline，PCB)模型作为行人重识别特征提取器，并引用基于附加角度边缘损失的深度人脸识别算法(Additive Angular Margin Loss for Deep Face Recognition，ArcFace)算法(简称角度人脸识别算法)模型作为人脸特征提取器。人物的相似度由上述两个模型提取到的特征的余弦相似度来共同决定，如公式3所示：

其中，λ₁和λ₂分别是平衡由行人重识别算法计算得到的相似度和由人脸识别算法计算得到的相似度，一般来说在小视频场景下，λ₂>λ₁。Simi_person即本申请实施例中的第一对象相似度。

情况二、对象为非人物。

该情况下，基于行人重识别方法，对不同视频片段内的非人物进行重识别，获得不同视频片段内的非人物的第二对象相似度，根据第二相似度确定不同视频片段内的同一对象，并将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中的各个对象的运动轨迹。其中，第二对象相似度为基于重识别相似度确定的。

对于非人物体的重识别分支，由于如前文所述，凭肉眼难以辨别的相同品种或者相同品牌的物体可以被视作同一实例，除非它们同时出现在视频的同一帧中，所以本申请可以将非人物体的重识别任务视作是一个细粒度分类的任务。本申请实施例使用由图像网(ImageNet，一个计算机视觉系统识别项目名称)数据集预训练好的残差网络(ResidualNetwork 50，ResNet50)的前4个残差模块以及后面接一个平均池化层来作为非人物体重识别分支的特征提取器。由于ImageNet数据集包含1000个类别，且其中包含了许多细粒度级别的类别，所以通过该特征提取器能够提取得到对不同品种和不同品牌具有良好辨识的非人物体特征。同样地，本分支使用余弦距离来计算不同非人物体特征之间的相似度，即第二对象相似度。

此外，考虑到在常规的行人重识别任务，因为行人重识别场景往往摄像头固定，背景比较稳定，而且同一人物在不同摄像头下的外观信息也相对一致，因而仅维护一个固定的查询集，除非有新对象出现，否则查询集将一直都是第一个镜头内的各个对象追踪轨迹，即使后续检索库中的追踪轨迹与查询集中的轨迹匹配上，也并不会对查询集进行修改或更新的这种做法可行。但在复杂的小视频场景中，由于对象外观信息的复杂变化，固定的查询集很难以满足并容易导致误匹配。于是本申请在人物和非人对象重识别分支均引入一种查询集自更新机制。

在一种可选的实施方式中，通过如下方法对查询集进行更新，针对检索库中的各个追踪轨迹，分别执行以下操作：

首先对于检索库中的各个追踪轨迹中的一个追踪轨迹，分别获取一个追踪轨迹与查询集中的各个追踪轨迹之间的第二轨迹相似度；该过程同上述连接同一对象在不同镜头的追踪轨迹的过程类似，首先仍是将第一个镜头内的各对象追踪轨迹初始化为查询集，剩余的追踪轨迹初始化为检索库，并按照时间顺序逐个遍历检索库中的追踪轨迹，计算查询集中的各个追踪轨迹与检测库中的各个追踪轨迹之间的第二轨迹相似度，这里的第二轨迹相似度同第一轨迹相似度的计算过程相同。不同的是，在计算检索库中的追踪轨迹与查询集中的各追踪轨迹的第二轨迹相似度后，首先找到与之最为匹配的查询集追踪轨迹，然后确定匹配到的轨迹ID，即基于获取到的第二轨迹相似度，从查询集中查找与一个追踪轨迹最匹配的追踪轨迹，并确定最匹配的追踪轨迹的轨迹标识IDX。

若查询集中的各个第一追踪轨迹与一个追踪轨迹之间的最大相似度，和查询集中的各个第二追踪轨迹与一个追踪轨迹之间的平均相似度的差值大于第二预设阈值，则将一个追踪轨迹加入查询集中，其中，第一追踪轨迹为查询集中具有与该轨迹标识IDX相同的标识的追踪轨迹，第二追踪轨迹为查询集中具有与该轨迹标识IDX不同的标识的追踪轨迹，一个追踪轨迹在查询集中的轨迹标识与轨迹标识相同。

例如，查询库中有四条追踪轨迹，分别为A1，A2，A3，A4，其中前两条追踪轨迹的轨迹标识(ID)相同，表示这两条追踪轨迹可能是同一对象的。如果检索库追踪轨迹B1与所有轨迹ID与IDX相同的查询集第一追踪轨迹的最大相似度max(simi_sameID)，和与所有轨迹ID与IDX不同的查询集第二追踪轨迹的平均相似度avg(simi_diffID)之间的差值大于第二预设阈值Δ，则认为该检索库追踪轨迹B1高度可信地与对应查询集追踪轨迹相匹配，并将该检索库追踪轨迹也加入到查询集中，其轨迹ID与匹配到的轨迹ID一致，即轨迹标识都为IDX。因而，更新后的查询集中共包含五条追踪轨迹，分别为A1，A1，A2，A3，B1。

例如，查询集中的追踪轨迹A1和A2的轨迹标识都为IDX。其中，检索库追踪轨迹B1与查询集第一类追踪轨迹A1的相似度为s1，与查询集第一类追踪轨迹A2的相似度为s2，s1>s2，则max(simi_sameID)＝s1。检索库追踪轨迹B1与查询集第二类追踪轨迹A3的相似度为s3，与查询集第二类追踪轨迹A4的相似度为s4，其中平均值avg(simi_diffID)＝(s3+s4)/2。若s1与(s3+s4)/2之间的差值大于Δ，则更新查询集，且更新后的查询集中A1，A2和B1的轨迹标识都为IDX。

通过上述实施方式，可以使得检索集和查询集轨迹之间的匹配不仅仅依赖于第一个镜头内的轨迹，还会与其余高度可信的轨迹计算匹配相似度，减少由于小视频中的外观复杂变化所带来的误匹配。

在介绍完上述实施例之后，下面开始对重识别模型的训练过程进行详细介绍。

在本申请实施例中，重识别模型是基于训练样本数据集训练获得的，训练样本数据集中的训练样本包括对样本视频进行镜头分割获得的多个样本视频片段，样本视频为包含至少一个样本对象的视频，样本视频片段包含至少一个视频帧。

可选的，重识别模型是通过下列方式训练获得的：根据训练样本数据集中的训练样本，对重识别模型执行循环迭代训练，并在训练完毕时，输出训练完毕的重识别模型；其中，在一次循环迭代训练过程中执行以下操作，如图11所示。

参阅图11所示，其为本申请实施例中的一种重识别模型的训练方法流程图，一次循环迭代训练过程具体包括步骤：

S111：从训练样本数据集中选取一个训练样本；

S112：分别将训练样本中的各个样本视频片段输入重识别模型，基于重识别模型中的对象检测部分，分别对各个样本视频片段进行对象检测，获得在各个样本视频片段中检测到的各个样本对象的检测框；

S113：将检测到的检测框与相应的样本视频片段输入重识别模型中的对象追踪部分，基于对象追踪部分分别将同一样本对象在同一样本视频片段内不同视频帧中的各个检测框进行连接，获得各个样本视频片段中，各个样本对象各自的追踪轨迹；

S114：基于重识别模型中的样本对象重识别部分，将同一样本对象在不同视频片段内的追踪轨迹进行连接，获得样本视频中的各个样本对象各自的运动轨迹；

S115：基于各个样本对象各自的运动轨迹构建损失函数，并基于损失函数对重识别模型进行参数调整。

在步骤S115中，构建损失函数的具体过程包括对象检测部分损失函数的构建，对象追踪部分损失函数的构建，以及对象重识别部分损失函数的构建。

本申请实施例使用的对象检测部分主要采用YOLOv3-SPP(You Only Live Onceversion 3，你只看一次第三版)模型，所以训练阶段所使用的损失函数由两部分组成：分类误差与回归误差，分别针对对象检测框架中的分类子任务和回归子任务。

其中，分类误差包含两部分，分别是前背景的分类误差loss_obj以及具体细分类的分类误差loss_cls，在本申请实施例中，前景是指对象(包括人和非人)，背景即非对象(例如建筑物、马路等)，具体细分类则是指对象类别的划分，例如人、猫、狗等。

在本文中所列举的分类误差使用交叉熵来进行计算，公式分别如公式4和公式5所示：

其中，S²表示特征图一共有S×S个单元(也称像素)，B表示每个单元产生B个候选框，

与

表示第i个单元的第j个候选框是否与某个真实框(ground truth box)相匹配，即两者之间的交并比(Intersection-over-Union，IOU)大于规定的阈值，如果相匹配则

反之则

和P_i ^j是模型预测得到的前景置信度和各类别置信度，

为真实的前景置信度，由

来决定。如果

则

否则

为真实的各类别置信度。

在本申请实施例中，回归误差也包含两部分，分别是中心坐标误差与宽高坐标误差。模型中通过用于生成检测框的回归子网络中预测得到的中心坐标与宽高的偏移量与当前位置对应锚点框的中心坐标与宽高相结合，通过逆运算得到模型实际预测得到的检测框的中心坐标与宽高，再分别与实际的标注框的中心坐标与宽高分别计算平方误差。计算公式如公式6所示：

其中，

表示模型实际预测得到的检测框的中心坐标，

表示检测框的宽和高。

表示实际的标注框的中心坐标，

表示实际的标注框的宽和高。

基于上述计算得到的分类误差和回归误差，即可计算得到对象检测部分的整体损失函数，如公式7所示：

Loss＝λ_reg×loss_reg+loss_obj+loss_cls 公式7

其中，λ_reg为平衡回归误差与分类误差的人为定义系数。

另外，由于本申请实施例中主要训练的是外观特征，因而对象追踪部分损失函数和对象重识别部分一致，使用的是三重损失(Triplet Loss)，如公式8所示：

Loss＝max(d(a，p)-d(a，n)+margin，0) 公式8

其中，Triplet Loss是深度学习中的一种损失函数，用于训练差异性较小的样本，如人脸等，Feed数据包括锚(Anchor)示例、正(Positive)示例、负(Negative)示例，其中公式8中的a即Anchor，p即Positive，n即Negative。通过优化锚示例与正示例的距离小于锚示例与负示例的距离，实现样本的相似性计算。d(a，p)表示锚示例与正示例的距离，d(a，n)p表示锚示例与负示例。

在本申请实施例中，设置一个合理的margin值很关键，这是衡量相似度的重要指标。简而言之，margin值设置的越小，loss很容易趋近于0，但很难区分相似的图像。margin值设置的越大，loss值较难趋近于0，甚至导致网络不收敛，但可以较有把握的区分较为相似的图像。margin值具体可根据经验进行设置。

下面对本申请实施例的实验结果进行简要介绍：

本申请实施例中，对象检测部分采用的优化器为随机梯度下降算法(StochasticGradient Des-cent，SGD)，将动量系数设为0.9，其余训练设置沿用YOLOv3-SPP中的设置。对象追踪部分使用自适应矩估计(Adaptive moment estimation，Adam)优化器，参数设置简单。基本沿用了Adam默认参数，然后在30、60、90、120学习率下降。对象重识别部分沿用了PCB算法中的训练设置。

在本申请实施例中，本申请在对象检测部分中所提出的时序信息融合网络能够在小视频相同搜索目标数据集(Short Video Dataset for Identical Object Retrieval，SVD-IOR)上，相比于基线模型YOLOv3在平均精准度均值(mean Average Precision，mAP)上有将近5％的提升，并且与其他视频检测算法在视频对象检测常用评估数据集ImageNetVID上与当前算法相比取得在性能上相当且在速度上更优的结果。

表2分别加入局部语义信息融合、局部位置信息融合、全局语义信息融合的消融实验

表3 TIFN与其他视频对象检测算法在ImageNet VID数据集上的对比实验

本申请的整体结果也相比于其他算法在复杂场景中有更好的效果，尤其在小视频数据集SVD-IOR中和与小视频场景十分相近的VidOR数据集中，取得了明显更优的结果。多视频间通用对象重识别实验结果图示例同图4所示。

表4本申请提出的系统与其他算法在不同数据集上的对比实验

综上，本申请利用了一个包含对象检测、对象追踪、对象重识别的系统，来针对小视频的复杂场景进行物体轨迹及其特征的提取，并通过其特征来搜索到其他包含相同物体的视频，可有效提高对象轨迹识别的准确率。

基于相同的发明构思，本申请实施例还提供一种对象轨迹识别装置。如图12所示，其为本申请实施例中一种对象轨迹识别装置1200的结构示意图，可以包括：

镜头分割单元1201，用于对待识别视频进行镜头分割，获得多个视频片段，其中，每个视频片段对应一个镜头，且每个视频片段包含至少一个视频帧；

对象检测单元1202，用于对获得的各个视频片段进行对象检测，分别确定在各个视频片段中检测到的各个对象的检测框；

轨迹追踪单元1203，用于分别针对各个视频片段，将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，分别获得各个视频片段中，各个对象各自的追踪轨迹；

重识别单元1204，用于针对各个对象，将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中的各个对象各自的运动轨迹。

可选的，对象检测单元1202具体用于：

针对各个视频片段中的各个视频帧，分别采用如下操作获得各个对象的检测框：

获取各个视频帧中的一个视频帧对应的局部语义信息、局部位置信息以及全局语义信息；

将一个视频帧以及一个视频帧之前的视频帧各自对应的局部语义信息、局部位置信息和全局语义信息分别进行融合，获得相应的局部语义融合特征、局部位置融合特征和全局语义融合特征；

基于局部语义融合特征、局部位置融合特征和全局语义融合特征，对一个视频帧进行对象检测，确定在一个视频帧中检测到的各个对象的检测框。

可选的，对象检测单元1202具体用于：

在一个视频帧归属的视频片段中，获取一个视频帧之前的视频帧中包含目标对象的区域的特征图，与一个视频帧对应的特征图之间的第一互相关度；

基于第一互相关度确定一个视频帧中与目标对象相应的对象所在的第一区域，并通过增强第一区域的特征，获得相应的局部语义融合特征；

在一个视频帧归属的视频片段中，获取一个视频帧之前的视频帧中的检测框的位置信息，基于位置信息确定一个视频帧对应的特征图中相应的第二区域，并通过增强第二区域的特征，获得相应的局部位置融合特征；

在一个视频帧归属的视频片段中，获取一个视频帧之前的视频帧中的至少一个对象的平均特征，与一个视频帧对应的特征图之间的第二互相关度；

基于第二互相关度获取一个视频帧中与至少一个对象相应的对象所在的第三区域，并通过增强第三区域的特征，获得相应的全局语义融合特征。

可选的，轨迹追踪单元1203具体用于：

分别获取各个视频片段内的各个视频帧中，各个检测框内的对象检测结果；

对于同一视频片段内的各个视频帧，逐帧获取各个视频帧对应的各个对象检测结果的特征与各个现存追踪轨迹对应的特征之间的特征相似度，其中，现存追踪轨迹为基于当前视频帧之前的视频帧获得的对象的追踪轨迹；

针对各个对象检测结果，分别执行以下操作：

对于各个对象检测结果中的一个对象检测结果，若一个对象检测结果与对应的特征相似度最高的现存追踪轨迹之间的特征相似度大于第一预设阈值，则将一个对象检测结果与特征相似度最高的现存追踪轨迹拼接，获得特征相似度最高的现存追踪轨迹对应的对象在同一视频片段内的追踪轨迹；

若一个对象检测结果与所有的现存追踪轨迹的特征相似度都低于第一预设阈值，则将一个对象检测结果对应的对象作为新增对象，并以当前帧作为初始帧创建一条新的追踪轨迹。

可选的，轨迹追踪单元1203具体用于：

针对各个对象检测结果与各个现存追踪轨迹，分别执行以下操作：

对于各个对象检测结果中的一个对象检测结果与各个现存追踪轨迹中的一个现存追踪轨迹，基于一个对象检测结果的特征和一个现存追踪轨迹的特征，获取对应的响应图，其中，响应图用于表征一个对象检测结果对应的特征图中的像素与一个现存追踪轨迹对应的特征图中的像素之间的相似度；

将响应图中设定数量个幅值最高的区域对应的相似度的均值，作为一个对象检测结果与一个现存追踪轨迹之间的特征相似度。

可选的，重识别单元1204具体用于：

按时间顺序逐个遍历检索库中的各个追踪轨迹，分别获取检索库中的各个追踪轨迹与查询集中的各个追踪轨迹之间的第一轨迹相似度；

基于第一轨迹相似度对各个视频片段内的各个追踪轨迹进行匹配，并将匹配到的属于同一对象的各个追踪轨迹进行连接，获得各个对象的运动轨迹。

可选的，重识别单元1204具体用于：

若对象为人物，则基于人脸识别方法和行人重识别方法，对不同视频片段内的人物进行重识别，获得不同视频片段内的人物的第一对象相似度；根据第一相似度确定不同视频片段内的同一对象，并将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中的各个对象的运动轨迹；

若对象为非人物，则基于行人重识别方法，对不同视频片段内的非人物进行重识别，获得不同视频片段内的非人物的第二对象相似度，根据第二相似度确定不同视频片段内的同一对象，并将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中的各个对象的运动轨迹；

其中，第一对象相似度是基于人脸相似度和重识别相似度确定的，第二对象相似度为基于重识别相似度确定的，人脸相似度为通过人脸识别获得的不同视频片段内的对象的人脸特征之间的相似度，重识别相似度为通过行人重识别获得的不同视频片段内的对象的行人重识别特征之间的相似度。

可选的，装置还包括：

更新单元1205，用于针对检索库中的各个追踪轨迹，分别执行以下操作：

对于检索库中的各个追踪轨迹中的一个追踪轨迹，分别获取一个追踪轨迹与查询集中的各个追踪轨迹之间的第二轨迹相似度；

基于获取到的第二轨迹相似度，从查询集中查找与一个追踪轨迹最匹配的追踪轨迹，并确定最匹配的追踪轨迹的轨迹标识；

若查询集中的各个第一追踪轨迹与一个追踪轨迹之间的最大相似度，和查询集中的各个第二追踪轨迹与一个追踪轨迹之间的平均相似度的差值大于第二预设阈值，则将一个追踪轨迹加入查询集中，其中，第一追踪轨迹为查询集中具有与轨迹标识相同的标识的追踪轨迹，第二追踪轨迹为查询集中具有与轨迹标识不同的标识的追踪轨迹，一个追踪轨迹在查询集中的轨迹标识与轨迹标识相同。

可选的，对象检测单元1202具体用于：

将各个视频片段输入已训练的重识别模型，基于重识别模型中的对象检测部分，分别对各个视频片段进行对象检测，获得在各个视频片段中检测到的各个对象的检测框；

轨迹追踪单元1203具体用于：

将检测到的检测框与相应的视频片段输入重识别模型中的对象追踪部分，基于对象追踪部分分别将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，获得各个视频片段中，各个对象各自的追踪轨迹；

重识别单元1204具体用于：

基于重识别模型中的对象重识别部分，将同一对象在不同视频片段内的追踪轨迹进行连接，获得待识别视频中的各个对象各自的运动轨迹；

其中，重识别模型是基于训练样本数据集训练获得的，训练样本数据集中的训练样本包括对样本视频进行镜头分割获得的多个样本视频片段，样本视频为包含至少一个样本对象的视频，样本视频片段包含至少一个视频帧。

可选的，装置还包括：

模型训练单元1206，用于通过下列方式训练获得重识别模型：

根据训练样本数据集中的训练样本，对重识别模型执行循环迭代训练，并在训练完毕时，输出训练完毕的重识别模型；其中，在一次循环迭代训练过程中执行以下操作：

从训练样本数据集中选取一个训练样本；

分别将训练样本中的各个样本视频片段输入重识别模型，基于重识别模型中的对象检测部分，分别对各个样本视频片段进行对象检测，获得在各个样本视频片段中检测到的各个样本对象的检测框；

将检测到的检测框与相应的样本视频片段输入重识别模型中的对象追踪部分，基于对象追踪部分分别将同一样本对象在同一样本视频片段内不同视频帧中的各个检测框进行连接，获得各个样本视频片段中，各个样本对象各自的追踪轨迹；

基于重识别模型中的样本对象重识别部分，将同一样本对象在不同视频片段内的追踪轨迹进行连接，获得样本视频中的各个样本对象各自的运动轨迹；

基于各个样本对象各自的运动轨迹构建损失函数，并基于损失函数对重识别模型进行参数调整。

可选的，装置还包括：

视频筛选单元，用于对待识别视频中的各个对象进行筛选，获取至少一个候选对象；

基于至少一个候选对象的运动轨迹，从预设视频集合中获得包含至少一个候选对象的其他视频。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。该电子设备可以用于对象轨迹识别。在一种实施例中，该电子设备可以是服务器，如图1所示的服务器120。在该实施例中，电子设备的结构可以如图13所示，包括存储器1301，通讯模块1303以及一个或多个处理器1302。

存储器1301，用于存储处理器1302执行的计算机程序。存储器1301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1301可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1301也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1301是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1301可以是上述存储器的组合。

处理器1302，可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1302，用于调用存储器1301中存储的计算机程序时实现上述对象轨迹识别方法。

通讯模块1303用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1301、通讯模块1303和处理器1302之间的具体连接介质。本公开实施例在图13中以存储器1301和处理器1302之间通过总线1304连接，总线1304在图13中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1304可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1301中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的对象轨迹识别方法。处理器1302用于执行上述的对象轨迹识别方法，如图2所示。

在另一种实施例中，电子设备也可以是其他电子设备，如图1所示的终端设备110。在该实施例中，电子设备的结构可以如图14所示，包括：通信组件1410、存储器1420、显示单元1430、摄像头1440、传感器1450、音频电路1460、蓝牙模块1470、处理器1480等部件。

通信组件1410用于与服务器进行通信。在一些实施例中，可以包括电路无线保真(Wireless Fidelity，WiFi)模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助用户收发信息。

存储器1420可用于存储软件程序及数据。处理器1480通过运行存储在存储器1420的软件程序或数据，从而执行终端设备110的各种功能以及数据处理。存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1420存储有使得终端设备110能运行的操作系统。本申请中存储器1420可以存储操作系统及各种应用程序，还可以存储执行本申请实施例对象轨迹识别方法的代码。

显示单元1430还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface，GUI)。具体地，显示单元1430可以包括设置在终端设备110正面的显示屏1432。其中，显示屏1432可以采用液晶显示器、发光二极管等形式来配置。显示单元1430可以用于显示本申请实施例中的子应用播放界面。

显示单元1430还可用于接收输入的数字或字符信息，产生与终端设备110的用户设置以及功能控制有关的信号输入，具体地，显示单元1430可以包括设置在终端设备110正面的触摸屏1431，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触摸屏1431可以覆盖在显示屏1432之上，也可以将触摸屏1431与显示屏1432集成而实现终端设备110的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1430可以显示应用程序以及对应的操作步骤。

摄像头1440可用于捕获静态图像，用户可以将摄像头1440拍摄的图像通过客户端发送给聊天对方的用户。摄像头1440可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1480转换成数字图像信号。

终端设备还可以包括至少一种传感器1450，比如加速度传感器1451、距离传感器1452、指纹传感器1453、温度传感器1454。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1460、扬声器1461、传声器1462可提供用户与终端设备110之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出。终端设备110还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出至通信组件1410以发送给比如另一终端设备110，或者将音频数据输出至存储器1420以便进一步处理。

蓝牙模块1470用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1470与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互。

处理器1480是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1420内的软件程序，以及调用存储在存储器1420内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1480可包括一个或多个处理单元；处理器1480还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1480中。本申请中处理器1480可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例的对象轨迹识别方法。另外，处理器1480与显示单元1430耦接。

在一些可能的实施方式中，本申请提供的对象轨迹识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的对象轨迹识别方法中的步骤，例如，计算机设备可以执行如图2中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计算装置的情形中，远程计算装置可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算装置，或者，可以连接到外部计算装置(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序命令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品，该命令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种对象轨迹识别方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述对获得的各个视频片段进行对象检测，分别确定在所述各个视频片段中检测到的各个对象的检测框，包括：

3.如权利要求2所述的方法，其特征在于，将所述一个视频帧以及所述一个视频帧之前的视频帧各自对应的局部语义信息进行融合，获得相应的局部语义融合特征，包括：

将所述一个视频帧以及所述一个视频帧之前的视频帧各自对应的局部位置信息进行融合，获得相应的局部位置融合特征，包括：

将所述一个视频帧以及所述一个视频帧之前的视频帧各自对应的全局语义信息进行融合，获得相应的全局语义融合特征，包括：

4.如权利要求1所述的方法，其特征在于，所述分别针对所述各个视频片段，将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，分别获得所述各个视频片段中，所述各个对象各自的追踪轨迹，包括：

针对所述各个对象检测结果，分别执行以下操作：

5.如权利要求4所述的方法，其特征在于，所述逐帧获取所述各个视频帧对应的各个对象检测结果的特征与各个现存追踪轨迹对应的特征之间的特征相似度，包括：

6.如权利要求1所述的方法，其特征在于，所述将同一对象在不同视频片段内的追踪轨迹进行连接，获得所述待识别视频中的所述各个对象的运动轨迹，包括：

7.如权利要求6所述的方法，其特征在于，所述基于所述第一轨迹相似度对各个视频片段内的各个追踪轨迹进行匹配，并将匹配到的属于同一对象的各个追踪轨迹进行连接，获得所述各个对象的运动轨迹，包括：

8.如权利要求6所述的方法，其特征在于，所述方法还包括：

针对所述检索库中的各个追踪轨迹，分别执行以下操作：

9.如权利要求1～8任一项所述的方法，其特征在于，所述对获得的各个视频片段进行对象检测，分别确定在所述各个视频片段中检测到的各个对象的检测框，包括：

所述分别针对所述各个视频片段，将同一对象在同一视频片段内不同视频帧中的各个检测框进行连接，分别获得所述各个视频片段中，所述各个对象各自的追踪轨迹，包括：

所述针对所述各个对象，将同一对象在不同视频片段内的追踪轨迹进行连接，获得所述待识别视频中的所述各个对象各自的运动轨迹，包括：

10.如权利要求9所述的方法，其特征在于，所述重识别模型是通过下列方式训练获得的：

从所述训练样本数据集中选取一个训练样本；

11.如权利要求1～8、10任一项所述的方法，其特征在于，所述方法还包括：

对所述待识别视频中的各个对象进行筛选，获取至少一个候选对象；

12.一种对象轨迹识别装置，其特征在于，包括：

13.如权利要求12所述的装置，其特征在于，所述对象检测单元具体用于：

14.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～11中任一所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1～11中任一所述方法的步骤。