CN108629791A

CN108629791A - 行人跟踪方法和装置及跨摄像头行人跟踪方法和装置

Info

Publication number: CN108629791A
Application number: CN201710161404.2A
Authority: CN
Inventors: 吴家楠; 张弛
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2018-10-09
Anticipated expiration: 2037-03-17
Also published as: CN108629791B

Abstract

本发明的实施例提供了一种行人跟踪方法和装置及跨摄像头行人跟踪方法和装置。行人跟踪方法包括：获取视频；对视频中的至少部分视频帧进行行人检测，以获得至少部分视频帧中的每个视频帧中的行人框；对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量；以及基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果，其中，行人跟踪结果包括至少一个行人轨迹。上述方法和装置不受位置信息的限制，鲁棒性好，可以实现准确高效的行人跟踪，并且能够轻松实现跨摄像头的行人跟踪。

Description

行人跟踪方法和装置及跨摄像头行人跟踪方法和装置

技术领域

本发明涉及视频处理领域，更具体地涉及一种行人跟踪方法和装置及跨摄像头行人跟踪方法和装置。

背景技术

在现有的行人跟踪方法中，需要将同一个人在不同视频帧中的行人框匹配和连接起来，从而得到一个人的轨迹。将行人框匹配和连接的算法，就是行人跟踪的核心之处。行人跟踪算法需要能够判断两个行人框中的行人是不是同一个人。

在现有的行人跟踪方法中，判断两个行人框中的行人是不是同一个人主要依赖于行人框在图像中的位置。然而，基于位置的行人跟踪方法要求行人框在不同视频帧之间要比较平滑，不能有较大抖动。所述的平滑、不能有抖动指的是行人框的长、宽、长宽比、中心点位置等参数在两个相邻视频帧之间相差不大，行人框更加不能时有时无。然而现有的行人检测算法并不能保证这一点，导致基于位置的行人跟踪方法具有较大的局限性。

为了弥补位置信息的局限性，现有的行人跟踪方法还会使用一些基于颜色或者颜色梯度的信息，例如颜色直方图、方向梯度直方图(Histogram of Oriented Gradient,HOG)、局部二值模式(Local Binary Pattern,BLP)等。但这些人工特征都存在局限性，并不能很好地区分不同人，导致它们只能用来辅助基于位置的行人跟踪方法，而不能作为主要的判别依据。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种行人跟踪方法和装置及跨摄像头行人跟踪方法和装置。

根据本发明一方面，提供了一种行人跟踪方法。该方法包括：获取视频；对视频中的至少部分视频帧进行行人检测，以获得至少部分视频帧中的每个视频帧中的行人框；对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量；以及基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果，其中，行人跟踪结果包括至少一个行人轨迹。

示例性地，基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果包括：步骤S310：将所有行人框划分到多个行人轨迹，以获得轨迹集合；步骤S320：对于轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量；步骤S330：基于行人轨迹的特征向量确定轨迹集合中的所有行人轨迹两两之间的轨迹相似度；步骤S340：判断所确定的所有轨迹相似度中的最大轨迹相似度是否大于第一轨迹阈值，如果是，则转至步骤S350，否则转至步骤S370；步骤S350：将与最大轨迹相似度对应的两个行人轨迹合并为一个行人轨迹以更新轨迹集合；步骤S360：确定合并后的行人轨迹的特征向量，并返回步骤S330；以及步骤S370：确定轨迹集合中的所有行人轨迹为行人跟踪结果。

示例性地，步骤S320包括：对于轨迹集合中的每个行人轨迹，对该行人轨迹所包含的行人框的特征向量求平均，以获得该行人轨迹的特征向量。

示例性地，步骤S360包括：对合并后的行人轨迹所包含的行人框的特征向量求平均，以获得合并后的行人轨迹的特征向量。

示例性地，步骤S360包括：对与最大轨迹相似度对应的两个行人轨迹的特征向量求平均，以获得合并后的行人轨迹的特征向量。

示例性地，步骤S310包括：对于分别属于至少部分视频帧中的任意两个相邻视频帧的任意两个行人框，基于该两个行人框的特征向量计算该两个行人框之间的行人框相似度，如果该两个行人框之间的行人框相似度大于行人框阈值，则将该两个行人框划分到同一行人轨迹。

示例性地，步骤S310包括：将所有行人框中的每个行人框一一对应地划分到与所有行人框数目相同的行人轨迹，以获得轨迹集合。

示例性地，步骤S330包括：对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，或者，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距小于或等于差距阈值，则基于该两个行人轨迹的特征向量计算该两个行人轨迹之间的轨迹相似度；以及对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距大于差距阈值，则将预设相似度确定为该两个行人轨迹之间的轨迹相似度，其中，预设相似度小于或等于第一轨迹阈值。

示例性地，步骤S350包括：如果与最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧存在重叠，则将与最大轨迹相似度对应的两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框合并为一个行人框，并将与最大轨迹相似度对应的两个行人轨迹所包含的剩余行人框与合并后的行人框一起划分到同一行人轨迹中，以获得合并后的行人轨迹。

示例性地，行人跟踪方法还包括：获取至少一组样本图像，其中，每组样本图像包括属于同一行人的第一图像和第二图像以及属于另一行人的第三图像；在初始的卷积神经网络的输出端构建三元损失函数；利用至少一组样本图像和三元损失函数训练初始的卷积神经网络的参数，以获得训练好的卷积神经网络。

示例性地，行人跟踪方法还包括：对至少一个行人轨迹进行计数，以确定视频中的行人的数目。

根据本发明另一方面，提供了一种跨摄像头行人跟踪方法，包括：获取分别由多个摄像头采集的多个视频；利用上述行人跟踪方法分别处理多个视频，以获得与多个视频一一对应的多个行人跟踪结果，其中，与多个视频中的每个视频对应的行人跟踪结果包括与该视频对应的至少一个行人轨迹；以及对多个行人跟踪结果中的行人轨迹进行匹配，以获得跨摄像头跟踪结果。

示例性地，对多个行人跟踪结果中的行人轨迹进行匹配包括：对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，确定该两个行人轨迹之间的轨迹相似度；以及对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，如果该两个行人轨迹之间的轨迹相似度大于第二轨迹阈值，则根据该两个行人轨迹的位置关系和时间关系判断该两个行人轨迹是否属于同一行人，如果是，则将该两个行人轨迹合并为一个行人轨迹。

根据本发明另一方面，提供了一种行人跟踪装置。该装置包括：视频获取模块，用于获取视频；行人检测模块，用于对视频中的至少部分视频帧进行行人检测，以获得至少部分视频帧中的每个视频帧中的行人框；特征向量获得模块，用于对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量；以及匹配模块，用于基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果，其中，行人跟踪结果包括至少一个行人轨迹。

示例性地，匹配模块包括划分子模块、特征向量计算子模块、相似度确定子模块、判断子模块、合并子模块、特征向量确定子模块和跟踪结果确定子模块，其中，划分子模块用于将所有行人框划分到多个行人轨迹，以获得轨迹集合；特征向量计算子模块用于对于轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量；相似度确定子模块用于基于行人轨迹的特征向量确定轨迹集合中的所有行人轨迹两两之间的轨迹相似度；判断子模块用于判断所确定的所有轨迹相似度中的最大轨迹相似度是否大于第一轨迹阈值，如果是，则启动合并子模块，否则启动跟踪结果确定子模块；合并子模块用于将与最大轨迹相似度对应的两个行人轨迹合并为一个行人轨迹以更新轨迹集合；特征向量确定子模块用于确定合并后的行人轨迹的特征向量，并启动相似度确定子模块；跟踪结果确定子模块用于确定轨迹集合中的所有行人轨迹为行人跟踪结果。

示例性地，特征向量计算子模块包括：第一平均单元，用于对于轨迹集合中的每个行人轨迹，对该行人轨迹所包含的行人框的特征向量求平均，以获得该行人轨迹的特征向量。

示例性地，特征向量确定子模块包括：第二平均单元，用于对合并后的行人轨迹所包含的行人框的特征向量求平均，以获得合并后的行人轨迹的特征向量。

示例性地，特征向量确定子模块包括：第三平均单元，用于对与最大轨迹相似度对应的两个行人轨迹的特征向量求平均，以获得合并后的行人轨迹的特征向量。

示例性地，划分子模块包括：第一划分单元，用于对于分别属于至少部分视频帧中的任意两个相邻视频帧的任意两个行人框，基于该两个行人框的特征向量计算该两个行人框之间的行人框相似度，如果该两个行人框之间的行人框相似度大于行人框阈值，则将该两个行人框划分到同一行人轨迹。

示例性地，划分子模块包括：第二划分单元，用于将所有行人框中的每个行人框一一对应地划分到与所有行人框数目相同的行人轨迹，以获得轨迹集合。

示例性地，相似度确定子模块包括：第一相似度确定单元，用于对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，或者，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距小于或等于差距阈值，则基于该两个行人轨迹的特征向量计算该两个行人轨迹之间的轨迹相似度；以及第二相似度确定单元，用于对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距大于差距阈值，则将预设相似度确定为该两个行人轨迹之间的轨迹相似度，其中，预设相似度小于或等于第一轨迹阈值。

示例性地，合并子模块包括：合并单元，用于如果与最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧存在重叠，则将与最大轨迹相似度对应的两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框合并为一个行人框，并将与最大轨迹相似度对应的两个行人轨迹所包含的剩余行人框与合并后的行人框一起划分到同一行人轨迹中，以获得合并后的行人轨迹。

示例性地，行人跟踪装置还包括：图像获取模块，用于获取至少一组样本图像，其中，每组样本图像包括属于同一行人的第一图像和第二图像以及属于另一行人的第三图像；损失函数构建模块，用于在初始的卷积神经网络的输出端构建三元损失函数；训练模块，用于利用至少一组样本图像和三元损失函数训练初始的卷积神经网络的参数，以获得训练好的卷积神经网络。

示例性地，行人跟踪装置还包括：计数模块，用于对至少一个行人轨迹进行计数，以确定视频中的行人的数目。

根据本发明另一方面，提供了一种跨摄像头行人跟踪装置，包括：多视频获取模块，用于获取分别由多个摄像头采集的多个视频；视频处理模块，用于利用上述行人跟踪装置分别处理多个视频，以获得与多个视频一一对应的多个行人跟踪结果，其中，与多个视频中的每个视频对应的行人跟踪结果包括与该视频对应的至少一个行人轨迹；以及多视频匹配模块，用于对多个行人跟踪结果中的行人轨迹进行匹配，以获得跨摄像头跟踪结果。

示例性地，多结果匹配模块包括：多视频相似度确定子模块，用于对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，确定该两个行人轨迹之间的轨迹相似度；以及多视频合并子模块，用于对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，如果该两个行人轨迹之间的轨迹相似度大于第二轨迹阈值，则根据该两个行人轨迹的位置关系和时间关系判断该两个行人轨迹是否属于同一行人，如果是，则将该两个行人轨迹合并为一个行人轨迹。

根据本发明实施例的行人跟踪方法和装置及跨摄像头行人跟踪方法和装

置不依赖于行人框的位置，不受位置信息的限制。根据本发明实施例的行人跟踪方法的鲁棒性好，能够有效抵抗行人之间相互遮挡、行人检测结果偏移等会造成常规的基于位置的行人跟踪方法出错的场景。根据本发明实施例的行人跟踪方法可以实现准确高效的行人跟踪，并且能够轻松实现跨摄像头的行人跟踪。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的行人跟踪方法和装置及跨摄像头行人跟踪方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的行人跟踪方法的示意性流程图；

图3示出根据本发明一个实施例基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配的步骤的示意性流程图；

图4示出根据本发明一个实施例的训练卷积神经网络的示意图；

图5示出根据本发明一个实施例的跨摄像头行人跟踪方法的示意性流程图；

图6示出根据本发明一个实施例的行人跟踪装置的示意性框图；

图7示出了根据本发明一个实施例的跨摄像头行人跟踪装置的示意性框图；以及

图8示出了根据本发明一个实施例的行人跟踪系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决上文所述的问题，本发明实施例提供一种行人跟踪方法和装置，其利用卷积神经网络提取多个视频帧中的行人的特征(即本文所述的行人框的特征向量)，并以提取的行人的特征作为区分不同行人的主要判别依据。本发明实施例提供的行人跟踪方法可以在多种复杂的环境条件下，得到比较好的行人跟踪结果，因此该方法可以很好地应用于各种监控领域。

首先，参照图1来描述用于实现根据本发明实施例的行人跟踪方法和装置及跨摄像头行人跟踪方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和视频采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述视频采集装置110可以采集视频，并且将所采集的视频存储在所述存储装置104中以供其它组件使用。视频采集装置110可以是监控摄像头。应当理解，视频采集装置110仅是示例，电子设备100可以不包括视频采集装置110。在这种情况下，可以利用其他视频采集装置采集用于行人跟踪的视频，并将采集的视频发送给电子设备100。

示例性地，用于实现根据本发明实施例的行人跟踪方法和装置及跨摄像头行人跟踪方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的行人跟踪方法。图2示出根据本发明一个实施例的行人跟踪方法200的示意性流程图。如图2所示，行人跟踪方法200包括以下步骤。

在步骤S210，获取视频。

视频可以是任何合适的、需要进行行人跟踪的视频。视频可以是摄像头等图像采集装置采集到的原始视频，也可以是对原始视频进行预处理之后获得的视频。

视频可以由客户端设备(诸如包括监控摄像头的安防设备)发送到电子设备100以由电子设备100的处理器102进行处理，也可以由电子设备100包括的视频采集装置110(例如摄像头)采集并传送到处理器102进行处理。

在步骤S220，对视频中的至少部分视频帧进行行人检测，以获得至少部分视频帧中的每个视频帧中的行人框。

步骤S220可以采用任何现有的或将来可能实现的行人检测算法实现。行人检测算法是能够在图像中检测行人所在位置的算法。行人所在位置一般用行人框来表示。行人框是矩形框，其可以用其四个顶点的坐标来描述。

对于视频中的至少部分视频帧中的每个视频帧，可以利用行人检测算法检测获得若干行人框。

在步骤S230，对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量。

可以将在步骤S220所获得的每个行人框所包含的图像块分别输入训练好的卷积神经网络，该卷积神经网络输出行人框的特征向量，其中，行人框的特征向量为行人框所包含的图像块的特征向量。卷积神经网络是一种能够自主学习的网络，利用训练好的卷积神经网络可以非常方便准确地提取出图像中所需的信息。

卷积神经网络所输出的特征向量可以用于区分两个行人框是否属于同一行人。根据匹配结果可以将属于同一行人的行人框关联起来，形成行人轨迹。基于卷积神经网络输出的特征向量进行行人匹配的过程类似于行人重识别(re-identification,ReID)，因此，本文所述的卷积神经网络不仅可以用于实现行人跟踪，也可以用于实现行人重识别。

在步骤S240，基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果，其中，行人跟踪结果包括至少一个行人轨迹。

将两个行人框的特征向量相比较，可以确定两个行人框是否属于同一行人。对于属于同一行人的行人框可以划分到同一行人轨迹中。最终，可以获得至少一个行人轨迹。每个行人轨迹可以包括一个或多个行人框的相关信息，每个行人框的相关信息可以包括该行人框所位于的视频帧的标识符(例如帧号)以及该行人框的坐标。

根据本发明实施例的行人跟踪方法，基于训练好的卷积神经网络输出的行人框的特征向量来匹配行人框，以实现行人跟踪。上述行人跟踪方法由于不依赖于行人框的位置，不要求行人框在不同视频帧之间平滑和不能有较大抖动，因此不受位置信息的限制。在行人检测过程中，有时检测到的行人框存在一定的偏移，使得某些行人框仅圈中行人的一部分，常规的基于位置的行人跟踪方法通常容易在此时出错，而根据本发明实施例的基于卷积神经网络的行人跟踪方法的鲁棒性更高。根据本发明实施例的行人跟踪方法能够有效抵抗行人之间相互遮挡、行人检测结果偏移等会造成常规的基于位置的行人跟踪方法出错的场景，能够有效减少ID变换次数(ID Switch)和假阴性(False Negative,FN)误差。根据本发明实施例的行人跟踪方法可以实现准确高效的行人跟踪。

示例性地，根据本发明实施例的行人跟踪方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的行人跟踪方法可以部署在视频采集端处，例如，可以部署在小区门禁系统的视频采集端或者部署在诸如车站、商场、银行等公共场所的安防监控系统的视频采集端。替代地，根据本发明实施例的行人跟踪方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集视频，客户端将采集到的视频传送给服务器端(或云端)，由服务器端(或云端)进行行人跟踪。

图3示出根据本发明一个实施例基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配的步骤(步骤S240)的示意性流程图。如图3所示，步骤S240可以包括以下步骤。

在步骤S310，将所有行人框划分到多个行人轨迹，以获得轨迹集合。

在一个示例中，可以对所有行人框进行行人匹配，将属于同一行人的行人框划分到同一行人轨迹。举例说明，假设在步骤S220针对视频的至少部分视频帧共检测到30个行人框，则在步骤S310可能通过行人匹配将这30个行人框划分到10个行人轨迹，这10个行人轨迹组成轨迹集合。假设至少部分视频帧实际上共包含5个行人，则可以通过后续的步骤将10个行人轨迹合并为最终的5个行人轨迹。在另一个示例中，可以直接将上述示例中的30个行人框划分到30个行人轨迹中，即使得每个行人轨迹仅包含一个行人框。随后，同样可以通过后续的步骤将30个行人轨迹合并为最终的5个行人轨迹，在本实例中，步骤S310不对30个行人框进行相似度匹配，而是直接将30个行人框划分到30个行人轨迹中，由步骤S330进行相似度匹配，从而在行人较少的使用场景下减少步骤S310的计算量。

可以理解，如果在步骤S310中通过行人匹配将所有行人框划分到同一行人轨迹，则可以不执行后续的步骤，所获得的一个行人轨迹即为所需的行人跟踪结果。

在步骤S320，对于轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量。

示例性地，步骤S320可以包括：对于轨迹集合中的每个行人轨迹，对该行人轨迹所包含的行人框的特征向量求平均，以获得该行人轨迹的特征向量。求平均可以是加权平均或算术平均。例如，假设某个行人轨迹包括6个行人框，则可以对这6个行人框的特征向量进行加权平均，平均结果作为该行人轨迹的特征向量。在采用加权平均方式计算行人轨迹的特征向量的情况下，可以根据需要设定其中的权重，这样比较方便对算法做出调整。

在步骤S330，基于行人轨迹的特征向量确定轨迹集合中的所有行人轨迹两两之间的轨迹相似度。

将轨迹集合中的行人轨迹两两比较。示例性地，可以根据两个行人轨迹的特征向量计算两个行人轨迹的欧式距离，该欧式距离可以反映两个行人轨迹之间的轨迹相似度。

在步骤S340，判断所确定的所有轨迹相似度中的最大轨迹相似度是否大于第一轨迹阈值，如果是，则转至步骤S350，否则转至步骤S370。

在步骤S350，将与最大轨迹相似度对应的两个行人轨迹合并为一个行人轨迹以更新轨迹集合。

其中，与最大轨迹相似度对应的两个行人轨迹为轨迹相似度最高的两个行人轨迹，步骤S330确定了每两个行人轨迹之间的轨迹相似度，在步骤S350中，将轨迹相似度最大的两个行人轨迹进行合并，合并后具有最大轨迹相似度的两个行人轨迹形成一个行人轨迹。

在步骤S360，确定合并后的行人轨迹的特征向量，并返回步骤S330。

在步骤S370，确定轨迹集合中的所有行人轨迹为行人跟踪结果。

假设步骤S310中获得的轨迹集合包括3个行人轨迹：1号轨迹、2号轨迹和3号轨迹，其中，1号轨迹和2号轨迹之间的轨迹相似度是90％，2号轨迹和3号轨迹之间的轨迹相似度是80％，1号轨迹和3号轨迹之间的轨迹相似度是50％。最大轨迹相似度是1号轨迹和2号轨迹之间的轨迹相似度，即90％。假设第一轨迹阈值是75％，则最大轨迹相似度满足要求，可以将1号轨迹和2号轨迹合并为一个行人轨迹。合并后的行人轨迹称为4号轨迹，此时轨迹集合中仅包括3号轨迹和4号轨迹。随后，确定4号行人轨迹的特征向量，并返回步骤S330计算3号轨迹和4号轨迹之间的轨迹相似度，判断二者是否可以合并。步骤S330至步骤S360是可以不断循环执行的，直至最大轨迹相似度小于或等于第一轨迹阈值为止。最终可以获得所需的至少一个行人轨迹，其分别对应于视频中的至少一个行人。

沿用上述示例，假设第一轨迹阈值是95％，则最大轨迹相似度90％不满足要求，因此不对1号轨迹、2号轨迹和3号轨迹进行合并。最终获得的行人跟踪结果包括1号轨迹、2号轨迹和3号轨迹这三个行人轨迹，每个行人轨迹对应一个行人。

上述第一轨迹阈值可以根据需要设定，本发明不对此进行限制。

通过上述方式，可以逐渐将属于同一行人的行人框合并到一个行人轨迹中。通过特征向量计算相似度的方式非常简单高效，能够准确地划分与各行人对应的行人轨迹，从而获得理想的行人跟踪结果。

根据本发明实施例，步骤S360可以包括：对合并后的行人轨迹所包含的行人框的特征向量求平均，以获得合并后的行人轨迹的特征向量。

求平均可以是加权平均或算术平均。在合并行人轨迹时，有可能对其中的行人框进行了一些处理，例如合并和/或插值，因此，可以重新对合并后的行人轨迹所包含的行人框的特征向量求平均，平均结果为合并后的行人轨迹的特征向量。此外，在采用加权平均的计算方式时，合并后的行人轨迹中的行人框的权重可以与用于合并的两个行人轨迹的行人框的权重不同，因此在步骤S360中可以通过对合并后的行人轨迹所包含的行人框的特征向量求平均来计算合并后的行人轨迹的特征向量。

根据本发明实施例，步骤S360可以包括：对与最大轨迹相似度对应的两个行人轨迹的特征向量求平均，以获得合并后的行人轨迹的特征向量。

类似地，求平均可以是加权平均或算术平均。可以通过直接对用于合并的两个行人轨迹的特征向量求平均来计算合并后的行人轨迹的特征向量。这种计算方式比较简单，计算量较小。在采用算术平均方式计算用于合并的两个行人轨迹的特征向量及合并后的行人轨迹的特征向量并且合并行人轨迹时未对行人框进行附加处理的情况下，这种计算方式与上一实施例的计算结果一致。在其他情况下，也可以将计算结果近似为合并后的行人轨迹的特征向量。

应理解，上述合并后的行人轨迹的特征向量的计算方式仅是示例而非限制，本发明可以具有其他合理的实现方式。

根据本发明实施例，步骤S310可以包括：对于分别属于至少部分视频帧中的任意两个相邻视频帧的任意两个行人框，基于该两个行人框的特征向量计算该两个行人框之间的行人框相似度，如果该两个行人框之间的行人框相似度大于行人框阈值，则将该两个行人框划分到同一行人轨迹。

示例性地，根据两个行人框的特征向量可以计算两个行人框的欧式距离。两个行人框的欧式距离可以反映两个行人框之间的行人框相似度。如果两个行人框之间的行人框相似度大于行人框阈值，则认为二者属于同一行人，可以将二者划分到同一行人轨迹。由于行人在视频帧中通常是连续出现的，因此可以仅对比相邻视频帧中的行人框。

在步骤S310首先根据行人框的相似度对行人框进行初始划分，获得一些初始的行人轨迹。随后基于每个行人轨迹所包含的行人框的特征向量获得行人轨迹的特征向量。与简单划分行人框以使得每个行人轨迹仅包括一个行人框的方式相比，本实施例的方法可以有效减少步骤S330中的计算量。

上述行人框阈值可以根据需要设定，本发明不对此进行限制。

根据本发明实施例，步骤S310可以包括：将所有行人框中的每个行人框一一对应地划分到与所有行人框数目相同的行人轨迹，以获得轨迹集合。

可以直接将每个行人框划分到一个行人轨迹，使得每个行人轨迹仅包括一个行人框。这样，每个行人轨迹的特征向量也就是其所包含的行人框的特征向量。在步骤S330中，相当于直接对所有行人框进行两两之间的对比，确定所有行人框两两之间的相似度，随后通过行人轨迹的不断合并，同样可以逐渐将属于同一行人的行人框合并到同一行人轨迹中，以最终获得所需的行人跟踪结果。本实施例的做法也是可行的，只是计算量稍大一些。

根据本发明实施例，步骤S330可以包括：对于所述轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，或者，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距小于或等于差距阈值，则基于该两个行人轨迹的特征向量计算该两个行人轨迹之间的轨迹相似度；以及对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距大于差距阈值，则将预设相似度确定为该两个行人轨迹之间的轨迹相似度，其中，预设相似度小于或等于第一轨迹阈值。

下面举例说明本实施例。假设针对行人轨迹S1和行人轨迹S2，由于理论上在同一视频帧不应当存在两个行人框属于同一行人，因此，可以根据两个行人轨迹所包含的行人框所位于的视频帧是否存在重叠来辅助判断两个行人轨迹是否属于同一行人。例如，假设行人轨迹S1包括位于第1～5帧的行人框，行人轨迹S2包括位于第6～10帧的行人框，两个行人轨迹不包括位于同一视频帧的行人框，则可以基于行人轨迹S1和S2的特征向量计算二者之间的轨迹相似度，例如，训练后的卷积神经网络对行人轨迹S1和S2的特征向量进行计算获得的行人轨迹S1和S2之间的相似度为90％，则可确定二者之间的轨迹相似度为所计算的相似度，即90％。假设行人轨迹S1包括位于第1～5帧的行人框，行人轨迹S2包括位于第5～10帧的行人框，两个行人轨迹包括位于同一视频帧(即重叠视频帧)中的行人框。在这种情况下，可以考虑行人轨迹S1和行人轨迹S2在第5帧中的两个行人框的位置。如果两个行人框的位置相距较近，则可以认为行人轨迹S1和行人轨迹S2确实是属于同一行人。在这种情况下，基于行人轨迹S1和S2的特征向量计算该两个行人轨迹之间的相似度，并确定二者之间的轨迹相似度为所计算的相似度；同样假设该两个行人轨迹之间的相似度为90％，则可确定二者之间的轨迹相似度为所计算的相似度，即90％。如果两个行人框的位置相距较远，则可以认为行人轨迹S1和行人轨迹S2不属于同一行人。在这种情况下，不能对行人轨迹S1和行人轨迹S2进行合并，为此，可以将行人轨迹S1和行人轨迹S2之间的轨迹相似度置为小于或等于第一轨迹阈值，可选地，将行人轨迹S1和行人轨迹S2之间的轨迹相似度设置为预设相似度，其中预设相似度小于或等于第一轨迹阈值，由于行人轨迹S1和行人轨迹S2之间的轨迹相似度小于或等于第一轨迹阈值，使得行人轨迹S1和行人轨迹S2失去合并的资格，例如直接置为0，以使得行人轨迹S1和行人轨迹S2失去合并的资格。

两个行人框的位置之间的差距可以利用预设的差距阈值来衡量，大于差距阈值的认为两个行人框不属于同一行人，小于或等于差距阈值的可以认为两个行人框属于同一行人。差距阈值可以根据需要设定，本发明不对此进行限制。

根据本实施例，基于视频帧的重叠情况以及重叠视频帧中的行人框的位置来辅助判断两个行人轨迹是否属于同一行人，这种方式可以提高行人匹配的准确率，进而可以提高行人跟踪的准确率。

根据本发明实施例，步骤S350可以包括：如果与最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧存在重叠，则将与最大轨迹相似度对应的两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框合并为一个行人框，并将与最大轨迹相似度对应的两个行人轨迹所包含的剩余行人框与合并后的行人框一起划分到同一行人轨迹中，以获得合并后的行人轨迹。

可以理解，在步骤S350中参与合并的两个行人轨迹是相似度大于第一轨迹阈值的，二者是有资格合并的，此时可以分为两种情况，即两个行人轨迹包括位于同一视频帧中的行人框以及不包括位于同一视频帧中的行人框。

沿用上述示例，并且假设行人轨迹S1和行人轨迹S2之间的轨迹相似度是最大轨迹相似度。如果行人轨迹S1和行人轨迹S2均包括位于第5帧中的行人框，则可以将这两个行人框合并为一个行人框。行人框的合并方式可以包括：对用于合并的两个行人框的坐标求平均，以获得合并后的行人框的坐标。在获得合并后的行人框后，可以将其与行人轨迹S1和行人轨迹S2的剩余行人框一起划分到同一行人轨迹中，以获得合并后的行人轨迹。

如果与最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，则可以将与最大轨迹相似度对应的两个行人轨迹所包含的行人框一起划分到同一行人轨迹中，以获得合并后的行人轨迹。

示例性地，在步骤S350中合并行人轨迹时，如果用于合并的两个行人轨迹(即与最大轨迹相似度对应的两个行人轨迹)所包含的行人框所位于的视频帧不连续，则可以通过插值方式补充位于缺失视频帧中的行人框，以获得合并后的行人轨迹。通过上述方式，可以使得在合并后的行人轨迹中，行人框所位于的视频帧是连续的。

根据本发明实施例，行人跟踪方法200还可以包括：获取至少一组样本图像，其中，每组样本图像包括属于同一行人的第一图像和第二图像以及属于另一行人的第三图像；在初始的卷积神经网络的输出端构建三元损失函数；利用至少一组样本图像和三元损失函数训练初始的卷积神经网络的参数，以获得训练好的卷积神经网络。

行人跟踪方法200可以包括卷积神经网络的训练步骤。可以预先获取大量样本图像，每三个样本图像是一组，这三个样本图像中有两个样本图像属于同一行人，另一个样本图像属于另一行人。图4示出根据本发明一个实施例的训练卷积神经网络的示意图。在图4，图像A1和A2都属于同一行人A，图像B属于行人B。训练卷积神经网络的目的是使得基于卷积神经网络输出的特征向量能够区分出图像A1和图像A2属于同一行人，图像A1和图像B不属于同一行人，以及图像A2和图像B也不属于同一行人。训练过程可以采用三元损失函数(triplet hinge loss)实现，要求使特征向量a1和特征向量a2尽量接近，特征向量a1和特征向量b尽量远离，特征向量a2和特征向量b尽量远离。

本领域技术人员能够理解基于三元损失函数的训练方式，本文不对此进行赘述。

根据本发明实施例，行人跟踪方法200还可以包括：对至少一个行人轨迹进行计数，以确定视频中的行人的数目。

由于最终获得的每个行人轨迹分别属于不同的行人，因此最终确定的行人轨迹的数目可以代表行人的数目，因此可以在完成行人跟踪之后，可以对行人轨迹进行统计计数，以确定行人的数目。

常规的基于位置的行人跟踪方法无法做到跨摄像头跟踪，而根据本发明实施例的行人跟踪方法由于与位置无关，因此不仅可以实现单个摄像头场景下的行人跟踪，还可以轻松扩展到多摄像头场景下。下面描述多摄像头场景下的行人跟踪的实现方式。

根据本发明另一方面，提供一种跨摄像头行人跟踪方法。图5示出根据本发明一个实施例的跨摄像头行人跟踪方法500的示意性流程图。如图5所示，跨摄像头行人跟踪方法500包括以下步骤。

在步骤S510，获取分别由多个摄像头采集的多个视频。

在步骤S520，利用上述行人跟踪方法200分别处理多个视频，以获得与多个视频一一对应的多个行人跟踪结果，其中，与多个视频中的每个视频对应的行人跟踪结果包括与该视频对应的至少一个行人轨迹。

在步骤S530，对多个行人跟踪结果中的行人轨迹进行匹配，以获得跨摄像头跟踪结果。

假设采用行人跟踪方法200处理摄像头A采集的视频a，共获得10个行人轨迹，可以认为视频a中包含10个行人。并且，假设采用行人跟踪方法200处理摄像头B采集的视频b，共获得8个行人轨迹，可以认为视频b中包含8个行人。可以将视频a对应的10个行人轨迹与视频b对应的8个行人轨迹进行匹配，将属于同一行人的行人轨迹合并起来，以实现跨摄像头的行人跟踪。

示例性地，步骤S530可以包括：对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，确定该两个行人轨迹之间的轨迹相似度；以及对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，如果该两个行人轨迹之间的轨迹相似度大于第二轨迹阈值，则根据该两个行人轨迹的位置关系和时间关系判断该两个行人轨迹是否属于同一行人，如果是，则将该两个行人轨迹合并为一个行人轨迹。

与基于同一视频获得的多个行人轨迹类似地，对于与不同视频对应的多个行人轨迹，同样可以利用两个行人轨迹之间的轨迹相似度来判断两个行人轨迹是否属于同一行人。行人轨迹之间的轨迹相似度可以根据上文所述的行人轨迹的特征向量来计算，此处不赘述。在跨摄像头进行行人匹配时，所采用的第二轨迹阈值可以与上述第一轨迹阈值相同或不同。类似地，第二轨迹阈值可以根据需要设定，本发明不对此进行限制。

此外，还可以考虑行人轨迹的位置关系和时间关系来判断两个行人轨迹是否属于同一行人。例如，假设与视频a对应的行人轨迹S3和与视频b对应的行人轨迹S4之间的轨迹相似度是87％。假设第二轨迹阈值是85％，在这种情况下，行人轨迹S3和行人轨迹S4的轨迹相似度大于第二轨迹阈值。行人轨迹S3与行人轨迹S4的位置关系主要由摄像头A和摄像头B的位置关系决定。假设摄像头A与摄像头B相距800米，则可以认为行人轨迹S3与行人轨迹S4相距约800米。此外，假设行人轨迹S3的时间跨度是15时10分25秒～15时11分05秒，行人轨迹S4的时间跨度是15时12分10秒～15时13分35秒，也就是说行人轨迹S3与行人轨迹S4之间的时间差距非常小，仅在1分钟左右。行人一般不可能在1分钟左右前进800米，因此可以判断行人轨迹S3和行人轨迹S4属于不同的行人。在这种情况下，不对二者进行合并。如果行人轨迹S3的时间跨度是15时10分25秒～15时11分05秒，行人轨迹S4的时间跨度是15时27分10秒～15时28分35秒，也就是说行人轨迹S3与行人轨迹S4之间的时间差距比较大，大约在17分钟左右。行人在17分钟左右前进800米是可能的，可以认为行人轨迹S3和行人轨迹S4属于同一行人，可以将二者合并。也就是说，如果根据两个行人轨迹的位置关系和时间关系发现两个行人轨迹属于同一行人是不合理的，则不对二者进行合并，如果认为两个行人轨迹属于同一行人是合理的，则可以对二者进行合并。判断两个行人轨迹是否属于同一行人的标准可以根据需要设定，本发明不对此进行限制。

根据本发明实施例的跨摄像头行人跟踪方法，不受位置信息的限制，鲁棒性好，且能够实现跨摄像头的行人跟踪。

根据本发明另一方面，提供一种行人跟踪装置。图6示出了根据本发明一个实施例的行人跟踪装置600的示意性框图。

如图6所示，根据本发明实施例的行人跟踪装置600包括视频获取模块610、行人检测模块620、特征向量获得模块630和匹配模块640。所述各个模块可分别执行上文中结合图2-4描述的行人跟踪方法的各个步骤/功能。以下仅对该行人跟踪装置600的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

视频获取模块610用于获取视频。视频获取模块610可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

行人检测模块620用于对视频中的至少部分视频帧进行行人检测，以获得至少部分视频帧中的每个视频帧中的行人框。行人检测模块620可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

特征向量获得模块630用于对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量。特征向量获得模块630可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

匹配模块640用于基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果，其中，行人跟踪结果包括至少一个行人轨迹。匹配模块640可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，匹配模块640包括划分子模块、特征向量计算子模块、相似度确定子模块、判断子模块、合并子模块、特征向量确定子模块和跟踪结果确定子模块(未示出)，其中，划分子模块用于将所有行人框划分到多个行人轨迹，以获得轨迹集合；特征向量计算子模块用于对于轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量；相似度确定子模块用于基于行人轨迹的特征向量确定轨迹集合中的所有行人轨迹两两之间的轨迹相似度；判断子模块用于判断所确定的所有轨迹相似度中的最大轨迹相似度是否大于第一轨迹阈值，如果是，则启动合并子模块，否则启动跟踪结果确定子模块；合并子模块用于将与最大轨迹相似度对应的两个行人轨迹合并为一个行人轨迹以更新轨迹集合；特征向量确定子模块用于确定合并后的行人轨迹的特征向量，并启动相似度确定子模块；跟踪结果确定子模块用于确定轨迹集合中的所有行人轨迹为行人跟踪结果。

根据本发明实施例，特征向量计算子模块包括：第一平均单元，用于对于轨迹集合中的每个行人轨迹，对该行人轨迹所包含的行人框的特征向量求平均，以获得该行人轨迹的特征向量。

根据本发明实施例，特征向量确定子模块包括：第二平均单元，用于对合并后的行人轨迹所包含的行人框的特征向量求平均，以获得合并后的行人轨迹的特征向量。

根据本发明实施例，特征向量确定子模块包括：第三平均单元，用于对与最大轨迹相似度对应的两个行人轨迹的特征向量求平均，以获得合并后的行人轨迹的特征向量。

根据本发明实施例，划分子模块包括：第一划分单元，用于对于分别属于至少部分视频帧中的任意两个相邻视频帧的任意两个行人框，基于该两个行人框的特征向量计算该两个行人框之间的行人框相似度，如果该两个行人框之间的行人框相似度大于行人框阈值，则将该两个行人框划分到同一行人轨迹。

根据本发明实施例，划分子模块包括：第二划分单元，用于将所有行人框中的每个行人框一一对应地划分到与所有行人框数目相同的行人轨迹，以获得轨迹集合。

根据本发明实施例，相似度确定子模块包括：第一相似度确定单元，用于对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，或者，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距小于或等于差距阈值，则基于该两个行人轨迹的特征向量计算该两个行人轨迹之间的轨迹相似度；以及第二相似度确定单元，用于对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距大于差距阈值，则将预设相似度确定为该两个行人轨迹之间的轨迹相似度，其中，预设相似度小于或等于第一轨迹阈值。

根据本发明实施例，合并子模块包括：合并单元，用于如果与最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧存在重叠，则将与最大轨迹相似度对应的两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框合并为一个行人框，并将与最大轨迹相似度对应的两个行人轨迹所包含的剩余行人框与合并后的行人框一起划分到同一行人轨迹中，以获得合并后的行人轨迹。

根据本发明实施例，行人跟踪装置600还包括：图像获取模块(未示出)，用于获取至少一组样本图像，其中，每组样本图像包括属于同一行人的第一图像和第二图像以及属于另一行人的第三图像；损失函数构建模块(未示出)，用于在初始的卷积神经网络的输出端构建三元损失函数；训练模块(未示出)，用于利用至少一组样本图像和三元损失函数训练初始的卷积神经网络的参数，以获得训练好的卷积神经网络。

根据本发明实施例，行人跟踪装置600还包括：计数模块，用于对至少一个行人轨迹进行计数，以确定视频中的行人的数目。

根据本发明另一方面，提供一种跨摄像头行人跟踪装置。图7示出了根据本发明一个实施例的跨摄像头行人跟踪装置700的示意性框图。

如图7所示，根据本发明实施例的跨摄像头行人跟踪装置700包括多视频获取模块710、视频处理模块720和多视频匹配模块730。所述各个模块可分别执行上文中结合图5描述的跨摄像头行人跟踪方法的各个步骤/功能。以下仅对该跨摄像头行人跟踪装置700的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

多视频获取模块710用于获取分别由多个摄像头采集的多个视频。多视频获取模块710可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

视频处理模块720用于利用上述行人跟踪装置600分别处理多个视频，以获得与多个视频一一对应的多个行人跟踪结果，其中，与多个视频中的每个视频对应的行人跟踪结果包括与该视频对应的至少一个行人轨迹。视频处理模块720可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

多视频匹配模块730用于对多个行人跟踪结果中的行人轨迹进行匹配，以获得跨摄像头跟踪结果。多视频匹配模块730可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，多结果匹配模块730包括：多视频相似度确定子模块，用于对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，确定该两个行人轨迹之间的轨迹相似度；以及多视频合并子模块，用于对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，如果该两个行人轨迹之间的轨迹相似度大于第二轨迹阈值，则根据该两个行人轨迹的位置关系和时间关系判断该两个行人轨迹是否属于同一行人，如果是，则将该两个行人轨迹合并为一个行人轨迹。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图8示出了根据本发明一个实施例的行人跟踪系统800的示意性框图。行人跟踪系统800包括视频采集装置810、存储装置820、以及处理器830。

视频采集装置810用于采集视频。视频采集装置810是可选的，行人跟踪系统800可以不包括视频采集装置810。在这种情况下，可以利用其他视频采集装置采集用于行人跟踪的视频，并将采集的视频发送给行人跟踪系统800。

所述存储装置820存储用于实现根据本发明实施例的行人跟踪方法及跨摄像头行人跟踪方法中的相应步骤的程序代码。

所述处理器830用于运行所述存储装置820中存储的程序代码，以执行根据本发明实施例的行人跟踪方法及跨摄像头行人跟踪方法的相应步骤，并且用于实现根据本发明实施例的行人跟踪装置600中的视频获取模块610、行人检测模块620、特征向量获得模块630和匹配模块640以及跨摄像头行人跟踪装置700中的多视频获取模块710、视频处理模块720和多视频匹配模块730。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800执行以下步骤：获取视频；对视频中的至少部分视频帧进行行人检测，以获得至少部分视频帧中的每个视频帧中的行人框；对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量；以及基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果，其中，行人跟踪结果包括至少一个行人轨迹。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果的步骤包括：步骤S310：将所有行人框划分到多个行人轨迹，以获得轨迹集合；步骤S320：对于轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量；步骤S330：基于行人轨迹的特征向量确定轨迹集合中的所有行人轨迹两两之间的轨迹相似度；步骤S340：判断所确定的所有轨迹相似度中的最大轨迹相似度是否大于第一轨迹阈值，如果是，则转至步骤S350，否则转至步骤S370；步骤S350：将与最大轨迹相似度对应的两个行人轨迹合并为一个行人轨迹以更新轨迹集合；步骤S360：确定合并后的行人轨迹的特征向量，并返回步骤S330；以及步骤S370：确定轨迹集合中的所有行人轨迹为行人跟踪结果。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的步骤S320包括：对于轨迹集合中的每个行人轨迹，对该行人轨迹所包含的行人框的特征向量求平均，以获得该行人轨迹的特征向量。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的步骤S360包括：对合并后的行人轨迹所包含的行人框的特征向量求平均，以获得合并后的行人轨迹的特征向量。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的步骤S360包括：对与最大轨迹相似度对应的两个行人轨迹的特征向量求平均，以获得合并后的行人轨迹的特征向量。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的步骤S310包括：对于分别属于至少部分视频帧中的任意两个相邻视频帧的任意两个行人框，基于该两个行人框的特征向量计算该两个行人框之间的行人框相似度，如果该两个行人框之间的行人框相似度大于行人框阈值，则将该两个行人框划分到同一行人轨迹。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的步骤S310包括：将所有行人框中的每个行人框一一对应地划分到与所有行人框数目相同的行人轨迹，以获得轨迹集合。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的步骤S330包括：对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，或者，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距小于或等于差距阈值，则基于该两个行人轨迹的特征向量计算该两个行人轨迹之间的轨迹相似度；以及对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距大于差距阈值，则将预设相似度确定为该两个行人轨迹之间的轨迹相似度，其中，预设相似度小于或等于第一轨迹阈值。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的步骤S350包括：如果与最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧存在重叠，则将与最大轨迹相似度对应的两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框合并为一个行人框，并将与最大轨迹相似度对应的两个行人轨迹所包含的剩余行人框与合并后的行人框一起划分到同一行人轨迹中，以获得合并后的行人轨迹。

在一个实施例中，所述程序代码被所述处理器830运行时还使所述行人跟踪系统800执行：获取至少一组样本图像，其中，每组样本图像包括属于同一行人的第一图像和第二图像以及属于另一行人的第三图像；在初始的卷积神经网络的输出端构建三元损失函数；利用至少一组样本图像和三元损失函数训练初始的卷积神经网络的参数，以获得训练好的卷积神经网络。

在一个实施例中，所述程序代码被所述处理器830运行时还使所述行人跟踪系统800执行：对至少一个行人轨迹进行计数，以确定视频中的行人的数目。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800执行以下步骤：获取分别由多个摄像头采集的多个视频；利用上述行人跟踪方法分别处理多个视频，以获得与多个视频一一对应的多个行人跟踪结果，其中，与多个视频中的每个视频对应的行人跟踪结果包括与该视频对应的至少一个行人轨迹；以及对多个行人跟踪结果中的行人轨迹进行匹配，以获得跨摄像头跟踪结果。

在一个实施例中，所述程序代码被所述处理器830运行时使所述行人跟踪系统800所执行的对多个行人跟踪结果中的行人轨迹进行匹配的步骤包括：对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，确定该两个行人轨迹之间的轨迹相似度；以及对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，如果该两个行人轨迹之间的轨迹相似度大于第二轨迹阈值，则根据该两个行人轨迹的位置关系和时间关系判断该两个行人轨迹是否属于同一行人，如果是，则将该两个行人轨迹合并为一个行人轨迹。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的行人跟踪方法的相应步骤，并且用于实现根据本发明实施例的行人跟踪装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的行人跟踪装置的各个功能模块，并且/或者可以执行根据本发明实施例的行人跟踪方法。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤：获取视频；对视频中的至少部分视频帧进行行人检测，以获得至少部分视频帧中的每个视频帧中的行人框；对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量；以及基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果，其中，行人跟踪结果包括至少一个行人轨迹。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果的步骤包括：步骤S310：将所有行人框划分到多个行人轨迹，以获得轨迹集合；步骤S320：对于轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量；步骤S330：基于行人轨迹的特征向量确定轨迹集合中的所有行人轨迹两两之间的轨迹相似度；步骤S340：判断所确定的所有轨迹相似度中的最大轨迹相似度是否大于第一轨迹阈值，如果是，则转至步骤S350，否则转至步骤S370；步骤S350：将与最大轨迹相似度对应的两个行人轨迹合并为一个行人轨迹以更新轨迹集合；步骤S360：确定合并后的行人轨迹的特征向量，并返回步骤S330；以及步骤S370：确定轨迹集合中的所有行人轨迹为行人跟踪结果。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的步骤S320包括：对于轨迹集合中的每个行人轨迹，对该行人轨迹所包含的行人框的特征向量求平均，以获得该行人轨迹的特征向量。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的步骤S360包括：对合并后的行人轨迹所包含的行人框的特征向量求平均，以获得合并后的行人轨迹的特征向量。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的步骤S360包括：对与最大轨迹相似度对应的两个行人轨迹的特征向量求平均，以获得合并后的行人轨迹的特征向量。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的步骤S310包括：对于分别属于至少部分视频帧中的任意两个相邻视频帧的任意两个行人框，基于该两个行人框的特征向量计算该两个行人框之间的行人框相似度，如果该两个行人框之间的行人框相似度大于行人框阈值，则将该两个行人框划分到同一行人轨迹。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的步骤S310包括：将所有行人框中的每个行人框一一对应地划分到与所有行人框数目相同的行人轨迹，以获得轨迹集合。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的步骤S330包括：对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，或者，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距小于或等于差距阈值，则基于该两个行人轨迹的特征向量计算该两个行人轨迹之间的轨迹相似度；以及对于轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距大于差距阈值，则将预设相似度确定为该两个行人轨迹之间的轨迹相似度，其中，预设相似度小于或等于第一轨迹阈值。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的步骤S350包括：如果与最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧存在重叠，则将与最大轨迹相似度对应的两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框合并为一个行人框，并将与最大轨迹相似度对应的两个行人轨迹所包含的剩余行人框与合并后的行人框一起划分到同一行人轨迹中，以获得合并后的行人轨迹。

在一个实施例中，所述计算机程序指令在被计算机运行时还使所述计算机执行：获取至少一组样本图像，其中，每组样本图像包括属于同一行人的第一图像和第二图像以及属于另一行人的第三图像；在初始的卷积神经网络的输出端构建三元损失函数；利用至少一组样本图像和三元损失函数训练初始的卷积神经网络的参数，以获得训练好的卷积神经网络。

在一个实施例中，所述计算机程序指令在被计算机运行时还使所述计算机执行：对至少一个行人轨迹进行计数，以确定视频中的行人的数目。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤：获取分别由多个摄像头采集的多个视频；利用上述行人跟踪方法分别处理多个视频，以获得与多个视频一一对应的多个行人跟踪结果，其中，与多个视频中的每个视频对应的行人跟踪结果包括与该视频对应的至少一个行人轨迹；以及对多个行人跟踪结果中的行人轨迹进行匹配，以获得跨摄像头跟踪结果。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的对多个行人跟踪结果中的行人轨迹进行匹配的步骤包括：对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，确定该两个行人轨迹之间的轨迹相似度；以及对于分别与多个视频中的任意两个视频对应的任意两个行人轨迹，如果该两个行人轨迹之间的轨迹相似度大于第二轨迹阈值，则根据该两个行人轨迹的位置关系和时间关系判断该两个行人轨迹是否属于同一行人，如果是，则将该两个行人轨迹合并为一个行人轨迹。

根据本发明实施例的行人跟踪系统中的各模块可以通过根据本发明实施例的实施行人跟踪的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的行人跟踪方法和装置及跨摄像头行人跟踪方法和装置不依赖于行人框的位置，不受位置信息的限制。行人跟踪方法的鲁棒性好，能够有效抵抗行人之间相互遮挡、行人检测结果偏移等会造成常规的基于位置的行人跟踪方法出错的场景。根据本发明实施例的行人跟踪方法可以实现准确高效的行人跟踪，并且能够轻松实现跨摄像头的行人跟踪。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的行人跟踪装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行人跟踪方法，包括：

获取视频；

对所述视频中的至少部分视频帧进行行人检测，以获得所述至少部分视频帧中的每个视频帧中的行人框；

对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量；以及

基于所述所有行人框中的每个行人框的特征向量对所述所有行人框进行匹配，以获得行人跟踪结果，其中，所述行人跟踪结果包括至少一个行人轨迹。

2.如权利要求1所述的行人跟踪方法，其中，所述基于所述所有行人框中的每个行人框的特征向量对所述所有行人框进行匹配，以获得行人跟踪结果包括：

步骤S310：将所述所有行人框划分到多个行人轨迹，以获得轨迹集合；

步骤S320：对于所述轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量；

步骤S330：基于行人轨迹的特征向量确定所述轨迹集合中的所有行人轨迹两两之间的轨迹相似度；

步骤S340：判断所确定的所有轨迹相似度中的最大轨迹相似度是否大于第一轨迹阈值，如果是，则转至步骤S350，否则转至步骤S370；

步骤S350：将与所述最大轨迹相似度对应的两个行人轨迹合并为一个行人轨迹以更新所述轨迹集合；

步骤S360：确定合并后的行人轨迹的特征向量，并返回所述步骤S330；以及

步骤S370：确定所述轨迹集合中的所有行人轨迹为所述行人跟踪结果。

3.如权利要求2所述的行人跟踪方法，其中，所述步骤S320包括：

对于所述轨迹集合中的每个行人轨迹，对该行人轨迹所包含的行人框的特征向量求平均，以获得该行人轨迹的特征向量。

4.如权利要求2所述的行人跟踪方法，其中，所述步骤S360包括：

对所述合并后的行人轨迹所包含的行人框的特征向量求平均，以获得所述合并后的行人轨迹的特征向量。

5.如权利要求2所述的行人跟踪方法，其中，所述步骤S360包括：

对所述与所述最大轨迹相似度对应的两个行人轨迹的特征向量求平均，以获得所述合并后的行人轨迹的特征向量。

6.如权利要求2所述的行人跟踪方法，其中，所述步骤S310包括：

对于分别属于所述至少部分视频帧中的任意两个相邻视频帧的任意两个行人框，基于该两个行人框的特征向量计算该两个行人框之间的行人框相似度，如果该两个行人框之间的行人框相似度大于行人框阈值，则将该两个行人框划分到同一行人轨迹。

7.如权利要求2所述的行人跟踪方法，其中，所述步骤S310包括：

将所述所有行人框中的每个行人框一一对应地划分到与所述所有行人框数目相同的行人轨迹，以获得所述轨迹集合。

8.如权利要求2所述的行人跟踪方法，其中，所述步骤S330包括：

对于所述轨迹集合中的每两个行人轨迹，

如果该两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，或者，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距小于或等于差距阈值，则基于该两个行人轨迹的特征向量计算该两个行人轨迹之间的轨迹相似度；以及

如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距大于所述差距阈值，则将预设相似度确定为该两个行人轨迹之间的轨迹相似度，其中，所述预设相似度小于或等于所述第一轨迹阈值。

9.如权利要求2所述的行人跟踪方法，其中，所述步骤S350包括：

如果所述与所述最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧存在重叠，则将所述与所述最大轨迹相似度对应的两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框合并为一个行人框，并将所述与所述最大轨迹相似度对应的两个行人轨迹所包含的剩余行人框与合并后的行人框一起划分到同一行人轨迹中，以获得所述合并后的行人轨迹。

10.如权利要求1所述的行人跟踪方法，其中，所述行人跟踪方法还包括：

获取至少一组样本图像，其中，每组样本图像包括属于同一行人的第一图像和第二图像以及属于另一行人的第三图像；

在初始的卷积神经网络的输出端构建三元损失函数；

利用所述至少一组样本图像和所述三元损失函数训练所述初始的卷积神经网络的参数，以获得所述训练好的卷积神经网络。

11.如权利要求1所述的行人跟踪方法，其中，所述行人跟踪方法还包括：

对所述至少一个行人轨迹进行计数，以确定所述视频中的行人的数目。

12.一种跨摄像头行人跟踪方法，包括：

获取分别由多个摄像头采集的多个视频；

利用如权利要求1至11任一项所述的行人跟踪方法分别处理所述多个视频，以获得与所述多个视频一一对应的多个行人跟踪结果，其中，与所述多个视频中的每个视频对应的行人跟踪结果包括与该视频对应的至少一个行人轨迹；以及

对所述多个行人跟踪结果中的行人轨迹进行匹配，以获得跨摄像头跟踪结果。

13.如权利要求12所述的跨摄像头行人跟踪方法，其中，所述对所述多个行人跟踪结果中的行人轨迹进行匹配包括：

对于分别与所述多个视频中的任意两个视频对应的任意两个行人轨迹，

确定该两个行人轨迹之间的轨迹相似度；以及

如果该两个行人轨迹之间的轨迹相似度大于第二轨迹阈值，则根据该两个行人轨迹的位置关系和时间关系判断该两个行人轨迹是否属于同一行人，如果是，则将该两个行人轨迹合并为一个行人轨迹。

14.一种行人跟踪装置，包括：

视频获取模块，用于获取视频；

行人检测模块，用于对所述视频中的至少部分视频帧进行行人检测，以获得所述至少部分视频帧中的每个视频帧中的行人框；

特征向量获得模块，用于对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量；以及

匹配模块，用于基于所述所有行人框中的每个行人框的特征向量对所述所有行人框进行匹配，以获得行人跟踪结果，其中，所述行人跟踪结果包括至少一个行人轨迹。

15.如权利要求14所述的行人跟踪装置，其中，所述匹配模块包括划分子模块、特征向量计算子模块、相似度确定子模块、判断子模块、合并子模块、特征向量确定子模块和跟踪结果确定子模块，其中，

所述划分子模块用于将所述所有行人框划分到多个行人轨迹，以获得轨迹集合；

所述特征向量计算子模块用于对于所述轨迹集合中的每个行人轨迹，根据该行人轨迹所包含的行人框的特征向量计算该行人轨迹的特征向量；

所述相似度确定子模块用于基于行人轨迹的特征向量确定所述轨迹集合中的所有行人轨迹两两之间的轨迹相似度；

所述判断子模块用于判断所确定的所有轨迹相似度中的最大轨迹相似度是否大于第一轨迹阈值，如果是，则启动所述合并子模块，否则启动所述跟踪结果确定子模块；

所述合并子模块用于将与所述最大轨迹相似度对应的两个行人轨迹合并为一个行人轨迹以更新所述轨迹集合；

所述特征向量确定子模块用于确定合并后的行人轨迹的特征向量，并启动所述相似度确定子模块；

所述跟踪结果确定子模块用于确定所述轨迹集合中的所有行人轨迹为所述行人跟踪结果。

16.如权利要求15所述的行人跟踪装置，其中，所述特征向量计算子模块包括：

第一平均单元，用于对于所述轨迹集合中的每个行人轨迹，对该行人轨迹所包含的行人框的特征向量求平均，以获得该行人轨迹的特征向量。

17.如权利要求15所述的行人跟踪装置，其中，所述特征向量确定子模块包括：

第二平均单元，用于对所述合并后的行人轨迹所包含的行人框的特征向量求平均，以获得所述合并后的行人轨迹的特征向量。

18.如权利要求15所述的行人跟踪装置，其中，所述特征向量确定子模块包括：

第三平均单元，用于对所述与所述最大轨迹相似度对应的两个行人轨迹的特征向量求平均，以获得所述合并后的行人轨迹的特征向量。

19.如权利要求15所述的行人跟踪装置，其中，所述划分子模块包括：

第一划分单元，用于对于分别属于所述至少部分视频帧中的任意两个相邻视频帧的任意两个行人框，基于该两个行人框的特征向量计算该两个行人框之间的行人框相似度，如果该两个行人框之间的行人框相似度大于行人框阈值，则将该两个行人框划分到同一行人轨迹。

20.如权利要求15所述的行人跟踪装置，其中，所述划分子模块包括：

第二划分单元，用于将所述所有行人框中的每个行人框一一对应地划分到与所述所有行人框数目相同的行人轨迹，以获得所述轨迹集合。

21.如权利要求15所述的行人跟踪装置，其中，所述相似度确定子模块包括：

第一相似度确定单元，用于对于所述轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧不存在重叠，或者，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距小于或等于差距阈值，则基于该两个行人轨迹的特征向量计算该两个行人轨迹之间的轨迹相似度；以及

第二相似度确定单元，用于对于所述轨迹集合中的每两个行人轨迹，如果该两个行人轨迹所包含的行人框所位于的视频帧存在重叠，并且该两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框的位置之间的差距大于所述差距阈值，则将预设相似度确定为该两个行人轨迹之间的轨迹相似度，其中，所述预设相似度小于或等于所述第一轨迹阈值。

22.如权利要求15所述的行人跟踪装置，其中，所述合并子模块包括：

合并单元，用于如果所述与所述最大轨迹相似度对应的两个行人轨迹所包含的行人框所位于的视频帧存在重叠，则将所述与所述最大轨迹相似度对应的两个行人轨迹分别包含的、位于重叠视频帧中的两个行人框合并为一个行人框，并将所述与所述最大轨迹相似度对应的两个行人轨迹所包含的剩余行人框与合并后的行人框一起划分到同一行人轨迹中，以获得所述合并后的行人轨迹。

23.如权利要求14所述的行人跟踪装置，其中，所述行人跟踪装置还包括：

图像获取模块，用于获取至少一组样本图像，其中，每组样本图像包括属于同一行人的第一图像和第二图像以及属于另一行人的第三图像；

损失函数构建模块，用于在初始的卷积神经网络的输出端构建三元损失函数；

训练模块，用于利用所述至少一组样本图像和所述三元损失函数训练所述初始的卷积神经网络的参数，以获得所述训练好的卷积神经网络。

24.如权利要求14所述的行人跟踪装置，其中，所述行人跟踪装置还包括：

计数模块，用于对所述至少一个行人轨迹进行计数，以确定所述视频中的行人的数目。

25.一种跨摄像头行人跟踪装置，包括：

多视频获取模块，用于获取分别由多个摄像头采集的多个视频；

视频处理模块，用于利用如权利要求14至24任一项所述的行人跟踪装置分别处理所述多个视频，以获得与所述多个视频一一对应的多个行人跟踪结果，其中，与所述多个视频中的每个视频对应的行人跟踪结果包括与该视频对应的至少一个行人轨迹；以及

多视频匹配模块，用于对所述多个行人跟踪结果中的行人轨迹进行匹配，以获得跨摄像头跟踪结果。

26.如权利要求25所述的跨摄像头行人跟踪装置，其中，所述多结果匹配模块包括：

多视频相似度确定子模块，用于对于分别与所述多个视频中的任意两个视频对应的任意两个行人轨迹，确定该两个行人轨迹之间的轨迹相似度；以及

多视频合并子模块，用于对于分别与所述多个视频中的任意两个视频对应的任意两个行人轨迹，如果该两个行人轨迹之间的轨迹相似度大于第二轨迹阈值，则根据该两个行人轨迹的位置关系和时间关系判断该两个行人轨迹是否属于同一行人，如果是，则将该两个行人轨迹合并为一个行人轨迹。