CN113793362B

CN113793362B - 基于多镜头视频的行人轨迹提取方法和装置

Info

Publication number: CN113793362B
Application number: CN202111108562.4A
Authority: CN
Inventors: 黄蔚欣; 熊鑫昌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-05-07
Anticipated expiration: 2041-09-22
Also published as: CN113793362A

Abstract

本说明书实施例提供了一种基于多镜头视频的行人轨迹提取方法和装置。该方法的一具体实施方式包括：首先获取由待分析空间内多个摄像头采集的多个视频，而后通过第一模型基于多个视频生成待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据，最后通过第二模型基于多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，其中，第二模型包括动态图卷积网络，该动态图卷积网络的卷积核是基于输入的图像的特征图确定的，动态图卷积网络可以更好的实现所输入行人图像的对齐与图像特征的匹配，从而使视频中行人的匹配结果更加准确，进一步生成更加准确的行人轨迹数据集合，实现了多镜头视频的行为轨迹提取。

Description

基于多镜头视频的行人轨迹提取方法和装置

技术领域

本说明书实施例涉及计算机技术领域，尤其涉及一种基于多镜头视频的行人轨迹提取方法和装置。

背景技术

随着计算机视觉技术的不断发展和硬件运算能力的不断提升，视频处理技术日渐成熟。视频数据可以较为客观、详细地记录行人的行为信息，并且具有采集简便、采集设备分布广泛、数据量大、信息维度丰富等特点。因此，从视频中提取行人的时空轨迹数据，可以拓展环境行为分析的数据来源，提升环境行为分析的效率和可靠性。实践中，由于单个视频采集设备(例如，摄像头)的采集范围有限，为了获取某个空间内各个区域的视频数据，往往会在该空间内安装多个视频采集设备。因此，为了便于分析各行人在该空间内的轨迹，需要从多个视频采集设备采集的多个视频中提取各个行人的轨迹。

发明内容

本说明书的实施例描述了一种基于多镜头视频的行人轨迹提取方法和装置，在生成待分析空间各个视频中各行人的轨迹数据之后，通过包含动态图卷积网络的第二模型基于多个视频对不同视频中的行人进行匹配，得到各个行人在待分析空间的轨迹数据集合，由于动态图卷积网络的卷积核是基于输入的图像的特征图确定的，因此动态图卷积网络可以更好的实现所输入行人图像的对齐与图像特征的匹配，从而使视频中行人的匹配结果更加准确，进一步生成更加准确的行人轨迹数据集合，实现了多镜头视频的行为轨迹提取。

根据第一方面，提供了一种基于多镜头视频的行人轨迹提取方法，包括：获取由待分析空间内多个摄像头采集的多个视频；通过第一模型基于上述多个视频生成上述待分析空间各个上述视频中各行人的一段或多段轨迹的轨迹数据；通过第二模型基于上述多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，其中，上述第二模型包括动态图卷积网络，上述动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

在一个实施例中，上述第二模型为行人重识别模型，各轨迹数据包括多张人体图像截图，以及上述行人重识别模型通过以下方式确定两两轨迹数据的代表截图指示的行人是否为同一人，其中，轨迹数据的代表截图是从轨迹数据的多张人体图像中确定的：对两两代表截图分别进行特征提取，得到特征图像；基于得到的特征图像确定上述动态图卷积网络的卷积核，以及通过上述动态图卷积网络生成上述两两代表截图的特征图之间的响应向量；基于上述响应向量确定上述两两代表截图之间的匹配度，以及根据上述匹配度确定上述两两代表截图指示的行人是否为同一人。

在一个实施例中，上述第一模型为多目标跟踪模型，上述多目标跟踪模型包括特征提取网络、目标检测网络和目标轨迹位置预测模块；以及上述通过第一模型基于上述多个视频生成上述待分析空间各个上述视频中各行人的一段或多段轨迹的轨迹数据，包括：使用上述特征提取网络生成各视频的视频帧的特征图；使用上述目标检测网络从各视频帧的特征图中检测行人目标的中心点位置和目标尺寸；使用上述目标轨迹位置预测模块确定各视频帧中检测到的行人目标在下一视频帧中的预测位置，以及基于上述预测位置和下一帧中的检测位置进行目标跟踪；根据目标跟踪结果和上述目标检测网络输出的行人目标的中心点位置和目标尺寸，生成各视频中各行人的轨迹数据。

在一个实施例中，上述多目标跟踪模型还包括身份识别模块，上述身份识别模块用于确定相邻的两个视频帧中行人目标的特征距离；以及上述通过第一模型基于上述多个视频生成上述待分析空间各个上述视频中各行人的一段或多段轨迹的轨迹数据，还包括：通过上述多目标跟踪模型的身份识别模块生成各个视频中相邻的两个视频帧中行人目标的特征距离；将得到的特征距离用于相邻视频帧中行人身份的匹配，以及基于匹配结果生成所述待分析空间各个视频中各行人的轨迹数据。

在一个实施例中，上述通过第二模型基于上述多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，包括:响应于确定所述多个摄像头采集的视频覆盖所述待分析空间所包括的所有通道口，通过以下第一方式生成轨迹数据集合：将生成的多个轨迹数据中，对应视频的拍摄范围包括通道口的轨迹数据作为第一轨迹数据，不包括通道口的轨迹数据作为第二轨迹数据；根据上述第二模型和各第一轨迹数据的代表截图，生成第一轨迹数据集合，其中，轨迹数据的代表截图是从轨迹数据包括的多张人体图像中确定的，上述第一轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据；根据行人标识对应的轨迹数据的各人体图像截图对应的截图时间，确定上述第一轨迹数据集合中行人标识对应的行人在上述待分析空间的停留时间区间；对于各第二轨迹数据，根据上述第一轨迹数据集合中行人标识对应的停留时间区间和该第二轨迹数据中各人体图像截图对应的截图时间，从上述第一轨迹数据集合中确定候选轨迹数据集合；以及利用上述第二模型，将该第二轨迹数据的代表截图与上述候选轨迹数据集合中的轨迹数据的代表截图进行匹配，将该第二轨迹数据作为相匹配的轨迹数据对应的行人标识的轨迹数据之一。

在一个实施例中，上述通过第二模型基于上述多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，包括:响应于确定多个摄像头采集的视频未覆盖所述待分析空间所包括的所有通道口，通过以下第二方式生成轨迹数据集合：使用上述第二模型，对所获取的多个轨迹数据的代表截图进行行人重识别，得到第二轨迹数据集合，其中，上述第二轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据。

在一个实施例中，上述第二模型是通过以下方式训练得到的：获取训练样本，训练样本中包括不同样本视频中分别包括的第一图像和第二图像、以及标签值，其中，上述第一图像中包括第一行人，上述第二图像中包括第二行人，上述标签值指示该上述第一行人与上述第二行人的匹配度；基于上述训练样本更新上述第二模型的参数，使得更新后的上述第二模型基于上述第一图像和上述第二图像的输出更接近上述标签值，其中，上述第二模型包括动态图卷积网络，上述动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

根据第二方面，提供了一种基于多镜头视频的行人轨迹提取装置，包括：获取单元，配置为获取由待分析空间内多个摄像头采集的多个视频；生成单元，配置为通过第一模型基于上述多个视频生成上述待分析空间各个上述视频中各行人的一段或多段轨迹的轨迹数据；匹配单元，配置为通过第二模型基于上述多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，其中，上述第二模型包括动态图卷积网络，上述动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当上述计算机程序在计算机中执行时，令计算机执行如第一方面中任一实现方式描述的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，上述存储器中存储有可执行代码，上述处理器执行上述可执行代码时，实现如第一方面中任一实现方式描述的方法。

根据本说明书实施例提供的基于多镜头视频的行人轨迹提取方法和装置，首先获取由待分析空间内多个摄像头采集的多个视频，而后通过第一模型基于多个视频生成待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据，最后通过第二模型基于多个视频对不同视频中的行人进行匹配，得到各个行人在待分析空间的轨迹数据集合，其中，第二模型包括动态图卷积网络，该动态图卷积网络的卷积核是基于输入的图像的特征图确定的，动态图卷积网络可以更好的实现所输入行人图像的对齐与图像特征的匹配，从而使视频中行人的匹配结果更加准确，进一步生成更加准确的行人轨迹数据集合，实现了多镜头视频的行为轨迹提取。

附图说明

图1示出了根据一个实施例的基于多镜头视频的行人轨迹提取方法的流程示意图；

图2示出了利用多目标跟踪模型生成各视频中行人的轨迹数据的一个例子的流程示意图；

图3示出了利用行人重识别模型进行行人重识别一个例子的流程示意图；

图4示出了根据一个实施例的基于多镜头视频的行人轨迹提取装置的示意性框图。

具体实施方式

下面结合附图和实施例，对本说明书提供的技术方案做进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。需要说明的是，在不冲突的情况下，本说明书的实施例及实施例中的特征可以相互组合。

如图1所示，图1示出了根据一个实施例的基于多镜头视频的行人轨迹提取方法的流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图1所示，该基于多镜头视频的行人轨迹提取方法，可以包括以下步骤：

步骤101，获取由待分析空间内多个摄像头采集的多个视频。

在本实施例中，用于执行基于多镜头视频的行人轨迹提取方法的执行主体，可以获取待分析空间内多个摄像头采集的多个视频。对于多个视频中的每一个视频，可以记录采集该视频的摄像头的摄像头编号C_k，以及可以记录该视频中各视频帧的采集时间等等。这里，待分析空间可以是指期望对其范围内的行人进行分析的空间。例如，待分析空间可以是商城、广场、街道等等。实践中，为了获取待分析空间内能够反映人群活动的视频，通常会在待分析空间内选择多个位置安装多个视频采集设备(例如，摄像头)，来采集记录行人行为信息的视频。为了使所获取的视频画面清晰，能够较为显著地反映行人衣着、体态等特征，可以根据实际需要选择摄像头的型号、安装位置、安装角度等等。此外，为了使画面背景保持相对稳定，一般要求拍摄角度固定，视频拍摄过程中画面不发生偏转。

可以理解，为了便于后续处理，在步骤101获取到视频之后，还可以对视频的视频帧进行畸变校正。具体地，对于多个摄像头中的每个摄像镜头，使用张正友标定法求解镜头的畸变参数。之后，根据畸变参数对视频图像进行畸变校正，得到无明显畸变的视频图像数据。

步骤102，通过第一模型基于多个视频生成待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据。

在本实施例中，可以通过第一模型基于获取的多个视频生成上述待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据。这里，第一模型可以是用于对单个视频中的行人进行多目标检测与跟踪的各种模型。这样，可以使用第一模型对获取的多个视频中的每个视频中的行人进行多目标检测与跟踪，从而得到单个视频中各个行人的一段或多段轨迹的轨迹数据。作为示例，轨迹数据可以包括摄像头编号C_k、轨迹片段编号J_k，n、人体图像连续截图F_k，n，i、截图对应时间T_k，n，i、截图底部中点像素坐标P_k，n，i等信息。这里，人体图像连续截图F_k，n，i可以包括多张人体图像，截图对应时间T_k，n，i可以是指截图所属视频帧的采集时间。

在一种实现方式中，上述第一模型可以是多目标跟踪模型，该多目标跟踪模型可以包括特征提取网络、目标检测网络和目标轨迹位置预测模块等。作为示例，多目标跟踪模型可以采用ResNet(Residual Network，深度残差网络)作为特征提取网络，采用CenterNet作为目标检测网络，采用卡尔曼滤波作为目标轨迹位置预测模块。以及上述步骤102还可以如下进行：

首先，使用特征提取网络生成各视频的视频帧的特征图。

之后，使用目标检测网络从各视频帧的特征图中检测行人目标的中心点位置和目标尺寸。

然后，使用目标轨迹位置预测模块确定各视频帧中检测到的行人目标在下一视频帧中的预测位置，以及基于预测位置和下一帧中的检测位置进行目标跟踪。

最后，根据目标跟踪结果和目标检测网络输出的行人目标的中心点位置和目标尺寸，生成各视频中各行人的轨迹数据。例如，可以根据行人目标的中心点位置和目标尺寸，从视频帧中截取人体图像截图。由于视频包括连续的视频帧，因此，针对每一个视频可以得到该视频中各行人的人体图像连续截图。

可选的，上述多目标跟踪模型还可以包括身份识别模块，该身份识别模块可以用于确定相邻的两个视频帧中行人目标的特征距离。作为示例，可以采用Triplet Loss(三元组损失)作为身份识别模块。以及上述步骤102还可以包括：通过多目标跟踪模型的身份识别模块生成各个视频中相邻的两个视频帧中行人目标的特征距离。之后，将得到的特征距离用于相邻视频帧中行人身份的匹配，以及基于匹配结果生成待分析空间各个视频中各行人的轨迹数据。

为了更详细的描述上述多目标跟踪模型，如图2所示，图2示出了利用多目标跟踪模型生成各视频中各行人的轨迹数据的一个例子的流程示意图。在图2所示的例子中，特征提取网络为ResNet，目标检测网络为CenterNet，身份识别模块为Triplet Loss，目标轨迹位置预测模块为采用卡尔曼滤波。本例中可以包括以下步骤：

步骤201，假设各视频的视频帧为尺寸为W*H的图像，将第n个视频帧和第n+1个视频帧，分别经ResNet进行特征提取可以得到尺寸为的特征图f_p，其中，C可以表示颜色通道。

步骤202，将连续两个视频帧的特征图f_p分别输入CenterNet可以对视频帧中的各个行人目标的中心点位置、中心点偏移量、目标尺寸等进行预测，分别得到损失函数L_cen、L_off和L_size，其中，L_cen表示中心点位置损失函数，L_off表示中心点偏移量损失函数，L_size表示目标尺寸的回归值与实际值的差值。由此，构建CenterNet的损失函数如下：

L_det＝w_cen*L_cen+w_off*L_off+w_size*L_size；

其中，w_cen、w_off、w_size为预设参数。

用128核卷积层对特征图f_p进行二次特征提取，得到特征图取目标中心点位置(x,y)的特征向量E_x，y∈R¹²⁸作为行人目标的特征向量。

步骤203，对于输入的两张相邻帧图像，记两张相邻帧图像中的行人目标数量分别为a和b，采用身份识别模块Triplet Loss计算两张相邻帧图像中行人目标的特征距离，共计算a*b次特征距离，得到损失函数L_ID。

构建多目标跟踪模型的整体损失函数如下：L_total＝w_det*L_det+w_ID*L_ID，其中，w_det和w_ID为预设参数。

在训练多目标跟踪模型的过程中，可以使用有标签数据集对多目标跟踪模型进行训练，训练完成后对多目标跟踪模型进行调整，将身份识别模块的输入调整为目标检测模块输出的目标中心点位置。多目标跟踪模型调整完成后，对于输入的连续帧图像，多目标跟踪模型输出单帧图像中行人目标的中心点位置、中心点偏移量、目标尺寸，以及相邻两帧图像中所有行人目标的特征距离D。

步骤204，对于输入的连续帧图像，利用卡尔曼滤波预测第n帧图像中检测到的行人目标在第n+1帧图像中的位置(x′_u，y′_u)，对于第n+1帧图像中检测到的位于(x_v，y_v)位置的行人目标，记预测位置(x′_u，y′_u)与检测位置(x_v，y_v)的距离偏差为：计算两行人目标的特征距离D_u，v，记两行人目标的匹配度为：/>其中，λ₀和λ₁为预设参数。

步骤205，根据上述匹配度M和设定的匹配度阈值M₀对连续帧图像中的行人目标进行匹配，其中，匹配成功的视为同一标识(ID)目标，匹配失败的作为新的ID目标继续与后续帧图像目标匹配。

可以理解，为了便于轨迹数据的管理和后续处理，还可以对轨迹数据中的坐标进行空间坐标转换，将摄像头坐标转换为平面坐标。举例来说，可以计算轨迹数据中截图底部中点像素坐标P_k，n，i对应的平面坐标Q_k，n，i。作为示例，可以通过以下方式计算：

对于每一个摄像头C_k，选取视频帧画面中地面或楼面区域的一组点(例如，选取间隔尽可能远的4个点)，记录这组点中的各点在视频帧画面中的像素坐标值(x_i，y_i)。之后，在平面图相应位置找到与该组点对应的一组点，记录找到的这一组点中的各点的平面坐标值(x′_i，y′_i)，其中，平面图可以是指摄像头拍摄的范围对应的二维平面图。然后，根据图像透视变换原理，构造坐标转换矩阵如下：

而上述像素坐标值(x_i，y_i)和上述平面坐标值(x′_i，y′_i)之间存在如下关系：

由上述关系可以计算截图底部中点像素坐标P_k，n，i对应的平面坐标Q_k，n，i。

步骤103,通过第二模型基于多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合。

在本实施例中，可以通过第二模型基于多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合。举例来说，各视频中的各行人的轨迹数据可以包括多张人体图像截图，可以从中选取一张人体图像截图作为代表截图。第二模型可以是行人重识别模型，用于识别输入的两张代表截图指示的人是否为同一个人，如果是同一个人，则使用同一行人标识。同一行人标识对应的多个轨迹数据可以形成该行人的轨迹数据集合，而轨迹数据集合组成该行人在上述待分析空间内的行人轨迹。

这里，上述第二模型可以包括动态图卷积网络，上述动态图卷积网络的卷积核可以是基于输入的图像的特征图确定的。动态图卷积网络可以更好的实现人体图像截图中图像特征的匹配，即人体图像中人体相应部位的匹配，使匹配结果更加准确，从而使第二模型的识别更加准确。

在一种实现方式中，对于各视频中的各行人的轨迹数据中包括的多张人体图像截图，可以从中选取一张人体图像截图F′_k，n作为代表截图。例如，可以选取轨迹数据中截图对应时间为中间时间的人体图像截图作为代表截图。又例如，还可以利用一些现有的图像质量判别模型进行代表截图选取。

同时，上述行人重识别模型可以通过以下方式确定两两轨迹数据的代表截图指示的行人是否为同一人：

步骤S1，对两两代表截图分别进行特征提取，得到特征图像。

在本实现方式中，上述行人重识别模型还可以包括特征提取网络，例如，可以采用ResNet(Residual Network，深度残差网络)作为特征提取网络，用来提取两两代表截图的特征图。

步骤S2，基于得到的特征图像确定动态图卷积网络的卷积核，以及通过动态图卷积网络生成两两代表截图的特征图之间的响应向量。

在本实现方式中，可以根据S1得到的特征图确定动态卷积网络的卷积核，并通过动态图卷积网络生成两两代表截图的特征图之间的响应向量。

步骤S3，基于响应向量确定两两代表截图之间的匹配度，以及根据匹配度确定两两代表截图指示的行人是否为同一人。

在本实现方式中，可以根据响应向量确定两两代表截图之间的匹配度。根据两两代表截图之间的匹配度，可以确定两两代表截图指示的行人是否为同一人。例如，可以将匹配度与预先设定的匹配度阈值进行比较，大于该匹配度阈值则可以确定为同一人。

为了更详细的描述行人重识别模型，如图3所示，图3示出了利用行人重识别模型进行行人重识别一个例子的流程示意图。本例可以包括以下步骤：

步骤301，以输入的代表截图的尺寸为W*H，行人重识别模型的特征提取网络为ResNet为例，经过ResNet提取可以得到尺寸为的特征图。其中，C可以表示颜色通道，例如，一般RGB图像的颜色通道为3。r可以表示所提取图像特征的缩放倍数。实践中，可以根据实际需要设定r的值，例如，当输入尺寸为256*128的代表截图时，可以设定r的值为16。对于ResNet提取得到的特征图还可以进一步进行L²范数归一化，得到特征图f_p。

步骤302，对于需要进行重识别的两两代表截图的特征图，将其中一张代表截图的特征图作为固定图像p₁，将另一张代表截图的特征图作为待匹配图像p₂。对于固定图像p₁，取设定尺寸为s*s的局部特征图作为卷积核，得到个卷积核。

步骤303，利用上述得到的卷积核对待匹配图像p₂进行卷积，可以得到尺寸为的响应矩阵。对响应矩阵/>所在维度进行合并，得到尺寸为/>的矩阵，对该矩阵/>所在维度分别进行最大池化(max pooling)，得到尺寸为/>和K*1的两个矩阵，将两个矩阵拼接，得到/>维的向量，该向量记为图像p₁、p₂的响应向量R_1，2。

步骤304，举例来说，可以通过以下方式确定两两图像之间的匹配度：构造加权函数F(θ)，对于图像p_i和p_j计算得到的响应向量R_i，j，响应向量R_i，j和加权函数F(θ)相乘得到匹配值，并利用sigmod函数将匹配值映射到[0，1]区间得到匹配度S_i，j(θ)。

步骤305，可以根据两两代表截图之间的匹配度，可以确定两两代表截图指示的行人是否为同一人。例如，可以将匹配度与预先设定的匹配度阈值进行比较，大于该匹配度阈值则可以确定为同一人。

另外，在训练行人重识别模型的过程中，可以采用focal loss构造损失函数如下：

其中，N可以表示样本数量，θ表示加权函数F(θ)的参数，α表示预设参数，的取值满足以下函数：

其中，Y_i，j＝1表示输入的两张人体图像为正样本对，即两张人体图像为同一人；Y_i，j≠1表示输入的两张人体图像为负样本对，即两张人体图像为不同人。

这样，使用有标签数据集可以对行人重识别模型进行训练，得到训练完成的行人重识别模型。

在本实现方式中，动态图卷积网络的卷积核是基于输入代表截图的特征图确定的，由此，基于一张代表截图的特征图构建的卷积核，可以在另一张代表截图的特征图中找到响应最大的区域，从而可以更好的实现代表截图中图像特征的匹配，使匹配结果更加准确，进而使行人重识别模型的识别更加准确。

在一种实现方式中，有些待分析空间中可能包括通道口，例如，对于商场、超市等空间而言，通道口可以是指出入口。有些待分析空间中可能不包括通道口，例如，广场。根据多个摄像头采集的视频是否覆盖待分析空间所包括的所有通道口，可以将步骤103分两种情况进行处理。

1)，当多个摄像头采集的视频覆盖待分析空间所包括的所有通道口时，可以通过以下第一方式生成轨迹数据集合：

首先，将生成的多个轨迹数据中，对应视频的拍摄范围包括通道口的轨迹数据作为第一轨迹数据，不包括通道口的轨迹数据作为第二轨迹数据。

其次，根据上述第二模型和各第一轨迹数据的代表截图，生成第一轨迹数据集合，其中，轨迹数据的代表截图是从轨迹数据包括的多张人体图像中确定的，上述第一轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据。作为示例，可以利用第二模型，将输入的某第一轨迹数据的代表截图与第一轨迹数据集合中的第一轨迹数据的代表截图进行匹配，如果匹配成功，则将该第一轨迹数据添加到第一轨迹数据集合中与其相匹配的第一轨迹数据对应的行人标识下；如果匹配不成功，则为该第一轨迹数据设置新的行人标识，并将该第一轨迹数据添加到新的行人标识下。可以理解，初始的第一轨迹数据集合可以设置为空。

之后，根据行人标识对应的轨迹数据的各人体图像截图对应的截图时间，确定上述第一轨迹数据集合中行人标识对应的行人在上述待分析空间的停留时间区间[t_m1，t_m2]。

然后，对于各第二轨迹数据，根据上述第一轨迹数据集合中行人标识对应的停留时间区间和该第二轨迹数据中各人体图像截图对应的截图时间，从上述第一轨迹数据集合中确定候选轨迹数据集合。作为示例，可以根据该第二轨迹数据中各人体图像截图对应的截图时间，确定该第二轨迹数据对应的行人目标的活动时间。由此，可以从第一轨迹数据集合中选取停留时间区间覆盖上述活动时间的行人标识，并将选取的行人标识对应的子集作为候选轨迹数据集合。

最后，利用上述第二模型，将该第二轨迹数据的代表截图与候选轨迹数据集合中的轨迹数据的代表截图进行匹配，将该第二轨迹数据作为相匹配的轨迹数据对应的行人标识的轨迹数据之一。即，将该第二轨迹数据添加到相匹配的轨迹数据对应的行人标识之下。这样，在所有第二轨迹数据添加完成之后，得到的第一轨迹数据集合中的行人标识对应的多个轨迹数据，组成该行人标识对应的行人在待分析空间中行人轨迹，该行人轨迹为跨镜头的行人轨迹。

2)当多个摄像头采集的视频未覆盖待分析空间所包括的所有通道口时，例如，待分析空间不包括通道口的情况，又例如，待分析空间虽然包括通道口，但多个摄像头采集的视频仅覆盖了其中一部分通道口的情况，可以通过以下第二方式生成轨迹数据集合：

使用第二模型，对所获取的多个轨迹数据的代表截图进行行人重识别，得到第二轨迹数据集合，其中，第二轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据。

作为示例，可以利用第二模型，将输入的某轨迹数据的代表截图与第二轨迹数据集合中的轨迹数据的代表截图进行匹配，如果匹配成功，则将该轨迹数据添加到第二轨迹数据集合中与其相匹配的轨迹数据对应的行人标识下；如果匹配不成功，则为该轨迹数据设置新的行人标识，并将该轨迹数据添加到新的行人标识下。可以理解，初始的第二轨迹数据集合可以设置为空。这样，在所有轨迹数据添加完成之后，得到的第二轨迹数据集合中的行人标识对应的多个轨迹数据，组成该行人标识对应的行人在待分析空间中行人轨迹，该行人轨迹为跨镜头的行人轨迹。

在本实现方式中，根据多个摄像头采集的视频是否覆盖待分析空间所包括的所有通道口，可以采用不同的方式生成行人的轨迹数据集合。由于行人需要通过通道口进出待分析空间，因此，当待分析空间包括通道口，且多个摄像头采集的视频覆盖待分析空间所包括的所有通道口时，可以根据待分析空间中所有通道口对应的轨迹数据确定一个轨迹数据集合，并确定行人在待分析空间的停留时间区间。对于非通道口对应的轨迹数据，可以基于该轨迹数据中行人的活动时间和各个行人在待分析空间的停留时间区间，将该轨迹数据添加到轨迹数据集合。由此，可以有效减少匹配次数，提高效率。

在一种实现方式中，第二模型可以是通过以下方式训练得到的：

首先，获取训练样本，训练样本中包括不同样本视频中分别包括的第一图像和第二图像、以及标签值，其中，上述第一图像中包括第一行人，上述第二图像中包括第二行人，上述标签值指示该上述第一行人与上述第二行人的匹配度。

然后，基于上述训练样本更新上述第二模型的参数，使得更新后的上述第二模型基于上述第一图像和上述第二图像的输出更接近上述标签值，其中，第二模型包括动态图卷积网络，动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

本说明书的上述实施例提供的基于多镜头视频的行人轨迹提取方法，首先获取由待分析空间内多个摄像头采集的多个视频，而后通过第一模型基于多个视频生成待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据，最后通过第二模型基于多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，其中，第二模型包括动态图卷积网络，该动态图卷积网络的卷积核是基于输入的图像的特征图确定的，动态图卷积网络可以更好的实现所输入行人图像的对齐与图像特征的匹配，从而使视频中行人的匹配结果更加准确，进一步生成更加准确的行人轨迹数据集合，实现了多镜头视频的行为轨迹提取。

根据另一方面的实施例，提供了一种基于多镜头视频的行人轨迹提取装置。上述基于多镜头视频的行人轨迹提取装置可以部署在任何具有计算、处理能力的设备、平台或者设备集群中。

图4示出了根据一个实施例的基于多镜头视频的行人轨迹提取装置的示意性框图。如图4所示，该基于多镜头视频的行人轨迹提取装置400包括：获取单元401，配置为获取由待分析空间内多个摄像头采集的多个视频；生成单元402，配置为通过第一模型基于上述多个视频生成上述待分析空间各个上述视频中各行人的一段或多段轨迹的轨迹数据；匹配单元403，配置为通过第二模型基于上述多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，其中，上述第二模型包括动态图卷积网络，上述动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

在本实施例的一些可选的实现方式中，上述第二模型为行人重识别模型，各轨迹数据包括多张人体图像截图，以及上述行人重识别模型通过以下方式确定两两轨迹数据的代表截图指示的行人是否为同一人，其中，轨迹数据的代表截图是从轨迹数据的多张人体图像中确定的：对两两代表截图分别进行特征提取，得到特征图像；基于得到的特征图像确定上述动态图卷积网络的卷积核，以及通过上述动态图卷积网络生成上述两两代表截图的特征图之间的响应向量；基于上述响应向量确定上述两两代表截图之间的匹配度，以及根据上述匹配度确定上述两两代表截图指示的行人是否为同一人。

在本实施例的一些可选的实现方式中，上述第一模型为多目标跟踪模型，上述多目标跟踪模型包括特征提取网络、目标检测网络和目标轨迹位置预测模块；以及上述生成单元402进一步配置为：使用上述特征提取网络生成各视频的视频帧的特征图；使用上述目标检测网络从各视频帧的特征图中检测行人目标的中心点位置和目标尺寸；使用上述目标轨迹位置预测模块确定各视频帧中检测到的行人目标在下一视频帧中的预测位置，以及基于上述预测位置和下一帧中的检测位置进行目标跟踪；根据目标跟踪结果和上述目标检测网络输出的行人目标的中心点位置和目标尺寸，生成各视频中各行人的轨迹数据。

在本实施例的一些可选的实现方式中，上述多目标跟踪模型还包括身份识别模块，上述身份识别模块用于确定相邻的两个视频帧中行人目标的特征距离；以及上述生成单元402还配置为：通过上述多目标跟踪模型的身份识别模块生成各个视频中相邻的两个视频帧中行人目标的特征距离；将得到的特征距离用于相邻视频帧中行人身份的匹配，以及基于匹配结果生成所述待分析空间各个视频中各行人的轨迹数据。

在本实施例的一些可选的实现方式中，上述匹配单元403进一步配置为：响应于确定上述多个摄像头采集的视频覆盖所述待分析空间所包括的所有通道口，通过以下第一方式生成轨迹数据集合：将生成的多个轨迹数据中，对应视频的拍摄范围包括通道口的轨迹数据作为第一轨迹数据，不包括通道口的轨迹数据作为第二轨迹数据；根据上述第二模型和各第一轨迹数据的代表截图，生成第一轨迹数据集合，其中，轨迹数据的代表截图是从轨迹数据包括的多张人体图像中确定的，上述第一轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据；根据行人标识对应的轨迹数据的各人体图像截图对应的截图时间，确定上述第一轨迹数据集合中行人标识对应的行人在上述待分析空间的停留时间区间；对于各第二轨迹数据，根据上述第一轨迹数据集合中行人标识对应的停留时间区间和该第二轨迹数据中各人体图像截图对应的截图时间，从上述第一轨迹数据集合中确定候选轨迹数据集合；以及利用上述第二模型，将该第二轨迹数据的代表截图与上述候选轨迹数据集合中的轨迹数据的代表截图进行匹配，将该第二轨迹数据作为相匹配的轨迹数据对应的行人标识的轨迹数据之一。

在本实施例的一些可选的实现方式中，上述匹配单元403进一步配置为：响应于确定上述多个摄像头采集的视频未覆盖所述待分析空间所包括的所有通道口，通过以下第二方式生成轨迹数据集合：使用上述第二模型，对所获取的多个轨迹数据的代表截图进行行人重识别，得到第二轨迹数据集合，其中，上述第二轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据。

在本实施例的一些可选的实现方式中，上述第二模型是通过以下方式训练得到的：获取训练样本，训练样本中包括不同样本视频中分别包括的第一图像和第二图像、以及标签值，其中，上述第一图像中包括第一行人，上述第二图像中包括第二行人，上述标签值指示该上述第一行人与上述第二行人的匹配度；基于上述训练样本更新上述第二模型的参数，使得更新后的上述第二模型基于上述第一图像和上述第二图像的输出更接近上述标签值，其中，上述第二模型包括动态图卷积网络，上述动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

根据另一方面的实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，当上述计算机程序在计算机中执行时，令计算机执行图1所描述上述的方法。

根据再一方面的实施例，还提供了一种计算设备，包括存储器和处理器，其特征在于，上述存储器中存储有可执行代码，上述处理器执行上述可执行代码时，实现图1所描述的方法。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多镜头视频的行人轨迹提取方法，包括：

获取由待分析空间内多个摄像头采集的多个视频；

通过第一模型基于所述多个视频生成所述待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据；

通过第二模型基于所述多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，包括：响应于确定所述多个摄像头采集的视频覆盖所述待分析空间所包括的所有通道口，通过以下第一方式生成轨迹数据集合：将生成的多个轨迹数据中，对应视频的拍摄范围包括通道口的轨迹数据作为第一轨迹数据，不包括通道口的轨迹数据作为第二轨迹数据；根据所述第二模型和各第一轨迹数据的代表截图，生成第一轨迹数据集合，其中，轨迹数据的代表截图是从轨迹数据包括的多张人体图像中确定的，所述第一轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据；根据行人标识对应的轨迹数据的各人体图像截图对应的截图时间，确定所述第一轨迹数据集合中行人标识对应的行人在所述待分析空间的停留时间区间；对于各第二轨迹数据，根据所述第一轨迹数据集合中行人标识对应的停留时间区间和该第二轨迹数据中各人体图像截图对应的截图时间，从所述第一轨迹数据集合中确定候选轨迹数据集合；以及利用所述第二模型，将该第二轨迹数据的代表截图与所述候选轨迹数据集合中的轨迹数据的代表截图进行匹配，将该第二轨迹数据作为相匹配的轨迹数据对应的行人标识的轨迹数据之一；其中，所述第二模型包括动态图卷积网络，所述动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

2.根据权利要求1所述的方法，其中，所述第二模型为行人重识别模型，各轨迹数据包括多张人体图像截图，以及

所述行人重识别模型通过以下方式确定两两轨迹数据的代表截图指示的行人是否为同一人，其中，轨迹数据的代表截图是从轨迹数据的多张人体图像中确定的：

对两两代表截图分别进行特征提取，得到特征图像；

基于得到的特征图像确定所述动态图卷积网络的卷积核，以及通过所述动态图卷积网络生成所述两两代表截图的特征图之间的响应向量；

基于所述响应向量确定所述两两代表截图之间的匹配度，以及根据所述匹配度确定所述两两代表截图指示的行人是否为同一人。

3.根据权利要求1所述的方法，其中，所述第一模型为多目标跟踪模型，所述多目标跟踪模型包括特征提取网络、目标检测网络和目标轨迹位置预测模块；以及

所述通过第一模型基于所述多个视频生成所述待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据，包括：

使用所述特征提取网络生成各视频的视频帧的特征图；

使用所述目标检测网络从各视频帧的特征图中检测行人目标的中心点位置和目标尺寸；

使用所述目标轨迹位置预测模块确定各视频帧中检测到的行人目标在下一视频帧中的预测位置，以及基于所述预测位置和下一帧中的检测位置进行目标跟踪；

根据目标跟踪结果和所述目标检测网络输出的行人目标的中心点位置和目标尺寸，生成各视频中各行人的轨迹数据。

4.根据权利要求3所述的方法，其中，所述多目标跟踪模型还包括身份识别模块，所述身份识别模块用于确定相邻的两个视频帧中行人目标的特征距离；以及

所述通过第一模型基于所述多个视频生成所述待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据，还包括：

通过所述多目标跟踪模型的身份识别模块生成各个视频中相邻的两个视频帧中行人目标的特征距离；

将得到的特征距离用于相邻视频帧中行人身份的匹配，以及基于匹配结果生成所述待分析空间各个视频中各行人的轨迹数据。

5.根据权利要求1所述的方法，其中，所述通过第二模型基于所述多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，包括:

响应于确定所述多个摄像头采集的视频未覆盖所述待分析空间所包括的所有通道口，通过以下第二方式生成轨迹数据集合：

使用所述第二模型，对所获取的多个轨迹数据的代表截图进行行人重识别，得到第二轨迹数据集合，其中，所述第二轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据。

6.根据权利要求1所述的方法，其中，所述第二模型是通过以下方式训练得到的：

获取训练样本，训练样本中包括不同样本视频中分别包括的第一图像和第二图像、以及标签值，其中，所述第一图像中包括第一行人，所述第二图像中包括第二行人，所述标签值指示该所述第一行人与所述第二行人的匹配度；

基于所述训练样本更新所述第二模型的参数，使得更新后的所述第二模型基于所述第一图像和所述第二图像的输出更接近所述标签值，其中，所述第二模型包括动态图卷积网络，所述动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

7.一种基于多镜头视频的行人轨迹提取装置，包括：

获取单元，配置为获取由待分析空间内多个摄像头采集的多个视频；

生成单元，配置为通过第一模型基于所述多个视频生成所述待分析空间各个视频中各行人的一段或多段轨迹的轨迹数据；

匹配单元，配置为通过第二模型基于所述多个视频对不同视频中的行人进行匹配，得到各个行人的轨迹数据集合，包括：响应于确定所述多个摄像头采集的视频覆盖所述待分析空间所包括的所有通道口，通过以下第一方式生成轨迹数据集合：将生成的多个轨迹数据中，对应视频的拍摄范围包括通道口的轨迹数据作为第一轨迹数据，不包括通道口的轨迹数据作为第二轨迹数据；根据所述第二模型和各第一轨迹数据的代表截图，生成第一轨迹数据集合，其中，轨迹数据的代表截图是从轨迹数据包括的多张人体图像中确定的，所述第一轨迹数据集合包括行人标识和与行人标识对应的至少一个轨迹数据；根据行人标识对应的轨迹数据的各人体图像截图对应的截图时间，确定所述第一轨迹数据集合中行人标识对应的行人在所述待分析空间的停留时间区间；对于各第二轨迹数据，根据所述第一轨迹数据集合中行人标识对应的停留时间区间和该第二轨迹数据中各人体图像截图对应的截图时间，从所述第一轨迹数据集合中确定候选轨迹数据集合；以及利用所述第二模型，将该第二轨迹数据的代表截图与所述候选轨迹数据集合中的轨迹数据的代表截图进行匹配，将该第二轨迹数据作为相匹配的轨迹数据对应的行人标识的轨迹数据之一；其中，所述第二模型包括动态图卷积网络，所述动态图卷积网络的卷积核是基于输入的图像的特征图确定的。

8.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-6中任一项所述的方法。

9.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-6中任一项所述的方法。