CN113792606B

CN113792606B - 基于多目标追踪的低成本自监督行人重识别模型构建方法

Info

Publication number: CN113792606B
Application number: CN202110951043.8A
Authority: CN
Inventors: 丁贵广; 滕鹤涵; 何涛
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2024-04-26
Anticipated expiration: 2041-08-18
Also published as: CN113792606A

Abstract

本申请提出了一种基于多目标追踪的低成本自监督行人重识别模型构建方法，涉及行人重识别技术领域，其中，该方法包括：采集原始监控视频；利用多目标追踪算法处理原始监控视频得到有噪声的轨迹片段集合；在轨迹片段集合内部抑制身份切换噪声得到初步去噪的数据；将初步去噪的数据同时输入教师网络和学生网络，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类生成伪标签对学生网络进行训练，更新学生网络的权重；利用学生网络的权重使用滑动平均法更新教师网络的权重；经过多次迭代后，以教师网络为最终的行人重识别模型。本申请将多目标追踪结果作为无监督重识别训练的数据，由算法自动完成，无需人工参与，可以有效的训练重识别模型。

Description

基于多目标追踪的低成本自监督行人重识别模型构建方法

技术领域

本申请涉及行人重识别技术领域，尤其涉及一种基于多目标追踪的低成本自监督行人重识别模型构建方法和装置。

背景技术

行人重识别技术，即Person re-identification(ReID)，其主要任务是利用计算机视觉技术在若干候选图像或视频中寻找特定身份的行人，被认为是图像检索的一个子问题。其中特定身份的行人和候选图像分别被称为目标图像和候选图像集合，候选图像集合中的行人图像在身份、拍摄地点、拍摄设备等方面均可能不同于目标图像。

随着公共安全的需求愈发迫切，街道、校园、主题公园以及医院等各类公共场所逐渐配备了完善的监控摄像头网络。基于大规模的视频监控网络，智能视频监控系统获得了越来越多的关注和应用，尤其以城市公共安全监控场景为主，实现犯罪预防、意外防范和检测、查找失踪人口、跟踪通缉犯等功能，能够显著提高监控效率，降低监控成本。常见的智能视频监控系统通常具备行人检测、行人识别、行人追踪、行人属性识别等多种功能，行人重识别技术作为行人识别和行人追踪的重要组成部分，在智能视频监控系统的研发中起到至关重要的作用。

在监控视频中，由于监控摄像头分辨率及拍摄角度的限制，通常无法得到质量非常高的人脸图片，当人脸的信息失效时，行人重识别技术就成为非常重要的替代技术。但即便如此，在监控摄像头清晰度较低或者拍摄角度不佳的情况下，行人重识别技术的准确度也会大打折扣。此外，行人重识别技术具有跨镜头的特点，处于不同场景下的镜头会因为光照、天气、视角、清晰度等因素的差异拍摄出风格差异极大的图像，这种差异会导致重识别的准确度降低，也就是行人重识别领域的跨域损失问题。

行人重识别领域的跨域损失问题为此项技术的应用带来了巨大的阻碍和限制。传统的有监督行人重识别算法要求我们在遇到新的目标场景时，必须在新的场景下完成架设镜头、采集数据、标注数据、训练模型等一系列流程。换言之，每遇到新的场景就必须构建一个新场景下的行人重识别数据集，而不能直接将使用已有数据集训练生成的模型用于新的场景。然而，在新场景下构建新的数据集是一个复杂且繁琐的过程，整个过程需要耗费大量的硬件成本、时间成本、人力成本和资金成本。随着有监督的行人重识别方法逐渐趋于成熟，越来越多的研究者将重心转移到低成本无监督的行人重识别方法的研究。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种基于多目标追踪的低成本自监督行人重识别模型构建方法，解决了现有方法的可迁移性差、数据标注成本高的技术问题，实现了使用多目标追踪算法产生的轨迹片段集合作为行人重识别的训练数据，大幅度降低时间和人力的成本，提高行人重识别算法对于不同场景的适应能力的目的，同时也实现了使用教师网络生成伪标签来训练学生网络，并在学生网络的权重更新后使用滑动平均法更新教师网络的权重，通过迭代的方式不断提升伪标签的准确度以及模型的性能的目的。

本申请的第二个目的在于提出一种基于多目标追踪的低成本自监督行人重识别模型构建装置。

本申请的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种基于多目标追踪的低成本自监督行人重识别模型构建方法，包括：步骤S1：使用摄像网络中的每个摄像头，采集原始监控视频；步骤S2：利用多目标追踪算法处理原始监控视频，得到有噪声的轨迹片段集合，其中，轨迹片段集合包括两种噪声，分别是身份分裂噪声和身份切换噪声；步骤S3：在轨迹片段集合内部进行基于密度的聚类，抑制身份切换噪声，得到初步去噪的数据；步骤S4：将初步去噪的数据同时输入教师网络和学生网络，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类，抑制身份分裂噪声，生成伪标签，使用伪标签对学生网络进行训练，更新学生网络的权重；步骤S5：利用学生网络的权重使用滑动平均法更新教师网络的权重；步骤S6：重复进行步骤S4、步骤S5，经过多次迭代后，所生成的教师网络为最终的行人重识别模型。

可选地，在本申请的一个实施例中，基于密度的聚类包括以下步骤：

对于每个含有身份切换噪音的轨迹片段，提取其包含的每帧图片的特征；

在提取出来的特征上使用基于密度的聚类，将含有身份切换噪音的轨迹片段拆解生成若干更小规模且噪声含量更低的轨迹片段。

可选地，在本申请的一个实施例中，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类，包括以下步骤：

对于完成初步去噪的轨迹片段集合，对轨迹片段中包含的图片进行特征提取；

将属于同一轨迹片段的图片特征进行融合，得到的特征即为对应的轨迹片段的特征；

使用得到的特征进行基于密度的聚类。

可选地，在本申请的一个实施例中，使用伪标签对学生网络进行训练，训练过程使用的损失函数表示为：

其中，为整体的损失函数，L_id为身份分类损失函数，L_tri为三元组损失函数，θ表示当前状态下学生网络的权重，N表示输入数据的总数量，x表示轨迹片段集合，x_i表示第i个轨迹片段，L_ce表示交叉熵损失函数，C表示模型结构中的分类器部分，F(x_i|θ)表示使用当前模型提取第i个输入数据的特征结果，/>表示聚类生成的伪标签。||·||表示L²距离，x_i，p表示与x_i相同身份的输入数据，x_i，n表示与x_i不同身份的输入数据，m表示三元组损失中的边界阈值，超参数λ_id和λ_tri均表示对应的损失函数的权重。

可选地，在本申请的一个实施例中，利用学生网络的权重使用滑动平均法更新教师网络的权重，表示为：

E^(T)[θ]＝αE^(T-1)[θ]+(1-α)θ

其中，θ表示学生网络的权重，E^(T)[θ]表示第T次迭代时教师网络的权重，E^(T-1)[θ]表示第T-1次迭代时教师网络的权重，α为滑动平均系数，教师模型的权重取决于上一次迭代时教师模型的权重以及当前状态学生网络的权重。

为达上述目的，本申请第二方面实施例提出了一种基于多目标追踪的低成本自监督行人重识别模型构建装置，包括采集模块、处理模块、聚类模块、训练模块、更新模块、迭代模块，其中，

采集模块，用于使用摄像网络中的每个摄像头，采集原始监控视频；

处理模块，用于利用多目标追踪算法处理原始监控视频，得到有噪声的轨迹片段集合，其中，轨迹片段集合包括两种噪声，分别是身份分裂噪声和身份切换噪声；

聚类模块，用于在轨迹片段集合内部进行基于密度的聚类，抑制身份切换噪声，得到初步去噪的数据；

训练模块，用于将初步去噪的数据同时输入教师网络和学生网络，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类，抑制身份分裂噪声，生成伪标签，使用伪标签对学生网络进行训练，更新学生网络的权重；

更新模块，用于利用学生网络的权重使用滑动平均法更新教师网络的权重；

迭代模块，用于重复调用训练模块、更新模块，经过多次迭代后，所生成的教师网络为最终的行人重识别模型。

可选地，在本申请的一个实施例中，聚类模块具体用于：

为了实现上述目的，本申请第三方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，能够执行基于多目标追踪的低成本自监督行人重识别模型构建方法。

本申请实施例的基于多目标追踪的低成本自监督行人重识别模型构建方法、基于多目标追踪的低成本自监督行人重识别模型构建装置和非临时性计算机可读存储介质，解决了现有方法可迁移性差、数据标注成本高的技术问题，实现了使用多目标追踪算法产生的轨迹片段集合作为行人重识别的训练数据，大幅度降低时间和人力的成本，提高行人重识别算法对于不同场景的适应能力的目的，同时也实现了使用教师网络生成伪标签来训练学生网络，并在学生网络的权重更新后使用滑动平均法更新教师网络的权重，通过迭代的方式不断提升伪标签的准确度以及模型的性能的目的。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例一所提供的一种基于多目标追踪的低成本自监督行人重识别模型构建方法的流程图；

图2为本申请实施例的基于多目标追踪的低成本自监督行人重识别模型构建方法的另一个流程图；

图3为本申请实施例二所提供的基于多目标追踪的低成本自监督行人重识别模型构建装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于多目标追踪的低成本自监督行人重识别模型构建方法和装置。

图1为本申请实施例一所提供的一种基于多目标追踪的低成本自监督行人重识别模型构建方法的流程图。

如图1所示，该基于多目标追踪的低成本自监督行人重识别模型构建方法包括以下步骤：

步骤101，使用摄像网络中的每个摄像头，采集原始监控视频；

步骤102，利用多目标追踪算法处理原始监控视频，得到有噪声的轨迹片段集合，其中，轨迹片段集合包括两种噪声，分别是身份分裂噪声和身份切换噪声；

步骤103，在轨迹片段集合内部进行基于密度的聚类，抑制身份切换噪声，得到初步去噪的数据；

步骤104，将初步去噪的数据同时输入教师网络和学生网络，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类，抑制身份分裂噪声，生成伪标签，使用伪标签对学生网络进行训练，更新学生网络的权重；

步骤105，利用学生网络的权重使用滑动平均法更新教师网络的权重；

步骤106，重复进行步骤104、步骤105，经过多次迭代后，所生成的教师网络为最终的行人重识别模型。

本申请实施例的基于多目标追踪的低成本自监督行人重识别模型构建方法，通过步骤S1：使用摄像网络中的每个摄像头，采集原始监控视频；步骤S2：利用多目标追踪算法处理原始监控视频，得到有噪声的轨迹片段集合，其中，轨迹片段集合包括两种噪声，分别是身份分裂噪声和身份切换噪声；步骤S3：在轨迹片段集合内部进行基于密度的聚类，抑制身份切换噪声，得到初步去噪的数据；步骤S4：将初步去噪的数据同时输入教师网络和学生网络，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类，抑制身份分裂噪声，生成伪标签，使用伪标签对学生网络进行训练，更新学生网络的权重；步骤S5：利用学生网络的权重使用滑动平均法更新教师网络的权重；步骤S6：重复进行步骤S4、步骤S5，经过多次迭代后，所生成的教师网络为最终的行人重识别模型。由此，能够解决现有方法可迁移性差、数据标注成本高的技术问题，实现了使用多目标追踪算法产生的轨迹片段集合作为行人重识别的训练数据，大幅度降低时间和人力的成本，提高行人重识别算法对于不同场景的适应能力的目的，同时也实现了使用教师网络生成伪标签来训练学生网络，并在学生网络的权重更新后使用滑动平均法更新教师网络的权重，通过迭代的方式不断提升伪标签的准确度以及模型的性能的目的。

进一步地，在本申请实施例中，基于密度的聚类包括以下步骤：

对于收集到的原始监控视频，将其输入多目标追踪算法，例如DeepSORT算法或FairMOT算法，经过多目标追踪算法的处理得到一系列有噪声的轨迹片段集合。利用多目标追踪算法得到的原始轨迹片段集合中包含身份分裂和身份切换噪声，这些噪声会产生误导作用，不利于模型的训练，因此需要在训练之前对噪声进行抑制。

身份切换噪声指的是在一个追踪轨迹片段中包含了多个行人，即追踪算法错误地将多个行人识别为同一人。含有身份切换噪声的轨迹片段对于模型的训练而言是一个无效的数据点，因此需要将含有多个行人的轨迹片段拆解为多个只包含一个行人的轨迹片段，抑制身份切换噪声对模型训练的影响。

通过绘制出的含有身份切换噪声的轨迹片段中每帧图片的特征分布图，发现在轨迹片段内部，不同身份的行人在特征分布上是彼此分离的，即身份切换的发生并不依赖行人外观上的相似。利用此特性，对每个轨迹片段内部的图片进行特征提取和聚类。此过程作为模型训练前的数据预处理操作，可以有效缓解身份切换噪声对模型训练的负面影响。

进一步地，在本申请实施例中，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类，包括以下步骤：

使用得到的特征进行基于密度的聚类。

进一步地，在本申请实施例中，使用伪标签对学生网络进行训练，训练过程使用的损失函数表示为：

通过轨迹片段内部聚类抑制身份切换噪声获得噪声含量更低的轨迹片段集合后即进入训练阶段，训练阶段中包含两个结构相同的网络模型，分别为学生网络和教师网络，其中学生网络通过反向传播的方式更新权重，而教师网络没有实际训练的过程，它的权重是通过学生网络的权重实时更新而来。

将完全相同的数据同时输入学生网络和教师网络，使用教师网络对输入图像进行特征提取并聚类，这一操作可以抑制轨迹片段集合中的身份分裂噪声。身份分裂噪声是指，单一身份的行人被包含在多个轨迹片段集合中，即追踪算法未能稳定追踪某个身份的行人，未能将其多个轨迹片段关联在一起而将这些轨迹片段视为多个身份。聚类的结果作为伪标签训练学生网络，学生网络的权重获得更新。

进一步地，在本申请实施例中，利用学生网络的权重使用滑动平均法更新教师网络的权重，表示为：

E^(T)[θ]＝αE^(T-1)[θ]+(1-α)θ

随着教师模型的性能逐渐提升，提升后的教师模型在下一次迭代中提取聚类所需要的特征，带来了聚类准确度的提升。更加准确的伪标签可以带来更好的学生模型训练效果，形成良性的循环，逐步提升模型的准确度。经过多次迭代后，教师模型为最终的行人重识别模型

图2为本申请实施例的基于多目标追踪的低成本自监督行人重识别模型构建方法的另一个流程图。

如图2所示，该基于多目标追踪的低成本自监督行人重识别模型构建方法，包括：1、使用摄像网络中的每个摄像头，采集原始监控视频；2、利用多目标追踪算法处理原始视频，得到有噪声的轨迹片段集合；3、在轨迹片段内部进行基于密度的聚类(DBSCAN)，抑制身份切换噪声，得到内部低噪声的轨迹片段集合；4、将初步去噪后的数据同时输入教师网络和学生网络，使用教师网络对输入图像进行特征提取进而聚类，抑制身份分裂噪声，聚类生成伪标签训练学生网络；5、重复的4过程，每次通过反向传播更新学生网络后，利用学生网络的权重使用滑动平均法更新教师网络的权重，经过多次迭代后，以教师网络作为行人重识别模型的最终产物。

如图3所示,该基于多目标追踪的低成本自监督行人重识别模型构建装置,包括:采集模块10、处理模块20、聚类模块30、训练模块40、更新模块50、迭代模块60，其中，

采集模块10，用于使用摄像网络中的每个摄像头，采集原始监控视频；

处理模块20，用于利用多目标追踪算法处理原始监控视频，得到有噪声的轨迹片段集合，其中，轨迹片段集合包括两种噪声，分别是身份分裂噪声和身份切换噪声；

聚类模块30，用于在轨迹片段集合内部进行基于密度的聚类，抑制身份切换噪声，得到初步去噪的数据；

训练模块40，用于将初步去噪的数据同时输入教师网络和学生网络，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类，抑制身份分裂噪声，生成伪标签，使用伪标签对学生网络进行训练，更新学生网络的权重；

更新模块50，用于利用学生网络的权重使用滑动平均法更新教师网络的权重；

迭代模块60，用于重复调用训练模块、更新模块，经过多次迭代后，所生成的教师网络为最终的行人重识别模型。

进一步地，在本申请实施例中，聚类模块具体用于：

本申请实施例的基于多目标追踪的低成本自监督行人重识别模型构建装置，通过采集模块、处理模块、聚类模块、训练模块、更新模块、迭代模块，其中，采集模块，用于使用摄像网络中的每个摄像头，采集原始监控视频；处理模块，用于利用多目标追踪算法处理原始监控视频，得到有噪声的轨迹片段集合，其中，轨迹片段集合包括两种噪声，分别是身份分裂噪声和身份切换噪声；聚类模块，用于在轨迹片段集合内部进行基于密度的聚类，抑制身份切换噪声，得到初步去噪的数据；训练模块，用于将初步去噪的数据同时输入教师网络和学生网络，使用教师网络对初步去噪的数据包含的图像进行特征提取和聚类，抑制身份分裂噪声，生成伪标签，使用伪标签对学生网络进行训练，更新学生网络的权重；更新模块，用于利用学生网络的权重使用滑动平均法更新教师网络的权重；迭代模块，用于重复调用训练模块、更新模块，经过多次迭代后，所生成的教师网络为最终的行人重识别模型。由此，能够解决现有方法可迁移性差、数据标注成本高的技术问题，实现了使用多目标追踪算法产生的轨迹片段集合作为行人重识别的训练数据，大幅度降低时间和人力的成本，提高行人重识别算法对于不同场景的适应能力的目的，同时也实现了使用教师网络生成伪标签来训练学生网络，并在学生网络的权重更新后使用滑动平均法更新教师网络的权重，通过迭代的方式不断提升伪标签的准确度以及模型的性能的目的

为了实现上述实施例，本申请还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例的基于多目标追踪的低成本自监督行人重识别模型构建方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多目标追踪的低成本自监督行人重识别模型构建方法，其特征在于，包括以下步骤：

步骤S1：使用摄像网络中的每个摄像头，采集原始监控视频；

步骤S2：利用多目标追踪算法处理所述原始监控视频，得到有噪声的轨迹片段集合，其中，所述轨迹片段集合包括两种噪声，分别是身份分裂噪声和身份切换噪声；

步骤S3：在所述轨迹片段集合内部进行基于密度的聚类，抑制所述身份切换噪声，得到初步去噪的数据，其中，所述基于密度的聚类包括以下步骤：对于每个含有身份切换噪音的轨迹片段，提取其包含的每帧图片的特征；在提取出来的特征上使用基于密度的聚类，将所述含有身份切换噪音的轨迹片段拆解生成若干更小规模且噪声含量更低的轨迹片段；

步骤S4：将所述初步去噪的数据同时输入教师网络和学生网络，使用教师网络对所述初步去噪的数据包含的图像进行特征提取和聚类，抑制所述身份分裂噪声，生成伪标签，使用所述伪标签对所述学生网络进行训练，更新所述学生网络的权重，其中，所述使用教师网络对所述初步去噪的数据包含的图像进行特征提取和聚类，包括以下步骤：对于完成初步去噪的轨迹片段集合，对轨迹片段中包含的图片进行特征提取，将属于同一轨迹片段的图片特征进行融合，得到的特征即为对应的轨迹片段的特征，使用得到的特征进行基于密度的聚类；训练过程使用的损失函数表示为：

其中，为整体的损失函数，/>为身份分类损失函数，/>为三元组损失函数，/>表示当前状态下学生网络的权重，/>表示输入数据的总数量，/>表示轨迹片段集合，/>表示第/>个轨迹片段，/>表示交叉熵损失函数，/>表示模型结构中的分类器部分，/>表示使用当前模型提取第/>个输入数据的特征结果，/>表示聚类生成的伪标签，/>表示/>距离，/>表示与相同身份的输入数据，/>表示与/>不同身份的输入数据，/>表示三元组损失中的边界阈值，超参数/>和/>均表示对应的损失函数的权重；

步骤S5：利用所述学生网络的权重使用滑动平均法更新所述教师网络的权重；

步骤S6：重复进行步骤S4、步骤S5，经过多次迭代后，所生成的教师网络为最终的行人重识别模型。

2.如权利要求1所述的方法，其特征在于，利用所述学生网络的权重使用滑动平均法更新所述教师网络的权重，表示为：

其中，表示学生网络的权重，/>表示第/>次迭代时教师网络的权重，/>表示第/>次迭代时教师网络的权重，/>为滑动平均系数，教师模型的权重取决于上一次迭代时教师模型的权重以及当前状态学生网络的权重。

3.一种基于多目标追踪的低成本自监督行人重识别模型构建装置，其特征在于，包括采集模块、处理模块、聚类模块、训练模块、更新模块、迭代模块，其中，

所述采集模块，用于使用摄像网络中的每个摄像头，采集原始监控视频；

所述处理模块，用于利用多目标追踪算法处理所述原始监控视频，得到有噪声的轨迹片段集合，其中，所述轨迹片段集合包括两种噪声，分别是身份分裂噪声和身份切换噪声；

所述聚类模块，用于在所述轨迹片段集合内部进行基于密度的聚类，抑制所述身份切换噪声，得到初步去噪的数据，其中，所述基于密度的聚类包括以下步骤：对于每个含有身份切换噪音的轨迹片段，提取其包含的每帧图片的特征；在提取出来的特征上使用基于密度的聚类，将所述含有身份切换噪音的轨迹片段拆解生成若干更小规模且噪声含量更低的轨迹片段；

所述训练模块，用于将所述初步去噪的数据同时输入教师网络和学生网络，使用教师网络对所述初步去噪的数据包含的图像进行特征提取和聚类，抑制所述身份分裂噪声，生成伪标签，使用所述伪标签对所述学生网络进行训练，更新所述学生网络的权重，其中，所述使用教师网络对所述初步去噪的数据包含的图像进行特征提取和聚类，包括以下步骤：对于完成初步去噪的轨迹片段集合，对轨迹片段中包含的图片进行特征提取，将属于同一轨迹片段的图片特征进行融合，得到的特征即为对应的轨迹片段的特征，使用得到的特征进行基于密度的聚类；训练过程使用的损失函数表示为：

所述更新模块，用于利用所述学生网络的权重使用滑动平均法更新所述教师网络的权重；

所述迭代模块，用于重复调用所述训练模块、所述更新模块，经过多次迭代后，所生成的教师网络为最终的行人重识别模型。

4.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1或2所述的方法。