CN113536946A

CN113536946A - 一种基于摄像头关系的自监督行人重识别方法

Info

Publication number: CN113536946A
Application number: CN202110685408.7A
Authority: CN
Inventors: 丁贵广; 何涛; 沈乐琦
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-10-22
Anticipated expiration: 2041-06-21
Also published as: CN113536946B

Abstract

本发明提出一种基于摄像头关系的自监督行人重识别方法，方法包括：获取监控摄像头网络采集的行人图片数据；对行人图片数据进行预处理，并使用预先建立的视觉模型对预处理后的行人图片数据进行特征提取得到特征向量，预先建立的视觉模型具有初始化参数网络；根据行人图片数据的特征向量，确定监控摄像头网络中摄像头的特异性关系；根据特异性关系进行特征类别聚类，得到伪标签信息，根据伪标签信息对视觉模型的初始化参数网络进行更新；利用更新后的视觉模型对待识别图片样本进行特征提取，根据提取到的特征向量得到最终的检索队列。本申请利用无监督方法进行模型训练，无需人工标注，提高行人重识别的效率，结合摄像头先验知识，提升了模型精度。

Description

一种基于摄像头关系的自监督行人重识别方法

技术领域

本发明属于深度学习和行人重识别技术领域，尤其涉及一种基于摄像头关系的自监督行人重识别方法。

背景技术

行人重识别任务是指在多个摄像头下进行同一行人查找匹配的技术，给一张查询行人图片，在数据库中检索出最相似的行人图片作为候选队列，然后选择来自查询图片的摄像头之外的其他摄像头采集的图片。行人重识别的检索是对行人图片的特征向量进行检索和排序的过程，行人的特征向量需要行人重识别的卷积神经网络作为特征提取器，把行人图片转换成行人特征向量。

行人重识别技术的迅速发展使得该技术在实际场景应用中成为可能。但是受制于行人重识别技术对实际运行场景的依赖，传统的行人重识别技术需在实际运行场景中采集图片数据进行模型训练和微调才能够达到比较的精度结果。但在实际场景中采集到的图片和数据需要进行人工标注，这是一个人工成本比较大的工作，并且人工标注的数量和精度会严重影响到有监督的训练模型精度。

为了解决上述问题，目前在行人重识别的研究主要聚集于利用无监督的技术对没有标注的数据进行自监督学习的方法，现有的无监督行人重识别方案可以分为以下三种。第一种是利用已有的有标注的数据集训练一个比较好的模型，然后利用聚类的方式生成伪标签，解决没有标签的问题，进行行人重识别的自监督模型训练；第二种是利用GAN生成对抗网络把已有的标注数据集的图片按照实际应用场景的环境和风格来转换，同时保留行人特征。然后利用这个已有的标注的转换的数据集去训练神经网络模型，最后利用这个模型作为特征提取器去提取特征向量；第三种是利用已有的数据集进行行人重识别模型训练，然后利用图片分布上差异进行模型的约束和训练，通过拉进实际应用场景中图片和已有的标注数据集的分布问题，对训练的模型进行约束和微调。

随着监控摄像网络的发展，摄像设备的不断增加，产生的行人数据的规模也是十分巨大德尔。行人重识别技术可以用来智能安防、智能交通、智能生活等场景。在智慧城市的建设中，利用行人重识别技术可以用来监控特殊场景，追踪嫌疑人，行人行踪的追踪等。在智慧交通中可以对行人进行分析和追踪，预测行人未来的行动方向，对目的地的交通情况进行调度和调控。同时行人重识别技术和车辆重识别技术具有大类的相似性，也可以把车辆的重识别应用到智慧交通中。在智慧生活中，在不同场景切换中对同一人的身份识别和追踪，可以提供更好的智慧服务。所以行人重识别技术是继人脸识别之后，可以大规模应用的人工智能技术。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于摄像头关系的自监督行人重识别方法，以实现提高伪标签的准确度，提高行人重识别模型的精度。

本发明的第二个目的在于提出一种基于摄像头关系的自监督行人重识别装置。

本发明的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于摄像头关系的自监督行人重识别方法，包括以下步骤：

获取监控摄像头网络采集的行人图片数据；

对所述行人图片数据进行预处理，并使用预先建立的视觉模型对预处理后的行人图片数据进行特征提取，以得到所述行人图片数据的特征向量，其中，述预先建立的视觉模型具有初始化参数网络；

根据所述行人图片数据的特征向量，确定所述监控摄像头网络中摄像头的特异性关系；

根据所述特异性关系进行特征类别聚类，得到伪标签信息，根据所述伪标签信息对所述视觉模型的所述初始化参数网络进行更新。

利用更新后的所述视觉模型对待识别图片样本进行特征提取，根据提取到的特征向量得到最终的检索队列。

本申请公开的基于摄像头关系的自监督行人重识别方法，利用无监督的方法进行模型训练，不需要人工进行标注，减少了行人重识别在实际应用场景中适配的进度；利用摄像头的关系，挖掘无标签图片之间的关系，通过约束聚类样本的摄像头关系，来修正聚类的伪标签的内容。通过这种伪标签的修正，提高了伪标签的准确度，进而提高行人重识别模型的精度；通过动态的摄像头关系约束，考虑到不同摄像头之间采集图片的差异性，在聚类中利用这个摄像头的特异性，动态的决定聚类的阈值。进而进一步提高了聚类的准确度。通过这种动态的聚类操作，可以实现聚类跟特定的摄像头关系更相似；新颖的动态聚类可以有效的对聚类样本进行筛选，在保障聚类内有更多摄像头的情况下，聚类的伪标签准确度也得到了提升；同时动态的聚类可以减少对固定阈值的依赖，在广泛的阈值范围内，动态聚类都有更好的模型表现，体现出我们方法更加具有鲁棒性。

可选地，在本申请的一个实施例中，获取监控摄像头网络采集的行人图片数据，包括：

将所述监控摄像头网络部署到预设的应用场景，利用行人检测采集功能，在多个时间段内，不同的光线条件下，采集各个行人的图片，并将行人图片作为训练数据存储至行人训练数据库。

可选地，在本申请的一个实施例中，对所述行人图片数据进行预处理，包括：

对所述行人图片数据进行数据增强处理和归一化处理；

对所述行人图片数据进行数据增强处理，包括随机水平翻转图片操作、随机图片剪裁操作、随机图片色彩扰动操作和图片上下左右填充操作中的一种或者多种。

可选地，在本申请的一个实施例中，使用预先建立的视觉模型对预处理后的行人图片数据进行特征提取，包括：

使用所述视觉模型的初始化参数网络作为特征提取器，对所述训练数据进行特征提取。

可选地，在本申请的一个实施例中，根据所述行人图片数据的特征向量，确定所述监控摄像头网络中摄像头的特异性关系，包括：

将所有的特征向量v_i，按照图片所采集的摄像头标签进行分类，根据下述公式计算每一个摄像头下的平均特征向量：

其中，

表示摄像cⁱ采集所有图片的平均特征向量，

表示该摄像头cⁱ下采集的样本数量，v_i表示图片x_i的特征向量，c_i表示图片样本x_i所属的摄像头；

利用平均特征向量，根据下述公式计算任意两个摄像头之间的相似度对应关系：

其中，摄像头之间的相似度对应关系s(cⁱ,c^j)采用的余弦距离计算公式，两摄像头的平均特征向量

的方向夹角越小，相似度对应关系s(cⁱ,c^j)反应出两个摄像头的距离越小；

组成摄像头关系的相似矩阵，

其中，所述摄像头关系的相似矩阵用于表征摄像头的特异性关系。

可选地，在本申请的一个实施例中，根据所述特异性关系进行特征类别聚类，包括：

通过摄像头特异性值v_c确定聚类的阈值ε，其中，跨摄像头特异性动态聚类算法下的聚类阈值关系ε_d定义如下：

根据不同的摄像头的聚类阈值关系ε_d确定了聚类阈值矩阵

定义如下：

根据具有摄像头特异性的聚类阈值矩阵

对该模型对数据进行跨摄像头的聚类操作。

可选地，在本申请的一个实施例中，利用更新后的所述视觉模型对待识别行人图片进行特征提取，根据提取到的特征向量得到最终的检索队列，包括：

使用更新后的所述视觉模型作为特征提取器对所述待识别图片样本x_i进行特征提取,得到特征向量v_i,i＝1,2,…,N，使用欧式距离对所述待识别图片样本进行距离计算：

D(x_a,x_b)＝||v_a-v_b||²

根据所述待识别图片样本的距离进行相似度的排序，得到最终的检索队列。

为达上述目的，本申请第二方面实施例提出本发明一种基于摄像头关系的自监督行人重识别装置，包括以下模块：

获取模块，用于获取监控摄像头网络采集的行人图片数据；

处理模块，用于对所述行人图片数据进行预处理，并使用预先建立的视觉模型对预处理后的行人图片数据进行特征提取，以得到所述行人图片数据的特征向量，其中，述预先建立的视觉模型具有初始化参数网络；

确定模块，用于根据所述行人图片数据的特征向量，确定所述监控摄像头网络中摄像头的特异性关系；

更新模块，用于根据所述特异性关系进行特征类别聚类，得到伪标签信息，根据所述伪标签信息对所述视觉模型的所述初始化参数网络进行更新。

识别模块，用于利用更新后的所述视觉模型对待识别图片样本进行特征提取，根据提取到的特征向量得到最终的检索队列。

本申请公开的基于摄像头关系的自监督行人重识别装置，用无监督的方法进行模型训练，不需要人工进行标注，减少了行人重识别在实际应用场景中适配的进度；利用摄像头的关系，挖掘无标签图片之间的关系，通过约束聚类样本的摄像头关系，来修正聚类的伪标签的内容。通过这种伪标签的修正，提高了伪标签的准确度，进而提高行人重识别模型的精度；通过动态的摄像头关系约束，考虑到不同摄像头之间采集图片的差异性，在聚类中利用这个摄像头的特异性，动态的决定聚类的阈值。进而进一步提高了聚类的准确度。通过这种动态的聚类操作，可以实现聚类跟特定的摄像头关系更相似；新颖的动态聚类可以有效的对聚类样本进行筛选，在保障聚类内有更多摄像头的情况下，聚类的伪标签准确度也得到了提升；同时动态的聚类可以减少对固定阈值的依赖，在广泛的阈值范围内，动态聚类都有更好的模型表现，体现出我们方法更加具有鲁棒性。

可选地，在本申请的一个实施例中，所述处理模块具体用于，包括：

对所述行人图片数据进行数据增强处理和归一化处理；

为达上述目的，本申请第三方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面实施例所述的基于摄像头关系的自监督行人重识别方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的基于摄像头关系的自监督行人重识别方法的流程示意图；

图2是本申请实施例的基于聚类的行人重识别方法流程图；

图3是本申请实施例的基于摄像头关系的动态聚类算法示意图；

图4是本申请实施例的摄像头特异性度量算法示意图。

图5是本申请实施例的装置模块的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的一种基于摄像头关系的自监督行人重识别方法。

如图1所示，本发明第一方面实施例提出了一种基于摄像头关系的自监督行人重识别方法，包括以下步骤：

步骤S10，获取监控摄像头网络采集的行人图片数据；

步骤S20，对所述行人图片数据进行预处理，并使用预先建立的视觉模型对预处理后的行人图片数据进行特征提取，以得到所述行人图片数据的特征向量，其中，述预先建立的视觉模型具有初始化参数网络；

步骤S30，根据所述行人图片数据的特征向量，确定所述监控摄像头网络中摄像头的特异性关系；

步骤S40，根据所述特异性关系进行特征类别聚类，得到伪标签信息，根据所述伪标签信息对所述视觉模型的所述初始化参数网络进行更新。

步骤S50，利用更新后的所述视觉模型对待识别图片样本进行特征提取，根据提取到的特征向量得到最终的检索队列。

本申请公开的基于摄像头关系的自监督行人重识别方法，用无监督的方法进行模型训练，不需要人工进行标注，减少了行人重识别在实际应用场景中适配的进度；利用摄像头的关系，挖掘无标签图片之间的关系，通过约束聚类样本的摄像头关系，来修正聚类的伪标签的内容。通过这种伪标签的修正，提高了伪标签的准确度，进而提高行人重识别模型的精度；通过动态的摄像头关系约束，考虑到不同摄像头之间采集图片的差异性，在聚类中利用这个摄像头的特异性，动态的决定聚类的阈值。进而进一步提高了聚类的准确度。通过这种动态的聚类操作，可以实现聚类跟特定的摄像头关系更相似；新颖的动态聚类可以有效的对聚类样本进行筛选，在保障聚类内有更多摄像头的情况下，聚类的伪标签准确度也得到了提升；同时动态的聚类可以减少对固定阈值的依赖，在广泛的阈值范围内，动态聚类都有更好的模型表现，体现出我们方法更加具有鲁棒性。

在本申请的一个实施例中,进一步而言，使用监控摄像网络采集行人图片，将行人重识别系统部署到实际应用场景，利用行人检测采集功能，在多个时间段内，不同的光线条件下，采集各个行人的图片，并把行人图片存入行人训练数据库。

在本申请的一个实施例中，进一步地，获取监控摄像头网络采集的行人图片数据，包括：

在本申请的一个实施例中，进一步地，对所述行人图片数据进行预处理，包括：

对所述行人图片数据进行数据增强处理和归一化处理；

在本申请的一个实施例中，具体而言，对得到的原始行人图片进行预处理，先将图片大小设置为256*128，添加数据增强策略和归一化处理。数据增强方式包含有随机水平翻转图片，随机图片裁剪再设置为256*128大小，随机图片色彩扰动和图片上下左右填充10个像素的操作，然后将图片数据进行归一化操作。

在本申请的一个实施例中，进一步地，使用预先建立的视觉模型对预处理后的行人图片数据进行特征提取，包括：

在本申请的一个实施例中，具体而言，该发明的主干网络可以是任何行人重识别网络，为了介绍本专利，假设使用的是ResNet-152作为主干网络。利用ResNet-152在ImageNet数据集(一个包含动物、植物、建筑、物体等物体构成的数据集)下的训练参数作为模型的初始参数，对采集的行人图片进行特征提取，得到所有图片的特征向量。

在本申请的一个实施例中,进一步而言，如图2所示,输入行人图片数据集，通过摄像头相关的聚类得到一系列的伪标签，然后利用伪标签进行网络模型的训练。因为在聚类中考虑到了摄像头之间的关系，同时考虑到摄像头的差异性，动态摄像头关系的聚类方法对聚类的阈值更加具有鲁棒性，在广泛的聚类阈值内都有很不错的精度表现。

在本申请的一个实施例中，进一步地，根据所述行人图片数据的特征向量，确定所述监控摄像头网络中摄像头的特异性关系，包括：

其中，

表示摄像cⁱ采集所有图片的平均特征向量，

组成摄像头关系的相似矩阵，

在本申请的一个实施例中,进一步而言，如图3所示，在类别聚类中，考虑了摄像头关系，提出了基于摄像头关系的动态聚类算法。

在本申请的一个实施例中，进一步地，根据所述特异性关系进行特征类别聚类，包括：

根据不同的摄像头的聚类阈值关系ε_d确定了聚类阈值矩阵

定义如下：

根据具有摄像头特异性的聚类阈值矩阵

对该模型对数据进行跨摄像头的聚类操作。

在本申请的一个实施例中,具体而言，通过基于密度的有噪空间聚类(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)作为聚类算法的基础；DBSCAN算法是一种基于密度而确定自动确定聚类数目的算法，能够把足够高密度的区域化为一个聚类簇；DBSCAN算法的核心参数是样本聚类阈值ε和聚类必须满足的最小近邻样本数量n。

在本申请的一个实施例中,具体而言，动态的夸摄像头聚类会考虑特征距离和摄像头相似矩阵中的摄像头的特异性关系，得到每一个样本的伪标签，然后利用伪标签对模型进行训练；在训练过程中，模型在随机梯度下降的优化中，进行正常的梯度反向传播。

在本申请的一个实施例中,进一步而言，如图4所示，在基于摄像头关系的动态聚类算法中，确定摄像头的特异性是十分重要的，主要利用摄像头下平均特征向量来度量特异性。

在本申请的一个实施例中，进一步地，利用更新后的所述视觉模型对待识别行人图片进行特征提取，根据提取到的特征向量得到最终的检索队列，包括：

D(x_a,x_b)＝||v_a-v_b||²

如图5所示，本申请第二方面实施例提出本发明一种基于摄像头关系的自监督行人重识别装置，包括：获取模块10、处理模块20、确定模块30、更新模块40、识别模块50。

获取模块10，用于获取监控摄像头网络采集的行人图片数据；

处理模块20，用于对所述行人图片数据进行预处理，并使用预先建立的视觉模型对预处理后的行人图片数据进行特征提取，以得到所述行人图片数据的特征向量，其中，述预先建立的视觉模型具有初始化参数网络；

确定模块30，用于根据所述行人图片数据的特征向量，确定所述监控摄像头网络中摄像头的特异性关系；

更新模块40，用于根据所述特异性关系进行特征类别聚类，得到伪标签信息，根据所述伪标签信息对所述视觉模型的所述初始化参数网络进行更新。

识别模块50，用于利用更新后的所述视觉模型对待识别图片样本进行特征提取，根据提取到的特征向量得到最终的检索队列。

在本申请的一个实施例中，进一步地，所述处理模块具体用于，包括：

对所述行人图片数据进行数据增强处理和归一化处理；

本申请公开的基于摄像头关系的自监督行人重识别装置，利用无监督的方法进行模型训练，不需要人工进行标注，减少了行人重识别在实际应用场景中适配的进度；利用摄像头的关系，挖掘无标签图片之间的关系，通过约束聚类样本的摄像头关系，来修正聚类的伪标签的内容。通过这种伪标签的修正，提高了伪标签的准确度，进而提高行人重识别模型的精度；通过动态的摄像头关系约束，考虑到不同摄像头之间采集图片的差异性，在聚类中利用这个摄像头的特异性，动态的决定聚类的阈值。进而进一步提高了聚类的准确度。通过这种动态的聚类操作，可以实现聚类跟特定的摄像头关系更相似；新颖的动态聚类可以有效的对聚类样本进行筛选，在保障聚类内有更多摄像头的情况下，聚类的伪标签准确度也得到了提升；同时动态的聚类可以减少对固定阈值的依赖，在广泛的阈值范围内，我们的动态聚类都有更好的模型表现，体现出我们方法更加具有鲁棒性。

进一步而言，本申请实施例主要关注的是利用图片所被采集的所属摄像头关系，对聚类的样本进行更严格的限制，通过利用摄像头关系而进行的聚类可以更好的挖掘无标签的数据分布信息，该技术不受具体网络模型的影响，跟实际应用的场景也没有关系，仅仅需要考虑的是实际应用场景的摄像头数量和聚类中的样本关系。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面实施例所述的基于摄像头关系的自监督行人重识别方法。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。