CN113158815A

CN113158815A - 一种无监督行人重识别方法、系统及计算机可读介质

Info

Publication number: CN113158815A
Application number: CN202110329192.0A
Authority: CN
Inventors: 范佳媛; 李薇; 付彦伟
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-03-27
Filing date: 2021-03-27
Publication date: 2021-07-23
Anticipated expiration: 2041-03-27
Also published as: CN113158815B

Abstract

本发明涉及一种无监督行人重识别方法、系统及计算机可读介质，其中无监督行人重识别方法包括：步骤1：基于多尺度卷积神经网络，使用全局特征提取模块和多尺度特征动态融合模块提取图像中的多尺度全局特征；步骤2：基于自注意深度神经网络，使用多注意机制的空间变换网络学习多尺度局部特征，并利用多尺度动态融合模块提取图像中的聚合局部特征；步骤3：构建无监督全局损失函数和局部损失函数；步骤4：训练深度神经网络模型；步骤5：使用训练好的深度神经网络模型，对于一个要识别的行人图像，将其输入到深度神经网络模型，得到预测的其他摄像头下的该行人图像。与现有技术相比，本发明具有识别精度高、算力需求低、计算速度快等优点。

Description

一种无监督行人重识别方法、系统及计算机可读介质

技术领域

本发明涉及计算机图像分析技术领域，尤其是涉及一种全尺度全局和局部特征动态融合的无监督行人重识别方法、系统及计算机可读介质。

背景技术

行人重识别是一个在不重叠的摄像头之间检测与识别各个行人的任务，在智能安防、无人超市等众多领域已得到广泛应用。随着大数据时代的到来，大量的未知样本给有监督行人重识别带来巨大的标注成本和算力需求，如何使用尽可能少的标签数据达到与有监督行人重识别相同的识别效果，已经成为现有技术的突破难点。因此，无监督和半监督学习已经成为行人重识别中一个备受关注的问题。

在行人重识别过程中，人脑会根据行人的整体特征(身材、肤色等)和局部特征(衣着、配饰、发型等)来识别行人，并且会联合图像中行人所处的空间信息以及不同感受野的语义信息进行识别。即使近年来无监督和半监督行人重识别高速发展，无监督行人重识别仍存在精度差和多尺度全局-局部特征利用少的缺点。

文献《Cross-dataset person reidentification via unsupervised posedisentanglement and adaptation》中提出了一种可以学习行人全局特征和局部特征的无监督行人重识别方法，并且能达到自主学习局部特征的效果。然而该方法没有考虑到不同感受野特征的表征能力，且其局部特征之间存在一定程度的重叠从而降低了各个局部特征的表征效果。

文献《Unsupervised person re-identification:Clustering and fine-tuning》中提出了一种无监督行人重识别方法，通过挖掘无标签图像之间的关系并作为约束条件，使相似的图像有更相近的表征，但算力需求严苛，计算速度慢。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种识别精度高、算力需求低、计算速度快的无监督行人重识别方法、系统及计算机可读介质。

本发明的目的可以通过以下技术方案来实现：

一种无监督行人重识别方法，所述的行人重识别方法包括：

步骤1：基于多尺度卷积神经网络，使用全局特征提取模块和多尺度特征动态融合模块提取图像中的多尺度全局特征；

步骤2：基于自注意深度神经网络，使用自注意机制的空间变换网络学习多尺度局部特征，并利用多尺度动态融合模块提取图像中的聚合局部特征；

步骤3：构建无监督全局损失函数和局部损失函数；

步骤4：训练深度神经网络模型；

步骤5：使用训练好的深度神经网络模型，对于一个要识别的行人图像，将其输入到深度神经网络模型，得到其预测的其他摄像头下的该行人图像。

优选地，所述的步骤1具体为：

去除OS-NET框架结构中最后一层多尺度特征融合模块，并将OS-NET框架内其他的多尺度特征融合模块更改为多尺度特征融合模块；使用修改后的框架结构提取图像中的多尺度全局特征。

更加优选地，所述的使用修改后框架结构提取图像中多尺度全局特征的过程具体为：

其中，x_i为单个图像中第i个尺度的全局特征；W_i ^c大小为C×1×1；σ表示sigmoid函数；

和

表示通道上的全局平均池化和全局最大池化；F表示有一个隐藏层的多层感知机；W_i ^s大小为1×H×W；

和

表示空间上的全局平均池化和全局最大池化；f_7×7表示一个核为7的卷积神经网络，以提取更具有表征能力的M个多尺度全局特征。

优选地，所述的步骤2具体为：

利用含有通道注意力和空间注意力的空间变换网络，对单个图像的任意尺度特征提取P个相对独立的局部特征；对于任意尺度的第p个特征，共M个多尺度局部特征，采用多尺度动态融合模块将其动态融合，最终生成P个聚合局部特征；

所述的聚合局部特征的提取过程具体为：

其中，x_i为单个图像中第i个尺度的第p个局部特征；W_i ^c大小为C×1×1；σ表示sigmoid函数；

和

和

表示空间上的全局平均池化和全局最大池化；f_7×7表示一个核为7的卷积神经网络。

优选地，所述的步骤3具体为：

采用无监督自适应的方法，使用全局特征和局部特征分别构造损失函数；

在有标签的源域数据集上，使用焦点损失作为全局特征的目标函数，使用三重损失作为局部特征的目标函数；

在无标签的目标域上，使用内存银行储存局部特征并构造局部特征的目标函数，生成正样本并采用重排序的方法挖掘负样本构造全局特征的目标函数。

更加优选地，所述的目标域的目标函数具体为：

其中，

代表

随着迭代次数的更新；

和

分别代表每批图像中第j个图像的第p个聚合局部特征，其中

不根据迭代次数更新；

为局部损失函数，

表示在该批次中的

中距离

最近的k个局部特征，通过对比F_i ^p与

的l₂范数距离可得，

表示该批次中所有图像第p个聚合局部特征；

为全局损失函数，n_i为通过重排序方法得到的最难负样本，p_i为通过旋转、裁切等样本生成方法生成的正样本。

优选地，所述的步骤4具体为：

利用反向传播算法优化深度神经网络模型中的参数，完成深度神经网络模型的训练。

一种行人重识别系统，所述的行人重识别系统包括依次相连的媒体数据获取模块、计算设备和展示设备；

媒体数据获取模块，用于采集行人图像；

计算设备，用于处理媒体数据获取模块采集的行人图像数据，获得行人重识别结果；

展示设备，用于显示计算设备输出的行人重识别结果。

优选地，所述的计算设备包括处理器和内存；

所述的内存内存储有可执行代码，所述的可执行代码包括：

全局特征提取模块，用于从行人重识别数据中提取全局信息，即从行人重识别数据集中提取行人整体相关的信息；

局部特征提取模块，用于从全局特征提取模块得到的全局特征中提取局部信息，即从行人重识别数据中提取行人细粒度信息；

多尺度特征动态融合模块，用于整合全局特征提取模块和局部特征提取模块中的多尺度全局特征与局部特征，并通过融合特征识别当前行人与给定行人是否相似。

一种计算机可读介质，所述的计算机可读介质内存储有如上述任一项所述的无监督行人重识别方法。

与现有技术相比，本发明具有以下有益效果：

一、有效消除多尺度特征的重复性和矛盾性，识别精度高：本发明中的无监督行人重识别方法中全局特征的模块可以学习包含细粒度信息和空间信息的多尺度全局特征，并且通过动态融合模块可以更有效地消除多尺度特征的重复性和矛盾性；提取局部特征的模块可以通过注意力机制生成独立且表征能力强的局部特征，动态聚合机制可以动态融合多尺度局部特征，提高识别精度；

模型在MSMT模型上预训练，采用公开数据集Market-1501和DukeMCMT-reID数据集中的训练数据训练，测试数据进行测试，测试结果为在Market-1501数据集中rank-1和mAP精度可达到80.5％以及51.2％，在DukeMTMC-reID数据集中rank-1和mAP精度可达到76.4％以及57.8％。

二、算力需求低，计算速度快：本发明中的无监督行人重识别方法采用动态融合机制可以动态融合多尺度局部特征，在减少算力的同时提升精度。

附图说明

图1为本发明中无监督行人重识别方法的流程示意图；

图2为本发明中无监督行人重识别方法的算法结构示意图；

图3为本发明中多尺度特征动态融合模块的结构示意图；

图4为本发明中注意块生成网络的结构示意图；

图5为本发明中行人重识别系统的结构示意图。

图中标号所示：

1、媒体数据获取模块，2、计算设备，3、展示设备，21、处理器，22、内存，221、全局特征提取模块，222、局部特征提取模块，223、多尺度特征动态融合模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明设计了一种多尺度全局-局部特征动态融合的深度网络模型来学习图像中的多尺度全局和局部特征，并通过一种新颖的动态多尺度融合模块融合多尺度特征得到更完善的全局特征和局部特征。在训练这个模型时，本发明采用了注意力机制来自主学习局部特征，从而使学到的局部特征相对独立并有较强的表征能力。本发明的技术方案具体介绍如下：

一种无监督行人重识别方法，其流程如图1所示，包括：

步骤1：基于多尺度卷积神经网络，使用全局特征提取模块和多尺度特征动态融合模块提取图像中的多尺度全局特征，具体为：

基于OS-Net模型设计了一个可以产生多尺度全局特征的主干模型，具体而言，首先去掉OS-Net最后的全连层和平均池化层，去掉最后一个模块的多尺度特征融合模块使其生成多尺度的全局特征，除此之外，为了使其更具有表征能力，将主干模型中的其他多尺度融合模块更改为多尺度特征动态融合模块，用x_i表示单个图像中第i个尺度的全局特征，多尺度融合模块的结构如图2、图3和图4所示，首先采用SE-MG模块获得图像特征不同通道的注意力权重：

其中，σ表示Sigmoid函数，

和

表示通道上的全局平均池化和全局最大池化，F表示有一个隐藏层的多层感知机。随后多尺度特征变为

然后采用SP-MG模块获得图像特征不同空间的注意力权重：

其中，

和

表示空间上的全局平均池化和全局最大池化，f_7×7表示一个核为7的卷积神经网络；

最后为了消除多尺度特征之间的重复性和冲突性，对权重归一化：

最终融合后的输出特征为：

和

和

步骤2：基于自注意深度神经网络，使用多注意机制的空间变换网络学习多尺度局部特征，并利用多尺度动态融合模块提取图像中的聚合局部特征；

通过设计一个由通道注意权重、空间注意权重加权自注意提取多尺度局部特征，使局部特征表征能力更强的同时增加其相对独立性。具体而言，提出了一个基于空间变换网络的注意块生成网络，通过将空间变换网络中的核为7的卷积定位网络改变为一个通道和空间注意力机制和两个全连层来注意生成相对独立的局部特征。然后采用多尺度特征动态融合模块学习多尺度聚合局部特征，此时x_i表示单个图像中第i个尺度的第p个局部特征，最终一共产生P个聚合局部特征；

步骤3：构建损失函数；

首先级联局部特征组成全局特征，然后采用无监督域适应方法学习多尺度全局特征与局部特征。在有标签的源域数据集上，使用焦点损失(Focal loss)作为全局特征的目标函数、三重损失(Triple loss)作为局部特征的目标函数。在无标签的目标域上，将每批图像中第i个图像的第p个聚合局部特征F_i ^p与该批次中其他图像的第p个聚合局部特征进行比较，使用记忆银行(Memory Bank)来储存上述局部特征

其中N代表一批图像中含有的图像总数，记忆银行随着迭代次数的更新方式如下所示：

通过对比F_i ^p和

的l₂范数距离可以得到距离F_i ^p最近的k个局部特征

构建局部特征的目标函数如下所示：

然后通过重排序(re-ranking)方法得到最难负样本n_i和生成正样本p_i的方法，构建全局特征的目标函数

整个网络的目标函数为：

这个目标函数可以有效地表示模型的预测能力和实际结果的差距。

步骤4：训练深度神经网络模型；

采用SGD优化器对网络进行训练，初始学习率lr＝0.0001，每50轮衰减0.1。网络一共训练大约60轮直至收敛。

本实施例中的上述模型在MSMT模型上预训练，采用公开数据集Market-1501和DukeMCMT-reID数据集中的训练数据训练，测试数据进行测试，测试结果为在Market-1501数据集中rank-1和mAP精度可达到80.5％以及51.2％，在DukeMTMC-reID数据集中rank-1和mAP精度可达到76.4％以及57.8％。

本实施例还涉及一种行人重识别系统，其结构如图5所示，包括依次相连的媒体数据获取模块1、计算设备2和展示设备3。

媒体数据获取模块1，用于采集行人图像，可以从电视节目或者安防摄像头等设备中采集；

计算设备2，用于处理媒体数据获取模块采集的行人图像数据，获得行人重识别结果；

展示设备3，用于显示计算设备2输出的行人重识别结果，可以是电脑、电视或者移动设备。

其中，计算设备2包括处理器21和内存22，处理器21是一个用于计算设备2的硬件处理器，如中央处理器CPU，图形计算处理器(Graphical Process Unit)；内存22是一个易失的存储设备，用于储存计算机代码用于处理器21的计算过程，同时，内存22也会存储各类中间数据、及参数。

内存22内存储有可执行代码、行人重识别数据集以及相关数据，其中可执行代码包括一至多个软件模块，用于执行处理器21的计算，具体为：

全局特征提取模块221，用于从行人重识别数据中提取全局信息，即从行人重识别数据集中提取行人整体相关的信息；

局部特征提取模块222，用于从全局特征提取模块221得到的全局特征中提取局部信息，即从行人重识别数据中提取行人细粒度信息；

多尺度特征动态融合模块223，用于整合全局特征提取模块221和局部特征提取模块222中的多尺度全局特征与局部特征，并通过融合特征识别当前行人与给定行人是否相似。

本实施例还涉及一种计算机可读介质，该计算机可读介质内存储有上述任一项无监督行人重识别方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。