CN111881714A

CN111881714A - 一种无监督跨域行人再识别方法

Info

Publication number: CN111881714A
Application number: CN202010438989.XA
Authority: CN
Inventors: 李艳凤; 孙嘉; 陈后金
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-11-03
Anticipated expiration: 2040-05-22
Also published as: CN111881714B

Abstract

本发明涉及一种无监督跨域行人再识别方法，包括如下步骤：使用有标签源域训练图像进行预训练，得到基线网络权重，将其作为多损失优化学习训练过程的基线网络初始权重；使用无标签目标域训练图像进行多损失优化学习训练，在基线网络初始权重的基础上，进行多次多损失优化学习训练，得到多损失优化学习训练后的基线网络；使用无标签目标域测试图像进行无监督跨域行人再识别测试，将无标签目标域测试图像输入多损失优化学习训练后的基线网络进行测试，得到识别结果。本发明，关注目标域图像内部的自然相似性，避免完全依赖伪标签，相比于其他同领域的方法具有更高的识别准确率。

Description

一种无监督跨域行人再识别方法

技术领域

本发明涉及模式识别与计算机视觉中的图像检索领域，具体说是一种无监督跨域行人再识别方法。尤指利用深度学习进行无监督跨域行人再识别方法。

所述利用深度学习尤指基于多损失优化学习。

背景技术

行人再识别技术通常用于解决在非重叠视域中进行人员匹配的问题，该技术是智能视频分析技术的重要组成部分，可用于追踪犯罪嫌疑人、寻找走失人员等，具有广阔的应用前景。

近年来，行人再识别技术获得了广泛关注，成为计算机视觉领域的研究热点。

早期的行人再识别研究主要依靠传统方法，例如：手工设计特征表达和距离度量。得益于深度学习的快速发展，越来越多的研究者应用深度学习来解决行人再识别问题，并且获得了较好的结果。

目前，行人再识别的研究大多集中在有标签的数据集上对模型进行训练和测试，但是这个任务需要大量的标签数据形成有标签的数据集(简称数据集)。随着数据集的增大，人工标记产生标签数据变得耗时且费力。

另外，当在有标签的源数据集(源域，简称为有标签的源域)训练一个模型，将其转移到无标签的目标数据集(目标域，简称为无标签的目标域)进行测试时，识别性能相比于在源域会大大降低。主要原因是：不同数据集的摄像机分辨率不同、行人的着装风格(冬夏季节)差异较大、图像背景存在较大差异等。

为了更加符合实际场景的应用需求，减少人工标记产生标签数据的工作量，研究人员开始关注无监督跨域行人再识别。

所述无监督跨域行人再识别的任务是：将在有标签的源域上训练的模型，转移到无标签的目标域上，并获得较高的识别性能。

目前的无监督跨域行人再识别方法大致可以分为两类：

(1)目标图像生成。一些方法利用图像生成来缩小两域之间的距离，通常采用生成式对抗网络将源域图像转化为目标域样式。但是生成的图像往往具有很大的不确定性，导致识别性能不稳定。

(2)目标域监督挖掘。一些方法利用目标域内的相似性，通过聚类或其他方法为无标签的目标域图像分配伪标签，将其作为目标域图像的伪身份进行监督学习。然而这些方法过于依赖伪标签，而伪标签噪声可能会降低行人再识别的性能。

公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种无监督跨域行人再识别方法，关注目标域图像内部的自然相似性，避免完全依赖伪标签，相比于其他同领域的方法具有更高的识别准确率。

为达到以上目的，本发明采取的技术方案是：

一种无监督跨域行人再识别方法，其特征在于，包括如下步骤：

获取有标签源域训练图像、无标签目标域训练图像、以及无标签目标域测试图像；

使用有标签源域训练图像进行预训练，得到基线网络权重，将其作为多损失优化学习训练过程的基线网络初始权重；

使用无标签目标域训练图像进行多损失优化学习训练，在基线网络初始权重的基础上，进行多次多损失优化学习训练，得到多损失优化学习训练后的基线网络；

使用无标签目标域测试图像进行无监督跨域行人再识别测试，将无标签目标域测试图像输入多损失优化学习训练后的基线网络进行测试，得到识别结果。

在上述技术方案的基础上，在获取有标签源域训练图像时，进行如下预处理：

统一调整有标签源域训练图像的尺寸；

为了扩增输入数据，依次对有标签源域训练图像进行水平翻转处理、随机裁剪处理、归一化处理和随机擦除处理。

在上述技术方案的基础上，在进行预训练时，采用ResNet-50网络作为基线网络，将在ImageNet图像数据集上预训练好的网络权重作为基线网络初始权重，然后将有标签源域训练图像输入基线网络进行前向传播，得到最终输出特征向量；

分别计算最终输出特征向量与行人类别间的交叉熵损失值和三元组损失值，将其加和作为一次训练的源域总损失；

根据源域总损失进行反向传播，更新并保存预训练过程的基线网络权重；

将保存的预训练过程的基线网络权重作为下一次模型训练的基线网络初始权重，重复前述步骤，直至达到预训练过程预设的训练次数，保存基线网络权重，将其作为多损失优化学习训练过程的基线网络初始权重。

在上述技术方案的基础上，所述得到最终输出特征向量，具体步骤如下：

步骤1，将有标签源域训练图像输入ResNet-50网络第一层，输出特征图；

步骤2，将特征图输入ResNet-50网络第二层，输出新的特征图，然后将新的特征图输入多级注意力模块，改变每幅新的特征图的像素值，输出改变像素值的特征图；

步骤3，将改变像素值的特征图输入ResNet-50网络第三层，输出第三次处理后的特征图，然后将第三次处理后的特征图输入多级注意力模块，改变每幅特征图的像素值，输出第二次改变像素值的特征图；

步骤4，将第二次改变像素值的特征图输入ResNet-50网络第四层，输出第四次处理后的特征图，然后将第四次处理后的特征图输入多级注意力模块，改变每幅特征图的像素值，输出第三次改变像素值的特征图；

步骤5，将第三次改变像素值的特征图输入由全局平均池化层和全局最大池化层组成的池化块中，输出特征向量O₁；

将步骤4中输出的第三次改变像素值的特征图分别输入两个不共享权重的ResNet-50网络第五层，得到两个网络第五层输出的特征图，将两个网络第五层输出的特征图对应输入两个多级注意力模块，将两个多级注意力模块的输出分别输入两个池化块，输出特征向量O₂和O₃；

步骤6，将步骤5中得到的三个输出特征向量分别输入三个分类器中，每个分类器由两个全连接层组成，输出三个与有标签源域训练图像的行人类别数等维的特征向量，将其级联组成最终输出特征向量。

在上述技术方案的基础上，交叉熵损失值定义为：

最终输出特征向量间的欧氏距离定义为：

三元组损失定义为：

源域总损失定义为L_source＝L_CEL+L_TRL。

在上述技术方案的基础上，在获取无标签目标域训练图像时，进行如下预处理：

统一调整无标签目标域训练图像的尺寸；

为了扩增输入数据，依次对无标签目标域训练图像进行水平翻转处理、随机裁剪处理、归一化处理和随机擦除处理。

在上述技术方案的基础上，在进行多损失优化学习训练时，将无标签目标域训练图像输入多损失优化学习训练过程中的基线网络进行前向传播，得到最终输出特征向量；

计算每幅无标签目标域训练图像的最终输出特征向量间的欧氏距离，根据距离大小通过DBSCAN算法进行聚类，根据聚类结果为每幅无标签目标域训练图像分配伪标签，其中不属于任何类的图像将会被丢弃，具有类别的图像组成带有聚类伪标签的目标域，所述目标域作为新目标域；

计算新目标域图像与其对应的伪标签之间的基于伪标签的三元组损失；

计算新目标域图像之间的余弦距离，并根据余弦距离从小到大对样本进行排序，根据排序结果计算基于排序平均的三元组损失和近邻一致性损失；

将基于伪标签的三元组损失、基于排序平均的三元组损失和近邻一致性损失加权求和，其结果作为一次迭代的目标域总损失；

根据目标域总损失的结果进行反向传播，更新多损失优化学习训练过程的基线网络初始权重；

重复前述步骤，直至达到多损失优化学习训练过程预设的训练次数，保存最后一次训练后的基线网络。

在上述技术方案的基础上，基于伪标签的三元组损失定义为：

余弦距离的计算为：

d_c(x_g,i,x_g,j)＝f(x_g,i)^Tf(x_g,j)，

基于排序平均的三元组损失定义为：

近邻一致性损失定义为：

其中w_i,j为权重，其定义为：

目标域总损失定义为：

L_target＝L_PLT+L_RAT+αL_NCB。

在上述技术方案的基础上，在获取无标签目标域测试图像时，进行如下预处理：

统一调整无标签目标域测试图像的尺寸；

对无标签目标域测试图像进行归一化处理；

所述无标签目标域测试图像包括：无标签目标域测试集的检索图像和无标签目标域测试集的图像库图像。

在上述技术方案的基础上，在进行无监督跨域行人再识别测试时，将无标签目标域测试图像分别输入基线网络中，每幅图像得到一个最终输出特征向量；

给定一幅无标签目标域测试集的检索图像，计算其和无标签目标域测试集的图像库图像的最终特征向量间的欧氏距离，将其从小到大排序；

根据欧氏距离的排序顺序，输出对应序列图像作为识别结果。

本发明所述的无监督跨域行人再识别方法，具有以下有益效果：

1、关注目标域图像内部的自然相似性，避免完全依赖伪标签，相比于其他同领域的方法具有更高的识别准确率。

2、提出了一个多损失优化学习模型。

所述多损失优化学习模型能够充分挖掘目标域的内部信息，避免对伪标签的过度依赖。

3、为了更好地探索目标域图像的自然相似性，提出了基于对抗学习的两种损失函数，即基于排序平均的三元组损失和基于近邻一致性的损失。

本发明所述的无监督跨域行人再识别方法，实现了基于多损失优化学习的无监督跨域行人再识别，无需对目标域图像进行任何标注，适合应用于监控安防、刑事侦查和人员检索领域，可以处理大量无标签的视频监控数据，找到目标位置，减少相关人员的工作量和时间，提高智能视频分析处理的准确率和效率。

附图说明

本发明有如下附图：

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1本发明所述无监督跨域行人再识别方法的实施例一的流程图。

图2本发明所述无监督跨域行人再识别方法的多级注意力模块的流程图。

图3本发明所述无标签目标域测试集检索图像。

图4本发明所述无标签目标域测试集检索图像通过无监督跨域行人再识别方法得到的识别结果。

具体实施方式

以下结合附图对本发明作进一步详细说明。所述详细说明，为结合本发明的示范性实施例做出的说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1-2所示，本发明所述的无监督跨域行人再识别方法，包括如下步骤：

统一调整有标签源域训练图像的尺寸；所述尺寸可为预设尺寸(默认尺寸)；

作为可选择的实施方案之一，所述预设尺寸为288×144像素；该预设尺寸可按需改变；本发明中未作明确限定时，各种图像尺寸的默认单位均为像素；

作为可选择的实施方案之一，达到预训练过程预设的训练次数后，保存最后一次训练后的基线网络权重，将其作为多损失优化学习训练过程的基线网络初始权重。

作为可选择的实施方案之一，所述ResNet-50网络，具体包括：

(1)在ResNet-50网络的第二层到第五层加入多级注意力模块；

(2)ResNet-50网络的池化块为全局最大池化与全局平均池化结合的池化块；

(3)Res-Net50网络的第五层输出三个特征向量：对第四层特征图采用两个不共享权重的滤波器得到两个第五层特征图，分别对这两个特征图采用2×2池化以及1×1池化，得到第二个输出特征向量和第三个输出特征向量；对第四层特征图采用1×1池化，得到第一个输出特征向量，Res-Net50网络的最终输出为三个输出特征向量的组合。

例如：将大小为3×288×144(3为图像的通道数，288为图像的长度，144为图像的宽度，单位为像素)的有标签源域训练图像输入ResNet-50网络第一层，输出大小为64×144×72(64为特征图的通道数，144为特征图的长度，72为特征图的宽度，单位为像素)的特征图；

例如：将大小为64×144×72的特征图输入ResNet-50网络第二层，输出大小为256×72×36的新的特征图，然后将大小为256×72×36的新的特征图输入多级注意力模块，改变每幅特征图的像素值，输出大小为256×72×36的改变像素值的特征图；

其中，多级注意力模块示意图如图2所示，由一个空间级注意力模块和一个通道级注意力模块级联组成；

空间级注意力模块包括一个输出通道数为1的卷积层和两个全连接层，空间级注意力图的表达式为A^S＝R(F₂ ^S(F₁ ^S(conv(M))))，M为输入的新的特征图，conv为输出通道数为1的卷积层，F₁ ^S、F₂ ^S为两个全连接层，R为调整大小，目的是使输出的空间级注意力图A^S的大小与输入新的特征图大小相同，将输入的特征图M与输出的空间级注意力图A^S对应像素点相乘得到输出的空间级注意力特征图S；

通道级注意力模块包括一个全局平均池化层和两个全连接层，通道级注意力图的表达式为A^C＝F₂ ^C(F₁ ^C(GAP(S)))，S为输出的空间级注意力特征图，GAP为全局平均池化层，F₁ ^C、F₂ ^C为两个全连接层,A^C为输出的通道级注意力图，其通道数与S的通道数相同，长度为1，宽度为1，单位为像素。将A^C与S对应通道相乘得到输出的改变像素值的特征图；

例如：将大小为256×72×36的改变像素值的特征图输入ResNet-50网络第三层，输出大小为512×36×18的第三次处理后特征图，然后将大小为512×36×18的第三次处理后特征图输入多级注意力模块，改变每幅特征图的像素值，输出大小为512×36×18的第二次改变像素值的特征图；

例如：将大小为512×36×18的第二次改变像素值的特征图输入ResNet-50网络第四层，输出大小为1024×18×9的第四次处理后的特征图，然后将大小为1024×18×9的第四次处理后的特征图输入多级注意力模块，改变每幅特征图的像素值，输出大小为1024×18×9的第三次改变像素值的特征图；

例如：输出特征向量O₁的步骤为：将大小为1024×18×9的第三次改变像素值的特征图输入由全局平均池化层和全局最大池化层组成的池化块中，输出一个大小为1024×1×1的特征向量O₁；

其中，

全局平均池化层的输出为

m,n分别为第三次改变像素值的特征图的长和宽，xⁱ _j为第三次改变像素值的特征图中第i个通道对应点的像素值，共有m×n个像素值；

全局最大池化层的输出为

由全局平均池化层和全局最大池化层组成的池化块的输出为

例如：输出特征向量O₂和O₃的步骤为：将步骤4中输出的第三次改变像素值的特征图分别输入两个不共享权重的ResNet-50网络第五层，得到两个大小为2048×18×9的网络第五层输出的特征图，将两个网络第五层输出的特征图对应输入两个多级注意力模块，将两个多级注意力模块的输出分别输入两个池化块，输出两个大小为2048×1×1的特征向量O₂和O₃；

O₁，O₂和O₃为三个输出特征向量；

本发明采用ResNet-50网络作为基线网络，所述ResNet-50网络，包含以下三处优化：

一是设计了多级注意力模块，并将其添加在多个卷积层的后面，可以使网络更多地关注图像的关键部分并获得更多代表性的特征，从而有效区分具有高度相似性的行人图像。

二是设计了结合全局平均池化和全局最大池化的池化块，可以使网络保留图像更多的细节特征，丰富特征表达。

三是进行了多层特征提取，可以充分利用输入图像的信息，提高特征表达的精细度。

在上述技术方案的基础上，交叉熵损失值定义为：

其中，

P为一个批次训练的行人类别数，K为一个批次训练的每类行人的图像数量，f(x_s,i)为图像x_s,i最终输出特征向量，y_s,i为x_s,i对应的行人类别，M_s为有标签源域训练图像的数量；

和

为被扩展到与f(x_s,i)相同维数的类别向量；

最终输出特征向量间的欧氏距离定义为：

其中，

f(x_s,i)、f(x_s,j)分别为有标签源域训练图像x_s,i和x_s,j的最终输出特征向量，v为最终输出特征向量的维度，f^u(x_s,i)为x_s,i最终输出特征向量的第u维，f^u(x_s,j)为x_s,j最终输出特征向量的第u维；

三元组损失定义为：

其中，

P为一个批次训练的行人类别数，K为一个批次训练的每类行人的图像数量；xⁱ _s,a为有标签源域中选定的一幅用于计算三元组损失的中心图像，f(xⁱ _s,a)为xⁱ _s,a的最终输出特征向量，xⁱ _s,p为有标签源域中的一幅与xⁱ _s,a相同类别的行人图像，f(xⁱ _s,p)为xⁱ _s,p的最终输出特征向量，x^j _s,n为有标签源域中的一幅与xⁱ _s,a不同类别的行人图像，f(x^j _s,n)为x^j _s,n的最终输出特征向量，μ是三元组损失的边距超参数，[x]₊＝max(0,x)；源域总损失定义为L_source＝L_CEL+L_TRL，将两种损失组合可以从局部和全局的角度共同优化预训练过程的基线网络。

统一调整无标签目标域训练图像的尺寸；所述尺寸可为预设尺寸(默认尺寸)；

作为可选择的实施方案之一，所述预设尺寸为288×144像素；该预设尺寸可按需改变；

在上述技术方案的基础上，在进行多损失优化学习训练时，将无标签目标域训练图像输入多损失优化学习训练过程中的基线网络进行前向传播，得到最终输出特征向量；具体步骤可同前述进行预训练时的步骤1-6；

其中，

P为一个批次训练的行人类别数，K为一个批次训练的每类行人的图像数量，xⁱ _g,a为新目标域中选定的一幅用于计算基于伪标签三元组损失的中心图像，f(xⁱ _g,a)为xⁱ _g,a的最终输出特征向量，xⁱ _g,p为新目标域中一幅与xⁱ _g,a相同类别的行人图像，f(xⁱ _g,p)为xⁱ _s,p的最终输出特征向量，x^j _g,n为新目标域中一幅与xⁱ _g,a不同类别的行人图像，f(x^j _g,n)为x^j _g,n的最终输出特征向量，δ是基于伪标签三元组损失的边距超参数；

余弦距离的计算为：

d_c(x_g,i,x_g,j)＝f(x_g,i)^Tf(x_g,j)，

其中，

f(x_g,i)和f(x_g,j)分别为新目标域图像x_g,i和x_g,j的最终输出特征向量。对于新目标域图像x_g,i，根据余弦距离从小到大排序后的样本为

基于排序平均的三元组损失定义为：

其中，

P为一个批次训练的行人类别数，K为一个批次训练的每类行人的图像数量，γ为基于排序平均三元组损失的边距超参数；x_g,i为新目标域中选定的一幅用于计算基于排序平均三元组损失的中心图像，

为与x_g,i根据余弦距离从小到大排序后的第j个样本，d_c为余弦距离；

该损失是本发明的创新之处，给定一幅新目标域图像，拉近其与排名前K个图像的距离，推远其与排名为K至2K个图像的距离；设计该损失函数的目的是为了避免网络过度依赖伪标签，同时充分挖掘新目标域内图像的自然相似性；

近邻一致性损失定义为：

其中，

P为一个批次训练的行人类别数，K为一个批次训练的每类行人的图像数量，k为选取的近邻数量，x_g,i为新目标域中选定的一幅用于计算基于近邻一致性损失的图像，

为与x_g,i根据余弦距离从小到大排序后的第j个样本，d_c为余弦距离，ε为缩放参数；

其中w_i,j为权重，其定义为：

其中，

k为选取的近邻数量，P为一个批次训练的行人类别数，K为一个批次训练的每类行人的图像。

该损失是本发明的创新之处，给定一幅新目标域的图像，拉近该图像与距离最近的k个样本之间的距离，目的是为了与基于排序平均的三元组损失进行对抗学习，深入挖掘新目标域内部的自然相似性，避免网络对伪标签的过度依赖；

目标域总损失定义为：

L_target＝L_PLT+L_RAT+αL_NCB，

其中，

α是用于平衡基于排序平均的三元组损失和近邻一致性损失之间关系的超参数，L_PLT为基于伪标签的三元组损失，L_RAT为基于排序平均的三元组损失，L_NCB为近邻一致性损失。

统一调整无标签目标域测试图像的尺寸；所述尺寸可为预设尺寸(默认尺寸)；

对无标签目标域测试图像进行归一化处理。

作为可选择的实施方案之一，所述无标签目标域测试图像包括：无标签目标域测试集的检索图像和无标签目标域测试集的图像库图像。

无标签目标域测试图像包括检索图像和图像库图像。给定一幅检索图像，需要在图像库中搜索与检索图像相同类别的图像，得到结果。测试集中的检索图像与图像库图像是已经分配好的。

在上述技术方案的基础上，在进行无监督跨域行人再识别测试时，将无标签目标域测试图像(具体包括：无标签目标域测试集的检索图像，如图3所示，以及无标签目标域测试集的图像库图像)分别输入基线网络中，每幅图像得到一个最终输出特征向量；

根据欧氏距离的排序顺序，输出对应序列图像作为识别结果，如图4所示。

以下为具体实施例。

实施例1

以源域为Market-1501数据集，目标域为DukeMTMC-Re-ID数据集为例。

一、源域为Market-1501数据集，该数据集共包括751个行人的12936幅训练图像，使用该训练图像进行预训练，经过多次实验，得到实验参数的最佳取值为：步骤3中一个批次训练的行人类别P取32，一个批次训练的每类行人的图像数量K取4，三元组损失的边距超参数μ取0.5，预训练过程预设的训练次数为150。

保存最后一次训练后的基线网络权重，将其作为多损失优化学习过程的基线网络初始权重；

二、目标域为DukeMTMC-Re-ID数据集，该数据集共包括702个行人的16522幅训练图像，使用该训练图像进行多损失优化学习，经过多次实验，得到实验参数的最佳取值为：基于伪标签的三元组损失的边距超参数δ取0.5，基于排序平均三元组损失的边距超参数γ取0.5，近邻一致性损失中选取的近邻数量k取8,缩放参数ε取0.05。目标域总损失中的超参数α取0.3，多损失优化学习过程预设训练次数为70。保存最后一次训练后的基线网络；

三、目标域为DukeMTMC-Re-ID数据集，该数据集的测试集共包括2228幅检索图像和17661幅图像库图像。使用该数据集测试图像进行无监督跨域行人再识别，将测试图像输入最后一次训练后的基线网络中，得到识别结果。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。