CN113065434A

CN113065434A - 基于双一致性约束的行人再识别技术

Info

Publication number: CN113065434A
Application number: CN202110312827.6A
Authority: CN
Inventors: 姜竹青; 裴江波; 徐崟淞; 门爱东; 王海婴
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-02

Abstract

本发明设计了一种基于双一致性约束的行人再识别技术，属于计算机视觉图像技术领域。针对目前行人再识别模型过拟合至训练相机，难以泛化到新相机的问题，本发明提出了分布一致性约束以及知识一致性约束，引导模型提取相机无关特征。分布一致性约束要求不同相机的输出特征服从一致分布，由相机分布对齐损失函数实施。知识一致性目的是要求模型在不同相机中学习到的参数更新相似，由知识一致正则化向实施。实验结果表明我们的策略能够提升模型过滤相机信息，提取相机无关特征的能力，有效地增强模型对新相机的泛化能力。

Description

基于双一致性约束的行人再识别技术

技术领域

本发明属于计算机视觉图像技术领域，是一种基于双一致性约束的行人再识别技术。

背景技术

行人再识别目的是在跨相机视角下检索特定的行人。该技术是智能监控领域的关键技术之一，对社会安全有着重要作用，如嫌犯追踪，失踪人口找寻等。在复杂的真实场景中，相机镜头，传感器，角度的多变导致来自不同相机的图像包含不同的相机信息。相机信息之间的差异极大的阻碍了模型在不同相机之间的行人识别。因此如何提取既具鲁棒性又不失识别能力的行人特征，消除模相机信息的负面影响成为行人再识别要解决的关键问题。

早期的行人再识别方法主要采用传统方法。传统方法包括特征提取和特征匹配。前者主要是设计具有鲁棒和判决的特征描述子，用以提取行人的外观特征，例如颜色、纹理等底层特征以及语义属性等高层特征。对于后者，一些研究人员逐渐从数据驱动的角度，利用各种统计机器学习方法，设计了大量的特征匹配算法。这些算法主要以度量学习、子空间学习以及字典学习为主，旨在通过某种规则或者学习方法挖掘行人特征的本关联。然而，传统方法仍有诸多不足之处。一方面，由于真实场景复杂多变，仅利用设计好的固定描述子提取行人特征，并不能有效地表征行人跨视角条件下的固有信息，特别是在遇到亮度变化，遮挡以及背景聚类等情况时，行人特征很容易失去辨别力。另一方面传统方法是一种分离的，非端到端的处理模式，它的特征表示和特征匹配是分开处理的。因此，传统方法很难通过一个单一的模型权衡特征提取和特征学习之间的联系，并不能充分地挖掘不同摄像机下行人的内在联系。上述问题使得传统方法在行人再识别的发展中逐渐被边缘化。

卷积神经网络是一种专门用来处理具有类似网格结构的数据的结构。由于卷积神经网络在数据中表现出的局部感知能力以及多尺度局部特征提取能力，该结构网络对提取来自数据内潜在的特征表示非常有效。随着卷积神经网络在图像分类领域的成功，基于深度学习的行人再识别方法得到了广泛的研究。这些方法利用卷积神经网络有效地学习高层语义特征，能够提取更具鲁棒性和判决性的身份特征。同时，这些方法将特征提取与特征匹配融合到一个统一的端到端框架，能够更好地利用所提取的身份特征对匹配行人。因此，基于深度学习的方法已经成为行人再识别领域的主流。

在消除相机信息方面，现有的基于深度学习的方法通过联系数据集中的跨相机同身份图像，隐式的培养模型消除相机信息的能力。然而，这种策略更注重于图像与图像之间的差异，而相机信息的影响一定程度被忽略。因此，现有的方法难以充分的学习消除相机信息的影响，相反的，这些方法更倾向于学习训练相机之间的联系。这使得训练后的模型仅能特定地处理训练相机，难以泛化到未见过的相机。这严重阻碍了行人再识别模型在真实场景中的应用。

发明内容

本发明的目的在于克服现有技术的不足，充分考虑行人再识别任务的特点，提出一种学习过滤相机信息的方法，使行人再识别模型能够提取相机无关特征，增强其泛化至新相机的能力。这样，模型就能够在训练之后被直接应用到各种场景中。

本发明解决其技术问题是采取以下技术方案实现的：

基于双一致性约束的行人再识别技术，其特征在于包括以下步骤：

步骤1、将原始多个相机的数据按其相机标签进行抽样，形成训练批次；

步骤2、对于每一个训练批次，将测试集全部图像输入深度卷积网络模型，提取全局池化后特征作为身份特征；

步骤3、利用提取特征，分别计算模型的身份判别损失，相机分布对齐损失以及知识一致正则化项，相加作为总损失；

步骤4、利用梯度下降法训练模型至参数收敛；

步骤5、固定模型参数，将检测图像与待检测集输入模型得到身份特征，计算欧氏距离并由大到小排序。

进一步，所述步骤1的抽样方法包括以下步骤：

(1)对于数据集内所有数据，按照相机属性将其分到不同相机组；

(2)随机抽取两个不同相机(C₁,C₂)；

(3)对于每个相机，随机抽取个P行人，抽取每个行人的K张图像，形成共2×P×K张图像的训练批次。

进一步，所述步骤2的深度卷积网络包括以下结构：

⑴将Resnet50最后一个池化层后的部分丢弃，将其余结构做为特征编码器；

(2)将特征编码器最后一个残差模块的步长设置为1，使生成的特征图的尺寸变为原来的两倍，获取细粒度的语义信息；

(3)特征编码器后连接一个全连接层分类器，分类器的输入通道为特征编码器的输出维度，分类器输出维度为数据集特征数。

进一步，所述步骤3的身份判别函数，相机分布对齐函数以及知识一致正则化项包括以下步骤：

⑴对于任务中的每一张图像(x_j,y_j)，提取步骤二所提取特征作为身份特征F(x_j)；

(2)将身份特征输入分类器W得到预测标签，同时利用图像身份标签，计算交叉熵损失作为身份判别函数；

进一步，所述步骤3的相机分布对齐损失包括以下步骤：

⑴对于任务中的每一张图像，提取步骤二所提取特征作为身份特征；

(2)按照图像的相机标签，将所提取的特征按相机分类，形成两个不同相机的特征集合P(C₁)和P(C₂)；

(3)计算不同特征集合之间的最大均值差异(Maximum Mean Discrepancy)作为相机分布对齐损失：

(4)将身份特征输入分类器得到预测标签，同时利用图像身份标签，计算交叉熵损失作为身份判别函数；

进一步，所述步骤3知识一致正则化项包括以下步骤：

⑴对于批次中属于C₁的数据(x_j,y_j)以及属于C₂的数据，提取步骤二所提取特征作为身份特征；

(2)对于每一个相机，将属于该相机的身份特征输入分类器得到预测标签，同时利用图像身份标签，计算交叉熵损失作为该相机的身份判别函数。

(3)将不同相机的身份判别函数分别对模型参数求导，作为所学知识；

(4)使用点积运算计算不同相机所学知识的相似性，作为知识一致正则化项。

本发明的优点和积极效果是：

1、本发明利用双一致性约束，引导模型学习过滤相机信息。这极大提升了行人再识别模型面对新相机、新数据集的泛化能力，使模型在训练之后能够被直接应用于新场景，有利于行人再识别技术在真实世界的更广泛应用。

2、本发明设计合理。本发明使用残差网络作为主干网络，网络的输出是具有身份辨别力的特征；以身份判别损失，相机分布对齐损失以及知识一致正则化项为目标来训练网络，提升模型性能的同时不增加模型的参数，使行人再识别能够广泛应用于新场景。

附图说明

图1是本发明的基于双一致性约束的行人再识别技术的网络主干框架图。

图2本发明的训练批次抽样流程示意图。

具体实施方式

以下结合附图对本发明实施例做进一步详述

基于双一致性约束的行人再识别技术，如图一和图二所示，其特征在于包括以下步骤：

步骤S1、将原始多个相机的数据按其相机标签进行抽样，形成训练批次；

步骤S1的抽样方法包括以下步骤：

S1.1对于数据集内所有数据，按照相机属性将其分到不同相机组；

S1.2随机抽取两个不同相机(C₁,C₂)；

S1.3对于每个相机，随机抽取个P行人，抽取每个行人的K张图像，形成共2×P×K张图像的训练批次。

步骤S2、对于每一个训练批次，将测试集全部图像输入深度卷积网络模型，经过全局池化提取特征；

步骤2的深度卷积网络包括以下结构：

S2.1将Resnet50最后一个池化层后的部分丢弃，将其余结构做为特征编码器；

S2.2将特征编码器最后一个残差模块的步长设置为1，使生成的特征图的尺寸变为原来的两倍，获取细粒度的语义信息；

S2.3特征编码器后连接一个全连接层分类器，分类器的输入通道为特征编码器的输出维度，分类器输出维度为数据集特征数。

步骤S3、利用提取特征，分别计算模型的身份判别损失，相机分布对齐损失以及知识一致正则化项，相加作为总损失；

步骤3的身份判别函数，相机分布对齐函数以及知识一致正则化项包括以下步骤：

S3.1对于任务中的每一张图像(x_j,y_j)，提取步骤二所提取特征作为身份特征F(x_j)；

S3.2将身份特征输入分类器W得到预测标签，同时利用图像身份标签，计算交叉熵损失作为身份判别函数，计算方法为：

S3.3对于任务中的每一张图像，提取步骤二所提取特征作为身份特征；

S3.4按照图像的相机标签，将所提取的特征按相机分类，形成两个不同相机的特征集合P(C₁)和P(C₂)；

S3.5计算不同特征集合之间的最大均值差异(Maximum Mean Discrepancy)作为相机分布对齐损失：

L_mmd＝MMD(P(C₁),P(C₂))；

S3.6将身份特征输入分类器得到预测标签，同时利用图像身份标签，计算交叉熵损失作为身份判别函数；

S3.7对于批次中属于C₁的数据(x_j,y_j)以及属于C₂的数据，提取步骤二所提取特征作为身份特征；

S3.8对于每一个相机，将属于该相机的身份特征输入分类器得到预测标签，同时利用图像身份标签，计算交叉熵损失作为该相机的身份判别函数

S3.9将不同相机的身份判别函数分别对模型参数求导，作为所学知识；

S3.10使用点积计算不同相机所学知识的相似性，作为知识一致正则化项：

-▽_θ(L₁)·▽_θ(L₂)。

S3.11对三个损失相加，得到所述步骤3的总损失为：

L＝L_id+L_mmd-▽_θ(L₁)·▽_θ(L₂)

步骤S4、利用梯度下降法训练模型至参数收敛；

步骤S5、固定模型参数，将检测图像与待检测集输入模型得到身份特征，计算欧氏距离并由大到小排序。

通过以上步骤即可得到训练好的模型。利用该模型，计算检测图像与待检测集的相似度，排序得到重识别结果。

最后，我们对本发明与其他算法在Market1501-DukeMTMC-reID泛化问题下的性能进行比较，实验设定如下。

测试环境：pytorch框架；Ubuntu16.04系统；NVIDIA GTX 1080ti GPU

测试序列：所选数据集包括Market1501以及DukeMTMC-reID。其中Market1501数据集采集自清华大学。包括六个摄像机和1,501个身份,共32668张图像。其中训练集包含751个身份，测试集包含750个身份。DukeMTMC-reID在杜克大学采集，由1404个身份组成，共36411张图像。训练集包括702个身份以及16522张图像。测试集包含702个行人的19989张图像。

测试方法：我们我们在Market1501和DukeMTMC-reID数据集上进行泛化试验，Market1501为源数据集，DukeMTMC-reID为测试数据集。我们使用源数据集进行训练，并检查其在其目标数据集上的结果。

测试指标：我们采用的评价指标为累积匹配特性曲线CMC以及平均精度mAP。行人再识别被广泛认为是一个排序问题，其中gallery库中的每个元素都是基于其与query的比较进行排序的。CMC曲线是计算top-k的击中概率，即第k位图像与待查询图像身份相同的概率。mAP是平均精度，衡量的是学出的模型在所有类别上的好坏。

测试结果如下：

表1.本发明与其他算法在Market1501-DukeMTMC-reID泛化问题中的性能比较

通过以上对比数据可以看出，在泛化效果方面，本发明优于其他方法；并且实际测试时，在运行时间方面，本发明不依赖于跨相机标注，因此所需成本较少。综合分析，本发明很好的提高了行人再识别模型的泛化能力，在减少训练成本的同时，获得较高的正确率。

本发明未述及之处适用于现有技术。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.基于双一致性约束的行人再识别技术，其特征在于包括以下步骤：

步骤2、对于每一个训练批次，将测试集全部图像输入深度卷积网络模型，经过全局池化提取特征；

步骤4、利用梯度下降法训练模型至参数收敛；

2.根据权利要求1所述的基于双一致性约束的行人再识别技术，其特征在于，所述步骤1的抽样方法包括以下步骤：

(2)随机抽取两个不同相机；

(3)对于每个相机，随机抽取P个行人，抽取每个行人的K张图像，形成共2PK张图像的训练批次。

3.根据权利要求1所述的基于多相机信息传导的跨场景行人再识别技术，其特征在于，所述步骤2的深度卷积网络包括以下结构：

4.根据权利要求1所述的基于多相机信息传导的跨场景行人再识别技术，其特征在于：所述步骤3的身份判别函数，相机分布对齐函数以及知识一致正则化项包括以下步骤：

⑴对于任务中的每一张图像，提取权利要求一步骤二所提取特征作为身份特征；

(2)将身份特征输入分类器得到预测标签，同时利用图像身份标签，计算交叉熵损失作为身份判别函数。

5.根据权利要求1所述的基于多相机信息传导的跨场景行人再识别技术，其特征在于：所述步骤3的相机分布对齐损失包括以下步骤：

(2)按照图像的相机标签，将所提取的特征按相机分类，形成不同相机的特征集合；

(3)计算不同特征集合之间的最大均值差异(Maximum Mean Discrepancy)作为相机分布对齐损失。

6.根据权利要求1所述的基于多相机信息传导的跨场景行人再识别技术，其特征在于：所述步骤3知识一致正则化项包括以下步骤：

(2)对于每一个相机，将属于该相机的身份特征输入分类器得到预测标签，同时利用图像身份标签，计算交叉熵损失作为该相机的身份判别函数；