CN117612112A

CN117612112A - 一种基于语义一致性的换装行人重识别方法

Info

Publication number: CN117612112A
Application number: CN202410097183.7A
Authority: CN
Inventors: 张鹏; 郑昊; 包永堂; 张晓林; 单彩峰; 李豪杰
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-02-27
Anticipated expiration: 2044-01-24
Also published as: CN117612112B

Abstract

本发明公开了一种基于语义一致性的换装行人重识别方法，属于计算机视觉领域，包括如下步骤：步骤1、获取数据集并进行预处理，根据原始行人图像估计行人遮挡衣服图像以及重建对应行人的三维人体结构；步骤2、构建基于语义一致性的换装行人重识别网络模型；步骤3、构建损失函数，基于训练数据集和损失函数对模型进行训练优化；步骤4、基于训练完成的模型进行换装行人重识别。本发明通过约束语义一致提高了换装行人重识别模型的准确率。

Description

一种基于语义一致性的换装行人重识别方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于语义一致性的换装行人重识别方法。

背景技术

行人重识别是计算机视觉领域的一个重要课题，其目标是在不同摄像头中识别和匹配同一行人。近年来随着深度学习的不断发展，理想情况下的行人重识别技术已取得较好的效果。在真实的监控场景中，不可避免地会出现行人更换衣服的情况，由于天气原因目标行人会进行衣服的更换；以及在潜逃的犯罪嫌疑人，为了逃避追捕，他们会频繁的进行衣服的更换。在这种情况下，占据图像大量像素点的衣服成为了无效信息甚至误导信息，进而导致匹配过程失败。因此如何对换装的行人进行重识别成为近几年的研究热点，越来越多的研究人员着手解决换装行人重识别的问题。

换装行人重识别的重点是提取衣服无关的特征，一个有效的方法是借助人类的语义信息。尽管在许多现有的换装行人重识别方法中也使用了人类语义信息，但它们主要集中在体型或轮廓草图上，并且目前对人类语义信息的探索仍然不足。因此，如何充分利用人类语义信息对于换装行人重识别来说仍然是一个有待探索的问题。

发明内容

为了解决上述问题，本发明提出了一种基于语义一致性的换装行人重识别方法，利用多种语义信息，通过使用交互学习损失约束模型学习身份相关的特征，从而增强重识别模型的性能。

本发明的技术方案如下：

一种基于语义一致性的换装行人重识别方法，包括如下步骤：

步骤1、获取数据集并进行预处理，根据原始行人图像估计行人遮挡衣服图像以及重建对应行人的三维人体结构；

步骤2、构建基于语义一致性的换装行人重识别网络模型；

步骤3、构建损失函数，基于训练数据集和损失函数对模型进行训练优化；

步骤4、基于训练完成的模型进行换装行人重识别。

进一步地，所述步骤1的具体过程为：

步骤1.1、获取公开数据集作为训练数据集；采集各个监控摄像头下的所有行人图像作为测试数据集；测试数据集中包含查询集和图库集两部分，查询集是当前待查询行人图像的集合，图库集是与查询集进行匹配的候选行人图像的集合；数据集中的数据均为RGB图像；

步骤1.2、将训练数据集中的原始图像采用SPIN方法生成行人对应的三维人体结构，三维人体结构中包含行人的体型信息以及姿态信息；SPIN为一种通过单幅图像生成三维人体结构的方法；

步骤1.3、将训练数据集中的原始图像采用SCHP方法生成行人人体解析图像，根据人体解析图像将原始图像中衣服部分的RGB值设置为黑色，得到遮挡衣服图像；SCHP为人体解析自校正方法；

步骤1.4、将原始图像和遮挡衣服图像的大小均调整为384*192像素。

进一步地，所述步骤2中，基于语义一致性的换装行人重识别网络模型包括三部分，分别为：遮挡衣服图像处理部分、原始图像处理部分和三维人体处理部分；遮挡衣服图像处理部分包括解码器1和降维操作；原始图像处理部分包含解码器1、特征切分模块和降维操作；三维人体处理部分包括解码器2和降维操作；解码器1和解码器2均为ResNet结构，但计算时二者内部参数不同；降维操作包含平均池化、最大池化和归一化三个步骤；ResNet为深度残差网络。

进一步地，所述步骤2中，基于语义一致性的换装行人重识别网络模型的工作过程为：

步骤2.1、将原始图像输入解码器1得到原始图像特征图，将遮挡衣服图像输入到和原始图像共享参数的解码器1中得到遮挡衣服图像特征图，其中/>和/>表示特征图的高和宽，/>表示维度的大小；

步骤2.2、将、/>分别在通道维度进行池化获得池化后的结果/>、，即将通道维数压缩为1；

步骤2.3、、/>分别经过降维操作得到原始图像特征/>、遮挡衣服图像特征/>；

步骤2.4、将输入特征切分模块，特征切分模块对整个/>进行切分得到若干个切分子特征，给各个切分子特征分配一个特征权重，各个切分子特征的特征权重在网络优化过程中自动更新，学习获得的权重经过 softmax 函数后与切分子特征相乘得到切分特征/>；

步骤2.5、将三维人体结构输入到解码器2中，得到三维人体特征图，/>经过降维操作得到三维人体特征/>。

进一步地，所述步骤3的具体过程为：

步骤3.1、计算原始图像特征图和遮挡衣服图像特征图的一致性损失，一致性损失的计算公式如下：

（1）；

其中，为图像序号索引；/>为样本总数；

步骤3.2、将和/>分别和/>计算交互损失，并将两个交互损失相加得到总交互损失/>，计算公式为：

（3）；

步骤3.3、构建交叉熵损失函数，计算公式为：

（4）；

其中，表示行人标签；/>表示预测的行人标签；

构建难样本采样三元组损失函数，计算公式为：

（5）；

其中，为不同行人的数量；/>为不同图像的数量；/>为训练批次；/>为与基准图像最不相像的正样本；/>为与图像/>具有相同身份的图像集；/>为基准图像和最不像的正样本间的距离；/>为与基准图像最相像的负样本；/>为与图像/>具有不同身份的图像集；为基准图像和最像的负样本间的距离；/>是可调节的阈值参数；

步骤3.4、最终，训练过程的整体损失函数被定义为：

（6）；

其中，为超参数，用于平衡一致性损失的重要性。

进一步地，所述步骤4的具体过程为：

步骤4.1、将测试数据集的查询集和图库集作为步骤3训练完成的换装行人重识别模型的输入，将模型输出三维人体特征和原始图像特征/>在通道维度拼接到一起，得到最终的行人特征/>；

步骤4.2、计算查询集中行人图像与图库集各行人图像的相似度；

相似度计算公式为：

（7）；

其中，为查询集的行人图像/>与图库集的行人图像/>的相似度；/>表示查询集的行人图像/>的特征向量，/>表示图库集的行人图像/>的特征向量，/>表示查询集的行人图像/>的特征向量的模长，/>表示图库集的行人图像/>的特征向量的模长；

步骤4.3、将所有相似度的取值按照由高到低的顺序进行排序，将相似度值最高的前十张行人图像作为重识别结果输出。

本发明所带来的有益技术效果：本发明方法提出了基于语义一致性的换装行人重识别，利用遮挡衣服图像、原始图像分块以及人体的三维人体结构三个额外语义学习服装无关特征，并使用交互损失使得原始图像主干网络能够侧重于图像中服装无关的部分，从而提高换装行人重识别的性能。

附图说明

图1为基于语义一致性换装行人重识别方法的流程图。

图2为基于语义一致性换装行人重识别模型的结构示意图。

图3为图2中特征切分模块的结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

首先给出如下术语的解释：

SCHP：人体解析是一项精细的语义分割任务，其目的是将人体中的每一个图像像素分配给一个语义类别，如手臂、面部、上衣等。SCHP全称为人体解析自校正方法，是一种人体解析方法，主要通过净化噪声标签逐步优化模型。

SPIN：SPIN是一种通过单幅图像生成三维人体结构的方法，全称为SMPLoPtimization IN the loop，SMPL是人体参数化三维结构，人体可以理解为是一个基础模型和在该模型基础上进行形变的总和。

ResNet：ResNet是深度残差网络，用于提取图像特征。ResNet采用了超深的网络结构，尝试了超过1000层的网络结构；提出了残差模块，解决了退化问题；使用批量归一化加速训练，丢弃了dropout层，解决了梯度消失和梯度爆炸的问题。

PRCC数据集：PRCC数据集是中山大学采集的一个室内数据集，包含221个人的33698幅图像，平均每个人152幅图像。该数据集由3个不同位置的RGB视觉摄像头拍摄，其中，两个摄像头下同一行人穿着相同服装，另一摄像头下穿着不同服装。本数据集的训练集包含150个人，测试集包含另外71个人。该数据集是一个严格的换装数据集。

LTCC数据集：该数据集图像来自于办公楼内的12个监控摄像头，包括152个人的17138幅图像。根据是否更换着装，该数据集划分为换装数据集和非换装数据集两个子集。换装数据集包含91个人的14756幅图像，涉及417类着装，其中每个人着装类型包含2～14种；非换装数据集包含剩余61个人的2382幅图像。

如图1所示，本发明方法包括步骤如下：

步骤1、获取数据集并进行预处理，根据原始行人图像估计行人遮挡衣服图像以及重建对应行人的三维人体结构。具体过程为：

步骤1.1、获取公开数据集作为训练数据集；采集各个监控摄像头下的所有行人图像作为测试数据集；测试数据集中包含查询集和图库集两部分，查询集是当前待查询行人图像的集合，图库集是与查询集进行匹配的候选行人图像的集合；数据集中的数据均为RGB图像。

步骤1.2、将训练数据集中的原始图像输入预先训练完成的单幅图像人体模型重建方法SPIN中，获得行人对应的三维人体结构，此三维人体结构主要表示行人的体型信息以及姿态信息；

步骤1.3、将训练数据集中的原始图像送入预先训练完成的人体解析方法SCHP中获取行人人体解析图像；根据人体解析图像将原始图像中衣服部分的RGB值设置为黑色，得到遮挡衣服图像；

步骤2、构建基于语义一致性的换装行人重识别网络模型。

基于语义一致性的换装行人重识别网络模型主要包括三部分，遮挡衣服图像处理部分、原始图像处理部分和三维人体处理部分；遮挡衣服图像处理部分包括解码器1和降维操作；原始图像处理部分包含解码器1、特征切分模块和降维操作；三维人体处理部分包括解码器2和降维操作。解码器1和解码器2均为ResNet结构，但计算时二者内部参数不同；降维操作包含平均池化、最大池化和归一化三个步骤。

如图2和图3所示，基于语义一致性的换装行人重识别网络模型的工作过程为：

步骤2.4、将输入特征切分模块，该模块会对整个/>进行切分得到若干个切分子特征，给各个切分子特征分配一个特征权重，各个切分子特征的特征权重在网络优化过程中自动更新，学习获得的权重经过 softmax 函数后与切分子特征相乘得到切分特征。

步骤3、构建损失函数，基于训练数据集和损失函数对模型进行训练优化。具体过程为：

步骤3.1、计算原始图像特征图和遮挡衣服图像特征图的一致性损失，来驱动模型学习服装无关特征。一致性损失的计算公式如下：

（1）；

其中，为图像序号索引；/>为样本总数；/>为/>在通道维度进行池化的结果；/>为/>在通道维度进行池化的结果；

（3）；

步骤3.3、除上述损失外，模型还会受到交叉熵损失函数和难样本采样三元组损失函数两个身份相关损失的约束。其中，交叉熵损失函数的计算公式为：

（4）；

其中，表示行人标签；/>表示预测的行人标签；

难样本采样三元组损失函数的计算公式为：

（5）；

其中，为不同行人的数量；/>为不同图像的数量；/>为训练批次，在每个训练批次中，随机挑选/>个不同行人，每个行人随机挑选/>张不同图像，一个训练批次总共挑选/>张图像；/>为与基准图像最不相像的正样本；/>为与图像/>具有相同身份的图像集；/>为基准图像和最不像的正样本间的距离；/>为与基准图像最相像的负样本；/>为与图像/>具有不同身份的图像集；/>为基准图像和最像的负样本间的距离；/>是可调节的阈值参数；

难样本采样三元组损失函数会挑选与基准图像最不相像的正样本和最相像的负样本/>来进行损失计算。

步骤3.4、最终，训练过程的整体损失函数被定义为：

（6）；

其中，为超参数，用来平衡/>对整体损失函数的贡献。

通过整体损失函数对换装行人重识别模型进行约束，以训练优化获取更有效且鲁棒的换装行人重识别模型。

步骤4、基于训练完成的模型进行换装行人重识别。具体过如下：

步骤4.1、将测试数据集的查询集和图库集作为步骤3训练完成的换装行人重识别模型的输入，将模型输出三维人体特征和原始图像特征/>在通道维度拼接到一起，得到最终的行人特征/>，此处/>=2048；

设测试数据集的查询集的行人图像和图库集中的行人图像/>为例，二者相似度计算公式为：

（7）；

其中，表示查询集的行人图像/>的特征向量，/>表示图库集的行人图像/>的特征向量，/>表示查询集的行人图像/>的特征向量的模长，/>表示图库集的行人图像/>的特征向量的模长；

本发明实施例中，最终进行识别的特征向量维度为4096。本发明是在PyTorch框架下实现的，使用Adam算法对模型进行优化，学习率设置为3.5e-4，最大迭代次数为100。

为了验证本发明的可行性与优越性，进行了如下对比实验。实验均在PRCC和LTCC两个换装行人数据集的换装情况下进行。

选取GI-ReID、3DSL、FSAM、CAL四个方法进行换装行人重识别，并将识别结果与本发明的识别结果进行比较，比较结果如表1所示。GI-ReID方法的内容为：使用一个一致性约束，以促使模型从行人步态和静态RGB图像中学习身份相关特征。3DSL方法提出用于3D形状学习的端到端框架，通过用于3D重建的正则化方法来识别行人。FSAM方法提出了一种双流框架，该框架能够实现形状和行人外观的相互学习，将身份知识从形状流转移到外观流。CAL方法设置一个损失惩罚重识别模型的预测能力，来从原始RGB图像中挖掘与服装无关的特征。本发明选用首位命中率Rank-1和平均精度均值mAP两个评价指标来评估训练完成的模型，首位命中率Rank-1和平均精度均值mAP的取值越高，代表模型精度越高。

表1 本发明方法与其他四个方法在PRCC和LTCC数据集换装情况下的比较结果；

。

从表1可以看出，使用本发明提出的方法，在换装行人重识别LTCC、PRCC数据集上分别可以达到41.6%、63.9%的Rank-1值和17.6%、61.8%的mAP值。在PRCC数据集取得最优结果，在LTCC数据集上Rank-1取得最优结果，mAP取得次优结果，有效提高了换装行人重识别的精度。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于语义一致性的换装行人重识别方法，其特征在于，包括如下步骤：

步骤2、构建基于语义一致性的换装行人重识别网络模型；

步骤4、基于训练完成的模型进行换装行人重识别。

2.根据权利要求1所述基于语义一致性的换装行人重识别方法，其特征在于，所述步骤1的具体过程为：

3.根据权利要求1所述基于语义一致性的换装行人重识别方法，其特征在于，所述步骤2中，基于语义一致性的换装行人重识别网络模型包括三部分，分别为：遮挡衣服图像处理部分、原始图像处理部分和三维人体处理部分；遮挡衣服图像处理部分包括解码器1和降维操作；原始图像处理部分包含解码器1、特征切分模块和降维操作；三维人体处理部分包括解码器2和降维操作；解码器1和解码器2均为ResNet结构，但计算时二者内部参数不同；降维操作包含平均池化、最大池化和归一化三个步骤；ResNet为深度残差网络。

4.根据权利要求3所述基于语义一致性的换装行人重识别方法，其特征在于，所述步骤2中，基于语义一致性的换装行人重识别网络模型的工作过程为：

步骤2.1、将原始图像输入解码器1得到原始图像特征图，将遮挡衣服图像输入到和原始图像共享参数的解码器1中得到遮挡衣服图像特征图/>，其中/>和/>表示特征图的高和宽，/>表示维度的大小；

步骤2.4、将输入特征切分模块，特征切分模块对整个/>进行切分得到若干个切分子特征，给各个切分子特征分配一个特征权重，各个切分子特征的特征权重在网络优化过程中自动更新，学习获得的权重经过 softmax 函数后与切分子特征相乘得到切分特征；

5.根据权利要求4所述基于语义一致性的换装行人重识别方法，其特征在于，所述步骤3的具体过程为：

（1）；

其中，为图像序号索引；/>为样本总数；

（3）；

步骤3.3、构建交叉熵损失函数，计算公式为：

（4）；

其中，表示行人标签；/>表示预测的行人标签；

构建难样本采样三元组损失函数，计算公式为：

（5）；

步骤3.4、最终，训练过程的整体损失函数被定义为：

（6）；

其中，为超参数，用于平衡一致性损失的重要性。

6.根据权利要求5所述基于语义一致性的换装行人重识别方法，其特征在于，所述步骤4的具体过程为：

相似度计算公式为：

（7）；