CN116343267A

CN116343267A - 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置

Info

Publication number: CN116343267A
Application number: CN202310627517.2A
Authority: CN
Inventors: 高赞; 张攀; 徐海霞; 马春杰; 赵一博; 薛彦兵; 温显斌; 李传森; 刘冬冬
Original assignee: Shandong Zhonglian Audio Visual Information Technology Co ltd; Tianjin University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Shandong Zhonglian Audio Visual Information Technology Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-06-27
Anticipated expiration: 2043-05-31
Also published as: CN116343267B

Abstract

本发明属于计算机视觉及深度学习领域，尤其涉及一种衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置。其具体步骤如下：通过语义分割模型得到对应图像的衣物屏蔽图，并且提取衣物屏蔽泛化特征；使用人体局部及高级语义特征提取模块对图像非衣物特征进行提取；通过Vision Transformer网络模型对人物特征进行提取；将RGB原始图像和衣物屏蔽图，两者一同放入了共享参数的Vision Transformer模型对人物特征进行提取；联合损失函数约束网络进行训练。本发明的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法，在相关的换衣行人重识别数据集中达到了优异的效果。

Description

衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置

技术领域

本发明属于计算机视觉及深度学习领域，尤其涉及一种衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置。

背景技术

行人重识别也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。是一个图像检索的问题。给定一个监控行人图像，检索跨设备下的该行人图像。行人重识别的核心在于如何找到有鉴别力的行人表达。行人重识别目前在智慧城市、智能安防、人机交互等方面发挥着很重要的作用。近几年随着深度学习的发展，行人重识别问题更加引人关注，常用的提取图像特征的网络有ResNet，DenseNet，VisionTransformer，Swin Transformer等；

换衣行人重识别是随着行人重识别的发展，研究者们逐渐发现行人重识别中存在着遮挡问题，也存在着换衣问题，尤其是犯罪嫌疑人往往会在作案后将衣服进行更换，这样就使得原有的行人重识别算法失效，换衣问题也就逐渐被慢慢重视起来。这样就使得学者将只提取人体的泛化特征逐步转移到提取人体的非衣物特征：比如轮廓，3D，步态特征等等。

目前换衣行人重识别领域的学者主要对轮廓、步态、3D等非衣物特征进行研究，但是由于这些特征往往对于生成3D、轮廓、步态信息的模型依赖很大。随着Mask RCNN等分割网络和Dense Pose等姿态估计网络越来越精进，可以得到准确的行人身体区域的分割掩码，甚至精确获得更细粒度的每个人体部件的区域。这对于换衣行人重识别问题的解决也提供了新的思路。

发明内容

本发明的目的是解决传统行人重识别方法中，无法处理行人换衣造成外观改变的问题，提供一种有效的基于衣物屏蔽网络的人体高级语义行人重识别方法及装置，通过对于人体衣服掩码置黑解决行人换衣问题，并利用人体姿态估计模型对人体局部特征进行整合，利用人体的局部特征作为图卷积网络的输入，从而提取与衣物无关的人体高级语义特征，整体训练过程中利用vit模型来提取人物的泛化特征。

本发明解决技术问题的技术方案为：

一种基于衣物屏蔽网络的人体高级语义换衣行人重识别方法，包括以下几个步骤：

S1. 通过语义分割模型得到对应图像的衣物屏蔽图，并且提取衣物屏蔽泛化特征；

S2. 使用人体局部及高级语义特征提取模块对图像非衣物特征进行提取；

S3. 通过Vision Transformer网络模型对人物特征进行提取；

将RGB原始图像和衣物屏蔽图，两者一同放入了共享参数的Vision Transformer模型对人物特征进行提取；

S4. 联合损失函数约束网络进行训练

在网络中设置两条链路，第一条链路学习与衣物无关的人体局部特征和高级语义特征，第二条链路学习人体的全局特征；损失函数分为两部分，一部分是人体局部特征和高级语义特征的分类损失，另一部分是Vision Transforme所提取的全局特征做三元组损失，让其作为度量损失，用于拉近类内特征距离，拉远类间特征距离。全局特征进行全连接层后的特征做分类损失，增加余弦似度和最大池化的损失函数，来提取出衣物屏蔽特征和原图特征公有部分特征，即非衣物特征。

S5. 利用训练好的模型提取特征进行检索匹配

将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

上述基于衣物屏蔽网络的人体高级语义换衣行人重识别方法基础上，S2具体过程如下：

S201.将衣物屏蔽图输入人体姿态估计网络，得到17个人体骨架点热力图，将这17个骨架点热力图进行组合，组合成7个局部热力图即头、上半身、下半身、左胳膊、右胳膊、左腿及右腿和1个全局热力图即17个骨架点的组合，并且将这8个热力图与第1步提取的泛化全局特征进行融合得到人体的非衣物局部特征；

S203.将人体的非衣物局部特征作为图卷积输入节点，预先设定的人体之间的关系做为边，让图卷积模型去学习更多人体部位之间的高级语义；

S203.将人体的局部特征和人体高级语义特征进行融合，融合得到的特征去计算分类损失。

上述基于衣物屏蔽网络的人体高级语义换衣行人重识别方法基础上，S3具体过程如下：

S301.一张原图

作为泛化模型的输入，其中H表示图像的高度，W表示图像的宽度，C表示图像中的通道数。通过预训练的Vision Transformer网络进行特征提取，得到的特征与衣物屏蔽的泛化特征进行相加融合得到/>

；

S302将衣物屏蔽图片经过vit网络模型输出的特征与

加权相乘得到/>

即衣物屏蔽特征；

S303将原图经过vit网络输出的特征和

加权相乘，得到原图主导的泛化特征

；

上述基于衣物屏蔽网络的人体高级语义换衣行人重识别方法基础上，S4体过程如下：

使用融合后的人体局部特征和人体高级语义特征，将得到的衣物无关特征当做分类问题来做，计算此特征的分类损失，记作

；

将Vision Transformer网络提取的衣物屏蔽图主导的全局特征

，与原图主导的全局特征/>

做融合之后，使用三元组损失作为度量损失/>

，用来拉进类内特征距离，拉远类间特征距离，并且将全局特征经过全连接层，得到分类特征，使用此特征来计算此特征的分类损失/>

；

在本实验中，整个网络的损失函数为：

；其中 />

和 />

都是分类损失，分类损失使用交叉熵损失进行计算，公式如下：

，其中B是输入的批次大小，/>

是样本/>

的真实标签，

表示样本/>

的预测标签，

是三元组损失，公式如下

；/>

分别为从/>

图像中提取的特征，这里的正样本positive和负样本negative分别是指与锚点图像anchor具有相同和不同身份的行人，/>

是边界超参数，用来控制类内间距和类间间距的边界值，候选三元组由距离最远的正样本对和距离最近的负采样对构建，即最难辨别的正样本对和负样本对，每个批次训练P个类别，每个类别K张图像；

是余弦似度和最大池化的损失函数，目的是提取衣物屏蔽图和原图的共有特征而设计的损失函数，公式如下：/>

，其中/>

，这个损失函数是一个基于余弦相似度和最大池化的损失函数，计算了两个特征之间的余弦相似度，并选择最大值作为损失函数的值，使得模型可以更好地学习到两个特征之间的关系。因为余弦相似度/>

的值范围在 [-1,1]，所以该损失函数的取值范围为 [0,2]，并且当余弦相似度最大时取到最小值0，当余弦相似度最小时取到最大值。这种设计可以保证损失函数的值始终为正，并且当余弦相似度越大，损失函数的值越小，使得模型可以更好地优化。同时，该损失函数对梯度下降不会产生影响，因为它只是一个单调函数，不会改变损失函数的梯度方向。最大余弦相似度可以保证两个特征之间的相似度尽可能的高，即使其他部分的相似度较低。这是因为在进行最大池化操作后，只有最大值被保留下来，其他的相似度被忽略掉了，这样可以减少不相关的相似度对损失函数的影响，使损失函数更加关注两个特征之间最重要的相似度部分。

将这四部分损失进行加权求和，既可以让模型学习更加泛化的行人特征，又可以学习人体高级语义特征。

上述基于衣物屏蔽网络的人体高级语义换衣行人重识别方法基础上，S5具体过程如下：

S501.将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性，计算出待检索图像和检索库中各个行人图像的欧氏距离，计算公式如下：

，/>

为两张输入图像，/>

为通过网络前向传播得到的它们对应的特征向量；

通过对检索模型的检索平均准确率mAP，和rank-n表示前n位是否命中，这两个指标来评价模型的好坏。

一种基于衣物屏蔽网络的人体高级语义换衣行人重识别装置，包括：

获取模块，用于获取图像和语义分割模型；

人体高级语义特征和人体局部特征提取模块，对原图人物的特征进行提取，并且将此特征和衣物屏蔽后的特征进行融合；

训练模块，使用融合后的人体局部特征和人体高级语义特征，将得到的衣物无关特征当做分类问题来做，计算此特征的分类损失；

相似度确定模块，将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；

目标确定模块，通过对检索模型的检索平均准确率mAP，和rank-n表示前n位是否命中确定为目标行人图片。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案具有如下优点或有益效果：

1）针对行人换衣问题，提出衣物屏蔽网络来学习泛化的行人外观特征，使模型在辨别行人时不依赖于衣服颜色纹理等外观特征；

2）通过姿态估计模型提取出来人体的局部特征，在一定程度上减轻了姿态变化对于模型的影响；

3）模型通过图卷积学习人体部件特征之间关系，从而学习高级人体语义特征，在一定程度上摆脱了模型对于外观特征的依赖；

4）本文发明的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法，在相关的换衣行人重识别数据集中达到了优异的效果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的流程图。

图2为本发明设计的基于衣物屏蔽网络的人体高级语义换衣行人重识别网络框架图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。

如图1所示，为发明的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法的实现流程图，该方法的实现步骤细节如下：

S3. 通过Vision Transformer网络模型对人物特征进行提取；

S4. 联合损失函数约束网络进行训练

在网络中设置两条链路，第一条链路学习与衣物无关的人体局部特征和高级语义特征，第二条链路学习人体的全局特征；损失函数分为两部分，一部分是人体局部特征和高级语义特征的分类损失，另一部分是Vision Transforme所提取的全局特征做三元组损失，让其作为度量损失，用于拉近类内特征距离，拉远类间特征距离，对全局损失进行全连接层后的特征做分类损失，增加余弦似度和最大池化的损失函数，来提取出衣物屏蔽特征和原图特征公有部分特征，四者损失相加进行联合训练；

S5. 利用训练好的模型提取特征进行检索匹配

本实施例中，S1.具体过程如下：本发明利用人体姿态估计中常用的语义分割算法SCHP，使用LIP数据集的预训练模型预先获得对应图像的部件语义分割图像，获得对应图像的20个人体部件图：“背景”、“帽子”、“头发”、“手套”、“太阳镜”、“上衣服”、“裙子”、“外套”、“袜子”、“裤子”、“连衣裤”、“围巾”、“裙子”、“脸”、“左臂”、“右臂”、“左腿”、“右腿”、“左鞋”、“右鞋”。将这20个部件融合后分为：衣物、非衣物，并且将衣物部分进行屏蔽，非衣物部分不变，利用融合后的标签定位到衣物区域，并生成相应的二值化掩码，并且与原图像进行元素间的点乘操作，以此来屏蔽衣物信息，从而获得一个服装区域被掩盖的图像。将衣物屏蔽图输入到骨干网络中，用来提取衣物外观脱敏的泛化特征，骨干网络使用VisionTransformer网络模型，在ImageNet数据集进行预训练。

本实施例中，S2.具体过程如下：

S201.将衣物屏蔽图输入人体姿态估计网络，姿态估计模型使用HR-Net，并且在COCO数据集上进行预训练，给定一个衣物屏蔽的行人图像m，以通过泛化提取特征模块vit模型，其经过与原图特征融合后的特征

、姿态估计模型得到其特征和热力图/>

，使用输入通道为17，输出通道为1，卷积核大小为1*1的卷积CONV对热力图进行通道降维得到全局热力图特征/>

，得到17个人体骨架点热力图，将这17个骨架点热力图/>

按照人体部位进行通道融合，组合成7个局部热力图即头/>

、上半身/>

、下半身/>

、左胳膊/>

、右胳膊/>

、左腿/>

及右腿/>

和1个全局热力图即17个骨架点的组合，并且将这8个热力图与第1步提取的泛化全局特征进行融合得到人体的非衣物局部特征；

S202.将人体的非衣物局部特征作为图卷积输入节点，预先设定的人体之间的关系做为边，让图卷积模型去学习更多人体部位之间的高级语义,具体公式如下：

，其中/>

人体的局部特征，/>

是人体全局特征，CONV进行了一次输入通道数17，输出通道数1，卷积核大小为1*1的卷积操作，/>

为平均池化操作，/>

为外积，/>

为泛化特征，/>

全局热力图特征，

S203.将人体的局部特征和人体高级语义特征进行融合，融合得到的特征去计算分类损失，具体如下：图使用

来表示, />

是全局人体高级语义特征，

是局部人体高级语义特征，使用人体之间的关系作为预先输入的边

，将得到的人体高级语义特征/>

、

与对应的局部特征及全局特征进行相加，将得到特征经过batchnormal层，将得到的特征经过FC层后得到分类特征f，对其进行分类损失的计算

上述过程具体公式如下：

，/>

为人体高级语义分类特征，/>

是人体全局高级语义特征，/>

是人体局部高级语义特征，⊕是将特征进行拼接，/>

人体的局部特征，/>

是人体的全局特征，FC是全连接层。bn是batchnormal层用来将全局特征和分类特征进行分离，

本实施例中，S3具体过程如下：

S301.一张原图

作为泛化模型的输入，通过预训练的VisionTransformer网络进行特征提取，得到的特征与衣物屏蔽的泛化特征进行相加融合得到

；

S302将衣物屏蔽图片经过vit网络模型输出的特征与

加权相乘得到/>

即衣物屏蔽特征；

S303将原图经过vit网络输出的特征和

加权相乘，得到原图主导的泛化特征

；

采用上述方案目的是为了将

和/>

分别计算三元组损失，将这两个特征经过FC层后，分别去做分类损失。

本实施例中，S4体过程如下：

；

将Vision Transformer网络提取的衣物屏蔽图主导的全局特征与原图主导的全局特征

，使用三元组损失作为度量损失/>

；

本实施例中，整个网络的损失函数为：

，其中 />

和 />

，其中，B是输入的批次大小，/>

是样本/>

的真实标签，/>

表示样本/>

的预测标签，/>

是三元组损失，公式如下

，/>

分别为从/>

是边界超参数，用来控制类内间距和类间间距的边界值，候选三元组由距离最远的正样本对和距离最近的负采样对构建，即最难辨别的正样本对和负样本对，每个批次训练P个类别，每个类别K张图像，从而能够拉近类间的距离，拉远类外的距离；

是余弦似度和最大池化的损失函数，目的是为了提取衣物屏蔽图和原图的共有特征而设计的损失函数，公式如下：/>

，其中/>

，这个损失函数是一个基于余弦相似度和最大池化的损失函数，计算了两个特征之间的余弦相似度，并选择最大值作为损失函数的值，使得模型可以更好地学习到两个特征之间的关系。因为余弦相似度的值范围在 [-1,1]，所以该损失函数的取值范围为 [0,2]，并且当余弦相似度最大时取到最小值0，当余弦相似度最小时取到最大值。这种设计可以保证损失函数的值始终为正，并且当余弦相似度越大，损失函数的值越小，使得模型可以更好地优化。同时，该损失函数对梯度下降不会产生影响，因为它只是一个单调函数，不会改变损失函数的梯度方向。最大余弦相似度可以保证两个特征之间的相似度尽可能的高，即使其他部分的相似度较低。这是因为在进行最大池化操作后，只有最大值被保留下来，其他的相似度被忽略掉了，这样可以减少不相关的相似度对损失函数的影响，使损失函数更加关注两个特征之间最重要的相似度部分。

本实施例中，S5具体过程如下：

，/>

为两张输入图像，/>

为通过网络前向传播得到的它们对应的特征向量；

为了证明本发明的有效性，在公开的换衣行人重识别数据集PRCC和NKUP上进行了实验。实验的评价使用的是mAP和rank-1。其中，mAP表示所有被检索模型的检索平均准确率，rank-1表示第一位命中。

不同算法与本发明方法的性能比较下表1所示，可以看出，本发明提出的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法具有优良的性能。

表1 不同算法与本发明方法在PRCC和NKUP数据集处理结果

。

上述虽然结合附图对发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于衣物屏蔽网络的人体高级语义换衣行人重识别方法，其特征是，包括以下几个步骤：

S3. 通过Vision Transformer网络模型对人物特征进行提取；

S4. 联合损失函数约束网络进行训练

在网络中设置两条链路，第一条链路学习与衣物无关的人体局部特征和高级语义特征，第二条链路学习图片的全局特征；损失函数分为两部分，一部分是人体局部特征和高级语义特征的分类损失，另一部分是Vision Transforme所提取的全局特征做三元组损失，让其作为度量损失，用于拉近类内特征距离，拉远类间特征距离，对全局损失进行全连接层后的特征做分类损失，三者损失相加进行联合训练；

S5. 利用训练好的模型提取特征进行检索匹配

将待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

2.根据权利要求1所述的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法，其特征是，S2具体过程如下：

S202.将人体的非衣物局部特征作为图卷积输入节点，预先设定的人体之间的关系做为边，让图卷积模型去学习更多人体部位之间的高级语义，具体公式如下：