CN113158739A

CN113158739A - 基于注意力机制的孪生网络解决换装行人重识别的方法

Info

Publication number: CN113158739A
Application number: CN202110116022.4A
Authority: CN
Inventors: 赖剑煌; 黄思恩; 冯展祥
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-07-23
Anticipated expiration: 2041-01-28
Also published as: CN113158739B

Abstract

本发明公开了一种基于注意力机制的孪生网络解决换装行人重识别的方法，包括由视觉流和轮廓流组成的双流孪生网络结构，所述方法包括以下步骤：分别输入原始图和轮廓图；分别对原始图和轮廓图采用ResNet‑50作为骨干网络提取特征；将提取到的特征分别送入注意力分支和全局分支进行处理；将两个经过处理后的流的总输出进行特征融合，获得最后的输出。其中，整个过程受损失函数模块引导和约束。本发明优势在于整个网络架构是一个双流体系结构，同时利用视觉特征和轮廓特征，并利用视觉特征和轮廓特征相结合，去学习既具有区别性又鲁棒稳定的特征，在换装行人重识别领域中非常有价值。

Description

基于注意力机制的孪生网络解决换装行人重识别的方法

技术领域

本发明属于行人重识别研究技术领域，特别涉及基于注意力机制的孪生网络解决换装行人重识别的方法。

技术背景

针对特定行人活动轨迹的跟踪、定位和检索是视频侦查中的关键技术，是模式识别及计算机视觉中重要的研究课题，受到国内外学者的广泛关注。分布式多摄像机监视系统的基本任务是把出现在不同位置和时刻的行人关联起来，我们把这种跨摄像头下针对特定行人对象的视频内容识别检索任务称为行人重识别，即判断某个摄像头下出现的行人是否出现在其他摄像头下。随着智能视频监控的发展，行人重识别已成为热门研究主题，近年来取得了长足的进步。研究人员提出了许多方法来改善该技术的性能，包括通过度量学习，手工特征和深度学习的应用。随着深层网络的发展和大规模行人重识别相关数据集的出现，该领域的发展在技术上取得了令人瞩目的突破。但是，现有的研究基于行人在不同摄像设备上穿着相同衣服的假设。此假设可能无法在实际应用中使用。由于某些原因，一个人在不相交的监视设备上移动时可能会改变其穿着。例如，一个人可能因为天气的突然变化而穿衣服/脱衣服。随着时间流逝，人们显然会对衣服着装进行更换。

换装行人重识别，是行人重识别领域近两年新出现的一个分支研究方向。与传统的行人重识别任务不同，换装行人重识别任务判断的是换装后的行人是否出现在其他摄像头下。由于换装行人重识别任务是近几年兴起的的研究方向，针对该问题的研究和方法并不多。Wan et al.通过强调人脸并将全局信息与部分特征相结合来解决。Li et al. 提出了一种利用生成对抗网络提取人的身体形态特征的方法。Qian et al.通过消除对模型对衣服信息的依赖性，并使用身体形状嵌入模块获取人体结构性特征来解决。Yang etal.引入了基于学习的空间极坐标变换层，以从极坐标空间中的人体轮廓中学习身体特征，从而解决问题。

如果仅使用面部特征很弱，因为在许多情况下(例如低分辨率或高曝光)面部可能会变得模糊，从而大大降低方法的使用性能。如果仅使用轮廓图像提取特征，或者仅使用人体形状特征，尽管草图轮廓特征和身体形状特征对于交叉衣服的变化是不变的，但遗漏了视觉颜色信息，这会导致方法在传统行人重识别(行人衣着不变)的使用性能较差。此外，原始视觉图像包含丰富的判别信息，完全忽略这些信息也会对判别带来不好的影响，从而造成性能一定程度上的降低

发明内容

鉴于现有技术的缺陷，本发明旨在于提供一种基于注意力机制的孪生网络解决换装行人重识别的方法，缓解行人重识别中行人换衣服问题的同时，保持与行人身份相关的特征。

为了实现上述目的，本发明采用的技术方案如下：

基于注意力机制的孪生网络解决换装行人重识别的方法，包括由视觉流和轮廓流组成的双流孪生网络结构，所述方法包括以下步骤：

S1分别输入原始图和轮廓图；

S2分别对原始图和轮廓图采用ResNet-50作为骨干网络提取特征；

S3将提取到的特征分别送入注意力分支和全局分支进行处理；

S4将两个经过处理后的流的总输出进行特征融合，获得最后的输出。

其中，整个过程受损失函数模块引导和约束。

需要说明的是，所述原始图的特征包括对象的其他身体部位，面部和头发等的颜色信息特征；所述轮廓图的特征包括行人轮廓的身体形状特征。

需要说明的是，所述注意力分支由位置注意力模块和通道注意力模块组成，将把ResNet-50的第五层输出经过一个还原层的结果作为输入，分别送进位置注意力模块和通道注意力模块；最后把位置注意力模块和通道注意力模块的输出与输入进行特征融合作为整个注意力分支的总输出。

需要说明的是，所述还原层由线性层，Batch Normalization层， ReLU激活层和dropout层构成。

需要说明的是，所述位置注意力模块包括：对提取特征后的原始输入特征图A，经过由Batch Normalization层和ReLU激活层组成卷积层得到特征图B,特征图C,特征图D。分别对特征图B,特征图C,特征图D进行重组，然后对特征图B进行转置；再将特征图B和特征图C进行一次矩阵乘法后，经过Softmax运算得到位置注意力图S，将注意力图S与特征图D进行一次矩阵乘法得到基于注意力的权重图，将权重图与原始输入进行逐元素求和运算得到最终的输出特征图 E。

需要说明的是，所述通道注意力模块包括：对提取特征后的原始输入特征图A进行重组，然后对重组特征图A以及重组转置特征图A进行一次矩阵乘法，经过Softmax运算得到注意力图X；将注意力图X与特征图A进行一次矩阵乘法得到基于注意力的权重图，将权重图与原始输入进行逐元素求和运算得到最终的输出特征图E1。

需要说明的是，所述损失函数模块包括交叉熵损失，换装一致性约束以及权重的正则化损失；其中，交叉熵损失与标签平滑处理结合起来作为一个损失函数，与引导网络学习更具区分性的特征。

需要说明的是，所述换装一致性约束为缩小换衣服时从同一行人提取的特征之间的距离；其中，换装一致性约束计算如下：

其中，采用余弦约束来缩小跨衣服差异并学习跨衣服不变表示； f代表着行人i在穿着不同衣服A,衣服B时的特征；N代表的是类的总数：

需要说明的是，还包括在整个网络对权重进行正交正则化，以减少跨不同层的特征相关性并增强深度网络的表达能力；整个网络的总损失函数由交叉熵损失，换装一致性约束损失和权重正则化损失组成，表示如下：

L＝αL_xent+βL_O.W+γL_CCIC

其中，α，β，γ在公式中作为超参数调整每个损失函数的权重和影响。

本发明的有益效果在于：整个网络架构是一个双流体系结构，包括视觉流和草图流，可同时利用视觉特征和轮廓特征。原始视觉输入图像包含丰富的信息，用于提取针对不同行人的判别特征，而轮廓草图中包含的轮廓信息对于更换的衣服是不变的。因此，将视觉特征和轮廓特征相结合，去学习既具有区别性又鲁棒稳定的特征，在换装行人重识别领域中非常有价值。此外，还将注意力模块整合到网络中，使得网络更加关注包含与身份相关的特征的区域，这些特征随衣服的变化而不变，而忽略了受衣服影响的特征。值得注意的是，本发明引入了位置注意力模块和通道注意力模块的注意力机制来学习广泛的注意力信息。最后，提出了一种新颖的换装一致性约束，以缩小穿着不同衣服的行人特征之间的差异；同时，实验结果证明，该方法可有效改善换装行人重识别模型的性能，并且优于最新方法。

附图说明

图1为本发明方法的网络结构图；

图2为本发明注意力分支的框架图；

图3为图2中位置注意力模块的结构示意图；

图4为图2中通道注意力模块的结构示意图；

图5为本发明实际应用时的分析参考图。

具体实施例

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

如图1所示，本发明为基于注意力机制的孪生网络解决换装行人重识别的方法，包括由视觉流和轮廓流组成的双流孪生网络结构，所述方法包括以下步骤：

S1分别输入原始图和轮廓图；

其中，整个过程受损失函数模块引导和约束。

需要说明的是，所述通道注意力模块包括：对提取特征后的原始输入特征图A进行重组，然后对重组特征图A以及重组转置特征图 A进行一次矩阵乘法，经过Softmax运算得到注意力图X；将注意力图X与特征图A进行一次矩阵乘法得到基于注意力的权重图，将权重图与原始输入进行逐元素求和运算得到最终的输出特征图E1。

L＝αL_xent+βL_O.W+γL_CCIC

实施例

如图1所示，整个网络是一个双流的孪生网络结构，由视觉流和轮廓流组成。对于两种不同的输入，分别采用ResNet-50作为骨干网络提取特征。此外，还对权重进行了正交正则化。提取到的特征分别送入两个分支：注意力分支和全局分支，然后将两个分支的输出进行融合。最后将两个流的总输出进行特征融合，得到最后的输出。整个训练过程受损失函数模块引导和约束。

换装行人重识别问题的主要挑战在于因换衣服引起的行人外观穿着变化。换装后行人的视觉特征会变得很不同，这就导致了传统的行人重识别模型方法性能大大下降。因为这些方法更加关注衣服相关的视觉线索信息，像衣服的颜色和条纹等。因此网络将轮廓图像作为输入图像之一，以提取鲁棒的身体形状特征嵌入，因为轮廓特征对于颜色变化是不变的。尽管轮廓特征对衣服或颜色的变化具有鲁棒性，但是轮廓草图中缺少许多与身份相关的特征，例如，身体的颜色，而这对于提取辨别特征非常重要。此外，颜色信息对于传统的行人重识别任务至关重要。仅使用轮廓图像作为输入对于学习传统行人重识别的具有区别性特征是不全面的。因为通用模型应该既适用于换装行人重识别，也要在常规的行人重识别(衣服不变)有较好的性能效果。考虑到上述分析，采用原始视觉图像作为另一种流(即视觉流)的输入，以学习与身份相关的特征，包括其他身体部位，面部和头发等的特征。因为轮廓特征和视觉特征是互补的，所以可以通过将这些特征集成到统一的双流网络体系结构中来获得更强大的特征表示。

如图2所示，整个注意力模块主要是分成三个支路，分别由位置注意力模块和通道注意力模块组成。把ResNet-50的第五层输出经过一个还原层的结果作为输入，分别送进位置注意力分支和通道注意力分支。还原层由由线性层，Batch Normalization层，ReLU激活层和 dropout层构成。最后把两个分支的输出与输入进行特征融合作为整个注意力分支的总输出。

作为共识，深度卷积神经网络提取的特征包含语义信息。在换装行人重识别问题中，人在很大程度上被衣服覆盖，这意味着行人的大多数特征在空间范围上都与衣服有关。衣服中的像素共享相似的语义上下文，例如颜色，纹理，形状等。为消除衣服的影响，我们采用位置注意力模块来捕获和收敛具有相似语义信息的像素，以便网络可以专注于从中提取特征与衣服无关的区域。图3是位置注意力模块的结构示意图。对于输入特征图A，经过由Batch Normalization层和 ReLU激活层组成卷积层得到特征图B,C,D。分别对B,C,D进行重组，然后对B进行转置。B和C进行一次矩阵乘法后，经过一次Softmax 运算得到位置注意力图S，计算公式如下：

注意力图S中的每个元素代表的是不同位置像素(j,i)之间的影响。从某称程度上来说，可以把注意力图S看作是像素关联矩阵。注意力图S与D进行一次矩阵乘法得到基于注意力的权重图，将权重图与原始输入进行逐元素求和运算得到最终的输出特征图E，计算如下：

α是一个可学习的权重超参数，在网络训练过程中调整注意力模块的影响。

与位置注意力模块相类似，通道注意力模块是用来聚合不同通道中那些具有相似语义信息的特征。它的结构也与上面的位置模块相类似，详见图4。不同的是，直接用原始输入的特征图计算注意力图X。对输入特征图A进行重组，然后对重组特征图A以及重组转置特征图 A进行一次矩阵乘法，就能得到注意力图X，计算公式如下：

注意力图X代表的是每个通道(j,i)两两之间的影响，相当于一个通道关联矩阵。最终的输出特征E的计算公式如下：

β是一个可学习的权重超参数，在训练过程中调整通道注意力模块对网络的影响。

进一步的技术方案：损失函数模块整个损失函数模块主要由三个损失函数构成，分别是：交叉熵损失，换装一致性约束以及权重的正则化损失。通过这三个损失函数的引导和约束，整个模型学习到的特征更具区分性以及鲁棒性。

本发明将交叉熵损失与标签平滑处理结合起来作为一个损失函数，与引导网络学习更具区分性的特征。与直接使用交叉熵损失不同，对于正样本，结合标签平滑的损失给出的预测值不再是1，对于负样本的预测值也不再是简单的0，而是受一个小的正数∈影响和控制。正样本的预测值为∈，负样本的为1-∈。

y表示输入图像的Softmax输出，N代表的是类的总数，即行人的数。

不同衣服之间的视觉差异是换装行人重识别的主要挑战。为了解决上述问题，我们设计了一种新颖的约束条件，称为换装一致性约束 (CCIC，Cross-Clothes InvariantConstraint)，以缩小换衣服时从同一行人提取的特征之间的距离。约束旨在使从同一行人提取的具有不同衣服的特征在特征空间中尽可能地接近。在这里，我们采用余弦约束来缩小跨衣服差异并学习跨衣服不变表示。f代表着行人i在穿着不同衣服A,衣服B时的特征，换装一致性约束计算如下：

本发明在整个网络对权重进行正交正则化，以减少跨不同层的特征相关性并增强深度网络的表达能力。因此，整个网络的总损失函数由交叉熵损失，换装一致性约束损失和权重正则化损失组成，表示如下：

L＝αL_xent+βL_O.W+γL_CCIC

α，β，γ在公式中作为超参数调整每个损失函数的权重和影响。

仿真实验：

PRCC是换装行人重识别的一个大规模数据集。它包含由三台摄像机捕获的221个行人的33698张图像，这些图像在衣服，照明，遮挡姿势和视点方面都有变化。此外，PRCC还包含了与原始输入图相应的轮廓草图图像。数据集分为训练集和测试集，分别包括150人和 71人特别地，测试集包含三个部分：A集，B集和C集，其中A集为查询集，而B，C集为图库集。B组包含不换衣服的图像，而C组包含换衣服的图像。

本发明提出的方法在这个数据集上的实验结果和性能与前人的方法相比较，达到了当前最优的结果。如下表所示，最后一行为本文提出解决方案。Rank-k，是一个测试指标，代表在第k次以内命中。行人重识别任务中，意味着与目标行人最相似的k个人脸中，成功命中(找到正确行人)的概率(和)。可以看到，不仅在换装行人重识别任务(下表中Cross Clothes结果)中，性能表现最好，而且在传统的行人重识别任务(下表中SameClothes结果)也有着很不错的表现。

进一步的，如图5所示，(a)，(b)和(c)分别是可视化的三个例子，三个不同的行人。对于每一个行人，Original代表的是原始的输入图像，即查询图像。Baseline代表的是基于ResNet-50没有引入注意力机制以及换装一致性约束的模型。AGS-Net则是本发明提出的有机结合原始输入图和轮廓图，基于注意力机制的模型方法。可以看到，由于行人在换装行人重识别问题中进行了衣服更换， baseline网络更加注意背景。虽然不受换装的影响，但是背景不包含任何身份信息，这会导致模型的分类性能不佳。而本发明提出的方法模型(AGS-Net)，引入了注意力机制，使得模型更加关注于包含丰富的身份信息的区域。这些信息例如衣服的腿部，手臂，头部，头发和身体形状等，对于衣物的更换具有鲁棒性，不受换装的影响。此外，本发明减少了对衣服的关注，并减轻了背景区域的影响。因此，所提出的方法在忽略衣服和背景的影响的同时，强调了与身份相关和换装不变的特征，性能表现更优。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变，而所有的这些改变，都应该包括在本发明权利要求的保护范围之内。

Claims

1.基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，包括由视觉流和轮廓流组成的双流孪生网络结构，所述方法包括以下步骤：

S1分别输入原始图和轮廓图；

其中，整个过程受损失函数模块引导和约束。

2.根据权利要求1所述的基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，所述原始图的特征包括对象的其他身体部位，面部和头发等的颜色信息特征；所述轮廓图的特征包括行人轮廓的身体形状特征。

3.根据权利要求1所述的基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，所述注意力分支由位置注意力模块和通道注意力模块组成，将把ResNet-50的第五层输出经过一个还原层的结果作为输入，分别送进位置注意力模块和通道注意力模块；最后把位置注意力模块和通道注意力模块的输出与输入进行特征融合作为整个注意力分支的总输出。

4.根据权利要求3所述的基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，所述还原层由线性层，Batch Normalization层，ReLU激活层和dropout层构成。

5.根据权利要求4所述的基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，所述位置注意力模块包括：对提取特征后的原始输入特征图A，经过由BatchNormalization层和ReLU激活层组成卷积层得到特征图B,特征图C,特征图D。分别对特征图B,特征图C,特征图D进行重组，然后对特征图B进行转置；再将特征图B和特征图C进行一次矩阵乘法后，经过Softmax运算得到位置注意力图S，将注意力图S与特征图D进行一次矩阵乘法得到基于注意力的权重图，将权重图与原始输入进行逐元素求和运算得到最终的输出特征图E。

6.根据权利要求4所述的基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，所述通道注意力模块包括：对提取特征后的原始输入特征图A进行重组，然后对重组特征图A以及重组转置特征图A进行一次矩阵乘法，经过Softmax运算得到注意力图X；将注意力图X与特征图A进行一次矩阵乘法得到基于注意力的权重图，将权重图与原始输入进行逐元素求和运算得到最终的输出特征图E1。

7.根据权利要求1所述的基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，所述损失函数模块包括交叉熵损失，换装一致性约束以及权重的正则化损失；其中，交叉熵损失与标签平滑处理结合起来作为一个损失函数，与引导网络学习更具区分性的特征。

8.根据权利要求7所述的基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，所述换装一致性约束为缩小换衣服时从同一行人提取的特征之间的距离；其中，换装一致性约束计算如下：

其中，采用余弦约束来缩小跨衣服差异并学习跨衣服不变表示；f代表着行人i在穿着不同衣服A,衣服B时的特征；N代表的是类的总数。

9.根据权利要求1所述的基于注意力机制的孪生网络解决换装行人重识别的方法，其特征在于，还包括在整个网络对权重进行正交正则化，以减少跨不同层的特征相关性并增强深度网络的表达能力；整个网络的总损失函数由交叉熵损失，换装一致性约束损失和权重正则化损失组成，表示如下：

L＝αL_xent+βL_O.W+γL_CCIC