CN112861691B

CN112861691B - 基于部位感知建模的遮挡场景下的行人重识别方法

Info

Publication number: CN112861691B
Application number: CN202110139873.0A
Authority: CN
Inventors: 张天柱; 张勇东; 李昱霖; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-09-09
Anticipated expiration: 2041-01-29
Also published as: CN112861691A

Abstract

本发明提供了一种基于部位感知建模的行人重识别方法，包括以下步骤：获取行人图像；对所述行人图像进行特征提取和降维；将处理后的图像特征输入到基于图片上下文信息的Transformer编码器，经过第一处理后得到图像全局特征的行人特征；将非全局特征的行人特征输入基于行人部位原型的Transformer解码器，经过第二处理后得到行人部位特征；将所述行人部位特征与所述全局特征的行人特征连接在一起作为最终的行人特征表示，进行行人图像的检索与匹配，实现行人重识别。通过这样的设计，该方法可以鲁棒的实现行人可见部位的定位，并且在遮挡的场景下具有较好的性能表现。

Description

基于部位感知建模的遮挡场景下的行人重识别方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于部位感知建模的遮挡场景下的行人重识别方法。

背景技术

行人重识别是一项跨摄像头跨场景下搜寻与匹配目标行人的技术。行人重识别技术可以与行人检测、行人跟踪技术相结合，在视频监控、智能安防、刑事侦查等方面有着广泛应用。

传统的行人重识别方法大多假设行人图像包含了目标行人的整个身体。然而在现实场景中(例如商场、地铁站)进行行人重识别时，行人的遮挡问题是不可避免的。因此，设计有效的模型去解决遮挡场景下的行人重识别问题是十分必要的。

目前的遮挡场景下的行人重识别方法可以归为三类。基于手工分块的方法直接将行人特征进行水平分块，将每一块的特征作为行人某个部位的特征。但是这样的手工分块比较粗略，容易受到背景遮挡的影响。基于额外语义模型的方法，往往会使用一个预训练好的人体分割模型或者姿态估计模型去得到行人部位的信息。然而，由于不同任务的训练集之间存在差别，这些模型在行人重识别数据集中的表现不够稳定，很容易引入背景噪声。基于注意力机制的方法通常会设计注意力机制去使得模型注意到行人的部位。

在实现本发明构思的过程中，发明人发现相关技术中至少存在如下问题：现有的方法由于没有具体的行人部位的位置信息，这些方法很容易只关注到最具有判别力的区域，而忽视了其它对行人重识别问题有意义的信息，因此，现有技术的方法存在着遮挡场景下行人部位不对齐的问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于部位感知建模的遮挡场景下的行人重识别方法，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，本发明提供了一种基于部位感知建模的遮挡场景下的行人重识别方法，包括以下步骤：

包括以下步骤：

获取行人图像；

对所述行人图像进行特征提取和降维；

将处理后的图像特征输入到基于图片上下文信息的Transformer编码器，经过第一处理后得到图像全局特征的行人特征；

将非全局特征的行人特征输入基于行人部位原型的Transformer解码器，经过第二处理后得到行人部位特征；

将所述行人部位特征与所述全局特征的行人特征连接在一起作为最终的行人特征表示，进行行人图像的检索与匹配，实现行人重识别。

其中，所述获取行人图像是在遮挡场景下进行的。

其中，所述特征提取是通过ResNet-50网络实现的。

其中，所述降维是通过1×1的卷积实现的。

其中，所述第一处理包括：

根据降维后的图像特征F＝[f₁；f₂；…；f_hw]，使用全连接层将空间特征f_i、f_j映射到不同嵌入空间，得到Q_i、K_j、V_j；

计算Q_i、K_j之间的相似度β_i，j，对β_i，j进行归一化得到归一化的自注意力权重s_i，j；

使用自注意力权重s_i，j对V_j进行空间位置上的加权求和，得到更新的空间特征

对所有空间位置进行上述操作得到

将

通过一个两层全连接层的神经网络FFN，得到最终的输出图像特征F^att，并对F^att进行全局平局池化得到全局特征表示f^g。

其中，所述第一处理过程用公式表示如下：

Q_i＝f_iW^Q，K_j＝f_jW^K，V_j＝f_jW^V

f^g＝GAP(F^att)。

其中，所述第二处理包括：

根据解码器输入的可学习的行人部位原型

以及编码器输出的图像特征

使用全连接层将行人部位原型

空间特征

映射到不同的特征空间，得到Q_i、K_j、V_j；

计算Q_i、K_j之间的相似度β_i，j，对β_i，j进行归一化得到归一化的注意力权重m_i，j；

使用注意力权重m_i，j对V_j进行空间位置上的加权求和，得到对应的行人部位特征

将

通过一个两层全连接层的神经网络FFN，得到最终的行人部位特征

其中，所述第二处理过程用公式表示如下：

其中，所述基于图片上下文信息的Transformer编码器在学习的过程中使用分类损失与三元组损失进行约束。

其中，所述基于行人部位原型的Transformer解码器在学习的过程中使用分类损失、三元组损失及多样性损失进行约束。

基于上述技术方案可知，本发明的行人重识别方法相对于现有技术至少具有如下有益效果的一部分：

与现有方法相比，该方法不依赖于额外的语义模型，整个网络可以被端到端(编码器-解码器)训练；该方法能够更好的捕获图片的上下文信息，因此对现实场景中的背景杂乱、摄像机的视角变化等挑战具有更好的鲁棒性；该方法通过设计多个行人部位原型关注于行人不同的部位，并通过多样性损失约束部位原型的学习。通过这样的设计，该方法可以鲁棒的实现行人可见部位的定位，并且在遮挡的场景下具有较好的性能表现。

附图说明

图1是本发明实施例提供的基于部位感知建模的遮挡场景下的行人重识别方法的流程图；

图2是本发明实施例提供的部位感知的Transformer模型框架。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提出一个可以端到端训练的模型，并且可以根据行人身份信息自适应的关注到行人不同部位，从而解决遮挡场景下行人部位不对齐的问题。本发明的目的在于根据输入的目标行人图像，判断不同监控摄像头下出现的行人图像是否属于同一行人。

如图1所示，为基于部位感知建模的遮挡场景下的行人重识别方法的流程图，具体包括：

获取行人图像；

对所述行人图像进行特征提取和降维；

在进一步的实施例中，所述获取行人图像是在遮挡场景下进行的。

在进一步的实施例中，所述特征提取是通过ResNet-50网络实现的。

在进一步的实施例中，所述降维是通过1×1的卷积实现的。

在进一步的实施例中，基于图片上下文信息的Transformer编码器进行的第一处理包括：

(1)根据降维后的图像特征F＝[f₁；f₂；…；f_hw]，使用全连接层将空间特征f_i、f_j映射到不同嵌入空间，得到Q_i、K_j、V_j；

(2)计算Q_i、K_j之间的相似度β_i，j，对β_i，j进行归一化得到归一化的自注意力权重s_i，j；

(3)使用自注意力权重s_i，j对V_j进行空间位置上的加权求和，得到更新的空间特征

对所有空间位置进行上述操作得到

(4)将

在进一步的实施例中，基于行人部位原型的Transformer解码器进行的第二处理包括：

(1)根据解码器输入的可学习的行人部位原型

以及编码器输出的图像特征

使用全连接层将行人部位原型

空间特征

映射到不同的特征空间，得到Q_i、K_j、V_j；

(2)计算Q_i、K_j之间的相似度β_i，j，对β_i，j进行归一化得到归一化的注意力权重m_i，j；

(3)使用注意力权重m_i，j对V_j进行空间位置上的加权求和，得到对应的行人部位特征

(4)将

在进一步的实施例中，基于图片上下文信息的Transformer编码器在学习的过程中使用分类损失与三元组损失进行约束。

在进一步的实施例中，基于行人部位原型的Transformer解码器在学习的过程中使用分类损失、三元组损失及多样性损失进行约束。

如图2所示，为部位感知的Transformer模型框架，该模型由两部分构成：(1)基于图片上下文信息的Transformer编码器模块；(2)基于行人部位原型的Transformer解码器模块。

(1)基于图像上下文信息的Transformer编码器模块。对于输入的行人图像，首先经过通过ResNet-50主干网络提取图像的特征，再经过1×1的卷积降低特征的维度。输入transformer编码器的图像特征为：

F＝[f₁；f₂；…；f_hw]

在自注意力层中，使用自注意力机制，使得图像中的每个像素都可以捕获图像的上下文信息。整个自注意力层的操作可以公式表达为：

Q_i＝f_iW^Q，K_j＝f_jW^K，V_j＝f_jW^V

最后，针对得到的特征F^att，使用全局平均池化得到图像的全局特征：

f^g＝GAP(F^att)

(2)基于行人部位原型的Transformer解码器模块。首先，为了学习行人不同部位的特征，引入了K个可学习的行人部位原型

每个原型关注于行人一个区域，如头部、身体、腿部等。这些部位原型通过一个自注意力层，使得每个原型都能捕获其余行人部位的上下文信息，得到更新的行人部位原型

之后，将行人特征F^att和行人部位原型

输入到跨注意力层中，可以得到K个代表行人部位的mask。最后，通过加权池化可以得到K个部位感知的行人特征。整个过程可以公式表示为：

其中

即为最终的部位感知的行人特征。最后，将行人部位特征与全局特征的行人特征连接在一起作为最终的行人特征表示，进行行人图像的检索与匹配：

此外，还包括编码器和解码器在训练过程中涉及到的损失函数。根据行人的身份信息，使用分类损失与三元组损失分别约束编码器与解码器的学习。此外，为了使得学习到的行人部位原型关注于不同的行人部位，还设计了一个多样性损失：

最终模型的损失函数定义为：

本发明通过Transformer模型学习行人部位感知的特征，广泛应用于广泛应用于安防系统、智慧城市、自动驾驶等场景。在实施上，可以以软件的方式安装于前端设备上，提供实时行人图像匹配；也可以安装于公司的后台服务器，提供大批量行人图像检索与匹配结果。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于部位感知建模的行人重识别方法，其特征在于，包括以下步骤：

获取行人图像，其中，所述获取行人图像是在遮挡场景下进行的；

对所述行人图像进行特征提取和降维；

将所述行人部位特征与所述全局特征的行人特征连接在一起作为最终的行人特征表示，进行行人图像的检索与匹配，实现行人重识别；

其中，所述第一处理包括：

(1)根据降维后的图像特征F＝[f₁；f₂；...；f_hw]，使用全连接层将空间特征f_i、f_j映射到不同嵌入空间，得到Q_i、K_j、V_j；

对所有空间位置进行步骤(2)和步骤(3)的操作得到

(4)将

通过一个两层全连接层的神经网络FFN，得到最终的输出图像特征F^att，并对F^att进行全局平局池化得到全局特征表示f^g；

所述第一处理过程用公式表示如下：

Q_i＝f_iW^Q，K_j＝f_jW^K，V_j＝f_jW^V

f^g＝GAP(F^att)；

所述第二处理包括：

根据解码器输入的可学习的行人部位原型

以及编码器输出的图像特征

使用全连接层将行人部位原型

空间特征f_i ^att、f_j ^att映射到不同的特征空间，得到Q_i、K_j、V_j；

将

通过一个两层全连接层的神经网络FFN，得到最终的行人部位特征f_i ^part；

所述第二处理过程用公式表示如下：

K_j＝f_j ^attW^K，V_j＝f_j ^attW^V；

其中，Q表示查询矩阵；K表示键，用来计算注意力权重；V表示值，用来跟注意力权重相乘得到最终的输出；W^Q、W^K、W^V为三个不同的可学习参数矩阵；T为数学名称转置；K^T表示K的转置矩阵；

表示比例因子；Att为Attention的缩写表示注意力机制；hw×d表示hw×d维的向量；GAP是全局平均池化操作的缩写。

2.根据权利要求1所述的行人重识别方法，其特征在于，所述特征提取是通过ResNet-50网络实现的。

3.根据权利要求1所述的行人重识别方法，其特征在于，所述降维是通过1×1的卷积实现的。

4.根据权利要求1所述的行人重识别方法，其特征在于，所述基于图片上下文信息的Transformer编码器在学习的过程中使用分类损失与三元组损失进行约束。

5.根据权利要求1所述的行人重识别方法，其特征在于，所述基于行人部位原型的Transformer解码器在学习的过程中使用分类损失、三元组损失及多样性损失进行约束。