CN114049531A

CN114049531A - 一种基于弱监督人体协同分割的行人再识别方法

Info

Publication number: CN114049531A
Application number: CN202111263138.7A
Authority: CN
Inventors: 赵才荣; 窦曙光
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-15

Abstract

本发明涉及计算机视觉领域，采用深度学习框架，具体涉及一种基于弱监督人体协同分割的行人再识别方法，包括以下步骤：1)将同一个行人的所有图像作为一批次送入到弱监督人体协同分割网络中，训练该网络得到行人图像对应的伪像素级标签；2)构建多任务网络框架包含骨干网络，行人再识别子网络和人体分割子网络，将行人图像和伪像素级标签送入多任务网络中，得到图像特征，前景特征和人体部分特征；3)交替训练人体协同分割网络和多任务网络得到最优的伪像素级标签和多任务网络模型，将测试集中的行人图像送入多任务网络中，只使用前景特征和人体部分特征来计算图像间的距离，进行行人特征匹配。本发明对于遮挡场景更加鲁棒，更加适合于现实中复杂的场景。

Description

一种基于弱监督人体协同分割的行人再识别方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种基于弱监督人体协同分割的行人再识别方法。

背景技术

在现实场景下，遮挡问题经常发生。比如，在人群场景下，目标行人可能被无关行人遮挡。现在大多数行人再识别方法都没有考虑遮挡问题，尽管这些方法在完整的行人再识别数据集上表现出优秀的性能，但在实际场景下，这些方法的性能会大幅下降。

为了解决遮挡问题，一些基于对齐的工方法被提出。在基于对齐的方法中，像素级对齐是最精细的对齐方法。然而基于像素级对齐的行人再识别方法大多数依赖于预训练的分割或者人体解析模型来获得额外的语义信息。然而，现有的行人再识别数据集只包含图像级的标签，而没有像素级的标签。这些语义模型在人工标注带有像素级标签的数据集上训练，在行人再识别数据集上推理。由于跨域和遮挡问题，以上方法在遮挡行人再识别数据集上提升有限。基于此，本发明提供一种基于弱监督的人体协同分割网络仅利用图像级标签来获取行人图像的语义信息，从而指导行人再识别在像素级进行有效地对齐，可以较好的解决遮挡问题。

发明内容

为了解决现实场景中常出现的遮挡问题，即为了有效对齐行人图像的特征，提高对遮挡的鲁棒行，本发明提供一种采用一种基于弱监督人体协同分割的行人再识别方法。

本发明的目的可以通过以下技术方案来实现：

一种一种基于弱监督人体协同分割的行人再识别方法，包括以下步骤：

1)构建弱监督人体协同分割网络，将同一个身份的行人图像作为一批次送入到弱监督人体协同分割网络中得到行人图像对应的伪像素级标签；

2)构建多任务网络框架包含骨干网络，行人再识别子网络和人体分割子网络，将行人图像和伪像素级标签送入多任务网络中，得到图像特征，前景特征和人体部分特征；

3)交替训练人体协同分割网络和多任务网络得到最优的伪像素级标签和多任务网络模型，将测试集中的行人图像送入多任务网络中，只使用前景特征和人体部分特征来计算图像间的距离，进行行人特征匹配。

所述的步骤1)具体包括以下步骤：

11)为了在仅有图像级标签下得到行人图像的像素级标签，构建弱监督人体协同分割网络。该网络包含一个编码器和一个解码器，编码器为在ImageNet上预训练的分类网络，解码器为构建的全卷积神经网络。解码器由三个基础块与一层预测层组成，其中基础块由卷积核为3×3大小的卷积层，批次正则化(BN)层和非线性激活函数(ReLU)组成。预测层为卷积核为1×1的卷积层，该卷积层的卷积核数量为分割网络预测的类别数量，记为C′。

12)将大小为h×w的同一身份的行人图像组记为

其中N为图像组中图像的数量，i和j为该像素在第k图像中的位置。将X送入人体协同分割网络中，输出大小为h/4×w/4×C′的预测图，其中每个像素对应的预测向量为1×1×C′。使用argmax函数，得到每个像素的伪类别

13)为了利用行人图像中已有的一致性信息，构建三种一致性损失函数。①局部空间一致性损失：在局部空间下，相邻的像素应该具有同一标签。为了保证分割结果的局部空间一致性，本发明最大化在一个R×R的窗口内中心像素的预测向量与邻近像素的相似性，具体公式如下所示：

其中

为中心像素的预测向量,y_s(s＝1,…,S)为R×R领域内邻近像素的预测向量，‖·‖_p为p范数。在本发明中，R设置为3。

②语文一致性损失：对于同一身份行人在不同的摄像头视角下具有相同的语义的像素应该被预测为同一标签。同一身份行人在不同的摄像头视角下的人体区域是不变的，而分割网络会将具有相同的着色和纹理的像素分配为同一标签。基于以上，本发明将最大化不同图像间具有相同语义的像素的预测向量，具体公式如下所示：

其中M是具有相同身份的图像组中所有像素的数量，y是像素的预测向量，pl是由预测向量通过argmax函数得到的伪标签。

③背景一致性损失：同一身份行人图像的背景应该被预测为同一标签。由于不同的图像的背景是不同的，语义一致性损失无法保证背景一致性。在不同摄像头视角下，行人的光照和姿态等变化较大。而在同一摄像头下，除了背景偏差外，行人的变化是很小的，即摄像机视角内相似性。基于摄像机视角内相似性，本发明最大化同一摄像机视角下相邻图像的预测向量的相似性，具体公式如下所示：

其中

为第k张图像的预测向量，k1和k2为同一摄像机视角下的相邻图像。综上所述，人体协同分割网络(Human Co-parsing Network,HCNet)的优化目标函数为：

L_HCNet＝L_sem+λ_LL_local+λ_BL_back

其中λ_L和λ_B为平衡权重。

14)以ImageNet上预训练的参数来初始化编码器中的参数，以Kaiming uniform来初始化解码器中的参数，通过人体协同分割网络输出预测向量，计算目标函数，通过反向传播来更亲解码器中的参数。重复以上步骤，直至人体协同分割网络输出的伪标签数量小于设计最小标签数m_L。

15)由于没有真实的像素级标签，为了输出伪标签所代表的具体类别，构建基于中心先验的标签重分配。在行人图像中，前景即行人及其私人物品一般位于图像的中心位置，而背景则位于图像的边缘位置，即中心先验。基于中心先验，将伪标签划分为前景和背景，再根据前景每一类伪标签的所有像素的平均高度，划分为C-1类。将重分配标签作为多任务网络的人体解析子网络的伪真实标签。

所述的步骤2)构建多任务网络，具体包括以下步骤：

21)构建多任务网络架构。骨干网络与人体协同分割网络的编码器相同，且权重共享。人体解析网络为一层卷积核大小为1×1卷积核数量为C的卷积层。行人再识别子网络的输入为骨干网络输出的深度特征和人体协同分割网络输出的语义信息。行人再识别子网络根据语义信息将深度特征找分为图像特征，前景特征和人体部分特征，最后将图像特征，前景特征和人体部分特征送入到三个不同的分类器得到图像预测向量，前景预测向量和人体部分预测向量。

22)构建多任务网络目标函数。使用交叉熵损失计算人体解析子网络的预测像素向量与人体协同分割网络输出的伪标签之间的损失，记为L_parsing。使用三元组损失与softmax交叉熵损失计算图像预测向量与真实行人标签之间的损失，记为L_Image。使用softmax交叉熵损失前景预测向量和真实行人标签之间的损失，记为L_Fore。使用softmax交叉熵损失人体部分预测向量和真实行人标签之间的损失，记为L_Parts。综上所述，多任务网络的优化目标函数为：

L＝L_Im _e+L_Fore+L_Parts+λ_hpL_parsing

其中λ_hp为平衡权重。

所述的步骤3)中具体步骤如下：

31)交替训练人体协同分割网络和多任务网络。整个框架训练时，每一次迭代分为两步，首先训练人体协同分割网络得到行人图像的像素级伪标签，再以像素级伪标签指导多任务网络学习，交替训练得到最优的模型。

32)在推理阶段，仅使用多任务网络。对于图像对(x₁,x₂),本发明仅使用前景特征和人体部分特征来计算距离，具体公式如下：

其中cos(·)为余弦距离，P_i＝1如果part_i为图像对共享可见的部分，否则为0，SV≤C-1为共享可见的数量。计算距离后，排序输出行人再识别结果。

与现有技术相比，本发明具有以下优点：

一、本发明无需使用额外模型来获取行人图像中的语义信息，仅使用行人再识别数据集中的图像级标签，构建弱监督语义分割模型来获取行人图像的伪像素级标签。

二、本发明挖掘人体图像及其对应人体解析图中的三种一致性属性并将其编码为三种损失函数，使语义分割模型学习三种一致性，从而产生较好的行人图像分割结果。

三、本发明提出了两个网络交替训练的框架，多任务网络精炼参数使得不同语义的特征之间差异更大，从而使得人体协同分割网络产生更好的分割结果来指导行人再识别子网络在像素级进行特征对齐。

四、本发明提供一种对于遮挡问题鲁棒的行人再识别系统，在现实场景下更具有应用价值。

附图说明

图1为本发明方法的系统流程图。

图2为本发明生成的行人图像分割结果与其他方法对比。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，具体如图1所示算法流程图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，但并不限定本发明。

步骤一：数据预处理。将行人再识别数据集中的训练集读取到内存中，进行预处理。具体实施如下：

利用Python编程语言将训练集中的行人图像读取到内存中，首先进行归一化处理，即将其像素值转化为均值为0，方差为1。再使用随机擦除，边界扩充等操作进行数据增强。最后将转化为Pytorch深度学习框架支持的数据格式。

步骤二：构建弱监督人体协同分割网络，将同一个身份的行人图像作为一批次送入到弱监督人体协同分割网络中得到行人图像对应的伪像素级标签。

具体实施如下：

(1)为了在仅有图像级标签下得到行人图像的像素级标签，构建弱监督人体协同分割网络。该网络包含一个编码器和一个解码器，编码器为在ImageNet上预训练的分类网络，解码器为构建的全卷积神经网络。解码器由三个基础块与一层预测层组成，其中基础块由卷积核为3×3大小的卷积层，批次正则化(BN)层和非线性激活函数(ReLU)组成。预测层为卷积核为1×1的卷积层，该卷积层的卷积核数量为分割网络预测的类别数量，记为C^′＝32。

(2)将大小为256×128的同一身份的行人图像组记为

其中N为图像组中图像的数量，i和j为该像素在第k图像中的位置。将X送入人体协同分割网络中，输出大小为256/4×128/4×32的预测图，其中每个像素对应的预测向量为1×1×32。使用argmax函数，得到每个像素的伪类别

(3)为了利用行人图像中已有的一致性信息，构建三种一致性损失函数。

①局部空间一致性损失：在局部空间下，相邻的像素应该具有同一标签。为了保证分割结果的局部空间一致性，本发明最大化在一个R×R的窗口内中心像素的预测向量与邻近像素的相似性，具体公式如下所示：

其中

其中

L_HCNet＝L_sem+2*L_local+L_back

(4)以ImageNet上预训练的参数来初始化编码器中的参数，以Kaiming uniform来初始化解码器中的参数，通过人体协同分割网络输出预测向量，计算目标函数，通过反向传播来更亲解码器中的参数。重复以上步骤，直至人体协同分割网络输出的伪标签数量小于设计最小标签数m_L＝18。

(5)由于没有真实的像素级标签，为了输出伪标签所代表的具体类别，构建基于中心先验的标签重分配。在行人图像中，前景即行人及其私人物品一般位于图像的中心位置，而背景则位于图像的边缘位置，即中心先验。基于中心先验，将伪标签划分为前景和背景，再根据前景每一类伪标签的所有像素的平均高度，划分为C-1类。将重分配标签作为多任务网络的人体解析子网络的伪真实标签，可视化后如图2(其中，(a)遮挡图像，(b)完整图像)：人体协同分割网络分割可视化图(灰度化显示)。

步骤三：构建多任务网络框架包含骨干网络，行人再识别子网络和人体分割子网络，将行人图像和伪像素级标签送入多任务网络中，得到图像特征，前景特征和人体部分特征；

具体实施如下：

(1)构建多任务网络架构。骨干网络与人体协同分割网络的编码器相同，且权重共享。人体解析网络为一层卷积核大小为1×1卷积核数量为4的卷积层。行人再识别子网络的输入为骨干网络输出的深度特征和人体协同分割网络输出的语义信息。行人再识别子网络根据语义信息将深度特征找分为图像特征，前景特征和人体部分特征，最后将图像特征，前景特征和人体部分特征送入到三个不同的分类器得到图像预测向量，前景预测向量和人体部分预测向量。

(2)构建多任务网络目标函数。使用交叉熵损失计算人体解析子网络的预测像素向量与人体协同分割网络输出的伪标签之间的损失，记为L_parsing。使用三元组损失与softmax交叉熵损失计算图像预测向量与真实行人标签之间的损失，记为L_Image。使用softmax交叉熵损失前景预测向量和真实行人标签之间的损失，记为L_Fore。使用softmax交叉熵损失人体部分预测向量和真实行人标签之间的损失，记为L_Parts。综上所述，多任务网络的优化目标函数为：

L＝L_Image+L_Fore+L_Parts+0.1*L_parsing

步骤四：交替训练人体协同分割网络和多任务网络得到最优的伪像素级标签和多任务网络模型，将测试集中的行人图像送入多任务网络中，只使用前景特征和人体部分特征来计算图像间的距离，进行行人特征匹配。

具体实施如下：

(1)交替训练人体协同分割网络和多任务网络。整个框架训练时，每一次迭代分为两步，首先训练人体协同分割网络得到行人图像的像素级伪标签，再以像素级伪标签指导多任务网络学习，交替训练得到最优的模型。

(2)在推理阶段，仅使用多任务网络。对于图像对(x₁,x₂),本发明仅使用前景特征和人体部分特征来计算距离，具体公式如下：

(3)使用Rank-1和平均均值精度(mAP)指标来评估本发明的性能。在两个遮挡行人再识别数据集上，与目前最先进的方法对比结果如下表所示：

方法	Rank-1	mAP
			PCB	42.6	33.7
PGFA	51.4	37.3
			HONet	55.1	43.8
ISP	62.8	52.3
			本发明	65.6	54.8

Claims

1.一种基于弱监督人体协同分割的行人再识别方法，其特征在于，包括以下步骤：

2)构建多任务网络框架：包含骨干网络，行人再识别子网络和人体分割子网络，将行人图像和伪像素级标签送入多任务网络中，得到图像特征，前景特征和人体部分特征；

2.根据权利要求1所述的一种基于弱监督人体协同分割的行人再识别方法，其特征在于，所述的步骤1)具体包括以下步骤：

11)为了在仅有图像级标签下得到行人图像的像素级标签，构建弱监督人体协同分割网络：

该网络包含一个编码器和一个解码器，编码器为在ImageNet上预训练的分类网络，解码器为构建的全卷积神经网络；解码器由三个基础块与一层预测层组成，其中基础块由卷积核为3×3大小的卷积层，批次正则化(BN)层和非线性激活函数(ReLU)组成；预测层为卷积核为1×1的卷积层，该卷积层的卷积核数量为分割网络预测的类别数量，记为C′；

12)将大小为h×w的同一身份的行人图像组记为

其中N为图像组中图像的数量，i和j为该像素在第k图像中的位置；将X送入人体协同分割网络中，输出大小为h/4×w/4×C′的预测图，其中每个像素对应的预测向量为1×1×C′；使用argmax函数，得到每个像素的伪类别

13)为了利用行人图像中已有的一致性信息，构建三种一致性损失函数：

①局部空间一致性损失：在局部空间下，相邻的像素应该具有同一标签；为了保证分割结果的局部空间一致性，最大化在一个R×R的窗口内中心像素的预测向量与邻近像素的相似性，具体公式如下所示：

其中

为中心像素的预测向量,y_s(s＝1,…,S)为R×R领域内邻近像素的预测向量，‖·‖_p为p范数；R设置为3；

②语文一致性损失：对于同一身份行人在不同的摄像头视角下具有相同的语义的像素应该被预测为同一标签；同一身份行人在不同的摄像头视角下的人体区域是不变的，而分割网络会将具有相同的着色和纹理的像素分配为同一标签；

基于以上，将最大化不同图像间具有相同语义的像素的预测向量，具体公式如下所示：

其中M是具有相同身份的图像组中所有像素的数量，y是像素的预测向量，pl是由预测向量通过argmax函数得到的伪标签；

③背景一致性损失：同一身份行人图像的背景应该被预测为同一标签；由于不同的图像的背景是不同的，语义一致性损失无法保证背景一致性；在不同摄像头视角下，行人的光照和姿态等变化较大；而在同一摄像头下，除了背景偏差外，行人的变化是很小的，即摄像机视角内相似性；基于摄像机视角内相似性，最大化同一摄像机视角下相邻图像的预测向量的相似性，具体公式如下所示：

其中

为第k张图像的预测向量，k1和k2为同一摄像机视角下的相邻图像；

综上所述，人体协同分割网络(Human Co-parsing Network,HCNet)的优化目标函数为：

L_HCNet＝L_sem+λ_LL_local+λ_BL_back

其中λ_L和λ_B为平衡权重；

14)以ImageNet上预训练的参数来初始化编码器中的参数，以Kaiming uniform来初始化解码器中的参数，通过人体协同分割网络输出预测向量，计算目标函数，通过反向传播来更亲解码器中的参数；重复以上步骤，直至人体协同分割网络输出的伪标签数量小于设计最小标签数m_L；

15)由于没有真实的像素级标签，为了输出伪标签所代表的具体类别，构建基于中心先验的标签重分配；在行人图像中，前景即行人及其私人物品一般位于图像的中心位置，而背景则位于图像的边缘位置，即中心先验；基于中心先验，将伪标签找分为前景和背景，再根据前景每一类伪标签的所有像素的平均高度，划分为C-1类；将重分配标签作为多任务网络的人体解析子网络的伪真实标签。

3.根据权利要求1所述的一种基于弱监督人体协同分割的行人再识别方法，其特征在于，所述的步骤2)构建多任务网络，具体包括以下步骤：

21)构建多任务网络架构：骨干网络与人体协同分割网络的编码器相同，且权重共享；人体解析网络为一层卷积核大小为1×1卷积核数量为C的卷积层；行人再识别子网络的输入为骨干网络输出的深度特征和人体协同分割网络输出的语义信息；行人再识别子网络根据语义信息将深度特征找分为图像特征，前景特征和人体部分特征，最后将图像特征，前景特征和人体部分特征送入到三个不同的分类器得到图像预测向量，前景预测向量和人体部分预测向量；

22)构建多任务网络目标函数：使用交叉熵损失计算人体解析子网络的预测像素向量与人体协同分割网络输出的伪标签之间的损失，记为L_parsing；使用三元组损失与softmax交叉熵损失计算图像预测向量与真实行人标签之间的损失，记为L_Image；使用softmax交叉熵损失前景预测向量和真实行人标签之间的损失，记为L_Fore；使用softmax交叉熵损失人体部分预测向量和真实行人标签之间的损失，记为L_Parts；综上所述，多任务网络的优化目标函数为：

L＝L_Image+L_Fore+L_Parts+λ_hpL_parsing

其中λ_hp为平衡权重。

4.根据权利要求1所述的一种基于弱监督人体协同分割的行人再识别方法，其特征在于，所述的步骤3)中具体步骤如下：

31)交替训练人体协同分割网络和多任务网络：整个框架训练时，每一次迭代分为两步，首先训练人体协同分割网络得到行人图像的像素级伪标签，再以像素级伪标签指导多任务网络学习，交替训练得到最优的模型；

32)在推理阶段，仅使用多任务网络：对于图像对(x₁,x₂),使用前景特征和人体部分特征来计算距离，具体公式如下：

其中cos(·)为余弦距离，P_i＝1如果part_i为图像对共享可见的部分，否则为0，SV≤C-1为共享可见的数量；计算距离后，排序输出行人再识别结果。