CN115376159A

CN115376159A - 一种基于多模态信息的跨外观行人重识别方法

Info

Publication number: CN115376159A
Application number: CN202210820445.9A
Authority: CN
Inventors: 王恺; 马志; 刘蒙蒙; 李涛
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-11-22

Abstract

本发明提供了一种基于多模态信息的跨外观行人重识别方法，包括以下步骤：预处理跨外观行人重识别数据集；从视觉图像中获取行人的轮廓图像与部件语义图像；利用网络模型提取特征矩阵；将三个特征矩阵拼接为融合特征矩阵；对四个特征矩阵，分别进行池化下采样获取特征；再分别使用批次归一化和全连接层获取分类特征；计算损失；损失层梯度反向传播，更新网络模型及其全连接层的权值参数；重复上述步骤，直至网络模型收敛，或者达到最大迭代次数；使用融合推理特征作为行人特征表示进行检索，融合推理特征由融合特征采用批次归一化获取。本发明有效地缓解了网络过于关注行人外观信息的问题，提升了跨外观行人重识别模型的检索性能。

Description

一种基于多模态信息的跨外观行人重识别方法

技术领域

本发明属于神经网络技术领域，特别涉及一种基于多模态信息的跨外观行人重识别方法。

背景技术

行人重识别，也称为行人检索，其目标是解决跨时间、跨摄像头、跨场景的行人匹配问题。当给定一个感兴趣的行人目标之后，理想的行人重识别系统应该识别出不同时间、不同地点、不同设备中再次出现的该目标行人。现有的行人重识别任务主要集中于短时间内的同外观行人重识别，具备衣着、配饰等外观变化的长时间、跨外观行人重识别相关方法严重缺乏。事实上，跨外观行人重识别的应用极为普遍：长时间走失人员的对比识别、顾客的商业行为分析等。

目前监控环境中采集的跨外观行人重识别公开数据集主要包含NKUP+和PRCC，分别包含40217和33698张行人图像。而对于跨外观行人重识别研究，其中一部分工作专注于研究行人图像中不同部位之间的关联，如人脸、上衣、裤子等，通过调节不同部位局部特征与全局特征的特征融合形成鲁棒的跨外观特征，其典型方法比如CCAN、2S-IDE、3APF等。另一部分工作则尝试在网络中引入对外观变化鲁棒的轮廓、姿态等先验信息，其典型方法有SPT、FSAM等。如SPT算法通过将行人的轮廓图以人体中心为原点，从笛卡尔坐标系采样并转换到极坐标系中以获取更加精细的轮廓特征，最后加之ASE注意力机制就获得了较为完整鲁棒的行人身份特征。现有的行人重识别模型往往将注意力集中于衣着颜色、纹理等行人外观信息，模型的识别能力不够理想。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于多模态信息的跨外观行人重识别方法，通过降低模型对传统特征的依赖性来提升跨外观行人的可辨识度，并在网络中引入了经预训练网络提取的行人边缘和部件语义先验信息，三种不同模态的信息使得模型综合学习了视觉图像中的细节信息和对外观鲁棒的高层语义信息，有效地缓解了网络过于关注行人外观信息的问题，提升了跨外观行人重识别模型的检索性能。

本发明采用的技术方案是：一种基于多模态信息的跨外观行人重识别方法，包括以下步骤：

步骤1：利用数据增强策略预处理跨外观行人重识别数据集；数据增强策略包含：缩放、随机水平翻转、填充、随机裁切、减均值除方差和随机擦除。

步骤2：使用经过公开数据集预训练的轮廓识别网络和语义分割网络分别从预处理过的图像中获取行人的轮廓图像与部件语义图像。

使用预训练的轮廓识别网络和语义分割网络分别从预处理过的行人的视觉图像中分别提取出轮廓图像和部件语义图像，三种不同模态的图像均使用RGB彩色图像进行表示。

步骤3：利用三个非共享权重的轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型分别对应从轮廓图像、视觉图像和部件语义图像提取出行人的高维轮廓特征矩阵、高维视觉特征矩阵和高维语义特征矩阵。表现为将数据输入特征提取网络模型，获取网络模型分类层之前输出的特征图。

步骤4：将高维轮廓特征矩阵、高维视觉特征矩阵、高维语义特征矩阵拼接为融合特征矩阵。使用拼接(Concatenate)的方式对不同模态信息的特征进行融合，在没有添加诸如注意力机制等方法所需的额外参数以及训练时间的同时，即可融合不同模态特征在不同侧重方向的检索特点，综合提升模型的跨外观检索能力。

融合特征矩阵融合了多种对外观变化鲁棒的先验信息。对于长时间、跨外观的行人重识别问题而言，往往由于视觉图像中关于衣着、配饰等外观敏感的信息过多导致跨外观行人匹配失败。而行人的轮廓信息实际主要表现为行人的边缘信息，由于行人的体态一般不会发生剧烈变化，因此具有一定的鲁棒性。同时，人体部件语义信息可以获取细粒度的行人区域信息，以避免颜色、问题对提取跨外观行人特征的影响。本发明中综合考虑了图像中对行人外观变化鲁棒的轮廓和部件语义等先验知识，并改进了以往网络中仅使用单一视觉模态信息的问题，使得网络端到端地学习三种不同模态特征之间的关联性，提升跨外观的行人检索效果。

步骤5：对高维轮廓特征矩阵、高维视觉特征矩阵、高维语义特征矩阵和融合特征矩阵，分别进行池化下采样获取高维轮廓特征、高维视觉特征、高维语义特征和融合特征；使用广义均值池化对不同模态及其融合特征进行下采样操作，其融合了最大池化与平均池化的优点，使模型得以在不同模态图像中聚焦于显著特征，提升模型的检索效果。

步骤6：对高维轮廓特征、高维视觉特征、高维语义特征和融合特征，分别使用批次归一化和全连接层获取高维轮廓分类特征、高维视觉分类特征、高维语义分类特征和融合分类特征。

步骤7：分别计算高维轮廓特征、高维视觉特征、高维语义特征和融合特征的最难三元损失，再分别计算高维轮廓分类特征、高维视觉分类特征、高维语义分类特征和融合分类特征的身份分类损失，然后加权求和得到总损失。

其中，最难三元损失：

其中，α表示间隔参数，D表示距离度量，

表示批次中第p个人的第k张图像

的高维特征，1≤p≤P，1≤k≤K，p′为第p′个人的，k′为第k′张图像；

身份分类损失：

其中x_i、y_i分别表示图像及其身份类别，p(y_I|x_i)表示图像x_i被模型识别为身份类别y_i的概率，1≤i≤N。

多模态网络模型端到端地计算视觉、轮廓、部件语义、融合特征各个分支的损失，其中每一个分支均计算最难三元损失和身份分类损失。分支损失：

L＝λ₁L_HardTri+λ₂L_ID

其中，λ₁和λ₂分别表示最难三元损失和身份分类损失的权重参数；λ₁和λ₂均为1.0。

总损失为轮廓、视觉、部件语义和融合特征的四个分支损失的和。

对行人的高维视觉、轮廓、部件语义特征和融合特征均计算行人身份分类损失和度量学习损失，从而强化损失函数对于不同分支特征的指导学习，使得每一种分支特征均具有一定的表征能力，并最终提升融合特征的鲁棒检索效果。

步骤8：损失层梯度反向传播，更新三个不共享权重的轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型及其全连接层的权值参数。轮廓识别网络和语义分割网络不参与权重更新。

步骤9：重复步骤2-8，直至轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型收敛，或者达到最大迭代次数，完成模型训练。

步骤10：查询图像和图库图像输入完成训练的模型中，使用融合推理特征作为行人特征表示进行检索，融合推理特征由融合特征使用批次归一化获取。完成行人重识别的评测和可视化，并计算前1、5、10位命中率(Rank1、Rank5、Rank10)和平均检索精度mAP，证明多模态信息对行人检索的促进作用。

与现有技术相比，本发明所具有的有益效果是：本发明提出的融合多模态先验信息策略可以降低单一视觉RGB图像中外观敏感型信息在特征中的权重，融合的两种对外观变化相对鲁棒的模态信息则可以促进网络学习对于外观鲁棒的行人特征, 最终促进模型在跨外观场景下的行人检索性能。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的融合分支损失的网络结构图；

图3为本发明实施例的测试时的流程图；

图4为本发明实施例中使用的三种不同模态的图像的展示示意图；

图5为本发明实施例的基准网络在NKUP+上的部分行人前十位检索结果示意图；

图6为本发明实施例的在NKUP+上的部分行人前十位检索结果示意图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施例对本发明作详细说明。

本发明的实施例提供了一种基于多模态信息的跨外观行人重识别方法，如图1 所示，其包括以下步骤：

步骤1：预处理跨外观行人重识别数据集，对于训练集的图像需经数据增强策略处理、归一化之后作为网络的输入，其预处理顺序依次为：1)调整图像尺寸为网络输入尺寸(256*128)；2)以50％的概率随机对图像进行水平翻转；3)在图像周围填充10个值为0的像素；4)从图像中随机裁切出网络输入尺寸(256*128)的图像；

5)对图像进行减均值除方差以归一化输入图像，其中使用ImageNet中图像的均值(0.485,0.456,0.406)和方差(0.229,0.224,0.225)；6)以50％的概率随机抹去图像中2％至40％面积大小的区域。而在模型测试时，仅使用上述操作1)和操作5) 对模型集的图像进行处理。

跨外观行人重识别数据集主要包含NKUP+和PRCC，分别包含40217和33698张行人图像。

表1 NKUP+数据集属性统计表

表2 PRCC数据集属性统计表

步骤2：使用公开轮廓识别数据集(BSDS500)和行人语义分割数据集(LIP)训练的轮廓识别网络R(RCF Net)和语义分割网络P(PSP Net)从行人的视觉图像X_RGB中分别提取出轮廓图像X_C和部件语义图像X_P，三种不同模态的图像均使用RGB彩色图像进行表示，因此具有相同的维度，不同模态的示例图像如图4所示。

X_C＝R(X_RGB)，X_P＝P(X_RGB)

步骤3：使用在公开数据集(ImageNet)训练的三个非共享权重的特征提取Densenet121网络模型：轮廓特征提取网络模型N_C、视觉特征提取网络模型N_RGB和语义特征提取网络模型N_P分别从轮廓图像、视觉图像和部件语义图像提取行人视觉、轮廓和部件语义三种不同模态信息的高维特征矩阵：高维轮廓特征矩阵

高维视觉特征矩阵

和高维语义特征矩阵

步骤4：将行人视觉、轮廓和部件语义三种不同模态信息的高维特征矩阵拼接(Concatenate)为融合特征矩阵

步骤5：基于广义均值池化(Generalized Mean Pooling，GeM Pooling)将高维轮廓特征矩阵

高维视觉特征矩阵

高维语义特征矩阵

和融合特征矩阵

下采样为相应的高维特征：高维轮廓特征

高维视觉特征

高维语义特征

和融合特征

步骤6：对行人的高维轮廓特征

高维视觉特征

高维语义特征

和融合特征

分别首先采用批次归一化(Batch Normalization,BN)获取推理特征：

高维轮廓推理特征

高维视觉推理特征

高维语义推理特征

和融合推理特征

然后使用全连接层(Fully Connected layer,FC)获取身份分类特征：高维轮廓分类特征

高维视觉分类特征

高维语义分类特征

和融合分类特征

步骤7：计算视觉、轮廓、部件语义、融合特征各自的整体分支损失L_RGB、L_C、 L_P、L_F，然后对不同分支损失求和得到最终的总损失L_All。

L_All＝L_RGB+L_C+L_P+L_F

最难三元损失：

其中，α表示间隔参数，D表示距离度量，

表示批次中第p个人的第k张图像

身份分类损失：

其中x_i、y_i分别表示图像及其身份类别，p(yi|x_i)表示图像x_i被模型识别为身份类别y_i的概率，1≤i≤N。

融合分支损失的网络结构如图2所示。视觉、轮廓、部件语义的分支损失的网络结构与之相似。

步骤8：损失层的梯度反向传播，更新轮廓特征提取网络模型N_C、视觉特征提取网络模型N_RGB和语义特征提取网络模型N_P，及其对应的全连接层的权值参数。

步骤9：多模态模型在行人重识别数据集上优化训练120轮，网络初始学习率为3.5×10^-6，在前10轮epoch网络学习率会从线性上升至3.5×10^-4，随后，学习率将在31、61、91轮分别衰减为当前值的0.1倍以微调网络权重。完成模型训练，得到训练好的多模态模型。

步骤10：而对于网络的测试流程，如图3所示。将测试集中的所有查询图像和图库图像输入到多模态模型进行前向传播，并使用融合特征的归一化推理特征

作为最终的行人特征向量表示。假定查询图像的特征表示为f_q，候选图像的特征表示为 f_g，使用欧式距离计算二者之间的距离d_q，g＝||F_Q-F_g||₂，若其距离越小，则图像对之间的相似度越高，反之越低。计算每一张查询图像与所有的候选图像之间的距离并按照相似度从大到小进行排序，获得排序列表，最终计算前k位命中率Rank-k和平均检索精度mAP。分别在NKUP+和PRCC数据集上做对比试验，证明多模态融合特征的鲁棒性。

图5和图6展示了基准网络模型Densenet121和多模态模型M2Net在NKUP+跨外观子集的部分行人重识别结果，每一行中展示了一个待检索行人的前十位检索结果。其中最左侧的为检索图像,查询图像按照相似度从高到低进行排列，黑色和灰色边界框分别表示正确与错误的检索结果。从图示可以看出，基准网络模型(Densenet121) 的检索结果中行人的衣着、背包等外观信息极大程度影响了检索结果，而采用了多模态模型M2Net之后，部分行人外观变化明显的图像也被检索出来，印证了多模态信息可以提升跨外观行人重识别模型性能。

表3和表4中量化的列出了实验Rank-k和mAP指标，该指标是行人重识别领域的两个重要评价标准。在图像数量相对较少、外观变化不大的PRCC数据集中，多模态模型M2Net提取特征分别提升了同/跨外观子集的0.7％/7.5％的Rank1值和 1.7％/6.1％的mAP精度；而在图像数量较多、外观变化明显的NKUP+数据集中，多模态网络M2Net则在保持同外观检索能力基本不变的情况下，提升了跨外观子集上1.6％的Rank1值和0.7％的mAP，证明了多模态特征对于跨外观行人的检索能力。

表3各特征提取网络在PRCC数据集检索指标对比表

表4各特征特征提取网络在NKUP+数据集检索指标对比表

以上通过实施例对本发明进行了详细说明，但所述内容仅为本发明的示例性实施例，不能被认为用于限定本发明的实施范围。本发明的保护范围由权利要求书限定。凡利用本发明所述的技术方案，或本领域的技术人员在本发明技术方案的启发下，在本发明的实质和保护范围内，设计出类似的技术方案而达到上述技术效果的，或者对申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖保护范围之内。

Claims

1.一种基于多模态信息的跨外观行人重识别方法，其特征在于：包括以下步骤：

步骤1：利用数据增强策略预处理跨外观行人重识别数据集；

步骤2：使用预训练的轮廓识别网络和语义分割网络分别从预处理过的图像中获取行人的轮廓图像与部件语义图像；

步骤3：利用非共享权重的轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型分别对应从轮廓图像、视觉图像和部件语义图像提取出行人的高维轮廓特征矩阵、高维视觉特征矩阵和高维语义特征矩阵；

步骤4：将高维轮廓特征矩阵、高维视觉特征矩阵、高维语义特征矩阵拼接为融合特征矩阵；

步骤5：对高维轮廓特征矩阵、高维视觉特征矩阵、高维语义特征矩阵和融合特征矩阵，分别进行池化下采样获取高维轮廓特征、高维视觉特征、高维语义特征和融合特征；

步骤6：对高维轮廓特征、高维视觉特征、高维语义特征和融合特征，分别使用批次归一化和全连接层获取高维轮廓分类特征、高维视觉分类特征、高维语义分类特征和融合分类特征；

步骤7：分别计算高维轮廓特征、高维视觉特征、高维语义特征和融合特征的最难三元损失，再分别计算高维轮廓分类特征、高维视觉分类特征、高维语义分类特征和融合分类特征的身份分类损失，然后加权求和得到总损失；

步骤8：损失层梯度反向传播，更新轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型及其全连接层的权值参数；

步骤9：重复步骤2-8，直至轮廓特征提取网络模型、视觉特征提取网络模型和语义特征提取网络模型收敛，或者达到最大迭代次数，完成模型训练；

步骤10：查询图像和图库图像输入完成训练的模型中，使用融合推理特征作为行人特征表示进行检索，融合推理特征由融合特征使用批次归一化获取。

2.如权利要求1所述的基于多模态信息的跨外观行人重识别方法，其特征在于：步骤1中，数据增强策略包含：缩放、随机水平翻转、填充、随机裁切、减均值除方差和随机擦除。

3.如权利要求1所述的基于多模态信息的跨外观行人重识别方法，其特征在于：步骤2中，使用预训练的轮廓识别网络和语义分割网络分别从预处理过的行人的视觉图像中分别提取出轮廓图像和部件语义图像，三种不同模态的图像均使用RGB彩色图像进行表示。

4.如权利要求1所述的基于多模态信息的跨外观行人重识别方法，其特征在于：步骤7中，最难三元损失：

其中，α表示间隔参数，D表示距离度量，

表示批次中第p个人的第k张图像

身份分类损失：

5.如权利要求4所述的基于多模态信息的跨外观行人重识别方法，其特征在于：分支损失：

L＝λ₁L_HardTri+λ₂L_ID

其中，λ₁和λ₂分别表示最难三元损失和身份分类损失的权重参数；

6.如权利要求5所述的基于多模态信息的跨外观行人重识别方法，其特征在于：λ₁和λ₂均为1.0。