CN115909407A

CN115909407A - 一种基于人物属性辅助的跨模态行人重识别方法

Info

Publication number: CN115909407A
Application number: CN202211523543.2A
Authority: CN
Inventors: 刘峰; 邓可欣; 宋婉茹; 赵峥来
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-04-04

Abstract

本发明公开了一种基于人物属性辅助的跨模态行人重识别方法，包括：获取行人图像数据，对跨模态数据集进行人物属性标注；采用以双流网络形式呈现的ResNet50作为主干网络进行特征提取；接着将双流网络输出的特征进行平均池化操作后采用多层次融合方案进行特征融合，选取最优结果作为网络的融合层；将属性划分为全局属性和局部属性，监督网络学习属性辅助的全局特征和局部特征，结合所设计的损失函数，对模型进行训练和测试，得到跨模态行人重识别最终的识别准确率。本发明考虑了将人物属性的辅助研究以及全局‑局部特征的研究结合起来，能够有效提高识别的准确率。

Description

一种基于人物属性辅助的跨模态行人重识别方法

技术领域

本发明涉及一种基于人物属性辅助的跨模态行人重识别方法，具体涉及一种基于人物属性辅助的可见光-红外光跨模态行人重识别方法，属于计算机视觉领域。

背景技术

近年来，随着计算机视觉领域的快速发展，行人重识别逐渐成为一个研究热点，旨在对不同摄像机不同场景下捕捉到的行人图像进行检索和识别。由于视点、姿势、遮挡和照明等的复杂变化，使得行人重识别在真实场景中极具挑战性。尽管目前的行人重识别方法不断进步不断发展，但大多数研究是集中在可见光图像上的，却忽略了在夜晚等一些光线不足的环境下，可见光摄像机很难捕捉到人的有效信息，这些方法在特定场景下的性能大大降低。因此，能够在昏暗的夜晚捕捉行人有效图像的红外摄像机得到了广泛的应用。

但由于两种模态之间存在着巨大的差异，红外光图像相比于可见光图像缺少一些强烈的区别提示，比如颜色等。这就使得如何探索两种模态下的相同要素，减少同一行人在交叉模态下的特征差异，构建起二者之间的联系成为目前面临的重大挑战。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于人物属性辅助的跨模态行人重识别方法，该方法通过探讨异质图像之间的共性，引入属性标签作为辅助信息，来进一步增加同一行人在交叉模态下的相似性，从而提高识别的准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供一种基于人物属性辅助的跨模态行人重识别方法，包括：

获取待识别的行人图像；

对所述待识别的行人图像采用对应的基于ResNet50的主干网络进行特征提取，得到对应模态特征；

将所述模态特征进行平均池化操作，得到一维特征；

将所述一维特征输入训练好的跨模态行人重识别模型；

根据所述跨模态行人重识别模型的输出，确定行人重识别结果；

其中所述跨模态行人重识别模型的训练方法包括：

S1获取跨模态行人图像数据集，对跨模态行人图像数据集进行人物属性标注，得到带人物属性标注的跨模态行人图像数据集；其中所述跨模态行人图像数据集包括可见光行人图像数据集和红外光行人图像数据集；

S2对所述带人物属性标注的可见光行人图像数据集和红外光行人图像数据集采用以双流网络形式呈现的ResNet50作为主干网络进行特征提取，得到多模态共享特征；

S3将所述多模态共享特征进行平均池化操作后采用多层次融合方法进行特征融合，得到融合后的一维特征数据集；

S4利用所述融合后的一维特征数据集对基于ResNet50的跨模态行人重识别模型进行训练，得到训练好的跨模态行人重识别模型。

获取跨模态行人图像数据集，对跨模态行人图像数据集进行人物属性标注，包括：

获取SYSU-MM01数据集来构建跨模态行人图像数据集，通过对可见光和红外光两种模态的图像对比分析，选取人物属性采用二值化的标签进行标注，其中所述人物属性包括性别、头发长短、戴眼镜、戴帽子、穿外套、上衣袖长、下装长度、裤子、裙子、背包、拎包、挎包。

在一些实施例中，采用以双流网络形式呈现的ResNet50作为主干网络进行特征提取，包括：

将ResNet50的第一阶段和第二阶段作为特定模态的特征提取器分别对可见光图像和红外光图像单独训练，提取得到两种模态特定特征；

将ResNet50的后三个阶段用于共享网络特征嵌入，通过将两种模态特定特征映射到统一特征空间来提取多模态共享特征。

在一些实施例中，将所述多模态共享特征进行平均池化操作后采用多层次融合方法进行特征融合，包括：

将ResNet50的第三阶段经过平均池化后的输出特征作为中层特征Mid2_fea，将ResNet50的第五阶段经过平均池化后的输出特征作为高层特征High_fea，将中层特征和高层特征进行融合得到融合特征Fea1，

将融合特征Fea1经过1x1卷积层、批量归一化网络层、激活函数层获得融合后的一维特征。

在一些实施例中，利用所述融合后的一维特征数据集对基于ResNet50的跨模态行人重识别模型进行训练，包括：

所述跨模态行人重识别模型包括全局特征学习模块和局部特征学习模块，将属性划分为全局属性和局部属性，全局属性注重整体，将行人身份信息和性别作为全局特征学习模块的分类标签；局部属性注重细节，将除性别属性以外的其他人物属性作为局部特征学习模块的分类标签；

将融合的一维特征输入到跨模态行人重识别模型进行训练，以最小化总损失为目标，得到训练好的跨模态行人重识别模型。

在一些实施例中，跨模态行人重识别模型的总损失Loss为：

Loss＝Loss1+βLoss2

其中，Loss1为全局特征学习模块的损失，Loss2为局部特征学习模块的损失，β是平衡全局特征损失和局部特征损失的权重参数；

全局特征学习模块的损失Loss1为：

Loss1＝Loss1_id+αLoss1_ge

其中，Loss1是全局特征学习模块的损失，α表示为平衡行人身份分类损失和性别属性分类损失的权重参数；Loss1_id表示行人身份分类损失，L_t表示三元组损失，

为行人身份分类对应的Softmax损失，

为行人身份分类对应的异质中心损失，α₁为

的权重系数；Loss1_ge表示性别属性分类损失，

为性别属性分类对应的Softmax损失，

为性别属性分类对应的异质中心损失，α₂为

的权重系数；

局部特征学习模块的损失Loss2为：

其中，Loss2_parti(i＝1,2,3,4)为每一类局部属性对应的局部特征的损失。

进一步地，三元组损失L_t公式如下：

L_t＝max(d(a,p)-d(a,n)+margin,0)

其中，a是锚点样本，p是正样本，n是负样本，d(a,p)表示锚点样本与正样本的特征距离，d(a,n)表示锚点样本与负样本的特征距离；以margin作为阈值，拉近正样本对之间的距离，推开负样本对之间的距离，最后使得相同身份的行人图片在特征空间里形成聚类；

Softmax损失公式如下：

其中，z_y为真实类别中第y类的值，z_i为多分类任务中每一类的预测值,K表示多分类任务的分类总数；

异质中心损失公式如下：

其中，

分别是可见光模态和红外光模态下第i个行人类别的特征分布中心，x_i,1,j表示第i个行人的第j个可见光图像特征，x_i,2,j表示第i个行人的第j个红外光图像特征，U代表行人类别总数，M和N分别表示第i类人中可见光和红外光图像的数量。

第二方面，本发明提供了一种基于人物属性辅助的跨模态行人重识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提出的一种基于人物属性辅助的跨模态行人重识别方法，使用共享参数的双流网络，能够有效获取到不同模态的特定特征和共享特征；并且通过将不同层级的共享特征进行特征融合，可以更有效地探索中高层的语义信息；同时借助于两种模态共有的属性的辅助，从而能够更好的增加模型的泛化能力，建立不同模态之间的“沟通桥梁”。通过实验验证了在提升识别准备率上具有更好的效果，具有一定的推广意义。

附图说明

图1是本发明实施例提供的一种基于人物属性辅助的跨模态行人重识别方法的人物属性标注示例；

图2是本发明实施例提供的一种基于人物属性辅助的跨模态行人重识别方法模型结构图；

图3是本发明实施例提供的一种基于人物属性辅助的跨模态行人重识别方法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

一种基于人物属性辅助的跨模态行人重识别方法，包括：

获取待识别的行人图像；

将所述模态特征进行平均池化操作，得到一维特征；

将所述一维特征输入训练好的跨模态行人重识别模型；

其中所述跨模态行人重识别模型的训练方法包括：

在一些实施例中，一种基于人物属性辅助的可见光-红外光跨模态行人重识别方法，包括以下步骤：

步骤1：通过获取网上公开的SYSU-MM01数据集来构建数据样本，将数据样本按照7：3的比例划分为训练集和测试集，并提前标注好属性。SYSU-MM01数据集是在跨模态行人重识别领域比较具有代表性的数据集，分别有30,071张可见光图像和15,792张红外光图像。

(1)将第一步获取的行人图像进行预处理操作；并且选取了12个人物属性(性别、头发长短、戴眼镜、戴帽子、穿外套、上衣袖长、下装长度、裤子、裙子、背包、拎包、挎包)，采用二值化的标签(0或1)进行标注。

步骤2：将步骤1所获取到的经过预处理的两种模态的行人图像分别输入到双流网络中进行特征提取，具体分步骤如下：

(1)从训练集中采用随机批采样策略获取身份对应，数量相同的两种模态的图像。即随机采样P个人，再对采样出来的这P个人分别随机采样K张可见光图像和K张红外光图像，则训练批次的大小为2*P*K；

(2)将采样到的可见光图像样本集

和红外光图像样本集

分别输入到ResNet50特征提取模块的两个分支，从而提取到两种模态的特定特征。其中

为可见光图像样本集中的第i张可见光图像特征图，

为红外光图像样本集中的第i张红外光图像特征图，R表示实数集，C为图片的信道，H为图片的高度，W为图片的宽度；

(3)再将两种模态特定特征映射到统一特征空间内来获取两种模态共享的特征。

步骤3：将步骤2通过模态共享分支获取到的共享特征进行平均池化操作后采用多层次融合方法进行特征融合，具体分步骤如下：

(1)将ResNet50主干网络的后三个阶段的输出特征分别命名为Mid2、Mid3、High，分别进行平均池化操作；

其中，将ResNet50的第三阶段和第四阶段经过平均池化后的输出特征作为中层特征，分别命名为Mid2_fea和Mid3_fea，将ResNet50的第五阶段经过平均池化后的输出特征作为高层特征，命名为High_fea。

(2)将经过平均池化操作的特征作为融合模块的输入，按照拟定的多层次融合方案进行实验；

拟定的多层次融合方案如下：

将如下经过三种融合方案分别得到的三种融合特征命名为Fea1、Fea2、Fea3；

融合特征	Mid2_fea	Mid3_fea	High_fea
				Fea1	√		√
Fea2		√	√
				Fea3	√	√	√

(3)融合后的特征经过1x1卷积层、批量归一化网络层、激活函数层来对特征进行降维，从而获得一维的特征表达，作为特征学习模块的输入，以此来提升全局特征和局部特征的区分性。

步骤4：将步骤3所获取到的一维特征输入到多任务网络中，将属性划分为全局属性和局部属性，监督网络学习属性辅助的全局特征和局部特征，结合所设计的损失函数，得到跨模态行人重识别最终的识别准确率，具体分步骤如下：

(1)在全局特征学习模块，将行人身份信息和性别属性作为分类标签；这一模块所述的损失函数由三元组损失、Softmax损失以及异质中心损失共同决定的，可以表示为：

Loss1＝Loss1_ia+aLoss1_ge (1.3)

其中，Loss1_id表示行人身份分类对应的总损失，L_t表示三元组损失，

为行人身份分类对应的Softmax损失，

为行人身份分类对应的异质中心损失，α₁为

的权重系数。Loss1_ge表示性别属性分类对应的总损失，

为性别属性分类对应的Softmax损失，

为性别属性分类对应的异质中心损失，α₂为

的权重系数。Loss1是全局特征学习模块对应的损失，α表示为平衡行人身份分类损失和属性分类损失的权重参数。

(2)在局部特征学习模块，将除性别以外的其余11个属性作为分类标签；并且按照人体比例自上而下排列将剩下的属性分为了4类局部属性：局部属性1(头发长短、戴眼镜、戴帽子)、局部属性2(上衣袖长、背包)、局部属性3(穿外套、拎包、挎包)、局部属性4(裙子、裤子、下装长度)，分别占比(0,1/5)、(1/5,1/2)、(1/5,3/4)、(1/2,1)；这一模块所述的损失函数由Softmax损失以及异质中心损失构成，可以表示为：

此处的Loss2为局部特征学习模块对应的损失，Loss2_parti(i＝1,2,3,4)为每一类局部属性对应的局部特征的损失；

(3)最终，网络的总损失则为全局特征损失和局部特征损失的和：

Loss＝Loss1+βLoss2

其中，Loss为网络的总损失，Loss1为全局特征学习模块对应的损失，Loss2为局部特征学习模块对应的损失，β是为了平衡全局特征损失和局部特征损失的权重参数；

(4)根据测试所得到的跨模态行人重识别的Rank-k、mAP和mINP结果，选

择出多层次特征融合的最优解。

此处所涉及的评价指标Rank-k表示按照相似度排序后的前k张图像中存在与查询图像属于同一行人的准确率；mAP表示平均精度均值，反应检索的人在数据集中所有正确的图片排在排序列表前面的程度；mINP表示所有查询样本的平均逆置负样本惩罚率，截止到最后一个正确的结果时，已经查出的样本中正确样本所占的比例。

(5)上述所涉及损失函数计算如下：

(5.1)三元组损失公式如下：

L_t＝max(d(a,p)-d(a,n)+margin,0)

其中，a是锚点样本，p是正样本，n是负样本，d(a,p)表示锚点样本与正样本的特征距离，d(a,n)表示锚点样本与负样本的特征距离。以margin作为阈值，拉近正样本对之间的距离，推开负样本对之间的距离，最后使得相同身份的行人图片在特征空间里形成聚类。

(5.2)Softmax损失公式如下：

其中，z_y为真实类别中第y类的值，z_i为多分类任务中每一类的预测值,K表示多分类任务的分类总数。针对多分类任务，使样本特征在度量空间中具有更好的性质：类内紧致性和类间差异性。

(5.3)异质中心损失公式如下：

其中，

分别是可见光模态和红外光模态下第i个行人类别的特征分布中心，x_i,1,j表示第i个行人的第j个可见光图像特征，x_i,2,j表示第i个行人的第j个红外光图像特征，U代表行人类别总数，M和N分别表示第i类人中可见光和红外光图像的数量。通过约束每个类的中心距离来提高类内的跨模态相似性。

实施例2

第二方面，本实施例提供了一种基于人物属性辅助的跨模态行人重识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1所述方法的步骤。

实施例3

第三方面，本实施例提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述方法的步骤。

实施例4

一种基于人物属性辅助的跨模态行人重识别系统，包括：

特征提取模块：分别获取两种不同模态的行人图像，经过预处理之后输入到双流主干网络中，通过特定模态的特征提取器提取两种模态的特定特征，又通过共享网络的特征嵌入器提取共享特征；

特征融合模块：用于将不同层级的共享特征进行融合探究多层次特征融合对结果的影响；

全局特征学习模块：用于将融合后的一维特征输入到多任务网络后，基于全局属性的辅助学习全局特征；

局部特征学习模块：用于将融合后的一维特征输入到多任务网络后，基于局部属性的辅助学习局部特征。

本发明通过对跨模态数据集进行属性标注，采用人物属性辅助的方式来提高身份相同但模态不同的行人图像之间的相似度，有效的增强了模型的泛化能力；并且利用全局-局部特征研究与属性研究相结合起来，能够更好的提升特征的表征能力，进一步提高识别的准确率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

特别注意，由于以上本发明仅采用说明性实施，但本发明不局限于此，因此本发明的具体实施方式可以有所不同。在本发明主要理论不变的情况下，凡是本领域技术人员在本发明的启示下，通过可理解想到的变换或替换而来的其他实施方式，均视为在本发明的保护之内。

Claims

1.一种基于人物属性辅助的跨模态行人重识别方法，其特征在于，包括：

获取待识别的行人图像；

将所述模态特征进行平均池化操作，得到一维特征；

将所述一维特征输入训练好的跨模态行人重识别模型；

其中所述跨模态行人重识别模型的训练方法包括：

2.根据权利要求1所述的基于人物属性辅助的跨模态行人重识别方法，其特征在于，获取跨模态行人图像数据集，对跨模态行人图像数据集进行人物属性标注，包括：

3.根据权利要求1所述的基于人物属性辅助的可见光-红外跨模态行人重识别方法，其特征在于，采用以双流网络形式呈现的ResNet50作为主干网络进行特征提取，包括：

4.根据权利要求1所述的基于人物属性辅助的跨模态行人重识别方法，其特征在于，将所述多模态共享特征进行平均池化操作后采用多层次融合方法进行特征融合，包括：

5.根据权利要求1所述的基于人物属性辅助的跨模态行人重识别方法，其特征在于，利用所述融合后的一维特征数据集对基于ResNet50的跨模态行人重识别模型进行训练，包括：

6.根据权利要求1或5所述的基于人物属性辅助的跨模态行人重识别方法，其特征在于，跨模态行人重识别模型的总损失Loss为：

Loss＝Loss1+βLoss2

全局特征学习模块的损失Loss1为：

Loss1＝Loss1_id+αLoss1_ge

其中，Loss1是全局特征学习模块的损失，α表示为平衡行人身份分类损失和性别属性分类损失的权重参数；Loss1_id表示行人身份分类损失，L_t表示三元组损失，为行人身份分类对应的Softmax损失，为行人身份分类对应的异质中心损失，α₁为的权重系数；Loss1_ge表示性别属性分类损失，为性别属性分类对应的Softmax损失，为性别属性分类对应的异质中心损失，α₂为的权重系数；

局部特征学习模块的损失Loss2为：

7.根据权利要求6所述的基于人物属性辅助的跨模态行人重识别方法，其特征在于，三元组损失L_t公式如下：

L_t＝max(d(a,p)-d(a,n)+margin,0)

Softmax损失公式如下：

异质中心损失公式如下：

其中，分别是可见光模态和红外光模态下第i个行人类别的特征分布中心，x_i,1,j表示第i个行人的第j个可见光图像特征，x_i,2,j表示第i个行人的第j个红外光图像特征，U代表行人类别总数，M和N分别表示第i类人中可见光和红外光图像的数量。

8.一种基于人物属性辅助的跨模态行人重识别装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1至7任一项所述方法的步骤。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。