CN114998928A

CN114998928A - 多粒度特征利用的跨模态行人重识别方法

Info

Publication number: CN114998928A
Application number: CN202210550601.4A
Authority: CN
Inventors: 张国庆; 张银寅
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-02

Abstract

本申请提供一种多粒度特征利用的跨模态行人重识别方法，涉及计算机视觉技术领域，其技术要点是：将跨模态行人重识别的数据集划分为训练集和测试集两部分，在训练集中采用随机批采样策略获取身份对应、数量相同的可见光图片和红外图片；构建包括局部特征提取模块、局部特征约束模块以及多模态特征聚合模块的多粒度特征利用网络模型；加载训练集对所述多粒度特征利用网络模型进行训练；采用测试集对训练得到的模型进行测试，寻找最优模型；利用最优模型对跨模态行人重识别进行查询匹配。该方法同时利用到了行人的全局特征和局部特征，关注到了身体结构信息以及细粒度信息，从而提高重识别效果和精度。

Description

多粒度特征利用的跨模态行人重识别方法

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种多粒度特征利用的跨模态行人重识别方法。

背景技术

可见光-红外跨模态行人重识别的目标是给定一个特定身份的可见光(红外)图像，从gallery集中搜索相应的红外(可见光)图像。这是一项非常具有挑战的问题，因为针对可见光-红外跨模态行人重识别，需要解决两方面的问题：1.由于跨摄像机环境的变化而带来的例如遮挡、视角、行人姿势等模态内问题，2.由于红外和可见光摄像机固有的成像过程而带来的跨模态问题。

针对可见光-红外跨模态行人重识别的方法主要从特征提取和图像变换两方面进行研究。其中，基于特征提取的方法旨在通过设计合适的深度学习网络来提取有区别的行人特征表示，以实现更准确的识别。

图1是利用现有技术展示的SYSU-MM01数据集中不同光谱相机拍摄的一些异质图片。通过观察发现，红外图像难以在光照很差的环境下捕获有效的行人外貌信息。

发明内容

本申请各示例性实施例提供一种多粒度特征利用的跨模态行人重识别方法，该方法同时利用到了行人的全局特征和局部特征，关注到了身体结构信息以及细粒度信息，从而提高重识别效果和精度。

本申请各示例性实施例提供一种多粒度特征利用的跨模态行人重识别方法，该方法包括：将跨模态行人重识别的数据集划分为训练集和测试集两部分，在训练集中采用随机批采样策略获取身份对应、数量相同的可见光图片和红外图片；

构建包括局部特征提取模块、局部特征约束模块以及多模态特征聚合模块的多粒度特征利用网络模型；

加载训练集对所述多粒度特征利用网络模型进行训练；

采用测试集对训练得到的模型进行测试，寻找最优模型；

利用最优模型对跨模态行人重识别进行查询匹配。

在一实施例中，所述构建包括局部特征提取模块、局部特征约束模块以及多模态特征聚合模块的多粒度特征利用网络模型，其中，所述局部特征提取模块配置为，

分别提取所述可见光图像和红外图像的局部特征，并投影到一个公共子空间内；

将所述公共子空间内的局部特征融合后得到全局特征；

将所述全局特征输入到多模态特征聚合模块内计算关系特征。

在一实施例中，所述分别提取两个模态图像的局部特征，并投影到一个公共子空间内，包括：

通过两个结构相同但参数相互独立的特征提取器分别提取所述可见光图像和红外图像的模态共享特征；

将从所述可见光图像和红外图像中提取的模态共享特征，通过全局平均池化平均划分为p个水平条纹，视为p个局部特征；

使用L2正则化和FC层将所述可见光图像和红外图像的p个局部特征投影到一个共同的特征子空间内；

对公共子空间内的p个局部特征分别计算损失函数。

在一实施例中，所述将所述公共子空间内的局部特征融合后得到全局特征，包括：将公共子空间内的p个局部特征通过cat拼接进行连接。

在一实施例中，所述将所述全局特征输入到多模态特征聚合模块内计算关系特征，包括：

将所述全局特征分为可见光特征和红外特征，和分别通过一个的空间卷积层，得到嵌入后的和后，把每个信道的特征映射视为一个特征向量，并计算出中每个特征向量以及中所有特征向量间成对的欧式距离，然后可以得到关系矩阵；

将关系矩阵与原始特征相结合以避免丢失原始信息，获得更新后的全局特征；

对所述更新后的全局特征计算损失函数。

在一实施例中，采用SYSU-MM01数据集的测试集进行算法精度验证，以测试集中的可见光图像用作gallery图库集，将红外图像用作probe指针集，对于probe集中的每张图像，采用欧式距离计算所述红外图像和gallery集中每张所述可见光图像间的特征相似度来进行匹配。

在一实施例中，所述损失函数包括交叉熵损失和hard-mining三元组损失。

在一实施例中，根据训练得到的所述最优模型，将待查询的行人图像输入所述最优网络模型中提取特征，然后与检索库中行人的特征进行相似度比对，并按照相似度的高低排序，从排序列表中找到对应的行人身份信息，从而得到识别结果。

本申请具有如下有益效果：解决了现有可见光-红外跨模态行人重识别技术的不足，该方法同时利用到了行人的全局特征和局部特征，关注到了身体结构信息以及细粒度信息，从而提高重识别效果和精度；采用自动化的方式对可见光和红外模态间的行人图像进行匹配，节约了大量的人力成本和时间成本；能在商场、路边、车站等人流密集地段进行应用，对目标行人快速检测并上传至云端。犯罪活动通常在晚间发生，因此有必要加强对夜间人员的监控，可通过本发明在短时间内获取目标行人的活动轨迹，方便警方快速追踪嫌疑人，为公共安全提供帮助。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为展示现有技术的跨模态数据集SYSU-MM01的示例图；

图2为本申请一实施例中的总流程图；

图3是本申请一实施例中多粒度特征利用的跨模态行人重识别框架的网络结构图；

图4为本申请一实施例的算法与其它跨模态行人再识别算法在SYSU-MM01的准确度对比图；

图5为本申请一实施例的算法与其它跨模态行人再识别算法在RegDB的准确度对比图。

具体实施方式

下面将结合本申请较佳实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本申请保护的范围。

如图2、图3所示，为本申请提供了一种多粒度特征利用的跨模态行人重识别方法，所述方法包括：

S102，将跨模态行人重识别的数据集划分为训练集和测试集两部分，在训练集中采用随机批采样策略获取身份对应、数量相同的可见光图片和红外图片；

S104，构建包括局部特征提取模块、局部特征约束模块以及多模态特征聚合模块的多粒度特征利用网络模型；

S106，加载训练集对所述多粒度特征利用网络模型进行训练；

S108，采用测试集对训练得到的模型进行测试，寻找最优模型；

S110，利用最优模型对跨模态行人重识别进行查询匹配。

在一实施例中，所述构建包括局部特征提取模块、局部特征约束模块以及多模态特征聚合模块的多粒度特征利用网络模型，其中，所述局部特征提取模块的配置，包括以下步骤：

S1，分别提取所述可见光图像和红外图像的局部特征，并投影到一个公共子空间内；

S2，将所述公共子空间内的局部特征融合后得到全局特征；

S3，将所述全局特征输入到多模态特征聚合模块内计算关系特征。

需要说明的是，具体实施时，搭建一个多粒度特征利用的跨模态行人重识别框架，包含特征提取模块、局部特征约束模块以及多模态特征聚合模块。

所述的特征提取模块用于提取两个模态的局部特征，骨干网络采用的是ResNet-50，将可见光图片集

和红外图片集

分别输入到特征提取模块的两个分支中，其中C、H、W分别为图片的信道、高度和宽度，两个特征提取器分别提取到两个模态的模态共享特征，然后通过全局平均池化将模态共享特征平均划分为p个水平条纹，视为p个局部特征

和

P＝1,2,......,p，其中φ^v和φ^t分别表示可见光和红外模态的特征提取模块。

所述的局部特征约束模块利用交叉熵损失、hard-mining三元组损失和异质中心损失三个损失函数对特征提取模块提取的局部特征进行联合训练。首先将两个模态的局部特征V_P和T_P采用L2正则化和FC层将对应的局部特征进行连接，投影到一个公共的子空间内用于局部特征嵌入模块的联合训练。

S1，通过两个结构相同但参数相互独立的特征提取器分别提取所述可见光图像和红外图像的模态共享特征；

S2，将从所述可见光图像和红外图像中提取的模态共享特征，通过全局平均池化平均划分为p个水平条纹，视为p个局部特征；

S3，使用L2正则化和FC层将所述可见光图像和红外图像的p个局部特征投影到一个共同的特征子空间内；

S4，对公共子空间内的p个局部特征分别计算损失函数。

在一实施例中，所述将所述公共子空间内的局部特征融合后得到全局特征，包括：将公共子空间内的p个局部特征通过cat进行连接。

S1，将所述全局特征分为可见光特征和红外特征，和分别通过一个的空间卷积层，得到嵌入后的和后，把每个信道的特征映射视为一个特征向量，并计算出中每个特征向量以及中所有特征向量间成对的欧式距离，然后可以得到关系矩阵；

S2，将关系矩阵与原始特征相结合以避免丢失原始信息，获得更新后的全局特征；

S3，对所述更新后的全局特征计算损失函数。

需要说明的是，将全局特征输入到多模态特征聚合模块包括：先将全局特征分为可见光特征F^R和红外特征F^I，F^R和F^I分别通过一个后面跟着BN和ReLU激活的1×1的空间卷积层，得到嵌入后的F^R和F^I后，把每个信道的特征映射视为一个特征向量，并计算出F^R中每个特征向量以及F^I中所有特征向量间成对的欧式距离，然后就可以得到关系矩阵S。

所述的多模态特征聚合模块用于融合跨模态特征，它使用跨模态关系来更新原来的全局特征以缩小模态间隙。在多模态特征聚合模块中，首先计算出全局特征的关系矩阵S。需要先将全局特征分为可见光特征F^R和红外特征F^I，F^R和F^I分别通过一个1×1的空间卷积层，后面跟着BN和ReLU激活来降维，这样可以使他们传递更多有效的模态信息。得到嵌入后的F^R和F^I后，把每个信道的特征映射视为一个特征向量，并计算出F^R中每个特征向量以及F^I中所有特征向量间成对的欧式距离，然后就可以得到关系矩阵S，

为避免丢失原始信息，将关系矩阵与原始特征相结合来更新全局特征F。

其中，φ和

表示用于原始特征和关系特征的两个嵌入函数，F和S分别表示原始特征和关系特征，W表示可学习的参数。

在一实施例中，采用SYSU-MM01数据集的测试集进行算法精度验证，以测试集中的可见光图像用作gallery集，将红外图像用作probe集，对于probe集中的每张图像，采用欧式距离计算所述红外图像和gallery集中每张所述可见光图像间的特征相似度来进行匹配。

需要说明的是，在本实施例中选用当前主流的跨模态行人重识别数据集SYSU-MM01对前述S104中的多粒度特征利用网络模型网络进行训练。

需要说明的是，计算损失函数，损失函数分为局部特征损失和全局特征损失，局部特征损失包含异质中心损失、hard-mining三元组损失和交叉熵损失，全局特征损失包含hard-mining三元组损失和交叉熵损失。局部特征的损失函数计算具体如下：

异质中心损失函数是用来改善类内跨模态相似性的。它通过惩罚两个模态分布之间的中心距离。其中每个类的中心是基于学习到的深度特征直接计算出来的。在每个mini-batch中，每个模态的每个身份的特征中心的计算公式如下：

其中，

表示mini-batch中第i个行人的第m个可见光图像特征，

表示第i个行人的第m个红外图像特征。

使用余弦距离来度量两个中心之间的距离，公式如下：

其中，dist()表示的是余弦距离。

异质中心损失只约束每个类的中心距离来提高类内跨模态相似度，而没有学习的区别特征表示来扩大类间差异。为此本方法还同时使用了hard-mining三元组损失。对于mini-batch中的每个特征

可以挖掘出最难正样本

以及最难负样本

来构成三元组，细粒度的三元组函数如下所示：

其中，m表示的是margin，

表示mini-batch中第i个身份的第a张图像的第P个局部特征。

除了hard-mining三元组损失，本方法还使用到了交叉熵损失来一起增强对区别性特征的学习，交叉熵损失函数的公式表示为：

是第i个图像的第a个部分的特征映射的特征向量。

全局特征的损失函数具体如下：

对于更新后的全局特征，首先采用一个平均池化层进行下采样操作，再用一个线性层和批量归一化层来对特征进行降维，最后遵循常规的特征学习策略，对降维后的特征采用交叉熵损失和hard-mining三元组损失来提升全局特征的区别性。

在交叉熵损失L_{id_g}中，K表示batch的大小，x_i表示采集于第y_i个类的第i个样本的特征，y_i是第i个样本的身份，W_j是第j个身份的分类器。Hard-mining三元组损失L_{tri_g}中，m表示的是margin，F^a,i表示mini-batch中第i个身份的第a张图像的全局特征。

最终，网络的总损失是局部特征损失和全局特征损失的和：

L_all＝(L_{id_p}+λ₁L_hc+λ₂L_{tri_p})+L_{id_g}+L_{tri_g}

其中，λ₁和λ₂是局部特征嵌入中平衡异质中心损失和三元组损失的权重参数。

如图3-图5所示，通过以下一具体示例作展开说明：

设置的实验参数如下：

选用SGD优化器并且前30个epoch的学习率设置为1×10^-2，后30个epoch的学习率为1×10^-4，batch-size设置为64。特征提取器提取的特征被部分对齐模块平均分为p＝6个水平条纹。总损失函数中，异质中心损失的权重λ₁设置为0.6，局部特征的三元组损失的权重λ₂设置为0.8，hard-mining三元组损失中的m设为0.3。

采用SYSU-MM01测试集对训练得到的模型进行测试，寻找最优模型；

在测试阶段，我们将测试集中的可见光图像用作gallery集，将红外图像用作probe集。对于probe集中的每张图像，采用欧式距离来计算红外图像和gallery集中每张可见光图像间的特征相似度来进行匹配。

利用训练得到的最优模型，将待查询的行人图像输入最终的网络模型中提取特征，然后与检索库中行人的特征进行相似度比对，并按照相似度的高低排序，从排序列表中找到对应的行人身份信息，从而得到识别结果。

将训练得到的最优模型应用到行人重识别中，将可见光和红外摄像头获取的行人图像传入模型中提取特征，组成一个行人特征库。在商场、路边、车站等人流密集地段进行应用，对目标行人快速检测并上传至云端。服务器将通过多粒度特征利用网络模型提取出行人特征，与行人特征库进行相似性度量，查看与之相似度高的行人信息，从而追踪到目标行人。

本领域普通技术人员可以理解，实现上述实施例中的全部或部分步骤是可以通过程序指令和/或相关的硬件来完成，所述的程序可以存储于一个计算机可读取存储介质中，该程序在执行过程时，包括上述实施例的各个步骤，而所述的存储介质可以是：ROM/RAM、磁碟、光盘等。因此，与本申请方法相对应的，本申请还同时包括一种数据源，该数据源通常用与本申请方法各步骤相对应的功能模块的形式表示，但本领域技术人员应当理解，该模块化的表示并非是本申请的系统所唯一采用的方式，其实质上也应与具体的软件和/或硬件(计算机设备、微处理器或各类可编程逻辑器件)系统相对应。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括1个或者更多个数该特征。在本申请的描述中，“多个”的含义是至少2个，例如2个，3个等，除非另有明确具体的限定。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可根据这些实施例子做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例及落入本申请范围的所有变更和修改。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例的技术方案的精神和范围。

Claims

1.一种多粒度特征利用的跨模态行人重识别方法，其特征在于，包括：

将跨模态行人重识别的数据集划分为训练集和测试集两部分，在训练集中采用随机批采样策略获取身份对应、数量相同的可见光图片和红外图片；

加载训练集对所述多粒度特征利用网络模型进行训练；

采用测试集对训练得到的模型进行测试，寻找最优模型；

利用最优模型对跨模态行人重识别进行查询匹配。

2.根据权利要求1所述的多粒度特征利用的跨模态行人重识别方法，其特征在于，所述构建包括局部特征提取模块、局部特征约束模块以及多模态特征聚合模块的多粒度特征利用网络模型，其中，所述局部特征提取模块配置为，

将所述公共子空间内的局部特征融合后得到全局特征；

3.根据权利要求2所述的多粒度特征利用的跨模态行人重识别方法，其特征在于，所述分别提取两个模态图像的局部特征，并投影到一个公共子空间内，包括：

对公共子空间内的p个局部特征分别计算损失函数。

4.根据权利要求3所述的多粒度特征利用的跨模态行人重识别方法，其特征在于，所述将所述公共子空间内的局部特征融合后得到全局特征，包括：将公共子空间内的p个局部特征通过cat拼接进行连接。

5.根据权利要求4所述的多粒度特征利用的跨模态行人重识别方法，其特征在于，所述将所述全局特征输入到多模态特征聚合模块内计算关系特征，包括：

对所述更新后的全局特征计算损失函数。

6.根据权利要求5所述的多粒度特征利用的跨模态行人重识别方法，其特征在于，采用SYSU-MM01数据集的测试集进行算法精度验证，以测试集中的可见光图像用作gallery图库集，将红外图像用作probe指针集，对于probe集中的每张图像，采用欧式距离计算所述红外图像和gallery集中每张所述可见光图像间的特征相似度来进行匹配。

7.根据权利要求6所述的多粒度特征利用的跨模态行人重识别方法，其特征在于，所述损失函数包括交叉熵损失和hard-mining三元组损失。

8.根据权利要求7所述的多粒度特征利用的跨模态行人重识别方法，其特征在于，根据训练得到的所述最优模型，将待查询的行人图像输入所述最优网络模型中提取特征，然后与检索库中行人的特征进行相似度比对，并按照相似度的高低排序，从排序列表中找到对应的行人身份信息，从而得到识别结果。