CN112434796B

CN112434796B - 一种基于局部信息学习的跨模态行人再识别方法

Info

Publication number: CN112434796B
Application number: CN202011426416.1A
Authority: CN
Inventors: 黄德双; 伍永
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-10-25
Anticipated expiration: 2040-12-09
Also published as: US20220180132A1; CN112434796A; US11836224B2

Abstract

本发明涉及一种基于局部信息学习的跨模态行人再识别方法，包括：获取标准数据集，并对标准数据集进行数据增强；将数据增强后的标准数据集划分为训练集和测试集；基于双流ResNet50卷积神经网络架构，构建跨模态行人再识别训练网络；将训练集输入跨模态行人再识别训练网络，通过训练得到跨模态行人再识别测试网络；从测试集中随机选取一张待查询图像，将待查询图像以及测试集中的候选数据库输入跨模态行人再识别测试网络，得到待查询图像对应的识别精度值。与现有技术相比，本发明通过有效提取不同模态图像之间的特定特征、对特定特征进行中高层特征联合学习以得到共享特征，能够减小RGB与红外两种模态之间的差异性、提高跨模态行人再识别的识别精度。

Description

一种基于局部信息学习的跨模态行人再识别方法

技术领域

本发明涉及计算机模式识别图像处理技术领域，尤其是涉及一种基于局部信息学习的跨模态行人再识别方法。

背景技术

行人再识别(Person Re-identification，PReID)是运用计算机视觉以及度量学习等方法，用来判断图像或者视频序列中是否在跨摄像机下出现某特定行人的图像检索技术，由于该技术能够在智能视觉监控和预防犯罪应用中发挥巨大作用，因此被受到广泛关注，随着深度学习技术的兴起，行人再识别技术在某些限定的条件下取得了较高的识别精度，但仍面临着行人图像的视角不同、姿态不同、遮挡、光照条件、背景干扰等难题。

现有的行人再识别技术大多是基于可见光摄像机所拍摄的同一类型的RGB数据，然而在实际生活中，可见光摄像机在条件有限的室内环境或光线不足的黑夜里无法获取行人的外观特征，导致识别结果准确度较低。因此，目前有研究结合可见光摄像机及红外摄像机进行跨模态行人再识别，与单模态行人再识别技术不同的是，可见光-红外跨模态行人再识别技术不仅存在视角、姿态变化等难题，而且也面临着两种模态图像的成像特点带来的巨大差异难题，因为可见光摄像机拍摄的是RGB图像，而红外摄像机拍摄的是红外图像，RGB图像有3个含有颜色信息的通道，没有行人的红外特征；而红外图像数据只有1个通道，没有颜色等重要特征，并且两种模态图像的波长范围也不同，使得跨模态行人再识别工作愈加困难。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于局部信息学习的跨模态行人再识别方法，通过有效提取不同模态图像之间的特定特征及共享特征，从而提高行人再识别的识别精度。

本发明的目的可以通过以下技术方案来实现：一种基于局部信息学习的跨模态行人再识别方法，包括以下步骤：

S1、获取标准数据集，并对标准数据集进行数据增强，其中，标准数据集内包含多个行人类别数据，每个行人类别数据包括多张RGB图像及多张红外图像；

S2、将数据增强后的标准数据集划分为训练集和测试集；

S3、基于双流ResNet50卷积神经网络架构，构建跨模态行人再识别训练网络，其中，跨模态行人再识别训练网络包括依次连接的自注意力学习模块、局部特征联合学习模块和损失函数训练模块；

S4、将训练集输入跨模态行人再识别训练网络，通过训练得到跨模态行人再识别测试网络；

S5、从测试集中随机选取一张待查询图像，将待查询图像以及测试集中的候选数据库输入跨模态行人再识别测试网络，得到待查询图像对应的识别精度值。

进一步地，所述步骤S1中数据增强具体是对图像依次进行水平翻转以及随机裁剪处理。

进一步地，所述步骤S3具体包括以下步骤：

S31、在双流ResNet50卷积神经网络的第二阶段输出和第三阶段输出位置分别嵌入自注意力学习模块，所述自注意力学习模块用于提取RGB图像以及红外图像的位置信息、捕获局部细节特征，以增强RGB图像和红外图像各自的特定特征表达；

S32、将双流ResNet50卷积神经网络的第三阶段输出及第四阶段输出连接至局部特征联合学习模块，所述局部特征联合学习模块用于进一步捕获RGB图像以及红外图像的局部细节特征，以进行中高层局部特征拼接，得到局部特征拼接块；

S33、将局部特征联合学习模块连接至损失函数训练模块，利用损失函数训练模块对局部特征拼接块进行训练和学习，以增强RGB图像和红外图像的共享特征表达，至此构建得到跨模态行人再识别训练网络。

进一步地，所述自注意力学习模块包括空洞卷积单元、通道重排单元以及批归一化处理单元。

进一步地，所述自注意力学习模块的具体表达式为：

F₁＝Fla(D₁(X))

F₂＝Fla(D₂(X))

F₃＝Per(F₂)

其中，X为输入的特征图，其维度大小为(C，H，W)；

Fla表示将多维数据进行一维化操作，D₁和D₂表示卷积核大小为3×3的空洞卷积，F₁和F₂表示经过卷积和一维化后得到的特征图，其维度为(1，H×W)；

Per表示通道重排处理，F₃是将F₂进行通道重排后得到的特征图，其维度大小为(H×W，1)；

表示张量相乘，将特征图F₃与F₁进行相乘得到S，特征图S的大小为(H×W，H×W)；

GAP表示全局平均池化运算，

表示张量加法运算，Conv_1×1表示卷积核大小为1×1的卷积操作，M是经过多次处理后的特征图，其维度大小为(H×W，1)；

F为输出的特征图，其维度大小为(C，H，W)。

进一步地，所述局部特征联合学习模块包括平均池化单元、空间维度切分单元以及局部特征拼接单元，所述平均池化单元用于对第三阶段和第四阶段的输出进行平均池化运算，以分别得到第三阶段和第四阶段对应的特征图；

所述空间维度切分单元用于对第三阶段和第四阶段对应的特征图进行空间维度切分，以分别得到第三阶段和第四阶段对应的局部特征块；

所述局部特征拼接单元用于将第三阶段和第四阶段对应的局部特征块进行拼接，以得到局部拼接块。

进一步地，所述损失函数训练模块采用交叉熵损失函数以及异质中心损失函数联合进行训练。

进一步地，所述损失函数训练模块的具体表达式为：

L_i＝L_CE+λL_HC

其中，L_All为损失函数训练模块的整体训练损失函数，L_i为第i个局部拼接块对应的训练损失函数，P为局部拼接块的总个数，L_CE为交叉熵损失函数，L_HC为异质中心损失函数。

进一步地，所述交叉熵损失函数具体为：

其中，L_CE为交叉熵损失函数，N为一次训练所选取的样本数，M为总的类别数，x_n为训练集中类别y_n中第n个样本提取的特征，

为类别y_n中第n个样本的权重，

为类别y_n中第n个样本的偏置，W_m为训练集中类别m的权重，b_m为类别m的偏置。

进一步地，所述异质中心损失函数具体为：

其中，L_HC为异质中心损失函数，C_a，1和C_a，2分别为类别a中可见光模态和红外模态的特征分布中心，V和T分别为类别a中RGB图像的数量和红外图像的数量，X_a，1，b和X_a，2，b分别为类别a中第b张RGB图像和红外图像。

与现有技术相比，本发明具有以下优点：

一、本发明基于双流ResNet50卷积神经网络架构，构建得到跨模态行人再识别网络，通过分别学习和提取RGB图像和红外图像两种模态的特定特征，再将特定特征经过局部特征联合学习、损失函数训练，以学习和提取不同模态数据的共享特征，从而减小RGB图像和红外图像两种模态数据之间的差异性，提高跨模态行人再识别的识别准确度。

二、本发明通过在双流ResNet50卷积神经网络中第二阶段和第三阶段输出分别嵌入自注意力学习模块，利用自注意力学习模块来获取行人的局部区域和内容信息，增强两种模态行人图像中特定特征的表达能力，具体是通过空洞卷积，通道重排以及批归一化处理，以获取两种模态图像中具有判别力的位置信息，从而提升两种模态中特定特征的表征能力，以此提高后续识别结果的精度。

三、本发明通过将双流ResNet50卷积神经网络的第三阶段输出及第四阶段输出连接至局部特征联合学习模块，并将局部特征联合学习模块连接至损失函数训练模块，利用局部特征联合学习模块进行中高层局部特征拼接，结合中高层特征联合学习策略以及交叉熵损失与异质中心损失融合的训练方式，有利于缓解关于目标行人的判别性特征的丢失问题，不仅能关注不同模态行人的全局信息，更能加强对局部特征的提取能力，增强两种模态的共享特征能力的表达，有利于进一步提升跨模态行人再识别的识别准确度。

附图说明

图1为本发明的方法流程示意图；

图2为实施例中跨模态行人再识别测试网络的结构示意图；

图3为自注意力学习模块的工作原理示意图；

图4为局部特征联合学习的工作原理示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种基于局部信息学习的跨模态行人再识别方法，包括以下步骤：

数据增强则具体是对图像进行水平翻转和随机剪裁处理；

S2、将数据增强后的标准数据集划分为训练集和测试集；

S3、基于双流ResNet50卷积神经网络架构，构建跨模态行人再识别训练网络，其中，跨模态行人再识别训练网络包括依次连接的自注意力学习模块、局部特征联合学习模块和损失函数训练模块，具体的，首先在双流ResNet50卷积神经网络的第二阶段输出和第三阶段输出位置分别嵌入自注意力学习模块，自注意力学习模块用于提取RGB图像以及红外图像的位置信息、捕获局部细节特征，以增强RGB图像和红外图像各自的特定特征表达；

之后将双流ResNet50卷积神经网络的第三阶段输出及第四阶段输出连接至局部特征联合学习模块，局部特征联合学习模块用于进一步捕获RGB图像以及红外图像的局部细节特征，以进行中高层局部特征拼接，得到局部特征拼接块；

最后将局部特征联合学习模块连接至损失函数训练模块，利用损失函数训练模块对局部特征拼接块进行训练和学习，以增强RGB图像和红外图像的共享特征表达，至此构建得到跨模态行人再识别训练网络；

本实施例中，跨模态行人再识别网络结构如图2所示，一个ResNet50支流用于提取RGB图像数据的特征，另一支流用于红外图像数据的特征提取，在各支流ResNet50的特征提取过程中的阶段2(Stage 2)，阶段3(Stage 3)分别嵌入自注意力学习模块，以分别捕获两种模态图像的位置特征和内容信息，增强各自特定特征的表达能力；

再将第3阶段(Stage 3)和第4阶段(Stage 4)的特征图进行平均池化(AP)运算，将池化后的特征图进行空间维度切分，本实施例将第3阶段的特征图切分成6份、将第4阶段的特征图切分成2份，一共得到共8份含有可见光特征和红外特征的局部特征块，最后采用中高层局部特征联合学习策略，将第3阶段的中层局部特征和第4阶段的高层局部特征进行局部特征的拼接，得到局部特征拼接块；

最后采用交叉熵损失和异质中心损失联合训练，以此来学习和提取两种模态数据的共享特征；

S5、从测试集中随机选取一张待查询图像，将待查询图像以及测试集中的候选数据库输入跨模态行人再识别测试网络，得到待查询图像对应的识别精度值，在实际应用中，具体是按照设置的测试模式进行学习测试，其中测试模式包含两种：1、待查询图像为RGB图像，则候选数据库中的图像均为红外图像，即将候选数据库内的红外图像依次与待查询的RGB图像进行匹配计算；2、待查询图像为红外图像，则候选数据库中的图像均为RGB图像，即将候选数据库内的RGB图像依次与待查询的红外图像进行匹配计算。

具体的，在步骤S3构建跨模态行人再识别训练网络时，其中的自注意力模块是由空洞卷积，通道重排以及批归一化处理三部分组成，用于获取两种模态图像中具有判别力的位置信息，提升两种模态中特定特征的表征能力。自注意力学习模块的工作原理如图3所示，其目的是捕获局部信息和长距离依赖关系，提取目标行人的位置特征和内容信息，包括两层空洞卷积层，一层1*1卷积层，一层全局平均池化层，首先对维度为(C，H，W)的输入特征图X进行两层空洞卷积运算：

F₁＝Fla(D₁(X))

F₂＝Fla(D₂(X)

F₃＝Per(F₂)

其中，

D₁和D₂分别表示3*3大小的空洞卷积运算，Fla表示将得到的多维特征图一维化，Per为通道重排操作；

再通过矩阵乘法来获取特征图长距离依赖关系以及局部的位置特征：

其中，

对提取到的特征F₃再次进行GAP运算，对判别性信息重新聚合：

最后输出特征图：

其中，

表示张量加法运算，Conv_1×1表示卷积核大小为1×1的卷积操作，M是经过多次处理后的特征图，其维度大小为(H×W，1)。

对于局部特征联合学习模块和损失函数训练模块，两者基于局部特征联合学习策略，如图4所示，主要是将双流ResNet50网络的第三阶段以及第四阶段先进行平均池化运算，再将得到的特征图进行空间切分，之后将双流切分后的特征进行拼接，并输入到损失函数训练模块中进行学习和训练，以此获取两种模态的行人图像的局部的、细节性的特征，增强两种模态图像的共享特征的表达能力，从而提升整个行人再识别网络的识别性能和泛化能力。损失函数训练模块具体采用交叉熵损失函数以及异质中心损失函数联合进行训练，以尽可能地去实现类间差异的判别和类内跨模态相似性度量：

L_i＝L_CE+λL_HC

其中，L_All为损失函数训练模块的整体训练损失函数，L_i为第i个局部拼接块对应的训练损失函数，P为局部拼接块的总个数，本实施例中，P＝8，i∈{1，2，3，…，8}，L_CE为交叉熵损失函数，L_HC为异质中心损失函数。

对于交叉熵损失函数，和一般分类任务所用损失函数相同：

为类别y_n中第n个样本的权重，

对于异质中心损失函数，通过约束两个异质模态之间的类内中心距离来监督网络学习跨模态信息：

本实施例中，网络训练过程中的训练参数包括：训练总周期(epoch)设置为60，批量大小(batch size)为64，学习率更新方式为：

采用本发明提出的方法，本实施例在RegDB跨模态数据集上与其他识别方法进行比较，得到对应识别结果如表1所示：

表1

表1中，Visible to Thermal表示待查询图像为RGB图像，候选数据库的图像均为红外图像；Thermal to Visible表示待查询图像是红外图像，候选数据库的图像均为RGB图像，从表1的数据可知，采用本发明提出的行人再识别方法，其Rank-1正确率值和mAP值均优于现有的其他识别方法，表明本发明不仅能够关注到不同模态行人的全局信息，更能加强对局部特征的提取能力，增强两种模态的特定特征以及共享特征能力的表达，从而提升跨模态行人再识别的识别精度。

综上所述，本发明考虑到解决跨模态行人再识别的关键点在于特征提取和度量学习，而如何有效提取不同模态图像之间有判别性、精细的特定特征和共享特征，则成为跨模态行人再识别技术的重点和难点，因此提出一种基于局部信息学习的跨模态行人再识别方法，通过融合自注意力和局部特征联合学习，设计了一种简单有效的自注意力学习模块，通过较大感受野的采样机制，能够学习到两种模态图像中具有判别力的位置特征和内容信息，从而增强特定特征的表达能力、提升跨模态行人再识别的识别性能；

采用中高层特征联合学习策略，注重骨干网络中各阶段的特征的重要性，有利于缓解关于目标行人的判别性特征的丢失问题，本发明在训练或学习过程中，采用中高层局部特征联合训练策略，不仅能关注不同模态行人的全局信息，更能加强对局部特征的提取能力，增强两种模态的共享特征能力的表达，从而有利于提升跨模态行人再识别的识别性能。