CN112507853B

CN112507853B - 一种基于互注意力机制的跨模态行人重识别方法

Info

Publication number: CN112507853B
Application number: CN202011402963.6A
Authority: CN
Inventors: 张艳宁; 杨毅飞; 张世周; 王鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2024-05-14
Anticipated expiration: 2040-12-02
Also published as: CN112507853A

Abstract

本发明公开了一种基于互注意力机制的跨模态行人重识别方法。本方法的重识别网络包括保持空间信息的基准网络和互注意力机制网络，保持空间信息的基准网络用来提取两个模态共有的与模态无关的，并且保持空间信息的特征，在此基础上，互注意力机制网络用来关注两个行人间的语义相同之处，从而判断两个行人是否属于同一行人。本方法可以通过对比两张不同模态图像共有特征的相同语义信息，判断两张行人图像是否属于同一行人，提高跨模态的行人重识别任务的精度。本发明能很好地解决光照情况多变条件下的行人重识别任务。

Description

一种基于互注意力机制的跨模态行人重识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种行人重识别方法。

背景技术

行人重识别任务已经成为图像识别领域的热点。行人重识别任务的主要目的是检索一个摄像头中出现的行人是否曾经出现在其它摄像头中，即给定一个摄像头下的一张行人图像，从候选图像库中选出同一个行人图像。行人重识别技术广泛应用于刑侦、寻人、图像检索等方面。目前大多数行人重识别方法都针对单一RGB模态的行人图像，然而现实生活中，存在很多光照条件不好的情况，在光照较暗的条件下，RGB摄像头无法工作，红外摄像头可以很好地拍摄行人图像，而且现在很多监控摄像头都有根据光照强度自动切换RGB和红外摄像头的功能。所以，设计跨模态的行人重识别方法，即给定红外(RGB)行人图像，能从RGB(红外)图像中找出相同行人的图像，十分重要，能很好地解决光照情况多变条件下的行人重识别任务。

相比于单一模态的行人重识别，跨模态的行人重识别任务更具有挑战性。它不仅面临行人姿势，遮挡，摄像机拍摄高度、角度不同等问题，还面临跨模态图像之间的差异。当人类在判断两个模态行人图像是否属于同一个行人时，更关注与模态无关的信息，如性别，高矮胖瘦，衣着纹理等。之后，往往会对比两个行人共有信息有什么不同，从而判断两个行人是否属于同一个行人。

发明内容

为了克服现有技术的不足，本发明提供了一种基于互注意力机制的跨模态行人重识别方法。本方法的重识别网络包括保持空间信息的基准网络和互注意力机制网络，保持空间信息的基准网络用来提取两个模态共有的与模态无关的，并且保持空间信息的特征，在此基础上，互注意力机制网络用来关注两个行人间的语义相同之处，从而判断两个行人是否属于同一行人。本方法可以通过对比两张不同模态图像共有特征的相同语义信息，判断两张行人图像是否属于同一行人，提高跨模态的行人重识别任务的精度。本发明能很好地解决光照情况多变条件下的行人重识别任务。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：构建基于互注意力机制的跨模态行人重识别网络，依次为保持空间信息的基准网络和互注意力机制网络；保持空间信息的基准网络用来提取RGB和红外两个模态共有的与模态无关的，并且保持空间信息的特征；在保持空间信息的基准网络基础上，互注意力机制网络用来关注两个行人间的语义相同之处，从而判断两个行人是否属于同一行人；

步骤2：保持空间信息的基准网络；

保持空间信息的基准网络包含两个分支：RGB分支和红外分支；RGB分支和红外分支都包含4个卷积层，RGB分支和红外分支的前两个卷积层作为特定模态特征提取器提取每个模态图像的模态间共有特征和各个模态特有的特征；RGB分支和红外分支后两个卷积层作为跨模态共有特征提取器舍弃与模态相关的特征，只保留与模态无关的特征，即学习RGB和红外图像的共有特征；

定义C_R(·)代表RGB图像的特征提取器，C_I(·)代表红外图像的特征提取器，给定一幅RGB图像R和一幅红外图像I，提取的3D共有特征F_R和F_I表示为：

其中C、H、W分别代表特征图的通道数、高度和宽度；

步骤3：互注意力机制网络；

步骤3-1：计算特征F_R和F_I之间的亲和度矩阵P：

其中是可学习参数矩阵；将F_R和F_I后两个维度合并，即/> 亲和度矩阵P存储F_R和F_I中点与点之间的相似度，亲和度矩阵P的元素(i,j)^th表示F_R的第i元素和F_I的第j元素之间的相似度；

步骤3-2：对亲和度矩阵P按列进行标准化，得到F_R相对于F_I的注意力图A_R；对P按行进行标准化，得到F_I相对于F_R的注意力图A_I：

A_R＝softmax(P)∈[0,1]^HW×HW (4)

A_I＝softmax(P^T)∈[0,1]^HW×HW (5)

其中，softmax函数按列进行操作，A_R和A_I的列保存互注意力权重；

步骤3-3：根据A_I计算得到F_R相对于F_I的互注意力特征：

根据A_R计算得到F_I相对于F_R的互注意力特征：

其中，互注意力特征由F_I得到，保留了F_R相对于F_I的公共特征；互注意力特征由F_R得到，保留了F_I相对于F_R的公共特征；

步骤3-4：再经过全连接层和sigmoid激活函数计算RGB图像R的相似度和红外图像I的相似度/>

其中σ(·)表示sigmoid函数，W_D表示全连接层的参数；

RGB图像R和红外图像I之间的整体相似度定义为：

步骤4：构造两种损失函数：成对的二分类损失函数和行人所属类别损失函数；

步骤4-1：成对的二分类损失函数定义如下：

其中，l_RI是输入RGB-红外图像对的标签，l_RI＝1表示输入图像对是同一行人，l_RI＝0表示输入图像对不是同一行人；M表示行人对的个数；

步骤4-2：在F_R之后，添加全局平均池化层，得到RGB图像R的全局特征G_R；在F_I之后，添加全局平均池化层，得到红外图像I的全局特征G_I；行人类别损失函数定义如下：

p_R＝softmax(W_ID·G_R) (12)

p_I＝softmax(W_ID·G_I) (13)

其中，W_ID表示行人类别损失函数中最后一个全连接层的权重；p_R和p_I分别是预测的行人类别概率分布；C是行人类别总数；y_R和y_I分别是RGB图像R和红外图像I对应的one-hot类型的类别编码；

步骤4-3：综合损失函数如下：

其中λ是损失函数的平衡系数；

步骤5：构造两种测试方法：完全模式和快速模式；

完全模式使用两张图像的S_RI来表示两张图像的相似度，S_RI与两张图像的相似度成正相关；

快速模式计算RGB图像R的全局特征G_R和红外图像I的全局特征G_I的余弦相似度表示两张图像的相似度。

优选地，所述保持空间信息的基准网络和互注意力机制网络都为在ImageNet数据集上预训练的ResNet-50网络。

本发明的有益效果是：由于采用了本发明提出的一种基于互注意力机制的跨模态行人重识别方法，能够提高跨模态的行人重识别任务的精度，同时很好地解决了光照情况多变条件下的行人重识别任务。

附图说明

图1是本发明方法框架图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

如图1所示，本发明提供一种基于互注意力机制的跨模态行人重识别方法，包括以下步骤：

步骤2：保持空间信息的基准网络；

保持空间信息的基准网络用来提取跨模态(RGB，红外)图像的共有特征，用3D特征张量表示。包含两个分支：RGB分支和红外分支，并且两个分支有相似的网络结构。RGB分支和红外分支都包含4个卷积层，RGB分支和红外分支的前两个卷积层作为特定模态特征提取器提取每个模态图像的模态间共有特征和各个模态特有的特征；RGB分支和红外分支后两个卷积层作为跨模态共有特征提取器舍弃与模态相关的特征，只保留与模态无关的特征，即学习RGB和红外图像的共有特征；

其中C、H、W分别代表特征图的通道数、高度和宽度；

步骤3：互注意力机制网络；

保持空间信息的基准双路网络得到图像特征图之后，设计互注意力机制网络关注两个图像空间语义的相同的地方。互注意力机制网络关注到两张图片，即RGB图像R和红外图像I，捕捉这两张图片的相关性。

步骤3-1：计算特征F_R和F_I之间的亲和度矩阵P：

A_R＝softmax(P)∈[0,1]^HW×HW (4)

A_I＝softmax(P^T)∈[0,1]^HW×HW (5)

步骤3-3：根据A_I计算得到F_R相对于F_I的互注意力特征：

根据A_R计算得到F_I相对于F_R的互注意力特征：

其中σ(·)表示sigmoid函数，W_D表示全连接层的参数；

RGB图像R和红外图像I之间的整体相似度定义为：

步骤4-1：成对的二分类损失函数。基于互注意力机制得到的特征，可以使用二分类器对其分类，如果R和I属于同一个行人，期望分类器将它们的相似特征分类为1，相反，如果R和I不属于同一个行人，期望分类器将它们的相似特征分类为0。为了最小化相同行人对的差异度，并且最大化不同行人对间的差异度，成对的二分类损失函数定义如下：

步骤4-2：在F_R之后，添加全局平均池化层，得到RGB图像R的全局特征G_R；在F_I之后，添加全局平均池化层，得到红外图像I的全局特征G_I；

对每一个行人，都有自己特有的特征，这意味着同一个行人的图片有高度的相似性，即使姿势不同，光照不同，拍摄角度不同等等。所以，在全局特征上增加行人类别损失函数约束，行人类别损失函数定义如下：

p_R＝softmax(W_ID·G_R) (12)

p_I＝softmax(W_ID·G_I) (13)

步骤4-3：综合损失函数如下：

其中λ是损失函数的平衡系数；

步骤5：构造两种测试方法：完全模式和快速模式；

对于P张待查询图片和G张数据库图片，完全模式和快速模式测试时，都需要调用双路网络P+G次来提取P+G张图片的特征。之后完全模式相比于快速模式，需要额外的调用P*G次互注意力机制网络，求P*G对图片的相似度，而快速模式则使用全局平均池化对得到的特征进行降维，之后计算两两之间的余弦相似度。

具体实施例：

1)训练时，对RGB图像和红外图像做相同的预处理操作。所有要输入网络的图像尺寸都调整为256*128，然后在图像的每条外边都添加宽度为10，值为0的像素点，即每幅图像的大小都变为278*148。之后，使用随机裁剪的方式得到多幅大小为256*128的图像，并且随机左右翻转图像，然后将图像输入到网络。测试时，只需要将输入网络图像调整尺寸为256*128的图像即可。

2)RGB和红外图像预处理完之后，需要将预处理过的RGB图像和红外图像组成batch，批量输入到双路网络训练。组成batch步骤为：a)随机选择N个行人类别；b)从每个行人类别中随机选择一张RGB图像和一张红外图像来组成每次迭代输入网络的batch。因此，每个batch中有2*N张图像，并且可以选择N个正样本对和r*N个负样本对，r表示负样本和正样本比例，每一个batch都包含M＝N+rN个图像对。在本实施例中，选择N＝32，r＝3。

3)当batch组成完之后，将组成batch的RGB和红外图像输入到保持空间信息的基准网络。如图1所示，RGB图像输入到RGB网络分支，红外图像输入到红外网络分支。选择在ImageNet数据集上预训练的ResNet-50作为保持空间信息的双路网络的骨干网络。ResNet-50的Input stem,stage 1和stage 2作为特定模态特征提取器，不共享参数；stage 3和stage 4作为跨模态共有特征提取器，共享参数。

4)组成batch的RGB和红外图像经过保持空间信息的基准网络，得到RGB和红外图像共有3D特征F_R和F_I，之后通过互注意力机制，得到F_R和F_I的互注意力特征和/>

5)得到互注意力特征和/>后，通过公式(8)、(9)、(10)可以计算两张输入图像的相似度S_IR。通过公式(11)，对S_IR做成对二分类损失函数约束。

6)通过共有3D特征F_R和F_I经过全局平均池化，可以得到RGB和红外图像的全局特征G_R和G_I，通过公式(12)、(13)、(14)，对全局特征G_R和G_I做行人类别损失函数约束。

7)对网络进行端到端的训练，联合损失函数为公式(15)。使用随机梯度下降优化器优化，训练60个epoch。初始学习率设置为0.1，在30个epoch之后，学习率变为之前的1/10倍。联合损失函数的平衡系数λ＝0.1。

8)模型训练完成后，有两种测试方法：完全模式和快速模式。完全模式精度更高，而快速模式速度更快。无论是完全模式还是快速模式，首先，使用保持空间信息的双路网络提取每个待查询图像和数据库图像的3D特征张量。之后，对于完全模式，使用S_RI来判断两个行人的相似度；而对于快速模式，使用全局特征G_R和G_I表示RGB图像和红外图像的全局特征，通过计算每两个行人全局特征之间的余弦相似度，来判断两个行人图像的相似度，余弦相似度越高，代表两张行人图像越相似。

Claims

1.一种基于互注意力机制的跨模态行人重识别方法，其特征在于，包括以下步骤：

步骤2：保持空间信息的基准网络；

其中C、H、W分别代表特征图的通道数、高度和宽度；

步骤3：互注意力机制网络；

步骤3-1：计算特征F_R和F_I之间的亲和度矩阵P：

A_R＝softmax(P)∈[0,1]^HW×HW (4)

A_I＝softmax(P^T)∈[0,1]^HW×HW (5)

步骤3-3：根据A_I计算得到F_R相对于F_I的互注意力特征：

根据A_R计算得到F_I相对于F_R的互注意力特征：

其中，互注意力特征由F_I得到，保留了F_R相对于F_I的公共特征；互注意力特征/>由F_R得到，保留了F_I相对于F_R的公共特征；

其中σ(·)表示sigmoid函数，W_D表示全连接层的参数；

RGB图像R和红外图像I之间的整体相似度定义为：

步骤4-1：成对的二分类损失函数定义如下：

p_R＝softmax(W_ID·G_R) (12)

p_I＝softmax(W_ID·G_I) (13)

步骤4-3：综合损失函数如下：

其中λ是损失函数的平衡系数；

步骤5：构造两种测试方法：完全模式和快速模式；

2.根据权利要求1所述的一种基于互注意力机制的跨模态行人重识别方法，其特征在于，所述保持空间信息的基准网络和互注意力机制网络都为在ImageNet数据集上预训练的ResNet-50网络。