CN110909605B

CN110909605B - 基于对比相关的跨模态行人重识别方法

Info

Publication number: CN110909605B
Application number: CN201911015544.4A
Authority: CN
Inventors: 王鹏; 杨毅飞; 张世周; 张艳宁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-04-26
Anticipated expiration: 2039-10-24
Also published as: CN110909605A

Abstract

本发明涉及一种基于对比相关的跨模态行人重识别方法，主要包括两部分：保持空间信息的双路网络和对比相关网络。保持空间信息的双路网络用来提取两个模态共有的与模态无关的，并且保持空间信息的特征，在此基础上，对比相关网络被设计用来关注两个行人间的语义差异，从而判断两个行人是否属于同一行人。本发明提高了跨模态的行人重识别任务的精度。

Description

基于对比相关的跨模态行人重识别方法

技术领域

本发明属计算机视觉领域，具体涉及一种基于对比相关的跨模态(RGB-红外)行人重识别方法和系统。这个系统设计了保留空间信息的双路网络来提取不同模态图片模态3D特征张量，在此基础上，设计对比相关网络，关注两个输入行人图片之间语义的不同。

背景技术

行人重识别任务已经成为图像识别领域的热点。行人重识别任务的主要目的是检索一个摄像头中出现的行人是否曾经出现在其它摄像头中，即给定一个摄像头下的一张行人图片，从候选图片库中选出同一个行人图片。行人重识别技术广泛应用于刑侦、寻人、图像检索等方面。目前大多数行人重识别方法都针对单一RGB模态的行人图像，然而现实生活中，存在很多光照条件不好的情况，在光照较暗的条件下，RGB摄像头无法工作，红外摄像头可以很好地拍摄行人图片，而且现在很多监控摄像头都有根据光照强度自动切换RGB和红外摄像头的功能。所以，设计跨模态的行人重识别方法，即给定红外(RGB)行人图片，能从RGB(红外)图片中找出相同行人的图片，十分重要，能很好地解决光照情况多变条件下的行人重识别任务。

相比于单一模态的行人重识别，跨模态的行人重识别任务更具有挑战性。它不仅面临行人姿势，遮挡，摄像机拍摄高度、角度不同等问题，还面临跨模态图片之间的差异。当我们人类在判断两个模态行人图片是否属于同一个行人时，我们更关注与模态无关的信息，如性别，高矮胖瘦，衣着纹理等。之后，我们往往会对比两个行人共有信息有什么不同，从而判断两个行人是否属于同一个行人。受此启示，首先，本发明设计了能保留空间信息并且能提取与模态无关的模态间共有特征的双路网络，之后，本发明设计对比相关网络关注两个输入行人图片语义上的不同之处，从而判断两个跨模态的行人图片是否属于同一个行人。

发明内容

要解决的技术问题

为了克服现有技术的不足，本发明提出了一种基于对比相关的跨模态的行人重识别方法。

技术方案

一种基于对比相关的跨模态行人重识别方法，其特征在于包括训练和测试两部分：

训练

步骤1：训练时，对RGB和红外图片做相同的预处理操作：将输入网络的图片调整尺寸为256*128，然后在图片的每边都添加宽度为10，值为0的像素点，即每张图片的大小都变为了278*148，之后，使用随机裁剪的方式得到大小为256*128的图片，并且随机左右翻转图片；

步骤2：将预处理过的RGB图片和红外图片组成batch，批量输入到双路网络训练；组成batch步骤为：a)随机选择N个行人类别；b)从每个行人类别中随机选择一张RGB图片和一张红外图片来组成每次迭代输入双路网络的batch；每个batch中有2*N张图片，选择N个正样本对和r*N个负样本对，r表示负样本和正样本比例，每一个batch都包含M＝N+rN个图片对；

步骤13：当batch组成完之后，将组成batch的RGB和红外图像分别输入到保持空间信息的双路网络的两个网络分支；在ImageNet数据集上预训练的ResNet-50作为保留空间信息的双路网络的骨干网络，ResNet-50的Input stem，stage 1和stage 2作为特定模态特征提取层，不共享参数；stage 3和stage 4作为共有特征学习层，共享参数；

步骤4：组成batch的RGB和红外图片经过保持空间信息的双路网络，得到RGB和红外图片共有3D特征F_R和F_I，通过kernel采样机制生成卷积核K_R和K_I；计算对比卷积核K_RI＝|K_R-K_I|，F_R与F_I和对比卷积核K_RI分别做卷积，得到对比特征

和

其中生成卷积核的大小设置为3*3，横向移动步长stride_v和纵向移动步长stride_h设置为1；

步骤5：得到对比特征

和

后，通过下式计算两张输入图片的差异度D_IR：

其中，σ(·)表示sigmoid函数，

W_D表示全连接层的参数；

通过下式对D_IR做成对二分类损失函数约束：

其中，l_RI是输入RGB-红外图像对的标签，l_RI＝0表示输入图像对是同一行人，l_RI＝1表示输入图像对不是同一行人；M表示行人对的个数；

步骤6：将共有3D特征F_R和F_I经过全局平均池化，得到RGB和红外图像的全局特征G_R和G_I，通过下式对全局特征G_R和G_I做行人类别损失函数约束：

p_R＝softmax(W_ID·G_R)

p_I＝softmax(W_ID·G_I)

其中，W_ID表示行人类别损失函数中最后一个全连接层的权重；p_R和p_I是预测的行人类别概率分布；C是行人类别总数；y_R和y_I是R和I对应的one-hot类型的类别编码；

步骤7：对双路网络和对比相关网络结合的模型进行端到端的训练，给定联合损失函数：

使用随机梯度下降优化器优化，训练60个epoch；初始学习率设置为0.1，在30个epoch之后，学习率变为之前的1/10倍；联合损失函数的平衡系数λ＝0.1；

测试

在测试阶段，首先对RGB和红外图片做相同的预处理操作：调整输入的图片尺寸为256*128；测试包括两种方法：完全模式和快速模式；对于完全模式，使用两张图片的D_RI来表示两张图片的相似度，D_RI越小，两张图片越相似；对于快速模式，计算R和I的全局特征G_R和G_I的余弦相似度来表示两张图片的相似度，对于P张待查询图片和G张数据库图片，完全模式和快速模式测试时，都需要调用双路网络P+G次来提取P+G张图片的特征；之后完全模式相比于快速模式，需要额外的调用P*G次对比相关网络，求P*G对图片的差异度，而快速模式则使用全局平均池化对得到的特征进行降维，之后计算两两之间的余弦相似度。

所述的步骤2中的N＝32，r＝3。

有益效果

本发明提出的一种基于对比相关的跨模态的行人重识别方法，可以通过对比两张不同模态图片共有特征的不同语义信息，判断两张行人图片是否属于同一行人，提高跨模态的行人重识别任务的精度。

附图说明

图1基于对比相关的行人重识别方法框架图

图2卷积核采样算法

具体实施方式

现结合实施例、附图对本发明作进一步描述：

本发明的技术方案模块主要包括两部分：保持空间信息的双路网络和对比相关网络。保持空间信息的双路网络用来提取两个模态共有的与模态无关的，并且保持空间信息的特征，在此基础上，对比相关网络被设计用来关注两个行人间的语义差异，从而判断两个行人是否属于同一行人。

1.保留空间信息的双路网络

保留空间信息的双路网络被设计用来提取跨模态(RGB，红外)图像的共有特征，用3D特征张量表示。它包含两个分支：RGB分支和红外分支，并且两个分支有相似的网络结构。双路网络主要包括两个步骤：特定模态图片的特征提取和跨模态共有特征提取。特定模态特征提取主要提取每个模态图片的信息，它提取的特征既包括模态间共有特征，也包含各个模态特有的特征。共有特征提取主要目的是舍弃模态相关的特征，只保留与模态无关的特征，即学习RGB和红外图像的共有特征。

如图1所示，RGB图像和红外图像输入到保持空间信息的双路网络。低层的不共享权重的卷积层作为特定模态图片的特征提取器提取包含模态信息的图片特征。共享权重的卷积层被加在这些层后，作为跨模态共有特征提取器，被设计用来将模态相关的两组特征映射到公共隐空间，即学习两个模态图片的共有特征。定义C_R(·)代表RGB图像的特征提取器，C_I(·)代表红外图像的特征提取器，给定一个RGB图像R和一个红外图像I，提取的3D共有特征F_R和F_I可以表示为：

设计的双路网络可以保留图片的空间特征，在此基础上，使用对比相关网络来对比两个输入图片空间语义上的不同，从而判断两个行人图片是否属于同一行人。

2.对比相关网络

双路网络得到图像特征图之后，设计对比相关网络关注两个图像空间语义的不同的地方。对比相关网络包括两个模块：卷积核生成模块和对比相关模块。

卷积核生成模块负责对每一个行人图片，生成特定的卷积核。生成的卷积核包含这个行人相对于其他行人不同的特征。然后，可以计算对比卷积核来表示两个生成的卷积之间的差异。对比相关模块通过对比输入图片对中另一张行人图片，动态的生成对应图片的对比特征。

1)卷积核生成器。卷积核生成器生成对应RGB图像和红外图像的个性化卷积核。以RGB图像R举例，每一个生成的卷积核都表示R局部特征。卷积核可以从F_R中采样：

表示F_R上，高为Sampling(·)，宽为w_K，坐标为(i，j)的F_R的局部块。Cropping(·)代表截取操作。K_R表示从F_R上采样的卷积核的集合，

K_R＝Sampling(F_R,h_T,w_T,stride_h,stride_v), (4)

卷积核采样算法Sampling(·)详细定义如算法1。stride_v和stride_h分别代表竖直方向和横平方向的步长。从公共特征采样的卷积核，被设计为能表示行人固有的特征，舍弃光照，姿势，拍摄角度，模态等等信息。

为了描述卷积核集合之间的差异，我们定义对比卷积如下：

K_RI＝|K_R-K_I|， (5)

在传统的卷积操作中，使用的卷积核是通过训练得到的，而RGB(红外)图像的对比卷积核是根据红外(RGB)图像生成的，被设计表示输入图片对之间的语义差别。

2)对比相关。R对比I的对比特征和I对比R的对比特征通过F_R和F_I与对比卷积核K_RI得到：

表示卷积操作。一个全连接层和sigmoid激活函数被设计在R和I的对比特征之后，来计算R和I的差异度

和

σ(·)表示sigmoid函数，

W_D表示全连接层的参数。R和I之间整体的差异度被定义为上面两个差异度的平均值，即：

3.损失函数

在我们提出的方法中，我们使用了两种损失函数：成对的二分类损失函数和行人所属类别损失函数。

1)成对的二分类损失函数。我们期望相同行人，差异度D_RI为0，相应的，我们期望不同行人的差异度为1。为了最小化相同行人对的差异度，并且最大化不同行人对间的差异度，一个成对的二分类的损失函数被定义如下：

l_RI是输入RGB-红外图像对的标签，l_RI＝0表示输入图像对是同一行人，l_RI＝1表示输入图像对不是同一行人。M表示行人对的个数。

2)行人类别损失函数。同时，在F_R和F_I之后，加上全局平均池化层，得到I和R的全局特征G_I和G_R。对每一个行人，都有自己特有的特征，这意味着同一个行人的图片有高度的相似性，即使姿势不同，光照不同，拍摄角度不同等等。所以，我们在全局特征上增加行人类别损失函数约束，定义如下：

p_R＝softmax(W_ID·G_R) (12)

p_I＝softmax(W_ID·G_I) (13)

W_ID表示行人类别损失函数中最后一个全连接层的权重。p_R和p_I是预测的行人类别概率分布。C是行人类别总数。y_R和y_I是R和I对应的one-hot类型的类别编码。

综合的损失函数如下：

λ是损失函数的平衡系数。

4.测试阶段

在测试阶段，我们提出了两种测试方法：完全模式和快速模式。对于完全模式，我们使用两张图片的D_RI来表示两张图片的相似度，D_RI越小，两张图片越相似。对于快速模式，我们计算R和I的全局特征G_R和G_I的余弦相似度来表示两张图片的相似度。对于P张待查询图片和G张数据库图片，完全模式和快速模式测试时，都要需要调用双路网络P+G次来提取P+G张图片的特征。之后完全模式相比于快速模式，需要额外的调用P*G次对比相关网络，求P*G对图片的差异度，而快速模式则使用全局平均池化对得到的特征进行降维，之后计算两两之间的余弦相似度。

本发明提供了一种基于对比相关的跨模态行人重识别方法，具体过程如下：

1)训练时，对RGB和红外图片做相同的预处理操作。所有要输入网络的图片都调整尺寸为256*128，然后在图片的每边都添加宽度为10，值为0的像素点，即每张图片的大小都变为了278*148。之后，使用随机裁剪的方式得到大小为256*128的图片，并且随机左右翻转图片，然后将图片输入到网络。测试时，只需要将输入网络图片调整尺寸为256*128的图片即可。

2)RGB和红外图片预处理完之后，我们需要将预处理过的RGB图片和红外图片组成batch，批量输入到双路网络训练。组成batch步骤为：a)随机选择N个行人类别；b)从每个行人类别中随机选择一张RGB图片和一张红外图片来组成每次迭代输入网络的batch。因此，每个batch中有2*N张图片，并且我们可以选择N个正样本对和r*N个负样本对，r表示负样本和正样本比例，每一个batch都包含M＝N+rN个图片对。在我们的实施方案中，我们选择N＝32，r＝3。

3)当batch组成完之后，将组成batch的RGB和红外图像输入到保持空间信息的双路网络。如图1所示，RGB图像输入到RGB网络分支，红外图像输入到红外网络分支。我们选择在ImageNet数据集上预训练的ResNet-50作为我们保留空间信息的双路网络的骨干网络。ResNet-50的Input stem,stage 1和stage 2作为特定模态特征提取层，不共享参数；stage3和stage 4作为共有特征学习层，共享参数。

4)组成batch的RGB和红外图片经过保持空间信息的双路网络，得到RGB和红外图片共有3D特征F_R和F_I，通过kernel采样机制(算法1)，可以生成卷积核K_R和K_I。通过公式(5)，可以计算出对比卷积核K_RI，F_R与F_I和对比卷积核K_RI分别做卷积，可以得到对比特征

和

生成卷积核的大小我们设置为3*3，横向移动步长stride_v和纵向移动步长stride_h设置为1。我们得到的3D特征张量尺寸为8*4*2048，因此，我们可以得到12个卷积核。

5)得到对比特征

和

后，通过公式(8)、(9)、(10)可以计算两张输入图片的差异度D_IR。通过公式(11)，对D_IR做成对二分类损失函数约束。

6)通过共有3D特征F_R和F_I经过全局平均池化，可以得到RGB和红外图像的全局特征G_R和G_I，通过公式(12)、(13)、(14)，对全局特征G_R和G_I做行人类别损失函数约束。

7)我们对提出的网络进行端到端的训练，联合损失函数为公式(15)。使用随机梯度下降优化器优化，训练60个epoch。初始学习率设置为0.1，在30个epoch之后，学习率变为之前的1/10倍。联合损失函数的平衡系数λ＝0.1。

8)训练好我们的模型后，有两种测试方法：完全模式和快速模式。完全模式精度更高，而快速模式速度更快。无论是完全模式还是快速模式，首先，使用保持空间信息的双路网络提取每个待查询图片和数据库图片的3D特征张量。之后，对于完全模式，我们使用D_RI来判断两个行人的相似度；而对于快速模式，我们使用全局特征G_R和G_I表示RGB图片和红外图片的全局特征，通过计算每两个行人全局特征之间的余弦相似度，来判断两个行人图片的相似度，余弦相似度越高，代表两张行人图片越相似。