CN114782997A

CN114782997A - 基于多损失注意力自适应网络的行人重识别方法及系统

Info

Publication number: CN114782997A
Application number: CN202210517995.3A
Authority: CN
Inventors: 张毅锋; 杜天文
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-07-22
Anticipated expiration: 2042-05-12
Also published as: CN114782997B

Abstract

本发明公开了一种基于多损失注意力自适应网络的行人重识别方法及系统。该方法以多损失注意力自适应网络为框架，首先采用行人重识别数据集来训练网络的权重。在完成训练后，将待检测的图像输入到该网络中，与图像库中的行人进行比对，检索出正确的行人图像。与传统的方法相比，本发明利用多损失注意力自适应网络，通过多层非线性变化网络，对图像进行特征提取，同时通过优化损失函数，更新网络参数。本发明可以完成行人图像的检索功能，具有识别准确率高的优点。

Description

基于多损失注意力自适应网络的行人重识别方法及系统

技术领域

本发明属于图像处理、计算机视觉、深度学习技术领域，尤其涉及基于多损失注意力自适应网络的行人重识别方法及系统。

背景技术

行人重识别也叫行人再识别，是一个从多台摄像机拍摄的行人图像中，对特定行人进行相似度匹配的过程。换而言之，在给定一个监控行人图像后，行人重识别系统要检索出其它摄像头中存在的该行人图像。行人重识别是计算机视觉的经典问题之一，在智能安防、视频监控、刑事侦查等实际领域中有很大的应用场景。行人重识别的难度在于不同行人图像之间可能高度相似，而相同行人图像可能会在姿态、分辨率、光线上存在不同，导致难以分辨出来。传统的行人重识别方法集中在如何手工提取更优的视觉特征上，但是传统行人重识别方法特征提取的过程非常耗费精力，面对海量数据时往往难以求解。基于深度学习的行人重识别方法弥补了传统方法上的不足，它能够自动学习鲁棒性特征。当前，迫切需要一种能够有效提升识别准确率的行人重识别网络。

发明内容

本发明目的在于提供一种基于多损失注意力自适应网络的行人重识别方法及系统,以解决行人重识别的准确率不高的技术问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种基于多损失注意力自适应网络的行人重识别方法，该方法包括以下步骤：

步骤1、数据预处理步骤；将训练数据集中的图像进行数据预处理，便于后面的特征提取；

步骤2、基于多损失注意力自适应网络构建损失函数，包括如下子步骤：

步骤2.1、设计多损失注意力自适应网络的网络结构；

步骤2.2、经数据预处理后的训练样本输入到多损失注意力自适应网络中；

步骤2.3、设计损失函数进行反向传播，不断优化网络的参数，直至网络收敛，网络训练完成；

步骤3、进行行人重识别：基于已经训练完成的网络，将待检测的行人图像输入进多损失注意力自适应网络中，提取图像特征，与检索库中的行人图像进行比对，得到最终的检索结果。

进一步的，步骤1中数据预处理步骤具体如下：

将数据集中的图像统一裁剪为256×128像素大小，同时进行数据增广，将图像随机翻折、旋转，扩充数据集。

进一步的，步骤2.1设计多损失注意力自适应的网络结构，具体为：

步骤201、主干网络基于ResNet50网络，包含卷积模块Conv1、卷积模块Conv2、卷积模块Conv3、卷积模块Conv4四个部分；

步骤202、在ResNet50网络中添加注意力自适应模块，用于学习图像特征中的通道相关性、空间相关性，鼓励模型自适应地关注图像的特定区域，抑制住无用信息，筛选出有价值的信息；

步骤203、在主干网络后添加强力批归一化模块，进行特征的进一步提取。

进一步的，步骤2.2经数据预处理后的训练样本输入到多损失注意力自适应网络中，具体为：

首先，在ResNet50的Conv2层后添加空间注意力模块SAM，空间注意力模块SAM在对主干网络的特征图进行建模后，得到一张注意力图AM；T指的是主干网络的输出特征图；将注意力图AM与主干网络的输出特征图T进行融合，获取局部加权的特征；空间注意力模块SAM中还包含了1×1大小的卷积核，可以用于降低输入图像的通道数量，从而突出网络中的有效部分，降低计算复杂度，抑制背景的干扰；

其次，在Conv3层后添加通道注意力模块CAM，通道注意力模块CAM旨在压缩每个通道的权重为特征向量，将具有相同语义信息的通道进行组合，并与原始特征进行融合，鼓励网络结构学习关键通道的特征。

进一步的，根据权利要求3所述的基于多损失注意力自适应网络的行人重识别方法，其特征在于，所述步骤2.1添加强力批归一化模块，具体为：

首先，图像在经过ResNet50主干网络后，还要经过全局平均池化层从而得到特征f1，所述步骤2.3中设计的损失函数包括度量学习损失函数和身份损失函数，度量学习损失函数用于优化特征f1；随后，经过批归一化层的归一化操作后，得到特征f2；

其次，特征f2在经过全连接层时，身份损失函数用于优化特征f2。

进一步的，步骤2.3所设计的损失函数进行反向传播，不断优化网络的参数，直至网络收敛。具体为：

在优化特征f1时使用两种度量学习损失函数，包括Triplet Loss和TriHardLoss。Triplet Loss是将正样本图像P、负样本图像N、固定图像A组成三元组，其中图像P和图像A是一对正样本对，图像N和图像A是一对负样本对；定义两张图片x_1和x_2，f_(x_1)、f_(x_2)分别表示图片x_1和x_2的特征向量，其在特征空间上的距离为欧氏距离d(x_1,x_2)，可表示如下:

定义d_a,p是固定图像A和正样本图像P之间的欧氏距离，d_a,n是固定图像A与负样本图像N之间的欧氏距离，参数α是手动设置的阈值，可控制实际正样本对和负样本对之间的距离，(·)₊是指max(0,·)函数。Triplet Loss旨在让d_a,p尽可能小，d_a,n尽可能大。

Triplet Loss定义为：

L_t＝(d_a,p-d_a,n+α)₊

TriHard Loss是另外一种度量学习损失函数，在训练样本中，选择特征向量距离最大的正样本对和特征向量距离最小的负样本对组成三元组样本对，进行网络训练；选取P个行人的K张图片组成一个训练批次，针对锚点图a，正样本集合为P(a)，负样本集合为N(a)，TriHard Loss表示如下：

将特征向量距离最大的正样本对权重w_p和特征向量距离最小的负样本对权重w_n都设置为1，除此之外的正样本和负样本权重都为0；这样使得样本对都是最不易识别的样本；同时，保证网络不仅能够在特征空间中扩大正负样本之间的距离，同时也能够拉近正样本对之间的距离；

在优化特征f2时使用表征学习损失函数，在神经网络训练过程中，将不同行人图片的身份ID标签当作监督的分类标签；设置行人重识别的数据集中有K_ID个行人的n张图片x，图片x输入到训练网络f中，经过神经网络的最末端全连接层，输出图片x的ID预测向量

输入的图片x为第k个行人ID概率是：

图片x的分类损失为：

其中，q(k)通过图片x的ID标签得到，如果输入图片x的身份标签为m，则q(k)＝1,m＝k，对于任何的m≠k,q(k)＝0。

进一步的，步骤3进行行人重识别具体如下：

步骤301、在检索阶段，待检测的行人图像输入进已经训练完成的网络中，进行特征的提取，得到特征向量；

步骤302、将待检测的行人图像特征向量与已在检索库中的行人图像特征向量进行相似度比对，从中检索出与此人最相似的前十张图像，并按可能性降序对它们进行排序；

步骤303、实验采用的评价指标为识别准确率和均值平均精度；Query表示测试数据集中的待检索库，图片有N_q张，记作

Gallery表示测试数据集中的搜索库，图片有N_g张，记作

Probe表示Query中的某张待检索图片，记为q_j,j∈[1,N_q]；在测试阶段，需要将Gallery中和Probe为同一个身份的行人图像都检索出来；

Rank-k表示第m个识别数即为正确样本的概率；Rank-1表示识别结果排在第一位的即为正确样本的概率；

mAP反映着系统的检索功能，数值越大，说明检索系统的鲁棒性越强；mAP值的区间为[0,1]；当网络检索出所有的正样本时，mAP的值为1；当网络没有检索出任何的正样本时，mAP的值为0。

进一步的，mAP的计算步骤为：

A、定义准确率P，对于Query中的某张Probe图片q_j，返回Gallery的排序结果，设前n个查询结果中与Probe图像是同一个行人ID的数目为m，即：

B、定义平均准确率AP，对于Query的Probe图片q_j，记录排序结果中所有M个正样本排序结果的集合{i₁,i₂,……，i_M}，计算平均Precision，即平均精度：

C、定义平均准确率，Average Precision也称为平均精度，对于所有N_q张Probe图片的Average Precision的平均值，即：

本发明还提供了一种基于多损失注意力自适应网络的行人重识别系统，行人重识别系统包括数据预处理单元、多损失注意力自适应网络训练单元和行人重识别单元；

所述数据预处理单元，将训练数据集中的图像都处理为256×128像素大小的图像，便于后面的特征提取；

所述多损失注意力自适应网络训练单元，用于基于多损失注意力自适应网络构建损失函数，训练网络，被配置以执行以下步骤：

第一步、设计多损失注意力自适应网络的网络结构；

第二步、训练样本输入到多损失注意力自适应网络中；

第三步、设计损失函数进行反向传播，不断优化网络的参数，直至网络收敛；

所述行人重识别单元，被配置以执行以下动作：基于已经训练完成的网络，将待检测的行人图像输入进多损失注意力自适应网络中，提取图像特征，与检索库中的行人图像进行比对，得到最终的检索结果。

本发明的基于多损失注意力自适应网络的行人重识别方法及系统，具有以下优点：

本发明可以用于对摄像头中的行人进行再识别，在图像库中检索出与之相同的行人。与传统的方法相比，本发明利用训练好的多损失注意力自适应网络，可以充分提取图像特征，有效进行行人重识别。同时，本发明对传统方法进行改进，增加的强力批归一化模块可以有效结合两类损失函数的优点，共同优化网络。注意力自适应模块可以抑制无用信息，筛选更有价值的信息，提升信息提取的精度，保证行人重识别的准确度。

附图说明

图1为本发明所提出的基于多损失注意力自适应网络的行人重识别方法示意图；

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于多损失注意力自适应网络的行人重识别方法及系统做进一步详细的描述。

如图1所示，本发明一种基于多损失注意力自适应网络的行人重识别方法包括以下步骤：

步骤1、数据预处理步骤；将训练数据集中的图像进行预处理，便于后面的特征提取；

数据预处理步骤具体如下：

步骤2.1、设计多损失注意力自适应网络的网络结构，具体为：

步骤2.2、所述步骤2.2经数据预处理后的训练样本输入到多损失注意力自适应网络中，具体为：

首先，在ResNet50的Conv2层后添加空间注意力模块SAM，SAM在对主干网络的特征图进行建模后，得到一张注意力图，简称AM。T指的是主干网络的输出特征图。将AM与T进行融合，获取局部加权的特征。空间注意力模块SAM中还包含了1×1大小的卷积核，可以用于降低输入图像的通道数量，从而突出网络中的有效部分，降低计算复杂度，抑制背景的干扰；

其次，在Conv3层后添加通道注意力模块CAM，CAM旨在压缩每个通道的权重为特征向量，将具有相同语义信息的通道进行组合，并与原始特征进行融合，鼓励网络结构学习关键通道的特征。

步骤2.3、设计损失函数进行反向传播，不断优化网络的参数，直至网络收敛；

步骤2.1添加强力批归一化模块，具体为：

步骤2.3所设计的损失函数进行反向传播，不断优化网络的参数，直至网络收敛。具体为：

在优化特征f1时使用两种度量学习损失函数，包括Triplet Loss和TriHardLoss。Triplet Loss是将正样本图像P、负样本图像N、固定图像A组成三元组，其中图像P和图像A是一对正样本对，图像N和图像A是一对负样本对。定义两张图片x₁和x₂，

分别表示图片x₁和x₂的特征向量，其在特征空间上的距离为欧氏距离d(x₁,x₂)，可表示如下:

Triplet Loss定义为：

L_t＝(d_a,p-d_a,n+α)₊

TriHard Loss是另外一种度量学习损失函数，在训练样本中，选择特征向量距离很大的正样本对和特征向量距离很小的负样本对组成三元组样本对，进行网络训练；选取P个行人的K张图片组成一个训练批次，针对锚点图a，正样本集合为P(a)，负样本集合为N(a)，TriHard Loss表示如下：

输入的图片x为第k个行人ID的概率是：

图片x的分类损失为：

步骤3、进行行人重识别：基于已经训练完成的多损失注意力自适应网络，将待检测的行人图像输入进多损失注意力自适应网络中，提取图像特征，与检索库中的行人图像进行比对，得到最终的检索结果。

步骤3进行行人重识别具体如下：

Gallery表示测试数据集中的搜索库，图片有N_g张，记作

mAP的计算步骤为：

B、定义平均准确率AP，对于Query的Probe图片q_j，记录排序结果中所有M个正样本排序结果的集合{i₁,i₂,……，i_M}，计算平均Precision，即：

C、定义平均准确率，对于所有N_q张Probe图片的Average Precision的平均值，即：

第一步、设计多损失注意力自适应网络的网络结构；

第二步、训练样本输入到多损失注意力自适应网络中；

本技术领域技术人员可以理解的是，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器，从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

本技术领域技术人员可以理解的是，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于多损失注意力自适应网络的行人重识别方法，其特征在于，该方法包括以下步骤：

步骤2.1、设计多损失注意力自适应网络的网络结构；

2.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法，其特征在于，所述步骤1中数据预处理步骤具体如下：

3.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法，其特征在于，所述步骤2.1设计多损失注意力自适应的网络结构，具体为：

步骤202、在ResNet50中添加注意力自适应模块，用于学习图像特征中的通道相关性、空间相关性，鼓励模型自适应地关注图像的特定区域，抑制住无用信息，筛选出有价值的信息；

4.根据权利要求3所述的基于多损失注意力自适应网络的行人重识别方法，其特征在于，所述步骤2.2经数据预处理后的训练样本输入到多损失注意力自适应网络中，具体为：

首先，在ResNet50的Conv2层后添加空间注意力模块SAM，SAM在对主干网络的特征图进行建模后，得到一张注意力图，简称AM；T指的是主干网络的输出特征图；将AM与T进行融合，获取局部加权的特征；空间注意力模块SAM中还包含了1×1大小的卷积核，可以用于降低输入图像的通道数量，从而突出网络中的有效部分，降低计算复杂度，抑制背景的干扰；

5.根据权利要求3所述的基于多损失注意力自适应网络的行人重识别方法，其特征在于，所述步骤2.1添加强力批归一化模块，具体为：

首先，图像在经过ResNet50主干网络后，还要经过全局平均池化层从而得到特征f1，所述步骤2.3中设计的损失函数包括度量学习损失函数和身份损失函数，其中度量学习损失函数用于优化特征f1；随后，经过批归一化层的归一化操作后，得到特征f2；

6.根据权利要求5所述的方法，其特征在于，步骤2.3所设计的损失函数进行反向传播，不断优化网络的参数，直至网络收敛，具体为：

在优化特征f1时使用两种度量学习损失函数，包括Triplet Loss和TriHard Loss；Triplet Loss是将正样本图像P、负样本图像N、固定图像A组成三元组，其中正样本图像P和固定图像A是一对正样本对，负样本图像N和固定图像A是一对负样本对；定义两张图片x₁和x₂，

定义d_a,p是固定图像A和正样本图像P之间的欧氏距离，d_a,n是固定图像A与负样本图像N之间的欧氏距离，参数α是手动设置的阈值，可控制实际正样本对和负样本对之间的距离，(·)₊是指max(0,·)函数。TripletLoss旨在让d_a,p尽可能小，d_a,n尽可能大；

Triplet Loss定义为：

L_t＝(d_a,p-d_a,n+α)₊

在优化特征f2时使用表征学习损失函数，在神经网络训练过程中，将不同行人图片的身份ID标签当作监督的分类标签；设置行人重识别的数据集中有K_ID个行人的n张图片，图片x输入到训练网络f中，经过神经网络的最末端全连接层，输出图片x的ID预测向量

输入的图片x为第k个行人ID的概率是：

图片x的分类损失为：

其中，q(k)通过图片x的ID标签得到，若输入图片x的身份标签为m，则q(k)＝1,m＝k，对于任何的m≠k,q(k)＝0。

7.根据权利要求1所述的基于多损失注意力自适应网络的行人重识别方法，其特征在于，步骤3所述进行行人重识别具体如下：

步骤303、实验采用的评价指标为识别准确率和均值平均精度。Query表示测试数据集中的待检索库，图片有N_q张，记作

Gallery表示测试数据集中的搜索库，图片有N_g张，记作

Probe表示Query中的某一张待检索图片，记为q_j,j∈[1,N_q]。在测试阶段，需要将Gallery中和Probe为同一个身份的行人图像全部都检索出来；

8.根据权利要求7所述的基于多损失注意力自适应网络的行人重识别方法，其特征在于，mAP的计算步骤为：

9.根据权利要求1-8任一项所述的一种基于多损失注意力自适应网络的行人重识别系统，其特征在于，行人重识别系统包括数据预处理单元、多损失注意力自适应网络训练单元和行人重识别单元；

多损失注意力自适应网络训练单元，用于基于多损失注意力自适应网络构建损失函数，训练网络，被配置以执行以下步骤：

第一步、设计多损失注意力自适应网络的网络结构；

第二步、训练样本输入到多损失注意力自适应网络中；

行人重识别单元，被配置以执行以下动作：基于已经训练完成的网络，将待检测的行人图像输入进多损失注意力自适应网络中，提取图像特征，与检索库中的行人图像进行比对，得到最终的检索结果。