CN112733590A

CN112733590A - 一种基于二阶混合注意力的行人重识别方法

Info

Publication number: CN112733590A
Application number: CN202011231286.6A
Authority: CN
Inventors: 马超; 李哲阳; 崔鹏
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-04-30

Abstract

本申请实施例公开了一种基于二阶混合注意力的行人重识别方法，包括：S1:嵌入二阶混合注意力模块，构建二阶混合注意力的行人重识别网络；S2:利用train数据集对网络进行训练，采用交叉熵损失函数和三元损失函数联合训练，得到网络模型；S3:利用测试集评估网络模型的识别效果。S4:提取由二阶混合注意力模块加权强化的行人特征，并用欧氏距离计算查询行人图像和行人图像库中图像之间的相似度，最后按照相似度大小排列，得到识别结果。本方法与传统的基于学习的行人重识别方法不同之处在于，本方法设计的二阶混合注意力模块，可以捕捉深层网络中特征之间的关联性，以及关注特征图空间域的细粒度信息，并在数据集Market‑1501和DukeMTMC‑ReID上验证本发明的方法有效性。

Description

一种基于二阶混合注意力的行人重识别方法

技术领域

本申请实施例涉及计算机视觉图像处理技术领域，具体涉及一种基于二阶混合注意力的行人重识别方法。

背景技术

行人重识别也称行人再识别，作为图像检索的研究子问题，是利用计算机视觉技术在跨摄像头中判断是否存在特定行人的技术。随着深度学习的飞速发展d，以及已经建立的大规模的ReID数据集。并且行人重识别技术的发展对社会公共安全、刑侦和智能商业等领域都有重要意义，使得行人重识别成为计算机视觉领域一门具有发展前景又富有挑战的研究工作，引起众多学者广泛关注，大量的研究工作使得行人重识别的性能得到广泛的提高，甚至超过了人的分辨率，但是相关技术仍很少应用于到实际工程中，主要是存在以下问题：

1、行人视觉表现差异大，面临校园、超市、街道等复杂场景，摄像头获取的行人图像分辨率不高，同时图像中行人存在遮挡、姿态变换等因素影响，并且不同的光照条件和拍摄视角都给行人重识别带来影响。

2、对大量训练数据的需求。虽然现在拥有众多开源行人重识别数据集，如Market-1501、DukeMTMC-ReID等数据集，但是相对人脸识别的数据集，其训练数据还是较少。同时行人重识别数据集获取较困难，如收集跨时间、跨气候、跨场景的行人数据较困难，数据标准也比较困难。

注意力机制(Attention Mechanism)源于对人类视觉的研究，有选择性地关注所有信息的一部分，同时忽略其他可见的信息，在深度学习中注意力机制可以有效捕捉加权强化的全局特征，消除图像中行人遮挡、姿态变换等干扰，增强模型识别效果。在实际应用中注意力机制一般作为模块，作为一个卷积层或自主学习模块嵌入到CNN中，或者嵌入到CNN尾部，得到多个部位的局部特征，最后通过特征融合或者组合，输出特征向量。

近年来一些学者所提出的一些基于注意力的深度模型如通道注意力SENET、空间注意力机制和混合注意力CBAM利用平均池化层或最大池化层学习一阶信息，或者对通道和空间都学习一阶信息，都忽略了特征图中高阶信息，从而影响了网络的识别效果。

发明内容

为此，本申请实施例提供一种基于二阶混合注意力的行人重识别方法，提出了二阶混合注意力模块，把该模块集成到ResNet50中，提升ResNet50的特征提取能力，增强ResNet50网络对低分辨率、遮挡的行人图像的识别效果。

设计了一种新的注意力机制，即二阶混合注意力模块，通过由二阶空间注意力与通道注意力组成的二阶混合注意力模块，与其他注意力模块不同的是，二阶混合注意力模块利用全局协方差池统计特征图的二阶信息，可以捕捉高层特征之间的关联性,引导与强化卷积神经网络去关注特征图有用的信息而抑制其他非关键的信息，针对性地处理各个通道上的信息，集中关注空间上更有意义的部分，提高网络识别效果。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供了一种二阶混合注意力的行人重识别方法，包括以下步骤：

步骤一：构建包含二阶混合注意力模块的行人重识别网络，其中特征提取的骨干网络为ResNet50的卷积网络，包含全局分支，二阶混合注意力模块，DropBlock分支；

步骤二：利用train数据集对二阶混合注意力行人重识别网络进行训练，得到网络模型，其中采用的损失函数为交叉熵损失函数和三元损失函数；

步骤三：将test数据集输入到由步骤二得到的模型，采用平均精度均值mAP和累积匹配特征曲线CMC curve来评估模型效果；

步骤四：把gallery数据集输入到由步骤二得到的模型，保存模型提取的行人图像特征，最终得到一个行人图像特征数据库，每个特征都有唯一的行人id；

步骤五：输入查询行人图像得到特征，检索图像特征数据库计算出相似度，选出相似度最高的图片，所述图片的行人id就是查询行人图像的行人id。

根据本申请实施例的第二方面，提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行第一方面任一项所述的方法。

根据本申请实施例的第三方面，提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如第一方面任一项所述的方法。

综上所述，本申请实施例提供了一种二阶混合注意力的行人重识别方法，引入了二阶混合注意力模块，通过由二阶空间注意力与通道注意力组成的二阶混合注意力模块，利用全局协方差池统计特征图的二阶信息，可以捕捉深层网络中不同级别的语义信息，以及高层特征之间的关联性,引导与强化卷积神经网络去关注特征图有用的信息而抑制其他非关键的信息，针对性地处理各个通道上的信息，集中关注空间上更有意义的部分，提高网络识别效果。使用交叉熵损失函数和三元损失函数联合训练，其中交叉熵损失函数用于一个多分类任务，而三元损失函数用于度量学习，更好优化模型。与传统的网络相比，本文将全局特征和局部特征融合，得到一个具有批判性的行人特征。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的一种二阶混合注意力的行人重识别方法流程图；

图2为本申请实施例提供的一种基于二阶混合注意力的行人重识别网络结构图；

图3为本申请实施例提供的二阶通道注意力模块的结构；

图4为本申请实施例提供的二阶空间注意力模块的结构。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请实施例提供的一种二阶混合注意力的行人重识别方法流程图，所述方法包括如下步骤：

步骤101：构建包含二阶混合注意力模块的行人重识别网络，其中特征提取的骨干网络为ResNet50的卷积网络，包含全局分支，二阶混合注意力模块，DropBlock分支。

步骤102：利用train数据集对二阶混合注意力行人重识别网络进行训练，得到网络模型，其中采用的损失函数为交叉熵损失函数和三元损失函数。

步骤103：将test数据集输入到由步骤二得到的模型，采用平均精度均值mAP和累积匹配特征曲线CMC curve来评估模型效果。

步骤104：把gallery数据集输入到由步骤二得到的模型，保存模型提取的行人图像特征，最终得到一个行人图像特征数据库，每个特征都有唯一的行人id。

步骤105：输入查询行人图像得到特征，检索图像特征数据库计算出相似度，选出相似度最高的图片，所述图片的行人id就是查询行人图像的行人id。

在一种可能的实施方式中，所述步骤101中构建二阶混合注意力的行人重识别方法，具体步骤如下：

步骤1011：采用ResNet50作为骨干网络，除去ResNet50的全连接层，将Resnet50的第四阶段下采样操作去除，即stage3与stage4中的特征图大小一样；二阶混合注意力模块嵌入到ResNet50的stage2和stage3层，关注网络中行人浅层特征和行人深层特征，输出加权强化的全局特征；

步骤1012：二阶混合注意力模块包括二阶空间注意力模块和二阶通道注意力模块；利用全局协方差池统计特征图的二阶信息，捕捉深层网络中不同级别的语义信息，以及高层特征之间的关联性,引导与强化卷积神经网络去关注特征图有用的信息而抑制其他非关键的信息，针对性地处理各个通道上的信息；

步骤1013：DropBlock模块针对卷积层的正则化，关注局部特征的信息，随机去除特征图的相同区域，使得网络增强对局部特征的学习。

现将结合附图并使用公开数据集Market-1501和DukeMTMC-reID对本发明具体实施做进一步描述。

图2为本发明所使用的网络整体结构，首先输入图片大小为384×128，通过Resnet50的Stage2和Stage3提取的行人浅层特征和行人深层特征，为维持特征图的尺寸，保留行人特征的更多信息，将Resnet50的第四阶段下采样操作去除，即Stage3与Stage4的特征图大小一样。将行人浅层特征和深层特征分别输入到二阶混合注意力模块，最终通过骨干网络输出向量2048×24×8。在全局分支中全局平均池(GAP)层将特征图池化为2048×1×1，然后采用1×1卷积层降维到512×1×1。局部分支引入DropBlock模块针对卷积层的正则化，关注局部特征的信息，随机的去除特征图的相同区域，迫使网络增强对局部特征的学习。将全局特征和局部特征融合得到一个1536×1×1的行人特征。

其中二阶混合注意力模块由二阶通道注意力模块和二阶空间注意力模块组成。二阶通道注意力模块和二阶空间注意力模块分别关注特征图的通道之间联系与像素的细节信息，捕捉不同级别特征的关联性，避免深层网络的梯度消失和退化问题，实现对行人特征的加权强化，计算流程如下：

Step1:对给定中间特征图输入x∈R^C×H×W，中间特征图分别通过二阶通道和空间的注意力模块，在二阶通道注意力模块中生成的通道注意力权重系数W_c∈R^C×1×1，在二阶空间模块中生成二维的空间注意力权重图W_s∈R^C×H×W。

Step2:采用残差学习方案的得到加强最终通过点乘，得到强化的行人特征。计算如下：

(1)

(2)

(3)

图3为本发明的二阶通道注意力模块的结构示意图，计算流程如下：

Step1:输入特征图x∈R^C×H×W即Y＝[y₁,y₂,y₃,…,y_C],对其空间压缩为张量X∈R^C ^×N，其中N＝H×W，然后通过全局协方差池，将这种归一化协方差矩阵作为通道描述符z_C，表示了通道之间的相关性。z_C计算如下：

其中z_C∈R^C×1，H_GCP()表示全局协方差池，

Step2:通过一个可学习变换，即两层卷积层组成，融合通道的二阶信息，最后通过激活函数Sigmod得到二阶通道注意力模块的权重W_C。W_C计算如下：

W_C＝f(W₂β(W₁z_C))

其中W₁、W₂代表两个卷积层权重，前者卷积对输出特征进行降维，后者则输出特征图。在经过第一个卷积层降维到

(

为降维比例系数)，经过第二个卷积层。通道数重新恢复

和

表示激活函数

和

Step3:采用残差学习方案，得到强化的行人特征图

计算如下：

图4为本发明的二阶空间注意力模块的结构示意图，利用特征的二阶信息来学习特征间的相关性，计算流程如下：

Step1:输入特征图

通过卷积层、批量归一化和激活函数

生成特征映射

压缩

的空间维度转换成

其中

Step2:为更好拟合子空间像素点之间复杂的相关性，以及融合跨通道信息，通过全局协方差池得到归一化的协方差矩阵

计算空间矩阵

空间矩阵

捕捉空间

个像素的相关信息，

Step3:激活函数

对空间矩阵

进行归一化处理，与

矩阵相乘，调整维度与特征图

维度大小相同，用激活函数sigmod为特征图重新分配空间权重得到二阶空间注意力模块的权重，将注意力权重与原特征图点乘，进而得到携带空间信息的激活特征图

计算公式如下:

其中

代表激活层。

上述步骤二中，本发明的行人重识别方法训练方法具体如下：

本文使用交叉熵损失函数和三元损失函数对全局特征和局部特征联合训练，其中交叉熵损失函数用于一个多分类任务，而三元损失函数用于度量学习。交叉熵损失通过行人重识别网络分类函数softmax预测行人类别概率与目标标签的损失评估，函数公式如下：

公式(1)中

和

分别为训练过程中的批次大小和类别数量，

表示类别

的权重，

表示第

个样本的特征，其类别为

三元损失函数公式如下：

公式(2)中其中

和

分别为训练过程中的每批次大小和类别数量，

是从锚样本(anchor)、正样本(positive)、负样本(negative)中接收的特征；

是边距超参数,用于调节不相同ID样本和相同ID样本距离的差异。和锚样本具有相同ID的样本为正样本,反之为负样本。

为验证本发明的准确性和鲁棒性，本发明在公开的Market-1501、DukeMTMC-reID进行试验。采用平均精度均值(Mean Average Precision,mAP)和累积匹配特征曲线(Cumulative Math Characteristic curve，CMC curve)来评估模型效果。在Market-1501和DukeMTMC-ReID数据集上进行实验，并与现有的行人重识别方法进行识别结果比较，得到如表1所示的识别结果数据。

表1

本发明方法在Market-1501和DukeMTMC-ReID的Rank-1的准确率分别为95.6％和88.4％,mAP分别达到86.9％和75.1％,超出大多出行人重识别算法。

基于相同的技术构思，本申请实施例还提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行所述的方法。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行所述的方法。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

需要说明的是，尽管在附图中以特定顺序描述了本发明方法的操作，但这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种二阶混合注意力的行人重识别方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤一中构建二阶混合注意力的行人重识别方法，具体步骤如下：

步骤1.1：采用ResNet50作为骨干网络，除去ResNet50的全连接层，将Resnet50的第四阶段下采样操作去除，即stage3与stage4中的特征图大小一样；二阶混合注意力模块嵌入到ResNet50的stage2和stage3层，关注网络中行人浅层特征和行人深层特征，输出加权强化的全局特征；

步骤1.2：二阶混合注意力模块包括二阶空间注意力模块和二阶通道注意力模块；利用全局协方差池统计特征图的二阶信息，捕捉深层网络中不同级别的语义信息，以及高层特征之间的关联性,引导与强化卷积神经网络去关注特征图有用的信息而抑制其他非关键的信息，针对性地处理各个通道上的信息；

步骤1.3：DropBlock模块针对卷积层的正则化，关注局部特征的信息，随机去除特征图的相同区域，使得网络增强对局部特征的学习。

3.如权利要求2所述的方法，其特征在于，所述的二阶混合注意力模块的计算流程为：

步骤A:二阶通道注意力模块输入特征图x∈R^C×H×W即Y＝[y₁,y₂,y₃,…,y_C],对其空间压缩为张量X∈R^C×N，其中N＝H×W；

步骤B:全局协方差池收到特征图x,执行全局协方差池运算，得到归一化协方差矩阵作为通道描述符z_C；z_C计算公式如下：