CN114255474A

CN114255474A - 一种基于多尺度、多粒度行人重识别方法

Info

Publication number: CN114255474A
Application number: CN202011023961.6A
Authority: CN
Inventors: 周大可
Original assignee: Shanghai Shuntong Technology Co ltd
Current assignee: Shanghai Shuntong Technology Co ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-03-29

Abstract

本发明针对传统行人重识别网络在严重遮挡和杂乱背景情况下所提取特征的辨识力不足的缺陷，提出了一种基于多尺度和多粒度的重识别方法。根据行人重识别任务的特点，端到端的提取全局特征和局部特征，同时引入了空间掩膜在像素层级上来调节提取特征的权重，并利用多任务学习的思想设计了损失函数，提高复杂场景下网络的识别精度和鲁棒性。

Description

一种基于多尺度、多粒度行人重识别方法

技术领域

涉及计算机视觉、模式识别、深度学习等领域，具体是一种在跨摄像机不同视频中的实现行人匹配方法。

背景技术

行人重识别作为计算机视觉领域的一个重要研究方向，其目标是判断图像或者视频中是否存在特定行人，即给定一个行人图像，检索跨摄像机下的该行人图像。行人重识别通常也被视为图像检索的子问题，在视频监控、场景分析和智能交通等方面都发挥着重要的作用。

近年来，深度学习技术已广泛应用于行人重识别领域，其研究主要集中于(行人的)特征表述和度量学习。文献(Person re-identification in the wild[C]//CVPR.2017:1367–1376.)首先提出利用深度残差网络提取行人图像的整体特征，但在复杂的交通场景下(如遮挡、杂乱背景等)整体特征的鲁棒性较差。可以使用整体特征和局部特征相结合的方法来提高特征表述的鲁棒性。例如，最近提出的重识别网络 PGFA，(Pose-Guided Feature Alignment for Occluded Person Re-Identification[C]//ICCV.2019:542-551.)使用了整体+局部特征的融合特征，其局域特征依赖于人体特征点检测来提供人体的部位信息，但跨摄像机情况下人体部位会发生显著的变化，进而降低局部特征的辨识力。深度度量学习的研究主要体现在损失函数的设计方面。传统上，对于分类问题通常采用交叉熵损失。文献(In Defense of the Triplet Loss for Person Re-Identification[J].arXiv:1703.07737,2017.)提出使用三元组损失函数，其训练目标是缩小同类样本之间的距离、扩大不同类样本之间的距离。目前，结合交叉熵损失和三元组损失来训练行人重识别网络已经成为了一种常态；但是，这两个损失函数间的平衡很少被讨论。本专利从上述理论出发，针对PGFA等主流网络在复杂场景下所提取的特征辨识力不足的缺陷，提出了一种基于多尺度多粒度的行人重识别方法，提高在严重遮挡和背景杂乱的情况下的行人重识别精度。

发明内容

本发明的目的，在于针对传统行人重识别网络在严重遮挡和杂乱背景情况下所提取特征的辨识力不足的缺陷，提出了一种基于多尺度和多粒度的重识别方法。根据行人重识别任务的特点，端到端的提取全局特征和局部特征，同时引入了空间掩膜在像素层级上来调节提取特征的权重，并利用多任务学习的思想设计了损失函数，提高复杂场景下网络的识别精度和鲁棒性。

具体的技术方案为：一种基于多尺度、多粒度行人重识别方法，其特征在于，包括如下步骤：

步骤1，图像数据预处理：对跨摄像机的行人图片进行预处理；

步骤2，尺度特征提取：将步骤1预处理后的图形数据送入所设计的卷积神经网络，从网络的不同层级获取不同尺度的特征图，使用特征金字塔技术融合不同尺度的特征图，即通过横向连接和上采样技术，将不同层级的特征图相加融合；

步骤3，掩膜提取：在步骤2的融合结构的横向连接中增加空间注意力和通道注意力，首先使用通道注意力机制学习不同通道的特征图权重；然后使用空间注意力机制学习特征图像素级别上的区域权重，得到空间掩膜，改善背景杂乱对行人重识别性能的影响；

步骤4，粒度特征提取：对步骤2所得到的不同尺度的特征图进行分块处理，可以得到不同粒度的特征图，能够改善遮挡对行人重识别性能的影响，最终可以得到多尺度的多粒度的整体特征图；

步骤5，损失函数计算：对步骤4获得的整体特征图进行全局平局池化，然后做L2正则化处理，最终计算基于难例挖掘的三元组损失；对步骤4获得所有的特征图做批量正则化处理，与数据标注的身份信息计算交叉熵损失；对步骤3中的不同尺度的空间掩膜计算L2损失，作为掩膜正则化项；将行人重识别任务看作是前面提到的三个任务的组合，通过最大化同方差不确定性的最大高斯似然推导多任务损失函数，得到最终的损失，对整个网络模型进行训练，不断地迭代优化得到最终的网络参数；

步骤6，输出匹配结果：将查询图片和图片库中图片分别送入步骤5 生成卷积神经网络模型中，得到各自的由三个不同层级、不同粒度的特征向量组合而成的特征表示，对查询图片和图片库中图片的特征之间计算欧氏距离，根据距离的大小进行排序并输出结果。

进一步的，所述步骤1中的数据预处理包括图片尺寸的缩放、水平翻转、归一化和随机擦除。

进一步的，所述的步骤2中的卷积神经网络，其骨干网络选择深度残差网络ResNet-50。

进一步的，所述的步骤3中的通道注意力机制是分别通过全局平均池化和全局最大池化生成与原本融合卷积层通道数相同大小的权重向量，然后通过一个卷积操作将通道数压缩，再使用一个卷积层将通道数还原为输入通道数，然后将两个权重向量相加，经过激活函数激活生成最终的通道权重与输入特征相结合，所述的空间注意力机制是首先分别通过平均池化和最大池化生成特征图，然后将两个特征图连接形成两个通道的特征图，这两个通道的特征图经过一个卷积操作将通道数降为1，然后经过激活函数激活得到空间掩膜。

进一步的，所述的步骤4中的分块处理具体如下：首先，从特征提取网络和特征融合网络得到三个不同尺度的全度特征，然后将分辨率最大的特征图分成3等分水平条纹，中间分辨率的特征图分成2等分水平条纹，最终，这5个水平条纹区域特征图和3个全局特征图，经过全局平均池化操作得到8个特征向量被送入分类网络。

进一步的，所述的步骤5的交叉熵损失函数为：

其中，N表示训练过程中的批次样本的大小，C表示训练集中行人的类别数，所述步骤5中的基于难例挖掘三元组损失函数为：

其中，P表示训练批次中不同行人的个数，K表示每个行人采样的图片的个数，α表示正负样本的距离间隔大小，这里的正样本和负样本是指与样本有相同或不同身份的行人；

所述步骤5中的最大化同方差不确定性的最大高斯似然推导多任务损失函数，多任务损失函数包含交叉熵损失函数和基于难例挖掘的三元组损失函数，对于交叉熵损失函数：

p(y|f^W(x))＝Softmax(f^W(x))

对于难例挖掘的三元组损失函数，将其看是做是符合正态分布的任务：

根据交叉熵损失函数和难例挖掘的三元组损失函数，最大化同方差不确定性的最大高斯似然推导多任务损失函数为：

其中，W是参数矩阵，σ_s,σ_t是观测噪声，

是基于欧氏距离的三元组损失，

是基于多分类任务的交叉熵损失函数。

所述步骤5中的掩膜正则化项为：

其中，M_i是通过注意力机制得到的掩膜。

所述的步骤5中的损失函数为：

其中，

是交叉熵损失函数，

是三元组损失函数，

是掩膜损失函数；λ_s，λ_t是损失权重，通过最大化同方差不确定性的最大高斯似然推导的多任务损失函数自适应的调节，λ_m是正则化项系数，根据经验设置为1，

所述步骤5中的网络训练采用随机梯度下降法(mini-batch SGD)进行训练。

进一步的，所述的步骤6中，对于测试图片，将其输入步骤5中训练好的神经网络模型，网络输出8个不同尺度、不同粒度的特征图，连接后作为最终的行人特征向量表示。

有益效果

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明针对复杂交通场景(如严重遮挡和杂乱背景等)下的行人重识别任务，设计了一种多尺度、多粒度的特征提取网络。多尺度、多粒度的特征图使得网络能够对所输入的图片提取到丰富的细节和语义信息，同时多粒度的特征图使的网络聚集于前景行人不同的区域，能够有效的缓解遮挡对行人重识别性能的影响。

2、本发明在特征融合过程中增加注意力机制。通道注意力机制使得特征图在融合过程中能够自主的调节不同通道的权重；空间注意力机制提取空间掩膜，能有效的改善背景杂乱对行人重识别性能的影响。

3、使用最大化同方差不确定性的最大高斯似然推导多任务损失函数，能够有效调节交叉熵损失、难例挖掘三元组损失和掩膜损失的比例，更好的引导在网络训练过程中的梯度更新和模型更新。

附图说明

图1是本发明技术方案的整体流程图。

图2是本发明技术方案的整体网络结构示意图。

图3是本发明技术方案中特征融合模块的设计示意图。

图4是本发明技术方案中注意力机制的设计示意图具体实施方式。

具体实施例

为使本发明的目的、技术方案和优点更加清楚，下面本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于多尺度的多粒度的行人重识别方法，具体步骤如下：

步骤一：首先对跨摄像机的行人图片(一般是使用行人检测技术在跨摄像机的图片中检测、裁剪而来)进行预处理，输入图片的尺寸为384×128，数据预处理包括图片尺寸的缩放、水平翻转、归一化和随机擦除。随机擦除是模拟行人的遮挡的数据增强方法，具体做法是：在原图上随机选择一个矩形区域，这个矩形区域的像素值会随机换成其他的像素值，每张图片可以做不同程度的遮挡，即不同大小和位置的矩形框。数据预处理能扩充图片数据的数量和图片场景的多样性，增强特征提取网络的鲁棒性和泛化能力。

步骤二：将预处理后的图片送入到骨干网络ResNet-50中去，从 ResNet-50的四个残差块conv2，conv3，conv4，conv5得到四个不同尺寸的特征图c2，c3，c4，c5。为了更好的利用深层特征的语义信息和浅层的细节信息，需要将深层特征和浅层特征融合。深层特征和浅层特征的融合需要横向链接和上采样来实现。在横向链接这一部分增加了通道注意力机制和空间注意力机制。将经过通道注意力机制和空间注意力处理过的横向链接与经过上采样得到的特征图相加，得到最终的三个不同尺度的特征图p2，p3，p4。

步骤三：使用的是通道注意力机制，对c2，c3，c4分别做全局平均池化和全局最大池化，然后使用1×1的卷积核进行降维，降维的比例是16，再使用激活函数来调整每个权重的范围，再使用1×1的卷积核进行通道维度的还原。最终将分别经过全局平均池化和全局最大池化两个支路的权重向量相加得到最终的权重向量，使用激活函数将权重向量的每个权重元素限制在0-1之间，在与c2，c3，c4相乘得到经过通道注意力机制调整后的特征图。对经过通道注意力机制调整后的特征图使用空间注意力机制，与通道注意力机制类似，首先对特征图做全局平均池化和全局最大池化操作，但这个操作是再通道维度上进行的，再将这两个特征图进行拼接得到通道数为2的特征图，然后使用3×3的卷积核将通道数降为1，最终经过激活函数为每个空间点得到0-1之间的权重分数，即特征图的掩膜。将得到的掩膜与输入空间注意力机制的特征图相乘得到经过掩膜权重加权的特征图，最后使用1×1的卷积核将通道数都降为256。

步骤四：为了进一步缓解遮挡对行人重识别性能的影响，本发明采取分块策略。直观上来说，人体姿势检测器将人体的肢体检测出来能很好的辅助行人重识别系统，但是这需要额外训练一个人体姿势检测器，从而无法端到端的训练网络。分块策略也会对人体进行区域划分，这里做水平条纹划分是因为水平划分也符合人的观察习惯，另一方面分块技术只需要对特征图划分即可，非常的灵活且不需要额外的训练网络。具体操作如下：将尺寸最大的特征图p2水平分为三等分得到p21，p22，p23；将p3分成两等份得到p31，p32；p4不做划分。然后将这些特征图进行全局平均池化得到256维的特征向量。

步骤五：对步骤四得到8个特征向量按照多分类的思想使用交叉熵损失函数计算损失，其形式为：

其中，N表示训练过程中的批次样本的大小，C表示训练集中行人类别数。

对步骤二得到的p2，p3，p4三个全局特征图得到的256维的特征向量进行拼接操作得到768维的特征向量计算三元组损失，其形式为：

其中，P表示训练批次中行人的类别数，K表示每个类别中图片的个数，α表示正负样本的距离间隔大小，这里的正样本和负样本是指与样本有相同或不同身份的行人。

为了充分的利用有注意力机制得到的空间掩膜，使用L2损失函数计算掩膜损失作为正则化项，其形式为：

最终本发明的损失函数为：

其中，

是交叉熵损失函数，

是三元组损失函数，

是掩膜损失函数；λ_s，λ_t是损失权重，通过最大化同方差不确定性的最大高斯似然推导的多任务损失函数自适应的调节，λ_m是正则化项系数，根据经验设置为1。

为了平衡交叉熵损失和三元组损失，得到更好的行人重识别性能，使用最大化同方差不确定性的最大高斯似然推导多任务损失函数，来自主的学习每个损失的权重，其推导的多任务损失函数为：

其中，W是参数矩阵，σ_s,σ_t是观测噪声，

是基于欧氏距离的三元组损失，

是基于多分类任务的交叉熵损失函数。

通过将上述整体损失函数

端到端的对整个网络各部分参数进行迭代优化，优化方法采用随机梯度下降法，初始学习率为0.001，将所有数据训练20次后将学习率缩小为原来的0.1，将所有数据训练 60次后得到最终的算法模型。

步骤六：将原始的查询图片和图片库分别送入已经训练好的卷积神经网络模型中，将得到各自的不同层级、不同粒度的特征向量，相加连接后得到各个图片最终的特征表示。计算查询图片和图片库中图片的特征之间的欧氏距离，根据距离的大小进行排序输出匹配结果。

图2是本发明技术方案的整体网络结构示意图，首先将图片数据送入骨干网络ResNet-50，然后使用FPN提取不同尺度的特征图，在对不同尺度的特征图做分块处理，提取不同粒度的特征，最后计算损失函数，优化网络。

图3是本发明技术方案中特征融合模块的设计示意图，首先将尺寸最小的特征图c5通过卷积操作转变成p5，c4通过注意力模块然后与p5 上采样的结果相加得到p4，同样的操作可得p2，p3。

图4是本发明技术方案中注意力机制的设计示意图具体实施方式，注意力模块由通道注意力和空间注意力串联组成，通道注意力机制是分别通过全局平均池化和全局最大池化生成与原本融合卷积层通道数相同大小的权重向量，然后通过一个卷积操作将通道数压缩，再使用一个卷积层将通道数还原为输入通道数，然后将两个权重向量相加，经过激活函数激活生成最终的通道权重与输入特征相结合。空间注意力机制首先分别通过平均池化和最大池化生成特征图，然后将两个特征图连接形成两个通道的特征图，这两个通道的特征图经过一个卷积操作将通道数降为1，然后经过激活函数激活得到空间掩膜。

对于本领域的技术人员，可根据以上描述的技术方案及构思，出其他改变或形变，但这些变化或形变仍应属于本发明权利要求保护的范围之内。

Claims

1.一种基于多尺度、多粒度行人重识别方法，其特征在于，包括如下步骤：

步骤6，输出匹配结果：将查询图片和图片库中图片分别送入步骤5生成卷积神经网络模型中，得到各自的由三个不同层级、不同粒度的特征向量组合而成的特征表示，对查询图片和图片库中图片的特征之间计算欧氏距离，根据距离的大小进行排序并输出结果。

2.根据权利要求1所述的基于多尺度、多粒度行人重识别方法，其特征在于，所述的步骤1中的数据预处理包括图片尺寸的缩放、水平翻转、归一化和随机擦除。

3.根据权利要求1所述的基于多尺度、多粒度行人重识别方法，其特征在于，所述的步骤2中的卷积神经网络，其骨干网络选择深度残差网络ResNet-50。

4.根据权利要求1所述的基于多尺度、多粒度行人重识别方法，其特征在于，所述的步骤3中的通道注意力机制是分别通过全局平均池化和全局最大池化生成与原本融合卷积层通道数相同大小的权重向量，然后通过一个卷积操作将通道数压缩，再使用一个卷积层将通道数还原为输入通道数，然后将两个权重向量相加，经过激活函数激活生成最终的通道权重与输入特征相结合，所述的空间注意力机制是首先分别通过平均池化和最大池化生成特征图，然后将两个特征图连接形成两个通道的特征图，这两个通道的特征图经过一个卷积操作将通道数降为1，然后经过激活函数激活得到空间掩膜。

5.根据权利要求1所述的基于多尺度、多粒度行人重识别方法，其特征在于，所述的步骤4中的分块处理具体如下：首先，从特征提取网络和特征融合网络得到三个不同尺度的全度特征，然后将分辨率最大的特征图分成3等分水平条纹，中间分辨率的特征图分成2等分水平条纹，最终，这5个水平条纹区域特征图和3个全局特征图，经过全局平均池化操作得到8个特征向量被送入分类网络。

6.根据权利要求1所述的基于多尺度、多粒度行人重识别方法，其特征在于，所述的步骤5的交叉熵损失函数为：