CN111814618B

CN111814618B - 行人重识别方法、步态识别网络训练方法及相关装置

Info

Publication number: CN111814618B
Application number: CN202010600496.1A
Authority: CN
Inventors: 张迪; 潘华东; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2023-09-01
Anticipated expiration: 2040-06-28
Also published as: CN111814618A

Abstract

本申请提供行人重识别方法、步态识别网络训练方法及相关装置。该步态识别网络的训练方法包括：利用步态识别网络的第一单元从步态轮廓图中提取特征图；对特征图进行随机擦除处理，得到擦除后的特征图；利用步态识别网络的第二单元对擦除后的特征图进行处理，得到特征向量；利用特征向量，计算损失；基于损失训练步态识别网络。本申请的方法可以可以提高步态识别网络的泛化性和识别准确性。

Description

行人重识别方法、步态识别网络训练方法及相关装置

技术领域

本申请涉及图像识别技术领域，特别是涉及行人重识别方法、步态识别网络训练方法及相关装置。

背景技术

步态识别作为传统行人重识别方法的补充，其旨在克服行人重识别方法过度依赖行人着装特征的情况。当行人的衣着变换了，这对于传统的行人重识别方法来说识别比较困难，因此通过提取行人的步态特征来完成行人重识别任务的步态识别方法就应运而生。

目前步态识别网络的结构和训练方法大多是借鉴传统的行人重识别方法，即利用基础卷积神经网络对输入图像进行特征提取，然后利用输出的特征图表征行人的特征，利用行人的特征向量完成检索。然而步态识别中输入图像为行人轮廓二值图，这相对于传统行人重识别的行人图像，其特征过于单一，因此传统的行人重识别训练方法在步态识别方法训练上不太适用。

发明内容

本申请提供行人重识别方法、步态识别网络训练方法及相关装置，可以提高步态识别网络的泛化性和识别准确性。

为达到上述目的，本申请提供一种步态识别网络的训练方法，该方法包括：

利用步态识别网络的第一单元从步态轮廓图中提取特征图；

对特征图进行随机擦除处理，得到擦除后的特征图；

利用步态识别网络的第二单元对擦除后的特征图进行处理，得到特征向量；

利用特征向量，计算损失；

基于损失训练步态识别网络。

其中，对特征图进行随机擦除处理，包括：

在高度维度上对特征图进行随机擦除处理。

其中，特征图包括高度为1的至少一个高度单元特征图，在高度维度上对特征图进行随机擦除处理，包括：

将特征图上连续的至少一个高度单元特征图的响应值设置为0。

其中，利用步态识别网络的第二单元对擦除后的特征图进行处理，包括：对特征图进行多尺度划分，得到以每个尺度进行划分后的特征图分块；计算每个特征图分块的特征向量；

利用特征向量，计算损失，包括：基于每个特征图分块的特征向量，计算每个特征图分块的损失；将多尺度划分得到的所有特征图分块的损失的总和作为总损失；

基于损失训练步态识别网络，包括：基于总损失训练步态识别网络。

其中，计算每个特征图分块的特征向量，包括：

将每个特征图分块处理为高度为1的特征图分块；

对每个高度为1的特征图分块进行池化处理，得到每个特征图分块的池化向量；

对每个特征图分块的池化向量进行映射，得到每个特征图分块的特征向量。

其中，对每个高度为1的特征图分块进行池化处理，得到每个特征图分块的池化向量，包括：

对每个高度为1的特征图分块进行平均池化处理，得到每个特征图分块的池化向量；或，

对每个高度为1的特征图分块进行最大池化处理，得到每个特征图分块的池化向量；或，

对每个高度为1的特征图分块进行平均池化处理，得到每个特征图分块的第一池化向量；对每个高度为1的特征图分块进行最大池化处理，得到每个特征图分块的第二池化向量，将每个特征图分块的第一池化向量和第二池化向量相加，得到每个特征图分块的池化向量。

其中，步态识别网络的第一单元包括六个卷积层和两个池化层，其中，第一层卷积层的卷积核大小为5*5，其余卷积层的卷积核大小为3*3；两个池化层分别连接于第二层卷积层和第四层卷积层之后；池化层为最大池化层或平均池化层。

其中，步态轮廓图包括多帧同一个行人的步态轮廓图，利用步态识别网络的第一单元从步态轮廓图中提取特征图，包括：利用步态识别网络的第一单元从多帧步态轮廓图中分别提取多帧特征图；

对特征图进行随机擦除处理，得到擦除后的特征图，包括：对多帧特征图分别进行随机擦除处理，得到多帧擦除后的特征图；

利用步态识别网络的第二单元对擦除后的特征图进行处理，包括：将多帧擦除后的特征图进行融合，得到一帧融合特征图；对融合特征图进行处理，得到特性向量。

其中，利用特征向量，计算损失，包括：

基于特征向量，利用三元组损失函数和交叉熵损失函数计算损失。

为达到上述目的，本申请还提供一种行人重识别方法，该方法包括：

利用上述方法训练后的步态识别网络从待识别行人步态轮廓图和目标行人步态轮廓图分别提取特征，以得到待识别行人步态轮廓图的特征向量和目标行人步态轮廓图的特征向量；

计算目标行人步态轮廓图和待识别行人步态轮廓图的特征向量之间的差异；

根据差异确定行人重识别结果。

为达到上述目的，本申请还提供一种电子设备，该电子设备包括相互耦接的存储器和处理器，存储器中存储有计算机程序，处理器用于执行计算机程序以实现上述方法中的步骤。

为达到上述目的，本申请还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本申请的方法是：利用步态识别网络的第一单元从步态轮廓图中提取特征图；对特征图进行随机擦除处理，迫使步态识别网络寻找其他显著的细节信息，可以让步态识别网络充分利用有限的局部信息，从而提高步态识别网络的泛化性和识别准确性。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施方式，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请步态识别网络的训练方法第一实施方式的流程示意图；

图2是本申请步态识别网络的训练方法第二实施方式的流程示意图；

图3是本申请步态识别网络的训练方法中对特征图进行二等分的示意图；

图4是本申请步态识别网络的训练方法中对特征图进行四等分的示意图；

图5是本申请行人重识别方法一实施方式的示意图；

图6是本申请电子设备一实施方式的结构示意图；

图7是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本申请的技术方案，下面结合附图和具体实施方式对本申请所提供的行人重识别方法、步态识别网络训练方法及相关装置做进一步详细描述。

具体请参阅图1，图1是本申请步态识别网络的训练方法第一实施方式的流程示意图。本实施方式步态识别网络的训练方法包括以下步骤。

S101：利用步态识别网络的第一单元从步态轮廓图中提取特征图。

步态识别网络的第一单元可以是任意能够从步态轮廓图中提取出特征图的特征提取单元。

例如，第一单元可以是VGG16中的特征提取单元或resnet18中的特征提取单元。

具体地，第一单元可以包括至少一层卷积层和至少一层池化层。卷积层和池化层的设置位置和参数不受限制。

例如，第一单元可以包括6层卷积层和2层池化层。第一层卷积层的卷积核大小为5*5，其余卷积层的卷积核大小为3*3。两层池化层分别连接于第二层池化层和第四层池化层之后，即第一单元的结构为卷积层-卷积层-池化层-卷积层-卷积层-池化层-卷积层-卷积层。池化层可以是最大池化层或平均池化层。另外，池化层可以为两倍下采样的池化层，当然不限于此，例如池化层也可为三倍下采样池化层。

另外，输入到步态识别网络的步态轮廓图的数量可以为一帧或多帧，相应地，步态识别网络的第一单元可以从一帧或多帧步态轮廓图中分别提取到一帧或多帧特征图。

S102：对特征图进行随机擦除处理，得到擦除后的特征图。

可以仿照dropout的原理，可以随意擦除特征图上的任意部分，以对特征图的区域进行随机的擦除，可以让网络充分利用有限的局部信息，从而提高网络的泛化性能，无需通过判断是否符合人为设定阈值来确定擦除区域。

在一实施方式，可以在高度维度上对特征图进行随机擦除处理。其中，特征图可以包括至少一个高度为1的高度单元特征图，可以将特征图上部分高度单元特征图的响应值设置为0，对于行人图像，其步态特征更集中在其不同的水平方法，例如摆手、肩、膝盖和脚步等，通过在训练时随机抹除这些显著的步态特征，迫使网络不得不寻找其他的步态特征信息，从而更加关注步态的细节信息，提高步态识别的准确率。比较优选的是，可以将特征图上连续的至少一个高度单元特征图的响应值设置为0。例如，特征图的高为16，即特征图包括16个高度单元特征图，可以随机从这些高度单元特征图中选取连续的一半数量的高度单元特征图，将选取的高度单元特征图的响应值置为0，其余高度单元特征图的响应值不变。

在又一实施方式，可以在宽度维度上对特征图进行随机擦除处理。其中，特征图可以包括至少一个宽度为1的宽度单元特征图，可以将特征图上部分宽度单元特征图的响应值设置为0。比较优选的是，可以将特征图上连续的至少一个宽度单元特征图的响应值设置为0。

另外，可以对最后一层卷积层输出的特征图进行随机擦除处理。

S103：利用步态识别网络的第二单元对擦除后的特征图进行处理，得到特征向量。

步态识别网络的第二单元的具体配置和参数不受限制。

在一实现方式中，步态识别网络的第二单元可以包括全连接层。

在另一实现方式中，步态识别网络的第二单元可以包括融合单元、多尺度划分单元和全连接层等。

在又一实现方式中，步态识别网络的第二单元可以包括多尺度划分单元、尺寸统一单元和全连接层等。

其中，融合单元可用作将多帧特征图融合为一帧融合特征图。

多尺度划分单元可用于对特征图或融合特征图进行多尺度划分，得到以每个尺度进行划分后的特征图分块。

尺寸统一单元可用于将特征图进行多尺度划分得到的所有特征图分块的尺寸统一。

全连接层可用于将特征图、融合特征图、特征图分块或尺寸统一后的特征图分块处理成特征向量。

S104：利用特征向量，计算损失。

可以以任意损失函数基于特征向量计算损失。

其中，可以以平方损失函数、绞链损失函数、交叉熵损失函数、对数损失函数和三元组损失函数中至少一种损失函数，基于特征向量计算损失，当然不限于此。例如，利用三元组损失函数和交叉熵损失函数，基于特征向量计算损失。

S105：基于损失训练步态识别网络。

在本实施方式中，利用步态识别网络的第一单元从步态轮廓图中提取特征图；对特征图进行随机擦除处理，迫使步态识别网络寻找其他显著的细节信息，可以让步态识别网络充分利用有限的局部信息，从而提高步态识别网络的泛化性和识别准确性。

可选地，本申请可以通过步态识别网络识别一帧步态轮廓图得到该帧步态轮廓图的特征向量，也可以通过步态识别网络识别多帧步态轮廓图得到该多帧步态轮廓图的特征向量。其中，多帧步态轮廓图可以是同一个行人的步态轮廓序列图。步态轮廓序列图可以是从行人视频中抽取视频帧，并通过行人分割算法得到的步态轮廓序列图。本申请步态识别网络的训练方法第二实施方式具体介绍了如何训练识别多帧步态轮廓图得到多帧步态轮廓图的特征向量的步态识别网络。如图2所示，本实施方式步态识别网络的训练方法包括以下步骤。

S201：利用步态识别网络的第一单元从多帧步态轮廓图中分别提取多帧特征图。

可以理解的是，多帧步态轮廓图可以指至少两帧步态轮廓图，例如10帧步态轮廓图或30帧步态轮廓图。

另外，在步态识别网络的第一单元对多帧步态轮廓图进行特征提取时，这多帧步态轮廓图是共享参数的，即以同种结构和参数相同的步态识别网络的第一单元对多帧步态轮廓图进行特征提取。

利用步态识别网络的第一单元从步态轮廓图中提取特征图的步骤的内容具体可参见步骤S101。

S202：对多帧特征图分别进行随机擦除处理，得到多帧擦除后的特征图。

步骤S202的内容可参见步骤S102。

其中，多帧特征图上被擦除的区域可以相同或不相同。

S203：将多帧擦除后的特征图进行融合，得到一帧融合特征图。

在一实现方式中，可以将多帧擦除后的特征图中同一位置的像素值的和，作为融合特征图该位置的像素值。例如将n帧擦除后的特征图融合为一帧融合特征图，I_融(w，h，c)＝I₁(w，h，c)+I₂(w，h，c)+……+I_n(w，h，c)，其中，I_融(w，h，c)为融合特征图中(w，h，c)像素点的像素值，I₁(w，h，c)、I₂(w，h，c)……I_n(w，h，c)分别为n帧特征图的(w，h，c)像素点的像素值。

在另一实现方式中，可以将多帧擦除后的特征图中同一位置的像素值的最大值作为融合特征图该位置的像素值，即在帧的维度上取最大值，将多帧特征图融合为一帧融合特征图。例如，将n帧擦除后的特征图融合为一帧融合特征图，I_融(w，h，c)＝Max(I₁(w，h，c)，I₂(w，h，c)，……，I_n(w，h，c))。

在又一实现方式中，可以将多帧擦除后的特征图直接相连，以得到一帧融合特征图。

S204：对特征图进行多尺度划分，得到以每个尺度进行划分后的特征图分块。

在一实现方式中，可以在高度维度上对融合特征图进行多尺度划分，例如在高度维度上对融合特征图进行一等分、二等分、四等分、八等分、十六等分等多个尺度划分，以得到以每个尺度进行划分后的特征图分块。例如，对16*16*128融合特征图进行二等分和四等分两个尺度的划分，可以得到如图3所示的二等分划分后的2个16*8*128的特征图分块和如图4所示的四等分划分后的4个16*4*128的特征图分块。

在另一实施方式中，可以在宽度维度上对融合特征图进行多尺度划分，例如在宽度维度上对融合特征图进行一等分、二等分、四等分、八等分、十六等分等多个尺度划分，以得到以每个尺度进行划分后的特征图分块。

在又一个实施方式中，可以对融合特征图进行多尺度网格划分，例如对融合特征图进行一等分、二等分、四等分、八等分、十六等分等多个尺度的网格划分，以得到以每个尺度进行划分后的特征图分块。

在其他实现方式中，步骤S204可以在步骤S202之后执行，例如在步态识别网络需要对一帧步态轮廓图进行特征提取，以得到该帧步态轮廓图的特征向量时，可以省略多帧特征图融合的步骤。

S205：计算每个特征图分块的特征向量。

可以通过多种方法得到每个特征图分块的特征向量。

例如，将多尺度划分得到的所有特征图分块的尺寸统一，将尺寸统一后的所有特征图分块分别输入到全连接层，以得到每一特征图分块的特征向量。

具体可将每个特征图分块变为宽度为1且高度为1的特征图分块，以将多尺度划分得到的所有特征图分块的尺寸统一，当然不限于此，例如可将每个特征图分块变为宽度为2且高度为4的特征图分块。

示例性地，先将每个特征图分块处理为高度为1的特征图分块；对每个高度为1的特征图分块进行池化处理，得到每个特征图分块的池化向量，以将每个特征图分块变为宽度为1且高度为1的特征图分块。

其中，将每个特征图分块处理为高度为1的特征图分块可表现为：将宽度为n且高度为m的特征图分块变为宽度为n*m且高度为1的特征图分块；或，将宽度为n且高度为m的特征图分块变为宽度为n且高度为1的特征图分块……

另外，对每个高度为1的特征图分块进行池化处理，得到每个特征图分块的池化向量的步骤可表现为：对每个高度为1的特征图分块进行平均池化处理，得到每个特征图分块的池化向量；或，对每个高度为1的特征图分块进行最大池化处理，得到每个特征图分块的池化向量；或，对每个高度为1的特征图分块进行平均池化处理，得到每个特征图分块的第一池化向量；对每个高度为1的特征图分块进行最大池化处理，得到每个特征图分块的第二池化向量，将每个特征图分块的第一池化向量和第二池化向量相加，得到每个特征图分块的池化向量。

可选地，将尺寸统一后的所有特征图分块分别输入到全连接层可表现为：对每个特征图分块进行映射，得到每个特征图分块的特征向量。在一实现方式中，可对上述的每个特征图分块的池化向量进行映射，得到每个特征图分块的特征向量。例如，可以将每个特征图分块的128维映射成256维的特征向量。

S206：基于每个特征图分块的特征向量，计算每个特征图分块的损失。

基于每个特征图分块的特征向量，利用至少一种损失函数计算每个特征图分块的损失。

例如，利用三元组损失函数和交叉熵损失函数计算每个特征图分块的损失。

S207：将多尺度划分得到的所有特征图分块的损失的总和作为总损失。

S208：基于总损失训练步态识别网络。

具体请参阅图5，图5是本申请行人重识别方法一实施方式的流程示意图。本实施方式行人重识别方法包括以下步骤。

S301：利用步态识别网络从待识别行人步态轮廓图和目标行人步态轮廓图分别提取特征，以得到待识别行人步态轮廓图的特征向量和目标行人步态轮廓图的特征向量。

其中，步态识别网络是上述步态识别网络的训练方法训练得到的。

可以理解的是，待识别行人步态轮廓图和目标行人步态轮廓图均可以包括至少一帧步态轮廓图。

另外，可以利用上述方法训练后的步态识别网络的第一单元和第二单元分别从待识别行人步态轮廓图和目标行人步态轮廓图提取特征。即在利用步态识别网络对目标行人进行重识别时，可以不对特征图进行随机擦除处理。

S302：计算目标行人步态轮廓图和待识别行人步态轮廓图的特征向量之间的差异。

可以将目标行人步态轮廓图的特征向量与待识别行人步态轮廓图的特征向量之间的余弦距离、欧式距离或曼哈顿距离作为目标行人步态轮廓图的特征向量与待识别行人步态轮廓图的特征向量之间的差异。

其中，目标行人步态轮廓图的特征向量与待识别行人步态轮廓图的特征向量之间的余弦距离的计算公式如下所示：

其中，x为目标行人步态轮廓图的特征向量，y为待识别行人步态轮廓图的特征向量。

S303：根据差异确定行人重识别结果。

在一实现方式中，可以将差异小于阈值的待识别行人步态轮廓图作为目标行人的重识别结果。

在另一实现方式中，可以基于差异的大小顺序对所有组待识别行人步态轮廓图进行排序，可以将差异最小的N组待识别行人步态轮廓图作为目标行人的重识别结果，其中N为正整数。

请参阅图6，图6是本申请电子设备一实施方式的结构示意图。本电子设备10包括相互耦接的存储器11和处理器12，存储器11用于存储程序指令，处理器12用于执行程序指令以实现上述任一实施方式的方法。

上述编码方法的逻辑过程以程序文件呈现，在程序文件方面，若其作为独立的软件产品销售或使用时，其可存储在计算机可读存储介质中，因而本申请提出一种计算机可读存储介质。请参阅图7，图7是本申请计算机可读存储介质一实施方式的结构示意图，本实施方式计算机可读存储介质20中存储有能够实现上述的方法的程序文件21。

该计算机可读存储介质20具体可以为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory，)、磁碟或者光盘等可以存储程序文件的介质，或者也可以为存储有该程序文件的服务器，该服务器可将存储的程序文件发送给其他设备运行，或者也可以自运行该存储的程序文件。该计算机可读存储介质20从物理实体上来看，可以为多个实体的组合，例如多个服务器、服务器加存储器、或存储器加移动硬盘等多种组合方式。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种步态识别网络的训练方法，其特征在于，所述方法包括：

利用步态识别网络的第一单元从步态轮廓图中提取特征图；

在高度维度上对所述特征图进行随机擦除处理，得到擦除后的特征图；

利用步态识别网络的第二单元对所述擦除后的特征图进行处理，得到特征向量；

利用所述特征向量，计算损失；

基于所述损失训练所述步态识别网络。

2.根据权利要求1所述的步态识别网络的训练方法，其特征在于，所述特征图包括高度为1的至少一个高度单元特征图，所述在高度维度上对特征图进行随机擦除处理，包括：

将所述特征图上连续的至少一个高度单元特征图的响应值设置为0。

3.根据权利要求1所述的步态识别网络的训练方法，其特征在于，所述利用步态识别网络的第二单元对所述擦除后的特征图进行处理，包括：对所述特征图进行多尺度划分，得到以每个尺度进行划分后的特征图分块；计算每个特征图分块的特征向量；

所述利用所述特征向量，计算损失，包括：基于每个特征图分块的特征向量，计算每个特征图分块的损失；将多尺度划分得到的所有特征图分块的损失的总和作为总损失；

所述基于所述损失训练所述步态识别网络，包括：基于所述总损失训练所述步态识别网络。

4.根据权利要求3所述的步态识别网络的训练方法，其特征在于，所述计算每个特征图分块的特征向量，包括：

将每个特征图分块处理为高度为1的特征图分块；

对每个特征图分块的所述池化向量进行映射，得到每个特征图分块的特征向量。

5.根据权利要求4所述的步态识别网络的训练方法，其特征在于，所述对每个高度为1的特征图分块进行池化处理，得到每个特征图分块的池化向量，包括：

6.根据权利要求1所述的步态识别网络的训练方法，其特征在于，所述步态识别网络的第一单元包括六个卷积层和两个池化层，其中，第一层卷积层的卷积核大小为5*5，其余卷积层的卷积核大小为3*3；两个池化层分别连接于第二层卷积层和第四层卷积层之后；所述池化层为最大池化层或平均池化层。

7.根据权利要求1所述的步态识别网络的训练方法，其特征在于，所述步态轮廓图包括多帧同一个行人的步态轮廓图，所述利用步态识别网络的第一单元从步态轮廓图中提取特征图，包括：利用步态识别网络的第一单元从多帧步态轮廓图中分别提取多帧特征图；

所述对所述特征图进行随机擦除处理，得到擦除后的特征图，包括：对所述多帧特征图分别进行随机擦除处理，得到多帧擦除后的特征图；

所述利用步态识别网络的第二单元对所述擦除后的特征图进行处理，包括：将多帧擦除后的特征图进行融合，得到一帧融合特征图；对融合特征图进行处理，得到特性向量。

8.根据权利要求1所述的步态识别网络的训练方法，其特征在于，利用所述特征向量，计算损失，包括：

基于所述特征向量，利用三元组损失函数和交叉熵损失函数计算损失。

9.一种行人重识别方法，其特征在于，所述方法包括：

利用权利要求1-8任一项所述的方法训练后的步态识别网络从待识别行人步态轮廓图和目标行人步态轮廓图分别提取特征，以得到待识别行人步态轮廓图的特征向量和目标行人步态轮廓图的特征向量；

根据差异确定行人重识别结果。

10.一种电子设备，其特征在于，所述电子设备包括存储器和处理器；所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-9中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。