CN115861869A

CN115861869A - 一种基于Transformer的步态重识别方法

Info

Publication number: CN115861869A
Application number: CN202211359431.8A
Authority: CN
Inventors: 王乾宇; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co ltd
Current assignee: Nanjing Inspector Intelligent Technology Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-03-28

Abstract

本发明公开了一种基于Transformer的步态重识别方法，该方法包括如下步骤：使用预训练好的实例分割模型对画面中的行人进行分割，再使用跟踪算法，得到每个行人的剪影图序列；对于剪影图序列中的每张图从高度维度均分，得到剪影分部图集合；将剪影分部图送入Flatten网络层进行拉伸，得到特征；用H‑Trans网络模型提取步态每个部分的跨时间特征；将跨时间特征送入合并特征提取模型G‑Trans网络模型中提取最终步态特征；将最终步态特征送入全连接层中，得到目标人员的类别，并使用大间隔余弦损失函数计算损失，进行模型训练，得到训练好的模型M；采用模型M对每个底库人员进行识别。通过使用Transformer提取步态特征，提高了识别精度。

Description

一种基于Transformer的步态重识别方法

技术领域

本发明涉及图像识别研究领域，具体涉及一种基于Transformer的步态重识别方法。

背景技术

图像重识别是根据摄像机获取的图像判断两个人是否属于同一个人的技术，广泛应用于监控、安防等场景下特定人物搜索。并且目前重识别技术主要是人脸重识别、行人重识别，而这些都对摄像机的距离、像素有着极高的要求，对摄像机的安装带来了困难。步态识别是行人重识别的一种特例。步态是一种极具潜质的生物特征，它反映了行人的行走模式。由于存在运动差异和体型差异，每个人的步态都是唯一的，利用步态可以唯一识别视频中的目标行人。

发明内容

为了克服现有技术的不足，本发明提供了一种基于Transformer的步态重识别方法，通过使用Transformer提取步态特征，先跨时间分部提取特征，再合并分部特征，提高了识别精度。技术方案如下：

本发明提供了一种基于Transformer的步态重识别方法，该方法包括如下步骤：

步骤1，通过摄像机采集步态的视频连续帧，使用预训练好的实例分割模型对画面中的行人进行分割，再使用跟踪算法，得到每个行人的剪影图序列，将剪影图序列的每张图片都对齐到方形图中心，并缩放到统一大小，将对齐后的剪影图序列记为S＝{S_i}(i＝1,2,…,N)，N为序列长度。

步骤2，对于剪影图序列S中的每张图S_i从高度维度分为M等分，得到剪影分部图集合P_i＝{P_ij}(j＝1,2,…,M)，P_ij表示第i张图的第j个部分图，

步骤3，将剪影分部图转化为特征，将P_ij送入Flatten网络层进行拉伸，得到特征F_ij(i＝1,2,…,N，j＝1,2,…,M)；

F_ij＝Flatten(P_ij)。

步骤4，对于每个j(j＝1,2,…,M)，使用H-Trans网络模型提取步态每个部分的跨时间特征HF，HF＝{HF_j}，HF_j＝H-Trans(F_1j,F_2j,…,F_Nj)；

步骤5，将跨时间特征HF送入合并特征提取模型G-Trans网络模型中提取最终步态特征GF，GF＝G-Trans(HF₁,HF₂,…,HF_M)；

步骤6，在训练阶段，将最终步态特征GF送入全连接层FC中，得到目标人员的类别Z，并使用大间隔余弦损失函数计算损失L，进行模型训练，Z＝FC(GF)；

步骤7，将训练数据集使用反向传播算法，通过步骤1～6得到损失进行训练，得到训练好的模型M；

对于每个底库人员g，使用模型M经过步骤1～5提取特征GF_g，对于输入的检测视频流，使用模型M经过步骤1～5提取每个行人t的特征GF_q ^t，然后使用余弦距离对每个底库人员g的特征计算相似度sim_g，最后寻找最大的相似度对应的底库人员G，G＝arg max_gsim_g；如果sim_G大于预设的相似度阈值，则判定识别到地库人员G，否则为未知人员。

优选的，步骤1将剪影图序列的每张图片都对齐到方形图中心，并缩放到统一的64×64大小。

优选的，步骤1中预训练好的实例分割模型为Mask RCNN。

优选的，步骤2中M等分为8等分。

优选的，步骤6中使用大间隔余弦损失函数计算损失L，具体为:

其中B表示训练时的批大小，b表示一个样本，b＝1,2,…,B，GF_b表示样本b归一化后的步态特征，对于样本b所在的类别k，y_b表示FC的权重矩阵W中第k行权重归一化后的向量。

优选的，步骤7相似度sim_g具体为：

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过将同一部分不同时间的图像放到一起，利用Transformer的综合信息的能力提取步态特征，使得网络能够充分提取到身体每个部分的语义信息；通过将这些特征送到Transformer模块中合并信息，可以综合所有部分的特征，使得最终识别的精度更高。

附图说明

图1为本公开实施例提供的一种对齐后剪影图示例图；

图2为本公开实施例提供的一种H-Trans网络结构示意图；

图3为本公开实施例提供的一种G-Trans网络结构示意图。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将结合附图对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书和权利要求书及上述附图中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。

第一方面：本公开实施例提供了一种基于Transformer的步态重识别方法，该方法包括如下步骤：

步骤1，通过摄像机采集步态的视频连续帧，使用预训练好的实例分割模型(例如Mask RCNN)对画面中的行人进行分割，再使用跟踪算法，得到每个行人的剪影图序列，将剪影图序列的每张图片都对齐到方形图中心，并缩放到统一大小，例如64×64，如附图1所示，将对齐后的剪影图序列记为S＝{S_i}(i＝1,2,…,N)，N为序列长度。

步骤2，对于剪影图序列S中的每张图S_i从高度维度分为M等分，得到剪影分部图集合P_i＝{P_ij}(j＝1,2,…,M)，P_ij表示第i张图的第j个部分图，优选的M＝8；因为行人行走过程中，身体每一个部分的特征都不相同，所以从高度维度分部提取特征，使得最终特征更加丰富。

F_ij＝Flatten(P_ij)。

步骤4，对于每个j(j＝1,2,…,M)，使用H-Trans网络模型提取步态每个部分的跨时间特征HF，HF＝{HF_j}，HF_j＝H-Trans(F_1j,F_2j,…,F_Nj)，因为行人在行走的过程中，每个部分的变化都是在单独的范围内波动的，所以将同一部分不同时间的图像放到一起，利用Transformer的综合信息的能力提取特征，使得网络能够充分提取到身体每个部分的语义信息。H-Trans网络结构如附图2所示，图中C为特征长度，例如512。

步骤5，将跨时间特征HF送入合并特征提取模型G-Trans网络模型中提取最终步态特征GF，GF＝G-Trans(HF₁,HF₂,…,HF_M)；G-Trans网络结构如附图3所示；

前一步骤已经分部提取了每个部分的特征，最终识别行人需要综合所有部分的特征，将这些特征送到Transformer模块中合并信息，可以综合所有部分的特征，使得最终识别的精度更高。

将训练数据集使用反向传播算法，通过步骤1～6得到损失进行训练，得到训练好的模型M。

步骤7，对于每个底库人员g，使用模型M经过步骤1～5提取特征GF_g，对于输入的检测视频流，使用模型M经过步骤1～5提取每个行人t的特征GF_q ^t，然后使用余弦距离对每个底库人员g的特征计算相似度sim_g，最后寻找最大的相似度对应的底库人员G，G＝argmax_gsim_g；如果sim_G大于预设的相似度阈值，则判定识别到地库人员G，否则为未知人员。

优选的，步骤7相似度sim_g具体为：

以上结合附图对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于Transformer的步态重识别方法，其特征在于，该方法包括如下步骤：

步骤1，通过摄像机采集步态的视频连续帧，使用预训练好的实例分割模型对画面中的行人进行分割，再使用跟踪算法，得到每个行人的剪影图序列，将剪影图序列的每张图片都对齐到方形图中心，并缩放到统一大小，将对齐后的剪影图序列记为S＝{S_i}(i＝1,2,…,N)，N为序列长度；

F_ij＝Flatten(P_ij)；

2.根据权利要求1所述的一种基于Transformer的步态重识别方法，其特征在于，步骤1将剪影图序列的每张图片都对齐到方形图中心，并缩放到统一的64×64大小。

3.根据权利要求1所述的一种基于Transformer的步态重识别方法，其特征在于，步骤1中预训练好的实例分割模型为Mask RCNN。

4.根据权利要求1所述的一种基于Transformer的步态重识别方法，其特征在于，步骤2中M等分为8等分。

5.根据权利要求1-4任一项所述的一种基于Transformer的步态重识别方法，其特征在于，步骤6中使用大间隔余弦损失函数计算损失L，具体为:

6.根据权利要求5所述的一种基于Transformer的步态重识别方法，其特征在于，步骤7相似度sim_g具体为：

/>