CN109815874A

CN109815874A - 一种人员身份识别方法、装置、设备及可读存储介质

Info

Publication number: CN109815874A
Application number: CN201910042545.1A
Authority: CN
Inventors: 付马; 肖潇; 晋兆龙
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-05-28

Abstract

本发明公开了一种人员身份识别方法，该方法包括以下步骤：获取待识别人员的步态图像序列，并利用目标mask‑rcnn模型对步态图像序列进行掩码处理，获得mask图像序列；将mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征；计算目标步态特征与参考步态特征的相似度；利用相似度，对待识别人员进行识别，并输出身份识别结果。该方法可提高视频图像处理中人员身份识别的通用性。本发明还公开了一种人员身份识别装置、设备及可读存储介质，具有相应的技术效果。

Description

一种人员身份识别方法、装置、设备及可读存储介质

技术领域

本发明涉及视频图像处理技术领域，特别是涉及一种人员身份识别方法、装置、设备及可读存储介质。

背景技术

随着平安城市的建设和各种场所监控的普及，视频监控数据量变得越来越大，这给诸如刑侦破案等需要进行人员身份识别以及需进行人员行踪确定的场景带来了极大的便捷，同时也是一个巨大的挑战。如何快速准确地从这些海量数据库提取出目标人员成为破案的关键。

传统人工浏览的视频进行人员身份识别的模式需要耗费大量的人力和时间，还容易贻误破案时机。随着深度学习领域的技术发展，目前通过人脸特征，衣着特征进行人员身份识别的方法也是层出不穷。但是，以上两种方法都有一些缺陷，如在实际场景中，人脸检出率不高，而衣着特征又不足以作为人员身份识别的不变特征。

综上所述，如何有效地解决视频图像中人员身份识别等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种人员身份识别方法、装置、设备及可读存储介质，以实现提高视频图像人员身份识别的准确率。

为解决上述技术问题，本发明提供如下技术方案：

一种人员身份识别方法，包括：

获取待识别人员的步态图像序列，并利用目标mask-rcnn模型对所述步态图像序列进行掩码处理，获得mask图像序列；

将所述mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征；

计算所述目标步态特征与参考步态特征的相似度；

利用所述相似度，对所述待识别人员进行识别，并输出身份识别结果。

优选地，在获取待识别人员的步态图像序列之前，还包括：

将mask-rcnn中的基础网络换为ShuffleNet网络；

去掉所述mask-rcnn中的检测分支，并固定所述ShuffleNet网络的参数；

利用训练样本对mask分支进行训练，获得所述目标mask-rcnn模型。

优选地，获取所述训练样本包括：

利用标定工具，将人员图像标记为前景和背景；

根据标记结果，获得所述训练样本。

优选地，所述利用训练样本对mask分支进行训练，包括：

将所述训练样本统一缩放至指定大小，并利用S型交叉熵损失函数按照step训练策略，迭代训练所述mask分支。

优选地，在将所述mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征之前，还包括：

对所述mask图像序列中的mask图像进行对齐处理和筛选处理。

优选地，所述利用目标mask-rcnn模型对所述步态图像序列进行掩码处理，获得mask图像序列，包括：

利用所述目标mask-rcnn模型获得所述步态图像序列中每一个步态图像的前景图像，以及所述前景图像中每一个像素点概率得分；

将所述概率得分与255的乘积结果作为mask图像的像素值。

优选地，计算所述目标步态特征与参考步态特征的相似度，包括：

分别计算所述目标步态特征与所述参考步态特征之间的欧式距离、Tanimoto距离和余弦距离中的至少两种距离；

按照预设距离权重，将所述距离的加权和作为所述相似度。

优选地，在所述深度学习模型为利用卷积神经网络提取图像特征，利用循环神经网络提取图像序列间的上下文信息特征，利用时空池化对不同步态图像的特征进行融合，利用全连接层输出步态特征的模型时，所述深度学习模型的训练过程包括：

将softmaxloss作为人员ID的分类损失函数，将contrastive loss作为两个目标间特征差异的损失函数，训练所述深度学习模型。

一种人员身份识别装置，包括：

Mask图像序列获取模块，用于获取待识别人员的步态图像序列，并利用目标mask-rcnn模型对所述步态图像序列进行掩码处理，获得mask图像序列；

目标步态特征获取模块，用于将所述mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征；

相似度计算模块，用于计算所述目标步态特征与参考步态特征的相似度；

人员身份识别模块，用于利用所述相似度，对所述待识别人员进行识别，并输出身份识别结果。

一种人员身份识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述人员身份识别方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述人员身份识别方法的步骤。

应用本发明实施例所提供的方法，获取待识别人员的步态图像序列，并利用目标mask-rcnn模型对步态图像序列进行掩码处理，获得mask图像序列；将mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征；计算目标步态特征与参考步态特征的相似度；利用相似度，对待识别人员进行识别，并输出身份识别结果。

步态特征具有其他生物认证技术所不具有的独特优势，即在远距离或低视频质量情况下的识别潜力，且步态难以隐藏或伪装等。基于此，在对视频图像中的人员进行识别时，可获取待识别人员的步态图像序列，并利用目标mask-rcnn模型对步态图像序列进行掩码处理，获得mask图像序列。mask图像序列即为步态图像序列中的每一个步态图像进行掩码处理后得到的mask图像的序列。而掩码处理可将步态图像中有利于提取步态特征的部分如人体图像部分进行保留，而去除不利于提取步态特征的部分如背景部分，即mask图像序列更有利于提取出步态特征。得到mask图像序列之后，便可将mask图像序列输入至深度学习模型中进行特征提取，可获得目标步态特征。然后，计算目标步态特征与参考步态特征的相似度，计算出相似度之后，便可基于该相似度对待识别人员进行识别，并输出身份识别结果。如此，便实现了通过步态特征进行人员身份识别的目的。该方法在人脸识别，人员外观识别等从单一图像中提取的图像特征失效的情况下，具有非常好的通用性，且步态特征对相机的架设要求低，适用的监控场景大。面对一些条件苛刻的场景，以及距离监控设备较远的位置的人员，都可以提取到步态特征，可在常规的人脸识别或衣着识别等识别技术失效的情况下，基于步态特征进行人员身份识别，降低了工作人员的工作量。另外，将上述人员身份识别方法与其他常见的人员身份识别方法相结合时，还可进一步提升人员身份识别准确率。

相应地，本发明实施例还提供了与上述人员身份识别方法相对应的人员身份识别装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种人员身份识别方法的实施流程图；

图2为本发明实施例中一种深度学习模型的结构示意图；

图3为本发明实施例中一种人员身份识别装置的结构示意图；

图4为本发明实施例中一种人员身份识别设备的结构示意图；

图5为本发明实施例中一种人员身份识别设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参考图1，图1为本发明实施例中一种人员身份识别方法的流程图，该方法包括以下步骤：

S101、获取待识别人员的步态图像序列，并利用目标mask-rcnn模型对步态图像序列进行掩码处理，获得mask图像序列。

在本发明实施例中，可利用图像采集设备获得待识别人员的步态图像序列。具体的，即可利用图像采集设备对监控区域进行视频拍摄，然后对拍摄到的视频资料进行监测/识别，在出现待识别人员时，将具有待识别人员的视频帧按照拍摄时间顺序构成步态图像序列。当然，该步态图像序列还可仅包含待识别人员部分的图像。在实际应用中，还可通过读取库存视频资料，获得待识别人员的步态图像序列。其中，步态图像序列的长度，即该序列中的步态图像的帧数(图像张数)可按照需求进行设置，使其能够表达出步态特征即可，例如该步态特征图像序列的长度可为16、20、32等数值。

得到步态图像序列之后，便可利用目标mask-rcnn模型对步态图像序列进行掩码处理。

优选地，考虑到对步态图像序列进行掩码处理时，若直接进行二值化，可能会将其中的一部分图像特征淹没。例如，由于身体前倾或后仰而产生的不同像素值差异，若直接二值化，此处得到的mask图像则会失去表征身体前倾或后仰的步态特征，而一般情况下，前倾或后仰时，距离和光线会有变化，因而即使是同一颜色的衣服或肤色在像素值上会呈现出不同的数值。此时可对mask图像序列进行灰度化，具体的，即在利用目标mask-rcnn模型对步态图像序列进行掩码处理，获得mask图像序列时，执行以下步骤：

步骤一、利用目标mask-rcnn模型获得步态图像序列中每一个步态图像的前景图像，以及前景图像中每一个像素点概率得分；

步骤二、将概率得分与255的乘积结果作为mask图像的像素值。

为便于描述，下面将上述两个步骤结合起来进行说明。

在利用目标mask-rcnn模型对步态图像序列进行掩码处理时，首先获取步态图像序列中每一个步态图像的前景图像，即去除了背景部分的人体图像，以及该前景图像中每一个像素点的概率得分。其中，概率得分由sigmoid(S型交叉熵)函数给出，即为目标Mask-rcnn模型的输出。也就是说，模型输出不是二值化图像，而是概率得分。然后，将每一个像素点的概率得分与255相乘，获得显现为灰度图样式的mask图像。如此，便可利用不同的灰度，也就是不同的像素值来表征图像本身所具备的人员特征。

优选地，考虑到在本发明实施例中，仅需利用目标mask-rcnn模型提取步态图像序列的mask图像序列。为了进一步通过掩码处理效率，在获取待识别人员的步态图像序列之前，还可对mas-rcnn模型进行优化。具体的，优化方式包括：

步骤一、将mask-rcnn中的基础网络换为ShuffleNet网络；

步骤二、去掉mask-rcnn中的检测分支，并固定ShuffleNet网络的参数；

步骤三、利用训练样本对mask分支进行训练，获得目标mask-rcnn模型。

为了便于描述，下面将上述三个步骤结合起来进行说明。

由于ShuffleNet(An Extremely Efficient Convolutional Neural Networkfor Mobile Devices，一种在移动设备端极为高效的卷积神经网络)具有高效的优点，因此在将mask-rcnn中的基础网络换为ShuffleNet网络之后，所得到的改进后的mask-rcnn模型也具备高效的优点。当然，在替换基础网络时，还可将基础网络替换为其他网络结构，如MnasNet(移动端模型的自动化神经架构搜索方法)，用来提升特征提取速度。另外，由于输入目标mask-rcnn模型的步态图像序列可以为经过目标检测处理之后的图像序列，因此，为了进一步简化模型，还可去掉mask-rcnn中的检测分支，并固定ShuffleNet网络的参数，然后使用训练样本对mask分支进行训练，最终获得目标mask-rcnn模型。

其中，可通过执行以下步骤，获取训练样本包括：

步骤一、利用标定工具，将人员图像标记为前景和背景；

步骤二、根据标记结果，获得训练样本。

为了便于描述，下面将上述两个步骤结合起来进行说明。

在本发明实施例中，标定工具具体为可对人员图像进行前景后背景标记的工具或opencv标定图片生成程序，例如Matlab图像标定工具箱中的工具。在本发明实施例中对标定工具的并不限定。利用标定工具可将人员图像标记为前景和背景。具体的，可将人员图像部分作为前景，非人员图像部分为背景。然后将具有标记结果的图像作为训练样本。例如，使用标定工具，在抓拍到的人员图像上进行标注，只标注全人轮廓及内部的像素点为前景，其他区域为背景，得到人员分割的标定答案。以便在对步态图像特征进行处理时，基于该标定答案进行掩码处理。

其中，利用训练样本对mask分支进行训练，具体为将训练样本统一缩放至指定大小，并利用S型交叉熵损失函数按照step训练策略，迭代训练mask分支。Mask分支即掩码分支，可具体为一个网络，例如mask分支具体为卷积网络，可取ROI分类器选择的正区域为输入，并生成它们的掩码，该掩码是低分辨率的(如28x28像素)，但它们是由浮点数表示的软掩码，相对于二进制掩码有更多的细节。其中，指定大小可具体为88x128，当然，指定大小还可为其他数值，具体情况可根据实际步态图像序列中人员轮廓大小进行调整。使用S型交叉熵损失函数(SigmoidCrossEntropyLoss)作为模型训练的损失函数，可设置基础学习率为0.001，训练策略为step，一直迭代20万次，得到最优的目标mask-rcnn模型。其中，基础学习率，训练策略，迭代次数还可根据实际需求进行设定，并不仅限于本文所给示例。

得到mask图像序列之后，便可执行步骤S102的操作。

优选地，为了进一步提升步态特征的表征能力，还可对mask图像进行整理。具体的，在执行步骤S102之前，即在将mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征之前，对mask图像序列中的mask图像进行对齐处理和筛选处理。即，考虑到mask图像中的图像大小可能会不一致，可能会存在部分表征能力较差的mask图像，因此，为了提高步态特征特征提取的准确性，可将mask图像进行对齐处理，如将mask图像中的重心对齐；另外，还可对mask图像序列中模糊不清的mask图像去除。具体的，模糊不清的判决依据可对mask图像的图像轮廓进行识别，若图像轮廓不属于预设行人轮廓则将其剔除。

S102、将mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征。

在本发明实施例中，可预先设置一个深度学习模型，具体的该模型可使用cnn提取特征部分，具体的，选取截断的ResNet18作为特征提取器，每次提取16帧mask图像的特征；使用rnn(Recurrent Neural Network，循环神经网络)提取带有帧间的上下文信息的特征，具体的，选取带有长短时记忆功能的LSTM作为rnn的特征提取模块；使用temporalpooling，对不同帧的特征进行融合；在模型训练时，使用多loss共同进行迭代优化。即，深度学习模型为利用卷积神经网络提取图像特征，利用循环神经网络提取图像序列间的上下文信息特征，利用时空池化对不同步态图像的特征进行融合，利用全连接层输出步态特征的模型。请参考图2，图2为本发明实施例中一种深度学习模型的结构示意图，如图2所示，该深度学习模型具体为包括：cnn、LSTM(Long Short Term Memory Network，长短时记忆网络，rnn网络中的一种网络)、temporal pooling、Gait Feature和Contrastive Loss。深度学习模型的训练过程包括：将softmaxloss作为人员ID的分类损失函数，将contrastiveloss作为两个目标间特征差异的损失函数，训练深度学习模型。

具体的，cnn提取特征部分，即选取截断的ResNet18作为特征提取器，每次提取16帧mask图像的特征；rnn提取带有帧间的上下文信息的特征，选取带有长短时记忆功能的LSTM作为rnn的特征提取模块；使用temporal pooling，对不同帧的特征进行融合。在进行模型训练时，使用多loss共同进行迭代优化。其中截断的ResNet18，具体指只保留到ResNet18网络中的pool5层特征，并在pool5层后面接一个输出为1024维的fullyconnected层；截断的LSTM，为了防止过拟合，在LSTM模块中，加入dropout层，dropout_ratio设置为0.5；特征融合，可指使用temporal pooling对rnn特征进行融合，对16个通道特征的每一个位置计算均值，即从时间上，对特征做一个pooling操作，最终得到一个长度为1024维的特征；多loss共同优化，即指使用contrastive loss和softmaxloss共同训练，其中softmaxloss作为人员ID的分类损失函数，contrastive loss作为两个目标间特征差异的损失函数。两个loss的权重设置为1：1。

在得到mask图像序列之后，便可利用深度学习模型中的对mask图像序列进行特征提取，具体的，利用卷积神经网络提取图像特征，利用循环神经网络提取图像序列间的上下文信息特征，利用时空池化对不同步态图像的特征进行融合，利用全连接层输出步态特征。

具体的，mask图像序列中的每一帧图像分别代表步态图像序列中每一帧图像的图像特征，具体的即图像中待识别人体的人体轮廓特征(即人体形态特征)。将能够标准人体轮廓特征的mask图像序列输入至深度学习模型中进行特征提取，便可提取出待识别人员的步态特征。具体的，即将每帧图像的人体轮廓特征之间的特征进行提取，便可得到最终能够表征待识别人员的目标步态特征。

S103、计算目标步态特征与参考步态特征的相似度。

在本发明实施例中，可预先在数据库中存储参考步态特征及人员身份标签。在得到待识别人员的目标步态特征之后，便可计算目标步态特征与参考步态特征的相似度。优选地，为了提高计算得到的相似度的准确性，在本发明实施例中，可分别采取多种距离计算方式，融合多种距离计算结果，将融合结果作为该相似度。其中，融合方式为：先选定一个较为丰富的验证集，两种相似度的权重为a，(1-a)，将a在【0，1】间以0.01的步长依次计算相似度融合后的识别准确率，取准确率最高的a作为最后的权重系数。在确定权重系数之后，可分别计算目标步态特征与参考步态特征之间的欧式距离、Tanimoto距离和余弦距离中的至少两种距离；按照预设距离权重，将距离的加权和作为相似度。例如，当距离计算方式为Tanimoto距离和欧式距离时，待计算的两个特征向量分别为X、Y，其中X＝[x₁,x₂,...,x_n]，Y＝[y₁,y₂,...,y_n]，则

Count1+＝(X/SumX)*(Y/SumY)；

Count2+＝(Y/SumY)*(Y/SumY)；

Count3+＝(X/SumX)*(X/SumX)；

两个特征的相似度值为：S＝(1-(Count1/(Count2+Count3-Count1)))；

其中Count1+＝(X/SumX)*(Y/SumY)等同于Count1＝Count1+(X/SumX)*(Y/SumY)，Count2和Count3的计算式子也遵循此规则，在此不再一一列举。

在本发明实施例中，所计算出的相似度可仅为目标步态特征与一个参考步态特征之间的相似度，还可为目标步态特征分别与多个参考步态特征之间的相似度。

S104、利用相似度，对待识别人员进行识别，并输出身份识别结果。

当仅有一个参考步态特征时，相应地，利用相似度对待识别人员进行识别时，仅需判断该相似度是否大于预设相似度阈值，以判断待识别人员是否为参考步态特征对应的人员身份；当存在多个参考步态特征时，则可对多个相似度进行排序，将相似度最大的一个或指定个数的参考步态特征对应的人员标识输出，以检索结果方式呈现。具体的，身份识别结果可具体为输出待识别人员的唯一识别号，如ID，或多种信息的组合，如姓名、性别和年龄。身份识别结果与预先为参考步态设置的标记信息相对应。

实施例二：

为了便于本领域技术人员更好地理解本发明实施例所提供的人员身份识别方法，下面结合具体的应用场景为例，对本发明实施例所提供的人员身份识别方法进行详细说明。

本发明为了快速准确地从海量的待搜索库中查找目标，实现利用步态特征进行人员身份识别。通过提取目标序列的mask图像，mask图像对齐，通过rnn提取步态特征，计算特征相似度等手段，很好的解决了当人脸识别和人员衣着识别失效的情况下，人员精准识别的问题，极大的丰富了目标识别的手段。

在实际应用中，实施人员身份识别方法，具体包括模型训练和特征提取及比对两大过程，其中模型训练包括以下步骤：

步骤1、获取训练数据，在人员图像上进行mask标定和人员ID标定，并统一缩放，得到训练数据；

步骤2、训练改进版的mask-rcnn模型。先以ShuffleNet为基础网络，在开源的coco(一种新的图像识别，分割和加字幕标注的数据集)样本集上，训练得到一个通用的目标检测及分割模型。然后在该模型上进行finetune，finetune过程中，固定基础网络的参数，去除检测分支，以标定好的人员数据为输入，以SigmoidCrossEntropyLoss作为损失函数，训练mask分支，得到一个在人员分割上更精准的网络模型；

步骤3、训练步态识别模型。先用训练好的mask分割模型在人员数据集上提取每个ID的每帧图像的mask；然后以此为输入，训练一个深度学习模型，该模型以ResNet18为基础网络，用LSTM学习前后帧上下文信息，然后再接temporal pooling对LSTM输出的16帧特征进行融合，在时间上，将16个通道的每一个位置做average pooling，得到一个1024维的特征，最后训练过程中使用softmaxloss和contrastiveloss共同优化，二者的权重设为1：1，经过20万次的迭代后，得到步态特征的提取模型。

以上为训练过程，特征提取及比对过程包括以下步骤：

步骤1、使用训练好的改进版mask-rcnn模型，提取mask图像；

步骤2、使用训练好的步态识别模型，输入mask图像，提取到行人的步态特征；

步骤3、计算不同行人的步态特征相似度，通过阈值过滤，实现人员身份识别。

其中，特征提取及比对过程步骤1中提取行人的mask图像，具体包括如下步骤：

步骤1.1，利用改进版的mask-rcnn网络提取到序列中所有帧的mask图像。

步骤1.2，mask筛选，通过随机抽取和宽高比限制，抽取满足条件的16帧mask图像。

步骤2中的深度学习模型，在特征提取过程中分为三大部件：一、通过基础网络ResNet18提取单帧图像的cnn特征，该特征只保留到原始ResNet18的pool5层，后面再接一个输出为1024的fc层；二、将cnn特征送入rnn模块，用LSTM提取带有帧间信息的步态特征；三、通过temporal pooling对每帧的rnn特征进行融合，得到最终用于识别的1024维特征。

步骤3中相似度计算方法为多种度量方式的融合，如Tanimoto距离和欧式距离，分别计算后，将计算结果融合得到最终的相似度。

经过以上算法处理，实现了通过步态特征进行人员身份识别的目的。该方法在人脸识别，人员外观识别失效的情况下，具有非常好的通用性，步态特征对相机的架设要求低，适用的监控场景大。面对一些条件苛刻的场景，以及距离监控相机较远的位置的人，都可以提取到步态的特征，步态识别极大的丰富了目标识别的手段，降低了工作人员的工作量。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了一种人员身份识别装置，下文描述的人员身份识别装置与上文描述的人员身份识别方法可相互对应参照。

参见图3所示，该装置包括以下模块：

mask图像序列获取模块101，用于获取待识别人员的步态图像序列，并利用目标mask-rcnn模型对步态图像序列进行掩码处理，获得mask图像序列；

目标步态特征获取模块102，用于将mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征；

相似度计算模块103，用于计算目标步态特征与参考步态特征的相似度；

人员身份识别模块104，用于利用相似度，对待识别人员进行识别，并输出身份识别结果。

应用本发明实施例所提供的装置，获取待识别人员的步态图像序列，并利用目标mask-rcnn模型对步态图像序列进行掩码处理，获得mask图像序列；将mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征；计算目标步态特征与参考步态特征的相似度；利用相似度，对待识别人员进行识别，并输出身份识别结果。

在本发明的一种具体实施方式中，还包括：目标mask-rcnn模型获取模块，用于改进和训练mask-rcnn模型；

目标mask-rcnn模型获取模块，包括：

网络架构改进单元，用于在获取待识别人员的步态图像序列之前，将mask-rcnn中的基础网络换为ShuffleNet网络；

模型简化单元，用于去掉mask-rcnn中的检测分支，并固定ShuffleNet网络的参数；

模型训练单元，用于利用训练样本对mask分支进行训练，获得目标mask-rcnn模型。

在本发明的一种具体实施方式中，模型训练单元，具体用于利用标定工具，将人员图像标记为前景和背景；根据标记结果，获得训练样本。

在本发明的一种具体实施方式中，模型训练单元，具体用于将训练样本统一缩放至指定大小，并利用S型交叉熵损失函数按照step训练策略，迭代训练mask分支。

在本发明的一种具体实施方式中，还包括：

mask图像整理模块，用于在将mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征之前，对mask图像序列中的mask图像进行对齐处理和筛选处理。

在本发明的一种具体实施方式中，mask图像序列获取模块101，具体用于利用目标mask-rcnn模型获得步态图像序列中每一个步态图像的前景图像，以及前景图像中每一个像素点概率得分；将概率得分与255的乘积结果作为mask图像的像素值。

在本发明的一种具体实施方式中，相似度计算模块103，具体用于分别计算目标步态特征与参考步态特征之间的欧式距离、Tanimoto距离和余弦距离中的至少两种距离；按照预设距离权重，将距离的加权和作为相似度。

在本发明的一种具体实施方式中，深度学习模型获得模块，用于在深度学习模型为利用卷积神经网络提取图像特征，利用循环神经网络提取图像序列间的上下文信息特征，利用时空池化对不同步态图像的特征进行融合，利用全连接层输出步态特征的模型时，将softmaxloss作为人员ID的分类损失函数，将contrastive loss作为两个目标间特征差异的损失函数，训练深度学习模型。

实施例四：

相应于上面的方法实施例，本发明实施例还提供了一种人员身份识别设备，下文描述的一种人员身份识别设备与上文描述的一种人员身份识别方法可相互对应参照。

参见图4所示，该人员身份识别设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的人员身份识别方法的步骤。

具体的，请参考图5，图5为本实施例提供的一种人员身份识别设备的具体结构示意图，该人员身份识别设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在人员身份识别设备301上执行存储介质330中的一系列指令操作。

人员身份识别设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的人员身份识别方法中的步骤可以由人员身份识别设备的结构实现。

实施例五：

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种人员身份识别方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的人员身份识别方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种人员身份识别方法，其特征在于，包括：

计算所述目标步态特征与参考步态特征的相似度；

2.根据权利要求1所述的人员身份识别方法，其特征在于，在获取待识别人员的步态图像序列之前，还包括：

将mask-rcnn中的基础网络换为ShuffleNet网络；

3.根据权利要求2所述的人员身份识别方法，其特征在于，获取所述训练样本包括：

利用标定工具，将人员图像标记为前景和背景；

根据标记结果，获得所述训练样本。

4.根据权利要求2所述的人员身份识别方法，其特征在于，所述利用训练样本对mask分支进行训练，包括：

5.根据权利要求1所述的人员身份识别方法，其特征在于，在将所述mask图像序列输入至深度学习模型进行特征提取，获得目标步态特征之前，还包括：

对所述mask图像序列中的mask图像进行对齐处理和筛选处理。

6.根据权利要求1所述的人员身份识别方法，其特征在于，所述利用目标mask-rcnn模型对所述步态图像序列进行掩码处理，获得mask图像序列，包括：

将所述概率得分与255的乘积结果作为mask图像的像素值。

7.根据权利要求1所述的人员身份识别方法，其特征在于，计算所述目标步态特征与参考步态特征的相似度，包括：

按照预设距离权重，将所述距离的加权和作为所述相似度。

8.根据权利要求1至7任一项所述的人员身份识别方法，其特征在于，在所述深度学习模型为利用卷积神经网络提取图像特征，利用循环神经网络提取图像序列间的上下文信息特征，利用时空池化对不同步态图像的特征进行融合，利用全连接层输出步态特征的模型时，所述深度学习模型的训练过程包括：

9.一种人员身份识别装置，其特征在于，包括：

10.一种人员身份识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至8任一项所述人员身份识别方法的步骤。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述人员身份识别方法的步骤。