CN111950321A

CN111950321A - 步态识别方法、装置、计算机设备及存储介质

Info

Publication number: CN111950321A
Application number: CN201910398564.8A
Authority: CN
Inventors: 王金
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2020-11-17
Anticipated expiration: 2039-05-14
Also published as: CN111950321B

Abstract

本发明公开了一种步态识别方法、装置、计算机设备及存储介质，属于计算机技术领域。所述方法包括：获取目标行人的图像序列；根据所述目标行人的图像序列，获取所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息；根据所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息，获取合成图像序列；基于所述合成图像序列进行步态识别，得到所述目标行人的身份信息。本发明基于合成图像序列进行步态识别，得到目标行人的身份信息，可以提高步态识别结果的可靠性。

Description

步态识别方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种步态识别方法、装置、计算机设备及存储介质。

背景技术

步态识别是指根据行人的行走方式来识别行人的身份的方法，步态识别在视频监控、智能分析和模式识别领域具有广泛的应用。

目前，相关技术进行步态识别的方法如下：利用神经网络分割模型，对一段步态视频中的多个步态图像进行人形轮廓分割，获得该多个步态图像的人形轮廓分割图像，也称为轮廓剪影图像，然后将获得的廓剪影图像通过卷积神经网络模型进行身份识别，输出身份识别结果。

上述技术基于轮廓剪影图像来进行步态识别，由于轮廓剪影图像是人体的二值分割图像，其仅包含人体的轮廓边缘信息，所含信息量较少，导致步态识别结果的可靠性差。

发明内容

本发明实施例提供了一种步态识别方法、装置、计算机设备及存储介质，可以解决相关技术步态识别结果的可靠性差的问题。所述技术方案如下：

第一方面，提供了一种步态识别方法，所述方法包括：

获取目标行人的图像序列；

根据所述目标行人的图像序列，获取所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息；

根据所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息，获取合成图像序列；

基于所述合成图像序列进行步态识别，得到所述目标行人的身份信息。

在一种可能实现方式中，所述获取目标行人的图像序列，包括：

获取包含所述目标行人的视频；

当所述视频中仅包含所述目标行人时，对所述视频进行行人检测，得到所述目标行人的图像序列；

当所述视频中包含除所述目标行人以外的行人时，对所述视频进行行人检测和跟踪，得到所述视频中每个行人的图像序列，将被选取的行人的图像序列作为所述目标行人的图像序列。

在一种可能实现方式中，所述对所述视频进行行人检测，得到所述目标行人的图像序列，包括：

对所述视频进行行人检测，得到所述目标行人在所述视频的多个视频帧中的尺寸信息和位置信息；

根据所述多个视频帧和所述目标行人在所述多个视频帧中的尺寸信息和位置信息，获取所述目标行人的图像序列。

在一种可能实现方式中，所述根据所述多个视频帧和所述目标行人在所述多个视频帧中的尺寸信息和位置信息，获取所述目标行人的图像序列，包括：

对于每个视频帧，根据所述视频帧和所述目标行人在所述视频帧中的尺寸信息和位置信息，在所述视频帧中截取所述目标行人所在区域的局部图像；

根据截取的多个局部图像，得到所述目标行人的图像序列。

在一种可能实现方式中，所述对所述视频进行行人检测和跟踪，得到所述视频中每个行人的图像序列，包括：

对所述视频进行行人检测和跟踪，得到所述视频中每个行人在所述视频的多个视频帧中的尺寸信息和位置信息；

根据所述多个视频帧和所述视频中每个行人在所述多个视频帧中的尺寸信息和位置信息，获取所述视频中每个行人的图像序列。

在一种可能实现方式中，所述根据目标行人的图像序列，获取所述目标行人的轮廓剪影图像和多个姿态点的位置信息，包括：

对于所述图像序列中的每个图像，将所述图像输入分割与姿态估计联合模型，输出所述目标行人的轮廓剪影图像和多个姿态点的位置信息，所述分割与姿态估计联合模型用于根据输入的图像输出轮廓剪影图像和多个姿态点的位置信息；

根据输出的多个轮廓剪影图像，得到所述轮廓剪影图像序列。

在一种可能实现方式中，所述根据所述目标行人的轮廓剪影图像序列以及所述轮廓剪影图像序列和多个姿态点的位置信息，获取合成图像序列，包括：

对于所述轮廓剪影图像序列中的每个轮廓剪影图像以及对应的多个姿态点的位置信息，根据所述轮廓剪影图像以及对应的多个姿态点的位置信息，获取合成图像；

根据获取的多个合成图像，得到所述合成图像序列。

在一种可能实现方式中，所述根据所述轮廓剪影图像以及对应的多个姿态点的位置信息，获取合成图像，包括：

根据所述轮廓剪影图像以及对应的多个姿态点的位置信息，在所述轮廓剪影图像中所述多个姿态点的位置处，生成不同颜色的高斯核；

根据所述多个姿态点所对应的关节，对所述多个姿态点进行连接，得到所述合成图像。

在一种可能实现方式中，所述基于所述合成图像序列进行步态识别，得到所述目标行人的身份信息，包括：

基于所述合成图像序列，获取所述目标行人的步态特征；

根据所述目标行人的步态特征，获取所述目标行人的身份信息。

在一种可能实现方式中，所述基于所述合成图像序列，获取所述目标行人的步态特征，包括：

将所述合成图像序列输入步态特征提取模型，输出所述目标行人的步态特征，所述步态特征提取模型用于根据输入的图像序列输出步态特征。

在一种可能实现方式中，所述根据所述目标行人的步态特征，获取所述目标行人的身份信息，包括：

根据所述目标行人的步态特征，在行人数据库中进行检索，得到所述目标行人的身份信息，所述行人数据库用于存储多个行人的步态特征和身份信息。

在一种可能实现方式中，所述根据所述目标行人的步态特征，在行人数据库中进行检索，得到所述目标行人的身份信息，包括：

将所述目标行人的步态特征与所述行人数据库中多个行人的步态特征进行比对，得到所述目标行人的步态特征与每个行人的步态特征的相似度；

根据所述目标行人的步态特征与每个行人的步态特征的相似度，获取所述目标行人的身份信息。

在一种可能实现方式中，所述根据所述目标行人的步态特征与每个行人的步态特征的相似度，获取所述目标行人的身份信息，包括：

根据所述目标行人的步态特征与每个行人的步态特征的相似度，将所述行人数据库中第一行人的身份信息作为所述目标行人的身份信息，所述第一行人的步态特征与所述目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值。

根据所述目标行人的步态特征与每个行人的步态特征的相似度，显示所述目标行人的图像序列和所述行人数据库中第一行人的图像序列，所述第一行人的步态特征与所述目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值；

当接收到第一确认信息时，将所述第一行人的身份信息作为所述目标行人的身份信息，所述第一确认信息用于确认所述第一行人与所述目标行人为同一行人。

在一种可能实现方式中，所述方法还包括：

在显示所述第一行人的图像序列时，同时显示所述第一行人的身份信息、出现位置信息和出现时间信息。

根据所述目标行人的步态特征与每个行人的步态特征的相似度，在显示所述目标行人的图像序列时，按照相似度从大到小的顺序，显示所述行人数据库中多个行人的图像序列；

当接收到第二确认信息时，将所述第二确认信息对应的行人的身份信息作为所述目标行人的身份信息，所述第二确认信息用于确认所述多个行人中与所述目标行人为同一行人的行人。

在一种可能实现方式中，所述方法还包括：

在显示所述行人数据库中多个行人的图像序列时，同时显示所述行人数据库中多个行人的身份信息、出现位置信息和出现时间信息。

第二方面，提供了一种步态识别装置，所述装置包括：

获取模块，获取目标行人的图像序列；

所述获取模块还用于根据所述目标行人的图像序列，获取所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息；

所述获取模块还用于根据所述目标行人的轮廓剪影图像序列和所述多个姿态点的位置信息，获取合成图像序列；

识别模块，用于基于所述合成图像序列进行步态识别，得到所述目标行人的身份信息。

在一种可能实现方式中，所述获取模块用于：

获取包含所述目标行人的视频；

在一种可能实现方式中，所述获取模块用于：

根据截取的多个局部图像，得到所述目标行人的图像序列。

在一种可能实现方式中，所述获取模块用于：

根据获取的多个合成图像，得到所述合成图像序列。

在一种可能实现方式中，所述获取模块用于：

在一种可能实现方式中，所述识别模块用于：

基于所述合成图像序列，获取所述目标行人的步态特征；

在一种可能实现方式中，所述获取模块用于将所述合成图像序列输入步态特征提取模型，输出所述目标行人的步态特征，所述步态特征提取模型用于根据输入的图像序列输出步态特征。

在一种可能实现方式中，所述识别模块用于根据所述目标行人的步态特征，在行人数据库中进行检索，得到所述目标行人的身份信息，所述行人数据库用于存储多个行人的步态特征和身份信息。

在一种可能实现方式中，所述识别模块用于：

在一种可能实现方式中，所述识别模块用于根据所述目标行人的步态特征与每个行人的步态特征的相似度，将所述行人数据库中第一行人的身份信息作为所述目标行人的身份信息，所述第一行人的步态特征与所述目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值。

在一种可能实现方式中，所述识别模块用于：

在一种可能实现方式中，所述识别模块还用于在显示所述第一行人的图像序列时，同时显示所述第一行人的身份信息、出现位置信息和出现时间信息。

在一种可能实现方式中，所述识别模块用于：

在一种可能实现方式中，所述识别模块还用于在显示所述行人数据库中多个行人的图像序列时，同时显示所述行人数据库中多个行人的身份信息、出现位置信息和出现时间信息。

第三方面，提供了一种计算机设备，包括一个或多个处理器和一个或多个存储器；所述一个或多个存储器，用于存放至少一条指令；所述一个或多个处理器，用于执行所述一个或多个存储器上所存放的至少一条指令，实现第一方面任一种实现方式所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有至少一条指令，所述至少一条指令被处理器执行时实现第一方面任一种实现方式所述的方法步骤。

本发明实施例提供的技术方案带来的有益效果至少包括：

通过获取目标行人的图像序列，根据图像序列获取目标行人的轮廓剪影图像序列以及多个姿态点的位置信息，进而利用这两种信息获取合成图像序列，基于合成图像序列进行步态识别，得到目标行人的身份信息。由于合成图像序列融合了轮廓剪影图像序列和姿态点的位置信息，这样合成图像序列同时包含人体轮廓边缘的运动信息和人体各个姿态点的运动信息，信息量丰富，可以提高步态识别结果的可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种步态识别方法的流程图；

图2是本发明实施例提供的一种步态识别方法的流程图；

图3是本发明实施例提供的一种轮廓剪影图像的示意图；

图4是本发明实施例提供的一种合成图像的示意图；

图5是本发明实施例提供的一种获取合成图像序列的过程示意图；

图6是本发明实施例提供的一种获取步态特征的过程示意图；

图7是本发明实施例提供的一种步态特征检索的流程示意图；

图8是本发明实施例提供的一种步态识别装置的结构示意图；

图9是本发明实施例提供的一种计算机设备900的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种步态识别方法的流程图。参见图1，该方法包括：

101、获取目标行人的图像序列。

102、根据目标行人的图像序列，获取该目标行人的轮廓剪影图像序列和多个姿态点的位置信息。

103、根据该目标行人的轮廓剪影图像序列和多个姿态点的位置信息，获取合成图像序列。

104、基于该合成图像序列进行步态识别，得到该目标行人的身份信息。

本发明实施例提供的方法，通过获取目标行人的图像序列，根据图像序列获取目标行人的轮廓剪影图像序列和多个姿态点的位置信息，进而利用这两种信息获取合成图像序列，基于合成图像序列进行步态识别，得到目标行人的身份信息。由于合成图像序列融合了轮廓剪影图像序列和姿态点的位置信息，这样合成图像序列同时包含人体轮廓边缘的运动信息和人体各个姿态点的运动信息，信息量丰富，可以提高步态识别结果的可靠性。

在一种可能实现方式中，该获取目标行人的图像序列，包括：

获取包含该目标行人的视频；

当该视频中仅包含该目标行人时，对该视频进行行人检测，得到该目标行人的图像序列；

当该视频中包含除该目标行人以外的行人时，对该视频进行行人检测和跟踪，得到该视频中每个行人的图像序列，将被选取的行人的图像序列作为该目标行人的图像序列。

在一种可能实现方式中，该对该视频进行行人检测，得到该目标行人的图像序列，包括：

对该视频进行行人检测，得到该目标行人在该视频的多个视频帧中的尺寸信息和位置信息；

根据该多个视频帧和该目标行人在该多个视频帧中的尺寸信息和位置信息，获取该目标行人的图像序列。

在一种可能实现方式中，该根据该多个视频帧和该目标行人在该多个视频帧中的尺寸信息和位置信息，获取该目标行人的图像序列，包括：

对于每个视频帧，根据该视频帧和该目标行人在该视频帧中的尺寸信息和位置信息，在该视频帧中截取该目标行人所在区域的局部图像；

根据截取的多个局部图像，得到该目标行人的图像序列。

在一种可能实现方式中，该对该视频进行行人检测和跟踪，得到该视频中每个行人的图像序列，包括：

对该视频进行行人检测和跟踪，得到该视频中每个行人在该视频的多个视频帧中的尺寸信息和位置信息；

根据该多个视频帧和该视频中每个行人在该多个视频帧中的尺寸信息和位置信息，获取该视频中每个行人的图像序列。

在一种可能实现方式中，该根据该目标行人的图像序列，获取该目标行人的轮廓剪影图像序列和多个姿态点的位置信息，包括：

对于该图像序列中的每个图像，将该图像输入分割与姿态估计联合模型，输出该目标行人的轮廓剪影图像和多个姿态点的位置信息，该分割与姿态估计联合模型用于根据输入的图像输出轮廓剪影图像和多个姿态点的位置信息；

根据输出的多个轮廓剪影图像，得到该轮廓剪影图像序列。

在一种可能实现方式中，该根据该目标行人的轮廓剪影图像序列以及该轮廓剪影图像序列和多个姿态点的位置信息，获取合成图像序列，包括：

对于该轮廓剪影图像序列中的每个轮廓剪影图像以及对应的多个姿态点的位置信息，根据该轮廓剪影图像以及对应的多个姿态点的位置信息，获取合成图像；

根据获取的多个合成图像，得到该合成图像序列。

在一种可能实现方式中，该根据该轮廓剪影图像以及对应的多个姿态点的位置信息，获取合成图像，包括：

根据该轮廓剪影图像以及对应的多个姿态点的位置信息，在该轮廓剪影图像中该多个姿态点的位置处，生成不同颜色的高斯核；

根据该多个姿态点所对应的关节，对该多个姿态点进行连接，得到该合成图像。

在一种可能实现方式中，该基于该合成图像序列进行步态识别，得到该目标行人的身份信息，包括：

基于该合成图像序列，获取该目标行人的步态特征；

根据该目标行人的步态特征，获取该目标行人的身份信息。

在一种可能实现方式中，该基于该合成图像序列，获取该目标行人的步态特征，包括：

将该合成图像序列输入步态特征提取模型，输出该目标行人的步态特征，该步态特征提取模型用于根据输入的图像序列输出步态特征。

在一种可能实现方式中，该根据该目标行人的步态特征，获取该目标行人的身份信息，包括：

根据该目标行人的步态特征，在行人数据库中进行检索，得到该目标行人的身份信息，该行人数据库用于存储多个行人的步态特征和身份信息。

在一种可能实现方式中，该根据该目标行人的步态特征，在行人数据库中进行检索，得到该目标行人的身份信息，包括：

将该目标行人的步态特征与该行人数据库中多个行人的步态特征进行比对，得到该目标行人的步态特征与每个行人的步态特征的相似度；

根据该目标行人的步态特征与每个行人的步态特征的相似度，获取该目标行人的身份信息。

在一种可能实现方式中，该根据该目标行人的步态特征与每个行人的步态特征的相似度，获取该目标行人的身份信息，包括：

根据该目标行人的步态特征与每个行人的步态特征的相似度，将该行人数据库中第一行人的身份信息作为该目标行人的身份信息，该第一行人的步态特征与该目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值。

根据该目标行人的步态特征与每个行人的步态特征的相似度，显示该目标行人的图像序列和该行人数据库中第一行人的图像序列，该第一行人的步态特征与该目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值；

当接收到第一确认信息时，将该第一行人的身份信息作为该目标行人的身份信息，该第一确认信息用于确认该第一行人与该目标行人为同一行人。

在一种可能实现方式中，该方法还包括：

在显示该第一行人的图像序列时，同时显示该第一行人的身份信息、出现位置信息和出现时间信息。

根据该目标行人的步态特征与每个行人的步态特征的相似度，在显示该目标行人的图像序列时，按照相似度从大到小的顺序，显示该行人数据库中多个行人的图像序列；

当接收到第二确认信息时，将该第二确认信息对应的行人的身份信息作为该目标行人的身份信息，该第二确认信息用于确认该多个行人中与该目标行人为同一行人的行人。

在一种可能实现方式中，该方法还包括：

在显示该行人数据库中多个行人的图像序列时，同时显示该行人数据库中多个行人的身份信息、出现位置信息和出现时间信息。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种步态识别方法的流程图。该方法由计算机设备执行，计算机设备可以是终端，也可以是服务器。参见图2，该方法包括：

201、获取目标行人的图像序列。

其中，目标行人是指需要进行步态识别的行人，如监控场景下作案的行人，该目标行人可以由用户选取。图像序列是由时间连续的多个图像组成的序列，不同图像之间具有时序先后信息。

在一种可能实现方式中，获取目标行人的图像序列的过程可以包括：获取包含该目标行人的视频，根据包含该目标行人的视频，获取目标行人的图像序列。其中，该视频可以是视频文件或视频流，该视频中可以仅包含该目标行人，也可以包含除该目标行人以外的行人，相应地，根据包含该目标行人的视频，获取目标行人的图像序列可以包括以下两种可能实现方式：

第一种方式、当该视频中仅包含该目标行人时，对该视频进行行人检测，得到该目标行人的图像序列。

在一种可能实现方式中，计算机设备可以对该视频进行行人检测，得到该目标行人在该视频的多个视频帧中的尺寸信息和位置信息；根据该多个视频帧和该目标行人在该多个视频帧中的尺寸信息和位置信息，获取该目标行人的图像序列。

计算机设可以采用目标检测算法，对视频中的行人进行检测，获取行人在每个视频帧中的位置信息和尺寸信息，该位置信息和尺寸信息可以是检测过程中确定的行人的目标框的位置信息和尺寸信息，该位置信息和尺寸信息可以确定行人在视频帧中所在的区域。

其中，该目标检测算法包括但不限于HOG(Histogram of Oriented Gradient,方向梯度直方图)、DPM(Deformable Part Model，可变形的组件模型)、FRCNN(Faster RegionConvolutional Neural Networks，更快速基于区域卷积神经网络)、MaskRCNN(MaskRegion Convolutional Neural Networks，基于掩模的区域卷积神经网络)、YOLO(YouOnly Look Once，只需在图像上看一次)、SSD(Single Shot MultiBox Detector，单个多盒检测器)等算法。

在一种可能实现方式中，该根据该多个视频帧和该目标行人在该多个视频帧中的尺寸信息和位置信息，获取该目标行人的图像序列，包括：对于每个视频帧，根据该视频帧和该目标行人在该视频帧中的尺寸信息和位置信息，在该视频帧中截取该目标行人所在区域的局部图像；根据截取的多个局部图像，得到该目标行人的图像序列。

计算机设备可以根据目标行人在每个视频帧中的尺寸信息和位置信息，确定每个视频帧中目标行人所在区域，计算机设备可以从每个视频帧中截取目标行人所在区域的局部图像，组成该目标行人的图像序列。例如，计算机设备可以按照截取的局部图像所属视频帧的先后顺序，对多个局部图像进行排列，得到该目标行人的图像序列。

第一种方式是针对视频中包含一个行人(目标行人)的情况，通过对视频进行行人检测，可以得到该行人在每帧图像中的尺寸信息和位置信息，而该尺寸信息和位置信息可以确定该行人在图像中的区域，因而可以通过截图处理获取该目标行人的图像序列。

第二种方式、当该视频中包含除该目标行人以外的行人时，对该视频进行行人检测和跟踪，得到该视频中每个行人的图像序列，将被选取的行人的图像序列作为该目标行人的图像序列。

在一种可能实现方式中，计算机设备可以对该视频进行行人检测和跟踪，得到该视频中每个行人在该视频的多个视频帧中的尺寸信息和位置信息；根据该多个视频帧和该视频中每个行人在该多个视频帧中的尺寸信息和位置信息，获取该视频中每个行人的图像序列。

计算机设备对视频进行行人检测，可以获取每个视频帧中不同行人的尺寸信息和位置信息，通过对行人进行行人跟踪，可以确定不同视频帧中的同一行人，得到同一个行人在不同视频帧中的尺寸信息和位置信息。另外，计算机设备在进行行人检测时，可以为检测到的每个行人分配一个唯一标识，同一视频帧中的不同行人具有不同的标识，在对检测到的行人跟踪时，可以将不同视频帧中的同一行人沿用相同的标识。

对于每个行人，计算机设备可以根据该行人在每个视频帧中的尺寸信息和位置信息，确定每个视频帧中该行人所在区域，计算机设备可以从每个视频帧中截取该行人所在区域的局部图像，组成该行人的图像序列。

计算机设备在得到视频中国多个行人的图像序列后，可以显示该多个行人的图像序列，用户可以从中选取目标行人，计算机设备可以将用户选取的行人作为目标行人，将用户选取的行人的图像序列作为目标行人的图像序列。

第二种方式是针对视频中包含多个行人的情况，通过对视频进行行人检测和跟踪，可以得到每个行人在每帧图像中的尺寸信息和位置信息，而该尺寸信息和位置信息可以确定每个行人在图像中的区域，因而可以通过截图处理获取每个行人的图像序列，进而可以由用户选取想要检索的图像序列，也即是目标行人的图像序列。

202、根据目标行人的图像序列，获取该目标行人的轮廓剪影图像序列和多个姿态点的位置信息。

其中，多个姿态点为用于表示人体姿态的关键点，可以包括人体的多个关节上的关键点，该多个关节包括但不限于头部、颈部、肩部(左肩、右肩)、胳膊肘(左肘、右肘)、手腕(左腕、右腕)、髋部(左髋、右髋)、膝盖(左膝盖、右膝盖)、脚踝(左踝、右踝)。姿态点的位置信息可以用坐标(姿态点在轮廓剪影图像中的坐标)表示。

本发明实施例中，计算机设备在获取到目标行人的图像序列后，可以对该图像序列中的每个图像进行轮廓剪影分割以及姿态点估计，得到每个图像对应的目标行人的轮廓剪影图像和多个姿态点的位置信息。

在一种可能实现方式中，对于目标行人的图像序列中的每个图像，计算机设备可以使用分割与姿态估计联合模型，获取目标行人的轮廓剪影图像和多个姿态点的位置信息。相应地，该步骤202可以包括：对于图像序列中的每个图像，将该图像输入分割与姿态估计联合模型，输出该目标行人的轮廓剪影图像和多个姿态点的位置信息，该分割与姿态估计联合模型用于根据输入的图像输出轮廓剪影图像和多个姿态点的位置信息；根据输出的多个轮廓剪影图像，得到该轮廓剪影图像序列。

通过利用模型来获取图像序列中每个图像对应的轮廓剪影图像和多个姿态点的位置信息，仅需将图像序列中的每个图像输入模型，既可得到输出的轮廓剪影图像和多个姿态点的位置信息，获取轮廓剪影图像和多个姿态点的位置信息的效率较高。

其中，该分割与姿态估计联合模型包括但不限于MaskRCNN模型、DeepLab模型、HourGlass模型等。对于目标行人的图像序列的每个图像，计算机设备可以将该图像输入分割与姿态估计联合模型，输出的轮廓剪影图像和多个姿态点的位置信息也即是目标行人的轮廓剪影图像和多个姿态点的位置信息。该分割与姿态估计联合模型可以基于多个样本图像以及对应的轮廓剪影图像和多个姿态点的位置信息训练得到。样本图像可以通过在视频的视频帧中截取行人所在区域的局部图像得到，轮廓剪影图像和多个姿态点的位置信息可以采用人工标定的方式得到。

每个图像输入该分割与姿态估计联合模型，可以得到一个轮廓剪影图像和多个姿态点的位置信息。参见图3，提供了一种轮廓剪影图像的示意图，如图3所示，该轮廓剪影图像是人体的二值分割图像，包含人体轮廓的边缘信息。

由于图像序列包含多个图像，通过分割与姿态估计联合模型，可以得到多个轮廓剪影图像以及每个轮廓剪影图像对应的多个姿态点的位置信息，该多个轮廓剪影图像可以组成轮廓剪影图像序列。例如，计算机设备可以按照轮廓剪影图像所属视频帧的先后顺序，对该多个轮廓剪影图像进行排列，得到该目标行人的轮廓剪影图像序列。该轮廓剪影图像序列可以反映人体轮廓边缘的运动信息，而多个轮廓剪影图像对应的多个姿态点的位置信息可以反映人体多个姿态点的运动信息。

203、根据该目标行人的轮廓剪影图像序列和多个姿态点的位置信息，获取合成图像序列。

本发明实施例中，计算机设备在获得目标行人的轮廓剪影图像序列和多个姿态点的位置信息这两种信息后，可以对这两种信息进行融合，得到合成图像序列。

在一种可能实现方式中，该步骤203可以包括：对于轮廓剪影图像序列中的每个轮廓剪影图像以及对应的多个姿态点的位置信息，根据该轮廓剪影图像以及对应的多个姿态点的位置信息，获取合成图像；根据获取的多个合成图像，得到该合成图像序列。

其中，该根据该轮廓剪影图像以及对应的多个姿态点的位置信息，获取合成图像，包括：根据该轮廓剪影图像以及对应的多个姿态点的位置信息，在该轮廓剪影图像中该多个姿态点的位置处，生成不同颜色的高斯核；根据该多个姿态点所对应的关节，对该多个姿态点进行连接，得到该合成图像。

参见图4，提供了一种合成图像的示意图，如图4所示，对于每个轮廓剪影图像以及对应的多个姿态点的位置信息，计算机设备可以在该轮廓剪影图像中，对于不同姿态点，生成不同颜色(图4中未示出颜色的区别)的高斯核，同时对生成不同颜色的高斯核后的姿态点进行连接，如不同关节上的相邻姿态点可以连接在一起，对于不同关节上的相邻姿态点可以采用不同颜色(图4中未示出颜色的区别)的线条进行连接，最终获得合成图像，也可以称为剪影-热度图合成图像。

由于轮廓剪影图像序列包含多个轮廓剪影图像，这样可以得到多个合成图像，组成合成图像序列。例如，计算机设备可以按照合成图像包含的轮廓剪影图像所属视频帧的先后顺序，对多个合成图像进行排列，得到合成图像序列。该合成图像序列也可以称为剪影-热度图合成图像序列，该剪影-热度图合成图像序列不仅包含了目标行人的人体轮廓边缘的运动信息，还包括了目标行人人体的多个姿态点的运动信息。

参见图5，提供了一种获取合成图像序列的过程示意图，如图5所示，计算机设备可以将目标行人的图像序列中的每个图像经过步态信息预处理，如输入分割与姿态估计联合模型，得到目标行人的轮廓剪影图像和姿态点的位置信息，然后生成合成图像，对于图像序列中的多个图像，则可以得到合成图像序列。

204、基于该合成图像序列，获取该目标行人的步态特征。

在一种可能实现方式中，计算机设备可以利用预先离线训练得到的步态特征提取模型(也可以称为步态特征建模模型)，提取合成图像序列的步态特征。相应地，该步骤204可以包括：将该合成图像序列输入步态特征提取模型，输出该目标行人的步态特征，该步态特征提取模型用于根据输入的图像序列输出步态特征。通过利用模型来获取合成图像序列的步态特征，仅需将合成图像序列输入模型，既可得到输出的步态特征，步态特征的提取效率高。

其中，该步态特征提取模型包括但不限于3D CNN(三维卷积神经网络)、2D CNN(二维卷积神经网络)+LSTM(Long Short-Term Memory，长短期记忆网络)等。其中，2D CNN+LSTM是指将二维卷积神经网络连接上LSTM网络。计算机设备将合成图像序列输入步态特征提取模型后，可以将该步态特征提取模型的特征提取层输出的特征作为目标行人的步态特征。

该步态特征提取模型可以基于多个样本合成图像序列以及对应的样本标签训练得到，样本合成图像序列可以是样本行人的合成图像序列，样本标签可以是样本行人的身份信息。样本合成图像序列的获取过程可以与步骤201至步骤203同理，样本标签可以由用户输入，在训练时，将每个样本合成图像序列以及对应的样本标签输入初始提取模型，输出行人的身份信息，根据输出的身份信息与样本标签计算模型的准确度，对初始提取模型进行迭代训练，不断调整模型的参数，直至满足目标条件时，将此时得到的模型作为步态特征提取模型，该目标条件可以是模型的准确度达到准确度阈值，也可以是模型的迭代次数达到次数阈值。

参见图6，提供了一种获取步态特征的过程示意图，如图6所示，计算机设备可以对包含目标行人的视频(视频文件或视频流)进行行人检测和行人跟踪，得到目标行人的图像序列，根据该图像序列得到合成图像序列，然后通过步态特征提取(步态特征建模)，得到目标行人的步态特征。

通过对轮廓剪影图像序列以及人体姿态点的位置信息进行融合得到合成图像序列，将该合成图像序列作为步态特征提取模型的输入，由于合成图像序列既包含人体轮廓中所具有的轮廓边缘的运动信息，同时也包含人体内容各个姿态点的运动信息，相比于轮廓剪影图像序列，其信息含量更加丰富，能够更好建模目标行人的步态特征，也即是，提取目标行人的步态特征。

205、根据该目标行人的步态特征，获取该目标行人的身份信息。

其中，身份信息用于标识该行人的身份，例如，该身份信息可以是身份证号码、姓名等。

在一种可能实现方式中，该步骤205可以包括：根据该目标行人的步态特征，在行人数据库中进行检索，得到该目标行人的身份信息，该行人数据库用于存储多个行人的步态特征和身份信息。

计算机设备可以采用检索算法进行检索，该检索算法包括但不限于BOW(Bag-of-words，视觉词袋)、汉明嵌入、局部敏感哈希、CDVS(Compact Descriptor for VisualSearch，图像检索紧凑描述)等算法。

在一种可能实现方式中，通过检索得到目标行人的身份信息的过程可以包括下述步骤a至步骤b：

步骤a、将该目标行人的步态特征与该行人数据库中多个行人的步态特征进行比对，得到该目标行人的步态特征与每个行人的步态特征的相似度。

计算机设备可以根据目标行人的步态特征，计算目标行人的步态特征与行人数据库中每个行人的步态特征的相似度。两个行人的步态特征的相似度越大，表明两个行人越可能属于同一行人。

步骤b、根据该目标行人的步态特征与每个行人的步态特征的相似度，获取该目标行人的身份信息。

该步骤b包括但不限于下述三种可能实现方式：

第一种方式、根据该目标行人的步态特征与每个行人的步态特征的相似度，将该行人数据库中第一行人的身份信息作为该目标行人的身份信息，该第一行人的步态特征与该目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值。

参见图7，提供了一种步态特征检索的流程示意图，如图7所示，计算机设备通过步态特征提取(步态特征建模)获取到目标行人的步态特征后，可以根据目标行人的步态特征进行检索，计算目标行人的步态特征与行人数据库中每个行人的步态特征的相似度，并进行相似度排序，如根据相似度从大到小(从高到低)的顺序进行排序，并展示排序结果，如显示第一数据库中多个行人的身份信息以及其与目标行人的步态特征的相似度。

计算机设备可以将步态特征与该目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值的行人作为第一行人，将其身份信息作为目标行人的身份信息。

第二种方式、根据该目标行人的步态特征与每个行人的步态特征的相似度，显示该目标行人的图像序列和该行人数据库中第一行人的图像序列，该第一行人的步态特征与该目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值；当接收到第一确认信息时，将该第一行人的身份信息作为该目标行人的身份信息，该第一确认信息用于确认该第一行人与该目标行人为同一行人。

其中，第一确认信息可以是用户对检索结果的确认信息。行人数据库中除了存储多个行人的步态特征和身份信息以外，还可以存储该多个行人的图像序列。

计算机设备可以将目标行人的图像序列作为检索序列，将第一行人的图像序列作为结果序列，采用检索序列和结果序列双视频放大显示。在检索结果的显示过程中，用户可以调整每个图像序列的时间用于同步两个行人的行走相位，如调整两个图像序列中两个行人同时迈左脚时开始播放，便于观察这两个行人是否为同一个行人，当用户确认两个行人为同一个行人时，可以进行确认操作，使得计算机设备可以接收到第一确认信息，从而将该第一行人的身份信息作为该目标行人的身份信息。

通过对检索结果进行显示，可以方便用户判断两个图像序列中的行人是否为同一个行人，通过在获取到用户的确认信息后，得到目标行人的身份信息，可以保证结果的可靠性。

在一种可能实现方式中，行人数据库中除了存储多个行人的步态特征、身份信息和图像序列以外，还可以存储出现位置信息和出现时间信息。相应地，计算机设备在显示该第一行人的图像序列时，可以同时显示该第一行人的身份信息、出现位置信息和出现时间信息。

通过在图像序列时，同时显示对应行人的相关信息，可以便于用户进行观察，提高了用户体验和对检索结果复核的效率。

第三种方式、根据该目标行人的步态特征与每个行人的步态特征的相似度，在显示该目标行人的图像序列时，按照相似度从大到小的顺序，显示该行人数据库中多个行人的图像序列；当接收到第二确认信息时，将该第二确认信息对应的行人的身份信息作为该目标行人的身份信息，该第二确认信息用于确认该已知身份信息的多个行人中与该目标行人为同一行人的行人。

计算机设备可以将目标行人的图像序列作为检索序列，将行人数据库中多个行人的图像序列作为结果序列，采用检索序列和结果序列双视频放大显示。该情况下，结果序列可以是一个列表的形式，包含多个图像序列。用户可以顺序遍历结果列表中的每个图像序列，采用与第二种方式中同样的调整和观察方式，直到找到与目标行人的图像序列为同一个行人的行人，并进行确认操作，使得计算机设备可以接收到第二确认信息，从而将该行人的身份信息作为该目标行人的身份信息。

通过对检索结果进行列表显示，可以方便用户根据目标行人的图像序列和行人数据库中任一行人的图像序列，判断两个图像序列中的行人是否为同一个行人，通过在获取到用户的确认信息后，得到目标行人的身份信息，可以保证结果的可靠性。

在一种可能实现方式中，计算机设备在显示该行人数据库中多个行人的图像序列时，同时显示该行人数据库中多个行人的身份信息、出现位置信息和出现时间信息。通过在图像序列时，同时显示对应行人的相关信息，可以便于用户进行观察，提高了用户体验和对检索结果复核的效率。

需要说明的是，步骤204和步骤205是基于该合成图像序列进行步态识别，得到该目标行人的身份信息的一种可能实现方式。

需要说明的是，本发明实施例是以利用已知身份信息的行人数据库来检索，得到目标行人的身份信息为例进行说明，在一些实施例中，计算机设备也可以根据该目标行人的步态特征，在未知身份信息的行人数据库中进行检索，确定未知身份信息的行人数据库中与该目标行人为同一行人的行人。该未知身份信息的行人数据库用于记录未知身份信息的多个行人的步态特征，还用于记录多个行人的图像序列、出现位置信息和出现时间信息。

计算机设备可以将目标行人的步态特征与未知身份信息的行人数据库中多个行人的步态特征进行比对，得到该目标行人的步态特征与未知身份信息的行人数据库中每个行人的步态特征的相似度，根据该目标行人的步态特征与未知身份信息的行人数据库中每个行人的步态特征的相似度，确定未知身份信息的行人数据库中与该目标行人为同一行人的行人。其中，根据该目标行人的步态特征与未知身份信息的行人数据库中每个行人的步态特征的相似度，确定未知身份信息的行人数据库中与该目标行人为同一行人的行人与在利用行人数据库检索的三种方式同理，不再赘述。该未知身份信息的行人数据库可以基于目标视频得到，该目标视频与步骤201中的视频可以由同一监控场景的摄像机拍摄得到，该目标视频可以是在步骤201中视频的拍摄时间前后一段时间(如前后一周)内拍摄得到的视频。

通过利用未知身份信息的行人数据库来检索，以确定未知身份信息的行人数据库中与该目标行人为同一行人的行人，从而可以得知该目标行人有没有在其他时间其他位置出现过，还可以生成该目标行人的出现轨迹，或者如果某一个图像序列拍摄到了目标行人的人脸，还可以采用人脸识别的方式，来确认该目标行人的身份信息。

相比于相关技术中基于步态能量图或轮廓剪影序列进行步态识别，要么丢失了不同帧之间的时序先后信息，要么可用信息偏少，难以支撑大规模场景下步态特征的精细化建模，本发明基于剪影-热度图合成图像序列进行步态识别，由于合成图像序列中同时包含人体的轮廓运动信息和人体姿态点的运动信息，其信息含量特别丰富，能够解决大规模数据条件下步态特征的精细化建模，从而实现真实监控场景下的步态识别和步态检索功能。

图8是本发明实施例提供的一种步态识别装置的结构示意图。参照图8，该装置包括：

获取模块801，用于获取目标行人的图像序列；

该获取模块801还用于根据该目标行人的图像序列，获取该目标行人的轮廓剪影图像序列和多个姿态点的位置信息；

该获取模块801还用于根据该目标行人的轮廓剪影图像序列和多个姿态点的位置信息，获取合成图像序列；

识别模块802，用于基于该合成图像序列进行步态识别，得到该目标行人的身份信息。

在一种可能实现方式中，该获取模块801用于：

获取包含该目标行人的视频；

在一种可能实现方式中，该获取模块801用于：

根据截取的多个局部图像，得到该目标行人的图像序列。

在一种可能实现方式中，该获取模块801用于：

根据输出的多个轮廓剪影图像，得到该轮廓剪影图像序列。

在一种可能实现方式中，该获取模块801用于：

对于每个轮廓剪影图像以及对应的多个姿态点的位置信息，根据该轮廓剪影图像以及对应的多个姿态点的位置信息，获取合成图像；

根据获取的多个合成图像，得到该合成图像序列。

在一种可能实现方式中，该获取模块801用于：

在一种可能实现方式中，该识别模块802用于：

基于该合成图像序列，获取该目标行人的步态特征；

根据该目标行人的步态特征，获取该目标行人的身份信息。

在一种可能实现方式中，该获取模块801用于将该合成图像序列输入步态特征提取模型，输出该目标行人的步态特征，该步态特征提取模型用于根据输入的图像序列输出步态特征。

在一种可能实现方式中，该识别模块802用于根据该目标行人的步态特征，在行人数据库中进行检索，得到该目标行人的身份信息，该行人数据库用于存储多个行人的步态特征和身份信息。

在一种可能实现方式中，该识别模块802用于：

在一种可能实现方式中，该识别模块802用于根据该目标行人的步态特征与每个行人的步态特征的相似度，将该行人数据库中第一行人的身份信息作为该目标行人的身份信息，该第一行人的步态特征与该目标行人的步态特征的相似度最大且相似度大于或等于相似度阈值。

在一种可能实现方式中，该识别模块802用于：

在一种可能实现方式中，该识别模块802还用于在显示该第一行人的图像序列时，同时显示该第一行人的身份信息、出现位置信息和出现时间信息。

在一种可能实现方式中，该识别模块802用于：

在一种可能实现方式中，该识别模块802还用于在显示该行人数据库中多个行人的图像序列时，同时显示该行人数据库中多个行人的身份信息、出现位置信息和出现时间信息。

本发明实施例中，通过获取目标行人的图像序列，根据图像序列获取目标行人的轮廓剪影图像序列和多个姿态点的位置信息，进而利用这两种信息获取合成图像序列，基于合成图像序列进行步态识别，得到目标行人的身份信息。由于合成图像序列融合了轮廓剪影图像序列和姿态点的位置信息，这样合成图像序列同时包含人体轮廓边缘的运动信息和人体各个姿态点的运动信息，信息量丰富，可以提高步态识别结果的可靠性。

需要说明的是：上述实施例提供的步态识别装置在步态识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的步态识别装置与步态识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本发明实施例提供的一种计算机设备900的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)901和一个或一个以上的存储器902，其中，该存储器902中存储有至少一条指令，该至少一条指令由该处理器901加载并执行以实现上述各个方法实施例提供的步态识别方法。当然，该计算机设备900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种存储有至少一条指令的计算机可读存储介质，例如存储有至少一条指令的存储器，上述至少一条指令被处理器执行时实现上述实施例中的步态识别方法。例如，该计算机可读存储介质可以是只读内存(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种步态识别方法，其特征在于，所述方法包括：

获取目标行人的图像序列；

根据所述目标行人的轮廓剪影图像序列和所述多个姿态点的位置信息，获取合成图像序列；

2.根据权利要求1所述的方法，其特征在于，所述获取目标行人的图像序列，包括：

获取包含所述目标行人的视频；

3.根据权利要求2所述的方法，其特征在于，所述对所述视频进行行人检测，得到所述目标行人的图像序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个视频帧和所述目标行人在所述多个视频帧中的尺寸信息和位置信息，获取所述目标行人的图像序列，包括：

根据截取的多个局部图像，得到所述目标行人的图像序列。

5.根据权利要求2所述的方法，其特征在于，所述对所述视频进行行人检测和跟踪，得到所述视频中每个行人的图像序列，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标行人的图像序列，获取所述目标行人的轮廓剪影图像序列和多个姿态点的位置信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标行人的轮廓剪影图像序列和所述多个姿态点的位置信息，获取合成图像序列，包括：

根据获取的多个合成图像，得到所述合成图像序列。

8.根据权利要求7所述的方法，其特征在于，所述根据所述轮廓剪影图像以及对应的多个姿态点的位置信息，获取合成图像，包括：

9.根据权利要求1所述的方法，其特征在于，所述基于所述合成图像序列进行步态识别，得到所述目标行人的身份信息，包括：

基于所述合成图像序列，获取所述目标行人的步态特征；

10.根据权利要求9所述的方法，其特征在于，所述基于所述合成图像序列，获取所述目标行人的步态特征，包括：

11.根据权利要求9所述的方法，其特征在于，所述根据所述目标行人的步态特征，获取所述目标行人的身份信息，包括：

12.根据权利要求11所述的方法，其特征在于，所述根据所述目标行人的步态特征，在行人数据库中进行检索，得到所述目标行人的身份信息，包括：

13.根据权利要求12所述的方法，其特征在于，所述根据所述目标行人的步态特征与每个行人的步态特征的相似度，获取所述目标行人的身份信息，包括：

14.根据权利要求12所述的方法，其特征在于，所述根据所述目标行人的步态特征与每个行人的步态特征的相似度，获取所述目标行人的身份信息，包括：

15.一种步态识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标行人的图像序列；

16.根据权利要求15所述的装置，其特征在于，所述获取模块用于：

获取包含所述目标行人的视频；

17.根据权利要求16所述的装置，其特征在于，所述获取模块用于：

18.根据权利要求16所述的装置，其特征在于，所述获取模块用于：

19.根据权利要求15所述的装置，其特征在于，所述获取模块用于：

20.根据权利要求15所述的装置，其特征在于，所述获取模块用于：

根据获取的多个合成图像，得到所述合成图像序列。

21.根据权利要求15所述的装置，其特征在于，所述识别模块用于：

基于所述合成图像序列，获取所述目标行人的步态特征；

22.根据权利要求21所述的装置，其特征在于，所述获取模块用于将所述合成图像序列输入步态特征提取模型，输出所述目标行人的步态特征，所述步态特征提取模型用于根据输入的图像序列输出步态特征。

23.根据权利要求21所述的装置，其特征在于，所述识别模块用于根据所述目标行人的步态特征，在行人数据库中进行检索，得到所述目标行人的身份信息，所述行人数据库用于存储多个行人的步态特征和身份信息。

24.根据权利要求23所述的装置，其特征在于，所述识别模块用于：

25.根据权利要求24所述的装置，其特征在于，所述识别模块用于：

26.根据权利要求24所述的装置，其特征在于，所述识别模块用于：

27.一种计算机设备，其特征在于，包括一个或多个处理器和一个或多个存储器；所述一个或多个存储器，用于存放至少一条指令；所述一个或多个处理器，用于执行所述一个或多个存储器上所存放的至少一条指令，实现权利要求1-14任一项所述的方法步骤。

28.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有至少一条指令，所述至少一条指令被处理器执行时实现权利要求1-14任一项所述的方法步骤。