CN110705438B

CN110705438B - 步态识别方法、装置、设备及存储介质

Info

Publication number: CN110705438B
Application number: CN201910922345.5A
Authority: CN
Inventors: 张均; 余宗桥; 孙星; 彭湃; 郭晓威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2023-07-25
Anticipated expiration: 2039-09-27
Also published as: CN110705438A

Abstract

本申请实施例公开了一种步态识别方法、装置、设备及存储介质，属于计算机技术领域。方法包括：获取目标视频中包括同一人体的多个视频帧；获取所述多个视频帧的步态轮廓图，所述步态轮廓图的排列顺序与所述步态轮廓图对应的视频帧的排列顺序相同；根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，所述至少两个步态轮廓图相邻；根据所述至少一个融合特征图进行识别，得到所述目标视频对应的识别信息。在对步态轮廓图进行处理时，会得到步态的静态特征和动态特征，根据得到的静态特征和动态特征进行识别，从而提高了识别结果的准确率。

Description

步态识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种步态识别方法、装置、设备及存储介质。

背景技术

基于每个人的走路姿态各不相同的特点，目前提出了一种步态识别技术，旨在根据人体的走路姿态获取人体的识别信息，以该识别信息来表示人体特征，具有难以隐藏、易于采集等优势，广泛应用于身份识别、视频监控等领域。

如图1所示，获取一段包括人体的目标视频，获取该目标视频中多个视频帧对应的步态轮廓图，将多个步态轮廓图进行加权平均，得到步态能量图。对该步态能量图进行特征提取，得到该步态能量图的特征，根据该步态能量图的特征，从数据库中查找到与该特征匹配的识别信息，作为该目标视频对应的识别信息。

上述将多个步态轮廓图进行加权平均的方式，丢失了步态的动态特征，导致识别结果的准确率较低。

发明内容

本申请实施例提供了一种步态识别方法、装置、设备及存储介质，解决了相关技术存在的识别结果准确率较低的问题。所述技术方案如下：

一方面，提供了一种步态识别方法，所述方法包括：

获取目标视频中包括同一人体的多个视频帧；

获取所述多个视频帧的步态轮廓图，所述步态轮廓图的排列顺序与所述步态轮廓图对应的视频帧的排列顺序相同；

根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，所述至少两个步态轮廓图相邻；

根据所述至少一个融合特征图进行识别，得到所述目标视频对应的识别信息。

另一方面，提供了一种步态识别装置，所述装置包括：

视频帧获取模块，用于获取目标视频中包括同一人体的多个视频帧；

图像获取模块，用于获取所述多个视频帧的步态轮廓图，所述步态轮廓图的排列顺序与所述步态轮廓图对应的视频帧的排列顺序相同；

融合模块，用于根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，所述至少两个步态轮廓图相邻；

识别模块，用于根据所述至少一个融合特征图进行识别，得到所述目标视频对应的识别信息。

在一种可能实现方式中，所述融合模块，包括：

第一融合单元，用于对于每个步态轮廓图，将所述步态轮廓图与所述步态轮廓图的参考步态轮廓图进行融合，得到所述步态轮廓图对应的融合特征图，所述参考轮廓图至少包括所述步态轮廓图相邻的步态轮廓图；或者，

第二融合单元，用于将所述多个步态轮廓图中目标数目个步态轮廓图进行融合，得到所述目标数目个步态轮廓图对应的融合特征图，所述目标数目个步态轮廓图中包括相邻的步态轮廓图。

在一种可能实现方式中，所述视频帧获取模块，用于将所述多个视频帧输入步态识别模型中；

所述图像获取模块、所述融合模块和所述识别模块，用于基于所述步态识别模型执行根据所述多个视频帧获取识别信息的步骤，所述步态识别模型至少包括输入层、特征融合层和全连接层。

在一种可能实现方式中，所述特征融合层包括特征提取子层和时序卷积子层，所述融合模块，包括：

输入单元，用于将获取的多个步态轮廓图输入所述特征提取子层中；

特征提取单元，用于在所述特征提取子层中，对输入的每个图像进行特征提取，得到所述每个图像的特征图；

第三融合单元，用于在所述时序卷积子层中，对于每个特征图，将所述特征图、所述特征图之前的第一数目个特征图和所述特征图之后的第一数目个特征图进行卷积处理，得到所述特征图对应的融合特征图。

在一种可能实现方式中，所述装置还包括：

重复模块，用于将所述时序卷积子层输出的每个融合特征图输入所述特征提取子层，重复运行所述特征提取子层和所述时序卷积子层，直至重复次数达到目标次数时，将所述时序卷积子层当前输出的融合特征图输入所述全连接层。

在一种可能实现方式中，所述特征融合层包括第二数目个特征提取子层和第二数目个时序卷积子层，所述第二数目个特征提取子层和所述第二数目个时序卷积子层交叉设置，所述输入层与第一个特征提取子层连接，所述全连接层与最后一个时序卷积子层连接。

在一种可能实现方式中，所述特征融合层为记忆层，所述融合模块，包括：

第四融合单元，用于在所述记忆层中，对于每个步态轮廓图，根据所述步态轮廓图以及所述步态轮廓图的上一个步态轮廓图对应的融合特征图进行特征提取，得到所述步态轮廓图对应的融合特征图。

在一种可能实现方式中，所述识别模块，包括：

均值处理单元，用于在所述分片层中，将多个融合特征图进行均值处理，得到均值特征图，将所述均值特征图进行分片处理，得到多个分片特征图；

识别单元，用于在所述全连接层中，根据所述多个分片特征图进行识别，得到所述目标视频对应的识别信息。

在一种可能实现方式中，所述识别模块，包括：

所述均值处理单元，用于在所述分片层中，按照逐渐递增或者逐渐递减的特征图的数量，将相邻的所述数量的分片特征图进行组合处理，得到多个组合特征图；

识别单元，用于在所述全连接层中，根据所述多个组合特征图进行识别，得到所述目标视频对应的识别信息。

在一种可能实现方式中，所述装置还包括：

所述视频帧获取模块，还用于获取样本视频中包括同一人体的多个视频帧和所述样本视频对应的识别信息；

训练模块，用于所述样本视频中包括同一人体的多个视频帧和所述样本视频对应的识别信息，对所述步态识别模型进行训练。

再一方面，提供了一种步态识别设备，所述步态识别设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如所述的步态识别方法中所执行的操作。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如所述的步态识别方法中所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施提供的步态识别方法、装置、设备及存储介质，通过获取目标视频中包括同一人体的多个视频帧；获取多个视频帧的步态轮廓图，其中，步态轮廓图的排列顺序与步态轮廓图对应的视频帧的排列顺序相同；根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，至少两个步态轮廓图相邻；根据至少一个融合特征图进行识别，得到目标视频对应的识别信息。在对步态轮廓图进行处理时，会得到步态的静态特征和动态特征，根据得到的静态特征和动态特征进行识别，从而提高了识别结果的准确率。

另外，还可以通过步态识别模型来根据多个视频帧获取识别信息，步态识别模型至少包括输入层、特征融合层和全连接层。特征融合层还可以重复运行，每运行一次之后，得到融合特征图的感受野会比上一次得到的融合特征图的感受野更广，得到的动态特征增多，进一步提高了识别结果的准确率。

或者特征融合层包括第二数目个特征提取子层和第二数目个时序卷积子层，通过第二数目个特征提取子层和第二数目个时序卷积子层，得到融合特征图的感受野会比上一层得到的融合特征图的感受野更广，得到的动态特征也越来越多，进一步提高了识别结果的准确率。

另外，还可以将融合特征图进行分片，以得到局部的和全局的特征，从而根据该局部和全局的特征进行识别，进一步提高了识别结果的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是相关技术提供的一种步态识别方法的流程图；

图2是本申请实施例提供的一种步态识别模型的结构示意图；

图3是本申请实施例提供的另一种步态识别模型的结构示意图；

图4是本申请实施例提供的另一种步态识别模型的结构示意图；

图5是本申请实施例提供的另一种步态识别模型的结构示意图；

图6是本申请实施例提供的另一种步态识别模型的结构示意图；

图7是本申请实施例提供的另一种步态识别模型的结构示意图；

图8是本申请实施例提供的另一种步态识别模型的结构示意图；

图9是本申请实施例提供的一种步态识别方法的流程图；

图10是本申请实施例提供的一种步态轮廓图的示意图；

图11是本申请实施例提供的一种获取步态轮廓图的方法流程图；

图12是本申请实施例提供的一种特征融合层的结构示意图；

图13是本申请实施例提供的一种步态识别模型的结构示意图；

图14是本申请实施例提供的一种分片方法的流程图；

图15是本申请实施例提供的一种样本视频的示意图；

图16是本申请实施例提供的一种步态识别装置的结构示意图；

图17是本申请实施例提供的一种步态识别装置的结构示意图；

图18是本申请实施例提供的一种终端的结构框图；

图19是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

计算机视觉技术(Computer Vision,CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指利用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3Dimensions，3维)技术等技术，还包括人脸识别、指纹识别、步态识别等生物特征识别技术。

本申请实施例提供的步态识别方法可以应用在步态识别设备中，步态识别设备可以为服务器，也可以为手机、电脑等终端。

步态识别设备获取目标视频中包括同一人体的多个视频帧；获取该多个视频帧的步态轮廓图，步态轮廓图的排列顺序与步态轮廓图对应的视频帧的排列顺序相同；根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，其中，该至少两个步态轮廓图相邻；根据至少一个融合特征图进行识别，得到目标视频对应的识别信息。

其中，根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图可以包括但不限于以下五种方式：

在第一种可能实现方式中，针对每个步态轮廓图，生成该步态轮廓图对应的融合特征图。步态识别设备对于每个步态轮廓图，将该步态轮廓图与该步态轮廓图的参考步态轮廓图进行融合，得到该步态轮廓图对应的融合特征图，参考轮廓图至少包括该步态轮廓图相邻的步态轮廓图。

在第二种可能实现方式中，步态识别设备将多个步态轮廓图中的目标数目个步态轮廓图进行融合，得到该目标数目个步态轮廓图对应的融合特征图，该目标数目个步态轮廓图中包括相邻的步态轮廓图。

在第三种可能实现方式中，对每个步态轮廓图进行特征提取，得到该每个步态轮廓图的特征图；对于每个特征图，将该特征图、该特征图之前的第一数目个特征图和该特征图之后的第一数目个特征图进行卷积处理，得到该特征图对应的融合特征图。

在第四种可能实现方式中，对每个步态轮廓图进行特征提取，得到该每个步态轮廓图的特征图；对于每个特征图，将该特征图、该特征图之前的第一数目个特征图和该特征图之后的第一数目个特征图进行卷积处理，得到该特征图对应的融合特征图。

在得到融合特征图之后，对得到的每个融合特征图进行特征提取，得到该每个融合特征图的特征图；对于每个特征图，将该特征图、该特征图之前的第一数目个特征图和该特征图之后的第一数目个特征图进行卷积处理，得到该特征图对应的融合特征图。重复执行上述步骤，直至重复次数达到目标次数时，得到该至少一个融合特征图。

其中，重复次数是指在首次得到融合特征图之后，对该融合特征图的重复处理次数。

在第五种可能实现方式中，对于每个步态轮廓图，根据该步态轮廓图以及该步态轮廓图的上一个步态轮廓图对应的融合特征图进行特征提取，得到该步态轮廓图对应的融合特征图。

另外，在得到融合特征图之后，还可以对融合特征图进行进一步处理，根据处理结果进行识别。在一种可能实现方式中，将多个融合特征图进行均值处理，得到均值特征图，将该均值特征图进行分片处理，得到多个分片特征图；根据该多个分片特征图进行识别，得到该目标视频对应的识别信息。

在另一种可能实现方式中，将多个融合特征图进行均值处理，得到均值特征图，将该均值特征图进行分片处理，得到多个分片特征图；按照逐渐递增或者逐渐递减的特征图的数量，将相邻的该数量的分片特征图进行组合处理，得到多个组合特征图；根据该多个组合特征图进行识别，得到该目标视频对应的识别信息。

需要说明的是，上述步态识别过程可以通过步态识别模型来实现，在一种可能实现方式中，在获取目标视频中包括同一人体的多个视频帧之后，将该多个视频帧输入步态识别模型中，基于步态识别模型执行根据该多个视频帧获取识别信息的步骤。

下述实施例先对步态识别模型的结构进行解释说明，再通过步态识别模型对上述步态识别过程进行详细说明。

图2是本申请实施例提供的一种步态识别模型的结构示意图，参见图2，该步态识别模型包括输入层201、特征融合层202和全连接层203，其中，输入层201和特征融合层202连接，特征融合层202和全连接层203连接。

其中，输入层201根据目标视频中包括同一人体的多个视频帧，对该多个视频帧进行人体检测和分割，得到该多个视频帧的步态轮廓图，将该多个步态轮廓图输入至特征融合层202中。特征融合层202根据输入的多个步态轮廓图中的至少两个相邻的步态轮廓图进行融合，得到至少一个融合特征图，将该至少一个融合特征图输入至全连接层203中。全连接层203根据输入的至少一个融合特征图进行识别，得到目标视频对应的识别信息。

由于特征融合层能够融合至少两个相邻的步态轮廓图的特征，因此，在除了获取自身的特征之外，还能获取到步态的动态特征，体现出在不同的视频帧中步态的变化情况。

在一种可能实现方式中，在图2所示的步态识别模型的基础上，参见图3，该特征融合层202包括特征提取子层2021和时序卷积子层2022。其中，输入层201和特征提取子层2021连接，特征提取子层2021和时序卷积子层2022连接，时序卷积子层2022和全连接层203连接。

输入层201在得到多个视频帧的步态轮廓图之后，将该多个步态轮廓图输入至特征提取子层2021中。特征提取子层2021对输入的每个图像进行特征提取，得到每个图像的特征图，将每个图像的特征图输入至时序卷积子层2022中，该时序卷积子层2022对于每个特征图，将该特征图、该特征图之前的第一数目个特征图和该特征图之后的第一数目个特征图进行卷积处理，得到该特征图对应的融合特征图，从而得到多个融合特征图，将得到的多个融合特征图输入至全连接层203中。全连接层203根据输入的多个融合特征图进行识别，得到目标视频对应的识别信息。

在一种可能实现方式中，如图4所示，该步态识别模型会重复运行特征提取子层2021和时序卷积子层2022，将时序卷积子层2022输出的每个融合特征图输入至特征提取子层2021中，重复运行特征提取子层2021和时序卷积子层2022，直至重复次数达到目标次数时，将时序卷积子层2022当前输出的融合特征图输入至全连接层203中，得到目标视频的识别信息。其中，目标次数可以是2次、3次、4次等任一次数。本申请实施例对目标次数不做限定。

在一种可能实现方式中，在图2所示的步态识别模型的基础上，参见图5，特征融合层202包括第二数目个特征提取子层2021和第二数目个时序卷积子层2022，第二数目个特征提取子层2021和第二数目个时序卷积子层2022交叉设置，输入层201与第一个特征提取子层2021连接，全连接层203与最后一个时序卷积子层2022连接。其中，第二数目可以是2个、3个、4个等任一数目。

在一种可能实现方式中，在图2所示的步态识别模型的基础上，参见图6，特征融合层202可以为记忆层204。其中，输入层201与记忆层204连接，记忆层204与全连接层203连接。

输入层201将多个步态轮廓图输入至记忆层204中。记忆层204对于每个步态轮廓图，根据该步态轮廓图以及该步态轮廓图的上一个步态轮廓图对应的融合特征图进行特征提取，得到步态轮廓图对应的融合特征图，将得到的多个步态轮廓图输入至全连接层203中，得到目标视频的识别信息。

在一种可能实现方式中，在图2至图6任一步态识别模型的基础上，参见图7，该步态识别模型还包括分片层204。其中，特征融合层202与分片层205连接，分片层205和全连接层203连接。

特征融合层202将得到的至少一个融合特征图输入至分片层205中，分片层205对至少一个融合特征图进行均值处理，得到均值特征图，将该均值特征图进行分片处理，得到多个分片特征图，将该多个分片特征图输入至全连接层203中。全连接层203根据该多个分片特征图进行识别，得到目标视频对应的识别信息。

在一种可能实现方式中，分片层205在得到多个分片特征图之后，还会按照逐渐递增或者逐渐递减的特征图的数量，将相邻的该数量的分片特征图进行组合处理，得到多个组合特征图，将多个组合特征图输入至全连接层203中，全连接层203根据该多个组合特征图进行识别，得到目标视频对应的识别信息。

需要说明的是，图7中的特征融合层202可以是图2至图6中的任一特征融合层202。例如，图7中的特征融合层202为图5中的特征融合层202，得到的步态识别网络(OrderedGait Fusion Network)模型如图8所示。

本申请实施例可以应用于对步态进行识别的任一场景下。

例如，在安防场景下，门禁系统拍摄包含当前用户的目标视频，采用本申请实施例提供的方法，对目标视频进行步态识别，得到当前用户的身份信息，该身份信息可以指示当前用户是否具有通过该门禁系统的资格。

由于步态识别过程中会考虑步态的动态特征，使得步态识别模型能够像人一样关注步态之间的动态信息，另外，还会参考该步态对应的全局和局部的特征，能够更加准确地根据步态信息来识别身份，从而能够更加准确地确定出该当前用户是否具有通过该门禁系统的资格，提高了门禁系统的精准度和安全性。

例如，在检测用户身体状态信息的场景下，步态识别设备可以对当前用户进行拍摄，获取包含该当前用户的目标视频，采用本申请实施例提供的方法，对目标视频进行步态识别，得到当前用户的身体状态信息。

由于步态识别过程中会考虑步态的动态特征、还有步态的全局和局部特征，使得用于识别身体状态信息的特征较多，能够更加准确地识别出该步态对应的身体状态信息，使得当前用户能够了解自身的身体状况。尽可能地避免了当用户身体出现神经肌肉类型的疾病时，由于早期症状不明显很难发觉，而导致用户错过最佳治疗期的问题。

除上述场景之外，本申请实施例提供的方法还可以应用于追踪疑犯等其他场景下，本申请实施例对此不做限定。

图9是本申请实施例提供的一种步态识别方法的流程图，本申请实施例对基于步态识别模型进行步态识别的过程进行说明，该步态识别模型包括输入层、特征融合层、分片层和全连接层。本申请实施例的执行主体为步态识别设备，该步态识别设备可以为服务器或者还可以为手机、计算机等终端，参见图9，该方法包括：

901、获取目标视频中包括同一人体的多个视频帧，将该多个视频帧输入步态识别模型中。

该目标视频可以是步态识别设备拍摄的视频，也可以是步态识别设备从其他设备上获取的视频。

目标视频中包括按照顺序排列的多个视频帧，且每个视频帧中可以包括人体，则可以按照视频帧在目标视频中的排列顺序，获取包括同一人体的多个视频帧，将包括同一人体的多个视频帧输入至步态识别模型中，以便基于步态识别模型获取体现人体步态特征的识别信息。

目标视频中可以包括一个或多个人体，对于该一个或多个人体均可采用本申请实施例提供的方法进行步态识别。

在一种可能实现方式中，当目标视频中包括多个人体，且已标记其中一个人体为需要进行步态识别的目标人体时，可以获取包括该目标人体的多个视频帧，将该多个视频帧输入至步态识别模型中，以对该目标人体进行步态识别，而不再获取包括其他人体的视频帧。当目标视频中包括多个人体，且该多个人体均未标记时，可以认为目标视频中的多个人体均为需要进行步态识别的目标人体，则对于多个人体中的每个人体，获取包括该人体的多个视频帧，每次将包括同一人体的多个视频帧输入至步态识别模型中，以对每个人体分别进行步态识别。

例如，在追踪疑犯的场景下，获取监控设备拍摄的目标视频，可以根据疑犯的特征在目标视频中将一个人体标记为目标人体，获取目标视频包括该目标人体的视频帧，将得到的多个视频帧输入步态识别模型中，由步态识别模型识别出目标对象的身份信息，确定该目标对象是否为要追踪的疑犯。

又如，在检测用户身体状态信息的场景下，步态识别设备拍摄用户行走的视频，得到目标视频，该目标视频中可以包括一个用户，也可以包括多个用户。当目标视频中包括多个用户时，每次将包括同一个用户的视频帧输入至步态识别模型中，使得步态识别模型可以识别出每个用户对应的身体状态信息。

在一种可能实现方式中，获取目标视频中包括同一人体的多个视频帧的方式可以包括：步态识别设备可以根据任一视频帧中被标记的目标人体，采用人脸识别和追踪方法，识别目标视频的其他视频帧中的该目标人体，并对识别出的该目标人体进行标记。因此所获取到的多个视频帧中会包括已经标记好的目标人体，后续步态识别模型可以根据标记来进行步态识别。如果目标视频中还包括未标记的人体，步态识别模型将不会对未标记的人体进行步态识别。

在另一种可能实现方式中，在获取目标视频中包括目标人体的多个视频帧时，如果该多个视频帧中还包括其他人体，还可以对视频帧进行切割，使得切割后的视频帧中仅包括目标人体，而不包括其他人体。其中，对视频帧进行切割可以包括：根据目标人体所在的位置以及目标对象的大小，确定一个矩形框，使得目标人体位于该矩形框内，获取矩形框内的视频帧，将切割后的多个视频帧输入至步态识别模型中。

另外，在目标视频中，该目标对象的步态变化可以看作是连续变化的，为了保证步态的连续性，在一种可能实现方式中，获取目标视频中包括同一人体的多个视频帧可以包括：获取该目标视频中包括该同一人体的连续多个视频帧。这样，可以保证视频帧之间的连续性，以便后续获取步态之间的动态特征。

在目标视频中，相邻视频帧的拍摄时间间隔较小，相邻视频帧中同一人体的步态可能并未发生变化，因此若根据目标视频中的全部视频帧进行步态识别，可能会处理较多无用的信息，导致步态识别速度较慢。因此，在另一种可能实现方式中，获取目标视频中包括同一人体的多个视频帧可以包括：获取该目标视频中包括同一人体的部分视频帧。

其中，获取目标视频中包括同一人体的部分视频帧可以包括：每隔预设时长获取一个包含该人体的视频帧；或者，获取目标视频的关键帧。其中，目标视频的关键帧可以为人体在行走时的关键动作所处的那一帧。其中该关键动作可以为预先确定的动作。例如，该关键动作可以为膝盖弯曲动作、膝盖伸直动作、手臂弯曲动作、手臂伸直动作等。

902、在输入层中，获取该多个视频帧的步态轮廓图。

如图10所示，步态是指人体行走时的姿态和行为特征，步态轮廓图可以是人体的轮廓边界图，该步态轮廓图可以指示人体的步态。

如图11所示，在输入层中，可以对输入的多个视频帧分别进行人体检测和人体分割，获取该多个视频帧的步态轮廓图。

在一种可能实现的方式中，进行人体检测的方式可以包括：基于皮肤颜色进行人体检测。人体的皮肤颜色对于人体来说是一个明显的特征，可以利用皮肤颜色信息来检测人体，从而获取到该人体的位置。

在另一种可能实现方式中，进行人体检测的方式可以包括：基于面部识别进行人体检测。由于人体面部五官的特殊性，并且人体面部通常是裸露的，因此可以通过检测人体面部的存在来确定是否有人体的存在。当确定人脸的存在时，根据人脸的位置，确定出该人脸所属人体的位置。

在另一种可能实现方式中，进行人体检测的方法可以包括：基于人体外形特征进行人体检测。人体的外形具有特殊性，可以基于人体外形来识别出视频帧中的人体，从而获取到该人体的位置。

在另一种可能实现方式中，进行人体检测的方法可以包括：基于人体检测模型进行人体检测。通过训练好的人体检测模型来识别视频帧中的人体，从而获取到该人体的位置。

另外，进行人体分割的方式可以包括：根据人体在视频帧中的位置，对视频帧进行分割，得到该视频帧的步态轮廓图。其中，对视频帧进行分割可以为：将人体轮廓与图像背景进行分离。

步态轮廓图可以为：采用了透明背景的人像前景图、灰度图、二值图等。当步态轮廓图为二值图时，该步态轮廓图可以如图10所示，二值图为黑白图，在二值图中不包括人脸信息、服饰信息等，既减少了计算量，又避免了人脸信息以及服饰信息对识别结果的影响。

在另一种可能实现方式中，在对视频帧进行人体检测和人体分割时，若视频帧中包括多个人体，且其中一个人体被标记为目标人体时，输入层对目标人体进行人体检测和人体分割，而不再考虑其他人体。

输入层在获取多个视频帧的步态轮廓图之后，可以按照多个视频帧的排列顺序，将视频帧对应的步态轮廓图输入至特征融合层中。

903、在特征融合层中，根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，该至少两个步态轮廓图相邻。

其中，融合特征图是包括步态的静态特征和动态特征的特征图。在根据步态轮廓图得到融合特征图时，可以是每个步态轮廓图对应生成一个融合特征图，也可以是多个步态轮廓图对应生成一个融合特征图。

其中，根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，可以包括以下任一步骤：

(一)分别将每个步态轮廓图与每个步态轮廓图的参考步态轮廓图进行融合，得到每个步态轮廓图对应的融合特征图。

对于每个步态轮廓图，该步态轮廓图的参考步态轮廓图至少包括该步态轮廓图相邻的步态轮廓图，如该步态轮廓图之前或之后的步态轮廓图。另外，该步态轮廓图的参考步态轮廓图还可以包括该步态轮廓图相邻的步态轮廓图所相邻的步态轮廓图。将该步态轮廓图与该步态轮廓图的参考步态轮廓图进行融合，即可该步态轮廓图的一个融合特征图。由于该融合特征图融合了该步态轮廓图与该步态轮廓图的参考步态轮廓图，能够体现不同视频帧之间的步态的动态特征，因此后续在识别过程中，能够基于步态的静态特征和动态特征进行识别，提高了识别结果的准确率。

在第一种可能实现方式中，如图12所示，特征融合层包括特征提取子层和时序卷积子层，将获取的多个步态轮廓图输入特征提取子层中，在特征提取子层中，对输入的每个图像进行特征提取，得到每个图像的特征图；在时序卷积子层中，对于每个特征图，将该特征图、该特征图之前的第一数目个特征图和该特征图之后的第一数目个特征图进行卷积处理，得到该特征图对应的融合特征图。

其中，特征提取子层用于提取输入图像的特征，从而得到该图像的特征图。该特征提取子层可以为卷积神经网络。例如，CNN(Convolutional Neural Network，卷积神经网络)、R-CNN(Regions with Convolutional Neural Network Features，基于区域的卷积神经网络)、SSD(Single Shot multibox Detector，单次多箱探测器)网络、HMM(HiddenMarkov Model，隐马尔可夫模型)网络或者其他卷积神经网络。

特征提取子层按照多个步态轮廓图的输入顺序，对多个步态轮廓图依次进行特征提取，得到多个步态轮廓图对应的特征图，每个特征图用于表示对应的步态轮廓图的静态特征。将多个特征图输入至时序卷积子层中，其中多个特征图的输入顺序与其对应的步态轮廓图在输入层的输入顺序相同。

时序卷积子层根据卷积核对按照输入层的输出顺序连续排列的多个特征图进行卷积处理。其中，卷积核的大小指示每次进行卷积处理需要融合的特征图的数量。卷积核的大小可以预先设置，也可以是步态识别模型在训练过程中确定的。

例如，时序卷积子层可以为3d(3Dimension Convolutional Neural Network，3维卷积神经网络)。

例如，当卷积核为7时，时序卷积子层在对特征图进行卷积处理时，对于每个特征图，将该特征图、该特征图之前的3个特征图和该特征图之后的3个特征图进行卷积处理，得到该特征图对应的融合特征图。当对第4个特征图进行卷积处理时，需要将该第4个特征图、第1个特征图至第3个特征图、第5个特征图至第7个特征图进行卷积处理，得到第4个特征图对应的融合特征图。

当时序卷积子层对第1个特征图进行卷积处理时，由于第1个特征图之前没有其他特征图，此时，时序卷积子层可以根据卷积核的大小，生成相应数目的扩展特征图，该扩展特征图中可以不包括步态特征；或者该扩展特征图与第1个特征图相同。以卷积核是7为例，时序卷积子层将第1个特征图、3个扩展特征图和第2个特征图至第4个特征图进行卷积处理，这样可以避免由于引入其他步态特征而对识别结果造成的影响。相应的，当时序卷积子层对最后一个特征图进行卷积处理时，也可以根据卷积核的大小，生成相应数目的扩展特征图。

在一种可能实现方式中，在时序卷积子层中，将特征图、该特征图之前的第一数目个特征图和该特征图之后的第一数目个特征图进行卷积处理，得到该特征图对应的融合特征图，可以包括：时序卷积子层按照特征图的排列顺序，获取特征图中的某一位置上的特征、该特征图之前的第一数目个特征图上相同位置的特征、以及该特征图之后的第一数目个特征图相同位置上的特征，进行卷积处理，捕捉该位置上的步态特征。对该特征图上的每一个位置进行上述处理后，得到该特征图对应的融合特征图。其中，特征图上的某一位置可以为特征图上某一固定尺寸的区域。

在第二种可能实现方式中，在按照第一种可能方式中提供的方法进行卷积处理之后，将时序卷积子层输出的每个融合特征图输入特征提取子层，重复运行特征提取子层和时序卷积子层，直至重复次数达到目标次数时，将时序卷积子层当前输出的融合特征图输入全连接层。由于之前输出的融合特征图中已经融合多个视频帧中的信息，因此，当再次进行卷积处理时，其时序上的感受野将会越来越广。

例如，将7个步态轮廓图输入至特征融合层中，特征提取子层会提取该7个步态轮廓图对应的特征图，得到7个特征图之后，将该7个特征图输入至时序卷积子层中，时序卷积子层将第1个特征图、3个扩展特征图和第2个特征图至第4个特征图进行卷积处理，得到第1个特征图对应的融合特征图，将第2个特征图、2个扩展特征图和第1个和第3个特征图至第5个特征图进行卷积处理，得到第2个特征图对应的融合特征图，直至得到第7个特征图对应的融合特征图。

将该7个融合特征图输入至特征提取子层，得到该7个融合特征图对应的特征图，将该7个特征图输入时序卷积子层中，时序卷积子层将第1个特征图、3个扩展特征图和第2个特征图至第4个特征图进行卷积处理，得到第1个特征图对应的融合特征图，由于第2个特征图至第4个特征图在上次卷积处理中融合了第5个特征图至第7个特征图的静态特征，以及根据特征图得到的动态特征，因此本次得到的融合特征图的感受野会比上一次得到的融合特征图的感受野更广。

在第三种可能实现方式中，特征融合层包括第二数目个特征提取子层和第二数目个时序卷积子层，第二数目个特征提取子层和第二数目个时序卷积子层交叉设置，输入层与第一个特征提取子层连接，全连接层与最后一个时序卷积子层连接。其中，第二数目可以是2、3、4等任一数目。

其中，第三种可能实现方式中与第二种可能实现方式的区别在于，第二种可能实现方式中，由于特征提取子层和时序卷积子层的参数固定，因此，在特征提取子层和时序卷积子层中重复进行处理时，每次处理的方式不变。而第三种可能实现方式中，每个特征提取子层设置的参数可以相同，也可以不同；相应的，每个时序卷积子层设置的参数可以相同，也可以不同。

在一种可能实现方式中，如图13所示，特征融合层中包括3个特征提取子层和3个时序卷积子层。通过3次卷积处理，可以使得每个融合特征图的感受野更广。

在一种可能实现方式中，可以将3个时序卷积层的参数设置为不同。例如，在第一个时序卷积层中，7个特征图的权重可以设置为相同，在第二个时序卷积层中，由于需要融合的其他特征图中包括该融合特征图中没有的特征，因此，可以加大需要融合的其他特征图的权重。

在第四种可能实现方式中，特征融合层为记忆层，在记忆层中，对于每个步态轮廓图，根据该步态轮廓图以及该步态轮廓图的上一个步态轮廓图对应的融合特征图进行特征提取，得到步态轮廓图对应的融合特征图。在一种可能实现方式中，记忆层可以为LSTM(Long Short-Term Memory，长短期记忆)网络。

其中，记忆层对第1个步态轮廓图进行特征提取，得到第1个步态轮廓图对应的融合特征图，记忆层在对第2个步态轮廓图进行特征提取时，会根据第1个步态轮廓图对应的融合特征图和该第2个步态轮廓图进行特征提取，得到第2个步态轮廓图对应的融合特征图，该融合特征图中包括第2个步态轮廓图的静态特征、第1个步态轮廓图和第2个步态轮廓图之间的动态特征。记忆层在对第3个步态轮廓图进行特征提取时，会根据第二个步态轮廓图对应的融合特征图和该第3个步态轮廓图进行提取，得到第3个步态轮廓图对应的融合特征图，该融合特征图中包括第3个步态轮廓图的静态特征、第1个步态轮廓图至第3个步态轮廓图之间的动态特征。以此类推，得到的最后一个融合特征图中包括多个步态轮廓图之间的动态特征。

(二)分别将目标数目个步态轮廓图进行融合，得到目标数目个步态轮廓图对应的一个融合特征图，其中，目标数目个步态轮廓图中包括相邻的步态轮廓图。

其中，特征融合层包括特征提取子层和时序卷积子层，与(一)提供的特征融合层相比，特征提取子层不变，时序卷积子层根据多个步态轮廓图来得到一个融合特征图。这样的话，不仅能得到每个步态轮廓图的静态特征和多个步态轮廓图之间的动态特征，还减少了被处理的图像数量，从而减少了识别过程的计算量。

在一种可能实现方式中，在特征融合层中，可以重复运行特征提取子层和时序卷积子层，直至重复次数达到目标次数；或者，特征融合层包括第二数目个特征提取子层和第二数目个时序卷积子层。具体方式与上述第(一)项类似，在此不再赘述。

904、在分片层中，将多个融合特征图进行均值处理，得到均值特征图，将均值特征图进行分片处理，得到多个分片特征图。

其中，将多个融合特征图进行均值处理可以包括：融合特征图上包括多个位置，对于每一个位置，获取该多个融合特征图在该位置上的平均值，得到均值特征图。

我们通过观察一个人的摆臂幅度、大小腿的转动趋势、上下身的比例等来识别一个人的步态，为了获取步态的局部特征，在一种可能实现的方式中，分片层将均值特征图进行分片处理，得到多个分片特征图。通过对分片特征图进行识别，能够提取局部特征，根据局部特征进行识别，得到的识别结果更加准确。

其中，分片层将均值特征图进行分片处理，得到多个分片特征图可以包括：分片层将均值特征层等分成n份，得到n个分片特征图。其中，n为大于1的任一整数。

905、在分片层中，按照逐渐递增或者逐渐递减的特征图的数量，将相邻的该数量的分片特征图进行组合处理，得到多个组合特征图。

其中，步骤905是将步骤904得到的多个分片特征图进行组合，以得到更多的局部特征。

在分片层中，按照逐渐递增的特征图的数量，将相邻的该数量的分片特征图进行组合处理，可以包括：按照指定的数量，将相邻的该数量的分片特征图进行组合，得到至少一个组合特征图；逐渐递增该指定的数量，继续将相邻的该数量的分片特征图进行组合，得到至少一个组合特征图，直至该数量为分片特征图的总数量时，得到多个组合特征图。

在分片层中，按照逐渐递减的特征图的数量，将相邻的该数量的分片特征图进行组合处理，可以包括：按照指定的数量，将相邻的该数量的分片特征图进行组合，得到至少一个组合特征图；逐渐递减该指定的数量，将相邻的该数量的分片特征图进行组合，得到至少一个组合特征图，直至该数量为1时，得到多个组合特征图。

其中，分片层将分片特征图进行组合处理可以包括：按照分片特征图在均值特征图中的位置，将至少一个分片特征图进行组合。如图14所示，在一种可能实现方式中，分片层可以为特征金字塔网络。

例如，如图14所示，在步骤904中，分片层将融合特征图分为6个分片特征图，从上至下，6个分片特征图的编号为1至6，在步骤906中，分片层按照逐渐递增的特征图的数量，将相邻的该数量的分片特征图进行组合处理可以为：指定数量1，将原始的6个分片特征图作为组合特征图；之后指定数量2，将6个分片特征图中相邻的任两个分片特征图进行组合，从而得到5个组合特征图。之后指定数量3，将6个分片特征图中相邻的任三个分片特征图进行组合，从而得到4个组合特征图。以此类推，直至指定数量为6，将6个分片特征图全部进行组合为止。

将得到的组合特征图输入至全连接层中，使得全连接层可以获取局部和全局的特征，使得用于识别的特征更加丰富，从而识别结果更加准确。例如，将编号为2和3的分片特征图进行组合，可以得到人体上半身的特征，该特征可以代表手臂的摆动幅度；将编号为3、4、5的分片特征图进行组合可以得到人体中间部位的特征，该特征可以代表胯部的扭动趋势；将编号5和6的分片特征图进行组合可以得到人体下半身的特征，该特征可以代表大小腿的转动夹角等。

需要说明的是，本申请实施例仅是以执行步骤903之后执行步骤904和步骤905，再执行步骤906为例进行说明，而在另一实施例中，还可以不执行步骤904和步骤905，而是在执行步骤903之后，直接执行步骤906。

即在特征融合层中，根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，该至少两个步态轮廓图相邻；将得到的至少一个融合特征图输入至全连接层中，在全连接层中，根据该至少一个融合特征图进行识别，得到目标视频对应的识别信息。

在另一实施例中，还可以不执行步骤905，而是在执行步骤904之后，直接执行步骤906。

即在分片层中，将多个融合特征图进行均值处理，得到均值特征图，将均值特征图进行分片处理，得到多个分片特征图；在全连接层中，根据多个分片特征图进行识别，得到目标视频对应的识别信息。

906、在全连接层中，根据多个组合特征图进行识别，得到目标视频对应的识别信息。

在全连接层中，需要将输入的多个组合特征图进行综合，从而得到识别信息。其中，识别信息可以是人体的身份信息、身体状态信息等。

在一种可能实现方式中，将多个组合特征图进行综合，从而得到识别信息可以包括：将多个组合特征图进行均值处理，得到均值特征图，将均值特征图与数据库中的步态特征进行对比，当均值特征图与数据库中的步态特征之间的相似度大于相似度阈值时，获取数据库中的步态特征对应的识别信息，将该识别信息作为目标视频对应的识别信息。

其中，数据库存储有多个步态特征，以及每个步态特征对应的识别信息。步态特征对应的识别信息可以为身份信息，身份信息可以为人体的姓名、身份证号等信息，本申请实施例对身份信息的具体内容不做限定。例如，数据库中包括多个步态特征，每个步态特征对应一个姓名，当数据库中的一个步态特征与均值特征图的相似度大于相似度阈值时，获取该步态特征对应的姓名，步态识别模型输出该姓名，如输出“小明”。

其中，步态特征对应的识别信息还可以为身体状态信息，该身体状态信息为可以为描述人体状态的提示信息，如，“步态正常没有问题”、“小腿抖动异常，可能存在帕金森等疾病，建议去医院进行检查”等。当数据库中的一个步态特征与均值特征图的相似度大于相似度阈值时，获取该步态特征对应的提示信息，步态识别模型输出该提示信息，如输出“小腿抖动异常，可能存在帕金森等疾病，建议去医院进行检查”。

相应的，当执行完步骤903之后，直接执行步骤906；或者当执行完步骤904之后，直接执行步骤906时，全连接层均可以采用上述方式对输入的图像进行处理。

本申请实施例提供的步态识别方法，通过获取目标视频中包括同一人体的多个视频帧；将多个视频帧输入步态识别模型中，步态识别模型至少包括输入层、特征融合层和全连接层；在输入层中，获取多个视频帧的步态轮廓图；在特征融合层中，根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，至少两个步态轮廓图相邻；在全连接层中，根据至少一个融合特征图进行识别，得到目标视频对应的识别信息。特征融合层在对步态轮廓图进行处理时，会得到步态的静态特征和动态特征，根据得到的静态特征和动态特征进行识别，从而提高了识别结果的准确率。

例如，本申请实施例提供的步态识别模型可以像人一样关注步态之间的动态变化信息，从而可以更加准确的识别出该步态对应的识别信息。另外，还将步态的特征图进行分片和组合，获取步态的局部和全局的特征信息，从而使得步态识别模型像人一样，通过观察一个人的摆臂幅度、大小腿的转动趋势、上下身的比例、整体姿态等信息来识别一个人的步态，从而准确地识别出该步态对应的身份。

另外，特征融合层还可以重复运行，每运行一次之后，得到融合特征图的感受野会比上一次得到的融合特征图的感受野更广，得到的动态特征增多，进一步提高了识别结果的准确率。

需要说明的是，在使用步态识别模型进行识别之前，需要对步态识别模型进行训练，在一种可能实现方式中，获取样本视频中包括同一人体的多个视频帧和该样本视频对应的识别信息；根据该多个视频帧和该识别信息，对步态识别模型进行训练。图15示出了样本视频中的两个视频帧，这两个视频帧中包括同一人体，且该人体处于行走状态。两个视频帧中人体的步态不同，步态识别模型在根据样本视频中包括同一人体的多个视频帧进行步态识别时，可以获取到步态的静态特征和动态特征。

在一种可能实现方式中，将该多个视频帧输入至步态识别模型，根据步态识别模型输出的识别信息以及样本视频对应的识别信息之间的误差，调整步态识别模型的模型参数，以使基于训练完成的步态识别模型对目标视频进行步态识别得到的识别信息，与该目标视频对应的实际识别信息之间的误差收敛。

对于任一个模型来说，误差收敛是指，通过对模型进行一次调整，使基于调整后的模型进行处理时得到的误差与基于调整前的模型进行处理时得到的误差相比更小。通过一次或多次调整，模型的误差逐渐减小，直至模型的误差小于预设阈值时，满足模型的要求，此时误差收敛，可以认为模型训练完成。

在一种可能实现方式中，为步态识别模型设置损失函数，基于损失函数对步态识别模型进行训练，该损失函数的输出值由目标视频的识别信息的误差确定，与该误差呈正相关关系，因此步态识别模型的训练目标可以为：损失函数的输出值收敛，以保证步态识别模型对任一目标视频进行步态识别得到的识别信息与该目标视频的实际识别信息之间的误差收敛。

其中，该损失函数可以为triplet loss损失函数(三重损失函数)，或者还可以为Softmax损失函数(交叉熵损失函数)等其他损失函数。

图16是本申请实施例提供的一种步态识别装置的结构示意图。参见图16，该装置包括：视频帧获取模块1601、图像获取模块1602、融合模块1603、和模块1604；

视频帧获取模块1601，用于获取目标视频中包括同一人体的多个视频帧；

图像获取模块1602，用于获取所述多个视频帧的步态轮廓图，所述步态轮廓图的排列顺序与所述步态轮廓图对应的视频帧的排列顺序相同；

融合模块1603，用于根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，所述至少两个步态轮廓图相邻；

识别模块1604，用于根据所述至少一个融合特征图进行识别，得到所述目标视频对应的识别信息。

本申请实施例提供的步态识别装置，通过获取目标视频中包括同一人体的多个视频帧；获取多个视频帧的步态轮廓图，其中，步态轮廓图的排列顺序与步态轮廓图对应的视频帧的排列顺序相同；根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，至少两个步态轮廓图相邻；根据至少一个融合特征图进行识别，得到目标视频对应的识别信息。在对步态轮廓图进行处理时，会得到步态的静态特征和动态特征，根据得到的静态特征和动态特征进行识别，从而提高了识别结果的准确率。

如图17所示，在一种可能实现方式中，该融合模块1603，包括：

第一融合单元16031，用于对于每个步态轮廓图，将该步态轮廓图与该步态轮廓图的参考步态轮廓图进行融合，得到该步态轮廓图对应的融合特征图，该参考轮廓图至少包括该步态轮廓图相邻的步态轮廓图；或者，

第二融合单元16032，用于将该多个步态轮廓图中目标数目个步态轮廓图进行融合，得到该目标数目个步态轮廓图对应的融合特征图，该目标数目个步态轮廓图中包括相邻的步态轮廓图。

在一种可能实现方式中，该视频帧获取模块1601，用于将该多个视频帧输入步态识别模型中；

该图像获取模块1602、该融合模块1603和该识别模块1604，用于基于该步态识别模型执行根据该多个视频帧获取识别信息的步骤，该步态识别模型至少包括输入层、特征融合层和全连接层。

在一种可能实现方式中，该特征融合层包括特征提取子层和时序卷积子层，该融合模块1603，包括：

输入单元16033，用于将获取的多个步态轮廓图输入该特征提取子层中；

特征提取单元16034，用于在该特征提取子层中，对输入的每个图像进行特征提取，得到该每个图像的特征图；

第三融合单元16035，用于在该时序卷积子层中，对于每个特征图，将该特征图、该特征图之前的第一数目个特征图和该特征图之后的第一数目个特征图进行卷积处理，得到该特征图对应的融合特征图。

在一种可能实现方式中，该装置还包括：

重复模块1605，用于将该时序卷积子层输出的每个融合特征图输入该特征提取子层，重复运行该特征提取子层和该时序卷积子层，直至重复次数达到目标次数时，将该时序卷积子层当前输出的融合特征图输入该全连接层。

在一种可能实现方式中，该特征融合层包括第二数目个特征提取子层和第二数目个时序卷积子层，该第二数目个特征提取子层和该第二数目个时序卷积子层交叉设置，该输入层与第一个特征提取子层连接，该全连接层与最后一个时序卷积子层连接。

在一种可能实现方式中，该特征融合层为记忆层，该融合模块，包括：

第四融合单元16036，用于在该记忆层中，对于每个步态轮廓图，根据该步态轮廓图以及该步态轮廓图的上一个步态轮廓图对应的融合特征图进行特征提取，得到该步态轮廓图对应的融合特征图。

在一种可能实现方式中，该识别模块1604，包括：

均值处理单元16041，用于在该分片层中，将多个融合特征图进行均值处理，得到均值特征图，将该均值特征图进行分片处理，得到多个分片特征图；

识别单元16042，用于在该全连接层中，根据该多个分片特征图进行识别，得到该目标视频对应的识别信息。

在一种可能实现方式中，该识别模块，包括：

该均值处理单元16041，用于在该分片层中，按照逐渐递增或者逐渐递减的特征图的数量，将相邻的该数量的分片特征图进行组合处理，得到多个组合特征图；

识别单元16042，用于在该全连接层中，根据该多个组合特征图进行识别，得到该目标视频对应的识别信息。

在一种可能实现方式中，该装置还包括：

该视频帧获取模块16041，还用于获取样本视频中包括同一人体的多个视频帧和该样本视频对应的识别信息；

训练模块1606，用于该样本视频中包括同一人体的多个视频帧和该样本视频对应的识别信息，对该步态识别模型进行训练。

需要说明的是：上述实施例提供的步态识别装置在对步态进行识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将步态识别设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的步态识别装置与步态识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图18是本申请实施例提供的一种终端的结构框图。该终端1800用于执行上述实施例中步态识别设备执行的步骤，可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1800包括有：处理器1801和存储器1802。

处理器1801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1801所执行以实现本申请中方法实施例提供的步态识别方法。

在一些实施例中，终端1800还可选包括有：外围设备接口1803和至少一个外围设备。处理器1801、存储器1802和外围设备接口1803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1803相连。具体地，外围设备包括：射频电路1804、触摸显示屏1805、摄像头1806、音频电路1807和电源1809中的至少一种。

外围设备接口1803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1801和存储器1802。在一些实施例中，处理器1801、存储器1802和外围设备接口1803被集成在同一芯片或电路板上；在一些其他实施例中，处理器1801、存储器1802和外围设备接口1803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1805是触摸显示屏时，显示屏1805还具有采集在显示屏1805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1801进行处理。此时，显示屏1805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1805可以为一个，设置终端1800的前面板；在另一些实施例中，显示屏1805可以为至少两个，分别设置在终端1800的不同表面或呈折叠设计；在再一些实施例中，显示屏1805可以是柔性显示屏，设置在终端1800的弯曲表面上或折叠面上。甚至，显示屏1805还可以设置成非矩形的不规则图形，也即异形屏。显示屏1805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1806用于采集图像或视频。可选地，摄像头组件1806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1801进行处理，或者输入至射频电路1804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1801或射频电路1804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1807还可以包括耳机插孔。

电源1809用于为终端1800中的各个组件进行供电。电源1809可以是交流电、直流电、一次性电池或可充电电池。当电源1809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1800还包括有一个或多个传感器1810。该一个或多个传感器1810包括但不限于：加速度传感器1811、陀螺仪传感器1812、压力传感器1813、光学传感器1815以及接近传感器1816。

加速度传感器1811可以检测以终端1800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1811可以用于检测重力加速度在三个坐标轴上的分量。处理器1801可以根据加速度传感器1811采集的重力加速度信号，控制触摸显示屏1805以横向视图或纵向视图进行用户界面的显示。加速度传感器1811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1812可以检测终端1800的机体方向及转动角度，陀螺仪传感器1812可以与加速度传感器1811协同采集用户对终端1800的3D动作。处理器1801根据陀螺仪传感器1812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1813可以设置在终端1800的侧边框和/或触摸显示屏1805的下层。当压力传感器1813设置在终端1800的侧边框时，可以检测用户对终端1800的握持信号，由处理器1801根据压力传感器1813采集的握持信号进行左右手识别或快捷操作。当压力传感器1813设置在触摸显示屏1805的下层时，由处理器1801根据用户对触摸显示屏1805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1815用于采集环境光强度。在一个实施例中，处理器1801可以根据光学传感器1815采集的环境光强度，控制触摸显示屏1805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1805的显示亮度；当环境光强度较低时，调低触摸显示屏1805的显示亮度。在另一个实施例中，处理器1801还可以根据光学传感器1815采集的环境光强度，动态调整摄像头组件1806的拍摄参数。

接近传感器1816，也称距离传感器，通常设置在终端1800的前面板。接近传感器1816用于采集用户与终端1800的正面之间的距离。在一个实施例中，当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变小时，由处理器1801控制触摸显示屏1805从亮屏状态切换为息屏状态；当接近传感器1816检测到用户与终端1800的正面之间的距离逐渐变大时，由处理器1801控制触摸显示屏1805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图18中示出的结构并不构成对终端1800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图19是本申请实施例提供的一种服务器的结构示意图，该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)1901和一个或一个以上的存储器1902，其中，存储器1902中存储有至少一条指令，至少一条指令由处理器1901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1900可以用于执行上述步态识别方法中步态识别设备所执行的步骤。

本申请实施例还提供了一种步态识别设备，该步态识别设备包括处理器和存储器，所述存储器中存储有至少一条指令，该指令由处理器加载并执行以实现如所述的步态识别方法中所执行的操作。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，该指令由处理器加载并执行以实现上述实施例的步态识别方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种步态识别方法，其特征在于，所述方法包括：

获取目标视频中包括同一人体的多个视频帧；

将所述多个视频帧输入步态识别模型中，基于所述步态识别模型，获取所述多个视频帧的步态轮廓图，所述步态轮廓图的排列顺序与所述步态轮廓图对应的视频帧的排列顺序相同，所述步态识别模型至少包括输入层、特征融合层和全连接层，在所述特征融合层和所述全连接层之间还包括分片层；

根据所述至少一个融合特征图进行识别，得到所述目标视频对应的识别信息；

其中，所述根据所述至少一个融合特征图进行识别，得到所述目标视频对应的识别信息，包括：

在所述分片层中，将多个融合特征图进行均值处理，得到均值特征图，将所述均值特征图进行分片处理，得到多个分片特征图；

在所述全连接层中，根据所述多个分片特征图进行识别，得到所述目标视频对应的识别信息。

2.根据权利要求1所述的方法，其特征在于，所述根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，包括：

对于每个步态轮廓图，将所述步态轮廓图与所述步态轮廓图的参考步态轮廓图进行融合，得到所述步态轮廓图对应的融合特征图，所述参考步态轮廓图至少包括所述步态轮廓图相邻的步态轮廓图；或者，

将所述多个步态轮廓图中目标数目个步态轮廓图进行融合，得到所述目标数目个步态轮廓图对应的融合特征图，所述目标数目个步态轮廓图中包括相邻的步态轮廓图。

3.根据权利要求1所述的方法，其特征在于，所述特征融合层包括特征提取子层和时序卷积子层，所述根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，包括：

将获取的多个步态轮廓图输入所述特征提取子层中；

在所述特征提取子层中，对输入的每个图像进行特征提取，得到所述每个图像的特征图；

在所述时序卷积子层中，对于每个特征图，将所述特征图、所述特征图之前的第一数目个特征图和所述特征图之后的第一数目个特征图进行卷积处理，得到所述特征图对应的融合特征图。

4.根据权利要求3所述的方法，其特征在于，所述将所述特征图、所述特征图之前的第一数目个特征图和所述特征图之后的第一数目个特征图进行卷积处理，得到所述特征图对应的融合特征图之后，所述方法还包括：

将所述时序卷积子层输出的每个融合特征图输入所述特征提取子层，重复运行所述特征提取子层和所述时序卷积子层，直至重复次数达到目标次数时，将所述时序卷积子层当前输出的融合特征图输入所述全连接层。

5.根据权利要求3所述的方法，其特征在于，所述特征融合层包括第二数目个特征提取子层和第二数目个时序卷积子层，所述第二数目个特征提取子层和所述第二数目个时序卷积子层交叉设置，所述输入层与第一个特征提取子层连接，所述全连接层与最后一个时序卷积子层连接。

6.根据权利要求1所述的方法，其特征在于，所述特征融合层为记忆层，所述根据多个步态轮廓图中的至少两个步态轮廓图进行融合，得到至少一个融合特征图，包括：

在所述记忆层中，对于每个步态轮廓图，根据所述步态轮廓图以及所述步态轮廓图的上一个步态轮廓图对应的融合特征图进行特征提取，得到所述步态轮廓图对应的融合特征图。

7.根据权利要求3至6任一项权利要求所述的方法，其特征在于，所述根据所述至少一个融合特征图进行识别，得到所述目标视频对应的识别信息，包括：

在所述分片层中，按照逐渐递增或者逐渐递减的特征图的数量，将相邻的所述数量的分片特征图进行组合处理，得到多个组合特征图；

在所述全连接层中，根据所述多个组合特征图进行识别，得到所述目标视频对应的识别信息。

8.根据权利要求1所述的方法，其特征在于，在所述将所述多个视频帧输入步态识别模型中之前，所述方法还包括：

获取样本视频中包括同一人体的多个视频帧和所述样本视频对应的识别信息；

根据所述样本视频中包括同一人体的多个视频帧和所述样本视频对应的识别信息，对所述步态识别模型进行训练。

9.一种步态识别装置，其特征在于，所述装置包括：

图像获取模块，用于将所述多个视频帧输入步态识别模型中，基于所述步态识别模型，获取所述多个视频帧的步态轮廓图，所述步态轮廓图的排列顺序与所述步态轮廓图对应的视频帧的排列顺序相同，所述步态识别模型至少包括输入层、特征融合层和全连接层，在所述特征融合层和所述全连接层之间还包括分片层；

识别模块，用于根据所述至少一个融合特征图进行识别，得到所述目标视频对应的识别信息；

其中，所述识别模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述融合模块，包括：

第一融合单元，用于对于每个步态轮廓图，将所述步态轮廓图与所述步态轮廓图的参考步态轮廓图进行融合，得到所述步态轮廓图对应的融合特征图，所述参考步态轮廓图至少包括所述步态轮廓图相邻的步态轮廓图；或者，

11.根据权利要求9所述的装置，其特征在于，所述特征融合层包括特征提取子层和时序卷积子层，所述融合模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.根据权利要求11所述的装置，其特征在于，所述特征融合层包括第二数目个特征提取子层和第二数目个时序卷积子层，所述第二数目个特征提取子层和所述第二数目个时序卷积子层交叉设置，所述输入层与第一个特征提取子层连接，所述全连接层与最后一个时序卷积子层连接。

14.根据权利要求9所述的装置，其特征在于，所述特征融合层为记忆层，所述融合模块，包括：

15.根据权利要求11至14任一项权利要求所述的装置，其特征在于，所述识别模块，包括：

16.根据权利要求9所述的装置，其特征在于，所述视频帧获取模块，还用于获取样本视频中包括同一人体的多个视频帧和所述样本视频对应的识别信息；

所述装置还包括：

17.一种步态识别设备，其特征在于，所述步态识别设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至8任一项所述的步态识别方法中所执行的操作。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至8任一项所述的步态识别方法中所执行的操作。