CN115439927A

CN115439927A - 基于机器人的步态监测方法、装置、设备及存储介质

Info

Publication number: CN115439927A
Application number: CN202210951063.XA
Authority: CN
Inventors: 马靖哲; 叶顶强; 于仕琪
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-12-06

Abstract

本公开实施例提供一种基于机器人的步态监测方法及设备，该方法包括：获取机器人的拍摄视频；对拍摄视频的视频帧进行图像处理，得到拍摄视频中人员的人体剪影序列和人体关键点序列；通过身份特征提取模型中的剪影特征提取网络，对人体剪影序列进行特征提取，得到人员的人体剪影特征；通过身份特征提取模型中的关键点特征提取网络，对人体关键点序列进行特征提取，得到人员的人体关键点特征；通过身份特征提取模型中的多模态特征混合网络，对人体剪影特征和人体关键点特征进行特征融合，得到人员的身份特征；根据身份特征，对人员进行身份识别。从而，实现机器人上的步态监测，并通过步态监测方式实现了用户身份识别。

Description

基于机器人的步态监测方法、装置、设备及存储介质

技术领域

本公开实施例涉及人工智能技术领域，尤其涉及一种基于机器人的步态监测方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，机器人能够提供清洁、娱乐、通讯等多种服务，为人们的生活和工作带来便利。

相关技术中，机器人利用人脸识别技术对用户的脸部图像进行图像识别，以确定用户身份，或者，机器人利用瞳孔识别技术对用户的瞳孔进行识别，以确定用户身份。继而，为用户身份符合要求的用户提供服务。

上述方式中机器人需要对用户的脸部进行近距离识别，需要用户凑近机器人才能识别出用户，因此机器人的智能化程度还有待提高。

发明内容

本公开实施例提供一种基于机器人的步态监测方法、装置、设备及存储介质，以提高机器人的智能化程度。

第一方面，本公开实施例提供一种基于机器人的步态监测方法，包括：

获取所述机器人的拍摄视频；

对所述拍摄视频的视频帧进行图像处理，得到所述拍摄视频中人员的人体剪影序列和人体关键点序列；

通过身份特征提取模型中的剪影特征提取网络，对所述人体剪影序列进行特征提取，得到所述人员的人体剪影特征；

通过所述身份特征提取模型中的关键点特征提取网络，对所述人体关键点序列进行特征提取，得到所述人员的人体关键点特征；

通过所述身份特征提取模型中的多模态特征混合网络，对所述人体剪影特征和所述人体关键点特征进行特征融合，得到所述人员的身份特征；

根据所述身份特征，对所述人员进行身份识别。

第二方面，本公开实施例提供一种基于机器人的步态监测装置，包括：

视频获取单元，用于获取所述机器人的拍摄视频；

视频处理单元，用于对所述拍摄视频的视频帧进行图像处理，得到所述拍摄视频中人员的人体剪影序列和人体关键点序列；

剪影特征提取单元，用于通过身份特征提取模型中的剪影特征提取网络，对所述人体剪影序列进行特征提取，得到所述人员的人体剪影特征；

关键点特征提取单元，用于通过所述身份特征提取模型中的关键点特征提取网络，对所述人体关键点序列进行特征提取，得到所述人员的人体关键点特征；

特征融合单元，用于通过所述身份特征提取模型中的多模态特征混合网络，对所述人体剪影特征和所述人体关键点特征进行特征融合，得到所述人员的身份特征；

身份识别单元，用于根据所述身份特征，对所述人员进行身份识别。

第三方面，本公开实施例提供一种电子设备，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面所述的基于机器人的步态监测方法。

第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面所述的基于机器人的步态监测方法。

第五方面，本公开实施例提供了一种计算机程序产品，所述计算机程序产品包含计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面所述的基于机器人的步态监测方法。

本公开实施例提供的基于机器人的步态监测方法、装置、设备及存储介质，提出了在机器人上通过步态监测进行人员身份识别的方式。相较于其他识别方式，该方式对人员与机器人之间的距离要求较低，更为便捷。在身份识别的过程中，本公开实施例利用包含剪影特征提取网络、关键点特征提取网络和多模态特征混合网络的身份特征提取网络，从拍摄视频中识别得到人员的身份特征，该身份特征融合了能够反映人员步态的人体剪影和人体关键点，提高了身份特征的准确性，提高了在机器人上利用步态监测方式进行人员身份识别的准确性，提高了机器人的智能化程度。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的基于机器人的步态监测方法流程示意图一；

图2为本公开实施例提供的身份特征提取模型的结构示意图一；

图3为本申请实施例提供的身体特征提取模型的结构示意图二；

图4为本公开实施例提供的基于机器人的步态监测方法的流程示意图二；

图5为本申请实施例提供的二维残差网络的结构示意图；

图6为本公开实施例提供的基于机器人的步态监测方法的流程示意图三；

图7为本申请实施例提供的健康监测网络的结构示意图；

图8为本申请实施例提供的腿型健康监测网络的数据处理流程示意图；

图9为本公开实施例提供的基于机器人的步态监测装置的结构框图；

图10为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

相关技术中，机器人在识别人员身份时，通常需要近距离识别，比如近距离识别人员的面部、语音或者虹膜等人体生物特征。

考虑到人员的步态也具备可识别性且步态识别对识别距离的要求较低，本公开实施例提供了一种基于机器人的步态监测方法、装置、设备及存储介质。在本公开实施例中，获取机器人的拍摄视频，从拍摄视频中获取人员的人体剪影序列和人体关键点序列，根据人体剪影序列、人体关键点序列和身份特征提取模型，结合人员的剪影特征和关键点特征进行人员的身份识别。如此，将步态识别应用于机器人上，提高了机器人的人员身份识别的便捷性和准确性，提高了机器人的智能化程度，进而提高了用户体验。

其中，本公开实施例的执行主体可为机器人；或者，本公开实施例的执行主体可为与机器人连接的服务器，机器人将拍摄视频发送给服务器，服务器基于拍摄视频进行人员的身份识别，再将识别结果返回给机器人。

图1为本公开实施例提供的基于机器人的步态监测方法流程示意图一。如图1所示，该基于机器人的步态监测方法包括：

S101、获取机器人的拍摄视频。

本实施例中，机器人上设置有摄像头，机器人可在用户授权的情况下，通过摄像头进行视频拍摄，得到拍摄视频。

一示例中，机器人进行实时视频拍摄，得到拍摄视频。

又一示例中，机器人可在接收到用户的服务请求(比如登录请求、提供娱乐服务的请求)的情况下，进行视频拍摄，得到拍摄视频。

又一示例中，机器人可在检测到人员出现的情况下进行视频拍摄，得到拍摄视频，以确保拍摄视频中有人员出现。

S102、对拍摄视频的视频帧进行图像处理，得到拍摄视频中人员的人体剪影序列和人体关键点序列。

其中，剪影可以理解为轮廓图像。人体剪影序列中包括多个人体剪影，人体剪影可以理解为人体轮廓图像。

其中，人体关键点序列中包括多组人体关键点，每组人体关键点中包括视频帧中人员的多个人体关键点的图像位置。基于一个视频帧，可以得到视频帧中所出现人员的一个人体剪影和一组人体关键点，因此，基于拍摄视频可以得到拍摄视频中人员的人体剪影序列和人体关键点序列。

人员的人体剪影可以大致反映出视频帧中人员的身体轮廓，身体轮廓与身体姿态息息相关，所以人员的人体剪影序列可以反映出拍摄视频中人员的身体姿态的动态变化，尤其是反映出人员的步态。人员的人体关键点可以从细节上反映出视频帧中人体的身体姿态，所以人员的人体关键点序列可以反映出拍摄视频中人员的身体姿态的动态变化，尤其是反映出人员的步态。

本实施例中，以行人为目标，可对拍摄视频的视频帧进行目标跟踪、目标分割以及关键点检测等图像处理，得到视频帧中人员的人体剪影和人体关键点。如此，得到多个视频帧中人员的人体剪影和人体关键点。按照视频帧在拍摄视频中的顺序，可将多个视频帧中人员的人体剪影组合得到人体剪影序列，可将多个视频帧中人员的人体关键点组合得到人体关键点序列。

S103、通过身份特征提取模型中的剪影特征提取网络，对人体剪影序列进行特征提取，得到人员的人体剪影特征。

其中，身份特征提取模型用于提取拍摄视频中人员的身份特征。身份特征提取模型的输入数据为人员的人体剪影序列和人体关键点序列，输出数据为该人员的身份特征。可预先对身份特征提取模型进行模型训练，得到训练好的身份特征提取模型，再将训练后的身份特征提取模型部署在机器人上或者与机器人通信连接的服务器上，用于为机器人提供身份特征提取服务。

如图2(图2为本公开实施例提供的身份特征提取模型的结构示意图一)所示，身份特征提取模型可包括剪影特征提取网络、关键点特征提取网络和多模态特征混合网络。其中，剪影特征提取网络用于基于人员的人体剪影序列，提取人员的剪影特征；关键点提取网络用于基于人员的人体关键点序列，提取人员的人体关键点特征；多模态特征混合网络用于对人员的人体剪影特征和人体关键点特征进行特征融合，得到人员的身份特征。

本实施例中，在得到拍摄视频中人员的人体剪影序列后，可将人员的人体剪影序列，输入至身份特征提取模型中的剪影特征提取网络，在剪影特征提取网络中，对人体剪影序列中的多个人体剪影进行特征提取，得到人员的人体剪影特征。其中，剪影特征提取网络可为深度神经网络。

S104、通过身份特征提取模型中的关键点特征提取网络，对人体关键点序列进行特征提取，得到人员的人体关键点特征。

本实施例中，在得到拍摄视频中人员的人体关键点序列后，可将人体关键点序列，输入至身份特征提取模型中的关键点特征提取网络，在关键点特征网络中，对人体关键点序列中的多组人体关键点进行特征提取，得到人员的人体关键点特征。其中，关键点特征提取网络可为深度神经网络。

S105、通过身份特征提取模型中的多模态特征混合网络，对人体剪影特征和人体关键点特征进行特征融合，得到人员的身份特征。

本实施例中，可将人员的人体剪影特征和人体关键点特征，输入至身份特征提取模型中的多模态特征混合网络，在多模态特征混合网络中，对人体剪影特征和人体关键点特征进行特征融合，最终得到多模态特征混合网络输出的身份特征。从而，结合可以反映人员的步态的两种特征：人体剪影特征和人体关键点特征，提高了身份特征的多样性和准确性。

S106、根据身份特征，对人员进行身份识别。

本实施例中，在得到人员的身份特征后，可通过将人员的身份特征和身份特征库中多个服务对象的身份特征进行匹配的方式，对人员进行身份识别，得到身份识别结果。其中，身份识别结果可包括：人员为机器人的服务对象或者人员不为机器人的服务对象。

本公开实施例中，从机器人的拍摄视频中，提取出反映人体步态特点的人体剪影序列和人体关键点序列，通过包含剪影特征提取网络、关键点特征提取网络、多模态特征混合网络的身份特征提取模型，对人体剪影序列和人体关键点序列进行特征提取和特征融合，得到身份特征，提高了身份特征的多样性和准确性。基于身份特征识别人员身份，提高人员身份识别的准确性。从而，提高了身份识别的便捷性和准确性。

在一些实施例中，S102的一种可能的实现方式包括：对拍摄视频中的人员进行目标跟踪，在拍摄视频的视频帧中，确定人体图像区域；通过目标分割算法，对人体图像区域进行边缘分割，得到人体剪影序列；通过关键点估计算法，对人体图像区域进行关键点检测，得到人体关键点序列。从而，利用目标跟踪先确定人体图像区域，再利用目标分割算法和关键点估计算法在人体图像区域进行人体边缘分割和关键点检测，得到人体边缘分割和关键点检测的准确性，提高了人体剪影序列和人体关键点序列的准确性。

本实现方式中，基于拍摄视频得到人体剪影序列和人体关键点序列的过程，相当于人体预处理过程。该过程中，采用目标跟踪算法对拍摄视频中的人员进行跟踪监测，得到拍摄视频的视频帧中的人体图像区域(在视频帧中通过矩形框进行标注)。将人体图像区域输入至目标分割算法中，通过目标分割算法对人体图像区域中的人体边缘进行分割，得到人员在视频帧中的人体剪影。基于人员在多个视频帧中的人体剪影，得到人员的人体剪影序列。将人体图像区域输入至关键点估计算法中，通过关键点估计算法，对人体图像区域中人体关键点的图像位置进行估计，得到人员在视频帧中的人体关键点。基于人员在多个视频帧中的人体关键点，得到人员的人体关键点序列。

一示例中，目标跟踪算法可采用YOLOv5跟踪算法，以通过YOLOv5跟踪算法提高拍摄视频中人员跟踪的准确性。

一示例中，关键点跟踪算法可采用人体二维(2D)关键点估计算法，以准确提取到人员的人体2D关键点。

一示例中，人体关键点序列中的人体关键点可包括躯体关键点和面部关键点。其中，躯体关键点可包括躯干关键点和四肢关键点。比如，使用2D关键点估计算法进行关键点的估计，得到人员的25个躯干关键点、70个面部关键点以及21个手部关键点构成的一组关键点。因此，通过多部位的人体关键点提高人体关键点特征的丰富性，进而提高身份识别的准确性。

在一些实施例中，考虑到身份特征提取模型能够输入的数据量有限，在对拍摄视频中的视频帧进行图像处理之前，可对拍摄视频中的视频帧进行筛选，再对筛选后的视频帧进行图像处理，得到人员的人体剪影序列和人体关键点序列，以通过图像筛选方式，即提高用于身份特征提取的视频帧质量，又使得筛选后的视频帧的数量符合身份特征提取模型的需要。

一示例中，在筛选时，可根据拍摄视频中人员出现的时刻，筛选连续的预设数量个视频帧。之后，对该连续的预设数量个视频帧进行图像处理，得到人员的人体剪影序列和人体关键点序列。从而，尽量确保筛选后的视频帧中均有人员出现，并确保筛选后的视频帧在时间上的连续性。

比如，身份特征提取模型要求输入数据的帧数为30，即人体剪影序列中包含人员的30帧人体剪影，人体关键点序列中包含30组人体关键点。

在一些实施例中，如图3(图3为本申请实施例提供的身体特征提取模型的结构示意图二)所示，剪影特征提取网络包括空域特征提取网络和池化网络。人体剪影序列输入至空域特征提取网络后，经过空域特征提取网络的特征提取，得到空间特征提取网络输出的剪影空域特征。剪影空域特征输入至池化网络后，经过池化网络的池化处理，得到人体剪影特征。如此，通过空域特征提取网络和池化网络，提高剪影特征提取的准确性。

其中，空域特征提取网络是指在空间维度进行特征提取。由于人体剪影序列中人体剪影是二维图像，体现的更多的是人体步态在空间维度的特征，所以通过空域特征提取网络能够提高人体剪影特征提取准确性。

在一些实施例中，如图3所示，关键点特征提取网络包括时域特征提取网络，人体关键点序列输入至时域特征提取网络后，经过时域特征提取网络的特征提取，得到时域特征提取网络输出的人体关键点特征。如此，通过时域特征提取网络，提高人体关键点特征提取的准确性。

其中，时域特征提取网络是指在时间维度(即时序维度)进行特征提取。由于人体关键点序列体现人体关键点随时间的变化，即人体步态在时间维度的特征，所以通过时域特征提取网络能够提高人体关键点特征提取准确性。

图4为本公开实施例提供的基于机器人的步态监测方法流程示意图二，在本公开实施例中，剪影特征提取网络包括空域特征提取网络和池化网络，关键点特征提取网络包括时域特征提取网络。如图4所示，该机器人的步态监测方法包括：

S401、获取机器人的拍摄视频。

S402、对拍摄视频的视频帧进行图像处理，得到拍摄视频中人员的人体剪影序列和人体关键点序列。

其中，S401～S402的实现原理和技术效果可参照前述实施例，不再赘述。

S403、将人体剪影序列输入空域特征提取网络，在空域特征提取网络中对人体剪影序列进行特征提取，得到剪影空域特征。

本实施例中，如图3所示，空域特征提取网络的输入数据包括拍摄视频中人员的人体剪影序列，输出数据包括剪影空域特征。人体剪影序列中的人体剪影是二维图像，具有空间特点，可利用空域特征提取网络在空间维度对人体剪影序列进行图像特征提取，得到剪影空域特征。

在一种可能的实现方式中，空域特征提取网络为二维残差网络，该二维残差网络中的卷积层为二维卷积层。基于此，S203包括：将人员的人体剪影序列输入二维残差网络，通过二维残差网络对人体剪影序列进行特征提取，得到剪影空域特征。从而，利用残差网络实现人体剪影特征的提取，提高人体剪影特征提取的准确性，进而提高人员身份识别的准确性。

一示例中，图5为本申请实施例提供的二维残差网络的结构示意图。如图5所示，二维残差网络依次包括作为输入层的卷积块、由多个卷积块和一个跨层网络连接构成的残差块(其中图5以3个卷积块和一个跨层网络连接构成残差块为例)以及作为输出层的二维卷积层，每个卷积块包括二维卷积层和激活函数。

其中，二维残差网络中残差块为连续多个(图5以连续6个为例)。

如图5所示，人体剪影序列输入至作为输入层的卷积块，在该卷积块中经过二维卷积核的卷积处理后，输入至激活函数，得到激活函数的输出数据；将激活函数的输出数据输入第一个残差块中进行特征处理，再将第一残差块的输出数据输入至第二个残差块中进行特征处理，如此经过多个残差块的特征处理。将最后一个残差块的输出数据输入至最为输出层的卷积块中，得到该卷积块的输出数据，即得到剪影空域特征。

在一种可能的实现方式中，通过空域特征提取网络对人体剪影序列进行特征提取，得到剪影空域特征，可表示为如下公式：

其中，

表示人体剪影序列，s_sil表示剪影空域特征，T表示人体剪影序列中的帧数，C表示人体剪影序列中人体剪影的特征通道数，N1表示剪影空域特征的特征通道数，H1表示人体剪影的图像长度，H1↓表示剪影空域特征的特征图长度，W表示人体剪影的图像宽度，W↓表示剪影空域特征的特征图宽度。R表示空域特征提取网络。

S404、将剪影空域特征输入池化网络，通过池化网络对剪影空域特征进行特征池化，得到人体剪影特征。

本实施例中，将空域特征提取网络输出的剪影空域特征输入至池化网络，在池化网络中，对剪影空域特征进行特征池化的处理，其中，特征池化的处理过程为特征的聚合和表征过程。最终，得到人体剪影特征。

在一种可能的实现方式中，如图3所示，池化网络包括时域池化(TemporalPooling，TP)网络和水平金字塔池化(Horizontal Pyramid Pooling,HPP)网络，以利用时域池化网络和水平金字塔网络对人体剪影特征进行时序特征的聚合和表征，使得最终的人体剪影特征是经过空域特征和时序特征的提取得到的，提高了人体剪影特征的准确性，进而提高人员身份识别的准确性。

基于池化网络包括时域池化网络和水平金字塔池化网络，S404的一种可能的实现方式包括：将剪影空域特征输入时域池化网络，通过时域池化网络在时序维度对剪影空域特征进行最大池化(MaxPooling)，得到初步池化特征；将初步池化特征输入水平金字塔池化网络，在水平金字塔网络中，在空间维度对初步池化特征进行多尺度划分、平均池化(AvgPooling)、最大池化以及池化特征合并，得到人体剪影特征。

本实现方式中，通过时域池化网络和水平金字塔网络对剪影空域特征进行特征池化的处理过程，可表示为如下公式：

其中，TP表示时域池化，其主要是对输入的剪影空域特征s_sil在时序维度进行最大池化；HPP表示水平金字塔池化，t_sil表示经过HPP网络之后得到的剪影特征。HPP的处理过程主要包括：对输入的初始池化特征

在空间维度进行M(M大于1)次不同尺度的划分，得到多个划分单元；对每个划分单元，进行空间维度的平均池化和最大池化；之后，将平均池化和最大池化得到的结果求和，得到此划分单元的特征值；最后，将每个划分单元的特征值进行合并，即

其中K_m表示第m次划分后得到划分单元的个数，P为合并后得到的特征值的特征维度。

S405、将人体关键点序列输入关键点特征提取网络中的时域特征提取网络，通过时域特征提取网络通过对人体关键点序列进行特征提取，得到人员的人体关键点特征。

本实施例中，将人体关键点序列

输入关键点特征提取网络中的时域特征提取网络，利用时域特征提取网络，对人体关键点序列进行时域维度的特征提取，得到人体关键点特征

其中，J表示每组人体关键点中关键点的个数，2表示二维欧式空间坐标点,N2表示经过时域特征提取网络后的特征通道数，T2↓表示经过时域特征提取网络在时序维度进行降采样。

一示例中，时域特征提取网络的网络结构可参照空域特征提取网络的网络结构，采用残差网络，其区别在于时域特征提取网络中的卷积层为一维卷积层，所以时域特征提取网络可为一维残差网络。将图5所示的二维残差网络中的二维卷积层修改一维卷积层，即为一维残差网络。

S406、通过身份特征提取模型中的多模态特征混合网络，对人体剪影特征和人体关键点特征进行特征融合，得到人员的身份特征。

S407、根据身份特征，对人员进行身份识别。

其中，S406～S407的实现原理和技术效果可参照前述实施例，不再赘述。

本公开实施例中，从机器人的拍摄视频中，提取出反映人体步态特点的人体剪影序列和人体关键点序列；在身份特征提取模型的剪影特征提取网络中，通过空域特征提取网络和池化网络，对人体剪影序列进行特征提取，提高人体剪影特征的提取准确性；在关键点特征提取模型的剪影特征提取网络中，通过时域特征提取网络，对人体关键点序列进行特征提取，提高人体关键点特征的提取准确性；通过多模态特征混合网络，对人体剪影序列和人体关键点序列进行特征提取和特征融合，得到身份特征，提高了身份特征的多样性和准确性。最终，基于身份特征识别人员身份。从而，在机器人上通过步态监测提高了身份识别的便捷性和准确性。

在一些实施例中，如图3所示，多模态特征混合网络包括与人体剪影特征对应的卷积网络、与人体关键点特征对应的卷积网络以及注意力层。基于此，通过身份特征提取模型中的多模态特征混合网络，对人体剪影特征和人体关键点特征进行特征融合，得到人员的身份特征，包括：在多模态特征混合网络中，通过与人体剪影特征对应的卷积网络、与人体关键点特征对应的卷积网络以及注意力层，对人体剪影特征和人体关键点特征进行特征融合，得到身份特征。从而，利用注意力机制，提高人体剪影特征和人体关键点特征进行特征融合的融合效果。

其中，如图3所示，人体剪影特征可对应一个卷积网络，人体关键点特征可对应两个卷积网络，卷积网络用于通过对特征进行空间转换的方式实现对特征的统计量(比如均值、方差)计算，得到特征对应的注意力值(attention值)。之后，再在注意力层中基于注意力值和注意力机制，实现特征融合。

本实施例中，如图3所示，可将人体关键点特征分别输入至与其对应的2个卷积网络(比如卷积核尺寸为1*1的卷积层)，通过该两个卷积网络将人体关键点特征分别映射到第一空间(例如g空间)和第二空间(比如h空间)，计算得到人体关键点在第一空间的统计量g_pose和人体关键点在第二空间的统计量h_pose；可将人体剪影特征输入至与其对应的卷积网络(比如卷积核尺寸为1x1的卷积层)，通过该卷积层将人体剪影特征映射到第三空间中，计算得到人体关键点在第三空间的统计量f_sil。之后，可在注意力层中，基于人体关键点特征在第一空间的统计量g_pose和人体剪影特征在第三空间的统计量f_sil，确定注意力值；再将人体关键点特征在第二空间的统计量h_pose与注意力值进行加权，实现人体剪影特征与人体关键点特征的特征融合。其中，第一空间、第二空间和第三空间例如对应均值、方差的局部统计量。

在一些实施例中，如图3所示，多模态特征混合网络还包括全连接层。人体剪影特征与人体关键点特征进行特征融合之后，得到融合特征，将融合特征输入至全连接层中，得到全连接层输出的身份特征。

一示例中，经多模态特征混合网络对人体剪影特征和人体关键点特征进行特征融合，得到融合特征的过程，可表示为如下公式：

f_sil＝W_ft_sil

g_pose＝W_gt_pose

h_pose＝W_ht_pose

其中，W_f为人体剪影特征对应的卷积网络的网络参数，W_g为人体关键点特征分别对应的两个卷积网络的网络参数。t_sp为混合特征，d_f为f_sil在特征通道的维度。作为示例的，在f_sil和g_pose的均值为0方差为1的情况下，B＝f_sil ^Tg_pose的均值也为0，方差为std，当std变大时，B中元素的方差也会变大，为避免B的分布趋于陡峭，通过除以

使得B的方差又变为1，提高B的稳定性，进而提高模型训练过程中梯度的稳定性。

在一些实施例中，在识别网络中，可利用K维树(KD-Tree)算法并借助欧式距离度量方式，在身份特征库中，计算服务对象的身份特征与拍摄视频中人员的身份特征的距离，如果距离小于距离阈值，则可确定该人员为机器人的服务对象(即注册用户)。从而，提高人员识别的准确性。

在一些实施例中，如图3所示，身份特征提取模型还可包括分类网络，分类网络在身份特征提取模型的训练过程中发挥作用。在模型训练过程中，将身份特征输入至分类网络中，得到人员的预测身份标识；基于人员的预测身份标识和人员的真实身份标识之间的差异，确定第一损失值；基于第一损失值，对身份特征提取模型的模型参数进行调整，实现模型训练。

一示例中，分类网络为批正则化层，以通过批正则化层提高分类效果。

在一些实施例，用于训练身份特征提取模型的损失值还包括第二损失值，基于身份特征，可利用三元组损失函数确定第二损失值。基于第一损失值和第二损失值，对身份特征提取模型的模型参数进行调整，实现模型训练。其中三元组损失可在特征空间将不同类别之间的特征距离进行一种聚合，有利于提高身份特征模型的训练效果。

图6为本公开实施例提供的基于机器人的步态监测方法流程示意图三。如图6所示，该机器人的步态监测方法包括：

S601、获取机器人的拍摄视频。

S602、对拍摄视频的视频帧进行图像处理，得到拍摄视频中人员的人体剪影序列和人体关键点序列。

S603、通过身份特征提取模型中的剪影特征提取网络，对人体剪影序列进行特征提取，得到人员的人体剪影特征。

S604、通过身份特征提取模型中的关键点特征提取网络，对人体关键点序列进行特征提取，得到人员的人体关键点特征。

S605、通过身份特征提取模型中的多模态特征混合网络，对人体剪影特征和人体关键点特征进行特征融合，得到人员的身份特征。

S606、根据身份特征，对人员进行身份识别。

其中，S601～S605的实现原理和技术效果可参照前述实施例，不再赘述。

S607、如果身份识别结果为人员属于服务对象，则通过健康监测网络对人体关键点序列进行识别，得到人员的步态健康状况。

本实施例中，在人员的身份识别结果为人员属于机器人的服务对象，即属于机器人的授权用户的情况下，由于人体关键点序列可以较为清晰和细节地反映出人体步态，可通过健康监测网络对人体关键点序列进行识别，得到人员的步态健康状况。其中，健康监测网络的输入数据为人体关键点序列，输出数据为人员的步态健康状况，健康监测网络可为深度神经网络。

从而，在机器人上基于人员步态对人员进行健康监测，提高了机器人的智能化程度，进而提高了用户体验。

在一些实施例中，如图7(图7为本申请实施例提供的健康监测网络的结构示意图)所示，健康监测网络包括特征编码网络和步态健康识别网络。基于此，如图6所示，S607的一种可能的实现方式包括：

S6071、如果人员的身份识别结果为人员属于服务对象，则通过健康监测网络中的特征编码网络对人体关键点序列进行特征编码，得到编码特征。

其中，特征编码网络为多层卷积网络。

本实施例中，如果人员的身份识别结果为人员属于服务对象，则可将人员的人体关键点序列输入至健康监测网络的特征编码网络中，在特征编码网络中，对人体关键点序列进行特征编码，得到编码特征。

在一种可能的实现方式中，如图7所示，人体关键点序列包括面部关键点序列和躯体关键点序列，步态健康监测网络中的特征编码网络包括面部编码网络和步态编码网络。从而，结合面部关键点和躯体关键点，提高机器人通过步态健康监测网络对人员进行步态健康监测准确性。

其中，躯体关键点序列可包括身体关键点和四肢关键点。

基于人体关键点序列包括面部关键点序列和躯体关键点序列，步态健康监测网络中的特征编码网络包括面部编码网络和步态编码网络，进一步的，S6071可包括：如果人员的身份识别结果为人员属于服务对象，则通过面部编码网络对面部关键点序列进行特征编码，得到面部特征，通过步态编码网络对躯体关键点序列进行特征编码，得到步态特征。

如图7所示，面部关键点序列输入至面部编码网络中，得到面部编码网络输出的面部特征，躯体关键点序列输入至步态编码网络，得到步态编码网络输出的步态特征。

作为示例的，在基于拍摄视频得到面部关键点

之后，可利用面部编码网络(即面部关键点编码器)对面部关键点的时序动作进行分析，得到面部特征(即面部关键点特征)

其中，J_face为面部关键点的数量，N_face为面部特征的特征通道数。

作为示例的，在基于拍摄视频得到躯体关键点

之后，可利用步态编码网络(即步态关键点编码器)对躯体关键点进行时序动作的分析，得到步态特征(即步伐关键点特征)

其中，J_body为躯体关键点的数量，N_body为步态特征的特征通道数。

S6072、通过健康监测网络中的步态健康识别网络，对编码特征进行识别，得到人员的步态健康状况。

其中，步态健康识别网络包括步态健康检测网络和步态健康分类网络，步态健康检测网络和步态健康分类网络均为多层卷积网络。

本实施例中，可将编码特征输入至步态健康识别网络的步态健康监测网络中，通过步态健康监测网络对编码特征进行特征提取，得到步态健康特征；之后，可将步态健康特征输入至步态健康分类网络中，得到人员的步态健康。

在一种可能的实现方式中，如图7所示，步态健康识别网络包括如下至少一种：步伐识别网络、情绪识别网络、腿型识别网络。其中，步伐识别网络可用于识别人员的步伐状况，情绪识别网络可用于识别人员的情绪类型，腿型识别网络可用于识别人员的腿型。基于此，人员的步态健康状况包括如下至少一种：人员的步伐状况、人员的情绪类型、人员的腿型。从而，从一个或多个方面来识别人员步态健康，提高人员步态健康识别准确性。

基于步态健康识别网络包括如下至少一种：步伐识别网络、情绪识别网络、腿型识别网络，S6072可包括如下至少一种实现方式：

方式一：通过步伐识别网络对步态特征进行识别，得到人员的步伐状况。

方式二：通过情绪识别网络对面部特征和步态特征进行识别，得到人员的情绪类型。从而，利用面部关键点和步态关键点均反映情绪的特点，提高了人员情绪类型识别的准确性。

方式三：通过腿型识别网络对步态特征进行识别，得到人员的腿型。

其中，如图7所示，步伐识别网络可包括步伐健康监测网络和步伐健康分类网络；情绪识别网络可包括情绪健康监测网络和情绪健康分类网络；腿型识别网络可包括腿型健康监测网络和腿型健康分类网络。

在方式一中，如图7所示，可先将步态特征输入至步伐健康监测网络中进行步伐特征提取，再将步态健康监测网络的输出数据输入至步伐健康分类网络中进行分类，得到人员的步伐状况。

一示例中，如图7所示，步伐状况可包括步伐均匀和/或步伐不均匀。从而，通过步伐识别网络识别出人员的步伐是否均匀，从步伐是否均匀的角度来反映人员的步伐健康状况。

一示例中，步伐健康监测网络主要包括全连接层。步伐健康监测网络在接收到编码特征后，可将编码特征映射到另外一个局部空间，实现在编码特征中提取得到步伐特征。在模型训练过程中，可利用步伐健康分类网络得到的预测标签(即预测人员的步伐是否均匀)与真实标签(即人员的步伐实际是否均匀)计算步伐损失，利用步伐损失，调整步伐健康识别网络和特征编码网络的网络参数，以使其能够在模型应用过程中判断用户步伐是否均匀。

在方式二中，如图7所示，可先将面部特征和步态特征输入至情绪健康监测网络中进行步伐特征提取，在特征提取过程中，可将面部特征中与情绪相关的特征以及步态特征中与情绪相关的特征，进行特征融合，比如可通过加权方式进行融合，得到情绪健康监测网络的输出数据；再将情绪健康监测网络的输出数据输入至情绪健康分类网络中进行分类，得到人员的情绪类型。

一示例中，在将面部特征中与情绪相关的特征以及步态特征中与情绪相关的特征，进行特征融合的过程，可包括：采用与面部特征对应的卷积网络，对面部特征中与情绪相关的特征进行特征处理；采用与步态特征对应的卷积网络，对步态特征中与情绪相关的特征进行特征处理；将与面部特征对应的卷积网络的输出数据和与步态特征对应的卷积网络的输出数据进行加权，得到混合特征，再通过全连接层将混合特征映射至其他特征空间，以便于混合特征有利于后续基于混合特征的情绪分类。

其中，与面部特征对应的卷积网络、与步态特征对应的卷积网络可采用全连接层，还可以包括批正则化层和激活函数等。

一示例中，如图7所示，预设情绪类型可包括如下以一种：开心、自然、悲伤、愤怒。因此，可识别出人员的情绪类型为预设情绪类型中的一种。

一示例中，人员在远距离情况时面部信息可能不完整或者不健全，因此，在人员的面部信息不完整的情况下，可根据人员的步态特征确定人员的情绪类型。在人员的面部信息完整的情况下，可利用人员的步态特征对人员的情绪进行初始分类，得到人员的情绪类型范围；之后，再基于人员的面部特征，在人员的情绪类型范围中，对人员的情绪进行分类，得到人员的情绪类型。从而，适应于不同的场景，依赖于不同数据进行情绪识别，确保在不同场景下均可以实现对人员情绪健康的识别，并确保一定的准确性。

在根据人员的步态特征确定人员的情绪类型的过程中，可通过步态情绪识别网络，对步态特征进行情绪识别，步态情绪识别网络可包括多个卷积块，每个卷积块可包括卷积层和激活函数组成。将步态特征通过三组卷积块提取出步态中于情绪相关的特征。进一步，每个卷积块可包括一维卷积层和泄露线性整流单元(Rectified Linear Units，简称Leaky ReLU)激活函数。

在基于人员的面部特征，在人员的情绪类型范围中，对人员的情绪进行分类的过程中，可采用面部情绪识别网络，对面部特征进行情绪识别，得到面部特征中与情绪相关的特征。其中，面部情绪识别网络可由多个全连接层(比如3层全连接层)构成，以通过这些全连接层，将面部特征中与情绪相关特征提取出来，提高特征提取准确性。

在方式三中，如图7所示，可先将步态特征输入至腿型健康监测网络中进行腿型特征提取，再将腿型健康监测网络的输出数据输入至腿型健康分类网络中进行分类，得到人员的腿型。

如图7所示，预设腿型可包括如下至少一种：O型腿，X型腿和正常腿型。因此，基于腿型健康监测网络和腿型健康分类网络，可识别出人员的腿型为预设腿型中的一种。

一示例中，图8为本申请实施例提供的腿型健康监测网络的数据处理流程示意图。如图8所示，在腿型健康监测网络中，可先将步态特征

输入至卷积网络(比如1x1卷积网络)，利用该卷积网络将步态特征映射为g_body。以1x1卷积网络为例，该映射过程可表示为：

其中，J表示关键点序列中每组人体关键点的躯体关键点的数量。

同时，可利用全连接层在特征通道上对步态特征进行特征分析，并通过归一化指数函数(softmax)对该全连接层的输出值进行计算，得到腿型健康监测网络中的注意力值，之后，可将该注意力值与步态特征的映射特征g_body相乘，再利用全连接层对相乘得到的特征进行处理，得到步态特征中与腿型相关的特征，即腿型特征。

之后，将腿型特征输入至腿型健康分类网络中，得到人员的腿型。

因此，通过上述方式，为机器人的服务对象提供一种或多种基于步态的健康监测，有效地提高了健康监测的准确性和便捷性，有效地提高了机器人的智能化程度，进而有效地提高了服务对象的用户体验。

在一些实施例中，在得到人员的步态健康状况后，如果人员的步态健康状况符合提醒条件，则可根据人员的步态健康状况，控制机器人执行对应的提醒操作。从而，及时对人员的步态健康进行提醒，提高用户体验。

一示例中，提醒条件可包括如下至少一种：步伐不均匀、情绪悲伤、情绪愤怒、腿型不正常(比如O型腿，X型腿)。

从而，可为用户提供步伐、情绪、腿型中的一个或多个方面的健康监测和提醒，提高机器人的智能化程度，提高用户体验。

一示例中，根据人员的步态健康状况，控制机器人执行对应的提醒操作，可包括如下至少一种；

(一)根据人员的步伐不均匀，通过机器人对人员的步态不均匀进行存储，并通过语音、信息等方式提醒用户步伐不均匀。机器人还可在显示屏上显示出用于调整步伐的健康训练视频，在每个时间周期内显示用户的步伐恢复情况，比如在每周、每月显示用户的步伐恢复情况。

(二)根据人员的情绪悲伤或者情绪愤怒，通过机器人对人员的情绪类型进行存储，并通过语音、信息、动作等方式与用户进行交互，以改善人员情绪。机器人还可向用户推送娱乐内容，比如娱乐视频和音乐等，在每个时间周期内显示用户的情绪调整情况。

(三)根据人员的腿型不正常，通过机器人对人员的腿型进行存储，并通过语音、图像、动作等方式与用户进行交互，以提醒用户改善腿型。机器人还可推送腿型康复内容，在每个时间周期内显示用户的腿型调整情况。

对应于上文实施例的基于机器人的步态监测方法，图9为本公开实施例提供的基于机器人的步态监测装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图9，基于机器人的步态监测装置包括：视频获取单元901、视频处理单元902、剪影特征提取单元903、关键点特征提取单元904、特征融合单元905和身份识别单元906。

视频获取单元901，用于获取机器人的拍摄视频；

视频处理单元902，用于对拍摄视频的视频帧进行图像处理，得到拍摄视频中人员的人体剪影序列和人体关键点序列；

剪影特征提取单元903，用于通过身份特征提取模型中的剪影特征提取网络，对人体剪影序列进行特征提取，得到人员的人体剪影特征；

关键点特征提取单元904，用于通过身份特征提取模型中的关键点特征提取网络，对人体关键点序列进行特征提取，得到人员的人体关键点特征；

特征融合单元905，用于通过身份特征提取模型中的多模态特征混合网络，对人体剪影特征和人体关键点特征进行特征融合，得到人员的身份特征；

身份识别单元906，用于根据身份特征，对人员进行身份识别。

在一些实施例中，剪影特征提取网络包括空域特征提取网络和池化网络，剪影特征提取单元903具体用于：将人体剪影序列输入空域特征提取网络，在空域特征提取网络中对人体剪影序列进行特征提取，得到剪影空域特征；将剪影空域特征输入池化网络，通过池化网络对剪影空域特征进行特征池化，得到人体剪影特征。

在一些实施例中，池化网络包括时域池化网络和水平金字塔池化网络，在将剪影空域特征输入池化网络，通过池化网络对剪影空域特征进行特征池化，得到人体剪影特征的过程中，剪影特征提取单元903具体用于：将剪影空域特征输入时域池化网络，通过时域池化网络在时序维度对剪影空域特征进行最大池化，得到初步池化特征；将初步池化特征输入水平金字塔池化网络，在水平金字塔网络中，在空间维度对初步池化特征进行多尺度划分、平均池化、最大池化以及池化特征合并，得到人体剪影特征。

在一些实施例中，多模态特征混合网络包括分别与人体剪影特征、人体关键点特征对应的卷积层，特征融合单元905具体用于：在模态特征混合网络中，通过与人体剪影特征对应的卷积层、与人体关键点对应的卷积层以及注意力机制，对人体剪影特征和人体关键点特征进行特征融合，得到身份特征。

在一些实施例中，基于机器人的步态监测装置还包括：健康监测单元907，用于如果身份识别结果为人员属于服务对象，则通过健康监测网络对人体关键点序列进行识别，得到人员的步态健康状况。

在一些实施例中，健康监测网络包括特征编码网络和步态健康识别网络，步态健康识别网络包括如下至少一种：步伐识别网络、情绪识别网络、腿型识别网络，健康监测单元907具体用于：如果身份识别结果为人员属于服务对象，则通过特征编码网络对人体关键点序列进行特征编码，得到编码特征；通过步态健康识别网络，对编码特征进行识别，得到步态健康状况，步态健康状况包括如下至少一种：人员的步伐状况、人员的情绪类型、人员的腿型。

在一些实施例中，人体关键点序列包括面部关键点序列和躯体关键点序列，特征编码网络包括面部编码网络和步态编码网络。在如果身份识别结果为人员属于服务对象，则通过特征编码网络对人体关键点序列进行特征编码，得到编码特征的过程中，健康监测单元907具体用于：如果身份识别结果为人员属于服务对象，则通过面部编码网络对面部关键点序列进行特征编码，得到面部特征，通过步态编码网络对躯体关键点序列进行特征编码，得到步态特征。在通过步态健康识别网络，对编码特征进行识别，得到步态健康状况的过程中，健康监测单元907具体用于：通过步伐识别网络对步态特征进行识别，得到步伐状况；通过情绪识别网络对面部特征和步态特征进行识别，得到情绪类型；通过腿型识别网络对步态特征进行识别，得到腿型。

本实施例提供的基于机器人的步态监测装置，可用于执行上述基于机器人的步态监测方法的实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

参考图10，其示出了适于用来实现本公开实施例的电子设备1000的结构示意图，该电子设备1000可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(Portable Android Device，简称PAD)、便携式多媒体播放器(PortableMedia Player，简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001，其可以根据存储在只读存储器(Read Only Memory，简称ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(Random Access Memory，简称RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

通常，以下装置可以连接至I/O接口1005：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006；包括例如液晶显示器(Liquid CrystalDisplay，简称LCD)、扬声器、振动器等的输出装置1007；包括例如磁带、硬盘等的存储装置1008；以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1009从网络上被下载和安装，或者从存储装置1008被安装，或者从ROM 1002被安装。在该计算机程序被处理装置1001执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待检测网页的页面图像和页面描述文本的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种基于机器人的步态监测方法，其特征在于，包括：

获取所述机器人的拍摄视频；

根据所述身份特征，对所述人员进行身份识别。

2.根据权利要求1所述的基于机器人的步态监测方法，其特征在于，所述剪影特征提取网络包括空域特征提取网络和池化网络，所述通过身份特征提取模型中的剪影特征提取网络，对所述人体剪影序列进行特征提取，得到所述人员的人体剪影特征，包括：

将所述人体剪影序列输入所述空域特征提取网络，在所述空域特征提取网络中对所述人体剪影序列进行特征提取，得到剪影空域特征；

将所述剪影空域特征输入所述池化网络，通过所述池化网络对所述剪影空域特征进行特征池化，得到所述人体剪影特征。

3.根据权利要求2所述的基于机器人的步态监测方法，其特征在于，所述池化网络包括时域池化网络和水平金字塔池化网络，所述将所述剪影空域特征输入所述池化网络，通过所述池化网络对所述剪影空域特征进行特征池化，得到所述人体剪影特征，包括：

将所述剪影空域特征输入所述时域池化网络，通过所述时域池化网络在时序维度对所述剪影空域特征进行最大池化，得到初步池化特征；

将所述初步池化特征输入所述水平金字塔池化网络，在所述水平金字塔网络中，在空间维度对所述初步池化特征进行多尺度划分、平均池化、最大池化以及池化特征合并，得到所述人体剪影特征。

4.根据权利要求1-3中任一项所述的基于机器人的步态监测方法，其特征在于，所述多模态特征混合网络包括与所述人体剪影特征对应的卷积层、与所述人体关键点特征对应的卷积层以及注意力层，所述通过所述身份特征提取模型中的多模态特征混合网络，对所述人体剪影特征和所述人体关键点特征进行特征融合，得到所述人员的身份特征，包括：

在所述多模态特征混合网络中，通过与所述人体剪影特征对应的卷积网络、与所述人体关键点特征对应的卷积网络以及注意力层，对所述人体剪影特征和所述人体关键点特征进行特征融合，得到所述身份特征。

5.根据权利要求1-3中任一项所述的基于机器人的步态监测方法，其特征在于，所述根据所述身份特征，对所述人员进行身份识别之后，所述基于机器人的步态监测方法还包括：

如果身份识别结果为所述人员属于服务对象，则通过健康监测网络对所述人体关键点序列进行识别，得到所述人员的步态健康状况。

6.根据权利要求5所述的基于机器人的步态监测方法，其特征在于，所述健康监测网络包括特征编码网络和步态健康识别网络，所述步态健康识别网络包括如下至少一种：步伐识别网络、情绪识别网络、腿型识别网络，所述如果身份识别结果为所述人员属于服务对象，则通过健康监测网络对所述人体关键点序列进行识别，得到所述人员的步态健康状况，包括：

如果所述身份识别结果为所述人员属于服务对象，则通过特征编码网络对所述人体关键点序列进行特征编码，得到编码特征；

通过所述步态健康识别网络，对所述编码特征进行识别，得到所述步态健康状况，所述步态健康状况包括如下至少一种：所述人员的步伐状况、所述人员的情绪类型、所述人员的腿型。

7.根据权利要求6所述的基于机器人的步态监测方法，其特征在于，所述人体关键点序列包括面部关键点序列和躯体关键点序列，所述特征编码网络包括面部编码网络和步态编码网络；

所述如果所述身份识别结果为所述人员属于服务对象，则通过特征编码网络对所述人体关键点序列进行特征编码，得到编码特征，包括：

如果所述身份识别结果为所述人员属于服务对象，则通过所述面部编码网络对所述面部关键点序列进行特征编码，得到面部特征，通过所述步态编码网络对所述躯体关键点序列进行特征编码，得到步态特征；

所述通过所述步态健康识别网络，对所述编码特征进行识别，得到所述步态健康状况，包括：

通过所述步伐识别网络对所述步态特征进行识别，得到所述步伐状况；

通过所述情绪识别网络对所述面部特征和所述步态特征进行识别，得到所述情绪类型；

通过所述腿型识别网络对所述步态特征进行识别，得到所述腿型。

8.一种基于机器人的步态监测装置，其特征在于，包括：

视频获取单元，用于获取所述机器人的拍摄视频；

9.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至7任一项所述的基于机器人的步态监测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至7任一项所述的基于机器人的步态监测方法。