CN110472612B

CN110472612B - 人体行为识别方法及电子设备

Info

Publication number: CN110472612B
Application number: CN201910777050.3A
Authority: CN
Inventors: 陈维强; 张玉; 高雪松
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2021-09-07
Anticipated expiration: 2039-08-22
Also published as: CN110472612A

Abstract

本申请提供一种人体行为识别方法及电子设备。该方法包括：对采集的视频数据片段进行三维姿态估计，得到视频数据片段中每个人的三维骨骼点坐标，视频数据片段包括深度数据流和彩色数据流；选取视频数据片段中的两个人，根据两个人的重心距离和运动矢量确定出两个人的动作类型，动作类型为单人动作或双人交互动作，重心距离和运动矢量根据每个人的三维骨骼点坐标计算得到；根据确定出的动作类型，将动作类型对应的每个人的三维骨骼点坐标输入到动作模型中进行动作识别，得到动作识别结果，其中，不同的动作类型对应的动作模型不同。从而可准确地识别出人体行为。

Description

人体行为识别方法及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种人体行为识别方法及电子设备。

背景技术

人体行为识别是指将包含人体动作的视频添加上动作类型的标签，随着社会生活节奏的加快，对家庭中老人、儿童的健康状态和生活状态的监护已成为日渐突出的社会问题，通过人体行为识别技术来建立智能的家居环境，已成为学界的研究热点。

日常生活中的行为多数发生在个体自身或者两个个体之间，发生在个体自身行为称为单人动作，发生在两个个体之间的行为称为双人交互动作，单人动作比如摔倒、写字、坐下、行走等，双人交互动作比如拥抱、打架、拖拽等。在家居生活中，不仅存在着单人动作，双人交互动作在日常生活中也非常普遍。如何能够自动识别出单人动作和双人交互动作，是提高人体行为识别准确率的一个重要途径。

现有的人体行为识别方法中，是通过将单人动作输入到卷积网络模型中进行动作识别，适用于单人场景下的行为识别，而在多人场景下，不同个体的动作通常不会一致，个体之间可能存在互相影响、遮挡等情况，若依然使用现有的人体行为识别方法，识别准确率不高。

发明内容

本申请提供一种人体行为识别方法及电子设备，以解决多人场景下的人体行为识别问题。

第一方面，本申请提供一种人体行为识别方法，包括：

对采集的视频数据片段进行三维姿态估计，得到所述视频数据片段中每个人的三维骨骼点坐标，所述视频数据片段包括深度数据流和彩色数据流；

选取所述视频数据片段中的两个人，根据两个人的重心距离和运动矢量确定出两个人的动作类型，所述动作类型为单人动作或双人交互动作，所述重心距离和运动矢量根据每个人的三维骨骼点坐标计算得到；

根据确定出的动作类型，将所述动作类型对应的每个人的三维骨骼点坐标输入到动作模型中进行动作识别，得到动作识别结果，其中，不同的动作类型对应的动作模型不同。

第二方面，本申请提供一种电子设备，包括：

第一处理模块，用于对采集的视频数据片段进行三维姿态估计，得到所述视频数据片段中每个人的三维骨骼点坐标，所述视频数据片段包括深度数据流和彩色数据流；

确定模块，用于选取所述视频数据片段中的两个人，根据两个人的重心距离和运动矢量确定出两个人的动作类型，所述动作类型为单人动作或双人交互动作，所述重心距离和运动矢量根据每个人的三维骨骼点坐标计算得到；

动作识别模块，用于将所述动作类型对应的每个人的三维骨骼点坐标输入到动作模型中进行动作识别，得到动作识别结果，其中，不同的动作类型对应的动作模型不同。

本申请提供的人体行为识别方法及电子设备，通过对采集的视频数据片段进行三维姿态估计，得到视频数据片段中每个人的三维骨骼点坐标，视频数据片段包括深度数据流和彩色数据流，接着选取视频数据片段中的两个人，根据两个人的重心距离和运动矢量确定出两个人的动作类型，最后根据确定出的动作类型，将动作类型对应的每个人的三维骨骼点坐标输入到动作模型中进行动作识别，得到动作识别结果，不同的动作类型对应的动作模型不同。从而可准确地识别出人体行为，三维姿态估计算法解决了场景背景复杂对人体行为识别的影响，此外，由于可以对视频数据中的每个人的行为进行识别，进一步减小了漏报的概率，提高识别的准确率，解决了多人场景下的人体行为识别问题。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的一种应用场景示意图；

图2为本申请提供与的一种人体行为识别方法实施例的流程图；

图3为对采集到的视频数据片段进行三维姿态估计的过程示意图；

图4为人体关键骨骼点分布图；

图5为本申请提供的一种人体行为识别方法实施例的流程示意图；

图6为本申请提供的一种电子设备的结构示意图；

图7为本申请提供的一种电子设备的结构示意图；

图8为本申请提供的一种电子设备的结构示意图；

图9为本申请提供的电子设备的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，下面对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

1、深度数据流，视频采集设备(如相机，摄像机)距离拍摄场景中每一点的距离。

2、彩色数据流，视频采集设备采集到的视频数据。

3、openpose算法，是卡内基梅隆大学研发的基于深度学习的姿态估计开源框架，该算法能从彩色视频中提取人体骨架，在像素坐标系下给出18个关键骨骼点的坐标位置和置信度。

在一些实施例中，openpose算法也可以被实现类似功能的算法代替。

本申请属于图像处理技术领域，更进一步涉及视频动作识别技术领域。现有技术只适用于单人场景下的行为识别，易受到背景环境的干扰，以及识别过程中个体之间相互遮挡均会对识别结果造成影响，识别准确率不高，为解决这一问题，本申请提供一种人体行为识别方法及电子设备，首先通过使用三维姿态估计提取视频数据片段中每个人的三维骨骼点坐标(即人体骨骼数据)，可以使动作识别的时空图卷积神经网络不受环境背景的限制，对应用场景有更强的适应能力。接着根据三维姿态估计结果确定出视频数据片段中每个人的动作类型是单人动作还是双人交互动作，最后分别对单人动作和双人交互动作进行动作识别，动作识别分别采用单人时空图卷积神经网络和双人时空图卷积神经网络，从而可准确地识别出人体行为，三维姿态估计算法解决了场景背景复杂对人体行为识别的影响，此外，由于可以对视频数据中的每个人的行为进行识别，进一步减小了漏报的概率，提高识别的准确率。下面结合附图通过具体实施例对本申请的人体行为识别方法的具体实现过程进行详细说明。

图1为本申请的一种应用场景示意图，如图1所示，摄像设备11采集视频数据，视频数据可以是通过彩色(RGB)+深度(D)类的相机或摄像设备采集，采集到的视频数据输入到本申请提供的电子设备12中，通过本申请提供人体行为识别方法识别出视频数据中的所有人的动作，如，若是单人动作，有摔倒、写字、坐下、行走等，若是双人动作，有拥抱、打架、拖拽等。识别出动作后，进一步还可以根据动作识别结果发送通知消息给相应的终端设备13，通知消息用于通知终端设备被监控对象出现异常或执行相应的操作。如，检测到有老人摔倒，立刻通知社区管理人员；当发现儿童独自离家，立刻通知家长；当检测到室内有人打架搏斗，通知附近安保人员发送求救信号等，又例如，检测到在跑步机上运动，通知智能音箱播放运动风的音乐。均可通过发送通知消息给相应的人员的终端设备。

图2为本申请提供的一种人体行为识别方法实施例的流程图，本实施例中的执行主体可以为任一可执行本申请的人体行为识别方法的硬件或软件，如图2所示，本实施例的方法可以包括：

S101、对采集的视频数据片段进行三维姿态估计，得到视频数据片段中每个人的三维骨骼点坐标，视频数据片段包括深度数据流和彩色数据流。

具体地，视频数据片段可以是通过RGB+D类的相机或摄像设备采集，视频数据片段的长度可以为100帧，即每100帧(大概是3秒)为一个动作单元，例如，本实施例的执行主体为行为识别模型，则每100帧采集到视频数据片段作为一个片段，长度为100帧的视频数据片段是行为识别模型的输入，视频数据片段包括深度数据流和彩色数据流。

具体地，图3为对采集到的视频数据片段进行三维姿态估计的过程示意图，如图3所示，对采集的视频数据片段进行三维姿态估计，得到视频数据片段中每个人的三维骨骼点坐标，具体可以为：通过openpose算法对彩色数据流进行二维姿态估计，得到二维姿态估计后的结果，然后将深度数据流与二维姿态估计后的结果进行坐标系转换及融合，得到每个人的三维骨骼点坐标。openpose是卡内基梅隆大学研发的基于深度学习的姿态估计开源框架，该算法能从彩色视频中提取人体骨架，在像素坐标系下给出18个关键骨骼点的坐标位置和置信度。将二维骨骼点在彩色图像映射到深度图像中，获取骨骼点的深度信息，即从像素坐标系到空间坐标下获取每个骨骼点的三维坐标位置，最后结合人体骨骼结构估计被遮挡部分的骨骼点3D位置，最终得到每个人的三维骨骼点坐标。

其中，每个人的三维骨骼点坐标为18个关键骨骼点的坐标，图4为人体关键骨骼点分布图，如图4所示，通过S101获取每个人的18个关键骨骼点的三维坐标。

S102、选取视频数据片段中的两个人，根据两个人的重心距离和运动矢量确定出两个人的动作类型，动作类型为单人动作或双人交互动作，重心距离和运动矢量根据每个人的三维骨骼点坐标计算得到。

具体地，还可以是通过每次选取两个人，确定出两个人的动作类型，直至确定出每个人的动作类型。

可选的，当视频数据片段中的人数大于两个，S102具体可以为：对视频数据片段中的所有人进行组合，得到

个组合，n为视频数据片段中所有人的数量，对每一组合，根据两个人的重心距离和运动矢量确定出两个人的动作类型。具体来说，在多人场景下，判断每个人是在做单人动作还是双人交互动作，对三维姿态估计的结果中每个片段的前10帧中所有人体骨架进行组合，每次选取两个人进行动作类型判断，判断依据为两个人的重心距离以及运动矢量。

作为一种可实施的方式，根据两个人的重心距离和运动矢量确定出两个人的动作类型，具体可以为：

通过如下公式计算动作类型评分K：

K＝w₁×d+w₂×(e₁·e₁′)+w₃×(e₂·e₂′)；

若K>预设阈值H，两个人的动作类型为双人交互动作；若K≤预设阈值H，两个人的动作类型为单人动作；

其中，w₁、w₂和w₃为权重，w₁+w₂+w₃＝1，d为两个人的重心距离，

其中，(X₁，Y₁，Z₁)为一个人的重心坐标，(X₂，Y₂，Z₂)为另一个人的重心坐标，重心坐标(X_i，Y_i，Z_i)通过如下公式计算得到：

其中，(x₂，y₂，z₂)，(x₅，y₅，z₅)，(x₈，y₈，z₈)和(x₁₁，y₁₁，z₁₁)分别为三维骨骼点坐标中左肩、右肩、左髋部和右髋部这四个关键点的坐标，如图2中2、5、8和11四个关键点；

e₁·e₁′为两个人各自运动方向单位向量的点积，e₂·e₂′为两个人相对方向单位向量的点积；

e₁和e₂分别通过两个人的运动矢量A₁和A₂计算得到，e₁′和e₂′分别通过两个人的重心的矢量方向A₁′和A₂′计算得到；

A₁′＝(X₂-X₁，Y₂-Y₁,Z₂-Z₁)；

A₂′＝(X₁-X₂,Y₁-Y₂,Z₁-Z₂)。

其中，单个人的运动矢量A根据视频数据片段中前三帧的重心坐标的平均值

第8帧到第10帧重心坐标的平均值

和如下公式计算所得：

具体来说，每一组合中两个人各自的的运动矢量分别是A₁和A₂，以及对方重心与自己重心的矢量方向分别是A₁′和A₂′，进而分别求得A₁和A₂、A₁′和A₂′的单位矢量e₁和e₂、e₁′和e₂′。计算各自运动方向以及对方与自己的相对方向单位向量的点积e₁·e₁′、e₂·e₂′，如果两个人在向彼此靠近，那么自己的运动方向和对方与自己的相对方向一致，点积结果越大，当点积结果为1时，说明一个人正在向另一个人直线靠近。

在一些实施例中计算据两个人的重心距离和运动矢量确定出两个人的动作类型的公式可以为K＝w₁×d+w₂×(e₁·e₁′)+w₃×(e₂·e₂′)+c；其中c为预设常数，当然公式还可以利用组合权重进行调整。

在一些实施例中，重心的计算还可以采用躯干骨上的其他骨骼点或仅采用对角线骨骼点进行计算。

在一些实施例中，计算运动矢量的时候可以分别在X、Y、Z坐标值上的差值前增加不同的权重系数，例如a、b、c，通过调整系数来纠正各维度的像差或畸变。

可选的，本实施例的方法还可以包括：对所确定出的所有双人交互动作根据K值的大小进行排序，若存在一个人在至少两组双人交互动作里，则只保留K值最大的一组双人交互动作。即每个人只能在一组动作中。首先对所有双人交互动作根据K值的大小排序，当一个人出现在一组动作中时，其他包含这个人的组别都要删除。从而可进一步提高识别的准确性。

S103、根据确定出的动作类型，将动作类型对应的每个人的三维骨骼点坐标输入到动作模型中进行动作识别，得到动作识别结果，其中，不同的动作类型对应的动作模型不同。

具体来说，不同的动作类型对应的动作模型不同，例如单人动作对应的动作模型是单人时空图卷积神经网络，双人交互动作对应的动作模型是双人时空图卷积神经网络。

将动作类型对应的每个人的三维骨骼点坐标输入到动作模型中进行动作识别，具体可以是：若动作类型为单人动作，将单人动作对应的一个人的三维骨骼点坐标输入到动作模型中进行动作识别；若动作类型为双人交互动作，将双人交互动作对应的两个人的三维骨骼点坐标输入到动作模型中进行动作识别。

具体地，例如将单人动作对应的一个人的三维骨骼点坐标输入到单人时空图卷积神经网络中进行动作识别，将双人交互动作对应的两个人的三维骨骼点坐标输入到双人时空图卷积神经网络中进行动作识别，最后得到动作识别结果，单人时空图卷积神经网络和双人时空图卷积神经网络是预先分别构建的网络模型，具体是将输入的三维骨骼关键点序列构建一个时空图结构，构造策略是：一、首先在每一帧内部，按照人体的自然骨架连接关系构造空间图，二、接着在相邻两帧的相同关键点连接起来，构成时序边，然后将所有输入帧中关键点构成节点集，步骤一、二中的所有边构成边集，即构成所需的时空图，时空图结构的输入经过卷积等操作完成特征提取，最后在softmax函数中完成分类。时空卷积神经网络利用了人体骨骼点之间的相对位置特征和同一个骨骼点在连续帧之间的位置变化特征，通过搭建了一个九层的神经网络来完成行为识别。

进一步地，在得到动作识别结果后，还可以根据动作识别结果发送通知消息给相应的终端设备，通知消息用于通知终端设备被监控对象出现异常或执行相应的操作，不同的动作识别结果对应的终端设备不同。例如，检测到有老人摔倒，立刻通知社区管理人员，即发送通知消息给社区管理人员的终端设备；当发现儿童独自离家，立刻通知家长；当检测到室内有人打架搏斗，通知附近安保人员发送求救信号等，又例如，检测到在跑步机上运动，通知智能音箱播放运动风的音乐。均可通过发送通知消息给相应的人员的终端设备。

通过本实施例提供的人体行为识别，可对需要监护的老人跌倒、家暴或坏人入侵、婴幼儿翻身后导致面部朝下窒息等情况实时检测，准确实时地向其家人或者医护机构发送报警信号，从而为包括老人、小孩和残障等特殊群体实施有效的监护。

本实施例提供的人体行为识别方法，通过对采集的视频数据片段进行三维姿态估计，得到视频数据片段中每个人的三维骨骼点坐标，视频数据片段包括深度数据流和彩色数据流，接着选取视频数据片段中的两个人，根据两个人的重心距离和运动矢量确定出两个人的动作类型，动作类型为单人动作或双人交互动作，最后根据确定出的动作类型，将动作类型对应的每个人的三维骨骼点坐标输入到动作模型中进行动作识别，得到动作识别结果。从而可准确地识别出人体行为，三维姿态估计算法解决了场景背景复杂对人体行为识别的影响，此外，由于可以对视频数据中的每个人的行为进行识别，进一步减小了漏报的概率，提高识别的准确率，解决了多人场景下的人体行为识别问题。

下面采用一个具体的实施例，对图2所示方法实施例的技术方案进行详细说明。

图5为本申请提供的一种人体行为识别方法实施例的流程示意图，如图5所示，首先，通过RGB+D类的相机或摄像设备采集视频数据，每100帧采集到视频数据片段作为一个片段，长度为100帧的视频数据片段是行为识别模型的输入，视频数据片段包括深度数据流和彩色数据流。

S201、对采集的视频数据片段进行三维姿态估计，得到视频数据片段中每个人的三维骨骼点坐标，视频数据片段包括深度数据流和彩色数据流。

S202、对视频数据片段中的所有人进行组合，得到

个组合，n为视频数据片段中所有人的数量，对每一组合，根据两个人的重心距离和运动矢量确定出两个人的动作类型。

具体来说，在多人场景下，判断每个人是在做单人动作还是双人交互动作，对三维姿态估计的结果中每个片段的前10帧中所有人体骨架进行组合，每次选取两个人进行动作类型判断，判断依据为两个人的重心距离以及运动矢量。

首先，在空间坐标系下，骨骼点2、5、8、11四个关键点的重心作为人体重心，通过如下公式计算人体重心点的坐标：

得到场景中所有人的重心点的坐标之后，对视频数据片段中的所有人进行组合，得到

个组合，n为视频数据片段中所有人的数量，对每一组合中的两个人，计算两个人的重心距离d：

其中，(X₁，Y₁，Z₁)为一个人的重心坐标，(X₂，Y₂，Z₂)为另一个人的重心坐标，。

接着，根据视频数据片段中前三帧的重心坐标的平均值

第8帧到第10帧重心坐标的平均值

和如下公式计算单个人的运动矢量A：

根据公式计算出两个人的运动矢量A₁和A₂，计算两个人的重心的矢量方向A₁′和A₂′，其中，

A₁′＝(X₂-X₁，Y₂-Y₁，Z₂-Z₁)；

A₂′＝(X₁-X₂，Y₁-Y₂,Z₁-Z₂)。

接着计算得到A₁和A₂、A₁′和A₂′的单位矢量e₁和e₂、e₁′和e₂′，进而得到两个人各自运动方向单位向量的点积e₁·e₁′，以及两个人相对方向单位向量的点积e₂·e₂′。如果两个人在向彼此靠近，那么自己的运动方向和对方与自己的相对方向一致，点积结果越大，当点积结果为1时，说明一个人正在向另一个人直线靠近。

接着通过如下公式计算动作类型评分K：

K＝w₁×d+w₂×(e₁·e₁′)+w₃×(e₂·e₂′)；

若K>预设阈值H，两个人的动作类型为双人交互动作；若K≤预设阈值H，两个人的动作类型为单人动作。

S203、将确定出的单人动作对应的一个人的三维骨骼点坐标输入到单人时空图卷积神经网络中进行动作识别，将确定出的双人交互动作对应的两个人的三维骨骼点坐标输入到双人时空图卷积神经网络中进行动作识别，分别得到动作识别结果。

S204、根据动作识别结果发送通知消息给相应的终端设备，通知消息用于通知终端设备被监控对象出现异常或执行相应的操作。

本实施例提供的人体行为识别方法，通过使用三维姿态估计提取视频数据片段中每个人的三维骨骼点坐标(即人体骨骼数据)，可以使动作识别的时空图卷积神经网络不受环境背景的限制，对应用场景有更强的适应能力。根据三维姿态估计结果确定出视频数据片段中每个人的动作类型是单人动作还是双人交互动作，最后分别对单人动作和双人交互动作进行动作识别，动作识别分别采用单人时空图卷积神经网络和双人时空图卷积神经网络，从而可准确地识别出人体行为，三维姿态估计算法解决了场景背景复杂对人体行为识别的影响，此外，由于可以对视频数据中的每个人的行为进行识别，进一步减小了漏报的概率，提高识别的准确率，解决了多人场景下的人体行为识别问题。

图6为本申请提供的一种电子设备的结构示意图，如图6所示，本实施例的电子设备包括：第一处理模块21、确定模块22和动作识别模块23，其中，第一处理模块21用于对采集的视频数据片段进行三维姿态估计，得到视频数据片段中每个人的三维骨骼点坐标，视频数据片段包括深度数据流和彩色数据流；

确定模块22用于选取视频数据片段中的两个人，根据两个人的重心距离和运动矢量确定出两个人的动作类型，动作类型为单人动作或双人交互动作，重心距离和运动矢量根据每个人的三维骨骼点坐标计算得到；

动作识别模块23用于根据确定出的动作类型，将动作类型对应的每个人的三维骨骼点坐标输入到动作模型中进行动作识别，得到动作识别结果，其中，不同的动作类型对应的动作模型不同。

进一步地，第一处理模块21用于：

通过openpose算法对彩色数据流进行二维姿态估计，得到二维姿态估计后的结果；

将深度数据流与二维姿态估计后的结果进行坐标系转换及融合，得到每个人的三维骨骼点坐标。

进一步地，确定模块22用于：

对视频数据片段中的所有人进行组合，得到

进一步地，确定模块22用于：

通过如下公式计算动作类型评分K：

K＝w₁×d+w₂×(e₁·e₁′)+w₃×(e₂·e₂′)；

其中，(x₂，y₂，z₂)，(x₅，y₅，z₅)，(x₈，y₈，z₈)和(x₁₁，y₁₁，z₁₁)分别为三维骨骼点坐标中左肩、右肩、左髋部和右髋部这四个关键点的坐标；

A₁′＝(X₂-X₁，Y₂-Y₁，Z₂-Z₁)；

A₂′＝(X₁-X₂，Y₁-Y₂，Z₁-Z₂)。

进一步地，单个人的运动矢量A根据视频数据片段中前三帧的重心坐标的平均值

第8帧到第10帧重心坐标的平均值

和如下公式计算所得：

本实施例提供的电子设备可用于执行上述实施例的人体行为识别方法，其实现方式和技术效果类似，本实施例此处不再赘述。

图7为本申请提供的一种电子设备的结构示意图，如图7所示，本实施例的电子设备在图6所示电子设备结构的基础上，进一步地，还可以包括：第二处理模块24，该第二处理模块24用于对所确定出的所有双人交互动作根据K值的大小进行排序，若存在一个人在至少两组双人交互动作里，则只保留K值最大的一组双人交互动作。

可选的，视频数据片段的长度为100帧。

图8为本申请提供的一种电子设备的结构示意图，如图8所示，本实施例的电子设备在图6或图7所示电子设备结构的基础上，进一步地，还可以包括：发送模块25，该发送模块25用于根据动作识别结果发送通知消息给相应的终端设备，通知消息用于通知终端设备被监控对象出现异常或执行相应的操作。

可选的，动作识别模块23用于：

若动作类型为单人动作，将单人动作对应的一个人的三维骨骼点坐标输入到动作模型中进行动作识别；

若动作类型为双人交互动作，将双人交互动作对应的两个人的三维骨骼点坐标输入到动作模型中进行动作识别。

图9为本申请提供的电子设备的硬件结构示意图。如图9所示，本实施例的电子设备30可以包括：存储器31和处理器32；

存储器31，用于存储计算机程序；

处理器32，用于执行存储器存储的计算机程序，以实现上述实施例中的人体行为识别方法。具体可以参见前述方法实施例中的相关描述。

可选地，存储器31既可以是独立的，也可以跟处理器32集成在一起。

当存储器31是独立于处理器32之外的器件时，电子设备30还可以包括：

总线33，用于连接存储器31和处理器32。

可选地，本实施例还包括：通信接口34，该通信接口34可以通过总线33与处理器32连接。处理器32可以控制通信接口33来实现电子设备30的上述的接收和发送的功能。

本实施例提供的电子设备可用于执行上述的人体行为识别方法，其实现方式和技术效果类似，本实施例此处不再赘述。

本申请还提供一种计算机可读存储介质，计算机可读存储介质包括计算机程序，计算机程序用于实现如上实施例中的人体行为识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。