CN113887424A

CN113887424A - 人体行为的识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113887424A
Application number: CN202111163448.1A
Authority: CN
Inventors: 李立赛
Original assignee: Shenzhen Miracle Intelligent Network Co Ltd
Current assignee: Shenzhen Miracle Intelligent Network Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-04

Abstract

本申请涉及一种人体行为的识别方法、装置、计算机设备和存储介质。方法包括：从目标视频的视频帧图像中截取指定的区域图像；在区域图像提取各人体不同部位的关键点；对各不同部位的关键点进行组合，得到多个关键点集合；其中，各关键点集合中均存在至少三个部位的关键点，且不同关键点集合中之间至少存在一个不同部位的关键点；针对每个关键点集合，在当前关键点集合内，计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角，直至得到每个关键点集合对应的夹角；基于各夹角确定人体对应的人体行为。采用本方法提高了人体行为识别算法的实时性，且极大的降低了计算量。

Description

人体行为的识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种人体行为的识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机视觉技术的发展，出现了人体关键点检测技术，人体关键点检测(Human Keypoints Detection)又称为人体姿态估计，是计算机视觉中一个相对基础的任务，是人体动作识别、行为分析、人机交互等的前置任务。传统的人体关键点检测技术大多数采用基于自上而下(top-down)架构的算法，基于自上而下架构的算法精度高，但存在计算量大，实时性不高的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种人体行为的识别方法、装置、计算机设备和存储介质。

一种人体行为的识别方法，所述方法包括：

从目标视频的视频帧图像中截取指定的区域图像；

在所述区域图像提取各人体各不同部位的关键点；

对各不同所述部位的关键点进行组合，得到多个关键点集合；其中，各所述关键点集合中均存在至少三个所述部位的关键点，且不同所述关键点集合中之间至少存在一个不同所述部位的关键点；

针对每个所述关键点集合，在当前所述关键点集合内，计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角，直至得到每个所述关键点集合对应的夹角；

基于各所述夹角确定所述人体对应的人体行为；所述人体行为，用于生成对应的多媒体指令，以根据所述多媒体指令对多媒体设备进行控制。

在其中的一个实施例中，所述从目标视频的图像帧中截取指定的区域图像包括：

对目标视频进行解码，得到视频帧图像序列；

在所述视频帧图像序列中选取当前视频帧图像；

从所述当前视频帧图像中截取指定的区域图像。

在其中的一个实施例中，所述在所述区域图像提取各人体不同部位的关键点包括：

通过机器学习模型对所述区域图像进行关键点提取，得到各人体不同部位的关键点；

所述对各不同所述部位的关键点进行组合，得到多个关键点集合之前，所述方法还包括：

通过所述机器学习模型确定所述关键点的坐标；

从各所述人体不同部位的坐标中，选出关于各所述人体左右对称的各不同所述部位的坐标，形成坐标对；

当在水平方向上所述坐标对中人体右侧部位的坐标大于人体左侧部位的坐标时，判定所述坐标对对应的所述人体为背对人体；

将所述背对人体对应的各所述关键点进行删除。

在其中的一个实施例中，所述对各不同所述部位的关键点进行组合，得到多个关键点集合之前，所述方法还包括：

对所述区域图像中各所述人体的不同部位进行热力计算，得到各相同所述部位分别对应的关键点热力图；

当所述关键点热力图中目标人体的关键点置信度不大于预设置信度时，判定所述目标人体为不完整人体；

将所述目标人体对应的所述关键点进行删除。

在其中的一个实施例中，所述基于各所述夹角确定所述人体对应的人体行为包括：

将各所述夹角进行组合，得到不同夹角向量；不同所述夹角向量对应不同人体行为；

基于不同所述夹角向量确定所述人体对应的所述人体行为。

在其中的一个实施例中，当前所述关键点集合包括脖子关键点、鼻子关键点、左肩关键点；所述方法还包括：

所述计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角包括：

以所述脖子关键点为顶点，绘制指向所述鼻子关键点的第一射线，以及，绘制指向所述左肩关键点的第二射线；

以所述第一射线顺时针方向转到所述第二射线形成的角，作为射线的夹角。在其中的一个实施例中，所述方法还包括：

在删除关键点之后，若剩余的所述关键点的总数小于预设数量时，重新获取所述目标视频的视频帧图像，在新获取的所述视频帧图像中截取区域图像。

一种人体行为的识别装置，所述装置包括：

截取模块，用于从目标视频的视频帧图像中截取指定的区域图像；

提取模块，用于在所述区域图像提取各人体各不同部位的关键点；

组合模块，用于对各不同所述部位的关键点进行组合，得到多个关键点集合；其中，各所述关键点集合中均存在至少三个所述部位的关键点，且不同所述关键点集合中之间至少存在一个不同所述部位的关键点；

计算模块，用于针对每个所述关键点集合，在当前所述关键点集合内，计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角，直至得到每个所述关键点集合对应的夹角；

确定模块，用于基于各所述夹角确定所述人体对应的人体行为；所述人体行为，用于生成对应的多媒体指令，以根据所述多媒体指令对多媒体设备进行控制。

在其中的一个实施例中，所述截取模块还用于对目标视频进行解码，得到视频帧图像序列；在所述视频帧图像序列中选取当前视频帧图像；从所述当前视频帧图像中截取指定的区域图像。

在其中的一个实施例中，所述提取模块还用于通过机器学习模型对所述区域图像进行关键点提取，得到各人体不同部位的关键点；

所述装置还包括：

第一删除模块，用于通过所述机器学习模型确定所述关键点的坐标；从各所述人体不同部位的坐标中，选出关于各所述人体左右对称的各不同所述部位的坐标，形成坐标对；当在水平方向上所述坐标对中人体右侧部位的坐标大于人体左侧部位的坐标时，判定所述坐标对对应的所述人体为背对人体；将所述背对人体对应的各所述关键点进行删除。

在其中的一个实施例中，所述装置还包括：

第二删除模块，用于对所述区域图像中各所述人体的不同部位进行热力计算，得到各相同所述部位分别对应的关键点热力图；当所述关键点热力图中目标人体的关键点置信度不大于预设置信度时，判定所述目标人体为不完整人体；将所述目标人体对应的所述关键点进行删除。

在其中的一个实施例中，所述确定模块还用于将各所述夹角进行组合，得到不同夹角向量；不同所述夹角向量对应不同人体行为；基于不同所述夹角向量确定所述人体对应的所述人体行为。

在其中的一个实施例中，所述装置还包括：

所述计算模块还用于以所述脖子关键点为顶点，绘制指向所述鼻子关键点的第一射线，以及，绘制指向所述左肩关键点的第二射线；以所述第一射线顺时针方向转到所述第二射线形成的角，作为射线的夹角。

在其中的一个实施例中，所述装置还包括：

重新获取模块，用于在删除关键点之后，若剩余的所述关键点的总数小于预设数量时，重新获取所述目标视频的视频帧图像，在新获取的所述视频帧图像中截取区域图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述人体行为的识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述人体行为的识别方法的步骤。

上述人体行为的识别方法、装置、计算机设备和存储介质，通过基于视频源获取指定的区域图像；在区域图像提取人体各不同部位的关键点；对各不同部位的关键点进行组合，得到多个关键点集合；针对每个关键点集合，在当前关键点集合内，计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角，直至得到每个关键点集合对应的夹角；基于各夹角确定人体对应的人体行为，通过获取指定的区域图像，保证了人体行为识别的精度，依据夹角确定人体对应的人体行为，有效的提高了人体行为识别算法的实时性，且极大的降低了计算量。

附图说明

图1为一个实施例中人体行为的识别方法的应用环境图；

图2为一个实施例中人体行为的识别方法的流程示意图；

图3为一个实施例中删除背对人体对应的关键点步骤的流程示意图；

图4为一个实施例中删除不完全人体对应的关键点步骤的流程示意图；

图5为一个实施例中人体行为的识别装置的结构框图；

图6为另一个实施例中人体行为的识别装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的人体行为的识别方法，可以应用于如图1所示的应用环境中。该人体行为的识别方法应用于人体行为的识别系统，人体行为的识别系统包括终端102和服务器104，应用环境可为终端102与服务器104交互的环境。其中，终端102通过网络与服务器104进行通信。终端102可以获取服务器104上传的目标视频，进一步的，终端102从目标视频的视频帧图像中截取指定的区域图像，在区域图像提取各人体不同部位的关键点，终端102对各不同部位的关键点进行组合，得到多个关键点集合；其中，各关键点集合中均存在至少三个部位的关键点，且不同关键点集合中之间至少存在一个不同部位的关键点，终端102针对每个关键点集合，在当前关键点集合内，计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角，直至得到每个关键点集合对应的夹角，终端102基于各夹角确定人体对应的人体行为；人体行为，用于生成对应的多媒体指令，以根据多媒体指令对多媒体设备进行控制。其中，目标视频可以是终端102从数据库中直接获取的，也可以是其他设备发送至终端102的。

其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智慧灯或智慧灯杆等，但并不局限于此。

服务器104可以是独立的物理服务器，也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。

此外，服务器104还可以是多个物理服务器构成的服务器集群，可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者网络等通讯连接方式进行连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种人体行为的识别方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S202，从目标视频的视频帧图像中截取指定的区域图像。

其中，目标视频可以是设备获取或储存的视频或录像，该视频用于获取视频帧图像，例如，在智能灯杆场景下，通过摄像头拍摄的视频为目标视频。指定的区域图像可以是在视频帧图像中特定区域位置的图像，例如，在视频帧图像的中心位置，长为视频帧图像的长的一半，宽为视频帧图像的宽的一半，且长宽比为1：1的图像为指定的区域图像。

具体地，S202可以是终端从拍摄或储存的目标视频获取当前视频帧图像，根据用户预先设置对视频帧图像的截取范围(位置、长宽、长宽比、面积等)，截取指定的区域图像。

例如，终端可以是智能灯杆，智能灯杆上安装有摄像头，摄像头安装在预设高度以上的位置，例如，摄像头可安装在2.5米以上的位置，从目标视频源中获取当前视频帧图像，从当前视频帧图像中截取出指定的区域图像。其中，预先设置对视频帧图像的截取范围，为中心位置，长宽比为1：1。

S204，在区域图像提取各人体不同部位的关键点。

其中，区域图像是指从视频帧图像中截取的指定的区域图像，人体是指人的整个或部分身体，例如，老人的身体，男人的身体，青年的上半身等。不同部位是指人体不同位置的部分，例如，鼻子、脖子、右肩、右肘、右手、左肩等。关键点可以指构建人体骨架所需的点，例如，右肘关键点、右手关键点、左肩关键点、左肘关键点、左手关键点、右臀关键点等。

具体的，S204可以包括：终端通过机器学习模型(关键点检测模型)对区域图像中的人体进行关键点提取，得到各人体不同部位的关键点。

例如，终端将含有人体A的区域图像(像素可为640*640)，输入OpenPose模型，得到人体A的鼻子关键点、脖子关键点、右肩关键点、右肘关键点、右手关键点、左肩关键点、左肘关键点、左手关键点、右臀关键点、右膝盖关键点、右脚关键点、左臀关键点、左膝盖关键点、左脚关键点、右眼关键点、右耳关键点、左眼关键点、左耳关键点。

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度神经网络、人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例提供的方案涉及机器学习技术中的多种类型，在此不做具体限定。

机器学习模型用于人体行为识别，机器学习模型包括，深度神经网络模型、DensePose模型、OpenPose模型、Realtime Multi-Person Pose Estimation模型、AlphaPose模型、Human Body Pose Estimation模型、DeepPose模型等。

OpenPose模型可以提供2D和3D的多人关键点检测，OpenPose可接受的输入格式可以是图片或视频等。输出格式可以是PNG、JPG、AVI、JSON、XML和YML。输入和输出的参数同样可以针对不同需要进行调整。

S206，对各不同部位的关键点进行组合，得到多个关键点集合；其中，各关键点集合中均存在至少三个部位的关键点，且不同关键点集合中之间至少存在一个不同部位的关键点。

其中，组合是指选择不同部位的关键点组成一组的过程。关键点集合是指以不同部位的关键点形成的组。

在一个实施例中，S206可以包括：终端从已获取的关键点中，选择固定数量且不重复的关键点为一组，即关键点集合，在获得所有关键点集合后，依据人体行为识别所需的关键点集合的特点，例如，各关键点集合中均存在至少三个部位的关键点，且不同关键点集合中之间至少存在一个不同部位的关键点，对关键点集合进行筛选，得到所需的关键点集合。

例如，终端从已获取的鼻子关键点、脖子关键点、右肩关键点、右肘关键点、右手关键点、左肩关键点、左肘关键点、左手关键点、右臀关键点、右膝盖关键点、右脚关键点、左臀关键点、左膝盖关键点、左脚关键点、右眼关键点、右耳关键点、左眼关键点、左耳关键点中，选择{鼻子关键点，脖子关键点，左肩关键点}、{脖子关键点，右肩关键点，右肘关键点}，{右肩关键点，右肘关键点，右手关键点}、{脖子关键点，左肩关键点，左肘关键点}、{右肩关键点，左肘关键点，左手关键点}5组，得到5个关键点集合。

S208，针对每个关键点集合，在当前关键点集合内，计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角，直至得到每个关键点集合对应的夹角。

其中，目标部位的关键点是指依据人体行为识别所需的夹角特点，在当前关键点集合中选择的一个作为夹角顶点的关键点。剩余部位的关键点是指依据人体行为识别所需的夹角特点，在当前关键点集合中选择的作为夹角边经过的关键点。夹角的范围为0至360度。

具体的，终端依据人体行为识别所需的夹角特点，选出每个关键点集合中，为目标部位的关键点，以及剩余部位的关键点后，在基于预设的方向(例如，顺时针或逆时针等)，依次计算关键点集合中以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角。

例如，当关键点集合分别为A＝{鼻子关键点，脖子关键点，左肩关键点}、B＝{脖子关键点，右肩关键点，右肘关键点}，C＝{右肩关键点，右肘关键点，右手关键点}，D＝{脖子关键点，左肩关键点，左肘关键点}，E＝{右肩关键点，左肘关键点，左手关键点}时，终端在集合A中以脖子关键点为顶点，绘制指向鼻子关键点的第一射线，以及，绘制指向左肩关键点的第二射线；以第一射线顺时针方向转到第二射线形成的角，作为射线的夹角。在集合B中以右肩关键点为顶点，绘制指向脖子关键点的第一射线，以及，绘制指向右肘关键点的第二射线；以第一射线顺时针方向转到第二射线形成的角，作为射线的夹角。在集合C中以右肘关键点为顶点，绘制指向右肩关键点的第一射线，以及，绘制指向右手关键点的第二射线；以第一射线顺时针方向转到第二射线形成的角，作为射线的夹角。在集合D中以左肩关键点为顶点，绘制指向脖子关键点的第一射线，以及，绘制指向左肘关键点的第二射线；以第一射线顺时针方向转到第二射线形成的角，作为射线的夹角。在集合E中以左肘关键点为顶点，绘制指向右肩关键点的第一射线，以及，绘制指向左手关键点的第二射线；以第一射线顺时针方向转到第二射线形成的角，作为射线的夹角。

S210，基于各夹角确定人体对应的人体行为；人体行为，用于生成对应的多媒体指令，以根据多媒体指令对多媒体设备进行控制。

其中，人体行为可以是指人体特定的动作、姿势、姿态或行为状态，例如，左超人、右超人、敬礼、招手等。媒体就是人与人之间实现信息交流的中介，就是信息的载体，信息可以包括文字、图形图像、动画、声音和视频等。多媒体设备就是多重媒体的设备，可以理解为直接作用于人感官的文字、图形图像、动画、声音和视频等各种媒体的统称，即多种信息载体的表现形式和传递方式。例如，多媒体设备可以为：智慧大屏、智慧广播、智慧音响等。

在一个实施例中，S210可以包括，终端将各夹角进行组合，得到不同夹角向量；不同夹角向量对应不同人体行为；当不同夹角向量与预设的人体行为对应的夹角向量相同时，确定人体对应的人体行为。

例如，在得到夹角a(270度)、夹角b(180度)、夹角c(315度)、夹角d(270度)和夹角e(180度)后，终端将夹角a、夹角b、夹角c、夹角d和夹角e，组合得到夹角向量M＝{夹角a(270度)，夹角b(180度)，夹角c(315度)，夹角d(270度)，夹角e(180度)}，将夹角向量M，与预设的人体行为对夹角向量进行比较，比如与左超人的夹角向量为{夹角a(270度)，夹角b(135度)，夹角c(45度)，夹角d(135度)，夹角e(180度)}、右超人的夹角向量为{夹角a(270度)，夹角b(225度)，夹角c(180度)，夹角d(225度)，夹角e(315度)}、敬礼的夹角向量为{夹角a(270度)，夹角b(180度)，夹角c(315度)，夹角d(270度)，夹角e(180度)}，发现夹角向量M与敬礼的夹角向量一致，从而确定夹角向量对应的人体的人体行为为敬礼，敬礼生成晚会播放指令，控制智慧大屏进行晚会的播放。

上述实施例，通过基于视频源获取指定的区域图像；在区域图像提取人体各不同部位的关键点；对各不同部位的关键点进行组合，得到多个关键点集合；针对每个关键点集合，在当前关键点集合内，计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角，直至得到每个关键点集合对应的夹角；基于各夹角确定人体对应的人体行为，通过获取指定的区域图像，保证了人体行为识别的精度，依据夹角确定人体对应的人体行为，有效的提高了人体行为识别算法的实时性，且极大的降低了计算量。

在一个实施例中，如图3所示，删除背对人体对应的关键点步骤，包括：

S302，通过机器学习模型确定关键点的坐标。

其中，坐标是指在图像坐标系下获得的坐标，图像坐标系可以是以区域图像的左上角为原点，建立坐标系，例如，图像坐标系以区域图像的左上角为原点，水平方向为X轴，垂直方向为Y轴。

具体的，终端将区域图像输入机器学习模型(关键点检测模型)后，可得到区域图像中所有人体对应的关键点坐标。

例如，终端将一张含有人体A的RGB图像输入OpenPose模型，可得到人体A对应的鼻子、脖子、右肩、右肘、右手、左肩、左肘、左手、右臀、右膝盖、右脚、左臀、左膝盖、左脚、右眼、右耳、左眼、左耳关键点坐标，形式可以为[x1,y1,score1,x2,y2,score2,x3,y3,score3……x18,y18,score18]，其中，score可为对应关键点的置信度，即可靠度。

S304，从各人体不同部位的坐标中，选出关于各人体左右对称的各不同部位的坐标，形成坐标对。

其中，关于人体左右对称的不同部位是指人体上互相左右对称且呈成对出现的部位，比如，左肩和右肩、左臀和右臀、左手和右手等。

具体的，终端根据判断人体为背对人体的标准(即S306)从各人体不同部位的坐标中，依次选择每个人体中，关于人体左右对称的各不同部位的坐标，即坐标对，例如，左肩坐标与右肩坐标为一个坐标对，最终形成每个人体的多个坐标对。

S306，当在水平方向上坐标对中人体右侧部位的坐标大于人体左侧部位的坐标时，判定坐标对对应的人体为背对人体。

其中，水平方向可以指平行水平面方向，例如，水平的X轴方向。人体右侧部位是指位于右边的人体部位，例如，右肩，右手。人体左侧部位是指位于左边的人体部位，例如，左眼，左手。背对人体是指在区域图像上呈背对状态的人体。

在一个实施例中，终端依次选取每个人体的坐标对中，水平方向上的右侧部位的坐标、人体左侧部位的坐标，将二者比较大小，当指定的坐标对的右侧部位的坐标大于人体左侧部位的坐标时，判定坐标对对应的人体为背对人体，直到判断完所有人体对应的坐标对。

例如，人体A的坐标对有肩坐标对：{右肩：(x1，y1)，左肩：(x2，y2)}、臀坐标对{右臀：(x3，y3)，左臀：(x4，y4)}、手坐标对{右手：(x5，y5)，左手：(x5，y5)}，当肩坐标对中水平方向上的右侧部位的坐标x1大于人体左侧部位的坐标x2且当臀坐标对中水平方向上的右侧部位的坐标x3大于人体左侧部位的坐标x4时，判断为人体A为背对人体。

S308，将背对人体对应的各关键点进行删除。

具体的，终端将判定为背对的人体对应的所有各不同部位的关键点、以及关键点坐标、关键点置信度去除。

上述实施例中，通过从各人体不同部位的坐标中，选出关于各人体左右对称的各不同部位的坐标对；利用当在水平方向上坐标对中人体右侧部位的坐标大于人体左侧部位的坐标时，判定坐标对对应的人体为背对人体；从而将背对人体对应的各关键点进行删除。保证了剩余人体的完整性，且为后续的更好的进行人体行为识别做铺垫。

在一个实施例中，如图4所示，删除不完全人体对应的关键点步骤，包括：

S402，对区域图像中各人体的不同部位进行热力计算，得到各相同部位分别对应的关键点热力图。

其中，热力计算是指用机器学习模型将区域图像中的不同人体部位进行预测二维关键点热力图的过程。

具体的，终端将区域图像输入机器学习模型，经过机器学习模型中的关键点检测网络与连接骨架网络处理后，得到多张关键点热力图和关键点置信度，其中，每张关键点热力图表示的是区域图像中所有人体的相同部位的关键点，关键点置信度是指每个人体对应的各不同部位的关键点检测的可靠度。

例如，终端可将含有人体A与人体B的区域图像输入OpenPose模型，经过一个卷积神经网络(CNN)(关键点检测网络)和另一卷积神经网络(连接骨架网络)处理后，得到8张关键点热力图、人体A的8个关键点置信度和人体B的18个关键点置信度。分别是人体A与人体B的鼻子关键点热力图、脖子关键点热力图、右肩关键点热力图、右肘关键点热力图、右手关键点热力图、左肩关键点热力图、左肘关键点热力图、左手关键点热力图。以及人体A的8个关键点置信度，鼻子关键点置信度为55％、脖子关键点置信度为60％、右肩关键点置信度为65％、右肘关键点置信度为72％、右手关键点置信度为69％、左肩关键点置信度为82％、左肘关键点置信度为77％、左手关键点置信度为68％，以及人体B的8个关键点置信度鼻子关键点置信度为67％、脖子关键点置信度为89％、右肩关键点置信度为76％、右肘关键点置信度为78％、右手关键点置信度为90％、左肩关键点置信度为88％、左肘关键点置信度为66％、左手关键点置信度为61％。

S404，当关键点热力图中目标人体的关键点置信度不大于预设置信度时，判定目标人体为不完整人体。

其中，目标人体是指待判定是否为不完整人体的人体。例如，关键点热力图中有人体A和人体B，人体A与人体B为目标人体。预设置信度是指预先设置的对于不同部位的关键点的置信度，例如，右手关键点的预设置信度为60％。

具体的，终端在不同部位的关键点置信度中选择目标关键点置信度，依次将关键点热力图中目标人体的目标关键点置信度与对应的预设置信度进行对比，当目标人体中存在至少一个目标关键点的置信度不大于预设置信度时，即判定该目标人体为不完整人体。

S406，将目标人体对应的关键点进行删除。

具体的，终端将判定为不完整人体对应的所有各不同部位的关键点、以及关键点坐标、关键点置信度去除。

例如，目标关键点为(13个)：脖子关键点、右肩关键点、右肘关键点、右手关键点、左肩关键点、左肘关键点、左手关键点、右臀关键点、右膝盖关键点、右脚关键点、左臀关键点、左膝盖关键点、左脚关键点。

目标人体：人体A、人体B，关键点热力图中有人体A和人体B，对应的人体A的18个关键点置信度为：鼻子关键点置信度为40％、脖子关键点置信度为50％、右肩关键点置信度为80％、右肘关键点置信度为70％、右手关键点置信度为77％、左肩关键点置信度为78％、左肘关键点置信度为85％、左手关键点置信度为90％、右臀关键点置信度为86％、右膝盖关键点置信度为76％、右脚关键点置信度为69％、左臀关键点置信度为89％、左膝盖关键点置信度为66％、左脚关键点置信度为67％、右眼关键点置信度为84％、右耳关键点置信度为80％、左眼关键点置信度为90％、左耳关键点置信度为50％，以及人体B的18个关键点置信度：鼻子关键点置信度为67％、脖子关键点置信度为88％、右肩关键点置信度为79％、右肘关键点置信度为78％、右手关键点置信度为70％、左肩关键点置信度为65％、左肘关键点置信度为78％、左手关键点置信度为79％、右臀关键点置信度为80％、右膝盖关键点置信度为85％、右脚关键点置信度为86％、左臀关键点置信度为70％、左膝盖关键点置信度为78％、左脚关键点置信度为93％、右眼关键点置信度为89％、右耳关键点置信度为84％、左眼关键点置信度为71％、左耳关键点置信度为76％。选出13个目标关键点置信度与预设置信度对比。

人体A的13个关键点预设置信度，脖子关键点预设置信度为60％、右肩关键点预设置信度为60％、右肘关键点预设置信度为60％、右手关键点预设置信度为60％、左肩关键点预设置信度为60％、左肘关键点预设置信度为60％、左手关键点预设置信度为60％、右臀关键点预设置信度为60％、右膝盖关键点预设置信度为60％、右脚关键点预设置信度为60％、左臀关键点预设置信度为60％、左膝盖关键点预设置信度为60％、左脚关键点预设置信度为60％，以及人体B的13个关键点预设置信度脖子关键点预设置信度为60％、右肩关键点预设置信度为60％、右肘关键点预设置信度为60％、右手关键点预设置信度为60％、左肩关键点预设置信度为60％、左肘关键点预设置信度为60％、左手关键点预设置信度为60％、右臀关键点预设置信度为60％、右膝盖关键点预设置信度为60％、右脚关键点预设置信度为60％、左臀关键点预设置信度为60％、左膝盖关键点预设置信度为60％、左脚关键点预设置信度为60％。

对比发现人体A的脖子关键点置信度：50％不大于脖子关键点预设置信度：60％，人体B的所有关键点置信度大于预设置信度，故，人体A为不完整人体。

终端将不完整人体A对应的所有各不同部位的关键点、以及关键点坐标、关键点置信度去除。

在一个实施例中，在S406之后，即终端在删除关键点之后，若剩余的关键点的总数小于预设数量时，重新获取目标视频的视频帧图像，在新获取的视频帧图像中截取区域图像。

其中，预设数量为预先设定的数量，比如，1、2、3等常数。

例如，区域图像中所有为人体A和人体B，人体A为背对人体，人体B不完整人体，在S406之后，区域图像中剩余关键点总数为0，预设数量为1，判定关键点总数小于预设数量。则重新获取目标视频的视频帧图像，在新获取的视频帧图像中截取区域图像。

上述实施例中，通过对区域图像中各人体的不同部位进行热力计算，得到各相同部位分别对应的关键点热力图；利用当关键点热力图中目标人体的关键点置信度不大于预设置信度时，判定目标人体为不完整人体；将目标人体对应的关键点进行删除。保证了剩余人体的完整性，且为后续的更好的进行人体行为识别做铺垫。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种人体行为的识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：截取模块502、提取模块504、组合模块506，计算模块508和确定模块510，其中：

截取模块502，用于从目标视频的视频帧图像中截取指定的区域图像；

提取模块504，用于在区域图像提取各人体各不同部位的关键点；

组合模块506，用于对各不同部位的关键点进行组合，得到多个关键点集合；其中，各关键点集合中均存在至少三个部位的关键点，且不同关键点集合中之间至少存在一个不同部位的关键点；

计算模块508，用于针对每个关键点集合，在当前关键点集合内，计算以目标部位的关键点为顶点分别指向剩余部位的关键点的射线所形成的夹角，直至得到每个关键点集合对应的夹角；

确定模块510，用于基于各夹角确定人体对应的人体行为；人体行为，用于生成对应的多媒体指令，以根据多媒体指令对多媒体设备进行控制。

在一个实施例中，截取模块502，还用于对目标视频进行解码，得到视频帧图像序列；在视频帧图像序列中选取当前视频帧图像；从当前视频帧图像中截取指定的区域图像。

在一个实施例中，提取模块504，还用于通过机器学习模型对区域图像进行关键点提取，得到各人体不同部位的关键点。

在一个实施例中，计算模块508，还用于以脖子关键点为顶点，绘制指向鼻子关键点的第一射线，以及，绘制指向左肩关键点的第二射线；以第一射线顺时针方向转到第二射线形成的角，作为射线的夹角。

在一个实施例中，确定模块510，还用于将各夹角进行组合，得到不同夹角向量；不同夹角向量对应不同人体行为；基于不同夹角向量确定人体对应的人体行为。

在一个实施例中，如图6所示，该装置还包括：第一删除模块512，第二删除模块514，重新获取模块516；其中：

第一删除模块512，用于通过机器学习模型确定关键点的坐标；从各人体不同部位的坐标中，选出关于各人体左右对称的各不同部位的坐标，形成坐标对；当在水平方向上坐标对中人体右侧部位的坐标大于人体左侧部位的坐标时，判定坐标对对应的人体为背对人体；将背对人体对应的各关键点进行删除；

第二删除模块514，用于对区域图像中各人体的不同部位进行热力计算，得到各相同部位分别对应的关键点热力图；当关键点热力图中目标人体的关键点置信度不大于预设置信度时，判定目标人体为不完整人体；将目标人体对应的关键点进行删除；

重新获取模块516，用于在删除关键点之后，若剩余的关键点的总数小于预设数量时，重新获取目标视频的视频帧图像，在新获取的视频帧图像中截取区域图像。

关于人体行为的识别装置的具体限定可以参见上文中对于人体行为的识别方法的限定，在此不再赘述。上述人体行为的识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，在本实施例中以计算机设备为终端为例进行说明，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种人体行为的识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种人体行为的识别方法，其特征在于，所述方法包括：

从目标视频的视频帧图像中截取指定的区域图像；

在所述区域图像提取各人体不同部位的关键点；

2.根据权利要求1所述的方法，其特征在于，所述从目标视频的图像帧中截取指定的区域图像包括：

对目标视频进行解码，得到视频帧图像序列；

在所述视频帧图像序列中选取当前视频帧图像；

从所述当前视频帧图像中截取指定的区域图像。

3.根据权利要求1所述的方法，其特征在于，所述在所述区域图像提取各人体不同部位的关键点包括：

通过所述机器学习模型确定所述关键点的坐标；

将所述背对人体对应的各所述关键点进行删除。

4.根据权利要求1所述的方法，其特征在于，所述对各不同所述部位的关键点进行组合，得到多个关键点集合之前，所述方法还包括：

将所述目标人体对应的所述关键点进行删除。

5.根据权利要求1所述的方法，其特征在于，所述基于各所述夹角确定所述人体对应的人体行为包括：

基于不同所述夹角向量确定所述人体对应的所述人体行为。

6.根据权利要求1所述的方法，其特征在于，当前所述关键点集合包括脖子关键点、鼻子关键点、左肩关键点；所述方法还包括：

以所述第一射线顺时针方向转到所述第二射线形成的角，作为射线的夹角。

7.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

8.一种人体行为的识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。