CN111931701B

CN111931701B - 基于人工智能的姿态识别方法、装置、终端和存储介质

Info

Publication number: CN111931701B
Application number: CN202010955610.2A
Authority: CN
Inventors: 郑喜民
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2021-01-15
Anticipated expiration: 2040-09-11
Also published as: CN111931701A

Abstract

本发明实施例公开了一种基于人工智能的姿态识别方法、装置、终端和存储介质，所述方法包括：获取待识别图像，对待识别图像进行关节点提取处理，得到待识别图像对应的关节点信息，基于关节点信息中每个关节点坐标的置信度对N个关节点坐标进行筛选，得到M个目标关节点坐标，基于M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据，将基础特征数据和交叉特征数据输入至人体姿态识别模型中，得到待识别图像对应的人体姿态。通过实施上述方法，可以基于人物的关节点构建特征对人体姿态进行识别，提升人体姿态的识别效率以及识别准确率。

Description

基于人工智能的姿态识别方法、装置、终端和存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于人工智能的姿态识别方法、装置、终端和存储介质。

背景技术

随着计算机技术的发展，人体姿态识别进入了人们研究的视野，通过对人体的姿态进行识别，可以分析人物的行为习惯、动作标准度，以及构建相似动画人物等，因此，人体姿态识别在行为识别、人机交互、游戏、动画等领域有着很广阔的应用前景，是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。

当前，大多采用基于RGB图像的人体姿态估计算法对人体姿态进行识别，上述方法需要对图像中的各个像素都进行分析，运算量较大，因此对人体姿态的识别效率以及识别准确率较低。

发明内容

本发明实施例提供了一种基于人工智能的姿态识别方法、装置、终端和存储介质，可以基于人物的关节点构建特征对人体姿态进行识别，提升人体姿态的识别效率以及识别准确率。

一方面，本发明实施例提供了一种基于人工智能的姿态识别方法，所述方法包括：

获取待识别图像，所述待识别图像中包括人物区域；

对所述待识别图像进行关节点提取处理，得到所述待识别图像对应的关节点信息，所述关节点信息包括所述人物区域中的N个关节点坐标以及每个关节点坐标的置信度，所述N为正整数；

基于所述每个关节点坐标的置信度对所述N个关节点坐标进行筛选，得到M个目标关节点坐标，所述M为正整数；

基于所述M个目标关节点坐标构建所述待识别图像对应的基础特征数据和交叉特征数据，所述基础特征数据为所述各个目标关节点之间的距离，所述交叉特征数据为所述各个目标关节点坐标之间的组合；

将所述基础特征数据和所述交叉特征数据输入至人体姿态识别模型中，得到所述待识别图像对应的人体姿态。

一方面，本发明实施例提供了一种基于人工智能的姿态识别方法装置，所述装置包括：

获取模块，用于获取待识别图像，所述待识别图像中包括人物区域；

处理模块，用于对所述待识别图像进行关节点提取处理，得到所述待识别图像对应的关节点信息，所述关节点信息包括所述人物区域中的N个关节点坐标以及每个关节点坐标的置信度，所述N为正整数；

筛选模块，用于基于所述每个关节点坐标的置信度对所述N个关节点坐标进行筛选，得到M个目标关节点坐标，所述M为正整数；

构建模块，用于基于所述M个目标关节点坐标构建所述待识别图像对应的基础特征数据和交叉特征数据，所述基础特征数据为所述各个目标关节点之间的距离，所述交叉特征数据为所述各个目标关节点坐标之间的组合；

输入模块，用于将所述基础特征数据和所述交叉特征数据输入至人体姿态识别模型中，得到所述待识别图像对应的人体姿态。

一方面，本发明实施例提供了一种终端，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行所述基于人工智能的姿态识别方法。

一方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行所述基于人工智能的姿态识别方法。

本发明实施例中，终端获取待识别图像，并对待识别图像进行关节点提取处理，得到待识别图像对应的关节点信息，终端基于关节点信息中每个关节点坐标的置信度对N个关节点坐标进行筛选，得到M个目标关节点坐标，并基于M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据，终端将基础特征数据和交叉特征数据输入至人体姿态识别模型中，得到待识别图像对应的人体姿态，进一步的，终端计算得到的人体姿态的置信度，并基于置信度确定对于该人体姿态的处理方式，通过实施上述方法，可以基于人物的关节点构建特征对人体姿态进行识别，提升人体姿态的识别效率以及识别准确率，并且，提供了对识别结果进行校验的具体方式，使得识别结果更为准确。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于人工智能的姿态识别方法的流程示意图；

图2是本发明实施例提供的另一种基于人工智能的姿态识别方法的流程示意图；

图3是本发明实施例提供的一种基于人工智能的姿态识别装置的结构示意图；

图4是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于人工智能的姿态识别方法实现于终端，所述终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能，并申请构建的对姿态进行识别的模型即运用上述人工智能原理。

图1是本发明实施例中一种基于人工智能的姿态识别方法的流程示意图，如图1所示，本实施例中的姿态识别方法的流程可以包括：

S101、终端获取待识别图像。

本发明实施例中，待识别图像中包括人物区域，其中，待识别图像可以为一段视频中的任意一帧图像，终端可以接收摄像头上传的视频文件，并将视频文件中的每一帧图像都作为待识别图像进行识别，或者，终端也可以接收用户上传的图像，并将接收到的图像作为待识别图像，当终端接收到输入图像时，可以对输入图像进行人物区域检测，当输入图像中包括人物区域时，将输入图像作为待识别图像进行人体姿态识别，当输入图像中不包括人物区域时，对下一输入图像进行检测。需要说明的是，人物区域中可以包括一个人物或多个人物，在此不做限定。

S102、终端对待识别图像进行关节点提取处理，得到待识别图像对应的关节点信息。

本发明实施例中，关节点信息包括人物区域中的N个关节点坐标以及每个关节点坐标的置信度，N为正整数，具体的，终端获取到待识别图像之后，可以使用训练完成的关节点识别模型识别出待识别图像中人物区域中的关节点。

在一种实现方式中，终端得到待识别图像对应的关节点信息的具体方式可以为，终端预先选取K张已经被标记的关节点的图像，并将上述K张图像输入至初始识别模型中进行迭代训练，以对初始识别模型中的参数进行更新，当检测到参数更新后的初始识别模型满足预设条件时，将参数更新后的初始识别模型确定为关节点识别模型，预设条件可以为识别准确率高于预设准确率。其中，初始识别模型具体可以为使用深度学习算法可以为CNN（Convolutional Neural Networks，卷积神经网络）算法、GRU（Gated Recurrent Unit，门控循环单元）算法、LSTM（Long Short-Term Memory，长短期记忆）算法等方法构建的模型，模型训练具体原理可以为对图像的所有出现的人进行回归，回归得到各个人物的关节点，然后根据映射的方法来去除掉对其他人物的响应，最后通过计算损失（loss）来调节模型中的参数，当loss不再减小时，确定模型训练完成。进一步的，终端可以基于图像构建坐标系，得到识别出的关节点中每个关节点的关节点坐标，并基于相邻关节点坐标之间的距离确定每个关节点坐标的置信度，其中，相邻关节点具体可以为人物区域中距离最近的两个关节点，针对任意一个目标关节点，终端确定该目标关节点的置信度的具体方式可以为，终端获取目标关节点与对应的相邻关节点之间的第一距离，以及基于不同相邻关节点之间的距离计算得到的距离均值，终端计算该第一距离与距离均值之间的距离差值，并根据距离差值与置信度之间的对应关系确定每个关节点的置信度，其中，距离差值越大，置信度越低。

在一种实现方式中，终端得到待识别图像对应的关节点信息的具体方式可以为，终端将待识别图像输入OpenPose模型中，由OpenPose模型输出待识别图像中人物区域中的各个关节点以及每个关节点对应的置信度，该置信度用于表示关节点识别正确的概率，OpenPose模型是基于卷积神经网络和监督学习并以caffe为框架开发的人体姿态识别模型，可以实现人体动作、面部表情、手指运动等姿态估计，适用于单人和多人场景。

通过上述方式，终端可以提取得到多个关节点，可选的，终端检测关节点的数量是否为预设数量N，若否，则终端可以重新将待识别图像输入至模型中，由模型对待识别图像进行重新检测，通过上述方式，可以避免由于识别出的关节点较少而无法进行人体姿态识别的情况。

S103、终端基于每个关节点坐标的置信度对N个关节点坐标进行筛选，得到M个目标关节点坐标。

本发明实施例中，终端得到待识别图像对应的N个关节点坐标以及每个关节点坐标的置信度之后，可以基于每个关节点坐标的置信度对所述N个关节点坐标进行筛选，得到M个目标关节点坐标，M为正整数。

具体实现中，终端基于N个关节点坐标中每个关节坐标数据的置信度计算置信度特征值，置信度特征值包括置信度均值、置信度方差、置信度中位数中的至少一种，并基于置信度特征值确定置信度阈值，然后终端从N个关节点坐标中筛选出置信度高于置信度阈值的M个目标关节点坐标。例如，置信度特征值为置信度均值，则终端可以将0.5倍均值确定为置信度阈值，并筛选出置信度大于0.5倍置信度均值的M个目标关节点坐标，或者，置信度特征值为置信度方差，则终端可以检测上述方差是否高于预设方差，若是，则筛除与置信度均值相差较大的置信度，直至置信度方差低于预设方差，并重新计算筛除后剩余的各个置信度的置信度均值，终端将此时的置信度均值作为置信度阈值。或者，置信度特征值包括置信度均值、置信度方差、置信度中位数，则终端获取高于置信度中位数的至少一个置信度，并从上述至少一个置信度中筛除与置信度均值相差较大的置信度，直至置信度方差低于预设方差，终端重新计算筛除后剩余的各个置信度的置信度均值，终端将此时的置信度均值作为置信度阈值。

S104、终端基于M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据。

本发明实施例中，终端得到M个目标关节点坐标之后，将基于该M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据，其中，基础特征数据为各个目标关节点之间的距离，交叉特征数据为各个目标关节点坐标之间的组合。

具体实现中，终端构建基础特征数据的具体方式可以为，终端基于M个目标关节点坐标计算各个目标关节点之间的横坐标距离、纵坐标距离和欧式距离，并将各个目标关节点之间的横坐标距离、纵坐标距离以及欧式距离确定为待识别图像对应的基础特征数据，例如，针对目标关节点坐标（x₁，y₁）和（x₂，y₂），则基于上述两个坐标计算得到的横坐标距离为x₁-x₂，纵坐标距离为y₁- y₂，欧式距离为(x₁-x₂)²+（y₁-y₂）²的开方，通过上述方式，终端可以基于不同目标坐标点之间的距离构建基础特征数据。在一种实现方式中，为了减少运算量，可以选取具有代表性的目标关节点构建基础特征数据，例如，将左手关节点横坐标与面部关节点横坐标的距离、右手关节点横坐标与面部关节点横坐标的距离、面部关节点横坐标与躯干中脚部关节点横坐标距离、左手关节点与右手关节点之间的欧式距离、左手关节点与左脚关节点之间的欧式距离作为基础特征数据，终端可以基于目标关节点之间的相对位置关系识别出代表性的目标关节点，如处于最上方的关节点为面部关节点，最左方的关节点为左手关节点。

终端构建交叉特征数据的具体方式可以为，终端基于M个目标关节点坐标构建至少一个坐标集合，并将每个坐标集合中的目标关节点之间的乘积确定为待识别图像对应的交叉特征数据，其中，每个坐标集合中包括至少一个目标关节点坐标，例如，针对目标关节点坐标（x₁，y₁）和（x₂，y₂），则基于上述两个坐标构建的交叉特征数据为（x_1*x₂，y_1*y₂），通过上述方式，终端可以基于不同目标坐标点的组合构建交叉特征数据。在一种实现方式中，为了减少运算量，可以选取具有代表性的目标关节点构建基础特征数据，例如，终端将左手关节点横坐标与左手关节点横坐标相乘、左手关节点横坐标与右手关节点横坐标相乘、左手关节点横坐标与右手关节点横坐标相乘的结果作为交叉特征数据。

需要说明的是，为了实现在不同尺寸图片上识别到的关节点统一量纲具有可比性，并且可以保持人物姿态不被变形仅仅会被同比例线性放缩，终端在基于M个目标关节点构建基础特征数据和交叉特征数据之前，还可以对M个目标关节点进行归一化处理，其中，针对任意一个横坐标x，对其进行归一化处理的具体公式可以为：

X = (x-min)/(max-x)，

其中，x表示输入任意一个横坐标，X表示归一化处理后的横坐标，min表示M个目标关节点坐标中的最小横坐标，max表示M个目标关节点坐标中的最大横坐标。

同理，针对任意一个纵坐标y，对其进行归一化处理的具体公式可以为：

Y = (y-Min)/(Max-y)，

其中，y表示输入任意一个纵坐标，Y 表示归一化处理后的纵坐标，Min表示M个目标关节点坐标中的最小纵坐标，Max表示M个目标关节点坐标中的最大纵坐标。

S105、终端将基础特征数据和交叉特征数据输入至人体姿态识别模型中，得到待识别图像对应的人体姿态。

本发明实施例中，终端构建基础特征数据和交叉特征数据后，可以将基础特征数据和交叉特征数据输入至训练完成的人体姿态识别模型中，得到待识别图像对应的人体姿态。

其中，终端对人体姿态识别模型进行训练的具体过程可以为，终端获取至少一张样本图像，每张样本图像中包括人物区域以及被标记的姿态信息，终端对每张样本图像进行关节点提取处理，得到样本图像对应的样本关节点信息，样本关节点信息包括人物区域中的N个样本关节点坐标以及每个样本关节点坐标的置信度，终端基于每个样本关节点坐标的置信度对N个样本关节点坐标进行筛选，得到M个目标样本关节点坐标，终端基于M个目标样本关节点坐标构建样本图像对应的样本基础特征数据和样本交叉特征数据，并将样本基础特征数据和样本交叉特征数据输入至初始姿态识别模型中进行迭代训练，以对初始姿态识别模型中的参数进行更新，当检测到参数更新后的初始姿态识别模型满足预设条件时，将参数更新后的初始姿态识别模型确定为人体姿态识别模型，预设条件可以为识别准确率高于预设准确率，其中，当模型输出的人体姿态与样本图像预先被标记的人体姿态相匹配时，确定模型输出准确，终端基于上述至少一张样本图像的姿态识别结果确定模型输出的准确率。

进一步的，终端可以基于识别出的人体姿态执行相应的指令，如将上述姿态方法应用于无人机领域，即在无人机中添加姿态识别装置，该装置可以基于识别的姿态控制无人机飞行，如跳跃姿态对应的指令为使无人机上升，举左手姿态对应的指令为使无人机左转，通过上述方式，可以基于姿态识别的方式实现对无人机的远程控制。或者，上述人体姿态识别方法也可以应用于监控领域，如获取到教室中的摄像头上传的监控图像，并对图像中各个学生的姿态进行识别，即可分析出学生是否认真听讲，如将抬头姿态的学生确定为认真听讲的学生，低头姿态的学生确定为不认真听讲的学生。

本发明实施例中，终端获取待识别图像，并对待识别图像进行关节点提取处理，得到待识别图像对应的关节点信息，终端基于关节点信息中每个关节点坐标的置信度对N个关节点坐标进行筛选，得到M个目标关节点坐标，并基于M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据；终端将基础特征数据和交叉特征数据输入至人体姿态识别模型中，得到待识别图像对应的人体姿态。通过实施上述方法，可以基于人物的关节点构建特征对人体姿态进行识别，提升人体姿态的识别效率以及识别准确率。

图2是本发明实施例中另一种基于人工智能的姿态识别方法的流程示意图，如图2所示，本实施例中的姿态识别方法的流程可以包括：

S201、终端获取待识别图像。

本发明实施例中，待识别图像中包括人物区域。

S202、终端对待识别图像进行关节点提取处理，得到待识别图像对应的关节点信息。

S203、终端基于每个关节点坐标的置信度对N个关节点坐标进行筛选，得到M个目标关节点坐标。

本发明实施例中，终端得到待识别图像对应的N个关节点坐标以及每个关节点坐标的置信度之后，基于每个关节点坐标的置信度对所述N个关节点坐标进行筛选，得到M个目标关节点坐标，M为正整数。

S204、终端基于M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据。

本发明实施例中，终端得到M个目标关节点坐标之后，将基于该M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据，其中，基础特征数据为各个目标关节点之间的距离，交叉特征数据为所述各个目标关节点坐标之间的组合。

S205、终端检测待识别图像所属的目标分类类别。

本发明实施例中，目标分类类别包括待识别图像中背景对应的类别、待识别图像中人物尺寸对应的类别、待识别图像中人物数量对应的类别中的至少一种，例如，背景对应的类别可以由背景光亮度确定，当背景光亮度大于预设光亮度时，将待识别图像确定为明亮类别，当背景光亮度小于预设光亮度时，将背景图像确定为阴暗类别，或者，当待识别图像中人物尺寸大于预设尺寸时，将待识别图像确定为大尺寸类别，当待识别图像中人物尺寸小于预设尺寸时，将待识别图像确定为小尺寸类别，或者，根据待识别图像确定为单人类别，或者多人类别。或者，待识别图像所属的目标分类类别也可以为多个类别的组合，如明亮多人小尺寸类别。

S206、终端将基础特征数据和交叉特征数据输入至目标分类类别对应的人体姿态识别模型中，得到待识别图像对应的人体姿态。

本发明实施例中，终端确定待识别图像所属的目标分类类别之后，可以将基础特征数据和交叉特征数据输入至目标分类类别对应的人体姿态识别模型中，得到待识别图像对应的人体姿态。

其中，目标分类类别对应的人体姿态识别模型为采用目标分类类别下的样本图像训练得到，即一个类别对应的人体姿态识别模型由该类别下的样本图像训练得到，如采用大量明亮类别的样本图像训练得到明亮类别对应的人体姿态识别模型，通过上述方式，可以使得人体识别模型对于图像识别更具有针对性，提升对于识别结果的准确率。

S207、终端确定待识别图像对应的人体姿态的置信度。

本发明实施例中，终端得到待识别图像对应的人体姿态之后，将确定待识别图像对应的人体姿态的置信度。

在第一种实现方式中，待识别图像为待识别视频中的一帧图像，终端确定人体姿态的置信度的具体方式可以为，终端获取待识别视频中与待识别图像相邻的至少一帧参考图像，并采用人体姿态识别模型对至少一帧参考图像进行识别，得到至少一个参考人体姿态；终端按照待识别视频中每帧图像的时间顺序对待识别图像对应的人体姿态以及至少一个参考人体姿态进行排序，得到人体姿态序列；终端检测人体姿态序列与预设人体姿态变化逻辑的匹配度，并根据匹配度确定待识别图像对应的人体姿态的置信度，其中，与待识别图像相邻的至少一帧参考图像可以为待识别视频中与待识别图像相邻的前I帧图像与后I帧图像，I为正整数，具体可以研发人员预先设定，预设人体姿态变化逻辑可以由研发人员预先设定，如因视频中不同帧的间隔时间较短，则预设人体姿态变化逻辑被设置为视频中相邻的至少U帧图像对应同一姿态，U为大于1的整数，当终端检测到姿态序列中某一姿态只单独出现一次时，则确定与预设姿态变化逻辑不匹配，终端基于姿态序列中每个人体姿态与预设人体姿态变化逻辑的匹配情况，来确定人体姿态序列与预设人体姿态变化逻辑的匹配度，匹配度可以为人体姿态序列中匹配的人体姿态的数量与总人体姿态的数量的比值。在一种实施场景中，终端获取到与待识别图像相邻的前4帧图像与后4帧图像，与待识别图像一起构成9帧图像，预设人体姿态变化逻辑为视频中相邻的至少3帧图像对应同一姿态，终端基于识别结果得到的人体姿态序列为“1抬头、2抬头、3抬头、4低头、5抬头、6低头、7下蹲、8站立、9下蹲”，则终端确定人体姿态“5抬头”和“8站立”不符合预设姿态变化逻辑，人体姿态序列与预设人体姿态变化逻辑的匹配度为7/9，进一步的，终端可以将待识别图像对应的人体姿态的置信度确定为7/9。通过上述方式，可以姿态变化逻辑确定识别出的人体姿态的置信度，提供了对识别结果进行准确性校验的具体方式，使得识别结果更符合逻辑。

在第二种实现方式中，终端确定人体姿态的置信度的具体方式可以为，终端获取待识别图像中每个像素点的像素值，并基于相邻像素点的像素值之间的差值确定待识别图像中的至少一个边界像素点，终端基于每个边界像素点的像素值对至少一个边界像素点进行筛选，得到用于描绘待识别图像中人物边界的目标边界像素点集合；终端计算目标边界像素点集合与预置数据库中存储的每个参考边界像素点集合的匹配度，并获取与所述目标边界像素点集合匹配度最高的目标参考边界像素点集合，终端确定目标参考边界像素点集合对应的目标参考人体姿态，并检测待识别图像对应的人体姿态与目标参考人体姿态之间的相似度；终端根据相似度确定待识别图像对应的人体姿态的置信度。其中，终端可以将与相邻像素点之间的像素值差值大于预设差值像素点确定为边界像素点，边界像素点用于描绘所述待识别图像中物体的边界，终端基于每个边界像素点的像素值对至少一个边界像素点进行筛选的具体方式可以为，终端获取待识别图像中人物区域的平均像素值，并计算各个边界像素点的像素值与平均像素值之间的差值，终端将差值小于预设阈值的边界像素点确定为目标边界像素点，可选的，待识别图像为待识别视频中的一帧图像，则人物区域具体可以基于相邻帧图像进行获取，终端将待识别图像与相邻帧图像中存在差异的区域确定为人物区域，目标边界像素点集合与预置数据库中存储的每个参考边界像素点集合的匹配度的计算方式可以为，终端对目标边界像素点集合中的目标边界像素点进行归一化处理，并计算归一化处理后的目标边界像素点集合中与参考边界像素点相匹配的目标边界像素点的数量，当像素点之间的距离小于预设距离时，可认为像素点之间相匹配，终端将目标边界像素点集合中相匹配的目标边界像素点的数量与总数量的比值确定为目标边界像素点集合与参考边界像素点集合的匹配度。终端基于上述方式确定目标参考边界像素点集合对应的目标参考人体姿态之后，将检测待识别图像对应的人体姿态与目标参考人体姿态之间的相似度，其中，不同人体姿态之间的相似度可以由研发人员预先设置，如人体姿态仰望和凝望之间的相似度为95%，人体姿态站立与下蹲的相似度为30%，终端可以基于该对应关系确定待识别图像对应的人体姿态与目标参考人体姿态之间的相似度，进一步的，终端可以将该相似度确定为待识别图像对应的人体姿态的置信度。

在第三种实现方式中，终端将第一种方式得到的置信度确定为第一置信度，第二种方式得到的置信度确定为第二置信度，终端对第一置信度和第二置信度进行综合处理，得到待识别图像对应的人体姿态的置信度。其中，综合处理可以包括加权处理和求和处理，即采用第一置信度对应的权重系数对第一置信度进行加权处理，得到第一加权置信度，以及采用第二置信度对应的权重系数对第二置信度进行加权处理，得到第二加权置信度，终端将第一加权置信度与第二加权置信度的和值确定为待识别图像对应的人体姿态的置信度。

S208、终端根据置信度确定针对待识别图像对应的人体姿态的处理方式。

本发明实施例中，终端确定待识别图像对应的人体姿态的置信度之后，可以基于置信度确定针对待识别图像对应的人体姿态的处理方式。

具体的，终端检测人体姿态的置信度是否大于预设置信度；若置信度小于预设置信度，则终端将待识别图像输入至少一个备选人体姿态识别模型中，得到至少一个备选人体姿态，并从至少一个备选人体姿态中筛选出待识别图像对应的目标人体姿态，该筛选的具体方式可以为筛选出备选人体姿态的众数作为待识别图像对应的目标人体姿态，例如，备选人体姿态为“站立、站立、下蹲、站立”，则备选人体姿态的众数为“站立”，终端将“站立”确定为待识别图像对应的目标人体姿态，或者，每个备选人体姿态识别模型也可以对应相应的权重系数，终端基于每个备选人体姿态识别模型的权重系数对每个备选人体姿态的初始特征值进行加权处理，得到每个备选人体姿态对应的特征值，终端将特征值最高的备选人体姿态确定为待识别图像对应的目标人体姿态，例如，每个备选人体姿态的初始特征值为1，备选人体姿态分别为“站立、下蹲、站立”，对应的备选人体姿态识别模型的权重系数分别为“05，0.2，0.3”，则“站立”对应的特征值为0.5*1+0.3*1=0.8，下蹲对应的特征值为0.2*1=0.2，终端将“站立”确定为待识别图像对应的目标人体姿态，其中，不同备选人体姿态识别模型的权重系数具体可以由模型历史的识别准确率进行确定，识别准确率越高，则权重系数越高，且在备选识别模型进行一次识别后，基于该识别结果是否准确对该备选识别模型的权重系数进行更新，不同的备选人体姿态识别模型可以为基于不同算法训练的模型，如备选人体姿态识别模型1为采用CNN算法进行训练得到的模型，备选人体识别模型2为采用LSTM算法进行训练得到的模型。

可选的，若置信度大于预设置信度，则终端基于识别出的人体姿态执行相应的指令，如基于该人体姿态构建相应的动画模型，指示无人机进行飞行等。在一种实施场景中，将上述姿态方法应用于无人机领域，即在无人机中添加姿态识别装置，该装置可以基于识别的姿态控制无人机飞行，如跳跃姿态对应的指令为使无人机上升，举左手姿态对应的指令为使无人机左转，通过上述方式，可以基于姿态识别的方式实现对无人机的远程控制。在一种实施场景中，将上述人体姿态识别方法应用于监控领域，如获取到教室中的摄像头上传的监控图像，并对图像中各个学生的姿态进行识别，即可分析出学生是否认真听讲，如将抬头姿态的学生确定为认真听讲的学生，低头姿态的学生确定为不认真听讲的学生。在一种实施场景中，将上述人体姿态识别方法应用与动画领域，即终端基于识别到的字体姿态构建相应的姿态的动画人物，实现对于人物的虚拟化显示。

本发明实施例中，终端获取待识别图像，并对待识别图像进行关节点提取处理，得到待识别图像对应的关节点信息，终端基于关节点信息中每个关节点坐标的置信度对N个关节点坐标进行筛选，得到M个目标关节点坐标，并基于M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据，终端将基础特征数据和交叉特征数据输入至人体姿态识别模型中，得到待识别图像对应的人体姿态，进一步的，终端计算得到的人体姿态的置信度，并基于置信度确定对于该人体姿态的处理方式，通过实施上述方法，可以基于人物的关节点构建特征对人体姿态进行识别，提升人体姿态的识别效率以及识别准确率，进一步的，本发明提供了对识别结果进行校验的具体方式，可以使得识别结果更为准确。

基于上述基于人工智能的姿态识别方法实施例的描述，本发明实施例还公开了一种基于人工智能的姿态识别装置。该基于人工智能的姿态识别装置可以是运行于终端中的一个计算机程序（包括程序代码），也可以是包含在终端中的一个实体装置。该基于人工智能的姿态识别装置可以执行图1-图2所示的方法。请参见图3，该基于人工智能的姿态识别装置30包括：获取模块301、处理模块302、筛选模块303、构建模块304、输入模块305。

获取模块301，用于获取待识别图像，所述待识别图像中包括人物区域；

处理模块302，用于对所述待识别图像进行关节点提取处理，得到所述待识别图像对应的关节点信息，所述关节点信息包括所述人物区域中的N个关节点坐标以及每个关节点坐标的置信度，所述N为正整数；

筛选模块303，用于基于所述每个关节点坐标的置信度对所述N个关节点坐标进行筛选，得到M个目标关节点坐标，所述M为正整数；

构建模块304，用于基于所述M个目标关节点坐标构建所述待识别图像对应的基础特征数据和交叉特征数据，所述基础特征数据为所述各个目标关节点之间的距离，所述交叉特征数据为所述各个目标关节点坐标之间的组合；

输入模块305，用于将所述基础特征数据和所述交叉特征数据输入至人体姿态识别模型中，得到所述待识别图像对应的人体姿态。

在一种实现方式中，筛选模块303具体用于：

基于所述N个关节点坐标中每个关节坐标数据的置信度计算置信度特征值，所述置信度特征值包括置信度均值、置信度方差、置信度中位数中的至少一种；

基于所述置信度特征值确定置信度阈值；

从所述N个关节点坐标中筛选出置信度高于所述置信度阈值的M个目标关节点坐标。

在一种实现方式中，构建模块304具体用于：

基于所述M个目标关节点坐标计算所述各个目标关节点之间的横坐标距离、纵坐标距离和欧式距离，并将所述各个目标关节点之间的横坐标距离、纵坐标距离以及欧式距离确定为所述待识别图像对应的基础特征数据；

基于所述M个目标关节点坐标构建至少一个坐标集合，所述每个坐标集合中包括至少一个目标关节点坐标；

将所述每个坐标集合中的目标关节点之间的乘积确定为所述待识别图像对应的交叉特征数据。

在一种实现方式中，输入模块305具体用于：

检测所述待识别图像所属的目标分类类别，所述目标分类类别包括所述待识别图像中背景对应的类别、待识别图像中人物尺寸对应的类别、待识别图像中人物数量对应的类别中的至少一种；

将所述基础特征数据和所述交叉特征数据输入至所述目标分类类别对应的人体姿态识别模型中，得到所述待识别图像对应的人体姿态，所述目标分类类别对应的人体姿态识别模型为采用目标分类类别下的样本图像训练得到。

在一种实现方式中，处理模块302具体用于：

确定所述待识别图像对应的人体姿态的置信度；

检测所述人体姿态的置信度是否大于预设置信度；

若否，则将所述待识别图像输入至少一个备选人体姿态识别模型中，得到至少一个备选人体姿态；

从所述至少一个备选人体姿态中筛选出所述待识别图像对应的目标人体姿态。

在一种实现方式中，处理模块302具体用于：

获取所述待识别视频中与所述待识别图像相邻的至少一帧参考图像；

采用所述人体姿态识别模型对所述至少一帧参考图像进行识别，得到至少一个参考人体姿态；

按照所述待识别视频中所述每帧图像的时间顺序对所述待识别图像对应的人体姿态以及所述至少一个参考人体姿态进行排序，得到人体姿态序列；

检测所述人体姿态序列与预设人体姿态变化逻辑的匹配度，并根据所述匹配度确定所述待识别图像对应的人体姿态的置信度。

在一种实现方式中，处理模块302具体用于：

获取所述待识别图像中每个像素点的像素值；

基于相邻像素点的像素值之间的差值确定所述待识别图像中的至少一个边界像素点，所述边界像素点用于描绘所述待识别图像中物体的边界；

基于每个边界像素点的像素值对所述至少一个边界像素点进行筛选，得到用于描绘所述待识别图像中人物边界的目标边界像素点集合；

计算所述目标边界像素点集合与预置数据库中存储的每个参考边界像素点集合的匹配度，并获取与所述目标边界像素点集合匹配度最高的目标参考边界像素点集合，

确定所述目标参考边界像素点集合对应的目标参考人体姿态，并检测所述待识别图像对应的人体姿态与所述目标参考人体姿态之间的相似度；

根据所述相似度确定所述待识别图像对应的人体姿态的置信度。

本发明实施例中，获取模块301获取待识别图像，处理模块302对待识别图像进行关节点提取处理，得到待识别图像对应的关节点信息，筛选模块303基于关节点信息中每个关节点坐标的置信度对N个关节点坐标进行筛选，得到M个目标关节点坐标，构建模块304基于M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据；输入模块305将基础特征数据和交叉特征数据输入至人体姿态识别模型中，得到待识别图像对应的人体姿态。通过实施上述方法，可以基于人物的关节点构建特征对人体姿态进行识别，提升人体姿态的识别效率以及识别准确率。并且，提供了对识别结果进行校验的具体方式，使得识别结果更为准确。

请参见图4，为本发明实施例提供的一种终端的结构示意图。如图4所示，该终端包括：至少一个处理器401，输入设备403，输出设备404，存储器405，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，存储器405可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以结合图3所描述的装置，存储器405中存储一组程序代码，且处理器401，输入设备403，输出设备404调用存储器405中存储的程序代码，用于执行以下操作：

处理器401，用于获取待识别图像，所述待识别图像中包括人物区域；

处理器401，用于对所述待识别图像进行关节点提取处理，得到所述待识别图像对应的关节点信息，所述关节点信息包括所述人物区域中的N个关节点坐标以及每个关节点坐标的置信度，所述N为正整数；

处理器401，用于基于所述每个关节点坐标的置信度对所述N个关节点坐标进行筛选，得到M个目标关节点坐标，所述M为正整数；

处理器401，用于基于所述M个目标关节点坐标构建所述待识别图像对应的基础特征数据和交叉特征数据，所述基础特征数据为所述各个目标关节点之间的距离，所述交叉特征数据为所述各个目标关节点坐标之间的组合；

处理器401，用于将所述基础特征数据和所述交叉特征数据输入至人体姿态识别模型中，得到所述待识别图像对应的人体姿态。

在一种实现方式中，处理器401，具体用于：

基于所述置信度特征值确定置信度阈值；

在一种实现方式中，处理器401，具体用于：

确定所述待识别图像对应的人体姿态的置信度；

检测所述人体姿态的置信度是否大于预设置信度；

在一种实现方式中，处理器401，具体用于：

获取所述待识别图像中每个像素点的像素值；

本发明实施例中，处理器401获取待识别图像，处理器401对待识别图像进行关节点提取处理，得到待识别图像对应的关节点信息，处理器401基于关节点信息中每个关节点坐标的置信度对N个关节点坐标进行筛选，得到M个目标关节点坐标，处理器401基于M个目标关节点坐标构建待识别图像对应的基础特征数据和交叉特征数据；处理器401将基础特征数据和交叉特征数据输入至人体姿态识别模型中，得到待识别图像对应的人体姿态。通过实施上述方法，可以基于人物的关节点构建特征对人体姿态进行识别，提升人体姿态的识别效率以及识别准确率。并且，提供了对识别结果进行校验的具体方式，使得识别结果更为准确。

本发明实施例中所述模块，可以通过通用集成电路，例如CPU（CentralProcessing Unit，中央处理器），或通过ASIC（Application Specific IntegratedCircuit，专用集成电路）来实现。

应当理解，在本发明实施例中，所称处理器401可以是中央处理模块 (CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线402可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互联（Peripheral Component，PCI）总线或扩展工业标准体系结构（ExtendedIndustry Standard Architecture，EISA）总线等，该总线402可以分为地点总线、数据总线、控制总线等，为便于表示，图4仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（RandomAccess Memory，RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于人工智能的姿态识别方法，其特征在于，所述方法包括：

获取待识别图像，所述待识别图像中包括人物区域；

2.根据权利要求1所述的方法，其特征在于，所述基于所述每个关节点坐标的置信度对所述N个关节点坐标进行筛选，得到M个目标关节点坐标，包括：

基于所述置信度特征值确定置信度阈值；

3.根据权利要求1所述的方法，其特征在于，所述基于所述M个目标关节点坐标构建所述待识别图像对应的基础特征数据和交叉特征数据，包括：

基于所述M个目标关节点坐标构建至少一个坐标集合，每个坐标集合中包括至少一个目标关节点坐标；

4.根据权利要求1所述的方法，其特征在于，所述将所述基础特征数据和所述交叉特征数据输入至人体姿态识别模型中，得到所述待识别图像对应的人体姿态，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述基础特征数据和所述交叉特征数据输入至人体姿态识别模型中，得到所述待识别图像对应的人体姿态之后，所述方法还包括：

确定所述待识别图像对应的人体姿态的置信度；

检测所述人体姿态的置信度是否大于预设置信度；

6.根据权利要求5所述的方法，其特征在于，所述确定所述待识别图像对应的人体姿态的置信度，包括：

获取待识别视频中与所述待识别图像相邻的至少一帧参考图像，所述待识别图像为所述待识别视频中的一帧图像；

按照所述待识别视频中每帧图像的时间顺序对所述待识别图像对应的人体姿态以及所述至少一个参考人体姿态进行排序，得到人体姿态序列；

7.根据权利要求5所述的方法，其特征在于，所述确定所述待识别图像对应的人体姿态的置信度，包括：

获取所述待识别图像中每个像素点的像素值；

8.一种基于人工智能的姿态识别方法装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，包括处理器、输入接口、输出接口和存储器，所述处理器、输入接口、输出接口和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。