CN108549863A

CN108549863A - 人体姿态预测方法、装置、设备及存储介质

Info

Publication number: CN108549863A
Application number: CN201810321191.XA
Authority: CN
Inventors: 张虹; 沈小勇; 贾佳亚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-09-18
Anticipated expiration: 2038-04-11
Also published as: US11275931B2; EP3779773A4; EP3779773B1; EP3779773A1; WO2019196581A1; CN108549863B; US20200311402A1

Abstract

本申请实施例公开了一种人体姿态预测方法、装置、设备及存储介质，属于图像处理领域。所述方法包括：通过基本神经网络对输入的目标图像进行预测，得到人体关键点的初始预测图；将所述人体关键点的初始预测图和人体结构图输入人体图神经网络；通过所述人体图神经网络采用所述人体关键点的初始预测图对所述人体结构图进行初始化，得到初始化后的人体结构图；通过所述人体图神经网络对所述初始化后的人体结构图进行迭代预测，得到最终预测图。本申请实施例能够充分利用人体图神经网络对人体关节之间的空间信息进行挖掘，从而在提取图像特征的基础上综合挖掘人体关节之间的空间信息，得到较为准确的人体姿态信息。

Description

人体姿态预测方法、装置、设备及存储介质

技术领域

本申请实施例涉及机器学习领域，特别涉及一种人体姿态预测方法、装置、设备及存储介质。

背景技术

人体姿态估计的目标是像素级别的精准预测人体关键点，比如识别图像中的头、胳膊肘、手、膝盖和脚等关键点位置。人体姿态估计还可以服务于许多更复杂的任务，比如人体行为估计、目标跟踪、人体交互等。

相关技术中提供了基于图像特征的预测方法。基于图像特征的方法主要目标是学习高质量的图像特征表达，然后将图像特征表达直接回归至相应的关键点位置。

但基于图像特征的预测方法只专注于挖掘图像特征，预测精度有限。

发明内容

本申请实施例提供了一种人体姿态预测方法、装置、设备及存储介质，可以解决基于图像特征的预测方法只专注于挖掘图像特征，预测精度有限的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种人体姿态预测方法，所述方法包括：

通过基本神经网络对输入的目标图像进行预测，得到人体关键点的初始预测图；

将所述人体关键点的初始预测图和人体结构图输入人体图神经网络，所述人体结构图中的每个节点分别对应一个人体关节，每条边表示连接相邻的人体关节；

通过所述人体图神经网络采用所述人体关键点的初始预测图对所述人体结构图进行初始化，得到初始化后的人体结构图；

通过所述人体图神经网络对所述初始化后的人体结构图进行迭代预测，得到最终预测图，所述最终预测图包括预测出的人体姿态。

根据本申请的另一方面，提供了一种人体姿态预测装置，所述装置包括：基本神经网络模块和人体图神经网络模块；

所述基本神经网络模块，用于对输入的目标图像进行预测，得到人体关键点的初始预测图；

所述人体图神经网络模块，用于获取所述人体关键点的初始预测图和人体结构图，所述人体结构图中的每个节点分别对应一个人体关节，每条边表示连接相邻的人体关节；

所述人体图神经网络模块，用于采用所述人体关键点的初始预测图对所述人体结构图进行初始化，得到初始化后的人体结构图；

所述人体图神经网络模块，用于对所述初始化后的人体结构图进行迭代预测，得到最终预测图，所述最终预测图包括预测出的人体姿态。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上所述的人体姿态预测方法。

根据本申请的另一方面，提供了一种电子设备，所述电子设备包括存储器和处理器；所述存储器存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上所述的人体姿态预测方法。

本申请实施例提供的技术方案带来的有益效果是：

通过将目标图像输入基本神经网络得到人体关节的初始预测图，采用人体关节的初始预测图对人体结构图进行初始化，通过人体图神经网络对初始化后的人体结构图进行迭代预测，得到最终预测图，能够充分利用人体图神经网络对人体关节之间的空间信息进行挖掘，从而在提取图像特征的基础上综合挖掘人体关节之间的空间信息，得到较为准确的人体姿态信息。本申请提供的方法在有关人体姿态估计的两个标准公开数据集(MPII和LSP)上均达到了最高水平。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的图像处理设备的结构框图；

图2是本申请一个示例性实施例提供的人体姿态预测方法的方法流程图；

图3是本申请一个示例性实施例提供的神经网络架构的示意图；

图4是本申请另一个示例性实施例提供的人体姿态预测方法的流程图；

图5是本申请另一个示例性实施例提供的多阶段预测融合网络的示意图；

图6是本申请另一个示例性实施例提供的人体图神经网络的示意图；

图7是本申请另一个示例性实施例提供的人体姿态预测方法的部分子步骤示意图；

图8是本申请一个示例性实施例提供的人体姿态预测方法所预测出的人体姿态的效果图；

图9是本申请一个示例性实施例提供的人体姿态预测装置的框图；

图10是本申请一个示例性实施例提供的电子设备的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种人体姿态预测方法，该人体姿态预测方法能够在目标图像中预测出像素级别的人体关键点，人体关键点通常包括人体关节。人体关键点包括但不限于：头、脖颈、肩头、手肘、手腕、腰部、臀部、胯关节、膝盖和脚腕中的至少一种。

该人体姿态预测方法可以服务于许多复杂任务，比如人体行为估计、运动目标跟踪、人机交互等等。典型的，该人体姿态预测方法能够应用于如下应用场景：

监控领域：

在监控摄像头拍摄到监控图像后，后端设备通过对监控图像中的人体姿态进行预测，实现运动目标跟踪。可选地，后端设备还能够通过预测出的人体姿态进行人体行为估计，比如在估计出的人体姿态为摔倒时，向值班人员发出报警提醒；或者，在估计出的人体姿态为偷窃行为时，向警务人员发出报警提醒。

人机交互：

以智能机器人为例，该智能机器人设置有相机和处理芯片。相机能够采集智能机器人的前方区域的区域图像，处理芯片能够识别区域图像中的人体姿态，并在识别出的人体姿态是预设姿态时，控制智能机器人做出预设响应。比如，当识别出的人体姿态是挥手姿态时，控制智能机器人做出欢迎动作。

无人驾驶：

在无人驾驶汽车上设置有相机和处理芯片，该相机能够采集无人驾驶汽车在行驶时的前方图像，处理芯片能够识别前方图像中的人体姿态。当前方图像中的人体姿态是摔倒时，控制无人驾驶汽车进行减速或刹停。

请参考图1，其示出了本申请一个示例性实施例提供的图像处理设备的结构框图。该图像处理设备可以实现成为监控系统、智能机器人或无人驾驶汽车上的组成部分，该图像处理设备可简称为设备或电子设备。该图像处理设备包括：处理器120、存储器140和相机160。

处理器120包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器120用于执行存储器140中存储的指令、代码、代码片段和程序中的至少一种。

处理器120与存储器140电性相连。可选地，处理器120通过总线与存储器140相连。存储器140存储有一个或多个指令、代码、代码片段和/或程序。该指令、代码、代码片段和/或程序在被处理器120执行时，用于实现如下实施例中提供的人体姿态预测方法。

处理器120还与相机160电性相连。可选地，处理器120通过总线与相机160相连。相机160是具有图像采集能力的传感器件。相机160还可称为摄像头、感光器件等其它名称。相机160具有连续采集图像或多次采集图像的能力。可选地，相机160设置在设备内部或设备外部。在一些实施例中，若目标图像是其它设备采集的图像，则相机160为可选部件。

本领域技术人员可以理解，图1中示出的结构并不构成对图像处理设备的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图2，其示出了本申请一个示例性实施例提供的人体姿态预测方法的流程图。本实施例以该方法应用于图1所示的图像处理设备中来举例说明。该方法包括：

步骤201，通过基本神经网络对输入的目标图像进行预测，得到人体关键点的初始预测图；

本实施例中的神经网络架构采用“基本神经网络320”+“人体图神经网络340”来实现人体姿态预测，如图3所示。基本神经网络320用于基于图像特征的预测对目标图像中的人体关键点进行预测，得到初始预测图。人体图神经网络340用于利用人体结构图360来挖掘目标图像中的人体关键点之间的空间信息，对初始预测图进行优化后得到最终预测图。

目标图像是需要进行人体姿态预测的图像。目标图像可以由设备自身采集，也可以由其它设备采集后发送给该设备。目标图像可以是一帧图像，也可以是视频帧序列中的多个图像帧中的一帧，本申请对此不加以限定。

人体关键点是对人体姿态具有代表性的关键点，该关键点可以是像素级别的点。通常，人体关键点包括人体关节所对应的点，包括但不限于：头、脖颈、肩头、手肘、手腕、臀部、膝盖和脚腕中的至少一种。本申请实施例以人体关键点包括头、脖颈、肩头、手肘、手腕、腰部、臀部、胯关节、膝盖和脚腕来举例说明。

可选地，初始预测图是多个，每个人体关键点对应各自的初始预测图，初始预测图中可以突出显示人体关键点的所在位置。比如，基本神经网络输出头对应的第一初始预测图、脖颈对应的第二初始预测图、左肩对应的第三初始预测图、右肩对应的第四初始预测图、左手肘对应的第五初始预测图、右手肘对应的第六初始预测图、左手腕对应的第七初始预测图、右手腕对应的第八初始预测图、腰部对应的第九初始预测图、臀部对应的第十初始预测图、左胯关节对应的第十一初始预测图、右胯关节对应的第十二初始预测图、左膝盖对应的第十三初始预测图、右膝盖对应的第十四初始预测图、左脚腕对应的第十五初始预测图、右脚腕对应的第十六初始预测图。每个初始预测图中采用亮点对人体关键点进行标识。

步骤202，将人体关键点的初始预测图和人体结构图输入人体图神经网络，人体结构图中的每个节点分别对应一个人体关节，每条边表示连接相邻的人体关节；

人体结构图是用于表示人体结构的树状无向图。可选地，该人体结构图包括k个节点，k为正整数，每个节点分别对应一个人体关节，每条边表示连接相邻的人体关节。

将人体结构图和每个人体关键点的初始预测图输入人体图神经网络进行预测。可选地，该人体图神经网络是递归神经网络。该人体图神经网络还可以是结构递归神经网络(recursive neural network)，该递归神经网络具有对树或图的递归结构的数据进行处理的能力。

步骤203，通过人体图神经网络采用人体关键点的初始预测图对人体结构图进行初始化，得到初始化后的人体结构图；

该人体图神经网络用于利用人体结构图来挖掘目标图像中的人体关键点之间的空间信息。可选地，设人体结构图包括k个节点，则该人体图神经网络利用k个人体关键点的初始预测图对人体结构图进行初始化，得到初始化后的人体结构框。

步骤204，通过人体图神经网络对初始化后的人体结构图进行迭代预测，得到最终预测图，最终预测图包括预测出的人体姿态。

人体图神经网络对初始化后的人体结构图进行T次迭代预测，在迭代过程中对目标图像中的人体关键点之间的空间信息进行挖掘，从而对初始预测图中的人体关键点进行修正，得到最终预测图。该最终预测图包括预测出的人体姿态，该最终预测图可以是人体图神经网络的输出和初始预测图的叠加结果。

综上所述，本实施例提供的方法，通过将目标图像输入基本神经网络得到人体关节的初始预测图，采用人体关节的初始预测图对人体结构图进行初始化，通过人体图神经网络对初始化后的人体结构图进行迭代预测，得到最终预测图，能够充分利用人体图神经网络对人体关节之间的隐藏信息进行挖掘，从而在提取图像特征的基础上综合挖掘人体关节之间的空间信息，得到较为准确的人体姿态信息。本申请提供的方法在有关人体姿态估计的两个标准公开数据集(MPII和LSP)上均达到了最高水平。

在基于图2的可选实施例中，本申请实施例提出了“多阶段预测融合(CascadePrediction Fusion，CPF)”+“人体图神经网络(Pose Graph Neural Network，PGNN)”的神经网络架构。也即在图3中的基础神经网络(Basic Network)中采用CPF进行预测。由于基础神经网络中存在多个预测阶段(Stark)，与相关技术中通常将前一个阶段的输出直接作为后一个阶段的输入的方式不同，CPF能够将前一个阶段的预测结果直接传递到后一个阶段，避免经过多次卷积和池化对信息的影响，请参考如下实施例。

请参考图4，其示出了本申请一个示例性实施例提供的人体姿态预测方法的流程图。本实施例以该方法应用于图1所示的设备中来举例说明。该方法包括：

步骤401，获取目标图像在基本神经网络的第i个预测阶段的第i个预测结果；

本实施例中的基本神经网络采用CPF。该基本神经网络包括多个预测阶段，对于每个预测阶段S_i，通过利用一个1*1卷积将第i个预测阶段的预测结果的通道提升到第i+1个预测阶段的预测特征图相同的大小，然后将第i个预测阶段的预测结果和第i+1个预测阶段的预测结果相加后，作为第i+2个预测阶段的输入，使得前一个预测阶段的预测结果能够直接传递给后一个预测阶段，从而实现预测信息的累积融合。

参考图5，以该基本神经网络包括8个预测阶段为例，目标图像作为基本神经网络的输入，先被输入基本神经网络的第一个预测阶段，该第一个预测阶段包括至少一个卷积层，该卷积层用于对目标图像进行卷积和池化，从而对人体关键点进行预测。

步骤402，将第i个预测结果通过1x1卷积核进行卷积处理以及非线性处理，得到处理后的第i个预测结果；

1x1卷积核用于将第i个预测结果的通道数提升至第i+1个预测结果的相同大小，实现跨通道的信息交互。可选地，设备采用1x1卷积核对第i个预测结果进行处理的过程包括：

子步骤1，将第i个预测结果通过1*1卷积核进行卷积处理，得到卷积结果；

子步骤2，将卷积结果进行批规范化得到规范化结果；

批规范化(Batch Normalization，BN)是为了克服神经网络加深导致难以训练而诞生的。随着神经网络的深度加深，训练起来就会越来越困难，收敛速度会很慢，常常会导致梯度弥散问题(Vanishing Gradient Problem)。BN一般用在非线性处理之前，对卷积结果做标准化，使得输出信号的各个维度的均值为0，方差为1，从而使每一层的输入有一个稳定的分布会有利于神经网络的训练。其中，BN为可选步骤。

子步骤3，将规范化结果进行非线性处理，得到处理后的第i个预测结果。

非线性处理(Rectified Linear Units，ReLU)是一个像素级别的非线性操作，用于将卷积结果引入非线性，并将预测结果中所有小于0的像素值设置为零。

参考图5，在第1个预测阶段得到第1个预测结果pred₁后，将第1个预测结果pred₁通过1*1卷积处理、批规范化和非线性处理后，得到处理后的第1个预测结果pred₁。

步骤403，将第i个预测结果输入基本神经网络的第i+1个预测阶段，得到第i+1个初始预测结果；

步骤404，将处理后的第i个预测结果和第i+1个初始预测结果进行元素相加，得到第i+1个预测结果；

参考图5，将第1个预测结果pred₁输入第2个预测阶段(包括至少一个卷积层)，得到第2个初始预测结果后，将处理后的第1个预测结果pred₁和第2个初始预测结果进行元素相加(Elem-wise Sum)，得到第2个预测结果pred₂。

步骤405，重复上述过程，直至i+1等于n时将第n个预测结果确定为人体关键点的初始预测图；

参考图5，设备将第2个预测结果pred₂进行1*1卷积、批规范化和非线性处理，得到处理后的第2个预测结果，同时将第2个预测结果pred₂输入第3个预测阶段(包括至少一个卷积层)，得到第3个初始预测结果，然后将处理后的第2个预测结果和第3个初始预测结果相加后，得到第3个预测结果pred₃；将第3个预测结果pred₃进行1*1卷积、批规范化和非线性处理，得到处理后的第3个预测结果，同时将第3个预测结果pred₃输入第4个预测阶段(包括至少一个卷积层)，得到第4个初始预测结果，然后将处理后的第3个预测结果和第4个初始预测结果相加后，得到第4个预测结果pred₄。依次类推，将第7个预测结果pred₇进行1*1卷积、批规范化和非线性处理，得到处理后的第7个预测结果，同时将第7个预测结果pred₃输入第8个预测阶段(包括至少一个卷积层)，得到第8个初始预测结果，然后将处理后的第7个预测结果和第8个初始预测结果相加后，得到第8个预测结果pred₈。

其中，第8个预测结果作为基本神经网络对人体关键点的初始预测图。可选地，由于人体关键点可能为多个(比如16个)，则初始预测图也可以为16个。

步骤406，将人体关键点的初始预测图和人体结构图输入人体图神经网络，人体结构图中的每个节点分别对应一个人体关节，每条边表示连接相邻的人体关节；

人体结构图是用于表示人体结构的树状无向图。可选地，该人体结构图包括k个节点，k为正整数，每个节点分别对应一个人体关节，每条边表示连接相邻的人体关节。人体结构图是根据人体结构所建立的树状无向图，不同实施例可采用不同的人体结构图。

在一个可选的实施例中，参考图6(a)，人体结构图可包括16个节点，代表头部的节点与代表颈部的节点相连，代表颈部的节点与代表肩部的节点相连，代表肩部的节点与代表肘部的节点相连，代表肘部的节点与代表腕部的节点相连，代表颈部的节点还与代表腰部的节点相连，代表腰部的节点与代表臀部的节点相连，代表臀部的节点还与代表胯部的节点相连，代表胯部的节点还与代表膝盖的节点相连，代表膝盖的节点还与代表脚腕的节点相连。

在另一个可选的实施例中，参考图6(b)，考虑到同一侧的人体关节在运动时也存在联系，人体结构图中代表左手腕的节点还可与代表左肩的节点相连，代表左肩的节点还可与代表左胯的节点相连，代表左胯的节点还可与代表左脚腕的节点相连；人体结构图中代表右手腕的节点还可与代表右肩的节点相连，代表右肩的节点还可与代表右胯的节点相连，代表右胯的节点还可与代表右脚腕的节点相连。

设备可采用图6(a)或图6(b)所示出的任意一个人体结构图，本实施例对此不加以限定。

在基础神经网络620预测出各个人体关键点的初始预测图之后，将人体结构图640和每个人体关键点的初始预测图输入人体图神经网络660进行预测。可选地，该人体图神经网络(简称PGNN)是递归神经网络。可选地，该人体图神经网络包括门控循环单元(GatedRecurrent Unit，GRU)，该GRU中包括多个卷积核。

步骤407，对于人体结构图中的每个节点，采用与节点对应的人体关键点的初始预测图作为节点的输入进行初始化，得到初始化的人体结构图；

对于人体结构图640中的每个节点，人体图神经网络660采用与该节点对应的人体关键点的初始预测图作为该节点的输入进行初始化，比如，将头部的初始预测图作为与头部节点对应的输入进行初始化，将颈部的初始预测图作为与颈部节点对应的输入进行初始化，从而得到初始化的人体结构图。

可选地，人体结构图640中的每个节点的状态采用下面的方法进行初始化：

其中，h_k代表人体结构图中的第k个节点，K代表人体结构图640中的节点个数，比如16个。F代表基础神经网络，θ代表神经网络中的权重参数集，I是原始输入图像。

步骤408，对人体结构图中的每个节点，在每次迭代更新前通过卷积核对节点的相邻节点进行信息搜集，得到相邻节点信息；

人体结构图640用于挖掘目标图像中各个人体关节之间的空间信息。在通过GRU对人体结构图640进行迭代预测前，需要对人体结构图640中的每个节点进行相邻节点的信息搜集。也即在GRU开始第t次的更新状态之前，对每个节点先从相邻节点搜集第t-1次更新的状态，t为大于1的正整数。可选地，利用一个卷积核在相邻节点间传递信息。每个节点搜集的相邻节点信息如下公式所示：

其中，k是第k个节点，k’是第k个节点的相邻节点，W_p,k是神经网络中的权重参数，b_p，k是第k个节点的偏移，Ω是相连边的集合。h_k ^t-1表示第k个节点在第t-1次更新时的状态。

步骤409，通过门控循环单元根据相邻节点信息对节点的状态进行更新；

在每个节点搜集完信息之后，通过GRU根据相邻节点信息对每个节点的状态进行更新。GRU包括更新门(update gate)和重置门(reset gate)。更新过程可以采用如下公式进行表示：

其中，z代表更新门，r代表重置门，W_z,k,U_z,k是GRU中权重参数，b_z,k是GRU中第k个节点的偏移，h_k ^t表示第k个节点在第t次更新时的状态，表示第k个节点在第t次更新时的候选隐含状态。双曲正切函数tanh是激活函数。

步骤410，经过T次更新后，将门控循环单元的输出结果和初始预测图进行叠加，得到最终预测图。

经过T次更新后，GRU将会对初始预测图进行优化，得到更为准确的最终预测图。可选的，整个神经网络最终输出是最终预测图加入目标图像。

本实施例提供的方法，还通过采用CPF作为基础神经网络，将前一阶段的预测结果融合至后一阶段的预测结果中，充分利用每个阶段的预测结果，从而能够提高基础神经网络在基于图像特征预测人体关键点时的准确性。

本实施例提供的方法，还通过利用1*1卷积核对前一预测阶段的预测结果的通道提升到后一预测节点的预测结果相同的大小，实现了不同预测阶段之间的信息传输。同时，该1*1卷积核还可以将没用的信息或者噪声进行过滤，从而保留感兴趣的信息向下传递。

本实施例提供的方法，还通过批规范化来解决整个神经网络中的卷积层太多时的梯度弥散问题。

基于图2或图5的可选实施例中，由于整个神经网络架构是一个端到端的结构，还可以实现端到端的训练。上述神经网络结构的训练方法可以采用如下方法，该训练方法可以由图1所示的设备来执行，也可以由其它具有计算能力的设备来执行，对此不加以限定。如图7所示:

步骤701，获取训练集，训练集中的每个样本图像对应有标定结果；

训练集包括多个样本图像，每个样本图像中具有至少一个人物。可选地，不同的样本图像中的人物姿态各不相同。同时，训练集中的每个样本图像还对应有标定结果，标定结果是对样本图像中的人物关键点进行标定后的结果。

步骤702，将样本图像输入基本神经网络和人体图神经网络得到预测结果；

将样本图像输入基本神经网络和人体图神经网络后，能够得到基本神经网络和人体图神经网络对样本图像中的人物姿态的预测结果，也即最终预测图。

步骤703，计算预测结果和标定结果的欧几里得距离，根据欧几里得距离对基本神经网络和人体图神经网络中的参数进行训练。

可选地，以使如下函数最小化为训练目标进行训练：

其中，(x，y)为像素位置，P(x，y)是人体关键点的标定结果，是人体图神经网络对人体关键点的预测结果。欧几里得距离L₂表示预测结果和标定结果之间的误差。可选地，采用随时间的反向传播算法(Back Propagation Though Time，BPTT)对基本神经网络和人体图神经网络进行计算。

本实施例提供的方法，还通过以欧几里得距离作为训练时的误差计算公式，能够快速计算出预测结果和标定结果之间的误差，进而通基于该误差采用随时间的反向传播算法快速对整个神经网络架构进行训练和优化。

图8示出了利用本申请提供的技术方案，对一些目标图形进行预测后的人体姿态图像。本申请技术方案能够准确预测出一些形变比较大或者是带有遮挡的人体姿势，尤其是在运动场景下，本申请的方案能够很好地解决大规模外形变化的情况。

图9示出了本申请一个示例性实施例提供的人体姿态估计装置的结构框图。该人体姿态估计装置可以通过软件、硬件或者两者的结合实现成为图像处理设备的全部或一部分。该装置包括：基本神经网络模块920和人体图神经网络模块940；

所述基本神经网络模块920，用于对输入的目标图像进行预测，得到人体关键点的初始预测图；

所述人体图神经网络模块940，用于获取所述人体关键点的初始预测图和人体结构图，所述人体结构图中的每个节点分别对应一个人体关节，每条边表示连接相邻的人体关节；

所述人体图神经网络模块940，用于采用所述人体关键点的初始预测图对所述人体结构图进行初始化，得到初始化后的人体结构图；

所述人体图神经网络模块940，用于对所述初始化后的人体结构图进行迭代预测，得到最终预测图，所述最终预测图包括预测出的人体姿态。

在一个可选的实施例中，所述人体图神经网络模块940，用于对于所述人体结构图中的每个节点，采用与所述节点对应的人体关键点的初始预测图作为所述节点的输入进行初始化，得到初始化的人体结构图；

其中，所述人体关键点包括：头、脖、肩、手肘、手腕、腰部、臀部、胯部、膝盖和脚腕中的至少一种。

在一个可选的实施例中，所述人体图神经网络模块940中包括卷积核和门控循环单元；

所述人体图神经网络模块，用于对所述人体结构图中的每个节点，在每次迭代更新前通过所述卷积核对所述节点的相邻节点进行信息搜集，得到相邻节点信息；通过所述门控循环单元根据所述相邻节点信息对所述节点的状态进行更新，所述门控循环单元用于挖掘所述人体结构图中相邻节点之间的空间信息；经过T次更新后，得到所述最终预测图。

在一个可选的实施例中，所述基本神经网络模块920包括多阶段预测融合网络，所述多阶段预测融合网络包括n个预测阶段，n为正整数；

所述将目标图像输入基本神经网络得到人体关键点的初始预测图，包括：

所述基本神经网络模块920，用于获取所述目标图像在所述基本神经网络的第i个预测阶段的第i个预测结果，i为起始值为1的正整数；将所述第i个预测结果通过1x1卷积核进行卷积处理以及非线性处理，得到处理后的第i个预测结果；将所述第i个预测结果输入所述基本神经网络的第i+1个预测阶段，得到第i+1个初始预测结果；将所述处理后的第i个预测结果和所述第i+1个初始预测结果进行元素相加，得到第i+1个预测结果；重复上述过程，直至i+1等于n时将第n个预测结果确定为所述人体关键点的初始预测图。

在一个可选的实施例中，所述基本神经网络模块920，用于将所述第i个预测结果通过1x1卷积核进行卷积处理，得到卷积结果；将所述卷积结果进行批规范化得到规范化结果；将所述规范化结果进行非线性处理，得到处理后的第i个预测结果。

在一个可选的实施例中，所述装置还包括：训练模块960，用于获取训练集，所述训练集中的每个样本图像对应有标定结果；将所述样本图像输入所述基本神经网络模块920和所述人体图神经网络模块940得到预测结果；计算所述预测结果和所述标定结果的欧几里得距离，根据所述欧几里得距离对所述基本神经网络模块920和所述人体图神经网络模块940中的参数进行训练。

需要说明的是：上述实施例提供的人体姿态预测装置在预测人体姿态时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人体姿态预测装置与人体姿态预测方法的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，示出了本发明一个示例性实施例提供的电子设备1000的结构框图。该电子设备1000可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1000还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的人体姿态预测方法。

在一些实施例中，电子设备1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置电子设备1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在电子设备1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在电子设备1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位电子设备1000的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为电子设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以电子设备1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测电子设备1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对电子设备1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在电子设备1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在电子设备1000的侧边框时，可以检测用户对电子设备1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置电子设备1000的正面、背面或侧面。当电子设备1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在电子设备1000的前面板。接近传感器1016用于采集用户与电子设备1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对电子设备1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方法实施例提供的人体姿态预测方法。

本申请还提供了一种计算机程序产品，当其在电子设备上运行时，使得电子设备执行上述各个方法实施例所述的人体姿态预测方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人体姿态预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述人体图神经网络采用所述人体关键点的初始预测图对所述人体结构图进行初始化，得到初始化后的人体结构图，包括：

对于所述人体结构图中的每个节点，采用与所述节点对应的人体关键点的初始预测图作为所述节点的输入进行初始化，得到初始化的人体结构图；

3.根据权利要求1所述的方法，其特征在于，所述人体图神经网络中包括卷积核和门控循环单元；

所述通过所述人体图神经网络对所述初始化后的人体结构图进行迭代预测，得到最终的人体结构图，包括：

对所述人体结构图中的每个节点，在每次迭代更新前通过所述卷积核对所述节点的相邻节点进行信息搜集，得到相邻节点信息；

通过所述门控循环单元根据所述相邻节点信息对所述节点的状态进行更新，所述门控循环单元用于挖掘所述人体结构图中相邻节点之间的空间信息；

经过T次更新后，得到所述最终预测图。

4.根据权利要求1至3任一所述的方法，其特征在于，所述基本神经网络包括多阶段预测融合网络，所述多阶段预测融合网络包括n个预测阶段，n为正整数；

所述通过基本神经网络对输入的目标图像进行预测，得到人体关键点的初始预测图，包括：

获取所述目标图像在所述基本神经网络的第i个预测阶段的第i个预测结果，i为起始值为1的正整数；

将所述第i个预测结果通过1x1卷积核进行卷积处理以及非线性处理，得到处理后的第i个预测结果；

将所述第i个预测结果输入所述基本神经网络的第i+1个预测阶段，得到第i+1个初始预测结果；

将所述处理后的第i个预测结果和所述第i+1个初始预测结果进行元素相加，得到第i+1个预测结果；

重复上述过程，直至i+1等于n时将第n个预测结果确定为所述人体关键点的初始预测图。

5.根据权利要求4所述的方法，其特征在于，所述将所述第i个预测结果通过1x1卷积核进行卷积处理以及非线性处理，得到处理后的第i个预测结果，包括：

将所述第i个预测结果通过1x1卷积核进行卷积处理，得到卷积结果；

将所述卷积结果进行批规范化得到规范化结果；

将所述规范化结果进行非线性处理，得到处理后的第i个预测结果。

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

获取训练集，所述训练集中的每个样本图像对应有标定结果；

将所述样本图像输入所述基本神经网络和所述人体图神经网络得到预测结果；

计算所述预测结果和所述标定结果的欧几里得距离，根据所述欧几里得距离对所述基本神经网络和所述人体图神经网络中的参数进行训练。

7.一种人体姿态预测装置，其特征在于，所述装置包括：基本神经网络模块和人体图神经网络模块；

8.根据权利要求7所述的装置，其特征在于，

所述人体图神经网络模块，用于对于所述人体结构图中的每个节点，采用与所述节点对应的人体关键点的初始预测图作为所述节点的输入进行初始化，得到初始化的人体结构图；

9.根据权利要求7所述的装置，其特征在于，所述人体图神经网络模块中包括卷积核和门控循环单元；

10.根据权利要求7至9任一所述的装置，其特征在于，所述基本神经网络模块包括多阶段预测融合网络，所述多阶段预测融合网络包括n个预测阶段，n为正整数；

所述基本神经网络模块，用于获取所述目标图像在所述基本神经网络的第i个预测阶段的第i个预测结果，i为起始值为1的正整数；将所述第i个预测结果通过1x1卷积核进行卷积处理以及非线性处理，得到处理后的第i个预测结果；将所述第i个预测结果输入所述基本神经网络的第i+1个预测阶段，得到第i+1个初始预测结果；将所述处理后的第i个预测结果和所述第i+1个初始预测结果进行元素相加，得到第i+1个预测结果；重复上述过程，直至i+1等于n时将第n个预测结果确定为所述人体关键点的初始预测图。

11.根据权利要求10所述的装置，其特征在于，

所述基本神经网络模块，用于将所述第i个预测结果通过1x1卷积核进行卷积处理，得到卷积结果；将所述卷积结果进行批规范化得到规范化结果；将所述规范化结果进行非线性处理，得到处理后的第i个预测结果。

12.根据权利要求7至11任一所述的装置，其特征在于，所述装置还包括：

训练模块，用于获取训练集，所述训练集中的每个样本图像对应有标定结果；将所述样本图像输入所述基本神经网络模块和所述人体图神经网络模块得到预测结果；计算所述预测结果和所述标定结果的欧几里得距离，根据所述欧几里得距离对所述基本神经网络模块和所述人体图神经网络模块中的参数进行训练。

13.一种电子设备，其特征在于，所述电子设备的应用程序提供有虚拟环境，所述电子设备用于在所述虚拟环境中拾取物品，所述电子设备包括存储器和处理器；

所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至6任一所述的人体姿态预测方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至6任一所述的人体姿态预测方法。