CN110287764B

CN110287764B - 姿势预测方法、装置、计算机设备和存储介质

Info

Publication number: CN110287764B
Application number: CN201910370678.1A
Authority: CN
Inventors: 胡瑞珍; 黄惠; 张皓
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2022-01-11
Anticipated expiration: 2039-05-06
Also published as: CN110287764A; US20210248808A1; WO2020223940A1; US11348304B2

Abstract

本申请涉及一种姿势预测方法、装置、计算机设备和存储介质。所述方法包括：获取对三维场景扫描得到的场景图像，获取场景图像中的动作区域，并获取与动作区域对应的动作标签，其中，动作标签用于表示人体在动作区域中所发生的动作，根据动作区域以及动作标签获取姿势数据，根据姿势数据获取人体姿势模型，并根据动作区域和姿势数据将人体姿势模型映射到三维场景中。通过获取场景图像中的动作区域，从而得到与动作区域对应的动作标签，根据动作区域和动作标签来进行姿势预测，由于动作标签用于表示人体在动作区域中所发生的动作，结合动作标签和动作区域来进行姿势预测，可以提高姿势预测的准确性。

Description

姿势预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种姿势预测方法、装置、计算机设备和存储介质。

背景技术

计算机视觉是指使用计算机来代替人眼对目标进行识别、跟踪和测量等视觉处理，并进一步做图像处理，使得处理后的图像更适合计算机设备理解或更适合传送给仪器检测。计算机视觉的应用领域非常广泛，计算机设备可以通过扫描等方式得到三维场景对应的图像，当图像中存在有人像时，为了使计算机能够理解图像中的内容，可以预测出图像中人像的姿势。常用的人像姿势的预测方法可以有姿势估计、动作识别、交互识别、功能性预测等。

然而，目前的姿势预测方法存在姿势预测不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种姿势预测方法、装置、计算机设备和存储介质，可以提高姿势预测的准确性。

一种姿势预测方法，所述方法包括：

获取对三维场景扫描得到的场景图像；

获取所述场景图像中的动作区域，并获取与所述动作区域对应的动作标签；其中，所述动作标签用于表示人体在所述动作区域中所发生的动作；

根据所述动作区域以及所述动作标签获取姿势数据；

根据所述姿势数据获取人体姿势模型，并根据所述动作区域和姿势数据将所述人体姿势模型映射到所述三维场景中。

在其中一个实施例中，所述获取所述场景图像中的动作区域，并获取与所述动作区域对应的动作标签，包括：

分别获取预设动作标签；

计算所述场景图像中，发生各个所述预设动作标签对应的动作的动作概率；

根据所述动作概率获取所述场景图像中的动作区域，并根据所述动作概率从所述预设动作标签中获取动作标签。

在其中一个实施例中，所述根据所述动作概率获取所述场景图像中的动作区域，包括；

根据所述动作概率以及所述预设动作标签，检测所述场景图像中的动作接触区域；

获取所述场景图像中与所述动作接触区域对应的接触物体，并获取所述接触物体对应的蒙版图像；

根据所述动作接触区域以及所述蒙版图像，获取所述场景图像中的动作区域。

在其中一个实施例中，所述根据所述动作区域以及所述动作标签获取姿势数据，包括：

根据所述动作标签获取姿势类型，并根据所述动作区域以及所述动作标签，获取包围框坐标；

根据所述姿势类型以及所述包围框坐标计算出姿势方向；

根据所述包围框坐标以及所述姿势方向，获取所述人体姿势模型在所述场景图像中的姿势数据。

在其中一个实施例中，所述根据所述动作标签获取姿势类型，包括：

获取预先设置的姿势类型；

分别计算所述动作标签属于各个所述预先设置的姿势类型的姿势概率；

根据所述姿势概率，从所述预先设置的姿势类型中获取与所述动作标签对应的姿势类型。

在其中一个实施例中，所述根据所述动作区域以及所述动作标签，获取包围框坐标，包括：

获取所述场景图像中每一个所述动作区域对应的参考包围框坐标；分别计算出各个所述参考包围框坐标的置信度值；

根据所述置信度值从所述参考包围框坐标中获取每一个所述动作区域对应的包围框坐标。

在其中一个实施例中，所述根据所述姿势类型以及所述包围框坐标计算出姿势方向，包括：

获取与所述姿势类型对应的参考方向；

根据所述参考方向以及所述包围框坐标计算旋转角度；

根据所述参考方向以及所述旋转角度计算出姿势方向。

一种姿势预测装置，所述装置包括：

图像获取模块，用于获取对三维场景扫描得到的场景图像；

动作区域获取模块，用于获取所述场景图像中的动作区域，并获取与所述动作区域对应的动作标签；其中，所述动作标签用于表示人体在所述动作区域中所发生的动作；

姿势数据获取模块，用于根据所述动作区域以及所述动作标签获取姿势数据；

模型映射模块，用于根据所述姿势数据获取人体姿势模型，并根据所述动作区域和姿势数据将所述人体姿势模型映射到所述三维场景中。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取对三维场景扫描得到的场景图像；

根据所述动作区域以及所述动作标签获取姿势数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取对三维场景扫描得到的场景图像；

根据所述动作区域以及所述动作标签获取姿势数据；

上述姿势预测方法、装置、计算机设备和存储介质，通过获取对三维场景扫描得到的场景图像，获取场景图像中的动作区域，并获取与动作区域对应的动作标签，其中，动作标签用于表示人体在动作区域中所发生的动作，根据动作区域以及动作标签获取姿势数据，根据姿势数据获取人体姿势模型，并根据动作区域和姿势数据将人体姿势模型映射到三维场景中。通过获取场景图像中的动作区域，从而得到与动作区域对应的动作标签，根据动作区域和动作标签来进行姿势预测，由于动作标签用于表示人体在动作区域中所发生的动作，结合动作标签和动作区域来进行姿势预测，可以提高姿势预测的准确性。

附图说明

图1为一个实施例中姿势预测方法的应用环境图；

图2为一个实施例中姿势预测方法的流程示意图；

图3为一个实施例中获取动作区域的方法流程示意图；

图4为一个实施例中输出动作区域的示意图；

图5为另一个实施例中输出动作区域的示意图；

图6为一个实施例中预设动作标签的示意图；

图7为一个实施例中输出包围框坐标置信度值的示意图；

图8为一个实施例中姿势预测装置的结构框图；

图9为一个实施例中姿势数据获取模块的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的姿势数据方法，可以应用于如图1所示的应用环境中。如图1所示，该应用环境包括计算机设备110。计算机设备110可以获取对三维场景120扫描得到的场景图像，计算机设备110可以获取场景图像中的动作区域，并获取与动作区域对应的动作标签，其中，动作标签可以用于表示人体在动作区域中所发生的动作。计算机设备110可以根据动作区域以及动作标签获取姿势数据。计算机设备110可以根据姿势数据获取人体姿势模型，并根据动作区域和姿势数据将人体姿势模型映射到三维场景120中。其中，计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、无人飞行器、平板电脑和便携式可穿戴设备等。

在一个实施例中，如图2所示，提供了一种姿势预测方法，包括以下步骤：

步骤202，获取对三维场景扫描得到的场景图像。

三维场景可以是虚拟环境中的三维场景，例如游戏环境中的三维场景。计算机设备可以对虚拟环境中的三维场景进行扫描，从而得到三维数据。其中，三维数据用于表示该三维场景完整的三维结构。场景图像可以是一个二维的RGBD(Red、Green、Blue、Depth，颜色深度)图像。场景图像可以用于表示三维场景降维后的顶视图。

计算机设备在对三维场景进行扫描后得到三维数据，计算机设备可以使用自顶向下的降维形式来获取整个三维场景的结构，得到二维的顶视图，即场景图像。

步骤204，获取场景图像中的动作区域，并获取与动作区域对应的动作标签；其中，动作标签用于表示人体在动作区域中所发生的动作。

动作区域可以用于表示场景图像中发生动作的区域。例如，场景图像中有椅子时，发生的动作可以是坐椅子，动作区域可以是椅子所在的区域以及椅子周围的区域。动作标签可以用于表示人体在动作区域中所发生的动作，例如，动作标签可以是坐椅子、躺沙发等。

计算机设备在获取到场景图像中，可以进一步获取场景图像中的动作区域。其中，场景图像中可以有一个动作区域，还可以有多个动作区域，在此不做限定。每一个动作区域都有对应的动作标签，例如，椅子所在的区域以及椅子周围的区域为一个动作区域，对应的动作标签可以是“坐椅子”。计算机设备可以获取场景图像中的动作区域，并获取与动作区域对应的动作标签。例如，计算机设备获取到场景图像中的动作区域包括动作区域1、动作区域2以及动作区域3，计算机设备可以获取与动作区域1对应的动作标签是“坐椅子”，与动作区域2对应的动作标签是“躺沙发”，与动作区域3对应的动作标签是“躺床”。

步骤206，根据动作区域以及动作标签获取姿势数据。

姿势数据可以用于表示人体的姿势类型、姿势方向、姿势位置等数据，在此不做限定。计算机设备在获取到动作区域以及与动作区域对应的动作标签后，可以根据动作区域和动作标签获取姿势数据。

步骤208，根据姿势数据获取人体姿势模型，并根据动作区域和姿势数据将人体姿势模型映射到三维场景中。

人体姿势模型可以包含有站着的人体姿势模型、坐着的人体姿势模型、躺着的人体姿势模型，还可以包含有其他姿势的人体姿势模型，在此不做限定。

计算机设备可以根据姿势数据来获取人体姿势模型。例如，计算机设备获取到的姿势数据中人体的姿势类型为站立，计算机设备可以获取对应的人体姿势模型为站着的人体姿势模型。

计算机设备可以根据动作区域查找到人体姿势模型应该映射到三维场景中的位置，从而将人体姿势模型映射到三维场景中。计算机设备可以根据姿势数据得到人体姿势模型的方向、位置坐标等信息，并按照得到的人体姿势模型的方向、位置坐标等信息调整映射到三维场景中的人体姿势模型的方向、位置坐标等。

在本实施例中，计算机设备通过获取对三维场景扫描得到的场景图像，获取场景图像中的动作区域，并获取与动作区域对应的动作标签，其中，动作标签用于表示人体在动作区域中所发生的动作，根据动作区域以及动作标签获取姿势数据，根据姿势数据获取人体姿势模型，并根据动作区域和姿势数据将人体姿势模型映射到三维场景中。通过获取场景图像中的动作区域，从而得到与动作区域对应的动作标签，根据动作区域和动作标签来进行姿势预测，由于动作标签用于表示人体在动作区域中所发生的动作，结合动作标签和动作区域来进行姿势预测，可以提高姿势预测的准确性。

在一个实施例中，提供的一种姿势预测方法还可以包括获取动作区域以及动作标签的过程，具体过程包括：分别获取预设动作标签；计算场景图像中，发生各个预设动作标签对应的动作的动作概率；根据动作概率获取场景图像中的动作区域，并根据动作概率从预设动作标签中获取动作标签。

预设动作标签可以是预先设置好的动作标签。其中，预设动作标签可以是用户通过计算机设备预先设置好的，预设动作标签可以有多个，例如，预设动作标签可以是“坐椅子”、“用电脑”、“躺沙发”、“看电视”、“交谈”等动作标签。

计算机设备可以将场景图像划分为多个区域。具体的，计算机设备可以根据场景图像中的物体，将场景图像划分为多个区域。计算机设备可以计算出每一个区域中发生与预设动作标签对应的动作的动作概率。计算机设备可以根据计算出的动作概率获取场景图像中的动作区域。

例如，计算机设备根据场景图像中的物体，将场景图像划分为3个区域，分别是区域1、区域2和区域3，计算机设备获取到的预设动作标签分别是“坐椅子”、“用电脑”和“躺沙发”，计算机设备可以计算出区域1中发生“坐椅子”的概率为20％、区域1中发生“用电脑”的概率为80％、区域1中发生“躺沙发”的概率10％；计算机设备还可以计算出区域2中发生“坐椅子”的概率为50％、区域2中发生“用电脑”的概率为5％、区域2中发生“躺沙发”的概率为90％；计算机设备计算出区域3中发生“坐椅子”、“用电脑”、“躺沙发”的概率均为0；因此，计算机设备可以获取场景图像中的动作区域为区域1和区域2。

计算机设备可以根据动作概率从预设动作标签中获取动作标签，例如，区域1中发生“坐椅子”的概率为20％、区域1中发生“用电脑”的概率为80％、区域1中发生“躺沙发”的概率10％；计算机设备还可以计算出区域2中发生“坐椅子”的概率为50％、区域2中发生“用电脑”的概率为5％、区域2中发生“躺沙发”的概率为90％；计算机设备可以从预设动作标签中获取“用电脑”和“躺沙发”的动作标签。

在本实施例中，计算机设备通过分别获取预设动作标签，计算场景图像中，发生各个预设动作标签对应的动作的动作概率，根据动作概率获取场景图像中的动作区域，并根据动作概率从预设动作标签中获取动作标签。计算机设备通过计算场景图像中的动作概率来获取动作区域，并获取动作标签，可以提高获取到的动作区域以及动作标签的准确性。

如图3所示，在一个实施例中，提供的一种姿势预测方法还可以包括获取动作区域的过程，具体步骤包括：

步骤302，根据动作概率以及预设动作标签，检测场景图像中的动作接触区域。

动作接触区域用于表示人体和场景图像中的物体所接触的区域。计算机设备可以根据动作概率和预设动作标签，对场景图像中的动作接触区域进行检测。具体的，计算机设备根据动作概率和预设动作标签，可以分别检测出与每一个预设动作标签对应的动作接触区域。

举例说明，计算机设备获取到的预设动作标签有“坐椅子”、“躺沙发”时，计算机设备可以根据“坐椅子”这个预设动作标签，检测出与“坐”对应的动作接触区域包含有椅子所在的区域以及沙发所在的区域，计算机设备检测出与“椅子”对应的动作接触区域包含有椅子所在的区域；计算机设备可以根据“躺沙发”这个预设动作标签，检测出与“躺”对应的动作接触区域包含有沙发所在的区域以及床所在的区域，计算机设备可以检测出与“沙发”对应的动作接触区域包含有沙发所在的区域。

步骤304，获取场景图像中与动作接触区域对应的接触物体，并获取接触物体对应的蒙版图像。

接触物体可以包括场景图像中的物体。蒙版图像可以由值为1或者值为0的像素组成，接触物体对应的蒙版图像中，接触物体所在的区域的像素值为1，接触物体所在区域之外的区域的像素值为0。

计算机设备可以获取场景图像中与动作接触区域对应的接触物体。具体的，计算机设备可以对场景图像中的动作接触区域进行标记，计算机设备可以根据标记查找到动作接触区域对应的接触物体。例如，计算机设备根据“躺沙发”这个预设动作标签，检测出与“躺”对应的动作接触区域包含有沙发所在的区域以及床所在的区域，计算机设备可以对沙发所在的区域以及床所在的区域进行标记，计算机设备可以根据标记查找到沙发所在的区域对应的接触物体是沙发，床所在的区域对应的接触物体是床。

计算机设备可以获取到接触物体后，可以进一步获取与接触物体对应的蒙版图像。例如，计算机设备获取到的接触物体是沙发和床，计算机设备可以分别获取到沙发对应的蒙版图像、床对应的蒙版图像。

步骤306，根据动作接触区域以及蒙版图像，获取场景图像中的动作区域。

计算机设备可以根据获取到的动作接触区域以及蒙版图像，可以生成单词图像。其中，单词图像可以用于表示预设动作标签与场景图像的区域之间的对应关系，一整单词图像或者多张单词图像的组合可以用于表示场景图像中与预设动作标签对应的动作区域。

举例说明，计算机设备获取到的预设动作标签是“躺沙发”，因此，计算机设备根据“躺”检测出场景图像中的动作接触区域为沙发所在的区域和床所在的区域，接触物体为沙发和床，计算机设备可以获取沙发对应的蒙版图像和床对应的蒙版图像，计算机设备可以生成“躺”对应的单词图像，该单词图像用于表示“躺”与场景图像中的沙发和床所在的区域之间的对应关系；计算机设备可以根据“沙发”检测出场景图像中的动作接触区域为沙发所在的区域，接触物体为沙发，计算机设备可以获取沙发对应的蒙版图像，计算机设备可以生成“沙发”对应的单词图像，该单词图像用于表示“沙发”与场景图像中的沙发所在的区域之间的对应关系；计算机设备可以根据预设动作标签“躺沙发”将“躺”对应的单词图像与“沙发”对应的单词图像结合，最终得到场景图像中的动作区域为沙发所在的区域。

在本实施例中，计算机设备根据动作概率以及预设动作标签，检测场景图像中的动作接触区域，获取场景图像中与动作接触区域对应的接触物体，并获取接触物体对应的蒙版图像，根据动作接触区域以及蒙版图像，获取场景图像中的动作区域。计算机设备根据动作接触区域和蒙版图像来获取场景图像中的动作区域，可以提高获取到的动作区域的准确性。

在一个实施例中，如图4所示，计算机设备可以将获取到的场景图像410输入到预先训练好的动作预测神经网络中，动作预测神经网络可以计算出输入的场景图像中，将各个预设动作标签对应的动作的动作概率输出。计算机设备可以获取输出的动作概率，根据动作概率和预设动作标签420，得到场景图像410中的动作区域430。

如图5所示，在一个实施例中，计算机设备可以根据动作概率和预设动作标签，检测出场景图像中的动作接触区域510。计算机设备可以获取场景图像中与动作接触区域510对应的接触物体，计算机设备可以生成单词图像520，计算机设备可以根据预设动作标签，查找到对应的单词图像520，从而获取到场景图像中的动作区域530。

在一个实施例中，提供的一种姿势预测方法还可以包括得到预设动作标签的过程，具体过程包括：获取包含有预设人体姿势模型的姿势三维场景，并获取与姿势三维场景对应的文字信息；根据文字信息得到预设动作标签。

预设人体姿势模型可以包括站着的预设人体姿势模型、坐着的预设人体姿势模型、躺着的预设人体姿势模型。计算机设备可以获取包含有预设人体姿势模型的姿势三维场景。例如，计算机设备可以获取包含有一个躺着的预设人体姿势模型躺在沙发上的姿势三维场景，计算机设备可以将获取到的姿势三维场景展示出来。用户可以根据计算机设备展示出来的姿势三维场景，输入对姿势三维场景描述的文字信息，计算机设备可以根据文字信息得到预设动作标签。具体的，计算机设备可以使用计算机自然语言处理工具提取文字信息中的动词或动名词组，从而构成预设动作标签。

举例说明，计算机设备展示出的姿势三维场景中有一个躺着的预设人体姿势模型躺在沙发上，计算机设备可以获取用户输入的文字信息为“有人躺在沙发上”，计算机设备可以根据文字信息获取到预设动作标签为“躺沙发”。

在本实施例中，计算机设备通过获取包含有预设人体姿势模型的姿势三维场景，并获取与姿势三维场景对应的文字信息，根据文字信息得到预设动作标签。计算机设备通过获取与姿势三维场景对应的文字信息，进而得到预设动作标签，由于计算机设备获取的文字信息是用户输入的，得到的预设动作标签是使用自然语言处理工具提取的，可以提高得到的预设动作标签的精确度。

如图6所示，在一个实施例中，预设动作标签600可以分为两个部分。一个部分可以是动词标签610，另一个部分可以是名词标签620。预设动作标签600可以存储在计算机设备中，动词标签610和名词标签620按照向量的形式进行存储。其中，动词标签610可以和RGB图像612对应，名词标签620可以和深度图像622对应，预设动作标签600可以和姿势三维场景630对应。

在一个实施例中，提供的一种姿势预测方法还可以包括获取姿势数据的过程，具体过程包括：根据动作标签获取姿势类型，并根据动作区域以及动作标签，获取包围框坐标；根据姿势类型以及包围框坐标计算出姿势方向；根据包围框坐标以及姿势方向，获取人体姿势模型在场景图像中的姿势数据。

姿势类型可以包括站姿、卧姿、坐姿等类型。包围框坐标可以用于表示包围的人体姿势的矩形框的坐标。姿势方向可以用于表示人体姿势模型在场景图像中的方向。

计算机设备可以根据动作标签获取姿势类型。具体的，计算机设备可以识别出动作标签中的动词，从而根据识别出的动词来获取姿势类型。例如，计算机设备获取到的动作标签是“坐椅子”，计算机设备可以识别出动作标签中的动词为“坐”，计算机设备可以获取与动作标签“坐椅子”对应的姿势类型为坐姿。

计算机设备可以根据动作区域和动作标签获取包围框坐标。具体的，计算机设备可以根据动作区域和动作标签获取到人体姿势在场景图像中的位置，计算机设备可以根据获取到的人体姿势在场景图像中的位置，计算出包围框坐标。计算机设备可以根据姿势类型以及包围框坐标计算出姿势方向，从而根据包围框坐标以及姿势方向，获取人体姿势模型在场景图像中的姿势数据。

在本实施例中，计算机设备根据动作标签获取姿势类型，并根据动作区域以及动作标签，获取包围框坐标，根据姿势类型以及包围框坐标计算出姿势方向，根据包围框坐标以及姿势方向，获取人体姿势模型在场景图像中的姿势数据。计算机设备根据包围框坐标和姿势方向，可以准确获取到的人体姿势墨香在场景图像中的姿势数据。

在一个实施例中，提供的一种姿势预测方法还可以包括获取姿势类型的过程，具体过程包括：获取预先设置的姿势类型；分别计算动作标签属于各个预先设置的姿势类型的姿势概率；根据姿势概率，从预先设置的姿势类型中获取与动作标签对应的姿势类型。

预先设置的姿势类型可以包括预先设置的站姿、卧姿、坐姿等姿势类型。计算机设备可以获取预先设置好的各个姿势类型。计算机设备可以分别计算动作标签属于各个预先设置的姿势类型的姿势概率。例如，计算机设备获取到的预先设置的姿势类型有站姿、卧姿、坐姿这三种，计算机设备获取到的动作标签为“躺沙发”，计算机设备可以分别计算出“躺沙发”属于站姿的姿势概率为2％，“躺沙发”属于卧姿的姿势概率为90％，“躺沙发”属于坐姿的姿势概率为5％。计算机设备可以根据姿势概率，从预先设置的姿势类型中获取与动作标签对应的姿势类型。例如，计算机设备分别计算出动作标签属于站姿的姿势概率为2％，属于卧姿的姿势概率为90％，属于坐姿的姿势概率为5％，计算机设备可以根据姿势概率最大的属于卧姿的姿势概率，获取与动作标签对应的姿势类型为卧姿。

在本实施例中，计算机设备通过获取预先设置的姿势类型，分别计算动作标签属于各个预先设置的姿势类型的姿势概率，根据姿势概率，从预先设置的姿势类型中获取与动作标签对应的姿势类型。计算机设备通过计算动作标签的姿势概率，获取与动作标签对应的姿势类型，可以使得获取到的姿势类型更加准确，从而提高姿势预测的准确性。

在一个实施例中，提供的一种姿势预测方法还可以包括获取包围框坐标的过程，具体过程包括：获取场景图像中每一个动作区域对应的参考包围框坐标；分别计算出各个参考包围框坐标的置信度值；根据置信度值从参考包围框坐标中获取每一个动作区域对应的包围框坐标。

一个动作区域可以对应有至少一个参考包围框坐标，计算机设备可以获取场景图像中每一个动作区域对应的参考包围框坐标。例如，计算机设备获取到的场景图像中有3个动作区域，分别是动作区域1、动作区域2以及动作区域3，计算机设备可以分别获取动作区域1对应的参考包围框坐标、动作区域2对应的参考包围框坐标、动作区域3对应的参考包围框坐标。

计算机设备可以分别计算各个参考包围框坐标的置信度值，并根据置信度值从参考包围框坐标中获取每一个动作区域对应的包围框坐标。例如，计算机设备获取到场景图像中的动作区域1对应有3个参考包围框坐标，计算机设备可以分别计算出这3个参考包围框坐标的置信度值，计算机设备可以根据计算出的3个置信度值，从3个参考包围框坐标中获取动作区域1对应的包围框坐标。

在本实施例中，计算机设备通过获取场景图像中每一个动作区域对应的参考包围框坐标，分别计算出各个参考包围框坐标的置信度值，根据置信度值从参考包围框坐标中获取每一个动作区域对应的包围框坐标。计算机设备通过根据置信度值从参考包围框坐标中获取与动作区域对应的包围框坐标，提高了获取的包围框坐标的准确性。

如图7所示，在一个实施例中，计算机设备可以将场景图像710以及预设动作标签720输入至姿势预测神经网络中，姿势预测神经网络可以将场景图像以及预设动作标签中的信息传递到姿势预测神经网络的通道中，输出各个参考包围框坐标的置信度值。

在一个实施例中，提供的一种姿势预测方法还可以包括计算姿势方向的过程，具体过程包括：获取与姿势类型对应的参考方向；根据参考方向以及包围框坐标计算旋转角度；根据参考方向以及旋转角度计算出姿势方向。

每一个姿势类型都有对应的参考方向，计算机设备可以获取与姿势类型对应的参考方向。计算机设备可以根据参考方向和包围框坐标计算出旋转角度。计算机设备可以根据参考方向和旋转角度计算出姿势方向。具体的，计算机设备可以以场景图像的一边作为参照线，获取出参考方向与参照线之间的夹角，计算机设备可以将获取到的夹角与旋转角度进行叠加，得到姿势方向。

在本实施例中，计算机设备通过获取与姿势类型对应的参考方向，根据参考方向以及包围框坐标计算旋转角度，根据参考方向以及旋转角度计算出姿势方向。计算机设备通过参考方向和计算出的旋转角度，可以提高计算出的姿势方向的准确性。

应该理解的是，虽然上述各个流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各个流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种姿势预测装置，包括：图像获取模块810、动作区域获取模块820、姿势数据获取模块830和模型映射模块840，其中：

图像获取模块810，用于获取对三维场景扫描得到的场景图像。

动作区域获取模块820，用于获取场景图像中的动作区域，并获取与动作区域对应的动作标签；其中，动作标签用于表示人体在动作区域中所发生的动作。

姿势数据获取模块830，用于根据动作区域以及动作标签获取姿势数据。

模型映射模块840，用于根据姿势数据获取人体姿势模型，并根据动作区域和姿势数据将人体姿势模型映射到三维场景中。

在一个实施例中，动作区域获取模块820还用于分别获取预设动作标签；计算场景图像中，发生各个预设动作标签对应的动作的动作概率；根据动作概率获取场景图像中的动作区域，并根据动作概率从预设动作标签中获取动作标签。

在一个实施例中，动作区域获取模块820还用于根据动作概率以及预设动作标签，检测场景图像中的动作接触区域；获取场景图像中与动作接触区域对应的接触物体，并获取接触物体对应的蒙版图像；根据动作接触区域以及蒙版图像，获取场景图像中的动作区域。

在一个实施例中，动作区域获取模块820还用于获取包含有预设人体姿势模型的姿势三维场景，并获取与姿势三维场景对应的文字信息；根据文字信息得到预设动作标签。

如图9所示，在一个实施例中，姿势数据获取模块830包括包围框坐标获取模块832、姿势方向获取模块834以及模型姿势数据获取模块836，其中：

包围框坐标获取模块832，用于根据动作标签获取姿势类型，并根据动作区域以及动作标签，获取包围框坐标。

姿势方向获取模块834，用于根据姿势类型以及包围框坐标计算出姿势方向。

模型姿势数据获取模块836，用于根据包围框坐标以及姿势方向，获取人体姿势模型在场景图像中的姿势数据。

在一个实施例中，包围框坐标获取模块832还用于获取预先设置的姿势类型；分别计算动作标签属于各个预先设置的姿势类型的姿势概率；根据姿势概率，从预先设置的姿势类型中获取与动作标签对应的姿势类型。

在一个实施例中，包围框坐标获取模块832还用于获取场景图像中每一个动作区域对应的参考包围框坐标；分别计算出各个参考包围框坐标的置信度值；根据置信度值从参考包围框坐标中获取每一个动作区域对应的包围框坐标。

在一个实施例中，姿势方向获取模块834还用于获取与姿势类型对应的参考方向；根据参考方向以及包围框坐标计算旋转角度；根据参考方向以及旋转角度计算出姿势方向。

关于姿势预测装置的具体限定可以参见上文中对姿势预测方法的限定，在此不再赘述。上述姿势预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种姿势预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取对三维场景扫描得到的场景图像；

获取场景图像中的动作区域，并获取与动作区域对应的动作标签；其中，动作标签用于表示人体在动作区域中所发生的动作；

根据动作区域以及动作标签获取姿势数据；

根据姿势数据获取人体姿势模型，并根据动作区域和姿势数据将人体姿势模型映射到三维场景中

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别获取预设动作标签；计算场景图像中，发生各个预设动作标签对应的动作的动作概率；根据动作概率获取场景图像中的动作区域，并根据动作概率从预设动作标签中获取动作标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据动作概率以及预设动作标签，检测场景图像中的动作接触区域；获取场景图像中与动作接触区域对应的接触物体，并获取接触物体对应的蒙版图像；根据动作接触区域以及蒙版图像，获取场景图像中的动作区域。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取包含有预设人体姿势模型的姿势三维场景，并获取与姿势三维场景对应的文字信息；根据文字信息得到预设动作标签。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据动作标签获取姿势类型，并根据动作区域以及动作标签，获取包围框坐标；根据姿势类型以及包围框坐标计算出姿势方向；根据包围框坐标以及姿势方向，获取人体姿势模型在场景图像中的姿势数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取预先设置的姿势类型；分别计算动作标签属于各个预先设置的姿势类型的姿势概率；根据姿势概率，从预先设置的姿势类型中获取与动作标签对应的姿势类型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取场景图像中每一个动作区域对应的参考包围框坐标；分别计算出各个参考包围框坐标的置信度值；根据置信度值从参考包围框坐标中获取每一个动作区域对应的包围框坐标。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取与姿势类型对应的参考方向；根据参考方向以及包围框坐标计算旋转角度；根据参考方向以及旋转角度计算出姿势方向。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取对三维场景扫描得到的场景图像；

根据动作区域以及动作标签获取姿势数据；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别获取预设动作标签；计算场景图像中，发生各个预设动作标签对应的动作的动作概率；根据动作概率获取场景图像中的动作区域，并根据动作概率从预设动作标签中获取动作标签。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据动作概率以及预设动作标签，检测场景图像中的动作接触区域；获取场景图像中与动作接触区域对应的接触物体，并获取接触物体对应的蒙版图像；根据动作接触区域以及蒙版图像，获取场景图像中的动作区域。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取包含有预设人体姿势模型的姿势三维场景，并获取与姿势三维场景对应的文字信息；根据文字信息得到预设动作标签。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据动作标签获取姿势类型，并根据动作区域以及动作标签，获取包围框坐标；根据姿势类型以及包围框坐标计算出姿势方向；根据包围框坐标以及姿势方向，获取人体姿势模型在场景图像中的姿势数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取预先设置的姿势类型；分别计算动作标签属于各个预先设置的姿势类型的姿势概率；根据姿势概率，从预先设置的姿势类型中获取与动作标签对应的姿势类型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取场景图像中每一个动作区域对应的参考包围框坐标；分别计算出各个参考包围框坐标的置信度值；根据置信度值从参考包围框坐标中获取每一个动作区域对应的包围框坐标。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取与姿势类型对应的参考方向；根据参考方向以及包围框坐标计算旋转角度；根据参考方向以及旋转角度计算出姿势方向。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种姿势预测方法，所述方法包括：

获取对三维场景扫描得到的场景图像，所述场景图像是二维图像；

分别获取预设动作标签；

根据所述动作概率获取所述场景图像中的动作区域，并根据所述动作概率从所述预设动作标签中获取动作标签；其中，所述动作标签用于表示人体在所述动作区域中所发生的动作；

根据所述姿势类型以及所述包围框坐标计算出姿势方向；

根据所述包围框坐标以及所述姿势方向，获取所述人体姿势模型在所述场景图像中的姿势数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述动作概率获取所述场景图像中的动作区域，包括；

3.根据权利要求1所述的方法，其特征在于，所述根据所述动作标签获取姿势类型，包括：

获取预先设置的姿势类型；

4.根据权利要求1所述的方法，其特征在于，所述根据所述动作区域以及所述动作标签，获取包围框坐标，包括：

获取所述场景图像中每一个所述动作区域对应的参考包围框坐标；

分别计算出各个所述参考包围框坐标的置信度值；

5.根据权利要求1所述的方法，其特征在于，所述根据所述姿势类型以及所述包围框坐标计算出姿势方向，包括：

获取与所述姿势类型对应的参考方向；

根据所述参考方向以及所述包围框坐标计算旋转角度；

根据所述参考方向以及所述旋转角度计算出姿势方向。

6.一种姿势预测装置，其特征在于，所述装置包括：

图像获取模块，用于获取对三维场景扫描得到的场景图像，所述场景图像是二维图像；

动作区域获取模块，用于分别获取预设动作标签；计算所述场景图像中，发生各个所述预设动作标签对应的动作的动作概率；根据所述动作概率获取所述场景图像中的动作区域，并根据所述动作概率从所述预设动作标签中获取动作标签；其中，所述动作标签用于表示人体在所述动作区域中所发生的动作；

姿势数据获取模块，用于根据所述动作标签获取姿势类型，并根据所述动作区域以及所述动作标签，获取包围框坐标；根据所述姿势类型以及所述包围框坐标计算出姿势方向；根据所述包围框坐标以及所述姿势方向，获取所述人体姿势模型在所述场景图像中的姿势数据；模型映射模块，用于根据所述姿势数据获取人体姿势模型，并根据所述动作区域和姿势数据将所述人体姿势模型映射到所述三维场景中。

7.根据权利要求6所述的装置，其特征在于，所述动作区域获取模块还用于根据动作概率以及预设动作标签，检测场景图像中的动作接触区域；获取场景图像中与动作接触区域对应的接触物体，并获取接触物体对应的蒙版图像；根据动作接触区域以及蒙版图像，获取场景图像中的动作区域。

8.根据权利要求6所述的装置，其特征在于，所述姿势数据获取模块还用于获取预先设置的姿势类型；分别计算动作标签属于各个预先设置的姿势类型的姿势概率；根据姿势概率，从预先设置的姿势类型中获取与动作标签对应的姿势类型。

9.根据权利要求6所述的装置，其特征在于，所述姿势数据获取模块还用于获取场景图像中每一个动作区域对应的参考包围框坐标；分别计算出各个参考包围框坐标的置信度值；根据置信度值从参考包围框坐标中获取每一个动作区域对应的包围框坐标。

10.根据权利要求6所述的装置，其特征在于，所述姿势数据获取模块还用于获取与姿势类型对应的参考方向；根据参考方向以及包围框坐标计算旋转角度；根据参考方向以及旋转角度计算出姿势方向。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。