CN111414797A

CN111414797A - 用于基于来自移动终端的视频的姿态序列的系统和方法

Info

Publication number: CN111414797A
Application number: CN202010015816.7A
Authority: CN
Inventors: 曾俊谚
Original assignee: Yiyuan Spirit Co ltd
Current assignee: Yiyuan Spirit Co ltd
Priority date: 2019-01-07
Filing date: 2020-01-07
Publication date: 2020-07-14
Anticipated expiration: 2040-01-07
Also published as: CN111414797B; US11270461B2; US20200219284A1

Abstract

公开了用于基于来自移动终端的视频的姿态序列的系统和方法。本发明的实施方式提供了用于姿态估计的系统和方法，包括：通过移动终端捕获视频序列，该视频序列包括多个帧；提取视频序列中对象的多个卷积特征；根据视频序列估计对象的姿势；根据估计的姿势构建多个特征的模型；根据多个特征估计对象的姿态。该系统还根据无约束视频确定关键姿态序列，其中，移动终端捕获视频序列；追踪器估计参考对象；姿态估计器根据多个特征估计对象的姿态；姿态解析单元评估估计的姿态；姿态重建单元将姿态重建到三维空间中；估算单元确定应该被添加到关键姿态序列中的估计姿态。

Description

用于基于来自移动终端的视频的姿态序列的系统和方法

技术领域

本发明涉及机器视觉，特别地涉及对象的基于机器的姿势估计和姿态辨识，以根据从移动终端获得的视频产生关键姿态序列。

背景技术

在最近的十年中，无论是在算法还是在计算能力上都取得了许多突破，为人工智能(AI)发展创造了良好的环境。计算机视觉——AI最关键的子域之一——受到了这一浪潮的深刻影响。利用深度学习的力量，最先进的计算机视觉算法可以执行几乎等同于或者很快超过人类的检测和分类任务。

为了使计算机能够像人类一样执行任务，或者甚至进一步分析情况，这要求AI理解我们的实体世界。计算机视觉对于AI至关重要，因为它在通过提供视觉信息来帮助AI与我们的世界连接方面做出了巨大贡献。视觉是人类最重要的感觉，在其他所有感官中，人们最不能忍受失去视觉。

根据视觉图像、心理图像或视频序列，计算机有多种方法分析和追踪对象的姿态。一些方法是检测对象的组成部分的自下而上的方法；其他则相反，是检测整个对象的自上而下。为了检测不同水平的对象特征，检测系统可能需要许多连锁算法。但是，一些方法倾向于使用端到端算法。哪种方法是进行检测的最好方式尚无定论。对于系统来说，训练该系统需要多少数据以及该系统在检测阶段能运行多快才是重要的。

涉及到检测速度时，算法复杂度和计算能力是应当考虑的两个因素。通常，大多数计算任务都是利用一组处理单元(例如云服务器)执行的。然而，最近的一些发展证明了在移动终端上运行这种复杂任务的可能性，这开启了系统同时包括终点处理和云处理的能力。

通常，以前的方法通常依赖于假定的形状模型根据强度或深度数据来追踪运动。由于真实世界场景的复杂性和数据的固有局限性，大多数姿态估计方法的问题公式化都非常复杂(通常为非确定性多项式困难问题(NP-hard))。为了解决固有限制的问题，一些开发依赖于多个摄像机或复杂的运动感测输入设备，这极其昂贵。另外，其中一些必须设置在受限的环境诸如捕获工作室中，这严重限制了系统的应用。

因此，本领域中需要的是更高效且可移动的方案来估计人体姿态。由于完成这项任务需要大量的复杂计算，已经提出一种利用各种形式的数据的近似解法，提取信息以执行最理想的姿态估计，同时不会牺牲移动性。

发明内容

本发明提供一种根据从移动终端获得的视频来估计关键姿态序列的方法。这在三个主要方面与现有技术方法形成对比，这三个方面是：(i)依赖与单色传感器结合的深度传感器，(ii)所有数据处理必须在远程计算设备上执行，(iii)所有姿势和姿态都无差别地记录在序列中。本发明的方法消除了对专用装备诸如深度传感器和受限环境设置的需要。因此，降低了系统的总成本，这允许非工业用户买进该装备。同时，本发明选择性地在远程计算设备和移动终端上执行多级数据处理，这增强了系统的移动性。另外，本发明被设计成将来自普遍存在的视频的关键姿态和姿势信息记录成序列，而不是无差别地记录。

根据本发明的一个方面，提供了一种用于确定进入序列中的关键姿态的新系统。该系统包括至少一个计算设备，该计算设备包括硬件部件和软件程序，用于接收包括多个连续帧的无约束视频，为多个连续帧中的每个帧生成多个最佳姿态假设。该系统还包括最佳地在移动终端和远程计算设备上管理生成过程。此外，该系统包括一个或多个具有计算机可执行指令的非暂时性计算机可读介质，计算机可执行指令用于执行在计算设备上运行软件程序的方法。因此，可以选择各种过程在移动终端上执行，为将来的应用启用另外的离线功能。

根据本发明的另一方面，提供了用于在没有任何视觉标记的情况下追踪对象的关键姿态的新的系统和方法。该系统包括以下步骤：从移动终端捕获或提供视频序列，该视频序列包括多个帧；在视频序列中提取对象的多个特征；估计对象的第一姿势；用特征和第一姿势追踪对象；构建多个特征的模型；根据模型估计姿态；估算多个特征与视频序列的多个帧的对应关系，以确定关键姿态。

在本发明的实施方式中，关键姿态包括多个特征诸如身体部位节点。身体部位节点选自：鼻部、颈部、右肩部、右肘部、右腕部、左肩部、左肘部、左腕部、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝和腹股沟。另外，抽象身体模型包括：右肘部、右腋窝、右颈部、左颈部、左腋窝、左肘部、右胯部、右腰部、左腰部、左胯部、右膝盖和左膝盖。

在本发明的另一方面，该系统通过来自视频的过往帧的姿态的累加特征向量确定关键姿态。将考虑根据先前阶段所提供的多个特征，并且还将为估算生成附加特征，使得相对于每一帧并不是无差别地记录姿态序列。

本发明的一方面提供了一种用于估计对象的姿势和姿态信息的系统，该系统包括：移动捕获设备，该移动捕获设备用于连续捕获位于虚拟空间内或在虚拟空间内自由移动的对象的图像和/或视频数据；一个或多个处理单元，该一个或多个处理单元用于从移动捕获设备获得图像和/或视频数据，并执行用于图像和/或视频数据的自动化处理的一个或多个机器学习算法，以：提取和学习对象的基本卷积特征，以基于所学习的基本卷积特征识别对象的具体特征；基于对象的具体特征估计对象的姿势，其中，估计对象的姿势包括根据对象的给定图像估计身体部位信息，并且其中，姿势包括身体部位类型、关于给定图像上的位置的x轴和y轴坐标；基于估计姿势生成对象的具体特征的抽象人体模型；并根据抽象人体模型中包括的具体特征估计对象的姿态；其中，生成对象的抽象人体模型包括：将每个身体部位与预定义的抽象身体部位耦合；基于所耦合的身体部位，增补对象的多个缺失的单个身体部位和耦合身体部位；并通过将增补的缺失部位与耦合的身体部位连接，构建表示对象的估计姿态的对象的骨架表示；并且其中，捕获的视频数据是无约束视频数据，并且该视频数据包括多个帧；并且其中，抽象人体模型包括每个身体部位的信息，连同每个帧中身体部位之间的空间约束，以及贯穿多个帧的时间一致性。

本发明的另一方面提供了一种用于估计对象的姿势和姿态信息的方法，该方法包括：使用移动捕获设备连续捕获位于覆盖对象的虚拟空间内的对象的图像和/或视频数据；通过一个或多个处理单元对图像和/或视频数据实施一个或多个机器学习算法，并执行图像和/或视频数据的自动化处理，以：提取和学习对象的基本卷积特征，以基于所学习的基本卷积特征识别对象的具体特征；基于对象的具体特征估计对象的姿势，其中，估计对象的姿势包括根据对象的给定图像估计身体部位信息，并且其中，姿势包括：包括身体部位类型、关于给定图像上的位置的x轴和y轴坐标的姿势信息；基于估计姿势生成对象的具体特征的抽象人体模型；并根据抽象人体模型中包括的具体特征估计对象的姿态；其中，生成对象的抽象人体模型还包括：将每个身体部位与预定义的抽象身体部位耦合；基于所耦合的身体部位增补对象的多个缺失的单个身体部位和耦合身体部位；并通过将增补的缺失部位与耦合的身体部位连接，构建表示对象的估计姿态的对象的骨架表示；并且其中，捕获的视频数据包括多个帧；并且其中，抽象人体模型包括每个身体部位的信息，连同每个帧中身体部位之间的空间约束，以及贯穿多个帧的时间一致性。

附图说明

为了描述本发明，根据下面的详细描述结合附图，会对本发明有充分的理解并且更明显，附图中：

图1是示出根据本发明的实施方式的由移动终端支持的关键姿态估计系统的示意图。

图2是示出根据本发明的实施方式的用于根据无约束视频估计姿态的方法的流程图。

图3A是示出根据本发明的实施方式的用于根据无约束视频确定关键姿态的方法的抽象追踪阶段的流程图。

图3B是示出根据本发明的用于确定关键姿态的方法的细节追踪阶段的流程图，其中使用了一组特征。

图4是根据本发明的实施方式的将哪些身体部位结合成抽象身体部位并且包括用于关键姿态估算的其他特征的图示。

具体实施方式

为满足法定要求，本专利详细描述了申请授予专利权的主题。然而，说明书本身并不意在限制本专利的范围。本文描述的原理可以以许多不同的形式实施。

现在，下文将参照附图更全面地描述本发明的说明性实施方式，其中示出了本发明的一些但不是全部实施方式。实际上，本发明可以以许多不同的形式来实施，并且不应理解为限于本文列出的实施方式；相反地，提供这些实施方式使得本公开内容满足相关法律要求。贯穿全文，相同的数字指相同的元素。

1.系统定义和概述

下文将参照附图描述本发明的优选实施方式。在下面的描述中，没有详细描述众所周知的或构建，以避免在不必要的细节上模糊本发明。

本发明提供了一种估计对象在无约束视频中的关键姿态序列的方法和系统。通常，姿态估计系统包括采集多个视频/图像帧的捕获设备。例如，捕获设备可以包括深度传感器。姿态估计系统还包括：用于在真实世界中定位对象的追踪和估计系统，以及用于处理系统的所有计算和数据处理的处理器，如计算设备。

1.1应用场景

参照图1，示出了移动终端与本发明结合使用的示例性场景。移动终端100可以是可以捕获视频的任何计算设备；视频序列包括多个帧。然而，帧的图像类型不受约束；其可以是与RGB图像结合的任何形式的视觉图像，也可以只是作为基线的单个RGB图像。因此，每个帧可以包括具有相对等效尺寸的多个图像，例如，具有RGB图像的深度图像。

估计系统要求移动终端100保持适当的角度和高度，以创建虚拟工作空间106。系统中可以包括支撑物体102，如，三脚架或可以平衡移动终端100的视角的任何其他物体。虚拟工作空间106应该能够覆盖对象104的每个身体部位，以用于准确的追踪和姿态估计。虚拟工作空间的大小不受限于具体尺寸，但相对于真实世界的空间，虚拟空间应当相对地具有同等比例的X×Y×Z像素。对象104不需要携带用于检测任何身体部位的附加设备或视觉标记。同时，对象104可以在虚拟工作空间内执行不受约束的姿态。从移动终端100获得的视频经过多阶段处理。移动终端100可以包括一个或多个处理单元，用于处理由移动终端100捕获的视频。此外，系统还包括与移动终端100通信的计算设备108。移动终端100可以通过无线或有线通信链路与计算设备108通信。无线通信链路可以包括但不限于：蓝牙、红外、互联网、WLAN、WAN、IEEE802.11等。有线通信链路可以包括但不限于：LAN、电缆连接、以太网等。

在一实施方式中，使用移动终端100中包括的一个或多个处理单元在移动终端100内处理对从移动终端100获得的视频进行的处理的一部分，而视频的处理的一部分发送到计算设备108进行处理。由于对象104留在虚拟工作空间106内，因此处理单元可以根据每个帧确定姿态和姿势信息的序列，然后在一段结束之后估计关键姿态序列。计算设备108可以位于与移动终端100相同的物理场所内，或者位于物理上远离该位置的远程位置。

1.2训练姿态估计器

对于基于视觉的估计系统，需要与从捕获的视频获得的对象的图像和姿势信息相匹配的模型，用于估计所拍摄对象的姿态。在本发明的方法中，训练了多阶段自动化过程，以学习用于从给定图像估计对象的姿态的复合模型。本发明使用实景特征估计对象的姿态和姿势信息。

图2是示出用于根据无约束视频估计姿态的复合模型的流程图。多阶段过程包括四个主要步骤或子过程：(i)图像获取和预处理202；(ii)特征提取和假设204；(iii)抽象身体假设和建模206；(iv)姿态假设208。当姿态估计系统与移动终端100一起使用时，系统捕获位于虚拟工作空间106/在虚拟工作空间中移动的对象的视频序列(步骤200)，该视频序列包括多个帧，然后在将每个帧在馈送到特征提取模块204之前，对每个帧进行下采样或增补，作为预处理(步骤202)。预处理可以显著增加图像的变化并降低计算复杂度，因此在有限的折衷情况下提高了提取的准确性和速度。

特征提取过程204使用机器学习算法如深度卷积神经网络来提取常规特征。这些可能包括：基本特征，诸如场景中物体的点、线和圆；平面区块；或复合特征，诸如多边形或颜色。然而，本领域普通技术人员可以理解，所有这些特征仅仅是基于人类常识定义的抽象特征，并非算法学习的所有特征都必须能基于人类逻辑来解释。在大多数情况下，此类算法可以从给定数据中不受限制地学习，就像黑盒子一样。取决于移动终端的配置，特征提取步骤204可以在移动终端100或远程计算设备108中完成。另外，学习到的基本特征不从模块输出，相反，具体特征基于由机器学习算法学习的这些基本特征来确定。

具体特征是根据实施方式的选定身体部位，并且这些身体部位形成一组特征对应关系以及抽象耦合身体部位。所有这些增补的特征在步骤206用于抽象身体假设过程。基于所提取的具体特征，在步骤204的具体特征提取过程和在步骤206的抽象身体假设基本上生成了估计的人体模型，其中，该模型包括每个身体部位的信息，以及在每个帧中的身体部位之间的空间约束和在全部帧中的时间一致性。

此时，根据抽象人体模型追踪具体特征，同时地并相应地追踪对象104在虚拟工作空间106内的移动。最终在步骤208，该追踪信息进一步经过姿态假设模块。姿态假设采用特定特征，例如2D骨架姿势表示或者2D-3D匹配与集束调整度量，以通过给定的抽象人体模型估算表示最佳的模型。可以提出一定数量的N个姿态假设，并最终将相对于先前特征对应关系的最佳姿态确定为单个结果姿态。在步骤210，结果姿态将用于误差分析的估算，以确定算法的性能。例如，为了确定在该方法中应用的算法的性能，将估算的姿态与以地面真值姿态执行的动作进行比较。实际上，所有预测的特征将经过估算过程进行误差分析，以便在每一个方面改善估计模型。

2.实现

本发明提供了一种根据无约束视频生成关键姿态序列的方法。该方法强调采集必要信息，而不是无差别记录对象的所有姿势信息。

在图3A中示出了用于实现本发明的方法的示例性系统。该系统包括：(i)人体特征提取器302、(ii)人体追踪模块310、(iii)姿势估计模块320、(iv)2D姿态估计器304、(v)姿态分析模块330、(vi)姿态重建模块340、(vii)姿态估算模块350。另外，该系统还包括用于捕获的移动终端，以及用于记录捕获视频300和处理结果364的存储系统。

2.1系统部件的详细信息

一旦姿态估计模型可用，就可以构建关键序列估计系统。图3B描述了每个模块中涉及的细节部件。要注意的是，并非所有模块都必须是实时的，即，姿态重建模块可以以小于1fps(帧每秒)的速度用对象的姿态在3D空间中来重建该对象。这是由于下述事实：其在运行时间期间对姿态估算过程没有很大贡献。

现在，下面将结合图3B描述系统的每个部件。

人体追踪模块(310)：虽然系统是基于视觉的，但是视觉被用作追踪单元的基线。在复合图像的情况下，追踪模块适于多种常规追踪方法，诸如磁、超声、惯性、热追踪方法。这些常规特征中的一些是由人体特征提取器302提供的，而一些特征是在模块内生成的。利用这些特征，建立选定帧与对象之间的对应关系312。将在多个帧中追踪一组特征对应关系，这有助于在整个视频中识别追踪的对象，直到第N帧或对象离开虚拟工作空间106。追踪器还可以使用各种算法诸如隐马尔可夫模型或卡尔曼滤波来帮助进行视觉追踪。

姿势估计模块(320)：估计姿势与姿态不同，位置和定向的结合称为对象的姿势，虽然有时该概念仅用于描述定向。对于人体姿势估计，主要目的是根据给定图像估计身体部位信息，它无法辨识与对象有关的身份或任何其他信息。虽然不同的姿势耦合可以称为抽象身体部位，或者甚至进一步变成骨架表示，但是这些复合姿势对人类逻辑没有任何意义。相反，姿态根据人类定义具有具体的含义，相似的姿态可能在不同的领域或行业中具有多种含义，姿态不仅是人类姿势的骨架表示。

使用关键点检测器(322)根据每个给定帧估计身体部位的姿势信息，姿势信息必须包括身体部位类型、关于给定图像上的位置的x轴和y轴坐标。基于给定的场景和应用，可以包括补充信息，诸如z轴坐标。每个身体部位将基于预定义的抽象身体模型耦合，并且估计部位关联(324)。在一实施方式中，由于估计器应始终预测固定数量的N个身体部位和M个关联部位，所以每个耦合的部位表示两个或更多个身体部位。在估计了关联之后，随后是增补单元326，用以预测缺失部位的姿势。增补考虑了两个重要因素：即特定身体部位的先前位置，如有，则还有设定或预设的自由度(DOF)；自由度是指刚性体在三维空间中移动的自由度。在将缺失的部位增补之后，将所有姿势信息连接并生成骨架表示(328)。

2D姿态估计器304：考虑到对象姿势的估计骨架表示，姿势信息由姿态估计器编译。除了姿势信息和骨架之外，可以将附加特征给到估计器，因为不同的姿态相对于场景具有各种含义。例如，举起手的姿态在篮球场上可能意味着投篮姿态，而在其他场景下也可能意味着寻求帮助。估计器将基于互补特征，以从N个提出的姿态中最终确定其预测。

对于一些应用场景，需要实时姿态估计，但不需要后续的分析和估算。对于这种情况，系统将决定忽略剩余的过程306并进入下一帧362。在关于环境配置的一些其他场景中，即，移动终端的计算能力可以支持最少的处理，以上过程将在移动终端内执行，而其余的将是远程计算设备中的过程。因此，与移动捕获设备连接的远程计算设备包括一个或多个处理器，并且其中，视频的自动处理部分地在移动捕获设备中包括的处理器中执行，部分地在远程计算设备中包括的一个或多个处理器中执行。

姿态分析模块330：来自304的预测姿态是待登记到关键姿态序列中的候选姿态。分析模块332还通过生成更复杂的解析特征——即关节角度——进行度量比较来分析骨架姿态。这些比较指示该特定姿态的阶段，例如，对象处于初始位置，或者对象正在进入结束位置。这些评估(334)中的某些评估可以由领域专家提供，其包括姿态的可接受DOF范围等。

姿态重建模块340：预测骨架姿态被定义在二维空间中，以允许用户以更适当的方式将姿态可视化。然后使用机器学习算法将姿态转换(342)到三维空间。由于每帧轻微的预测误差，因此3D姿态可能不一致，这可能导致虚拟对象在三维空间中闪烁运动。使用生成算法(344)参考先前的帧重建3D姿态。

姿态估算模块350：该估算模块有助于确定预测姿态是否为新的关键姿态。如果是新的关键姿态(360)，则所有先前的姿势信息、解析特征和重建的姿态将被登记到序列364中。估算将首先计算姿势特征和解析特征352的对应关系，即，邻近帧之间的外观和位置的时间一致性。然后，接着是计算参考了在先前关键姿态354之后的所有累加的帧的姿态对应关系。

2.2身体部位和抽象身体模型

在图4中示出在先前步骤中提到的身体部位和抽象身体模型。示出了选自人体的关键点和身体部位，并标记0到13，在410中表示为圆圈，这些关键点和身体部位包括：鼻部、颈部、右肩部、右肘部、右腕部、左肩部、左肘部、左腕部、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝、腹股沟。耦合的身体部位也将被用于进行估计，其中，抽象耦合的身体部位中的每个表示两个身体部位。耦合的身体部位用于进行姿势估计，并且关联的部位在410中表示为线。另外，在420中可以将多个关联部位耦合以便计算关节角度，关联部位包括：右肘部、右腋窝、右颈部、左颈部、左腋窝、左肘部、右胯部、右腰部、左腰部、左胯部、右膝盖、左膝盖。最后，步骤430示出了骨架比较的对应关系，即，外观和位置差异的时间一致性。

综上，本发明提供一种用于姿态估计的方法，包括：通过移动终端捕获视频序列，该视频序列包括多个帧；提取对象在视频序列中的多个卷积特征；根据视频序列估计对象的姿势；根据估计的姿势构建多个特征的模型；根据多个特征估计对象的姿态。

提取多个卷积特征的步骤是实时执行的。

对记录的视频序列和实况视频序列二者都执行提取多个卷积特征的步骤。

捕获的视频是不受约束的。只要使用RGB图像作为基线，视频就可以与深度图像、热图像结合。捕获设备是具有至少一个摄相机例如数码相机的移动终端。

构建模型的步骤还包括以下步骤：根据视频序列估计对象的多个身体部位；将对象的多个耦合身体部位结合成抽象身体部位；增补对象的多个缺失的单个身体部位和耦合身体部位；根据估计的姿势构建对象的骨架表示。

在一实施方式中，身体部位选自：鼻部、颈部、右肩部、右肘部、右腕部、左肩部、左肘部、左腕部、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝、腹股沟，对于本领域普通技术人员明显的是，在不偏离本发明的含义和范围的情况下，身体部位可以选自于上述组，或者还可以包括其他身体部位。

抽象身体部位还包括用于计算的耦合的抽象身体部位，即关节角度。

根据多个特征估计的对象的姿态，还包括使用N-最佳推理算法生成多个最佳姿态假设。

本发明还提供了一种用于根据无约束视频确定一组关键姿态序列的系统，包括：用于捕获或提供视频序列的移动终端；用于估计参考对象的追踪器；用于根据多个特征估计对象的姿态的姿态估计器；用于评估估计姿态的姿态解析单元；

用于将姿态重建到三维空间中的姿态重建单元；用于确定应当被添加到关键姿态序列中的估计姿态的估算单元。姿态估计器实时估计多个姿态假设。姿态估计器根据记录的视频序列和实况视频序列两者来估计多个姿态。

如果移动终端不能够实时处理所有步骤，该系统还包括用于进行处理的计算设备。

姿态解析单元包括：分析由姿态估计器提供的姿势信息；生成复杂的解析特征，即，关节角度；基于由领域专家提供的多个准则来评估多个姿态。

此外，姿态重建单元包括：使用机器学习算法将姿态从二维空间转换到三维空间的姿态转换；对视频序列的多个帧进行估算以确定多个估计姿态是否稳定的姿态重建。

估算单元估算根据当前帧结合多个N个先前帧的对应关系来估计的所有特征。

该系统还包括机器可读的程序存储设备，其中存储捕获的视频、姿势信息和关键序列。

姿势信息还包括：来自追踪器的追踪对应关系；来自姿态估计器的估计姿态和身体部位姿势信息；来自解析单元的生成的复杂解析特征和解析结果；来自重建单元的重建姿态。

已经完整地描述本发明并在附图中示意性地示出了本发明。本发明并不限于此类细节，因为在不脱离本发明的精神和范围的情况下，可以在本发明中添加许多改变和修改。因此，将其描述为涵盖可能落入所附权利要求的语言和范围内的任何和所有修改和形式。

虽然已经描述了某些实施方式，但是这些实施方式仅通过示例的方式给出，并且不意在限制本公开内容的范围。实际上，本文描述的新颖的方法、设备和系统可以以多种其他形式来实施。此外，在脱背离本公开内容的精神的情况下，可以对本文所描述的方法、设备和系统的形式进行各种省略、替换和改变。

Claims

1.一种用于估计对象的姿势和姿态信息的系统，所述系统包括：

移动捕获设备，所述移动捕获设备用于连续捕获位于虚拟空间内或在虚拟空间内自由移动的所述对象的图像和/或视频数据；

一个或多个处理单元，所述一个或多个处理单元用于从所述移动捕获设备获得所述图像和/或视频数据，并执行用于所述图像和/或视频数据的自动化处理的一个或多个机器学习算法，以：

提取和学习所述对象的基本卷积特征，以基于学习到的基本卷积特征来识别所述对象的具体特征；

基于所述对象的具体特征来估计所述对象的姿势，其中，估计所述对象的姿势包括根据所述对象的给定图像来估计身体部位信息，并且其中，所述姿势包括：身体部位类型、关于所述给定图像上的位置的x轴和y轴坐标；

基于所估计的姿势，生成所述对象的所述具体特征的抽象人体模型；并且

根据所述抽象人体模型中包括的所述具体特征，估计所述对象的姿态；其中，生成所述对象的所述抽象人体模型包括：

将每个身体部位与预定义的抽象身体部位耦合；

基于所耦合的身体部位，增补所述对象的多个缺失的单个身体部位和耦合身体部位；并且

通过将所增补的缺失部位与所耦合的身体部位连接，构建表示所述对象的估计姿态的所述对象的骨架表示；并且

其中，所捕获的视频数据是无约束视频数据，并且所述视频数据包括多个帧；并且

其中，所述抽象人体模型包括每个身体部位的信息，连同每个帧中身体部位之间的空间约束，以及贯穿多个帧的时间一致性。

2.根据权利要求1所述的系统，其中，提取所述基本卷积特征是实时执行的，并且其中，对记录的视频序列和/或实况视频序列执行所述基本卷积特征的提取，并且其中，所述一个或多个处理单元实施包括深度卷积神经网络的一个或多个机器学习算法以提取所述基本卷积特征。

3.根据权利要求2所述的系统，其中，捕获的视频数据是不受约束的，其中，所述视频数据是作为基线的RGB图像，并且与包括深度图像或热图像或磁图像或超声图像、惯性图像的一个或多个图像追踪维度相组合。

4.根据权利要求1所述的系统，其中，所述移动捕获设备是具有至少一个数码相机的移动终端，并且所述一个或多个处理单元包括在执行用于所述图像和/或视频数据的自动化处理的所述一个或多个机器学习算法的移动捕获设备中。

5.根据权利要求4所述的系统，还包括与所述移动捕获设备连接的远程计算设备，并且其中，所述远程计算设备包括一个或多个处理单元，并且其中，所述图像和/或视频数据的所述自动化处理部分地在所述移动捕获设备中包括的一个或多个处理单元中执行，部分地在所述远程计算设备中包括的一个或多个处理单元中执行。

6.根据权利要求1所述的系统，其中，所估计的姿势包括所述对象的位置与定向的结合，并且其中，所估计的姿势还包括关于所述对象在给定图像上的位置的z轴坐标。

7.根据权利要求1所述的系统，其中，所述多个缺失的单个身体部位和耦合身体部位的所述增补还包括分析特定身体部位的先前位置和/或预设自由度，所述自由度是指刚性体在三维空间中运动的自由度。

8.根据权利要求1所述的系统，其中，所述基本卷积特征包括：基本特征，所述基本特征包括所述对象在所述虚拟空间中的点、线和圆；或者是平面区块或复合特征；并且其中，身体部位选自鼻部、颈部、右肩部、右肘部、右腕部、左肩部、左肘部、左腕部、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝或腹股沟。

9.根据权利要求1所述的系统，其中，所述一个或多个处理单元还实施一个或多个机器学习算法，以编译包括在所述对象的所述骨架表示中的姿势信息，以形成所述骨架表示的2D表示。

10.根据权利要求9所述的系统，其中，所述一个或多个处理单元还实施一个或多个机器学习算法，以通过下述来分析所述估计姿态的所述骨架表示：生成包括关节角度在内的复杂解析特征进行度量比较，以指示所述对象在所述虚拟空间中移动时的特定估计姿态的阶段。

11.根据权利要求10所述的系统，其中，所述一个或多个处理单元还实施一个或多个机器学习算法，以通过下述来估算所述对象的所述估计姿态：使用N-最佳推理算法生成多个最佳姿态假设，并相对于先前的特征对应关系确定最佳姿态。

12.根据权利要求11所述的系统，其中，所述一个或多个处理单元还实施一个或多个机器学习算法，以通过将所述最佳姿态与所述对象在所述虚拟空间中的地面真实姿态进行比较以针对误差分析来估算所述最佳姿态。

13.根据权利要求11所述的系统，其中，所述一个或多个处理单元还实施一个或多个机器学习算法，以将2D表示形式从二维转换到三维空间。

14.一种用于估计对象的姿势和姿态信息的系统，所述系统包括：

基于所述对象的所述具体特征来估计所述对象的姿势，其中，估计所述对象的姿势包括根据所述对象的给定图像估计身体部位信息，并且其中，所述姿势包括：身体部位类型、关于所述给定图像上的位置的x轴和y轴坐标；

将所述姿势中的身体部位与预定义的抽象身体部位耦合；

基于所估计的姿势和所耦合的身体部位，生成所述对象的所述具体特征的抽象人体模型；并且

根据所述抽象人体模型中包括的所述具体特征，估计所述对象的姿态；并且

其中，所述视频数据包括多个帧；并且

15.根据权利要求14所述的系统，其中，所述对象的所述抽象人体模型的生成还包括以下步骤：根据所述视频数据来估计对象的多个身体部位；将每个身体部位与预定义的抽象身体部位耦合；基于所耦合的身体部位，增补所述对象的多个缺失的单个身体部位和耦合身体部位；以及通过将增补的所述多个缺失的部位与所述耦合的身体部位连接，构建表示所述对象的估计姿态的所述对象的骨架表示。

16.根据权利要求14所述的系统，其中，所述移动捕获设备是具有至少一个数码相机的移动终端，并且所述一个或多个处理单元包括在执行用于所述图像和/或视频数据的所述自动化处理的所述一个或多个机器学习算法的所述移动捕获设备中，并且所述系统还包括与所述移动捕获设备连接的远程计算设备，并且其中，所述远程计算设备包括部分地执行所述图像和/或视频数据的所述自动化处理的一个或多个处理单元。

17.根据权利要求15所述的系统，其中，所述一个或多个处理单元还实施一个或多个机器学习算法，以通过下述来估算所述对象的所述估计姿态：使用N-最佳推理算法生成多个最佳姿态假设，并相对于先前的特征对应关系确定最佳姿态。

18.一种用于估计对象的姿势和姿态信息的方法，所述方法包括：

使用移动捕获设备连续捕获位于覆盖所述对象的虚拟空间内的所述对象的图像和/或视频数据；

通过一个或多个处理单元对所述图像和/或视频数据实施一个或多个机器学习算法，并执行所述图像和/或视频数据的自动化处理，以：

基于所述对象的所述具体特征来估计所述对象的姿势，其中，估计所述对象的姿势包括根据所述对象的给定图像来估计身体部位信息，并且其中，所述姿势包括下述姿势信息，所述姿势信息包括身体部位类型、关于所述给定图像上的位置的x轴和y轴坐标；

基于所述估计的姿势生成所述对象的所述具体特征的抽象人体模型；并且

根据在所述抽象人体模型中包括的所述具体特征，估计所述对象的姿态；其中，生成所述对象的所述抽象人体模型还包括：

将每个身体部位与预定义的抽象身体部位耦合；

基于所耦合的身体部位，增补所述对象的多个缺失的单个身体部位和耦合身体部位；以及

通过将增补的缺失部位与所耦合的身体部位连接，构建表示所述对象的估计姿态的所述对象的骨架表示；并且

其中，捕获的视频数据包括多个帧；并且

19.根据权利要求18所述的方法，还包括：

实施所述一个或多个机器学习算法，以编译所述对象的所述骨架表示中包括的所述姿势信息，以形成所述骨架表示的2D表示，以及

实施所述一个或多个机器学习算法，以将2D表示形式从二维转换到三维空间。

20.根据权利要求19所述的方法，还包括：

通过所述一个或多个处理单元实施所述一个或多个机器学习算法，以：

a.通过使用N-最佳推理算法生成多个最佳姿态假设并相对于先前的特征对应关系确定最佳姿态，来估算所述对象的所述估计姿态；以及

b.通过将所述最佳姿态与所述对象在所述虚拟空间中的地面真实姿态进行比较以针对误差分析来估算所述最佳姿态。