CN115917600A

CN115917600A - 基于纹理的姿势验证

Info

Publication number: CN115917600A
Application number: CN202180037630.4A
Authority: CN
Inventors: 马坦·祖海尔; 阿维豪伊·阿苏利纳; 贾勒·杜多维奇; 伊塔马尔·贝格尔
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2020-04-27
Filing date: 2021-04-26
Publication date: 2023-04-04
Also published as: EP4143788A1; US11508087B2; US20210335004A1; WO2021222107A1; KR20230003555A

Abstract

本公开内容的各方面涉及包括存储程序的计算机可读存储介质的系统和用于检测用户的姿势的方法。该程序和方法包括以下操作：接收单目图像，该单目图像包括对处于给定姿势的用户的身体的描绘；检测单目图像中描绘的身体的多个骨骼关节；基于多个骨骼关节，生成用户的身体的轮廓；检索表示目标姿势的掩模；将单目图像中描绘的身体的轮廓与表示目标姿势的掩模进行比较；以及响应于将身体的轮廓与掩模进行比较，确定用户的身体的给定姿势与目标姿势匹配。

Description

基于纹理的姿势验证

优先权要求

本申请要求于2020年4月27日提交的美国专利申请序列第15/929,333号的优先权，该美国专利申请的全部内容通过引用并入本文中。

技术领域

本公开内容总体上涉及基于描绘用户的图像检测用户的姿势。

背景技术

图像处理系统可以用于对用户执行的由摄像装置捕获的不同动作作出反应。这样的系统可以修改虚拟对象的呈现或者执行其他应用特定功能。由于环境条件、用户动作、摄像装置与正在被显现的对象之间的意外视觉中断等，这样的系统可能会遇到呈现问题。呈现问题也会由于未能准确地检测到用户动作而产生的。这可能使虚拟对象消失或者以其他方式表现异常，或者使不正确的功能被执行，从而会打断虚拟对象存在于现实世界中的错觉。

附图说明

在不一定按比例绘制的附图中，相似的数字可以在不同的视图中描述相似的部件。为了容易识别对任何特别元素或行动的讨论，附图标记中的一个或更多个最高位数字是指首次引入该元素的图号。在附图的图中以示例而非限制的方式示出了一些实施方式，在附图中：

图1是示出根据示例实施方式的用于通过网络交换数据(例如，消息和相关联内容)的示例性消息收发系统的框图。

图2是示出根据示例实施方式的关于图1的消息收发系统的进一步细节的框图。

图3是示出根据示例实施方式的可以存储在消息收发服务器系统的数据库中的数据的示意图。

图4是示出根据示例实施方式的由消息收发客户端应用生成以供传送的消息的结构的示意图。

图5A是示出根据示例实施方式的示例身体姿势验证系统的框图。

图5B是示出根据示例实施方式的用于确定身体姿势的身体关节位置的图。

图6是示出根据示例实施方式的身体姿势验证系统的示例操作的流程图。

图7示出了根据示例实施方式的说明性身体姿势掩模。

图8示出了根据示例实施方式的身体姿势验证系统的说明性输入和输出。

图9是根据一些示例的呈计算机系统形式的机器的图解表示，在该机器内可以执行一组指令以使该机器执行本文所讨论的方法中任何一种或更多种。

图10是示出可以在其中实现示例的软件架构的框图。

具体实施方式

以下描述包括体现本公开内容的说明性实施方式的系统、方法、技术、指令序列及计算机器程序产品。在下面的描述中，出于说明的目的，阐述了许多具体细节以提供对各种实施方式的理解。然而，对于本领域技术人员而言将明显的是，可以在没有这些具体细节的情况下实践实施方式。一般地，公知的指令实例、协议、结构和技术不一定详细地示出。

通常，虚拟现实(VR)和增强现实(AR)系统通过捕获用户的图像并另外地使用深度传感器获得在图像中描绘的现实世界人体的深度图来显示表示给定用户的化身。通过将深度图和图像一起处理，VR系统和AR系统可以检测和模仿由用户执行的动作或对用户执行的动作作出反应。虽然这样的系统很好地进行呈现用户的化身和对由用户执行的动作作出反应，例如，修改虚拟对象或执行应用功能，但是对深度传感器的需要限制了其应用范围。这是因为出于显示化身或响应于用户检测到的姿势执行动作的目的而将深度传感器添加至用户设备会增加了设备的总成本和复杂性，从而使得它们的吸引力降低。

某些系统试图基于图像中描绘的用户的身体的关节位置而检测在图像中接收的诸如姿势的用户动作。这样的系统依赖于要指定的各种关节位置的预定角度。这些系统实时地计算图像中检测到的关节位置的角度，以用于与预定角度进行比较，以检测给定姿势。输入这样的角度需要一定水平的技巧，并且特别地在跟踪大的姿势子集时，消耗大量的时间。这降低了系统的可扩展性，并且增加了这样的系统消耗的总体资源量。

其他系统试图通过应用先前训练的神经网络来检测用户的动作，该神经网络对一个或更多个图像进行分割以检测给定姿势。这样的神经网络需要大量的时间和资源进行训练以准确地预测给定的姿势。这些系统还要求输入图像具有特定的位置、取向和尺度，以准确地检测输入图像中的姿势。这降低了系统的可扩展性，并且增加了这样的系统消耗的总体资源量，甚至仍然未能总是有效地工作来检测用户姿势。

所公开的实施方式通过从用户的一个或更多个图像中识别用户身体的骨骼关节并生成用户身体的轮廓以和与目标姿势相关联的掩模进行比较来提高使用电子设备的效率。如果身体的轮廓和与掩模相关联的目标姿势匹配，则用户身体的姿势被验证为与目标姿势匹配。作为响应，可以执行给定的一组应用动作，或者可以在AR/VR环境中显现虚拟对象。具体地，接收包括对处于给定姿势的用户的身体的描绘的单目图像，并检测单目图像中描绘的身体的多个骨骼关节。这样的骨骼关节可以使用一个或更多个先前训练的机器学习技术或使用任何其他合适的操作来检测。基于多个骨骼关节来生成用户的身体的轮廓，并且检索表示目标姿势的掩模。可以基于应用的诸如计数开合跳的目标功能或基于要修改的虚拟对象来检索掩模。将在单目图像中描绘的身体的轮廓与表示目标姿势的掩模进行比较，并且作为响应，确定用户的身体的给定姿势与目标姿势匹配。本文所使用的“轮廓”是指对象的外线或剪影(例如，对象的框表示)。

通过使用掩模图像确定用户(或其他对象)的姿势，不需要预先输入和计算不同关节位置之间的复杂角度。这增加了可以输入和创建不同目标姿势的便利性，并减少了检测姿势时的总体资源消耗，至少因为不需要实时地计算不同的角度来检测目标姿势。此外，根据所公开的实施方式，通过将掩模与输入图像中检测到的身体的中心对准，增加了系统的可扩展性，并使得系统能够动态地且持续地调整以适应在用户向左/向右或朝向/远离摄像装置移动时输入的图像中的用户的位置。这使得所公开的实施方式在验证由用户执行的给定姿势时对输入图像中的用户身体的具体位置、取向和尺度不那么敏感。

虚拟对象(例如，三维对象，例如3D题注、表情符号、人物、化身、动画、个性化化身或人物的循环动画、诸如跳舞的热狗的循环或非循环动画图形、具有动画的风格化词等)可以响应于目标姿势被检测到而直接从单个红、绿、蓝(RGB)图像(例如，单目RGB图像)或描绘现实世界的用户身体的RGB图像的视频直接生成。所公开的实施方式在也无需获得现实世界的用户身体的深度图的情况下生成虚拟对象。这使得具有简单RGB摄像装置(没有深度传感器)的用户设备能够在VR或AR应用中基于现实世界用户的身体姿势准确且快速地显现经动画化的虚拟对象，从而允许用户在更真实的环境中与VR或AR内容交互。

联网计算环境

图1是示出用于通过网络来交换数据(例如，消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例，其中的每个实例托管包括消息收发客户端104和AR/VR应用105的若干应用。每个消息收发客户端104和AR/VR应用105经由网络106(例如，因特网)通信地耦接至消息收发客户端104和AR/VR应用105以及消息收发服务器系统108的其他实例。

消息收发客户端104和AR/VR应用105能够经由网络106与另一消息收发客户端104和AR/VR应用105以及消息收发服务器系统108进行通信并交换数据。在消息收发客户端104之间以及在消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如，用于激发功能的命令)以及有效载荷数据(例如，文本、音频、视频或其他多媒体数据)。

AR/VR应用105是包括允许客户端设备102访问身体姿势验证系统126的一组功能的应用。在一些实现方式中，AR/VR应用105是作为消息收发客户端104的一部分的部件或特征。AR/VR应用105使用RGB摄像装置来捕获用户现实世界身体的一个或更多个单目图像(例如，视频)。AR/VR应用105在捕获的身体图像上应用一个或更多个经训练的机器学习技术来检测身体的骨骼关节位置。AR/VR应用105例如通过绘制连接被检测到的不同骨骼关节位置的线，来生成用户身体的轮廓。AR/VR应用105从存储设备获得一个或更多个掩模，每个掩模描绘了不同的目标姿势，例如，执行给定的一组应用功能。例如，如果AR/VR应用105包括对由用户执行的开合跳进行计数的功能，则AR/VR应用105检索描绘第一目标姿势的第一掩模和描绘第二目标姿势的第二掩模。每当AR/VR应用105确定用户的轮廓与第一掩模的第一目标姿势匹配随后与第二掩模的第二目标姿势匹配时，AR/VR应用105将表示检测到的开合跳的总次数的数字递增。

例如，当用户的手举起到头部之上并且随后放下时，AR/VR应用105确定已完成单次开合跳，并且自动地将跑动总数递增1。在一些情况下，AR/VR应用105将捕获的图像中的第一图像中描绘的身体的第一轮廓与第一掩模进行比较。当轮廓与掩模中描绘的目标姿势基本上交叠时(例如，当轮廓的多于阈值数量的像素与掩模中描绘的目标姿势的像素交叠时)，AR/VR应用105确定第一图像中描绘的姿势与第一掩模匹配。然后，AR/VR应用105分析随后在第一图像之后接收到的第二图像以生成第二轮廓。AR/VR应用105检索第二掩模并将第二轮廓与第二掩模进行比较。当第二轮廓与第二掩模中描绘的目标姿势基本上交叠时(例如，当轮廓的多于阈值数量的像素与掩模中描绘的目标姿势的像素交叠时)，AR/VR应用105确定第二图像中描绘的姿势与第二掩模匹配。一旦AR/VR应用105确定在第一姿势之后第二姿势被依次验证，则AR/VR应用105执行应用功能，例如将表示由用户执行的开合跳总次数的数字递增。其他功能可以包括：在视频游戏中发射虚拟武器或者响应于确定第一姿势和第二姿势正由用户按顺序执行而以某种方式修改一个或更多个化身。

在一些实施方式中，AR/VR应用105通过从本地或远程存储装置中获得第一经训练的机器学习技术，直接从捕获的RGB图像中检测捕获的RGB图像中描绘的身体的关节位置。第一经训练的机器学习技术处理捕获的RGB图像，以从RGB图像中提取与捕获的RGB图像中描绘的身体对应的一个或更多个特征。对这些特征进行分析，以识别一个或更多个骨骼关节和它们相对于彼此的各自对准。具体地，对这些特征进行分析，以确定指定的一组骨骼关节的关节位置。AR/VR应用105还获得第二经训练的机器学习技术，以处理一个或更多个先前捕获的帧(例如，在RGB图像紧之前的1至2秒的视频帧)，以估计或预测后续帧的骨骼关节位置。阈值秒数量的视频帧(其可以是用户定义的、先前指定的和/或动态确定的)可以连续或定期地存储在缓冲器中，使得在当前RGB图像之前的阈值秒数的视频帧可以通过第二经训练的机器学习技术来访问。第二经训练的机器学习技术的骨骼关节位置的输出或预测用于过滤或改进通过第一经训练的机器学习技术识别的骨骼关节位置。在一些情况下，第二经训练的机器学习技术将通过第一经训练的机器学习技术识别的骨骼关节位置连同先前捕获的帧一起处理，以过滤或改进估计的骨骼关节位置。用于检测骨骼关节位置的技术在2019年12月11日提交的共同拥有的Assouline等的美国专利申请第16/710,980号中更详细地描述，该美国专利申请的全部内容通过引用并入本文中。

消息收发服务器系统108经由网络106向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行，但是某些功能在消息收发客户端104或消息收发服务器系统108内的定位可以是设计选择。例如，在技术上可以优选的是：在最初将某些技术和功能部署在消息收发服务器系统108内，但是稍后在客户端设备102具有足够处理能力的情况下，将该技术和功能迁移至消息收发客户端104。

消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。该数据可以包括消息内容、客户端设备信息、地理位置信息、媒体增强和覆盖、消息内容持续性条件、社交网络信息和现场事件信息作为示例。通过经由消息收发客户端104的用户界面(UI)可用的功能来激发和控制消息收发系统100内的数据交换。

现在具体地转至消息收发服务器系统108，应用程序接口(API)服务器110耦接至包括身体姿势验证系统126的应用服务器112并且向应用服务器112提供编程接口。应用服务器112通信地耦接至数据库服务器118，数据库服务器118促进对数据库120的访问，该数据库120存储与由应用服务器112处理的消息相关联的数据。类似地，web服务器124耦接至应用服务器112，并且向应用服务器112提供基于web的接口。为此，web服务器124通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。

应用程序接口(API)服务器110在客户端设备102与应用服务器112之间接收和发送消息数据(例如，命令和消息有效载荷)。特别地，应用程序接口(API)服务器110提供一组接口(例如，例程和协议)，消息收发客户端104可以调用或查询这组接口以调用应用服务器112的功能。应用程序接口(API)服务器110显露由应用服务器112支持的各种功能，包括：帐户注册；登录功能；经由应用服务器112从特定消息收发客户端104向另一消息收发客户端104发送消息；从消息收发客户端104向消息收发服务器114发送媒体文件(例如，图像或视频)；以及为了能够由另一消息收发客户端104进行访问，设置媒体数据(例如，故事)的集合，检索客户端设备102的用户的朋友列表，检索这样的集合，检索消息和内容，向实体图(例如，社交图)添加以及从实体图删除实体(例如，朋友)，社交图中的朋友的定位，以及打开(例如，与消息收发客户端104有关的)应用事件。

应用服务器112托管若干服务器应用和子系统，包括例如消息收发服务器114、图像处理服务器116、身体姿势验证系统126以及社交网络服务器122。消息收发服务器114实现若干消息处理技术和功能，这些消息处理技术和功能特别地涉及被包括在从消息收发客户端104的多个实例接收的消息中的内容(例如，文本和多媒体内容)的聚合及其他处理。如将进一步详细描述的，来自多个源的文本和媒体内容可以聚合成内容集合(例如，称为故事或图库(gallery))。然后，使这些集合对消息收发客户端104可用。考虑到对数据的其他处理器和存储器密集型处理的硬件要求，也可以由消息收发服务器114在服务器侧执行这样的处理。

应用服务器112还包括图像处理服务器116，该图像处理服务器116专用于通常相对于在从消息收发服务器114发送或者在消息收发服务器114处接收到的消息的有效载荷内的图像或视频，执行各种图像处理操作。

社交网络服务器122支持各种社交联网功能和服务并使这些功能和服务可用于消息收发服务器114。为此，社交网络服务器122维护并且访问数据库120内的实体图306(如图3所示)。社交网络服务器122所支持的功能和服务的示例包括识别消息收发系统100中的与特定用户具有关系或正在“关注”该特定用户的其他用户，以及识别特定用户的兴趣和其他实体。

系统架构

图2是示出根据一些示例的关于消息收发系统100的进一步细节的框图。具体地，消息收发系统100被示出为包括消息收发客户端104和应用服务器112。消息收发系统100包含若干子系统，这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器112支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统206、地图系统208、游戏系统210。在一些实现方式中，增强系统206实现了身体姿势验证系统126的功能中的一些或全部。

短暂定时器系统202负责实施由消息收发客户端104和消息收发服务器114对内容进行临时或时间受限的访问。短暂定时器系统202包含若干定时器，这些定时器基于与消息或消息集合(例如，故事)相关联的持续时间和显示参数，选择性地实现经由消息收发客户端104访问(例如，用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的其他细节。

集合管理系统204负责管理媒体的组和集合(例如，文本、图像视频和音频数据的集合)。可以将内容(例如，包括图像、视频、文本和音频的消息)的集合组织成“事件图库”或“事件故事”。可以使这样的集合在指定时间段例如在与内容有关的事件的持续时间内可用。例如，可以使与音乐会有关的内容在该音乐会的持续时间内作为“故事”可用。集合管理系统204还可以负责向消息收发客户端104的用户界面发布提供存在特定集合的通知的图标。

此外，集合管理系统204还包括策展接口212，该策展接口212允许集合管理器能够管理和策展特定内容集合。例如，策展接口212使得事件组织者能够策展与特定事件有关的内容集合(例如，删除不适当的内容或冗余消息)。此外，集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中，可以向用户支付对将用户生成的内容包括到集合中的补偿。在这样的情况下，策展管理系统204进行操作以自动地向这样的用户进行支付以使用他们的内容。

增强系统206提供使得用户能够增强(例如，注解或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如，增强系统206提供与生成和发布由消息收发系统100处理的消息的媒体覆盖有关的功能。增强系统206基于客户端设备102的地理位置可操作地向消息收发客户端104供应媒体覆盖或增强(例如，图像过滤器)。在另一示例中，增强系统206基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息收发客户端104供应媒体覆盖。媒体覆盖可以包括音频和视觉内容和视觉效果。音频和视觉内容的示例包括图片、文本、标志、动画和声音效果。视觉效果的示例包括颜色覆盖。音频及视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项(例如，照片)。例如，媒体覆盖可以包括可以覆盖在由客户端设备102拍摄的照片之上的文本或者图像。在另一示例中，媒体覆盖包括位置标识覆盖(例如，威尼斯海滩)、实况事件名称或商家名称覆盖(例如，海滩咖啡馆)。在另一示例中，增强系统206使用客户端设备102的地理位置来标识包括客户端设备102的地理位置处的商家的名称的媒体覆盖。媒体覆盖可以包括与商家相关联的其他标记。媒体覆盖可以存储在数据库120中并通过数据库服务器118访问

在一些示例中，增强系统206提供基于用户的发布平台，该基于用户的发布平台使得用户能够选择地图上的地理位置并上传与所选择的地理位置相关联的内容。用户还可以指定应当向其他用户提供特定媒体覆盖的环境。增强系统206生成包括所上传的内容的媒体覆盖并将所上传的内容与所选择的地理位置相关联。

在其他示例中，增强系统206提供基于商家的发布平台，该平台使得商家能够经由出价过程选择与地理位置相关联的特定媒体覆盖。例如，增强系统206将最高出价商家的媒体覆盖与对应地理位置相关联达预定义时间量。

地图系统208提供各种地理位置功能，并且支持由消息收发客户端104呈现基于地图的媒体内容和消息。例如，地图系统208使得能够在地图上显示(例如，存储在配置文件数据308中的)用户图标或化身，以在地图的上下文中指示用户的“朋友”的当前或过去位置，以及由这样的朋友生成的媒体内容(例如，包括照片和视频的消息的集合)。例如，由用户从特定地理位置发布到消息收发系统100的消息可以在消息收发客户端104的地图界面上在地图的上下文中在该特定位置处显示给特定用户的“朋友”。用户还可以经由消息收发客户端104与消息收发系统100的其他用户(例如，使用适当的状况化身来)共享他或她的位置和状况信息，其中，在消息收发客户端104的地图界面的上下文中该位置和状况信息被类似地显示给选择的用户。

游戏系统210在消息收发客户端104的上下文中提供各种游戏功能。消息收发客户端104提供游戏界面，该游戏界面提供可以由用户在消息收发客户端104的上下文中启动并且与消息收发系统100的其他用户一起玩的可用游戏的列表。消息收发系统100还使得特定用户能够通过从消息收发客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息收发客户端104还支持在玩游戏的上下文中的语音消息收发和文本消息收发(例如，聊天)两者，为游戏提供排行榜，并且还支持提供游戏内奖励(例如，钱币和物品)。

数据架构

图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库120中的数据结构300的示意图。虽然数据库120的内容被示出为包括若干表，但是应当理解的是，数据可以存储在其他类型的数据结构中(例如，作为面向对象的数据库)。

数据库120包括存储在消息表302内的消息数据。对于任何特定的消息，该消息数据包括至少消息发送者数据、消息接收方(或接收者)数据和有效载荷。下面参照图4描述了关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。

实体表304存储实体数据，并且(例如，参考地)链接至实体图306和配置文件数据308。在实体表304内为其维持记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。无论实体类型如何，消息收发服务器系统108存储关于其的数据的任何实体都可以是识别的实体。每个实体都被提供有唯一标识符以及实体类型标识符(未示出)。

实体图306存储关于实体之间的关系和关联的信息。这样的关系可能仅仅例如是社交的、职业的(例如，在共同的公司或组织工作)、基于兴趣的或者基于活动的。

配置文件数据308存储关于特定实体的多种类型的配置文件数据。基于由特定实体指定的隐私设置，配置文件数据308可以被选择性地使用并呈现给消息收发系统100的其他用户。在实体是个人的情况下，配置文件数据308包括例如用户名、电话号码、地址、设置(例如，通知和隐私设置)、以及用户选择的化身表示(或这样的化身表示的集合)。然后，特定用户可以将这些化身表示中的一个或更多个选择性地包括在经由消息收发系统100传送的消息的内容中以及在由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状况化身”，其呈现用户可以选择在特定时间传达的状况或活动的图形表示。

在实体是团体的情况下，除了团体名称、成员和相关团体的各种设置(例如，通知)之外，团体的配置文件数据308还可以类似地包括与团体相关联的一个或更多个化身表示。

数据库120还在增强表310中存储增强数据，例如覆盖或过滤器。增强数据与视频(视频数据存储在视频表314中)和图像(图像数据存储在图像表316中)相关联并且应用于视频和图像。

在一个示例中，过滤器是在呈现给接收用户期间显示为覆盖在图像或视频上的覆盖。过滤器可以是各种类型的，包括当发送用户正在编写消息时从由消息收发客户端104呈现给发送用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理位置过滤器(也称为地理过滤器)，其可以基于地理位置被呈现给发送用户。例如，可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理位置信息，由消息收发客户端104在用户界面内呈现特定于附近或特殊位置的地理位置过滤器。

另一种类型的过滤器是数据过滤器，其可以由消息收发客户端104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特定位置处的当前温度、发送用户行进的当前速度、客户端设备102的电池寿命或当前时间。

可以存储在图像表316内的其他增强数据包括增强现实内容项(例如，对应于应用镜头或增强现实体验)。增强现实内容项可以是可以添加到图像或视频的实时特殊效果和声音。

经训练的机器学习技术306存储在身体姿势验证系统126的训练期间已训练的参数。例如，经训练的机器学习技术306存储一个或更多个神经网络机器学习技术的训练参数。

目标姿势掩模309存储表示不同目标姿势的掩模。每个目标姿势掩模或目标姿势掩模的组合或序列可以与不同的AR/VR应用功能相关联。每个目标姿势掩模包括目标姿势的黑白描绘。例如，掩模可以使用黑色背景上的白色像素来描绘目标姿势。可以在掩模中利用任何其他合适的掩模布置或颜色来表示目标姿势，例如白色背景上的表示目标姿势的黑色像素。掩模可以是用户定义的或使用任何合适的描绘工具绘制并存储在目标姿势掩模309中。掩模可以描绘用户的整个身体(例如，手臂、头部、颈部、躯干和腿)，或者仅描绘作为目标姿势的主体的身体的一部分(例如，仅头部、颈部、肩膀和手臂)。每个掩模可以与像素计数或像素阈值相关联，该像素计数或像素阈值对于要验证为目标姿势而言指定掩模必须与输入图像中描绘的用户的轮廓交叠多少。阈值也可以被定义为用于与掩模像素匹配和不匹配的更复杂的数学函数。例如，第一掩模可以与80％阈值相关联，并且第二掩模可以与95％阈值相关联。在这种情况下，当对应于用户的身体轮廓的像素与第一掩模中的描绘目标姿势的像素中80％交叠时，验证为或检测到第一目标姿势。作为另一示例，当与用户的身体轮廓对应的像素与第二掩模中的描绘目标姿势的像素中少于95％交叠时，未验证为或未检测到第二目标姿势。在一些情况下，可以将默认阈值应用于存储在目标姿势掩模309中的所有掩模。掩模也可以描绘任何非人类对象(例如，狗、猫、动物或其他对象)。也就是说，所公开的实施方式适用于检测用户的目标姿势和检测其他对象的目标姿势。

在某些实施方式中，第一阈值可以与第一掩模的第一部分相关联(例如，第一姿势的头部区域可以与50％阈值相关联)，并且第二阈值可以与第一掩模的第二部分相关联(例如，第一姿势的手臂区域可以与85％阈值相关联)。在这种情况下，当图像区域中描绘的用户的身体轮廓的头部区域像素与第一掩模的头部区域的至少50％交叠时，并且当轮廓的手臂区域像素与第一掩模的手臂区域的多于85％交叠时，验证为或检测到第一目标姿势。当图像区域中描绘的用户的身体轮廓的头部区域像素与第一掩模的头部区域的至少50％交叠时，并且当轮廓的手臂区域像素与第一掩模的手臂区域的少于85％交叠时，未验证为或未检测到第一目标姿势。

存储在目标姿势掩模309中的第一掩模可以与第二掩模相关联。例如，可以将第一掩模在目标姿势序列中定位为第一，并且可以将第二掩模在目标姿势序列中定位为第二。在这种情况下，当在检测到第一目标姿势之后顺序地检测第二目标姿势时，执行应用功能。如果首先检测到第二目标姿势并且随后检测到第一目标姿势，则不执行应用功能，并且系统继续监测目标姿势序列。在一些情况下，无论检测到这些姿势的序列如何，在输入图像中检测到的与序列中的所有姿势匹配的各姿势的任何组合都导致执行应用功能。例如，检测到目标姿势序列中的第二姿势并且随后检测到第一姿势可能致使应用功能被执行。在一些实施方式中，当检测到目标姿势序列(例如，在输入图像中检测到第一目标姿势，随后是第二目标姿势)时，执行第一应用功能，而当未按照序列检测到目标姿势(例如，在第一目标姿势之前，在输入图像中先检测到第二目标姿势)时，执行第二应用功能。

如上所述，增强数据包括增强现实内容项、覆盖、图像变换、AR图像以及指代可以应用于图像数据(例如，视频或图像)的修改的类似项。这包括实时修改，实时修改在图像被使用客户端设备102的设备传感器(例如，一个或更多个摄像装置)进行捕获并且然后在修改的情况下在客户端设备102的屏幕上显示时对图像进行修改。这还包括对存储的内容(例如可以修改的图库中的视频片段)的修改。例如，在具有对多个增强现实内容项的访问权限的客户端设备102中，用户可以使用具有多个增强现实内容项的单个视频片段来查看不同的增强现实内容项将如何修改存储的片段。例如，通过为同一内容选择不同的增强现实内容项，可以将应用不同伪随机运动模型的多个增强现实内容项应用于该同一内容。类似地，实时视频捕获可以与示出的修改一起使用，以示出当前由客户端设备102的传感器捕获的视频图像将如何修改捕获的数据。这样的数据可以简单地显示在画面上而不存储在存储器中，或者由设备传感器捕获的内容可以在进行或不进行修改(或两者)的情况下记录并存储在存储器中。在一些系统中，预览特征可以示出不同的增强现实内容项将同时在显示器中的不同窗口内看起来如何。例如，这可以使得能够同时在显示器上查看具有不同伪随机动画的多个窗口。

因此，使用增强现实内容项的数据和各种系统或使用该数据来修改内容的其他这样的变换系统可以涉及对象(例如，面部、手、身体、猫、狗、表面、对象等)的检测，在这样的对象离开、进入视频帧中的视场以及在视场四处移动时对这样的对象的跟踪，以及在这样的对象被跟踪时对这样的对象的修改或变换。在各种实施方式中，可以使用用于实现这样的变换的不同方法。一些示例可以涉及生成一个或更多个对象的三维网格模型，并在视频内使用模型的变换和动画化纹理来实现变换。在其他示例中，可以使用对对象上的点的跟踪来将图像或纹理(其可以是二维或三维的)放置在所跟踪的位置处。在更进一步的示例中，可以使用视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如，视频的图像或帧)中。因此，增强现实内容项既是指用于在内容中创建变换的图像、模型和纹理，也是指利用对象检测、跟踪和放置实现这样的变换所需的附加建模和分析信息。

可以利用保存在任何种类的计算机化系统的存储器中的任何种类的视频数据(例如，视频流、视频文件等)来执行实时视频处理。例如，用户可以加载视频文件并将其保存在设备的存储器中，或者可以使用设备的传感器生成视频流。此外，可以使用计算机动画模型来处理任何对象，例如人脸和人体的各部分、动物或非生物(例如椅子、汽车或其他对象)。

在一些示例中，当与待变换的内容一起选择特定修改时，待变换的元素由计算设备识别，然后如果待变换的元素存在于视频的帧中，则待变换的元素被检测和跟踪。根据修改请求来修改对象的元素，从而变换视频流的帧。对于不同种类的变换，可以通过不同的方法执行对视频流的帧的变换。例如，对于主要是指对象的元素的变化形式的帧变换，计算对象的每个元素的特征点(例如，使用主动形状模型(ASM)或其他已知方法)。然后，针对对象的至少一个元素中的每一个生成基于特征点的网格。该网格用于跟踪视频流中的对象的元素的后续阶段。在跟踪过程中，每个元素的提及的网格与每个元素的位置对准。然后，在网格上生成附加点。基于修改请求针对每个元素生成一组第一点，并且基于该组第一点和修改请求针对每个元素生成一组第二点。然后，可以通过基于该组第一点和该组第二点以及网格修改对象的元素，来变换视频流的帧。在这样的方法中，也可以通过跟踪和修改背景来改变或扭曲经修改的对象的背景。

在一些示例中，可以通过计算对象的每个元素的特征点并基于计算的特征点生成网格来执行使用对象的元素改变对象的一些区域的变换。在网格上生成点，并且然后生成基于这些点的各种区域。然后，通过将每个元素的区域与至少一个元素中的每一个的位置对准来跟踪对象的元素，并且可以基于修改请求来修改区域的属性，从而变换视频流的帧。根据具体修改请求，可以以不同的方式变换提及的区域的属性。这样的修改可以涉及：改变区域的颜色；从视频流的帧中移除至少部分区域；将一个或更多个新对象包括在基于修改请求的区域中；以及修改或扭曲区域或对象的元素。在各种实施方式中，可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型，可以选择一些特征点作为控制点，以用于确定用于模型动画的选项的整个状态空间。

在使用面部检测来变换图像数据的计算机动画模型的一些示例中，使用特定面部检测算法(例如，Viola-Jones)在图像上检测面部。然后，将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。

在其他示例中，可以使用适合于面部检测的其他方法和算法。例如，在一些实施方式中，使用界标来定位特征，该界标表示在所考虑的大多数图像中存在的可区分点。例如，对于面部界标，可以使用左眼瞳孔的位置。如果初始界标不可识别(例如，如果人有眼罩)，则可以使用次要界标。这样的界标识别过程可以用于任何这样的对象。在一些示例中，一组界标形成形状。可以使用形状中的点的坐标将形状表示为向量。一个形状利用相似变换(允许平移、缩放和旋转)与另一个形状对准，该相似变换使形状点之间的平均欧几里德距离最小化。平均形状是对准的训练形状的平均。

在一些示例中，开始从与由全局面部检测器确定的面部的位置和大小对准的平均形状搜索界标。然后，这样的搜索重复以下操作的步骤：通过每个点周围的图像纹理的模板匹配来调整形状点的位置来建议暂定形状，然后使暂定形状符合全局形状模型，直到发生收敛。在一些系统中，个别模板匹配是不可靠的，并且形状模型将弱模板匹配的结果进行池化，以形成较强的整体分类器。整个搜索从粗略分辨率到精细分辨率在图像金字塔的每个级别上重复。

变换系统可以在客户端设备(例如，客户端设备102)上捕获图像或视频流，并在客户端设备102上本地执行复杂的图像操纵，同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状改变、情绪迁移(例如，将面部从皱眉改变为微笑)、状态迁移(例如，使被摄体变老、减小表观年龄、改变性别)、风格迁移、图形元素应用，以及由已经被配置成在客户端设备102上高效地执行的卷积神经网络实现的任何其他合适的图像或视频操纵。

在一些示例中，用于变换图像数据的计算机动画模型可以由系统使用，在该系统中，用户可以使用具有作为在客户端设备102上操作的消息收发客户端104的一部分进行操作的神经网络的客户端设备102来捕获用户的图像或视频流(例如，自拍)。在消息收发客户端104内操作的变换系统确定图像或视频流内存在面部并且提供与计算机动画模型相关联的用于变换图像数据的修改图标，或者计算机动画模型可以被呈现为与本文中描述的界面相关联。修改图标包括以下改变，该改变可以是作为修改操作的一部分的用于修改图像或视频流内的用户的面部的基础。一旦选择了修改图标，则变换系统发起将用户的图像转换以反映所选择的修改图标(例如，在用户上生成笑脸)的过程。一旦捕获了图像或视频流并且选择了指定的修改，修改的图像或视频流就可以呈现在客户端设备102上显示的图形用户界面中。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络，以生成和应用所选择的修改。也就是说，用户可以捕获图像或视频流，并且一旦选择了修改图标就被实时或接近实时地呈现修改的结果。此外，当正在捕获视频流时，修改可以是持久的，并且所选择的修改图标保持被切换。机器教导的神经网络可以用于实现这样的修改。

呈现由变换系统执行的修改的图形用户界面可以为用户供应附加的交互选项。这样的选项可以基于用于发起特定计算机动画模型的内容捕获和选择的接口(例如，从内容创建者用户界面发起)。在各种实施方式中，修改可以在对修改图标的初始选择之后是持久的。用户可以通过轻击或以其他方式选择由变换系统修改的面部来开启或关闭修改，并将其存储以供以后查看或浏览到成像应用的其他区域。在由变换系统修改多个面部的情况下，用户可以通过轻击或选择在图形用户界面内修改和显示的单个面部来全局开启或关闭修改。在一些实施方式中，可以单独地修改一组多个面部中的各个面部，或者可以通过轻击或选择图形用户界面内显示的各个面部或一系列各个面部来单独切换这样的修改。

故事表312存储关于消息的集合的数据以及相关联的图像、视频或音频数据，这些数据被编译成集合(例如，故事或图库)。特定集合的创建可以由特定用户(例如，在实体表304中维持其记录的每个用户)发起。用户可以以已由该用户创建和发送/广播的内容集合的形式创建“个人故事”。为此，消息收发客户端104的用户界面可以包括用户可选择的图标，以使得发送用户能够将特定内容添加至他或她的个人故事。

集合还可以构成作为来自多个用户的内容集合的“现场故事”，该内容集合是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如，“现场故事”可以构成来自各种位置和事件的用户提交内容的策展流。可以例如经由消息收发客户端104的用户界面向其客户端设备使定位服务被启用并且在特定时间处于公共位置事件处的用户呈现选项，以将内容贡献给特定的现场故事。可以由消息收发客户端104基于他或她的位置向用户标识现场故事。最终结果是从社群角度讲述的“现场故事”。

另外类型的内容集合被称为“位置故事”，该“位置故事”使其客户端设备102位于特定地理位置内(例如，在学院或大学校园)的用户能够对特定集合做出贡献。在一些实施方式中，对位置故事的贡献可能需要第二程度的认证，以验证最终用户属于特定的组织或其他实体(例如，是大学校园的学生)。

如以上提及的，视频表314存储视频数据，在一个示例中，该视频数据与其记录被维持在消息表302内的消息相关联。类似地，图像表316存储与其消息数据存储在实体表304中的消息相关联的图像数据。实体表304可以将来自增强表310的各种增强与存储在图像表316和视频表314中的各种图像和视频相关联。

数据通信架构

图4是示出根据一些示例的消息400的结构的示意图，消息400由消息收发客户端104生成，以用于传送至另外的消息收发客户端104或消息收发服务器114。特定消息400的内容用于填充存储在数据库120内的消息表302，该消息表302可由消息收发服务器114访问。类似地，消息400的内容作为客户端设备102或应用服务器112的“传输中”或“飞行中”数据存储在存储器中。消息400被示为包括以下示例成分：

·消息标识符402：标识消息400的唯一标识符。

·消息文本有效载荷404：要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。

·消息图像有效载荷406：由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的图像数据。针对发送或接收到的消息400的图像数据可以存储在图像表316中。

·消息视频有效载荷408：由摄像装置部件捕获或者从客户端设备102的存储器部件检索并且包括在消息400中的视频数据。针对发送或接收到的消息400的视频数据可以存储在视频表314中。

·消息音频有效载荷410：由麦克风捕获或者从客户端设备102的存储器部件检索并且包括在消息400中的音频数据。

·消息增强数据412：表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408或消息音频有效载荷410的增强的增强数据(例如，过滤器、标贴或其他注解或增强)。针对发送或接收到的消息400的增强数据可以存储在增强表310中。

·消息持续时间参数414：以秒为单位指示消息的内容(例如，消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)要经由消息收发客户端104呈现给用户或可由用户访问的时间量的参数值。

·消息地理位置参数416：与消息的内容有效载荷相关联的地理位置数据(例如，纬度坐标和经度坐标)。多个消息地理位置参数416值可以包括在有效载荷中，这些参数值中的每一个与内容中包括的内容项(例如，消息图像有效载荷406中的特定图像，或者在消息视频有效载荷408中的特定视频)相关联。

·消息故事标识符418：标识一个或更多个内容集合(例如，在故事表312中标识的“故事”)的标识符值，其中消息400的消息图像有效载荷406中的特定内容项与一个或更多个内容集合相关联。例如，可以使用标识符值将消息图像有效载荷406内的多个图像各自与多个内容集合相关联。

·消息标签420：每个消息400可以用多个标签来标记，这样的多个标签中的每一个指示在消息有效载荷中包括的内容的主题。例如，在消息图像有效载荷406中包括的特定图像描绘动物(例如，狮子)的情况下，标签值可以被包括在指示相关动物的消息标签420内。可以基于用户输入手动生成标签值，或者可以使用例如图像识别自动生成标签值。

·消息发送者标识符422：指示在其上生成消息400以及从其发送消息400的客户端设备102的用户的标识符(例如，消息收发系统标识符、电子邮件地址或设备标识符)。

·消息接收者标识符424：指示消息400被定址到的客户端设备102的用户的标识符(例如，消息收发系统标识符、电子邮件地址或设备标识符)。

消息400的各组成部分的内容(例如，值)可以是指向表中存储内容数据值的位置的指针。例如，消息图像有效载荷406中的图像值可以是指向图像表316内的位置的指针(或图像表308内的位置的地址)。类似地，消息视频有效载荷408内的值可以指向存储在视频表314内的数据，存储在消息增强数据412内的值可以指向存储在增强表310中的数据，存储在消息故事标识符418内的值可以指向存储在故事表312中的数据，以及存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表304内的用户记录。

图5A是示出根据示例实施方式的示例身体姿势验证系统126的框图。身体姿势验证系统126对一组输入数据(例如，描绘用户的真实身体的单目图像501和目标姿势掩模502)进行操作。从数据库120获得该组输入数据的第一部分，在使用AR/VR应用105时从客户端设备102的RGB摄像装置获得该组输入数据的第二部分。身体姿势验证系统126包括机器学习技术模块512、骨骼关节位置模块514、姿势验证模块516、虚拟对象修改模块518和虚拟对象显示模块520。

在一些实施方式中，身体姿势验证系统126包括用户检测部件(未示出)。用户检测部件响应于从用户接收到激活客户端设备102的面向前或面向后的摄像装置的输入而被激活。一旦被激活，则用户检测部件分析由客户端设备的摄像装置捕获的一组图像的特征。用户检测部件确定这些特征是否和与人类或人对应的对象匹配。在这种情况下，用户检测部件启动用于确定图像中描绘的用户的姿势是否与目标姿势匹配的过程。具体地，用户检测部件指示机器学习技术模块512、骨骼关节位置模块514和姿势验证模块516将图像中检测到的用户的姿势与描绘各个姿势的一个或更多个掩模进行比较。在一些情况下，用户检测部件是机器学习技术模块512的一部分。

机器学习技术模块512从给定的输入图像中提取一个或更多个特征，以估计图像中描绘的骨骼关节的骨骼关节位置。例如，机器学习技术模块512获得描绘用户的面部、手臂、躯干、臀部和腿的给定图像。机器学习技术模块512从图像中提取与用户的面部和手臂对应的特征，以识别一个或更多个骨骼关节(例如，图5B中所示的关节，包括左/右手腕关节、左/右肘关节、左/右肩部关节和鼻子位置)。

机器学习技术模块512确定所识别的骨骼关节的相对位置，以确定与骨骼关节位置对应的姿势。

在一些实施方式中，第二机器学习技术模块512从给定的输入视频中提取一个或更多个特征以预测视频的上一帧之后的帧的骨骼关节位置。第二机器学习技术模块512从视频中提取与用户的面部和手臂对应的特征，以预测视频的上一帧之后的帧中的一个或更多个骨骼关节(例如，图5B中所示的关节，包括左/右手腕关节、左/右肘关节、左/右肩部关节和鼻子位置)。第二机器学习技术模块512预测沿着给定输入视频的一个或更多个后续帧的骨骼关节位置。第二机器学习技术模块512可以接收当前视频帧以及/或者根据该当前视频帧确定的骨骼关节位置。第二机器学习技术模块512可以处理连同当前帧的图像特征一起描绘身体的移动的一组先前帧，并预测下一帧的估计的骨骼关节位置。基于该预测，第二机器学习技术模块512将预测的估计骨骼关节位置与由第一机器学习技术模块512针对当前帧确定的骨骼关节位置进行比较。然后，第二机器学习技术模块512可以基于该比较来确定任何偏差和所需校正。

将机器学习技术模块512的提取的特征提供给骨骼关节位置模块514。骨骼关节位置模块514分析骨骼关节特征以确定特定骨骼关节的坐标。例如，骨骼关节位置模块514确定每个骨骼关节的特定点的x、y坐标，例如左手腕的x、y坐标、左肘的x、y坐标、左肩的x、y坐标、鼻子(或其他面部特征，如嘴部、耳朵或眼睛)的x、y坐标、右手腕的x、y坐标、右肘的x、y坐标和右肩的x、y坐标。

姿势验证模块516确定与检测到的骨骼关节位置对应的姿势是否与一个或更多个掩模中的目标姿势匹配。姿势验证模块516用线将关节位置连接，以生成图像中描绘的身体的轮廓纹理。轮廓纹理记录或存储姿势与背景的光栅表示。在一些情况下，姿势验证模块516以第一颜色(例如，灰色)绘制身体纹理的轮廓。

姿势验证模块516从目标姿势掩模309检索一个或更多个掩模。在一些情况下，用户经由AR/VR应用的用户界面选择AR/VR应用的操作或功能。可以通过轻击用于计算用户执行的开合跳的次数的选项来选择应用或功能。作为响应，AR/VR应用识别存储在目标姿势掩模309中的与所选择的功能或操作相关联的掩模序列。例如，AR/VR应用确定表示两个不同目标姿势的两个掩模与所选择的功能或操作相关联。图7示出了根据示例实施方式的说明性身体姿势掩模700。具体地，所选择的操作或功能可以与描绘第一目标姿势的第一掩模701和描绘第二目标姿势的第二掩模702相关联。第一掩模701可以包括表示第一目标姿势的一组白色像素，在该第一目标姿势中，头部处于中心处，并且两个手臂在头部上方举起。第二掩模702可以包括表示第二目标姿势的一组白色像素，在该第二目标姿势中，头部处于中心处，并且手臂一直下移经过腰部至中性位置(neutral position)。检索到的掩模中描绘的目标姿势用第二颜色(例如，蓝色)标记。

在一些实施方式中，姿势验证模块516计算预定成对关节(例如，颈部和头部或两个肩膀关节)之间的距离。基于该距离，姿势验证模块516选择或调整检索到的一个或更多个掩模的尺度。

姿势验证模块516将检索到的掩模中的一个或更多个与用户的身体的轮廓纹理对准。例如，姿势验证模块516通过识别头部在掩模中的位置来识别掩模的中心，并且基于头部关节位置的位置来对准掩模。也就是说，姿势验证模块516覆盖掩模，使得掩模中的头部位置与头部关节位置基本上对准。姿势验证模块516将被轮廓纹理覆盖的掩模像素的颜色从第二颜色改变为第三颜色(例如，从蓝色改变为红色)。接下来，姿势验证模块516计算生成的轮廓纹理的多少像素与掩模的包括表示姿势的像素的区域交叠。例如，姿势验证模块516通过对多少呈第三颜色(例如，红颜色)的像素被检测为匹配或不匹配进行计数，对轮廓纹理的多少像素与掩模的白色像素交叠进行计数。也就是说，姿势验证模块516对当前帧掩模与目标掩模之间有多少像素匹配和不匹配进行计数。响应于确定多于相关联的阈值百分比的像素在轮廓纹理与掩模之间交叠，姿势验证模块516验证或确定用户的身体的姿势与掩模的目标姿势匹配。

姿势验证模块516确定第二掩模是否与操作或功能相关联。例如，姿势验证模块516确定操作或功能是否与掩模或姿势的序列相关联。作为响应，姿势验证模块516检索掩模序列中的第二掩模。姿势验证模块516对照由第二掩模表示的姿势，分析基于在第二图像或第二组图像中检测到的关节位置而生成的轮廓纹理。当姿势验证模块516确定轮廓纹理的阈值百分比或数量的像素与第二掩模中描绘的姿势交叠时，姿势验证模块516验证或确定第二图像或第二组图像中的用户的身体的姿势与第二掩模的目标姿势匹配。一旦姿势验证模块516确定在接收到或捕获的图像中已检测到由掩模的序列或组合描绘的姿势的序列或组合，则姿势验证模块516使AR/VR应用的功能或操作被执行。

虚拟对象修改模块518可以基于从姿势验证模块516接收到的姿势来调整给定化身的骨骼骨架(skeletal rig)。虚拟对象修改模块518例如通过改变化身在图像中的姿势、视觉属性和/或位置，来调整在图像中呈现化身的方式。经调整的化身由虚拟对象修改模块518提供给虚拟对象显示模块520。在一些实施方式中，虚拟对象显示模块520将经调整的化身组合到所接收的描绘用户身体的单目图像中，使得经调整的化身和用户同时呈现在图像中。该图像由虚拟对象显示模块520提供给客户端设备102，并且然后可以发送给另一个用户或被存储以供后续访问和显示。在一些实施方式中，虚拟对象显示模块520执行AR/VR应用的功能，例如，更新表示基于从姿势验证模块516接收到的姿势检测到姿势或姿势序列的次数的计数。例如，虚拟对象显示模块520可以呈现用户执行与开合跳对应的动作或姿势的次数的累积总数。具体地，每次用户将其手臂举起到其头部之上并且随后将手臂一路放下时，虚拟对象显示模块520使计数器递增，该计数器被显示成指示用户执行的开合跳的次数。

图6是示出根据示例实施方式的执行过程600时的身体姿势验证系统126的示例操作的流程图。过程600可以以计算机可读指令实施，所述计算机可读指令用于由一个或更多个处理器执行，使得可以由消息收发服务器系统108和/或AR/VR应用105的功能部件部分地或全部执行过程600的操作；因此，下面通过示例的方式参考其描述了过程600。然而，在其他实施方式中，过程600的至少一些操作可以部署在各种其他硬件配置上。因此，该过程600不旨在限于消息收发服务器系统108，并且可以全部或部分地由任何其他部件实现。过程600的操作中的一些或全部可以是并行的、不按顺序的或完全省略的。

在操作601处，身体姿势验证系统126接收单目图像，该单目图像包括对处于给定姿势的用户的身体的描绘。例如，机器学习技术模块512接收描绘用户身体的单目图像501。机器学习技术模块512从图像中提取指示骨骼关节的一个或更多个特征。

在操作602处，身体姿势验证系统126检测单目图像501中描绘的身体的多个骨骼关节。例如，骨骼关节位置模块514处理由机器学习技术模块512提取的特征以确定一组骨骼关节的位置。这些位置可以相对于(在图5B中示出的)每个骨骼关节的中性位置来确定。

在操作603处，身体姿势验证系统126基于多个骨骼关节来生成用户的身体的轮廓纹理。例如，姿势验证模块516绘制连接多个骨骼关节位置的线。

在操作604处，身体姿势验证系统126检索表示目标姿势的掩模。例如，身体姿势验证系统126基于AR/VR应用的目标功能检索一个或更多个掩模。掩模例如使用黑色像素和白色像素来描绘给定的姿势或姿势的组合或序列，其中白色像素对应于目标姿势。

在操作605处，身体姿势验证系统126将单目图像中描绘的身体的轮廓纹理与表示目标姿势的掩模进行比较。例如，身体姿势验证系统126在将身体的轮廓纹理与掩模对准之后，用掩模覆盖身体的轮廓纹理。身体姿势验证系统126识别身体的轮廓纹理的以下像素：所述像素与描绘目标姿势的掩模的一部分交叠或覆盖该部分。身体姿势验证系统126对轮廓纹理的多少像素与描绘目标姿势的掩模的该部分交叠或覆盖该部分进行计数。

在操作606处，身体姿势验证系统126响应于对身体的轮廓纹理与掩模的比较，确定用户的身体的给定姿势与目标姿势匹配。例如，身体姿势验证系统126检索阈值，并确定身体的轮廓纹理的与描绘目标姿势的掩模的一部分交叠的或覆盖该部分的像素的数量是否超过阈值。在这种情况下，身体姿势验证系统126执行与目标姿势对应的AR/VR应用的功能或操作。在一些实施方式中，身体姿势验证系统126检索目标姿势的序列中的第二目标姿势，并且在已确定最初的成组图像包括对处于第一目标姿势的身体的描绘之后，仅在确定第二组图像包括对处于第二目标姿势的用户的身体的描绘之后，执行该功能或操作。

尽管所描述的流程图可以将操作示出为顺序过程，但是操作中的许多操作可以并行或同时执行。此外，可以重新布置操作的顺序。当过程的操作完成时，过程终止。过程可以对应于方法、程序、算法等。方法的操作可以全部或部分执行，可以与其他方法中的一些或所有操作结合执行，并且可以通过任何数量的不同系统例如本文描述的系统或者其任何部分例如包括在任何系统中的处理器执行。

图8示出了根据示例性实施方式的身体姿势验证系统的说明性输入和输出。例如，客户端设备102的用户可以选择对开合跳进行计数的选项。具体地，客户端设备102可以呈现AR/VR应用的具有用于执行与不同身体姿势相关联的功能的多个选项的UI。用户可以从多个选项中选择对开合跳进行计数的选项。作为响应，检索第一掩模和第二掩模(图7中示出)，以对照用户的轮廓纹理进行比较，从而确定何时掩模中描绘的姿势的序列与捕获的图像中的用户的轮廓匹配。关于图8示出和描述的指示物中的一些或全部可以省略，并为说明目的而示出。也就是说，可以仅将810中的用户的图像与运行计数器840一起呈现。在图8中示出的所有其他部分可以省略，并由系统在后台用来对开合跳进行计数以更新运行计数器840。

作为示例，将第一用户界面800呈现给用户。第一用户界面800描绘了用户执行不同姿势的视频810。第一用户界面800包括正在执行的AR/VR应用的功能的指示物。在该示例中，该功能是计算开合跳，并且该指示物包括检测到的开合跳的当前数量。第一用户界面800包括识别第一目标姿势的第一部分820和识别与正在执行的功能相关联的第二目标姿势的第二部分830。随着视频被捕获，处理图像以检测用户的关节位置，并通过连接关节位置来绘制轮廓。当前骨骼关节位置的轮廓由第一指示物822(例如，灰色)表示。第二指示物832(例如，蓝色)识别目标姿势。随着用户在视频中四处移动并改变他们的身体位置，持续地实时更新该轮廓。当第一指示物822不与第二指示物832的任何部分交叠时，每个指示物维持其各自的颜色。身体姿势验证系统126使用参照物(例如，用户的头部834)将掩模与用户的身体的轮廓对准。如第一用户界面800中所示，掩模中的与头部834对应的部分经由指示物(例如，红色)被指示为与用户的头部关节对准。

最初，身体姿势验证系统126选择与第一部分820中表示的第一目标姿势对应的第一掩模，以对照用户的身体的轮廓进行比较。具体地，第一掩模可以定位为与所选择的应用功能对应的姿势序列中的第一个。因此，由用户执行的与对应于第一掩模的第一目标姿势不匹配的任何姿势未通过验证，即使这样的姿势和姿势序列中的对应于第二掩模的第二目标姿势匹配也如此。身体姿势验证系统126确定表示第一掩模中的第一姿势的指示物821与当前身体位置的骨骼关节位置的轮廓交叠。作为响应，身体姿势验证系统126显示第三指示物824(例如，红色)，该第三指示物824表示第一姿势的与轮廓纹理交叠的区域。身体姿势验证系统126计算掩模中有多少像素与轮廓纹理相交，并在区域850中呈现该信息。身体姿势验证系统126计算掩模中有多少像素未被覆盖或在掩模之外，并在区域852中呈现该信息。身体姿势验证系统126计算掩模的多少百分比被轮廓覆盖或与轮廓交叠。身体姿势验证系统126将该百分比和与第一掩模相关联的阈值进行比较。响应于确定该百分比超过阈值，身体姿势验证系统126验证为所接收到的图像或视频中的当前身体姿势位置与第一目标姿势匹配。在这种情况下，身体姿势验证系统126经由指示物854指示检测到第一目标姿势。

响应于验证为身体姿势与第一目标姿势匹配，身体姿势验证系统126检索与序列中的第二掩模对应的第二目标姿势。身体姿势验证系统126确定由指示物822表示的身体姿势不与由指示物832表示的第二目标姿势匹配。在这种情况下，身体姿势验证系统126经由指示物854指示未检测到第二目标姿势。身体姿势验证系统126在检测到第一目标姿势之后接收一组图像，该组图像表示如第二用户界面801中所示的那样处于另一目标姿势的用户。在这些图像中，身体的轮廓纹理示出用户的手臂伸展，并且不与第二目标姿势或第一目标姿势匹配。在这种情况下，身体姿势验证系统126指示未检测到第一目标姿势和第二目标姿势两者。

一旦手臂放下并且轮廓位置被更新为与对应于第二掩模的第二目标姿势交叠达预定的阈值量，则身体姿势验证系统126检测到或验证为身体姿势与序列中的第二目标姿势匹配。作为响应，身体姿势验证系统126更新指示物854以指示检测到第二目标姿势。响应于确定目标姿势序列不包括任何附加的目标姿势(例如，已在对应序列中的输入图像中检测到序列中的所有目标姿势)，身体姿势验证系统126执行AR/VR应用的功能。例如，身体姿势验证系统126将目标姿势的序列的运行计数器840更新或递增。

机器架构

图9是机器900的图解表示，在该机器900中可以执行用于使机器900执行本文中所讨论的任何一种或更多种方法的指令908(例如，软件、程序、应用、小程序、app或其他可执行代码)。例如，指令908可以使机器900执行本文中所描述的任何一种或更多种方法。指令908将通用的非编程的机器900转换成被编程为以所描述的方式执行所描述和所示出的功能的特定机器900。机器900可以作为独立设备操作，或者可以耦接(例如，联网)至其他机器。在联网部署中，机器900可以在服务器-客户端网络环境中以服务器机器或客户端机器的资格操作，或者作为对等(peer-to-peer)(或分布式)网络环境中的对等机器操作。机器900可以包括但不限于：服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能电器)、其他智能设备、网络设备、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定要由机器900采取的动作的指令908的任何机器。此外，虽然仅示出了单个机器900，但是术语“机器”还应当被视为包括单独地或联合地执行指令908以执行本文中讨论的任何一种或更多种方法的机器的集合。例如，机器900可以包括客户端设备102或者形成消息收发服务器系统108的一部分的若干服务器设备中的任何一个。在一些示例中，机器900还可以包括客户端系统和服务器系统两者，其中特定方法或算法的某些操作在服务器侧执行，并且其中特定方法或算法的某些操作在客户端侧执行。

机器900可以包括可以被配置成经由总线940彼此通信的处理器902、存储器904和输入/输出(I/O)部件938。在示例中，处理器902(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令908的处理器906和处理器910。术语“处理器”旨在包括多核处理器，该多核处理器可以包括可以同时执行指令的两个或更多个独立处理器(有时被称为“核”)。尽管图9示出了多个处理器902，但是机器900可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器、或者其任意组合。

存储器904包括主存储器912、静态存储器914以及存储单元916，其均可由处理器902经由总线940访问。主存储器904、静态存储器914和存储单元916存储实现本文所述的方法或功能中的任何一种或更多种的指令908。指令908在其由机器900执行期间还可以完全地或部分地驻留在主存储器912内、在静态存储器914内、在存储单元916内的机器可读介质918内、在处理器1802中的至少之一内(例如，在处理器的高速缓存存储器内)或者在其任何合适的组合内。

I/O部件938可以包括用于接收输入、提供输出、产生输出、传送信息、交换信息、捕获测量结果等的各种部件。在特定机器中包括的特定I/O部件938将取决于机器的类型。例如，诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构，而无头(headless)服务器机器可能将不包括这样的触摸输入设备。应当认识到的是，I/O部件938可以包括图9中未示出的许多其他部件。在各种示例中，I/O部件938可以包括用户输出部件924和用户输入部件926。用户输出部件924可以包括视觉部件(例如，诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)之类的显示器)、声学部件(例如，扬声器)、触觉部件(例如，振动马达、阻力机构)、其他信号生成器等。用户输入部件926可以包括字母数字输入部件(例如，键盘、被配置成接收字母数字输入的触摸屏、光学键盘或其他字母数字输入部件)、基于点的输入部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或另一指向仪器)、触觉输入部件(例如，物理按钮、提供触摸或触摸手势的定位和/或力的触摸屏或其他触觉输入部件)、音频输入部件(例如，麦克风)等。

在另一示例中，I/O部件938可以包括：生物计量部件928、运动部件930、环境部件932、或定位部件934，以及各种各样的其他部件。例如，生物计量部件928包括用于检测表达(例如，手表达、面部表达、声音表达、身体姿态或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、出汗或脑波)、识别人(例如，声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件930包括加速度传感器部件(例如，加速计)、重力传感器部件、旋转传感器部件(例如，陀螺仪)。

环境部件932包括例如：一个或更多个摄像装置(具有静止图像/照片和视频能力)、照明传感器部件(例如，光度计)、温度传感器部件(例如，检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如，气压计)、声学传感器部件(例如，检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如，检测附近对象的红外传感器)、气体传感器(例如，为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。

关于摄像装置，客户端设备102可以具有摄像装置系统，该摄像装置系统包括例如在客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如，“自拍”)，然后可以用上述增强数据(例如，过滤器)对该静止图像和视频进行增强。例如，后置摄像装置可以用于以更常规的摄像装置模式捕获静止图像和视频，这些图像类似地用增强数据进行增强。除了前置摄像装置和后置摄像装置之外，客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。

此外，客户端设备102的摄像装置系统可以包括双后置摄像装置(例如，主摄像装置以及深度感测摄像装置)，或者甚至在客户端设备102的前后侧上包括三重、四重或五重后置摄像装置配置。例如，这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。

位置部件934包括定位传感器部件(例如，GPS接收器部件)、海拔传感器部件(例如，检测气压的高度计或气压计，根据气压可以得到海拔)、取向传感器部件(例如，磁力计)等。

可以使用各种技术来实现通信。I/O部件938还包括通信部件936，通信部件936可操作以经由相应的耦接或连接将机器900耦接至网络920或设备922。例如，通信部件936可以包括与网络920对接的网络接口部件或其他合适的设备。在另外的示例中，通信部件936可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、

部件(例如，

低功耗)、

部件以及经由其他模态提供通信的其他通信部件。设备922可以是另一机器或各种外围设备中的任何外围设备(例如，经由USB耦接的外围设备)。

此外，通信部件936可以检测标识符，或者包括可操作以检测标识符的部件。例如，通信部件936可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如，用于检测诸如通用产品码(UPC)条形码的一维条形码、诸如快速响应(QR)码的多维条形码、Aztec码、数据矩阵(Data Matrix)、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(Ultra Code)、UCC RSS-2D条形码以及其他光学码的光学传感器)或声学检测部件(例如，用于识别经标记的音频信号的麦克风)。此外，可以经由通信部件936得到各种信息，例如经由因特网协议(IP)地理位置的定位、经由

信号三角测量的定位、经由检测NFC信标信号的定位等，该NFC信标信号可以指示特定定位。

各种存储器(例如，主存储器912、静态存储器914以及处理器902的存储器)以及存储单元916可以存储由本文中描述的方法或功能中的任何一个或更多个实现或使用的一组或更多组指令和数据结构(例如，软件)。在由处理器902执行的情况下，这些指令(例如，指令908)使得各种操作实现所公开的示例。

可以经由网络接口设备(例如，通信部件936中包括的网络接口部件)，使用传输介质并且使用多个公知的传输协议中的任意一种传输协议(例如，超文本传输协议(HTTP))，通过网络920来发送或接收指令908。类似地，可以使用传输介质经由与设备922的耦接(例如，对等耦接)来发送或接收指令908。

软件架构

图10是示出可以安装在本文中所描述的设备中的任何一个或更多个上的软件架构1004的框图1000。软件架构1004由诸如包括处理器1020、存储器1026和I/O部件1038的机器1002的硬件来支持。在该示例中，软件架构1004可以被概念化为层的堆叠，其中每个层提供特定功能。软件架构1004包括诸如操作系统1012、库1010、框架1008和应用1006的层。在操作上，应用1006通过软件堆栈来激活API调用1050，并且响应于API调用1050接收消息1052。

操作系统1012管理硬件资源并且提供公共服务。操作系统1012包括例如核1014、服务1016和驱动器1022。核1014充当硬件层与其他软件层之间的抽象层。例如，核1014提供存储器管理、处理器管理(例如，调度)、部件管理、联网和安全设置以及其他功能。服务1016可以为其他软件层提供其他公共服务。驱动器1022负责控制底层硬件或与底层硬件对接(interface)。例如，驱动器1022可以包括显示驱动器、摄像装置驱动器、

或

低功耗驱动器、闪存驱动器、串行通信驱动器(例如，USB驱动器)、

驱动器、音频驱动器、电力管理驱动器等。

库1010提供由应用1006使用的公共低级基础设施。库1010可以包括系统库1018(例如，C标准库)，系统库1018提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。此外，库1010可以包括API库1024，例如媒体库(例如，用于支持各种媒体格式的呈现和操纵的库，该媒体格式例如是运动图像专家组4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如，用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如，提供各种关系数据库功能的SQLite)、web库(例如，提供网络浏览功能的WebKit)等。库1010还可以包括各种其他库1028，以向应用1006提供许多其他API。

框架1008提供由应用1006使用的公共高级基础设施。例如，框架1008提供各种图形用户界面(GUI)功能、高级资源管理和高级定位服务。框架1008可以提供可以由应用1006使用的广泛的其他API，其中一些API可以特定于特定操作系统或平台。

在示例中，应用1006可以包括家庭应用1036、联系人应用1030、浏览器应用1032、书籍阅读器应用1034、定位应用1042、媒体应用1044、消息收发应用1046、游戏应用1048和诸如第三方应用1040的各种各样的其他应用。应用1006是执行程序中定义的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用1006中的一个或更多个，编程语言例如是面向对象的编程语言(例如，Objective-C、Java或C++)或过程编程语言(例如，C语言或汇编语言)。在特定示例中，第三方应用1040(例如，由特定平台的供应商以外的实体使用ANDROID^TM或IOS^TM软件开发工具包(SDK)开发的应用)可以是在诸如IOS^TM、ANDROID^TM、

Phone的移动操作系统或另外的移动操作系统上运行的移动软件。在该示例中，第三方应用1040可以激活由操作系统1012提供的API调用1050以促进本文中描述的功能。

术语表

“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以有助于这样的指令的通信。可以经由网络接口设备使用传输介质在网络上发送或接收指令。

“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。

“通信网络”是指网络的一个或更多个部分，该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、

网络、另外类型的网络或者两个或更多个这样的网络的组合。例如，网络或网络的一部分可以包括无线网络或蜂窝网络，并且耦接可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中，耦接可以实现各种类型的数据传输技术中的任何数据传输技术，例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、GSM演进的增强数据速率(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动通讯系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。

“部件”是指具有以下边界的设备、物理实体或逻辑：该边界由功能或子例程调用、分支点、API或被提供用于对特定处理或控制功能进行划分或模块化的其他技术来定义。部件可以经由其接口与其他部件组合以执行机器过程。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元并且可以是通常执行相关功能中的特定功能的程序的一部分。部件可以构成软件部件(例如，实施在机器可读介质上的代码)或硬件部件。

“硬件部件”是能够执行某些操作的有形单元，并且可以以某种物理方式来配置或布置。在各种示例实施方式中，可以通过软件(例如，应用或应用部分)将一个或更多个计算机系统(例如，独立计算机系统、客户端计算机系统或服务器计算机系统)或者计算机系统的一个或更多个硬件部件(例如，处理器或处理器组)配置为进行操作以执行如本文描述的某些操作的硬件部件。也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如，硬件部件可以包括被永久地配置成执行某些操作的专用电路或逻辑。硬件部件可以是专用处理器，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路。例如，硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置，则硬件部件成为被唯一地定制成执行配置的功能的特定的机器(或机器的特定部件)，并且不再是通用处理器。

将理解的是，机械地、在专用和永久配置的电路中、或在临时配置的电路(例如，由软件配置)中实现硬件部件的决定可以由成本和时间考虑来驱动。相应地，短语“硬件部件”(或者“硬件实现的部件”)应当被理解成包含有形实体，即为被物理构造、永久配置(例如，硬连线)或临时配置(例如，编程)成以某种方式操作或者执行本文中描述的某些操作的实体。考虑硬件部件被临时配置(例如，被编程)的实施方式，硬件部件中的每一个无需在任一时刻处均被配置或实例化。例如，在硬件部件包括通过软件配置而成为专用处理器的通用处理器的情况下，可以将通用处理器在不同时间分别配置成不同的专用处理器(例如，包括不同的硬件部件)。因此，软件将一个或多个特定处理器配置成例如在一个时刻构成特定硬件部件并且在不同时刻构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此，所描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下，可以通过(例如，通过适当的电路和总线)在两个或更多个硬件部件之间或之中进行信号传输来实现通信。在其中多个硬件部件在不同时间处被配置或实例化的实施方式中，可以例如通过将信息存储在多个硬件部件可以访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如，一个硬件部件可以执行操作并且将该操作的输出存储在与其通信地耦接的存储器装置中。然后，其他硬件部件可以在随后的时间访问存储器装置以检索所存储的输出并对其进行处理。硬件部件还可以发起与输入设备或输出设备的通信，并且可以对资源进行操作(例如，信息的收集)。

本文描述的示例方法的各种操作可以至少部分地由一个或更多个处理器执行，一个或更多个处理器被临时配置(例如，通过软件)或永久配置成执行相关的操作。无论是被临时地配置还是永久地配置，这样的处理器可以构成进行操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文中使用的，“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地，本文中描述的方法可以至少部分地由处理器实现，其中，特定的一个或多个处理器是硬件的示例。例如，方法的至少一些操作可以由一个或更多个处理器902或者处理器实现的部件执行。此外，一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(SaaS)操作。例如，操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行，其中这些操作可经由网络(例如，因特网)以及经由一个或更多个适当的接口(例如，API)访问。某些操作的执行可以分布在处理器之间，不仅可以驻留在单个机器内，而且可以被部署在若干机器上。在一些示例实施方式中，处理器或处理器实现的部件可以位于单个地理位置中(例如，在家庭环境、办公室环境或服务器群内)。在其他示例实施方式中，处理器或处理器实现的部件可以跨若干地理位置分布。

“计算机可读存储介质”是指机器存储介质和传输介质两者。因此，术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“装置可读介质”意指相同的事物，并且可以在本公开内容中可互换地使用。

“短暂消息”是指在有时间限制的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。短暂消息的访问时间可以由消息发送者设置。替选地，访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何，该消息都是暂时的。

“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如，集中式或分布式数据库，以及相关联的高速缓存和服务器)。因此，该术语应被视为包括但不限于固态存储器以及光学和磁介质，包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括：非易失性存储器，包括例如半导体存储器设备，例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备；磁盘，诸如内部硬盘和可移动盘；磁光盘；以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物，并且在本公开内容中可以互换地使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质，载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。

“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。

“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质，并且“信号介质”包括数字或模拟通信信号或其他无形介质以便于软件或数据的传送。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”指的是其的一个或更多个特性以下述方式来设置或改变的信号：将信息编码在该信号中的方式。术语“传输介质”和“信号介质”指相同的事物并且可以在本公开内容中互换使用。

在不脱离本公开内容的范围的情况下，可以对所公开的实施方式进行改变和修改。这些及其他改变或修改旨在包括在所附权利要求书中所表达的本公开内容的范围内。

Claims

1.一种方法，包括：

通过一个或更多个处理器接收单目图像，所述单目图像包括对处于给定姿势的用户的身体的描绘；

通过所述一个或更多个处理器检测所述单目图像中描绘的所述身体的多个骨骼关节；

基于所述多个骨骼关节生成所述用户的身体的轮廓；

检索表示目标姿势的掩模；

将所述单目图像中描绘的所述身体的轮廓与表示目标姿势的所述掩模进行比较；以及

响应于将所述身体的轮廓与所述掩模进行比较，确定所述用户的身体的给定姿势与所述目标姿势匹配。

2.根据权利要求1所述的方法，还包括：

从图像捕获设备接收多个图像；

在所述多个图像中检测所述用户的存在；以及

响应于检测到所述用户的存在，启动用于确定所述用户的姿势与所述目标姿势匹配的过程。

3.根据权利要求1至2中任一项所述的方法，其中，生成所述轮廓包括：绘制连接所述多个骨骼关节的线。

4.根据权利要求1至3中任一项所述的方法，还包括：将所述掩模的中心与所述单目图像中描绘的所述用户的身体的中心对准。

5.根据权利要求1至4中任一项所述的方法，还包括：

计算所述身体的轮廓的落在所述掩模中的所述目标姿势内的像素数量；

确定所述像素数量超过阈值；以及

响应于确定所述像素数量超过所述阈值，确定所述身体的给定姿势与所述目标姿势匹配。

6.根据权利要求1至5中任一项所述的方法，其中，在不访问来自深度传感器的深度信息的情况下执行检测步骤和确定步骤。

7.根据权利要求1至6中任一项所述的方法，其中，检测所述身体的多个骨骼关节包括：识别分别与右手腕、右肘、右肩、所述用户的面部上的鼻子、左肩、左肘和左手腕相关联的点。

8.根据权利要求1至7中任一项所述的方法，还包括：

在检测所述多个骨骼关节之前，向所述单目图像应用黑白掩模。

9.根据权利要求1至8中任一项所述的方法，其中，所述掩模包括黑色部分和白色部分，其中，所述白色部分表示与所述目标姿势对应的轮廓，并且其中，所述比较包括：将所述单目图像中描绘的所述身体的轮廓与所述掩模的白色部分进行比较。

10.根据权利要求1至9中任一项所述的方法，还包括：生成将所述掩模与所述轮廓组合的图像，其中，所述图像包括所述轮廓的第一视觉指示物、所述目标姿势的第二视觉指示物以及所述轮廓的位于所述目标姿势的区域内的部分的第三视觉指示物。

11.根据权利要求1至10中任一项所述的方法，其中，所述目标姿势包括两个或更多个姿势的序列，其中，所述掩模是与所述两个或更多个姿势中的第一姿势对应的第一掩模，其中，所述单目图像包括第一单目图像，并且所述轮廓包括第一轮廓，并且其中，所述用户的给定姿势是第一姿势，所述方法还包括：

响应于将所述第一轮廓与所述第一掩模进行比较，确定所述用户的身体的第一姿势与所述两个或更多个姿势中的第一姿势匹配；

接收第二单目图像，所述第二单目图像包括对所述用户的身体的第二姿势的描绘；

基于根据所述第二单目图像检测到的多个骨骼关节，生成所述用户的身体的第二轮廓；

检索表示所述两个或更多个姿势中的第二姿势的第二掩模；

将所述第二单目图像中描绘的所述身体的第二轮廓与所述第二掩模进行比较；以及

响应于将所述身体的第二轮廓与所述第二掩模进行比较，确定所述用户的身体的第二姿势与所述两个或更多个姿势中的第二姿势匹配。

12.根据权利要求11所述的方法，还包括：累计表示所述用户的身体的第一姿势和第二姿势与所述两个或更多个姿势的序列匹配多少次的数字。

13.根据权利要求1至12中任一项所述的方法，还包括：

接收包括第一部分和第二部分的视频，其中，所述第一部分包括第一单目图像序列，所述第一单目图像序列包括所述第一单目图像和第二单目图像，并且其中，所述第二部分包括第二单目图像序列，所述第二单目图像序列包括描绘处于所述第一姿势和第二姿势的所述用户的身体的单目图像的集合；以及

每当所述视频的部分被确定为包括描绘处于所述第一姿势和所述第二姿势的所述用户的身体的单目图像的序列时，使表示所述用户的身体的第一姿势和第二姿势与所述两个或更多个姿势的序列匹配多少次的数字递增。

14.根据权利要求1至13中任一项所述的方法，其中，在所述用户的身体的第一姿势与所述第一掩模匹配之后，接收到所述第二单目图像。

15.根据权利要求1至14中任一项所述的方法，还包括：基于对所述多个骨骼关节的骨骼追踪来调整所述掩模的大小。

16.根据权利要求15所述的方法，其中，基于所述多个骨骼关节中的预定成对骨骼关节之间的计算距离来调整所述掩模的大小。

17.根据权利要求1至16中任一项所述的方法，其中，所述预定成对骨骼关节包括颈部或头部以及两个肩部关节。

18.根据权利要求1至17中任一项所述的方法，还包括：

缩放所述单目图像中的对所述用户的身体的描绘；以及

基于经缩放的对所述身体的描绘，选择所述掩模的大小。

19.一种系统，包括：

处理器，被配置成执行操作，所述操作包括：

接收单目图像，所述单目图像包括对处于给定姿势的用户的身体的描绘；

检测所述单目图像中描绘的所述身体的多个骨骼关节；

基于所述多个骨骼关节生成所述用户的身体的轮廓；

检索表示目标姿势的掩模；

将所述单目图像中描绘的所述身体的轮廓与表示所述目标姿势的掩模进行比较；以及

20.一种包括指令的非暂态机器可读存储介质，所述指令在由机器的一个或更多个处理器执行时使所述机器执行操作，所述操作包括：

检测所述单目图像中描绘的所述身体的多个骨骼关节；

基于所述多个骨骼关节生成所述用户的身体的轮廓；

检索表示目标姿势的掩模；