CN105190700A

CN105190700A - 基于化身的视频编码

Info

Publication number: CN105190700A
Application number: CN201380076325.1A
Authority: CN
Inventors: 李文龙; 杜杨洲; X.童
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-06-04
Filing date: 2013-06-04
Publication date: 2015-12-23
Also published as: US20150213604A1; WO2014194439A1; US9589357B2; US20180025506A1

Abstract

公开用于执行基于化身的视频编码的技术。在一些实施例中，个人的视频记录可利用化身(其通过个人的(一个或多个)脸部表情来驱动)来编码。在一些这类情况下，所产生化身动画可准确地模仿所记录个人的(一个或多个)脸部表情。一些实施例能够用于例如经由社交媒体和连网网站的视频共享中。一些实施例能够用于例如基于视频的通信(例如，对等视频呼叫、电视会议)中。在一些情况下，例如，所公开技术的使用可帮助降低通信带宽使用，保存个人的匿名性，和/或为个人提供增强娱乐价值(例如兴趣)。

Description

基于化身的视频编码

背景技术

移动通信涉及多个不小难题，以及移动视频共享和基于视频的通信面临具体复杂情况。

附图说明

图1示出按照本公开的一实施例所配置的装置。

图2示出按照本公开的一实施例所配置的示例脸部检测模块。

图3A-3E示出按照本公开的一实施例的化身动画的示例脸部控制参数和生成。

图4示出按照本公开的一实施例所配置的示例化身控制模块和化身选择模块。

图5示出按照本公开的一实施例的基于化身的视频编码的过程。

图6示出按照本公开的一实施例、使用化身来重构视频的示例过程。

图7示出按照本公开的一实施例、用于提取所检测脸部表情并且通过对其映射脸部表情来动画制作（animate）所选化身的示例过程。

图8示出按照本公开的一实施例、附有多个运动捕获标记的人脸。

图9A-9C示出按照本公开的一实施例的各种示例化身表情的若干示例屏幕截图图像。

图10是示出按照本公开的一实施例、服务器上的示例视频渲染流程的框图。

图11示出按照一些实施例、可执行如本文所述用于基于化身的视频编码的技术的示例系统。

图12示出可实施图11的系统的小形状因数装置的实施例。

具体实施方式

公开用于执行基于化身的视频编码的技术。在一些实施例中，个人的视频记录可利用化身(其通过个人的(一个或多个)脸部表情来驱动)来编码。在一些这类情况下，所产生化身动画可准确地模仿所记录个人的(一个或多个)脸部表情。一些实施例能够用于例如经由社交媒体和连网网站的视频共享中。一些实施例能够用于例如基于视频的通信(例如，对等视频呼叫、电视会议)中。在一些情况下，例如，所公开技术的使用可帮助降低通信带宽使用、保存个人的匿名性和/或为个人提供增强娱乐价值(例如兴趣)。根据本公开，许多配置和变更将会是显而易见的。

一般概述

随着移动装置和社交网络的流行持续增长，越来越多数量的用户设法经由其移动装置来记录并且与他人共享视频，以及经由作为典型电话呼叫和基于文本的消息的替代的视频进行通信。例如，用户可期望使用其移动装置发起视频呼叫和电视会议，以向一个或多个远程接收方传送音频和实时视频。但是，如先前所述，出现使参与包含视频数据的移动通信的能力复杂化的多个不小问题。例如，大量视频数据的传输消耗例如第三代和第四代(3G和4G)数据网络的大量网络带宽，并且对现有无线通信基础设施施加大负担，这能够不利地影响传输质量。在实时视频传输的情况下尤其是这样。另一个不小问题涉及如下事实：极少的现有化身视频应用(例如WeChat移动电话文本和语音消息传递通信服务、StarGreetz™个性化视频平面和Tom的Messenger消息传递应用)不允许化身模仿用户的(一个或多个)脸部表情。由这些应用所提供的视频中的化身而是通过用户的语音来驱动。其他现有应用(例如Mojo Masks)只在即时视频之上覆盖掩码，并且使用商用视频编解码器来压缩具有掩码的即时视频。

因此并且按照本公开的一实施例，公开用于提供视频数据的基于化身的编码的技术。在一个示例情况中，技术在一种系统中实现，该系统配置成记录用户脸部的视频，并且随后将那个原始视频记录重构为利用选择为表示用户的化身的基于化身的动画。在初始视频记录期间，检测用户的脸部特性，并且跟踪其中例如产生于用户脸部表情的改变、用户头部的移动等的变化。此后，那些变化逐帧地映射到所选化身，以及化身帧的所产生集合能够采用原始音频(若有的话)来编码。所产生的新视频是视频动画，其准确地模仿或者模拟由用户在原始视频记录期间所记录的脸部表情和头部移动。在一些情况下，在所产生的视频中使用实际脸部和化身视频帧的混合。在其他情况下，仅使用化身视频帧。在任何这类情况下，原始音频(若有的话)能够采用化身图像来编码，以提供新的较低带宽视频。

如本文所使用的术语‘化身’一般表示二维(2-D)或三维(3-D)的用户的图形表示。在一些情况下，给定化身可与其用户的外貌相似，但这不是必要的，因为在一些其他情况下，可观察用户与化身之间的更大或更小差异。因此，虽然化身能够是逼真表示，但是它们也能够采取绘图、卡通、草图等的形式，其不一定与用户的实际外貌相似。

在一些情况下，所选化身能够是例如从例如在原始视频的记录期间所提取的用户脸部的静止图像来生成的化身。但是，本公开并不局限于此，因为在一些其他情况下，所选化身能够为不是这样所生成、而是可供公共、私有或用户生成内容数据库的选择的化身。在一些情况下，(从用户脸部或其它生成的)化身的创建和存储能够例如通过在线源或其他适当内容提供商来执行。

在一些情况下，使用所公开技术所生成的化身动画能够提供有例如固定背景，使得化身的背景图像在组成和颜色方面是基本上静态或者非动态的，以便简化编码并且进一步降低通过网络发送视频所需的传输带宽。因此，在一些这类情况下，存在提供化身编码视频的时机，这准确地模拟用户的感情交流，同时包含较少量的成像/视频数据，这可产生比例如原始视频记录要小许多的文件大小。

如先前所述，本文所公开的技术能够用来例如提供脸部表现驱动化身，其准确地表示用户的实际脸部并且可靠地模拟用户的脸部表情变化和头部移动。在一些其他情况下，所公开技术能够用来例如提供与用户的实际脸部有所不同(根据需要在更大或更小的程度上)的脸部表现驱动化身，同时仍然可靠地模拟用户的脸部表情变化和头部移动。在一些这类情况下，这可允许用户的保密性或多或少地被保存，特别是在化身是卡通人物、动物等或者与用户实际外貌有所不同的另一实体的示例情况下。在任何情况下，用户选择在给定通信会话期间向其他用户表示他/她的化身的能力可提供改进通信/交互会话，并且因而可帮助增加用户对那种体验的总体满意度/乐趣。还要注意，本文所公开的基于化身的编码技术能够例如在在线视频呼叫和其他这类视频应用期间实时地实现。

一些实施例可显著改进视频压缩(例如，取得比例如采用即时视频可取得的要高的压缩比)。例如，与原始记录视频相比，所公开的技术能够用来将视频大小减小大约1-70%(例如在大约10-20%减小、大约20-30%减小、大约30-40%减小、大约40-50%减小、大约50-60%减小、大约60-70%减小范围中或者处于大约1-70%的范围中的任何其他子范围的范围中)。在一些情况下，能够提供大约50-70%或以上的减小。在一种示例情况中，使用所公开技术所产生的具有VGA分辨率和25 fps的帧率的40秒的基于化身的视频的大小能够为大约1兆字节，而对应原始脸部视频的大小为3-5兆字节。如根据本公开将显而易见，视频压缩中的更大或更小改进可使用所公开技术、根据给定目标应用或最终使用来提供。在任何情况下，视频压缩的改进可至少部分涉及：(1) 在无需捕获和传送用户的不必要微小脸部纹理细节的情况下准确地模仿用户因脸部表情引起的形状变化的化身的使用；和/或(2) 固定背景与化身和/或实际脸部帧的配合使用。如根据本公开将会理解，这些考虑因素可帮助降低给定通信会话或者视频的其他传输期间的带宽消耗。一些实施例可准许查看用户的基于化身的表示，而无需交换大量信息(其是原本采用即时图像的装置-装置通信一般所涉及的)。

如根据本公开并且按照一些实施例将会理解，使用所公开技术所产生的基于化身的动画视频能够使用大量平台或传递服务的任一种与他人共享。例如，在一些情况下，如本文所述所提供的基于化身的动画能够例如使用下列方法来共享或者以其他方式传播：即时消息传递(IM)；社交媒体或连网工具，例如YouTube、Facebook、LinkedIn、Yahoo、Google+、MSN、Weibo等；或者其他文本语音通信服务，例如WeChat/Weixin等。一些实施例可提供增强或者轻松娱乐价值(例如化身的使用能够是娱乐和有趣的)或者以其他方式增强的用户体验。

应当注意，虽然所公开技术一般在移动计算装置的示例上下文中论述，但是本公开并不局限于此。例如，在一些情况下，按照一些实施例，所公开的技术能够例如与非移动计算装置(例如台式计算机、电视会议系统等)配合使用。另外，应当注意，虽然所公开技术一般在视频创建的示例上下文中论述，但是按照一些实施例，它们也能够用于例如基于视频的协作上下文(例如对等或多点电视会议、虚拟教室)中或者其中能够使用基于对等视频的通信的任何其他上下文中。在一些示例情况中，这种基于视频的协作上下文中所涉及的各对等体能够共享和/或接收(例如实时地)如本文所述所提供的基于化身的视频。在一些其他示例情况中，这种基于视频的协作上下文中所涉及的一些对等体能够共享和/或接收即时视频，而其他对等体共享和/或接收基于化身的视频。根据本公开，许多适当用途将会是显而易见的。

如将会进一步理解，各个实施例能够例如通过软件、固件、硬件和/或其组合来实现。在一些情况中并且按照一实施例，使用所公开技术的基于化身的视频编码能够例如作为商品服务来提供。另外并且按照一实施例，所公开技术的使用可例如通过基于化身的视频(其使用脸部表现驱动化身)的视觉观察来检测。

本公开的一些能够例如使用例如按照MPEG标准(MPEG Video，Information technology - Coding of audio-visual objects - Part 2：Vsiaual，Amendment 1：Visual extensions，ISO/IEC JTC1/SC29/WG11/N3056，2000年1月)的人脸编码方案来实现。在这类情况下，静态脸部形状能够例如通过脸部定义参数(FDP)来描述，而动态脸部变化能够例如通过脸部动画参数(FAP)来描述。但是，应当注意，MPEG-4面向自然脸部图像编码，而本文所述的一些实施例针对现实脸部风格化身和卡通风格化身编码。如根据本公开将会理解，按照一些实施例，当用户实际脸部的画像在图像中心采用化身的画像来替代时，信息熵能够极大地减小，并且明显更少的位是编码所需的。另外，一些实施例可按照交互式方式进行工作，使得用户能够从不同化身模型(人物、动物等)和渲染风格(草图、掩码、2-D/3-D卡通、人类现实)中进行选择，以重构原始脸部视频。如将会进一步理解，这些示例特征在一些情况下能够有助于用户例如在对等消息传递以及社交媒体和连网上下文中所体验的乐趣。

系统架构

图1示出按照本公开的一实施例所配置的装置102。如能够看到，装置102包括成像输入装置104和音频输入装置106(以下所述)，并且能够配置成例如与网络122进行通信。按照一些实施例，装置102可以是或者以其他方式包括能够具有有线和/或无线通信能力的多种硬件平台的任一种。例如，装置102可以是或者以其他方式包括：膝上型/笔记本计算机；平板计算机；移动电话或智能电话(例如iPhone®、基于Android®的电话、Blackberry®、基于Symbian®的电话、基于Plam®的电话等)；个人数字助理(PDA)；蜂窝手机；手持游戏装置；游戏平台；台式计算机；和/或电视会议系统。在更一般的意义上并且按照一些实施例，装置102能够是移动或者能够通过有线和/或无线连接进行通信的任何计算装置，如根据本公开将会是显而易见的。

网络122能够是任何适当通信网络，如根据本公开将会是显而易见的。例如，网络122可以是公共和/或专用网络，例如在操作上耦合到广域网(WAN)、例如因特网的专用局域网(LAN)。在一些情况下，网络122能够包括各种第二代(2G)、第三代(3G)、第四代(4G)移动通信技术、无线局域网(WLAN)(例如Wi-Fi®无线数据通信技术)等。在一些情况下，网络122可包括支持基础设施和/或功能性、例如服务器和服务提供商，但是这类特征不是执行经由网络122的通信所必需的。

按照一实施例，成像输入装置104能够是用于捕获表示包括一人或多人的环境的数字图像的任何装置，并且可具有用于环境中的一人或多人的脸部分析的充分分辨率，如本文所述。例如，成像输入装置104可以是静止相机(例如，配置成捕获静止照片的照相装置)或者摄像机(例如配置成捕获包括多帧的运动图像的照相装置)。在一些情况下，成像输入装置104可包括非限制性地诸如光学组合件、图像传感器和图像/视频编码器之类的组件。成像输入装置104的这些组件(以及其他组件，若有的话)可按照硬件和/或软件的任何组合来实现。

成像输入装置104能够配置成使用例如在可见光谱中的光或者采用并不局限于红外(IR)光谱、紫外(UV)光谱等的电磁谱的其他部分进行操作。成像输入装置104可结合在装置102中，或者可以是配置成经由有线和/或无线通信与装置102进行通信的独立装置。成像输入装置104的一些示例可包括：如可与计算机、视频监视器等关联的万维网摄像头；移动装置照相装置(例如，集成在例如先前所述示例装置中的蜂窝电话或智能电话照相装置)；集成膝上型计算机照相装置；以及集成平板计算机照相装置(例如iPad®、Galaxy Tab®等)。在任何情况下，成像输入装置104可配置用于有线(例如通用串行总线即USB、以太网、FireWire等)和/或无线(例如Wi-Fi®、Bluetooth®等)通信。用于成像输入装置104的其他适当类型和配置将取决于给定应用，并且根据本公开将会是显而易见的。

按照一实施例，音频输入装置106能够是例如麦克风或者用于感测/记录声音的任何其他装置。音频输入装置106能够例如用于根据需要记录用户的语音或其他本地声音中。音频输入装置106可与装置102相集成，或者可经由诸如与成像输入装置104有关的上述示例中所述之类的有线和/或无线通信与装置102进行交互。用于音频输入装置106的其他适当类型和配置将取决于给定应用，并且根据本公开将会是显而易见的。

如能够看到，装置102还包括成像和音频框架模块200，其接收来自成像输入装置104和/或音频输入装置106的输入，如上所述。成像和音频框架模块200可包括定制、专有、已知和/或以后开发的音频和视频处理代码(或指令集)，其一般是明确定义的，并且可操作以至少控制成像输入装置104和/或音频输入装置106。例如，成像和音频框架模块200可配置成：(1) 使成像输入装置104捕获/记录图像或视频；和/或(2) 使音频输入装置106感测/记录声音。另外，在一些情况下，成像和音频框架模块200可配置成处理任何这类所捕获图像/视频和所记录声音。此外，成像和音频框架模块200可配置成：(1) 在(例如装置102的)显示器(或其他显示装置)上再现图像；和/或(2) 从音频输出装置202(以下所述)再现声音。成像和音频框架模块200可根据装置102以及更具体来说根据运行于装置102的操作系统(OS)而改变。一些示例操作系统包括iOS®、Android®、Blackberry®OS、Symbian®和Plam®OS。用于成像和音频框架模块200的其他适当配置和能力将取决于给定应用，并且根据本公开将会是显而易见的。

装置102还可包括音频输出装置202。音频输出装置202能够是扬声器或者具有产生声音的能力的其他装置。如先前所述，音频输出装置202可接收来自成像和音频框架模块200的音频信息，并且可配置成再现本地声音(例如，以便提供用户语音的音频反馈)和远程声音(例如，参加与装置102的通信的其他方的声音)。在一些情况下，音频输出装置202可结合在装置102中或者以其他方式与其集成，而在一些其他情况下，它可以是配置成例如使用以上针对成像输入装置104所述的示例有线和/或无线通信的任一种与装置102进行通信的独立装置。用于音频输出装置202的其他适当类型和配置将取决于给定应用，并且根据本公开将会是显而易见的。

装置102还可包括脸部检测模块204，其配置成例如识别和跟踪成像输入装置104所提供的(一个或多个)图像中的头部、脸部和/或脸部区域，并且确定用户的一个或多个脸部特性(例如以下所述的脸部特性206)。例如，脸部检测模块204可包括定制、专有、已知和/或以后开发的脸部检测代码(或指令集)、硬件和/或固件，其一般是明确定义的，并且可操作以接收标准格式图像(例如RGB彩色图像)以及至少在某种程度上识别图像中的脸部。脸部检测模块204还可配置成通过一系列图像(例如，以给定帧率、例如24帧/秒的视频帧)来跟踪所检测脸部，并且基于所检测脸部来确定头部位置以及用户的脸部特性(例如脸部特性206)的变化。可由脸部检测模块204所采用的一些示例适当跟踪系统包括粒子滤波、均值漂移和/或卡尔曼滤波，其各可利用分析技术，例如边缘分析、平方差和分析、特征点分析、直方图分析、肤色分析等。

另外，脸部检测模块204可包括定制、专有、已知和/或以后开发的脸部特性代码(或指令集)，其一般是明确定义的，并且可操作以接收标准格式图像(例如RGB彩色图像)以及至少在某种程度上识别图像中的一个或多个脸部特性。一些示例适当脸部特性系统包括科罗拉多州立大学(CSU)脸部识别评估系统和/或标准Viola-Jones增强级联框架，其可见于公共开源计算机视觉(OpenCV™)封装中。

如本文更详细论述，脸部特性206可包括脸部的特征，其中包括但不限于诸如眼睛、鼻子、嘴巴、脸部轮廓等的脸部标志的位置和/或形状以及这类标志的移动。在一个实施例中，化身动画可基于所感测脸部动作(例如脸部特性206的变化)。化身脸部的对应特征点可跟随或模仿实际人脸的移动，这称作“表情克隆”或“表现驱动脸部动画”。

脸部检测模块204还可配置成识别与所检测特征关联的表情(例如，识别先前检测的脸部是开心、悲伤、微笑、皱眉、惊讶还是兴奋等)。为此，脸部检测模块204还可包括定制、专有、已知和/或以后开发的脸部表情检测和/或识别代码(或指令集)，其是一般明确定义的，并且可操作以检测和/或识别脸部的表情。例如，脸部检测模块204可确定脸部分类(例如眼睛、鼻子、嘴巴等)的大小和/或位置，并且可将这些脸部特征与脸部特征数据库(其包括具有对应脸部特征分类(例如微笑、皱眉、兴奋、悲伤等)的多个样本脸部特征)进行比较。

装置102还可包括化身选择模块208，其配置成允许选择(例如由用户)供通信会话期间使用的化身。化身选择模块208可包括定制、专有、已知和/或以后开发的用户界面(UI)构造代码(或指令集)，其是一般明确定义的，并且可操作以呈现不同化身供选择。在一些实施例中，化身选择模块203可配置成允许：(1) 从装置102中存储的一个或多个化身进行选择；(2) 从数据库(例如化身数据库500，以下所述)或者由装置102通过有线和/或无线通信可访问的其他内容提供商所托管的一个或多个化身进行选择；和/或(3) 基于用户的所检测脸部特性206(例如来自用户的正面图片)来生成化身。在一些情况下，所生成的化身可存储在装置102中，供将来通信期间使用。在一些情况下，化身可在建立通信之前来选择，但是本公开并不局限于此，因为在一些其他情况下，化身选择可在通信过程期间来执行和/或改变。

装置102还可包括化身控制模块210，其配置成响应来自化身选择模块208的选择输入而生成化身。化身控制模块210可包括定制、专有、已知和/或以后开发的化身生成处理代码(或指令集)，其是一般明确定义的，并且可操作以基于脸部检测模块208所检测的用户的脸部/头部位置和/或脸部特性206来生成化身。化身控制模块210还可配置成生成用于动画制作化身的参数。如本文所提到的动画可定义为改变图像/模型的外貌。单个动画可改变静止图像的外貌，或者多个动画可依次出现以模拟图像中的运动(例如头部转动、点头、交谈、皱眉、微笑、欢笑等)。所检测脸部的位置和/或脸部特性206的变化可转换为参数，其使化身的特征与用户脸部的特征相似。

在一些实施例中，所检测脸部的一般表情可转换为一个或多个参数，其使化身呈现同样表情。在一些情况下，化身的表情还可夸大以强调表情。当化身参数可一般地应用于全部预定义化身时，所选化身的知识可以不是必需的。但是，在一个实施例中，化身参数可以是所选化身特定的，并且因而在选择另一个化身时可以改变。例如，人类化身可要求参数设定(例如可改变不同的化身特征)，以示范例如开心、悲伤、愤怒、惊讶等的情绪，其与动物化身、卡通化身等的情绪是不同的。

化身控制模块210可包括定制、专有、已知和/或以后开发的图形处理代码(或指令集)，其是一般明确定义的，并且可操作以基于脸部检测模块204所检测的脸部/头部位置和/或脸部特性206来生成用于动画制作化身选择模块208所选择的化身的参数。对于基于脸部特征的动画方法，化身动画可例如使用图像扭曲或图像变形进行。按照一些示例实施例，从Oddcast, Inc.可得到的Oddcast™技术是可用于二维(2-D)化身动画的软件资源的示例。另外并且按照一些示例实施例，来自Autodesk, Inc.的Maya™3D动画软件以及www.blender.org所提供的Blender(TM)3D动画套件是可用于三维(3-D)化身动画的软件资源的示例。其他适当2-D和3-D动画软件资源将取决于给定应用，并且根据本公开将会是显而易见的。

化身控制模块210可使显示模块212在装置102的显示器或者以其他方式在操作上耦合到装置102的显示器上显示化身。显示模块212可包括定制、专有、已知和/或以后开发的图形处理代码(或指令集)，其是一般明确定义的，并且可操作以在显示器上显示和动画制作化身。例如，化身控制模块210可接收化身选择，并且可将那个选择解释为对应于预定化身。显示模块则可例如在装置102的显示器上显示化身。

装置102还可包括通信模块216，其配置成传送和接收用于选择化身、显示化身、动画制作化身等的信息。通信模块216可包括定制、专有、已知和/或以后开发的通信处理代码(或指令集)，其是一般明确定义的，并且可操作以传送化身选择和化身参数以及接收数据。通信模块216还可配置成传送和接收与基于化身的通信对应的音频信息。通信模块216可例如经由网络122来传送和接收上述信息，如先前所述。在一些情况下，通信模块216可准许例如与一个或多个远程装置(例如与一个或多个其他装置102)的有线和/或无线通信。

装置102还可包括一个或多个处理器218，其配置成执行与装置102以及本文所包括的模块的一个或多个关联的操作。另外，装置102可包括用于处理器工作空间和存储的存储器220。存储器220能够属于任何适当类型(例如RAM和/或ROM或者其他适当存储器)和任何适当大小，以及在一些情况下可采用易失性存储器、非易失性存储器或者其组合来实现。存储器220可例如用于在装置102上暂时或永久地存储媒体、程序、应用、内容等。

存储器220能够包括其中存储的、能够例如由(一个或多个)处理器218来访问和运行的多个模块。例如，装置102可包括操作系统(OS)模块，例如以帮助处理从成像输入装置104和/或音频输入装置106所接收的输入。OS模块能够采用移动或其他(例如来自Google, Inc.的Android®、来自Apple, Inc.的iOS®、来自Microsoft Corp.的Windows Phone®等)的任何适当OS，如根据本公开将会是显而易见的。另外，装置102可包括用户界面(UI)模块，例如以帮助执行基于化身的视频编码，如本文以各种方式所述。此外，装置102可包括或者以其他方式有权访问：(1) 视频记录应用或其他软件，其准许对来自其中的图像的视频记录和提取，如本文以各种方式所述；和/或(2) 音频记录应用或其他软件，其准许音频记录，如本文以各种方式所述。在一些情况下，(一个或多个)视频和/或音频记录应用可存储在存储器220中。存储器220的其他适当模块将取决于给定应用，并且根据本公开将会是显而易见的。

在任何情况下，存储器220的模块能够例如通过任何适当编程语言(例如C、C++、objective C、JavaScript、定制或专有指令集等)来实现，并且在机器可读介质(其在由处理器运行时执行装置的功能性)上编码。计算机可读介质可以是例如包括可执行指令的硬盘驱动器、致密光盘、存储棒、服务器或者任何适当非暂时计算机/计算装置存储器或者多个这类存储器或者其组合。其他实施例能够例如采用门级逻辑或专用集成电路(ASIC)或芯片组或者其他这种专门逻辑或者具有输入/输出能力(例如，用于接收用户输入的输入和用于指导其他组件的输出)以及用于执行装置功能性的多个嵌入式例程的微控制器来实现。简言之，功能模块能够通过硬件、软件、固件或者其组合来实现。

图2示出按照本公开的一实施例所配置的示例脸部检测模块204。脸部检测模块204可配置成经由成像和音频框架模块200从成像输入装置104接收一个或多个图像，并且至少在某种程度上识别(一个或多个)所接收图像中的脸部(或者可选的多个脸部)。脸部检测模块204还可配置成至少在某种程度上识别和确定图像中的一个或多个脸部特性206。脸部特性206可基于脸部检测模块204所识别的脸部参数的一个或多个来生成，如本文所述。脸部特性206可包括脸部的特征，非限制性地例如脸部标志(例如眼睛、鼻子、嘴巴、脸部轮廓、眉毛等)的位置和/或形状。

在所示示例实施例中，脸部检测模块204包括脸部检测/跟踪模块300、脸部归一化模块302、标志检测模块304、通用脸部参数生成模块306、脸部参数模块308、脸部姿态模块310和脸部表情检测模块312。脸部检测/跟踪模块300可包括定制、专有、已知和/或以后开发的脸部跟踪代码(或指令集)，其是一般明确定义的，并且可操作以至少在某种程度上检测和识别从成像输入装置104所接收的静止图像或视频流中的人脸的大小和位置。一些示例适当脸部检测/跟踪系统包括例如Viola和Jones的技术(作为Paul Viola和Michael Jones的“Rapid Object Detection using a Boosted Cascade of Simple Features, Accepted Conference on Computer Vision and Pattern Recognition”所发表，2001年)。这些技术使用自适应增强(AdaBoost)分类符的级联、通过对图像详尽地扫描窗口来检测脸部。脸部检测/跟踪模块300还可跨多个图像跟踪脸部区域。

脸部归一化模块302可包括定制、专有、已知和/或以后开发的脸部归一化代码(或指令集)，其是一般明确定义的，并且可操作以归一化图像中的所识别脸部。例如，脸部归一化模块302可配置成旋转图像以对齐眼睛(如果眼睛的坐标为已知)、鼻子、嘴巴等，并且将图像修剪成与脸部的大小一般对应的较小大小，缩放图像以使眼睛、鼻子和/或嘴巴等之间的距离是恒定的，应用将不在包含典型脸部的椭圆中的像素清零的掩码，直方图均衡图像以平滑非掩蔽像素的灰度值的分布，和/或归一化图像，因此非掩蔽像素具有均值零和标准偏差一。

标志检测模块304可包括定制、专有、已知和/或以后开发的标志检测代码(或指令集)，其是一般明确定义的，并且可操作以至少在某种程度上检测和识别图像中的脸部的各种脸部特征。标志检测中隐含的是，至少在某种程度上已经检测脸部。可选地，可以执行了某种程度的定位(例如由脸部归一化模块302)，以识别/聚焦于标志潜在地可能存在的图像的区域/面积。例如，标志检测模块304可基于试探分析，并且可配置成识别和/或分析前额、眼睛(和/或眼角)、鼻子(例如鼻尖)、下巴(例如下巴尖)、眉毛、颊骨、颚和/或脸部轮廓的相对位置、大小和/或形状。眼角和嘴角还可例如使用基于Viola-Jones的分类器来检测。

通用脸部参数生成模块306可包括定制、专有、已知和/或以后开发的脸部模式代码(或指令集)，其是一般明确定义的，并且可操作以基于图像中的所识别脸部标志来识别和/或生成脸部模式。如根据本公开将会理解，在一些情况下，模块306可被认为是脸部检测/跟踪模块300的一部分。另外，模块306可包括脸部参数模块308，其配置成至少部分基于图像中的所识别脸部标志来生成用户脸部的脸部参数。脸部参数模块308可包括定制、专有、已知和/或以后开发的脸部模式和参数代码(或指令集)，其是一般明确定义的，并且可操作以基于图像中的所识别脸部标志来识别和/或生成关键点以及连接关键点的至少一部分的关联边缘。如本文详细描述，由化身控制模块210来生成化身可至少部分基于脸部参数模块308所生成的脸部参数，包括关键点以及关键点之间所限定的关联连接边缘。类似地，由化身控制模块210对所选化身(包括预定义化身和所生成化身)的动画制作和渲染可至少部分基于脸部参数模块308所生成的脸部参数。

脸部姿态模块310可包括定制、专有、已知和/或以后开发的脸部取向检测代码(或指令集)，其是一般明确定义的，并且可操作以至少在某种程度上检测和识别图像中的脸部的姿态。例如，脸部姿态模块310可配置成相对装置102来建立图像中的脸部的姿态。更具体来说，脸部姿态模块310可配置成确定用户的脸部是否朝向装置102的成像输入装置104。

脸部表情检测模块312可包括定制、专有、已知和/或以后开发的脸部表情检测和/或识别代码(或指令集)，其是一般明确定义的，并且可操作以检测和/或识别图像中的用户的脸部表情。例如，脸部表情检测模块312可确定各种脸部特征(例如前额、下巴、眼睛、鼻子、嘴巴、脸颊、脸部轮廓等)的大小和/或位置，并且将脸部特征与脸部特征数据库(其包括具有对应脸部特征分类的多个样本脸部特征)进行比较。

图3A-3E示出按照本公开的一实施例、化身动画的示例脸部控制参数和生成。如图3A所示，用户的图像400(例如正面图片)用作化身生成的起始点。如先前所述，脸部检测模块204(包括脸部检测/跟踪模块300、脸部归一化模块302和/或标志检测模块304等)可配置成检测和识别用户脸部的大小和位置，归一化所识别脸部，和/或至少在某种程度上检测和识别图像400中的脸部的各种脸部特征。更具体来说，可识别和/或分析前额、眼睛和/或眼角、鼻子(例如鼻尖)、下巴(例如下巴尖)、眉毛、颊骨、颚和脸部轮廓的相对位置、大小和/或形状。

如图3B所示，用户脸部包括脸部参数的脸部模式可在图像402中识别。更具体来说，脸部参数模块308可配置成至少部分基于图像402中的所识别脸部标志来生成用户脸部的脸部参数。如所示，脸部参数可包括一个或多个关键点404以及将一个或多个关键点404相互连接的关联边缘406。关键点404和关联边缘406形成基于所识别脸部参数的用户的总体脸部模式。

在一些示例实施例中，脸部参数模块308可包括定制、专有、已知和/或以后开发的脸部参数代码(或指令集)，其是一般明确定义的，并且可操作以基于所识别脸部标志(例如前额、眼睛、鼻子、嘴巴、下巴、脸部轮廓等)、按照一个所识别脸部标志(例如前额)与至少一个另一所识别脸部标志(例如眼睛)之间的统计几何关系来生成关键点404和连接边缘406。

例如，在一个实施例中，关键点404和关联边缘406可在二维笛卡尔坐标系中定义。更具体来说，关键点404可定义(例如编码)为{point, id, x, y}，其中“point”表示节点名称，“id”表示索引，以及“x”和“y”是坐标。边缘406可定义(例如编码)为{edge, id, n, p1, p2, …, pn}，其中“edge”表示节点名称，“id”表示边缘索引，“n”表示边缘406所包含(例如所连接)的关键点的数量，以及p1-pn表示边缘406的点索引。例如，代码集{edge, 0, 5, 0, 2, 1, 3, 0}可被理解为表示边缘0包括(连接)5个关键点，其中关键点的连接顺序是关键点0到关键点2到关键点1到关键点3到关键点0。

在建立关键点404和关联边缘406之后，在一些实施例中，构成所检测脸部的三维(3-D)化身。三维(3-D)脸部模型的每个点或顶点可根据形状数据(例如根据笛卡尔坐标的x、y、z)和纹理数据(例如8位深度的红色、绿色和蓝色)来表示。按照一些实施例，模型脸部具有采取一个或多个主成分分析(PCA)系数的形式的脸部形状和纹理。通过将形状和/或纹理数据变换为向量空间表示来得出可变形脸部模型，并且然后操纵可变形脸部模型，以提供三维化身。这个变换和操纵可由装置102上的化身生成模块来执行。备选地，描述关键点404和关联边缘406的数据可上传到服务器，供变换成二维(2-D)或三维(3-D)化身。

为了构建向量空间表示以用作三维(3-D)化身模型，能够使用与脸部的关键点404(例如眼角、鼻尖和嘴角等)关联的运动向量。与关键点404关联的这些运动向量可在运动捕获过程中的模型构造之前来得到，并且存储在数据库中，以便在化身构造和动画制作期间来查询。备选地，可通过在模型构造之前的“训练会话”中对时间跟踪用户的脸部表情，来得到运动向量。以关键点404的运动向量开始，三维(3-D)化身中的其他点的其他运动向量可通过内插来得出。

在一个示例实施例中，标准三维(3-D)可变形脸部模型工具(例如在www.facegen.com的Singular Inversions可得到的FaceGen™)将三维(3-D)可变形脸部模型与输入二维(2-D)脸部图像进行拟合。示例初始三维(3-D)可变形脸部模型在图3C中示出。一般来说，三维(3-D)脸部模型表示为顶点V和三角形T的阵列。各顶点是具有(x, y, z)坐标的三维点，以及T包括连接这些顶点的三角形脸部。图3C所示的是例如具有45个顶点和72个三角形的简单脸部模型。在这个示例实施例中，连接三角形是固定的并且没有改变。脸部模型的形状通过改变顶点V的位置来改变。如果脸部模型具有N个顶点，则顶点阵列为3N×1向量：M={x1, y1, z1, x2, y2, z2, …, xn, yn, zn}^I{列向量)。

具有相同拓扑(相同数量的顶点和相同连接三角形)的输入数据能够经由可变形模型工具来提供，以通过PCA(主成分分析)表示来训练可变形模型，如以下所述。三维(3-D)可变形脸部模型M按照下列公式来构成：

其中，M_D是从所有数据点的平均数所得出的平均可变形模型，P_i是本征向量(每个P_i是3N×1列向量)，以及b_i(称作PCA系数)是本征值。对于特定脸部模型，M_D和P是固定的，但是b是可调的。一个模型对应于PCA系数的阵列；也就是说，在给定三维(3-D)脸部模型的情况下，矩阵因数分解能够用来得到对应PCA系数b_i；以及反过来也是一样，在给定PCA系数b_i的阵列的情况下，能够得出三维脸部模型。

如参照图3B所述所得出的所检测关键点404和边缘406是描述脸部的形状的脸部模型的特征点。其位置(三维坐标)能够用来测量将三维(3-D)可变形脸部模型与二维(2-D)输入图像进行拟合中的误差。M_D和P可从可变形模型工具和/或从模型构造之前所执行的运动捕获训练过程来得到，并且存储在模型数据库中。调整b_i，公式中的PCA系数将产生不同的三维(3-D)模型M。最初，b_i的值设置为零，并且然后基于所有数据点的平均数、作为平均三维脸部来计算M=M_D。将所产生的三维(3-D)模型M投影到二维(2-D)图像平面中。这个投影提供三维(3-D)脸部模型上的关键点404和边缘406的投影位置。

误差作为投影关键点与所检测关键点404之间的差来计算。该计算则通过反复调整b(PCA系数)以产生新的三维(3-D)模型来执行。新的三维(3-D)模型投影到二维(2-D)图像，再次计算误差，并且该过程反复进行，直至误差量达到可接受的最小值。当误差量达到可接受的最小值时，三维(3-D)化身的生成完成。这种技术由Volker Blanz等人在“A Statistical Method for Robust 3D Surface Reconstruction from Sparse Data”(Int. Symp. on 3D Data Processing，Visualization and Transmission，2004年)中更详细描述。

图3D和图3E分别示出基于所识别脸部标志和脸部参数(包括关键点404和边缘406)的示例二维(2-D)化身408a和示例三维(3-D)化身408b。如能够看到，化身408a和/或408b提供图像400所示的用户实际脸部的程度不同的准确表示。

图4示出按照本公开的一实施例所配置的示例化身控制模块210和化身选择模块208。化身选择模块208可配置成允许装置102的用户选择化身供构成视频记录中使用，如本文以各种方式所述。化身选择模块208可包括定制、专有、已知和/或以后开发的用户界面构造代码(或指令集)，其是一般明确定义的，并且可操作以呈现一个或多个化身供选择(例如，向用户呈现给定化身，使得用户可选择化身之一)。在一些情况下，化身选择模块208可配置成允许装置102的用户选择化身数据库500中存储的一个或多个预定义化身。虽然化身数据库500在图4中示为存储在装置102上的化身选择模块208中，但是预期化身数据库500备选地存储在与装置102关联的网络122上或者是以其他方式通过网络122可访问的。化身模块208还可配置成允许用户选择成具有所生成的化身，如参照图3A-3E一般所示和所述。已经生成的化身可称作所生成化身，其中关键点和边缘从用户脸部的图像来生成，与具有预定义关键点相反。相比之下，预定义化身可称作基于模型的化身，其中预先定义关键点，并且预定义化身不是对特定用户的脸部定制的。

如所示，化身控制模块210可包括化身生成模块502，其配置成例如响应指示从化身选择模块208生成化身的用户选择而生成化身。化身生成模块502可包括定制、专有、已知和/或以后开发的化身生成处理代码(或指令集)，其是一般明确定义的，并且可操作以基于脸部检测模块204所检测的脸部特性206来生成化身。更具体来说，化身生成模块502可基于所识别脸部标志和脸部参数(包括关键点404和边缘406)来生成化身408a和/或408b(例如，在图3D和图3E的上下文中分别论述的那些化身)。在生成化身时，化身控制模块210还可配置成向化身选择模块208传送所生成化身的副本，以便存储在化身数据库500中。

化身控制模块210还可包括化身渲染模块504，其配置成例如基于化身参数来提供化身选择的自适应渲染。更具体来说，化身控制模块210可包括定制、专有、已知和/或以后开发的图形处理代码(或指令集)，其是一般明确定义的，并且可操作以自适应地渲染所选化身，以便在与装置102操作耦合的显示器上适当拟合，并且在向用户显示时防止化身的失真。

方法

图5示出按照本公开的一实施例的基于化身的视频编码的过程。如能够看到，该过程可如在框10开始于记录视频。如上所述，这能够例如通过激活与装置102关联的视频记录应用或其他适当软件(例如在存储器220)进行，其中视频记录应用或其他适当软件使成像输入装置104捕获成像数据和/或使音频输入装置106捕获音频数据。在一些情况下，激活能够基于用户输入发生。在一些其他情况下，激活能够由传感器(例如，常通视频传感器)或其他适当装置来触发。在任何这类情况下，如根据本公开将会理解，所捕获成像数据能够例如采取图像或帧(例如视频帧)序列的形式来提供。

在一些情况下，捕获用户脸部的视频帧(例如正面视频帧)可选地能够如在框20从视频记录来提取。在一些情况下，这种提取可在视频被记录的同时发生。在一些其他情况下，提取可在视频记录完成之后发生。在任何情况下并且按照一些实施例，可选地提取的正面视频帧图像能够用来生成二维(2-D)或三维(3-D)化身，如以上例如参照图3A-3E所述。在一些情况下并且按照一实施例，可使用PCT申请No.PCT/CN2012/081061(2012年9月6日提交，并且标题为“System and Method for Avatar Creation and Synchronization”)中所述的技术来生成化身。更详细来说，由从视频所提取的正面静止帧来生成化身能够在装置102(例如由化身生成模块502)本地执行和/或(例如通过向网络122上传正面图像、关键点404和边缘406，并且使用化身生成软件或由此可提供的服务)远程执行。另外，从用户脸部所生成的化身可例如：(1)在装置上本地(例如在化身选择模块208中)所包含的化身数据库500中存储；和/或(2)远程存储(例如在网络122中或者由装置102可访问的其他远程数据库中)。

该过程可如在框30继续选择化身供重构视频中使用。可从例如(1)在装置上本地(例如在化身选择模块208中)所包含的化身数据库500中和/或(2)远程(例如在网络122中或者由装置102可访问的其他远程数据库中)可用的一组一个或多个化身中进行选择。在一些情况下，能够选择从用户脸部的图像(例如，在框20可选地提取的视频帧)已经生成(例如得出)的化身，以供视频重构中使用。但是，在一些其他示例中，能够选择尚未从用户脸部的图像直接得出的化身。也就是说，其他二维(2-D)和三维(3-D)化身(例如动画电影人物、卡通形象、历史人物等)能够用于在重构视频中表示用户。在任何情况下，所选化身能够用来表示所产生的基于化身的视频中的用户。

虽然化身选择通常可在视频记录完成之后进行，但是本公开并不局限于此，因为在更一般意义上，化身选择能够在任何时间(例如在如在框10记录视频之前、期间和/或之后)执行。另外，所选化身可例如在通信会话过程期间的任何时间来改变(例如使得在给定会话期间可使用多个化身)。在一些情况下，选择能够由用户进行，但是这不作要求，因为在一些其他情况下，选择能够自动地或者在没有用户输入的情况下进行。在一些情况下，可向用户呈现关于化身的选择的提示。化身选择提示的呈现能够例如每次记录视频时发生(例如以便允许使用多个或者变化的化身)或者仅发生一次(例如在记录第一视频之后)，以便允许用户指定缺省化身，其将被自动选择，而无需来自用户的进一步输入(例如在给定通信会话、时间周期等期间)。在一些情况下，用户可指定其缺省化身，并且选择放弃(暂时或永久)在将来被提示切换化身。根据本公开，许多变更将会是显而易见的。

该过程可如在框40继续采用所选化身来重构所记录视频。图6示出按照本公开的一实施例、使用化身来重构视频的示例过程。如能够看到，该过程能够如在框42开始于将在框10所记录的视频(以上所述)分解为：(1) 视频帧流；以及(2) 音频流。如将会理解，可存在其中音频流无需存在的情况(例如，如果用户记录没有伴随声音的脸部反应或其他脸部运动的视频)，并且因此在这类情况下，可以仅提供视频帧流。

该过程能够如在框44继续提取视频帧流的各视频帧中检测的脸部表情，并且通过对其映射脸部表情来动画制作所选化身。在一些情况下并且按照一实施例，脸部运动捕获和化身表情传递/动画制作能够例如使用PCT申请No.PCT/CN2011/072603(2011年4月11日提交，并且标题为“Avatar Facial Expression Techniques”)中所述的技术来执行。例如，考虑图7，其示出按照本公开的一实施例、用于提取所检测脸部表情并且通过对其映射脸部表情来动画制作所选化身的示例过程。如能够看到，该过程能够如在框44a开始于识别用户的脸部特征点(例如特征点404)并且跟踪其移动。这能够例如使用脸部检测模块204(例如通过其脸部检测/跟踪模块300)来执行，如先前所述。在一些这类情况下，脸部检测模块204能够检测所接收成像数据中的脸部，以及确定那个脸部的脸部特征点(例如特征点404)。提供给脸部检测模块204的成像数据能够来自成像输入装置104，例如采取图像或帧(例如视频帧)序列的形式。在一些情况下，提取脸部特征的预处理能够例如离线执行。

该过程能够如在框44b继续将所检测/跟踪脸部特征点的移动分解为至少两个类别：(1) 脸部表情移动；以及(2) 头部刚性移动。前一类别(脸部表情移动)可包括例如因脸部表情引起的非刚性变换。后一类别(头部刚性移动)可包括因头部姿态引起的刚性移动(例如平移、旋转和缩放因子)。这还能够例如使用脸部检测模块204来执行，如先前所述。

在一些情况下，脸部表情移动可使用多个脸部特征数据来表示，例如：(1) 上唇与下唇之间的距离；(2) 两个嘴角之间的距离；(3) 上唇与鼻尖之间的距离；(4) 下唇与鼻尖之间的距离；(5) 鼻翼与鼻尖之间的距离；(6) 上眼睑与下眼睑之间的距离；(7) 眉尖与鼻尖之间的距离；(8) 两个眉尖之间的距离；和/或(9) 眉尖与眉中之间的距离。但是，本公开并不局限于此，因为按照一些其他实施例，能够使用任何数量的多个脸部特征。

随后，该过程能够如在框44c继续从所跟踪脸部表情移动来确定用户的脸部表情，并且检索相似表情序列以供动画制作所选化身中使用。为此，所跟踪脸部表情移动能够例如提供给运动捕获数据库模块506(如在图4中)。按照一实施例，运动捕获数据库模块506可包括或者以其他方式有权访问记录/存储了不同人脸表情和移动的数据的信息存储介质(例如存储器220或者其他适当存储装置)。在一些情况下，运动捕获数据库模块506能够包含在装置102中(例如化身控制模块210中)。但是，本公开并不局限于此，因为在一些其他情况下，运动捕获数据库模块506可以是由装置102使用有线和/或无线通信远程可访问的。

可记录并且存储在运动捕获数据库模块506中的一些示例表情和移动可包括但不限于欢笑、开心、愤怒、惊讶、悲伤、害怕、厌恶、谈话、吃等。这些和其他脸部表情和移动能够例如使用(一个或多个)运动捕获装置(例如，从Vicon Motion Systems(Oxford，UK)可得到的运动捕获产品)被捕获并且输入运动捕获数据库506中。例如，考虑图8，其示出按照本公开的一实施例、附有多个运动捕获标记的人脸。如根据本公开将会理解，可利用任何数量的标记，以及在一些情况下，可期望利用在大约30-100个标记的范围中的一些运动捕获标记。当人执行不同的表情/移动时，关联运动捕获装置能够捕获每帧中的各标记的三维(3-D)坐标，并且可对每个这种表情/移动来记录这些坐标。在一些情况下，脸部表情的运动捕获能够例如在离线过程中执行。

在任何情况下，在记录运动捕获数据库506之后，数据库生成模块508(如在图4中)可生成与人的不同脸部表情相关的数据。也就是说，数据库生成模块508能够通过提取数据库的每帧的脸部特征，来预先处理数据库。更具体来说，对于数据库中的每帧，数据库生成模块508可计算多个脸部特征(如先前所述)。在一些实施例中，数据库生成模块508能够例如在离线过程中生成这个数据。数据库生成模块508可将这些特征存储在运动捕获数据库模块506中供以后检索。

基于所检测脸部特征及其移动，与用户的所检测脸部表情相似(例如相同或者基本上相似)的表情序列能够例如从运动捕获数据库506中检索。表示所检测脸部表情变化的所检索表情序列又能够复制到化身，以在执行相同脸部表情变化中驱动化身，如在框44d中那样。化身控制模块210能够用来基于从运动捕获数据库模块506所检索的表情序列来控制化身。

在一些情况下，这可涉及归一化人脸并且将其重新映射到化身，将脸部表情变化复制到化身，并且然后驱动化身以执行与所检索特征中相同的脸部表情变化。另外，在一些情况下，头部刚性移动能够在驱动化身中直接使用。如根据本公开并且按照一实施例将会理解，包括用户脸部特性206(例如眼睛、鼻子、嘴巴等)的一个或多个的移动和/或变化的任何所检测脸部/头部移动能够转换为可用于动画制作化身网格(例如，以上参照图3C的示例化身网格所述)的参数。

回到图6，该过程能够如在框46继续显示非屏幕帧缓冲器中的动画化身，并且对视频帧流的各视频帧提取其屏幕截图图像。化身视频帧能够使用任何适当引擎来创建，如根据本公开将会显而易见。例如，在一些实施例中，化身视频帧创建能够例如使用例如下列项进行：(1) OpenGL应用编程接口(API)或者其移动版本、即嵌入式系统的OpenGL(OpenGL ES)，以渲染双帧缓冲器其中之一(在图形处理单元存在时通过硬件或者在GPU不可用但是安装了OpenGL驱动程序时通过软件)上的动画化身；以及(2) glReadPixels(例如，其从帧缓冲器中读取像素块)，从帧缓冲器中读取屏幕截图图像。在一些情况下，当帧缓冲器能够编程为提供屏幕上显示(例如在装置102上或者在以其他方式与装置102关联的显示器上时，化身视频帧创建能够例如在后端服务中处理。图9A-9C示出按照本公开的一实施例的各种示例化身表情的若干示例屏幕截图图像。

如在图6中能够看到，该过程能够如在框48继续将所提取化身屏幕截图图像和音频流(若存在的话)编码为新视频。在音频数据存在的情况下，所产生视频能够包括伴随有音频通信(例如用户的语音)的动画化身。在音频数据不存在的情况下，所产生视频可以仅包括动画化身。在任何情况下并且按照一些实施例，所产生的基于化身的动画视频能够准确地模仿或者模拟由用户在以上在框10的上下文中所述的原始视频记录期间所产生的脸部表情和头部移动。

根据本公开，关于这种方法的许多变更将会是显而易见的。如将会理解并且按照一实施例，图5、图6和图7的功能框(例如框10、20、30、40、42、44、46、48、44a、44b、44c、44d)能够例如实现为模块或者子模块，其在由一个或多个处理器运行或者以其他方式操作时使如本文所述的关联功能性被执行。模块/子模块可例如通过软件(例如存储于一个或多个计算机可读介质的可执行指令)、固件(例如具有请求来自用户的输入并且提供对用户请求的响应的I/O能力的微控制器或其他装置的嵌入式例程)和/或硬件(例如门级逻辑、现场可编程门阵列、专用硅等)来实现。

图10是示出按照本公开的一实施例、服务器上的示例视频渲染流程的框图。如从图中能够看到，服务器能够接收从客户端所上传的aMedia文件。此后，aMedia文件能够例如解复用为：(1) 例如使用因特网低比特率编解码器(iLBC)来编码的音频流；以及(2) 视频帧流(例如化身帧)。iLBC音频然后能够解码为例如脉冲代码调制(PCM)音频，其又能够例如使用FFmpeg的“libfaac”(例如免费软件高级音频编码器FAAC库)来编码为高级音频编码(AAC)方案。

如从图10中能够进一步看到，化身帧能够使用适当软件开发套件(SDK)来动画制作(如根据本公开将会是显而易见的)，并且然后例如通过OpenGL(其可将图形处理单元(GPU)用于化身模型渲染来绘制。在一些情况下，一个视频帧的绘制结果可以是例如GPU存储缓冲器中的720p(1280×720×4)RGB数据。此后，主计算机处理单元(CPU)可从GPU获得(例如复制)视频帧，并且例如使用例如H.263或H.264/MPEG-4高级视频编码(AVC)(例如，FFmpeg的H.264编解码器的‘libx264’)等的编解码器或者任何其他适当视频编码器(如根据本公开将会理解)对其进行编码，以压缩视频数据。随后，所产生的编码音频(例如AAC编码音频)和视频(例如H.264编码视频)可例如使用FFmpeg来同步和复用。所产生的复用H.264帧可写入MP4文件格式或其他预期文件格式，如根据本公开将会是显而易见的。

如根据本公开将会理解，为了帮助最小化或者降低性能瓶颈，在图10的流程的示例上下文中，可期望例如避免对大量数据的存储器复制。如将会进一步理解，可期望利用GPU来例如加速H.264编码。在一些情况下，可期望使用计算统一装置架构(CUDA)并行编程模型来帮助利用GPU能力。另外，在一些情况下，可期望利用用于用户上传-渲染情形的异步方法，例如以帮助改进用户体验。根据本公开，许多变更将会是显而易见的。

示例系统

图11示出按照一些实施例、可执行如本文所述用于基于化身的视频编码的技术的示例系统600。在一些实施例中，系统600可以是媒体系统，但是系统600并不局限于这个上下文。例如，系统600可结合到个人计算机(PC)、膝上型、超级膝上型计算机、平板、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能装置(例如智能电话、智能平板或智能电视机)、移动因特网装置(MID)、消息传递装置、数据通信装置、机顶盒、游戏控制台或者能够执行图形渲染操作的其他这类计算环境中。

在一些实施例中，系统600包括耦合到显示器620的平台602。平台602可从诸如(一个或多个)内容服务装置630或者(一个或多个)内容传递装置640之类的内容装置或者其他类似内容源来接收内容。包括一个或多个导航特征的导航控制器650可用来与例如平台602和/或显示器620进行交互。下面更详细描述这些示例组件的每个。

在一些实施例中，平台602可包括芯片组605、处理器610、存储器612、存储装置614、图形子系统615、应用616和/或无线电单元618的任何组合。芯片组605可提供处理器610、存储器612、存储装置614、图形子系统615、应用616和/或无线电单元618之间的相互通信。例如，芯片组605可包括存储适配器(未示出)，其能够提供与存储装置614的相互通信。

处理器610可例如实现为复杂指令集计算机(CISC)或简化指令集计算机(RISC)处理器、x86指令集兼容处理器、多核心或者任何其他微处理器或中央处理器(CPU)。在一些实施例中，处理器610可包括(一个或多个)双核处理器、(一个或多个)双核移动处理器等。存储器612可例如实现为易失性存储器装置，非限制性地例如随机存取存储器(RAM)、动态随机存取存储器(DRAM)或静态RAM(SRAM)。存储装置614可例如实现为非易失性存储装置，非限制性地例如磁盘驱动器、光盘驱动器、磁带驱动器、内部存储装置、附连存储装置、闪速存储器、电池备用SDRAM(同步DRAM)和/或网络可访问存储装置。在一些实施例中，例如，存储装置614可包括在包括多个硬盘驱动器时增加有价值数字媒体的存储性能增强保护的技术。

图形子系统615可执行诸如静止或视频之类的图像的处理供显示。例如，图形子系统615可以是图形处理单元(GPU)或者视觉处理单元(VPU)。模拟或数字接口可用来在通信上耦合图形子系统615和显示器620。例如，接口可以是高清晰度多媒体接口(HDMI)、DisplayPort、无线HDMI和/或符合无线HD的技术中的任一种。图形子系统615可集成到处理器610或芯片组605中。图形子系统615可能是通信上耦合到芯片组605的独立卡。本文所述的用于基于化身的视频编码的技术可通过各种硬件架构来实现。例如，如本文所提供的用于基于化身的视频编码的技术可集成在图形和/或视频芯片组中。备选地，可使用分立安全处理器。在又一个实施例中，包括用于基于化身的视频编码的技术的图形和/或视频功能可通过包括多核处理器的通用处理器来实现。

无线电单元618可包括一个或多个无线电单元，其能够使用各种适当的无线通信技术来传送和接收信号。这类技术可涉及跨一个或多个无线网络的通信。示范无线网络可包括但不限于无线局域网(WLAN)、无线个人区域网络(WPAN)、无线城域网(WMAN)、蜂窝网络和卫星网络。在跨这类网络的通信中，无线电单元618可按照任何版本的一个或多个适用标准进行操作。

在一些实施例中，显示器620可包括任何电视机类或计算机类型监视器或显示器。显示器620可包括例如液晶显示器(LCD)屏幕、电泳显示器(EPD)或液态纸显示器、平板显示器、触摸屏显示器、类似电视机的装置和/或电视机。显示器620可以是数字和/或模拟的。在一些实施例中，显示器620可以是全息或三维(3-D)显示器。另外，显示器620可以是可接收视觉投影的透明表面。这类投影可传送各种形式的信息、图像和/或对象。例如，这类投影可以是移动增强现实(MAR)应用的视觉覆盖。在一个或多个软件应用616的控制下，平台602可在显示器620上显示用户界面622。

在一些实施例中，(一个或多个)内容服务装置630可由任何国家、国际和/或单独服务来托管，并且因而可以是平台602经由例如因特网或其他网络可访问的。(一个或多个)内容服务装置630可耦合到平台602和/或显示器620。显示器602和/或(一个或多个)内容服务装置630可耦合到网络660，以便向/从网络660传递(例如发送和/或接收)媒体信息。(一个或多个)内容传递装置640还可耦合到平台602和/或显示器620。在一些实施例中，(一个或多个)内容服务装置630可包括有线电视盒、个人计算机(PC)、网络、电话、因特网使能装置或者能够传递数字信息和/或内容的设备以及能够在内容提供商与平台602和/或显示器620之间经由网络660或者直接地单向或双向传递内容的任何其他类似装置。将会理解，可经由网络660向/从系统600中的组件的任一个和内容提供商单向和/或双向传递内容。内容的示例可包括任何媒体信息，其中包括例如视频、音乐、图形、文本、医疗和游戏内容等。

(一个或多个)内容服务装置630接收内容，例如包括媒体信息的有线电视节目、数字信息和/或其他内容。内容提供商的示例可包括任何有线或卫星电视或无线电或者因特网内容提供商。所提供的示例并不是要限制本公开。在一些实施例中，平台602可从具有一个或多个导航特征的导航控制器650接收控制信号。例如，控制器650的导航特征可用来与用户界面622进行交互。在一些实施例中，导航控制器650可以是指针装置，其可以是允许用户将空间(例如连续和多维的)数据输入计算机中的计算机硬件组件(具体是人性化界面装置)。诸如图形用户界面(GUI)之类的许多系统以及电视机和监视器允许用户使用形体姿态来控制并且将数据提供给计算机或电视机。

通过显示器上显示的移动指针、光标、聚焦环或者其他视觉指示符，可在显示器(例如显示器620)上仿效控制器650的导航特征的移动。例如，在软件应用716的控制下，位于导航控制器650上的导航特征可映射到例如用户界面622上显示的虚拟导航特征。在一些实施例中，控制器650可以不是独立组件，而是集成到平台602和/或显示器620中。但是，如将会理解，实施例并不局限于本文所示或所述的元件或上下文。

在一些实施例中，驱动程序(未示出)可包括使用户能够例如通过在初始引导之后触摸按钮(在被启用时)来立即接通和关断平台602、例如电视机的技术。程序逻辑可允许平台602在平台“关断”时，将内容流播到媒体适配器或者(一个或多个)其他内容服务装置630或者(一个或多个)内容传递装置640。另外，例如，芯片组605可包括对5.1环绕声音频和/或高清晰度7.1环绕声音频的硬件和/或软件支持。驱动程序可包括集成图形平台的图形驱动程序。在一些实施例中，图形驱动程序可包括外设部件互连(PCI)Express图形卡。

在各个实施例中，可集成系统600中所示组件的任一个或多个。例如，可集成平台602和(一个或多个)内容服务装置630，或者可集成平台602和(一个或多个)内容传递装置640，或者例如可集成平台602、(一个或多个)内容服务装置630和(一个或多个)内容传递装置640。在各个实施例中，平台602和显示器620可以是集成单元。例如，可集成显示器620和(一个或多个)内容服务装置630，或者可集成显示器620和(一个或多个)内容传递装置640。这些示例并不是要限制本公开。

在各个实施例中，系统600可实现为无线系统、有线系统或者两者的组合。当实现为无线系统时，系统600可包括适合于通过无线共享介质(例如一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等)进行通信的组件和接口。无线共享介质的示例可包括无线谱的部分，例如射频(RF)谱等。当实现为有线系统时，系统600可包括适合于通过有线通信介质(例如输入/输出(I/O)适配器、将I/O适配器与对应有线通信介质连接的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器等)进行通信的组件和接口。有线通信介质的示例可包括电线、电缆、金属引线、印刷电路板（PCB）、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。

平台602可建立一个或多个逻辑或物理信道以传递信息。信息可包括媒体信息和控制信息。媒体信息可表示预计送往用户的内容的任何数据。内容的示例可包括例如来自语音转换的数据、电视会议、流播视频、电子邮件或文本消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等。控制信息可以指表示预计用于自动化系统的命令、指令或控制字的任何数据。例如，控制信息可用来通过系统来路由媒体信息，或者指示节点按照预定方式(例如，使用如本文所述用于基于化身的视频编码的技术)来处理媒体信息。但是，实施例并不局限于图11所示或所述的元件或上下文。

如上所述，系统600可按照变化物理样式或形状因数来实施。图12示出其中可实施系统600的小形状因数装置700的实施例。在一些实施例中，例如，装置700可实现为具有无线能力的移动计算装置。例如，移动计算装置可指具有处理系统和移动电源或电力供应、例如一个或多个电池的任何装置。

如先前所述，移动计算装置的示例可包括个人计算机(PC)、膝上型计算机、超级膝上型计算机、平板、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能装置(例如智能电话、智能平板或者智能电视机)、移动因特网装置(MID)、消息传递装置、数据通信装置等。

移动计算装置的示例还可包括设置成供人佩戴的计算机，例如手腕计算机、手指计算机、指环计算机、眼镜计算机、皮带夹计算机、臂章计算机、靴式计算机、服饰计算机和其他可佩戴计算机。在一些实施例中，例如，移动计算装置可实现为智能电话，其能够运行计算机应用以及进行语音通信和/或数据通信。虽然作为举例可采用实现为智能电话的移动计算装置来描述一些实施例，但是可理解，其他实施例也可使用其他无线移动计算装置来实现。实施例并不局限于这个上下文。

如图12所示，装置700可包括壳体702、显示器704、输入/输出(I/O)装置706和天线708。装置700还可包括导航特征712。显示器704可包括用于显示信息、适合于移动计算装置的任何适当显示单元。I/O装置706可包括用于将信息输入移动计算装置中的任何适当I/O装置。I/O装置706的示例可包括字母数字键盘、数字键盘、触摸板、输入按键、按钮、开关、摇臂开关、麦克风、扬声器、语音识别装置和软件等。信息也可通过麦克风输入到装置700中。这种信息可由语音识别装置来数字化。实施例并不局限于这个上下文。

各个实施例可使用硬件元件、软件元件或者它们两者的组合来实现。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路(IC)、专用集成电路(ASIC)、可编程逻辑装置(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、驱动程序、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或者它们的任何组合。是否使用硬件元件和/或软件元件可按照任何数量的因素逐个实施例而改变，例如预期计算速率、功率级、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计和性能限制。

例如，一些实施例可使用可存储指令或指令集的机器可读介质或产品来实现，其中指令或指令集在由机器运行时，使机器执行按照一实施例的方法和/或操作。这种机器可包括例如任何适当的处理平台、计算平台、计算装置、处理装置、计算系统、处理系统、计算机、处理器等，并且可使用硬件和软件的任何适当组合来实现。机器可读介质或产品可包括例如任何适当类型的存储器单元、存储器装置、存储器产品、存储器介质、存储装置、存储产品、存储介质和/或存储单元，例如存储器、可拆卸或者不可拆卸介质、可擦除或者不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘驱动器、软盘、致密光盘只读存储器(CD-ROM)、可记录致密光盘(CD-R)、可重写致密光盘(CD-RW)、光盘、磁介质、磁光介质、可拆卸存储卡或盘、各种类型的数字多功能光盘(DVD)、磁带、盒式磁带等。指令可包括使用任何适当高级、低级、面向对象、可视、汇编和/或解释编程语言所实现的任何适当类型的可执行代码。

可以理解，除非另加具体说明，否则诸如“处理”、“计算”、“确定”等的术语指的是计算机或计算系统或者类似电子计算装置的动作和/或过程，其中计算机或计算系统或者类似电子计算装置操纵表示为计算系统的寄存器和/或存储器中的物理(例如电子)量的数据和/或将其变换为类似地表示为计算系统的存储器、寄存器或者其他这类信息存储装置、传输或显示装置中的物理量的其他数据。实施例并不局限于这个上下文。

其他示例实施例

以下示例涉及其他实施例，通过其中，许多置换和配置将是显而易见的。

示例1是基于化身的视频编码的方法，该方法包括：记录用户的视频；以及使用基于视频记录期间所检测的用户的一个或多个脸部表情的化身将所记录视频重构为基于化身的视频。

示例2包括示例1和3-21中的任一项的主题，其中将所记录视频重构为基于化身的视频包括：将所记录视频分解为包括多个视频帧的视频帧流；对于视频帧流的各视频帧，提取用户的(一个或多个)所检测脸部表情，并且将其映射到化身，以动画制作化身；对于视频帧流的各视频帧，呈现非屏幕帧缓冲器中的所产生动画化身，并且提取其屏幕截图图像；以及对(一个或多个)所提取化身屏幕截图图像进行编码，以提供基于化身的视频。

示例3包括示例2和4-21中的任一项的主题，其中提取用户的(一个或多个)所检测脸部表情并且将其映射到化身以动画制作化身包括：识别用户的脸部特征点，并且跟踪其移动；从脸部特征点的移动来确定(一个或多个)脸部表情；检索与(一个或多个)脸部表情相似的(一个或多个)表情序列；以及通过对其映射所检索的(一个或多个)表情序列)来动画制作化身。

示例4包括示例2-3和5-21中的任一项的主题，其中呈现非屏幕帧缓冲器中的所产生动画化身使用OpenGL应用编程接口或者嵌入式系统的OpenGL(OpenGL ES)应用编程接口来执行。

示例5包括示例2-4和6-21中的任一项的主题，其中提取屏幕截图图像使用glReadPixels来执行。

示例6包括示例2-5和8-21的任一项所述的主题，其中对(一个或多个)所提取化身屏幕截图图像进行编码使用视频编码器来执行。

图7包括示例6的主题，其中对(一个或多个)所提取化身屏幕截图图像进行编码使用H263编解码器或H264/MPEG-4高级视频编码(AVC)编解码器来执行。

示例8包括示例2-7和9-21中的任一项的主题，其中分解还包括将所记录视频分解为音频流，以及编码还包括将(一个或多个)所提取化身屏幕截图图像与音频流相组合，以提供基于化身的视频。

示例9包括示例8的主题，其中音频流使用高级音频编码(AAC)编解码器来编码。

示例10包括示例1-9和11-21中的任一项的主题，其中在将所记录视频重构为基于化身的视频之前，该方法还包括：接收对表示用户的化身的选择。

示例11包括示例10的主题，其中化身的选择从包含一个或多个可用化身的数据库中自动进行。

示例12包括示例10的主题，其中化身的选择在没有用户输入的情况下进行。

示例13包括示例10的主题，其中化身的选择基于用户输入。

示例14包括示例1-13和15-21中的任一项的主题，其中在记录用户的视频期间，该方法还包括：从视频中提取捕获用户的正面图像的视频帧；以及从用户的正面图像来生成化身。

示例15包括示例14的主题，其中在从用户的正面图像来生成化身之后但在将所记录视频重构为基于化身的视频之前，所述方法还包括：接收从所提取视频帧所生成的表示用户的化身的选择。

示例16包括示例15的主题，其中从用户的正面图像所生成的化身的选择在没有用户输入的情况下进行。

示例17包括示例15的主题，其中从用户的正面图像所生成的化身的选择基于用户输入进行。

示例18包括示例1-17中的任一项的主题，其中记录用户的视频包括基于用户输入或者触发记录的常通视频传感器来激活视频记录应用。

示例19包括示例1-17中的任一项的主题，其中基于化身的视频具有比所记录视频要小大约20-70%的文件大小。

示例20包括示例1-17中的任一项的主题，其中基于化身的视频采取MP4文件格式。

示例21包括示例1-17中的任一项的主题，其中基于化身的视频提供有静态图像背景。

示例22是编码有指令的计算机可读介质，指令在由一个或多个处理器运行时使用于基于化身的视频编码的过程被执行，该过程包括示例1-21中的任一项的主题。

示例23是一种系统，包括：视频装置，配置成记录视频；成像和音频框架模块，配置成接收和解释来自视频装置的视频输入；脸部检测模块，在操作上与成像和音频框架模块耦合，配置成检测视频输入中的脸部，并且跟踪所检测脸部的脸部特性的变化；化身数据库，其中存储了一个或多个化身；以及化身控制模块，配置成使用如脸部检测模块所跟踪的所检测脸部的脸部特性的变化来动画制作所选化身。

示例24包括示例23和25-32中的任一项的主题，并且还包括通信模块，其配置用于与网络的有线和/或无线通信的至少一个。

示例25包括示例23-24和26-32中的任一项的主题，其中化身数据库中存储的至少一个化身由远程内容提供商来生成。

示例26包括示例23-25和27-32中的任一项的主题，其中化身数据库中存储的至少一个化身从视频装置所记录的视频输入的视频帧来生成。

示例27包括示例23-26和28-32中的任一项的主题，并且还包括存储器模块，其配置成存储用于使视频装置记录视频的应用。

示例28包括示例27的主题，其中存储器模块还配置成存储操作系统(OS)和/或用户界面(UI)的至少一个。

示例29包括示例23-28和30-32中的任一项的主题，其中视频装置包括照相装置。

示例30包括示例23-29和31-32中的任一项的主题，其中视频装置包括麦克风。

示例31包括示例23-30和32中的任一项的主题，并且还包括音频输出装置。

示例32包括示例31的主题，其中音频输出装置包括扬声器。

示例33是包括示例23-32中的任一项的主题的计算装置。

示例34包括示例33和35-36中的任一项的主题，其中计算装置包括膝上型/笔记本计算机、平板计算机、移动电话、智能电话、个人数字助理(PDA)、蜂窝手机、手持游戏装置、游戏平台、台式计算机和/或电视会议系统中的至少一个。

示例35包括示例33-34和36中的任一项的主题，其中计算装置配置用于与网络的有线和/或无线通信的至少一个。

示例36包括示例33-35中的任一项的主题，其中计算装置配置用于与远程计算装置的有线和/或无线通信的至少一个。

示例37是一种系统，包括：化身数据库，其中存储了一个或多个化身；以及移动计算装置，配置成：记录视频；检测视频中的脸部；跟踪所检测脸部的脸部特性的变化；以及使用化身(其使用所检测脸部的脸部特性的所跟踪变化来动画制作)将所记录视频重构为基于化身的视频。

示例38包括示例37和40-43中的任一项的主题，其中移动计算装置还配置成生成从所检测脸部所得出的化身。

示例39包括示例38的主题，其中重构所记录视频中使用的化身包括从所检测脸部所生成的化身。

示例40包括示例37-39和41-43中的任一项的主题，其中移动计算装置还配置成与网络进行通信。

示例41包括示例40的主题，其中网络包括第二代(2G)移动通信网络、第三代(3G)移动通信网络、第四代(4G)移动通信网络和/或无线局域网(WLAN)中的至少一个。

示例42包括示例37-41中的任一项的主题，其中化身是二维(2-D)的。

示例43包括示例37-41中的任一项的主题，其中化身是三维(3-D)的。

为了便于说明和描述而提供了示例实施例的以上描述。不是意在详尽的或者将本公开局限于所公开的准确形式。根据本公开，许多修改及变更都是可能的。预计本公开的范围不受本详细描述限制，而是受到所附权利要求书限制。要求本申请的优先权的将来提交申请可按照不同方式要求保护所公开主题，并且一般可包括如本文以各种方式所公开或者示范的一个或多个限制的任何集合。

Claims

1. 一种编码有指令的计算机可读介质，所述指令在由一个或多个处理器运行时使用于基于化身的视频编码的过程被执行，所述过程包括：

记录用户的视频；以及

使用基于视频记录期间所检测的所述用户的一个或多个脸部表情的化身将所述所记录视频重构为基于化身的视频。

2. 如权利要求1所述的计算机可读介质，其中，将所述所记录视频重构为所述基于化身的视频包括：

将所述所记录视频分解为包括多个视频帧的视频帧流；

对于所述视频帧流的各视频帧，提取所述用户的(一个或多个)所检测脸部表情，并且将其映射到所述化身以动画制作所述化身；

对于所述视频帧流的各视频帧，呈现非屏幕帧缓冲器中的所述所产生动画化身，并且提取其屏幕截图图像；以及

对所述所提取的(一个或多个)化身屏幕截图图像进行编码，以提供所述基于化身的视频。

3. 如权利要求2所述的计算机可读介质，其中，提取所述用户的(一个或多个)所检测脸部表情并且将其映射到所述化身以动画制作所述化身包括：

识别所述用户的脸部特征点，并且跟踪其移动；

从所述脸部特征点的移动来确定(一个或多个)脸部表情；

检索与(一个或多个)所述脸部表情相似的(一个或多个)表情序列；以及

通过对其映射(一个或多个)所述所检索表情序列来动画制作所述化身。

4. 如权利要求2所述的计算机可读介质，其中，呈现非屏幕帧缓冲器中的所述所产生动画化身使用OpenGL应用编程接口或者嵌入式系统的OpenGL(OpenGL ES)应用编程接口来执行。

5. 如权利要求2所述的计算机可读介质，其中，提取屏幕截图图像使用glReadPixels来执行。

6. 如权利要求2所述的计算机可读介质，其中，对(一个或多个)所述所提取的化身屏幕截图图像进行编码使用视频编码器来执行。

7. 如权利要求2所述的计算机可读介质，其中，所述分解还包括将所述所记录视频分解为音频流，以及所述编码还包括将(一个或多个)所述所提取的化身屏幕截图图像与所述音频流相组合，以提供所述基于化身的视频。

8. 如权利要求1所述的计算机可读介质，其中，在将所述所记录视频重构为所述基于化身的视频之前，所述过程还包括：

接收对表示所述用户的所述化身的选择。

9. 如权利要求1所述的计算机可读介质，其中，在记录所述用户的所述视频期间，所述过程还包括：

从所述视频中提取捕获所述用户的正面图像的视频帧；以及

从所述用户的所述正面图像来生成所述化身。

10. 如权利要求9所述的计算机可读介质，其中，在从所述用户的所述正面图像来生成化身之后但在将所述所记录视频重构为所述基于化身的视频之前，所述过程还包括：

接收从所述所提取视频帧所生成的表示所述用户的所述化身的选择。

11. 如权利要求1-10中的任一项所述的计算机可读介质，其中，记录所述用户的所述视频包括基于用户输入或者触发记录的常通视频传感器来激活视频记录应用。

12. 如权利要求1-10中的任一项所述的计算机可读介质，其中，所述基于化身的视频具有比所述所记录视频要小大约20-70%的文件大小。

13. 如权利要求1-10中的任一项所述的计算机可读介质，其中，所述基于化身的视频采取MP4文件格式。

14. 如权利要求1-10中的任一项所述的计算机可读介质，其中，所述基于化身的视频提供有静态图像背景。

15. 一种系统，包括：

视频装置，配置成记录视频；

成像和音频框架模块，配置成接收和解释来自所述视频装置的视频输入；

脸部检测模块，在操作上与所述成像和音频框架模块耦合，并配置成检测所述视频输入中的脸部，并且跟踪所述所检测脸部的脸部特性的变化；

化身数据库，其中存储了一个或多个化身；以及

化身控制模块，配置成使用如所述脸部检测模块所跟踪的所述所检测脸部的脸部特性的变化来动画制作所选化身。

16. 如权利要求15所述的系统，其中，所述化身数据库中存储的至少一个化身由远程内容提供商来生成。

17. 如权利要求15所述的系统，其中，所述化身数据库中存储的至少一个化身从所述视频装置所记录的所述视频输入的视频帧来生成。

18. 如权利要求15所述的系统，其中，所述视频装置包括照相装置、麦克风和/或扬声器中的至少一个。

19. 一种包括如权利要求15-18中的任一项所述的系统的计算装置。

20. 如权利要求19所述的计算装置，其中，所述计算装置包括膝上型/笔记本计算机、平板计算机、移动电话、智能电话、个人数字助理(PDA)、蜂窝手机、手持游戏装置、游戏平台、台式计算机和/或电视会议系统中的至少一个。

21. 如权利要求19所述的系统，其中，所述计算装置配置用于与网络的有线和/或无线通信中的至少一个。

22. 如权利要求19所述的系统，其中，所述计算装置配置用于与远程计算装置的有线和/或无线通信中的至少一个。

23. 一种系统，包括：

化身数据库，其中存储了一个或多个化身；以及

移动计算装置，配置成：

记录视频；

检测所述视频中的脸部；

跟踪所述所检测脸部的脸部特性的变化；以及

使用以所述所检测脸部的脸部特性的所述所跟踪变化来动画制作的化身将所述所记录视频重构为基于化身的视频。

24. 如权利要求23所述的系统，其中，所述移动计算装置还配置成生成从所述所检测脸部所得出的化身，并且其中重构所述所记录视频中使用的所述化身包括从所述所检测脸部所生成的所述化身。

25. 如权利要求23所述的系统，其中，所述移动计算装置还配置成与包括第二代(2G)移动通信网络、第三代(3G)移动通信网络、第四代(4G)移动通信网络和/或无线局域网(WLAN)中的至少一个的网络进行通信。