CN107257403A

CN107257403A - 使用交互化身的通信

Info

Publication number: CN107257403A
Application number: CN201710032311.XA
Authority: CN
Inventors: 童晓峰; 李文龙; 杜杨洲; W.胡; Y.张
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2012-04-09
Filing date: 2012-04-09
Publication date: 2017-10-17
Also published as: TWI637637B; US20140152758A1; US20240031534A1; US20230283748A1; CN104170318B; US20170111614A1; TW201733345A; TW201733346A; US9386268B2; US20220232190A1; US11303850B2; CN104170318A; US20210105438A1; US20190320144A1; TWI646844B; WO2013152453A1; US11595617B2; US20170039751A1

Abstract

大体上本公开描述视频通信系统，其用动画呈现的化身替换参与用户的实际实况图像。方法可包括：选择化身；发起通信；检测用户输入；识别用户输入；基于用户输入识别动画命令；生成化身参数；以及传送动画命令和化身参数中的至少一个。

Description

使用交互化身的通信

技术领域

下列公开涉及视频通信，并且更特定地涉及使用交互化身的视频通信。

背景技术

在移动设备中可用的种类日益增加的功能性已经对用户造成除简单电话外还经由视频来通信的期望。例如，用户可发起“视频通话”、“视频会议”等，其中设备中的拍摄装置和麦克风捕捉用户的音频和视频，其实时被传送到一个或多个其他接收者，例如其他移动设备、台式计算机、视频会议系统等。视频的通信可牵涉传送大量数据(例如，根据拍摄装置的技术、处理捕捉的图像数据所采用的特定视频编解码器，等)。考虑到现有2G/3G无线技术的带宽限制，和新兴4G无线技术的仍然有限的带宽，实施并发视频通话的许多设备用户可超出现有无线通信基础设施中的可用带宽，这可能负面影响视频通话的质量。

附图说明

要求保护的主旨的各种实施例的特征和优势将随着下列详细说明进行以及在参考图(其中类似的数字指示类似的部件)时变得明显，并且其中：

图1A图示根据本公开的各种实施例的示例的设备到设备系统；

图1B图示根据本公开的各种实施例的示例虚拟空间系统；

图2图示根据本公开的各种实施例的示例设备；

图3图示根据本公开的至少一个实施例的示例系统实现；以及

图4是根据本公开的至少一个实施例的示例操作的流程图。

尽管下列详细说明将参考说明性实施例而进行，其许多备选、修改和变化对于本领域内技术人员将是明显的。

具体实施方式

一般，该公开描述用于使用交互化身的视频通信的系统和方法。使用化身(如与实况图像不同)使要传送的数据的量大大减少，并且从而，化身通信需要较少的带宽。交互化身配置成通过基于用户输入修改选择的化身的显示来增强用户体验。此外，可捕捉用户语音并且将其变换来产生化身语音。化身语音然后可与用户语音相关，但可掩饰用户的身份。音频变换可包括，例如移调(pitch shifting)和/或时间延展。

在一个实施例中，在耦合于拍摄装置、麦克风和扬声器的设备中激活应用。该应用可配置成允许用户选择化身用于在远程设备上、虚拟空间中等显示。设备然后可配置成发起与至少一个其他设备、虚拟空间等的通信。例如，通信可通过2G、3G、4G蜂窝连接而建立。备选地或另外，通信可经由WiFi连接通过因特网建立。在建立通信后，拍摄装置可配置成开始捕捉图像和/或到物体的距离并且麦克风可配置成开始捕捉声音(例如，用户语音)，并且将用户语音转换成用户语音信号。

然后可确定是否检测到用户输入。该用户输入可被用户输入设备捕捉。用户输入包括由触敏显示器捕捉的触摸事件和由拍摄装置(例如，配置成捕捉到物体的距离的深度拍摄装置和/或web拍摄装置)捕捉的手势。从而，用户输入设备包括触敏显示器和/或拍摄装置。如果检测到用户输入，可识别该用户输入。对于触摸事件，用户输入标识符可与触摸类型以及一个或多个触摸位点有关。对于手势(例如，张开的手)，用户输入标识符可与手势标识符有关。然后可基于用户输入识别动画命令。动画命令对应于与用户输入关联的期望响应，例如响应于显示的化身的面部上的单击而改变显示的化身的面部的颜色。

然后可生成化身参数。化身参数可基于面部检测、头部移动和/或动画命令而生成。化身参数从而可包括基于例如面部检测和头部移动的被动组成，和基于动画命令的交互组成。化身参数可能用于使化身在至少一个其他设备上、在虚拟空间内等动画地呈现。在一个实施例中，化身参数可基于面部检测、头部移动和动画命令而生成。在该实施例中，所得的动画包括基于面部检测的被动动画和基于动画命令由交互动画修改的头部移动。从而，化身动画可包括基于例如面部检测和头部移动的被动动画，和基于用户输入的交互动画。

然后可传送动画命令和化身参数中的至少一个。在一个实施例中，接收远程动画命令和远程化身参数中的至少一个。该远程动画命令可促使设备基于远程动画命令确定化身参数以便使显示的化身动画地呈现。远程化身参数可促使设备基于接收的远程化身参数使显示的化身动画地呈现。

音频通信可伴随着化身动画。在建立通信后，麦克风可配置成捕捉音频输入(声音)(例如用户语音)，并且将捕捉的声音转换成对应的音频信号(例如，用户语音信号)。在实施例中，用户语音信号可变换成化身语音信号，其然后可被编码和传送。接收的化身语音信号然后可由扬声器转换回声音(例如，化身语音)。化身语音从而可基于用户语音并且可保存内容但可更改与捕捉的语音关联的光谱数据。例如，变换包括但不限于，移调、时间延展和/或转换重放速率。

用户输入设备(例如，触敏显示器和/或拍摄装置)可配置成捕捉用户输入，其配置成基于至少一个其他设备上的用户输入使化身动画地呈现。用户驱动的动画(基于动画命令)可以是基于面部表情和/或头部移动的动画的补充。动画命令可包括但不限于，化身的显示取向中的改变、面部特征失真、改变特征来表达情感，等。与基于面部检测/跟踪的动画相似或作为对其的补充，动画命令从而可修改化身动画。动画命令可导致有时间限制的动画并且可基于来自远程用户的输入，其中所得的动画在本地用户的显示化身上图示。

从而，有限带宽视频通信系统可使用化身来实现。音频可被变换并且视频可基于检测的用户输入和识别的动画命令而动画地呈现来增强用户对化身通信的体验。此外，匿名可使用化身而得到保持，其包括如本文描述的音频变换。

图1A图示与本公开的各种实施例一致的设备到设备系统100。系统100一般可包括经由网络122而通信的设备102和112。设备102包括至少拍摄装置104、麦克风106、扬声器107和触敏显示器108。设备112包括至少拍摄装置114、麦克风116、扬声器117和触摸显示器118。网络122包括至少服务器124。

设备102和112可包括能够有线和/或无线通信的各种硬件平台。例如，设备102和112可包括但不限于，视频会议系统、台式计算机、便携式计算机、平板计算机、智能电话(例如，基于的电话、基于的电话、基于的电话，等)、蜂窝手持机等。拍摄装置104和114包括用于捕捉代表环境(其包括一个或多个人)的数字图像的任何设备，并且可具有足够的分辨率用于面部分析和/或手势识别，如本文描述的。例如，拍摄装置104和114可包括静态拍摄装置(例如，配置成捕捉静态照片的拍摄装置)或视频拍摄装置(例如，配置成捕捉移动图像(其由多个帧组成)的拍摄装置)。拍摄装置104和114可配置成使用可见光谱中的光或利用电磁波谱(不限于红外光谱、紫外光谱)的其他部分来操作。在一个实施例中，拍摄装置104和114可配置成检测从拍摄装置的深度，即到物体和/或该物体上的点的距离。拍摄装置104和114可分别并入设备102和112内，或可以是配置成经由有线或无线通信与设备102和112通信的单独设备。拍摄装置104和114的特定示例可包括如可与计算机、视频监视器等关联的有线(例如，通用串行总线(USB)、以太网、火线等)或无线(例如，WiFi、Bluetooth，等)web拍摄装置、深度拍摄装置、移动设备拍摄装置(例如在例如之前论述的示例设备中集成的手机或智能电话拍摄装置)、集成便携式计算机拍摄装置、集成平板计算机拍摄装置(例如，Galaxy及类似物)，等。

设备102和112可进一步包括麦克风106和116以及扬声器107和117。麦克风106和116包括配置成感测(即，捕捉)声音并且将感测的声音转换成对应音频信号的任何设备。麦克风106和116可分别在设备102和112内集成，或可经由有线或无线通信(例如在上文关于拍摄装置104和114的示例中描述的)而与设备交互。扬声器107和117包括配置成将音频信号转换成对应声音的任何设备。扬声器107和117可分别在设备102和112内集成，或可经由有线或无线通信(例如在上文关于拍摄装置104和114的示例中描述的)而与设备交互。触敏显示器108和118包括配置成显示文本、静态图像、移动图像(例如，视频)、用户界面、图形等并且配置成感测例如点击、滑动等触摸事件的任何设备。触摸事件可包括触摸类型和触摸位点。触敏显示器108和118可分别在设备102和112内集成，或可经由有线或无线通信(例如在上文关于拍摄装置104和114的示例中描述的)而与设备交互。在一个实施例中，显示器108和118配置成分别显示化身110和120。如本文引用的，化身限定为采用二维(2D)或三维(3D)的用户的图形表示。化身不必与用户的相貌相像，并且从而，尽管化身可以是逼真表示，它们还可以采取图、卡通、草图等的形式。在系统100中，设备102可显示代表设备112的用户(例如，远程用户)的化身110，并且同样，设备112可显示代表设备102的用户的化身120。这样，用户可看到其他用户的表示而不必交换对于采用实时图像的设备到设备通信所牵涉的大量信息。此外，化身可基于用户输入而动画地呈现。采用该方式，用户可与本地和/或远程化身的显示交互，由此增强用户体验。所得的动画可比可能仅使用面部检测和跟踪提供更广泛的动画。此外，用户可主动选择动画。

如本文提及的，化身音频(即，声音)限定为变换的用户音频(声音)。例如，声音输入可包括用户的话音(即，用户语音)，并且对应的化身音频可包括变换的用户语音。化身音频可与用户音频有关。例如，化身语音可对应于用户语音的移调、时间延展和/或其他变换。化身语音可与人语音相像或可对应于卡通人物，等。在系统100中，设备102可发出代表设备112的远程用户的化身音频并且相似地，设备112可发出代表由设备102捕捉的音频(例如，设备102的本地用户的语音)的化身音频。这样，用户可听见可被变换的其他用户话音的表示。

网络122可包括各种第二代(2G)、第三代(3G)、第四代(4G)基于蜂窝的数据通信技术、Wi-Fi无线数据通信技术，等。网络122包括至少一个服务器124，其配置成在使用这些技术时建立并且维持通信连接。例如，服务器124可配置成支持因特网相关通信协议，像用于创建、修改和终止双方(单播)和多方(多播)会话的会话发起协议(SIP)、用于呈现允许在字节流连接顶部建立协议的框架的交互连接性建立协议(ICE)、用于允许应用通过网络接入翻译器(NAT)操作来发现其他NAT、IP地址和端口(被分配给连接到远程主机的应用用户数据报协议(UDP)连接)的存在的网络接入翻译器或NAT的会话穿越实用性协议(STUN)、用于允许NAT或防火墙后面的元件通过传输控制协议(TCP)或UDP连接来接收数据的在NAT周围使用中继器的穿越(TURN)，等。

图1B图示与本公开的各种实施例一致的虚拟空间系统126。系统126可采用设备102、设备112和服务器124。设备102、设备112和服务器124可继续采用与在图1A中图示的相似的方式通信，但用户交互可在虚拟空间128中而不是采用设备到设备格式发生。如本文提及的，虚拟空间可限定为物理位点的数字模拟。例如，虚拟空间128可与户外位点(像城市、道路、人行道、田地、森林、岛等)或内部位点(像办公室、住宅、学校、购物中心、商店，等)相像。由化身表示的用户可表现为如现实世界中那样在虚拟空间128中交互。虚拟空间128可在耦合于因特网的一个或多个服务器上存在，并且可由第三方维持。虚拟空间的示例包括虚拟办公室、虚拟会议室、虚拟世界(像Second)、大型多人在线角色扮演游戏(MMORPG)(像World of)、大型多人在线真实游戏(MMORLG)(像Sims)等。在系统126中，虚拟空间128可包含对应于不同用户的多个化身。显示器108和118可显示虚拟空间(VS)128的封装(例如，较小)版本，而不是显示化身。例如，显示器108可显示对应于设备102的用户的化身在虚拟空间128中所“看到”的事物的透视图。相似地，显示器118可显示对应于设备112的用户的化身在虚拟空间128中所“看到”的事物的透视图。化身可能在虚拟空间128中看到的事物的示例包括但不限于，虚拟结构(例如，建筑)、虚拟车辆、虚拟物体、虚拟动物、其他化身等。

图2图示根据本公开的各种实施例的示例设备102。尽管仅描述一个设备102，设备112(例如，远程设备)可包括配置成提供相同或相似功能的资源。如之前论述的，示出设备102包括拍摄装置104、麦克风106、扬声器107和触敏显示器108。拍摄装置104、麦克风106和触敏显示器108可对拍摄装置、音频和触屏框架模块200提供输入，并且拍摄装置、音频和触屏框架模块200可对扬声器107提供输出(例如，音频信号)。拍摄装置、音频和触屏框架模块200可包括定制、专用、已知和/或之后开发的音频和视频处理代码(或指令集)，其一般被明确定义并且能操作成控制至少拍摄装置104、麦克风106、扬声器107和触敏显示器108。例如，拍摄装置、音频和触屏框架模块200可促使拍摄装置104、麦克风106、扬声器107和触敏显示器108记录图像、到物体的距离、声音和/或触摸，可处理图像、声音、音频信号和/或触摸，可促使图像和/或声音再现，可向扬声器107提供音频信号，等。拍摄装置、音频和触屏框架模块200可根据设备102并且更特定地根据在设备102中运行的操作系统(OS)而改变。示例操作系统包括OS、OS，等。扬声器107可从拍摄装置、音频和触屏框架模块200接收音频信息并且可配置成再现本地声音(例如，以便提供用户话音的音频反馈(变换或未变换的))和远程声音(例如，参加电话、视频通话或在虚拟空间中交互的其他方的声音(变换或未变换的))。

面部检测和跟踪模块202可配置成识别并且跟踪由拍摄装置104提供的图像内的头部、面部和/或面部区域。例如，面部检测模块204可包括定制、专用、已知和/或之后开发的面部检测代码(或指令集)、硬件和/或固件，其一般被明确定义并且能操作成接收标准格式图像(例如，但不限于，RGB彩色图像)并且至少在一定程度上识别图像中的面部。面部检测和跟踪模块202还可配置成通过一系列图像(例如，以每秒24个帧的视频帧)来跟踪检测的面部并且基于检测的面部确定头部位置。可由面部检测/跟踪模块202采用的已知跟踪系统可包括粒子滤波、均值偏移、卡尔曼滤波等，其中的每个可利用边缘分析、平方和差值分析、特征点分析、直方图分析、肤色分析等。

特征提取模块204可配置成识别由面部检测模块202检测的面部中的特征(例如，例如眼睛、眉毛、鼻子、嘴等面部标志的位点和/或形状)。在一个实施例中，化身动画可直接基于感测的面部动作(例如，面部特征中的改变)而没有面部表情识别。化身面部上的对应特征点可遵循或模仿真实人的面部的移动，其称为“表达克隆”或“表现驱动的面部动画”。特征提取模块204可包括定制、专用、已知和/或之后开发的面部特性识别代码(或指令集)，其一般被明确定义并且能操作成从拍摄装置104接收标准格式图像(例如，但不限于，RGB彩色图像)并且至少在一定程度上提取图像中的一个或多个面部特性。这样的已知面部特性系统可包括但不限于，科罗拉多州立大学的CSU面部识别评估系统。

特征提取模块204还可配置成识别与检测的特征关联的表情(例如，识别之前检测的面部是否愉快、悲伤、微笑、皱眉、惊讶、激动等)。从而，特征提取模块204可进一步包括定制、专用、已知和/或之后开发的面部表情检测和/或识别代码(或指令集)，其一般被明确定义并且能操作成检测和/或识别面部中的表情。例如，特征提取模块204可确定面部特征(例如，眼睛、嘴、脸颊、牙齿等)的大小和/或位置并且可将这些面部特征与面部特征数据库比较，该面部特征数据库包括具有对应面部特征分类(例如，微笑、皱眉、激动、悲伤等)的多个样本面部特征。

音频变换模块206配置成将用户的话音变换成化身话音，即变换的用户话音。变换包括调整节奏(例如，时间延展)、音调(例如，移调)和重放速率。例如，音频变换模块206可包括定制、专用、已知和/或之后开发的音频变换代码(或指令集)，其一般被明确定义并且能操作成接收代表用户话音的话音数据并且将该话音数据转换成变换的话音数据。话音数据可与基于由麦克风106捕捉并且被拍摄装置、音频和触屏框架模块200处理的声音的音频信号有关。这样的已知话音变换系统包括但不限于SoundTouch开源音频处理库，配置成调整音频流或音频文件的节凑、音调(pitch)和重放速率。

音频变换模块206可包括多个预定义话音风格，其对应于与变换用户的话音关联的变换参数。例如，变换参数可配置成维持具有不同音调和/或节凑的人类发声变换话音输出。音调可移到女人或像孩子的话音的较高频率，音调可移到男人话音的较低频率，节凑可向上或向下调整来增加或减小语音的速度，等。在另一个示例中，变换参数可配置成产生变换的话音输出，其对应于像动物的话音(例如，猫)和/或卡通人物型话音。这可通过调整用户语音的音调、其他频率分量和/或采样参数而实现。

用户可在发起通信之前选择期望的音频变换输出和/或可在通信期间选择期望的音频变换。音频变换模块206可配置成响应于来自用户的请求提供样本音频变换输出。在实施例中，音频变换模块206可包括这样的实用程序(utility)，其允许用户选择音频变换参数来产生定制音频变换输出。该实用程序可配置成基于用户的话音输入来提供样本变换音频输出。用户然后可调整音频变换参数(例如，通过试错法)直到实现合适的变换输出。与对于用户合适的输出关联的音频变换参数然后可被存储和/或利用以用于化身通信，如本文描述的。

触摸检测模块208配置成从拍摄装置、音频和触屏框架模块200接收触摸数据并且基于接收的触摸数据识别触摸事件。触摸事件标识符可包括触摸类型和/或触摸位点。触摸类型可包括单击、双击、点击并按住、点击并移动、收缩和延展、滑动等。触摸位点可包括触摸起始位点、触摸结束位点和/或中间移动触摸位点等。触摸位点可对应于触敏显示器108的坐标。触摸检测模块208可包括定制、专用、已知和/或之后开发的触摸检测代码(或指令集)，其一般被明确定义并且能操作成接收触摸数据并且识别触摸事件。

手势检测模块210配置成从拍摄装置、音频和触屏框架模块200接收深度和/或图像数据、基于接收的深度和/或图像数据识别对应的手势以及基于识别的手势确定手势标识符。深度对应于从拍摄装置到物体的距离。手势标识符与识别的手势有关。手势检测模块210可包括定制、专用、已知和/或之后开发的手势检测代码(或指令集)，其一般被明确定义并且能操作成基于接收的深度和/或图像数据识别手势。

例如，手势检测模块210可包括预定义手势的数据库。这些预定义手势可包括至少一些相对普通、相对简单的手势，其包括张开的手、紧握的手(即，拳头)、挥手、用手做圆周运动、使手从右到左地移动、使手从左到右地移动等。从而，手势可包括静止、非移动的手部手势、主动移动手部手势和/或其组合。在实施例中，手势检测模块210可包括训练实用程序，其配置成允许用户定制预定义手势和/或训练新的手势。定制手势和/或新的手势然后可与手势标识符关联并且该手势标识符可与动画命令关联，如本文描述的。例如，用户可从动画命令的预定义列表中选择动画命令以与手势关联。

从而，动画命令与对用户输入的期望响应有关。动画命令可与识别的用户输入(例如，触摸事件标识符和/或手势标识符)关联。采用该方式，用户可与显示的化身交互和/或可做手势以便修改显示的化身的动画。

化身选择模块212配置成允许设备102的用户选择化身用于在远程设备上显示。化身选择模块212可包括定制、专用、已知和/或之后开发的用户界面构造代码(或指令集)，其一般被明确定义并且能操作成向用户呈现不同的化身使得用户可选择这些化身中的一个。在一个实施例中，一个或多个化身可在设备102中预定义。预定义化身允许所有设备具有相同的化身，并且在交互期间仅化身的选择(例如，预定义化身的识别)需要传达到远程设备或虚拟空间，这使需要交换的信息的量减少。在建立通信之前选择化身，但也可在有效通信过程中改变化身。从而，在通信期间的任何点发送或接收化身选择，并且接收设备根据接收的化身选择改变显示的化身，这可以是可能的。

化身控制模块214配置成基于到设备102的用户输入来接收用户输入标识符。该用户输入标识符可包括由触摸检测模块208基于触摸事件数据确定的触摸事件标识符或由手势检测模块210确定的手势标识符。触摸事件数据包括触摸类型和触摸位点。触摸位点可对应于与触敏显示器108关联的坐标。触摸位点可映射到显示的化身上的一个或多个点，例如映射到特征(例如，鼻端、嘴、嘴唇、耳朵、眼睛，等)。显示的化身上的点可与化身动画的期望响应(即，化身命令)有关。

化身控制模块214配置成基于用户输入标识符(即，识别的用户输入)确定动画命令。动画命令配置成识别期望的化身动画。例如，期望的动画包括改变显示的化身面部的颜色、改变显示的化身的特征的大小(例如，使鼻子更大)、递眼色(winking)、眨眼、微笑、去除特征(例如，耳朵)等。从而，化身控制模块214配置成接收用户输入标识符并且基于该用户输入标识符确定动画命令。

化身控制模块214配置成基于动画命令实现化身动画。在实施例中，对于在远程设备(例如，设备112)上显示的交互动画，动画命令可被传送并且远程化身控制模块然后可实现动画。在另一个实施例中，可传送化身参数，其配置成用于化身动画的立即实现。

实现的基于动画命令的交互动画可具有有限持续时间，在其之后化身动画可回到如本文描述的基于例如面部检测和跟踪的被动动画。实现的影响特征大小的交互动画可配置成逐渐改变大小并且逐渐回到初始大小。另外或备选地，影响特征大小的动画可配置成具有效应梯度。也就是说，大小改变的相对幅度可取决于相对于例如关键顶点的位点。显示的化身上更接近关键顶点的点可比显示的化身上相对更远的点经历更大的改变。

从而，化身控制模块214可基于用户输入来接收用户输入标识符，并且可基于该用户输入标识符确定动画命令并且可基于该动画命令实现动画。基于动画命令的交互动画在时间上可局限于一段时间(持续时间)和/或可包括效应梯度。动画在该时段后可回到基于面部检测和跟踪的被动化身动画。

化身控制模块214配置成生成用于使化身动画地呈现的参数。本文所称的动画可限定为更改图像/模型的外观。动画包括基于例如面部表情和/或头部移动的被动动画和基于用户输入的交互动画。单个动画(其可包括被动和交互动画)可更改2D静态图像的外观，或多个动画可依次出现来模拟图像中的运动(例如，头部转动、点头、眨眼、讲话、皱眉、微笑、发笑、递眼色、眨眼，等)。对于3D模型的动画示例包括使3D线框模型变形、应用纹理映射以及重新计算正常用于渲染的模型顶点。检测的面部和/或提取的面部特征的位置中的改变可转换成这样的参数，其促使化身的特征与用户面部的特征相像。在一个实施例中，检测的面部的一般表情可转换成促使化身展现相同表情的一个或多个参数。化身的表情还可夸大来突出表情。对选择的化身的知悉在化身参数一般可应用于预定义化身中的全部时可不是必需的。然而，在一个实施例中，化身参数对于选择的化身可以是特定的，并且从而，如果选择另一个化身则可更改化身参数。例如，人像化身可需要与动物化身、卡通化身等不同的参数设置(例如，可更改不同的化身特征)来证明像快乐、悲伤、生气、惊讶等情感。

化身控制模块214可包括定制、专用、已知和/或之后开发的图形处理代码(或指令集)，其一般被明确定义并且能操作成生成用于使化身动画地呈现的参数，该化身由化身选择模块212基于由面部检测和跟踪模块202检测的面部/头部位置、特征提取模块204检测的面部特征和/或由触摸检测模块208和/或手势检测模块210确定的用户输入标识符来选择。对于基于面部特征的动画方法，2D化身动画可利用例如图像扭曲或图像变形来进行，而3D化身动画可利用自由变形(FFD)或通过利用在头部的3D模型中限定的动画结构来进行。Oddcast是可用于2D化身动画的软件资源的示例，而FaceGen是可用于3D化身动画的软件资源的示例。

例如，对于包括延长3D化身显示的鼻子的交互动画，关键顶点v_k可与鼻子的尖端有关地限定(例如，选择)。对于关键顶点v_k可限定关联的3D运动矢量d_k(dx，dy，dz)和作用半径R。作用半径R内的其他顶点可在交互动画中改变(即，移动)，而作用半径R外部的顶点可根据交互动画而保持不变。交互动画可具有关联的持续时间，即动画时间T，其可延续多个帧。时间效应参数η_t可基于时间t和动画时间T而限定为：

相对更接近v_k的作用半径R内的顶点可比相对更远离关键顶点v_k的顶点改变得相对更大。对于顶点v_i的空间效应参数η_i可限定为：

并且顶点v_i在时间t的运动矢量可限定为交互动画呈现的化身的新的坐标则是其中对应于基于面部检测和跟踪(即被动动画)的顶点v_i的坐标。

从而，可对于显示的化身(其包括修改被动动画的交互动画)实现动画。交互动画可在总持续时间方面受限制并且动画效应的幅度可在该持续时间内改变。交互动画可配置成仅影响化身的一部分并且效应对于更靠近关键顶点的点更大。在已经完成交互动画后，动画可基于如本文描述的面部检测和跟踪而持续。

另外，在系统100中，动画控制模块214可接收远程化身选择和远程化身参数，其可用于在远程设备处显示对应于用户的化身并且使其动画地呈现。动画可包括被动动画以及交互动画。化身控制模块可促使显示模块216在显示器108上显示化身110。显示模块216可包括定制、专用、已知和/或之后开发的图形处理代码(或指令集)，其一般被明确定义并且能操作成根据示例设备到设备实施例在显示器108上显示化身并且使其动画地呈现。例如，化身控制模块214可接收远程化身选择并且可解释该远程化身选择以对应于预定化身。显示模块216然后可在显示器108上显示化身110。此外，可解释在化身控制模块214中接收的远程化身参数，并且命令可提供给显示模块216来使化身110动画地呈现。在一个实施例中，超过两个用户可参加视频通话。当超过两个用户在视频通话中交互时，显示器108可划分或分割以允许对应于远程用户的超过一个化身同时显示。备选地，在系统126中，化身控制模块214可接收信息，该信息促使显示模块216显示对应于设备102的用户的化身在虚拟空间128中所“看到”的事物(例如，从化身的视角)。例如，显示器108可显示在虚拟空间128中表示的建筑、对象、动物、其他化身等。

在一个实施例中，化身控制模块214可配置成促使显示模块216显示“反馈”化身218。反馈化身218代表选择的化身如何在远程设备上、'在虚拟空间中等出现。特别地，反馈化身218表现为由用户选择的化身并且可使用由化身控制模块214生成的相同参数而动画地呈现。这样，用户可确认远程用户在他们的交互期间所看到的。反馈化身218还可用于显示由到设备112的远程用户输入引起的交互动画。从而，本地用户可与他或她的反馈化身(例如，化身218和设备102的用户)交互来促使向设备112上的远程用户所显示的他或她关联的化身的交互动画。本地用户可相似地与远程用户的显示化身(例如，化身110)交互来促使在设备112上显示的远程用户的反馈化身的交互动画。

通信模块220配置成传送并且接收用于选择化身、显示化身、使化身动画地呈现、显示虚拟地方角度等的信息。通信模块220可包括定制、专用、已知和/或之后开发的通信处理代码(或指令集)，其一般被明确定义并且能操作成传送化身选择、化身参数、动画命令、交互化身参数并且接收远程化身选择、远程化身参数、远程动画命令和远程交互化身参数。通信模块220还可传送并且接收对应于基于化身的交互的音频信息。通信模块220可经由如之前描述的网络122传送并且接收上文的信息。

处理器222配置成执行与设备102以及其中包括的模块中的一个或多个关联的操作。

图3图示根据至少一个实施例的示例系统实现。设备102'配置成经由WiFi连接300而无线通信(例如，在工作中)，服务器124'配置成经由因特网302协商设备102'与112'之间的连接，并且装置112'配置成经由另一个WiFi连接304而无线通信(例如，在家)。在一个实施例中，基于设备到设备化身的视频通话应用在装置102'中激活。在化身选择之后，应用可允许选择至少一个远程设备(例如，设备112')。应用然后可促使设备102'发起与设备112'的通信。通信可随着设备102'经由企业接入点(AP)306向设备112'传送连接建立请求而发起。企业AP 306可以是可在商业环境中使用的AP，并且从而可支持比家庭AP 314更高的数据吞吐量和更多的并发无线客户端。企业AP 306可从设备102'接收无线信号并且可经由网关308通过各种商业网络进行传送连接建立请求。连接建立请求然后可穿过防火墙310，其可配置成控制流入和流出WiFi网络300的信息。

设备102'的连接建立请求然后可由服务器124'处理。服务器124'可配置成用于IP地址的注册、目的地地址的验证和NAT穿越使得连接建立请求可被指引到因特网302上的正确目的地。例如，服务器124'可从设备102'接收的连接建立请求中的信息解析计划的目的地(例如，远程设备112')，并且可因此将信号路由通过正确的NAT、端口并且到目的地IP地址。根据网络配置，这些操作可仅必须在连接建立期间执行。在一些实例中，操作可在视频通话期间重复以便向NAT提供使连接保持活动的通知。在已经建立连接后，媒体和信号路径312可直接将视频(例如，化身选择和/或化身参数)和音频信息运送到家庭AP 314。设备112'然后可接收连接建立请求并且可配置成确定是否接受该请求。确定是否接受请求可包括例如向设备112'的用户呈现视觉叙述，询问是否接受来自设备102'的连接请求。如果设备112'的用户接受连接(例如，接受视频通话)，可建立连接。拍摄装置104'和114'可分别配置成然后开始捕捉设备102'和112'的相应用户的图像，以供在使由每个用户选择的化身动画呈现中使用。麦克风106'和116'可配置成然后开始捕捉来自每个用户的音频。在设备102'与112'之间开始信息交换时，显示器108'和118'可显示对应于设备102'和112'的用户的化身并且使其动画地呈现。

图4图示与本公开的实施例一致的示范性操作的流程图400。这些操作可例如由设备102和/或112执行。特别地，流程图400描绘配置成实现化身动画(其包括被动动画和/或交互动画)和/或音频变换以用于通过网络的设备之间的通信的示范性操作。假设面部检测和跟踪、特征提取和被动化身动画如本文描述的那样实现和操作。

可在操作402选择化身模型。该化身模型可包括视频化身选择和音频变换选择。可显示多个视频化身模型，用户可从其中选择期望的化身。在实施例中，选择视频化身模型可包括关联的音频变换。例如，像猫的化身可与像猫的音频变换关联。在另一个实施例中，音频变换可独立于视频化身选择而选择。

化身模型(其包括音频变换)可在激活通信之前选择，但也可在有效通信的过程期间改变。从而，在通信期间的任何点发送或接收化身选择和/或改变音频变换选择，并且接收设备根据接收的化身选择改变显示的化身，这可以是可能的。

可在操作404激活化身通信。例如，用户可启动这样的应用，其配置成使用如本文描述的化身来传达音频和视频。操作404可包括配置通信并且建立连接。通信配置包括识别参与视频通话的至少一个远程设备或虚拟空间。例如，用户可从存储在应用内、与设备中的另一个系统关联地存储(例如，智能电话、手机等中的联系人列表)、远程存储(例如在因特网上(例如，在像Facebook、LinkedIn、Yahoo、Google+、MSN等的社交媒体网站中))的远程用户/设备列表选择。备选地，用户可选择在像Second Life的虚拟空间中上线。

在操作406，设备中的拍摄装置然后可开始捕捉图像和/或深度并且设备中的麦克风可开始捕捉声音。图像可以是静态图像或实况视频(例如，依次捕捉的多个图像)。深度可与图像一起捕捉或可独立捕捉。深度对应于在拍摄装置的视场中从拍摄装置到物体(和物体上的点)的距离。是否检测到用户输入可在操作408确定。用户输入包括由图像和/或深度拍摄装置捕捉的手势和在触敏显示器上检测的触摸输入。如果检测到用户输入，可在操作410识别该用户输入。用户输入标识符包括触摸标识符或手势标识符。该触摸标识符可基于触敏显示器上的触摸而确定并且可包括触摸类型和触摸位点。手势标识符可基于捕捉的图像和/或深度数据而确定并且可包括识别手势。

动画命令可在操作412识别。该动画命令可配置成使在远程设备上显示的用户选择的化身动画地呈现或使也在远程用户的设备上显示的用户的反馈化身动画呈现。动画命令对应于与用户输入关联的期望响应。例如，触摸显示的化身的面部(用户输入)可导致显示的化身的面部的颜色改变(由动画命令识别的期望响应)。动画命令可基于识别的用户输入而识别。例如，每个用户输入可与用户输入标识符和动画命令的数据库中的动画命令有关(例如，关联)。

操作414包括生成化身参数。这些化身参数包括被动组成并且可包括交互组成。如果未检测到用户输入，化身参数可包括被动组成。如果检测到用户输入，化身参数是否可包括交互组成取决于动画命令并且因此取决于用户输入。对于对应于动画命令(其配置成使用户的选择化身动画地呈现)的用户输入，动画命令可与仅包括被动组成的化身参数一起传送或可在传送之间应用于化身参数使得传送的化身参数包括被动和交互组成两者。对于对应于动画命令(其配置成使在远程用户的设备上显示的远程用户的反馈化身动画地呈现)的输入，可仅传送动画命令。

操作416包括变换并且编码捕捉的音频。捕捉的音频可转换成音频信号(例如，用户语音信号)。用户语音信号可根据操作402的化身选择的音频变换部分来变换。变换的用户语音信号对应于化身语音信号。化身语音信号可使用已知技术来编码以用于通过网络传送到远程设备和/或虚拟空间。可在操作418传送变换且编码的音频。操作418可进一步包括传送动画命令和化身参数中的至少一个。传送动画命令配置成允许远程设备通过根据动画命令修改化身参数来使本地显示的化身动画地呈现。在传送之前已经根据动画命令修改的传送的化身参数可直接用于使在远程设备上显示的化身动画地呈现。也就是说，对由动画命令表示的化身参数的修改可本地或远程执行。

操作420包括接收远程编码音频，其可以是变换的音频。操作420进一步包括接收远程动画命令和远程化身参数中的至少一个。该远程动画命令可用于修改化身参数，其对应于远程用户的显示化身或本地用户的显示的反馈化身。动画命令和化身参数配置成导致化身动画，其基于用户输入而被修改。接收的音频可在操作422解码和播放并且化身可在操作424显示和动画地呈现。

显示的化身的动画可基于如本文描述的检测且识别的用户输入。在设备到设备通信(例如，系统100)实例中，远程化身选择或远程化身参数中的至少一个可从远程设备接收。对应于远程用户的化身然后可基于接收的远程化身选择而显示，并且可基于接收的远程化身参数而动画地呈现。在虚拟地方交互(例如，系统126)的实例中，可接收这样的信息，其允许设备显示对应于设备用户的化身所看到的事物。

通信是否完成可在操作426确定。如果完成通信，程序流可在操作428结束。如果通信未完成，程序流可进行到操作406：捕捉图像、深度和/或音频。

尽管图4图示根据实施例的各种操作，要理解不是图4中描述的操作中的全部对于其他实施例都是必需的。确实，在本文充分预想在本公开的其他实施例中，在图4中描绘的操作和/或本文描述的其他操作可采用未专门在图中的任一个中示出但仍完全与本公开一致这一方式组合。从而，针对未确切在一个图中示出的特征和/或操作的权利要求认为在本公开的范围和内容内。

如在本文的任何实施例中使用的，术语“应用”可在代码或指令中体现，这些代码或指令可在例如主机处理器等可编程电路或其他可编程电路上执行。

如在本文的任何实施例中使用的，术语“模块”可指应用、软件、固件和/或电路，其配置成执行前面提到的操作中的任一个。软件可体现为在至少一个非暂时性计算机可读存储介质上记录的软件封装、代码、指令、指令集和/或数据。固件可体现为在存储器设备中硬编码(例如，非易失性)的代码、指令或指令集和/或数据。

如在本文的任何实施例中使用的“电路”可单独或采用任何组合地包括例如硬接线电路、可编程电路(例如计算机处理器，其包括一个或多个个体指令处理核)、状态机电路和/或存储由可编程电路执行的指令的固件。模块可以共同或单独体现为电路，其形成较大系统(例如，集成电路(IC)、片上系统(SoC)、台式计算机、便携式计算机、平板计算机、服务器、智能电话等)的一部分。

本文描述的操作中的任一个可在包括一个或多个存储介质的系统中实现，该一个或多个存储介质其上可以独立地或组合地存储有指令，这些指令在被一个或多个处理器执行时执行方法。在这里，处理器可包括，例如服务器CPU、移动设备CPU和/或其他可编程电路。而且，规定本文描述的操作可跨多个物理设备(例如在超过一个不同的物理位点处的处理结构)分布。存储介质可包括任何类型的有形介质：例如任何类型的盘，其包括硬盘、软盘、光盘、压缩盘只读存储器(CD-ROM)、压缩盘可重写(CD-RW)和磁光盘；例如只读存储器(ROM)、随机存取存储器(RAM)(例如动态和静态RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器、固态盘(SSD)等半导体器件；磁或光卡；或适合于存储电子指令的任何类型的介质。其他实施例可实现为由可编程控制设备执行的软件模块。存储介质可以是非暂时性的。

从而，本公开提供用于交互地使得用于实施视频通信的化身动画地呈现而不是实况图像的方法和系统。与发送实况图像相比，化身的使用使交换的信息的量减少。系统和方法进一步配置成通过例如移调和/或时间延展捕捉的音频信号来将用户语音变换成化身语音。化身的交互动画可基于检测的用户输入，其包括触摸和手势。交互动画配置成修改基于面部检测和跟踪而确定的动画。

根据一个方面，提供一种系统。该系统可包括：用户输入设备，其配置成捕捉用户输入；通信模块，其配置成传送并且接收信息；和一个或多个存储介质。另外，该一个或多个存储介质其上独立地或组合地存储有指令，这些指令在由一个或多个处理器执行时促成下列操作，其包括：选择化身；发起通信；检测用户输入；识别用户输入；基于用户输入识别动画命令；生成化身参数；以及传送动画命令和化身参数中的至少一个。

另一个示例系统包括前面的部件并且进一步包括麦克风，其配置成捕捉声音并且将捕捉的声音转换成对应的音频信号，并且指令在由一个或多个处理器执行时促成下列额外操作：捕捉用户语音并且将用户语音转换成对应的用户语音信号；将该用户语音信号变换成化身语音信号；以及传送该化身语音信号。

另一个示例系统包括前面的部件并且进一步包括拍摄装置，其配置成捕捉图像，并且指令在由一个或多个处理器执行时促成下列额外操作：捕捉图像；检测该图像中的面部；从面部提取特征；以及将特征转换成化身参数。

另一个示例系统包括前面的部件并且进一步包括显示器，并且指令在由一个或多个处理器执行时促成下列额外操作：显示至少一个化身；接收远程动画命令和远程化身参数中的至少一个；以及基于该远程动画命令和远程化身参数中的至少一个使一个显示的化身动画地呈现。

另一个示例系统包括前面的部件并且进一步包括扬声器，其配置成将音频信号转换成声音，并且指令在由一个或多个处理器执行时促成下列额外操作：接收远程化身语音信号；以及将该远程化身语音信号转换成化身语音。

另一个示例系统包括前面的部件并且用户输入设备是拍摄装置，其配置成捕捉距离，并且用户输入是手势。

另一个示例系统包括前面的部件并且用户输入设备是触敏显示器并且用户输入是触摸事件。

另一个示例系统包括前面的部件并且变换包括移调和时间延展中的至少一个。

根据另一个方面，提供一种方法。该方法可包括：选择化身；发起通信；检测用户输入；识别用户输入；基于用户输入识别动画命令；基于动画命令生成化身参数；以及传送动画命令和化身参数中的至少一个。

另一个示例方法包括前面的操作并且进一步包括：捕捉用户语音并且将该用户语音转换成对应的用户语音信号；将该用户语音信号变换成化身语音信号；以及传送该化身语音信号。

另一个示例方法包括前面的操作并且进一步包括：捕捉图像；检测该图像中的面部；从面部提取特征；以及将特征转换成化身参数。

另一个示例方法包括前面的操作并且进一步包括：显示至少一个化身；接收远程动画命令和远程化身参数中的至少一个；以及基于该远程动画命令和远程化身参数中的至少一个使一个显示的化身动画地呈现。

另一个示例方法包括前面的操作并且进一步包括：接收远程化身语音信号；以及将该远程化身语音信号转换成化身语音。

另一个示例方法包括前面的操作并且用户输入是手势。

另一个示例方法包括前面的操作并且用户输入是触摸事件。

另一个示例方法包括前面的操作并且变换包括移调和时间延展中的至少一个。

根据另一个方面，提供一种系统。该系统可包括一个或多个存储介质，其上独立地或组合地存储有指令，这些指令在由一个或多个处理器执行时促成下列操作，其包括：选择化身；发起通信；检测用户输入；识别用户输入；基于用户输入识别动画命令；生成化身参数；以及传送动画命令和化身参数中的至少一个。

另一个示例系统包括指令，其在由一个或多个处理器执行时促成前面的操作并且还包括：捕捉用户语音并且将该用户语音转换成对应的用户语音信号；将该用户语音信号变换成化身语音信号；以及传送该化身语音信号。

另一个示例系统包括指令，其在由一个或多个处理器执行时促成前面的操作并且还包括：捕捉图像；检测该图像中的面部；从面部提取特征；以及将特征转换成化身参数。

另一个示例系统包括指令，其在由一个或多个处理器执行时促成前面的操作并且还包括：显示至少一个化身；接收远程动画命令和远程化身参数中的至少一个；以及基于该远程动画命令和远程化身参数中的至少一个使一个显示的化身动画地呈现。

另一个示例系统包括指令，其在由一个或多个处理器执行时促成前面的操作并且还包括：接收远程化身语音信号；以及将该远程化身语音信号转换成化身语音。

另一个示例系统包括指令，其在由一个或多个处理器执行时促成前面的操作并且用户输入是手势。

另一个示例系统包括指令，其在由一个或多个处理器执行时促成前面的操作并且用户输入是触摸事件。

另一个示例系统包括指令，其在由一个或多个处理器执行时促成前面的操作并且变换包括移调和时间延展中的至少一个。

本文已经采用的术语和表达用作说明的术语并且无限制，并且在这样的术语和表达的使用中没有意图要排除示出和描述的特征(或其部分)的任何等同，并且认识到各种修改在权利要求的范围内是可能的。因此，权利要求意在涵盖所有这样的等同。

Claims

1.一个或多个非暂时计算机可读存储设备，具有存储在其上的指令，所述指令在由第一计算设备的至少一个处理器执行时促成操作，其包括：

启用第一化身的选择；

识别所述第一计算设备的用户的一个或多个面部特征；

生成待传送到第二计算设备的信息，用于促使第一选择的化身在所述第二计算设备的显示器上动画地出现，其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征；以及

基于用户输入命令启用第一选择的化身的动画，其中所述用户输入命令与所述一个或多个面部特征分离并且所述用户输入命令要在用户输入设备由所述第一计算设备的用户控制时由所述用户输入设备生成。

2.如权利要求1所述的一个或多个存储设备，其中所述一个或多个面部特征待从所述第一计算设备的用户的一个或多个视频图像来识别。

3.如权利要求1所述的一个或多个存储设备，其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作，其包括：

处理所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。

4.如权利要求1所述的一个或多个存储设备，其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作，其包括：

启用第二化身的选择；

生成待传送到所述第二计算设备的第二信息，用于促使第二选择的化身在所述第二计算设备的显示器上动画地出现，其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征；以及

促使在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第二计算设备上观察第二选择的化身的出现。

5.如权利要求1所述的一个或多个存储设备，其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作，其包括：

将所述第一计算设备的用户的声音信息变换成待传送到所述第二计算设备的目标声音信息，其中所述变换用于使用一个或多个语音效果来使得所述第一计算设备的用户的声音信息失真。

6.如权利要求5所述的一个或多个存储设备，其中所述一个或多个语音效果包括移调语音效果。

7.如权利要求1所述的一个或多个存储设备，其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作，其包括：

促使在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第二计算设备上观察第一选择的化身的出现。

8.一种第一计算设备，其包括：

存储器电路，用于存储指令和数据；

显示设备，用于显示化身；以及

处理器电路，用于处理一个或多个指令来执行操作，其包括：

启用第一化身的选择；

识别所述第一计算设备的用户的一个或多个面部特征；

生成待传送到第二计算设备的信息，用于促使第一选择的化身在所述第一计算设备的显示器上动画地出现，其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征；以及

9.如权利要求8所述的第一计算设备，其进一步包括：

视频拍摄装置设备，用于捕捉所述第一计算设备的用户的一个或多个视频图像，其中所述一个或多个面部特征待从所述第一计算设备的用户的一个或多个捕捉的视频图像来识别。

10.如权利要求8所述的第一计算设备，其进一步包括音频捕捉设备，用于捕捉所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。

11.如权利要求8所述的第一计算设备，其中所述处理器用于处理一个或多个指令来执行额外操作，其包括：

启用第二化身的选择；

生成待传送到所述第二计算设备的第二信息，用于促使第二选择的化身在所述第一计算设备的显示器上动画地出现，其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征；以及

促使在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第二选择的化身的出现。

12.如权利要求8所述的第一计算设备，其中所述处理器用于处理一个或多个指令来执行额外操作，其包括：

13.如权利要求12所述的第一计算设备，其中所述一个或多个语音效果包括移调语音效果。

14.如权利要求8所述的第一计算设备，其中所述处理器用于处理一个或多个指令来执行额外操作，其包括：

促使在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第一选择的化身的出现。

15.一种方法，其包括：

由第一计算设备启用第一化身的选择；

由所述第一计算设备识别所述第一计算设备的用户的一个或多个面部特征；

由所述第一计算设备生成待传送到第二计算设备的信息，用于促使第一选择的化身在所述第二计算设备的显示器上动画地出现，其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征；以及

由所述第一计算设备基于用户输入命令启用第一选择的化身的动画，其中所述用户输入命令与所述一个或多个面部特征分离并且所述用户输入命令要在用户输入设备由所述第一计算设备的用户控制时由所述用户输入设备生成。

16.如权利要求15所述的方法，其中所述一个或多个面部特征待从所述第一计算设备的用户的一个或多个视频图像来识别。

17.如权利要求15所述的方法，其进一步包括：

由所述第一计算设备处理所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。

18.如权利要求15所述的方法，其进一步包括：

由所述第一计算设备启用第二化身的选择；

由所述第一计算设备生成待传送到所述第二计算设备的第二信息，用于促使第二选择的化身在所述第二计算设备的显示器上动画地出现，其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征；以及

由所述第一计算设备在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第二计算设备上观察第二选择的化身的出现。

19.如权利要求15所述的方法，其进一步包括：

由所述第一计算设备将所述第一计算设备的用户的声音信息变换成待传送到所述第二计算设备的目标声音信息，其中所述变换用于使用一个或多个语音效果来使得所述第一计算设备的用户的声音信息失真。

20.如权利要求19所述的方法，其中所述一个或多个语音效果包括移调语音效果。

21.如权利要求15所述的方法，其进一步包括：

由所述第一计算设备在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第二计算设备上观察第一选择的化身的出现。

22.一种第一计算设备，其包括：

化身选择模块，用于启用第一化身的选择；

特征提取模块，用于识别所述第一计算设备的用户的一个或多个面部特征；以及

化身控制模块，用于：

23.如权利要求22所述的第一计算设备，其进一步包括面部检测和跟踪模块，用于检测和跟踪所述第一计算设备的用户的面部。

24.如权利要求22所述的第一计算设备，其进一步包括音频捕捉设备，用于捕捉所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。

25.如权利要求22所述的第一计算设备，其中所述化身选择模块进一步用于启用第二化身的选择。

26.如权利要求25所述的第一计算设备，其中所述化身控制模块进一步用于生成待传送到所述第二计算设备的第二信息，用于促使第二选择的化身在所述第一计算设备的显示器上动画地出现，其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征。

27.如权利要求26所述的第一计算设备，其进一步包括显示模块，用于在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第二选择的化身的出现。

28.如权利要求22所述的第一计算设备，其进一步包括音频变换模块，用于将所述第一计算设备的用户的声音信息变换成待传送到所述第二计算设备的目标声音信息，其中所述变换用于使用一个或多个语音效果来使得所述第一计算设备的用户的声音信息失真。

29.如权利要求28所述的第一计算设备，其中所述一个或多个语音效果包括移调语音效果。

30.如权利要求22所述的第一计算设备，其进一步包括显示模块，用于在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第一选择的化身的出现。

31.如权利要求22所述的第一计算设备，其进一步包括音频捕捉设备，用于捕捉所述第一计算设备的用户的一个或多个视频图像，其中所述一个或多个面部特征待从所述计算设备的用户的一个或多个捕捉的视频图像来识别。

32.一个或多个非暂时计算机可读存储设备，具有存储在其上的指令，所述指令在由第一计算设备的至少一个处理器执行时促成操作，其包括：

启用第一化身的选择；

识别所述第一计算设备的用户的一个或多个面部特征；

33.如权利要求32所述的一个或多个存储设备，其中所述一个或多个面部特征待从所述第一计算设备的用户的一个或多个视频图像来识别。

34.如权利要求32所述的一个或多个存储设备，其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作，其包括：

处理所述第一计算设备的用户的音频信息，以便传送到所述第二计算设备。

35.如权利要求32所述的一个或多个存储设备，其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作，其包括：

启用第二化身的选择；

36.如权利要求32所述的一个或多个存储设备，其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作，其包括：

37.如权利要求32所述的一个或多个存储设备，其中所述指令在由所述第一计算设备的至少一个处理器执行时促成额外操作，其包括：

38.如权利要求32所述的一个或多个存储设备，其中所述一个或多个语音效果包括移调语音效果。

39.一种第一计算设备，其包括：

存储器电路，用于存储指令和数据；

显示设备，用于显示化身；以及

启用第一化身的选择；

识别所述第一计算设备的用户的一个或多个面部特征；

40.如权利要求39所述的第一计算设备，其进一步包括：

41.如权利要求39所述的第一计算设备，其进一步包括音频捕捉设备，用于捕捉所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。

42.如权利要求39所述的第一计算设备，其中所述处理器用于处理一个或多个指令来执行额外操作，其包括：

启用第二化身的选择；

43.如权利要求39所述的第一计算设备，其中所述处理器用于处理一个或多个指令来执行额外操作，其包括：

44.如权利要求39所述的第一计算设备，其中所述处理器用于处理一个或多个指令来执行额外操作，其包括：

45.如权利要求39所述的第一计算设备，其中所述一个或多个语音效果包括移调语音效果。

46.一种方法，其包括：

由第一计算设备启用第一化身的选择；

47.如权利要求46所述的方法，其中所述一个或多个面部特征待从所述第一计算设备的用户的一个或多个视频图像来识别。

48.如权利要求46所述的方法，其进一步包括：

49.如权利要求46所述的方法，其进一步包括：

由所述第一计算设备启用第二化身的选择；

50.如权利要求46所述的方法，其进一步包括：

51.如权利要求46所述的方法，其进一步包括：

52.如权利要求46所述的方法，其中所述一个或多个语音效果包括移调语音效果。

53.一种计算设备，其包括：

化身选择模块，用于启用第一化身的选择；

特征提取模块，用于识别所述第一计算设备的用户的一个或多个面部特征；

化身控制模块，用于生成待传送到第二计算设备的信息，用于促使第一选择的化身在所述第一计算设备的显示器上动画地出现，其中所述信息基于所述第一计算设备的用户的所识别的一个或多个面部特征；以及

音频变换模块，用于将所述第一计算设备的用户的声音信息变换成待传送到所述第二计算设备的目标声音信息，其中所述变换用于使用一个或多个语音效果来使得所述第一计算设备的用户的声音信息失真。

54.如权利要求53所述的第一计算设备，其进一步包括面部检测和跟踪模块，用于检测和跟踪所述第一计算设备的用户的面部。

55.如权利要求53所述的第一计算设备，其进一步包括音频捕捉设备，用于捕捉所述第一计算设备的用户的音频信息以便传送到所述第二计算设备。

56.如权利要求53所述的第一计算设备，其中所述化身选择模块进一步用于启用第二化身的选择。

57.如权利要求56所述的第一计算设备，其中所述化身控制模块进一步用于生成待传送到所述第二计算设备的第二信息，用于促使第二选择的化身在所述第一计算设备的显示器上动画地出现，其中所述第二信息基于所述第一计算设备的用户的所识别的一个或多个面部特征。

58.如权利要求57所述的第一计算设备，其进一步包括显示模块，用于在所述第一计算设备上显示第二选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第二选择的化身的出现。

59.如权利要求53所述的第一计算设备，其中所述化身控制模块进一步用于基于用户输入命令启用第一选择的化身的动画，其中所述用户输入命令与所述一个或多个面部特征分离并且所述用户输入命令要在用户输入设备由所述第一计算设备的用户控制时由所述用户输入设备生成。

60.如权利要求53所述的第一计算设备，其进一步包括显示模块，用于在所述第一计算设备上显示第一选择的化身以使所述第一计算设备的用户能够在所述第一计算设备上观察第一选择的化身的出现。

61.如权利要求53所述的第一计算设备，其中所述一个或多个语音效果包括移调语音效果。

62.如权利要求53所述的第一计算设备，其进一步包括音频捕捉设备，用于捕捉所述第一计算设备的用户的一个或多个视频图像，其中所述一个或多个面部特征待从所述计算设备的用户的一个或多个捕捉的视频图像来识别。