CN107004287B

CN107004287B - 化身视频装置和方法

Info

Publication number: CN107004287B
Application number: CN201480082502.1A
Authority: CN
Inventors: 杜杨洲; 李文龙; 栗强; 童晓峰; T-H·金; M·朴
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2020-10-23
Anticipated expiration: 2034-11-05
Also published as: WO2016070354A1; US9898849B2; EP3216008A1; EP3216008A4; EP3614304A1; EP3216008B1; CN107004287A; US20160300379A1

Abstract

本文公开了与创建化身视频相关联的装置，方法和存储介质。在实施例中，装置可以包括一个或多个面部表情引擎，动画化渲染引擎和视频生成器。一个或多个面部表情引擎可以被配置为接收视频，语音和/或文本输入，并且作为响应，至少部分地基于所接收的视频，语音和/或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情。动画化渲染引擎可以被配置为接收一个或多个动画化消息，并且驱动多个化身模型，以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器可以被配置为捕获多个化身的动画化和渲染，以生成视频。可以描述和/或要求保护其他实施例。

Description

化身视频装置和方法

技术领域

本公开涉及数据处理领域。更具体地，本公开涉及化身(avatar)视频的创建，包括吐舌头检测。

背景技术

在本文中提供的背景技术描述用于一般地呈现本公开的环境的目的。除非在本文中另外指出，否则在这个部分中描述的材料不是本申请中的权利要求的现有技术，并且不因包括在这个部分中而被承认为现有技术。

业余爱好者制作的微电影和卡通片视频已经变得越来越受欢迎，尤其是在社交网络中。一个例子是分享在

上的美国连续喜剧“烦人的橘子(Annoying Orange)”，其中一种拟人橘子骚扰其他水果，蔬菜和各种其他对象，并开玩笑。这些视频中的每一个通常由简单的角色组成，但是讲述一个有趣的故事。尽管这些视频通常不需要大量预算或主流制片厂支持来生产它们，但是对于业余爱好者而言经由当今的图形编辑软件和/或电影制作套件来创建它们仍然不容易。通常仍然需要一个小型工作室，以及具有在如下领域积累了数年艺术技能的经验丰富的艺术家，例如人体动作捕获和重新定位目标，角色动画化和渲染。

附图说明

通过下面结合附图进行的详细描述将会容易地理解实施例。为了方便这种描述，相同的附图标记指定相同的结构元件。在附图中的各图中，作为示例而非作为限制示出实施例。

图1图示根据所公开的实施例的化身视频生成系统的框图。

图2图示根据所公开的实施例的用于生成化身视频的过程。

图3图示根据所公开的实施例的图1中吐舌头检测器的更详细的框图。

图4图示根据所公开的实施例的所提取的嘴部区域的子窗口。

图5图示根据所公开的实施例的所生成视频的两个图像帧。

图6图示根据所公开的实施例的适合用于实施本公开的各种方面的示例计算机系统。

图7图示根据所公开的实施例的具有用于实施参考图1-5描述的方法的指令的存储介质。

具体实施方式

本文公开了与创建化身视频相关联的装置，方法和存储介质。在实施例中，装置可以包括彼此耦合的一个或多个面部表情引擎，动画化渲染引擎和视频生成器。一个或多个面部表情引擎可以被配置为接收视频，语音和/或文本输入，并且作为响应，至少部分地基于所接收的视频，语音和/或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情。动画化渲染引擎可以与一个或多个面部表情引擎耦合，并且被配置为接收一个或多个动画化消息，并且驱动多个化身模型，以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器可以与动画化渲染引擎耦合，并且被配置为捕获多个化身的动画化和渲染，以生成视频。

在实施例中，视频驱动面部表情引擎可以包括吐舌头检测器。吐舌头检测器可以包括彼此耦合的嘴部区域检测器，嘴部区域提取器和舌头分类器。嘴部区域检测器可以被配置为识别多个面部界标(landmarks)的位置，该面部界标与在图像帧中识别嘴部相关联。嘴部区域提取器可以与嘴部区域检测器耦合，并且被配置为至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域。舌头分类器可以与嘴部区域提取器耦合，用于分析所提取的嘴部区域中的多个子窗口以检测吐舌头。在实施例中，吐舌头检测器可以进一步包括与舌头分类器耦合的时间滤波器，并被配置为接收舌头分类器针对多个图像帧的多个结果，并且在从舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

在下面的详细描述中，参考形成其一部分的附图，其中相同的数字始终指代相同的部分并且其中作为说明示出可实施的实施例。应该理解，在不脱离本公开的范围的情况下可利用其他实施例并且可做出结构或逻辑改变。因此，不应该在限制性意义上理解下面的详细描述，并且由所附权利要求及其等同物限定实施例的范围。

在所附描述中公开本公开的各方面。可在不脱离本公开的精神或范围的情况下设计本公开的替代实施例及其等同物。应该注意的是，以下公开的相同的元件由附图中的相同的附图标记指示。

各种操作可被以最有助于理解要求保护的主题的方式依次描述为多个离散的动作或操作。然而，描述的次序不应该被解释为暗示这些操作必须是次序相关的。特别地，这些操作可不按照呈现的次序执行。可按照与描述的实施例不同的次序执行描述的操作。在另外的实施例中，可执行各种另外的操作和/或可省略描述的操作。

就本公开而言，短语“A和/或B”意指(A)、(B)或(A和B)。就本公开而言，短语“A、B和/或C”意指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。

描述可使用短语“在一个实施例中”或“在实施例中”，它们中的每一个可指代相同或不同实施例中的一个或多个。另外，如针对本公开的实施例所使用的术语“包括”、“包含”、“具有”等是同义的。

如在本文中所使用，术语“模块”可指代专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供描述的功能的其他合适组件的一部分，或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供描述的功能的其他合适组件。

现在参考图1，其中示出了根据所公开的实施例的化身视频生成系统。如所图示的，化身视频生成系统100可以包括所示的彼此耦合的一个或多个面部表情引擎102，化身动画化渲染引擎104和视频生成器106。如前所述，且如下更详细地，一个或多个面部表情引擎102可以被配置为接收视频，语音和/或文本输入，并且作为响应，至少部分地基于所接收的视频，语音和/或文本输入来生成具有面部表情参数的多个动画化消息108，该面部表情参数描绘多个化身的面部表情。面部表情可以包括，但不限于，眼部和/或嘴部运动，头部姿势，诸如头部旋转、运动和/或靠近或远离相机等等。动画化渲染引擎104可以与一个或多个面部表情引擎102耦合，并且被配置为接收一个或多个动画化消息108，并且驱动多个化身模型，以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器106可以与动画化渲染引擎104耦合，并且被配置为捕获多个化身的动画化和渲染，以生成视频。

在实施例中，面部表情引擎102可以包括与化身动画化渲染引擎104并行耦合的视频驱动面部表情引擎(VDFEE)112，视频识别面部表情引擎(VRFEE)114和基于文本的面部表情引擎(TBFEE)116。

VDFEE 112可以被配置为接收具有多个图像帧(例如来自图像源，诸如相机(未示出))的视频输入，并且分析图像帧中的面部运动，诸如但不限于眼部和/或嘴部运动，头部姿势等。头部姿势可以包括头部旋转，运动和/或靠近或远离相机。此外，VDFEE 112可以被配置为生成具有面部表情参数的多个动画化消息108，该面部表情参数描绘多个化身的面部表情。动画化消息108的生成可以至少部分地基于图像帧的分析结果来执行。例如，VDFEE112可以被配置为分析图像帧中的面部界标或头部姿势，并且生成具有面部表情参数的多个动画化消息108的至少一个子集，该面部表情参数描绘多个化身的面部表情。至少部分地基于图像帧中面部界标或头部姿势，面部表情可以包括化身的眼部和嘴部运动或头部姿势。在实施例中，VDFEE 112可以配置有(或可供访问)关于混合形状(和可选地，对应的权重)的数据，该混合形状将被应用于化身的中性版本以使化身变形以具有各种面部表情。因此，VDFEE 112可以生成具有混合形状(以及可选地，对应的权重)的标识的动画化消息108，该混合形状将被应用于化身的中性版本以使化身变形以具有特定的面部表情。

可使用任何数量的已知技术识别多个图像帧中的每一个中的面部，并且在多个图像帧中追踪面部来检测面部运动/表情和/或头部姿势。在实施例中，VDFEE 112可以使用面部网格追踪器来识别和追踪面部，并且来检测面部表情。面部网格追踪器可以例如是2014年3月19日提交的题为“面部表情和/或交互驱动化身装置和方法”的PCT申请PCT/CN2014/073695中公开的面部网格追踪器。

在实施例中，嘴部运动可以包括化身将其舌头吐出。可使用任何数量的已知技术来检测吐舌头状态。然而，在实施例中，面部网格追踪器可以包括本公开的吐舌头检测器122，以更有效地检测吐舌头状态，如下将更全面地描述。

VRFEE 114可以被配置为接收音频输入，分析该音频输入，并且生成具有面部表情参数的若干多个动画化消息108，该面部表情参数描绘多个化身的面部表情。可以至少部分地基于音频输入的分析结果来执行动画化消息108的生成。例如，VRFEE 114可以被配置为至少分析音频输入的音量或音节，并且生成具有面部表情参数的多个动画化消息108，该面部表情参数描绘多个化身的面部表情。面部表情可以包括多个化身的嘴部运动，并且可以至少部分地基于音频输入的音量或音节来选择嘴部运动。在实施例中，VRFEE 114可以配置有(或可供访问)关于音量和/或音节与面部表情之间对应关系的数据。进一步地，与VDFEE112类似，VRFEE 114可以配置有(或可供访问)关于混合形状(和可选地，对应的权重)的数据，该混合形状将被应用于化身的中性版本以使化身变形以具有各种面部表情。因此，VRFEE 114可以生成具有混合形状(以及可选地，对应的权重)的标识的动画化消息108，该混合形状将被应用于化身的中性版本以使化身变形以具有特定的面部表情。

TBFEE 116可以被配置为接收文本输入，分析该文本输入，并且生成具有面部表情参数的若干多个动画化消息108，该面部表情参数描绘多个化身的面部表情。可以至少部分地基于文本输入的分析结果来执行动画化消息108的生成。例如，TBFEE 116可以被配置为分析文本输入的语义，并且生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情。面部表情可以包括多个化身的嘴部运动，并且可以至少部分地基于文本输入的语义来选择嘴部运动。在实施例中，TBFEE 116可以配置有(或可供访问)关于各种语义与面部表情之间对应关系的数据。进一步地，与VDFEE 112和VRFEE 114类似，TBFEE 116可以配置有(或可供访问)关于混合形状(和可选地，对应的权重)的数据，该混合形状将被应用于化身的中性版本以使化身变形以具有各种面部表情。因此，TBFEE 116可以生成具有混合形状(以及可选地，对应的权重)的标识的动画化消息108，该混合形状将被应用于化身的中性版本以使化身变形以具有特定的面部表情。

继续参考图1，化身动画化渲染引擎104可以被配置为接收动画化消息108，并且根据动画化消息108驱动一个或多个化身模型，以动画化和渲染化身，复制所描绘的面部表情和/或头部运动。在实施例中，化身动画化渲染引擎104可以配置有多个化身模型以动画化多个化身。化身动画化渲染引擎104还可以配置有用于供用户选择对应于故事中各种角色的化身的界面。进一步地，如前所述，化身动画化渲染引擎104可以通过混合多个预定义形状来动画化面部表情，使得化身视频生成系统100可适合于由广泛的移动计算设备托管。在实施例中，可以在面部追踪和动画化之前首先预先构建具有中性表情和一些典型的表情(诸如嘴部张开，嘴部微笑，扬眉和低眉，眨眼等)的模型。可以针对各种面部表情引擎102的能力和目标移动设备系统的要求来决定或选择混合形状。在操作期间，面部表情引擎102可以为化身动画化渲染引擎104输出混合形状权重(例如，作为动画化消息108的一部分)。

在接收到各种混合形状的混合形状权重(α_i)时，化身动画化渲染引擎104可以利用如下公式生成表示的面部结果：

其中B*是目标表示的面部，

B₀是具有中性表情的基本模型，以及

ΔB_i是特定表情的存储有基于基本模型的顶点位置偏移的第i个混合形状。

与其他面部动画化技术(诸如，运动传递和网格变形)相比，将混合形状用于面部动画化可具有几个优点：1)表情定制：当创建化身模型时，可根据化身的概念和特性定制表情。可使化身模型对于用户而言更加有趣并且有吸引力。2)低计算成本：所述计算可被配置为与模型尺寸成比例，并且使之更加适合于并行处理。3)良好的可扩展性：可使将更多表情添加到框架中更容易。

仍然参考图1，视频生成器106可以被配置为捕获动画化和渲染多个化身的多个图像帧，并且至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。在实施例中，视频生成器106可以捕获一组由化身动画化渲染引擎104动画化的化身。在其他实施例中，视频生成器106可以与多个化身动画化渲染引擎104耦合。对于这些实施例，视频场景可以包含由多个动画化渲染引擎104同时动画化的多个化身。

面部表情引擎102，化身动画化渲染引擎104和/或视频生成器106中的每一个都可以以硬件，软件或其组合加以实现。例如，面部表情引擎102，化身动画化渲染引擎104和/或视频生成器106中的每一个都可以采用专用集成电路(ASIC)，编程有实现逻辑的可编程电路，以汇编语言实现的软件，或可编译成由基本通用和/或图形处理器支持的机器指令的高级语言加以实现。

现在参考图2，其中示出了根据所公开的实施例的用于生成化身视频的过程。如所图示的，在实施例中，用于生成化身视频的过程200可以包括在框202-216中执行的操作。操作可以例如通过图1的面部表情引擎102，化身动画化渲染引擎104和/或视频生成器106来执行。

过程200可以从框202开始。在框202，可以接收待生成视频的故事中各种角色之间的对话。如前所述，该对话可以经由视频，语音和/或文本输入来接收(例如通过面部表情引擎102中对应的一些)。在框204，对应于各种角色的化身可以被选择(例如经由动画化渲染引擎104的用户界面)。

从框204，过程200可以进行到框206，208和/或210，其中视频，语音和/或文本输入可以对应地馈送到例如面部表情引擎102中相应的一些进行处理。如前所述，可以分析视频输入的图像帧，以识别该图像帧中的面部界标和/或头部姿势，并且进而，可以至少部分地基于所识别的面部界标和/或头部姿势，来生成具有面部表情参数的动画化消息108，该面部表情参数描绘面部表情，诸如眼部和/或嘴部运动或头部姿势。可以分析音频输入，例如音量和/或音节，并且进而，可以至少部分地基于所识别的音量和/或音节来生成具有面部表情参数的动画化消息108，该面部表情参数描绘面部表情，诸如嘴部运动。可以分析文本，例如文本语义，并且进而，可以至少部分地基于所识别的语义来生成具有面部表情参数的动画化消息108，该面部表情参数描绘面部表情，诸如嘴部运动。

从框206，208和210，过程200可以进行到框212。在框212，根据接收到的动画化消息108，可以使用面部表情来动画化和渲染各种化身。进一步地，该动画化和渲染可以在例如在多个图像帧中捕获。

在框214，可以确定角色之间的所有对话是否都已被动画化和捕获。如果角色之间的还有对话待被动画化和捕获，则过程200可以返回到框204，并且如之前所描述的那样从那里继续进行。另一方面，如果角色之间的所有对话都已被动画化和捕获，则过程200可以进行到框216。在框216，所捕获的图像帧可以被组合/拼接在一起以形成视频。此后，过程200可以结束。

现在简略地往回参考图1，如前所述，在实施例中，视频驱动面部表情引擎112可以配备有与本公开的教导合并的吐舌头检测器，以有效地支持吐舌头状态的检测。一般来说，舌头是一种动态的面部特征-它只在嘴部张开时露出。舌头的形状各不相同，并且其运动非常动态。现有的舌头检测方法主要分为两种：一种使用可变形模板或主动轮廓模型来追踪舌头的形状；而另一种使用模板图像计算嘴部区域的相似度评分，并然后确定舌头状态。两种类型的方法都是相对的计算密集型的，并且不是特别适合于当今的移动客户端设备，例如智能电话，计算平板电脑等等。

现在参考图3，其中进一步详细地示出了根据所公开的实施例的图1中吐舌头检测器的框图。如所图示的，吐舌头检测器122可以包括彼此耦合的嘴部区域检测器304，嘴部区域提取器306，舌头分类器308和可选地时间滤波器310。在实施例中，嘴部区域检测器304可以被配置为接收具有经识别的面部的图像帧，例如具有识别面部所在区域的边界框303的图像帧302。此外，嘴部区域检测器304可以被配置为分析图像帧302，并且识别多个面部界标，该面部界标与识别嘴部区域相关。在实施例中，嘴部区域检测器304可以被配置为分析图像帧302，并且识别下巴点，嘴部左角的位置和嘴部右角的位置(通过图3中的点来描绘)。

另一方面，嘴部区域提取器306可以被配置为从图像帧302中提取嘴部区域，并且将所提取的嘴部区域提供给舌头分类器308。在实施例中，嘴部区域提取器306可以被配置为至少部分地基于相关的界标，例如下巴点，嘴部左角的位置和嘴部右角的位置，来从图像帧302中提取嘴部区域。

吐舌头分类器308可以被配置为接收图像帧的经提取的嘴部区域。在实施例中，吐舌头分类器308可以针对大量不同大小和形状的舌头，使用数百或数千个没有吐舌头的、或以各种方式吐舌头的嘴部区域(即阴性和阳性的吐舌头样本)进行训练。在实施例中，吐舌头分类器308被训练以识别具有吐舌头状态的经提取的嘴部区域的多个子窗口的属性。在实施例中，吐舌头分类器308可以采用多种分类器方法中的任一种，包括但不限于自适应增强方法(Adaboost)，神经网络(Neural network)，支持向量机(Support vector machine)等。参见图4，其中图示了使用自适应增强方法的多个示例性的潜在相关子窗口。在实施例中，吐舌头分类器308可以被配置为通过计算和比较被分析的所提取的嘴部区域的参考子窗口402内的属性，来确定是否将所提取的嘴部区域分类为具有吐舌头状态。

在实施例中，可以针对类哈尔(Haar-like)特征执行计算和比较。类哈尔特征分析是一种考虑检测窗口中特定位置处的相邻矩形区域，对每个区域中的像素强度求和，并计算这些和之间的差值的分析。该差值然后用于分类图像帧的子部分。

在其他实施例中，可以对梯度方向直方图(HOG)，梯度，或求和梯度特征执行计算和比较。HOG特征是在计算机视觉和图像处理中用于对象检测目的的特征描述符。该技术计数图像帧的局部化部分中梯度方向的出现。求和梯度特征是计数图像帧的所选子窗口中的梯度x的和以及梯度y的和的特征描述符。

可选的时间滤波器310可以被配置为避免给出吐舌头状态检测的假指示。在实施例中，可选的时间滤波器310可以被配置为对吐舌头分类器308的输出应用滤波。更具体地，可选的时间滤波器310可以被配置为对吐舌头分类器308的输出应用滤波，以便于只有在连续N次接收到指示着检测到吐舌头的吐舌头分类器的输出后，才提供吐舌头状态的肯定通知。N可以是可配置的整数，根据所需的精度来经验性地确定。例如，如果期望避免假阳性(false positive)，则可以设置相对较高的N，或者如果希望避免假阴性(falsenegetive)，则可以设置相对较低的N。在实施例中，如果不关注假阴性，则可以跳过时间滤波。

现在参考图5，其中示出了根据所公开的实施例的示例性生成的视频的两个示例图像帧。如前所述，视频生成器106可以被配置为将动画化渲染引擎104的动画化和渲染捕获到多个图像帧中。进一步地，所捕获的图像帧可以被组合/拼接在一起以形成视频。图5中所图示的是示例视频500的两个示例图像帧502和504。示例图像帧502和504分别捕获对应于说出角色的对话506的两个角色的两个化身的动画化。虽然对话506被图示为示例图像502和504中的字幕，但是在实施例中，对话506可以附加地或替代地被捕获为音频(具有或不具有伴随字幕)。如由示例图像帧502所图示的，吐舌头检测器122使得能够有效地检测和动画化化身/角色的吐舌头状态。

虽然已经在VDFEE 112的上下文中描述了吐舌头检测器122，以便于有效地检测化身视频生成中化身的动画化和渲染的吐舌头状态，但是吐舌头检测器122的使用并不限于此。预期的是吐舌头检测器122可以用于各种各样的计算机视觉应用中。例如，吐舌头检测器122可以用于交互式应用中，以响应于各种吐舌头状态的检测，来触发视频游戏中的各种控制命令。

此外，尽管化身视频生成系统100被设计为特别适合于在诸如智能电话，平板手机，计算平板电脑，膝上型计算机或电子阅读器的移动设备上操作，但是本公开不限于此。预期的是化身视频生成系统100还可以在具有比典型的移动设备更强的计算能力的计算设备上操作，诸如台式计算机，游戏控制台，机顶盒或计算机服务器。

图6图示可以适用于实施本公开所选方面的示例计算机系统。如所示，计算机600可以包括一个或多个处理器或处理器核602，以及系统存储器604。为了包括权利要求的本申请的目的，术语“处理器”和“处理器核”可以被认为是同义的，除非上下文以其他方式明确要求。此外，计算机600可以包括大容量存储设备606(诸如软盘，硬盘驱动器，压缩盘只读存储器(CD-ROM)等)，输入/输出设备608(诸如显示器，键盘，光标控制等)以及通信接口610(诸如网络接口卡，调制解调器等)。元件可以经由系统总线612彼此耦合，系统总线612可以表示一个或多个总线。在多个总线的情况下，它们可以由一个或多个总线桥(未示出)桥接。

这些元件中的每一个都可以执行它本领域已知的常规功能。特别地，可以采用系统存储器604和大容量存储设备606来存储编程指令的工作拷贝和永久拷贝，该编程指令实现了与如前所述的面部表情引擎102，化身动画化渲染引擎104和视频生成器106相关联的操作，这些统称为计算逻辑622。各种元件可以由(一个或多个)处理器602支持的汇编指令或可被编译成这样的指令的高级语言(诸如例如C语言)来实现。

这些元件610-612的数量，能力和/或容量可以根据计算机600是用作移动设备，固定设备还是服务器而变化。当用作移动设备时，这些元件610-612的能力和/或容量可以根据移动设备是智能电话，计算平板电脑，超级本还是笔记本电脑而变化。在其他方面，元件610-612的构成是已知的，并因此不再进一步描述。

如将被本领域技术人员所理解的，本公开可以体现为方法或计算机程序产品。因此，除了如前所述的以硬件体现之外，本公开可以采取纯软件实施例(包括固件，常驻式软件，微代码等)的形式，或者可以采取组合软件和硬件方面的实施例的形式，软件和硬件方面均可通常被称为“电路”，“模块”或“系统”。此外，本公开可以采取体现在表情的任何有形或非暂时性介质中的计算机程序产品的形式，该计算机程序产品具有体现在介质中的计算机可用程序代码。图7图示可以适用于存储指令的示例计算机可读非暂时性存储介质，响应于由装置执行指令而使装置实施本公开所选方面。如所示，非暂时性计算机可读存储介质702可以包括多个编程指令704。编程指令704可以被配置为响应于编程指令的执行，来使得例如计算机600的设备能够执行与例如面部表情引擎102，化身动画化渲染引擎104和视频生成器106相关联的各种操作。在替代实施例中，编程指令704可以被替换为布置在多个计算机可读非暂时性存储介质702上。在替代实施例中，编程指令704可以被布置在计算机可读暂时性存储介质702上，诸如信号。

可利用一个或多个计算机可用或计算机可读介质的任何组合。计算机可用或计算机可读介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体示例(非穷举列表)将会包括下述各项：具有一个或多个导线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式压缩盘只读存储器(CD-ROM)、光学存储设备、传输介质(诸如，支持互联网或内联网的那些传输介质)或磁存储设备。注意的是，计算机可用或计算机可读介质能够甚至是在其上印刷程序的纸或另一合适的介质，因为程序能够经由例如纸或其他介质的光学扫描被以电子方式捕获，然后根据需要编译、解释或另外以合适方式处理，然后被存储在计算机存储器中。在本文档的上下文中，计算机可用或计算机可读介质可以是能够包含、存储、传送、传播或传输由指令执行系统、装置或设备使用或结合指令执行系统、装置或设备使用的程序的任何介质。计算机可用介质可包括基带中或作为载波的一部分的包含有计算机可用程序代码的传播数据信号。可使用任何合适的介质传输计算机可用程序代码，所述任何合适的介质包括但不限于无线、有线、光纤光缆、RF等。

可按照一种或多种编程语言的任何组合编写用于执行本公开的操作的计算机程序代码，所述编程语言包括：面向对象的编程语言，诸如Java、Smallalk、C++等；和常规程序化编程语言，诸如“C”编程语言或类似编程语言。程序代码可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上并且部分在远程计算机上执行或者完全在远程计算机或眼务器上执行。在后面的方案中，远程计算机可通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户的计算机，或者可(例如，使用互联网服务提供商通过互联网)连接到外部计算机。

参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本公开。将会理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合能够由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，以产生一台机器，从而经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中规定的功能/动作的构件。

这些计算机程序指令也可被存储在计算机可读介质中，所述计算机程序指令能够指引计算机或其他可编程数据处理装置按照特定方式工作，从而存储在计算机可读介质中的指令产生一件制品，所述制品包括指令装置，所述指令装置实现流程图和/或框图的一个或多个框中规定的功能/动作。

计算机程序指令也可被加载到计算机或其他可编程数据处理装置上，以使在计算机或其他可编程装置上执行一系列的操作步骤以产生计算机实现的过程，从而在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个框中规定的功能/动作的过程。

附图中的流程图和框图图示根据本公开的各种实施例的系统、方法和计算机程序产品的可能的实现方式的架构、功能和操作。在这个方面，流程图或框图中的每个框可代表包括用于实现(一个或多个)规定的逻辑功能的一个或多个可执行指令的代码的模块、片段或部分代码。还应该注意的是，在一些替代实现方式中，框中标注的功能可不按附图中标注的次序进行。例如，事实上，根据涉及的功能，连续示出的两个框可基本上同时执行，或者这些框有时可按照相反的次序执行。还将注意的是，框图和/或流程图中的每个框以及框图和/或流程图中的框的组合能够由执行规定的功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合实现。

在本文中使用的术语仅用于描述特定实施例的目的，并且不旨在限制本公开。如在本文中所使用，除非上下文清楚地另外指示，否则单数形式“一”、“一个”和“该”也旨在包括复数形式。还将会理解，当在本说明书中使用时，术语“包括”和/或“包含”指定存在陈述的特征、整数、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其群组。

实施例可被实现为计算机过程、计算系统或实现为一件制品，诸如计算机可读介质的计算机程序产品。计算机程序产品可以是计算机系统可读并且对用于执行计算机过程的计算机程序指令进行编码的计算机存储介质。

以下权利要求中的所有构件或步骤加功能元件的对应结构、材料、动作和等同物旨在包括用于结合具体要求保护的其他要求保护的元件执行功能的任何结构、材料或动作。本公开的描述已被呈现用于说明和描述的目的，而非旨在是穷尽的或者局限于公开的形式的本公开。在不脱离本公开的范围和精神的情况下，对于本领域普通技术人员而言，许多修改和变化将会是清楚的。选择并描述实施例以便最好地解释本公开的原理和实际应用，并且使其他本领域普通技术人员能够理解本公开的具有适合于设想的特定用途的各种修改的实施例。

返回参考图6，对于一个实施例，处理器602中的至少一个可以与具有计算逻辑622(代替存储在存储器604和存储设备606上)的存储器一起封装。对于一个实施例，处理器602中的至少一个可以与具有计算逻辑622的存储器一起封装以形成系统级封装(SiP)。对于一个实施例，处理器602中的至少一个可以与具有计算逻辑622的存储器集成在相同的管芯上。对于一个实施例，处理器602中的至少一个可以与具有计算逻辑622的存储器一起封装以形成片上系统(SoC)。对于至少一个实施例，该SoC可以被用于例如但不限于智能电话或计算平板电脑。

因此，已经描述了本公开的各种示例实施例，包括但不限于：

示例1可以是一种用于动画化渲染化身的装置，包括：一个或多个处理器；以及吐舌头检测器，将由一个或多个处理器操作吐舌头检测器以检测图像帧中的吐舌头状态。吐舌头检测器可以包括嘴部区域检测器，该嘴部区域检测器被配置为识别多个面部界标的位置，该面部界标与在图像帧中识别嘴部相关联；嘴部区域提取器，被配置为至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域；以及舌头分类器，被配置为分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

示例2可以是示例11，其中嘴部区域检测器可以识别图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且其中，嘴部区域提取器用于至少部分地基于经识别的下巴点，嘴部左角和嘴部右角的位置，来从图像帧中提取嘴部区域。

示例3可以是示例2，其中嘴部区域提取器可以进一步对所提取的嘴部区域进行逐尺寸标准化(size-wise normalize)。

示例4可以是示例1-3中任一个，其中舌头分类器用于分析多个子窗口的多个吐舌头特征，包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

示例5可以是示例1-4中任一个，其中吐舌头检测器进一步可以包括时间滤波器，用于接收舌头分类器针对多个图像帧的多个结果，并且在从舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

示例6可以是一种用于动画化和渲染多个化身的装置。该装置可以包括一个或多个面部表情引擎，动画化渲染引擎，以及视频生成器。该一个或多个面部表情引擎可以被配置为接收视频，语音或文本输入，并且至少部分地基于所接收的视频，语音或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情。动画化渲染引擎，可以与一个或多个面部表情引擎耦合，并被配置为接收一个或多个动画化消息，以及根据多个动画化消息来驱动多个化身模型，以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器，可以与动画化渲染引擎耦合，并被配置为捕获多个化身的动画化和渲染，并且至少部分地基于所捕获的动画化和渲染来生成视频。

示例7可以是示例6，其中一个或多个面部表情引擎可以包括视频驱动面部表情引擎，用于接收具有多个图像帧的视频输入，分析图像帧，以及至少部分地基于图像帧的分析结果，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情。

示例8可以是示例7，其中视频驱动面部表情引擎可以分析图像帧中面部界标或头部姿势，并且至少部分地基于图像帧中面部界标或头部姿势，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括化身的眼部和嘴部运动或头部姿势。

示例9可以是示例6-8中任一个，其中一个或多个面部表情引擎可以包括语音识别面部表情引擎，用于接收音频输入，分析音频输入，以及至少部分地基于音频输入的分析结果，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情。

示例10可以是示例9，其中语音识别面部表情引擎可以至少分析音频输入的音量或音节，并且至少部分地基于音频输入的音量或音节，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

示例11可以是示例6-10中任一个，其中一个或多个面部表情引擎可以包括基于文本的面部表情引擎，用于接收文本输入，分析文本输入，并且至少部分地基于文本输入的分析结果，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情。

示例12可以是示例11，其中基于文本的面部表情引擎可以分析文本输入的语义，并且至少部分地基于文本输入的语义，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

示例13可以是示例6，其中，视频生成器可以捕获多个化身的动画化和渲染的多个图像帧，并且至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。

示例14可以是示例6-13中任一个，其中一个或多个面部表情引擎可以包括视频驱动面部表情引擎，视频驱动面部表情引擎包括用于检测图像帧中吐舌头状态的吐舌头检测器。

示例15可以是示例14，其中吐舌头检测器可以包括：嘴部区域检测器，被配置为识别多个面部界标的位置，该面部界标与在图像帧中识别嘴部相关联；嘴部区域提取器，与嘴部区域检测器耦合并且被配置为至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域，以及舌头分类器，与嘴部区域提取器耦合并且被配置为分析所提取的嘴部区域中的多个子窗口以检测吐舌头。

示例16可以是示例15，其中嘴部区域检测器可以识别图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且其中，嘴部区域提取器用于至少部分地基于经识别的下巴点，嘴部左角和嘴部右角的位置，来从图像帧中提取嘴部区域。

示例17可以是示例16，其中嘴部区域提取器可以进一步对所提取的嘴部区域进行逐尺寸标准化。

示例18可以是示例15-17中任一个，其中舌头分类器可以分析多个子窗口的多个吐舌头特征，包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

示例19可以是示例15-18中任一个，其中吐舌头检测器可以进一步包括时间滤波器，用于接收舌头分类器针对多个图像帧的多个结果，并且在从舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

示例20可以是一种用于动画化渲染化身的方法，包括通过计算设备接收多个图像帧；以及检测一个或多个图像帧中的吐舌头状态。检测可以包括：识别多个面部界标的位置，该面部界标与在图像帧中识别嘴部相关联；至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域；以及分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

示例21可以是示例20，其中识别可以包括识别图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且其中，提取可以包括至少部分地基于经识别的下巴点，嘴部左角和嘴部右角的位置，来从图像帧中提取嘴部区域。

示例22可以是示例21，其中提取可以进一步包括对所提取的嘴部区域进行逐尺寸标准化。

示例23可以是示例20-22中任一个，其中分析可以包括分析多个子窗口的多个吐舌头特征，包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

示例24可以是示例20-23中任一个，进一步包括对针对多个图像帧的多个分析结果进行时间滤波，并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

示例25可以是一种用于动画化和渲染多个化身的方法，包括：通过计算设备接收视频，语音或文本输入；通过计算设备至少部分地基于所接收的视频，语音或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情；通过计算设备根据多个动画化消息来驱动多个化身模型，以使用所描绘的面部表情来动画化和渲染多个化身；以及通过计算设备捕获多个化身的动画化和渲染，以至少部分地基于所捕获的动画化和渲染来生成视频。

示例26可以是示例25，其中接收可以包括接收具有多个图像帧的视频输入；并且生成包括分析图像帧中面部界标或头部姿势，并且至少部分地基于图像帧中面部界标或头部姿势，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括化身的眼部和嘴部运动或头部姿势。

示例27可以是示例25或26，其中接收可以包括接收音频输入；并且生成包括至少分析音频输入的音量或音节，并且至少部分地基于音频输入的音量或音节，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

示例28可以是示例25，26或27，其中接收可以包括接收文本输入；并且生成包括分析文本输入的语义，并且至少部分地基于文本输入的语义，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

示例29可以是示例25-28中任一个，其中捕获可以包括捕获多个化身的动画化和渲染的多个图像帧，并且至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。

示例30可以是示例26，其中分析可以包括检测图像帧中的吐舌头状态。

示例31可以是示例30，其中检测吐舌头状态可以包括：识别多个面部界标的位置，该面部界标与在图像帧中识别嘴部相关联；至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域，并且分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

示例32可以是示例31，其中识别可以包括识别图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且至少部分地基于经识别的下巴点，嘴部左角和嘴部右角的位置从图像帧中提取嘴部区域。

示例33可以是示例32，其中提取包括对所提取的嘴部区域进行逐尺寸标准化。

示例34可以是示例31-33中任一个，其中分析多个子窗口包括分析多个子窗口的多个吐舌头特征，包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

示例35可以是示例30-34中任一个，进一步包括对针对多个图像帧的多个舌头检测的结果进行时间滤波，并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

示例36可以是至少一种计算机可读介质，具有响应于通过计算设备执行指令，而使计算设备：接收多个图像帧；以及检测一个或多个图像帧中的吐舌头状态。检测可以包括：识别多个面部界标的位置，该面部界标与在图像帧中识别嘴部相关联；至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域；以及分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

示例37可以是示例36，其中识别可以包括识别图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且其中，提取包括至少部分地基于经识别的下巴点，嘴部左角和嘴部右角的位置，从图像帧中提取嘴部区域。

示例38可以是示例37，其中提取可以进一步包括对所提取的嘴部区域进行逐尺寸标准化。

示例39可以是示例36-38中任一个，其中分析可以包括分析多个子窗口的多个吐舌头特征，包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

示例40可以是示例36-39中任一个，其中可以进一步使计算设备对针对多个图像帧的多个分析结果进行时间滤波，并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

示例41可以是至少一种计算机可读介质，具有响应于通过计算设备执行指令，而使计算设备：接收视频，语音或文本输入；至少部分地基于所接收的视频，语音或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情；根据多个动画化消息来驱动多个化身模型，以使用所描绘的面部表情来动画化和渲染多个化身；以及捕获多个化身的动画化和渲染，以至少部分地基于所捕获的动画化和渲染来生成视频。

示例42可以是示例41，其中接收可以包括接收具有多个图像帧的视频输入；并且生成包括分析图像帧中面部界标或头部姿势，并且至少部分地基于图像帧中面部界标或头部姿势，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括化身的眼部和嘴部运动或头部姿势。

示例43可以是示例41或42，其中接收可以包括接收音频输入；并且生成包括至少分析音频输入的音量或音节，并且至少部分地基于音频输入的音量或音节，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

示例44可以是示例41，42或43，其中接收可以包括接收文本输入；并且生成包括分析文本输入的语义，并且至少部分地基于文本输入的语义，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

示例45可以是示例41-44中任一个，其中捕获可以包括捕获多个化身的动画化和渲染的多个图像帧，并且至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。

示例46可以是示例42-45中任一个，其中分析可以包括检测图像帧中的吐舌头状态。

示例47可以是示例46，其中检测吐舌头状态可以包括：识别多个面部界标的位置，该面部界标与在图像帧中识别嘴部相关联；至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域，以及分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

示例48可以是示例47，其中识别可以包括识别图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且至少部分地基于经识别的下巴点，嘴部左角和嘴部右角的位置从图像帧中提取嘴部区域。

示例49可以是示例48，其中提取可以包括对所提取的嘴部区域进行逐尺寸标准化。

示例50可以是示例47-49中任一个，其中分析多个子窗口可以包括分析多个子窗口的多个吐舌头特征，包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

示例51可以是示例46-50中任一个，其中分析可以进一步包括对针对多个图像帧的多个舌头检测的结果进行时间滤波，并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

示例51可以是一种用于动画化渲染化身的装置，包括：一个或多个处理器；以及吐舌头检测构件，用于检测图像帧中的吐舌头状态。吐舌头检测构件可以包括：嘴部区域检测构件，用于识别多个面部界标的位置，该面部界标与在图像帧中识别嘴部相关联；嘴部区域提取构件，用于至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域；以及舌头分类构件，用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

示例53可以是示例52，其中嘴部区域检测构件可以包括用于识别图像帧中的下巴点，嘴部左角和嘴部右角的位置的构件，并且其中，嘴部区域提取构件包括用于至少部分地基于经识别的下巴点，嘴部左角和嘴部右角的位置，来从图像帧中提取嘴部区域的构件。

示例54可以是示例53，其中嘴部区域提取构件可以包括用于对所提取的嘴部区域进行逐尺寸标准化的构件。

示例55可以是示例52-54中任一个，其中舌头分类构件可以包括用于分析多个子窗口的多个吐舌头特征的构件，该多个吐舌头特征包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

示例56可以是示例52-55中任一个，其中吐舌头检测构件可以包括用于针对多个图像帧对舌头分类构件的多个结果进行时间滤波，并且在从舌头分类构件连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知的构件。

示例57可以是一种用于动画化和渲染多个化身的装置，包括：面部表情构件，用于接收视频，语音或文本输入，并且至少部分地基于所接收的视频，语音或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情；动画化渲染构件，用于接收一个或多个动画化消息，以及根据多个动画化消息来驱动多个化身模型，以使用所描绘的面部表情来动画化和渲染多个化身；以及视频生成构件，用于捕获多个化身的动画化和渲染，并且至少部分地基于所捕获的动画化和渲染来生成视频。

示例58可以是示例57，其中面部表情构件可以包括视频驱动面部表情构件，用于接收具有多个图像帧的视频输入，分析图像帧中面部界标或头部姿势，并且至少部分地基于图像帧中面部界标或头部姿势，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括化身的眼部和嘴部运动或头部姿势。

示例59可以是示例57或58，其中面部表情构件可以包括语音识别面部表情构件，用于接收音频输入，至少分析音频输入的音量或音节，并且至少部分地基于音频输入的音量或音节，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

示例60可以是示例57，58或59，其中面部表情构件可以包括基于文本的面部表情构件，用于接收文本输入，分析文本输入的语义，并且至少部分地基于文本输入的语义，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

示例61可以是示例57-60中任一个，其中，视频生成构件可以包括用于捕获多个化身的动画化和渲染的多个图像帧的构件，以至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。

示例62可以是示例57-61中任一个，其中面部表情构件可以包括视频驱动面部表情构件，视频驱动面部表情构件包括用于检测图像帧中吐舌头状态的吐舌头检测构件。

示例63可以是示例62，其中吐舌头检测构件可以包括：嘴部区域检测构件，用于识别多个面部界标的位置，该面部界标与在图像帧中识别嘴部相关联；嘴部区域提取构件，用于至少部分地基于所识别的多个面部界标的位置，从图像帧中提取嘴部区域；以及舌头分类构件，用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头。

示例64可以是示例63，其中嘴部区域检测构件可以包括用于识别图像帧中的下巴点，嘴部左角和嘴部右角的位置的构件，并且其中，嘴部区域提取器用于至少部分地基于经识别的下巴点，嘴部左角和嘴部右角的位置，来从图像帧中提取嘴部区域。

示例65可以是示例64，其中嘴部区域提取构件可以包括用于对所提取的嘴部区域进行逐尺寸标准化的构件。

示例66可以是示例63-65中任一个，其中舌头分类构件包括用于分析多个子窗口的多个吐舌头特征的构件，该多个吐舌头特征包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

示例67可以是示例63-66中任一个，其中吐舌头检测构件可以进一步包括时间滤波构件，用于接收舌头分类构件针对多个图像帧的多个结果，并且在从舌头分类构件连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

对于本领域技术人员而言将会清楚的是，在不脱离本公开的精神或范围的情况下，能够在公开的设备和关联的方法的公开的实施例中做出各种修正和变化。因此，假如所述修正和变化落在任何权利要求及其等同物的范围内，则旨在本公开包括以上公开的实施例的修正和变化。

Claims

1.一种用于动画化渲染化身的装置，包括：

一个或多个处理器；以及

吐舌头检测器，将由所述一个或多个处理器操作该吐舌头检测器以检测图像帧中的吐舌头状态，包括

嘴部区域检测器，用于识别多个面部界标的位置，该面部界标与在所述图像帧中识别嘴部相关联，

嘴部区域提取器，用于至少部分地基于所识别的多个面部界标的位置，从所述图像帧中提取嘴部区域，以及

舌头分类器，用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头，

所述装置还包括：

一个或多个面部表情引擎，用于接收视频，语音或文本输入，并且至少部分地基于所接收的视频，语音或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情，其中，所述一个或多个面部表情引擎包括视频驱动面部表情引擎，所述视频驱动面部表情包括用于检测图像帧中的吐舌头状态的吐舌头检测器；

动画化渲染引擎，与所述一个或多个面部表情引擎耦合，以接收所述一个或多个动画化消息，以及根据所述多个动画化消息来驱动多个化身模型，以使用所描绘的所述面部表情来动画化和渲染所述多个化身；以及

视频生成器，与所述动画化渲染引擎耦合，以捕获所述多个化身的动画化和渲染，并且至少部分地基于所捕获的动画化和渲染来生成视频。

2.根据权利要求1所述的装置，其中，所述嘴部区域检测器用于识别所述图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且其中，所述嘴部区域提取器用于至少部分地基于经识别的所述下巴点，嘴部左角和嘴部右角的位置，来从所述图像帧中提取所述嘴部区域。

3.根据权利要求2所述的装置，其中，所述嘴部区域提取器用于进一步对所提取的嘴部区域进行逐尺寸标准化。

4.根据权利要求1所述的装置，其中，所述舌头分类器用于分析多个子窗口的多个吐舌头特征，所述多个吐舌头特征包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

5.根据权利要求1-4中任意一项所述的装置，其中，所述吐舌头检测器进一步包括时间滤波器，所述时间滤波器用于接收所述舌头分类器针对多个图像帧的多个结果，并且在从所述舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

6.根据权利要求1所述的装置，其中，所述视频驱动面部表情引擎用于分析所述图像帧中的面部界标或头部姿势，并且至少部分地基于图像帧中的面部界标或头部姿势，来生成具有面部表情参数的所述多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括化身的眼部和嘴部运动或头部姿势。

7.根据权利要求1所述的装置，其中，所述一个或多个面部表情引擎包括语音识别面部表情引擎，所述语音识别面部表情引擎用于至少接收音频输入，分析音频输入的音量或音节，并且至少部分地基于所述音频输入的音量或音节，来生成具有面部表情参数的所述多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

8.根据权利要求1所述的装置，其中，所述一个或多个面部表情引擎包括基于文本的面部表情引擎，所述基于文本的面部表情引擎用于接收文本输入，分析文本输入的语义，并且至少部分地基于所述文本输入的语义，来生成具有面部表情参数的多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括多个化身的嘴部运动。

9.根据权利要求1所述的装置，其中，所述视频生成器用于捕获所述多个化身的动画化和渲染的多个图像帧，并且至少部分地基于所捕获的动画化和渲染的所述图像帧来生成视频。

10.一种用于动画化渲染化身的方法，包括：

通过计算设备接收多个图像帧；以及

检测一个或多个所述图像帧中的吐舌头状态，包括：

识别多个面部界标的位置，该面部界标与在所述图像帧中识别嘴部相关联，

至少部分地基于所识别的多个面部界标的位置，从所述图像帧中提取嘴部区域，

分析所提取的嘴部区域内的多个子窗口以检测吐舌头，

所述方法还包括：

接收视频，语音或文本输入，并且至少部分地基于所接收的视频，语音或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情，其中，所述一个或多个面部表情引擎包括视频驱动面部表情引擎，所述视频驱动面部表情包括用于检测图像帧中的吐舌头状态的吐舌头检测器；

接收所述一个或多个动画化消息，以及根据所述多个动画化消息来驱动多个化身模型，以使用所描绘的所述面部表情来动画化和渲染所述多个化身；以及

捕获所述多个化身的动画化和渲染，并且至少部分地基于所捕获的动画化和渲染来生成视频。

11.根据权利要求10所述的方法，其中，识别包括识别所述图像帧中的下巴点，嘴部左角和嘴部右角的位置，并且其中，提取包括至少部分地基于经识别的所述下巴点，嘴部左角和嘴部右角的位置，从所述图像帧中提取所述嘴部区域；以及对所提取的嘴部区域进行逐尺寸标准化。

12.根据权利要求10或11所述的方法，进一步包括对针对多个图像帧的多个分析结果进行时间滤波，并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知。

13.根据权利要求10所述的方法，还包括：

通过所述计算设备至少部分地基于所接收的图像帧来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情；

通过所述计算设备根据所述多个动画化消息来驱动多个化身模型，以使用所描绘的所述面部表情来动画化和渲染所述多个化身；以及

通过所述计算设备捕获所述多个化身的动画化和渲染，以至少部分地基于所捕获的动画化和渲染来生成视频。

14.根据权利要求13所述的方法，其中，接收包括接收具有多个图像帧的视频输入；并且生成包括分析所述图像帧中的面部界标或头部姿势，并且至少部分地基于图像帧中的面部界标或头部姿势，来生成具有面部表情参数的所述多个动画化消息的至少一个子集，该面部表情参数描绘多个化身的面部表情，该面部表情包括化身的眼部和嘴部运动或头部姿势。

15.至少一种计算机可读介质，具有响应于通过计算设备执行指令，而使所述计算设备执行权利要求10-14中任意一项所述的方法的指令。

16.一种用于动画化渲染化身的装置，包括：

一个或多个处理器；以及

吐舌头检测构件，用于检测图像帧中的吐舌头状态，包括

嘴部区域检测构件，用于识别多个面部界标的位置，该面部界标与在所述图像帧中识别嘴部相关联，

嘴部区域提取构件，用于至少部分地基于所识别的多个面部界标的位置，从所述图像帧中提取嘴部区域，以及

舌头分类构件，用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头，

所述装置还包括：

面部表情构件，用于接收视频，语音或文本输入，并且至少部分地基于所接收的视频，语音或文本输入来生成具有面部表情参数的多个动画化消息，该面部表情参数描绘多个化身的面部表情，其中，所述面部表情构件包括视频驱动面部表情构件，所述视频驱动面部表情构件包括用于检测图像帧中吐舌头状态的吐舌头检测构件；

动画化渲染构件，用于接收一个或多个动画化消息，以及根据所述多个动画化消息来驱动多个化身模型，以使用所描绘的所述面部表情来动画化和渲染所述多个化身；以及

视频生成构件，用于捕获所述多个化身的动画化和渲染，并且至少部分地基于所捕获的动画化和渲染来生成视频。

17.根据权利要求16所述的装置，其中，所述嘴部区域检测构件包括用于识别所述图像帧中的下巴点，嘴部左角和嘴部右角的位置的构件，并且其中，所述嘴部区域提取构件包括用于至少部分地基于经识别的所述下巴点，嘴部左角和嘴部右角的位置，从所述图像帧中提取所述嘴部区域的构件。

18.根据权利要求16所述的装置，其中，所述舌头分类构件包括用于分析多个子窗口的多个吐舌头特征的构件，所述多个吐舌头特征包括类哈尔特征，梯度直方图特征，梯度特征，或求和梯度特征。

19.根据权利要求16所述的装置，其中，所述吐舌头检测构件包括用于对舌头分类构件针对多个图像帧的多个结果进行时间滤波，以及在从所述舌头分类构件连续接收指示着多个连续图像帧的吐舌头检测的多个结果时，输出吐舌头检测的通知的构件。