CN107004287B - 化身视频装置和方法 - Google Patents

化身视频装置和方法 Download PDF

Info

Publication number
CN107004287B
CN107004287B CN201480082502.1A CN201480082502A CN107004287B CN 107004287 B CN107004287 B CN 107004287B CN 201480082502 A CN201480082502 A CN 201480082502A CN 107004287 B CN107004287 B CN 107004287B
Authority
CN
China
Prior art keywords
tongue
facial
mouth
avatars
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480082502.1A
Other languages
English (en)
Other versions
CN107004287A (zh
Inventor
杜杨洲
李文龙
栗强
童晓峰
T-H·金
M·朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN107004287A publication Critical patent/CN107004287A/zh
Application granted granted Critical
Publication of CN107004287B publication Critical patent/CN107004287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本文公开了与创建化身视频相关联的装置,方法和存储介质。在实施例中,装置可以包括一个或多个面部表情引擎,动画化渲染引擎和视频生成器。一个或多个面部表情引擎可以被配置为接收视频,语音和/或文本输入,并且作为响应,至少部分地基于所接收的视频,语音和/或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情。动画化渲染引擎可以被配置为接收一个或多个动画化消息,并且驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器可以被配置为捕获多个化身的动画化和渲染,以生成视频。可以描述和/或要求保护其他实施例。

Description

化身视频装置和方法
技术领域
本公开涉及数据处理领域。更具体地,本公开涉及化身(avatar)视频的创建,包括吐舌头检测。
背景技术
在本文中提供的背景技术描述用于一般地呈现本公开的环境的目的。除非在本文中另外指出,否则在这个部分中描述的材料不是本申请中的权利要求的现有技术,并且不因包括在这个部分中而被承认为现有技术。
业余爱好者制作的微电影和卡通片视频已经变得越来越受欢迎,尤其是在社交网络中。一个例子是分享在
Figure BPA0000241887990000011
上的美国连续喜剧“烦人的橘子(Annoying Orange)”,其中一种拟人橘子骚扰其他水果,蔬菜和各种其他对象,并开玩笑。这些视频中的每一个通常由简单的角色组成,但是讲述一个有趣的故事。尽管这些视频通常不需要大量预算或主流制片厂支持来生产它们,但是对于业余爱好者而言经由当今的图形编辑软件和/或电影制作套件来创建它们仍然不容易。通常仍然需要一个小型工作室,以及具有在如下领域积累了数年艺术技能的经验丰富的艺术家,例如人体动作捕获和重新定位目标,角色动画化和渲染。
附图说明
通过下面结合附图进行的详细描述将会容易地理解实施例。为了方便这种描述,相同的附图标记指定相同的结构元件。在附图中的各图中,作为示例而非作为限制示出实施例。
图1图示根据所公开的实施例的化身视频生成系统的框图。
图2图示根据所公开的实施例的用于生成化身视频的过程。
图3图示根据所公开的实施例的图1中吐舌头检测器的更详细的框图。
图4图示根据所公开的实施例的所提取的嘴部区域的子窗口。
图5图示根据所公开的实施例的所生成视频的两个图像帧。
图6图示根据所公开的实施例的适合用于实施本公开的各种方面的示例计算机系统。
图7图示根据所公开的实施例的具有用于实施参考图1-5描述的方法的指令的存储介质。
具体实施方式
本文公开了与创建化身视频相关联的装置,方法和存储介质。在实施例中,装置可以包括彼此耦合的一个或多个面部表情引擎,动画化渲染引擎和视频生成器。一个或多个面部表情引擎可以被配置为接收视频,语音和/或文本输入,并且作为响应,至少部分地基于所接收的视频,语音和/或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情。动画化渲染引擎可以与一个或多个面部表情引擎耦合,并且被配置为接收一个或多个动画化消息,并且驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器可以与动画化渲染引擎耦合,并且被配置为捕获多个化身的动画化和渲染,以生成视频。
在实施例中,视频驱动面部表情引擎可以包括吐舌头检测器。吐舌头检测器可以包括彼此耦合的嘴部区域检测器,嘴部区域提取器和舌头分类器。嘴部区域检测器可以被配置为识别多个面部界标(landmarks)的位置,该面部界标与在图像帧中识别嘴部相关联。嘴部区域提取器可以与嘴部区域检测器耦合,并且被配置为至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域。舌头分类器可以与嘴部区域提取器耦合,用于分析所提取的嘴部区域中的多个子窗口以检测吐舌头。在实施例中,吐舌头检测器可以进一步包括与舌头分类器耦合的时间滤波器,并被配置为接收舌头分类器针对多个图像帧的多个结果,并且在从舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
在下面的详细描述中,参考形成其一部分的附图,其中相同的数字始终指代相同的部分并且其中作为说明示出可实施的实施例。应该理解,在不脱离本公开的范围的情况下可利用其他实施例并且可做出结构或逻辑改变。因此,不应该在限制性意义上理解下面的详细描述,并且由所附权利要求及其等同物限定实施例的范围。
在所附描述中公开本公开的各方面。可在不脱离本公开的精神或范围的情况下设计本公开的替代实施例及其等同物。应该注意的是,以下公开的相同的元件由附图中的相同的附图标记指示。
各种操作可被以最有助于理解要求保护的主题的方式依次描述为多个离散的动作或操作。然而,描述的次序不应该被解释为暗示这些操作必须是次序相关的。特别地,这些操作可不按照呈现的次序执行。可按照与描述的实施例不同的次序执行描述的操作。在另外的实施例中,可执行各种另外的操作和/或可省略描述的操作。
就本公开而言,短语“A和/或B”意指(A)、(B)或(A和B)。就本公开而言,短语“A、B和/或C”意指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。
描述可使用短语“在一个实施例中”或“在实施例中”,它们中的每一个可指代相同或不同实施例中的一个或多个。另外,如针对本公开的实施例所使用的术语“包括”、“包含”、“具有”等是同义的。
如在本文中所使用,术语“模块”可指代专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供描述的功能的其他合适组件的一部分,或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或组)和/或存储器(共享、专用或组)、组合逻辑电路和/或提供描述的功能的其他合适组件。
现在参考图1,其中示出了根据所公开的实施例的化身视频生成系统。如所图示的,化身视频生成系统100可以包括所示的彼此耦合的一个或多个面部表情引擎102,化身动画化渲染引擎104和视频生成器106。如前所述,且如下更详细地,一个或多个面部表情引擎102可以被配置为接收视频,语音和/或文本输入,并且作为响应,至少部分地基于所接收的视频,语音和/或文本输入来生成具有面部表情参数的多个动画化消息108,该面部表情参数描绘多个化身的面部表情。面部表情可以包括,但不限于,眼部和/或嘴部运动,头部姿势,诸如头部旋转、运动和/或靠近或远离相机等等。动画化渲染引擎104可以与一个或多个面部表情引擎102耦合,并且被配置为接收一个或多个动画化消息108,并且驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器106可以与动画化渲染引擎104耦合,并且被配置为捕获多个化身的动画化和渲染,以生成视频。
在实施例中,面部表情引擎102可以包括与化身动画化渲染引擎104并行耦合的视频驱动面部表情引擎(VDFEE)112,视频识别面部表情引擎(VRFEE)114和基于文本的面部表情引擎(TBFEE)116。
VDFEE 112可以被配置为接收具有多个图像帧(例如来自图像源,诸如相机(未示出))的视频输入,并且分析图像帧中的面部运动,诸如但不限于眼部和/或嘴部运动,头部姿势等。头部姿势可以包括头部旋转,运动和/或靠近或远离相机。此外,VDFEE 112可以被配置为生成具有面部表情参数的多个动画化消息108,该面部表情参数描绘多个化身的面部表情。动画化消息108的生成可以至少部分地基于图像帧的分析结果来执行。例如,VDFEE112可以被配置为分析图像帧中的面部界标或头部姿势,并且生成具有面部表情参数的多个动画化消息108的至少一个子集,该面部表情参数描绘多个化身的面部表情。至少部分地基于图像帧中面部界标或头部姿势,面部表情可以包括化身的眼部和嘴部运动或头部姿势。在实施例中,VDFEE 112可以配置有(或可供访问)关于混合形状(和可选地,对应的权重)的数据,该混合形状将被应用于化身的中性版本以使化身变形以具有各种面部表情。因此,VDFEE 112可以生成具有混合形状(以及可选地,对应的权重)的标识的动画化消息108,该混合形状将被应用于化身的中性版本以使化身变形以具有特定的面部表情。
可使用任何数量的已知技术识别多个图像帧中的每一个中的面部,并且在多个图像帧中追踪面部来检测面部运动/表情和/或头部姿势。在实施例中,VDFEE 112可以使用面部网格追踪器来识别和追踪面部,并且来检测面部表情。面部网格追踪器可以例如是2014年3月19日提交的题为“面部表情和/或交互驱动化身装置和方法”的PCT申请PCT/CN2014/073695中公开的面部网格追踪器。
在实施例中,嘴部运动可以包括化身将其舌头吐出。可使用任何数量的已知技术来检测吐舌头状态。然而,在实施例中,面部网格追踪器可以包括本公开的吐舌头检测器122,以更有效地检测吐舌头状态,如下将更全面地描述。
VRFEE 114可以被配置为接收音频输入,分析该音频输入,并且生成具有面部表情参数的若干多个动画化消息108,该面部表情参数描绘多个化身的面部表情。可以至少部分地基于音频输入的分析结果来执行动画化消息108的生成。例如,VRFEE 114可以被配置为至少分析音频输入的音量或音节,并且生成具有面部表情参数的多个动画化消息108,该面部表情参数描绘多个化身的面部表情。面部表情可以包括多个化身的嘴部运动,并且可以至少部分地基于音频输入的音量或音节来选择嘴部运动。在实施例中,VRFEE 114可以配置有(或可供访问)关于音量和/或音节与面部表情之间对应关系的数据。进一步地,与VDFEE112类似,VRFEE 114可以配置有(或可供访问)关于混合形状(和可选地,对应的权重)的数据,该混合形状将被应用于化身的中性版本以使化身变形以具有各种面部表情。因此,VRFEE 114可以生成具有混合形状(以及可选地,对应的权重)的标识的动画化消息108,该混合形状将被应用于化身的中性版本以使化身变形以具有特定的面部表情。
TBFEE 116可以被配置为接收文本输入,分析该文本输入,并且生成具有面部表情参数的若干多个动画化消息108,该面部表情参数描绘多个化身的面部表情。可以至少部分地基于文本输入的分析结果来执行动画化消息108的生成。例如,TBFEE 116可以被配置为分析文本输入的语义,并且生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情。面部表情可以包括多个化身的嘴部运动,并且可以至少部分地基于文本输入的语义来选择嘴部运动。在实施例中,TBFEE 116可以配置有(或可供访问)关于各种语义与面部表情之间对应关系的数据。进一步地,与VDFEE 112和VRFEE 114类似,TBFEE 116可以配置有(或可供访问)关于混合形状(和可选地,对应的权重)的数据,该混合形状将被应用于化身的中性版本以使化身变形以具有各种面部表情。因此,TBFEE 116可以生成具有混合形状(以及可选地,对应的权重)的标识的动画化消息108,该混合形状将被应用于化身的中性版本以使化身变形以具有特定的面部表情。
继续参考图1,化身动画化渲染引擎104可以被配置为接收动画化消息108,并且根据动画化消息108驱动一个或多个化身模型,以动画化和渲染化身,复制所描绘的面部表情和/或头部运动。在实施例中,化身动画化渲染引擎104可以配置有多个化身模型以动画化多个化身。化身动画化渲染引擎104还可以配置有用于供用户选择对应于故事中各种角色的化身的界面。进一步地,如前所述,化身动画化渲染引擎104可以通过混合多个预定义形状来动画化面部表情,使得化身视频生成系统100可适合于由广泛的移动计算设备托管。在实施例中,可以在面部追踪和动画化之前首先预先构建具有中性表情和一些典型的表情(诸如嘴部张开,嘴部微笑,扬眉和低眉,眨眼等)的模型。可以针对各种面部表情引擎102的能力和目标移动设备系统的要求来决定或选择混合形状。在操作期间,面部表情引擎102可以为化身动画化渲染引擎104输出混合形状权重(例如,作为动画化消息108的一部分)。
在接收到各种混合形状的混合形状权重(αi)时,化身动画化渲染引擎104可以利用如下公式生成表示的面部结果:
Figure BPA0000241887990000061
其中B*是目标表示的面部,
B0是具有中性表情的基本模型,以及
ΔBi是特定表情的存储有基于基本模型的顶点位置偏移的第i个混合形状。
与其他面部动画化技术(诸如,运动传递和网格变形)相比,将混合形状用于面部动画化可具有几个优点:1)表情定制:当创建化身模型时,可根据化身的概念和特性定制表情。可使化身模型对于用户而言更加有趣并且有吸引力。2)低计算成本:所述计算可被配置为与模型尺寸成比例,并且使之更加适合于并行处理。3)良好的可扩展性:可使将更多表情添加到框架中更容易。
仍然参考图1,视频生成器106可以被配置为捕获动画化和渲染多个化身的多个图像帧,并且至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。在实施例中,视频生成器106可以捕获一组由化身动画化渲染引擎104动画化的化身。在其他实施例中,视频生成器106可以与多个化身动画化渲染引擎104耦合。对于这些实施例,视频场景可以包含由多个动画化渲染引擎104同时动画化的多个化身。
面部表情引擎102,化身动画化渲染引擎104和/或视频生成器106中的每一个都可以以硬件,软件或其组合加以实现。例如,面部表情引擎102,化身动画化渲染引擎104和/或视频生成器106中的每一个都可以采用专用集成电路(ASIC),编程有实现逻辑的可编程电路,以汇编语言实现的软件,或可编译成由基本通用和/或图形处理器支持的机器指令的高级语言加以实现。
现在参考图2,其中示出了根据所公开的实施例的用于生成化身视频的过程。如所图示的,在实施例中,用于生成化身视频的过程200可以包括在框202-216中执行的操作。操作可以例如通过图1的面部表情引擎102,化身动画化渲染引擎104和/或视频生成器106来执行。
过程200可以从框202开始。在框202,可以接收待生成视频的故事中各种角色之间的对话。如前所述,该对话可以经由视频,语音和/或文本输入来接收(例如通过面部表情引擎102中对应的一些)。在框204,对应于各种角色的化身可以被选择(例如经由动画化渲染引擎104的用户界面)。
从框204,过程200可以进行到框206,208和/或210,其中视频,语音和/或文本输入可以对应地馈送到例如面部表情引擎102中相应的一些进行处理。如前所述,可以分析视频输入的图像帧,以识别该图像帧中的面部界标和/或头部姿势,并且进而,可以至少部分地基于所识别的面部界标和/或头部姿势,来生成具有面部表情参数的动画化消息108,该面部表情参数描绘面部表情,诸如眼部和/或嘴部运动或头部姿势。可以分析音频输入,例如音量和/或音节,并且进而,可以至少部分地基于所识别的音量和/或音节来生成具有面部表情参数的动画化消息108,该面部表情参数描绘面部表情,诸如嘴部运动。可以分析文本,例如文本语义,并且进而,可以至少部分地基于所识别的语义来生成具有面部表情参数的动画化消息108,该面部表情参数描绘面部表情,诸如嘴部运动。
从框206,208和210,过程200可以进行到框212。在框212,根据接收到的动画化消息108,可以使用面部表情来动画化和渲染各种化身。进一步地,该动画化和渲染可以在例如在多个图像帧中捕获。
在框214,可以确定角色之间的所有对话是否都已被动画化和捕获。如果角色之间的还有对话待被动画化和捕获,则过程200可以返回到框204,并且如之前所描述的那样从那里继续进行。另一方面,如果角色之间的所有对话都已被动画化和捕获,则过程200可以进行到框216。在框216,所捕获的图像帧可以被组合/拼接在一起以形成视频。此后,过程200可以结束。
现在简略地往回参考图1,如前所述,在实施例中,视频驱动面部表情引擎112可以配备有与本公开的教导合并的吐舌头检测器,以有效地支持吐舌头状态的检测。一般来说,舌头是一种动态的面部特征-它只在嘴部张开时露出。舌头的形状各不相同,并且其运动非常动态。现有的舌头检测方法主要分为两种:一种使用可变形模板或主动轮廓模型来追踪舌头的形状;而另一种使用模板图像计算嘴部区域的相似度评分,并然后确定舌头状态。两种类型的方法都是相对的计算密集型的,并且不是特别适合于当今的移动客户端设备,例如智能电话,计算平板电脑等等。
现在参考图3,其中进一步详细地示出了根据所公开的实施例的图1中吐舌头检测器的框图。如所图示的,吐舌头检测器122可以包括彼此耦合的嘴部区域检测器304,嘴部区域提取器306,舌头分类器308和可选地时间滤波器310。在实施例中,嘴部区域检测器304可以被配置为接收具有经识别的面部的图像帧,例如具有识别面部所在区域的边界框303的图像帧302。此外,嘴部区域检测器304可以被配置为分析图像帧302,并且识别多个面部界标,该面部界标与识别嘴部区域相关。在实施例中,嘴部区域检测器304可以被配置为分析图像帧302,并且识别下巴点,嘴部左角的位置和嘴部右角的位置(通过图3中的点来描绘)。
另一方面,嘴部区域提取器306可以被配置为从图像帧302中提取嘴部区域,并且将所提取的嘴部区域提供给舌头分类器308。在实施例中,嘴部区域提取器306可以被配置为至少部分地基于相关的界标,例如下巴点,嘴部左角的位置和嘴部右角的位置,来从图像帧302中提取嘴部区域。
吐舌头分类器308可以被配置为接收图像帧的经提取的嘴部区域。在实施例中,吐舌头分类器308可以针对大量不同大小和形状的舌头,使用数百或数千个没有吐舌头的、或以各种方式吐舌头的嘴部区域(即阴性和阳性的吐舌头样本)进行训练。在实施例中,吐舌头分类器308被训练以识别具有吐舌头状态的经提取的嘴部区域的多个子窗口的属性。在实施例中,吐舌头分类器308可以采用多种分类器方法中的任一种,包括但不限于自适应增强方法(Adaboost),神经网络(Neural network),支持向量机(Support vector machine)等。参见图4,其中图示了使用自适应增强方法的多个示例性的潜在相关子窗口。在实施例中,吐舌头分类器308可以被配置为通过计算和比较被分析的所提取的嘴部区域的参考子窗口402内的属性,来确定是否将所提取的嘴部区域分类为具有吐舌头状态。
在实施例中,可以针对类哈尔(Haar-like)特征执行计算和比较。类哈尔特征分析是一种考虑检测窗口中特定位置处的相邻矩形区域,对每个区域中的像素强度求和,并计算这些和之间的差值的分析。该差值然后用于分类图像帧的子部分。
在其他实施例中,可以对梯度方向直方图(HOG),梯度,或求和梯度特征执行计算和比较。HOG特征是在计算机视觉和图像处理中用于对象检测目的的特征描述符。该技术计数图像帧的局部化部分中梯度方向的出现。求和梯度特征是计数图像帧的所选子窗口中的梯度x的和以及梯度y的和的特征描述符。
可选的时间滤波器310可以被配置为避免给出吐舌头状态检测的假指示。在实施例中,可选的时间滤波器310可以被配置为对吐舌头分类器308的输出应用滤波。更具体地,可选的时间滤波器310可以被配置为对吐舌头分类器308的输出应用滤波,以便于只有在连续N次接收到指示着检测到吐舌头的吐舌头分类器的输出后,才提供吐舌头状态的肯定通知。N可以是可配置的整数,根据所需的精度来经验性地确定。例如,如果期望避免假阳性(false positive),则可以设置相对较高的N,或者如果希望避免假阴性(falsenegetive),则可以设置相对较低的N。在实施例中,如果不关注假阴性,则可以跳过时间滤波。
现在参考图5,其中示出了根据所公开的实施例的示例性生成的视频的两个示例图像帧。如前所述,视频生成器106可以被配置为将动画化渲染引擎104的动画化和渲染捕获到多个图像帧中。进一步地,所捕获的图像帧可以被组合/拼接在一起以形成视频。图5中所图示的是示例视频500的两个示例图像帧502和504。示例图像帧502和504分别捕获对应于说出角色的对话506的两个角色的两个化身的动画化。虽然对话506被图示为示例图像502和504中的字幕,但是在实施例中,对话506可以附加地或替代地被捕获为音频(具有或不具有伴随字幕)。如由示例图像帧502所图示的,吐舌头检测器122使得能够有效地检测和动画化化身/角色的吐舌头状态。
虽然已经在VDFEE 112的上下文中描述了吐舌头检测器122,以便于有效地检测化身视频生成中化身的动画化和渲染的吐舌头状态,但是吐舌头检测器122的使用并不限于此。预期的是吐舌头检测器122可以用于各种各样的计算机视觉应用中。例如,吐舌头检测器122可以用于交互式应用中,以响应于各种吐舌头状态的检测,来触发视频游戏中的各种控制命令。
此外,尽管化身视频生成系统100被设计为特别适合于在诸如智能电话,平板手机,计算平板电脑,膝上型计算机或电子阅读器的移动设备上操作,但是本公开不限于此。预期的是化身视频生成系统100还可以在具有比典型的移动设备更强的计算能力的计算设备上操作,诸如台式计算机,游戏控制台,机顶盒或计算机服务器。
图6图示可以适用于实施本公开所选方面的示例计算机系统。如所示,计算机600可以包括一个或多个处理器或处理器核602,以及系统存储器604。为了包括权利要求的本申请的目的,术语“处理器”和“处理器核”可以被认为是同义的,除非上下文以其他方式明确要求。此外,计算机600可以包括大容量存储设备606(诸如软盘,硬盘驱动器,压缩盘只读存储器(CD-ROM)等),输入/输出设备608(诸如显示器,键盘,光标控制等)以及通信接口610(诸如网络接口卡,调制解调器等)。元件可以经由系统总线612彼此耦合,系统总线612可以表示一个或多个总线。在多个总线的情况下,它们可以由一个或多个总线桥(未示出)桥接。
这些元件中的每一个都可以执行它本领域已知的常规功能。特别地,可以采用系统存储器604和大容量存储设备606来存储编程指令的工作拷贝和永久拷贝,该编程指令实现了与如前所述的面部表情引擎102,化身动画化渲染引擎104和视频生成器106相关联的操作,这些统称为计算逻辑622。各种元件可以由(一个或多个)处理器602支持的汇编指令或可被编译成这样的指令的高级语言(诸如例如C语言)来实现。
这些元件610-612的数量,能力和/或容量可以根据计算机600是用作移动设备,固定设备还是服务器而变化。当用作移动设备时,这些元件610-612的能力和/或容量可以根据移动设备是智能电话,计算平板电脑,超级本还是笔记本电脑而变化。在其他方面,元件610-612的构成是已知的,并因此不再进一步描述。
如将被本领域技术人员所理解的,本公开可以体现为方法或计算机程序产品。因此,除了如前所述的以硬件体现之外,本公开可以采取纯软件实施例(包括固件,常驻式软件,微代码等)的形式,或者可以采取组合软件和硬件方面的实施例的形式,软件和硬件方面均可通常被称为“电路”,“模块”或“系统”。此外,本公开可以采取体现在表情的任何有形或非暂时性介质中的计算机程序产品的形式,该计算机程序产品具有体现在介质中的计算机可用程序代码。图7图示可以适用于存储指令的示例计算机可读非暂时性存储介质,响应于由装置执行指令而使装置实施本公开所选方面。如所示,非暂时性计算机可读存储介质702可以包括多个编程指令704。编程指令704可以被配置为响应于编程指令的执行,来使得例如计算机600的设备能够执行与例如面部表情引擎102,化身动画化渲染引擎104和视频生成器106相关联的各种操作。在替代实施例中,编程指令704可以被替换为布置在多个计算机可读非暂时性存储介质702上。在替代实施例中,编程指令704可以被布置在计算机可读暂时性存储介质702上,诸如信号。
可利用一个或多个计算机可用或计算机可读介质的任何组合。计算机可用或计算机可读介质可以是例如但不限于电子、磁、光学、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体示例(非穷举列表)将会包括下述各项:具有一个或多个导线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式压缩盘只读存储器(CD-ROM)、光学存储设备、传输介质(诸如,支持互联网或内联网的那些传输介质)或磁存储设备。注意的是,计算机可用或计算机可读介质能够甚至是在其上印刷程序的纸或另一合适的介质,因为程序能够经由例如纸或其他介质的光学扫描被以电子方式捕获,然后根据需要编译、解释或另外以合适方式处理,然后被存储在计算机存储器中。在本文档的上下文中,计算机可用或计算机可读介质可以是能够包含、存储、传送、传播或传输由指令执行系统、装置或设备使用或结合指令执行系统、装置或设备使用的程序的任何介质。计算机可用介质可包括基带中或作为载波的一部分的包含有计算机可用程序代码的传播数据信号。可使用任何合适的介质传输计算机可用程序代码,所述任何合适的介质包括但不限于无线、有线、光纤光缆、RF等。
可按照一种或多种编程语言的任何组合编写用于执行本公开的操作的计算机程序代码,所述编程语言包括:面向对象的编程语言,诸如Java、Smallalk、C++等;和常规程序化编程语言,诸如“C”编程语言或类似编程语言。程序代码可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上并且部分在远程计算机上执行或者完全在远程计算机或眼务器上执行。在后面的方案中,远程计算机可通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户的计算机,或者可(例如,使用互联网服务提供商通过互联网)连接到外部计算机。
参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本公开。将会理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合能够由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,以产生一台机器,从而经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中规定的功能/动作的构件。
这些计算机程序指令也可被存储在计算机可读介质中,所述计算机程序指令能够指引计算机或其他可编程数据处理装置按照特定方式工作,从而存储在计算机可读介质中的指令产生一件制品,所述制品包括指令装置,所述指令装置实现流程图和/或框图的一个或多个框中规定的功能/动作。
计算机程序指令也可被加载到计算机或其他可编程数据处理装置上,以使在计算机或其他可编程装置上执行一系列的操作步骤以产生计算机实现的过程,从而在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个框中规定的功能/动作的过程。
附图中的流程图和框图图示根据本公开的各种实施例的系统、方法和计算机程序产品的可能的实现方式的架构、功能和操作。在这个方面,流程图或框图中的每个框可代表包括用于实现(一个或多个)规定的逻辑功能的一个或多个可执行指令的代码的模块、片段或部分代码。还应该注意的是,在一些替代实现方式中,框中标注的功能可不按附图中标注的次序进行。例如,事实上,根据涉及的功能,连续示出的两个框可基本上同时执行,或者这些框有时可按照相反的次序执行。还将注意的是,框图和/或流程图中的每个框以及框图和/或流程图中的框的组合能够由执行规定的功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合实现。
在本文中使用的术语仅用于描述特定实施例的目的,并且不旨在限制本公开。如在本文中所使用,除非上下文清楚地另外指示,否则单数形式“一”、“一个”和“该”也旨在包括复数形式。还将会理解,当在本说明书中使用时,术语“包括”和/或“包含”指定存在陈述的特征、整数、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或其群组。
实施例可被实现为计算机过程、计算系统或实现为一件制品,诸如计算机可读介质的计算机程序产品。计算机程序产品可以是计算机系统可读并且对用于执行计算机过程的计算机程序指令进行编码的计算机存储介质。
以下权利要求中的所有构件或步骤加功能元件的对应结构、材料、动作和等同物旨在包括用于结合具体要求保护的其他要求保护的元件执行功能的任何结构、材料或动作。本公开的描述已被呈现用于说明和描述的目的,而非旨在是穷尽的或者局限于公开的形式的本公开。在不脱离本公开的范围和精神的情况下,对于本领域普通技术人员而言,许多修改和变化将会是清楚的。选择并描述实施例以便最好地解释本公开的原理和实际应用,并且使其他本领域普通技术人员能够理解本公开的具有适合于设想的特定用途的各种修改的实施例。
返回参考图6,对于一个实施例,处理器602中的至少一个可以与具有计算逻辑622(代替存储在存储器604和存储设备606上)的存储器一起封装。对于一个实施例,处理器602中的至少一个可以与具有计算逻辑622的存储器一起封装以形成系统级封装(SiP)。对于一个实施例,处理器602中的至少一个可以与具有计算逻辑622的存储器集成在相同的管芯上。对于一个实施例,处理器602中的至少一个可以与具有计算逻辑622的存储器一起封装以形成片上系统(SoC)。对于至少一个实施例,该SoC可以被用于例如但不限于智能电话或计算平板电脑。
因此,已经描述了本公开的各种示例实施例,包括但不限于:
示例1可以是一种用于动画化渲染化身的装置,包括:一个或多个处理器;以及吐舌头检测器,将由一个或多个处理器操作吐舌头检测器以检测图像帧中的吐舌头状态。吐舌头检测器可以包括嘴部区域检测器,该嘴部区域检测器被配置为识别多个面部界标的位置,该面部界标与在图像帧中识别嘴部相关联;嘴部区域提取器,被配置为至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域;以及舌头分类器,被配置为分析所提取的嘴部区域内的多个子窗口以检测吐舌头。
示例2可以是示例11,其中嘴部区域检测器可以识别图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且其中,嘴部区域提取器用于至少部分地基于经识别的下巴点,嘴部左角和嘴部右角的位置,来从图像帧中提取嘴部区域。
示例3可以是示例2,其中嘴部区域提取器可以进一步对所提取的嘴部区域进行逐尺寸标准化(size-wise normalize)。
示例4可以是示例1-3中任一个,其中舌头分类器用于分析多个子窗口的多个吐舌头特征,包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
示例5可以是示例1-4中任一个,其中吐舌头检测器进一步可以包括时间滤波器,用于接收舌头分类器针对多个图像帧的多个结果,并且在从舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
示例6可以是一种用于动画化和渲染多个化身的装置。该装置可以包括一个或多个面部表情引擎,动画化渲染引擎,以及视频生成器。该一个或多个面部表情引擎可以被配置为接收视频,语音或文本输入,并且至少部分地基于所接收的视频,语音或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情。动画化渲染引擎,可以与一个或多个面部表情引擎耦合,并被配置为接收一个或多个动画化消息,以及根据多个动画化消息来驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身。视频生成器,可以与动画化渲染引擎耦合,并被配置为捕获多个化身的动画化和渲染,并且至少部分地基于所捕获的动画化和渲染来生成视频。
示例7可以是示例6,其中一个或多个面部表情引擎可以包括视频驱动面部表情引擎,用于接收具有多个图像帧的视频输入,分析图像帧,以及至少部分地基于图像帧的分析结果,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情。
示例8可以是示例7,其中视频驱动面部表情引擎可以分析图像帧中面部界标或头部姿势,并且至少部分地基于图像帧中面部界标或头部姿势,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括化身的眼部和嘴部运动或头部姿势。
示例9可以是示例6-8中任一个,其中一个或多个面部表情引擎可以包括语音识别面部表情引擎,用于接收音频输入,分析音频输入,以及至少部分地基于音频输入的分析结果,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情。
示例10可以是示例9,其中语音识别面部表情引擎可以至少分析音频输入的音量或音节,并且至少部分地基于音频输入的音量或音节,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
示例11可以是示例6-10中任一个,其中一个或多个面部表情引擎可以包括基于文本的面部表情引擎,用于接收文本输入,分析文本输入,并且至少部分地基于文本输入的分析结果,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情。
示例12可以是示例11,其中基于文本的面部表情引擎可以分析文本输入的语义,并且至少部分地基于文本输入的语义,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
示例13可以是示例6,其中,视频生成器可以捕获多个化身的动画化和渲染的多个图像帧,并且至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。
示例14可以是示例6-13中任一个,其中一个或多个面部表情引擎可以包括视频驱动面部表情引擎,视频驱动面部表情引擎包括用于检测图像帧中吐舌头状态的吐舌头检测器。
示例15可以是示例14,其中吐舌头检测器可以包括:嘴部区域检测器,被配置为识别多个面部界标的位置,该面部界标与在图像帧中识别嘴部相关联;嘴部区域提取器,与嘴部区域检测器耦合并且被配置为至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域,以及舌头分类器,与嘴部区域提取器耦合并且被配置为分析所提取的嘴部区域中的多个子窗口以检测吐舌头。
示例16可以是示例15,其中嘴部区域检测器可以识别图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且其中,嘴部区域提取器用于至少部分地基于经识别的下巴点,嘴部左角和嘴部右角的位置,来从图像帧中提取嘴部区域。
示例17可以是示例16,其中嘴部区域提取器可以进一步对所提取的嘴部区域进行逐尺寸标准化。
示例18可以是示例15-17中任一个,其中舌头分类器可以分析多个子窗口的多个吐舌头特征,包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
示例19可以是示例15-18中任一个,其中吐舌头检测器可以进一步包括时间滤波器,用于接收舌头分类器针对多个图像帧的多个结果,并且在从舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
示例20可以是一种用于动画化渲染化身的方法,包括通过计算设备接收多个图像帧;以及检测一个或多个图像帧中的吐舌头状态。检测可以包括:识别多个面部界标的位置,该面部界标与在图像帧中识别嘴部相关联;至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域;以及分析所提取的嘴部区域内的多个子窗口以检测吐舌头。
示例21可以是示例20,其中识别可以包括识别图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且其中,提取可以包括至少部分地基于经识别的下巴点,嘴部左角和嘴部右角的位置,来从图像帧中提取嘴部区域。
示例22可以是示例21,其中提取可以进一步包括对所提取的嘴部区域进行逐尺寸标准化。
示例23可以是示例20-22中任一个,其中分析可以包括分析多个子窗口的多个吐舌头特征,包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
示例24可以是示例20-23中任一个,进一步包括对针对多个图像帧的多个分析结果进行时间滤波,并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
示例25可以是一种用于动画化和渲染多个化身的方法,包括:通过计算设备接收视频,语音或文本输入;通过计算设备至少部分地基于所接收的视频,语音或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情;通过计算设备根据多个动画化消息来驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身;以及通过计算设备捕获多个化身的动画化和渲染,以至少部分地基于所捕获的动画化和渲染来生成视频。
示例26可以是示例25,其中接收可以包括接收具有多个图像帧的视频输入;并且生成包括分析图像帧中面部界标或头部姿势,并且至少部分地基于图像帧中面部界标或头部姿势,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括化身的眼部和嘴部运动或头部姿势。
示例27可以是示例25或26,其中接收可以包括接收音频输入;并且生成包括至少分析音频输入的音量或音节,并且至少部分地基于音频输入的音量或音节,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
示例28可以是示例25,26或27,其中接收可以包括接收文本输入;并且生成包括分析文本输入的语义,并且至少部分地基于文本输入的语义,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
示例29可以是示例25-28中任一个,其中捕获可以包括捕获多个化身的动画化和渲染的多个图像帧,并且至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。
示例30可以是示例26,其中分析可以包括检测图像帧中的吐舌头状态。
示例31可以是示例30,其中检测吐舌头状态可以包括:识别多个面部界标的位置,该面部界标与在图像帧中识别嘴部相关联;至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域,并且分析所提取的嘴部区域内的多个子窗口以检测吐舌头。
示例32可以是示例31,其中识别可以包括识别图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且至少部分地基于经识别的下巴点,嘴部左角和嘴部右角的位置从图像帧中提取嘴部区域。
示例33可以是示例32,其中提取包括对所提取的嘴部区域进行逐尺寸标准化。
示例34可以是示例31-33中任一个,其中分析多个子窗口包括分析多个子窗口的多个吐舌头特征,包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
示例35可以是示例30-34中任一个,进一步包括对针对多个图像帧的多个舌头检测的结果进行时间滤波,并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
示例36可以是至少一种计算机可读介质,具有响应于通过计算设备执行指令,而使计算设备:接收多个图像帧;以及检测一个或多个图像帧中的吐舌头状态。检测可以包括:识别多个面部界标的位置,该面部界标与在图像帧中识别嘴部相关联;至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域;以及分析所提取的嘴部区域内的多个子窗口以检测吐舌头。
示例37可以是示例36,其中识别可以包括识别图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且其中,提取包括至少部分地基于经识别的下巴点,嘴部左角和嘴部右角的位置,从图像帧中提取嘴部区域。
示例38可以是示例37,其中提取可以进一步包括对所提取的嘴部区域进行逐尺寸标准化。
示例39可以是示例36-38中任一个,其中分析可以包括分析多个子窗口的多个吐舌头特征,包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
示例40可以是示例36-39中任一个,其中可以进一步使计算设备对针对多个图像帧的多个分析结果进行时间滤波,并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
示例41可以是至少一种计算机可读介质,具有响应于通过计算设备执行指令,而使计算设备:接收视频,语音或文本输入;至少部分地基于所接收的视频,语音或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情;根据多个动画化消息来驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身;以及捕获多个化身的动画化和渲染,以至少部分地基于所捕获的动画化和渲染来生成视频。
示例42可以是示例41,其中接收可以包括接收具有多个图像帧的视频输入;并且生成包括分析图像帧中面部界标或头部姿势,并且至少部分地基于图像帧中面部界标或头部姿势,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括化身的眼部和嘴部运动或头部姿势。
示例43可以是示例41或42,其中接收可以包括接收音频输入;并且生成包括至少分析音频输入的音量或音节,并且至少部分地基于音频输入的音量或音节,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
示例44可以是示例41,42或43,其中接收可以包括接收文本输入;并且生成包括分析文本输入的语义,并且至少部分地基于文本输入的语义,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
示例45可以是示例41-44中任一个,其中捕获可以包括捕获多个化身的动画化和渲染的多个图像帧,并且至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。
示例46可以是示例42-45中任一个,其中分析可以包括检测图像帧中的吐舌头状态。
示例47可以是示例46,其中检测吐舌头状态可以包括:识别多个面部界标的位置,该面部界标与在图像帧中识别嘴部相关联;至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域,以及分析所提取的嘴部区域内的多个子窗口以检测吐舌头。
示例48可以是示例47,其中识别可以包括识别图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且至少部分地基于经识别的下巴点,嘴部左角和嘴部右角的位置从图像帧中提取嘴部区域。
示例49可以是示例48,其中提取可以包括对所提取的嘴部区域进行逐尺寸标准化。
示例50可以是示例47-49中任一个,其中分析多个子窗口可以包括分析多个子窗口的多个吐舌头特征,包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
示例51可以是示例46-50中任一个,其中分析可以进一步包括对针对多个图像帧的多个舌头检测的结果进行时间滤波,并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
示例51可以是一种用于动画化渲染化身的装置,包括:一个或多个处理器;以及吐舌头检测构件,用于检测图像帧中的吐舌头状态。吐舌头检测构件可以包括:嘴部区域检测构件,用于识别多个面部界标的位置,该面部界标与在图像帧中识别嘴部相关联;嘴部区域提取构件,用于至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域;以及舌头分类构件,用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头。
示例53可以是示例52,其中嘴部区域检测构件可以包括用于识别图像帧中的下巴点,嘴部左角和嘴部右角的位置的构件,并且其中,嘴部区域提取构件包括用于至少部分地基于经识别的下巴点,嘴部左角和嘴部右角的位置,来从图像帧中提取嘴部区域的构件。
示例54可以是示例53,其中嘴部区域提取构件可以包括用于对所提取的嘴部区域进行逐尺寸标准化的构件。
示例55可以是示例52-54中任一个,其中舌头分类构件可以包括用于分析多个子窗口的多个吐舌头特征的构件,该多个吐舌头特征包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
示例56可以是示例52-55中任一个,其中吐舌头检测构件可以包括用于针对多个图像帧对舌头分类构件的多个结果进行时间滤波,并且在从舌头分类构件连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知的构件。
示例57可以是一种用于动画化和渲染多个化身的装置,包括:面部表情构件,用于接收视频,语音或文本输入,并且至少部分地基于所接收的视频,语音或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情;动画化渲染构件,用于接收一个或多个动画化消息,以及根据多个动画化消息来驱动多个化身模型,以使用所描绘的面部表情来动画化和渲染多个化身;以及视频生成构件,用于捕获多个化身的动画化和渲染,并且至少部分地基于所捕获的动画化和渲染来生成视频。
示例58可以是示例57,其中面部表情构件可以包括视频驱动面部表情构件,用于接收具有多个图像帧的视频输入,分析图像帧中面部界标或头部姿势,并且至少部分地基于图像帧中面部界标或头部姿势,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括化身的眼部和嘴部运动或头部姿势。
示例59可以是示例57或58,其中面部表情构件可以包括语音识别面部表情构件,用于接收音频输入,至少分析音频输入的音量或音节,并且至少部分地基于音频输入的音量或音节,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
示例60可以是示例57,58或59,其中面部表情构件可以包括基于文本的面部表情构件,用于接收文本输入,分析文本输入的语义,并且至少部分地基于文本输入的语义,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
示例61可以是示例57-60中任一个,其中,视频生成构件可以包括用于捕获多个化身的动画化和渲染的多个图像帧的构件,以至少部分地基于所捕获的动画化和渲染的图像帧来生成视频。
示例62可以是示例57-61中任一个,其中面部表情构件可以包括视频驱动面部表情构件,视频驱动面部表情构件包括用于检测图像帧中吐舌头状态的吐舌头检测构件。
示例63可以是示例62,其中吐舌头检测构件可以包括:嘴部区域检测构件,用于识别多个面部界标的位置,该面部界标与在图像帧中识别嘴部相关联;嘴部区域提取构件,用于至少部分地基于所识别的多个面部界标的位置,从图像帧中提取嘴部区域;以及舌头分类构件,用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头。
示例64可以是示例63,其中嘴部区域检测构件可以包括用于识别图像帧中的下巴点,嘴部左角和嘴部右角的位置的构件,并且其中,嘴部区域提取器用于至少部分地基于经识别的下巴点,嘴部左角和嘴部右角的位置,来从图像帧中提取嘴部区域。
示例65可以是示例64,其中嘴部区域提取构件可以包括用于对所提取的嘴部区域进行逐尺寸标准化的构件。
示例66可以是示例63-65中任一个,其中舌头分类构件包括用于分析多个子窗口的多个吐舌头特征的构件,该多个吐舌头特征包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
示例67可以是示例63-66中任一个,其中吐舌头检测构件可以进一步包括时间滤波构件,用于接收舌头分类构件针对多个图像帧的多个结果,并且在从舌头分类构件连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
对于本领域技术人员而言将会清楚的是,在不脱离本公开的精神或范围的情况下,能够在公开的设备和关联的方法的公开的实施例中做出各种修正和变化。因此,假如所述修正和变化落在任何权利要求及其等同物的范围内,则旨在本公开包括以上公开的实施例的修正和变化。

Claims (19)

1.一种用于动画化渲染化身的装置,包括:
一个或多个处理器;以及
吐舌头检测器,将由所述一个或多个处理器操作该吐舌头检测器以检测图像帧中的吐舌头状态,包括
嘴部区域检测器,用于识别多个面部界标的位置,该面部界标与在所述图像帧中识别嘴部相关联,
嘴部区域提取器,用于至少部分地基于所识别的多个面部界标的位置,从所述图像帧中提取嘴部区域,以及
舌头分类器,用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头,
所述装置还包括:
一个或多个面部表情引擎,用于接收视频,语音或文本输入,并且至少部分地基于所接收的视频,语音或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情,其中,所述一个或多个面部表情引擎包括视频驱动面部表情引擎,所述视频驱动面部表情包括用于检测图像帧中的吐舌头状态的吐舌头检测器;
动画化渲染引擎,与所述一个或多个面部表情引擎耦合,以接收所述一个或多个动画化消息,以及根据所述多个动画化消息来驱动多个化身模型,以使用所描绘的所述面部表情来动画化和渲染所述多个化身;以及
视频生成器,与所述动画化渲染引擎耦合,以捕获所述多个化身的动画化和渲染,并且至少部分地基于所捕获的动画化和渲染来生成视频。
2.根据权利要求1所述的装置,其中,所述嘴部区域检测器用于识别所述图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且其中,所述嘴部区域提取器用于至少部分地基于经识别的所述下巴点,嘴部左角和嘴部右角的位置,来从所述图像帧中提取所述嘴部区域。
3.根据权利要求2所述的装置,其中,所述嘴部区域提取器用于进一步对所提取的嘴部区域进行逐尺寸标准化。
4.根据权利要求1所述的装置,其中,所述舌头分类器用于分析多个子窗口的多个吐舌头特征,所述多个吐舌头特征包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
5.根据权利要求1-4中任意一项所述的装置,其中,所述吐舌头检测器进一步包括时间滤波器,所述时间滤波器用于接收所述舌头分类器针对多个图像帧的多个结果,并且在从所述舌头分类器连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
6.根据权利要求1所述的装置,其中,所述视频驱动面部表情引擎用于分析所述图像帧中的面部界标或头部姿势,并且至少部分地基于图像帧中的面部界标或头部姿势,来生成具有面部表情参数的所述多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括化身的眼部和嘴部运动或头部姿势。
7.根据权利要求1所述的装置,其中,所述一个或多个面部表情引擎包括语音识别面部表情引擎,所述语音识别面部表情引擎用于至少接收音频输入,分析音频输入的音量或音节,并且至少部分地基于所述音频输入的音量或音节,来生成具有面部表情参数的所述多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
8.根据权利要求1所述的装置,其中,所述一个或多个面部表情引擎包括基于文本的面部表情引擎,所述基于文本的面部表情引擎用于接收文本输入,分析文本输入的语义,并且至少部分地基于所述文本输入的语义,来生成具有面部表情参数的多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括多个化身的嘴部运动。
9.根据权利要求1所述的装置,其中,所述视频生成器用于捕获所述多个化身的动画化和渲染的多个图像帧,并且至少部分地基于所捕获的动画化和渲染的所述图像帧来生成视频。
10.一种用于动画化渲染化身的方法,包括:
通过计算设备接收多个图像帧;以及
检测一个或多个所述图像帧中的吐舌头状态,包括:
识别多个面部界标的位置,该面部界标与在所述图像帧中识别嘴部相关联,
至少部分地基于所识别的多个面部界标的位置,从所述图像帧中提取嘴部区域,
分析所提取的嘴部区域内的多个子窗口以检测吐舌头,
所述方法还包括:
接收视频,语音或文本输入,并且至少部分地基于所接收的视频,语音或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情,其中,所述一个或多个面部表情引擎包括视频驱动面部表情引擎,所述视频驱动面部表情包括用于检测图像帧中的吐舌头状态的吐舌头检测器;
接收所述一个或多个动画化消息,以及根据所述多个动画化消息来驱动多个化身模型,以使用所描绘的所述面部表情来动画化和渲染所述多个化身;以及
捕获所述多个化身的动画化和渲染,并且至少部分地基于所捕获的动画化和渲染来生成视频。
11.根据权利要求10所述的方法,其中,识别包括识别所述图像帧中的下巴点,嘴部左角和嘴部右角的位置,并且其中,提取包括至少部分地基于经识别的所述下巴点,嘴部左角和嘴部右角的位置,从所述图像帧中提取所述嘴部区域;以及对所提取的嘴部区域进行逐尺寸标准化。
12.根据权利要求10或11所述的方法,进一步包括对针对多个图像帧的多个分析结果进行时间滤波,并且在连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知。
13.根据权利要求10所述的方法,还包括:
通过所述计算设备至少部分地基于所接收的图像帧来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情;
通过所述计算设备根据所述多个动画化消息来驱动多个化身模型,以使用所描绘的所述面部表情来动画化和渲染所述多个化身;以及
通过所述计算设备捕获所述多个化身的动画化和渲染,以至少部分地基于所捕获的动画化和渲染来生成视频。
14.根据权利要求13所述的方法,其中,接收包括接收具有多个图像帧的视频输入;并且生成包括分析所述图像帧中的面部界标或头部姿势,并且至少部分地基于图像帧中的面部界标或头部姿势,来生成具有面部表情参数的所述多个动画化消息的至少一个子集,该面部表情参数描绘多个化身的面部表情,该面部表情包括化身的眼部和嘴部运动或头部姿势。
15.至少一种计算机可读介质,具有响应于通过计算设备执行指令,而使所述计算设备执行权利要求10-14中任意一项所述的方法的指令。
16.一种用于动画化渲染化身的装置,包括:
一个或多个处理器;以及
吐舌头检测构件,用于检测图像帧中的吐舌头状态,包括
嘴部区域检测构件,用于识别多个面部界标的位置,该面部界标与在所述图像帧中识别嘴部相关联,
嘴部区域提取构件,用于至少部分地基于所识别的多个面部界标的位置,从所述图像帧中提取嘴部区域,以及
舌头分类构件,用于分析所提取的嘴部区域内的多个子窗口以检测吐舌头,
所述装置还包括:
面部表情构件,用于接收视频,语音或文本输入,并且至少部分地基于所接收的视频,语音或文本输入来生成具有面部表情参数的多个动画化消息,该面部表情参数描绘多个化身的面部表情,其中,所述面部表情构件包括视频驱动面部表情构件,所述视频驱动面部表情构件包括用于检测图像帧中吐舌头状态的吐舌头检测构件;
动画化渲染构件,用于接收一个或多个动画化消息,以及根据所述多个动画化消息来驱动多个化身模型,以使用所描绘的所述面部表情来动画化和渲染所述多个化身;以及
视频生成构件,用于捕获所述多个化身的动画化和渲染,并且至少部分地基于所捕获的动画化和渲染来生成视频。
17.根据权利要求16所述的装置,其中,所述嘴部区域检测构件包括用于识别所述图像帧中的下巴点,嘴部左角和嘴部右角的位置的构件,并且其中,所述嘴部区域提取构件包括用于至少部分地基于经识别的所述下巴点,嘴部左角和嘴部右角的位置,从所述图像帧中提取所述嘴部区域的构件。
18.根据权利要求16所述的装置,其中,所述舌头分类构件包括用于分析多个子窗口的多个吐舌头特征的构件,所述多个吐舌头特征包括类哈尔特征,梯度直方图特征,梯度特征,或求和梯度特征。
19.根据权利要求16所述的装置,其中,所述吐舌头检测构件包括用于对舌头分类构件针对多个图像帧的多个结果进行时间滤波,以及在从所述舌头分类构件连续接收指示着多个连续图像帧的吐舌头检测的多个结果时,输出吐舌头检测的通知的构件。
CN201480082502.1A 2014-11-05 2014-11-05 化身视频装置和方法 Active CN107004287B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/090327 WO2016070354A1 (en) 2014-11-05 2014-11-05 Avatar video apparatus and method

Publications (2)

Publication Number Publication Date
CN107004287A CN107004287A (zh) 2017-08-01
CN107004287B true CN107004287B (zh) 2020-10-23

Family

ID=55908373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480082502.1A Active CN107004287B (zh) 2014-11-05 2014-11-05 化身视频装置和方法

Country Status (4)

Country Link
US (1) US9898849B2 (zh)
EP (2) EP3614304A1 (zh)
CN (1) CN107004287B (zh)
WO (1) WO2016070354A1 (zh)

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8584031B2 (en) 2008-11-19 2013-11-12 Apple Inc. Portable touch screen device, method, and graphical user interface for using emoji characters
US9105014B2 (en) 2009-02-03 2015-08-11 International Business Machines Corporation Interactive avatar in messaging environment
US10155168B2 (en) 2012-05-08 2018-12-18 Snap Inc. System and method for adaptable avatars
US9928874B2 (en) 2014-02-05 2018-03-27 Snap Inc. Method for real-time video processing involving changing features of an object in the video
EP3218879A4 (en) * 2014-11-10 2018-07-04 Intel Corporation Image capturing apparatus and method
US10721280B1 (en) * 2015-05-29 2020-07-21 Sprint Communications Company L.P. Extended mixed multimedia reality platform
US9940637B2 (en) 2015-06-05 2018-04-10 Apple Inc. User interface for loyalty accounts and private label accounts
US10445425B2 (en) 2015-09-15 2019-10-15 Apple Inc. Emoji and canned responses
US10339365B2 (en) 2016-03-31 2019-07-02 Snap Inc. Automated avatar generation
US10474353B2 (en) 2016-05-31 2019-11-12 Snap Inc. Application control using a gesture based trigger
US11580608B2 (en) 2016-06-12 2023-02-14 Apple Inc. Managing contact information for communication applications
WO2017223530A1 (en) 2016-06-23 2017-12-28 LoomAi, Inc. Systems and methods for generating computer ready animation models of a human head from captured data images
US10559111B2 (en) 2016-06-23 2020-02-11 LoomAi, Inc. Systems and methods for generating computer ready animation models of a human head from captured data images
US10360708B2 (en) 2016-06-30 2019-07-23 Snap Inc. Avatar based ideogram generation
US10855632B2 (en) 2016-07-19 2020-12-01 Snap Inc. Displaying customized electronic messaging graphics
CN109643224A (zh) 2016-08-29 2019-04-16 索尼公司 信息提示装置和信息提示方法
US10609036B1 (en) 2016-10-10 2020-03-31 Snap Inc. Social media post subscribe requests for buffer user accounts
US10198626B2 (en) 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
US10593116B2 (en) 2016-10-24 2020-03-17 Snap Inc. Augmented reality object manipulation
US10432559B2 (en) 2016-10-24 2019-10-01 Snap Inc. Generating and displaying customized avatars in electronic messages
US10950275B2 (en) 2016-11-18 2021-03-16 Facebook, Inc. Methods and systems for tracking media effects in a media effect index
US10303928B2 (en) 2016-11-29 2019-05-28 Facebook, Inc. Face detection for video calls
US10554908B2 (en) 2016-12-05 2020-02-04 Facebook, Inc. Media effect application
CN108229239B (zh) * 2016-12-09 2020-07-10 武汉斗鱼网络科技有限公司 一种图像处理的方法及装置
US10242503B2 (en) 2017-01-09 2019-03-26 Snap Inc. Surface aware lens
US11616745B2 (en) 2017-01-09 2023-03-28 Snap Inc. Contextual generation and selection of customized media content
US11145100B2 (en) * 2017-01-12 2021-10-12 The Regents Of The University Of Colorado, A Body Corporate Method and system for implementing three-dimensional facial modeling and visual speech synthesis
US10242477B1 (en) 2017-01-16 2019-03-26 Snap Inc. Coded vision system
US10951562B2 (en) 2017-01-18 2021-03-16 Snap. Inc. Customized contextual media content item generation
US10454857B1 (en) 2017-01-23 2019-10-22 Snap Inc. Customized digital avatar accessories
US11069103B1 (en) 2017-04-20 2021-07-20 Snap Inc. Customized user interface for electronic communications
US10212541B1 (en) 2017-04-27 2019-02-19 Snap Inc. Selective location-based identity communication
CN111010882B (zh) 2017-04-27 2023-11-03 斯纳普公司 在基于地图的社交媒体平台上的位置隐私关联
US11893647B2 (en) 2017-04-27 2024-02-06 Snap Inc. Location-based virtual avatars
KR20230144661A (ko) 2017-05-16 2023-10-16 애플 인크. 이모지 레코딩 및 전송
US10679428B1 (en) 2017-05-26 2020-06-09 Snap Inc. Neural network-based image stream modification
US11122094B2 (en) 2017-07-28 2021-09-14 Snap Inc. Software application manager for messaging applications
US10740959B2 (en) * 2017-09-09 2020-08-11 Apple Inc. Techniques for providing virtual light adjustments to image data
CN109561240B (zh) * 2017-09-24 2023-02-17 福希特公司 用于生成媒体资产的系统和方法
US10586368B2 (en) * 2017-10-26 2020-03-10 Snap Inc. Joint audio-video facial animation system
US10657695B2 (en) 2017-10-30 2020-05-19 Snap Inc. Animated chat presence
US11460974B1 (en) 2017-11-28 2022-10-04 Snap Inc. Content discovery refresh
KR102480767B1 (ko) 2017-11-29 2022-12-23 스냅 인코포레이티드 전자 메시징 애플리케이션에서의 그룹 스토리들
KR102387861B1 (ko) 2017-11-29 2022-04-18 스냅 인코포레이티드 전자 메시징 애플리케이션들을 위한 그래픽 렌더링
US10573349B2 (en) * 2017-12-28 2020-02-25 Facebook, Inc. Systems and methods for generating personalized emoticons and lip synching videos based on facial recognition
US10949648B1 (en) 2018-01-23 2021-03-16 Snap Inc. Region-based stabilized face tracking
US10726603B1 (en) 2018-02-28 2020-07-28 Snap Inc. Animated expressive icon
US10979752B1 (en) 2018-02-28 2021-04-13 Snap Inc. Generating media content items based on location information
US11310176B2 (en) 2018-04-13 2022-04-19 Snap Inc. Content suggestion system
WO2019204464A1 (en) 2018-04-18 2019-10-24 Snap Inc. Augmented expression system
DK201870374A1 (en) 2018-05-07 2019-12-04 Apple Inc. AVATAR CREATION USER INTERFACE
US10198845B1 (en) * 2018-05-29 2019-02-05 LoomAi, Inc. Methods and systems for animating facial expressions
CN110634174B (zh) * 2018-06-05 2023-10-10 深圳市优必选科技有限公司 一种表情动画过渡方法、系统及智能终端
CN109147745B (zh) * 2018-07-25 2020-03-10 北京达佳互联信息技术有限公司 歌曲编辑处理方法、装置、电子设备及存储介质
US10650563B2 (en) * 2018-07-26 2020-05-12 BinaryVR, Inc. Tongue position tracking for facial animation
US11074675B2 (en) 2018-07-31 2021-07-27 Snap Inc. Eye texture inpainting
US11030813B2 (en) 2018-08-30 2021-06-08 Snap Inc. Video clip object tracking
CN110874557B (zh) * 2018-09-03 2023-06-16 阿里巴巴集团控股有限公司 一种语音驱动虚拟人脸的视频生成方法以及装置
US10896534B1 (en) 2018-09-19 2021-01-19 Snap Inc. Avatar style transformation using neural networks
US10895964B1 (en) 2018-09-25 2021-01-19 Snap Inc. Interface to display shared user groups
US11189070B2 (en) 2018-09-28 2021-11-30 Snap Inc. System and method of generating targeted user lists using customizable avatar characteristics
US10904181B2 (en) 2018-09-28 2021-01-26 Snap Inc. Generating customized graphics having reactions to electronic message content
US11245658B2 (en) 2018-09-28 2022-02-08 Snap Inc. System and method of generating private notifications between users in a communication session
US10698583B2 (en) 2018-09-28 2020-06-30 Snap Inc. Collaborative achievement interface
US11103795B1 (en) 2018-10-31 2021-08-31 Snap Inc. Game drawer
US10872451B2 (en) 2018-10-31 2020-12-22 Snap Inc. 3D avatar rendering
US11176737B2 (en) 2018-11-27 2021-11-16 Snap Inc. Textured mesh building
US10902661B1 (en) 2018-11-28 2021-01-26 Snap Inc. Dynamic composite user identifier
US11199957B1 (en) 2018-11-30 2021-12-14 Snap Inc. Generating customized avatars based on location information
US10861170B1 (en) 2018-11-30 2020-12-08 Snap Inc. Efficient human pose tracking in videos
US11055514B1 (en) 2018-12-14 2021-07-06 Snap Inc. Image face manipulation
US11516173B1 (en) 2018-12-26 2022-11-29 Snap Inc. Message composition interface
US11032670B1 (en) 2019-01-14 2021-06-08 Snap Inc. Destination sharing in location sharing system
US10939246B1 (en) 2019-01-16 2021-03-02 Snap Inc. Location-based context information sharing in a messaging system
US11107261B2 (en) 2019-01-18 2021-08-31 Apple Inc. Virtual avatar animation based on facial feature movement
KR20240050468A (ko) * 2019-01-18 2024-04-18 스냅 아이엔씨 템플릿-기반 개인화 비디오 생성 시스템 및 방법
CA3127564A1 (en) * 2019-01-23 2020-07-30 Cream Digital Inc. Animation of avatar facial gestures
US11294936B1 (en) 2019-01-30 2022-04-05 Snap Inc. Adaptive spatial density based clustering
US10656797B1 (en) 2019-02-06 2020-05-19 Snap Inc. Global event-based avatar
US10984575B2 (en) 2019-02-06 2021-04-20 Snap Inc. Body pose estimation
US10936066B1 (en) 2019-02-13 2021-03-02 Snap Inc. Sleep detection in a location sharing system
US10964082B2 (en) 2019-02-26 2021-03-30 Snap Inc. Avatar based on weather
US10852918B1 (en) 2019-03-08 2020-12-01 Snap Inc. Contextual information in chat
CN109978975A (zh) * 2019-03-12 2019-07-05 深圳市商汤科技有限公司 一种动作的迁移方法及装置、计算机设备
US11868414B1 (en) 2019-03-14 2024-01-09 Snap Inc. Graph-based prediction for contact suggestion in a location sharing system
US11852554B1 (en) 2019-03-21 2023-12-26 Snap Inc. Barometer calibration in a location sharing system
US10674311B1 (en) 2019-03-28 2020-06-02 Snap Inc. Points of interest in a location sharing system
US11166123B1 (en) 2019-03-28 2021-11-02 Snap Inc. Grouped transmission of location data in a location sharing system
CN110163957A (zh) * 2019-04-26 2019-08-23 李辉 一种基于唯美人脸程序的表情生成系统
US10992619B2 (en) 2019-04-30 2021-04-27 Snap Inc. Messaging system with avatar generation
USD916809S1 (en) 2019-05-28 2021-04-20 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
USD916810S1 (en) 2019-05-28 2021-04-20 Snap Inc. Display screen or portion thereof with a graphical user interface
USD916811S1 (en) 2019-05-28 2021-04-20 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
USD916871S1 (en) 2019-05-28 2021-04-20 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
USD916872S1 (en) 2019-05-28 2021-04-20 Snap Inc. Display screen or portion thereof with a graphical user interface
US10893385B1 (en) 2019-06-07 2021-01-12 Snap Inc. Detection of a physical collision between two client devices in a location sharing system
US11188190B2 (en) 2019-06-28 2021-11-30 Snap Inc. Generating animation overlays in a communication session
US11676199B2 (en) 2019-06-28 2023-06-13 Snap Inc. Generating customizable avatar outfits
US11189098B2 (en) 2019-06-28 2021-11-30 Snap Inc. 3D object camera customization system
US11307747B2 (en) 2019-07-11 2022-04-19 Snap Inc. Edge gesture interface with smart interactions
US11551393B2 (en) 2019-07-23 2023-01-10 LoomAi, Inc. Systems and methods for animation generation
US11455081B2 (en) 2019-08-05 2022-09-27 Snap Inc. Message thread prioritization interface
US10911387B1 (en) 2019-08-12 2021-02-02 Snap Inc. Message reminder interface
CN110490956A (zh) * 2019-08-14 2019-11-22 北京金山安全软件有限公司 动效素材生成方法、装置、电子设备和存储介质
CN110531860B (zh) 2019-09-02 2020-07-24 腾讯科技(深圳)有限公司 一种基于人工智能的动画形象驱动方法和装置
US11320969B2 (en) 2019-09-16 2022-05-03 Snap Inc. Messaging system with battery level sharing
CN110598671B (zh) * 2019-09-23 2022-09-27 腾讯科技(深圳)有限公司 基于文本的虚拟形象行为控制方法、设备和介质
US11425062B2 (en) 2019-09-27 2022-08-23 Snap Inc. Recommended content viewed by friends
US11080917B2 (en) 2019-09-30 2021-08-03 Snap Inc. Dynamic parameterized user avatar stories
US11218838B2 (en) 2019-10-31 2022-01-04 Snap Inc. Focused map-based context information surfacing
US11063891B2 (en) 2019-12-03 2021-07-13 Snap Inc. Personalized avatar notification
US11128586B2 (en) 2019-12-09 2021-09-21 Snap Inc. Context sensitive avatar captions
US11036989B1 (en) 2019-12-11 2021-06-15 Snap Inc. Skeletal tracking using previous frames
US11227442B1 (en) 2019-12-19 2022-01-18 Snap Inc. 3D captions with semantic graphical elements
US11263817B1 (en) 2019-12-19 2022-03-01 Snap Inc. 3D captions with face tracking
EP3866117A4 (en) * 2019-12-26 2022-05-04 Zhejiang University VOICE CONTROLLED FACE ANIMATION GENERATION PROCESS
CN111179389B (zh) * 2019-12-26 2024-04-19 武汉西山艺创文化有限公司 三维即时演算动画制作装置及方法
US11140515B1 (en) 2019-12-30 2021-10-05 Snap Inc. Interfaces for relative device positioning
US11128715B1 (en) 2019-12-30 2021-09-21 Snap Inc. Physical friend proximity in chat
US11169658B2 (en) 2019-12-31 2021-11-09 Snap Inc. Combined map icon with action indicator
US11356720B2 (en) 2020-01-30 2022-06-07 Snap Inc. Video generation system to render frames on demand
US11284144B2 (en) 2020-01-30 2022-03-22 Snap Inc. Video generation system to render frames on demand using a fleet of GPUs
KR20220133249A (ko) 2020-01-30 2022-10-04 스냅 인코포레이티드 온 디맨드로 미디어 콘텐츠 아이템들을 생성하기 위한 시스템
US11991419B2 (en) 2020-01-30 2024-05-21 Snap Inc. Selecting avatars to be included in the video being generated on demand
US11036781B1 (en) 2020-01-30 2021-06-15 Snap Inc. Video generation system to render frames on demand using a fleet of servers
US11619501B2 (en) 2020-03-11 2023-04-04 Snap Inc. Avatar based on trip
US11217020B2 (en) 2020-03-16 2022-01-04 Snap Inc. 3D cutout image modification
US11625873B2 (en) 2020-03-30 2023-04-11 Snap Inc. Personalized media overlay recommendation
US11818286B2 (en) 2020-03-30 2023-11-14 Snap Inc. Avatar recommendation and reply
US11464319B2 (en) 2020-03-31 2022-10-11 Snap Inc. Augmented reality beauty product tutorials
US11956190B2 (en) 2020-05-08 2024-04-09 Snap Inc. Messaging system with a carousel of related entities
US11922010B2 (en) 2020-06-08 2024-03-05 Snap Inc. Providing contextual information with keyboard interface for messaging system
US11543939B2 (en) 2020-06-08 2023-01-03 Snap Inc. Encoded image based messaging system
US11356392B2 (en) 2020-06-10 2022-06-07 Snap Inc. Messaging system including an external-resource dock and drawer
US11580682B1 (en) 2020-06-30 2023-02-14 Snap Inc. Messaging system with augmented reality makeup
US11863513B2 (en) 2020-08-31 2024-01-02 Snap Inc. Media content playback and comments management
US11360733B2 (en) 2020-09-10 2022-06-14 Snap Inc. Colocated shared augmented reality without shared backend
US11470025B2 (en) 2020-09-21 2022-10-11 Snap Inc. Chats with micro sound clips
US11452939B2 (en) 2020-09-21 2022-09-27 Snap Inc. Graphical marker generation system for synchronizing users
US11910269B2 (en) 2020-09-25 2024-02-20 Snap Inc. Augmented reality content items including user avatar to share location
CN112149599B (zh) * 2020-09-29 2024-03-08 网易(杭州)网络有限公司 表情追踪方法、装置、存储介质和电子设备
US11660022B2 (en) 2020-10-27 2023-05-30 Snap Inc. Adaptive skeletal joint smoothing
US11615592B2 (en) 2020-10-27 2023-03-28 Snap Inc. Side-by-side character animation from realtime 3D body motion capture
US11734894B2 (en) 2020-11-18 2023-08-22 Snap Inc. Real-time motion transfer for prosthetic limbs
US11450051B2 (en) 2020-11-18 2022-09-20 Snap Inc. Personalized avatar real-time motion capture
US11748931B2 (en) 2020-11-18 2023-09-05 Snap Inc. Body animation sharing and remixing
CN112669424B (zh) * 2020-12-24 2024-05-31 科大讯飞股份有限公司 一种表情动画生成方法、装置、设备及存储介质
US12008811B2 (en) 2020-12-30 2024-06-11 Snap Inc. Machine learning-based selection of a representative video frame within a messaging application
US11790531B2 (en) 2021-02-24 2023-10-17 Snap Inc. Whole body segmentation
US11734959B2 (en) 2021-03-16 2023-08-22 Snap Inc. Activating hands-free mode on mirroring device
US11908243B2 (en) 2021-03-16 2024-02-20 Snap Inc. Menu hierarchy navigation on electronic mirroring devices
US11978283B2 (en) 2021-03-16 2024-05-07 Snap Inc. Mirroring device with a hands-free mode
US11809633B2 (en) 2021-03-16 2023-11-07 Snap Inc. Mirroring device with pointing based navigation
US11798201B2 (en) 2021-03-16 2023-10-24 Snap Inc. Mirroring device with whole-body outfits
US11544885B2 (en) 2021-03-19 2023-01-03 Snap Inc. Augmented reality experience based on physical items
US11562548B2 (en) 2021-03-22 2023-01-24 Snap Inc. True size eyewear in real time
CN113179449B (zh) * 2021-04-22 2022-04-12 清华珠三角研究院 语音及动作驱动图像的方法、系统、装置及存储介质
CN113194323B (zh) * 2021-04-27 2023-11-10 口碑(上海)信息技术有限公司 信息交互方法、多媒体信息互动方法以及装置
CN113223121B (zh) * 2021-04-30 2023-10-10 北京达佳互联信息技术有限公司 视频生成方法、装置、电子设备及存储介质
US20220351424A1 (en) * 2021-04-30 2022-11-03 Facebook, Inc. Audio reactive augmented reality
US11636654B2 (en) 2021-05-19 2023-04-25 Snap Inc. AR-based connected portal shopping
US11941227B2 (en) 2021-06-30 2024-03-26 Snap Inc. Hybrid search system for customizable media
US11854069B2 (en) 2021-07-16 2023-12-26 Snap Inc. Personalized try-on ads
US11908083B2 (en) 2021-08-31 2024-02-20 Snap Inc. Deforming custom mesh based on body mesh
US11983462B2 (en) 2021-08-31 2024-05-14 Snap Inc. Conversation guided augmented reality experience
US11670059B2 (en) 2021-09-01 2023-06-06 Snap Inc. Controlling interactive fashion based on body gestures
US11673054B2 (en) 2021-09-07 2023-06-13 Snap Inc. Controlling AR games on fashion items
US11663792B2 (en) 2021-09-08 2023-05-30 Snap Inc. Body fitted accessory with physics simulation
US11900506B2 (en) 2021-09-09 2024-02-13 Snap Inc. Controlling interactive fashion based on facial expressions
US11734866B2 (en) 2021-09-13 2023-08-22 Snap Inc. Controlling interactive fashion based on voice
US11798238B2 (en) 2021-09-14 2023-10-24 Snap Inc. Blending body mesh into external mesh
US11836866B2 (en) 2021-09-20 2023-12-05 Snap Inc. Deforming real-world object using an external mesh
US11636662B2 (en) 2021-09-30 2023-04-25 Snap Inc. Body normal network light and rendering control
US11983826B2 (en) 2021-09-30 2024-05-14 Snap Inc. 3D upper garment tracking
US11651572B2 (en) 2021-10-11 2023-05-16 Snap Inc. Light and rendering of garments
US11836862B2 (en) 2021-10-11 2023-12-05 Snap Inc. External mesh with vertex attributes
US11790614B2 (en) 2021-10-11 2023-10-17 Snap Inc. Inferring intent from pose and speech input
US20230115639A1 (en) * 2021-10-13 2023-04-13 Lemon Inc. System and method for dynamic profile photos
US11763481B2 (en) 2021-10-20 2023-09-19 Snap Inc. Mirror-based augmented reality experience
US11995757B2 (en) 2021-10-29 2024-05-28 Snap Inc. Customized animation from video
US11996113B2 (en) 2021-10-29 2024-05-28 Snap Inc. Voice notes with changing effects
US12020358B2 (en) 2021-10-29 2024-06-25 Snap Inc. Animated custom sticker creation
US11960784B2 (en) 2021-12-07 2024-04-16 Snap Inc. Shared augmented reality unboxing experience
US11748958B2 (en) 2021-12-07 2023-09-05 Snap Inc. Augmented reality unboxing experience
US11880947B2 (en) 2021-12-21 2024-01-23 Snap Inc. Real-time upper-body garment exchange
US11887260B2 (en) 2021-12-30 2024-01-30 Snap Inc. AR position indicator
US11928783B2 (en) 2021-12-30 2024-03-12 Snap Inc. AR position and orientation along a plane
US11823346B2 (en) 2022-01-17 2023-11-21 Snap Inc. AR body part tracking system
US11954762B2 (en) 2022-01-19 2024-04-09 Snap Inc. Object replacement system
US12002146B2 (en) 2022-03-28 2024-06-04 Snap Inc. 3D modeling based on neural light field
US12020384B2 (en) 2022-06-21 2024-06-25 Snap Inc. Integrating augmented reality experiences with other components
US12020386B2 (en) 2022-06-23 2024-06-25 Snap Inc. Applying pregenerated virtual experiences in new location
US11870745B1 (en) 2022-06-28 2024-01-09 Snap Inc. Media gallery sharing and management
US11893166B1 (en) 2022-11-08 2024-02-06 Snap Inc. User avatar movement control using an augmented reality eyewear device
CN117523051B (zh) * 2024-01-08 2024-05-07 南京硅基智能科技有限公司 基于音频生成动态图像的方法、装置、设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110813A (ja) * 2002-08-30 2004-04-08 Victor Co Of Japan Ltd 人物認証装置
JP2005148959A (ja) * 2003-11-12 2005-06-09 Kagoshima Tlo Co Ltd 意思疎通支援装置
US6919892B1 (en) * 2002-08-14 2005-07-19 Avaworks, Incorporated Photo realistic talking head creation system and method
CN1757057A (zh) * 2003-03-03 2006-04-05 美国在线服务公司 使用图形表达进行通信
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN1991982A (zh) * 2005-12-29 2007-07-04 摩托罗拉公司 一种使用语音数据激励图像的方法
CN102934144A (zh) * 2010-06-09 2013-02-13 微软公司 脸部表情的实时动画
CN103093490A (zh) * 2013-02-02 2013-05-08 浙江大学 基于单个视频摄像机的实时人脸动画方法
US8572879B2 (en) * 2012-01-02 2013-11-05 David Angeles Tiangco Firearm hammer with pivoting cocking spur
CN103514439A (zh) * 2012-06-26 2014-01-15 谷歌公司 面部识别
WO2014153689A1 (en) * 2013-03-29 2014-10-02 Intel Corporation Avatar animation, social networking and touch screen applications
CN104112117A (zh) * 2014-06-23 2014-10-22 大连民族学院 一种基于改进的局部二值模式特征的舌头动作识别方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
US6272231B1 (en) * 1998-11-06 2001-08-07 Eyematic Interfaces, Inc. Wavelet-based facial motion capture for avatar animation
US6661418B1 (en) * 2001-01-22 2003-12-09 Digital Animations Limited Character animation system
US20020194006A1 (en) * 2001-03-29 2002-12-19 Koninklijke Philips Electronics N.V. Text to visual speech system and method incorporating facial emotions
EP1326445B1 (en) * 2001-12-20 2008-01-23 Matsushita Electric Industrial Co., Ltd. Virtual television phone apparatus
KR101006191B1 (ko) * 2002-08-06 2011-01-07 윤재민 가상인격체의 감정표현과 동작구현방법
US20070168863A1 (en) * 2003-03-03 2007-07-19 Aol Llc Interacting avatars in an instant messaging communication session
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US8010474B1 (en) 2006-09-05 2011-08-30 Aol Inc. Translating paralinguisitic indicators
CN101918989B (zh) * 2007-12-07 2013-02-13 常州环视高科电子科技有限公司 带有对象跟踪和检索的视频监控系统
JP5547730B2 (ja) * 2008-07-30 2014-07-16 デジタルオプティックス・コーポレイション・ヨーロッパ・リミテッド 顔検知を用いた顔及び肌の自動美化
US20100201693A1 (en) * 2009-02-11 2010-08-12 Disney Enterprises, Inc. System and method for audience participation event with digital avatars
US20120026174A1 (en) * 2009-04-27 2012-02-02 Sonoma Data Solution, Llc Method and Apparatus for Character Animation
US20120130717A1 (en) * 2010-11-19 2012-05-24 Microsoft Corporation Real-time Animation for an Expressive Avatar
US9082235B2 (en) * 2011-07-12 2015-07-14 Microsoft Technology Licensing, Llc Using facial data for device authentication or subject identification
US9747495B2 (en) * 2012-03-06 2017-08-29 Adobe Systems Incorporated Systems and methods for creating and distributing modifiable animated video messages
CN103366782B (zh) * 2012-04-06 2014-09-10 腾讯科技(深圳)有限公司 在虚拟形象上自动播放表情的方法和装置
US9936165B2 (en) * 2012-09-06 2018-04-03 Intel Corporation System and method for avatar creation and synchronization
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US10410180B2 (en) * 2012-11-19 2019-09-10 Oath Inc. System and method for touch-based communications
CN103473801B (zh) * 2013-09-27 2016-09-14 中国科学院自动化研究所 一种基于单摄像头与运动捕捉数据的人脸表情编辑方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6919892B1 (en) * 2002-08-14 2005-07-19 Avaworks, Incorporated Photo realistic talking head creation system and method
JP2004110813A (ja) * 2002-08-30 2004-04-08 Victor Co Of Japan Ltd 人物認証装置
CN1757057A (zh) * 2003-03-03 2006-04-05 美国在线服务公司 使用图形表达进行通信
JP2005148959A (ja) * 2003-11-12 2005-06-09 Kagoshima Tlo Co Ltd 意思疎通支援装置
WO2007076278A2 (en) * 2005-12-29 2007-07-05 Motorola Inc. Method for animating a facial image using speech data
CN1991982A (zh) * 2005-12-29 2007-07-04 摩托罗拉公司 一种使用语音数据激励图像的方法
CN1971621A (zh) * 2006-11-10 2007-05-30 中国科学院计算技术研究所 语音和文本联合驱动的卡通人脸动画生成方法
CN102934144A (zh) * 2010-06-09 2013-02-13 微软公司 脸部表情的实时动画
US8572879B2 (en) * 2012-01-02 2013-11-05 David Angeles Tiangco Firearm hammer with pivoting cocking spur
CN103514439A (zh) * 2012-06-26 2014-01-15 谷歌公司 面部识别
CN103093490A (zh) * 2013-02-02 2013-05-08 浙江大学 基于单个视频摄像机的实时人脸动画方法
WO2014153689A1 (en) * 2013-03-29 2014-10-02 Intel Corporation Avatar animation, social networking and touch screen applications
CN104112117A (zh) * 2014-06-23 2014-10-22 大连民族学院 一种基于改进的局部二值模式特征的舌头动作识别方法

Also Published As

Publication number Publication date
WO2016070354A1 (en) 2016-05-12
US9898849B2 (en) 2018-02-20
EP3216008A1 (en) 2017-09-13
EP3216008A4 (en) 2018-06-27
EP3614304A1 (en) 2020-02-26
EP3216008B1 (en) 2020-02-26
CN107004287A (zh) 2017-08-01
US20160300379A1 (en) 2016-10-13

Similar Documents

Publication Publication Date Title
CN107004287B (zh) 化身视频装置和方法
US10776980B2 (en) Emotion augmented avatar animation
CN107431635B (zh) 化身面部表情和/或语音驱动的动画化
CN107430429B (zh) 化身键盘
US20160042548A1 (en) Facial expression and/or interaction driven avatar apparatus and method
US20170069124A1 (en) Avatar generation and animations
US20160300100A1 (en) Image capturing apparatus and method
EP3912159B1 (en) Text and audio-based real-time face reenactment
US10997730B2 (en) Detection of moment of perception
Suk et al. Real-time facial expression recognition on smartphones
KR20190130179A (ko) 미세한 표정변화 검출을 위한 2차원 랜드마크 기반 특징점 합성 및 표정 세기 검출 방법
CN109598206B (zh) 动态手势识别方法及装置
Sarma et al. Real-Time Indian Sign Language Recognition System using YOLOv3 Model
Buddhika et al. Smart photo editor for differently-abled people using assistive technology
Moreira et al. Fast and accurate gesture recognition based on motion shapes
Ar et al. Action recognition using random forest prediction with combined pose-based and motion-based features
Rivas et al. Coupling camera-tracked humans with a simulated virtual crowd
Brown et al. Faster upper body pose estimation and recognition using cuda
EP2618311A1 (en) A computer-implemented method and apparatus for performing a head animation
Ronfard et al. Framework to Computationally Analyze Kathakali Videos
Sarvadevabhatla et al. Adaptive facial expression recognition using inter-modal top-down context
Tusa et al. Real-Time Face Detection and Tracking Utilising OpenMP and ROS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant