CN117203675A - 用于捕获面部表情并生成网格数据的人工智能 - Google Patents

用于捕获面部表情并生成网格数据的人工智能 Download PDF

Info

Publication number
CN117203675A
CN117203675A CN202280026629.6A CN202280026629A CN117203675A CN 117203675 A CN117203675 A CN 117203675A CN 202280026629 A CN202280026629 A CN 202280026629A CN 117203675 A CN117203675 A CN 117203675A
Authority
CN
China
Prior art keywords
point cloud
data
mesh
tlvf
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280026629.6A
Other languages
English (en)
Inventor
G·韦迪格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment LLC
Original Assignee
Sony Interactive Entertainment LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment LLC filed Critical Sony Interactive Entertainment LLC
Publication of CN117203675A publication Critical patent/CN117203675A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/20Finite element generation, e.g. wire-frame surface description, tesselation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/25Image signal generators using stereoscopic image cameras using two or more image sensors with different characteristics other than in their location or field of view, e.g. having different resolutions or colour pickup characteristics; using image signals from one sensor to control the characteristics of another sensor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

提供了用于训练用于动画化游戏角色的面部表情的模型的方法和系统。该方法包括使用三维(3D)相机捕获第一人类演员的网格数据以生成第一人类演员的面部的三维(3D)深度数据。在一个实施方案中,3D深度数据被输出为与3D相机捕获的帧相对应的网格文件。该方法包括使用2D相机捕获第一人类演员的二维(2D)点云数据。在一个实施方案中,2D点云数据表示第一人类演员的面部上存在的跟踪点。在另一个实施方案中,处理2D点云数据以生成训练标签值文件(tLVF)。该方法包括与和2D点云数据相关联的tLVF在时间上协调地处理网格数据以训练模型。该模型被配置为接收从第二人类演员捕获的输入网格文件,并生成为与输入网格文件相对应的输出LVF。

Description

用于捕获面部表情并生成网格数据的人工智能
1.技术领域
本公开总体涉及动画化游戏角色的面部表情,更具体地涉及用于训练用于动画化游戏角色的面部表情的模型的方法和系统。
背景技术
2.相关技术描述
多年来,视频游戏行业发生了许多变化。特别是,与视频游戏中的面部动画相关的技术在过去几年中变得越来越复杂,导致游戏角色显得越来越逼真。如今,游戏角色可以像人脸一样表达情绪和情感,这使玩家感觉更加沉浸在游戏世界中。为此,开发人员一直在寻找开发复杂操作的方法,以改进面部动画过程,从而使该过程更加高效且耗时更少。
视频游戏行业的一个增长趋势是改进和开发独特的方式,以增强游戏角色的面部动画过程并使之更加高效。不幸的是,当前的面部动画过程既昂贵又耗时,并且需要精确的规划和指导。例如,面部动画过程可能涉及具有有助于制作动画化游戏角色的不同技能组的各种个人(例如,导演、演员、设计师、动画师等)。当前的面部动画过程可能极其耗时且昂贵。例如,动画师和设计师通过创建数千个用于动画化特定游戏角色的混合形状文件和关节文件来为面部动画过程做出贡献。混合形状文件和关节文件很难生成。动画师和设计师可能需要几个月的时间来创建动画化游戏角色的面部表情所需的混合形状文件和关节文件。不幸的是,这个过程极其耗时且昂贵。因此,当前为游戏角色制作面部动画的过程可能效率低下,这可能无法在紧张的工期下有效地实现高质量的结果。
在此背景下,产生了本公开的实施方式。
发明内容
本公开的实施方式包括与训练用于动画化游戏角色的面部表情的模型相关的方法、系统和装置。在一些实施方案中,公开了能够使用一个或多个相机捕获人类演员的面部表情以产生用于训练人工智能(AI)模型的二维(2D)点云数据和三维(3D)网格数据的方法。例如,训练所述模型可以涉及使用人类演员,该演员被指示做出由2D相机和3D相机捕获的各种面部表情,诸如喜悦、恐惧、悲伤、愤怒等。在一个实施方案中,所述2D相机和所述3D相机分别产生2D点云数据和3D网格数据,解算器使用这些数据来训练所述模型。一旦所述模型经过训练,所述模型就可以配置为接收与任何人类演员相关联的输入网格文件,这可以生成与输入网格文件相对应的输出标签值文件(OLVF)。在一个实施方案中,游戏引擎可以使用OLVF来动画化游戏角色的面部表情。因此,本文公开的方法概述了使用训练的模型来使用人类演员的输入网格文件生成OLVF的方式。因此,当需要新的面部表情来动画化游戏角色的面部表情时,可以使用任何人类演员来捕获新面部表情的输入网格文件,其通过所述模型进行处理以生成OLVF。通过这种方式,可以对游戏角色的新面部表情进行动画化,而无需获得所需面部表情的新混合形状文件和关节文件。
在一个实施方案中,提供了一种用于训练用于动画化游戏角色的面部表情的模型的方法。该方法包括使用三维(3D)相机捕获第一人类演员的网格数据以生成所述第一人类演员的面部的三维(3D)深度数据。在一个实施方案中,所述3D深度数据被输出为与所述3D相机捕获的帧相对应的网格文件。该方法包括使用2D相机捕获所述第一人类演员的二维(2D)点云数据。在一个实施方案中,所述2D点云数据表示所述第一人类演员的所述面部上存在的跟踪点。在另一个实施方案中,处理所述2D点云数据以生成训练标签值文件(tLVF)。该方法包括与和所述2D点云数据相关联的所述tLVF在时间上协调地处理所述网格数据以训练所述模型。该模型被配置为接收从第二人类演员捕获的输入网格文件,并生成为与所述输入网格文件相对应的输出LVF。
在另一个实施方案中,提供了一种用于使用三维(3D)图像捕获来生成面部表情的标签值的方法。该方法包括访问使用从人类演员捕获的输入来训练的模型。在一个实施方案中,所捕获的输入包括所述人类演员的面部的网格数据,该网格数据表示所述面部的三维(3D)深度数据。在另一个实施方案中,所述捕获的输入还包括所述人类演员的所述面部的二维(2D)点云数据。在一个实施方案中,所述2D点云数据表示所述人类演员的所述面部上存在的跟踪点,所述2D点云数据被处理以生成训练标签值文件(tLVF)。在其他实施方案中,通过在时间上协调处理所述网格数据和所述tLVF来训练所述模型,使得所述模型学习所述tLVF和所述网格数据之间的对应关系。该方法包括捕获包括第二人类演员的面部的网格数据的网格文件,该网格文件作为输入查询提供给所述模型以请求与所捕获的网格文件中的相应网格文件相对应的标签值文件(LVF)。在一个实施方案中,LVF可由游戏引擎用来动画化在由所述游戏引擎处理的游戏中呈现的游戏角色的面部表情。
根据结合附图以示例方式示出本公开原理取得的以下详细描述,本公开的其他方面和优点将变得显而易见。
附图说明
通过参考以下结合附图的描述,可以更好地理解本公开,其中:
图1示出了根据本公开的实施方式的被配置为使用分别由2D相机和3D相机捕获的2D点云数据和3D网格数据来训练模型的系统的实施方案。
图2A-图2B示出了根据本公开的实施方式的被配置为捕获演员的面部图像以生成2D点云数据的2D相机。
图2C-图2D示出了根据本公开的实施方式的被配置为捕获表示演员的面部的3D深度数据的3D网格数据的3D相机。
图3A示出了根据本公开的实施方式的被配置为接收一个或多个输入以进行处理以生成tLVF的解算器的实施方案。
图3B示出了根据本公开的实施方式的与tLVF在时间协调上处理3D网格数据以训练模型的实施方案。
图3C示出了根据本公开的实施方式的示出了由模型使用从演员捕获的输入网格文件生成的各种输出LVF的LVF表的实施方案。
图3D示出了根据本公开的实施方式的使用模型对游戏角色的面部表情进行动画化的系统的实施方案。
图4示出了根据本公开的实施方式的被配置为使用从多个演员捕获的3D网格数据和2D点云数据来训练多演员模型的系统的实施方案。
图5示出了根据本公开的实施方式的使用模型和多演员模型来生成与输入3D网格数据相对应的输出LVF的各种实施方案。
图6示出了根据本公开的实施方式的包括2D点云关键帧和过渡帧的2D点云数据的实施方案。
图7示出了根据本公开的实施方式的用于训练用于动画化游戏角色的面部表情的模型的方法。
图8示出了可以用于执行本公开的各种实施方案的各方面的示例性装置的部件。
具体实施方式
本公开的以下实施方式提供了用于训练用于动画化游戏角色的面部表情的人工智能(AI)模型的方法、系统和装置。举例来说,在一个实施方案中,使用由一个或多个相机捕获的三维(3D)网格数据和二维(2D)点云数据来训练所述模型,所述相机被配置为捕获人类演员的各种面部表情。在一个实施方案中,解算器被配置为接收所述3D网格数据、所述2D点云数据、混合形状文件和关节文件用于训练所述AI模型。在一些实施方案中,一旦所述模型被训练,所述模型就可以被配置为接收从任何人类演员捕获的输入网格文件以生成输出LVF。因此,所述生成的输出LVF可用于动画化视频游戏中的各种游戏角色的面部表情。
使用所述模型和演员的所述输入网格文件有助于以一种有效的方式动画化游戏角色的各种面部表情,因为所述模型经过训练后不再需要额外的混合形状和关节文件。例如,所述模型的训练可能涉及使用与诸如悲伤、愤怒、蔑视、厌恶和恐惧等面部情绪相对应的混合形状文件的初始集合。如果需要游戏角色表达“惊讶”的情绪,则可以将所述模型配置为生成与所述“惊讶”面部表情相关联的输出LVF,即使所述模型的训练不包括对应于“惊讶”的情绪的混合形状文件。这消除了动画师必须生成与所述“惊讶”的情绪相关联的混合形状文件的需要,这可能会减少操作成本和时间。一般而言,本文描述的方法提供了一种使用模型来动画化游戏角色的面部表情的更有效的方式,这又可以减少产生混合形状文件和关节文件所花费的总体操作成本以及时间。
举例来说,公开了一种能够训练用于动画化游戏角色的面部表情的模型的方法。该方法包括使用3D相机捕获第一人类演员的网格数据以生成所述第一人类演员的面部的3D深度数据。在一个示例中,所述3D深度数据被输出为与所述3D相机捕获的帧相对应的网格文件。在一个实施方案中,该方法还可以包括使用2D相机捕获所述第一人类演员的2D点云数据。在一个示例中,所述2D点云数据表示所述第一人类演员的所述面部上存在的跟踪点。在另一个实施方案中,处理所述2D点云数据以生成训练标签值文件(tLVF)。在另一个实施方案中,该方法可以包括与与所述2D点云数据相关联的所述tLVF在时间上协调地处理所述网格数据以训练所述模型。在一个示例中,该模型被配置为接收从第二人类演员捕获的输入网格文件,并生成为与所述输入网格文件相对应的输出LVF。然而,对于本领域的技术人员将显而易见的是,可以在没有当前描述的具体细节的一些或全部的情况下实践本公开。在其他情况下,没有详细地描述所熟知的过程操作,以免不必要地使本公开不清楚。
根据一个实施方案,公开了一种用于捕获演员的面部表情以训练用于动画化视频游戏中的游戏角色的面部表情的模型的系统。在一个实施方案中,该系统包括多个相机,其被配置为捕获演员产生的各种面部表情。在一个实施方案中,所述多个相机可以包括2D相机和3D相机。在一些实施方案中,所述2D相机和所述3D相机可以分别产生2D点云文件和3D网格数据。在一些实施方案中,解算器可以被配置为接收多个输入文件,诸如所述2D点云文件、所述3D网格数据、混合形状文件、关节文件,用于处理以训练所述模型。
在一个实施方案中,所述模型的训练可以包括解算器,该解算器被配置为使用所述混合形状文件、关节文件和各种规则来处理所述2D点云文件以理解和识别所述2D点云文件中存在的各种表情。在一些实施方案中,所述解算器被配置为生成与所述2D点云文件的每个关键帧相对应的训练标签值文件(tLVF)。在一个实施方案中,所述tLVF是描述所述2D点云文件的所述关键帧中的表情的标签。根据另一实施方案,所述模型的训练可以包括对齐操作,该对齐操作被配置为将所述3D相机捕获的所述3D网格数据与所述解算器生成的所述tLVF对齐。
在一些实施方案中,所述训练的模型可以被配置为接收从第二人类演员捕获的输入网格文件。使用所述输入网格文件,所述模型用于生成与所述输入网格文件相对应的输出LVF。在一个实施方案中,所述生成的输出LVF可用于动画化视频游戏中的游戏角色的面部表情。
考虑到以上概述,下文提供了若干示例性附图以促进对示例性实施方案的理解。
图1示出了被配置为使用分别由2D相机104a和3D相机104b捕获的2D点云数据108和3D网格数据112来训练模型132的系统的实施方案。如图1所示,在一个实施方案中,所述系统可以包括2D相机104a和3D相机104b,其被配置为分别捕获演员102的面部表情以产生所述2D点云数据108和所述3D网格数据112。在一个实施方案中,解算器114被配置为接收2D点云关键帧110、混合形状122和关节文件124以进行处理以生成训练标签值文件(tLVF)116。在一些实施方案中,该系统可以包括被配置为识别与所述tLVF 116相关联的特征的特征提取118操作和被配置为使用一个或多个分类器对特征进行分类的分类器120操作。在其他实施方案中,该系统可以包括被配置为识别与所述3D网格数据112相关联的特征的特征提取126操作和被配置为使用一个或多个分类器对特征进行分类的分类器128操作。在其他实施方案中,对齐操作130可以被配置为接收来自所述分类器120操作和所述分类器128操作的分类的特征作为输入,以将所述3D网格数据与对应的tLVF对齐。在一些实施方案中,所述模型132的训练还可以包括从所述对齐操作130接收所述对齐的3D网格数据和所述tLVF。
在一些实施方案中,在所述演员102的表演期间,所述演员可以佩戴包括所述2D相机104a和所述3D相机104b的头戴式耳机。所述演员102可以被引导做出可以由所述2D相机104a和所述3D相机104b捕获的各种面部表情、面部运动、眼睛运动、情绪、动作、姿势等。例如,可以要求演员102做出表达喜悦、悲伤、恐惧、愤怒、惊讶、厌恶、蔑视和恐慌的情绪状态的面部表情。在另一示例中,可以要求所述演员102执行各种动作,诸如呼吸、喝水、进食、吞咽、阅读等。因此,当所述演员102执行这些动作时,所述相机104可以精确地捕获所述演员面部的自然肌肉运动。
在一些实施方案中,所述2D相机104a用于捕获所述演员102的所述面部的图像帧。在一个实施方案中,点图案设置在所述演员102的面部,并且所述2D相机被配置为在所述演员表演时捕获和跟踪所述点图案。在一些实施方案中,当所述演员102行动并做出各种面部表情时,所述2D相机104a被配置为数字地跟踪所述点图案的移动并生成所述2D点云数据108。在一个实施方案中,所述2D点云数据108表示所述演员的所述面部上存在的所述跟踪点。在一些实施方案中,所述2D点云数据108可以包括表示所述捕获的图像和捕获的图像上的以单个点的X、Y和Z几何坐标表示的所述跟踪点的数据集。
在一个实施方案中,所述3D相机104b是高分辨率相机,其被配置为捕获所述演员102的所述面部的图像以生成所述演员102的所述面部的3D深度数据。在一个实施方案中,所述3D深度数据被输出为与所述3D相机104b捕获的帧相对应的网格文件。在一个实施方案中,所述3D网格数据112可以包括与所述3D相机104b捕获的所述图像帧的3D模型的结构构建相关联的网格文件。所述3D网格数据112可以包括使用X、Y和Z几何坐标中的参考点来定义所述3D模型的高度、宽度和深度的网格文件。
在一些实施方案中,所述2D点云数据108的所述2D点云关键帧110、混合形状122和关节文件124可以用作所述解算器114的输入。一般而言,所述解算器114仅处理和分析所述2D点云关键帧110而不是所述2D点云数据108的所有帧,以帮助节省带宽并减少冗余。在其他实施方案中,所述2D点云数据108的所有帧(例如,关键帧和过渡帧)可由所述解算器114处理和分析。在一个实施方案中,所述混合形状122可以由动画师或设计师创建。在一些实施方案中,所述混合形状122可以通过涉及使网格变形以实现特定形状的技术来创建。例如,动画师或设计师可以使用单个基本形状网格(例如,无表情的面部)将所述网格混合或变形为不同的面部表情,例如,撅起嘴唇、张开鼻子、闭上眼睑、扬起眉毛等。使用此方法,动画师可以混合并匹配任意数量的混合形状文件来动画化并形成游戏角色的面部表情。在一个示例中,具有撅起嘴唇的混合形状文件可以与具有皱眉的眼睛的混合形状文件组合以形成“不赞成”的面部表情。所述混合形状122可以包括可用于动画化游戏角色的不同面部表情的集合。
在一些实施方案中,所述关节文件124可以由动画师或设计师创建。所述关节文件124可以包括被构造为表示游戏角色的面部的骨骼结构的一系列骨。在一些实施方案中,所述关节文件124可用于操纵关节以实现期望的面部表情并且包括与各种面部特征相关联的运动范围。在一个示例中,所述关节文件124可以包括与所述面部的不同部分相关联的各种关节,诸如眉毛、眼睑、眼睛、两眼之间、鼻梁、嘴角、下巴前部、前额等。所述关节文件124可用于控制所述游戏角色的所述面部的各种面部表情。例如,所述嘴关节可以促进嘴角的运动以微笑和皱眉。在另一个示例中,下颌关节可以促进嘴巴的张开和闭合以表达惊讶和悲伤的情绪。
在一些实施方案中,所述解算器114被配置为接收所述2D点云关键帧110、所述混合形状122和所述关节文件124作为输入。在一个实施方案中,所述解算器114被配置为处理所记录的输入以生成tLVF 116,tLVF 116识别所述2D点云数据108的所述2D点云关键帧110或过渡帧中存在什么面部表情。在一些实施方案中,所述解算器114可以使用各种规则、混合形状122、关节文件124的组合来理解所述2D点云关键帧110中发生的情况。例如,所述2D点云关键帧110可以包括将演员的鼻子显示为皱着的演员的图像。所述解算器114可以使用规则、混合形状和关节文件来处理该关键帧,以确定演员的鼻子皱着可以推断演员正在表达“厌恶”的情绪。因此,所述解算器114可以生成对应于所述关键帧的tLVF 116,tLVF 116将所述关键帧标记为具有表达“厌恶”面部情绪的特性。在另一个实施方案中,非直接输入或缺乏输入/反馈的其他输入也可以作为所述解算器114的输入。
一般而言,所述生成的tLVF 116是描述所述2D点云关键帧110或过渡帧中存在的面部表情的标签。所述tLVF 116可以描述所述关键帧中发生的情况。在一些实施方案中,所述tLVF 116可以包括多个面部特征值。所述面部特征值的范围可以在0-1之间并且包括范围大约在50-1500个总值之间的值的总数。
在一个实施方案中,在所述解算器114生成所述tLVF 116之后,特征提取118操作被配置为识别和提取所述tLVF 116中的各种特征。在所述特征提取118操作处理并识别来自所述tLVF 116的特征之后,所述分类器120操作被配置为使用一个或多个分类器对所述特征进行分类。在一个实施方案中,使用分类算法来标记所述特征,以供所述模型132进一步细化。
在一些实施方案中,所述3D网格特征提取126操作被配置为处理所述3D网格数据112以识别和提取与所述3D网格数据112相关联的各种特征。在所述3D网格特征提取126操作处理并识别来自所述3D网格数据112的特征之后,所述3D网格分类器128操作被配置为使用一个或多个分类器对所述特征进行分类。在一些实施方案中,使用分类算法来标记所述特征,以供所述AI模型132进一步细化。
在一些实施方案中,所述对齐操作130被配置为接收分类的特征(例如,tLVF分类的特征、3D网格分类的特征)作为输入。在一个实施方案中,所述对齐操作130被配置为将所述3D网格数据与对应的tLVF对齐。例如,所述模型的训练可以包括所述对齐操作130,其被配置为将由所述3D相机104b捕获的所述3D网格数据112与由所述解算器114产生的tLVF116相关联。因此,一旦所述3D网格数据112与对应的tLVF 116正确相关,这些训练文件就可以用作所述模型132的输入,使得所述模型132可以学习所述网格数据和所述tLVF之间的适当的相关性。
在一些实施方案中,所述AI模型132被配置为接收由所述对齐操作130生成的训练文件(例如,与tLVF对齐的3D网格)作为输入。在另一个实施方案中,非直接输入或缺乏输入/反馈的其他输入也可以作为所述模型132的输入。所述模型132可以使用机器学习模型来预测针对特定输入网格文件的对应输出LVF是什么。在一些实施方案中,随着时间的推移,所述训练文件可用于训练所述模型132以识别给定输入网格文件中正在发生什么。例如,所述训练文件可以包括演员咬嘴唇的面部的3D网格,其具有指示演员焦虑的对应tLVF。因此,当输入网格文件包括演员咬嘴唇的图像时,所述模型132可以预测并生成与焦虑情绪相对应的输出LVF。
图2A-图2B示出了被配置为捕获演员102的面部图像以生成2D点云数据108的2D相机104a。在一个实施方案中,如图2A所示,演员102被示出为佩戴头戴式耳机,该耳机包括具有视点(POV)106a的2D相机104a。在一些实施方案中,所述演员102可以具有沿着所述演员102的所述面部布置的点图案202(例如,标记)。在一个实施方案中,沿着所述演员102的所述面部的情绪相关位置应用点图案202。在一个实施方案中,当所述演员102摆出姿势并执行各种动作(例如,微笑、咧嘴笑、大笑、说话、打斗等)时,所述点图案202的移动被2D相机104a数字化地跟踪,2D相机104a被配置为生成图2B所示的所述2D点云数据108。在一个实施方案中,所述2D点云数据108表示所述演员102的所述面部上存在的跟踪点。在一些实施方案中,可以使用图案匹配算法以高准确性精确地测量所述演员102的所述面部上的所述点图案202。
图2C-图2D示出了被配置为捕获表示演员102的面部的三维(3D)深度数据的3D网格数据112的3D相机104b。在一个实施方案中,所述3D深度数据可以包括与所述3D相机捕获的帧相对应的网格文件。如图2C所示,演员102被示出为佩戴头戴式耳机,该耳机包括具有POV 106b的3D相机104b。所述3D相机104b被配置为当所述演员102做出各种面部表情、姿势和动作时捕获所述演员102的所述面部表情。在一个实施方案中,如图2D所示,所述3D网格数据112可以包括多个网格文件。在一些实施方案中,由所述3D相机捕获的所述网格数据可以包括由所述3D相机104b捕获的图像的3D模型的结构构建。所述3D网格数据112可以包括使用X、Y和Z几何坐标中的参考点来定义所述3D模型的高度、宽度和深度的一个或多个网格文件。
图3A示出了被配置为接收一个或多个输入以进行处理以生成tLVF 116的解算器114的实施方案。如图3A所示,该系统包括解算器114,其被配置为接收演员102的2D点云数据108、混合形状122和关节文件124。在所述解算器114处理所述输入并生成所述tLVF 116之后,所述系统可以包括被配置为从所述tLVF 116提取特征的特征提取118操作和被配置为对所述提取的特征进行分类的分类器120操作。对所述提取的特征进行分类之后,所述系统可以包括对齐操作130,其被配置为与tLVF在时间上协调地处理所述网格数据以训练所述模型132。
在一些实施方案中,所述解算器114可以包括加强(plussing)302操作和统计人工智能(AI)304,用于处理所述2D点云数据108、混合形状122和关节文件124以生成所述tLVF116。在一个实施方案中,用于由解算器114处理的所述混合形状122和关节文件124是与常见情绪面部表情(例如,厌恶、愤怒、恐惧、悲伤和快乐)相关联的初始文件集。所述解算器114使用混合形状和关节文件的初始集来训练所述模型132。一旦使用混合形状和关节文件的初始集来训练所述模型132,则可能不需要对应于其他情绪面部表情的附加混合形状和关节文件来训练所述模型132。例如,使用对应于包括厌恶、愤怒、恐惧、悲伤和快乐的面部情绪的混合形状和关节文件来训练模型132。如果所述模型132接收并处理对应于“惊讶”情绪的输入网格文件,则所述模型132可以被配置为准确地生成对应于“惊讶”情绪的输出LVF,即使所述模型132没有使用对应于“惊讶”的面部表情的混合形状和关节文件进行训练。
在一个实施方案中,所述解算器114可以使用与所述混合形状122和关节文件124相结合的一组规则来解释所述2D点云数据108以确定在所述2D点云数据108的每个帧中发生了什么。在一些实施方案中,在确定所述2D点云数据108的每个帧中存在什么之后,所述解算器114被配置为生成针对每个帧的tLVF 116。在一些实施方案中,所述解算器114被配置为生成针对所述每个2D点云关键帧110的tLVF 116。例如,如图3A所示,所述解算器114被示出为接收并处理所述2D点云数据108、混合形状122和关节文件124以生成针对2D点云关键帧110a-110n的tLVF 116a-116b。
如图3A中所示,2D点云关键帧110a包括“愤怒”的情绪面部表情和被生成以描述所述关键帧110a中存在的所述面部表情的对应tLVF 116a。2D点云关键帧110b包括“恐惧”的情绪面部表情和被生成以描述所述关键帧110b中存在的所述面部表情的对应tLVF 116b。2D点云关键帧110c包括“悲伤”的情绪面部表情和被生成以描述所述关键帧110c中存在的所述面部表情的对应tLVF 116c。2D点云关键帧110n包括“快乐”的情绪面部表情和被生成以描述所述关键帧116n中存在的所述面部表情的对应tLVF 116n。因此,在图3A所示的示例中,所述解算器114被配置为生成针对所述2D点云关键帧110a-110n中的每一个的tLVF116。在其他实施方案中,所述解算器114可以被配置为生成针对所述2D点云数据108的每个帧的tLVF 116。
在一些实施方案中,所述加强302操作可以是可选过程,其中动画师检查所述生成的tLVF 116和对应的2D点云关键帧110并且手动调整所述tLVF和关键帧以提高其准确性和质量。例如,在所述加强302操作之后,调整可以用作对所述系统的反馈,以提高所述生成的tLVF 116的准确性和质量。在一个实施方案中,所述加强302操作可以帮助提高所述tLVF116的准确性,因为真人(例如,设计师或动画师)可能能够识别所述2D点云数据中的干扰并对所述关键帧和对应的tLVF 116进行必要的调整。例如,动画师可以修改与所述tLVF 116相关联的各种权重和值,使得其准确地反映对应的2D点云数据。
在一些实施方案中,在所述加强302操作之后,所述调整后的tLVF 116被馈送到统计AI 304操作中,其中使用统计AI来评估和学习所述调整后的tLVF 116并确定哪些tLVF116不准确。在一个实施方案中,所述统计AI 304操作学习如何解释所述调整后的tLVF 116和对应的2D点云数据。随着时间的推移,当处理所述调整后的tLVF 116及其对应的2D点云数据时,统计AI 304操作被配置为从图案推断各种趋势。例如,所述统计AI 304操作可以看到调整后的tLVF 116的图案,其中对应于演员的皱着的鼻子的值被调整为对应于“厌恶”的面部表情而不是“快乐”的面部表情。因此,当所述解算器114接收到包括皱着的鼻子的2D点云数据108时,所述解算器114和所述统计AI 304操作可以准确地将该特征识别为对应于“厌恶”的面部表情,并且能够准确地生成针对对应的2D点云帧的tLVF 116。
图3B示出了与所述tLVF 116时间协调地处理3D网格数据112以训练所述模型132的实施方案。如上所述,由所述3D相机104b捕获的所述3D网格数据112和所述tLVF 116由所述解算器114生成。在一个实施方案中,所述对齐操作130被配置为将所述3D网格数据112与对应的tLVF 116对齐,使得所述模型132学习所述网格数据与所述tLVF之间的对应关系。所述对齐过程帮助训练所述模型132,使得所述模型132可以学习在给定的网格数据和tLVF之间建立准确的相关性。
例如,如图3B所示,所述对齐操作130被示出为与所述tLVF 116在时间上协调地处理多个3D网格文件112a-112n。在一个示例中,网格文件112a在时间t2与tLVF 116a(例如,愤怒)相关,网格文件112b在时间t4与tLVF 116e(例如,蔑视)相关,网格文件112c在时间t6与tLVF 116d(例如,厌恶)相关,并且网格文件112n在时间tn与tLVF 116n(例如,惊讶)相关。因此,随着时间的推移,所述模型132学习所述网格数据和所述tLVF之间的对应关系,并且所述模型132可用于生成与任何输入网格文件相对应的LVF。
图3C示出了示出了由模型132使用从演员捕获的输入网格文件生成的各种输出LVF的LVF表306的实施方案。在一个实施方案中,所述模型132被配置为接收从任何演员捕获的输入网格文件,并生成与所述输入网格文件相对应的输出LVF。如图所示,所述LVF表306包括输入网格文件ID 307和对应的输出LVF ID 308。在一个实施方案中,每个输出LVF可以包括情绪类型310、情绪的描述312以及与演员的面部的各种面部特征(例如,面部特征1-面部特征N)相对应的面部特征值314。
如图3C中所示,每个生成的输出LVF可以具有对所述输出LVF进行分类的对应情绪类型310和描述对应的输入网格文件中的特征的描述312。例如,如图3C所示,输入网格文件(例如,IMF-5)被提供作为所述模型132的输入,并且生成输出LVF(例如,OLV-5)以对应于所述输入网格文件(例如,IMF-5)。如图所示,输出LVF(例如,OLV-5)包括与“厌恶”情绪相关联的面部表情。此外,对应于输出LVF(例如,OLV-5)的描述包括对应输入网格文件的特征的简要描述,例如,鼻子皱着、上唇上扬。
在一些实施方案中,每个输出LVF可以包括与用于捕获所述输入网格文件的所述演员的所述面部上的特征相对应的面部特征值314。在一个实施方案中,与所述输入网格文件相关联的所述面部特征值314可以包括50-1500个值。在一个示例中,值与所述演员的所述面部的不同肌肉相关联。在一些实施方案中,所述面部特征值314的范围可以是0–1。在一个实施方案中,所述面部特征值314表示描述每个输入网格文件中存在的面部上的肌肉活动的标签。例如,面部特征值‘0’可以指示与所述面部特征相关联的肌肉完全放松。相反,面部特征值‘1’可以指示与所述面部特征相关联的肌肉被最佳地激活(例如,尽可能紧张)。因此,输出LVF越详细,游戏角色的动画就越准确。所述输出LVF中提供的细节级别和值的数量可能会直接影响所述游戏角色的动画化质量,因为较高数量的值通常会产生较高质量的动画。
为了说明所述面部特征值314,在一个示例中,如图3C所示,输出LVF(例如,OLV-2)包括与“恐惧”情绪相关联的面部表情。对应的输入网格文件(例如,IMF-2)包括面部特征,诸如扬起的眉毛、扬起的上眼睑和拉伸的嘴唇。如图所示,面部特征5具有值‘1’,其对应于沿着所述演员的眉毛最接近的点。值‘1’可以指示所述演员的眉毛是紧张的并且被最佳地激活,因为该区域内的肌肉被激活使得眉毛尽可能地抬高。在另一示例中,对于输出LVF(例如,OLV-2),面部特征4具有值‘0’,其对应于接近所述演员鼻梁的点。值‘0’可以指示演员的鼻梁完全放松且不活动。
图3D示出了使用模型132对游戏角色318的面部表情进行动画化的系统的实施方案。在一个实施方案中,在用户的游戏进行期间,游戏引擎320被配置为执行一系列功能和操作。在一个实施方案中,所述游戏引擎320可以执行并渲染用户的游戏进行,其可以包括各种游戏角色和游戏场景。如图3D所示,用户的游戏进行包括示出游戏角色318使用剑的游戏场景316。基于游戏进行和所述游戏场景的上下文,所述游戏引擎320可以被配置为确定所述游戏角色318针对特定游戏场景(例如,剑战)需要“愤怒”的面部表情。因此,所述游戏引擎320向LVF文件请求324操作发送请求,并且输入查询被提交给所述模型132a-132n以请求与“愤怒”面部表情相对应的LVF。
在一些实施方案中,每个模型132a-132n与所述频游戏中的特定游戏角色相关联。因此,根据要对哪个特定游戏角色进行动画化,对应的模型被配置为生成所请求的LVF。例如,如图3D所示,由于模型132a与游戏角色318相关联,因此模型132a可用于生成游戏角色318的所述LVF。在一些实施方案中,所述系统可以包括模型数据库326。在一个实施方案中,模型数据库326可以包括与针对所述模型132a-132n中的每一个的LVF相对应的数据。在一些实施方案中,所述模型132a-132n和所述模型数据库326可以一起工作以生成和检索所请求的LVF。
在一些实施方案中,动画引擎322可以检索由对应模型生成的所述输出LVF 328。在一个实施方案中,动画引擎322被配置为确认所述输出LVF 328对应于来自所述游戏引擎320的请求。在确认所述输出LVF 328正确之后,所述动画引擎322将所述输出LVF 328传送到所述游戏引擎320,使得所述游戏引擎320可以使用所述输出LVF 328来动画化所述游戏角色318的所述面部表情。
如图3D所示,显示器330示出了所述游戏角色318的面部的放大视图。在所述游戏引擎320使用所述输出LVF 328来动画化所述游戏角色318的所述面部表情之后,所述游戏角色318表现出与“愤怒”情绪相关联的面部表情。如所述显示器330上所示,所述游戏角色318的所述面部包括与所述游戏角色的所述面部上的位置相对应的多个面部特征,例如FF1-FFn。在一些实施方案中,所述输出LVF328可以包括可以应用于所述游戏角色的所述面部特征以动画化所述“愤怒”面部表情的面部特征值。
图4示出了被配置为使用从多个演员102a-102n捕获的3D网格数据和2D点云数据来训练多演员模型408的系统的实施方案。在一个实施方案中,图4示出了演员102a-102n、训练402操作、特征提取404操作、分类器406操作以及多演员模型408。在一个实施方案中,所述演员102a-102n中的每一个可以是唯一的并且彼此不同。例如,所述演员102a-102n中的每一个可以具有不同的面部特征、身体属性、表演经验、技能水平,并且每个演员可以能够提供其他演员可能无法做出的独特表演。
在一个实施方案中,当所述演员102a-102n中的每一个做出各种动作和面部表情时,2D相机104a和3D相机104b被配置为捕获与相应演员102a-102n相关联的2D点云数据108和3D网格数据112。如上所述,在一个实施方案中,所述2D点云数据108表示所述演员102a-102n的面部上存在的跟踪点。在另一实施方案中,3D网格数据112可以包括所述演员102a-102n的所述面部的3D深度数据。
在一个实施方案中,所述训练402操作被配置为接收与所述演员中的每一个相关联的捕获2D点云数据108和3D网格数据112以进行处理以训练所述多演员模型408。在其他实施方案中,所述多演员模型408被配置为接收混合形状文件和关节文件作为输入。在一个实施方案中,所述训练402操作被配置为使用与所述混合形状和关节文件相结合的一组规则来解释与所述演员中的每一个相关联的所述2D点云数据108以生成tLVF。在一些实施方案中,所述训练402操作可以包括与所述tLVF在时间上协调地来处理所述3D网格数据以训练所述多演员模型408。例如,当所述训练402操作接收所述3D网格数据和所述生成的tLVF时,所述训练402操作将所述3D网格数据与对应的tLVF 116对齐,使得所述多演员模型408学习所述网格数据与所述tLVF之间的对应关系。
在一些实施方案中,所述系统包括特征提取404操作,其被配置为处理所述训练402操作的输出(例如,训练数据)以识别和提取与所述3D网格数据和所述tLVF相关联的特征。在所述特征提取404操作处理并识别来自所述训练402操作的特征之后,所述分类器406操作被配置为使用一个或多个分类器对所述特征进行分类。在一个实施方案中,使用分类算法来标记所述特征,以供所述多演员模型408进一步细化。
在一些实施方案中,所述多演员模型408被配置为接收训练数据分类的特征作为输入。在另一个实施方案中,非直接输入或缺乏输入/反馈的其他输入也可以作为所述多演员模型408的输入。所述多演员模型408可以使用机器学习模型来预测针对对应输入网格文件的输出LVF。例如,才华横溢的女演员的网格文件被3D相机捕获并用作所述多演员模型408的输入查询。实时地,所述多演员模型408可以生成对应于相应捕获的网格文件的输出LVF,游戏引擎使用该输出LVF来动画化视频游戏中的公主战士角色的面部表情。
图5示出了使用模型132和多演员模型408来生成与所述输入3D网格数据112相对应的输出LVF的各种实施方案。如图所示,该图示出了使用模型来生成输出LVF的三个示例(例如,502、504、506)。在一个示例(例如,502)中,所述模型132被配置为生成对应于演员102a的输入网格文件的附加LVF 508。如图所示,所述演员102a被示出为使用包括3D相机104b的头戴式耳机,该3D相机104b被配置为捕获所述演员102a的面部的3D网格数据112a。所述3D网格数据112a可以包括可以用作所述模型132的输入的网格文件。在一个实施方案中,由于使用与演员102a相关联的训练文件(例如,2D点云、3D网格数据)来训练所述模型132,因此所述模型132被配置为生成对应于所述输入网格文件的附加LVF 508。例如,所述演员102a可以被指示做出先前未捕获的附加面部表情。由于已经使用初始训练数据集来训练所述模型132,因此所述模型132被配置为接收与所述附加面部表情相对应的输入网格文件,并且可以生成与所述输入网格文件相对应的附加LVF 508。
在另一个示例(例如,504)中,所述模型132被配置为生成对应于第二演员(例如演员102b)的输入网格文件的LVF 510。如图所示,所述演员102b被示出为使用包括3D相机104b的头戴式耳机,该3D相机104b被配置为捕获所述演员102b的面部的3D网格数据112b。在该图示中,使用与演员102a(例如,第一演员)相关联的训练文件(例如,2D点云、3D网格数据)来训练所述模型132。然而,所述模型132仍可用于生成对应于演员102b(例如,第二演员)的所述输入网格文件的LVF 510。在一些实施方案中,由于没有使用与演员102b(例如,第二演员)相关联的训练文件来训练所述模型132,所以所生成的LVF 510可能不那么准确。
在又一个示例(例如,506)中,所述多演员模型408被配置为生成对应于所述第二演员(例如演员102b)的所述输入网格文件的LVF 512。在该示例中,使用与多个演员102a-102n相关联的训练文件(例如,2D点云、3D网格数据)来训练所述多演员模型408。在一些实施方案中,由于使用与多个演员102a-102n相关联的训练文件来训练多演员模型408,所以生成的LVF 512可以比使用所述模型132生成的LVF 510更准确。
图6示出了包括2D点云关键帧110a-110n和过渡帧602a-602n的2D点云数据108的实施方案。在一个实施方案中,所述系统被配置为仅处理2D点云关键帧110以生成所述tLVF,这可以帮助节省带宽并减少冗余。在其他实施方案中,所述系统被配置为还处理所述2D点云数据108的所有帧,包括所述过渡帧602。随着处理更多帧来训练所述模型132和所述多演员模型408,由所述模型生成的所述输出LVF变得更准确且更可靠。在一个实施方案中,所述过渡帧602可以包括可以被所述系统用来训练所述模型的相关数据。例如,当演员102行动并产生特定面部表情(例如,悲伤、快乐、害怕等)时,所述过渡帧602可以包括当所述演员从一个特定面部表情过渡到另一个特定面部表情时无意中做出的各种面部表情和姿势。在一个实施方案中,所述过渡帧602可以由所述系统处理,使得所述模型可以学习并理解所述过渡帧602中有什么特征。
例如,如图6所示,2D点云数据108包括多个2D点云关键帧110a-110n和过渡帧602a-602n。具体地,2D点云关键帧110a包括与指示“快乐”的面部表情相对应的特征。2D点云关键帧110b包括与指示“悲伤”的面部表情相对应的特征。2D点云关键帧110c包括与指示“惊讶”的面部表情相对应的特征。2D点云关键帧110n包括与指示“恼怒”的面部表情相对应的特征。当演员102从一种面部表情过渡到另一种面部表情时,所述过渡帧602a-602n可以包括可以被所述模型处理用于学习的相关数据。
图7示出了用于训练用于动画化游戏角色的面部表情的模型的方法。在一个实施方案中,该方法包括操作702,操作702被配置为使用3D相机104b捕获第一人类演员102a的网格数据以生成所述第一人类演员的面部的3D深度数据。在一些实施方案中,所述3D深度数据被输出为与所述3D相机捕获的帧相对应的网格文件。例如,所述第一人类演员102a可以佩戴包括多个相机的头戴式耳机,所述多个相机包括2D相机104a和3D相机104b。当所述第一人类演员102a摆出姿势并做出各种面部表情以表达各种情绪状态(例如,喜悦、悲伤、恐惧、愤怒、惊讶、厌恶、蔑视、恐慌等)时,所述3D相机104b被配置为捕获所述第一人类演员的所述面部的所述网格数据以生成3D深度数据,该数据可用于创建所述第一人类演员的所述面部的3D模型。
图7所示的方法然后流向操作704,其中该操作被配置为使用2D相机104a捕获所述第一人类演员102a的2D点云数据以进行处理以生成tLVF 116。在一些实施方案中,第一人类演员102a可以具有沿着所述演员的所述面部设置的点图案202(例如,标记)。在一个实施方案中,由所述2D相机104a捕获的所述2D点云数据表示对存在于所述演员的所述面部上的所述点图案的跟踪。因此,由于所述2D点云数据包括与所述点图案的跟踪相关的信息,因此可以在任何时间点测量和确定所述演员的所述面部特征的运动。
在一些实施方案中,操作704被配置为使用解算器生成训练标签值文件(tLVF)。在一个实施方案中,所述解算器被配置为接收所述第一人类演员102a的2D点云数据、混合形状122和关节文件124。在一些实施方案中,所述解算器可以包括与所述混合形状和关节文件一起使用的一组规则,以确定所述2D点云数据中的每个帧中发生了什么并且为每个相应帧生成tLVF。
图7中所示的方法然后流向操作708,其中该操作被配置为与和所述2D点云数据相关联的tLVF在时间上协调地处理网格数据以训练所述模型132。在一个实施方案中,所述操作708将所述网格数据与对应的tLVF对齐,使得所述模型132学习所述网格数据与所述tLVF之间的对应关系。所述对齐过程帮助训练所述模型132,使得所述模型132可以学习在给定的网格数据和LVF之间建立准确的相关性。
在一个实施方案中,在所述模型132已经被训练之后,所述模型132被配置为接收从第二人类演员102b或任何演员捕获的网格文件作为输入。使用与演员相关联的输入网格文件,所述模型132可用于生成对应于所述输入网格文件的输出LVF。因此,经训练的模型132可以简单地使用与任何演员相关联的所述输入网格文件来生成可以用于动画化游戏角色的面部表情的输出LVF。
图8示出了可以用于执行本公开的各种实施方案的各方面的示例性装置800的部件。此框图示出了装置800,所述装置可以合并或者可以为适合于实践本公开的实施方案的个人计算机、视频游戏控制台、个人数字助理、服务器或其他数字装置。装置800包括用于运行软件应用并且任选地运行操作系统的中央处理单元(CPU)802。CPU 802可由一个或多个同构或异构处理核心组成。例如,CPU 802为具有一个或多个处理核心的一个或多个通用微处理器。另外的实施方案可以使用具有微处理器架构的一个或多个CPU来实施,所述微处理器架构特别适配于高度并行且计算密集的应用,诸如处理以下操作:解释查询、识别上下文相关资源以及立即在视频游戏中实施和渲染上下文相关资源。装置800可以在玩游戏片段的玩家的本地(例如,游戏控制台),或者相对于玩家在远程(例如,后端服务器处理器),或者是在游戏云系统中使用虚拟化来向客户端远程流式传输游戏进行的许多服务器中的一个。
存储器804存储供CPU 802使用的应用和数据。存储装置806提供用于应用和数据的非易失性存储装置和其他计算机可读介质,并且可包括固定磁盘驱动器、可移除磁盘驱动器、闪存存储器装置以及CD-ROM、DVD-ROM、蓝光、HD-DVD或其他光学存储装置以及信号发射与存储介质。用户输入装置808将来自一个或多个用户的用户输入传送到装置800,所述装置的示例可以包括键盘、鼠标、操纵杆、触摸板、触摸屏、静照或视频记录器/相机、用于辨识手势的追踪装置和/或传声器。网络接口814允许装置800经由电子通信网络与其他计算机系统通信,并且可以包括在局域网和诸如互联网的广域网上的有线或无线通信。音频处理器812适配于从由CPU 802、存储器804和/或存储装置806提供的指令和/或数据生成模拟或数字音频输出。装置800的部件(包括CPU 802、存储器804、数据存储装置806、用户输入装置808、网络接口810和音频处理器812)通过一根或多根数据总线822连接。
图形子系统820还与数据总线822和装置800的部件连接。图形子系统820包括图形处理单元(GPU)816和图形存储器818。图形存储器818包括显示存储器(例如,帧缓冲器),所述显示存储器用于存储针对输出图像的每个像素的像素数据。图形存储器818可以与GPU808集成在相同的装置中,作为单独的装置与GPU 816连接,和/或在存储器804内实施。像素数据可以直接从CPU 802提供到图形存储器818。替代性地,CPU 802向GPU 816提供定义期望的输出图像的数据和/或指令,GPU 816根据所述数据和/或指令生成一个或多个输出图像的像素数据。定义期望的输出图像的数据和/或指令可存储在存储器804和/或图形存储器818中。在实施方案中,GPU 816包括用于依据限定针对场景的几何形状、照明、阴影、纹理、运动和/或相机参数的指令和数据来生成针对输出图像的像素数据的3D渲染能力。GPU816还可以包括能够执行着色器程序的一个或多个可编程执行单元。
图形子系统814周期性地从图形存储器818输出图像的像素数据,以显示在显示装置810上。显示装置810可以为能够响应于来自装置800的信号来显示视觉信息的任何装置,包括CRT、LCD、等离子体和OLED显示器。装置800可以向显示装置810提供例如模拟或数字信号。
应当注意,在广阔的地理区域上传递的访问服务(诸如提供对当前实施方案的游戏的访问)经常使用云计算。云计算是一种计算方式,其中通过互联网提供动态可扩展且通常虚拟化的资源作为服务。用户不需要成为在支持他们的“云”中的技术基础设施方面的专家。云计算可被划分为不同的服务,诸如基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。云计算服务通常提供在线的从web浏览器访问的常用应用(诸如视频游戏),而软件和数据则存储在云中的服务器上。基于计算机网络图中描绘互联网的方式,术语云被用作互联网的隐喻,并且是对其隐藏的复杂基础设施的抽象。
在一些实施方案中,游戏服务器可用于执行视频游戏玩家的持续时间信息平台的操作。通过互联网玩的大多数视频游戏都是经由与所述游戏服务器的连接来操作的。通常,游戏使用专用服务器应用,所述专用服务器应用从玩家收集数据并将其分发给其他玩家。在其他实施方案中,视频游戏可由分布式游戏引擎执行。在这些实施方案中,所述分布式游戏引擎可在多个处理实体(PE)上执行,使得每个PE执行视频游戏在其上运行的给定游戏引擎的功能片段。游戏引擎将每个处理实体简单地视为计算节点。游戏引擎通常执行一系列功能多样的操作以执行视频游戏应用以及用户体验的附加服务。例如,游戏引擎实施游戏逻辑,执行游戏计算、物理效果、几何变换、渲染、照明、阴影、音频、以及附加游戏内或游戏相关服务。附加服务可包括例如消息传送、社交实用程序、音频通信、游戏玩法重播功能、帮助功能等。虽然游戏引擎有时可在由特定服务器的管理程序虚拟化的操作系统上执行,但是在其他实施方案中,游戏引擎本身分布在多个处理实体间,该处理实体中的每一者可驻留在数据中心的不同服务器单元上。
根据此实施方案,取决于每个游戏引擎片段的需要,用于执行的相应处理实体可以为服务器单元、虚拟机或容器。例如,如果游戏引擎片段负责相机变换,则可向此特定游戏引擎片段提供与图形处理单元(GPU)相关联的虚拟机,因为它将进行大量相对简单的数学运算(例如,矩阵变换)。可向要求更少但更复杂的操作的其他游戏引擎片段提供与一个或多个更高功率中央处理单元(CPU)相关联的处理实体。
通过分布所述游戏引擎,所述游戏引擎设置有不受物理服务器单元的能力约束的弹性计算性质。替代地,在需要时,向游戏引擎提供更多或更少的计算节点以满足视频游戏的需求。从视频游戏和视频游戏玩家的角度看,跨多个计算节点分布的游戏引擎与在单个处理实体上执行的非分布式游戏引擎没有区别,因为游戏引擎管理器或监督程序分发工作负荷并无缝地整合结果以便为最终用户提供视频游戏输出分量。
用户使用客户端装置访问远程服务,客户端装置至少包括CPU、显示器和I/O。该客户端装置可以是PC、移动电话、笔记型计算机、PDA等。在一个实施方案中,在游戏服务器上执行的网络辨识客户端使用的装置类型并调整所采用的通信方法。在其他情况下,客户端装置使用诸如html的标准通信方法来通过互联网访问游戏服务器上的应用。
应理解,可以针对特定平台和特定相关联的控制器装置开发给定的视频游戏或游戏应用。然而,当经由如本文所呈现的游戏云系统使这种游戏可用时,用户可能用不同的控制器装置来访问视频游戏。例如,可能已经针对游戏控制台及其相关联的控制器开发了游戏,而用户可能正在使用键盘和鼠标从个人计算机访问游戏的基于云的版本。在这种情况下,输入参数配置可限定从用户的可用控制器装置(在这种情况下为键盘和鼠标)生成的输入到可接受以执行视频游戏的输入的映射。
在另一个示例中,用户可经由平板计算装置、触摸屏智能电话或其他触摸屏驱动的装置访问云游戏系统。在这种情况下,客户端装置和控制器装置一起集成在同一装置中,其中借助检测到的触摸屏输入/手势提供输入。对于这种装置,输入参数配置可限定与视频游戏的游戏输入相对应的特定触摸屏输入。例如,在视频游戏的运行期间,可能显示或覆盖按钮、方向键或其他类型的输入元件以指示触摸屏上用户可触摸以生成游戏输入的位置。手势(诸如在特定方向上的轻扫或具体的触摸运动)也可被检测为游戏输入。在一个实施方案中,可向用户提供指导,指示如何经由触摸屏提供用于游戏进行的输入,例如在开始视频游戏的游戏进行之前提供指导,以便使用户适应触摸屏上的控件的操作。
在一些实施方案中,客户端装置用作控制器装置的连接点。也就是说,控制器装置经由无线或有线连接与客户端装置通信以将来自控制器装置的输入发送到客户端装置。客户端装置可继而处理这些输入,然后经由网络(例如,经由诸如路由器的本地联网装置访问的网络)将输入数据传输到云游戏服务器。然而,在其他实施方案中,控制器本身可以是联网装置,具有经由网络直接将输入传送到云游戏服务器的能力,而无需首先通过客户端装置传送这样的输入。例如,控制器可连接到本地联网装置(诸如上述路由器)以向云游戏服务器发送数据和从云游戏服务器接收数据。因此,虽然可能仍要求客户端装置接收来自基于云的视频游戏的视频输出并将其渲染在本地显示器上,但是通过允许控制器通过网络直接地向游戏云服务器发送输入从而绕过客户端装置,可减少输入延时。
在一个实施方案中,联网控制器和客户端装置可被配置为将某些类型的输入直接地从控制器发送到云游戏服务器,并且经由客户端装置发送其他类型的输入。例如,其检测不依赖于控制器本身以外的任何附加硬件或处理的输入可以经由网络从控制器直接发送到云游戏服务器,从而绕过客户端装置。此类输入可包括按钮输入、操纵杆输入、嵌入式运动检测输入(例如,加速度计、磁力计、陀螺仪)等。然而,利用附加硬件或需要由客户端装置进行处理的输入可由客户端装置发送到云游戏服务器。这些可能包括从游戏环境中捕获的视频或音频,这些视频或音频可以在发送到云游戏服务器之前由客户端装置进行处理。另外,来自控制器的运动检测硬件的输入可由客户端装置结合所捕获的视频进行处理,以检测控制器的位置和运动,随后客户端装置会将所述位置和运动传送到云游戏服务器。应当理解,根据各种实施方案的控制器装置还可以从客户端装置或直接从云游戏服务器接收数据(例如,反馈数据)。
应当理解,可以使用本文所公开的各种特征将本文所定义的各种实施方案组合或组装成具体实施方式。因此,提供的示例只是一些可能的示例,而不限于可通过组合各种元件来限定更多实施方式的各种实施方式。在一些示例中,在不脱离所公开或等效实施方式的精神的情况下,一些实施方式可以包括更少的元件。
本公开的实施方案可以用包括手持式装置、微处理器系统、基于微处理器的或可编程的消费型电子产品、小型计算机、大型计算机等的各种计算机系统配置来实践。还可在分布式计算环境中实践本公开的实施方案,在所述分布式计算环境中,通过基于有线的网络或无线网络链接的远程处理装置执行任务。
尽管以具体的次序描述了方法操作,但是应当理解,可在操作之间执行其他内务操作,或者可调整操作,使得它们在稍微不同的时间发生,或者操作可分布在允许以与处理相关联的各种间隔发生处理操作的系统中,只要以期望方式执行遥测和游戏状态数据的处理来生成经修改的游戏状态即可。
一个或多个实施方案还可被制造为计算机可读介质上的计算机可读代码。计算机可读介质是可以存储数据的任何数据存储装置,该数据随后可以由计算机系统读取。计算机可读介质的示例包括硬盘驱动器、网络附接存储装置(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其他光学和非光学数据存储装置。计算机可读介质可包括分布在网络耦合的计算机系统上的计算机可读有形介质,使得以分布式方式存储和执行计算机可读代码。
在一个实施方案中,视频游戏在游戏机、个人计算机上在本地执行或者在服务器上执行。在一些情况下,视频游戏由数据中心的一个或多个服务器执行。当执行视频游戏时,视频游戏的一些实例可以是视频游戏的模拟。例如,视频游戏可由生成视频游戏的模拟的环境或服务器执行。在一些实施方案中,模拟是视频游戏的实例。在其他实施方案中,模拟可以由模拟器产生。在任一情况下,如果视频游戏被表示为模拟,则能够执行所述模拟以渲染可由用户输入交互地流式传输、执行和/或控制的交互内容。
尽管出于清楚理解的目的而略微详细地描述了前述实施方案,但将显而易见,可在所附权利要求的范围内实践某些变化和修改。因此,本发明实施方案被认为是说明性的而非限制性的,并且该实施方案不限于本文给出的细节,而是可在所附权利要求书的范围和等效范围内进行修改。

Claims (20)

1.一种用于训练用于动画化游戏角色的面部表情的模型的方法,其包括:
使用三维(3D)相机捕获第一人类演员的网格数据以生成所述第一人类演员的面部的三维(3D)深度数据,所述3D深度数据被输出为与所述3D相机捕获的帧相对应的网格文件;
使用2D相机捕获所述第一人类演员的二维(2D)点云数据,所述2D点云数据表示所述第一人类演员的所述面部上存在的跟踪点,所述2D点云数据被处理以生成训练标签值文件(tLVF);以及
与和所述2D点云数据相关联的所述tLVF在时间上协调地处理所述网格数据以训练所述模型;
其中所述模型被配置为接收从第二人类演员捕获的输入网格文件,并生成为所述输入网格文件相对应的输出LVF。
2.根据权利要求1所述的方法,其中所生成的tLVF识别所述2D点云数据中存在的面部表情。
3.根据权利要求1所述的方法,其中所述输出LVF被配置为由游戏引擎接收以动画化所述游戏角色的所述面部表情。
4.根据权利要求1所述的方法,其中所述输出LVF包括与所述第一人类演员的所述面部上的特征相对应的多个值,所述值用于动画化所述游戏角色的所述面部表情。
5.根据权利要求4所述的方法,其中所述多个值被配置为引起所述游戏角色的面部上的相应区域中的肌肉激活。
6.根据权利要求1所述的方法,其中解算器被配置为接收所述2D点云数据、混合形状文件和关节文件作为输入以进行处理以生成所述tLVF,所述解算器应用一组规则来生成所述tLVF。
7.根据权利要求6所述的方法,其中所述解算器使用统计人工智能来处理所述2D点云数据、所述混合形状文件和所述关节文件以生成所述tLVF。
8.根据权利要求1所述的方法,其中由动画师对所述tLVF进行加强以引起对所述tLVF的调整,所述调整后的tLVF由解算器接收作为反馈以提高所生成的tLVF的准确性。
9.根据权利要求1所述的方法,其中所述2D点云数据包括2D点云关键帧,对所述2D点云关键帧进行处理以生成所述tLVF。
10.根据权利要求1所述的方法,其中所述模型是多演员模型,所述多演员模型是使用来自多个人类演员的网格数据和2D点云数据来训练的。
11.根据权利要求1所述的方法,其中所述输出LVF对应于情绪类型,所述情绪类型由所述第二人类演员表达以生成所述输入网格文件。
12.根据权利要求1所述的方法,所述模型被配置为接收所述第一人类演员的附加网格文件作为输入以生成附加输出LVF。
13.根据权利要求1所述的方法,其中所述模型被配置为从所述网格数据和所述2D点云数据识别特征以对所述网格数据和所述2D点云数据的属性进行分类,所述属性用于生成与所述输入网格文件对应的所述输出LVF。
14.根据权利要求1所述的方法,其中所述第二人类演员能与所述第一人类演员相同或不同。
15.一种使用三维(3D)图像捕获生成面部表情的标签值的方法,其包括:
访问使用从第一人类演员捕获的输入进行训练的模型;
所捕获的输入包括所述第一人类演员的面部的网格数据,所述网格数据表示所述面部的三维(3D)深度数据;
所述所捕获的输入还包括所述第一人类演员的所述面部的二维(2D)点云数据,所述2D点云数据表示所述第一人类演员的所述面部上存在的跟踪点,所述2D点云数据被处理以生成训练标签值文件(tLVF);
通过在时间上协调地处理所述网格数据和所述tLVF来训练所述模型,使得所述模型学习所述tLVF和所述网格数据之间的对应关系;以及
捕获包括第二人类演员的面部的网格数据的网格文件,所述网格文件作为输入查询被提供给所述模型以请求与所捕获的网格文件中的相应网格文件相对应的标签值文件(LVF);
其中所述LVF能由游戏引擎使用以动画化在由所述游戏引擎处理的游戏中呈现的游戏角色的面部表情。
16.根据权利要求15所述的方法,其中所生成的tLVF识别所述2D点云数据中存在的面部表情。
17.根据权利要求15所述的方法,其中所述LVF包括多个值,所述多个值被配置为引起所述游戏角色的面部上相应区域中的肌肉激活。
18.根据权利要求15所述的方法,其中所述第二人类演员能与所述第一人类演员相同或不同。
19.根据权利要求15所述的方法,其中解算器被配置为接收所述2D点云数据、混合形状文件和关节文件作为输入以进行处理以生成所述tLVF,所述解算器应用一组规则来生成所述tLVF。
20.根据权利要求15所述的方法,其中所述模型是多演员模型,所述多演员模型是使用来自多个人类演员的网格数据和2D点云数据来训练的。
CN202280026629.6A 2021-04-02 2022-03-31 用于捕获面部表情并生成网格数据的人工智能 Pending CN117203675A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163170328P 2021-04-02 2021-04-02
US63/170,328 2021-04-02
PCT/US2022/022952 WO2022212786A1 (en) 2021-04-02 2022-03-31 Artificial intelligence for capturing facial expressions and generating mesh data

Publications (1)

Publication Number Publication Date
CN117203675A true CN117203675A (zh) 2023-12-08

Family

ID=81388963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280026629.6A Pending CN117203675A (zh) 2021-04-02 2022-03-31 用于捕获面部表情并生成网格数据的人工智能

Country Status (6)

Country Link
US (1) US20220327755A1 (zh)
EP (1) EP4315261A1 (zh)
JP (1) JP2024513001A (zh)
CN (1) CN117203675A (zh)
TW (1) TW202244852A (zh)
WO (1) WO2022212786A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112237739A (zh) * 2019-07-17 2021-01-19 厦门雅基软件有限公司 游戏角色渲染方法、装置、电子设备及计算机可读介质
US11960633B1 (en) * 2022-11-18 2024-04-16 Verizon Patent And Licensing Inc. Systems and methods for enabling facial browsing of a display based on movement of facial features
CN117576280B (zh) * 2023-07-12 2024-04-19 杭州雪爪文化科技有限公司 一种基于3d数字人的智能端云一体化生成方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019177870A1 (en) * 2018-03-15 2019-09-19 Magic Leap, Inc. Animating virtual avatar facial movements

Also Published As

Publication number Publication date
EP4315261A1 (en) 2024-02-07
WO2022212786A1 (en) 2022-10-06
TW202244852A (zh) 2022-11-16
JP2024513001A (ja) 2024-03-21
US20220327755A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
US11406899B2 (en) Virtual character generation from image or video data
US11532172B2 (en) Enhanced training of machine learning systems based on automatically generated realistic gameplay information
US10860838B1 (en) Universal facial expression translation and character rendering system
US11992768B2 (en) Enhanced pose generation based on generative modeling
US11836843B2 (en) Enhanced pose generation based on conditional modeling of inverse kinematics
US9741146B1 (en) Kinetic energy smoother
US20220327755A1 (en) Artificial intelligence for capturing facial expressions and generating mesh data
US11244489B2 (en) Method and system for determining identifiers for tagging video frames
US11090568B1 (en) Dynamic gameplay session content generation system
Jörg et al. Data-driven finger motion synthesis for gesturing characters
SG173496A1 (en) Method and system for rendering an entertainment animation
US20230177755A1 (en) Predicting facial expressions using character motion states
JP2023552744A (ja) ゲーム内の動的カメラアングル調整
US20220172431A1 (en) Simulated face generation for rendering 3-d models of people that do not exist
US20230025389A1 (en) Route generation system within a virtual environment of a game application
US20230063681A1 (en) Dynamic augmentation of stimuli based on profile of user
US11417042B2 (en) Animating body language for avatars
US20220319088A1 (en) Facial capture artificial intelligence for training models
US20240135616A1 (en) Automated system for generation of facial animation rigs
GB2611830A (en) Content generation system and method
CN117122915A (zh) 用于在视频游戏的游戏玩法期间自动控制用户打断的方法和系统
WO2024064529A1 (en) Systems and methods for modifying user sentiment for playing a game
EP4288173A2 (en) Computer-implemented method for controlling a virtual avatar

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination