CN114255316A - 用于生成头像的介质、系统和方法 - Google Patents

用于生成头像的介质、系统和方法 Download PDF

Info

Publication number
CN114255316A
CN114255316A CN202011023458.0A CN202011023458A CN114255316A CN 114255316 A CN114255316 A CN 114255316A CN 202011023458 A CN202011023458 A CN 202011023458A CN 114255316 A CN114255316 A CN 114255316A
Authority
CN
China
Prior art keywords
image
environment
texture
illumination
lighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011023458.0A
Other languages
English (en)
Inventor
A·P·梅森
O·索尔斯
H-P·杜依科
J·S·麦卡滕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Priority to CN202011023458.0A priority Critical patent/CN114255316A/zh
Publication of CN114255316A publication Critical patent/CN114255316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/60Shadow generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/001Texturing; Colouring; Generation of texture or colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/80Shading

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及用于生成头像的介质、系统和方法。在所选择的环境中渲染头像可包括确定要由头像、头部姿态和相机角度表示的表情几何结构以及用于所选择的环境的照明表示作为到推断着色网络中的输入。推断着色网络然后可生成要用于渲染头像的面部纹理。照明表示可作为从环境自动编码器获得的照明潜变量来获得,该环境自动编码器训练具有各种照明条件的环境图像。

Description

用于生成头像的介质、系统和方法
技术领域
本公开整体涉及图像处理。更具体地,但并非以限制的方式,本公开涉及用于生成和利用机器学习以改善的着色渲染头像的技术和系统。
背景技术
表示用户并由用户控制的计算机化字符通常被称为头像。头像可采取多种形式,包括虚拟人类、动物和植物生命。一些计算机产品包括具有由用户的面部表情驱动的面部表情的头像。基于面部的头像的一个用途是通信,其中第一设备中的相机和麦克风将第一用户的音频和实时2D或3D头像传输至一个或多个第二用户,诸如其他移动设备、台式计算机、视频会议系统等。已知的现有系统往往是计算密集型的,需要高性能通用和图形处理器,并且通常对移动设备诸如智能电话或计算平板电脑不太有效。此外,现有的头像系统通常不提供传达细微差别面部表示或情绪状态的能力。
发明内容
一些实施方案提供了一种用于生成头像的方法。该方法包括:接收环境的照明的压缩表示;从相机获得捕获用户的图像;基于所述图像确定所述用户的头部姿态和所述相机的相机角度;确定表示所述用户的几何结构的一组网格潜像;将所述照明的所述压缩表示、所述头部姿态、所述相机角度和所述一组网格潜像输入到推断着色网络中;基于所述输入从推断着色网络获得纹理图,所述纹理图表示所述用户的面部在所述环境的所述照明中的纹理;以及基于所述纹理图渲染头像。
一些实施方案提供了一种计算机实现的方法。该方法包括获得多个环境图图像以及基于所述环境图图像来训练环境自动编码器。所述经训练的环境自动编码器提供一组照明潜像,所述一组照明潜像表示进入所述经训练的环境自动编码器的输入场景的图像的照明。
一些实施方案提供了一种计算机可读介质,该计算机可读介质包括可由一个或多个处理器执行以执行上述方法中任一种的计算机可读代码。
一些实施方案提供了一种计算机系统,该计算机系统包括一个或多个处理器和包括计算机可读指令的非暂态计算机可读介质。计算机可读指令可由一个或多个处理器执行以执行上述方法中的任一种。
一些实施方案提供了一种电子装置,该电子装置包括用于执行上述方法中任一种的单元。
附图说明
图1以框图形式示出了根据一个或多个实施方案的简化系统图。
图2示出了根据一个或多个实施方案的其中生成推断着色网络的流程图。
图3示出了根据一个或多个实施方案的使用照明表示的推断着色网络的训练操作。
图4示出了根据一个或多个实施方案的使用环境自动编码器的推断着色网络训练技术。
图5示出了根据一个或多个实施方案的示出虚拟对象生成的流程图。
图6示出了根据一个或多个附加实施方案的示出头像生成的流程图。
图7以框图形式示出了根据一个或多个实施方案的多功能电子设备。
图8以框图形式示出了根据一个或多个实施方案的计算机系统。
具体实施方式
本公开涉及利用基于机器学习的着色技术来生成头像的系统、方法和计算机可读介质。为了生成真实感头像,可以根据特定环境(诸如由用户选择的头像将出现在其中的环境)来照亮面部(或其他虚拟对象)上的纹理。在一个或多个实施方案中,可训练推断着色网络以映射照明值、几何表情模型、头部姿态和相机角度,以产生根据与照明值相关联的环境照明的纹理。在一个或多个实施方案中,可通过在具有各种照明变化的各种环境的图像上训练自动编码器来获得照明值,由此可确定表示场景中的照明和颜色的环境潜像。该过程可包括训练阶段和应用阶段。
根据一个或多个实施方案,第一阶段涉及基于环境图像数据训练环境自动编码器。捕获或以其他方式生成各种照明下的环境的许多图像,使得可以在环境与照明如何分布在场景中之间获得地面真实数据。在一个或多个实施方案中,可使用合成图像,其中人或对象在各种条件下被照亮。因此,环境自动编码器可提供将场景图像映射到照明潜变量的照明编码器。在一个或多个实施方案中,照明编码器可被附加到纹理解码器,该纹理解码器可被训练以利用照明部件,以及表情潜变量(来自基于用户的面部/头部的几何结构的经训练的表情自动编码器),以及关于相机角度和头部姿态的信息,以在特定照明条件下生成面部的纹理。类似地,照明编码器可被附加到纹理解码器,该纹理解码器被训练为利用照明部件以及对象信息诸如对象姿态和/或相机角度,以便在特定照明条件下生成对象的纹理。
第二阶段涉及利用经训练的网络来生成头像或对象的其他虚拟表示。例如,可以使用多遍渲染技术生成头像,其中在多遍渲染过程中将照亮的纹理图渲染为附加的遍数。又如,针对特定表情和环境的照明的纹理可基于照明的纹理图而被叠加在针对对象的3D网格上。在利用非人类对象的实施方案中,可确定纹理以覆盖对象的模型。
出于本公开的目的,自动编码器是指用于以无监督方式拟合数据的人工神经网络的类型。自动编码器的目的是学习优化形式的一组数据的表示。自动编码器被设计为在通过信息瓶颈的同时将其输入值作为输出重现,该信息瓶颈允许使用一组潜变量来描述数据集。该组潜变量是输入内容的压缩表示,解码器可从该压缩表示生成输出内容。经训练的自动编码器将具有编码器部分、解码器部分,并且潜变量表示数据的优化表示。
出于本公开的目的,术语“头像”是指真实世界物体诸如人、动物、植物、物体等的虚拟表示。真实世界物体可具有静态形状,或者可具有响应于移动或刺激而变化的形状。
在以下描述中,为了解释的目的,阐述了很多具体细节以便提供对所公开构思的彻底理解。作为该描述的一部分,本公开的附图中的一些附图以框图形式表示结构和设备,以避免模糊所公开构思的新颖方面。为了清晰起见,可能未对实际具体实施的所有特征进行描述。另外,作为本说明书的一部分,本公开的一些附图可以流程图的形式提供。任何特定流程图中的框可以特定顺序呈现。然而,应当理解,任何给定流程图的特定顺序仅用于举例说明一个实施方案。在其他实施方案中,可删除流程图中描绘的各种元件中的任何元件,或者可以不同的顺序,或甚至同时执行图示的操作序列。此外,其他实施方案可包括未被示为流程图的一部分的附加步骤。此外,本公开中所使用的语言已主要被选择用于可读性和指导性目的,并且可能没有被选择为划定或限定本发明的主题,从而诉诸于所必需的权利要求以确定此类发明主题。在本公开中提到“一个实施方案”或“实施方案”意指结合该实施方案所述的特定特征、结构或特性被包括在所公开主题的至少一个实施方案中,并且多次提到“一个实施方案”或“实施方案”不应被理解为必然地全部涉及相同的实施方案。
应当理解,在任何实际具体实施的开发中(如在任何软件和/或硬件开发项目中那样),必须要作出许多决策以实现开发者的特定目标(例如,符合与系统和商务相关的约束条件),并且这些目标在不同具体实施之间可能是不同的。还应理解,此类开发工作可能复杂且耗时,但是尽管如此,对于在受益于本公开而设计和实施图形建模系统的那些普通技术人员而言,这仍然是他们的日常工作。
参考图1,其示出了根据本公开的一个或多个实施方案的可通信地连接到客户端设备175的网络设备100的简化框图。客户端设备175可为多功能设备的一部分,诸如移动电话、平板电脑、个人数字助理、便携式音乐/视频播放器、可穿戴设备、基站、膝上型计算机、台式计算机、网络设备或任何其他电子设备。网络设备100可表示一个或多个服务器设备或其他网络计算设备,各种功能可包含在其中,或者各种功能可分布在其中。网络设备100可跨网络105连接到客户端设备175。例示性网络包括但不限于本地网络(诸如通用串行总线(USB)网络)、组织的局域网以及广域网(诸如互联网)。根据一个或多个实施方案,网络设备100用于使用环境图像来训练模型以获得环境模型。此外,网络设备100可以利用环境模型来生成用于头像的纹理,该纹理描绘了头像在所选择的环境的照明下的纹理。客户端设备175通常用于生成和/或呈现头像,该头像部分地基于所选择的环境的环境照明来渲染。应当理解,网络设备100和客户端设备175内的各种部件和功能可跨设备不同地分布,或者可跨附加设备分布。
网络设备100可包括处理器,诸如中央处理单元(CPU)110。处理器110可为片上系统诸如存在于移动设备中的那些片上系统,并且可包括一个或多个专用图形处理单元(GPU)。另外,处理器110可包括相同或不同类型的多个处理器。网络设备100还可包括存储器120。存储器120各自可包括一个或多个不同类型的存储器,其可用于结合处理器110执行设备功能。例如,存储器120可包括高速缓存、ROM、RAM或能够存储计算机可读代码的任何种类的暂态或非暂态计算机可读存储介质。存储器120可存储用于由处理器110执行的各种编程模块,包括训练模块122。网络设备100还可包括存储装置130。存储装置130可包括一个或多个非暂态计算机可读存储介质,该非暂态存储介质包括例如磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质(例如CD-ROM和数字视频光盘(DVD))以及半导体存储设备(例如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。存储装置130可包括训练数据135和模型存储装置145。
客户端设备175可为具有与相对于网络设备100所述的类似部件的电子设备。客户端设备175可包括例如存储器184和处理器182。客户端设备175可包括一个或多个相机176以及其他传感器,诸如可根据其确定场景的深度的深度传感器178。在一个或多个实施方案中,一个或多个相机176中的每个相机可为传统RGB相机或深度相机。另外,相机176可包括立体或其他多相机系统、飞行时间相机系统等,所述系统捕获可根据其确定场景的深度信息的图像。客户端设备175可允许用户与计算机生成现实(CGR)环境进行交互。有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如,类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如,具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地,头戴式系统可以被配置成接受外部不透明显示器(例如,智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器,而不是不透明显示器。透明或半透明显示器可以具有媒介,代表图像的光通过该媒介被引导到人的眼睛。显示设备180可利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中,透明或半透明显示器可被配置成选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置成将虚拟对象投影到物理环境中,例如作为全息图或在物理表面上。
根据一个或多个实施方案,训练模块122可基于来自单个对象或多个对象的图像数据来训练表情模型,诸如表情自动编码器神经网络。此外,训练模型122可基于具有各种照明特性的场景的环境图像的图像数据来训练环境模型,诸如环境自动编码器。例如,网络设备可捕获呈现一个或多个面部表情的一个或多个人的图像数据。在一个或多个实施方案中,图像数据可以是静止图像或视频图像的形式,诸如一系列帧。作为更具体的示例,网络设备可以每秒60帧的速率捕获具有不同面部表情的人的十分钟数据,尽管可以使用视频的各种帧速率和长度。根据一个或多个实施方案,特定对象可与可以多种方式预先确定的反照率图相关联,并且可获得表情解码器,该表情解码器可将表情潜值转化为几何形状。
关于环境图像,图像可从各种地理位置利用,并且可包括各种照明。在一个或多个实施方案中,可通过增强环境图像例如亮度和/或视点来生成附加的环境训练数据。环境图像可为例如由360度相机捕获的图像。环境图像数据可从相机设备捕获,该相机设备是网络设备的一部分,或者通信地耦接到网络设备。例如,图像数据可由网络设备100从远处的源接收。图像数据可被存储为例如网络设备100中的训练数据135。
在收集训练数据135时,训练模块122可通过在已知照明条件下渲染表情面部的图像并提取在每组表情训练数据(例如,与特定人相关联的训练数据)中捕获的面部肤色和面部纹理来生成合成训练数据。根据一个或多个实施方案,训练模块122可以2D纹理图的形式提取面部肤色和纹理。从纹理图中,可提取照明信息。每个对象可与一个反照率图相关联(例如,对象在完全漫射光下的脸色)。训练模块122可以去除反照率图(例如,通过减法或除法)。训练的结果可以是提供纹理图的模型。一个或多个模型可存储在模型存储装置145中。
此外,训练模块122可从环境训练数据中提取照明信息。照明信息可包括例如色彩、照明、阴影以及与场景中的照明相关的其他特性。在一个或多个实施方案中,训练模块122可生成指示照明特性的环境图。此外,在一个或多个实施方案中,训练模块可利用从环境模型获得的照明编码器,并且将其附加到与表情模型相关联的纹理解码器。结果是推断着色网络,其产生用于头像的照明和表情相关的纹理。
返回到客户端设备175,头像模块186渲染头像,例如描绘了客户端设备175的用户或与客户端设备175通信的设备的用户。在一个或多个实施方案中,头像模块186基于诸如头部姿态和相机角度的信息,连同表情几何结构的潜表示和要渲染头像的场景的照明的潜表示来渲染头像,并且利用这些值作为到推断着色网络中的输入。根据一个或多个实施方案,头部姿态、照明条件和视图矢量可基于从相机176、深度传感器178和/或作为客户端设备175的一部分的其他传感器获得的数据来确定。在一个或多个实施方案中,头像模块186可以将纹理渲染为多遍渲染技术中的附加遍。在一个或多个实施方案中,推断着色网络可提供纹理,该纹理不仅呈现将存在于环境中的面部的阴影和明亮区域,而且还包括光照皮肤的结果,诸如可能发生的皮肤下的光散射等,诸如血流表示或给定表情的褶皱表示。
虽然网络设备100被描述为包括上述众多部件,但在一个或多个实施方案中,各种部件可分布在多个设备上。具体地讲,在一个或多个实施方案中,训练模块122和头像模块186中的一个或多个可跨网络设备100和客户端设备175以不同方式分布,或者训练模块122和头像模块186中的任一者的功能可跨多个模块、部件或设备诸如网络设备分布。因此,尽管本文相对于所描绘的特定系统描述了某些调用和传输,但在一个或多个实施方案中,各种调用和传输可基于不同分布的功能而被不同地引导。另外,可使用附加部件,也可组合任何部件的功能的某些组合。
参见图2,示出了从给定序列训练网格和纹理自动编码器的流程图。虽然图2所示的各种过程以特定顺序示出,但应当理解,所述的各种过程可以不同顺序执行。此外,可能不需要执行所有各种过程来训练网格和纹理自动编码器,或获得照明表示。
根据一个或多个实施方案,网格和纹理自动编码器可从一个或多个用户的一系列图像训练,其中用户正在提供特定表情或中性图像。如本文所用,短语“表情图像”是指具有非中性表情的个体的图像(例如,快乐,悲伤,兴奋,恐惧,询问等)。因此,流程图开始于205,其中训练模块122捕获或以其它方式获得表情图像。在一个或多个实施方案中,表情图像可以作为一系列帧诸如视频被捕获,或者可以从静止图像等被捕获。表情图像可以从许多个体或单个个体获得。以举例的方式,图像可经由摄影测量或立体摄影测量系统、激光扫描器或等同的捕获方法获得。
流程图在210处继续,其中训练模块122获得表情图像和中性图像的纹理信息。纹理信息可通过从对象的反照率图提取照明分量来获得。可从用于面部表情的反照率纹理图计算照明的偏移。因此,相对于反照率图获得表情图像的纹理。
在215处,训练模块122生成纹理图,所述纹理图指示在完全照明下的对象的纹理。可以为获得表情图像的每个对象生成反照率纹理图。纹理图可以是2D图,其指示与对象的反照率纹理的色偏。根据一个或多个实施方案,中性和表情图像可以由摄影测量系统或其他受控系统捕获,以便确保在人或其他对象的面部上的均匀照明。
返回到框205,捕获中性图像和表情图像之一,流程图也在220处继续,其中训练模块122将表情图像转换为3D网格。根据一个或多个实施方案,3D网格表示当对象执行表情时对象面部的几何结构的几何表示。
根据一个或多个实施方案,可在框245处创建照明条件库。训练模块122可获得环境图像。环境图像可具有不同的亮度和颜色。在一个或多个实施方案中,环境图像可从各种地理区域获得,并且可包括各种场景。环境图像可被获得,例如360度相机,或者以其他方式可包括场景的全景视图。在一个或多个实施方案中,可通过增强所捕获的环境图像来生成用于训练数据的附加环境图像,例如以改变场景的视图,或修改场景的特性,诸如亮度或旋转。照明图可由图像创建并用于创建照明条件库。
流程图在225处继续,其中训练模块122为各种表情和照明条件渲染具有纹理的3D网格的图像。在一个或多个实施方案中,图像可由渲染软件渲染,该渲染软件可拍摄3D网格和纹理,并且根据所创建的照明条件库使用指示环境中的照明的点光源、环境图等来应用照明。除此之外或作为另外一种选择,渲染图像可在多光谱照明台中执行,其中每个光可具有其自身的颜色和强度,所述颜色和强度可被单独控制,并且可被包括在照明条件库中。例如,可利用受控环境,其中针对强度和方向专门控制对象上的照明,并且可捕获在已知照明条件下被照明的对象的图像。
流程图在框230处继续,在此处从渲染图像导出预照亮纹理图。即,与指示完全散射光下的对象的纹理的反照率纹理图相反,在框225,预照亮纹理图指示在渲染中使用的特定光照下的对象的纹理。因此,纹理图可以是2D图,其基于特定照明指示与对象的反照率纹理的色偏。
然后,在框235处,从血流纹理和反照率图训练纹理自动编码器。纹理自动编码器可用来自框230的预照亮纹理图训练,以便再现纹理图。这样做时,可基于训练来获得纹理潜像。纹理潜像可以是来自纹理潜矢量的代表性值,其以矢量形式提供血流图的压缩表示。此外,纹理解码器可响应于训练纹理自动编码器而被获得。纹理解码器可以是接受纹理潜像来再现纹理图的网络。
返回框220,一旦从表情图像获得3D网格,流程图也可以继续到框240,其中3D网格表示可以用于训练表情网格自动编码器神经网络。可以训练表情网格自动编码器来再现给定的表情网格。作为表情网格自动编码器的训练过程的一部分,网格潜像可以作为唯一网格的紧凑表示来获得。网格潜像可指代表图像中的特定用户表情的潜矢量值。具体地讲,网格潜矢量是向解码器描述如何使网格变形以适合给定表情的特定对象几何结构的代码。在一个或多个实施方案中,可以训练图像到表情的网格神经网络,以便在给定图像的情况下,可以估计潜矢量。流程图在265处继续,其中训练模块122识别表情模型。根据一个或多个实施方案,表情模型可指示处于表情状态的用户面部的特定几何结构。任选地,在一个或多个实施方案中,可将条件变量应用于表情模型以进一步细化模型的输出。示例性条件变量包括例如性别、年龄、身体质量指数、以及情绪状态。在一个或多个实施方案中,可存储特定用户的表情模型以供在运行期间使用。
根据一个或多个实施方案,可在框245处创建照明条件库。在一些实施方案中,照明条件库可由网络设备提供。照明条件库可包括具有各种特性诸如方向、亮度等的照明。
流程图还包括在250处获得照明表示。可从在框245处创建的照明条件库为所述各种照明图确定照明表示。特定环境的照明可以任何类型的照明压缩表示来表示。实施例包括球谐函数系数、球高斯系数、球小波或从经训练的自动编码器导出的照明潜像。在一个或多个实施方案中,在框255处,可训练环境自动编码器以重建图像中的照明,诸如照明条件库中的照明。因此,可识别表示照明条件的潜变量,诸如亮度和颜色。
流程图在框260处继续,其中训练照明网络以将来自框240的网格潜像、来自框250的照明表示以及其他信息诸如头部姿态和相机角度转化为纹理潜像。根据一个或多个实施方案,来自网格表情自动编码器的潜像用作小网络的输入,该小网络学习为纹理解码器输出纹理潜像。纹理潜像可被确定,因为每个图像具有可从其获得网格潜像的已知表情,以及可从其获得照明表示的已知照明。头部姿态和相机角度还可用于确定对象的特定视图以及对象与环境照明的特定空间关系。
在270处,训练模块122有效地将来自框260的照明编码器链接到来自框235的纹理解码器。在一个或多个实施方案中,纹理解码器可用作动态纹理模型,使得纹理模型可基于网格潜输入、照明潜像以及在一些实施方案中的其他特征诸如头部姿态和相机角度来估计纹理。
参见图3,示出了根据一个或多个实施方案的流程图,其中训练推断着色网络以为被照亮对象提供纹理。所呈现的示例性流程仅仅是为了描述的目的。在一个或多个实施方案中,并非所有详细描述的部件都可能是必要的,并且在一个或多个实施方案中,可利用附加的或另选的部件。
在302处,接收对应于要在其中显示特定对象的环境的环境图。环境图可与具有特定照明的场景相关联。环境图302的照明可由照明表示308表示。照明表示308可表示与场景中的照明相关的亮度、颜色和/或其他特性,并且可以是环境的照明的任何种类的紧凑型数字表示。例如,照明表示308可为球谐函数或球高斯的形式。又如,如将参考图4更详细地描述,照明表示可包括从经训练的环境自动编码器获得的照明潜变量。
在一个或多个实施方案中,照明表示308连同对象姿态310的表示一起被输入到照明编码器322中。对象姿态310可对应于针对其训练推断着色网络330的对象。姿态可表示为一组六个值,表示平移值和旋转值,或者可以是姿态的任何其他表示。根据一个或多个实施方案,对象可为刚性或非刚性对象。就刚性对象而言,刚性对象的几何结构可“烘焙成”推断着色网络,或被推断着色网络忽略,因为形状将不改变,并且纹理可简单地覆盖到对象的已知几何结构上。另选地或除此之外,对象姿态表示310可以指示对象的几何形状。
就非刚性对象而言,对象的几何结构可被包括作为对象动态形状表示318。对象动态形状表示318可包括可改变的对象的几何结构的表示。在一个或多个实施方案中,形状表示可以通过训练自动编码器在对象的各种形状上获得的潜变量的形式呈现。又如,对象动态形状表示可以是对象几何结构的另一个紧凑数字表示。
照明表示308、对象姿态310和任选地对象动态形状表示318可作为输入值350组合到照明编码器332。在一个或多个实施方案中,各种输入可相对于彼此加权或校准。例如,照明表示308可由33个值构成,而对象姿态可为6个值。组合值可被归一化以便防止各种值的过度表示或不足表示。在一个或多个实施方案中,可利用批归一化来调整或压缩输入值350的各个值。
推断着色网络330可包括附加到纹理解码器334的照明编码器332,该纹理解码器被训练为读入输入值350以产生对象纹理340。照明编码器332可将输入值350转化为纹理潜像,纹理解码器334可从纹理潜像渲染对象纹理340。根据一个或多个实施方案,对象纹理340然后可被叠加到对象的3D几何表示上以生成虚拟对象,该虚拟对象可以虚拟对象看起来被环境图302的照明照亮的方式被放置在由环境图302表示的环境中。
参考图4,描绘了根据一个或多个实施方案的流程图,其中训练推断着色网络以提供用户的表情和环境之间的映射,以及为用户提供照明的纹理。所呈现的示例性流程仅仅是为了描述的目的。在一个或多个实施方案中,并非所有详细描述的部件都可能是必要的,并且在一个或多个实施方案中,可利用附加的或另选的部件。
流程图在环境自动编码器404被训练以压缩和重新创建环境的图像时开始。这样,环境自动编码器404接受输入环境图402并重新创建输出环境图406。经训练的自动编码器的副产物之一是环境图402的压缩版本包括照明潜像408,该照明潜像包括表示输入环境图402的照明的一组值。例如,照明潜像408可表示亮度、颜色和/或与场景中的照明相关的其他特性。
该流程图还包括表情自动编码器422,该表情自动编码器422接受表示在一系列帧中呈现的面部表情的输入网格420。在一个或多个实施方案中,面部表情可通过获得与面部几何结构相关联的潜变量来确定。例如,可使用表情神经网络模型,其将表情图像数据映射到表情的表示的3D几何结构。在一个或多个实施方案中,表情自动编码器422可以被训练以重建表情的给定的3D网格。在一个或多个实施方案中,自动编码器将3D几何结构中的变量“压缩”到更少数量的表情网格潜像418,该表情网格潜像418可以表示与用户的中性面部的几何偏移或者以其他方式表示给定表情的面部的几何表示。
在一个或多个实施方案中,照明表示308连同头部姿态和相机角度410的表示一起被输入到照明编码器322中。头部姿态和相机角度可各自表示为例如一组六个值,表示平移和旋转值,或者可为头部姿态和相机角度的任何其他表示,诸如组合表示。
根据一个或多个实施方案,推断着色网络430可被训练用于独特的个体,或者可被训练以处理多个人。在推断着色网络430被训练以处理多个人的情况下,可以获得唯一地识别要为其创建头像的人的标识值445。例如,返回图2,根据一个或多个实施方案,照明网络可在来自多个人的表情图像上训练。标识值445可以指示个体的独特性,诸如特定表情如何唯一地影响面部的纹理或面部的其他特征。
照明潜像408、头部姿态和相机角度410、表情网潜像418以及任选地标识值445可以组合为到照明编码器432的输入值450。在一个或多个实施方案中,各种输入可相对于彼此加权或校准。例如,照明表示408可由33个值构成,而对象姿态可为12个值,并且表情网格潜像可为附加的28个值。组合值可被归一化以便防止各种值的过度表示或不足表示。在一个或多个实施方案中,可利用批归一化来调整或压缩输入值450的各个值。
推断着色网络430可包括附加到纹理解码器434的照明编码器432,该纹理解码器434被训练以读入输入值450,并且可包括表示用户的纹理440,该纹理440被照亮成适合于从其生成照明潜像的环境。纹理440然后可以应用于3D网格,并且所得的头像可以显示在由输入环境图402表示的环境中,并且看起来好像它是由环境图402表示的环境中的照明所照亮的。
图4的流程图被示出为图3的流程图的另选示例。然而,应当理解,各种部件可在图3和图4之间不同地布置。例如,照明表示408可替换为另一种照明表示,诸如上文相对于图3的照明表示308所述的那些。又如,表情网格潜像418可以另选地被不利用表情自动编码器的表情的几何结构的另一紧凑表示替换,诸如图3的对象动态形状表示318。
参考图5,示出了利用推断出着色网络535渲染虚拟对象的流程图。根据一个或多个实施方案,虚拟对象可以由客户端设备175的头像模块186渲染。虚拟对象可在运行中呈现,并且可呈现为例如游戏环境、混合现实应用程序等的一部分。
流程图从505处开始,其中从对象图像确定要由虚拟对象表示的对象姿态。在接收到对象图像时,头像模块186在515处执行形状表示查找。在对象为刚性对象诸如3D网格的情况下,形状表示查找可从形状的已知几何表示获得。此外,可动态地确定形状表示,如上文相对于图3所述的对象动态形状表示的情况,以表示形状在特定时间如何变形。
在530处,头像模块186确定对象的姿态。根据一个或多个实施方案,姿态可基于客户端设备175上的数据接收传感器(诸如相机176或深度传感器178)或者作为客户端设备175的一部分或可通信地耦接到客户端设备175的其他传感器来获得。可以多种方式表示对象姿态,诸如平移和旋转值或对象姿态的其他紧凑数字表示。
此外,在510处,选择或确定要选择的场景,其中要渲染虚拟对象。例如,所选择的场景可以是与对象当前所在的环境不同的环境。所选择的场景可选自上文相对于图2所述的照明条件库。在一个或多个实施方案中,所选择的场景可由用户通过用户界面来选择,其中用户可识别其中应呈现虚拟对象的环境。
可针对所请求的场景执行照明表示查找540。照明表示可以以多种方式表示。在一个或多个实施方案中,环境中的照明可使用球谐函数、球高斯、球小波等来表示。根据一个或多个实施方案,照明表示可从经训练的环境自动编码器获得,该环境自动编码器在再现给定环境图的过程中产生照明潜像。照明表示可例如从HDR环境图获得。照明表示可以RGB值的矢量的形式表示,RGB值的矢量表示环境中的当前照明。
推断着色网络535然后可利用对象姿态、形状表示和照明表示来生成纹理图545。在一个或多个实施方案中,纹理图545可指平坦的纹理,其可基于场景510内的照明来表示对象图像505中的对象在特定所选择场景510中的纹理。在一个或多个实施方案中,纹理图可以是2D纹理图,其可覆盖在对象图像中呈现的对象的网格表示或其他3D表示上。
流程图在550处继续,其中头像模块186利用纹理图以及形状表示和所确定的对象姿态来渲染虚拟对象。可以以多种方式来渲染虚拟对象。例如,2D纹理图可被渲染为多遍渲染技术中的附加遍。又如,可利用针对虚拟对象渲染的照明数据中包括的纹理图来渲染虚拟对象。
因为虚拟对象是实时生成的,所以它可以基于对象的图像数据或动态环境。这样,流程图在555处继续,其中头像模块186继续接收对象图像数据。然后在505处重复流程图,同时连续接收新图像数据。
参考图6,描绘了流程图,其中利用推断着色网络635渲染用于人的头像。根据一个或多个实施方案,头像可以由客户端设备175的头像模块186渲染。头像可以动态呈现,并且可以呈现为例如游戏环境、混合现实应用程序等的一部分。
流程图开始于605,其中从用户图像确定要由头像表示的表情。在接收到用户图像时,头像模块186在615处执行表情潜矢量查找。表情潜矢量可以从表情模型获得,该表情模型将图像数据映射到图像数据中表示用户的网格的3D几何信息。如上所述,表情潜像可以表示与中性表情的几何信息的偏移,并且可以由已经被训练以再现表情的3D网格表示的表情自动编码器确定。然后可利用表情模型620以基于表情潜像来确定执行该表情的用户的网格表示625。
在630处,头像模块186在确定要由头像表示的表情时确定头部姿态和相机角度(例如,视图矢量)。根据一个或多个实施方案,可基于客户端设备175上的数据接收传感器(诸如相机176或深度传感器178)或作为客户端设备175的一部分或可通信地耦接到客户端设备175的其他传感器来获得头部姿态。
在610处,选择要渲染头像的场景。例如,所选择的场景可以是与用户当前存在于用户图像605中的环境不同的环境。在一个或多个实施方案中,所选择的场景可以由用户通过用户界面来选择,其中用户可以识别应当呈现头像的环境。
流程图在640处继续,其中发生照明表示查找640。在一个或多个实施方案中,环境中的照明可使用球谐函数、球高斯、球小波等来表示。根据一个或多个实施方案,照明表示可从经训练的环境自动编码器获得,该环境自动编码器在再现给定环境图的过程中产生照明潜像。照明表示可例如从HDR环境图获得。照明表示可以RGB值的矢量的形式表示,RGB值的矢量表示环境中的当前照明。
推断着色网络635然后可利用表情潜像、照明表示和关于头部姿态和相机角度的数据,并且生成纹理图645。在一个或多个实施方案中,纹理图645可以指平坦的纹理,其可以表示用户面部的纹理,该纹理基于场景610内的照明在特定选择的场景610中执行来自用户图像605的特定表情。
流程图在660处继续,其中头像模块186利用纹理图渲染头像。头像可以以多种方式呈现。例如,纹理图可以是2D纹理图,其可以覆盖在代表呈现特定表情的对象的网格上。2D纹理图可被渲染为多遍渲染技术中的附加遍。又如,头像可以用包括在针对头像渲染的照明数据中的纹理图来渲染。
因为虚拟对象是实时生成的,所以它可以基于对象的图像数据或动态环境。因此,流程图在665处继续,其中头像模块186继续接收对象图像数据。然后在605处重复流程图,同时连续接收新图像数据。
在一些实施方案中,多个客户端设备可在通信会话中彼此交互。每个客户端设备可以生成表示其他客户端设备的用户的头像。接收方设备可接收例如环境图和/或纹理图仅一次或有限次数。接收方设备可从发送客户端设备接收所述图作为传输或者可从网络源获得它们。例如,所述图可与发送客户端设备的用户相关联。在通信会话期间,发送设备可能仅需要传输表示表情的潜矢量,以便接收方设备生成发送设备的用户的头像。因此,照明信息和纹理信息在通信会话期间不作为纹理流传输。相反,在通信会话期间传输表情潜像形式的表情的紧凑表示,以允许接收方设备渲染头像。
参考图7,其示出了根据一个实施方案的例示性电子设备700的简化功能框图。根据本公开,电子设备700可用于获得用户图像(例如,图像帧的时间序列)并生成头像并以动画方式显示头像。如上所述,示例性电子设备700可以是移动电话(亦称智能电话)、个人媒体设备或笔记本电脑系统。如图所示,电子设备700可包括透镜组件705和用于捕获场景(例如,用户的面部)的图像和/或关于场景的信息的图像传感器710(例如,深度传感器)。以举例的方式,透镜组件705可以包括第一透镜组件和第二透镜组件,第一透镜组件被配置为在远离设备的显示器720的方向上捕获图像(例如,面向后的透镜组件),第二透镜组件被配置为在朝向设备的显示器720或与该显示器一致的方向上捕获图像(例如,面向前的透镜组件)。在一个实施方案中,每个透镜组件可具有其自身的传感器(例如,元件710)。在另一个实施方案中,每个透镜组件可共享公共传感器。此外,电子设备700可包括图像处理流水线(IPP)715、显示元件720、用户界面725、一个或多个处理器730、图形硬件735、音频电路740、图像处理电路745、存储器750、存储装置755、传感器760、通信接口765,和通信网络或结构770。
透镜组件705可包括单个透镜或多个透镜、滤波器和物理外壳单元(例如,筒体)。透镜组件705的一个功能是将来自场景的光聚焦到图像传感器710上。图像传感器710可例如为CCD(电荷耦合器件)或CMOS(互补金属氧化物半导体)成像器。IPP 715可处理图像传感器输出(例如,来自传感器710的RAW图像数据)以产生HDR图像、图像序列或视频序列。更具体地,IPP 715可执行若干不同的任务,这些任务可包括但不限于黑电平去除、去噪声、透镜遮光校正、白平衡调节、去马赛克操作,以及局部或全局色调曲线或图的应用。IPP 715可包括定制设计的集成电路、可编程门阵列、中央处理单元(CPU)、图形处理单元(GPU)、存储器或这些元件的组合(包括多于一个任何给定元件)。IPP 715提供的一些功能可至少部分地经由软件(包括固件)来实现。显示元件720可用于经由用户界面725显示文本和图形输出以及接收用户输入。在一个实施方案中,显示元件720可用于显示与设备700的用户通信的个体的头像。显示元件720也可为触敏显示屏。用户界面725也可呈现多种其他形式,诸如按钮、小键盘、转盘、点击轮和键盘。处理器730可以是片上系统(SOC)(诸如存在于移动设备中的那些片上系统),并且可包括一个或多个专用CPU和一个或多个专用GPU。处理器730可以是基于精简指令集计算机(RISC)架构或复杂指令集计算机(CISC)架构或任何其他合适的架构的,并且每个计算单元可包括一个或多个处理内核。图形硬件735可以是用于处理图形和/或帮助处理器730执行计算任务的专用计算硬件。在一个实施方案中,图形硬件735可包括一个或多个可编程GPU,其中每者可具有一个或多个内核。音频电路740可包括一个或多个麦克风、一个或多个扬声器以及一个或多个音频编解码器。图像处理电路745可帮助从图像传感器710捕获静态图像和视频图像并包括至少一个视频编解码器。图像处理电路745可与IPP 715、处理器730和/或图形硬件735协同工作。一旦被捕获,图像就可被存储在存储器750和/或存储装置755中。存储器750可包括由IPP 715、处理器730、图形硬件735、音频电路740和图像处理电路745使用的一个或多个不同类型的介质以执行设备功能。例如,存储器760可包括存储器高速缓存、只读存储器(ROM)和/或随机存取存储器(RAM)。存储装置755可存储介质(例如音频文件、图像文件和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息、预先生成的模型、框架以及任何其他合适的数据。当被处理器模块730和/或图形硬件735执行时,此类计算机程序代码可实施本文所述方法中的一者或多者。存储装置755可包括一个或多个非暂态存储介质,所述非暂态存储介质包括例如磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质诸如CD-ROM和数字视频光盘(DVD)、以及半导体存储器设备诸如电可编程只读存储器(EPROM)、和电可擦除可编程只读存储器(EEPROM)。设备传感器760可包括但不一定限于光学活动传感器、光学传感器阵列、加速度计、声音传感器、气压传感器、接近传感器、环境光传感器、振动传感器、陀螺仪传感器、罗盘、磁力计、热敏电阻器传感器、静电传感器、温度传感器和不透明度传感器中的一者或多者。通信接口765可用于将设备700连接到一个或多个网络。例示性网络包括但不限于本地网络(诸如通用串行总线(USB)网络)、组织的局域网以及广域网(诸如互联网)。通信接口765可使用任何合适的技术(例如,有线或无线技术)和协议(例如,传输控制协议(TCP)、互联网协议(IP)、用户数据报协议(UDP)、互联网控制消息协议(ICMP)、超文本传输协议(HTTP)、邮局协议(POP)、文件传输协议(FTP)和互联网消息访问协议(IMAP))。通信网络或结构770可包括一个或多个连续(如图所示)或不连续的通信链路,并且可形成总线网络、通信网络或包含一个或多个交换设备(例如,交叉点交换机)的结构。
现在参考图8,其示出了根据一个实施方案的例示性多功能电子设备800的简化功能框图。电子设备可为多功能电子设备,或者可具有本文所述的多功能电子设备的一部分或全部所描述的部件。多功能电子设备800可包括处理器805、显示器810、用户界面815、图形硬件820、设备传感器825(例如,接近传感器/环境光传感器、加速计和/或陀螺仪)、麦克风830、音频编解码器835、扬声器840、通信电路845、数字图像捕获电路850(例如,包括相机系统100)视频编解码器855(例如,支持数字图像捕获单元850)、存储器860、存储设备865和通信总线870。多功能电子设备800可为例如数字相机或个人电子设备,诸如个人数字助理(PDA)、个人音乐播放器、移动电话或平板电脑。
处理器805可执行实施或控制由设备800执行的许多功能的操作所必需的指令(例如,诸如本文所公开的图像的生成和/或处理)。处理器805可例如驱动显示器810并可从用户界面815接收用户输入。用户界面815可允许用户与设备800交互。例如,用户界面815可呈现多种形式,诸如按钮、小键盘、拨号盘、点击轮、键盘、显示屏和/或触摸屏。处理器805也可例如为片上系统,诸如存在于移动设备中的那些,并且包括专用图形处理单元(GPU)。处理器805可基于精简指令集计算机(RISC)或复杂指令集计算机(CISC)架构或任何其他合适的架构,并且可包括一个或多个处理内核。图形硬件820可为用于处理图形和/或辅助处理器805以处理图形信息的专用计算硬件。在一个实施方案中,图形硬件820可包括可编程GPU。
图像捕获电路850可包括两个(或更多个)透镜组件880A和880B,其中每个透镜组件可具有单独的焦距。例如,相对于透镜组件880B的焦距,透镜组件880A可具有短焦距。每个透镜组件可具有单独的相关联传感器元件890。另选地,两个或更多个镜头组件可共用共同的传感器元件。图像捕获电路850可捕获静态图像和/或视频图像。通过以下设备至少部分地可处理来自图像捕获电路850的输出:视频编解码器855和/或处理器805和/或图形硬件820、和/或结合在图像捕获电路850内的专用图像处理单元或管道。这样捕获的图像可被存储在存储器860和/或存储装置865中。
图像捕获电路850可捕获可至少部分地由以下设备根据本公开处理的静态图像和视频图像:一个或多个视频编解码器855和/或处理器805和/或图形硬件820、和/或结合在图像捕获电路850内的专用图像处理单元。这样捕获的图像可被存储在存储器860和/或存储装置865中。存储器860可包括由处理器805和图形硬件820用于执行设备功能的一个或多个不同类型的介质。例如,存储器860可包括存储器高速缓存、只读存储器(ROM)和/或随机存取存储器(RAM)。存储装置865可存储介质(例如音频文件、图像文件和视频文件)、计算机程序指令或软件、偏好信息、设备配置文件信息以及任何其他合适的数据。存储装置865可包括一个或多个非暂态计算机可读存储介质,该非暂态计算机可读存储介质包括例如磁盘(固定硬盘、软盘和可移动磁盘)和磁带、光学介质(诸如CD-ROM和数字视频光盘(DVD))以及半导体存储设备(诸如电可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM))。存储器860和存储装置865可用于有形地保持被组织成一个或多个模块并以任何所需的计算机编程语言编写的计算机程序指令或代码。在由例如处理器805执行时,此类计算机程序代码可实现本文所述的方法中的一种或多种。
相反,计算机生成现实(CGR)环境是指人们经由电子系统感测和/或交互的完全或部分模拟的环境。在CGR中,跟踪人的物理运动的一个子集或其表示,并且作为响应,以符合至少一个物理定律的方式调节在CGR环境中模拟的一个或多个虚拟对象的一个或多个特征。例如,CGR系统可以检测人的头部转动,并且作为响应,以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。在一些情况下(例如,出于可达性原因),对CGR环境中虚拟对象的特征的调节可以响应于物理运动的表示(例如,声音命令)来进行。
人可以利用其感官中的任一者来感测CGR对象和/或与CGR对象交互,包括视觉、听觉、触觉、味觉和嗅觉。例如,人可以感测音频对象和/或与音频对象交互,该音频对象创建3D或空间音频环境,该3D或空间音频环境提供3D空间中点音频源的感知。又如,音频对象可以使能音频透明度,该音频透明度在有或者没有计算机生成的音频的情况下选择性地引入来自物理环境的环境声音。在某些CGR环境中,人可以感测和/或只与音频对象交互。
CGR的示例包括虚拟现实和混合现实。虚拟现实(VR)环境是指被设计成对于一个或多个感官完全基于计算机生成的感官输入的模拟环境。VR环境包括人可以感测和/或交互的多个虚拟对象。例如,树木、建筑物和代表人的化身的计算机生成的图像是虚拟对象的示例。人可以通过在计算机生成的环境内人的存在的模拟、和/或通过在计算机生成的环境内人的物理运动的一个子组的模拟来感测和/或与VR环境中的虚拟对象交互。
与被设计成完全基于计算机生成的感官输入的VR环境相比,混合现实(MR)环境是指被设计成除了包括计算机生成的感官输入(例如,虚拟对象)之外还引入来自物理环境的感官输入或其表示的模拟环境。在虚拟连续体上,混合现实环境是完全物理环境作为一端和虚拟现实环境作为另一端之间的任何状况,但不包括这两端。
在一些MR环境中,计算机生成的感官输入可以对来自物理环境的感官输入的变化进行响应。另外,用于呈现MR环境的一些电子系统可以跟踪相对于物理环境的位置和/或取向,以使虚拟对象能够与真实对象(即,来自物理环境的物理物品或其表示)交互。例如,系统可以导致运动使得虚拟树木相对于物理地面看起来是静止的。
混合现实的示例包括增强现实和增强虚拟。增强现实(AR)环境是指其中一个或多个虚拟对象叠加在物理环境或其表示之上的模拟环境。例如,用于呈现AR环境的电子系统可具有透明或半透明显示器,人可以透过该显示器直接查看物理环境。该系统可以被配置成在透明或半透明显示器上呈现虚拟对象,使得人利用该系统感知叠加在物理环境之上的虚拟对象。另选地,系统可以具有不透明显示器和一个或多个成像传感器,成像传感器捕获物理环境的图像或视频,这些图像或视频是物理环境的表示。系统将图像或视频与虚拟对象组合,并在不透明显示器上呈现组合物。人利用系统经由物理环境的图像或视频而间接地查看物理环境,并且感知叠加在物理环境之上的虚拟对象。如本文所用,在不透明显示器上显示的物理环境的视频被称为“透传视频”,意味着系统使用一个或多个图像传感器捕获物理环境的图像,并且在不透明显示器上呈现AR环境时使用那些图像。进一步另选地,系统可以具有投影系统,该投影系统将虚拟对象投射到物理环境中,例如作为全息图或者在物理表面上,使得人利用该系统感知叠加在物理环境之上的虚拟对象。
增强现实环境也是指其中物理环境的表示被计算机生成的感官信息进行转换的模拟环境。例如,在提供透传视频中,系统可以对一个或多个传感器图像进行转换以施加与成像传感器所捕获的视角不同的选择视角(例如,视点)。又如,物理环境的表示可以通过图形地修改(例如,放大)其部分而进行转换,使得经修改部分可以是原始捕获图像的代表性的但不是真实的版本。再如,物理环境的表示可以通过以图形方式消除其部分或将其部分进行模糊处理而进行转换。
增强虚拟(AV)环境是指其中虚拟或计算机生成的环境结合来自物理环境的一个或多个感官输入的模拟环境。感官输入可以是物理环境的一个或多个特性的表示。例如,AV公园可以具有虚拟树木和虚拟建筑物,但人的脸部是从对物理人拍摄的图像逼真再现的。又如,虚拟对象可以采用一个或多个成像传感器所成像的物理物品的形状或颜色。再如,虚拟对象可以采用符合太阳在物理环境中的位置的阴影。
有许多不同类型的电子系统使人能够感测和/或与各种CGR环境交互。示例包括头戴式系统、基于投影的系统、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为被设计用于放置在人眼睛上的透镜的显示器(例如,类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入系统(例如,具有或没有触觉反馈的可穿戴或手持控制器)、智能电话、平板电脑、和台式/膝上型计算机。头戴式系统可以具有一个或多个扬声器和集成的不透明显示器。另选地,头戴式系统可以被配置成接受外部不透明显示器(例如,智能电话)。头戴式系统可以结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式系统可以具有透明或半透明显示器,而不是不透明显示器。透明或半透明显示器可以具有媒介,代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一个实施方案中,透明或半透明显示器可被配置成选择性地变得不透明。基于投影的系统可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影系统也可以被配置成将虚拟对象投影到物理环境中,例如作为全息图或在物理表面上。
如上所述,本技术的一个方面在于收集和使用得自各种来源的数据,以从面部图像估计情绪。本公开预期,在一些实例中,这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口统计数据、基于位置的数据、电话号码、电子邮件地址、twitter ID、家庭地址、与用户的健康或健身级别相关的数据或记录(例如,生命体征测量、药物信息、锻炼信息)、出生日期或任何其他身份或个人信息。
本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,个人信息数据可用于训练表情模型。因此,使用这样的个人信息数据使用户能够从脸部图像估计情绪。此外,本公开还预期个人信息数据有益于用户的其他用途。例如,健康和健身数据可用于向用户的总体健康状况提供见解,或者可用作使用技术来追求健康目标的个人的积极反馈。
本公开设想负责采集、分析、公开、传输、存储或其他使用此类个人信息数据的实体将遵守既定的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。此类政策应该能被用户方便地访问,并应随着数据的采集和/或使用变化而被更新。来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。此外,应在收到用户知情同意后进行此类采集/共享。此外,此类实体应考虑采取任何必要步骤,保卫和保障对此类个人信息数据的访问,并确保有权访问个人信息数据的其他人遵守其隐私政策和流程。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。此外,应当调整政策和实践,以便采集和/或访问的特定类型的个人信息数据,并适用于包括管辖范围的具体考虑的适用法律和标准。例如,在美国,对某些健康数据的收集或获得可能受联邦和/或州法律的管辖,诸如健康保险流通和责任法案(HIP4);而其他国家的健康数据可能受到其他法规和政策的约束并应相应处理。因此,在每个国家应为不同的个人数据类型保持不同的隐私实践。
应当理解,以上描述旨在是示例性的而非限制性的。已呈现材料以使得本领域的任何技术人员能够作出并使用受权利要求保护的公开事项,并在特定实施方案的上下文中提供该材料,其变化对于本领域的技术人员而言将是显而易见的(例如,可彼此结合使用所公开的实施方案中的一些实施方案)。因此,所示出的步骤或动作的特定布置或元件的布置不应被解释为限制所公开的主题的范围。因此,应当参考所附权利要求以及赋予此类权利要求的等同形式的完整范围来确定本发明的范围。在所附权利要求书中,术语“包括(including)”和“其中(in which)”被用作相应术语“包括(comprising)”和“其中(wherein)”的通俗英语等同形式。

Claims (27)

1.一种非暂态计算机可读介质,包括能够由一个或多个处理器执行以进行下述操作的计算机可读指令:
接收环境的照明的压缩表示;
从相机获得对象的图像;
基于所述图像确定所述对象的姿态;
确定所述对象的几何表示;
将所述照明的所述压缩表示、所述对象的所述姿态和所述几何表示输入到推断着色网络中;
基于所述输入从所述推断着色网络来获得纹理图,所述纹理图表示所述环境的所述照明中的所述对象的面部的纹理;以及
基于所述对象的所述几何表示和所述纹理图来渲染所述对象的头像。
2.根据权利要求1所述的非暂态计算机可读介质,其中所述推断着色网络包括照明编码器和纹理解码器。
3.根据权利要求2所述的非暂态计算机可读介质,其中所述照明编码器将所述输入转换成纹理潜像,并且其中所述纹理解码器从所述纹理潜像生成所述纹理图。
4.根据权利要求1所述的非暂态计算机可读介质,还包括用于以下操作的计算机可读代码:
获得多个环境图图像;以及
基于所述环境图图像来训练环境自动编码器,
其中经训练的环境自动编码器产生一组照明潜像,所述一组照明潜像表示进入所述经训练的环境自动编码器的输入场景的图像的照明。
5.根据权利要求1-4中任一项所述的非暂态计算机可读介质,其中用于渲染所述头像的所述计算机可读代码还包括用于以下操作的计算机可读代码:
获得所述对象的网格表示;以及
将所述纹理图应用于所述网格表示。
6.根据权利要求1-4中任一项所述的非暂态计算机可读介质,其中所述压缩表示包括所述场景中的照明和颜色的压缩表示。
7.根据权利要求1-4中任一项所述的非暂态计算机可读介质,其中所述压缩表示包括选自包括以下各项的组中的至少一者:所述场景的球谐函数系数、球高斯和球小波。
8.一种用于生成头像的系统,包括:
一个或多个处理器;以及
非暂态计算机可读介质,包括能够由所述一个或多个处理器执行以进行下述操作的计算机可读指令:
接收环境的照明的压缩表示;
从相机获得捕获用户的图像;
基于所述图像确定所述用户的头部姿态和所述相机的相机角度;
确定表示所述用户的几何结构的一组网格潜像;
将所述照明的所述压缩表示、所述头部姿态、所述相机角度和所述网格潜像输入到推断着色网络中;
基于所述输入获得纹理图,所述纹理图表示所述用户的面部在所述环境的所述照明中的纹理;以及
基于所述纹理图渲染头像。
9.根据权利要求8所述的系统,其中所述推断着色网络包括照明编码器和纹理解码器。
10.根据权利要求9所述的系统,其中所述照明编码器将所述输入转换为纹理潜像,并且其中所述纹理解码器从所述纹理潜像生成所述纹理图。
11.根据权利要求8所述的系统,还包括计算机可读指令,所述计算机可读指令能够由所述一个或多个处理器执行以:
获得多个环境图像;以及
基于所述环境图像来训练环境自动编码器,
其中经训练的环境自动编码器提供一组照明潜像,所述一组照明潜像表示进入所述经训练的环境自动编码器的输入场景的图像的照明。
12.根据权利要求8-11中任一项所述的系统,其中能够由所述一个或多个处理器执行的所述计算机可读指令还包括用于以下操作的计算机可读指令:
获得所述用户的网格表示;以及
将所述纹理图应用于所述网格表示。
13.根据权利要求11所述的系统,其中所述压缩表示包括所述场景中的照明和颜色的压缩表示。
14.根据权利要求8-11中任一项所述的系统,其中所述压缩表示包括所述场景的球谐函数系数。
15.一种用于生成头像的方法,包括:
接收环境的照明的压缩表示;
从相机获得捕获用户的图像;
基于所述图像确定所述用户的头部姿态和所述相机的相机角度;
确定表示所述用户的几何结构的一组网格潜像;
将所述照明的所述压缩表示、所述头部姿态、所述相机角度和所述一组网格潜像输入到推断着色网络中;
基于所述输入获得纹理图,所述纹理图表示所述用户的面部在所述环境的所述照明中的纹理;以及
基于所述纹理图渲染头像。
16.根据权利要求15所述的方法,其中所述推断着色网络包括照明编码器和纹理解码器。
17.根据权利要求15所述的方法,还包括:
获得多个环境图像;以及
基于所述环境图像来训练环境自动编码器,
其中经训练的环境自动编码器提供一组照明潜像,所述一组照明潜像表示进入所述经训练的环境自动编码器的输入场景的图像的照明。
18.根据权利要求15-17中任一项所述的方法,其中渲染所述头像还包括:
获得所述用户的网格表示;以及
将所述纹理图应用于所述网格表示。
19.根据权利要求15-17中任一项所述的方法,其中所述压缩表示包括所述场景中的照明和颜色的压缩表示。
20.根据权利要求15-17中任一项所述的方法,其中所述压缩表示包括所述场景的球谐函数系数或球高斯。
21.一种计算机可读介质,包括能够由一个或多个处理器执行以进行下述操作的计算机可读代码:
获得多个环境图图像;以及
基于所述环境图图像来训练环境自动编码器,
其中经训练的环境自动编码器提供一组照明潜像,所述一组照明潜像表示进入所述经训练的环境自动编码器的输入场景的图像的照明。
22.根据权利要求21所述的计算机可读介质,还包括用于以下操作的计算机可读代码:
利用所述经训练的环境自动编码器基于针对选择的环境所获得的照明潜像来在所选择的环境的照明中渲染虚拟对象。
23.一种计算机实现的方法,所述方法包括:
获得多个环境图图像;以及
基于所述环境图图像来训练环境自动编码器,
其中经训练的环境自动编码器提供一组照明潜像,所述一组照明潜像表示进入所述经训练的环境自动编码器的输入场景的图像的照明。
24.根据权利要求23所述的方法,还包括:
利用所述经训练的环境自动编码器基于针对选择的环境所获得的照明潜像来在所选择的环境的照明中渲染虚拟对象。
25.一种计算机系统,包括:
一个或多个处理器;以及
非暂态计算机可读介质,包括能够由所述一个或多个处理器执行以进行下述操作的计算机可读指令:
获得多个环境图图像;以及
基于所述环境图图像来训练环境自动编码器,
其中经训练的环境自动编码器提供一组照明潜像,所述一组照明潜像表示进入所述经训练的环境自动编码器的输入场景的图像的照明。
26.根据权利要求25所述的系统,还包括计算机可读指令,所述计算机可读指令能够由所述一个或多个处理器执行以:
利用所述经训练的环境自动编码器基于针对选择的环境所获得的照明潜像来在所选择的环境的照明中渲染虚拟对象。
27.一种电子装置,包括用于执行根据权利要求15-20和23-24中任一项所述的方法的单元。
CN202011023458.0A 2020-09-25 2020-09-25 用于生成头像的介质、系统和方法 Pending CN114255316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011023458.0A CN114255316A (zh) 2020-09-25 2020-09-25 用于生成头像的介质、系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011023458.0A CN114255316A (zh) 2020-09-25 2020-09-25 用于生成头像的介质、系统和方法

Publications (1)

Publication Number Publication Date
CN114255316A true CN114255316A (zh) 2022-03-29

Family

ID=80790513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011023458.0A Pending CN114255316A (zh) 2020-09-25 2020-09-25 用于生成头像的介质、系统和方法

Country Status (1)

Country Link
CN (1) CN114255316A (zh)

Similar Documents

Publication Publication Date Title
US11736756B2 (en) Producing realistic body movement using body images
US11967018B2 (en) Inferred shading
AU2021290132C1 (en) Presenting avatars in three-dimensional environments
KR102148151B1 (ko) 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅
US11825103B2 (en) Gaze-driven recording of video
CN113262465A (zh) 一种虚拟现实交互方法、设备及系统
US11854242B2 (en) Systems and methods for providing personalized saliency models
US10955911B2 (en) Gazed virtual object identification module, a system for implementing gaze translucency, and a related method
KR20160060582A (ko) 시각 데이터를 처리하는 장치 및 방법, 및 관련된 컴퓨터 프로그램 제품
US20230334907A1 (en) Emotion Detection
CN115589475A (zh) 使用深度和虚拟光的视频照亮
CN114255316A (zh) 用于生成头像的介质、系统和方法
US11830182B1 (en) Machine learning-based blood flow tracking
US11366981B1 (en) Data augmentation for local feature detector and descriptor learning using appearance transform
CN114779948A (zh) 基于面部识别的动画人物即时交互控制方法、装置及设备
WO2022011621A1 (zh) 一种人脸光照图像生成装置及方法
KR20210038347A (ko) 추론된 음영
CN115731326A (zh) 虚拟角色生成方法及装置、计算机可读介质和电子设备
US11354869B2 (en) XR preferred movement along planes
US20240127565A1 (en) Modifying user representations
US20230077410A1 (en) Multi-View Video Codec
US11496723B1 (en) Automatically capturing a moment
EP4300447A1 (en) User representation using depths relative to multiple surface points
TW202347266A (zh) 用於隱私管理的圖像處理的系統和方法
WO2023192047A1 (en) Energy efficient context relevant processing for content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination