CN117437335A - 表情转移到风格化化身 - Google Patents

表情转移到风格化化身 Download PDF

Info

Publication number
CN117437335A
CN117437335A CN202310902821.3A CN202310902821A CN117437335A CN 117437335 A CN117437335 A CN 117437335A CN 202310902821 A CN202310902821 A CN 202310902821A CN 117437335 A CN117437335 A CN 117437335A
Authority
CN
China
Prior art keywords
expression
mannequin
facial expression
image
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310902821.3A
Other languages
English (en)
Inventor
C·J·奥坎波
M·卡多甘
郭沛洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Meta Platforms Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US18/056,986 external-priority patent/US20240029331A1/en
Application filed by Meta Platforms Technologies LLC filed Critical Meta Platforms Technologies LLC
Publication of CN117437335A publication Critical patent/CN117437335A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/02Non-photorealistic rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本文中公开了表情转移到风格化化身。提供了一种用于增强现实应用的个性化风格化化身的方法。该方法包括:捕捉第一对象的面部表情的图像;识别图像中的一个或多个特征,该一个或多个特征指示第一对象的个人特性;基于第一对象的面部表情,从人体模型中的标准表情集中识别被选择的表情;将指示第一对象的个人特性的一个或多个特征转移到在人体模型中的被选择的表情;以及向沉浸式现实应用提供人体模型,以用于在客户端设备上显示。还提供了一种存储指令的存储器、处理器以及由处理器在执行指令时引起的执行上述方法的系统。

Description

表情转移到风格化化身
相关申请的交叉引用
本公开内容与Christopher J.OCAMPO等人于2022年7月22日提交的美国临时申请号63/391,645,标题为EXPRESSION TRANSFER TO STYLIZED AVATARS,的申请相关并根据《美国法典》第35卷第119(e)节要求其优先权,出于所有目的,其全部内容通过引用并入本文。
技术领域
本公开涉及用于增强现实应用的风格化化身的个性化。更具体地,本公开涉及将个性化面部表情从对象转移到风格化化身上,以创建针对该对象的个性化模型。
背景技术
风格化化身及其标准化面部表情通常用于重建增强现实环境。这大大降低了应用的计算成本,使其能够使用当前技术进行广泛使用和适应。风格化化身也用于三维人体模型,其中知名的卡通人物可以用于表示沉浸式应用中的对象。然而,因为特定对象的所有个人特性都在风格化模型中丢失了,结果相当简单。因此,不同对象的更真实的表示是期望的,以向沉浸式应用提供真正的真实感和表现力,并且以在用户与其相关联的化身之间驱动更多的亲和性。
发明内容
在第一实施例中,一种计算机实现的方法,包括:捕捉第一对象的面部表情的图像;识别图像中的一个或多个特征,一个或多个特征指示第一对象的个人特性;基于第一对象的面部表情,从人体模型中的标准表情集中识别被选择的表情;将指示第一对象的个人特性的一个或多个特征转移到在人体模型中的被选择的表情;以及向沉浸式现实应用提供人体模型,以用于在客户端设备上显示。
在第二实施例中,一种系统,包括:存储器,该存储器存储多个指令;以及一个或多个处理器,该处理器被配置为执行指令以执行操作,该操作包括:捕捉第一对象的面部表情的图像;识别图像中的一个或多个特征,一个或多个特征指示第一对象的个人特性;基于第一对象的面部表情,从人体模型中的标准表情集中识别被选择的表情;将指示第一对象的个人特性的一个或多个特征转移到在人体模型中的被选择的表情;以及向沉浸式现实应用提供人体模型,以用于在客户端设备上显示。
在其他实施例中,非暂态计算机可读介质存储指令,指令在由处理器执行时使计算机执行方法。该方法包括:捕捉第一对象的面部表情的图像;识别图像中的一个或多个特征,一个或多个特征指示第一对象的个人特性;基于第一对象的面部表情,从人体模型中的标准表情集中识别被选择的表情;将指示第一对象的个人特性的一个或多个特征转移到在人体模型中的被选择的表情;以及向沉浸式现实应用提供人体模型,以用于在客户端设备上显示。
在其他实施例中,一种系统包括:存储指令的第一装置,以及执行指令以使系统执行方法的第二装置。该方法包括:捕捉第一对象的面部表情的图像;识别图像中的一个或多个特征,一个或多个特征指示第一对象的个人特性;基于第一对象的面部表情,从人体模型中的标准表情集中识别被选择的表情;将指示第一对象的个人特性的一个或多个特征转移到在人体模型中的被选择的表情;以及向沉浸式现实应用提供人体模型,以在客户端设备上显示。
鉴于以下公开内容,本领域普通技术人员将清楚这些和其他实施例。
附图说明
图1图示了根据一些实施例的被配置用于将个性化表情转移到风格化化身的网络结构;
图2是图示了根据一些实施例的用于图1的架构的客户端设备和服务器的框图;
图3图示了根据一些实施例的风格化化身中的多个标准表情;
图4图示了根据一些实施例的对对象的面部的视频捕捉中的个性化表情的追踪;
图5图示了根据图4的对象成形的个性化风格化化身的输出集;
图6图示了根据一些实施例的混合步骤,其中基于不同的人体模型,将对象的个人特性或表情合并为风格化化身;
图7图示了根据一些实施例的从对象转移到合成的化身中的模型的个性化表情之间的比较;
图8A至图8B包括根据一些实施例的用于将对象表情转移到风格化的化身模型中以创建个性化模型的更多示例性实施例;
图9是图示了根据一些实施例的用于将个性化表情转移到风格化化身的方法中的步骤的流程图。
图10是图示了根据一些实施例的用于执行本文所公开的方法的计算机系统中的部件的框图。
在附图中,除非另有明确说明,否则相同或类似的附图标记与相同或相似的特征或属性相关联。
具体实施方式
在以下详细描述中,提出了多个具体的细节,以提供对本公开的充分理解。然而,对于本领域的普通技术人员来说,显而易见的是,可以在没有这些特定细节的情况下实践本公开的实施例。在其他情况下,没有详细示出公知的结构和技术,以免混淆本公开。
总论
在一些实施例中,由于人体头部真实感模型的高分辨率绘制,用于VR/AR应用的化身和其他模型可能过于计算密集。然而,就计算能力和相关功率要求以及时间延迟和偏移来说,实时使用这种建模的约束是昂贵的。另一方面,使用风格化化身或模型来进行人脸的三维(3D)绘制要简单得多。这里的缺点是,风格化化模型有一组给定的表情集,这些表情集对所代表的任意对象都是相同的(也许性别适应是一个相关的区别)。当两个不同的人被同一个风格化化身绘制时,这个问题可能变得高度相关。然后,除非包括区分两个个体的个性化方案,否则可能会在无意中重现令人困惑的场景。
为了解决上述问题,本公开包括对给定对象的表情拟合,以便以识别的特定对象的单一方式修改风格化化身。
在一些配置中,出于风格或美学原因,可能期望具有来自对象的个性化特征的风格化化身。例如,一个或多个对象可能期望与知名的超级英雄或角色一起参与角色扮演、卡通版或场景。因此,针对不同角色的风格化化身可以被分配给事件中的不同参与者并相应地个性化。这反过来将在用户和他们的化身之间创造更强的连接感,从而增强沉浸式现实体验,使其更加独特和与众不同。提供上述功能的沉浸式现实体验将对广大用户群体产生强烈吸引力。
系统架构示例
图1示出了根据一些实施例的适合于访问化身引擎的示例架构100。架构100包括通过网络150与客户端设备110和至少一个数据库152通信地耦合的服务器130。多个服务器130中的一个服务器被配置为托管包括指令的存储器,当由处理器执行指令时,指令使得服务器130执行如本文所公开的方法中的至少一些步骤。在一些实施例中,处理器被配置为控制用于客户端设备110中的一个客户端设备的用户使用社交网络应用访问化身引擎的图形用户界面(GUI)。因此,处理器可以包括仪表板工具,该仪表板工具被配置为经由GUI向用户显示部件和图形结果。为了负载平衡的目的,多个服务器130可以托管包括到一个或多个处理器的指令的存储器,并且多个服务器可以托管历史日志和包括用于化身引擎的多个训练档案的数据库152。此外,在一些实施例中,客户端设备110的多个用户可以访问同一化身引擎以在社交网络内运行一个或多个搜索。在一些实施例中,具有单个客户端设备110的单个用户可以提供图像和数据以训练在一个或多个服务器130中并行运行的一个或多个机器学习模型。因此,客户端设备110和服务器130可以经由网络150和位于其中的资源(诸如数据库152中的数据)彼此通信。
服务器130可以包括任意具有适当处理器、存储器和通信能力的设备,以用于托管包括与化身引擎相关的多个工具的化身引擎。化身引擎可以由各种客户端110通过网络150访问。客户端设备110可以是,例如,台式计算机、移动计算机、平板计算机(例如,包括电子书阅读器)、移动设备(例如,智能电话或PDA),或者具有用于访问一个或多个服务器130上的化身引擎的适当处理器、存储器和通信能力的任意其他设备。在一些实施例中,客户端设备110可以包括被配置为运行由一个或多个服务器130支持的沉浸式现实应用的VR/AR头戴式耳机。网络150可以包括例如局域网(LAN)、广域网(WAN)、因特网等中的任意一者或多者。此外,网络150可以包括但不限于以下工具拓扑中的任意一者或多者,包括总线网络、星形网络、环形网络、网状网络、星形总线网络、树状网络或分层网络等。
图2是示出根据本公开的某些方面的来自架构100的示例服务器130、客户端设备110和数据库152的框图200。客户端设备110和服务器130经由相应的通信模块218-1和218-2(以下统称为“通信模块218”)通过网络150通信地耦合。通信模块218被配置为与网络150连接,以经由网络150向其他设备发送和接收信息(诸如数据、请求、响应和命令)。通信模块218可以是例如调制解调器或以太网卡,并且可以包括用于无线通信的无线电硬件和软件(例如,经由电磁辐射,诸如射频-RF-、近场通信-NFC、Wi-Fi和蓝牙无线电技术)。用户可以经由输入设备214和输出设备216与客户端设备110交互。输入设备214可以包括鼠标、键盘、指针、触摸屏、麦克风、操纵杆、虚拟操纵杆等。在一些实施例中,输入设备214可以包括相机、麦克风和传感器,诸如触摸传感器、声学传感器、惯性运动单元(IMU)和被配置为向VR/AR头戴式耳机提供输入数据的其他传感器。例如,在一些实施例中,输入设备214可以包括眼睛追踪设备,以检测VR/AR头戴式耳机中用户瞳孔的位置。输出设备216可以是屏幕显示器、触摸屏、扬声器等。客户端设备110可以包括存储器220-1和处理器212-1。存储器220-1可以包括被配置为在客户端设备110中运行并与输入设备214和输出设备216耦合的应用222和GUI 225。应用222可以由用户从服务器130下载并且可以由服务器130托管。在一些实施例中,客户端设备110是VR/AR头戴式耳机,并且应用222是沉浸式现实应用。在一些实施例中,客户端设备110是用于收集视频或图片并使用视频或图像收集应用222上传到服务器130以存储在训练数据库152中的移动电话。
服务器130包括存储器220-2、处理器212-2和通信模块218-2。在下文中,处理器212-1和212-2以及存储器220-1和220-2将分别统称为“处理器212”和“存储器220”。处理器212被配置为执行存储在存储器220中的指令。在一些实施例中,存储器220-2包括化身引擎232。化身引擎232可以向GUI 225共享或提供特征和资源,包括与风格化、个性化和动画相关联的多个工具,或者设计使用通过化身引擎232检索到的化身的应用(例如,应用222)。用户可以通过安装在客户端设备110的存储器220-1中的应用222来访问化身引擎232。因此,包括GUI 225的应用222可以被服务器130安装,并通过多个工具中的任意一个工具执行由服务器130提供的脚本和其他例程。应用222的执行可以由处理器212-1控制。
化身引擎232可以包括网格工具240、风格工具242、表情编码器工具244、身份编码器工具246和神经网络工具248。网格工具240基于所捕捉的对象的图像或风格表示来生成形成对象(例如,化身)的实体模型的三维(3D)网格。风格表示可以是来自不同方向的对象的不同视图的手绘图或计算机生成的图。风格工具242确定或分类在化身中表示给定对象的风格。表情编码器工具244将面部表情并入到化身上。在一些实施例中,存在可被处理的、存储在数据库152中的选定数量的表情。身份编码器工具246确定向模型提供唯一身份的化身的识别特征。例如,身份编码器工具246可以识别出某个对象在面部上的某些区域的皱纹以获得通用的笑表情。神经网络工具248训练化身引擎232中的网格工具240、风格工具242、表情编码器工具244和身份编码器工具246,以为VR/AR应用222提供个性化的、风格化的化身。
在一些实施例中,神经网络工具248可以是存储在数据库252中的一个或多个机器学习模型的一部分。数据库252包括训练档案和可以由化身引擎232根据用户通过应用222的输入在机器学习模型的训练中使用的其他数据文件。此外,在一些实施例中,至少一个或多个训练档案或机器学习模型可以被存储在存储器220中的任意一个存储器中,并且用户可以通过应用222访问它们。
神经网络工具248可以包括针对其中所包括的引擎和工具的特定目的而训练的算法。算法可以包括利用任何线性或非线性算法的机器学习或人工智能算法,诸如神经网络算法或多元回归算法。在一些实施例中,机器学习模型可以包括神经网络(NN)、卷积神经网络(CNN)、生成对抗性神经网络(GAN)、深度强化学习(DRL)算法、深度递归神经网络(DRNN)、诸如随机森林的经典机器学习算法、k-近邻(KNN)算法、k均值聚类算法,或其任意组合。更通常地,机器学习模型可以包括涉及训练步骤和优化步骤的任何机器学习模型。在一些实施例中,训练数据库252可以包括训练档案以根据机器学习模型的期望结果来修改系数。因此,在一些实施例中,化身引擎232被配置为访问训练数据库252以检索文档和档案作为机器学习模型的输入。在一些实施例中,化身引擎232、被包含在化身引擎232中的工具以及训练数据库252的至少一部分可以被托管在服务器130或客户端设备110可访问的不同服务器中。
图3图示了根据一些实施例的在风格化化身302中具有多个标准表情344的面板300。在一些实施例中,VR/AR应用可以包括多达72个(72个或更多)面部表情344-1、344-2和344-3以及多个其他表情(以下统称为“表情344”),这些表情是由人体头部中不同面部肌肉的众所周知的运动或收缩产生的。每个表情344指示面部肌肉激活的众所周知的组合,其指示人体角色的特定情绪、姿态或反应。例如,一个惊讶的表情344-1可能包括睁大眼睛和下巴掉下来的特征。其他表情344可以包括“持怀疑态度的人”表情344-2或假笑344-3。尽管每个表情344的风格和某些方面可以是通用的(例如,独立于做出表情的不同对象),但是存在使每个个体独特的个性化特征,即使许多个体可以执行相同的通用的表情344。
在对象的面部的实时捕捉中,系统在通用的化身的表情344中发现最接近的匹配(例如,使用表情编码器244)。然后,系统用对象的个性化特征中的至少一个或多个个性化特征来修改最接近匹配(例如,使用身份编码器246),并将修改后的最接近的匹配绘制为用于沉浸式现实应用的模型。因此,对象的风格化呈现是个性化的,对该对象来说是独特的,并提供了该对象可能非常想要或吸引人的流线型表示。
图4示出了根据一些实施例的对在对象面部的图像401-1和图像401-2(以下统称为“源图像401”)的视频捕捉中的个性化表情441-1和表情441-2(以下统称为“表情441”)的追踪400。追踪风格化化身402-1和402-2(以下统称为“化身402”)上的网格中的多个兴趣点411以进行定位和移动。点411可以通过位移的量或位移的速度来被选择,这可以指示与对象相关联的个性化特征。
图5示出了根据对象(例如,化身402)成形的个性化的、风格化的化身502a的输出集500。这是用户的“表情拟合”(参考表情编码器244)和“身份拟合”(参考身份编码器446)组合的输出集,以表示用户特定的混合形状集。表情546-1、表情546-2和表情546-3以及许多其他表情(以下统称为“个性化表情546”)与表情344相同,不同之处在于它们是根据由风格工具(参考风格工具242)确定的化身502a的风格来个性化的。图中还示出了由本文公开的工具(参见网格工具240)在个性化的、风格化的化身502b上提供的表面网格540。网格540包括其位置和移动可以指示对象的个性化姿态、记号和其他面部特征的点。
图6图示了根据一些实施例的混合步骤,其中基于不同的人体模型或化身602a,将对象的个人特性或表情646合并到风格化的化身602b中。一些个性化特征可以包括模型602a中的眉毛移动644,其被转换为个性化表情646。因此,眉毛移动644可以在示出化身602b的下眉毛的姿态646中被个性化。姿态是相同的,但是化身602b示出了化身602b所基于的个体特有的眉型,并且因此不同于化身602a中的姿态644。其他表情可以包括前额中某些肌肉的隆起,并且可以针对第一模型602a捕捉嘴巴和/或鼻孔的面部姿态,并将其合并到风格化的化身602b中的人体模型上。
图7示出了根据一些实施例,将表情744-1、表情744-2和表情744-3(以下统称为“表情744”)从对象化身701(例如,VR/AR头戴式耳机的用户)转移到目标化身702中的个性化表情746-1、表情746-2和表情746-3(以下统称为“个性化表情746”)中。可以看出的是,转移到目标化身702中的个性化表情746的每个表情744包含目标化身702的个性化表情的细微差别和细节。
图8A-图8B包括根据一些实施例的用于将表情844从对象化身801转换到目标化身802-1和目标化身802-2(下文中统称为“目标化身802”)中,以创建个性化表情846-1和846-2(以下统称为“个性化表情846”)的更多示例性面板800A-1、面板800A-2、面板800A-3、面板800A-4、面板800B-1、面板800B-2和面板800B-3(下文中统称为“面板800”)。
对象化身801属于第一身份(例如,VR/AR头戴式耳机的第一用户),而目标化身802属于第二身份(例如第二VR/AR耳机的第二用户)。对于化身802-1,表情844的转移是通用的,并且第二身份的许多私人的细微差别没有在被转移的表情846-1中被捕捉。另一方面,对于化身802-1,表情844的转移是个性化的,使得个性化表情846-2更加细微地反映该第二身份。
第二身份中的面部表情的许多细微差别被转移到风格化模型802-2,然后被捕捉到个性化表情846-2中。在一些实施例中,个性化模型使用对象和模型化身之间的“平均”形状,因此它们包括更通用的表情。因此,个性化模型在仍然捕捉一些模型特征的同时,包括基于第二身份的更多性化表情846-2,例如,面板800A-1中的下巴收缩、面板800A-4、面板800B-1和面板800B-2中的皱纹、面板800B-3中嘴唇上的张力、化身802-1中缺失的张力等等。
图9是根据一些实施例的包括用于创建用于沉浸式现实应用的个性化、风格化的化身的方法900中的步骤的流程图。在一些实施例中,方法900中的一个或多个步骤可以由处理器电路来执行,该处理器电路执行存储在经由网络通信地耦合的存储器电路、计算机、客户端设备、服务器或数据库中的指令,如本文所公开的(参见处理器212、存储器220、客户端设备110、服务器130、数据库152和网络150)。在一些实施例中,存储器电路可以包括具有网格工具、风格工具、表情编码器工具、身份编码器工具和神经网络工具的化身引擎,如本文所公开的(参见化身引擎232、网格工具240、风格工具242、表情编码器工具244、身份编码器工具246和神经网络工具248)。方法900中的步骤可以由计算机中的处理器电路执行,执行存储在计算机的存储器电路中的指令。在一些实施例中,与本公开一致的方法可以包括方法900中的至少一个或多个步骤,这些步骤以不同的顺序、同时、准同时或在时间上重叠地执行。
步骤902包括捕捉第一对象的面部表情的图像。在一些实施例中,第一对象是增强现实头戴式耳机的用户,并且步骤902包括用安装在增强现实头戴式耳机上的相机捕捉图像。
步骤904包括识别图像中的一个或多个特征,一个或多个特征指示第一对象的个人特性。在一些实施例中,步骤904包括从叠加在第一对象的面部表情的图像上的网格中选择已经移动了大于被选择的阈值的量的顶点组。在一些实施例中,步骤904包括在导数张量中发现一个或多个临界点,导数张量与第一对象的面部表情的图像的网格运动相关联。在一些实施例中,步骤904包括识别与第一对象的图像相关联的三维网格中的一个或多个关键点的位移。
步骤906包括基于第一对象的面部表情,从人体模型中的一组标准表情中识别被选择的表情。在一些实施例中,步骤906包括发现与第一对象的面部表情相关联的网格中的多个顶点和与具有述被选择的表情的人体模型相关联的网格中的多个顶点之间的距离的度量。在一些实施例中,步骤906包括选择人体模型作为人体模型的风格化化身。
步骤908包括将指示第一对象的个人特性的一个或多个特征转移到在人体模型中的被选择的表情。在一些实施例中,步骤908包括将针对第一对象的网格中的顶点组的移动复制到针对人体模型的网格中对应的顶点组。
步骤910包括向沉浸式现实应用提供人体模型,以用于在客户端设备上显示。在一些实施例中,客户端设备与用户在一起,并且步骤910还包括向沉浸式现实应用提供用用户的面部表情修改的第二风格化人体模型,以用于与第一对象一起在第二客户端设备上显示。在一些实施例中,沉浸式现实应用在第一对象和第二对象之间共享,并且步骤910还包括向客户端设备上的显示器提供用第二对象的面部表情修改的第二风格化人体模型。
硬件综述
图10是图示了可以利用其实现耳机和其他客户端设备110以及方法900的示例性计算机系统1000的框图。在某些方面,计算机系统1000可以或者在专用服务器中、或者集成到另一个实体中、或者分布在多个实体上,使用硬件或软件和硬件的组合来实现。计算机系统1000可以包括台式计算机、膝上型计算机、平板电脑、平板电视、智能电话、功能电话、服务器计算机或其他。服务器计算机可以远程地位于数据中心或者被存储在本地。
计算机系统1000包括用于传达信息的总线1008或其他通信机构,以及与总线1008耦合用于处理信息的处理器1002(例如,处理器212)。举例来说,计算机系统1000可以用一个或多个处理器1002来被实现。处理器1002可以是通用微处理器、微控制器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、离散硬件部件,或者可以执行信息的计算或其他操作的任何其他合适的实体。
除硬件以外,计算机系统1000还可以包括针对所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们的一者或多者的组合的代码,该代码被存储在内置存储器1004(例如,存储器220),诸如随机存取存储器、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除PROM(EPROM)、寄存器、硬盘、可移动磁盘、CD-ROM、DVD或任何其他合适的存储设备,该内置存储器与总线1008耦合,以用于存储要由处理器1002执行的信息和指令。处理器1002和存储器1004可以由专用逻辑电路来补充或被并入专用逻辑电路中。
指令可以被存储在存储器1004中,并在一个或多个计算机程序产品中实现,例如,编码在计算机可读介质上的计算机程序指令的一个或更多模块,用于由计算机系统1000执行或控制计算机系统1000的操作,并根据本领域技术人员熟知的任何方法,包括但不限于,计算机语言,诸如面向数据的语言(例如,SQL、dBase)、系统语言(例如,C、Objective-C、C++、汇编)、架构性语言(例如,Java、.NET)和应用语言(例如,PHP、Ruby、Perl、Python)。指令也可以用计算机语言来实现,诸如数组语言、面向方面的语言、汇编语言、创作语言、命令行接口语言、编译语言、并发语言、花括号语言、数据流语言、数据结构化语言、声明性语言、深奥语言、扩展语言、第四代语言、函数式语言、交互模式语言、解释语言、迭代语言、基于列表的语言、小语言、基于逻辑的语言、机器语言、宏语言、元编程语言、多基语言、数值分析、非英语语言、基于类的面向对象的语言、基于原型的面向对象的语言,场外规则语言、过程语言、反射语言、基于规则的语言、脚本语言、基于堆栈的语言、同步语言、语法处理语言、可视化语言、wirth语言和基于xml的语言。存储器1004还可以用于在将由处理器1002执行的指令的执行期间存储临时变量或其他中间信息。
本文讨论的计算机程序不一定对应于文件系统中的文件。程序可以被存储在保存其他程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本),被存储在专用于所讨论的程序的单个文件中,或被存储在多个协调文件中(例如,存储一个或更多模块、子程序或代码部分的文件)。计算机程序可以被部署为在位于一个站点或分布在多个站点并通过通信网络互连的一台计算机或多台计算机上被执行。本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行,该可编程处理器通过对输入数据进行操作并产生输出来执行一个或多个计算机程序以执行功能。
计算机系统1000还包括与总线1008耦合的数据存储设备1006,诸如磁盘或光盘,用于存储信息和指令。计算机系统1000可以经由输入/输出模块1010耦合到各种设备。输入/输出模块1010可以是任何输入/输出模块。示例性输入/输出模块1010包括诸如USB端口之类的数据端口。输入/输出模块1010被配置为连接到通信模块1012。示例性通信模块1012包括网络接口卡,诸如以太网卡和调制解调器。在某些方面中,输入/输出模块1010被配置为连接到多个设备,诸如输入设备1014和/或输出设备1016。示例性输入设备1014包括键盘和指示设备,例如,鼠标或轨迹球,消费者可以通过它们向计算机系统1000提供输入。其他种类的输入设备1014也可以用于提供与消费者的交互,诸如触觉输入设备、视觉输入设备、音频输入设备或脑机接口设备。例如,提供给消费者的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自消费者的输入,包括声学、语音、触觉或脑电波输入。示例性输出设备1016包括用于向消费者显示信息的显示设备,诸如LCD(液晶显示器)监视器。
根据本公开的一个方面,头戴式耳机和客户端设备110可以至少部分地使用响应处理器1002的计算机系统1000来实现,处理器1002执行包含在存储器1004中的一个或多个指令的一个或者多个序列。这样的指令可以从诸如数据存储设备1006之类的另一机器可读介质读取到存储器1004中。主存储器1004中包含的指令序列的执行使得处理器1002执行本文所述的处理步骤。多处理布置中的一个或多个处理器也可以用于执行包含在存储器1004中的指令序列。在备选方面中,可以使用硬连线电路来代替软件指令或与软件指令组合以实现本公开的各个方面。因此,本公开的各方面不限于硬件电路和软件的任何特定组合。
本说明书中描述的对象的各个方面可以在计算系统中被实现,该计算系统包括后端部件,例如,数据服务器,或者包括中间件部件,例如,应用服务器,或者包括前端部件,例如,具有图形消费者界面或Web浏览器的客户端计算机,消费者可以通过该图形消费者界面和Web浏览器与本说明书中描述的对象的实现进行交互,或者一个或多个这样的后端、中间件或前端部件的任何组合。系统的部件可以通过任何形式或介质的数字数据通信互连,例如,通信网络。通信网络可以包括例如LAN、WAN、因特网等中的任意一者或多者。此外,通信网络可以包括但不限于例如以下网络拓扑中的任何一者或多者,包括总线网络、星形网络、环形网络、网状网络、星形总线网络、树状网络或分层网络等。通信模块可以是,例如,调制解调器或以太网卡。
计算机系统1000可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系是由于运行在相应计算机上并且彼此具有客户端-服务器关系的计算机程序而产生的。计算机系统1000可以是例如但不限于台式计算机、膝上型计算机或平板计算机。计算机系统1000也可以被嵌入另一个设备中,例如但不限于移动电话、PDA、移动音频播放器、全球定位系统(GPS)接收器、视频游戏控制台和/或电视机机顶盒。
本文使用的术语“机器可读存储介质”或“计算机可读介质”是指参与向处理器1002提供指令以供执行的任何介质。这种介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘,诸如数据存储设备1006。易失性介质包括诸如存储器1004之类的动态存储器。传输介质包括同轴电缆、铜线和光纤,包括形成总线1008的导线。常见形式的机器可读介质包括,例如,软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH EPROM、任何其他存储芯片或盒式存储器、或计算机可以读取的任何其他介质。机器可读存储介质可以是机器可读存储设备、机器可读存储基板、存储设备、影响机器可读传播信号的物质的组成,或者它们中的一者或多者的组合。
在一个方面,方法可以是操作、指令或函数,反之亦然。在一个方面,权利要求可以被修改为包括在一个或多个权利要求中所述的一些或全部单词(例如,指令、操作、功能或部件)、一个或多个单词、一句或多个句子、一个或多个短语、一个或多个段落、和/或一个或多个权利要求。
为了说明硬件和软件的互换性,已根据其功能对诸如各种说明性块、模块、部件、方法、操作、指令和算法等项目进行了一般性描述。这种功能是被实现为硬件、软件还是硬件和软件的组合取决于特定的应用和施加在整个系统上的设计约束。所属领域的技术人员可以针对每一特定应用以不同方式实施所描述的功能。
如本文所用,在一系列项目之前的短语“至少一者”,以及用于分隔任何项目的术语“和”或者“或”,修改了整个列表,而不是列表的每个成员(例如,每个项目)。短语“至少一者”不要求选择至少一个项目;相反,该短语允许如下含义:包括任何一个项目中的至少一个项目,和/或这些项目的任何组合中的至少之一项目,和/或每个项目中至少一个项目。举例来说,短语“A、B和C中的至少一者”或“A、B或C中的至少一者”各自仅指A、仅指B或仅指C;A、B和C的任何组合;和/或A、B和C中的每一者的至少一者。
“示例性”一词在本文中用于表示“用作示例、实例或说明”。本文中描述为“示例性的”的任何实施例不一定被解释为优选或优于其他实施例。诸如一个方面、该方面、另一方面、一些方面、一个或多个方面、一种实现、该实现、另一实现、一些实现、一个或多个实现、一个实施例、该实施例,另一实施例,一些实施例,一个或多个实施例,一种配置、该配置、另一配置,一些配置、一个或多个配置、用户技术、本公开、本现有公开以及其他变体等仅是为了方便,并不意味着与这样的(多个)短语相关的公开对于用户技术是必不可少的,或者这种公开适用于用户技术的所有配置。与这样的(多个)短语相关的公开可以应用于所有配置或一个或多个配置。与这样的(多个)短语相关的公开可以提供一个或多个示例。诸如一个方面或某些方面之类的短语可以指代一个或多个方面,反之亦然,并且这类似地适用于其他前述短语。
除非特别说明,否则单数中提及的要素并不意味着“一个且只有一个”,而是“一个或多个”。阳性代词(例如,他的)包括阴性和中性代词(例如,她的及它的),反之亦然。术语“一些”是指一个或多个。下划线和/或斜体的标题和副标题仅用于方便,不限制用户技术,并且不在解释用户技术的描述时提及。诸如第一和第二之类的关系术语可以用于区分一个实体或动作与另一个实体或动作,而不必要求或暗示这些实体或动作之间的任何实际的这种关系或顺序。本领域普通技术人员已知或稍后将已知的贯穿本公开所描述的各种配置的元件的所有结构和功能等价物通过引用被明确地并入本文,并且旨在被用户技术所涵盖。此外,本文中公开的任何内容都不旨在专用于公众,而不管这种公开是否在上述描述中被明确地叙述。不得根据35U.S.C.§112,第6段的规定对任何权利要求要素进行解释,除非该要素使用短语“针对……的部件”而被明确陈述,或者在方法权利要求的情况下,该要素使用“针对……的步骤”而被陈述。
虽然本说明书包含许多细节,但这些细节不应被解释为对可以被描述的内容的范围的限制,而应被理解为对用户事项的特定实现的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来被实现。此外,尽管特征在上面可以被描述为以某些组合起作用,甚至在最初被描述为这样,但是在一些情况下,来自所描述的组合的一个或多个特征可以从该组合中被删除,并且所描述的结合可以针对子组合或子组合的变体。
本说明书的用户事项已经根据特定方面进行了描述,但其他方面也可以被实现,并且在上述权利要求的范围内。例如,虽然在附图中以特定顺序描述了操作,但这不应被理解为要求以所示的特定顺序或顺序执行这样的操作,或者要求执行所有所示的操作,以实现期望的结果。权利要求中列举的动作可以以不同的顺序执行,并且仍然实现期望的结果。作为一个示例,附图中描述的过程不一定需要所示的特定顺序或顺序来实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,不应将上述各方面中的各种系统部件的分离理解为在所有方面都需要这样的分离,并且应理解的是,所描述的程序部件和系统通常可以一起被集成在单个软件产品中或被封装到多个软件产品中。
标题、背景技术、附图及其描述被并入本公开,并作为本公开的说明性示例而非限制性描述提供。提交时应理解它们不会被用来限制权利要求的范围或含义。此外,在详细描述中,可以看出,该描述提供了说明性示例,并且为了简化本公开的目的,在各种实现中将各种特征分组在一起。公开的方法不应被解释为反映所描述的用户事项需要的特征比每个权利要求中明确列举的特征更多的意图。相反,正如权利要求所反映的那样,创造性的用户事项不在于单个公开的配置或操作的所有特征。权利要求并入本文的详细描述中,每个权利要求独立地作为单独描述的用户事项。
权利要求不旨在局限于本文所述的方面,而是应被赋予与语言权利要求一致的全部范围,并涵盖所有法律等价物。尽管如此,任何权利要求都不旨在包含不能满足适用专利法要求的用户事项,也不应以这种方式对其进行解释。

Claims (20)

1.一种计算机实现的方法,包括:
捕捉第一对象的面部表情的图像;
识别所述图像中的一个或多个特征,所述一个或多个特征指示所述第一对象的个人特性;
基于所述第一对象的所述面部表情,从人体模型中的标准表情集中识别被选择的表情;
将指示所述第一对象的所述个人特性的所述一个或多个特征转移到在所述人体模型中的所述被选择的表情;以及
向沉浸式现实应用提供所述人体模型,以用于在客户端设备上显示。
2.根据权利要求1所述的计算机实现的方法,其中所述第一对象是增强现实头戴式耳机的用户,并且捕捉所述第一对象的所述面部表情的所述图像包括用安装在所述增强现实头戴式耳机上的相机捕捉所述图像。
3.根据权利要求1所述的计算机实现的方法,其中识别指示所述第一对象的个人特性的所述一个或多个特征包括:从叠加在所述第一对象的所述面部表情的所述图像上的网格中选择已经移动了大于被选择的阈值的量的顶点组。
4.根据权利要求1所述的计算机实现的方法,其中识别指示所述第一对象的个人特性的一个或多个特征包括:在导数张量中发现一个或多个临界点,所述导数张量与所述第一对象的所述面部表情的所述图像的网格运动相关联。
5.根据权利要求1所述的计算机实现的方法,其中识别指示所述第一对象的个人特性的所述一个或多个特征包括:识别与所述第一对象的所述图像相关联的三维网格中的一个或多个关键点的位移。
6.根据权利要求1所述的计算机实现的方法,其中基于所述第一对象的所述面部表情,识别被选择的表情包括:发现与所述第一对象的所述面部表情相关联的网格中的多个顶点和与具有所述被选择的表情的所述人体模型相关联的网格中的多个顶点之间的距离的度量。
7.根据权利要求1所述的计算机实现的方法,还包括选择所述人体模型作为所述人体模型的风格化化身。
8.根据权利要求1所述的计算机实现的方法,其中将指示所述第一对象的个人特性的所述一个或多个特征转移到所述人体模型中的所述被选择的表情包括:将针对所述第一对象的网格中的顶点组的移动复制到针对所述人体模型的网格中的对应顶点组。
9.根据权利要求1所述的计算机实现的方法,其中所述客户端设备与用户在一起,所述方法还包括:向所述沉浸式现实应用提供用所述用户的面部表情修改的第二风格化人体模型,以用于与所述第一对象一起在第二客户端设备上显示。
10.根据权利要求1所述的计算机实现的方法,其中所述沉浸式现实应用在所述第一对象和第二对象之间被共享,所述方法还包括:向所述客户端设备上的显示器提供用所述第二对象的面部表情修改的第二风格化人体模型。
11.一种系统,包括:
存储器,存储多个指令;以及
一个或多个处理器,被配置为执行所述指令以执行操作,所述操作包括:
捕捉第一对象的面部表情的图像;
识别所述图像中的一个或多个特征,所述一个或多个特征指示所述第一对象的个人特性;
基于所述第一对象的所述面部表情,从人体模型中的标准表情集中识别被选择的表情;
将指示所述第一对象的所述个人特性的所述一个或多个特征转移到在所述人体模型中的所述被选择的表情;以及
向沉浸式现实应用提供所述人体模型,以用于在客户端设备上显示。
12.根据权利要求11所述的系统,其中所述第一对象是增强现实头戴式耳机的用户,并且为了捕捉所述第一对象的所述面部表情的所述图像,所述一个或多个处理器执行指令以用安装在所述增强现实头戴式耳机上的相机捕捉所述图像。
13.根据权利要求11所述的系统,其中为了识别指示所述第一对象的个人特性的所述一个或多个特征,所述一个或多个处理器执行指令以从叠加在所述第一对象的所述面部表情的所述图像上的网格中选择已经移动了大于被选择的阈值的量的顶点组。
14.根据权利要求11所述的系统,其中为了识别指示所述第一对象的个人特性的一个或多个特征,所述一个或多个处理器执行指令以在导数张量中发现一个或多个临界点,所述导数张量与所述第一对象的所述面部表情的所述图像的网格运动相关联。
15.根据权利要求11所述的系统,其中为了识别指示所述第一对象的个人特性的所述一个或多个特征,所述一个或多个处理器执行指令以识别与所述第一对象的所述图像相关联的三维网格中的一个或多个关键点的位移。
16.根据权利要求11所述的系统,其中为了基于所述第一对象的所述面部表情,识别被选择的表情,所述一个或多个处理器执行指令以发现与所述第一对象的所述面部表情相关联的网格中的多个顶点和与具有所述被选择的表情的所述人体模型相关联的网格中的多个顶点之间的距离的度量。
17.根据权利要求11所述的系统,其中所述一个或多个处理器还执行指令以选择所述人体模型作为所述人体模型的风格化化身。
18.根据权利要求11所述的系统,其中为了将指示所述第一对象的个人特性的所述一个或多个特征转移到所述人体模型中的所述被选择的表情,所述一个或多个处理器执行指令以将针对所述第一对象的网格中的顶点组的移动复制到针对所述人体模型的网格中对应的顶点组。
19.根据权利要求11所述的系统,其中所述客户端设备与用户在一起,其中所述一个或多个处理器还执行指令以向所述沉浸式现实应用提供用所述用户的面部表情修改的第二风格化人体模型,以用于与所述第一对象一起在第二客户端设备上显示。
20.根据权利要求11所述的系统,其中所述沉浸式现实应用在所述第一对象和第二对象之间被共享,并且所述一个或多个处理器还执行指令以向所述客户端设备上的显示器提供用所述第二对象的面部表情修改的第二风格化人体模型。
CN202310902821.3A 2022-07-22 2023-07-21 表情转移到风格化化身 Pending CN117437335A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US63/391,645 2022-07-22
US18/056,986 US20240029331A1 (en) 2022-07-22 2022-11-18 Expression transfer to stylized avatars
US18/056,986 2022-11-18

Publications (1)

Publication Number Publication Date
CN117437335A true CN117437335A (zh) 2024-01-23

Family

ID=89557283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310902821.3A Pending CN117437335A (zh) 2022-07-22 2023-07-21 表情转移到风格化化身

Country Status (1)

Country Link
CN (1) CN117437335A (zh)

Similar Documents

Publication Publication Date Title
US11736756B2 (en) Producing realistic body movement using body images
US20220150285A1 (en) Communication assistance system, communication assistance method, communication assistance program, and image control program
JP2021192222A (ja) 動画インタラクティブ方法と装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム
KR101306221B1 (ko) 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법
US20160134840A1 (en) Avatar-Mediated Telepresence Systems with Enhanced Filtering
JP2023520463A (ja) 最適視線弁別のためのアバタカスタマイズ
US9805493B2 (en) Social identity models for automated entity interactions
WO2016191159A1 (en) Augmenting ar/vr displays with image projections
US11960792B2 (en) Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
KR102148151B1 (ko) 디지털 커뮤니케이션 네트워크에 기반한 지능형 채팅
CN114144790A (zh) 具有三维骨架正则化和表示性身体姿势的个性化语音到视频
WO2020129959A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び表示方法
Pelachaud et al. Multimodal behavior modeling for socially interactive agents
CN112424736A (zh) 机器交互
US20220148268A1 (en) Systems and methods for personalized and interactive extended reality experiences
US20230419579A1 (en) Three-dimensional face animation from speech
Pelechano et al. Feeling crowded yet?: crowd simulations for VR
CN116721190A (zh) 一种语音驱动三维人脸动画生成方法
Putra et al. Designing translation tool: Between sign language to spoken text on kinect time series data using dynamic time warping
CN117437335A (zh) 表情转移到风格化化身
EP4345755A1 (en) Expression transfer to stylized avatars
Gonzalez et al. Passing an enhanced Turing test–interacting with lifelike computer representations of specific individuals
Khan An Approach of Lip Synchronization With Facial Expression Rendering for an ECA
US20240119690A1 (en) Stylizing representations in immersive reality applications
CN117808934A (zh) 一种数据处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination