CN116547717A

CN116547717A - 面部动画合成

Info

Publication number: CN116547717A
Application number: CN202180080044.8A
Authority: CN
Inventors: 帕韦尔·萨夫琴科夫; 尤里·沃尔科夫; 杰里米·巴克·沃斯
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2020-11-30
Filing date: 2021-11-19
Publication date: 2023-08-04
Also published as: US11335069B1; WO2022115325A1; US20220270332A1; US20220172438A1; EP4252192A1; KR20230113370A

Abstract

在一些实施方式中，通过提供被称为面部动画合成的处理来增强用户参与增强现实技术的体验，该处理用来自用户肖像图像的用户面部替换视频帧中的表演者面部。视频帧中的所得面部保留了表演者面部的面部表情以及颜色和照明，但是同时具有用户面部的样子。通过提供面部动画合成增强现实组件，可以使示例面部动画合成体验对消息收发系统的应用可用。

Description

面部动画合成

优先权要求

本申请要求于2020年11月30日提交的美国专利申请序列第17/107,410号的优先权的权益，其全部内容通过引用并入本文中。

技术领域

本公开内容总体上涉及操纵电子内容。

背景技术

面部动画合成是可以包括将面部的面部表情从源图像(例如，源视频中的帧)转移至目标图像中的面部的处理。虽然存在用于面部动画合成的现有技术，但是在使得面部动画合成的结果一方面适用于源图像中的面部表情另一方面适用于标识来自目标图像的面部的特征的领域中，存在相当大的改进空间。在娱乐节目、计算机游戏、视频会话以及在消息收发系统中提供增强现实体验时应用面部动画合成是可能有益的。

附图说明

在不一定按比例绘制的附图中，相似的附图标记可以在不同视图中描述类似的部件。为了容易地识别对任何特定元件或动作的讨论，附图标记中的一个或多个最高位数字指代该元件被首次引入时所在的图号。在附图的图中以示例而非限制的方式示出了一些实施方式，在附图中：

图1是根据一些示例的其中可以部署本公开内容的联网环境的图解表示。

图2是根据一些示例的具有客户端侧和服务器侧两者的功能的消息收发系统的图解表示。

图3是根据一些示例的在数据库中维护的数据结构的图解表示。

图4是根据一些示例的消息的图解表示。

图5是根据一些示例的访问限制过程的流程图。

图6是根据一些示例的用于利用面部动画合成来提供增强现实体验的流程图。

图7示出了描绘用户的图像、描绘表演者的图像和由面部动画合成处理得到的图像的示例。

图8示出了对确定面部表情的面部特征的相应位置进行标识的面部界标的集合的示例。

图9是根据一些示例的显示摄像装置的数字图像传感器的输出和经修改的源帧的摄像装置视图用户界面的图解表示。

图10是根据一些示例的显示经修改的源帧而不是摄像装置的数字图像传感器的输出的摄像装置视图用户界面的图解表示。

图11是根据一些示例的呈计算机系统形式的机器的图解表示，在该计算机系统内可以执行一组指令以使该机器执行本文中所讨论的任何一种或更多种方法。

具体实施方式

本公开内容的实施方式通过增强用户参与增强现实技术的体验来改进电子消息收发软件和系统的功能。

在一些实施方式中，可以通过提供被称为面部动画合成的处理来增强用户参与增强现实技术的体验，该处理用来自用户的肖像图像的用户面部替换视频帧中的表演者面部，使得视频帧中的所得面部保留了表演者面部的面部表情以及颜色和照明(lighting)，但是具有用户面部的样子。在图7中示出了描绘用户的图像、描绘表演者的图像以及由面部动画合成处理得到的图像的示例，其在下面进一步描述。在一些实施方式中，面部动画合成的处理采用机器学习技术，例如卷积神经网络。

第一神经网络，嵌入器机器学习模型，被配置成基于包括目标面部对象的图像来生成表示目标面部对象的面部特征的嵌入。使用词语“目标”是因为可以将目标面部对象描述为将另一个人的面部表情投射到其上的目标。由嵌入表示的面部特征包括使人脸可被识别为特定的人的特性，而与相关联的面部表情无关并且也与面部的颜色和照明无关。面部特征的示例包括眼睛、鼻子、嘴、眉毛的各自大小和形状，以及如皱纹和胡须的特征。可以说，嵌入表示由面部对象所描绘的人的样子。从用户的肖像图像(例如，从用户的自拍)获得面部对象。可以利用例如基于维奥拉-琼斯(Viola-Jones)特征的对象检测框架或MTCNN(多任务级联卷积神经网络)借助于面部检测技术从图像中得到面部对象。在一个示例中，由嵌入器机器学习模型以数值张量的形式生成嵌入。

被称为生成器机器学习模型的另一神经网络被配置成将来自用户的肖像图像的用户面部与视频帧中的面部(例如，与来自电影的短视频片段中的表演者的面部)混合，使得视频帧中的所得面部保留了表演者的面部的面部表情，但是具有用户的面部的样子。该视频被称为源视频，因为其可以被理解为是来自肖像图像的用户的面部表情和背景景色的源。

生成器机器学习模型的输入是嵌入，该嵌入由嵌入器机器学习模型基于用户的肖像图像和源视频的帧产生。在提供给生成器机器学习模型作为输入的源视频中，除了表演者的嘴张开的那些帧中描绘表演者的嘴的内部的区域之外，遮蔽每一帧中的面部区域(下颌线与眉毛之间的区域)。此外，生成器机器学习模型接收每一帧中的表演者的面部表情的表示作为输入。由对确定面部表情的面部特征(例如，嘴和眉毛的位置和取向、确定注视方向的瞳孔的位置和取向)的各个位置进行标识的面部界标的集合来对面部表情进行编码。在图8中示出了对确定面部表情的面部特征的各个位置进行标识的面部界标的集合的示例，其在下面进一步描述。可以由预训练的界标检测模型来生成用于面部对象的面部界标的集合。生成器机器学习模型的输出是视频帧，在该视频帧中，表演者的面部具有用户的样子，同时保留了表演者的原始面部表情以及颜色和照明。

生成器机器学习模型可以使用人们谈话的视频(例如，人们如在面试中回答问题的视频)的训练数据集来进行训练。在训练期间，生成器机器学习模型神经网络接收来自同一视频的不同帧的形式的输入，其中这些帧描绘了同一个人(例如，表演者)。修改描绘表演者的输入帧，以保留确定表演者的面部表情的特征(例如，嘴和眉毛的位置和取向、确定注视方向的瞳孔的位置和取向等)，同时移除确定表演者独特标识的面部特征(例如，眼睛的形状和大小、眼睛之间的距离、嘴的形状和大小等)。图像中描绘的面部表情可以以指示特征(例如，嘴和眉毛的位置和取向、确定注视方向的瞳孔的位置和取向等)的界标集合的形式进行编码。

如生成器机器学习模型那样，嵌入器机器学习模型使用人们谈话的视频来进行训练，其中嵌入器机器学习模型神经网络接收来自描绘同一个人的视频的帧的形式的输入。然而，由于嵌入器机器学习模型的输出——嵌入——被生成器机器学习模型使用以产生视频帧，其中表演者的面部具有由嵌入表示的面部特征，同时不仅保留了表演者的面部表情，而且还保留了表演者的面部的颜色和照明，因此嵌入器机器学习模型被训练为不将目标面部的颜色和照明包括在所得到的嵌入的特征中。为了该描述的目的，将用于训练生成器机器学习模型和嵌入器机器学习模型以及生成和/或准备训练数据的各种处理模块称为训练系统。

为了训练嵌入器机器学习模型以产生表示面部特征而不是面部的颜色和照明的嵌入，训练系统利用描绘具有各自不同的面部颜色和照明的不同的人的面部的颜色源图像的集合。对于用于训练嵌入器机器学习模型的训练数据集中的每个训练面部图像，训练系统生成输入面部图像，该输入面部图像具有从颜色源图像集合中随机选择的图像的颜色和照明，并且该输入面部图像具有来自训练面部图像的面部对象的面部特征和表情。在训练期间，因为嵌入器机器学习模型通过将训练面部图像的颜色和照明改变为随机选择的不同颜色和照明而被故意“混淆”，因此经训练的嵌入器机器学习模型生成了表示来自训练面部图像的面部特征的颜色中性嵌入。

用于将从颜色源图像集合中随机选择的图像的颜色和照明转移到目标面部图像上的示例处理包括：生成或访问用于目标面部图像和颜色源图像的各个面部界标，并且扭曲颜色源图像使得经扭曲的颜色源图像的界标匹配来自目标面部的界标，从而使颜色源图像和目标面部中的相应面部轮廓、眉毛、眼睛、鼻子和嘴对准。其他操作包括：针对每个图像(颜色源图像和目标面部图像)计算相应的拉普拉斯(Laplacian)金字塔表示。在一个示例中，处于最小金字塔层级的图像的大小是1/16的分辨率。用表示经扭曲的颜色源图像的金字塔的最小层级替换表示目标面部图像的金字塔中的最小层级，以产生经修改的金字塔。从经修改的金字塔恢复的图像被用作输入面部图像，因为其具有来自目标面部的面部特征和表情，但是具有颜色源图像的颜色和照明。所得的输入图像是目标图像的随机颜色版本。

可以如下在面部动画合成的处理中使用经训练的嵌入器机器学习模型和生成器机器学习模型。嵌入器机器学习模型使用包括作为输入的目标面部对象的肖像图像作为输入，并且生成嵌入。嵌入表示来自目标面部对象的面部特征，并且缺少目标面部对象的颜色和照明的表示。生成器机器学习模型使用包括表示表演者的源面部对象的源帧作为输入，并且通过用新的面部对象替换源面部对象来修改源帧，其中，新的面部对象具有由嵌入表示的面部特征、具有来自源面部对象的面部表情并且具有来自源面部对象的颜色和照明。经修改的源帧可以显示在显示设备上。本文中描述的面部动画合成方法可以使得能够被消息收发系统的用户访问。

针对相关联的消息收发客户端托管后端服务的消息收发系统被配置成允许用户利用与托管消息收发客户端的客户端设备一起提供的摄像装置捕获图像和视频，并且经由网络通信与其他用户共享所捕获的内容。消息收发系统还被配置成提供能够经由消息收发客户端访问的增强现实(AR)组件。AR组件可以用于修改由摄像装置捕获的内容，例如通过将图片或动画叠加在所捕获的图像或视频帧的顶部上，或者通过添加三维(3D)效果、对象、字符和变换来修改由摄像装置捕获的内容。可以使用适用于app开发的例如JavaScript或Java的编程语言来实现AR组件。AR组件在消息收发服务器系统中由相应的AR组件标识符来标识。

用户可以通过与包括在由消息收发客户端呈现的摄像装置视图用户界面中的用户可选元素实际交互(engage)来访问由AR组件提供的功能。摄像装置视图用户界面被配置成：显示与相关联的客户端设备一起提供的摄像装置的数字图像传感器的输出，显示可操作以通过摄像装置捕获图像或开始和停止视频录制的用户可选元素，并且还显示表示相应的AR组件的一个或更多个用户可选元素。摄像装置视图用户界面可以包括允许用户应用并且还移除由AR组件产生的视觉效果的一个或更多个用户可选元素。由消息收发客户端显示的画面被称为摄像装置视图画面，所述显示的画面可以包括摄像装置的数字图像传感器的输出、可操作以通过摄像装置捕获图像或开始和停止视频录制的用户可选元素，并且还可以显示表示相应的AR组件的一个或更多个用户可选元素。表示AR组件的用户可选元素可操作以启动该AR组件。当AR组件被启动时，用AR组件提供的修改来增强显示在摄像装置视图用户界面中的摄像装置的数字图像传感器的输出。例如，AR组件可以被配置成检测由数字图像传感器捕获的人的头部位置，并且将派对帽的图像叠加在所检测到的头部位置上方，使得观看者将看到呈现的人好像佩戴了派对帽。

为了该描述的目的，被配置成提供面部动画合成能力的示例AR组件可以被称为面部动画合成AR组件。面部动画合成AR组件可以通过在由消息收发客户端呈现的摄像装置视图用户界面中提供表示面部动画合成AR组件的用户可选元素而对用户可用。当用户在访问消息收发客户端时在摄像装置视图用户界面中与表示面部动画合成AR组件的用户可选元素实际交互时，消息收发系统在消息收发客户端中加载AR组件。加载的面部动画合成AR组件访问用户(正在访问消息收发客户端的用户或不同于正在访问消息收发客户端的用户)的肖像图像、访问源帧并且执行上述面部动画合成处理。面部动画合成处理的结果——修改的源帧，使得经修改的源帧中描绘的面部具有来自肖像图像的面部的样子，但是具有来自源帧的面部表情以及颜色和照明——呈现在消息收发客户端的摄像装置视图用户界面中。在一些示例中，面部动画合成AR组件相对于源视频的帧执行面部动画合成处理，以生成经修改的源视频，在经修改的源视频中，视频中的表演者的面部看起来执行与源视频中的表演者的面部相同的面部运动，但是具有来自肖像图像的面部的样子。

面部动画合成处理的结果可以在摄像装置视图用户界面中显示为叠加在摄像装置的数字图像传感器的输出的一部分上。例如，在用户使用前置摄像装置使得摄像装置的数字图像传感器的输出是用户的图像的情况下，摄像装置画面视图显示由摄像装置的数字图像传感器捕获的用户的图像，并且还显示具有来自肖像图像的面部的经修改的源视频。

在另一示例中，具有来自肖像图像的面部的经修改的源视频而不是摄像装置的数字图像传感器的输出呈现在摄像装置视图画面上。在该示例中，摄像装置的数字图像传感器的输出在摄像装置视画面中不可见。

将注意的是，虽然在消息收发系统的背景下描述了面部动画合成处理，但是本文中描述的方法可以有益地用于其他各种环境，例如娱乐节目、计算机游戏、视频会话等。

联网计算环境

图1是示出用于通过网络来交换数据(例如，消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例，每个实例托管包括消息收发客户端104的若干应用。每个消息收发客户端104经由网络106(例如，因特网)通信地耦接至消息收发服务器系统108和消息收发客户端104的其他实例。

消息收发客户端104能够经由网络106与另一消息收发客户端104和消息收发服务器系统108通信和交换数据。在消息收发客户端104之间以及消息收发客户端104与消息服收发服务器系统108之间交换的数据包括功能(例如，调用功能的命令)以及净荷数据(例如，文本、音频、视频或其他多媒体数据)。例如，消息收发客户端104允许用户访问由面部动画合成AR组件提供的功能(即，用来自用户的肖像图像的用户面部替换视频帧中的表演者的面部，使得视频帧中的所得面部保留了表演者的面部的面部表情，但是具有用户的面部的样子)，该功能可以至少部分地驻留在消息收发服务器系统108。如上所述，面部动画合成AR组件被配置成提供面部动画合成能力。

消息收发服务器系统108经由网络106向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行，但是某些功能是位于消息收发客户端104内还是位于消息收发服务器系统108内可以是设计选择。例如，可能在技术上优选是：最初将某些技术和功能部署在消息收发服务器系统108内，但是后面将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。例如，相对于由面部动画合成AR组件提供的功能，可以在消息收发服务器系统108处执行以下操作以保存托管消息收发客户端104的客户端设备102的资源：生成表示来自目标面部对象的面部特征的嵌入；以及使用嵌入和源帧作为输入来执行生成器机器学习模型，以通过用新的面部对象替换源面部对象来修改源帧，所述新的面部对象包括由嵌入表示的面部特征、来自源面部对象的面部表情以及来自源面部对象的颜色和照明，执行生成器机器学习模型可以响应于检测到表示面部动画合成AR组件的用户可选元素的激活而执行。替选地，如果确定托管消息收发客户端104的客户端设备102具有足够的处理资源，则可以由消息收发客户端104执行这些操作中的一些或全部。在一些示例中，可以在消息收发服务器系统108处执行嵌入器机器学习模型的训练和生成器机器学习模型的训练。

消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例，该数据可以包括消息内容、客户端设备信息、地理位置信息、媒体增强和叠加、消息内容持久化条件、社交网络信息和实况事件信息。通过经由消息收发客户端104的用户接口(UI)可用的功能来调用和控制消息收发系统100内的数据交换。例如，消息收发客户端104可以呈现摄像装置视图用户界面，该摄像装置视图用户界面显示与客户端设备102一起提供的摄像装置的数字图像传感器的输出，并且还显示可操作以在消息收发客户端104中加载面部动画合成AR组件的用户可选元素。

现在具体地转至消息收发服务器系统108，应用程序接口(API)服务器110耦接至应用服务器112并且向应用服务器112提供编程接口。应用服务器112通信上耦接至数据库服务器118，这促进访问数据库120，该数据库120存储与由应用服务器112处理的消息相关联的数据。类似地，web服务器124耦接至应用服务器112，并且向应用服务器112提供基于web的接口。为此，web服务器124通过超文本传输协议(HTTP)和若干其他相关协议处理传入的网络请求。

应用程序接口(API)服务器110在客户端设备102与应用服务器112之间接收和发送消息数据(例如，命令和消息净荷)。具体地，应用程序接口(API)服务器110提供一组接口(例如，例程和协议)，该组接口可以由消息收发客户端104调用或查询以激活应用服务器112的功能。应用程序接口(API)服务器110公开了由应用服务器112支持的各种功能，包括：帐户注册；登录功能；经由应用服务器112从特定消息收发客户端104向另一消息收发客户端104发送消息；从消息收发客户端104向消息收发服务器114发送媒体文件(例如，图像或视频)并且用于另一消息收发客户端104的可能的访问；对媒体数据的集合(例如，故事)进行设置；检索客户端设备102的用户的朋友列表；检索这样的集合；检索消息和内容；对实体图(例如，社交图)添加和删除实体(例如，朋友)；定位社交图内的朋友；以及打开应用事件(例如，与消息收发客户端104相关的)。

应用服务器112托管若干服务器应用和子系统，包括例如消息收发服务器114、图像处理服务器116以及社交网络服务器122。消息收发服务器114实现若干消息处理技术和功能，特别是与从消息收发客户端104的多个实例接收到的消息中包括的内容(例如，文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将进一步详细描述的，来自多个源的文本和媒体内容可以被聚合成内容的集合(例如，被称为故事或图库(gallery))。然后，使这些集合对消息收发客户端104可用。鉴于对这样的处理的硬件要求，也可以由消息收发服务器114在服务器侧执行数据的其他处理器和存储器密集型处理。

应用服务器112还包括图像处理服务器116，该图像处理服务器116专用于执行各种图像处理操作，通常相对于在从消息收发服务器114发送或者在消息收发服务器118处接收的消息的净荷内的图像或视频，执行各种图像处理操作。各种图像处理操作中的一些可以由各种AR组件执行，AR组件可以由图像处理服务器116托管或支持。如上所述，AR组件的示例是面部动画合成AR组件，面部动画合成AR组件被配置成用来自用户的肖像图像的用户面部替换视频帧中的表演者的面部，使得视频帧中的所得面部保留了表演者的面部的面部表情，但是具有用户的面部的样子。

社交网络服务器122支持各种社交联网功能和服务并且使这些功能和服务可用于消息收发服务器114。为此，社交网络服务器122维护和访问数据库120内的实体图306(如图3所示)。由社交网络服务器122支持的功能和服务的示例包括识别消息收发系统100中的与特定用户有“朋友”关系或特定用户“关注”的其他用户，以及识别特定用户的兴趣和其他实体。

参照由面部动画合成AR组件提供的功能，如上所述，由面部动画合成AR组件利用的肖像图像可以是正在访问消息收发客户端的用户的肖像图像，或者代替地，可以是不同于正在访问消息收发客户端的用户的肖像图像。由社交网络服务器122对消息收发系统100中的与特定用户有“朋友”关系的其他用户的识别可以用于确定对另一用户的识别，而不是对其肖像图像将由面部动画合成AR组件使用的正在访问消息收发客户端的用户的识别。

系统架构

图2是示出根据一些示例的关于消息收发系统100的进一步细节的框图。具体地，消息收发系统100被示出为包括消息收发客户端104和应用服务器112。消息收发系统100包含若干子系统，这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器112支持。这些子系统包括例如短暂定时器系统202、集合管理系统204和增强系统206。

短暂定时器系统202负责实施由消息收发客户端104和消息收发服务器114对内容的临时或时间受限访问。短暂定时器系统202包含若干定时器，这些定时器基于与消息或消息的集合(例如，故事)相关联的持续时间和显示参数，选择性地实现经由消息收发客户端104访问(例如，用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的另外的细节。

集合管理系统204负责管理媒体的组或集合(例如，文本、图像视频和音频数据的集合)。可以将内容(例如，消息，包括图像、视频、文本和音频)的集合组织成“事件图库”或“事件故事”。可以使这样的集合在指定时间段(例如与内容有关的事件的持续时间)内可用。例如，可以使与音乐会有关的内容在该音乐会的持续时间内作为“故事”可用。在另一示例中，集合可以包括使用包括面部动画合成AR组件的一个或更多个AR组件生成的内容，面部动画合成AR组件可以包括由摄像装置捕获、使用媒体内容对象来增强、使用先前捕获和存储的用户图像来修改的内容。集合管理系统204还可以负责向消息收发客户端104的用户接口发布提供特定集合的存在的通知的图标。

此外，集合管理系统204还包括使得集合管理者能够管理和策展特定内容集合的策展接口212。例如，策展接口212使得事件组织者能够策展与特定事件相关的内容集合(例如，删除不适当的内容或冗余消息)。此外，集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动策展内容集合。在某些示例中，可以因将用户生成的内容包括到集合中而向用户支付补偿。在这样的情况下，集合管理系统204进行操作以自动地向这样的用户支付以使用他们的内容。

增强系统206提供使得用户能够增强(例如，标注或以其他方式修改或编辑)可能与消息相关联的媒体内容的各种功能。例如，增强系统206提供与生成和发布用于由消息收发系统100处理的消息的媒体叠加有关的功能。媒体叠加可以存储在数据库120中并且通过数据库服务器118访问。

参照面部动画合成AR组件，与面部动画合成AR组件相关联的媒体叠加是通过执行嵌入器机器学习模型和生成器机器学习模式而生成的经修改的源帧或经修改的源视频，如本文中所讨论的。如上所述，面部动画合成AR组件在被加载到接收来自用户的输入的消息收发客户端中时，访问用户(正在访问消息收发客户端的用户或者与正在访问消息收发客户端的用户不同的用户)的肖像图像、访问源帧并且执行上述面部动画合成处理。面部动画合成处理的结果——修改的源帧，使得经修改的源帧中描绘的面部具有来自肖像图像的面部的样子，但是具有源帧中的面部表情以及颜色和照明——呈现在消息收发客户端的摄像装置视图用户界面中。在一些示例中，面部动画合成AR组件相对于源视频的帧执行面部动画合成处理以生成经修改的源视频，在经修改的源视频中，视频中的表演者的面部看起来执行与源视频中的表演者的面部相同的面部运动，但是具有来自肖像图像的面部的样子。下面进一步参照图6描述由增强系统206执行的示例操作，该示例操作示出了由面部动画合成AR组件提供的一些功能。

在一些示例中，增强系统206被配置成提供对AR组件的访问，AR组件可以使用适合于app开发的编程语言(诸如例如，JavaScript或Java)来实现并且在消息收发服务器系统中由相应的AR组件标识符标识。AR组件可以包括或引用与图像修改、过滤、媒体叠加、变换等对应的各种图像处理操作。这些图像处理操作可以提供真实世界环境的交互体验，其中由计算机生成的感知信息来增强由数字图像传感器或摄像装置捕获的对象、表面、背景、照明等。在该上下文中，AR组件包括将选择的增强现实体验应用于图像或视频馈送所需的数据、参数和其他资产的集合。

在一些实施方式中，AR组件包括被配置成以某种方式对在客户端设备的图形用户界面(GUI)内呈现的图像数据进行修改或变换的模块。例如，可以使用AR组件数据来执行对内容图像的复杂添加或变换，例如在视频片段中向人的头部添加兔耳、向视频片段添加具有背景颜色的浮动心、改变视频片段内的人的特征的比例或许多其他这样的变换。这包括实时修改以及对存储的内容的修改两者，实时修改在使用与客户端设备相关联的摄像装置捕获图像并且然后在客户端设备的屏幕显示该图像时利用AR组件修改对图像进行修改，对存储的内容(例如，图库中的视频片段)的修改例如可以使用AR组件进行修改。

可以由AR组件提供的各种增强现实功能包括：检测对象(例如，面部、手、身体、猫、狗、表面、对象等)，在这样的对象离开、进入视频帧中的视场并且在视频帧中的视场周围移动时跟踪这样的对象，以及在这样的对象被跟踪时对这样的对象进行修改或变换。在各种实施方式中，可以使用用于实现这样的变换的不同方法。例如，一些实施方式可能涉及生成一个或多个对象的3D网格模型，并且使用视频内的模型的变换和动画纹理来实现变换。在其他实施方式中，对对象上的点的跟踪可以用于将图像或纹理(其可以是二维或三维的)置于所跟踪的位置处。在又一另外的实施方式中，视频帧的神经网络分析可以用于将图像、模型或纹理置于内容(例如图像或视频帧)中。因此，AR组件数据既指用于在内容中创建变换的图像、模型和纹理，也指利用对象检测、跟踪和放置实现这样的变换所需的附加建模和分析信息。

如上所述，AR组件的示例是面部动画合成AR组件，该面部动画合成AR组件在被加载到接收来自用户的输入的消息收发客户端中时，访问用户的肖像图像、访问源帧并且执行上述面部动画合成处理。在一些示例中，面部动画合成AR组件被配置成利用面部检测技术来从图像得出面部对象。面部检测技术的示例包括基于维奥拉-琼斯特征的对象检测框架和诸如“多任务级联卷积神经网络”或MTCNN的深度学习方法。

数据架构

图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库120中的数据结构300的示意图。虽然数据库120的内容被示出为包括若干表，但是将理解的是，数据可以存储在其他类型的数据结构(例如，作为面向对象数据库)中。

数据库120包括存储在消息表302内的消息数据。对于任何特定的一条消息，该消息数据包括至少消息发送者数据、消息接收方(或接收者)数据和净荷。下面参照图4描述关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。

实体表304存储实体数据，并且(例如，引用地)链接到实体图306和简档数据308。在实体表304内为其维持记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。不管实体类型如何，消息收发服务器系统108存储关于其的数据的任何实体可以是识别的实体。为每个实体提供唯一的标识符以及实体类型标识符(未示出)。

实体图306存储与实体之间的关系和关联有关的信息。仅作为示例，这样的关系可以是基于兴趣或者基于活动的社交关系、职业关系(例如，在共同的公司或组织工作)。参考由面部动画合成AR组件提供的功能，在面部动画合成AR组件被配置成允许使用与控制相关联的客户端设备的用户的肖像图像不同的用户的肖像图像来修改目标媒体内容对象的情况下，实体图306存储可以用于确定连接至表示控制相关联的客户端设备的用户的简档的另一简档的信息。

简档数据308存储关于特定实体的多种类型的简档数据。基于由特定实体指定的私密设置，简档数据308可以被选择性地使用并呈现给消息收发系统100的其他用户。在实体是个人的情况下，简档数据308包括例如用户名、电话号码、地址、设置(例如，通知和隐私设置)、以及用户选择的化身表示(或这样的化身表示的集合)。然后，特定用户可以将这些化身表示中的一个或更多个选择性地包括在经由消息收发系统100传送的消息的内容中以及在由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”，其呈现用户可以选择在特定时间传送的状态或活动的图形表示。

参考由面部动画合成AR组件提供的功能，简档数据308存储用户的肖像图像或对肖像图像的引用。肖像图像由相关联的简档所表示的用户提供。如上所述，当面部动画合成AR组件加载在消息收发客户端104中时，面部动画合成AR组件可以使用肖像图像。

数据库120还在增强表310中存储增强数据。增强数据与视频(视频的数据被存储在视频表314中)和图像(图像的数据被存储在图像表316中)相关联并且应用于视频和图像。在一些示例中，由包括面部动画合成AR组件的各种AR组件使用增强数据。增强数据的示例是源帧或源视频，如上所述，源帧或源视频可以与面部动画合成AR组件相关联并且用于为用户生成相关联的AR体验。

增强数据的另一示例是可以用于AR组件以实现图像变换的增强现实(AR)工具。图像变换包括实时修改，实时修改在使用客户端设备102的数字图像传感器捕获图像(例如，视频帧)时修改该图像。经修改的图像与修改一起显示在客户端设备102的屏幕上。AR工具还可以用于将修改应用于所存储的内容，例如存储在图库中的视频片段或静态图像。在具有对多个AR工具访问的客户端设备102中，用户可以将不同的AR工具(例如，通过参与被配置成利用不同AR工具的不同AR组件)应用于单个视频片段，以查看不同的AR工具将如何修改相同的视频片段。例如，通过为同一捕获内容选择不同的AR工具，可以将应用不同伪随机运动模型的多个AR工具应用于同一捕获内容。类似地，实时视频捕获可以与示出的修改一起使用，以显示当前由与客户端设备102一起提供的摄像装置的数字图像传感器捕获的视频图像将如何修改所捕获的数据。这样的数据可以仅显示在屏幕上而不存储在存储器中，或者由数字图像传感器捕获的内容可以在进行或不进行修改(或两者)的情况下被记录并存储在存储器中。消息收发客户端104可以被配置成包括预览特征，该预览特征可以显示将如何同时在显示器中的不同窗口内查看由不同的AR工具产生的修改。这可以例如允许用户观看同时在显示器上呈现的具有不同伪随机动画的多个窗口。

在一些示例中，当与要变换的内容一起选择特定修改时，要变换的元素由计算设备识别，并且然后如果要变换的元素存在于视频的帧中，则对其进行检测和跟踪。根据修改请求修改对象的元素，从而变换视频流的帧。对于不同类型的变换，可以通过不同的方法执行对视频流的帧的变换。例如，对于主要涉及改变对象的元素的形式的帧的变换，计算对象的元素中的每一个的特征点(例如，使用主动形状模型(ASM)或其他已知方法)。然后，针对对象的至少一个元素中的每一个生成基于特征点的网格。该网格在后续阶段用于跟踪视频流中的对象的元素。在跟踪过程中，每个元素的所提及的网格与每个元素的位置对准。然后，在网格上生成附加点。基于修改请求针对每个元素生成第一点的第一集合，并且基于第一点的集合和修改请求针对每个元素生成第二点的集合。然后，可以通过基于第一点的集合和第二点的集合以及网格修改对象的元素，对视频流的帧进行转换。在这样的方法中，也可以通过跟踪和修改背景来改变或扭曲被修改对象的背景。

在一些示例中，使用对象的元素改变对象的一些区域的变换可以通过计算对象的每个元素的特征点并基于计算的特征点生成网格来执行。在网格上生成点，然后基于这些点生成各种区域。然后，通过将每个元素的区域与至少一个元素中的每一个的位置对准来跟踪对象的元素，并且可以基于修改的请求来修改区域的属性，从而变换视频流的帧。根据具体的修改请求，可以以不同的方式变换所提及的区域的属性。这样的修改可以涉及：改变区域的颜色；从视频流的帧中移除至少一些部分区域；将一个或更多个新对象包括在区域中(这基于修改请求)；以及修改或扭曲区域或对象的元素。在各种实施方式中，可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型，可以选择一些特征点作为控制点，以用于确定用于模型动画的选项的整个状态空间。

故事表312存储关于消息的集合的数据及相关联的图像、视频或音频数据，这些数据被汇编成集合(例如，故事或库)。特定集合的创建可以由特定用户(例如，在实体表306中维护其记录的每个用户)发起。用户可以以已经由该用户创建和发送/广播的内容集合的形式创建“个人故事”。为此，消息收发客户端104的用户接口可以包括用户可选择的图标，以使得发送用户能够将特定内容添加到他或她的个人故事。在一些示例中，故事表312存储使用面部动画合成AR组件创建的一个或更多个图像或视频。

集合还可以构成作为来自多个用户的内容的集合的“实况故事”，该内容的集合是手动地、自动地或者使用手动技术和自动技术的组合创建的。例如，“实况故事”可以构成来自不同位置和事件的用户提交的内容的策展流。其客户端设备启用了定位服务并且在特定时间处于共同定位事件处的用户可以例如经由消息收发客户端104的用户接口被呈现有将内容贡献给特定实况故事的选项。可以由消息收发客户端104基于他或她的位置向用户标识实况故事。最终结果是从社群角度讲述的“实况故事”。

另外类型的内容集合被称为“位置故事”，其使得其客户端设备102位于特定地理位置(例如，在学院或大学校园)内的用户能够对特定集合做出贡献。在一些示例中，对定位故事的贡献可能需要二级认证来验证终端用户属于特定组织或其他实体(例如，是大学校园中的学生)。

如上面提到的，视频表314存储视频数据，在一个示例中，该视频数据与其记录维护在消息表302内的消息相关联。类似地，图像表316存储图像数据，该图像数据与其消息数据存储在实体表304中的消息相关联。实体表304可以使来自增强表310的各种增强与存储在图像表316和视频表314中的各种图像和视频相关联。

数据通信架构

图4是示出根据一些示例的消息400的结构的示意图，消息400由消息收发客户端104生成，以用于传送至另外的消息收发客户端104或消息收发服务器114。特定消息400的内容用于填充存储在数据库120内的消息表302，该消息表302可由消息收发服务器114访问。类似地，消息400的内容被存储在存储器中作为客户端设备102或应用服务器112的“传输中”或“飞行中”的数据。在一些示例中，消息400的内容包括使用面部动画合成AR组件创建的图像或视频。消息400被示出为包括以下示例组成部分：

·消息标识符402：识别消息400的唯一标识符。

·消息文本净荷404：要由用户经由客户端设备102的用户接口生成并且包括在消息400中的文本。

·消息图像净荷406：由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的图像数据。用于发送或接收的消息400的图像数据可以被存储在图像表316中。

·消息视频净荷408：由摄像装置部件捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的视频数据。用于发送或接收的消息400的视频数据可以被存储在视频表314中。

·消息音频净荷410：由麦克风捕获的或从客户端设备102的存储器部件检索到的、并且包括在消息400中的音频数据。

·消息增强数据412：表示要应用于消息400的消息图像净荷406、消息视频净荷408或消息音频净荷410的增强的增强数据(例如，过滤器、标贴或其他标注或增强)。用于发送或接收的消息400的增强数据可以存储在增强表310中。

·消息持续时间参数414：参数值，其指示消息的内容(例如，消息图像净荷406、消息视频净荷408、消息音频净荷410)将经由消息收发客户端104被呈现给用户或使其对于用户可访问的以秒为单位的时间量。

·消息地理定位参数416：与消息的内容净荷相关联的地理定位数据(例如，纬度和经度坐标)。多个消息地理定位参数416值可以被包括在净荷中，这些参数值中的每个参数值与内容中所包括的内容项(例如，消息图像净荷406内的特定图像或消息视频净荷408中的特定视频)相关联。

·消息故事标识符418：标识一个或更多个内容集合(例如，在故事表312中标识的“故事”)的标识符值，其中消息400的消息图像净荷406中的特定内容项与一个或更多个内容集合相关联。例如，可以使用标识符值将消息图像净荷406内的多个图像各自与多个内容集合相关联。

·消息标签420：每个消息400可以用多个标签来标记，这些标签中的每个标签都指示消息净荷中包括的内容的主题。例如，在消息图像净荷406中包括的特定图像描绘动物(例如狮子)的情况下，可以在消息标签420中包括指示相关动物的标签值。标签值可以基于用户输入手动地生成，或可以使用例如图像识别自动地生成。

·消息发送者标识符422：指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如消息收发系统标识符、电子邮件地址或设备标识符)。

·消息接收者标识符424：指示消息400寻址到的客户端设备102的用户的标识符(例如，消息收发系统标识符、电子邮件地址或设备标识符)。

消息400的各种组件的内容(例如，值)可以是指向表中存储内容数据值的位置的指针。例如，消息图像净荷406中的图像值可以是指向图像表316内的位置(或位置的地址)的指针。类似地，消息视频净荷408内的值可以指向存储在视频表314内的数据，存储在消息增强412内的值可以指向存储在增强表310中的数据，存储在消息故事标识符418内的值可以指向存储在故事表312中的数据，并且存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表304内的用户记录。

基于时间的访问限制架构

图5是示出访问限制过程500的示意图，根据该访问限制过程，对内容(例如，短暂消息502及相关联的多媒体数据净荷)或内容集合(例如，短暂消息组504)的访问可以是时间受限的(例如，使得是短暂的)。在一些示例中，短暂消息502的内容包括使用面部动画合成AR组件创建的图像或视频。

短暂消息502被示出为与消息持续时间参数506相关联，消息持续时间参数506的值确定消息收发客户端104将向短暂消息502的接收用户显示短暂消息502的时间量。在一个示例中，取决于发送用户使用消息持续时间参数506指定的时间量，接收用户可查看短暂消息502长达最多10秒。

消息持续时间参数506和消息接收者标识符424被示出为消息定时器512的输入，消息定时器512负责确定向由消息接收者标识符424标识的特定接收用户示出短暂消息502的时间量。特别地，仅在由消息持续时间参数506的值确定的时间段内向相关接收用户示出短暂消息502。消息定时器512被示出为向更一般化的短暂定时器系统202提供输出，该短暂定时器系统202负责向接收用户显示内容(例如，短暂消息502)的总体定时。

图5中示出的短暂消息502被包括在短暂消息组504(例如，个人故事或事件故事中的消息的集合)内。短暂消息组504具有相关联的组持续时间参数508，组持续时间参数508的值确定短暂消息组504被呈现并且可由消息收发系统100的用户访问的持续时间。例如，组持续时间参数508可以是音乐会的持续时间，其中，短暂消息组504是有关该音乐会的内容的集合。替选地，当执行短暂消息组504的设置和创建时，用户(拥有用户或策展者用户)可以指定组持续时间参数508的值。

另外，短暂消息组504内的每个短暂消息502具有相关联的组参与参数510，组参与参数510的值确定在短暂消息组504的上下文内可访问短暂消息502的持续时间。因此，在短暂消息组504本身根据组持续时间参数508到期之前，特定的短暂消息组504可以“到期”并且在短暂消息组504的上下文中变得不可访问。组持续时间参数508、组参与参数510和消息接收者标识符424各自向组定时器514提供输入，组定时器514可操作地首先确定短暂消息组504的特定短暂消息502是否将被显示给特定接收用户，并且如果是，则确定显示多长时间。注意，由于消息接收者标识符424，短暂消息组504也知道特定接收用户的身份。

因此，组定时器514可操作地控制相关联的短暂消息组504以及包括在短暂消息组504中的单独的短暂消息502的总寿命。在一个示例中，短暂消息组504内的每个短暂消息502在由组持续时间参数508指定的时间段内保持可查看和可访问。在另一示例中，在短暂消息组504的上下文内，某个短暂消息502可以基于组参与参数510而到期。注意，即使在短暂消息组504的上下文内，消息持续时间参数506也仍然可以确定向接收用户显示特定短暂消息502的持续时间。因此，消息持续时间参数506确定向接收用户显示特定短暂消息502的持续时间，而不管接收用户是在短暂消息组504的上下文之内还是之外查看该短暂消息502。

短暂定时器系统202还可以基于确定已经超过相关联的组参与参数510而从短暂消息组504中可操作地移除特定的短暂消息502。例如，当发送用户已经建立了从发布起24小时的组参与参数510时，短暂定时器系统202将在指定的24小时之后从短暂消息组504中移除相关的短暂消息502。短暂定时器系统202还进行操作以在短暂消息组504内的每个短暂消息502的组参与参数510已到期时，或者在短暂消息组504本身根据组持续时间参数508已到期时，移除短暂消息组504。

在某些使用情况下，特定短暂消息组504的创建者可以指定无期限的组持续时间参数508。在这种情况下，短暂消息组504内最后剩余的短暂消息502的组参与参数510的到期将确定短暂消息组504本身何时到期。在这种情况下，添加至短暂消息组504的具有新的组参与参数510的新的短暂消息502实际上将短暂消息组504的寿命延长到等于组参与参数510的值。

响应于短暂定时器系统202确定短暂消息组504已经到期(例如，不再是可访问的)，短暂定时器系统202与消息收发系统100(并且例如特别是消息收发客户端104)通信，以使得与相关短暂消息组504相关联的标记(例如，图标)不再显示在消息收发客户端104的用户接口内。类似地，当短暂定时器系统202确定针对特定短暂消息502的消息持续时间参数506已经到期时，短暂定时器系统202使消息收发客户端104不再显示与短暂消息502相关联的标记(例如，图标或文本标识)。

图6是用于利用面部动画合成提供增强现实体验的流程图600。在一个示例实施方式中，一些或全部处理逻辑驻留在图1的客户端设备102处和/或图1的消息收发服务器系统108处。方法600在操作610处开始，此时增强系统访问肖像图像和源帧。肖像图像包括表示用户的目标面部对象，并且源帧包括表示表演者的源面部对象。源帧可以是来自源视频的多个帧的帧，其中，多个帧中的相应面部对象表示通过例如谈话、笑或表达诸如喜悦或悲伤的情绪来表演情节的表演者。在操作620处，增强系统通过执行嵌入器机器学习模型，从目标面部对象生成表示面部特征的嵌入。训练嵌入器机器学习模型以使得其产生颜色中性的嵌入，因为所述嵌入缺少目标面部对象的颜色和照明的表示。通过使用训练面部图像的训练数据集和颜色源图像集合来执行对用于生成表示面部特征的颜色中性嵌入的嵌入器机器学习模型的训练。对于来自训练数据集的每个训练面部图像，训练处理从颜色源图像集合中随机选择图像，并且使用训练面部图像和从颜色源图像集合中随机选择的图像来生成输入面部图像。所生成的输入面部图像具有来自训练面部图像的面部对象的表情和面部特征，并且具有来自从颜色源图像集合中随机选择的图像的面部对象的颜色和照明。使用所生成的输入面部图像作为输入以执行嵌入器机器学习模型，来生成表示来自训练面部图像中的面部对象的面部特征的嵌入。在一些示例中，生成输入图像包括：确定对来自训练数据集的训练面部图像中的面部对象的面部表情进行编码的训练面部界标集合；确定对从颜色源图像集合中随机选择的图像中的颜色源面部对象的面部表情进行编码的颜色源面部界标集合；通过修改颜色源面部界标集合来扭曲随机选择的图像，以匹配训练面部界标集合；生成经扭曲的随机选择的图像和训练面部图像的相应金字塔表示；以及使用相应金字塔表示来得出输入图像，输入图像中的面部对象具有与训练面部图像中的面部对象的颜色和照明不同的颜色和照明。如上所述，使用相应金字塔表示来得出输入图像包括：通过用经扭曲的随机选择的图像的金字塔表示的最小层级替换训练面部图像的金字塔表示的最小层级来修改训练面部图像的金字塔表示，以及根据经修改的训练面部图像的金字塔表示来重构输入图像。在一个示例中，相应金字塔表示是拉普拉斯金字塔表示，其中金字塔表示的最小层级对应于相关联图像的1/16的分辨率。

将通过执行嵌入器机器学习模型生成的表示来自目标面部对象的面部特征的嵌入用作生成器机器学习模型的输入。在操作630处，增强系统执行生成器机器学习模型以通过用新的面部对象替换源面部对象来修改源帧，其中新的面部对象包括来自目标面部对象的面部特征、来自源面部对象的面部表情以及来自源面部对象的颜色和照明。在操作640处，增强系统使得经修改的源帧呈现在显示设备上。在源帧是来自源视频的多个帧的帧的示例中，其中，多个帧中的相应面部对象表示表演情节的表演者，经修改的源帧来自经修改的源视频的多个帧，并且增强系统使得经修改的源视频呈现在显示设备上。

图7示出了描绘用户的肖像图像710、描绘表演者的图像720和显示由面部动画合成处理得到的面部的图像730的示例表示700。如在图7中可见，图像730具有肖像图像710中显示的面部712的样子(例如，鼻子、嘴、眼睛和眉毛的形状和大小；眼睛之间的距离以及面部毛发)，但是具有图像720中的面部722的表情(例如，注视方向和分开的嘴唇)以及图像720中表演者的头部和身体。在图像730中显示的由面部动画合成处理得到的面部732具有与图像720中显示的表演者的面部的嘴内部724相同的嘴内部734。

图8示出了对确定面部表情的面部特征的各个位置进行标识的面部界标810的示例表示800。面部界标810指示诸如嘴和眉毛的位置和取向、确定注视方向的瞳孔的位置和取向等的特征。

如上所述，本文中描述的面部动画合成方法可以使得能够被消息收发系统的用户访问。在用于通过网络交换数据的消息收发系统中，被称为面部动画合成AR组件的增强现实组件被配置成使用本文中描述的面部动画合成技术来修改目标媒体内容对象(例如源帧)。在一些示例中，消息收发系统使得在客户端设备处呈现摄像装置视图界面。摄像装置视图界面包括客户端设备的摄像装置的数字图像传感器的输出，并且还包括表示增强现实组件的用户可选元素，其中，执行生成器机器学习模型以通过用新的面部对象替换源面部对象来修改源帧是响应于检测到表示增强现实组件的用户可选元素的激活，新的面部对象包括来自目标面部对象的面部特征、来自源面部对象的面部表情以及来自源面部对象的颜色和照明。如图9和图10所示，经修改的源呈现在客户端设备的摄像装置视图界面中。

图9示出了摄像装置用户界面900的示例，该摄像装置用户界面900在区域910中显示摄像装置的数字图像传感器的输出(在摄像装置前方的用户的图像920)并且显示经修改的源帧922，经修改的源帧922在摄像装置视图用户界面中显示为叠加在摄像装置的数字图像传感器的输出的一部分上。在图9中示出了可操作以由摄像装置捕获图像或者开始和停止视频录制的用户可选元素930。图形940指示加载的AR组件是面部动画合成AR组件，该面部动画合成AR组件可以基于先前捕获和存储的用户图像(肖像图像)来执行修改，并且将其叠加在摄像装置视图用户界面900的区域910上。用户可选元素950表示另一AR组件，其可以响应于检测到的用户与用户可选元素950的交互而被加载。

图10是显示经修改的源帧1010而不是摄像装置的数字图像传感器的输出的摄像装置视图用户界面1000的图解表示。

如上所述，虽然已经在消息收发系统的背景下描述了面部动画合成处理，但是本文中描述的方法可以有益地用于各种其他环境，例如娱乐节目、计算机游戏、视频会话等。

机器架构

图11是机器1100的图解表示，在该机器1100内可以执行用于使机器1100执行本文中所讨论的方法中的任何一种或更多种方法的指令1108(例如，软件、程序、应用、小程序、app或其他可执行代码)。例如，指令1108可以使机器1100执行本文中所描述的方法中的任何一种或更多种方法。指令1108将通用的未编程的机器1100转换成被编程为以所描述的方式执行描述和示出的功能的特定机器1100。机器1100可以作为独立设备操作，或者可以耦接(例如，联网)至其他机器。在联网部署中，机器1100可以以服务器-客户端网络环境中的服务器机器或客户端机器的能力进行操作，或者作为对等(或分布式)网络环境中的对等机器进行操作。机器1100可以包括但不限于：服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能电器)、其他智能设备、web装置、网络路由器、网络交换机、网络桥接器或者能够顺序地或以其他方式执行指定要由机器1100采取的动作的指令1108的任何机器。此外，虽然仅示出了单个机器1100，但是术语“机器”还应当被视为包括单独地或联合地执行指令1108以执行本文中讨论的任何一种或更多种方法的机器的集合。例如，机器1100可以包括客户端设备102或者形成消息收发服务器系统108的一部分的若干服务器设备中的任何一个。在一些示例中，机器1100还可以包括客户端和服务器系统二者，其中在服务器侧执行特定方法或算法的某些操作，并且在客户端侧执行特定方法或算法的某些操作。

机器1100可以包括可以被配置成经由总线1140彼此通信的处理器1102、存储器1104和输入/输出(I/O)部件1138。在示例中，处理器1102(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令1108的处理器1106和处理器1110。术语“处理器”旨在包括多核处理器，该多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时被称为“核”)。尽管图11示出了多个处理器1102，但是机器1100可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或其任何组合。

存储器1104包括主存储器1112、静态存储器1114和存储单元1116，所述主存储器1112、静态存储器1114和存储单元1116均可由处理器1102经由总线1140访问。主存储器1104、静态存储器1114和存储单元1116存储实现本文中描述的方法或功能中的任何一个或更多个的指令1108。指令1108还可以在其被机器1100执行期间完全地或部分地驻留在主存储器1112内、在静态存储器1114内、在存储单元1116内的机器可读介质1118内、在处理器1102中的至少之一内(例如，在处理器的缓存存储器内)或其任何合适的组合内。

I/O部件1138可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种部件。在特定机器中包括的特定I/O部件1138将取决于机器的类型。例如，诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构，而无头服务器机器将可能不包括这样的触摸输入设备。应当理解，I/O部件1138可以包括在图11中未示出的许多其他部件。在各种示例中，I/O部件1138可以包括用户输出部件1124和用户输入部件1126。用户输出部件1124可以包括视觉部件(例如，诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、听觉部件(例如，扬声器)、触觉部件(例如，振动马达、阻力机构)、其他信号发生器等。用户输入部件1126可以包括字母数字输入部件(例如，键盘、被配置成接收字母数字输入的触摸屏、光学键盘或其他字母数字输入部件)、基于指向的输入部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或另一指向仪器)、触觉输入部件(例如，物理按钮、提供触摸或触摸手势的位置和/或力的触摸屏或其他触觉输入部件)、音频输入部件(例如，麦克风)等。

在其他示例中，I/O部件1138可以包括生物计量部件1128、运动部件1130、环境部件1132、或定位部件1134以及各种其他部件。例如，生物计量部件1128包括用于检测表达(例如，手表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、出汗或脑波)、识别人(例如，声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件1130包括加速度传感器部件(例如，加速度计)、重力传感器部件、旋转传感器部件(例如，陀螺仪)。

环境部件1132包括例如一个或更多个摄像装置(具有静态图像/照片和视频能力)、照明传感器部件(例如，光度计)、温度传感器部件(例如，检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如，气压计)、声学传感器部件(例如，检测背景噪声的一个或更多个麦克风)、接近度传感器部件(例如，检测附近对象的红外传感器)、气体传感器(例如，为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。

关于摄像装置，客户端设备102可以具有摄像装置系统，该摄像装置系统包括例如在客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静态图像和视频(例如，“自拍”)，然后可以用上述增强数据(例如，过滤器)对该静态图像和视频进行增强。例如，后置摄像装置可以用于以更常规的摄像装置模式捕获静态图像和视频，这些图像类似地用增强数据进行增强。除了前置摄像装置和后置摄像装置之外，客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。

此外，客户端设备102的摄像装置系统可以包括双后置摄像装置(例如，主摄像装置以及深度感测摄像装置)，或者甚至在客户端设备102的前后侧上包括三重、四重或五重后置摄像装置配置。例如，这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。

定位部件1134包括定位传感器部件(例如，GPS接收器部件)、海拔传感器部件(例如，检测可以得到海拔的气压的高度计或气压计)、取向传感器部件(例如，磁力计)等。

可以使用各种技术来实现通信。I/O部件1138还包括通信部件1136，通信部件1136可操作以经由相应的耦接或连接将机器1100耦接至网络1120或设备1122。例如，通信部件1136可以包括网络接口部件或另一合适的设备以与网络1120对接。在其他示例中，通信部件1136可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、部件(例如，/>低能量)、/>部件、和用于经由其他模式提供通信的其他通信部件。设备1122可以是其他机器或各种外围设备中的任何外围设备(例如，经由USB耦接的外围设备)。

此外，通信部件636可以检测标识符或包括可操作以检测标识符的部件。例如，通信部件636可以包括射频识别(RFID)标签读取器部件、NFC智能标签检测部件、光学读取器部件(例如，用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速反应(QR)码、Aztec码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(UltraCode)、UCC RSS-2D条形码的多维条形码和其他光学码的光学传感器)或声学检测部件(例如，用于识别标记的音频信号的麦克风)。另外，可以经由通信部件1136得出各种信息，例如经由因特网协议(IP)地理定位得出的位置、经由信号三角测量得出的位置、经由检测可以指示特定定位的NFC信标信号得出的位置等。

各种存储器(例如，主存储器1112、静态存储器1114以及处理器1102的存储器)以及存储单元1116可以存储由本文中描述的方法或功能中的任何一种或更多种实施或使用的的一组或更多组指令和数据结构(例如，软件)。这些指令(例如，指令1108)在由处理器1102执行时使各种操作实现所公开的示例。

可以经由网络接口设备(例如，通信部件1136中包括的网络接口部件)，使用传输介质并且使用若干公知的传输协议中的任意一种传输协议(例如，超文本传输协议(HTTP))，通过网络1120来发送或接收指令1108。类似地，可以使用传输介质经由至设备1122的耦接(例如，对等耦接)来发送或接收指令608。

术语表

“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以利于这些指令的通信。可以使用传输介质经由网络接口设备来通过网络发送或接收指令。

“客户端设备”是指与通信网络接口以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。

“通信网络”是指网络的一个或更多个部分，该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其他类型的网络或者两个或更多个这样的网络的组合。例如，网络或网络的一部分可以包括无线网络或蜂窝网络，并且耦接可以是码分多址(CDMA)连接、全局移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中，耦接可以实现各种类型的数据传输技术中的任何数据传输技术，例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、增强数据速率的GSM演进(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。

“部件”是指具有以下边界的设备、物理实体或逻辑，该边界由功能或子例程调用、分支点、API或者对特定处理或控制功能提供分区或模块化的其他技术定义。部件可以经由其接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的封装功能硬件单元，以及通常执行相关功能的特定功能的程序的一部分。部件可以构成软件组件(例如，实施在机器可读介质上的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元，并且可以以某种物理方式来配置或布置。在各种示例实施方式中，可以通过软件(例如，应用或应用部分)将一个或更多个计算机系统(例如，独立计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或更多个硬件部件(例如，处理器或处理器组)配置成用于执行本文中描述的某些操作的硬件部件。也可以机械地、电子地或以其任何合适的组合来实现硬件部件。例如，硬件部件可以包括被永久地配置成执行某些操作的专用电路或逻辑。硬件部件可以是例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)的专用处理器。硬件部件还可以包括通过软件临时配置成执行某些操作的可编程逻辑或电路系统。例如，硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置，硬件部件就变成被独特地定制成执行所配置的功能的特定机器(或机器的特定部件)，而不再是通用处理器。将认识到，是机械地、在专用且永久配置的电路系统中还是在临时配置(例如，通过软件配置)的电路系统中实现硬件部件的决定可以出于成本和时间考虑来驱动。相应地，短语“硬件部件”(或者“硬件实现的部件”)应当被理解成包含有形实体，即被物理构造、永久配置(例如，硬连线)或临时配置(例如，编程)成以某种方式操作或者执行本文中描述的某些操作的实体。考虑硬件部件被临时配置(例如，被编程)的实施方式，无需在任一时刻处对硬件部件中的每一个进行配置或实例化。例如，在硬件部件包括通过软件配置成变成专用处理器的通用处理器的情况下，该通用处理器可以在不同时间处分别被配置为不同的专用处理器(例如，包括不同的硬件部件)。软件相应地配置一个或多个特定处理器以例如在一个时刻处构成特定硬件部件，并且在不同的时刻处构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息以及从其他硬件部件接收信息。因此，描述的硬件部件可以被认为通信地耦接。在同时存在多个硬件部件的情况下，可以通过在两个或更多个硬件部件之间或之中(例如，通过适当的电路和总线)的信号传输来实现通信。在其中多个硬件部件在不同时间处被配置或实例化的实施方式中，可以例如通过将信息存储在多个硬件部件访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如，一个硬件部件可以执行操作，并且将该操作的输出存储在其通信地耦接至的存储器设备中。然后，其他硬件部件可以在随后的时间处访问存储器设备以检索和处理存储的输出。硬件部件还可以发起与输入设备或输出设备的通信，并且可以对资源进行操作(例如，信息的集合)。在本文中描述的示例方法的各种操作可以至少部分地由被(例如，通过软件)临时地配置或永久地配置以执行相关操作的一个或更多个处理器来执行。无论是临时地被配置还是永久地被配置，这样的处理器可以构成操作以执行本文中描述的一个或更多个操作或功能的处理器实现的部件。如本文中使用的，“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地，本文中描述的方法可以至少部分地由处理器实现，其中特定的一个或多个处理器是硬件的示例。例如，方法的操作中的至少一些操作可以由一个或更多个处理器1104或者处理器实现的部件来执行。此外，一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(SaaS)操作。例如，操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行，其中，这些操作能够经由网络(例如，因特网)并且经由一个或更多个适当的接口(例如，API)进行访问。某些操作的执行可以分布在处理器之间，不是仅驻留在单个机器内，而是跨多个机器部署。在一些示例实施方式中，处理器或处理器实现的部件可以位于单个地理位置中(例如，在家庭环境、办公室环境或服务器群内)。在其他示例实施方式中，处理器或处理器实现的部件可以跨若干地理位置而分布。

“计算机可读存储介质”是指机器存储介质和传输介质两者。因此，这些术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物，并且可以在本公开内容中可互换地使用。

“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如，集中式或分布式数据库，以及相关联的缓存和服务器)。因此，该术语应被视为包括但不限于固态存储器以及光学和磁介质，包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括：非易失性存储器，包括例如半导体存储器设备，例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备；磁盘，例如内部硬盘和可移除盘；磁光盘；以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物，并且在本公开内容中可以互换使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质，所述载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。

“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。

“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质，并且“信号介质”包括数字或模拟通信信号或其他无形介质以便于软件或数据的通信。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特性中的一个或更多个特性以将信息编码在信号中的方式来设置或改变的信号。术语“传输介质”和“信号介质”意指相同的事物，并且可以在本公开内容中互换使用。

Claims

1.一种方法，包括：

访问肖像图像和源帧，所述肖像图像包括目标面部对象，所述源帧包括表示表演者的源面部对象；

通过执行嵌入器机器学习模型从所述目标面部对象生成表示面部特征的嵌入，所述嵌入缺少所述目标面部对象的颜色和照明的表示；

使用所述嵌入和所述源帧作为输入来执行生成器机器学习模型，以通过用新的面部对象替换所述源面部对象来修改所述源帧，所述新的面部对象包括来自所述目标面部对象的面部特征、来自所述源面部对象的面部表情以及来自所述源面部对象的颜色和照明；以及

使得经修改的源帧呈现在显示设备上。

2.根据权利要求1所述的方法，其中：

所述源帧来自源视频的多个帧，所述多个帧包括相应的面部对象，所述相应的面部对象和所述源面部对象表示所述表演者；并且

所述经修改的源帧来自经修改的源视频的多个帧。

3.根据权利要求1所述的方法，包括：使用训练面部图像的训练数据集和颜色源图像集合，对所述嵌入器机器学习模型进行训练以生成表示面部特征的颜色中性嵌入，对于来自所述训练数据集的每个训练面部图像，所述训练包括：

从所述颜色源图像集合中随机选择图像；

使用从所述颜色源图像集合中随机选择的图像和所述训练面部图像来生成输入面部图像，所述输入面部图像具有来自所述训练面部图像的面部对象的表情和面部特征，以及来自从所述颜色源图像集合中随机选择的图像的面部对象的颜色和照明；以及

使用所述输入面部图像作为输入来执行所述嵌入器机器学习模型，以生成表示来自所述训练面部图像中的面部对象的面部特征的嵌入。

4.根据权利要求3所述的方法，其中，生成所述输入图像包括：

确定对来自所述训练数据集的训练面部图像中的面部对象的面部表情进行编码的训练面部界标集合；

确定对从所述颜色源图像集合中随机选择的图像中的颜色源面部对象的面部表情进行编码的颜色源面部界标集合；

通过修改所述颜色源面部界标集合来扭曲所述随机选择的图像，以匹配所述训练面部界标集合；

生成经扭曲的随机选择的图像和所述训练面部图像的相应金字塔表示；以及

使用所述相应金字塔表示以得出所述输入图像，所述输入图像中的面部对象具有与所述训练面部图像中的面部对象的颜色和照明不同的颜色和照明。

5.根据权利要求4所述的方法，其中，使用所述相应金字塔表示以得出所述输入图像包括：

通过用所述经扭曲的随机选择的图像的金字塔表示的最小层级替换所述训练面部图像的金字塔表示的最小层级，来修改所述训练面部图像的金字塔表示；以及

根据经修改的训练面部图像的金字塔表示来重构所述输入图像。

6.根据权利要求5所述的方法，其中，所述相应金字塔表示是拉普拉斯金字塔表示，并且所述金字塔表示的最小层级对应于相关联图像的1/16的分辨率。

7.根据权利要求1所述的方法，其中：

在用于通过网络交换数据的消息收发系统中，配置增强现实组件以修改目标媒体内容对象；并且

使得在客户端设备处呈现摄像装置视图界面，所述摄像装置视图界面包括与所述客户端设备一起的摄像装置的数字图像传感器的输出，并且包括表示所述增强现实组件的用户可选元素，其中，执行所述生成器机器学习模型是响应于检测到表示所述增强现实组件的所述用户可选元素的激活，其中，使得经修改的源帧呈现在显示设备上是使得所述经修改的源帧在所述客户端设备处呈现在所述摄像装置视图界面中。

8.根据权利要求7所述的方法，其中，使得所述经修改的源帧呈现在所述摄像装置视图界面中包括：将所述经修改的源帧的至少一部分叠加在所述摄像装置的数字图像传感器的输出的一部分上。

9.根据权利要求7所述的方法，其中，使得所述经修改的源帧呈现在所述摄像装置视图界面中包括：使得呈现所述经修改的源帧而不是所述摄像装置的数字图像传感器的输出。

10.根据权利要求7所述的方法，其中，所述肖像图像与表示所述消息收发系统中的用户的用户简档相关联。

11.一种系统，包括：

一个或更多个处理器；以及

非暂态计算机可读存储介质，其包括指令，所述指令在由所述一个或更多个处理器执行时使所述一个或更多个处理器执行操作，所述操作包括：

使得经修改的源帧呈现在显示设备上。

12.根据权利要求11所述的系统，其中：

所述经修改的源帧来自经修改的源视频的多个帧。

13.根据权利要求11所述的系统，其中，由所述一个或更多个处理器执行的所述指令引起的操作还包括：使用训练面部图像的训练数据集和颜色源图像集合，对所述嵌入器机器学习模型进行训练以生成表示面部特征的颜色中性嵌入，对于来自所述训练数据集的每个训练面部图像，所述训练包括：

从所述颜色源图像集合中随机选择图像；

14.根据权利要求13所述的系统，其中，生成所述输入图像包括：

15.根据权利要求14所述的系统，其中，使用所述相应金字塔表示以得出所述输入图像包括：

16.根据权利要求15所述的系统，其中，所述相应金字塔表示是拉普拉斯金字塔表示，并且所述金字塔表示的最小层级对应于相关联图像的1/16的分辨率。

17.根据权利要求11所述的系统，其中，由所述一个或更多个处理器执行的所述指令引起的操作还包括：

18.根据权利要求17所述的系统，其中，使得所述经修改的源帧呈现在所述摄像装置视图界面中包括：将所述经修改的源帧的至少一部分叠加在所述摄像装置的数字图像传感器的输出的一部分上。

19.根据权利要求17所述的系统，其中，使得所述经修改的源帧呈现在所述摄像装置视图界面中包括：使得呈现所述经修改的源帧而不是所述摄像装置的数字图像传感器的输出。

20.一种机器可读非暂态存储介质，，其具有指令数据，所述指令数据能够由机器执行以使所述机器执行操作，所述操作包括：

使得经修改的源帧呈现在显示设备上。