CN110677613A

CN110677613A - 在视频会议期间修改参与者的外观

Info

Publication number: CN110677613A
Application number: CN201910859485.2A
Authority: CN
Inventors: 贾纳汗·维韦卡南丹; 弗兰克·彼得森; 托尔·卡朋特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-03-14
Filing date: 2013-03-13
Publication date: 2020-01-10
Also published as: DE112013001461T5; WO2013138531A1; JP2015516625A; JP6259808B2; KR20140129171A; CN104170374A; US9060095B2; DE112013001461B4; KR101732613B1; US20130242031A1; AU2013204970A1; AU2013204970B2

Abstract

本公开的实现方式总体上涉及在视频会议期间修改参与者的外观。在一些实现方式中，一种方法包括：从媒体流获得至少一个帧，其中，所述至少一个帧包括第一面部，并且其中，所述第一面部是与用户相关联的面部的图像。所述方法也包括：确定在所述至少一个帧内的多个坐标。所述方法也包括获得至少一个媒体内容项目。所述方法也包括基于所述多个坐标向所述至少一个帧增加所述至少一个媒体内容项目。

Description

在视频会议期间修改参与者的外观

分案说明

本申请属于申请日为2013年3月13日的中国发明专利申请201380014075.9的分案申请。

技术领域

本公开总体上涉及在视频会议期间修改参与者的外观。

背景技术

视频会议经常在商业场景中被使用，并且使得参与者能够在地理上散布的位置上实时地彼此共享视频和音频内容。在每一个位置处的通信装置通常使用视频相机和麦克风来发送视频和音频流，并且使用视频监视器和扬声器来播放所接收的视频和音频流。视频会议涉及通过网络从一个位置向另一个位置实时发送的视频和音频流的数字压缩。通信装置执行视频和音频流的压缩和解压缩，并且经由网络来保持数据链接。

发明内容

实现方式一般涉及在视频会议期间修改参与者的外观。在一些实现方式中，一种方法包括：从媒体流获得至少一个帧，其中，所述至少一个帧包括第一面部，并且其中，所述第一面部是与用户相关联的面部的图像。所述方法也包括：确定在所述至少一个帧内的多个坐标。所述方法也包括：获得至少一个媒体内容项目。所述方法也包括：基于所述多个坐标向所述至少一个帧增加所述至少一个媒体内容项目。

进一步关于所述方法，在一些实现方式中，所述多个第一坐标包括所述第一面部的坐标。在一些实现方式中，使用面部识别算法来执行所述多个坐标的所述确定，并且所述多个第一坐标包括所述第一面部的坐标。在一些实现方式中，所述至少一个媒体内容项目包括至少一个替代面部。在一些实现方式中，所述至少一个媒体内容项目包括至少一个替代面部，并且所述替代面部与所述第一面部不同。在一些实现方式中，所述至少一个媒体内容项目包括至少一个替代面部，并且所述替代面部与不同于所述用户的人相关联。在一些实现方式中，所述至少一个媒体内容项目包括至少一个替代面部，并且所述替代面部与所述第一面部的动画版本相关联。在一些实现方式中，所述方法进一步包括：获得与所述至少一个媒体内容项目相关联的一个或多个参数。在一些实现方式中，所述至少一个媒体内容项目的所述增加包括下述中的一个或多个：将所述至少一个媒体内容项目叠加在所述至少一个帧上，以及将所述一个或多个帧的至少一部分替换为所述至少一个媒体内容项目。在一些实现方式中，所述方法进一步包括：获得与所述至少一个媒体内容项目相关联的至少一个音频内容项目，并且向所述媒体流增加所述至少一个音频内容项目。

在一些实现方式中，一种方法包括：从媒体流获得至少一个帧，其中，所述至少一个帧包括第一面部，并且其中，所述第一面部是与用户相关联的面部的图像。在一些实现方式中，所述方法也包括：确定在所述至少一个帧内的多个坐标，其中，所述多个第一坐标包括所述第一面部的坐标，并且其中，使用面部识别算法来执行所述多个坐标的所述确定。在一些实现方式中，所述方法也包括：获得至少一个媒体内容项目，其中，所述至少一个媒体内容项目包括至少一个替代面部，并且其中所述替代面部与所述第一面部的动画版本相关联。在一些实现方式中，所述方法也包括：获得与所述至少一个媒体内容项目相关联的一个或多个参数。在一些实现方式中，所述方法也包括：基于所述多个坐标向所述至少一个帧增加所述至少一个媒体内容项目，其中，所述至少一个媒体内容项目的所述增加包括下述中的一个或多个：将所述至少一个媒体内容项目叠加在所述至少一个帧上，以及将所述一个或多个帧的至少一部分替换为所述至少一个媒体内容项目。

在一些实现方式中，一种系统包括一个或多个处理器和用于由所述一个或多个处理器执行的在一个或多个有形介质中编码的逻辑。当被执行时，所述逻辑可操作用于执行操作，所述操作包括：从媒体流获得至少一个帧，其中，所述至少一个帧包括第一面部，并且其中，所述第一面部是与用户相关联的面部的图像。所述逻辑当被执行时进一步可操作用于执行操作，所述操作包括：确定在所述至少一个帧内的多个坐标。所述逻辑当被执行时进一步可操作用于执行操作，所述操作包括：获得至少一个媒体内容项目。所述逻辑当被执行时进一步可操作用于执行操作，所述操作包括：基于所述多个坐标向所述至少一个帧增加所述至少一个媒体内容项目。

进一步关于所述系统，在一些实现方式中，所述多个第一坐标包括所述第一面部的坐标。在一些实现方式中，使用面部识别算法来执行所述多个坐标的所述确定，并且，所述多个第一坐标包括所述第一面部的坐标。在一些实现方式中，所述至少一个媒体内容项目包括至少一个替代面部。在一些实现方式中，所述至少一个媒体内容项目包括至少一个替代面部，并且所述替代面部与所述第一面部不同。在一些实现方式中，所述至少一个媒体内容项目包括至少一个替代面部，并且所述替代面部与不同于所述用户的人相关联。在一些实现方式中，所述至少一个媒体内容项目包括至少一个替代面部，并且所述替代面部与所述第一面部的动画版本相关联。在一些实现方式中，所述逻辑当被执行时进一步可操作用于执行操作，所述操作包括：获得与所述至少一个媒体内容项目相关联的一个或多个参数。在一些实现方式中，所述至少一个媒体内容项目的所述增加包括下述中的一个或多个：将所述至少一个媒体内容项目叠加在所述至少一个帧上，以及将所述一个或多个帧的至少一部分替换为所述至少一个媒体内容项目。在一些实现方式中，所述逻辑当被执行时进一步可操作用于执行操作，所述操作包括：获得与所述至少一个媒体内容项目相关联的至少一个音频内容项目，并且向所述媒体流增加所述至少一个音频内容项目。

附图说明

图1图示了可以用于实现在此所述的实现方式的示例网络环境的框图。

图2图示了根据一些实现方式的、用于在视频会议期间修改参与者的外观的示例简化流程图。

图3图示了根据一些实现方式的示例简化用户界面。

图4图示了可以用于实现在此所述的实现方式的示例服务器装置的框图。

具体实施方式

在此所述的实现方式使得诸如视频、音频和聊天流的媒体流能够用于模拟在视频会议期间的参与者的不同外观。例如，参与者可以选择将他们的爱好或外观通过诸如动画面部、名人面部或化身的特定的替代面部表示。

如在下面更详细地描述的，在各种实现方式中，一种系统从媒体流获得帧，其中，该帧包括用户(例如，在视频会议中的参与者)的面部。该系统也确定在帧中的每一个内的坐标，其中，坐标描述面部和/或面部的元素位于帧的每一个中的何处。该系统也获得一个或多个媒体内容项目，该一个或多个媒体内容项目可以包括替代面部(例如，动画面部、名人面部、化身等)的图像。该系统然后基于坐标向帧中的每一个增加一个或多个媒体内容项目。

图1图示了可以用于实现在此所述的实现方式的示例网络环境100的框图。在一些实现方式中，网络环境100包括系统102，系统102包括服务器装置104和社交网络数据库106。可以可交换地使用术语系统102和短语“社交网络系统”。网络环境100也包括客户端装置110、120、130和140，它们可以经由系统102和网络150来彼此通信。

为说明的容易，图1示出用于系统102、服务器装置104和社交网络数据库106中的每一个的一个方框，并且示出用于客户端装置110、120、130和140的四个方框。方框102、104和106可以表示多个系统、服务器装置和社交网络数据库。而且，可以有任何数量的客户端装置。在其他实现方式中，网络环境100可以没有所示的所有组件，和/或可以具有其他元件，包括替代或补充在此所示的元件的其他类型的元件。

在各种实现方式中，用户U1、U2、U3和U4可以使用相应的客户端装置110、120、130和140来彼此通信。例如，用户U1、U2、U3和U4可以在多用户视频会议中彼此交互，其中，相应的客户端装置110、120、130和140向彼此发送媒体流。

在各种实现方式中，媒体流可以包括不同类型的媒体流(例如，一个或多个视频流和/或一个或多个音频流)。例如，这样的媒体流可以包括显示用户U1、U2、U3和U4的视频流，并且可以包括相关联的音频流。而且，该媒体流可以包括在相对于每一个客户端装置110、120、130和140的不同方向上发送的媒体流(例如，一个或多个向外的流和/或一个或多个向内的流)。

图2图示了根据一些实现方式的、用于在视频会议期间修改参与者的外观的示例简化流程图。参见图1和2，在块202中启动方法，其中，系统102从媒体流获得至少一个帧，其中，该至少一个帧包括用户的面部。在各种实现方式中，用户可以是视频会议的参与者。如此一来，媒体流可以是与视频会议相关联的视频流。

在在此所述的各种实现方式中，根据上下文，可以可交换地使用术语“面部”和短语“面部的图像”。例如，在一些上下文中(例如，在媒体流帧的上下文中)，对于面部的引用可以指的是在帧中的用户的面部的图像。在一些上下文中，对于面部的引用可以指的是实际面部，就像在“用户的面部”中那样。

图3图示了根据一些实现方式的示例简化用户界面300。用户界面300示出允许多个同时参与者通过语音、键入的聊天和视频来进行通信的多路视频会议平台的方面。用户界面300可以可视地以在最突出的位置(大的视频馈送)中示出的当前说话者的表示或概念和示出所有参与者的缩略图的幻灯片条为中心。如所示，用户U3在视频会议中的几个参与者中，其中，用户U3是当前说话者，用户界面也可以显示聊天窗口，该聊天窗口包括键入的对话的聊天记录。

在媒体流的单个帧的上下文中描述在此所述的各种实现方式。这些实现方式也适用于媒体流的多个帧。例如，如上所示，给定的媒体流可以是与视频会议相关联的视频流。如此一来，系统102可以获得视频流的多个帧，并且根据图2的各种方法实现方式来处理一系列帧中的每一个帧中的给定面部的图像。

参见图2和图3两者，在块204中，系统102确定在至少一个帧内的坐标。在各种实现方式中，坐标对应于用户(例如，用户U3)的面部302的位置和/或用户的面部的部分(例如，眼睛、鼻子、嘴部等)。为了容易说明，示出用户U3的简化头部。

在一些实现方式中，系统102可以使用面部识别算法或软件来确定在帧内的坐标。该坐标可以包括在给定帧中用户的面部(例如，在视频会议中参与者的面部等)的坐标，并且也可以包括用户的面部的元素(例如，眼睛、鼻子、耳朵等)的坐标。

如下更详细所述，系统102使得社交网络的用户能够指定和/或同意个人信息的使用，这可以包括系统102使用他们在照片中的面部或使用他们的身份信息来识别在照片中识别的人们。在一些实现方式中，系统102可以使用面部识别软件来确定参与者的嘴部是否张开、闭合、笑等、参与者的眼睛是否睁开或闭合等以及其他面部特性。在一些实现方式中，系统102可以在面部库中存储与坐标相关联的信息，该面部库包含关于面部元素相对于彼此的特定位置和/或距离的信息等。

在块206中，系统102获得一个或多个媒体内容项目。如更详细所述，系统102可以将用户的面部替换为一个或多个媒体内容项目。

在一些实现方式中，该一个或多个媒体内容项目可以包括替代面部。在各种实现方式中，替代面部是系统102可以使用来替代用户的实际面部的图像的面部的图像。在各种实现方式中，替代面部可以与用户的面部(例如，视频参与者的面部)不同。

在一些实现方式中，替代面部可以与用户的面部的动画版本相关联。例如，如图3中所示，作为动画面部的媒体内容项目304可以是替代面部。在一些实现方式中，替代面部可以与任何化身相关联。在一些实现方式中，用户可以在各种替代面部中选择替代面部。在一些实现方式中，替代面部可以与不同于用户的人相关联。例如，如图3中所示，与用户U3的面部不同的媒体内容项目306可以是替代面部。例如，替代面部可以是特定名人的面部。在一些实现方式中，可以使用各种替代面部来使得参与者匿名。

在一些实现方式中，参与者可以扫描名人、动画、头像等的面部，并且然后将该面部上载到社交网络系统。注意，为了说明容易，使用术语面部。在各种实现方式中，术语面部可以表示与面部或替代面部相关联的各个方面和角度。例如，术语面部也可以包括面部的元素和部分(例如，眼睛、鼻子、嘴部、面部特征等)、在面部周围的元素和元素的部分(例如，耳朵、脖子等)、毛发元素(例如，覆盖头部的毛发、眉毛、胡子、胡须等)。而且，涉及面部的实现方式也适用于这些各种元素和部分，并且适用于可以伴随面部的其他身体部分，诸如肩膀和胸部区域，就像在肖像中那样，并且适用于臂、手等。

在各种实现方式中，系统102也可以获得与一个或多个媒体内容项目中的每一个相关联的一个或多个参数。在各种实现方式中，该一个或多个参数与一个或多个媒体内容项目相关联。例如，如果媒体内容项目是面部或替代面部，则一个或多个参数可以关联于和限定面部的大小和尺寸、面部的形状、面部的元素和/或与面部相关联的元素等。

在各种实现方式中，系统102可以从任何适当的存储位置(例如，本地存储)获得一个或多个媒体内容项目和/或获得与媒体内容项目相关联的一个或多个参数。

在块208中，系统102至少部分地基于坐标来向至少一个帧增加一个或多个媒体内容项目。例如，图3的媒体内容项目304可以被增加到帧，由此替代用户U3的面部302。如上所述，虽然在此在单个帧的上下文中描述各种实现方式，但是这些实现方式也适用于多个帧(例如，动画的帧等)。例如，系统102可以向一系列帧或帧的流(例如，在视频流中的一系列帧，诸如在图3中所示的)增加该一个或多个媒体内容项目。

在一些实现方式中，媒体内容项目的增加可以包括系统102在帧的一部分上叠加至少一个媒体内容项目。在各种实现方式中，该叠加基于在帧内的坐标，并且也基于与一个或多个媒体内容项目相关联的参数。在一些实现方式中，媒体内容项目的增加可以包括系统102将帧的一部分替换为一个或多个媒体内容项目。在各种实现方式中，该替换基于在帧内的坐标，并且基于与一个或多个媒体内容项目相关联的参数。

例如，系统102可以确定用户的面部的不同部分位于帧内的何处(例如，使用坐标)。系统102可以然后确定一个或多个媒体内容项目(例如，眼睛、鼻子、嘴部等)的参数。系统102可以然后将用户的面部的一部分或用户的整个面部替换为一个或多个媒体内容项目。结果，向帧增加一个或多个媒体内容项目可以导致将用户的面部替换为替代面部。在另一个示例中，在视频会议中，系统102可以将在视频流中的给定用户的面部替换为替代面部(例如，化身、动画面部等)。在各种实现方式中，根据用户的选择，用户/视频会议参与者可以选择通过多种特定替代面部表示的参与者的喜好或外观。

在一些实现方式中，系统102可以使用面部跟踪算法来在屏幕上移动替代面部以跟随用户。例如，如果用户移动到视频相机的一侧(例如，到观众的右面)，则系统102跟踪在坐标中的改变，以便适当地增加一个或多个媒体内容项目(例如，向观众的右面)。在一些实现方式中，系统102可以相应缩放替代面部。例如，如果用户改变相对于视频相机的距离(例如，移动得更接近视频相机)，则系统102跟踪在坐标中的改变，并且适当地修改和增加一个或多个媒体内容项目(例如，放大一个或多个媒体内容项目以匹配改变的坐标)。

在一些实现方式中，系统102可以捕获参与者的环境的背景，而没有参与者存在。这将便利系统102以后将参与者的面部替换为替代面部。例如，系统102可以在保留背景的同时裁剪参与者面部并且插入替代面部。

在各种实现方式中，可以使用音频流来移动面部的部分和/或元素，诸如替代面部的嘴部。在一些实现方式中，音频流可以对应于由参与者发出的词或声音。在一些实现方式中，系统102获得与至少一个媒体内容项目相关联的至少一个音频内容项目。在一些实现方式中，如果音频内容项目是特定名人的面部，则该音频内容可以包括那个特定名人的语音特性(例如，音调、质量等)。在一些实现方式中，系统102可以向媒体流增加音频内容项目。在一些实现方式中，系统102可以将音频内容项目混和到媒体流内。在一些实现方式中，系统102可以将媒体流的至少一部分替换为音频内容项目。结果，当参与者发出词或声音时，系统102产生由用户发出但是被修改为特定名人的语音的相同的词或声音。

虽然可以以特定顺序来呈现步骤、操作或计算，但是可以在特定实现方式中改变该顺序。根据特定实现方式，步骤的其他排序是可能的。在一些特定实现方式中，可以同时执行在本说明书中依序示出的多个步骤。而且，一些实现方式可以没有所示的所有步骤，并且/或者可以具有取代或补充在此所示的那些的其他步骤。

虽然在此将系统102描述为执行在实现方式中所述的步骤，但是系统102的任何适当组件或组件的组合或与系统102相关联的任何适当的一个或多个处理器可以执行所述的步骤。

在此所述的实现方式提供了各种益处。例如，实现方式使得参与者能够以有趣的方式彼此交互。实现方式使得在视频会议中的参与者能够匿名。在此所述的实现方式也增大了在社交网络环境中的终端用户之间的整体约会。

图4图示了可以用于实现在此所述的实现方式的示例服务器装置400的框图。例如，服务器装置400可以用于实现图1的服务器装置104，并且执行在此所述的方法实现方式。在一些实现方式中，服务器装置400包括处理器402、操作系统404、存储器406和输入/输出(I/O)接口408。服务器装置400也包括社交网络引擎410和媒体应用412，他们可以被存储在存储器406中或任何其他适当的存储位置或计算机可读介质上。媒体应用412提供指令，该指令使得处理器402能够执行在此所述的功能和其他功能。

为了说明容易，图4示出用于处理器402、操作系统404、存储器406、I/O接口408、社交网络引擎410和媒体应用412中的每一个的一个方框。这些方框402、404、406、408、410和412可以表示多个处理器、操作系统、存储器、I/O接口、社交网络引擎和媒体应用。在其他实现方式中，服务器装置400可以不具有所示的所有组件，并且/或者可以具有其他元件，包括取代或补充在此所示的那些的其他类型的元件。

在各种实现方式中，系统102可以利用各种识别算法来识别在媒体中的面部、地标、物体等。这样的识别算法可以与系统102是一体的。系统102也可以访问由系统102外部并且系统102访问的软件提供的识别算法。

在各种实现方式中，系统102使得社交网络系统的用户能够指定和/或同意个人信息的使用，这可以包括系统102使用他们在照片中的面部或使用他们的身份信息来识别在照片中识别的人们。例如，系统102可以向用户提供涉及指定和/或同意个人信息的使用的多个选择。例如，关于指定和/或同意的选择可以与独立的照片、所有照片、独立的像册、所有像册等相关联。可以以各种方式来实现该选择。例如，系统102可以使得在各种选择后显示按钮或复选框。在一些实现方式中，系统102使得社交网络的用户能够指定和/或同意一般使用他们的照片来用于面部识别。下面更详细地描述用于识别面部和其他对象的示例实现方式。

在各种实现方式中，系统102获得社交网络系统的用户的参考图像，其中，每一个参考图像包括与已知用户相关联的面部的图像。该用户是已知的，因为系统102具有用户的身份信息，诸如用户的姓名和其他简档信息。在一些实现方式中，参考图像可以例如是用户已经上载的简档图像。在一些实现方式中，参考图像可以基于一组参考图像的复合。

在一些实现方式中，为了识别在照片中的面部，系统102可以将面部(即，面部的图像)与社交网络系统的用户的参考图像进行比较并且将该面部匹配于社交网络系统的用户的参考图像。注意，可以可交换地使用术语“面部”和短语“面部的图像”。为了说明容易，在在此所述的示例实现方式的一些中描述了一个面部的识别。这些实现方式也可以适用于要识别的多个面部中的每一个面部。

在一些实现方式中，系统102可以搜索参考图像，以便识别与在照片中的面部类似的任何一个或多个参考图像。在一些实现方式中，对于给定的参考图像，系统102可以从照片中的面部的图像提取特征以进行分析，并且然后将那些特征与一个或多个参考图像中的那些作比较。例如，系统102可以分析诸如眼睛、鼻子、颧骨、嘴巴、下巴等的面部特征的相对位置、大小和/或形状。在一些实现方式中，系统102可以使用从该分析收集的数据来将在照片中的面部与具有匹配或类似特征的一个或多个参考图像匹配。在一些实现方式中，系统102可以规范化多个参考图像，并且将来自那些图像的面部数据压缩为具有信息(例如，面部特征数据)的复合表示，并且然后将在照片中的面部与该复合表示作比较以用于面部识别。

在一些情况下，在照片中的面部可能类似于与同一用户相关联的多个参考图像。如此一来，将存在与在照片中的面部相关联的人是与参考图像相关联的同一人的高概率。

在一些情况下，在照片中的面部可能类似于与不同用户相关联的多个参考图像。如此一来，将存在在照片中的人匹配与参考图像相关联的任何给定人的中等高但是有所降低的概率。为了处理这样的情况，系统102可以使用各种类型的面部识别算法来将概率变窄，理想上减小为一个最佳的候选。

例如，在一些实现方式中，为了促进面部识别，系统102可以使用基于特征区别的几何面部识别算法。系统102还可以使用光度算法，其基于将面部特征提取为用于比较的值的统计学手段。当将在照片中的面部与一个或多个参考作比较时，也可以使用几何和光度方法的组合。

可以使用其他面部识别算法。例如，系统102可以使用面部识别算法，该算法使用主成分分析、线性判别分析、弹性束图匹配、隐马尔可夫模型以及动态链接匹配中的一个或多个。可以明白，系统102可以其他已知或以后开发的面部识别算法、技术和/或系统。

在一些实现方式中，系统102可以产生输出，该输出指示在照片中的面部匹配给定参考图像的可能性(或概率)。在一些实现方式中，可以将输出表示为度量(或数值)，诸如与在照片中的面部匹配给定的参考图像的置信度相关联的百分比。例如，1.0的值可以表示匹配的100％的置信度。这可以例如当所比较的图像相同或近乎相同时出现。该值可以更小，例如当存在匹配的50％的机会时为0.5。其他类型的输出是可能的。例如，在一些实现方式中，该输出可以是用于匹配的置信分值。

虽然已经参考其特定实施例描述了说明书，但是这些特定实施例仅是说明性的，并且不是限定性的。在示例中图示的思想可以被应用到其他示例和实现方式。

注意，在本公开中描述的功能块、方法、装置和系统可以被整合或划分为本领域内的技术人员已知的系统、装置和功能块的不同组合。

可以使用任何适当的编程语言和编程技术来实现特定实施例的例程。可以使用不同的编程技术，诸如面向过程或对象的。例程可以在单个处理装置或多个处理器上执行。虽然可以以特定顺序来呈现步骤、操作或计算，但是可以在不同的特定实施例中改变该顺序。在一些特定实施例中，可以同时执行在本说明书中被示出为依序的多个步骤。

“处理器”包括处理数据、信号或其它信息的任何合适的硬件和/或软件系统、机构或组件。处理器可包括具有通用中央处理单元、多个处理单元、用于实现功能的专用电路或者其他系统的系统。处理不需要限于一个地理位置，或者具有时间限制。例如，处理器可以“实时”、“离线”、以“批模式”等来执行其功能。可以通过不同(或相同)的处理系统在不同的时间和在不同的位置处执行处理的部分。计算机可以是与存储器通信的任何处理器。存储器可以是任何合适的处理器可读存储介质，诸如随机存取存储器(RAM)、只读存储器(ROM)、磁盘或光盘或适合于存储用于由所述处理器执行的指令的其它有形介质。

Claims

1.一种方法，包括：

从媒体流获得至少一个帧，其中，所述至少一个帧包括与用户相关联的第一面部；

确定在所述至少一个帧内的多个坐标，其中，所述多个坐标包括所述第一面部的一个或多个面部元素的坐标；

获得包括替代面部至少一个媒体内容项目；

获得与所述至少一个媒体内容项目相关联的一个或多个参数；

跟踪所述多个坐标中的改变；

基于与所述至少一个媒体内容项目相关联的所述一个或多个参数以及所述多个坐标中的所述改变，修改所述至少一个媒体内容项目；

通过将所述第一面部替代为所述替代面部，基于所述多个坐标向所述至少一个帧增加所述至少一个所修改的媒体内容项目；

基于与所述替代面部相关联的语音特性获得表示对来自所述用户的音频的修改的至少一个音频内容项目；以及

向所述媒体流添加所述至少一个音频内容项目。

2.根据权利要求1所述的方法，其中所述至少一个帧进一步包括背景，并且将所述至少一个所修改的媒体内容项目添加到所述至少一个帧包括保留所述背景。

3.根据权利要求1所述的方法，其中，所述一个或多个参数限定以下至少一项：所述替代面部的大小和尺寸、所述替代面部的形状或者所述替代面部的一个或多个面部元素。

4.根据权利要求1所述的方法，其中，使用面部识别算法来执行所述多个坐标的所述确定。

5.根据权利要求1所述的方法，其中，所述至少一个媒体内容项目包括至少一个替代面部。

6.根据权利要求1所述的方法，其中，所述替代面部与所述第一面部不同。

7.根据权利要求1所述的方法，其中，所述替代面部与不同于所述用户的人相关联。

8.根据权利要求1所述的方法，其中，所述替代面部与所述第一面部的动画版本相关联。

9.根据权利要求1所述的方法，其中，所述至少一个媒体内容项目的所述增加包括下述中的一个或多个：

将所述至少一个媒体内容项目叠加在所述至少一个帧上；以及

将所述一个或多个帧的至少一部分替换为所述至少一个媒体内容项目。

10.根据权利要求1所述的方法，进一步包括：

获得与所述至少一个媒体内容项目相关联的至少一个音频内容项目；以及

向所述媒体流增加所述至少一个音频内容项目。

11.一种系统，包括：

一个或多个处理器；以及

用于由所述一个或多个处理器执行的在一个或多个有形介质中编码的逻辑，并且所述逻辑在被执行时可操作用于执行操作，所述操作包括：

获得至少一个媒体内容项目；

跟踪所述多个坐标中的改变；

基于所述多个坐标向所述至少一个帧增加所述至少一个所修改的媒体内容项目；

获得表示对来自所述用户的音频的修改的至少一个音频内容项目；以及

向所述媒体流添加所述至少一个音频内容项目。

12.根据权利要求11所述的系统，其中，所述多个坐标包括所述第一面部的坐标。

13.根据权利要求11所述的系统，其中，使用面部识别算法来执行所述多个坐标的所述确定，并且其中，所述多个坐标包括所述第一面部的坐标。

14.根据权利要求11所述的系统，其中，所述至少一个媒体内容项目包括至少一个替代面部。

15.根据权利要求11所述的系统，其中，所述至少一个媒体内容项目包括至少一个替代面部，并且其中，所述替代面部与所述第一面部不同。

16.根据权利要求11所述的系统，其中，所述至少一个媒体内容项目包括至少一个替代面部，并且其中，所述替代面部与不同于所述用户的人相关联。

17.根据权利要求11所述的系统，其中，所述至少一个媒体内容项目包括至少一个替代面部，并且其中，所述替代面部与所述第一面部的动画版本相关联。

18.根据权利要求11所述的系统，其中，所述至少一个媒体内容项目的所述增加包括下述中的一个或多个：