CN116489299A

CN116489299A - 视频通信平台中的化身生成

Info

Publication number: CN116489299A
Application number: CN202210036647.4A
Authority: CN
Inventors: 付炽晨; 凌波; 朱奕安
Original assignee: Zuma Video Communications
Current assignee: Zuma Video Communications
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2023-07-25
Also published as: US20230222721A1

Abstract

涉及用于在视频通信平台内生成化身的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。该系统可以接收从一个或多个化身模型的组中对化身模型的选择。该系统接收第一视频流和第一视频会议参与者的音频数据。该系统分析第一视频流的图像帧以确定表示第一视频参与者的像素的组。该系统确定与确定的像素的组相关联的多个面部表情参数。基于确定的多个面部表情参数值，系统生成第一修改后视频流，该第一修改后视频流展现呈化身形式的第一视频参与者的数字化表示。

Description

视频通信平台中的化身生成

背景技术

本申请总体上涉及视频通信，且更具体地，涉及用于在视频通信平台中化身生成的系统和方法。

发明内容

一种由计算机实现的方法，其包括：接收从一个或多个化身模型的组中对化身模型的选择；接收包括第一视频会议参与者的多个图像帧的第一视频流；将所述多个图像帧之中每一个的至少一组像素输入到经训练的机器学习网络中；由所述经训练的机器学习网络确定与多个图像相关联的多个面部表情参数值；通过以下生成第一修改后视频流：基于所述多个面部表情参数值，使所选化身模型的三维头部网格形变；渲染呈化身形式的所述第一视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对所述第一修改后视频流的显示。

根据所述方法，其中使三维头部网格形变包括：基于所述确定的多个面部表情参数值选择一个或多个混合形状；以及应用所选的一个或多个混合形状来修改所选化身模型的网格几何形状。

根据所述方法，进一步包括：接收视频会议参与者的第二修改后视频流，所述第二修改后视频流包括呈化身形式的第二视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对所述第二修改后视频流的显示。

根据所述方法，进一步包括：接收对第一虚拟背景的选择用于与所选化身模型一起使用；并且其中，所述第一修改后视频流展现呈化身形式的所述第一视频会议参与者的数字化表示覆盖在所选的第一虚拟背景上。

根据所述方法，进一步包括：确定所述第一视频流中没有在对所述第一视频会议参与者进行采集；改变所述第一修改后视频流以在没有所述呈化身形式的所述第一视频会议参与者的数字化表示的情况下展现所述所选的第一虚拟背景；以及在视频会议环境的用户接口中提供对改变后的第一修改后视频流的显示。

根据所述方法，其中相关联的多个面部表情参数包括一个或多个动作单元值和相关联的强度值。

根据所述方法，其中多个面部表情参数值包括至少51个不同的动作单元值。

一种存储可执行程序指令的非暂时性计算机可读介质，所述可执行程序指令在由一个或多个计算设备执行时配置一个或多个计算设备执行包括以下的操作：接收从一个或多个化身模型的组中对化身模型的选择；接收包括第一视频会议参与者的多个图像帧的第一视频流；将所述多个图像帧之中每一个的至少一组像素输入到经训练的机器学习网络中；由所述经训练的机器学习网络确定与多个图像相关联的多个面部表情参数值；通过以下生成第一修改后视频流：基于所述确定的多个面部表情参数值，使所选化身模型的三维头部网格形变；以及渲染呈化身形式的所述第一视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对所述第一修改后视频流的显示。

根据所述的非暂时性计算机可读介质，其中使三维头部网格形变的操作包括以下操作：基于所述确定的多个面部表情参数值选择一个或多个混合形状；以及应用所述一个或多个混合形状来修改所选化身模型的网格几何形状。

根据所述的非暂时性计算机可读介质，进一步包括以下操作：接收视频会议参与者的第二修改后视频流，所述第二修改后视频流包括呈化身形式的第二视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对所述第二修改后视频流的显示。

根据所述的非暂时性计算机可读介质，进一步包括以下操作：接收对第一虚拟背景的选择用于与所选化身模型一起使用；并且其中，所述第一修改后视频流展现呈化身形式的所述第一视频会议参与者的数字化表示覆盖在所选的第一虚拟背景上。

根据所述的非暂时性计算机可读介质，进一步包括以下操作：确定第一视频流中没有在对所述第一视频会议参与者进行采集；改变所述第一修改后视频流以在没有呈所述化身形式的第一视频会议参与者的数字化表示的情况下展现所选的第一虚拟背景；以及在视频会议环境的用户接口中提供对改变后的第一修改后视频流的显示。

根据所述的非暂时性计算机可读介质，其中相关联的多个面部表情参数包含一个或多个动作单元值和相关联的强度值。

根据所述的非暂时性计算机可读介质，其中多个面部表情参数值包括至少51个不同的动作单元值。

一种包括一个或多个处理器的系统，配置用于执行以下操作：接收从一个或多个化身模型的组中对化身模型的选择；接收包括第一视频会议参与者的多个图像帧的第一视频流；将多个图像帧之中每一个的至少一组像素输入到经训练的机器学习网络中；由所述经训练的机器学习网络确定与多个图像帧相关联的多个面部表情参数值；通过以下生成第一修改后视频流：基于所述确定的多个面部表情参数值，使所选化身模型的三维头部网格形变；渲染呈化身形式的所述第一视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对所述第一修改后视频流的显示。

根据所述系统，其中使三维头部网格形变包括：基于所生成的多个面部表情参数值选择一个或多个混合形状；以及应用所述一个或多个混合形状来修改所选化身模型的网格几何形状。

根据所述系统，进一步包括以下操作：接收视频会议参与者的第二修改后视频流，所述第二修改后视频流包括呈化身形式的第二视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对所述第二修改后视频流的显示。

根据所述系统，进一步包括以下操作：接收对第一虚拟背景的选择用于与所选化身模型一起使用；以及其中，所述第一修改后视频流展现呈化身形式的所述第一视频会议参与者的数字化表示覆盖在所选的第一虚拟背景上。

根据所述系统，进一步包括以下操作：确定所述第一视频流中没有在对所述第一视频会议参与者进行采集；改变所述第一修改后视频流以在没有呈化身形式的所述第一视频会议参与者的数字化表示的情况下展现所选的第一虚拟背景；以及在视频会议环境的用户接口中提供对改变后的第一修改后视频流的显示。

根据所述的系统，其中相关联的多个面部表情参数包括一个或多个动作单元值和相关联的强度值。

附图说明

图1A是示出一些实施方式可以在其中运行的示例性环境的图；

图1B是示出具有可以执行本文描述的一些功能的软件和/或硬件模块的示例性计算机系统的图；

图2是示出一些实施方式可以在其中运行的示例性环境的图；

图3是示出示例性化身模型和渲染的呈化身形式的数字化表示的图；

图4是示出可以在一些实施方式中执行的示例性方法的流程图；

图5是示出可以在一些实施方式中执行的示例性方法的流程图；

图6示出了根据本公开一个实施方式的示例性用户接口；

图7示出了根据本公开一个实施方式的示例性用户接口；和

图8示出了根据本公开一个实施方式的示例性用户接口。

图9是示出在一些实施方式中可以执行处理的示例性计算机的图。

具体实施方式

在本说明书中，对本发明的特定实施方式进行详细参考。在附图中示出了一些实施方式或它们的方面。

为了解释清楚，已经参考具体实施方式对本发明进行了描述，然而应当理解，本发明不限于所描述的实施方式。相反，本发明覆盖了可以包括在任何专利权利要求所限定的范围内的替代方案、修改和等同方案。在不丧失一般性并且不对所要求保护的本发明施加限制的情况下对本发明的以下实施方式进行阐述。在下面的描述中，为了提供对本发明的深入理解，对具体细节进行了阐述。本发明可以在没有这些具体细节中的一些或全部的情况下实施。此外，可能没有详细描述公知的特征，以避免不必要地混淆本发明。

此外，应当理解，本示例性专利中阐述的示例性方法的步骤可以以与本说明书中呈现的顺序不同的顺序执行。而且，示例性方法的一些步骤可以并行执行而不是顺序执行。还有，示例性方法的步骤可以在网络环境中执行，其中一些步骤由联网环境中的不同计算机来执行。

一些实施方式是由计算机系统实现的。计算机系统可以包括处理器、存储器和非瞬态计算机可读介质。存储器和非瞬态介质可以存储用于执行本文描述的方法和步骤的指令。

图1A是示出一些实施方式可以在其中运行的示例性环境的图。在示例性环境100中，第一用户客户端设备150和一个或多个附加用户客户端设备151连接到处理引擎102，并且任选地连接到视频通信平台140。处理引擎102连接到视频通信平台140，并且任选地连接到一个或多个库(例如，非瞬态数据存储)和/或数据库，包括化身模型库130、虚拟背景库132、化身模型定制库134和/或用于训练机器学习网络的图像训练库。数据库中的一个或多个可以被组合或分割成多个数据库。该环境中的第一用户客户端设备150和附加用户客户端设备151可以是计算机，视频通信平台服务器140和处理引擎102可以是托管在经由远程服务器或本地通信联接的一台计算机或多台计算机上的应用程序或软件。

示例性环境100被示出为仅具有一个附加用户客户端设备、一个处理引擎和一个视频通信平台，然而实际上可以存在更多或更少的附加用户客户端设备、处理引擎和/或视频通信平台。在一些实施方式中，第一用户客户端设备、附加用户客户端设备、处理引擎和/或视频通信平台中的一个或多个可以是同一计算机或设备的一部分。

在实施方式中，处理引擎102可执行方法400、500或本文中的其它方法，且因此提供视频通信平台中的化身生成。在一些实施方式中，这可以是借助通过设备与应用程序服务器或某一其他网络服务器之间的网络与第一用户客户端设备150、附加用户客户端设备151、处理引擎102、视频通信平台140和/或其它设备通信来完成的。在一些实施方式中，处理引擎102是托管在计算机或类似设备上的应用程序、浏览器扩展或其他软件，或者其本身是配置为托管应用程序、浏览器扩展或其他软件以执行本文中的一些方法和实施方式的计算机或类似设备。

在一些实施方式中，第一用户客户端设备150和附加用户客户端设备151可执行方法400、500或本文中的其它方法，且因此提供视频通信平台中的化身生成。在一些实施方式中，这可以是借助通过设备与应用程序服务器或某一其他网络服务器之间的网络与第一用户客户端设备150、附加用户客户端设备151、处理引擎102、视频通信平台140和/或其它设备通信来实现的。

第一用户客户端设备150和附加用户客户端设备151可以是具有被配置为向设备用户呈现信息的显示器的设备。在一些实施方式中，第一用户客户端设备150和附加用户客户端设备151以具有UI元素或组件的用户接口(UI)的形式呈现信息。在一些实施方式中，第一用户客户端设备150和附加用户客户端设备151向处理引擎102和/或视频通信平台140发送和接收信号和/或信息。第一用户客户端设备150可以被配置用于在视频通信平台上执行与呈现和回放视频、音频、文档、注释和视频呈现内的其他材料(例如，虚拟课堂、演讲、视频会议、网络研讨会或者任何其他合适的视频呈现)有关的功能。附加用户客户端设备151可被配置用于观看视频呈现，且在一些情况下，也用于呈现材料和/或视频。在一些实施方式中，第一用户客户端设备150和/或附加用户客户端设备151包括能够实时或基本实时地生成和发送视频内容的嵌入式或连接式摄像机。例如，客户端设备中的一个或多个可以是具有内置相机的智能手机，并且智能手机运行软件或应用程序可以提供基于内置相机生成的视频播放直播流的能力。在一些实施方式中，第一用户客户端设备150和附加用户客户端设备151是能够托管和执行一个或多个应用程序或能够发送和/或接收信息的其他程序的计算设备。在一些实施方式中，第一用户客户端设备150和/或附加用户客户端设备151可以是台式计算机或便携式计算机、移动电话、视频电话、会议系统或能够发送和接收信息的任何其他合适的计算设备。在一些实施方式中，处理引擎102和/或视频通信平台140可以整体或部分地被托管作为在第一用户客户端设备150和/或附加用户客户端设备151上执行的应用程序或web服务。在一些实施方式中，视频通信平台40、处理引擎102及第一用户客户端设备150或附加用户客户端设备151中的一个或多个可以是同一设备。在一些实施方式中，第一用户客户端设备150与视频通信平台上的第一用户账户相关联，并且附加用户客户端设备151与视频通信平台上的附加用户账户相关联。

在一些实施方式中，任选的库可以包括以下之中一个或多个：用户账户化身模型库130、虚拟背景库132和化身模型定制库134。化身模型库可以存储和/或维护化身模型以供视频通信平台140选择和使用。虚拟背景库132可以存储和/或维护虚拟背景以供通信平台140选择和使用。在一些实施方式中，虚拟背景库132可以包括可选择的背景图像和/或视频文件，该背景图像和/或视频文件可以被选择作为所选化身的背景。化身模型定制库134可以包括由用户对特定化身进行的定制、样式、颜色、服装、面部特征尺寸和其他定制。

视频通信平台140包括被配置用于诸如在视频会议或虚拟教室内辅助两方或多方之间的视频呈现和/或通信的平台。在一些实施方式中，视频通信平台140实现一个或多个用户之间的视频会议会话。

图1B是示出示例性计算机系统150的图，该计算机系统150具有可以执行本文所述的一些功能的软件和/或硬件模块。计算机系统150可以包括例如用于在视频通信平台中化身生成的服务器或客户端设备或者服务器和客户端设备的组合。

用户接口模块152提供用于向视频通信平台140的一个或多个用户呈现用户接口以及接收和处理来自用户的用户输入的系统功能。此处用户接口所接收的用户输入可以包括点击、键盘输入、触摸输入、轻击、滑动、手势、语音命令、接口控件的激活和其他用户输入。在一些实施方式中，用户接口模块152在屏幕上呈现可视化用户接口。在一些实施方式中，用户接口可以包括音频用户接口，例如基于声音的接口和语音命令。

化身模型选择模块154提供用于选择在视频通信平台140中视频通信期间要用于呈现呈化身形式的用户的化身模型的系统功能。

虚拟背景模块156提供用于在视频通信平台140中视频通信期间呈现呈化身形式的用户时选择要用作背景的虚拟背景的系统功能。

化身模型定制模块158提供用于定制化身的特征和/或所呈现的外观的系统功能。例如，化身模型定制模块158提供对可由用户改变的属性的选择。例如，对化身模型的改变可以包括头发定制、面部毛发定制、眼镜定制、服装定制、头发、皮肤和眼睛颜色改变、面部特征尺寸以及用户对特定化身进行的其他定制。对特定化身作出的改变被存储或保存在化身模型定制库134中。

对象检测模块160提供用于确定视频流内的对象的系统功能。例如，对象检测模块160可以评估视频流的帧并识别用户的头部和/或身体。对象检测模块可以从表示用户背景的周围像素中提取或分离表示用户的像素。

化身渲染模块162提供用于基于接收到的用户的视频流来渲染三维化身的系统功能。例如，在一个实施方式中，对象检测模块160识别表示用户头部和/或身体的像素。随后由化身渲染模块结合所选的化身模型对这些识别出的像素进行处理。化身渲染模块162生成呈化身形式的用户的数字化表示。化身渲染模块生成展现呈化身形式(例如，基于所选化身模型的三维数字化表示)的用户的修改后视频流。在选择了虚拟背景的情况下，修改后视频流包括覆盖在所选择的第一虚拟背景上的渲染的化身。

化身模型同步模块164提供用于同步或传送来自化身建模服务的化身模型的系统功能。化身建模服务可以生成或存储化身模型的电子包以分发给各种客户端设备。例如，可以用模型的新版本来更新特定化身模型。化身模型同步模块对所分发的来自化身建模服务的化身模型的客户端设备上电子包的接收和存储进行处理。

机器学习网络模块164提供用于使用机器学习网络的系统功能，该机器学习网络被训练用于评估图像数据和确定在图像数据中发现的面部表情的面部表情参数。确定的面部表情参数用于选择混合形状(blendshape)以对基于3D网格的模型进行形变或调整。

图2示出了可用于参与视频会议和/或虚拟环境的一个或多个客户端设备。在一个实施方式中，在视频会议期间，视频会议参与者226(例如用户)将计算机系统220(例如台式计算机或移动电话)用于与其他视频会议参与者通信。计算机系统202的相机和麦克风202采集视频会议参与者226的视频和音频。视频会议系统250接收所采集的视频和音频的视频流，并由视频会议系统250进行处理。基于所接收的视频流，针对来自化身模型库130的所选化身模型，化身渲染模块160渲染或生成修改后视频流，该修改后视频流展现呈化身形式的视频会议参与者226的数字化表示。修改后视频流可以通过视频会议应用程序224的用户接口来呈现。

在一些实施方式中，视频会议系统250可以接收随后被存储于化身模型库130中的更新的3D化身模型的电子包。化身建模服务器230可以与计算机系统220进行电子通信。化身建模服务232可以生成新的或修正的三维(3D)化身模型。计算机系统220与化身建模服务通信以确定任何新的或修正的化身模型是否可用。在新的或修正的化身模型可用的情况下，化身建模服务232向计算机系统220发送包含新的或修正的化身模型的电子包。

在一些实施方式中，化身建模服务232向计算机系统220发送电子包。电子包可包括3D化身模型的头部网格、3D化身模型的身体网格和具有用于移动3D化身模型的身体的向量或其他几何信息的身体骨架、模型纹理文件、多个混合形状以及其他数据。在一些实施方式中，电子包包括用于可由下文所述的机器学习网络识别的不同或独特面部表情中的每一个的混合形状。在一个实施方式中，可以将电子包作为glTF文件格式来发送。

在一些实施方式中，系统可以针对被评估图像确定多个不同的面部表情或动作值。系统100可以在电子包中包括用于可以由系统识别的多个不同面部表情中每一个的对应的混合形状。当对呈化身形式的视频会议参与者226的数字化表示进行渲染时，系统可以使用不同的混合形状来对基于3D网格的模型(例如，头部网格模型)进行调整或变形。

图3是示出示例性化身模型302和所渲染的呈化身形式的数字化表示304的图。系统100根据基于3D网格的模型302生成呈化身形式304的视频会议参与者的数字化表示。化身模型302可以是基于网格的3D模型302。在一些实施方式中，可以使用单独的化身头部网格模型和单独的身体网格模型。可以对3D头部网格模型进行操纵以便为了自然表情而使用不同的混合形状。在一个实施方式中，可以对3D头部网格模型进行操纵以使用至少51种不同的混合形状。还有，3D头部网格模型可以具有相关联的舌部模型。系统100可以检测图像中的舌头伸出位置，并渲染展现舌头伸出动画的化身模型。

不同类型的基于3D网格的模型可以与系统100一起使用。在一些实施方式中，基于3D网格的模型可以是基于三维面部表情(3DFE)模型(例如，宾汉姆顿大学(BU)-3DFE(2006)、BU-4DFE(2008)、BP4D-Spontaneous(2014)、BP4D+(2016)、EB+(2019)，BU-EEG(2020)3DFE、ICT-FaceKit和/或其组合)的。前述基于3D网格的模型的列表是说明性的，而非限制性的。本领域技术人员将理解，其它基于3D网格的模型类型可以与系统100一起使用。

在一些实施方式中，系统100可以使用面部动作编码系统(FACS)编码的混合形状用于面部表情，并且任选地使用其他混合形状用于舌头伸出表情。FACS是众所周知的通过面部外观对人类面部运动进行分类的编码系统。在一个实施方式中，系统100使用利用至少多个FACS编码的混合形状而操纵的基于3D网格的化身模型。系统100可以使用FACS编码的混合形状来使基于3D网格的模型(诸如3D头部网格)的几何形状变形，以创建各种面部表情。

在一些实施方式中，系统100使用3D形变模型(3DMM)来生成被操纵的化身模型。例如，可以使用以下3DMM来表示有表情的用户面部：v＝m+Pα+Bw，其中m是中立面部，P是面部形状基础，B是混合形状基础。使用非刚性配准技术由3D扫描数据(3DFE/4DFE)创建中立面部和面部形状基础。

在一些实施方式中，系统100可以接收用户面部的多次扫描以生成表示用户的个性化3D头部网格模型。例如，系统100可以创建具有展现用户面部的图像的多次面部扫描(例如，大约200次扫描)的图像数据集。每次面部扫描可以被表示为形状向量。由于不准确的3D界标，可能会选择面部扫描中的一些不对称配准，它们随后被变形为对称形状。例如，系统100可以生成大约230个高质量的面部或头部网格。然后，可以将用户的定制头部网格与相关联的混合形状一起打包，并且将电子包发送到客户的设备。

可以使用面部网格上的主成分分析(PCA)来计算面部形状基础P。PCA将产生对应于图像数据集的特征的主成分向量。混合形状基础B可以从开源项目ICT-FaceKit中获得。ICT-FaceKit提供限定有面部标志、刚性和可变形顶点的基本拓扑结构。ICT-FaceKit提供形式为光台扫描数据的主分量并配准为普通拓扑的线性形状向量的集。

在一些实施方式中，系统100可以使用非刚性配准将模板面部网格映射到ICTFaceKit模板，而不是变形传递算法，该算法在源网格和目标网格的拓扑不同的情况下给出不可靠的结果。系统100接下来可以简单地使用重心坐标来重建混合形状。在一些实施方式中，为了动画化3D化身，将仅需要表情混合形状权重w(即，检测到的面部表情)。

在一些实施方式中，基于3D网格的模型(例如，呈FBX、OBJ、3ds Max 2012格式或具有PNG漫射的纹理格式的Render VRay 2.3)可用作使用具有关节和骨骼的线性混合蒙皮而操纵的静态化身。

混合形状可用于使面部表情变形。可以在数字化表示的生成中使用混合形状变形器。例如，混合形状可用于在由相同数值顶点顺序构成的两个形状之间进行插值。这允许网格变形并同时存储在多个不同的位置。

图4是示出可以在一些实施方式中执行的示例性方法400的流程图。可以将机器学习网络训练成评估视频图像并确定图像中展现的人面部的面部表情参数值。在一些实施方式中，系统100可以使用机器学习技术，诸如深度机器学习、有学习能力的算法、人工神经网络、层次模型和已经被训练用于执行图像识别任务(诸如执行对人成像数据中的特定面部特征的机器识别)的其他人工智能过程或算法。基于机器学习网络在图像数据上识别的特性或特征，系统100可以生成应用于基于3D网格的模型的参数。

在步骤410中，可以在图像集上将机器学习网络训练成确定面部表情参数值。训练图像集展现了各种面部表情，并且标记有相应的动作编号和强度值。例如，可以使用展现特定动作单元值和任选针对关联动作的强度值的多个动作图像来对机器学习网络进行训练。在一些实施方式中，系统100可以通过监督学习来训练机器学习网络，该监督学习涉及根据展现面部表情和相关联的动作单元编号以及强度值的已知图像输入数据集顺序地生成结果数据。

下面的表1示出了动作单元(AU)编号和相关联的面部表情名称的一些示例：

表1

在一些实施方式中，可以将机器学习网络训练成评估图像以识别一个或多个FACS动作单元值。机器学习网络可以针对在图像中找到的面部表情识别并输出特定AU编号。在一个实施方式中，机器学习网络可以识别由机器学习网络评估的图像的至少51个不同的动作单元值。

在一些实施方式中，还可以将机器学习网络训练成提供特定动作单元的强度得分。例如，可以将机器学习网络训练用于提供相关联的A～E的强度得分，其中A是最低强度，而E是最高的面部动作强度(例如，A是痕迹动作，B是轻微动作，C是显著或明显的动作，D是严重或极端动作，而E是最大动作)。在另一示例中，可以将机器学习网络训练成输出范围从0到1的数值。数字零表示中性强度，或者在图像中找不到针对特定面部特征的动作值。数字1表示面部特征的最大动作。数字0.5可以表示显著的或明显的动作。

在步骤420中，可以将经训练的机器学习网络的电子版本或副本分发至多个客户端设备。例如，可以将经训练的机器学习网络发送到客户端设备并本地存储在客户端设备上。可以不时地对机器学习网络进行更新和进一步训练，并且可以将机器学习网络分发到客户端设备150、151并进行本地存储。

在步骤430中，客户端设备150、151可以接收视频会议参与者的视频图像。任选地，可以对视频图像进行预处理以识别展现视频会议参与者的头部和任选地身体的像素组。

在步骤440中，将来自视频的每个帧(或所识别的像素组)输入到存储在客户端设备上的机器学习网络的本地版本中。本地机器学习对图像帧(或所识别的像素组)进行评估。系统100使用机器学习网络通过推理过程来评估图像像素，该机器学习网络已被训练成对数字化图像中的一个或多个面部表情和表情强度进行分类。例如，机器学习网络可以接收并处理展现视频会议参与者的图像。

在步骤450，机器学习网络确定面部表情值，诸如具有相关联的动作强度值的一个或多个动作单元值。在一些实施方式中，仅确定动作单元值。例如，用户的图像可以展现用户的眼睛是闭着的，并且用户的头稍微向左转。经训练的机器学习网络可以输出为43、1和51、0.5的两对动作单元值和对应的强度值。动作单元值43将指示眼睛闭合，而强度值1将指示最大动作(即，眼睛一直闭合)。动作单元值51将指示头部向左转，而强度值0.5将指示明显的动作(即，头部向左转一半)。

在步骤460，系统100将确定的动作单元值和对应的强度值对应用于化身模型。接下来基于确定的动作单元值来选择化身模型的混合形状。然后，使用所选择的混合形状来渲染化身模型的3D动画。所选的混合形状对化身模型的网格几何形状进行变形或调整。

图5是示出可以在一些实施方式中执行的示例性方法500的流程图。在一些实施方式中，系统100提供用于将所接收的视频会议参与者视频流处理和转换为呈化身形式的修改后的视频会议参与者视频流。

在步骤510，系统100接收化身模型的选择。在一个实施方式中，一旦被选择，系统100可以被配置为每当视频会议参与者参与另外的视频会议时使用相同的化身模型。

在步骤520，系统100任选地接收要与化身模型一起使用的虚拟背景的选择。在一个实施方式中，化身模型具有与该化身模型一起使用的默认虚拟背景。在其他实施方式中，用户可以选择要与化身模型一起使用的虚拟背景。

在步骤530，系统100接收展现第一视频会议参与者图像的视频流，该视频流包括多个视频帧和音频数据。在一些实施方式中，视频流由附接或连接到第一视频会议参与者客户端装置的视频摄像机采集。可以在客户端设备、视频通信平台140和/或处理引擎102处接收视频流。

在一些实施方式中，系统100提供用于确定视频中视频会议参与者与参会者的背景之间的像素边界。系统100保留视频中展现参会者的部分，并移除视频中展现背景的部分。在一种操作模式中，当生成化身时，系统100可以用所选择的虚拟背景来替换参会者的背景。在另一操作模式中，当生成化身时，系统100可以使用参会者的背景，其中化身覆盖参会者的背景。

在步骤540，系统100确定视频流每个帧的面部表情值，并将面部表情值应用于化身模型。在一些实施方式中，系统100基于对展现视频会议参与者图像帧的评估来确定面部表情值。

在步骤550，系统100生成或渲染修改后视频流，该修改后视频流展现呈动画化身形式的视频会议参与者的数字化表示。系统100可以使用确定的面部表情值来选择一个或多个混合形状，然后以相关联的强度等级将该一个或多个混合形状应用于使3D网格模型形变。将确定的面部表情值应用于基于3D网格的化身模型，以便生成呈化身形式的视频会议参与者的数字化表示。结果，动画化身的面部表情密切反映视频会议参与者所表达的真实世界的物理面部表情。

在步骤560，系统100提供用于通过用户显示修改后视频流。展现呈化身形式的视频会议参与者的修改后视频流可被发送给其他视频会议参与者以在他们的本地设备上进行显示。

图6示出了根据本公开一个实施方式的示例性用户接口600。在一些实施方式中，用户接口600可以提供用于选择化身602的控件或图标。响应于接收到输入，用户接口600可以显示展现一个或多个可用化身(622a、6222b、6223)的可用用户接口的一部分624。化身622a、622b、622c可被显示为静止图像和/或可被显示为移动的化身。化身622a表示用户的定制生成的3D网格模型。化身622b和622c表示不同动物化身的3D网格模型。

在一些实施方式中，用户接口部分624还可显示可与化身一起使用的可用虚拟背景(625b、624c、624d)。用户接口600可接收针对要与虚拟化身一起使用的虚拟背景的输入选择。当生成展现呈化身形式的用户的数字化表示的修改后视频流时，使用所选择的虚拟背景。在一些实施方式中，化身具有默认背景，在生成展现呈化身形式(诸如622b)的用户的数字化表示的修改后视频流时使用该默认背景。在其他实施方式中，可以不选择虚拟背景(624a)。当没有选择虚拟背景时，化身可以呈现在由用户的相机采集的用户真实背景上。

在一些实施方式中，当系统100不能在所接收的视频流中定位或识别视频参与者的面部时，系统100从修改后视频流中省略化身，并且在修改后视频流中仅展现虚拟背景。换句话说，动画的化身不再显示在视频流中。例如，这种操作模式允许系统100在视频参与者实际存在时生成视频参与者的化身，并且其计算机或移动设备相机获得视频参与者的视频图像。当视频会议参与者走出其相机的视野时，系统100将不会生成该用户的化身，并且因此不会被生成或显示给其他视频会议参与者。这种操作模式指示视频参与者何时可以主动参与，而不仅仅是激活他们的化身和离开其计算机或移动设备计算机的视野。

在一些实施方式中，虚拟背景文件可以是诸如视频文件、图像文件(例如，jpeg、gif等)或任何其他类型的图形或多媒体文件的文件。通常，虚拟背景文件是允许系统100结合用户的视频馈送将静止图形图像和/或视频图像呈现为虚拟背景的任何类型的文件。虚拟背景文件可以存储在文件系统、计算机系统存储器上，或者存储在本地存储器中，或者存储在基于服务器的存储系统或数据库中。当用户与一个或多个其他用户进行视频通信时，系统100对将由系统100用作虚拟背景的虚拟背景文件进行检索。

图7示出了根据本公开一个实施方式的示例性用户接口700。该示例示出了所接收的视频流被转换为呈化身形式722的视频会议参与者726的数字化表示。使用相机和麦克风702来捕捉视频会议参与者(例如，用户)的视频流和音频数据。视频流可以包括视频图像和音频数据。在一个实施方式中，化身渲染模块772将视频流中用户的面部表情转换为具有相似面部表情的渲染的3D化身动画。

在一些实施方式中，系统100提供3D动画渲染模块772(例如，动画重新定义引擎)，其被配置用于将混合形状应用于基于3D网格的化身模型。系统100可以使用基于图形处理单元(GPU)的渲染引擎来渲染化身720的3D动画。例如，当系统100接收来自用户的输入以便选择用于在视频通信会话中使用的化身时，系统100可以将针对特定化身模型打包的基于3D网格的模型、混合形状、纹理和其他数据加载到GPU存储器中。系统100使用已加载到GPU存储器中的3D模型资源来渲染视频会议参与者的数字化表示。

在一种操作模式中，系统100还使用受操纵的身体和底层骨架结构来在骨架结构的各个预定顶点或关节处移动身体。基于确定的头部运动和强度，系统100可以将运动施加于骨架结构以生成所渲染化身的动画化身体移动。系统100可以基于检测到的视频会议参与者头部移动的强度来将权重值应用于身体移动。权重值确定头部移动对身体顶点的影响有多大。例如，可以使用线性美化的动画技术来动画化化身的身体。

图8示出了根据本公开一个实施方式的示例性用户接口。此示例示出了具有多个视频会议参与者的视频会议。在该示例中，四个视频会议参与者通过视频通信平台彼此通信。参与者中有两个使用化身812、814，且参与者中的两个使用正常视频810、816。

图9是示出在一些实施方式中可以执行处理的示例性计算机的图。示例性计算机900可以执行与一些实施方式一致的操作。计算机900的体系结构是示例性的。计算机可以以各种其他方式实现。根据本文的实施方式，可以使用各种各样的计算机。

处理器901可以执行计算功能，诸如运行计算机程序。易失性存储器902可以为处理器901提供数据的临时存储。RAM是一种易失性存储器。易失性存储器通常需要电力来维持其所存储的信息。存储器903为数据、指令和/或任意信息提供计算机存储。非易失性存储器是存储器的示例，它即使在没有供电的情况下也可以保存数据，包括磁盘和闪存。可以将存储器903组织为文件系统、数据库或其他方式。可以将数据、指令和信息从存储器903加载到易失性存储器902中，以供处理器901处理。

计算机900可以包括外围设备905。外围设备905可以包括输入外围设备，例如键盘、鼠标、轨迹球、摄像机、麦克风和其他输入设备。外围设备905还可以包括输出设备，诸如显示器。外围设备905可以包括可移动媒体设备，例如CD-R和DVD-R刻录仪/播放器。通信设备906可以将计算机1300连接到外部媒体。例如，通信设备906可以采取向网络提供通信的网络适配器的形式。计算机900还可以包括各种其他设备904。计算机900的各种组件可以通过连接介质诸如总线、纵横开关或网络来连接。

应当理解的是，本公开可以包括以下实施例中的任何一个以及多至全部。

实施例1：一种由计算机实现的方法，包括：接收从一个或多个化身模型的组中对化身模型的选择；接收包括第一视频会议参与者的多个图像帧的第一视频流；将多个图像帧之中每一个的至少一组像素输入到经训练的机器学习网络中；由经训练的机器学习网络识别与多个图像相关联的多个面部表情参数值；通过以下方式生成第一修改后视频流：基于所述多个面部表情参数值，使所选化身模型的三维头部网格形变，并且渲染呈化身形式的第一视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对第一修改后视频流的显示。

实施例2：如实施例1所述的方法，其中使三维头部网格形变包括以下操作：基于所生成的多个面部表情参数值选择一个或多个混合形状；以及应用一个或多个混合形状来修改所选化身模型的网格几何形状。

实施例3。实施例1～2中任一个的方法，进一步包括：接收视频会议参与者的第二修改后视频流，第二修改后视频流包括呈化身形式的第二视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对第二修改后视频流的显示。

实施例4。实施例1～3中任一个的方法，进一步包括：接收对第一虚拟背景的选择用于与所选化身模型一起使用；并且其中，第一修改后视频流展现出呈化身形式的第一视频会议参与者的数字化表示覆盖在所选的第一虚拟背景上。

实施例5。实施例1～4中任一个的方法，进一步包括：确定第一视频流中没有在对第一视频会议参与者进行采集；改变第一修改后视频流以在没有所述呈化身形式的第一视频会议参与者的数字化表示的情况下展现所述所选的第一虚拟背景；以及在视频会议环境的用户接口中提供对改变后的第一修改后视频流的显示。

实施例6。实施例1～5中任一个的方法，其中相关联的多个面部表情参数包括一个或多个动作单元值和相关联的强度值。

实施例7。实施例1～6的方法，其中多个面部表情参数值包括至少51个不同的动作单元值。

实施例8。一种存储可执行程序指令的非暂时性计算机可读介质，可执行程序指令在由一个或多个计算设备执行时配置一个或多个计算设备执行包括以下的操作：接收从一个或多个化身模型的组中对化身模型的选择；接收音频数据和包括第一视频会议参与者的多个图像帧的第一视频流；将多个图像帧之中每一个的至少一组像素输入到经训练的机器学习网络中；由经训练的机器学习网络识别与多个图像相关联的多个面部表情参数值；通过以下方式生成第一修改后视频流：基于多个面部表情参数值，使所选化身模型的三维头部网格形变，并渲染呈化身形式的第一视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对第一修改后视频流的显示。

实施例9。实施例8的非暂时性计算机可读介质，其中使三维头部网格形变包括以下操作：基于所生成的多个面部表情参数值选择一个或多个混合形状；以及应用一个或多个混合形状来修改所选化身模型的网格几何形状。

实施例10。实施例8～9中任一个的非暂时性计算机可读介质，进一步包括以下操作：接收视频会议参与者的第二修改后视频流，第二修改后视频流包括呈化身形式的第二视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对第二修改后视频流的显示。

实施例11。实施例8～10中的任一个的计算机可读介质，进一步包括以下操作：接收对第一虚拟背景的选择用于与所选化身模型一起使用；并且其中，第一修改后视频流展现呈化身形式所述第一视频会议参与者的数字化表示覆盖在所选的第一虚拟背景上。

实施例12。实施例8～11中任一个的非暂时性计算机可读介质，进一步包括以下操作：确定第一视频流中没有在对第一视频会议参与者进行采集；改变第一修改后视频流以在没有呈化身形式的第一视频会议参与者的数字化表示的情况下展现所选的第一虚拟背景；以及在视频会议环境的用户接口中提供对改变后的第一修改后视频流的显示。

实施例13。实施例8～12中任一个的非暂时性计算机可读介质，其中相关联的多个面部表情参数包含一个或多个动作单元值和相关联的强度值。

实施例14。实施例～13中任一个的非暂时性计算机可读介质，其中多个面部表情参数值包括至少51个不同的动作单元值。

实施例15。一种包括一个或多个处理器的系统，被配置用于执行以下操作：接收从一个或多个化身模型的组中对化身模型的选择；接收音频数据和包括第一视频会议参与者的多个图像帧的第一视频流；将多个图像帧之中每一个的至少一组像素输入到经训练的机器学习网络中；由经训练的机器学习网络识别与多个图像相关联的多个面部表情参数值；通过以下方式生成第一修改后视频流：基于多个面部表情参数值，使所选化身模型的三维头部网格形变，并且渲染呈化身形式的第一视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对第一修改后视频流的显示。

实施例16。实施例15的系统，进一步地，其中使三维头部网格形变包括以下操作：基于所生成的多个面部表情参数值选择一个或多个混合形状；以及应用一个或多个混合形状来修改所选化身模型的网格几何形状。

实施例17。实施例15～16中任一个的系统，进一步包括以下操作：接收视频会议参与者的第二修改后视频流，第二修改后视频流包括呈化身形式的第二视频会议参与者的数字化表示；以及在视频会议环境的用户接口中提供对第二修改后视频流的显示。

实施例18。实施例15～17中任一个的系统，进一步包括以下操作：接收对第一虚拟背景的选择用于与所选化身模型一起使用；并且其中，第一修改后视频流展现呈化身形式的第一视频会议参与者的数字化表示覆盖在所选的第一虚拟背景上。

实施例19。实施例15～18中任一个的系统，进一步包括以下操作：确定第一视频流中没有在对第一视频会议参与者进行采集；改变第一修改后视频流以在没有呈化身形式的第一视频会议参与者的数字化表示的情况下展现所选的第一虚拟背景；以及在视频会议环境的用户接口中提供对改变后的第一修改后视频流的显示。

实施例20。实施例15～19中任一个的系统，其中相关联的多个面部表情参数包括一个或多个动作单元值和相关联的强度值。

实施例21。实施例15～20中任一个的系统，其中，多个面部表情参数值包括至少51个不同的动作单元值。

前面详细描述中的一些部分是根据计算机存储器内数据位上操作的算法和符号表示来呈现的。这些算法描述和表示是数据处理领域的技术人员用来最有效地向本领域其他技术人员传达其工作实质的方式。在这里，算法通常被认为是得到期望结果的自相容操作序列。这些操作是那些需要对物理量进行物理操作的操作。尽管不是必须的，但通常这些量采用能够被存储、变换、组合、比较、或操纵的电或磁信号的形式。事实证明，主要出于通用的原因，有时将这些信号称为比特、值、元素、符号、字符、项、数字等是方便的。

然而，应当记住，所有这些和类似的术语都与适当的物理量相关联，并且仅仅是应用于这些量的方便标签。除非从上述讨论中明确地另外说明，否则应理解，在整个描述中，利用诸如“识别”或“确定”或“执行”或“进行”或“收集”或“创建”或“发送”等术语进行的讨论指的是计算机系统或类似电子计算设备的动作和处理，其将计算机系统的寄存器和存储器内表示为物理(电子)量的数据操作并转换为类似地表示为计算机系统存储器或寄存器或其它此类信息存储设备内的物理量的其它数据。

本公开还涉及一种用于执行本文中操作的装置。该装置可以是为预期目的而专门构造的，或者它可以包括由存储在计算机中的计算机程序选择性激活或重新配置的通用计算机。这样的计算机程序可以存储在计算机可读存储介质中，例如但不限于任何类型的盘，包括软盘、光盘、CD-ROM和磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡，或者适合于存储电子指令的任何类型的介质，每个都联接到计算机系统总线。

根据本文的教导，各种通用系统可以与程序一起使用，或者可以证明构造更专用的装置来执行该方法是方便的。用于各种这些系统的结构将如上文的描述中所阐述的那样出现。另外，没有参考任何编程语言来对本公开进行描述。应当理解，可以使用各种编程语言来实现本文所述的本公开的教导。

本公开可以作为计算机程序产品或软件来提供，其可以包括上面存储有指令的机器可读介质，该指令可以用于对计算机系统(或其他电子设备)进行编程以执行根据本公开的处理。机器可读介质包括用于以机器(例如，计算机)可读的形式存储信息的任何机制。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质，诸如只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存设备等。

在前述公开内容中，已经参考其具体示例实施方式描述了本公开的实现方式。但是很明显，在不脱离所附权利要求中阐述的本公开的实现方式的更广泛的精神和范围的情况下，可以对其进行各种修改。因此，本公开和附图应被认为是说明性的而不是限制性的。

Claims

1.一种由计算机实现的方法，包括：

接收从一个或多个化身模型的组中对化身模型的选择；

接收包括第一视频会议参与者的多个图像帧的第一视频流；

将所述多个图像帧之中每一个的至少一组像素输入到经训练的机器学习网络中；

由所述经训练的机器学习网络确定与多个图像相关联的多个面部表情参数值；通过以下生成第一修改后视频流：

基于所述多个面部表情参数值，使所选化身模型的三维头部网格形变；和

渲染呈化身形式的所述第一视频会议参与者的数字化表示；和

在视频会议环境的用户接口中提供对所述第一修改后视频流的显示。

2.根据权利要求1所述的方法，其中使三维头部网格形变包括：

基于所述确定的多个面部表情参数值选择一个或多个混合形状；和

应用所选的一个或多个混合形状来修改所选化身模型的网格几何形状。

3.根据权利要求1所述的方法，进一步包括：

接收视频会议参与者的第二修改后视频流，所述第二修改后视频流包括呈化身形式的第二视频会议参与者的数字化表示；和

在视频会议环境的用户接口中提供对所述第二修改后视频流的显示。

4.根据权利要求1所述的方法，进一步包括：

接收对第一虚拟背景的选择用于与所选化身模型一起使用，其中：

所述第一修改后视频流展现呈化身形式的所述第一视频会议参与者的数字化表示覆盖在所选的第一虚拟背景上。

5.根据权利要求4所述的方法，进一步包括：

确定所述第一视频流中没有在对所述第一视频会议参与者进行采集；

改变所述第一修改后视频流以在没有所述呈化身形式的所述第一视频会议参与者的数字化表示的情况下展现所述所选的第一虚拟背景；和

在视频会议环境的用户接口中提供对改变后的第一修改后视频流的显示。

6.根据权利要求1所述的方法，其中相关联的多个面部表情参数包括一个或多个动作单元值和相关联的强度值。

7.根据权利要求1所述的方法，其中多个面部表情参数值包括至少51个不同的动作单元值。

8.一种存储可执行程序指令的非暂时性计算机可读介质，所述可执行程序指令在由一个或多个计算设备执行时配置一个或多个计算设备执行包括以下的操作：

接收从一个或多个化身模型的组中对化身模型的选择；

接收包括第一视频会议参与者的多个图像帧的第一视频流；

基于所述确定的多个面部表情参数值，使所选化身模型的三维头部网格形变；和

9.根据权利要求8所述的非暂时性计算机可读介质，其中使三维头部网格形变的操作包括以下操作：

应用所述一个或多个混合形状来修改所选化身模型的网格几何形状。

10.根据权利要求8所述的非暂时性计算机可读介质，进一步包括以下操作：

11.根据权利要求8所述的非暂时性计算机可读介质，进一步包括以下操作：

12.根据权利要求8所述的非暂时性计算机可读介质，进一步包括以下操作：

确定第一视频流中没有在对所述第一视频会议参与者进行采集；

改变所述第一修改后视频流以在没有呈所述化身形式的第一视频会议参与者的数字化表示的情况下展现所选的第一虚拟背景；和

13.根据权利要求8所述的非暂时性计算机可读介质，其中相关联的多个面部表情参数包含一个或多个动作单元值和相关联的强度值。

14.根据权利要求8所述的非暂时性计算机可读介质，其中多个面部表情参数值包括至少51个不同的动作单元值。

15.一种包括一个或多个处理器的系统，配置用于执行以下操作：

接收从一个或多个化身模型的组中对化身模型的选择；

接收包括第一视频会议参与者的多个图像帧的第一视频流；

将多个图像帧之中每一个的至少一组像素输入到经训练的机器学习网络中；

由所述经训练的机器学习网络确定与多个图像帧相关联的多个面部表情参数值；通过以下生成第一修改后视频流：

16.根据权利要求15所述的系统，其中使三维头部网格形变包括：

基于所生成的多个面部表情参数值选择一个或多个混合形状；和

17.根据权利要求15所述的系统，进一步包括以下操作：

18.根据权利要求15所述的系统，进一步包括以下操作：

19.根据权利要求18所述的系统，进一步包括以下操作：

改变所述第一修改后视频流以在没有呈化身形式的所述第一视频会议参与者的数字化表示的情况下展现所选的第一虚拟背景；和

20.根据权利要求18所述的系统，其中相关联的多个面部表情参数包括一个或多个动作单元值和相关联的强度值。