CN117294901A

CN117294901A - 具有交互效果的视频通信

Info

Publication number: CN117294901A
Application number: CN202210685758.8A
Authority: CN
Inventors: 杨文龙
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-12-26
Also published as: WO2023244307A1

Abstract

本公开提出了用于具有交互效果的视频通信的方法、装置和计算机程序产品。可以接收视频通信的视频帧。可以从所述视频帧中提取用户的用户图像。可以获得与所述视频帧相对应的虚拟背景图像。可以基于所述用户图像和所述虚拟背景图像，确定所述用户与所述虚拟背景图像之间的交互效果。可以生成具有所述交互效果的增强视频帧。可以输出所述增强视频帧。

Description

具有交互效果的视频通信

背景技术

随着数字设备、通信技术、视频处理技术等的发展，人们可以使用诸如台式计算机、平板电脑、智能电话等的终端设备来与位于其他地方的人进行视频通信，以实现聊天、工作讨论、远程培训、技术支持等目的。在本文中，视频通信可以广泛地指基于互联网技术的、能够实时传送参与者的语音和图像的一种通信方式。视频通信可以包括例如视频会议、视频通话、视频演讲、提前离线录制好的视频交流等。

发明内容

提供本发明内容以便介绍一组构思，这组构思将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护的主题的关键特征或必要特征，也不旨在用于限制所保护的主题的范围。

本公开的实施例提出了用于具有交互效果的视频通信的方法、装置和计算机程序产品。可以接收视频通信的视频帧。可以从所述视频帧中提取用户的用户图像。可以获得与所述视频帧相对应的虚拟背景图像。可以基于所述用户图像和所述虚拟背景图像，确定所述用户与所述虚拟背景图像之间的交互效果。可以生成具有所述交互效果的增强视频帧。可以输出所述增强视频帧。

应当注意，以上一个或多个方面包括在下文中详细描述并且在权利要求中具体指出的特征。以下说明书及附图详细阐述了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以采用各个方面的原理的各种方式，并且本公开旨在包括所有这些方面及其等同变换。

附图说明

下文将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据本公开实施例的用于具有交互效果的视频通信的示例性过程。

图2示出了根据本公开实施例的用于通过基于规则的方式来确定用户与虚拟背景图像之间的交互效果的示例性过程。

图3示出了根据本公开实施例的用于通过基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果的示例性过程。

图4示出了根据本公开实施例的用于生成增强视频帧的示例性过程。

图5示出了根据本公开实施例的用于具有交互效果的视频通信的另一示例性过程。

图6A至图6C示出了根据本公开实施例的具有交互效果的视频通信的示例。

图7是根据本公开实施例的用于具有交互效果的视频通信的示例性方法的流程图。

图8示出了根据本公开实施例的用于具有交互效果的视频通信的示例性装置。

图9示出了根据本公开实施例的用于具有交互效果的视频通信的示例性装置。

具体实施方式

现在将参考若干示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

在视频通信中，出于保护隐私、提高专注力或者增加个性化的考虑，用户可以设置虚拟背景图像作为其视频画面的背景。在本文中，用户可以指参与视频通信的人员。虚拟背景图像通常是二维图像，其可以是由视频通信服务的提供方提供的预置图像，或者是由用户上传的自定义图像。在用户进行视频通信期间，虚拟背景图像通常是静态。

本公开的实施例提出了具有交互效果的视频通信。可以接收视频通信的视频帧。视频帧可以包含参与视频通信的用户的用户图像。用户可以在视频通信之前或者期间选择虚拟背景图像。虚拟背景图像可以是二维图像。用户可以在视频通信通信与虚拟背景图像做出交互。可以基于用户图像和虚拟背景图像，确定用户与虚拟背景图像之间的交互效果。该交互效果可以在输出视频帧中呈现。在本文中，可以将具有交互效果的视频帧称为增强视频帧。通过上述方式，虚拟背景图像此时不再是静态的二维图像，而是可以与之交互的虚拟环境。以这种方式，可以使得用户在进行视频通信时获得真实感和沉浸感，从而提高用户体验。例如，在召开视频会议时，如果会议的参与者都使用了相同的虚拟背景图像，且都可以与该虚拟背景图像交互，那么感官上就仿佛是在相同的物理空间中进行面对面会议。根据本公开实施例的具有交互效果的视频通信可以适用于各类场景，尤其是需要交互的场景，例如视频会议、视频通话、视频演讲、线上产品发布会、线上企业年会、线上团队破冰活动、提前离线录制好的视频交流等。

在一个方面，本公开的实施例提出了通过基于规则的方式来确定用户与虚拟背景图像之间的交互效果。一些虚拟背景图像，例如由视频通信服务的提供方提供的预置的虚拟背景图像，可以具有内嵌的交互属性。内嵌的交互属性可以是预先嵌入在虚拟背景图像内的与交互有关的属性。内嵌的交互属性可以包括例如虚拟背景图像中的可交互物体的三维位置信息、与虚拟背景图像相对应的预定义交互动画等。如果虚拟背景图像具有内嵌的交互属性，可以进一步根据用户图像，估计用户的用户三维位置。在本文中，用户三维位置可以指用户在预定三维坐标系中的坐标值。如果用户三维位置在预定位置范围内，则可以获取与虚拟背景图像相对应的预定义交互动画。该预定义交互动画可以作为交互效果并随后被自动播放。上述基于规则的方式旨在通过预定的规则来确定用户与虚拟背景图像之间的交互效果。如果确定了虚拟背景图像具有内嵌的交互属性，且用户三维位置在预定位置范围内，则可以自动触发预定义交互动画。由于预定义交互动画是预先制作的，因此可以具有较高的质量且具有较高的稳定性。

在另一个方面，本公开的实施例提出了通过基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果。可以根据用户图像，生成与用户相对应的用户三维模型。在本文中，可以将与用户相对应的三维模型称为用户三维模型。可以获得与虚拟背景图像相对应的背景三维模型。在本文中，可以将与虚拟背景图像相对应的三维模型称为背景三维模型。如果已经存在背景三维模型，则可以直接获取该背景三维模型。如果不存在背景三维模型，则可以根据虚拟背景图像，生成背景三维模型。在获得了用户三维模型和背景三维模型之后，可以通过物理引擎(Physics Engine)和/或光线追踪(Ray Tracing)技术，基于用户三维模型和背景三维模型，模拟用户与虚拟背景图像之间的交互效果。上述基于模型模拟计算的方式可以适用于任意虚拟背景图像。无论是由视频通信服务的提供方提供的预制的虚拟背景图像，或者是由用户上传的自定义的虚拟背景图像，都可以通过上述基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果。此外，所确定的交互效果是通过物理引擎和/或光线追踪技术，基于用户三维模型和背景三维模型而实时模拟出来的，因此可以获得丰富多样且符合实际场景的交互效果。

在又一个方面，本公开的实施例提出了当有多个用户同时参与视频通信时，确定多个用户之间的交互效果。该交互效果可以在输出视频帧中呈现。例如，当有两个用户，例如第一用户和第二用户，同时参与视频通信时，可以分别获得第一用户的第一视频帧和第二用户的第二视频帧。可以从第一视频帧中提取第一用户的第一用户图像，并且从第二视频帧中提取第二用户的第二用户图像。可以基于第一用户图像和第二用户图像，确定第一用户与第二用户之间的交互效果。可以通过例如基于模型模拟计算的方式来确定第一用户与第二用户之间的交互效果。随后，可以生成并且输出具有该交互效果的增强视频帧。上述过程可以适用于任何有多个用户参与的视频通信，例如视频会议、线上企业年会、线上团队破冰活动等。在视频通信中输出具有用户之间的交互效果的增强视频帧，可以拉近用户之间的距离，使得处于不同地方的用户仿佛处于相同的物理空间中，这可以提高工作效率并且提高视频通信的愉悦度。

图1示出了根据本公开实施例的用于具有交互效果的视频通信的示例性过程100。

在102处，可以接收视频通信的视频帧。视频帧可以包含前景图像和背景图像。前景图像可以例如是参与视频通信的用户的用户图像。背景图像可以例如是该用户所处环境的图像。优选地，视频帧可以包括指示用户图像在该视频帧中所处区域的掩膜(mask)。这样的掩膜也可以被称为分割掩膜(segmentation mask)。可以通过已知的图像处理方法，获取视频帧的分割掩膜。

在104处，可以从视频帧中提取用户的用户图像。在视频帧包括指示用户图像在该视频帧中所处区域的掩膜的情况下，可以基于该掩膜，从视频帧中提取用户的用户图像。在视频帧不包括的情况下，可以通过已知的前背景分割(foreground and backgroundsegmentation)、抠图(matting)等方法来从视频帧中提取用户的用户图像。

在106处，可以获得与视频帧相对应的虚拟背景图像。虚拟背景图像可以是由用户在视频通信之前或者期间选择的。虚拟背景图像可以是二维图像。虚拟背景图像可以是由视频通信服务的提供方提供的预制图像，或者是由用户上传的自定义图像。

在108处，可以基于用户图像和虚拟背景图像，确定用户与虚拟背景图像之间的交互效果。可以通过多种方式来确定用户与虚拟背景图像之间的交互效果。在一种实施方式中，可以通过基于规则的方式来确定用户与虚拟背景图像之间的交互效果。一些虚拟背景图像，例如由视频通信服务的提供方提供的预置的虚拟背景图像，可以具有内嵌的交互属性。内嵌的交互属性可以是预先嵌入在虚拟背景图像内的与交互有关的属性。内嵌的交互属性可以包括例如虚拟背景图像中的可交互物体的三维位置信息、与虚拟背景图像相对应的预定义交互动画等。如果虚拟背景图像具有内嵌的交互属性，可以进一步根据用户图像，估计用户的用户三维位置。如果用户三维位置在预定位置范围内，则可以获取与虚拟背景图像相对应的预定义交互动画。该预定义交互动画可以作为交互效果。后面将结合图2来说明用于通过基于规则的方式来确定用户与虚拟背景图像之间的交互效果的示例性过程。在另一种实施方式中，可以通过基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果。可以根据用户图像，生成与用户相对应的用户三维模型。可以获得与虚拟背景图像相对应的背景三维模型。如果已经存在背景三维模型，则可以直接获取该背景三维模型。如果不存在背景三维模型，则可以根据虚拟背景图像，生成背景三维模型。在获得了用户三维模型和背景三维模型之后，可以通过物理引擎和/或光线追踪技术，基于用户三维模型和背景三维模型，模拟用户与虚拟背景图像之间的交互效果。后面将结合图3来说明用于通过基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果的示例性过程。

针对不同的虚拟背景图像，可以产生不同的交互效果。例如，当虚拟背景图像是关于诸如下雪、下雨之类的场景，且用户处于演讲者模式时，用户与虚拟背景图像之间的交互效果可以是雪花或者雨滴落在用户身上或者身边。用户处于演讲者模式可以指用户站立在相机前方且整个身体可见。当虚拟背景图像是关于诸如雪地、沙滩、丛林、湿地之类的场景，且用户处于演讲者模式时，用户与虚拟背景图像之间的交互效果可以是用户落在地上的影子、树叶落在用户身体上的影子、用户行走时留下的脚印等。当虚拟背景图像包含诸如墙壁或者黑板之类的平面时，用户与虚拟背景图像之间的交互效果可以是改变平面的颜色、在平面上显示一些字、在平面中播放视频或者声音、在平面上粘贴或者撕下便签纸等。当虚拟背景图像包含气球时，用户与虚拟背景图像之间的交互效果可以是气球破裂等。当虚拟背景图像包含桌子、水杯等可移动的物体时，用户与虚拟背景图像之间的交互效果可以是桌子晃动、水杯移动等。

在110处，可以生成具有交互效果的增强视频帧。当交互效果是预定义交互动画时，即交互效果是通过过程200确定的时，可以基于预定义交互动画、用户图像和虚拟背景图像来生成增强视频帧。当交互效果是基于用户三维模型和背景三维模型而模拟出来的时，即交互效果是通过过程300确定的时，可以基于该交互效果、用户三维模型和背景三维模型，渲染综合三维模型。所渲染的综合三维模型可以被转换成二维图像。该二维图像可以直接作为增强视频帧，或者经过改进后作为增强视频帧。后面将结合图4来说明通过这种方式来生成增强视频帧的示例性过程。

在112处，可以输出增强视频帧。可选地，交互效果可以包括交互音效。例如，当交互效果是关于气球破裂的预定义交互动画时，该交互效果还可以包括气球破裂的声音。在交互效果包括交互音效的情况下，可以与输出增强视频帧同时地输出交互音效。

通过过程100，可以生成并且输出具有用户与虚拟背景图像之间的交互效果的增强视频帧。虚拟背景图像此时不再是静态的二维图像，而是可以与之交互的虚拟环境。以这种方式，可以使得用户在进行视频通信时获得真实感和沉浸感，从而提高用户体验。例如，在召开视频会议时，如果会议的参与者都使用了相同的虚拟背景图像，且都可以与该虚拟背景图像交互，那么感官上就仿佛是在相同的物理空间中进行面对面会议。根据本公开实施例的具有交互效果的视频通信可以适用于各类场景，尤其是需要交互的场景，例如视频会议、视频通话、视频演讲、线上产品发布会、线上企业年会、线上团队破冰活动、提前离线录制好的视频交流等。

应当理解，上文结合图1描述的用于具有交互效果的视频通信的过程仅是示例性的。根据实际应用需求，可以以任意方式对用于具有交互效果的视频通信的过程中的步骤进行替换或修改，并且该过程可以包括更多或更少的步骤。此外，过程100中的步骤的具体顺序或层级仅是示例性的，可以按照与所描述顺序不同的顺序来执行用于具有交互效果的视频通信的过程。

图2示出了根据本公开实施例的用于通过基于规则的方式来确定用户与虚拟背景图像之间的交互效果的示例性过程200。过程200可以对应于图1中的步骤108的一种实施方式。

过程200可以从202处开始，即可以获得用户的用户图像和虚拟背景图像。

在204处，可以确定虚拟背景图像是否具有内嵌的交互属性。内嵌的交互属性可以是预先嵌入在虚拟背景图像内的与交互有关的属性。例如，当虚拟背景图像是由视频通信服务的提供方提供的预置图像时，视频通信服务的提供方可以预先设置该虚拟背景图像的交互属性，并且将其嵌入在虚拟背景图像内。内嵌的交互属性可以包括例如虚拟背景图像中的可交互物体的三维位置信息、与虚拟背景图像相对应的预定义交互动画等。可交互物体可以例如是虚拟背景图像中的接近用户可能处于的区域的物体。作为示例，当虚拟背景图像包含气球时，可交互物体可以是气球。可交互物体的三维位置信息可以是通过深度学习技术，从虚拟背景图像中提取的。与虚拟背景图像相对应的预定义交互动画可以是通过动画制作技术预先制作的。在虚拟背景图像包含多个可交互物体的情况下，每个可交互物体可以具有相应的预定义交互动画。例如，当可交互物体是气球时，与相对应的预定义交互动画可以是关于气球破裂的交互动画。

如果在204处确定了虚拟背景图像不具有内嵌的交互属性，则过程200可以返回至202处，即可以继续获得用户的用户图像和虚拟背景图像。

如果在204处确定了虚拟背景图像具有内嵌的交互属性，则过程200可以进行至206处。在206处，可以根据用户图像，估计用户的用户三维位置。可以根据用户图像并结合相机的深度信息来估计用户三维位置。用户可以包括多个人体关键点，例如头部、右手、左手、右脚、左脚等。相应地，用户三维位置可以包括用户的多个人体关键点之一的三维位置。

在208处，可以确定用户三维位置是否在预定位置范围内。预定位置范围可以与虚拟背景图像中的可交互物体的三维位置相关联。例如，预定位置范围可以包括与虚拟背景图像中的可交互物体的三维位置之间的距离在阈值距离内的区域。在虚拟背景图像包含多个可交互物体的情况下，可以针对每个可交互物体定义相应的预定位置范围。相应地，可以针对每个预定位置范围，确定用户三维位置是否在该预定位置范围内。

如果在208处确定了用户三维位置不在预定位置范围内，则过程200可以返回至202处，即可以继续获得用户的用户图像和虚拟背景图像。

如果在208处确定了用户三维位置在预定位置范围内，则过程200可以进行至210处。在210处，可以获取与虚拟背景图像相对应的预定义交互动画。在虚拟背景图像包含多个可交互物体，并且确定了用户三维位置在与其中一个可交互物体相对应的预定位置范围内的情况下，可以获取与该可交互物体相对应的预定义交互动画。

在212处，可以将所获取的预定义交互动画确定为用户与所述虚拟背景图像之间的交互效果。

在过程200中，可以通过预定的规则来确定用户与虚拟背景图像之间的交互效果。首先，可以确定虚拟背景图像是否具有内嵌的交互属性。如果确定了虚拟背景图像具有内嵌的交互属性，则可以进一步确定用户三维位置是否在预定位置范围内。如果确定了用户三维位置在预定位置范围内，则可以获取相应的预定义交互动画作为用户与虚拟背景图像之间的交互效果。所获取的预定义交互动画可以随后被自动播放。例如，可以在用户图像和虚拟背景图像之上播放预定义交互动画。也就是说，如果确定了虚拟背景图像具有内嵌的交互属性，且用户三维位置在预定位置范围内，则可以自动触发预定义交互动画。由于预定义交互动画是预先制作的，因此可以具有较高的质量且具有较高的稳定性。

应当理解，上文结合图2描述的用于通过基于规则的方式来确定用户与虚拟背景图像之间的交互效果的过程仅是示例性的。根据实际应用需求，可以以任意方式对用于通过基于规则的方式来确定用户与虚拟背景图像之间的交互效果的过程中的步骤进行替换或修改，并且该过程可以包括更多或更少的步骤。此外，过程200中的步骤的具体顺序或层级仅是示例性的，可以按照与所描述顺序不同的顺序来执行用于通过基于规则的方式来确定用户与虚拟背景图像之间的交互效果的过程。

图3示出了根据本公开实施例的用于通过基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果的示例性过程300。过程300可以对应于图1中的步骤108的一种实施方式。

过程300可以从302处开始，即可以获得用户的用户图像和虚拟背景图像。

在304处，可以根据用户图像，生成与用户相对应的用户三维模型。可以通过已知的三维模型生成方法来生成用户三维模型。例如，可以通过像素对齐的隐式函数(Pixel-aligned Implicit Function，PIFu)方法，根据用户图像来生成用户三维模型。由于用户图像通常是实时变化的，因此用户三维模型也是实时生成的。

可以与生成用户三维模型同时地，获得与虚拟背景图像相对应的背景三维模型。在视频通信期间，虚拟背景图像可能是一直不变的，或者较少变化的。因此，有可能已经存在与虚拟背景图像相对应的背景三维模型。该背景三维模型可以是在视频通信期间，在早些时候生成的。替代地，该背景三维模型可以是在视频通信之前，预先生成的。例如，当虚拟背景图像是由视频通信服务的提供方提供的预置图像时，视频通信服务的提供方还可以同时提供与该虚拟背景图像相对应的背景三维模型。

在306处，可以确定是否存在与虚拟背景图像相对应的背景三维模型。

如果在306处确定了已经存在与虚拟背景图像相对应的背景三维模型，则过程300可以进行至308处。在308处，可以获取该背景三维模型。

如果在306处确定了不存在与虚拟背景图像相对应的背景三维模型，则过程300可以进行至310处。在310处，可以提取虚拟背景图像的语义信息和深度信息。可以通过已知的深度学习方法来提取虚拟背景图像的语义信息和深度信息。

随后，在312处，可以基于所提取的语义信息和所述深度信息，生成与虚拟背景图像相对应的背景三维模型。可以通过已知的深度学习方法来生成背景三维模型。

在获得了用户三维模型和背景三维模型之后，在314处，可以通过物理引擎和/或光线追踪技术，基于用户三维模型和背景三维模型，模拟用户与虚拟背景图像之间的交互效果。物理引擎可以是已知的物理引擎，例如Unity引擎、Blender引擎等。可以将背景三维模型作为环境，将用户三维模型置于背景三维模型之中，并通过物理引擎和/或光线追踪技术来实时模拟出用户与虚拟背景图像之间的交互效果。

上述基于模型模拟计算的方式可以适用于任意虚拟背景图像。无论是由视频通信服务的提供方提供的预制的虚拟背景图像，或者是由用户上传的自定义的虚拟背景图像，都可以通过上述基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果。此外，所确定的交互效果是通过物理引擎和/或光线追踪技术，基于用户三维模型和背景三维模型而实时模拟出来的，因此可以获得丰富多样且符合实际场景的交互效果。

应当理解，上文结合图3描述的用于通过基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果的过程仅是示例性的。根据实际应用需求，可以以任意方式对用于通过基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果的过程中的步骤进行替换或修改，并且该过程可以包括更多或更少的步骤。例如，除了通过步骤310和步骤312来生成背景三维模型之外，还可以通过与生成用户三维模型的方式相类似的方式来生成背景三维模型。此外，过程300中的步骤的具体顺序或层级仅是示例性的，可以按照与所描述顺序不同的顺序来执行用于通过基于模型模拟计算的方式来确定用户与虚拟背景图像之间的交互效果的过程。

图4示出了根据本公开实施例的用于生成增强视频帧的示例性过程400。过程400可以对应于图1中的步骤110，并且可以是在用户与虚拟背景图像之间的交互效果是通过基于模型模拟计算的方式来确定的情况下执行的。例如，过程400可以是在过程300之后执行的。

在402处，可以基于交互效果、用户三维模型和背景三维模型，渲染综合三维模型。在本文中，可以将基于交互效果、用户三维模型和背景三维模型渲染而成的整体三维模型称为综合三维模型。

在404处，可以将综合三维模型转换成二维图像。该二维图像的相机视角可以与视频帧的相机视角相同。例如，可以将综合三维模型转到与视频帧的相机视角相同的视角，并且在该视角处采集一张二维图像。

该二维图像可以直接作为增强视频帧而输出给用户。优选地，在406处，可以通过生成模型，对二维图像的真实感进行改进，从而获得更真实的图像。生成模型可以是普通的生成模型，例如生成对抗网络(Generative Adversarial Network,GAN)模型、变分自编码器(Variational Auto-Encoder，VAE)模型等。优选地，生成模型可以是条件生成模型，例如条件生成对抗网络(Conditional Generative Adversarial Networks，CGAN)模型、条件变分自编码器(Conditional Variational Auto-Encoder，CVAE)模型等。条件生成模型和传统的生成模型的区别在于，条件生成模型可以接收额外的条件信息。条件信息可以是关于用户的信息，例如年龄、性别、肤色等。条件信息还可以是关于虚拟背景图像的信息，例如其所包含的物体、颜色等。利用这些条件信息，模型可以获得更多的关于目标物体真实感的信息，进而生成更具真实感的图像。可选的，生成模型可以是根据用户数据特别训练的，即不同的用户使用针对自己数据训练的特有的模型。

在408处，可以将经改进的二维图像作为增强视频帧。

应当理解，上文结合图4描述的用于生成增强视频帧的过程仅是示例性的。根据实际应用需求，可以以任意方式对用于生成增强视频帧的过程中的步骤进行替换或修改，并且该过程可以包括更多或更少的步骤。此外，过程400中的步骤的具体顺序或层级仅是示例性的，可以按照与所描述顺序不同的顺序来执行用于生成增强视频帧的过程。

上文结合图1至图4描述了根据本公开实施例的用于具有交互效果的视频通信。可以有位于不同地方的多个用户同时参与视频通信。例如，视频会议可以有位于不同地方的多个参与者。多个用户在参与视频通信时，可以选择相同的虚拟背景图像。根据本公开的实施例，对于每个用户，可以基于其用户图像和虚拟背景图像，确定该用户与虚拟背景图像之间的交互效果，从而获得针对多个用户的多个交互效果。可以生成并且输出具有这多个交互效果的增强视频帧。另外地或替代地，多个用户之间也可以进行交互。相应地，可以确定多个用户之间的交互效果。

图5示出了根据本公开实施例的用于具有交互效果的视频通信的另一示例性过程500。在过程500中，可以确定多个用户之间的交互效果，例如第一用户与第二用户之间的交互效果，以及生成并且输出具有第一用户与第二用户之间的交互效果的增强视频帧。

在502处，可以接收视频通信的第一视频帧。该步骤可以对应于图1中步骤102。

在504处，可以从第一视频帧中提取第一用户的第一用户图像。该步骤可以对应于图1中步骤104。

在506处，可以接收视频通信的第二视频帧。该步骤可以类似于图1中步骤102。

在508处，可以从第二视频帧中提取第二用户的第二用户图像。该步骤可以类似于图1中步骤104。

在510处，可以基于第一用户图像和第二用户图像，确定第一用户与第二用户之间的交互效果。可以通过与过程300相类似的过程来确定第一用户与第二用户之间的交互效果。例如，可以根据第一用户图像，生成与第一用户相对应的第一用户三维模型。可以根据第二用户图像，生成与第二用户相对应的第二用户三维模型。随后，可以通过物理引擎和/或光线追踪技术，基于第一用户三维模型和第二用户三维模型，模拟第一用户与第二用户之间的交互效果。作为示例，用户之间的交互效果可以是在双方向对方作出击掌动作时，产生击掌的音效。

在512处，可以生成具有交互效果的增强视频帧。可以通过与过程400相类似的过程来生成具有第二交互效果的增强视频帧。例如，可以基于交互效果、第一用户三维模型和第二用户三维模型，渲染综合三维模型。可以将综合三维模型转换成二维图像。该二维图像可以直接作为增强视频帧而输出给用户。优选地，可以通过生成模型，对二维图像的真实感进行改进，并且将经改进的二维图像作为增强视频帧。

在514处，可以输出增强视频帧。该步骤可以对应于图1中的步骤112。

过程500可以适用于任何有多个用户参与的视频通信，例如视频会议、线上企业年会、线上团队破冰活动等。在视频通信中输出具有用户之间的交互效果的增强视频帧，可以拉近用户之间的距离，使得处于不同地方的用户仿佛处于相同的物理空间中，这可以提高工作效率并且提高视频通信的愉悦度。

过程500可以是独立于过程100而执行的，或者可以是与过程100相结合地执行的。在过程500是与过程100相结合地执行的情况下，可以获得任意用户与虚拟背景图像之间的交互效果和/或用户之间的交互效果，并且基于所获得的交互效果来生成增强视频帧。

过程500仅仅涉及两个用户。应当理解，当有两个以上的用户同时参与视频通信时，可以通过与过程500相类似的过程来确定这些用户之间的交互效果，以及生成并输出具有所确定的交互效果的增强视频帧。例如，当接收到两个以上的视频帧时，可以从每个视频帧提取用户的用户图像，从而提取出两个以上用户的两个以上的用户图像。可以基于这两个以上的用户图像，确定两个以上用户之间的交互效果。例如，可以确定一个用户与至少一个其他用户之间的交互效果。所确定的交互效果可以被用于生成增强视频帧。

图6A至图6C示出了根据本公开实施例的具有交互效果的视频通信的示例。图6A至图6C可以被统称为图6。

图6A示出了视频通信的视频帧600a。视频帧600a可以包含前景图像，例如用户的用户图像602。视频帧600a还可以包含背景图像，例如用户所处环境的图像604。视频帧600a可以例如是通过与该用户相关联的终端设备接收的。图6B示出了与视频帧600a相对应的虚拟背景图像600b。虚拟背景图像600b可以包含一串彩旗606和一束气球608。虚拟背景图像600b可以例如是由该用户在视频通信之前或者期间选择的。图6C示出了该视频通信的增强视频帧600c。增强视频帧600c可以是通过上文结合图1至图4描述的过程来生成的。增强视频帧600c可以包含交互效果610。交互效果610可以例如是关于气球破裂的交互动画。该交互动画可以在用户图像602和气球608之上播放。优选地，交互效果610还可以包括在虚拟背景图像中对应的变化，比如去掉被捅破的气球，以保持虚拟背景图像与用户动作后果的一致性。

图6仅仅示出了具有交互效果的视频通信的一个示例。应当理解，根据本公开实施例的用于具有交互效果的视频通信的过程还可以应用于其他场景，并且还可以产生其他交互效果。

图7是根据本公开实施例的用于具有交互效果的视频通信的示例性方法700的流程图。

在710处，可以接收视频通信的视频帧。

在720处，可以从所述视频帧中提取用户的用户图像。

在730处，可以获得与所述视频帧相对应的虚拟背景图像。

在740处，可以基于所述用户图像和所述虚拟背景图像，确定所述用户与所述虚拟背景图像之间的交互效果。

在750处，可以生成具有所述交互效果的增强视频帧。

在760处，可以输出所述增强视频帧。

在一种实施方式中，所述视频帧可以包括指示所述用户图像在所述视频帧中所处区域的掩膜。所述提取用户图像可以包括：基于所述掩膜，从所述视频帧中提取所述用户图像。

在一种实施方式中，所述确定交互效果可以包括：确定所述虚拟背景图像是否具有内嵌的交互属性，所述内嵌的交互属性至少包括与所述虚拟背景图像相对应的预定义交互动画；响应于确定所述虚拟背景图像具有所述内嵌的交互属性，根据所述用户图像，估计所述用户的用户三维位置；确定所述用户三维位置是否在预定位置范围内；响应于确定所述用户三维位置在所述预定位置范围内，获取所述预定义交互动画；以及将所述预定义交互动画确定为所述用户与所述虚拟背景图像之间的所述交互效果。

所述用户三维位置可以包括所述用户的多个人体关键点之一的三维位置。

所述预定位置范围可以与所述虚拟背景图像中的可交互物体的三维位置相关联。

所述生成增强视频帧可以包括：基于所述预定义交互动画、所述用户图像和所述虚拟背景图像来生成所述增强视频帧。

在一种实施方式中，所述确定交互效果可以包括：根据所述用户图像，生成与所述用户相对应的用户三维模型；获得与所述虚拟背景图像相对应的背景三维模型；以及通过物理引擎和/或光线追踪技术，基于所述用户三维模型和所述背景三维模型，模拟所述用户与所述虚拟背景图像之间的所述交互效果。

所述获得背景三维模型可以包括：确定是否存在所述背景三维模型；以及响应于确定存在所述背景三维模型，获取所述背景三维模型。

方法700还可以包括：响应于确定不存在所述背景三维模型，提取所述虚拟背景图像的语义信息和深度信息；以及基于所述语义信息和所述深度信息，生成所述背景三维模型。

所述生成增强视频帧可以包括：基于所述交互效果、所述用户三维模型和所述背景三维模型，渲染综合三维模型；将所述综合三维模型转换成二维图像，所述二维图像的相机视角与所述视频帧的相机视角相同；以及将所述二维图像作为所述增强视频帧。

方法700还可以包括：通过生成模型，对所述二维图像的真实感进行改进；以及将经改进的二维图像作为所述增强视频帧。

在一种实施方式中，所述交互效果可以包括交互音效。方法700还可以包括：与输出所述增强视频帧同时地输出所述交互音效。

在一种实施方式中，方法700还可以包括：接收所述视频通信的至少一个第二视频帧；从所述至少一个第二视频帧中提取至少一个第二用户的至少一个第二用户图像；以及基于所述用户图像和所述至少一个第二用户图像，确定所述用户与所述至少一个第二用户之间的至少一个第二交互效果。所述生成增强视频帧可以包括：生成具有所述至少一个第二交互效果的增强视频帧。

应当理解，方法700还可以包括根据如上所述的本公开的实施例的用于具有交互效果的视频通信的任何步骤/过程。

图8示出了根据本公开实施例的用于具有交互效果的视频通信的示例性装置800。

装置800可以包括：视频帧接收模块810，用于接收视频通信的视频帧；用户图像提取模块820，用于从所述视频帧中提取用户的用户图像；虚拟背景图像获得模块830，用于获得与所述视频帧相对应的虚拟背景图像；交互效果确定模块840，用于基于所述用户图像和所述虚拟背景图像，确定所述用户与所述虚拟背景图像之间的交互效果；增强视频帧生成模块850，用于生成具有所述交互效果的增强视频帧；以及增强视频帧输出模块860，用于输出所述增强视频帧。此外，装置800还可以包括根据如上所述的本公开的实施例的被配置用于具有交互效果的视频通信的任何其他模块。

图9示出了根据本公开实施例的用于具有交互效果的视频通信的示例性装置900。

装置900可以包括：至少一个处理器910；以及存储计算机可执行指令的存储器920。所述计算机可执行指令在被执行时可以使得所述至少一个处理器910：接收视频通信的视频帧，从所述视频帧中提取用户的用户图像，获得与所述视频帧相对应的虚拟背景图像，基于所述用户图像和所述虚拟背景图像，确定所述用户与所述虚拟背景图像之间的交互效果，生成具有所述交互效果的增强视频帧，以及输出所述增强视频帧。

在一种实施方式中，所述计算机可执行指令在被执行时还可以使得所述至少一个处理器910：接收所述视频通信的至少一个第二视频帧，从所述至少一个第二视频帧中提取至少一个第二用户的至少一个第二用户图像，以及基于所述用户图像和所述至少一个第二用户图像，确定所述用户与所述至少一个第二用户之间的至少一个第二交互效果。所述生成增强视频帧可以包括：生成具有所述至少一个第二交互效果的增强视频帧。

应当理解，处理器910还可以执行根据如上所述的本公开实施例的用于具有交互效果的视频通信的方法的任何其他步骤/过程。

本公开的实施例提出了用于具有交互效果的视频通信的计算机程序产品，包括计算机程序，所述计算机程序被至少一个处理器执行用于：接收视频通信的视频帧；从所述视频帧中提取用户的用户图像；获得与所述视频帧相对应的虚拟背景图像；基于所述用户图像和所述虚拟背景图像，确定所述用户与所述虚拟背景图像之间的交互效果；生成具有所述交互效果的增强视频帧；以及输出所述增强视频帧。此外，所述计算机程序还可以被执行用于实施根据如上所述的本公开实施例的用于具有交互效果的视频通信的方法的任何其他步骤/过程。

本公开的实施例可以体现在非暂时性计算机可读介质中。所述非暂时性计算机可读介质可以包括指令，所述指令当被执行时，使得一个或多个处理器执行根据如上所述的本公开的实施例的用于具有交互效果的视频通信的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其他等同变换。另外，除非另有规定或者从上下文能清楚得知针对单数形式，否则如本说明书和所附权利要求书中所使用的冠词“一(a)”和“一个(an)”通常应当被解释为意指“一个”或者“一个或多个”。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以利用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑单元、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其他适合的处理组件来实施。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以利用由微处理器、微控制器、DSP或其他适合的平台所执行的软件来实施。

软件应当被广泛地视为意指指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(例如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部，例如高速缓存器或寄存器。

以上描述被提供用于使得本领域任何技术人员能够实践本文所描述的各个方面。对这些方面的各种修改对于本领域技术人员将是显而易见的，并且本文限定的一般性原理可以应用于其他方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域普通技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换都被明确并入本文并且由权利要求所覆盖。

Claims

1.一种用于具有交互效果的视频通信的方法，包括：

接收视频通信的视频帧；

从所述视频帧中提取用户的用户图像；

获得与所述视频帧相对应的虚拟背景图像；

基于所述用户图像和所述虚拟背景图像，确定所述用户与所述虚拟背景图像之间的交互效果；

生成具有所述交互效果的增强视频帧；以及

输出所述增强视频帧。

2.根据权利要求1所述的方法，其中，所述视频帧包括指示所述用户图像在所述视频帧中所处区域的掩膜，并且所述提取用户图像包括：

基于所述掩膜，从所述视频帧中提取所述用户图像。

3.根据权利要求1所述的方法，其中，所述确定交互效果包括：

确定所述虚拟背景图像是否具有内嵌的交互属性，所述内嵌的交互属性至少包括与所述虚拟背景图像相对应的预定义交互动画；

响应于确定所述虚拟背景图像具有所述内嵌的交互属性，根据所述用户图像，估计所述用户的用户三维位置；

确定所述用户三维位置是否在预定位置范围内；

响应于确定所述用户三维位置在所述预定位置范围内，获取所述预定义交互动画；以及

将所述预定义交互动画确定为所述用户与所述虚拟背景图像之间的所述交互效果。

4.根据权利要求3所述的方法，其中，所述用户三维位置包括所述用户的多个人体关键点之一的三维位置。

5.根据权利要求3所述的方法，其中，所述预定位置范围与所述虚拟背景图像中的可交互物体的三维位置相关联。

6.根据权利要求3所述的方法，其中，所述生成增强视频帧包括：

基于所述预定义交互动画、所述用户图像和所述虚拟背景图像来生成所述增强视频帧。

7.根据权利要求1所述的方法，其中，所述确定交互效果包括：

根据所述用户图像，生成与所述用户相对应的用户三维模型；

获得与所述虚拟背景图像相对应的背景三维模型；以及

通过物理引擎和/或光线追踪技术，基于所述用户三维模型和所述背景三维模型，模拟所述用户与所述虚拟背景图像之间的所述交互效果。

8.根据权利要求7所述的方法，其中，所述获得背景三维模型包括：

确定是否存在所述背景三维模型；以及

响应于确定存在所述背景三维模型，获取所述背景三维模型。

9.根据权利要求8所述的方法，还包括：

响应于确定不存在所述背景三维模型，提取所述虚拟背景图像的语义信息和深度信息；以及

基于所述语义信息和所述深度信息，生成所述背景三维模型。

10.根据权利要求7所述的方法，其中，所述生成增强视频帧包括：

基于所述交互效果、所述用户三维模型和所述背景三维模型，渲染综合三维模型；

将所述综合三维模型转换成二维图像，所述二维图像的相机视角与所述视频帧的相机视角相同；以及

将所述二维图像作为所述增强视频帧。

11.根据权利要求10所述的方法，还包括：

通过生成模型，对所述二维图像的真实感进行改进；以及

将经改进的二维图像作为所述增强视频帧。

12.根据权利要求1所述的方法，其中，所述交互效果包括交互音效，并且所述方法还包括：

与输出所述增强视频帧同时地输出所述交互音效。

13.根据权利要求1所述的方法，还包括：

接收所述视频通信的至少一个第二视频帧；

从所述至少一个第二视频帧中提取至少一个第二用户的至少一个第二用户图像；以及

基于所述用户图像和所述至少一个第二用户图像，确定所述用户与所述至少一个第二用户之间的至少一个第二交互效果，并且

所述生成增强视频帧包括：生成具有所述至少一个第二交互效果的增强视频帧。

14.一种用于具有交互效果的视频通信的装置，包括：

至少一个处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使得所述至少一个处理器：

接收视频通信的视频帧，

从所述视频帧中提取用户的用户图像，

获得与所述视频帧相对应的虚拟背景图像，

基于所述用户图像和所述虚拟背景图像，确定所述用户与所述虚拟背景图像之间的交互效果，

生成具有所述交互效果的增强视频帧，以及

输出所述增强视频帧。

15.根据权利要求14所述的装置，其中，所述确定交互效果包括：

确定所述用户三维位置是否在预定位置范围内；

16.根据权利要求15所述的装置，其中，所述生成增强视频帧包括：

17.根据权利要求14所述的装置，其中，所述确定交互效果包括：

获得与所述虚拟背景图像相对应的背景三维模型；以及

18.根据权利要求17所述的装置，其中，所述生成增强视频帧包括：

将所述二维图像作为所述增强视频帧。

19.根据权利要求14所述的装置，其中，所述计算机可执行指令在被执行时还使得所述至少一个处理器：

接收所述视频通信的至少一个第二视频帧，

从所述至少一个第二视频帧中提取至少一个第二用户的至少一个第二用户图像，以及

20.一种用于具有交互效果的视频通信的计算机程序产品，包括计算机程序，所述计算机程序被至少一个处理器执行用于：

接收视频通信的视频帧；

从所述视频帧中提取用户的用户图像；

获得与所述视频帧相对应的虚拟背景图像；

生成具有所述交互效果的增强视频帧；以及

输出所述增强视频帧。