CN117201720A

CN117201720A - 在视频会话中提供实时虚拟背景

Info

Publication number: CN117201720A
Application number: CN202210619268.8A
Authority: CN
Inventors: 朱琦; 李佳樺; 李浩宇; 张琼芳
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2023-12-08
Also published as: WO2023235045A1

Abstract

本公开提供了用于在视频会话中提供实时虚拟背景的方法、装置、计算机程序产品和非暂时性计算机可读介质。可以获得目标用户的实时环境状态信息，所述实时环境状态信息至少包括所述目标用户的地理位置信息。可以确定与所述实时环境状态信息相对应的虚拟视觉表示。可以通过将所述虚拟视觉表示添加到预定布局模板中来形成实时虚拟背景。可以通过组合所述实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的混合图像。可以在所述视频会话的用户界面中的、与所述目标用户相对应的用户显示区域内呈现所述混合图像。

Description

在视频会话中提供实时虚拟背景

背景技术

视频会话服务正在成为人们日常生活的一部分。视频会话服务的用户可以通过视频会话服务来创建或加入视频会话。视频会话可以指至少支持用户以实时视频的方式来参与的会话。参与同一视频会话的多个用户可以在视频会话服务为该视频会话所创建的虚拟会话空间中彼此进行交流。存在多种视频会话服务，例如，由在线会议应用所提供的视频会议服务、由社交软件所提供的视频聊天服务等。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于在视频会话中提供实时虚拟背景的方法、装置、计算机程序产品和非暂时性计算机可读介质。可以获得目标用户的实时环境状态信息，所述实时环境状态信息至少包括所述目标用户的地理位置信息。可以确定与所述实时环境状态信息相对应的虚拟视觉表示。可以通过将所述虚拟视觉表示添加到预定布局模板中来形成实时虚拟背景。可以通过组合所述实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的混合图像。可以在所述视频会话的用户界面中的、与所述目标用户相对应的用户显示区域内呈现所述混合图像。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了现有的示例性的视频会话的用户界面。

图2示出了根据实施例的在视频会话中提供实时虚拟背景的示例性过程。

图3示出了根据实施例的示例性布局模板。

图4示出了根据实施例的形成混合图像的示例。

图5示出了根据实施例的确定虚拟视觉表示的示例性过程。

图6示出了根据实施例的虚拟视觉表示的示例。

图7示出了根据实施例的确定虚拟视觉表示的示例性过程。

图8示出了根据实施例的虚拟视觉表示的示例。

图9示出了根据实施例的确定虚拟视觉表示的示例性过程。

图10示出了根据实施例的虚拟视觉表示的示例。

图11示出了根据实施例的虚拟视觉表示的示例。

图12A和图12B示出了根据实施例的示例性的视频会话的用户界面。

图13示出了根据实施例的用于在视频会话中提供实时虚拟背景的示例性方法的流程图。

图14示出了根据实施例的用于在视频会话中提供实时虚拟背景的示例性装置。

图15示出了根据实施例的用于在视频会话中提供实时虚拟背景的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

在由视频会话服务所创建的视频会话中，参与该视频会话的一个当前用户可以开启用于运行视频会话服务的终端设备的摄像头，以便在该视频会话的用户界面中呈现经由摄像头所捕获的该用户侧的实时摄像头视角图像，并使得参与该视频会话的其他用户可以看到当前用户的实时摄像头视角图像。实时摄像头视角图像可以指由摄像头实际捕获或拍摄的实时图像，其可以包括用户的人物图像、用户所处于的场所的实际背景图像等。在一些情况下，视频会话服务可以提供实际背景图像替换功能，以便将由摄像头所捕获的实际背景图像替换为预定背景图像。该预定背景图像可以是用户预先选择的或者自动预先设置的。

本公开的实施例提出了在视频会话中提供实时虚拟背景，该实时虚拟背景可以反映用户的实时环境状态信息。在本文中，实时环境状态信息可以指与用户当前所处于的真实世界环境相关联的各种状态信息，其可以包括例如地理位置信息、时间信息、天气信息等。相应地，实时虚拟背景可以模拟真实世界的场景，以便可视化地反映用户所处于的地理位置(例如国家、城市等)、与该地理位置相对应的当前时间、在该地理位置处的当前天气等。例如，可以通过代表性的建筑、自然景观、动物、植物等来可视化地反映地理位置。例如，可以通过光线强度、光线角度等来可视化地反映当前时间。例如，可以通过天空、光线强度、天气效果等来反映天气。

参与同一视频会话的多个用户可能来自不同的国家或地区、处于不同的时区等，因此，存在在这些用户之间相互了解个人实时环境状态信息的需求。现有的视频会话服务中的实际背景图像替换功能仅仅旨在将由摄像头所捕获的实际背景图像替换为预定背景图像，然而，该预定背景图像并不能反映用户的实时环境状态信息。

根据本公开的实施例，由摄像头所捕获的实际背景图像可以被替换为实时虚拟背景，并且该实时虚拟背景可以被用于反映用户的实时环境状态信息。例如，本公开的实施例可以确定与目标用户的实时环境状态信息相对应的虚拟视觉表示，利用该虚拟视觉表示和布局模板来形成实时虚拟背景，利用该实时虚拟背景和目标用户的实时人物图像来形成与该目标用户相对应的混合图像，并且在视频会话的用户界面中呈现该混合图像。从而，当参与该视频会话的其他用户看到该混合图像时，这些用户可以直观容易地感知或了解到与该目标用户相关联的实时环境状态信息，例如地理位置、当前时间、当前天气等。

本公开的实施例可以根据目标用户的实时环境状态信息的更新或改变来持续地更新实时虚拟背景，以便通过实时虚拟背景的更新来反映目标用户的实时环境状态信息的改变。从而，实时虚拟背景可以是随着时间推移而不断改变或更新的。

本公开的实施例可以有效地提升视频会话服务的真实性和趣味性、构建更加沉浸式的虚拟会话空间、增强用户的个性化体验、促进用户之间的相互感知和亲密度、等等。

应当理解，尽管在以下讨论的多个部分中以视频会议服务为例，但是本公开的实施例并不局限于被应用在视频会议服务中，而是也可以通过类似的方式被应用在任何其它类型的视频会话服务中。

图1示出了现有的示例性的视频会话的用户界面100。用户界面100可以是例如由视频会议服务所创建的视频会议的用户界面。

假设参与图1中的视频会话的用户包括Beth、Jane和Eric。用户Beth开启了终端设备的摄像头，并且在用户界面100中包括与用户Beth相对应的用户显示区域110。在用户显示区域110中呈现了用户Beth的实时人物图像112和用户Beth预先选择的预定背景图像114。在图1的示例中，根据现有的视频会话服务中的实际背景图像替换功能，将由摄像头所捕获的在用户Beth侧的实际背景图像替换为了预定背景图像114。然而，该预定背景图像114并不能反映与用户Beth相关联的任何实时环境状态信息。

图2示出了根据实施例的在视频会话中提供实时虚拟背景的示例性过程200。在过程200中，用户202正在参与视频会话204。视频会话204可以是由视频会话服务所创建的，例如，由视频会议服务所创建的视频会议、由社交软件所创建的群组视频聊天等。视频会话服务可以提供与视频会话204相对应的用户界面，以作为参与视频会话204的多个用户可访问的虚拟会话空间。

假设用户202已经授权视频会话服务获取用户202的地理位置信息，开启了用户202的用于运行视频会话服务的终端设备的摄像头，并且在视频会话服务中启动了根据本公开实施例的在视频会话中提供实时虚拟背景的功能。相应地，视频会话服务可以自动执行过程200中的各种示例性操作。

在210处，可以获得用户202的实时环境状态信息。实时环境状态信息可以包括，例如，地理位置信息、时间信息、天气信息等中的至少一个。

在一种实现方式中，在210处的获得实时环境状态信息可以包括获得用户202的地理位置信息。地理位置信息可以是由用户202提供给视频会话服务的，或者可以是由视频会话服务利用终端设备而自动获取的。地理位置信息可以指能够表征用户所处于的地理位置的各种信息，例如，国家、地区、城市、地理坐标等。本公开的实施例并不局限于任何特定类型的地理位置信息，也并不局限于获得地理位置信息的任何具体方式。

在一种实现方式中，在210处的获得实时环境状态信息可以包括基于用户202的地理位置信息，来获得与地理位置信息相对应的时间信息。时间信息可以指能够表征在用户所处于的地理位置的当前时间的各种信息。时间信息可以是基于各种分类标准来定义的。例如，时间信息可以指示白天、夜晚等。例如，时间信息可以指示清晨、上午、中午、下午、黄昏、夜晚等。例如，时间信息可以指示一天中的具体的小时、分钟等。由于不同的用户可能处于不同的时区，因此，可以基于用户202的地理位置信息确定用户202处于哪个时区，并进而确定在该时区中的当前时间。例如，假设基于用户Jane的地理位置信息确定其处于时区GMT-7，而基于用户Beth的地理位置信息确定其处于时区GMT+8，则用户Jane和用户Beth的时间相差15个小时，即，当与用户Jane相对应的当前时间为上午8点时，与用户Beth相对应的当前时间为下午11点。本公开的实施例并不局限于时间信息的任何具体分类标准，也并不局限于获得时间信息的任何具体方式。

在一种实现方式中，在210处的获得实时环境状态信息可以包括基于用户202的地理位置信息，来获得与地理位置信息相对应的天气信息。天气信息可以指能够表征在用户所处于的地理位置的当前天气的各种信息，例如，晴朗无云、多云、阴天、下雨、下雪等。天气信息可以是基于各种分类标准来定义的。可以在网络上或者从预定的数据源处获得在用户202所处于的地理位置处的当前天气信息。本公开的实施例并不局限于天气信息的任何具体分类标准，也并不局限于获得天气信息的任何具体方式。

在220处，可以确定与用户202的实时环境状态信息相对应的虚拟视觉表示。在本文中，虚拟视觉表示可以指能够反映实时环境状态信息的各种视觉呈现。例如，虚拟视觉表示可以是单个的图像，或者是视频中的视频帧。虚拟视觉表示可以是至少部分地基于真实世界的场景来产生的，或者是全部由计算机模拟产生的。虚拟视觉表示可以反映与用户202相关联的地理位置、当前时间、当前天气等中的至少一个。

在一个方面，通过在虚拟视觉表示中包括与用户202的地理位置相对应的代表性建筑、自然景观、动物、植物等，可以可视化地反映用户202所处于的地理位置。例如，假设用户202的地理位置信息指示其处于中国北京，且城市“北京”的代表性建筑包括长城，则可以在虚拟视觉表示中包括与长城相对应的视觉元素，以反映用户202正在地理位置“北京”处参与视频会话。

在一个方面，通过使得虚拟视觉表示具有与当前时间相对应的光线强度、光线角度等，可以可视化地反映当前时间。例如，假设用户202的时间信息指示用户202处的当前时间是中午，则虚拟视觉表示可以具有较高的光线强度，以反映用户202处的当前时间是中午。

在一个方面，通过使得虚拟视觉表示具有与当前天气相对应的天空、光线强度、天气效果等，可以可视化地反映当前天气。例如，假设用户202的天气信息指示用户202处的当前天气是阴天，则虚拟视觉表示可以具有较低的光线强度和/或较多的云量，以反映用户202处的当前天气是阴天。

虚拟视觉表示可以是通过例如生成方式、检索方式等来确定的。在生成方式中，虚拟视觉表示可以是通过机器学习模型或网络、至少基于实时环境状态信息来生成的，如以下结合图5至图8所讨论的。在检索方式中，虚拟视觉表示可以是基于实时环境状态信息、从预先准备的虚拟视觉表示库中选择的，如以下结合图9至图11所讨论的。

在230处，可以利用在220处所确定的虚拟视觉表示和预定布局模板232来形成实时虚拟背景。例如，可以通过将虚拟视觉表示添加到布局模板中来形成实时虚拟背景。添加了虚拟视觉表示的布局模板可以被用作实时虚拟背景。布局模板是用于规定实时虚拟背景的布局的模板，其可以至少定义用于呈现虚拟视觉表示的方式，例如，定义如何在实时虚拟背景中呈现虚拟视觉表示。

在一种实现方式中，布局模板可以定义：对虚拟视觉表示进行平铺。从而，通过平铺操作，可以将虚拟视觉表示直接用作实时虚拟背景，例如，可以将虚拟视觉表示302作为整个虚拟视觉背景。图3示出了根据实施例的示例性布局模板。作为示例，图3中的布局模板310定义了对虚拟视觉表示进行平铺。相应地，在将虚拟视觉表示302添加到布局模板310时，虚拟视觉表示302可以被平铺在布局模板310中。

在一种实现方式中，布局模板可以定义：在布局模板中的预定呈现区域内呈现虚拟视觉表示。从而，虚拟视觉表示将会被呈现在实时虚拟背景中的预定呈现区域内。呈现区域可以具有预设的尺寸、位置、外观等。可选地，布局模板可以具有特定的视觉效果。例如，布局模板可以在整体上被显示为屋子的墙面，而呈现区域的轮廓可以被显示为在该墙面上的窗框。作为示例，图3中的布局模板320定义了在呈现区域322内呈现虚拟视觉表示。相应地，在将虚拟视觉表示302添加到布局模板320时，虚拟视觉表示302可以被呈现在呈现区域322内。示例性地，布局模板320在整体上被显示为屋子的墙面，而呈现区域322的轮廓被显示为在该墙面上的窗框。此外，可选地，布局模板还可以在呈现区域之外的区域内包含任何附加视觉元素。在一种情况下，附加视觉元素可以反映用户的出现场所。作为示例，图3中的布局模板330定义了在呈现区域332内呈现虚拟视觉表示，并且布局模板330还包括附加视觉元素334，其中，布局模板330在整体上被显示为屋子的墙面并且呈现区域332的轮廓被显示为在该墙面上的窗框。附加视觉元素334可以包括用于反映用户的示例性出现场所“家”的书架、花、衣架等。相应地，在将虚拟视觉表示302添加到布局模板330后，所形成的虚拟背景图像可以更逼真地呈现用户在家里参与视频会话的场景。为了在虚拟背景图像中反映用户的出现场所，过程200还可以可选地包括获得用户202的出现场所信息。例如，用户202可以在视频会话服务中输入或设置其参与视频会话的出现场所信息，诸如家、办公室等，从而，可以基于这样的用户输入或设置来获得用户202的出现场所信息。相应地，布局模板232可以是包括与用户202的出现场所相对应的视觉元素的模板。在这种情况下，可以预先准备分别包括与不同出现场所相对应的视觉元素的多个模板，并且响应于获得用户的出现场所信息，选择与所获得的出现场所信息相匹配的模板。

应当理解，本公开的实施例并不局限于以上描述的布局模板的任何具体细节以及图3中所示的示例性布局模板。此外，可选地，过程200还可以包括关于如何确定采用布局模板232的操作，例如，默认采用布局模板232、响应于用户从多个候选布局模板中的指定而采用布局模板232、至少基于用户的出现场所信息而从多个候选布局模板中选择布局模板232、等等。

在240处，可以获得经由用户202的终端设备的摄像头所捕获的用户202的实时摄像头视角图像。该实时摄像头视角图像可以包括用户202的实时人物图像、用户202所处于的场所的实际背景图像等。

在250处，可以从实时摄像头视角图像中提取用户202的实时人物图像。例如，可以在实时摄像头视角图像中区分实时人物图像和实际背景图像，并且仅将实时人物图像提取用于后续的操作。本公开的实施例并不局限于用于提取实时人物图像的任何特定技术。

在260处，可以利用在230处所形成的实时虚拟背景和在250处所提取的实时人物图像来形成与用户202相对应的混合图像。例如，可以通过组合实时虚拟背景与实时人物图像来形成混合图像。示例性地，可以通过例如图层叠加等图像合成技术来组合实时虚拟背景与实时人物图像。可选地，可以进一步根据预先设置的组合配置来组合实时虚拟背景与实时人物图像，所述组合配置可以规定例如实时虚拟背景与实时人物图像之间的相对大小、相对位置等。本公开的实施例并不局限于用于组合实时虚拟背景与实时人物图像的任何特定图像合成技术和任何特定组合配置。图4示出了根据实施例的形成混合图像的示例。在图4中，实时人物图像420可以是根据例如图2中的步骤240和步骤250而从实时摄像头视角图像410中提取的。实时虚拟背景430可以是根据例如图2中的步骤210、步骤220和步骤230而形成的，并且是基于例如图3中的布局模板320而形成的。实时虚拟背景430至少包括在呈现区域432中所呈现的虚拟视觉表示434。可以根据例如图2中的步骤260来将实时人物图像420和实时虚拟背景430组合为混合图像440。

在270处，可以在视频会话的用户界面中的、与用户202相对应的用户显示区域内呈现在260处所形成的混合图像。

在现有的视频会话服务中，视频会话的用户界面可以包括与参与视频会话的每个用户相对应的各自的用户显示区域。当一个用户未开启摄像头时，可以在与该用户相对应的用户显示区域内显示该用户的头像或名字，如在图1中与用户Jane相对应的圆形用户显示区域和与用户Eric相对应的圆形用户显示区域所示。当一个用户开启摄像头时，可以在与该用户相对应的用户显示区域内显示由摄像头所捕获的实时摄像头视角图像，如在图1中与用户Beth相对应的矩形用户显示区域110所示。

然而，与现有的视频会话服务不同，本公开的实施例可以在与用户202相对应的用户显示区域内呈现在260处所形成的混合图像，而不是由用户202的摄像头所捕获的实时摄像头视角图像。在该混合图像中，由摄像头所捕获的实际背景图像已经被替换为在230处所形成的实时虚拟背景，从而，参与视频会话的其他用户可以通过该混合图像而获知用户202的实时环境状态信息。

应当理解，以上讨论的过程200中所包括的操作可以被迭代地执行，以便不断地更新实时虚拟背景并进而更新混合图像。相应地，在280处，可以开始迭代地执行过程200中的操作210至操作270中的部分或全部操作。在每一次迭代中，可以获得用户202的经更新的实时环境状态信息。例如，用户202处的时间和/或天气可能发生了变化，由此导致经更新的实时环境状态信息。可以确定与经更新的实时环境状态信息相对应的经更新的虚拟视觉表示。例如，当用户202处的当前时间从白天改变为夜晚，则先前的反映时间“白天”的虚拟视觉表示可以改变为反映当前时间“夜晚”的虚拟视觉表示。例如，当用户202处的当前天气从多云改变为下雨，则先前的反映天气“多云”的虚拟视觉表示可以改变为反映当前天气“下雨”的虚拟视觉表示。可以通过将经更新的虚拟视觉表示添加到布局模板232中来形成经更新的实时虚拟背景。可以通过组合经更新的实时虚拟背景与用户202的实时人物图像来形成与用户202相对应的经更新的混合图像。可以在与用户202相对应的用户显示区域内呈现经更新的混合图像。从而，实时虚拟背景的更新可以使得参与视频会话的其他用户能够及时地获知用户202的实时环境状态信息的改变。

应当理解，以上结合图2所描述的过程200中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程200可以包括更多或更少的操作或步骤。本公开的实施例将涵盖对过程200所做的任意方式的修改。

图5示出了根据实施例的确定虚拟视觉表示的示例性过程500。过程500是图2中的操作220的一种示例性实现方式。过程500可以被执行用于以生成方式来确定虚拟视觉表示。假设在执行过程500之前已经获得了实时环境状态信息510。

在520处，可以执行代表性视觉表示选择。例如，在520处，可以从基于地理位置的代表性视觉表示库522中选择与实时环境状态信息510中的地理位置信息512相对应的代表性视觉表示524。在本文中，代表性视觉表示可以与地理位置相关联，并且与一个特定地理位置相关联的特定代表性视觉表示可以包括在该特定地理位置处的代表性的建筑、自然景观、动物、植物等，以可视化地反映该特定地理位置。例如，城市“北京”的代表性建筑包括长城等，因此，与北京相关联的代表性视觉表示可以是呈现了“长城”等的视觉表示。代表性视觉表示可以是图像或者是一段视频中的视频图像帧。代表性视觉表示库522可以是预先准备的，其可以包括与不同的地理位置相对应的大量候选代表性视觉表示。优选地，为了增强真实性，代表性视觉表示库522中的候选代表性视觉表示可以是实际拍摄的真实世界的照片或视频。此外，代表性视觉表示库522中的候选代表性视觉表示可以是包含天空的照片或视频。

在530处，可以执行天空视觉表示选择。例如，在530处，可以从基于时间和/或天气的天空视觉表示库532中选择与实时环境状态信息510中的时间信息514和/或天气信息516相对应的天空视觉表示534。在本文中，天空视觉表示可以与时间和/或天气相关联，并且与特定的时间和/或天气相关联的特定天空视觉表示可以包括用于可视化地反映该特定时间和/或天气的各种视觉元素，例如，云量、云的颜色、天空的光线强度等。在一个方面，天空视觉表示可以反映当前时间，例如，从高到低的不同的天空光线强度可以分别指示中午、下午、黄昏等，朝霞可以指示早晨，晚霞可以指示黄昏，等等。在另一个方面，天空视觉表示可以反映当前天气，例如，无云或少量云的天空可以指示晴朗，云量较多的天空可以指示多云，云量较多且云色暗淡可以指示阴天，较高的天空光线强度可以指示晴朗，较低的天空光线强度可以指示阴天，等等。此外，天空视觉表示也可以同时反映当前时间和当前天气，例如，少量的晚霞可以指示黄昏和晴朗，云量较多且光线强度较低的天空可以指示下午和多云，等等。天空视觉表示可以是图像或者是一段视频中的视频图像帧。天空视觉表示库532可以是预先准备的，其可以包括与不同的时间和/或天气相对应的大量候选天空视觉表示。优选地，为了增强真实性，天空视觉表示库532中的候选天空视觉表示可以是实际拍摄的真实世界的照片或视频等。此外，优选地，天空视觉表示库532中的候选天空视觉表示可以具有宽的视野范围，例如，360度的候选天空视觉表示等。

过程500可以至少基于代表性视觉表示524和天空视觉表示534来生成虚拟视觉表示542。在一种实现方式中，可以采用预先训练的生成模型540以基于代表性视觉表示524和天空视觉表示534来生成虚拟视觉表示542。生成模型540可以至少利用天空视觉表示534来替换代表性视觉表示524中的天空，使得所得到的虚拟视觉表示542不仅能够反映地理位置信息，还能够反映时间信息和/或天气信息。

作为示例，一种示例性的生成模型540可以包括天空抠图(matting)模块、运动估计模块、融合模块等。

以代表性视觉表示是一段视频中的视频图像帧为例。天空抠图模块可以按照时间顺序逐个帧地处理代表性视觉表示，以便获取每一帧图像中的天空的位置。在一种实现方式中，天空抠图模块可以包括编码器，该编码器可以是基于例如深度残差网络(例如ResNet50)来建立的，并且可以对输入图像执行特征提取。天空抠图模块还可以包括预测解码器，该预测解码器可以是基于例如U-Net网络来建立的，并且可以预测输入图像中的天空的位置。优选地，天空抠图模块还可以包括精调模块，该精调模块可以是基于例如导向滤波(guided filtering)技术来构建的，并且用于对预测解码器所预测的天空的位置进行精调。例如，该精调模块可以过滤掉每一帧RGB图像中的红色与绿色通道，而保留符合天空颜色的蓝色通道。相应地，天空抠图模块可以最终获得针对输入图像的天空抠图。

运动估计模块可以估计天空中的物体(例如云、太阳、月亮等)的运动轨迹，以便在后续的融合模块中使用。可以利用仿射矩阵来对天空中的物体运动进行建模。例如，运动估计模块可以在图像金字塔上使用例如Lucas-Kanade方法来计算输入图像中的光流(optical flow)，逐个帧地跟踪天空区域中的特征点，并且通过在每两个相邻帧之间进行对比来获得反映天空中的物体随时间的运动的仿射矩阵。

融合模块可以基于代表性视觉表示524、天空视觉表示534、天空抠图、仿射矩阵中的运动参数等来生成虚拟视觉表示542。例如，融合模块可以利用天空抠图来将代表性视觉表示524中的天空替换为天空视觉表示534，并且可以利用仿射矩阵中的运动参数来使得天空视觉表示534中的天空中的物体模拟代表性视觉表示524中的天空中的物体的运动。此外，优选地，融合模块还可以将天空视觉表示534中的颜色、光线强度等迁移到代表性视觉表示524中，以使得最终获得的虚拟视觉表示542中的各个部分的颜色、光线强度等更为协调。

应当理解，生成模型540的具体实现并不局限于以上描述的任何技术细节，而是可以在对这些技术细节进行任意方式的修改、替换、移除的情况下来实现生成模型540。生成模型540可以采用任何已知或即将已知的机器学习技术。此外，生成模型540也可以是利用任何常用的训练方式来进行训练的。

过程500还可以可选地包括在550处对虚拟视觉表示542应用附加天气效果，以便更好地反映特定的天气，例如，下雨、下雪等。以天气“下雨”为例，为了增强虚拟视觉表示542对“雨”的表达，可以将包含类似于雨滴的视觉元素的图像与虚拟视觉表示542进行图像叠加，使得最终的虚拟视觉表示542将至少包含视觉元素“雨滴”，从而更好地反映天气“下雨”。

应当理解，以上结合图5所描述的过程500中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程500可以包括更多或更少的操作或步骤。本公开的实施例将涵盖对过程500所做的任意方式的修改。例如，取代采用生成模型540，本公开的实施例也可以采用能够至少基于代表性视觉表示524和天空视觉表示534来生成虚拟视觉表示542的任何其它模型或技术。此外，过程500可以使得虚拟视觉表示542具有与代表性视觉表示524和/或天空视觉表示524相同的数据格式。例如，当代表性视觉表示524和/或天空视觉表示534是图像时，虚拟视觉表示542可以被生成为图像，而当代表性视觉表示524和/或天空视觉表示534是视频时，虚拟视觉表示542可以被生成为视频。此外，通过迭代地执行过程500，可以响应于实时环境状态信息的改变而不断地生成经更新的虚拟视觉表示。

图6示出了根据实施例的虚拟视觉表示的示例。图6中的虚拟视觉表示可以是通过例如图5中的过程500来生成的。

假设实时环境状态信息中的地理位置信息指示了城市A，并且实时环境状态信息中的天气信息指示了天气“阴天”。与城市A相对应的代表性视觉表示610可以是在例如图5中的520处从代表性视觉表示库中选择的，其包括城市A的代表性建筑612和614，并且具有“晴朗”的天气。与天气“阴天”相对应的天空视觉表示620可以是在例如图5中的530处从天空视觉表示库中选择的，其包括较多的云量并且具有较低的光线强度。

可以通过例如图5中的生成模型540，至少基于代表性视觉表示610和天空视觉表示620来生成虚拟视觉表示630。如图所示，虚拟视觉表示630不仅包含了城市A的代表性建筑612和614，而且包含了天空中的大量的云。此外，虚拟视觉表示630的整体光线强度较弱。从而，虚拟视觉表示630可视化地反映出实时环境状态信息中的地理位置信息“城市A”、天气信息“阴天”等。

图7示出了根据实施例的确定虚拟视觉表示的示例性过程700。过程700是图2中的操作220的一种示例性实现方式。过程700可以被执行用于以生成方式来确定虚拟视觉表示。假设在执行过程700之前已经获得了实时环境状态信息710。

在720处，可以执行代表性视觉表示选择。例如，在720处，可以从基于地理位置的代表性视觉表示库722中选择与实时环境状态信息710中的地理位置信息712相对应的代表性视觉表示724。在720处的代表性视觉表示选择可以类似于图5中的520处的代表性视觉表示选择。

过程700可以通过将实时环境状态信息710中的时间信息714和/或天气信息716作为影响因子718，基于代表性视觉表示724来生成虚拟视觉表示732。在一种实现方式中，可以采用预先训练的生成模型730以在影响因子718的作用下基于代表性视觉表示724来生成虚拟视觉表示732。与图5中的生成模型540不同，生成模型730无需对天空执行任何单独的处理。从而，作为生成模型730的输入的代表性视觉表示724并非必须包含天空部分，其也可以不包含天空或仅包含一小部分天空等。由于虚拟视觉表示732是至少利用影响因子718和代表性视觉表示724来生成的，其不仅能够反映地理位置信息，还能够反映时间信息和/或天气信息。

作为示例，一种示例性的生成模型730可以是基于生成对抗网络(GAN：GenerativeAdversarial Network)来构建的天气GAN模型，其被训练用于在有关天气的影响因子的作用下基于代表性视觉表示来生成虚拟视觉表示。天气GAN模型可以将输入图像的原始天气类别转换为目标天气类别。例如，天气GAN模型可以利用各种天气线索来确定输入图像的天气状况，所述天气线索可以包括例如潮湿的地面、雨滴、雪花、云雾遮挡、蓝天等。天气GAN模型可以在天气类别转换过程中将主要的注意力集中在天气线索上，例如，将输入图像中与天气线索有关的部分转换为目标天气类别，而保持其它部分不变。天气GAN模型所采用的生成对抗网络可以包括生成器和判别器。在训练过程中，生成器可以用于生成图像，而判别器可以用于判断所生成的图像的真实程度。

生成器可以包括初始翻译模块、注意力模块、天气线索分割模块等。生成器中的这些模块可以基于像素到像素(pix-to-pix)网络，其可以被实现为类似于UNet的网络模型的结构。初始翻译模块可以对输入图像进行全局翻译，以获得输入图像的初步特征。注意力模块可以对输入图像应用注意力机制，以强化输入图像中与天气相关的区域并均衡不同区域的整体风格，并且相应地，注意力模块可以预测出空间注意力图(map)。天气线索分割模块可以从输入图像中分割出天气线索并且生成天气线索分割图。由注意力模块所输出的空间注意力图和由天气线索分割模块所输出的天气线索分割图可以被组合为翻译图，其可以表征在注意力机制下的天气线索。最后，通过组合输入图像、翻译图以及由初始翻译模块所获得的输入图像的初步特征，可以获得生成器所最终产生的图像。

在训练过程中，可以将生成器所产生的图像与具有目标天气类别的真实图像一起输入到判别器中。判别器可以判断图像的真伪，并通过反向传播来进一步提升生成器与判别器的性能。

在实际应用过程中，可以直接使用训练好的生成器来产生所需要的图像，而无需使用判别器。实时环境状态信息中的天气信息可以作为用于生成器的影响因子，以用于指示目标天气类别。相应地，生成器将会基于输入图像，例如，代表性视觉表示，来生成具有影响因子所指示的目标天气类别的输出图像，例如，虚拟视觉表示。

应当理解，以上描述的天气GAN模型仅仅是生成模型730的一种示例性实现。尽管该天气GAN模型仅将天气信息作为影响因子，但是也可以以类似的方式构建进一步的模型以用于在将天气信息和时间信息中的任何一者或两者作为影响因子的情况下来生成虚拟视觉表示。本公开的实施例并不局限于生成模型730的任何特定实现方式和任何具体技术细节。生成模型730可以采用任何已知或即将已知的机器学习技术。此外，生成模型730也可以是利用任何常用的训练方式来进行训练的。

应当理解，以上结合图7所描述的过程700中的所有操作或步骤都是示例性的，取决于具体的应用场景和需求，过程700可以包括更多或更少的操作或步骤。本公开的实施例将涵盖对过程700所做的任意方式的修改。例如，取代采用生成模型730，本公开的实施例还可以采用能够通过将时间信息714和/或天气信息716作为影响因子、基于代表性视觉表示724来生成虚拟视觉表示732的任何其它模型或技术。此外，过程700可以使得虚拟视觉表示732具有与代表性视觉表示724相同的数据格式。此外，通过迭代地执行过程700，可以响应于实时环境状态信息的改变而不断地生成经更新的虚拟视觉表示。

图8示出了根据实施例的虚拟视觉表示的示例。图8中的虚拟视觉表示可以是通过例如图7中的过程700来生成的。

假设实时环境状态信息中的地理位置信息指示了城市A，实时环境状态信息中的天气信息指示了天气“阴天”，并且实时环境状态信息中的时间信息指示了时间“黄昏”。与城市A相对应的代表性视觉表示810可以是在例如图7中的720处从代表性视觉表示库中选择的，其包括城市A的代表性建筑812。代表性视觉表示810具有“晴朗”的天气，并且具有较高的光线强度。

可以利用例如图7中的生成模型730，通过将天气信息“阴天”和时间信息“黄昏”作为影响因子，基于代表性视觉表示810来生成虚拟视觉表示820。如图所示，虚拟视觉表示820包含了城市A的代表性建筑812，而且虚拟视觉表示820的整体光线强度较弱。从而，虚拟视觉表示820可视化地反映出实时环境状态信息中的地理位置信息“城市A”、天气信息“阴天”、时间信息“黄昏”等。

图9示出了根据实施例的确定虚拟视觉表示的示例性过程900。过程900是图2中的操作220的一种示例性实现方式。过程900可以被执行用于以检索方式来确定虚拟视觉表示。假设在执行过程900之前已经获得了实时环境状态信息910。

在920处，可以执行光线视觉表示选择。例如，在920处，可以从基于时间和/或天气的光线视觉表示库922中选择与实时环境状态信息910中的时间信息914和/或天气信息916相对应的光线视觉表示，以作为虚拟视觉表示924。在本文中，光线视觉表示可以与时间和/或天气相关联，并且与特定时间和/或天气相关联的特定光线视觉表示可以通过光线角度、光线强度等来可视化地反映该特定时间和/或天气。作为示例，假设光线视觉表示显示了包括房屋内的窗户的场景。在不同的时间处，阳光从房屋外经由窗户照射到房屋内的光线角度和/或光线强度也将是不同的。因此，可以在光线视觉表示中至少利用不同的光线角度和/或光线强度来反映不同的时间。此外，在不同的天气中，阳光从房屋外经由窗户照射到房屋内的光线强度也将是不同的，例如，“晴朗”天气的光线强度较高而“阴天”天气的光线强度较低。因此，可以在光线视觉表示中至少利用不同的光线强度来反映不同的天气。

光线视觉表示库922可以是预先准备的，其可以包括在特定的场景下与不同的时间和/或天气相对应的大量候选光线视觉表示。在一种实现方式中，可以首先利用3D建模软件来对房屋进行建模，例如，建立当前水平地面、房屋、窗户的等比例模型。可以在高动态范围图像(HDRI)中设置太阳模型。通过更改HDRI中太阳的不同方位角和/或高度角，可以模拟真实世界环境中从早到晚的阳光照射情况。可以在房屋内的特定位置处设置虚拟摄像机以拍摄阳光从房屋外经由窗户照射到房屋内的场景，包括能够反映光线角度的窗户在墙面上的投影、房屋内的光线强度等。可以按照预定效果来构图，并且在动画时间轴中标记不同的太阳方位角和/或高度角的位置。可以利用渲染器来进行场景渲染，以获得跨时间的一系列渲染帧，例如，每个小时产生一个渲染帧等。这些渲染帧可以形成输出场景序列，并且作为候选光线视觉表示而被保存在光线视觉表示库922中。每个候选光线视觉表示可以与特定的时间相对应。

应当理解，尽管在以上的示例中候选光线视觉表示是在仅考虑了时间的情况下来产生的，但是候选光线视觉表示的产生也可以是在考虑了天气的情况下或者是在考虑了时间和天气两者的情况下来产生的。例如，在不同的天气中，渲染器可以以不同的光线强度来进行场景渲染，使得渲染帧中的光线强度可以随着不同的天气而改变。

此外，应当理解，光线视觉表示库922也可以包括多种场景以及在每一种场景下的多个候选光线视觉表示。从而，可以为不同的用户选择不同的场景下的候选光线视觉表示，由此增强多样性和个性化。

根据过程900，由于光线视觉表示库922是基于时间和/或天气来建立的，因此，当实时环境状态信息910中的时间信息914和/或天气信息916发生变化时，可以及时地从光线视觉表示库922中选择与改变了的时间信息和/或天气信息相对应的新的光线视觉表示，以作为经更新的虚拟视觉表示。

此外，为了进一步增强对实时环境状态信息的反映，过程900还可以可选地包括在930处向虚拟视觉表示924中添加第二虚拟视觉表示。例如，可以在虚拟视觉表示924中的预定呈现区域内添加与实时环境状态信息910相对应的第二虚拟视觉表示。第二虚拟视觉表示可以是通过例如图5中的过程500或图7中的过程700所生成的虚拟视觉表示。虚拟视觉表示924中的预定呈现区域可以指适合于呈现第二虚拟视觉表示的区域，例如，窗户等。从而，添加了第二虚拟视觉表示的虚拟视觉表示924可以进而通过第二虚拟视觉表示来反映实时环境状态信息910。

图10示出了根据实施例的虚拟视觉表示的示例。图10中的虚拟视觉表示可以是通过例如图9中的过程900来检索出的。

假设虚拟视觉表示1010是基于时间信息“下午1点”而从光线视觉表示库中选择的。虚拟视觉表示1010包括窗户1002以及窗户1002在墙面上的投影1012。投影1012的角度与当前时间“下午1点”的太阳位置相对应。

随着时间推移，当时间信息变为“下午5点”时，可以从光线视觉表示库中选择出虚拟视觉表示1020。虚拟视觉表示1020具有与虚拟视觉表示1010相同的场景，例如，相同的包含窗户1002的构图。但是，与窗户1002在虚拟视觉表示1010中在墙面上的投影1012相比，窗户1002在虚拟视觉表示1020中在墙面上的投影1022更接近于水平角度。投影1022的角度与当前时间“下午5点”的太阳位置相对应。此外，虚拟视觉表示1020具有比虚拟视觉表示1010更低的光线强度，以反映出时间的变化。

图11示出了根据实施例的虚拟视觉表示的示例。图11中的虚拟视觉表示可以是通过例如图9中的过程900来产生的。此外，图11中的虚拟视觉表示可以是通过向图10中的虚拟视觉表示中添加第二虚拟视觉表示来形成的。

虚拟视觉表示1010′是在图10中的虚拟视觉表示1010的基础上形成的。虚拟视觉表示1010′包括在作为呈现区域的窗户1002中所添加的第二虚拟视觉表示1102。第二虚拟视觉表示1102可以是通过例如图5中的过程500或图7中的过程700所生成的，其反映了实时环境状态信息中的地理位置信息、时间信息和天气信息中至少之一。

虚拟视觉表示1020′是在图10中的虚拟视觉表示1020的基础上形成的。虚拟视觉表示1020′包括在作为呈现区域的窗户1002中所添加的第二虚拟视觉表示1104。第二虚拟视觉表示1104可以是通过例如图5中的过程500或图7中的过程700而从第二虚拟视觉表示1102所更新的，其反映了经更新的实时环境状态信息中的地理位置信息、时间信息和天气信息中至少之一。

应当理解，尽管在以上结合图10和图11所描述的示例中虚拟视觉表示是基于时间信息而从光线视觉表示库中选择的，但是在光线视觉表示库是基于天气或者基于时间和天气两者来建立的情况下，也可以相应地基于天气信息或者基于时间信息和天气信息两者来从光线视觉表示库中选择虚拟视觉表示。

应当理解，尽管以上结合图5、图7和图9讨论了图2中的操作220处的确定虚拟视觉表示的示例性实现方式，但是本公开的实施例并不局限于这些示例性实现方式，而是可以涵盖能够确定与实时环境状态信息相对应的虚拟视觉表示的任何其它实现方式。

图12A和图12B示出了根据实施例的示例性的视频会话的用户界面1200。用户界面1200可以是例如由视频会议服务所创建的视频会议的用户界面。假设参与该视频会话的用户包括Beth、Jane和Eric。用户Beth、Jane和Eric都开启了终端设备的摄像头，授权视频会话服务获取用户地理位置信息，并且在视频会话服务中启动了根据本公开实施例的在视频会话中提供实时虚拟背景的功能。

如图12A所示，用户界面1200包括与用户Beth相对应的用户显示区域1210。在用户显示区域1210中当前显示了根据本公开实施例所生成的混合图像。该混合图像包括用户Beth的实时人物图像1212和根据本公开实施例所生成的实时虚拟背景。该实时虚拟背景至少包括根据本公开实施例所确定的虚拟视觉表示1214。示例性地，该实时虚拟背景可以是根据例如图3中的布局模板320所形成的。如图所示，虚拟视觉表示1214可视化地反映了用户Beth的实时环境状态信息，例如，通过代表性建筑反映了用户Beth的地理位置，通过天空、光线强度等反映了在用户Beth的地理位置处的当前天气“晴朗”和/或当前时间“中午”，等等。此外，如图12A所示，用户界面1200包括与用户Jane相对应的用户显示区域1220。在用户显示区域1220中当前显示了根据本公开实施例所生成的混合图像，其中，该混合图像包括用户Jane的实时人物图像1222和根据本公开实施例所生成的实时虚拟背景，该实时虚拟背景至少包括根据本公开实施例所确定的虚拟视觉表示1224。示例性地，用户Jane的实时虚拟背景可以是根据例如图3中的布局模板310所形成的，并且虚拟视觉表示1224可以是根据例如图11的示例所形成的。虚拟视觉表示1224可视化地反映了用户Jane的实时环境状态信息，例如，通过代表性建筑反映了用户Jane的地理位置，通过天空、光线强度等反映了用Jane的地理位置处的当前天气“阴天”，通过窗户在墙面上的投影和光线强度反映了用户Jane的地理位置处的当前时间“下午”，等等。此外，如图12A所示，用户界面1200包括与用户Eric相对应的用户显示区域1230。在用户显示区域1230中当前显示了根据本公开实施例所生成的混合图像，其中，该混合图像包括用户Eric的实时人物图像1232和根据本公开实施例所生成的实时虚拟背景，该实时虚拟背景至少包括根据本公开实施例所确定的虚拟视觉表示1234。示例性地，用户Eric的实时虚拟背景可以是根据例如图3中的布局模板310所形成的，并且虚拟视觉表示1234可以是根据例如图8的示例所形成的。虚拟视觉表示1234可视化地反映了用户Eric的实时环境状态信息，例如，通过代表性建筑反映了用户Eric的地理位置，通过光线强度反映了用户Eric的地理位置处的当前天气“阴天”和/或当前时间“下午”，等等。

假设随着视频会话的进行，用户Beth、Jane和Eric的实时环境状态信息发生了改变，图12B示出了在每个用户的用户显示区域中呈现的响应于实时环境状态信息的改变而经更新的混合图像。假设在用户Beth的地理位置处的天气从“晴朗”变为“阴天”，并且时间从“中午”变为“下午”。在与用户Beth相对应的用户显示区域1210中呈现的经更新的混合图像包括用户Beth的实时人物图像1216和根据本公开实施例所生成的经更新的实时虚拟背景，其中，该经更新的实时虚拟背景至少包括根据本公开实施例所确定的经更新的虚拟视觉表示1218。用户Beth的经更新的实时虚拟背景仍然采用例如图3中的布局模板320。如图所示，经更新的虚拟视觉表示1218可视化地反映了用户Beth的改变后的实时环境状态信息，例如，通过天空、光线强度等反映了当前天气“阴天”和/或当前时间“下午”。此外，如图12B所示，在与用户Jane相对应的用户显示区域1220中呈现的经更新的混合图像至少包括经更新的虚拟视觉表示1226，其至少反映了在用户Jane的地理位置处的时间从“下午”变为“黄昏”等。此外，如图12B所示，在与用户Eric相对应的用户显示区域1230中呈现的经更新的混合图像至少包括经更新的虚拟视觉表示1236，其至少反映了在用户Eric的地理位置处的天气从“阴天”变为“晴天”等。

应当理解，以上结合图12A和图12B所讨论的用户界面中的所有元素都是示例性的，本公开的实施例并不局限于用户界面的任何特定布局，也并不局限于在用户界面中呈现混合图像的任何特定方式。

图13示出了根据实施例的用于在视频会话中提供实时虚拟背景的示例性方法1300的流程图。

在1310处，可以获得目标用户的实时环境状态信息，所述实时环境状态信息至少包括所述目标用户的地理位置信息。

在1320处，可以确定与所述实时环境状态信息相对应的虚拟视觉表示。

在1330处，可以通过将所述虚拟视觉表示添加到预定布局模板中来形成实时虚拟背景。

在1340处，可以通过组合所述实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的混合图像。

在1350处，可以在所述视频会话的用户界面中的、与所述目标用户相对应的用户显示区域内呈现所述混合图像。

在一种实现方式中，所述实时环境状态信息还可以包括：与所述地理位置信息相对应的时间信息；和/或与所述地理位置信息相对应的天气信息。

在一种实现方式中，所述虚拟视觉表示可以是图像或视频帧。

在一种实现方式中，所述确定虚拟视觉表示可以包括：从基于地理位置的代表性视觉表示库中选择与所述地理位置信息相对应的代表性视觉表示；从基于时间和/或天气的天空视觉表示库中选择与所述实时环境状态信息中的时间信息和/或天气信息相对应的天空视觉表示；以及至少基于所述代表性视觉表示和所述天空视觉表示来生成所述虚拟视觉表示。

在一种实现方式中，所述确定虚拟视觉表示可以包括：从基于地理位置的代表性视觉表示库中选择与所述地理位置信息相对应的代表性视觉表示；以及通过将所述实时环境状态信息中的时间信息和/或天气信息作为影响因子，基于所述代表性视觉表示来生成所述虚拟视觉表示。

在一种实现方式中，所述确定虚拟视觉表示可以包括：从基于时间和/或天气的光线视觉表示库中选择与所述实时环境状态信息中的时间信息和/或天气信息相对应的光线视觉表示，以作为所述虚拟视觉表示。

方法1300还可以包括：在所述虚拟视觉表示中的预定呈现区域内添加与所述实时环境状态信息相对应的第二虚拟视觉表示。

在一种实现方式中，所述预定布局模板可以至少定义了用于呈现所述虚拟视觉表示的以下方式中至少之一：平铺所述虚拟视觉表示；以及在所述预定布局模板中的预定呈现区域内呈现所述虚拟视觉表示。

在一种实现方式中，方法1300还可以包括：获得所述目标用户的出现场所信息。所述预定布局模板可以包括与所述出现场所信息相对应的视觉元素。

在一种实现方式中，方法1300还可以包括：获得经由摄像头所捕获的所述目标用户的实时摄像头视角图像；以及从所述实时摄像头视角图像中提取所述目标用户的所述实时人物图像。

在一种实现方式中，方法1300还可以包括迭代地执行以下操作：获得所述目标用户的经更新的实时环境状态信息；确定与所述经更新的实时环境状态信息相对应的经更新的虚拟视觉表示；通过将所述经更新的虚拟视觉表示添加到所述预定布局模板中来形成经更新的实时虚拟背景；通过组合所述经更新的实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的经更新的混合图像；以及在所述用户显示区域内呈现所述经更新的混合图像。

应当理解，方法1300还可以包括根据上述本公开实施例的用于在视频会话中提供实时虚拟背景的任何步骤/过程。

图14示出了根据实施例的用于在视频会话中提供实时虚拟背景的示例性装置1400。

装置1400可以包括：实时环境状态信息获得模块1410，用于获得目标用户的实时环境状态信息，所述实时环境状态信息至少包括所述目标用户的地理位置信息；虚拟视觉表示确定模块1420，用于确定与所述实时环境状态信息相对应的虚拟视觉表示；实时虚拟背景形成模块1430，用于通过将所述虚拟视觉表示添加到预定布局模板中来形成实时虚拟背景；混合图像形成模块1440，用于通过组合所述实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的混合图像；以及混合图像呈现模块1450，用于在所述视频会话的用户界面中的、与所述目标用户相对应的用户显示区域内呈现所述混合图像。此外，装置1400还可以包括被配置用于执行根据上述本公开实施例的用于在视频会话中提供实时虚拟背景的方法的任何步骤/过程的任何其它模块。

图15示出了根据实施例的用于在视频会话中提供实时虚拟背景的示例性装置1500。

装置1500可以包括至少一个处理器1510。装置1500还可以包括与至少一个处理器1510连接的存储器1520。存储器1520可以存储计算机可执行指令，当所述计算机可执行指令被执行时，使得至少一个处理器1510：获得目标用户的实时环境状态信息，所述实时环境状态信息至少包括所述目标用户的地理位置信息；确定与所述实时环境状态信息相对应的虚拟视觉表示；通过将所述虚拟视觉表示添加到预定布局模板中来形成实时虚拟背景；通过组合所述实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的混合图像；以及在所述视频会话的用户界面中的、与所述目标用户相对应的用户显示区域内呈现所述混合图像。

所述计算机可执行指令在被执行时还可以使得所述至少一个处理器1510：在所述虚拟视觉表示中的预定呈现区域内添加与所述实时环境状态信息相对应的第二虚拟视觉表示。

在一种实现方式中，所述计算机可执行指令在被执行时还可以使得所述至少一个处理器1510：获得所述目标用户的出现场所信息。所述预定布局模板可以包括与所述出现场所信息相对应的视觉元素。

在一种实现方式中，所述计算机可执行指令在被执行时还可以使得所述至少一个处理器1510迭代地执行以下操作：获得所述目标用户的经更新的实时环境状态信息；确定与所述经更新的实时环境状态信息相对应的经更新的虚拟视觉表示；通过将所述经更新的虚拟视觉表示添加到所述预定布局模板中来形成经更新的实时虚拟背景；通过组合所述经更新的实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的经更新的混合图像；以及在所述用户显示区域内呈现所述经更新的混合图像。

此外，所述至少一个处理器1510还可以被配置为执行根据上述本公开实施例的用于在视频会话中提供实时虚拟背景的方法的任何其它步骤/过程。

本公开的实施例提出了用于在视频会话中提供实时虚拟背景的计算机程序产品。所述计算机程序产品可以包括计算机程序，所述计算机程序被至少一个处理器运行用于：获得目标用户的实时环境状态信息，所述实时环境状态信息至少包括所述目标用户的地理位置信息；确定与所述实时环境状态信息相对应的虚拟视觉表示；通过将所述虚拟视觉表示添加到预定布局模板中来形成实时虚拟背景；通过组合所述实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的混合图像；以及在所述视频会话的用户界面中的、与所述目标用户相对应的用户显示区域内呈现所述混合图像。所述计算机程序还可以被所述至少一个处理器运行用于执行根据上述本公开实施例的用于在视频会话中提供实时虚拟背景的方法的任何其它步骤/过程。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于在视频会话中提供实时虚拟背景的方法的任何步骤/过程。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

另外，除非另有规定或者从上下文能清楚得知针对单数形式，否则如本说明书和所附权利要求书中所使用的冠词“一(a)”和“一个(an)”通常应当被解释为意指“一个”或者“一个或多个”。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

Claims

1.一种用于在视频会话中提供实时虚拟背景的方法，包括：

获得目标用户的实时环境状态信息，所述实时环境状态信息至少包括所述目标用户的地理位置信息；

确定与所述实时环境状态信息相对应的虚拟视觉表示；

通过将所述虚拟视觉表示添加到预定布局模板中来形成实时虚拟背景；

通过组合所述实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的混合图像；以及

在所述视频会话的用户界面中的、与所述目标用户相对应的用户显示区域内呈现所述混合图像。

2.如权利要求1所述的方法，其中，所述实时环境状态信息还包括：

与所述地理位置信息相对应的时间信息；和/或

与所述地理位置信息相对应的天气信息。

3.如权利要求1所述的方法，其中，

所述虚拟视觉表示是图像或视频帧。

4.如权利要求1所述的方法，其中，所述确定虚拟视觉表示包括：

从基于地理位置的代表性视觉表示库中选择与所述地理位置信息相对应的代表性视觉表示；

从基于时间和/或天气的天空视觉表示库中选择与所述实时环境状态信息中的时间信息和/或天气信息相对应的天空视觉表示；以及

至少基于所述代表性视觉表示和所述天空视觉表示来生成所述虚拟视觉表示。

5.如权利要求1所述的方法，其中，所述确定虚拟视觉表示包括：

从基于地理位置的代表性视觉表示库中选择与所述地理位置信息相对应的代表性视觉表示；以及

通过将所述实时环境状态信息中的时间信息和/或天气信息作为影响因子，基于所述代表性视觉表示来生成所述虚拟视觉表示。

6.如权利要求1所述的方法，其中，所述确定虚拟视觉表示包括：

从基于时间和/或天气的光线视觉表示库中选择与所述实时环境状态信息中的时间信息和/或天气信息相对应的光线视觉表示，以作为所述虚拟视觉表示。

7.如权利要求6所述的方法，还包括：

在所述虚拟视觉表示中的预定呈现区域内添加与所述实时环境状态信息相对应的第二虚拟视觉表示。

8.如权利要求1所述的方法，其中，所述预定布局模板至少定义了用于呈现所述虚拟视觉表示的以下方式中至少之一：

平铺所述虚拟视觉表示；以及

在所述预定布局模板中的预定呈现区域内呈现所述虚拟视觉表示。

9.如权利要求1所述的方法，还包括：

获得所述目标用户的出现场所信息，并且

其中，所述预定布局模板包括与所述出现场所信息相对应的视觉元素。

10.如权利要求1所述的方法，还包括：

获得经由摄像头所捕获的所述目标用户的实时摄像头视角图像；以及

从所述实时摄像头视角图像中提取所述目标用户的所述实时人物图像。

11.如权利要求1所述的方法，还包括迭代地执行以下操作：

获得所述目标用户的经更新的实时环境状态信息；

确定与所述经更新的实时环境状态信息相对应的经更新的虚拟视觉表示；

通过将所述经更新的虚拟视觉表示添加到所述预定布局模板中来形成经更新的实时虚拟背景；

通过组合所述经更新的实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的经更新的混合图像；以及

在所述用户显示区域内呈现所述经更新的混合图像。

12.一种用于在视频会话中提供实时虚拟背景的装置，包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使得所述至少一个处理器：

获得目标用户的实时环境状态信息，所述实时环境状态信息至少包括所述目标用户的地理位置信息，

确定与所述实时环境状态信息相对应的虚拟视觉表示，

通过将所述虚拟视觉表示添加到预定布局模板中来形成实时虚拟背景，

通过组合所述实时虚拟背景与所述目标用户的实时人物图像来形成与所述目标用户相对应的混合图像，以及

13.如权利要求12所述的装置，其中，所述确定虚拟视觉表示包括：

14.如权利要求12所述的装置，其中，所述确定虚拟视觉表示包括：

15.如权利要求12所述的装置，其中，所述确定虚拟视觉表示包括：

16.如权利要求15所述的装置，其中，所述计算机可执行指令在被执行时还使得所述至少一个处理器：

17.如权利要求12所述的装置，其中，所述预定布局模板至少定义了用于呈现所述虚拟视觉表示的以下方式中至少之一：

平铺所述虚拟视觉表示；以及

18.如权利要求12所述的装置，其中，所述计算机可执行指令在被执行时还使得所述至少一个处理器：

获得所述目标用户的出现场所信息，并且

19.如权利要求12所述的装置，其中，所述计算机可执行指令在被执行时还使得所述至少一个处理器迭代地执行以下操作：

获得所述目标用户的经更新的实时环境状态信息；

在所述用户显示区域内呈现所述经更新的混合图像。

20.一种用于在视频会话中提供实时虚拟背景的计算机程序产品，包括计算机程序，所述计算机程序被至少一个处理器运行用于：

确定与所述实时环境状态信息相对应的虚拟视觉表示；