CN114598835A

CN114598835A - 用于显示参与通信会话的用户的系统和方法

Info

Publication number: CN114598835A
Application number: CN202111482914.2A
Authority: CN
Inventors: F·C·马丁内斯普波德奥利维拉; D·M·伊奇; R·T·奎罗斯; B·科埃略; R·G·达马切诺卡沃内
Original assignee: Avaya Management LP
Current assignee: Avaya Management LP
Priority date: 2020-12-07
Filing date: 2021-12-07
Publication date: 2022-06-07
Also published as: US11792353B2; JP2022090644A; DE102021213661A1; US20220182557A1

Abstract

本公开涉及用于显示参与通信会话的用户的系统和方法。本公开的系统和方法包括：利用第一用户设备的处理器从第一相机接收第一图像，利用所述处理器从网络位置接收第一实况视频流，利用所述处理器通过将从网络位置接收的第一实况视频流的一部分叠加到从第一相机接收的第一图像上来实时生成实况图像，以及利用所述处理器显示所生成的实况图像。

Description

用于显示参与通信会话的用户的系统和方法

技术领域

本公开总体涉及通信应用，更具体地，涉及以沉浸式和用户友好的方式在通信会话中呈现用户。

背景技术

随着诸如智能电话、平板电脑、计算机等电子用户设备变得越来越普遍，人们之间的通信越来越多地经由诸如FaceTime、Skype、Zoom、GoToMeeting等远程语音和视频通信应用来进行。世界各地越来越多的用户正在采用远程工作文化。为了有效地协作，用户使用许多语音/视频会议解决方案。除了简单的一对一通信会话外，语音和视频通信还经常在大量的人之间进行。例如，商务会议常常在不要求与会者亲自到场的情况下进行。

互联网上的语音和视频通信使实时对话成为可能。一个通信会话可以在多个参与者之间进行。每个参与者可以具有他或她自己的相机和/或麦克风，从而被其他参与者看到并与其他参与者交谈。在许多当代视频和/或音频通信应用中，参与者的数量没有限制，每个参与者都可以随时发言。

今天，用户可以在多种通信系统之间进行选择，这些通信系统能够连接人们，并帮助那些不能或不允许亲身面对他人的人。例如，由于诸如Covid-19(新冠肺炎)之类的流行病引发隔离限制，探望或会见隔离的人(诸如患者或亲属)可能具有挑战性。

虽然参与者在通信会话期间远程交谈和看到对方的能力为高效通信提供了巨大的潜力，但是通信会话的远程性带来了一些负面因素。用户常常会远程参加商务会议或技术讨论会议，或者在无法亲身面对对方时与家人交谈和看望家人。当用户远程通信时，用户被迫通过用户界面窗口中的显示器看到对方。每个用户都以他或她的相机记录的样子呈现。

这样的显示降低了通信会话的参与者的体验质量，因为无法逃脱如下认识：每个用户都在与其他用户相隔一段距离的分开位置，导致打破面对面聊天的沉浸式感觉的分离。这样的分离会极大地限制通信会话的趣味性和有效性。

当代一些让长距离通信感觉像是近距离面对面访拜访的尝试涉及使用多个相机或LiDAR系统来创建全息图，或者使用化身将每个用户呈现在虚拟世界中。这类系统要么过于复杂，要么无法呈现用户友好且沉浸式的体验。所需要的是一种简单的系统，其不需要超出日常的技术来呈现用户友好且沉浸式的视频通信会话。这样的通信系统应该能够解决传统通信系统的上述问题。

附图说明

图1是根据本公开的一个或多个实施例的用于实现通信会话的第一例示性系统的框图；

图2A是根据本公开的一个或多个实施例的用于执行通信会话的用户设备系统的框图；

图2B是根据本公开的一个或多个实施例的用于执行通信会话的服务器的框图；

图3是根据本公开的一个或多个实施例的用于执行通信会话的用户设备系统的框图；

图4A是根据本公开的一个或多个实施例的相机视图的图示；

图4B是根据本公开的一个或多个实施例的相机视图的图示；

图4C是根据本公开的一个或多个实施例的用户界面的图示；

图4D是根据本公开的一个或多个实施例的用户界面的图示；

图5A是根据本公开的一个或多个实施例的相机视图的图示；

图5B是根据本公开的一个或多个实施例的相机视图的图示；

图5C是根据本公开的一个或多个实施例的相机视图的图示；

图5D是根据本公开的一个或多个实施例的用户界面的图示；

图6是根据本公开的一个或多个实施例的过程的流程图；

图7是根据本公开的一个或多个实施例的过程的流程图；

图8是根据本公开的一个或多个实施例的过程的流程图。

具体实施方式

本公开的各种实施例和配置解决了关于当代通信应用的上述问题和其他需求。如本文所述，可以在两个或更多个用户之间建立通信会话。参与通信会话的一个或多个用户可以使用包括后置相机的用户设备。后置相机可以用来捕获用户环境的图像，例如实况视频。后置相机拍摄的图像可以用作背景图像，用于在通信会话中显示其他用户的增强现实视图。例如，在用户看来，通信会话中的其他用户被呈现在用户自己的环境中。本文描述的这种系统向参与通信会话的用户提供丰富的体验。

短语“至少一个”、“一个或多个”、“或”、“和/或”是在操作中既是合取又是析取的开放式表达式。例如，表达“A、B和C中的至少一个”、“A、B或C中的至少一个”、“A、B和C中的一个或多个”、“A、B或C中的一个或多个”、“A、B和/或C”，以及“A、B或C”均意为仅A、仅B、仅C、A和B一起、A和C一起、B和C一起、或A、B和C一起。

术语“一”或“一个”实体指的是一个或多个该实体。因此，术语“一”(或“一个”)、“一个或多个”和“至少一个”在本文可以互换使用。还应注意的是，术语“包括”、“包含”和“具有”可以互换使用。

本文使用的术语“自动”及其变体指的是在执行过程或操作时在没有实质性人工输入的情况下完成的任何过程或操作(通常是连续或半连续的)。然而，即使过程或操作的执行使用实质性或非实质性的人工输入，但是如果输入是在过程或操作的执行之前接收的，则该过程或操作也可以是自动的。如果人工输入影响到流程或操作将如何被执行，则认为这种输入是实质性的。同意流程或操作的执行的人工输入不被认为是“实质性的”。

本公开的各方面可以采取完全硬件实施例、完全软件(包括固件、驻留软件、微代码等)实施例、或结合软件和硬件方面(其在本文都可以一般地称为“电路”、“模块”或“系统”)的实施例的形式。可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。

计算机可读存储介质可以是例如但不限于电子、磁、光、电磁、红外或半导体系统、装置或设备，或前述的任何适当组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下各项：具有一条或多条导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或上述设备的任何适当组合。在本文档的语境中，计算机可读存储介质可以是能包含或存储由指令执行系统、装置或设备使用或结合指令执行系统、装置或设备使用的程序的任何有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的数据信号，其中含有计算机可读程序代码。这样的传播信号可以采取各种形式中的任何一种，包括但不限于电磁、光学或其任何适当的组合。计算机可读信号介质可以是任何计算机可读介质，该计算机可读介质不是计算机可读存储介质，并且可以传送、传播或传输由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。计算机可读介质上所含的程序代码可以使用任何适当的介质来传输，包括但不限于无线、有线、光纤电缆、RF等，或者前述的任何适当的组合。

本文使用的术语“确定”、“计算”和“运算”及其变体可互换使用，且包括任何类型的方法、过程、数学运算或技术。

根据35U.S.C.第112(f)节和/或第112节第6款，本文使用的术语“用于…部件”应被赋予可能的最广泛的解释。因此，包含术语“用于…部件”的权利要求应涵盖本文所陈述的所有结构、材料或行为及其所有等同。此外，结构、材料或行为及其等同应包括发明内容、附图说明、具体实施方式、摘要和权利要求本身中描述的所有内容。

上文是提供对本公开的某些方面的理解的简要总结。该总结既不是对本公开及其各种实施例的广泛概述也不是详尽概述。它既不旨在标识本公开的关键或重要元素，也不旨在划定本公开的范围，而是以简化的形式呈现本公开的选定概念，作为对下面呈现的具体实施方式的介绍。如将理解的，本公开的其他实施例可以单独或组合地利用上面阐述或下面详细描述的一个或多个特征。此外，虽然本公开是按照示例性实施例来呈现的，但是应当认识到，本公开的单独方面可以分开保护。

图1是根据本文描述的一个或多个实施例的用于一个或多个用户之间的通信会话的第一例示性系统100的框图。第一例示性系统100包括用户通信设备101A、101B和网络110。此外，还示出了用户126A、126B。

用户通信设备101A、101B可以是或可以包括能在网络110上通信的任何用户设备，诸如个人计算机(“PC”)、视频电话、视频会议系统、蜂窝电话、个人数字助理(“PDA”)、平板设备、笔记本设备、智能电话等。用户通信设备101A、101B是通信会话结束的设备。尽管为了方便起见，在图1中仅示出了两个用户通信设备101A、101B，但是可以将任意数量的用户通信设备101连接到网络110以建立通信会话。

用户通信设备101A、101B中的每一个还可以包括通信应用102A、102B，显示器103A、103B，相机104A、104B和麦克风106A、106B。应当认识到，在一些实施例中，根据本文描述的实施例使用的某些用户设备可能没有相机。在本公开的某些实施例中，第一用户设备可以包括前置相机和后置相机。在一些实施例中，用户设备可以包括后置相机而不包括前置相机，反之亦然。此外，虽然为了方便起见未示出，但是用户通信设备101A、101B通常包括其他元件，诸如微处理器、麦克风、浏览器、其他应用等。

显示器103A、103B可以是或可以包括能显示视频会议的图像的任何硬件显示/投影系统，诸如LED显示器、等离子显示器、投影仪、液晶显示器、阴极射线管等。显示器103A-103B可以用于显示作为通信应用102A-102B的一部分的用户界面。

此外，用户通信设备101A、101B还可以包括(多个)其他应用105A、105B。(多个)其他应用105A可以是任何应用，诸如幻灯片演示应用、文档编辑器应用、文档显示应用、图形编辑应用、计算器、电子邮件应用、电子表格、多媒体应用、游戏应用等。通信应用102A、102B可以是或可以包括可管理给用户126A、126B显示的通信会话的任何硬件/软件。例如，通信应用102A、102B可以用于建立和显示通信会话。

例如，麦克风106A、106B可以包括将来自用户或来自用户通信设备101A、101B周围环境的声音转换成电信号的设备，诸如换能器。在一些实施例中，麦克风106A、106B可以包括动态麦克风、电容式麦克风、接触式麦克风、麦克风阵列或能够将声音转换为信号的任何类型的设备。

用户通信设备101A、101B还可以包括一个或多个其他应用105A、105B。(多个)其他应用105A、105B可以与通信应用102A、102B一起工作。

网络110可以是或可以包括能发送和接收电子通信()的任何通信设备集合，诸如因特网、广域网(WAN)、局域网(LAN)、IP语音网络(VoIP)、公共交换电话网(PSTN)、分组交换网络、电路交换网络、蜂窝网络、这些网络的组合等。网络110可以使用各种电子协议，诸如以太网、网际协议(IP)、会话发起协议(SIP)、H.323、视频协议、音频协议、综合业务数字网(ISDN)等。因此，网络110是被配置为经由分组和/或电路交换通信来承载消息的电子通信网络。

用户设备101A、101B和服务器111可以使用网络进行通信。在通信会话期间，诸如数字或模拟音频信号或包括音频和视频数据的数据116A可以经由用户设备101A发送和/或接收，数据116B可以经由服务器111发送和/或接收，数据116C可以经由用户设备101B发送和/或接收。

服务器111可以包括能在网络110上通信的任何类型的计算机设备，诸如服务器、基于云的系统、个人计算机(“PC”)、视频电话、视频会议系统、蜂窝电话、个人数字助理(“PDA”)、平板设备、笔记本设备、智能电话等。尽管为了方便起见，在图1中仅示出了一个服务器111，但是可以将任意数量的服务器111连接到网络110以建立通信会话。

服务器111还可以包括通信应用112、(多个)数据库113、分析应用114、(多个)其他应用115，以及(虽然出于方便起见未示出)诸如微处理器、专用媒体处理器、浏览器应用等的其他元件。

在一些实施例中，服务器111可以包括图像分析引擎117。图像分析引擎117可以负责图像分析和处理。例如，当从参与通信会话的用户设备101A、101B接收到图像信号时，图像分析引擎117可以处理图像信号以从诸如背景的其他图像中过滤或以其他方式分离出包括用户面部或身体的图像。图像分析引擎117可以执行能够识别面部或身体或以其他方式区分人和其他视觉数据的一个或多个人工智能算法或子系统。

图2A和2B示出了在本文描述的某些实施例中使用的示例性用户设备201A和服务器201B的组件。在一些实施例中，用户设备201A可以包括处理器202A、存储器203A和输入/输出设备204A。类似地，服务器201B可以包括处理器202B、存储器203B和输入/输出设备204B。

处理器202A、202B可以包括一个或多个处理器和/或微处理器。如本文所使用的，处理器可以指单个处理器或微处理器，或者一起操作的多个处理器和/或微处理器。处理器202A、202B能够执行本文描述的软件和方法步骤。例如，处理器202A、202B可以被配置为在计算机设备的显示器上显示用户界面。用户设备201A、201B的存储器203A、203B可以包括配置有用于处理器202A、202B的操作以执行本文描述的步骤的指令的存储器、数据存储设备或其他非瞬态存储设备。因此，过程可以被实现为机器可读和机器可执行代码，用于由处理器执行以执行本文的步骤以及可选的其他处理任务。输入/输出设备204A、204B可以包括但不应被认为限于键盘、鼠标、麦克风、相机、触摸屏设备、显示设备、网卡等。

例示性地，用户通信设备101A、101B，服务器111，通信应用，显示器，(多个)应用可以是存储的程序控制实体，诸如计算机或微处理器，其通过执行存储在诸如存储器(即，计算机存储器、硬盘等)的计算机可读存储介质中的程序指令来执行图7的方法和本文描述的过程。尽管图7中描述的方法以特定顺序示出，但是本领域技术人员将认识到，图7中的步骤可以以不同的顺序实现和/或在多线程环境中实现。此外，可以根据实现方式而省略或添加各种步骤。

在一些实施例中，通信会话可以包括使用诸如视频会议应用之类的通信应用在因特网上通信的用户设备101A、101B的两个或更多个用户。例如，本文描述的系统和方法可以应用于任何类型的视频聊天应用，诸如FaceTime^TM、Skype^TM、Zoom^TM、Avaya Spaces^TM，或其中两个或更多个用户使用视频通信的其他系统。

由于将参与通信会话的用户的视频信号分离成用户图像和背景图像的处理能力要求，在一些实施例中，由用户设备(即，在客户端)处理视频信号可能是不切实际的。取而代之的是，可以将完整的视频信号传输到托管通信会话的服务器，从而消耗比在传输之前处理视频信号所需的更高网络带宽。使用服务器执行本文描述的视频分析过程可能同样不切实际，因为可能需要通过多次迭代来执行复杂的深度学习算法，以便如本文描述的那样准确地将视频的适当部分与视频信号的其余部分分开。

如本文所述，可以使用本文描述的系统和方法向通信会话的参与者提供更丰富的体验。如本文所述，诸如用户设备之类的计算机系统可以用于执行视频会议或通信会话。例如，参与视频通信会话的每个用户可以使用诸如智能电话、平板电脑或计算机之类的用户设备。每个用户设备可以具有一个或多个相机。在示例性实施例中，第一用户可以使用具有前置相机和后置相机的第一用户设备，诸如常规的智能电话、膝上型计算机或平板电脑。在视频通信会话期间，前置相机可以用于记录包括第一用户面部的第一视频信号，后置相机可以用于记录包括第一用户正在参与视频通信会话的环境的第二视频信号。

例如，假设第一用户坐在会议室的桌头。第一用户可以使用第一用户设备(诸如在第一用户前面的桌子上的膝上型计算机或第一用户手持的智能电话)来加入通信会话。参与通信会话的其他用户可以在使用其他用户设备的其他房间中。第一用户使用的用户设备可以具有指向第一用户的第一相机和背向第一用户的第二相机。第二相机可以从第一用户的角度捕获会议室的视图。参与通信会话的其他用户可以由指向其面部的相机来记录。其他用户拍摄的视频信号可以通过用户设备发送到第一个人的用户设备。使用本文描述的系统或方法，可以为会议室中的第一用户呈现由第一用户的用户设备、服务器或另一用户设备创建的新创建图像。新创建图像可以使用由背向第一用户的第二相机拍摄的视频信号作为背景，并且可以使用由参与通信会话的每个其他用户的每个用户设备拍摄的每个视频信号的一部分作为前景。由参与通信会话的每个用户的每个用户设备拍摄的每个视频信号的部分可以是裁剪视频，使得在新创建图像中使用的部分仅包括视频中的用户的面部或图像，而不是包括任何类型的非人图像。

如图3中所示，用户318和环境303可以使用用户设备306。用户设备306可以包括前置相机309、后置相机312和显示设备315。在一些实施例中，用户设备306可以是智能电话，也可以是手持的。应当认识到，用户设备306可以采用几乎任何类型的能够捕获图像的用户设备的形式。在一些实施例中，用户设备可以包括用户设备外部的相机。例如，用户设备可以无线地或通过有线连接与一个或多个相机通信。前置相机309可以捕获用户318的图像，而后置相机312可以捕获环境303的一部分321。例如，如果用户318坐在起居室中，则后置相机312可以捕获起居室的沙发或桌子或其他特征。

图4A-4D示出了第一用户在通信会话中与第二用户交谈的示例性实施例。图4A示出了与第一用户相关联的用户设备的后置相机312的视图403。为了说明的目的，视图403被简化为点域，但是应当认识到，后置相机312的视图403可以包括由相机记录的任何视觉图像。例如，后置相机312可以捕获有人或没有人的会议室、起居室或其他类型的环境。

图4B示出了包括由第二用户409使用的用户设备的相机捕获的参与通信会话的第二用户409的图像的视图406。为了说明的目的，视图406的背景被示为一系列垂直线，但是应当认识到，包括第二用户409的视图406的背景可以简单地是由第二用户的用户设备上的前置相机捕获的任何视图。

图4C和4D示出了在与第二用户交谈的同时向参与通信会话的第一用户显示的用户界面的两个示例性实施例。如图4C所示，用户界面433可以显示第二用户409的图像，其背景为如图4A中所示的与第一用户相关联的用户设备的后置相机312的视图403。用户界面433还可以包括由与第一用户439相关联的用户设备的前置相机接收的视频信号的视觉表示。

如图4D中所示，类似于图4C，用户界面442可以显示第二用户409的图像，其背景是如图4A中所示的与第一用户相关联的用户设备的后置相机312的视图403。用户界面442还可以包括由与第一用户451相关联的用户设备的前置相机接收的视频信号的视觉表示。在图4D所示的实施例中，第二用户409的图像可以叠加到虚拟身体或化身445上。以这种方式，在第二用户使用的用户设备的相机没有捕获到第二用户的全身的情况下，可以在第一用户的环境中自然地示出第二用户。

在本公开的一些实施例中，第一用户可以与多个其他用户通信，并且被呈现如下视频图像：该视频图像在由与第一用户相关联的用户设备的后置相机捕获的第一用户的环境中示出多个其他用户中的每一个用户。为了继续图4A的示例，其中与第一用户相关联的第一用户设备的后置相机捕获视频图像403，第二用户设备可以捕获如图5A中所示的包括第二用户506的第二视频图像503，第三用户设备可以捕获如图5B中所示的包括第三用户512的第三视频图像509，第四用户设备可以捕获如图5C中所示的包括第四用户518的第四视频图像515。应当认识到，第二、第三和第四视频图像503、509和515均可以包括各种背景图像。在第一、第二、第三和第四用户之间的通信期间，可以向第一用户示出用户界面521，该用户界面521显示设置在由与第一用户相关联的第一用户设备的后置相机捕获的视频图像403上的第二用户506的第一编辑视频图像527、第三用户512的第二编辑视频图像530和第四用户518的第三编辑视频图像533。用户接口521还可以包括视频信号的显示524，其包括由与第一用户相关联的第一用户设备的前置相机捕获的第一用户。

可以通过如图6所示的方法600来实现通信会话的上述实施例，其中在本地的用户设备的相机捕获的环境中显示其他地方的用户。如图6中所示，执行通信会话的过程可以由用户设备的处理器来执行。在一些实施例中，处理器可以在诸如智能电话或个人计算机之类的用户设备中。方法600中使用的用户设备包括一个或多个相机和/或与一个或多个相机通信。在一些实施例中，可以使用服务器或其他联网设备的处理器。图6的过程可以在步骤603开始，在步骤603中已经建立了两个或更多个用户设备之间的通信会话。通信会话可以是例如使用视频会议通信应用的视频会议。

在步骤606，用户设备的处理器可以从相机捕获图像。在一些实施例中，相机可以是用户设备的后置相机。在一些实施例中，相机可以在用户设备的外部。该图像可以是视频信号或可以是静止图像。可选地，用户设备还可以从第二相机捕获图像，诸如使用前置相机的用户设备的用户的图像。用户设备还可以从用户设备的麦克风或从分开的用户设备捕获音频信号。例如，在加入通信会话时，参与通信会话的用户的用户设备可以激活麦克风和一个或多个相机。麦克风可以开始收集可由处理器接收的音频数据。相机可以开始收集可由处理器接收的图像数据。音频信息可以经由网络连接发送并由分开设备的处理器接收。来自一个或多个相机的图像数据可以经由网络连接发送，或者可以首先如本文所述进行处理。从相机接收的图像可以被描述为环境图像或背景图像。应当认识到，当使用单词图像时，环境图像或背景图像可以包括实况视频流。

在步骤609，用户设备可以经由网络连接接收一个或多个图像。例如，可以从参与通信会话的用户的一个或多个其他用户设备发送图像。经由网络连接接收的图像可以是通信会话中参与者的实况视频图像。

在步骤612，用户设备的处理器可以处理经由网络连接接收的一个或多个图像。处理图像可以包括使用图像分析应用或算法来检测接收的图像中的人像的存在。例如，可以使用诸如卷积神经网络之类的神经网络算法来检测图像中的人体或面部。处理图像还可以包括提取检测到的人像。

例如，可以从接收的图像中移除所有背景图像，仅留下人像。在一些实施例中，可以从图像中提取面部，而在其他实施例中，可以提取所有人像。例如，处理器可以能够接收包括背景图像或其他图像前面或当中的人像的图像信号。处理器可以能够将人与图像的其余部分分开，以生成提取的人的图像。

在多于两个用户之间的通信会话的情况下，处理器可以在从参与通信会话的每个用户设备接收的每个图像中提取人。应当认识到，每个图像可以包含多于一个人，例如两个人可以共享单个用户设备以参与通信会话。在这种情况下，处理器可以从图像中提取所有人。还应当认识到，虽然使用了词语“人”和“人像”，但也可以使用相同的过程来提取诸如动物之类的其他图像。

在步骤615，处理器可以使用步骤612的一个或多个经处理的图像和在步骤606中从相机接收的图像来创建叠加图像。在一些实施例中，创建叠加图像可以包括将从经由网络连接接收的图像中提取的用户图像叠加到从相机接收的图像上。在一些实施例中，创建叠加图像可以包括在从相机接收的图像上生成身体的视觉表示(诸如化身)，并且将从经由网络连接接收的图像中提取的用户面部叠加到身体的视觉表示上，例如，如图4D中所示。在一些实施例中，用户可以能够选择要在过程600中使用的化身。例如，可以向用户呈现显示化身选项的菜单。用户可以能够选择化身选项中的哪个化身应当用于用户的身体视觉表示。应当认识到，在步骤615中创建的叠加图像可以是视频图像，并且在步骤606中从相机接收的背景图像和在步骤609中接收的用户图像中的每一个可以以例如每秒60帧的帧速率被持续刷新。

在步骤615中生成叠加图像之后，过程600可以包括在步骤621中在用户设备的显示设备上显示叠加图像。在一些实施例中，也可以显示由前置相机拍摄的图像，例如，如图4C和4D中所示。过程600可以在步骤621结束。

上述通信会话的实施例也可以通过如图7中所示的由托管通信会话的服务器的处理器执行的方法700来实现，其中在由本地用户设备的相机捕获的环境中显示其他地方的用户。如图7中所示，执行通信会话的过程可以由服务器的处理器执行。图7的过程可以在步骤703开始，在步骤703中已经建立了两个或更多个用户设备之间的通信会话。通信会话可以由服务器托管。方法700中使用的用户设备可以包括一个或多个相机和/或与一个或多个相机通信。通信会话可以是例如使用视频会议通信应用的视频会议。

在步骤706，服务器的处理器可以经由网络连接从相机接收图像。例如，在一些实施例中，相机可以是用户设备的后置相机。在一些实施例中，相机可以在用户设备的外部。该图像可以是视频信号或可以是静止图像。在一些实施例中，处理器可以从参与通信会话的每个用户设备接收来自后置相机的图像。以这种方式，在过程结束时，可以向每个用户呈现使用由他或她自己的用户设备的后置相机拍摄的背景图像的叠加图像。来自一个或多个相机的图像数据可以经由网络连接发送到服务器，或者可以首先如本文所述进行处理。从相机接收的图像可以被描述为环境图像或背景图像。应当认识到，当使用“图像”这个词时，环境图像或背景图像可以包括实况视频流。

在步骤709，服务器可以经由网络连接接收一个或多个图像。例如，可以从参与通信会话的用户的一个或多个用户设备发送图像。经由网络连接接收的图像可以是通信会话中参与者的实况视频图像。图像可以是由参与通信会话的用户的用户设备的前置相机记录的。

在步骤712，服务器的处理器可以处理经由网络连接接收的一个或多个图像。处理图像可以包括使用图像分析应用或算法来检测接收的图像中的人像的存在。例如，可以使用诸如卷积神经网络之类的神经网络算法来检测图像中的人体或面部。处理图像还可以包括提取检测到的人像。

例如，可以从接收的图像中移除所有背景图像，只留下人像。在一些实施例中，可以从图像中提取面部，而在其他实施例中，可以提取所有人像。例如，处理器可以能够接收包括背景图像或其他图像前面或当中的人像的图像信号。处理器可以能够将人与图像的其余部分分开，以生成提取的人的图像。

在多于两个用户之间的通信会话的情况下，处理器可以在从参与通信会话的每个用户设备接收的每个图像中提取人。应当认识到，每个图像可以包含多于一个人，例如两个人可以共享单个用户设备以参与通信会话。在这种情形中，处理器可以从图像中提取所有人。还应当认识到，虽然使用了词语“人”和“人像”，但也可以使用相同的过程来提取诸如动物之类的其他图像。

在步骤715，服务器的处理器可以使用步骤712的一个或多个经处理的图像和在步骤706从相机接收的图像来创建叠加图像。在一些实施例中，创建叠加图像可以包括将从经由网络连接接收的图像中提取的用户图像叠加到从相机接收的图像上。在一些实施例中，创建叠加图像可以包括在从相机接收的图像上生成身体的视觉表示(诸如化身)，并且将从经由网络连接接收的图像中提取的用户面部叠加到身体的视觉表示上，例如，如图4D中所示。应当认识到，在步骤715中创建的叠加图像可以是视频图像，并且在步骤706中从相机接收的背景图像和在步骤709中接收的用户图像中的每一个可以以例如每秒60帧的帧速率被持续刷新。

在一些实施例中，服务器可以为参与通信会话的每个用户设备生成不同的叠加图像。例如，每个用户设备可以发送前置图像和后置图像。第一用户设备的后置图像可用于生成第一叠加图像，该第一叠加图像包含由除第一用户设备之外的用户设备的前置相机拍摄的除第一用户设备的用户之外的用户的面部。第一用户设备的前置图像可以用于将第一用户设备的用户的面部添加到由参与通信会话的其他用户设备拍摄的背景图像。可以认识到，对于参与通信会话的每个用户设备，服务器可以生成不同的叠加图像。

在步骤715中生成叠加图像之后，过程700可以包括在步骤721中将叠加图像发送到用户设备以在用户设备的显示设备上显示。在一些实施例中，也可以显示由前置相机拍摄的图像，例如，如图4C和4D中所示。过程700可以在步骤721结束。

应当认识到，使用如参考图7所描述的基于服务器的过程700，服务器可以被配置为接收背景实况流视频、实时添加一个或多个用户的图像并将叠加图像分发给一个或多个用户。在一些实施例中，可以向每个用户呈现他或她自己的环境的增强版本，而在其他实施例中，可以向每个用户呈现显示参与通信会话的一个或多个或所有用户的另一个用户的环境的增强版本。

尽管图7的上述过程700描述了由服务器的处理器执行的步骤，并且图6的上述过程600描述了由用户设备的处理器执行的步骤，但是应当认识到，服务器的处理器和用户设备的处理器可以串行工作以执行类似的方法。例如，用户设备可以仅发送前置图像，而不是发送后置图像。然后，服务器可以处理前置图像以从前置图像中提取人像。然后，可以将提取的人像发送到参与通信会话的其他用户设备，该通信会话可以将来自其他用户的人像附加到由该用户设备的后置相机拍摄的图像。这样的系统可能比类似系统需要更少的带宽。

上述通信会话的实施例也可以通过如图8中所示的由参与通信会话的计算机系统的一个或多个处理器执行的方法800来实现，其中在由本地用户设备的相机捕获的环境中显示其他地方的用户。本文描述的方法800可以实现减少本文描述的特征所需的处理负荷和带宽。如下所述，图像处理和背景去除可以由捕获图像的用户设备的处理器来执行，这拆分了处理负荷并减少了带宽。

图8的方法800可以在步骤803开始，在步骤803中已经建立了两个或更多个用户设备之间的通信会话。通信会话可以由服务器托管。方法800中使用的用户设备可以包括一个或多个相机和/或与一个或多个相机通信。通信会话可以是例如使用视频会议通信应用的视频会议。

在步骤806，第一用户设备的处理器可以从相机接收图像。例如，在一些实施例中，相机可以是第一用户设备的后置相机。在一些实施例中，相机可以在第一用户设备的外部。图像可以是视频信号或可以是静止图像。

在步骤809，第二用户设备的处理器可以从相机接收一个或多个图像。例如，图像可以是参与通信会话的用户的图像。处理器接收的图像可以是通信会话中参与者的实况视频图像。图像可以是由参与通信会话的用户的第二用户设备的一个或多个前置相机记录的。

在步骤812，第二用户设备的处理器可以处理经由相机接收的一个或多个图像。处理图像可以包括使用图像分析应用或算法来检测接收的图像中的人像的存在。例如，可以使用诸如卷积神经网络之类的神经网络算法来检测图像中的人体或面部。处理图像还可以包括提取检测到的人像。

例如，可以从接收的图像中移除所有背景图像，只留下人像。在一些实施例中，可以从图像中提取面部，而在其他实施例中，可以提取所有人像。例如，处理器可以能够接收包括背景图像或其他图像前面或当中的人像的图像信号。处理器可以能够将人与图像的其余部分分开，以生成提取的人的图像。应当认识到，每个图像可以包含多于一个人，例如两个人可以共享单个用户设备以参与通信会话。在这种情形中，处理器可以从图像中提取所有人。还应当认识到，虽然使用了词语“人”和“人像”，但也可以使用相同的过程来提取诸如动物之类的其他图像。

在步骤815中，在背景图像已被移除之后，图像数据可以由第二用户设备经由网络连接直接地或经由服务器发送到第一用户设备。

在步骤818，第一用户设备的处理器可以使用步骤812的一个或多个经处理的图像和在步骤806从第一用户设备的相机接收的背景图像来创建叠加图像。在一些实施例中，创建叠加图像可以包括将从经由网络连接接收的图像中提取的用户图像叠加到从后置相机接收的图像上。在一些实施例中，创建叠加图像可以包括在从相机接收的图像上生成身体的视觉表示(诸如化身)，并且将从经由网络连接接收的图像中提取的用户面部叠加到身体的视觉表示上，例如，如图4D中所示。应当认识到，在步骤815中创建的叠加图像可以是视频图像，并且在步骤806中从相机接收的背景图像和在步骤709中接收的用户图像中的每一个可以以例如每秒60帧的帧速率被持续刷新。过程800可以在步骤821结束。

如上所述的方法800可以实现减少本文描述的特征所需的处理负荷和带宽。如下所述，图像处理和背景去除可以由捕获图像的用户设备的处理器来执行，这拆分了处理负荷并减少了带宽。

本文描述的某些实施例涉及向用户设备的用户呈现实况视频呼叫。用户设备可以从第一相机接收第一图像。例如，第一图像可以从用户设备的后置相机获取，并且可以捕获用户参与实况视频呼叫的环境。

在一些实施例中，可以使用指定的应用来执行本文描述的一个或多个系统和过程。例如，应用可以有助于两个或更多个用户之间的通信会话。在一些实施例中，第一用户可以被指定为主机用户。主机用户可以使用包括用于捕获主机用户的图像的前置相机和用于捕获主机用户的环境的后置相机的用户设备。

其他用户可以被指定为访问用户。每个访问用户可以使用包括前置相机的用户设备来捕获每个访问用户的图像。每个访问用户的用户设备可以将图像数据流送到服务器和/或主机用户。该应用可以有助于裁剪来自每个访问用户的用户设备的每个图像数据流，以裁剪出人像，并将裁剪出的人像渲染到由主机的后置相机捕获的主机的环境的实况视频流上。

在一些实施例中，该应用可以能够检测在来自访问者的用户设备的图像内是否包含用户的整个身体。如果在图像内包含了用户的整个身体，则应用可以在将用户的整个身体显示到主机的环境图像上。另一方面，如果在图像内没有包含用户的整个身体，则应用可以仅将用户的面部显示在化身上，并且在主机的环境图像中显示面部和化身。

在一些实施例中，如果两个或更多个访问用户参与通信会话，则应用可以确定将每个访问用户包括在主机环境中所需的空间。基于将每个访问用户包括在主机环境中所需的空间，应用可以根据需要调整每个访问用户的裁剪图像的大小以适合该环境。

在一些实施例中，代替使用来自用户的后置相机的实况图像作为叠加图像的增强现实视图的背景图像，应用可以使用户能够在其他背景中进行选择。可以使用静止图像或不同于用户的后置相机的相机的视频流。例如，可以使用户能够从网络位置选择实况视频流，该实况视频流可以用作用于显示用户和/或参与通信会话的其他用户的图像的背景图像。

在一些实施例中，该应用可以被配置为允许用户选择性地记录通信会话。例如，可以在通信会话期间在用户界面内呈现记录按钮。显示访问用户的面部和/或身体的主机环境可以被记录为视频文件。在一些实施例中，可以使用户能够在通信会话期间记录屏幕截图。

可以认识到，根据本公开的一个或多个实施例的系统和方法包括在通信会话期间从用户设备的相机接收实况视频流。实况视频流可以在网络位置上传输。处理器可用于通过将实况视频流的一部分叠加到从用户设备的后置相机接收的图像上来实时生成实况图像。然后，可以向通信会话的一个或多个用户显示所生成的实况图像。

在一些实施例中，处理器可以被配置为处理实况视频流以检测诸如实况视频流之类的图像内的用户面部，并提取与检测到的用户面部相关联的第一实况视频流的像素。例如，处理器可以能够检测实况视频流内的哪些像素表示用户的面部和/或身体。这样的像素可以被识别，并且可以从图像数据的其余部分裁剪出来。表示用户面部和/或身体的像素可以叠加到由用户设备的后置相机捕获的主机环境的实况视频流上。以这种方式，可以生成在本地环境中描绘远程用户的实况图像。

本公开的实施例包括一种呈现实况视频呼叫的方法，该方法包括在第一用户设备的处理器上执行如下操作：从第一相机接收第一图像；从网络位置接收第一实况视频流；通过将从网络位置接收的第一实况视频流的一部分叠加到从第一相机接收的第一图像上，来实时生成实况图像；以及显示所生成的实况图像。

上述方法的各方面包括，其中第一用户设备包括第一相机和第二相机，该方法还包括，利用处理器从第二相机接收第二图像，以及利用处理器将第二图像发送到网络位置。

上述方法的各方面包括，该方法还包括利用处理器处理第一实况视频流以检测用户面部，以及利用处理器提取与检测到的用户面部相关联的第一实况视频流的像素。

上述方法的各方面包括，其中第一实况视频流的该部分包括与检测到的用户面部相关联的第一实况视频流的所提取像素。

上述方法的各方面包括，该方法还包括，将与检测到的用户面部相关联的第一实况视频流的像素叠加到身体的视觉表示上。

上述方法的各方面包括，其中来自第一相机的第一图像是在与第一用户设备的第一用户相对于第一用户设备的方向相反的方向上拍摄的。

上述方法的各方面包括，其中实况图像在第一用户设备的后置相机前面描绘第二用户设备的用户。

上述方法的各方面包括，该方法还包括，利用处理器从第二网络位置接收第二实况视频流，其中实时生成实况图像包括将第一实况视频流的一部分和第二实况视频流的一部分叠加到从第一相机接收的第一图像上。

上述方法的各方面包括，其中第一实况视频流是从与第二用户相关联的第二用户设备接收的，并且第二实况视频流是从与第三用户相关联的第三用户设备接收的。

上述方法的各方面包括，其中实况图像在第一用户设备的后置相机前面描绘第二用户和第三用户。

上述方法的各方面包括，其中第一图像是实况视频。

上述方法的各方面包括，将从网络位置接收的第一实况视频流的该部分叠加到从第一相机接收的第一图像上包括将第一实况视频流的该部分叠加到化身上，以及将第一实况视频流的叠加部分渲染在第一图像中的化身上。

本公开的实施例包括第一用户设备，该第一用户设备包括：处理器；以及存储计算机可读指令的计算机可读存储介质，该计算机可读指令在由处理器执行时使处理器：从第一相机接收第一图像；从网络位置接收第一实况视频流；通过将从网络位置接收的第一实况视频流的一部分叠加到从第一相机接收的第一图像上，来实时生成实况图像；以及显示所生成的实况图像。

上述用户设备的各方面包括，其中第一用户设备包括第一相机和第二相机，该方法还包括利用处理器从第二相机接收第二图像，以及利用处理器将第二图像发送到网络位置。

上述用户设备的各方面包括，利用处理器处理第一实况视频流以检测用户面部，以及利用处理器提取与检测到的用户面部相关联的第一实况视频流的像素。

上述用户设备的各方面包括，其中第一实况视频流的该部分包括与检测到的用户面部相关联的第一实况视频流的所提取像素。

上述用户设备的各方面包括，将与检测到的用户面部相关联的第一实况视频流的像素叠加到身体的视觉表示上。

上述用户设备的各方面包括，其中来自第一相机的第一图像是在与第一用户设备的第一用户相对于第一用户设备的方向相反的方向上拍摄的。

上述用户设备的各方面包括，其中实况图像在第一用户设备的后置相机前面描绘第二用户设备的用户。

上述用户设备的各方面包括，利用处理器从第二网络位置接收第二实况视频流，其中实时生成实况图像包括将第一实况视频流的一部分和第二实况视频流的一部分叠加到从第一相机接收的第一图像上。

上述用户设备的各方面包括，其中第一实况视频流是从与第二用户相关联的第二用户设备接收的，并且第二实况视频流是从与第三用户相关联的第三用户设备接收的。

上述用户设备的各方面包括，其中实况图像在第一用户设备的后置相机前面描绘第二用户和第三用户。

上述用户设备的各方面包括，其中第一图像是实况视频。

上述用户设备的各方面包括，将从网络位置接收的第一实况视频流的该部分叠加到从第一相机接收的第一图像上包括将第一实况视频流的该部分叠加到化身上，以及将第一实况视频流的叠加部分渲染在第一图像中的化身上。

实施例包括一种计算机程序产品，该计算机程序产品包括：含有计算机可读程序代码的非瞬态计算机可读存储介质，该计算机可读程序代码被配置为当由第一用户设备的处理器执行时：从第一相机接收第一图像；从网络位置接收第一实况视频流；通过将从网络位置接收的第一实况视频流的一部分叠加到从第一相机接收的第一图像上，来实时生成实况图像；以及显示所生成的实况图像。

上述计算机程序产品的各方面包括，其中第一用户设备包括第一相机和第二相机，其中计算机可读程序代码还被配置为当由处理器执行时：从第二相机接收第二图像，以及将第二图像发送到网络位置。

上述计算机程序产品的各方面包括，利用处理器处理第一实况视频流以检测用户面部，以及利用处理器提取与检测到的用户面部相关联的第一实况视频流的像素。

上述计算机程序产品的各方面包括，其中第一实况视频流的该部分包括与检测到的用户面部相关联的第一实况视频流的所提取像素。

上述计算机程序产品的各方面包括，将与检测到的用户面部相关联的第一实况视频流的像素叠加到身体的视觉表示上。

上述计算机程序产品的各方面包括，其中来自第一相机的第一图像是在与第一用户设备的第一用户相对于第一用户设备的方向相反的方向上拍摄的。

上述计算机程序产品的各方面包括，其中实况图像在第一用户设备的后置相机前面描绘第二用户设备的用户。

上述计算机程序产品的各方面包括，利用处理器从第二网络位置接收第二实况视频流，其中实时生成实况图像包括将第一实况视频流的一部分和第二实况视频流的一部分叠加到从第一相机接收的第一图像上。

上述计算机程序产品的各方面包括，其中第一实况视频流是从与第二用户相关联的第二用户设备接收的，并且第二实况视频流是从与第三用户相关联的第三用户设备接收的。

上述计算机程序产品的各方面包括，其中实况图像在第一用户设备的后置相机前面描绘第二用户和第三用户。

上述计算机程序产品的各方面包括，其中第一图像是实况视频。

上述计算机程序产品的各方面包括，将从网络位置接收的第一实况视频流的该部分叠加到从第一相机接收的第一图像上包括将第一实况视频流的该部分叠加到化身上，以及将第一实况视频流的叠加部分渲染在第一图像中的化身上。

本文描述的处理器的示例可以包括但不限于以下至少之一：

800、810、820，具有4G LTE集成和64位计算的

610和615，具有64位体系结构的

A7处理器，

M7运动协处理器，

系列，

Core^TM系列处理器，

系列处理器，

Atom^TM系列处理器，

系列处理器，

i5-4670K和i7-4770K 22nmHaswell，

i5-3570k 22nm Ivy桥，

FX^TM系列处理器，

FX-4300、FX-6300和FX-8350 32nm Vishera，

Kaveri处理器，

Jacinto C6000^TM汽车信息娱乐处理器，

OMAP^TM汽车级移动处理器，

Cortex^TM-M处理器，

Cortex-A和ARM926EJ-S^TM处理器，瑞芯RK3399处理器，其他行业等同处理器，并且可以使用任何已知或未来开发的标准、指令集、库和/或体系结构来执行计算功能。

本文使用的图形处理单元(“GPU”)可以包括能够操纵和改变存储器以加速创建图像以用于输出到显示设备的任何类型的专用电子电路。本文描述的GPU的示例可以包括但不限于以下至少之一：英特尔、英伟达和AMD/ATI GPU和/或基于移动设备的GPU(诸如S3Graphics、Matrox、Adreno、PowerVR)，并且可以使用任何已知或未来开发的标准指令集、库、API和/或架构来执行功能。

本文讨论的任何步骤、功能和操作都可以连续且自动地执行。

然而，为了避免不必要地模糊本公开，前面的描述省略了许多已知结构和装置。这种省略不应被解释为对所要求保护的发明的范围的限制。陈述了具体细节以提供对本公开的理解。然而，应当认识到，本公开可以以本文阐述的具体细节之外的各种方式来实现。

此外，虽然本文例示的示例性实施例示出并置的系统的各种组件，但是系统的某些组件可以位于远程、位于分布式网络的远程部分，诸如LAN和/或因特网，或者位于专用系统内。因此，应当认识到，系统的组件可以组合成一个或多个设备，或者并置于分布式网络(诸如模拟和/或数字电信网络、分组交换网络或电路交换网络)的特定节点上。从前面的描述可以理解，并且出于计算效率的原因，在不影响系统的操作的情况下，系统的组件可以布置在分布式组件网络内的任何位置。例如，各种组件可以位于诸如PBX和媒体服务器、网关的交换机中、位于一个或多个通信设备中、位于一个或多个用户的房屋处、或其某种组合。类似地，系统的一个或多个功能部分可以分布在(多个)电信设备和相关联的计算设备之间。

此外，应当认识到，连接元件的各种链路可以是有线或无线链路或其任意组合，或者能够向所连接的元件提供数据和/或从所连接的元件传送数据的任何其他已知的或以后开发的(多个)元件。这些有线或无线链路也可以是安全链路，并且可以能够传送加密信息。例如，用作链路的传输介质可以是用于电信号的任何合适的载体，包括同轴电缆、铜线和光纤，并且可以采用声波或光波的形式，诸如在无线电波和红外数据通信期间产生的那些。

此外，虽然已经针对特定的事件序列讨论和图示了流程图，但是应当认识到，可以在不对本公开的操作产生实质性影响的情况下对该序列进行改变、添加和省略。

可以使用本公开的许多变体和修改。可以在不提供其它特征的情况下提供本公开的一些特征。

在又一实施例中，本公开的系统和方法可以结合专用计算机、可编程微处理器或微控制器和(多个)外围集成电路元件、ASIC或其他集成电路、数字信号处理器、诸如离散元件电路的硬连线电子或逻辑电路、诸如PLD、PLA、FPGA、PAL之类的可编程逻辑器件或门阵列、专用计算机、任何类似装置等来实现。一般而言，能够实现本文所示的方法的任何(多个)设备或手段都可以用来实现本公开的各个方面。可用于本公开的示例性硬件包括计算机、手持设备、电话(例如，蜂窝、支持互联网、数字、模拟、混合等)以及本领域公知的其他硬件。这些设备中的一些包括微处理器(例如，单个或多个微处理器)、存储器、非易失性存储器、输入设备和输出设备。此外，还可以构建备选软件实现，包括但不限于分布式处理或组件/对象分布式处理、并行处理、基于云的计算系统或虚拟机处理，以实现本文描述的方法。

在又一实施例中，所公开的方法可以容易地结合提供可在各种计算机或工作站平台上使用的便携式源代码的软件来实现。备选地，所公开的系统可以使用标准逻辑电路或VLSI设计在硬件中部分或全部实现。是否使用软件或硬件来实现根据本公开的系统取决于系统的速度和/或效率要求、特定功能以及所使用的特定软件或硬件系统或微处理器或微型计算机系统。

在又一实施例中，所公开的方法可以部分地以软件实现，该软件可以存储在存储介质上，在控制器和存储器、专用计算机、微处理器等的协作下在编程的通用计算机上执行。在这些情况下，本公开的系统和方法可以被实现为嵌入在个人计算机上的程序，诸如小应用程序、

或CGI脚本，作为驻留在服务器或计算机工作站上的资源，作为嵌入在专用测量系统、系统组件等中的例程。该系统还可以通过将该系统和/或方法物理地合并到软件和/或硬件系统中来实现。

尽管本公开描述了参考特定标准和协议在实施例中实现的组件和功能，但是本公开不限于这些标准和协议。本文未提及的其他类似标准和协议也存在，并且被认为包括在本公开中。此外，本文提到的标准和协议以及本文没有提到的其他类似标准和协议周期性地被具有基本上相同功能的更快或更有效的等同形式取代。具有相同功能的这种替换标准和协议被认为是包括在本公开中的等同形式。

在各种实施例、配置和方面中，本公开基本上包括本文描述和描述的组件、方法、过程、系统和/或设备，包括各种实施例、子组合和它们的子集。本领域技术人员在理解本公开之后将理解如何制造和使用本文公开的系统和方法。在各种实施例、配置和方面中，本公开包括在没有在此描述和/或描述的项目的情况下或在本公开的各种实施例、配置或方面中提供设备和过程，包括在缺少可能已经在先前的设备或过程中使用的项目的情况下，例如用于提高性能、实现简易性和/或降低实现成本。

出于说明和描述的目的，已经呈现了本公开的前述讨论。前述内容并不旨在将本公开限制于在此公开的一种或多种形式。例如，在前述详细描述中，为了简化本公开的目的，在一个或多个实施例、配置或方面中将本公开的各种特征分组在一起。本公开的实施例、配置或方面的特征可以在不同于上面讨论的实施例、配置或方面的备选实施例、配置或方面中组合。本公开的该方法不应被解释为反映所要求保护的发明需要比在每个权利要求中明确叙述的特征更多的特征的意图。相反，如所附权利要求所反映的，创造性方面不在于单个前述公开的实施例、配置或方面的所有特征。因此，在此将所附权利要求合并到该详细描述中，其中每个权利要求作为本公开的单独优选实施例独立存在。

此外，尽管本公开的描述已经包括对一个或多个实施例、配置或方面以及某些变化和修改的描述，但是在理解本公开之后，其他变化、组合和修改也在本公开的范围内，例如，可以在本领域的技术人员和知识范围内。本公开旨在获得权利，其在允许的范围内包括可选实施例、配置或方面，包括可选、可互换和/或与所要求权利要求相同的结构、功能、范围或步骤，而不意图公开贡献任何可专利主题，不管本文是否公开了这种可替换、可互换和/或等同的结构、功能、范围或步骤。

Claims

1.一种呈现实况视频呼叫的方法，所述方法包括执行如下操作：

利用第一用户设备的处理器从第一用户设备的第一相机接收第一实况视频流；

利用所述处理器从网络位置接收第二实况视频流；

利用所述处理器通过将从所述网络位置接收的第二实况视频流的一部分叠加到从第一相机接收的第一实况视频流上，实时生成实况视频；以及

利用所述处理器显示所生成的实况视频。

2.如权利要求1所述的方法，其中，第一用户设备包括第二相机，所述方法还包括：利用所述处理器从第二相机接收第三实况视频流，以及利用所述处理器将第三实况视频流发送到所述网络位置。

3.如权利要求1所述的方法，还包括：利用所述处理器处理第二实况视频流以检测用户的面部，以及利用所述处理器提取与检测到的所述用户的面部相关联的第二实况视频流的像素。

4.如权利要求4所述的方法，其中，第二实况视频流的所述部分包括与检测到的所述用户的面部相关联的所提取的第二实况视频流的像素。

5.如权利要求4所述的方法，还包括：将与检测到的所述用户的面部相关联的所提取的第二实况视频流的像素叠加到身体的视觉表示上。

6.如权利要求1所述的方法，其中，来自第一相机的第一实况视频流是在与第一用户设备的用户相对于所述第一用户设备的方向相反的方向上拍摄的。

7.如权利要求1所述的方法，其中，所述实况视频是通过将第二用户设备的用户的实况视频叠加到包含第一用户设备的环境的实况视频上而生成的。

8.如权利要求1所述的方法，还包括：利用所述处理器从第二网络位置接收第三实况视频流，其中实时生成所述实况视频包括将第二实况视频流的所述部分和第三实况视频流的一部分叠加到从第一相机接收的第一实况视频流上。

9.一种第一用户设备，包括：

处理器；以及

存储计算机可读指令的计算机可读存储介质，所述计算机可读指令当由所述处理器执行时使所述处理器：

从第一用户设备的第一相机接收第一实况视频流；

从网络位置接收第二实况视频流；

通过将从所述网络位置接收的第二实况视频流的一部分叠加到从第一相机接收的第一实况视频流上来实时生成实况视频；以及

显示所生成的实况视频。

10.一种计算机程序产品，包括：

含有计算机可读程序代码的非瞬态计算机可读存储介质，所述计算机可读程序代码被配置为当由第一用户设备的处理器执行时：

从第一用户设备的第一相机接收第一实况视频流；

从网络位置接收第二实况视频流；

显示所生成的实况视频。