CN111294550A

CN111294550A - 实现适应其周围环境的个人相机的系统和方法

Info

Publication number: CN111294550A
Application number: CN201911239856.3A
Authority: CN
Inventors: L·德努; S·卡特; 金哲暄
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-12-08
Filing date: 2019-12-06
Publication date: 2020-06-16
Also published as: US11343445B2; US20200186727A1; US20210006731A1; JP2020092424A; US11343446B2; US10785421B2; US20210006732A1

Abstract

实现适应其周围环境的个人相机的系统和方法。一种包括处理单元和存储器的计算机化系统，所述系统结合包含用户的视频的实时视频会议流进行操作，其中，所述存储器收录有计算机可执行指令的集合，其使得所述计算机化系统执行一种方法，所述方法涉及以下步骤：接收包含所述用户的所述视频的所述实时视频会议流；检测接收到的实时视频会议流中的背景并且将接收到的实时视频会议流中的背景与所述用户分离；以及用从第二用户的系统接收到的背景或者用预记录的背景替换分离出的背景。

Description

实现适应其周围环境的个人相机的系统和方法

技术领域

所公开的实施方式通常涉及智能相机系统，并且尤其涉及用于实现与其共置和远程二者的周围环境相适应的个人“变色龙”智能相机的系统和方法。

背景技术

如本领域的普通技术人员将意识到的，尽管近来对智能空间做了工作，但是当今许多知识工作发生在传统办公环境之外：在诸如家庭的空间中，在咖啡/餐馆中(见图1d)，火车旅行(见图1a和图1c)或者巴士旅行(图1b)以及在开放办公隔间中。

如本领域的普通技术人员也将意识到的，在这些公共空间中进行网络会议是有问题的：视频背景和视频中的反射区域(例如，眼镜)会包含私人信息和/或敏感信息，这会不可避免地暴露给未授权的人并且音频通道会突然混杂有不期望的环境语音、声音和噪声，例如咖啡师在餐馆中呼叫人的名字或者经过的火车的巨大声音。此外，过去的工作显示出：在视频会议中缺乏共享的视觉背景会削弱参与者的会话基础，导致差的用户体验。

因此，鉴于传统技术的上述和其它缺点，需要新的和改善的系统和方法，其将实现与其共置和远程的周围环境相适应的智能相机。这样的创造性的相机将具有许多用途，包括当参与者位于传统办公环境之外时的视频会议。

发明内容

本文描述的实施方式涉及基本上克服了与传统智能相机系统相关联的上述和其它问题中的一个或更多个的系统和方法。

根据本文描述的实施方式的一个方面，提供了一种包括处理单元和存储器的计算机化系统，所述系统结合包含用户的视频的实时视频会议流进行操作，其中，所述存储器收录有计算机可执行指令的集合，其使得所述计算机化系统执行一种方法，所述方法包括以下步骤：接收包含所述用户的所述视频的所述实时视频会议流；检测接收到的实时视频会议流中的背景并且将接收到的实时视频会议流中的背景与所述用户分离；以及使用从第二用户的系统接收到的背景或者使用预记录的背景替换分离出的背景。

在一个或更多个实施方式中，所述背景是从数据库取回的预记录的背景。

在一个或更多个实施方式中，所述背景被自动生成。

在一个或更多个实施方式中，所述背景是由第二用户响应于所述第二用户的系统的提示而记录的。

在一个或更多个实施方式中，检测和分离所述实时视频会议流中的所述背景的步骤包括检测所述用户的面部。

在一个或更多个实施方式中，所述用户的所述面部通过识别所述实时视频会议流的视频帧中的多个特征点来检测。

在一个或更多个实施方式中，其中，所述方法还包括对所述用户的所述面部进行学习。

在一个或更多个实施方式中，所述用户的所述面部在视频会议开始时被学习。

在一个或更多个实施方式中，所述用户的所述面部在所述视频会议之前被学习。

在一个或更多个实施方式中，在所述实时视频会议流中分离所述背景的步骤包括基于学习到的所述用户的面部来识别所述用户并将所述背景与识别出的用户分离。

根据本文描述的实施方式的另一方面，提供了一种包括处理单元和存储器的计算机化系统，所述系统结合包含用户的视频的实时视频会议流进行操作，其中，所述存储器收录有计算机可执行指令的集合，其使得所述计算机化系统执行一种方法，所述方法包括：接收包含所述用户的所述视频的所述实时视频会议流；发现并且分离接收到的实时视频会议流中的反射；以及修改所述接收到的实时视频会议流中的分离出的反射。

在一个或更多个实施方式中，修改所述分离出的反射的步骤包括使所述分离出的反射变暗。

在一个或更多个实施方式中，所述分离出的反射是所述用户的眼镜。

在一个或更多个实施方式中，修改所述分离出的反射的步骤包括使用第二用户的视频会议流利用新的反射代替所述分离出的反射。

根据本文描述的实施方式的另一方面，提供了一种结合包括处理单元和存储器的计算机化系统执行的计算机实现的方法，所述系统结合包含用户的视频的实时视频会议流操作，所述方法包括以下步骤：接收包含所述用户的所述视频的所述实时视频会议流；检测接收到的实时视频会议流中的背景并且将接收到的实时视频会议流中的背景与所述用户分离；以及使用从第二用户的系统接收到的背景或者使用预记录的背景替换分离出的背景。

在一个或更多个实施方式中，所述背景是自动生成的。

在一个或更多个实施方式中，分离所述实时视频会议流中的背景的步骤包括基于学习到的所述用户的面部识别所述用户并且将所述背景与识别出的用户分离。

与本发明有关的附加方面将部分地在下面的说明书中阐释，并且部分地将根据说明书而变得明显，或者可以通过本发明的实践来学习。本发明的方面可以利用在下面的具体实施方式和所附权利要求书中特别指出的元件和各种元件和方法和组合来实现和获得。

应当理解，前面和下面的描述都只是示例性和解释性的，并不意图以任何方式限制要求保护的发明或其应用。

附图说明

附图并入本说明书中并且构成本说明书的一部分，附图示例了本发明的实施方式，并且连同说明书一起用于解释和说明创造性技术的原理。具体地：

图1a、图1b、图1c和图1d示出了在自然环境下知识工作的某些示例：公共汽车(图1b)、火车(图1a和图1c)和咖啡馆(图1d)。

图2示出了与其共置和远程二者的周围环境相适应的创造性“变色龙”智能相机的实施方式的示例性操作序列。

图3a、图3b、图3c、图3d和图3e示出了通过与其共置和远程二者的周围环境相适应的创造性“变色龙”智能相机的实施方式的示例性图像处理结果。

图4示出了被配置为基于用户的头部的姿势和用户的检测到的唇部动作来自动地使麦克风静音或解除静音的创造性“变色龙”智能相机的实施方式的示例性操作序列。

图5示出了可以用于实现本文描述的创造性技术的计算机系统的示例性实施方式。

具体实施方式

在下面的详细描述中将参照附图，附图中相同的功能元件被指定有类似的附图标记。前面提及的附图通过例示而非限制的方式示出了符合本发明原理的具体实施方式和实现。对这些实现进行了充分详细的描述以使得本领域技术人员能够实践本发明，并且应该理解，在不背离本发明的范围和精神的情况下，可以利用其它实现并且可以做出各种元件的结构改变和/或替代。因此，下面的具体实施方式不应该以限制的含义来解释。此外，所描述的本发明的各种实施方式可以按照在通用计算机上运行的软件、专用硬件或者软件和硬件的组合的形式来实现。

尽管近来对智能空间做了工作，但是当今大量的知识工作发生在自然环境下(在传统办公环境之外)：在家中、在咖啡地点、火车、巴士、飞机中以及当然在拥挤的开放办公隔间中，参见图1a、图1b、图1c和图1d。在自然环境中进行网络会议是有问题的：视频背景和视频中的反射区域(例如，眼镜)会包含私人的和/或敏感的知识产权以及用户不希望进行流式传送的对象(例如，服务他的咖啡的咖啡师、移动的过路人)，并且音频通道会突然混杂有不期望的语音(例如，咖啡师呼叫你的名字、经过的火车)。

为了解决传统技术的这些问题和其它问题，根据本文公开的实施方式的一个方面，提供了用于实现与其共置和远程二者的周围环境相适应的个人“变色龙”相机的系统和方法。图2中示出了所描述的个人“变色龙(chameleon)”相机的示例性操作序列。

在一个或更多个实施方式中，在前述智能相机中实现的所描述的技术首先对用户的面部进行学习(图2的步骤201)、实时识别相机用户的面部和姿势(图2的步骤202)并且执行用户的背景的实时移除(步骤203)和用户的背景到其他方的背景的替换(图2中的步骤204)。这为视频会议参与者产生改善的浸入式会议体验。

一个所描述的实施方式还识别和修改视频中的某些反射区域，例如眼镜、镜子等，并且执行视频中所识别的反射区域的实时修改以混淆潜在机密信息、消除眩光和/或通过在接收到的视频流中检测到的反射区域中实时地插入这样的参与者的周围环境的反射来为视频会议参与者营造一种出席感，参见图2中的步骤205。

另外，一个或更多个实施方式检测实况视频流中用户的各种面部特征，例如用户的唇部。此外，也检测用户的头部的姿势。基于这样的检测的结果，系统被配置为自动地基于用户的检测到的唇部动作和头部取向来使用户的麦克风静音和解除静音。这样做以使得系统不登记外部噪声并且仅在用户实际上讲话时捕获声音。本领域的普通技术人员将意识到，这样的特征是有利的，因为它减少了其他视频会议参与者的注意力分散。

在一个或更多个实施方式中，通过使用与视频会议呼叫中的其他方的周围环境类似的背景替换用户的实况视频流的背景，包括通过其他人的流的反射(或者他们的面部或者当前所共享的，例如，屏幕共享会话)替换一个人的屏幕的反射区域，所描述的实施方式还使所有方沉浸在相同的环境中并且不会分散注意力、增强了共同在场感。

图3a、图3b、图3c、图3d和图3e示出了通过与其共置和远程二者的周围环境相适应的创造性“变色龙”智能相机的实施方式的示例性视频流处理结果。图3a示出了原始视频流。

在一个或更多个实施方式中，所描述的智能相机系统在实况视频流中检测用户的面部和面部取向。在一个实施方式中，所描述的系统使用本领域公知的FaceAPI或者jeelizFaceFilter面部检测软件。前述软件系统执行实况视频流中的识别用户面部上的关键点的关键点检测。随后使用检测到的关键点执行面部检测和识别。

一旦检测到了用户的面部区域，所描述的相机系统的实施方式将视频流中用户的面部和上体与视频的被标记为背景的剩余区域分离。图3b中示出了与背景分离的检测到的人的面部和上体。在一个实施方式中，如图3c所示，该系统然后用来自其他会议参与者的背景(周围环境)对非人区域(视频的背景)进行去水印(in-paint)。

在一个或更多个实施方式中，系统被配置为检测发起网络会议的特定用户的面部。为此，当视频会议被发起时，系统对智能相机前面的用户执行面部学习操作。在另选实施方式中，系统可以被配置为在安装或者配置系统时提前学习用户的面部，就像在现代智能电话中那样。在面部学习过程之后，系统使用在面部学习阶段获得的信息执行实况视频流中的面部识别操作。

在一个或更多个实施方式中，如果某一其他人进入所描述的智能相机的视野，他或她的图像也能够与背景一起被移除，以避免使其他会议参与者产生注意力分散。例如，如果配偶或者孩子进入相机视野，系统将自动与用户的背景一起移除他们的面部以避免使其他视频会议参与者产生注意力分散。

如本领域的技术人员公知的那样，视频会议的参与者经常是指位于他们使用的相机的视野之外的对象，这会导致会话中断，见S.Song,A.Zeng,A.X.Chang,M.Savva,S.Savarese和T.Funkhouser的“Im2Pan0o3D:Extrapolating 360Structure andSemantics Beyond the Field of View.”,CVPR.2018。为了解决这一问题，所描述的相机的一个实施方式利用360度相机来将参与者插入到远程场景的更多完整表示中。

在一个或更多个实施方式中，视频中其他方的背景能够使用用户相机的前向视图代替以给出更加浸入式的体验。这能够通过使用单独的相机(内置在用户的装置或者诸如智能电话之类的另一装置中)完成以捕获前向视图，同时其他相机朝向用户用于视频会议。

由于内置的前向相机可能不是方向可调的和/或膝上型屏幕会以差的角度打开，前向视图的初始视频序列会在会议开始之前被记录。利用这一会议前的前向视图记录，朝向墙壁的用户能够立刻定位他们的前向相机以观看更加感兴趣的内容。

在一个或更多个实施方式中，系统被附加地配置为利用360度相机来帮助重构用户的环境的前向视图。在这一实现中，室内场景图像能够由位于几个不同地方(诸如咖啡、餐馆、办公室等)的360度视频相机收集。这些图像能够被存储在远程数据库中以便存储和取回每一个室内场景的完整的360度全息视图。这一360度全息视图能够被进一步处理以发现其与查询图像(例如，用户的背景)更相似的部分。全息视图中最相似的部分的相对方向上的内容能够被用作背景。

另选实施方式使用例如在A.Radford,L.Metz,S.Chintala“UnsupervisedRepresentation Learning with Deep Convolutional Generative AdversarialNetworks”,arXiv:1511.06434[cs.LG]和P.Isola,J.Zhu,T.Zhou,A.A.Efros“Image-to-Image Translation with Conditional Adversarial Networks”,arXiv:1611.07004[cs.CV]中描述的基于深度学习的生成式模型，以在给出用户的视频帧中的背景视图的情况下生成用户环境的视觉上可信的前向视图。前述模型能够使用足够数量的收集到的室内场景图像(360度全息表示的形式)进行训练，以学习关于房间布局的先前上下文信息，以及诸如桌子、窗户的可能的室内对象。

如本领域普通技术人员将意识到的，大约64％的美国成人佩戴眼镜。这一百分比在计算机相关的工作者当中甚至更高。这样，在膝上型和智能电话支持的会议期间，眼镜中的反射经常在实况视频流中被注意到。这样的反射在实况会议流中的存在具有几个缺点。第一个缺点是隐私问题：随着网络相机分辨率增加(特别是在智能电话中)，被反射的材料会潜在地被分析以提取知识产权。第二，然后前述反射会使会议上的其他方注意力分散，并且因此，会损害会议上的其他方的用户体验。为了解决上述两个问题，本发明的一个实施方式使用眼睛保持在后面的较黑版本来代替反射区域，参见图3d和图3e。在一个实施方式中，本发明还被配置为使用其他方的流添加新的反射，使其他方感觉更加被紧密连接(就好像他们正在看向彼此)。

在一个实施方式中，所描述的相机被配置为自动地基于用户的头部的姿势和用户的检测到的唇部动作来使麦克风静音或者解除静音。图4示出了被配置为基于用户的头部的姿势和用户的检测到的唇部动作来自动地使麦克风静音或解除静音的创造性“变色龙”智能相机的实施方式的示例性操作序列。该系统检测用户的头部的姿势和唇部动作是步骤401。

在一个实施方式中，当用户的面部直直向前(非左或右)并且用户的唇部正在动作时，麦克风被解除静音(除非其已经由用户强制静音)，参见步骤402。如果用户的头部面部方向在姿势上不是直的(在预定的余量或阈值内)，则麦克风再次静音：这适应用户可能正在向其他人(例如，接近或者服务用户的咖啡师)谈话的事实，参见步骤404。同样，如果用户的唇部停止动作，则麦克风被类似地静音，参见步骤403。

计算机系统的示例性实施方式

图5示出了计算机系统500的示例性实施方式，其可以用于实现本文描述的技术。在一个或更多个实施方式中，计算机500可以被实现在本领域技术人员公知的移动计算装置的形状因子内。在另选实施方式中，计算机500可以基于膝上型或者笔记本计算机实现。在又一另选实施方式中，计算机500可以是专用计算系统。

计算机500可以包括数据总线504或者其它互连或通信机制，用于在计算机500的各种硬件组件之间和当中传递信息，以及与数据总线504联接的中央处理单元(CPU或简单处理器)501，用于处理信息并执行其它计算和控制任务。计算机500还包括诸如随机存取存储器(RAM)或其它动态存储装置之类的存储器512，联接到数据总线504用于存储各种信息以及要由处理器501执行的指令。存储器512还可以包括诸如磁盘、光盘、固态闪存装置或者其它非易失性固态存储装置之类的永久存储装置。

在一个或更多个实施方式中，存储器512还可以用于在处理器501执行指令期间存储临时变量或者其它中间信息。可选地，计算机500还可以包括只读存储器(ROM或EPROM)502或者其它静态存储装置，其联接到数据总线504以用于存储诸如操作计算机500所需的固件、基本输入输出系统(BIOS)以及计算机500的各种配置参数之类的用于处理器501的指令和静态信息。

在一个或更多个实施方式中，计算机500可以附加地结合相机510，其用于获取静止图像以及实时视频。此外，计算机500可以结合用于拾取音频的麦克风511以及用于基于用户的头部的姿势自动地使麦克风511静音和解除静音的麦克风控制模块509。

在一个或更多个实施方式中，计算机500可以附加地包括诸如联接到数据总线504的网络接口505之类的通信接口。网络接口505可以被配置为使用WIFI接口507和蜂窝网络(GSM或CDMA)适配器508中的至少一个在计算机500和互联网524之间建立连接。网络接口505可以被配置为在计算机500和互联网524之间提供两路数据通信。WIFI接口507可以按照本领域普通技术人员公知的802.11a、802.11b、802.11g和/或802.11n协议以及蓝牙协议操作。在示例性实现中，WIFI接口507和蜂窝网络(GSM或CDMA)适配器508发送和接收承载表示各种类型信息的数字数据流的电子信号或者电磁信号。

在一个或更多个实施方式中，互联网524通常通过一个或更多个子网络向其他网络资源提供数据通信。因而，计算机500能够访问位于互联网524上的任何地方的诸如远程媒体服务器、网络服务器、其他内容服务器以及其他网络数据存储资源之类的各种网络资源。在一个或更多个实施方式中，计算机500被配置为利用网络接口505通过包括互联网524的各种网络发送和接收包括应用程序代码的消息、媒体和其他数据。在互联网示例中，当计算机500用作网络客户端时，它可以请求代码或数据用于在计算机500中执行的应用程序。类似地，它可以向其它网络资源发送各种数据或计算机代码。

在一个或更多个实施方式中，本文描述的功能通过计算机500对处理器501执行包含在存储器512中的一个或更多个指令的一个或更多个序列做出响应而实现。这样的指令可以被从另一计算机可读介质读取到存储器512中。包含在存储器512中的指令序列的执行使得处理器501执行本文描述的各种处理步骤。在另选实施方式中，硬连线电路可以代替软件指令或者与软件指令组合使用，以实现本发明的实施方式。因而，本发明的实施方式不限于硬件电路和软件的任何具体组合。

本文使用的术语“计算机可读介质”是指参与向处理器501提供用于执行的指令的任何介质。计算机可读介质只是机器可读介质的一个示例，其可以承载用于实现本文描述的任何方法和/或技术的指令。这样的介质可以采取许多形式，包括但不限于非易失性介质和易失性介质。

非暂时性计算机可读介质的常见形式例如包括软盘、柔性盘、硬盘、磁带或任何其他磁性介质，CD-ROM、任何其它光学介质、穿孔卡、纸带、具有孔图案的任何其它物理介质、RAM、PROM、EPROM、快闪EPROM、闪驱、存储卡、任何其它存储器芯片或墨盒、或者计算机能够从其进行读取的任何其它介质。各种形式的计算机可读介质可以涉及将一个或更多个指令的一个或更多个序列传送到用于执行的处理器501。例如，指令可以初始被承载在来自远程计算机的磁盘上。另选地，远程计算机可以将指令加载到其动态存储器中并且通过互联网524发送指令。具体地，计算机指令可以经由互联网524使用本领域公知的各种网络数据通信协议被从前述计算机下载到计算机500的存储器512中。

在一个或更多个实施方式中，计算机500的存储器512可以存储任意的下列软件程序、应用和/或模块。

1.操作系统(OS)513，其可以是用于实现基本系统服务并且管理计算机500的各种硬件组件的移动操作系统。操作系统513的示例性实施方式对于本领域技术人员来说是公知的，并且可以包括任何现在已知的或者以后开发的移动操作系统。还可以提供用于使能使用网络接口505的网络通信的网络通信模块514。

2.软件模块515可以包括例如由计算机500的处理器501执行的软件模块的集合，其使得计算机500执行某些预定的功能，例如，使用视频处理模块516实时处理相机视频流并且使用麦克风控制模块517使麦克风静音或解除静音。

3.数据存储装置518可以用于例如存储各种参数和阈值519。

最后，应该理解，本文描述的处理和技术并非固有地涉及任何特定的设备并且可以由组件的任何合适的组合实现。此外，可以根据本文描述的教导来使用各种类型的通用装置。可以证明构建专用设备以执行本文描述的方法步骤也是有利的。已经关于特定示例描述了本发明，这旨在在所有方面是例示性的而非限制性的。本领域技术人员将意识到硬件、软件和固件的许多不同组合将适合于实践本发明。例如，所描述的软件可以以诸如汇编语言、C/C++、Objective-C、perl、shell、PHP、Java以及任何现在已知的或者以后开发的编程语言或脚本语言的宽范围的编程语言或脚本语言实现。

此外，从本文公开的本发明的说明书和实践方面考虑，本发明的其它实现对于本领域技术人员将变得明显。所描述的实施方式的各种方面和/或组件可以单独或者组合地用在用于实现与其共置和远程二者的周围环境相适应的个人“变色龙”智能相机的系统和方法中。意在将本说明书和示例认为是仅示例性的，本发明的真实范围和精神由所附权利要求书指示。

Claims

1.一种包括处理单元和存储器的计算机化系统，所述系统结合包含用户的视频的实时视频会议流进行操作，其中，所述存储器收录有计算机可执行指令的集合，所述计算机可执行指令使得所述计算机化系统执行一种方法，所述方法包括以下步骤：

a.接收包含所述用户的所述视频的所述实时视频会议流；

b.检测接收到的实时视频会议流中的背景并且将接收到的实时视频会议流中的所述背景与所述用户分离；以及

c.用从第二用户的系统接收到的背景或者用预记录的背景替换分离出的背景。

2.根据权利要求1所述的系统，其中，所述背景是从数据库取回的预记录的背景。

3.根据权利要求1所述的系统，其中，所述背景是自动生成的。

4.根据权利要求1所述的系统，其中，所述背景是由所述第二用户响应于所述第二用户的系统的提示而记录的。

5.根据权利要求1所述的系统，其中，检测和分离所述实时视频会议流中的所述背景的步骤包括检测所述用户的面部。

6.根据权利要求5所述的系统，其中，所述用户的所述面部通过识别所述实时视频会议流的视频帧中的多个特征点来检测。

7.根据权利要求5所述的系统，还包括对所述用户的所述面部进行学习。

8.根据权利要求7所述的系统，其中，所述用户的所述面部在视频会议开始时被学习。

9.根据权利要求7所述的系统，其中，所述用户的所述面部在所述视频会议之前被学习。

10.根据权利要求7所述的系统，其中，分离所述实时视频会议流中的所述背景的步骤包括基于学习到的所述用户的面部来识别所述用户并且将所述背景与识别出的用户分离。

11.一种包括处理单元和存储器的计算机化系统，所述系统结合包含用户的视频的实时视频会议流操作，其中，所述存储器收录有计算机可执行指令的集合，所述计算机可执行指令使得所述计算机化系统执行一种方法，所述方法包括以下步骤：

a.接收包含所述用户的所述视频的所述实时视频会议流；

b.发现并且分离接收到的实时视频会议流中的反射；以及

c.修改所述接收到的实时视频会议流中的分离出的反射。

12.根据权利要求11所述的系统，其中，修改所述分离出的反射的步骤包括使所述分离出的反射变暗。

13.根据权利要求11所述的系统，其中，所述分离出的反射是所述用户的眼镜。

14.根据权利要求11所述的系统，其中，修改所述分离出的反射的步骤包括使用第二用户的视频会议流利用新的反射代替所述分离出的反射。

15.一种结合包括处理单元和存储器的计算机化系统执行的计算机实现的方法，所述系统结合包含用户的视频的实时视频会议流操作，所述方法包括以下步骤：

a.接收包含所述用户的所述视频的所述实时视频会议流；

16.根据权利要求15所述的计算机实现的方法，其中，所述背景是从数据库取回的预记录的背景。

17.根据权利要求15所述的计算机实现的方法，其中，所述背景是自动生成的。

18.根据权利要求15所述的计算机实现的方法，其中，所述背景是由所述第二用户响应于所述第二用户的系统的提示而记录的。

19.根据权利要求15所述的计算机实现的方法，其中，检测和分离所述实时视频会议流中的所述背景的步骤包括检测所述用户的面部。

20.根据权利要求15所述的计算机实现的方法，其中，所述用户的面部通过识别所述实时视频会议流的视频帧中的多个特征点来检测。