CN110050461A

CN110050461A - 从以增强现实元素为特征的多源设备提供实时复合视频的系统和方法

Info

Publication number: CN110050461A
Application number: CN201780054070.7A
Authority: CN
Inventors: 罗素·霍姆斯
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-09-02
Filing date: 2017-08-31
Publication date: 2019-07-23
Anticipated expiration: 2037-08-31
Also published as: WO2018042176A1; EP3507978B1; US10636215B2; CN110050461B; EP3507978A1; US20180068490A1; CN112437200A; US20180365904A1; US10089793B2

Abstract

用于叠加由计算设备(20)生成的视频的人类元素的系统和方法，其中第一用户设备和第二用户设备捕获视频并将视频发送到中央服务器(30)，中央服务器(30)分析视频以鉴别和提取人类元素(216、218)，将这些人类元素彼此叠加，添加至少一个增强现实元素(410)，然后将新创建的叠加视频发送回到用户设备中的至少一个。

Description

从以增强现实元素为特征的多源设备提供实时复合视频的系统和方法

背景技术

本主题总的来说涉及电话会议系统(teleconferencing system)。更具体地，本发明涉及在以增强现实元素为特征的虚拟交互中模拟用户的相互物理存在的电话会议系统。

几乎任何距离的电话会议或视频交互都是本质上没有人情味的体验。最近技术中的许多发展已经旨在解决人们错失人类交互方面(只听到某人的声音而不提供人类交互)的问题。从电话会议到Facetime和Snapchat，视频通话和消息的使用极大地增强了远距离通信，但这些创新并非没有它们的缺点。诸如Snapchat和Facebook等公司已经开发了增强现实面部滤镜、镜头等，从而为标准视频消息、聊天或通话创建另一更有趣的维度。

现有的视频通话技术不允许用户感觉好像他们离被叫人很近。虽然用户可能能够通过Facetime等看到同事或所爱的人，或者与同事或所爱的人交谈，但很明显这种技术的用户都在不同的位置。此外，当前的视频通话和聊天不会将增强现实并入此类通话或聊天中，从而错失了乐趣和兴奋的机会。

因此，需要一种视频通信系统，其在以增强现实元素为特征的虚拟交互中模拟用户的相互物理存在。

发明内容

为了满足上述和其它的需要，在一个实施例中，本文提供的主题体现在视频通话应用程序中，该视频通话应用程序向用户提供两者都存在于单个物理位置中的错觉。具体地，该实施例向用户呈现能够伸出并触摸与他们正在交谈的人的视觉体验。通过允许用户进行视频通话的应用程序来提供该体验，其中另外的好处是能够将来自其他一个或多个用户设备的摄像头的视频叠加到在各用户设备的屏幕中的每一个上显示的视频上。这可以用于在同一屏幕上提供所有呼叫者的实时视频图像，模拟在通话中涉及的每个人在物理上彼此存在。

本发明使用移动设备的一个或多个后置和/或前置摄像头鉴别人类元素。后置摄像头旨在用于捕获人类元素(诸如手、手和手臂或私密身体部位(如生殖器等))的实时视频馈送。移动设备使用检测/识别算法以鉴别在终端用户设备(例如智能手机、平板电脑、个人计算机等)的一个或多个后置和/或前置摄像头的视野中捕获的这些人类元素。

在一个示例中，第一用户可以在视频通话期间到达移动设备后面，同时仍然能够查看他们的移动设备的前显示屏幕。他们的移动设备的前显示屏幕会显示叠加的实时视频，叠加的实时视频包含与来自第二用户的设备的实时视频叠加的人类元素。产生的叠加视频包含来自每个用户的重叠的人类元素，给出了用户之间物理交互的视觉印象。

实现此功能的应用程序可以是独立的，也可以集成到其他视频通话应用程序中。该应用程序可以在移动设备(例如，智能手机、平板电脑等)和个人计算机(例如，台式计算机、平板电脑等)上运行。

应用程序可以实现叠加视频效果的另一种方式是通过使用智能手机或平板电脑的多个摄像头。大多数移动设备有两个摄像头，一个在设备的正面，一个在设备的背面。一些较新的设备(例如，iPhone7)除了一个或多个前置摄像头之外，包括在设备的背面上的多个摄像头。在第二示例中，应用程序可以允许用户设备上的多个摄像头同时是主动(或活动)的(active)，其中系统对由设备摄像头捕获的视频的人类元素(例如，面部、身体、手等)进行叠加以给出物理上交互的错觉。

在第三示例中，应用程序可以利用第一用户的后置摄像头和第二用户的前置摄像头，以使第一用户能够物理地到达第一用户设备的背面的周围，使得当第一用户的手在其设备的后置摄像头的视野中时，第一用户的手(视频的人类元素)出现在第二个用户的屏幕上。这种安排使用户既能够在其给定设备上观看视频通话，还同时创建物理地触摸的视觉再现。该效果是通过到达其移动设备后面的第一用户进入捕获视频的其后置摄像头的视野来实现的。叠加从移动设备的后置摄像头拍摄的手(或其他人类元素)的直播视频与来自第二用户直播视频的人类元素(例如，面部、颈部和躯干)的组合创建各呼叫者之间的物理交互/触摸的视觉再现。应当注意，第一用户的手可以叠加在由第二用户的摄像头捕获的面部、身体或任何其他一个或多个人类(或非人类)元素上。这允许系统的用户根据终端用户利用了哪些设备摄像头来执行诸如握手、举手击掌等物理交互的错觉。

系统用户在给定时间利用的所有摄像头的视频可以被馈送到中央服务器，中央服务器又将一个或多个视频发送给在给定视频通话中涉及的其他一个或多个用户。视频通话的发送和接收可以经由因特网或任何其他功能上有效的通信网络执行，其中由用户设备、中央服务器或两者根据哪个在功能上最有利来执行视频的叠加。

在本发明的所有示例/安排中，检测/识别算法可用于从实时视频馈送中鉴别和提取人类元素。可以使用以下检测/识别方法中的一个或多个(全部或部分)来从直播视频馈送中鉴别和提取人类元素：前景和背景分离、接近度识别、色度键控、手臂/身体检测、背景减除和卡尔曼滤波。此外，一旦在用户设备的主动摄像头的视野内捕获到人类元素，检测/识别算法将在视频通话的整个持续时间内实时地持续地鉴别和提取所鉴别的一个或多个人类元素。视频素材的剩余部分(从视频馈送的至少一个中未作为人类元素而鉴别和提取的视频素材)可以被移除并且不显示在任一用户设备的显示屏上。

该应用程序还可以允许用户创建用户配置文件，该用户配置文件特征在于具有关于用户、他们的通话偏好、联系人等的信息。用户配置文件可以存储在中央服务器的存储器中、用户设备上或两者上。

该应用程序可以允许许多不同的视频通话模式，包括：传统视频通话——仅前置或后置摄像头；单向触摸通话——一个用户的前置摄像头和另一个用户的后置摄像头的叠加的实时视频图像(反之亦然)；后向触摸通话——两个用户的后置摄像头的叠加的实时视频图像(通常用于显示握手等)；以及前向触摸通话——两个用户的前置摄像头的叠加的实时视频图像(通常用于显示亲吻等)。

本发明的目标是提高视频通话的质量、亲密度和娱乐价值。通过使用智能手机/平板电脑上的前置和后置摄像头，视频叠加系统给出如下印象：伸出并触摸另一个人、与他们一起玩游戏、将给他们穿上虚拟衣服等等。这种交互用传统的视频聊天是不可能的，对于长距离的夫妇、孤立的老年人、海外商业伙伴等是非常有价值的。

在一个实施例中，一种由处理器执行的叠加视频的计算机实现方法，该方法包括以下步骤：从第一用户设备接收第一直播视频；从第二用户设备接收第二直播视频；鉴别第一直播视频中的第一人类元素和第二直播视频中的第二人类元素；实时地对所述第一直播视频的一部分和所述第二直播视频的一部分进行组合以创建包括帧周界的叠加视频，在所述帧周界内包括所述第一直播视频和所述第二直播视频的组合部分，其中所述叠加视频包括所述第一人类元素和所述第二人类元素，其中，在所述叠加视频内，所述第一人类元素和所述第二人类元素可同时占据所述帧周界内的任何位置；以及将所述叠加视频发送到所述第一用户设备和所述第二用户设备中的至少一个。

在一些示例中，响应于第一直播视频中的第一人类元素和第二直播视频中的第二人类元素的实时运动，在所述叠加视频中模拟所述第一人类元素和第二人类元素之间的接触。

在其他示例中，响应于第一直播视频中的第一人类元素和第二直播视频中的第二人类元素的实时运动，在所述叠加视频中第一人类元素叠加在第二人类元素上，使得第一人类元素遮蔽第二人类元素的至少一部分。

在一些示例中，第一用户设备是移动计算设备，在其他示例中，它是个人计算机。在一些示例中，第一直播视频由第一用户设备的摄像头捕获。在其他示例中，第一直播视频由第一用户设备的至少两个摄像头同时捕获。

在其他示例中，第一直播视频由第一用户设备的后置摄像头捕获，第二直播视频由第二用户设备的前置摄像头捕获，并且在发送的叠加视频中第一人类元素遮蔽第二人类元素的至少一部分。在另一些实施例中，第一直播视频由第一用户设备的后置摄像头捕获，第二直播视频由第二用户设备的后置摄像头捕获，并且在发送的叠加视频中第一人类元素遮蔽第二人类元素的至少一部分。可替换地，第一直播视频可以由第一用户设备的前置摄像头捕获，第二直播视频由第二用户设备的前置摄像头捕获，并且在发送的叠加视频中第一人类元素遮挡第二人类元素的至少一部分。

又一个实施例可以特征在于具有用于叠加视频的计算机实现系统，包括：中央服务器，特征在于具有处理器、存储器和网络接口；第一用户设备，特征在于具有摄像头、处理器、存储器和网络接口；第二用户设备，特征在于具有摄像头、处理器、存储器和网络接口；其中，所述中央服务器接收来自第一用户设备的第一直播视频和来自第二用户设备的第二直播视频，鉴别第一视频中的第一人类元素和第二视频中的第二人类元素，实时地对所述第一视频的一部分和所述第二视频的一部分进行组合以创建包括帧周界的叠加视频，在所述帧周界内包括所述第一视频和所述第二视频的组合部分，其中，所述叠加视频包括第一人类元素和第二人类元素，其中在所述叠加视频内，所述第一人类元素和所述第二人类元素可同时占据所述帧周界内的任何位置，以及将所述叠加视频发送到所述第一用户设备和所述第二用户设备中中的至少一个。

响应于第一直播视频中的第一人类元素和第二直播视频中的第二人类元素的实时运动，该系统可以在叠加视频中模拟第一人类元素和第二人类元素之间的接触。响应于第一直播视频中的第一人类元素和第二直播视频中的第二人类元素的实时运动，该系统还可以在叠加视频中将第一人类元素叠加到第二人类元素上，使得第一人类元素遮蔽第二人类元素的至少一部分。

该系统可以在智能手机或台式计算机上运行，其中第一直播视频由第一用户设备的后置摄像头捕获，第二直播视频由第二用户设备的前置摄像头捕获，并且在发送的叠加视频中第一人类元素遮蔽第二人类元素的至少一部分。可替换地，第一直播视频可以由第一用户设备的后置摄像头捕获，第二直播视频由第二用户设备的后置摄像头捕获，并且在发送的叠加视频中第一人类元素遮蔽第二人类元素的至少一部分。另外，第一直播视频可以由第一用户设备的前置摄像头捕获，第二直播视频由第二用户设备的前置摄像头捕获，并且在发送的叠加视频中第一人类元素遮蔽第二人类元素的至少一部分。

在本文描述的系统和方法的一些示例中，叠加的视频可以仅是两个呼叫者的叠加在一起的直播视频馈送中的人类元素。在另一示例中，可以是一个呼叫者的直播视频馈送的人类元素叠加在来自第二呼叫者的完整直播视频馈送上。预期的是仅仅覆盖一个被鉴别的人类元素存在技术优势，而不是选择两个人类元素。例如，仅将一个被鉴别的人类元素覆盖在另一个呼叫者的完整视频馈送上需要较少的计算资源，并且理想地导致较少的延迟。

本公开的系统的实施例还可以包括增强现实功能。该增强现实功能可以以增强现实元素的形式并入由系统执行的视频通话中。这些元素可以是由系统生成的、被添加到叠加视频的增强现实对象、环境和/或效果。增强现实对象可以是由系统添加到视频通话中的任何二维或三维对象、卡通、表情符号、动画图形交换格式文件(.gif文件)、数字图像、头像等。增强现实环境和/或效果还可以由系统并入给定的通话内。例如，如果终端用户将动画三维昆虫增强现实对象放入由系统执行的给定视频通话中，则系统还可以将额外的嗡嗡声增强现实效果添加到所生成的最终叠加视频中。

继续上述昆虫对象的另一示例可以是终端用户选择丛林主题增强现实环境，在该环境中进行视频通话。该系统可以将来自每个呼叫参与者的人类元素放置在丛林背景上，添加丛林声音效果，并且使增强现实虫子对象全部出现在由系统生成的最终超级叠加视频内。

增强现实元素(对象、环境和/或效果)可以是被动(passive)的或主动的。如果增强现实元素是被动的，它们只是为通话添加视觉效果。然而，如果增强元素是主动的，则人类元素可以能够与这些元素(以及环境、效果等)交互。例如，如果上面提到的虫子对象本质上是主动的，那么终端用户可以能够拍打虫子或粉碎它。可以通过系统生成的叠加视频的帧周界内的人类元素的实际物理运动来执行这种交互。还可以从这种交互中生成附加的增强现实效果。例如，如果系统添加水球增强现实元素，则终端用户可以通过手部运动来将这些球“投”向彼此。用户还可以尝试通过物理运动来躲避水球，但是如果球元素在“被扔出”时遇到另一个人类元素，它将爆裂，然后留下它所接触的被覆盖在增强现实水中的任何人类元素和/或导致潮湿外观增强现实效果被施加到一个或多个接触元素。用于“用拳猛击”另一个用户的面部人类元素的拳击手套增强现实对象也可能发生这种相同的交互；使脸部元素留下黑眼圈效果。

给定的增强现实元素也可以按照两个或多个人类元素同时发挥作用。例如，如果存在绳索增强现实对象，则两个人类手元素能够抓住绳索的相对端并且进行拔河比赛。另一个示例可以是两个或多个终端用户可以同时打斗的忍者敌人增强现实对象。可以通过空间识别算法来跟踪由系统执行的视频通话的帧周界内的所有视觉元素的运动和相对位置。该算法可以实时跟踪所有视觉元素(人类元素、增强现实元素、背景等)的运动速度、加速度和动量。

本发明的又一个示例是由处理器执行的叠加视频的计算机实现方法，该方法包括以下步骤：从第一用户设备接收第一直播视频；从第二用户设备接收第二直播视频；使用检测算法持续地从所述第一直播视频中鉴别和提取第一人类元素；实时地对所述第二直播视频的一部分或全部和所述第一人类元素进行组合以创建包括帧周界的叠加视频，在所述帧周界内，所述叠加视频包括所述第一人类元素和来自所述第二直播视频的第二人类元素，其中在所述叠加视频内，所述第一人类元素和所述第二人类元素可同时占据所述帧周界内的任何位置；在所述帧周界内插入增强现实元素，使得所述叠加视频包括从所述第一直播视频提取的第一人类元素、来自所述第二直播视频的第二人类元素和增强现实对象；以及将所述叠加视频发送到所述第一用户设备和所述第二用户设备中的至少一个；其中，由所述第一用户设备的后置摄像头捕获所述第一直播视频，并且响应于所述第一人类元素相对于所述第一用户设备的运动，在发送的叠加视频中所述第一人类元素遮蔽所述第二人类元素的至少一部分。在一些示例中，响应于所述第一人类元素相对于所述第一用户设备和所述第二人类元素相对于所述第二用户设备的实时运动，该方法在所述叠加视频中模拟所述第一人类元素和所述第二人类元素之间的接触。

在另一示例中，本发明体现在用于叠加视频的计算机实现系统，包括：中央服务器，特征在于具有处理器、存储器和网络接口；第一用户设备，特征在于具有摄像头、处理器、存储器和网络接口；第二用户设备，特征在于具有摄像头、处理器、存储器和网络接口；其中，所述中央服务器、所述第一用户设备的处理器和所述第二用户设备的处理器中的一个：接收来自第一用户设备的第一直播视频和来自第二用户设备的第二直播视频；使用检测算法持续地从所述第一直播视频中鉴别和提取第一人类元素；实时地对所述第二直播视频的一部分或全部和所述第一人类元素进行组合以创建包括帧周界的叠加视频，在所述帧周界内所述叠加视频包括第一人类元素和来自所述第二直播视频的第二人类元素，其中在所述叠加视频内，所述第一人类元素和所述第二人类元素可同时占据所述帧周界内的任何位置；在所述帧周界内插入增强现实元素，使得所述叠加视频包括从所述第一直播视频提取的第一人类元素、来自所述第二直播视频的第二人类元素和增强现实对象；以及将所述叠加视频发送到所述第一用户设备和所述第二用户设备中的至少一个；其中，由所述第一用户设备的后置摄像头捕获所述第一直播视频，并且响应于所述第一人类元素相对于所述第一用户设备的运动，在发送的叠加视频中所述第一人类元素遮蔽所述第二人类元素的至少一部分。

在以上示例的实施例中，第一用户设备是移动计算设备。在其他示例中，第一用户设备是个人计算机。第一直播视频可以由第一用户设备的至少两个摄像头同时捕获。第二直播视频可以由第二用户设备的前置摄像头捕获。第二直播视频可以由第二用户设备的后置摄像头捕获。检测算法可以包括以下各项中的任何一项或多项：前景和背景分离、接近度识别、色度键控、手臂/身体检测、背景减除和卡尔曼滤波。

在一些示例中，增强现实元素在叠加视频内是被动的。在其他示例中，增强现实元素在叠加视频内是主动的并且在叠加视频内响应于第一人类元素相对于第一用户设备的运动以及第二人类元素相对于第二用户设备的运动。

本发明的优点是，该应用程序为传统视频通话提供了另一个维度，并且允许彼此分开的朋友和家人不仅体验到能够通过互联网连接从任何地方触摸他们所爱的人的感觉，而且也变得沉浸在增强现实中。本发明可以允许爬珠穆朗玛峰的某人呼叫在亚马逊热带雨林的深处的某人，并且双方可以模拟彼此相邻以及还几乎将滑稽的贴纸贴于彼此等。

将部分地在下面的描述中阐述实施例的其他目的、优点和新颖特征，并且部分地对于本领域技术人员在研究以下描述和附图时将变得显而易见，或者可以是通过示例的生产或操作来学习。借助于所附权利要求中特别指出的方法、手段和组合，可以实现和获得本概念的目的和优点。

附图说明

附图仅通过示例而非限制的方式描绘了根据本发明构思的一个或多个实施方式。在附图中，相同的附图标记表示相同或相似的元件。

图1是多馈(multi-feed)视频通话系统的示意图。

图2是示出可以在图1所示的系统中使用的终端用户设备的示例的示意图。

图3是示出由处理器执行的叠加视频的计算机实现方法的流程图。

图4示出多馈视频通话系统叠加视频。

图5A示出使用多馈视频通话系统的单向触摸通话(One Way Touch call)。

图5B是示出多馈视频通话系统的组件使用图3中所示的处理如何协作以完成单向触摸通话的混合示意流程图。

图5C示出在单向触摸通话中显示叠加视频的用户设备。

图6A示出使用多馈视频通话系统的前触摸通话。

图6B是示出多馈视频通话系统的组件使用图3中所示的处理如何协作以完成前向触摸通话(front touch call)的混合示意流程图。

图7A是使用多馈视频通话系统的后向触摸通话的概览图。

图7B是示出多馈视频通话系统的组件使用图3中所示的处理如何协作以完成后触摸通话的混合示意流程图。

图8A是使用多馈视频通话系统的多路触摸通话(Multi-Way Touch call)的概览图。

图8B是示出多馈视频通话系统的组件使用图3中所示的处理如何协作以完成多路触摸通话的混合示意流程图。

图9A是示出由处理器执行的以增强现实元素为特征的叠加视频的计算机实现方法的流程图。

图9B是由系统执行的增强现实视频通话的示图。

图9C是由以增强现实背景为特征的系统执行的增强现实视频通话的示图。

图9D是展示在增强现实视频通话期间，人类元素如何与增强现实元素交互的示图。

图9E是示出由以增强现实元素为特征的多源视频叠加系统10创建的叠加视频。

图9F示出由多源视频叠加系统添加到叠加视频馈送的增强现实元素的另一示例。

图9G示出由多源视频叠加系统添加到叠加视频馈送的一个或多个增强现实元素的又一示例。

图9H是使用多馈视频通话系统添加到视频通话的增强现实元素的流程图。

图10是使用多馈视频通话系统和虚拟现实头戴式耳机的增强现实加强的视频通话的概览图。

具体实施方式

图1是多馈视频通话系统10的示意图。如图1所示，系统10特征在于具有多个终端用户设备20。每个终端用户设备20(例如，手提电脑、智能手机、平板电脑等)通过其一个或多个无线通信子系统120从终端用户设备相机子系统116向中央服务器30发送视频210，并从中央服务器30接收视频210以通过终端用户设备I/O系统128和终端用户设备音频系统124进行显示和输出。如图2所示，相机子系统116可以包括例如智能手机的前置摄像头118和后置摄像头119。

如本文进一步描述的，系统10的主要目的是使第一直播视频212的一部分能够叠加在第二直播视频214(如图4中所例示)上，以产生叠加的视频310(如图4所例示)，其中来自第一直播视频212和第二直播视频214中的每一个的人类元素(例如，第一人类元素216和第二人类元素218-在图4中也可见)可以交互并且在相对于彼此的任何位置中显示，以对来自第一直播视频212和第二直播视频214中的每一个的在同一物理空间中要存在的人类元素的外观进行模拟。

如图1所示，如本文进一步描述的，中央服务器30包括处理器31和存储器32以及网络接口33，处理器31和存储器32用于执行视频210的叠加(例如，将第一直播视频212的一部分和第二直播视频214的一部分组合成叠加的视频310)，网络接口33用于与用户设备20通信，如进一步所述。然后，由服务器30创建的叠加视频310(如图4所示)被发送回用户设备20。叠加的视频310模拟用户对于彼此的物理存在。

应当注意，在上述示例中，在中央服务器30上执行对视频210的分析、处理和变换。在备选实施例中，可以在一个或多个终端用户设备20上执行这些动作中的一些或全部。

图2是例示终端用户设备20的示例的示意图，用户设备20可以用于图1中所示的系统中。在图2所示的示例中，多馈视频通话系统10作为在终端用户设备20上的视频会议软件164中体现的视频会议应用程序而运行。如图2所示，终端用户设备20可以是移动设备(诸如智能手机)，运行视频会议软件164以提供本文描述的功能。用户可以经由Apple的AppStore、Android Market等在他的或她的终端用户设备20上安装视频会议软件164。终端用户设备20可以包括无线通信子系统120，以与运行视频会议软件164的中央服务器30通信。

用户设备20可以包括存储器接口102、控制器103(诸如一个或多个数据处理器、图像处理器和/或中央处理器)以及外围设备接口106。存储器接口102、一个或多个控制器103和/或外围设备接口106可以是单独的组件，或者可以集成在一个或多个集成电路中。如本领域技术人员将认识到的，用户设备20中的各种组件可以通过一个或多个通信总线或信号线耦接。

传感器、设备和附加子系统可以耦接到外围设备接口106以促进各种功能。例如，运动传感器108(例如，陀螺仪)、光传感器163和定位传感器112(例如，GPS接收器、加速度计)可以耦接到外围设备接口106，以促进本文进一步描述的定向、照明和定位功能。其他传感器114(诸如接近传感器、温度传感器、生物识别传感器或其他传感设备)也可以连接到外围设备接口106，以促进相关功能。

相机子系统116包括物理相机(例如，电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器)，其可用于促进相机功能，例如记录照片和视频剪辑。现代智能手机和其他设备通常具有以下特征：由相机子系统116操作的多于一个的物理相机。这些相机可以位于设备20的前面-设备的具有屏幕的一侧(例如，前置摄像头118)、或位于设备20的后面-与屏幕相对的一侧(例如，后置摄像头119)。

可以通过网络接口来促进通信功能，诸如一个或多个无线通信子系统120，所述一个或多个无线通信子系统120可以包括射频接收器和发射器和/或光学(例如，红外)接收器和发射器。通信子系统120的具体设计和实现可以取决于用户设备20想要操作的通信网络。例如，用户设备20可以包括被设计为在GSM网络、GPRS网络、EDGE网络、Wi-Fi或Imax网络以及蓝牙网络上操作的通信子系统120。具体地，无线通信子系统120可以包括托管协议(hosting protocol)，使得用户设备20可以被配置为用于其他无线设备的基站。

音频子系统122可以耦接到扬声器124和麦克风126以促进启用语音功能，例如语音识别、语音复制、数字录音和电话功能。

I/O子系统128可以包括触摸屏控制器130和/或其他输入控制器132。触摸屏控制器130可以耦接到触摸屏134，诸如触摸屏。触摸屏134和触摸屏控制器130可以例如使用多种触摸灵敏度技术(包括但不限于电容、电阻、红外和表面声波技术)以及用于确定触摸屏134的一个或多个接触点的其他接近传感器阵列或其他元件中的任何一种来检测接触和运动或其中断。其他输入控制器132可以耦接到其他输入/控制设备136，诸如一个或多个按钮、摇臂开关、拇指轮、红外端口、USB端口和/或诸如触针的指针设备。一个或多个按钮(未示出)可以包括用于扬声器124和/或麦克风126的音量控制的上/下按钮。

存储器接口102可以耦接到存储器104。存储器104可以包括高速随机存取存储器和/或非易失性存储器，诸如一个或多个磁盘存储设备、一个或多个光存储设备和/或闪存(例如，NAND、NOR)。存储器104可以存储操作系统指令140(诸如Darwin、RTXC、LINUX、UNIX、OS X、iOS、ANDROID、BLACKBERRY OS、BLACKBERRY10、WINDOWS)或嵌入式操作系统(诸如VxWorks)。操作系统指令140可以包括用于处理基本系统服务的指令和用于执行硬件相关任务的指令。在一些实施方式中，操作系统指令140可以是内核(例如，UNIX内核)。

存储器104还可以存储通信指令142以促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。存储器104可以包括：图形用户界面指令144，以促进图形用户界面处理；传感器处理指令146，以促进与传感器相关的处理和功能；电话指令148，以促进电话相关的处理和功能；电子消息传递指令150，以促进电子消息传递相关的处理和功能；网页浏览指令152，以促进与网络浏览相关的处理和功能；媒体处理指令154，以促进与媒体处理相关的处理和功能；GPS/导航指令156，以促进GPS和导航相关的处理和指示；相机指令158，以促进相机相关的处理和功能；和/或其他软件指令160，以促进其他处理和功能(例如，访问控制管理功能等)。如本领域技术人员将认识到的，存储器104还可以存储控制用户设备20的其他处理和功能的其他软件指令。在一些实现方式中，媒体处理指令154被分成音频处理指令和视频处理指令，以分别促进与音频处理相关的处理和功能以及与视频处理相关的处理和功能。激活记录和国际移动设备身份(IMEI)162或类似的硬件标识符也可以存储在存储器104中。如上所述，视频会议软件164也存储在存储器104中并由控制器103运行。

以上被识别的指令和应用程序中的每一个可以对应于用于执行本文描述的一个或多个功能的一组指令。这些指令不需要作为单独的软件程序、过程或模块来实现。存储器104可以包括附加指令或更少指令。此外，用户设备20的各种功能可以以硬件和/或软件实现，包括在一个或多个信号处理和/或专用集成电路中。因此，如图2所示，用户设备20可以适于执行本文描述的功能的任何组合。

由一个或多个控制器103控制本文描述的系统和方法的各方面。一个或多个控制器103可以适于运行各种应用程序、访问和存储数据(包括访问相关数据库中的数据和将数据存储在相关数据库中)，并且经由用户设备20能够实现一个或多个交互。通常，一个或多个控制器103由一个或多个可编程数据处理设备实现。这些设备的硬件元件、操作系统和编程语言本质上是常规的，并且假设本领域技术人员对其充分熟悉。

例如，一个或多个控制器103可以是利用中央处理单元(CPU)、存储器和互连总线的中央控制处理系统的基于PC的实现方式。CPU可以包含单个微处理器，或者它可以包含多个微控制器103，以用于将CPU配置为多处理器系统。存储器包括主存储器(诸如动态随机存取存储器(DRAM)和高速缓冲)以及只读存储器(诸如PROM、EPROM、FLASH-EPROM等)。该系统还可以包括任何形式的易失性或非易失性存储器。在操作中，主存储器是非暂时性的，并且存储用于由CPU执行的至少部分指令，以及存储用于根据被执行指令的处理的数据。

一个或多个控制器103还可以包括适当的输入/输出端口，以用于与一个或多个输出显示器(例如，监视器、打印机、触摸屏134、运动感测输入设备108等)和一个或多个输入机构(例如，键盘、鼠标、语音、触摸、生物电设备、磁读取器、RFID读取器、条形码读取器、触摸屏134、运动感测输入设备108等)互连，用作处理器的一个或多个用户接口。例如，一个或多个控制器103可以包括驱动输出显示的图形子系统。外围设备到系统的链路可以是有线连接或使用无线通信。

尽管以上概述为智能手机型实现方式，但是本领域技术人员将认识到，一个或多个控制器103还包括诸如主计算机、服务器、工作站、网络终端、PC等的系统。另外的一个或多个控制器103可以体现在用户设备20中，诸如移动电子设备，如智能电话或平板电脑。实际上，术语控制器的使用旨在表示本领域公知的广泛类别的组件。

图3是示出由处理器31执行的叠加视频210的计算机实现方法的流程图。如图3所示，由处理器31执行的叠加视频210的方法从处理器31开始，在第一步骤240，从第一用户的设备20接收第一直播视频212。图4示出处理器31的接收240，其中第一用户的用户设备20将第一直播视频212(在这种情况下，由用户的后置摄像头119捕获的视频210)发送到包含中央服务器30的处理器31。由处理器31执行的叠加视频210的第二步骤242是从第二用户的设备20接收第二直播视频214。再次参考图4，示出由处理器31从第二用户的设备20接收第二直播视频214(其中由第二用户的前置摄像头118捕获第二直播视频214)。该方法的第三步骤244要求处理器31通过使用检测/识别算法而鉴别第一视频212中的第一人类元素216和/或第二视频214中的第二人类元素218。在图4中示出这样的人类元素216和人类元素218，其中第一人类元素216是手(由第一用户的后置摄像头119捕获)，并且第二人类元素218是脸部(由第二用户的前置摄像头118捕获)。

第四步骤246要求系统10通过使用检测/识别算法而从它们各自的视频持续地鉴别和提取第一人类元素216(在第一视频212中被鉴别)和/或第二人类元素218(在第二视频214中被鉴别)。可以通过检测/识别算法或单独的程序段来执行提取，并且用于提取给定人类元素的方法可以基于对于给定终端用户组可用的技术资源而变化。例如，如果具有较慢计算组件的用户利用所述系统10，则可以由系统自动地选择所使用的提取方法(例如，前景和背景分离、接近度识别、色度键控、手臂/身体检测、背景减除和/或卡尔曼滤波)，以尽可能少地利用处理器31的功率。

由处理器31执行的叠加视频210的计算机实现方法的第五步骤248，实时地对第一视频213的一部分和第二视频215的一部分进行组合，以创建包括帧周界(frameperimeter)309的叠加视频310，在帧周界309中包含第一视频212和第二视频214的组合部分，其中叠加的视频310包括提取的第一人类元素216和第二人类元素218，其中，在叠加视频310中，第一人类元素216和第二人类元素218可以同时占据帧周界309内的任何位置，并且帧周界309内的人类元素216和/或人类元素218的位置响应这些人类元素216和/或第二人类元素218相对于其相应的终端用户设备20的运动。应当注意，系统可以单方面地从一个视频中提取人类元素(例如，在该示例中，第一人类元素216或第二人类元素218)，而不需要在视频212和视频214中均存在人类元素。

多馈视频通话系统10的一个关键特征在于：在叠加视频310中，第一人类元素216和第二人类元素218分别能够占据叠加视频310的任何部分。在图4所示的示例中，该特征由第一人类元素216或第二人类元素218占据帧周界309内的任何空间的能力表现，并且示出帧周界309占据了设备20上的整个显示器。虽然这是一个预期的示例，但是应理解，用于叠加视频310的帧周界309可以占据设备20上的显示器的较小部分。与第一人类元素216或第二人类元素218各自占据帧周界309内的任何空间的能力相关的关键概念在于：第一人类元素216和第二人类元素218可以占据屏幕上的相邻位置，可以彼此分离，并且可以在彼此的前面或后面通过，或者可以由这些相对位置的任何组合表现。例如，第一人类元素216的某一部分可以被示出为正接触第二人类元素218，而第一人类元素216的其他部分可以被示出为与第二人类元素218分离。

实时组合的第一视频213的一部分和第二视频215的一部分可以仅是提取的第一人类元素216和第二人类元素218，或者可以包括来自直播视频212和直播视频214的更多视频210。除了人类元素216和人类元素218之外，该附加视频210可以包括背景219。在图4中示出这样的背景219(在这种情况下是简单的纯色)，其中人类元素216和人类元素218能够占据帧周界309内的任何空间并且彼此独立地运动并且和独立于背景219运动。系统10可以生产以下背景219：该背景219通过设备20的摄像头118和摄像头119捕获并从直播视频212和直播视频213中的任一个提取。在图4所示的示例中，第一人类元素216(手)叠加在第二人类元素218(面部)的顶部，其中两个元素216和218能够同时占据相同的位置。在该示例中，由于由处理器31将第一人类元素216叠加在第二人类元素218上，因此手能够遮蔽叠加视频310中的面部。帧周界309(也在图4中示出)是叠加视频310的定义尺寸(例如，宽高比等)，该定义尺寸可以由处理器31基于提供给它的视频210自动确定。

由处理器31执行的叠加视频210的计算机实现方法的最后步骤250是，将叠加的视频310发送到用户设备20。这种传输如图4所示，其中在第一用户的设备20和第二用户的设备20上显示叠加的视频310。此处值得注意的是，图4所示的示例利用一个用户设备20的前置摄像头118和一个用户设备20的后置摄像头119，但是本发明还可以利用设备20的面向相同方向的多个摄像头以同时捕获视频210。具有面向相同方向的多个摄像头的一个这样的设备20是iPhone 7，其能够将由多个摄像头捕获的图像复合或缝合在一起以提供广角图像、更高的图像质量等。本发明可以利用这样的功能，以改善在其上执行的视频通话的质量。

另外，图4示出了两个人类元素216和218，其可以同时占据帧周界309内的相同位置。这导致人类元素216中的一个能够遮蔽另一个人类元素218。本系统10还可以被配置为防止所鉴别和提取的人类元素216和人类元素218彼此遮蔽的方式。实际上，人类元素216和人类元素218将被视为“实体(solid)”而不是一个元素216能够越过并遮蔽另一个元素218，其中背景219、帧周界309等由系统10自动地调整以防止这种重叠。

图5A是使用多馈视频通话系统10的单向触摸通话的概览图。如图5A所示，一个用户的前置摄像头118(呼叫者2)和另一个用户的后置摄像头119(呼叫者1)的实时叠加的视频310显示给两个用户。在该示例中，来自呼叫者2的设备的前置摄像头118的视频210显示在呼叫者1和呼叫者2的设备20二者的屏幕上，其中来自呼叫者1的设备的后置摄像头119的视频210叠加在呼叫者2的前置摄像头118的视频210上，允许呼叫者1通过由视频210的叠加创建的错觉来“触摸”(即，看到他们的手或其他人类元素叠加在另一个用户的面部和/或身体上)呼叫者2。在该示例中，第一人类元素216与呼叫者1的手相关联，并且第二人类元素218与呼叫者2的面部、颈部和上部躯干相关联。然而，应该注意，关于第一人类元素216和第二人类元素218的标签可以在该示例(以及图6A、7A和8A中所见到的示例)中颠倒，因为哪个人类元素被标记为第一人类元素和第二人类元素不自动地指示哪个元素将叠加在另一个元素上。

图5B是使用多馈视频通话系统10的单向触摸通话的流程图。如图5B所示，将由系统10叠加的视频210源自相应呼叫者的终端用户设备20。一个用户(呼叫者1的)后置摄像头119和另一个用户(呼叫者2的)前置摄像头118将视频210发送到中央服务器30。在该实施例以及图3C、图4B、图5B和图6B所示的实施例中，系统10可以自动地确定哪个用户的视频210被叠加在另一个上(例如，哪个人类元素(手、面部、躯干等)被叠加到叠加视频310中显示的其他一个或多个人类元素上)。在其他实施例中，确定视频210的哪个或哪些人类元素彼此叠加也可以由给定视频通话的参与者手动地设置，或者系统10可以设置为不叠加人类元素。视频210可以经由因特网或任何其他功能上有用的装置发送，其中中央服务器30接收单独的视频210、分析它们、从视频210移除无关信息(例如，纯色背景等)、以及将两个分别的视频210组合为一个叠加的视频310。然后，叠加的视频310经由因特网或任何其他功能上有用的装置被发送回在视频聊天中涉及的用户设备20。

在该示例中，第一直播视频212与呼叫者1相关联，并且第二直播视频214与呼叫者2相关联。然而应当注意，在该示例(以及如图6B、7B和8B中所见的示例)中可以颠倒关于直播视频212和直播视频214的标签，因为视频212和视频214哪个被标记为第一和第二不自动地指示哪一个将叠加在另一个上。

图5C是显示单向触摸通话的用户设备20的示图。如图5C所示，终端用户设备20可以显示叠加的视频310，其在该示例中叠加视频310特征在于具有来自呼叫者2(如图3A所示)的设备的前置摄像头118的视频210以及叠加在呼叫者2的前置摄像头118视频210上的来自呼叫者1的设备的后置摄像头119的视频210，允许呼叫者1经由叠加的视频310内显示的错觉来“触摸”(即，看到他们的手或其他人类元素叠加在另一个用户的面部和/或身体上)呼叫者2。

图6A是使用多馈视频通话系统10的前向触摸通话的概览图。如图6A所示，两个用户(呼叫者1和呼叫者2)的前置摄像头118的实时叠加的视频310被显示给两个用户。在该示例中，来自呼叫者1的设备的前置摄像头118的视频210在呼叫者1的和呼叫者2的设备20的屏幕上显示，其中来自呼叫者2的设备的前置摄像头118视频210叠加在呼叫者2的前置摄像头118视频210上，允许用户看起来是物理上并排的。

图6B是使用多馈视频通话系统10的前向触摸通话的流程图。如图6B所示，将由系统10叠加的视频210源自各个呼叫者的终端用户设备20。两个用户(呼叫者1和呼叫者2)的前置摄像头118将视频210发送到中央服务器30。视频210可以经由互联网或任何其他功能上有用的装置发送，其中中央服务器30接收单独的视频210、分析它们、从视频210中移除无关信息(例如，纯色背景等)、以及将两个相应的视频210组合成一个叠加的视频310。然后，将叠加的视频310经由互联网或任何其他功能上有用的装置发送回在视频聊天中涉及的用户设备20。

图7A是使用多馈视频通话系统10的后向触摸通话的概览图。如图7A所示，两个用户(呼叫者1和呼叫者2)的后置摄像头119的实时叠加的视频310显示给两个用户。在该示例中，来自呼叫者1的设备的后置摄像头的视频210显示在呼叫者1和呼叫者2的设备20屏幕上，其中来自呼叫者2的设备的后置摄像头119的视频210叠加在呼叫者1的后置摄像头视频210上，形成叠加的视频310，并允许用户看起来物理上牵手等。

图7B是使用多馈视频通话系统10的后向触摸通话的流程图。如图7B所示，将由系统10叠加的视频210源自相应的呼叫者的终端用户设备20。两个用户(呼叫者1和呼叫者2)的后置摄像头119将视频210发送到中央服务器30。视频210可以经由互联网或任何其他功能上有用的装置发送，其中中央服务器30接收单独的视频210、分析它们、从视频210移除无关信息(例如，纯色背景等)、并将两个相应视频210组合成一个叠加的视频310。然后，经由互联网或任何其他功能上有用的装置将叠加的视频310发送回视频聊天中涉及的用户设备20。

图8A是使用多馈视频通话系统10的多路触摸通话的概览图。如图8A所示，第一用户(呼叫者1)的前置摄像头118和第二用户(呼叫者2)的后置摄像头119的实时叠加的视频310显示给第二用户，其中第二用户(呼叫者2)的前置摄像头118和第一用户(呼叫者1)的后置摄像头119的视频的实时叠加的视频310显示给第一用户。通过视频叠加实现的视觉效果，这允许两个用户同时“触摸”另一个用户。

图8B是使用多馈视频通话系统10的多路触摸通话的流程图。如图8B所示，将由系统10叠加的视频210源自相应呼叫者的终端用户设备20。两个用户的后置摄像头119和前置摄像头118将视频210发送到中央服务器30。视频可以经由互联网或任何其他功能上有用的装置发送，其中中央服务器30接收单独的视频210、分析它们、从视频210移除无关信息(例如，纯色背景等)、并将四个相应的视频210组合成两个叠加的视频310(如图8A所讨论的)。然后，经由互联网或任何其他功能上有用的装置将叠加的视频310发送回视频聊天中涉及的相应用户设备20。

图9A是示出由处理器31执行的以增强现实元素410为特征的叠加视频210的计算机实现方法的流程图。如图9A所示，由处理器31执行的叠加的视频310的方法开始于，在第一步骤401，处理器31从第一用户的设备20接收第一直播视频210。图9H示出处理器31的接收，其中第一用户的用户设备20向包含中央服务器30的处理器31发送第一直播视频212(在这种情况下，由用户的后置摄像头119捕获的视频)。由处理器31执行的叠加视频210的第二步骤402，从第二用户的设备20接收第二直播视频214。再次参考图9H，示出由处理器31从第二用户的设备20接收第二直播视频214(第二直播视频214由第二用户的后置摄像头119捕获)。该方法的第三步骤403要求处理器31(在服务器30内)通过使用检测/识别算法来鉴别第一视频212中的第一人类元素216和/或第二视频214中的第二人类元素218。图9B-9G中示出这些人类元素，其中第一人类元素216是手(由第一用户的后置摄像头119捕获)，第二人类元素218是面部(由第二用户的前置摄像头118捕获)或手(由第二用户的后置摄像头119捕获)。然而，人类元素可以是任何身体部位或假肢，甚至可以是非人类生物(例如，狗、猫、大猩猩等)的身体部位。系统10还可以仅从一个终端用户(216或218)捕获人类元素并将其发送到两者。

第四步骤404要求系统10从它们各自的视频中持续地鉴别和提取第一人类元素216(在第一视频212中被鉴别)和/或第二人类元素218(在第二视频214中被鉴别)。可以通过检测/识别算法或单独的程序段来执行提取，并且被用于提取给定人类元素的方法可以基于对于给定的最终用户组可用的技术资源而变化。

由处理器31执行的叠加视频210的计算机实现方法的第五步骤405，实时地组合第一视频212的一部分和第二视频214的一部分，以创建包括帧周界309的叠加的视频，在帧周界309内包含第一视频212和第二视频214的组合部分，其中叠加的视频310包括第一人类元素216和第二人类元素218，其中，在叠加的视频310内，第一人类元素216和第二人类元素218可以同时占据帧周界309内的任何位置，并且帧周界309内的人类元素216和/或人类元素218的位置响应于这些人类元素216和/或人类元素218相对于它们相应的终端用户设备20的运动。如上所述，系统可以单方面捕获人类元素(216或218)，而不需要发生针对待呈现的另一个人类元素的捕获、提取、发送等。

以增强现实元素为特征的叠加视频的方法的第六步骤406是将叠加的视频310(在步骤404中生成)与至少一个增强现实元素410组合。可以在图9B-图9G中看到例示的这些元素，并且可以使用这些元素来增强或改变在叠加的视频310中看到的人类元素216和人类元素218。

由处理器31执行的以增强现实元素410为特征的叠加视频210的计算机实现方法的最后步骤407，将叠加的视频310发送到用户设备20。在图9E中示出这种发送，其中叠加的视频310显示在第一用户和第二用户的设备20上。此处值得注意的是，图9E所示的示例利用一个用户设备20的前置摄像头118和一个用户设备20的后置摄像头119，但是本发明也可以利用设备20的面向相同方向的多个摄像头以同时捕获视频。具有面向相同方向的多个摄像头的一种这样的设备是iPhone 7，其能够将由多个摄像头捕获的图像复合或缝合在一起以提供广角图像、更高的图像质量等。本发明还可以利用给定设备或多个设备的任何和所有其他摄像头来同时捕获视频。

图9B是由系统10执行的增强现实视频通话的示图。如图9B所示，其中第一用户的用户设备20将第一直播视频212(在这种情况下由第一用户的后置摄像头119捕获的视频210)发送到包含中央服务器30的处理器31。示出由处理器31从第二用户的设备20接收第二直播视频214(第二直播视频214由第二用户的前置摄像头118捕获)。然后，处理器31鉴别第一视频212中的第一人类元素216和第二视频214中的第二人类元素218。图4中示出这样的人类元素216和人类元素218，其中第一人类元素216是手(由第一用户的后置摄像头119捕获)，第二人类元素218是面部(由第二用户的前置摄像头118捕获)。

增强现实的多馈视频通话系统10的关键特征在于，在叠加的视频310内，第一人类元素216和第二人类元素218分别能够占据叠加的视频310的任何部分。在图9B所示的示例中，该特征由第一人类元件216或第二人类元素218的任一个占据帧周界309内的任何空间的能力表示，并且帧周界309被示出以占据设备20上的整个显示器。虽然这是一个预期的示例，但是应当理解，用于叠加的视频310的帧周界309可以另外占据设备20上的显示器的较小部分。与第一人类元素216或第二人类元素218的任一个占据帧周界309内的任何空间的能力相关的关键概念在于：第一人类元素216和第二人类元素218可以占据屏幕上的相邻位置、可以彼此分开、并且可以在彼此的前面或后面通过、或者可以由这些相对位置的任何组合表示。例如，第一人类元素216的某一部分可以被示出为正触摸第二人类元素218，而第一人类元素216的其他部分可以被示出为与第二人类元素218分离。

实时组合的第一视频213的一部分和第二视频215的一部分可以仅是第一人类元素216和第二人类元素218，或者可以包括来自直播视频212和直播视频213的更多视频210。除了人类元素216和人类元素218之外，该附加的视频210可以包括背景219和增强现实元素410。在图9B中示出这样的背景219(在这种情况下是纯色)，其中人类元素216和人类元素218能够占据帧周界309内的任何空间并且彼此独立地移动并且独立于背景219而移动。

背景219可以由系统10生成或者由设备20的摄像头118、摄像头119捕获。在图4所示的示例中，第一人类元素216(手)叠加在第二人类元素218(面部)上，其中两个元素216、218能够同时占据相同的位置。在该示例中，由于第一人类元素216由处理器31叠加在第二人类元素218上，因此手能够遮蔽叠加的视频310中的面部。帧周界309(也在图4中示出)是叠加的视频310的定义尺寸(例如，宽高比等)，所述定义尺寸可以由处理器31基于提供给它的视频210自动地确定。

该示例中的增强现实元素410是帽子。系统10可以将帽子增强现实元素410自动地放置在适当的相应人类元素上(例如，头上的帽子、手上的拳击手套等)，并且还可以被放置在帧周界309内的任何地方。人类元素216、人类元素218可以被设置为与增强现实元素410交互(例如，撞击它、推动它、粉碎它)、穿过物体410或者使元素410被人类元素216和/或人类元素218遮蔽。还应注意，人类元素216和人类元素218不是最终叠加的视频310的唯一部分，人类元素216和人类元素218可以与增强现实元素410、与其他增强现实元素410交互，并且背景219也可能与给定的增强现实元素410交互。

还应当注意，可以首先彼此叠加直播视频213的一部分、直播视频215的一部分，然后，在所示的第二不同步骤中添加一个或多个增强现实元素410，或者本系统10可以同时全部组合最终叠加的视频310的各个部分(例如，人类元素216和人类元素218、背景219和/或一个或多个增强现实元素410)。最终叠加视频310中的各个部分的叠加的又一其他序列也是可能的，包括：在将两个视频馈送(213和215)的部分彼此叠加之前，系统10将增强现实元素410叠加在来自视频馈送(212或214)的一个的一部分(213或215)的人类元素(216或218)上。

叠加的视频310的发送显示在第一用户和第二用户的设备20上。值得注意的是，图9B所示的示例利用一个用户设备20的前置摄像头118和一个用户设备20的后置摄像头119，但是本发明还可以利用设备20的面向任何方向的任何摄像头以同时捕获视频210。

图9C是由系统10执行以增强现实背景219为特征的增强现实视频通话的示图。类似于图9B中所示的步骤，图9C中所示的步骤具有以下特征：两个视频213和215的部分的叠加和增强现实元素410的添加。在该示例中，增强现实元素410是帽子和热带背景219二者。为了在该示例中实现该效果，系统10从直播视频流212和直播视频流214鉴别人类元素216和人类元素218。然后，系统10将包含人类元素212和人类元素214的直播视频213的一部分和直播视频215的一部分放置在帧周界309内。人类元素212和人类元素214可以在该帧周界309内自由移动，其中系统10放置热带环境的增强现实元素410并作为背景219。由于在热带地区是晴天，系统10还可以为帧周界309内所示的人类元素而产生各种视觉效果。例如，在该示例中，第二用户的视频215的一部分以头部和上部躯干为特征，作为人类元素218。该人类元素218的面部、头部和/或颈部在叠加的视频310内可以具有对其施加的晒伤效果。为了抵消这种增强现实效果，第一人类元素216可以与帽子增强现实元素410交互，并将帽子放置在第二人类元素218的头上。在增强现实元素410就位的情况下，系统10可以在叠加的视频310内移除晒伤效果。

图9D是展示在增强现实视频通话期间人类元素216如何与增强现实元素410交互的示图。如图9D所示，在该示例中，增强现实元素410是虫子。虫子增强现实元素410可以是静止的或活动的(例如，围绕帧周界309内的区域爬行)。在该示例中，人类元素中的一个(来自第一视频馈送212的手元素216)运动以从视觉上遮蔽增强现实虫子元素410中的一个。手元素216可以瞬间简单地遮蔽元素或者导致系统10将虫子元素410显示为被手元素216压扁。可以通过监视手元素216和增强现实元素410在帧周界309内的相对位置来实现这种效果。系统10还可以跟踪每个人类元素压扁了多少个虫子并将其作为视频通话的参与者之间的比赛的一部分。

应当注意，在给定的多源视频通话期间，多个人类元素可以与增强现实元素410交互。例如，两个人类元素可能会去压扁相同的虫子元素410，并且反而将虫子打到一边。在另一示例中，两个人类元素可能能够经由绳索增强现实元素410彼此进行拔河比赛，或者一起组队并且对抗增强现实忍者元素410。

图9E示出由以增强现实元素410为特征的多源视频叠加系统10创建的叠加视频310。所示的叠加视频310是从视频馈送210创建的，所述视频馈送210从第一用户的后置摄像头119和第二用户的前置摄像头118捕获。这样的摄像头可以集成到任何形式的计算设备(即，终端用户计算设备20)中，并且可以包括智能手机、平板电脑、个人计算机、智能电视等。这些计算设备可以将由其相应的摄像头(119、118)捕获的一个或多个视频馈送210发送到中央服务器30。该中央服务器30可以负责视频馈送210的叠加，和将增强现实元素410添加到叠加视频310(在图9A和9H中讨论的)。

多源视频叠加系统10可以使用人类元素检测算法来鉴别两个用户在他们各自的视频馈送210中的人类元素(诸如面部/眼睛/头部/手臂/躯干等等)。然后，除了与增强现实效果和/或动画交互之外，这些人类元素还可以在叠加视频中彼此交互。另外，可以将由系统10检测到的人类元素放置在以增强现实元素410为特征的帧周界309中，使得终端用户能够进一步彼此交互。

如图9E所示，系统10使得来自第一用户的视频馈送212的手元素(第一人类元素216)能够将增强现实元素(棒球帽)410放置在来自第二用户的视频馈送214的头部元素(第二人类元素218)上。该动作实时显示在至少一个终端用户(在这种情况下是第一用户)的计算设备20上，其中所有动作都包含在帧周界309内(周界是本例中用户设备屏幕的尺寸)。

图9F示出被添加到由多源视频叠加系统10馈送的叠加视频310的增强现实元素410的另一示例。如图9F所示，来自第一用户的视频馈送212的手元素216具有增强现实拳击手套元素410，该手套元素410被放置在显示给一个或多个终端用户的叠加视频馈送310中的手上。然后，第一用户的拳击手套覆盖的手可以具有与第二用户的视频馈送214的面部元素218交互的能力。该交互可以包括遮蔽面部但是还可以包括在第二用户的面部元素218上创建伤口、瘀伤等的增强现实视觉再现。

图9G示出由多源视频叠加系统10添加到叠加视频馈送310的一个或多个增强现实元素310的又一示例。如图9G所示，第一用户(216)和第二用户(218)的叠加的两个手元素二者能够彼此交互并且还与由系统插入到叠加视频310中的增强现实元素410(例如，虫子)交互。从各个视频馈送(212、214)提取的用户的手元素(216、218)可以具有在虫子出现在屏幕上时挤压或轻弹虫子元素410的能力(如图9D所示)，其中这种交互是游戏或活动的一部分，其中系统10也跟踪得分、显示粉碎的虫子等。

图9H是使用多馈视频通话系统10将增强现实元素310添加到视频通话的流程图。如图9H所示，将由系统10叠加的视频210源自相应的呼叫者终端用户设备20。第一用户的后置摄像头119和第二用户的前置摄像头118将视频210发送到中央服务器30。视频可以经由互联网或任何其他功能上有用的装置发送，中央服务器30接收单独的视频210、分析它们、从视频210中移除无关信息(例如，纯色背景等)、并将两个相应的视频210组合成叠加视频310(如图8A所讨论的)。然后，叠加视频310具有添加到该叠加视频310的至少一个增强现实元素410，其中然后系统经由因特网或任何其他功能上有用的装置，将叠加视频310发送回视频聊天中涉及的相应的用户设备20。

应当注意，可以经由在各终端用户设备20之一上运行的图形用户界面(GUI)来选择由系统10添加到叠加视频310的增强现实元素410的类型。例如，用户可以从增强现实元素410的GUI内的下拉菜单中选择包括对象(例如，虫子、帽子、水果等)和环境(例如，月亮、火星、雨林等)的选项。由用户选择的一个或多个环境(或由系统自动施加的环境)也可以影响人类元素和增强现实对象如何交互。例如，如果终端用户选择月球作为其增强现实环境并且选择虫子作为增强现实对象，则可以给予虫子无重量或低重力视觉效果以模拟在月球上。人类元素也可以具有施加的相同的视觉效果。

还应注意，可以通过空间识别算法跟踪所有视觉元素(人类和增强现实元素410)的运动和位置。空间识别算法可以跟踪元素之间的相对位置、运动元素的运动速度、运动元素的加速度以及运动元素的任何动量(以及该动量向其他元素的转移)。

图10是使用多馈视频通话系统10和虚拟现实头戴式耳机510的增强现实加强视频通话的概览图。如图10所示，一个用户的前置摄像头118的(呼叫者2)和另一个用户的后置摄像头119(呼叫者1)的实时叠加的视频310显示给两个用户。在该示例中，来自呼叫者2的设备的前置摄像头118的视频210显示在呼叫者1和呼叫者2二者的设备20屏幕上，其中来自呼叫者1的设备的后置摄像头119的视频210叠加在呼叫者2的前置摄像头118视频210上，通过由视频210的叠加创建的错觉允许呼叫者1“触摸”(即，看到他们的叠加在另一个用户的面部和/或身体上的手或其他人类元素)呼叫者2。在该示例中，第一人类元素216与呼叫者1的手相关联，并且第二人类元素218与呼叫者2的面部、颈部和上部躯干相关联。然而，应该注意，在该示例中，可以颠倒关于第一人类元素216和第二人类元素218的标签，因为人类元素哪个被标记为第一和第二不会自动地指示哪个元素将叠加在另一个上。

向终端用户示出的叠加视频310可以以增强现实元素410为特征(图9B-9G中示出的示例)，其中终端用户可能也能够同样地享受虚拟现实效果。如图1所示，第一用户正在利用虚拟现实(VR)头戴式耳机510。根据每个用户设备20的硬件和软件功能，可以向该用户显示向第二个用户显示的相同的叠加视频馈送310，或者显示不同的叠加视频馈送310。例如，戴着VR头戴式耳机的用户可能在其各自的叠加视频310中显示帽子增强现实元素410等的3-D图像，而向执行在平板电脑上的呼叫的第二用户显示帽子元素410的2-D图像等。如图所示，VR头戴式耳机510可以附接到智能手机或平板电脑，或者终端用户设备20可以完全集成到VR头戴式耳机510中。这种头戴式耳机510可以包括商业上可用的解决方案，例如SonyPlayStation VR、HTC Vive，Oculus Rift、Google Daydream和Samsung Gear VR等。VR头戴式耳机510也可以是专有设计的，以便使由系统10执行的叠加增强现实视频通话的功能最大化。

本文提供的系统和方法的各方面包括用于控制相关功能的硬件和软件。软件可以采用代码或可执行指令的形式，以使处理器或其他可编程设备执行相关步骤，其中代码或指令由处理器或其他机器可读的介质承载或以其他方式体现。用于实现这种操作的指令或代码可以是存储在任何有形可读介质中或由任何有形可读介质携带的任何形式的计算机指令(例如，源代码、目标代码、解释代码等)的形式。

应该注意，对本文所述的目前优选的实施方案的各种变化和修改对于本领域技术人员而言是显而易见的。可以在不脱离本发明的精神和范围的情况下进行这些改变和修改，并且不会减少其伴随的优点。

Claims

1.一种由处理器执行的叠加视频的计算机实现方法，所述方法包括以下步骤：

从第一用户设备接收第一直播视频；

从第二用户设备接收第二直播视频；

使用检测算法持续地从所述第一直播视频中鉴别和提取第一人类元素；

实时地对所述第二直播视频的一部分或全部和所述第一人类元素进行组合以创建包括帧周界的叠加视频，在所述帧周界内，所述叠加视频包括所述第一人类元素和来自所述第二直播视频的第二人类元素，其中在所述叠加视频内，所述第一人类元素和所述第二人类元素能同时占据所述帧周界内的任何位置；

在所述帧周界内插入增强现实元素，使得所述叠加视频包括从所述第一直播视频提取的第一人类元素、来自所述第二直播视频的第二人类元素和增强现实对象；以及

将所述叠加视频发送到所述第一用户设备和所述第二用户设备中的至少一个；

其中，由所述第一用户设备的后置摄像头捕获所述第一直播视频，并且响应于所述第一人类元素相对于所述第一用户设备的运动，在发送的叠加视频中所述第一人类元素遮蔽所述第二人类元素的至少一部分。

2.如权利要求1所述的叠加视频的计算机实现方法，其中，响应于所述第一人类元素相对于所述第一用户设备和所述第二人类元素相对于所述第二用户设备的实时运动，在所述叠加视频中模拟所述第一人类元素与所述第二人类元素之间的接触。

3.如权利要求1所述的叠加视频的计算机实现方法，其中，所述第一用户设备是移动计算设备。

4.如权利要求1所述的叠加视频的计算机实现方法，其中，所述第一用户设备是个人计算机。

5.如权利要求1所述的叠加视频的计算机实现方法，其中，由所述第一用户设备的至少两个摄像头同时捕获所述第一直播视频。

6.如权利要求1所述的叠加视频的计算机实现方法，其中，由所述第二用户设备的前置摄像头捕获所述第二直播视频。

7.如权利要求1所述的叠加视频的计算机实现方法，其中，由所述第二用户设备的后置摄像头捕获所述第二直播视频。

8.如权利要求1所述的叠加视频的计算机实现方法，其中，所述检测算法包括以下各项中的一项或多项：前景和背景分离、接近度识别、色度键控、手臂/身体检测、背景减除和卡尔曼滤波。

9.如权利要求1所述的叠加视频的计算机实现方法，其中，所述增强现实元素在所述叠加视频内是被动的。

10.如权利要求1所述的叠加视频的计算机实现方法，其中，所述增强现实元素是主动的，并且在所述叠加视频内响应所述第一人类元素相对于所述第一用户设备的运动以及所述第二人类元素相对于所述第二用户设备的运动。

11.一种用于叠加视频的计算机实现系统，包括：

中央服务器，其特征在于具有处理器、存储器和网络接口；

第一用户设备，其特征在于具有摄像头、处理器、存储器和网络接口；

第二用户设备，其特征在于具有摄像头、处理器、存储器和网络接口；

其中，所述中央服务器、所述第一用户设备的处理器和所述第二用户设备的处理器中的一个：

接收来自第一用户设备的第一直播视频和来自第二用户设备的第二直播视频；

实时地对所述第二直播视频的一部分或全部和所述第一人类元素进行组合以创建包括帧周界的叠加视频，在所述帧周界内所述叠加视频包括所述第一人类元素和来自所述第二直播视频的第二人类元素，其中在所述叠加视频内，所述第一人类元素和所述第二人类元素能同时占据所述帧周界内的任何位置；

12.如权利要求11所述的用于叠加视频的计算机实现系统，其中，响应于所述第一人类元素相对于所述第一用户设备和所述第二人类元素相对于所述第二用户设备的实时运动，在所述叠加视频中模拟所述第一人类元素和所述第二人类元素之间的接触。

13.如权利要求11所述的用于叠加视频的计算机实现系统，其中，所述第一用户设备是智能手机。

14.如权利要求11所述的用于叠加视频的计算机实现系统，其中，所述第一用户设备是台式计算机。

15.如权利要求11所述的用于叠加视频的计算机实现系统，其中，由所述第一用户设备的至少两个摄像头同时捕获所述第一直播视频。

16.如权利要求11所述的用于叠加视频的计算机实现系统，其中，由所述第二用户设备的前置摄像头捕获所述第二直播视频。

17.如权利要求11所述的用于叠加视频的计算机实现系统，其中，由所述第二用户设备的后置摄像头捕获所述第二直播视频。

18.如权利要求11所述的用于叠加视频的计算机实现系统，其中，所述检测算法包括以下各项中的一项或多项：前景和背景分离、接近度识别、色度键控、手臂/身体检测、背景减除和卡尔曼滤波。

19.如权利要求11所述的用于叠加视频的计算机实现系统，其中，所述增强现实元素在所述叠加视频内是被动的。

20.如权利要求11所述的用于叠加视频的计算机实现系统，其中，所述增强现实元素是主动的，并且在所述叠加视频内响应所述第一人类元素相对于所述第一用户设备的运动以及所述第二人类元素相对于所述第二用户设备的运动。