CN115918089A

CN115918089A - 用于处理和呈现媒体数据以允许虚拟参与事件的系统和方法

Info

Publication number: CN115918089A
Application number: CN202180039639.9A
Authority: CN
Inventors: 亚当·雷斯尼克; 格雷格·多南菲尔德
Original assignee: 15 Seconds of Fame Inc
Current assignee: 15 Seconds of Fame Inc
Priority date: 2020-04-17
Filing date: 2021-04-17
Publication date: 2023-04-04
Also published as: EP4136855A1; WO2021212089A1; US20230156245A1

Abstract

一种在事件期间在场所处招待虚拟观众的说明性示例方法包括：分发将由位于远离场所的多个用户设备接收的事件的可观察表示；从远离场所的多个虚拟参加者中的每一个接收媒体流，每个所接收的媒体流包括多个虚拟参加者中的至少一个的视觉表示；以及在场所处的显示器上显示虚拟参加者中的至少一些的视觉表示，使得虚拟参加者看起来正在该场所参加事件。

Description

用于处理和呈现媒体数据以允许虚拟参与事件的系统和方法

相关申请的交叉引用

本申请要求于2020年4月17日提交的美国临时申请号63/011,538、于2020年4月24日提交的美国临时申请号63/015,173、于2020年4月30日提交的美国临时申请号63/018,314和于2020年8月19日提交的美国临时申请号63/067,713的优先权。

技术领域

本文描述的实施例总体上涉及提供数字内容，并且更特别地涉及用于虚拟参与现场事件的系统和方法。

背景技术

诸如相机、计算机、移动设备的电子设备的可用性和能力方面的增加已经允许一些人捕获他们的经历的媒体(诸如，拍摄照片、捕获视频和/或记录音频)。而且，网络系统的能力和容量方面的增加以及网络带宽的可用性方面的增加已经允许一些人通过网络向一个或多个电子设备共享媒体，包括实时或基本实时的媒体共享(例如，“现场流式传输”和/或“流式传输媒体”)。在一些情况下，诸如体育赛事、音乐会、集会、毕业典礼等的场所和/或事件具有能够捕获媒体的、可以拍摄在场所发生的事件和/或出席的观众的成员的照片、记录其视频和/或记录其音频的相机或其他设备。图片、视频和/或音频又可以经由无线电、电视和/或一个或多个网络(例如，互联网)传播，从而允许人们远程(例如，在他或她的家里、办公室、经由移动设备等)欣赏事件。

虽然一些人能够观看或收听在该场所发生的事件的(多个)广播，但是这些人通常不能参与、互动和/或以其他方式成为在该场所实际参加现场事件的观众的一员。而且，某些社会和/或环境问题有时会使人们实际参加现场事件变得不切实际和/或不可能。例如，应对细菌或病毒爆发或疫情的“社交距离措施”和/或“居家令”可能使得观众成员不再被允许参加现场事件。缺少现场事件的观众反过来可能对参赛者或表演者具有负面影响和/或可能导致现场事件被取消。

发明内容

在具有前一段落的方法的至少一个特征的示例实施例中，所接收的媒体流包括表示由虚拟参加者发出的标示声音的音频，并且该方法包括在场所内再现声音，使得虚拟参加者发出的声音在场所是可听见的。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括确定对应于每个所接收的媒体流的场景信息，并且选择虚拟参加者中的至少一些用于基于场景信息进行显示。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括使用面部识别或语音识别中的至少一个来识别每个所接收的媒体流中的至少一个个体，将面部识别或语音识别的结果包括在场景信息中，以及基于面部识别或语音识别的所包括的结果来选择虚拟参加者中的至少一些。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括基于面部识别或语音识别的结果选择场所内被识别的个体的视觉表示的位置。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括基于面部识别或语音识别的结果对场所内的多个虚拟参加者中的一些的视觉表示进行分组。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括确定包括被识别的个体的媒体流的至少一个其他特征，以及基于该至少一个其他特征选择在场所内被识别的个体的视觉表示的位置。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括基于多个虚拟参加者中的一些的相应媒体流的所确定的至少一个其他特征之间的相似性，对场所内的多个虚拟参加者中的一些的视觉表示进行分组。

在具有前述段落中的任何一个的方法的至少一个特征的示例实施例中，场景信息包括关于所接收的媒体流中的相对应的一个的用户简档数据，并且该方法包括基于用户简档数据确定所接收的媒体流中的相对应的一个的视觉表示是否应该包括在所显示的虚拟参加者当中。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括：基于以下中的至少一个在事件期间在虚拟参加者中的一些之间建立对等联网会话：由虚拟参加者中的一个在与虚拟参加者中的至少一个其他虚拟参加者进行对等联网会话中进行的选取或选择、或者指示虚拟参加者中的一些之间的关联性的多个虚拟参加者中的一些中的每一个的用户简档数据。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括确定虚拟参加者中的至少一个在事件期间出现在事件的分布式可观察表示中或者出现在场所处的专用显示器上，以及在事件期间或之后向虚拟参加者中的至少一个发送媒体文件，其中所发送的媒体文件包括虚拟参加者中的至少一个的出现。

在具有前述段落中的任何一个的方法的至少一个特征的示例实施例中，显示包括将虚拟参加者中的每一个的视觉表示放置在相应的区块中，并且基于显示器上的虚拟参加者的数量选择区块的大小。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括选择虚拟参加者中的至少一个，并且对于事件的至少一部分，与虚拟参加者的视觉表示中的其他视觉表示不同地显示虚拟参加者中的所选择的至少一个的视觉表示。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括促进在场所处加入事件的个体和虚拟参加者中的所选择的至少一个之间的交互，同时与虚拟参加者的视觉表示中的其他视觉表示不同地显示虚拟参加者中的所选择的至少一个的视觉表示。

具有前述段落中的任何一个的方法的至少一个特征的示例实施例包括基于从虚拟参加者中的至少一个接收的媒体流的至少一个特征，从显示器移除虚拟参加者中的一个的视觉表示，其中至少一个特征是低于最小质量阈值的质量、低于最小阈值的连接速率、数据分组的丢失、虚拟参加者中的一个的视觉表示的缺失或不适当的内容。

用于在事件期间在场所处招待虚拟观众的系统的说明性示例实施例包括位于该场所处相机布置。照相布置被配置成捕获事件的可观察表示。分发设备被配置为分发将由位于远离场所的多个用户设备接收的事件的可观察表示。主机设备包括通信接口，该通信接口被配置为从位于远离场所的多个虚拟参加者用户设备中的每一个接收媒体流。每个所接收的媒体流包括多个虚拟参加者中的至少一个的视觉表示。该主机设备包括至少一个处理器，该至少一个处理器被配置为分析所接收的媒体流，并选择多个虚拟参加者中的相对应的参加者的视觉表示中的至少一些。至少一个显示器位于该场所处。主机设备使得至少一个显示器包括所选择的虚拟表示的视觉表示，使得对应于所选择的视觉表示的虚拟参加者看起来正在该场所处参加事件。

在具有前述段落的系统的至少一个特征的示例实施例中，至少一个显示器包括被配置成包括虚拟参加者的多个视觉表示的显示面板；或者各自被配置成包括相对应的虚拟参加者的单个视觉表示的多个显示面板。

具有前述段落中的任何一个的系统的至少一个特征的示例实施例包括至少一个扬声器，其中所接收的媒体流包括表示由虚拟参加者发出的标示声音的音频，并且其中主机设备使得至少一个扬声器再现场所内的声音，使得由虚拟参加者发出的声音在场所是可听见的。

在具有前述段落中的任何一个的系统的至少一个特征的示例实施例中，至少一个处理器被配置为分析每个所接收的媒体流以确定对应于每个所接收的媒体流的场景信息，并且基于场景信息选择用于显示虚拟参加者的视觉表示中的至少一些。

在具有前述段落中的任何一个的系统的至少一个特征的示例实施例中，至少一个处理器被配置为使用面部识别或语音识别中的至少一个来识别每个所接收的媒体流中的至少一个个体，将面部识别或语音识别的结果包括在场景信息中，并且基于面部识别或语音识别的所包括的结果来选择虚拟参加者中的至少一些。

在具有前述段落中的任何一个的系统的至少一个特征的示例实施例中，至少一个处理器被配置成基于面部识别或语音识别的结果来选择被识别的个体在至少一个显示器上的视觉表示的位置。

在具有前述段落中的任何一个的系统的至少一个特征的示例实施例中，至少一个处理器被配置成基于面部识别或语音识别的结果对多个虚拟参加者中的一些在至少一个显示器上的视觉表示进行分组。

在具有前述段落中的任何一个的系统的至少一个特征的示例实施例中，该至少一个处理器被配置成确定包括被识别的个体的媒体流的至少一个其他特征，并且基于该至少一个其他特征选择被识别的个体在至少一个显示器上的视觉表示的位置。

在具有前述段落中的任何一个的系统的至少一个特征的示例实施例中，至少一个处理器被配置为基于多个虚拟参加者中的一些的相应媒体流的所确定的至少一个其他特征之间的相似性，对多个虚拟参加者中的一些在至少一个显示器上的视觉表示进行分组。

在具有前述段落中的任何一个的系统的至少一个特征的示例实施例中，场景信息包括关于所接收到的媒体流中的相对应的一个的用户简档数据，并且至少一个处理器被配置为基于用户简档数据来确定所接收的媒体流中的相对应的一个的视觉表示是否应该被包括在所显示的虚拟参加者当中。

附图说明

图1是根据示例实施例的虚拟参与系统的示意图。

图2是包括在图1的虚拟参与系统中的用户设备的示意性图示。

图3是包括在图1的虚拟参与系统中的主机设备的示意图。

图4是示出根据示例实施例的虚拟参与在场所处发生的现场事件的方法的流程图。

图5是根据示例实施例的具有虚拟观众的场所的图示。

具体实施方式

本文描述的实施例涉及用于传送、处理和/或呈现媒体数据以允许一个或多个用户虚拟地参与现场事件的系统和方法。例如，在一些实施方式中，虚拟参与在场所发生的现场事件的方法可以包括流式传输由场所处的媒体捕获系统捕获的媒体。媒体可以与在场所处发生的事件相关联。接收从用户设备流式传输的媒体。从用户设备流式传输的媒体的至少一部分被呈现在场所处的显示器上。在一些情况下，流式传输由媒体捕获系统捕获的媒体可以包括流式传输在场所处的显示器上呈现的与用户设备相关联的用户的媒体。

如在本说明书中所使用的那样，单数形式“一”、“一个”和“该”包括复数指示物，除非上下文中另有明确规定。因此，例如，术语“模块”旨在表示单个模块或模块的组合，“网络”旨在表示一个或多个网络或其组合。

本文描述了可以包括被配置成执行任何数量的任务的组件的任何合适的组合的电子设备。电子设备的部件、模块、元件、引擎等可以指任何组件、子组件和/或可操作地耦接的电气部件的集合，这些电气部件可以包括例如存储器、处理器、电迹线、光学连接器、软件(在硬件中执行)等。例如，电子设备和/或电子设备的部件可以是基于硬件的部件、模块和/或引擎(例如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理器(DSP))和/或能够执行与部件相关联的和/或以其他方式分派给该电子设备的一个或多个特定功能的基于软件的部件和/或模块(例如，存储在存储器中和/或在处理器上执行的计算机代码的模块)的任意组合。

本文描述的实施例总体上涉及发送、接收、分析和/或呈现数字媒体，该数字媒体可以包括单个和/或静止图像(例如，图片)、共同形成视频、音频记录的多个图像或帧和/或其任意组合。在一些实施方式中，“媒体流”可以被发送、接收、分析和/或呈现为视频和/或音频的(多个)连续记录，其可以包括任意数量的单独帧、静止图像、音轨等，它们共同形成“媒体流”。虽然本文中可能提到“图像”、“视频”、“音频记录”和/或类似的内容，但是应该理解的是，这种提及并不排除可能以其他方式包含在媒体流中的其他形式的媒体，除非上下文中明确指出。换句话说，本文描述的装置、系统和/或方法中的任何一个通常涉及数字媒体，并且除非明确提供，否则对特定类型的数字媒体的引用并不旨在是排他性的。

本文描述的实施例和方法可以包括和/或可以采用任何合适的媒体捕获设备或系统。在这个场景中，“媒体捕获设备”或“媒体捕获系统的设备”可以指能够捕获图片、记录视频、记录音频和/或其组合的任何合适的设备。为简单起见，此类设备在此统称为“相机”。然而，应当理解的是，术语“相机”旨在指代宽泛类别的音频和/或图像捕获/记录设备，并且不应当被解释为限于任何特定的实施方式，除非上下文中另有明确说明。

本文描述的实施例和方法可以提供与在包括一个或多个虚拟参加者或观众成员的场所处发生的事件相关联的媒体流。如本文所使用的那样，“虚拟参加者”和/或“虚拟观众成员”可以互换使用或共同使用，以指代正在使用电子设备(例如，用户设备)来远程加入事件的至少一个人员(例如，观看者或观众成员)。也就是说，“虚拟观众”可以包括正在观看、加入和/或以其他方式参与现场事件而不亲自出现在该事件的虚拟观众成员。作为示例，现场事件的虚拟观众可以包括经由电视广播、无线电广播、点播媒体流、互联网协议媒体(media over Internet Protocol，MoIP)和/或提供媒体内容的任何其他合适模式观看(和/或收听)事件的人。媒体内容可以通过任何合适的电子和/或用户设备，(诸如本文描述的那些设备)呈现给虚拟观众成员。

在一些实施方式中，本文描述的“虚拟参加者”可以通过从用户设备流式传输与观看或收听现场事件的虚拟参加者相关联的、表示和/或描述该虚拟参加者的媒体内容来加入和/或参加现场事件(而不是简单观看或收听现场事件的人员)。进而，本文描述的实施例和/或方法可以被配置成在现场事件发生的场所处的一个或多个显示器、屏幕(例如，绿色屏幕)、监控器等上呈现与虚拟参加者相关联的媒体内容的至少一部分。如本文中进一步详细描述的那样，在一些情况下，与现场事件相关联的媒体流可以包括事件的图像、视频和/或音频和/或呈现在场所处的显示器、屏幕、监控器等上的与一个或多个虚拟参加者相关联的媒体内容。由此，虚拟参加者或虚拟观众成员可以远程加入和/或参与现场事件而不亲自出现在场所。

在一些实施方式中，本文描述的实施例和方法可以使用面部识别分析来标识一个或多个图像、视频和/或媒体流中的一个或多个人。如本文所用，“面部识别分析”——或简称为“面部识别”——通常涉及分析人员的面部的一个或多个图像，以确定例如显著的面部结构特征(例如，颧骨、下巴、耳朵、眼睛、下巴、鼻子、发际线等)，并且然后定义与显著特征相关联和/或以其他方式表示显著特征的定性和/或定量数据集。示例实施例中的面部识别技术可以替代性地称为面部匹配或面部验证。例如，一种方法包括提取与人员的脸部的显著特征相关联的数据，并限定包括基于几何和/或坐标的信息的数据集(例如，面部数据和/或面部图像数据的三维(3-D)分析)。例如，另一方法包括将图像数据提炼为定性值，并将这些值与模板等进行比较(例如，面部数据和/或面部图像数据的二维(2-D)分析)。在一些实施方式中，面部识别的方法可以包括3-D分析和2-D分析的任何合适的组合。

示例面部识别方法和/或算法包括但不限于使用特征脸(例如，与面部识别相关联的特征向量)的主成分分析、线性鉴别分析、使用Fisherface算法的弹性束图匹配、隐马尔可夫模型、使用张量表示的多线性子空间学习、神经元激励的动态链接匹配、卷积神经网络(convolutional neural net，CNN)等或其中的两个或更多个的组合。本文描述的实施例和/或方法中的任何一个可以使用和/或实施任何合适的面部识别方法和/或算法或其组合，诸如上面描述的那些。

在一些情况下，当分析的结果满足至少一个标准时，面部识别分析可以导致一个或多个图像和/或视频流中的面部图像数据的肯定标识。在一些情况下，标准可以与以任何合适的方式表示(例如，诸如小数、百分比或其组合的值)的最小置信度分数或水平和/或匹配阈值相关联。例如，在一些情况下，标准可以是阈值等，诸如图像数据与面部图像数据(例如，存储在数据库中)的70％匹配、图像数据与面部图像数据的75％匹配、图像数据与面部图像数据的80％匹配、图像数据与面部图像数据的85％匹配、图像数据与面部图像数据的90％匹配、图像数据与面部图像数据的95％匹配、图像数据与面部图像数据的97.5％匹配、图像数据与面部图像数据的99％匹配、或者70％和99％之间的范围内的任何百分比。

在一些实施方式中，执行面部识别来标识两个图像(例如，参考图像和第二图像)中的个体之间的匹配，而不标识图像中的个体的身份(或关于该个体的其他个人信息)。例如，通过执行面部识别，可以在不知道和/或标识关于个体的人员可标识信息的情况下标识两个图像中的个体之间的匹配。在一些实施方式中，面部识别可以用于标识关于个体的信息的子集(例如，诸如电话号码或电子邮件地址的分发方法、包括用户提供的信息的简档等)。在一些实施方式中，面部识别可以在与个体相关联的面部数据(例如，个体的面纹、与个体的面部特征相关联的数据等)和潜在地包括个体的图像之间进行，而不管是否标识了关于个体的附加数据和/或个体的身份。在其他实施例中，执行面部识别来标识和/或验证潜在地包括个体的图像中的一个或多人的身份。

在一些实施方式中，本文描述的实施例和方法可以在标识音频记录中的个体的身份或不标识音频记录中的个体身份的情况下使用音频分析来标识例如两个音频记录中的语音之间的匹配。在一些实施方式中，音频分析可以独立执行，或者结合面部识别分析、图像分析和/或任何其他合适的分析来执行。如上参考面部识别分析所述，当分析的结果满足至少一个标准时，音频分析可以导致一个或多个音频记录和/或媒体流中的音频数据的肯定标识。在一些实施方式中，音频分析的结果可以用于增加或降低与面部识别分析的结果相关联的置信度水平，反之亦然。

在一些实施方式中，除了分析面部图像数据和/或音频数据之外或作为其替代性方案，本文描述的实施例和/或方法可以分析任何合适的数据(例如，场景数据)，例如以增强从面部识别分析产生的置信度水平和/或匹配水平的准确性。例如，在一些情况下，可以基于分析与任何合适的元数据、地址、来源、活动、位置、互联网协议(Internet Protocol，IP)地址、互联网服务提供商(Internet Service Provider，ISP)、账户登录数据、模式、购买、售票、社交媒体帖子、社交媒体评论、社交媒体喜好、网络浏览数据、偏好数据、人员标识数据(例如，年龄、种族、婚姻状况等)、数据传递速率、网络连接形态和/或任何其他合适的数据相关联的场景数据来调节置信度水平和/或匹配水平。在一些情况下，当场景数据支持面部识别分析的结果时，可以提高置信度水平，而当场景数据不支持和/或抵触面部识别分析的结果时，可以降低置信度水平。因此，非面部识别数据可以用于确证面部识别数据和/或增加/降低置信度分数和/或水平。

图1是根据示例实施例的虚拟参与系统100的示意图。系统100的至少一部分可以例如由存储在存储器中并在一个或多个电子设备(例如，主机设备、服务器或服务器组、个人计算机(personal computer，PC)、网络设备、用户设备、客户端设备等)的处理器中执行的一组指令或代码来表示和/或描述。在一些实施方式中，系统100可以用于呈现在包括虚拟参加者和/或虚拟观众的场所发生的现场事件的媒体(例如，图片、视频记录和/或音频记录)。

系统100包括与数据库140通信的主机设备130、一个或多个用户设备120和媒体捕获系统110。主机设备130可以是与数据库140、(多个)用户设备120和媒体捕获系统110进行电子通信的任何合适的主机设备和/或计算设备，诸如服务器或服务器组、网络管理设备、个人计算机(PC)、处理单元等。例如，在这个实施例中，主机设备130可以是经由网络115与数据库140、(多个)用户设备120和媒体捕获系统110进行电子通信的服务器或服务器组(设置在基本相同的位置和/或设施中，或者分布在不止一个位置中)。

如图1所示，媒体捕获系统110可以是场所105的或在场所105处的媒体捕获系统。场所105可以是任何合适的位置、机构、营业地点等等。例如，在一些情况下，场所105可以是竞技场、主题公园、剧院、工作室、大厅、圆形剧场、礼堂、(多个)体育场馆或设施、住宅和/或任何其他合适的场所。在一些情况下，场所105可以是事件111正在发生的任何合适的场所。事件111可以是现场事件，例如体育赛事、音乐会、婚礼、聚会、毕业典礼、电视或广播直播节目(例如，情景喜剧、比赛节目、脱口秀等)、政治竞选事件或辩论和/或任何其他合适的事件。

一般而言，事件111可以是通常在存在于场所105的观众面前、在场所105处前进行，从而允许观众成员加入和/或参与现场事件111的现场事件。在本文描述的实施例中，在场所105处的观众的至少一部分可以是虚拟观众112。也就是说，加入和/或参与现场事件111的观众的至少一部分可以是不亲自出现在场所105的一个或多个观众成员(例如，“虚拟观众成员”)的数字表示。在一些情况下，观众的所有成员是虚拟观众112的成员(例如，在虚拟观众112面前发生的事件，同时没有观众成员亲自出现在场所105)。

一般而言，除非上下文明确指出，否则本文对“观众”的提及是对虚拟观众112的提及。然而，应当理解的是，事件111的观众可以完全由虚拟观众112构成，或者可以由虚拟观众112和现场观众(例如，亲自出现在场所的观众成员)的任何合适的组合或混合构成。在包括虚拟观众和现场观众成员的组合的一些实施方式中，全部观众可以被分成或分离成例如包括现场观众的成员的第一部分或第一组部分以及包括虚拟观众112的成员的第二部分或第二组部分。

媒体捕获系统110的至少一部分物理上位于场所105处。媒体捕获系统110可以是和/或可以包括被配置成捕获媒体数据(例如，与一个或多个图片或静止图像、一个或多个视频记录、一个或多个音频记录、一个或多个声音或视觉效果、一个或多个投影或计算机生成的图像、和/或任何其他合适的数据或其组合相关联的数据)的任何合适的一个或多个设备。例如，媒体捕获系统110可以是和/或可以包括被配置成捕获图像(例如，照片)和/或记录视频流(例如，包括任何数量的图像或帧，其可以具有相关或相对应的音频)的一个或多个相机和/或记录设备。媒体捕获系统110可以包括自动、半自动和/或手动(例如，人)控制的一个或多个媒体捕获设备。在一些实施例中，媒体捕获系统110可以包括与中央计算设备(诸如服务器、个人计算机、数据存储设备(例如，网络附加存储(NAS)设备、数据库等)等)通信的多个相机。

在一些实施方式中，媒体捕获系统110的设备(在此统称为“相机”)被配置成经由有线或无线连接、端口、串行总线、网络等向中央计算设备(图1中未示出)发送媒体数据，该中央计算设备又可以将媒体数据存储在存储器和/或其他数据存储设备中。在一些实施方式中，中央计算设备可以经由网络115与主机设备130通信并且可以被配置为向主机设备130提供媒体数据以供进一步处理和/或广播。尽管在图1中示出为经由网络115与主机设备130通信，但是在一些实施例中，这样的中央计算设备可以被包括在主机设备130中、作为其一部分和/或以其他方式耦接到该主机设备。在一些实施例中，媒体捕获系统110可以经由网络115与主机设备130通信，而无需这样的中央计算设备。

在一些实施方式中，媒体捕获系统110可以与场所105相关联和/或由场所所有者拥有。在一些实施方式中，媒体捕获系统110可以在场所105中或场所105处使用，但是由不同的实体拥有(例如，被许可和/或以其他方式被授权在场所中或场所处使用媒体捕获系统110的实体，例如体育赛事处的电视相机)。在一些实施方式中，媒体捕获系统110可以包括由亲自出现在场所105的用户(例如，现场观众成员或参加者或在场所105工作的雇员)控制的任何数量的用户设备。例如，媒体捕获系统110可以包括诸如智能手机、平板电脑等的用户设备，其可以用作相机或记录器。在这样的实施方式中，用户设备中的至少一些可以与和场所105相关联的主机设备130和/或中央计算设备通信(例如，如上所述)。由此，媒体捕获系统110不需要与特定的事件和/或场所相关联。

媒体捕获系统110被配置成捕获与场所105、事件111和/或虚拟观众112(和/或现场观众，如果存在的话)相关联的媒体数据。换句话说，媒体捕获系统110可以被配置成在预定的、已知的和/或给定的场景(例如，场所105、事件111和/或事件111期间的特定的发生的事的场景)中捕获媒体数据。这种媒体数据可以被称为“场景媒体数据”。作为非限制性示例，主机设备130可以接收来自媒体捕获系统110的媒体数据和与地点105、事件111相关联的场景数据、和/或来自任何合适的数据源的任何其他合适的场景数据和/或元数据，并且可以将场景数据与例如媒体数据相关联。在一些实施方式中，场景数据可以与虚拟观众112的成员相关联，并且例如，主机设备130可以将场景数据和/或媒体数据与该观众成员相关联。在一些实例中，主机设备130可以被配置成定义特定于相关联的观众成员的场景媒体数据，并且可以将场景媒体数据发送给与该观众成员相关联的用户设备(例如，与该观众成员相关联的用户设备120)。

网络115可以是任何类型的网络或网络的组合，例如局域网(LAN)、无线局域网(WLAN)、虚拟网络(例如虚拟局域网(VLAN))、广域网(WAN)、城域网(MAN)、微波接入全球互通网络(WiMAX)、电话网络(诸如公共交换电话网(PSTN)和/或公共陆地移动网(PLMN))、内联网、互联网、基于光学光纤(或光纤)的网络、蜂窝网络和/或任何其他合适的网络。网络115可以被实施为有线和/或无线网络。作为示例，网络115可以被实施为基于电气和电子工程师协会(IEEE)802.11标准的WLAN，也称为WiFi。而且，网络115可以包括任何类型的网络(例如LAN或WLAN和互联网)的组合。在一些实施方式中，通信(例如，在主机设备130、(多个)用户设备120和/或媒体捕获系统110之间)可以经由网络115和任何数量的中间网络和/或替代网络(未示出)来建立，这些网络可以类似于或不同于网络115。这样，可以使用多种通信模式(例如，与如上所述的那些的任何(多个)合适的网络相关联)向设备、数据库、系统等发送数据和/或由设备、数据库、系统等接收数据，这些通信模式可以使用或可以不使用公共网络传输。例如，在一些实施方式中，(多个)用户设备120可以是经由蜂窝网络和互联网(例如，网络115)连接到主机设备110的移动电话(例如，智能手机)。

在一些情况下，网络115可以促进例如对等联网会话等。在一些情况下，这种对等联网会话可以建立在一个或多个公共网络、专用网络和/或其他受限接入网络上。在这种情况下，对等联网会话可以由例如用户设备和/或任何其他合适的电子设备来建立，它们中的每一个共享共同的特征或数据集。例如，在一些情况下，对等联网会话可以包括正在接收与事件111相关联的媒体流的任何合适的用户设备或用户设备组(例如，虚拟观众112的成员或成员组)。在一些情况下，可以基于与两个或更多个用户之间的连接相关联、指示和/或以其他方式表示该连接的数据来自动或手动建立对等联网会话。在一些情况下，可以基于一个或多个用户“签到”和/或以其他方式注册为虚拟观众112的成员来自动建立对等联网会话。在一些情况下，当用户设备120接收与事件111相关联的媒体流时，用户设备120的用户可以“签到”，等等。而且，“签到”可以包括标识信息，例如地理位置数据、日期和时间数据、人员或用户标识数据、设备数据或元数据等。

在一些情况下，用户设备120的用户可以响应于接收到与该用户共享联系的人员或者人也是事件111的虚拟观众的一部分的通知来建立对等联网会话。在一些情况下，用户(经由用户设备120)可以请求加入对等联网会话和/或可以接收(经由用户设备120)加入对等联网会话的邀请等。在一些情况下，建立对等联网会话可以例如促进对等联网会话中包括的用户的用户设备120之间的通信(例如，群聊会话等)和/或媒体数据的共享。

每个用户设备120可以是任何合适的计算设备，诸如PC、膝上型电脑、可转换膝上型电脑、平板电脑、个人数字助理(personal digital assistant，PDA)、智能手机、可穿戴电子设备(例如，智能手表等)、移动设备等。在一些实施方式中，用户设备120包括消费电子产品。下面提供了对一个用户设备120的讨论。然而，应当理解的是，系统100可以包括任何数量的用户设备120，这些用户设备可以至少在形式和/或功能上类似于下面描述的用户设备120。

如图2所示，用户设备120可以至少包括存储器121、处理器122、通信接口123、输出设备124和一个或多个输入设备125。存储器121、处理器122、通信接口123、输出设备123和输入设备125可以相互通信、连接和/或以其他方式电耦接，诸如允许信号在它们之间发送(例如，经由系统总线、电迹线、电互连件等)。

用户设备120的存储器121可以是随机存取存储器(RAM)、存储器缓冲器、硬盘驱动器、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他合适的固态非易失性计算机存储介质等。在一些情况下，存储器121包括用于执行尤其与和网络115通信、运行一个或多个程序和/或应用相关联的一个或多个动作、和/或与捕获、发送、接收、分析和/或呈现媒体数据相关联的一个或多个动作的一组指令或代码(例如，由处理器122运行)。

处理器122可以是被配置成运行或执行一组指令或代码(例如，存储在存储器121中)的任何合适的处理设备。例如，处理器122可以是通用处理器(GPP)、中央处理单元(CPU)、加速处理单元(APU)、图形处理器单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等。这种处理器122可以运行或执行存储在存储器121中的与使用PC应用、移动应用、互联网web浏览器、蜂窝和/或无线通信(经由网络)等相关联的一组指令或代码。在一些情况下，处理器122可以执行存储在存储器121中的与经由网络115在用户设备120和主机设备130之间传输信号和/或数据相关联的一组指令或代码。而且，在一些情况下，处理器122可以执行从主机设备130接收的与向用户设备120的用户提供与发送、接收和/或呈现媒体数据相关联的任何合适的信息相关联的一组指令，如本文进一步详细描述的。在一些实施方式中，至少存储器121和处理器122可以被包括在和/或可以形成片上系统(SoC)集成电路的至少一部分。

用户设备120的通信接口123可以是能够将用户设备120放置为与网络115通信的任何合适的模块、组件、引擎和/或设备，诸如一个或多个网络接口卡等。这种网络接口卡可以包括例如以太网端口、通用串行总线(USB)端口、WiFi无线电、蓝牙无线电、NFC无线电、蜂窝无线电等。而且，通信接口123可以电连接到存储器121和处理器122(例如，经由系统总线等)。由此，通信接口123可以向处理器122发送与网络115电子通信相关联的信号和/或从该处理器接收该信号。因此，通信接口123可以允许用户设备120经由网络115与主机设备130、一个或多个其他用户设备120和/或媒体捕获系统110通信。

用户设备120的输出设备124可以是被配置成提供由一个或多个过程在用户设备120上或由该用户设备执行产生的输出的任何合适的设备。例如，在一些实施方式中，输出设备124是可以可视地表示数据和/或系统100的任何合适部分的显示器，例如阴极射线管(cathode ray tube，CRT)监控器、液晶显示器(liquid crystal display，LCD)监控器、发光二极管(light emitting diode，LED)监控器等。在一些实施方式中，处理器122可以执行一组指令，以使得显示器可视地表示媒体数据、与网页相关联的图形用户界面(GUI)、PC应用、移动应用等。例如，在一些情况下，显示器可以图形化地表示PC或移动应用，该PC或移动应用又呈现经由网络115(例如，从主机设备130和/或媒体捕获系统110)接收的媒体数据(例如，媒体流)。系统100的各部分可以被实施为独立的应用，该应用例如被存储在存储器121中并在处理器122中执行，或者可以被嵌入(例如，通过软件开发工具包(softwaredevelopment kit，SDK))由特定广播公司(例如，提供和/或广播由媒体捕获系统110捕获的媒体流的广播公司)提供的应用中。

在一些实施方式中，输出设备124可以是包括被配置为接收触觉和/或触觉用户输入的触摸屏的显示器。在一些情况下，这种显示器可以被配置成图形化地表示与任何合适的PC应用、移动应用、成像和/或记录设备相关联的数据，和/或可以与或不与PC或移动应用相关联的一个或多个通知。在其他实施方式中，输出设备124可以被配置成提供任何合适的输出，例如音频输出、触觉或触觉输出、光输出和/或任何其他合适的输出。

用户设备120的(多个)输入设备125可以是能够接收、捕获和/或记录一个或多个输入(例如，用户输入)并且能够向处理器122发送与一个或多个输入相关联的信号和/或从该处理器接收该信号的任何合适的模块、组件和/或设备。在一些实施方式中，(多个)输入设备可以是和/或可以包括端口、插头和/或被配置为被放置为与设备进行电子通信的其他接口。例如，这样的输入设备125可以是USB端口、电气和电子工程师协会(IEEE)1394(火线)端口、雷电端口、闪电端口等。在一些实施方式中，显示器的触摸屏等(例如，输出设备124)可以是被配置成接收触觉和/或触觉用户输入的输入设备125。

在一些实施方式中，输入设备125可以是相机和/或能够捕获和/或记录媒体数据(诸如图像、视频记录、音频记录等)的其他记录设备(统称为“相机”)。例如，在一些实施例中，这种相机125可以集成到用户设备120中(例如，如在智能手机、平板电脑、笔记本电脑等中那样)和/或可以经由端口等(例如，诸如如上所述的那些)与用户设备120通信。相机125可以是任何合适的设备，例如网络摄像头、包括在智能手机或平板电脑中的前置或后置相机和/或任何其他合适的相机。在一些实施方式中，相机可以包括和/或可以结合用户设备120的一个或多个麦克风(即，其他输入设备125)来起作用。以这样的方式，相机(和(多个)麦克风)可以捕获给定视场的媒体数据。在一些实施方式中，输入设备125可以是智能手机、平板电脑、笔记本电脑、可穿戴电子设备等的可以允许用户设备120的用户通过相机捕获他或她自己的数字媒体(例如，图片、视频和/或音频记录)的网络摄像头和/或前置相机。在一些实施方式中，输出设备124(例如，显示器)可以被配置成图形化地表示由相机(和(多个)麦克风)捕获的视场的媒体数据。

在一些实施方式中，用户的面部的图像(例如，“自拍”)可以用于在系统100中或与系统100一起注册与用户设备120的用户相关联的面部识别数据。例如，一旦相机捕获到所期望的图像，处理器122可以接收和/或检索与用户的面部图像相关联的数据，并且进而可以执行与面部识别分析的至少一部分相关联的一组指令或代码(例如，存储在存储器121中)。在一些情况下，处理器122可以执行与验证在显示器上图形化地再现的指示、帧、边界等和用户的面部的所捕获的图像之间的对准相关联的一组指令或代码。在一些情况下，用户设备120可以被配置成经由网络115向主机设备130发送与用户的媒体数据和/或面部识别数据相关联的信号，该主机设备进而可以执行任何附加的面部识别分析和/或可以将媒体数据和/或面部识别数据存储在存储器和/或数据库140中的用户简档数据结构中。

在一些情况下，用户设备120可以经由网络115接收媒体流。用户设备120进而可以经由输出设备124(例如，显示器)向用户可视地呈现媒体流。此外，相机或输入设备125可以被配置成捕获尤其可以描绘在用户设备120的用户观看(和/或收听)显示器上图形表示的媒体流时用户设备的用户的连续的媒体流。而且，用户设备120可以被配置成经由网络115向主机设备130发送由相机捕获的媒体流。主机设备130又可以被配置成从用户设备120接收媒体流，并且在接收时可以执行与处理、分析、修改、剪切、压缩、聚集和/或呈现来自用户设备120的媒体流相关联的一个或多个过程，如本文进一步详细描述的那样。以这样的方式，用户设备120的用户可以是事件111的虚拟观众112的成员。类似地，系统100可以包括任意数量的用户设备120，这些用户设备的用户可以共同形成事件111的虚拟观众112。

回到图1，主机设备130可以是被配置成经由网络115尤其向数据库140、用户设备120和/或媒体捕获系统110发送数据和/或从其接收数据的任何合适的计算设备。在一些实施方式中，主机设备130可以作为例如PC、工作站、服务器设备(例如，网络服务器设备)、网络管理设备、管理员设备等起作用。在一些实施例中，主机设备130可以是一起容纳在同一刀片、机架和/或设施之中或之上或者分布在多个刀片、机架和/或设施之中或之上的服务器或设备群组。

在一些实施方式中，主机设备130可以是包括和/或提供作为物理机器、服务器或服务器组(例如，主机设备)上的实例或访客来执行和/或运行的虚拟机、虚拟专用服务器等的物理机(例如，服务器或服务器组)。在一些实施方式中，本文描述的系统100和/或主机设备130的功能中的至少一部分可以存储、运行、执行和/或以其他方式部署在虚拟机、虚拟专用服务器和/或云计算环境中。这种虚拟机、虚拟专用服务器和/或基于云的实施方式可以至少在形式和/或功能上类似于物理机。因此，主机设备130可以是具有被配置成(1)执行与主机设备130相关联的一个或多个过程，或者(2)执行和/或提供虚拟机的硬件的一个或多个物理机，该虚拟机又执行与主机设备130相关联的一个或多个过程。类似地，主机设备130可以是被配置为执行本文描述的过程、功能和/或方法(无论是由物理机直接执行还是由在物理主机设备130上实施的虚拟机执行)中的任何一个的物理机。

如图3所示，主机设备130至少包括存储器132、处理器133和通信接口131。在一些情况下，存储器132、处理器133和通信接口131相互通信、连接和/或以其他方式电耦接，诸如允许信号在它们之间发送(例如，经由系统总线、电迹线、电互连件等)。主机设备130还可以包括和/或可以以其他方式可操作地耦接到数据库140(图1中示出)，该数据库被配置为存储用户数据、面部数据、场景数据(例如，与时间、位置、地点、事件等相关联)、媒体流等。

通信接口131可以是可以将主机设备130放置为经由网络105与数据库140、(多个)用户设备120和/或图像捕获设备160通信的任何(多个)合适的基于硬件和/或基于软件的设备(由处理器133执行)。在一些实施方式中，通信接口131还可以被配置为经由网络105和/或任何其他网络与被配置为收集和/或至少临时存储数据(诸如用户数据、媒体数据(例如，图像数据、视频数据和/或音频数据)、面部识别数据、通知数据等)的任何其他合适的设备和/或服务进行通信。在一些实施方式中，通信接口131可以包括一个或多个有线和/或无线接口，例如网络接口卡(networkinterface card，NIC)、以太网接口、光载波(opticalcarrier，OC)接口、异步传输模式(asynchronous transfer mode，ATM)接口和/或无线接口(例如，WiFi无线电、蓝牙无线电、近场通信(NFC)无线电等)。由此，通信接口131可以被配置成在存储器132和/或处理器133与网络105之间发送信号，如本文中进一步详细描述的。

主机设备130的存储器132可以是例如RAM、ROM、EPROM、EEPROM、存储器缓冲器、硬盘驱动器、闪存和/或任何其他固态非易失性计算机存储介质等。在一些情况下，存储器132包括用于执行与尤其和网络105通信等相关联的一个或多个动作、和/或与接收、发送、处理、分析、修改、裁剪、压缩、聚集和/或呈现媒体数据(例如，从媒体捕获系统110和/或一个或多个用户设备120接收的)相关联的一个或多个动作的一组指令或代码(例如，由处理器133执行)。

主机设备130的处理器133可以是任何合适的处理器，例如GPP、CPU、APU、GPU、网络处理器、前端处理器、FPGA、ASIC等。处理器133被配置为执行和/或运行存储在存储器132中的一组指令、模块和/或代码。例如，处理器133可以被配置成执行与尤其和网络105通信；接收、发送、处理、分析、修改、裁剪、压缩、聚集和/或呈现媒体数据；和/或注册、定义、存储和/或发送图像数据、面部识别数据和/或任何其他合适的媒体数据相关联的一组指令和/或模块。

与主机设备130相关联的数据库140(返回参考图1)可以是任何合适的数据库，例如关系数据库、对象数据库、对象-关系数据库、分层数据库、网络数据库、实体-关系数据库、结构化查询语言(structured querylanguage，SQL)数据库、可扩展标记语言(extensible markup language，XML)数据库、数字储存库、媒体库、云服务器或存储等。在一些实施方式中，数据库140可以是可搜索的数据库和/或储存库。在一些实施方式中，数据库140可以是和/或可以包括关系数据库，其中数据可以根据关系模型存储在例如表格、矩阵、向量等中。

在一些实施方式中，主机设备130可以经由通信接口131通过任何合适的网络(例如，网络115)与数据库140通信。在这样的实施方式中，数据库140可以被包括在网络附加存储(NAS)设备中或由该设备存储，该设备可以通过网络115和/或(多个)任何其他网络与主机设备130通信。在一些实施方式中，数据库140可以存储在主机设备130的存储器132中。在一些实施方式中，数据库140可以经由线缆、总线、服务器机架等可操作地耦接到主机设备130。

数据库140可以存储和/或至少暂时保留与虚拟参与系统100相关联的数据。例如，在一些情况下，数据库140可以存储与以下相关联和/或以其他方式表示以下的数据：用户简档、资源列表、面部识别数据、场景数据(例如，与时间、位置、地点105、事件111、虚拟观众112等相关联)、媒体数据(例如，视频流或视频流的部分、图像、音频记录等)、音频识别数据(例如，用户的音频记录)、与用户相关联的签名发布和/或同意、用户偏好(例如，最喜欢的运动、最喜欢的队、场所的虚拟座位偏好等)等。在一些情况下，数据库140可以存储与已经向系统100注册的用户(例如，“注册用户”)相关联的数据。在一些这样的情况下，注册过程可以包括用户向系统100(例如，主机设备130)提供面部图像数据、场景数据、用户偏好、用户设置、个人标识数据、签名发布、同意和/或条款协议、和/或任何其他合适的数据。作为响应，可以在数据库140中定义用户简档数据结构，并且数据可以存储在该用户简档数据结构中和/或与该用户简档数据结构相关联。

在一些实施方式中，主机设备130可以被配置为将注册用户与特定事件(例如，事件111)和/或特定场所(例如，场所105)相关联。作为另一示例，在一些情况下，主机设备130可以被配置为在数据库140中存储从视频或图像源(例如，媒体捕获系统110)接收的媒体数据和/或媒体流数据以及与视频流数据相关联的场景数据。在一些情况下，媒体数据和/或媒体流数据以及与其相关联的场景数据可以共同定义场景媒体流等，如本文进一步详细描述的那样。在一些情况下，媒体流数据可以存储在数据库140中，而没有场景数据等。在一些情况下，场景数据和/或数据库140中的数据集之间的任何其他关系或关联性可以用于减少与一个或多个面部识别过程、音频过程和/或其他分析过程相关联的假阳性。

在一些实施方式中，用户简档可以是包括与用户访问和/或提供媒体数据相关的信息的用户简档数据结构。例如，用户简档数据结构可以包括用户简档标识符、面部数据(例如，从用户的图像获得的数据(例如，面部特征数据)，其可以用于将用户与来自图像数据的图像相匹配)、与存储在数据库140中的图像数据结构相关联并且与用户或用户设备120相关联的标识符的列表、和用户与其相关联的其他用户(例如，作为朋友和/或联系人)的用户简档数据结构相关联的标识符列表、用户位置数据、签名发布数据、用户偏好等。

在一些实施方式中，用户可以在他们通过其访问媒体数据的应用内将彼此添加为好友。用户也可以自动地彼此相关联(例如，当与第一用户简档关联的用户是与和第二用户简档关联的另一用户的联系人时)。例如，操作用户设备120的用户可以将联系人列表和/或其他联系人信息存储在用户设备120处。该应用可以检索和导入联系人信息，可以将联系人信息与数据库140中的至少一个用户简档中的信息进行匹配，并且可以自动将该至少一个用户简档与该用户相关联。

在一些实施方式中，用户可以通过在每个用户的每个用户简档内存储朋友和/或联系人的列表(例如，要作为特定用户的朋友添加的用户简档的标识符列表)来彼此关联。在用户添加朋友和/或联系人的情况下，当朋友和/或联系人是同一事件111的虚拟观众112的成员时、和/或当朋友和/或联系人记录和/或接收媒体数据、视频流数据、用户特定的场景媒体数据等时，可以自动通知用户。在一些实施方式中，主机设备130还可以使用用户之间的所存储的关系来自动处理与用户相关联的媒体数据(例如，确定是否可以在媒体数据内找到用户的朋友和/或联系人)。例如，当接收到媒体数据时，当朋友和/或联系人与用户相关联时，主机设备130可以自动处理媒体数据以确定与用户的朋友和/或联系人相关联的面部数据是否可以与媒体数据匹配。在一些情况下，当用户的朋友和/或联系人与媒体数据匹配时，主机设备130可以自动将朋友和/或联系人与用户相关联。在一些情况下，主机设备130可以向用户提供(例如，经由用户设备120)与匹配相关联的和/或指示匹配的通知。在一些情况下，响应于匹配，主机设备130可以向用户(例如，经由用户设备120)提供媒体数据的实例。在一些情况下，主机设备130可以在特定于用户的虚拟观众中呈现与朋友和/或联系人相关联的媒体数据。

尽管参考图1示意性地将主机设备130示出和描述为包括和/或以其他方式可操作地耦接到数据库140，但是在一些实施例中，数据库140在可能保持在多个位置的多个设备上，或者主机设备130可以可操作地耦接到任何数量的数据库。这种数据库可以被配置成存储与系统100相关联的数据集的至少一部分。例如，在一些实施例中，主机设备130可以可操作地耦接到被配置为接收和至少临时存储用户数据、用户简档等的第一数据库和被配置为接收和至少临时存储媒体数据和/或视频流数据以及与媒体数据和/或视频流数据相关联的场景数据的第二数据库和/或以其他方式与该第一数据库和第二数据库通信。在一些实施例中，主机设备130可以可操作地耦接到存储在用户设备120和/或媒体捕获系统110中或上的数据库和/或与该数据库通信。类似地，数据库的至少一部分可以由(多个)用户设备120和/或媒体捕获系统110实施和/或存储。以这样的方式，主机设备130以及在一些情况下，数据库140可以与任意数量的数据库通信，这些数据库可以在物理上设置在与主机设备130不同的位置，同时与主机设备130通信(例如，经由网络115)。

在一些情况下，用户可以搜索数据库140来检索和/或查看与具有存储在数据库140中的简档的用户相关联的媒体数据(例如，场景媒体数据)。在一些情况下，用户可以具有有限的访问和/或权限来更新、编辑、删除和/或添加与他或她的用户简档相关联的媒体数据(例如，用户特定的场景媒体数据等)。在某些情况下，用户可以例如更新和/或修改与访问与该用户相关联的用户特定的媒体数据相关联的许可；重新分发、共享和/或保存与用户相关联的媒体数据和/或用户特定的场景媒体数据(例如，由主机设备130定义的)；阻止对用户特定的数据的访问；更新用户信息和/或数据，诸如喜爱的球队、家庭成员、朋友、对手等；允许其他用户搜索和/或标识虚拟观众112中的用户(例如，建立、修改和/或移除隐私设置)；更新发布、同意和/或允许在事件处显示用户等。

回到图3，如上所述，主机设备130的处理器133可以被配置成执行特定的功能或指令。这些功能可以以例如硬件、存储在存储器132中和/或在处理器133中执行的软件实施。例如，如图3所示，处理器133包括执行数据库功能的数据库接口134、执行分析功能的分析器135和执行呈现功能的呈现器136。数据库接口134、分析器135和呈现器136可以连接和/或电耦接。由此，信号可以在数据库接口134、分析器135和呈现器136之间发送。

数据库接口134包括和/或执行与监控、搜索和/或更新存储在数据库140中的数据相关联的一组指令。例如，数据库接口134可以包括和/或执行指令，以使处理器133将数据存储在数据库140中，和/或利用由分析器135等提供的数据更新存储在数据库140中的数据。在一些情况下，数据库接口134可以接收指示查询数据库140的指令的信号，以(i)确定存储在数据库140中并且与例如用户相关联的数据是否匹配例如从媒体捕获系统110接收的媒体数据的任何合适的部分，以及(ii)响应于肯定的匹配，更新存储在数据库140中的数据。然而，如果不存在匹配，数据库接口134可以例如查询数据库140以获得下一条目(例如，与下一用户相关联的数据)和/或可以否则的话不更新数据库140。而且，数据库接口134可以被配置成以基于关系的方式和/或以任何其他合适的方式将数据存储在数据库140中。

分析器135包括和/或执行与接收、收集和/或提供与事件111相关联的媒体数据相关联的一组指令。更特别地，分析器135可以接收数据(例如，从通信接口131)，诸如与用户相关联的数据(例如，面部识别信息、简档信息、偏好、活动日志、位置信息、联系人信息、日历信息、社交媒体活动信息、图像分析等)、场所(例如，位置数据、资源数据、事件时间表)或事件。分析器135可以从通信接口131接收与执行和/或运行与分析从一个或多个用户设备120接收的媒体数据相关联的任意数量的过程的请求和/或指令相关联的信号。

在一些情况下，分析器135可以基本实时地从通信接口131接收数据。也就是说，在一些情况下，用户设备120可以经由网络115与主机设备130通信并且可以发送由用户设备120的输入设备(例如，相机)捕获的基本连续的媒体数据流。作为响应，分析器135可以接收媒体数据流(例如，经由通信接口131)并且可以执行与分析媒体数据相关联的一个或多个过程。在一些情况下，分析器135可以被配置成执行任何合适的分析，以确认媒体数据具有期望的(例如，标准化的)格式、大小、分辨率、比特率等。在一些情况下，分析器135可以被配置成对媒体数据执行图像分析、面部识别分析、音频分析和/或任何其他合适的分析(例如，与位置、IP地址、ISP、用户账户等相关联的数据和/或元数据的分析)。在一些情况下，用户设备120的处理器122可以执行媒体数据的初始分析并且分析器135可以被配置为验证由用户设备120的处理器122执行的分析的结果(例如，经由数字签名等)。在一些情况下，这样的实施方式可以例如减少延迟、资源使用、开销等。

在一些情况下，分析器135可以被配置成分析从用户设备120接收的媒体数据流的初始部分，以确定是否允许媒体数据中描绘的用户成为虚拟观众112的成员。例如，媒体数据的初始部分的分析可以包括分析与媒体流、用户设备120和/或用户相关联的场景数据和/或元数据。在一些实施方式中，分析器135可以检查和/或验证登录或账户信息、位置信息、IP地址信息、经更新的签署的弃权和/或批准等，和/或可以对媒体数据的初始部分执行面部识别分析、图像分析(例如，确定个体的存在)、音频分析等，以标识媒体数据中描绘的一个或多个人员，和/或验证媒体数据中描绘的人员是用户设备120的授权用户和/或已经给出了适当的同意和/或签署了适当的弃权和/或文件。在一些情况下，媒体数据的分析可以确认在媒体数据中描绘了人员(例如，人员在用户设备120的相机的视场内)。在一些情况下，媒体数据的分析可以标识和/或确认媒体数据中描绘的用户的身份(例如，通过面部识别、音频或语音识别等)。在一些情况下，媒体数据的分析可以用于确认媒体数据中描绘的内容对于事件111是合适的。例如，用户涂上支持他或她喜欢的篮球队的面部涂料在事件111是篮球比赛时可能是合适的，但是在事件111是政治辩论时可能是不合适的。类似地，媒体数据的分析(例如，面部识别分析、图像分析、音频分析等)可以用于过滤和/或移除具有可能不雅、不适当、露骨、亵渎和/或年龄限制的内容的媒体数据(例如，一个或多个图像、音频等)。

在一些情况下，分析器135可以被配置成当分析的结果满足以任何合适的方式(例如，诸如小数、百分比等的值)表示的标准(例如置信度水平和/或匹配阈值)时，验证、注册和/或允许用户成为虚拟观众112的成员。例如，在一些情况下，标准可以是阈值等，诸如媒体数据和存储在数据库140中的数据的至少一部分的70％匹配、媒体数据和存储在数据库140中的数据的至少一部分的75％匹配，媒体数据和存储在数据库140中的数据的至少一部分的80％匹配、媒体数据和存储在数据库140中的数据的至少一部分的85％匹配、媒体数据和存储在数据库140中的数据的至少一部分的90％匹配、媒体数据和存储在数据库140中的数据的至少一部分的95％匹配、媒体数据和存储在数据库140中的数据的至少一部分的97.5％匹配、媒体数据和存储在数据库140中的数据的至少一部分的99％匹配、或其间的任何百分比。

在一些情况下，当确定是否允许用户成为虚拟观众的一部分时，分析器135可以分析和/或检查用户是否已经给出适当的同意和/或签署了适当的弃权和/或文件。在这种情况下，分析器135可以检查用户的简档，以确定用户的简档是否已经最新签署和/或同意弃权和/或同意协议。在一些实施方式中，分析器135可以基于由用户和/或与用户相关联的用户设备120提供的登录信息来标识用户的简档。在一些实施方式中，分析器135可以通过对媒体数据中描绘的人员执行面部识别来标识该人员的身份，从而标识用户的简档。分析器135然后可以检查与媒体数据中标识的人员相关联的简档，以确定该人员是否已经给出适当的同意和/或签署了适当的弃权和/或文件。使用面部识别来标识媒体数据中实际描绘的用户(而不是仅仅依赖于用户账户和/或与用户设备120的关联)可以确保媒体数据中实际描绘的每个用户已经提供了要成为虚拟观众的一部分的适当同意。例如，如果多个个体正在使用相同计算设备，分析器135可以确保个体中的每一个已经提供了适当同意。作为另一示例，如果用户的家庭成员出现在来自与该用户相关联的用户设备的媒体数据中，则分析器135可以确保该家庭成员已经提供了适当的同意。在一些实施方式中，如果检测到还没有提供适当同意的个体，则分析器135可以向用户设备120发送该个人在加入虚拟观众之前提供同意的请求。而且，在一些实施方式中，如果检测到尚未提供适当同意的个体，则分析器135可以自动(即，无需制作者输入)阻止该用户和/或用户设备加入虚拟观众和/或从虚拟观众中移除该用户和/或用户设备。

在一些情况下，分析器135可以被配置成响应于分析器135标识媒体数据中描绘的用户和/或以其他方式允许所描绘的用户成为虚拟观众112的成员，在用户设备120和主机设备130之间建立连接。例如，在一些情况下，分析器135可以向通信接口131发送信号，以经由网络115在用户设备120和主机设备130之间建立安全链路、隧道和/或连接。

在一些情况下，分析器135可以定义用户简档(例如，作为用户注册的一部分，作为初始访问主机设备130的一部分等)等，该用户简档包括用户的媒体数据(从用户设备120接收的)、以及与用户或用户设备120相关联的任何其他合适的信息或数据(例如，场景数据)，例如图片、视频记录和/或音频记录、个人和/或标识信息(例如，姓名、年龄、性别、生日、爱好、婚姻状况、职业、喜爱的运动队等)、日历信息、联系人信息(例如，与用户和/或用户的朋友、家人员、同事等相关联)、设备信息(例如，媒体访问控制(media access control，MAC)地址、互联网协议(IP)地址等)、位置信息(例如，当前位置数据和/或历史位置数据)、社交媒体信息(例如，简档信息、用户名、密码、朋友或联系人员列表等)、同意信息(例如，签署的弃权、同意被包括在虚拟观众中等)和/或任何其他合适的信息或数据。在一些情况下，分析器135可以向数据库接口134发送指示将用户简档数据存储在数据库140中的指令的信号，如本文进一步详细描述的那样。在一些情况下，场景数据和/或其至少一部分可以用于过滤和/或搜索具有相似兴趣、特征、属性等的虚拟观众112的成员，如本文进一步详细描述的那样。

虽然分析器135在上面被描述为分析从一个或多个用户设备接收的媒体数据和/或场景数据(例如，通过面部识别、音频识别和/或任何其他合适的分析)，但是在一些实施方式中，分析器135还被配置成分析从媒体捕获系统110接收的媒体数据和/或场景数据。例如，在一些情况下，事件111可以是表演者在场所105处现场演唱的音乐会。在一些这样的情况下，分析器135可以分析从媒体捕获系统110接收的媒体数据，并且例如可以标识音频数据的至少一部分是表演者歌唱的音频数据。在一些实施方式中，分析器135又可以将音频数据与从用户设备120接收的音频数据进行比较，以确认用户正在作为虚拟观众112的成员参与。相反，分析器135可以将表演者歌唱的音频数据与从用户设备120接收的音频数据进行比较，以将用户歌唱的音频数据与表演者歌唱的音频数据区分开。

在一些情况下，主机设备130和/或分析器135可以确保与表演者歌唱相关联的音频数据以期望的音量呈现和/或以其他方式被分配更高的优先级、偏好、音量、偏差等(例如，相对于其他音频数据)。在一些情况下，主机设备130和/或分析器135可以确保与用户歌唱相关联的音频数据不包括在提供给其他用户设备120的用户或事件111中的一个或多个加入者(诸如表演者)的媒体数据中，除非歌唱的用户和/或接收媒体数据的用户或事件加入者接受、授权和/或以其他方式允许。在一些情况下，分离的、隔离的和/或个性化的音频数据流(例如，与虚拟观众112的成员相关联)可以是提供给用户的用户特定的场景媒体数据的至少一部分。在一些情况下，分离的、隔离的和/或个性化的音频数据流可以被产品化、出售和/或以其他方式变得可用(例如，对于公众)。

在一些情况下，主机设备130和/或分析器135可以执行音频识别，以确保虚拟观众的任何用户遵守针对该虚拟观众建立的规则和/或准则。如果这样的用户不遵守针对该虚拟观众建立的规则和/或准则，则主机设备130(例如，使用呈现器136)可以自动将该用户静音和/或将该用户从虚拟观众中移除。例如，如果用户正在咒骂和/或不恰当地诘问表演者，这可以由分析器135使用音频识别来标识，并且呈现器136可以使用户静音和/或将用户从虚拟观众中移除。作为另一示例，如果分析器135标识用户的麦克风正在背景中拾取大声的和/或分散注意力的噪声，则呈现器136可以将用户静音和/或将用户从虚拟观众中移除。而且，音频识别可以用于标识的虚拟观众的用户身份。这种标识可以用于移除被禁止的用户(即使使用不同的用户账户)、保持跟踪坏演员、确定该用户是否提供了成为虚拟观众的一部分的适当同意(并且如果他们没有提供适当同意，则自动阻止用户参与虚拟观众)等。可以使用任何合适的音频分析来执行音频识别。例如，自然语言处理、机器学习、人工智能等可以用于标识用户和/或用户正在说什么。

在一些情况下，分析器135可以被配置为将从一个或多个用户设备120接收的媒体数据(和/或场景数据)的至少一部分与从场所105处的媒体捕获系统110接收的媒体数据(和/或场景数据)进行匹配、同步和/或关联。例如，分析器135可以被配置为分析和同步从一个或多个用户设备120接收的媒体数据与从媒体捕获系统110接收的媒体数据，以确保媒体数据基本上一致(例如，发生和/或捕获与基本上相同的时间相关联的数据)。

在一些实施方式中，分析器135被配置成包括和/或执行与聚集、组合和/或同步数据(例如，媒体数据)相关联的一组指令。例如，在一些实施方式中，分析器135可以分析从用户设备120接收的媒体数据，并且响应于允许用户设备120的用户成为虚拟观众112的成员，分析器135可以将来自该用户设备120的媒体数据与和虚拟观众112的其他成员相关联的媒体数据(例如，从其他用户设备120接收的媒体数据)聚集。此外，分析器135可以被配置成同步从任何数量的用户设备120接收的媒体数据(例如，时间上同步媒体数据)，以确保媒体数据基本上一致(例如，时间上)。在一些情况下，来自用户设备120的媒体数据的聚集和同步可以包括聚集和同步视频数据和/或音频数据。例如，在一些情况下，音频数据可以被同步为使得虚拟观众112的成员的所记录的反应(例如，欢呼、吟唱、笑声、掌声、握拳、诘问等等)对应于事件111期间基本上同时的发生的事(例如，紧接着或几乎紧接着得分的队)。类似地，在一些情况下，视频数据和/或图像可以被同步为使得虚拟观众112的成员的物理(非听觉)反应对应于基本上同时事件111期间的发生的事。在一些实施方式中，虚拟观众112的视频数据和/或图像数据(例如，整个虚拟观众112或其区段或部分)可以被聚集并用于创建例如“人群镜头”或图像。在一些情况下，主机设备130(或其部分)可以被配置成利用虚拟观众112的成员的媒体数据(例如，视频数据)来替换、覆盖、增加、增强、补充观众的视频素材等。

在一些情况下，一旦分析器135聚集和/或同步从用户设备120接收的媒体数据(例如，图像数据、视频数据和/或音频数据)，分析器135就可以向呈现器136发送指示呈现媒体数据的指令的信号。在一些情况下，分析器135可以独立于图像和/或视频数据同步来自从每个用户设备120接收的媒体数据的音频记录。在这种情况下，分析器135可以将音频记录聚集和/或组合成单个音軌，该单个音軌又可以被发送到呈现器136以在场所105出播放和/或被发送、广播和/或流式传输到用户设备120和/或被配置为接收广播(例如，电视)以及由媒体捕获系统110捕获的视频数据的任何其他电子设备。

呈现器136包括和/或执行与在场所105处呈现从用户设备120接收的媒体数据相关联的一组指令。例如，在一些实施方式中，场所105可以包括一个或多个视频板(例如，显示器)，该一个或多个视频板被配置为响应于从呈现器136接收的信号和/或指令来数字地表示媒体数据。在一些实施方式中，场所105可以包括一个或多个屏幕(例如，“绿色屏幕”)，该一个或多个屏幕可以允许呈现器136和/或主机设备130的其他部分通过色键合成和/或其他计算机生成图像(cgi)技术来呈现媒体数据。在一些实施方式中，场所105可以被配置为仅包括虚拟观众112，其中视频板、“绿色屏幕”、可以在其上显示和/或投影图像的屏幕等基本上围绕场所105的院子、舞台、平台等。在一些实施方式中，场所105可以被配置成包括虚拟观众112和亲自出现在场所105处的现场观众的混合。在这样的实施方式中，视频板、屏幕(例如，绿色屏幕和/或可以在其上显示和/或投影图像的任何合适的屏幕)等可以被设置在场所105内的任何合适的位置和/或布置中(例如，放置在竞技场或剧院的特定行或区段中等)。

媒体数据在场所105处的呈现可以使得从用户设备120接收的媒体数据中描绘的每个用户(或用户组)成为场所105处的虚拟观众112的成员。在一些情况下，在场所105处提供虚拟观众112的呈现可以允许虚拟观众112加入和/或参与在场所105处实际发生的事件111(例如，现场事件)(例如，以类似于亲自出现在场所105处的现场观众的成员的加入和/或参与的方式)。而且，在一些情况下，在场所105提供虚拟观众112的呈现可以允许事件111的加入者(例如，运动员、毕业生、庆典者、政治家等)看到和/或听到虚拟观众112参与事件111(例如，欢呼、挥舞拳头、起哄、跳舞、提问等)，这可能具有增强或阻碍事件参加者(例如，运动员等)的表现。

呈现器136可被配置成以任何合适的方式呈现与任何数量的虚拟观众成员相关联的媒体数据。例如，在一些实施方式中，呈现器136可以被配置成以类似于竞技场处的座位区段的方式布置的2-D“区块”和/或区块的网格来呈现媒体数据和/或媒体流。

例如，图5是根据实施例的具有虚拟观众的场所的图示。如图5所示，场所在比赛台面220附近(例如，在图5中的篮球场附近)具有屏幕210(例如，显示器、可以在其上显示和/或投影图像的屏幕、绿色屏幕、监控器等)。虚拟观众成员的多个区块230被显示在屏幕210上。在虚拟观众成员参与(例如，观看、欢呼、起哄等)事件时，区块230可以示出虚拟观众成员的视频。在一些实施方式中，一个或多个虚拟观众成员也可以在场所内的一个或多个附加屏幕240(例如，屏幕、视频板、显示器、监控器等，诸如本文描述的那些)上被突出显示和/或特写。虽然在图5中被示出为在篮球场的三个边上，但是在一些实施方式中，屏幕可以围绕正在进行表演的比赛台面或其他区域(例如，球场、舞台、场地、溜冰场等)，或者可以在正在进行表演的比赛台面或其他区域(例如，球场、舞台、场地等)的一个或多个边上。例如，在棒球场中，被称为“击球手的眼睛”中间场地中的区域可以没有屏幕。而且，虽然本文讨论为屏幕，但是这种屏幕可以是任何合适的显示器和/或多个屏幕和/或显示器。

虽然被示出为竖直屏幕(例如，诸如本文描述的那些屏幕中的任何一个)，但是在一些实施方式中，屏幕可以是成角度的和/或分层的，类似于体育场和/或倾斜座位。例如，在这样的实施方式中，每个连续的区块行可以看起来在前一个/下一个区块行后面。在一些实施方式中，在竖直或非竖直(例如，成角度的或分层的)屏幕上，区块可以是不同的大小。例如，屏幕上较低和/或更靠近正在进行表演的区域的区块可以比屏幕上较高和/或更远离正在进行表演的区域的区块大。而且，与屏幕上较低和/或更靠近正在进行表演的区域的行相比，在屏幕上较高和/或更远离正在进行表演的区域较远的行中，可以装配和/或显示更多的区块。这可以提供类似于体育场和/或倾斜座位的错觉和/或深度效果。

而且，在一些实施方式中，屏幕上的区块可以用于与虚拟粉丝进行交互。例如，在这样的实施方式中，可以在棒球场为棒球比赛提供屏幕上的虚拟观众(类似于图5中的虚拟观众)。如果选手击出本垒打或击中屏幕的区块的界外球，则可以向该区块中示出的粉丝发送和/或提供本垒打或界外球或其他奖品(例如，礼品卡、祝贺消息等)。类似的情况可以在其他体育赛事、音乐会等中提供。作为其他示例，当网球击中屏幕上的示出虚拟观众中的粉丝的区块时，网球(或其他奖品)可以被发送和/或以其他方式提供给虚拟观众中的该粉丝，当冰球击中屏幕上的示出虚拟观众中的粉丝的区块时，冰球(或其他奖品)可以被发送和/或以其他方式提供给曲冰球比赛中的虚拟观众中的该粉丝，当吉他拨片或鼓棒击中屏幕上的示出虚拟观众中的粉丝的区块时，吉他拨片或鼓棒可以被发送和/或以其他方式提供给音乐会处的虚拟观众中的该粉丝等。作为另一示例，在某些情况下，啦啦队员、推广者等可以将衬衫(或其他物品)扔进虚拟人群中。如果衬衫(或其他物品)击中屏幕的区块，则可以向该区块中示出的粉丝发送和/或提供衬衫(或其他物品)。

在一些情况下，与区块中描绘的用户相关联的化身等可以被示出为接住球、冰球、吉他拨片、鼓棒等。例如，化身接住球、冰球、吉他拨片、鼓棒等的视频可以被呈现在附加屏幕240和/或屏幕210的任何合适的部分上。在某些情况下，可以示出啦啦队员(或其他个体)虚拟地将衬衫(或其他物品)扔进虚拟人群中(而不是亲自在那里)。这可以通过啦啦队员(或其他个体)随机选择粉丝来接收衬衫(或其他物品，诸如礼品卡)来完成。可以示出模拟投掷衬衫(或其他物品)的啦啦队员(或啦啦队员的化身)和接住物品的粉丝(或粉丝的化身)的视频。

在一些实施方式中，区块中示出的个体可以从区块在场所中的位置的角度看到事件的视频。例如，可以为事件的每个区段提供分离的相机，并且在某个区段具有区块的个体可以从该区段观看事件，就像他们坐在该区段中一样。因此，当物品朝向该个体的区块出现时(例如，本垒打球)，区块中的个体可以观看物品朝向他们出现，就像他们在场所一样。

在一些实施方式中，可以为虚拟观众的某个区段中的具有区块的粉丝提供重播。例如，如果本垒打球击中了体育场的某个区段中的虚拟观众的区块，可以提供示出区块中的粉丝接住了本垒打球，而本垒打球击中的区块周围的区块中的粉丝几乎接住了本垒打球的重播(例如，数字修改的重播)。作为另一示例，如果选手跳入看台(例如，去接住球)，重放(例如，数字修改的重放)可以被示出为运动员与区块中的粉丝互动，就像在体育场的那个区段中的粉丝发生的那样。在某些情况下，这样的重放可以被修改为从粉丝从他们各自的区块具有的视角，就好像他们在竞技场中一样(例如，粉丝看到重放，就好像本垒打球飞向她)。在一些情况下，重放可以被示出为使得粉丝的区块被示出在背景中，并且可以在重放的背景中看到这些区块中的个体。这种重放可以给个体提供身临其境并且是在场所的特定区段的感觉。

在一些实施方式中，选手和/或表演者可以从虚拟观众中选择一个或多个个体来与之进行互动。例如，在音乐会上，音乐家可以从虚拟观众中选择区块，并且音乐家可以参与与该区块中描绘的个体进行的对话(例如，与该区块相关联的音频被放大超过来自其余区块的音频)。类似地，脱口秀的主持人可以从虚拟观众中选择区块，并且主持人可以参与与该区块中描绘的个体进行的对话。在一些情况下，与选手和/或表演者正在与之交互的虚拟观众成员相关联的区块可以呈现在例如附加屏幕240上。例如，在一些情况下，选手(或其他加入者)可以从虚拟观众中选择区块，并且可以在与区块中描绘的个人交互的同时提供签名(例如，在棒球上)。签名(例如，在棒球上)然后可以被发送或以其他方式提供给该区块中的个体。

在一些实施方式中，用户可以支付不同的价格来呈现在虚拟观众的不同区段和/或部分中。例如，用户具有呈现在篮球比赛的虚拟观众的第一行中的区块的价格可能高于用户具有呈现在虚拟观众的最后一行中的区块的价格。而且，用户可能想要支付额外费用以使他的区块呈现在可能的本垒打位置，从而希望获得如上所述的本垒打球。因此，在虚拟观众中呈现的价格可以基于该区块相对于场所中的虚拟观众呈现在哪里而变化。

回到图1，如上所述，场所105处的媒体捕获系统110可以用于捕获与事件111相关联的媒体数据以及与虚拟观众112(和/或现场观众，如果亲自在场所105处的话)相关联的媒体数据。在一些情况下，一个或多个广播制作者(例如，用户)可以控制主机设备130来选择和/或确定要呈现的虚拟观众112的哪些成员(例如，经由呈现器136)，这又可以在由场所105处的媒体捕获系统110捕获的媒体数据中被捕获和/或描绘。例如，事件111可以是篮球比赛，并且响应于“主队”投篮，呈现器136可以接收指令(例如，从制作者、从一个或多个用户、从事件111中的加入者、从使用诸如本文描述的分析器135的分析的自动分类器、根据一个或多个标准等)来呈现虚拟观众112中作为主队的粉丝并且响应于选手投篮而欢呼的成员。如上所述，除了来自用户设备120的媒体数据之外，主机设备130还可以接收数据(例如，场景数据)，该数据可以用于过滤和/或搜索虚拟观众112的特定成员。例如，这样的场景数据可以包括指示用户是在场所105处打篮球比赛的主队的粉丝的数据。

在一些情况下，呈现器136可以基于与相对应的用户设备120的用户相关联的场景数据来呈现虚拟观众112的成员(例如，作为“区块”)。例如，在一些情况下，呈现器136可以基于用户支持或喜欢哪个队将虚拟观众112分成多个区段。具体而言，呈现器136可以布置区块，使得支持“主队”的虚拟观众112的成员在第一区段，而支持“客对”的虚拟观众112的成员在与第一区段分离的第二区段。

在一些情况下，呈现器136可以呈现示出虚拟观众112中比其他成员对事件111更有响应和/或反应的成员的区块。例如，在一些情况下，分析器135可以对与虚拟观众112的成员相关联的媒体数据执行面部识别分析(例如，分析)、视频分析、图像分析、音频分析、机器学习、人工智能和/或任何其他合适的分析，以确定、标识、分类等用户的响应和/或反应的一个或多个特征。在一些情况下，呈现器136可以被配置为增加与对事件111更有响应和/或反应的虚拟观众112的成员(例如，分析器135确定谁更有响应和/或反应)相关联的优先级、偏差和/或权重，这又可以增加虚拟观众112的该成员被呈现的可能性。

在一些情况下，分析器135可以执行分析以标识虚拟观众112的具有特定心情、情绪、活动水平等的成员。在一些实施范式中，分析可以是面部识别分析、部分面部识别分析、基于面部识别并被训练来检测面部表情的机器学习分析(例如，在主机设备130和/或分析器135上执行或由该主机设备和/或分析器执行)、和/或任何其他合适的分析。例如，分析器135可以标识正在微笑、跳舞、叫喊、沮丧、兴奋、失望等的虚拟观众112的成员。类似地，分析器135可以标识正在睡觉、不移动、闭着眼睛等的虚拟观众112的成员，并且可以避免呈现虚拟观众112的这些成员。在一些情况下，由分析器135执行的这种分析可以自动确定要呈现虚拟观众的哪些成员，和/或可以用作过滤器，以在制作者确定要呈现虚拟观众112的哪些成员之前，减少诸如制作者的个体检查的虚拟观众112的成员的数量(例如，制作者可以基于有分析器135执行的分析，仅查看满足某个预定分数或阈值的区块)。

虽然分析器135在上文被描述为自动确定要呈现虚拟观众112的哪些成员和/或过滤虚拟观众112的成员以帮助例如制作者选择要呈现虚拟观众112的哪些成员，但是在一些实施方式中，分析器135可以基于来自一个或多个用户(例如，用户设备120的用户)的输入来确定要呈现虚拟观众112的哪些成员。换句话说，在一些实施方式中，主机设备130和/或分析器135可以被配置成基于从用户设备120的用户、事件111的加入者和/或任何其他输入接收的“众包”数据来确定要呈现(或强调、突出显示、扩展或放大、音频聚焦等)虚拟观众112的哪个(哪些)成员。例如，用户可以操纵相关联的用户设备120来选择、喜欢、喜爱和/或以其他方式指示他或她喜爱的虚拟观众112的(多个)成员和/或他或她有兴趣观看和/或听到的虚拟观众112的成员。在一些情况下，这样的选择可以基于对事件111的一个或多个响应和/或反应、基于notoriety和/或名气水平、基于音频(例如，所说的一个或多个事情是有意思的或有趣的)、和/或任何其他(多个)标准。

附加地，主机设备130和/或分析器135可以被配置成基于从用户设备120的用户、事件111的加入者和/或任何其他输入接收的“众包”数据来确定虚拟观众112的哪个(哪些)成员不呈现或不强调。例如，用户可以指示他们对虚拟观众112的特定成员的不喜欢。在一些实施方式中，具有最高数量的喜欢和/或喜爱的虚拟观众112的成员可以被呈现在虚拟观众112中，而具有最高数量的不喜欢(和/或最少数量的喜欢)的那些成员不被呈现或者以具有较小大小、较不期望的位置等的区块来呈现。在一些情况下，代替自动向虚拟观众112的成员呈现最高数量的喜欢112，分析器135可以被配置为在制作者确定要呈现(或强调)虚拟观众112的哪些成员之前，过滤掉和/或减少诸如制作者的个体检查的视频流(例如，与虚拟观众112的成员相关联)的数量。类似地陈述，众包数据可以被用作过滤器，使得制作者仅检查与具有最高数量的喜欢和/或喜好的虚拟观众112的成员相关联的媒体数据以便进行呈现。

在一些实施方式中，这种众包可以与以上描述的自动分析(例如，视频和/或音频分析)中的任何一个结合使用，以自动选择要呈现的虚拟观众112的成员，或者为用户提供过滤器，使得制作者在选择要呈现的虚拟观众112的成员之前仅检查从用户设备120接收的媒体数据的子集。而且，任何其他合适的众包、分析(例如，数据、图像、视频、音频等)、来自用户简档的数据、用户是其他虚拟观众的成员的历史、用户的高级状态、场景数据(例如，与用户、用户简档、事件、场所、广播时间等相关联的场景数据)等可以单独使用或结合其他方法使用，以选择或帮助选择要呈现的虚拟观众112的成员。

而且，在一些情况下，呈现器136可以被配置成突出显示和/或特写(例如，在一个或多个更大和/或附加的屏幕(诸如图5中的屏幕240)上示出)虚拟观众112的满足一个或多个标准或者具有对事件111的满足标准的反应和/或响应的一个或多个成员。例如，呈现器136可以突出显示与虚拟观众112的是名人的、著名的、为高级状态付费的成员相关联的区块。作为另一示例，呈现器136可以突出显示与虚拟观众112的具有最大、最好、最差、最有意思和/或最感兴趣的反应或响应的成员相关联的区块。在一些情况下，系统100和/或主机设备130可以提供与虚拟观众112的成员的反应和/或响应相关联的竞赛和/或比赛。在一些情况下，呈现器136可以轮换和/或循环通过虚拟观众112的成员(例如，具有或没有基于反应等的一个或多个偏差)。另外，在一些情况下，对于(例如，通过相对应的用户设备120)提供给该用户的媒体数据，用户可以控制和/或选择虚拟观众112的成员的轮换和/或循环。

虽然呈现器136在上文被描述为被配置成基于例如对事件111的反应和/或响应来确定要呈现、突出显示和/或特写虚拟观众112的哪些成员，但是在一些实施方式中，主机设备130可以被配置成使得呈现器136呈现执行一个或多个动作的虚拟观众112的成员(例如，共同作为组或任何数量的子组)。例如，在一些实施方式中，呈现器136可以呈现虚拟观众112的成员表演“波浪”，如现场观众通常所做的那样(例如，在体育赛事等)。更具体地，在一些情况下，从每个用户设备120接收的媒体数据可以描绘相对应的用户(或者媒体捕获设备(相机)的视场内的用户组)从坐着的位置移动到站站立的位置、举起他或她的手等。分析器135可以例如分析从用户设备120接收的媒体数据(例如，使用面部识别分析、视频分析、图像分析、音频分析、机器学习、人工智能、和/或任何其他合适的分析)来确定虚拟观众112的哪些成员正在加入“波浪”，并且然后可以被配置成向呈现器136发送指示以具有微小时间延迟的串行方式呈现相邻区块的指令，使得区块中描绘的(多个)用户被示出为一个接一个地站立和/或以其他方式移动来执行“虚拟波浪”。

作为另一示例，何时站立的指示(例如，通知、消息、请求、指示等)可以被提供给虚拟观众112中的每个用户或提供给虚拟观众112中的用户的子集(例如，家人、朋友、同事和/或共享连接或关系的其他用户；来自特定地理区域的用户；已经指示他们是某个特定队的粉丝的用户；穿戴特定的颜色、纪念品、服装、帽子等的用户；与特定学校、学院、队等相关联的用户；具有预定身体特征的用户，诸如具有长头发、较高等等；和/或类似物)，使得在屏幕上呈现并协调“虚拟波浪”。在一些情况下，制作者等可以触发、发起、发送(或导致发送)这样的指示、消息等。在一些情况下，用户可以通过向一个或多个其他用户(例如，诸如以上提及的用户的子集)发送消息来触发和/或发起虚拟波，该一个或多个用户作为响应，站立和/或以其他方式执行与虚拟波相关联的动作。在其他情况下，主机设备130和/或呈现器136可以被配置成以任何合适的方式呈现虚拟波或其他协调的欢呼或动作。

虽然呈现器136在上面被描述为呈现虚拟观众112的成员表演虚拟波浪，但是应当理解的是，这仅仅是作为示例而非限制提供的。例如，呈现器136可以呈现虚拟观众112的一个或多个成员执行任何个人或集体活动。例如，在一些情况下，虚拟观众112的成员可以表演和/或可以被呈现为或当表演快闪族、集体和/或协调性舞蹈、欢呼、挥舞拳头等被呈现为穿戴拉力赛帽和/或具有或持有其他欢呼物品、标志等、被呈现为使钥匙叮当响和/或使用任何合适的噪声制造设备等。作为另一示例，呈现器136可以呈现从多个不同的用户设备120接收的媒体数据，这些媒体数据描绘了该用户设备120的用户显示一个或多个字母(例如，通过手势、身体彩绘等)。更具体而言，主机设备130、分析器135和/或呈现器136可以识别一个或多个字母(例如，经由本文描述的分析中的任何一个)，可以布置媒体数据以使用一个或多个字母产生或拼写单词(例如，“D-E-F-E-N-S-E”)，并且可以在单个区块中或者在两个或更多个相邻去开中呈现媒体数据。而且，可以向用户设备120的子集、所有用户设备120和/或被配置为接收这种广播的任何其他设备(例如，电视)发送、提供和/或广播与事件111相关联并且描绘集体活动等的媒体数据。

虽然虚拟波和/或其他形式的观众参与或集体活动在上文中被描述为响应于指示、通知、消息等而被执行，但是在一些实施方式中，主机设备130可以例如使用诸如在本文中描述的那些分析的分析(例如，面部识别分析、视频分析、图像分析、音频分析、机器学习、人工智能和/或任何其他合适的分析)来自动创建虚拟波浪和/或其他形式的集体活动，而无需特定的协调性努力来这样做。作为示例，主机设备130和/或分析器135可以分析从两个或更多个用户设备接收的媒体数据，以标识恰好被描绘为从坐着的位置移动到站立的位置、恰好被描绘为举起他或她的手臂以例如伸展、挥舞拳头等的一组用户(虚拟观众112的成员)。已经标识了期望的媒体数据(例如，描绘用户、可以使其看起来好像他或她正在表演“波浪”的媒体数据)，分析器135(和/或诸如制作者等的个体)可以组织和/或布置媒体数据，并且呈现器136可以以这样的方式在屏幕上呈现与媒体数据相关联的区块，即，区块中描绘的虚拟观众112的成员共同表演虚拟波浪。

在一些实施方式中，主机设备130和/或提供由主机设备130执行的指令的制作者可以在事件111期间在预定和/或期望的时间发起虚拟波浪和/或任何其他形式的观众参与或集体活动。例如，当事件111是体育事件等时，主机设备130可以发起和/或可以被指令发起虚拟波浪和/或任何其他形式的观众参与或集体活动，例如在与虚拟观众112相关联的能量水平被预期和/或确定为相对较低的“暂停”期间。在一些实施方式中，主机设备130可以执行任何合适的分析(例如，数据、图像、视频、音频和/或本文描述的任何其他分析)来确定和/或评估与虚拟观众112相关联的能量水平。例如，主机设备130可以分析与虚拟观众112相关联的集体音量，其中较大的集体音量可以指示事件111期间更激动人心的时间，而较安静的集体音量可以指示事件111期间不太激动人心的时间。

虽然上面描述了指示观众成员支持哪个队的场景数据，但是应当理解的是，这种场景数据仅作为示例而非限制来提供。在一些情况下，呈现器136可以仅呈现虚拟观众112的某些成员，或者可以基于与媒体数据、事件111、用户、与事件111中的一个或多个用户或加入者的关系、用户设备120中的一个或多个等相关联的任何合适的数据，以某种布置呈现虚拟观众112的成员。例如，在一些情况下，毕业(例如，事件111)可以在地点105处发生，并且呈现器136可以被配置为仅呈现虚拟观众112的和或与特定毕业生(例如，被授予文凭的毕业生)联系一个或多个熟人的成员。这种联系可以包括例如家庭关系、配偶关系、朋友群或关系(例如，如用户提供的数据、联系人数据、社交媒体数据和/或本文描述的任何其他数据来确定)。

在一些实施方式中，呈现器136可以被配置成基于例如与从一个或多个用户设备120接收的上下文数据相关联的一个或多个预定标准来自动和/或独立地选择和/或布置虚拟观众112的成员(“区块”)。在一些实施方式中，呈现器136可以被配置成响应于和/或基于从至少部分控制主机设备130的一个或多个广播制作者和/或一个或多个用户接收的指令来选择和/或布置虚拟观众112的成员。在一些实施方式中，呈现器136可以被配置成响应于来自事件111中的一个或多个加入者的输入或指令来选择和/或布置虚拟观众112的成员。例如，在一些情况下，事件111可以是现场表演(例如，脱口秀、喜剧表演等)，并且响应于虚拟观众112的成员诘问和/或以其他方式扰乱表演，表演中的加入者(例如，主持人、喜剧演员和/或任何其他加入者)可以向呈现器136发送指令以静音、阻止、冻结和/或移除虚拟观众112的该成员。

在一些实施方式中，呈现器136可以被配置成响应于和/或基于从一个或多个用户设备120接收的和/或存储在数据库140中的一个或多个用户简档数据结构中的偏好和/或(多个)指令来选择和/或布置虚拟观众112的成员。在一些这样的实施方式中，呈现器136可以被配置成向提供(多个)指令的用户设备120的用户呈现个性化虚拟观众112。在一些实施方式中，呈现器136可以被配置成响应于“众包”数据(例如，从相对较大数量的用户设备120接收的输入或指令)来选择和/或布置虚拟观众112的成员。在一些这样的实施方式中，呈现器136可以被配置为呈现众包虚拟观众112，该虚拟观众又与在场所105处由媒体捕获系统110捕获的媒体数据一起被广播(例如，向所有用户广播的虚拟观众112可以是众包虚拟观众)。而且，由媒体捕获系统110捕获的包括众包虚拟观众112的媒体数据可以被广播到每个用户设备120、广播到用户设备120的子集和/或广播到被配置成接收广播的任何合适的电子设备(例如，不向系统100提供描绘观看电视的人员的媒体数据的电视)。

在一些情况下，主机设备136可以被配置成基于用户的偏好和/或指令向包括虚拟观众112的成员的每个用户设备120提供个性化和/或用户特定的媒体流。换句话说，呈现器136可以被配置成针对每个特定用户不同地选择和/或布置虚拟观众112的成员，使得基于例如与从一个或多个用户设备120接收的场景数据相关联的一个或多个预定标准，向每个用户设备120呈现不同的(或个性化的)观众。例如，偏好、指令和/或标准可以是(或可以基于)同一队、选手、运动员等的支持者；诸如同学院的校友的历史数据；家庭成员；朋友、熟人、联系人和/或同事；人口统计数据(例如，年龄、种族、性别等)；参与事件111的程度(例如，观众的成员响应于事件具有相对较大或相对较小的反应的偏好)；政治派别；和/或任何其他合适的偏好、指令和/或标准。在一些实施方式中，与至少一个偏好、指令或标准相关联的和/或指示至少一个偏好、指令或标准的数据可以存储在数据库140中存储的用户简档数据结构(例如，当用户向系统100“注册”时接收的)中。在其他实施方式中，与(多个)偏好、(多个)指令和/或(多个)标准相关联和/或指示(多个)偏好、(多个)指令和/或(多个)标准的数据可以被包括在从用户设备120接收的场景数据中，和/或从该场景数据中导出。

虽然分析器135在上面被描述为分析媒体数据和/或场景数据以确定是否将用户包括为虚拟观众的一部分，但是在一些实施方式中，分析器135可以使用类似的方法和/或标准来分析媒体数据和/或场景数据以确定用户是否应该继续作为虚拟观众的成员加入。在一些实施例中，分析器135确定虚拟参加者的锁接收的媒体流的特征何时指示应该从虚拟观众中移除相对应的虚拟参加者。这些特征包括所接收的媒体流的质量下降到低于最小质量阈值、连接速率下降到低于最小阈值、所接收的媒体流的数据分组丢失、虚拟参加者中的一个的可视表示缺失、或所接收的媒体流中的不适当内容。例如，分析器135可以确定和/或检测用户何时背离他们的相机的视场移动持续预定时间量和/或离开他们的相机的视场持续预定时间量(例如，分析器135使用图像分析检测到人员不在他们的相机的视场内)、何时用户的面部的大小减小到低于预定标准(例如，分析器135使用图像分析检测到人员没有离他们的相机很近)、何时用户转身并且不再面对他们的相机、何时用户做出猥亵的姿势、何时被标识为没有提供最新的参加同意的用户进入相机的视野、何时用户看起来睡着了、何时用户的视频馈送看起来冻结了、何时用户已经停止他的视频馈送、何时用户穿戴与虚拟观众的特定区段不相关联的队的颜色或随身用品、何时用户在说脏话时、何时用户在吸烟、何时用户在喝酒、何时用户穿戴着品牌服装、何时用户持有标志(例如，在标志不被允许的情况下和/或在标志具有不适当的内容的情况下)、何时有人在背景中行走等。作为另一示例，如果已知的不良演员(例如，已被标识为先前做出淫秽和/或不适当姿势(如其简档所指示的那样)的用户)被标识为在另一用户的账户下参加虚拟观众，则该用户可以被标识。在一些实施方式中，当做出这样的确定时，可以自动将用户从虚拟观众中移除(例如，通过呈现器136)，而无需制作者的参与。在其他实施方式中，制作者可以被自动通知这种确定，并且可以做出关于是否将用户从虚拟观众中移除的决定和/或选择。因此，移除可以是自动的和/或可以基于制作者对确定的检查。

在一些情况下，当用户从虚拟观众中移除时，该用户可以由不同的用户代替(例如，由呈现器136进行)。例如，分析器135和/或制作者可以维护备份用户的列表，该列表可以在将加入的用户从虚拟观众中移除的情况下准备好加入虚拟观众。当加入虚拟观众的用户被从虚拟观众中移除时，该用户可以在虚拟观众中被来自备份用户的列表的用户替换(例如，由呈现器136进行)。在一些实施方式中，代替替换用户，虚拟观众的描绘可以针对虚拟观众中的较少数量的用户来优化(例如，虚拟观众中的每个区块可以被调整大小，使得区块共同填充屏幕)。

如本文所述，可以对虚拟观众和/或虚拟观众中的预期加入者执行(例如，通过分析器135)虚拟观众成员的面部识别、面部分析、行为分析、音频识别、音频分析、视频和/或图像分析和/或其他类型的分析。可以使用用于检测用户的身份、行为、外表、存在等的任何合适的算法、过程和/或方法来执行这种分析。例如，这种分析可以使用机器学习模型(例如神经网络、卷积神经网络、决策树模型、随机森林模型等)来执行。可以使用监督(例如，标记)学习和/或无监督学习来训练这样的模型，以标识用户的身份、确定用户的行为和/或外表、确定用户使用的语言、确定人员、物体和/或行为的存在等。

在一些实施方式中，呈现器136还可以包括和/或执行与定义与虚拟观众112的一个或多个成员(例如，一个或多个用户设备120的(多个)用户)相关联的场景媒体数据相关联的一组指令。例如，呈现器136可以被配置成定义与虚拟观众112的已经在由场所105处的媒体捕获系统110捕获的媒体数据中被标识(例如，经由面部识别和/或任何其他合适的分析)的成员相关联的场景媒体数据(例如，场景图像、视频流和/或音频流)。换句话说，呈现器136可以定义尤其可以描绘场所105处的虚拟观众112的特定成员的用户特定的场景媒体数据。一旦定义了用户特定的场景媒体数据，呈现器136可以向用户设备120发送与用户特定的场景媒体数据相关联的信号(例如，经由通信接口131和网络115)，该用户设备又可以在相对应的用户设备120的输出设备124(例如，显示器)上图形化地呈现用户特定的场景媒体数据。以这样的方式，在事件处加入虚拟观众的用户可以获得该用户反应或以其他方式加入事件的图像或视频。例如，用户对事件中的特定时刻的反应的图像和/或视频可以被标识(例如，通过面部识别、位置标识、用户账户等)、捕获或记录、并分发给该用户。在一些情况下，用户的反应的图像和/或视频可以与事件中该时刻的视频和/或图像一起提供。在一些情况下，用户的反应的图像和/或视频可以提供有与事件交互的化身等的视频和/或图像(例如，在棒球比赛接住本垒打或界外球)。而且，在一些情况下，用户可以操纵用户设备120来与系统100的用户设备120中的任何一个和/或不必包括在系统中的其他电子设备共享用户特定的场景媒体数据。例如，在一些情况下，用户特定的场景媒体数据可以被上传到集成的或独立的社交媒体平台、共享站点、数据库、储存库、显示器等和/或能够以其他方式经由集成的或独立的社交媒体平台、共享站点、数据库、储存库、显示器等访问。

在一些情况下，当例如主机设备130(例如，分析器135)确定虚拟观众112的成员响应于事件111具有预定反应时和/或当虚拟观众112的成员参与事件111时(例如，通过提问和/或任何其他合适的加入形式)，呈现器136可以定义用户特定的场景媒体数据。在一些实施方式中，预定反应可以是例如积极的、消极的、有趣的、有意思的和/或其他期望的反应。在一些这样的实施方式中，主机设备130(例如，分析器135)可以对与用户相关联的媒体数据执行面部识别、视频分析、图像分析、音频分析等，以确定反应是否满足标准(例如，与预定反应相关联)。如上所述，当分析器135确定反应满足标准时，呈现器136可以定义用户特定的场景媒体数据(例如，用户的反应的图像和/或视频)，并且可以例如将用户特定的场景媒体数据(或其指示或实例)发送到与虚拟观众112的该成员相关联的用户设备120。

尽管呈现器136和/或主机设备130的其他部分在上面被描述为向用户设备120发送指示在用户设备120的显示器上呈现用户特定的场景媒体数据的指令的信号，但是在一些情况下，呈现器136可以定义用户特定的场景媒体数据，并且可以向数据库接口134发送指示将用户特定的场景媒体数据与相对应的用户的用户简档数据结构相关联并将用户特定的场景媒体数据存储在数据库140中的指令的信号。

在一些情况下，主机设备130可以响应于来自用户设备120(和/或任何其他合适的设备)的请求，从数据库140中检索用户特定的场景媒体数据。更具体地，在一些情况下，用户可以操纵用户设备120来访问互联网上的网页。在被认证(例如，输入凭证等)之后，用户可以与网页交互，使得访问用户特定的场景媒体数据的请求从用户设备120发送到主机设备130。因此，主机设备130(例如，数据库接口134)可以从数据库140中检索用户特定的场景媒体数据，并且可以向用户设备120发送信号，使得用户特定的场景媒体数据可以呈现在显示器上(例如，通过经由互联网和网页再现用户特定的场景媒体数据)。换句话说，用户特定的场景媒体数据可以被存储在“云”上，并且可以经由网络浏览器和互联网进行访问(例如，在事件之后和/或按需)。这可以允许用户重放他们加入事件。

尽管数据库接口134、分析器135和呈现器136在上面被描述为在主机设备130中进行存储和/或执行，但是在一些实施例中，引擎、组件、过程等中的任何一个可以在例如用户设备120和/或媒体捕获系统110中的一个或多个中进行存储和/或执行。例如，在一些实施例中，用户设备120可以包括、定义和/或存储呈现器和/或可以以其他方式执行呈现器136的功能中的至少一部分(例如，经由本地应用)。呈现器可以与主机设备130的呈现器136基本相似或相同。在这样的实施例中，用户设备120的呈现器可以替换呈现器136的相对应的功能，否则该功能包括在W主机设备130中和/或在主机设备中执行。因此，用户设备120的呈现器可以接收例如与用户特定的场景媒体数据相关联的数据集，并且在接收时，可以定义要在用户设备120的显示器上呈现的呈现和/或其数字表示。

类似地，分析器135的一个或多个部分和/或分析器135的一个或多个功能可以由包括在用户设备120中的一个或多个中的分析器来执行。例如，如上所述，在一些实施方式中，一个或多个面部识别和/或音频识别过程可以由用户设备120的处理器122来执行(例如，处理器122可以包括分析器和/或可以被配置成执行分析器的一个或多个功能)。

虽然系统100在上面被描述为向一个或多个用户设备120提供与事件111相关联的媒体数据，但是在一些实施方式中，系统100可以被配置为提供还允许数据在多个用户设备120之间传递的平台。在一些情况下，数据可以是例如呈“聊天”的形式，包括使用任何合适协议的文本或多媒体消息。在一些情况下，第一用户设备120可以向主机设备130和一个或多个其他用户设备120发送由相对应的输入设备125捕获的媒体数据。以这种方式，两个或更多个用户可以基于任何合适的标准与朋友、熟人、同事、亲戚和/或任何其他用户共享他或她的媒体流或数据。而且，用户设备120可以被配置和/或操纵以在相对应的输出设备124(例如，该用户设备120的显示器)上呈现与事件111相关联的媒体数据以及来自一个或多个其他用户设备120的媒体数据。在一些实施方式中，由用户设备120执行或在用户设备上执行的应用可以以任何合适的方式呈现各种媒体数据流。

虽然系统100在本文中被描述为提供与发生在场所105的事件111(例如，现场事件)相关联的媒体数据和/或媒体流，但是应当理解的是，本文中描述的系统、方法和/或概念不旨在限于这样的实施方式。例如，在一些情况下，系统100可以被配置成向一个或多个用户设备120提供任何合适的现场或预录广播(例如是电视节目、电影或影片、预录体育比赛或赛事等)的媒体数据和/或与之相关联的媒体数据。在一些这样的情况下，系统100可以允许用户参加例如“观看聚会”等，其中与每个用户(例如，每个加入者)相关联的用户设备120可以经由与每个用户(加入者)相关联的用户设备120呈现与广播相关联的媒体数据和与该用户相关联的和/或表示来自该用户的媒体数据的“区块”等。作为示例，系统100可以允许用户和一个或多个朋友可以举行“观看聚会”来观看他们喜欢的电视节目。

利用图1至图3中示出的设备和系统，可以实施虚拟参与现场事件的各种方法。作为示例，图4示出了图示根据实施例的用于虚拟参与现场事件的方法10的流程图。在一些实施例中，方法10可以在上面参考图1至图3描述的系统100中、其上或由该系统执行。方法10可以包括在11，流式传输由媒体捕获系统在场所捕获的媒体。媒体可以通过任何合适的模态、协议和/或网络(诸如本文描述的那些)被流式传输、广播和/或以其他方式提供给一个或多个用户设备。媒体可以与在场所发生的事件(例如体育赛事、音乐会、婚礼、聚会、毕业典礼、电视或广播直播节目(例如，情景喜剧、比赛节目、脱口秀等)、政治竞选事件或辩论和/或任何其他合适的事件)相关联。在一些情况下，媒体可以描绘事件的一个或多个图像、视频记录和/或音频记录、在场所处图形化地表示的虚拟观众和/或亲自出现在场所的现场观众。

在12，接收从用户设备流式传输的媒体。例如，在一些实施范式中，主机设备和/或任何其他合适的设备可以被配置成从用户设备接收媒体数据流。在一些情况下，从用户设备接收的媒体流可以包括和/或可以描述与该用户设备相关联的用户，使得该用户成为虚拟观众的成员。

在13，从用户设备流式传输的媒体的至少一部分被呈现在场所处的显示器上。例如，如以上参考系统100详细描述的那样，场所可以包括可以呈现从一个或多个用户设备接收的任何数量的媒体流(例如，作为“区块”等)的视频板、屏幕(例如，绿色屏幕和/或可以在其上显示和/或投影图像和/或视频数据的任何其他屏幕)、显示器等。在一些情况下，呈现来自用户设备的媒体流可以允许用户成为虚拟地参与和/或参与在场所发生的现场事件的虚拟观众的成员。此外，虚拟观众在场所的呈现还可以允许事件的加入者(例如，运动员等)参与和/或响应于虚拟观众的成员，如上所述。

在一些实施例中，方法10可以可选地包括，在14，流式传输由媒体捕获系统捕获的经更新的媒体，使得经更新的媒体至少包括从用户设备流式传输的在场所处的显示器上呈现的媒体的部分。例如，如上所述，场所处的媒体捕获系统可以被配置成捕获与事件相关联和/或描绘事件的媒体、虚拟观众的至少一部分和/或现场观众的至少一部分。因此，在一些情况下，在场所处的显示器上呈现的从用户设备流传输的媒体(或其至少一部分)可以在由媒体捕获系统捕获的媒体中被描绘，使得虚拟观众的成员被包括和/或描绘在与事件相关联的媒体流中。

虽然上面已经描述了各种实施例，但是应该理解的是，它们仅仅是通过示例而不是限制的方式呈现的。虽然上面已经具体描述了具体的示例，但是本文描述的实施例和方法可以以任何合适的方式使用。下面提供了实施例和/或实施方式的非限制性示例。应当理解的是，下面描述的示例并不旨在总结本文描述的系统、实施例和/或方法的公开内容，而是通过示例而非限制的方式呈现。

示例

概述：系统和/或平台可以使个体能够通过传输视频和音频的互联网连接从家里(或任何其他地方)参加体育事件、毕业典礼、电视脱口秀、电视比赛节目录音、政治竞选事件、政治辩论和其他事件。该平台最初被设想为创建“虚拟人群”以解决由“居家令”产生的问题的手段，但该平台在公共聚会恢复后仍有持续的用途和应用，因为人们可以继续形成“虚拟人群”的一部分，从而除其他好处外，还提供了没有关于现场“座位容量”的上限的场所。平台可以独立存在和/或嵌入(例如，通过SDK)在加入的广播公司自己的应用程序中。

用户注册：作为注册过程的一部分，可以要求加入的个体提供各种信息(例如，年龄、性别、位置、喜爱的运动队、职业、婚姻状况、职业等)，从而允许在该过程的稍后阶段进行过滤/搜索。

事件：

A.可能存在在事件处建立的虚拟观众可被显示在其上的一个或多个视频板(利用实际硬件和/或以电子的方式：例如，通过绿色屏幕；cgi等)，从而允许实际事件处的加入者看到和听到虚拟观众。

B.虚拟人群可以以多种配置中的任何一种来建立：例如，可以是事件的(1)侧(例如，电视访谈节目中的虚拟观众)、或者围绕整个事件(例如，篮球场的(4)侧)，或者其他。

C.虚拟人群也可以选择性地出现在事件(例如，在毕业期间，在毕业生接受他或她的学位的同时，只有特定学生的亲戚或客人可以虚拟地出现在讲台后面)。

D.来自虚拟观众的声音流可以被聚集，从而创建真实和实时的粉丝/人群噪声。

广播：

A.制作人员可以确定在事件期间的不同时间，显示哪些观众“区块”(单独地或以组的形式)(在事件本身的背景中和/或以其他方式集成到广播中)。

B.该系统还允许选择特定的观众成员来加入事件：例如，在电视访谈节目中提问)。

用户：

A.每个虚拟观众成员可以搜索、排序、过滤和查看其他用户的区块，从而选择在广播期间关注哪些其他观众成员(如果有的话)。

B.观众的每个成员可以配置自己的观众(例如，密歇根大学的球迷可以观看具有仅由密歇根大学球迷组成的观众的比赛)。

C.每个虚拟观众成员可以通过用户自己的电子设备观看事件。

D.虚拟观众的成员可以选择性地彼此交互(通过聊天、消息和/或其他类似特征)。

E.虚拟观众的成员可以与场所/事件交互。

附加功能：公共拥有的系统的某些附加功能集成到这个系统中，从而允许用户接收用户在公共事件出现的短片，因为它们可能在广播期间在观众中被突出显示。可以基于面部识别和/或基于用户自己的流式传输的网页馈送的源将短片分发给用户。

系统流程：

A.用户注册

B.用户通过互联网连接观看事件

C.用户在事件期间流式传输用户内容(音频和视频)

D.现场虚拟人群被上传到事件

E.可以在事件处看到和听到现场虚拟人群

F.虚拟人群的成员可以相互交互

G.事件在电视上或另外地以突出显示特定的观众成员的方式转播

H.在广播馈送上描绘的观众成员可以接收与本文描述的某些功能一致的他们的“时刻”。

虽然系统100在上面被描述为提供与体育事件和/或体育赛事处的虚拟观众的成员相关联的媒体数据，但是在一些实施方式中，系统100可以用于任何合适的环境、场所、竞技场、事件等，诸如音乐会、集会、毕业典礼、聚会、购物中心、商业场所、辩论等。此外，事件可以是在场所发生的现场事件，或者可以是预录的事件、广播和/或媒体流。作为另一示例，尽管系统100在上文被描述为对媒体数据执行面部识别分析，但在一些实施方式中，主机设备可以被配置成分析任何合适的音频源来标识用户和/或连接到该用户的一个或多个人。在一些情况下，除了本文描述的面部识别分析之外，还可以执行音频或语音分析。在一些情况下，可以执行音频或语音分析来代替本文描述的面部识别分析或作为本文描述的面部识别分析的替代性方案。

虽然上面已经将实施例描述为在特定设备上和/或设备的特定部分中执行，但是在其他实施例中，本文描述的实施例和/或方法中的任何一个可以在任何合适的设备上执行。例如，虽然系统100被描述为包括主机设备130，但是在一些实施例中，系统可以包括提供媒体流的任何合适部分的多个主机设备。在一些实施例中，可以在用户设备上或在用户设备处执行一个或多个过程，例如与面部识别分析和/或在经由网络将媒体数据发送到其他设备之前将媒体数据修改或编辑成标准化格式相关联的一个或多个过程。在一些情况下，这种标准化可以减少一个或多个主机设备的工作负荷和/或可以减少与定义和/或呈现虚拟观众和/或以其他方式利用系统100相关联的延迟。在一些实施例中，系统100可以在对等的基础上执行，而无需主机设备、服务器等。

虽然已经具体示出和描述了实施例，但是应当理解的是，可以进行形式和细节方面的各种改变。尽管各种实施例已经被描述为具有特定特征和/或组件的组合，但是具有来自如上所讨论的实施例中的任何一个的任何特征和/或组件的组合的其他实施例是可能的。

在以上描述的方法和/或事件指示以特定顺序发生的特定事件和/或程序的情况下，可以修改特定事件和/或程序的顺序。附加地，在可能的情况下，某些事件和/或程序可以在并行过程中同时执行，以及如上所述顺序地执行。

虽然上面已经描述了传输、分析、处理和/或呈现媒体数据的具体方法，但是传输、分析、处理和/或呈现媒体的任何方法可以被组合、扩充、增强和/或以其他方式在媒体数据集上共同执行。例如，在一些情况下，面部识别的方法可以包括使用特征向量、特征脸和/或其他2-D分析以及任何合适的3-D分析(例如多个2-D图像的3-D重构)来分析面部数据。在一些情况下，使用2-D分析方法和3-D分析方法可以，例如，产生更准确的结果、与仅由3-D分析或仅由2-D分析产生的相比具有资源(例如，处理设备)上的更少负荷。在一些情况下，面部识别可以经由卷积神经网络(CNN)和/或经由CNN结合任何合适的二维(2-D)和/或三维(3-D)面部识别分析方法来执行。而且，可以使用多种分析方法，例如以便进行冗余、错误检查、负载平衡等。在一些情况下，多种分析方法的使用可以允许系统至少部分地基于其中包括的特定数据来选择性地分析面部数据集。

作为另一示例，在一些情况下，系统100可以在一个或多个增强现实(AR)系统、平台、设备等中实施，或者利用一个或多个增强现实(AR)系统、平台、设备等来实施。例如，虽然媒体数据在上面被描述为在场所105处的显示器或屏幕上呈现(例如，由呈现者136呈现)，但是在其他实施方式中，与虚拟观众112相关联的媒体数据可以被发送到由事件111中的表演者和/或加入者观看和/或穿戴的具有AR能力的设备。在一些情况下，用户设备120可以被配置成包括、呈现和/或向用户提供AR环境和/或体验，该AR环境和/或体验包括由媒体捕获系统110捕获的媒体数据和虚拟观众112的全部或任何部分。

虽然系统100在本文中被描述为传递、分析、处理和/或呈现可以包括视频数据、图像、音频数据等的媒体数据，但是在一些实施方式中，系统100可以被配置成呈现包括用于一个或多个用户设备120产生任何合适的触觉、触感和/或感觉输出的指令的媒体数据。例如，在一些情况下，主机设备130可以被配置成向一个或多个用户设备120发送与响应于事件111大声欢呼的虚拟观众112相关联的和/或描绘该虚拟观众的媒体数据。在一些这样的情况下，媒体数据还可以包括使用户设备120摇动、振动等(例如，通过智能手机的振动设备和/或其他合适的机制)的数据和/或指令。作为另一示例，当事件111是包括和/或播放较响的低音或类似声音的音乐会等时，用户设备120可以产生“重击”或类似输出。

本文描述的一些实施例涉及具有其上具有用于执行各种计算机实施的操作的指令或计算机代码的非暂时性计算机可读介质(也可称为非暂时性处理器可读介质)的计算机存储产品。计算机可读介质(或处理器可读介质)在其本身不包括瞬时传播信号(例如，在诸如空间或线缆的传输介质上携带信息的传播电磁波)的意义上是非瞬时的。介质和计算机代码(也可以称为代码)可以是为特定目的而设计和构建的那些代码。非暂时性计算机可读介质的示例包括但不限于磁存储介质，诸如硬盘、软盘和磁带；光学存储介质，诸如光盘/数字视频光盘(Compact Disc/Digital Video Disc，CD/DVD)、光盘只读存储器(CompactDisc-Read Only Memories，CD-ROM)和全息设备；磁光存储介质，诸如光盘；载波信号处理模块；以及专门被配置来存储和执行程序代码的硬件设备，诸如专用集成电路(，ASIC)、可编程逻辑器件(Programmable Logic Device，PLD)、只读存储器(Read-Only Memory，ROM)和随机存取存储器(Random-AccessMemory，RAM)设备。本文描述的其他实施例涉及一种计算机程序产品，其可以包括例如本文讨论的指令和/或计算机代码。

本文描述的一些实施例和/或方法可以由(在硬件上执行的)软件、硬件或其组合来执行。硬件部分可以包括例如通用处理器、现场可编程门阵列(FPGA)和/或专用集成电路(ASIC)。(在硬件上执行的)软件部分可以以各种软件语言(例如，计算机代码)来表达，包括C、C++、Java、Ruby、Visual Basic和/或其他面向对象的、过程化的或其他编程语言和开发工具。计算机代码的示例包括但不限于微代码或微指令、诸如由编译器产生的机器指令、用于产生网络服务的代码以及包含由计算机使用解释器执行的高级指令的文件。例如，实施例可以使用命令式编程语言(例如，C、Fortran等)、函数式编程语言(Haskell、Erlang等)、逻辑编程语言(例如，Prolog)、面向对象的编程语言(例如，Java、C++等)或其他合适的编程语言和/或开发工具来实施。计算机代码的附加示例包括但不限于控制信号、经加密的代码和经压缩的代码。

前面的描述本质上是说明性的而非限制性的。对所公开的示例实施例的变化和修改对于本领域技术人员来说是显而易见的，这些变化和修改不一定背离所公开的示例的本质。本发明的法律保护范围只能通过研究以下权利要求来确定。

Claims

1.一种在事件期间在场所处招待虚拟观众的方法，所述方法包括：

分发将由位于远离所述场所的多个用户设备接收的所述事件的可观察表示；

从远离所述场所的多个虚拟参加者中的每一个接收媒体流，每个所接收的媒体流包括所述多个虚拟参加者中的至少一个的视觉表示；以及

在所述场所处的显示器上显示所述虚拟参加者中的至少一些的视觉表示，使得所述虚拟参加者看起来正在所述场所参加所述事件。

2.根据权利要求1所述的方法，其中，

所接收的媒体流包括表示由所述虚拟参加者发出的表示声音的音频，并且

所述方法包括在所述场所内再现所述声音，使得所述虚拟参加者发出的所述声音在所述场所是可听见的。

3.根据权利要求1所述的方法，包括

确定对应于每个所接收的媒体流的场景信息，以及

选择所述虚拟参加者中的至少一些用于基于所述场景信息进行显示。

4.根据权利要求3所述的方法，包括

使用面部识别或语音识别中的至少一个来识别每个所接收的媒体流中的至少一个个体，

将所述面部识别或语音识别的结果包括在所述场景信息中，以及

基于所述面部识别或语音识别的所包括的结果来选择所述虚拟参加者中的至少一些。

5.根据权利要求4所述的方法，包括基于所述面部识别或语音识别的结果来选择所述场所内被识别的个体的视觉表示的位置。

6.根据权利要求5所述的方法，包括基于所述面部识别或语音识别的结果对所述场所内的所述多个虚拟参加者中的一些的视觉表示进行分组。

7.根据权利要求4所述的方法，包括

确定包括被识别的个体的所述媒体流的至少一个其他特征，以及

基于所述至少一个其他特征选择在所述场所内被识别的个体的视觉表示的位置。

8.根据权利要求7所述的方法，包括基于所确定的所述多个虚拟参加者中的一些的相应媒体流的至少一个其他特征之间的相似性，对所述场所内的所述多个虚拟参加者中的一些的视觉表示进行分组。

9.根据权利要求3所述的方法，其中，

所述场景信息包括关于所接收的媒体流中的相对应的一个的用户简档数据，并且

所述方法包括基于所述用户简档数据确定所接收的媒体流中的所述相对应的一个的视觉表示是否应该包括在所显示的虚拟参加者当中。

10.根据权利要求9所述的方法，包括基于以下中的至少一个在所述事件期间在所述虚拟参加者中的一些之间建立对等联网会话：

由所述虚拟参加者中的一个在与所述虚拟参加者中的至少一个其他虚拟参加者进行对等联网会话中所进行的选取或选择，或者

指示所述虚拟参加者中的一些之间的关联性的所述多个虚拟参加者中的一些中的每一个的用户简档数据。

11.根据权利要求1所述的方法，包括

确定所述虚拟参加者中的至少一个在所述事件期间出现在所述事件的分布式可观察表示中或者出现在所述场所处的专用显示器上，以及

在所述事件期间或之后向所述虚拟参加者中的至少一个发送媒体文件，其中，所发送的媒体文件包括所述虚拟参加者中的至少一个的出现。

12.根据权利要求1所述的方法，其中，所述显示包括将所述虚拟参加者中的每一个的视觉表示放置在相应的区块中，并且基于所述显示器上的虚拟参加者的数量选择所述区块的大小。

13.根据权利要求1所述的方法，包括选择所述虚拟参加者中的至少一个，并且对于所述事件的至少一部分，与所述虚拟参加者的视觉表示中的其他视觉表示不同地显示所述虚拟参加者中的所选择的至少一个的视觉表示。

14.根据权利要求13所述的方法，包括促进在所述场所处加入所述事件的个体与所述虚拟参加者中的所选择的至少一个之间的交互，同时与所述虚拟参加者的视觉表示中的其他视觉表示不同地显示所述虚拟参加者中的所选择的至少一个的视觉表示。

15.根据权利要求1所述的方法，包括基于从所述虚拟参加者中的至少一个接收的媒体流的至少一个特征，从所述显示器移除所述虚拟参加者中的一个的视觉表示，其中，所述至少一个特征是：

低于最小质量阈值的质量，

低于最小阈值的连接速率，

数据分组的丢失，

虚拟参加者中的一个的视觉表示的缺失，或

不适当的内容。

16.一种用于在事件期间在场所处招待虚拟观众的系统，所述系统包括：

位于所述场所处的相机布置，所述相机布置被配置成捕获所述事件的可观察表示；

分发设备，所述分发设备被配置为分发将由位于远离所述场所的多个用户设备接收的所述事件的可观察表示；

主机设备，所述主机设备包括

通信接口，所述通信接口被配置为从位于远离所述场所的多个虚拟参加者用户设备中的每一个接收媒体流，每个接收的媒体流包括所述多个虚拟参加者中的至少一个的视觉表示，

至少一个处理器，所述至少一个处理器被配置为分析所接收的媒体流，并选择所述多个虚拟参加者中的相对应的参加者的视觉表示中的至少一些；以及

位于所述场所处的至少一个显示器，所述主机设备使得所述至少一个显示器包括所述虚拟表示中的所选择的至少一些的视觉表示，使得对应于所选择的视觉表示的所述虚拟参加者看起来正在所述场所处参加所述事件。

17.根据权利要求16所述的系统，其中，所述至少一个显示器包括显示面板，所述显示面板被配置为包括虚拟参加者的多个视觉表示，或者

多个显示面板，所述多个显示面板各自被配置成包括相对应的虚拟参加者的单个视觉表示。

18.根据权利要求16所述的系统，包括至少一个扬声器，其中，所述接收的媒体流包括表示由所述虚拟参加者发出的表示声音的音频，并且其中，所述主机设备使得所述至少一个扬声器再现所述场所内的声音，使得由所述虚拟参加者发出的声音在所述场所是可听见的。

19.根据权利要求16所述的系统，其中，所述至少一个处理器被配置为分析每个所接收的媒体流以确定对应于每个所接收的媒体流的场景信息，并且基于所述场景信息选择用于显示所述虚拟参加者的视觉表示中的至少一些。

20.根据权利要求19所述的系统，其中，所述至少一个处理器被配置为

将面部识别或语音识别的结果包括在所述场景信息中，并且

21.根据权利要求20所述的系统，其中，所述至少一个处理器被配置成基于所述面部识别或语音识别的结果来选择被识别的个体在所述至少一个显示器上的视觉表示的位置。

22.根据权利要求21所述的系统，其中，所述至少一个处理器被配置成基于所述面部识别或语音识别的所述结果对所述多个虚拟参加者中的一些在所述至少一个显示器上的视觉表示进行分组。

23.根据权利要求19所述的系统，其中，所述至少一个处理器被配置为：

确定包括被识别的个体的所述媒体流的至少一个其他特征，并且

基于所述至少一个其他特征选择所述被识别的个体在所述至少一个显示器上的所述视觉表示的位置。

24.根据权利要求23所述的系统，其中，所述至少一个处理器被配置为基于所确定的所述多个虚拟参加者中的一些的相应媒体流的至少一个其他特征之间的相似性，对所述多个虚拟参加者中的一些在所述至少一个显示器上的视觉表示进行分组。

25.根据权利要求19所述的系统，其中，

场景信息包括关于所接收的媒体流中的相对应的一个的用户简档数据，并且

所述至少一个处理器被配置成基于所述用户简档数据确定所接收的媒体流中的所述相对应的一个的视觉表示是否应该包括在所显示的虚拟参加者当中。