CN116803072A

CN116803072A - 用于在线会议中的增强视图的系统和方法

Info

Publication number: CN116803072A
Application number: CN202180092442.1A
Authority: CN
Inventors: 村田伸吾
Original assignee: Canon USA Inc
Current assignee: Canon USA Inc
Priority date: 2020-12-23
Filing date: 2021-12-22
Publication date: 2023-09-22

Abstract

提供了一种用于在经由网络连接的多个客户机之间进行的远程会议的服务器。服务器包括存储指令的一个或多个存储器，这些指令当被执行时配置一个或多个处理器以完成以下过程：在一个或多个存储器中存储彼此相关联的参与远程会议的客户机的用户id信息和客户机的视频；在一个或多个存储器中存储彼此相关联的由预定照相机捕获的视频和虚拟用户id信息；以及向参与远程会议的客户机传送与用户id信息相关联的视频和与虚拟用户id信息相关联的视频。

Description

用于在线会议中的增强视图的系统和方法

对相关申请的交叉引用

本申请要求在2020年12月23日提交的美国临时申请序列No.63/130192和在2021年2月24日提交的美国临时申请序列No.63/153064的权益，在这里加入这两项申请的全部内容作为参考。

技术领域

本公开一般涉及通信网络上的双向视听通信。

背景技术

用户之间的在线会议是已知的，该在线会议包括当一个位置的一组个人与当前不在该位置的一个或多个个人进行远程通信时。当前的在线会议解决方案为每个人提供一个视图，或者从特定照相机提供一个视图。在特定会议室中的办公室处的个人与远程用户(例如，家中的用户)之间的在线会议的情况下，远程用户只能看到办公室空间的固定视图。根据本公开的系统和方法弥补了与当前在线会议解决方案相关联的缺点，以改善会议室中的用户与在线加入会议并且位于远程的用户之间的协作。

发明内容

根据本公开的某个方面，提供一种用于在经由网络连接的多个客户机之间进行的远程会议的服务器。服务器包括存储指令的一个或多个存储器，这些指令当被执行时配置一个或多个处理器以完成以下过程：在一个或多个存储器中存储彼此相关联的参与远程会议的客户机的用户id信息和客户机的视频；在一个或多个存储器中存储彼此相关联的由预定照相机捕获的视频和虚拟用户id信息；以及向参与远程会议的客户机传送与用户id信息相关联的视频和与虚拟用户id信息相关联的视频。

根据一个实施例，预定照相机是放置在会议空间处的网络照相机。在另一实施例中，客户机的视频是由连接到客户机的计算机或在客户机的计算机中实现的网络照相机捕获的视频。

在另一实施例中，一个或多个处理器进一步被配置为从由预定照相机捕获的视频指定白板、显示屏和文档中的至少一个的部分区域，并且，其中，每个部分区域与不同的虚拟用户id信息相关联。在另一实施例中，服务器从客户机接收对部分区域的视频的请求，并且部分区域的视频响应于视频请求被传送到客户机。

在另一实施例中，与用户id信息相关联的视频和与虚拟用户id信息相关联的视频在远程会议终止之后被传送到再现远程会议的视频的客户机。多个客户机的每个用户id信息被存储在与安全级别信息相关联的一个或多个存储器中，并且其中，与虚拟用户id信息相关联的视频被传送到与预定安全级别信息关联的客户机，并且由预定照相机捕获的视频中的对应于每个部分区域的每个虚拟用户id信息被存储在与安全级别信息相关联的一个或多个存储器中，并且其中，要传送到客户机的部分区域的视频基于与客户机的用户id信息相关联的安全级别信息和与虚拟用户id信息中的每一个相关联的安全级别信息被确定。

根据另一实施例，视频被传送到客户机，使得在不同的窗口上显示与用户id信息相关联的视频和与虚拟id用户信息相关联的视频。

在另一实施例中，提供一种用于在经由网络连接的多个客户机之间进行的远程会议的客户机。客户机包括：一个或多个处理器；和存储指令的一个或多个存储器，这些指令当被执行时配置一个或多个处理器以完成以下过程：接收每个客户机的视频；在第一窗口上显示接收的每个客户机的视频；以及响应于第一窗口上的预定按钮的指示显示第二窗口，其中，第二窗口显示由预定照相机捕获的视频。

在另一实施例中，第二窗口进一步显示由预定照相机捕获的视频中的白板、显示屏和文档中的至少一个的部分区域的视频。

在另一实施例中，一个或多个处理器进一步被配置为响应于用于远程会议的参与按钮向服务器传送会议ID信息，并且响应于第一窗口上的预定按钮的指定，向服务器传送包括会议ID信息并请求由预定照相机捕获的视频的视频请求，并且，其中，第二窗口显示在传送视频请求之后从服务器接收的视频。

在另一实施例中，一个或多个处理器进一步被配置为接收指示由预定照相机捕获的视频的部分区域的位置的位置信息，并且检测用户对其位置由位置信息指示的部分区域的指定，其中，响应于对部分区域的指定的检测，显示部分区域的放大视频。

当结合附图和提供的权利要求阅读本公开的示例性实施例的以下详细描述时，本公开的这些和其它目的、特征和优点将变得显而易见。

附图说明

图1是根据本公开的在线会议解决方案的说明性视图。

图2是根据本公开的在线会议解决方案的框图。

图3是示出根据本公开的在线会议解决方案的示例性操作的流程图。

图4是使用根据本公开的在线会议解决方案的远程参与方的示例性用户界面显示。

图5A-5B示出使用根据本公开的在线会议解决方案的远程参与方的示例性用户界面显示。

图6A-6D示出使用根据本公开的在线会议解决方案的远程参与方的示例性用户界面显示。

图7是根据本公开的在线会议解决方案的说明性视图。

图8是详细说明根据本公开的执行算法的装置的硬件组件的框图。

在整个附图中，除非另有说明，否则相同的附图标记和字符用于表示示出的实施例的类似特征、元件、组件或部分。并且，虽然现在将参照附图详细描述主题公开，但这是结合说明性示例性实施例来进行的。其意图在于，在不偏离由所附权利要求定义的主题公开的真实范围和精神的情况下，可以对描述的示例性实施例进行改变和修改。

具体实施方式

以下将参照附图详细描述本公开的示例性实施例。要注意的是，以下的示例性实施例仅仅是用于实现本公开的一个示例，并且可以根据应用本公开的装置的各个构造和各种条件进行适当的修改或改变。因此，本公开决不限于以下示例性实施例，并且，根据下面描述的附图和实施例，描述的实施例可以在下面作为示例描述的情形以外的情形中被应用/执行。

在诸如在线会议的实时通信环境中，在线会议应用需要减少数据流量。作为结果，来自在线会议系统的流式视频数据有时提供较低图像质量的视频数据。在诸如办公室空间中的会议室的一个位置处的个人与一个或多个远程个人(例如，家中的用户)之间的会议的情况下，作为远程用户的那些个人只能看到聚焦于一个对象的缩小视图或放大视图。并且，当前的在线会议应用通常是从源到不在捕获视频流的源处的那些远程用户的单向分发。难以根据参与方的操作改变流式视频，这意味着远程参与方被迫看到图像捕获设备的预定义视图，并且参与方不能专注于他们想要在捕获视频流的位置看到的内容。由于这些原因，会议参与方(远程用户)无法看到他们想要观看的内容。

以下的公开说明了一种在线会议应用，该在线会议应用使得能够在物理上位于一个位置(诸如办公室)的用户和位于远程的一个或多个个人之间进行即兴协作。该系统有利地分配、管理和使用不同的标识符以便于该环境中的通信，其允许远程用户对由图像捕获设备在一个位置捕获的视场具有增强的控制。因此，远程用户能够根据远程用户定义或选择查看一个位置。实现这一点是通过将用户id信息(虚拟参与方ID/虚拟摄像头ID)分配给由照相机在会议空间处捕获的视频和从捕获的视频中截取的一个或多个截取视频中的每一个，以使在线会议系统能够分发这些视频以及真实参与方的视频。

根据图1中所示的本公开，在服务器上执行的在线会议应用(图2)执行识别处理，以识别由诸如照相机的单个图像捕获设备捕获的图像流中的一个或多个不同类型的对象和一个或多个不同用户。一个或多个不同类型的对象包括但不限于白板、人、文档、笔记本。在其它实施例中，对象检测可以自动检测包括手写或键入内容、一个或多个图像、计算设备(例如，膝上型计算机、平板电脑、智能电话等)的显示器的任何对象。识别处理还可以包括执行面部检测算法，该算法识别图像捕获区域内的一个或多个用户。

如图1所示，图像捕获区域102被示为包括由图像捕获设备108选择性地捕获的一个或多个对象104和一个或多个人106。如上所述，一个或多个对象包括诸如白板的书写表面。另外，如稍后将描述的，一个或多个对象是位于图像捕获区域内的不是人类用户的任何对象。用户106在图1中被示为用户A、用户B、用户C和用户D，但这不是限制性的。在图像捕获区域102内可以存在任何数量的用户106。

在一个实施例中，识别处理发生在会议之前，并且，一旦捕获的视频流中的一个或多个对象被识别，则在将视频数据从照相机流式传输到在线会议系统之前对这些对象进行裁剪。在另一实施例中，可以发起会议，并且基于新检测的进入和/或离开图像捕获区域的用户和对象的存在连续地执行识别处理。

在图2中的服务器上执行的会议应用，基于由图像捕获设备108捕获的视频数据内的识别处理结果，执行用于裁剪预定区域的视频图像裁剪操作。如图1所示，这些裁剪区域由在服务器上执行的会议应用提取，并且被控制为单个虚拟参与方流的源。因此，由会议应用创建的裁剪流视频区域表示各自的虚拟视频馈送，这些虚拟视频馈送作为输入被提供以馈送各个裁剪视频流并将其传送到在线会议系统。

在线会议应用获得这些虚拟视频馈送(例如，虚拟摄像头)，并且使个人虚拟视频作为虚拟参与方加入在线会议。如图1所示，图像捕获设备108执行识别处理并且已经识别了表示用户或对象的捕获区域内的六个区，这些用户或对象在识别处理的执行期间被识别，并且从表示图像捕获区域102的帧被裁剪为分别作为单独的虚拟视频流提供的单个区。第一视频流110表示由图像捕获设备108捕获的整个图像捕获区域102，并且提供图像捕获区域102中的图像捕获设备108的视场内的每个用户和对象的室内完整视图。第一虚拟视频流110被分配第一虚拟标识符(以下面讨论的方式)，以唯一地识别第一虚拟视频流110，使得第一虚拟视频流中的视频数据可以以下面讨论的方式由远程用户界面处理。识别处理的结果指示图像捕获区域内的五个区包含已经被识别引擎识别的对象或用户，该识别引擎被训练以识别视频帧内的项目。

对由图像捕获设备108捕获的视频数据执行的识别处理指示用户A、用户B、用户C和用户D已经被识别。在一个实施例中，用户的图像被捕获，并且与图像库进行比较，该图像库与用户名和身份相链接并且已经导致识别这些用户。基于该识别，会议应用在用户A、B、C和D的识别人脸周围形成边界框，并且通过裁剪提取包含于每个相应边界框内的视频数据并将虚拟视频流标识符分配给每个裁剪区。第二虚拟视频流112与用户A关联。第三虚拟视频流114与用户B关联。第四虚拟视频流116与用户C关联，并且第五虚拟视频流118与用户D关联。

由在图2中的服务器上执行的会议应用执行的识别处理也识别对应于书写表面104的对象。在一个实施例中，识别处理基于预设位置信息识别该对象，该预设位置信息被输入到会议应用中并且逐像素地表示图像捕获区域102内待识别对象所处的位置。在另一实施例中，为了自动表示帧内的各种对象，识别引擎已经被训练为识别多种不同类型的对象。在某些实施例中，识别引擎可以被训练为识别诸如包括写在其上面的文本的书或纸的对象，这些对象可以从由图像捕获设备108捕获的视频数据流提取。在该示例性实施例中，识别处理标识书写表面104，并且从图像捕获区域的对应于识别的对象104的区提取视频数据，并且将该信息与第六虚拟视频流120相关联。

为了有效地将虚拟参与方(裁剪对象)与真实参与方分离，会议应用启动具有会议标识符124的虚拟会议会话122，并且将该虚拟会议会话与当前在线会议会话126相关联。当前在线会议控制后端会议处理，该后端会议处理包括加入当前在线会议会话126的参与方之间的音频通信。在一个实施例中，使用诸如MICROSOFT 的控制应用或使得用户A-d中的每一个作为会议参与方加入的其它类似类型的应用发起在线会议会话126。在一个实施例中，生成虚拟会议会话标识符124的会议应用和控制当前在线会议会话的控制应用是单独的应用。虚拟会议会话122包括使得能够远程访问虚拟会议会话的虚拟会议标识符。在一个实施例中，当前在线会议会话126使得所有在线参与方140能够加入，并且还包括可由参与方140以及虚拟会议会话122访问观看的当前在线会议会话用户界面142。

虚拟会议标识符链接到识别所有虚拟视频流110-120的信息，并且通过使用由在图2中的服务器上执行的会议应用发起的虚拟会议会话标识符124作为参与方加入当前在线会议会话126。在另一实施例中，代替开始另一个虚拟会议会话，我们的应用可能能够对参与方信息设置虚拟标志，以区分虚拟参与方和真实参与方。使用这些虚拟摄像头馈送参与方，所有用户(会议参与方)能够经由在线会议系统观看裁剪的视频。最重要的是，用户能够通过选择虚拟参与方查看办公室中的人或对象的细节。

与虚拟会议会话122相关联的各种虚拟视频流110-120被传送到能够显示增强用户界面130的一个或多个远程用户，该增强用户界面使得能够在用户界面的不同区中显示虚拟视频数据流110中的一个或多个。虚拟会议会话124包括可以通过使用在诸如膝上型计算机、台式机、智能电话或平板型计算机的计算设备上执行的网络(web)浏览器选择性地访问的标识符。虚拟会议会话标识符提供一系列单独的视频源，这些视频源可以在网络浏览器用户界面内被呈现，并且如下文所述，使得用户能够从要显示在远程计算设备上呈现的用户界面内的定义位置中的多个虚拟视频流110-120中选择性地选择。在图1中所示的示例性视图中，用户界面130包括三个显示区，每个显示区可以显示与用于获得对其的访问的虚拟会议标识符122相关联的虚拟视频数据流110-120中的一个或多个。在该示例中，一个显示区显示表示整个图像捕获区域的第一虚拟视频流110。第二不同的显示区显示表示作为书写表面104的识别的物体的第六虚拟视频数据流120，并且，与第一和第二显示区不同的第三显示区显示与各用户A-D中的每一个相关联的第二到第四视频数据流。显示区及其相应内容的位置仅仅是示例性的，并且远程用户可以基于使用虚拟会议标识符122的访问选择性地改变接收的视频数据流的位置。

根据本公开的系统也如图2所示，并且包括一个或多个服务器200、一个或多个云服务应用230以及在诸如膝上型计算机、平板机、计算机或智能电话等的客户机计算设备250上执行的一个或多个客户机应用。

系统包括一个或多个服务器200，这些服务器与诸如办公室或会议室的特定物理位置的照相机108连接，以捕获图像捕获区域102。服务器200控制照相机108以在照相机108的预定视场内连续地捕获视频图像201。照相机108经由接收视频数据格式的视频数据201的流接口202连接到服务器200。流接口202可以包括视频捕获卡，该视频捕获卡经由与HDMI标准兼容的连接器电缆耦合到照相机108。在另一实施例中，流接口202可以是耦合到网络并接收分组视频数据201的网络连接器。服务器200包括执行在图1和下文中描述的功能的多个应用。包括如上所述检测诸如人和/或白板的对象的应用。服务器200包括裁剪并校正与一个或多个检测的对象相关联的图像数据并且向裁剪区域分配虚拟视频数据流标识符的视频处理应用204。视频处理应用分配具有表1中所示的定义格式的虚拟标识符。

{类型}|{名称}|{ID}

表1：虚拟标识符格式

虚拟标识符格式包括表征或以其它方式描述与其相关联的虚拟视频数据流的“{类型}”信息。服务器执行图像识别过程以获得“类型”信息。服务器200从房间、人、白板、远程和对象确定类型中的一个。类型信息的示例包括但不限于(a)房间信息；(b)对象信息；以及(c)用户信息。房间信息标识裁剪的视频数据流标识图像捕获区域的描述。对象信息标识与其相关联的裁剪的虚拟视频数据流是通过使用上文描述的识别处理识别的对象。用户信息指示裁剪的视频数据流包括作为识别处理的结果而被识别的人(或用户)的视频。在另一实施例中，类型信息也可以是远程用户信息，该远程用户信息指示(在可以捕获远程用户视频数据的情况下)视频数据流源自远程用户。{名称}信息包括表征特定裁剪的虚拟视频数据流的信息。示例包括部署系统的房间的名称、基于面部识别和与具有与存储的人脸相关联的用户名称的人脸图像存储库的比较确定的用户的名称(在用户没有被识别的情况下，可以替代“访客用户”的通用名称)。另外，已识别的对象的类型的名称，诸如“白板”、“书”、“纸”、“感兴趣区”等，可以被用作{名称}信息的一部分。在多于一个的同一类型的对象被识别的情况下，可以添加数字标识符，使得系统可以识别两个不同的同一类型的对象(例如“白板_1”和“白板_2”)。在一个示例性实施例中，服务器执行人脸识别过程以获得“名称”信息。如果服务器不能标识特定人，则将“名称”确定为“访客”。人以外的其它类型的“名称”基于预先确定的规则确定。例如，类型为白板的视频流的名称被确定为“白板A”。“{ID}”是注释在识别处理过程中识别的不同数量的虚拟视频数据流的唯一标识符。在一个实施例中，服务器通过参照基于名称标签的数据库识别“ID”。如在上面的示例性实施例中所讨论的，对由照相机108捕获并经由流接口202接收的视频数据流201执行的识别处理由处理应用204处理。作为关于图1的处理的结果，在视频流名称列中的括号中用来自图1的附图标记在表2中识别和表示多个区。以下在表2中的信息随后被注册服务206用于注册虚拟参与方及其相关联的标识符，以供下面讨论的系统的其它组件使用。

视频流名称	虚拟流号	标识符
			会议房间(110)	参与方ID：1	{房间}\|{会议室A}\|{xxx1}
用户A(112)	参与方ID：2	{人}{Mike Davis}\|{xxx2}
			用户B(114)	参与方ID：3	{人}{Joe Smith}\|{xxx3}
用户C(116)	参与方ID：4	{人}{Jane Jones}\|{xxx4}
			用户D(118)	参与方ID：5	{人}{John Connor}\|{xxx5}
白板(120)	参与方ID：6	{白板}\|{白板}\|{xxx6}

表2虚拟视频流标识符

服务器还作为会议连接器208操作，以将来自单个图像帧内的裁剪视频区中的每一个与来自表2的作为虚拟会议的一部分加入的虚拟视频流标识符相关联，该虚拟会议也可以作为当前在线会议的一部分被加入。

系统还包括用于管理在线会议会话和虚拟会议会话的一个或多个云服务230。示例性的云服务是诸如MICROSOFT TEAMS、ZOOM和WEBEX等的在线会议应用。在服务器上执行的应用充当在线会议应用的输入。更具体地，注册的虚拟参与方标识符从连接器208作为输入被提供给会议管理控制应用232，并且同时被提供给当前在线会议会话236。向虚拟会议会话234提供视频数据210，该视频数据210表示与来自形成虚拟视频数据流的裁剪区域中的每一个的相应标识符相关联的一个或多个虚拟视频数据流。

系统还包括在客户机计算设备250上执行的一个或多个客户机应用，该客户机计算设备250允许每个远程参与方260访问在线会议应用254，并且接收由连接到服务器200的照相机108经由使用当前公开的会议应用的虚拟会议会话捕获的不同虚拟视频数据流210，并且经由网络浏览应用252与其交互。客户机与云服务230连接，并使用户能够操作与在线会议252相关的任何功能。客户机设备250可以从云服务230获得表示虚拟视频数据流210中的一个或多个的流视频，并且在客户机设备210的显示器上的用户界面中显示它们。客户机设备250将具有两个用户界面，一个用于诸如第三方会议应用(例如TEAMS)的在线会议254，另一个用于经由网络浏览器252的虚拟在线会议。

在示例性操作中，用户界面(UI)生成器基于从云服务接收的显示名称确定显示布局。显示名称是显示在显示用户界面的视频会议平台中的每个参与方的名称。在登录后，客户机A从接收自云服务的视频流识别类型为“房间”的视频流并且显示它。当用户A选择“白板视图模式”时，客户机A标识类型为“白板”的视频流，并显示它而不是类型为“房间”的视频流。当用户A选择“双视图模式”时，客户机A标识类型为“房间”的视频流并将其显示在显示屏的大区中，并且还标识类型为“白板”的视频流并将其显示在显示屏的较小区中。大区和较小区中的视频可以通过使用切换按钮彼此交替。

图3是详细说明在本文中关于本公开描述的数据流和算法操作的流程图。服务器200从诸如办公室的预定位置处的用户接收会议开始请求300。服务器200向云服务230发送请求300。在一个实施例中，可以由用户从耦合到服务器200的用户界面或者经由由耦合到服务器的照相机108识别的手势命令发送开始会议命令，来发起会议请求。接下来，云服务230开始第一在线会议会话302。该第一在线会议会话302将是诸如由TEAMS创建的控制会议应用会话的控制会议应用会话。一旦在线会议会话开始，云服务就获得“会议id”304。在与控制会议应用集成的情况下，“会议id”304由控制会议应用发出。在没有集成的情况下，“会议id”304由服务器200生成。

在开始第一在线会议会话302之后，云服务230开始代表虚拟会议会话的第二会议会话303。一旦虚拟会议会话303开始，云服务230就获得“虚拟会议id”305。“虚拟会议id”305由服务器200生成。为了提供用于从与控制会议会话302相关联的用户界面生成用于增强办公室视图的单独UI的信息，云服务230开始第二(虚拟)会议会话303。应当注意，云服务230可以在得到或生成上面解释的“会议id”304之前获得“虚拟会议id”305。

云服务230执行关联步骤306，该关联步骤306将“会议id”304与“虚拟会议id”305相关联，并且将它们存储在数据库307中。云服务230向服务器200发送“虚拟会议id”305。服务器将“虚拟会议id”保持在其存储器或数据库中。另外，在将“会议id”304与“虚拟会议id”305相关联之后，到虚拟会议会话303的链接308被提供给由控制会议应用创建的在线会议会话302，使得经由控制会议应用连接到在线会议会话302的用户可以如上面讨论的那样通过选择使网络浏览器应用在客户机设备上打开的链接308直接链接到虚拟会议会话303并且对其进行访问。

在开始第一会议会话302和第二虚拟会议会话303时，服务器200控制照相机108以开始从照相机108捕获流式视频数据310。在一个实施例中，照相机是网络照相机。在另一实施例中，照相机是具有基本上整个预定位置(诸如办公室中的会议室)的视场的任何专用照相机。

服务器200执行识别处理312，以从由照相机108捕获的视频数据310的帧内检测一个或多个对象。识别处理312识别一个或多个预定对象，诸如人、白板、显示屏和文档。这些仅仅是示例性的，并且任何对象可以被设置为在对象检测期间检测的预定义对象中的一个。

每个对象检测的决定处理从314开始，其中，服务器200询问是否存在没有被进一步处理并且还没有从其制作虚拟视频数据流的检测的对象312。每个检测的对象的迭代处理如下。在316中，服务器执行图像处理以从视频数据310裁剪检测的对象，并且在318中，创建新的(另一个)流式视频对象，诸如裁剪区内的视频数据的虚拟视频数据流或虚拟图像馈送。虚拟视频数据流对象被分配如表1和表2中所述的“虚拟视频数据流id”320，该“虚拟视频数据流id”320由存储在存储器或数据库中的服务器生成。“虚拟摄像头id”与检测的对象及其流式视频有关。

在316-320中基于对象检测创建虚拟对象之后，并且在314中确定视频数据流310不包含进一步识别的对象或人之后，服务器对被检测并且具有与其相关联的虚拟视频数据流标识符320的每个虚拟对象执行以下处理。

使用相应的虚拟视频数据流标识符320，服务器200经由从服务器200传送到云服务320的加入请求324，使相应的检测对象作为虚拟参与方加入322虚拟会议会话305。一旦检测的对象加入虚拟会议会话303，服务器200就从云服务230获得“虚拟参与方id”326。当某人(或某物)加入虚拟会议会话303时，云服务生成“(虚拟)参与方id”326。服务器使参与方ID 326被存储327在存储器或数据库中。

服务器执行关联处理328，并且将“(虚拟)参与方id”326与“虚拟视频数据流id”320相关联，并且将相关联的虚拟视频数据流320作为输入馈送给虚拟会议会话303作为虚拟参与方流视频。如以上在图1中以及再次在图4、图5A和图5B中讨论的那样，响应于从客户机应用或设备接收的请求，将与虚拟会议会话相关联的一个或多个视频提供给客户机。对每个虚拟视频数据流ID 320重复与步骤322～328相关联的处理。

从确定是否接收会议结束请求的330开始，执行会议结束处理。如果没有会议结束请求，则处理返回到310。在已经接收结束会议请求的情况下，服务器执行生成断开(例如，离开会议)消息334的断开处理332，该消息334被传送到虚拟会议会话303，从而导致所有参与方视频数据流离开虚拟会议会话303，从而导致所有视频流停止。然后，执行结束处理336，由此服务器200向云服务230发送“虚拟会议id”305和结束会议请求338。云服务获得与“虚拟会议id”305相关的“在线会议id”304，并且云服务结束经由第一结束处理338的虚拟会议会话303和经由第二结束处理340的控制会议会话。

图4以及图5A和5B是由可以参与在线会议的客户机设备显示的示例性用户界面。一旦控制会议会话302开始，用户就通过使用具有其自己的专用用户界面的专用控制会议应用加入控制会议会话。用户经由在客户机设备上执行的网络浏览应用加入虚拟会议会话303。云服务230已经将在线会议会话与虚拟会议会话相关联，因此在线会议会话具有到虚拟会议会话的链接。一旦用户选择了到虚拟会议的链接，就打开客户机UI。用户能够经由客户机UI加入虚拟会议会话，并且客户机向云服务230发送对一个或多个虚拟视频数据流(例如，表示部分区域的视频的裁剪视频)的请求，并且客户机显示从云服务230接收的一个或多个虚拟视频数据流。

在可经由在客户机设备上执行的网络浏览器观看的虚拟会议会话303中，表示检测对象或检测人的虚拟视频数据流作为(虚拟)参与方视频流传输。在客户机设备上执行的网络浏览器内的用户界面向用户提供切换屏幕上的流式视频的功能，因此用户能够在基于上述识别处理生成的所有虚拟视频流之间改变视图。应当注意，用户界面使得客户机设备能够在在线会议会话终止之后再现分别与参与方id相关联的一个或多个视频以及分别与虚拟参与方id相关联的一个或多个视频。在另一实施例中，服务器可以存储每个视频，并且响应于来自客户机的请求提供一个视频。

在另一实施例中，各参与方id与安全级别信息相关联，并且与虚拟视频数据流id(或虚拟参与方id)相关联的一个或多个视频仅被提供给具有安全级别比预定级别高的对应安全级别信息的客户机设备。替换地，服务器200可以能够基于请求虚拟视频数据流的客户机(或客户机设备)的安全级别与归因于视频数据流的安全级别之间的比较确定是否要提供与虚拟视频数据流id相关联的视频。

作为另一实施例，云服务可以提供指示裁剪区在会议空间的视频内的位置的位置信息，使得当用户指示会议空间视频上的由位置信息定义的区域时客户机显示裁剪区。

图4示出导致经由网络浏览器在客户机设备上显示的用户界面400，该网络浏览器使用虚拟会议ID链接加入虚拟会议会话。用户界面400包括多个显示部分，这些显示部分可以选择性地显示虚拟视频数据流中的对应于如上所述在对视频数据执行的识别处理期间检测的对象和/或人的相应虚拟视频数据流。用户界面生成器使用关联格式的虚拟视频数据流ID以生成在客户机设备上显示的用户界面。

用户界面生成器导致用户界面400生成并且包括第一显示区402、第二显示区404和第三显示区406。在该示例性实施例中，第一显示区402被控制为显示对应于正在显示的完整图像捕获区域的虚拟视频数据流110。用户界面生成器获得虚拟视频数据流ID，并且使用该信息以在用户界面400内定位视频数据流。在第二显示区404中，显示表示能够被选择的一个或多个检测的对象的一个或者多个图标。如这里所示，显示对应于书写表面对象104的虚拟视频数据流标识符120的图标。用户可以选择图标，该图标使得用户界面生成器请求白板的视频流并且使得该视频数据流被显示在第一显示区402内，并且使得先前显示的视频数据流停止被显示，并且在第二显示区404内呈现先前的视频数据流。换句话说，视频数据流在用户界面400内交换位置，这允许用户选择性地确定在给定时间观看多个虚拟视频数据流中的哪个。用户界面400包括第三显示区406，该第三显示区406显示对应于作为上述用户识别处理的一部分识别的一个或多个用户的用户标识图标。如这里所示，图标对应于来自图1的虚拟视频数据流112、114、116和118。图标呈现关于用户中的每一个的信息，该信息可以通过使用与各相应虚拟视频数据流相关联的虚拟视频数据标识符中的{名称}信息来获得。并且，当定位虚拟视频数据流或表示虚拟视频数据流的用户可选图标中的一个或多个时，标识符中的{类型}字段由用户界面生成器使用。

在一个实施例中，第三显示区域中的图标是可选择的，并且导致该用户的相应虚拟视频数据流显示在第一显示区域中。在另一实施例中，只有在特定时间或基于与相应用户相关联的特定指定，才可以选择第三显示区中的图标以显示在第一显示区402中。例如，在各个用户中的一个被标识为演讲者或发言者的情况下，该用户图标将是可选择的，从而导致在第一显示区402中显示用户的虚拟视频数据流。

图5A和5B示出图4中所示的用户界面400的附加实施例。用户界面400包括常见要素，由于图4的描述，这些常见要素不需要重复描述。因此，将仅讨论不同标记的要素及其控制操作。

在图5A中，在用户界面400的主显示区402中。虚拟视频数据流110被控制以被显示。更具体地，用户界面生成器使用第一虚拟视频数据流标识符作为用于显示视频数据流的源，该视频数据流表示由图1中的图像捕获设备108捕获的整个图像捕获区域102。在显示的视图中，使得选择指示符502(如图5A中的虚线所示)对远程用户可见。选择指示符502指示选择指示符内的区域表示关注区504，该关注区包括在具有其自身的虚拟视频数据流和相关联的虚拟视频数据流标识符的识别处理期间被识别的对象(或人)。这允许显示选择指示符502内的视频数据。用户可以选择部分指示符502，并且使得与其相关联的视频数据流在第一显示区402内显示为选择的视频数据504，该选择的视频数据504提供选择指示符502内的信息的放大版本。在这样做时，用户界面402经由在选择图标的用户界面处的用户输入接收选择指令。用户界面生成器获得与选择指示符502相关联的虚拟视频数据流ID，并且使得与各个虚拟视频数据流ID相关联的视频数据显示在第一显示区内。更具体地，虚拟视频数据已经作为虚拟参与方加入到虚拟会议会话，并且，对选择指示符502的选择使得与对应于虚拟视频数据的参与方ID相关联的视频数据被显示在第一显示区502中。如这里所示，选择的虚拟视频数据被叠加在已经从其进行了选择的视频数据上。然而，这仅仅是出于示例的目的，并且在一些实施例中，选择使得选择的虚拟视频数据将在第一区中从中进行选择的虚拟图像数据流替换为选择的视频数据，并且使得在第二显示区404中显示使得用户能够重新选择已经从中进行了选择的虚拟视频数据的图标。除了选择指示符602标识代表用户B的关注区并且其选择导致与用户B相关联的参与方ID的虚拟视频数据流在第一显示区内显示为关注区域视频数据流604的区以外，图5B示出与图5A中所述相同的处理。

图6A-6D示出根据本公开生成的用户界面600的另一实施例。如这里所示，用户界面600包括视图控制区602，该视图控制区包括用于控制显示区604的显示视图的用户可选图标，在该显示区604中，使得显示对应于视图控制区中的图标的虚拟视频数据流。用户界面600还包括参与方区606，该参与方区606包括表示虚拟参与方的用户可选择的参与方图标620a-620f，每个虚拟参与方具有各自的虚拟视频数据流，并且加入如图3所示的虚拟会议会话303。参与方区域606包括表示被识别为识别区域的一部分的不同的人(620a～620e)以及作为上述识别处理的一部分被识别的一个或多个对象(图6D中的620f)的一个或多个图标。

视图控制区602中的视图控制图标包括图像捕获区图标612，该图像捕获区图标612表示对应于由图1中的图像捕获设备108捕获的整个图像捕获区的视频数据流。这提供了根据本公开的系统被部署在其中的房间的全视场。图6A示出选择图像捕获区图标时的显示处理，从而使得以上述方式显示与图像捕获区(图1中的110)相关联的虚拟视频数据流。

还存在至少一个对象图标610，该对象图标610的选择使得对应于特定识别对象的视频数据流显示在显示区604中。在一个示例中，对象图标对应于图1中的识别的书写表面104。如图6B所示，对象图标610的选择使得与该对象相关联的虚拟视频数据流显示在显示区604内。虽然在视图控制区602中仅表示单个对象图标610，但是应当理解，可以显示分别对应于不同对象的多个对象图标610。在某些实施例中，对应于相同类型的对象中的不同对象的多个对象图标可以存在于视图控制区域602内。在图6B中所示的示例中，对应于对象图标610的对象是白板，并且，图标610的选择导致在显示区604内实时表示从图像捕获区的单个照相机视图提取的白板的视频流。

多视图图标614存在于用户界面600的视图控制区602中。多视图图标614的选择使得不同类型的视图被显示在显示区604中。更具体地，多视图图标614使得多于一个虚拟视频数据流同时显示在显示区604内。这如图6C所示。在一个实施例中，多视图图标的选择自动使得与完整图像捕获区102相关联的虚拟视频数据流和与对应于对象图标614的对象相关联的虚视频数据流一起被显示。在图6C中所示的示例中，多视图图标614的选择使得图1中的书写表面104的虚拟视频数据流显示在显示区604的子区中，该子区叠加在表示图1中的图像捕获区域102的虚拟视频信息流上。虽然两个视频数据流的显示在图6C中被示为相互叠加，但这仅出于示例目的。在另一示例性实施例中，两个不同的视频数据流可以显示在显示区604中的彼此相邻的单独窗口中。在其它实施例中，可以包括允许选择要在显示区604内显示的多达三个的不同参与方视频数据流的多个多视图图标614。

视图控制区602还包括参与方选择图标616，该参与方选择图标616允许用户选择要在显示区604的子区内显示的参与方图标620a-620f。如图6D所示，参与方选择图标616与对应于作为虚拟参与方加入虚拟会话的用户中的一个的用户图标620a一起被选择。这导致在图6D中的显示区604的子区中示出与选择的用户620a相关联的虚拟视频数据流。

在其它实施例中，视图控制区602包括控制正在进行的会议内的一个或多个动作的一个或多个动作图标。视频图标615使得远程用户能够观看用户界面600，以控制远程计算设备上的照相机开始捕获远程用户的视频数据并开始将捕获的远程用户视频传输到虚拟会议会话303。在一些实施例中，这使得会议应用能够获得远程用户的虚拟视频数据流并将该流标识为远程用户，并以上面在图3中讨论的方式使远程用户视频加入虚拟会议会话303。还示出声音图标617，该声音图标617的选择控制远程计算设备的麦克风以允许或禁止麦克风捕获声音。还包括记录图标619，该记录图标619控制记录过程以开始将显示在用户界面上并且源自虚拟会议会话的所有信息存储到存储器中的数据文件中。在一个实施例中，记录的会议可以在本地被存储在远程计算设备处。在另一实施例中，记录的会议可以被存储在服务器200或云服务230处。

现在将讨论图6A-6D的其它操作。为了生成图6A-6D所示的用户界面，远程客户机设备从云服务230接收表3中所示的以下视频数据流。

会议室的视频流1(虚拟参与方ID 1)

白板的视频流2(虚拟参与方ID 2)

参与方1的视频流3(虚拟参与方ID 3)

参与方2的视频流4(虚拟参与方ID 4)

参与方3的视频流5(虚拟参与方ID 5)

参与方4的视频流6(虚拟参与方ID 6)

书的视频流7(虚拟参与方ID 7)

远程用户B的视频流8(参与方ID B)

表3：来自云服务的视频流

云服务230通过使用与用于传送视频流8的通信会话不同的通信会话将视频流1-7传送到远程客户机设备。服务器200经由云服务230向远程客户机设备提供具有以上在表1和表2中描述的预定显示格式并且通过引用并入本文的显示名称信息。

基于从云服务接收的信息，如图6A所示，远程客户机设备开始在显示区604中显示类型为“房间”的视频。当远程客户机设备的远程用户选择白板视图模式(图6A-6D中的610)时，如图6B所示，用户界面生成器导致视频显示从其类型为“会议室”的视频切换到其类型为“白板”的视频。当选择对应于多视图模式的多视图图标616时，如图6C所示，客户机设备导致其类型为“房间”的视频和其类型为“白板”的视频均显示在显示区604中。当客户机设备的远程用户从参与方区606(例如，菜单栏)选择一个对象时，客户机设备改变要在图6D所示的双视图模式期间显示的视频。

在另一示例性实施例中，客户机设备可以通过对视频流中的每一个执行图像识别过程标识会议室的视频和白板的视频。客户机设备可以将表3中的虚拟参与方ID 1-7中的具有最旧虚拟参与方ID的视频标识为会议室的视频，并且客户机设备可以将表3中的虚拟参与方ID 1-7中的具有第二旧虚拟参与方ID的视频标识为白板的视频。

在另一实施例中，云服务230通过使用例如名为SignalR的WebSocket提供指示表示图像捕获区域102的视频中的每个人和对象的位置的位置信息。这仅仅是用于提供客户机位置的方法的示例，并且能够实现本实施例的实践的任何方法是适用的。客户机设备基于由远程用户选择的屏幕的位置标识由远程用户选择的对象的显示名称，并且显示与标识的显示名称相关联的视频流。如果例如在“双视图模式”期间执行用户操作，则视频流被显示在显示区604内的子区中。

在没有从捕获的视频检测白板的情况下，用户界面生成器将禁用在视图控制区602中显示白板视图按钮的对象选择图标610。这使得当用户选择白板视图按钮610时不采取任何动作。在另一实施例中，如果用户界面生成器没有接收被标识为“白板”的视频数据流，则当用户选择白板视图按钮610时，用户界面生成器导致错误消息。

在另一示例性实施例中，如果从捕获的视频检测到两个或更多个白板并且客户机设备接收其类型为白板的两个或更多个视频流，则客户机A可以在每次选择白板视图按钮610时切换要在屏幕上显示的视频流。(例如，如果存在白板的三个视频流，则为白板A→白板B→白板C→白板A…)。在又一示例性实施例中，如果检测两个或更多个白板，则客户机可以显示两个或更多个白板按钮。

包含于显示名称信息中的要素中的每一个的源是服务器600，并且用户界面生成器使用它以生成本文所述的用户界面。这些要素被确定如下。对于“类型”信息，服务器200执行图像识别过程以获得“类型”信息。服务器从房间、人、白板、远程和对象确定类型中的一个。对于“名称”，服务器对检测的人脸执行人脸识别过程，以获得“名称”信息。如果服务器不能标识特定人，则“名称”被确定为“访客”。人以外的其它类型的“名称”基于预先确定的规则被确定。例如，其类型为白板的视频流的名称被确定为“白板A”。对于“ID”，服务器200通过参照基于名称标签的数据库标识“ID”。

用户界面(UI)生成器基于从云服务230接收的显示名称确定显示布局。显示名称是加入在显示用户界面的视频会议平台中显示的虚拟会议会话的每个参与方的名称。应当注意，用户、对象和会议室均是虚拟会议会话的参与方。因此，参与方不应仅仅被理解为人参与方。在加入虚拟会议会话之后，客户机设备上的远程用户标识从云服务230接收的其类型为“房间”的视频流，并使该视频流显示在显示区604中(图6A)。当远程用户选择“白板视图模式”610时，用户界面生成器获得其类型为“白板”的视频流，并且显示它而不是其类型为“房间”的视频，并使该视频流显示在显示区604中(图6B)。响应于“双视图模式”616的选择，用户界面生成器获得其类型为“房间”的视频流，并将其显示在显示区604屏幕的大区中，并且还获得其类型为“白板”的视频流，并将其显示在显示区604的较小区中(图6C)。大区和较小区中的视频可以通过使用切换按钮彼此交替。当从菜单栏(参与方区606)选择对象时，用户界面生成器基于选择的屏幕中的位置获得对象的显示名称，并且显示与标识的显示名称相关联的视频流。如果在“双视图模式”期间执行用户操作，则视频流显示在较小的区中(图6D)。

根据本公开，如图7所示，在线云会议系统在没有参与方ID的情况下不接收和处理任何视频。因此，根据本公开的服务器提供将参与方ID添加到不具有参与方ID的任何视频源以使得在线会议系统可以处理在常规上不包括参与方ID的视频的功能。服务器将唯一的虚拟ID添加到从在该位置捕获的视频裁剪的一个或多个视频流。应当理解，经由裁剪过程提取的这些部分流既被标识为虚拟视频数据流又被标识为视频数据流，因此，这些术语在本公开中可互换地使用并且应当被理解为意指相同的事情。这些部分视频流能够被在线会议系统识别为用于在线会议的视频。在线会议系统使用ID以将接收的视频识别为与特定在线会议系统相关或以其它方式相关联，以标识每个单个视频。因此，这些部分视频流是作为“虚拟视频数据流”的单个视频数据流。当在线会议系统传送视频数据流时，它使用ID和来自客户机的会话ID标识要发送到客户机设备的视频。当客户机接收视频数据流时，客户机使用ID以识别接收的视频与特定的在线会议有关，并标识每个单个视频。

根据示例性操作，客户机设备将参与方ID与由照相机(在房间内或在远程计算设备处)获得的视频中的相应一个相关联，并将它们发送到云服务230。服务器200将虚拟参与方ID与由会议室的网络照相机获得的每个视频相关联，并将它们发送到云服务。网络照相机不与特定用户相关联。在线会议系统响应于来自客户机的请求向客户机发送视频和参与方ID。

根据来自客户机的对与虚拟参与方ID相关联的视频的开始请求，云服务(例如，在线会议系统)开始向发送请求的客户机发送与虚拟参与方ID相关联的视频。云服务经由常规会议会话发送与真实参与方ID相关联的视频，并且经由另一单独会话(例如，特定于服务器的会话)发送与虚拟参与方ID相关联的视频。服务器会话的会话ID是在客户机发出开始请求时创建的。

客户机在常规会议的第一窗口内显示经由常规会议会话从云服务接收并且与真实参与方ID相关联的视频。客户机在第二窗口内显示经由服务器会话从云服务接收并且与虚拟参与方ID相关联的视频。客户机不区分真实参与方ID和虚拟参与方ID。客户机通过检查用于发送视频的会话ID区分服务器系统和常规会议系统的视频。在另一实施例中，可以在单个窗口内显示所有视频。

在另一实施例中，服务器还包括专用显示屏，该显示屏可以为预定位置(例如，办公室会议室)的用户显示与由在该位置的图像捕获设备捕获的视频的裁剪部分相关联的视频流。在其它实施例中，显示屏是触摸屏，并且允许对由图像捕获设备捕获的特定对象的可选择性。

在另一实施例中，该系统可以利用诸如安全级别信息的元数据，该元数据用于基于每个真实参与方ID的用户级别信息确定每个对应的视频是否可以被传送给请求该视频的客户机。在另一实施例中，该位置处的真实参与方可以设置限制或偏好，这些限制或偏好将禁止服务器向客户机设备提供他们自己或他们的对象的视频。以这种方式，系统可以基于用户的偏好防止检测的一个或多个对象的虚拟ID的生成。

图8示出表示可用于实现上述公开的服务器、云服务和/或客户机设备中的任何一个的硬件。装置包括CPU、RAM、ROM、输入单元、外部接口和输出单元。CPU通过使用计算机程序(可由CPU执行的一个或多个系列的存储指令)和存储在RAM或ROM中的数据控制装置。这里，装置可以包括一个或多个专用硬件或与CPU不同的图形处理单元(GPU)，并且GPU或专用硬件可以通过CPU执行处理的一部分。作为专用硬件的示例，存在专用集成电路(ASIC)、现场可编程门阵列(FPGA)和数字信号处理器(DSP)等。RAM 306临时存储从ROM读取的计算机程序或数据、经由外部接口从外部提供的数据等。ROM存储不需要修改并且可以控制设备的基本操作的计算机程序和数据。输入单元由例如操纵杆、微动拨盘、触摸板、键盘或鼠标等组成，并接收用户的操作，并向CPU输入各种指令。外部接口与诸如PC、智能电话和照相机等的外部设备进行通信。与外部设备的通信可以通过使用局域网(LAN)电缆、串行数字接口(SDI)电缆或WIFI连接等有线地被执行，或者可以经由天线被以无线的方式执行。输出单元由例如诸如显示器的显示单元和诸如扬声器的声音输出单元组成，并且显示图形用户界面(GUI)并输出引导声音，使得用户可以根据需要操作设备。

本公开的范围包括存储指令的非瞬态计算机可读介质，这些指令当由一个或多个处理器执行时使一个或多个处理器执行本文所述的本发明的一个或多个实施例。计算机可读介质的示例包括硬盘、软盘、磁光盘(MO)、光盘只读存储器(CD-ROM)、可记录光盘(CD-R)、可重写CD(CD-RW)、数字通用盘ROM(DVD-ROM)、DVD-RAM、DVD-RW、DVD+RW、磁带、非易失性存储卡和ROM。计算机可执行指令也可以通过经由网络被下载而被供给计算机可读存储介质。

除非本文中另有说明或与上下文明显矛盾，否则，在描述本发明的一个或多个方面的本公开的上下文中(特别是在以下权利要求的上下文中)使用术语“一个”、“一种”和“该”以及类似的指代应被解释为涵盖单数和复数。除非另有说明，否则术语“包括”、“具有”、“包含”和“含有”应被解释为开放式术语(即，含义为“包括但不限于”)。除非本文中另有说明，否则本文中对值的范围的叙述仅旨在用作单独提及落入该范围内的每个单独值的简写方法，并且每个单独值被并入说明书中，就好像其在本文中被单独叙述一样。除非本文中另有说明或与上下文明显矛盾，否则，本文描述的所有方法都可以以任何合适的顺序被执行。使用本文提供的任何和所有示例或示例性语言(例如，“诸如”)仅旨在更好地阐明本文公开的主题，并且除非另有要求，否则不对源自本公开的任何发明的范围构成限制。说明书中的任何语言不应被解释为将任何未要求保护的要素指示为必要的。

应当理解，本公开可以以各种实施例的形式被并入，这里仅公开这些实施例中的几个。通过阅读前述描述，这些实施例的变化对于本领域普通技术人员来说可能变得显而易见。因此，本公开以及从其衍生的任何发明包括在如适用法律允许的那样对其附加的权利要求中记载的主题的所有修改和等价物。并且，除非本文中另有指示或以其它方式与上下文明显矛盾，否则上述要素在其所有可能的变更例中的任何组合都包含在本公开中。

Claims

1.一种用于在经由网络连接的多个客户机之间进行的远程会议的服务器，所述服务器包括：

一个或多个处理器；和

存储指令的一个或多个存储器，这些指令当被执行时配置所述一个或多个处理器以完成以下过程：

在一个或多个存储器中存储彼此相关联的参与远程会议的客户机的用户id信息和所述客户机的视频；

在一个或多个存储器中存储彼此相关联的由预定照相机捕获的视频和虚拟用户id信息；

向参与远程会议的客户机传送与用户id信息相关联的视频和与虚拟用户id信息相关联的视频。

2.根据权利要求1所述的服务器，其中，预定照相机是放置在会议空间处的网络照相机。

3.根据权利要求1所述的服务器，其中，客户机的视频是由连接或实现到客户机的计算机中的网络照相机捕获的视频。

4.根据权利要求1所述的服务器，其中，所述一个或多个处理器进一步被配置为从由预定照相机捕获的视频中指定白板、显示屏和文档中的至少一个的部分区域，以及

其中，每个部分区域与不同的虚拟用户id信息相关联。

5.根据权利要求4所述的服务器，还包括用于从客户机接收对部分区域的视频的请求的接收单元，并且，部分区域的视频响应于视频请求被传送到客户机。

6.根据权利要求1所述的服务器，其中，与用户id信息相关联的视频和与虚拟用户id信息相关联的视频在远程会议终止之后被传送到再现远程会议的视频的客户机。

7.根据权利要求1所述的服务器，其中，多个客户机的每个用户id信息被存储在与安全级别信息相关联的一个或多个存储器中，并且其中，与虚拟用户id信息相关联的视频被传送到与预定安全级别信息相关联的客户机。

8.根据权利要求7所述的服务器，其中，对应于由预定照相机捕获的视频中的每个部分区域的每个虚拟用户id信息被存储在与安全级别信息相关联的所述一个或多个存储器中，并且其中，要传送到客户机的部分区域的视频基于与客户机的用户id信息相关联的安全级别信息和与虚拟用户id信息中的每一个相关联的安全级别信息被确定。

9.根据权利要求1所述的服务器，其中，视频被传送到客户机，使得在不同的窗口上显示与用户id信息相关联的视频和与虚拟id用户信息相关联的视频。

10.根据权利要求1所述的服务器，其中，用户信息和虚拟用户id信息的格式相同。

11.根据权利要求4所述的服务器，其中，指示由预定照相机捕获的视频内的部分区域的位置的位置信息进一步被传送到客户机。

12.一种用于在经由网络连接的多个客户机之间进行的远程会议的客户机，所述客户机包括：

一个或多个处理器；和

接收每个客户机的视频；

在第一窗口上显示接收的每个客户机的视频；和

响应于第一窗口上的预定按钮的指示显示第二窗口，

其中，第二窗口显示由预定照相机捕获的视频。

13.根据权利要求11所述的客户机，其中，第二窗口进一步显示由预定照相机捕获的视频中的白板、显示屏和文档中的至少一个的部分区域的视频。

14.根据权利要求11所述的客户机，其中，所述一个或多个处理器进一步被配置为响应于用于远程会议的参与按钮向服务器传送会议ID信息，并且响应于第一窗口上的预定按钮的指定，向服务器传送包括会议ID信息并请求由预定照相机捕获的视频的视频请求，以及

其中，第二窗口显示在传送视频请求之后从服务器接收的视频。

15.根据权利要求11所述的客户机，其中，第二窗口是网络浏览器的窗口。

16.根据权利要求13所述的客户机，其中，所述一个或多个处理器进一步被配置为接收指示由预定照相机捕获的视频的部分区域的位置的位置信息。

17.根据权利要求16所述的客户机，其中，所述一个或多个处理器进一步被配置为检测用户对其位置由位置信息指示的部分区域的指定，

其中，响应于对部分区域的指定的检测，显示部分区域的放大视频。