CN109565568B

CN109565568B - 对用户设备的用户界面进行控制的方法

Info

Publication number: CN109565568B
Application number: CN201780048363.4A
Authority: CN
Inventors: J·T·福尔克纳
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-08-05
Filing date: 2017-07-27
Publication date: 2021-03-09
Anticipated expiration: 2037-07-27
Also published as: WO2018026615A1; EP3466059B1; EP3466059A1; CN109565568A; US9756286B1

Abstract

在现有的参与者之间经由其用户设备之间的通信网络通过发送和接收视频来进行建立的通信事件。新的参与者的用户界面在该参与者满足后期加入条件的情况下被控制成一开始在后期加入模式下操作。响应于初始持续时间到期，用户界面替代地自动切换到主动发言模式。

Description

对用户设备的用户界面进行控制的方法

技术领域

本发明涉及通信事件，其是通过经由该通信事件的参与者所操作的用户设备之间的通信网络来发送和接收视频流，以及在这些用户设备处显示从这些视频流导出的视频图像来进行的。

背景技术

互联网协议语音(“VoIP”)通信系统允许设备的用户经由诸如互联网之类的基于分组的通信网络来进行诸如通话之类的通信事件。为了使用 VoIP，用户在用户设备上安装并执行客户端软件。客户端软件提供VoIP连接以及诸如注册和认证之类的其他功能。在使用客户端进行的通话中，音频数据在客户端之间被发送和接收以使得参与通话的用户能够听见彼此。

除了语音通信之外，客户端还可以提供视频通话功能，以使得携带参与者的视频图像的视频流可以经由网络而在客户端之间被发送和接收。除了听到他们的声音之外，参与者还能够查看其他参与者的视频图像。由于面部表情也被传送，因此这在参与者之间提供了一种更加自然的通信形式，从而使得视频通话与面对面的对话更加类似。视频图像可以是通话视频图像，即，在其设备上捕获的用户自身的图像，但是它们也可以为了实现其他通信事件模态而是其他类型的视频图像(即，其他类型的视频内容)，例如屏幕共享、文档共享、白板共享等。例如，所述视频流中的至少一个视频流可以携带当前正在参与者的显示器之一上显示的内容的视频图像，以使得它对其他参与者是可见的。

发明内容

建立的通信事件是通过经由在其用户设备之间的通信网络来发送和接收视频流而在现有的参与者之间进行的。新的参与者的用户界面被控制成在该参与者满足后期加入条件的情况下，一开始以后期加入模式来操作。响应于初始持续时间到期，用户界面替代地自动切换到主动发言模式。

本发明的第一方面针对一种对由建立的通信事件的新的参与者操作的用户设备的用户界面进行控制的方法，所述建立的通信事件是通过经由由多个现有参与者操作的用户设备之间的通信网络来发送和接收视频流而在所述现有参与者之间进行的，该方法包括以下步骤：

接收关于新的参与者加入所述建立的通信事件的通知；

基于所接收的通知，确定新的参与者是否满足后期加入条件；以及

如果确定满足后期加入条件，则：在初始持续时间内，控制用户界面在后期加入模式下操作，并且响应于初始持续时间到期，控制用户界面替代地在主动发言模式下操作(即，从后期加入模式切换到主动发言模式)。

控制用户界面在主动发言模式下操作包括基于在主动发言的参与者之一的用户设备上生成的音频数据为新的参与者选择：主动发言的参与者的视频流之一、或者表示主动发言的参与者的化身图像，由此使得用户界面显示所选择的化身图像或从所选择的流中导出的视频图像。

术语“主动发言者模式”和“跟随行动模式”在本申请中互换地使用来指代这样的模式，其中对视频图像或化身的显示主要但不一定排他地由主动发言者识别来驱动，其是通过向参与者的音频数据应用语音检测实现的。

控制用户界面以在后期加入模式下操作可以包括非发言参与者的视频流之一或非发言参与者的化身图像，由此使得用户界面显示所选择的化身图像或从所选择的非发言参与者的流导出的视频图像。

视频图像可以是“运动图像”，即在通信事件期间快速连续播出以给出运动的印象的一系列的帧(即，静态图像)，或者其可以是来自运动图像的静态图像(即，从运动图像导出的静态图像)。除非另外指出，否则在下文中对“图像”的任何引用指的是该含义下的视频图像。短语“显示视频流”指的是显示从视频流导出的视频图像。通信事件的视频图像指的是从通信事件的视频流之一中导出的视频图像。静态图像是可以作为后期加入体验的一部分来显示的潜在视图。例如，最近的高活动视图内容共享的屏幕捕获。

视频流可以携带用户自身的视频图像(“通话视频图像”)，但是本发明并不限于此；至少一个可以携带另一类型内容的视频图像，例如，共享的内容视频图像(“共享的内容媒体图像”)。就这一点而言，尽管“通话视频图像”可以是一个或多个用户的图像，但本发明不限于此——视频图像中的至少一个可以具有共享的内容。例如，应用中的文档共享/编辑、或者屏幕共享。从新的参与者的角度来看，共享的内容在某一程度上单独表现为在通信事件中的“参与者”，其被称为“内容即参与者”，但它实际上是由实际的参与者之一(即参与通信事件的用户之一)提供的视频内容。为了避免任何怀疑，要注意的是，当在权利要求中使用时，术语“参与者”指的是参与通信事件的用户。

例如，可以显示一个或多个主导活动图像流加上一个或多个内容媒体流。

如将显而易见的，在该上下文中“初始的”是从新用户的角度而言的，并且是当他加入时开始的时间间隔(其不是指通信事件的具体开始，通信事件的开始是在他已经加入之前)。

在实施例中，控制所述用户界面以在后期加入模式下操作包括：独立于在所述用户设备处生成的任何音频数据来为所述新的参与者选择所述视频流中的一个或多个视频流和/或一个或多个化身图像，由此使得所述用户界面在所述初始持续时间的至少一部分显示所选择的化身图像或者从所选择的视频流导出的一个或多个视频图像。

可替代地或另外地，不超过从所述视频流导出的最大数量的视频图像由所述用户界面在所述主动发言者模式下操作时的任何一个时间处被显示，并且超过所述最大数量的视频图像由在所述后期加入模式下操作的所述用户界面在所述初始持续时间期间被同时显示至少一次。

可替代地或另外地，控制所述用户界面以在所述后期加入模式下操作包括：控制所述用户界面以在所述初始持续时间的过程中为所述现有参与者中的每一个现有参与者显示从所述视频流中的一个视频流导出的相应的视频图像、或者相应的化身图像(不一定是同时地)。

在实施例中，所述后期加入条件是基于以下中的至少一个的：所述新的参与者的加入时间处的所述通信事件经过的时间，或者所述加入时间处的所述通信事件的现有参与者的数量。

换句话说，后期加入者可以被这样分类是因为他们在时间上的后期阶段加入，此时已经存在大量现有参与者，或这两者。

该方法还可以包括在确定不满足所述后期加入条件的情况下，控制所述用户界面立即在所述主动发言者模式下操作。“立即”是指主动发言者模式是第一个被选择的模式，即，后期加入模式一开始没有被选择。

所述步骤是在与所述新的参与者的用户设备不同的中继节点处被实现的。

例如，所述控制步骤是通过以下方式实现的：经由所述网络从所述中继节点向所述新的参与者的用户设备发送在所述主动发言者模式下操作的所述用户界面要显示所述视频图像所需的所述视频流中的任何视频流(以及这个/那个视频流)。只要化身图像被用户界面显示，就没有视频流被发送。

所述中继节点是中继服务器，或者是由所述现有参与者中的一个现有参与者操作的所述用户设备。

其中，所述步骤是由所述新的参与者的用户设备实现的。

例如，当所述用户界面在所述主动发言者模式下操作时，所述用户设备订阅所述主动发言的参与者的所述视频流，其中，所述用户设备经由所述网络从中继节点接收所订阅的流。

在所述后期加入模式下，所述用户设备可以定于所述视频流中的所有 (或一些)，其中，所述用户设备经由所述网络从所述中继节点接收所订阅的视频流。例如，非发言的参与者的至少一个视频流。

在所述后期加入模式下，所述用户设备订阅非发言的参与者的视频流中的至少一个视频流，其中，所述用户设备经由所述网络从所述中继节点接收所订阅的视频流。

所述用户设备可以通过向中继节点发送至少一个主动发言者订阅来订阅给定的流。

所显示的图像中的至少一个是通话视频图像，其是从所述主动发言的参与者的所述视频流中的一个视频流导出的，并且是基于所述主动发言者的音频数据而针对所述随后的持续时间选择的。

至少一个视频图像是由在所述后期加入模式下操作的所述用户界面在所述初始持续时间期间显示的，所述至少一个视频图像是此时没有主动发言的参与者的通话视频图像。

不同的视频或化身图像是由在所述后期加入模式下操作的所述用户界面在所述初始持续时间期间的不同的时间显示的。

当新的参与者加入时，由通信事件的多个现有参与者中的至少一个操作的用户设备可能没有发送视频流，且表示另外的参与者的化身图像可以由在后期加入模式下操作的用户界面在初始持续时间的至少一部分在新的参与者的用户设备处显示，其不由用户界面在主动发言者模式下操作时显示。

视频流中的至少一个可以携带模态指示符，并且该方法包括检测该流中的模态指示符；其中，由在后期加入模式下操作的用户界面显示从视频流导出的视频图像初始持续时间的至少一部分；并且其中，对模态指示符的检测防止从该视频流导出的任何视频图像在在主动发言者模式下操作时由用户界面显示。

本发明的第二方面针对用于控制向建立的通信事件的新的参与者显示的用户界面的网络节点，所述建立的通信事件是通过经由由多个现有参与者操作的用户设备之间的通信网络来发送和接收视频流而在所述现有参与者之间进行的，网络节点包括：

输入端，其被配置成接收关于新的参与者加入所述建立的通信事件的通知；

控制器，其被配置成实现以下步骤：

基于所接收的通知来确定所述新的参与者是否满足后期加入条件；以及

如果确定满足所述后期加入条件，则：控制所述用户界面以在初始持续时间在后期加入模式下操作，并且响应于所述初始持续时间到期，替代地控制所述用户界面以在主动发言者模式下操作；

其中，控制所述用户界面在主动发言者模式下操作包括基于在所述参与者中主动发言的参与者的用户设备处生成的音频数据来为所述新的参与者选择：所述主动发言的参与者的视频流中的一个视频流、或者表示所述主动发言的参与者的化身图像，由此使得所述用户界面显示所选择的化身图像或者从所选择的流导出的视频图像。

所述网络节点可以是中继节点或者是由所述新的参与者操作的用户设备，例如：

本发明的第四方面针对一种管理建立的通信事件的方法，所述建立的通信事件是通过经由在由这些现有参与者操作的用户设备之间的通信网络来发送和接收视频流而在多个现有设备之间进行的，所述方法包括以下步骤：

接收关于新的参与者加入所述建立的通信事件的通知；

针对显示区域确定要在通信事件的初始持续时间(“后期加入阶段”) 向新的参与者显示的通信事件的图像的最小数量；

基于该确定步骤，控制新的参与者可用的用户设备的显示器在显示器的显示区域中在通信事件的初始持续时间显示该通信事件的至少两个图像，这些图像中的每个是从视频流之一中导出的视频图像或者是表示参与者之一的化身图像，这使得在该用户设备处在所述显示区域中显示的该通信事件的图像的总数不小于在初始持续时间的所有时间上针对该初始持续时间所确定的最小数量；

针对该显示区域确定要在该通信事件的随后的持续时间向新的参与者显示的视频图像的最大数量；

控制新的参与者的用户设备的显示器在该通信事件随后的持续时间 (“跟随动作阶段”)在所述显示区域显示该通信事件的至少一个图像，该图像是从视频流的至少一个中导出的视频图像或者是表示参与者之一的化身图像，这使得在该用户设备处在所述显示区域中显示的通信事件的视频图像的总数不超过在随后的持续时间期间的所有时间上针对随后的持续时间所确定的最大数量。

通信事件的图像指的是从视频流之一中导出的视频图像或者表示参与者之一的化身图像(例如，仅音频参与者，其不发送视频流)二者之一。

换句话说，根据本发明的第一方面：

针对初始持续时间，对所显示的通信事件的图像(视频图像和/或化身图像)的总数施加了下限，以使得显示区域中的图像总数在初始持续时间的任何时间上不落到该下限之下；

针对随后的持续时间，尤其是对所显示的视频图像(即，尤其是从视频流导出的图像，与化身图像不同)的数量施加了上限，以使得视频图像的数量在任何时候都不超过该上限(尽管除此之外可以在该显示区域中显示任何数量的化身图像)。

优选地，针对随后的持续时间所确定的最大数量小于针对初始持续时间所确定的最小数量。

例如，在下文所描述的实施例中，针对初始持续时间(后期加入阶段)，该通信事件的不小于3个图像在该持续时间被显示，并且这些图像可以是视频图像、化身图像、或两者的组合；针对随后的持续时间(跟随动作阶段)，最多两个视频图像在该持续时间在显示区域中被显示，加上在其顶部的任何数量的化身。

新的参与者的用户设备的显示器具有完全可用的显示区域。上文提及的该显示区域可以是整个显示区域的全部、或仅一部分。在任何事件中，显示区域对于初始和随后的持续时间是相同的。

在本发明的实施例中，可以在中继节点处而不是新的参与者的用户设备处实现上述步骤。例如，控制步骤可以通过以下方式实现：在第一和第二个控制步骤中，经由网络从中继节点向新的参与者的用户设备发送分别显示通信事件的至少两个和至少一个图像(且仅这些视频流)所需的视频流中的任何一个。

例如，中继节点可以是中继服务器，或者其可以是由现有参与者之一操作的用户设备。

可替代地，上述步骤可以通过新的参与者的用户设备来实现。

在随后的持续时间中显示的至少一个图像可以是从视频流之一中导出的至少一个参与者的通话视频图像。例如，通话视频图像可以是参与者中主动发言的一个参与者的视频图像并且基于相关联的语音数据针对随后的持续时间而被选择。

可替代地或另外地，至少一个图像可以是基于其视觉内容针对随后的持续时间而被选择的视频图像。

在初始持续时间上，可以在用户设备处在所述显示区域中显示从视频流中的每个视频流导出的视频图像。

在该初始持续时间期间在所述显示区域中显示的图像中的至少一个图像可以是从此时非主动发言的参与者的视频流之一中导出的通话视频图像。

上述步骤可以还包括确定要在初始持续时间被显示的该通信事件的图像的最大数量，其中，在第一控制步骤中控制新的参与者的用户设备，以使得由该用户设备在所述显示区域中显示的通信事件的图像数量在初始持续时间的所有时间上保持在所确定的最小和最大数量之间。

可以在初始持续时间期间的不同时间上显示该通信事件的不同图像。

上述步骤可以包括确定要在随后的持续时间被显示的该通信事件的图像的最小数量，其中，在第二控制步骤中控制该新的参与者的用户设备，以使得在所述显示区域中显示的该通信事件的图像的总数在随后的持续时间的所有时间上不小于针对随后的持续时间所确定的最小数量。

可以通过以下方式来确定针对初始持续时间的最小数量：针对所述显示区域来选择具有该数量的显示区域的一组预先确定的显示布局之一。

整个随后的持续时间中所述参与者的数量可以保持至少与整个初始持续时间中的一样大。

当新的参与者加入时，由现有参与者中的至少一个参与者操作的用户设备可以不发送视频流(仅音频参与者)，其中，表示另外的参与者的化身图像在初始持续时间的至少一部分在新的参与者的用户设备处在所述显示区域中被显示，其不再随后的持续时间期间的任何时间上在所述显示区域中被显示(虽然如果所述显示区域小于整个显示区域，则其可以在可用显示区域之外被显示或不显示)。可替代地，其可以在随后的持续时间中被显示，以使得与初始持续时间相比，在随后的持续时间中占据了显示区域的更小部分。

视频流中的至少一个视频流可以携带模态指示符，并且该方法包括检测该流中的模态指示符。从该视频流导出的视频图像可以在初始持续时间的至少一部分在新的参与者的用户设备处在所述显示区域中被显示。对模态指示符的检测可以防止从视频流导出的任何视频图像在随后的持续时间期间的任何时间上在新的参与者的用户设备处在所述显示区域中被显示 (尽管如果所述显示区域小于整个显示区域，则其可以在可用显示区域之外被显示或不显示)。

在初始持续时间中显示的通信事件的至少一个图像可以是表示参与者之一的第一化身图像，在随后的持续时间中显示的通信事件的至少一个图像可以是表示同一参与者的第二化身图像，其中，与第一化身图像相比，第二化身图像占据了该显示区域的更小部分。即，与在随后的持续时间中相比，在初始持续时间中，对该参与者的化身表示可以更加突出。

本发明的第五方面针对一种用于管理建立的通信事件的网络节点，所述建立的通信事件是通过经由由这些现有的参与者操作的用户设备之间的通信网络发送和接收视频流而在多个现有参与者之间进行的，该网络节点包括：输入端，其被配置为接收关于新的参与者加入所述建立的通信事件的通知；控制器，其被配置成针对显示区域来确定(i)要在通信事件的初始持续时间向新的参与者显示的该通信事件的图像的最小数量，以及(ii) 要在该通信事件的随后的持续时间向新的参与者显示的视频图像的最大数量；以及流选择器，其被配置为基于所确定的最小数量：(i)控制新的参与者可用的用户设备的显示器在该通信事件的初始持续时间在该显示器的显示区域中显示该通信事件的至少两个图像，这些图像中的每个图像是从视频流之一中导出的视频图像或者是标识参与者之一的化身图像，以使得在该用户设备处在所述显示区域中显示的通信事件的图像总数不小于在初始持续时间期间的全部时间上针对初始持续时间所确定的最小数量，以及(ii) 基于所确定的最大数量，控制新的参与者的用户设备的显示器在该通信事件的随后的持续时间在该显示器的所述显示区域中显示该通信事件的至少一个图像，该图像是从视频流之一中导出的视频图像或表示参与者之一的化身图像，以使得在该用户设备处在所述显示区域中显示该通信事件的视频图像的总数量不超过在随后的持续时间期间在全部时间上针对该随后的持续时间和该显示区域所确定的最大数量。

例如，该网络节点可以是中继节点或用户设备。

在实施例中，该网络节点可以被配置为实现在本文中所公开的方法步骤中的任何一个。

针对初始持续时间，至少一个可选择的用户界面元素可以被显示在所述显示区域之外，其可以在随后的持续时间中被显示在所述显示区域之内 (例如，在通过减少所显示的视频图像的数量可获得的所提供的可用显示区域的一部分中)。

所述显示区域可以是显示器的整个可用显示区域。可替代地，其可以仅仅是整个可用显示区域的一部分。

为了提供在本申请中被称为“阶段式内容”视图的视图，在其中所选择的视频流的所述显示区域可以仅仅是整个可用显示区域的一部分。通信事件的共享内容视频图像(在参与者自身的用户设备上本地产生的、或从另一参与者的另一视频流导出的)为了占据整个显示区域的另一更大的部分(即，具有更大的面积)。

在其设备本地生成的新的参与者的自身视频图像也可以在显示器上在显示所选择的视频流的所述显示区域之外被显示。

要注意的是，在本上下文中，“通知”指的是向实现该方法的控制实体通知新的参与者的信号，例如系统通知，其与向参与者之一显示的视觉通知不同。然而，在一些实施例中，新的参与者的视觉通知也可以在现有参与者的用户设备处被显示。

本发明的另一方面针对一种计算机程序产品，该计算机程序产品包括在计算机可读存储介质上存储的代码，并且当其被执行时被配置为实现在本文中所公开的任何功能。例如，计算机可读存储介质可以由一个或多个电子存储设备形成(例如，电子的、磁性和/或光学存储器)，如与信号承载介质不同。

用户或系统标记的活动还可以针对后期加入优先级而被引用。高活动内容共享活动可以触发针对后期加入网格视图填充的优先级以跟随该行动和出席者关于加入的感知。

本发明的第六方面针对一种管理建立的通信事件的方法，所述建立的通信事件是通过经由由现有的参与者操作的用户设备之间的通信网络来发送和接收视频流而在多个现有参与者之间进行的，该方法包括以下步骤：接收加入所选择的通信事件的新的参与者的通知；确定要在通信事件的初始持续时间向新的参与者显示的该通信事件的视频图像的最小数量；以及基于该确定步骤：

控制新的参与者可用的用户设备的显示器以在该通信事件的初始持续时间在该显示器的显示区域中显示从至少两个视频流导出的至少两个视频图像，其使得在该用户设备处在所述显示区域中显示的该通信事件的视频图像的总数量不小于在初始持续时间期间的全部时间上针对该初始持续时间确定的最小数量，以及

控制新的参与者的用户设备的显示器以在显示器的所述显示区域中显示从视频流中的至少一个视频流导出的至少一个视频图像，其使得在该用户设备处在所述显示区域中显示的该通信事件的视频图像的总数小于针对在随后的持续时间期间的全部时间上针对初始持续时间所确定的最小数量。

附图说明

为了更好地理解本发明，并且为了示出本发明的实施例可以如何实行，对以下的附图进行参考，其中：

图1示出了通信系统的示意性框图；

图2示出了中继节点的功能框图；

图3示出了一组可选择的预先确定的通话视频布局；

图4A到4D示出了在不同的通话视频显示模式下操作的客户端的图形用户界面(GUI)的各种图示；以及

图5示出了包括对后期加入者的视觉通知的客户端GUI；

图6A示出了客户端GUI的第一示例；

图6B示出了客户端GUI的第二示例；

图7A和7B示出了阶段式内容客户端GUI，其分别在后期加入和跟随动作模式下操作。

具体实施方式

在经由通信网络在用户(参与者)之间进行的通信事件(例如，视频通话)中，可能不期望向给定的参与者一直显示其他参与者的通信事件的所有视频图像。

在下文描述的示例中，视频图像是通话视频图像，即参与者自身的视频图像。然而，如所记载的，本发明不限于此以及以下所有相关描述，其关于与其他类型的视频图像等同地应用的任何通话视频图像，例如共享的内容。

例如，在仅有一些用户是活动的情况下，即在做视频会议中的其他用户有兴趣的一些事情时，和/或如果在该通话中存在非常大量的用户。例如，在该通话期间的给定的时间处可能仅一个或两个用户是主动发言、反应、或做事的用户。例如，单个发言的参与者可以在特定的时间领导该通话，或者参与者中的两个参与者可以在特定的时间加入到该对话中(而其他人仅仅在听)。

为了在这样的环境下提供更有吸引力的用户体验，智能地限制向给定的参与者或有限数量的参与者显示的视频图像的数量可以是有益的，以便基于在通话期间由参与者展示的活动而将参与者的注意力聚焦在“当前的动作”(即，当前对通信事件贡献最多的这些参与者)上。

基于参与者活动对有限数量的视频流的该智能的选择和显示在本文中被称为“跟随动作讲故事”，并随着通信事件继续进行，利用分组活动和分组响应来引导进行消费的参与者。在下文描述的示例中，当针对给定的用户选择了跟随动作模式时，向该用户显示的视频图像的数量被限制为一个或多个，其以下文所描述的方式智能地进行选择。这进而为每个参与者提供了在本申请中被称为“故事化体验视图”的视图，其经由更吸引人并且生活般的会面体验而利用视频和讲故事的力量将会议体验(即，视频会话) 转换成超越主动发言。

可以针对参与者中的每个参与者来独立地选择视频流中的一组一个或多个视频流，以便向该参与者提供对其定制的唯一的故事化体验。例如，针对当前正在发言的参与者的视频流可以与针对不在发言的参与者所选择的视频流是不同的。

例如，可以基于相关联的音频数据来选择在跟随动作讲故事中要显示的视频流，以便识别并显示当前在发言、反应、或做事的参与者的视频流。

在一些实施例中，当实现跟随动作讲故事时，这可能是仅有的考虑。然而，在其他实施例中，在选择要在跟随动作模式下显示的视频流时可以给予权重其他的因数。例如，用户可以对与其他用户中的一个或多个相关联的非语言事件感兴趣。这可以包括以下事件，例如检测到在从特定用户设备接收的视频图像中存在的用户数量的改变。除了或替代与语音事件相关联的视频图像，可以期望向用户显示该类事件。即，用于显示的通话视频图像可以基于其视觉内容、或各种活动检测以及或代替与这些图像相关联的任何语音数据而被选择。在这样做时，用户可以以类似故事的方式观看视频通话中其他用户的活动(其是言语的或非言语的)。可以期望显示针对非言语事件的有限时间间隔；例如，以确保用户的焦点不从进行发言的用户上离开太久。

可以触发对视频流的选择的非言语事件的另一示例是其他用户中的一个或多个的脸部表情的改变，这可以作为用户之一对进行发言的用户的语言进行反应的结果而发生。当它们发生时，期望显示这些反应中的一个或多个，以便使得用户能够以类似故事的方式来观看视频通话中其他用户的活动。同样地，也可以显示这些反应达有限的时间间隔；例如，以确保用户的焦点不从进行发言的用户上离开太久。

在本申请人的共同未决的美国专利申请号15/048800和15/048750中描述了基于非言语线索的跟随动作讲故事的示例，其两者通过引用以其整体被并入到本文中。

跟随动作讲故事存在另外的优点。不但提供了改进的用户体验，跟随动作讲故事还确保了用户设备不将显示资源分配至未添加到视频通话的用户体验的视频数据，这特别地但不是排他地适用于有限可用的总显示区域内的手机、平板计算机或某些膝上型设备。此外，在本发明的优选实施例中，携带视频图像的视频流被发送至中央中继节点，例如，中继服务器或者参与者中主持视频通话的一个参与者的用户设备。中继节点选择要向每个参与者显示的流中的一个或多个流，并且仅向该参与者发送这些流(其中，中继节点是用户设备，可以在该用户设备本地处生成有资格选择的至少一个流)。即，仅有所需要数量的视频流被发送给每个参与者。这节约了带宽且同时改进了用户体验。

然而，本发明的发明人已经认识到尽管在许多环境下跟随动作讲故事可以为用户提供非常吸引人的体验——通过聚焦在当前动作而无论其在哪里——但还存在其中可替换的用户体验可能实际上更吸引人的某些环境。特别地，他已经认识到后期加入视频通话的参与者(后期加入者)，即，当多个参与者已经加入且已经进行了一些时间的会议时，可能不能一开始从跟随动作讲故事中完全受益。

所描述的本发明的实施例在后期加入者的用户设备处(在其加入后开始的初始持续时间(开始阶段)内)向其提供在本文中被称为开始故事化阶段体验的体验，这对后期加入者而言是独特的。

对远程参与者“后期加入”状态的检测发起了该开始故事化阶段体验，其中，对当前参与者多模态体验的开始阶段多网格引入被提供在他的用户设备处，以便增加后期加入者对出席者、位置、和当前活动的感知。在初始持续时间到期之后，他的用户设备切换到跟随动作故事视图阶段，以使他的体验与现有参与者的体验一致。

换句话说，当最近参与者首次加入视频通话时，针对该参与者在初始持续时间内选择后期加入模式(引入模式)。在后期加入模式下，焦点在于向后期加入者提供对通话的当前状态完整和全面的概述。例如，可以向用户显示所有(或大部分)参与者的视频图像，即使是当前未参与该动作的不活动的参与者，即当前不是主动发言者的人和没有用非言语线索驱动该通话的人。这通过给所有人视觉概览以及通话中当前进行的活动来改进活动和人的参与度/感知。另外，可以在该初始持续时间对表示不能够提供视频流的任何参与者的化身(avatar)进行显示，例如，因为其用户设备缺少必需的能力，这是因为他们在受限的网络条件下操作，这是将后期加入者拉入通话的有效方式。

在初始持续时间之后，针对后期加入者选择跟随动作模式(聚焦的参与模式)，以使得针对随后的持续时间而智能地选择并向其显示有限数量的视频图像，以使其体验与现有参与者一致。因此，允许后期加入者(其现在活动和分组感知的)以等同的参与跟随动作行为感知等级来参与分组活动。

初始持续时间(即，后期加入阶段)可以是若干秒(至少两秒，并且有可能更多——例如，五到十秒)。在实践中，随后的持续时间(即，跟随动作阶段)通常将持续更长，例如至少一分钟。

图1示出了通信系统100，其包括网络2，其中，中继服务器102和多个用户设备6.1、…、6.M+1(总共M+1)连接到该网络。用户设备和服务器是网络2的节点。用户设备6.m中的每个(其中m表示第m个用户设备) 是由相应的用户4.m操作的。

用户4.1、…、4.M+1是经由网络进行的视频通话中的参与者。用户 M+1是在作为此时通话的现有参与者的用户4.1、…、4.M之后加入了通话的后期加入者。

用户设备6.m中的每个具有至少一个图像捕获设备7.m(相机)，以在捕获视频通话的视频流中从用户设备6.m向网络2发送的用户4.m的视频图像时使用。

用户设备6.m中的每个包括通信客户端的实例在其上执行的处理器 5.m，例如CPU或多个CPU(例如，在多核处理器中)。通信客户端在网络 2上建立必需的连接，以允许用户使用用户设备参与视频通话。

每个用户设备6.m上的通信客户端生成至少一个视频流以用于作为视频通话的一部分经由网络2传输。视频流通过将视频编码应用至由相机7.m 所捕获的视频数据来携带使用用户设备6.m的至少一个相机7.m所生成的运动图像。

网络2是基于分组的通信网络，例如互联网。

用户4.1、…4.M+1是通信系统100的用户。通信系统100可以具有在图1中未示出的其他(可能有很多)用户。尽管在图1中，每个用户设备是由一个用户操作的，但在一些情况下，所述用户设备中的至少一个可以由多个用户来操作。即，多个用户可以使用同一个用户设备来参与视频通话，例如，该用户设备可以是视频会议设备。此外，不是通话中的每个用户都需要具有相机——即，可以有操作另外的用户设备且参与视频通话的另外的用户，即使他们的用户设备没有相机，或由于一些其他原因缺少提供视频通话流的能力，例如，因为他们具有受限的可用网络带宽。

此外，尽管每个用户设备6.m被示出为具有一个图像捕获设备7.m，但用户设备6.m中的一个或多个可以具有允许多个视频流从该设备被生成和发送的一个或多个另外的相机设备。例如，另外的相机设备提供了从其捕获用户的视频图像可替代的角度或视角(例如，广角)。此外，所述用户设备中的至少一个可以使用同一相机来生成多个视频流。例如，单个相机可以生成多个视频流，其中每个视频流是从利用单个相机捕获的高分辨率主视频图像的不同区域导出的。

在任何事件中，N个视频流是由具有视频流能力的M个用户设备生成的。在最简单的情况下，N＝M(每个具有视频能力的用户设备一个视频流)，但是如在其他情况下记载的，N>M(多个流由至少一个用户设备从相同的或不同的相机生成)。在下文中，N个视频流被表示为s1、…、sN。在该示例中，存在M个参与者(每个设备一个)，然而在其他情况下，可以存在比用户设备更多的参与者(当多个用户使用至少一个设备时)，或者甚至比用户设备更少的参与者(其中，一个参与者使用多个设备)。M可以是用户设备的总数量，或者在通话中可以存在缺少这样的视频流能力的至少一个另外的用户。

在以下示例中，流N的数量是至少4个，并且对具有许多参与者的视频通话而言可能远高于4。

在所描述的示例中，视频流被发送至中继节点，所述中继节点可以是中继服务器102。可替代地，其可以是用户设备6.1、…6.M中的一个，例如，主持视频通话的参与者的用户设备，在一些实现中，所述参与者自动是发起视频通话的参与者。

图2示出了媒体中继系统200的功能框图，其表示有实际的节点失效的功能。

在中继节点是服务器102的情况下，该功能可以由在中继服务器120 的至少一个处理器105上执行的服务器代码来实现。即，在一个处理器上执行，或者其执行跨多个处理器分布的服务器代码。多个处理器可以是一个计算机设备或者可以在空间上共置或不共置的多个计算机设备的一部分。例如，中继服务器102可以在云计算环境中被实现，其中，其功能是由一个或多个虚拟设备实现的，其进而在一个或多个物理计算机设备上运行，一个或多个物理计算机设备可以在有多个计算机设备的相同或不同的数据中心中。

在中继节点是用户设备中的一个自身的情况下，媒体中继系统300的功能是在用户设备的处理器上执行的通信客户端的功能的一部分。

每次新的参与者加入该通话时，在中继节点处接收到对新的参与者的通知。例如，这可以通过在中继节点处检测到最初接收到来自新的参与者的至少一个视频流来触发。

媒体中继系统300从M个设备6.1、…、6.M接收N个视频流s1、…、sN。当中继节点是服务器102时，这些全部经由网络2从用户设备6.1、…、 6.M接收。当中继节点是用户设备中的一个时，可以在用户设备本地生成这些流中的至少一个流，并且其余的经由网络2从剩余的用户设备接收。

系统200被示出为包括表示系统功能的不同部件的功能模块，即操作为流选择器202的控制器的流选择器202和模式选择器204。流选择器202 的框﹟1到﹟M(总共M个)表示针对用户设备6.1、…6.M的个体的流选择功能。即，个体地针对用户设备中的每个来选择一组一个或多个流s1、…、sN，其中S.m表示针对由用户4.m操作的设备6.m所选择的所述一组流。这允许向每个参与者提供针对其定制的独特的体验。

模式选择器204根据其用户4.m加入视频通话的时间来为用户设备6.m 中的每个选择模式。在该示例中，系统300是在针对现有参与者4.1、…4.M 中的每个选择跟随动作模式时被示出的，而后期加入模式是针对最近已经加入通话的后期加入者4.M+1选择的。

后期加入者4.M+1可以由模式选择器204基于他加入该通信事件的时间而被标识成这样。例如，基于通信事件经过的时间，加入时间(即，其已经进行多长时间了)、此时现有参与者M的数量(即，在他之前多少人已经加入了)、某一其他后期加入条件、或其任何组合。

用户设备6.m被配置成显示用户界面(500——参见下文)，其被控制为以针对设备6.m选择的模式来操作。

针对现有参与者4.1、…4.M中的每个，对跟随动作模式的选择使得根据上文设置的跟随动作原则分别通过框﹟1、…、﹟M在一个或两个流之间选择以向该用户显示。另外，显示数据D.1、…、D.M由该框生成，其是以用于以下文描述的方式在相关的用户设备处显示由这些所选择的流携带的视频图像的布局。

对于后期加入者4.M+1，保持针对其加入之后的初始持续时间而选择后期加入模式。对后期加入模式的选择使得在给定的时间针对该用户选择更大数量的流(在三和四之间)，同时该模式保持被选择。也生成定义了用于显示所选择的流S.M+1的布局的显示数据D.M+1。

每个参与者自己的视频流不通过网络2发送回自己，因此有资格选择用于后期加入者4.M+1的视频流的总数量是小于后期加入者自己的视频流 (如有的话——如所记载的，不是每个参与者都需要具有视频捕获能力) 的总数的N。例如，如果多个流中的一个是后期加入者的，则有N-1个流有资格选择用于向后期加入者显示。

尽管没有资格以该方式选择，但是后期加入者自己的通话视频的自身视频图像可以在他的设备上在本地显示，例如以传统的方式在显示区域的角落中。这同样适用于其他参与者。用户自己的视频的“我”视频(即，自身形象)在被用户“固定”或被约束至移动设备上的网格时在该网格中被显示。

对于每个参与者4.m，针对该参与者选择的所述一组S.m经由网络2 与显示数据D.m一起被发送至参与者的用户设备6.m。其一个例外是当中继节点是用户设备之一时，在该情况下，针对该用户设备选择的流替代地在本地被输出而不需要经由网络2被发送。

所选择的流S.m根据在图3中示出的四个预先确定的布局402(一个流)、404(两个流)、406(三个流)以及408(四个流)之一而在用户设备 6.m上被显示。

布局402仅具有用于一次只显示一个通话视频图像的一个显示区域，其占据了用户设备6.m的显示器的全部通话视频显示区域。通话视频区域可以是显示器的整个可用显示区域、或者是可用显示区域的当前预留用于通话视频(或更一般地，通信事件的视频)的一部分。

布局404具有用于一次(即，同时)显示两个通话视频图像的两个显示区域，以使得每个显示区域占据通话视频显示区域的一半。在该示例中，它们被并排显示，但是可替代地，一个可以被显示在另一个之上。

布局406具有用于一次显示三个通话视频图像的三个显示区域，以使得通话视频图像之一与另外两个图像中的每个相比占据通话视频显示区域的更大部分。即，与另外两个相比，通话视频图像中的一个被显示在更大的显示区域中。另外两个图像中的每个占据了剩余通话视频显示区域的一半。

布局408具有用于一次以二乘二的网格布局显示四个通话视频图像的四个显示区域，其中每个显示区域占据通话视频显示区域的四分之一。

布局406和408(三个和四个流)仅用于后期加入模式，然而布局402 和404(一个和两个流)仅用于跟随动作模式。

图4A-4D示出了客户端应用的图形用户界面500的一部分，其在用户设备6.m的显示器的显示区域502中被渲染，以便在显示区域502内根据所接收的显示数据D.m来显示所选择的流S.m。在图4A-4D的每个中，用户界面500被示出为在四个通话视频布局模式的不同模式下操作，其中分别由用户界面向布局402、404、406和408进行渲染。

将在时间t同时显示的通话视频图像的数量表示为Q(t)，可以看到：

在选择布局402的任何时间t，Q(t)＝1(如在图4D中)；

在选择布局404的任何时间t，Q(t)＝2(如在图4C中)；

在选择布局406的任何时间t，Q(t)＝3(如在图4B中)；

在选择布局408的任何时间t，Q(t)＝4(如在图4A中)。

例如，当在持续阶段视图模式下操作时，“阶段”中的内容加上四个活动视频位置和我(即，参与者的自身形象)也是我们设计的核心视图。即，通话视频显示区域中的(多至)4个通话视频图像、自身视频图像和(共享的)内容视频图像(在通话视频显示区域之外)同时被显示——在图7A和 7B示出了一示例，并且在下文中进一步描述。

当操作在人/内容切换模式下时，可以在阶段中示出多至4个网格视频，同时可以在底端行利用我和被动参与者示出现场内容。因此这也是将内容示出为参与者的被动方式。

如上文所记载的，本发明的实施例可以提供被称为内容即参与者体验的体验，其中根据用户或系统指定的重要性，一个或多个活动的内容视图可以填充可用网格视图中的一个或多个。例如，如果在共享文档中检测到当前的活动或者如果共享的桌面在网格视图中是活动的，则后期加入的副视图可以像个人视频流那样填充这样的活动。

通过对于后期加入者4.M+1仅针对初始持续时间(其中，后期加入模式被选择)选择布局406和408，由此针对该持续时间选择了通话视频图像的最小和最大数量，其分别是3和4。因为针对初始持续时间仅使用了这些布局，所以同时显示的通话视频图像的总数在初始持续时间期间的所有时间上都保持在包含性的3和4之间。然而，在其他实现中，这可以放松，并且所有四个布局都可以有资格在后期加入模式下选择。

同样地，通过对于后期加入者4.M+1仅针对随后的持续时间选择布局 402和404，针对该持续时间选择了通话视频图像的最小和最大数量，其分别是1和2。因为针对随后的持续时间仅使用了这些布局，所以同时显示的通话视频图像的总数在随后的持续时间期间的所有时间上都保持在包含性的1和2之间。当针对现有的参与者4.1、…、4.M选择了跟随动作模式时，这同样适用。

针对参与者4.m的通话视频布局模式是由显示数据D.m设置的，其例如可以指定所选择的布局并且还可以指定在一组S.m中的视频流中的哪些视频流应当在该布局中的哪些区域中被显示。

在初始持续时间的过程中，根据三和四视频布局406和408，可以总共 (但是在任何一个时间不超过四个)显示N个流中的超过4个加上内容(在适用的情况下，例如，在持续阶段视图中)。例如，在初始持续时间的第一部分期间，可以由流选择器框﹟M+1针对后期加入者选择四视频布局，并且循环通过其他参与者的各种视频流。一旦已经向用户显示了这些中的所有或大部分，模式选择器框﹟M+1就可以针对初始持续时间的最后部分而切换至三视频布局，从而提供到跟随动作模式的无缝转换。在转换到跟随动作模式之后，流选择器框﹟M+1转换到两个或一个视频流，它们是分别根据二和一视频布局404和402显示的。

没有提供视频流的任何参与者仍然可以在后期加入模式下被表示，例如，作为与视频流同时被显示的化身。在一些情况下，这些化身仅针对后期加入模式被显示，以提供包括没有视频的那些参与者在内的所有参与者的初始概览，但是不在跟随动作模式下被显示，因为从长远来看它们可能分散注意力。

还要注意的是，在一些情况下，至少一些视频流不能是使用相机生成的。例如，视频流中的至少一个可以实现另一视频模态，例如屏幕共享、文档共享、或共享白板或记事本。在后期加入模式下，它们可以以与视频流相同的方式被显示。在跟随动作模式下，仅在其当前是动作的一部分的情况下对其进行显示，例如两视频布局可以用于与正在其上给出演示的参与者之一的视频同时示出共享的屏幕或文档。为了对此实现，每个视频流还可以携带模态指示符，其用于选择流S.m以根据流选择器202的框﹟m 的当前模式来显示。

在初始持续时间期间，对更大数量的视频流的显示可能需要更多带宽，因为需要从中继节点向新的参与者的用户设备6.M+1发送更多的视频流 (如与跟随动作讲故事相比)。然而，该额外的带宽只需要其将新的参与者 4.N+1沉浸到该视频通话中所花费的时间，在该时间点处，可以通过切换到跟随动作模式来节省带宽，从而减少了向其发送的视频流的数量而不影响其用户体验。该切换响应于初始持续时间的到期而自动发生。这可以是预先确定的持续时间或者是根据通信事件动态确定的。在任何事件中，切换基于持续时间定时器而自动发生。

如在图5中所示出的，针对在跟随动作模式下的现有参与者4.1、…4.N，新的加入者的视觉通知504在用户界面500上被简要显示。这使得他们保持接收新的加入者的通知，而不被过度分散注意力。

例如，该视觉通知504可以包括用他的相机捕获的新的加入者的化身或图像。

图6A更加详细地示出了客户端GUI的第一示例。如在图6A中可以看见的，所选择的视频流在其中被显示的显示区域502仅仅是显示区域的一部分。在该部分502之外，显示客户端GUI的另一部分，其包括用户4.m 的设备6.m的自身视频图像506、经共享的内容视频图像508(其中，例如，用户4.m可以在共享他自己)、表示其他通话参与者的化身501。在该示例中，针对该通话的功能按钮512也被显示在显示区域502内。即，可以选择GUI单元以发起与通信事件有关的特定功能，例如终止该通话、使用户设备6.m的麦克风静音或取消静音、启用或禁用用户设备6.m的图像捕获设备(以便发起或终止视频流向其他参与者的传输)、和/或启用或显示来自用户设备6.m的屏幕共享。

要注意的是，除了或者可替代于在显示区域502之外的化身501，可以在后期加入阶段的至少一部分在区域502内显示至少一个化身，而不是显示从视频流中的一个中导出的视频图像。在该情况下，由所选择的布局来指示显示区域502内的图像的总数(即，化身加上视频图像)。

图6B示出了客户端GUI的第二示例，其与图6A中的GUI相同，除了所选择的视频流在其中被显示的显示区域502不是矩形以便适应在GUI 一个角落处的自身视频图像506和共享的内容508的事实之外。化身510 不在该示例中被显示。

图7A和7B示出了当分别在后期加入模式和跟随动作模式下操作时，客户端GUI500的可替代的“阶段化内容”配置。在该示例中，经共享的内容508占据了“中间阶段”，即显示在总的可用显示区域的较大部分中，这在该内容是会议焦点的情况下是合适的。显示区域502是总的可用显示区域的较小部分，在经共享的内容下方。在后期加入模式下(图7A)，四个通话视频图像被示出为在显示区域502中与化身一起被显示。功能按钮 512在显示区域502之外被显示，在经共享的内容508在其中被显示的总的显示区域的较大部分中内，以使得所述功能按钮覆盖在所显示的内容508 上。自身视频图像506也在显示区域502之外被显示，朝向GUI 500的一个角落。相比之下，在跟随动作模式下(图7B)，仅一个通话视频图像被示出为在同样的显示区域502内被显示，而化身不被显示。这释放了显示区域502内的空间，其通过移动功能按钮512以使得它们现在显示在显示区域502内而被利用。自身的图像506和内容508在显示器上的相同位置处被显示。

在图7A和7B中分别标记了显示区域502的子区域(分区)502A-B 和502C-D，并且如下文所述，GUI 500的视觉信息在这些子区域内被显示。

图7A：

502C：主导活动视频位置1-4(即，502C中的四个视频位置，其每个占据其相同的部分)，其针对主导活动或主导发言而从右向左填充。一旦被填充，分区502D(见下文)中的被动参与者可以经由活动持续时间定时器检测、通过将该参与者与当前在502C中的最不重要的活动阶段位置参与者 (其进而被降级到被动分区502D)交换而被提升到502C的活动阶段位置中。即，在502C中取代被降级的参与者来显示所提升的参与者的通话视频图像，并在502D中显示被降级的参与者的化身。参与者可以是仅视频或音频的化身表示。

502D：被动活动网格：用于被动参与者化身表示给出对会议大小的感知或者示出预提升活动表示(在提升到主导活动视图之前的主动发言)的区域。在大型会议体验中从右到左且有溢出地进行填充。针对以下项示出了对转换活动的表示：加入/离开、站/坐、发言、表情、属性状态等。

图7B：

502A：主导活动视频位置：在用于跟随动作主导活动和/或主导发言时一次提升一个视频。参与者可以是仅视频或音频的化身表示。

502B：被动活动网格。用于被动参与者化身表示给出对会议大小的感知或者示出预提升活动表示(在提升到主导活动视图之前的主动发言)的区域。在大型会议体验中从右到左且有溢出地进行填充。针对以下项示出了对转换活动的表示：加入/离开、站/坐、发言、表情、属性状态等。如果被动参与者占据网格区域502B，则通话控件512在用户对状态进行控制期间水平地隆起(bump)在较低的内容网格上方。换句话说，尽管没有在图 7B中被示出，但是化身图像可以在区域502B中被显示；然而，区域502 中的视频图像的数量被限制为(在该情况下)一。

要注意的是，在被动区域502B/502D中显示的每个化身图像占据在活动区域502A/502C中显示的任何化身图像的显示区域的较小部分。

例如，经共享的内容508可以是屏幕共享视频图像，或者经共享的文档视频图像。

以上制度的一个结果在于，与初始持续时间期间的任何时间相比，在随后的持续时间期间的任何一个时间上由新的参与者的用户设备6.M+1显示较少的通话视频图像。换句话说，采用上文定义的Q(t)记号：

Q(t1)≥Q(t2)+1

针对初始持续时间中的每一单个时间t1和随后的持续时间的每一单个时间t2，其中“≥”严格表示大于或等于。即使当视频通话至少具有与针对初始持续时间一样多的参与者时这也成立，所述参与者的用户设备在整个随后的持续时间内的确具有视频捕获能力。即，表示通信事件中其设备在时间t处具有视频流能力P(t)的参与者的数量——即使当：

P(t1)≤P(t1)

针对初始持续时间中的每一单个时间t1和随后的持续时间中的每一单个时间t2。换句话说，向后期加入者显示的通话视频图像的数量没有降低，这是因为操作具有视频流生成能力的用户设备的参与者的数量在降低，但是与此独立地作为有目的的选择而降低的。例如，在后期加入者加入时作为参与者的所有现有参与者可以在整个初始和随后的持续时间中都保持是参与者。

然而，如在其他实现中所记载的，可以放松对后期加入模式的约束，以允许在后期加入模式下选择所有四个布局——并且因此在要在网格视图中显示的一个和四个图像/化身之间。

例如，在后期加入模式下，可以存在在大部分时间中利用的默认网格视图，并且所有的阶段网格视图1-4可以都可用于后期加入体验，其是由人、分组或内容填充的。选择逻辑(模式选择器204)不被限制为仅该模式下的这些网格中的一个网格。

当被动化身行被创建并在与现场阶段视频、主导发言视频、或我视频紧挨着左边的底部行中从右到左被填充时，可以在大型会议事件中的最左边的位置中创建“溢出”位置。这允许具有比可用的位置更多的参与者的大型会议在下面最左边的被动位置中被表示为+2、+3、+4等…。随着对话展开，最活动的参与者经由活动点优先级堆叠填充在主动和被动的个体表示位置中。可以由个体、分组表示或视频来填充主动和被动位置。

要注意的是，尽管在上文中，流被发送至中继节点以供选择，但这不是必须的。例如，每个用户设备可以将其流直接发送给每个其他用户设备，并且每个用户设备可以执行其自身对要显示的所接收的流的子集的选择。尽管在一些上下文中，由于潜在较高的带宽要求(由于发送了将不被显示的流)而不是优选的，但在其他上下文中其仍然是可行的，并且具有不需要中继节点的优点。在所需的处理和带宽资源方面，施加在中继节点上的负担可能较高，特别是在接收大量流的情况下。

作为另一示例，用户设备6.m可以基于流订阅来控制其接收哪些流。即，通过从中继节点订阅期望的流。例如，用户设备6.m可以当其用户界面在主动发言者模式下操作时，通过向中继节点发送至少一个主动发言者订阅消息而订阅主动发言的参与者的视频流。在一些情况下，其可以仅在至少一些时间在该模式下订阅该视频流。用户设备不需要知道谁是主动发言者(其可以在中继节点处确定)；无论其可能是谁，其可以仅发送请求主动发言者的流的流订阅请求。如果主动发言者改变，则用户设备将自动接收新的主动发言者的视频流而无需改变其订阅。

在后期加入模式下，通过向中继节点发送至少一个流订阅消息，用户设备可以订阅所有(或一些)视频流，其中，客户端经由网络从中间节点接收所订阅的视频流。更加一般地，其可以发送对不是主动发言者的至少一个参与者的视频流进行请求的流订阅请求，并且在该参与者不是主动发言者时接收所订阅的视频流。

尽管已经参考具体的示例对上文进行了描述，但是其他的变型在本发明的精神和范围之内。该范围不由上文所描述的示例所限制，而仅由以下权利要求所限制。

Claims

1.一种对由建立的通信事件的新的参与者所操作的用户设备的用户界面进行控制的方法，所述建立的通信事件是通过经由由多个现有参与者操作的用户设备之间的通信网络来发送和接收视频流而在所述现有参与者之间进行的，所述方法包括以下步骤：

接收关于所述新的参与者加入所述建立的通信事件的通知；

如果确定满足所述后期加入条件，则：控制所述用户界面在初始持续时间在后期加入模式下操作，并且响应于所述初始持续时间到期，替代地控制所述用户界面以在主动发言者模式下操作；

其中，控制所述用户界面以在主动发言者模式下操作包括基于在所述参与者中主动发言的参与者的用户设备处生成的音频数据来为所述新的参与者选择：所述主动发言的参与者的视频流中的一个视频流、或者表示所述主动发言的参与者的化身图像，由此使得所述用户界面显示所选择的化身图像或者从所选择的流导出的视频图像。

2.根据权利要求1所述的方法，其中，控制所述用户界面以在后期加入模式下操作包括：独立于在所述用户设备处生成的任何音频数据来为所述新的参与者选择所述视频流中的一个或多个视频流和/或一个或多个化身图像，由此使得所述用户界面在所述初始持续时间的至少一部分显示所选择的化身图像或者从所选择的视频流导出的一个或多个视频图像。

3.根据权利要求1或2所述的方法，其中，不超过从所述视频流导出的最大数量的视频图像由所述用户界面在所述主动发言者模式下操作时的任何一个时间处被显示，并且超过所述最大数量的视频图像由在所述后期加入模式下操作的所述用户界面在所述初始持续时间期间被同时显示至少一次。

4.根据权利要求1所述的方法，其中，控制所述用户界面以在所述后期加入模式下操作包括：控制所述用户界面以在所述初始持续时间的过程中为所述现有参与者中的每一个现有参与者显示从所述视频流中的一个视频流导出的相应的视频图像、或者相应的化身图像。

5.根据权利要求1所述的方法，其中，所述后期加入条件是基于以下中的至少一个的：所述新的参与者的加入时间处的所述通信事件经过的时间，或者所述加入时间处的所述通信事件的现有参与者的数量。

6.根据权利要求1所述的方法，还包括以下步骤：如果确定不满足所述后期加入条件，则控制所述用户界面立即在所述主动发言者模式下操作。

7.根据权利要求1所述的方法，其中，所述步骤是在与所述新的参与者的用户设备不同的中继节点处被实现的。

8.根据权利要求7所述的方法，其中，所述控制步骤是通过以下方式实现的：经由所述网络从所述中继节点向所述新的参与者的用户设备发送在所述主动发言者模式下操作的所述用户界面要显示所述视频图像所需的所述视频流中的任何视频流。

9.根据权利要求7所述的方法，其中，所述中继节点是中继服务器，或者是由所述现有参与者中的一个现有参与者操作的所述用户设备。

10.根据权利要求1所述的方法，其中，所述步骤是由所述新的参与者的用户设备实现的。

11.根据权利要求10所述的方法，其中，当所述用户界面在所述主动发言者模式下操作时，所述用户设备订阅所述主动发言的参与者的所述视频流，其中，所述用户设备经由所述网络从中继节点接收所订阅的流。

12.根据权利要求11所述的方法，其中，在所述后期加入模式下，所述用户设备订阅非发言的参与者的视频流中的至少一个视频流，其中，所述用户设备经由所述网络从所述中继节点接收所订阅的视频流。

13.根据权利要求1所述的方法，其中，所述视频图像是：

通话视频图像，其是从所述主动发言的参与者的所述视频流中的一个视频流导出的，并且是基于所述主动发言者的音频数据而针对随后的持续时间选择的。

14.根据权利要求1所述的方法，其中，至少一个视频图像是由在所述后期加入模式下操作的所述用户界面在所述初始持续时间期间显示的，所述至少一个视频图像是此时没有主动发言的参与者的通话视频图像。

15.根据权利要求1所述的方法，其中，不同的视频或化身图像是由在所述后期加入模式下操作的所述用户界面在所述初始持续时间期间的不同的时间显示的。