CN111492638A

CN111492638A - 管理流式音频通信会话

Info

Publication number: CN111492638A
Application number: CN201880082738.3A
Authority: CN
Inventors: I·凯格尔; K·百利; M·里德; P·休斯
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2017-12-22
Filing date: 2018-12-21
Publication date: 2020-08-04
Anticipated expiration: 2038-12-21
Also published as: US11363083B2; US20200329084A1; EP3729770B1; EP3729770A1; CN111492638B; WO2019122343A1

Abstract

公开了用于管理用户设备(50)之间的流式音频通信会话的方法和装置，用户设备被配置为经由通信网络向一个或更多个其他用户设备(50)发送指示从多参与者音频通信会话中的相应参与者接收的音频贡献的流式数据，以转换为所述接收到的音频贡献的音频表示以用于其他参与者。方法包括监测来自相应参与者的音频贡献，并且响应于从中检测到第一参与者在沉默时段之后正在开始在所述用户设备中的第一用户设备(50a)处进行音频贡献，为所述其他用户设备(50b、50c、50d)中的至少一个提供指示第一参与者正在开始进行音频贡献的信号；并响应于在所述至少一个其他用户设备(50b、50c、50d)接收到该信号，触发针对所述至少一个其他用户设备(50b、50c、50d)处的参与者的关于第一参与者开始进行音频贡献的预定可听指示。

Description

管理流式音频通信会话

技术领域

本发明涉及参与者之间的流式音频通信，具体地涉及用于管理使用用户设备或用户终端(诸如电话或具有音频(以及可能视频)输入和输出模块的计算装置)的在两个或更多个参与者之间的数字流式音频通信会话(诸如音频呼叫和音频会议)的方法、设备和系统。

背景技术

对话分析(CA)是语言学的一个分支，其研究人类交互的方式。由于本发明基于对话中参与者之间的交互的理解，以及交互的质量是如何因传输延迟而降低的，因此我们首先指出来自对话分析的一些知识。

在自由对话中，关于谁何时发言而言的谈话组织被称为“轮流”。这是由对话中大量的语言暗示和诸如肢体动作和眼神接触等非语言暗示来暗含地达成的。这种行为在对话分析学科中得到了深入研究，并引出了一些有用的概念，如：

-话轮结构单元(TCU)，其为对话中最基本的部分，实质上是构成整个“话轮”的一段发言。

-转换关联位置(TRP)，其指示讲话者之间可以在什么时候进行话轮或说话权力交换。TCU由TRP分开。

这使得所谓的基本轮流处理得以发生，图1示出了简化示例，稍后将更详细地讨论。简单地说，在这个示例中，随着TCU结束，下一说话者基本上是由下一开始说话的参与者决定的。说话者的改变发生在TCU，虽然如果没有其他参与者开始谈话，最初的说话者可以在TCU之后继续。人们观察到这一决策处理一般导致下列会议特点：

(i)绝大多数情况下，每次只有一名参与者发言。

(ii)每次有超过一名说话者出现是常见的，但是是短暂的。

(iii)从一个话轮转换到下一话轮，无论是无间隙还是有交叠，是常见的。

(iv)说话者之间最频繁的间隙是在200毫秒的范围内。超过1秒的间隙少见。

(v)说话者至少需要600毫秒来计划一个词的发言，而多词的句子则需要更长的时间。将这个数字和通常的间隙长度结合起来，意味着听话人通常非常擅长预测即将到来的TRP。

值得注意的是，这里指出相应会议参与者之间在通信链路上的传输延迟会严重扰乱轮流处理，因为对下一参与者开始说话的识别被延迟破坏。

特别是，与普通的面对面会谈相比，会议系统的延迟会给说话者带来显著问题。这种问题的一个示例是所谓的“双人说话”，即两个(或更多个)人在同一时间开始说话(即每个人在“话轮结构单元”的开始时)，每个人最初都不知道(由于传输或其他延迟)对方也开始了说话。由于延迟，他们只有在已经开始说话后才意识到这个问题，之后会出现混乱，有时两个说话者都停下来，然后重新开始(有时两个人再次交叠地说话)。出于这个和其他原因，设计者通常试图减少延迟，有许多现有技术试图解决这个问题(减少延迟)。

图2示出了延迟的影响的示例，示出了在三方会议中人或参与者B和人/参与者C回答来自人/参与者A的问题或评论(或在其他情况下希望在来自其的音频贡献后交谈)的情况下出现的三个可能结果(注意可能有许多其他可能的结果)。在没有显著延迟或影响的情况下，要“有说话权”的下一个人通常是第一个开始说话的人。这与普通的对话轮流是一致的。不幸的是，如果有延迟，没有参与者知道谁首先开始说话，导致混乱。

在图2中，来自人A的问题、评论或其他这样的音频贡献在每个部分中用锯齿状图案块20A来代表。在图的顶部部分，该部分代表在人A的终端处出现的情形，块20A出现在水平轴(代表时间)之上，指示它是在说话时人A的音频贡献。在图的下面三个部分，部分代表在三个场景或情况的每个下在每个人B和C的终端处出现的情形，块20A出现在轴之下，指示当由听话的人B和C听到时是人A的音频贡献。需要指出的是，由于任何延迟(传输延迟、处理延迟等)，由锯齿图案块20A所代表的音频贡献在被人A说出之后不久(被人B和C)听到。

该图的下面三个部分代表在下列三种情况下可能在人B和C的终端处出现的后续情形，如果人B和C都希望在听到了(或认为听到了)人A的音频贡献的结束之后开始说话(或“取得说话权”)，则每种情况都可能发生。在这些部分中，人B的音频贡献在每个实例中用对角图案块20B代表，人物C的音频贡献在每个实例中用砖图案块20C代表。

情况1：B和C都开始说话，然后当他们意识到对方已经在说话时就停止说话(由于任何延迟，他们在对方真正开始说话后不久意识到这一点)，导致一段混乱的时期。

情况2：B和C说话。B继续，但C在意识到B已经在说话了的情况下停止。(请注意，这是这三种情况中破坏性最小的一种。)

情况3：B和C说话。两人都继续(可能还没有意识到对方已经在说话了，或者可能是因为他们都觉得对方打断了他们)，导致了一段双人说话时段(或者如果A也在同一时间再次开始说话，或者如果有其他方面参与的话，则可能是“多人说话”)，并降低了可理解性。

无论发生什么情况，如果一方认为对方打断他们、忽略他们或粗鲁，则通常都会对对话流产生影响，这可能是显著的，导致混乱、沮丧或浪费时间，或者可能更严重。

即使使用最佳的延迟减少技术，多方会议系统也经常有相当大的延迟，或者至少有足够的延迟以导致可能出现上述问题。这可能只是因为有有限的时间需要指示相应音频贡献的数据被编码好来向远程终端发送，经由通信网络(以及可能的会议桥)发送到该远程终端，然后在该远程终端被解码和播放给听话人。延迟也可能是由于中间处理(例如在会议桥(稍后讨论)，或由于提供效果，诸如空间化音频)或可能是由于会议桥的地理位置，其可能位于足够遥远的位置以导致延迟发生，即使通过它交互的参与者在地理上彼此接近。

电信系统中的端到端延迟，通常称为时延，或口对耳延迟，永远不能为零。在现代化数字系统中，时延是由延迟(例如传播延迟、缓冲、处理延迟等)的组合构成，通常在30毫秒到1秒之间。不幸的是，过度的时延会对对话质量产生毁灭性的影响。ITU-T建议G.114中对此进行了讨论，该建议指出：“虽然少数应用程序由于小于150毫秒的端对端(例如，讲话情况下的“口对耳”)延迟会受到轻微影响，如果可以将延迟保持在这个数字之下，则大多数应用，包括语音和非语音，将经历基本上透明的交互性”，并且“对于一般的网络规划来说，400毫秒以上的延迟是不可接受的。”延迟对电话会议系统的影响详情在ITU-T P.1305中描述。

简要地参考现有专利文献，有许多涉及旨在使时延保持尽可能低的技术，其示例如下：

发明名称为“Reduced System Latency for Dominant Speaker”的美国专利申请US2015/0172202(Zealey等人)涉及数字媒体系统，具体涉及具有旨在减轻信号时延的数据处理的数字媒体系统。

发明名称为“Dynamic Selection of Lowest Latency Path in a NetworkSwitch”的US2002/0118640A1(Oberman等人)涉及用于引导数据分组通过网络交换机的系统和方法，以期有效地引导分组，无论是否是目的地输出端口可用还是由于其他分组业务流而导致不可用。

发明名称为题为“System and Method for Improving Audio Quality DuringWeb Conferences Over Low-Speed Network Connections”的US2014/0022956(Ramalho等人)涉及软件web会议。

这些技术专注于优化嘴到耳的传输路径，以将时延保持低。

US2010/0284310(Shaffer等人)和所得的专利US8358599B2涉及用于提供会议参与者播放的音频突出的系统。它将会议中的第一参与者标识为“主参与者”，并对现场会议或录制的会议的播出中添加音频或音频突出，使得可以容易地标识主或关键参与者的贡献。

如上所述，两方或更大的多方语音通信中的延迟会是问题，通常会导致说话者感到混乱，从而导致他们彼此“交叠说话”。此延迟通常是由中间处理系统(例如会议桥)引起的，但可能仅是传输延迟引起的。虽然减少或最小化延迟通常是有利的，但可能做得足够以防止其引起与音频通信会话有关的问题。

发明内容

优选实施方式涉及用于减少语音呼叫或其它两方或多方音频会议中延迟/时延的影响。这种延迟/时延可能是由于中间处理(例如，在会议桥处的处理和重新分配，或针对效果，诸如空间化的音频)，或者可能例如是由于地理问题。

特别地，优选实施方式涉及“双人说话”的问题，其中两个(或更多个)参与者大约同时开始讲话，每个参与者最初都不知道(由于延迟)另一参与者也刚开始讲话。然后，他们可能会意识到另一人也刚开始讲话，导致(例如)双方/每人停止、重新开始(有时再次交叠地说话)等混乱。

如上所述，存在试图减少延迟的技术。代替地或附加地，优选实施方式通过在其他参与者当前音频的任何再现开始之前使参与者听到抢先音频(和/或可能视觉)暗示来减小这种延迟的影响，抢先暗示经由快速/直接信令通道来触发或发送，其应比用于实际音频信号的通道快(例如，避免在会议桥中音频处理或其他方式)。通过触发并让其他参与者听到指示“第一说话者”已经在其他参与者开始讲话之前开始讲话的这种抢先声音(通常“预先存储”在其他参与者的音频终端上)(并且在实际音频数据从“第一讲话者”到达之前，已经经由(通常更快)的信令通道触发了该抢先声音)，可以防止其他参与者认为自己是第一说话者而因此开始/继续说话，从而减少“双人说话”。

根据本发明的第一方面，提供了一种管理多个用户设备之间的流式音频通信会话的方法，所述用户设备被配置为经由通信网络向一个或更多个其他用户设备发送指示从多参与者音频通信会话中的相应参与者接收的音频贡献的流式数据，以用于转换为用于一个或更多个相应其他参与者的、所接收到的音频贡献的音频表示；所述方法包括以下步骤：

监测来自相应参与者的音频贡献，并响应于从中检测到在所述音频通信会话中的沉默时段之后第一参与者正在开始在所述用户设备中的第一用户设备处进行音频贡献，向所述其他用户设备中的至少一个其他用户设备提供指示所述第一参与者正在开始进行音频贡献的信号；

响应于在所述至少一个其他用户设备处接收到指示所述第一参与者正在开始进行音频贡献的信号，触发针对位于所述至少一个其他用户设备处的相应参与者的、指示所述第一参与者正在开始进行音频贡献的预定可听指示。

音频通信会话通常将涉及指示接收到的音频贡献的数据，这些数据在用户设备之间数字地进行流式传输，并在用于相应参与者的用户设备处作为音频贡献来再现，以允许他们听到其他参与者(并且可能还有他们自己)进行的音频贡献。

根据一些实施方式，监测来自相应参与者的音频贡献可以是在所述参与者的用户设备处执行的。然而，在另选实施方式中，来自相应参与者的音频贡献可以被转发到会话控制装置，使得监测来自相应参与者的音频贡献可以在会话控制装置处执行。

根据优选实施方式，针对位于所述至少一个其他用户设备处的相应参与者的、指示所述第一参与者正在开始进行音频贡献的所述预定可听指示可以是先前存储在所述至少一个其他用户设备处的数据的音频表示。在这样的实施方式中，先前存储在所述至少一个其他用户设备处的所述数据可以是指示参与者正在开始进行音频贡献的声音的表示，和/或可以是指示所述第一参与者正在开始进行音频贡献的声音的表示，和/或可以是先前从所述第一用户设备处的所述第一参与者接收的声音的表示。该数据可以是依赖于对在所述第一用户设备处先前接收的所接收的音频贡献的分析而确定的数据。

根据优选实施方式，所述音频通信会话可以由会话控制装置管理，所述用户设备被配置为经由所述会话控制装置发送指示所接收的音频贡献的所述流式数据，以转发到一个或更多个其他用户设备。这样的会话控制装置可以包括通信桥、会议控制器或其他这样的控制装置，其能够对所述流式数据执行音频和其他这样的分析，从而允许对其进行比较、仲裁和其他较高级的功能。

在具有会话控制装置的这样的实施方式中，所述会话控制装置可以被配置为：响应于相应检测到在所述音频通信会话中的沉默时段之后相应参与者正在开始进行相应音频贡献，识别所述相应参与者中的哪位参与者要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献，并且从而进行仲裁，确定哪个参与者首先开始说话，或以其他方式确定要对哪个参与者的音频贡献给与优先。

这样的会话控制装置可以被配置为向除了要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献的所述参与者的用户设备之外的至少一个用户设备提供信号，该信号表示要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献的所述参与者正在开始进行音频贡献。借此，“抢先”声音可以被发送到除了首先开始说话的参与者之外的参与者，或被发送到除了被给与优先的参与者之外的参与者。

这样的会话控制装置可以被配置为暂时抑制针对要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献的参与者的用户设备的、表示任何其他参与者正在开始进行音频贡献的信号，和/或暂时抑制将来自任何其他参与者的音频贡献的音频表示提供给要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献的所述参与者。通过抑制这样的抢先噪音(以及来自除了第一参与者之外的参与者的可能的实际讲话)被中继到首先开始说话的参与者，可以保证这样的噪声不作为打断而被感知，并且不干扰首先开始说话的参与者。

根据优选实施方式，所述音频通信会话可以由会话控制装置管理，相应用户设备被配置为向所述会话控制装置发送消息，该消息指示在所述用户设备处检测到相应参与者在所述音频通信会话中的所述沉默时段之后正在开始进行音频贡献，并且从所述会话控制装置向其他用户设备提供消息，该消息指示相应参与者已开始进行音频贡献。这样的会话控制装置可以被配置为：确定被标识为在所述音频通信会话中的沉默时段之后正在开始进行音频贡献的多个参与者中的哪个参与者要被优先，并且被配置为依赖于所述确定来提供针对一个或更多个其他参与者的消息。这样的会话控制装置以与如上所述的会话控制装置定位或相关联，通过该会话控制装置，用户设备被配置为发送指示接收到的音频贡献的流式数据以转发给一个或更多个其他用户设备。

根据本发明的第二方面，提供了一种用于管理多个用户设备之间的流式音频通信会话的装置，所述用户设备被配置为经由通信网络向一个或更多个其他用户设备发送指示从多参与者音频通信会话中的相应参与者接收的音频贡献的流式数据，以用于转换为用于一个或更多个相应其他参与者的、所接收到的音频贡献的音频表示；所述装置包括一个或更多个处理器，所述处理器被配置为：

上面关于第一方面提及的各种选项和优选实施方式也可以应用于第二方面。

优选实施方式可以将诸如预先记录的或合成的讲话声音、或寒喧/填空词讲话声音这样的小部分声音并入到要对参与者播放的音频流中，通常触发经由比承载主或“现场”音频数据的通道快的通道来并入这样的小部分声音，例如，使用比中间处理系统、会议桥和/或用于主或“现场”音频数据的传输通道快的通道，从而使并入的声音抢先，并且在其他(正在说话的)参与者的实际发言到达并且对听话的参与者再现略微之前被听到。借此，有效的延迟可以基本上被这种抢先声音掩藏。这与仅旨在减少延迟的现有技术明显不同，并且在去除延迟或进一步减小延迟不可能或不现实的情况下会特别有益。可以巧妙地使听话人意识到另一说话者已经开始说话，从而使他们不太可能通过与另一说话者同时开始或继续新的话轮结构单元来打扰该说话者。整体上，这可以提高两方通信会话或多方会议的质量。

在具有会话控制装置的实施方式中，来自相应参与者的音频贡献被转发给该会话控制装置，所述会话控制装置将通常标识音频通信会话中的沉默时段，并且因此检测一个或更多个参与者在音频通信会话中的沉默时段之后开始进行语音贡献的实例，作为对相应参与者的音频贡献的监测的一部分。其可以使用阈值、滤波或其他技术来确保背景噪声不会干扰沉默时段的确定，实质上将没有参与者进行音频贡献的时段标识为“静音时段”。其还可以使用适当设定的或可调的时间长度阈值，以确保仅将比适当时间长度长的沉默时间标识为沉默时段。

在没有会话控制装置的实施方式中，音频通信会话中的沉默时段可以由相应用户设备中的一个或更多个用户设备来标识。

优选实施方式可以在各个参与者尝试的音频贡献的开始之间进行仲裁，确定在沉默时段之后(在存在潜在的“双人说话”时)哪个说话者是“第一说话者”，并立即触发指示“第一说话者”开始说话的抢先声音在每个其他参与者的终端上被听到，同时还防止第一说话者听到指示任何其他参与者开始说话的抢先声音(从而鼓励第一说话者继续说话)。

通过优选实施方式，实际上可以有两个阶段或功能，每个阶段或功能可以帮助阻止其他参与者打扰第一参与者打破沉默，如下所示：

(i)向其他参与者播放预定音频指示(在优选实施方式，其他参与者的身份可以依赖于标识哪个参与者首先打破沉默来确定)，其目的是使任何其他参与者不太可能继续其刚刚开始进行的贡献；以及

(ii)抑制那些其他参与者尝试的贡献的再现，使得防止其在第一讲话者处再现，因此实际上不打断第一讲话者，因此第一讲话者可以随意继续讲话，而不知道任何试图(但无意)的打断。

附图说明

现在将参考附图描述本发明的优选实施方式，其中：

图1例示了基本的对话轮流过程；

图2示出了在三方会议中在两个参与者试图响应来自另一参与者的音频贡献的情况下的一些可能结果；

图3示出了包括会议服务器或会议桥的会议系统；

图4例示了根据实施方式的在没有会议服务器或会议桥的情况下执行的双向两方音频通信会话中涉及的实体和交互；

图5示出了根据实施方式的利用音频桥和消息传递桥执行的多方音频通信会话中涉及的实体和交互；

图6例示了消息传递桥中可能存在的功能模块；以及

图7是适合于本发明实施方式的操作的计算机系统的框图。

具体实施方式

参照附图，将描述根据优选实施方式的方法和装置。

如前所述，图1例示了基本的对话轮流过程。在阶段s1，参与者的话轮结构单元(TCU)正在进行中。该TCU可以借助于当前参与者/说话者已经明确地选择了下一说话者而停止说话而结束(阶段s2)，在这种情况下，过程返回到阶段s1，以进行所选择的下一说话者的TCU。如果当前讲话者没有选择下一说话者，则另一参与者可以自我选择(阶段s3)，然后过程返回到阶段s1，以进行自我选择的下一说话者的TCU。如果在阶段s3没有其他参与者自我选择，则当前说话者可以继续该过程以返回到阶段s1以进行来自同一说话者的另一TCU。如果当前讲话者没有继续，则过程从阶段s4返回到阶段s3，直到另一说话者进行自我选择。实质上，下一说话者由下一参加者开始讲话来确定。

如上所述，特别是参考图2，延迟会影响轮流处理。参与者自己可能不知道这种延迟(网络延迟、处理延迟或其他延迟)，或者不知道对话的正常运行可能正在受着这样的延迟的影响，他们可能实际上相信其他参与者是不礼貌的(因为在不受此类延迟的影响的面对面讨论或现场讨论中中断会被认为是不礼貌的)，或者响应速度确实很慢。

应该指出在于下面对优选实施方式的描述将主要涉及延迟引起的问题，其会对音频通信会话具有影响。音频通信会话也会受到其他问题的影响，诸如回声，这可能是由“远端”声学终端或传输中的任何中间点引起的，并且会对会话产生严重影响。存在控制它的技术，并且可以与以下描述的技术一起使用。

如前面指示的，虽然两方通信会话可以简单地在所涉及的两方之间发生，其中指示相应音频贡献的编码数据经由通信网络在各方之间直接(通常双向)引导，但是多方通信会话一般通过“会议桥”发生，其中指示相应音频贡献的数据经由通信网络在各方和会议桥之间(再次，通常双向)引导，从而会议桥充当“集线器”并且可能是通信会话的控制实体。会议桥当然可以用于两方通信会话，并且可以在没有桥的情况下进行多方通信会话(尽管这可能需要复杂的协调)。

在讨论优选实施方式与减轻由延迟引起的问题有关的特定功能之前，将提供对包括会议服务器或会议桥的可能的会议系统的简要说明。然而，应注意，本发明的实施方式可应用于涉及会议桥的通信系统和会话(例如，多方通信会话)以及不涉及使用会议桥的通信系统和会话(例如，简单的两方通信会话)。

涉及会议服务器或会议桥的会议系统在图3示出。多个用户终端37A、37B、37C经由双向数据链路连接到集中会议服务器30，该双向数据链路携带单通道(通常上行)音频数据31、多通道(通常下行)音频数据32以及附加(通常是双向)数字控制和/或报告数据33的组合。数据链路可以由许多使用各种不同传输技术的串联链路组成并且可能包括附加处理，例如加密、安全管道和可变长度数据缓冲。在会议服务器30和相应用户终端37之间数据行进的实际各个链路和路由(即，精确的网络路由器)，无需固定，它们可以甚至在通信会话期间被改变到例如较低延迟、较低拥塞或较低成本的链路。

单线虚箭头31代表携带各个会议参与者的音频贡献的单通道上行音频数据被从相应用户终端37发送/流式传输到会议服务器30。双线虚箭头32代表来自会议服务器30处对多个会议参与者的音频贡献的处理和组合而得到的多通道/渲染下行音频数据从会议服务器30发送/流式传输到相应用户终端37。非间断箭头33代表在会议参与者37和会议服务器30之间行进的数字控制和/或报告数据。将理解，用于相应类型的数据31、32、33的路径可以经由相同或不同的服务器、路由器或其他网络节点(未示出)。

参照会议服务器30，其可用于执行根据优选实施方式的方法，来自会议客户端的上行音频数据(从他们的相应用户终端37接收)可以被传递穿过抖动缓冲器310，之后传递到分析单元340并且接着到会议控制单元360，并且到混合器/处理器350。抖动缓冲器310可以用于防止数据分组在通过数据链路时遭受过多延迟而被丢弃。每个抖动缓冲器的长度可以由抖动缓冲器控制器320使用优化处理来确定，该优化处理例如考虑到数据分组上的测量到的抖动和分组丢失率。

混合器/处理器350(经由存在于其中的抖动缓冲器310)从会议终端37接收上行音频数据，执行信号处理以组合和渲染音频信号，并将经混合/渲染的信号分配回会议终端37。分析单元340获取上行音频数据，提取延迟和其他性能指标，并将它们传递给会议控制单元360。

会议控制单元360可以是被配置为基于应用于诸如语音质量、传输延迟数据和其他定时数据这样的数据的系统特定的规则对其他系统部件实施一组控制的以减轻不利影响，并改善用户体验和感知处理器或处理器模块(例如，向服务器、路由器等提供指令，和/或提供要在会议服务器30本身上实现的或在各个会议终端37上实现的例如与音频参数的调整有关的指令)。其可以包括用于处理和存储关于到相应会议终端的路径的信息、与相应用户终端有关的信息等的处理模块和存储器，并且可以发送控制数据到抖动缓冲器控制器320和到外部系统部件，诸如到其路径上的用户终端37、服务器和/或路由器等。

如前所述，延迟可能由多种因素引起，例如以下因素：

-基本传输延迟，由于在网络和任何传输系统中说话者之间固有的距离引起。

-传输系统本身可以作为处理的一部分执行缓冲或者在基于分组的传输系统中允许改变分组的到达间延迟。

-在使用会议桥的情况下(即，通常在多方通信会话的上下文中使用一个会议桥)，会议桥中的音频混合由于诸如降噪、电平控制、均衡等处理可以添加延迟。

-会议桥中的音频混合可以还包括滤波，诸如空间音频处理和人工房间渲染，这会增加相当大的延迟。

-用于减少分组丢失影响的技术，诸如前向纠错和重传。

为了例示涉及减轻由延迟引起的问题的优选实施方式的具体功能，首先在不涉及使用会议服务器或会议桥的简单的两方通信会话的上下文中说明实施方式。在不涉及会议桥的此类实施方式中，如将说明的，可能需要由相应用户终端执行附加功能。在说明不使用会议桥的两方实施方式之后，提供实施方式如何可以在使用会议服务器或会议桥(并且从而使得能够可以在其中和/或在将被称为“消息传递桥”的关联模块中执行附加功能)的多方通信会话的上下文中实现的说明。

参照图4，其例示涉及没有会议服务器或会议桥的根据实施方式执行的对称双向、两方音频通信会话的实体和交互，并且涉及其中两个参与者或两方A、4a和B、4b在通信会话中作为扬声器和作为听话人的情形。参与者A、4a使用用户终端A、40a向麦克风或其他音频输入接口41a提供音频贡献(即，讲话)，使得这些音频贡献可以被编码，然后经由通信网络400发送给其他方，诸如参与者B、4b，并且经由扬声器、头戴式耳机或其他音频输出接口42a接收音频贡献(即，听话)，这些音频贡献在经由通信网络400从其他方(例如参与者B、4b)传输之后解码。类似地，参与者B、4b使用用户终端B、40b，将音频贡献提供到音频输入接口41b，使得这些音频贡献可以被编码，然后经由通信网络400传输到诸如参与者A、4a的其他方，并且经由音频输出接口42b接收音频贡献，音频贡献在经由通信网络400从诸如参与者A、4a的其他方传输之后已经被解码。

如前所述，尽管经由网络400进行的传输可以是经由诸如会议桥之类的实体进行，但是为了简单起见，这里将其简单地示出为直接通过相关各方之间的网络400。为了例示延迟可以如何被引入，本实施方式将通过网络400的路由认为是简单地通过通用传输系统440。除了传输延迟，由于缓冲和/或处理模块445中的缓冲和/或处理，会导致延迟。

注意在上面给出延迟的可能原因中，通常，最显著延迟是大部分是由于音频处理和音频数据的缓冲。考虑到这一点，一般可以比在有关用户终端之间一般可以传输音频数据更快地在两者之间传输控制和状态数据。这是显著的，因为如果可以使任何远程终端提前意识到另一个人已经开始说话，则通过在有关远程终端40开始再现来自有关说话者4的实际发言之前添加预先记录的讲话元素或其他“抢先声音”，可以修改在那些远程终端40a、40b中的每个处的相应音频处理器46a、46b(分别向参与者A和B提供音频输出)的输出。这种抢先声音将阻止任何这样的远程参与者在实际“近现场”音频数据从有关说话者到达有关远程终端之前开始说话。

优选实施方式的益处因此是听话人会比他们使用现有机制早地听到听起来像是远程说话者开始讲话的声音(或其他类似的“抢先声音”)。因此，说话者“彼此交叠说话”的干扰效应可被减小到与自然对话可比的程度(即，没有传输路径中的缓冲/处理445造成的延迟或由传输系统440一般地造成的延迟)。换一种方式来看，这样的实施方式允许从“没人说话”状态到“一个人在说话”状态的平滑转换，避免或减轻了诸如图2所示的破坏性情况。

如将要解释的，优选实施方式，特别是诸如使用控制实体的优选实施方式，可以还允许执行自动仲裁，其中在控制实体几乎立即确定哪个参与者实际上第一个在“没人说话”状态后开始说话，然后从控制实体发送消息使在来自第一说话者的实际发言的再现开始之前每个其他方听到指示“第一说话者”开始说话的抢先声音。此外，控制实体可以临时抑制再现其他参与者的发言(或者可以发送命令用户终端暂时抑制这种再现的消息)，特别是在“第一说话者”的终端处，从而不引起第一说话者不必要地停止说话。

再次参考图4，每个用户终端40(即，40a和40b)除了上面讨论的音频输入接口41和音频输出接口42外包括以下部件：

-音频处理器46(即，用户终端A、40a中的音频处理器46a和用户终端B、40b中的音频处理器46b)。这些中的每个在有关的接收到的音频路径中，并且包含适当的处理以在要向有关本地听话人播放的音频数据中包括指示另一(即远程)方开始进行音频贡献的抢先声音，从而隐藏远程方实际已经开始进行音频贡献和音频贡献的音频数据实际上到达听话人的终端之间存在的延迟。实际上，音频处理器46有可能与现有接收器处理器和缓冲器组合，使得不造成附加延迟。

-决策系统47(即，47a和47b)，其检测特定的寒喧或填空词讲话声音，例如“嗯”、“呃”等。

-至少一个存储器或存储部48(即，存储部48a和48b、48ab和48ba)，用于存储音频数据，诸如相应参与者的讲话模式；

-讲话检测器49(即，49a和49b)，其检测本地用户何时正在说话。

除了相应用户终端40内的各种内部交互和通信链路，图4还示出了用户终端之间的三种类型的通信。

(i)会话中音频数据通信，经编码的音频业务流经过该通信，可能经由音频桥、音频处理、缓冲等(虚线44ab和44ba表示从一个参与者的音频输入接口41经由网络400到其他参与者的音频处理器46传输经编码的音频数据，该传输通常受到延迟)；

(ii)会话前音频数据通信，传递存储的音频数据(虚线45ab和45ba代表(再次经由网络400)将来自一个参与者的用户终端处的关于该参与者自己的讲话模式的讲话模式存储部48(即，48ab和48ba)的已存储的音频数据传输到其他参加者的用户终端处的关于该其他参与者的讲话模式的讲话模式存储部48(即，48ab和48ba)，这正在这样的数据在通信会话期间在接收终端处被需要之前预先进行；以及

(iii)会话中直接消息(即，非音频)通信，使得能够迅速交换少量控制信息和数据，而不会遇到音频数据遇到的类型的延迟(即由于音频处理、缓冲等)。(间断箭头43ab和43ba代表消息数据从一个参与者的讲话检测器49到其它参与者的音频处理器46的通常瞬时传输(再次经由网络400)。

关于这些类型的通信，应当理解，尽管(i)和(iii)作为进行中的实时通信会话的一部分发生，但是不需要涉及通过网络的相同路径，(ii)通常将不需要在通信会话期间进行，并且通常将在实际通信会话之前完成。再次，不需要涉及与(i)或(iii)相同的通过网络的路径。

在关注用于存储诸如讲话模式这样的音频数据的各个存储器48，有可能在每个终端40中仅有单个存储器，或者该数据甚至可以相对于终端远程地存储，但存储器在图4中被表示为每个终端内的两个不同存储部，以例示使用存储的如下不同目的：

-在用户终端A、40a中，存在“本地说话者”讲话模式存储部48a，其用于一系列讲话模式，诸如来自本地说话者、参与者A、4a的寒喧/填空词，并且还存在“远程说话者”的讲话模式存储部48ab，其用于一系列讲话模式，例如来自远程说话者、参与者B、4b的寒喧/填空词。

-在用户终端B、40b中，存在“本地说话者”讲话模式存储部48b，其用于一系列讲话模式，诸如来自本地说话者、参与者B、4b的寒喧/填空词，并且还存在“远程说话者”的讲话模式存储部48ba，其用于一系列讲话模式，例如来自远程说话者、参与者A、4a的寒喧/填空词。

如虚箭头45ab和45ba所示，可以在上述模块之间交换数据。因此，本地存储在A自己的终端40a处的存储部48a中的A的讲话模式的副本可以经由链路45ab提供给B，并且被存储在B的A的讲话模式存储部48ba中。类似地，本地存储在B自己的终端40b处的存储部48b中的B的讲话模式的副本可以经由链路45ba提供给A，并且被存储在A的B的讲话模式存储部48ab中。

相应决策系统47(即，47a和47b)可以了解它们相应的本地说话者的讲话模式，包括他们开始说话时发出的典型声音。这些通常很短，可能包括诸如呼吸的噪音、构成讲话开始的短早上(“嗯...”、“额…”等)。决策系统47可以使用任何适当的模式识别方法，例如可以使用由专家用户标记的离线讲话模式来训练神经网络。该决策系统47可以是静态的(例如，经训练的神经网络)，或者可以在使用过程中训练自己(例如，增强学习)。他们捕捉声音，并把声音至于本地用户的本地讲话模式48a、48b中。声音可以以任意数量的方式来存储，例如作为波形、参数语音代码或两者的组合。

一旦在本地用户存储部48a、48b中存在本地用户的声音的数据库，或者随着它们被添加，声音(波形或参数语音代码)可以如上所述被发送给其他用户的终端的远程存储部48ab、48ba。理想地，在开始通信会话之前每个参与者自己声音的存储部48a、48b被传播并且在呼叫设立时间处或之前发生到相应的“远程说话者”存储部48ab、48ba，但数据库可以从通信会话开始时建立并且在通信期间被发送以更新远程存储部48ab、48ba处的镜像数据库。

在每个“本地说话者”存储部48a、48b中的每个声音可以被加索引(对每个声音和每个说话者唯一)，并且该索引可以连同声音发送到远程存储部48ab、48ba，使得也可以使用在本地存储部48a、48b所使用的相同密钥来访问数据库。

在通信期间，如果用户终端A、40a的在线检测器49a检测到为其本地用户4a的话轮结构单元的起点(或话轮转换点)的讲话部分，则确定其本地存储部48a中最接近地匹配该讲话部分的声音，并将该声音的索引发送到本地音频处理器46a。音频处理器46a使用所发送的索引调出存储在存储部48a中的声音并且将该索引发送给接收方、参与者B、4b的音频通道。通过将来自存储部48ba的该声音混合到用于所传输的音频(其将在略微之后从参与者A、4a接收)的流中，接收方4b可以在所要求的声音通过网络400(即，经由传输系统440和/或中间处理单元445)实际传输之前听到该声音(或类似于它的声音)。在实际声音传输被从网络400接收到时，音频处理器46b可能需要仔细地将来自存储部48ba的抢先(延迟隐藏)声音与实际声音传输混合，例如在来自存储部48a的声音的末尾使用尾随窗口。来自本地讲话检测器49b的数据可以辅助该处理。

借助上述处理，如果A略微在B之前开始说话(或发出表示他们就要说话的声音)，则消息将从A的讲话检测器49a发送给B的音频处理器46b，触发B的音频处理器将先前从A的存储部48a传递到B的存储部48ba的抢先声音并入要给B播放的流中。(同时，A的讲话检测器49a还可以向A自己的音频处理器46a发信号，指出之后不久从B的讲话检测器49b接收到的任何消息都应被忽略，以防止先前从B的存储部48b传递到A的存储部48ab中的对应抢先声音被并入要给A播放的流中。)

现在关注上述内容如何可以对于多方情形实现，其可以涉及每一方经由诸如图4所示的用户终端40那样的用户终端利用相应方/用户终端之间的双向消息传递链路来交互。每个“远程说话者”存储部将优选地具有来自每个其他参与说话者的一组抢先声音，其中在从已经开始说话的任何其他参与者接收到消息时，合适的一个抢先声音将被并入本地音频流。

相对于这样的多方情形，并且特别是基于诸如参照图3描述的系统上，其中，通信会话经由音频桥来负责，音频信号经由该音频桥在相应参与者之间传递和处理，对所述会议系统进行调整以具有用于消息传递/数据路径的桥以及用于音频数据的桥，或一个桥执行两种功能(即，处理/分配来自相应参与者的消息传递数据/信号以及来自相应参与者的音频数据/信号)可能是较有效的。图5中示出了其一个示例。在这种情形下，消息传递桥60可以包括允许对语音业务流进行进一步集中分析以向用户终端50提供附加数据的部件。在这些部件于用户终端之间可能发生的交互在图6中例示，这将在后面讨论。

参照图5，其例示了利用音频桥70和消息传递桥60根据实施方式的执行的多方音频通信会话中所涉及的实体和交互，并且涉及其中可能涉及经由相应用户终端50(即，用户终端A(50a)、B(50b)、C(50c)和D(50d))的四个参与者或方作为讲话者和听话人的情形。

暂时抛开图5的用户终端50和音频桥70与消息传递桥60的交互以及与这些交互具体相关的各个功能，用户终端50和音频桥70可以总体上实现与图3中的会议系统中的用户终端37和会议服务器30相似的功能，因此将不再详细描述它们的正常功能。将对其进行概括，但是下面的说明将另外集中在当执行根据优选实施方式的方法时这些部件的特定功能。

每个用户终端50具有用于从/到用户的音频输入和输出的用户接口52(例如，头戴式耳机，其包括麦克风和扬声器)和网络接口58，网络接口58允许用于输入和输出经编码的音频数据，经编码的音频数据经由相应用户终端50和音频桥70之间的网络连接来交换，网络接口58还用于输入和输出消息传递数据，消息传递数据经由相应用户终端50和消息传递桥60之间的网络连接来交换。

每个用户终端50还具有处理器54和存储部56。为了避免使该图过于复杂，处理器54被示出为单个模块，但是其可以执行与图4所示的用户终端40中的音频处理器46、决策系统47和讲话检测器49的功能中的至少某些功能等效的功能。其他的(或它们的等效物)由消息传递桥60或音频桥70的部件执行。类似地，存储部56被示出为单个模块以便简化该图，但是其可以执行与图4中所示的用户终端40中的讲话模式存储部48的功能中的某些或全部功能的等效功能(尽管再次，这些功能中的一些(或其等效物)可以相反由消息传递桥60或音频桥70的部件来执行。主要地，然而，每个存储部56可以存储音频数据，诸如相应参与者的讲话模式和/或其他抢先噪音，其中一些是本地参与者的(使得其可以经由网络连接，可能经由音频桥70发送到其他参与者，并且一些是其他参与者的(从那些其他参与者经由网络连接可能经由音频桥70接收的，以供本地参与者的终端使用)。这将指出用于相应参与者的音频数据可以被集中地收集和存储，例如在音频桥70中的存储部中，并且被适当地合并到相应的经渲染的音频流中并转发给相应参与者。

每个处理器54接收本地参与者的音频贡献并对这些音频贡献编码，以经由网络连接以及经由音频桥70传输给其他参与者。每个处理器54还经由网络连接和音频桥70接收从其他参与者传输的经编码的音频贡献，并且将这些经解码的音频贡献解码以向本地参与者进行音频再现。此外，每个处理器54分析本地参与者的音频贡献以识别新发言的开始，作为响应，其造成消息经由网络连接被发送到消息传递桥70，从而造成消息传递桥70将结果消息转发给其他参与者。此外，每个处理器54接收从消息传递桥70接收的指示其他参与者已经开始进行新发言的消息，并且将指示其它参与者已经开始进行新发言的适当抢先噪声合并到用于本地参与者的音频输出。

音频桥70和消息传递桥60在图5中被示为分开的模块。应当理解，以这种方式示出它们主要是为了使它们相应功能的以下说明更清楚。尽管它们在功能上和位置上可能是分开的，但实际上它们可以位于同一位置，或构成执行两个桥功能(即处理/分配来自相应参与者的消息传递数据/信号以及来自相应参与者的音频数据/信号))的一个组合桥模块的部分。这样的组合桥还可以执行其他会议控制功能，诸如由图3的会议系统中的会议服务器30执行的功能。此外，存在如图4和图5所示的实施方式之间的一系列可能的混合实施方式，其中处理的各部分可以在不同位置或由不同实体执行(例如，在使用桥的情况下在一个或其它的桥中，在用户终端中，或在网络中的其他位置)。消息可以通过一个或另一桥传递，或可以采取避免通过任一桥的传递路线。

具体地参照音频桥70，其被示为具有会议控制器72(其可以执行与图3的会议服务器30中的会议控制单元360的功能对应的功能)、分析单元74(其可以执行与图3的会议服务器30中的分析单元340的功能对应的功能)和混合器/处理器76(其可以执行与图3的会议服务器30中的混合器/处理器350的功能对应的功能)。其还具有音频接口(为了避免使图过分复杂的未示出)，经由该音频接口从相应用户终端接收单独的经编码的音频贡献并且经由该音频接口其提供经渲染的下行音频到相应用户终端。接收的音频信号和下行音频信号由用户终端50和音频桥70之间的虚箭头代表。

除上述功能外，音频桥70的会议控制器72与消息传递桥60通信，允许其从消息传递桥60接收指令。

具体地参照消息传递桥60，其被示为具有：消息聚集器62，其从用户终端50接收消息传递信号(由不间断的箭头表示)；消息分析器64，其分析那些消息以确定例如在两个或更多个参与者在彼此非常接近的时间开始说话的情况下哪个参与者首先开始说话，和/或进行参与者和/或其相应音频贡献之间的其他这样的仲裁；以及消息分配器66，其依赖于消息分析器64的分析结果向用户终端50发送消息传递信号。虽然可以简单地将来自消息传递桥60的消息传递信号直接发送到相应用户终端50，命令相应用户终端在对除“第一说话者”之外的参与者的相应音频播放中包括抢先声音，但是在本示例中，消息传递信号也被提供给音频桥，从而允许音频桥调整向相应用户终端50提供的经渲染的音频流。

消息传递桥60因此可以与音频桥70交互，从而允许其(至少暂时地)抑制来自除“第一讲话者”外的参与者的实际音频贡献，以及执行确定将哪个消息传递信号发送给哪个用户终端的功能，以触发向除“第一讲话者”外的参与者播放抢先声音。

将理解的是，音频桥70和/或消息传递桥60可以被配置为实施不同于上面说明的“第一说话者优先”策略的策略，除“第一说话者优先”策略外或者连同“第一说话者优先”策略。另一此类策略的示例可以是“会议主席优先”策略，根据该策略，指定主席的发言的开始可能会产生对其他参与者播放表明主席的抢先声音，和/或暂时抑制来自这些其他参与者的音频贡献，甚至即使主席实际上不是“第一说话者”。除了上述内容或代替上述内容，还可以实施其他可能的“优先”策略。

参照图6，其比图5更详细地例示了消息传递桥60内可能存在的功能模块，特别是例示了来自每个用户终端50的消息可以被消息聚集器62接收，以使得这些消息可以被组合和并且转发到每个用户终端50，并且可以还被传递给消息分析器64以用于分析(例如，用于仲裁哪个参与者是第一个发言)。来自消息聚集器62的组合消息以及消息分析器64的分析的结果两者可以被传递给消息分配器66以分配到相应用户终端50。

其他实施方式和选项

-虽然在图4中的决策系统47可以纯粹从本地说话者学习，它们(和/或处理器54的对应决策模块或图5中的消息传递桥60或音频桥70的相关联的部件)可以从一个或更多个其它来源学习，从与例如其他说话者和/或其他说话者学习。

-图4中的讲话存储部48(和/或图5中的它们的对应存储部)可以从相应本地和远程说话者的讲话示例来建立，但其可以最初包括多个标准声音(例如，呼吸噪音、清嗓子、嘴唇拍打等)，其可以在学习和存储特定说话者的模式之前使用。

-虽然在图4中将决策系统47、讲话模式存储部48和讲话检测器49示为位于相应用户终端40处，但是它们可以位于中间系统或位于一个特定用户终端处。应该选择位置，以使决策和交换消息的延迟最小化。

-以上描述的实施方式参考了通信会话的音频信道，但视觉暗示在适当情况下可以也被提供给具有视频能力的用户终端。这些可以涉及指示说话者已经开始说话的简单的灯或符号，或者可以涉及较复杂的暗示，诸如屏幕上对说话者的视觉图像的改变(例如，改变以开始按照与选定的抢先声音匹配的模式移动嘴唇，该模式可能来自从有关说话者学习的视觉数据库)。类似地，视觉暗示可能也可以用来确定参与者何时开始进行贡献。如果参与者A加入音频-视频会议，但参与者B仅针对音频加入，系统可以从视觉暗示检测到参与者A要说话(例如，开嘴，坐起来，提高手指)，并向参与者B发送关于参与者A即将说话的消息。

-抢先声音可以对沉默时段后的每个发言使用，对潜在的冲突发言的实例使用，或对其他类型的情况使用。它们也可以被使用，使得抢先声音在仅当例如延迟量或沉默时段被打破的长度高于某一阈值时使用。

-诸如可以音频桥70中在实际讲话信号上使用的处理那样的处理(例如，空间化音频处理)也可以在诸如存储在存储部48中的声音那样的声音上使用。这样的处理将优选地在通信会话之前执行，但是可以在通信会话期间动态地进行。

图7是适合于本发明实施方式的操作的计算机系统的框图。中央处理器单元(CPU)702经由数据总线708可通信地连接到数据存储部704和输入/输出(I/O)接口706。数据存储部704可以是任何读/写存储装置或装置的组合，例如随机存取存储器(RAM)或非易失性存储装置，并且可以用于存储可执行和/或不可执行数据。非易失性存储装置的示例包括盘或带存储装置。I/O接口706是对设备的接口，用于输入或输出数据，或用于输入和输出数据两者。可连接到I/O接口706的I/O装置的示例包括键盘、鼠标、显示器(诸如监视器)和网络连接。

就所描述的本发明的施方式而言，至少部分地可以使用软件控制的可编程处理设备(诸如微处理器、数字信号处理器或其他处理设备、数据处理设备或系统)来实施，可以理解，设想用于配置可编程设备、装置或系统以实现前述方法的计算机程序为本发明的方面。计算机程序例如可以体现为源代码，或者经过编译以在处理设备、装置或系统上实施，或者可以实现为目标代码。

适当地，计算机程序以机器或设备可读的形式存储在载体介质上，例如存储在固态存储器、诸如盘或带的磁存储器，诸如光盘或数字通用盘的光学或磁光可读存储器中，并且处理设备利用程序或其一部分来配置它以进行操作。可以从在诸如电子信号、射频载波或光载波的通信介质中实现的远程源提供计算机程序。这种载体介质也被设想为本发明的方面。

本领域技术人员将理解，虽然已经相对于上述示例实施方式描述了本发明，但是本发明不限于此，并且存在许多可能的变化和修改，其落入本发明的范围内。

本发明的范围可以包括本文公开的其他新颖特征或特征的组合。申请人在此给出通知，可以在本申请的审查期间或从其得到的任何此类进一步申请得到新的权利要求。特别地，参照所附权利要求，可以将从属权利要求的特征与独立权利要求的特征组合，并且可以以任何适当的方式而不是仅以权利要求中列举的特定组合的方式将各个独立权利要求的特征组合。

Claims

1.一种管理多个用户设备之间的流式音频通信会话的方法，所述用户设备被配置为经由通信网络向一个或更多个其他用户设备发送指示从多参与者音频通信会话中的相应参与者接收的音频贡献的流式数据，以用于转换为用于一个或更多个相应其他参与者的、所接收到的音频贡献的音频表示；所述方法包括以下步骤：

2.根据权利要求1所述的方法，其中，监测来自相应参与者的音频贡献的步骤是在所述参与者的用户设备处执行的。

3.根据权利要求1或2所述的方法，其中，针对位于所述至少一个其他用户设备处的相应参与者的、指示所述第一参与者正在开始进行音频贡献的所述预定可听指示是先前存储在所述至少一个其他用户设备处的数据的音频表示。

4.根据权利要求3所述的方法，其中，先前存储在所述至少一个其他用户设备处的所述数据是指示参与者正在开始进行音频贡献的声音的表示。

5.根据权利要求3或4所述的方法，其中，先前存储在所述至少一个其他用户设备处的所述数据是指示所述第一参与者正在开始进行音频贡献的声音的表示。

6.根据权利要求3、4或5所述的方法，其中，先前存储在所述至少一个其他用户设备处的所述数据是先前从所述第一用户设备处的所述第一参与者接收的声音的表示。

7.根据权利要求3、4、5或6所述的方法，其中，先前存储在所述至少一个其他用户设备处的所述数据是依赖于对在所述第一用户设备处先前接收的所接收的音频贡献的分析而确定的数据。

8.根据前述权利要求中任一项所述的方法，其中，所述音频通信会话由会话控制装置管理，所述用户设备被配置为经由所述会话控制装置发送指示所接收的音频贡献的所述流式数据，以转发到一个或更多个其他用户设备。

9.根据权利要求8所述的方法，其中，所述会话控制装置被配置为：响应于相应检测到在所述音频通信会话中的沉默时段之后相应参与者正在开始进行相应音频贡献，识别所述相应参与者中的哪位参与者要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献。

10.根据权利要求9所述的方法，其中，所述会话控制装置被配置为向除了要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献的所述参与者的用户设备之外的至少一个用户设备提供信号，该信号表示要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献的所述参与者正在开始进行音频贡献。

11.根据权利要求9或10所述的方法，其中，所述会话控制装置被配置为暂时抑制针对要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献的参与者的用户设备的、表示任何其他参与者正在开始进行音频贡献的信号，和/或暂时抑制将来自任何其他参与者的音频贡献的音频表示提供给要在所述音频通信会话中的所述沉默时段之后较早或最早开始进行音频贡献的所述参与者。

12.根据前述权利要求中的任一项所述的方法，其中，所述音频通信会话由会话控制装置管理，相应用户设备被配置为向所述会话控制装置发送消息，该消息指示在所述用户设备处检测到相应参与者在所述音频通信会话中的所述沉默时段之后正在开始进行音频贡献，并且从所述会话控制装置向其他用户设备提供消息，该消息指示相应参与者已开始进行音频贡献。

13.根据权利要求12所述的方法，其中，相应用户设备被配置为向所述会话控制装置发送消息，所述会话控制装置被配置为：确定被标识为在所述音频通信会话中的沉默时段之后正在开始进行音频贡献的多个参与者中的哪个参与者要被优先，并且被配置为依赖于所述确定来提供针对一个或更多个其他参与者的消息。

14.一种用于管理多个用户设备之间的流式音频通信会话的装置，所述用户设备被配置为经由通信网络向一个或更多个其他用户设备发送指示从多参与者音频通信会话中的相应参与者接收的音频贡献的流式数据，以用于转换为用于一个或更多个相应其他参与者的、所接收到的音频贡献的音频表示；所述装置包括一个或更多个处理器，所述处理器被配置为：

15.一种包括计算机程序代码的计算机程序单元，当计算机程序代码被加载到计算机系统中并在其上执行时，使计算机执行根据权利要求1至13中任一项所述的方法的步骤。