CN116419006A

CN116419006A - 音频处理方法、电子设备以及计算机可读存储介质

Info

Publication number: CN116419006A
Application number: CN202111668070.0A
Authority: CN
Inventors: 廖涛
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-11

Abstract

本公开提供了一种音频处理方法、电子设备以及计算机可读存储介质。该音频处理方法包括接收被配置在第一语言频道上的参会设备的至少一个音频流以及与第一语言频道相关联的翻译设备的音频流；基于该至少一个音频流，确定第一语言频道是否处于活跃状态；以及如果第一语言频道被确定为处于活跃状态，通过排除翻译设备的音频流进行混音。利用本公开的实施例，可以去除在会议中由翻译设备导致的重复语音。

Description

音频处理方法、电子设备以及计算机可读存储介质

技术领域

本公开的实施例主要计算机网络技术领域，更具体地，本公开的实施例涉及音频处理方法、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

在使用多种语言的国际会议上，通常需要同声传译服务。在提供同声传译时，传译员在不打断讲话者讲话的情况下，不间断地将内容口译传达给听众。对于线下会议，传译员会坐在隔音的狭小房间(俗称“箱子”)内，使用专业的翻译设备(例如传译机)，将其从耳机中听到的内容同步口译为目标语言，并通过话筒输出。需要同声传译服务的与会者，可以通过接收装置，调整到自己需要的语言频道，从耳机中获得翻译的信息。

对于线上会议，传译员作为一个特殊身份的参会者，使用终端设备参加线上会议，提供传译服务。传译员选择服务的语言频道后，将收听到的原声翻译成目标语言输入到会议系统中对应频道。参会者选择自己能听懂的语言频道，收听该语言的其他参会者发言或将从其他语言翻译为该语言的译声。在一些场景下，需要传译员同时向在线上和线下的参会者提供同声传译服务。然而，传译员的翻译设备通常具有在传译员不工作时将输入端的会议原声直接作为输出的固有功能，这可能导致线上参会者重复收听到原始的会议原声和来自翻译设备的原声，给用户带来困扰和不便。

发明内容

本公开的实施例提供了一种音频处理的技术方案。利用本公开的实施例，可以去除在会议中由同声传译的翻译设备导致的重复语音。

根据本公开的第一方面，提供了一种音频处理方法，包括：接收被配置在第一语言频道上的参会设备的至少一个音频流以及与第一语言频道相关联的翻译设备的音频流；基于所述至少一个音频流，确定第一语言频道是否活跃状态；以及如果第一语言频道被确定为处于活跃状态，通过排除翻译设备的音频流进行混音。

根据本公开的第二方面，提供了一种音频处理方法，包括：被配置在第一语言频道上的第一参会设备向媒体服务器发送第一参会设备的音频流；第一参会设备接收与第一语言频道相关联的翻译设备的音频流；以及响应于接收到第一语言频道处于活跃状态的指示，第一参会设备通过排除翻译设备的音频流来进行混音，其中该指示至少部分地基于第一设备的音频流。

根据本公开的第三方面，提供了一种音频处理方法，包括：媒体服务器接收被配置在第一语言频道上的至少一个参会设备的至少一个音频流；媒体服务器向至少一个参会设备发送与第一语言频道相关联的翻译设备的音频流；媒体服务器基于至少一个音频流来确定第一语言频道是否处于活跃状态；以及如果确定第一语言频道处于活跃状态，媒体服务器向至少一个参会设备发送所述第一语言频道处于活跃状态的指示，使得所述至少一个参会设备通过排除所述翻译设备的音频流来进行混音。

根据本公开的第四方面，提供了一种音频处理方法，包括：被配置在第一语言频道上的第一参会设备向媒体服务器发送音频流；第一参会设备接收与第一语言频道相关联的翻译设备的音频流和被配置在第一语言频道上的第二参会设备的至少一个音频流；第一参会设备基于第一设备的音频流和第二参会设备的至少一个音频流，确定第一语言频道是否处于活跃状态；以及如果确定第一语言频道处于活跃状态，第一参会设备通过排除翻译设备的音频流来进行混音。

根据本公开的第五方面，提供了一种用于的音频处理方法，包括：接收被配置在第一语言频道上的参会设备的至少一个音频流；针对与第一语言频道相关联的翻译设备，通过排除至少一个音频流来进行混音；以及向翻译设备发送混音后的音频流。

根据本公开的第六方面，提供了一种音频处理方法，包括：接收至少一个音频流；识别该至少一个音频流中的与第一语言频道相关联的音频流；以及通过排除与第一语言频道相关联的音频流来进行混音。

根据本公开的第七方面，提供了一种电子设备，包括处理单元和存储器，处理单元执行存储器中的指令，使得电子设备执行根据本公开的第一方面、第三方面或者第五方面中任一项所述的方法。

根据本公开的第八方面，提供了一种电子设备，包括处理单元和存储器，处理单元执行所述存储器中的指令，使得电子设备执行根据本公开的第二方面、第四方面或者第六方面中任一项所述的方法。

根据本公开的第九方法，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中该一条或多条计算机指令被处理器执行使所述处理器执行根据本公开的第一方面至第六方面中任一项所述的方法。

根据本公开的第十方面，提供了一种计算机程序产品，包括机器可执行指令，该机器可执行指令在由设备执行时使所述设备执行根据本公开的第一方面至第六方面中任一项所述的方法。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的提供同声传译服务的会议系统的示意框图；

图3示出了根据本公开的一些实施例的会议系统的通信过程的示意交互图；

图4示出了根据本公开的一些实施例的会议系统的通信过程的示意交互图；

图5示出了根据本公开的一些实施例的会议系统的通信过程的示意交互图；

图6示出了根据本公开的一些实施例的会议系统的通信过程的示意交互图；

图7示出了根据本公开的一些实施例的音频处理方法的示意流程图；

图8示出了根据本公开的一些实施例的音频处理方法的示意流程图；

图9示出了根据本公开的一些实施例的音频处理方法的示意流程图；

图10示出了根据本公开的一些实施例的音频处理方法的示意流程图；

图11示出了根据本公开的一些实施例的音频处理方法的示意流程图；

图12示出了根据本公开的一些实施例的音频处理方法的示意流程图；

图13示出了可以用来实施本公开的实施例的示例设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。为了使本公开清更为楚和全面，提供以下术语的说明。

混音器(Audio Mixer)：混音器是处理音频的一种装置，将多个音频文件、线路输入音频信号混音后，合成单独的音频文件或音频信号。混音器可以被以软件和/或硬件的方式来实现。

多点控制单元(MultiPoint Control Unit，MCU)：一种用于多媒体视讯会议(Video Conference)的装置，主要功能是在控制多个终端间的视讯传输。MCU主要由MC(Multipoint Controller)及MP(Multipoint Processor)组成。

选择转发单元(Selective Forwarding Unit，SFU)：一种媒体流路由器，接收终端设备的音视频流，根据需要转发给其他终端设备。

在一些大型会议上，既有现场观众需要收听不同语言的人工实时翻译，也有线上观众需要收听不同语言的翻译。通常会将线下系统和线上系统结合起来使用，由现场的传译员同时为线上和线下的观众提供同声传译，而不必分别准备两组翻译人员。这时，现场原声和线上会议的原声作为输入被提供到传译员的传译机，传译机的每个语言频道的输出音频作为线上会议的对应语言频道的输入。这样线上观众也能听到现场传译员翻译后的译音。

传统的现场传译机具有一种固有功能：当传译员按下设备上的翻译键，提供同声传译的译音时，传译机输出译音给对应的语音频道，但是当传译员不在工作时(例如，翻译键未被按下)，传译机将向外输出原声。这一功能给上述的线上和线下联合会议带来问题。当线上的某个语言频道的参会者发言，因而对应语言频道的传译员不工作时，传译机将输出会议原声，即该发言者自己的声音。传译机的输出又被馈送到线上的相同语言频道，被发言者自己听见，对发言者造成困扰。与此同时，相同语言频道上的其他参会者也会收听到两路一样的声音，一个声音是原声，另一个声音是经由会议现场的传译机产生的次级原声。

有鉴于此，本公开了提供了一种音频处理方法。在一些实施例中，当检测到会议的特定语言频道处于活跃状态时，自动从发送给该语言频道内的参会者的音频流中去除与该语言频道对应的翻译设备的音频流。具体地，会议的媒体服务器接收被配置在特定语言频道上的参会设备的音频流，还接收为该语言频道的参会者提供译声的翻译设备的音频流。媒体服务器根据接收到的参会设备的音频流确定该语言频道是否处于活跃状态，如果确定该语言频道处于活跃状态，则在为该语言频道中的参会设备进行混音时，排除翻译设备的音频流。以此方式，可以去除在会议中由同声传译的翻译设备导致的重复语音。在另一些实施例中，还可以从翻译设备的输入音频流中过滤掉对应的语言频道的会议原声，以一种简单的方式去除了由同声传译的翻译设备导致的重复语音。以下参照图1至13描述本公开的实施例。

示例环境

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在环境100中，线下的会议现场110可以现场设备101(例如，具有音频和视频采集能力的电子设备)接入到线上会议，将从会议现场110采集到的图像和声音发送到服务器130。服务器130可通信地连接到参加线上会议的用户的电子设备(下文中称为“参会设备”)102、104、106、以及翻译员120的翻译设备105、106、107。翻译员120可以位于会议现场或者不在会议现场，并且翻译员120具有各自的翻译设备105、106、107，同时为现场的听众和线上参会者提供同声传译服务。

在环境100中，参会设备102、104、108可以是各种类型的电子设备。电子设备的组件可以包括但不限于一个或多个处理器或处理单元、存储器、存储设备、一个或多个通信单元、一个或多个输入设备以及一个或多个输出设备。在一些实施例中，参会设备102、104、108可以是手机、平板电脑、视频电话、膝上型计算机(laptop)、笔记本电脑、个人计算机(PC)、蜂窝电话、个人数字助理(PDA)、增强现实(AR)\虚拟现实(VR)设备等设备。在一些实施例中，参会设备102、104、108可以通过各种类型的有线(例如，光线，电缆等)或无线通信方式(例如，WiFi、蜂窝网络等)连接方式连接至服务器130。这里，参会设备102、104、108可以被配置为在对应的语言频道上，例如，参会设备102和104可以被配置在中文频道，而参会设备108可以被配置在英文频道。

在环境100中，翻译设备105、106、107可以是传译机或者代理传译机连接到线上会议的电子设备。这里，代理是指传译机经由该电子设备从服务器130接收声音，并且经由该电子设备将译声发送到服务器130。如上所述，传译机被配置为当其被翻译员120操作时将来自翻译员120的译声作为输出，而当翻译员不工作时将其接收到的输入作为其输出。类似地，翻译设备105、106、107可以通过各种类型的有线或无线通信方式(例如，WiFi、蜂窝网络等)，或者经由作为其代理的电子设备连接至服务器130。这里，翻译设备105、106、107可以被配置为与对应的语言频道相关联，也就是说，将其他语言翻译成该语言频道上的用户能够听懂的语言。作为示例，翻译设备106可以被配置为与中文频道相关联，从而在中文频道上提供译声，翻译设备107可以被配置为与英文频道相关，从而在英文频道上提供译声。

在环境100中，服务器130可以包括但不限于一个或多个处理器或处理单元、存储器、存储设备、一个或多个通信单元、一个或多个输入设备以及一个或多个输出设备。这些组件可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如互联网)提供服务，例如在线会议应用，并且它们可以通过web浏览器或任何其他计算组件被访问。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们也可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

如图所示，在环境100中，参与会议的各方，例如会议现场110、参会设备102、104、108向服务器130提供原声的音频流。服务器130可以使用混音器将接收到的音频流进行混音，然后将混音后的音频流发送到翻译设备105、106、107(为清楚起见，图中仅示出了到105的音频流)。各个语言频道的翻译员120在收听到原声后的音频流之后，向各自的翻译设备输入译声的音频流。例如，包括中文译声的音频流被输入到翻译设备106，包括英文译声的音频流被输入到翻译设备107。中文译声的音频流和英文译声的音频流继而被发送到服务器130。服务器130然后可以使用混音器对接收到的音频流进行混音，然后将混音后的音频流发送到参会设备102、104、108。这里，中文译声被发送到被配置在中文频道上的参会设备102和104，而英文译声被发送到被配置在英文频道上的参会设备108。

以上描述了示例性环境100的示例组成和它们之间的示例通信过程。应理解，本公开的实施例可以在与此不同的环境中被实施，例如，环境可以包括更多或更少的语言频道，更多或更少的翻译设备，或者更多或更少的参会设备。

系统架构

图2示出了根据本公开的一些实施例的提供同声传译服务的会议系统200的示意框图。会议系统200包括经由网络彼此连接的媒体服务器204、会议控制服务器202、多个会议终端212、214、218。在一些实施例中，媒体服务器204和会议控制服务器202可以在图1所示的服务器130中被实现，例如，媒体服务器204和会议控制服务器202可以以集中式方式实现在单个服务器或服务器集群上，或者以分布式方式实现在云服务器上。

会议终端212、214、218可以是在硬件设备上运行的软件。例如，会议终端212、214、218中任一个可以被实现为在会议现场布置的现场设备101、参会设备102、104、108上执行的会议应用，或者被实现为在翻译员120的翻译设备105、105、107上执行的会议应用。备选地，会议终端212、214、218中任一个也可以被实现为被实现为硬件设备，例如，翻译员120使用的传译机或者参会者使用的硬件设备。会议终端212、214、218可以向媒体服务器204发送音视频流，并且从媒体服务器204接收音视频流。会议终端在接入会议时，可以从会议控制服务器202获取会议的语言频道信息，然后由用户通过操作会议终端来选择是否加入某个语言频道，以收听对应语言频道的声音。

会议控制服务器202用于在会议中给会议终端212、214、218以及媒体服务器204提供会议业务信息。会议业务信息可以包括当前会议支持的语言频道列表、会议终端列表、会议终端所在语言频道或会议终端的角色(例如，参会或者翻译)。另外，会议控制服务器202还可以为会议终端212、214、218提供控制接口以使其包括加入各自的语言频道，并且根据语言频道信息来控制媒体服务器204的音视频流的收发和媒体处理。

媒体服务器204用于控制会议中的音视频流的接入、处理、转发，包括在多个媒体服务器之间的转发和处理。在一些实施例中，媒体服务器204可以从会议控制服务器202获取会议终端212、214、218的语言频道信息，并且基于语言频道信息向会议终端212、214、218对音频流进行混音，并且向会议终端212、214、218发送音频流。使用媒体服务器204和会议终端自身的混音器，会议终端的用户可以收到相同语言频道的其他会议终端的原声和对应语言频道的翻译员的译声。在一些实施例中，会议终端212、214、218也可以不加入任何语言频道。在这种情况下，会议终端212、214、218的用户将不会收听到任何翻译员的译声，仅收听到会议现场原声和任何语言频道的原声。

在一些实施例中，媒体服务器204可以通过多点控制单元(MCU)来实现。MCU可以用于接收会议终端212、214、218发送的音视频流，将接收到的音视频流进行解码、混音、重采样处理等，将混音后的音视频进行重新编码并发送到目标会议终端212、214、218。备选地，媒体服务器204可以通过选择转发单元(SFU)来实现。SFU可以被配置为媒体流路由器，用于接收会议终端212、214、218的音视频流，根据需要转发给其他会议终端。在一些实施例中，SCF可以会议终端需要收听的音频流发送给会议终端，由会议终端212、214、218的混音器合成所需要的音频流。因此，取决于媒体服务器204的具体实现方式，由媒体服务器204或者会议终端212、214、218处的混音器来进行混音。

以上描述了会议系统200的示意框图。应理解，会议系统200还可以实现为不同的结构。例如，会议系统200可以包括更多的媒体服务器，并且可以在多个媒体服务器之间接收和发送音频流。会议系统200还可以包括更多或更少的会议终端，本公开对此不做限制。

多路音频过滤

根据本公开的一些实施例，提供了音频处理的方法。根据该方法，当检测到语言频道处于活跃状态时，在混音时从多路音频流中过滤掉对应于该语言频道的翻译设备的声音。以下结合附图描述。

图3示出了根据本公开的一些实施例的会议系统的通信过程300的示意交互图。在图3中，媒体服务器204通过多点控制单元(MCU)来实现。在这种情况下，在媒体服务器204处执行混音。为了方便说明，将参照图1和图2来描述图3所示的通信过程300。

第一设备102、第二设备104、第三设备106和第四设备108可以在其上运行会议应用。当第一设备102、第二设备104、第三设备106和第四设备108启动会议应用时，用户可以操作设备来选择加入所期望的语言频道，或者成为某个语言频道的翻译。如图3所示，第一设备102可以向会议控制服务器202发送301A消息，加入第一语言频道。第二设备104可以向会议控制服务器202发送301B消息，加入第一语言(例如，中文)频道。第三设备106可以向会议控制服务器202发送301C消息，成为第一语言频道的翻译。第四设备108可以向会议控制服务器202发送301D消息，加入第二语言(例如，英文)频道。通过上述动作301A至301D，第一设备101和第二设备102成为被配置在第一语言频道上的参会设备，第三设备106成为以第一语言为目标翻译语言的翻译设备，而第四设备108成为被配置在第二语言频道上的参会设备。为了简洁，图3中未示出会议现场110的现场设备101，但是应理解，现场设备101也可以被接入到会议控制服务器202，并向登记为现场设备，即，不属于任何语言频道。现场设备101采集到的音视频流可以被发送给媒体服务器204，并进一步被处理和转发。

然后，会议控制服务器202向媒体服务器204发送302各个设备的频道关系。随后，媒体服务器204将基于频道关系来控制针对第一设备102、第二设备104、第三设备106和第四设备108的音频流的混音操作。

在会议中，第一设备102向媒体服务器204发送303A音频流。第一设备102的音频流可以是第一设备102采集到的用户说话的语音，经过采样、编码、压缩而形成的音频流，也可以是通过在第一设备102播放媒体文件而生成的。类似地，第二设备104向媒体服务器2044发送303B音频流，第三设备106向媒体服务器204发送303C音频流，第四设备108向媒体服务器204发送303D音频流。需要注意的是，作为翻译设备的第三设备106向媒体服务器204发送的音频流可能是翻译员120说出的译声，也可能是会议中的原声。具体地，当翻译员120在工作时，第三设备106的音频流翻译后的中文译声，而当翻译员120不工作时，第三设备106的音频流将会是从第三设备106的输入端短接到输出端的原声。

媒体服务器204基于接收到的音频流来确定304第一语言频道是否处于活跃状态。根据本公开的实施例，基于音频流的音量来确定第一语言频道是否处于活跃状态。在该示例中，第一设备102和第二设备104被配置在第一语言频道，媒体服务器204确定第一设备102和第二设备102的音频流的音量，并且将所确定的音量发送305给会议控制服务器202。会议控制服务器202基于会议中的所有音频流的音量来确定306与第一语言频道有关的音频流的音量是否足够大。当第一语言频道中的音频流的音量足够大时，会议控制服务202确定第一语言频道处于活跃状态。例如，会议控制服务器202从媒体服务器204和其他媒体服务器接收到该会议中的所有音频流的音量。如果确定第一设备102和第二设备104中至少一个的音频流的音量被确定为所有音频流中的最大音量或者是多个最大音量之一，则会议控制服务器202可以确定第一语言频道处于活跃状态。这里，多个最大音量之一是指，将会议中的所有音频流的音量按照从大到小的排序，音量大小排名在前N名(N为正证书)，例如，前三、前五等，本公开对N的值不做限制。

如果确定第一语言频道处于活跃状态，会议控制服务器202向媒体服务器204发送307第一语言频道处于活动状态的指示。由此，媒体服务器204可以基于该指示来确定304第一语言频道处于活跃状态。在一些实施例中，如果确定第一语言频道不处于活跃状态，则会议控制服务器202可以不向媒体服务器204发送任何指示，使得媒体服务器204隐含认为第一语言频道不处于活跃状态。替代地，会议控制服务器202可以向媒体服务器204发送显式的不处于活跃状态的指示。

备选地，在一些实施例中，媒体服务器304可以基于音量的大小来确定第一语言频道是否处于活跃状态，而不需要来自会议服务器202的指示。例如，当确定第一设备102和第二设备104的音频流中有一个或者两个音频流的音频超过预设音量阈值(例如，30分贝)时，可以认为第一语言频道处于活跃状态，即，有人在说话。

然后，媒体服务器204使用混音器来进行混音308。在一些实施例中，如果媒体服务器204在动作304确定第一语言频道处于活跃状态，则针对被配置在第一语言频道上的第一设备102和104，媒体服务器204排除作为翻译设备的第三设备106的音频流。媒体服务器204在为第一设备102混音308时，还需排除第一设备102自身的音频流，因此，媒体服务器204向第一设备102发送309A第二设备104的音频流。类似地，媒体服务器204向第二设备104发送309B第一设备102的音频流。

另外，针对作为翻译设备的第三设备106，媒体服务器204混音得到会议中的原声，并且向第三设备108发送309C原声音频流。原声可以包括会议现场110的音频流、被配置在第一语言频道的设备102和104的音频流、被配置在第二语言频道的设备106的音频流等。

然而，如果确定第一语言频道不处于活跃状态，则媒体服务器204不排除第三设备106的音频流。第三设备106的音频流可能包括翻译员120提供的第一语言译声，因此可以被发送给第一设备102和第二设备104。

在一些实施例中，排除第三设备106的音频流要持续至少一个时间段。例如，一旦检测到第一语言频道处于活跃状态，可以立即排除第三设备106的音频流，并且在此后的至少5秒、10秒、15秒内都要排除第三设备106的音频流。换句话说，在第一语言频道在一个时间段期间都被确定为不处于活跃状态的情况下，才可以使用翻译设备的音频流进行混音。以此方式，第一语言频道中的原声有足够长的时间不会被翻译设备的声音打断，避免了翻译设备的声音反复、间断地被发送给参会设备。

以第一语言频道为中文频道，第二语言频道为英文频道为例，说明根据本公开的实施例的应用。

当会议中有人在说英文(例如，来自会议现场110或第四设备108)，并且中文频道中无人在说话时，作为翻译设备的第三设备106接收到英文的会议原声。这时，同声翻译的翻译员120可以操作第三设备106并且说出中文译声，并且中文译声被采集和发送303C到媒体服务器204。由于中文频道无人在说话，被确定为不处于活跃状态，所以媒体服务器204在针对中文频道的设备102和104进行混音时，不排除第三设备106的音频流。在这种情况下，发送给第一设备102的混音后的音频流包括翻译员120的译声和来自第二设备104的声音，而发送给第二设备102的混音后的音频流包括翻译员120的译声和来自第一设备102的声音。

然而，一旦中文频道中有人在说话，很可能在说中文，则同声翻译的翻译员120将不工作。如上所述，鉴于第三设备106的固有功能，第三设备106将会向媒体服务器204发送包括中文语音的会议原声。根据本公开的实施例，媒体服务器204可以确定中文频道处于活跃状态，由此在针对中文频道的第一设备102和第二设备104进行混音时，排除来自第三设备106的会议原声。也就是说，来自第三设备106的次生的会议原声不会被发送给第一语言频道的中的第一设备102和第二设备104。由此，第一设备102和第二设备104的用户不会重复收听到中文的会议原声。

以上参照图3描述了根据本公开的实施例通信过程300。应理解，通信过程300仅为示例性的，其还可以适用于具有更多或更少参会设备和翻译设备的会议场景，也可以适用于更多或更少的语言频道的会议场景。

图4示出了根据本公开的一些实施例的会议系统的通信过程400的示意交互图。在图4中，媒体服务器204通过选择转发单元(SFU)来实现。与基于MCU的实现方式不同，在这种情况下，在媒体服务器204处不执行混音，而是在会议终端所在的设备处执行混音。为了方便说明，将参照图1和图2来描述图4所示的通信过程400。

第一设备102、第二设备104、第三设备106和第四设备108可以在其上运行会议应用。当第一设备102、第二设备104、第三设备106和第四设备108启动会议应用时，用户可以操作设备来选择加入所期望的语言频道，或者成为某个语言频道的翻译。如图4所示，第一设备102可以向会议控制服务器202发送401A消息，加入第一语言频道。第二设备104可以向会议控制服务器202发送401B消息，加入第一语言(例如，中文)频道。第三设备106可以向会议控制服务器202发送401C消息，成为第一语言频道的翻译。第四设备108可以向会议控制服务器202发送401D消息，加入第二语言(例如，英文)频道。通过上述动作301A至301D，第一设备101和第二设备102成为被配置在第一语言频道上的参会设备，第三设备106成为以第一语言为目标翻译语言的翻译设备，而第四设备108成为被配置在第二语言频道上的参会设备。为了简洁，图4中未示出会议现场110的现场设备101，但是应理解，现场设备101也可以被接入到会议控制服务器202，并向登记为现场设备，即，不属于任何语言频道。现场设备101采集到的音视频流可以被发送给媒体服务器204，并进一步被处理和转发。

然后，会议控制服务器202向各个设备发送频道关系，如图4中的附图标记402A、402B、402C、402D所示。然后，在会议中，第一设备102向媒体服务器204发送403A音频流及音量。第一设备102的音频流可以是第一设备102采集到的用户说话的语音，经过采样、编码、压缩而形成的音频流，也可以是通过在第一设备102播放媒体文件而生成的。类似地，第二设备104向媒体服务器204发403B音频流，第三设备106向媒体服务器204发送403C音频流，第四设备108向媒体服务器204发送403D音频流。需要注意的是，作为翻译设备的第三设备106向媒体服务器204发送的音频流可能是翻译员120说出的译声，也可能是会议中的原声。具体地，当翻译员120在工作时，第三设备106的音频流翻译后的中文译声，而当翻译员120不工作时，第三设备106的音频流将会是从第三设备106的输入端短接到输出端的原声。

在一些实施例中，媒体服务器204进一步向会议控制服务器202发送404接收到的所有音频流的音量，以便由会议控制服务器406来确定第一语言频道是否处于活跃状态。

在会议期间，媒体服务器204还向第一设备102发送405A被配置在相同语言频道中的第二设备104和作为翻译设备的第三设备106的音频流和音量，向第二设备104发送405B第一设备104和第三设备106的音频流和音量。另外，媒体服务器204还向作为翻译设备的第三设备106发送405C第一设备102、第二设备104以及被配置在第二语言频道上的第四设备的音频流和音量。也就是说，作为翻译设备的第三设备106接收会议的第一语言频道和第二语言频道上的原声。

根据本公开的实施例，基于音频流的音量来确定第一语言频道是否处于活跃状态。媒体服务器204将接收到的音频流的所有音量发送405给会议控制服务器202。会议控制服务器202基于会议中的所有音频流的音量来确定406与第一语言频道有关的音频流的音量是否足够大。当第一语言频道中的音频流的音量足够大时，会议控制服务202确定第一语言频道处于活跃状态。例如，会议控制服务器202可以从媒体服务器204和其他媒体服务器接收到该会议中的所有音频流的音量。如果确定第一设备102和第二设备104中至少一个的音频流的音量被确定为所有音频流中的最大音量或者是多个最大音量之一，会议控制服务器202可以确定第一语言频道处于活跃状态。

如果确定第一语言频道处于活跃状态，会议控制服务器202向被配置在第一语言频道上的第一设备102发送407A第一语言频道处于活动状态的指示，并且向第二设备104发送407B该指示。由此，第一设备102和第二设备104可以获知第一语言频道处于活跃状态。在一些实施例中，如果会议控制服务器202确定第一语言频道不处于活跃状态，则会议控制服务器202可以不向第一设备102和第二设备104发送任何指示，使得第一设备102和第二设备104隐含认为第一语言频道不处于活跃状态。替代地，会议控制服务器202可以显式地发送不处于活跃状态的指示。

备选地，还可以由媒体服务器204来确定第一语言频道是否处于活跃状态。在这种情况下，媒体服务器204不向会议控制服务器202发送与音频流的音量有关的信息，而是基于接收到的音频流的音量来确定第一语言频道是否处于活跃状态。具体地，媒体服务器204可以通过确定第一设备102和第二设备102中的一个音频流的音量超过预设音量阈值(例如，30分贝)，或者一个音频流的音量是媒体服务器204接收到的所有音频流中的最大音量或多个最大音量之一，确定第一语言频道是否处于活跃状态。响应于确定第一语言频道处于活跃，媒体服务器204可以向第一设备102和第二设备102发送相应的指示。

备选地，还可以由参会设备自身来确定第一语言频道是否处于活跃状态。在这种情况下，例如，第一设备102可以基于自身的音频流的音量、以及接收到的第一语言频道中的其他设备(例如，第二设备104等)，确定第一语言频道是否处于活跃状态。具体地，第一设备102可以通过确定第一设备102和第二设备102中的一个音频流的音量超过预设音量阈值(例如，30分贝)，确定第一语言频道是否处于活跃状态。

然后，第一设备102和第二设备104使用混音器来进行混音408A。在一些实施例中，响应于接收到407A来自会议控制服务器202或媒体服务器204的活跃指示，或者响应于第一设备102确定第一语言频道处于活跃状态，第一设备102通过排除第三设备106的音频流来进行混音408A。例如，第一设备101接收到第二设备104和第三设备106的音频流，因此，将使用第二设备104的音频流来进行混音。类似地，第二设备104将使用第一视频102的音频流来进行混音408B。然而，如果会议控制服务器202确定第一语言频道不处于活跃状态，第一设备102和104将不排除第三设备106的音频流来进行混音。

与参考图3描述的过程300类似，第一设备102和第二设备104排除第三设备106的音频流也要持续至少一个时间段。例如，一旦检测到第一语言频道处于活跃状态，可以第一设备102和第二设备104可以立即排除第三设备106的音频流，并且在此后的至少5秒、10秒、15秒内都要排除第三设备106的音频流。换句话说，在第一语言频道在一个时间段期间都被确定为不处于活跃状态的情况下，才可以使用翻译设备的音频流进行混音。以此方式，第一语言频道中的原声有足够长的时间不会被翻译设备的声音打断，避免了翻译设备的声音反复、间断地被发送给参会设备。

当会议中有人在说英文(例如，来自会议现场110或第四设备108)，并且中文频道中无人在说话时，作为翻译设备的第三设备106接收到英文的会议原声。这时，同声翻译的翻译员120可以操作第三设备10并说出中文译声，中文译声被采集和发送303C到媒体服务器204。由于中文频道无人在说话，被确定为不处于活跃状态，所以会议控制服务器202不向第一设备102和第二设备104发送第一语言频道处于活跃状态的指示。因此，第一设备102和第二设备104在使用混音器进行混音时，不排除第三设备106的音频流。

然而，一旦中文频道中有人在说话，很可能在说中文，则同声翻译的翻译员120将不工作。如上所述，鉴于第三设备106的固有功能，第三设备106将会向媒体服务器204发送包括中文语音的会议原声。根据本公开的实施例，会议控制服务器202可以确定中文频道处于活跃状态，从向被配置在第一语言频的第一设备102和第二设备104提供相应的指示。根据该指示，第一设备102和第二设备104在执行混音操作时，排除来自第三设备106的会议原声。由此，第一设备102和第二设备104的用户不会重复收听到中文的会议原声。

以上参照图4描述了根据本公开的实施例通信过程400。应理解，通信过程400仅为示例性的，其还可以适用于具有更多或更少参会设备和翻译设备的会议场景，也可以适用于更多或更少的语言频道的会议场景。

本公开的实施例还提供了一种适用于包括两个语言频道的会议的方案。该方案能够更为简单方便地过滤掉由翻译设备的固有功能造成的重复语音。以下参照图5和图6来描述。

图5示出了根据本公开的一些实施例的会议系统的通信过程500的示意交互图。在图5中，媒体服务器204通过多点控制单元(MCU)来实现。在这种情况下，在媒体服务器204处执行混音。为了方便说明，将参照图1和图2来描述图5所示的通信过程500。

第一设备102、第二设备104、第三设备106和第四设备108可以在其上运行会议应用。当第一设备102、第二设备104、第三设备106和第四设备108启动会议应用时，用户可以操作设备来选择加入所期望的语言频道，或者成为某个语言频道的翻译。如图5所示，第一设备102可以向会议控制服务器202发送501A消息，加入第一语言频道。第二设备104可以向会议控制服务器202发送501B消息，加入第一语言(例如，中文)频道。第三设备106可以向会议控制服务器202发送501C消息，成为第一语言频道的翻译。第四设备108可以向会议控制服务器202发送501D消息，加入第二语言(例如，英文)频道。通过上述动作501A至501D，第一设备101和第二设备102成为被配置在第一语言频道上的参会设备，第三设备106成为以第一语言为目标翻译语言的翻译设备，而第四设备108成为被配置在第二语言频道上的参会设备。为了简洁，图3中未示出会议现场110的现场设备101，但是应理解，现场设备101也可以被接入到会议控制服务器202，并向登记为现场设备，即，不属于任何语言频道。现场设备101采集到的音视频流可以被发送给媒体服务器204，并进一步被处理和转发。

然后，会议控制服务器202向媒体服务器204发送502各个设备的频道关系。频道关系可以被用来控制媒体服务器204针对第一设备102、第二设备104、第三设备106和第四设备108的混音操作。

在会议中，第一设备102向媒体服务器204发送503A音频流。第一设备102的音频流可以是第一设备102采集到的用户说话的语音，经过采样、编码、压缩而形成的音频流，也可以是通过在第一设备102播放媒体文件而生成的。类似地，第二设备104向媒体服务器204发送503B音频流，第三设备106向媒体服务器204发送503C音频流，第四设备108向媒体服务器204发送503D音频流。需要注意的是，作为翻译设备的第三设备106向媒体服务器204发送的音频流可能是翻译员120说出的译声，也可能是会议中的原声。具体地，当翻译员120在工作时，第三设备106的音频流翻译后的中文译声，而当翻译员120不工作时，第三设备106的音频流将会是从第三设备106的输入端短接到输出端的原声。

媒体服务器204基于接收到的频道关系来针对各个设备进行混音。根据本公开的实施例，针对第三设备106，媒体服务器204基于频道关系确定其是与第一语言频道相关联的翻译设备。媒体服务器204排除60被配置在第一语言频道上的设备的音频流，为第三设备106执行混音604。也就是说，第四设备108的音频流和会议现场110的音频流在混音后被发送695给第三设备106。

此外，针对被配置在第一语言频道上的第一设备102和104，媒体服务器204使用被配置在第一语言频道上的除自身之后的设备的音频流以及翻译设备的音频流来进行混音(图5未示出)。例如，媒体服务器204可以按照如下方式进行混音：针对第一设备102，使用第二设备104的音频流和作为翻译设备的第三设备106的音频流进行混音；针对第二设备104，使用第一设备101和第三设备106的音频流进行混音。

在图5所示的通信过程500中，发送到第三设备106的音频流已经被预先排除了对应的语言频道，即中文频道上的设备的音频流。当翻译员120听到第二语言频道上的第二设备108的语音时，翻译员120可以操作第三设备106并且说出对应的中文译声，中文译声然后被发送到媒体服务器204，进而被混音和发送到被配置在中文频道上的第一设备102和104，由此中文频道的用户收听到翻译员120提供的译声。当第一设备102和104的用户中有人在说中文时，其他语言频道的设备(例如，被配置为英文频道上的第四设备108)很可能不会向媒体服务器204发送包括其他语言语音的音频流。这时，翻译员不工作。由于第三设备106的固有功能，第三设备106输出音频流将会是从第三设备106的输入端短接到输出端的原声。在图5所示的过程500中，第三设备106的输入音频流不包括来自第一设备102和第二设备104的中文语音，因此，当翻译员120不工作时，从第三设备106发送到媒体服务器204的音频流也不包括这些中文语音。因此，第一设备102和第二设备104也不会从媒体服务器204接收到经由第三设备106的次生的中文原声。

以上参照图5描述了根据本公开的实施例通信过程500。应理解，通信过程500仅为示例性的，其还可以适用于具有更多或更少参会设备的会议场景。

图6示出了根据本公开的一些实施例的会议系统的通信过程600的示意交互图。在图6中，媒体服务器204通过选择转发单元(SFU)来实现。与基于MCU的实现方式不同，在这种情况下，在媒体服务器204处不执行混音，而是在会议终端所在的设备处执行混音。为了方便说明，将参照图1和图2来描述图6所示的通信过程600。

第一设备102、第二设备104、第三设备106和第四设备108可以在其上运行会议应用。当第一设备102、第二设备104、第三设备106和第四设备108启动会议应用时，用户可以操作设备来选择加入所期望的语言频道，或者成为某个语言频道的翻译。如图6所示，第一设备102可以向会议控制服务器202发送601A消息，加入第一语言频道。第二设备104可以向会议控制服务器202发送601B消息，加入第一语言(例如，中文)频道。第三设备106可以向会议控制服务器202发送601C消息，成为第一语言频道的翻译。第四设备108可以向会议控制服务器202发送601D消息，加入第二语言(例如，英文)频道。通过上述动作601A至601D，第一设备101和第二设备102成为被配置在第一语言频道上的参会设备，第三设备106成为以第一语言为目标翻译语言的翻译设备，而第四设备108成为被配置在第二语言频道上的参会设备。为了简洁，图3中未示出会议现场110的现场设备101，但是应理解，现场设备101也可以被接入到会议控制服务器202，并向登记为现场设备，即，不属于任何语言频道。现场设备101采集到的音视频流可以被发送给媒体服务器204，并进一步被处理和转发。

然后，会议控制服务器202向作为翻译设备的第三设备106发送各个设备的频道关系。第三设备106可以基于频道关系来控制混音操作。

在会议中，第一设备102向媒体服务器204发送603A音频流。第一设备102的音频流可以是第一设备102采集到的用户说话的语音，经过采样、编码、压缩而形成的音频流，也可以是通过在第一设备102播放媒体文件而生成的。类似地，第二设备104向媒体服务器204发送603B音频流，第三设备106向媒体服务器204发送603C音频流，第四设备108向媒体服务器204发送603D音频流。需要注意的是，作为翻译设备的第三设备106向媒体服务器204发送的音频流可能是翻译员120说出的译声，也可能是会议中的原声。具体地，当翻译员120在工作时，第三设备106的音频流翻译后的中文译声，而当翻译员120不工作时，第三设备106的音频流将会是从第三设备106的输入端短接到输出端的原声。

接下来，媒体服务器204向第三设备106发送604除其自身以外的音频流，该音频流包括第一设备102、第二设备104和第四设备108以及会议现场的音频流。作为翻译设备，第三设备106从媒体服务器204接收到包括各种语言的会议原声。

第三设备基于接收到的频道关系，识别出被配置为在第一语言频道上的设备102和104，然后，通过排除第一设备102和第二设备104的音频流，为第三设备106执行混音605。因此，第三设备106的输入不包括被配置在第一语言频道上的设备的音频流。

此外，针对被配置在第一语言频道上的第一设备102和104，媒体服务器204使用被配置在第一语言频道上的除自身之后的设备的音频流以及翻译设备的音频流来进行混音(图6未示出)。例如，媒体服务器204可以按照如下方式进行混音：针对第一设备102，使用第二设备104的音频流和作为翻译设备的第三设备106的音频流进行混音；针对第二设备104，使用第一设备101和第三设备106的音频流进行混音。

在图6所示的通信过程600中与上述参照图5描述的过程类似，不同之处是混音操作由翻译设备自身来完成。在图6所示的过程600中，第三设备106的输入音频流不包括来自第一设备102和第二设备104的中文语音，因此，当翻译员120不工作时，从第三设备106发送到媒体服务器204的音频流也不包括这些中文语音。因此，第一设备102和第二设备104也不会从媒体服务器204接收到经由第三设备106的次生的中文原声。

示例性方法和流程

以下参照图7至图12描述根据本公开的多个实施例的由会议系统200中的各个组件执行的方法和流程。

图7示出了根据本公开的一些实施例的音频处理方法700的示意流程图。方法700可以由通过MCU实现的媒体服务器204来执行，并在参照图3描述的通信过程300中被实施。

根据本公开的实施例，提供了一种音频处理方法700。在框702，媒体服务器204接收被配置在第一语言频道上的参会设备的至少一个音频流以及与第一语言频道相关联的翻译设备的音频流。这里，参会设备可以是例如第一设备102和第二设备104等，并且翻译设备可以是例如第三设备106。

在一些实施例中，媒体服务器204还可以从被配置在第二语言频道上的另一参会设备接收音频流，并且向翻译设备发送该另一参会设备的音频流。这里，该另一参会设备可以是例如第四设备108。该另一参会设备的音频流被发送到翻译设备，使得翻译员可以使用翻译设备为被配置在第一语言频道上的用户提供从第二语言到第一语言的译声。

在框704，媒体服务器202基于接收到的第一语言频道的参会设备的至少一个音频流，确定第一语言频道是否处于活跃状态。如是，则方法前进到框706，如否，则方法回到框702。

在一些实施例中，媒体服务器204可以借助会议系统中的会议控制服务器202来确定第一语言频道是否处于活跃状态。具体地，媒体服务器204可以向会议控制服务器202发送与至少一个音频流的音量有关的信息，使得会议控制服务器202可以至少部分地基于该音量来确定第一语言频道是否处于活跃状态，并且可以向媒体服务204提供相应的指示。例如，如果至少一个音频流中有一个音频流的音量超过预设音量阈值(例如，30分贝)，则会议控制服务器202可以确定第一语言频道处于活跃状态。备选地，如果至少一个音频流中的一个音频流的音量是会议中的所有音频流中的最大音量或多个最大音量之一，会议控制服务器202可以确定第一语言频道处于活跃状态。然后，一旦确定第一语言频道处于活跃状态，会议控制服务器202可以发消息或指示来通知媒体服务器204。由此，媒体服务器204可以响应于从所述会议控制服务器接收到所述第一语言频道处于活跃状态的指示确定第一语言频道处于活跃状态。

在一些实施例中，媒体服务器204可以自己确定第一语言频道是否处于活跃状态。类似地，如果至少一个音频流中有一个音频流的音量超过预设音量阈值(例如，30分贝)，或者一个音频流的音量是会议中的所有音频流中的最大音量或多个最大音量之一，则媒体服务器204可以确定第一语言频道是否处于活跃状态。

接下来，在框706，媒体服务器204通过排除翻译设备的音频流进行混音。在一些实施例中，对于被配置在第一语言频道上的第一参会设备，例如第一设备102，通过排除来自第一参会设备的音频流和翻译设备的音频流来进行混音。也就是说，对于特定参会设备，媒体服务器204不使用参会设备自身的音频流来进行混音。

在一些实施例中，如果第一语言频道在一个时间段期间被确定为不处于活跃状态，使用翻译设备的音频流进行混音。也就是说，当第一语言频道持续一段时间都被确认为不活跃时，可以恢复使用翻译设备的音频流来进行混音。在一些实施例中，对于被配置在第一语言频道上的参会设备中的第一参会设备，使用翻译设备的音频流并且所述第一参会设备的音频流来进行混音。

在一些实施例，在完成混音之后，媒体服务器204可以向被配置在第一语言频道中的参会设备发送混音后的音频流。

应理解，根据本公开的实施例的音频处理方法的步骤可以以与图7不同的顺序来执行，或者以并行方式来执行。该音频处理方法还可以包括更多或更少的步骤。

图8示出了根据本公开的一些实施例的音频处理方法的800示意流程图。方法800可以由作为参会设备的第一设备102来执行，并在参照图4描述的通信过程400中被实施，其中媒体服务器204通过SFU实现。

在框802，被配置在第一语言频道上的第一参会设备向媒体服务器204发送第一参会设备的音频流。在一些实施例中，第一参会设备还可以向媒体服务器204发送与其音频流的音量有关的信息。该音量可以被会议控制服务器202用于确定第一语言频道是否处于活跃状态。

在框804，第一参会设备接收与第一语言频道相关联的翻译设备的音频流。这里，翻译设备可以是例如向会议控制服务器注册过的第三设备106。如上所述，翻译设备的音频流可以是翻译提供的译声，也可以是从翻译设备的输入端短接到输出端的会议原声的音频流。

在框806，第一参会设备确定是否接收到第一语言频道处于活跃状态的指示。如果是，方法前进到框808。在一些实施例中，媒体服务器204向会议控制服务器202转发接收到的音频流的音量信息，使得会议控制服务器202可以至少部分地基于音频流的音量来确定第一语言频道是否活跃。如果来自第一语言频道的设备的一个音频流的音量超过预设音量阈值(例如，30分贝)，或者会议的所有音频流中的最大音量或多个最大音量之一，则会议控制服务器202可以确定第一语言频道处于活跃，并且向第一参会设备发送相应的指示。

在框808，响应于接收到第一语言频道处于活跃状态的指示，第一参会设备通过排除翻译设备的音频流来进行混音。

如果没有接收到指示，则方法800返回框802，并且重复上述在框802至806描述的步骤。

在一些实施例中，在排除翻译设备的音频流之后，如果第一参会设备在一个时间段内未接收到第一语言频道处于活跃状态的指示，使用翻译设备的音频流进行混音。也就是说，当第一语言频道持续一段时间都被确定为不活跃时，可以恢复使用翻译设备的音频流来混音。

在一些实施例中，第一参会设备还可以接收被配置在第一语言频道上的第二参会设备的音频流。这里，第二参会设备可以是例如第二设备104。在这种情况下，第一参会设备使用第二参会设备的音频流，并且排除翻译设备的音频流来进行混音。

应理解，根据本公开的实施例的音频处理方法的步骤可以以与图8不同的顺序来执行，或者以并行方式来执行。该音频处理方法还可以包括更多或更少的步骤。

图9示出了根据本公开的一些实施例的音频处理方法900的示意流程图。方法900可以由通过SFU实现的媒体服务器204来执行，并在参照图4描述的通信过程400中被实施。

在框902，媒体服务器204接收被配置在第一语言频道上的至少一个参会设备的至少一个音频流。这里，至少一个参会设备可以包括第一设备102和第二设备104。

在一些实施例中，媒体服务器204还可以接收与该至少一个音频流的音量有关的信息。音量可以被媒体服务器204用于确定第一语言频道是否处于活跃状态。

在框904，媒体服务器204向至少一个参会设备发送与第一语言频道相关联的翻译设备的音频流。这里，翻译设备可以是例如第三设备106。取决于翻译员是否在工作，翻译设备向参会设备提供对应的译声或者会议原声。

在一些实施例中，媒体服务器204向被配置在第一语言频道上的第一参会设备发送被配置在该第一语言频道上的第二参会设备的音频流。例如，媒体服务器204将从第二设备104接收到的音频流转发给第一设备102。

在框906，媒体服务器204基于该至少一个音频流来确定第一语言频道是否处于活跃状态。在一些实施例中，媒体服务器204可以向会议控制服务器202发送与至少一个音频流的音量有关的信息。音量信息可以被会议控制服务器202用来确定第一语言频道是否处于活跃状态。当会议控制服务器202基于至少一个音频流的音量确定第一语言频道处于活跃时，可以向媒体服务器202发送第一语言频道处于活跃状态的指示。响应于从会议控制服务器202接收到第一语言频道处于活跃状态的指示，媒体服务器204可以确定所述第一语言频道处于活跃状态。如上所述，该指示至少部分地基于至少一个音频流的音量。

在一些实施例中，媒体服务器204也可以基于接收到的音频流来确定第一语言频道是否处于活跃状态。媒体服务器204可以通过确定被配置在第一语言频道上的参会设备的至少一个音频流中的一个音频流的音量超过预设音量阈值(例如，30分贝)，或者一个音频流的音量是媒体服务器204接收到的所有音频流中的最大音量或多个最大音量之一，确定第一语言频道是否处于活跃状态。

在框908，如果确定第一语言频道处于活跃状态，媒体服务器204向至少一个参会设备发送第一语言频道处于活跃状态的指示，使得至少一个参会设备通过排除翻译设备的音频流来进行混音。如果没有接收到指示，则方法900返回框902，并且重复上述在框902至906描述的步骤。

另外，响应于确定第一语言频道处于活跃状态，会议控制服务器202还可以向第一设备102和第二设备104发送第一语言频道处于活跃状态的指示，而不需要经由媒体服务器204。

在一些实施例中，媒体服务器204还可以接收被配置在第二语言频道上的第三参会设备的音频流。这里，被配置在第二语言频道上的参会设备可以是例如第四设备108。然后，媒体服务器204可以向翻译设备发送被配置在所述在第二语言频道上的参会设备的音频流。

图10示出了根据本公开的一些实施例的音频处理方法1000的示意流程图。方法1000可以由作为参会设备的第一设备102来执行，并且在媒体服务器204通过SFU实现的环境中实施。相比于参照图8描述的方法800，方法1000的不同之处在于由参会设备自身确定其所在的语言频道是否处于活跃状态。

在框1002，被配置在第一语言频道上的第一参会设备向媒体服务器发送第一参会设备的音频流。这里，第一参会设备可以是例如第一设备102。

在框1004，第一参会设备从媒体服务器204接收与第一语言频道相关联的翻译设备的音频流和被配置在第一语言频道上的第二参会设备的至少一个音频流。这里，翻译设备可以是例如第三设备106，第二参会设备可以是例如第二设备104以及被配置在第一语言频道上的其他设备。

在框1006，第一参会设备确定第一语言频道是否处于活跃状态。具体地，第一参会设备基于第一参会设备的音频流和第二参会设备的至少一个音频流，确定第一语言频道是否处于活跃状态。在一些实施例中，第一参会设备可以确定第一参会设备的音频流和第二参会设备的至少一个音频流中的一个音频流的音量超过预设音量阈值(例如，30分贝)，由此可以确定第一语言频道处于活跃状态。

如果确定第一语言频道处于活跃状态，方法1000前进到框1008，第一参会设备通过排除翻译设备的音频流来进行混音。在一些实施例中，第一参会设备可以使用第二参会设备的至少一个音频流并且排除翻译设备的音频流和第一参会设备的音频流来进行混音。

如果确定第一语言频道不处于活跃状态，方法1000返回框1002，重复上述框1002至1006中描述的步骤。在一些实施例中，如果在一个时间段内连续确定第一语言频道不处于活跃状态，则第一参会设备可以使用翻译设备的音频流进行混音。

应理解，根据本公开的实施例的音频处理方法的步骤可以以与图10不同的顺序来执行，或者以并行方式来执行。该音频处理方法还可以包括更多或更少的步骤。

图11示出了根据本公开的一些实施例的音频处理方法1100的示意流程图。方法1100可以由通过MCU实现的媒体服务器204来执行，并在参照图5描述的通信过程500中被实施。

在框1102，媒体服务器204接收被配置在第一语言频道上的参会设备的至少一个音频流。这里，第一语言频道可以是例如第一设备102。在一些实施例中，媒体服务器204可以基于预先从会议控制服务器202接收到的设备和频道之间的对应关系，确定被配置在第一语言频道上的参会设备和翻译设备。如上所述，当设备登入会议时，向会议控制服务器202发送加入语言频道的请求或者称为特定语言频道的翻译设备的请求。因此，媒体服务器204可以从会议控制服务器202获取到设备和频道之间的对应关系。

在框1104，针对与第一语言频道相关联的翻译设备，媒体服务器204通过排除至少一个音频流来进行混音。翻译设备可以是例如第三设备106。

在一些实施例中，媒体服务器204还可以接收被配置在第二语言频道上的参会设备的第二音频流。这里，被配置在第二语言频道上的参会设备可以是例如第四设备108。

在框1106，媒体服务器204向翻译设备发送混音后的音频流。在一些实施例中，来自第一语言频道的音频流被排除，因此，媒体服务器204可以向翻译设备发送混音后的音频流包括向翻译设备发送该第二音频流。

在一些实施例中，媒体服务器204还可以接收翻译设备的第三音频流，并且向被配置在第一语言频道中的参会设备发送第三音频流。第三音频流可以是翻译员提供的译声或者从翻译设备的输入端短接到输出端而产生的会议原声。

应理解，根据本公开的实施例的音频处理方法的步骤可以以与图11不同的顺序来执行，或者以并行方式来执行。该音频处理方法还可以包括更多或更少的步骤。

图12示出了根据本公开的一些实施例的音频处理方法1200的示意流程图。方法1100可以由作为翻译设备的第三设备106来执行，并在参照图6描述的通信过程600中被实施，其中媒体服务器204通过SFU实现。

在框1202，接收至少一个音频流。具体地，翻译设备从媒体服务器204接收至少一个音频流。该音频流可以包括该音频流包括被配置在第一语言频道和第二语言频道上的参会设备的音频流以及会议现场的音频流。也就是说，翻译设备从媒体服务器204接收到包括各种语言的会议原声。

在框1204，识别至少一个音频流中的与第一语言频道相关联的音频流。在一些实施例中，翻译设备可以基于设备和频道之间的对应关系来识别与第一语言频道相关联的音频流。设备和频道之间的对应关系可以是从会议控制服务器202接收的。

在框1206，通过排除与第一语言频道相关联的音频流来进行混音。也就是说，经由翻译设备106，翻译员不会收到听到第一语言频道上的会议原声。

应理解，根据本公开的实施例的音频处理方法的步骤可以以与图12不同的顺序来执行，或者以并行方式来执行。该音频处理方法还可以包括更多或更少的步骤。

以上详细描述根据本公开的多个实施例的音频处理方法。在一些实施例中，当检测到特定语言频道处于活跃状态时，自动从发送给该语言频道内的参会者的音频流中去除对应于该语言频道的翻译设备的声音。以此方式，可以去除在会议中由同声传译的翻译设备导致的重复语音。在另一些实施例中，从翻译设备输入音频流中过滤掉对应的语言频道的会议原声，以简单的方式去除了在会议中由同声传译的翻译设备导致的重复语音。

示例装置和设备

图13示出了可以用来实施本公开的实施例的示例设备1300的示意性框图。设备1300可以用于实现如图1和图2所示的设备102、104、105、106、107、108，以及服务器130，包括会议控制服务器202和媒体服务器204。如图所示，设备1300包括中央处理单元(CPU)1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序指令或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法700、800、900、1000、1100和/或1200，可由处理单元1301执行。例如，在一些实施例中，方法700、800、900、1000、1100和/或1200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序被加载到RAM 1303并由CPU 1301执行时，可以执行上文描述的方法700、800、900、1000、1100和/或1200的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims

1.一种音频处理方法，包括：

接收被配置在第一语言频道上的参会设备的至少一个音频流以及与所述第一语言频道相关联的翻译设备的音频流；

基于所述至少一个音频流，确定所述第一语言频道是否处于活跃状态；以及

如果所述第一语言频道被确定为处于活跃状态，通过排除所述翻译设备的音频流进行混音。

2.根据权利要求1所述的方法，还包括：

接收被配置在第二语言频道上的另一参会设备的音频流；

向所述翻译设备发送所述另一参会设备的音频流。

3.根据权利要求1或2所述的方法，其中，确定所述第一语言频道是否处于活跃状态包括：

向会议控制服务器发送与所述至少一个音频流的音量有关的信息，以及

响应于从所述会议控制服务器接收到所述第一语言频道处于活跃状态的指示，确定所述第一语言频道处于活跃状态，所述指示至少部分地基于所述音量而确定。

4.根据权利要求1或2所述的方法，其中，确定所述第一语言频道是否处于活跃状态包括：确定所述至少一个音频流的音量是否满足以下任一项：

所述至少一个音频流中的一个音频流的音量超过预设音量阈值；或者

所述至少一个音频流中的一个音频流的音量是所述参会设备所在的会议中的所有音频流中的最大音量或多个最大音量之一。

5.根据权利要求1所述的方法，其中，通过排除所述翻译设备的音频流进行混音包括：

对于被配置在所述第一语言频道上的第一参会设备，通过排除来自所述第一参会设备的音频流和所述翻译设备的音频流来进行混音。

6.根据权利要求1所述的方法，还包括：

如果所述第一语言频道在一个时间段期间被确定为不处于活跃状态，使用所述翻译设备的音频流进行混音。

7.根据权利要求6所述的方法，其中，使用所述翻译设备的音频流进行混音包括：

对于被配置在所述第一语言频道上的所述参会设备中的第一参会设备，使用所述翻译设备的音频流并且排除所述第一参会设备的音频流来进行混音。

8.根据权利要求1所述的方法，还包括：

向被配置在所述第一语言频道中的所述参会设备发送混音后的音频流。

9.一种音频处理方法，包括：

被配置在第一语言频道上的第一参会设备向媒体服务器发送所述第一参会设备的音频流；

所述第一参会设备接收与所述第一语言频道相关联的翻译设备的音频流；以及

响应于接收到所述第一语言频道处于活跃状态的指示，所述第一参会设备通过排除所述翻译设备的音频流来进行混音，其中所述指示至少部分地基于所述第一参会设备的音频流而确定。

10.根据权利要求9所述的方法，还包括：

所述第一参会设备接收被配置在所述第一语言频道上的第二参会设备的音频流；以及

所述第一参会设备使用所述第二参会设备的音频流并且排除所述翻译设备的音频流来进行混音。

11.根据权利要求9所述的方法，其中发送所述第一参会设备的音频流包括：

所述第一参会设备发送与所述第一参会设备的音频流的音量有关的信息。

12.根据权利要求9所述的方法，还包括：

如果在一个时间段内未接收到所述第一语言频道处于活跃状态的指示，使用所述翻译设备的音频流进行混音。

13.一种音频处理方法，包括：

媒体服务器接收被配置在第一语言频道上的至少一个参会设备的至少一个音频流；

所述媒体服务器向所述至少一个参会设备发送与所述第一语言频道相关联的翻译设备的音频流；

所述媒体服务器基于所述至少一个音频流来确定所述第一语言频道是否处于活跃状态；以及

如果确定所述第一语言频道处于活跃状态，所述媒体服务器向所述至少一个参会设备发送所述第一语言频道处于活跃状态的指示，使得所述至少一个参会设备通过排除所述翻译设备的音频流来进行混音。

14.根据权利要求13所述的方法，还包括：

向所述至少一个参会设备中的第一参会设备发送所述至少一个参会设备中的第二参会设备的音频流。

15.根据权利要求13所述的方法，其中，接收被配置在第一语言频道上的至少一个参会设备的至少一个音频流包括：

接收与所述至少一个音频流的音量有关的信息。

16.根据权利要求13所述的方法，其中，确定所述第一语言频道是否处于活跃状态包括：

向会议控制服务器发送与所述至少一个音频流的音量有关的信息；以及

响应于从所述会议控制服务器接收到所述第一语言频道处于活跃状态的指示，确定所述第一语言频道处于活跃状态，其中所述指示至少部分地基于所述至少一个音频流的音量而确定。

17.根据权利要求13所述的方法，其中，

确定所述第一语言频道是否处于活跃状态包括：确定所述至少一个音频流的所述音量是否满足以下任一项：

所述至少一个音频流中的一个音频流的音量是所述媒体服务器接收到的所有音频流中的最大音量或多个最大音量之一。

18.根据权利要求13所述的方法，还包括：

接收被配置在第二语言频道上的参会设备的音频流；以及

向所述翻译设备发送所述被配置在第二语言频道上的参会设备的音频流。

19.一种音频处理方法，包括：

被配置在第一语言频道上的第一参会设备向媒体服务器发送音频流；

所述第一参会设备从所述媒体服务器接收与所述第一语言频道相关联的翻译设备的音频流和被配置在所述第一语言频道上的第二参会设备的至少一个音频流；

所述第一参会设备基于所述第一参会设备的音频流和所述第二参会设备的所述至少一个音频流，确定所述第一语言频道是否处于活跃状态；以及

如果确定所述第一语言频道处于活跃状态，所述第一参会设备通过排除所述翻译设备的音频流来进行混音。

20.根据权利要求19所述的方法，其中，通过排除所述翻译设备的音频流来进行混音包括：

使用所述第二参会设备的所述至少一个音频流并且排除所述翻译设备的音频流和所述第一参会设备的音频流来进行混音。

21.根据权利要求19所述的方法，其中，确定所述第一语言频道是否处于活跃状态包括：确定所述第一参会设备的音频流和所述第二参会设备的所述至少一个音频流中的一个音频流的音量超过预设音量阈值。

22.根据权利要求19所述的方法，还包括：

如果在一个时间段内连续确定所述第一语言频道不处于活跃状态，使用所述翻译设备的音频流进行混音。

23.一种音频处理方法，包括：

接收被配置在第一语言频道上的参会设备的至少一个音频流；

针对与所述第一语言频道相关联的翻译设备，通过排除所述至少一个音频流来进行混音；以及

向所述翻译设备发送混音后的音频流。

24.根据权利要求23所述的方法，还包括：

基于设备和频道之间的对应关系，确定所述被配置在第一语言频道上的参会设备和所述翻译设备。

25.根据权利要求23所述的方法，还包括：

接收被配置在第二语言频道上的参会设备的第二音频流；以及

向所述翻译设备发送所述第二音频流。

26.根据权利要求23所述的方法，还包括：

接收所述翻译设备的第三音频流；以及

向所述被配置在第一语言频道中的参会设备发送所述第三音频流。

27.一种音频处理方法，包括：

接收至少一个音频流；

识别所述至少一个音频流中的与第一语言频道相关联的音频流；以及

通过排除所述与第一语言频道相关联的音频流来进行混音。

28.根据权利要求27所述的方法，还包括：

基于设备和频道之间的对应关系，识别所述至少一个音频流中的与第一语言频道相关联的音频流。

29.一种电子设备，包括：

处理单元和存储器，

所述处理单元执行所述存储器中的指令，使得所述电子设备执行根据权利要求1至8、权利要求13至18、或者权利要求23至26中任一项所述的方法。

30.一种电子设备，包括：

处理单元和存储器；

所述处理单元执行所述存储器中的指令，使得所述电子设备执行根据权利要求9至12、权利要求19至22、或者权利要求27至28中任一项所述的方法。

31.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行使所述处理器执行根据权利要求1至28中任一项所述的方法。

32.一种计算机程序产品，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1至28中任一项所述的方法。