CN102177734B

CN102177734B - 基于公共场景的会议系统

Info

Publication number: CN102177734B
Application number: CN2008801314865A
Authority: CN
Inventors: 安德尔斯·埃里克松; 汤米·福克; 帕特里克·桑格伦
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2008-10-09
Filing date: 2008-10-09
Publication date: 2013-09-11
Anticipated expiration: 2028-10-09
Also published as: US20110196682A1; EP2332346A1; WO2010040408A1; US8494841B2; CN102177734A; EP2332346B1

Abstract

本发明提供了一种用于管理包括两个或更多个参与者在内的音频场景的会议桥(1)，所述会议桥包括混合器(2)和多个用户信道(3a、3b、3N)。所述会议桥被配置为：针对每个作为收听参与者的参与者，通过将每个参与者的话音呈现为3D位置虚拟声源并排除所述收听参与者的话音，连续创建3D位置音频环境信号；以及将每个所创建的3D位置音频环境信号分发至对应的收听参与者。此外，所述会议桥被配置为：在每个所创建的3D位置音频环境中，将与每个参与者相对应的虚拟声源置于相对于收听参与者的相同空间位置。

Description

基于公共场景的会议系统

技术领域

本发明涉及一种用于会议桥的方法以及会议桥，具体地，用于电视电话会议。

背景技术

在传统的面对面会议中，参与者通常处于桌旁，并能够将他们的头转向说话的参与者，以看到说话的参与者并最大化到达相应耳朵的话音的相关性，这将最大化信噪比。

当多于一个人同时讲话时，收听的人能够基于声音的空间分布将来自不同声源的话音区分开，并可以将听力集中于特定的人。该能力通常称作“鸡尾酒会效应”。

然而，在传统的电视电话会议系统中，单声道麦克风在每个不同的参与房间中捕获话音，并通过扩音器或头戴受话器将话音信号添加和返回至参与房间。因此，在虚拟会议中，当多个参与者同时讲话时，收听者可能难以识别出说话的参与者并区分出各个说话的参与者，这是由于所有参与者相对于收听的参与者似乎具有相同的空间位置，即，扩音器的位置。

将视频添加至电视电话会议使参与者能够看到谁在讲话，但仍继续存在当多个参与者同时讲话时区分各个说话的参与者的问题。然而，使用三维(3D)位置音频将解决该问题，并使参与者能够像在现实世界中一样感知到声音，即，“听出”声源的方向和与声源的距离。当在电视电话会议中使用3D位置音频时，通过将每个参与者的话音呈现为3D位置虚拟声源来再现虚拟房间，其中，每个参与者位于不同的虚拟位置。

图1示意了包括会议桥1的示例传统3D位置音频系统，会议桥1具有混合器2和多个用户信道3，电视电话会议的参与者能够利用不同类型的用户终端4a、4b、4c与会议桥1相连接。会议桥将根据用户终端的能力及其连接来对音频信号进行混合，并且，可以在会议桥中集中地或在用户终端中本地地创建虚拟房间。此外，除了音频以外，会议桥还可以传送包括位置信息和源标识在内的控制数据。

在本地呈现中，会议桥的主要任务是决定哪些参与者的话音信号应当重定向至哪些本地呈现用户终端，即，所有参与者或仅少数活动说话的参与者的编码的话音信号，并且，在每个参与者的用户终端中将执行对虚拟房间的控制以及3D位置音频呈现。如果在会议桥中不需要代码转换，即，如果所有用户终端均支持其他用户终端的编解码格式，则会议桥的功能计算成本不高，这是由于会议桥仅必须重定向输入比特流，而不必须执行3D位置音频环境的任何编码或音频呈现。

然而，在传统的集中呈现中，会议桥将基本上处理任何内容，包括音频处理(例如，输入信号的噪声抑制和声级调整)、3D位置音频环境的呈现、以及所创建的3D位置音频环境信号的编码。参与者的用户终端将仅对每个相应的编码的信号进行解码，并可能展示示出所模拟的虚拟房间的GUI(图形用户界面)。对于每个参与的用户终端，会议桥将创建虚拟3D位置音频环境，这需要对从所有参与者输入的话音信号进行3D音频呈现。由于唯一的3D位置音频环境信号是针对每个作为收听参与者的参与者而创建的，因此要编码的输出信号的数目将与参与者的数目相对应。

参与者在虚拟房间(即，3D音频环境20)中的传统定位是等间隔地围绕圆桌，如图2所示，在图2中，虚线反映了从分别由U2至U8指示的参与者至由U1指示的收听参与者的话音方向。

会议桥将执行话音信号的3D位置音频呈现，以对说话的参与者相对于收听的参与者的相对位置进行模拟。传统地，作为说话参与者的特定参与者相对于收听参与者的相对位置对于所有参与者来说是不同的，但是，绝对位置是相同的，这与非虚拟会议中类似。

专利申请PCT/SE2007/050344描述了用于将不同参与者定位在虚拟房间中以改进虚拟会议体验的增强方法。该方法包括：在针对收听参与者而创建的3D位置音频环境中，将参与者置于相对于收听参与者的弧形上，以及自适应地改变位置以实现对称或在空间上分离活动讲话者。将与每个参与者相对应的虚拟声源定位在弧形上是有利的，这是由于与所有其他参与者的距离将是相等的，左和右的最大角度将变小，声音将更合意。图6a示意了包括7个参与者的圆桌3D位置音频环境60，其中收听位置13用于收听的参与者，图6b示出了变形为弧形环境61的该圆桌环境60。

现有方案的问题在于：集中呈现在计算上成本较高，这是由于会议桥不仅必须处理来自每个参与者的输入信号(例如，执行解码、噪声抑制和声级调整)，还必须针对每个作为收听参与者的参与者创建个体虚拟3D位置音频环境。此外，为了对虚拟房间进行模拟(涉及利用3D音频呈现对参与者进行空间定位)，可能必须根据用户终端的类型，将话音信号重采样至不同的采样率。重采样和3D音频呈现都是高成本的任务，并且，由于针对每个作为收听者的参与者创建唯一的个体3D位置音频环境，并且每个参与者包括在针对所有其他参与者的3D位置音频环境中，因此这些成本将随着参与者数目的增多而快速增长。

当已经呈现对3D位置音频环境进行模拟的音频信号时，在将信号发送至参与者的用户终端之前，必须对该信号进行编码。通常，所呈现的3D位置音频环境由立体声信号表示，这意味着需要立体声编解码器来进行编码。立体声信号的编码是在计算复杂度成本较高的任务，并且，由于针对每个作为收听者的参与者呈现唯一的个体3D位置音频环境，因此根据参与者的数目，复杂度可能非常高。此外，由于所需编码器的数目与所呈现的个体3D位置音频环境的数目相对应，因此计算复杂度将随着参与者数目的增多而快速增长。

发明内容

本发明的目的是解决上述问题，该目的以及其他目的是通过根据独立权利要求所述的方法和装置以及根据从属权利要求所述的实施例来实现的。

将与每个参与者相对应的虚拟声源置于相对于收听参与者的相同空间位置。这将降低呈现和编码的计算复杂度，并使得能够以较低计算成本支持较大数目的参与者。

本发明的第一方面提供了一种用于会议桥的方法，所述会议桥用于管理包括两个或更多个参与者在内的音频场景。所述方法针对每个作为收听参与者的参与者，通过将每个参与者的话音呈现为3D位置虚拟声源并排除所述收听参与者的话音，连续创建3D位置音频环境信号；以及将每个所创建的3D位置音频环境信号连续分发至对应的收听参与者。在每个所创建的3D位置音频环境中，会议桥将与每个参与者相对应的虚拟声源置于相对于收听参与者的相同空间位置。

可以通过对来自每个参与者的输入信号进行语音检测来连续检测说话参与者，并且，会议桥可以呈现针对每个说话参与者的个体3D位置音频环境信号以及针对所有不说话参与者的公共3D位置音频环境信号。

可以放置3D位置音频环境信号的虚拟声源以形成弧形，并且可以通过检测活动水平，从所检测到的说话参与者中选择预定最大数目的说话参与者。

可以仅将来自所选择的说话参与者的话音呈现为3D位置虚拟声源，以及，如果需要重采样至不同采样率，则可以仅对来自所选择的说话参与者的话音进行重采样。

可以分别对所呈现的个体3D位置音频环境信号中的每一个进行编码，并可以针对每个编解码器，仅对所述针对不说话参与者的公共3D位置音频环境信号进行一次编码，所产生的比特流被分发至对应的不说话参与者。

可以根据参与者是说话参与者、是不说话参与者、还是新参与者，来设置编码器的初始状态。

本发明的第二方面提供了一种用于管理包括两个或更多个参与者在内的音频场景的会议桥，所述会议桥包括混合器和多个用户信道。所述会议桥被配置为：针对每个作为收听参与者的参与者，通过将每个参与者的话音呈现为3D位置虚拟声源并排除所述收听参与者的话音，连续创建3D位置音频环境信号；以及将每个3D位置音频环境信号连续分发至对应的收听参与者。所述混合器被配置为：在每个3D位置音频环境信号中，将与每个说话参与者相对应的虚拟声源置于相对于收听参与者的相同空间位置。

所述混合器还可以包括：语音检测器，与每个用户信道相连接，用于检测说话参与者；混合控制单元；多个个体混合单元，用于呈现针对每个说话参与者的个体3D位置音频环境信号；以及公共混合单元，用于呈现针对所有不说话参与者的公共3D位置音频环境信号。

附图说明

现在将参照附图来更详细地描述本发明，附图中：

-图1示出了与不同类型的用户终端相连接的会议桥；

-图2示出了传统的3D位置音频环境；

-图3a示出了会议桥，图3b示出了用户信道；

-图4示出了会议桥的传统混合器；

-图5示出了根据本发明实施例的示例混合器；

-图6a示意性地示出了针对收听参与者而创建的圆桌3D位置音频环境；

-图6b示出了变形为弧形环境的图6a的3D位置音频环境；

-图7a示出了针对作为收听参与者的U1而创建的音频环境，图7b示出了针对作为收听参与者的U2而创建的音频环境；

-图8a、8b、8c和8d示出了示例3D音频环境，其中，仅U1、U3和U6是说话参与者；

-图9a是示出了本发明基本概念的流程图；

-图9b是示出了本发明另一实施例的流程图；

-图9c是示出了另一示例实施例的流程图；

-图10a和10b示出了根据本发明实施例的用户信道；

-图11示出了仅具有少数参与者的3D位置音频环境；

-图12示出了变形为弧形环境的图11的环境；

-图13a和13b示出了3D位置音频环境的对称调整。

具体实施方式

在以下描述中阐述了具体细节(例如，特定的架构和步骤序列)，以提供对本发明的透彻理解。然而，对于本领域技术人员来说显而易见，在可能与这些具体细节不同的其他实施例中也可以实施本发明。

此外，显而易见，可以使用与编程的微处理器或通用计算机相结合工作的软件，和/或使用专用集成电路，来实现所描述的功能。在以方法的形式描述本发明的情况下，本发明还可以体现在计算机程序产品以及包括计算机处理器和存储器在内的系统中，其中，该存储器是利用可执行所描述的功能的一个或多个程序来编码的。

本发明的基本概念是：在每个所创建的3D位置音频环境中，将与每个参与者相对应的虚拟声源置于相对于收听参与者的相同空间位置。该概念还包括：创建仅针对每个说话参与者的个体3d位置音频环境信号以及针对所有不说话参与者的公共3D位置音频环境，其中，在所创建的3D位置音频环境中仅包括说话参与者。

上述图1示出了与不同类型的用户终端4a、4b、4c相连接的传统会议桥1。会议桥(还在图3a中示出)被划分为两种不同类型的组件，即：用户信道3，处理针对每个个体用户终端4a、4b、4c的特定处理；以及混合器2，呈现虚拟音频环境。用户信道3执行传输处理(通常为RTP/RTCP)、解码/编码以及各种类型的音频处理，示例用户信道还在图3b中示出。

图3b中示出的示例音频处理块包括：回声控制块，用于在用户终端自身不能消除回声的情况下，消去可能出现在用户终端处的回声。如果输入信号是有噪声的，则NS模块或噪声抑制模块是有用的，但是通常，将直接在用户终端中处理噪声抑制。ALC模块或自动电平控制模块确保了所有话音信号具有实质上相等的话音电平。

图4示出了会议桥的示例传统混合器2，混合器的输出连接至用户信道的输入，所述用户信道的输出连接至混合器的输入。如果需要，可以在重采样单元7a、7b和7N中，将从用户信道至混合器的输入信号3a、3b、3N重采样至其他参与者的用户终端的采样率，重采样后的信号用于对针对每个参与者的3D位置音频环境进行3D音频呈现。与不同参与者相对应的虚拟声源在3D位置音频环境中的位置由3D音频场景管理器9来控制，可选地，例如，3D音频场景管理器9可以由每个用户终端来控制。

该传统混合器是缺点在于：所有参与者在所有其他参与者的3D位置音频环境中都进行3D音频呈现，即使这些参与者静默也如此。通常，仅一个或少数几个参与者在会议中同时讲话，使用可用资源对来自不说话参与者的话音信号执行定位、重采样和编码不是高效的。因此，传统混合器的复杂度不必要地高。此外，在传统混合器中，3D位置音频呈现的复杂度将随着参与者的数目而指数升高，这是由于必须针对每个新参与者呈现附加的个体3D位置音频环境，并且必须将新虚拟声源添加至所有其他3D位置音频环境。

为了降低复杂度，可以在每个虚拟音频环境中限制同时进行3D音频呈现的参与者的数目。如上所述，通常，仅一个或少数几个参与者同时讲话，并且，对这些活动说话参与者进行3D音频呈现就足够了。然而，必须检测话音活动以确定哪些参与者正在讲话，例如，这是由语音活动检测器(VAD)来执行的。

图5示出了根据本发明的示例混合器，该混合器包括VAD 10a、10b、10N，与不同参与者相对应的虚拟声源在3D位置音频环境中的位置由3D音频场景管理器9来控制。图5中的输入信号3a、3b、3N中的每一个被馈入VAD，每个VAD向混合控制单元11报告是否检测到话音。混合控制单元进而将通知针对每个参与者的混合单元8a、8b、8N和3D音频呈现单元12a、12b、12N，并且，仅将来自说话参与者的信号进行3D音频呈现并将其包括在3D位置音频环境信号中。此外，对于来自混合中将不包括的参与者的信号来说，重采样不是必要的，并且，重采样单元7a、7b、7N也可以由混合控制单元11来控制。

此外，在将每个所创建的3D位置音频环境信号发送至收听参与者之前，必须对3D位置音频环境信号进行编码，该编码需要很多资源。为了减少编码器的数目，根据本发明的方案涉及：在每个所创建的3D位置音频环境中，3D音频场景管理器9将每个参与者置于相对于收听参与者的相同位置，从而在所有所创建的音频环境中创建公共虚拟场景。此外，创建更少的3D位置音频环境信号，即，针对不说话参与者的一个公共3D位置音频环境信号和针对每个活动说话参与者的一个个体3D位置音频环境信号(由于必须排除他们自己的话音)。这将导致编码减少，这是由于必须编码的信号的数目与所创建的3D位置音频环境信号的数目相对应。

图9a中的流程图示出了根据本发明第一实施例的方法。在步骤90，会议桥针对每个作为收听参与者的参与者创建3D位置音频环境信号，在所有所创建的3D位置音频环境中，将与每个参与者相对应的虚拟声源置于相对于收听参与者的相同空间位置。在步骤91，会议桥将每个所创建的3D位置音频环境信号分发至对应的收听参与者，并且在步骤92，确定会议是否仍在进行。如果否，则停止该过程，而如果是，则再次从步骤90继续该过程。

图5中的会议混合器中的混合单元8a、8b、8N包括用于作为收听参与者的不说话参与者的一个公共混合单元以及用于作为收听参与者的每个说话参与者的适当数目的混合单元。公共混合单元适于将所有说话参与者的话音信号包括在所创建的3D位置音频环境中，而用于说话参与者的混合单元适于包括除该收听参与者的话音信号以外的所有说话参与者的话音信号。

接下来，图9b中的流程图示出了根据本发明另一实施例的方法，其中，与图9a中的步骤90相对应的、针对每个作为收听参与者的参与者创建3D位置音频环境还包括：步骤95，检测说话参与者；步骤96，仅针对每个说话参与者来呈现个体3D位置音频环境信号；以及步骤97，针对作为收听参与者的所有不说话参与者呈现公共3D音频环境信号。

此外，根据本发明另一实施例，选择预定最大数目的参与者以进行3D音频呈现，从而限制所需的3D音频呈现单元和重采样单元的数目并降低存储消耗，该选择可以基于对说话参与者的活动水平的检测。当不说话参与者变为活动的(即，不说话的人开始讲话)时，该参与者可以接管已变为不活动(即，已停止讲话)的另一参与者先前使用的3D音频呈现单元和重采样单元。

图6a示出了参与者在3D位置音频环境60中的虚拟位置，图6b示出了变形为弧形的图6a的位置，这是所有参与者都将感知到的场景，只是他们将听不到自己。

图7a示出了作为收听参与者的参与者U1感知到的场景。U1的原始位置由点线来指示，这是由于在针对作为收听参与者的U1而创建的3D位置音频环境信号中将排除来自参与者U1的话音信号。作为收听参与者的参与者U2将感知到根据图7b的场景，其中，排除了来自参与者U2的话音信号。

根据本发明，每个作为收听参与者的参与者将从公共收听位置感知场景，其中在所有所创建的3D位置音频环境中，所有其他参与者处于相对于收听参与者的相同空间位置，这在图8a-8d中示出并在以下描述。如果仅少数参与者正在说话，或者如果将所选择的说话参与者的预定最大数目设置为较少数目，则将对来自仅少数参与者的话音信号进行3D音频呈现并将其包括在每个所创建的3D位置音频环境信号中。相应地，将7个参与者中的仅3个包括在图8a-8d所示的3D位置音频环境中，其他4个参与者由点线来指示。

图8a示出了在仅有参与者U1、U3和U6正在说话或被选择为说话参与者的情况下，针对不说话参与者而创建的公共3D位置音频环境80。仅对来自参与者U1、U3和U6的话音信号进行3D音频呈现，静默的或未选择的参与者U2、U4、U5和U7在图中由点线来指示。

图8b示出了针对作为收听参与者13的说话参与者U1而创建的个体3D位置音频环境81，其中，排除了来自U1的话音信号。静默的或未选择的参与者U2、U4、U5和U7以及收听参与者U1在图中由点线来指示，这是由于仅对来自U3和U6的话音信号进行3D音频呈现。

图8c示出了针对作为收听参与者13的说话参与者U3而创建的个体3D位置音频环境82，其中，排除了来自U3的话音信号。静默的或未选择的参与者U2、U4、U5和U7以及收听参与者U3在图中由点线来指示，这是由于仅对来自U1和U6的话音信号进行3D音频呈现。

最后，图8d示出了针对作为收听参与者13的说话参与者U6而创建的个体3D位置音频环境83，其中，排除了来自U6的话音信号。静默的或未选择的参与者U2、U4、U5和U7以及收听参与者U6在图中由点线来指示，这是由于仅对来自U1和U3的话音信号进行3D音频呈现。

因此，如果所有参与者使用相同的编解码器和采样率，则与传统方案(其中，针对U1、U2、U3、U4、U5、U6和U7中的每一个，创建个体3D位置音频环境)中的7个不同的3D位置音频环境信号相比，仅必须对4个不同的3D位置音频环境信号进行编码，即，根据图8a-8d中的每一个，对一个信号进行编码。此外，由于在如图8a、8b、8c和8d所示的所有4个3D位置音频环境中，每个参与者位于相对于收听参与者的相同位置，因此仅必须针对每个说话参与者对虚拟声源进行一次3D音频呈现，并且可以在所有所创建的3D位置音频环境信号中使用所产生的信号。从而，将大幅度降低3D音频呈现的计算成本，并且，如果参与者数目更多，则降低得甚至更多。如果参与者的数目增加，则更多参与者将接收与针对不说话参与者而创建的公共3D位置音频环境相对应的比特流。

对于具有使用不同编解码器和/或不同采样率的用户终端的参与者来说，根据本发明的方案可能不那么有利，这是由于必须以相应采样频率来执行对3D位置音频环境的呈现，然后通过相应编码器类型来对其进行编码。然而，通常至少一些参与者将使用相同的编解码器和采样频率。当新参与者呼叫进入会议时，将执行与编解码器和采样频率有关的协商，优选地，会议桥将确保使用尽可能少的编解码器。

当必须以多个不同采样率来呈现相同3D位置音频环境(即，参与者需要具有不同采样频率的音频)时，此时可以通过以最高采样频率对针对不说话参与者的公共3D位置音频环境执行呈现，并在编码前将所产生的信号下采样至所有其他采样频率，来降低3D音频呈现的成本。

相应地，必须对图5所示的会议混合器中的相应混合单元8a、8b、8N的输出进行编码并将其定向至正确的参与者。针对作为收听参与者的每个说话参与者的个体输出信号将被定向至对应的用户信道，但是根据本发明另一实施例，针对不说话参与者的公共输出信号仅被定向至第一不说话参与者的用户信道，并且，当已经对声音信号进行编码时，编码的比特流将被定向至所有其他不说话参与者的用户信道，而不经过任何其他处理。

图10a示出了针对不说话参与者的第一用户信道23，根据上述实施例，用户信道对该信号进行编码并将编码的比特流重定向至其他不说话参与者。图10b示出了其他不说话参与者的第二用户信道24。该第二用户信道不包括任何编码器，该用户信道从执行编码的第一不说话参与者接收编码的比特流。然而，如果第一不说话参与者变为活动或者离开会议，则该第二用户信道可能必须执行编码并将编码的比特流分发至其他不说话参与者的用户信道。因此，用户信道必须能够在图10a和10b中分别示出的两种情况之间进行切换，这可以由具有可被启用或禁用的编码器的所有用户信道来实现，或由提供可在需要时并入用户信道中的多个编码器的会议桥来实现。会议桥提供要并入用户信道中的多个编码器的第二备选项是优选的，这是由于不必在每个用户信道中分配用于不同编码器状态的存储器。此外，如果用户信道变为应当对不活动比特流执行编码的用户信道，则先前执行编码的用户信道所使用的编码器将是可用的，并可以并入新用户信道中。由于编码器状态是正确的(即，编码器对不活动信号的最后帧进行了编码)，因此执行不活动编码的用户信道的改变将平滑进行。然而，如果不说话参与者使用多于一种类型的编解码器和/或采样频率，则多个用户信道(即，对于每个编解码器和采样频率有一个用户信道)将对表示公共3D位置音频环境信号的信号执行编码。

当参与者从不活动状态切换至活动状态(即，变为说话参与者)时，参与者将接收其自己的个体3D位置音频环境信号，并必须对其进行编码。新的说话参与者要使用的编码器由从活动状态转移至不活动状态(即，变为不说话参与者)的参与者释放。来自先前说话参与者的编码器状态并不适于新的说话参与者，这是由于先前说话参与者的先前帧可能与新的说话参与者解码和播放的先前帧不同。编码和解码通常依赖于先前帧，非常常见的是，对不同参数的改变的改变而不是绝对值进行编码。因此，为了实现针对新的说话参与者的平滑转移，编码器必须得到拷贝至其自己的状态的、公共3D位置音频环境的编码器的先前帧的状态。

当参与者从活动状态转移至不活动状态(即，变为不说话参与者)时，参与者将失去其自己的编码器，并代之以接收公共3D位置音频环境的比特流。如果公共3D位置音频环境和个体3D位置音频环境的音频流在切换之前是相同的，则不会造成任何问题，并且转移将平滑进行。由于混合器已经确定参与者是静默的，因此两个音频流之间的仅有区别通常应当是背景噪声。然而，如果两个音频流不同，则比特流的切换可以造成可听伪像，这是由于解码器的状态不适于新比特流。根据本发明另一实施例的方案是：在切换之前，首先将公共的不活动音频流的一个或多个帧馈送至新的静默参与者的编码器，这是由于这将允许解码器调整至不活动比特流。此后，可以释放编码器，并可以将不活动比特流发送至新的静默参与者的用户终端，从而实现平滑转移。缺点在于：编码器被占用并且无法被新的说话参与者使用，这意味着新的说话参与者必须接收公共比特流，直到释放编码器为止。该问题可以利用新的说话参与者可在转移时段期间使用的一个或多个额外编码器来解决。

当新参与者加入会议时，用户终端的解码器处于复位状态，并仅适于由具有复位状态的编码器创建的比特流。如果新加入的参与者被确定为是不说话的，则用户终端的解码器将接收针对不说话参与者而创建的公共比特流。由于解码器处于复位状态，因此如果编解码器依赖于取决于先前帧的编码，则解码的声音信号将与针对不说话参与者的公共声音信号不相同。然而，通常，解码的信号将开始于零幅度，并针对每个帧提高幅度，信号属性最终将变为与针对不说话参与者的公共声音信号的属性更加类似(即，信号是“渐强的”)。

如果新加入的参与者被确定为活动说话参与者，则编码器将专用于新参与者的用户信道。在这种情况下，应当复位编码器的状态，并且，由于解码器也具有复位状态，因此编码的比特流将适于解码器。

本发明的以下概念将降低计算复杂度：在所有所创建的3D位置音频环境中，将每个说话参与者置于相对于收听参与者的相同空间位置。然而，当仅有少数参与者连接至会议(如图11所示)时，这可能不那么有利。在根据图11的音频环境110中，3个参与者U1、U2和U3位于桌周围，参与者U2和U3将具有从收听位置13看来不对称的场景，其中一个讲话者位于正前方，另一个位于侧面45度。图12示出了位于弧形中的虚拟声源，并且如图13a所示，对于U2和U3，场景仍是不对称的。

如果附加参与者加入会议，则不对称性将减小，但是在仅有3个参与者的情况下，参与者U2和U3感知到的场景将是不对称的。然而，如果会议桥允许同时使用三个或更多个编码器，则可以针对每个作为收听参与者的参与者来创建个体3D位置音频环境。从而，可以针对每个参与者，对所创建的3D位置音频环境进行修改(即，对称调整)，以实现针对所有作为收听参与者的参与者的对称场景。

因此，根据本发明另一实施例，在参与者的数目未超过可用编码器的数目的情况下，针对每个作为收听参与者的参与者创建个体3D位置音频环境，并且，将所创建的3D位置音频环境中的虚拟空间位置调整为相对于收听参与者对称。这是在图13a和13b中示出的，图13a和图13b示出了作为收听参与者的参与者U2在对称调整之前和之后感知到的场景。该实施例还在图9c的流程图中示出，该流程图包括根据图9b的步骤，其中，附加步骤94确定参与者的数目是否超过可用编码器的数目。如果是，则执行根据图9b的步骤95、96和97。然而，如果否，则在步骤98，针对每个参与者创建个体3D音频环境，并在步骤99，对参与者相对于收听者的位置进行对称调整。

当附加参与者加入会议，使得参与者的数目再次超过可用编码器的数目时，此时针对所有不说话参与者重新创建公共3D音频环境。如果所创建的个体3D音频环境的数目等于可用编码器的数目，则当新参与者加入会议时，参与者之一将被突然切换至公共3D位置音频环境，这是由于需要编码器来对公共3D位置音频环境信号进行编码。此外，如果已经对个体3D位置音频环境进行对称调整，则该参与者可能经历虚拟声源的突然移动。因此，根据本发明另一实施例，在新参与者加入会议的情况下，额外的编码器可用于对公共3D位置音频环境信号进行编码。根据另一实施例，当会议桥开始创建所述公共3D位置音频环境时，将虚拟声源在个体3D位置音频环境中的位置调整为与虚拟声源在公共3D位置音频环境中的位置相对应，这是由于新加入的参与者可以被选择为说话参与者，并且具有个体3D环境的参与者之一可以被选择为不说话。如果在切换之前完成该调整，则参与者将经历虚拟声源的位置的更平滑的改变。

通过创建所有静默参与者都将听到的公共3D位置音频环境，并创建仅针对活动说话参与者的个体3D位置音频环境，对3D环境进行创建和编码的成本将恒定较低，而不论会议中的参与者数目如何。此外，通过在所有3D位置音频环境中将参与者置于相对于收听参与者的相同位置，仅必须对每个说话参与者进行一次3D音频呈现，并且可以在多个3D位置音频环境中使用所产生的信号，从而降低计算复杂度。通过不对静默的或未选择的参与者的话音信号进行重采样和3D音频呈现，进一步降低了复杂度。

当仅有少数参与者连接至会议时，针对所有参与者创建个体3D位置音频环境将实现对场景的对称调整，并且，与不对称场景相比，收听参与者将感知到更合意的音频场景。此外，根据参与者的状态以不同方式设置初始编码器状态将产生平滑的比特流切换，而不会产生任何可听伪像。

尽管参照具体示例实施例描述了本发明，但该描述总体上仅意在示出本发明的概念，而不应被视为限制本发明的范围。

Claims

1.一种用于会议桥的方法，所述会议桥用于管理包括两个或更多个参与者在内的音频场景，参与者使用相同或不同的编解码器，所述方法包括以下步骤：

-针对每个作为收听参与者的参与者，通过将每个参与者的话音呈现为3D位置虚拟声源并排除所述收听参与者的话音，连续创建(90)3D位置音频环境信号；

-通过以下操作将每个所创建的3D位置音频环境信号连续分发(91)至对应的收听参与者：在每个所创建的3D位置音频环境中，所述会议桥将与每个参与者相对应的虚拟声源置于相对于收听参与者的相同空间位置；

所述方法的特征在于，所述会议桥通过对来自每个参与者的输入信号进行语音检测，连续检测(95)说话参与者，呈现针对每个说话参与者的个体3D位置音频环境信号，并呈现针对所有不说话参与者的公共3D位置音频环境信号，针对参与者使用的每个编解码器，仅对所述公共3D位置音频环境信号进行一次编码。

2.根据权利要求1所述的用于会议桥的方法，其中，3D位置音频环境信号的虚拟声源被放置为形成弧形。

3.根据权利要求1或2所述的用于会议桥的方法，其中，通过检测活动水平，从所检测到的说话参与者中选择预定最大数目的说话参与者。

4.根据权利要求3所述的用于会议桥的方法，其中，仅将来自所选择的说话参与者的话音呈现为3D位置虚拟声源。

5.根据权利要求3所述的用于会议桥的方法，其中，如果需要重采样至不同采样率，则仅对来自所选择的说话参与者的话音进行重采样。

6.根据权利要求1或2所述的用于会议桥的方法，其中，分别对所呈现的个体3D位置音频环境信号中的每一个进行编码。

7.一种用于管理包括两个或更多个参与者在内的音频场景的会议桥，参与者使用相同或不同的编解码器，所述会议桥包括：

-混合器(52)；以及

-多个用户信道(3a、3b、3N)，所述会议桥被配置为：

针对每个作为收听参与者的参与者，通过将每个参与者的话音呈现为3D位置虚拟声源并排除所述收听参与者的话音，连续创建3D位置音频环境信号；将每个3D位置音频环境信号连续分发至对应的收听参与者；在每个3D位置音频环境信号中，将与每个说话参与者相对应的虚拟声源置于相对于收听参与者的相同空间位置；

所述会议桥的特征在于，所述混合器包括：

-语音检测器(10a、10b、10N)，与每个用户信道(3a、3b、3N)相连接，用于检测说话参与者；

-混合控制单元(11)；

-多个个体混合单元(8b、8N)，用于呈现针对每个说话参与者的个体3D位置音频环境信号；以及

公共混合单元(8a)，用于呈现针对所有不说话参与者的公共3D位置音频环境信号，其中，所述会议桥被配置为，针对参与者使用的每个编解码器，仅对所述针对不说话参与者的公共3D位置音频环境信号进行一次编码。

8.根据权利要求7所述的会议桥，还包括：用于检测说话参与者的活动水平并基于所述活动水平来选择预定最大数目的说话参与者的装置。

9.根据权利要求8所述的会议桥，其中，所述混合器(52)被配置为：仅将所选择的说话参与者的话音呈现为3D位置虚拟声源。

10.根据权利要求8或9所述的会议桥，其中，所述混合器(52)包括重采样装置(7a、7b、7N)，如果需要重采样，则所述重采样装置(7a、7b、7N)基于所述语音检测器(10a、10b、10N)，仅对所选择的说话参与者的话音进行重采样。

11.根据权利要求8或9所述的会议桥，其中，每个用户信道被配置为：对每个所呈现的个体3D位置音频环境信号进行编码。