CN100446529C

CN100446529C - 电信会议安排

Info

Publication number: CN100446529C
Application number: CNB021437807A
Authority: CN
Inventors: J·维罗莱宁
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2001-09-28
Filing date: 2002-09-28
Publication date: 2008-12-24
Anticipated expiration: 2022-09-28
Also published as: FI20011917A; DE60209637T2; ATE320137T1; FI20011917A0; US20030063574A1; DE60209637D1; FI114129B; CN1411256A; US7420935B2; EP1298906B1; EP1298906A1

Abstract

一个控制会议呼叫的方法和设备是一个系统，该系统包括一个会议桥，用来合并来自终端的几个音频信号并且进一步使用至少一个传输编译码器把该合并信号传输到至少一个终端。该会议桥包括产生空间效果的一个空间化单元。同时活动的音频成分，比如语音信号的数目从会议桥输入的音频信号确定。根据同时活动的音频成分的数目，至少一个传输编译码器被选择来使用并且该合并信号使用该选择的传输编译码器被传输到至少一个终端。

Description

电信会议安排

技术领域

本发明涉及电信会议系统并且特别涉及选择用于电信会议的音频编译码器。

背景技术

各种音频和视频会议服务长久以来，特别是在电路交换电信网络中已经可以得到。电信会议系统可以分为分布式和集中式系统，其中考虑到服务提供者以及终端的实现，后者已被证明在提供电信会议方面更具优势。

图1展示了实现集中式音频会议服务的现有技术设计。该电信会议系统包含会议桥CB以及与它通信的几个终端UE。每个终端UE通过麦克风接收终端用户的语音并且使用其本身已公知的语音编译码器对语音信号编码。编码语音被传输到会议桥CB，会议桥CB从接收信号中对语音信号译码。会议桥CB使用现有技术处理方法在音频处理单元APU中合并从不同终端接收的语音信号，之后包括几个语音信号的合并信号由一个其本身已公知的语音编译码器进行编码并且被传输回终端UE，终端UE根据接收的信号对该合并语音信号进行译码。可听到的音频信号通过扬声器或耳机由合并语音信号产生。为了避免有害的回声现象，由一个终端传输到会议桥的音频信号典型地从将要被传输到那个终端的合并音频信号中去掉。

在会议桥中合并信号典型地作为单声道(单声的)音频信号或作为双声道(立体声的)音频信号被产生。在会议桥中，空间效果(被称为空间化)可用双声道音频信号人工生成。在那种情况下，音频信号经过处理以给与收听者这么一个印象：会议呼叫参加者在会议室的不同位置。在那种情况下，在不同音频通道上被传输的音频信号各不相同。当单声道音频信号被使用时，所有的语音信号(也就是，合并信号)在同一个音频通道上被混合传输。

不管是否只有一个或者多个音频通道被使用，典型地只有一个数据传输信道被用于传输语音。例如，在一个视频会议中同一个数据传输信道也可被用于传输视频图象。为了使数据传输路径上被使用的带宽最小，将要在会议桥和终端之间被传输的音频信号通过使用系统支持的语音或音频编译码器进行编码/译码。

在本申请中，语音或音频编译码器指信道编码前把模拟或数字未经压缩音频信息(典型地指语音)编码成为数字音频/语音参数的装置，信道编码在传输路径前发生。相应地，当音频信息被接收到时，语音或音频编译码器包括把典型地来自信道译码的音频/语音参数转换成数字未经压缩音频信息的装置，数字未经压缩音频信息在再现中被转换成模拟音频信息。因而，例如不同的语音或音频编译码器或编译码器模式可被用于不同的立体声音频信号的音频通道，但是概念上这些组成一个音频编译码器。这样术语编译码器既指传统意义上的音频编译码器，例如不同波形的编译码器，也指用于各种系统的语音编译码器。

现有技术电信会议系统为上面提出的基本设计的变种，在US6,125,115，US 5,991,385以及WO 99/53673中被描述。

涉及到这些解决方案的一个问题是这些系统关于在一个会议呼叫期间出现的不同的语音情形是不灵活的，特别是在所用语音编码的优化方面。某些低比特率语音编译码器使用窄带，而在各种语音情形下经常不能进行好的语音编码。另一方面，高比特率语音编译码器或能够进行高品质语音编码的波形编译码器使用大量的带宽。这不可避免地导致了用于数据传输带宽的非最优使用，这是一个严重的缺点，特别在具有有限带宽的分组交换网络中。

发明内容

本发明的目的是提供一个方法以及一个实现解决上面提到问题的方法的设备。本发明目的由一个方法，一个会议桥设备以及一个终端来完成。

按照本发明的一个方面，提供了一种在电信系统中控制会议呼叫的方法，该电信系统包括一个会议桥，用来合并来自终端的多个音频信号并且进一步使用至少一个传输音频编译码器把该合并信号传输到所说终端中的至少一个，该会议桥包括一个产生空间效果的空间化单元，其特征在于该方法包括的步骤有：从所说的会议桥输入的音频信号确定基本同时活动的预定音频成分的数目，根据所说的同时活动的预定音频成分的数目从包括至少两个不同的编译码器的编译码器组中选择至少一个传输音频编译码器来使用，并且使用选择的传输音频编译码器把所说的合并信号传输到至少一个终端。

按照本发明的另一方面，提供了一种控制会议呼叫的设备，其包括：合并装置用于合并来自终端的多个音频信号，发送器用来进一步使用至少一个传输音频编译码器把该合并信号传输到所说的终端中的至少一个，以及产生空间效果的一个空间化单元，其特征在于所说的设备还包括：确定装置，用于从所说的设备输入的音频信号确定基本同时活动的预定音频成分的数目，选择装置，用于根据所说的同时活动的预定音频成分的数目而从包括至少两个不同的编译码器的编译码器组中选择至少一个传输音频编译码器来使用，并且所说发送器使用该选择的传输音频编译码器把所说的合并信号传输到至少一个终端。

按照本发明的又一方面，提供了一种被安排来接收从会议桥传输的合并音频信号的终端，其特征在于该终端包括至少两个不同的音频编译码器或者音频编译码器模式，把音频编译码器类型指示从音频信号的剩余部分中分离出来的装置，根据选择音频编译码器或者它的模式的类型指示来产生控制信号的控制单元，以及把音频帧馈入选择的音频编译码器或者它的模式以按照所说控制信号进行译码的解复用器。

本发明基于这个思想，一个会议呼叫在电信系统中被控制，该电信系统包括把来自几个终端的音频信号合并并且进而用至少一个传输音频编译码器把合并信号传输到至少一个终端，典型地传送到几个终端的会议桥，该会议桥包括一个空间化单元。本发明的方法包括首先由会议桥输入端音频信号确定基本同时活动的预定音频成分，比如语音信号的数目，并且根据同时活动的预定音频成分的数目选出至少一个传输音频编译码器来使用。在会议桥内合并的音频信号使用选出的传输音频编译码器被传输到至少一个终端，典型地到几个终端。对每个终端，会议桥可包括一个单独的空间化单元，在这种情况下每个参加者收到会议空间的不同的声音映象。而且，参加者的语音信号还能从传输回这个参加者的合并音频信号中除去。

依照本发明的一个优选实施方案，如果只有一个同时活动的预定音频成分，合并信号由典型地具有低的比特率的第一个音频编译码器编码，并且被传输到至少一个终端，或者如果有一个以上同时活动的预定音频成分，合并信号由典型地具有一个高比特率的第二个音频编译码器编码，并且被传输到至少一个终端。

依照本发明的另一个优选实施方案，如果只有一个同时活动的预定音频成分，合并信号作为单声道音频信号被传输到至少一个终端并且接收的单声道音频信号在终端中被空间化。如果有一个以上同时活动的预定音频成分，合并信号作为多声道音频信号以空间化格式被传输到至少一个终端。

依照本发明的方法的一个优点是它允许优化对将被使用的传输编译码器的选择，以便选择的编译码器总是保证相对同时语音信号的数目有一个足够好的话音质量，而所用带宽被保持在最小。本发明的优选实施方案的一个优点是低比特率音频编译码器的使用节省了许多带宽，而对于一个语音信号获得充分好的话音质量。相应地，通过对几个同时活动音频信号使用高比特率音频编译码器或者波形编译码器，合并音频信号的充分好的话音质量可以优选地被保证，而不管会议呼叫同时语音信号的数目。然而同时，因为只有当保证话音质量绝对需要时大的带宽才被使用，所以带宽的使用被最优化。

本发明的进一步的优点是它允许对一个三维空间化音频信号保证足够好的话音质量，在这种情况下可以为一个会议呼叫参加者生成其它会议呼叫参加者的三维空间效果。

本发明的进一步优选实施方案的一个优点是将被使用的带宽可以如下地进行优化：当只有一个同时活动的语音信号时，合并音频信号以这样一个方式进行传输和编码以便它使用尽可能小的带宽，然而能够传输足够的话音质量和空间化中需要的信息。如果有几个同时活动的语音信号，则相对话音质量和带宽最有利的是：已在会议桥中执行空间化，并且然后为将被传输的合并音频信号选择一个传输编译码，它使得允许用足够的质量传输一个信号而使用的带宽是最小的。

附图说明

本发明现在将通过参照附图的优选实施方案被更详细地描述，其中

图1显示了实现集中式音频会议服务的现有技术基本设计；

图2显示了依照本发明的第一个实施方案的一个会议桥安排；

图3显示了依照本发明的第二个实施方案的一个会议桥安排；

图4显示了依照本发明的第三个实施方案的一个会议桥安排；

图5a和5b显示了当一个或多个同时活动语音信号被检测到时依照本发明的第三个实施方案的一个电信会议安排；

图6显示了依照本发明的第四个实施方案的一个会议桥安排；

图7是一个显示依照本发明方法的基本步骤的流程图；以及

图8显示了依照本发明的终端的一个简化结构。

具体实施方式

本发明这里将以一般水平被描述而没有把本发明限制于任何特殊电信系统。本发明的优点在各种分组交换网络(比如基于GSM的GPRS网络，UMTS网络)中，以及在经由因特网使用的电信会议安排中最明显。然而，本发明不只是限于分组交换网络，而是它也在传统电路交换电信网络中提供优点，其中在音频编码中没有被使用的传输路径可以被用来传输例如视频图象。此外，本发明可以使用不同的音频和语音编译码器，比如EFR/FR/HR语音编译码器((增强型)全/半速率编译码器)和AMR以及宽带AMR语音编译码(自适应多速率编译码器)，这些其本身由GSM/UMTS系统，例如G.722，G.722.1，G..723.1，G..728中公知，各种波形编译码器，例如G.711，以及用于MPEG1，MPEG2和MPEG4音频编码中的编译码器，比如AAC编译码器(高级音频编码)，其适合对不同的音频格式编码/译码。音频编译码器这个术语因而既指传统意义上的音频编译码，比如各种波形编译码器，又指用于不同系统中的语音编译码器和可变比特率编译码器，比如依照MPEG4的CELP+AAC。

本发明的第一个方面在下面关于图2将被描述。图2显示了一个会议桥CB，会议桥CB包括用于接收由几个终端(UE₁，...，UE_n)到达的音频信号的输入(I₁，...，I_n)。由终端到达的音频信号典型地用一个其本身公知的传输编译码器进行编码，因而该音频信号相应地由连接到每个输入的接收编译码器(译码₁，...，译码_n)进行译码。然而，由终端对音频信号编码以及在会议桥中的译码与本发明无关。在会议桥中产生的音频信号，比如将被附加于要被合并的音频信号的背景声音或效果，可被馈入一个或多个上面提到的输入。输入的音频信号被提供给一个音频处理单元(APU)，其中音频信号以一个想要的方式合并，这个方式可包括信号混合，空间化，滤波以及其它想要的处理方法，这样的结果典型地是产生一个单声或者立体声合并输出音频信号。应注意到除了不同的音频成分外，音频信号包括控制信息，并且这样来自会议桥的合并音频信号可包括单声道音频信号，该信号已经照那样通过会议桥提供以及对该信号只有控制信息被由其它输入附加。这样任何来自会议桥的音频信号被认为是一个合并音频信号。

进入会议桥的音频信号典型地包括不同的音频成分，比如语音，其它类似语音的声音，例如咳嗽，背景噪声以及可能的上面提到的人工生成的音频信号。至于对将由会议桥传输的合并信号的进一步处理，对本发明的方法来说必需的是人们能够从到来的音频信号中确定它们中有多少包括基本同时的音频成分，典型地是语音，将在合并音频信号中被传输到会议呼叫的其它参加者。

依照本发明的第一个实施方案，这个确定可由示于图2的一个安排来实现，图2中每个会议桥输入包括，最好在接收编译码器(译码)之后，被安排检测接收音频信号中语音的VAD单元(VAD₁，...，VAD_n，语音活动性检测)。在实际中，到达VAD单元的音频信号被安排成帧，每帧包括N个取样。VAD单元核查每个帧，并且作为核查的结果，发送一个指示是否在被核查帧中发现了活动语音的控制信号到控制单元CTRL。这样来自每个VAD单元的控制信号被提供给控制单元CTRL，也就是总共n个控制信号，通过它们控制单元CTRL至少可以确定是否到来音频信号的帧同时包括一个或多个活动语音信号。例如这可以如下这样实现：由VAD单元到达的控制信号是使能布尔代数的信号(例如，语音＝1，无语音＝0)，在此情况下控制单元可以通过例如简单的OR或XOR端口来实现。如果那样，控制单元的输出将会是布尔信号，指示是否这些帧中包括同时的0或者1个活动语音信号(例如，信号值＝0)或者2或者更多同时活动的语音信号(例如，信号值＝1)。

在此安排中VAD单元可以代之以使用音频信号核查的装置，称为ACD单元(音频内容检测器)，它分析包含在音频信号中的信息并且检测想要的音频成分的存在，例如语音，音乐，背景噪声等。这样ACD单元的输出可以用于按照上面描述的方式控制该控制单元CTRL。

此外，接收音频信号可以使用优选地被附加于音频信号的元数据或者控制信息被检测出来。这个信息指示包含于该信号中的音频成分的类型，比如语音，音乐，背景噪声等。

控制单元CTRL的输出信号用于控制将由会议桥传输的合并音频信号的音频编码，优选如下：如果至多一个想要的音频成分(比如语音)在由终端UE到来的音频信号中被同时检测到，则该合并的音频信号由低比特率的音频编译码器进行编码并且被传输到终端。优选使用一个低比特率音频编译码器来很大地节省带宽同时对一个语音信号可以提供足够好的话音质量。相应地，如果在由终端UE到来的音频信号中检测到至少两个想要的音频成分，比如语音，则合并的音频信号被传输到终端并且进行编码以便对几个同时的语音信号得到足够好的话音质量。如果那样，编码可以由例如高比特率音频编译码器或者波形编译码器执行。这优选地保证了对该合并的音频信号的足够好的话音质量，而不管包含在会议呼叫中的同时语音信号的数目。然而同时，优化所用带宽以便只有当保证话音质量绝对需要时才使用大的带宽。

当合并的音频信号被产生时，应当注意到由某个终端到达的音频成分将不会被包括在要传输到这个终端的合并音频信号中，因为这会在音频信号的接收中产生不利的回声现象。当为要传输到每个终端的合并音频信号确定同时活动的语音信号时，这应当被考虑，它影响将被使用的音频编译码器的选出。还应注意到，例如在两个不同电信系统的终端，例如一个移动台和一个固定(PSTN)电话，参加同一个会议呼叫的情况下，可将不同编码的合并音频信号传输到不同的终端。如果那样，终端典型地使用非常不同的音频编译码器。

在图2中，音频处理单元APU提供合并音频信号或者是以立体声形式，在这种情况下为左(L)以及右(R)音频通道安排单独的复用器MUX，或者是以单声道形式，在这种情况下只使用上面提到的音频通道之一，例如左(L)边的一个。控制单元CTRL的输出信号用于控制复用器为合并音频信号的音频通道的音频帧选择适当的传输编译码器或者传输编译码器模式。如果在控制单元CTRL的输出信号中检测到会议桥CB的到来的音频信号同时包括至多一个想要的音频成分(例如输出信号值＝0)，复用器MUX经过控制选出例如传输编译码器A(编码器A)。相应地，如果在控制单元CTRL的输出信号中检测到会议桥CB的到来的音频信号同时包括至少两个想要的音频成分(例如，输出信号值＝1)，复用器MUX经过控制选出传输编译码器B(编码器B)。选出的传输编译码器或者传输编译码器模式(A/B)用于合并音频信号的音频帧，直到控制单元CTRL输出信号的值改变并且控制复用器转换传输编译码器或者传输编译码器模式。

应当注意到不但控制单元CTRL的输出信号可用于控制编译码器从编译码器A转换到编译码器B，而且它可以用于控制在同一个编译码器的模式之间从模式A转换到模式B。取决于系统和终端的实现，将被使用的编译码器可被，例如从12.2kbit/s比特率的AMR编译码器转换到64kbit/s比特率的波形编译码器G.711。相应地，可以执行在同一个编译码器的模式之间的转换，例如作为AMR内部模式转换，比如从12.2kbit/s比特率转换到5.9kbit/s比特率。如果那样，则通过在几个同时语音信号期间不减小编译码器的比特率太多，而优选地控制编译码器模式的选择，即便是数据传输信道的质量将需要这样。

此外，应当注意到，如果需要，则在立体声音频信号的情况下，不同的编译码器或者编译码器模式可被用于不同的音频通道。例如，在其中语音和音乐将在合并音频信号中被传输的会议呼叫的情况下，优选地为这些音频成分(语音/音乐)使用不同的音频编译码器或编译码器模式。在立体声再现中，例如通过经由左音频通道传输语音，并且控制左音频通道的复用器来为语音选出适当的音频编译码器或者编译码器模式，这可以被优选地实现。音乐经由右音频通道传输并且右音频通道的复用器经过控制而为音乐选出适当的音频编译码器或者音频编译码模式。这样将被编码的音频成分(语音，音乐，声音效果，等)的类型也可以优选地影响传输编译码器的选出。

对所有的立体声/多信道合并音频信号的音频通道使用同一个音频编译码器或者同一个编译码器模式也是可能的，在这种情况下所有的音频通道使用一个音频编译码器进行编码。

依照本发明的第二个实施方案，上面描述的传输编译码器或者传输编译码器模式的转换也可以通过图3展示的安排来实现。同样在这种情况下每个会议桥的输入包括一个VAD单元(VAD₁，...，VAD_n，语音活动性检测)，它优选地是在接收编译码器(译码)之后，被安排来检测在接收音频信号的音频帧中的语音。VAD单元核查每一个帧，并且作为核查的结果把显示是否在核查帧中发现活动语音的控制信号传输到控制单元CTRL。根据从每个VAD单元中收到的控制信号，控制单元CTRL例如以上面描述的方式确定是否到来的音频信号帧同时包括一个或多个活动语音信号。不同输入的音频信号的音频帧被馈入音频处理单元APU，APU形成一个合并音频信号，其音频帧进一步被馈入一个缓冲存储器BMEM。同时，上面描述并且由控制单元CTRL得到的确定结果被附加到合并音频信号的每个音频帧作为单独的标记(例如，一个比特)。这样存储在缓冲存储器中的音频信号的每个音频帧包括信息，指示是否所考虑的音频帧包括来自一个或多个会议桥输入的同时的语音。

现在由上面提到的标记指示的信息在传输编译码器的选出中被优选地利用：将被使用的编译码器或者它的模式依照包括在几个连续音频帧中的标记值被选出。这样将被使用的编译码器或者它的模式可以例如由三个连续音频帧的标记值决定。因而，编译码器或者它的模式的不必要的转换在这一情况下可以优选地被避免，即：单个音频帧或者例如两个连续的音频帧包括一个附加的噪声脉冲串，比如背景噪声，VAD单元把它曲解为与真实语音信号同时的语音。如果缓冲器中音频帧的标记值显示编译码器或者它的模式将立即被转变回刚刚被使用的同一个编译码器或者模式，复用器经过优选地控制使得编译码器或者它的模式根本不转换。如果所有三个音频帧的标记值显示编译码器或者它的模式应该被转换，复用器经过控制执行这个转换。很明显三个音频帧仅是在这个连接中关于检查多少个音频帧的一个例子。音频帧的适当数目依赖于系统的实现可自然地变化，并且将被检查的音频帧的数目不必与存储在缓冲器中的音频帧的数目相同。因为缓冲常常引起在声音源和收听者之间的数据传输中的延迟，所以优选地保持将被存储到缓冲器中的帧数目很小，例如三个帧。然而，帧的长度可以在会议桥中被改变，在此情况下装配入缓冲器中的帧的数目也会变化。关于音频信号处理，有利的是使得由会议桥产生的音频帧的长度与使用中的编译码器的帧长度相同，这个长度典型地为几十毫秒(例如在AMR中为20ms)，但是由会议桥产生的音频帧的长度也可不同于编译码器帧的长度。

检查缓冲器中音频帧的标记值和控制复用器可以优选地由另一个控制单元执行，例如可以是一个依照图3的有限状态机FSM。状态机有一些信息是关于哪个编译码器或者模式被用于上一个编码的音频帧，以及在缓冲器中下一个音频帧的标记值是什么(包括在缓冲器中的某一数量或者所有音频帧)。状态机可以优选地包括几个不同的关于下一步选择哪个编译码器或模式的演绎模型。根据所用的演绎，状态机生成一个将被传输到复用器的控制信号。

依照一个优选的实施方案，完全不需要缓冲存储器，而是将所有有关包括在音频帧中的标记值的信息直接从控制单元CTRL提供给状态机FSM。几个音频帧的标记值优选地滑动地存储在状态机中，并且这样将被传输到复用器的控制信号的值由早期音频帧的标记值和可预知的长期变化形成。

依照本发明的优选实施方案，单独的VAD单元完全不是一定需要的，而是VAD检测可以直接在每个会议桥单元输入的接收编译码器(译码)中执行。如果那样接收编译码器被安排来检测接收帧的内容，也就是无论它们是否包括语音。这个检测依照接收帧的类型进行：编译码器确定是否该帧包括语音或者由背景噪声导致的一些干扰。这可以被用于确定“语音标记”的值；如果语音标记的值指示音频帧包括语音，这个指示可以由接收编译码器被直接提供给控制单元CTRL而中间没有一个单独的VAD单元。这优选地节省了在会议桥CB中的处理能力，因为不需要单独的VAD计算。在接收编译码器中的VAD检测对于一个本领域的技术人员其本身是公知的，并且在申请WO 01/08136中被更为详细地描述。

依照一个优选的实施方案，上面描述的实施方案可以考虑在不同声源(输入)的空间化中人工生成的位置差异。在空间化中人们生成会议室的人工空间模型，其中每个会议呼叫参加者被置入一个单独的位置。空间模型作为一个合并的立体/n-声道音频信号被传输到终端。通常已知这种空间化例如可以作为HRTF滤波(与头相关转移函数【HeadRelated Transfer Function】)来完成，HRTF滤波为接收者的左耳和右耳产生立体声信号。空间化也可以仅通过更改信号间的时差(耳间时差)或幅度差(耳间幅度差)来完成。如果例如有两个同时活动的声音源(语音信号)但是这些在模拟会议室中离收听者很远，例如一个在收听者左边并且另一个在收听者右边，则传输编译码器从一个低比特率音频编译码器转换到一个波形编译码器也许是不必要的，而是一个足够的空间差也提供了不同音频信号间的足够的差异。当用一个低比特率音频编译码器编码时这个差也被传输到收听者。这样，可以说传输编译码器的选择是一个函数，其因子不仅包括同时活动的语音信号的数目而且包括语音信号间的空间差。

本发明的另一个优选实施方案可以由图4展示。图4显示了一个会议桥的选择实施方案，如上面一样，该方案包括连接到接收编译码器(译码)和VAD检测装置的n个音频信号输入。音频输入以与上面相同的方式进一步可被提供给音频处理单元(APU)。在音频处理单元APU中音频输入经过合并和处理以产生空间化立体声信号。两路立体声信号进而被提供给传输编译码器A进行编码。

另外，音频输入沿着会议桥内的另外两个通路传送，也就是一个单声代码转换通路(MTP)和一个单声传输通路(MFP)。在接收编译码器(译码器)之后，单声代码转换通路从上面所述通路分叉，从该接收编译码器后该通路去往第一个复用器MUX1。如果必要，音频信号从复用器MUX1经过一个延迟电路被提供给传输编译码器B进行编码。另一方面，单声传输通路由音频输入经由延迟电路直接到达第二个复用器MUX2，而没有用接收编译码器译码。如果必要，该音频信号由复用器MUX2被提供给另一个延迟电路。延迟电路是必要的，因为产生不同时延的不同的处理操作对沿不同通路传播的音频信号完成。通过附加的延迟电路沿不同通路传播的音频信号可以被暂时保持同步。

对音频输入完成VAD检测以便用上面所述方式确定是否有一个或多个同时活动的语音信号。如果只有一个同时活动的语音信号，一个控制信号被传输到第一个复用器(MUX1)或者到第二个复用器(MUX2)，这取决于音频信号的代码变换是否是必须的。基于该控制信号，两个复用器之一使得包含一个语音信号的音频信号通过到达复用器之后的延迟电路。如果在会议桥中使用相同的接收编译码器和相同的传输编译码器模式，则音频信号不需要另外的代码转换，但是音频信号可以沿着单声传输通路(MFP)被提供给第二个复用器MUX2。如果接收编译码器和传输编译码器或者它们的模式互不相同，则接收的音频信号首先必须被译码，并且然后用另一个传输编译码器或模式进行编码。如果那样音频信号就沿着单声代码转换通路(MTP)被提供给第一个复用器MUX1。

需被传输到复用器的控制信号也优选地包括信息，有关哪个音频输入包括该语音信号。这个信息也可以是为用户模拟的空间位置信息。VAD检测也被用来生成控制信号，控制信号被传输到控制单元并且被用于控制第三个复用器MUX3以选择正确的输入(输入1，2，3)。第一个输入(输入1)来自对空间化立体信号编码的传输编译码器A。第二个输入(输入2)是由单声代码转换通路(MTP)经由传输编译码器B的输入。第三个输入(输入3)是由单声传输通路(MFP)经由延迟电路的输入。

第三个复用器MUX3的哪个输入被选出要取决于在VAD中检测到的同时语音信号的数目。如果有几个同时的语音信号，空间化立体信号被选择经由传输编译码器A传输，也就是经由第一个输入(输入1)。如果只有一个同时语音信号，第二个输入(输入2)或者第三个输入(输入3)被选择。在这两个输入之间选择的做出是依照：用于要传输到终端的合并的音频信号的传输编译码器是否与用于由终端到达会议桥的音频信号的编译码器相同。如果合并信号的传输编译码器不相同，到来的音频信号必须被译码并且然后用传输编译码器B重新编码，在这种情况下第二个输入(输入2)被选择作为第三个复用器MUX3的输入。如果用于合并音频信号的传输编译码器与用于由终端到达会议桥的音频信号的那个相同，译码和重新编码不是必须的，但是音频信号可以在第二个复用器MUX2中被复用并且同样经由第三个输入(输入3)被提供给第三个复用器MUX3。

在这个实施方案中，如果几个同时活动的语音信号被检测到，合并音频信号在会议桥中被空间化，优选地是在会议桥的音频处理单元APU中，在这之后空间化的立体声/n-声道音频信号转到经由适合于这种信号的传输编译码器A传输。另一方面，如果只有一个同时活动语音信号被检测到，在会议桥中通过把使能在接收端空间化的信息附加给它而生成合并音频信号，比如生成活动语音信号的终端的音频信号标识符或者终端的空间定位信息。这个合并音频信号以及附加于它的使能空间化的信息被作为单声道音频信号传输给终端，终端通过使能空间化的信息在接收音频信号中产生空间效果。

将被使用的带宽也可以通过本发明的这个实施方案进行优化：如果只有一个同时活动的语音信号，合并音频信号经过编码和传输，使得它使用尽可能少的带宽，但是能够传输足够的话音质量和在空间化中所需信息。如果有多个同时活动的语音信号，关于话音质量和带宽更有利的是执行已在会议桥中的空间化并且然后选择一个用于要传输的合并音频信号的传输编译码器，允许传输足够好的信号和最小化所用带宽。

依照本发明的这一实施方案的不同的情形由图5a和5b展示，其中或者一个或者多个同时活动的语音信号被检测到。在图5a和5b中会议桥以及终端中音频信号的通路是以点画线表示。图5a显示了一个情形，其中只有一个会议呼叫参加者正在活动地谈话。在会议桥的VAD中检测到只有一个同时活动的语音信号。进一步检测到：传输这一活动语音信号的终端对将被传输的音频信号进行编码所使用的编译码器与会议呼叫的其它终端会用于译码该合并音频信号的相同，且所处模式相同，音频信号的代码转换优选地完全可以避免。编译码器的检测可以在会议桥中通过把接收语音帧的类型同已知道用于终端对合并信号编码的编译码器类型比较来完成。如果那样，接收音频信号同样被提供给(第二个)复用器，其中音频信号与包含在其它输入中的控制信息进行合并。如果注意到所关心的传输活动语音信号的终端对将被传输的音频信号编码使用了不同于会议呼叫的其它终端用于对合并音频信号译码的编译码器或者同一个编译码器的不同的模式，音频信号必须经过代码转换。如果那样，接收音频信号在接收编译码器(译码)中经过译码并且提供给(第一个)复用器，其中音频信号被连接到包括在其它输入中的控制信息。然后这个合并音频信号被提供给另一个音频编译码器或者音频编译码器模式，经由一个延迟电路编码。使能空间化的信息被附加到合并音频信号上，例如结合复用。这个信息可以是，例如产生活动语音信号或者终端的空间定位信息的终端的音频信号标识符。在音频信号被传输到传输路径之前，音频编码过的音频帧可以被信道编码。

也应注意到参加会议呼叫的终端可以使用不同的接收编译码器，并且这样代码转换对一个接收终端可以避免，而对其它一些使用不兼容编译码器的终端，这不能避免。

相应地，接收终端通过接收编译码器对信道编码以及音频信息进行译码。被译码音频信息进而被提供给空间处理单元SPU，其通过使能空间化的信息在接收的音频信号中产生空间效果。这种方式空间化的音频信号通过一个扬声器或者耳机被提供给终端用户以便用户能得到会议呼叫参加者中谁在谈话以及声音来自那个方向的一个空间印象。

图5b展示了一种情形其中来自两个不同会议呼叫参加者的同时语音信号在VAD检测中被注意到。为了展示这种情形，图5b仅显示了两个会议桥输入但是实际上输入(以及同时语音信号)的数目可能更大。同时被检测到的音频信号被提供给会议桥的音频处理单元APU，其中音频信号被合并并且合并音频信号被空间化。空间化立体/n-声道信号用一个适当的音频编译码器进行编码，之后典型地音频编码的音频帧在音频信号被传输到传输路径之前进行信道编码。

接收终端用一个接收编译码器对信道编码以及音频信息进行译码。既然接收的音频信息在传输时已经被空间化，空间化立体声/n-声道音频信号由译码通过扬声器或者耳机被直接提供给终端用户，使得用户能得到关于会议呼叫参加者中谁正在谈话以及声音来自哪个方向的一个空间印象。

本发明的几个实施方案在上边描述，其中音频信号或者在会议桥中或者在接收终端中被空间化。依照本发明的一个优选的实施方案，空间化过程可以至少分为在会议桥和在接收终端中执行的两个步骤。如果那样，空间预处理在会议桥中对音频信号执行，会议桥产生一个被传输到终端的合并音频信号，在终端中该合并的音频信号进一步被提供给空间处理单元SPU进行为收听者再现之前的后处理。这种空间化的一个例子是‘矩阵编码’，其中在会议桥中活动音频信号被合并为一个被传输到终端的合并的N-声道信号(例如依照高保真度立体声响复制技术)。终端处理这个N-声道信号并且产生一个空间化的以及可重生的音频信号，其适合于扬声器或耳机。这种情况下在会议桥中如果只有一个活动语音信号被检测到，则合并N-声道信号可用一个低的比特率进行编码。相应地，如果在会议桥中几个活动语音信号被检测到，合并N-声道信号就可使用一个更好质量的编码进行编码。这也优选地允许关于音频信号质量带宽使用的优化。

依照本发明的一个优选实施方案，如果一个包括空间化的立体声合并音频信号在会议桥中被产生，同时语音信号可以从会议桥空间化器的输出中被检测到，并且因而VAD检测完全不需要。这被展示于图6。从该音频处理单元APU的输出(APU在本实施方案中起空间化器的作用)，空间化立体声信号(左L和右R)被提供给单声/立体声估计器(M/S估计器)，这个估计器分析信号并且确定音频信号是否包括至多一个语音信号或者是否有几个同时的语音信号。根据这个确定，一个控制信号以一种方式由单声/立体声估计器被传输到复用器，这种方式对应于连同VAD检测所描述的那些：如果在空间化音频信号中只有一个同时语音信号被检测到，复用器经过控制为音频信号选择一个例如低比特率的音频编译码器；如果在空间化音频信号中至少两个同时的语音信号被检测到，复用器经过控制为音频信号选择一个例如高比特率音频编译码器或者波形编译码器。单声/立体声估计器的操作对一个本领域的技术人员来说其本身是公知的，并且在EP申请955789中被更为详细地描述。

应当注意上面描述的实施方案典型地只有关于空间化音频信号时才起作用。如果音频处理单元APU被实现为一个混合器，其中到来的音频信号仅仅被加在一起，单声/立体声估计器解释为在各种情况下该合并音频信号只包括一个语音信号。因而如果由会议桥产生的合并音频信号是一个空间化立体声/N-声道音频信号，则上面描述的实施方案最具优势。

依照一个优选的实施方案，基于在空间化中人工产生声源位置的检测方法可用于有关单声/立体声估计器或者一个相似的检测系统。在空间化中会议室的人工空间模型被产生，其中不同的会议呼叫参加者被提供他们自己的位置。不同参加者的不同的位置通过在立体声/N-声道音频信号的信号成分中产生的通道间时间和振幅差而生成。关于多少个声源正在同时使用的一个估计例如可以通过确定在单声/立体声估计器中的时间和振幅差来形成。此外，如果只有一个声源在使用，所有声源的位置信息可以被提供给检测系统并且如果声源在不同的位置，检测系统可以确定在任何给定时间哪个声源正在使用。

依照本发明的基本方法步骤的实施一般由示于图7的一个流图展示。本发明的各种实施方案在上面被描述。然而，这些实施方案有某些共同的步骤，这些共同步骤对本发明的实施是必需的。这些示于图7。如果我们检查会议桥，在初始情形(700)中几个连接到会议桥的不同输入(702)的几个终端参加会议呼叫。在会议桥中某些同时活动的音频信号的的数目(704)由输入的音频信号进行确定。这一些音频信号是预定音频信号，其典型地是语音信号，但是也可以是一些其它音频信号，比如音乐或在会议桥中人工生成的空间声音。在最简单的情况下上面提到的数目的确定包括在一个以及几个同时活动音频信号之间的距离，但是活动音频信号的准确的数目也可以被确定。

下一步根据同时活动的预定音频信号的数目选择至少一个传输编译码器或者传输编译码器的模式来使用(706)。这个选择被做出是，优选地以关于不同的实施方案所描述的那些方式，考虑到这个事实，不管在会议呼叫中的同时语音信号的数目如何，对合并音频信号应该保证足够好的话音质量，而带宽使用应该经过优化使得只有当保证话音质量绝对需要时大的带宽才被使用。

在最后一个必需步骤中在会议桥中合并的音频信号使用选择的传输编译码器被传输到至少一个终端(708)。在一个典型的情况中合并音频信号通过相同的传输编译码器被传输到所有的终端，但是例如在一个情况其中两个不同电信系统的终端参加同一个会议呼叫，则终端典型地使用很不相同的音频编译码器，并且因而可能必须对一个将被传输到一个终端的合并音频信号使用一个不同于用于其它终端的编译码器的传输编译码器。同样应当注意从这个步骤(708)到较早的步骤有一个反馈，在较早步骤中基本同时的活动音频信号的数目从输入的音频信号中被确定(704)。这样同时活动的音频信号的数目在会议呼叫期间不停地受到监控并且在一个呼叫连接期间传输编译码器可以优选地被转换。

典型地会议桥是一个服务器，其被配置到一个电信网络并且电信网络的操作受到一个维持该会议呼叫服务的服务提供者的管理。会议桥从接收自终端的信号对语音信号译码，使用其本身公知的处理方法合并这些语音信号，用选择的传输编译码器对合并音频信号编码并且把它传输回终端。会议桥也可以是一个终端，这个终端可参加进会议呼叫，但是其也可以被安排去支持会议呼叫的管理，典型地管理关于会议呼叫的控制信息。然而，同样在这种情况下，作为一个网络服务在会议桥中语音信号典型地被合并成一个合并音频信号。部分地能够行使会议桥功能以及支持会议呼叫的终端包括Nokia

9110和9210通信装置。此外，数字电视网络的机顶盒能行使会议桥的功能。依照本发明的会议桥至少包括装置来确定到达会议桥的音频信号中有多少包括在合并音频信号中将被传输到其它会议呼叫参加者的基本同时的音频成分。依照本发明的会议桥进一步包括装置，根据上面提到的确定来控制对于合并音频信号的传输编译码器的选择。

在依照本发明的方法中，使用的终端必须支持编译码器或者其模式的转换。图8显示了这种终端的一个例子。终端接收由会议桥发出并且包括关于转换编译码器或者其模式的指示的合并音频信号。终端从音频信号的剩余部分中分离出编译码器类型指示并且把其填入控制单元中。根据这个类型指示，控制单元产生控制信号传输到解复用器，解复用器可以把音频帧填入选择的编译码器以使用这个指示进行译码。优选地在旧的编译码器(或者模式)A被转换到新的编译码器(或模式)B之前控制单元初始化选择的新编译码器。这优选地允许避免在由不同的编译码器译码的音频帧之间的有害的中断。为了防止编译码器转换在话音中产生严重的干扰，新的编码器或者译码器必须在会议桥中编译码器之间的转换之前或者在终端中译码器之间的转换之前被初始化。

依照一个实施方案，好的话音质量通过在初始化后的几个帧期间并行使用会议桥的新的编译码器B与旧的编译码器A而可以被保证。然而，在这个点上新编译码器的帧没有被传输到终端。这保证新的编译码器B已激活语音编码，这确保当旧的编译码器由新的编译码器B替换时，新的编译码器已经对讨论中的音频信号进行编码。

依照一个实施方案，当通过在几个帧期间对终端中由旧译码器A译码的音频信号用编码器B进行编码而转换译码器时，这也可以在终端中被执行。新的编码帧被提供给新的译码器B，但是它们没有进一步被传输。当译码器A被转换到译码器B时，译码器B已经对讨论中的音频信号进行了译码。这两种解决方式都要求将被传输和接收的帧可以被缓冲。

为了实现本发明的一个实施方案，依照本发明的一个终端也包括一个空间处理单元SPU，当单声道音频信号由会议桥被传输时其被使用。这个信号包括使音频信号能空间化的信息，比如在终端上产生活动语音信号或者空间定位信息的终端音频信号标识符。该空间处理单元SPU用于通过使能空间化的信息在接收的音频信号中产生空间效果。

本发明通过实施方案例示于上，其中目的是确定是否同时语音信号的数目是一个或者多个，在此情况下如果同时语音信号的数目是一个，则对于在会议桥中合并的音频信号选择编译码器A(或者模式A)，以及如果同时语音信号的数目是两个或更多，则选择编译码器B(或模式B)。然而，本发明不限于上面所述确定‘一个/多个同时语音信号’，而是通过确定同时语音信号的准确数目(0-n)并且优化将被使用的传输编译码器的选择，本发明也可以被应用，使得选择的编译码器总是保证与语音信号的数目相比足够好的话音质量，而所用带宽是最小的。

对于本领域的技术人员来说很明显，随之技术进步，本发明的概念可以以各种方式实现。这样本发明以及它的实施方案不限于上面描述的例子而是它们可以在权利要求的范围内被改变。

Claims

1.一种在电信系统中控制会议呼叫的方法，该电信系统包括一个会议桥，用来合并来自终端的多个音频信号并且进一步使用至少一个传输音频编译码器把该合并信号传输到所说终端中的至少一个，该会议桥包括一个产生空间效果的空间化单元，其特征在于该方法包括的步骤有：

从所说的会议桥输入的音频信号确定基本同时活动的预定音频成分的数目，

根据所说的同时活动的预定音频成分的数目从包括至少两个不同的编译码器的编译码器组中选择至少一个传输音频编译码器来使用，并且

使用选择的传输音频编译码器把所说的合并信号传输到至少一个终端。

2.依照权利要求1的方法，其特征在于：

在所说的合并信号已由第一个音频编译码器编码之后将所说合并信号传输到所说的至少一个终端，以响应于只有一个同时活动的预定音频成分的事实；或者

在所说的合并信号已由第二个音频编译码器编码之后将所说合并信号传输到所说的至少一个终端，以响应于有多于一个的同时活动的预定音频成分的事实。

3.依照权利要求2的方法，其特征在于

所说的第一个音频编译码器是一个低比特率音频编译码器，以及所说的第二个音频编译码器是一个高比特率音频编译码器。

4.依照权利要求1到3中的任何一个的方法，其特征在于

在会议桥中包括的空间化单元内处理所说的合并信号，使得通过所说的合并信号在所说的至少一个终端中生成会议呼叫参加者的空间效果。

5.依照权利要求4的方法，其特征在于

以至少两个不同的步骤完成合并信号的空间化，这两个步骤在会议桥和接收终端间被划分。

6.依照权利要求1的方法，其特征在于：

把所说的合并信号作为一个单声道音频信号传输到所说的至少一个终端并且在所说的终端中空间化该接收到的单声道音频信号，以响应于只有一个同时活动的语音信号；或者

把所说的合并的且空间化的信号作为一个多声道音频信号传输到所说的至少一个终端，以响应于有多于一个同时活动的语音信号。

7.依照权利要求6的方法，其特征在于，可以通过以下方式产生所说的单声道音频信号：

不进行代码转换而合并所说的来自会议桥输入的音频信号的活动语音信号和来自其它输入的控制信号，以响应于在会议桥中使用相同的接收和传输音频编译码器以及相同的音频编译码器模式的事实；或者

通过对所说的输入的音频信号进行代码转换而合并所说的来自会议桥输入的音频信号的活动语音信号和来自其它输入的控制信号，以响应于在会议桥中使用不同的接收和传输音频编译码器或者不同的音频编译码器模式的事实。

8.依照权利要求1到3中任何一个的方法，其特征在于

通过包含在会议桥输入中的话音活动性检测单元来确定同时活动的预定音频成分的数目。

9.依照权利要求1到3中任何一个的方法，其特征在于

通过确定音频内容且包含在会议桥输入中的音频内容检测器单元来确定同时活动的预定音频成分的数目。

10.依照权利要求1到3中任何一个的方法，其特征在于

通过包含在接收音频信号中的元数据或者控制信息来确定同时活动的预定音频成分的数目，该元数据或者控制信息确定包含在该音频信号中的音频成分的类型。

11.依照权利要求1到3中任何一个的方法，其特征在于

通过单声/立体声估计器而从包含在会议桥中的音频处理单元的输出确定同时活动的预定音频成分的数目。

12.依照权利要求1到3中任何一个的方法，其特征在于

除了所说的同时活动的预定音频成分的数目外，还使用在空间化单元中用于所说的会议呼叫参加者的空间化信息来选择所说的至少一个传输音频编译码器。

13.依照权利要求1到3中任何一个的方法，其特征在于

所说的传输音频编译码器被安排以相同的音频编译码器对所有的立体声/N-声道合并的音频信号的音频通道进行编码。

14.依照权利要求1到3中任何一个的方法，其特征在于

根据被每个终端支持的音频编译码器，按照该终端来选择将被使用的所说的传输音频编译码器。

15依照权利要求1到3中任何一个的方法，其特征在于

所说的传输音频编译码器是下面之一：GSM EFR/FR/HR语音编译码器，AMR语音编译码器，宽带AMR语音编译码器，G.711，G.722，G.722.1，G.723.1，G.728，一个依照MPEG1/2/4的编译码器，AAC编译码器或者CELP+AAC编译码器。

16一种控制会议呼叫的设备，其包括：合并装置用于合并来自终端的多个音频信号，发送器用来进一步使用至少一个传输音频编译码器把该合并信号传输到所说的终端中的至少一个，以及产生空间效果的一个空间化单元，其特征在于所说的设备还包括：

确定装置，用于从所说的设备输入的音频信号确定基本同时活动的预定音频成分的数目，

选择装置，用于根据所说的同时活动的预定音频成分的数目而从包括至少两个不同的编译码器的编译码器组中选择至少一个传输音频编译码器来使用，并且

所说发送器使用该选择的传输音频编译码器把所说的合并信号传输到至少一个终端。

17.依照权利要求16的设备，其特征在于：

所说的发送器在所说合并信号由第一个音频编译码器编码之后将所说合并信号传输到所说的至少一个终端，以响应于只有一个同时活动的预定音频成分的事实；或者

所说的发送器在所说合并信号由第二个音频编译码器编码之后将所说合并信号传输到所说的至少一个终端，以响应于有多于一个的同时活动的预定音频成分的事实。

18.依照权利要求17的设备，其特征在于

19.依照权利要求16到18的任何一个的设备，其特征在于

所说的合并信号被安排成在该设备的空间化单元中被处理，使得通过所说的合并信号而在所说的至少一个终端中生成该会议呼叫参加者的空间效果。

20依照权利要求19的设备，其特征在于

合并信号的空间化被安排成以至少两个不同的步骤执行，其中至少一个步骤被安排成在所说的设备中执行并且其它的步骤在接收终端中执行。

21依照权利要求16的设备，其特征在于：

所说的合并信号被安排成作为一个单声道音频信号传输到所说的至少一个终端，并且接收到的单声道音频信号在所说的终端中被空间化，以响应于只有一个同时活动的语音信号的事实；或者

所说的合并的且空间化的信号被安排成作为多声道音频信号传输到所说的至少一个终端，以响应于有多于一个同时活动的语音信号的事实。

22.依照权利要求21的设备，其特征在于，所说的单声道音频信号安排成被生成以使得

所说的来自会议桥输入的音频信号的活动语音信号和其它输入的控制信号被安排成不进行代码转换而被合并，以响应于会议桥使用相同的接收和传输音频编译码器以及相同的音频编译码器模式的事实；或者

所说的来自会议桥输入的音频信号的活动语音信号和其它输入的控制信号被安排成通过对所说的输入的音频信号进行代码转换而合并，以响应于会议桥使用不同的接收和传输音频编译码器或者不同的音频编译码器模式的事实。

23.依照权利要求16到18中任何一个的设备，其特征在于

同时活动的预定音频成分的数目被安排成通过包含在会议桥输入中的话音活动性检测单元被确定。

24.依照权利要求16到18中任何一个的设备，其特征在于

同时活动的预定音频成分的数目被安排成通过包含在会议桥输入中且确定音频内容的音频内容检测器单元来确定。

25.依照权利要求16到18中任何一个的设备，其特征在于

同时活动的预定音频成分的数目被安排成通过包含在接收音频信号中的元数据或者控制信息被确定，该元数据或者控制信息确定包含在音频信号中的音频成分的类型。

26.依照权利要求16到18中任何一个的设备，其特征在于

同时活动的预定音频成分的数目被安排成通过单声/立体声估计器而从包含在会议桥中的音频处理单元的输出确定。

27.依照权利要求16到18中任何一个的设备，其特征在于

除了所说的同时活动的预定音频成分的数目外，在空间化单元中用于所说的会议呼叫参加者的空间化信息被安排成用于选择所说的至少一个传输音频编译码器。

28.依照权利要求16到18中任何一个的设备，其特征在于

所说的设备被配置为在一个电信会议系统中操作，该电信会议系统包括多个终端，其中至少一个终端被安排成从参加会议呼叫的其它终端中接收控制信息，由此所说设备被配置为与接收控制信息的所说至少一个终端一起控制所说的会议呼叫。

29.一种被安排来接收从会议桥传输的合并音频信号的终端，其特征在于该终端包括

至少两个不同的音频编译码器或者音频编译码器模式，

把音频编译码器类型指示从音频信号的剩余部分中分离出来的装置，

根据选择音频编译码器或者它的模式的类型指示来产生控制信号的控制单元，以及

把音频帧馈入选择的音频编译码器或者它的模式以按照所说控制信号进行译码的解复用器。

30.依照权利要求29的终端，其特征在于

终端被安排成初始化所说的选择的音频编译码器，使得所说的选择的音频编译码器在音频编译码器转换之前与先前使用的音频编译码器一起同时对所说的音频信号译码。

31.依照权利要求29或30的终端，其特征在于

该终端包括根据所说的合并音频信号产生会议呼叫参加者的空间效果的空间化单元。