CN101218813A

CN101218813A - 用于电话会议的空间化设置

Info

Publication number: CN101218813A
Application number: CNA2006800252491A
Authority: CN
Inventors: P·雅尔斯克; J·维罗莱南
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2005-07-11
Filing date: 2006-07-05
Publication date: 2008-07-09
Also published as: US7724885B2; EP1902576A4; US20070025538A1; JP2009500976A; WO2007006856A1; EP1902576A1

Abstract

一种用于区分多个参与者的电话会议中的发言者的方法，在该方法中，在接收单元中接收电话会议的语音帧，所述语音帧包括编码的语音参数。在接收单元的音频编解码器中检查接收到的语音帧的至少一个参数，并且将语音帧分类成属于参与者之一，所述分类是根据在检查的至少一个语音参数中的差异来实施的。这些功能可以被实施在发言者标识块中，其可以应用于电话会议处理链的各种位置。最后，通过将参与者放置在音频信号的声学空间的不同位置、根据告知的差别来在再生音频信号的终端中创建空间化效果。

Description

用于电话会议的空间化设置

技术领域

本发明涉及电话会议系统，并且更具体地，涉及设置电话会议中的空间化效果。

背景技术

各种音频和视频会议服务已经被使用了很长时间，尤其在电路交换通信网络中。电话会议系统可以被划分成分布式和集中式系统，后者在提供电话会议服务中已变得更为有利，当考虑服务提供商和终端的实施时。

图1示出用于实施集中式音频会议服务的现有技术设计。电话会议系统包括会议桥CB和与其通信的若干个终端UE。每个终端UE通过麦克风接收终端用户的语音并且利用本质上已知的语音编码器来对语音信号进行编码。编码的语音被传输到会议桥CB，其解码来自接收到的信号的语音信号。会议桥CB使用现有技术的处理方法、在音频处理单元APU中将从不同终端接收到的语音信号进行合并，此后，包括若干语音信号的合并信号被本质上已知的语音编解码器编码并且发送回终端UE，终端UE将从接收到的信号解码合并的语音信号。由扬声器或耳机从合并的语音信号生成可听的音频信号。为了避免有害的回声现象，由终端发送到会议桥的音频信号通常从将要发送到终端的合并的音频信号去除。

在会议桥中生成的合并信号通常作为单声道(单频道)音频信号或作为双声道(立体声)音频信号。在会议桥中，空间效果，称为空间化，可以在双声道音频信号中人工地创建。在这种情况下，处理音频信号以给收听者这样的印象，即，电话会议的参与者处于会议室的不同位置。在这种情况下，将在不同音频声道上再生的音频信号彼此不同。当使用单声道音频信号时，所有语音信号(即，合并的信号)被再生，作为相同音频通道上的混合。

如果被合适地实施，则空间化提高了电话会议参与者的语音清晰度，因为收听者能够感觉每个参与者的语音来自于不同的方向。相应地，在电话会议系统中，空间化是期望的特征。在例如WO99/53673，US 6,125,115和US 5,991,385中描述了包括空间化的现有技术的电话会议系统。

然而，这些现有技术具有明显的缺陷。为了创建空间化效果，接收终端需要关于在每个时刻哪个参与者正在进行发言的信息。在多数情况下，电话会议桥能够定义该信息，但必须将其包括在将要发送到每个参与终端的电话会议桥的输出信号中。没有标准化的方式将该额外的信息包括在将要发送的信号中。此外，包括该额外的信息将导致增加在数据传输中所使用的带宽，这是进一步的缺陷。

一种用于创建空间化效果的可选现有已知方法是提供会议桥内的空间化单元。在空间化单元中，所有的输入声道被空间化并且空间化的信号被发送到每个参与终端。这接着又增加了会议桥的复杂度。包括空间化信息的信号也需要更大的带宽。

另外，在某些情况下，电话会议桥甚至不能够定义在每个时刻哪个参与者正在发言。例如，可以使用电话会议桥作为单频道会议网络和支持3D(立体声/n-声音)会议网络之间的网关。在这样的情形下，网关电话会议桥从单频道会议网络的电话会议桥接收包括单频道会议网络的参与者的所有语音信号的合并信号。另外，定义在每个时刻哪个参与者正在发言的额外信息应该包括在合并的信号中，从而使得网关电话会议桥能够将发言者彼此区分，以便进一步的空间化处理。

发明内容

现在发明了一种改进的方法和实施该方法的技术设备，由此可以在接收时执行发言者标识，而不需要任何额外的信息被包括在接收到的合并信号中。本发明的各种方面包括方法、系统、电子设备和计算机程序，其特征在独立权利要求中陈述。在从属权利要求中公开了本发明的各种实施方式。

根据第一方面，根据本发明的方法基于观察到在编码的语音数据中的语音参数通常包括足够的信息，以在涉及典型电话会议情况中的若干发言者之间做出区别。相应地，本发明的第一方面包括一种用于区分多个参与者的电话会议中的发言者的方法，该方法包括：接收电话会议的语音帧，所述语音帧包括编码的语音参数；检查接收到的语音帧的至少一个语音参数；以及将语音帧分类成属于参与者之一，分类是根据在检查的至少一个语音参数中的差异来实施的。

根据一个实施方式，该方法另外包括：通过基于参与者的语音帧分类将参与者放置在音频信号的声学空间的不同位置，向将要再生的音频信号创建空间化效果。

根据一个实施方式，该方法另外包括：根据在检查的至少一个语音参数中的差异来确定每个参与者的控制字；将控制字附加到语音帧，每个语音帧的控制字是在特定语音帧中发言的参与者所特有的。

根据一个实施方式，该方法另外包括根据附加到语音帧的控制字来创建空间化效果。

根据一个实施方式，该方法另外包括：根据在检查的仅一个语音参数中的线性差异来确定每个参与者的控制字；以及根据控制字来控制将要再生的音频信号的音频通道的空间位置。

根据一个实施方式，该方法另外包括：根据多个检查的语音参数中的差异来聚结语音帧；根据聚结的语音帧的语音参数中的差异来确定每个参与者的控制字；以及根据控制字来控制将要再生的音频信号的音频通道的空间位置。

根据一个实施方式，检查的语音参数包括下面的至少一个：话音的基音(pitch)；编码语音帧的话音/非话音分类；或编码的语音帧的任何LPC参数。

根据本发明的设置提供显著的优势。主要优势在于在电话会议的情况下，不需要来自网络的发言者标识信息，而是标识可仅在接收单元内实施。另外，在接收机内不需要单独的话音分析算法，由于编码的语音帧参数用于标识，这导致低的计算复杂度。另外的优势在于甚至通过使用若干，可能仅一个或两个合适选择的语音参数，可在终端中获得明显的空间化效果。

根据本发明的第二方面，提供一种用于区分具有多个参与者的电话会议中的发言者的系统，该系统包括：用于接收电话会议的语音帧的装置，所述语音帧包括编码的语音参数；音频编解码器，用于检查接收到的语音帧的至少一个参数；以及用于将语音帧分类成属于参与者之一的装置，该分类基于在检查的至少一个语音参数中的差异。

这样的系统可以应用在电话会议的处理链中的各种位置。这提供了显著的优势，定位发言者标识处理的某种自由度提供在会议网络的不同阶段中将单频道会议系统连接到3D会议系统的灵活性。在本发明的另外方面示出了这些可选的位置。

根据第三方面，提供一种终端设备，用于对具有多个参与者的电话会议的音频信号进行三维空间化，该设备包括：用于接收电话会议的语音帧的装置，所述语音帧包括编码的语音参数；音频编解码器，用于检查接收到的语音帧的至少一个参数；用于将语音帧分类成属于参与者之一的装置，该分类基于在检查的至少一个语音参数中的差异；以及空间化装置，用于通过将参与者放置在音频信号的声学空间中的不同位置，向将要再生的音频信号创建空间化效果。

根据第四方面，提供一种计算机程序产品，其存储在计算机可读介质上并且可在数据处理设备中执行，用于对具有多个参与者的电话会议的音频信号进行三维空间化，该计算机程序产品包括：用于接收电话会议的语音帧的计算机程序代码段，所述语音帧包括编码的语音参数；计算机程序代码段，用于检查接收到的语音帧的至少一个参数；以及计算机程序代码段，用于将语音帧分类成属于参与者之一，所述分类基于在检查的至少一个语音参数中的差异；以及计算机程序代码段，用于通过将参与者放置在音频信号的声学空间中的不同位置，向将要再生的音频信号创建空间化效果。

根据第五方面，提供一种用于电话会议系统的会议桥，所述桥包括：用于接收具有多个参与者的电话会议的语音帧的装置，所述语音帧包括编码的语音参数；音频编解码器，用于检查接收到的语音帧的至少一个参数；以及用于将语音帧分类成属于参与者之一的装置，所述分类基于在检查的至少一个语音参数中的差异；以及用于基于参与者的语音帧分类将信息包括在音频信号中以便音频信号的进一步空间化处理的装置。

根据第六方面，提供一种计算机程序产品，存储在计算机可读介质上并且可以在数据处理设备中执行，以便区分具有多个参与者的电话会议中的发言者，计算机程序产品包括：用于接收电话会议的语音帧的计算机程序代码段，所述语音帧包括编码的语音参数；计算机程序代码段，用于检查接收到的语音帧的至少一个参数；计算机程序代码段，用于将语音帧分类成属于参与者之一，所述分类基于在检查的至少一个语音参数中的差异；以及计算机程序代码段，用于基于参与者的语音帧分类将信息包括在音频信号中，以便音频信号的进一步空间化处理。

根据第七方面，提供一种终端设备，其操作为将多个从终端连接到会议桥的主终端，所述终端设备包括：用于接收具有多个参与者的电话会议的语音帧的装置，所述语音帧包括编码的语音参数；音频编解码器，用于检查接收到的语音帧的至少一个参数；以及用于将语音帧分类成属于参与者之一的装置，所述分类基于在检查的至少一个语音参数中的差异；以及用于基于参与者的语音帧分类将信息包括在音频信号中以便音频信号的进一步空间化处理的装置。

附图说明

在下文中，将参考附图来更为详细地描述本发明的各种实施方式和方面，其中：

图1表示根据现有技术的集中式电话会议系统；

图2表示宽带AMR语音编解码器的通用功能结构；

图3表示在简化的块流程图中的根据本发明的一个实施方式的发言者标识系统；

图4表示实施在根据本发明的一个实施方式的终端或会议桥中的发言者标识系统；

图5表示实施在根据本发明的另一实施方式的会议桥中的发言者标识系统；

图6表示实施在根据本发明的另一实施方式的分布式电话会议系统的会议桥中的发言者标识系统；

图7a表示电话会议情形，其中一组终端经由主终端连接到会议桥；

图7b表示实施在根据本发明的一个实施方式的图7a的主终端中的发言者标识系统；

图7c表示实施在根据本发明的另一实施方式的图7a的主终端中的发言者标识系统；

图8表示根据本发明的一个实施方式的空间化方法的流程图；

图9表示在简化的块流程图中的根据本发明的一个实施方式的终端设备；以及

图10表示在简化的块流程图中的根据本发明的一个实施方式的会议桥。

具体实施方式

本发明不限于任何特定的电信系统，其可以使用在任何电信系统中，其中语音编解码器分析语音的特性并且将编码语音的参数包括在将要发送到接收者的音频信号中。因此，本发明可以使用不同的音频和语音编解码器，例如本质上从GSM/UMTS系统已知的EFR/FR/HR语音编解码器((增强型)全/半速率编解码器)和窄带AMR或宽带AMR语音编解码器(自适应多速率编解码器)，以及使用在MPEG1、MPEG2和MPEG4音频编码中的编解码器，例如AAC编解码器(高级音频编码)，其适用于编码/解码不同的音频格式。因此术语音频编解码器表示传统意义上的音频编解码器和使用在不同系统中的语音编解码器以及具有可伸缩比特率的编解码器，例如根据MPEG4的CELP+AAC。因此，技术人员将理解到电信系统的属性根本不会限制本发明的实施，本发明可以应用于任何电路交换或分组交换电信网络中，例如GSM网络、GPRS网络、UMTS网络以及经由因特网使用的电话会议设置中。

在下文中，将使用宽带AMR(AMR-WB)编解码器作为例子来描述实施方式。宽带语音编解码器AMR-WB从先前开发用于GSM系统的窄带语音编解码器AMR-NB进一步发展而来。宽带和窄带AMR编解码器都被设置成将错误消除的等级适配于无线信道和业务条件，从而它们总是试图选择最佳的信道和编解码器模式(语音和信道比特率)，从而提供最佳的可能语音质量。

AMR语音编解码器包括多速率语音编码器，源控制速率图，其包括话音活动检测(VAD)和背景噪声生成系统(DTX，非连续传输)以及阻止将传输路径错误发送到接收方的错误消除机制。多速率语音编解码器是集成的语音编解码器，其窄带版本AMR-NB包括具有比特速率为12.2、10.2、7.95、7.4、6.7、5.9、5.15和4.75kbit/s的八个语音编解码器。宽带语音编解码器接着包括比特速率为23.85、23.05、19.85、18.25、15.85、14.25、12.65、8.85和6.60kbit/s的九个语音编解码器。

AMR语音编解码器的语音编码的操作基于ACELP(代数码本激励线性预测)方法。宽带编解码器AMR-WB在16kHz的频率处对语音进行采样，此后预处理的语音信号被下采样到编解码器的操作频率12.8kHz。这实现解码语音信号的6.4kHz带宽，但操作在最高比特率23.85kbit/s的编解码器模式也包括语音信号后处理功能，通过该功能可以确定对于语音信号来说，更高频率范围(6.4到7kHz)内的有色随机噪声分量将使用的带宽增加到7kHz。

语音编码器的输出比特流因此包括是典型ACELP编码器参数的编码语音参数。这些包括

-在ISP(导抗频谱对(Immitance Spectral Pair))域中量化的LPC(线性预测编码)参数，描述频谱内容并且定义滤波器的短期常数；

-LTP(长期预测)参数，描述语音的周期性结构；

-ACELP激励，描述线性预测器后的冗余信号；

-信号增益

-扩展高频带的增益参数(仅用于最高比特率的编解码器中)

图2的框图描述宽带语音编解码器AMR-WB的通用功能结构，其中语音编解码器的输入语音首先施加到话音活动检测块(VAD)200。在该块中，通过VAD算法对输入信号执行操作，其中包括语音分量的帧与仅包括噪声的帧相分离。在包括语音分量的帧上执行初步VAD参数化，而仅包括噪声的语音帧将被引导旁路语音编码器到非连续传输(DTX)块202，该块202以低比特率(1.75kbit/s)对包括噪声的帧进行编码。作为初步VAD参数化的结果，通常可以确定语音帧的基音和能量。包括语音分量的语音帧被施加到语音编码器204，该语音编码器包括本质上已知的功能性，用于计算LPC参数(块206)、LTP参数(块208)和描述信号增益的参数(块210)。

语音编解码器将编码的语音参数馈入到信道编码器，其中执行连续的操作，例如比特重组、针对一些比特计算CRC(循环冗余校验)值、卷积编码和凿孔。这些信道编码语音参数经由发送器发送到接收终端的编解码器，其中解码器解码信道编码并且解码语音参数，从而形成将要在接收机中再生的音频信号。

现在让我们假设图2的宽带AMR-WB语音编解码器使用在图1的电话会议桥中，即，音频处理单元APU合并和处理从不同终端接收到的语音信号，并且包括若干语音信号的合并的信号由宽带AMR-WB语音编解码器来编码并且发送回终端或另一会议桥。

本发明的实施方式基于观察到编码语音数据中的语音参数通常包括对涉及典型电话会议情况中的若干发言者之间做出区分的足够信息。因此，接收单元(例如终端或网关电话会议桥)的语音编解码器被设置成检查一组语音参数，即，一个或多个参数，并且根据检查的语音参数中的差异来将发言者彼此分开。接着将根据检查的语音参数的特性值来从后续的语音帧标识出发言者，在此之后，被标识的发言者的信息可以被进一步用于对将要再生的音频信号创建空间化效果。

通过参考图3的框图来进一步示出实施方式，其示出通用层面上的发言者标识块的实施。图3仅示出关于编码的语音帧的处理的功能性。对技术人员，显而易见的是在编码的语音帧被插入到语音编解码器前，已知的各种操作将被实施于接收到的信号。这些操作至少在某种程度上是系统相关的并且通常包括例如接收帧的去交织和卷积解码，然而对于实施方式的实施是不相关的。

接收单元(例如终端或网关电话会议桥)接收包括各种语音参数的编码语音帧300。从至少一些接收到的语音帧，由提取块302复制一个或多个预定的语音参数。事实上，不必检查每个语音帧，如果例如检查每第二个或每第三个语音帧，则可以获得可靠的解决方案。语音参数进一步被馈入到识别块304，其中根据语音参数中的差异来彼此区分发言者并且接着每个帧将被分类到属于发言者之一。识别块304进一步计算控制字，该控制字标识发言者并且将进一步被用于针对特定的语音帧来创建空间化效果。因此，发言者标识块306的基本实施包括提取块302和识别块304。这样的发言者标识块可以应用于各种音频会议架构和电话会议的处理链的各种位置中。

根据一个实施方式，发言者标识块可以被实施在接收终端中，由此不需要来自网络的发言者标识信息以便创建将要再生的音频信号的空间化效果。图4示出更为详细的终端中的实施。终端接收来自会议桥的编码语音帧400。提取块402复制来自接收语音帧的预定语音参数，接着将语音参数输入到识别块404中。识别块404检查语音参数中的差异，相应地将发言者彼此区分，并且将每个帧标识为属于发言者之一。接着识别块404确定每个识别发言者的控制字，该控制字被进一步用于创建用于语音帧的空间化效果。同时，由终端接收到的编码语音帧400被插入到标准语音解码器408，例如，AMR-WB语音编解码器以用于解码处理。语音解码器408的输出包括解码语音帧，其被插入到空间化处理模块410以便创建空间化效果。在空间化处理模块410中，每个语音帧被标记有由发言者标识块406所计算的相应控制字。根据标记有语音帧的控制字来处理语音的每个部分，使得从由收听者所感觉的声学空间中的不同位置听到每个发言者。这给出来自不同方位的每个对手发言的感知。回放装置412可包括立体声再生装置，例如，耳机或立体声扬声器，或任意其他的多通道音频系统，例如5.1系统。

通常已知空间化可以被执行为例如HRTF(头部相关传输功能)滤波，其为收听者的左和右耳产生双耳声的信号。人造房间效果(例如，早期反射声或后期混响)可以被添加到空间化信号以提高源外在化和逼真度。也可仅通过修改信号间的时间差(耳间的时间差)或幅度差(耳间的幅度差)来执行空间化。人类听觉系统甚至将小幅度的差转换成空间差。当使用耳机时，从滤波器到达的信号可以被再生用于左耳和右耳，这给收听者留下空间差的印象。当使用扬声器时，收听者用两个耳朵听到两个通道并且可能需要串音消除。因此，可以执行串音消除作为回放处理的一部分。

类似于AMR-WB编解码器，大多数编解码器在编码处理中使用线性预测编码(LPC)。它们也估计话音的基音，以及声音是话音还是非话音。基音和LPC参数对于每个发言者来说稍微有些特性，并且因此对于识别发言者来说是显著可变的。自然地，根据使用在语音编码中的参数，不同的语音编解码器需要特定的实施。

根据一个实施方式，通过仅使用例如在语音帧的标识中的基音的一个语音参数可以实现发言者标识块306的很简单实现。因此，提取块302复制来自接收到的语音帧的选择参数(例如，基音)并且将该参数插入到识别块304。识别块304线性地将参数映射进控制字，并且线性创建的控制字可以被用于创建空间化效果。例如，如果发言者标识块被实施在根据图4的终端中，则空间化处理模块410直接使用控制字以便控制立体声输出的左/右展平(panning)。该实施方式的复杂度很低并且实验表明甚至仅通过使用一个合适选择的语音参数可以获得不同的空间化效果。

自然地，可以实现更为明显的空间化效果，如果在标识中使用编码语音帧的若干或所有语音参数。因此根据另一实施方式，提取块302复制来自接收到的语音帧的多个预定参数并且将该参数插入到识别块304。识别块304根据检查的语音参数的特性值来执行语音帧的聚结并且标识每个语音帧属于哪个聚结(即，发言者)。接着识别块304计算表征每个发言者(即，语音帧的聚结)的控制字。同样地，例如，在发言者标识块的终端实施中，在空间化处理模块410中，每个语音帧标记有相应的控制字。接着每个发言者被放置到声学空间中的不同位置。当相比较于上述的实施方式时，实施的复杂度在某种程度上增加，但每个语音帧的发言者标识的可靠性相应地更高。

根据另一实施方式，如果除了基音值，对话音/非话音语音帧的划分被应用到语音帧的分类中，则可实现相应简单实施但增强的空间化效果。这里，例如可以根据相同帧的话音/非话音信息来处理语音帧的基音信息，使得仅当语音帧的声音是清晰的话音时，进一步处理基音信息。如果语音帧的声音是非话音的，则基音信息被用作此类的发言者标识中。由于对于每个发言者，话音/非话音声音的使用通常是特有的，所以其提供促进区分发言者彼此的额外信息。

然而，技术人员将理解到标识的准确性对于此类应用不是非常重要的。标识同样不影响语音项目的再生，而仅影响相关的空间化效果。因此，某个语音项目的发言者的故障标识导致将发言者放置到声学空间的错误位置，这可能造成某种混乱，但消息仍被正确地再生。

根据一个实施方式，由发言者标识块所提供的发言者标识信息可以被进一步使用在接收终端中，使得发言者标识(例如，“发言者1”)同时随相应发言者的语音帧的回放而显示在终端的显示屏上。当前发言者的视觉信息加深空间化效果的感知。

由上述的各种实施方式所提供的优势对于技术人员来说是明显的。主要优势在于在电话会议的情况中，不需要来自网络的发言者标识信息，而标识可以单独在接收终端中实施。另外，在接收机中不需要单独的话音分析算法，因为编码的语音帧参数用于标识，这导致低的计算复杂度。另外的优势在于甚至通过使用若干、可能仅一个或两个合适选择的语音参数，可在终端中实现不同的空间化效果。

然而，上述的发言者标识块可应用于不同电话会议架构的各种位置。因此，本发明的另外方面公开一种包括根据本发明的发言者标识块的电话会议桥。此类的电话会议桥通常通过将传统的单声道会议网络连接到3D会议网络而操作为网关。这里使用的术语“3D会议网络”表示一种解决方案，其中终端能够接收来自会议桥的立体声/多通道编码语音流或一些额外的信息可以并行于单声道语音声道而被发送到终端，从而创建空间化效果。

图4中示出的实施也可以被应用在电话会议桥中，自然地也不需要回放装置412。因此，在电话会议桥实施的一个实施方式中，电话会议桥接收来自单声道电话会议网络的合并信号，所述合并信号包括来自多个电话会议参与者的编码语音帧400。发言者标识块406如上述的终端实施中所述的操作：提取块402将来自每个接收到的语音帧的预定语音参数输入到识别块404，识别块404根据语音参数中的差异来将每个帧分类到属于发言者之一，在此之后，控制字被定义于每个识别的发言者。合并信号的编码语音帧400被插入到电话会议桥的语音解码器408中以便解码处理。解码的语音帧被插入到空间化音频处理模块410，其中每个语音帧标记有由发言者标识块406所计算的相应控制字。因此，在电话会议桥中执行来自单声道电话会议网络的合并信号的3D处理，由此根据检测到的发言者的身份来控制空间位置，并且处理的立体声信号首先被编码并且接着被发送到能够进行3D再生的那些参与者。相应地，在该实施方式中，回放装置412被实施在接收终端中。相应地，来自3D会议网络的终端的信号被在会议桥中混响以形成合并的单声道信号，接着将该信号发送到仅能够接收单声道音频信号的电话会议参与者。

图5示出电话会议桥实施的另一实施方式。在该实施方式中，处理的早期阶段类似于上述实施方式的早期阶段：发言者标识块506识别发言者并且定义每个发言者的控制字；同时，在电话会议桥的语音解码器508中解码合并信号的编码语音帧500。在本实施方式中，替代于将空间化效果直接创建到会议桥的输出信号中，仅将ID标签附加到将要发送到终端的单声道混响信号。相应地，处理模块510将额外的控制流附加到并行于首先将要编码的语音流并且接着发送到终端。处理模块510可以是上述的空间化音频处理模块，其被设置成将控制字附加到解码的语音帧作为额外的信息，或处理模块510可以专用于该特定处理。自然地，在该实施方式中，终端负责在回放阶段创建空间化效果，由此根据来自会议桥、并行于语音流接收到的额外控制流的ID标签来处理语音部分。

有各种可选方案将ID标签包括在将要发送到终端的单声道混响信号中。例如，ID标签可以被嵌入进语音信号中。可选地，可以应用语音信号的冗余，使得可以使用比特挪用(bit-stealing)技术，即，语音帧的比特流中的一些冗余比特用于指示ID标签。另一种选择是应用用于将混响信号传送到终端的传输协议。用于电话会议的典型传输协议是RTP(实时传输协议)，其中RTP的未用控制字段可用于将活跃的发言者的ID信息发送到接收器。自然地，例如RTCP(实时传输控制协议)的单独控制流可连同专用于信号发送ID标签的传输协议使用。

图6示出用于分布式电话会议架构的电话会议桥实施的另外实施方式。同样地，发言者被识别并且控制字被定义用于如上所述的发言者标识块606中的每个发言者。然而，对于分布式电话会议系统，会议桥创建单独的输出信号，它们的每个代表电话会议的一个参与者的语音。因此，如果发言者标识块606检测到参与者A正在单声道混响信号的特定语音帧600中发言，则解多路复用器610控制语音帧与参与者A的流关联，并且在该特定帧的持续期间，静音帧或柔化噪音帧被生成用于参与者的剩余流。接着，如果发言者标识块606检测到例如参与者B正在下一个进入的语音帧中发言，则语音帧关联在参与者B的流中，并且静音帧被生成用于流的剩余。所有的这些(分开的)N个语音信号接着被发送到终端，终端包括用于将它们空间化到回放阶段的不同位置处的装置。

注意到在该实施方式中，由语音解码器608所执行的代码转换可优选地被旁路，因为编码的语音帧600可以被直接地转发到不同的流。当然，可以解码语音帧并且接着引导得到的PCM(脉冲编码调制)信号到不同的流，接着在将这些流传输到终端之前对其进行编码。

图7a示出电话会议情况中的另一实施方式，其中参与电话会议的一组从终端(ST1-ST3)经由主终端(MT)连接到会议桥(CB)。例如，多个电话会议参与者可以聚集在房间内，其中一个参与者的终端操作为主终端，其连接到会议桥，并且其他的终端经由例如蓝牙连接或WLAN连接连接到主终端。可应用于该电话会议情形中的实施方式是上述的实施方式的变形。

根据图7b中所示出的一个实施方式，主终端从会议桥接收合并的信号700，并且主终端的发言者标识块706识别发言者并且定义每个发言者的控制字。同时地，在主终端的语音解码器708中解码合并信号的编码语音帧700。在该实施方式中，ID标签被附加到将要发送到从终端的单声道混响信号。相应地，处理模块710将并行于语音流来附加额外的控制流以共同地发送到从终端。接着从终端在回放阶段创建空间化效果，由此根据附加的ID标签来处理语音部分。

根据图7c中示出的另一实施方式，主终端根据分布式电话会议架构的原理来针对从终端进行操作。因此，主终端创建代表电话会议的参与者的语音的单独输出信号。分开的语音信号被发送到从终端，其在回放阶段创建空间化效果。同样地，编码的语音帧700可以被直接转发到不同的流，不需要由语音解码器708执行任何的代码转换。

事实上发言者标识块可应用于电话会议的处理链的各种位置所提供的优势是显著的。主要优势在于定位发言者标识处理的某些自由度提供在会议网络的不同阶段中将单声道会议系统连接到3D会议系统的灵活性。另外，在实施方式中，其中发言者标识块被实施在会议桥中，发言者标识块处理的简单实施的需要不是太重要。因此，如果发言者标识块被实施在会议桥(服务器)中，则可以使用需要更高的处理功率和存储消耗的高性能ID检测处理。

图8表示根据本发明的一个实施方式的空间化方法的流程图。在步骤800中，在接收单元中接收包括电话会议的编码语音参数的编码语音帧。接收单元包括预定的设置以在发言者标识中使用某些语音参数。相应地，编码的语音帧的所述预定语音参数被输入到标识处理(802)。选择的语音参数中的差异是驱动因子，根据该驱动因子，每个帧被分类成属于发言者之一(804)。接着以控制字来标识每个发言者(806)，这可以简单的是发言者号或，如果应用更为复杂的计算，例如相对于收听者的声音源位置的坐标参数(笛卡尔坐标：x，y，z或球坐标：方位角、仰角和距离)或展平或增益参数以控制音频通道的空间位置。此后，同时利用标准语音解码器解码的语音帧被利用在标识处理中计算的相应控制字来标记(808)。可选地，如果如上所解释的使用分布式架构，则解码优选地被旁路并且根据它们的相应控制字来进一步处理编码的语音帧。

上述的步骤涉及发言者标识并且通常在接收单元内执行(即，会议桥、终端、主终端)。下面的步骤也包括在处理链中以创建空间化效果，但根据使用的电话会议架构和实施以及在所述架构中的发言者标识块的位置，根据标记有相应语音帧的控制字来为每个语音帧创建空间化效果的步骤(810)可以实施在处理链的各种位置，如上所述解释。因此以虚线示出最后的步骤。最后，总是经由音频再生装置来在接收终端中实施回放(812)，使得从由收听者感知的声学空间的不同位置听到每个发言者。

上述的空间化系统和方法可以被实施在能够参与电话会议并且包括合适的语音解码器和音频再生装置的任意终端中。图9表示可以应用本发明的终端(即，电子设备(ED))通用框图。电子设备例如可以是无线移动台或PDA(个人数字助理)设备、有线电话或计算机。

电子设备(ED)包括中央处理单元(CPU)、存储器(MEM)和I/O系统(I/O)。所有需要的信息存储在设备的存储器(MEM)中。存储器(MEM)包括只读存储器部分，其例如可以是ROM存储器，以及写存储器部分，其例如可以由RAM(随机存取存储器)和/或闪存存储器形成。经由I/O系统(I/O)，设备与例如其他设备、网络和用户通信。更具体地，I/O系统包括设置成根据使用的电信协议来发送和接收电话会议数据的收发器Tx/Rx。随同收发器Tx/Rx，有至少一个语音编解码器(CODEC)，其包括语音编码器和语音解码器的功能。如上所述，根据本发明的发言者标识块优选地结合编解码器实施。用户接口(UI) (其是I/O系统(I/O)的一部分)包括与用户通信所需的接口，例如显示器、按键和音频再生装置，类似于扬声器和/或麦克风。从设备的不同组件接收到的信息被发送到中央处理单元(CPU)，其包括一个或多个处理器并且以期望的方式来处理接收到的信息。

会议桥CB可以是已知的基于PC的服务器计算机。相应地，如图10中所示，会议桥包括用于接收从若干个终端和/或另一会议网络到达的音频信号的输入(I1，...IN)，并且通常包括多个解码器(D1，...DN)以用于解码输入的信号。输入的音频信号被施加到音频处理单元APU，其中以期望的方式来合并音频信号，其可以包括信号混频、空间化、滤波或其他期望的处理方法，作为该处理的结果，生成单声道或立体声(或多通道)合并输出音频信号。根据本发明的发言者标识块实施为APU的一部分。会议桥进一步包括存储器MEM和包括至少一个处理器的一个或多个中央处理单元CPU，由此通过应用公共存储器组件和会议桥的处理单元来实施音频处理单元APU的功能，或可将音频处理单元APU实施为专用单元。另外，会议桥包括一个或多个语音编码器(EN)以用于对桥的输出信号进行编码。

根据实施方式的步骤很大程度地可以利用在图9的终端或图10的会议桥的中央处理单元中执行的程序指令来实施。因此，用于实施上述方法的所述装置通常实施为计算机软件代码。计算机软件可以被存储到任意存储器装置，例如PC的硬盘或CD-ROM磁盘，从这可将其加载到终端的存储器。计算机软件可以通过网络加载，例如使用TCP/IP协议栈。也可以使用硬件解决方案或硬件和软件解决方案的组合以实施本发明的装置。

显然的是本发明不只限于上述的实施方式，而是可以在所附权利要求书的范围内修改。

Claims

1.一种用于区分多个参与者的电话会议中的发言者的方法，该方法包括：

接收所述电话会议的语音帧，所述语音帧包括编码的语音参数；

检查接收到的语音帧的至少一个语音参数；以及

将语音帧分类成属于参与者之一，所述分类根据在检查的至少一个语音参数中的差异来实施。

2.根据权利要求1所述的方法，该方法进一步包括：

通过基于参与者的语音帧分类将所述参与者放置在所述音频信号的声学空间的不同位置，对将要再生的音频信号创建空间化效果。

3.根据权利要求1所述的方法，该方法进一步包括：

根据在检查的至少一个语音参数中的差异来确定每个参与者的控制字；以及

将控制字附加到语音帧，每个语音帧的所述控制字是在特定语音帧中发言的参与者所特有的。

4.根据权利要求3所述的方法，该方法进一步包括：

根据附加到语音帧的控制字来创建空间化效果。

5.根据权利要求4所述的方法，该方法进一步包括：

根据在检查的仅一个语音参数中的差异来确定每个参与者的所述控制字；以及

根据所述控制字来控制将要再生的音频信号的音频通道的空间位置。

6.根据权利要求4所述的方法，该方法进一步包括：

根据多个检查的语音参数中的差异来聚结所述语音帧；

根据聚结的语音帧的语音参数中的差异来确定每个参与者的所述控制字；以及

7.根据任意前述权利要求所述的方法，其中检查的语音参数包括下面的至少一个：

-话音的基音；

-语音帧的话音分类；

-语音帧的任意LPC参数。

8.一种用于区分具有多个参与者的电话会议中的发言者的系统，该系统包括：

用于接收所述电话会议的语音帧的接收单元，所述语音帧包括编码的语音参数；

提取单元，用于检查接收到的语音帧的至少一个参数；以及

识别单元，用于将语音帧分类成属于参与者之一，所述分类基于在检查的至少一个语音参数中的差异。

9.根据权利要求8所述的系统，进一步包括：

空间化单元，用于通过将所述参与者放置在所述音频信号的声学空间的不同位置，对将要再生的音频信号创建空间化效果。

10.根据权利要求8所述的系统，进一步包括：

用于根据在检查的至少一个语音参数中的差异来确定每个参与者的控制字的装置；以及

用于将控制字附加到语音帧的装置，每个语音帧的控制字是在特定语音帧中发言的参与者所特有的。

11.根据权利要求9所述的系统，其中

空间化单元被设置成根据附加到语音帧的控制字来创建所述空间化效果。

12.根据权利要求11所述的系统，其中

用于确定每个参与者的控制字的装置被设置成根据所述语音参数中的线性差异来检查仅一个语音参数并且定义控制字；并且其中所述系统进一步包括

用于根据所述控制字来控制将要再生的音频信号的音频通道的空间位置的装置。

13.根据权利要求11所述的系统，进一步包括：

用于根据多个检查的语音参数的差异来聚结所述语音帧的装置；

用于根据聚结的语音帧的语音参数中的差异来确定每个参与者的控制字的装置；以及

用于根据所述控制字来控制将要再生的所述音频信号的音频通道的空间位置的装置。

14.根据权利要求8到13的任意一项所述的系统，其中检查的语音参数包括下面的至少一个：

-话音的基音；

-语音帧的话音分类；

-语音帧的任意LPC参数。

15.一种设备，包括：

接收单元，用于接收具有多个参与者的电话会议的语音帧，所述语音帧包括编码的语音参数；

提取单元，用于检查接收到的语音帧的至少一个参数；

识别单元，用于将语音帧分类成属于参与者之一，所述分类是基于在检查的至少一个语音参数中的差异；以及

空间化单元，用于通过将所述参与者放置在所述音频信号的声学空间的不同位置，对将要再生的所述音频信号创建空间化效果。

16.根据权利要求15所述的设备，进一步包括：

立体声或多通道音频再生装置。

17.根据权利要求15所述的设备，进一步包括：

显示器，用于显示所述参与者的发言者标识，并存的语音帧被分类成属于该参与者。

18.一种计算机程序产品，其存储在计算机可读介质上并且可在数据处理设备中执行，用于对具有多个参与者的电话会议的音频信号进行三维空间化，该计算机程序产品包括：

用于接收所述电话会议的语音帧的计算机程序代码段，所述语音帧包括编码的语音参数；

计算机程序代码段，用于检查接收到的语音帧的至少一个语音参数；

计算机程序代码段，用于将所述语音帧分类成属于参与者之一，所述分类是基于在检查的至少一个语音参数中的差异；以及

计算机程序代码段，用于通过将所述参与者放置在音频信号的声学空间的不同位置，对将要再生的音频信号创建空间化效果。

19.根据权利要求18所述的计算机程序产品，进一步包括：

计算机程序代码段，用于根据在检查的至少一个语音参数中的差异来确定每个参与者的控制字；以及

计算机程序代码段，用于将控制字附加到语音帧，每个语音帧的控制字是在特定语音帧中发言的参与者所特有的。

20.根据权利要求18所述的计算机程序产品，其中

用于创建空间化效果的计算机程序代码段进一步包括用于基于附加到语音帧的控制字来创建空间化效果的计算机程序代码段。

21.一种用于电话会议系统的会议桥，所述桥包括：

提取单元，用于检查接收到的语音帧的至少一个参数；

音频处理单元，用于将基于参与者的语音帧分类的信息包括在音频信号中以便音频信号的进一步空间化处理。

22.根据权利要求21所述的会议桥，其中

所述音频处理单元被设置成根据检查的至少一个语音参数中的差异来确定每个参与者的控制字。

23.根据权利要求22所述的会议桥，进一步包括：

空间化单元，用于通过根据控制字将参与者放置在音频信号的声学空间的不同位置，对将要发送到参与者的音频信号创建空间化效果，以及

编码器，用于在传送之前编码所述空间化的音频信号。

24.根据权利要求22所述的会议桥，进一步包括：

用于将所述控制字附加到将要被发送的音频信号中作为额外的控制信息的装置，以便在接收终端中的音频信号的进一步空间化处理。

25.根据权利要求24所述的会议桥，其中根据下面方法的一个将所述额外的控制信息附加到音频信号中：

-将所述控制字嵌入进所述音频信号；

-挪用所述音频信号的语音帧的特定比特以指示所述控制字；

-将所述控制字插入到用于传送所述音频信号的传输协议的未用控制字段中；或者

-连同所述音频信号，在单独的控制信号中发送所述控制字。

26.根据权利要求22-25的任意一项所述的会议桥，进一步包括：

用于创建单独的音频信号的装置，每个信号代表参与者的语音；

用于将由所述语音帧的控制字所指示的活跃发言的参与者的语音帧引导到所述参与者的单独的音频信号的装置；

用于在所述语音帧的持续期间，针对其他参与者的单独的音频信号生成静音帧的装置；以及

用于将所述单独的音频信号发送到所述参与者的每个的装置。

27.一种计算机程序产品，存储在计算机可读介质上并且可以在数据处理设备中执行，以便区分具有多个参与者的电话会议中的发言者，所述计算机程序产品包括：

用于接收电话会议的语音帧的计算机程序代码段，所述语音帧包括编码的语音参数；

计算机程序代码段，用于检查接收到的语音帧的至少一个参数；

计算机程序代码段，用于将语音帧分类成属于参与者之一，所述分类是基于在检查的至少一个语音参数中的差异；以及

计算机程序代码段，用于基于参与者的语音帧分类将信息包括在音频信号中，以便音频信号的进一步空间化处理。

28.一种终端设备，其操作为将多个从终端连接到会议桥的主终端，所述终端设备包括：

音频编解码器，用于检查接收到的语音帧的至少一个参数；

音频处理单元，用于基于参与者的语音帧分类将信息包括在音频信号中以便音频信号的进一步空间化处理。

29.根据权利要求28所述的终端设备，其中

所述音频处理单元被设置成根据在检查的至少一个语音参数中的差异来确定每个参与者的控制字。

30.根据权利要求28或29所述的终端设备，进一步包括：

用于将所述控制字附加到将要被发送的音频信号中作为额外的控制信息以便在从终端中的音频信号的进一步空间化处理的装置。

31.根据权利要求28-30的任意一项所述的终端设备，进一步包括：

用于将所述单独的音频信号发送到每个从终端的装置。

32.根据权利要求28-31的任意一项所述的终端设备，进一步包括：

低功率RF装置，用于建立到所述从终端的连接。