CN101502043B

CN101502043B - 用于实施语音会议的方法和语音会议系统

Info

Publication number: CN101502043B
Application number: CN200680055414.8A
Authority: CN
Inventors: V·吉尔格; S·哈特曼; T·克利曼; W·施米德
Original assignee: Siemens Enterprise Communications GmbH and Co KG
Current assignee: Unify GmbH and Co KG
Priority date: 2006-07-28
Filing date: 2006-07-28
Publication date: 2014-07-23
Anticipated expiration: 2026-07-28
Also published as: EP2047632B1; EP2047632A1; CN101502043A; US8515039B2; WO2008011901A1; US20100061536A1

Abstract

本发明涉及一种用于在通信系统中实施具有至少三个语音终端设备(A，B，C，...)的语音会议的方法和语音会议系统，其中将语音终端设备(A，B，C，...)中的至少一个设备至少暂时地分配给第一组(GR1)，使得对于该第一组将通过它们各自的记录信道提供的语音数据(ESD)分别解码成单个语音信号(ESS)，将所述单个语音信号(ESS)叠加成合成语音信号，并且将所述合成语音信号编码为第一合成语音数据中(SSD)。此外将语音终端设备(A，B，C，...)中的至少两个至少暂时地分配给第二组(GR2)，使得第二组(GR2)只包括这样的语音终端设备(A，B，C，...)，即在该语音终端设备(A，B，C，...)中识别出它们各自记录信道上的广泛的非主动性。此外向分配给第二组(GR2)的语音终端设备(A，B，C，...)通过它们各自的接收信道输入第一合成语音数据(SSD)，以用于各自输出第一合成语音数据(SSD)。

Description

用于实施语音会议的方法和语音会议系统

背景技术

语音会议系统允许多个语音终端设备互相连接成一个电话会议，从而向各个用户输入通过其余用户的语音终端设备的各自话筒所接收的音频信号作为用作音频输出的“混合的信号”。输入用户的“混合的信号”，下面也称为混合信号，在此是施加的所有音频信号的叠加，然而该用户的音频信号除外，因为这个他自身在会议中的讲话部分不需要或者不允许被他自己听到，因为这会产生自身讲话的非期望的回声效应。因此，必须为电话会议的N个用户中的每一个形成特殊的混合信号，在这种情况下，将该电话会议的其余用户的(N-1)个语音信号加工成该特殊的混合信号。

例如，在具有语音终端设备的基于分组的通信系统中，该语音终端设备借助基于分组的方法通过基于分组的网络-例如基于IP的(IP：Internet Protocal，互联网协议)网络-来通信，将通过话筒接收的音频信号通过编码器转换为用于该基于分组的网络的数据分组，并且借助解码器将来自该基于分组的网络的数据分组转换为用于通过例如位于电话听筒中的扬声器音频输出的音频信号。组合的编码和解码单元通常称作CODEC(编解码器)(编码/解码)。已知的编码方法例如通过ITU-T(ITU-T：ITU的电信标准化部门；ITU：国际电信联盟)来进行标准化。它们例如是具有名称G.711，G.726或者G.729的CODEC。这些CODEC尤其通过各自的语音质量、各自的压缩率以及各自编码方法的复杂性来相互区分。例如CODEC G.729的优点是，该CODEC可以用于语音质量比较好时的高压缩，但是其中必须执行计算强度大的运算。

语音终端设备经常支持多个CODEC，其中协商用一个共同的CODEC来用于各个通信伙伴的连接和/或各个通信伙伴的连接的部分片段。

为了通过电话会议将语音终端设备相互连接，通常这样处理，即在语音终端设备的语音会议系统中将传入的经过编码的语音数据进行解码，从中为各自的语音终端设备分别产生混合信号，并且该分别产生的混合信号利用与各自的语音终端设备匹配的编码器来转换。分别生成的混合语音数据于是通过面向分组的方法传输给各自语音终端设备来进行各自的语音输出。

由此给出，在具有N个用户的电话会议中，通过语音会议系统同时对N个传入的语音数据流进行解码，并且通过N个编码器将随后形成的N个混合信号转换为N个传出的语音数据流。尤其在具有许多用户的电话会议中，这可能导致可观的用于编码和解码的计算消耗。除此以外，为了支持具有许多用户的电话会议，必须维持大量的编码器和解码器。

为了减少编码和解码的复杂性，可以在语音会议系统中只使用需要较少计算能力的CODEC。然而已经证实，在语音质量和/或用于传输经过编码的语音数据所需要的带宽方面，这种计算强度较低的CODEC大多是不利的。

可替换地，并且为了解决这个高计算消耗的问题，通过将各自语音终端设备的经过编码的语音数据传输给所有其它的语音终端设备，然后分别在语音终端设备中进行解码和混合，语音会议系统可以放弃解码和对经过解码的信号的混合。然而这种方法引出了其它的或者进一步的问题，因为对语音终端设备的带宽要求极度地提高，并且语音终端设备必须为此如此设置，即必须能对多个传入的语音数据流进行并行处理。由此，语音终端设备中的复杂性显著提高了。

在前述所有的方法中，证实这样做是困难的，即通过语音会议系统服务大量的用户而不将语音会议系统中的计算复杂性极度提高，并且对语音质量或传输带宽没有明显的消极影响。

发明内容

本发明要解决的技术问题是，给出一种用于执行语音会议的方法以及一种语音会议系统，即使在会议用户较多时，该语音会议系统也可以为所有语音信号的编码保持较低的计算复杂性。

这个任务通过根据权利要求1的用于执行语音会议的方法，以及通过根据权利要求14的语音会议系统来解决。

所述方法的优选实施形式和扩展在从属权利要求中给出。

在本发明的方法中，该方法用于在通信系统中实施具有至少三个语音终端设备的语音会议，优选为同时、双向的通信而设置的语音终端设备分别具有接收信道(Empfangskanal)和记录信道(Aufnahmekanal)。该接收信道用于接收在语音会议中累积的经过编码的语音数据，并且将通过对接收到的语音数据进行解码而形成的语音信号输出给各自的语音终端设备。该记录信道用于为语音会议提供经过编码的语音数据，其中要提供的语音数据由编码器根据在各自的语音终端设备上记录的语音信号来形成。在本发明的方法中，将语音终端设备中的至少一个设备至少暂时地分配给第一组，使得为该第一组将通过它们各自的记录信道提供的语音数据分别解码成单个语音信号(Einzelsprachsignal)，将该单个语音信号叠加成合成语音信号(Summensprachsignal)，并且将该合成语音信号编码为第一合成语音数据(Summensprachdaten)。此外，将语音终端设备中的至少两个设备至少暂时地分配给第二组，使得第二组只包括这样的语音终端设备，即在该语音终端设备中在它们各自的记录信道上识别出广泛的(weitgehend)非主动性。根据本发明，向分配给第二组的语音终端设备通过它们各自的接收信道输入第一合成语音数据来用于分别输出该第一合成语音数据。

本发明证明其自身尤其是有益的，即当从多个单个语音信号中形成唯一的、共同的合成语音信号，并且将经过编码的合成语音信号，即第一合成语音数据，不经过特殊的改变而输入给多个语音终端设备。因此只对一个语音信号-合成语音信号-优选通过共同的CODEC来编码，由此在语音会议中同时使用的CODEC的数量可以明显地减少。例如，如果将X个非主动的语音终端设备分配给第二组，则为了对特定于终端设备的语音数据进行编码而不使用本发明的方法，通常需要同时使用X个CODEC。相反地，在使用本发明的方法时，只需要使用一个CODEC。因此可以节约X-1个CODEC，原因是需要相应更少的CODEC。语音会议的最大数量用户所需要的CODEC的最大数量，可以例如在为真实环境中运行的电话会议所做的准备阶段调查的范围内根据经验确定。

从前文所述中可以看出，一方面用于执行根据本发明的方法的语音会议系统可以保持少于语音会议中存在地用户的CODEC，并且尽管如此该语音会议系统可以用语音数据来服务所有用户。另一方面，通过更少的同时主动的CODEC-即通过语音会议中的所有语音终端设备而同时使用的所有CODEC的总计，或者通过所有同时举行的语音会议的语音终端设备而同时使用的所有CODEC的总计，减少了在语音会议系统中的计算复杂性，从而或者可以节约计算容量，或者可以使用质量更好的CODEC，其中后者又对语音质量和所占用的传输带宽具有积极作用。

单个语音信号的叠加可以理解为对单个语音信号的求和，并且必要时理解为连接在求和后面的信号衰减。后者在此可以保证最大电平不会被合成语音信号超过。此外，通过在叠加时对单个语音信号进行不同的加权，单个语音信号在叠加时可以被匹配到共同的音量水平。

在本发明的优选设置中，可以这样形成第一组，即只将在各自的记录信道上识别出主动性的语音终端设备分配给第一组。因此第一组和第二组可以保持不相交。这样做是有益的，因为在形成叠加时只需要注意主动的单个语音信号。由此，要叠加的单个语音信号的数量减少了，并且因此也降低了叠加的复杂性。除此之外也改善了叠加的合成语音信号的语音质量，因为那些虽然包括通常会引起干扰的背景噪声但除此之外不具有主动性的语音信号并不传入合成语音信号中，因此通过本发明隐含性地被滤出。

可替换地在本发明的另一个优选设置中，可以这样形成第一组，即将语音会议的基本上非主动的语音终端设备或者将所有语音终端设备也分配给第一组。用这种方式不需要对单个语音信号进行关于主动性/非主动性的提前检查，由此可以避免在执行本方法时的延迟。合成语音信号在本设置中还包括非主动的单个语音信号，这些非主动的单个语音信号通过广泛的非主动性表征，其中主动的语音终端设备是占支配地位的，从而满足了合成语音信号基本上是主动语音终端设备的叠加信号的目的。

按照本发明的优选扩展，分配或者划分到第一和/或第二组可以动态地进行。第一个可能性是，通过在一个时间段过去之后对语音终端设备的主动性进行分析，在规则的或者不规则的时间段过去之后对语音终端设备的组的归属性进行检查。根据在这个时间点占主导的主动性或者根据在该时间段期间的主动性频率和/或主动性持续时间，可以将已在记录信道上识别了主动性的语音终端设备标记为主动发言方，并且分配给第一组。类似地，可以在记录信道上识别了非主动性时在将所属的语音终端设备标记为被动的听众方，并且分配给第二组。

除此之外或者可替换地可以重新执行组的分配，所述组的分配通过在一个记录信道上的主动性改变而引发，而主动性改变例如是从广泛的非主动性转换成主动性或者相反，或者通过在一个语音终端设备上的使用者动作来引发。使用者动作例如可能是在一个语音终端设备上的按键，通过该使用者动作表示，相应的用户想要主动地参与语音会议。可替换地，为了向每个用户分配讲话的权利，可以通过语音会议的主持人来执行该使用者动作。

在本发明的另一种优选扩展中可以形成第三组，所述第三组与第二组类似只包括这样的语音终端设备，则这些语音终端设备在它们的记录信道上具有广泛的非主动性。优选对第二组以及第三组分别使用互不相同的编码器，来对同样输入的合成语音信号进行编码，从而向第二组的语音终端设备输入通过第一编码器编码的第一合成语音数据，而向第三组的语音终端设备输入通过第二编码器编码的第二合成语音数据。因此，例如可以这样形成组，即将支持CODEC G.729的语音终端设备分配给第二组，而支持G.711的语音终端设备分到第三组。用这种方式可以促使分别使用各个语音终端设备的质量最好的CODEC。优选将第二组和第三组分离，从而分配给这两组中一组的语音终端设备只获得第一合成语音数据或者可替换地只获得第二合成语音数据，其中支持多个CODEC的语音终端设备，优选分配给这样的组，即该组使得可以输出质量最高的输出信号，和/或该组通过传输相应的合成数据实现了最小的带宽负荷。

除了根据本发明的方法，前面所述的优点、扩展和实施形式以类似的方式适用于根据本发明的语音会议系统。

附图说明

下面借助于附图进一步阐释本发明的实施例。

在此在示意图中：

图1示出具有语音会议服务器和参与语音会议的语音终端设备的通信系统，以及

图2-图5示出语音会议服务器的部件以及在各个不同的方法阶段中在语音会议中这些部件之间的逻辑信号流和数据流。

具体实施方式

在图1以示意图示出具有语音会议系统KONF和多个语音终端设备A，B，C，D，E，F和G的通信系统。语音会议系统KONF以及语音终端设备A，B，C，D，E，F，G在所述实施例中基于面向分组的原理，其中为了语音的传输以及发信号设置了没有进一步示出的基于IP的传输网络。语音终端设备A，B，C，D，E，F，G与语音会议系统KONF的耦合在图1中分别通过各自的语音终端设备A，B，C，D，E，F，G与语音会议系统KONF之间的连接V来形象地说明。

在图1至图5中假设，已经通过语音会议系统KONF建立了语音会议，并且连接建立阶段已经结束。参与该语音会议的是所有的前述语音终端设备A至G。

在图1中示出的输出情况是，在语音会议KONF中，就传送语音来说，语音终端设备A，B和C是主动的，而语音终端设备D，E，F和G是非主动的。这个划分在图1中通过第一组和第二组GR1和GR2的椭圆图形来表明，其中GR1的椭圆形包括语音终端设备A，B，C，GR2的椭圆形包括其余的语音终端设备D，E，F，G。通过连接V流动的语音数据流在图1中通过有方向的箭头示出，其中将从各自的语音终端设备A，B，C，D，E，F，G向语音会议系统KONF传输的语音数据流称为单个语音数据ESD，而将从语音会议系统KONF向各自的语音终端设备A，B，C，D，E，F，G传输的语音数据流标记为合成语音数据SSD。

语音终端设备A，B，C，D，E，F，G中的一个语音终端设备上的用户是主动地参与语音会议还是仅仅被动地参与语音会议，在附图标记ESD中通过上标A来表示主动，通过上标P来表示被动(因此给出了ESD^A或者ESD^P)。产生各自的单个语音数据ESD的各语音终端设备A，B，C，D，E，F，G在参考标记ESD中通过语音终端设备A，B，C，D，E，F，G的下标字母来表示。因此例如通过参考标记ESD^P _B来标记从语音终端设备B输出的单个语音数据的被动数据流。就合成语音数据而言，在各自的参考标记SSD中给出从哪些源数据流叠加成合成语音数据流。这通过将源语音终端设备A，B，C，D，E，F，G的字母作为下标来表明。因此例如将传入语音终端设备A和B的数据流标记为SSD_AB。

在该实施例中，在语音会议系统KONF中，在给定的时间段内对传入的语音数据进行分析，并且尤其是分析在该时间段内是否识别出各语音终端设备A，B，C，D，E，F，G的主动性或者被动性。该分析借助于语音终端设备A，B，C，D，E，F，G的所有的单个语音数据ESD或者从该ESD中解码的单个语音信号来进行。图1的通信系统在此在这样一个时间点示出，即在该时间点语音终端设备A，B和C被识别为是主动的，而语音终端设备D，E，F和G被确定为是非主动的。因此按照前面解释过的命名，单个语音数据ESD^A _A，ESD^A _B，ESD^A是为主动的语音终端设备A，B，C传入的。另外，语音会议系统KONF中的单个语音数据ESD^P _D，ESD^P _E，ESD^P _F以及ESD^P _C是为被动的语音终端设备D，E，F和G传入的。根据本发明，将从语音终端设备A，B和C传入的单个语音数据ESD^A _A，ESD^A _B，ESD^A _C解码成单个语音信号，并且叠加为共同的合成语音信号-该合成语音信号没有示出。将该合成语音信号在另一个步骤中编码成合成语音数据。由于对语音终端设备A，B和C的信号的叠加，将该合成语音数据称为SSD_ABC，并且将该合成语音数据作为输出数据流传输给被动的语音终端设备D，E，F，G，也就是这些语音终端设备D，E，F，G通过在它们各自记录信道上的进一步的非主动性表征。因此，将相同的合成语音数据SSD_ABC输入给所有被动的语音终端设备D，E，F，G。接着，在各语音终端设备D，E，F，G中对在该各语音终端设备D，E，F，G中接收到的合成语音数据SSD_ABC进行解码，并且通过电话听筒的扬声器输出给各个用户。

除此之外，为主动的语音终端设备A，B，C单独传输合成语音数据SSD。例如为语音终端设备A传输经过编码的数据，该数据是语音终端设备B和语音终端设备C的单个语音信号的特定于终端设备的叠加。因此将B和C的单个语音信号的经过编码的叠加作为合成语音数据SSD_BC传输给语音终端设备A。用类似方式分别将其余语音终端设备的单个语音信号经过叠加然后经过编码地输入其他的主动语音终端设备B和C。为语音端设备B输入合成语音数据SSD_AC，并且为语音终端设备C输入合成语音数据SSD_AB，该合成语音数据SSD_AC和SSD_AB分别特定于终端设备(特定于B或者C)而形成。

因此为各自的语音终端设备A，B，C，D，E，F，G输入合成语音数据SSD，该合成语音数据SSD在各自的语音终端设备A，B，C，D，E，F，G上经过解码之后通过扬声器输出。在此合成语音数据SSD分别包含每个用户分别需要的语音会议的音频分量。在各个语音终端设备A，B，C，D，E，F，G中对语音信号或者语音数据进行的广泛的后处理，例如通过音频信号的叠加、提取和/或倒置(Inversion)而进行的后处理，在本发明的范围内是不需要的。

至于主动性和非主动性(或者被动性)的确定到目前为止还没有详细讨论。主动性例如通过信号一次性地超过阈值电平来表征。可替换地，在把信号分类为主动信号之前，一个电平必须被多次超越。此外可以将平均的和统计的分析引入到主动性评估中。可以检查均匀的或者不均匀的时间段；除此之外或者可替换地，超过或者不超过阈值可以引起关于主动性的重估。

在解释过图1中关于实施本发明语音会议的粗略关联之后，现在借助于图2以及其他的图3-5来解释，语音会议系统KONF如何执行语音数据的分析以及语音信号和语音数据的加工。在此在图2中的输出情况与在图1中的情况相同；也就是说语音终端设备A，B和C是主动的，并且语音终端设备D，E，F和G是非主动的。在图1中引入的单个语音数据ESD、合成语音数据SSD-包括上下标、组GR1，GR2以及语音终端设备A，B，C，D，E，F，G的标志，在图2至图5中保持不变。

在图2至图5中，将语音会议系统KONF分割成解码单元DE、信号混合单元MIX、编码单元KE、主动性识别单元AE以及编码控制单元KSE。在这些图中从左向右提供信号流，由此在语音会议系统KONF中在左侧提供传入的语音终端设备A，B，C，D，E，F，G的单个语音数据ESD，并且分别在图2至图5的右侧示出从语音会议系统KONF输出给各个语音终端设备A，B，C，D，E，F，G的合成语音数据SSD。解码单元DE用长方形来表示，该解码单元DE包括多个同样用长方形来表示的解码器D1至D7。解码器D1至D7在此是CODEC的解码实例，例如G.723CODEC或者G.729CODEC。解码单元DE的输入信息是语音终端设备A，B，C，D，E，F，G的单个语音数据ESD^A _A，ESD^A _B，ESD^A _C，ESD^P _D，ESD^P _E，ESD^P _F，ESD^P _G的数据分组。为了将面向分组的经过编码的数据与未经编码的语音信号区分开来，在图2至图5中用双箭头来表示数据或者数据分组，而用单箭头来表示信号(也表示控制数据)。

解码单元DE的解码器D1至D7拥有用于将单个语音信号ESS传输至信号混合单元MIX的信号输出端来作为输出端。在信号混合单元MIX中基于传入的单个语音信号ESS而形成不同的、叠加的混合信号作为合成语音信号，该合成语音信号又传输给编码单元KE。该混合信号(在图中表示为相加的单个语音信号-例如ESS_B+ESS_A)或合成语音信号通过各自CODEC的编码器实例(Kodierins tanz)K1至K6编码成合成语音数据SSD，并且传输给各自的语音终端设备A至G。

向主动性识别单元AE(根据权利要求15也称为信号混合控制单元)输入所有通过解码单元DE输出的单个语音信号ESS_A，ESS_B，ESS_C，ESS_D，ESS_E，ESS_F，ESS_G。可替换地，也可以在将单个语音数据ESD^A _A，ESD^A _B，ESD^A _C，ESD^P _D，ESD^P _E，ESD^P _F，ESD^P _G输入解码单元DE之前，通过主动性识别单元AE来处理该单个语音数据。主动性识别单元AE确定一定时间段内的主动和被动的语音终端设备。所确定的信息接着通过该实施例范围内没有进一步特殊化的信令输入信号混合单元MIX以及编码控制单元KSE，从而主动性识别单元AE除了识别主动性和被动性以外，还执行用于控制信号混合的功能。借助输入的信息，在信号混合单元MIX中控制并执行不同的单个语音信号ESS_A，ESS_B，ESS_C，ESS_D，ESS_E，ESS_F，ESS_G的混合。

除此之外，将该信息以及其他关于语音终端设备A至G的CODEC的信息INF传输给编码控制单元KSE。接着编码控制单元KSE确定语音终端设备A至G的组分配。所确定的组的归属性在此在图2至图5中在编码单元KE的输出端上用虚线画出的椭圆表示。在解码单元DE、信号混合单元MIX以及编码单元KE中的信号路径同样通过虚线示出。

在图2中根据图1中的示意图，将主动的语音终端设备A，B和C的单个语音数据ESD^A _A，ESD^A _B，ESD^A _C输入解码单元DE。除此之外，将语音终端设备D，E，F和G的非主动单个语音数据ESD^P _D，ESD^P _E，ESD^P _F，ESD^P _G同样输入解码单元DE。在此，解码通过各自的解码器D1至D7单独进行。解码器D1至D7产生各自的单个语音信号ESS_A，ESS_B，ESS_C，ESS_D，ESS_E，ESS_F，ESS_G。将所述的单个语音信号ESS输入信号混合单元MIX以及主动性识别单元AE。

主动性识别单元AE分析单个语音信号ESS，并且识别出语音终端设备A，B和C通过广泛的主动性来表征，相反语音终端设备D，E，F和G通过广泛的非主动性来表征。这借助一个或者多个信息消息传输给信号混合单元MIX。这在图2中通过消息ACT和PAS来表示，其中消息ACT包括主动的语音终端设备A，B，C的列表，而消息PAS包括被动的语音终端设备D，E，F和G的列表。信号混合单元MIX处理这些消息，并且将三个主动语音终端设备信号ESS_A，ESS_B，ESS_C中的两个叠加成三个语音终端设备A，B，C中的每两个的相应的合成语音信号，以及叠加成所有三个语音终端设备信号ESS_A，ESS_B，ESS_C的叠加。语音终端设备B和C的信号叠加-在图2中称为ESS_B+ESS_C-在此设置为给语音终端设备A的输出，并且仍必须为此传输给编码单元KE。类似地，为语音终端设备B进行语音终端设备A和C的单个语音信号的叠加ESS_A+ESS_C，以及为语音终端设备C进行语音终端设备A和B的单个语音信号的叠加ESS_A+ESS_B。除此之外，根据本发明执行所有三个主动语音终端设备信号的叠加ESS_A+ESS_B+ESS_C，并且同样输入编码单元KE。

编码控制单元KSE得到关于主动的语音终端设备(A，B，C)和非主动的语音终端设备(D，E，F，G)的消息，并且额外地询问哪个CODEC由哪个语音终端设备A，B，C，D，E，F，G来支持，这通过信息INF的输入来表示。基于这些信息，现在编码控制单元KSE可以将语音终端设备A，B，C，D，E，F，G分组，从而在第一组GR1中包括了所有主动的语音终端设备(即A，B，C)，以及在第二组GR2中组合了所有被动的语音终端设备(即D，E，F，G)。这样做的前提是，所有被动的语音终端设备D，E，F，G分别支持同一个CODEC，从而随后在语音终端设备D，E，F，G上的编码又可以被解码。

将组信息从编码控制单元KSE传输给编码单元KE(在图2中表示为消息“GR1：A，B，C”和“GR2：D，E，F，G”)。接着编码单元KE为分配给第一组GR1的主动语音终端设备A，B，C分别产生一个编码器实例(或者从给出的编码器池中检索出一个实例)，以及为分配给第二组GR2的所有语音终端设备D，E，F，G产生一个共同的实例。所述第一种情况在图2中是编码器K1，K2和K3。用于非主动语音终端设备D，E，F，G的共同编码器在图2中称为K4。编码器K1通过对叠加的单个语音信号ESS_B和ESS_C进行编码来对用于语音终端设备A的合成语音数据SSD_BC进行编码。用类似的方式通过编码器K2处理语音终端设备A和C的叠加的单个语音信号ESS_A+ESS_C，并且借助合成语音数据SSD_AC继续传递给语音终端设备B。相应地，通过编码器K3来对语音终端设备A和B的叠加的单个语音数据ESS_A和ESS_B进行编码，并且作为合成语音数据SSD_AB输入语音终端设备C。

编码器K4处理三个主动语音终端设备A，B和C的经过叠加的信号，即ESS_A+ESS_B+ESS_C。通过编码器K4产生共同的合成语音数据SSD_ABC，该合成语音数据SSD_ABC经过复制并且通过各自的连接传输给非主动的语音终端设备D，E，F和G。

通过这种方式，对于语音终端设备D，E，F和G来说只需要一个编码器K4，该编码器K4为所有四个非主动的语音终端设备D，E，F，G共同产生待输入的合成语音数据SSD_ABC。因此相对于现有技术节约了大量的编码器。这种非主动语音终端设备的逻辑组合在图2中通过具有标记GR2的椭圆示出，该椭圆包括用于语音终端设备D，E，F和G的合成语音数据SSD_ABC。

基于该配置以及图2中示出的情况，现在在图3中通过一个属于到目前为止主动的语音终端设备C的用户在一定的时间间隔内没有产生被识别为主动语音信号的语音信号，该到目前为止主动的语音终端设备C变为非主动。

通过主动性识别单元AE确定，现在只有语音终端设备A和B是主动的，而语音终端设备C，D，E，F和G是非主动的。这借助消息ACT和PAS传输给信号混合单元MIX。接着通过信号混合单元MIX形成来自两个主动语音终端设备A和B的混合信号-ESS_A+ESS_B。此外，每一个主动语音终端设备的信号混合单元MIX本来会产生其余语音终端设备的混合信号。因为在这种情况下只有两个主动语音终端设备A和B，所以在产生混合信号的情况下就不需要叠加了。只将语音终端设备B的单个语音信号ESS_B提供给语音终端设备A，以及反过来将语音终端设备A的单个语音信号ESS_A提供给语音终端设备B。两个最后所述的单个语音信号ESS_A和ESS_B分别通过编码器K1和K2编译成合成语音数据SSD_B和SSD_A，并且分别向语音终端设备A和B传输，使得传输给语音终端设备A的合成语音数据SSD_B只表示对语音终端设备B的单个语音信号ESS_B的编码。类似地，向语音终端设备B只输入语音终端设备A的语音数据。

两个主动语音终端设备A和B的经过叠加的合成语音信号ESS_A+ESS_B与根据本发明的合成语音信号相对应，本发明的合成语音信号现在通过编码器K4转换为第一合成语音数据SSD_AB。经过转换的合成语音数据SSD_AB现在被复制到不同的连接V上，并且输入给各个非主动的语音终端设备C至G。这基于通过编码控制单元KSE的控制进行，该编码控制单元KSE已识别出主动语音终端设备的第一组GR1只包括了语音终端设备A和B，而非主动语音终端设备的第二组GR2包括了语音终端设备C，D，E，F和G。这又通过具有标记GR2的椭圆在图3中表示出来。

基于图2和图3可以看出，在通常只有一个主发言方和多个次发言方暂时同时存在的语音会议中，借助本发明能够明显减少所使用的编码器。这在最优的极端情况下可以导致，为了能够服务于该语音会议的所有语音终端设备而只需要使用两个编码器。

基于图2，在图4中观察到一种相反的情况，其中到目前为止一直被动的语音会议成员-语音终端设备D-通过在它自己的记录信道上的主动性来表征，并且因此被分配到主动语音终端设备的组GR1中。语音终端设备A至D现在都是基本上主动的，并且所有的语音终端设备A至G相应于它们的主动性通过主动性识别单元AE分类为或分组为主动的和被动的语音终端设备。这个分组信息又传输给信号混合单元MIX。该信号混合单元MIX用与之前的图2和图3中类似的方式分别形成多个混合信号。分别给主动的语音终端设备A，B，C和D一个混合信号，而给被动的语音终端设备E，F和G共同的混合信号。最后所述的混合信号在此是四个主动语音终端设备A，B，C和D的单个语音信号的叠加ESS_A+ESS_B+ESS_C+ESS_D。基于它们的主动性加上所支持的CODEC的信息，现在通过编码控制单元KSE形成第一组GR1和第二组GR2，从而在第一组GR1中包括主动的语音终端设备A，B，C和D，在第二组GR2中包括非主动的语音终端设备E，F和G。

此外与图2类似，使用编码器K1，K2，K3和K4来为语音终端设备A，B，C，D，E，F和G产生信号。为了给到目前为止一直是非主动的但是现在被激活的语音终端设备D产生合成语音数据SSD_ABC，在编码单元KE中产生新的编码器实例K5，该编码器实例K5对语音终端设备A，B和C传入的叠加的合成语音信号ESS_A+ESS_B+ESS_C进行编码，并且作为合成语音数据将SSD_ABC传输给语音终端设备D。通过这种对编码器的动态增加，可以灵活地对在语音终端设备的各个记录信道上的主动性改变进行反应。与图2相反，通过编码器K4产生的合成语音数据SSD_ABCD只输入现在还是非主动的语音终端设备E，F和G。

在图5中进行根据本发明的一个扩展，其中并不是所有的语音终端设备都支持CODEC的一致准则。在此假设，终端设备D和E分别支持具有极高语音质量的共同的CODEC，而语音终端设备F和G只支持具有中等语音质量的CODEC。此外如在图2中一样，所述的语音终端设备D，E，F和G通过它们的非主动性来表征。语音终端设备A，B和C同样如在图2中一样是主动的。因此与图2类似，主动性识别单元AE识别出语音终端设备A，B，C是主动的，而语音终端设备D，E，F和G是非主动的，并且主动性识别单元AE将该信息传输给信号混合单元MIX以及编码控制单元KSE。用与在图2中示出的同样的方式，信号混合单元MIX为主动的语音终端设备A，B，C产生混合信号，以及为所有被动的语音终端设备D，E，F和G产生共同的叠加的合成语音信号ESS_A+ESS_B+ESS_C。编码控制单元KSE分析所传输的关于主动性和被动性的信息，以及关于通过语音终端设备A至G来支持的CODEC的信息INF，然后根据语音终端设备A至G的主动性和对CODEC的支持性，将语音终端设备A至G分为三组GR1，GR2和GR3。GR1包括主动的语音终端设备A，B和C。GR2包括非主动的、支持尽可能最好的CODEC的语音终端设备。这在该实施例中只通过语音终端设备D和E给出。此外，编码控制单元KSE将那些非主动的、但是不支持最高编码质量的非主动语音终端设备分成组GR3。那些是语音终端设备F和G。

然后，通过编码单元KE为第一组GR1的语音终端设备A，B，C分别产生编码器K1，K2和K3。为组GR2产生编码器实例K4，并且为第三组GR3产生编码器实例K6，其中在两个最后所述的编码器中输入三个主动语音终端设备A，B和C的叠加的合成语音信号ESS_A+ESS_B+ESS_C。现在通过编码器K4，将这个输入的合成语音信号转换为特定于该编码器的第一合成语音数据SSD^K4 _ABC，并且将该第一合成语音数据SSD^K4 _ABC输入语音终端设备D和E。此外，编码器K6同样从相同的合成语音信号中产生第二合成语音数据SSD^K6 _ABC，该相同的合成语音信号也将输入第四编码器K4。因此通过编码器K6产生特定于编码器的合成语音数据SSD^K6 _ABC，该合成语音数据SSD^K6 _ABC接着将输入两个非主动的语音终端设备F和G。因此，即使对CODEC的支持性不一致，本发明还是可以在编码单元KE中明显减少要使用的编码器，而不必使用次优的编码器，尽管各个语音终端设备可以支持质量更好的编码器。

用类似的方式，本发明可以扩展到多个由非主动语音终端设备构成的组，从而按照一定的判据为各组的语音终端设备进行最佳编码，其中在下面的段落中解释可能的优化判据。

当在前面的第二组和第三组GR2，GR3的分组基本上是根据待执行的编码的质量判据而且由此根据要达到的语音质量来进行时，也可以按照其他的适配判据或者不同判据的组合来进行编码器选择。从而例如可以考虑形成尽可能少的组。可替换地可以有这样的判据，即为组GR2，GR3中的至少一个分配非常多的语音终端设备。只要不存在任意多数量的编码器，并且只能为确定的CODEC类型产生有限数量的实例，则另外的判据可以是产生一种CODEC类型的尽可能少的实例。除此之外，可以将针对编码的期望计算消耗引入编码器的选择中，从而将语音会议服务器中的计算消耗保持得很低或者最小化。另外可以注意用于所产生的合成语音数据的传输带宽，从而不会产生与语音终端设备的连接的过高负荷。应该注意与一个或多个前述判据相关联的判据是，使在同时举行的所有语音会议中同时使用的编码器数量最小化。

优选按照混合的质量判据和数量判据来选择编码器，从而例如作为最重要的判据优选质量最好的CODEC，该CODEC受到至少一个其它的语音终端设备支持，或者受到预定最小数量的其它语音终端设备支持。因此对于这样的优化，可能根据不同的判据并不选择绝对的最佳，其中例如通过评估各个判据确定整体最佳，并且根据该整体最佳进行编码器选择。因此，优选与确定要使用的编码器一起确定组GR2、GR3和可能的其它组，因为这两者相互影响并具有反馈。

在语音会议中只有少数用户同时主动地参与语音会议的前提条件下，可以借助本发明的方法在编码单元KE中明显地减少计算消耗。在此可以自适应地执行关于主动性和非主动性的分析，从而例如当语音信道通过极度增大的主动语音数据流来表征时，改变主动性阈值，使得只将两个或者最多三个语音终端设备分组为主动的语音终端设备。因此可以实现，绝对不存在由许多主动语音终端设备产生的语音混乱，该语音混乱反正也没有语音终端设备的用户可以理解。因此本发明还附加地用于使语音会议的实施流水线化，以及提高语音可理解性和语音清晰性。

为了在编码单元中实现对编码器的没有干扰的激活和停用，适当的是信号只在基于相同的CODEC的编码器之间输入和输出。例如，到目前通过G.723CODEC来编码的主动信号，可以在转换为非主动性时被分配给同样使用该G.723CODEC的非主动语音终端设备组。用这种方式，在编码单元KE中转换编码器对语音终端设备来说是透明的。因此信息通过编码单元KE传给各个语音终端设备不是强制性必须的。

可替换地，还可以在转换编码器时转换到另一种方法。但是，在此向语音终端设备附加地发出相应的通知是有意义的，该通知表明向新CODEC的转换，从而向该语音终端设备指示同样转换成匹配的CODEC。

如果在语音通信系统中同时实施多个会议，那么本发明是尤其有益的，因为通过这种方式明显提高了要节约的编码器的数量。解码器的数量在给出的发明中没有减少，但是这并不是不利的，因为编码单元KE的计算消耗明显超过解码单元DE的计算消耗。

对于主动性和非主动性的识别可以应用极为不同的方法。例如，在此可以确定在确定的时间段内的最大信号，该最大信号将与阈值相比较。除此之外也可以确定平均的信号电平，该平均的信号电平将与阈值相比较。优选也可以识别信号电平的改变或者识别趋势，从而在信号电平稍微提高时就已经可以识别出在短时间内将传输关于记录信道的重要信息，从而激活该记录信道。此外尤其优选，主动性和非主动性之间的转换并不是在每个时间段内都促使组的从属性发生明显的改变，因为这也许对所产生的语音质量不利。因此，包含滞后或者阈值开关是合理的，从而当在较长时间段内信号超过或者低于比较值时，才能识别主动性和非主动性。此外可以定义多个阈值，从而转换到一个组也许比转换到其它方向运行得快。由此可能考虑到以下事实：对于主动的用户也会出现谈话间隙，该谈话间隙不应该立刻引起向非主动组的转换。

即使借助于语音终端设备来阐释本发明，本发明也可以一般地用于多媒体连接或者视频连接。除此之外，所介绍的原理也可以应用于面向线路的通信系统来应用。语音终端设备优选是电话，然而在此也可以是在工位计算机(Arbeitsplatzrechner)上的软件应用，通常也称为软客户端。语音会议系统可以是通信系统的中央设备，其中还可以考虑分布式的架构，其中尤其是可以实现不依赖于是中央的还是分布式的服务器方的信号混合和信号编码，并且在终端设备中实现更小的复杂性。

Claims

1.一种用于在通信系统中实施具有至少三个语音终端设备(A，B，C，…)的语音会议的方法，其中语音终端设备(A，B，C，…)分别具有

-接收信道，该接收信道用于接收经过编码的、在语音会议中累积的语音数据(SSD)，以用于将通过对接收的语音数据(SSD)进行解码而形成的语音信号输出给各自的语音终端设备，和

-记录信道，该记录信道用于为语音会议提供经过编码的语音数据(ESD)，其中要提供的语音数据(ESD)借助编码器由在各个语音终端设备上记录的语音信号形成，其中

-将所述语音终端设备(A，B，C，…)中的至少一个语音终端设备至少暂时地分配给第一组(GR1)，

-使得为该第一组(GR1)将通过它们各自的记录信道提供的语音数据(ESD)分别解码成单个语音信号(ESS)，

-将所述单个语音信号(ESS)叠加成合成语音信号，并且将所述合成语音信号编码为第一合成语音数据(SSD)，

-将所述语音终端设备(A，B，C，…)中的至少两个至少暂时地分配给第二组(GR2)，使得第二组(GR2)只包括这样的语音终端设备(A，B，C，…)，即在该语音终端设备(A，B，C，…)中识别出它们各自的记录信道上的广泛的非主动性，以及其中

-向分配给第二组(GR2)的语音终端设备(A，B，C，…)通过它们各自的接收信道输入第一合成语音数据(SSD)，以用于各自输出第一合成语音数据(SSD)，

其特征在于，

为第一组(GR1)中的语音终端设备(A，B，C，…)中的每一个，通过对第一组(GR1)中的其它语音终端设备的单个语音信号(ESS)进行叠加，形成特定于终端设备的合成语音信号，并且所述合成语音信号被编码成特定于终端设备的合成语音数据(SSD)，并且

将特定于终端设备的合成语音数据(SSD)通过所属的接收信道输入语音终端设备(A，B，C，…)，以用于特定于终端设备的输出。

2.根据权利要求1所述的方法，其特征是，将语音终端设备(A，B，C，…)分配给第一组(GR1)是这样进行的，即第一组(GR1)只包括在各自的记录信道上被识别出广泛的主动性的语音终端设备(A，B，C，…)。

3.根据前面任何一项权利要求所述的方法，其特征是，所述第一组(GR1)和／或第二组(GR2)

-在一个时间段过去之后，和／或

-通过在各个记录信道中的一个记录信道上识别出主动性改变，和/或

-通过在所述语音终端设备(A，B，C，…)中的一个语音终端设备上识别出使用者动作

而重新形成。

4.根据权利要求1或2所述的方法，其特征是，将合成语音信号编码成与第一合成语音数据(SSD^K4)不同的第二合成语音数据(SSD^K6)，

将语音终端设备中的至少两个语音终端设备(F，G)至少暂时地分配给第三组(GR3)，使得第三组(GR3)只包括在各自的记录信道上被识别出广泛的非主动性的语音终端设备(A，B，C，…)，并且

向分配给第三组(GR3)的语音终端设备(F，G)通过它们各自的接收信道输入第二合成语音数据(SSD^K6)，以用于分别输出第二合成语音数据(SSD^K6)。

5.根据权利要求1或2所述的方法，其特征是，合成语音信号被编码成第一合成语音数据(SSD^K4)通过恰好一个第一编码器(K4)进行。

6.根据权利要求1或2所述的方法，其特征是，合成语音信号被编码成第二合成语音数据(SSD^K6)通过恰好一个与第一编码器(K4)不同的第二编码器(K6)进行。

7.根据权利要求1或2所述的方法，其特征是，自适应地进行编码器的选择。

8.根据权利要求7所述的方法，其特征是，这样进行各编码器(K1，K2，…)的自适应选择，即

-优化所涉及的语音终端设备(A，B，C…)上的输出的质量，或者

-优化所涉及的语音终端设备(A，B，C...)的各自接收信道上的传输带宽，或者

-将为语音会议同时使用的编码器(K1，K2，…)的数量最小化。

9.根据权利要求1或2所述的方法，其特征是，在识别出分配给第一组(GR1)的语音终端设备(A，B，C…)的至少暂时的广泛非主动性时，

-取消将该非主动的语音终端设备(C)分配给第一组(GR1)，并且

-将该非主动的语音终端设备(C)分配给第二组(GR2)。

10.根据权利要求1或2所述的方法，其特征是，在识别出分配给第一组(GR1)的语音终端设备(C)的至少暂时的广泛非主动性时，将到目前为止被分配用于将语音数据传输给该非主动的语音终端设备的编码器(K3)标记为可用。

11.根据权利要求1或2所述的方法，其特征是，在识别出分配给第二组(GR2)的语音终端设备(D)的至少暂时的广泛主动性时，

-取消将该主动的语音终端设备(D)分配给第二组(GR2)，并且

-将该主动的语音终端设备(D)分配给第一组(GR1)。

12.根据权利要求1或2所述的方法，其特征是，在识别出分配给第二组(GR2)的语音终端设备(D)的至少暂时的广泛主动性时，

-为该主动的语音终端设备(D)形成特定于终端设备的合成语音信号，并且

-将标记为可用的编码器(K5)分配给该主动的语音终端设备(D)，并且

-利用所述编码器(K5)将用于该主动的语音终端设备(D)的特定于终端设备的合成语音信号编码成特定于该主动的语音终端设备(D)的合成语音数据(SSD_ABC)。

13.一种用于通信系统中多个语音终端设备的语音会议系统，其特征是，具有

-信号混合单元(MIX)，所述信号混合单元(MIX)用于将分配给第一组(GR1)的语音终端设备(A，B，C…)的单个语音信号(ESS)叠加成合成语音信号，和／或将选择的分配给第一组(GR1)的语音终端设备(A，B，C…)的单个语音信号(ESS)分别叠加成特定于终端设备的合成语音信号，和

-信号混合控制单元(AE)，所述信号混合控制单元(AE)用于从语音会议的语音终端设备(A，B，C…)传入的单个语音信号(ESS)中选择要通过信号混合单元(MIX)叠加的单个语音信号(ESS)，和

-具有多个可供使用的编码器(K1，K2，…)的编码单元(KE)，所述编码单元(KE)通过分别选择的编码器(K1，K2…)将合成语音信号编码成第-合成语音数据(SSD)，和将特定于终端设备的合成语音信号编码成特定于终端设备的合成语音数据(SSD)，和

-编码控制单元(KSE)，所述编码控制单元(KSE)用于选择和／或配置要通过编码单元(KE)使用的编码器(K1，K2，…)，所述编码器(K1，K2，…)分别是为合成语音信号和特定于终端设备的合成语音信号而选择的。