CN100466671C

CN100466671C - 语音切换方法及其装置

Info

Publication number: CN100466671C
Application number: CNB2006100935156A
Authority: CN
Inventors: 余水安
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd; Brother Industries Ltd
Priority date: 2004-05-14
Filing date: 2004-05-14
Publication date: 2009-03-04
Anticipated expiration: 2024-05-14
Also published as: WO2005112413A1; CN1697472A; US20080040117A1; US8335686B2

Abstract

本发明公开了一种语音切换方法，包括分别对每个终端发送的编码语音数据进行提取静音标志操作，得到非静音终端；分别对每个非静音终端的编码语音数据进行解码操作；根据每个非静音终端的解码语音数据，分别计算每个非静音终端的语音能量；比较非静音终端之间的语音能量值，选取语音能量较大的终端；对选取终端之间的解码语音数据进行不同组合方式的线性叠加处理，并分别将不同组合方式的线性叠加语音数据进行编码处理后发送给相应的终端。相应的，本发明还公开了一种语音切换装置。通过本发明能够减少语音切换过程中的资源消耗，并提高终端之间的语音通信效果。

Description

语音切换方法及其装置

技术领域

本发明涉及多媒体通信技术领域，特别涉及一种语音切换方法及装置。

背景技术

在点对点的语音通信过程中，一般进行的是双方终端之间的语音相互交换处理，以让双方终端都能听到对方终端的话音。但是在多点(即同时参加通信的终端数目大于2时)通信中，如在会议电话系统或者视频会议系统中，由于会涉及到多个终端可能同时参加到同一通信中，所以不能像上述点对点的语音通信一样进行简单的点对点语音切换，而是需要由一个辅助的网络侧设备，即语音切换设备进行多个终端之间的语音切换，以使各个终端之间自由的进行语音交流。其中，在多个终端之间进行的语音切换一般会基于如下原则：

1>各个终端可以听到其他终端的话音，方便自由的进行交流；

2>本终端不应该听到本终端的话音；

3>为了避免语音失真，各个终端一般只允许听到其他终端中几个话音比较大的终端的话音。

由于多个终端之间的语音切换一般在网络侧实现，采取由语音切换设备集中处理的方式；语音切换设备接收每个终端的语音编码数据，经过混音处理后，输出的是经过混音后的语音编码数据。参照图1，该图是现有技术中多个终端之间进行语音切换的整体过程图；图中终端1、终端2......和终端N分别将自身的语音编码数据输入到设置在网络侧的语音切换设备10中，语音切换设备10会分别解码各路语音编码数据，然后从中选取出几路语音能量比较大的解码后的话音数据(即为上述所述的几个语音比较大的终端的话音)，再分别进行不同的编码处理后，发送到不同的终端进行接听。举例而言，假设图中语音切换设备10经过解码计算每路的语音能量后，选取出终端1和终端2为当前话音比较大的终端，基于上述语音切换原则，语音切换设备10会对终端2的语音解码数据进行编码后，发送给终端1进行接听，使终端1只能听到终端2的话音；而同时对终端1的语音解码数据进行编码后，发送给终端2进行接通，使终端2只能听到终端1的话音；另外还会对终端1和终端2的解码语音数据进行混音合成，并进行相应合成编码处理，然后将混音编码处理后的语音数据分别发送给终端3......终端N，使终端3......终端N能够同时听取到终端1和终端2的话音。从而通过上述的语音切换处理，就可以使多个终端之间进行统一通信时，能够进行相互之间的自由交流，达到多点语音通信的目的。

目前，如会议电话系统或者视频会议系统等都是支持多点语音交换的通信系统，在这些支持多点语音通信的系统中，在网络侧的语音切换设备中对多个终端之间进行语音切换所采取的语音切换方法具体如下：

(1)实时将参加同一会议的每一个终端的语音编码数据完全解码，同时实时根据每个终端的语音解码数据，来计算每个终端的语音能量；其中计算每个终端语音能量常用的计算方式为：

E (t) = Σ_{n = t_{1}}^{t_{2}} S^{2} (n)

或者

E (t) = Σ_{n = t_{1}}^{t_{2}} | S (n) |,

其中S(n)为每个终端解码后的语音数据；t₁，t₂分别为计算语音能量的开始时间值和结束时间值。

(2)根据上述计算出的每个终端的语音能量值，实时对参加同一会议的各个终端的语音能量进行比较。

(3)根据上述的语音能量比较结果，实时选取语音能量最大的几个终端作为话音最大的终端(其话音最大终端的选取数目由相关操作人员预先制定)，其他没有被选取的终端接收的是几个最大话音的终端解码语音数据的线性叠加话音数据，而被选取的最大话音的几个终端分别接听到的是除自身以外的其他最大话音终端解码后的线性叠加话音数据，从而完成多个终端之间的话音切换。

下面举例说明多个终端之间进行语音切换的整个处理过程，参照图2，该图是举例说明现有技术中对与会的5个终端进行语音切换的处理过程示意图。图中终端A、终端B、终端C、终端D和终端E为相互进行语音通信的5个终端，其中在时刻t，网络侧语音切换设备对该5个终端的语音进行相互切换的主要过程是：

1>首先分别对终端A，终端B，终端C，终端D和终端E发来的每路语音编码数据进行完全解码操作，同时根据每路语音解码数据分别对每一个终端的语音能量进行计算，以得到每一终端的语音能量值。

2>对计算出的5个终端的语音能量值进行比较，选取语音能量较大的几个终端；例如在该时刻t，假设根据计算的每路语音能量值，得出图中的终端A，终端B和终端C为语音能量较大的终端，则会选取终端A，终端B和终端C作为语音能量较大的终端。

3>根据具体发往不同终端的情况，分别对终端A，终端B和终端C三路语音解码数据进行混音和切换处理：

如：在时刻t，针对语音能量较大的终端A，终端B和终端C，终端A接收的是终端B和终端C语音解码数据的线性叠加语音数据；其中线性叠加公式为：

S_A＝λ_B×S_B+λ_C×S_C；

式中λ_B，λ_C是加权因子，λ_B+λ_C＝1；

S_A是终端A接收的线性叠加后的语音数据，S_B是终端B的语音解码数据，S_C是终端C的语音解码数据；

终端B接收的是终端A和终端C语音解码数据的线性叠加语音数据，其中线性叠加的计算与上述终端A的计算原理类似。

终端C接收的是终端A和终端B语音解码数据的线性叠加语音数据，其中线性叠加的计算与上述终端A的计算原理类似。

对于其他终端，即终端D和终端E，接收的则都是终端A，终端B和终端C语音解码数据的线性叠加语音数据；其中线性叠加计算公式为：

S＝λ_A×S_A+λ_B×S_B+λ_C×S_C；

其中λ_A，λ_B，λ_C，是加权因子，λ_A+λ_B+λ_C＝1；

S_A是终端A的语音解码数据，S_B是终端B的语音解码数据，S_C是终端C的语音解码数据，S是其中终端D和终端E接收的线性叠加后的语音数据。

4>分别根据上述不同的线性叠加语音数据，依次对各个线性叠加的语音数据进行编码处理，然后将编码处理后的编码语音数据分别发送给对应终端。如将对终端B和终端C的线性叠加语音数据进行编码处理后，发送给终端A进行接听，以使终端A在时刻t能够接听到终端B和终端C的话音，而不会听到自身的话音......将终端A，终端B和终端C的线性叠加语音数据编码后分别发送给终端D和终端E，以使终端D和终端E在时刻t能够接听到终端A，终端B和终端C的话音，所以语音切换结果符合上述语音切换基础原则。

但是采用上面现有技术描述中的语音切换过程却存在着下面的弊端：

(A)语音切换设备对接收的每一终端发来的语音编码数据要进行完全解码操作后，才进行每个终端的语音能量计算，然后再经过解码语音数据线性叠加处理后，最后分别对每一路线性叠加语音数据进行编码处理后才发送给每个终端，所以对于每一终端的每一话路而言，要分别进行一次完全编解码操作，存在资源耗费问题，尤其对于与会终端数目比较多的大容量通信系统，资源耗费现象更为严重，从而严重影响了通信效率和性能。

(B)一般支持多点语音通信的通信系统中，操作人员会在语音切换设备中预先设置切换过程中需要选取语音能量较大的终端的具体数目(一般情况下，会设置选取3个语音能量较大的终端)，以在后续对多个终端的语音进行切换的过程中，依据预先的设置数目，选取相应数目的语音能量较大的终端进行语音解码数据的线性叠加。这样，当在某时刻存在话音的终端数目小于预先设置的选取终端数目时，就可能会引入一路或几路噪声，因此会恶化多个终端之间的语音通信效果。如以图2所举实例进行解释，当管理人员预先设置要选取3个终端作为语音能量较大终端进行语音解码数据线性叠加时，当在某时刻t，只有终端A和终端B存在话音，但是依据预先的设置，还是需要选取3个终端作为语音能量较大的终端进行语音切换，所以除了会选取终端A和终端B之外，还会在终端C，终端D和终端E之间随机选取一个终端，该选取的终端相当于引入一路噪声数据，和终端A、终端B的语音解码数据一起进行不同的线性叠加，发送给相应终端。从而，终端A接听到的声音为终端B的话音和一路噪声的叠加；终端B接听到的声音为终端A的话音和一路噪声的叠加；终端D和终端E接听到的声音为终端A的话音、终端B的话音和一路噪声的叠加。综上，对于终端A，终端B，终端D和终端E而言，都相当于接听到一路噪声，所以恶化了多个终端之间的语音通信质量。

发明内容

本发明提出一种语音切换方法及其装置，以解决现有技术中多个终端之间进行语音切换处理时，导致的语音通信效果差，耗费系统资源大的缺陷。

为解决上述问题，本发明提出了一种语音切换方法，包括步骤：

(1)分别对每个终端发送的编码语音数据进行提取静音标志操作，得到非静音终端；

(2)分别对每个非静音终端的编码语音数据进行解码操作；

(3)根据每个非静音终端的解码语音数据，分别计算每个非静音终端的语音能量；

(4)比较非静音终端之间的语音能量值，选取语音能量较大的终端；

(5)对选取终端之间的解码语音数据进行不同组合方式的线性叠加处理，并分别将不同组合方式的线性叠加语音数据进行编码处理后发送给相应的终端。

其中步骤(2)中所述解码操作为完全解码操作。

其中步骤(2)中所述解码操作为非完全解码操作；

当解码操作为完全解码操作，在步骤(4)和步骤(5)之间还包括步骤：分别对每个选取终端的解码语音数据进行提取静音标志操作，过滤掉选取终端中的静音终端。

当解码操作为非完全解码操作，在所述步骤(4)和步骤(5)之间还包括步骤：对每个选取终端发送的编码语音数据进行完全解码操作。

其中在所述对每个选取终端发送的编码语音数据进行完全解码操作和步骤(5)之间还包括步骤：分别对每个选取终端的解码语音数据进行提取静音标志操作，过滤掉选取终端中的静音终端。

其中当终端采用G.728语音编解码协议时，所述完全解码操作包括步骤：

根据终端发送的编码语音数据中包含的码本索引号，从激励码本中抽取对应的码矢量；

对抽取的码矢量进行对数增益预测处理和解码合成滤波处理，得到对应的解码矢量；

对得到的解码矢量进行后置滤波处理，得到对应的完全解码语音数据。

其中设置所述对数增益预测处理的阶数为10阶；设置所述解码合成滤波处理的阶数为50阶。

其中当终端采用G.728语音编解码协议时，所述非完全解码操作包括步骤：

对抽取的码矢量进行对数增益预测处理和解码合成滤波处理，得到对应的非完全解码语音数据。

其中设置所述对数增益预测处理的阶数为4阶；设置所述解码合成滤波处理的阶数为8阶。

其中步骤(1)之前还包括预先确定所要选取语音能量较大的终端的数目；

当所述步骤(1)中根据静音标志的提取操作，得到非静音终端的数目大于等于所述确定数目时，步骤(4)中选取确定数目的语音能量较大的终端；

当所述步骤(1)中根据静音标志的提取操作，得到非静音终端的数目小于所述确定数目时，步骤(4)中选取所有非静音终端作为语音能量较大的终端。

其中步骤(3)中通过如下公式根据非静音终端的解码语音数据对非静音终端的语音能量进行计算：

E (t) = Σ_{n = t_{1}}^{t_{2}} S^{2} (n),

其中E(t)表示非静音终端在t时刻的语音能量值，S(n)为非静音终端在各时刻n的解码语音数据；t₁，t₂分别为计算非静音终端语音能量的开始时间和结束时间。

E (t) = Σ_{n = t_{1}}^{t_{2}} | S (n) |,

其中步骤(5)进一步包括：

(51)针对选取终端，依次隔离掉一个选取终端的解码语音数据，并对其他选取终端的解码语音数据进行线性叠加，并对叠加后的语音数据进行编码处理后发送给被隔离的终端；

(52)针对未选取终端，将所有选取终端的解码语音数据进行统一线性叠加，并对叠加后的语音数据进行编码处理后发送给未选取的终端。

其中步骤(52)中进一步包括：在未选取终端中，针对采用相同语音编解码协议的终端，将叠加后的语音数据进行相应统一协议的编码处理后以群发或广播方式发送给该些采用相同语音编解码协议的未选取终端。

其中针对未选取终端，将所有选取终端的解码语音数据进行统一线性叠加通过如下公式操作：

S＝λ₁×S₁+λ₂×S₂+......+λ_n×S_n

其中，λ₁、λ₂......λ_n是加权因子，λ₁+λ₂+......+λ_n＝1；S是终端要接收的线性叠加后的解码语音数据，S₁是第一个终端的解码语音数据，S₂是第二个终端的解码语音数据，.......S_n是第n个终端的解码语音数据。

相应的，本发明还提出了一种语音切换装置，包括：

第一静音标志提取单元，用于分别对每个终端发送的编码语音数据进行提取静音标志操作；

第一解码单元，与所述第一静音标志提取单元连接，用于对经过静音标志提取操作后的非静音终端进行解码操作；

语音能量计算单元，与所述第一解码单元连接，用于根据每个非静音终端的解码语音数据，计算每个非静音终端的语音能量；

语音能量比较单元，与所述语音能量计算单元连接，用于比较非静音终端之间的语音能量值，选取语音能量较大的终端；

线性叠加单元，与所述语音能量比较单元连接，用于对选取终端的解码语音数据进行不同组合方式的线性叠加处理；

编码单元，与所述线性叠加单元连接，用于对经过线性叠加处理后的解码语音数据进行编码处理，并发送给相应的终端。

其中第一解码单元对终端发送的编码语音数据进行完全解码操作，并当终端采用G.728语音编解码协议时，所述第一解码单元进一步包括：

激励码本搜索器，用于根据终端发送的编码语音数据中包含的码本索引号，从激励码本中抽取对应的码矢量；

对数增益预测器，用于对抽取的码矢量进行对数增益预测处理；

解码合成滤波器，用于对经过对数增益预测处理后的码矢量进行解码合成滤波处理，得到对应的解码矢量；

后置滤波器，用于对得到的解码矢量进行后置滤波处理，得到对应的完全解码语音数据。

其中所述对数增益预测器设置的阶数为10阶；并所述解码合成滤波器设置的阶数为50阶。

其中第一解码单元对终端发送的编码语音数据进行不完全解码操作；

并所述装置还包括第二解码单元，所述语音能量比较单元通过该第二解码单元和线性叠加单元进行连接，所述第二解码单元用于对每个选取终端发送的编码语音数据进行完全解码操作。

其中当终端采用G.728语音编解码协议时，所述第一解码单元进一步包括：

解码合成滤波器，用于对经过对数增益预测处理后的码矢量进行解码合成滤波处理，得到对应的非完全解码语音数据。

其中上述对数增益预测器设置的阶数为4阶；并所述解码合成滤波器设置的阶数为8阶。

所述装置还包括第二静音标志提取单元，所述语音能量比较单元或第二解码单元通过该第二静音标志提取单元和线性叠加单元进行连接，所述第二静音标志提取单元用于对每个选取终端的解码语音数据进行提取静音标志操作，过滤掉选取终端中的静音终端。

本发明语音切换方法及其装置能够达到如下有益效果：

由于本发明语音切换方法及其装置对与会每个终端的编码语音数据进行解码操作和静音标志提取操作，使只对非静音终端的编码语音数据进行解码操作，并只对非静音终端中的语音能量较大的终端的解码语音数据进行线性叠加和编码处理，所以大大减少了整个语音切换过程的编解码次数，以使在同等系统资源的前提下，会增加与会终端的数目，节省系统资源的消耗。

本发明语音切换方法及其装置可以采用非完全解码方式对终端的编码语音数据进行非完全解码操作，然后直接根据非完全解码语音数据计算每个终端的语音能量，所以相对于现有技术利用完全解码方式选取语音能量较大终端而言，降低了系统的运算量，节省了系统资源的消耗。

本发明语音切换方法及其装置通过静音标志的提取操作，可以防止由于静音终端也作为语音能量较大的终端，导致其解码语音数据也作为线性叠加数据参与到线性叠加过程中，从而引入噪声，恶化语音切换的效果，因此提高了多终端之间的语音通信效果。

同时本发明语音切换方法及其装置提出的非完全解码技术可以在保证能够计算出终端的语音能量的基础上，减少占用的系统资源。

附图说明

图1是现有技术中多个终端之间进行语音切换的整体过程图；

图2是举例说明现有技术中对与会的5个终端进行语音切换的处理过程示意；

图3是本发明语音切换方法中采用完全解码方式计算终端语音能量时，语音切换处理的流程图；

图4是本发明语音切换方法中采用非完全解码方式计算终端语音能量时，语音切换处理的流程图；

图5是本发明语音切换装置的第一实施例结构组成框图；

图6是本发明语音切换装置的第二实施例结构组成框图；

图7是本发明语音切换装置支持完全解码方式计算语音能量时的第一解码单元的组成结构框图；

图8是本发明语音切换装置支持非完全解码方式计算语音能量时的第一解码单元的组成结构框图；

图9是本发明语音切换方法及其装置中的一种实施例的实施过程示意图。

具体实施方式

针对现有技术中，对多个终端参加的多点语音通信中的语音切换处理，是采取对每一个终端的编码语音数据进行完全解码处理后，根据每个终端的完全解码语音数据进行计算每个终端的语音能量，然后完成语音能量较大终端的选取；并对选取终端的完全解码语音数据进行混音和切换处理，再对每一路终端的语音数据进行编码处理后发送到相应的终端接收；而使语音切换过程对系统资源消耗较大，同时容易引入噪声，恶化语音通信效果的缺陷，本发明语音切换方法及其装置提出对每一路终端发送的编码语音数据首先进行提取静音标志操作，从而实现只对非静音终端进行解码操作并进行能量计算；其中这里解码操作按照终端采用的不同语音编解码协议，可以选择完全解码操作和不完全解码操作。然后根据非静音终端之间的语音能量值，选取语音能量较大的终端，再进行混音处理；从而可以避免系统资源的大量消耗，同时提高语音通信效果。

对于不参加混音的终端，因为接收的线性叠加语音数据是一样的，只要根据这些终端所采取的语音编解码协议的类型个数来确认编码的次数就可以了；对于每个参加混音的终端，由于接收的线性叠加语音数据是各不相同的，所以需要依次进行编码。

参照图3，该图是本发明语音切换方法中采用完全解码方式计算终端语音能量时，语音切换处理的流程图。图中所示语音切换处理的过程主要包括：

步骤S10，在一个由多个终端参加的会议系统中，首先确定在每一时刻所要选取的语音能量较大的终端的数目；一般情况下，推荐在同一时刻选取2个或3个语音能量较大的终端，选取这个范围的终端数目能够在语音切换过程中，保证各个终端之间有一个比较好的语音通信质量。

步骤S11，分别对参加会议的每个终端发送的编码语音数据进行提取静音标志操作，得到每一时刻的与会终端中的每个非静音终端；

大部分语音编解码协议中，在语音数据编码时已经进行了静音检测，就可以直接从编码语音数据中提取静音标志，如G.723.1和G.729语音编解码协议，而G.711语音编解码协议视设备厂商的设置也可以支持直接从编码语音数据中提取静音标志；而对于无法直接从编码语音数据中提取静音标志的语音编解码协议，则可以对终端的编码语音数据进行完全解码或非完全解码后的解码语音数据提取静音标志，来得到在每一时刻的非静音终端。

步骤S12，判断步骤S11中得到的非静音终端的数目是否大于等于步骤S10中预先确定的要选取的语音能量较大终端的数目；如果是，执行步骤S13；否则执行步骤S15；

步骤S13，对步骤S11中得到的每一个非静音终端的编码语音数据进行完全解码操作；

步骤S14，根据步骤S13中得到的每一非静音终端的完全解码语音数据分别计算每个非静音终端的语音能量，并比较非静音终端之间的语音能量值，选取确定数目的语音能量较大的终端，然后转至步骤S17；

步骤S15，对步骤S11中得到的每一个非静音终端的编码语音数据进行完全解码操作；

步骤S16，根据步骤S15中得到的每一非静音终端的完全解码语音数据分别计算每个非静音终端的语音能量，并选取所有非静音终端作为语音能量较大的终端，然后转至步骤S17；

步骤S17，对步骤S14或步骤S16中的每个选取终端的完全解码语音数据再次分别进行静音标志提取操作，以进一步过滤掉选取终端中的静音终端，以使剩余的每个选取终端都为非静音终端，从而避免引入静音终端而带来的噪声，提高语音通信效果；

步骤S18，对剩余的选取终端之间的完全解码语音数据进行不同组合方式的线性叠加处理；

步骤S19，分别对步骤S18得到的不同组合方式的线性叠加语音数据分别进行编码处理后发送给相应的终端接收。

其中步骤S18和步骤S19中根据选取终端的解码语音数据进行混音切换处理并编码后，发送到不同的终端进行接收是通过如下方式进行的：

针对被选取的终端，依次隔离掉一个选取终端的解码语音数据，并对其他选取终端的解码语音数据进行线性叠加，并对叠加后的语音数据进行编码处理后发送给被隔离的终端；对被选取的每个终端都按照上述方式进行解码语音数据线性叠加处理，然后将叠加处理后的语音数据进行相应协议的编码处理后发送给相应的终端接收。

而针对每个未被选取的终端，则将所有选取终端的解码语音数据进行统一线性叠加处理，然后对叠加后的语音数据进行不同协议的编码处理后发送给相应的未选取终端。其中在未选取终端中，针对采用相同语音编解码协议的终端，将线性叠加后的语音数据进行相应统一协议的编码处理后可以以群发或广播方式发送给该些采用相同语音编解码协议的未选取终端，这样可以减少语音编码的次数，减少系统资源的占用。

每个终端接收到对应自身的编码语音数据后，进行相应协议的解码操作，并解调成语音信号就可以进行接听其他存在话音终端的话音信息，从而实现多点通信语音切换的目的。

下面举例说明上述步骤S14和步骤S16中选取语音能量较大的终端的选取处理方式：

假设有M个终端参加同一个会议，并预先设置选择语音能量较大的终端的数目为3个，则在某时刻t，根据对每个终端的静音标志提取结果:

如果只有一个终端存在话音，则选择这个存在话音的终端作为语音能量较大的终端参加混音切换处理。

如果有两个终端存在话音，则选择这两个存在话音的终端作为语音能量较大的终端参加混音切换处理。

如果有大于或者等于三个终端存在话音，则根据对存在话音的终端之间的语音能量比较结果，选择3个语音能量较大的终端参加混音切换处理。

同时举例说明步骤S18和步骤S19中各个终端之间混音切换的处理过程：

同样假设有M个终端参加同一个会议，预先设置选择语音能量较大的终端数目为3个，则在某时刻t，

如果只有1个终端参加混音切换，如终端A存在话音，要参加混音切换处理：则终端A将接收到静音数据；其他终端接收的是终端A的编码语音数据。

如果只有两路终端存在话音，则这两路话音数据参加混音切换，如终端A和终端B存在话音，则对终端A和B的语音数据进行混音切换：则终端A接收的是终端B的编码语音数据，而终端B接收的是终端A的编码语音数据，其他终端接收的是终端A和终端B解码语音数据线性叠加处理后的编码语音数据，即其他终端可以同时接听到终端A和终端B的话音。

如果有大于或者等于三路终端存在话音，如终端A，终端B和终端C同时存在话音，则需要对终端A、终端B和终端C的解码语音数据进行混音切换处理：则终端A接收的是终端B和终端C解码语音数据线性叠加处理后的编码语音数据，即终端A接听的是终端B和终端C的话音；终端B接收的是终端A和终端C解码语音数据线性叠加处理后的编码语音数据，即终端B接听的是终端A和终端C的话音；终端C接收的是终端A和终端B解码语音数据线性叠加处理后的编码语音数据，即终端C接听的是终端A和终端B的话音；其他终端接收的是终端A，终端B和终端C解码语音数据线性叠加处理后的编码语音数据，即其他终端接听的是终端A、终端B和终端C的话音。

按照上述对各个终端要接收的混音切换后的线性叠加解码语音数据进行编码处理后，发送到相应的各个终端接收。

而对于不参加混音切换的各个终端，即在某一时刻t，如各个静音终端或只负责接收话音的终端就是不参加混音切换的终端，由于这些终端接收的线性叠加语音数据是一样的，所以只要根据这些终端所采用的不同语音编解码协议的个数，进行相应次数的编码处理即可。即在这些终端中，对于那些采用相同语音编解码协议的终端，只需要用其所采用的语音编解码协议对这些终端要接收的线性叠加解码语音数据进行一次编码即可，而后把编码后的语音数据以群发或者广播的方式分别发送到这些终端接收。

举例说明：

如在某个时刻t，有5个不参加混音切换的终端存在，其中有3个是采用G.723.1语音编解码协议的，有两个是采用G.729语音编解码协议的，则只对线性叠加语音数据进行一次G.723.1协议的编码操作，然后把编码后的编码语音数据以群发/广播方式分别发送到那3个采用了G.723.1语音编解码协议的终端接收；再对线性叠加语音数据进行一次G.729协议的编码操作，并把编码后的编码语音数据以群发/广播的方式分别发送到那2个采用了G.729语音编解码协议的终端接收。

上述各个终端接收到相应的编码语音数据后进行对应协议的解码操作，得到正常的话音信号后进行接听。

其中上述对每个终端的编码语音数据进行完全解码操作，以计算每个终端的语音能量时，所采用的完全解码方式包括如下过程：

解码器根据终端发送的编码语音数据中包含的10bits码本索引号，进行查询激励码本表，以从激励码本中抽取对应的码矢量；

对抽取的码矢量进行对数增益预测处理和解码合成滤波处理，得到对应的解码矢量；并对应更新对数增益预测器和解码合成滤波器中设置的各项系数；其中在完全解码操作中，通常情况下会设置对数增益预测处理的阶数为10阶左右，并设置解码合成滤波处理的阶数为50阶左右。

再对得到的解码矢量进行后置滤波处理，得到对应的完全解码语音数据，后置滤波处理可以改善语音数据的听觉效果；同时根据解码语音数据更新后置滤波器中设置的系数；然后就可以根据后置滤波处理后得到的解码语音数据中包含的5个样值，计算相应终端的语音能量值。

其中上述步骤S14和步骤S16中通过如下方式根据每个终端的解码语音数据计算每个终端的语音能量：

E (t) = Σ_{n = t_{1}}^{t_{2}} S^{2} (n),

同时，也可以通过如下方式根据每个终端的解码语音数据计算每个终端的语音能量：

E (t) = Σ_{n = t_{1}}^{t_{2}} | S (n) |,

上述步骤S18中可以通过如下方式根据不同非静音终端之间的解码语音数据进行不同方式的解码语音数据线性叠加处理：

S＝λ₁×S₁+λ₂×S₂+......+λ_n×S_n

参照图4，该图是本发明语音切换方法中采用非完全解码方式计算终端语音能量时，语音切换处理的流程图。该图所示的语音切换处理过程同图3所示的语音切换处理过程相似，其中相同的处理步骤，可以参照图3的具体描述，这里不再具体赘述；而只对其中不相同的处理步骤进行详细阐述，如下：

步骤S20至步骤S22的处理过程参见图3中步骤S10至步骤S12的描述部分；

步骤S23，对步骤S21中得到的每一个非静音终端的编码语音数据进行非完全解码操作；

步骤S24，根据步骤S23中得到的每一非静音终端的非完全解码语音数据分别计算每个非静音终端的语音能量，并比较非静音终端之间的语音能量值，选取确定数目的语音能量较大的终端，然后转至步骤S27；

步骤S25，对步骤S21中得到的每一个非静音终端的编码语音数据进行非完全解码操作；

步骤S26，根据步骤S25中得到的每一非静音终端的非完全解码语音数据分别计算每个非静音终端的语音能量，并选取所有非静音终端作为语音能量较大的终端，然后转至步骤S27；

这里采用非完全解码方式计算每个终端的语音能量值是根据终端选取的语音编解码协议而定的：

当终端采用G.728语音编解码协议时，可以采取不完全解码方式，根据其不完全解码语音数据计算自身语音能量；

当终端采用G.723.1或G.729语音编解码协议时，其自身语音数据的编解码处理需要占用的系统资源比较少，所以即可以采用不完全解码方式进行语音能量计算，也可以采用完全解码方式进行语音能量计算。

步骤S27，分别对步骤S24或步骤S26中选取的每一语音能量较大的终端发送的编码语音数据进行完全解码操作，然后继续执行步骤S28；

步骤S28至步骤S30的处理过程参见图3中步骤S17至步骤S19的描述部分，从而完成基于不完全解码方式计算终端语音能量时，多个终端之间进行语音切换的整个过程。

其中上述对每个终端的编码语音数据进行非完全解码操作，以根据每个终端的非完全解码语音数据计算每个终端的语音能量时，所采用的非完全解码方式主要包括如下过程：

对抽取的码矢量进行对数增益预测处理和解码合成滤波处理，得到对应的非完全解码语音数据；并对应更新合成滤波器中设置的各项系数；本发明语音切换方法在非完全解码操作中，设置对数增益预测处理的阶数为4阶左右，同时设置解码合成滤波处理的阶数为8阶左右；然后就可以根据解码合成滤波处理后得到的非完全解码语音数据中包含的5个样值，计算相应终端的语音能量值；从而完成对终端的编码语音数据进行非完全解码的整个过程。

其实上述非完全解码处理就是对完全解码处理操作进程的裁减，但是非完全解码处理过程确实会减少系统资源的占用，其主要原因是：

1)降低了对数增益预测的阶数和解码合成滤波的阶数，分别由原来的10阶和50阶降至4阶和8阶。这样做有以下理由：

(a)分析语音信号的特性可知，语音信号的能量主要集中在前3～4个共振峰，而一个共振峰对应于一对极点；同时，对语音能量进行计算，并不需要精确恢复语音数据，因而只需要粗略地匹配话音信号的包络，因此6～8阶的对数增益预测就可以达到上述目的；

(b)对数增益预测处理和解码合成滤波处理的阶数从原来的10阶和50阶降分别低至4阶和8阶，其中的乘加运算大大减少，计算量大大降低；同时对应的对数增益自适应和解码合成自适应的迭代运算阶数也将降低，计算量再次大幅度下降。

2)去掉完全解码过程中的后置滤波处理，因为后置滤波处理过程在完全解码过程中只是起增强解码语音数据话音质量的作用，而这里的目标是对语音能量进行计算，所以可以不要求话音质量很好，只要反映出话音信号的能量变化即可；同时后置滤波处理比较独立，去除该处理过程后对其它解码部分不会产生影响。

上述可见，对于大部分可以支持非完全解码方式计算终端语音能量的语音编解码协议，非完全解码方式相对于完全解码方式而言，可以占用很少的系统资源，同时也能完成计算语音能量的目的。

其中当终端采用G.711语音编解码协议时，由于该协议是采用A率或者μ率进行编码的，编码后的语音数据可以认为代表了话音的波形，可以直接对编码后的语音数据进行加权平方或者取绝对值进行加权来计算语音能量。

下面简单举例说明本发明语音切换方法相对于现有技术语音切换过程而言，体现出的优势所在：

举例说明

假设有M个终端同时参加同一个会议，预先设置选择存在话音的N个语音能量较大的终端进行混音切换，假设所有终端采用的语音编解码协议是一样的，如都采用G.728语音编解码协议，因为G.728语音编解码协议支持不完全解码方式计算终端的语音能量值，所以该例采用不完全解码方式计算终端的语音能量。假设在某时刻t，存在N个终端有话音，即存在N个非静音终端。

现有技术：需要对每个终端分别进行完全解码操作，即共需要M次完全解码，以分别计算每个终端的语音能量。

混音切换后，需要M次编码操作，分别发送到各个终端。

本发明：需要分别对每个非静音终端的编码语音数据进行不完全解码操作，即需要N次不完全解码操作，以计算每个非静音终端的语音能量。

需要分别对每个非静音终端的编码语音数据进行完全解码操作，得到每个非静音终端的混音完全解码数据，即需要N次完全解码操作。

由于各个终端采用的语音编解码协议是一样的，所以不参加混音切换的终端(即静音终端和只负责接收语音信号的终端)接收的编码语音数据，其编码协议是一样的，所以对于这些终端而言，编码只需要一次，而参与混音切换的终端需要分别进行编码，即需要进行编码N次。所以共需要(N+1)次编码操作。而在一般情况下M>>N，由此可见本发明语音切换方法占用的系统资源会大大减少，同时参与混音切换的终端都为非静音终端，所以不会导致静音终端也参与到语音切换进程中，从而避免了引入噪声，提高了语音通信的效果。

下面再举例说明本发明语音切换方法中采用静音标志提取操作，使之只对非静音终端进行语音能量的计算，同现有技术相比所存在的优势所在：

假设在一个电话会议系统中，预先设置选择N个语音能量较大的终端进行混音切换处理，在现有技术中，是固定选择N个终端作为语音能量较大的终端进行混音切换处理的，必定会引入噪声，而且在所选择的混音切换终端数与噪声之间存在一个矛盾，即参加混音切换的终端数目小，噪声引入的机率就会减小，但是参与混音切换的终端之间切换比较频繁，会影响正常的语音交流。如果参加混音切换的终端数目大，混音切换次数就会减少，但是引入噪声的机率就会相应增加。

在本发明语音切换方法中，而是预先设置选择最多N个语音能量较大的终端作为参加混音切换处理的终端：

如果可以从终端的编码语音数据中提取静音标志，则在选择参加混音切换的终端数目时，考虑终端的静音状态，根据静音标志选择最多N个存在话音的语音能量较大的终端进行混音切换处理。如果只有小于N个的K个终端存在话音，则选择这K个存在话音的终端进行实时的混音切换处理。

如果无法直接从终端的编码语音数据中提取静音标志，则可以先选择N个语音能量较大的终端，再对这N个语音能量较大的终端进行解码处理，然后对解码处理后的语音数据进行静音标志检测，从而再判断这些终端是否能够参与混音切换处理，从而屏蔽掉静音终端也参与到混音切换处理中，引入不必要的噪声。

其中在现有的语音编解码协议中：

G.723.1A和G.729A+B语音编解码协议，可以支持直接从语音编码数据中提取静音标志；

G.728语音编解码协议，不可以支持直接从语音编码数据中提取静音标志操作，需先解码后，从解码语音数据中提取静音标志。

G.711语音编解码协议，有可能支持或者不支持直接从语音编码数据中提取静音标志操作，这要看设备厂家实现的情况而定。

举例说明：

如有M个终端参加同一个会议，选择语音能量较大的N个终端进行混音切换，但是在某时刻t，只有K个终端存在话音，其他终端均为静音状态。假设所有终端采用G.723.1语音编解码协议。

在K<N时：

现有技术中：虽然只有K个终端存在话音，但还是选择语音能量较大的N个终端进行混音切换处理，不被选择进行混音切换的终端听到的极大可能是K个存在话音的终端的话音信号叠加另外(N-K)个静音终端所引入的噪声信号；而被选择进行混音切换的终端也会听到其他被选择进行混音切换的只存在噪声的终端所引入的噪声信号，从而会使语音通信效果不是很好。

本发明：只是选择k个存在话音的终端进行混音切换处理，这样不被选择进行混音切换的终端听到的极大可能只是K个存在话音的终端的话音信号的叠加；而被选择进行混音切换的终端也会听到被选择进行混音切换的只存在话音的终端的话音信号的叠加；这样就不会因为静音终端也参与到混音切换处理中，从而引入噪声，因此提高了语音通信的效果。

相应于上述提出的语音切换方法，本发明还相应提出一种语音切换装置，参照图5，该图是本发明语音切换装置的第一实施例结构组成框图；该第一实施例的语音切换装置组成包括：第一静音标志提取单元20、第一解码单元21、语音能量计算单元22、语音能量比较单元23、第二静音标志提取单元24、线性叠加单元25和编码单元26，其中各个组成部分的相互关系和作用如下：

第一静音标志提取单元20，用于分别对每个终端发送的编码语音数据进行提取静音标志操作；

第一解码单元21，与第一静音标志提取单元20连接，用于对经过第一解码单元21的静音标志提取操作后的非静音终端进行解码操作；

语音能量计算单元22，与第一解码单元21连接，用于根据第一解码单元21解码处理后的每个非静音终端的解码语音数据，计算每个非静音终端的语音能量；

语音能量比较单元23，与语音能量计算单元22连接，用于根据语音能量计算单元22计算出的每个终端的语音能量值，比较非静音终端之间的语音能量值，选取语音能量较大的终端；

第二静音标志提取单元24，与语音能量比较单元23连接，用于对经过语音能量比较单元23选取出的每个终端的解码语音数据进行第二次提取静音标志操作，过滤掉选取终端中的静音终端。

线性叠加单元25，与第二静音标志提取单元24连接，用于对经过第二静音标志提取单元24处理后的选取终端的解码语音数据进行不同组合方式的线性叠加处理；

编码单元26，与线性叠加单元25连接，用于对经过线性叠加单元25处理后的线性叠加解码语音数据进行编码处理，并发送给相应的终端。

上述语音切换装置的第一实施例组成框图一般适用于采用完全解码方式计算终端的语音能量的情况。

参照图6，该图是本发明语音切换装置的第二实施例结构组成框图；该语音切换装置的第二实施例组成框图适用于采用非完全解码方式计算终端的语音能量的情况，所以需要在第一实施例组成结构的基础上，在语音能量比较单元23和第二静音标志提取单元24之间连入第二解码单元27，使该第二解码单元27根据语音能量比较单元23选取终端的情况信息，对每个选取终端发送的编码语音数据进行完全解码操作，以进行后续的解码语音数据的线性叠加处理。其他组成单元的工作原理同第一实施例中相应组成单元的工作原理，这里不再过多赘述。

同时当本发明提出的语音切换装置支持利用完全解码方式计算每个终端的语音能量时，本发明语音切换装置中第一解码单元21为完全解码装置，参照图7，该图是本发明语音切换装置支持完全解码方式计算语音能量时的第一解码单元的组成结构框图；这里终端采用的语音编解码协议为G.728，这里第一解码单元21包括激励码本搜索器1、对数增益预测器2、解码合成滤波器3和后置滤波器4，其中各个组成部分的工作原理是：

激励码本搜索器1，用于根据终端发送的编码语音数据中包含的10bits码本索引号，查询相应的激励码本，以从激励码本中抽取对应的码矢量；

对数增益预测器2，用于对激励码本搜索器1抽取的码矢量进行对数增益预测处理；其中这里对数增益预测器2设置的阶数为10阶；

解码合成滤波器3，用于对经过对数增益预测器2的增益预测处理后的码矢量进行解码合成滤波处理，得到对应的解码矢量；其中这里解码合成滤波器设置的阶数为50阶；

后置滤波器4，用于对从解码合成滤波器3中得到的解码矢量进行后置滤波处理，得到对应的完全解码语音数据。

而当本发明提出的语音切换装置支持利用非完全解码方式计算每个终端的语音能量时，本发明语音切换装置中第一解码单元21为非完全解码装置，参照图8，该图是本发明语音切换装置支持非完全解码方式计算语音能量时的第一解码单元的组成结构框图；这里终端采用G.728语音编解码协议，这里第一解码单元21包括激励码本搜索器1、对数增益预测器2和解码合成滤波器3，其中各个组成部分的工作原理是：

对数增益预测器2，用于对激励码本搜索器1抽取的码矢量进行对数增益预测处理；其中这里对数增益预测器2设置的阶数为4阶；

解码合成滤波器3，用于对经过对数增益预测器2的增益预测处理后的码矢量进行解码合成滤波处理，得到对应的非完全解码语音数据；其中这里解码合成滤波器设置的阶数为8阶；

其中这里的支持非完全解码操作的第一解码单元21相对于上述的支持完全解码操作的第一解码单元21而言，相应降低对数增益预测器2和解码合成滤波器3的阶数(分别由原来的10阶和50阶降至为现在的4和8阶)；同时省略后置滤波器4的目的和作用在上面描述本发明语音切换方法的过程中已经详细阐述，这里就不再赘述。

参照图9，该图是本发明语音切换方法及其装置中的一种实施例的实施过程示意图。在该图中，列出了6个终端参与一个会议的通信情况，其中终端A，终端B，终端C，终端D和终端E为正常收发语音数据的终端，F为只负责接收语音数据的终端：

假设在时刻T，终端A，终端B和终端C的语音能量较大；

在该会议中规定最多选择三路存在话音的语音能量较大的终端参加混音切换处理；

且各终端采用的语音编解码协议支持根据不完全解码语音数据计算语音能量；

其具体的语音切换处理过程在该图中已经详细示出，不再具体描述，其中针对终端A、终端B和终端C同时参与混音切换处理的情况，在经过线性叠加单元对各个终端的解码语音数据进行线性叠加处理后，将分别：

将终端B和终端C的线性叠加语音数据编码后发送给终端A接收；

将终端A和终端C的线性叠加语音数据编码后发送给终端B接收；

将终端A和终端B的线性叠加语音数据编码后发送给终端C接收；

将终端A、终端B和终端C的线性叠加语音数据编码后发送给终端D、终端E和终端F接收。

综上所述，本发明语音切换方法及其装置在处理多个终端之间的语音切换时，需要对语音数据进行解码和编码的次数将大大减少，可以灵活方便的设计多点通信系统，也可以在同等系统资源提供的前提下，大大增加系统接入终端的个数以及支持会议的个数。

同时，本发明语音切换方法及其装置中采用的不完全解码方式进行计算终端的语音能量值，相对于现有技术语音能量计算需要很大运算量的缺点，只需要比较少的运算量就能进行语音能量的计算，大大节省了系统资源的占用。

本发明语音切换方法及其装置采用从编码语音数据中提取的静音标志进行选择参与混音切换的终端，或者可以采用解码后对解码语音数据进行静音标志提取，选取参加混音切换的终端，从而使混音切换后的线性叠加语音数据中不会引入不必要的噪声，可以改善语音通信效果，提高混音切换过程中的话音信噪比。

基于上述优势所在，本发明语音切换方法及其装置可以广泛应用在现有的多媒体电视会议系统中或电话会议系统中，从而可以改善这些多点通信系统的语音通信质量和提高系统资源的利用率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1、一种语音切换方法，用于实现多个终端之间的语音切换，其特征在于，包括步骤:

(2)分别对每个非静音终端的编码语音数据进行解码操作；

2、根据权利要求1所述的语音切换方法，其特征在于，步骤(2)中所述解码操作为完全解码操作。

3、根据权利要求1所述的语音切换方法，其特征在于，

步骤(2)中所述解码操作为非完全解码操作；

所述步骤(4)和步骤(5)之间还包括步骤:对每个选取终端发送的编码语音数据进行完全解码操作。

4、根据权利要求2所述的语音切换方法，其特征在于，所述步骤(4)和步骤(5)之间还包括步骤:分别对每个选取终端的解码语音数据进行提取静音标志操作，过滤掉选取终端中的静音终端。

5、根据权利要求3所述的语音切换方法，其特征在于，在所述对每个选取终端发送的编码语音数据进行完全解码操作与步骤(5)之间还包括步骤:分别对每个选取终端的解码语音数据进行提取静音标志操作，过滤掉选取终端中的静音终端。

6、根据权利要求2所述的语音切换方法，其特征在于，当终端采用G.728语音编解码协议时，所述完全解码操作包括步骤:

7、根据权利要求6所述的语音切换方法，其特征在于，

设置所述对数增益预测处理的阶数为10阶；

设置所述解码合成滤波处理的阶数为50阶。

8、根据权利要求3所述的语音切换方法，其特征在于，当终端采用G.728语音编解码协议时，所述非完全解码操作包括步骤:

9、根据权利要求8所述的语音切换方法，其特征在于，

设置所述对数增益预测处理的阶数为4阶；

设置所述解码合成滤波处理的阶数为8阶。

10、根据权利要求1所述的语音切换方法，其特征在于，

所述步骤(1)之前还包括预先确定所要选取语音能量较大的终端的数目；

11、根据权利要求1所述的语音切换方法，其特征在于，步骤(3)中通过如下公式根据非静音终端的解码语音数据对非静音终端的语音能量进行计算:

E (t) = Σ_{n = t_{1}}^{t_{2}} S^{2} (n),

12、根据权利要求1所述的语音切换方法，其特征在于，步骤(3)中通过如下公式根据非静音终端的解码语音数据对非静音终端的语音能量进行计算:

E (t) = Σ_{n = t_{1}}^{t_{2}} | S (n) |,

13、根据权利要求1所述的语音切换方法，其特征在于，所述步骤(5)进一步包括:

14、根据权利要求13所述的语音切换方法，其特征在于，所述步骤(52)中进一步包括:

在未选取终端中，针对采用相同语音编解码协议的终端，将叠加后的语音数据进行相应统一协议的编码处理后以群发或广播方式发送给该些采用相同语音编解码协议的未选取终端。

15、根据权利要求13所述的语音切换方法，其特征在于，针对未选取终端，所述将所有选取终端的解码语音数据进行统一线性叠加通过如下公式操作:

S＝λ₁×S₁+λ₂×S₂+......+λ_n×S_n

16、一种语音切换装置，用于实现多个终端之间的语音切换，其特征在于，包括:

17、根据权利要求16所述的语音切换装置，其特征在于，所述第一解码单元对终端发送的编码语音数据进行完全解码操作，并当终端采用G.728语音编解码协议时，所述第一解码单元进一步包括:

18、根据权利要求17所述的语音切换装置，其特征在于，

所述对数增益预测器设置的阶数为10阶；

所述解码合成滤波器设置的阶数为50阶。

19、根据权利要求16所述的语音切换装置，其特征在于，

所述第一解码单元对终端发送的编码语音数据进行不完全解码操作；

所述装置还包括第二解码单元，所述语音能量比较单元通过该第二解码单元和线性叠加单元进行连接，所述第二解码单元用于对每个选取终端发送的编码语音数据进行完全解码操作。

20、根据权利要求19所述的语音切换装置，其特征在于，当终端采用G.728语音编解码协议时，所述第一解码单元进一步包括:

21、根据权利要求20所述的语音切换装置，其特征在于，

所述对数增益预测器设置的阶数为4阶；

所述解码合成滤波器设置的阶数为8阶。

22、根据权利要求17所述的语音切换装置，其特征在于，所述装置还包括第二静音标志提取单元，所述语音能量比较单元通过该第二静音标志提取单元和线性叠加单元进行连接，所述第二静音标志提取单元用于对每个选取终端的解码语音数据进行提取静音标志操作，过滤掉选取终端中的静音终端。

23、根据权利要求19所述的语音切换装置，其特征在于，所述装置还包括第二静音标志提取单元，所述第二解码单元通过该第二静音标志提取单元和线性叠加单元进行连接，所述第二静音标志提取单元用于对每个选取终端的解码语音数据进行提取静音标志操作，过滤掉选取终端中的静音终端。