CN101513030A

CN101513030A - 语音混合方法、多点会议服务器和利用该方法的程序

Info

Publication number: CN101513030A
Application number: CNA2007800325552A
Authority: CN
Inventors: 伊藤博纪; 小泽一范
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-08-30
Filing date: 2007-08-28
Publication date: 2009-08-19
Also published as: KR20090035728A; EP2068544A1; EP2068544A4; JPWO2008026754A1; BRPI0714736A2; MX2009002093A; WO2008026754A1; US20090248402A1; US8255206B2; JP4582238B2; KR101036965B1; CA2660007A1; RU2009111270A

Abstract

提供了一种语音混合方法，该方法能防止当在扬声器被切换而切换编码器时在解码语音中生成噪声。该语音混合方法包括：第一步骤，用于从多个语音信息中选择语音信息；第二步骤，用于对全部所选语音信息进行相加；第三步骤，用于通过对所选语音信息中除一个语音信息之外的语音信号进行相加来获得一语音信号；第四步骤，用于对在第二步骤中获得的语音信息进行编码；第五步骤，用于对在第三步骤中获得的语音信息进行编码；以及第六步骤，用于将在第四步骤中获得的经编码信息拷贝到第五步骤中的经编码信息中。

Description

语音混合方法、多点会议服务器和利用该方法的程序

技术领域

本发明涉及语音混合方法、多点会议服务器和利用该方法的程序。更具体而言，本发明涉及对全部参与者的语音进行混合、从混合语音中减去一个参与者的语音、随后将减后的语音发送到同一个参与者的方法，以及多点会议服务器和利用该方法的程序。

背景技术

在多点会议服务中，经语音编码器编码的每个参与者的语音被发送到多点会议服务器。多点会议服务器向每个参与者发送混合了除该参与者之外的其他参与者的语音的语音数据。

在混合语音时，首先，通过将对每个参与者的语音数据进行解码而获得的全部解码语音信号相加来计算出全部参与者的语音信号。接下来，通过从全部参与者的语音信号中减去自己的语音从而获得语音信号，这些语音信号被解码，所生成的语音数据被发送到相应的参与者。

作为多点会议服务中的终端和和服务器之间的通信协议的示例，在电路交换网络中使用了ITU-T H.323和H.324，在移动网络中使用了3G-324M，在基于IP(因特网协议)的分组网络中使用了IETF RFC 3550 RTP(实时传输协议)。

作为语音编码器，可使用作为ITU-T标准的由G.711、G.729和3GPPTS26.090定义的AMR(自适应多速率)方法、由TS26.190定义的AMR-WB(宽带)方法和由3GPP2定义的EVRC(增强可变速率编解码器)方法。

G.711方法通过利用对数变换来将8kHz采样的语音信号中的每个16比特的样本压缩成8个比特，并且在该方法中，计算量较小但是可压缩性比率较低。

另一方面，G.729方法(AMR方法)和EVRC方法是基于根据CELP(码激励线性预测)原理的差分编码(differential coding)方法的，并且它们可以更有效地对语音信号进行编码。

在CELP中，编码器通过利用线性预测分析(LPC：线性预测编码)从每个帧(例如，20ms)的语音信号中提取出示出了该语音信号的频谱特性的频谱参数。

此外，经帧划分的语音信号还被进一步划分成子帧(例如，5ms)，基于每个子帧的过去声源信号而提取出自适应码本中的参数(与基音周期相对应的延迟参数和增益参数)，并且根据自适应码本预测相应子帧的语音信号的基音。从包括预定类型的噪声信号的声源码本(向量量化码本)中选出最合适的声源码向量，并且针对通过基音预测获得的残留信号计算出最合适的增益，从而对声源信号进行量化。

选择声源码向量以使得上述残留信号和由所选噪声信号合成的信号之间的电功率误差最小化。指示所选码向量的类型的自适应码本中的参数、索引、增益和频谱参数的组合作为语音数据被发送。

解码器根据从语音数据获得的参数来计算声源信号和线性预测分析中的合成滤波器系数，并且通过合成滤波器驱动声源信号，从而获得复语音信号。

专利文献1公开了一种语音混合方法，在该方法中不对每个样本执行比较/选择处理，而是基于对样本大小的比较/选择处理的结果选择跟随所选语音数据的样本后的多个样本。

此外，专利文献2公开了一种语音混合方法，在该方法中，一旦在混合单元中生成了加和信号，其自身的语音信息(由一个用户发送的语音信息)就被从加和信号中减去，并且该用户之外的其他用户的语音信息被返回给自身。

专利文献3公开了一种通信单元，在该通信单元中语音合成单元将由每个异类(heterogeneous)编码/解码单元转换成线性数据的每个语音数据相加，此后，通过从相加得到的语音数据中减去自己的语音数据而生成语音数据，并且其被发送到相应的异类编码/解码单元。

专利文献1：日本专利公布早期公开No.2005-151044(第0014、0016和0045段)

专利文献2：日本专利公布早期公开No.2005-229259(第0003段和图1)

专利文献3：日本专利公布早期公开No.6-350724(第0020段和图2)

在现有技术的多点会议系统中，混合有除自身参与者之外的其他所有参与者的语音的语音被编码并且被发送给每个参与者。此刻，由于语音编码的计算量随参与者数目增加而增大，所以系统使用一种方法，来检测正在发音的每个扬声器并且限制要被混合的语音的数目，从而减少要操作的语音编码器的数目。

在利用执行诸如CELP方法之类的差分编码的语音编码器的情形中，由于根据扬声器的改变而切换编码器时示出该编码器的状况的存储器中存在不一致性，所以存在在经解码语音中出现异常声音的问题。

在上述专利文献1至3中未公开用于解决该问题的手段。

发明内容

本发明的一个示例目标是提供一种可以防止在根据扬声器的改变而切换编码器时发生异常声音的语音混合方法、多点会议服务器和利用该方法的程序。

根据本发明的第一示例性方面，一种用于混合多个语音信息的语音混合方法包括：第一步骤，用于从多个语音信息中选择语音信息；第二步骤，用于对全部所选语音信息进行相加；第三步骤，用于通过对所选语音信息中除一个语音信息之外的语音信息进行相加来获得一语音信息；第四步骤，用于对在第二步骤中获得的语音信息进行编码；第五步骤，用于对在第三步骤中获得的语音信息进行编码；以及第六步骤，用于将在第四步骤中获得的经编码信息拷贝到第五步骤中的经编码信息中。

根据本发明的第二示例性方面，一种对多个语音信息进行混合的多点会议服务器包括：从多个语音信息中选择语音信息的选择器；对由选择器选择的全部语音信息进行相加的全部信号加法器；通过对所选语音信息中除一个语音信息之外的语音信息进行相加来获得一语音信息的加法器；对由全部信号加法器相加的语音信息进行编码的第一编码器；对由加法器相加的语音信息进行编码的第二编码器；以及将由第一编码器获得的经编码信息拷贝到第二编码器中的开关。

根据本发明的第三示例性方面，一种用于执行语音混合多个语音信息的程序使计算机执行以下步骤：第一步骤，用于从多个语音信息中选择语音信息；第二步骤，用于对全部所选语音信息进行相加；第三步骤，用于从逐个相加的语音信息中减去所选语音信息；第四步骤，用于对在第二步骤中获得的语音信息进行编码；第五步骤，用于对在第三步骤中获得的语音信息进行编码；以及第六步骤，用于将在第四步骤中获得的经编码信息拷贝到第五步骤中的经编码信息中。

本发明的其他目的、特征和优点将在下面给出的详细描述中变清楚。

附图说明

在附图中：

图1是根据本发明第一示例性实施例的多点会议服务器的结构图；

图2是示出了根据本发明第一示例性实施例的多点会议服务器的操作过程的流程图；以及

图3是根据本发明第二示例性实施例的多点会议服务器的结构图。

具体实施方式

下面将参考附图描述本发明的示例性实施例。

(第一示例性实施例)

图1是根据本发明第一示例性实施例的多点会议服务器的结构图。根据本发明第一示例性实施例的多点会议服务器包括：语音输入端子(或者输入语音信号)100、110、…和190，功率计算器101、111、…和191，扬声器选择器200，语音信号输入开关102、112、…和192，全部信号加法器300，加法器103、113、…和193，语音编码器104、114、…和194，存储器开关105、115、…和195，公共语音编码器400，语音数据开关106、116、…和196，以及接扬声器语音输出端子(或者接扬声器语音输出)107、117、…和197。

语音输入端子100、110、…和190对应于扬声器1、扬声器2、…、扬声器M。功率计算器101、111、…和191，语音信号输入开关102、112、…和192，加法器103、113、…和193，语音编码器104、114、…和194，存储器开关105、115、…和195，语音数据开关106、116、…和196，以及接扬声器语音输出端子107、117、…和197类似地对应于各个扬声器。

接下来，将参考图1和图2来描述第一示例性实施例的操作。图2是示出了根据本发明第一示例性实施例的多点会议服务器的操作过程的流程图。在下文中，尽管仅描述了与扬声器1、扬声器2和扬声器M相对应的处理块，但是对未示出的扬声器执行相同的处理。

功率计算器101、功率计算器111和功率计算器191分别计算与扬声器1、扬声器2和扬声器M的输入语音信号100、输入语音信号110和输入语音信号190相对应的各个功率，并且输出上述功率(图2的步骤S1)。

扬声器选择器200利用计算出的各个扬声器的功率来选择正发音的扬声器，并且输出所选结果(图2的步骤S2)。

语音信号输入开关102、语音信号输入开关112和语音信号输入开关192基于扬声器200的选择结果来切换是否输出相应扬声器的输入语音信号(图2的步骤S3)。

全部信号加法器300提供通过对与扬声器选择器200中选择的扬声器相对应的全部语音加和而获得的语音信号(图2的步骤S4)。

加法器103、加法器113和加法器193提供从自全部信号加法器300提供来的语音信号中减去所选扬声器的语音信号而获得的语音信号(图2的步骤S5)。

即，它们提供通过从自全部信号加法器300提供来的语音信号中减去分别与所选扬声器的语音编码器104、114和194相对应的扬声器的语音信息而获得的语音信息。

公共语音编码器400对从全部信号加法器300提供来的语音信号进行编码(图2的步骤S6)。

语音编码器104、语音编码器114和语音编码器194对从加法器103、加法器113和加法器193提供来的语音信号进行编码(图2的步骤S7)。

存储器开关105、存储器开关115和存储器开关195基于扬声器选择器200的选择结果，将在公共语音编码器400的差分编码中存储器的内容分别拷贝到语音编码器104、语音编码器114和语音编码器194(图2的步骤S8)。

具体而言，存储器开关将公共语音编码器400的存储器中存储的作为差分编码的结果的编码信息拷贝到语音编码器104、语音编码器114和语音编码器194的存储器中。因此，语音编码器104、语音编码器114和语音编码器194的存储器变为与公共语音编码器400的存储器相同状况。

基于扬声器选择器200的选择结果，语音数据开关106、语音数据开关116和语音数据开关196切换输出语音数据(图2的步骤S9)。

具体而言，作为一个示例，当选择了扬声器1而未选择扬声器2和扬声器M时，扬声器1的语音输入信号开关102导通，扬声器2的语音输入信号开关112和扬声器M的语音输入信号开关192断开，扬声器1的存储器开关105导通，扬声器2的存储器开关115和扬声器M的存储器开关195断开，扬声器1的语音数据开关106被连接到扬声器1一侧，而扬声器2的语音数据开关116和扬声器M的语音数据开关196被连接到公共语音编码器400一侧。

全部信号加法器300对通过语音信号输入开关102的扬声器1的语音信号加和，并且将加和信号提供给公共语音编码器400。

加法器103从由全部信号加法器300加和的扬声器1的语音信号中减去扬声器1的语音信号，并且结果信号被提供给语音编码器104。语音编码器104的输出信号通过语音数据开关106被发送给扬声器1。

提供到公共语音编码器400的语音信号通过语音数据开关116和196被发送给未选择的扬声器2和扬声器M。

本发明的第一示例性实施例特征在于：在扬声器1从未选择状态转变到被选择状态时公共语音编码器400中存储的信息通过存储器开关105被拷贝到语音编码器104中，或者在扬声器2改变到被选择状态时公共语音编码器400中存储的信息通过存储器开关115被拷贝到语音编码器114。

据此，当在扬声器改变时切换语音编码器时，可以防止由于示出语音编码器的状态的存储器中的不一致而导致在经解码语音中发生异常声音。

在第一示例性实施例中，尽管加法器103、加法器113和加法器193中的每个都被设计来提供通过从自全部信号加法器300提供来的语音信号中减去所选扬声器的语音信号而获得的语音信号，但是在相加和输出所选语音信号中的除所选的一个扬声器的语音信号之外的语音信号的结构中可以获得相同的结果。

(操作示例)

在下文中，将参考图1描述示例性实施例的一个具体示例。首先，功率计算器101、功率计算器111和功率计算器191分别计算输入语音信号100、输入语音信号110和输入语音信号190的功率，并且将计算出的功率提供并输出到扬声器选择器200。

例如，8kHz采样的输入语音信号s(n)的功率P是在每20毫秒(160个样本)中利用下式(1)计算出的。

P = Σ_{n = 0}^{L - 1} \sqrt{S^{2} (n)} / L

式(1)

在这里，作为示例，L＝160。

扬声器选择器200利用扬声器的输入功率来选择正在发音的扬声器，并且将它是否被选择提供给语音信号输入开关102、语音信号输入开关112和语音信号输入开关192，存储器开关105、存储器开关115和存储器开关195，语音数据开关106、语音数据开关116和语音数据开关196。

作为用于选择正发音的扬声器的方法，存在按照功率降低的顺序选择预定排名第N(N<M，并且N和M为正整数)的扬声器的方法和选择功率超过预定阈值的扬声器的方法。此外，还可以考虑利用通过泄漏积分而平滑的值而不是直接利用输入功率。

当输入被定义为x(n)并且输出被定义为y(n)时，泄漏积分被表示为y(n)＝k×y(n-1)+x(n)。在这里，0<k<1，并且k是常数。

语音信号输入开关102、语音信号输入开关112和语音信号输入开关192将与扬声器选择器200所选的扬声器相对应的输入语音信号100、输入语音信号110、输入语音信号190分别提供给相应的加法器103、加法器113和加法器193以及全部信号加法器300。

全部信号加法器300将通过对全部输入语音信号加和而获得的语音信号提供给加法器103、加法器113、加法器193以及公共语音编码器400。

对于扬声器选择器200所选的扬声器，加法器103、加法器113和加法器193将从自全部信号加法器300提供来的语音信号中减去自语音信号输入开关102、语音信号输入开关112和语音信号输入开关192提供来的相应语音信号而获得的语音信号分别提供给语音编码器104、语音编码器114和语音编码器194。

在混合后的语音中，可以将每个扬声器i的输入语音信号乘以下式(2)示出的可调节增益G_i来降低扬声器之间的音量差异。

G_{i} = \frac{Σ_{k = 1}^{l} P_{k} / N}{P_{i}}

式(2)

标号P_i是利用式(1)计算出的朝向扬声器i的功率，并且N是混合信号的数目。G_i被与扬声器的功率成反比地计算出来，并且当其在作为功率P_i的计算周期的每20毫秒中被更新时，它改变太大，因此可以如下式(3)所示对其进行平滑。

G_{i} = (1 - α) \times G_{i} + α \times {G'}_{i}

式(3)

在这里，G’_i示出先前计算出的可调节增益。例如0.9被用作α的值。为了避免过度调节音量，例如，可以将G_i的可能范围限定为0.5到2。

为了调节混合语音信号的音量，可以将混合语音信号乘以下式(4)示出的可调节增益G_a。

G_a＝P_out/P_a 式(4)

在这里，P_a是利用式(1)计算出的混合语音信号的功率，并且P_out是在调节时的目标值的功率。可以使用扬声器的混合语音信号中扬声器的最大值和预定水平的预定值。可以执行平滑，并且可以与上述G_i类似地限制可能的范围。

公共语音编码器400对从全部信号加法器300提供来的语音信号进行编码，并且将经编码语音数据提供给语音数据开关106、语音数据开关116和语音数据开关196。

当语音信号被从加法器103、加法器113和加法器193提供来时，语音编码器104、语音编码器114和语音编码器194对语音信号进行编码，并且将经编码语音数据提供给语音数据开关106、语音数据开关116和语音数据开关196。

当扬声器选择器200从未选择状态转变到扬声器选择状态时，存储器开关105、存储器开关115和存储器开关195将在公共语音编码器400的差分编码中存储器的内容分别提供给语音编码器104、语音编码器114和语音编码器194。

由于存储器开关的处理，例如，对于扬声器1，在切换从公共语音编码器400到语音编码器104的输出语音数据的输出时，在差分编码过程中的存储器中不会发生不一致。

另一方面，在切换从语音编码器104到公共语音编码器400的输出语音数据的输出时，由于不能覆写公共语音编码器400的存储器，所以在存储器中发生了不一致。

但是，由于这是在扬声器1的音量变得较小并且语音编码器104的输入语音变得与到公共语音编码器400的输入语音基本相等的时刻，所以由于二者存储器中的不一致而导致的声音质量恶化较小。在该情形中，为了使存储器中的不一致较小，在与输入到公共语音编码器400的语音信号相同的语音信号被提供给语音编码器104并且其被操作了一段时间后，语音数据开关106可以被切换到从公共语音编码器400提供来的语音数据。语音编码器104操作相同输入语音信号的时间越长，存储器中的不一致相应地变得越小，但是，这种情况下发生了切换所必需的延迟。

语音数据开关106、语音数据开关116和语音数据开关196在其在扬声器选择器200中被选为正在发音的扬声器时提供来自语音编码器104、语音编码器114和语音编码器194的语音数据，并且它们在其在扬声器选择器200中未被选为正在发音的扬声器时提供从公共语音编码器400提供来的语音数据。

在该示例性实施例中，尽管假设所有语音编码器都相同，但是也可以使用各种类型的语音编码器，或者可以混合各种类型的比特率。在该情形中，对于各种类型的编码器或比特率的数目需要相应的公共编码器。对存储器的切换必须对同一类型的编码器或者比特率执行。

如上所述，根据本发明的操作示例，存在这样的优点：在例如对于扬声器1、切换从公共语音编码器400到语音编码器104的输出语音数据的输出时，在差分编码过程中的存储器中不会发生不一致。

(第二示例性实施例)

接下来，将参考图3描述本发明的第二示例性实施例。图3是根据本发明第二示例性实施例的多点会议服务器的结构图。相同的标号被指派给图1中的相同的组件，并且省略了对它们的描述。

语音解码器501、语音解码器511和语音解码器591分别对已编码的输入语音数据500、输入语音数据510和输入语音数据590进行解码，并且将经解码语音提供给功率计算器101、功率计算器111和功率计算器191，以及语音信号输入开关102、语音信号输入开关112和语音信号输入开关192。

语音数据分析器502、语音数据分析器512和语音数据分析器592提供关于分析输入语音数据500、输入语音数据510和输入语音数据590分别是有声音还是静默的结果。

AMR语音编码方法的一个示例被描述来作为分析方法。在AMR语音编码方法中，对输入语音执行VAD(语音活动性检测)来判断它有声音还是静默，并且在判断出静默时，可以发送帧类型为NO_DATA的信息，或者可以发送关于背景噪声的信息作为SID(静默指示)。

当在语音数据的头部中的帧类型为NO_DATA或SID时，可以判断为静默。当未执行VAD但是每一语音数据被编码为有声音时，存在一种将基于语音数据中包括的增益参数和频谱参数而呈现的音量提供给扬声器选择器201的方法。

功率计算器101、功率计算器111和功率计算器191计算从语音解码器501、语音解码器511和语音解码器591提供来的经解码信号的功率，并且将它们的值提供给扬声器选择器201。

扬声器选择器210基于语音数据分析器502、语音数据分析器512和语音数据分析器592的分析的结果并且还基于从功率计算器101、功率计算器111和功率计算器191提供来的功率来选择正发音的扬声器，并且提供该选择的结果。

具体而言，存在以下两种方法：一种方法按照从功率计算器101、功率计算器111和功率计算器191提供来的功率降低的顺序选择预定排名第N(N<M)的扬声器；另一种方法在从语音数据分析器502、语音数据分析器512和语音数据分析器592提供来的分析结果表明声音或者呈现的音量超过了某一阈值时选择功率超过预定阈值的扬声器。

如上所述，根据本发明的第二示例性实施例，向选择扬声器的标准添加了对有声音还是静默的判断，从而获得了比在第一示例性实施例中更好的选择结果。

(第三示例性实施例)

第三示例性实施例涉及用于使计算机执行语音混合方法的程序。参见图1，未示出的控制器控制多点会议服务器中包括的功率计算器101、111、…和191，扬声器选择器200，语音信号输入开关102、112、…和192，全部信号加法器300，加法器103、113、…和193，语音编码器104、114、…和194，存储器开关105、115、…和195，公共语音编码器400，以及语音数据开关106、116、…和196。

此外，该多点会议服务器还包括未示出的存储单元，该存储单元存储图2的流程图中示出的语音混合方法的处理过程的程序。

控制器(或计算机)从存储单元读取上述程序，并且根据该程序控制上述组件。由于已描述了控制内容，所以省略了对它们的描述。

如上所述，根据本发明第三实施例，可以获得一种程序，该程序用于例如对于扬声器1、防止在切换从公共语音编码器400到语音编码器104的输出语音数据的输出时、在差分编码过程中的存储器中发生不一致。

下面将描述其他示例性实施例。

由于蜂窝电话中带宽很窄，所以必须利用差分编码技术来高效地压缩语音。在蜂窝电话被用来组成多点会议系统时，由于每个蜂窝电话的处理器的能力有限，所以利用蜂窝电话进行混合不现实，因此除了蜂窝电话之外多点会议服务器是必需的。本发明的示例性实施例在该情形中是有用的。

考虑下面的模式作为多点会议系统。第一模式是在每个会议室内有一个人。第二模式是在多个会议室内有多个人(此外，在每个会议室中有多对麦克风和扬声器以及在每个会议室中有一对麦克风和扬声器的情形)。本发明的第二示例性实施例在该情形中是有用的。

根据本发明的示例性实施例，由于在编码过程中的存储器内容中不会发生不一致，所以可以防止在根据扬声器的改变切换编码器时在经解码语音中发生异常声音。

尽管已结合本发明的优选实施例具体示出并描述了本发明，但是本发明不限于这些实施例。本领域技术人员将理解，在不脱离由权利要求书所限定的本发明的精神和范围的情况下，可以在形式和细节上作出改变。

本申请基于2006年8月30日提交的日本专利申请No.2006-232919并且要求该申请的优先权，该申请的公开通过引用整体结合于此。

Claims

1.一种用于混合多个语音信息的语音混合方法，包括：

第一步骤，用于从多个语音信息中选择语音信息；

第二步骤，用于对全部所选语音信息进行相加；

第三步骤，用于通过对所述所选语音信息中除一个语音信息之外的语音信息进行相加来获得一语音信息；

第四步骤，用于对在所述第二步骤中获得的语音信息进行编码；

第五步骤，用于对在所述第三步骤中获得的语音信息进行编码；以及

第六步骤，用于将在所述第四步骤中获得的经编码信息拷贝到所述第五步骤中的经编码信息中。

2.如权利要求1所述的语音混合方法，其中

在所述第六步骤中，存储在执行所述第四步骤中的编码的编码器的存储器中的经编码信息被拷贝到执行所述第五步骤的编码的编码器中。

3.如权利要求1或2所述的语音混合方法，还包括

第七步骤，根据在所述第一步骤中的选择结果来切换并提供在所述第四步骤中获得的经编码信息或在所述第五步骤中获得的经编码信息。

4.如权利要求1至3中任一个所述的语音混合方法，其中

输入的经编码信息被解码，并且经解码语音信息被用作所述第一步骤中的语音信息。

5.如权利要求1至4中任一个所述的语音混合方法，其中

在所述第一步骤中，根据所述语音信息的语音信号的功率选择语音信息。

6.如权利要求1至5中任一个所述的语音混合方法，其中

在所述第一步骤中，根据所述语音信息的语音数据是有声还是静默来选择语音信息。

7.如权利要求1至6中任一个所述的语音混合方法，其中

在所述第三步骤中，通过对所述所选语音信息中除一个语音信息之外的语音信息进行相加来获得的语音信息是通过从逐个相加的语音信息中减去所述所选语音信息而获得的。

8.如权利要求1至7中任一个所述的语音混合方法，其中

所述语音信息是语音信号的经编码数据，

在所述第一步骤中，分析多个所述经编码数据，选择用于混合的经编码数据，并且对所选经编码数据解码并生成经解码语音信号。

9.如权利要求1至7中任一个所述的语音混合方法，其中

所述语音信息是语音信号的经编码数据，

在所述第一步骤中，分析所述经编码数据和通过对所述经编码数据进行解码获得的经解码语音信号，并且选择用于混合的经解码语音信号。

10.如权利要求8或9所述的语音混合方法，其中

在所述第二步骤中，生成对全部所述经解码语音信号加和的语音信号，

在所述第三步骤中，生成对所述所选经解码语音信号中除一个经解码语音信号之外的经解码语音信号加和的语音信号，

在所述第四步骤中，在第一编码器中对所述第二步骤生成的所述语音信号进行差分编码，

在所述第五步骤中，在第二编码器中对所述第三步骤生成的所述语音信号进行差分编码，

在所述第六步骤中，在对用于混合的经解码语音信号的选择结果被改变时，使指示所述第五步骤中第二编码器的状态的存储器内容与指示所述第四步骤中第一编码器的状态的存储器内容相同。

11.如权利要求1至10中任一个所述的语音混合方法，包括

用于将用于混合的语音信号之间的音量差调节变小的步骤。

12.如权利要求1至10中任一个所述的语音混合方法，包括

用于将经混合语音的音量调节到与用于混合的语音信号中的最大音量相等或者调节到预定水平的步骤。

13.一种对多个语音信息进行混合的多点会议服务器，包括：

选择装置，用于从所述多个语音信息中选择语音信息；

全部信号相加装置，用于对由所述选择装置选择的全部语音信息进行相加；

加法装置，用于通过对所述所选语音信息中除一个语音信息之外的语音信息进行相加来获得语音信息；

第一编码装置，用于对由所述全部信号相加装置相加的语音信息进行编码；

第二编码装置，用于对由所述加法装置相加的语音信息进行编码；以及

开关装置，用于将由所述第一编码装置获得的经编码信息拷贝到所述第二编码装置中。

14.如权利要求13所述的多点会议服务器，其中

所述开关装置根据所述选择装置的选择结果，将存储在所述第一编码装置的存储器中的经编码信息拷贝到所述第二编码装置中。

15.如权利要求13或14所述的多点会议服务器，还包括

输出开关装置，用于根据所述选择装置的选择结果，切换并提供由所述第一编码装置获得的经编码信息或由所述第二编码装置获得的经编码信息。

16.如权利要求13至15中任一个所述的多点会议服务器，包括

解码装置，用于对多个输入的经编码语音信息进行解码，其中

所述选择装置从由所述解码装置解码的多个语音信息中选择语音信息。

17.如权利要求13至16中任一个所述的多点会议服务器，其中

所述选择装置根据所述语音信息的语音信号的功率来选择语音信息。

18.如权利要求13至17中任一个所述的多点会议服务器，其中

所述选择装置根据所述语音信息的语音数据是有声音还是静默来选择语音信息。

19.如权利要求13至18中任一个所述的多点会议服务器，其中

所述加法装置通过从由所述全部信号相加装置逐个相加的语音信息中减去所选语音信息，来获得对所述所选语音信息中除一个语音信息之外的语音信息加和的语音信息。

20.一种用于执行语音混合多个语音信息的程序，包括以下功能：

第一功能，用于从多个语音信息中选择语音信息；

第二功能，用于对全部所选语音信息进行相加；

第三功能，用于从逐个相加的语音信息中减去所选语音信息；

第四功能，用于对在所述第二功能中获得的语音信息进行编码；

第五功能，用于对在所述第三功能中获得的语音信息进行编码；以及

第六功能，用于将在所述第四功能中获得的经编码信息拷贝到所述第五功能中获得的经编码信息中。