CN105304079B

CN105304079B - 一种多方通话的多模式语音合成方法与系统以及服务器

Info

Publication number: CN105304079B
Application number: CN201510593624.3A
Authority: CN
Inventors: 周肖宇
Original assignee: Shanghai Keyan Information Technology Co Ltd
Current assignee: Shanghai Keyan Information Technology Co Ltd
Priority date: 2015-09-14
Filing date: 2015-09-14
Publication date: 2019-05-07
Anticipated expiration: 2035-09-14
Also published as: CN105304079A

Abstract

本发明提供了一种多方通话的多模式语音合成方法与系统以及多方电话通话服务器，所述方法包括解码、统一的重新采样、静音检测、语音合成、回声消除、编码等步骤，其中语音合成按照检测到的非静音的语音信号的路数不同而设置不同的语音合成模式。本发明不仅可以消除溢出现象，而且通过对各个通话方的发言情况进行统计分析，从而根据实际情况提出了个性化的混音处理方案，并且最大程度的保持了各路语音信号的原本特征，算法简单、混音速度快，且不会引入严重的噪声，实现了高质量的多方通话。

Description

一种多方通话的多模式语音合成方法与系统以及服务器

技术领域

本发明属于多方通话领域，特别涉及一种多方通话的多模式语音合成方法与系统以及多方电话通话服务器。

背景技术

目前，随着经济社会的发展，能够实现多方、异地实时交流的多方通话技术，例如电话会议，正在蓬勃发展。在多方通话的语音技术方面，传统上是使用控制发言权的方法，即某一时刻只允许一个人发言，每个会议中首先选定一个会议主席，发言者在发言前必须向会议主席申请发言权，在发言结束后释放发言权。然而，这大大限制了会议成员之间的交流。而采用语音合成技术即可解决多方通话中的上述问题。语音合成技术是将各个参会者的语音数据通过混音算法混合，编码后传输给所有的参会者。语音合成技术让更多的参会者可以在同一时刻发言，并将所有发言者的信息传达给所有参会者。在一个多方通话系统中，语音合成技术起着非常关键的作用，其是衡量一个系统质量好坏的重要标准之一。

传统的混音算法是将所有输入的语音数据进行线性叠加，但是采用该方式，一旦语音信号叠加后的值超过线性样本的取值范围，则会产生溢出现象，从而引入噪声。随着混音路数的增多，发生溢出的频率就会越高，随之产生的噪声问题就会越严重，一般情况下，当混音路数超过4路时，由溢出引入的噪音就会过大，直接导致混音后的语音无法辨认。这会大大降低系统的通话性能。目前，对于混音后的溢出问题普遍采用下述方案：在混音过程中对语音信号的振幅做一定的平滑处理，即在线性叠加的同时加入一个混音权重系数，使混音后的样本值控制在应有的范围内，这样就降低了溢出的频率。然而，上述方案虽然可以减弱或者消除溢出现象，但是会对混音后的语音信号做出较大的衰减，增加了算法的复杂度，混音速度慢，同时可能会引入严重的噪声；并且上述方案并没有对各个发言人的发言情况进行统计分析，没有根据统计分析结果进行个性化的混音处理。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种多方通话的多模式语音合成方法与系统。

本发明所述的一种多方通话的多模式语音合成方法，包括如下步骤：

步骤10，对经由通信网络从各个通话方客户端接收的M路语音信号进行解码，得到M路解码后的语音信号，其中每一路解码后的语音信号记为a_i，其中M为大于等于1的整数，i为大于等于1且小于等于M的整数；

步骤20，对所述M路解码后的语音信号a_i进行Q位的统一的重新采样，得到M路采样后的语音信号，其中采样后的语音信号记为b_i；

步骤30，将所述M路采样后的语音信号中的每一路b_i，以音频帧为单位，同步进行静音检测，其中，在第j帧获得的非静音的语音信号记为b_s(j)，在第j帧获得的非静音的语音信号的路数记为N，其中N为大于等于0且小于等于M的整数，s为大于等于1且小于等于N的整数；

步骤40，如果N为0，则返回步骤30；如果N为1，则进入步骤50；如果N等于2，则进入步骤60；如果N大于等于3，则进入步骤70；

步骤50，采用第一语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第一语音合成结果C₁(j),然后进入步骤80；其中步骤50中的采用第一语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第一语音合成结果C₁(j)具体为：采用公式一获得第j帧的第一语音合成结果C₁(j)，其中，Q为步骤20中的统一的重新采用的位数：

步骤60，采用第二语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第二语音合成结果C₂(j)，然后进入步骤80；其中步骤60中的采用第二语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第二语音合成结果C₂(j)具体为：采用公式二获得第j帧的第二语音合成结果C₂(j)，其中，公式二中的权重W_s(j)采用公式三获得， |b_s(j)|为在第j帧获得的第s路非静音的语音信号的信号强度，F_s为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量，α为信号强度权重系数，β为非静音帧数量权重系数，α+β＝1，α和β分别为正数：

步骤70，采用第三语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第三语音合成结果C₃(j)，然后进入步骤80，其中步骤70中的采用第三语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第三语音合成结果C₃(j)具体包括；

步骤71，将所述N路非静音的语音信号按照信号强度进行排序；

步骤72，选取信号强度最大的前P路非静音的语音信号采用公式四获得第三语音合成结果C₃(j)，剩余的N-P路非静音的语音信号不参与语音合成，即剩余的N-P路非静音的语音信号的权重W_s(j)为0，其中P为大于2且小于N的整数，其中，公式四中的权重W_s(j)采用公式五获得，|b_s(j)|为在第j帧获得的第s路非静音的语音信号的信号强度，F_s为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量，α为信号强度权重系数，β为非静音帧数量权重系数，α+β＝1，α和β分别为正数：

步骤80，将第一语音合成结果、第二语音合成结果或者第三语音合成结果减去各个通话方客户端的语音数据后，再进行回声消除处理，得到各个通话方客户端的输出语音信号；

步骤90，将各个通话方客户端的输出语音信号按照各个通话方客户端的编码方式进行编码后传输到相应的各个通话方客户端。

优选的，利用步骤70’替换权利要求1中的步骤70：

步骤70’，采用第三语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第三语音合成结果C₃(j)，然后进入步骤80，其中步骤70’中的采用第三语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第三语音合成结果C₃(j)具体包括；

步骤71’，将所述N路非静音的语音信号按照信号强度进行排序；

步骤72’，将所述N路非静音的语音信号按照在其第1到第j帧中的非静音帧的数量进行排序；

步骤73’，取步骤71’和步骤72’中的两种排序的交集，获得X路信号强度和在其第1到第j帧中的非静音帧的数量逐渐递减的非静音的语音信号，其中X为大于等于0且小于等于N的整数，如果X为0，则进入步骤74’，如果X大于0，则进入步骤75’；

步骤74’，将通过步骤71’的排序获得的信号强度最大的前P路非静音的语音信号采用公式四获得第三语音合成结果C₃(j)，剩余的N-P路非静音的语音信号不参与语音合成，即剩余的N-P路非静音的语音信号的权重W_s(j)为0，其中P为大于2且小于N的整数，其中，公式四中的权重W_s(j)采用公式五获得，|b_s(j)|为在第j帧获得的第s路非静音的语音信号的信号强度，F_s为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量，α为信号强度权重系数，β为非静音帧数量权重系数，α+β＝1，α和β分别为正数：

步骤75’，将步骤73’中获得的X路信号强度和在其第1到第j帧中的非静音帧的数量逐渐递减的非静音的语音信号采用公式六获得第三语音合成结果C₃(j)，剩余的N-X路非静音的语音信号不参与语音合成，其中，公式六中的权重W_s(j)采用公式七获得，|b_s(j)|为在第j 帧获得的第s路非静音的语音信号的信号强度，F_s为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量，α为信号强度权重系数，β为非静音帧数量权重系数，α+β＝1，α和β分别为正数：

优选的，在步骤30中的静音检测具体为：

步骤31，将所述M路采样后的语音信号中的每一路b_i的第j帧划分成Z段，其中每一段记为b_iz(j)，其中，Z为大于1的整数，Z根据实际应用设定，z为大于等于1且小于等于Z 的整数；

步骤32，采用公式八计算采样后的第b_i路语音信号在第j帧中的信号强度E_i(j)；

步骤33，统计采样后的第b_i路语音信号在第j帧中的过零次数R_i(j)；

步骤34，将通过步骤32获得的E_i(j)与第一阈值进行比较，将通过步骤33获得的R_i(j) 与第二阈值进行比较，只有当E_i(j)小于所述第一阈值且R_i(j)大于第二阈值的情况下，才将采样后的第b_i路语音信号作为静音的语音信号。

优选的，在步骤10中，是采用与各自的编码方法对应的解码方法对接收的M路语音信号进行解码。

优选的，在步骤20中，Q为8或者16。

优选的，在所述步骤20之后并且所述步骤30之前还具有对M路采样后的语音信号b_i进行去噪处理的步骤。

一种实现上述任意一项的多方通话的多模式语音合成方法的多方电话通话服务器，其特征在于所述多方电话通话服务器包括：所述多方电话通话服务器包括依次连接的输入单元、解码单元、采样单元、静音检测单元、语音合成单元、回声消除单元、编码单元、输出单元，其中：

所述输入单元，用于经由通信网络从M个通话方客户端接收M路语音信号，并将所述M 路语音信号传输到解码单元，其中M为大于等于1的整数；

所述解码单元，用于对从输入单元接收的M路语音信号进行解码，得到M路解码后的语音信号，并将M路解码后的语音信号传输到采样单元；

所述采样单元，用于对从所述解码单元接收的所述M路解码后的语音信号进行统一的重新采样，得到M路采样后的语音信号，并将M路采样后的语音信号传输到静音检测单元；

所述静音检测单元，用于对从所述采样单元接收的M路采样后的语音信号中的每一路，以音频帧为单位，同步进行静音检测，获得N路非静音的语音信号，并将所述N路非静音的语音信号传输到语音合成单元，其中N为大于等于0且小于等于M的整数；

所述语音合成单元，用于对从静音检测单元接收到的N路非静音的语音信号进行多种模式的语音合成，并将合成后的语音信号分别减去各个通话方客户端的语音数据获得分别对应于M个通话方客户端的M路语音合成信号，并将M路语音合成信号传输到回声消除单元；

所述回声消除单元，用于对从语音合成单元接收的M路语音合成信号进行回声消除处理，得到M路回声消除后的语音信号，并将所述M路回声消除后的语音信号传输到编码单元；

所述编码单元，用于按照各个通话方客户端的不同编码方式，对从回声消除单元接收的 M路回声消除后的语音信号进行编码，获得M路编码后的语音信号，并将所述M路编码后的语音信号传输到输出单元；

所述输出单元，用于将从所述编码单元接收的M路编码后的语音信号分别传输给各个通话方客户端。

优选的，在采样单元和静音检测单元之间连接一个去噪单元，用于对从所述采样单元接收的M路采样后的语音信号进行去噪处理。

一种多方通话的多模式语音合成系统，其特征在于所述系统包括：主席客户端，与主席客户端通信连接的管理服务器，与主席客户端、管理服务器以及多个参会客户端分别通信连接的多方电话通话服务器，以及与多方电话通话服务器通信连接的多个参会客户端，所述管理服务器与所述多方电话通话服务器之间进行数据的双向交互，其中所述多方电话通话服务器采用上述任意一项所述的多方电话通话服务器。

本发明所述的多方通话的多模式语音合成方法、系统和多方电话通话服务器，不仅可以消除溢出现象，而且通过对各个通话方的发言情况进行统计分析，从而根据实际情况提出了个性化的混音处理方案，并且最大程度的保持了各路语音信号的原本特征，算法简单、混音速度快，且不会引入严重的噪声，实现了高质量的多方通话。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述的多方通话系统的框图；

图2是本发明所述的多方电话通话服务器的结构框图；

图3是本发明所述的多方通话的多模式语音合成方法的流程图。

具体实施方式

下面结合附图对本发明作进一步详细的描述。

图1为本发明所述的多方通话系统的框图，所述多方通话系统包括主席客户端，会议管理服务器，多方电话通话服务器，以及两个或两个以上的参会客户端。其中，主席和参会方共同构成本发明所述的多方电话通话的通话方。

所述主席客户端是多方电话通话会议的发起方，该主席客户端上安装有用于实现多方电话通话会议以及进行会议管理交互操作的多方电话会议APP。主席客户端为移动终端，在实际应用中一般为智能手机、平板电脑等。

所述主席客户端与所述会议管理服务器之间通过分组数据传输网络(如互联网或者移动互联网)实现连接。例如，如果主席客户端是智能手机等移动终端，其可以利用WI-FI接入互联网，或者直接采用移动互联网的2G、3G或4G数据连接，并且通过运行多方电话会议APP 与所述会议管理服务器建立双向的数据传输连接。

主席客户端可以与多方电话通话服务器之间通过2G、3G或4G的蜂窝电话网络建立电话呼叫链接。通过该电话呼叫链接，支持主席客户端与多方电话通话服务器之间的双向语音传输，并且支持拨号信令(如DTFM信令)的传输，在拨号信令的基础上，可以实现语音菜单交互功能，即多方电话通话服务器向主席客户端发送语音播放形式的语音菜单，主席客户端根据语音菜单的提示而按下智能手机的特定拨号按键(0-9数字键，＊键以及#键)，主席客户端生成与特定拨号按键对应的拨号信令并传输给多方电话通话服务器，由多方电话通话服务器响应该拨号信令而执行相应的操作。

参会客户端可以是智能手机等移动终端或座机等。参会客户端是移动终端的情况下，可以通过2G、3G或4G的蜂窝电话网络与所述多方电话通话服务器建立电话呼叫链接，并且同样支持拨号信令和语音菜单交换功能。参会客户端是座机的情况下，可以通过固话或者PSTN 网络与所述多方电话通话服务器建立电话呼叫链接，并且支持拨号信令和语音菜单交换功能。而且，当参会客户端是移动终端时，可以在参会客户端上与主席客户端一样安装多方电话会议APP，在安装了多方电话会议APP的情况下，与主席客户端一样，参会客户端可以运行多方电话会议APP与所述会议管理服务器建立双向的数据传输连接；参会客户端也可以不安装多方电话会议APP。

多方电话通话服务器用于实现与主席客户端和参会客户端的电话呼叫链接，在电话呼叫链接接通的基础上，对主席客户端和参会客户端进行语音信号的接收、合成和转发。所述会议管理服务器与所述多方电话通话服务器之间也建立网络连接，从而可以在两个服务器之间具有数据的双向交互传输通道。

主席客户端上安装有多方电话会议APP，主席客户端通过所述多方电话会议APP与会议管理服务器进行双向的界面操作交互，从而发起、管理或结束用于实现一个多方会议的多方电话通话任务；所述主席客户端通过电话呼叫链接接收所述多方电话通话服务器发送的语音菜单，并且通过拨号信令实现与多方电话通话服务器的拨号交互。

会议管理服务器实时地根据所述主席客户端或者参会客户端的界面操作指令而生成对应的拨号交互同步请求，将所述拨号交互同步请求发送到所述多方电话通话服务器；所述会议管理服务器实时地接收来自多方电话通话服务器的界面操作交互同步请求，并响应该界面操作交互同步请求而生成界面操作提示，将所述界面操作提示发送到主席客户端或者参会客户端的多方电话会议APP上，以便实现界面交互操作。

多方电话通话服务器用于实现与主席客户端和参会客户端的电话呼叫链接，在电话呼叫链接接通的基础上，对主席客户端和参会客户端进行语音信号的接收、合成和转发；所述多方电话通话服务器响应拨号信令，实时地根据拨号信令生成对应的界面操作交互同步请求，将界面操作交互同步请求发送至会议管理服务器；多方电话通话服务器接收来自会议管理服务器的拨号交互同步请求，并响应该拨号交互同步请求而生成并且向主席客户端和参会客户端发送对应的语音菜单，以便实现拨号交互操作。

参会客户端用于与多方电话通话服务器建立电话呼叫链接从而与主席客户端以及其它参会客户端进行多方电话通话；在多方电话通话的过程中，所述参会客户端与多方电话通话服务器进行拨号交互操作；对于安装了多方电话会议APP的参会客户端，所述安装了多方电话会议APP的参会客户端与会议管理服务器进行界面交互操作。

图2是本发明所述的多方电话通话服务器的结构框图。所述多方电话通话服务器包括依次连接的输入单元201、解码单元202、采样单元203、静音检测单元、语音合成单元、回声消除单元、编码单元207、输出单元208，可选的，可以在采样单元203和静音检测单元之间连接一个去噪单元209。

其中，所述输入单元201，用于获得各个通话方通过各种通信网络传输的语音信号，并将所述语音信号传输到解码单元202。例如可以通过PSTN传输固话语音信号，通过GSM、CDMA 等传输移动通信语音信号，假设一共有M个通话方，那么这M个通话方产生的M路语音信号便会通过输入单元202传输到解码单元202。

所述解码单元202，用于对从输入单元201接收的M路语音信号进行解码，并输出M路解码后的语音信号。其中，是采用与各自的编码方法对应的解码方法对接收的M路语音信号进行解码，这是因为，在一个多方通话中，不同的通话方客户端由于各种原因可能采取不同的编码方式，因此对于多方电话通话服务器来说，针对每一个通话方客户端都将创建对应的解码器实例，例如，所述解码单元202能够支持iLBC(窄带语音编码)和iSAC(宽带语音编码)，还可以包括其他解码器，比如G711，G722和PCM16B等。

所述采样单元203，用于对从所述解码单元202输出的所述M路解码后的语音信号进行统一的重新采样，得到M路采样后的语音信号。之所以进行统一的重新采样，是因为每一个通话方客户端所采用的编码方式可能不同，那么会导致解码单元202输出的M路解码后的语音信号的采样频率也不同，为了能够进行后续的混音，必须采取重新采样的技术使所有要参与混音的M路语音信号都拥有相同的采样频率。可选的，可以采用8位或者16位采样。

所述静音检测单元，用于对从所述采样单元203接收的M路采样后的语音信号中的每一路，以音频帧为单位，同步进行静音检测，获得N路非静音的语音信号。在通话过程中，话音期和静默期是交替存在的。从统计上来说，用户发声的时间只占总通话时间的不足一半，在用户不说话时如果不进行语音处理，不发送语音包，可以节约大量的网络带宽。基于这个原理，人们提出并实现了语音激活检测的算法，即静音检测。当系统检测到静音时加以抑制，使其不占用或极少占用信道带宽，检测到突发的激活话音时才将语音采样数据进行压缩编码和传输，静音检测技术通常能使信道带宽的有效利用率提高50％以上。因此，在很多语音处理系统中，静音检测都是关键模块。静音检测算法要求在干净和嘈杂的环境中都能够表现优秀。一般要求在尽可能地检测出语音激活帧的同时，又能最大限度地检测出语音非激活帧。为获得好的静音检测效果，本发明综合考虑信号强度和过零次数，综合这两个参数来判断某一帧是否为静音帧。

所述语音合成单元，用于对从静音检测单元接收到的N路非静音的语音信号进行多种模式的语音合成，并将合成后的语音信号分别减去各个通话方客户端的语音数据获得各个通话方客户端的语音合成信号，即获得M路语音合成信号。

所述回声消除单元，用于对从语音合成单元接收的M路语音合成信号进行回声消除处理，得到M路回声消除后的语音信号，并将所述M路回声消除后的语音信号输出到编码单元207。在多方通话中，例如在采用免提的方式时，当本端的声音信号传到对端后，进入对端的麦克风，再传回本端，会导致在本端听到自己的延迟后的声音，这种声音就被称为多方通话中的回声。目前，多方通话系统对回声的处理技术主要采用回声消除。回声消除，就是通过对回声路径的分析，估计其特征参数，利用回声路径的特征参数构造模拟的回声信道，模拟回声的产生过程，得到的模拟回声信号与接收信号反相求和即可消除接收信号中的回声。由于回声抵消技术不是本发明研究的重点，因此本发明仅仅采用现有技术中已经出现的回声消除技术。

所述编码单元207，用于按照各路参会者客户端的不同编码方式，对从回声消除单元输出的M路回声消除后的语音信号进行编码，获得M路编码后的语音信号，并将所述M路编码后的语音信号输出到输出单元208。

所述输出单元208，用于将从所述编码单元207接收的M路编码后的语音信号分别传输给各个通话方客户端。

所述去噪单元209，用于对从所述采样单元203接收的M路采样后的语音信号进行去噪处理，从而提高了语音信号的纯度。

在上述系统架构和结构框图的基础上，本发明在多方通话中实现了多种模式的语音合成。下面将介绍多方通话的多模式语音合成方法的具体流程。

图3是本发明所述的多方通话的多模式语音合成方法的流程图。如图3所示，本发明所述的多方通话的多模式语音合成方法包括如下步骤：

步骤10，对经由通信网络从各个通话方客户端接收的M路语音信号进行解码，得到M路解码后的语音信号。其中每一路解码后的语音信号记为a_i，其中M为大于等于1的整数，i为大于等于1且小于等于M的整数。

其中，由于每路语音信号在通话方终端上采用的编码方式可能不同，因此，在步骤10中，是采用与各自的编码方法对应的解码方法对接收的M路语音信号进行解码。

步骤20，对所述M路解码后的语音信号a_i进行Q位的统一的重新采样，得到M路采样后的语音信号。其中采样后的语音信号记为b_i。例如，可以设置Q为8或者16，即进行8位或者16位的重新采样。

步骤30，将所述M路采样后的语音信号中的每一路b_i，以音频帧为单位，同步进行静音检测。其中，在第j帧获得的非静音的语音信号记为b_s(j)，在第j帧获得的非静音的语音信号的路数记为N，其中N为大于等于0且小于等于M的整数，s为大于等于1且小于等于N的整数。其中，本发明在步骤30中的静音检测具体为：

一般而言，只要信噪比不太低，语音信号的能量总是大于背景噪声的能量，所以将通过公式八获得的第j帧的信号强度与一个第一阈值进行比较，便可以大体上区分出语音和噪声，这种检测方法虽然简单但是检测精确度不高。一帧语音中语音信号波形穿过横轴的次数即为过零次数。如果过零次数较高，语音信号就是清音；如果过零次数偏低，语音信号就是浊音。本发明将上述两种静音检测方法结合起来，如果信号强度大且过零次数偏低，则是非静音的语音信号，返之，则会静音的语音信号。

步骤40，如果N为0，则返回步骤30。即，如果在第j帧获得的非静音的语音信号的路数为0，也就是说，在第j帧，全部M路采样后的语音信号均为静音信号，即在第j帧，M个通话方都没有说话，那么不进行后续操作，而是继续进行第j+1帧的静音检测。

如果N为1，则进入步骤50。即，如果在第j帧获得的非静音的语音信号的路数为1，也就是说，在第j帧，M个通话方中只有一方讲话，那么采用步骤50中所述的语音合成模式。

如果N等于2，则进入步骤60。即，如果在第j帧获得的非静音的语音信号的路数为2，也就是说，在第j帧，M个通话方中有两方在同时讲话，那么采用步骤60中所述的语音合成模式。

如果N大于等于3，则进入步骤70。即，如果在第j帧获得的非静音的语音信号的路数至少为3个，也就是说，在第j帧，M个通话方中至少有三个人在同时讲话，那么采用步骤70中所述的语音合成模式。

步骤50，采用第一语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第一语音合成结果C₁(j)，然后进入步骤80；其中步骤50中的采用第一语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第一语音合成结果C₁(j)具体为：采用公式一获得第j帧的第一语音合成结果C₁(j)，其中，Q为步骤20中的统一的重新采用的位数：

从步骤50中可以看出，在只有一路非静音语音信号的情况下，语音合成结果基本上就是该路非静音的语音信号，为了防止溢出，将合成后的语音信号限制在了[-2^Q-1,2^Q-1-1]的范围内，例如，对于16位的采样，上述范围为[-32768,32767]。

从步骤60中可以看出，在只有2路非静音语音信号的情况下，由于非静音语音信号的数量比较少，因此将这2路非静音语音信号全部参加混音。但是，由于这2路非静音语音信号的信号强度和持续保持非静音状态的时间可能不一致，如果采用简单叠加的方式，则不能真实的表现这2路信号的混音效果，为此，本发明提出采用公式三为这两路非静音语音信号“量体裁衣”设置权重，在设置权重的时候考虑两路非静音语音信号的信号强度和第1到第j帧中的非静音帧的数量，由于语音信号的信号强度可以表达讲话者的讲话音量，第1到第j帧中的非静音帧的数量可以表达讲话者的讲话时长，在设置权重的时候如果只考虑讲话音量，那么会导致某些说话声音本身就小的人的讲话会被忽视掉，如果只考虑讲话时长，那么会导致某些短暂却重要的讲话被忽视掉，因此，本发明在设置权重的时候充分考虑了讲话音量和讲话时长两者，并为讲话音量和讲话时长分别设置了权重系数，在实际应用中，可以根据实际需要，灵活设置α和β之间的大小关系，当认为讲话音量和讲话时长同等重要时，α和β的大小相等，当认为讲话音量更重要时，设置α大于β，反之，设置α小于β。

由于研究证明，如果有多个人同时讲话，例如如果有至少6个人同时讲话且讲话音量差不多的情况下，那么基本上无法听清楚任何一方的讲话内容。因此，从步骤70中可以看出，在至少有3路非静音语音信号的情况下，并不是对所有的非静音的语音信号都进行混音，而是先将所述N路非静音的语音信号按照信号强度进行排序，再选取信号强度最大的前P路非静音的语音信号采用公式四进行混音，从而获得第三语音合成结果C₃(j)，其中P根据实际情况进行确定，例如设置P＝6，也就是说最大仅能容许混音6个音量最大的通话方的话音。公式四和公式二类似，公式五和公式三类似，所不同的仅仅是参加混音的音频信号的路数，对于公式四和公式五的含义参照公式二和公式三的含义，在此不再赘述。

通过上述步骤50-步骤70可以看出，本发明所提出的多模式语音合成方法，不仅可以消除溢出现象，而且通过对各个通话方的发言情况进行统计分析，从而根据实际情况提出了个性化的混音处理方案，并且最大程度的保持了各路语音信号的原本特征，算法简单、混音速度快，且不会引入严重的噪声。

步骤80，将第一语音合成结果、第二语音合成结果或者第三语音合成结果减去各个通话方客户端的语音数据后，再进行回声消除处理，得到各个通话方客户端的输出语音信号。

可选的，在所述步骤20之后并且所述步骤30之前还具有对M路采样后的语音信号b_i进行去噪处理的步骤。

在另一优选的实施例中，为了获得更加精确、更加尊重通话方的原本声音、更能提供身临其境的现场感的混音效果，利用步骤70’替换上述步骤70：

在步骤70’中，在对N路非静音的语音信号进行排序的时候就考虑了讲话音量和讲话时长两者，如果不存在讲话音量大和讲话时长长的通话者，那么就认为该多方通话中无法找到一个或多个主要发言人，那么就采用上述步骤70中的语音合成方式。在此不再赘述。

然而，如果存在讲话音量大和讲话时长长的通话者，即进入到步骤75’，那么将这些通话者按照信号强度和第1到第j帧中的非静音帧的数量进行排序(即，按照讲话音量大和讲话时间长的大小顺序进行排列)，并为每一路音频信号按照公式七设置权重，通过系数(X-s+1/X)，使得排在最前面的音频信号能够获得最大的权重系数，排在最后面的音频信号获得最小的权重系数。这样能够有意识的增大主要发言人的语音信号，同时有意识的减弱不重要发言人的语音信号，使得混音信号中的各个发言人的语音强度随着其重要程度的降低而减小。通过步骤70’，能够真实的凸显主要发言人的发言，淹没不重要发言人的发言，获得较好的多方通话效果。

应当理解的是，以上所述仅为本发明的较佳实施例而已，并不足以限制本发明的技术方案，对本领域普通技术人员来说，在本发明的精神和原则之内，可以根据上述说明加以增减、替换、变换或改进，而所有这些增减、替换、变换或改进后的技术方案，都应属于本发明所附权利要求的保护范围。

Claims

1.一种多方通话的多模式语音合成方法，其特征在于所述方法包括如下步骤：

步骤60，采用第二语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第二语音合成结果C₂(j)，然后进入步骤80；其中步骤60中的采用第二语音合成模式对在第j帧获得的N路非静音的语音信号进行处理，获得第二语音合成结果C₂(j)具体为：采用公式二获得第j帧的第二语音合成结果C₂(j)，其中，公式二中的权重W_s(j)采用公式三获得，|b_s(j)|为在第j帧获得的第s路非静音的语音信号的信号强度，F_s为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量，α为信号强度权重系数，β为非静音帧数量权重系数，α+β＝1，α和β分别为正数：

2.根据权利要求1所述的一种多方通话的多模式语音合成方法，其特征在于利用步骤70’替换权利要求1中的步骤70：

步骤75’，将步骤73’中获得的X路信号强度和在其第1到第j帧中的非静音帧的数量逐渐递减的非静音的语音信号采用公式六获得第三语音合成结果C₃(j)，剩余的N-X路非静音的语音信号不参与语音合成，其中，公式六中的权重W_s(j)采用公式七获得，|b_s(j)|为在第j帧获得的第s路非静音的语音信号的信号强度，F_s为在第j帧获得的第s路非静音的语音信号在其第1到第j帧中的非静音帧的数量，α为信号强度权重系数，β为非静音帧数量权重系数，α+β＝1，α和β分别为正数：

3.根据权利要求1或2所述的一种多方通话的多模式语音合成方法，其特征在于：在步骤30中的静音检测具体为：

步骤31，将所述M路采样后的语音信号中的每一路b_i的第j帧划分成Z段，其中每一段记为b_iz(j)，其中，Z为大于1的整数，Z根据实际应用设定，z为大于等于1且小于等于Z的整数；

步骤34，将通过步骤32获得的E_i(j)与第一阈值进行比较，将通过步骤33获得的R_i(j)与第二阈值进行比较，只有当E_i(j)小于所述第一阈值且R_i(j)大于第二阈值的情况下，才将采样后的第b_i路语音信号作为静音的语音信号。

4.根据权利要求1或2所述的一种多方通话的多模式语音合成方法，其特征在于：在步骤10中，是采用与各自的编码方法对应的解码方法对接收的M路语音信号进行解码。

5.根据权利要求1或2所述的一种多方通话的多模式语音合成方法，其特征在于：在步骤20中，Q为8或者16。

6.根据权利要求1或2所述的一种多方通话的多模式语音合成方法，其特征在于：在所述步骤20之后并且所述步骤30之前还具有对M路采样后的语音信号b_i进行去噪处理的步骤。

7.一种实现权利要求1-6中任意一项的多方通话的多模式语音合成方法的多方电话通话服务器，其特征在于所述多方电话通话服务器包括：所述多方电话通话服务器包括依次连接的输入单元、解码单元、采样单元、静音检测单元、语音合成单元、回声消除单元、编码单元、输出单元，其中：

所述输入单元，用于经由通信网络从M个通话方客户端接收M路语音信号，并将所述M路语音信号传输到解码单元，其中M为大于等于1的整数；

所述编码单元，用于按照各个通话方客户端的不同编码方式，对从回声消除单元接收的M路回声消除后的语音信号进行编码，获得M路编码后的语音信号，并将所述M路编码后的语音信号传输到输出单元；

8.根据权利要求7所述的多方电话通话服务器，其特征在于：在采样单元和静音检测单元之间连接一个去噪单元，用于对从所述采样单元接收的M路采样后的语音信号进行去噪处理。

9.一种多方通话的多模式语音合成系统，其特征在于所述系统包括：主席客户端，与主席客户端通信连接的管理服务器，与主席客户端、管理服务器以及多个参会客户端分别通信连接的多方电话通话服务器，以及与多方电话通话服务器通信连接的多个参会客户端，所述管理服务器与所述多方电话通话服务器之间进行数据的双向交互，其中所述多方电话通话服务器采用权利要求7-8中任意一项所述的多方电话通话服务器。