CN110060696B

CN110060696B - 混音方法及装置、终端及可读存储介质

Info

Publication number: CN110060696B
Application number: CN201810052740.8A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2021-06-15
Anticipated expiration: 2038-01-19
Also published as: CN110060696A

Abstract

本发明公开了一种混音方法及装置、终端及可读存储介质，方法包括：获取待混音的各方语音信号，基于混音信号的信噪比最优原则，计算各方语音信号的第一混音权重，利用该各方语音信号及各方语音信号的第一混音权重进行混音处理，得到混音信号。相对于现有技术，通过基于混音得到的混音信号的信噪比最优原则，确定混音时各方语音信号的第一混音权重，使得混音之后的混音信号的信噪比最优，即最大化，其中，混音信号的信噪比最优原则使得信噪比小的一方语音信号的混音权重相应的较小，信噪比大的一方语音信号的混音权重相应的较大，降低混音使用到的语音信号的噪声对混音后的混音信号的影响，提高多方通话的通话质量。

Description

混音方法及装置、终端及可读存储介质

技术领域

本发明涉及音频技术领域，尤其涉及一种混音方法及装置、终端及可读存储介质。

背景技术

混音是指多方通话场景下，将多人的音频混合成一个混音信号的过程，混音主要应用在语音会议，在线多人聊天等多方通话场景中。

多方通话无论是在传统的电信网络通讯还是互联网协议语音技术(Voice OverInternet Protocol，VOIP)通信应用中都是重要的沟通需求。多方通话过程中各通话方利用终端设备进行语音接入，将语音信号发送给混音模块，混音模块的作用就是将除待发送的目标方以外的其他各方的有效语音进行混音处理，并将混音信号发送给目标方，进而目标方的用户可以听到其他各方的声音，其他方亦然。

然而，目前在多方通话中，存在多方通话的通话质量差的问题。

发明内容

本发明的主要目的在于提供一种混音方法及装置、终端及可读存储介质，旨在解决现有技术中多方通话存在通话质量差的技术问题。

为实现上述目的，本发明第一方面提供混音方法，包括：

获取待混音的各方语音信号；

计算所述各方语音信号的语音能量，并对所述各方语音信号包含的噪声进行能量跟踪，得到所述各方语音信号的噪声能量；

基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重；

利用所述各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到混音信号。

为实现上述目的，本发明第二方面提供混音装置，包括：

第一获取模块，用于获取待混音的各方语音信号；

第一计算模块，用于计算所述各方语音信号的语音能量，并对所述各方语音信号包含的噪声进行能量跟踪，得到所述各方语音信号的噪声能量；

第二计算模块，用于基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重；

第一混音模块，用于利用所述各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到混音信号。

为实现上述目的，本发明第三方面提供一种终端，包括：存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如本发明实施例第一方面提供的混音方法中的各个步骤。

为实现上述目的，本发明第四方面提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如本发明第一方面提供的混音方法中的各个步骤。

本发明提供一种混音方法，包括：获取待混音的各方语音信号，基于混音信号的信噪比最优原则，计算各方语音信号的第一混音权重，利用该各方语音信号及各方语音信号的第一混音权重进行混音处理，得到混音信号。相对于现有技术，通过基于混音得到的混音信号的信噪比最优原则，确定混音时各方语音信号的第一混音权重，使得混音之后的混音信号的信噪比最优，即最大化，其中，混音信号的信噪比最优原则使得信噪比小的一方语音信号的混音权重相应的较小，信噪比大的一方语音信号的混音权重相应的较大，降低混音使用到的语音信号的噪声对混音后的混音信号的影响，提高多方通话的通话质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例中多方通话场景的示意图；

图1b为本发明实施例中混音方法的一流程示意图；

图2为本发明实施例中混音方法的另一流程示意图；

图3为本发明实施例中混音方法的另一流程示意图；

图4a为本发明实施例中混音方法的另一流程示意图；

图4b为本发明实施例中多方通话场景下的混音方法的示意图；

图4c为本发明实施例中多方通话场景下的混音方法的另一示意图；

图5为本发明实施例中混音装置的一结构示意图；

图6为本发明实施例中混音装置的另一结构示意图；

图7为本发明实施例中混音装置的另一结构示意图；

图8为本发明实施例中混音装置的另一结构示意图；

图9为一种终端的结构框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术中多方通话存在通话质量差的技术问题。

为了解决上述问题，本发明提出一种混音方法，通过基于混音得到的混音信号的信噪比最优原则，确定混音时各方语音信号的第一混音权重，使得混音之后的混音信号的信噪比最优，即最大化，其中，混音信号的信噪比最优原则可以使得信噪比小的一方语音信号的混音权重相应的较小，信噪比大的一方语音信号的混音权重相应的较大，降低混音使用到的语音信号的噪声对混音后的混音信号的影响，提高多方通话的通话质量。

现有技术中的混音方式主要考虑的因素是各语音输入方的响度的分配的公平合理性，但本发明技术人员发现，影响实际通话的不仅仅是响度，噪声也是通话过程中干扰收听者接收语音信息的重要因素，其中，噪声可能来源于语音输入方的背景环境，可能来源于传输及解码过程产生的杂音，可能是终端设备的电路引入的噪声。由于来自不同语音输入方的噪声大小、噪声类型等各有不同，而各语音输入方使用的终端设备的降噪效果差异较大，使得只要有一方输入的语音包含的噪声能量较大，将导致其他所有接收方接收到的混音信号包含的噪声较大，且其他语音输入方输入的通话者声音被淹没而听不清或者辨识度大幅下降，从而影响通话质量，本发明技术人员创造性的提出了混音信号的信噪比最优原则，从信噪比的角度提高通话质量。

在本发明实施例中，混音方法适用于会议系统、多人聊天系统等等多方通话场景下，请参阅图1a，为多方通话场景的示意图，具体为四方通话场景，具有4个通话方。混音方法可以由混音装置实现，该混音装置为程序模块，存储于终端的可读存储介质中，终端内的处理器可以调用该混音装置，以实现上述混音方法，其中，上述终端可以为用户侧终端，例如智能手机、平板电脑、PAD、可穿戴设备等等，也可以为服务侧终端，例如，服务器。

请参阅图1b，为本发明实施例中混音方法的流程示意图，该方法包括：

步骤101、获取待混音的各方语音信号；

上述混音装置将获取待混音的各方语音信号。在多方通话场景下，每一方都有对应一条语音通路，通过该语音通路向服务器发送该方的语音信号。其中，该待混音的各方语音信号为当前帧待混音的各方语音信号，为了方便描述，可以将第t帧作为当前帧。

若上述混音装置属于服务器，则该混音装置将接收到多方通话场景下的多方语音信号，并对每一方语音信号进行分帧处理，将每一方语音信号分为多帧，此处，以第t帧为例，即可获取到第t帧时该多方的语音信号，并针对混音信号的接收方，确定多方通话中的除该接收方以外的其他各方对应的语音信号作为上述第t帧待混音的多方语音信号(在接收方接收到的混音信号中，不需要包含接收方本身的语音信号)，例如，若是进行4人通话，分别为A方、B方、C方、D方，则服务器将获取到第t帧A方至D方共四方的语音信号，在混音信号是需要发送给A方的通话方时，确定待混音的是B方、C方及D方的语音信号，在混音信号是需要发送给C方的通话方时，确定待混音的是A方、B方及D方的语音信号。

若上述混音装置属于用户侧终端，则在多方通话场景下，服务器仍然将接收多方语音信号，并确定接收混音信号的接收方，将除接收方以外的其他方的语音信号发送给接收方所在的终端，如智能手机、PAD、电脑、可穿戴设备等等。接收方所使用的终端内的混音装置将获取到待混音的各方语音信号，并对该各方语音信号进行分帧处理，将各方语音信号分为多帧，此处以第t帧为例，混音装置将得到上述第t帧待混音的各方语音信号，例如，在4人通话场景下，A方、B方、C方及D方所使用的智能手机将分别采集A方至D方共四方的语音信号，并发送给服务器，服务器接收到A方至D方共四方的语音信号后，将B方、C方及D方的语音信号发送给A方所使用的智能手机，由A方所使用的智能手机实现B方、C方及D方这三方的语音信号的混音，其他方同理。

其中，分帧是按照预置时长进行划分，例如将20ms作为一帧，若一方所使用的用户侧终端采集到100ms的语音信号，则该100ms的语音信号可以划分为5帧语音信号。

步骤102、计算所述各方语音信号的语音能量，并对所述各方语音信号包含的噪声进行能量跟踪，得到所述各方语音信号的噪声能量；

在本发明实施例中，混音装置在得到待混音的各方语音信号之后，计算该各方语音信号的语音能量，并将对该各方语音信号进行语音特征分析，确定各方语音信号中的噪声。其中，噪声通常有特定的特征，可以基于噪声的语音特征从各方语音信号中确定噪声。

进一步的，将对各方语音信号包含的噪声进行能量跟踪，得到各方语音信号的噪声能量，其中，能量是指功率谱，计算各方语音信号的语音能量即计算各方语音信号的功率谱，对噪声进行能量跟踪即为计算各方语音信号包含的噪声的功率谱。

需要说明的是，对于一帧语音信号，可以包含噪声和有效语音，有效语音通常是指通话者的语音，由于常规应用场景下，语音信号中的有效语音和噪声可以视为互相独立的不相关信号，语音信号为有效语音与噪声的线性叠加结果。因此，本发明实施例中的语音能量为语音信号的有效能量与噪声能量的和。

步骤103、基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重；

步骤104、利用所述各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到混音信号。

在本发明实施例中，为了降低混音使用到的各方语音信号的噪声对混音之后的混音信号的影响，本技术方案的发明人创造性的提出了混音信号的信噪比最优原则，通过调整混音时各方语音信号的第一混音权重，使得信噪比大的语音信号具有较大的第一混音权重，信噪比小的语音信号具有较小的第一语音权重，使得混合之后得到的混音信号的信噪比最大化。

其中，信噪比的英文名称为SNR或S/N(Signal-Noise Ratio)，是语音信号与噪声的比例，通常情况下，一个语音信号的信噪比越大，表明该语音信号越好，信噪比越小，表明该语音信号越差。

在本发明实施例中，混音装置将基于混音信号的信噪比最优原则，计算各方语音信号的第一混音权重，并利用各方语音信号及该各方语音信号的第一混音权重进行混音处理，得到混音信号。

可以理解的是，在得到第t帧的混音信号之后，若该混音装置属于服务器，则该服务器将第t帧的混音信号发送给接收方，例如，若该第t帧的混音信号中未使用到第j方的语音信号，则表明该混音信号的接收方为第j方，且该混音信号发送给第j方所使用的用户侧终端并播放。若该混音装置属于用户侧终端，则在得到第t帧的混音信号之后，播放该第t帧的混音信号。

具体的，可采用如下公式(1)进行混音处理：

其中，b_j(t)表示混音得到的第t帧且属于第j方的混音信号，M表示多方通话场景下的方数(例如，若为5人通话，则M为5)，a_i(t)表示第i方对应的第t帧的语音信号，W_ij(t)表示在需要混音得到第t帧且属于第j方的混音信号时，第i方的混音权重(在本实施例中可以为上述的第一混音权重)。其中，属于第j方是指需要由第j方播放，其中，方数是指通话方的数量。

可以理解的是，可以通过上述方法得到多人通话中各方在第t帧的混音信号，并进行播放，使得能够实现一方能够听到其他方语音，实现多方通话，且通过控制混音信号的信噪比的方式，能够通过最优的方式配置各方语音信号的混音权重，使得用户说话的声音能够尽量被听到，且不会因为一方语音信号的信噪比小而造成混音信号的噪声过大的问题。

需要说明的是，本发明实施例中的“各方语音信号”中的“各方”是指待混音的，而非指多方通话的总方数，且比多方通话的总方数少1。

在本发明实施例中，获取第t帧待混音的各方语音信号，该t为正整数，基于混音信号的信噪比最优原则，计算所述各方语音信号的第一混音权重，利用该各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到第t帧的混音信号。相对于现有技术，通过基于混音得到的混音信号的信噪比最优原则，确定混音时各方语音信号的第一混音权重，使得混音之后的混音信号的信噪比最优，即最大化，使得信噪比小的一方语音信号的混音权重相应的较小，信噪比大的一方语音信号的混音权重相应的较大，降低混音使用到的语音信号的噪声对混音后的混音信号的影响，提高多方通话的通话质量。

请参阅图2，为本发明实施例中混音方法的流程示意图，包括：

步骤201、获取待混音的各方语音信号；

步骤202、计算所述各方语音信号的语音能量，并对所述各方语音信号包含的噪声进行能量跟踪，得到所述各方语音信号的噪声能量；

可以理解的是，步骤201与步骤202描述的内容分别与图1b所示步骤101及步骤102描述的内容相似，此处不做赘述。

步骤203、利用所述各方语音信号的语音能量和噪声能量，得到混音综合信噪比表达式，所述混音综合信噪比表达式中的变量包括混音信号的信噪比及所述各方语音信号的第一混音权重；

步骤204、利用预置的寻优算法对所述混音综合信噪比表达式进行求解，得到在所述混音信号的信噪比最大时，所述各方语音信号的第一混音权重；

在本发明实施例中，混音装置利用将各方语音信号的有效能量及噪声能量，得到混音综合信噪比表达式，且混音综合信噪比的表达式如公式(2)或者公式(3)：

其中，SNR_j(t)表示第t帧发送给第j方的混音信号的信噪比，En_Speech_i(t)表示第i方的语音信号的语音能量，En_Noise_i(t)表示第t帧第i方语音信号的噪声能量，M-1表示第t帧除第j方以外的待混音的方数，W_ij(t)表示在需要混音得到发送给第j方的混音信号时，第i方的语音信号的第一混音权重，M表示通话方的总数，i表示第i方，且i为1至M中的任意一个数。

在本发明实施例中，在上述混音综合信噪比表达式中，混音信号的信噪比的值SNR_j(t)，及各方语音信号的第一混音权重为变量，需要求解该两类变量。

为了求解上述两类变量，混音装置将利用寻优算法对上述混音综合信噪比表达式进行求解，得到在混音信号的信噪比最大时，各方语音信号的第一混音权重。

其中，上述寻优算法可以为粒子群算法、遗传算法(Genetic Algorithm GA)等等。粒子群算法也称为粒子群优化算法或鸟群觅食算法(Particle Swarm Optimization，PSO)，是一种新的进化算法，它是从随机解出发，通过迭代寻找最优解。其中，遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。本发明实施例中，是在混音信号的信噪比的值最大的条件下，利用上述的粒子群算法或者遗传算法寻求各方语音信号的第一混音权重的最优值。

需要说明的是，为了避免单方语音信号的第一混音权重值过大或者过小，可以设定混音权重范围，例如，可以设置为[0.2，3]，且若设置该混音权重范围，则在上述寻求最优值的过程中，将使用到该范围寻求在该范围内各方语音信号的第一混音权重的最优值。

步骤205、利用所述各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到混音信号。

在本发明实施例中，步骤205具体可以参阅图1b所示实施例中的步骤104，且与步骤104描述的内容相似，此处不做赘述。

在本发明实施例中，在获取到待混音的各方语音信号之后，计算各方语音信号的语音能量，并对各方语音信号包含的噪声进行能量跟踪，得到各方语音信号的语音能量及噪声能量，并利用各方语音信号的语音能量和噪声能量，得到混音综合信噪比表达式，该混音综合信噪比表达式中的变量包括混音信号的信噪比的值及各方语音信号的第一混音权重，利用预置的寻优算法对上述混音综合信噪比表达式进行求解，得到在上述混音信号的信噪比最大时，各方语音信号的第一混音权重，利用该各方语音信号及各方语音信号的第一混音权重进行混音处理，得到混音信号，通过使用待混音的语音能量和噪声能量，并基于混音信号的信噪比的值最大的原则，求解各方语音信号的最优的第一混音权重，降低混音使用到的语音信号的噪声对混音后的混音信号的影响，提高多方通话的通话质量。

可以理解的是，在基于第一混音权重得到混音信号之后，可以将混音信号作为最终的混音信号，进一步的，为了能够得到更优的混音信号，还可以对上述的第一混音权重进行优化，例如，可以利用溢出门限值进行优化，如图3所示，也可以通过平滑处理的方式进行优化，如图4a所示，下面将分别进行介绍。

请参阅图3，为本发明实施例中混音方法的流程示意图，包括：

步骤301、获取待混音的各方语音信号；

步骤302、计算所述各方语音信号的语音能量，并对所述各方语音信号包含的噪声进行能量跟踪，得到所述各方语音信号的噪声能量；

步骤303、基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重；

步骤304、利用所述各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到混音信号；

可以理解的是，步骤301至步骤304分别与图1b所述实施例中的步骤101至步骤104相似，可以参阅图1b所示实施例中的内容，进一步的还可以参阅图2所示实施例中的内容，此处不做赘述。

步骤305、根据溢出门限值及所述混音信号，对所述各方语音信号的第一混音权重进行修正，得到所述各方语音信号的第二混音权重；

步骤306、利用所述各方语音信号及所述各方语音信号的第二混音权重进行混音处理，得到修正后的混音信号。

在本发明实施例中，预先设置溢出门限值，该溢出门限值为混音信号的样点值允许的最大值，若混音信号的最大样点值大于该溢出门限值，则表明产生溢出，播放该混音信号将带来噪声，影响通话质量。因此，混音装置可以根据溢出门限值与混音信号，对各方语音信号的第一混音权重进行修正，得到各方语音信号的第二混音权重，以避免溢出问题。具体的，混音装置将确定混音信号的最大样点值，当该最大样点值大于溢出门限值时，利用溢出门限值与上述最大样点值的比值，对所述各方语音信号的第一混音权重进行修正，得到各方语音信号的第二混音权重。

进一步的，以当前帧为第t帧为例，第t帧的混音信号可以使用图1b所示实施例中的公式(1)计算得到，且可进一步得到第t帧的混音信号的最大样点值，并利用如下公式(4)计算各方语音信号的第二混音权重：

其中，W_ij′(t)表示在需要混音得到发送给第j方的混音信号时，第i方的语音信号修正后的第二混音权重，W_ij(t)表示在需要混音得到发送给第j方的混音信号时，第i方语音信号的第一混音权重，bpre_j(t)表示基于第一混音权重混音得到的混音信号的最大样点值，Thres_over表示溢出门限值。

可以理解的是，混音信号是数字信号，一帧混音信号是由多个样点值构成的，其中，样点值用于表示幅值，因此，混音信号的最大样点值可以理解为混音信号的最大幅值。

可以理解的是，在得到各方语音信号的第二混音权重之后，可以利用各方语音信号及各方语音信号的第二混音权重进行混音处理，得到第t帧修正后的混音信号，且该修正后的混音信号可以作为最终的混音信号使用。其中，混音处理可以使用公式(1)。

在本发明实施例中，通过利用溢出门限值及基于第一混音权重混音得到的混音信号的最大样点值，对第一混音权重进行修正，使得能够有效的避免溢出问题。

请参阅图4a，为本发明实施例中混音方法的流程示意图，包括：

步骤401、获取待混音的各方语音信号；

步骤402、计算所述各方语音信号的语音能量，并对所述各方语音信号包含的噪声进行能量跟踪，得到所述各方语音信号的噪声能量；

步骤403、基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重；

可以理解的是，步骤401至步骤403分别与图1b所述实施例中的步骤101至步骤103相似，可以参阅图1b所示实施例中的内容，进一步的还可以参阅图2所示实施例中的内容，此处不做赘述。

步骤404、获取前一帧混音时各方语音信号的实际混音权重；

步骤405、根据所述前一帧各方语音信号的实际混音权重，对所述各方语音信号的第一混音权重进行平滑处理，得到所述各方语音信号的第三混音权重；

步骤406、利用所述各方语音信号及所述各方语音信号的第三混音权重进行混音处理，得到所述第t帧平滑处理后的混音信号。

在本发明实施例中，在得到各方语音信号的第一混音权重之后，为了避免混音信号中出现突然增大的语音或者突然降低的语音，将对各方语音信号的第一混音权重进行平滑处理。

其中，以当前帧为第t帧为例，则前一帧为第t-1帧，混音装置将获取第t-1帧混音时该各方语音信号的实际混音权重，该实际混音权重是指最终播放的第t-1帧的混音信号在混音时各方语音信号的混音权重，并利用第t-1帧各方语音信号的实际混音权重，对第t帧各方语音信号的第一混音权重进行平滑处理，得到第t帧各方语音信号的第三混音权重。

其中，为平滑处理预先设置第一系数及第二系数，且该第一系数与第二系数的和为1。

其中，平滑处理的方式如下：

对于第i方，将前一帧(第t-1帧)第i方的语音信号的实际混音权重与第一系数的乘积，加上第t帧第i方的混音信号的第一混音权重与第二系数的乘积，得到第t帧第i方的第三方混音权重，其中，i为1至N，N为待混音的总方数。例如，若有4方的语音信号需要进行混音，则依次基于上述方式计算该4方在第t帧的第三混音权重。

具体的，平滑处理的公式如下：

W_ij”(t)＝aW_ij(t-1)+bW_ij(t)

其中，W_ij”(t)表示第t帧第i方平滑处理后的第三混音权重，W_ij(t-1)表示第t-1帧第i方的语音信号的实际混音权重，W_ij(t)表示第t帧第i方的语音信号的第一混音权重，a表示第一系数，b表示第二系数。j表示混音信号的接收方。

进一步的，a、b的取值范围均为[0，1]，且a+b＝1。

在本发明实施例中，在基于混音信号的信噪比最优原则，得到第一混音权重之后，利用前一帧混音时使用到的实际混音权重，对该第一混音权重值进行平滑处理，使得相邻两帧属于同一方的语音信号的变化不大，不会出现某一方语音信号突然增大或者突然降低的情况，进一步提高多方通话的通话质量，确保用户的通话体验。

可以理解的是，在本发明实施例中，在得到第一混音权重之后，还可以结合溢出门限值及平滑处理的方式进行优化，具体可以为，在得到第一混音权重之后，先基于溢出门限值进行修正，再对修正后的混音权重进行平滑处理。或者，在得到第一混音权重之后，先对第一混音权重进行平滑处理，再对平滑处理之后的混音权重利用溢出门限值进行修正。在实际应用中，可基于具体的情况确定是否需要对第一混音权重进行优化，及优化使用的方式，此处不做赘述。

为了更好的理解本发明实施例中的技术方案，请参阅图4b，图4b为多方通话场景下，由服务器实现上述混音方法的示意图。其中，图4b中为4方通话场景，参与通话的分别是通话方A、通话方B、通话方C及通话方D，其采集到的语音信号分别为语音信号A、语音信号B、语音信号C及语音信号D，并均发送给服务器，服务器在接收到语音信号A至D之后，将对语音信号A至D进行分帧处理，得到当前帧的语音信号a至d，且将基于混音信号的信噪比最优原则，将语音信号a至c混音得到混音信号D，并将该混音信号D反馈给通话方D，将语音信号b至d混音得到混音信号A，并将该混音信号A反馈给通话方A，将语音信号a、b及d混音得到混音信号C，并将该混音信号C反馈给通话方C，将语音信号a、c及d混音得到混音信号B，并将该混音信号B反馈给通话方C，使得每一方的通话方都将接收到不包含其自身的语音的混音信号，且该混音信号的信噪比最优。其中，基于混音信号的信噪比最优原则的混音方法具体可参阅图1b至图4a所示实施例中描述的技术方案，此处不做赘述。

此外，还可以由通话方所使用的用户侧终端实现上述混音方法，请参阅图4c，图4c为多方通话场景下，由智能手机实现上述混音方法的示意图，其中，图4c为4方通话场景，参与通话的分别是通话方A、通话方B、通话方C及通话方D，其采集到的语音信号分别为语音信号A、语音信号B、语音信号C及语音信号D，并均发送给服务器，服务器在接收到语音信号A至D之后，将基于通话方发送语音信号，具体的，针对通话方A，将语音信号B至D发送给通话方A，针对通话方B，将语音信号A、C及D发送给通话方B，针对通话方C，将语音信号A、B及D发送给通话方C，针对通话方D，将语音信号A至C发送给通话方D，接收到其他通话方的语音信号之后，通话方将接收到的语音信号进行分帧处理，得到当前帧的语音信号，并基于混音信号的信噪比最优的原则，进行混音处理，得到混音信号，例如，对于通话方A，通话方A的智能手机将对语音信号B至D进行分帧处理，得到当前帧待混音的语音信号b至d，并基于混音信号的信噪比最优原则，得到混音信号A。可以理解的是，其他通话方，如通话方B、C及D也是按照上述方式进行混音，分别得到混音信号B、混音信号C及混音信号D。其中，基于混音信号的信噪比最优原则的混音方法具体可参阅图1b至图4a所示实施例中描述的技术方案，此处不做赘述。

请参阅图5，为本发明实施例中混音装置的程序模块的结构示意图，包括：

第一获取模块501，用于获取待混音的各方语音信号；

第一计算模块502，用于基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重。

第二计算模块503，用于基于混音信号的信噪比最优原则，计算所述各方语音信号的第一混音权重；

第一混音模块504，用于利用所述各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到混音信号。

其中，分帧是按照预置时长进行划分，例如将20ms作为一帧，若一方所使用的终端采集到100ms的语音信号，则该100ms的语音信号可以划分为5帧语音信号。

在本发明实施例中，第二计算模块503将基于混音信号的信噪比最优原则，计算各方语音信号的第一混音权重，并由第一混音模块504利用各方语音信号及该各方语音信号的第一混音权重进行混音处理，得到混音信号。

请参阅图6，为本发明实施例中混音装置的程序模块的结构示意图，包括：

如图5所示实施例中的第一获取模块501、第一计算模块502、第二计算模块503及第一混音模块504，且与图5所示实施例中描述的技术方案相似，此处不做赘述。

在本发明实施例中，第一获取模块501在得到第t帧待混音的各方语音信号之后，计算该各方语音信号的语音能量，并将对该各方语音信号进行语音特征分析，确定各方语音信号中的噪声。其中，噪声通常有特定的特征，可以基于噪声的语音特征从各方语音信号中确定噪声。

进一步的，将对各方语音信号包含的噪声进行能量跟踪，得到各方语音信号的噪声能量，其中，能量是指功率谱，计算各方语音信号的语音能量即计算第t帧各方语音信号的功率谱，对噪声进行能量跟踪即为计算第t帧各方语音信号包含的噪声的功率谱。

具体的，第一计算模块502包括：

表达式模块601，用于利用所述各方语音信号的语音能量和噪声能量，得到混音综合信噪比表达式，所述混音综合信噪比表达式中的变量包括混音信号的信噪比及所述各方语音信号的第一混音权重；

求解模块602，用于利用预置的寻优算法对所述混音综合信噪比表达式进行求解，得到在所述混音信号的信噪比最大时，所述各方语音信号的第一混音权重。

其中，上述寻优算法可以为粒子群算法、遗传算法(Genetic Algorithm GA)等等。粒子群算法也称为粒子群优化算法或鸟群觅食算法(Particle Swarm Optimization，PSO)，是一种新的进化算法，它是从随机解触发，通过迭代寻找最优解。其中，遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。本发明实施例中，是在混音信号的信噪比的值最大的条件下，利用上述的粒子群算法或者遗传算法寻求各方语音信号的第一混音权重的最优值。

在本发明实施例中，在获取到待混音的各方语音信号之后，对各方语音信号包含的有效语音及噪声进行能量跟踪，得到各方语音信号的语音能量及噪声能量，并利用各方语音信号的语音能量和噪声能量，得到混音综合信噪比表达式，该混音综合信噪比表达式中的变量包括混音信号的信噪比的值及各方语音信号的第一混音权重，利用预置的寻优算法对上述混音综合信噪比表达式进行求解，得到在上述混音信号的信噪比最大时，各方语音信号的第一混音权重，利用该各方语音信号及各方语音信号的第一混音权重进行混音处理，得到混音信号，通过使用待混音的语音能量和噪声能量，并基于混音信号的信噪比的值最大的原则，求解各方语音信号的最优的第一混音权重，降低混音使用到的语音信号的噪声对混音后的混音信号的影响，提高多方通话的通话质量。

请参阅图7，为本发明实施例中混音装置的程序模块的结构示意图，包括：

上述装置还包括：

修正模块701，用于在第一混音模块504之后，根据溢出门限值及所述混音信号，对所述各方语音信号的第一混音权重进行修正，得到所述各方语音信号的第二混音权重；

第二混音模块702，用于利用所述各方语音信号及所述各方语音信号的第二混音权重进行混音处理，得到修正后的混音信号。

在本发明实施例中，预先设置溢出门限值，该溢出门限值为混音信号的最大样点值允许的最大值，若混音信号的最大样点值大于该溢出门限值，则表明产生溢出，播放该混音信号将带来噪声，影响通话质量。因此，混音装置可以根据溢出门限值与第t帧的混音信号，对各方语音信号的第一混音权重进行修正，得到各方语音信号的第二混音权重，以避免溢出问题。具体的，修正模块701将计算第t帧的混音信号的最大样点值，当该最大样点值大于溢出门限值时，利用溢出门限值与上述最大样点值的比值，对所述各方语音信号的第一混音权重进行修正，得到各方语音信号的第二混音权重。

请参阅图8，为本发明实施例中混音装置的程序模块的结构示意图，包括：

在本发明实施例中，装置还包括：

第二获取模块801，用于在第二计算模块503之后，获取前一帧混音时各方语音信号的实际混音权重；

平滑模块802，用于根据所述前一帧各方语音信号的实际混音权重，对各方语音信号的第一混音权重进行平滑处理，得到所述各方语音信号的第三混音权重；

且第一混音模块504具体用于：

利用第t帧的各方语音信号及所述第t帧的各方语音信号的第三混音权重进行混音处理，得到所述第t帧平滑处理后的混音信号。

其中，为平滑处理预先设置第一系数及第二系数，用于实现平滑处理。

其中，平滑处理的方式如下：

对于第i方，将第t-1帧第i方的语音信号的实际混音权重与第一系数的乘积，加上第t帧第i方的混音信号的第一混音权重与第二系数的乘积，得到第t帧第i方的第三方混音权重，其中，i为1至N，N为待混音的总方数。例如，若有4方的语音信号需要进行混音，则依次基于上述方式计算该4方在第t帧的第三混音权重。

其中，预先设置第一系数及第二系数，且第一系数与第二系数的和为1。

具体的，平滑处理的公式如下：

W_ij”(t)＝aW_ij(t-1)+bW_ij(t)

进一步的，a和b的取值范围为[0，1]，且a+b＝1。

在本发明实施例中，还提供一种终端，包括：存储器、处理器及存储在存储器上且在处理器上运行的计算机程序，该处理器执行计算机程序时，实现上述图1b至图4a所示任一实施例中的混音方法中的各个步骤。

此外，还提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述图1b至图4a所示任一实施例中混音方法中的各个步骤

可以理解的是，在本发明实施例中，上述的混音装置是一种终端，该终端具体可以是服务器或者用户侧终端，如智能手机、平板电脑、PAD、可穿戴设备等等，为了更好的理解本发明实施例中的技术方案，请参阅图9，为本发明实施例中终端90的结构示意图。该终端90包括处理器901、存储器902和收发器903，存储器902可以包括只读存储器和随机存取存储器，并向处理器901提供操作指令和数据。存储器902的一部分还可以包括非易失性随机存取存储器(NVRAM)。

在一些实施方式中，存储器902存储了如下的元素：可执行模块或者数据结构，或者他们的子集，或者他们的扩展集。

在本发明实施例中，通过调用存储器902存储的操作指令(该操作指令可存储在操作系统中)，执行以下过程：获取待混音的各方语音信号；基于混音信号的信噪比最优原则，计算所述各方语音信号的第一混音权重；利用所述各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到所述第t帧的混音信号。

与现有技术中，本发明实施例提供的终端，通过基于混音得到的混音信号的信噪比最优原则，确定混音时各方语音信号的第一混音权重，使得混音之后的混音信号的信噪比最优，即最大化，使得信噪比小的一方语音信号的混音权重相应的较小，信噪比大的一方语音信号的混音权重相应的较大，降低混音使用到的语音信号的噪声对混音后的混音信号的影响，提高多方通话的通话质量。

其中，处理器901控制终端90的操作，处理器901还可以称为CPU(CentralProcessing Unit，中央处理单元)。存储器902可以包括只读存储器和随机存取存储器，并向处理器901提供指令和数据。存储器902的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中终端90的各个组件通过总线系统904耦合在一起，其中总线系统904除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统904。

上述本发明实施例揭示的方法可以应用于处理器901中，或者由处理器901实现。处理器901可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器910可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902，处理器901读取存储器902中的信息，结合其硬件完成上述方法的步骤。

以上的终端90可以参阅图1b至图4a所示实施例的描述进行理解，本处不做过多赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种混音方法及装置、终端及可读存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种混音方法，其特征在于，所述方法包括：

获取待混音的各方语音信号；

基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重，其中，混音信号的信噪比最优原则使得信噪比小的一方语音信号的第一混音权重相应的较小，信噪比大的一方语音信号的第一混音权重相应的较大；

获取前一帧混音时各方语音信号的实际混音权重；

对于第i方，将所述前一帧第i方的语音信号的实际混音权重与第一系数的乘积，加上所述第i方的混音信号的第一混音权重与第二系数的乘积，得到所述第i方的第三混音权重，所述i为1至N，N为待混音的总方数，所述第一系数与第二系数的和为1；

利用所述各方语音信号及所述各方语音信号的第三混音权重进行混音处理，得到平滑处理后的混音信号。

2.根据权利要求1所述的方法，其特征在于，所述基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重，包括：

利用所述各方语音信号的语音能量和噪声能量，得到混音综合信噪比表达式，所述混音综合信噪比表达式中的变量包括混音信号的信噪比及所述各方语音信号的第一混音权重；

利用预置的寻优算法对所述混音综合信噪比表达式进行求解，得到在所述混音信号的信噪比最大时，所述各方语音信号的第一混音权重。

3.根据权利要求2所述的方法，其特征在于，所述混音综合信噪比表达式为：

或者，所述混音综合信噪比表达式为：

其中，SNR_j(t)表示第t帧发送给第j方的混音信号的信噪比，En_Speech_i(t)表示第t帧第i方的语音信号的语音能量，En_Noise_i(t)表示第t帧第i方的语音信号的噪声能量，M-1表示第t帧除第j方以外的待混音的方数，W_ij(t)表示在需要混音得到发送给第j方的混音信号时，第i方的语音信号的第一混音权重，M表示通话方的总数，i表示第i方，且i为1至M中的任意一个数。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述利用所述各方语音信号及所述各方语音信号的第一混音权重进行混音处理，得到混音信号之后，还包括：

根据溢出门限值及所述混音信号，对所述各方语音信号的第一混音权重进行修正，得到所述各方语音信号的第二混音权重；

利用所述各方语音信号及所述各方语音信号的第二混音权重进行混音处理，得到修正后的混音信号。

5.根据权利要求4所述的方法，其特征在于，所述根据溢出门限值及所述混音信号，对所述各方语音信号的第一混音权重进行修正，得到所述各方语音信号的第二混音权重，包括：

确定所述混音信号的最大样点值；

当所述最大样点值大于所述溢出门限值时，利用所述溢出门限值与所述最大样点值的比值，对所述各方语音信号的第一混音权重进行修正，得到所述各方语音信号的第二混音权重。

6.一种混音装置，其特征在于，所述装置包括：

第一获取模块，用于获取待混音的各方语音信号；

第二获取模块，用于在所述第一计算模块之后，获取前一帧混音时各方语音信号的实际混音权重；

平滑模块，用于获取前一帧混音时各方语音信号的实际混音权重；

第二计算模块，用于基于混音信号的信噪比最优原则，利用所述各方语音信号的语音能量和噪声能量，计算所述各方语音信号的第一混音权重，其中，混音信号的信噪比最优原则使得信噪比小的一方语音信号的第一混音权重相应的较小，信噪比大的一方语音信号的第一混音权重相应的较大；

第一混音模块，用于利用所述各方语音信号及所述各方语音信号的第三混音权重进行混音处理，得到平滑处理后的混音信号。

7.根据权利要求6所述的装置，其特征在于，所述第二计算模块包括：

表达式模块，用于利用所述各方语音信号的语音能量和噪声能量，得到混音综合信噪比表达式，所述混音综合信噪比表达式中的变量包括混音信号的信噪比及所述各方语音信号的第一混音权重；

求解模块，用于利用预置的寻优算法对所述混音综合信噪比表达式进行求解，得到在所述混音信号的信噪比最大时，所述各方语音信号的第一混音权重。

8.根据权利要求7所述的装置，其特征在于，所述混音综合信噪比表达式为：

或者，所述混音综合信噪比表达式为：

9.根据权利要求6至8任意一项所述的装置，其特征在于，所述装置还包括：

修正模块，用于所述第一混音模块之后，根据溢出门限值及所述混音信号，对所述各方语音信号的第一混音权重进行修正，得到所述各方语音信号的第二混音权重；

第二混音模块，用于利用所述各方语音信号及所述各方语音信号的第二混音权重进行混音处理，得到修正后的混音信号。

10.一种终端，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至5任意一项所述的混音方法中的各个步骤。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至5任意一项所述的混音方法的各个步骤。