CN111816208A

CN111816208A - 一种语音分离质量评估方法、装置及计算机存储介质

Info

Publication number: CN111816208A
Application number: CN202010554752.8A
Authority: CN
Inventors: 叶林勇; 肖龙源; 李稀敏; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-23
Anticipated expiration: 2040-06-17
Also published as: CN111816208B

Abstract

本发明提出了一种语音分离质量评估方法、装置及计算机存储介质，所述方法包括：获取混合语音训练数据；对所述混合语音训练数据进行预处理，提取出所述混合语音训练数据的MFCC特征以训练生成语音分离模型；获取混合语音测试数据，所述混合语音测试数据中包括多条语音数据，所述语音数据中包括至少两条纯净语音数据；提取出所述语音数据的MFCC特征，将所述语音数据的MFCC特征输入语音分离模型，得到分离完成的单人语音数据；基于混合之前的所述纯净语音数据，计算并整合所述单人语音数据的质量参数，得到经过所述语音分离模型分离后的语音质量评估结果；通过算法整合计算分离后的语音质量评估结果，实现客观合理地进行分离结果质量评估。

Description

一种语音分离质量评估方法、装置及计算机存储介质

技术领域

本发明涉及音频信号处理技术领域，尤其涉及一种语音分离质量评估方法、装置及计算机存储介质。

背景技术

目前，在人们的通信交流或者留言中由于身处的环境不同或者通信设备的原因，在通信过程中难免会掺杂其他无关人员说话声或者噪声，基于声纹识别技术开发如今开发了语音分离技术，现有的语音分离技术对音频进行分离后的分离结果质量评估通常是通过人耳分辨主观判断，然而此质量评估方式效率低，同时受到人为的主观因素的影响，导致不能客观合理地进行分离结果质量评估。

发明内容

鉴于上述状况，实有必要提供一种语音分离质量评估方法、装置及计算机存储介质，以解决上述问题。

本发明提供了一种语音分离质量评估方法，所述方法包括：

获取混合语音训练数据；

对所述混合语音训练数据进行预处理，提取出所述混合语音训练数据的MFCC特征以训练生成语音分离模型；

获取混合语音测试数据，所述混合语音测试数据中包括多条语音数据，所述语音数据中包括至少两条纯净语音数据；

提取出所述语音数据的MFCC特征，将所述语音数据的MFCC特征输入语音分离模型，得到分离完成的单人语音数据；

基于混合之前的所述纯净语音数据，计算并整合所述单人语音数据的质量参数，得到经过所述语音分离模型分离后的语音质量评估结果。

进一步地，计算并整合所述单人语音数据的质量参数的过程具体包括：

分别计算从每条所述语音数据中分离完成的单人语音数据的质量参数；

对所述单人语音数据的质量参数进行评估整合，得到每条所述语音数据的质量评分；

对多条所述语音数据的质量评分进行加和并取平均值，得到经所述语音分离模型分离后的语音质量评估结果。

进一步地，所述单人语音数据的质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。

进一步地，对所述单人语音数据的质量参数进行评估整合的过程具体包括：

选取整合因子K1、K2、K3、K4，所述各个整合因子的总和等于1；

将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和，得到每条所述语音数据的质量评分。

进一步地，所述混合语音训练数据或混合语音测试数据可以是通过将目标说话人的纯净语音数据、其他无关说话人的纯净语音数据和噪声的语音数据进行混合得到。

进一步地，本发明还提供了一种语音分离质量评估装置，所述装置包括：

语音采集模块，用于采集需要进行分离的混合语音测试数据，所述混合语音测试数据中包括多条语音数据，所述语音数据中包括至少两条纯净语音数据；

特征提取模块，用于对所述混合语音测试数据进行预处理，提取出所述混合语音测试数据中语音数据的MFCC特征；

神经网络模块，所述神经网络模块中预设语音分离模型，所述神经网络模块用于对所述语音数据的MFCC特征进行处理，分离所述混合语音测试数据得到单人语音数据；

质量评估模块，用于计算并整合所述单人语音数据的语音质量参数，得到经过所述语音分离模型分离后的语音质量评估结果。

结果输出模块，用于输出经过所述语音分离模型分离后的语音质量评估结果。

进一步地，所述质量评估模块还包括：

参数生成模块，用于基于所述纯净语音数据，计算单人语音数据的质量参数；

参数整合模块，用于对所述单人语音数据的质量参数进行评估整合，得到每条所述语音数据的质量评分；

评分生成模块，用于将多条所述语音数据的质量评分加和并取平均值，得到经所述语音分离模型分离后的质量评估结果。

进一步地，所述语音质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。

进一步地，所述参数整合模块还包括：

整合因子模块，用于设置整合因子K1、K2、K3、K4，其中各个整合因子的总和等于1；

整合评分模块，用于将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和，得到每条所述语音数据的质量评分。

进一步地，本发明还提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行所述一种语音分离质量评估方法中所描述的部分或全部步骤。

本发明提供的一种语音分离质量评估方法、装置及计算机存储介质，通过提取所述混合语音训练数据的MFCC特征以训练生成所述语音分离模型，然后获取所述混合语音测试数据并提取出所述语音数据的MFCC特征，进而将所述语音数据的MFCC特征输入所述语音分离模型中得到分离完成的所述单人语音数据，最后基于混合之前的所述纯净语音数据，计算并整合所述单人语音数据的质量参数，得到经过所述语音分离模型分离后的语音质量评估结果，实现了语音分离，且通过算法自动计算经所述语音分离模型分离后的语音质量评估结果，避免了现有技术中通过人耳分辨主观判断，受到人为的主观因素的影响，导致不能客观合理地进行分离结果质量评估。

附图说明

图1是本发明的一个实施例中的一种语音分离质量评估方法的流程图。

图2是本发明的一个实施例中的一种语音分离质量评估方法中步骤S50的流程图。

图3是本发明的一个实施例中的一种语音分离质量评估装置的模块示意图。

图4是本发明的一个实施例中的一种语音分离质量评估装置中质量评估模块的组成示意图。

图5是本发明的一个实施例中的一种语音分离质量评估装置中参数整合模块的组成示意图。

主要元件符号说明

100 装置

110 语音采集模块

120 特征提取模块

130 神经网络模块

140 质量评估模块

141 参数生成模块

142 参数整合模块

1421 整合因子模块

1422 整合评分模块

143 评分生成模块

150 结果输出模块

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

请参阅图1，本发明提供了一种语音分离质量评估方法，所述方法包括以下步骤：

步骤S10、获取混合语音训练数据。

在本实施例中，在准备训练数据来训练递归神经网络模型时，所述混合语音训练数据可以是通过将目标说话人的纯净语音数据、其他无关说话人的纯净语音数据和噪声的语音数据进行混合得到，其中所述目标说话人的纯净语音数据、所述其他无关说话人的纯净语音数据和所述噪声的语音数据可以为一条也可以为多条。

步骤S20、对所述混合语音训练数据进行预处理，提取出所述混合语音训练数据的MFCC特征以训练生成语音分离模型。

在本实施例中，所述MFCC特征为梅尔频谱倒谱系数特征MFCC(Mel-frequencycepstral coefficient)。梅尔频率是基于人耳听觉特性提出来的，它与赫兹Hz频率成非线性对应关系。从说话人音频中提取MFCC特征一般包括以下步骤：预加重，分帧，加窗，傅里叶变换，梅尔滤波器组，离散余弦变换(DCT)等。其中预加重用于在一定程度提升高频部分，使信号的频谱变得平坦；分帧用于将语音按时间分成一系列帧；加窗步骤是采用窗函数增加帧左端和右端的连续性。接着，将音频进行傅里叶变换，从而将时域信号转换为频域信号。然后，利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上，从而获得梅尔频谱。之后，通过离散余弦变换获得梅尔频谱的倒谱系数，进而可以获得倒谱梅尔频谱。

进一步地，在进行机器学习及模型训练的过程中，输入数据为所述混合语音训练数据的MFCC特征，从而对所述语音分离模型中的判别器进行训练，完成对所述语音分离模型中的判别器进行参数固化，所述语音分离模型的预期输出数据为混合之前的所述目标说话人的纯净语音数据和/或所述其他无关说话人的纯净语音数据和/或所述噪声的语音数据。

步骤S30、获取混合语音测试数据，所述混合语音测试数据中包括多条语音数据，所述语音数据中包括至少两条纯净语音数据。

在本实施例中，所述混合语音测试数据可以是通过将目标说话人的纯净语音数据、其他无关说话人的纯净语音数据和噪声的语音数据进行混合得到，其中所述目标说话人的纯净语音数据、所述其他无关说话人的纯净语音数据和所述噪声的语音数据可以为一条也可以为多条。

步骤S40、提取出所述语音数据的MFCC特征，将所述语音数据的MFCC特征输入语音分离模型，得到分离完成的单人语音数据。

在本实施例中，通过将已提取出的所述语音数据的MFCC特征输入已训练生成的所述语音分离模型中数据输入端，所述语音分离模型完成对所述混合语音测试数据的语音分离，所述语音分离模型中数据输出端输出分离完成的所述单人语音数据。

步骤S50、基于混合之前的所述纯净语音数据，计算并整合所述单人语音数据的质量参数，得到经过所述语音分离模型分离后的语音质量评估结果。

在本实施例中，计算并整合所述单人语音数据的质量参数的过程具体包括如图2所述的步骤：

步骤S51、分别计算从每条所述语音数据中分离完成的单人语音数据的质量参数。

在本实施例中，所述单人语音数据的质量参数都是基于单人语音数据混合之前的纯净语音数据作为基准参考语音从而计算得出，所述单人语音数据的质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。

进一步地，所述单人语音数据的质量参数的具体计算表达式为：

其中，s_target为各个误差估计值的总和，e_interf为干扰的误差估计值，e_noise为噪声的误差估计值，e_artif为语音失真的误差估计值，由如下表达式计算得出：

其中，

为总误差的估计值，s_j为总误差的权重因子，n_i为噪声的权重因子，c_j为语音失真权重因子。

步骤S52、对所述单人语音数据的质量参数进行评估整合，得到每条所述语音数据的质量评分。

在本实施例中，对所述单人语音数据的质量参数进行评估整合的过程具体包括：

选取整合因子K1、K2、K3、K4，所述各个整合因子的总和等于1。将所述整合因子K1、K2、K3、K4与所述语音质量失真比SDR、所述语音质量干扰比SIR、所述语音质量噪声比SNR、所述语音质量伪造比SAR分别相乘并加和，得到每条所述语音数据的质量评分。

进一步地，所述整合因子K1、K2、K3、K4的具体取值为经验值，各个整合因子的总和等于1，例如取K1＝0.3，K2＝0.3，K3＝0.3，K4＝0.1，K1+K2+K3+K4＝1。

步骤S53、对多条所述语音数据的质量评分进行加和并取平均值，得到经所述语音分离模型分离后的语音质量评估结果。

本发明提供的一种语音分离质量评估方法，通过提取所述混合语音训练数据的MFCC特征以训练生成所述语音分离模型，然后获取所述混合语音测试数据并提取出所述语音数据的MFCC特征，进而将所述语音数据的MFCC特征输入所述语音分离模型中得到分离完成的所述单人语音数据，最后基于混合之前的所述纯净语音数据，计算并整合所述单人语音数据的质量参数，得到经过所述语音分离模型分离后的语音质量评估结果，实现了语音分离，且通过算法自动计算经所述语音分离模型分离后的语音质量评估结果，避免了现有技术中通过人耳分辨主观判断，受到人为的主观因素的影响，导致不能客观合理地进行分离结果质量评估。

请参阅图3，作为对上述各图示所示的方法的实现，本发明提供一种语音分离质量评估装置100，所述装置100包括语音采集模块110、特征提取模块120、神经网络模块130、质量评估模块140和结果输出模块150。图3仅示出了所述装置100的部分模块，但是应理解的是，并不要求实施所有示出的模块，可以替代的实施更多或者更少的模块。

所述语音采集模块110，用于采集需要进行分离的混合语音测试数据，所述混合语音测试数据中包括多条语音数据，所述语音数据中包括至少两条纯净语音数据。

所述特征提取模块120，用于对所述混合语音测试数据进行预处理，提取出所述混合语音测试数据中语音数据的MFCC特征。

所述神经网络模块130，所述神经网络模块130中预设语音分离模型，所述神经网络模块130用于对所述语音数据的MFCC特征进行处理，分离所述混合语音测试数据得到单人语音数据。

在本实施例中，所述神经网络模块130存储有经过训练生成的语音分离模型，所述神经网络模块130包括数据输入端，用于输入所述语音数据的MFCC特征；所述神经网络模块130还包括数据输出端，用于输出经所述语音分离模型分离完成的单人语音数据。

质量评估模块140，用于计算并整合所述单人语音数据的语音质量参数，得到经过所述语音分离模型分离后的语音质量评估结果。

在本实施例中，如图4所示，所述质量评估模块140还包括：

参数生成模块141，用于基于所述纯净语音数据，计算单人语音数据的质量参数。

参数整合模块142，用于对所述单人语音数据的质量参数进行评估整合，得到每条所述语音数据的质量评分。

在本实施中，所述参数整合模块142对所述单人语音数据的质量参数进行评估整合的过程具体包括：

评分生成模块143，用于将多条所述语音数据的质量评分加和并取平均值，得到经所述语音分离模型分离后的质量评估结果。

结果输出模块150，用于输出经过所述语音分离模型分离后的语音质量评估结果。

本发明提供的一种语音分离质量评估装置，通过提取所述混合语音训练数据的MFCC特征以训练生成所述语音分离模型，然后获取所述混合语音测试数据并提取出所述语音数据的MFCC特征，进而将所述语音数据的MFCC特征输入所述语音分离模型中得到分离完成的所述单人语音数据，最后基于混合之前的所述纯净语音数据，计算并整合所述单人语音数据的质量参数，得到经过所述语音分离模型分离后的语音质量评估结果，实现了语音分离，且通过算法自动计算经所述语音分离模型分离后的语音质量评估结果，避免了现有技术中通过人耳分辨主观判断，受到人为的主观因素的影响，导致不能客观合理地进行分离结果质量评估。

本发明还提供的一种计算机存储介质，其中所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述方法实施例中记载的所述方法的部分或全部步骤。所述计算机存储介质可以作为一个软件安装包。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神。

Claims

1.一种语音分离质量评估方法，其特征在于，所述方法包括：

获取混合语音训练数据；

2.如权利要求1所述的一种语音分离质量评估方法，其特征在于，计算并整合所述单人语音数据的质量参数的过程具体包括：

3.如权利要求2所述的一种语音分离质量评估方法，其特征在于，所述单人语音数据的质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。

4.如权利要求3所述的一种语音分离质量评估方法，其特征在于，对所述单人语音数据的质量参数进行评估整合的过程具体包括：

5.如权利要求1-4中任一项所述的一种语音分离质量评估方法，其特征在于，所述混合语音训练数据或混合语音测试数据可以是通过将目标说话人的纯净语音数据、其他无关说话人的纯净语音数据和噪声的语音数据进行混合得到。

6.一种语音分离质量评估装置，其特征在于，所述装置包括：

7.如权利要求6所述的一种语音分离质量评估装置，其特征在于，所述质量评估模块还包括：

8.如权利要求7所述的一种语音分离质量评估装置，其特征在于，所述语音质量参数包括语音质量失真比SDR、语音质量干扰比SIR、语音质量噪声比SNR和语音质量伪造比SAR。

9.如权利要求8所述的一种语音分离质量评估装置，其特征在于，所述参数整合模块还包括：

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5中任一项所述的方法。