CN113192536A

CN113192536A - 语音质量检测模型的训练方法、语音质量检测方法及装置

Info

Publication number: CN113192536A
Application number: CN202110466338.6A
Authority: CN
Inventors: 张旭; 郑羲光; 张晨; 郭亮
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-30
Anticipated expiration: 2041-04-28
Also published as: CN113192536B

Abstract

本公开关于一种语音质量检测模型的训练方法、语音质量检测方法及装置。语音质量检测模型的训练方法包括：获取训练样本集，其中，训练样本集包括多个语音信号、语音信号对应的标注的语音质量分数和语音信号对应的语音活动检测信息；将语音信号的音频特征和语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数；根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数；通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

Description

语音质量检测模型的训练方法、语音质量检测方法及装置

技术领域

本公开涉音频技术领域，尤其涉及一种语音质量检测模型的训练方法、语音质量检测方法及装置。

背景技术

目前，音频信号客观质量评测可以分为两种方法，即完全参考方法和无参考方法。完全参考方法是将原始无损的语音信号和音质由于各种可能原因而降低的对应音频信号(即，被打分信号)作为输入信号，通过对比原始参考信号和对应的被打分信号，取得一个差距值，根据差距的大小来给定被打分信号的质量(即分数)。例如，客观语音质量评估(Perceptual evaluation of speech quality，简称为PESQ)和客观语音质量分析(Perceptual Objective Listening Quality Analysis，简称为Polqa)就是完全参考的语音质量评测方法。完全参考方法需要参考信号才能完成打分，无法应用于实时语音通信系统中的实时语音质量监控任务。另外，无参考方法是指不需要原始语音参考，直接对输入的音频信号进行打分。然而，相对于有参考打分方法，目前业界尚无广泛采纳的较成熟的无参考音频音质打分方法，尤其针对实际使用场景下如丢包卡顿场景的音频音质检测。

发明内容

本公开提供一种语音质量检测模型的训练方法、语音质量检测方法及装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种语音质量检测模型的训练方法，包括：获取训练样本集，其中，训练样本集包括多个语音信号、语音信号对应的标注的语音质量分数和语音信号对应的语音活动检测信息；将语音信号的音频特征和语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数；根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数；通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

可选地，语音信号的音频特征是通过以下操作得到的：获取语音信号的时频域特征；将时频域特征作为语音信号的音频特征。

可选地，语音信号的音频特征是通过以下操作得到的：获取语音信号的时频域特征；根据时频域特征获取语音信号的梅尔谱特征；将梅尔谱特征作为语音信号的音频特征。

可选地，语音信号的音频特征是通过以下操作得到的：获取语音信号的时频域特征；根据时频域特征获取语音信号的梅尔谱特征；对梅尔谱特征进行去相关处理；将去相关处理后的梅尔谱特征作为语音信号的音频特征。

可选地，语音质量检测模型包括卷积层、第一全连接层、门控循环单元层和第二全连接层；其中，将语音信号的音频特征和语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数，包括：将语音信号的音频特征输入卷积层，获得卷积后的特征向量；将卷积后的特征向量与语音活动检测信息串联，得到串联特征；将串联特征输入第一全连接层，得到变换特征；将变换特征输入门控循环单元层，得到时序特征；将时序特征输入第二全连接层，得到估计的语音质量分数。

可选地，根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数，包括：计算标注的语音质量分数和估计的语音质量分数的均方误差，作为目标损失函数。

根据本公开实施例的第二方面，提供一种语音质量检测方法，包括：获取待检测语音信号和待检测语音信号对应的语音活动检测信息；基于待检测语音信号和语音活动检测信息，确定待检测语音信号的语音质量分数。

可选地，基于待检测语音信号和语音活动检测信息，确定待检测语音信号的语音质量分数，包括：将待检测语音信号的音频特征和语音活动检测信息输入到语音质量检测模型，得到待检测语音信号的语音质量分数。

可选地，语音质量检测模型包括卷积层、第一全连接层、门控循环单元层和第二全连接层；其中，将待检测语音信号的音频特征和语音活动检测信息输入到语音质量检测模型，得到待检测语音信号的语音质量分数，包括：将待检测语音信号的音频特征输入卷积层，获得卷积后的特征向量；将卷积后的特征向量与语音活动检测信息串联，得到串联特征；将串联特征输入第一全连接层，得到变换特征；将变换特征输入门控循环单元层，得到时序特征；将时序特征输入第二全连接层，得到针对待检测语音信号的语音质量分数。

可选地，语音质量检测模型是通过如上的语音质量检测模型的训练方法训练得到。

可选地，基于待检测语音信号和语音活动检测信息，确定待检测语音信号的语音质量分数，包括：在语音活动检测信息指示待检测语音信号存在语音信息的情况下，将待检测语音信号的音频特征输入到语音质量检测模型，得到待检测语音信号的语音质量分数；在语音活动检测信息指示待检测语音信号不存在语音信息的情况下，将预定值确定为待检测语音信号的语音质量分数。

可选地，语音质量检测模型通过如下方式训练：获取训练样本集，其中，训练样本集包括多个语音信号和语音信号对应的标注的语音质量分数；将语音信号的音频特征输入到语音质量检测模型中，得到估计的语音质量分数；根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数；通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

可选地，待检测语音信号的音频特征是通过以下操作得到的：获取待检测语音信号的时频域特征；将时频域特征作为待检测语音信号的音频特征。

可选地，待检测语音信号的音频特征是通过以下操作得到的：获取待检测语音信号的时频域特征；根据时频域特征获取待检测语音信号的梅尔谱特征；将梅尔谱特征作为待检测语音信号的音频特征。

可选地，待检测语音信号的音频特征是通过以下操作得到的：获取待检测语音信号的时频域特征；根据时频域特征获取待检测语音信号的梅尔谱特征；对梅尔谱特征进行去相关处理；将去相关处理后的梅尔谱特征作为待检测语音信号的音频特征。

根据本公开实施例的第三方面，提供一种语音质量检测模型的训练装置，包括：获取单元，被配置为获取训练样本集，其中，训练样本集包括多个语音信号、语音信号对应的标注的语音质量分数和语音信号对应的语音活动检测信息；估计单元，被配置为将语音信号的音频特征和语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数；确定单元，被配置为根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数；训练单元，被配置为通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

可选地，语音质量检测模型包括卷积层、第一全连接层、门控循环单元层和第二全连接层；其中，估计单元，还被配置为将语音信号的音频特征输入卷积层，获得卷积后的特征向量；将卷积后的特征向量与语音活动检测信息串联，得到串联特征；将串联特征输入第一全连接层，得到变换特征；将变换特征输入门控循环单元层，得到时序特征；将时序特征输入第二全连接层，得到估计的语音质量分数。

可选地，确定单元，还被配置为计算标注的语音质量分数和估计的语音质量分数的均方误差，作为目标损失函数。

根据本公开实施例的第四方面，提供了一种语音质量检测装置，包括：第一获取单元，还被配置为获取待检测语音信号和待检测语音信号对应的语音活动检测信息；估计单元，被配置为基于待检测语音信号和语音活动检测信息，确定待检测语音信号的语音质量分数。

可选地，估计单元，被还配置为将待检测语音信号的音频特征和语音活动检测信息输入到语音质量检测模型，得到待检测语音信号的语音质量分数。

可选地，语音质量检测模型包括卷积层、第一全连接层、门控循环单元层和第二全连接层；其中，估计单元，还被配置为将待检测语音信号的音频特征输入卷积层，获得卷积后的特征向量；将卷积后的特征向量与语音活动检测信息串联，得到串联特征；将串联特征输入第一全连接层，得到变换特征；将变换特征输入门控循环单元层，得到时序特征；将时序特征输入第二全连接层，得到针对待检测语音信号的语音质量分数。

可选地，估计单元，还被配置为在语音活动检测信息指示待检测语音信号存在语音信息的情况下，将待检测语音信号的音频特征输入到语音质量检测模型，得到待检测语音信号的语音质量分数；在语音活动检测信息指示待检测语音信号不存在语音信息的情况下，将预定值确定为待检测语音信号的语音质量分数。

可选地，装置还包括：第二获取单元，被配置为获取训练样本集，其中，训练样本集包括多个语音信号和语音信号对应的标注的语音质量分数；第三获取单元，被配置为将语音信号的音频特征输入到语音质量检测模型中，得到估计的语音质量分数；确定单元，被配置为根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数；训练单元，被配置为通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

根据本公开实施例的第五方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的语音质量检测模型的训练方法和语音质量检测方法。

根据本公开实施例的第六方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的语音质量检测模型的训练方法和语音质量检测方法。

根据本公开实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的语音质量检测模型的训练方法和语音质量检测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的语音质量检测模型的训练方法、语音质量检测方法及装置，通过语音活动检测信息(Voice Activity Detection，简称为VAD)和语音信号共同训练音质检测模型，即可使用语音信号的VAD信息参与语音质量检测，提高了模型在实际场景下的准确性和鲁棒性，并且，目前常用的语音编码器(如opus)会在编码时使用VAD协助编码，故在语音质量检测中增加VAD信息也不会增加计算复杂度。因此，本公开解决了相关技术中的无参考语音质量检测方法的检测结果不准确的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音质量检测方法的构思示意图；

图2是根据一示例性实施例示出的一种语音质量检测模型的训练方法的流程图；

图3是示出根据本公开的示例性实施例的语音质量检测模型的结构示意图；

图4是示出根据本公开的示例性实施例的语音质量检测方法的流程图；

图5是根据一示例性实施例示出的远端静音或者丢包示意图；

图6是根据一示例性实施例示出的一种语音质量检测模型的训练装置的框图；

图7是根据一示例性实施例示出的一种语音质量检测装置的框图；

图8是根据本公开实施例的一种电子设备800的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

无参考方法无需依赖于参考信号就能完成打分，可应用于实时语音质量的检测场景。目前，可基于深度学习的方法来实现无参考方法，但是相关的基于深度学习的方法的运作复杂度偏高，无法在移动端实现处理，且在实际使用场景下(如丢包卡顿场景)效果不稳定，预测不准确。

针对上述问题，本公开提供了一种语音质量检测模型的训练方法和语音质量检测方法。具体地说，本公开提供了两种结合语音活动检测信息(Voice Activity Detection，简称为VAD)进行语音质量检测的方法。第一种模式下，基于语音信号的音频特征和语音信号的VAD信息训练语音质量检测模型，然后在后续语音质量检测时，可以将发送端发送的语音信号的音频特征和语音信号的VAD信息输入到训练好的语音信号检测模型中即可得到对应的语音质量分数；第二种模式下，基于语音信号的音频特征训练语音质量检测模型，然后在语音质量检测时，先根据发送端发送的语音信号的VAD信息确定语音信号中有没有语音，在VAD信息指示有语音的情况下，将发送端发送的语音信息的音频特征输出到训练好的模型得到语音质量分数，在VAD信息指示没有语音的情况下，将预定值确定为语音质量分数。因此，本公开可使用语音信号的VAD信息参与语音质量检测，提高了模型在实际场景下的准确性和鲁棒性，且该方法可以应用到实时语音通信系统中的语音质量监控任务。

下面，将参照图1至图8详细描述根据本公开的示例性实施例的语音质量检测模型的训练方法、语音质量检测方法及装置。

图1是示出根据本公开的示例性实施例的语音质量检测方法的构思示意图。其中，图1(a)示出第一种模式下的语音质量检测方法的示意图，图1(b)示出第二种模式下的语音质量检测方法的示意图。

参照1(a)，第一种模式下，可对语音信号进行特征提取得到音频特征，例如，对语音信号进行时频变换(例如，短时傅立叶变换(Short-Time Fourier Transform，简称为STFT)或修正离散余弦变换(Modified Discrete Cosine Transform，简称为MDCT)等)以获得幅度谱和/或相位谱信息，作为音频特征。随后，可将语音信号的音频特征作为输入，并将VAD信息作为辅助输入，输入到语音质量检测模型，通过语音质量检测模型输出估计的语音质量分数。这样，语音质量检测模型利用语音信号的音频特征和VAD信息来估计语音质量分数，并利用预先标注好的主观感知相关的语音质量分数，来训练语音质量检测模型。然后，在后续语音质量检测时，可以将发送端发送的语音信号的音频特征和语音信号的VAD信息输入到训练好的语音信号检测模型中即可得到对应的语音质量分数。

参照图1(b)，第二种模式下，先根据发送端发送的语音信号的VAD信息确定语音信号中有没有语音，在VAD信息指示有语音的情况下，对语音信号进行特征提取得到音频特征，例如，对语音信号进行时频变换(例如，短时傅立叶变换(STFT)或修正离散余弦变换(MDCT)等)以获得幅度谱和/或相位谱信息，作为音频特征。随后，可将语音信号的音频特征作为输入，输入到语音质量检测模型，通过语音质量检测模型输出估计的语音质量分数。(此时的语音质量检测模型可以是仅基于语音信号的音频特征训练的模型)；在VAD信息指示没有语音的情况下，将预定值确定为语音质量分数。

图2是根据一示例性实施例示出的一种语音质量检测模型的训练方法的流程图。

参照图2，在步骤S201，获取训练样本集，其中，训练样本集包括多个语音信号、语音信号对应的标注的语音质量分数和语音信号对应的语音活动检测信息。例如，接收端可以通过服务器获取历史语音信号、历史语音信号对应的标注的语音质量分数和历史语音信号对应的语音活动检测信息(Voice Activity Detection，简称为VAD)，其中，标注的语音质量分数可以通过人工标注得到，也可以使用完全参考方法进行打分得到；VAD信息可以指示某一单位时间内的语音信号包含语音的概率判断(0-1之间)，在实际使用中，VAD信息一般使用TCP协议跟随信令一起传输，从而保证丢包发生时的重传(区别于语音信息(使用UDP)传输)，本公开将VAD信息应用到语音质量检测中，提供了语音检测在实际场景下的准确性和鲁棒性。

在步骤S202，将语音信号的音频特征和语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数。

根据本公开的示例性实施例，语音信号的音频特征可以采用但不限于如下三种方式来获取：

1)获取语音信号的时频域特征，将时频域特征作为语音信号的音频特征。

例如，在提取语音信号的音频特征的步骤中，输入的音频信号S(t)可以通过时频转换方法，如短时傅里叶变换(Short-Time Fourier Transform，简称为STFT)等转换至时频域得到复数信号S(n，k)：

S(n,k)＝STFT(S(t))＝A(n,k)*e^iθ(n,k) (1)

其中，A(n,k)为信号的幅度，θ(n,k)为信号的相位，信号的幅度、相位可以直接作为表征输入的音频信号的音频特征。

2)获取语音信号的时频域特征，然后根据时频域特征获取语音信号的梅尔谱特征，将梅尔谱特征作为语音信号的音频特征。由于梅尔谱谱更接近人的听觉感受，维度小一些，计算量小，因此，本实施例使得获取音频特征的计算量更小。

例如，对上面得到的信号的幅度、相位进行加工，得到其他的特征，如梅尔谱特征(melspectrogram)，将其作为表征输入的音频信号的音频特征。需要说明的是，加工后的特征还可以是梅尔频率倒谱系数(mel-frequency cepstrum coefficient(mfcc))、音频频谱对比度(spectral contrast)、音频频谱(spectrogram)等。由于这些音频特征由时频转换后信号加工得来，故具体算法可以跟据实际使用需要。

3)获取语音信号的时频域特征，然后根据时频域特征获取语音信号的梅尔谱特征，再对梅尔谱特征进行去相关处理，将去相关处理后的梅尔谱特征作为语音信号的音频特征。本实施例可以保证需要去相关的场景下的检测的准确度。

例如，在得到上述加工后的特征后，可以对加工后的特征进行去相关，如可以使用如下的改进离散余弦变换(Modified Discrete Cosine Transform，简称为MDCT)变换后得到实数结果，并将该结果作为语音信号的音频特征：

S(n,k)＝MDCT(S(T))＝M(n,k) (2)

根据本公开的示例性实施例，上述语音质量检测模型可具有，但不限于，卷积神经网络(Convolutional Neural Networks，简称为CNN)和循环神经网络(Recurrent NeuralNetwork，简称为RNN)相结合的网络结构。例如，图3是示出根据本公开的示例性实施例的语音质量检测模型的结构示意图。参照图3，语音质量检测模型可包括卷积层、第一全连接层(Dense)、门控循环单元层和第二全连接层(Dense)，其中，卷积层可由，但不限于，四个二维卷积层(2D Conv)构成，门控循环单元层可由，但不限于，两个门控循环单元层(GRU)构成。

根据本公开的示例性实施例，将语音信号的音频特征和语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数，可以通过如下方式实现：将语音信号的音频特征输入卷积层，获得卷积后的特征向量；将卷积后的特征向量与语音活动检测信息串联，得到串联特征；将串联特征输入第一全连接层，得到变换特征；将变换特征输入门控循环单元层，得到时序特征；将时序特征输入第二全连接层，得到估计的语音质量分数。

例如，可将音频特征输入卷积层，获得卷积后的特征向量。例如，音频特征可批量输入卷积层，批量大小(batch size)可为16。卷积层中的四个二维卷积层的卷积核数量(Filters)可依次为64、128、128、128，卷积核大小(Kernel)可均为3×3，激活函数(Activation)可为ELU，批归一化(Batch Normalization)可为Channel，池化大小可依次为(2,2)、(4,2)、(4,2)、(4,2)、Dropout可为0.1。随后，可将卷积层输出的卷积后的特征向量与VAD信息串联，得到串联特征，并将串联特征输入第一全连接层，得到变换特征。例如，假设音频特征每帧具有k个频点，VAD信息具有j个参数，可将k个频点的音频特征和j个参数串联(拼接)，获得维度为k+j的串联特征(拼接特征)。随后，可将第一全连接层输出的变换特征输入到门控循环单元层，得到时序特征。例如，两个GRU层可以是两个32单元的GRU，Dropout可为0.3。随后，可将门控循环单元层输出的时序特征输入第二全连接层，得到估计的语音质量分数。例如，第二全连接层可以是32单元的全连接层，激活函数(Activation)可为Softmax。此外，对所述语音质量检测模型进行训练时，可将损失函数设置为真值与估计值的均方误差，优化器选择Adam，学习率可设置为0.0001，Patience可设置为10。

当然，本公开的语音质量检测模型不限于上述模型，还可使用任何可能的模型来实现上述语音质量检测。

返回图2，在步骤S203，根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数。

根据本公开的示例性实施例，语音信号标注的语音质量分数可以是人工质量标注的分数和/或使用完全参考评价系统进行打分的分数。这里，人工质量标注的分数可指将语音信号在相应网络条件下通过网络传输后的语音信号的主观感知相关的语音质量分数。使用完全参考评价系统进行打分的分数可以是使用完全参考评价系统基于语音信号和VAD信息进行打分得到的分数。

根据本公开的示例性实施例，可计算标注的语音质量分数和估计的语音质量分数的均方误差(Mean Squared Error，简称为MSE)，作为目标损失函数。当批量训练时，可获得多个估计的语音质量分数，因此，可计算多个估计的语音质量分数的平均值与相应多个真实语音质量分数的平均值之间的均方误差，作为损失函数。

在步骤S204，通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

图4是示出根据本公开的示例性实施例的语音质量检测方法的流程图。

在步骤S401，获取待检测语音信号和待检测语音信号对应的语音活动检测信息。例如，接收端可以通过服务器接收发送端的待检测语音信号和待检测语音信号对应的语音活动检测信息(Voice Activity Detection，简称为VAD)。

在步骤S402，基于待检测语音信号和语音活动检测信息，确定待检测语音信号的语音质量分数。具体地，该步骤中的语音质量检测模型可以采用上述语音质量检测模型的训练方法训练得到的语音质量检测模型，如将待检测语音信号和语音活动检测信息输入到训练好的语音质量检测模型得到待检测语音信号的语音质量分数；该步骤中的语音质量检测模型也可以采用上述第二种模式训练好的语音质量检测模型，然后根据模型的输出结合语音活动检测信息，确定待检测语音信号的语音质量分数。下面从两种模式展开论述。

第一种模式，基于待检测语音信号和语音活动检测信息，确定待检测语音信号的语音质量分数，可以通过如下方式实现：将待检测语音信号的音频特征和语音活动检测信息输入到语音质量检测模型，得到待检测语音信号的语音质量分数。该语音质量检测模型可通过参照图2所描述的语音质量检测模型的训练方法训练得到。

根据本公开的示例性实施例，待检测语音信号的音频特征可以采用但不限于如下三种方式来获得：

1)获取待检测语音信号的时频域特征，将时频域特征作为待检测语音信号的音频特征。

2)获取待检测语音信号的时频域特征，然后根据时频域特征获取待检测语音信号的梅尔谱特征，将梅尔谱特征作为待检测语音信号的音频特征。由于梅尔谱谱更接近人的听觉感受，维度小一些，计算量小，因此，本实施例使得获取音频特征的计算量更小。

3)获取待检测语音信号的时频域特征，然后根据时频域特征获取待检测语音信号的梅尔谱特征，再对梅尔谱特征进行去相关处理，将去相关处理后的梅尔谱特征作为待检测语音信号的音频特征。本实施例可以保证需要去相关的场景下的检测的准确度。

上述三种方法均在对图2的表述中详细论述，此处不在展开论述。

根据本公开的示例性实施例，语音质量检测模型可包括卷积层、第一全连接层、门控循环单元层和第二全连接层，对语音质量检测模型的具体描述可如上所述，在此不再赘述。例如，可将语音信号的音频特征输入卷积层，获得卷积后的特征向量；将卷积后的特征向量与语音活动检测信息串联，得到串联特征；将串联特征输入第一全连接层，得到变换特征；将变换特征输入门控循环单元层，得到时序特征；将时序特征输入第二全连接层，得到估计的语音质量分数。

第二种模式，基于待检测语音信号和语音活动检测信息，确定待检测语音信号的语音质量分数，可以通过如下方式实现：在语音活动检测信息指示待检测语音信号存在语音信息的情况下，将待检测语音信号的音频特征输入到语音质量检测模型，得到待检测语音信号的语音质量分数；在语音活动检测信息指示待检测语音信号不存在语音信息的情况下，将预定值确定为待检测语音信号的语音质量分数。该种模式下的语音质量检测方法是上述第二种模式下的语音质量检测模型而执行的。例如，接收端接收到VAD信后，先基于VAD信息判断待检测语音信号是否存在语音信息，如果存在语音信息，则将待检测语音信号的音频特征输入到语音质量检测模型，得到待检测语音信号的语音质量分数；如果不存在语音信息，则将预定值确定为待检测语音信号的语音质量分数，上述预定值可以根据需要提前设定，如可以设定为-1。

根据本公开的示例性实施例，语音质量检测模型可通过如下方式训练：获取训练样本集，其中，训练样本集包括多个语音信号和语音信号对应的标注的语音质量分数；将语音信号的音频特征输入到语音质量检测模型中，得到估计的语音质量分数；根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数；通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

根据本公开的示例性实施例，可计算标注的语音质量分数和估计的语音质量分数的均方误差(MSE)，作为目标损失函数。当批量训练时，可获得多个估计的语音质量分数，因此，可计算多个估计的语音质量分数的平均值与相应多个真实语音质量分数的平均值之间的均方误差，作为损失函数。

通过本公开的上述实施例，在无参考方法下，可以使用VAD信息解决远端静音和远端丢包的问题，如图5所示，如果没有VAD信息，无参考方法无法判断框住部分是本身静音还是丢包。

图6是根据一示例性实施例示出的一种语音质量检测模型的训练装置的框图。参照图6，该装置包括获取单元60，估计单元62、确定单元64和训练单元66。

获取单元60，被配置为获取训练样本集，其中，训练样本集包括多个语音信号、语音信号对应的标注的语音质量分数和语音信号对应的语音活动检测信息；估计单元62，被配置为将语音信号的音频特征和语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数；确定单元64，被配置为根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数；训练单元66，被配置为通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

根据本公开的实施例，语音信号的音频特征是通过以下操作得到的：获取语音信号的时频域特征；将时频域特征作为语音信号的音频特征。

根据本公开的实施例，语音信号的音频特征是通过以下操作得到的：获取语音信号的时频域特征；根据时频域特征获取语音信号的梅尔谱特征；将梅尔谱特征作为语音信号的音频特征。

根据本公开的实施例，语音信号的音频特征是通过以下操作得到的：获取语音信号的时频域特征；根据时频域特征获取语音信号的梅尔谱特征；对梅尔谱特征进行去相关处理；将去相关处理后的梅尔谱特征作为语音信号的音频特征。

根据本公开的实施例，语音质量检测模型包括卷积层、第一全连接层、门控循环单元层和第二全连接层；其中，估计单元62，还被配置为将语音信号的音频特征输入卷积层，获得卷积后的特征向量；将卷积后的特征向量与语音活动检测信息串联，得到串联特征；将串联特征输入第一全连接层，得到变换特征；将变换特征输入门控循环单元层，得到时序特征；将时序特征输入第二全连接层，得到估计的语音质量分数。

根据本公开的实施例，确定单元64，还被配置为计算标注的语音质量分数和估计的语音质量分数的均方误差，作为目标损失函数。

图7是根据一示例性实施例示出的一种语音质量检测装置的框图。参照图7，该装置包括第一获取单元70和估计单元72。

获取单元70，还被配置为获取待检测语音信号和待检测语音信号对应的语音活动检测信息；估计单元，被配置为基于待检测语音信号和语音活动检测信息，确定待检测语音信号的语音质量分数。

根据本公开的实施例，估计单元72，还被配置为将待检测语音信号的音频特征和语音活动检测信息输入到语音质量检测模型，得到待检测语音信号的语音质量分数。

根据本公开的实施例，语音质量检测模型包括卷积层、第一全连接层、门控循环单元层和第二全连接层；其中，估计单元72，还被配置为将待检测语音信号的音频特征输入卷积层，获得卷积后的特征向量；将卷积后的特征向量与语音活动检测信息串联，得到串联特征；将串联特征输入第一全连接层，得到变换特征；将变换特征输入门控循环单元层，得到时序特征；将时序特征输入第二全连接层，得到针对待检测语音信号的语音质量分数。

根据本公开的实施例，语音质量检测模型是通过如上述所述的语音质量检测模型的训练方法训练得到。

根据本公开的实施例，估计单元72，还被配置为在语音活动检测信息指示待检测语音信号存在语音信息的情况下，将待检测语音信号的音频特征输入到语音质量检测模型，得到待检测语音信号的语音质量分数；在语音活动检测信息指示待检测语音信号不存在语音信息时的情况下，将预定值确定为待检测语音信号的语音质量分数。

根据本公开的实施例，装置还包括：第二获取单元74，被配置为获取训练样本集，其中，训练样本集包括多个语音信号和语音信号对应的标注的语音质量分数；第三获取单元76，被配置为将语音信号的音频特征输入到语音质量检测模型中，得到估计的语音质量分数；确定单元78，被配置为根据估计的语音质量分数和标注的语音质量分数，确定语音质量检测模型的目标损失函数；训练单元710，被配置为通过目标损失函数调节语音质量检测模型的参数，对语音质量检测模型进行训练。

根据本公开的实施例，确定单元78，还被配置为计算标注的语音质量分数和估计的语音质量分数的均方误差，作为目标损失函数。

根据本公开的实施例，待检测语音信号的音频特征是通过以下操作得到的：获取待检测语音信号的时频域特征；将时频域特征作为待检测语音信号的音频特征。

根据本公开的实施例，待检测语音信号的音频特征是通过以下操作得到的：获取待检测语音信号的时频域特征；根据时频域特征获取待检测语音信号的梅尔谱特征；将梅尔谱特征作为待检测语音信号的音频特征。

根据本公开的实施例，待检测语音信号的音频特征是通过以下操作得到的：获取待检测语音信号的时频域特征；根据时频域特征获取待检测语音信号的梅尔谱特征；对梅尔谱特征进行去相关处理；将去相关处理后的梅尔谱特征作为待检测语音信号的音频特征。

根据本公开的实施例，可提供一种电子设备。图8是根据本公开实施例的一种电子设备800的框图，该电子设备包括至少一个存储器801和至少一个处理器802，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的语音质量检测模型的训练方法和语音质量检测方法。

作为示例，电子设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备800中，处理器802可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器802还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器802可运行存储在存储器中的指令或代码，其中，存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器801可与处理器802集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器802可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器802能够读取存储在存储器801中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的语音质量检测模型的训练方法和语音质量检测方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的语音质量检测模型的训练方法和语音质量检测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音质量检测模型的训练方法，其特征在于，包括：

获取训练样本集，其中，所述训练样本集包括多个语音信号、所述语音信号对应的标注的语音质量分数和所述语音信号对应的语音活动检测信息；

将语音信号的音频特征和所述语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数；

根据所述估计的语音质量分数和标注的语音质量分数，确定所述语音质量检测模型的目标损失函数；

通过所述目标损失函数调节所述语音质量检测模型的参数，对所述语音质量检测模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，所述语音信号的音频特征是通过以下操作得到的：

获取所述语音信号的时频域特征；

将所述时频域特征作为所述语音信号的音频特征。

3.如权利要求1所述的训练方法，其特征在于，所述语音信号的音频特征是通过以下操作得到的：

获取所述语音信号的时频域特征；

根据所述时频域特征获取所述语音信号的梅尔谱特征；

将所述梅尔谱特征作为所述语音信号的音频特征。

4.如权利要求1所述的训练方法，其特征在于，所述语音信号的音频特征是通过以下操作得到的：

获取所述语音信号的时频域特征；

根据所述时频域特征获取所述语音信号的梅尔谱特征；

对所述梅尔谱特征进行去相关处理；

将所述去相关处理后的梅尔谱特征作为所述语音信号的音频特征。

5.一种语音质量检测方法，其特征在于，包括：

获取待检测语音信号和所述待检测语音信号对应的语音活动检测信息；

基于所述待检测语音信号和所述语音活动检测信息，确定所述待检测语音信号的语音质量分数。

6.一种语音质量检测模型的训练装置，其特征在于，包括：

获取单元，被配置为获取训练样本集，其中，所述训练样本集包括多个语音信号、所述语音信号对应的标注的语音质量分数和所述语音信号对应的语音活动检测信息；

估计单元，被配置为将语音信号的音频特征和所述语音信号对应的语音活动检测信息输入到语音质量检测模型中，得到估计的语音质量分数；

确定单元，被配置为根据所述估计的语音质量分数和标注的语音质量分数，确定所述语音质量检测模型的目标损失函数；

训练单元，被配置为通过所述目标损失函数调节所述语音质量检测模型的参数，对所述语音质量检测模型进行训练。

7.一种语音质量检测装置，其特征在于，包括：

第一获取单元，被配置为获取待检测语音信号和所述待检测语音信号对应的语音活动检测信息；

估计单元，被配置为基于所述待检测语音信号和所述语音活动检测信息，确定所述待检测语音信号的语音质量分数。

8.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的语音质量检测模型的训练方法、权利要求5所述的语音质量检测方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至4中任一项所述的语音质量检测模型的训练方法、权利要求5所述的语音质量检测方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1至4中任一项所述的语音质量检测模型的训练方法、权利要求5所述的语音质量检测方法。