CN115457980A

CN115457980A - 一种无参考语音的自动化语音质量评估方法及系统

Info

Publication number: CN115457980A
Application number: CN202211144904.2A
Authority: CN
Inventors: 谢川
Original assignee: Sichuan Cric Technology Co ltd; Sichuan Changhong Electronic Holding Group Co Ltd
Current assignee: Sichuan Cric Technology Co ltd; Sichuan Changhong Electronic Holding Group Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2022-12-09

Abstract

本发明公开了一种无参考语音的自动化语音质量评估方法及系统，所述方法包括：获取待检测语音的频谱特征并进行编码提取出相应的声学编码特征；对声学编码特征的时间依赖关系进行建模，提取语音声学特征；利用所提取的语音声学特征对待检测语音的平均意见分数进行预测，并通过反归一化方法将预测的归一化结果映射到平均意见分数的取值空间，得到待检测语音的最终质量评估结果。本发明利用深度学习模型模拟人耳对音频语音质量的听感评价，对待检测语音的平均意见分数进行预测，相较于传统语音听感评价只能通过人为主观打分，该方法和系统能够大幅降低语音信号听感评价的人力成本和时间成本，还能够提高预测结果的准确性。

Description

一种无参考语音的自动化语音质量评估方法及系统

技术领域

本发明涉及音频和智能计算技术领域，具体的说，是一种无参考语音的自动化语音质量评估方法及系统。

背景技术

随着数字通信技术和深度学习技术的发展，语音处理技术的复杂度越来越高，如何评价语音质量，变得越来越重要。传统的语音质量评估方法分为客观评价和主观打分。客观评价，例如：客观语音质量评估(Perceptual evaluation of speech quality，简称为PESQ)和客观语音质量分析(Perceptual Objective Listening Quality Analysis，简称为POLQA)均是基于参考语音的语音质量评估方法，其主要关注参考语音与处理语音之间的波形频谱差异，现有技术无法通过该方法准确反应人听感上的语音质量好坏。因此，需要进行主观打分，例如平均主观意见分(Mean Opinion Score，简称为MOS)作为最常用的评价手段评估语音质量。该方法无需参考语音，但需要大量人力成本和时间成本，且无法及时检测语音质量。对于语音合成，说话人语音提取，语音增强等语音处理技术，平均主观意见分用于评估模型的真实性能是最有效且必要的评价手段。但是，原有平均主观意见评分方法，需要人工手动对每条语音逐条进行评分，导致了该方法存在严重的滞后性，因而无法在语音处理的全流程中，作为语音质量的监控手段对语音处理的各阶段进行实时监控。

现有的自动化语音质量评估方法，又存在如下问题：需要参考语音，评估准确度不高，现有基于神经网络的自动化语音质量评估方法并未对输出结果的范围进行规定，而平均主观意见分的设计标准中取值范围是1-5，现有模型在得到模型结果大于5和小于1的值直接取为5和1，无法在实际结果中反应模型在相同截止分值1或5上语音之间的差异，因此降低了预测结果的准确性。

发明内容

本发明的目的在于提供一种无参考语音的自动化语音质量评估方法及系统，用于解决现有技术中现有语音质量评估方法需要参考语音、以及通过非人工方式预测结果不准确的技术问题。

本发明通过下述技术方案解决上述问题：

一种无参考语音的自动化语音质量评估方法，具包括以下步骤：

步骤S1.获取待检测语音数据；

步骤S2.提取待检测语音的频谱特征；

步骤S3.对待检测语音的频谱特征进行编码，并提取出相应的声学编码特征；

步骤S4.将声学编码特征送入多路径序列建模网络，对声学编码特征的时间依赖关系进行建模，提取语音声学特征；

步骤S5.利用所提取的语音声学特征对待检测语音的平均意见分数进行预测，并通过反归一化方法将预测的归一化结果映射到平均意见分数的取值空间，得到待检测语音的最终质量评估结果。

作为本发明的进一步改进，所述步骤S2中，提取梅尔谱特征作为待检测语音的频谱特征。

作为本发明的进一步改进，所述步骤S3中，利用声学编码器模块对待检测语音的频谱特征进行编码，声学编码器模块由一维卷积网络和残差网络组成。

作为本发明的进一步改进，所述声学编码器模块的一维卷积网络输入维度为32，输出维度为128；

残差网络由三个残差网络块组成，三个残差网络块的参数分别为：第一个残差网络块输入维度为128，输出维度为128；第二个残差网络块输入维度为128，输出维度为256；第三个残差网络块输入维度为256，输出维度为256；每个残差网络块依次由一维卷积层、批正则化网络层、PReLU激活层、一维卷积层、批正则化网络层组成第一个数据路径，1×1的卷积网络作为残差路径，第一个数据路径和残差路径两者的结果相加，经过PReLU激活层得到编码结果。

作为本发明的进一步改进，所述多路径序列建模网络为双路径循环神经网络、基于门控的双路径循环神经网络或双路径Transformer。

作为本发明的进一步改进，所述多路径序列建模网络设置于序列建模模型内，所述序列建模模型依次包括层归一化、1×1的卷积网络、分割层以及4层堆叠的双路径循环神经网络，之后连接PReLU激活层、二维卷积网络层、重叠-相加层，然后分为两路数据，两路数据分别为1×1的卷积网络和Tanh激活函数作为门控信号，1×1的卷积网络和Sigmoid作为待处理信号，通过乘法完成对待处理信号的门控操作，再经过1×1的卷积网络处理得到语音声学特征。

作为本发明的进一步改进，每层所述双路径循环神经网络包括块内处理模块和块间处理模块，

其中，块内处理模块由一对块内循环神经网络组成，通过LSTM或GRU快速实现，块内循环神经网络将沿着输入三维张量的第二个维度进行处理，然后将块内循环神经网络的输出进行逐点相乘后与尺寸相同的输入三维张量进行拼接，再通过线性层映射得到与输入相同尺寸的张量后进行转置操作得到块内处理的输出三维张量；

块间处理模块与块内处理模块在结构上相同，块间处理模块的块间循环神经网络和拼接操作都沿着第三个维度进行处理。

作为本发明的进一步改进，所述步骤S5通过语音质量评估模型实现，所述语音质量评估模型包括注意力池化网络模型和反归一化模型，具体方法为：

所提取的语音声学特征通过注意力池化网络模型的网络部分后进行自注意力计算，将注意力权重与语音声学特征相乘后再经过全连接层，再将注意力池化网络模型归一化后得到的输出映射到平均意见分数的打分范围以内，通过反归一化模型得到待检测语音最终质量预测评估结果。

作为本发明的进一步改进，所述反归一化模块根据下式实现：

其中，包含tanh激活层以及反归一化方法，tanh计算得到范围在0～1之间的分数，再由反归一化方法将归一化后的结果映射到主观平均意见分数的取值范围内，这里

为最终打分结果，

为注意力池化层的打分输出。

本发明还通过下述技术方案解决上述问题：

一种无参考语音的自动化语音质量评估系统，用于实现如上所述一种无参考语音的自动化语音质量评估方法，包括语音收集模块、声学特征提取模块和语音质量打分模块，其中，声学特征提取模块包括频谱特征提取模块、声学编码器模块和序列建模模块；

语音收集模块，用于对获取的待检测语音数据通过声学传感器收集于存储设备中；

声学特征提取模块，读取存储设备中的待检测语音数据，先后经过频谱特征提取模块提取待检测语音的频谱特征，声学编码器模块在频谱特征的基础上对待检测语音的的频谱特征进行编码并提取出相应的声学编码特征，序列建模模块根据声学编码特征对声学编码特征时间依赖关系进行建模，得到语音声学特征；

语音质量打分模块，包括注意力池化网络模块和反归一化模块，注意力池化网络模块对送入的待检测语音的语音声学特征进行平均意见分数预测，并将预测结果通过反归一化模块将预测的归一化预测结果映射到平均意见分数的取值空间，以得到待检测语音的最终质量评估结果。

本发明与现有技术相比，具有以下优点及有益效果：

本发明通过依次提取待检测语音数据的频谱特征以及声学编码特征，同时对声学编码特征送入多路径序列建模网络进行多路径序列建模，利用深度学习模型模拟人耳对音频语音质量的听感评价，对待检测语音的平均意见分数进行预测，相较于传统语音听感评价只能通过人为主观打分，该方法可以大幅降低语音信号听感评价的人力成本和时间成本，还能够提高预测结果的准确性；

且本发明提供了一种自动化的评价手段，在通信领域语音信号传输的信号失真评价，语音合成模型的合成语音质量评价，以及语音提取或语音分离模型和语音增强模型对语音处理结果的语音质量评估等多个语音信号处理领域均能发挥较大的作用，以提高预测结果的准确性。

附图说明

图1为本发明无参考语音的自动化语音质量评估方法流程图；

图2为本发明无参考语音的自动化语音质量评估模型训练流程图；

图3为本发明无参考语音的自动化语音质量评估模型运行流程图；

图4为本发明语音质量评估模型示意图；

图5为本发明多层堆叠的多路径循环神经网络模型示意图；

图6为本发明无参考语音的自动化语音质量评估系统示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

结合附图1-5所示，一种无参考语音的自动化语音质量评估方法，具体包括以下步骤：

步骤S1.获取待检测语音数据；

步骤S2.提取待检测语音的频谱特征；

本实施例中，提取待检测语音的频谱特征，采用但不限于提取梅尔谱特征作为待检测语音的频谱特征，本实施例以语音数据提取梅尔谱特征作为频谱特征进行说明。

本实施例中，利用声学编码器模块对待检测语音的频谱特征进行编码，以提取编码后频谱特征的声学编码特征；

声学编码器模块由一维卷积网络和残差网络组成。

其中，一维卷积网络输入维度为32，输出维度为128；

残差网络由三个残差网络块组成，三个残差网络块的参数分别为：第一个残差网络块输入维度为128，输出维度为128；第二个残差网络块输入维度为128，输出维度为256；第三个残差网络块输入维度为256，输出维度为256；每个残差网络块依次由一维卷积层、批正则化网络层、PReLU激活层、一维卷积层、批正则化网络层组成第一个数据路径，1×1的卷积网络作为残差路径，第一个数据路径和残差路径两者的结果相加，经过PReLU激活层得到处理结果。

步骤S4.将声学编码特征输入多路径序列建模网络中，对声学编码特征的时间依赖关系进行建模，以提取语音声学特征；

本实施例中，多路径序列建模网络在序列建模模型内；

多路径序列建模网络，可采用但不限于双路径循环神经网络或基于门控的双路径循环神经网络或双路径Transformer，本实施例以基于门控的双路径循环神经网络作为序列建模模型的基础网络结构进行说明：

序列建模模型依次包括层归一化(Layer Norm)、1×1的卷积网络、分割层以及4层堆叠的双路径循环神经网络，之后连接PReLU激活层、二维卷积网络层、重叠-相加层(Overlap-Add)，然后分为两路数据，两路数据分别为1×1的卷积网络和Tanh激活函数作为门控信号，1×1的卷积网络和Sigmoid作为待处理信号，通过乘法完成对待处理信号的门控操作，再经过1×1的卷积网络处理得到语音声学特征。

具体的，每层双路径循环神经网络依次包括了块内处理(Intra-chunkProcessing)模块和块间处理(Inter-chunk Processing)模块两个部分。其中，块内处理模块由一对块内循环神经网络(Intra-chunk RNN)组成，可以通过LSTM或GRU快速实现，块内循环神经网络将沿着输入三维张量(3-D Tensor)的第二个维度进行处理，之后将这对块内循环神经网络的输出进行逐点相乘后与尺寸相同的输入三维张量进行拼接，再通过线性层映射得到与输入相同尺寸的张量后进行转置操作得到块内处理的输出三维张量。块间处理模块与块内处理模块在结构上相同，区别在于块间循环神经网络(Inter-chunk RNN)和拼接操作都将沿着第三个维度进行处理。

步骤S5.利用得到的语音声学特征对待检测语音的平均意见分数(MOS)进行预测，并通过反归一化方法将预测的归一化结果映射到平均意见分数的取值空间，得到待检测语音的最终质量评估结果。

本实施例中，具体步骤为：

将得到的语音声学特征送入语音质量评估模型，语音质量评估模型利用提取到的语音声学特征对待检测语音的平均意见分数(MOS)进行初步预测；并将初步预测结果基于注意力的池化网络归一化处理；再通过反归一化方法将归一化处理结果映射到平均意见分数的取值空间，以得到待检测语音的最终质量评估结果。

语音质量评估模型如图4所示，包括注意力池化网络模型和反归一化模型。注意力池化网络模型的网络部分包括前馈网络层、掩模层和Softmax层，之后进行自注意力计算，将注意力权重与语音声学特征相乘后再经过全连接层；之后将注意力池化网络归一化后得到的输出映射到平均意见分数的打分范围以内，通过反归一化模型，得到语音最终质量预测评估结果。

需要说明的是，反归一化模型具体实现方法包括但不限于以下原理方法，其原理公式如下：

为最终打分结果，

为注意力池化层的打分输出。

需要说明的是，本发明一种无参考语音的自动化语音质量评估方法，在实施步骤S1之前，还进行语音质量评估模型的训练，具体步骤包括：

A.获取训练语料数据集，包含每条语料的人工MOS打分结果；

获取带有人工打分的，已经过质量评价的训练语料数据集。这里数据集包括原始不同设备采集得到数据，经过信号处理后的数据，语音合成的数据等。

B.对训练语料数据集进行预处理，并提取语料数据的频谱特征；

对训练语料数据集中所有语料数据进行频谱特征提取，这里采用梅尔谱特征作为频谱特征，这里需要说明除了梅尔谱作为频谱特征外，例如wav2vector等方法均可作为语音质量评估模型的频谱特征。

C.将提取的频谱特征送入语音声学编码器提取语音声学编码特征信息；

将提取后的声学编码特征送入自动化的无参考语音质量评估模型。需要说明的是，这里采用但不限于均方误差作为损失函数在训练过程中对模型进行反向更新。

D.将语音声学编码信息送入序列建模模型，提取语音声学特征；

E.将提取出的声学特征送入语音质量评估模型，得到语音质量评估模型对语音的评估结果，将该结果与原训练集中人工打分结果进行对比，根据对比后的误差，更新语音质量评估模型和声学特征提取模型中的参数。最终得到训练后的语音声学特征提取模型和语音质量评估模型；

本实施例的一种无参考语音的自动化语音质量评估方法，可实时检测语音音频人耳听感质量打分，用以评估音频传输质量。同时可以对合成语音进行人耳听感评估，可便捷、低成本得到语音合成数据质量，可用于语音合成模型或语音增强模型、语音提取模型性能评价以及语音合成模型或语音增强、语音提取模型训练指导，极大的降低了人耳听感语音质量评估的人力成本和时间成本。同时反归一化模块将人为主观打分范围与深度神经网络模型的输出范围进行了可推导式映射，这不仅可将神经网络的打分输出范围限定在一定的取值范围，同时避免了模型输出因为结果大于或小于最大值或最小值导致的强制截幅而造成的打分估计不准确的问题。

实施例2：

一种无参考语音的自动化语音质量评估系统，包括语音收集模块、声学特征提取模块和语音质量打分模块，其中，声学特征提取模块包括频谱特征提取模块、声学编码器模块和序列建模模块，语音质量打分模块包括注意力池化网络模块和反归一化模块；

语音质量打分模块，包括注意力池化网络模块和反归一化模块，注意力池化网络模块对送入的待检测语音的语音声学特征进行平均意见分数预测，并将预测结果通过反归一化模块将预测的归一化预测结果映射到平均意见分数的取值空间，以得到待检测语音的最终质量评估结果，并将该评估结果进行反馈。

本发明的一种无参考语音的自动化语音质量评估系统，搭载具有自动化的无参考语音质量评估的装置系统，可实现对原有通信系统或者语音信号处理系统或者语音合成系统实时评价，可实时监控系统语音输出质量，以及检测系统在不同情况下语音处理结果的质量。同时也可作为语音采集时，语音数据筛选方法，可快速有效过滤高噪音等低质量语音数据收集，降低语音采集的成本。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种无参考语音的自动化语音质量评估方法，其特征在于，具包括以下步骤：

步骤S1.获取待检测语音数据；

步骤S2.提取待检测语音的频谱特征；

2.根据权利要求1所述一种无参考语音的自动化语音质量评估方法，其特征在于，所述步骤S2中，提取梅尔谱特征作为待检测语音的频谱特征。

3.根据权利要求1所述一种无参考语音的自动化语音质量评估方法，其特征在于，所述步骤S3中，利用声学编码器模块对待检测语音的频谱特征进行编码，声学编码器模块由一维卷积网络和残差网络组成。

4.根据权利要求3所述一种无参考语音的自动化语音质量评估方法，其特征在于，所述声学编码器模块的一维卷积网络输入维度为32，输出维度为128；

5.根据权利要求1所述一种无参考语音的自动化语音质量评估方法，其特征在于，所述多路径序列建模网络为双路径循环神经网络、基于门控的双路径循环神经网络或双路径Transformer。

6.根据权利要求1所述一种无参考语音的自动化语音质量评估方法，其特征在于，所述多路径序列建模网络设置于序列建模模型内，所述序列建模模型依次包括层归一化、1×1的卷积网络、分割层以及4层堆叠的双路径循环神经网络，之后连接PReLU激活层、二维卷积网络层、重叠-相加层，然后分为两路数据，两路数据分别为1×1的卷积网络和Tanh激活函数作为门控信号，1×1的卷积网络和Sigmoid作为待处理信号，通过乘法完成对待处理信号的门控操作，再经过1×1的卷积网络处理得到语音声学特征。

7.根据权利要求6所述一种无参考语音的自动化语音质量评估方法，其特征在于，每层所述双路径循环神经网络包括块内处理模块和块间处理模块，

8.根据权利要求1所述一种无参考语音的自动化语音质量评估方法，其特征在于，所述步骤S5通过语音质量评估模型实现，所述语音质量评估模型包括注意力池化网络模型和反归一化模型，具体方法为：

9.根据权利要求8所述一种无参考语音的自动化语音质量评估方法，其特征在于，所述反归一化模型根据下式实现：

为最终打分结果，

为注意力池化层的打分输出。

10.一种无参考语音的自动化语音质量评估系统，用于实现如权利要求1-9任一项所述一种无参考语音的自动化语音质量评估方法，其特征在于，包括语音收集模块、声学特征提取模块和语音质量打分模块，其中，声学特征提取模块包括频谱特征提取模块、声学编码器模块和序列建模模块；