CN112562724B

CN112562724B - 语音质量的评估模型、训练评估方法、系统、设备及介质

Info

Publication number: CN112562724B
Application number: CN202011380915.1A
Authority: CN
Inventors: 朱城锜; 罗超; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-05-17
Anticipated expiration: 2040-11-30
Also published as: CN112562724A

Abstract

本发明公开了一种语音质量的评估模型、训练评估方法、系统、设备及介质，评估模型包括：端点检测模块，用于输入待评估的音频信号，并对音频信号进行端点检测得到第一音频信号；预处理模块，用于对第一音频信号进行预处理得到语谱图；特征提取模块，用于提取语谱图的特征；第一神经元，用于根据特征使用交叉熵损失函数判断第一音频信号是否为语音信号以得到加权系数；第二神经元，用于根据特征及加权系数使用误差损失函数得到第一音频信号的质量得分。本发明通过提取音频信号的语谱图，利用语音质量评估模型判断出语音信号是否为语音，同时得的该语音信号的语音质量分数，在进行语音质量评估时不需要参考信号，评估过程更简单。

Description

语音质量的评估模型、训练评估方法、系统、设备及介质

技术领域

本发明涉及音频技术领域，尤其涉及一种语音质量的评估模型、训练评估方法、系统、设备及介质。

背景技术

电话一直以来都是重要的沟通方式，随着网络通讯的快速发展，网络语音通信也成为了电话语音的一个重要组成部分。相比于公共交换电话网络通讯，网络协议通讯更容易受网络可靠性影响，因此在当前情况下对电话语音质量评估变得尤为重要。

语音信号质量评估方法主要有两类：人工主观评估方法和有参考信号的客观评估方法。人工主观评估方法可推广性较差而且无法保证通话隐私；有参考信号的客观评估方法需要有参考信号，但是电话语音中难以得到参考信号。

发明内容

本发明要解决的技术问题是为了克服现有技术中有参考信号的客观评估方法需要有参考信号、评估过程复杂的缺陷，提供一种语音质量的评估模型、训练评估方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供一种基于神经网络的语音质量的评估模型，包括

端点检测模块，用于输入待评估的音频信号，并对所述音频信号进行有效音频端点检测得到第一音频信号；

与所述端点检测模块的输出连接的预处理模块，用于对所述第一音频信号进行预处理得到语谱图；

与所述预处理模块的输出连接的特征提取模块，用于提取所述语谱图的特征；

与所述特征提取模块的输出连接的第一神经元，用于根据所述特征使用交叉熵损失函数判断所述第一音频信号是否为语音信号以得到加权系数；

与所述特征提取模块的输出连接的第二神经元，用于根据所述特征及所述加权系数使用误差损失函数得到所述第一音频信号的质量得分。

在本方案中，通过对输入待评估的音频信号进行语音端点检测，找出语音的起始点和结束点，检测出有用语音，去除无效语音，可以减少计算量和缩短处理时间，而且能排除无声段的噪声干扰、提高语音识别的正确率。因电话语音中存在非语音信号会降低评估分数的鲁棒性，故采用多标签模型的思想，基于音频输入，在判断其是否为语音时，同时得到语音质量评估的得分。利用深度学习框架，提取音频信号的短时频域特征，利用多标签模型，在损失函数上对二者进行约束，最后根据是否为语音信号得到加权系数，并对语音质量得分加权，实现了判断当前音频信号是否为语音的同时得到了语音信号的质量评分，在进行语音质量评估时不需要参考信号，评估过程更简单。

优选地，所述特征提取模块包括卷积层、GRU(门控循环单元)网络和DNN(深度神经网络)网络；

所述卷积层、所述GRU网络和所述DNN网络依次连接；

所述卷积层用于提取所述语谱图的初始特征；

所述GRU网络用于记录所述初始特征的历史信息的影响并生成所述语谱图的中间特征；

所述DNN网络用于对所述中间特征进行整合以生成所述语谱图的特征。

在本方案中，卷积层用于提取语谱图的初始特征；GRU网络用于记录历史信息的影响，DNN网络用于对GRU提取的语谱图的中间特征进行整合以得的语谱图的特征，通过多层表示和抽象学习来对数据之间的复杂关系进行建模，它比传统的浅层模型有更多层的非线性变换，使得其在表达和建模能力上更强大，在音频信号这种复杂信号的处理上更有优势。

优选地，所述预处理模块还用于对所述第一音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述语谱图。

相对于现有技术，从传感器经过模数转换得到的一系列时域数值语音信号，时域波形比较容易受外界环境改变，而且很难在时域中找到对应的物理意义。在本方案中，通过频率转换提取第一音频信号的短时频域特征，相对应频域分析方法，对外界环境有较好的鲁棒性，而且可以得到例如共振峰参数、基音周期参数等具有实际物理意义的语音特征。

本发明还提供一种语音质量的评估模型的训练方法，所述语音质量评的估模型包括上述所述的基于神经网络的语音质量的评估模型，所述训练方法包括：

标注样本语音；

计算所述交叉熵损失函数；

基于所述交叉熵损失函数将所述样本语音输入到所述语音质量的评估模型进行预训练；

计算所述交叉熵损失函数和所述误差损失函数；

基于所述交叉熵损失函数和所述误差损失函数将所述样本语音输入到所述语音质量的评估模型进行联合训练。

在本方案中，构建多标签模型，利用深度学习网络从语谱图中提取表达能力更强的特征，对模型首先只训练是否为语音的分类部分，由于语音、非语音之间区别明显，模型能够学到更多表示语音的高层特征，同时其能够起到预训练模型中的作用。然后将是否为语音的分类部分与语音质量得分的回归部分联合训练，不需要参考信号，过程简单。

本发明还提供一种语音质量的评估方法，包括

将待评估音频信号输入到使用上述所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分。

在本方案中，使用多标签模型，实现了判断当前信号是否为语音的同时得到语音质量分数，利用该模型结果，通讯线路维护人员可以实时监控当前整体的通话质量是否有波动，另外也可以评估是否有坐席的线路表现异常。对于通讯异常及时预警，可以保障语音通讯能一直处于较高的质量。

优选地，所述质量评估方法还包括：

对待评估音频信号进行端点检测得到第二音频信号；

对所述第二音频信号进行预处理得到待评估语谱图；

所述将待评估音频信号输入到使用上述所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分的步骤具体包括：

将所述待评估语谱图输入到使用上述所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估语谱图是否为语音信号以及所述待评估语谱图的质量得分。

在本方案中，通过对待评估音频信号进行端点检测和预处理，滤除部分无用信号后，再输入到模型进行语音质量评估，提高了评估结果的准确性。

优选地，所述对所述第二音频信号进行预处理得到待评估语谱图的步骤具体包括：

对所述第二音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述待评估语谱图。

在本方案中，通过频率转换提取第一音频信号的短时频域特征，相对应频域分析方法，对外界环境有较好的鲁棒性，而且可以得到例如共振峰参数、基音周期参数等具有实际物理意义的语音特征。

本发明还提供一种语音质量的评估系统，包括

质量评估模块，用于将待评估音频信号输入到使用上述所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分。

在本方案中，采用多标签学习模型的思想，实现了判断当前信号是否为语音的同时得到语音质量分数。通讯线路维护人员可以实时监控当前整体的通话质量是否有波动，另外也可以评估是否有坐席的线路表现异常。对于通讯异常及时预警，可以保障语音通讯能一直处于较高的质量。

优选地，所述评估系统还包括：

信号端点检测模块，用于对待评估音频信号进行端点检测得到第二音频信号；

信号预处理模块，用于对所述第二音频信号进行预处理得到待评估语谱图；

所述质量评估模块具体包括：

质量评估单元，用于将将所述待评估语谱图输入到使用上述所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估语谱图是否为语音信号以及所述待评估语谱图质量得分。

优选地，所述预处理模块，还用于对所述第二音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述待评估语谱图。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述的基于神经网络的语音质量的评估模型或所述的语音质量的评估模型的训练方法或所述的语音信号质量的评估方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意一项所述的基于神经网络的语音质量的评估模型或所述的语音质量的评估模型的训练方法或所述的语音信号质量的评估方法的步骤。

本发明的积极进步效果在于：本发明通过提取音频信号的语谱图，利用语音质量评估模型判断出语音信号是否为语音，同时得的该语音信号的语音质量分数，在进行语音质量评估时不需要参考信号，评估过程更简单。

附图说明

图1为本发明实施例1的语音质量的评估模型的结构示意图。

图2为本发明实施例1的语音质量的评估模型运行时的示意图。

图3为本发明实施例2的的语音质量的评估模型的训练方法的流程示意图。

图4为本发明实施例3的语音质量的评估方法的流程示意图。

图5为本发明实施例4的语音质量的评估系统的结构示意图。

图6为本发明实施例5的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种基于神经网络的语音质量的评估模型，如图1所示，包括：端点检测模块1、预处理模块2、特征提取模块3、第一神经元4和第二神经元5；

端点检测模块1的输出端与预处理模块2的输入端连接，预处理模块2的输出端与特征提取模块3的输入端连接，特征提取模块3的输出端分别与第一神经元4和第二神经元5连接。

端点检测模块1，用于输入待评估的音频信号，并对音频信号进行有效音频端点检测得到第一音频信号；

在本实施例中，通过对输入待评估的音频信号进行有效音频端点检测，待评估的音频信号包括音乐信号和语音信号，其中音乐信号为无效音频，语音信号为有效音频，通过端点检测找出语音的起始点和结束点，检测出有用语音，去除无效语音，可以减少计算量和缩短处理时间，而且能排除无声段的噪声干扰、提高语音识别的正确率。

预处理模块2，用于对第一音频信号进行预处理得到语谱图；

在可选的一种实施方式中，通过快速傅里叶变换得到语谱图。

在可选的另一种实施方式中，通过对第一音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的语谱图，语谱图为梅尔滤波器语谱图。

相对于现有技术，从传感器经过模数转换得到的一系列时域数值音频信号，时域波形比较容易受外界环境改变，而且很难在时域中找到对应的物理意义。在本实施例中，通过频率转换提取第一音频信号的短时频域特征，相对应频域分析方法，对外界环境有较好的鲁棒性，而且可以得到例如共振峰参数、基音周期参数等具有实际物理意义的语音特征。

特征提取模块3，用于提取语谱图的特征。

在可选的一种实施方式中，特征提取模块3包括卷积层、GRU网络和DNN网络；

卷积层、GRU网络和DNN网络依次连接；

卷积层用于提取语谱图的初始特征；

GRU网络用于记录初始特征的历史信息的影响并生成语谱图的中间特征；

DNN网络用于对中间特征进行整合以生成语谱图的特征。

在本实施例中，特征提取模块3包括三层二维卷积层、两层GRU网络和一层DNN网络。三层二卷积层用于提取语谱图的初始特征，两层GRU网络用于记录历史信息的影响，一层DNN网络用于对GRU提取的语谱图的中间特征进行整合以生成语谱图的特征，通过多层表示和抽象学习来对数据之间的复杂关系进行建模，它比传统的浅层模型有更多层的非线性变换，使得其在表达和建模能力上更强大，在音频信号这种复杂信号的处理上更有优势。

第一神经元4，用于根据特征使用交叉熵损失函数判断第一音频信号是否为语音信号以得到加权系数；

在本实施例中，第一音频信号为语音信号时，加权系数为1；第一音频信号不是语音信号时，加权系数为0。

第二神经元5，用于根据所述特征及所述加权系数使用误差损失函数得到所述第一音频信号的质量得分。

在本实施例中，第一个神经元4激活函数为sigmoid(神经网络的激活函数)，使用交叉熵作为损失函数，用于判断当前信号是否为语音；第二个神经元5使用最小均方差或平均绝对误差作用损失函数，代表当前语音质量得分。在判断当前信号为语音信号后才进行语音质量评估，提供判断结果的准确性。

在可选的另一实施方式中，可以不使用交叉熵损失函数判断第一音频信号是否为语音信号，直接使用误差损失函数确定语音信号的质量得分，简化处理过程。

本实施例中的音频信号如电话语音，因电话语音中存在非语音信号，如音乐铃声，非语音信号会降低评估分数的鲁棒性，故采用多标签模型的思想，即基于音频输入信号，在判断其是否为语音信号时，同时得到语音质量评估的得分。使用多标签模型，利用深度学习框架，提取音频信号的短时频域特征，在损失函数上对二者进行约束，最后根据是否为语音对语音质量得分加权，实现了监控电话通话质量的目的。

本实施例的基于神经网络的语音质量评估模型运行时的示意图，如图2所示，对待评估的音频信号进行端点检测，舍去静音段得到第一音频信号，以节省计算资源。对第一音频信号做预处理，包含预加重、分帧、加窗、快速傅里叶变换，梅尔频率转换，提取在时间序列上拼接成的梅尔滤波器语谱图。利用三层二维卷积层提取语谱图的初始特征，其中两层GRU网络用于记录历史信息的影响，用一层全连接DNN用于对GRU提取的中间特征进行整合以得到语谱图的特征。全连接DNN后接两个神经元，第一个神经元激活函数使用sigmoid交叉熵作为损失函数，用于判断当前信号是否为语音；第二个神经元使用最小均方差损失函数，获取当前语音质量得分。

本实施例的语音质量的评估模型，通过获取音频信号的语谱图，利用深度学习框架，提取音频信号的短时频域特征，利用多标签模型，在损失函数上对二者进行约束，最后根据是否为语音信号对语音质量得分加权，实现了判断当前音频信号是否为语音的同时得到了语音信号的质量评分，在进行语音质量评估时不需要参考信号，评估过程更简单。

实施例2

本发明提供一种语音质量的评估模型的训练方法，如图3所示，语音质量评的估模型包括实施例1中的语音质量的评估模型，训练方法包括以下步骤：

步骤S101、标注样本语音；

在本实施例中，样本语音为0.5秒的音频块，通过人工方式标注样本语音是音乐或是语音信号，人工对样本语音进行打分，语音信号标注为1，音乐标注为0。

步骤S102、计算交叉熵损失函数；

步骤S103、基于交叉熵损失函数将样本语音输入到语音质量的评估模型进行预训练；

在本实施例中只计算交叉熵损失函数，在训练是否为语音信号的分类任务同时预训练整个模型。

步骤S104、计算交叉熵损失函数和误差损失函数；

步骤S105、基于交叉熵损失函数和误差损失函数将样本语音输入到语音质量的评估模型进行联合训练。

在本实施例中同时计算交叉熵损失函数、误差损失函数进行联合训练，使用多标签任务提高各自效果。

本实施例的语音质量的评估模型的训练方法，对模型首先只训练是否为语音的分类部分，由于语音、非语音之间区别明显，模型能够学到更多表示语音的高层特征，同时其能够起到预训练模型中的作用。然后将是否为语音的分类部分与语音质量评估的回归部分联合训练，使用多标签任务提高各自效果。

实施例3

本发明提供一种语音质量的评估方法，如图4所示，包括以下步骤：

S303、将待评估音频信号输入到使用实施例2的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到待评估音频信号是否为语音信号以及待评估音频信号的质量得分。

客服会与客户需要进行大量联系，为了更好的通话质量，需要实时保证隐私的监测电话语音通讯。如果有明显的语音质量下降的情况，需要及时的介入检查电话、网络、运营商等问题，以维持电话通讯处于优质的状态。本实施例的语音质量的评估方法目的在于通过电话实时语音，评估当前通话质量，对网络波动等降低通话稳定性情况进行及时的反馈。

本实施例的语音质量的评估方法，使用多标签模型，实现了判断当前信号是否为语音的同时得到语音质量分数，利用该模型结果，通讯线路维护人员可以实时监控当前整体的通话质量是否有波动，另外也可以评估是否有坐席的线路表现异常。对于通讯异常及时预警，可以保障语音通讯能一直处于较高的质量。

在一可选的实施方式中，语音质量的评估方法还包括以下步骤：

步骤S301、对待评估音频信号进行端点检测得到第二音频信号；

步骤S302、对第二音频信号进行预处理得到待评估语谱图；

步骤S303具体包括：

步骤S3031、将待评估语谱图输入到使用实施例2的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到待评估语谱图是否为语音信号以及评估语谱图的质量得分。

在本实施方式中，通过对待评估音频信号进行端点检测和预处理，对待评估音频信号进行信号过滤，滤除无效信号，得的评估语谱图后再使用实施例2的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到待评估语谱图是否为语音信号以及评估语谱图的质量得分，可进一步提高语音信号评估结果的准确性。

在另一可选的实施方式中，步骤S302具体包括：

对第二音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的待评估语谱图。

在本实施例中，通过频率转换提取第一音频信号的短时频域特征，相对应频域分析方法，对外界环境有较好的鲁棒性，而且可以得到例如共振峰参数、基音周期参数等具有实际物理意义的语音特征。

在另一可选的实施方式中，本实施例的语音质量的评估方法，在客服与客人的语音电话场景下，通过实时的监控通话质量，能对通话质量波动、下降等情况做出及时预警。

本实施例的语音质量的评估方法使用多标签模型，实现了判断当前信号是否为语音的同时得到语音质量分数，实现了监控电话通话质量的目的。

实施例4

本发明还提供一种语音质量的评估系统，如图5所示，包括：质量评估模块5，用于将待评估音频信号输入到使用实施例2所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及待评估音频信号的质量得分。

本实施例的语音质量的评估系统，使用多标签模型，实现了判断当前信号是否为语音的同时得到语音质量分数，利用该模型结果，通讯线路维护人员可以实时监控当前整体的通话质量是否有波动，另外也可以评估是否有坐席的线路表现异常。对于通讯异常及时预警，可以保障语音通讯能一直处于较高的质量。

在一可选的实施方式中，语音质量的评估系统还包括：

信号端点检测模块6，用于对待评估音频信号进行端点检测得到第二音频信号；

信号预处理模块7，用于对第二音频信号进行预处理得到待评估语谱图；

所述质量评估模块5具体包括：

质量评估单元51，用于将待评估语谱图输入到使用实施例2的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到待评估语谱图是否为语音信号以及所述待评估语谱图的质量得分。

在本实施方式中，通过对待评估音频信号进行端点检测和预处理，对待评估音频信号进行信号过滤，滤除无效信号，得的评估语谱图后再使用实施例2的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到待评估语谱图是否为语音信号以及所述待评估语谱图的质量得分，可进一步提高语音信号评估结果的准确性。

在另一可选的实施方式中，信号预处理模块7具体包括：

预处理单元71，用于对第二音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的待评估语谱图。

在另一可选的实施方式中，本实施例的语音质量的评估系统，在客服与客人的语音电话场景下，通过实时的监控通话质量，能对通话质量波动、下降等情况做出及时预警。

本实施例的语音质量的评估系统使用多标签模型，实现了判断当前信号是否为语音的同时得到语音质量分数，实现了监控电话通话质量的目的。

实施例5

图6为本发明实施例5提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的基于神经网络的语音质量的评估模型或实施例2的语音质量的评估模型的训练方法或实施例3的语音信号质量的评估方法。图6显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的基于神经网络的语音质量的评估模型或实施例2的语音质量的评估模型的训练方法或实施例3的语音信号质量的评估方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例6

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的基于神经网络的语音质量的评估模型或实施例2的语音质量的评估模型的训练方法或实施例3的语音信号质量的评估方法步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的基于神经网络的语音质量的评估模型或实施例2的语音质量的评估模型的训练方法或实施例3的语音信号质量的评估方法中的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于神经网络的语音质量的评估模型，其特征在于，包括：

2.如权利要求1所述的基于神经网络的语音质量的评估模型，其特征在于，所述特征提取模块包括卷积层、GRU网络和DNN网络；

所述卷积层、所述GRU网络和所述DNN网络依次连接；

所述卷积层用于提取所述语谱图的初始特征；

3.如权利要求1所述的基于神经网络的语音质量的评估模型，其特征在于，所述预处理模块还用于对所述第一音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述语谱图。

4.一种语音质量的评估模型的训练方法，其特征在于，所述语音质量评的估模型包括如权利要求1-3中任意一项所述的基于神经网络的语音质量的评估模型，所述训练方法包括：

标注样本语音；

计算所述交叉熵损失函数；

计算所述交叉熵损失函数和所述误差损失函数；

5.一种语音质量的评估方法，其特征在于，包括

将待评估音频信号输入到使用如权利要求4所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分。

6.如权利要求5所述的语音质量的评估方法，其特征在于，所述评估方法还包括：

对待评估音频信号进行端点检测得到第二音频信号；

对所述第二音频信号进行预处理得到待评估语谱图；

所述将待评估音频信号输入到使用如权利要求4所述的语音质量评估模型的训练方法训练所得的语音质量评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分的步骤具体包括：

将所述待评估语谱图输入到使用如权利要求4所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估语谱图是否为语音信号以及所述待评估语谱图的质量得分。

7.如权利要求6所述的语音质量的评估方法，其特征在于，所述对所述第二音频信号进行预处理得到待评估语谱图的步骤具体包括：

8.一种语音质量的评估系统，其特征在于，包括

质量评估模块，用于将待评估音频信号输入到使用如权利要求4所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估音频信号是否为语音信号以及所述待评估音频信号的质量得分。

9.如权利要求8所述的语音质量的评估系统，其特征在于，所述评估系统还包括：

所述质量评估模块具体包括：

质量评估单元，用于将将所述待评估语谱图输入到使用如权利要求4所述的语音质量的评估模型的训练方法训练所得的语音质量的评估模型中以得到所述待评估语谱图是否为语音信号以及所述待评估语谱图的质量得分。

10.如权利要求9所述的语音质量的评估系统，其特征在于，所述预处理模块具体包括：

预处理单元，用于对所述第二音频信号进行预加重、分帧、加窗、快速傅里叶变换和梅尔频率转换以得到在时间序列上拼接成的所述待评估语谱图。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-3中任意一项所述的基于神经网络的语音质量的评估模型或权利要求4所述的语音质量的评估模型的训练方法或权利要求5-7中任意一项所述的语音质量的评估方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-3中任意一项所述的基于神经网络的语音质量的评估模型或权利要求4所述的语音质量的评估模型的训练方法或权利要求5-7中任意一项所述的语音质量的评估方法的步骤。