CN116230017A

CN116230017A - 语音评估方法、装置、计算机设备和存储介质

Info

Publication number: CN116230017A
Application number: CN202111467617.0A
Authority: CN
Inventors: 肖易明; 易高雄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2023-06-06

Abstract

本申请涉及一种云技术的语音评估方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：对原始语音进行语音活动检测，得到对应的待测语音；对所述待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到所述待测语音对应的声学特征；对所述声学特征进行卷积处理，得到不同时刻的深度特征；基于所述不同时刻的深度特征进行质量评估处理，得到所述原始语音对应的质量评估结果。采用本方法能够有效对线上的实时语音进行质量监控和质量评估。

Description

语音评估方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音评估方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，出现了语音质量评估技术。语音质量评估技术用于对语音的质量进行检测，以应用在语音合成、语音转换和语音增强等多个场景。

传统的语音质量评估技术往往使用有参考的语音质量评估方法，有参考的语音质量评估方法首先对参考语音以及损伤语音进行电平调整以及时间对齐，以确保两者之间的差异仅为质量不同所导致，随后对上述语音对做听觉转换，最后对比两者听觉转换后之间的差距估计出待测语音质量分数。可见，有参考的语音质量评估方法需要无损参考语音作为对比，计算损伤语音信号与参考信号之间的差距，才能估计出相应分数。

然而，目前的有参考语音质量评估方法需要无损的参考信号作为参考，而这在实际场景中难以获取，因而该方法只能线下评估而无法实现线上的语音质量实时评估。

发明内容

基于此，有必要针对上述技术问题，提供一种能够进行实时评估的语音评估方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

本申请提供了一种语音评估方法，所述方法包括：

对原始语音进行语音活动检测，得到对应的待测语音；

对所述待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到所述待测语音对应的声学特征；

对所述声学特征进行卷积处理，得到不同时刻的深度特征；

基于所述不同时刻的深度特征进行质量评估处理，得到所述原始语音对应的质量评估结果。

本申请还提供了一种语音评估装置，所述装置包括：

检测模块，用于对原始语音进行语音活动检测，得到对应的待测语音；

转换模块，用于对所述待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到所述待测语音对应的声学特征；

卷积模块，用于对所述声学特征进行卷积处理，得到不同时刻的深度特征；

处理模块，用于基于所述不同时刻的深度特征进行质量评估处理，得到所述原始语音对应的质量评估结果。

在一个实施例中，所述检测模块，还用于对原始语音进行分帧处理，得到对应的各帧语音信号；确定每帧所述语音信号分别对应的短时能量和短时过零率；基于所述短时能量和所述短时过零率，从各帧所述语音信号中筛选出有效信号帧，以获得待测语音。

在一个实施例中，所述检测模块，还用于对每帧所述语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到对应的频谱；基于每帧所述语音信号分别对应的频谱，确定每帧所述语音信号的短时能量；获取每帧所述语音信号分别对应的时域波形，基于所述时域波形确定各自对应语音信号的短时过零率。

在一个实施例中，所述卷积模块，还用于对所述声学特征进行分帧处理，得到不同时刻的特征帧；对所述不同时刻的特征帧进行卷积处理和归一化处理，得到不同时刻的深度特征。

在一个实施例中，所述处理模块，还用于基于当前时刻的输入特征和所述当前时刻的前序时刻输出的隐层特征，确定所述当前时刻的输出特征，并确定特征对象在所述当前时刻的更新参数；所述当前时刻的输入特征为相应时刻的深度特征，所述特征对象表征特征传输的路径；基于所述前序时刻的特征对象、所述当前时刻的输出特征和所述更新参数，确定所述当前时刻的特征对象；基于所述前序时刻输出的隐层特征、所述当前时刻的输出特征和所述当前时刻的特征对象，确定所述当前时刻输出的隐层特征；将下一时刻的输入特征作为当前时刻的输入特征，并返回所述基于当前时刻的输入特征和所述当前时刻的前序时刻输出的隐层特征，确定所述当前时刻的输出特征的步骤并继续执行，直至得到最后一时刻所输出的隐层特征；基于所述最后一时刻所输出的隐层特征，确定所述原始语音对应的质量评估结果。

在一个实施例中，所述装置应用于目标语音评估模型；所述目标语音评估模型包括遗忘门、输入门和输出门，所述特征对象为细胞元；所述处理模块，还用于通过所述遗忘门基于当前时刻的输入特征和所述当前时刻的前序时刻输出的隐层特征，确定所述遗忘门在所述当前时刻的输出特征；通过所述输入门基于所述当前时刻的输入特征和所述前序时刻输出的隐层特征，确定所述输入门在所述当前时刻的输出特征；通过所述输入门基于所述当前时刻的输入特征和所述前序时刻输出的隐层特征，确定所述细胞元在所述当前时刻对应的更新参数；基于所述遗忘门在所述当前时刻的输出特征、所述输入门在所述当前时刻的输出特征、所述更新参数和所述前序时刻的特征对象，确定所述当前时刻的特征对象；通过所述输出门基于所述当前时刻的输入特征和所述前序时刻输出的隐层特征，确定所述输出门在所述当前时刻的输出特征；基于所述输出门在所述当前时刻的输出特征和所述当前时刻的细胞元，确定所述当前时刻输出的隐层特征。

在一个实施例中，所述装置应用于视频会议；所述检测模块，还用于对视频会议进行语音活动检测，得到对应的实时语音；

所述转换模块，还用于对所述实时语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到所述实时语音对应的实时声学特征；

所述卷积模块，还用于对所述实时声学特征进行卷积处理，得到不同时刻的目标深度特征；

所述处理模块，还用于基于所述不同时刻的目标深度特征进行质量评估处理，得到所述视频会议中的实时语音的质量评估得分；

所述装置还包括：触发模块，所述触发模块，用于若所述实时语音的质量评估得分不满足预设质量条件，则触发提醒操作。

在一个实施例中，所述装置应用于目标语音评估模型，所述目标语音评估模型的训练步骤包括：

获取模块，用于获取第一语音样本、以及与所述第一语音样本不同的第二语音样样本；

评估模块，用于通过待训练的语音评估模型分别对所述第一语音样本和所述第二语音样本进行质量评估处理，得到第一预测结果和第二预测结果；

质量差异确定模块，用于确定所述第一预测结果和所述第二预测结果分别与各自所对应的评价标签之间的质量差异；

排序损失确定模块，用于根据所述第一预测结果和所述第二预测结果，确定所述第一语音样本和所述第二语音样本之间的排序损失；

构建模块，用于基于各所述质量差异和所述排序损失，构建目标损失函数；

训练模块，用于通过所述目标损失函数对所述待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；所述目标语音评估模型用于对所述原始语音进行质量评估。

本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对原始语音进行语音活动检测，得到对应的待测语音；对所述待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到所述待测语音对应的声学特征；对所述声学特征进行卷积处理，得到不同时刻的深度特征；基于所述不同时刻的深度特征进行质量评估处理，得到所述原始语音对应的质量评估结果。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本申请还提供了一种计算机程序产品，所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述语音评估方法、装置、计算机设备、存储介质和计算机程序产品，通过对原始语音进行语音活动检测，能够消除原始语音中的静音，得到有效的待测语音。对待测语音进行时频转换处理，以体现待测语音的信号频率随时间变化的相关信息。对时频转换处理所得到的语音信号进行特征提取，以获得体现时频关系的声学特征。对声学特征进行卷积处理，能够得到更高维度、更深层次的不同时刻的深度特征。基于更高维度、更深层次的不同时刻的深度特征进行质量评估处理，能够准确评估出原始语音的质量，从而得到对应的质量评估结果。并且，本实施例在进行语音质量评估的过程中并不需要参考信号参与评估，只需要使用原始语音的信号即可有效评估语音质量，从而能够实时评估语音的质量。

本申请提供了一种语音评估模型训练方法，所述方法包括：

获取第一语音样本、以及与所述第一语音样本不同的第二语音样本；

通过待训练的语音评估模型分别对所述第一语音样本和所述第二语音样本进行质量评估处理，得到第一预测结果和第二预测结果；

确定所述第一预测结果和所述第二预测结果分别与各自所对应的评价标签之间的质量差异；

根据所述第一预测结果和所述第二预测结果，确定所述第一语音样本和所述第二语音样本之间的排序损失；

基于各所述质量差异和所述排序损失，构建目标损失函数；

通过所述目标损失函数对所述待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；所述目标语音评估模型用于对原始语音进行质量评估。

本申请还提供了一种语音评估模型训练装置，所述装置包括：

训练模块，用于通过所述目标损失函数对所述待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；所述目标语音评估模型用于对待测语音进行质量评估。

在一个实施例中，所述排序损失确定模块，还用于根据所述第一预测结果和所述第二预测结果，确定所述第一语音样本的质量高于所述第二语音样本的质量的预测概率；基于所述预测概率和对应的概率标签，确定所述第一语音样本和所述第二语音样本之间的相对关系的正确性；基于所述相对关系的正确性，确定所述第一语音样本和所述第二语音样本之间的排序损失。

在一个实施例中，所述排序损失确定模块，还用于根据所述第一预测结果的评价标签和所述第二预测结果的评价标签，确定所述相对关系的不确定系数；

基于所述相对关系的正确性和所述相对关系的不确定系数，确定所述第一语音样本和所述第二语音样本之间的排序损失。

获取第一语音样本、以及与所述第一语音样本不同的第二语音样本；通过待训练的语音评估模型分别对所述第一语音样本和所述第二语音样本进行质量评估处理，得到第一预测结果和第二预测结果；确定所述第一预测结果和所述第二预测结果分别与各自所对应的评价标签之间的质量差异；根据所述第一预测结果和所述第二预测结果，确定所述第一语音样本和所述第二语音样本之间的排序损失；基于各所述质量差异和所述排序损失，构建目标损失函数；通过所述目标损失函数对所述待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；所述目标语音评估模型用于对待测语音进行质量评估。

上述语音评估模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过待训练的语音评估模型对质量损失程度不同的第一语音样本和第二语音样本分别进行质量评估处理，得到对应的第一预测结果和第二预测结果。确定第一预测结果和第二预测结果分别与各自所对应的评价标签之间的质量差异，能够确定模型预测结果和真实结果之间的差距。根据第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失，能够衡量语音样本对在质量上的相对距离。基于各质量差异和排序损失，构建目标损失函数，使得目标损失函数中结合了排序损失和质量差异，对语音评估模型进行反复训练，以调整模型参数从而提高模型评估的精度，达到停止条件时得到训练好的目标语音评估模型，通过目标语音评估模型能够准确快速对原始语音进行质量评估，并且能够对实时语音进行质量评估，提高语音评估的及时性和评估效率。

附图说明

图1为一个实施例中语音评估方法的应用环境图；

图2为一个实施例中语音评估方法的流程示意图；

图3为一个对原始语音的分帧示意图；

图4为一个实施例中卷积神经网络的结构示意图；

图5为一个实施例中基于不同时刻的深度特征进行质量评估处理，得到原始语音对应的质量评估结果的流程示意图；

图6为一个实施例中长短期记忆网络的结构示意图；

图7为另一个实施例中基于不同时刻的深度特征进行质量评估处理，得到原始语音对应的质量评估结果的流程示意图；

图8a为一个实施例中遗忘门的结构示意图；

图8b为一个实施例中输入门的结构示意图；

图8c为一个实施例中细胞元更新的结构示意图；

图8d为一个实施例中输出门的结构示意图；

图9为另一个实施例中语音评估方法的框架图；

图10为一个实施例中语音评估模型训练方法的流程示意图；

图11为一个实施例中确定语音样本对的排序损失的示意图；

图12为一个实施例中语音评估装置的结构框图；

图13为一个实施例中语音评估装置的结构框图；

图14为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及人工智能(Artificial Intelligence，AI)技术领域，其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。本申请实施例提供的方案涉及人工智能的语音评估方法，具体通过如下各实施例进行说明。

本申请实施例提供的语音评估方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102和服务器104均可单独执行本申请实施例中提供的语音评估方法。终端102和服务器104也可协同用于执行本申请实施例中提供的语音评估方法。当终端102和服务器104协同用于执行本申请实施例中提供的语音评估方法时，终端102获取需要进行质量评估的原始语音，将原始语音发送至服务器104。服务器104对原始语音进行语音活动检测，得到对应的待测语音。服务器104对待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到待测语音对应的声学特征。服务器104对声学特征进行卷积处理，得到不同时刻的深度特征。服务器104基于不同时刻的深度特征进行质量评估处理，得到原始语音对应的质量评估结果。服务器104将原始语音的质量评估结果返回至终端102。

其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种语音评估方法，以该方法应用于计算机设备(计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤S202，对原始语音进行语音活动检测，得到对应的待测语音。

其中，语音即语言的物质外壳，是语言的外部表现形式。原始语音是直接采集的、未经过处理的音频，具体包括说话声、歌声、乐器发出的声音等，还可以包括视频中出现的音频，视频可以是从电影、电视剧、节目和动画中的至少一种。待测语音是从原始语音中提取的可用于进行质量评估的有效语音。

语音活动检测(Voice Activity Detection，VAD)又称语音端点检测或语音边界检测，用于从声音信号流里识别和消除长时间的静音期。

具体地，计算机设备可以从本地或其他设备或网络上获取原始语音，也可以通过录制得到音频、视频，将录制的音频作为原始语音，或者从视频中提取出音频作为原始语音。计算机设备对原始语音进行语音活动检测，以识别并去除原始语音中的静音，得到对应的待测语音。

步骤S204，对待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到待测语音对应的声学特征。

其中，声学特征表征待测语音中的关键信息，可包括音高特征、音强特征、音长特征和音色特征中的至少一种。进一步地，声学特征是指待测语音中的关键信息在时域、频域上的表达，时域(Time domain)是描述数学函数或物理信号对时间的关系。例如语音信号与时间的关系。频域(frequency domain)是描述信号在频率方面特性时所使用的坐标系。例如，声学特征可以是Mel谱梅尔倒频谱系数(Mel-Frequency Cipstal Coefficients，MFCC)特征。

音高特征表征声音的高低、音强特征表征声音的强弱、音长特征表征声音的长短，音色特征表征声音的特色和本质，也称作“音质”。

时频转换处理用于确定语音信号的时间和频率之间的关系，以揭示语音信号中的频率分量及其随时间的变化过程。进一步地，时频转换处理是指通过时频分析方式将语音的信号从时域转换到频域，并同时保留语音信号的时域信息和频域信息，以体现语音信号的时频关系。时频分析方式可以是短时傅里叶变换(STFT，short-time Fouriertransform，或short-term Fourier transform))或小波变换(WT，wavelettransform)等。短时傅里叶变换是和傅里叶变换相关的一种数学变换，短时傅里叶变换就是对短时的信号做傅里叶变换，用以确定时变信号其局部区域正弦波的频率与相位。小波变换是一种新的变换分析方法，它继承和发展了短时傅立叶变换局部化的思想，同时又克服了窗口大小不随频率变化等缺点，能够提供一个随频率改变的“时间-频率”窗口。

具体地，计算机设备可对待测语音进行时频转换处理，得到待测语音对应的语谱图。对语谱图进行特征提取，得到对应的声学特征。

时频转换处理可以是傅里叶变换或短时傅里叶变换，短时傅里叶变换是对一段长语音信号进行分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿另一维度堆叠，得到一张图，这张图就是声谱图。

计算机设备可对待测语音进行分帧处理，并对分帧处理得到的各帧语音信号进行加窗处理。计算机设备对加窗处理后的各帧语音信号分别进行傅里叶变换，得到待测语音对应的语谱图。对语谱图进行特征提取，得到对应的声学特征。进一步地，计算机设备对加窗处理后的各帧语音信号分别做傅里叶变换，得到每帧语音信号对应的频谱，将每帧频谱沿着时间维度堆叠，得到待测语音对应的语谱图。

在一个实施例中，计算机设备可对语谱图进行梅尔谱变换，得到对应的梅尔频谱，将梅尔频谱作为待测语音的声学特征。进一步地，可通过梅尔尺度滤波器组(Mel-scalefilterbanks)对语谱图进行梅尔谱变换，得到梅尔频谱mel(f)，以凸显语音信号的低频部分，变换公式如下：

其中f为语音信号频率。

步骤S206，对声学特征进行卷积处理，得到不同时刻的深度特征。

其中，深度特征是指对声学特征进行进一步特征提取所得到的更深层次、更高维度、更抽象的关键信息。

具体地，计算机设备对声学特征进行多层卷积处理，得到不同时刻的深度特征。进一步地，计算机设备对声学特征进行分帧处理，并对分帧处理所得到的不同时刻的特征帧进行多层卷积处理，得到不同时刻的深度特征。

在一个实施例中，计算机设备将分帧处理所得到的不同时刻的特征帧输入卷积神经网络，通过卷积神经网络的多个卷积层进行卷积处理，得到不同时刻的深度特征。

在一个实施例中，可对梅尔频谱进行分帧，得到每个时刻的语音信号对应的梅尔频谱，例如50ms的梅尔频谱。将每个时刻的梅尔频谱作为特征帧，可得到不同时刻的特征帧。

在一个实施例中，可采用48个梅尔滤波器组对待测语音的语谱图进行特征提取，得到梅尔频谱，随后对梅尔频谱进行分帧，取50ms的梅尔频谱作为神经网络的输入。因此，输入卷积神经网络的梅尔谱特征维度为T_d×48×15，其中T_d与语音信号的时间长度。

步骤S208，基于不同时刻的深度特征进行质量评估处理，得到原始语音对应的质量评估结果。

其中，质量评估结果是指对原始语音的质量进行评估所得到的评估结果。质量评估结果具体可以是质量评估分值，例如可以是平均主观分数(MOS，mean opinion score)，即可以使用MOS值来评价语音的质量。

具体地，计算机设备对不同时刻的深度特征进行进一步的特征提取和特征融合处理，得到融合更多特征信息的隐层特征。对隐层特征进行全连接处理，得到原始语音对应的质量评估结果。

在一个实施例中，质量评估结果可以包含MOS值，计算机设备对不同时刻的深度特征进行进一步的特征提取和特征融合处理，得到高纬度的隐层特征。对隐层特征进行全连接处理，得到原始语音对应的MOS值，将MOS值作为原始语音对应的质量评估结果。

本实施例中，对原始语音进行语音活动检测，能够消除原始语音中的静音，得到有效的待测语音。对待测语音进行时频转换处理，以体现待测语音的信号频率随时间变化的相关信息。对时频转换处理所得到的语音信号进行特征提取，以获得体现时频关系的声学特征。对声学特征进行卷积处理，能够得到更高维度、更深层次的不同时刻的深度特征。基于更高维度、更深层次的不同时刻的深度特征进行质量评估处理，能够准确评估出原始语音的质量，从而得到对应的质量评估结果。并且，本实施例在进行语音质量评估的过程中并不需要参考信号参与评估，只需要使用原始语音的信号即可有效评估语音质量，从而能够实时评估语音的质量。

传统的语音评估方法需要同时使用待评估语音的信号和参考信号进行质量评估，才能够确定出待评估语音的语音质量。但是参考信号在实时音视频场景当中是无法获取的，而通过本实施例的语音评估方法仅需要待评估语音的信号即可有效地进行线上的实时语音质量的评估，并能够提高语音质量评估的效率。

在一个实施例中，对原始语音进行语音活动检测，得到对应的待测语音，包括：

对原始语音进行分帧处理，得到对应的各帧语音信号；确定每帧语音信号分别对应的短时能量和短时过零率；基于短时能量和短时过零率，从各帧语音信号中筛选出有效信号帧，以获得待测语音。

其中，短时能量就是计算较短时间内的语音能量，通常是一帧时间内的语音能量。无声段的短时能量为零，即静音时的短时能量为零。

短时过零率是语音信号时域分析中的一种特征参数，是指每帧内信号通过零值的次数。对有时间横轴的连续语音信号，可以观察到语音的时域波形通过横轴的情况。在离散时间语音信号情况下，如果相邻的采样具有不同的代数符号就称为发生了过零，因此可以计算过零的次数。单位时间内过零的次数就称为过零率。一段长时间内的过零率称为平均过零率。

具体地，计算机设备可对原始语音按照预设时长进行分帧处理，得到对应的各帧语音信号。例如，按照每20毫秒(ms)进行分帧处理，得到每帧为20毫秒的语音信号。计算机设备可分别计算每帧语音信号的短时能量和短时过零率，根据各帧语音信号的短时能量和短时过零率，筛除原始语音中的静音片段，得到有效信号帧，以获得待测语音。待测语音中的每帧信号均为有效信号，即非静音信号。

如图3所示，为一个实施例中对原始语音的分帧示意图。将整段语音信号分成若干段，每一段即为一帧。并在分帧时让相邻两帧存在重叠部分，即为重叠帧。例如，第k帧语音信号和第(k-1)帧语音信号之间存在重叠的部分信号，第(k+1)帧语音信号和第k帧语音信号之间存在重叠的部分信号。

本实施例中，对原始语音进行分帧处理，得到对应的各帧语音信号，确定每帧语音信号分别对应的短时能量和短时过零率，将短时能量和短时过零率作为筛选有效信号帧的条件，能够有效从各帧语音信号中去除静音的信号、筛选出有效信号帧，从而准确从原始语音中提取出待测语音。

在一个实施例中，确定每帧语音信号分别对应的短时能量和短时过零率，包括：

对每帧语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到对应的频谱；基于每帧语音信号分别对应的频谱，确定每帧语音信号的短时能量；获取每帧语音信号分别对应的时域波形，基于时域波形确定各自对应语音信号的短时过零率。

其中，加窗处理是指将语音信号与特定的窗函数做积，实现语音信号时频局域化的效果。窗函数例如矩形窗、三角窗以及汉宁窗，窗函数一般具有低通特性。频谱又称振动谱，是频率谱密度的简称，是频率的分布曲线。时域波形是指语音信号在时域上对应的波形。语音信号的时域波形可以表达语音信号随着时间的变化。

具体地，计算机设备可获取窗函数，通过窗函数对每帧语音信号分别进行加窗处理，得到各帧加窗处理后的语音信号。

例如，窗函数为汉宁窗，汉宁窗主瓣宽度变宽，旁瓣显著变小，能更好地防止频谱泄露，该汉宁窗的函数表达式w(n)如下所示：

其中，S为窗长，n表示第n帧语音信号。每帧语音信号加窗处理的窗长以及步长点数分别为20ms*sr或10ms*sr。其中sr代表语音信号的采样率。

计算机设备可对加窗处理后的每帧语音信号分别进行时频转换处理，得到每帧语音信号分别对应的频谱。进一步地，计算机设备可对每帧语音信号分别进行傅里叶变换，得到每帧语音信号分别对应的频谱。根据语音信号对应的频谱，可计算出该语音信号的短时能量。

在一个实施例中，计算机设备可对每帧语音信号分别进行小波变换，得到每帧语音信号分别对应的频谱。

例如，每帧语音信号为x(n)，加窗处理后的每帧语音信号为

随后对加窗后的每帧语音信号做傅里叶变换如下式所示，经过傅里叶变换后可得到对应的频谱/>

其中，f为语音信号的频率，j表示复数，N₂表示每帧语音信号的长度。

接着可利用下式计算每帧语音信号的短时能量：

其中，

代表每帧的短时能量，N₁为语音信号的频带数。

计算机设备可获取每帧语音信号在时域分别对应的时域波形，确定单帧语音信号的时域波形在该帧时间内过零的次数，该过零的次数即为该单帧语音信号的短时过零率。按照相同的处理方式，可得到每帧语音信号分别对应的短时过零率。

在一个实施例中，计算机设备可确定单帧语音信号在时域的时域波形，并确定该时域波形通过横轴的次数，通过横轴的次数即为过零的次数，即可得到对应的短时过零率。

在一个实施例中，得到各帧语音信号的短时能量和短时过零率后，可将短时能量与短时过零率结合作为VAD的有效手段，评判规则如下：

静音帧的短时能量与短时过零率较低；

静音到非静音的转换伴随短时能量的剧增；

背景噪声短时能量波动较小；

静音到非静音的转换伴随短时过零率的剧增。

基于各评判规则可以有效从各帧语音信号中筛选出静音信号帧，得到有效信号帧。

本实施例中，窗函数一般具有低通特性，通过加窗处理能够减小语音信号的频谱泄露，使得因被泄露的能量所掩盖而看不到的频率分量也可以清晰地显示出来。对加窗处理后的语音信号进行时频转换处理，以得到语音信号的频率的分布曲线，即频谱，从而通过频谱体现语音信号随着时间的变化。基于每帧语音信号分别对应的频谱准确确定每帧语音信号的短时能量，并基于每帧语音信号分别对应的时域波形，准确确定各自对应语音信号的短时过零率，从而能够将短时能量和短时过零率作为从原始语音中去除静音片段的条件，使得能够准确提取出有效语音。由于待测语音中丢掉了静音片段,使得从待测语音中所提取的特征更加显著地反映语音特点，有助于提升后续的语音质量客观评价的准确性。

在一个实施例中，对声学特征进行卷积处理，得到不同时刻的深度特征，包括：

对声学特征进行分帧处理，得到不同时刻的特征帧；对不同时刻的特征帧进行卷积处理和归一化处理，得到不同时刻的深度特征。

具体地，计算机设备对声学特征进行分帧处理，得到不同时刻的特征帧。计算机设备对不同时刻的特征帧进行卷积处理，并对卷积处理所得到的特征进行归一化处理，得到不同时刻的深度特征。

在一个实施例中，计算机设备对不同时刻的特征帧进行多次卷积处理，并且在每完成一次卷积处理后执行归一化处理，即对卷积处理后的特征帧进行归一化处理。完成归一化处理后，再对归一化处理的特征帧进行下一次的卷积处理和归一化处理，直至得到最后一次归一化处理后的各不同时刻的特征帧。

在一个实施例中，对不同时刻的特征帧进行卷积处理和归一化处理，得到不同时刻的深度特征，包括：对不同时刻的特征帧进行卷积处理，并对卷积处理后的特征帧进行归一化处理，得到不同时刻的深度特征。

在一个实施例中，对卷积处理后的特征帧进行归一化处理，得到不同时刻的深度特征，包括：

确定卷积处理后的各不同时刻的特征帧的均值，并基于均值和卷积处理后的各不同时刻的特征帧，分别确定不同时刻的特征帧分别对应的方差；根据均值和方差对不同时刻的特征帧进行归一化处理，得到不同时刻的深度特征。

在一个实施例中，计算机设备将不同时刻的特征帧输入卷积神经网络，通过卷积神经网络的多个卷积层进行卷积处理，得到不同时刻的深度特征。卷积神经网络结构如图4所示，包括卷积层、池化层和全连接层，具体包括六层卷积层，其中每层卷积层后面都接有相应的非线性激活函数ReLU以及归一化函数BatchNorm。每个卷积层、池化层和全连接层的输入大小、卷积核大小、步长、通道数、输出的特征大小等具体参数数值如图4所示。

归一化函数如下式：

其中，BN_γ,β为BatchNorm归一化函数，x_i为输入特征，mini-Batch为m，

以及/>

分别为x_i的均值以及方差。γ以及β为BN_γ,β函数的可学习参数，分别代表再放缩以及再平移参数。BN_i为经过BN_γ,β函数计算后得到的深度特征。BN_γ,β函数将输入分布从饱和区拉到了非饱和区，减小了梯度弥散，提升了训练速度，收敛过程大大加快。同时，在卷积层后加入最大池化层，在保留卷积层特征的同时减小特征维度，从而减小网络计算量。随后将最后一层卷积层输出进行压平，再加一层全连接层从而将高维特征进一步压缩。本实施例中的卷积神经网络为深度可分离网络，能够进一步压缩模型大小，大大减少了网络参数量以及计算量，避免了传统的卷积神经网络计算量过大的问题。

本实施例中，对声学特征进行分帧处理，得到不同时刻的特征帧，对不同时刻的特征帧进行卷积处理以进一步提取高维的的深层次的关键特征，经过归一化处理能够在保留卷积所提取的关键特征的同时减小特征维度，从而减小网络计算量。

在一个实施例中，如图5所示，基于不同时刻的深度特征进行质量评估处理，得到原始语音对应的质量评估结果，包括：

步骤S502，基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征，并确定特征对象在当前时刻的更新参数；当前时刻的输入特征为相应时刻的深度特征，该特征对象表征特征传输的路径。

其中，前序时刻是指时间点在当前时刻之前的时刻，前序时刻可以是当前时刻的前N个时刻，例如前一时刻、前两个时刻等，但不限于此。

具体地，计算机设备将不同时刻的深度特征输入长短期记忆网络(LSTM)，以使长短期记忆网络基于不同时刻的深度特征进行质量评估处理，得到对应的质量评估结果。特征对象表征长短期记忆网络中用于特征传输的路径，该路径上包括需要传输到下一处理节点的特征。

可以理解的是，将不同时刻的深度特征作为不同时刻的输入特征。首个时刻没有前序时刻，则首个时刻没有前序时刻输出的隐层特征，则长短期记忆网络对首个时刻的输入特征进行处理，确定首个时刻的输出特征，并且特征对象在首个时刻的更新参数。首个时刻的特征对象包括该首个时刻的输出特征。

从第二个时刻起，长短期记忆网络将当前时刻对应的深度特征作为当前时刻的输入特征，根据当前时刻的输入特征和和前序时刻的隐层特征，计算出当前时刻的输出特征。

并且，长短期记忆网络根据当前时刻的输入特征和和前序时刻的隐层特征，确定特征对象在当前时刻的更新参数。

步骤S504，基于前序时刻的特征对象、当前时刻的输出特征和更新参数，确定当前时刻的特征对象。

具体地，长短期记忆网络获取前序时刻对应的特征对象，根据前序时刻的特征对象、当前时刻的输出特征和特征对象在当前时刻的更新参数，确定当前时刻的特征对象。

例如，长短期记忆网络获取当前时刻的前一时刻对应的特征对象，根据前一时刻的特征对象、当前时刻的输出特征和特征对象在当前时刻的更新参数，确定当前时刻的特征对象。

步骤S506，基于前序时刻输出的隐层特征、当前时刻的输出特征和当前时刻的特征对象，确定当前时刻输出的隐层特征。

具体地，长短期记忆网络获取前序时刻输出的隐层特征，基于前序时刻输出的隐层特征、当前时刻的输出特征和当前时刻的特征对象，确定当前时刻输出的隐层特征。

步骤S508，确定当前时刻是否为最后一时刻，否则执行步骤S510，是则执行步骤S512。

步骤S510，将下一时刻的输入特征作为当前时刻的输入特征，并返回基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征的步骤并继续执行，直至得到最后一时刻所输出的隐层特征。

具体地，确定当前时刻是否为最后一时刻，是则执行步骤S512，否则在获得当前时刻输出的隐层特征后，将下一时刻的深度特征作为该下一时刻的输入特征。将下一时刻的输入特征作为当前时刻的输入特征，并返回基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征的步骤并继续执行，从而得到新的当前时刻输出的隐层特征，并进行下一时刻的处理，直至得到最后一时刻所输出的隐层特征。

步骤S512，基于最后一时刻所输出的隐层特征，确定原始语音对应的质量评估结果。

具体地，计算机设备通过长短期记忆网络基于最后一时刻所输出的隐层特征，确定出该原始语音对应的质量评估结果。进一步地，对最后一时刻输出的隐层特征进行全连接处理，得到原始语音对应的质量评估结果。

本实施例中，将不同时刻的深度特征进行更深层次的特征提取和融合，使得每个时刻的处理得到的隐层特征都融合了前序时刻的隐层特征，使得越往后处理所得到的隐层特征获得更多的有用信息，从而使得最后一时刻所输出的隐层特征融合了不同时刻的深度特征的所有关键信息。通过最后一时刻所输出的隐层特征，能够准确评估出原始语音的质量。并且，通过语音信号分帧策略和特征分帧策略，能够降低实时计算量，可以更有效进行上线使用。

在一个实施例中，如图6所示，为一个实施例中长短期记忆网络LSTM的结构。LSTM网络的内部状态可以展示动态时序行为，可以利用内部的记忆来处理变长的输入序列，且可以有效解决长时间依赖问题。LSTM网络包括遗忘门、输入门、输出门三个门，以及细胞元和隐藏层。细胞元相当于传输带，即特征传输的路径，包含当前要传输的特征。遗忘门用于确定要从细胞元中丢弃的信息，即要丢弃哪些正在传输的特征。输入门用于确定要往细胞元中添加的新特征，包括两个部分：sigmoid决定什么值将被更新，tanh确定一个新的候选值向量。通过将上一个细胞元所包含的特征和遗忘门的输出特征相乘，以丢弃不需要的信息，并与输入门的输出特征相加，以添加有用的新信息，从而实现细胞元的更新。输出门用于基于细胞元确定要输出的特征。其中，f_t为遗忘门在t时刻的输出特征，i_t为输入门在t时刻的输出特征，o_t为输出门在t时刻的输出特征，C_t为细胞元在t时刻包含的特征，h_t为隐藏层在t时刻输出的隐层特征。x_t为当前时刻的输入特征，

表示细胞元在t时刻的更新参数，C_t-1为(t-1)时刻的细胞元，h_t-1为前一时刻的隐层特征。σ为激活函数以增强LSTM网络的非线性学习能力，本实施例中使用Sigmoid作为激活函数。

在一个实施例中，如图7所示，该方法应用于目标语音评估模型；该目标语音评估模型包括遗忘门、输入门和输出门，特征对象为细胞元；基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征，并确定特征对象在当前时刻的更新参数，包括步骤S702至步骤S706：

步骤S702，通过遗忘门基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定遗忘门在当前时刻的输出特征。

具体地，该语音评估方法应用于目标语音评估模型，该目标语音评估模型包括遗忘门、输入门、输出门和细胞元，细胞元包括当前传输的特征。

计算机设备将原始语音输入目标语音评估模型，经过目标语音评估模型所执行的语音活动检测、时频转换处理、特征提取和卷积处理后，得到不同时刻的深度特征。将不同时刻的深度特征作为对应的时刻的输入特征，目标语音评估模型的遗忘门基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定遗忘门在当前时刻的输出特征。

在一个实施例中，遗忘门用于确定当前时刻要丢弃的特征，则遗忘门在当前时刻的输出特征即为待丢弃的特征。

可以理解的是，首个时刻没有前序时刻，则首个时刻没有前序时刻输出的隐层特征，则遗忘门在首个时刻没有需要丢弃的特征。

从第二个时刻起，遗忘门根据当前时刻的输入特征和和前序时刻的隐层特征，计算出当前时刻待丢弃特征，即输出特征。

如图8a所示，为一个实施例中遗忘门的结构，即图8a中加粗黑线所示的结构。f_t为遗忘门在当前时刻的输出特征，表示C_t-1的哪些特征被用于计算C_t。f_t是一个向量，向量的每个元素均位于[0，1]范围内。而遗忘门的f_t可以由下式获取：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中，h_t-1为t-1时刻的隐层特征，W_f、b_f分别为遗忘门的可学习参数，σ为遗忘门激活函数以增强网络非线性学习能力，可使用Sigmoid作为激活函数。由f_t计算公式可知，遗忘门的输出特不仅与当前时刻的输入x_t有关，还与前一时刻的隐藏层的隐层特征h_t-1有关。

步骤S704，通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输入门在当前时刻的输出特征。

步骤S706，通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定细胞元在当前时刻对应的更新参数。

具体地，将不同时刻的深度特征作为对应时刻的输入特征，目标语音评估模型的输入门基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定输入门在当前时刻的输出特征。

并且，输入门还基于当前时刻的输入特征和前序时刻输出的隐层特征，确定细胞元在当前时刻对应的更新参数。

可以理解的是，确定输入门在当前时刻的输出特征和确定细胞元在当前时刻对应的更新参数的处理过程可以并发执行，以提高处理效率，也可以按照先后顺序依次执行。

可以理解的是，遗忘门的处理可输入门的处理可以并发执行，也可以按照先后顺序依次执行，在此不做过多限制。

在一个实施例中，输入门用于确定当前时刻要添加的特征，则输入门在当前时刻的输出特征即为待添加的特征。

如图8b所示，为一个实施例中输入门的结构，即图8b中加粗黑线所示的结构。目标语音评估模型通过输入门以及细胞元的更新来决定输入哪些新的有用特征。具体数学表达式如下式所示：

其中，

表示细胞元在t时刻的更新参数,i_t为输入门在t时刻的输出特征，W_i、b_i分别为输入门可学习参数，W_C、b_C分别为细胞元更新状态的可学习参数。由上式可知，细胞元的更新参数/>

由输入特征x_t和隐层特征h_t-1经由一个神经网络层得到。而输入门的输出特征i_t同遗忘门的输出特征f_t一样也是一个介于[0，1]区间的向量，由x_t和h_t-1经由Sigmoid激活函数计算得到，用以控制/>

的哪些特征用于更新C_t。

基于前序时刻的特征对象、当前时刻的输出特征和更新参数，确定当前时刻的特征对象，包括：

步骤S708，基于遗忘门在当前时刻的输出特征、输入门在当前时刻的输出特征、更新参数和前序时刻的特征对象，确定当前时刻的特征对象。

具体地，目标语音评估模型可获取前序时刻的特征对象，基于遗忘门在当前时刻的输出特征、输入门在当前时刻的输出特征、更新参数和前序时刻的特征对象，对特征对象进行更新，得到当前时刻的特征对象。

如图8c所示，为一个实施例中细胞元更新的结构，即图8c中加粗黑线所示的结构。利用输入门在t时刻的输出特征i_t、遗忘门在t时刻的输出特征f_t，前一时刻细胞元C_t-1以及当前时刻的细胞元更新参数

来确定新的细胞元，其表达式如下：/>

其中，C_t为在t时刻的细胞元状态，即在t时刻的细胞元。

基于前序时刻输出的隐层特征、当前时刻的输出特征和当前时刻的特征对象，确定当前时刻输出的隐层特征，包括：

步骤S710，通过输出门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输出门在当前时刻的输出特征。

步骤S712，基于输出门在当前时刻的输出特征和当前时刻的细胞元，确定当前时刻输出的隐层特征。

具体地，目标语音评估模型的输出门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输出门在当前时刻的输出特征。并且，通过输出门基于输出门在当前时刻的输出特征和当前时刻的细胞元，确定当前时刻输出的隐层特征。

如图8d所示，为一个实施例中输出门的结构，利用输出门计算隐层在t时刻输出的隐层特征h_t，其表达式如下：

其中，o_t为输出门在t时刻的输出特征，W_o、b_o分别为输出门的可学习参数，σ为激活函数。

本实施例中，细胞元相当于传输带，即特征传输的路径，以实现特征从当前节点传输到下一节点进行处理。遗忘门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定要从所传输的特征中需要丢弃的无关特征或信息量少的不重要特征，以减少处理的计算量。输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定在传输的特征中所要添加的新特征，以增加新的有用信息。并且，输出门还需要确定特征传输路径的更新参数，以便进行更新。通过将上一个细胞元所包含的特征和遗忘门的输出特征相乘，以丢弃不需要的信息，并与输入门的输出特征相加，以添加有用的新信息，从而有效实现细胞元的更新。通过输出门基于细胞元和输出门在当前时刻的输出特征，确定当前时刻输出的隐层特征，从而能够将各时刻的深度特征进行进一步的特征提取和融合，准确对原始语音进行质量评估。本实施例使用目标语音评估模型进行语音质量评估，即使用了客观评估方法进行语音质量评估，与人主观感受高度相关，同时更加简洁方便，评估结果更具鲁棒性。

在一个实施例中，该语音评估方法应用于视频会议；该方法还包括：

对原始语音进行语音活动检测，得到对应的待测语音，包括：对视频会议进行语音活动检测，得到对应的实时语音；

对待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到待测语音对应的声学特征，包括：对实时语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到实时语音对应的实时声学特征；

对声学特征进行卷积处理，得到不同时刻的深度特征，包括：对实时声学特征进行卷积处理，得到不同时刻的目标深度特征；

基于不同时刻的深度特征进行质量评估处理，得到原始语音对应的质量评估结果，包括：基于不同时刻的目标深度特征进行质量评估处理，得到视频会议中的实时语音的质量评估得分；

该方法还包括：

若实时语音的质量评估得分不满足预设质量条件，则触发提醒操作。

具体地，该语音评估方法可应用于视频会议，对视频会议中产生的语音进行实时采集，并对采集的语音进行语音活动检测，以消除静音，得到对应的实时语音。对实时语音进行时频转换处理，得到对应的语谱图，并对语谱图进行特征提取，得到实时语音对应的实时声学特征。对实时声学特征进行分帧处理，得到不同时刻的实时特征帧，对不同时刻的实时特征帧进行卷积处理，得到不同时刻的目标深度特征。基于不同时刻的目标深度特征进一步的特征提取和特征融合处理，再通过全连接处理，得到视频会议中的实时语音的质量评估得分。

可以理解的是，该视频会议中对实时语音的质量评估过程，与上述实施例中对原始语音的质量评估过程相同，具体的处理可参见上述原始语音的各个实施例，在此不再赘述。

若实时语音的质量评估得分不满足预设质量条件，则触发提醒操作，以对用户进行及时提醒。进一步地，若实时语音的质量评估得分小于或等于评估阈值，则触发提醒操作。

本实施例中，该语音评估方法还可以应用于视频会议，可以在音视频传输的链路中实时监控语音质量，进一步定位导致低质量语音事件，并对用户进行提醒，从而可以有效提升实时语音通话的质量。

在一个实施例中，该语音评估方法还可以应用于音频会议，以及存在实时语音任何场景，例如音频通话、视频通话、视频直播等各种实时音频通信场景，能够实时监控通话语音质量，保障通话语音质量，提升用户体验。

如图9所示，为一个实施例中语音评估方法的框架图。本实施例的语音评估方法的输入待测语音信号(即原始语音的信号)，进过语音活动检测VAD获取待测语音信号的有效语音片段，再利用短时傅里叶变换STFT以及梅尔变换得到有效语音片段的梅尔谱特征。随后利用设计的卷积神经网络CNN提取待测语音信号的高维特征，最后利用长短期记忆网络LSTM融合不同时间段的高维特征得到待测语音的质量分数。

本实施例中的目标语音评估模型采用了CNN与LSTM结合的网络拓扑结构，前向网络采用了两层的多层感知机结构。可以理解的是，本申请不具体限定深度神经网络的模型类型和拓扑结构，可以替换为各种其它有效的新型的模型结构，例如，注意力模型(Attention)，或者其它网络结构，例如时延网络、闸控卷积神经网络等。可以根据实际应用对模型内存占用的限制和对检测准确率的要求，对上述举例的神经网络和前向网络的拓扑结构加以拓展或简化。

在一个实施例中，该方法应用于目标语音评估模型，该目标语音评估模型的训练步骤包括：

获取第一语音样本、以及与第一语音样本不同的第二语音样本；通过待训练的语音评估模型分别对第一语音样本和第二语音样本进行质量评估处理，得到第一预测结果和第二预测结果；确定第一预测结果和第二预测结果分别与各自所对应的评价标签之间的质量差异；根据第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失；基于各质量差异和排序损失，构建目标损失函数；通过目标损失函数对待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；目标语音评估模型用于对待测语音进行质量评估。

其中，第一预测结果为第一语音样本对应的质量评估结果，第二预测结果为第二语音样本对应的质量评估结果。

具体地，第一语音样本和第二语音样本均为用于对语音评估模型进行训练的语音，第一语音样本不同于第二语音样本。进一步地，第一语音样本和第二语音样本均为具有质量损失的语音，第一语音样本不同于第二语音样本是指第一语音样本的质量损失程度不同于第二语音样本的质量损失程度。

在一个实施例中，第一语音样本和第二语音样本的质量损失程度不同，但两者的语音内容可以存在关联，也可以完全无关。

计算机设备可将第一语音样本和第二语音样本输入待训练的语音评估模型，通过待训练的语音评估模型对第一语音样本进行质量评估处理，得到第一预测结果。通过待训练的语音评估模型对第二语音样本进行质量评估处理，得到第二预测结果。

计算机设备可获取第一语音样本对应的评价标签和第二语音样本对应的评价标签。第一语音样本对应的评价标签用于表示第一语音样本的真实语音质量，第二语音样本对应的评价标签用于表示第二语音样本的真实语音质量。计算机设备确定第一语音样本对应的第一预测结果和对应的评价标签之间的质量差异，确定第二语音样本对应的第二预测结果和对应的评价标签之间的质量差异。

计算机设备基于第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失。

在一个实施例中，计算机设备根据第一预测结果和第二预测结果，确定第一语音样本的质量高于第二语音样本的质量的预测概率，基于预测概率和对应的概率标签，确定第一语音样本和第二语音样本之间的排序损失。其中，概率标签表示第一语音样本的质量高于或低于第二语音样本的质量，概率标签可表示为0或1。

计算机设备可基于第一预测结果和对应的评价标签之间的质量差异、第二预测结果和对应的评价标签之间的质量差异，以及第一语音样本和第二语音样本之间的排序损失，构建目标损失函数。进一步地，计算机设备根据各质量差异、排序损失，以及各自对应的权重，构建目标损失函数。在一个实施例中，各质量差异对应的权重可相同。

在一个实施例中，计算机设备将第一预测结果和对应评价标签之间的质量差异与第二预测结果和对应评价标签之间的质量差异求和，得到质量差异之和。根据质量差异之和与排序损失，构建目标损失函数。进一步地，计算机设备可根据质量差异之和、排序损失，以及各自对应的权重，构建目标损失函数。

本实施例中，通过待训练的语音评估模型对质量损失程度不同的第一语音样本和第二语音样本分别进行质量评估处理，得到对应的第一预测结果和第二预测结果。确定第一预测结果和第二预测结果分别与各自所对应的评价标签之间的质量差异，能够确定模型预测结果和真实结果之间的差距。根据第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失，能够衡量语音样本对在质量上的相对距离。基于各质量差异和排序损失，构建目标损失函数，使得目标损失函数中结合了排序损失和质量差异，对语音评估模型进行反复训练，以调整模型参数从而提高模型评估的精度，达到停止条件时得到训练好的目标语音评估模型，通过目标语音评估模型能够准确快速对原始语音进行质量评估，并且能够对实时语音进行质量评估，提高语音评估的及时性和评估效率。

在一个实施例中，如图10所示，提供了一种语音评估模型训练方法，以该方法应用于计算机设备(计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤S1002，获取第一语音样本、以及与第一语音样本不同的第二语音样本。

具体地，第一语音样本和第二语音样本均为用于对语音评估模型进行训练的语音，第一语音样本不同于第二语音样本。

进一步地，第一语音样本和第二语音样本均为具有质量损失的语音，第一语音样本不同于第二语音样本是指第一语音样本的质量损失程度不同于第二语音样本的质量损失程度。

在一个实施例中，获取第一语音样本、以及与第一语音样本不同的第二语音样本，包括：对第一训练语音进行语音活动检测，得到对应的第一语音样本；对第二训练语音进行语音活动检测，得到对应的第二语音样本；第二训练语音不同于第一训练语音。

在一个实施例中，对第一训练语音进行语音活动检测，得到对应的第一语音样本，包括：对第一训练语音进行分帧处理，得到对应的各帧第一语音信号；确定每帧第一语音信号分别对应的短时能量和短时过零率；基于各第一语音信号的短时能量和短时过零率，从各帧第一语音信号中筛选出有效信号帧，以获得第一语音样本；

对第二训练语音进行语音活动检测，得到对应的第二语音样本，包括：对第二训练语音进行分帧处理，得到对应的各帧第二语音信号；确定每帧第二语音信号分别对应的短时能量和短时过零率；基于各第二语音信号的短时能量和短时过零率，从各帧第二语音信号中筛选出有效信号帧，以获得第二语音样本。

在一个实施例中，确定每帧第一语音信号分别对应的短时能量和短时过零率，包括：对各帧第一语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到每帧第一语音信号对应的第一频谱；基于各第一频谱，确定每帧第一语音信号的短时能量；根据各帧第一语音信号分别对应的第一时域波形，确定每帧第一语音信号的短时过零率；

确定每帧第二语音信号分别对应的短时能量和短时过零率，包括：对各帧第二语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到每帧第二语音信号对应的第二频谱；基于各第二频谱，确定每帧第二语音信号的短时能量；根据各帧第二语音信号分别对应的第二时域波形，确定每帧第二语音信号的短时过零率。

可以理解的是，对第一训练语音和第二训练语音进行语音活动检测，得到对应的第一语音样本和第二语音样本的详细处理过程，与上述各实施例中对原始语音进行活动检测，得到待测语音的详细处理过程相同，在此不再赘述。

步骤S1004，通过待训练的语音评估模型分别对第一语音样本和第二语音样本进行质量评估处理，得到第一预测结果和第二预测结果。

具体地，计算机设备可将第一语音样本和第二语音样本输入待训练的语音评估模型，通过待训练的语音评估模型对第一语音样本进行质量评估处理，得到第一预测结果。通过待训练的语音评估模型对第二语音样本进行质量评估处理，得到第二预测结果。

在一个实施例中，通过待训练的语音评估模型分别对第一语音样本和第二语音样本进行质量评估处理，得到第一预测结果和第二预测结果，包括：

通过待训练的语音评估模型对第一语音样本进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到对应的第一声学特征；对第二语音样本进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到对应的第二声学特征；基于第一声学特征进行质量评估处理，得到第一语音样本对应的第一预测结果；基于第二声学特征进行质量评估处理，得到第二语音样本对应的第二预测结果。

在一个实施例中，基于第一声学特征进行质量评估处理，得到第一语音样本对应的第一预测结果，包括：对第一声学特征进行分帧处理，得到第一声学特征对应的各第一特征帧；对各第一特征帧进行归一化处理，得到第一声学特征对应的各时刻的输入特征；基于第一声学特征对应的各时刻的输入特征进行质量评估处理，得到第一语音样本对应的第一预测结果；

基于第二声学特征进行质量评估处理，得到第二语音样本对应的第二预测结果，包括：对第二声学特征进行分帧处理，得到第二声学特征对应的各第二特征帧；对各第二特征帧进行归一化处理，得到第二声学特征对应的各时刻的输入特征；基于第二声学特征对应的各时刻的输入特征进行质量评估处理，得到第二语音样本对应的第二预测结果。

在一个实施例中，对各第一特征帧进行归一化处理，得到第一声学特征对应的各时刻的输入特征，包括：基于各第一特征帧对应的均值和方差，对每个第一特征帧进行归一化处理，得到第一声学特征对应的各时刻的输入特征；

对各第二特征帧进行归一化处理，得到第二声学特征对应的各时刻的输入特征，包括：基于各第二特征帧对应的均值和方差，对每个第二特征帧进行归一化处理，得到第二声学特征对应的各时刻的输入特征。

在一个实施例中，基于第一声学特征进行质量评估处理，得到第一语音样本对应的第一预测结果，包括：基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征，并确定特征对象在当前时刻的更新参数；输入特征基于第一声学特征按时序划分获得，特征对象表征特征传输的路径；基于前序时刻的特征对象、当前时刻的输出特征和更新参数，确定当前时刻的特征对象；基于前序时刻输出的隐层特征、当前时刻的输出特征和当前时刻的特征对象，确定当前时刻输出的隐层特征；将下一时刻的输入特征作为当前时刻的输入特征，并返回基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征的步骤并继续执行，直至得到最后一时刻所输出的隐层特征；基于最后一时刻所输出的隐层特征，确定第一语音样本对应的第一预测结果。

在一个实施例中，该语音评估模型包括遗忘门、输入门和输出门，特征对象为细胞元；基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征，并确定特征对象在当前时刻的更新参数，包括：

通过遗忘门基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定遗忘门在当前时刻的输出特征；通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输入门在当前时刻的输出特征；通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定细胞元在当前时刻对应的更新参数；

基于前序时刻的特征对象、当前时刻的输出特征和更新参数，确定当前时刻的特征对象，包括：基于遗忘门在当前时刻的输出特征、输入门在当前时刻的输出特征、更新参数和前序时刻的特征对象，确定当前时刻的特征对象；

基于前序时刻输出的隐层特征、当前时刻的输出特征和当前时刻的特征对象，确定当前时刻输出的隐层特征，包括：通过输出门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输出门在当前时刻的输出特征；基于输出门在当前时刻的输出特征和当前时刻的细胞元，确定当前时刻输出的隐层特征。

可以理解的是，对第一语音样本和第二语音样本进行质量评估处理得到第一预测结果和第二预测结果的详细处理过程，与上述各实施例中对原始语音的不同时刻的深度特征进行质量评估处理得到原始语音对应的质量评估结果的详细处理过程相同，在此不再赘述。

步骤S1006，确定第一预测结果和第二预测结果分别与各自所对应的评价标签之间的质量差异。

具体地，计算机设备可获取第一语音样本对应的评价标签和第二语音样本对应的评价标签。第一语音样本对应的评价标签用于表示第一语音样本的真实语音质量，第二语音样本对应的评价标签用于表示第二语音样本的真实语音质量。

计算机设备确定第一语音样本对应的第一预测结果和对应的评价标签之间的质量差异，确定第二语音样本对应的第二预测结果和对应的评价标签之间的质量差异。

在一个实施例中，计算机设备采用最小化平方误差(Least Square Error，LSE)损失函数确定质量差异，表达式如下：

其中L₂表示LSE损失函数，f(x_i)代表语音评估模型的预测结果，该预测结果可以是MOS值，y_i代表评价标签，即相对应的真实MOS值。x_i表示语音样本，n表示语音样本的数量。

步骤S1008，根据第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失。

具体地，计算机设备基于第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失。

步骤S1010，基于各质量差异和排序损失，构建目标损失函数。

具体地，计算机设备可基于第一预测结果和对应的评价标签之间的质量差异、第二预测结果和对应的评价标签之间的质量差异，以及第一语音样本和第二语音样本之间的排序损失，构建目标损失函数。进一步地，计算机设备根据各质量差异、排序损失，以及各自对应的权重，构建目标损失函数。在一个实施例中，各质量差异对应的权重可相同。

在一个实施例中，目标损失函数如下式所示：

L_totall＝α×L₂+(1-α)×L_rank

其中，L_totall为目标损失函数，由L₂损失函数以及排序损失函数L_rank组成。L₂损失函数衡量语音样本的预测结果和真实评价标签之间的质量差距，即语音样本对应的质量差异。L_rank衡量估计语音样本对质量的相对大小关系是否正确，语音样本对例如第一语音样本和第二语音样本。α∈[0,1]为两者之间的权重系数，本实施例中α＝0.5。其中α越大表示越注重L₂损失函数，(1-α)越大表示越注排序损失函数L_rank。

步骤S1012，通过目标损失函数对待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；该目标语音评估模型用于对待测语音进行质量评估。

具体地，计算机设备通过目标损失函数对待训练的语音评估模型进行更新训练，在训练中基于语音评估模型所产生的损失值调整参数并继续训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型。

其中，达到停止条件可以是达到迭代次数、目标损失值小于或等于损失阈值等。

例如，在训练中基于目标损失函数确定语音评估模型的目标损失值，当目标损失值大于损失阈值时，调整语音评估模型的参数并继续训练，直至语音评估模型的目标损失值小于或等于损失阈值时停止，得到训练完成的目标语音评估模型。

该目标语音评估模型用于对原始语音进行质量评估，得到对应的质量评估结果。

传统的语音评估模型需要同时使用待评估语音的信号和参考信号进行质量评估，才能够预测出待评估语音的语音质量。但是参考信号在实时音视频场景当中是无法获取的，而通过本实施例的语音评估模型仅需要输入待评估语音的便可以有效地进行实时语音质量的评估，并能够提高语音评估的效率。

在一个实施例中，虽然L₂损失函数能够统计单条语音MOS分的预测结果与真实结果之间的差距，但是对于有着明显区分度的语音对并不能准确衡量。例如有一语音对A，B。其中A_p，A_g，B_p，B_g分别代表语音A、B的预测MOS值与真实MOS值。传统语音预估模型估计出现两种情况如表1所示：

表1:语音对A、B估计MOS的不同情形

情形	A_g(MOS)	A_p(MOS)	B_p(MOS)	B_p(MOS)
					情形1	3	2.2	2	2.5
情形2	3	3.8	2	2.5

从表中可知，两种情况下的模型估计的L₂损失函数相同，但是情形1下估计A_p小于B_p，但实际情况下语音A质量要明显高于语音B。因此，需要另外一个损失函数来约束所估计语音对质量之间的相对大小，即排序损失函数。

在一个实施例中，根据第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失，包括：

根据第一预测结果和第二预测结果，确定第一语音样本的质量高于第二语音样本的质量的预测概率；基于预测概率和对应的概率标签，确定第一语音样本和第二语音样本之间的相对关系的正确性；基于相对关系的正确性，确定第一语音样本和第二语音样本之间的排序损失。

具体地，计算机设备确定第一预测结果和第二预测结果之间的差异，根据第一预测结果和第二预测结果之间的差异，确定第一语音样本的质量高于第二语音样本的质量的预测概率。

计算机设备获取概率标签，概率标签表示第一语音样本的质量高于或低于第二语音样本的质量。计算机设备基于预测概率、对应的概率标签、第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的相对关系的正确性。

计算机设备基于相对关系的正确性和对应的权重系数，确定第一语音样本和第二语音样本之间的排序损失。

例如，利用一对语音样本x_i、x_j，通过语音评估模型预测出语音样本x_i、x_j分别对应的预测结果，利用排序损失函数衡量x_i与x_j之间的相对大小关系，如下式所示，计算出语音样本x_i质量高于语音样本x_j的预测概率P_ij(f)：

其中，f(x_i)为语音评估模型预测出的语音样本x_i的预测结果，f(x_j)语音评估模型预测出的语音样本x_j的预测结果，预测结果具体可以是MOS值。

利用交叉熵损失函数

度量估计语音样本对在质量上的相对关系的正确性：

其中，

代表语音样本x_i的真实质量高于语音样本x_j的真实质量的概率标签，其可以表示为0或1，代表着语音样本x_i的真实质量低于或高于语音样本x_j的真实质量，Pij为相对应的预测概率。

本实施例中，根据第一预测结果和第二预测结果，确定第一语音样本的质量高于第二语音样本的质量的预测概率，以确定第一语音样本和第二语音样本在语音质量上的相对关系。基于预测概率和对应的概率标签，确定第一语音样本和第二语音样本之间的相对关系的正确性，从而能够很好地衡量第一语音样本的质量高于第二语音样本的质量的预测概率的准确性。基于相对关系的正确性确定第一语音样本和第二语音样本之间的排序损失，能够有效约束语音样本对在语音质量上的相对关系。

在一个实施例中，基于相对关系的正确性，确定第一语音样本和第二语音样本之间的排序损失，包括：

根据第一预测结果的评价标签和第二预测结果的评价标签，确定相对关系的不确定系数；基于相对关系的正确性和相对关系的不确定系数，确定第一语音样本和第二语音样本之间的排序损失。

具体地，通过第一预测结果和第二预测结果所确定的第一语音样本和第二语音样本之间的相对关系具有不确定性，例如对于不同的用户来说并非能够完全确定第一语音样本的质量高于第二语音样本的质量，则需要设置该相对关系的不确定系数，以衡量该相对关系的重要程度。

计算机设备可计算第一预测结果的评价标签和第二预测结果的评价标签之间的标签差异，并获取标签差异阈值。基于标签差异和该标签差异阈值确定相对关系的不确定系数。

在一个实施例中，当标签差异小于或等于该标签差异阈值时，计算机设备基于标签差异和该标签差异阈值的比值，确定相对关系的不确定系数。当标签差异大于该标签差异阈值时，确定相对关系的不确定系数为零。

例如，通过以下表达式确定相对关系的不确定系数U(T)：

其中，U(T)为不确定系数，T＝abs(y_i-y_j)，T_c＝0.5为设置标签差异阈值。T≤T_c则表示语音样本x_i的真实质量是否大于语音样本x_j的真实质量上，能够被大部分人区分。y_i为语音样本x_i对应的评价标签，即语音样本x_i的真实质量，y_j为语音样本x_j对应的评价标签，即语音样本x_j的真实质量。随后将不确定系数乘以交叉熵损失函数

可得到排序损失函数L_b(f)：

其中，

代表一个训练的批量大小，从上式可知不确定性较小(即不确定系数较小)的语音对对排序损失的贡献较多，而不确定性较大(即不确定系数较大)的语音对对排序损失贡献较小。最后对于语音评估模型的可学习参数w的求导可通过由下式获得：/>

其中，w表示语音评估模型的所有可学习参数。

本实施例中，根据第一预测结果的评价标签和第二预测结果的评价标签，确定相对关系的不确定系数，能够基于不确定系数准确确定第一语音样本和第二语音样本的相对关系对于质量评估的贡献程度，从而准确确定第一语音样本和第二语音样本之间的排序损失。结合排序损失和质量差异对语音评估模型进行训练，能够提高模型评估的精度。

如图11所示，为一个实施例中确定语音样本对的排序损失的处理示意图。计算机设备获取语音质量的损失程度不同的语音样本对，即语音样本x_i和语音样本x_j。对语音样本x_i和语音样本x_j分别采集梅尔谱特征，并通过卷积神经网络CNN进行特征提取，得到语音样本x_i对应的各时刻的深度特征，以及语音样本x_j对应的各时刻的深度特征。将语音样本x_i的各时刻的深度特征输入长短期记忆网络LSTM，得到语音样本x_i的MOS值。将语音样本x_j的各时刻的深度特征输入长短期记忆网络LSTM，得到语音样本x_j的MOS值。基于语音样本x_i的MOS值和语音样本x_j的MOS值构建排序损失函数，以计算语音样本x_i和语音样本x_j的排序损失。

在一个实施例中，提供了一种语音评估方法，通过目标语音评估模型执行，该目标语音评估模型应用于计算机设备，包括：

将获取原始语音输入目标语音评估模型进行以下处理：

对原始语音进行分帧处理，得到对应的各帧语音信号；对每帧语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到对应的频谱。

基于每帧语音信号分别对应的频谱，确定每帧语音信号的短时能量。

获取每帧语音信号分别对应的时域波形，基于时域波形确定各自对应语音信号的短时过零率。

基于短时能量和短时过零率，从各帧语音信号中筛选出有效信号帧，以获得待测语音。

对待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到待测语音对应的声学特征。

通过遗忘门基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定遗忘门在当前时刻的输出特征。

通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输入门在当前时刻的输出特征。

通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定细胞元在当前时刻对应的更新参数。

基于遗忘门在当前时刻的输出特征、输入门在当前时刻的输出特征、更新参数和前序时刻的特征对象，确定当前时刻的特征对象。

通过输出门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输出门在当前时刻的输出特征。

基于输出门在当前时刻的输出特征和当前时刻的细胞元，确定当前时刻输出的隐层特征。

当当前时刻非最后一时刻时，将下一时刻的输入特征作为当前时刻的输入特征，并返回基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征的步骤并继续执行，直至得到最后一时刻所输出的隐层特征。

当当前时刻为最后一时刻时，基于最后一时刻所输出的隐层特征，确定原始语音对应的质量评估结果。

对声学特征进行分帧处理，得到不同时刻的特征帧，对不同时刻的特征帧进行卷积处理以进一步提取高维的的深层次的关键特征，经过归一化处理能够在保留卷积所提取的关键特征的同时减小特征维度，从而减小模型的计算量。

细胞元相当于传输带，即特征传输的路径，以实现特征从当前节点传输到下一节点进行处理。遗忘门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定要从所传输的特征中需要丢弃的无关特征或信息量少的不重要特征，以减少处理的计算量。输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定在传输的特征中所要添加的新特征，以增加新的有用信息。并且，输出门还需要确定特征传输路径的更新参数，以便进行更新。通过将上一个细胞元所包含的特征和遗忘门的输出特征相乘，以丢弃不需要的信息，并与输入门的输出特征相加，以添加有用的新信息，从而有效实现细胞元的更新。通过输出门基于细胞元和输出门在当前时刻的输出特征，确定当前时刻输出的隐层特征，从而能够将各时刻的深度特征进行进一步的特征提取和融合，准确对原始语音进行质量评估。本实施例使用目标语音评估模型进行语音质量评估，即使用了客观评估方法进行语音质量评估，与人主观感受高度相关，同时更加简洁方便，评估结果更具鲁棒性。

本实施例在进行语音质量评估的过程中并不需要参考信号参与评估，只需要使用原始语音的信号即可有效评估语音质量，从而能够有效地进行线上的实时评估语音的质量，且计算量小，能够提高语音质量评估的效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音评估方法的语音评估装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音评估装置实施例中的具体限定可以参见上文中对于语音评估方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种语音评估装置1200，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：检测模块1202、转换模块1204、卷积模块1206和处理模块1208，其中：

检测模块1202，用于对原始语音进行语音活动检测，得到对应的待测语音。

转换模块1204，用于对待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到待测语音对应的声学特征。

卷积模块1206，用于对声学特征进行卷积处理，得到不同时刻的深度特征。

处理模块1208，用于基于不同时刻的深度特征进行质量评估处理，得到原始语音对应的质量评估结果。

传统的语音评估装置需要同时使用待评估语音的信号和参考信号进行质量评估，才能够确定出待评估语音的语音质量。但是参考信号在实时音视频场景当中是无法获取的，而通过本实施例的语音评估装置仅需要待评估语音的信号便可以有效地进行实时语音质量的评估，并能够提高语音评估的效率。

在一个实施例中，检测模块1202，还用于对原始语音进行分帧处理，得到对应的各帧语音信号；确定每帧语音信号分别对应的短时能量和短时过零率；基于短时能量和短时过零率，从各帧语音信号中筛选出有效信号帧，以获得待测语音。

在一个实施例中，检测模块1202，还用于对每帧语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到对应的频谱；基于每帧语音信号分别对应的频谱，确定每帧语音信号的短时能量；获取每帧语音信号分别对应的时域波形，基于时域波形确定各自对应语音信号的短时过零率。

在一个实施例中，卷积模块1206，还用于对声学特征进行分帧处理，得到不同时刻的特征帧；对不同时刻的特征帧进行卷积处理和归一化处理，得到不同时刻的深度特征。

在一个实施例中，处理模块1208，还用于基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征，并确定特征对象在当前时刻的更新参数；当前时刻的输入特征为相应时刻的深度特征，特征对象表征特征传输的路径；基于前序时刻的特征对象、当前时刻的输出特征和更新参数，确定当前时刻的特征对象；基于前序时刻输出的隐层特征、当前时刻的输出特征和当前时刻的特征对象，确定当前时刻输出的隐层特征；将下一时刻的输入特征作为当前时刻的输入特征，并返回基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征的步骤并继续执行，直至得到最后一时刻所输出的隐层特征；基于最后一时刻所输出的隐层特征，确定原始语音对应的质量评估结果。

本实施例中，将不同时刻的深度特征进行更深层次的特征提取和融合，使得每个时刻的处理得到的隐层特征都融合了前序时刻的隐层特征，使得越往后处理所得到的隐层特征获得更多的有用信息，从而使得最后一时刻所输出的隐层特征融合了不同时刻的深度特征的所有关键信息。通过最后一时刻所输出的隐层特征，能够准确评估出原始语音的质量。

在一个实施例中，该装置应用于目标语音评估模型；该目标语音评估模型包括遗忘门、输入门和输出门，特征对象为细胞元；处理模块1208，还用于通过遗忘门基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定遗忘门在当前时刻的输出特征；通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输入门在当前时刻的输出特征；通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定细胞元在当前时刻对应的更新参数；基于遗忘门在当前时刻的输出特征、输入门在当前时刻的输出特征、更新参数和前序时刻的特征对象，确定当前时刻的特征对象；通过输出门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输出门在当前时刻的输出特征；基于输出门在当前时刻的输出特征和当前时刻的细胞元，确定当前时刻输出的隐层特征。

本实施例中，细胞元相当于传输带，即特征传输的路径，以实现特征从当前节点传输到下一节点进行处理。遗忘门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定要从所传输的特征中需要丢弃的无关特征或信息量少的不重要特征，以减少处理的计算量。输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定在传输的特征中所要添加的新特征，以增加新的有用信息。并且，输出门还需要确定特征传输路径的更新参数，以便进行更新。通过将上一个细胞元所包含的特征和遗忘门的输出特征相乘，以丢弃不需要的信息，并与输入门的输出特征相加，以添加有用的新信息，从而有效实现细胞元的更新。通过输出门基于细胞元和输出门在当前时刻的输出特征，确定当前时刻输出的隐层特征，从而能够将各时刻的深度特征进行进一步的特征提取和融合，准确对原始语音进行质量评估。

在一个实施例中，该装置应用于视频会议；检测模块1202，还用于对视频会议进行语音活动检测，得到对应的实时语音；

转换模块1204，还用于对实时语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到实时语音对应的实时声学特征；

卷积模块1206，还用于对实时声学特征进行卷积处理，得到不同时刻的目标深度特征；

处理模块1208，还用于基于不同时刻的目标深度特征进行质量评估处理，得到视频会议中的实时语音的质量评估得分；

该装置还包括：触发模块，触发模块，用于若实时语音的质量评估得分不满足预设质量条件，则触发提醒操作。

在一个实施例中，该装置应用于目标语音评估模型，目标语音评估模型的训练步骤包括：

获取模块，用于获取第一语音样本、以及与第一语音样本不同的第二语音样样本；

评估模块，用于通过待训练的语音评估模型分别对第一语音样本和第二语音样本进行质量评估处理，得到第一预测结果和第二预测结果；

质量差异确定模块，用于确定第一预测结果和第二预测结果分别与各自所对应的评价标签之间的质量差异；

排序损失确定模块，用于根据第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失；

构建模块，用于基于各质量差异和排序损失，构建目标损失函数；

训练模块，用于通过目标损失函数对待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；目标语音评估模型用于对原始语音进行质量评估。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音评估模型训练方法的语音评估模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音评估模型训练装置实施例中的具体限定可以参见上文中对于语音评估模型训练方法的限定，在此不再赘述。

在一个实施例中，如图13所示，提供了一种语音评估模型训练装置1300，包括：获取模块1302、评估模块1304、质量差异确定模块1306、排序损失确定模块1308、构建模块1310和训练模块1312，其中，

获取模块1302，用于获取第一语音样本、以及与第一语音样本不同的第二语音样样本。

评估模块1304，用于通过待训练的语音评估模型分别对第一语音样本和第二语音样本进行质量评估处理，得到第一预测结果和第二预测结果。

质量差异确定模块1306，用于确定第一预测结果和第二预测结果分别与各自所对应的评价标签之间的质量差异。

排序损失确定模块1308，用于根据第一预测结果和第二预测结果，确定第一语音样本和第二语音样本之间的排序损失。

构建模块1310，用于基于各质量差异和排序损失，构建目标损失函数。

训练模块1312，用于通过目标损失函数对待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；目标语音评估模型用于对原始语音进行质量评估。

在一个实施例中，获取模块1302，还用于对第一训练语音进行语音活动检测，得到对应的第一语音样本；对第二训练语音进行语音活动检测，得到对应的第二语音样本；第二训练语音不同于第一训练语音。

在一个实施例中，获取模块1302，还用于对第一训练语音进行分帧处理，得到对应的各帧第一语音信号；确定每帧第一语音信号分别对应的短时能量和短时过零率；基于各第一语音信号的短时能量和短时过零率，从各帧第一语音信号中筛选出有效信号帧，以获得第一语音样本；

获取模块1302，还用于对第二训练语音进行分帧处理，得到对应的各帧第二语音信号；确定每帧第二语音信号分别对应的短时能量和短时过零率基于各第二语音信号的短时能量和短时过零率，从各帧第二语音信号中筛选出有效信号帧，以获得第二语音样本。

在一个实施例中，获取模块1302，还用于对各帧第一语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到每帧第一语音信号对应的第一频谱；基于各第一频谱，确定每帧第一语音信号的短时能量；根据各帧第一语音信号分别对应的第一时域波形，确定每帧第一语音信号的短时过零率；

获取模块1302，还用于对各帧第二语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到每帧第二语音信号对应的第二频谱；基于各第二频谱，确定每帧第二语音信号的短时能量；根据各帧第二语音信号分别对应的第二时域波形，确定每帧第二语音信号的短时过零率。

在一个实施例中，评估模块1304，还用于通过待训练的语音评估模型对第一语音样本进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到对应的第一声学特征；对第二语音样本进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到对应的第二声学特征；基于第一声学特征进行质量评估处理，得到第一语音样本对应的第一预测结果；基于第二声学特征进行质量评估处理，得到第二语音样本对应的第二预测结果。

在一个实施例中，评估模块1304，还用于对第一声学特征进行分帧处理，得到第一声学特征对应的各第一特征帧；对各第一特征帧进行归一化处理，得到第一声学特征对应的各时刻的输入特征；基于第一声学特征对应的各时刻的输入特征进行质量评估处理，得到第一语音样本对应的第一预测结果；

评估模块1304，还用于对第二声学特征进行分帧处理，得到第二声学特征对应的各第二特征帧；对各第二特征帧进行归一化处理，得到第二声学特征对应的各时刻的输入特征；基于第二声学特征对应的各时刻的输入特征进行质量评估处理，得到第二语音样本对应的第二预测结果。

在一个实施例中，评估模块1304，还用于基于各第一特征帧对应的均值和方差，对每个第一特征帧进行归一化处理，得到第一声学特征对应的各时刻的输入特征；

评估模块1304，还用于基于各第二特征帧对应的均值和方差，对每个第二特征帧进行归一化处理，得到第二声学特征对应的各时刻的输入特征。

在一个实施例中，评估模块1304，还用于基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征，并确定特征对象在当前时刻的更新参数；输入特征基于第一声学特征按时序划分获得，特征对象表征特征传输的路径；基于前序时刻的特征对象、当前时刻的输出特征和更新参数，确定当前时刻的特征对象；基于前序时刻输出的隐层特征、当前时刻的输出特征和当前时刻的特征对象，确定当前时刻输出的隐层特征；将下一时刻的输入特征作为当前时刻的输入特征，并返回基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定当前时刻的输出特征的步骤并继续执行，直至得到最后一时刻所输出的隐层特征；基于最后一时刻所输出的隐层特征，确定第一语音样本对应的第一预测结果。

在一个实施例中，语音评估模型包括遗忘门、输入门和输出门，特征对象为细胞元；评估模块1304，还用于通过遗忘门基于当前时刻的输入特征和当前时刻的前序时刻输出的隐层特征，确定遗忘门在当前时刻的输出特征；通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输入门在当前时刻的输出特征；通过输入门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定细胞元在当前时刻对应的更新参数；基于遗忘门在当前时刻的输出特征、输入门在当前时刻的输出特征、更新参数和前序时刻的特征对象，确定当前时刻的特征对象；通过输出门基于当前时刻的输入特征和前序时刻输出的隐层特征，确定输出门在当前时刻的输出特征；基于输出门在当前时刻的输出特征和当前时刻的细胞元，确定当前时刻输出的隐层特征。

在一个实施例中，排序损失确定模块1308，还用于根据第一预测结果和第二预测结果，确定第一语音样本的质量高于第二语音样本的质量的预测概率；基于预测概率和对应的概率标签，确定第一语音样本和第二语音样本之间的相对关系的正确性；基于相对关系的正确性，确定第一语音样本和第二语音样本之间的排序损失。

在一个实施例中，排序损失确定模块1308，还用于根据第一预测结果的评价标签和第二预测结果的评价标签，确定相对关系的不确定系数；

基于相对关系的正确性和相对关系的不确定系数，确定第一语音样本和第二语音样本之间的排序损失。

上述语音评估装置、语音评估模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音评估数据和语音评估模型的训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音评估方法和一种语音评估模型训练方法。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音评估方法，其特征在于，所述方法包括：

对原始语音进行语音活动检测，得到对应的待测语音；

对所述声学特征进行卷积处理，得到不同时刻的深度特征；

2.根据权利要求1所述的方法，其特征在于，所述对原始语音进行语音活动检测，得到对应的待测语音，包括：

对原始语音进行分帧处理，得到对应的各帧语音信号；

确定每帧所述语音信号分别对应的短时能量和短时过零率；

基于所述短时能量和所述短时过零率，从各帧所述语音信号中筛选出有效信号帧，以获得待测语音。

3.根据权利要求2所述的方法，其特征在于，所述确定每帧所述语音信号分别对应的短时能量和短时过零率，包括：

对每帧所述语音信号分别进行加窗处理，并对加窗处理后的语音信号进行时频转换处理，得到对应的频谱；

基于每帧所述语音信号分别对应的频谱，确定每帧所述语音信号的短时能量；

获取每帧所述语音信号分别对应的时域波形，基于所述时域波形确定各自对应语音信号的短时过零率。

4.根据权利要求1所述的方法，其特征在于，所述对所述声学特征进行卷积处理，得到不同时刻的深度特征，包括：

对所述声学特征进行分帧处理，得到不同时刻的特征帧；

对所述不同时刻的特征帧进行卷积处理和归一化处理，得到不同时刻的深度特征。

5.根据权利要求1所述的方法，其特征在于，所述基于所述不同时刻的深度特征进行质量评估处理，得到所述原始语音对应的质量评估结果，包括：

基于当前时刻的输入特征和所述当前时刻的前序时刻输出的隐层特征，确定所述当前时刻的输出特征，并确定特征对象在所述当前时刻的更新参数；所述当前时刻的输入特征为相应时刻的深度特征，所述特征对象表征特征传输的路径；

基于所述前序时刻的特征对象、所述当前时刻的输出特征和所述更新参数，确定所述当前时刻的特征对象；

基于所述前序时刻输出的隐层特征、所述当前时刻的输出特征和所述当前时刻的特征对象，确定所述当前时刻输出的隐层特征；

将下一时刻的输入特征作为当前时刻的输入特征，并返回所述基于当前时刻的输入特征和所述当前时刻的前序时刻输出的隐层特征，确定所述当前时刻的输出特征的步骤并继续执行，直至得到最后一时刻所输出的隐层特征；

基于所述最后一时刻所输出的隐层特征，确定所述原始语音对应的质量评估结果。

6.根据权利要求5所述的方法，其特征在于，所述方法应用于目标语音评估模型；所述目标语音评估模型包括遗忘门、输入门和输出门，所述特征对象为细胞元；所述基于当前时刻的输入特征和所述当前时刻的前序时刻输出的隐层特征，确定所述当前时刻的输出特征，并确定特征对象在所述当前时刻的更新参数，包括：

通过所述遗忘门基于当前时刻的输入特征和所述当前时刻的前序时刻输出的隐层特征，确定所述遗忘门在所述当前时刻的输出特征；

通过所述输入门基于所述当前时刻的输入特征和所述前序时刻输出的隐层特征，确定所述输入门在所述当前时刻的输出特征；

通过所述输入门基于所述当前时刻的输入特征和所述前序时刻输出的隐层特征，确定所述细胞元在所述当前时刻对应的更新参数；

所述基于所述前序时刻的特征对象、所述当前时刻的输出特征和所述更新参数，确定所述当前时刻的特征对象，包括：

基于所述遗忘门在所述当前时刻的输出特征、所述输入门在所述当前时刻的输出特征、所述更新参数和所述前序时刻的特征对象，确定所述当前时刻的特征对象；

所述基于所述前序时刻输出的隐层特征、所述当前时刻的输出特征和所述当前时刻的特征对象，确定所述当前时刻输出的隐层特征，包括：

通过所述输出门基于所述当前时刻的输入特征和所述前序时刻输出的隐层特征，确定所述输出门在所述当前时刻的输出特征；

基于所述输出门在所述当前时刻的输出特征和所述当前时刻的细胞元，确定所述当前时刻输出的隐层特征。

7.根据权利要求1所述的方法，其特征在于，所述语音评估方法应用于视频会议；所述对原始语音进行语音活动检测，得到对应的待测语音，包括：

对视频会议进行语音活动检测，得到对应的实时语音；

所述对所述待测语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到所述待测语音对应的声学特征，包括：

对所述实时语音进行时频转换处理，并对时频转换处理所得到的语音信号进行特征提取，得到所述实时语音对应的实时声学特征；

所述对所述声学特征进行卷积处理，得到不同时刻的深度特征，包括：

对所述实时声学特征进行卷积处理，得到不同时刻的目标深度特征；

所述基于所述不同时刻的深度特征进行质量评估处理，得到所述原始语音对应的质量评估结果，包括：

基于所述不同时刻的目标深度特征进行质量评估处理，得到所述视频会议中的实时语音的质量评估得分；

所述方法还包括：

若所述实时语音的质量评估得分不满足预设质量条件，则触发提醒操作。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述方法应用于目标语音评估模型，所述目标语音评估模型的训练步骤包括：

基于各所述质量差异和所述排序损失，构建目标损失函数；

通过所述目标损失函数对所述待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；所述目标语音评估模型用于对所述原始语音进行质量评估。

9.一种语音评估模型训练方法，其特征在于，所述方法包括：

基于各所述质量差异和所述排序损失，构建目标损失函数；

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一预测结果和所述第二预测结果，确定所述第一语音样本和所述第二语音样本之间的排序损失，包括：

根据所述第一预测结果和所述第二预测结果，确定所述第一语音样本的质量高于所述第二语音样本的质量的预测概率；

基于所述预测概率和对应的概率标签，确定所述第一语音样本和所述第二语音样本之间的相对关系的正确性；

基于所述相对关系的正确性，确定所述第一语音样本和所述第二语音样本之间的排序损失。

11.根据权利要求10所述的方法，其特征在于，所述基于所述相对关系的正确性，确定所述第一语音样本和所述第二语音样本之间的排序损失，包括：

根据所述第一预测结果的评价标签和所述第二预测结果的评价标签，确定所述相对关系的不确定系数；

12.一种语音评估装置，其特征在于，所述装置包括：

13.一种语音评估模型训练装置，其特征在于，所述装置包括：

训练模块，用于通过所述目标损失函数对所述待训练的语音评估模型进行训练，直至达到停止条件时停止，得到训练完成的目标语音评估模型；所述目标语音评估模型用于对原始语音进行质量评估。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。