CN114283828A

CN114283828A - 语音降噪模型的训练方法、语音评分方法、装置及介质

Info

Publication number: CN114283828A
Application number: CN202111025632.XA
Authority: CN
Inventors: 柯登峰; 解焱陆; 张劲松; 林炳怀; 王丽园
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2022-04-05
Also published as: WO2023029960A1; US20230267943A1

Abstract

本申请提供了一种语音降噪模型的训练方法、装置、电子设备及存储介质；语音降噪模型包括：噪音处理层，发音差异处理层和内容差异处理层，方法包括：通过噪音处理层，对语音样本进行降噪处理，得到目标语音样本；通过发音差异处理层，对目标语音样本进行发音评分的预测，得到发音预测结果，该发音预测结果，用于指示目标语音样本与语音样本对应的参考发音间的发音相似度；通过内容差异处理层，确定目标语音样本的内容与语音样本的内容间的内容差异；基于发音预测结果以及内容差异，更新语音降噪模型的模型参数，以得到训练完成的语音降噪模型；通过本申请，能够提高语音降噪模型的降噪精确程度。

Description

语音降噪模型的训练方法、语音评分方法、装置及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音降噪模型的训练方法、语音评分方法、装置、电子设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能已经越来越多地应用于语音处理方面。相关技术中，语音降噪模型的学习目标通常是使得降噪后语音的波形和纯净语音的波形最相似，而以波形最接近为目标学习时，通常只能关注到波形幅度大的语音，而幅度小的语音则直接被忽略掉，导致降噪处理过程中丢失部分语音信息，降噪准确度低。

发明内容

本申请实施例提供一种语音降噪模型的训练方法、装置、电子设备及存储介质，能够提高语音降噪模型的降噪精确程度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音降噪模型的训练方法，所述语音降噪模型包括：噪音处理层，发音差异处理层和内容差异处理层，方法包括：

通过所述噪音处理层，对语音样本进行降噪处理，得到目标语音样本；

通过所述发音差异处理层，对所述目标语音样本进行发音评分的预测，得到发音预测结果，所述发音预测结果，用于指示所述目标语音样本与所述语音样本对应的参考发音间的发音相似度；

通过所述内容差异处理层，确定所述目标语音样本的内容与所述语音样本的内容间的内容差异；

基于所述发音预测结果以及所述内容差异，更新所述语音降噪模型的模型参数，以得到训练完成的语音降噪模型。

上述方案中，所述发音差异处理层包括：发音评分损失处理层；

所述基于所述发音预测结果以及所述内容差异，更新所述语音降噪模型的模型参数，包括：

通过所述发音评分损失处理层，确定所述发音预测结果、与所述语音样本对应的样本标签之间的差异，并基于所述差异确定评分损失函数的值；

基于所述内容差异以及所述评分损失函数的值，更新所述语音降噪模型的模型参数。

上述方案中，所述基于所述内容差异以及所述评分损失函数的值，更新所述语音降噪模型的模型参数，包括：

获取所述内容差异对应的第一权重值、以及所述评分损失函数的值对应的第二权重值；

结合所述第一权重值和第二权重值，基于所述内容差异以及所述评分损失函数的值，确定所述语音降噪模型的损失函数的值；

基于所述损失函数的值，更新所述语音降噪模型的模型参数。

上述方案中，所述基于所述损失函数的值，更新所述语音降噪模型的模型参数，包括：

当所述损失函数的值超出损失阈值时，基于所述损失函数确定所述语音降噪模型的误差信号；

将所述误差信号在所述语音降噪模型中反向传播，并在传播的过程中更新所述语音降噪模型中各个层的模型参数。

本申请实施例还提供一种语音评分方法，应用于语音降噪模型，方法包括：

呈现参考语音文本以及语音输入功能项；

响应于针对所述语音输入功能项的触发操作，呈现语音输入界面，并在所述语音输入界面中呈现语音结束功能项；

接收到基于所述语音输入界面输入的语音信息；

响应于针对所述语音结束功能项的触发操作，呈现用于指示所述语音信息与所述参考语音文本对应的参考发音间的发音相似度的发音评分；

其中，所述发音评分，基于对目标语音信息进行发音评分的预测得到，所述目标语音信息，基于所述语音降噪模型对所述语音信息进行降噪处理得到；

其中，所述语音降噪模型，基于上述语音降噪模型的训练方法训练得到。

本申请实施例还提供一种语音降噪模型的训练装置，所述语音降噪模型包括：噪音处理层，发音差异处理层和内容差异处理层，装置包括：

降噪模块，用于通过所述噪音处理层，对语音样本进行降噪处理，得到目标语音样本；

预测模块，用于通过所述发音差异处理层，对所述目标语音样本进行发音评分的预测，得到发音预测结果，所述发音预测结果，用于指示所述目标语音样本与所述语音样本对应的参考发音间的发音相似度；

确定模块，用于通过所述内容差异处理层，确定所述目标语音样本的内容与所述语音样本的内容间的内容差异；

更新模块，用于基于所述发音预测结果以及所述内容差异，更新所述语音降噪模型的模型参数，以得到训练完成的语音降噪模型。

上述方案中，所述噪音处理层包括：第一特征变换层、滤波处理层以及第二特征变换层；

所述降噪模块，还用于通过所述第一特征变换层，对所述语音样本进行傅里叶变换，得到所述语音样本对应的幅度谱和相位谱；

通过所述滤波处理层，对所述幅度谱进行滤波处理，得到目标幅度谱，并对所述相位谱进行相位修正，得到目标相位谱；

通过所述第二特征变换层，将所述目标幅度谱和所述目标相位谱进行相乘，并将相乘得到的结果进行傅里叶逆变换，得到所述目标语音样本。

上述方案中，所述滤波处理层包括至少两个级联的子滤波处理层；

所述降噪模块，还用于通过第一级的子滤波处理层，对所述幅度谱进行滤波处理，得到中间幅度谱，并对所述相位谱进行相位修正，得到中间相位谱；

通过非第一级的子滤波处理层，对所述中间幅度谱进行滤波处理得到所述目标幅度谱，并对所述中间相位谱进行相位修正得到所述目标相位谱。

上述方案中，各所述子滤波处理层包括相位谱修正层、以及至少两个级联的幅度谱滤波层；

所述降噪模块，还用于通过所述至少两个级联的幅度谱滤波层，对所述幅度谱进行滤波处理，得到中间幅度谱；

通过所述相位谱修正层，基于所述中间幅度谱对所述相位谱进行相位修正，得到中间相位谱。

上述方案中，所述第二特征变换层包括特征转换层、和特征逆变换层；

所述降噪模块，还用于通过所述特征转换层，将所述目标幅度谱转换为幅度谱掩模，并确定所述目标相位谱对应的相位角；

通过所述特征逆变换层，将所述目标幅度谱、所述幅度谱掩模和所述目标相位谱对应的相位角进行相乘，并将相乘得到的结果进行傅里叶逆变换，得到所述目标语音样本。

上述方案中，所述内容差异处理层包括：傅里叶变换层；

所述确定模块，还用于通过所述傅里叶变换层，对所述目标语音样本进行傅里叶变换，得到第一幅度谱，并对所述语音样本进行傅里叶变换，得到第二幅度谱；

确定所述第一幅度谱与所述第二幅度谱之间的幅度差异，并将所述幅度差异确定为所述目标语音样本的内容与所述语音样本的内容间的内容差异。

上述方案中，所述傅里叶变换层包括至少两个子傅里叶变换层，不同的所述子傅里叶变换层对应不同的变换尺度；

所述确定模块，还用于通过各所述子傅里叶变换层，分别对所述目标语音样本进行相应变换尺度的傅里叶变换，得到各所述子傅里叶变换层对应的第一幅度谱；

通过各所述子傅里叶变换层，分别对所述语音样本进行相应变换尺度的傅里叶变换，得到各所述子傅里叶变换层对应的第二幅度谱；

所述确定模块，还用于确定各所述子傅里叶变换层对应的第一幅度谱和第二幅度谱之间的中间幅度差异；

对所述至少两个子傅里叶变换层对应的中间幅度差异进行求和平均处理，得到平均幅度差异，并将所述平均幅度差异作为所述幅度差异。

上述方案中，所述内容差异处理层还包括：幂压缩处理层；

所述确定模块，还用于通过所述幂压缩处理层，对所述第一幅度谱进行压缩处理，得到第一压缩幅度谱，并对所述第二幅度谱进行压缩处理，得到第二压缩幅度谱；

确定所述第一压缩幅度谱与所述第二压缩幅度谱之间的压缩幅度差异，并将所述压缩幅度差异作为所述幅度差异。

所述更新模块，还用于通过所述发音评分损失处理层，确定所述发音预测结果、与所述语音样本对应的样本标签之间的差异，并基于所述差异确定评分损失函数的值；

上述方案中，所述更新模块，还用于获取所述内容差异对应的第一权重值、以及所述评分损失函数的值对应的第二权重值；

上述方案中，所述更新模块，还用于当所述损失函数的值超出损失阈值时，基于所述损失函数确定所述语音降噪模型的误差信号；

上述方案中，所述发音差异处理层还包括：第一特征映射层、第二特征映射层、和特征拼接及预测层，所述第一特征映射层的网络结构不同于所述第二特征映射层的网络结构；

所述预测模块，还用于通过所述第一特征映射层，对所述目标语音样本进行映射处理，得到第一映射特征；

通过所述第二特征映射层，对所述目标语音样本进行映射处理，得到第二映射特征；

通过所述特征拼接及预测层，对所述第一映射特征和第二映射特征进行拼接处理，得到拼接特征，并

对所述拼接特征进行发音评分的预测，得到所述发音预测结果。

本申请实施例还提供一种语音评分装置，应用于语音降噪模型，装置包括：

第一呈现模块，用于呈现参考语音文本以及语音输入功能项；

第二呈现模块，用于响应于针对所述语音输入功能项的触发操作，呈现语音输入界面，并在所述语音输入界面中呈现语音结束功能项；

接收模块，用于接收到基于所述语音输入界面输入的语音信息；

第三呈现模块，用于响应于针对所述语音结束功能项的触发操作，呈现用于指示所述语音信息与所述参考语音文本对应的参考发音间的发音相似度的发音评分；

本申请实施例还提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的方法。

本申请实施例还提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本申请实施例提供的方法。

本申请实施例具有以下有益效果：

应用本申请实施例，在语音降噪模型中加入发音差异处理层和内容差异处理层，通过发音差异处理层，对降噪处理后的目标语音样本进行发音评分的预测，得到用于指示目标语音样本与语音样本对应的参考发音间的发音相似度的发音预测结果，并通过内容差异处理层确定目标语音样本的内容与语音样本的内容间的内容差异，从而基于发音预测结果以及内容差异，更新语音降噪模型的模型参数以完成模型训练；如此基于降噪前后的发音相似度和内容差异进行语音降噪模型的训练，能够使训练得到的语音降噪模型避免降噪前后语音信息的丢失，提高降噪处理的精确程度。

附图说明

图1是本申请实施例提供的语音降噪模型的训练系统100的架构示意图；

图2是本申请实施例提供的实施语音降噪模型的训练方法的电子设备500的结构示意图；

图3是本申请实施例提供的语音降噪模型的训练方法的流程示意图；

图4是本申请实施例提供的语音降噪模型的结构示意图；

图5是本申请实施例提供的噪音处理层的结构示意图；

图6是本申请实施例提供的第一特征变换层的结构示意图；

图7是本申请实施例提供的滤波处理层的结构示意图；

图8是本申请实施例提供的子滤波处理层的结构示意图；

图9是本申请实施例提供的第二特征变换层的结构示意图；

图10是本申请实施例提供的内容差异处理层的结构示意图；

图11是本申请实施例通过的发音差异处理层的结构示意图；

图12是本申请实施例提供的语音评分方法的流程示意图；

图13是本申请实施例提供的语音评分流程的呈现示意图；

图14是本申请实施例提供的基于语音降噪模型的语音评分方法的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)客户端，终端中运行的用于提供各种服务的应用程序，例如即时通讯客户端、视频播放客户端。

2)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

基于上述对本申请实施例中涉及的名词和术语的解释，下面说明本申请实施例提供的语音降噪模型的训练系统。参见图1，图1是本申请实施例提供的语音降噪模型的训练系统100的架构示意图，为实现支撑一个示例性应用，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端400，用于响应于针对语音降噪模型的训练指令，发送对应语音降噪模型的训练请求至服务器200；该语音降噪模型包括：噪音处理层，发音差异处理层和内容差异处理层；

服务器200，用于接收并响应于训练请求，通过噪音处理层，对语音样本进行降噪处理，得到目标语音样本；通过发音差异处理层，对目标语音样本进行发音评分的预测，得到发音预测结果，发音预测结果，用于指示目标语音样本与语音样本对应的参考发音间的发音相似度；通过内容差异处理层，确定目标语音样本的内容与语音样本的内容间的内容差异；基于发音预测结果以及内容差异，更新语音降噪模型的模型参数，以得到训练完成的语音降噪模型；返回训练完成的语音降噪模型至终端400；

终端400，用于接收到训练完成的语音降噪模型，以基于该语音降噪模型对输入的语音信息进行语音降噪处理，从而提高语音降噪的精确度，避免在降噪过程中丢失部分语音信息。

在实际应用中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

参见图2，图2是本申请实施例提供的实施语音降噪模型的训练方法的电子设备500的结构示意图。在实际应用中，电子设备500可以为图1示出的服务器或终端，以电子设备500为图1示出的终端为例，对实施本申请实施例的语音降噪模型的训练方法的电子设备进行说明，本申请实施例提供的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的语音降噪模型的训练装置可以采用软件方式实现，图2示出了存储在存储器550中的语音降噪模型的训练装置555，其可以是程序和插件等形式的软件，包括以下软件模块：降噪模块5551、预测模块5552、确定模块5553和更新模块5554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的语音降噪模型的训练装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的语音降噪模型的训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语音降噪模型的训练方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

基于上述对本申请实施例提供的语音降噪模型的训练系统及电子设备的说明，下面说明本申请实施例提供的语音降噪模型的训练方法。在一些实施例中，本申请实施例提供的语音降噪模型的训练方法可由服务器或终端单独实施，或由服务器及终端协同实施，下面以服务器实施为例说明本申请实施例提供的语音降噪模型的训练方法。

参见图3，图3是本申请实施例提供的语音降噪模型的训练方法的流程示意图，本申请实施例提供的语音降噪模型包括：噪音处理层，发音差异处理层和内容差异处理层，本申请实施例提供的语音降噪模型的训练方法包括：

步骤101：服务器通过噪音处理层，对语音样本进行降噪处理，得到目标语音样本。

这里，语音降噪模型包括噪音处理层，发音差异处理层和内容差异处理层，用于对输入的语音信息进行语音降噪处理。作为示例，参见图4，图4是本申请实施例提供的语音降噪模型的结构示意图。这里，语音降噪模型包括噪音处理层410(即语音增强网络EnhanceNet)、发音差异处理层420(即发音偏误预测网络PronNet)和内容差异处理层430(即多尺度语音相似度度量网络SimilarNet)。

在实际应用中，该语音降噪模型可以是基于机器学习网络构建的，比如卷积神经网络、深度神经网络等；在基于机器学习网络构建完成初始的语音降噪模型后，该语音降噪模型中包含初始的模型参数，为提高语音降噪模型的降噪精度，需要对语音降噪模型进行训练，以在模型训练的过程中更新语音降噪模型的模型参数，得到训练完成的语音降噪模型，从而基于训练完成的语音降噪模型进行语音信息的降噪处理。

在对语音降噪模型进行训练的过程中，首先获取用于训练的训练样本，即语音样本，该语音样本可以是针对某些参考语音文本的，该参考语音文本对应有相应的参考发音。服务器在获取到用于训练语音降噪模型的语音样本后，通过语音降噪模型的噪音处理层，对语音样本进行降噪处理，比如滤波降噪处理等，得到目标语音样本。

在一些实施例中，噪音处理层包括：第一特征变换层、滤波处理层以及第二特征变换层；服务器可通过如下方式通过噪音处理层，对语音样本进行降噪处理，得到目标语音样本：通过第一特征变换层，对语音样本进行傅里叶变换，得到语音样本对应的幅度谱和相位谱；通过滤波处理层，对幅度谱进行滤波处理，得到目标幅度谱，并对相位谱进行相位修正，得到目标相位谱；通过第二特征变换层，将目标幅度谱和目标相位谱进行相乘，并将相乘得到的结果进行傅里叶逆变换，得到目标语音样本。

这里，上述噪音处理层包括第一特征变换层、滤波处理层以及第二特征变换层。作为示例，参见图5，图5是本申请实施例提供的噪音处理层的结构示意图。这里，噪音处理层410即为语音增强网络EnhanceNet，包括第一特征变换层501(即前处理网络PrevNet)、滤波处理层502(即级联激活网络CasNet)以及第二特征变换层503(即后处理网络PostNet)。在实际应用中，首先通过第一特征变换层，对语音样本的波形特征进行傅里叶变换，得到相应的幅度谱A和相位谱P；然后通过滤波处理层，对幅度谱A进行滤波处理，得到幅度谱A’(即目标幅度谱)，同时通过该滤波处理层，基于滤波后的幅度谱A’对相位欧P进行相位修正，得到相位谱P’(即目标相位谱)；最后通过第二特征变换层，将幅度谱A’和相位谱P’进行傅里叶逆变换处理，输出变换后的波形，即目标语音样本。

接下来对降噪处理层的处理过程进行详细说明。第一，服务器在通过噪音处理层对语音样本进行降噪处理时，首先通过第一特征变换层，对语音样本进行傅里叶变换，具体是对语音样本的波形特征进行傅里叶变换，得到语音样本对应的幅度谱和相位谱。作为示例，参见图6，图6是本申请实施例提供的第一特征变换层的结构示意图。这里，该第一特征变换层501即为图5所示的前处理网络PrevNet，包括傅里叶变换层610和卷积层620，通过傅里叶变换层，采用短时傅里叶变换，将语音样本的波形特征转为2通道傅里叶谱(包括幅度谱和相位谱)，进一步地通过卷积层620从2通道傅里叶谱转换成64通道的幅度谱A和64通道的相位谱P。

第二，然后服务器通过滤波处理层，对幅度谱进行滤波处理(即降噪处理)，比如卷积滤波处理，得到滤波后的目标幅度谱；同时通过该滤波处理层，基于滤波后的目标幅度谱对相位谱进行相位修正，得到目标相位谱。

在一些实施例中，滤波处理层包括至少两个级联的子滤波处理层；服务器可通过如下方式通过滤波处理层，对幅度谱进行滤波处理，得到目标幅度谱，并对相位谱进行相位修正，得到目标相位谱：通过第一级的子滤波处理层，对幅度谱进行滤波处理，得到中间幅度谱，并对相位谱进行相位修正，得到中间相位谱；通过非第一级的子滤波处理层，对中间幅度谱进行滤波处理得到目标幅度谱，并对中间相位谱进行相位修正得到目标相位谱。

在实际应用中，该滤波处理层包括至少两个级联的子滤波处理层，服务器可通过第一级的子滤波处理层，对幅度谱进行滤波处理，得到中间幅度谱，并对相位谱进行相位修正，得到中间相位谱；然后通过非第一级的子滤波处理层，对中间幅度谱进行滤波处理得到目标幅度谱，并对中间相位谱进行相位修正得到目标相位谱。具体地通过非第一级的子滤波处理层，对前一级输出的中间幅度谱进行滤波处理得到，并对前一级输出的中间相位谱进行相位修正，循环执行直至最后一级的子滤波处理层处理完成，将最后一级的子滤波处理层输出的中间幅度谱作为目标幅度谱，将最后一级的子滤波处理层输出的中间相位谱作为目标相位谱。

作为示例，参见图7，图7是本申请实施例提供的滤波处理层的结构示意图。这里，该滤波处理层502包括多个子滤波处理层，该子滤波处理层由三阶激活注意力网络TAB构成，将第一特征变换层501输出的幅度谱A和相位谱P，经过滤波处理，输出64通道的幅度谱A’(即目标幅度谱)和相位谱P’(即目标相位谱)。

在一些实施例中，各子滤波处理层包括相位谱修正层、以及至少两个级联的幅度谱滤波层；服务器可通过如下方式通过第一级的子滤波处理层，对幅度谱进行滤波处理，得到中间幅度谱，并对相位谱进行相位修正，得到中间相位谱：通过至少两个级联的幅度谱滤波层，对幅度谱进行滤波处理，得到中间幅度谱；通过相位谱修正层，基于中间幅度谱对相位谱进行相位修正，得到中间相位谱。

这里，上述各子滤波处理层由相位谱修正层和至少两个级联的幅度谱滤波层构成。服务器可首先通过至少两个级联的幅度谱滤波层，对幅度谱进行滤波处理，比如谐波滤波处理，得到中间幅度谱；然后通过相位谱修正层，基于中间幅度谱对相位谱进行相位修正，得到中间相位谱。在实际应用中，中间幅度谱和中间相位谱之间的关系是：

其中，Conv为卷积运算；Tanh双曲正切函数运算(将输入值转换为-1至1之间)；

表示点乘，

表示拼接，A’为中间幅度谱，P为相位谱，P’为中间相位谱。

作为示例，参见图8，图8是本申请实施例提供的子滤波处理层的结构示意图。这里，该子滤波处理层包含一个幅度谱滤波网络810(即三阶幅度谱增强网络AmpNet)和1个相位谱修正层820(即一阶相位谱修正网络PhaseNet)，如图8中A图所示，用于对幅度谱A进行滤波处理，得到中间幅度谱A’；该幅度谱滤波网络810包括多个级联的幅度谱滤波层，如图8中B图所示，为3个级联的幅度谱滤波层(即谐波增强器H)；其中，每个幅度谱滤波层的结构如图8中C图所示，包含两个线性处理层Linear-F和两个卷积层Conv1*1，用于对幅度谱进行谐波滤波处理。

第三，最后通过第二特征变换层，将目标幅度谱和目标相位谱进行相乘，在实际应用中，可以是计算目标幅度谱和目标相位谱的点积，从而将点乘得到的结果再进行傅里叶逆变换，得到目标语音样本。

在一些实施例中，第二特征变换层包括特征转换层、和特征逆变换层；服务器可通过如下方式通过第二特征变换层，将目标幅度谱和目标相位谱进行相乘，并将相乘得到的结果进行傅里叶逆变换，得到目标语音样本：通过特征转换层，将目标幅度谱转换为幅度谱掩模，并确定目标相位谱对应的相位角；通过特征逆变换层，将目标幅度谱、幅度谱掩模和目标相位谱对应的相位角进行相乘，并将相乘得到的结果进行傅里叶逆变换，得到目标语音样本。

在实际应用中，第二特征变换层包括特征转换层、和特征逆变换层。具体地，服务器可通过特征转换层，将目标幅度谱转换为幅度谱掩模，并确定目标相位谱对应的相位角；通过特征逆变换层，将目标幅度谱、幅度谱掩模和目标相位谱对应的相位角进行相乘，并将相乘得到的结果进行傅里叶逆变换，得到目标语音样本。

作为示例，参见图9，图9是本申请实施例提供的第二特征变换层的结构示意图。这里，第二特征变换层503包括特征转换层，该特征转换层由多层卷积层组成；还包括特征逆变换层。将滤波处理层502输出的目标幅度谱(即幅度谱A’)转换成幅度谱掩膜M，将目标相位谱(即相位谱P’)转换相位角Ω，再由傅里叶逆变换转成波形输出，即得到降噪后的目标语音样本。具体地，将目标幅度谱与幅度谱掩模的点积结果、与相位角Ω再进行点积计算，将所得到的结果进行短时傅里叶逆变换(iSTFT)转成波形输出，即得到降噪后的目标语音样本。

步骤102：通过发音差异处理层，对目标语音样本进行发音评分的预测，得到发音预测结果。

其中，该发音预测结果，用于指示目标语音样本与语音样本对应的参考发音间的发音相似度。

这里，该目标语音样本为进行降噪处理后的语音样本。通过发音差异处理层对目标语音样本进行发音评分的预测，得到发音预测结果，即预测发音评分，该发音预测结果，用于指示目标语音样本与语音样本对应的参考发音间的发音相似度。

在一些实施例中，发音差异处理层还包括：第一特征映射层、第二特征映射层、和特征拼接及预测层，第一特征映射层的网络结构不同于第二特征映射层的网络结构；服务器可通过如下方式通过发音差异处理层，对目标语音样本进行发音评分的预测，得到发音预测结果：通过第一特征映射层，对目标语音样本进行映射处理，得到第一映射特征；通过第二特征映射层，对目标语音样本进行映射处理，得到第二映射特征；通过特征拼接及预测层，对第一映射特征和第二映射特征进行拼接处理，得到拼接特征，并对拼接特征进行发音评分的预测，得到发音预测结果。

这里，在实际应用中，该第一特征映射层可以是基于Transformer网络构建的，该第二特征映射层可以是基于时延神经网络(Time-Delay Neural Network，TDNN)构建的。

步骤103：通过内容差异处理层，确定目标语音样本的内容与语音样本的内容间的内容差异。

在通过发音差异处理层预测得到目标语音样本对应的发音预测结果后，通过内容差异处理层，确定目标语音样本的内容与语音样本的内容间的内容差异。这里，内容差异主要可以包括语音信息量的差异。

在一些实施例中，内容差异处理层包括：傅里叶变换层；服务器可通过如下方式通过内容差异处理层，确定目标语音样本的内容与语音样本的内容间的内容差异：通过傅里叶变换层，对目标语音样本进行傅里叶变换，得到第一幅度谱，并对语音样本进行傅里叶变换，得到第二幅度谱；确定第一幅度谱与第二幅度谱之间的幅度差异，并将幅度差异确定为目标语音样本的内容与语音样本的内容间的内容差异。

这里，内容差异处理层包括：傅里叶变换层；服务器可通过傅里叶变换层，对目标语音样本进行傅里叶变换，得到第一幅度谱，并对语音样本进行傅里叶变换，得到第二幅度谱；确定第一幅度谱与第二幅度谱之间的幅度差异，具体可以是计算第一幅度谱的第一平均幅度、以及计算第二幅度谱的第二平均幅度，然后确定第一平均幅度和第二平均幅度之间的幅度差异，作为第一幅度谱与第二幅度谱之间的幅度差异；从而将第一幅度谱与第二幅度谱之间的幅度差异，确定为目标语音样本的内容与语音样本的内容间的内容差异。

在一些实施例中，傅里叶变换层包括至少两个子傅里叶变换层，不同的子傅里叶变换层对应不同的变换尺度；服务器可通过如下方式通过傅里叶变换层，对目标语音样本进行傅里叶变换，得到第一幅度谱，并对语音样本进行傅里叶变换，得到第二幅度谱：通过各子傅里叶变换层，分别对目标语音样本进行相应变换尺度的傅里叶变换，得到各子傅里叶变换层对应的第一幅度谱；通过各子傅里叶变换层，分别对语音样本进行相应变换尺度的傅里叶变换，得到各子傅里叶变换层对应的第二幅度谱；

相应的，服务器可通过如下方式确定第一幅度谱与第二幅度谱之间的幅度差异：确定各子傅里叶变换层对应的第一幅度谱和第二幅度谱之间的中间幅度差异；对至少两个子傅里叶变换层对应的中间幅度差异进行求和平均处理，得到平均幅度差异，并将平均幅度差异作为幅度差异。

在一些实施例中，内容差异处理层还包括：幂压缩处理层；服务器可通过如下方式确定第一幅度谱与第二幅度谱之间的幅度差异：通过幂压缩处理层，对第一幅度谱进行压缩处理，得到第一压缩幅度谱，并对第二幅度谱进行压缩处理，得到第二压缩幅度谱；确定第一压缩幅度谱与第二压缩幅度谱之间的压缩幅度差异，并将压缩幅度差异作为幅度差异。

作为示例，参见图10，图10是本申请实施例提供的内容差异处理层的结构示意图。这里，该内容差异处理层430包括三种尺度的傅里叶变换层和幂压缩处理层。三种尺度的分析窗大小分别为256点、512点和1024点，在三种窗长条件下，分别计算语音样本和降噪后的目标语音样本的STFT幅度谱，然后将计算的幅度谱进行0.3次幂压缩，得到压缩幅度谱，通过语音样本和降噪后的目标语音样本的压缩幅度谱计算平均幅度差异，并将计算得到的平均幅度差异作为相应尺度下的幅度差异，最后将3个尺度下的幅度差异的平均值作为最终的内容差异。

步骤104：基于发音预测结果以及内容差异，更新语音降噪模型的模型参数，以得到训练完成的语音降噪模型。

这里，服务器在基于发音差异处理层预测得到语音样本对应的发音预测结果，并基于内容差异处理层确定语音样本的内容与目标语音样本的内容的内容差异后，为避免在降噪过程中丢失部分语音信息，此时基于该发音预测结果和内容差异，更新语音降噪模型的模型参数，从而得到训练完成的语音降噪模型。

在一些实施例中，发音差异处理层包括：发音评分损失处理层；服务器可通过如下方式基于发音预测结果以及内容差异，更新语音降噪模型的模型参数：通过发音评分损失处理层，确定发音预测结果、与语音样本对应的样本标签之间的差异，并基于差异确定评分损失函数的值；基于内容差异以及评分损失函数的值，更新语音降噪模型的模型参数。

这里，发音差异处理层还包括发音评分损失处理层，该发音评分损失处理层用于基于发音预测结果与语音样本对应的样本标签之间的差异，确定评分损失函数的值，该样本标签为语音样本对应的真实发音评分。在实际应用中，该发音损失函数的值可通过如下公式计算：

其中，

为发音损失函数的值，p>＝1，x_t为真实发音评分，

为发音差异处理层输出的发音预测结果。

当确定评分损失函数的值后，基于评分损失函数的值以及内容差异，更新语音降噪模型的模型参数。

作为示例，参见图11，图11是本申请实施例通过的发音差异处理层的结构示意图。这里，发音差异处理层420(即发音偏误预测网络PronNet)，由第一特征映射层(即TDNN网络)、第二特征映射层(即Transformer网络)、特征拼接及预测层(即线性融合层Linear)和发音评分损失处理层构成，该发音评分损失处理层包括一个发音相似度评分损失Lp。其中，TDNN网络的层数大于3层，隐藏层节点数大于128，输出层节点数等于音子个数，输出激活函数采用Sigmoid函数；Transformer网络的编码层数大于6层，解码层数大于4层，注意力头个数大于4个，隐藏节点数大于128个。发音相似度评分损失Lp采用如下公式计算：

其中p>＝1，x_t为真实发音评分，

为发音偏误预测网络预测的发音评分。

在一些实施例中，服务器可通过如下方式基于内容差异以及评分损失函数的值，更新语音降噪模型的模型参数：获取内容差异对应的第一权重值、以及评分损失函数的值对应的第二权重值；结合第一权重值和第二权重值，基于内容差异以及评分损失函数的值，确定语音降噪模型的损失函数的值；基于损失函数的值，更新语音降噪模型的模型参数。

这里，可以预先设置内容差异对应的第一权重值、以及评分损失函数的值对应的第二权重值。此时，在基于内容差异以及评分损失函数的值，更新语音降噪模型的模型参数时，服务器首先获取内容差异对应的第一权重值、以及评分损失函数的值对应的第二权重值；然后结合第一权重值和第二权重值，基于内容差异以及评分损失函数的值，确定语音降噪模型的损失函数的值，具体可以是基于第一权重值和第二权重值，对内容差异以及评分损失函数的值进行加权处理，将得到的结果作为语音降噪模型的损失函数的值；最后基于该语音降噪模型的损失函数的值，更新语音降噪模型的模型参数。

在一些实施例中，服务器可通过如下方式基于损失函数的值，更新语音降噪模型的模型参数：当损失函数的值超出损失阈值时，基于损失函数确定语音降噪模型的误差信号；将误差信号在语音降噪模型中反向传播，并在传播的过程中更新语音降噪模型中各个层的模型参数。

这里，服务器在基于该语音降噪模型的损失函数的值，更新语音降噪模型的模型参数时，判断损失函数的值是否超出损失阈值。当该损失函数的值超出损失阈值时，则基于损失函数确定语音降噪模型的误差信号，并将误差信号在语音降噪模型中反向传播，从而在误差信息反向传播的过程中，更新语音降噪模型中各个层的模型参数，直至损失函数收敛。将收敛时所得到的语音降噪模型的模型参数作为训练完成的语音降噪模型的模型参数。

应用本申请上述实施例，在语音降噪模型中加入发音差异处理层和内容差异处理层，通过发音差异处理层，对降噪处理后的目标语音样本进行发音评分的预测，得到用于指示目标语音样本与语音样本对应的参考发音间的发音相似度的发音预测结果，并通过内容差异处理层确定目标语音样本的内容与语音样本的内容间的内容差异，从而基于发音预测结果以及内容差异，更新语音降噪模型的模型参数以完成模型训练；如此基于降噪前后的发音相似度和内容差异进行语音降噪模型的训练，能够使训练得到的语音降噪模型避免降噪前后语音信息的丢失，提高降噪处理的精确程度。

基于上述对本申请实施例提供的语音降噪模型的训练方法的说明，下面说明本申请实施例提供的语音评分方法，该语音评分方法应用于语音降噪模型，该语音降噪模型基于上述语音降噪模型的训练方法训练得到。

在一些实施例中，本申请实施例提供的语音评分方法可由服务器或终端单独实施，或由服务器及终端协同实施，下面以终端实施为例说明本申请实施例提供的语音评分方法。参见图12，图12是本申请实施例提供的语音评分方法的流程示意图，本申请实施例提供的语音评分方法包括：

步骤201：终端呈现参考语音文本以及语音输入功能项。

这里，终端设置有用于语音评分的客户端。通过运行客户端呈现参考语音文本以及语音输入功能项。

步骤202：响应于针对语音输入功能项的触发操作，呈现语音输入界面，并在语音输入界面中呈现语音结束功能项。

当接收到针对语音输入功能项的触发操作时，响应于该触发操作，呈现语音输入界面，同时在语音输入界面中呈现语音结束功能项。此时，用户可基于该语音输入界面按照参考语音文本输入相应的语音信息。

步骤203：接收到基于语音输入界面输入的语音信息。

步骤204：响应于针对语音结束功能项的触发操作，呈现用于指示语音信息与参考语音文本对应的参考发音间的发音相似度的发音评分。

终端接收到基于该语音输入界面输入的语音信息。当接收到针对语音结束功能项的触发操作时，响应于该触发操作，呈现用于指示语音信息与参考语音文本对应的参考发音间的发音相似度的发音评分。在实际应用中，该发音评分可通过数字、图形等多种方式标识。

其中，该发音评分，基于对目标语音信息进行发音评分的预测得到，目标语音信息，基于语音降噪模型对语音信息进行降噪处理得到；其中，该语音降噪模型，基于上述语音降噪模型的训练方法训练得到。

作为示例，参见图13，图13是本申请实施例提供的语音评分流程的呈现示意图。这里，以本申请实施例提供的语音评分方法应用于角色配音的场景为例，终端在配音界面中显示多个可选择的配音角色，包括“角色1、角色2、角色3以及角色4”，以及对应的配音入口，可以通过角色图像来表示，如图13中A图所示；当接收到针对“角色2”对应的配音入口的触发操作时，呈现对应“角色2”的参考语音文本(即角色台词)“大家好，我是你们的好朋友XXX”，以及语音输入功能项“开始配音”，如图13中B图所示；

响应于针对语音输入功能项“开始配音”的触发操作，呈现语音输入界面，并在语音输入界面中呈现语音结束功能项“结束配音”，如图13中C图所示；当接收到基于语音输入界面输入的语音信息时，响应于针对语音结束功能项“结束配音”的触发操作，呈现用于指示接收到的语音信息与参考语音文本“大家好，我是你们的好朋友XXX”对应的参考发音间的发音相似度的发音评分，即“90分哟，非常棒！”，如图13中D图所示。

在实际应用中，本申请实施例提供的语音评分方法还可以应用于歌唱打分的场景中。具体地，用户在歌唱时选择想要唱的歌曲，终端呈现对应该歌曲的参考语音文本(即歌词)和语音输入功能项；响应于针对语音输入功能项的触发操作，呈现语音输入界面以采集用户的歌唱语音信息，并在语音输入界面中呈现语音结束功能项；当接收到基于语音输入界面输入的歌唱语音信息时，响应于针对语音结束功能项的触发操作，呈现用于指示该歌唱语音信息与参考语音文本对应的参考发音间的发音相似度的发音评分。

应用本申请上述实施例，在语音降噪模型中加入发音差异处理层和内容差异处理层，通过发音差异处理层，对降噪处理后的目标语音样本进行发音评分的预测，得到用于指示目标语音样本与语音样本对应的参考发音间的发音相似度的发音预测结果，并通过内容差异处理层确定目标语音样本的内容与语音样本的内容间的内容差异，从而基于发音预测结果以及内容差异，更新语音降噪模型的模型参数以完成模型训练；如此基于降噪前后的发音相似度和内容差异进行语音降噪模型的训练，能够使训练得到的语音降噪模型避免降噪前后语音信息的丢失，提高降噪处理的精确程度。从而进一步提高发音评分的预测精度。

下面将说明本申请实施例在一个实际的应用场景中的示例性应用。

相关技术中，语音增强方案均属于纯声学预测方案，预测的目标通常是使得增强后语音的波形和纯净语音的波形最相似，而对于计算机辅助语言教学而言，增强后语音的波形和纯净语音的波形最接近并不是最佳的方案。在实际应用中，以波形最接近为目标学习时，通常只关注幅度大的元音的恢复程度，忽略幅度小的辅音的恢复程度，容易造成摩擦音丢失、爆破音失爆、送气音缺乏送气段等现象，从而由于语音降噪的处理影响了发音评分预测的准确性。

基于此，本申请实施例提供一种语音降噪模型的训练方法，在语音降噪模型中引入发音偏误预测网络(即上述发音差异处理层)和多尺度语音相似度度量网络(即上述内容差异处理层)，显式地对增强后语音的发音偏误信息进行惩罚，同时提出一种可以将频谱谐波信息、相位信息、幅度信息相互融合相互促进的语音增强网络，着重体现在级联激活网路CasNet的细节设计中，包含了多个谐波增强器H的结构，以及利用幅度谱辅助相位谱进行相位估计。

接下来首先对本申请实施例提供的语音降噪模型的训练方法的应用场景进行说明。参见图13，主要应用于角色配音评测功能中。这里，1)点击开始配音按钮，开始跟读角色台词；2)点击结束配音，结束跟读角色台词；3)屏幕呈现针对采集的角色配音的语音的发音评测结果给用户，如图13所示为角色配音的语音的发音评测结果，通过评分表示，即90分。

接下来对本申请实施例提供的语音评分方法进行详细说明。参见图14，图14是本申请实施例提供的基于语音降噪模型的语音评分方法的流程示意图，包括：1)用户打开语音评分客户端，屏幕显示跟读文本，点击客户端显示的开始录音按钮，并基于跟读文本进行句子跟读；

2)客户端将跟读过程中采集的音频信息、以及跟读文本发送至服务器端；

3)服务器端将音频信息发送给语音降噪模型，进行语音降噪处理；

4)语音降噪模型对音频信息进行降噪处理后，将降噪后的音频信息输入至语音识别模型。

5)语音识别模型对降噪后的音频信息进行语音识别以及基础声学特征的提取，得到识别文本和声学特征(比如发音准确度、发音流利度、发音韵律度等)。

6)语音识别模型将语音识别的结果(即识别文本和声学特征)输入给评测模型；

7)评测模型基于识别文本和声学特征进行发音评分的预测，输出发音评分，并将发音评分返回给服务器端；

8)服务器端接收发音评分，并将发音评分返回至客户端，以使用户在客户端查看最终的发音评分。

接下来继续对本申请实施例提供的语音降噪模型进行详细说明。参见图4，该语音降噪模型包含了一个语音增强网络EnhanceNet(即噪音处理层)、一个发音偏误预测器PronNet(即发音差异处理层)、和一个多尺度语音相似度度量网络SimilarNet(即内容差异处理层)。

具体地，该语音降噪模型的训练过程可以如下：通过语音增强网络EnhanceNet对采集的原始语音进行语音增强处理(即降噪处理)，然后将降噪后的目标语音分别输入发音偏误预测网络PronNet和多尺度语音相似度度量网络SimilarNet；通过发音偏误预测网络PronNet得到发音相似度评分损失，通过多尺度语音相似度度量网络SimilarNet得到语音相似度损失(即降噪前后语音所包含内容的损失)；基于发音相似度评分损失和语音相似度损失确定语音降噪模型的损失，从而基于该语音降噪模型的损失进行梯度回传，以更新语音降噪模型的模型参数，从而实现语音降噪模型的模型训练。

参见图5，这里，语音增强网络EnhanceNet，包含了一个前处理网络PrevNet(即第一特征变换层)、一个后处理网络PostNet(即第二特征变换层)和一个级联激活网络CasNet(即滤波处理层)。

其中，上述前处理网络PrevNet由傅里叶变换层和多层卷积组成，参见图6。该前处理网络PrevNet(即第一特征变换层)通过傅里叶变换层，采用STFT变换，将原始语音的波形转为2通道傅里叶谱，再通过卷积层从2通道傅里叶谱转换成64通道的幅度谱A和64通道的相位谱P。

其中，上述级联激活网络CasNet(即滤波处理层)，由多个三阶激活注意力模块TAB(即子滤波处理层)级联组成，参见图7。这里，该级联激活网络CasNet将前处理网络PrevNet输出的64通道的幅度谱A和相位谱P，经过卷积层滤波处理，输出64通道的幅度谱A’和相位谱P’。

参见图8中A图所示，该级联激活网络CasNet中的三阶注意力模块TAB(即子滤波处理层)，包含了1个三阶幅度谱增强网络AmpNet和1个一阶相位谱修正网络PhaseNet组成。其中，幅度谱增强网络AmpNet(即幅度谱滤波网络)对前处理网络输出的64通道幅度谱A进行增强处理，得到幅度谱A’，相位谱修正层PhaseNet接收两个输入，一个来自增强后的幅度谱A’，另一个为相位谱本身P，输出的相位谱P’与两个输入的关系为：

表示点乘，

表示拼接。

进一步地，幅度谱增强网络AmpNet由3层级的谐波增强器H(即幅度谱滤波层)组成(如图8中B图所示)，谐波增强器H的组成方式如图8中C图所示。

其中，参见图9，上述后处理网络PostNet(即第二特征变换层)由多层卷积组成，将级联激活网络CasNet输出的64通道幅度谱A’转成1通道幅度掩膜M，将64通道相位谱P’转成2通道相位角Ω，再由傅里叶逆变换转成波形输出，即得到降噪后的目标语音。

参见图11，上述发音偏误预测网络PronNet，由一个TDNN网络(即第二特征映射层)、一个Transformer网络(即第一特征映射层)、一个线性融合层Linear(即特征拼接及预测层)和发音评分损失处理层构成。其中，TDNN网络的层数大于3层，隐藏层节点数大于128，输出层节点数等于音子个数，输出激活函数采用Sigmoid函数；Transformer网络的编码层数大于6层，解码层数大于4层，注意力头个数大于4个，隐藏节点数大于128个。发音评分损失处理层的发音相似度评分损失Lp采用如下公式计算：

其中p>＝1，x_t为真实发音评分，

为发音偏误预测网络预测的发音评分。

参见图10，上述多尺度语音相似度度量网络SimilarNet包括傅里叶变换层，由3种不同的傅里叶变换尺度构成，三种尺度的分析窗大小分别为256点、512点和1024点，在三种窗长条件下，分别计算原始的语音样本和降噪后的目标语音样本的STFT谱后，然后通过幂压缩处理层将计算的STFT谱进行0.3次幂压缩，得到CompressSTFT谱，通过原始语音样本和降噪后的目标语音样本的CompressSTFT谱计算平均幅度损失，并将计算得到的平均幅度损失作为相应尺度下的语音相似度损失，最后将3个尺度下的语音相似度损失的平均值作为最终的语音相似度损失(即内容差异)。

在另外一些实施例中，本申请中提出的PrevNet和PostNet可以采用多种不同的实现方案。其中PrevNet只要将波形信号变换为2通道时频特征，再从2通道的时频特征变换为高通道的时频特征即可，在本申请实施过程中发现，通道数越高性能越好。其中PostNet的设计也类似，还可以采用BLSTM、GRU或者Transformer结构实现高通道特征到2通道时频域转换，再从时频域转换到波形信号。

应用本申请上述实施例，在发音评测场景下，在语音降噪网络中引入发音偏误网络以及多尺度语音相似度度量网络，在语音降噪的同时，减少降噪处理对发音评测的影响，极大地降低由降噪引发的发音评测偏误，特别是对摩擦音、爆破音、送气音等辅音的特征，在引入发音偏误网络后，这三种音的错误评测率相对降低了23.5％。

下面继续说明本申请实施例提供的语音降噪模型的训练装置555的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器550的语音降噪模型的训练装置555中的软件模块可以包括：

降噪模块5551，用于通过所述噪音处理层，对语音样本进行降噪处理，得到目标语音样本；

预测模块5552，用于通过所述发音差异处理层，对所述目标语音样本进行发音评分的预测，得到发音预测结果，所述发音预测结果，用于指示所述目标语音样本与所述语音样本对应的参考发音间的发音相似度；

确定模块5553，用于通过所述内容差异处理层，确定所述目标语音样本的内容与所述语音样本的内容间的内容差异；

更新模块5554，用于基于所述发音预测结果以及所述内容差异，更新所述语音降噪模型的模型参数，以得到训练完成的语音降噪模型。

在一些实施例中，所述噪音处理层包括：第一特征变换层、滤波处理层以及第二特征变换层；

所述降噪模块5551，还用于通过所述第一特征变换层，对所述语音样本进行傅里叶变换，得到所述语音样本对应的幅度谱和相位谱；

在一些实施例中，所述滤波处理层包括至少两个级联的子滤波处理层；

所述降噪模块5551，还用于通过第一级的子滤波处理层，对所述幅度谱进行滤波处理，得到中间幅度谱，并对所述相位谱进行相位修正，得到中间相位谱；

在一些实施例中，各所述子滤波处理层包括相位谱修正层、以及至少两个级联的幅度谱滤波层；

所述降噪模块5551，还用于通过所述至少两个级联的幅度谱滤波层，对所述幅度谱进行滤波处理，得到中间幅度谱；

在一些实施例中，所述第二特征变换层包括特征转换层、和特征逆变换层；

所述降噪模块5551，还用于通过所述特征转换层，将所述目标幅度谱转换为幅度谱掩模，并确定所述目标相位谱对应的相位角；

在一些实施例中，所述内容差异处理层包括：傅里叶变换层；

所述确定模块5553，还用于通过所述傅里叶变换层，对所述目标语音样本进行傅里叶变换，得到第一幅度谱，并对所述语音样本进行傅里叶变换，得到第二幅度谱；

在一些实施例中，所述傅里叶变换层包括至少两个子傅里叶变换层，不同的所述子傅里叶变换层对应不同的变换尺度；

所述确定模块5553，还用于通过各所述子傅里叶变换层，分别对所述目标语音样本进行相应变换尺度的傅里叶变换，得到各所述子傅里叶变换层对应的第一幅度谱；

所述确定模块5553，还用于确定各所述子傅里叶变换层对应的第一幅度谱和第二幅度谱之间的中间幅度差异；

在一些实施例中，所述内容差异处理层还包括：幂压缩处理层；

所述确定模块5553，还用于通过所述幂压缩处理层，对所述第一幅度谱进行压缩处理，得到第一压缩幅度谱，并对所述第二幅度谱进行压缩处理，得到第二压缩幅度谱；

在一些实施例中，所述发音差异处理层包括：发音评分损失处理层；

所述更新模块5554，还用于通过所述发音评分损失处理层，确定所述发音预测结果、与所述语音样本对应的样本标签之间的差异，并基于所述差异确定评分损失函数的值；

在一些实施例中，所述更新模块5554，还用于获取所述内容差异对应的第一权重值、以及所述评分损失函数的值对应的第二权重值；

在一些实施例中，所述更新模块5554，还用于当所述损失函数的值超出损失阈值时，基于所述损失函数确定所述语音降噪模型的误差信号；

在一些实施例中，所述发音差异处理层还包括：第一特征映射层、第二特征映射层、和特征拼接及预测层，所述第一特征映射层的网络结构不同于所述第二特征映射层的网络结构；

所述预测模块5552，还用于通过所述第一特征映射层，对所述目标语音样本进行映射处理，得到第一映射特征；

下面继续说明本申请实施例提供的语音评分装置，应用于语音降噪模型，本申请实施例提供的语音评分装置包括：

应用本申请上述实施例，在语音降噪模型中加入发音差异处理层和内容差异处理层，通过发音差异处理层，对降噪处理后的目标语音样本进行发音评分的预测，得到用于指示目标语音样本与语音样本对应的参考发音间的发音相似度的发音预测结果，并通过内容差异处理层确定目标语音样本的内容与语音样本的内容间的内容差异，从而基于发音预测结果以及内容差异，更新语音降噪模型的模型参数以完成模型训练；如此基于降噪前后的发音相似度和内容差异进行语音降噪模型的训练，能够使训练得到的语音降噪模型避免降噪前后语音信息的丢失，提高降噪处理的精确程度，从而进一步提高发音评分的预测精度。

本申请实施例还提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例还提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本申请实施例提供的语音降噪模型的训练方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种语音降噪模型的训练方法，其特征在于，所述语音降噪模型包括：噪音处理层，发音差异处理层和内容差异处理层，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述噪音处理层包括：第一特征变换层、滤波处理层以及第二特征变换层；

所述通过所述噪音处理层，对语音样本进行降噪处理，得到目标语音样本，包括：

通过所述第一特征变换层，对所述语音样本进行傅里叶变换，得到所述语音样本对应的幅度谱和相位谱；

3.如权利要求2所述的方法，其特征在于，所述滤波处理层包括至少两个级联的子滤波处理层；

所述通过所述滤波处理层，对所述幅度谱进行滤波处理，得到目标幅度谱，并对所述相位谱进行相位修正，得到目标相位谱，包括：

通过第一级的子滤波处理层，对所述幅度谱进行滤波处理，得到中间幅度谱，并对所述相位谱进行相位修正，得到中间相位谱；

4.如权利要求3所述的方法，其特征在于，各所述子滤波处理层包括相位谱修正层、以及至少两个级联的幅度谱滤波层；

所述通过第一级的子滤波处理层，对所述幅度谱进行滤波处理，得到中间幅度谱，并对所述相位谱进行相位修正，得到中间相位谱，包括：

通过所述至少两个级联的幅度谱滤波层，对所述幅度谱进行滤波处理，得到中间幅度谱；

5.如权利要求2所述的方法，其特征在于，所述第二特征变换层包括特征转换层、和特征逆变换层；

所述通过所述第二特征变换层，将所述目标幅度谱和所述目标相位谱进行相乘，并将相乘得到的结果进行傅里叶逆变换，得到所述目标语音样本，包括：

通过所述特征转换层，将所述目标幅度谱转换为幅度谱掩模，并确定所述目标相位谱对应的相位角；

6.如权利要求1所述的方法，其特征在于，所述内容差异处理层包括：傅里叶变换层；

所述通过所述内容差异处理层，确定所述目标语音样本的内容与所述语音样本的内容间的内容差异，包括：

通过所述傅里叶变换层，对所述目标语音样本进行傅里叶变换，得到第一幅度谱，并对所述语音样本进行傅里叶变换，得到第二幅度谱；

7.如权利要求6所述的方法，其特征在于，所述傅里叶变换层包括至少两个子傅里叶变换层，不同的所述子傅里叶变换层对应不同的变换尺度；

所述通过所述傅里叶变换层，对所述目标语音样本进行傅里叶变换，得到第一幅度谱，并对所述语音样本进行傅里叶变换，得到第二幅度谱，包括：

通过各所述子傅里叶变换层，分别对所述目标语音样本进行相应变换尺度的傅里叶变换，得到各所述子傅里叶变换层对应的第一幅度谱；

所述确定所述第一幅度谱与所述第二幅度谱之间的幅度差异，包括：

确定各所述子傅里叶变换层对应的第一幅度谱和第二幅度谱之间的中间幅度差异；

8.如权利要求6所述的方法，其特征在于，所述内容差异处理层还包括：幂压缩处理层；

通过所述幂压缩处理层，对所述第一幅度谱进行压缩处理，得到第一压缩幅度谱，并对所述第二幅度谱进行压缩处理，得到第二压缩幅度谱；

9.如权利要求1所述的方法，其特征在于，所述发音差异处理层包括：发音评分损失处理层；

10.如权利要求9所述的方法，其特征在于，所述基于所述内容差异以及所述评分损失函数的值，更新所述语音降噪模型的模型参数，包括：

11.如权利要求9所述的方法，其特征在于，所述发音差异处理层还包括：第一特征映射层、第二特征映射层、和特征拼接及预测层，所述第一特征映射层的网络结构不同于所述第二特征映射层的网络结构；

所述通过所述发音差异处理层，对所述目标语音样本进行发音评分的预测，得到发音预测结果，包括：

通过所述第一特征映射层，对所述目标语音样本进行映射处理，得到第一映射特征；

12.一种语音评分方法，其特征在于，所述方法应用于语音降噪模型，所述方法包括：

呈现参考语音文本以及语音输入功能项；

接收到基于所述语音输入界面输入的语音信息；

其中，所述语音降噪模型，基于权利要求1-11任一项所述的语音降噪模型的训练方法训练得到。

13.一种语音降噪模型的训练装置，其特征在于，所述语音降噪模型包括：噪音处理层，发音差异处理层和内容差异处理层，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现如权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求1至12任一项所述的方法。