CN114974299B

CN114974299B - 语音增强模型的训练、增强方法、装置、设备、介质

Info

Publication number: CN114974299B
Application number: CN202210917051.5A
Authority: CN
Inventors: 方雪飞; 杨栋; 曹木勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-10-21
Anticipated expiration: 2042-08-01
Also published as: WO2024027295A1; US20240194214A1; EP4394769A1; CN114974299A

Abstract

本申请提供了一种语音增强模型的训练、增强方法、装置、设备、介质；其中，语音增强模型的训练方法包括：基于带噪语音信号的带噪语音特征，调用语音增强模型进行处理，得到听觉域的多个第一预测掩码值；获取带噪语音信号的每个频点对应的第一幅值和第一相位、以及纯净语音信号的每个频点对应的第二幅值和第二相位；基于每个频点对应的第一相位和第二相位，确定在每个频点的相位差，并基于每个频点的相位差对对应的第二幅值进行修正处理，得到每个频点对应的修正后第二幅值；基于多个第一预测掩码值、每个频点对应的第一幅值以及修正后第二幅值，确定损失值；基于损失值更新语音增强模型的参数。通过本申请能够提升语音增强模型的降噪效果。

Description

语音增强模型的训练、增强方法、装置、设备、介质

技术领域

本申请涉及人工智能技术，尤其涉及一种语音增强模型的训练、增强方法、装置、设备、介质。

背景技术

人工智能（Artificial Intelligence，AI）是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

随着深度学习的飞速发展，深度学习在语音增强领域的应用日益增多。相关技术中，基于深度学习的语音增强模型对复杂场景下的带噪语音信号进行语音增强处理（即降噪处理），得到的语音信号的降噪效果不理想。

发明内容

本申请实施例提供一种语音增强模型的训练方法、语音增强方法、装置、电子设备、计算机可读存储介质及计算机程序产品，通过在训练语音增强模型的损失函数中融入相位信息，显著提升了语音增强模型的降噪效果。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音增强模型的训练方法，包括：

基于带噪语音信号的带噪语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个第一预测掩码值；其中，不同的所述第一预测掩码值对应所述听觉域的不同频带；

获取所述带噪语音信号的每个频点对应的第一幅值和第一相位、以及对应的纯净语音信号的每个所述频点对应的第二幅值和第二相位；

基于每个所述频点对应的所述第一相位和所述第二相位，确定所述纯净语音信号和所述带噪语音信号在每个所述频点的相位差，并基于每个所述频点的相位差对所述频点对应的所述第二幅值进行修正处理，得到每个所述频点对应的修正后第二幅值；

基于所述多个第一预测掩码值、每个所述频点对应的所述第一幅值以及所述修正后第二幅值，确定损失值；

基于所述损失值在所述语音增强模型中进行反向传播，以更新所述语音增强模型的参数。

本申请实施例还提供一种语音增强处理方法，包括：

基于待处理语音信号的待处理语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个掩码值；其中，所述语音增强模型是通过本申请实施例提供的语音增强模型的训练方法训练得到的；

基于所述听觉域的所述多个掩码值进行内插处理，得到内插处理结果；

基于所述内插处理结果与所述待处理语音信号的相位进行信号重建处理，得到增强后语音信号。

本申请实施例提供一种语音增强模型的训练装置，包括：

增强模块，用于基于带噪语音信号的带噪语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个第一预测掩码值；其中，不同的所述第一预测掩码值对应所述听觉域的不同频带；

获取模块，用于获取所述带噪语音信号的每个频点对应的第一幅值和第一相位、以及对应的纯净语音信号的每个所述频点对应的第二幅值和第二相位；

修正模块，用于基于每个所述频点对应的所述第一相位和所述第二相位，确定所述纯净语音信号和所述带噪语音信号在每个所述频点的相位差，并基于每个所述频点的相位差对所述频点对应的所述第二幅值进行修正处理，得到每个所述频点对应的修正后第二幅值；

确定模块，用于基于所述多个第一预测掩码值、每个所述频点对应的所述第一幅值以及所述修正后第二幅值，确定损失值；

更新模块，用于基于所述损失值在所述语音增强模型中进行反向传播，以更新所述语音增强模型的参数。

本申请实施例还提供一种语音增强处理装置，包括：

增强模块，用于基于待处理语音信号的待处理语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个掩码值；其中，所述语音增强模型是通过本申请实施例提供的语音增强模型的训练方法训练得到的；

内插模块，用于基于所述听觉域的所述多个掩码值进行内插处理，得到内插处理结果；

重建模块，用于基于所述内插处理结果与所述待处理语音信号的相位进行信号重建处理，得到增强后语音信号。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的语音增强模型的训练方法或语音增强处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本申请实施例提供的语音增强模型的训练方法或语音增强处理方法。

本申请实施例提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例提供的语音增强模型的训练方法或语音增强处理方法。

本申请实施例具有以下有益效果：

通过带噪语音信号与纯净语音信号在每个频点的相位差，对纯净语音信号在每个频点的幅值进行修正，基于修正后的纯净语音信号的幅值、带噪语音信号的幅值以及语音增强模型输出的多个第一预测掩码值确定损失值，使得损失值中充分融入语音信号的相位信息以及幅值信息，使语音增强模型能够基于融合有相位信息与幅值信息的损失值进行全面学习，突破了现有技术无法在基于听觉域的系统中引入相位信息的技术障碍，基于训练后语音增强模型输出的预测掩码值确定出的增强后语音信号，不仅在幅值上与纯净语音信号接近，还能在相位上与纯净语音信号接近，从而提升了降噪效果。

附图说明

图1是本申请实施例提供的语音增强模型的训练系统100的架构示意图；

图2A是本申请实施例提供的服务器200的结构示意图；

图2B是本申请实施例提供的终端401的结构示意图；

图3A是本申请实施例提供的语音增强模型的训练方法中步骤101-105的流程示意图；

图3B是本申请实施例提供的语音增强模型的训练方法中步骤1041A-1042A的流程示意图；

图3C是本申请实施例提供的语音增强模型的训练方法中步骤10421A-10422A的流程示意图；

图3D是本申请实施例提供的语音增强模型的训练方法中步骤10423A-10424A的流程示意图；

图3E是本申请实施例提供的语音增强模型的训练方法中步骤1041B-1044B的流程示意图；

图3F是本申请实施例提供的语音增强模型的训练方法中步骤10441B-10442B的流程示意图；

图3G是本申请实施例提供的语音增强模型的训练方法中步骤10443B-10444B的流程示意图；

图3H是本申请实施例提供的语音增强处理方法的流程示意图；

图4A是本申请实施例提供的确定频域对应的损失值的第一种实现方式的流程示意图；

图4B是本申请实施例提供的确定频域对应的损失值的第二种实现方式的流程示意图；

图4C是本申请实施例提供的确定听觉域对应的损失值的第一种实现方式的流程示意图；

图4D是本申请实施例提供的确定听觉域对应的损失值的第二种实现方式的流程示意图；

图5是本申请实施例提供的在游戏客户端中进行语音增强处理的示意图；

图6是本申请实施例提供的语音通话过程的语音增强处理示意图；

图7是本申请实施例提供的语音增强模型的训练以及应用过程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

可以理解的是，在本申请实施例中，涉及到用户信息等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）游戏语音：游戏玩家在游戏场景中的语音通讯。

2）游戏语音软件开发工具包（Software Development Kit，SDK）：内嵌在游戏客户端中的、用于实现游戏玩家之间的语音通讯的软件开发工具包。

3）语音增强：指抑制语音信号中的干扰噪声，提高语音信号的质量和可懂度（Short Time Objective Intelligibility，STOI），可懂度即为语言清晰度，表示听者能听懂通过一定传声系统传递的言语信号的百分率。例如，通过一定的传声系统给听者听100个单词，听者听对了50个，那么此时语音信号的可懂度为50%。

4）听觉域：在十分安静的情况下，人耳在某个波长能听到的最小声强的声音称为听阈，而引起人耳的听觉疼痛的最小声强的声音称为痛阈，在听阈与痛阈之间的范围为人耳的听觉响应范围，即听觉域，听觉域是符合人耳听觉感知的频率尺度，例如，Bark域，Mel域等。

5）损失函数：用于确定真实值与预测值之间可量化的差异，神经网络模型的训练过程，即为通过调整参数使得损失函数确定的损失值最小化的过程；对于相同的神经网络模型，使用不同的损失函数会取得不同的训练效果。对于特定的训练任务，选择更优的损失函数，可使得神经网络模型在推理复杂度不变的情况下提升预测结果的准确性。

6）相位（phase）：用于描述声音信号波形变化的度量，通常以角度作为单位，也称作相角。

7）幅值：周期内信号出现的最大绝对值，本申请实施例中是指频点对应的幅度值。

8）频域（Frequency Domain）：描述信号在频率方面特性时用到的一种坐标系，频域图显示了在一个频率范围内每个给定频带内的信号量。通过傅里叶变换可以把信号从时域转换到频域。

9）频点：具体的绝对频率值，一般为调制信号的中心频率。本申请实施例中，频点是固定的频率值。

10）掩码（mask）：掩码又称掩膜，是用于覆盖图像或者物体的模板。掩模用于屏蔽对数据中的部分数据，使被掩膜覆盖的部分数据不参加处理，或仅对掩膜覆盖的部分数据作处理或统计。掩码值相当于掩膜对应的边界值，基于掩码值进行相应的处理，可以解决二分类问题。

以游戏语音场景为例，游戏客户端通常可以提供游戏语音服务，当用户在嘈杂环境中使用游戏语音时，麦克风会采集到各类环境噪声，而在多人组队的游戏语音中，如果一方受到噪声干扰，则所有组队成员的语音通话质量都会受到影响。因而需要进行语音增强处理，以降低语音中的噪声。

申请人发现，相关技术中基于深度学习的语音增强任务中，通常是基于语音信号的幅值信息进行语音增强模型的训练，而没有将语音信号的相位信息考虑进去。这是因为在基于听觉域的系统中，语音信号的相位信息是非线性的，在进行频带合并时，无法将相位信息直接用于线性叠加。由于相关技术中在语音增强模型的训练过程中无法使用语音信号的相位信息，导致训练后的语音增强模型的降噪效果较差。

本申请实施例提供一种语音增强模型的训练方法、语音增强处理方法、语音增强模型的训练装置、电子设备、计算机可读存储介质以及计算机程序产品，能够提升训练得到的语音增强模型的降噪效果。下面说明本申请实施例提供的用于进行语音增强模型的训练的电子设备的示例性应用，本申请实施例提供的进行语音增强模型的训练的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备（例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备、车载终端）等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为服务器时的示例性应用。

本申请实施例提供的语音增强模型的训练方法可以由终端或服务器单独执行，也可以由终端和服务器协同完成，参见图1，图1是本申请实施例提供的语音增强模型的训练系统100的架构示意图，包括服务器200、终端401和与终端401进行语音通话的终端402。终端401和终端402通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，用户通过操作终端401的人机交互界面（例如，游戏客户端、会议客户端、直播客户端、即时语音通信客户端等）的语音增强处理控件，终端401响应于用户对语音增强处理控件的操作，将客户端产生的带噪语音信号通过网络300传输至服务器200，服务器200根据终端401通过网络300传输的带噪语音信号，调用语音增强模型进行语音增强处理，得到增强后的语音信号，并将增强后的语音信号通过网络300发送给与终端401进行语音通话的终端402，以供使用终端402的客户端的用户收听增强后的语音信号。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端401或者终端402可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

下面，以执行本申请实施例提供的语音增强模型的训练方法的电子设备为服务器为例，说明电子设备的结构示意图。参见图2A，图2A是本申请实施例提供的服务器200的结构示意图，图2A所示的服务器200包括：至少一个处理器210、存储器230、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（Digital Signal Processor，DSP），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器230可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器230可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器230包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（Read Only Memory，ROM），易失性存储器可以是随机存取存储器（Random Access Memory，RAM）。本申请实施例描述的存储器230旨在包括任意适合类型的存储器。

在一些实施例中，存储器230能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统231，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块232，用于经由一个或多个（有线或无线）网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（Universal Serial Bus，USB）等。

在一些实施例中，本申请实施例提供的语音增强模型的训练装置可以采用软件方式实现，图2A示出了存储在存储器230中的语音增强模型的训练装置233，其可以是程序和插件等形式的软件，包括以下软件模块：增强模块2331、获取模块2332、修正模块2333、确定模块2334和更新模块2335，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

下面，以执行本申请实施例提供的语音增强处理方法的电子设备为终端为例，说明电子设备的结构示意图。参见图2B，图2B是本申请实施例提供的终端401的结构示意图，图2B所示的终端401包括：至少一个处理器410、存储器430、至少一个网络接口420。

操作系统431，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块432，用于经由一个或多个（有线或无线）网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（Universal Serial Bus，USB）等。

在一些实施例中，本申请实施例提供的语音增强处理装置可以采用软件方式实现，图2B示出了存储在存储器430中的语音增强处理装置433，其可以是程序和插件等形式的软件，包括以下软件模块：增强模块4331、内插模块4332和重建模块4333，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

下面将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的语音增强模型的训练方法。可以理解地，下述的方法可以由上文的终端401或服务器200单独执行或协同执行。

参见图3A，图3A是本申请实施例提供的语音增强模型的训练方法中步骤101-105的流程示意图，将结合图3A示出的步骤101-105进行说明。

在步骤101中，基于带噪语音信号的带噪语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个第一预测掩码值。

作为示例，在获取带噪语音信号之后，对带噪语音信号进行特征提取处理，得到带噪语音特征。

例如，可以对带噪语音信号进行从时域到频域的变换处理，得到带噪语音信号在频域的多个频点分别对应的第一幅值和第一相位（此处“第一”用于区别类似的幅值或者相位）；接着，对带噪语音信号在频域的多个频点分别对应的第一幅值进行频带合并处理，得到带噪语音信号在听觉域对应的多个幅值；最后，基于带噪语音信号在听觉域对应的多个幅值进行特征提取处理，从而得到带噪语音特征。其中，在特征提取处理过程中，可以对带噪语音信号在听觉域对应的多个幅值进行进一步加工，例如，对带噪语音信号在听觉域对应的多个幅值进行对数或指数加权处理，以减小幅值的动态范围；或者，将带噪语音信号在听觉域对应的多个幅值，分别与时序上相邻的带噪语音信号帧的语谱信息进行拼接，以增大时间域视野。

在获得带噪语音特征后，基于带噪语音特征调用语音增强模型进行语音增强处理，从而得到听觉域的多个第一预测掩码值。其中，不同的第一预测掩码值对应听觉域的不同频带。第一预测掩码值可以表征带噪语音特征对应的边界值，通过第一预测掩码值可以解决二分类问题（理想二值掩蔽，IBM，Ideal Binary Mask），也即，区分噪音与人声。

这里，语音增强模型可以是基于深度学习的各种机器学习模型。作为示例，语音增强模型可以为深度神经网络（Deep Neural Networks，DNN）模型，通过DNN模型包括的多个级联的全连接层，对带噪语音特征进行级联的多次全连接计算处理，并对最后一个全连接层输出的计算结果进行掩码计算处理，从而得到听觉域的多个第一预测掩码值。

作为示例，语音增强模型还可以为循环神经网络（Recurrent Neural Network，RNN）模型，通过RNN模型包括的多个级联的循环单元，对带噪语音特征进行级联的多次递归计算处理，并对最后一个循环单元输出的计算结果进行掩码计算处理，从而得到听觉域的多个第一预测掩码值。

作为示例，语音增强模型还可以为卷积神经网络（Convolutional NeuralNetworks，CNN）模型，通过CNN模型包括的多个级联的卷积层，对带噪语音特征进行级联的多次卷积计算处理，并对最后一个卷积层输出的计算结果进行掩码计算处理，从而得到听觉域的多个第一预测掩码值。

例如，听觉域包括多个不同的频带，而语音增强模型输出的多个第一预测掩码值中的每个第一预测掩码值，分别对应听觉域的一个不同的频带。以听觉域为Bark域为例，Bark域根据人耳结构对24个频点产生共振的特点，将语音信号的频率划分为24个临界频带，Bark域包括的频带在低频时接近线性分布，在高频时接近指数分布。下面的表1示出了Bark域的部分频带。

表1Bark域的部分频带

上述的表1示出了Bark域的部分频带，中心频点是频带对应的频率值中处于中间位置的频率值，如表1所示，Bark域的第一个频带为20-100Hz，其中心频点为50Hz，带宽为80Hz；第二个频带为100-200Hz，其中心频点为150Hz，带宽为100Hz；第三个频带为200-300Hz，其中心频点为250Hz，带宽为100Hz。

在步骤102中，获取带噪语音信号的每个频点对应的第一幅值和第一相位、以及对应的纯净语音信号的每个频点对应的第二幅值和第二相位。

作为示例，对带噪语音信号和带噪语音信号对应的纯净语音信号分别进行频域变换处理，例如，进行快速傅立叶变换（Fast Fourier Transform，FFT）、离散傅里叶变换（Discrete Fourier Transform，DFT）等，得到带噪语音信号在频域的每个频点对应的第一幅值和第一相位，并得到纯净语音信号在频带的每个频点对应的第二幅值和第二相位。

这里，带噪语音信号是在纯净语音信号的基础上添加噪声信号得到的。使用相同的采样频率，对带噪语音信号和纯净语音信号分别进行采样处理，并进行相同的采样次数，从而得到的带噪语音信号的采样点数量，与纯净语音信号的采样点数量相同。其中，带噪语音信号/纯净语音信号的每个采样点的频率的计算公式如下：

公式1

其中，

表示带噪语音信号/纯净语音信号第n个采样点的频率，1

n

N，N表示对带噪语音信号/纯净语音信号进行的采样次数，也即带噪语音信号/纯净语音信号的采样点数量，

表示带噪语音信号/纯净语音信号的采样频率。

由于对带噪语音信号和纯净语音信号分别进行采样时，采样频率和采样次数相同，根据公式1可知，对带噪语音信号和纯净语音信号分别进行采样，带噪语音信号第n个采样点的频率，与纯净语音信号第n个采样点的频率是相同的，因此，带噪语音信号和纯净语音信号在频域中具有相同的多个频点，从而每个频点既对应第一幅值和第一相位，也对应第二幅值和第二相位。

在步骤103中，基于每个频点对应的第一相位和第二相位，确定纯净语音信号和带噪语音信号在每个频点的相位差，并基于每个频点的相位差对频点对应的第二幅值进行修正处理，得到每个频点对应的修正后第二幅值。

作为示例，在得到每个频点对应的第一相位、第二相位、第一幅值以及第二幅值之后，基于每个频点对应的第一相位和第二相位，确定纯净语音信号和带噪语音信号在该频点的相位差，并基于该频点的相位差对该频点对应的第二幅值进行修正处理，以得到该频点对应的修正后第二幅值。

作为示例，第i个频点对应的修正后第二幅值的计算公式如下：

公式2

其中，

表示第i个频点对应的修正后第二幅值，

表示纯净语音信号在第i个频点对应的第二幅值，

表示纯净语音信号在第i个频点对应的第二相位，

表示带噪语音信号在第i个频点对应的第一相位，

表示纯净语音信号与带噪语音信号在第i个频点的相位差。

在步骤104中，基于多个第一预测掩码值、每个频点对应的第一幅值以及修正后第二幅值，确定损失值。

作为示例，在得到每个频点对应的修正后第二幅值之后，基于听觉域的多个第一预测掩码值、每个频点对应的第一幅值以及修正后第二幅值，确定损失值。

本申请实施例提供确定损失值的两种示例性方案，第一种方案是，将听觉域的多个第一预测掩码值映射至频域，基于频域的多个第二预测掩码值、以及频域的每个频点对应的第一幅值以及修正后第二幅值，以确定频域对应的损失值。第二种方案是，将频域的每个频点对应的第一幅值和修正后第二幅值映射至听觉域，基于听觉域对应的第一幅值和修正后第二幅值，确定对应的听觉域的第二目标掩码值，并基于听觉域的第二目标掩码值以及听觉域的第一预测掩码值，以确定听觉域对应的损失值。

下面将对确定损失值的这两种方案分别进行说明。

下面将结合附图对确定损失值的第一种方案进行说明。参见图3B，图3B是本申请实施例提供的语音增强模型的训练方法中步骤1041A-1042A的流程示意图。基于图3A，图3B示出的步骤104可以通过步骤1041A-1042A实现。下面将结合图3B示出的步骤1041A-1042A进行说明。

在步骤1041A中，对多个第一预测掩码值分别进行内插处理，得到每个频点对应的第二预测掩码值。

作为示例，在确定频域对应的损失值的过程中，首先对多个第一预测掩码值分别进行内插处理，从而得到频域的每个频点对应的第二预测掩码值。

这里，由于每个第一预测掩码值与听觉域中的一个频带一一对应，可以通过内插处理，将听觉域的第一预测掩码值映射成频域的每个频点对应的第二预测掩码值。

内插处理是指根据一组已知的离散点数据（例如：第一预测掩码值），在离散点数据对应的数据范围内估算其他离散点（例如：频点）对应的近似值（例如：第一预测掩码），本申请实施例中，内插处理可以通过拷贝方式或者线性加权的方式实现，以下具体说明。

在一些实施例中，步骤1041A可以通过以下拷贝的方式实现：确定频点在听觉域中所属的第一频带，将第一频带对应的第一预测掩码值，确定为该频点对应的第二预测掩码值。

作为示例，在确定每个频点对应的第二预测掩码值时，首先，确定每个频点属于听觉域中的哪一个频带，如确定频点属于听觉域中的第一频带，例如，在频点为60Hz的情况下，根据表1可知，该频点属于Bark域的第一个频带20-100Hz，因此，将20-100Hz这一频带确定为第一频带；其次，在确定出第一频带之后，将第一频带对应的第一预测掩码值，确定为该频点对应的第二预测掩码值，例如，将20-100Hz这一频带对应第一预测掩码值，确定为60Hz的频点对应的第二预测掩码值。

在一些实施例中，步骤1041A还可以通过以下线性加权的方式实现：确定频点在听觉域中所属的第一频带，并确定在听觉域中与第一频带相邻的参考频带；对第一频带对应的第一预测掩码值、以及参考频带对应的第一预测掩码值进行加权求和处理，得到该频点对应的第二预测掩码值。

作为示例，在确定每个频点对应的第二预测掩码值时，首先，确定每个频点属于听觉域中的哪一个频带，如确定频点属于听觉域中的第一频带；其次，确定第一频带的相邻频带，并将相邻频带确定为参考频带；最后，对第一频带对应的第一预测掩码值、以及参考频带对应的第一预测掩码值进行加权求和处理，从而得到该频点对应的第二预测掩码值。其中，每个第一预测掩码值对应的权重正相关于以下两个元素之间的距离：频点，第一预测掩码值对应的频带的中心频点。

例如，在频点为120Hz的情况下，首先，根据表1可知，该频点属于Bark域的第二个频带100-200Hz，因此，将100-200Hz这一频带确定为第一频带；其次，根据表1可知，100-200Hz这一频带的相邻频带包括20-100Hz和200-300Hz这两个频带，所以，将20-100Hz和200-300Hz这两个频带均确定为参考频带；最后，在一些情况下，可以从两个参考频带中选择其中一个参考频带，将选中的参考频带对应的第一预测掩码值、与第一频带对应的第一预测掩码值进行加权求和处理，以得到120Hz的频点对应的第二预测掩码值；在另一些情况下，可以将两个参考频带分别对应的第一预测掩码值、与第一频带对应的第一预测掩码值进行加权求和处理，以得到120Hz的频点对应的第二预测掩码值，在这种情况下，20-100Hz这一参考频带的中心频点为50Hz，120Hz这一频点与该中心频点相距70Hz；100-200Hz这一频带的中心频点为150Hz，120Hz这一频点与该中心频点相距30Hz；200-300Hz这一参考频带的中心频点为250Hz，120Hz这一频点与该中心频点相距130Hz，由于第一预测掩码值的权重正相关于频点与频带的中心频点之间的距离，那么，在确定120Hz这一频点对应的第二预测掩码值的过程中，200-300Hz这一参考频带对应的第一预测掩码值的权重，大于20-100Hz这一参考频带对应的第一预测掩码值的权重，同时，20-100Hz这一参考频带对应的第一预测掩码值的权重，大于100-200Hz这一频带对应的第一预测掩码值的权重。

通过上述方式之一确定频域的每个频点对应的第二预测掩码值，可以提升确定出的第二预测掩码值的准确性，便于基于准确的第二预测掩码值准确确定损失值。

在步骤1042A中，基于每个频点对应的第二预测掩码值、第一幅值以及修正后第二幅值，确定损失值。

作为示例，在确定每个频点对应的第二预测掩码值之后，基于每个频点对应的第二预测掩码值、该频点对应的第一幅值以及修正后第二幅值确定损失值。

在本申请实施例中，在通过上述第一种方案确定频域的损失值的过程中，存在以下两种实现方式：第一种实现方式，是基于频域的每个频点对应的幅值信息进行计算，得到频域的损失值；第二种实现方式，是基于频域的每个频点对应的掩码信息进行计算，得到频域的损失值。

下面将分别对确定的损失值的第一种方案对应的这两种实现方式进行说明。

下面将结合附图说明确定损失值的第一种方案对应的第一种实现方式。参见图3C，图3C是本申请实施例提供的语音增强模型的训练方法中步骤10421A-10422A的流程示意图。基于图3B，图3C示出的步骤1042A可以通过步骤10421A-10422A实现。下面将结合图3C示出的步骤10421A-10422A进行说明。

在步骤10421A中，将每个频点对应的第二预测掩码值，与频点对应的第一幅值进行相乘处理，得到每个频点对应的第三幅值。

作为示例，参见图4A，图4A是本申请实施例提供的确定频域对应的损失值的第一种实现方式的流程示意图。如图4A所示，在确定频域的损失值的过程中，将每个频点对应的第二预测掩码值

，与该频点对应的第一幅值

进行相乘处理，以得到该频点对应第三幅值

，其中，1

i

I，I表示频点的总数量。

在步骤10422A中，将每个频点对应的第三幅值、以及频点对应的修正后第二幅值，代入第一目标损失函数进行计算处理，得到损失值。

作为示例，参见图4A，在得到每个频点对应的第三幅值之后，将每个频点对应的第三幅值、以及该频点对应的修正后第二幅值，代入第一目标损失函数进行计算处理，从而得到损失值。

其中，第一目标损失函数包括但不限于：均方误差（Mean Square Error，MSE）函数，基于指数加权的MSE函数，基于对数加权的MSE函数，平均绝对误差（Mean AbsoluteError，MAE）函数，交叉熵（Cross Entropy）损失函数；第一目标损失函数还可以是多个损失函数的加权组合，例如MSE函数和MAE函数的加权组合等等。

以第一目标损失函数为MSE函数为例，第一目标损失函数的计算公式如下：

公式3

其中，

表示第一目标损失函数，

表示第i个频点对应的修正后第二幅值，

表示第i个频点对应的第三幅值，

表示频点的总数量。

通过将每个频点对应的修正后第二幅值和第三幅值，代入上述公式3进行计算，可以得到损失值。通过上述方式，可以在损失值中同时融入语音信号的幅值信息与相位信息，能够更好地指导语音增强模型进行学习。

下面将结合附图说明确定损失值的第一种方案对应的第二种实现方式。参见图3D，图3D是本申请实施例提供的语音增强模型的训练方法中步骤10423A-10424A的流程示意图。基于图3B，图3D示出的步骤1042A还可以通过步骤10423A-10424A实现，图3D示出的方法与图3C示出的方法为两种并立的方法。下面将结合图3D示出的步骤10423A-10424A进行说明。

在步骤10423A中，将每个频点对应的修正后第二幅值，与频点对应的第一幅值的比值，确定为每个频点对应的第一目标掩码值。

作为示例，参见图4B，图4B是本申请实施例提供的确定频域对应的损失值的第二种实现方式的流程示意图。如图4B所示，在确定频域的损失值的过程中，将每个频点对应的修正后第二幅值与该频点对应的第一幅值的比值，确定为每个频点对应的第一目标掩码值。

作为示例，第一目标掩码值的计算公式如下：

公式4

其中，

表示第i个频点对应的第一目标掩码值，

表示第i个频点对应的修正后第二幅值，

表示第i个频点对应的第一幅值。

在步骤10424A中，将每个频点对应的第二预测掩码值、以及频点对应的第一目标掩码值，代入第二目标损失函数进行计算处理，得到损失值。

作为示例，参见图4B，在确定每个频点对应的第一目标掩码值之后，将每个频点对应的第一目标掩码值、以及该频点对应的第二预测掩码值，代入第二目标损失函数进行计算处理，以得到损失值。

作为示例，第二目标损失函数包括但不限于：MSE函数，基于指数加权的MSE函数，基于对数加权的MSE函数，MAE函数，交叉熵损失函数；第二目标损失函数还可以是多个损失函数的加权组合，例如MSE函数和MAE函数的加权组合等等。

通过上述方式，可以在损失值中同时融入语音信号的幅值信息与相位信息，能够更好地指导语音增强模型进行学习。

下面将对结合附图对确定损失值的第二种方案进行说明。参见图3E，图3E是本申请实施例提供的语音增强模型的训练方法中步骤1041B-1044B的流程示意图。基于图3A，图3E示出的步骤104还可以通过步骤1041B-1044B实现，图3E示出的方法与图3B示出的方法为两种并立的方法。下面将结合图3E示出的步骤1041B-1044B进行说明。

在步骤1041B中，将每个频点对应的第一幅值以及修正后第二幅值，映射至听觉域中对应的频带。

作为示例，在确定损失函数的过程中，首先，将每个频点对应的第一幅值以及修正后第二幅值，映射至听觉域中对应的频带。

在一些实施例中，步骤1041B可以通过以下方式实现：确定每个频点在听觉域中所属的第二频带；将每个频点对应的第一幅值以及修正后第二幅值，映射至频点在听觉域中所属的第二频带。

作为示例，在对每个频点对应的第一幅值和修正后第二幅值进行映射的过程中，首先，确定每个频点属于听觉域中的哪一个频带，如确定每个频点属于听觉域中的第二频带；其次，将每个频点对应的第一幅值以及修正后第二幅值，映射至该频点在听觉域中所属的第二频带。

例如，在频点为120Hz的情况下，根据表1可知，120Hz这一频点属于Bark域的100-200Hz这一频带，因此将100-200Hz这一频带确定为第二频带，并将120Hz这一频点对应的第一幅值和修正后第二幅值映射至该第二频带。

由于听觉域包括的频带的数量少于频域的频点的数量，因此，通过将频点对应的第一幅值和修正后第二幅值映射至听觉域的对应的频带的方式，可以将多个频点对应的第一幅值和修正后第二幅值，合并为少量频带对应的第一幅值和修正后第二幅值，从而通过这种映射的方式实现了频带合并，有效降低了待处理信息的维度，从而在计算损失值的过程中可以有效节约计算资源。

在步骤1042B中，基于映射至每个频带的第一幅值，确定每个频带对应的第一能量。

作为示例，在将每个频点对应的第一幅值映射至听觉域的对应的频带之后，基于映射至每个频带的第一幅值，确定每个频带对应的第一能量。其中，第一能量是以下参数的加权求和结果：映射至每个频带的第一幅值的平方。

这里，频点对应的能量即为该频点对应的幅值的平方，频带对应的第一能量即为该频带包括的所有第一幅值的平方的加权求和结果。

作为示例，每个频带对应的第一能量的计算公式如下：

公式5

其中，

表示每个频带对应的第一能量，

表示该频带中第p个频点对应的第一幅值对应的能量的权重，

表示该频带中第p个频点对应的第一幅值对应的能量（即，第p个频点对应的第一幅值的平方），P为该频带中包括的频点的数量。

这里，每个第一幅值的平方对应的权重，可以通过平均分配得到，即，在频带包括P个频点的情况下，每个频点对应的第一幅值的平方的权重为1/P；每个第一幅值的平方对应的权重，还可以基于第一幅值对应的频点与该频带的中心频点的距离确定，在这种情况下，该频带中第p个频点对应的第一幅值的平方的权重的计算公式如下：

公式6

其中，

表示该频带中第p个频点对应的第一幅值的平方的权重，

为常数，

表示某个频带中第p个频点，

表示该频带的中心频点。

在步骤1043B中，基于映射至每个频带的修正后第二幅值，确定每个频带对应的第二能量。

作为示例，在将每个频点对应的修正后第二幅值映射至听觉域的对应的频带之后，基于映射至每个频带的修正后第二幅值，确定每个频带对应的第二能量。其中，第二能量是以下参数的加权求和结果：映射至每个频带的修正后第二幅值的平方。

这里，频带对应的第二能量即为该频带包括的所有修正后第二幅值的平方的加权求和结果。需要说明的是，每个频带对应的第二能量的计算方式，与每个频带对应的第一能量的计算方式类似，在此不再赘述。

在步骤1044B中，基于每个频带对应的第一预测掩码值、第一能量以及第二能量，确定损失值。

作为示例，在确定每个频带对应的第一能量和第二能量之后，基于每个频带对应的第一预测掩码值、该频带对应的第一能量以及第二能量，确定损失值。

在本申请实施例中，在通过第二种方案确定听觉域的损失值的过程中，存在以下两种实现方式：第一种实现方式，是基于听觉域的每个频带对应的掩码信息进行计算，得到听觉域的损失值；第二种实现方式，是基于听觉域的每个频带对应的能量信息进行计算，得到听觉域的损失值。

下面将分别对确定损失值的第二种方案对应的这两种实现方式进行说明。

下面将结合附图说明确定损失值的第二种方案对应的第一种实现方式。参见图3F，图3F是本申请实施例提供的语音增强模型的训练方法中步骤10441B-10442B的流程示意图。基于图3E，图3F示出的步骤1044B可以通过步骤10441B-10442B实现。下面将结合图3F示出的步骤10441B-10442B进行说明。

在步骤10441B中，基于每个频带对应的第一能量和第二能量，确定每个频带对应的第二目标掩码值。

作为示例，参见图4C，图4C是本申请实施例提供的确定听觉域对应的损失值的第一种实现方式的流程示意图。如图4C所示，在确定听觉域的损失值的过程中，基于每个频带对应的第一能量和第二能量，确定每个频带对应的第二目标掩码值。

在一些实施例中，步骤10441B可以通过以下方式实现：将频带对应的第二能量与第一能量的比值，确定为该频带对应的第二目标掩码值。

作为示例，可以将每个频带对应的第二能量与第一能量的比值，确定为该频带对应的第二目标掩码值，每个频带对应的第二目标掩码值的计算公式如下：

公式7

其中，

表示每个频带对应的第二目标掩码值，

表示该频带对应的第二能量，

表示该频带对应的第一能量。

在一些实施例中，步骤10441B还可以通过以下方式实现：将频带对应的第一能量与第二能量的差值，确定为频带对应的第三能量；对频带对应的第二能量的平方与第三能量的平方进行求和处理，得到第一求和结果，并将第二能量的平方与第一求和结果的比值，确定为该频带对应的第二目标掩码值。

作为示例，首先，将每个频带对应的第一能量与第二能量的差值，确定为该频带对应的第三能量；其次，对该频带对应第二能量的平方与第三能量的平方进行求和处理，得到第一求和结果；最后，将该频带对应的第二能量的平方与第一求和结果的比值，确定为该频带对应的第二目标掩码值，每个频带对应的第二目标掩码值的计算公式如下：

公式8

其中，

表示每个频带对应的第二目标掩码值，

表示该频带对应的第二能量，

表示该频带对应的第三能量，

为该频带对应的第一能量与第二能量的差值，即为

，

表示该频带对应的第一能量。

在步骤10442B中，将每个频带对应的第一预测掩码值、以及频带对应的第二目标掩码值，代入第三目标损失函数进行计算处理，得到损失值。

作为示例，参见图4C，在确定每个频带对应第二目标掩码值之后，将每个频带对应第一预测掩码值、以及该频带对应的第二目标掩码值，代入第三损失函数进行计算处理，从而得到损失值。

作为示例，第三目标损失函数包括但不限于：MSE函数，基于指数加权的MSE函数，基于对数加权的MSE函数，MAE函数，交叉熵损失函数；第三目标损失函数还可以是多个损失函数的加权组合，例如MSE函数和MAE函数的加权组合等等。通过上述方式，可以在损失值中同时融入语音信号的幅值信息与相位信息，能够更好地指导语音增强模型进行学习。

下面将结合附图说明确定损失值的第二种方案对应的第二种实现方式。参见图3G，图3G是本申请实施例提供的语音增强模型的训练方法中步骤10443B-10444B的流程示意图。基于图3E，图3G示出的步骤1044B还可以通过步骤10443B-10444B实现，图3G示出的方法与图3F示出的方法为两种并立的方法。下面将结合图3G示出的步骤10443B-10444B进行说明。

在步骤10443B中，将每个频带对应的第一预测掩码值，与频带对应的第一能量进行相乘处理，得到每个频带对应的第四能量。

作为示例，参见图4D，图4D是本申请实施例提供的确定听觉域对应的损失值的第二种实现方式的流程示意图。如图4D所示，在确定听觉域的损失值的过程中，将每个频带对应的第一预测掩码值，与该频带对应的第一能量进行相乘处理，以得到该频带对应的第四能量。

在步骤10444B中，将每个频带对应的第二能量、以及频带对应的第四能量，代入第四目标损失函数进行计算处理，得到损失值。

作为示例，参见图4D，在得到每个频带对应的第四能量之后，将每个频带对应的第二能量、以及该频带对应的第四能量，代入第四目标损失函数进行计算处理，从而得到损失值，第四目标损失函数包括但不限于：MSE函数，基于指数加权的MSE函数，基于对数加权的MSE函数，MAE函数，交叉熵损失函数；第四目标损失函数还可以是多个损失函数的加权组合，例如MSE函数和MAE函数的加权组合等等。

在步骤105中，基于损失值在语音增强模型中进行反向传播，以更新语音增强模型的参数。

作为示例，在得到损失值之后，基于损失值在语音增强模型中进行反向传播，以更新语音增强模型的参数。

重复执行上述步骤101-105，直至达到设定的训练次数，或损失值小于设定的阈值，结束对语音增强模型的训练，得到训练后的语音增强模型，之后，可以将训练后的语音增强模型用于进行语音增强处理。

在本申请实施例中，通过带噪语音信号与纯净语音信号在每个频点的相位差，对纯净语音信号在每个频点的幅值进行修正，基于修正后的纯净语音信号的幅值、带噪语音信号的幅值以及语音增强模型输出的多个第一预测掩码值确定损失值，使得损失值中充分融入语音信号的相位信息以及幅值信息，使语音增强模型能够基于融合有相位信息与幅值信息的损失值进行全面学习，突破了现有技术无法在基于听觉域的系统中引入相位信息的技术障碍，基于训练后语音增强模型输出的预测掩码值确定出的增强后语音信号，不仅在幅值上与纯净语音信号接近，还能在相位上与纯净语音信号接近，从而提升了降噪效果。

下面将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的语音增强处理方法。可以理解地，下述的方法可以由上文的终端401或服务器200单独执行或协同执行。

参见图3H，图3H是本申请实施例提供的语音增强处理方法的流程示意图，下面将结合图3H示出的步骤201-步骤203进行说明。

在步骤201中，获取待处理语音信号的待处理语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个掩码值。

作为示例，在进行语音增强处理时，首先获取待处理语音信号的待处理语音特征，例如，可以对待处理语音信号进行从时域到频域的变换处理，得到待处理语音信号在频域的多个频点分别对应的幅值和相位；接着，对待处理语音信号在频域的多个频点分别对应的幅值进行频带合并处理，得到待处理语音信号在听觉域对应的多个幅值；最后，基于待处理语音信号在听觉域对应的多个幅值进行特征提取处理，从而得到待处理语音特征。

然后，基于待处理语音特征调用语音增强模型进行语音增强处理，得到听觉域的多个掩码值。

这里，语音增强模型是通过本申请实施例提供的语音增强模型的训练方法训练得到的。

在步骤202中，基于听觉域的多个掩码值进行内插处理，得到内插处理结果。

作为示例，在得到听觉域的多个掩码值之后，首先，对听觉域的多个掩码值分别进行内插处理，得到内插处理结果，即频域的多个频点对应的掩码值，这里的内插处理方式与上文的步骤1041A中的内插处理方式类似，在此不再赘述。

在步骤203中，基于内插处理结果与待处理语音信号的相位进行信号重建处理，得到增强后语音信号。

作为示例，在得到频域的多个频点对应的掩码值之后，基于频域的多个频点对应的掩码值以及待处理语音信号的相位进行信号重建处理，例如进行逆傅里叶变换，从而得到增强后语音信号，即，降噪后语音信号。

在本申请实施例中，由于用于进行语音增强处理的语音增强模型，是基于融入了相位信息和幅值信息的损失值进行训练得出的，因而基于语音增强模型进行语音增强处理得到的掩码值确定出的增强后语音信号，不仅在幅值上与纯净语音信号接近，还能在相位上与纯净语音信号接近，从而能够更有效地降低待处理语音信号中的噪声，提升语音信号的信噪比，从而提升了降噪效果。

下面，将说明本申请实施例在一个实际的语音增强处理的应用场景中的示例性应用。

参见图5，图5是本申请实施例提供的在游戏客户端中进行语音增强处理的示意图。如图5所示，游戏客户端中集成了游戏语音SDK，游戏语音SDK的核心引擎算法中，包括本申请实施例提供的基于深度学习的语音增强处理方法，游戏语音SDK能够为游戏客户端提供噪声抑制使能接口。

图5中的501表示游戏客户端中的麦克风控件和扬声器控件，用户可以通过操作麦克风控件和/或扬声器控件启动语音增强功能，也就是启动噪声抑制功能。作为示例，在用户使用游戏客户端的过程中，如果用户触控游戏客户端的麦克风控件和/或扬声器控件，响应于用户对麦克风控件和/或扬声器控件的触控操作，终端获取麦克风控件采集的用户在游戏客户端中产生的语音信号，调用游戏语音SDK中的噪声抑制使能接口，执行语音增强处理，得到增强后的语音信号。之后终端可以将增强后的语音信号发送给其他玩家，其他玩家可以通过游戏客户端中的扬声器控件播放增强后的语音信号，如此，可以有效抑制麦克风采集的语音信号中包含的环境噪声，实现游戏客户端中各个用户玩家之间的高质量的语音通话。

参见图6，图6是本申请实施例提供的语音通话过程的语音增强处理示意图。如图6所示，在用户1使用终端1与使用终端2的用户2进行语音通话的过程中，终端1与终端2的麦克风采集的语音信号中，除了用户发出的人声信号之外，还可能包括各类环境噪声，通过在终端1和终端2应用本申请实施例提供的基于深度学习的语音增强处理方法，麦克风采集的语音信号中，环境噪声会被有效抑制，只有人声信号会被传输到通信对端，从而可以提高语音通话的质量。

在一些实施例中，本申请实施例提供的基于深度学习的语音增强处理方法还可以应用在以下场景中：

（1）视频通话场景，用户在公共场所中与其他用户通过终端设备进行视频通话，环境中可能包含多种噪声，在终端设备中应用本申请实施例提供的基于深度学习的语音增强处理方法，可以有效抑制语音信号中的环境噪声，有效保留人声信号，提升用户视频通话的体验，提升用户通过视频通话的沟通效率。

（2）在线会议场景，多个用户通过终端设备上安装的在线会议客户端参加在线会议。由于用户所处的环境多样，麦克风采集的语言信号中可能会混入环境噪声，在终端设备中应用本申请实施例提供的基于深度学习的语音增强处理方法，降低了语言信号中的噪声，提升了用户参加线上会议的体验，促进线上会议的工作效率。

下面将说明本申请实施例提供的语音增强处理方法中的语音增强模型的训练以及应用过程。参见图7，图7是本申请实施例提供的语音增强模型的训练以及应用过程示意图。图7示出的语音增强模型的训练方法和应用方法可以由终端或服务器单独执行，也可以由终端和服务器协同执行，下面以由服务器执行为例进行说明。

如图7所示，步骤701-704为语音增强模型的训练过程，步骤705-710为语音增强模型的应用过程。下面将结合图7示出的各个步骤进行说明。

在步骤701中，对纯净语音信号和带噪语音信号分别进行从时域到频域的时频转换处理，得到带噪语音信号在频域的多个频点对应的第一幅值和第一相位，并得到纯净语音信号在频域的多个频点对应的第二幅值和第二相位。

在步骤702中，对带噪语音信号在频域对应的多个频点对应的第一幅值进行频带合并处理，从而将多个频点对应的第一幅值映射至听觉域的多个频带；并对纯净语音信号在频域的多个频点对应的第二幅值进行频带合并处理，从而将多个频点对应的第二幅值映射至听觉域的多个频带。其中，听觉域包括但不限于Bark域，Mel域。

在步骤703中，在听觉域对带噪语音信号对应的第一幅值进行特征提取处理，得到带噪语音特征。例如，对第一幅值使用对数或者指数加权，以减小第一幅值的数值的动态范围；或者，将第一幅值与时序上相邻的带噪语音信号帧的语谱信息进行拼接，以增大时间域视野。

在步骤704中，基于带噪语音特征调用语音增强模型进行语音增强处理，得到听觉域的多个第一预测掩码值。

这里，在得到第一预测掩码值之后，基于第一预测掩码值确定损失值。本申请实施例提供确定损失值的两种示例性方案，第一种方案是，将听觉域的多个第一预测掩码值映射至频域，基于频域的多个第二预测掩码值、以及频域的每个频点对应的第一幅值以及修正后第二幅值，以确定频域对应的损失值。第二种方案是，将频域的每个频点对应的第一幅值和修正后第二幅值映射至听觉域，基于听觉域对应的第一幅值和修正后第二幅值，确定对应的听觉域的第二目标掩码值，并基于听觉域的第二目标掩码值以及听觉域的第一预测掩码值，以确定听觉域对应的损失值。损失值的确定过程可以参见上文的步骤1042A以及步骤1044B，在此不再赘述。

在通过上述任一种方案确定出损失值之后，基于损失值在语音增强模型中进行反向传播，以更新语音增强模型的参数。

重复执行上述步骤701-704，直至达到设定的训练次数，或损失值小于设定的阈值，结束对语音增强模型的训练，得到训练后的语音增强模型，之后，可以将训练后的语音增强模型用于进行语音增强处理。

下述的步骤705-710为语音增强模型的应用过程。

在步骤705中，对待处理语音信号进行从时域到频域的时频转换处理，得到待处理语音信号在频域的多个频点对应的幅值和相位。

在步骤706中，对待处理语音信号在频域的多个频点对应的幅值进行频带合并处理，从而映射至听觉域的多个频带。

这里，由于基于深度学习的语音增强模型规模较大，算法复杂度较高，在一些情况下，终端的语音增强需求较大，为了将基于深度学习的语音增强模型应用于终端，基于听觉域的深度学习根据人耳对不同频率的敏感度不同，通过频带合并的方式能够有效地减少待处理信息的维度，从而降低了语音增强模型规模，使得语音增强模型能成功部署到终端。

在步骤707中，在听觉域对待处理语音信号对应的幅值进行特征提取处理，得到待处理语音特征。

在步骤708中，基于待处理语音特征，调用训练后的语音增强模型进行语音增强处理，得到听觉域的多个掩码值。

在步骤709中，对听觉域的多个掩码值分别进行内插处理，得到频域的多个频点对应的掩码值。

在步骤710中，基于频域的多个频点对应的掩码值，以及待处理语音信号在频域的多个频点分别对应的相位进行信号重建处理，例如进行逆傅里叶变换处理，从而得到增强后语音信号。

本申请实施例提供的语音增强处理方法，能够在不增加计算复杂度的情况下，更有效地降低麦克风采集的语音信号中的环境噪声，提升了语音的信噪比，能够获得较为纯净的语音信号，从而提升了语音增强的效果。

下面继续说明本申请实施例提供的语音增强模型的训练装置233的实施为软件模块的示例性结构，在一些实施例中，如图2A所示，存储在存储器230的语音增强模型的训练装置233中的软件模块可以包括：增强模块2331，用于基于带噪语音信号的带噪语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个第一预测掩码值；其中，不同的第一预测掩码值对应听觉域的不同频带；获取模块2332，用于获取带噪语音信号的每个频点对应的第一幅值和第一相位、以及对应的纯净语音信号的每个频点对应的第二幅值和第二相位；修正模块2333，用于基于每个频点对应的第一相位和第二相位，确定纯净语音信号和带噪语音信号在每个频点的相位差，并基于每个频点的相位差对频点对应的第二幅值进行修正处理，得到每个频点对应的修正后第二幅值；确定模块2334，用于基于多个第一预测掩码值、每个频点对应的第一幅值以及修正后第二幅值，确定损失值；更新模块2335，用于基于损失值在语音增强模型中进行反向传播，以更新语音增强模型的参数。

上述方案中，确定模块2334，用于对多个第一预测掩码值分别进行内插处理，得到每个频点对应的第二预测掩码值；基于每个频点对应的第二预测掩码值、第一幅值以及修正后第二幅值，确定损失值。

上述方案中，确定模块2334，用于通过以下方式之一确定每个频点对应的第二预测掩码值：确定频点在听觉域中所属的第一频带，将第一频带对应的第一预测掩码值，确定为频点对应的第二预测掩码值；确定频点在听觉域中所属的第一频带，并确定在听觉域中与第一频带相邻的参考频带；对第一频带对应的第一预测掩码值、以及参考频带对应的第一预测掩码值进行加权求和处理，得到频点对应的第二预测掩码值；其中，每个第一预测掩码值对应的权重正相关于以下两个元素之间的距离：频点，第一预测掩码值对应的频带的中心频点。

上述方案中，确定模块2334，用于将每个频点对应的第二预测掩码值，与频点对应的第一幅值进行相乘处理，得到每个频点对应的第三幅值；将每个频点对应的第三幅值、以及频点对应的修正后第二幅值，代入第一目标损失函数进行计算处理，得到损失值。

上述方案中，确定模块2334，用于将每个频点对应的修正后第二幅值，与频点对应的第一幅值的比值，确定为每个频点对应的第一目标掩码值；将每个频点对应的第二预测掩码值、以及频点对应的第一目标掩码值，代入第二目标损失函数进行计算处理，得到损失值。

上述方案中，确定模块2334，用于将每个频点对应的第一幅值以及修正后第二幅值，映射至听觉域中对应的频带；基于映射至每个频带的第一幅值，确定每个频带对应的第一能量；其中，第一能量是以下参数的加权求和结果：映射至每个频带的第一幅值的平方；基于映射至每个频带的修正后第二幅值，确定每个频带对应的第二能量；其中，第二能量是以下参数的加权求和结果：映射至每个频带的修正后第二幅值的平方；基于每个频带对应的第一预测掩码值、第一能量以及第二能量，确定损失值。

上述方案中，确定模块2334，用于确定每个频点在听觉域中所属的第二频带；将每个频点对应的第一幅值以及修正后第二幅值，映射至频点在听觉域中所属的第二频带。

上述方案中，确定模块2334，用于基于每个频带对应的第一能量和第二能量，确定每个频带对应的第二目标掩码值；将每个频带对应的第一预测掩码值、以及频带对应的第二目标掩码值，代入第三目标损失函数进行计算处理，得到损失值。

上述方案中，确定模块2334，用于通过以下方式之一确定每个频带对应的第二目标掩码值：将频带对应的第二能量与第一能量的比值，确定为频带对应的第二目标掩码值；将频带对应的第一能量与第二能量的差值，确定为频带对应的第三能量；对频带对应的第二能量的平方与第三能量的平方进行求和处理，得到第一求和结果，并将第二能量的平方与第一求和结果的比值，确定为频带对应的第二目标掩码值。

上述方案中，确定模块2334，用于将每个频带对应的第一预测掩码值，与频带对应的第一能量进行相乘处理，得到每个频带对应的第四能量；将每个频带对应的第二能量、以及频带对应的第四能量，代入第四目标损失函数进行计算处理，得到损失值。

下面继续说明本申请实施例提供的语音增强处理装置433的实施为软件模块的示例性结构，在一些实施例中，如图2B所示，存储在存储器430的语音增强处理装置433中的软件模块可以包括：增强模块4331，用于基于待处理语音信号的待处理语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个掩码值；其中，语音增强模型是通过本申请实施例提供的语音增强模型的训练方法训练得到的；内插模型4332，用于基于听觉域的多个掩码值进行内插处理，得到内插处理结果；重建模块4333，用于基于内插处理结果与待处理语音信号的相位进行信号重建处理，得到增强后语音信号。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的语音增强模型的训练方法或语音增强处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的语音增强模型的训练方法或语音增强处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过带噪语音信号与纯净语音信号在每个频点的相位差，对纯净语音信号在每个频点的幅值进行修正，基于修正后的纯净语音信号的幅值、带噪语音信号的幅值以及语音增强模型输出的多个第一预测掩码值确定损失值，使得损失值中充分融入语音信号的相位信息以及幅值信息，使语音增强模型能够基于融合有相位信息与幅值信息的损失值进行全面学习，突破了现有技术无法在基于听觉域的系统中引入相位信息的技术障碍，基于训练后语音增强模型输出的预测掩码值确定出的增强后语音信号，不仅在幅值上与纯净语音信号接近，还能在相位上与纯净语音信号接近，从而提升了降噪效果。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种语音增强模型的训练方法，其特征在于，所述方法包括：

将每个所述频点对应的所述第一幅值以及所述修正后第二幅值，映射至所述听觉域中对应的所述频带；

基于映射至每个所述频带的所述第一幅值，确定每个所述频带对应的第一能量；其中，所述第一能量是以下参数的加权求和结果：映射至每个所述频带的所述第一幅值的平方；

基于映射至每个所述频带的所述修正后第二幅值，确定每个所述频带对应的第二能量；其中，所述第二能量是以下参数的加权求和结果：映射至每个所述频带的所述修正后第二幅值的平方；

基于每个所述频带对应的所述第一预测掩码值、所述第一能量以及所述第二能量，确定损失值；

2.根据权利要求1所述的方法，其特征在于，

所述将每个所述频点对应的所述第一幅值以及所述修正后第二幅值，映射至所述听觉域中对应的所述频带，包括：

确定每个所述频点在所述听觉域中所属的第二频带；

将每个所述频点对应的所述第一幅值以及所述修正后第二幅值，映射至所述频点在所述听觉域中所属的所述第二频带。

3.根据权利要求1所述的方法，其特征在于，

所述基于每个所述频带对应的所述第一预测掩码值、所述第一能量以及所述第二能量，确定损失值，包括：

基于每个所述频带对应的所述第一能量和所述第二能量，确定每个所述频带对应的第二目标掩码值；

将每个所述频带对应的所述第一预测掩码值、以及所述频带对应的所述第二目标掩码值，代入第三目标损失函数进行计算处理，得到损失值。

4.根据权利要求2所述的方法，其特征在于，

所述基于每个所述频带对应的所述第一能量和所述第二能量，确定每个所述频带对应的第二目标掩码值，包括：

通过以下方式之一确定每个所述频带对应的第二目标掩码值：

将所述频带对应的所述第二能量与所述第一能量的比值，确定为所述频带对应的第二目标掩码值；

将所述频带对应的所述第一能量与所述第二能量的差值，确定为所述频带对应的第三能量；

对所述频带对应的所述第二能量的平方与所述第三能量的平方进行求和处理，得到第一求和结果，并将所述第二能量的平方与所述第一求和结果的比值，确定为所述频带对应的第二目标掩码值。

5.根据权利要求1所述的方法，其特征在于，

将每个所述频带对应的所述第一预测掩码值，与所述频带对应的所述第一能量进行相乘处理，得到每个所述频带对应的第四能量；

将每个所述频带对应的所述第二能量、以及所述频带对应的所述第四能量，代入第四目标损失函数进行计算处理，得到损失值。

6.一种语音增强处理方法，其特征在于，所述方法包括：

基于待处理语音信号的待处理语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个掩码值；其中，所述语音增强模型是通过权利要求1至5任一项所述的语音增强模型的训练方法训练得到的；

7.一种语音增强模型的训练装置，其特征在于，所述装置包括：

确定模块，用于将每个所述频点对应的所述第一幅值以及所述修正后第二幅值，映射至所述听觉域中对应的所述频带；基于映射至每个所述频带的所述第一幅值，确定每个所述频带对应的第一能量；其中，所述第一能量是以下参数的加权求和结果：映射至每个所述频带的所述第一幅值的平方；基于映射至每个所述频带的所述修正后第二幅值，确定每个所述频带对应的第二能量；其中，所述第二能量是以下参数的加权求和结果：映射至每个所述频带的所述修正后第二幅值的平方；基于每个所述频带对应的所述第一预测掩码值、所述第一能量以及所述第二能量，确定损失值；

8.一种语音增强处理装置，其特征在于，所述装置包括：

增强模块，用于基于待处理语音信号的待处理语音特征，调用语音增强模型进行语音增强处理，得到听觉域的多个掩码值；其中，所述语音增强模型是通过权利要求1至5任一项所述的语音增强模型的训练方法训练得到的；

9.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至5任一项所述的语音增强模型的训练方法，或权利要求6所述的语音增强处理方法。

10.一种计算机可读存储介质，其特征在于，存储有可执行指令，所述可执行指令用于被处理器执行时，实现权利要求1至5任一项所述的语音增强模型的训练方法，或权利要求6所述的语音增强处理方法。