CN115662455A

CN115662455A - 音频处理模型的训练方法、音频处理方法及装置

Info

Publication number: CN115662455A
Application number: CN202211287740.9A
Authority: CN
Inventors: 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-01-31

Abstract

本公开关于一种音频处理模型的训练方法、音频处理方法及装置，所述训练方法包括：获取音频样本集；将所述音频样本集中的音频样本输入到所述音频处理模型，获得各音频样本对应的估计声音信号；基于各音频样本对应的声音信号和估计声音信号，计算损失；利用计算的损失，调整所述音频处理模型的参数，以对所述音频处理模型进行训练。根据本公开的音频处理模型的训练方法、音频处理方法及装置可以解决无法从收集的声音中获得较好音质效果的声音的问题，能够对音频进行较好的处理，从收集的声音中获得较好音质效果的声音。

Description

音频处理模型的训练方法、音频处理方法及装置

技术领域

本公开涉及音频处理领域，尤其涉及一种音频处理模型的训练方法、音频处理方法及装置。

背景技术

随着互联网和智能设备技术的提升，诸如在线K歌、语音互动、歌曲录制等软件的使用已经非常普及。

以在线K歌的场景为例，利用软件和互联网创建虚拟的线上歌房进行K歌互动已经成为了一种较为流行的娱乐方式。在该场景中，如何保证用户歌声音质是影响用户体验的关键，如果不能对音频进行较好的处理，则无法从收集的声音中获得较好音质效果的声音。

发明内容

本公开提供一种音频处理模型的训练方法、音频处理方法及装置，以至少解决相关技术中无法从收集的声音中获得较好音质效果的声音的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频处理模型的训练方法，所述训练方法包括：获取音频样本集，其中，所述音频样本集中的每个音频样本包括参考信号和叠加信号，所述叠加信号是基于声音信号叠加回声信号和噪声信号而获得的，所述回声信号是基于采集回声信号获得的，所述采集回声信号是利用在播放所述参考信号的同时收集所述参考信号而获得的；将所述音频样本集中的音频样本输入到所述音频处理模型，获得各音频样本对应的估计声音信号；基于各音频样本对应的声音信号和估计声音信号，计算损失；利用计算的损失，调整所述音频处理模型的参数，以对所述音频处理模型进行训练。

可选地，所述声音信号是通过对原始采集的声音信号进行增强处理而获得的。

可选地，对所述原始采集的声音信号进行的增强处理包括以下项中的至少一者：对所述原始采集的声音信号进行随机滤波；对所述原始采集的声音信号进行变速处理；对所述原始采集的声音信号进行变调处理。

可选地，所述回声信号是通过对所述采集回声信号进行增强处理而获得的，或者，所述回声信号是所述采集回声信号。

可选地，对所述采集回声信号进行的增强处理包括：对所述采集回声信号进行随机滤波。

可选地，在将所述音频样本输入到所述音频处理模型之前，所述训练方法还包括以下项中的至少一者：调整所述回声信号和所述参考信号之间的延迟；调整所述声音信号和所述回声信号之间的能量比；调整所述声音信号和所述噪声信号之间的能量比。

可选地，所述参考信号和所述回声信号均包括音乐、人声以及将音乐与人声混合得到的混合信号中的至少一者，所述噪声信号包括稳态噪声、电流噪声和喷麦噪声中的至少一者，所述声音信号包括歌声和语音中的至少一者。

根据本公开实施例的第二方面，提供一种音频处理方法，所述音频处理方法包括：获取待测音频信号，其中，所述待测音频信号包括待测参考信号和待测叠加信号，所述待测叠加信号是通过设备收集的音频，所述待测参考信号是所述设备输出的音频；基于所述待测音频信号，利用音频处理模型，获得估计声音信号，其中，所述音频处理模型是根据本公开的示例性实施例所述的音频处理模型的训练方法训练好的。

可选地，所述音频处理方法还包括：检测当前音频处理场景是否满足预设条件；其中，在所述当前音频处理场景满足预设条件的情况下，基于所述待测音频信号，利用所述音频处理模型，获得估计声音信号；在所述当前音频处理场景不满足预设条件的情况下，利用信号处理算法对所述待测音频信号执行回声和噪声消除，获得估计声音信号。

可选地，所述预设条件包括：所述当前音频处理场景的设备性能高于预设性能要求；和/或，所述当前音频处理场景的延迟要求大于预设延迟。

可选地，所述利用信号处理算法对所述待测音频信号执行回声和噪声消除，获得估计声音信号，包括：将所述待测音频信号输入到线性回声消除模块，得到残差信号，其中，所述残差信号是从所述待测音频信号中消除线性回声得到的信号；基于所述残差信号，生成回声抑制掩膜和噪声抑制掩膜；基于所述回声抑制掩膜和所述噪声抑制掩膜，从所述待测音频信号的待测叠加信号中获得估计声音信号。

可选地，所述回声抑制掩膜通过以下方式生成：基于所述残差信号和所述待测叠加信号，计算回声消除评价指标，其中，所述回声消除评价指标表征所述残差信号在所述待测叠加信号中的占比；基于所述残差信号和所述待测叠加信号，估计在所述残差信号中的残余回声信号；基于所述残差信号、所述回声消除评价指标和所述残余回声信号，生成所述回声抑制掩膜。

可选地，所述基于所述残差信号、所述回声消除评价指标和所述残余回声信号，生成所述回声抑制掩膜，包括：基于所述残差信号和所述回声消除评价指标，生成初始回声抑制掩膜；基于所述回声消除评价指标，对所述初始回声抑制掩膜进行矫正，得到所述回声抑制掩膜。

可选地，所述基于所述回声消除评价指标，对所述初始回声抑制掩膜进行矫正，得到所述回声抑制掩膜，包括：响应于在当前时刻下所有频率处的所述回声消除评价指标的总和值大于预设阈值，将所述总和值作为所述回声抑制掩膜；响应于所述总和值小于或等于所述预设阈值，将所述总和值和预设掩膜值中的最小值作为所述回声抑制掩膜。

可选地，所述噪声抑制掩膜通过以下方式生成：基于所述残差信号，估计在所述残差信号中的噪声信号；基于所述噪声信号和所述残差信号，生成所述噪声抑制掩膜。

可选地，所述基于所述回声抑制掩膜和所述噪声抑制掩膜，从所述待测音频信号的待测叠加信号中获得估计声音信号，包括：确定所述回声抑制掩膜和所述噪声抑制掩膜中的最小值；将所述最小值作为掩膜，从所述待测叠加信号中消除回声信号和噪声信号，获得估计声音信号。

根据本公开实施例的第三方面，提供一种音频处理模型的训练装置，所述训练装置包括：样本获取单元，被配置为获取音频样本集，其中，所述音频样本集中的每个音频样本包括参考信号和叠加信号，所述叠加信号是基于声音信号叠加回声信号和噪声信号而获得的，所述回声信号是基于采集回声信号获得的，所述采集回声信号是利用在播放所述参考信号的同时收集所述参考信号而获得的；样本估计单元，被配置为将所述音频样本集中的音频样本输入到所述音频处理模型，获得各音频样本对应的估计声音信号；损失计算单元，被配置为基于各音频样本对应的声音信号和估计声音信号，计算损失；训练单元，被配置为利用计算的损失，调整所述音频处理模型的参数，以对所述音频处理模型进行训练。

可选地，在将所述音频样本输入到所述音频处理模型之前，样本获取单元还被配置为执行以下项中的至少一者：调整所述回声信号和所述参考信号之间的延迟；调整所述声音信号和所述回声信号之间的能量比；调整所述声音信号和所述噪声信号之间的能量比。

根据本公开实施例的第四方面，提供一种音频处理装置，所述音频处理装置包括：信号获取单元，被配置为获取待测音频信号，其中，所述待测音频信号包括待测参考信号和待测叠加信号，所述待测叠加信号是通过设备收集的音频，所述待测参考信号是所述设备输出的音频；声音估计单元，被配置为基于所述待测音频信号，利用音频处理模型，获得估计声音信号，其中，所述音频处理模型是根据本公开的示例性实施例所述的音频处理模型的训练方法训练好的。

可选地，所述音频处理装置还包括检测单元，所述检测单元被配置为：检测当前音频处理场景是否满足预设条件；其中，所述声音估计单元还被配置为：在所述当前音频处理场景满足预设条件的情况下，基于所述待测音频信号，利用所述音频处理模型，获得估计声音信号；在所述当前音频处理场景不满足预设条件的情况下，利用信号处理算法对所述待测音频信号执行回声和噪声消除，获得估计声音信号。

可选地，所述声音估计单元还被配置为：将所述待测音频信号输入到线性回声消除模块，得到残差信号，其中，所述残差信号是从所述待测音频信号中消除线性回声得到的信号；基于所述残差信号，生成回声抑制掩膜和噪声抑制掩膜；基于所述回声抑制掩膜和所述噪声抑制掩膜，从所述待测音频信号的待测叠加信号中获得估计声音信号。

可选地，所述声音估计单元还被配置为：基于所述残差信号和所述待测叠加信号，计算回声消除评价指标，其中，所述回声消除评价指标表征所述残差信号在所述待测叠加信号中的占比；基于所述残差信号和所述待测叠加信号，估计在所述残差信号中的残余回声信号；基于所述残差信号、所述回声消除评价指标和所述残余回声信号，生成所述回声抑制掩膜。

可选地，所述声音估计单元还被配置为：基于所述残差信号和所述回声消除评价指标，生成初始回声抑制掩膜；基于所述回声消除评价指标，对所述初始回声抑制掩膜进行矫正，得到所述回声抑制掩膜。

可选地，所述声音估计单元还被配置为：响应于在当前时刻下所有频率处的所述回声消除评价指标的总和值大于预设阈值，将所述总和值作为所述回声抑制掩膜；响应于所述总和值小于或等于所述预设阈值，将所述总和值和预设掩膜值中的最小值作为所述回声抑制掩膜。

可选地，所述声音估计单元还被配置为：基于所述残差信号，估计在所述残差信号中的噪声信号；基于所述噪声信号和所述残差信号，生成所述噪声抑制掩膜。

可选地，所述声音估计单元还被配置为：确定所述回声抑制掩膜和所述噪声抑制掩膜中的最小值；将所述最小值作为掩膜，从所述待测叠加信号中消除回声信号和噪声信号，获得估计声音信号。

根据本公开实施例的第五方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器，其中，所述处理器被配置为执行所述指令，以实现根据本公开的示例性实施例所述的音频处理模型的训练方法或者根据本公开的示例性实施例所述的音频处理方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的示例性实施例所述的音频处理模型的训练方法或者根据本公开的示例性实施例所述的音频处理方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，其包括计算机指令，所述计算机指令被处理器执行时实现根据本公开的示例性实施例所述的音频处理模型的训练方法或者根据本公开的示例性实施例所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

可以基于参考信号以及包括回声信号和噪声信号的叠加信号，训练得到音频处理模型，以利用音频处理模型获得估计声音信号，从而能够对音频进行较好的处理，从收集的声音中获得较好音质效果的声音。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频处理模型的训练方法的流程图。

图2是根据一示例性实施例示出的一种音频处理模型的训练方法的整体示意图。

图3是根据一示例性实施例示出的一种音频处理方法的流程图。

图4是根据一示例性实施例示出的一种音频处理方法的总体流程图。

图5是根据一示例性实施例示出的一种音频处理方法中利用信号处理算法获得估计声音信号的步骤的流程图。

图6是根据一示例性实施例示出的一种音频处理方法中利用信号处理算法获得估计声音信号的整体示意图。

图7是根据一示例性实施例示出的一种音频处理方法中生成回声抑制掩膜的步骤的流程图。

图8是根据一示例性实施例示出的一种音频处理方法中生成噪声抑制掩膜的步骤的流程图。

图9是根据一示例性实施例示出的一种音频处理模型的训练装置的框图。

图10是根据一示例性实施例示出的一种音频处理装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

如前面所述，在诸如在线K歌、语音互动、歌曲录制等场景下，如何保证人声音质是影响用户体验的关键，如果不能对音频进行较好的处理，则无法从收集的声音中获得较好音质效果的人声。

在获得人声的过程中，主要涉及如何消除设备播放的声音所产生的回声以及如何抑制噪声对用户歌声的干扰。

在现有的在线虚拟歌房方案中，不做回声消除和噪声抑制等干扰的抑制，或者进行较为保守的简单处理，例如在线上虚拟歌房中采用实时通讯通用的回声消除和噪声抑制处理，或仅在此基础上做参数调优等简单优化。

这样的方案能够最大程度保证录制的歌声保真度，然而，在多人同时开麦以及噪声场景下会产生较大的干扰，影响沟通和歌唱体验。

在视频会议等实时通讯场景中，一般不涉及唱歌场景中会遇到的歌声信号处理、背景音乐混音、喷麦噪声等问题，在录制歌声的情况下，使用该方案通常会严重损伤用户歌声，同时对该场景中经常出现的重点干扰问题却不能有较好的处理，严重影响用户体验。

针对上述问题，本公开提供了一种音频处理模型的训练方法、音频处理方法、音频处理模型的训练装置、音频处理装置、电子设备、计算机可读存储介质及计算机程序产品，可以基于参考信号以及包括回声信号和噪声信号的叠加信号，训练得到音频处理模型，以利用音频处理模型获得估计声音信号，从而能够对音频进行较好的处理，从收集的声音中获得较好音质效果的声音。

需要说明的是，尽管在上下文中以在线K歌、语音互动、歌曲录制等场景为例进行了说明，但是本公开的方案的应用场景不限于此，其也适应于任何涉及回声和噪声消除并提取或分离人声的应用场景。此外，还需要说明的是，从收集的声音中获得的估计声音信号可以是人声信号，但是其不限于此，也可以是或者在人声之外还包括诸如乐器等的声音信号。

根据本公开示例性实施例的第一方面，提供一种音频处理模型的训练方法。该音频处理模型的训练方法的执行主体可以包括服务器和/或用户终端。服务器可以包括一个独立运行的服务器，也可以是分布式服务器，或者由多个服务器组成的服务器集群，还可以是云计算平台或虚拟化中心。用户终端可以为用户提供本地服务，用户终端例如可以包括个人计算机、智能手机、平板电脑、笔记本电脑、数字助理、可穿戴设备、车载终端等的实体设备，也可以包括诸如网页浏览器、虚拟机、应用程序客户端等的运行于实体设备的软体。

图1是根据一示例性实施例示出的一种音频处理模型的训练方法的流程图。图2是根据一示例性实施例示出的一种音频处理模型的训练方法的整体示意图。

如图1所示，该音频处理模型的训练方法可以包括以下步骤：

在步骤S101，可以获取音频样本集。

在步骤S102，可以将音频样本集中音频样本输入到音频处理模型，获得各音频样本对应的估计声音信号。

在步骤S103，可以基于各音频样本对应的声音信号和估计声音信号，计算损失。

在步骤S104，可以利用计算的损失，调整音频处理模型的参数，以对音频处理模型进行训练。

在上述步骤中，音频样本集中的每个音频样本可以包括参考信号和叠加信号。

叠加信号可以是基于声音信号叠加回声信号和噪声信号而获得的。这里，回声信号可以是基于采集回声信号获得的，采集回声信号可以是利用在播放参考信号的同时收集参考信号而获得的。

根据本公开的示例性实施例，声音信号例如可以包括但不限于纯净的歌声和语音中的至少一者，声音信号可以不夹带噪声或与回声相关性较强的数据。声音信号可以作为模型训练过程中需要被音频处理模型保留的目标信号。

在一些应用场景下，声音信号可以包括歌声和语音二者。具体来说，尽管在诸如虚拟歌房的应用场景中，音频往往以歌声为主，但是一方面，由于歌声数据的收集较难，可以使用语音数据用于补充歌声数据不足的问题；另一方面，在上述应用场景中，用户也可能存在语音沟通的情况，因此也可以准备语音数据。

在该示例中，歌声数据和语音数据的数据总量可以在1000小时以上，歌声数据和语音数据比例可以为1:1。

作为示例，声音信号可以是通过对原始采集的声音信号进行增强处理(也可以称为“增广处理”)而获得的。

对原始采集的声音信号进行的增强处理可以包括以下项中的至少一者：对原始采集的声音信号进行随机滤波；对原始采集的声音信号进行变速处理；对原始采集的声音信号进行变调处理。如此，通过对原始采集的声音信号进行增强处理，可以有利于在训练模型时增加模型的泛化能力，提高模型的性能。

具体来说，可以对声音信号进行均衡处理，例如可以使用随机的滤波器对声音信号进行滤波，改变其频率特性，从而模拟在真实情况下可能出现的各种由于环境或采集设备频响所产生的对信号频率响应特性的影响。作为示例，可以随机选取50％的音频样本对原始采集的声音信号进行随机滤波处理。

此外，还可以对声音信号进行变速处理，以模拟不同人在演唱歌曲或说话时可能存在的节奏变化，或者可以直接调用歌曲变速演唱或语音变速的功能。作为示例，对声音信号进行变速处理的变速范围可以是0.5倍速到2.0倍速。此外，可以随机选取20％的音频样本对声音信号进行变速处理。

此外，还可以对声音信号进行变调处理，以模拟用户演唱歌曲时可能采用调整歌曲音高进行演唱的情况。作为示例，对声音信号进行变调处理的变调范围可以是0.8倍到1.2倍的范围。此外，可以随机选取20％的音频样本对声音信号进行变调处理。

尽管上面给出了对原始采集的声音信号进行的增强处理的若干示例，然而，本公开的示例性实施例不限于此，对原始采集的声音信号进行的增强处理也可以根据实际需要而设置，例如也可以对声音信号进行音量处理等。

根据本公开的示例性实施例，采集回声信号可以完全由参考信号产生，可以不夹带与参考信号无关的信号。例如，可以通过设备一边播放参考信号，一边收集其自身所播放的参考信号而得到采集回声信号。如此，采集回声信号可以包含设备对于参考信号产生的回声，以在训练模型过程中有助于模型学习到参考信号和与其对应的回声信号之间的差异特性，从而可以提高模型分辨回声的能力，以有利于提取出人声。

作为示例，参考信号和回声信号均可以包括音乐、人声以及将音乐与人声混合得到的混合信号中的至少一者。例如，回声信号和对应的参考信号的数据总量可以在500小时以上。

在一个示例中，参考信号和回声信号均可以包括音乐、人声以及将音乐与人声混合得到的混合信号三者，例如，音乐、人声和混合信号比例可以为2:2:1。在包括这三者的情况下，可以使模型能够适应音乐和人声混合录制的应用场景，提高模型的泛化能力。

这里，回声信号可以是采集回声信号，或者可以是通过对采集回声信号进行增强处理而获得的。

作为示例，对采集回声信号进行的增强处理包括：对采集回声信号进行随机滤波。如此，通过对采集回声信号进行增强处理，可以有利于在训练模型时增加模型的泛化能力，提高模型的性能。

具体来说，可以对采集回声信号进行均衡处理，例如可以使用随机的滤波器对采集回声信号进行滤波，改变其频率特性，从而模拟在真实情况下可能出现的各种由于环境或采集设备频响所产生的对信号频率响应特性的影响。作为示例，可以随机选取50％的音频样本对采集回声信号进行随机滤波处理。

尽管上面给出了对采集回声信号进行的增强处理的示例，然而，本公开的示例性实施例不限于此，对采集回声信号进行的增强处理也可以根据实际需要而设置，例如也可以对采集回声信号进行音量处理、变速处理等。

根据本公开的示例性实施例，噪声信号可以包括稳态噪声、电流噪声和喷麦噪声中的至少一者。噪声信号数据可以包含诸如K歌的应用场景中的常用数据。

作为示例，稳态噪声例如包括但不限于空调噪声、汽车噪声、风扇噪声等；电流噪声例如包括但不限于由于录制设备工频干扰或电路中产生的噪声干扰；喷麦噪声例如包括但不限于在唱歌时由于爆破音等送气发音发出时在麦克风上产生的湍流所激励的噪声。

噪声信号的数据总量例如可以在100小时以上。在包括稳态噪声、电流噪声和喷麦噪声三者的示例中，稳态噪声、电流噪声和喷麦噪声的数据量的比例可以为1:1:1。

作为示例，在将音频样本输入到音频处理模型之前，训练方法还可以包括以下项中的至少一者：调整回声信号和参考信号之间的延迟；调整声音信号和回声信号之间的能量比；调整声音信号和噪声信号之间的能量比。

具体来说，可以通过调整回声信号和参考信号之间的延迟，模拟在真实情况下的系统延迟。作为示例，回声信号和参考信号之间的延迟可以调整到100ms到500ms的延迟范围。例如，可以随机选取80％的音频样本进行回声信号和参考信号之间的延迟调整。

此外，在实际应用场景中，回声的声音有可能大于诸如人声的声音，也有可能小于该声音，因此可以通过调整声音信号和回声信号之间的能量比，即信回比，模拟在真实情况下的回声与诸如人声的声音之间的关系。作为示例，声音信号和回声信号之间的能量比可以调整到-20dB到20dB的范围。例如，可以使得所有的音频样本的信回比在-20dB到20dB范围之内均匀分布。

此外，在实际应用场景中，噪声的声音有可能大于诸如人声的声音，也有可能小于该声音，因此可以通过调整声音信号和噪声信号之间的能量比，即信噪比，模拟在真实情况下的噪声与诸如人声的声音之间的关系。作为示例，声音信号和噪声信号之间的能量比可以调整到0dB到20dB的范围。例如，可以使得所有的音频样本的信噪比在0dB到20dB范围之内均匀分布。

根据本公开的示例性实施例，在将音频样本输入到音频处理模型之前，对信号之间的延迟和/或能量比进行调整，可以使得音频样本更贴近真实场景下的信号特征，基于这样的音频样本进行模型训练，可以提高模型的准确性。

上面对音频样本进行了详细描述，下面将参照图2描述根据一示例性实施例的音频处理模型的训练方法的整体流程。

如图2所示，可以将包括参考信号r和叠加信号y的音频样本输入到待训练的音频处理模型中，其中，叠加信号y是基于声音信号v叠加回声信号d和噪声信号n而获得的，即，y＝v+d+n，这里，声音信号v包括歌声和/或语音信号，回声信号d是基于与参考信号r对应的采集回声信号获得的。作为示例，叠加信号y及其所包括的各信号可以是进行了上文中描述的各种处理后的信号。

待训练的音频处理模型可以具有神经网络结构，例如可以为但不限于卷积神经网络、递归神经网络或多种神经网络结构的组合，音频处理模型也可以是上述网络结构与自适应滤波、非线性回声消除等传统信号处理算法的结合，例如，可以对音频进行自适应滤波，然后再利用卷积神经网络对滤波后的音频进行处理。本公开对音频处理模型的具体结构不做具体限制，只要能够用于音频处理以获得估计声音即可。

如图2所示，音频处理模型的输出信号为模型预测得到的声音信号v’，可以利用预设的损失函数，基于该声音信号v’和真实的声音信号v计算损失，根据计算的损失进行模型反向传播的迭代优化。这里，具体的损失函数例如可以选择但不限于优化的尺度不变信噪比(Optimized Scale Invariant Signal to Noise Ratio，OSISNR)等，本公开对其不做具体限制。

图2中的实线部分表示模型训练阶段中的推理阶段，图2中的虚线部分表示损失函数和反向传播，该部分不需要在推理阶段进行。训练阶段训练得到的模型可以应用在推理阶段，其输出的声音信号v’即为最终的处理输出结果，该结果预期与真实的声音信号v接近，则从输入音频中消除了回声和噪声信号。

如上面所述，根据本公开的示例性实施例的音频处理模型的训练方法可以基于参考信号以及包括回声信号和噪声信号的叠加信号，训练得到音频处理模型，以利用音频处理模型获得估计声音信号，从而可以利用深度学习对诸如人声的声音、回声、噪声的区分能力，在实现消除回声和诸如K歌场景中特定噪声的同时，确保诸如人声的声音音质的效果。

根据本公开示例性实施例的第二方面，提供一种音频处理方法。该音频处理方法的执行主体可以包括服务器和/或用户终端，例如服务器和/或用户终端可以获取到待测音频信号；基于待测音频信号，利用音频处理模型，获得估计声音信号，这里，音频处理模型可以是根据本公开示例性实施例的音频处理模型的训练方法训练好的。

这里，服务器可以包括一个独立运行的服务器，也可以是分布式服务器，或者由多个服务器组成的服务器集群，还可以是云计算平台或虚拟化中心。用户终端可以为用户提供本地服务，用户终端例如可以包括个人计算机、智能手机、平板电脑、笔记本电脑、数字助理、可穿戴设备、车载终端等的实体设备，也可以包括诸如网页浏览器、虚拟机、应用程序客户端等的运行于实体设备的软体。

图3是根据一示例性实施例示出的一种音频处理方法的流程图。如图3所示，音频处理方法可以包括：步骤S301，可以获取待测音频信号；步骤S302，可以基于待测音频信号，利用音频处理模型，获得估计声音信号，其中，音频处理模型是根据本公开的示例性实施例的音频处理模型的训练方法训练好的。

这里，利用深度学习方案的音频处理模型，在音频处理模型中融合喷麦噪声、稳态噪声、电流噪声抑制功能，可以实现保证歌声音质的条件下降低噪声干扰的效果。

此外，如图4所示，根据本公开的示例性实施例，在步骤S401，可以检测当前音频处理场景是否满足预设条件，从而可以采用不同的方法获取估计声音信号。

具体来说，在当前音频处理场景满足预设条件的情况下，在步骤S402，可以基于待测音频信号，利用上文中所述的音频处理模型，获得估计声音信号；在当前音频处理场景不满足预设条件的情况下，在步骤S403，可以利用信号处理算法对待测音频信号执行回声和噪声消除，获得估计声音信号。如此，在步骤S404，可以将消除干扰信号后的估计声音信号与背景音混音，得到最终的音频。

作为示例，预设条件包括：当前音频处理场景的设备性能高于预设性能要求；和/或，当前音频处理场景的延迟要求大于预设延迟。

具体来说，一方面，可以判断当前音频处理场景的设备性能是否为处理能力较低的设备，例如可以获取设备的CPU处理器的能力是否高于预设性能要求。这里，预设性能要求例如可以是但不限于对处理器版本的要求。当设备的CPU处理器低于或等于预设性能要求中的处理器版本时，可以利用信号处理算法对待测音频信号执行回声和噪声消除，获得估计声音信号；当设备的CPU处理器高于预设性能要求中的处理器版本时，可以利用上文中所述的音频处理模型，获得估计声音信号。

另一方面，可以判断当前音频处理场景是否需要低延迟的音频处理。作为示例，低延迟的音频处理场景可以包括但不限于虚拟歌房中的合唱模式等。这里，预设延迟可以根据实际需要而任意设定，其例如可以是但不限于40ms。在当前音频处理场景的延迟要求小于或等于预设延迟时，可以利用信号处理算法对待测音频信号执行回声和噪声消除，获得估计声音信号；在当前音频处理场景的延迟要求大于预设延迟时，可以利用上文中所述的音频处理模型，获得估计声音信号。

由于深度学习算法可能会占用较多的计算资源同时会产生较大的延迟，因此在这样的场景中，可以选择使用基于信号处理算法的音频处理方案，信号处理算法的资源消耗低，延迟可以低于20ms，而在其他对延迟要求不高且设备性能较强的场景中，可以使用深度学习的音频处理模型。在经过信号处理算法或音频处理模型处理后，得到消除了回声信号和诸如K歌场景特定噪声信号的声音信号，并且可以将该声音信号与诸如背景音乐的背景音混音，从而可以可到完整的输出信号。如此，可以通过检测当前音频处理场景，根据场景选择适合该场景的方法来获得估计声音信号，使得该音频处理方法的普适性更强，更能满足实际场景的需求。

下面将参照图5至图8详细描述利用信号处理算法获得估计声音信号的过程。

图5是根据一示例性实施例示出的一种音频处理方法中利用信号处理算法获得估计声音信号的步骤的流程图。图6是根据一示例性实施例示出的一种音频处理方法中利用信号处理算法获得估计声音信号的整体示意图。

如图5所示，利用信号处理算法对待测音频信号执行回声和噪声消除，获得估计声音信号，可以包括以下步骤：

在步骤S501，可以将待测音频信号输入到线性回声消除模块，得到残差信号。

这里，待测音频信号可以包括待测参考信号和待测叠加信号，其中，待测叠加信号可以是在诸如在线K歌、语音互动、歌曲录制等场景下通过设备收集的音频，待测参考信号可以是从设备输出的音频，例如歌曲的伴奏、其他用户的语音等。

线性回声消除模块可以用于从待测音频信号中消除线性回声，残差信号可以是从待测音频信号中消除线性回声得到的信号。

作为示例，如图6所示，线性回声消除模块可以是但不限于基于自适应滤波算法的线性回声消除(Acoustic Echo Cancellation，AEC)模块，应理解，也可以采用其他线性回声消除模块。可以将参考信号r和叠加信号y(其中，y＝v+d+n)输入到基于自适应滤波算法的线性AEC模块中，经过该模块的处理后得到残差信号e＝v+d’+n，其中，d’表示从回声信号d中消除线性回声后的信号。

在该步骤中，实际上是以待测参考信号r为参考，消除待测叠加信号y中与其相关的部分，而待测叠加信号y中与待测参考信号r相关性较强的成分主要是待测回声信号d中的部分分量，即，线性传播部分，因此，处理后的残差信号e中的信号d’为消除了该部分分量后的信号。

在步骤S502，可以基于残差信号，生成回声抑制掩膜和噪声抑制掩膜。

在上述步骤S501中，可以先消除容易被消除的线性回声，然后基于消除线性回声后的残差信号，分别生成对回声抑制和对噪声抑制的掩膜，以用于消除待测叠加信号中的回声和噪声二者，例如可以消除非线性回声和噪声部分，如此，即使在不采用深度学习方案的情况下，也可以利用信号处理算法对线性部分和非线性部分均进行消除，从而可以获得音质更好的声音信号。

作为示例，如图7所示，回声抑制掩膜可以通过以下步骤生成：

在步骤S701，可以基于残差信号和待测叠加信号，计算回声消除评价指标。

这里，回声消除评价指标表征残差信号在待测叠加信号中的占比，可以反映线性回声消除模块对待测叠加信号y信号中回声的消除量。作为示例，回声消除评价指标可以例如是但不限于回声反馈损失增强(Echo Return Loss Enhancement，ERLE)，例如也可以选择其他评价指标来计算。下面以ERLE为例进行说明。

具体来说，可以对待测叠加信号y和残差信号e分别进行短时傅里叶变换(ShortTime Fourier Transform，STFT)，得到下式(1)和式(2)：

Y[t,f]＝STFT[y] (1)

E[t,f]＝STFT[e] (2)

其中，STFT[*]表示对信号*进行短时傅里叶变换处理得到时频域信号，Y[t,f]和E[t,f]分别表示待测叠加信号y和残差信号e进行短时傅里叶变换后的信号，t表示时域序号，f表示频域序号。

基于上面的式(1)和式(2)，每个时频点的ERLE计算公式可以表示为：

其中，Erle[t,f]表示在t时刻f频率处的ERLE值。

基于上面的式(3)，在时间序列上的总瞬时ERLE计算公式可以表示为：

其中，Erle[t,f]表示在t时刻f频率处的ERLE值。

在步骤S702，可以基于残差信号和待测叠加信号，估计在残差信号中的残余回声信号。

作为示例，如图6所示，可以将待测叠加信号y和残差信号e输入到回声能量估计模块中，可以得到残差信号e中估计的残余回声信号d”。这里，回声能量估计模块例如可以是但不限于基于相干性的回声能量估计等，本公开对此不做具体限制。

在步骤S703，可以基于残差信号、回声消除评价指标和残余回声信号，生成回声抑制掩膜。

作为示例，在步骤S703中，可以基于残差信号和回声消除评价指标，生成初始回声抑制掩膜；可以基于回声消除评价指标，对初始回声抑制掩膜进行矫正，得到回声抑制掩膜。

例如，如图6所示，可以将残差信号e和回声消除评价指标ERLE输入到回声抑制掩膜计算模块，利用回声抑制掩膜计算算法获得初始回声抑制掩膜，由于回声抑制一般在频域进行，因此该初始回声抑制掩膜可以表示为EchoMaskRaw[t,f]。这里，回声抑制掩膜计算算法例如可以是但不限于谱减法、维纳滤波算法、对数频谱递归估计等算法，本公开对此不做具体限制。

在获得初始回声抑制掩膜后，可以基于于回声消除评价指标，对初始回声抑制掩膜进行矫正。

具体来说，在对初始回声抑制掩膜进行矫正过程中，响应于在当前时刻下所有频率处的回声消除评价指标的总和值大于预设阈值，可以将总和值作为回声抑制掩膜；响应于总和值小于或等于预设阈值，可以将总和值和预设掩膜值中的最小值作为回声抑制掩膜。

仍然以图6的示例为例，可以判断在t时刻下所有频率处的回声消除评价指标的总和值(即，总瞬时ERLE)是否大于预设阈值thre，这里，预设阈值thre可以根据实际需要而任意设定，预设阈值thre例如可以是但不限于12dB。

如此，可以通过下式(4)来对初始回声抑制掩膜进行矫正：

其中，EchoMask[t,f]表示回声抑制掩膜，EchoMaskRaw[t,f]表示初始回声抑制掩膜，thre表示预设阈值，n表示预设掩膜值。这里，预设掩膜值可以根据实际需要而任意设定，其可以在[0,1]的范围内，预设掩膜值n例如可以是但不限于0.5，即，在预设阈值thre为12dB的示例中，可以进行6dB的抑制。这里，在预设掩膜值大于0.5时，表示在音频处理过程中更偏向于诸如语音或歌声的人声的保真；在预设掩膜值小于0.5时，表示在音频处理过程中更偏向于对回声、噪声的抑制；在预设掩膜值等于0.5时，可以做到对人声保真和对回声、噪声抑制的均衡，从而达到较好的效果。

基于上面的式(4)，可以在每个频点判断是否残差信号和叠加信号中的歌声/语音信号较少或无歌声/语音，并且可以以回声为主，若初始回声抑制掩膜未达到预设阈值，则限制此时的掩膜最小值为预设掩膜值。基于上面的式(4)，可以按照时间序列依次计算各个时刻，并确定每个时刻在每个频率下的回声抑制掩膜。

由于传统的回声抑制掩膜计算算法得到的初始回声抑制掩膜可能会存在抑制回声的同时损伤诸如歌声的声音信号的问题，因此，在获得初始回声抑制掩膜后，可以根据回声消除评价指标信息对初始回声抑制掩膜进行矫正，得到最终的回声掩膜，这样的回声掩膜能够至少减少对声音信号的损伤。

尽管上面描述了对初始回声抑制掩膜进行矫正的一示例，但是其不限于此，例如也可以将残差信号、回声消除评价指标和残余回声信号三者输入到预先训练好的回声抑制掩膜生成模型中，直接生成回声抑制掩膜。

如上面参照图7所述，可以基于残差信号、回声消除评价指标和残余回声信号，生成回声抑制掩膜，从而可以较好地从待测叠加信号中消除回声部分，提高最终估计的声音信号的质量。

作为示例，如图8所示，噪声抑制掩膜可以通过以下步骤生成：

在步骤S801，可以基于残差信号，估计在残差信号中的噪声信号。

作为示例，如图6所示，可以将残差信号e输入到噪声能量估计模块，得到残差信号e中估计的噪声信号n’。噪声能量估计模块例如可以是但不限于时间窗口最小能量的估计方法、基于统计的噪声能量估计算法等，本公开对此不做具体限制。这里，噪声能量估计模块可以估计到噪声信号n中的平稳噪声成分，对于电流噪声和喷麦噪声等信号的估计能力有限，对于电流噪声和喷麦噪声等信号的估计可以采用基于深度学习的音频处理模型来实现。

在步骤S802，可以基于噪声信号和残差信号，生成噪声抑制掩膜。

如图6所示，可以将残差信号e和估计的噪声信号n’输入到噪声抑制掩膜计算模块，计算得到噪声抑制掩膜NosieMask[t,f]。噪声抑制掩膜计算模块例如可以是但不限于谱减法、维纳滤波算法、对数频谱递归估计等算法，本公开对此不做具体限制。

如上面所述，可以基于残差信号、估计的噪声信号获得噪声抑制掩膜，从而可以较好地从待测叠加信号中消除噪声部分，提高最终估计的声音信号的质量。

在步骤S503，可以基于回声抑制掩膜和噪声抑制掩膜，从待测音频信号的待测叠加信号中获得估计声音信号。

作为示例，可以确定回声抑制掩膜和噪声抑制掩膜中的最小值；将最小值作为掩膜，从待测叠加信号中消除回声信号和噪声信号，获得估计声音信号。然而，获得估计声音信号的方式不限于此，也可以取回声抑制掩膜和噪声抑制掩膜二者的均值等作为掩膜，从待测叠加信号中消除回声信号和噪声信号，获得估计声音信号。

这里，仍以图6的示例为例，可以将回声抑制掩膜EchoMask[t,f]和噪声抑制掩膜NosieMask[t,f]输入到回声与噪声抑制(Noise Suppression，NS)模块，利用回声与噪声抑制模块对比两个掩膜在每个时频点的大小，取二者的最小值，得到如下式(5)表示的最终的掩膜Mask[t,f]：

Mask[t,f]＝Min{EchoMask[t,f],NosieMask[t,f]} (5)

基于上式(5)所示的掩膜Mask[t,f]，可以将该掩膜与短时傅里叶变换的待测叠加信号y相乘，得到估计声音信号的时频域表达，具体地，如下式(6)所示：

V'[t,f]＝E[t,f]×Mask[t,f] (6)

基于估计声音信号的时频域表达V'[t,f]，通过逆短时傅里叶变换得到时域的估计声音信号v'，该估计声音信号在保留了用户的诸如歌声/语音的人声音质的同时最大限度的消除了回声和噪声等干扰，与背景音混音之后即可得到最终的系统输出的高音质作品。

上面描述了根据本公开的示例性实施例的音频处理方法，其提出一种整体解决方案，以提升在诸如在线K歌的复杂音频处理场景下的诸如歌声的人声音质，消除回声、噪声等干扰信号，极大的平衡音质保真和回声消除效果，实现高音质体验。

此外，该方法还可以根据延迟需求、用户机型等条件将传统AEC算法和深度学习AEC算法结合，实现最优消除回声，同时保证音质的效果。

图9是根据一示例性实施例示出的一种音频处理模型的训练装置的框图。参照图9，该音频处理模型的训练装置可以包括样本获取单元110、样本估计单元120、损失计算单元130和训练单元140。

样本获取单元110被配置为获取音频样本集，其中，音频样本集中的每个音频样本包括参考信号和叠加信号，叠加信号是基于声音信号叠加回声信号和噪声信号而获得的，回声信号是基于采集回声信号获得的，采集回声信号是利用在播放参考信号的同时收集参考信号而获得的。

样本估计单元120被配置为将音频样本集中的音频样本输入到音频处理模型，获得各音频样本对应的估计声音信号。

损失计算单元130被配置为基于各音频样本对应的声音信号和估计声音信号，计算损失。

训练单元140被配置为利用计算的损失，调整音频处理模型的参数，以对音频处理模型进行训练。

作为示例，声音信号是通过对原始采集的声音信号进行增强处理而获得的。

作为示例，对原始采集的声音信号进行的增强处理包括以下项中的至少一者：对原始采集的声音信号进行随机滤波；对原始采集的声音信号进行变速处理；对原始采集的声音信号进行变调处理。

作为示例，回声信号是通过对采集回声信号进行增强处理而获得的，或者，回声信号是采集回声信号。

作为示例，对采集回声信号进行的增强处理包括：对采集回声信号进行随机滤波。

作为示例，在将音频样本输入到音频处理模型之前，样本获取单元还被配置为执行以下项中的至少一者：调整回声信号和参考信号之间的延迟；调整声音信号和回声信号之间的能量比；调整声音信号和噪声信号之间的能量比。

作为示例，参考信号和回声信号均包括音乐、人声以及将音乐与人声混合得到的混合信号中的至少一者，噪声信号包括稳态噪声、电流噪声和喷麦噪声中的至少一者，声音信号包括歌声和语音中的至少一者。

图10是根据一示例性实施例示出的一种音频处理装置的框图。参照图10，该音频处理装置可以包括信号获取单元210和声音估计单元220。

信号获取单元210被配置为获取待测音频信号，其中，待测音频信号包括待测参考信号和待测叠加信号，待测叠加信号是通过设备收集的音频，待测参考信号是设备输出的音频。

声音估计单元220被配置为基于待测音频信号，利用音频处理模型，获得估计声音信号，其中，音频处理模型是根据本公开的示例性实施例所述的音频处理模型的训练方法训练好的。

作为示例，音频处理装置还包括检测单元，检测单元被配置为：检测当前音频处理场景是否满足预设条件；其中，声音估计单元220还被配置为：在当前音频处理场景满足预设条件的情况下，基于待测音频信号，利用音频处理模型，获得估计声音信号；在当前音频处理场景不满足预设条件的情况下，利用信号处理算法对待测音频信号执行回声和噪声消除，获得估计声音信号。

作为示例，声音估计单元220还被配置为：将待测音频信号输入到线性回声消除模块，得到残差信号，其中，残差信号是从待测音频信号中消除线性回声得到的信号；基于残差信号，生成回声抑制掩膜和噪声抑制掩膜；基于回声抑制掩膜和噪声抑制掩膜，从待测音频信号的待测叠加信号中获得估计声音信号。

作为示例，声音估计单元220还被配置为：基于残差信号和待测叠加信号，计算回声消除评价指标，其中，回声消除评价指标表征残差信号在待测叠加信号中的占比；基于残差信号和待测叠加信号，估计在残差信号中的残余回声信号；基于残差信号、回声消除评价指标和残余回声信号，生成回声抑制掩膜。

作为示例，声音估计单元220还被配置为：基于残差信号和回声消除评价指标，生成初始回声抑制掩膜；基于回声消除评价指标，对初始回声抑制掩膜进行矫正，得到回声抑制掩膜。

作为示例，声音估计单元220还被配置为：响应于在当前时刻下所有频率处的回声消除评价指标的总和值大于预设阈值，将总和值作为回声抑制掩膜；响应于总和值小于或等于预设阈值，将总和值和预设掩膜值中的最小值作为回声抑制掩膜。

作为示例，声音估计单元220还被配置为：基于残差信号，估计在残差信号中的噪声信号；基于噪声信号和残差信号，生成噪声抑制掩膜。

作为示例，声音估计单元220还被配置为：确定回声抑制掩膜和噪声抑制掩膜中的最小值；将最小值作为掩膜，从待测叠加信号中消除回声信号和噪声信号，获得估计声音信号。

根据本公开的实施例，可提供一种电子设备。图11是根据本公开实施例的一种电子设备1000的框图，该电子设备包括至少一个存储器1001和至少一个处理器1002，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的音频处理模型的训练方法或音频处理方法。

作为示例，电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备1000中，处理器1002可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器1002还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1002可运行存储在存储器中的指令或代码，其中，存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器1001可与处理器1002集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1001可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1002能够读取存储在存储器1001中的文件。

此外，电子设备1000还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的音频处理模型的训练方法或音频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的音频处理模型的训练方法或音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理模型的训练方法，其特征在于，所述训练方法包括：

获取音频样本集，其中，所述音频样本集中的每个音频样本包括参考信号和叠加信号，所述叠加信号是基于声音信号叠加回声信号和噪声信号而获得的，所述回声信号是基于采集回声信号获得的，所述采集回声信号是利用在播放所述参考信号的同时收集所述参考信号而获得的；

将所述音频样本集中的音频样本输入到所述音频处理模型，获得各音频样本对应的估计声音信号；

基于各音频样本对应的声音信号和估计声音信号，计算损失；

利用计算的损失，调整所述音频处理模型的参数，以对所述音频处理模型进行训练。

2.根据权利要求1所述的训练方法，其特征在于，所述声音信号是通过对原始采集的声音信号进行增强处理而获得的，

其中，对所述原始采集的声音信号进行的增强处理包括以下项中的至少一者：

对所述原始采集的声音信号进行随机滤波；

对所述原始采集的声音信号进行变速处理；

对所述原始采集的声音信号进行变调处理。

3.根据权利要求1所述的训练方法，其特征在于，所述回声信号是通过对所述采集回声信号进行增强处理而获得的，其中，对所述采集回声信号进行的增强处理包括：对所述采集回声信号进行随机滤波；或者，所述回声信号是所述采集回声信号。

4.根据权利要求1所述的训练方法，其特征在于，在将所述音频样本输入到所述音频处理模型之前，所述训练方法还包括以下项中的至少一者：

调整所述回声信号和所述参考信号之间的延迟；

调整所述声音信号和所述回声信号之间的能量比；

调整所述声音信号和所述噪声信号之间的能量比。

5.一种音频处理方法，其特征在于，所述音频处理方法包括：

获取待测音频信号，其中，所述待测音频信号包括待测参考信号和待测叠加信号，所述待测叠加信号是通过设备收集的音频，所述待测参考信号是所述设备输出的音频；

基于所述待测音频信号，利用音频处理模型，获得估计声音信号，其中，所述音频处理模型是根据权利要求1至4中的任一项所述的音频处理模型的训练方法训练好的。

6.根据权利要求5所述的音频处理方法，其特征在于，所述音频处理方法还包括：

检测当前音频处理场景是否满足预设条件；

其中，在所述当前音频处理场景满足预设条件的情况下，基于所述待测音频信号，利用所述音频处理模型，获得估计声音信号；

在所述当前音频处理场景不满足预设条件的情况下，利用信号处理算法对所述待测音频信号执行回声和噪声消除，获得估计声音信号。

7.根据权利要求6所述的音频处理方法，其特征在于，所述预设条件包括：所述当前音频处理场景的设备性能高于预设性能要求；和/或，所述当前音频处理场景的延迟要求大于预设延迟。

8.根据权利要求6所述的音频处理方法，其特征在于，所述利用信号处理算法对所述待测音频信号执行回声和噪声消除，获得估计声音信号，包括：

将所述待测音频信号输入到线性回声消除模块，得到残差信号，其中，所述残差信号是从所述待测音频信号中消除线性回声得到的信号；

基于所述残差信号，生成回声抑制掩膜和噪声抑制掩膜；

基于所述回声抑制掩膜和所述噪声抑制掩膜，从所述待测音频信号的待测叠加信号中获得估计声音信号。

9.根据权利要求8所述的音频处理方法，其特征在于，所述回声抑制掩膜通过以下方式生成：

基于所述残差信号和所述待测叠加信号，计算回声消除评价指标，其中，所述回声消除评价指标表征所述残差信号在所述待测叠加信号中的占比；

基于所述残差信号和所述待测叠加信号，估计在所述残差信号中的残余回声信号；

基于所述残差信号、所述回声消除评价指标和所述残余回声信号，生成所述回声抑制掩膜。

10.根据权利要求9所述的音频处理方法，其特征在于，所述基于所述残差信号、所述回声消除评价指标和所述残余回声信号，生成所述回声抑制掩膜，包括：

基于所述残差信号和所述回声消除评价指标，生成初始回声抑制掩膜；

基于所述回声消除评价指标，对所述初始回声抑制掩膜进行矫正，得到所述回声抑制掩膜。

11.根据权利要求8所述的音频处理方法，其特征在于，所述噪声抑制掩膜通过以下方式生成：

基于所述残差信号，估计在所述残差信号中的噪声信号；

基于所述噪声信号和所述残差信号，生成所述噪声抑制掩膜。

12.一种音频处理模型的训练装置，其特征在于，所述训练装置包括：

样本获取单元，被配置为获取音频样本集，其中，所述音频样本集中的每个音频样本包括参考信号和叠加信号，所述叠加信号是基于声音信号叠加回声信号和噪声信号而获得的，所述回声信号是基于采集回声信号获得的，所述采集回声信号是利用在播放所述参考信号的同时收集所述参考信号而获得的；

样本估计单元，被配置为将所述音频样本集中的音频样本输入到所述音频处理模型，获得各音频样本对应的估计声音信号；

损失计算单元，被配置为基于各音频样本对应的声音信号和估计声音信号，计算损失；

训练单元，被配置为利用计算的损失，调整所述音频处理模型的参数，以对所述音频处理模型进行训练。

13.一种音频处理装置，其特征在于，所述音频处理装置包括：

信号获取单元，被配置为获取待测音频信号，其中，所述待测音频信号包括待测参考信号和待测叠加信号，所述待测叠加信号是通过设备收集的音频，所述待测参考信号是所述设备输出的音频；

声音估计单元，被配置为基于所述待测音频信号，利用音频处理模型，获得估计声音信号，其中，所述音频处理模型是根据权利要求1至4中的任一项所述的音频处理模型的训练方法训练好的。

14.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器，

其中，所述处理器被配置为执行所述指令，以实现根据权利要求1至4中任一项所述的音频处理模型的训练方法或者根据权利要求5至11中任一项所述的音频处理方法。

15.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据权利要求1至4中任一项所述的音频处理模型的训练方法或者根据权利要求5至11中任一项所述的音频处理方法。