CN113192527A

CN113192527A - 用于消除回声的方法、装置、电子设备和存储介质

Info

Publication number: CN113192527A
Application number: CN202110470184.8A
Authority: CN
Inventors: 崔凡; 李楠; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-30
Anticipated expiration: 2041-04-28
Also published as: CN113192527B

Abstract

本公开提供了一种消除回声的方法、装置、电子设备和存储介质，所述方法包括：获取近端麦克风音频信号和远端回声信号；提取近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征；将提取的近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征输入回声消除模型，并从回声消除模型获得作为输出的回声消除后的信号。根据本公开的回声消除模型基于深度学习被训练为针对噪声和长延迟具有更高的鲁棒性，能够实现更好的回声消除效果。

Description

用于消除回声的方法、装置、电子设备和存储介质

技术领域

本公开涉及通信技术领域，尤其涉及一种用于消除回声的方法、装置、电子设备和存储介质。

背景技术

回声是近端音频信号经过一系列反射之后又传回来的信号，大多数回声会造成负面影响，例如在有线或无线通信中听到自己的讲话的声音，因此回声消除(Acoustic EchoCancellation，AEC)作为实时通讯中重要的技术，是保证音视频体验的关键点。

近些年来，基于神经网络的音频信号处理方法得到了越来越多的应用，相比于传统算法，在较多的数据驱动下，基于深度学习的方法往往能得到更好的效果。利用深度学习的回声消除算法大致可以分为两类：第一类是利用传统自适应滤波器的回声消除算法；第二类是利用深度学习的回声消除算法。基于深度学习的回声消除算法通常有时域和时频域两种处理方向，基于时域的处理方法是指在时域上对音频进行处理最后得到降噪之后的音频波形的方法，基于时频域的方法是指将原始时域波形信号进行短时傅里叶变换(STFT：Short-Time Fourier Transform)到时频域特征，经过神经网络一系列处理之后，再将时频域信号做短时反傅里叶变换(ISTFT：Inverse Short-Time Fourier Transform)到时域，得到回声消除处理后波形的方式。

相关技术的基于自适应滤波器的回声消除算法在远端单讲的情况下，估计参考信号到回声的回声路径，通过估计的回声路径和使用参考信号得到估计的回声，最后用近端麦克风信号减去估计的回声分量，得到回声消除之后的信号。然而，该方法需要双讲检测，漏检会导致滤波器发散，而且实际场景中包含各种噪声场景，自适应算法会受到背景噪声的干扰导致回声路径估计不准确。另外，实际场景包含各种设备的非线性失真，基于自适应滤波器的回声消除算法难以消除非线性回声信号。

相关技术的基于深度学习的方法一般是将问题转化为预测时频域掩码的方法，利用远端参考信号的近端麦克风信号估计一组时频域掩码，将近端麦克风信号的时频域特征乘上掩码得到预测的回声消除后的信号的时频域特征，再通过ISTFT变化得到时域信号点。然而，基于深度学习的方法需要大量的数据支持，但现实生活中包含各种复杂场景，所以在现实场景中鲁棒性较差，特别是在长延迟的情况下，相关技术的基于深度学习的方法难以消除远端回声。

发明内容

根据本公开的示例性实施例的第一方面，提供一种训练回声消除模型的方法，包括：使用远端参考信号f来生成模拟的远端回声信号f′，并使用模拟的远端回声信号f′、近端干净音频信号c和噪声信号n来生成模拟的近端麦克风信号m；将远端参考信号f和近端麦克风信号m转换到时频域以提取远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M；以近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F作为回声消除模型的输入特征，以近端干净音频信号c、远端回声信号f′以及远端回声信号f′相对于远端参考信号f的随机延迟时间T作为回声消除模型的训练目标来训练回声消除模型。

根据本公开的示例性实施例的第一方面，所述使用远端参考信号f来生成远端回声信号f′包括：获得远端参考信号f的房间冲击响应信号；对所述房间冲击响应信号执行截幅，并以随机延迟时间T对截幅后的信号进行延迟处理以生成远端回声信号f′。

根据本公开的示例性实施例的第一方面，所述将远端参考信号f和近端麦克风信号m转换到时频域以提取远端参考信号和近端麦克风信号的幅度谱包括：对远端参考信号f和近端麦克风信号m进行短时傅里叶变换STFT以得到远端参考信号m的时频域序列和近端麦克风信号的时频域序列；对远端参考信号f的时频域序列和近端麦克风信号m的时频域序列求绝对值以获得远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M。

根据本公开的示例性实施例的第一方面，所述训练回声消除模型包括：根据近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F来获得估计的延迟时间D、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1；使用估计的延迟时间D对远端参考信号的幅度谱Mag_F进行延迟对齐，并根据对齐后的远端参考信号的幅度谱Mag_Fd、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1来获得预测的回声消除后的信号P_c和预测的回声信号P_f；根据回声消除后的信号P_c与近端干净音频信号c的偏差、预测的回声信号P_f与远端回声信号f′的偏差以及估计的延迟时间D与随机延迟时间T的偏差来调整回声消除模型的参数。

根据本公开的示例性实施例的第一方面，所述获得估计的延迟时间D、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1包括：将近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F输入第一深度神经网络以获得估计的延迟时间D和第一回声信号幅度谱掩码Mask_F，并使用估计的延迟时间D对远端参考信号f的幅度谱Mag_F进行延迟对齐以得到对齐后的远端参考信号的幅度谱Mag_Fd；使用近端麦克风信号的幅度谱Mag_M、远端参考信号的幅度谱Mag_F和第一回声信号幅度谱掩码Mask_F来获得预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1，

其中，Mag_F′＝Mag_F*Mask_F，

Mag_M1＝Mag_M*(1-Mask_F)。

根据本公开的示例性实施例的第一方面，所述获得预测的回声消除后的信号P_c和预测的回声信号P_f包括：将对齐后的远端参考信号的幅度谱Mag_Fd和第一回声消除后的信号的幅度谱Mag_M1输入第二深度神经网络以获得第二回声信号幅度谱掩码Mask_F2；使用第一回声消除后的信号的幅度谱Mag_M1和第二回声信号幅度谱掩码Mask_F2来获得第二回声消除后的信号的幅度谱Mag_M2，其中，Mag_M2＝Mag_M1*Mask_F2；根据第二回声消除后的信号的幅度谱Mag_M2和预测的回声信号的幅度谱Mag_F′与近端麦克风信号m的相位信息的反短时傅里叶变换ISTFT获得预测的回声消除后的信号P_c和预测的回声信号P_f。

根据本公开的示例性实施例的第一方面，所述调整回声消除模型的参数包括：使用目标损失函数通过梯度下降算法来更新第一深度神经网络和第二深度神经网络的参数，其中，所述目标损失函数包括：由预测的回声消除后的信号P_c与近端干净音频信号m构成的损失函数、由预测的回声信号P_f与远端回声信号f′构成的损失函数以及由估计的延迟时间D与随机延迟时间T构成的损失函数。

根据本公开的示例性实施例的第一方面，所述第一深度神经网络和所述第二深度神经网络具有长短期记忆(LSTM)、门控循环单元(GRU)或卷积循环神经网络(CRNN)结构。

根据本公开的示例性实施例的第一方面，所述第一深度神经网络和所述第二深度神经网络中的每一个都包括两个一维卷积层和两个LSTM层，其中，所述一维卷积层的核心大小为2，通道数为512，所述LSTM层的隐层节点数为512。

根据本公开的示例性实施例的第二方面，提供了一种用于训练回声消除模型的装置，包括：信号生成单元，被配置为使用远端参考信号f来生成模拟的远端回声信号f′，并使用模拟的远端回声信号f′、近端干净音频信号c和噪声信号n来生成模拟的近端麦克风信号m；特征提取单元，被配置为将远端参考信号f和近端麦克风信号m转换到时频域以提取远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M；训练单元，被配置为以近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F作为回声消除模型的输入特征，以近端干净音频信号c、远端回声信号f′以及远端回声信号f′相对于远端参考信号f的随机延迟时间T作为回声消除模型的训练目标来训练回声消除模型。

根据本公开的示例性实施例的第二方面，所述信号生成单元被配置为：获得远端参考信号f的房间冲击响应信号；对所述房间冲击响应信号执行截幅，并以随机延迟时间T对截幅后的信号进行延迟处理以生成远端回声信号f′。

根据本公开的示例性实施例的第二方面，所述特征提取单元被配置为：对远端参考信号f和近端麦克风信号m进行短时傅里叶变换STFT以得到远端参考信号m的时频域序列和近端麦克风信号的时频域序列；对远端参考信号f的时频域序列和近端麦克风信号m的时频域序列求绝对值以获得远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M。

根据本公开的示例性实施例的第二方面，所述训练单元被配置为：根据近端麦克风信号的幅度谱Mag_M和远端参考信号f的幅度谱Mag_F来获得估计的延迟时间D、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1；使用估计的延迟时间D对远端参考信号f的幅度谱Mag_F进行延迟对齐，并根据对齐后的远端参考信号的幅度谱Mag_Fd、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1来获得预测的回声消除后的信号P_c和预测的回声信号P_f；根据回声消除后的信号P_c与近端干净音频信号c的偏差、预测的回声信号P_f与远端回声信号f′的偏差以及估计的延迟时间D与随机延迟时间T的偏差来调整回声消除模型的参数。

根据本公开的示例性实施例的第二方面，所述训练单元被配置为：将近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F输入第一深度神经网络以获得估计的延迟时间D和第一回声信号幅度谱掩码Mask_F，并使用估计的延迟时间D对远端参考信号f的幅度谱Mag_F进行延迟对齐以得到对齐后的远端参考信号的幅度谱Mag_Fd；使用近端麦克风信号的幅度谱Mag_M、远端参考信号的幅度谱Mag_F和第一回声信号幅度谱掩码Mask_F来获得预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1，

其中，Mag_F′＝Mag_F*Mask_F，

Mag_M1＝Mag_M*(1-Mask_F)。

根据本公开的示例性实施例的第二方面，所述训练单元被配置为：将对齐后的远端参考信号的幅度谱Mag_Fd和第一回声消除后的信号的幅度谱Mag_M1输入第二深度神经网络以获得第二回声信号幅度谱掩码Mask_F2；使用第一回声消除后的信号的幅度谱Mag_M1和第二回声信号幅度谱掩码Mask_F2来获得第二回声消除后的信号的幅度谱Mag_M2，其中，Mag_M2＝Mag_M1*Mask_F2；根据第二回声消除后的信号的幅度谱Mag_M2和预测的回声信号的幅度谱Mag_F′与近端麦克风信号m的相位信息的反短时傅里叶变换ISTFT获得预测的回声消除后的信号P_c和预测的回声信号P_f。

根据本公开的示例性实施例的第二方面，所述训练单元被配置为：使用目标损失函数通过梯度下降算法来更新第一深度神经网络和第二深度神经网络的参数，其中，所述目标损失函数包括：由预测的回声消除后的信号P_c与近端干净音频信号m构成的损失函数、由预测的回声信号P_f与远端回声信号f′构成的损失函数以及由估计的延迟时间D与随机延迟时间T构成的损失函数。

根据本公开的示例性实施例的第二方面，所述第一深度神经网络和所述第二深度神经网络具有长短期记忆(LSTM)、门控循环单元(GRU)或卷积循环神经网络(CRNN)结构。

根据本公开的示例性实施例的第二方面，所述第一深度神经网络和所述第二深度神经网络中的每一个都包括两个一维卷积层和两个LSTM层，其中，所述一维卷积层的核心大小为2，通道数为512，所述LSTM层的隐层节点数为512。

根据本公开的示例性实施例的第三方面，提供了一种回声消除方法，包括：获取近端麦克风音频信号和远端回声信号；提取近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征；将提取的近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征输入回声消除模型，并从回声消除模型获得作为输出的回声消除后的信号，其中，所述回声消除模型是通过使用如上所述的训练方法训练得到的。

根据本公开的示例性实施例的第四方面，提供了一种回声消除装置，包括：信号获取单元，被配置为获取近端麦克风音频信号和远端回声信号；特征提取单元，被配置为提取近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征；回声消除单元，被配置为将提取的近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征输入回声消除模型，并从回声消除模型获得作为输出的预测的回声消除后的信号，其中，所述回声消除模型是通过使用如上所述的训练方法训练得到的。

根据本公开的示例性实施例的第五方面，提供了一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的方法。

根据本公开的示例性实施例的第六方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上所述的方法。

根据本公开的示例性实施例的第七方面，提供了一种计算机程序产品，所述计算机程序产品中的指令被电子设备中的至少一个处理器运行以执行如上所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过在训练过程中拟合多个训练目标，增加模型的鲁棒性，提升模型在噪声和长延迟等环境下的效果。相比于相关技术的自适应滤波器的回声消除算法，不需要双讲检测，在非线性情况下和包含噪声的情况下效果更好。相比于相关技术的基于深度学习的方法，对噪声和长延迟的情况下，回声消除得更干净。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出应用根据本公开的示例性实施例的估计回声延迟的方法的系统环境的示图。

图2是示出在音频设备中实现回声消除的原理的示意图。

图3是示出根据本公开的示例性实施例的训练回声消除模型的方法的流程图。

图4是示出根据本公开示例性实施例的生成模拟的近端麦克风信号的示意图。

图5是示出根据本公开示例性实施例的回声消除模型的第一部分的示意图。

图6是示出根据本公开示例性实施例的回声消除模型的第二部分的示意图。

图7是示出根据本公开示例性实施例的用于训练回声消除模型的装置的框图。

图8是示出根据本公开的示例性实施例的回声消除方法的流程图。

图9是示出根据本公开的示例性实施例的回声消除装置的框图。

图10是示出根据本公开的示例性实施例的用于回声消除的电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在进行以下说明之前，首先对本公开中使用的一些术语和原理进行说明。

声学回声消除(Acoustic Echo Cancellation，AEC)：通过自适应算法来调整滤波器的迭代更新系数估计出一个期望信号，使得该期望信号逼近经过实际回声路径的回声信号，然后从麦克风采集的混合信号中减去这个模拟回声，达到回声抵消的功能。

短时傅里叶变换(Short Time Fourier Transform，STFT)：STFT是一个用于语音信号处理的通用工具，它定义了一个非常有用的时间和频率分布类，指定了任意信号随时间和频率变化的复数幅度。计算短时傅里叶变换的过程是把一个较长的时间信号分成相同长度的更短的段，在每个更短的段上计算傅里叶变换，即傅里叶频谱。

图1示出了应用根据本公开的示例性实施例的估计回声延迟的方法的系统环境的示图。

如图1所示，本公开所提供的音频处理方法，可以应用于如图1所示的应用环境中。其中，终端102和终端104与服务器106通过网络进行通信，当终端102为本地终端时，终端104则为远端终端，而当终端104为本地终端时，终端102则为远端终端。具体的，终端102和终端104可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备等中的至少一种，服务器106可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

根据本公开的示例性实施例的估计回声延迟的方法，以直播连麦的场景中终端102为本地终端(即主播终端)、终端104为远端终端(即观众终端)为例进行说明。通过主播终端102的音频模块(例如，包括麦克风、音频处理芯片和/或处理器的对应功能部分)采集远端音频信号和近端音频信号并进行缓存。远端音频信号例如可包括由终端102播放的音频信号通过终端102的音频输出装置扩散后所产生的回声信号，而近端音频信号则可包括终端102的用户的说话声或唱歌声等。由于终端102播放的音频信号通过音频输出装置扩散后所产生的回声信号与终端102播放的音频信号之间存在一定的延时，因此，一般会基于延时估计对采集的远端音频信号进行声学回声消除(AEC)处理后再传输远端终端104，以抑制回声。在进行AEC时，需要一种在具有噪声或长延迟回声的情况下具有高鲁棒性的方案，从而能够实现更好的AEC效果。这里，可在终端102和104的音频模块的AEC模块中执行根据本公开的示例性实施例的估计回声延迟的方法，从而实现应用该方法的AEC。

下面，将参照图2来说明在音频设备中实现回声消除的原理。

具体地，通过如图2所示的由回声消除模块C模拟回声形成的反馈回路对回声信号进行反相处理，从而得到反相处理后的回声信号，进而将反相处理后的线回声信号与外部音频信号叠加。具体的，终端通过扬声器播放接收到的远端音频信号x(k)。经过室内环境的反射，麦克风可采集到由x(k)经过反射后的信号d(k)，同时采集到近端音频信号y(k)＝s(k)+n(k)，其中，s(k)可表示近端的用户语音信号，例如，主播端的说话声或唱歌声，n(k)可表示近端的环境噪声。回声消除模块C根据远端音频信号和近端音频信号产生估计的回声信号

以抵消麦克风采集外部音频信号时产生的回声信号，得到消除了回声的信号e(k)。e(k)经过滤波之后形成发送到远端终端104的信号

回声消除模块C在执行回声消除的时候需要确保回声延迟估计的鲁棒性。

根据本公开的示例性实施例的回声消除方法利用基于深度学习的回声消除模型来实现回声消除模块C。下面将参照图3来说明根据本公开的示例性实施例。

图3是示出根据本公开的示例性实施例的训练回声消除模型的方法的示流程图。下面将参照图3来说明根据本公开的示例性实施例的训练回声消除模型的方法。

在步骤S310，使用远端参考信号f来生成模拟的远端回声信号f′，并使用远端参考信号f、近端干净音频信号c和噪声信号n来生成模拟的近端麦克风信号m。这里，远端参考信号f和近端干净音频信号c是训练集数据中的不包括回声的信号数据。使用这样的数据可以方便地构成大量的具有远端回声和相应的近端麦克风信号，从而可以更好地训练回声消除模型。

根据本公开的示例性实施例，如图4所示，可通过以下操作从远端参考信号f得到模拟的远端回声信号f′：获得远端参考信号f的房间冲击响应信号，然后对所述房间冲击响应信号执行截幅，以随机延迟时间T对截幅后的信号进行延迟处理以生成远端回声信号f′。

例如，可将房间冲击响应RIR与远端参考信号f进行时域卷积，然后对卷积得到的信号进行截幅操作将信号的最大采样点值设置为原最大值的0.8倍，从而得到远端回声信号f′，卷积操作和截幅操作可以分别如以下的等式(1)和等式(2)所示：

f′＝Conv(RIR，f) (1)

f′＝clip(F′，max(f′)*0.8) (2)

然后，随机生成延迟时间T(0＜T≤220，单位为毫秒)，对生成的远端回声信号f′做延迟处理。

在得到了延迟的远端回声信号f′之后，可利用干净语音信号c、近端噪声信号n和生成的远端回声信号f′合成近端麦克风信号m，如以下的等式(3)所示：

m＝c+n+f′ (3)

通过以上方式产生的模拟的近端麦克风信号与实际的场景中在麦克风处获得的信号的构成成分是类似的，因此可以利用这样的信号来训练回声消除模型。应理解，以上的生成模拟的远端回声信号和模拟的近端麦克风信号的方式以及使用的各种参数(例如，截幅的比例值、随机延迟时间)仅是示意性的，本领域的技术人员可根据实际情况和需要进行调整。

在步骤S320，将远端参考信号f和近端麦克风信号m转换到时频域以提取远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M。

根据本公开的示例性实施例，可通过以下操作来提取远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M：对远端参考信号f和近端麦克风信号m进行短时傅里叶变换STFT以得到远端参考信号f的时频域序列和近端麦克风信号m的时频域序列，对远端参考信号f的时频域序列和近端麦克风信号m的时频域序列求绝对值以获得远端参考信号的幅度谱Mag_F和近端麦克风信号的幅度谱Mag_M。

具体地，如果时间长度为T的原始音频信号m、f在时域上为m(t)、f(t)，其中t代表时间，0＜t≤T，则经过短时傅里叶变换后，m(t)、f(t)在时频域可表示为如下的等式(4)和(5)：

M(n，k)＝STFT(m(t)) (4)

F(n，k)＝STFT(f(t)) (5)

其中，n表示时频域变换后的信号的帧序列的索引，0＜n≤N，N为帧序列的总帧数，k为中心频率序列，0＜k≤K，K为总频点数。

取M(n，k)、F(n，k)的绝对值，即可得到相应的幅度谱Mag_M，Mag_F，如以下的等式(6)和(7)所示：

Mag_M(n，k)＝abs(M(n，k)) (6)

Mag_F(n，k)＝abs(F(n，k)) (7)

然后，在步骤S330，以近端麦克风信号m的幅度谱Mag_M和远端参考信号f的幅度谱Mag_F作为回声消除模型的输入特征，以近端干净音频信号c、远端回声信号f′以及远端回声信号f′的随机延迟时间T作为回声消除模型的训练目标来训练回声消除模型。

根据本公开的示例性实施例，步骤S330可包括：根据近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F来获得估计的延迟时间D、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1；使用估计的延迟时间D对远端参考信号的幅度谱Mag_F进行延迟对齐，并根据对齐后的远端参考信号的幅度谱Mag_Fd、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1来获得预测的回声消除后的信号P_c和预测的回声信号P_f；根据回声消除后的信号P_c与近端干净音频信号c的偏差、预测的回声信号P_f与远端回声信号f′的偏差以及估计的延迟时间D与随机延迟时间T的偏差来调整回声消除模型的参数。

也就是说，根据本公开的示例性实施例的回声消除模型可分为两个部分来进行两次回声消除，在第一部分对回声进行初步消除(以下也可称为粗回声消除)，然后在第二部分对初步消除后的信号执行噪声消除和残余回声消除(以下也可称为精回声消除)，从而可以在噪声或长延迟的情况下得到更加鲁棒的结果。

图5示出了根据本公开的示例性实施例的回声消除模型的第一部分的示意图。

如图5所示，经过STFT变换得到的远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M被输入到第一深度神经网络(DNN1)，然后第一深度神经网络分别输出作为结果的估计的延迟时间D和第一回声信号幅度谱掩码Mask_F。估计的延迟时间D表示由第一DNN预测出的远端参考信号f与远端回声信号f′之间的时间差，因此可使用估计的延迟时间D对远端参考信号f的幅度谱Mag_F进行延迟对齐以得到对齐后的远端参考信号的幅度谱Mag_Fd。第一回声信号幅度谱掩码Mask_F为一组范围在0到1之间的数值，该数值可用于对输入数据(即，远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M)进行调整，即，可使用近端麦克风信号m的幅度谱Mag_M、远端参考信号f的幅度谱Mag_F和第一回声信号幅度谱掩码Mask_F来获得预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1，如以下的等式(8)和(9)所示：

Mag_F′＝Mag_F*Mask_F (8)

Mag_M1＝Mag_M*(1-Mask_F) (9)。

也就是说，通过将近端麦克风信号m的幅度谱Mag_M与第一回声信号幅度谱掩码Mask_F的反掩码1-Mask_F相乘可以获得初步消除了回声的信号的幅度谱Mag_M1，而将远端参考信号f的幅度谱Mag_F与第一回声信号幅度谱掩码Mask_F相乘可得到预测的回声信号的幅度谱Mag_F′。

图6示出了根据本公开的示例性实施例的回声消除模型的第二部分的示意图。

如图6所示，在回声消除模型的第二部分，对齐后的远端参考信号的幅度谱Mag_Fd和第一回声消除后的信号的幅度谱Mag_M1被输入第二深度神经网络(DNN2)以获得第二回声信号幅度谱掩码Mask_F2，然后使用第一回声消除后的信号的幅度谱Mag_M1和第二回声信号幅度谱掩码Mask_F2来获得第二回声消除后的信号的幅度谱Mag_M2，其中，Mag_M2＝Mag_M1*Mask_F2，最后根据第二回声消除后的信号的幅度谱Mag_M2和预测的回声信号的幅度谱Mag_F′与近端麦克风信号m的相位信息Phase(m)的反短时傅里叶变换ISTFT获得预测的回声消除后的信号P_c和预测的回声信号P_f，如以下的等式(10)和(11)所示：

P_c(t)＝ISTFT(Mag_M2(n，k)*Phase(M(n，k))) (10)

P_f(t)＝ISTFT(Mag_F′(n，k)*Phase(M(n，k))) (11)

这里，n表示时频域变换后的信号的帧序列的索引，0＜n≤N，N为帧序列的总帧数，k为中心频率序列，0＜k≤K，K为总频点数，Phase(M(n，k))表示近端麦克风信号m的相位信息序列。

如上所述，在获得了预测的回声消除后的信号P_c、预测的回声信号P_f以及估计的延迟时间D之后，可根据获得的以上数据与训练目标之间的偏差来调整回声消除模型的参数，即，调整第一DNN和第二DNN的参数，从而达到训练目标。由于根据上述的多个目标来对回声消除模型进行训练，所以增加了模型的鲁棒性。

根据本公开的示例性实施例，在步骤S330，可通过以下操作来调整回声消除模型的参数：使用目标损失函数通过梯度下降算法来更新第一深度神经网络和第二深度神经网络的参数，其中，所述目标损失函数包括由预测的回声消除后的信号P_c与近端干净音频信号m构成的损失函数、由预测的回声信号P_f与远端回声信号f′构成的损失函数以及由估计的延迟时间D与随机延迟时间T构成的损失函数。

例如，目标损失函数可以如以下的等式(12)所示：

l＝Loss1(P_c(t)，c(t))+Loss1(P_f(t)，f′(t))+Loss2(D，T) (12)

其中，Loss1为时域损失函数，Loss2为均方误差损失函数。

应理解，以上的损失函数仅为示例，根据本公开的示例性实施例的损失函数还可针对实际情况进行调整，例如，可为不同的损失函数分配不同的权重等。

根据本公开的示例性实施例，如图5和图6所示的第一深度神经网络(DNN1)和第二深度神经网络(DNN2)可具有长短期记忆(LSTM)、门控循环单元(GRU)或卷积循环神经网络(CRNN)结构。

根据本公开的示例性实施例，如图5和图6所示的第一深度神经网络(DNN1)和第二深度神经网络(DNN2)中的每一个可包括两个一维卷积层和两个LSTM层，其中，所述一维卷积层的核心大小为2，通道数为512，所述LSTM层的隐层节点数为512。

应理解，以上的深度神经网络的结构仅为示意性的，本领域的技术人员可根据实际情况对深度神经网络的结构和参数进行调整来实现同样的功能。

图7是示出根据本公开的示例性实施例的用于训练回声消除模型的装置的框图。根据本公开的示例性实施例的用于训练回声消除模型的装置可在任意具有相应的计算能力的设备(例如，PC、服务器或者专用的人工智能运算设备)上实现。

如图7所示，根据本公开的示例性实施例的训练回声消除模型的装置700可包括：信号生成单元710、特征提取单元720和训练单元730。

信号生成单元710被配置为使用远端参考信号f来生成模拟的远端回声信号f′，并使用模拟的远端回声信号f′、近端干净音频信号c和噪声信号n来生成模拟的近端麦克风信号m。

特征提取单元720被配置为将远端参考信号f和近端麦克风信号m转换到时频域以提取远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M。

训练单元730被配置为以近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F作为回声消除模型的输入特征，以近端干净音频信号c、远端回声信号f′以及远端回声信号f′相对于远端参考信号f的随机延迟时间T作为回声消除模型的训练目标来训练回声消除模型。

根据本公开的示例性实施例，信号生成单元710被配置为：获得远端参考信号f的房间冲击响应信号，对所述房间冲击响应信号执行截幅，并以随机延迟时间T对截幅后的信号进行延迟处理以生成远端回声信号f′。

根据本公开的示例性实施例，特征提取单元720被配置为：对远端参考信号f和近端麦克风信号m进行短时傅里叶变换STFT以得到远端参考信号m的时频域序列和近端麦克风信号的时频域序列，对远端参考信号f的时频域序列和近端麦克风信号m的时频域序列求绝对值以获得远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M。

根据本公开的示例性实施例，训练单元730被配置为：根据近端麦克风信号的幅度谱Mag_M和远端参考信号f的幅度谱Mag_F来获得估计的延迟时间D、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1，使用估计的延迟时间D对远端参考信号f的幅度谱Mag_F进行延迟对齐，并根据对齐后的远端参考信号的幅度谱Mag_Fd、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1来获得预测的回声消除后的信号P_c和预测的回声信号P_f，根据回声消除后的信号P_c与近端干净音频信号c的偏差、预测的回声信号P_f与远端回声信号f′的偏差以及估计的延迟时间D与随机延迟时间T的偏差来调整回声消除模型的参数。

根据本公开的示例性实施例，训练单元730被配置为：将近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F输入第一深度神经网络以获得估计的延迟时间D和第一回声信号幅度谱掩码Mask_F，并使用估计的延迟时间D对远端参考信号f的幅度谱Mag_F进行延迟对齐以得到对齐后的远端参考信号的幅度谱Mag_Fd，使用近端麦克风信号的幅度谱Mag_M、远端参考信号的幅度谱Mag_F和第一回声信号幅度谱掩码Mask_F来获得预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1，其中，Mag_F′＝Mag_F*Mask_F，Mag_M1＝Mag_M*(1-Mask_F)。

根据本公开的示例性实施例，训练单元730被配置为：将对齐后的远端参考信号的幅度谱Mag_Fd和第一回声消除后的信号的幅度谱Mag_M1输入第二深度神经网络以获得第二回声信号幅度谱掩码Mask_F2；使用第一回声消除后的信号的幅度谱Mag_M1和第二回声信号幅度谱掩码Mask_F2来获得第二回声消除后的信号的幅度谱Mag_M2，其中，Mag_M2＝Mag_M1*Mask_F2；根据第二回声消除后的信号的幅度谱Mag_M2和预测的回声信号的幅度谱Mag_F′与近端麦克风信号m的相位信息的反短时傅里叶变换ISTFT获得预测的回声消除后的信号P_c和预测的回声信号P_f。

根据本公开的示例性实施例，训练单元730被配置为：使用目标损失函数通过梯度下降算法来更新第一深度神经网络和第二深度神经网络的参数，其中，所述目标损失函数包括：由预测的回声消除后的信号P_c与近端干净音频信号m构成的损失函数、由预测的回声信号P_f与远端回声信号f′构成的损失函数以及由估计的延迟时间D与随机延迟时间T构成的损失函数。

根据本公开的示例性实施例，所述第一深度神经网络和所述第二深度神经网络具有长短期记忆(LSTM)、门控循环单元(GRU)或卷积循环神经网络(CRNN)结构。

根据本公开的示例性实施例，所述第一深度神经网络和所述第二深度神经网络中的每一个都包括两个一维卷积层和两个LSTM层，其中，所述一维卷积层的核心大小为2，通道数为512，所述LSTM层的隐层节点数为512。

图8示出了根据本公开的示例性实施例的回声消除方法的流程图。

如图8所示，首先，在步骤S810，获取近端麦克风音频信号和远端回声信号。这里，以视频直播场景为例，可通过麦克风获得直播的用户在麦克风处产生的近端麦克风音频信号和通过房间的反射而形成的远端回声信号，然后在实现根据本公开的示例性实施例的回声消除方法的设备中对获得的信号进行后续的处理以消除回声。麦克风可以是安装在设备上的至少一个麦克风装置，也可以是与设备分离并通过无线或有线方式连接的专用的麦克风设备。

接下来，在步骤S820，提取近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征。这里，已经参照图3的实施例说明了提取幅度谱特征的过程，在此不再重复描述。

然后，在步骤S830，将提取的近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征输入回声消除模型，并从回声消除模型获得作为输出的回声消除后的信号，其中，回声消除模型是通过使用如上参照图3所述的训练方法或使用如图4所述的训练装置训练得到的。

例如，如图3所示训练的回声消除模型可执行以下操作来获得回声消除后的信号：

将在步骤S820提取的近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征输入第一深度神经网络DNN1，DNN1的输出为一组掩码mask，将mask与近端麦克风信号的幅度谱对应相乘得到预测的粗回声消除信号的幅度谱，并且利用DNN1估计的延迟时间对远端回声信号的幅度谱做对齐。然后，回声消除模型将DNN1估计的粗回声消除信号的幅度谱和对齐后的远端回声信号幅度谱作为第二深度神经网络DNN2的输入，DNN2的输出为另一组掩码mask，将该组mask与近端麦克风信号的幅度谱对应相乘得到预测的精回声消除信号的幅度谱。最后，利用近端麦克风信号的相位信息和预测的精回声消除信号的幅度谱做ISTFT变换，即可得到估计得回声消除后的信号。

通过如上所述的由粗到精的回声消除方法，可以解决在噪声或长延迟情况下回声消除效果差的问题。

如图9所示，根据本公开的示例性实施例的回声消除装置900可包括信号获取单元910、特征提取单元920和回声消除单元930。根据本公开的示例性实施例的回声消除装置可以以硬件、软件和/或硬件与软件的组合的形式实现在具有音频采集和处理能力的设备中。

信号获取单元910被配置为获取近端麦克风音频信号和远端回声信号。

特征提取单元920被配置为提取近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征。

回声消除单元930被配置为将提取的近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征输入回声消除模型，并从回声消除模型获得作为输出的预测的回声消除后的信号，其中，所述回声消除模型是通过使用如图3所述的训练方法或使用如图4所述的训练装置训练得到的。

以上已经参照图3、图4和图9对回声消除模型的操作进行了详细描述，在此不再重复。

图10是示出根据本公开的示例性实施例的一种用于训练回声消除模型并且/或者消除回声延迟的电子设备的结构框图。该电子设备1000例如可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本公开的训练回声消除模型和/或消除回声延迟的方法。

在一些实施例中，电子设备1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在电子设备1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位电子设备1000的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1009用于为电子设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置电子设备1000的正面、背面或侧面。当电子设备1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在电子设备1000的前面板。接近传感器1016用于采集用户与电子设备1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对电子设备1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的训练回声消除模型并且/或者消除回声延迟的方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成训练回声消除模型并且/或者消除回声延迟的方法。

根据本公开的实施例的确定和消除回声延迟的方法、装置、电子设备、计算机可读存储介质能够增强回声消除模型的鲁棒性，能够。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种训练回声消除模型的方法，其特征在于，包括：

使用远端参考信号f来生成模拟的远端回声信号f′，并使用模拟的远端回声信号f′、近端干净音频信号c和噪声信号n来生成模拟的近端麦克风信号m；

将远端参考信号f和近端麦克风信号m转换到时频域以提取远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M；

以近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F作为回声消除模型的输入特征，以近端干净音频信号c、远端回声信号f′以及远端回声信号f′相对于远端参考信号f的随机延迟时间T作为回声消除模型的训练目标来训练回声消除模型。

2.如权利要求1所述的方法，其特征在于，所述训练回声消除模型包括：

根据近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F来获得估计的延迟时间D、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1；

使用估计的延迟时间D对远端参考信号的幅度谱Mag_F进行延迟对齐，并根据对齐后的远端参考信号的幅度谱Mag_Fd、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1来获得预测的回声消除后的信号P_c和预测的回声信号P_f；

根据回声消除后的信号P_c与近端干净音频信号c的偏差、预测的回声信号P_f与远端回声信号f′的偏差以及估计的延迟时间D与随机延迟时间T的偏差来调整回声消除模型的参数。

3.如权利要求2所述的方法，其特征在于，所述获得估计的延迟时间D、预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1包括：

将近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F输入第一深度神经网络以获得估计的延迟时间D和第一回声信号幅度谱掩码Mask_F，并使用估计的延迟时间D对远端参考信号f的幅度谱Mag_F进行延迟对齐以得到对齐后的远端参考信号的幅度谱Mag_Fd；

使用近端麦克风信号的幅度谱Mag_M、远端参考信号的幅度谱Mag_F和第一回声信号幅度谱掩码Mask_F来获得预测的回声信号的幅度谱Mag_F′和第一回声消除后的信号的幅度谱Mag_M1，

其中，Mag_F′＝Mag_F*Mask_F，

Mag_M1＝Mag_M*(1-Mask_F)。

4.如权利要求3所述的方法，其特征在于，所述获得预测的回声消除后的信号P_c和预测的回声信号P_f包括：

将对齐后的远端参考信号的幅度谱Mag_Fd和第一回声消除后的信号的幅度谱Mag_M1输入第二深度神经网络以获得第二回声信号幅度谱掩码Mask_F2；

使用第一回声消除后的信号的幅度谱Mag_M1和第二回声信号幅度谱掩码Mask_F2来获得第二回声消除后的信号的幅度谱Mag_M2，其中，Mag_M2＝Mag_M1*Mask_F2；

根据第二回声消除后的信号的幅度谱Mag_M2和预测的回声信号的幅度谱Mag_F′与近端麦克风信号m的相位信息的反短时傅里叶变换ISTFT获得预测的回声消除后的信号P_c和预测的回声信号P_f。

5.如权利要求4所述的方法，其特征在于，所述调整回声消除模型的参数包括：

使用目标损失函数通过梯度下降算法来更新第一深度神经网络和第二深度神经网络的参数，

其中，所述目标损失函数包括：由预测的回声消除后的信号P_c与近端干净音频信号m构成的损失函数、由预测的回声信号P_f与远端回声信号f′构成的损失函数以及由估计的延迟时间D与随机延迟时间T构成的损失函数。

6.一种用于训练回声消除模型的装置，其特征在于，包括：

信号生成单元，被配置为使用远端参考信号f来生成模拟的远端回声信号f′，并使用模拟的远端回声信号f′、近端干净音频信号c和噪声信号n来生成模拟的近端麦克风信号m；

特征提取单元，被配置为将远端参考信号f和近端麦克风信号m转换到时频域以提取远端参考信号f的幅度谱Mag_F和近端麦克风信号m的幅度谱Mag_M；

训练单元，被配置为以近端麦克风信号的幅度谱Mag_M和远端参考信号的幅度谱Mag_F作为回声消除模型的输入特征，以近端干净音频信号c、远端回声信号f′以及远端回声信号f′相对于远端参考信号f的随机延迟时间T作为回声消除模型的训练目标来训练回声消除模型。

7.一种回声消除方法，其特征在于，包括：

获取近端麦克风音频信号和远端回声信号；

提取近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征；

将提取的近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征输入回声消除模型，并从回声消除模型获得作为输出的回声消除后的信号，

其中，所述回声消除模型是通过使用如权利要求1-5中的任意一个权利要求所述的训练方法训练得到的。

8.一种回声消除装置，其特征在于，包括：

信号获取单元，被配置为获取近端麦克风音频信号和远端回声信号；

特征提取单元，被配置为提取近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征；

回声消除单元，被配置为将提取的近端麦克风音频信号的幅度谱特征和远端回声信号的幅度谱特征输入回声消除模型，并从回声消除模型获得作为输出的预测的回声消除后的信号，

9.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至5以及权利要求7中任一权利要求所述的方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5以及权利要求7中任一权利要求所述的方法。