CN115762552B

CN115762552B - 训练回声消除模型的方法、回声消除方法及对应装置

Info

Publication number: CN115762552B
Application number: CN202310030085.7A
Authority: CN
Inventors: 张是民; 王子腾; 纳跃跃; 付强; 田彪
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-06-27
Anticipated expiration: 2043-01-10
Also published as: CN115762552A

Abstract

本申请实施例公开了一种训练回声消除模型的方法、回声消除方法及对应装置，涉及新一代信息技术领域。获取参考信号和麦克风输入信号；将所述参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型，获取所述回声消除模型预测得到的近端信号；其中所述回声消除模型包括参数估计模块和滤波处理模块；所述参数估计模块利用参考信号和麦克风输入信号对滤波统计量进行估计，得到滤波统计量估计值；所述滤波处理模块利用所述参考信号和所述滤波统计量估计值，对所述麦克风输入信号进行滤波处理，输出对近端信号的预测结果。通过本申请能够提高回声消除的效果，且具有更强的鲁棒性。

Description

训练回声消除模型的方法、回声消除方法及对应装置

技术领域

本申请涉及新一代信息技术领域，特别是涉及一种训练回声消除模型的方法、回声消除方法及对应装置。

背景技术

在一些语音交互的实时通信场景中不免会遇到回声的问题，即来自远端的语音在近端的扬声器播放后，经过近端环境又被传输至近端麦克风从而造成回声。回声与近端语音的叠加被近端麦克风采集到后传输至远端，会造成远端听到的声音中受到回声的干扰，语音交互质量很差。

因此，为了提高语音交互的质量，回声消除技术应运而生。由于扬声器的器件共振引起的非线性回声、传输链路和系统调度中产生的时钟漂移、时延等问题，使用传统的信号处理方法回声消除效果不佳。此外，由于语音交互设备的多样性，使用传统的信号处理方法需要对每种语音交互设备进行专业的参数调整，即额外增加一些平滑参数来保证回声消除模型的鲁棒性，这种方式严重依赖人工经验，造成回声消除效果依旧不佳。

发明内容

有鉴于此，本申请提供了一种训练回声消除模型的方法、回声消除方法及对应装置，用以提高回声消除的效果。

本申请提供了如下方案：

第一方面，提供了一种训练回声消除模型的方法，所述方法包括：

获取多个训练样本，各训练样本包括：参考信号样本、麦克风输入信号样本和近端信号样本；

将所述参考信号样本和麦克风输入信号样本作为回声消除模型的输入，将所述近端信号样本作为回声消除模型的目标输出，训练所述回声消除模型；其中，所述回声消除模型基于深度学习模型实现，包括参数估计模块和滤波处理模块；

所述参数估计模块利用所述参考信号样本和所述麦克风输入信号样本，对滤波统计量进行估计得到滤波统计量估计值；

所述滤波处理模块利用所述参考信号样本和所述滤波统计量估计值，对所述麦克风输入信号样本进行滤波处理，输出对近端信号的预测结果。

根据本申请实施例中一可实现的方式，所述获取多个训练样本包括：

预先录制第一语音和第二语音，将第一语音作为参考信号样本，将第二语音作为近端信号样本，在目标环境下播放第一语音和第二语音时麦克风采集到的信号作为麦克风输入信号样本。

根据本申请实施例中一可实现的方式，所述滤波统计量估计值包括对近端语音谱密度的估计值，和/或，对自适应滤波模块所采用步长的估计值。

根据本申请实施例中一可实现的方式，所述滤波处理模块包括自适应滤波模块和后滤波模块；

所述自适应滤波模块利用所述参考信号样本和所述滤波统计量估计值，对所述麦克风输入信号样本进行第一滤波处理，第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种；

所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理，输出对近端信号的预测结果。

根据本申请实施例中一可实现的方式，若所述第一滤波处理的结果包括对回声信号的预测结果和误差信号，则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括：所述后滤波模块利用所述对回声信号的预测结果对所述误差信号进行第二滤波处理；或者，

若所述第一滤波处理的结果包括误差信号，则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括：所述后滤波模块利用所述参考信号样本对所述误差信号进行第二滤波处理；或者，

若所述第一滤波处理的结果包括对回声信号的预测结果，则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括：所述后滤波模块利用所述对回声信号的预测结果对所述麦克风输入信号样本进行第二滤波处理；

其中，所述误差信号为：将所述麦克风输入信号样本过滤掉对回声信号的预测结果后得到的信号。

根据本申请实施例中一可实现的方式，所述参数估计模块采用门控循环单元；

所述自适应滤波模块采用卡尔曼自适应滤波模块或者递归最小二乘自适应滤波模块；

所述后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。

根据本申请实施例中一可实现的方式，训练所述回声消除模型包括：

在每一轮迭代中利用损失函数的取值，采用梯度下降的方式更新所述参数估计模块、自适应滤波模块和后滤波模块的模型参数，直至满足预设的训练结束条件；

其中所述损失函数是依据训练目标预先构造的，所述训练目标为最小化所述对近端信号的预测结果与所述近端信号样本之间的差异。

第二方面，提供了一种回声消除方法，所述方法包括：

获取参考信号和麦克风输入信号；

将所述参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型，获取所述回声消除模型预测得到的近端信号；其中所述回声消除模型包括参数估计模块和滤波处理模块；

所述参数估计模块利用参考信号和麦克风输入信号对滤波统计量进行估计，得到滤波统计量估计值；

所述滤波处理模块利用所述参考信号和所述滤波统计量估计值，对所述麦克风输入信号进行滤波处理，输出对近端信号的预测结果。

根据本申请实施例中一可实现的方式，所述滤波统计量包括近端语音的谱密度，和/或，所述第一滤波处理采用的步长。

所述自适应滤波模块利用所述参考信号和所述滤波统计量估计值，对所述麦克风输入信号进行第一滤波处理，第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种；

若所述第一滤波处理的结果包括误差信号，则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括：所述后滤波模块利用所述参考信号对所述误差信号进行第二滤波处理；或者，

若所述第一滤波处理的结果包括对回声信号的预测结果，则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括：所述后滤波模块利用所述对回声信号的预测结果对所述麦克风输入信号进行第二滤波处理；

其中，所述误差信号为：将所述麦克风输入信号过滤掉对回声信号的预测结果后得到的信号。

所述自适应滤波模块采用卡尔曼滤波模块或者递归最小二乘滤波模块；

第三方面，提供了一种训练回声消除模型的装置，所述装置包括：

样本获取单元，被配置为获取多个训练样本，各训练样本包括：参考信号样本、麦克风输入信号样本和近端信号样本；

模型训练单元，被配置为将所述参考信号样本和麦克风输入信号样本作为回声消除模型的输入，将所述近端信号样本作为回声消除模型的目标输出，训练所述回声消除模型；其中，所述回声消除模型基于深度学习模型实现，包括参数估计模块和滤波处理模块；

所述参数估计模块用以利用所述参考信号样本和所述麦克风输入信号样本，对滤波统计量进行估计得到滤波统计量估计值；

所述滤波处理模块用以利用所述参考信号样本和所述滤波统计量估计值，对所述麦克风输入信号样本进行滤波处理，输出对近端信号的预测结果。

第四方面，提供了一种回声消除装置，所述装置包括：

信号获取单元，被配置为获取参考信号和麦克风输入信号；

回声消除单元，被配置为将所述参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型，获取所述回声消除模型预测得到的近端信号；其中所述回声消除模型包括参数估计模块和滤波处理模块；

所述参数估计模块用以利用参考信号和麦克风输入信号对滤波统计量进行估计，得到滤波统计量估计值；

所述滤波处理模块用以利用所述参考信号和所述滤波统计量估计值，对所述麦克风输入信号进行滤波处理，输出对近端信号的预测结果。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

根据第六方面，提供了一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

1）本申请采用基于深度学习模型的回声消除模型，在该回声消除模型中引入了参数估计模块对滤波统计量进行估计，帮助滤波处理模块利用滤波统计量估计值对麦克风输入信号进行滤波处理得到对近端信号的预测结果。这种通过数据驱动的方式自适应地辅助优化滤波过程，无需依赖专家经验额外设置平滑参数，降低了人工和时间成本，并且效果不再受限于人工经验，提高了回声消除的效果。

2）本申请提供的回声消除模型中采用两阶段的滤波处理方式，首先由自适应滤波模块模拟回声路径，从而进行第一滤波处理；然后由后滤波模块进行第二滤波处理，过滤掉残余回声以及噪声的影响。这种方式能够大幅提高回声消除的效果，对回声信号的预测更加准确。

3）本申请基于滤波统计量估计能够使得自适应滤波的迭代过程能够更快的收敛，从而达到更鲁棒的回声消除效果。

4）本申请提供了一种端到端的回声消除模型，梯度在参数估计模块、自适应滤波模块和后滤波模块进行反向传播，实现联合优化，从而得到更鲁棒的回声消除模型。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是可以应用本申请实施例的示例性系统架构图；

图2为本申请实施例提供的回声消除模型的示意图；

图3a~图3c为本申请实施例提供的三种回声消除模型的原理性示意图；

图4为本申请实施例提供的训练回声消除模型的方法流程图；

图5为本申请实施例提供的模型训练的原理性示意图；

图6为本申请实施例提供的回声消除装置的示意性框图；

图7为本申请实施例提供的训练回声消除模型的装置示意性框图；

图8为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

在数字化驱动的今天，人工智能逐渐应用于语音技术，使得很多语音前端任务的性能得到提升。应用到回声消除场景，可以使用自适应滤波器对回声路径进行学习来调整自适应滤波器的权值，由自适应滤波器依据学习结果估计回声信号并利用自适应滤波器估计的回声信号进行滤波处理，从而得到预测信号。这种方式的回声消除效果相比较传统信号处理方式已经得到了提升，但鲁棒性较差。并且自适应滤波同样需要依赖专家经验进行平滑参数的设置，人工和时间成本较高，且效果受限于专家经验。

有鉴于此，本申请在回声消除模型中引入了参数估计模型来解决上述技术问题。为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。

图1示出了可以应用本申请实施例的示例性系统架构。如图1中所示，本申请实施例中涉及的回声消除装置设置于近端麦克风向远端进行语音传输的路径中。从远端传输至近端扬声器的信号为参考信号，该信号经过扬声器播放后再经过回声路径传输至近端麦克风，连同近端语音信号一起作为麦克风输入信号被近端麦克风采集。本申请实施例提供的回声消除装置利用参考信号以及麦克风输入信号进行近端语音信号的预测，得到预测信号，然后将预测信号传输至远端。

其中，回声消除装置利用回声消除模型进行回声消除处理，从而得到预测信号。回声消除模型是由模型训练装置利用训练数据预先训练得到。

回声消除装置可以设置于语音交互设备，对语音交互设备所能够麦克风采集到的输入信号进行回声消除后，传输至远端。语音交互设备可以包括但不限于智能手机、平板电脑、智能音箱等。

模型训练装置可以设置于服务器端，服务器可以是单一服务器，也可以是多个服务器构成的服务器群组，还可以是云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPs，VirtualPrivate Server）服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置也可以设置于计算机终端。

模型训练装置训练得到的回声消除模型可以预置于语音交互设备，也可以通过网络方式传输给语音交互设备。

应该理解，图1中的回声消除装置、回声消除模型和模型训练装置的数目仅仅是示意性的。根据实现需要，可以具有任意数目的回声消除装置、回声消除模型和模型训练装置。

本申请实施例提供的回声消除方法可以由图1所示系统架构中的回声消除装置执行。该回声消除方法基于回声消除模型实现，即回声消除装置将参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型，获取回声消除模型预测得到的近端信号。

回声消除模型的输入是参考信号和麦克风输入信号，输出是预测得到的近端信号，但本申请实施例中的回声消除模型采用了全新的结构。如图2中所示，该回声消除模型可以包括参数估计模块和滤波处理模块。

其中，参数估计模块利用参考信号和麦克风输入信号对滤波统计量进行估计，得到滤波统计量估计值。

滤波处理模块利用参考信号和参数估计模块输出的滤波统计量估计值，对麦克风输入信号进行滤波处理，输出对近端信号的预测结果。

可以看出，本申请采用基于深度学习模型的回声消除模型，在该回声消除模型中引入了参数估计模块对滤波统计量进行估计，帮助滤波处理模块利用滤波统计量估计值对麦克风输入信号进行滤波处理得到对近端信号的预测结果。这种方式通过数据驱动的方式自适应地辅助优化滤波过程，无需依赖专家经验额外设置平滑参数，降低了人工和时间成本，并且效果不再受限于人工经验，提高了回声消除的效果。

下面对回声消除模型的各部分进行详细描述。

本申请实施例中提供的参数估计模块能够在输入参考信号（表示为

）和麦克风输入信号（表示为/>

）后，进行滤波统计量的估计，得到滤波统计量估计值（表示为λ）。作为其中一种可实现的方式，参数估计模块可以采用GRU（Gate Recurrent Unit，门控循环单元），也可以采用其他RNN（Recurrent Neural Network，循环神经网络）、LSTM（Long short-term memory，长短时记忆网络）。

在本申请实施例中以GRU为例。远端信号、麦克风输入信号会经过时域到频域的变换，例如进行傅里叶变换，得到序列维度和特征维度的矩阵，称为特征矩阵，表示为T×F大小。两路信号的特征矩阵可以拼接起来得到T×2F大小，将拼接得到的矩阵作为GRU的输入，预测得到的滤波统计量估计值实际上也是一个矩阵。其中，特征维度可以采用多种类型的特征，例如倒谱参数、基音参数、幅度调制谱参数等等。后续实施例中各模块被输入的信号也均是转换到频率后的序列维度和特征维度的矩阵。鉴于GRU的具体原理和结构是一个已知的原理和结构，在此不做详述。

在本申请实施例中参数估计模块估计的滤波统计量可以是近端语音的谱密度、自适应滤波模块采用的控制收敛速度的步长等中的一种或任意组合，这些滤波统计量是自适应滤波模块在进行自适应滤波（即第一滤波处理）过程中使用的统计类型的参数。

作为其中一种可实现的方式，上述滤波处理模块可以采用自适应滤波模块。由自适应滤波模块利用参考信号和滤波统计量估计值对麦克风输入信号进行滤波处理，过滤掉其中的回声信号，得到对近端信号的预测结果。

但作为另一种更优选的方式，上述滤波处理模块可以包括两部分，即图2中示出的结构，包括自适应滤波模块和后滤波模块。

自适应滤波模块利用参考信号样本和滤波统计量估计值对麦克风输入信号进行第一滤波处理。

后滤波模块利用第一滤波处理的结果进行第二滤波处理，得到对近端信号的预测结果。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分，例如“第一滤波处理”和“第二滤波处理”用以区分两种滤波处理。

麦克风输入信号

的产生过程实际上是：远端信号即参考信号/>

经过扬声器播放后，经过回声路径形成回声信号/>

，回声信号/>

与近端信号/>

一起被麦克风采集，就得到了麦克风输入信号/>

。本申请实施例中进行的回声消除目的是为了从麦克风输入信号/>

中还原近端信号/>

，还原的过程由自适应滤波模块和后滤波模块实现，先后执行两次滤波，最终预测近端信号v。

第一滤波由自适应滤波模块执行。自适应滤波模块利用参考信号

和滤波统计量估计值λ，对麦克风输入信号/>

进行的第一滤波处理实际上就是线性自适应滤波处理，即对回声进行线性预测。自适应滤波模块实际上是模拟回声路径，通过自适应算法调整使其冲激响应和真实回声路径相逼近。例如，麦克风输入信号可以表示为：

(1)

其中，

为扬声器到麦克风的冲激响应，自适应滤波模块就是调整得到上述/>

后，预测/>

的过程。

本申请实施例中采用的自适应滤波模块可以采用卡尔曼自适应滤波模块、递归最小二乘自适应滤波模块等。

以卡尔曼滤波模块为例，卡尔曼滤波的更新过程可以表示为：

（2）

（3）

（4）

（5）

（6）

其中，

是误差信号的第/>

帧。/>

是麦克风输入信号的第/>

帧。/>

是针对第/>

帧估计的回声路径。上标/>

表示共轭转置，上标/>

表示转置。/>

是参考信号的缓存数组，由第/>

帧及其前n帧组成，n为预设的正整数。/>

是对应的卡尔曼增益，用于控制自适应滤波模块更新的速度。/>

为第/>

帧的先验状态的误差协方差，/>

为第/>

帧的后验状态的误差协方差，

为第/>

-1帧的先验状态的误差协方差。/>

为第/>

帧的噪声协方差。

在本申请实施例中，参数估计模块估计的滤波统计量估计值实际上也是针对各帧进行的估计，针对第

帧估计的滤波统计量估计值可以表示为/>

。在上述卡尔曼滤波模块的更新过程中，就是将上述公式（4）中的谱密度/>

替换为参数估计模块输出的/>

，即在计算卡尔曼增益时将上述公式（4）变为：

（7）

上面实施例中已经提到，参数估计模块还可以是对自适应滤波模块控制迭代速度采用的步长进行估计，该估计也是针对各帧进行的。这种情况下，上述公式（4）替换为：

（8）

其中，

就是参数估计模块估计的自适应滤波模块针对第/>

帧采用的步长，即一个对各帧步长控制的矩阵。

如果回声路径发生了变化，相比较传统自适应滤波，基于滤波统计量估计能够使得自适应滤波的迭代过程能够更快的收敛，从而避免回声路径突变的影响，达到更鲁棒的回声消除效果。

通过卡尔曼滤波过程，自适应滤波模块最终可以得到以下三种输出：

第一种输出：对回声信号的预测结果

以及误差信号/>

；

第二种输出：误差信号

；

第三种输出：对回声信号的预测结果

。

相应地，对于后滤波模块的输入可以采用以下三种输入：

第一种输入：对回声信号的预测结果

以及误差信号/>

，如图3a中所示；

第二种输入：参考信号

和误差信号/>

，如图3b中所示；

第三种输入：麦克风输入信号

和对回声信号的预测结果/>

，如图3c中所示。

除了上述三种输入之外，也可以在上述输入的基础上结合其他情况信号中的一种或全部。例如，输入对回声信号的预测结果

、误差信号/>

和麦克风输入信号/>

。再例如，输入对回声信号的预测结果/>

、误差信号/>

和参考信号/>

。再例如，输入参考信号/>

、误差信号

、麦克风输入信号/>

和对回声信号的预测结果/>

。

后滤波模块的目的是进一步对过滤掉残余回声和噪声的影响。在采用上述第一种输入时，可以利用对回声信号的预测结果

对误差信号/>

进行第二滤波处理，得到对近端信号的预测结果/>

。这里的第二滤波处理实际上是依据回声信号的预测结果/>

所体现出的噪声特征，对误差信号/>

进行进一步地滤波，消除掉噪声的影响，得到预测的近端信号/>

。

在采用上述第二种输入时，可以利用参考信号

对误差信号/>

进行第二滤波处理，得到对近端信号/>

的预测结果。这里的第二滤波处理实际上是依据参考信号/>

和误差信号

所体现出的噪声特征的差异，对误差信号/>

。

在采用上述第三种输入时，可以对回声信号的预测结果

对麦克风输入信号/>

进行第二滤波处理。这里的第二滤波处理实际上是首先基于回声信号的预测结果/>

和麦克风输入信号/>

得到误差信号/>

，再依据对回声信号的预测结果/>

所体现出的噪声特征的差异，对误差信号/>

。

在本申请实施例中，后滤波模块可以采用DFSMN（Deep Feedforward SequentialMemory Networks，深度前馈序列记忆网络）、LSTM和GRU等中的一种或任意组合。关于这些网络的原理和结构在此不做详述。

后滤波模块预测得到的是频域上的近端信号，在进行频域到时域上的转换，得到最终对近端信号

的预测结果。

以上是利用回声消除模型进行回声消除的过程，下面结合实施例对训练回声消除模型的过程进行描述。图4为本申请实施例提供的训练回声消除模型的方法流程图，该方法可以由图1所示系架构中的模型训练装置执行。如图4中所示，该方法可以包括以下步骤：

步骤402：获取多个训练样本，各训练样本包括：参考信号样本、麦克风输入信号样本和近端信号样本。

在获取训练样本时，作为其中一种可实现的方式，可以预先录制第一语音和第二语音，将第一语音作为参考信号样本，将第二语音作为近端信号样本，在目标环境下播放第一语音和第二语音时麦克风采集到的信号作为麦克风输入信号样本。其中，第一语音模拟播放远端信号，第二语音在靠近麦克风的位置模拟近端信号。通过这种方式录制大量的第一语音和第二语音就可以得到训练集。

在本申请实施例中，可以分别针对不同类型的目标环境构建不同的训练集，分别用以训练适用于不同类型环境的回声消除模型。上述目标环境的类型可以是诸如：在房间内进行电话会议的环境、在大会议室进行电话会议的环境、在房间内进行语音或视频通话的环境、在房间内进行直播的环境，等等。

除了上述方式之外，也可以采用其他方式来获取训练样本。例如通过仿真工具模拟目标环境，在仿真工具中设置麦克风和扬声器，并模拟产生远端信号、近端信号分别作为参考信号样本和近端信号样本，并在仿真工具中获取麦克风采集到的信号作为麦克风输入信号样本。通过仿真工具可以获取大量的训练样本来构建训练集。

步骤404：将参考信号样本和麦克风输入信号样本作为回声消除模型的输入，将近端信号样本作为回声消除模型的目标输出，训练回声消除模型。

关于回声消除模型的具体结构可以参见图2中所示，回声消除模型基于深度学习模型实现，包括参数估计模块和滤波处理模块。

参数估计模块利用参考信号样本和麦克风输入信号样本，对滤波统计量进行估计得到滤波统计量估计值。

其中预测的滤波统计量可以包括近端语音的谱密度，和/或，自适应滤波模块采用的步长。

作为其中一种可实现的方式，上述滤波处理模块可以采用自适应滤波模块。由自适应滤波模块利用参考信号样本和滤波统计量估计值对麦克风输入信号样本进行滤波处理，过滤掉其中的回声信号，得到对近端信号的预测结果。

自适应滤波模块利用参考信号样本和滤波统计量估计值，对麦克风输入信号样本进行第一滤波处理。对麦克风输入信号样本进行的第一滤波处理实际上就是自适应滤波处理，即对回声进行预测。自适应滤波模块实际上是模拟回声路径，通过自适应算法调整使其冲激响应和真实回声路径相逼近。

本申请实施例中采用的自适应滤波模块可以采用卡尔曼滤波模块、递归最小二乘滤波模块等。

自适应滤波模块最终可以得到以下三种输出：

第一种输出：对回声信号的预测结果以及误差信号；

第二种输出：误差信号；

第三种输出：对回声信号的预测结果。

相应地，对于后滤波模块的输入可以采用以下三种输入：

第一种输入：对回声信号的预测结果以及误差信号，如图3a中所示；

第二种输入：参考信号样本和误差信号，如图3b中所示；

第三种输入：麦克风输入信号样本和对回声信号的预测结果，如图3c中所示。

后滤波模块利用第一滤波处理的结果进行第二滤波处理，输出对近端信号的预测结果。

在采用上述第一种输入时，后滤波模块可以利用对回声信号的预测结果对误差信号进行第二滤波处理，得到对近端信号的预测结果。这里的第二滤波处理实际上是依据回声信号的预测结果所体现出的噪声特征，对误差信号进行进一步地滤波，消除掉噪声的影响，得到预测的近端信号。

在采用上述第二种输入时，可以利用参考信号样本对误差信号进行第二滤波处理，得到对近端信号的预测结果。这里的第二滤波处理实际上是依据参考信号样本和误差信号所体现出的噪声特征的差异，对误差信号进行进一步地滤波，消除掉噪声的影响，得到预测的近端信号。

在采用上述第三种输入时，可以对回声信号的预测结果对麦克风输入信号样本进行第二滤波处理。这里的第二滤波处理实际上是首先基于回声信号的预测结果和麦克风输入信号样本得到误差信号，再依据对回声信号的预测结果所体现出的噪声特征的差异，对误差信号进行进一步地滤波，消除掉噪声的影响，得到预测的近端信号。

在本申请实施例中，后滤波模块可以采用DFSMN（Deep Feedforward SequentialMemory Networks，深度前馈序列记忆网络）、LSTM和GRU等中的一种或任意组合。

关于回声消除模型的更多原理和细节可以参见回声消除方法实施例中的相关记载，在此不做赘述。

回声消除模型的训练目标为最小化对近端信号的预测结果与对应的近端信号样本之间的差异。在本申请实施例中，可以依据上述训练目标构造损失函数（loss），例如构造MSE（Mean Square Error，均方误差）损失函数。在每一轮迭代中利用损失函数的取值，采用诸如梯度下降的方式更新回声消除模型的模型参数，如图5中所示。由于本申请实施例提供的回声消除模型采用的是端到端模型，每一次迭代过程中是对参数估计模块、自适应滤波模块和后滤波模块采用端到端的联合优化，利用梯度下降的方式对参数估计模块、自适应滤波模块和后滤波模块的模型参数进行更新，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

可以看出，本申请提供了一种端到端的回声消除模型，梯度在参数估计模块、自适应滤波模块和后滤波模块进行反向传播，实现联合优化，从而得到更鲁棒的回声消除模型。

本申请实施例提供的上述方法可以应用于多种应用场景，在此列举两种：

应用场景1：

预先针对电话会议的环境获取训练样本，并利用训练样本采用本申请实施例中的方式训练得到回声消除模型，并将该回声消除模型预置于会议终端设备，或者通过服务推送的方式将回声消除模型推送至会议终端设备，还可以在后续对该回声消除模型进行更新。

用户使用会议终端设备进行电话会议的过程中，通过扬声器播放的远端语音经过会议环境的回声路径后，与近端用户的语音一起被麦克风采集。针对麦克风采集的麦克风输入信号，可以利用回声消除模型进行回声消除，预测得到近端语音，并将近端语音通过网络传输至远端的会议终端设备。同样，在远端的会议终端设备也采用类似方式进行回声消除处理。这样就能够保证电话会议的通话质量，降低受到回声的影响。

应用场景2：

预先针对智能音箱的环境获取训练样本，并利用训练样本采用本申请实施例中的方式训练得到回声消除模型，并将该回声消除模型预置于智能音箱，或者通过服务推送的方式将回声消除模型推送至智能音箱，还可以在后续对智能音箱中的回声消除模型进行更新。

用户使用智能音箱的过程中，通过扬声器播放的声音经过智能音箱的播放环境的回声路径后，与近端用户的语音一起被智能音箱的麦克风阵列采集。针对麦克风阵列采集的麦克风输入信号，可以利用回声消除模型进行回声消除，预测得到近端语音即近端用户的语音，从而方便对近端语音进行进一步的语音识别并依据语音识别结果为用户提供服务。这样就能够保证智能音箱对近端用户语音的识别准确度，提高用户的服务体验，例如达到精准唤醒，精准服务的效果。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种回声消除装置。图6示出根据一个实施例的该回声消除装置的示意性框图，如图6所示，该装置600包括：信号获取单元601和回声消除单元602。其中各组成单元的主要功能如下：

信号获取单元601，被配置为获取参考信号和麦克风输入信号。

回声消除单元602，被配置为将参考信号和麦克风输入信号输入基于深度学习模型预先训练得到的回声消除模型，获取回声消除模型预测得到的近端信号；其中回声消除模型包括参数估计模块和滤波处理模块。

参数估计模块用以利用参考信号和麦克风输入信号对滤波统计量进行估计，得到滤波统计量估计值。

滤波处理模块用以利用参考信号和滤波统计量估计值，对麦克风输入信号进行滤波处理，输出对近端信号的预测结果。

作为其中一种可实现的方式，滤波统计量包括近端语音的谱密度，和/或，第一滤波处理采用的步长。

作为其中一种可实现的方式，滤波处理模块包括自适应滤波模块和后滤波模块。

自适应滤波模块利用参考信号和滤波统计量估计值，对麦克风输入信号进行第一滤波处理，第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种。

其中，若第一滤波处理的结果包括对回声信号的预测结果和误差信号，则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括：后滤波模块利用对回声信号的预测结果对误差信号进行第二滤波处理。

若第一滤波处理的结果包括误差信号，则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括：后滤波模块利用参考信号对误差信号进行第二滤波处理。

若第一滤波处理的结果包括对回声信号的预测结果，则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括：后滤波模块利用对回声信号的预测结果对麦克风输入信号进行第二滤波处理。

其中，误差信号为：将麦克风输入信号过滤掉对回声信号的预测结果后得到的信号。

作为其中一种可实现的方式，参数估计模块可以采用门控循环单元。自适应滤波模块采用卡尔曼自适应滤波模块或者递归最小二乘自适应滤波模块。后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。

根据另一方面的实施例，提供了一种训练回声消除模型的装置。图7示出根据一个实施例的训练回声消除模型的装置结构图，如图7所示，该装置700包括：样本获取单元701和模型训练单元702。其中各组成单元的主要功能如下：

样本获取单元701，被配置为获取多个训练样本，各训练样本包括：参考信号样本、麦克风输入信号样本和近端信号样本。

模型训练单元702，被配置为将参考信号样本和麦克风输入信号样本作为回声消除模型的输入，将近端信号样本作为回声消除模型的目标输出，训练回声消除模型；其中，回声消除模型基于深度学习模型实现，包括参数估计模块和滤波处理模块。

参数估计模块用以利用参考信号样本和麦克风输入信号样本，对滤波统计量进行估计得到滤波统计量估计值；

滤波处理模块用以利用参考信号样本和滤波统计量估计值，对麦克风输入信号样本进行滤波处理，输出对近端信号的预测结果。

作为其中一种可实现的方式，样本获取单元701可以具体被配置为：预先录制第一语音和第二语音，将第一语音作为参考信号样本，将第二语音作为近端信号样本，在目标环境下播放第一语音和第二语音时麦克风采集到的信号作为麦克风输入信号样本。

作为其中一种可实现的方式，滤波统计量估计值包括对近端语音谱密度的估计值，和/或，对自适应滤波模块所采用步长的估计值。

作为其中一种可实现的方式，滤波处理模块包括自适应滤波模块和后滤波模块；

自适应滤波模块利用参考信号样本和滤波统计量估计值，对麦克风输入信号样本进行第一滤波处理，第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种。

若第一滤波处理的结果包括误差信号，则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括：后滤波模块利用参考信号样本对误差信号进行第二滤波处理。

若第一滤波处理的结果包括对回声信号的预测结果，则后滤波模块利用第一滤波处理的结果进行第二滤波处理包括：后滤波模块利用对回声信号的预测结果对麦克风输入信号样本进行第二滤波处理。

其中，误差信号为：将麦克风输入信号样本过滤掉对回声信号的预测结果后得到的信号。

作为其中一种可实现的方式，参数估计模块采用门控循环单元。自适应滤波模块采用卡尔曼滤波模块或者递归最小二乘滤波模块。后滤波模块采用深度前馈序列记忆网络、长短时记忆网络和门控循环神经网络中的一种或任意组合。

作为其中一种可实现的方式，模型训练单元702在训练回声消除模型的过程中，在每一轮迭代中利用损失函数的取值，采用梯度下降的方式更新参数估计模块、自适应滤波模块和后滤波模块的模型参数，直至满足预设的训练结束条件。其中损失函数是依据训练目标预先构造的，训练目标为最小化对近端信号的预测结果与近端信号样本之间的差异。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下（例如，用户明确同意，对用户切实通知，等），在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图8示例性的展示出了电子设备的架构，具体可以包括处理器810，视频显示适配器811，磁盘驱动器812，输入/输出接口813，网络接口814，以及存储器820。上述处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820之间可以通过通信总线830进行通信连接。

其中，处理器810可以采用通用的CPU、微处理器、应用专用集成电路（ApplicationSpecific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器820可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器820可以存储用于控制电子设备800运行的操作系统821，用于控制电子设备800的低级别操作的基本输入输出系统(BIOS) 822。另外，还可以存储网页浏览器823，数据存储管理系统824，以及回声消除装置/模型训练装置825等等。上述回声消除装置/模型训练装置825就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器820中，并由处理器810来调用执行。

输入/输出接口813用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口814用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线830包括一通路，在设备的各个组件（例如处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，与存储器820）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器810、视频显示适配器811、磁盘驱动器812、输入/输出接口813、网络接口814，存储器820，总线830等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种训练回声消除模型的方法，其特征在于，所述方法包括：

所述参数估计模块利用所述参考信号样本和所述麦克风输入信号样本，对滤波统计量进行估计得到滤波统计量估计值，所述滤波统计量估计值包括对近端语音谱密度的估计值，和/或，对自适应滤波模块所采用步长的估计值；

所述滤波处理模块利用所述参考信号样本和所述滤波统计量估计值，对所述麦克风输入信号样本进行滤波处理，输出对近端信号的预测结果，所述滤波处理包括线性自适应滤波处理。

2.根据权利要求1所述的方法，其特征在于，所述获取多个训练样本包括：

3.根据权利要求1所述的方法，其特征在于，所述滤波处理模块包括自适应滤波模块和后滤波模块；

所述自适应滤波模块利用所述参考信号样本和所述滤波统计量估计值，对所述麦克风输入信号样本进行第一滤波处理，所述第一滤波处理为线性自适应滤波处理，第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种；

4.根据权利要求3所述的方法，其特征在于，若所述第一滤波处理的结果包括对回声信号的预测结果和误差信号，则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括：所述后滤波模块利用所述对回声信号的预测结果对所述误差信号进行第二滤波处理；或者，

5.根据权利要求3所述的方法，其特征在于，所述参数估计模块采用门控循环单元；

6.根据权利要求3所述的方法，其特征在于，训练所述回声消除模型包括：

7.一种回声消除方法，其特征在于，所述方法包括：

获取参考信号和麦克风输入信号；

所述参数估计模块利用参考信号和麦克风输入信号对滤波统计量进行估计，得到滤波统计量估计值，所述滤波统计量估计值包括对近端语音谱密度的估计值，和/或，对自适应滤波模块所采用步长的估计值；

所述滤波处理模块利用所述参考信号和所述滤波统计量估计值，对所述麦克风输入信号进行滤波处理，输出对近端信号的预测结果，所述滤波处理包括线性自适应滤波处理。

8.根据权利要求7所述的方法，其特征在于，所述滤波处理模块包括自适应滤波模块和后滤波模块；

所述自适应滤波模块利用所述参考信号和所述滤波统计量估计值，对所述麦克风输入信号进行第一滤波处理，所述第一滤波处理为线性自适应滤波处理，第一滤波处理的结果包括误差信号和对回声信号的预测结果中的至少一种；

9.根据权利要求8所述的方法，其特征在于，若所述第一滤波处理的结果包括对回声信号的预测结果和误差信号，则所述后滤波模块利用所述第一滤波处理的结果进行第二滤波处理包括：所述后滤波模块利用所述对回声信号的预测结果对所述误差信号进行第二滤波处理；或者，

10.根据权利要求8所述的方法，其特征在于，所述参数估计模块采用门控循环单元；

11.一种训练回声消除模型的装置，其特征在于，所述装置包括：

所述参数估计模块用以利用所述参考信号样本和所述麦克风输入信号样本，对滤波统计量进行估计得到滤波统计量估计值，所述滤波统计量估计值包括对近端语音谱密度的估计值，和/或，对自适应滤波模块所采用步长的估计值；

所述滤波处理模块用以利用所述参考信号样本和所述滤波统计量估计值，对所述麦克风输入信号样本进行滤波处理，输出对近端信号的预测结果，所述滤波处理包括线性自适应滤波处理。

12.一种回声消除装置，其特征在于，所述装置包括：

信号获取单元，被配置为获取参考信号和麦克风输入信号；

所述参数估计模块用以利用参考信号和麦克风输入信号对滤波统计量进行估计，得到滤波统计量估计值，所述滤波统计量估计值包括对近端语音谱密度的估计值，和/或，对自适应滤波模块所采用步长的估计值；

所述滤波处理模块用以利用所述参考信号和所述滤波统计量估计值，对所述麦克风输入信号进行滤波处理，输出对近端信号的预测结果，所述滤波处理包括线性自适应滤波处理。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至10中任一项所述的方法的步骤。