CN111370016B

CN111370016B - 一种回声消除方法及电子设备

Info

Publication number: CN111370016B
Application number: CN202010199795.9A
Authority: CN
Inventors: 吴俊�; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2023-11-10
Anticipated expiration: 2040-03-20
Also published as: CN111370016A

Abstract

本发明提供一种回声消除方法及电子设备，所述方法包括：采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号；将所述第一语音信号输入预先训练的神经网络模型，得到所述第一语音信号的比值膜；采用所述比值膜对所述第一语音信号进行处理，并基于所述比值膜调整所述AEC算法的参数，以基于调整参数后的AEC算法对下一时刻的待处理语音信号进行处理。本发明实施例能够提高回声消除的效果。

Description

一种回声消除方法及电子设备

技术领域

本发明涉及通信技术领域，尤其涉及一种回声消除方法及电子设备。

背景技术

在智能音箱及电话等语音交互系统中，当扬声器和麦克风耦合时，麦克风将拾取扬声器发出的信号及其混响，从而会在语音信号中掺杂回声，掺杂有回声的语音信号会降低语音信号接收方的用户体验，因此，需要对语音信号中的回声进行消除。

目前，主要采用AEC(Acoustic Echo Canceller，声学回声消除)算法进行回声消除，然而，AEC算法为线性算法，可以消除回声的线性部分，对于回声的非线性部分不能有效消除，因此，采用AEC算法消除回声的效果较差。

发明内容

本发明实施例提供一种回声消除方法及电子设备，以解决现有技术中AEC算法对于回声的非线性部分不能有效消除，采用AEC算法消除回声的效果较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种回声消除方法，所述方法包括：

采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号；

将所述第一语音信号输入预先训练的神经网络模型，得到所述第一语音信号的比值膜；

采用所述比值膜对所述第一语音信号进行处理，并基于所述比值膜调整所述AEC算法的参数，以基于调整参数后的AEC算法对下一时刻的待处理语音信号进行处理。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

处理模块，用于采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号；

输入模块，用于将所述第一语音信号输入预先训练的神经网络模型，得到所述第一语音信号的比值膜；

调整模块，用于采用所述比值膜对所述第一语音信号进行处理，并基于所述比值膜调整所述AEC算法的参数，以基于调整参数后的AEC算法对下一时刻的待处理语音信号进行处理。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的回声消除方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的回声消除方法的步骤。

本发明实施例中，采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号；将所述第一语音信号输入预先训练的神经网络模型，得到所述第一语音信号的比值膜；采用所述比值膜对所述第一语音信号进行处理，并基于所述比值膜调整所述AEC算法的参数，以基于调整参数后的AEC算法对下一时刻的待处理语音信号进行处理。这样，通过预先训练的神经网络模型对回声信号的非线性部分进行处理，可以提高回声消除的效果，并且，通过比值膜调整AEC算法的参数，将比值膜作为AEC算法的反馈因子，可以加快AEC算法的收敛速度，提高回声消除的效率，并可以进一步提高回声消除的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种回声消除方法的流程图之一；

图2是本发明实施例提供的一种电子设备的结构示意图之一；

图3是本发明实施例提供的一种回声消除方法的流程图之二；

图4是本发明实施例提供的一种电子设备的结构示意图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、、智能家居设备以及计步器等。例如，电子设备可以为智能音箱或智能电视。

参见图1，图1是本发明实施例提供的一种回声消除方法的流程图，如图1所示，包括以下步骤：

步骤101、采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号。

其中，所述待处理语音信号中可以包括回声信号。所述AEC算法可以包括自适应滤波算法，或者还可以包括其他可以进行声学回声消除的算法。所述待处理信号可以为麦克风信号，麦克风信号可以是进行回声消除时所接收到的声音信号，麦克风信号可以是麦克风等录音设备采集的声音信号。麦克风信号可以包括近端语音信号和回声信号。

例如，在电话会议时，麦克风等录音设备采集的麦克风信号包括录音设备所在室内的近端语音信号，还包括从远端传输过来的远端参考信号经扬声器播放导致的回声信号。为提高远端用户的听觉体验，需要消除麦克风信号中的回声信号，保留近端语音信号。

另外，可以提取待处理语音信号的声学特征，待处理语音信号的声学特征可以用于表征待处理语音信号的数据特征，可以对待处理语音信号采用短时傅里叶变换提取声学特征，也可以对待处理语音信号采用小波变换提取声学特征，还可以采用其他形式从待处理语音信号中提取声学特征。所述采用AEC算法对当前时刻的待处理语音信号进行处理，可以是，采用AEC算法对当前时刻的待处理语音信号的声学特征进行处理。

需要说明的是，所述待处理语音信号中的回声信号可以包括第一回声信号和第二回声信号，采用AEC算法对当前时刻的待处理语音信号进行处理后，可以消除待处理语音信号中的第二回声信号，所述第二回声信号可以为估计回声信号，可以是回声信号的线性部分。消除待处理语音信号中的第二回声信号后，得到的第一语音信号中可能还包括第一回声信号，所述第一回声信号可以为第一语音信号中估计的残留回声信号。

步骤102、将所述第一语音信号输入预先训练的神经网络模型，得到所述第一语音信号的比值膜。

其中，所述神经网络模型可以为具有长短期记忆(LSTM)的递归神经网络模型(RNN)。所述比值膜用于表征第一语音信号与近端语音信号之间的关系，用于抑制第一语音信号中的第一回声信号以及保留第一语音信号中的近端语音信号。在理想情况下，通过比值膜对第一语音信号进行处理后，可以消除第一语音信号中的第一回声信号，还原出近端语音信号。

另外，可以提取第一语音信号的声学特征，第一语音信号的声学特征可以用于表征第一语音信号的数据特征，可以对第一语音信号采用短时傅里叶变换提取声学特征，也可以对第一语音信号采用小波变换提取声学特征，还可以采用其他形式从第一语音信号中提取声学特征。所述将所述第一语音信号输入预先训练的神经网络模型，可以是，将所述第一语音信号的声学特征输入预先训练的神经网络模型。

进一步的，具有LSTM的RNN在训练过程中可以建立语音训练集，可以随机选择语音语料库中的语音，第一语音信号可以由选择的语音作为近端语音信号和第一回声信号混合形成，作为训练样本进行训练，例如，可以选择TIMIT数据集中的语音，TIMIT数据集为声学-音素连续语音语料库数据集，包括大量的语音样本。在采用语音训练集进行训练时，可以使用理想比值膜作为训练目标，对具有LSTM的RNN进行训练。理想比值膜可以基于样本中的近端语音信号和第一语音信号确定，例如，理想比值膜可以是样本中的近端语音信号与第一语音信号的比值。

步骤103、采用所述比值膜对所述第一语音信号进行处理，并基于所述比值膜调整所述AEC算法的参数，以基于调整参数后的AEC算法对下一时刻的待处理语音信号进行处理。

其中，可以采用所述比值膜对所述第一语音信号进行掩蔽处理，以消除所述第一语音信号中的第一回声信号。可以将所述第一语音信号与比值膜相乘，得到近端语音信号，从而完成对当前时刻的待处理语音信号的回声消除。在所述AEC算法为自适应滤波算法的情况下，可以基于所述比值膜调整自适应滤波算法的步长因子。

可选的，所述采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号，包括：

获取所述远端参考信号；

采用自适应滤波算法对所述远端参考信号进行滤波处理，得到第二语音信号；

计算所述待处理语音信号与所述第二语音信号的差值，得到所述第一语音信号；

其中，所述待处理语音信号包括第一回声信号和第二回声信号，所述自适应滤波算法的步长因子基于所述第一回声信号和所述第二回声信号确定，所述第一回声信号基于所述第一语音信号与所述比值膜确定，所述第二回声信号基于所述待处理语音信号与所述第一语音信号确定。

其中，自适应滤波算法的滤波系数w可以为：w(n)＝[w₀(n),…,w_K-1(n)]，K为滤波器长度，可以采用滤波系数对远端参考信号r进行滤波处理，得到的第二语音信号g为：g(n)＝w^T(n)*r(n)。第一语音信号为待处理语音信号x与所述第二语音信号g的差值，第一语音信号y为：y(n)＝x(n)-g(n)。

另外，自适应滤波算法可以采用块更新算法，累积多个采样点后更新一次滤波系数，例如，可以一帧语音信号更新一次滤波系数，若一帧语音信号包括K个采样点，则块更新算法中滤波系数按如下更新：

其中，k为块更新的索引,u为自适应滤波算法的步长因子，y(kK+i)为：w^T(n)*r(kK+i)。

进一步的，第一回声信号可以为：A*(1–f(z))*y(k)+B，第二回声信号可以为：C*(x(k)–y(k))+D，其中，k表示所述自适应滤波算法步长更新的索引，z表示所述比值膜，f(z)表示所述比值膜的加权函数，y(k)表示所述第一语音信号，x(k)表示所述待处理语音信号，A，B，C，D可以为预设值。

该实施方式中，获取远端参考信号；采用自适应滤波算法对所述远端参考信号进行滤波处理，得到第二语音信号；计算所述待处理语音信号与所述第二语音信号的差值，得到所述第一语音信号；其中，所述待处理语音信号包括第一回声信号和第二回声信号，所述自适应滤波算法的步长因子基于所述第一回声信号和所述第二回声信号确定，所述第一回声信号基于所述第一语音信号与所述比值膜确定，所述第二回声信号基于所述待处理语音信号与所述第一语音信号确定。这样，可以根据AEC算法以及神经网络模型的输出共同对自适应滤波算法的步长因子进行调整，能够加快AEC算法的收敛速度，进一步提高回声消除的效果。

可选的，所述自适应滤波算法的步长因子与所述第一回声信号呈正相关；和/或

所述自适应滤波算法的步长因子与所述第二回声信号呈负相关。

其中，自适应滤波算法的步长因子可以与第一回声信号呈正比例关系，自适应滤波算法的步长因子可以与第二回声信号呈负比例关系。

另外，所述神经网络模型的输入可以包括所述第一语音信号；或者，所述神经网络模型的输入可以包括所述第一语音信号和所述远端参考信号；或者，所述神经网络模型的输入可以包括所述第一语音信号和所述第二回声信号；或者，所述神经网络模型的输入可以包括所述第一语音信号、所述远端参考信号及所述第二回声信号。在将信号输入所述神经网络模型之前，可以对输入的信号进行声学特征提取，可以将输入信号的声学特征输入所述神经网络模型，例如，所述神经网络模型的输入可以包括所述第一语音信号的声学特征、所述远端参考信号的声学特征及所述第二回声信号的声学特征。

在实际应用中，如图2所示，可以采用AEC算法对待处理语音信号x和远端参考信号r进行处理，得到第一语音信号y。可以将所述第一语音信号y、远端参考信号r及第二回声信号e作为神经网络模型的输入，神经网络模型输出得到比值膜z，可以基于所述第一语音信号y、所述比值膜z及所述待处理语音信号x对自适应滤波算法的步长因子u进行调整，步长因子u可以作为反馈因子对AEC算法的参数进行自适应调整，加快自适应AEC算法的收敛速度。

该实施方式中，所述自适应滤波算法的步长因子与第一回声信号呈正相关，和/或所述自适应滤波算法的步长因子与第二回声信号呈负相关，第一回声信号越大，第二回声信号越小时，自适应滤波算法的步长因子越大，自适应滤波算法的更新速度越快，从而自适应滤波算法的收敛速度越快，能够进一步提高回声消除的效果。

可选的，所述第一回声信号为：(1–f(z))*y(k)，所述第二回声信号为：x(k)–y(k)，其中，k表示所述自适应滤波算法步长更新的索引，z表示所述比值膜，f(z)表示所述比值膜的加权函数，y(k)表示所述第一语音信号，x(k)表示所述待处理语音信号。

作为一种可选的实施方式，自适应滤波算法的步长因子u可以为：

a*(1–f(z))*y(k)/(x(k)–y(k))

其中，a为系数，a大于0，可选的，a的值可以为1。

在实际应用中，计算自适应滤波算法的步长因子为向量之间的运算，可以采用MATLAB软件进行计算，在MATLAB软件中，自适应滤波算法的步长因子u可以为：

a*(1–f(z))*y(k)./(x(k)–y(k))

其中，“./”为向量对应点相除，以a的值为1为例，若(1–f(z))*y(k)为向量(4，8，9)，(x(k)–y(k))为向量(2，4，3)，则得到u为向量(2，2，3)。

该实施方式中，所述第一回声信号为：(1–f(z))*y(k)，所述第二回声信号为：x(k)–y(k)，通过第一回声信号或第二回声信号对自适应滤波算法的步长因子进行调整，可以加快自适应滤波算法的收敛速度。

可选的，所述f(z)为：其中，n为z的向量维数，w为加权系数。

其中，可以采用块更新算法对滤波系数进行更新，可以一帧语音信号更新一次滤波系数或者可以多帧语音信号更新一次滤波系数。以一帧语音信号更新一次滤波系数为例，为整体估计一帧内的回声掩蔽的程度，f(z)可以为：

f(z)＝z(0)w(0)+…+z(n-1)w(n-1)

其中，n为每帧的频点个数。w的值可以预先设置，作为一种可选的实施方式，w可以为：

该实施方式中，通过对比值膜进行加权得到f(z)，能够根据每帧的各个频点整体对自适应滤波算法的步长因子进行调节，使得自适应更新的速度较快，从而进行回声消除的效果较好。

参见图3，图3是本发明实施例提供的一种电子设备的结构示意图，如图3所示，所述电子设备200包括：

处理模块201，用于采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号；

输入模块202，用于将所述第一语音信号输入预先训练的神经网络模型，得到所述第一语音信号的比值膜；

调整模块203，用于采用所述比值膜对所述第一语音信号进行处理，并基于所述比值膜调整所述AEC算法的参数，以基于调整参数后的AEC算法对下一时刻的待处理语音信号进行处理。

可选的，所述处理模块具体用于：

获取远端参考信号；

可选的，所述f(z)为：其中，n为z的向量维数，w为加权系数。

电子设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图4，图4是本发明实施例提供的另一种电子设备的结构示意图，如图4所示，电子设备300包括：存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序，其中：

所述处理器301读取存储器302中的程序，用于执行：

可选的，所述处理器301用于执行的所述采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号，包括：

获取远端参考信号；

可选的，所述f(z)为：其中，n为z的向量维数，w为加权系数。

在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

需要说明的是，本发明实施例中图1所示的方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述回声消除方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种回声消除方法，其特征在于，所述方法包括：

采用所述比值膜对所述第一语音信号进行处理，并基于所述比值膜调整所述AEC算法的参数，以基于调整参数后的AEC算法对下一时刻的待处理语音信号进行处理；

所述采用AEC算法对当前时刻的待处理语音信号进行处理，得到第一语音信号，包括：

获取远端参考信号；

2.根据权利要求1所述的方法，其特征在于，所述自适应滤波算法的步长因子与所述第一回声信号呈正相关；和/或

3.根据权利要求2所述的方法，其特征在于，所述第一回声信号为：(1–f(z))*y(k)，所述第二回声信号为：x(k)–y(k)，其中，k表示所述自适应滤波算法步长更新的索引，z表示所述比值膜，f(z)表示所述比值膜的加权函数，y(k)表示所述第一语音信号，x(k)表示所述待处理语音信号。

4.根据权利要求3所述的方法，其特征在于，所述f(z)为：其中，n为z的向量维数，w为加权系数。

5.一种电子设备，其特征在于，所述电子设备包括：

调整模块，用于采用所述比值膜对所述第一语音信号进行处理，并基于所述比值膜调整所述AEC算法的参数，以基于调整参数后的AEC算法对下一时刻的待处理语音信号进行处理；

所述处理模块具体用于：

获取远端参考信号；

6.根据权利要求5所述的电子设备，其特征在于，所述自适应滤波算法的步长因子与所述第一回声信号呈正相关；和/或

7.根据权利要求6所述的电子设备，其特征在于，所述第一回声信号为：(1–f(z))*y(k)，所述第二回声信号为：x(k)–y(k)，其中，k表示所述自适应滤波算法步长更新的索引，z表示所述比值膜，f(z)表示所述比值膜的加权函数，y(k)表示所述第一语音信号，x(k)表示所述待处理语音信号。

8.根据权利要求7所述的电子设备，其特征在于，所述f(z)为：其中，n为z的向量维数，w为加权系数。

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的回声消除方法的步骤。