CN114173259A

CN114173259A - 回声消除方法及系统

Info

Publication number: CN114173259A
Application number: CN202111625010.0A
Authority: CN
Inventors: 陶勇
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-03-11
Anticipated expiration: 2041-12-28
Also published as: CN114173259B

Abstract

本发明实施例提供一种回声消除方法。该方法包括：利用预训练的深度学习滤波模型，对设备播放音频时的场景采集的信号进行特征提取，得到预先估计的回声路径；对设备采集的麦克风信号以及远端信号进行特征提取，确定麦克风信号声学特征以及远端信号声学特征；利用预先估计的回声路径以及远端信号声学特征，估计当前远端信号在麦克风信号中的回路分量；利用回路分量对麦克风信号声学特征进行回声消除。本发明实施例还提供一种回声消除系统。本发明实施例在回声消除开始时就能以最佳状态去消除回声。在回声消除的过程中不重新估计回声路径，回声路径保持稳定，从整体上提升回声消除的效果。

Description

回声消除方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种回声消除方法及系统。

背景技术

智能设备为了与用户交互，会采集用户说的语音，进行语音识别，得到对应的识别结果后进行反馈。然而，扬声器播放的声音会经过反射或其他情况被麦克风采集到，产生回声，进而影响语音识别的效果。

回声消除算法的目标是去除麦克风采集的信号中的回声分量。传统方法是基于自适应滤波估计回声路径，进而根据回声路径估计远端(参考)信号的回声分量，然后在麦克风接收信号中减去此估计值以抵消回波，其中准确估计回声路径非常重要，准确估计的回声路径可以有效的去除麦克风音频中的回声。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

自适应滤波估计回声路径需要一个学习调整的过程，在成功估计出回声路径之前算法无法进行回声消除的工作，使得麦克风采集音频中开头部分的回声消除效果并不理想；自适应滤波估计回声路径的求解公式是基于仅有远端(参考)信号的假设，当近端有人声时，假设就不成立了，此时估计的回声路径不准确，使得在麦克风近端有人声时回声消除效果并不理想；自适应滤波是线性系统，设备的扬声器存在严重非线性失真时回声消除效果不理想；当背景噪声为非平稳噪声时回声消除效果不理想。

发明内容

为了至少解决现有技术中开头部分消除不理想、近端有人声时消除效果不理想、播放设备存在严重非线性失真时消除效果不理想、当背景噪声为非平稳噪声时消除效果不理想的问题。第一方面，本发明实施例提供一种回声消除方法，包括：

利用预训练的深度学习滤波模型，对设备播放音频时的场景采集的信号进行特征提取，得到预先估计的回声路径；

对设备采集的麦克风信号以及远端信号进行特征提取，确定麦克风信号声学特征以及远端信号声学特征；

利用所述预先估计的回声路径以及所述远端信号声学特征，估计当前远端信号在麦克风信号中的回路分量，以节省估计所述回路分量的时间；

利用所述回路分量对所述麦克风信号声学特征进行回声消除。

第二方面，本发明实施例提供一种回声消除系统，包括：

回声路径预估计程序模块，用于利用预训练的深度学习滤波模型，对设备播放音频时的场景采集的信号进行特征提取，得到预先估计的回声路径；

声学特征确定程序模块，用于对设备采集的麦克风信号以及远端信号进行特征提取，确定麦克风信号声学特征以及远端信号声学特征；

回路分量确定程序模块，用于利用所述预先估计的回声路径以及所述远端信号声学特征，估计当前远端信号在麦克风信号中的回路分量，以节省估计所述回路分量的时间；

回声消除程序模块，用于利用所述回路分量对所述麦克风信号声学特征进行回声消除。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的回声消除方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的回声消除方法的步骤。

本发明实施例的有益效果在于：由于回声路径是预先估计好的，节省了估计回声路径的时间，在回声消除开始时就能以最佳状态去消除回声。在回声消除的过程中不重新估计回声路径，回声路径保持稳定，且训练数据中包含双讲情形，因此可以有效应对双讲场景下的滤波器发散问题。深度学习是非线性建模，且训练数据中添加了非线性失真数据，使得估计出的回声路径可以有效解决播放设备带来的非线性失真问题和背景噪声，从整体上提升回声消除的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种回声消除方法的流程图；

图2是本发明一实施例提供的一种回声消除方法的基于深度学习预先估计的回声路径进行回声消除流程图；

图3是本发明一实施例提供的一种回声消除方法的基于深度学习估计回声路径流程图；

图4是本发明一实施例提供的一种回声消除系统的结构示意图；

图5为本发明一实施例提供的一种回声消除的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种回声消除方法的流程图，包括如下步骤：

S11：利用预训练的深度学习滤波模型，对设备播放音频时的场景采集的信号进行特征提取，得到预先估计的回声路径；

S12：对设备采集的麦克风信号以及远端信号进行特征提取，确定麦克风信号声学特征以及远端信号声学特征；

S13：利用所述预先估计的回声路径以及所述远端信号声学特征，估计当前远端信号在麦克风信号中的回路分量，以节省估计所述回路分量的时间；

S14：利用所述回路分量对所述麦克风信号声学特征进行回声消除。

在本实施方式中，用户会在各种场景中与智能设备进行对话。例如，家庭场景中，智能设备是智能电视，摆放在屋子的一侧，与用户坐的位置距离2至6米。在这种场景下，智能电视的扬声器播放的声音会经过墙壁、屋顶等经过多次反射，再次进入智能电视的麦克风中产生回声。或者车辆的小环境场景中，智能车机扬声器播放的声音会被智能车机的麦克风直接采集产生回声。以设备为智能电视为例，在唤醒后，会向用户播放语音提示，来提示用户如何操作。

对于步骤S11，智能电视向用户播放语音提示时，此时对向用户播放语音提示进行信号采集，提取此时信号的语音特征，将提取的语音特征输入至预先训练好的深度学习滤波模型中，预先得到估计的回声路径。而不必等待用户输入语音时，再去预估回声路径。

对于步骤S12，在智能电视向用户播放语音提示之后，用户后续会输入语音指令，此时利用智能电视的麦克风采集到的麦克风信号以及远端信号进行语音特征提取，其中，远端参考信号的采集。包括两种方法：一种是通过软件直接采集智能电视扬声器播放的音频数据，作为参考音频。另外一种是把播放的声音数据通过麦克风采集到的音频进来做比对，从而得到麦克风信号声学特征以及远端信号声学特征；

对于步骤S13，利用深度学习滤波模型预先轨迹的回声路径和步骤S12中确定的远端信号声学特征，估计出当前远端信号在麦克风信号中的回路分量，相较于现有技术的自适应滤波节省了估计回声路径的时间，以节省估计所述回路分量的时间，在采集到用户的语音的一开始就能以最佳状态去消除回声。

对于步骤S14，利用估计当前远端信号在麦克风信号中的回路分量对麦克风信号声学特征进行回声消除，上述具体的流程如图2所示。

作为一种实施方式，所述利用预训练的深度学习滤波模型，对设备播放音频时的场景采集的信号进行特征提取，得到预先估计的回声路径包括：

对设备播放音频时的场景采集的麦克风信号以及远端信号进行特征提取，确定麦克风信号声学特征以及远端信号声学特征；

将所述麦克风信号声学特征以及所述远端信号声学特征输入至预训练的深度学习滤波模型，得到估计的回声路径。

在本实施方式中，如图3所示，只有在智能设备(智能电视)播放音频的场景时，例如上述举例的智能电视向用户播放语音提示，此时采集该场景下采集两种信号，一是麦克风信号，二是远端(参考)信号。从采集到的信号中麦克风信号和远端(参考)信号分别提取对应信号的声学特征。上述步骤已经描述声学特征提取的方式，在此不再赘述。将所述麦克风信号声学特征以及所述远端信号声学特征输入至预训练的深度学习滤波模型，得到估计的回声路径。

其中，所述深度学习滤波模型由仿真数据预训练，其中，所述仿真数据包括：信回比、信噪比、非线性失真、单双讲数据。

例如，预先准备仿真语音数据，以及该仿真语音数据的基准回声路径，至少从所述仿真语音数据的信回比、信噪比、非线性失真维度进行预估，得到预估回声路径。通过所述基准回声路径与所述预估回声路径的误差对所述深度学习滤波模型进行反向训练，从而得到预训练完毕的深度学习滤波模型。同样的，还可以基于单双讲的维度进行预估，其中，单讲数据指的是(只有远端信号，没有近端信号)，双讲数据指的是(近端和远端同时有信号)，从而解决所述深度学习滤波模型预训练的滤波发散的问题。

通过该实施方式可以看出，由于回声路径是预先估计好的，节省了估计回声路径的时间，在回声消除开始时就能以最佳状态去消除回声。在回声消除的过程中不重新估计回声路径，回声路径保持稳定，且训练数据中包含双讲情形，因此可以有效应对双讲场景下的滤波器发散问题。深度学习是非线性建模，且训练数据中添加了非线性失真数据，使得估计出的回声路径可以有效解决播放设备带来的非线性失真问题和背景噪声，从整体上提升回声消除的效果。

如图4所示为本发明一实施例提供的一种回声消除系统的结构示意图，该系统可执行上述任意实施例所述的回声消除方法，并配置在终端中。

本实施例提供的一种回声消除系统10包括：回声路径预估计程序模块11，声学特征确定程序模块12，回路分量确定程序模块13和回声消除程序模块14。

其中，回声路径预估计程序模块11用于利用预训练的深度学习滤波模型，对设备播放音频时的场景采集的信号进行特征提取，得到预先估计的回声路径；声学特征确定程序模块12用于对设备采集的麦克风信号以及远端信号进行特征提取，确定麦克风信号声学特征以及远端信号声学特征；回路分量确定程序模块13用于利用所述预先估计的回声路径以及所述远端信号声学特征，估计当前远端信号在麦克风信号中的回路分量，以节省估计所述回路分量的时间；回声消除程序模块14用于利用所述回路分量对所述麦克风信号声学特征进行回声消除。

进一步地，所述回声路径预估计程序模块用于：

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的回声消除方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的回声消除方法。

图5是本申请另一实施例提供的回声消除方法的电子设备的硬件结构示意图，如图5所示，该设备包括：

一个或多个处理器510以及存储器520，图5中以一个处理器510为例。回声消除方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的回声消除方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例回声消除方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息。输出装置540可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的回声消除方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的回声消除方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种回声消除方法，包括：

对设备播放音频后的场景采集的麦克风信号以及远端信号进行特征提取，确定麦克风信号声学特征以及远端信号声学特征；

2.根据权利要求1所述的方法，其中，所述利用预训练的深度学习滤波模型，对设备播放音频时的场景采集的信号进行特征提取，得到预先估计的回声路径包括：

3.根据权利要求1所述的方法，其中，所述深度学习滤波模型由仿真数据预训练，其中，所述仿真数据包括：信回比、信噪比、非线性失真。

4.根据权利要求3所述的方法，其中，所述仿真数据还包括：单双讲数据，用于处理所述深度学习滤波模型预训练的滤波发散。

5.一种回声消除系统，包括：

声学特征确定程序模块，用于对设备播放音频后的场景采集的麦克风信号以及远端信号进行特征提取，确定麦克风信号声学特征以及远端信号声学特征；

6.根据权利要求5所述的系统，其中，所述回声路径预估计程序模块用于：

7.根据权利要求5所述的系统，其中，所述深度学习滤波模型由仿真数据预训练，其中，所述仿真数据包括：信回比、信噪比、非线性失真。

8.根据权利要求7所述的系统，其中，所述仿真数据还包括：单双讲数据，用于处理所述深度学习滤波模型预训练的滤波发散。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。