CN113436638B

CN113436638B - 回声处理方法、装置、设备和存储介质

Info

Publication number: CN113436638B
Application number: CN202110695133.5A
Authority: CN
Inventors: 马金龙; 马凯池; 李庆龙; 关海欣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-01-24
Anticipated expiration: 2041-06-22
Also published as: CN113436638A

Abstract

本发明涉及一种回声处理方法、装置、设备和存储介质，方法包括根据获取的远端信号和初始的近端信号之间的延时信息，对齐所述远端信号和所述初始的近端信号，得到对齐后的信号；将所述对齐后的信号输入频域分块自适应滤波器，对所述初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号；将所述消除线性回声后的近端信号和所述远端信号输入预先训练的残余回声处理模型，对所述消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号，本发明的技术方案能够在背景噪声、双讲和非现性失真等情况下实现回声消除，大大提高回声消除的效果和适用场景。

Description

回声处理方法、装置、设备和存储介质

技术领域

本发明涉及回声消除技术领域，具体涉及一种回声处理方法、装置、设备和存储介质。

背景技术

智能语音设备在播放音频时，麦克风采集进来的信号既包含了目标说话人的信号(近端信号)，也包含了扬声器播放出的音频信号(远端回声)，这种情况下语音识别模块几乎无法工作。通常需要引入回声消除的方法把回声消除干净，同时保护近端的语音信号不受损失。

现有技术中，通常采用基于信号处理的自适应滤波器首先去除拾取信号中的线性回声部分，而后然后通过一个后置滤波器来抑制背景噪声和回声消除后残留的回声，对残留的回声进一步抑制。

但是，自适应滤波器只能模拟回声中的线性成分，对于非线性成分无法实现准确的建模及跟踪，而且基于残余回声估计的后滤波，需要准确的残余回声估计方法，否则会有回声残余或者期望语音损伤的问题出现。因此，现有技术的回声处理方法回声消除效果较差。

发明内容

本发明提供一种回声处理方法、装置、设备和存储介质，以解决现有技术的回声处理方法回声消除效果较差的技术问题。

本发明解决上述技术问题的技术方案如下：

一种回声处理方法，包括：

根据获取的远端信号和初始的近端信号之间的延时信息，对齐所述远端信号和所述初始的近端信号，得到对齐后的信号；

将所述对齐后的信号输入频域分块自适应滤波器，对所述初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号；

将所述消除线性回声后的近端信号和所述远端信号输入预先训练的残余回声处理模型，对所述消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号；

其中，残余回声处理模型基于消除线性回声的样本近端信号和样本远端信号进行训练的。

进一步地，上述所述的回声处理方法中，对所述初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号，包括：

基于线性回声消除算法，对所述初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号；

所述线性回声消除算法对应的计算式为：

其中，E(k)为消除线性回声后的近端信号，D(k)为初始的近端信号，X_m(k)为第m个远端信号，M为滤波器组数量，

为对应块的频域分块自适应滤波器的权向量，μ为频域上的步长因子向量，为Λ对应远端信号的功率谱密度矩阵，k为频带标识，N为频带数，

为第i个频带对应的远端信号的功率谱密度矩阵。

进一步地，上述所述的回声处理方法中，第i个频带对应的远端信号的功率谱密度通过递归公式得到；

所述递归公式为：

Φ_xx,i(k)＝λΦ_xx,i(k-1)+(1-λ)|X_0,i(k)|²

其中，λ为迭代因子，0＜λ＜1，i为频点数。

进一步地，上述所述的回声处理方法中，将所述消除线性回声后的近端信号和所述远端信号输入预先训练的残余回声处理模型，对所述消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号，包括：

将所述消除线性回声后的近端信号和所述远端信号进行离散余弦变换，得到与所述消除线性回声后的近端信号对应的近端离散余弦变换谱和与所述远端信号对应的远端离散余弦变换谱；

将所述近端离散余弦变换谱和所述远端离散余弦变换谱拼接成双通道张量；

将所述双通道张量输入所述残余回声处理模型的编码层，得到与所述双通道张量对应的初始的抽象特征；

将所述初始的抽象特征输入所述残余回声处理模型的长短时记忆层进行特征筛选，得到筛选后的抽象特征；

将与所述筛选后的抽象特征输入所述残余回声处理模型的解码层，得到所述抽象特征的时频掩码；

将所述时频掩码与所述消除线性回声后的近端信号相乘，得到所述消除残余回声的近端信号。

进一步地，上述所述的回声处理方法中，所述编码层和所述解码层的数目均为多个，所述编码层和所述解码层的数目相同，且一一对应；

每个编码层与对应的解码层之间采用跳跃机制连接。

进一步地，上述所述的回声处理方法中，所述残余回声处理模型的训练过程包括：

根据获取的样本远端信号和样本近端信号之间的延时信息，对齐所述样本远端信号和所述样本近端信号，得到对齐后的样本信号；

将所述对齐后的样本信号输入频域分块自适应滤波器，对所述样本近端信号进行线性回声消除，得到消除线性回声的样本近端信号；

将所述消除线性回声的样本近端信号和所述样本远端信号输入预先训练的残余回声处理模型进行迭代训练，直到满足收敛条件时，停止训练，得到所述残余回声处理模型。

本发明还提供一种回声处理装置，包括：

对齐模块，用于根据获取的远端信号和初始的近端信号之间的延时信息，对齐所述远端信号和所述初始的近端信号，得到对齐后的信号；

线性回声消除模块，用于将所述得到对齐后的信号输入频域分块自适应滤波器，对所述初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号；

残余回声消除模块，用于将所述消除线性回声后的近端信号和所述远端信号输入预先训练的残余回声处理模型，对所述消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号。

进一步地，上述所述的回声处理装置中，所述残余回声消除模块，具体用于：

将所述初始的抽象特征输入所述残余回声处理模型的长短时记忆层进行特征筛选，得到所述筛选后的抽象特征；

本发明还提供一种回声处理设备，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的回声处理方法的程序，以实现上述任一项所述的回声处理方法。

本发明还提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述任一项所述的回声处理方法。

本发明的有益效果是：

通过对齐远端信号和初始的近端信号，得到对齐后的对齐后的信号后，将对齐后的信号输入频域分块自适应滤波器，对初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号，并将消除线性回声后的近端信号和远端信号输入预先训练的残余回声处理模型，对消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号。由于残余回声处理模型基于消除线性回声的样本近端信号和样本远端信号进行训练的，使得频域分块自适应滤波器在对样本近端信号进行线性消除时，为残余回声处理模型提供了可学习的先验知识和指导信息，使得模型具备很好的双讲、回声路径变化的区分能力，降低出现由于数据过拟合，而导致的期望语音出现损伤或者处理完全失效的概率，并能够在背景噪声、双讲和非现性失真等情况下实现回声消除，大大提高回声消除的效果和适用场景。

附图说明

图1为本发明的回声处理方法实施例的流程图；

图2为本发明的回声处理装置实施例的结构示意图；

图3为本发明的回声处理设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明的回声处理方法实施例的流程图，如图1所示，本实施例的回声处理方法具体可以包括如下步骤：

100、根据获取的远端信号和初始的近端信号之间的延时信息，对齐远端信号和初始的近端信号，得到对齐后的信号；

在一个具体实现过程中，可以采用任一可以实现估计得到远端信号与近端信号之间的延时信息的方式，获得远端信号和近端信号之间的延时信息。

具体地，远端信号和近端信号之间的延时信息的估计公式如下：

其中，τ为远端信号和近端信号之间的延时信息，D(k)为初始的近端信号，X(k)为远端信号，k为频带标识，^*为复共轭算子，iff表示短时傅里叶逆变换。

在一个具体实现过程中，可以持续使用包含当前帧的预设时间段以内的历史数据来确定真实的延时信息τ，并结合众数逻辑，对齐远端信号和初始的近端信号，得到对齐后的信号，以避免出现频繁的延时抖动。其中，对齐后的信号包括对齐后的远端信号和对齐后的近端信号。

101、将对齐后的信号输入频域分块自适应滤波器，对初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号；

在一个具体实现过程中，为降低系统的处理时延和计算复杂度，可以采用基于重叠加(Overlap-add,OLA)方法的无约束频域分块自适应滤波器(partitioned blockfrequency-domain adaptive filter,PBFDAF)，使所有的计算都在短时傅里叶变换(Short-Time Fourier Transform，STFT)域进行。因此，在得到对齐后的信号后，可以将对齐后的信号输入频域分块自适应滤波器，并基于线性回声消除算法，对初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号。

具体地，该线性回声消除算法对应的计算式为：

为第i个频带对应的远端信号的功率谱密度矩阵。

在一个具体实现过程中，第i个频带对应的远端信号的功率谱密度通过递归公式得到；其中，该递归公式为：

Φ_xx,i(k)＝λΦ_xx,i(k-1)+(1-λ)|X_0,i(k)|²

其中，λ为迭代因子，0＜λ＜1，i为频点数。

102、将消除线性回声后的近端信号和远端信号输入预先训练的残余回声处理模型，对消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号。

具体地，该步骤可以按照如下方式实现：

(1)、将消除线性回声后的近端信号和远端信号进行离散余弦变换，得到与消除线性回声后的近端信号对应的近端离散余弦变换谱和与远端信号对应的远端离散余弦变换谱；

(2)、将近端离散余弦变换谱和远端离散余弦变换谱拼接成双通道张量；

(3)、将双通道张量输入残余回声处理模型的编码层，得到与双通道张量对应的初始的抽象特征；

(4)、将初始的抽象特征输入残余回声处理模型的长短时记忆层进行特征筛选，得到筛选后的抽象特征；

在一个具体实现过程中，在利用长短时记忆层获取筛选后的抽象特征时，加入了通道注意机制，从而自适应的调整各通道的特征响应值，以便极大地提升网络性能。

在一个具体实现过程中，长短时记忆层的数目为多个，第一个长短时记忆层的输入为编码层的输出，之后每个长短时记忆层的输入为上一个长短时记忆层的输出，以基于该紧密连接机制得到筛选后的抽象特征。

(5)、将筛选后的抽象特征输入残余回声处理模型的解码层，得到抽象特征的时频掩码；

需要说明的是，编码层和解码层的数目均为多个，编码层和解码层的数目相同，且一一对应；每个编码层与对应的解码层之间采用跳跃机制连接，以规避梯度消失的潜在风险。

(6)、将时频掩码与消除线性回声后的近端信号相乘，得到消除残余回声的近端信号。

在一个具体实现过程中，通过离散余弦变换特征、通道注意机制和紧密连接机制也为整个系统带来了计算复杂度、算法性能等方面的正向收益。

在一个具体实现过程中，残余回声处理模型的训练过程包括如下步骤：

(11)、根据获取的样本远端信号和样本近端信号之间的延时信息，对齐样本远端信号和样本近端信号，得到对齐后的样本信号；

(12)将对齐后的样本信号输入频域分块自适应滤波器，对样本近端信号进行线性回声消除，得到消除线性回声的样本近端信号；

(13)将消除线性回声的样本近端信号和样本远端信号输入预先训练的残余回声处理模型进行迭代训练，直到满足收敛条件时，停止训练，得到残余回声处理模型。

本实施例的回声处理方法，远端信号和初始的近端信号，得到对齐后的对齐后的信号后，将对齐后的信号输入频域分块自适应滤波器，对初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号，并将消除线性回声后的近端信号和远端信号输入预先训练的残余回声处理模型，对消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号。由于残余回声处理模型基于消除线性回声的样本近端信号和样本远端信号进行训练的，使得频域分块自适应滤波器在对样本近端信号进行线性消除时，为残余回声处理模型提供了可学习的先验知识和指导信息，使得模型具备很好的双讲、回声路径变化的区分能力，降低出现由于数据过拟合，而导致的期望语音出现损伤或者处理完全失效的概率，并能够在背景噪声、双讲和非现性失真等情况下实现回声消除，大大提高回声消除的效果和适用场景。

需要说明的是，本发明实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

图2为本发明的回声处理装置实施例的结构示意图，如图2所示，本实施例的回声处理装置具体可以包括对齐模块20、线性回声消除模块21和残余回声消除模块22。

对齐模块20，用于根据获取的远端信号和初始的近端信号之间的延时信息，对齐所述远端信号和所述初始的近端信号，得到对齐后的信号；

线性回声消除模块21，用于将所述得到对齐后的信号输入频域分块自适应滤波器，对所述初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号；

具体地，可以基于线性回声消除计算法，对初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号。

该线性回声消除算法对应的计算式为：

为第i个频带对应的远端信号的功率谱密度矩阵。

Φ_xx,i(k)＝λΦ_xx,i(k-1)+(1-λ)|X_0,i(k)|²

其中，λ为迭代因子，0＜λ＜1，i为频点数。

残余回声消除模块22，用于将所述消除线性回声后的近端信号和所述远端信号输入预先训练的残余回声处理模型，对所述消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号。

具体地，残余回声消除模块22可以根据如下方式实现回声消除：

上述实施例的装置用于实现前述实施例中相应的方法，其具体实现方案可以参见前述实施例记载的方法及方法实施例中的相关说明，并且具有相应的方法实施例的有益效果，在此不再赘述。

图3为本发明的回声处理设备的结构示意图，如图3所示，本实施例的通行设备可以包括：处理器1010和存储器1020。本领域技术人员可知的，该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本发明还提供一种存储介质，其存储有一个或者多个程序，所述一个或者多个程序可被执行时实现上述实施例的回声处理方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种回声处理方法，其特征在于，包括：

2.根据权利要求1所述的回声处理方法，其特征在于，对所述初始的近端信号进行线性回声消除，得到消除线性回声后的近端信号，包括：

所述线性回声消除算法对应的计算式为：

为对应块的频域分块自适应滤波器的权向量，μ为频域上的步长因子向量，Λ为对应远端信号的功率谱密度矩阵，k为频带标识，N为频带数，

为第i个频带对应的远端信号的功率谱密度矩阵。

3.根据权利要求2所述的回声处理方法，其特征在于，第i个频带对应的远端信号的功率谱密度通过递归公式得到；

所述递归公式为：

Φ_xx,i(k)＝λΦ_xx,i(k-1)+(1-λ)|X_0,i(k)|²

其中，λ为迭代因子，0＜λ＜1，i为频点数。

4.根据权利要求1所述的回声处理方法，其特征在于，将所述消除线性回声后的近端信号和所述远端信号输入预先训练的残余回声处理模型，对所述消除线性回声后的近端信号进行残余回声消除，得到消除残余回声的近端信号，包括：

5.根据权利要求4所述的回声处理方法，其特征在于，所述编码层和所述解码层的数目均为多个，所述编码层和所述解码层的数目相同，且一一对应；

每个编码层与对应的解码层之间采用跳跃机制连接。

6.根据权利要求1所述的回声处理方法，其特征在于，所述残余回声处理模型的训练过程包括：

7.一种回声处理装置，其特征在于，包括：

8.根据权利要求7所述的回声处理装置，其特征在于，所述残余回声消除模块，具体用于：

9.一种回声处理设备，其特征在于，包括：处理器和存储器；

所述处理器用于执行所述存储器中存储的回声处理方法的程序，以实现权利要求1-6任一项所述的回声处理方法。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被执行时实现权利要求1-6任一项所述的回声处理方法。