CN113436636A

CN113436636A - 基于自适应滤波器和神经网络的声学回声消除方法及系统

Info

Publication number: CN113436636A
Application number: CN202110654926.2A
Authority: CN
Inventors: 胡程远
Original assignee: Shenzhen Boluosi Technology Co ltd
Current assignee: Shenzhen Boluosi Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-24

Abstract

本发明实施例公开了一种基于自适应滤波器和神经网络的声学回声消除方法及其系统。方法包括：获取待处理的语音信号；所述待处理的语音信号包括远端语音和近端麦克风语音；将所述待处理的语音信号输入自适应滤波器进行处理，得到残留信号；采用神经网络对所述残留信号进行进行二次处理，以消除所述残留信号中的非线性部分，得到回声消除后的近场音频信号。实施本发明的方法及其系统，针对声学回声，采用自适应滤波器+神经网络的方式，对自适应滤波器输出的残留信号进行二次处理，消除其中的非线性部分，可以得到清晰的回声消除后的近场音频信号，从而解决了传统回声消除方法所存在的技术问题。

Description

基于自适应滤波器和神经网络的声学回声消除方法及系统

技术领域

本发明涉及声音处理技术领域，具体涉及一种基于自适应滤波器和神经网络的声学回声消除方法及其系统。

背景技术

回声包括声学回声和线路回声。声学回声是由于在免提或会议应用中，扬声器的声音多次反馈到麦克风引起的。传统的声学回声消除方法是：通过自适应滤波器，以输入和输出信号的统计特性的估计为依据，采取特定算法自动地调整滤波系数，使其达到最佳滤波特性。

上述回声消除方法主要存在三个较难解决的问题点：(1)自适应滤波器收敛阶段，如果混有人声，那么收敛系数会发生偏差；(2)回声和参考信号之间非线性相关量部分不能通过自适应滤波器消除；(3)回声的路径一旦发生变化，自适应滤波器就会失效。这三个问题点将直接导致当前的大部分回声消除算法很难完全消除喇叭回声，尤其是在采用C/D类等非线性功放或参考信号延迟不稳定的情况下，传统的信号处理方法基本难以工作。

发明内容

针对上述技术缺陷，本发明实施例的目的在于提供一种基于自适应滤波器和神经网络的声学回声消除方法及其系统。

为实现上述目的，第一方面，本发明实施例提供了一种基于自适应滤波器和神经网络的声学回声消除方法，包括：

获取待处理的语音信号；所述待处理的语音信号包括远端语音和近端麦克风语音；

将所述待处理的语音信号输入自适应滤波器进行处理，得到残留信号；

采用神经网络对所述残留信号进行进行二次处理，以消除所述残留信号中的非线性部分，得到回声消除后的近场音频信号。

作为本申请的一种具体实施方式，得到回声消除后的近场音频信号，具体为：

对所述残留信号和参考信号进行短时傅里叶变换，以得到频域信号；

对所述频域信号进行卷积、滤波及归一化会处理，得到权重mask；

根据所述残留信号和权重mask计算回声消除后的近场音频信号＝权重mask*残留信号。

作为本申请的一种优选实施方式，所述方法还包括对所述神经网络进行训练，具体为：

采用Adam优化器对所述神经网络进行模型实例化，对所述神经网络进行前向传播和反向传播训练，最终进行模型验证，根据验证集的损失和度量对模型的超参数进行调整。

第二方面，本发明实施例提供了一种基于自适应滤波器和神经网络的声学回声消除系统，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面所述的方法。

第三方面，本发明实施例还提供了另一种基于自适应滤波器和神经网络的声学回声消除系统，包括：

自适应滤波器，用于获取待处理的语音信号，对其进行滤波处理，得到残留信号；所述待处理的语音信号包括远端语音和近端麦克风语音；

二次处理模块，用于采用神经网络对所述残留信号进行进行二次处理，以消除所述残留信号中的非线性部分，得到回声消除后的近场音频信号。

实施本发明的方法及其系统，针对声学回声，采用自适应滤波器+神经网络的方式，对自适应滤波器输出的残留信号进行二次处理，消除其中的非线性部分，可以得到清晰的回声消除后的近场音频信号，从而解决了传统回声消除方法所存在的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的基于自适应滤波器和神经网络的声学回声消除方法的流程图；

图2是本发明实施例提供的神经网络图；

图3是本发明第一实施例提供的基于自适应滤波器和神经网络的声学回声消除系统的结构图；

图4是本发明第二实施例提供的基于自适应滤波器和神经网络的声学回声消除系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，本发明实施例提供的基于自适应滤波器和神经网络的声学回声消除方法可以包括：

S1，获取待处理的语音信号。

其中，所述待处理的语音信号包括远端语音和近端麦克风语音。

S2，将所述待处理的语音信号输入自适应滤波器进行处理，得到残留信号。

S3，采用神经网络对所述残留信号进行进行二次处理，以消除所述残留信号中的非线性部分，得到回声消除后的近场音频信号。

具体地，请参考图2，获取残留信号e(n)和参考信号u(n)，利用短时傅里叶变换将残留信号e(n)和参考信号u(n)转换为频域，串联后作为输入特征，经过卷积、滤波及归一化处理后，输出权重mask，根据所述残留信号和权重mask计算回声消除后的近场音频信号＝权重mask*残留信号。

再请参考图2，为本发明实施例所采用的神经网络结构图。该神经网络中，STFT表示短时傅里叶变换，Conv表示卷积运算，Residual Bottle Neck表示滤波器，FC表示全连接层，Softmax表示分类回归函数，concatenate是网络结构设计中很重要的一种操作，经常用于将特征联合，多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合。

该神经网络主要对自适应滤波器输出的残留信号进行二次处理，输出重mask和迭代系数DTD；权重mask用于回声消除后的近场音频信号的计算，迭代系数DTD作用于自适应滤波器。

进一步地，本发明实施例还包括对神经网络进行训练，具体为：首先进行模型实例化，采用Adam优化器进行实例化优化，再使用Tensorboard可视化，开始进行前向传播和反向传播训练，最终进行模型验证，根据验证集的损失和度量，对模型的超参数进行调整。

实施本发明基于自适应滤波器和神经网络的声学回声消除方法，针对声学回声，采用自适应滤波器+神经网络的方式，对自适应滤波器输出的残留信号进行二次处理，消除其中的非线性部分，可以得到清晰的回声消除后的近场音频信号，从而解决了传统回声消除方法所存在的技术问题。

基于相同的发明构思，本发明实施例提供了一种基于自适应滤波器和神经网络的声学回声消除系统。如图3示，该系统可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，深度学习显卡(如：华为NPU,英伟达GPU,谷歌TPU)该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的基于自适应滤波器和神经网络的声学回声消除方法实施例中所描述的实现方式，在此不再赘述。

可选地，本发明实施例还提供了另一种基于自适应滤波器和神经网络的声学回声消除系统。如图4所示，该系统包括：

自适应滤波器100，用于获取待处理的语音信号，对其进行滤波处理，得到残留信号；所述待处理的语音信号包括远端语音和近端麦克风语音；

二次处理模块200，用于采用神经网络对所述残留信号进行进行二次处理，以消除所述残留信号中的非线性部分，得到回声消除后的近场音频信号。

其中，二次处理模块200具体用于：

进一步优选地，该消除系统还包括训练模块，用于对所述神经网络进行训练，具体为：

需要说明的是，本发明实施例中声学回声消除系统更为具体工作流程及相关细节，请参考前述方法实施例部分，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于自适应滤波器和神经网络的声学回声消除方法，其特征在于，包括：

2.如权利要求1所述的声学回声消除方法，其特征在于，得到回声消除后的近场音频信号，具体为：

3.如权利要求1所述的声学回声消除方法，其特征在于，所述方法还包括对所述神经网络进行训练，具体为：

4.如权利要求1所述的声学回声消除方法，其特征在于，所述神经网络的输出包括权重mask和迭代系数DTD；权重mask用于回声消除后的近场音频信号的计算，迭代系数DTD作用于所述自适应滤波器。

5.一种基于自适应滤波器和神经网络的声学回声消除系统，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-4任一项所述的方法。

6.一种基于自适应滤波器和神经网络的声学回声消除系统，其特征在于，包括：

7.如权利要求6所述的声学回声消除系统，其特征在于，所述二次处理模块具体用于：

8.如权利要求6所述的声学回声消除系统，其特征在于，所述系统还包括训练模块，用于对所述神经网络进行训练，具体为：