CN112820311A

CN112820311A - 一种基于空间预测的回声消除方法及装置

Info

Publication number: CN112820311A
Application number: CN202110410907.5A
Authority: CN
Inventors: 刘文通
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-05-18

Abstract

一种基于空间预测的回声消除方法及装置，回声消除方法包括如下步骤：S1.分别获取模拟麦克风信号和模拟参考信号，并利用ADC分别转化为数字麦克风信号和数字参考信号；S2.通过短时傅里叶变换将接收的数字麦克风信号和数字参考信号每个声道的时域信号分解成k个频带的频域信号；S3.对参考频域信号进行空间预测缓存；S4.以空间预测滤波器对参考频域信号进行滤波，并对时域麦克风信号进行回波滤除。本发明与传统的回声消除方法相比，本发明方案利用基于空间预测的回声消除算法，提高语音信噪比，提升语音交互质量。

Description

一种基于空间预测的回声消除方法及装置

技术领域

本发明属于语音识别技术领域，具体涉及一种基于空间预测的回声消除方法及装置。

背景技术

近年来，人机语音交互对人工智能技术和物联网在实际应用中的落地融合起着重要的作用，然而复杂的声学应用环境中给语音交互带来了挑战，尤其针对具有扬声器和麦克风的音频系统，声学回声会极大的影响语音交互体验质量。如何更好的进行回声消除，是提升语音交互质量的关键问题。

目前常用的回声消除方法主流一般采用时域或频域的自适应滤波器对当前帧信号进行回声消除，该类方法具有一定的有效性，但忽略了麦克风采集的扬声器信号和原参考信号的强线性相关性，实际应用过程中往往会产生影响语音交互质量的回声残留；同时还有另一类基于深度神经网络的回声消除方法，该类方法在合适的应用环境下抑制效果上有较大提升，但该类方法对训练样本要求较高，其实际落地受限于产品对算力、成本的严苛要求。

发明内容

为克服现有回声消除方法存在的缺陷，本发明公开了一种基于空间预测的回声消除方法及装置。

本发明所述基于空间预测的回声消除方法，包括如下步骤：

S1.分别获取模拟麦克风信号和模拟参考信号，并利用ADC分别转化为数字麦克风信号和数字参考信号，ADC为模数转换器；

其中模拟麦克风信号是喇叭发出后并被麦克风接收的电学信号，模拟参考信号是被喇叭发出前的电学信号；

S2.通过短时傅里叶变换将接收的数字麦克风信号和数字参考信号每个声道的时域信号分解成k个频点的频域信号；即将数字麦克风信号的当前帧l的时域麦克风信号

，转换成麦克风频域信号

；

将接收的数字参考信号的时域参考信号

转换成参考频域信号

；其中N 表示产生数字麦克风信号的麦克风阵列的麦克风个数，Q表示数字参考信号通道数；

S3.对参考频域信号进行空间预测缓存：

对第q个参考通道当前第l帧之前的Lp帧的参考频域信号

进行存储，Lp为线性预测长度；

S4. 以空间预测滤波器对缓存的Lp帧参考频域信号进行滤波，并对麦克风频域信号进行回波滤除，具体为：

其中，

为第l帧第k个频点经过回声消除器滤除后的目标语音频域信号；

表示步骤S2得到麦克风采集的频域信号中第l帧第k个频点的麦克风频域信号，

表示步骤S2得到的参考频域信号中第l帧第k个频点的参考频域信号向量矩阵；

为第l帧第k个频点的空间预测滤波器，

；

表示第l帧第k个频点参考频域信号自相关矩阵的逆矩阵，

表示第l 帧第k个频点参考频域信号和麦克风频域信号的互相关矩阵。

优选的：还包括步骤S5.对经过回声消除器滤除后的目标语音频域信号中存在的非线性回声和系统噪声进行抑制，抑制后再转化为时域信号。

本发明还公开了一种基于空间预测的回声消除装置，包括第一时域频域转换支路和第二时域频域转换支路，均由ADC及与其连接的时域频域转换模块组成，所述第一时域频域转换支路与空间预测滤波器连接，所述第二时域频域转换支路通过参考信号空间预测缓存与空间预测滤波器连接；

所述空间预测滤波器

；

表示第l帧第k个频点参考频域信号自相关矩阵的逆矩阵，

表示第l帧第k个频点参考频域信号和麦克风频域信号的互相关矩阵；

所述空间预测滤波器还连接有回声消除器。

优选的：所述时域频域转换模块为短时傅里叶变换模块。

优选的：所述回声消除器还连接有非线性滤波器。

本发明与传统的回声消除方法相比，本发明方案利用基于空间预测的回声消除算法，提高语音信噪比，提升语音交互质量。

附图说明

图1是本发明所述回声消除方法的一个具体工作流程示意图；

图2是本发明所述回声消除装置的一个具体实施方式示意图；

图3是本发明一个具体实施例中的一个具体输入波形示意图；

图3中上通道为在图2所示回声消除装置中，麦克风阵列的输入信号波形图；下通道为图2中的音频源输出信号波形图；

图4是将图3的信号进行处理后得到的波形图；

图4中上通道为图2所示回声消除装置中，非线性滤波器的输出波形图；下通道为利用现有技术的RLS（最小二乘法）回声消除方法处理得到的输出波形图。

图3和图4中横坐标为时间，纵坐标为电压。

图中附图标记名称为：

ADC - AD转换器；

STFT - 短时傅里叶变换模块；

ISTFT - 短时傅里叶逆变换模块。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述回声消除方法可以包括以下步骤实现：

S1. 通过设备装置获取数字信号，利用麦克风阵列和音频播放装置分别获取模拟麦克风信号和模拟参考信号，通过ADC(模数转换器)分别转化为数字麦克风信号和数字参考信号。

麦克风阵列中的麦克风个数N不小于2，当N=1时为单麦克风系统；多个麦克风形成的阵列结构不局限于规则几何形状阵列或非常规阵列，音频播放装置中的扬声器个数不小于1。

模拟麦克风信号从麦克风阵列获取，模拟参考信号为音频播放装置输入的电学模拟信号。

如图2所示，音频源发出的模拟参考信号通过喇叭转化为音频信号播放，播放后的音频信号混杂外部环境噪音等其他音频信号后被麦克风接收并转化为作为模拟麦克风信号的电学信号。

S2. 时域信号转换成频域信号，短时傅里叶变换模块STFT将接收的每个声道的数字时域信号分解成k个频带的频域信号。

即将数字麦克风信号的当前帧l的时域麦克风信号

，转换成麦克风频域信号

；

S3.将接收的数字参考信号的时域参考信号

转换成参考频域信号

；其中N 表示产生数字麦克风信号的麦克风阵列的麦克风个数，Q表示数字参考信号通道数。

参考信号通道数体现在声源属性上，如立体声音源存在两路通道，则其产生的参考通道是有两路音源信号；而在对音质要求没有严苛要求时或传输带宽有限时，往往音源只需取一路信号或只有一路信号。

对第q个参考通道当前第l帧之前的Lp帧的参考频域信号

进行存储，Lp为线性预测长度；

其中，

表示步骤S2得到麦克风采集的频域信号中第l帧第k个频点的频域信号，

为第l帧第k个频点的空间预测滤波器，

；

表示第l帧第k个频点参考频域信号自相关矩阵的逆矩阵，

空间预测是指麦克风采集的扬声器信号和原参考信号存在很强的线性相关性，可以通过一个固定的或者自适应的滤波器，去逼近该相关性，以改善回声消除的性能，为了取得更好的效果，空间预测滤波器可以通过使用基于线性相关的自适应滤波器算法进行设计，其数学模型如下：

其中，

表示第l帧第k个频点的麦克风频域信号，

为第l帧第k个频点的目标语音频域信号，

为第li帧第k个频点的空间预测滤波器，

为所有参考通道第l-li帧第k个频点的参考频域信号。

为具体描述空间预测滤波器设计，以自适应滤波器递归最小二乘法(RLS)为例，设计空间预测滤波器。

根据最小二乘法的解可得空间预测滤波器为：

其中，

表示为第l帧第k个频点的空间预测滤波器，

表示第l 帧第k个频点参考频域信号自相关矩阵的逆矩阵，

表示第l帧第k个频点参考频域信号和麦克风频域信号的互相关矩阵。

矩阵的初始化状态为0，参考矩阵和自相关矩阵的更新如下式所示：

采用参考矩阵和自相关矩阵迭代计算空间预测滤波器，运算速度快，可增强系统的稳定性,

表示第l帧参考频域信号自相关矩阵，

表示第l帧参考频域信号和麦克风频域信号的互相关矩阵。

其中，α为平滑因子，一般取值0.7到0.999，

是由前L_p帧参考频域信号组合的向量矩阵，X（l）为麦克风频域信号，l代表第l帧，H代表共轭转置。若直接进行矩阵逆运算，其计算复杂，不利于实时系统应用，因此可利用矩阵求逆引理等矩阵求逆快速算法进行求解运算。

回声消除器根据空间预测滤波器估计出回声分量并从麦克风采集信号中滤除，

其中，

为第l帧第k个频点目标语音频域信号；该信号已经过回声消除器滤除回声分量；

表示步骤S2得到的参考频域信号中第l帧第k个频点的参考频域信号向量矩阵。

回声消除模块对系统的线性回声进行滤除，但残留中会包含诸多非线性回声及系统噪声，可采用非线性滤波器对残留中存在的非性回声和系统噪声进行进一步抑制，其中会用到参考信号数据空间预测缓存器的数据进行算法处理。

针对非线性滤波器处理后的频域信号，可通过短时傅立叶逆变换模块 ISTFT转化为时域信号，输出的时域信号可直接通过系统传递给下一个处理模块。

与传统的回声消除方法相比，本发明方案利用基于空间预测的回声消除算法，提高语音信噪比，提升语音交互质量。

如图3和图4所示给出本发明一个具体实施例，基于图2给出的回声消除装置，在音频源发出如图3下通道所示的信号后，经过喇叭播放，在麦克风阵列输入端得到的的输入信号波形图如图3上通道所示；

图4是将图3的信号进行回声消除处理后得到的波形图；图4中上通道为利用本发明图2所示回声消除装置处理后，非线性滤波器的输出波形图；下通道为利用现有技术的RLS（最小二乘法）回声消除方法处理得到的输出波形图。由图4可见，本发明处理后的目标语音，即图4上下两通道波形中出现的多个电压振幅较大部分，与回声残留值即电压振幅较小部分的差别更大，即本发明处理后的语音信号信噪比更高，表明本发明对回声消除效果更好。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。