CN111599374A

CN111599374A - 一种单通道语音去混响方法及装置

Info

Publication number: CN111599374A
Application number: CN202010302255.9A
Authority: CN
Inventors: 李妍文; 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-28
Anticipated expiration: 2040-04-16
Also published as: CN111599374B

Abstract

本发明公开了一种单通道语音去混响方法及装置，方法包括：获取单个麦克风在室内采集的语音信号；对语音信号进行分帧加窗以及短时傅里叶变换处理，得到频域语音信号；将频域语音信号输入设置有预设初始参数的滤波器，采用基于二分坐标下降法的递归最小二乘法，将频域语音信号分成多个频带信号；根据所述多个频带信号计算得到更新后的滤波器系数，根据更新后的滤波器系数对多个频带信号进行滤波，得到去混响后的频域语音信号，可以降低计算量及计算复杂度，缩短处理语音信号时长。

Description

一种单通道语音去混响方法及装置

技术领域

本发明涉及语音去混响技术领域，特别涉及一种单通道语音去混响方法及装置。

背景技术

室内麦克风接收语音信号存在混响，导致后端语音识别性能下降，现有技术中采用最小二乘法进行去混响，可以提高对语音信号的识别准确率。但是该最小二乘法的计算量大，复杂度高，一般需要O(K²)级乘法和O(K²)级加法，其中K为滤波器阶数，处理语音时间较长，降低了前端语音处理效率。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的第一个目的在于提出一种单通道语音去混响方法，可以降低计算量及计算复杂度，缩短处理语音信号时长，提高了对前端语音信号的处理效率。

本发明的第二个目的在于提出一种单通道语音去混响装置。

为达到上述目的，本发明第一方面实施例提出了一种单通道语音去混响方法，包括：

获取单个麦克风在室内采集的语音信号；

对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到频域语音信号；

将所述频域语音信号输入设置有预设初始参数的滤波器，采用基于二分坐标下降法的递归最小二乘法，将所述频域语音信号分成多个频带信号；

根据所述多个频带信号计算得到更新后的滤波器系数，根据更新后的滤波器系数对多个频带信号进行滤波，得到去混响后的频域语音信号。

根据本发明第一方面实施例提出的一种单通道语音去混响方法，二分坐标下降法在迭代过程中只使用加法，不使用乘法，可以降低对语音信号处理时的计算量及计算复杂度，缩短处理语音信号时长，提高了对前端语音信号的处理效率。最小二乘法的计算量大，复杂度高，一般需要O(K²)级乘法和O(K²)级加法，其中K为滤波器阶数，通过二分坐标下降法可以将计算复杂度降低为3K，同时设置预设初始参数，在保证去混响方法性能的情况下，提高算法处理效率。

根据本发明的一些实施例，所述根据所述多个频带信号计算得到更新后的滤波器系数，包括：

计算各个所述频带信号的协方差矩阵和相关向量初值；

根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代，得到滤波器系数的更新量；

根据所述滤波器系数的更新量计算得到更新后的滤波器系数。

根据本发明的一些实施例，在得到去混响后的频域语音信号后，还包括：对所述去混响后的频域语音信号进行傅里叶逆变换，得到时域语音信号以便进行语音识别。

根据本发明的一些实施例，所述预设初始参数包括：

其中，M_b为滤波器系数更新量的元素二进制表示的预设比特数，[-H,H]为二进制表示的幅度范围，N_u为成功迭代的最大次数，K为滤波器阶数。

根据本发明的一些实施例，所述计算各个所述频带信号的协方差矩阵和相关向量初值，算法如下：

对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到若干帧频域语音信号，帧长为32ms，帧移为16ms，其中第t帧、第k个频点的信号为y(t,k)；

根据线性预测理论计算去混响后的频域语音信号的先验值：

e(t,k)＝conj(y(t,k))-Y^H(t-Δ,k)G(t-1,k) (1)

其中，e(t,k)为第t帧、第k个频点的去混响后的频域语音信号的先验值，G(t-1,k)为第t-1帧、第k个频点的滤波器系数，Y(t,k)＝[y(t,k),…,y(t-K+1,k)]^T，Δ＞0为延时保护，Y^H为矩阵或向量的共轭转置，conj()为复数的共轭变换；

计算第t帧、第k个频点信号功率λ_t,k：

λ_t,k＝|e(t,k)|² (2)

计算协方差矩阵为:

其中，R(t,k)为第t帧、第k个频点的协方差矩阵，γ为遗忘因子，R(t-1,k)为第t-1帧、第k个频点的协方差矩阵；

计算每一帧相关向量初值为：

其中，β₀(t,k)为第t帧、第k个频点的相关向量初值，r(t-1,k)为第t-1帧、第k个频点的相关向量。

根据本发明的一些实施例，在计算所述滤波器系数的更新量时，设置内循环最大次数W_M＝2。

根据本发明的一些实施例，利用二分坐标下降法计算滤波器系数的更新量G_up(t,k)，具体迭代流程为：

初始化迭代参数：G_up(t,k)＝0_M×1，r(t,k)＝β₀(t,k)，α＝H，q＝0

其中，α为步长，用于控制滤波器的更新量，q为计算滤波器的更新量的变化次数，用来控制算法的复杂度；

其中，r_n(t,k)为r(t,k)的第n行，R_n,n(t,k)为R(t,k)的第n行第n列，G_up(n)(t,k)为G_up(t,k)的第n行，R⁽ⁿ⁾(t,k)为R(t,k)的第n列，flag用于标记，控制算法的走向。

根据本发明的一些实施例，所述根据所述滤波器系数的更新量计算得到更新滤波器系数G(t,k)为：

G(t,k)＝G(t-1,k)+G_up(t,k) (7)

根据本发明的一些实施例，所述根据更新后的滤波器系数对多个频带信号进行滤波，

得到第t帧、第k个频点去混响后的频域信号x(t,k)为：

x(t,k)＝y(t,k)-G^H(t,k)Y(t-Δ,k) (8)

为达到上述目的，本发明第二方面实施例提出了一种单通道语音去混响装置，包括：

第一获取模块，用于获取单个麦克风在室内采集的语音信号；

第一语音信号处理模块，用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到频域语音信号；

第二语音信号处理模块，用于将所述频域语音信号输入设置有预设初始参数的滤波器，采用基于二分坐标下降法的递归最小二乘法,将所述频域语音信号分成多个频带信号；

计算模块用于：

计算各个所述频带信号的协方差矩阵和相关向量初值；

根据所述滤波器系数的更新量计算得到更新后的滤波器系数；

第三语音信号处理模块，用于根据更新后的滤波器系数对多个频带信号进行滤波，得到去混响后的频域语音信号。

根据本发明第二方面实施例提出的一种单通道语音去混响装置，二分坐标下降法在迭代过程中只使用加法，不使用乘法，可以降低对语音信号处理时的计算量及计算复杂度，缩短处理语音信号时长，提高了对前端语音信号的处理效率。最小二乘法的计算量大，复杂度高，一般需要O(K²)级乘法和O(K²)级加法，其中K为滤波器阶数，通过二分坐标下降法可以将计算复杂度降低为3K，同时设置预设初始参数，在保证去混响方法性能的情况下，提高算法处理效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种单通道语音去混响方法的流程图；

图2是根据本发明又一个实施例的一种单通道语音去混响方法的流程图；

图3是根据本发明一个实施例的一种单通道语音去混响装置的框图；

图4是根据本发明又一个实施例的一种单通道语音去混响装置的框图；

图5是根据本发明一个实施例的计算更新后的滤波器系数的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

下面参考图1至图5来描述本发明实施例提出的一种单通道语音去混响方法及装置。

图1是根据本发明一个实施例的一种单通道语音去混响方法的流程图；如图1所示，本发明第一方面实施例提出了一种单通道语音去混响方法，包括步骤S1-S4：

S1、获取单个麦克风在室内采集的语音信号；

S2、对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到频域语音信号；

S3、将所述频域语音信号输入设置有预设初始参数的滤波器，采用基于二分坐标下降法的递归最小二乘法，将所述频域语音信号分成多个频带信号；

S4、根据所述多个频带信号计算得到更新后的滤波器系数，根据更新后的滤波器系数对多个频带信号进行滤波，得到去混响后的频域语音信号。

上述技术方案的工作原理：获取单个麦克风在室内采集的语音信号，即为单通道语音信号，对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到频域语音信号；语音信号进行分帧加窗分为若干帧语音信号，帧长为32ms，帧移为16ms。将分帧后的语音信号看做稳态信号，方便计算。将频域语音信号输入设置有预设初始参数的滤波器，采用基于二分坐标下降法的递归最小二乘法，将频域语音信号分成多个频带信号；预设初始参数可以通过多次试验获得，设置预设初始参数可以保证算法在计算量降低的情况下，去混响效果基本不变。根据所述多个频带信号计算得到更新后的滤波器系数，根据更新后的滤波器系数对多个频带信号进行滤波，得到去混响后的频域语音信号。

上述技术方案的有益效果：二分坐标下降法在迭代过程中只使用加法，不使用乘法，可以降低对语音信号处理时的计算量及计算复杂度，缩短处理语音信号时长，提高了对前端语音信号的处理效率。最小二乘法的计算量大，复杂度高，一般需要O(K²)级乘法和O(K²)级加法，其中K为滤波器阶数，通过二分坐标下降法可以将计算复杂度降低为3K，同时设置预设初始参数，在保证去混响方法性能的情况下，提高算法处理效率。

图5是根据本发明一个实施例的计算更新后的滤波器系数的流程图；如图5所示，在一实施例中，所述根据所述多个频带信号计算得到更新后的滤波器系数，包括步骤S41-S43：

S41、计算各个所述频带信号的协方差矩阵和相关向量初值；

S42、根据协方差矩阵和相关向量的初值对相关向量做二分坐标下降迭代，得到滤波器系数的更新量；

S43、根据所述滤波器系数的更新量计算得到更新后的滤波器系数。

上述技术方案的工作原理：多个频带信号相互独立，便于对每个频带的相关数据进行计算。计算各个所述频带信号的协方差矩阵和相关向量初值，根据协方差矩阵和相关向量的初值对相关向量通过二分坐标下降法(dichotomous coordinate descent，简称DCD)进行迭代，得到滤波器系数的更新量，即滤波器系数的改变量，二分坐标下降法解决了递归最小二乘法中计算量及计算复杂度最大的一步，即通过不断地迭代，不断地缩小误差，得到滤波器系数的更新量，根据滤波器系数的更新量计算得到更新后的滤波器系数。

图2是根据本发明又一个实施例的一种单通道语音去混响方法的流程图；如图2所示，在得到去混响后的频域语音信号后，还包括：S5、对所述去混响后的频域语音信号进行傅里叶逆变换，得到时域语音信号以便进行语音识别。

上述技术方案的有益效果：对去混响后的频域语音信号进行傅里叶逆变换，得到时域语音信号，可以提高对语音信号的识别率，更容易进行识别。

根据本发明的一些实施例，所述预设初始参数包括：

对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到若干帧频域语音信号，帧长为32ms，帧移为16ms，其中，第t帧、第k个频点的信号为y(t,k)；设置长度为K的滤波器系数初始值G(0,k)＝0_K×1，协方差矩阵初值R(0,k)＝I_K×K，相关向量初值为r(0,k)＝0_K×1，滤波器系数更新量的元素二进制表示的预设比特数M_b＝4，成功迭代的最大次数N_u＝K/2，内循环最大次数W_M＝2，二进制表示的幅度范围在[-H,H]]，其中H＝4；

根据线性预测理论计算去混响后的频域语音信号的先验值：

e(t,k)＝conj(y(t,k))-Y^H(t-Δ,k)G(t-1,k) (1)

计算第t帧、第k个频点信号功率λ_t,k：

λ_t,k＝|e(t,k)|² (2)

计算协方差矩阵为:

计算每一帧相关向量初值为：

上述技术方案的有益效果：通过上述算法可以计算得到各个所述频带信号的协方差矩阵和相关向量初值。

根据本发明的一些实施例，在计算所述滤波器系数的更新量时，设置内循环最大次数W_M＝2。通过设置内循环最大次数为2，可以在保证算法鲁棒性的前提下，防止迭代过程进入死循环。

上述技术方案的有益效果：通过二分坐标下降法(dichotomous coordinatedescent，简称DCD)进行迭代，通过不断地迭代，不断地缩小误差，得到滤波器系数的更新量，降低了计算量及计算复杂度。

G(t,k)＝G(t-1,k)+G_up(t,k) (7)

上述技术方案的有益效果：得到更新滤波器系数，设置更新滤波器系数，可以提高去混响效果。

得到第t帧、第k个频点去混响后的频域信号x(t,k)为：

x(t,k)＝y(t,k)-G^H(t,k)Y(t-Δ,k) (8)

上述技术方案的有益效果：通过更新滤波器系数后对语音信号进行滤波，对语音信号的处理时间缩短，提高了处理效率。

图3是根据本发明一个实施例的一种单通道语音去混响装置的框图；如图3所示，本发明第二方面实施例提出了一种单通道语音去混响装置，包括：

第一获取模块1，用于获取单个麦克风在室内采集的语音信号；

第一语音信号处理模块2，用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理，得到频域语音信号；

第二语音信号处理模块3，用于将所述频域语音信号输入设置有预设初始参数的滤波器，采用基于二分坐标下降法的递归最小二乘法，将所述频域语音信号分成多个频带信号；

计算模块4用于：

计算各个所述频带信号的协方差矩阵和相关向量初值；

第三语音信号处理模块5，用于根据更新后的滤波器系数对多个频带信号进行滤波，得到去混响后的频域语音信号。

图4是根据本发明又一个实施例的一种单通道语音去混响装置的框图；如图4所示，所述单通道语音去混响装置还包括：

第四语音信号处理模块6，用于对所述去混响后的频域语音信号进行傅里叶逆变换，得到时域语音信号以便进行语音识别。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种单通道语音去混响方法，其特征在于，包括：

获取单个麦克风在室内采集的语音信号；

2.如权利要求1所述的单通道语音去混响方法，其特征在于，所述根据所述多个频带信号计算得到更新后的滤波器系数，包括：

计算各个所述频带信号的协方差矩阵和相关向量初值；

3.如权利要求1所述的单通道语音去混响方法，其特征在于，在得到去混响后的频域语音信号后，还包括：对所述去混响后的频域语音信号进行傅里叶逆变换，得到时域语音信号以便进行语音识别。

4.如权利要求1所述的单通道语音去混响方法，其特征在于，所述预设初始参数包括：

5.如权利要求2所述的单通道语音去混响方法，其特征在于，所述计算各个所述频带信号的协方差矩阵和相关向量初值，算法如下：

根据线性预测理论计算去混响后的频域语音信号的先验值：

e(t,k)＝conj(y(t,k))-Y^H(t-Δ,k)G(t-1,k) (1)

计算第t帧、第k个频点信号功率λ_t,k：

λ_t,k＝|e(t,k)|² (2)

计算协方差矩阵为:

计算每一帧相关向量初值为：

6.如权利要求2所述的单通道语音去混响方法，其特征在于，在计算所述滤波器系数的更新量时，设置内循环最大次数W_M＝2。

7.如权利要求5所述的单通道语音去混响方法，其特征在于，利用二分坐标下降法计算滤波器系数的更新量G_up(t,k)，具体迭代流程为：

8.如权利要求7所述的单通道语音去混响方法，其特征在于，所述根据所述滤波器系数的更新量计算得到更新滤波器系数G(t,k)为：

G(t,k)＝G(t-1,k)+G_up(t,k) (7)

9.如权利要求8所述的单通道语音去混响方法，其特征在于，所述根据更新后的滤波器系数对多个频带信号进行滤波，

得到第t帧、第k个频点去混响后的频域信号x(t,k)为：

x(t,k)＝y(t,k)-G^H(t,k)Y(t-Δ,k) (8)

10.一种单通道语音去混响装置，其特征在于，包括：

第二语音信号处理模块，用于将所述频域语音信号输入设置有预设初始参数的滤波器，采用基于二分坐标下降法的递归最小二乘法，将所述频域语音信号分成多个频带信号；

计算模块用于：

计算各个所述频带信号的协方差矩阵和相关向量初值；