CN110827846B

CN110827846B - 采用加权叠加合成波束的语音降噪方法及装置

Info

Publication number: CN110827846B
Application number: CN201911114506.4A
Authority: CN
Inventors: 陈俊彬
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2022-05-10
Anticipated expiration: 2039-11-14
Also published as: CN110827846A

Abstract

本发明揭示了采用加权叠加合成波束的语音降噪方法及装置，它将收集到的音频信号进行波束成形后，进行加权叠加，形成最终输出的波束。本发明不依赖传统的声源定位即可对音频信号进行有效的降噪处理，输出的波束可以指向人声比较强的方向从而增强语音，而其它方向的声音则会受到抑制。本发明同时简化了整个语音降噪的运算量，适用范围更广。

Description

采用加权叠加合成波束的语音降噪方法及装置

技术领域

本发明涉及到语音设备领域，特别是涉及到采用加权叠加合成波束的语音降噪方法及装置。

背景技术

基于麦克风阵列的多通道降噪技术，可以有效地抑制干扰声，增强目标语音，而且具有一定的抗混响能力，适用于远场拾音。在市面的产品中，麦克风阵列的应用越来越广泛了，例如智能音箱、机器人、会议通话设备等。主流的基于麦克风阵列的多通道降噪算法有波束成形、盲源分离等。目前波束成形大多方案是先通过声源定位、跟踪，然后对目标源方向进行波束成形，这种方法非常依赖声源定位，在没有唤醒词的应用场景，例如语音通话、人机聊天模式，波束成形的方法很可能会出现声源定位失配的情况，若是声源定位失配，则可能把目标语音消除掉，把噪声增强了。声源位置的变动引起波束的硬切换，可能会导致输出语音的听感不自然。

此外，也有采用盲源分离的方法，这个方法不依赖于声源定位，但是消耗较多的运算资源，因而其应用并没有波束成形方法广。

发明内容

本发明的主要目的为提供一种采用加权叠加合成波束的语音降噪方法及装置，以解决在降噪时依赖声源定位和运算量大的问题。

本发明提出以下技术方案：

一种采用加权叠加合成波束的语音降噪方法，包括：

将接收到的音频信号，生成对应预设的N个方向的方向向量的初始波束；通过VAD判断音频信号的初始权值向量是否需要更新，其中，初始权值向量为：ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]，ρ表征音频信号在每个方向上的相关性大小，φ表征音频信号在每个方向上的人声强度，ω为ρ和φ的合成向量；

若是，则更新ρ和φ，得到更新后的ρ₁和φ₁；

将ρ₁和φ₁合成得到新的ω₁；

将ω₁与初始波束相乘叠加，得到最终的输出波束。

进一步地，将接收到的音频信号，生成对应预设的N个方向的初始方向向量的初始波束的步骤之前，包括：

根据麦克风阵列参数构造N个方向的方向向量；

给初始权值向量进行赋值，得到ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]。

进一步地，根据麦克风阵列参数构造N个方向的方向向量的步骤，包括：

根据所用的波束主瓣宽度或者具体应用场景的声源范围确定N的数值。

进一步地，通过VAD判断音频信号的初始权值向量是否需要更新的步骤，包括：

根据接收到的音频信号，设置一个VAD向量υ＝[v₁,v₂,...,v_T]，T为求取一次权值所需的帧长与VAD的帧长之比；

当υ的元素前面部分是1，后面部分是0或者元素全是0，则不更新权值向量ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]，否则更新权值向量ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]。

进一步地，将接收到的音频信号，生成对应预设的N个方向的方向向量的初始波束的步骤，包括：

将所述音频信号利用MVDR、SD以及GSC中的一种或多种波束成形算法，生成对应预设的N个方向的方向向量的初始波束。

进一步地，更新ρ和φ，得到更新后的ρ₁和φ₁的步骤中，更新权值向量ρ＝[p₁,p₂,...,p_N]的算法为基于广义互相关的SRP-PHAT。

进一步地，更新ρ和φ，得到更新后的ρ₁和φ₁的步骤中，更新权值向量ρ＝[p₁,p₂,...,p_N]的算法还可以为基于波束能量的SRP。

进一步地，更新ρ和φ，得到更新后的ρ₁和φ₁的步骤中，更新权值向量φ＝[q₁,q₂,...,q_N]的算法为：对N个初始波束求Kurtosis值。

本发明还提供一种采用加权叠加合成波束的语音降噪装置，包括：

接收生成单元，用于将接收到的音频信号，生成对应预设的N个方向的方向向量的初始波束；

判断单元，用于通过VAD判断音频信号的初始权值向量是否需要更新，其中，初始权值向量为：ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]，ρ表征音频信号在每个方向上的相关性大小，φ表征音频信号在每个方向上的人声强度，ω为ρ和φ的合成向量；

第一更新单元，用于若通过VAD判定音频信号的初始权值向量需要更新，则更新ρ和φ，得到更新后的ρ₁和φ₁；

合成单元，用于将ρ₁和φ₁合成得到新的ω₁；

叠加输出单元，用于将ω₁与初始波束相乘叠加，得到最终的输出波束。

本发明基于传统的波束成形方法，提供一种采用加权叠加合成波束的语音降噪方法及装置，不依赖声源定位，可以有效增强输出波束的鲁棒性，因而在声源位置变动的时候，输出语音的听感比较自然。该方法输出的波束可以指向人声比较强的方向从而增强语音，而其它方向的声音则会受到抑制。此外，该方法运算量比较小，从而可以用在嵌入式平台中，适用范围更广。

附图说明

图1为本发明一实施例的采用加权叠加合成波束的语音降噪方法的流程示意图；

图2为本申请一实施例的采用加权叠加合成波束的语音降噪装置的结构示意框图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本申请实施例提供一种采用加权叠加合成波束的语音降噪方法，包括：

S1、将接收到的音频信号，生成对应预设的N个方向的方向向量的初始波束；

S2、通过VAD判断音频信号的初始权值向量是否需要更新，其中，初始权值向量为：ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]，ρ表征音频信号在每个方向上的相关性大小，φ表征音频信号在每个方向上的人声强度，ω为ρ和φ的合成向量；

S3、若是，则更新ρ和φ，得到更新后的ρ₁和φ₁；

S4、将ρ₁和φ₁合成得到新的ω₁；

S5、将ω₁与初始波束相乘叠加，得到最终的输出波束。

如上述步骤S1所述，可使用MVDR波束成形算法(MinimumVarianceDistortionless Response最小方差无畸变响应)进行波束成形，波束输出为

求得每个方向的波束，其中X(f)是音频输入信号，f是所在的频点，f＝0,1,...,K，K是FFT的点数，W_n(f)为MVDR的空域滤波系数，

是W_n(f)的共轭转置，其表达式为：

α_n(f)为导向向量，R_vv为噪声协方差矩阵。

如上述步骤S2所述，将接收到的音频信号通过VAD(Voice Activity Detection语音活动检测)判断是否更新权值向量ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]。

首先，根据接收到的音频信号设置一个VAD向量υ＝[v₁,v₂,...,v_T]，T为求取一次权值所需的帧长与VAD的帧长之比；由于后面求取权值向量所需帧长比VAD所需的要长，假设求一次权值所需的帧长为4096点，而VAD的帧长为512点，则帧长比为T＝8。当υ的元素前面部分是1，后面部分是0或者元素全是0，则不更新权值向量ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]，否则更新权值向量ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]。若更新，则进入下一步，若不更新，则直接跳到S5。因为语音尾部的混响比较强，这样做可以尽可能减少反射声的影响，同时也能节约运算量。

如上述步骤S3所述，求取权值向量ρ。

其中，求第n个权值的方法为：

p_n＝normalization{max[F(d_n,X),0]^γ}

其中，γ∈R⁺，其作用是为了让权值之间的差异更大，从而使得接近声源方向的波束拥有更大的权值。F(d_n,X)是输入信号X在给定的第n个方向向量时的SRP-PHAT(SteeredResponse Power-Phase Transform基于相位变换加权的可控响应功率)值，其表达式为：

其中R_ij[τ_ij(d_n)]为第i和第l个麦克风的接受信号的基于相位变换加权的广义互相关函数GCC-PHAT(Generalized Cross Correlation-Phase Transform基于相位变换加权的广义互相关)，其表达式为：

实际应用的时候可以选择直达语音最强的频段，以减少混响和噪声的影响。其中，

是X_l(f)的共轭，

τ_il(d_n)表示方向向量d_n到达第i个和第l个麦克风的到达时间差TDOA(Time Difference of Arrival到达时间差)。以r_i和r_l分别表示第i个和第l个麦克风的直角坐标向量，c为声速(大约342m/s)，则

其中，||·||表示向量的2-范数。

求取权值向量φ。

其中，求第n个权值的方法为：

q_n＝normalization{max[G(y_n),0]^ξ}

其中，y_n是时域中第n个波束的输出，ξ∈R⁺，其作用是为了让人声比较强的波束拥有更大的权值。normalization(·)是对数值求归一化，G(y_n)是第n个波束的峰度Kurtosis(峰度)，其表达式为：

其中，L是输出序列的长度，

是y_n平均值。

如上述步骤S4所述，将权值向量ρ与权值向量φ合并得到最终的权值向量ω。

求第n个权值的方法为：

w_n＝normalization(p_nq_n)

如上述步骤S5所述，权值向量ω与对应的初始波束相乘叠加，得到最终的输出波束：

在一个实施例中，上述将接收到的音频信号，生成对应预设的N个方向的初始方向向量的初始波束的步骤之前，包括：

S01、根据麦克风阵列参数构造N个方向的所述方向向量；

S02、给所述初始权值向量进行赋值，得到所述ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]。

其中，如上述步骤S01所述，根据麦克风阵列参数，在单位球上选取N个点，构造成N个方向向量[d₁,d₂,...,d_n,...,d_N]，n＝1,2,...,N。

可以根据所用的波束主瓣宽度，设置方向向量的密度。假设主瓣宽度为54°，那么N为：

ceil(·)表示向上取整。

也可以根据具体应用场景设置方向向量的覆盖范围，例如有些设备是贴着墙使用的，目标声源只存在于水平角0°到180°，仍然假设主瓣宽度为54°，那么，

本发明通过加权叠加波束成形后输出的波束经过了有效的降噪处理，最终输出的音频清晰自然。

本技术方案不唯一，仅为本发明较佳的具体实施方式。例如：方案中波束成形算法采用MVDR，可以考虑用SD(Superdirective beamforming，超指向型波束)，GSC(Generalized Sidelobe Canceller广义旁瓣相消器)等来替代。求权值的方法，基于广义互相关的SRP-PHAT，可以考虑基于波束能量的SRP来替代，Kurtosis(峰度)则可以采用基于子带能量的GMM(高斯混合模型)值来替代等。这体现了本发明技术方案的灵活性和可操作性，适用于多种应用场景。

参照图2，本申请实施例还提供一种采用加权叠加合成波束的语音降噪装置，包括：

接收生成单元10，用于将接收到的音频信号，生成对应预设的N个方向的方向向量的初始波束；

判断单元20，用于通过VAD判断音频信号的初始权值向量是否需要更新，其中，初始权值向量为：ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]，ρ表征音频信号在每个方向上的相关性大小，φ表征音频信号在每个方向上的人声强度，ω为ρ和φ的合成向量；

第一更新单元30，用于若通过VAD判定音频信号的初始权值向量需要更新，则更新ρ和φ，得到更新后的ρ₁和φ₁；

合成单元40，用于将ρ₁和φ₁合成得到新的ω₁；

叠加输出单元50，用于将ω₁与初始波束相乘叠加，得到最终的输出波束。

上述语音降噪装置的各个单元都可集成在一个主控芯片里，主控芯片可选用瑞芯微电子的RK3399。主控芯片完成了本申请上述的采用加权叠加合成波束的语音降噪方法的所有内容，多个步骤多种功能集成在一个芯片上，使得整个语音降噪装置具备体积小、重量轻、可靠性高、性能好的优点，同时成本低，便于大规模生产。

本发明基于传统的波束成形方法，提供一种采用加权叠加合成波束的语音降噪方法及装置，它不依赖声源定位，不仅解决了声源定位失配的问题，也有效增强了输出波束的鲁棒性，因而在声源位置变动的时候，输出语音的听感比较自然。本发明输出的波束可以指向人声比较强的方向从而增强语音，而其它方向的声音则会受到抑制。同时，该方法运算量比较小，从而可以用在嵌入式平台中。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种采用加权叠加合成波束的语音降噪方法，其特征在于，包括：

将接收到的音频信号，生成对应预设的N个方向的方向向量的初始波束；通过VAD判断所述音频信号的初始权值向量是否需要更新，其中，所述初始权值向量为：ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]，ρ表征所述音频信号在每个方向上的相关性大小，φ表征所述音频信号在每个方向上的人声强度，ω为ρ和φ的合成向量；

若是，则更新所述ρ和φ，得到更新后的ρ₁和φ₁；

将所述ρ₁和φ₁合成得到新的ω₁；

将所述ω₁与所述初始波束相乘叠加，得到最终的输出波束。

2.根据权利要求1所述的采用加权叠加合成波束的语音降噪方法，其特征在于：所述将接收到的音频信号，生成对应预设的N个方向的初始方向向量的初始波束的步骤之前，包括：

根据麦克风阵列参数构造N个方向的所述方向向量；

给所述初始权值向量进行赋值，得到所述ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]。

3.根据权利要求2所述的采用加权叠加合成波束的语音降噪方法，其特征在于：所述根据麦克风阵列参数构造N个方向的所述方向向量的步骤，包括：

4.根据权利要求1所述的采用加权叠加合成波束的语音降噪方法，其特征在于：所述将接收到的音频信号，生成对应预设的N个方向的方向向量的初始波束的步骤，包括：

将所述音频信号利用MVDR、SD以及GSC中的一种或多种波束成型算法，生成对应预设的N个方向的方向向量的初始波束。

5.根据权利要求1所述的采用加权叠加合成波束的语音降噪方法，其特征在于：

所述更新ρ和φ，得到更新后的ρ₁和φ₁的步骤中，

更新权值向量ρ＝[p₁,p₂,...,p_N]的算法为基于广义互相关的SRP-PHAT。

6.根据权利要求5所述的采用加权叠加合成波束的语音降噪方法，其特征在于：

所述更新ρ和φ，得到更新后的ρ₁和φ₁的步骤中，更新权值向量ρ＝[p₁,p₂,...,p_N]的算法还可以为：基于波束能量的SRP。

7.根据权利要求6所述的采用加权叠加合成波束的语音降噪方法，其特征在于：

所述更新ρ和φ，得到更新后的ρ₁和φ₁的步骤中，更新权值向量φ＝[q₁,q₂,...,q_N]的算法为：对N个初始波束求Kurtosis值。

8.一种采用加权叠加合成波束的语音降噪装置，其特征在于，包括：

判断单元，用于通过VAD判断所述音频信号的初始权值向量是否需要更新，其中，所述初始权值向量为：ρ＝[p₁,p₂,...,p_N]、φ＝[q₁,q₂,...,q_N]以及ω＝[w₁,w₂,...,w_N]，ρ表征音频信号在每个方向上的相关性大小，φ表征所述音频信号在每个方向上的人声强度，ω为ρ和φ的合成向量；

第一更新单元，用于若通过VAD判定所述音频信号的初始权值向量需要更新，则更新所述ρ和φ，得到更新后的ρ₁和φ₁；

合成单元，用于将所述ρ₁和φ₁合成得到新的ω₁；

叠加输出单元，用于将所述ω₁与所述初始波束相乘叠加，得到最终的输出波束。