CN117037830A

CN117037830A - 一种麦克风阵列的拾音方法、电子设备及存储介质

Info

Publication number: CN117037830A
Application number: CN202311111347.9A
Authority: CN
Inventors: 蔡野锋; 叶超; 马登永; 沐永生
Original assignee: Zhongke Shangsheng Suzhou Electronics Co ltd
Current assignee: Zhongke Shangsheng Suzhou Electronics Co ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-11-10
Also published as: CN113470681A; CN113470681B

Abstract

本发明公开了一种麦克风阵列的拾音方法、电子设备及计算机可读存储介质。该拾音方法包括如下步骤：对麦克风阵列接收的语音信号进行固定波束形成，将麦克风阵列的波束形成方向指向估计的预期波达方向；对处理后的语音信号进行阻塞处理，以阻塞来自预期波达方向的语音信号，只保留非预期波达方向的语音信号；以处理后的信号作为参考信号，通过第一滤波器滤除非预期波达方向的信号，保留预期波达方向的信号；根据下式(I)计算第一滤波器的更新因子，为第m个麦克风通道的第一滤波器的更新因子，SNR_f,d(ω,l)为Y_f,d(ω,l)的信噪比，Y_f,d(ω,l)为步骤S1处理后的信号经延迟处理后的延迟信号，SNR_m(ω,l)为步骤S2处理后的信号U_m(ω,l)的信噪比。本发明进一步提高语音质量。

Description

一种麦克风阵列的拾音方法、电子设备及存储介质

本申请是申请日为2021年5月21日、申请号为202110556564.3的发明的分案申请。

技术领域

本发明属于麦克风阵列拾音领域，涉及一种鲁棒性麦克风阵列拾音方法、电子设备及计算机可读存储介质。

背景技术

视频会议系统是人们协同办公的必备工具，线上协同办公模式越来越受青睐，语音拾音作为视频会议系统的重要入口因此受到了广泛关注。当前视频会议系统的主流拾音方式是单麦拾音，虽然单麦拾音实现简单，但受限于灵敏度、复杂声反射环境等因素，拾音距离较短，而麦克风阵列拾音通过利用更多的空间信息，具有增益高、抑制噪声和混响能力强等优点，可以进一步加强拾音距离。

广义旁瓣消除(Generalized Sidelobe Cancelling,GSC)算法由于能够将约束最优问题转化为无约束问题，因此在麦克风阵列拾音工程中得到了广泛应用。传统的GSC算法对误差比较敏感，方向失配、麦克风通道不一致、混响等因素都会导致期望信号对消，从而降低语音质量，尽管在后续发展中有了一系列改进，但存在不足。

发明内容

本发明的目的是提供一种麦克风阵列的拾音方法、电子设备及计算机可读存储介质，进一步提高语音质量。

根据本发明的第一个方面，一种麦克风阵列的拾音方法，包括如下步骤：

S1、对麦克风阵列接收的语音信号进行固定波束形成，将所述麦克风阵列的波束形成方向指向估计的预期波达方向；

S2、对步骤S1处理的语音信号进行阻塞处理，以阻塞来自所述预期波达方向的信号，只保留非预期波达方向的信号；

S3、以步骤S2处理后的信号作为参考信号，通过第一滤波器滤除步骤S1处理后的语音信号中的非预期波达方向的信号，保留所述预期波达方向的信号；

所述拾音方法还包括如下步骤：

S4、根据下式(I)计算步骤S3中第一滤波器的更新因子，更新第一滤波器的系数，

其中，为第m个麦克风通道的第一滤波器的更新因子，SNR_f,d(ω,l)为Y_f,d(ω,l)的信噪比，Y_f,d(ω,l)为步骤S1处理后的信号Y_f(ω,l)经延迟处理后的延迟信号，SNR_m(ω,l)为步骤S2处理后的信号U_m(ω,l)的信噪比，m＝1…M，M是麦克风通道数，ω是角频率，l是帧下标。

根据一个优选方面，步骤S4具体包括：

S4-1、估计出Y_f,d(ω,l)中的噪声，将Y_f,d(ω,l)的能量除以该噪声，获得信噪比SNR_f,d(ω,l)；

S4-2、估计出U_m(ω,l)中的噪声，将U_m(ω,l)的能量除以该噪声，获得信噪比SNR_m(ω,l)；

S4-3、根据式(I)计算更新因子，根据式对第一滤波器的系数进行自适应更新，其中，/>是当前帧的第一滤波器的系数，是下一帧的第一滤波器的系数，μ为步长因子，Y(ω,l)为步骤S3处理后的信号输出，Y(ω,l)^*为Y(ω,l)的共轭，/>为U_m(ω,l)的平滑能量。

根据一个优选方面，步骤S2中，采用第二滤波器对步骤S1处理后的语音信号进行阻塞处理，所述拾音方法还包括如下步骤：

S5、根据下式(II)计算步骤S2中的第二滤波器的更新因子，更新第二滤波器的系数，

其中，为第m个麦克风通道的第二滤波器的更新因子，/>为Y_f(ω,l)的平滑能量，/>为U_m(ω,l)的平滑能量，THR_BM为预设阀值参数。

更优选地，步骤S5具体包括：

S5-1、估计Y_f(ω,l)的平滑能量

S5-2、估计U_m(ω,l)的平滑能量

S5-3、根据式(II)计算更新因子，根据式

对第二滤波器进行自适应更新，其中/>是当前帧的第二滤波器的频域系数，/>是下一帧的第二滤波器的中间频域系数，U_m(ω,l)^*为U_m(ω,l)的共轭，/>是Y_f(ω,l)经过概率补偿后的信号Y_c(ω,l)的平滑能量，μ为步长因子；

将频域系数转换为时域系数/>其中n_l+1是离散时间下标，并根据下式对/>做约束，

将约束完以后的再做FFT变换转化为下一帧的第二滤波器频域系数进入下一轮的滤波和系数更新，其中low_bound_m(n_l+1)和high_bound_m(n_l+1)分别为预设滤波器系数的上限和下限；

滤波器系数上下限作如下限定：

其中max{}是取最大数，t_max是在允许波达方向空间[θ-θ_err,θ+θ_err]两通道之间的最大延迟，θ是预期波达方向，θ_err是允许的最大方向误差。

根据一个优选方面，所述步骤S2具体包括：

S2-1、对步骤S1处理后的语音信号进行延迟形成信号Z_m,d(ω,l)；

S2-2、根据各麦克风通道的所述信号Z_m,d(ω,l)的相位差估计信号存在波达方向一定范围内[θ-θ_err,θ+θ_err]的概率，θ是预期波达方向，θ_err是允许的最大方向误差；

S2-3、根据式Y_c(ω,l)＝Prob(ω,l)Y_f(ω,l)进行概率补偿得到Y_c(ω,l)；

S2-4、根据式滤波输出，其中，/>是第m个麦克风通道的第二滤波器的频域系数；

S2-5、对第二滤波器的系数进行自适应更新。

更优选地，步骤S2-2具体如下：

S2-2-1、根据式将相邻麦克风通道的相位进行相减获得相位差/>其中angle{}为取信号相位，unwrap{}为通过连续相加或相减2π让相位差/>处在区间[-π,π]之内，Z_m+1,d(ω,l)和Z_m,d(ω,l)分别为相邻两个麦克风通道经延迟处理的信号；

S2-2-2、根据式将相位差/>转化为时间差/>

S2-2-3、根据允许的最大范围误差角度θ_err，换算成允许的最大时间差如果真实获得的时间差/>在/>之内，则认为此时期望信号大概率存在允许的波达方向空间内，如果不在此区间内，则认为此时期望信号大概率不存在允许的波达方向空间内；预先设定概率函数/>在/>内尽量为1，在此区间外尽量为0，其中s和α为预设参数；根据预设的概率函数Pr(t)和时间差/>换算出概率Prob_m(ω,l)，则令信号存在允许波达方向空间内的总概率因子为

S2-2-4、对总概率因子Prob(ω,l)进行纠正，令其如下式所示，

其中，ω₀为预设的分界频率。

进一步地，s满足当时，Pr(t)＝0.707。

根据一个优选方面，步骤S1中，根据估计的波达方向对麦克风接收信号X_m(ω,l)进行延迟操作获得Z_m(ω,l)，其中，X_m(ω,l),m＝1…M为麦克风阵列接收信号的STFT变换，将信号Z_m(ω,l)送入步骤S2中；对延迟对齐以后的信号进行相加获得信号将信号Y_f(ω,l)进行延迟处理后得到信号Y_f,d(ω,l)并送入步骤S3中。

根据一个优选方面，步骤S3中，根据式进行滤波输出，其中/>是第一滤波器的系数。

优选地，第一滤波器为NAF滤波器。

优选地，第二滤波器为CCAF滤波器。

根据本发明的第二个方面，一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的拾音方法。

根据一个优选且具体的方面，所述电子设备为远程会议设备。

根据本发明的第三个方面，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现如上所述的拾音方法。

本发明采用以上方案，相比现有技术具有如下优点：

本发明的拾音方法，可以在整个频段内较好的滤除预设波达方向的信号，同时保留输出非预设波达方向的信号，可以有效降低波达方向估计误差的敏感度，同时利用信噪比估计确定何时更新MC滤波器系数更新，进一步提高语音质量。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种拾音方法的示意图；

图2为根据本发明实施例对第一滤波器的更新原理示意图；

图3为麦克风阵列示意图；

图4为估计人声方向为0度时的仿真结果图；

图5为估计人声方向为10度时的仿真结果图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域的技术人员理解。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

参照图1所示，麦克风阵列拾取的语音信号经过FBF、ABM、MC及Control四个部分的模块处理。下面对各个部分的运行过程进行详细描述。

FBF(Fixed Beamforming)模块：固定波束形成，将固定麦克风波束形成方向指向估计的波达方向，增强来自波达方向的语音。

1、如图1所示，X_m(ω,l),m＝1…M为麦克风接收信号的STFT变换，M是麦克风通道数，ω是频率，l是帧下标。

2、图1中steering是根据估计的波达方向对麦克风接收信号X_m(ω,l)进行延迟操作获得Z_m(ω,l)，让来自波达方向的信号在时间上对齐。

3、对延迟对齐以后的信号进行相加

ABM(Adaptive Blocking Matrix)模块：用于阻塞来自波达方向θ的信号，只保留非波达方向的信号。一种常用的固定方式是将延迟对齐以后的信号Z_m(ω,l)进行两两相减，因为理论上对齐以后来自波达方向θ的信号一致，通过相减可以获得非波达方向的信号。但是在实际情况下，估计的波达方向和真实波达方向θ之间的误差会导致BM模块输出的信号中含有波达方向θ的信号，即期望信号泄露现象，从而会导致后续MC(Multiple-input Canceller)模块存在期望信号自消现象。为了解决此问题，本实施例采用联合空间信号存在概率因子和CCAF(Coefficient-constrained adaptive filters)约束的自适应滤波器去降低期望信号泄露现象。

1、delay模块延迟，为确保自适应滤波器因果性需要添加的延迟，经过延迟以后的信号为Z_m,d(ω,l)。

2、Prob{}是根据各通道信号的相位差估计信号存在波达方向一定范围内[θ-θ_err,θ+θ_err]的概率，θ_err是允许的最大方向误差。

2.1、是将相邻通道的相位进行相减获得相位差，其中angle{}为取信号相位，因为相位以2π为周期，因此unwrap{}通过连续相加或相减2π，让相位差/>处在区间[-π,π]之内。

2.2、将相位差转化为时间差ω为角频率。

2.3、如果估计的波达方向和真实波达方向θ之间无误差，则时间差/>为0，否则不为0，根据允许的最大范围误差角度θ_err，换算成允许的最大时间差/>如果真实获得的时间差在/>之内，则认为此时期望信号大概率存在允许的波达方向空间内，如果不在此区间内，则认为此时期望信号大概率不存在允许的波达方向空间内。预先设定一个概率函数/>在/>尽量为1，在此区间外尽量为0,其中s和α为预设参数，其中α为控制从预设时间范围之内到范围之外的陡峭程度，数值越大越陡峭，在确定完α的基础上，调整s满足当/>时，Pr(t)＝0.707。根据预设的概率函数Pr(t)和时间差/>换算出概率Prob_m(ω,l)，则令信号存在允许波达方向空间内的总概率因子为/>

2.4、考虑到在中高频处，在实际环境中由于受散射影响，中高频处相位差未必准确，因此在中高频处不考虑概率因子，令其为1，因此最终纠正后的总概率因子为，其中ω₀为预设的分界频率：

3.Y_c(ω,l)＝Prob(ω,l)Y_f(ω,l)。

4.滤波输出：其中U_m(ω,l)和/>分别是第m通道输出和第二滤波器。

5.第二滤波器系数更新，第二滤波器即图1中的CCAF滤波器采用常用的NLMS算法在频域中进行自适应滤更新。

其中U_m(ω,l)^*为U_m(ω,l)的共轭，μ为步长因子，/>为Y_c(ω,l)的平滑能量，/>为更新因子，只能取1或者0，由Control模块产生。

在更新完频域滤波器系数以后，需要将频域系数转换为时域系数其中n_l+1是离散时间下标，并对/>做约束

将约束完以后的再做FFT变换转化为/>进入下一轮的滤波和系数更新，其中low_bound_m(n_l+1)和high_bound_m(n_l+1)分别预设的滤波器系数的上限和下限。通过预设滤波器系数的上限和下限，可以将ABM的输出信号只保留除波达方向以外的信号。滤波器系数上下限一般做如下限定：

其中max{}是取最大数，t_max是在允许波达方向空间[θ-θ_err,θ+θ_err]，两通道之间的最大延迟。

CCAF算法核心是通过对滤波器系数做上下限限制来约束滤波器只滤除预设波达方向的信号，保留输出非预设波达方向的信号，而按照上述公式选择的限制在低频处仍会存在非预设波达方向的信号，不利于后续MC模块消除非预设波达方向的信号。而利用相位差判断信号是否处在预设波达方向在低频处较准，因此通过相位差判断信号是否处在预设波达方向内，如果存在，则概率接近为1，CCAF的参考输入信号基本不变，因此有利于CCAF去除预设波达方向内的信号，如果不存在，则则概率接近为0，CCAF的参考输入信号基本为0，因此无论怎么更新，都无法去除非预设波达方向内的信号，有利于后续MC模块进一步消除噪声。

ABM模块利用联合空间信号存在概率因子和CCAF(Coefficient-constrainedadaptive filters)约束的自适应滤波器，可以在整个频段内较好的滤除预设波达方向的信号，同时保留输出非预设波达方向的信号。

MC(Multiple-input Canceller)模块：利用ABM的模块输出U_m(ω,l)作为参考信号，滤除FBF输出信号中的非预设波达方向的信号，最大化只保留预设波达方向的信号。

1.滤波输出：其中/>是第一滤波器即图1中的自适滤波器NAF的系数。

2.第一滤波器系数更新，NAF采用常用的NLMS算法在频域中进行自适应滤更新，同时对滤波器系数能量做限幅，如果总能量超过预设值，则按预设值进行归一化，否则保持不变。

其中Y(ω,l)^*为Y(ω,l)的共轭，μ为步长因子，为U_m(ω,l)的平滑能量，为更新因子，只能取1或者0，由Control模块产生。

Control模块：通过各种约束，ABM仍会存在少量预设波达方向的信号，如果这部分信号为语音信号，此时仍对MC模块进行更新滤波，则会损伤输出的语音。为降低损伤语音，需要判断何时进行更新滤波器系数。Control模块中C是指比较器，SNR是指求信噪比，E是指求平滑能量。

产生：

1、估计Y_f(ω,l)的平滑能量

2、估计第m通道U_m(ω,l)的平滑能量

3、其中THR_BM是预设阀值参数。

产生：

1、估计Y_f,d(ω,l)的信噪比SNR_f,d(ω,l)：

1.1、利用噪声方法估计出Y_f,d(ω,l)中的噪声，常用的单声通道噪声估计mcra方法，参考书籍“Loizou,Philipos C，《Speech Enhancement:Theory and Practice》”；

1.2、将Y_f,d(ω,l)的能量除以1.1中的噪声，获得当前信噪比SNR_f,d(ω,l)；

2、同理估计U_m(ω,l)的信噪比为SNR_m(ω,l)；

3、

更新原理描述如下：

参见图2，

令

v₁(ω)＝a₁s(ω)+b₁n(ω) (1)

v₂(ω)＝a₂s(ω)+b₂n(ω) (2)

g(ω)＝v₁(ω)-hv₂(ω) (3)

其中s(ω)是语音信号，n(ω)是噪声信号，ω为角频率，a₁、a₂、b₁和b₂是对应的权重系数，v₁(ω)作为期望信号，v₂(ω)为参考输入信号，则最优问题表达式为(下面为简单，省略符号ω)：

其中E{}为求期望值。对公式(4)进行最优化求解可得最优解为：

将公式(1)、(2)和(6)代入(3)可得

定义输入信噪比

定义输出信噪比

期望在经过自适应滤器以后，输出信号g的信噪比SNR_o要大于原始信号v₁的信噪比SNR₁

其中将其代入公式(10)并化解得

其中

将公式(12)代入公式(11)得

因此如果想提升信噪比，得SNR₁SNR₂小于1。

本算法中的ABM模块利用联合空间信号存在概率因子和CCAF(Coefficient-constrained adaptive filters)约束的自适应滤波器，可以在整个频段内较好的滤除预设波达方向的信号，同时保留输出非预设波达方向的信号，可以有效降低波达方向估计误差的敏感度，同时利用信噪比估计确定何时更新MC滤波器系数更新，进一步提高语音质量。

仿真例

参照图3所示，采用的麦克风阵列为三元均匀分布圆阵，以逆时旋转计算角度，三元阵角度分别为[90，210，330]度，圆周半径为4cm，目标人声处在0度方向，噪声源处在110度方向，信噪比为0dB，算法ABM中分界频率点为300Hz，概率函数中的α设为4，最大允许误差方向为±10度，滤波器阶数为160，步长因子为0.1，延迟p为80，MC中滤波器阶数为160，中步长因子为0.1，延迟q为100，滤波器总约束能量开方值设为0.2。控制模块中THR_BM取0.5。仿真时所用的信噪比约为6dB。

采用传统的GSC方法和本实施例的robust-gsc方法进行仿真，结果比对如下。

估计人声方向为0度，即无误差，结果参见表1和图4。

表1

	gsc	robust-gsc
			降噪(dB)	23.1421	18.0317
PESQ	1.7943	2.3794

估计人声方向为10度，即存在误差为10度，结果参见表2和图5。

表2

	gsc	robust-gsc
			降噪(dB)	22.5463	17.8811
PESQ	1.3403	2.3817

从仿真中可以看出，在无误差的情况下，虽然robust-gsc的降噪比传统的gsc差一点，但是pesq值有较大提高，语音质量得到明显改善，而在有误差的情况下，传统的gsc语音质量会进一步下降，语音信号几乎全被消没了。因此提出的robust-gsc无论是降噪量还是pesq值并没有明显降低。

上述实施例只为说明本发明的技术构思及特点，是一种优选的实施例，其目的在于熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限定本发明的保护范围。凡根据本发明的精神实质所作的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种麦克风阵列的拾音方法，包括如下步骤：

其特征在于，所述拾音方法还包括如下步骤：

S4、根据下式(I)计算步骤S3中第一滤波器的更新因子，根据计算得到的所述更新因子更新第一滤波器的系数，

2.根据权利要求1所述的拾音方法，其特征在于，步骤S4中，所述第一滤波器为自适应滤波器，所述自适应滤波器采用NLMS算法在频域中进行自适应更新。

3.根据权利要求1所述的拾音方法，其特征在于，步骤S2中，采用第二滤波器对步骤S1处理后的语音信号进行阻塞处理，所述拾音方法还包括如下步骤：

S5、根据下式(II)计算步骤S2中的第二滤波器的更新因子，所述第二滤波器为CCAF滤波器，所述CCAF滤波器根据所述第二滤波器的更新因子采用NLMS算法在频域中自适应更新第二滤波器的系数，

4.根据权利要求3所述的拾音方法，其特征在于，步骤S5具体包括：

S5-1、估计Y_f(ω,l)的平滑能量

S5-2、估计U_m(ω,l)的平滑能量

S5-3、根据式(II)计算更新因子，根据式

对第二滤波器进行自适应更新，其中/>是当前帧的第二滤波器的频域系数，/>是下一帧的第二滤波器的中间频域系数，U_m(ω,l)^*为U_m(ω,l)的共轭，P^Yc(ω,l)是Y_f(ω,l)经过概率补偿后的信号Y_c(ω,l)的平滑能量，μ为步长因子；

滤波器系数上下限作如下限定：

5.一种麦克风阵列的拾音方法，包括如下步骤：

其特征在于，步骤S2具体包括：

S2-3、根据式Y_c(ω,l)＝Prob(ω,l)Y_f(ω,l)得到Y_c(ω,l)；

S2-5、对第二滤波器的系数进行自适应更新。

6.根据权利要求5所述的拾音方法，其特征在于，步骤S2-2具体如下：

S2-2-2、根据式将相位差/>转化为时间差/>

S2-2-4、对总概率因子Prob(ω,l)进行纠正，令其如下式所示，

其中，ω₀为预设的分界频率。

7.根据权利要求6所述的拾音方法，其特征在于，s满足当时，Pr(t)＝0.707。

8.根据权利要求5所述的拾音方法，其特征在于，步骤S1中，根据估计的波达方向对麦克风接收信号X_m(ω,l)进行延迟操作获得Z_m(ω,l)，其中，X_m(ω,l),m＝1…M为麦克风阵列接收信号的STFT变换，将信号Z_m(ω,l)送入步骤S2中；对延迟对齐以后的信号进行相加获得信号将信号Y_f(ω,l)进行延迟处理后得到信号Y_f,d(ω,l)并送入步骤S3中；

步骤S3中，根据式进行滤波输出，其中/>是第一滤波器的系数。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述的拾音方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1至8任一项所述的拾音方法。