CN110706717B

CN110706717B - 一种基于麦克风阵列板的人声检测定向方法

Info

Publication number: CN110706717B
Application number: CN201910842493.6A
Authority: CN
Inventors: 黄绍锋; 孙雅蓉; 张升辉; 刘晓霞; 靳冠军
Original assignee: Xi'an Hepu Accoustic Technology Co ltd
Current assignee: Xi'an Hepu Accoustic Technology Co ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2021-11-09
Anticipated expiration: 2039-09-06
Also published as: CN110706717A

Abstract

本发明属于声学信号处理技术领域，公开了一种基于麦克风阵列的人声检测定向方法，包括如下步骤：步骤1：利用麦克风阵列获取声源处的音频信号；步骤2：对步骤1获得的音频信号逐帧进行角度计算和人声判决，根据判决结果将每一帧标记为噪声信号或语音信号，输出判决为语音信号的帧和所在角度，直至音频信号的最后一帧判决结束，检测完成。本发明以较小的计算数据量，达到识别能量较大的语音信号。还能够有效滤除拍桌子、拍手、翻书等典型会议室噪声，具有较高的使用价值。

Description

一种基于麦克风阵列板的人声检测定向方法

技术领域

本发明属于声学信号处理技术领域，具体涉及一种基于麦克风阵列的人声检测定向方法。

背景技术

随着电子信息技术和声学技术的发展，基于麦克风阵列的声源定向技术越来越多地被应用在各种产品上，例如：视频会议系统伴随着智能化的发展，在人们的日常生活、学习、工作中越来越普及。

在一般视频会议系统中，往往需要对会议场景的音频和视频进行实时记录，要求快速识别发言人并将摄像头很快聚焦在发言人身上。目前摄像头聚焦一般需要通过用户手动操作来实现，导致视频切换不及时，聚焦精度低，且操作麻烦。在小型的会议场所，需要的麦克风和摄像头数量较多，而且需要专门的一套控制系统进行调控，相对比较复杂。同时由于会场上会产生拍手声，翻书声等噪声，加大了对于发言人方向测定的难度。

发明内容

本发明的目的在于提供一种基于麦克风阵列的人声检测定向方法，用以解决现有技术的会议系统中对于人声识别不准确且摄像头聚焦不够及时等问题。

为了实现上述任务，本发明采用以下技术方案：

步骤1：利用麦克风阵列获取声源处的音频信号；

步骤2：对步骤1获得的音频信号逐帧进行角度计算和人声判决，根据判决结果将每一帧标记为噪声信号或语音信号，输出判决为语音信号的帧和所在角度，直至音频信号的最后一帧判决结束，检测完成；

其中，对音频信号中每一帧的人声判决按照以下步骤执行：

步骤2.1：获取音频信号的当前帧,利用DOA算法计算当前帧所在的角度；

步骤2.2：计算当前帧的多种属性值，所述属性值包括语音存在概率、音频信号能量和音频信噪比，然后根据属性值依次进行人声判决，若当前帧被判决为人声信号则执行步骤2.3；

若当前帧被判决为噪声信号则令当前帧的帧数+1，返回步骤2.1；

步骤2.3：标记当前帧为人声信号，并输出当前帧所在的角度，然后令当前帧的帧数+1，返回步骤2.1。

进一步的，步骤2.2中根据属性值依次进行人声判决包括如下步骤：

步骤a：计算当前帧的语音存在概率q(n)，设定概率门限q_threshold，如果q(n)≥q_threshold，执行步骤b，否则当前帧判决为噪声信号；

步骤b：计算当前帧音频信号能量值E(n)，设定能量门限E_threshold，如果E(n)≥E_threshold，执行步骤c，否则当前帧判决为噪声信号；

步骤c：计算当前帧的音频信噪比SNR(n)，设定信噪比门限SNR_threshold，如果SNR(n)≥SNR_threshold，则将当前帧判决为人声信号，否则当前帧判决为噪声信号。

更进一步的，步骤a包括如下子步骤：

步骤a1：选择当前帧内符合人声频率范围的所有频点；

步骤a2：根据式1计算步骤a1得到的所有频点的人声概率：

其中，n为当前帧帧号，

是指当前帧第k个频点的人声概率，n、k为正整数，P_local(n,k)为与k相邻的M1个频点人声概率的平均值，P_global(n,k)为与k相邻的M2个频点人声概率的平均值，3≤M1≤M2≤31，P_frame(n)是当前帧的相邻帧的语音能量；

步骤a3：对步骤a2获得所有频点的人声概率取平均得到

对包括当前帧的连续L帧的

计算平均值，得到当前帧人声概率q(n)，1≤L≤4；

步骤a4：设定概率门限q_threshold，如果q(n)大于概率门限q_threshold，执行步骤b，否则判决为噪声信号。

更进一步的，所述人声频率范围为[500，4300]Hz。

进一步的，步骤b包括如下子步骤：

步骤b1：计算当前帧的音频短时能量E'(n)，根据式2获取能量门限E_threshold：

E_threshold＝gamma₁*E_threshold+(1.0-gamma₁)*E'(n) 式2

其中，E'(n)是当前帧的音频短时能量，gamma₁是调整参数，0≤gamma₁≤1；

步骤b2：对包括当前帧在内的连续四帧的E'(n)加权计算平均，得到当前帧能量值E(n)；

步骤b3：如果E(n)≥E_threshold，执行步骤c，否则判决为噪声信号。

更进一步的，步骤b1中，gamma₁＝0.9。

进一步的，步骤c包括如下子步骤：

步骤c1：计算当前帧中不同频点的能量P(n,k)、设定能量门限E_threshold，进行人声判决，其中，P(n,k)表示当前帧第k个频点的能量，n为当前帧帧号，n、k为正整数；

步骤c2：对步骤c1得到的所有频点能量进行判断，若当前帧中连续L个以上频点能量超过门限能量E_threshold，L≥2，则将超过门限值的频点能量标记为信号能量，表示为P_S(n,k₁)...p_s(n,k₁+L-1)，否则标记为噪声能量，表示为P_N(n,k₂)，其中，k₁...(k₁+L-1)表示连续L个超出门限能量的频点，k₂表示未达到门限能量的频点；

步骤c3：根据步骤C2得到的当前帧频点的信号能量和噪声能量，得到当前帧信噪比

步骤c4：设定信噪比门限SNR_threshold，如果SNR(n)≥SNR_threshold，判决当前帧为人声信号，否则判决为噪声信号。

更进一步的，步骤c4中，信噪比门限范围为6.0～20.0。

本发明与现有技术相比具有以下技术特点:

1、该发明以较小的计算数据量，达到识别能量较大的语音信号。

2、能够有效滤除拍桌子、拍手、翻书等典型会议室噪声，且运算量简单，具有较高的使用价值。

3、能够通过调节SNR_threshold、q_threshold来均衡噪声滤除和语音检测的效果。

附图说明

图1是本发明的处理流程图；

图2是数据实施方式中的流程图；

图3是人声检测验证效果图。

具体实施方式

实施例1

如图1和图2所示，本实施例中公开了一种基于麦克风阵列的人声检测定向方法，包括如下步骤：

步骤1：利用麦克风阵列获取声源处的音频信号；

其中，对音频信号中每一帧的人声判决按照以下步骤执行：

本发明利用麦克风阵列获取可能包含人声的语音信号，深入分析了会议系统所遇到的噪声与人声识别存在的问题，通过三层人声判决过滤会议系统所遇到的噪声，准确的检测出人声信号，为会议的良好进行奠基。

具体的，步骤2.2中根据属性值依次进行人声判决包括如下步骤：

优选的，步骤a包括如下子步骤：

步骤a1：选择当前帧内符合人声频率范围的所有频点；

步骤a2：根据式1计算步骤a1得到的所有频点的人声概率：

其中，n为当前帧帧号，

步骤a3：对步骤a2获得所有频点的人声概率取平均得到

对包括当前帧的连续L帧的

计算平均值，得到当前帧人声概率q(n)，1≤L≤4；

步骤a4：设定概率门限q_threshold，如果q(n)大于概率门限q_threshold，执行步骤b，否则判决为噪声信号。优选的，所述人声频率范围为[500，4300]Hz。

具体的，步骤b包括如下子步骤：

E_threshold＝gamma₁*E_threshold+(1.0-gamma₁)*E'(n) 式2

步骤b3：如果E(n)≥E_threshold，执行步骤c，否则判决为噪声信号。优选的，步骤b1中，gamma₁＝0.9。

具体的，步骤c包括如下子步骤：

更进一步的，步骤c4中，信噪比门限范围为6.0～20.0，可根据不同环境调节此值，在本实施例中E_threshold＝15。

实施例2

在本实施例中公开了一种基于麦克风阵列的人声检测方法，在实施例1的基础上，公开了基于麦克风阵列的人声检测方法在视频会议系统中的应用，同时，可将麦克风阵列板置于任何需要定位人声的智能设备中比如，教育录播系统的应用场景、审讯系统的应用场景等。

在本实施例中，基于麦克风阵列的人声检测方法主要用于检测会议现场中当前音频中每一帧的角度是否为人声角度，若经判断是人声，则将角度传给摄像头，带动摄像头水平移动，经过人脸识别技术实现发言人自动聚焦。

如图3所示，横轴为采样点数，纵轴为语音信号幅值，图中用虚线标记的位置对应纵轴的值为1，表示虚线标记处的语音信号为人声，其他地方为噪声。可以看到，只有能量较大的语音端才能判决为1，算法可以有效滤除拍桌子、拍手、翻书等典型会议室噪声，且运算量简单，具有较高的使用价值。

Claims

1.一种基于麦克风阵列的人声检测定向方法，其特征在于，包括如下步骤：

步骤1：利用麦克风阵列获取声源处的音频信号；

其中，对音频信号中每一帧的人声判决按照以下步骤执行：

步骤2.3：标记当前帧为人声信号，并输出当前帧所在的角度，然后令当前帧的帧数+1，返回步骤2.1；

所述步骤2.2中根据属性值依次进行人声判决包括如下步骤：

步骤c：计算当前帧的音频信噪比SNR(n)，设定信噪比门限SNR_threshold，如果SNR(n)≥SNR_threshold，则将当前帧判决为人声信号，否则当前帧判决为噪声信号；

所述步骤a包括如下子步骤：

步骤a1：选择当前帧内符合人声频率范围的所有频点；

步骤a2：根据式1计算步骤a1得到的所有频点的人声概率：

其中，n为当前帧帧号，

步骤a3：对步骤a2获得所有频点的人声概率取平均得到

对包括当前帧的连续L帧的

计算平均值，得到当前帧人声概率q(n)，1≤L≤4；

步骤a4：设定概率门限q_threshold，如果q(n)大于概率门限q_threshold，执行步骤b，否则判决为噪声信号；

所述步骤c包括如下子步骤：

2.如权利要求1所述的基于麦克风阵列的人声检测定向方法，其特征在于，所述人声频率范围为[500，4300]Hz。

3.如权利要求1所述的基于麦克风阵列的人声检测定向方法，其特征在于，步骤b包括如下子步骤：

E_threshold＝gamma₁*E_threshold+(1.0-gamma₁)*E'(n) 式2

4.如权利要求3所述的基于麦克风阵列的人声检测定向方法，其特征在于，步骤b1中，gamma₁＝0.9。

5.如权利要求1所述的基于麦克风阵列的人声检测定向方法，其特征在于，步骤c4中，信噪比门限范围为6.0～20.0。