CN103248992B

CN103248992B - 一种基于双麦克风的目标方向语音活动检测方法及系统

Info

Publication number: CN103248992B
Application number: CN201210027677.5A
Authority: CN
Inventors: 国雁萌; 李凯; 姜开宇; 付强; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-02-08
Filing date: 2012-02-08
Publication date: 2016-01-20
Anticipated expiration: 2032-02-08
Also published as: CN103248992A

Abstract

本发明涉及一种基于双麦克风的目标方向语音活动检测方法及系统，包含：步骤101)获取两通道每个时频点上的相位差信息；步骤102)输入感兴趣的目标方向区域，计算目标方向区域所对应的相位差范围；步骤103)依据确定的各时频点的相位差信息及目标方向相位差范围，确定步骤101)的各时频点上的信号是否来自于目标方向范围内；步骤104)将第k帧开始的L帧语音信号作一个分析窗，每帧信号有Q个频率点，如果分析窗内的每个频率点分量有不少于μ帧信号在该频率分量上判断属于目标方向，则判断该频率分量上存在目标语音，否则判频率分量上不存在目标语音，如果存在目标语音的频率分量的个数超过阈值ξ，则将该分析窗内的连续L帧信号最终判断为存在目标语音。

Description

一种基于双麦克风的目标方向语音活动检测方法及系统

技术领域

本发明涉及一种语音活动检测方法。更具体地说，本发明涉及一种基于双麦克风的目标方向语音活动检测方法及系统。

背景技术

随着语音信号处理技术的应用领域不断扩大，近讲式的语音输入方式由于不够轻松方便，越来越不能满足人们的需求。而远讲式语音通信和语音识别等系统如果利用单麦克风采音，则容易受到环境中各类噪声干扰的影响，无法做到稳健可靠。因此，在远讲式语音处理系统中，往往利用麦克风阵列采集声音信号。由于麦克风阵列具有对声音的空间选择能力，而用户语音的到达方向一般属于一个固定或可预知的范围,通过该检测目标方向区域内的语音活动，就可以更准确的判定用户话音的起止情况,而不受区域外其它声源的干扰。

常见的目标方向语音检测方法主要通过空间滤波技术、通道之间的相关性或者通道之间的到达时延差判断目标方向是否存在声源。其中，基于到达时延差的方法在可靠性、对硬件的依赖性和计算量方面都能达到较好的平衡，因而具有较好的通用性。到达时延差可以通过通道间相关函数或相位差进行估计。通道间相关函数方法存在计算量大和易受散射噪声干扰的缺点，而相位差方法尽管灵敏度高，但它只有在目标语音信号能量较高的时频点上才能指示出波达方向，所以仅依靠单个时频点上的相位差也不够可靠。为此，常见的相位差方法一般都将多个时频点上的相位差结合起来判断波达方向。例如，2007年JuanE.Rubio等人利用各时频点上的相位差计算波达方向估计值，再根据各时频点波达方向的一致性判断是否存在语音信号。但由于该方法对计算相位差的频率范围没有限制，影响了利用相位差估计波达方向的可靠性。另外，该方法只考虑了波达方向的一致性,不能区别来自目标区域内外的声音。最重要的是，该方法在对时频区域分块时也非常简单，不能利用语音信号在时频特征上所特有的谐波结构特点，即语音能量主要分布在谐波结构上的特点，所以检测语音信号的灵敏度不高。

发明内容

本发明要解决的技术问题是提供一种基于双麦克风的目标方向语音活动检测方法。本发明的目的在于通过新的目标方向语音活动检测方法，一方面提高对目标方向内语音活动检测的灵敏度，另一方面保持较低的计算复杂度。

为实现上述目的，本发明提供了一种基于双麦克风的目标方向语音活动检测方法，该方法用于检测某段时间内是否存在来自目标方向的语音信号，所述方法包含：

步骤101)用于实时连续获取两麦克风通道在每个时频点上的相位差信息；

步骤102)输入感兴趣的目标方向区域，计算该目标方向区域所对应的相位差的范围；

步骤103)依据步骤101)确定的各时频点的相位差信息及步骤102)确定的目标方向相位差范围，确定步骤101)的各时频点上的信号是否来自于目标方向范围内；

步骤104)将第k帧开始的L帧语音信号作为一个分析窗，其中每帧信号具有Q个频率点，对分析窗内的每个频率点分量，如果有不少于μ(0<μ<L)帧信号在该频率分量上判断属于目标方向，则判断该频率分量上存在目标语音，否则判频率分量上不存在目标语音，如果存在目标语音的频率分量的个数超过阈值ξ(0<ξ<Q)，则将该分析窗内的连续L帧信号最终判断为存在目标语音；

步骤105)将上步骤中长度为L的分析窗向后移动1帧，重新判断目标方向语音存在情况，直至分析窗内的各时频点分析完成后重复步骤103)和步骤104)，最终实现检测某段时间内是否存在来自目标方向的语音信号。

上述技术方案中，所述步骤101)在频率范围内计算两麦克风通道的相位差，以保证相位差与波达方向之间不存在因相位卷绕引起的多值映射关系。

上述技术方案中，所述步骤101)进一步包含如下子步骤：

步骤101-1)对双麦克风阵列中每一通道的数字化声音信号进行分帧和加窗，并用傅里叶变换计算其频谱，获得两通道在每个时频点上的相位信息；

步骤101-2)依据两通道在每个时频点上的相位信息计算两通道相位之差并将其限制在(-π,π)范围，获得最终的相位差；其中f代表频率，单位是Hz，k是帧的编号。

上述技术方案中，所述步骤102)具体步骤为：

根据几何关系计算目标方向区域对应的目标方向相位差范围，该范围表示为：Ψ_min(f)＜ψ_k(f)＜Ψ_max(f)，设目标方向θ的范围是θ_min＜θ＜θ_max，则其中，c值为340，表示声速，单位为米/秒；d为两麦克风之间的距离，单位为米。

上述技术方案中，所述步骤103)的具体步骤为：对一帧信号中频率范围的Q个频率分量，如果Ψ_min(f)<ψ_k(f)＜Ψ_max(f)，则判断该时频点的信号波达方向在目标方向范围之内，即该时频点的信号来自目标方向范围之内，否则认为该时频点的信号来自目标方向范围之外。

上述技术方案中，所述步骤104)进一步包含如下子步骤：

以第k帧开始的L帧信号作为一个分析窗，且每帧信号具有Q个有用频率点；

分别对分析窗内的每个频率点分量进行分析，如果在L帧信号中至少有μ帧信号在该频率分量上判断属于目标方向，则判断该频率分量上存在目标语音，否则判该频率分量上不存在目标语音；如果判为存在目标语音的频率点个数超过阈值ξ，则判断该分析窗内的连续L帧信号所持续的时间段内存在目标语音；

其中，所述μ的取值范围为0<μ<L，所述0<ξ<Q。

基于上述方法本发明还提供了一种基于双麦克风的目标方向语音活动检测系统，该系统用于检测某段时间内是否存在来自目标方向的语音信号，所述系统包含：

相位差获取模块，用于获取双麦克风两通道信号在各个时频点上的相位差信息；

目标方向相位差确定模块，用于计算目标方向区域对应的目标方向在每个频率分量上所对应的相位差的范围；

时频点范围判断模块，用于根据每个时频点上的相位差与确定的目标方向相位差的范围进行比较，确定各时频点上的信号是否在目标方向范围内；

确定某瞬时是否存在语音的模块，用于将连续若干帧组成分析窗，并利用时频点范围确定模块输出的检测结果，判断分析窗内的若干连续帧信号是否存在目标方向的语音；

确定某较长连续时间段内目标方向的语音活动的模块，用于将长度为L的分析窗向后移动1帧，并根据上述步骤判断目标方向语音是否存在，由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在语音”的判断，则认为该帧信号存在目标语音。

其中，所述优化的分块策略为：先将连续几帧信号同频率的时频点组合起来并判断该频率点上是否有来自目标方向的声音，然后再将各个频率点的判断结果结合起来，得到最终判断结果。

上述技术方案中，所述相位差获取模块进一步包含如下子模块：

短时傅里叶分析子模块，用于对每通道的信号做分帧、加窗和傅里叶变换，获得每帧信号在各个频率点上的相位；

相位差计算子模块，用于计算各时频点上的相位之差，并将其限制在(-π,π)范围，获得最终的相位差。

上述技术方案中，所述确定某瞬时是否存在语音的模块进一步包含如下子模块：

分析窗生成模块，用于将从以第k帧开始的连续L帧信号作为一个分析窗，且每帧信号具有Q个频率点；

时频点范围判断模块，对该分析窗内的每个时频点，根据其相位差情况，判断其是波达方向是否位于目标方向范围内；

初步判断子模块，用于检测每个频率分量是否来自目标方向范围，即对分析窗内的每个频率分量，如果有不少于μ帧信号在该频率分量上判断属于目标方向，则判断该频率分量上存在目标语音，否则判该频率分量上不存在目标语音；

最终判决子模块，用于依据初步判断子模块的判断结果进行最终判断，即如果判为存在目标语音的频率点个数超过阈值ξ，则将该分析窗内的连续L帧信号判断为存在目标语音；

其中，所述μ的取值范围为0<μ<L，所述0<ξ<Q。

上述技术方案中，所述确定某较长连续时间段内目标方向的语音活动的模块将某时间段内以每帧信号为开头的L帧信号作为分析窗，判断该分析窗内是否存在目标语音，获得其中每帧信号的检测结果，由于一帧信号可能会存在于最多L个分析窗中，只要其中任一个分析窗做出了“存在语音”的判断，则认为该帧信号存在目标语音。

本发明的优点在于：由于计算相位差过程中通过限制频率范围实现了相位差到波达方向的单值映射，从而提高了根据相位差特征估计波达角度的可靠性。该方法在检测过程中利用了连续L帧信号在Q个频率点上的相位差情况，从而能将较大时频块的相位差信息结合起来，减小了相位差随机波动而导致的判断错误。由于该方法在第4步中先结合了多帧信号在同一频率上的相位差，从而对目标语音的每条谐波都比较敏感，进而在全局统计时结合了多个频带的谐波判断结果，从而对语音信号的整体谐波结构更加灵敏，不易受到散射噪声和其它方向性噪声的干扰。同时，该方法还具有较低的计算复杂度。

附图说明

图1是波达方向与麦克风位置的关系图；

图2是本发明的语音信号检测方法的实现框图。

具体实施方式

下面结合具体实施例和附图对本发明进行详细描述。

为了达到上述目的，本发明提供了一种基于双麦克风的目标方向语音活动检测方法，其框架是统计通道间相位差在各时频点上的分布情况，从而判断目标方向上是否存在语音信号。具体包括以下步骤：

1)对麦克风阵列中每一通道的数字化声音信号分帧并加窗后，用短时傅里叶变换计算其短时谱，并获得两通道在每个时频点上的相位，两相位之差为其中f代表频率，单位是Hz，k是帧的编号。的范围是(-2π,2π)。如果通过±2π将范围限制到(-π,π)，可表示为相位差ψ_k(f)，方法为,

如果

{\tilde{ψ}}_{k} (f) > π,

则

ψ_{k} (f) = {\tilde{ψ}}_{k} (f) - 2 π

如果

{\tilde{ψ}}_{k} (f) < - π,

则

ψ_{k} (f) = {\tilde{ψ}}_{k} (f) + 2 π

如果

- π < {\tilde{ψ}}_{k} (f) < π,

则

ψ_{k} (f) = {\tilde{ψ}}_{k} (f)

在频率范围，ψ_k(f)与波达方向之间有单值映射关系。

2)根据图(1)所示几何关系计算出目标方向区域对应的目标方向相位差范围Ψ_min(f)＜ψ_k(f)＜Ψ_max(f)，该范围对每个频率分量各有不同。设目标方向θ的范围是θ_min＜θ＜θ_max，则

Ψ_{\min} (f) = \frac{2 π f d {sinθ}_{\min}}{c},

Ψ_{\max} (f) = \frac{2 π f d {sinθ}_{m a x}}{c} .

c值为340，表示声速，单位为米/秒，；d为两麦克风之间的距离，单位为米。

3)这个步骤根据每个时频点上的相位差，判断该点否属于目标方向范围。对一帧信号中频率范围的Q个频率分量，如果Ψ_min(f)<ψ_k(f)＜Ψ_max(f),则判断该时频点的波达方向属于目标方向范围。

4)以第k帧开始的L帧信号作为一个分析窗，其中每帧信号具有Q个频率点。对该分析窗内的每个时频点，根据其相位差情况，可以判断其波达方向是否位于目标方向范围内；

对分析窗内的每个频率分量，如果有不少于μ(0<μ<L)帧信号在该频率分量上判断属于目标方向，则判断该频率分量上存在目标语音，否则判频率分量上不存在目标语音，如果判为存在目标语音的频率点个数超过阈值ξ(0<ξ<Q)，则将该分析窗内的连续L帧信号判断为存在目标语音；

5)将长度为L的分析窗向后移动1帧，并根据步骤1-5判断目标方向语音存在情况。由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在语音”的判断，则认为该帧信号存在目标语音。

实施例1

本发明提供的双麦克风目标方向语音检测方法，包括以下步骤：

1)对麦克风阵列中每一通道的数字化声音信号分帧并加窗后，用短时傅里叶变换计算其短时谱，并获得每个时频点上的两通道相位。帧间的交叠长度即帧移，设定为一个固定长度S，其范围在1ms到2ms之间。适当选取快速傅里叶变换的点数，使频谱分辨率小于40Hz并大于10Hz。例如，对8000Hz采样的信号，可通过256点的FFT获得31.25Hz的频谱分辨率。两通道相位之间的差为其中f代表频率，单位是Hz，k是帧的编号。的范围是(-2π,2π)，根据计算相位差ψ_k(f)，方法如下：

如果

{\tilde{ψ}}_{k} (f) > π,

则

ψ_{k} (f) = {\tilde{ψ}}_{k} (f) - 2 π

如果

{\tilde{ψ}}_{k} (f) < - π,

则

ψ_{k} (f) = {\tilde{ψ}}_{k} (f) + 2 π

如果

- π < {\tilde{ψ}}_{k} (f) < π,

则

ψ_{k} (f) = {\tilde{ψ}}_{k} (f)

2)根据图(1)所示几何关系计算出目标方向区域对应的目标方向相位差范围Ψ_min(f)和Ψ_max(f)。设目标方向θ的范围是θ_min＜θ＜θ_max，则 c值为340，表示声速，单位为米/秒；d为两麦克风之间的距离，单位为米。

3)根据步骤2)计算出的目标方向相位差范围Ψ_min(f)和Ψ_max(f)，对一帧信号中频率范围的Q个频率分量，根据每个时频点上的相位差，判断该点否属于目标方向范围。

4)将以第k帧开始的L帧信号作为一个分析窗，其中每帧信号具有Q个频率点。对该分析窗内的每个时频点。对分析窗内的每个频率分量，如果有不少于μ(0<μ<L)帧信号在该频率分量上判断属于目标方向，则判断该频率分量上存在目标语音，否则判频率分量上不存在目标语音，如果判为存在目标语音的频率点个数超过阈值ξ(0<ξ<Q)，则将该分析窗内的连续L帧信号判断为存在目标语音。其中，μ的值在0.1L到0.3L之间，环境噪声低或用户与麦克风的距离近时，应选择较大μ值；在用户使用距离增大的情况下，应适当减小μ。ξ一般可设置在0.2Q到0.4Q之间，信噪比越大则ξ越大，用户使用距离增大时则应适当减小ξ。

此步骤的具体实施策略如图2所示，即：将以第k帧开始的L帧信号作为一个分析窗，根据相位差判断每个时频点上的hit/miss情况，并将其作为一个矩阵H_k。H_k有L行Q列，其中每行对应各帧信号在同一个频率点上的hit/miss情况，每列代表一帧信号在频率点1到Q上的情况。对矩阵H_k中的每一行，如果各成员之和大于某整数阈值μ(0<μ<L)，则判断该行为hit＝1，反之则该行为miss＝0。如果判为hit的行数超过阈值ξ(0<ξ<Q)，则将该分析窗内的连续L帧信号判断为存在目标方向语音。

5)将长度为L的分析窗向后移动1帧，并根据步骤1-4判断目标方向语音存在情况。由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在语音”的判断，则认为该帧信号存在目标语音。

此外，本发明还提供了一种基于双麦克风的目标方向语音活动检测系统，该系统用于检测某段时间内是否存在来自目标方向的语音信号，所述系统包含：

确定某较长连续时间段内目标方向的语音活动的模块，用于将长度为L的分析窗向后移动1帧，并根据所述确定某瞬时是否存在语音的模块判断目标方向语音是否存在，由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在语音”的判断，则认为该帧信号存在目标语音；

其中，所述确定某瞬时是否存在语音的模块先将连续几帧信号同频率的时频点组合起来并判断该频率点上是否有来自目标方向的声音，然后再将各个频率点的判断结果结合起来，得到最终判断结果。

上述述相位差获取模块进一步包含如下子模块：

所述确定某瞬时是否存在语音的模块进一步包含如下子模块：

其中，所述μ的取值范围为0<μ<L，所述ξ的取值范围为0<ξ<Q。

所述确定某较长连续时间段内目标方向的语音活动的模块将某时间段内以每帧信号为开头的L帧信号作为分析窗，判断该分析窗内是否存在目标语音，获得其中每帧信号的检测结果，由于一帧信号可能会存在于最多L个分析窗中，只要其中任一个分析窗做出了“存在语音”的判断，则认为该帧信号存在目标语音。

需要说明的是，该实施例的说明只是用于帮助理解本发明的方法及其核心思想而并非限制。本领域的一般技术人员应当理解，任何对本发明技术方案的修改或者等同替代都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围内。

Claims

1.一种基于双麦克风的目标方向语音活动检测方法，该方法用于检测某段时间内是否存在来自目标方向的语音信号，所述方法包含：

步骤104)将第k帧开始的L帧语音信号作为一个分析窗，其中每帧信号具有Q个频率点，对分析窗内的每个频率点分量，如果有不少于μ帧信号在该频率分量上判断属于目标方向，则判断该频率分量上存在目标语音，否则判频率分量上不存在目标语音，如果存在目标语音的频率分量的个数超过阈值ξ，则将该分析窗内的连续L帧信号最终判断为存在目标语音；

步骤105)将上步骤中长度为L的分析窗向后移动1帧，重新判断目标方向语音存在情况，直至分析窗内的各时频点分析完成后重复步骤103)和步骤104)，最终实现检测某段时间内是否存在来自目标方向的语音信号；

其中，所述μ的取值范围为0<μ<L且所述ξ的取值范围为0<ξ<Q。

2.根据权利要求1所述的基于双麦克风的目标方向语音活动检测方法，其特征在于，所述步骤101)在频率范围内计算两麦克风通道的相位差，以保证相位差与波达方向之间不存在因相位卷绕引起的多值映射关系；

其中，c值为340，表示声速，单位为米/秒；d为两麦克风之间的距离，单位为米；f代表频率，单位是Hz。

3.根据权利要求2所述的基于双麦克风的目标方向语音活动检测方法，其特征在于，所述步骤101)进一步包含如下子步骤：

4.根据权利要求3所述的基于双麦克风的目标方向语音活动检测方法，其特征在于，所述步骤102)具体步骤为：

5.根据权利要求4所述的基于双麦克风的目标方向语音活动检测方法，其特征在于，所述步骤103)的具体步骤为：对一帧信号中频率范围的Q个频率分量，如果Ψ_min(f)<ψ_k(f)＜Ψ_max(f)，则判断该时频点的信号波达方向在目标方向范围之内，即该时频点的信号来自目标方向范围之内，否则认为该时频点的信号来自目标方向范围之外。

6.根据权利要求2所述的基于双麦克风的目标方向语音活动检测方法，其特征在于，所述步骤104)进一步包含如下子步骤：

其中，所述μ的取值范围为0<μ<L，所述ξ的取值范围为0<ξ<Q。

7.一种基于双麦克风的目标方向语音活动检测系统，该系统用于检测某段时间内是否存在来自目标方向的语音信号，所述系统包含：

确定某较长连续时间段内目标方向的语音活动的模块，用于将长度为L的分析窗向后移动1帧，并根据所述确定某瞬时是否存在语音的模块判断目标方向语音是

否存在，由于一帧信号可能会存在于L个分析窗中，只要其中任一个分析窗做出了“存在语音”的判断，则认为该帧信号存在目标语音；

8.根据权利要求7所述的基于双麦克风的目标方向语音活动检测系统，其特征在于，所述相位差获取模块进一步包含如下子模块：

9.根据权利要求7所述的基于双麦克风的目标方向语音活动检测系统，其特征在于，所述确定某瞬时是否存在语音的模块进一步包含如下子模块：

其中，所述μ的取值范围为0<μ<L，所述ξ的取值范围为0<ξ<Q。

10.根据权利要求7所述的基于双麦克风的目标方向语音活动检测系统，其特征在于，所述确定某较长连续时间段内目标方向的语音活动的模块将某时间段内以每帧信号为开头的L帧信号作为分析窗，判断该分析窗内是否存在目标语音，获得其中每帧信号的检测结果，由于一帧信号可能会存在于最多L个分析窗中，只要其中任一个分析窗做出了“存在语音”的判断，则认为该帧信号存在目标语音。