CN103248992B - 一种基于双麦克风的目标方向语音活动检测方法及系统 - Google Patents
一种基于双麦克风的目标方向语音活动检测方法及系统 Download PDFInfo
- Publication number
- CN103248992B CN103248992B CN201210027677.5A CN201210027677A CN103248992B CN 103248992 B CN103248992 B CN 103248992B CN 201210027677 A CN201210027677 A CN 201210027677A CN 103248992 B CN103248992 B CN 103248992B
- Authority
- CN
- China
- Prior art keywords
- voice
- target direction
- frequency point
- target
- analysis window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000000694 effects Effects 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 230000009977 dual effect Effects 0.000 title claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims description 29
- 238000009432 framing Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 241000209094 Oryza Species 0.000 claims description 5
- 235000007164 Oryza sativa Nutrition 0.000 claims description 5
- 235000009566 rice Nutrition 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于双麦克风的目标方向语音活动检测方法及系统,包含:步骤101)获取两通道每个时频点上的相位差信息;步骤102)输入感兴趣的目标方向区域,计算目标方向区域所对应的相位差范围;步骤103)依据确定的各时频点的相位差信息及目标方向相位差范围,确定步骤101)的各时频点上的信号是否来自于目标方向范围内;步骤104)将第k帧开始的L帧语音信号作一个分析窗,每帧信号有Q个频率点,如果分析窗内的每个频率点分量有不少于μ帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判频率分量上不存在目标语音,如果存在目标语音的频率分量的个数超过阈值ξ,则将该分析窗内的连续L帧信号最终判断为存在目标语音。
Description
技术领域
本发明涉及一种语音活动检测方法。更具体地说,本发明涉及一种基于双麦克风的目标方向语音活动检测方法及系统。
背景技术
随着语音信号处理技术的应用领域不断扩大,近讲式的语音输入方式由于不够轻松方便,越来越不能满足人们的需求。而远讲式语音通信和语音识别等系统如果利用单麦克风采音,则容易受到环境中各类噪声干扰的影响,无法做到稳健可靠。因此,在远讲式语音处理系统中,往往利用麦克风阵列采集声音信号。由于麦克风阵列具有对声音的空间选择能力,而用户语音的到达方向一般属于一个固定或可预知的范围,通过该检测目标方向区域内的语音活动,就可以更准确的判定用户话音的起止情况,而不受区域外其它声源的干扰。
常见的目标方向语音检测方法主要通过空间滤波技术、通道之间的相关性或者通道之间的到达时延差判断目标方向是否存在声源。其中,基于到达时延差的方法在可靠性、对硬件的依赖性和计算量方面都能达到较好的平衡,因而具有较好的通用性。到达时延差可以通过通道间相关函数或相位差进行估计。通道间相关函数方法存在计算量大和易受散射噪声干扰的缺点,而相位差方法尽管灵敏度高,但它只有在目标语音信号能量较高的时频点上才能指示出波达方向,所以仅依靠单个时频点上的相位差也不够可靠。为此,常见的相位差方法一般都将多个时频点上的相位差结合起来判断波达方向。例如,2007年JuanE.Rubio等人利用各时频点上的相位差计算波达方向估计值,再根据各时频点波达方向的一致性判断是否存在语音信号。但由于该方法对计算相位差的频率范围没有限制,影响了利用相位差估计波达方向的可靠性。另外,该方法只考虑了波达方向的一致性,不能区别来自目标区域内外的声音。最重要的是,该方法在对时频区域分块时也非常简单,不能利用语音信号在时频特征上所特有的谐波结构特点,即语音能量主要分布在谐波结构上的特点,所以检测语音信号的灵敏度不高。
发明内容
本发明要解决的技术问题是提供一种基于双麦克风的目标方向语音活动检测方法。本发明的目的在于通过新的目标方向语音活动检测方法,一方面提高对目标方向内语音活动检测的灵敏度,另一方面保持较低的计算复杂度。
为实现上述目的,本发明提供了一种基于双麦克风的目标方向语音活动检测方法,该方法用于检测某段时间内是否存在来自目标方向的语音信号,所述方法包含:
步骤101)用于实时连续获取两麦克风通道在每个时频点上的相位差信息;
步骤102)输入感兴趣的目标方向区域,计算该目标方向区域所对应的相位差的范围;
步骤103)依据步骤101)确定的各时频点的相位差信息及步骤102)确定的目标方向相位差范围,确定步骤101)的各时频点上的信号是否来自于目标方向范围内;
步骤104)将第k帧开始的L帧语音信号作为一个分析窗,其中每帧信号具有Q个频率点,对分析窗内的每个频率点分量,如果有不少于μ(0<μ<L)帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判频率分量上不存在目标语音,如果存在目标语音的频率分量的个数超过阈值ξ(0<ξ<Q),则将该分析窗内的连续L帧信号最终判断为存在目标语音;
步骤105)将上步骤中长度为L的分析窗向后移动1帧,重新判断目标方向语音存在情况,直至分析窗内的各时频点分析完成后重复步骤103)和步骤104),最终实现检测某段时间内是否存在来自目标方向的语音信号。
上述技术方案中,所述步骤101)在频率范围内计算两麦克风通道的相位差,以保证相位差与波达方向之间不存在因相位卷绕引起的多值映射关系。
上述技术方案中,所述步骤101)进一步包含如下子步骤:
步骤101-1)对双麦克风阵列中每一通道的数字化声音信号进行分帧和加窗,并用傅里叶变换计算其频谱,获得两通道在每个时频点上的相位信息;
步骤101-2)依据两通道在每个时频点上的相位信息计算两通道相位之差并将其限制在(-π,π)范围,获得最终的相位差;其中f代表频率,单位是Hz,k是帧的编号。
上述技术方案中,所述步骤102)具体步骤为:
根据几何关系计算目标方向区域对应的目标方向相位差范围,该范围表示为:Ψmin(f)<ψk(f)<Ψmax(f),设目标方向θ的范围是θmin<θ<θmax,则 其中,c值为340,表示声速,单位为米/秒;d为两麦克风之间的距离,单位为米。
上述技术方案中,所述步骤103)的具体步骤为:对一帧信号中频率范围的Q个频率分量,如果Ψmin(f)<ψk(f)<Ψmax(f),则判断该时频点的信号波达方向在目标方向范围之内,即该时频点的信号来自目标方向范围之内,否则认为该时频点的信号来自目标方向范围之外。
上述技术方案中,所述步骤104)进一步包含如下子步骤:
以第k帧开始的L帧信号作为一个分析窗,且每帧信号具有Q个有用频率点;
分别对分析窗内的每个频率点分量进行分析,如果在L帧信号中至少有μ帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判该频率分量上不存在目标语音;如果判为存在目标语音的频率点个数超过阈值ξ,则判断该分析窗内的连续L帧信号所持续的时间段内存在目标语音;
其中,所述μ的取值范围为0<μ<L,所述0<ξ<Q。
基于上述方法本发明还提供了一种基于双麦克风的目标方向语音活动检测系统,该系统用于检测某段时间内是否存在来自目标方向的语音信号,所述系统包含:
相位差获取模块,用于获取双麦克风两通道信号在各个时频点上的相位差信息;
目标方向相位差确定模块,用于计算目标方向区域对应的目标方向在每个频率分量上所对应的相位差的范围;
时频点范围判断模块,用于根据每个时频点上的相位差与确定的目标方向相位差的范围进行比较,确定各时频点上的信号是否在目标方向范围内;
确定某瞬时是否存在语音的模块,用于将连续若干帧组成分析窗,并利用时频点范围确定模块输出的检测结果,判断分析窗内的若干连续帧信号是否存在目标方向的语音;
确定某较长连续时间段内目标方向的语音活动的模块,用于将长度为L的分析窗向后移动1帧,并根据上述步骤判断目标方向语音是否存在,由于一帧信号可能会存在于L个分析窗中,只要其中任一个分析窗做出了“存在语音”的判断,则认为该帧信号存在目标语音。
其中,所述优化的分块策略为:先将连续几帧信号同频率的时频点组合起来并判断该频率点上是否有来自目标方向的声音,然后再将各个频率点的判断结果结合起来,得到最终判断结果。
上述技术方案中,所述相位差获取模块进一步包含如下子模块:
短时傅里叶分析子模块,用于对每通道的信号做分帧、加窗和傅里叶变换,获得每帧信号在各个频率点上的相位;
相位差计算子模块,用于计算各时频点上的相位之差,并将其限制在(-π,π)范围,获得最终的相位差。
上述技术方案中,所述确定某瞬时是否存在语音的模块进一步包含如下子模块:
分析窗生成模块,用于将从以第k帧开始的连续L帧信号作为一个分析窗,且每帧信号具有Q个频率点;
时频点范围判断模块,对该分析窗内的每个时频点,根据其相位差情况,判断其是波达方向是否位于目标方向范围内;
初步判断子模块,用于检测每个频率分量是否来自目标方向范围,即对分析窗内的每个频率分量,如果有不少于μ帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判该频率分量上不存在目标语音;
最终判决子模块,用于依据初步判断子模块的判断结果进行最终判断,即如果判为存在目标语音的频率点个数超过阈值ξ,则将该分析窗内的连续L帧信号判断为存在目标语音;
其中,所述μ的取值范围为0<μ<L,所述0<ξ<Q。
上述技术方案中,所述确定某较长连续时间段内目标方向的语音活动的模块将某时间段内以每帧信号为开头的L帧信号作为分析窗,判断该分析窗内是否存在目标语音,获得其中每帧信号的检测结果,由于一帧信号可能会存在于最多L个分析窗中,只要其中任一个分析窗做出了“存在语音”的判断,则认为该帧信号存在目标语音。
本发明的优点在于:由于计算相位差过程中通过限制频率范围实现了相位差到波达方向的单值映射,从而提高了根据相位差特征估计波达角度的可靠性。该方法在检测过程中利用了连续L帧信号在Q个频率点上的相位差情况,从而能将较大时频块的相位差信息结合起来,减小了相位差随机波动而导致的判断错误。由于该方法在第4步中先结合了多帧信号在同一频率上的相位差,从而对目标语音的每条谐波都比较敏感,进而在全局统计时结合了多个频带的谐波判断结果,从而对语音信号的整体谐波结构更加灵敏,不易受到散射噪声和其它方向性噪声的干扰。同时,该方法还具有较低的计算复杂度。
附图说明
图1是波达方向与麦克风位置的关系图;
图2是本发明的语音信号检测方法的实现框图。
具体实施方式
下面结合具体实施例和附图对本发明进行详细描述。
为了达到上述目的,本发明提供了一种基于双麦克风的目标方向语音活动检测方法,其框架是统计通道间相位差在各时频点上的分布情况,从而判断目标方向上是否存在语音信号。具体包括以下步骤:
1)对麦克风阵列中每一通道的数字化声音信号分帧并加窗后,用短时傅里叶变换计算其短时谱,并获得两通道在每个时频点上的相位,两相位之差为其中f代表频率,单位是Hz,k是帧的编号。的范围是(-2π,2π)。如果通过±2π将范围限制到(-π,π),可表示为相位差ψk(f),方法为,
如果 则
如果 则
如果 则
在频率范围,ψk(f)与波达方向之间有单值映射关系。
2)根据图(1)所示几何关系计算出目标方向区域对应的目标方向相位差范围Ψmin(f)<ψk(f)<Ψmax(f),该范围对每个频率分量各有不同。设目标方向θ的范围是θmin<θ<θmax,则 c值为340,表示声速,单位为米/秒,;d为两麦克风之间的距离,单位为米。
3)这个步骤根据每个时频点上的相位差,判断该点否属于目标方向范围。对一帧信号中频率范围的Q个频率分量,如果Ψmin(f)<ψk(f)<Ψmax(f),则判断该时频点的波达方向属于目标方向范围。
4)以第k帧开始的L帧信号作为一个分析窗,其中每帧信号具有Q个频率点。对该分析窗内的每个时频点,根据其相位差情况,可以判断其波达方向是否位于目标方向范围内;
对分析窗内的每个频率分量,如果有不少于μ(0<μ<L)帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判频率分量上不存在目标语音,如果判为存在目标语音的频率点个数超过阈值ξ(0<ξ<Q),则将该分析窗内的连续L帧信号判断为存在目标语音;
5)将长度为L的分析窗向后移动1帧,并根据步骤1-5判断目标方向语音存在情况。由于一帧信号可能会存在于L个分析窗中,只要其中任一个分析窗做出了“存在语音”的判断,则认为该帧信号存在目标语音。
实施例1
本发明提供的双麦克风目标方向语音检测方法,包括以下步骤:
1)对麦克风阵列中每一通道的数字化声音信号分帧并加窗后,用短时傅里叶变换计算其短时谱,并获得每个时频点上的两通道相位。帧间的交叠长度即帧移,设定为一个固定长度S,其范围在1ms到2ms之间。适当选取快速傅里叶变换的点数,使频谱分辨率小于40Hz并大于10Hz。例如,对8000Hz采样的信号,可通过256点的FFT获得31.25Hz的频谱分辨率。两通道相位之间的差为其中f代表频率,单位是Hz,k是帧的编号。的范围是(-2π,2π),根据计算相位差ψk(f),方法如下:
如果 则
如果 则
如果 则
2)根据图(1)所示几何关系计算出目标方向区域对应的目标方向相位差范围Ψmin(f)和Ψmax(f)。设目标方向θ的范围是θmin<θ<θmax,则 c值为340,表示声速,单位为米/秒;d为两麦克风之间的距离,单位为米。
3)根据步骤2)计算出的目标方向相位差范围Ψmin(f)和Ψmax(f),对一帧信号中频率范围的Q个频率分量,根据每个时频点上的相位差,判断该点否属于目标方向范围。
4)将以第k帧开始的L帧信号作为一个分析窗,其中每帧信号具有Q个频率点。对该分析窗内的每个时频点。对分析窗内的每个频率分量,如果有不少于μ(0<μ<L)帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判频率分量上不存在目标语音,如果判为存在目标语音的频率点个数超过阈值ξ(0<ξ<Q),则将该分析窗内的连续L帧信号判断为存在目标语音。其中,μ的值在0.1L到0.3L之间,环境噪声低或用户与麦克风的距离近时,应选择较大μ值;在用户使用距离增大的情况下,应适当减小μ。ξ一般可设置在0.2Q到0.4Q之间,信噪比越大则ξ越大,用户使用距离增大时则应适当减小ξ。
此步骤的具体实施策略如图2所示,即:将以第k帧开始的L帧信号作为一个分析窗,根据相位差判断每个时频点上的hit/miss情况,并将其作为一个矩阵Hk。Hk有L行Q列,其中每行对应各帧信号在同一个频率点上的hit/miss情况,每列代表一帧信号在频率点1到Q上的情况。对矩阵Hk中的每一行,如果各成员之和大于某整数阈值μ(0<μ<L),则判断该行为hit=1,反之则该行为miss=0。如果判为hit的行数超过阈值ξ(0<ξ<Q),则将该分析窗内的连续L帧信号判断为存在目标方向语音。
5)将长度为L的分析窗向后移动1帧,并根据步骤1-4判断目标方向语音存在情况。由于一帧信号可能会存在于L个分析窗中,只要其中任一个分析窗做出了“存在语音”的判断,则认为该帧信号存在目标语音。
此外,本发明还提供了一种基于双麦克风的目标方向语音活动检测系统,该系统用于检测某段时间内是否存在来自目标方向的语音信号,所述系统包含:
相位差获取模块,用于获取双麦克风两通道信号在各个时频点上的相位差信息;
目标方向相位差确定模块,用于计算目标方向区域对应的目标方向在每个频率分量上所对应的相位差的范围;
时频点范围判断模块,用于根据每个时频点上的相位差与确定的目标方向相位差的范围进行比较,确定各时频点上的信号是否在目标方向范围内;
确定某瞬时是否存在语音的模块,用于将连续若干帧组成分析窗,并利用时频点范围确定模块输出的检测结果,判断分析窗内的若干连续帧信号是否存在目标方向的语音;
确定某较长连续时间段内目标方向的语音活动的模块,用于将长度为L的分析窗向后移动1帧,并根据所述确定某瞬时是否存在语音的模块判断目标方向语音是否存在,由于一帧信号可能会存在于L个分析窗中,只要其中任一个分析窗做出了“存在语音”的判断,则认为该帧信号存在目标语音;
其中,所述确定某瞬时是否存在语音的模块先将连续几帧信号同频率的时频点组合起来并判断该频率点上是否有来自目标方向的声音,然后再将各个频率点的判断结果结合起来,得到最终判断结果。
上述述相位差获取模块进一步包含如下子模块:
短时傅里叶分析子模块,用于对每通道的信号做分帧、加窗和傅里叶变换,获得每帧信号在各个频率点上的相位;
相位差计算子模块,用于计算各时频点上的相位之差,并将其限制在(-π,π)范围,获得最终的相位差。
所述确定某瞬时是否存在语音的模块进一步包含如下子模块:
分析窗生成模块,用于将从以第k帧开始的连续L帧信号作为一个分析窗,且每帧信号具有Q个频率点;
时频点范围判断模块,对该分析窗内的每个时频点,根据其相位差情况,判断其是波达方向是否位于目标方向范围内;
初步判断子模块,用于检测每个频率分量是否来自目标方向范围,即对分析窗内的每个频率分量,如果有不少于μ帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判该频率分量上不存在目标语音;
最终判决子模块,用于依据初步判断子模块的判断结果进行最终判断,即如果判为存在目标语音的频率点个数超过阈值ξ,则将该分析窗内的连续L帧信号判断为存在目标语音;
其中,所述μ的取值范围为0<μ<L,所述ξ的取值范围为0<ξ<Q。
所述确定某较长连续时间段内目标方向的语音活动的模块将某时间段内以每帧信号为开头的L帧信号作为分析窗,判断该分析窗内是否存在目标语音,获得其中每帧信号的检测结果,由于一帧信号可能会存在于最多L个分析窗中,只要其中任一个分析窗做出了“存在语音”的判断,则认为该帧信号存在目标语音。
需要说明的是,该实施例的说明只是用于帮助理解本发明的方法及其核心思想而并非限制。本领域的一般技术人员应当理解,任何对本发明技术方案的修改或者等同替代都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围内。
Claims (10)
1.一种基于双麦克风的目标方向语音活动检测方法,该方法用于检测某段时间内是否存在来自目标方向的语音信号,所述方法包含:
步骤101)用于实时连续获取两麦克风通道在每个时频点上的相位差信息;
步骤102)输入感兴趣的目标方向区域,计算该目标方向区域所对应的相位差的范围;
步骤103)依据步骤101)确定的各时频点的相位差信息及步骤102)确定的目标方向相位差范围,确定步骤101)的各时频点上的信号是否来自于目标方向范围内;
步骤104)将第k帧开始的L帧语音信号作为一个分析窗,其中每帧信号具有Q个频率点,对分析窗内的每个频率点分量,如果有不少于μ帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判频率分量上不存在目标语音,如果存在目标语音的频率分量的个数超过阈值ξ,则将该分析窗内的连续L帧信号最终判断为存在目标语音;
步骤105)将上步骤中长度为L的分析窗向后移动1帧,重新判断目标方向语音存在情况,直至分析窗内的各时频点分析完成后重复步骤103)和步骤104),最终实现检测某段时间内是否存在来自目标方向的语音信号;
其中,所述μ的取值范围为0<μ<L且所述ξ的取值范围为0<ξ<Q。
2.根据权利要求1所述的基于双麦克风的目标方向语音活动检测方法,其特征在于,所述步骤101)在频率范围内计算两麦克风通道的相位差,以保证相位差与波达方向之间不存在因相位卷绕引起的多值映射关系;
其中,c值为340,表示声速,单位为米/秒;d为两麦克风之间的距离,单位为米;f代表频率,单位是Hz。
3.根据权利要求2所述的基于双麦克风的目标方向语音活动检测方法,其特征在于,所述步骤101)进一步包含如下子步骤:
步骤101-1)对双麦克风阵列中每一通道的数字化声音信号进行分帧和加窗,并用傅里叶变换计算其频谱,获得两通道在每个时频点上的相位信息;
步骤101-2)依据两通道在每个时频点上的相位信息计算两通道相位之差并将其限制在(-π,π)范围,获得最终的相位差;其中f代表频率,单位是Hz,k是帧的编号。
4.根据权利要求3所述的基于双麦克风的目标方向语音活动检测方法,其特征在于,所述步骤102)具体步骤为:
根据几何关系计算目标方向区域对应的目标方向相位差范围,该范围表示为:Ψmin(f)<ψk(f)<Ψmax(f),设目标方向θ的范围是θmin<θ<θmax,则其中,c值为340,表示声速,单位为米/秒;d为两麦克风之间的距离,单位为米。
5.根据权利要求4所述的基于双麦克风的目标方向语音活动检测方法,其特征在于,所述步骤103)的具体步骤为:对一帧信号中频率范围的Q个频率分量,如果Ψmin(f)<ψk(f)<Ψmax(f),则判断该时频点的信号波达方向在目标方向范围之内,即该时频点的信号来自目标方向范围之内,否则认为该时频点的信号来自目标方向范围之外。
6.根据权利要求2所述的基于双麦克风的目标方向语音活动检测方法,其特征在于,所述步骤104)进一步包含如下子步骤:
以第k帧开始的L帧信号作为一个分析窗,且每帧信号具有Q个有用频率点;
分别对分析窗内的每个频率点分量进行分析,如果在L帧信号中至少有μ帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判该频率分量上不存在目标语音;如果判为存在目标语音的频率点个数超过阈值ξ,则判断该分析窗内的连续L帧信号所持续的时间段内存在目标语音;
其中,所述μ的取值范围为0<μ<L,所述ξ的取值范围为0<ξ<Q。
7.一种基于双麦克风的目标方向语音活动检测系统,该系统用于检测某段时间内是否存在来自目标方向的语音信号,所述系统包含:
相位差获取模块,用于获取双麦克风两通道信号在各个时频点上的相位差信息;
目标方向相位差确定模块,用于计算目标方向区域对应的目标方向在每个频率分量上所对应的相位差的范围;
时频点范围判断模块,用于根据每个时频点上的相位差与确定的目标方向相位差的范围进行比较,确定各时频点上的信号是否在目标方向范围内;
确定某瞬时是否存在语音的模块,用于将连续若干帧组成分析窗,并利用时频点范围确定模块输出的检测结果,判断分析窗内的若干连续帧信号是否存在目标方向的语音;
确定某较长连续时间段内目标方向的语音活动的模块,用于将长度为L的分析窗向后移动1帧,并根据所述确定某瞬时是否存在语音的模块判断目标方向语音是
否存在,由于一帧信号可能会存在于L个分析窗中,只要其中任一个分析窗做出了“存在语音”的判断,则认为该帧信号存在目标语音;
其中,所述确定某瞬时是否存在语音的模块先将连续几帧信号同频率的时频点组合起来并判断该频率点上是否有来自目标方向的声音,然后再将各个频率点的判断结果结合起来,得到最终判断结果。
8.根据权利要求7所述的基于双麦克风的目标方向语音活动检测系统,其特征在于,所述相位差获取模块进一步包含如下子模块:
短时傅里叶分析子模块,用于对每通道的信号做分帧、加窗和傅里叶变换,获得每帧信号在各个频率点上的相位;
相位差计算子模块,用于计算各时频点上的相位之差,并将其限制在(-π,π)范围,获得最终的相位差。
9.根据权利要求7所述的基于双麦克风的目标方向语音活动检测系统,其特征在于,所述确定某瞬时是否存在语音的模块进一步包含如下子模块:
分析窗生成模块,用于将从以第k帧开始的连续L帧信号作为一个分析窗,且每帧信号具有Q个频率点;
时频点范围判断模块,对该分析窗内的每个时频点,根据其相位差情况,判断其是波达方向是否位于目标方向范围内;
初步判断子模块,用于检测每个频率分量是否来自目标方向范围,即对分析窗内的每个频率分量,如果有不少于μ帧信号在该频率分量上判断属于目标方向,则判断该频率分量上存在目标语音,否则判该频率分量上不存在目标语音;
最终判决子模块,用于依据初步判断子模块的判断结果进行最终判断,即如果判为存在目标语音的频率点个数超过阈值ξ,则将该分析窗内的连续L帧信号判断为存在目标语音;
其中,所述μ的取值范围为0<μ<L,所述ξ的取值范围为0<ξ<Q。
10.根据权利要求7所述的基于双麦克风的目标方向语音活动检测系统,其特征在于,所述确定某较长连续时间段内目标方向的语音活动的模块将某时间段内以每帧信号为开头的L帧信号作为分析窗,判断该分析窗内是否存在目标语音,获得其中每帧信号的检测结果,由于一帧信号可能会存在于最多L个分析窗中,只要其中任一个分析窗做出了“存在语音”的判断,则认为该帧信号存在目标语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210027677.5A CN103248992B (zh) | 2012-02-08 | 2012-02-08 | 一种基于双麦克风的目标方向语音活动检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210027677.5A CN103248992B (zh) | 2012-02-08 | 2012-02-08 | 一种基于双麦克风的目标方向语音活动检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103248992A CN103248992A (zh) | 2013-08-14 |
CN103248992B true CN103248992B (zh) | 2016-01-20 |
Family
ID=48928170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210027677.5A Expired - Fee Related CN103248992B (zh) | 2012-02-08 | 2012-02-08 | 一种基于双麦克风的目标方向语音活动检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103248992B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104378570A (zh) * | 2014-09-28 | 2015-02-25 | 小米科技有限责任公司 | 录音方法及装置 |
CN107742522B (zh) | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
CN108628304A (zh) * | 2018-03-27 | 2018-10-09 | 浙江大学 | 一种基于近场麦克风阵列的移动智能车跟随系统及方法 |
CN109466505B (zh) * | 2018-09-18 | 2021-07-06 | 远峰科技股份有限公司 | 基于rssi和aoa的车辆无钥匙控制系统及方法 |
CN112672265B (zh) * | 2020-10-13 | 2022-06-28 | 珠海市杰理科技股份有限公司 | 检测麦克风阵一致性的方法及系统、计算机可读存储介质 |
WO2022150950A1 (zh) * | 2021-01-12 | 2022-07-21 | 华为技术有限公司 | 评估传声器阵列一致性的方法和装置 |
CN115881125B (zh) * | 2023-01-19 | 2023-05-23 | 小米汽车科技有限公司 | 车载多音区语音交互方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236250A (zh) * | 2007-01-30 | 2008-08-06 | 富士通株式会社 | 声音判定方法和声音判定装置 |
CN102081925A (zh) * | 2009-11-20 | 2011-06-01 | Nxp股份有限公司 | 语音检测器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103137139B (zh) * | 2008-06-30 | 2014-12-10 | 杜比实验室特许公司 | 多麦克风语音活动检测器 |
-
2012
- 2012-02-08 CN CN201210027677.5A patent/CN103248992B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101236250A (zh) * | 2007-01-30 | 2008-08-06 | 富士通株式会社 | 声音判定方法和声音判定装置 |
CN102081925A (zh) * | 2009-11-20 | 2011-06-01 | Nxp股份有限公司 | 语音检测器 |
Non-Patent Citations (1)
Title |
---|
"Two-Microphone Voice Activity Detection Based on the Homogeneity of the Direction of Arrival Estimates";J.E.Rubio,et al.;《Acoustics, Speech and Signal Processing, 2007. ICASSP 2007. IEEE International Conference on》;20070420;第4卷;385~388页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103248992A (zh) | 2013-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103248992B (zh) | 一种基于双麦克风的目标方向语音活动检测方法及系统 | |
CN101010722B (zh) | 用于检测语音信号中话音活动的设备和方法 | |
CN108731886B (zh) | 一种基于迭代递推的供水管道多泄漏点声定位方法 | |
CN101430882B (zh) | 一种抑制风噪声的方法及装置 | |
CN103346845B (zh) | 基于快速傅里叶变换的盲频谱感知方法及装置 | |
CN101762806B (zh) | 声源定位方法和装置 | |
US20150055797A1 (en) | Method and device for localizing sound sources placed within a sound environment comprising ambient noise | |
EP2725819A1 (en) | Method and implementation apparatus for intelligently controlling volume of electronic device | |
CN103165137B (zh) | 一种非平稳噪声环境下传声器阵列的语音增强方法 | |
KR20130048075A (ko) | 다중 음원 위치추적장치 및 그 위치추적방법 | |
US20130106640A1 (en) | Gps signal reception apparatus and method | |
CN105204001A (zh) | 一种声源定位的方法及系统 | |
KR100877914B1 (ko) | 음원위치-지연시간차 상관관계 역 추정에 의한 음원 방향검지 시스템 및 방법 | |
CN105277921A (zh) | 一种基于智能手机的被动声源定位方法 | |
CN102353952A (zh) | 一种频域相干累加的线谱检测方法 | |
CN106328168A (zh) | 一种语音信号相似度检测方法 | |
Willink | Wide-sense stationarity of mobile MIMO radio channels | |
CN102833016B (zh) | 一种在多径环境下针对同源信号时差的测定方法 | |
CN109668058A (zh) | 基于线性预测倒谱系数和lyapunov指数的供水管道漏损辨识方法 | |
CN110535546A (zh) | 一种基于稀疏多径感知的滑动互相关帧检测方法 | |
CN104049246B (zh) | 一种频率未知的时延差估计方法 | |
CN104568113A (zh) | 一种基于模型的海洋声传播调查爆炸波自动截取方法 | |
CN103268766A (zh) | 双麦克风语音增强方法及装置 | |
CN105336340A (zh) | 一种用于低空目标声探测系统的风噪抑制方法和装置 | |
CN107229044A (zh) | 一种基于特征子空间方位稳定性的强弱目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160120 |
|
CF01 | Termination of patent right due to non-payment of annual fee |