CN106251877B - 语音声源方向估计方法及装置 - Google Patents
语音声源方向估计方法及装置 Download PDFInfo
- Publication number
- CN106251877B CN106251877B CN201610656669.5A CN201610656669A CN106251877B CN 106251877 B CN106251877 B CN 106251877B CN 201610656669 A CN201610656669 A CN 201610656669A CN 106251877 B CN106251877 B CN 106251877B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- vector
- band signal
- estimation
- signal vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 264
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims description 41
- 238000009499 grossing Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 3
- 230000001934 delay Effects 0.000 claims description 2
- 230000008878 coupling Effects 0.000 abstract 2
- 238000010168 coupling process Methods 0.000 abstract 2
- 238000005859 coupling reaction Methods 0.000 abstract 2
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 230000001629 suppression Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供一种语音声源方向估计方法及装置,该方法包括:声源获取步骤,获取麦克风阵列实时收集的音频数据;频带分解步骤,将每一个麦克风通道所收集的当前帧音频数据分解成预设数量的频带信号,将所有麦克风通道同一时刻的频带信号组成频带信号向量;频带估计步骤,对频带信号向量进行分析,获得当前帧音频数据相同时刻的频带信号向量的波达方向估计向量;数据关联步骤,根据波达方向估计向量进行数据关联,得到当前帧音频数据的最终备选方向估计向量;波达方向跟踪步骤,对最终备选方向估计向量在时域中进行平滑处理,并获得当前帧音频数据的语音声源波达方向。该装置为该方法提供应用模块。本发明可增强语音,且语音方向估计更加精确。
Description
技术领域
本发明涉及语音增强领域,具体的,涉及一种语音声源方向估计方法,以及应用该方法的装置。
背景技术
在语音通信或者人机交互的应用中,常常存在背景噪声的干扰。为了获得更好的体验,通常需要对麦克风拾取的语音信号进行语音增强处理。在单个麦克风拾取噪声的情形下,通常采用基于功率谱的噪声抑制方法进行语音增强处理。单个麦克风的降噪算法通常在信噪比较好的情况下能够获得一定的信噪比提升,但是单麦克风的噪声抑制算法存在两个问题:1.在信噪比较低(比如远距离拾音)的情形下,单纯提高拾取设备的灵敏度依然是无法获得足够的信噪比用于后续的单麦克风噪声抑制。2.单麦克风用到的基于功率谱的噪声抑制方法在信号重建的过程中利用的相位信息依然是含噪信号的,这种重建方法在基于人工智能的某些应用(如语音识别)中将带来性能的恶化。
基于单麦克风噪声抑制的各种限制,麦克风阵列被建议用到上述类似应用中以增加空域信息用于语音增强。麦克风阵列的语音增强方法普遍基于波束形成的方法,以获得在所需语音的方向上的最大响应。然而,在实际的处理过程中,可能无法获得语音信号实际方向的先验信息,比如在会议环境,分布在各个方向的参会者都可能发言,因此其所需语音信号的方向并不是固定的。另外,在麦克风阵列的位置是固定的,说话人的位置并不固定的场景中,比如课堂教学的教师的教授过程中,教师会在一定的空间范围内随机走动。针对这些场景,一般的技术应用中需要将声源方向估计和波束形成联合使用以获得最佳效果。
图1图示了一种典型的应用于麦克风阵列语音增强的装置。首先,声源入射的信号被麦克风阵列1采集得到含噪信号6,声源方向估计模块2利用含噪信号6所隐含的空间信息将所需的语音信号的方向估计出来得到参数7,波束形成器3利用一些特定的方法使得输出参数7对于特定方向的含噪信号6的增益最大化,而其他方向的信号则会被衰减。波束形成器3可以采用一些不同的波束形成算法来进行语音增强,由最简单的DSB(延时-相加波束形成)到复杂的MVDR(最小方差无失真响应)等方法。更进一步的,波束形成器3也可以采用GSC(广义旁瓣消除器)结构并采用一些自适应的方法进行噪声抑制,由最简单廉价的LMS(最小均方)到更高级但需更多运算开销的RLS(递归最小二乘方)等方法。波束形成器3处理后得到单通道的信号8,由于波束形成器3对类似于白噪声的空间不相干噪声的抑制性能有限,并且在形如GSC结构中的信号泄露也会导致波束形成器3的性能受到影响,进而导致信号8中仍然存在一些残留的噪声。因此,信号8会进一步输入到后滤波模块4中进行残留的噪声抑制,最后得到处理后的信号9,信号9的信噪比通常会比信号6有明显改善。依赖于不同的应用场景,信号9则会被用来作为比如语音通信的上行信号或者人机对话的输入信号输入到诸如语音识别之类的模块中。
图1中声源方向估计模块2估计出来的DOA(波达方向)信息参数7对于波束形成器3的性能具有重要影响。典型地,5°的误差将造成波束形成器3输出的信号8的信噪比下降数分贝。对于设计良好的系统,DOA估计误差需要被限制在一定的范围内。传统的DOA估计方法主要分为两类:1.通过各个麦克风信号之间的相关性得到信号之间的相对延时,通过这些延时信息映射到空域获得方向信息。2.通过对空域各个方位做简单的波束形成,选择最大的功率响应方向为语音声源的方向。这些方法在一定程度上提高了DOA的估计精度,但是也有以下问题:1.实际麦克风拾取的信号往往是含有混响信号的,而这些混响信号容易被估计成与实际信号方向不同的方向信号入射到麦克风阵列。2.所需的语音信号往往是非平稳的,因此对于类似于相关矩阵的统计量的估计并不直接。3.需要对空域大量的搜索网格进行搜索,需要耗费大量的运算资源因此实用价值大大降低。4.语音信号在时频域具有一定的稀疏性,因此对于采用全频带信号来做DOA估计而言,有可能将噪声信号的方向估计称语音信号的方向。
由于采用的语音声源方向估计算法的上述缺点限制了其适用场景或范围,例如在较大会议室环境中一般的混响时间T60一般会大于300ms,在这种情况下应用到达时间差的方法来做声源方向估计得到的性能将是无法接受的。
发明内容
本发明的主要目的是提供一种可增强语音,且语音方向估计更加精确的语音声源方向估计方法。
本发明的另一目的是提供一种可增强语音,且语音方向估计更加精确的语音声源方向估计装置。
为了实现上述主要目的,本发明提供的语音声源方向估计方法,包括:声源获取步骤,获取麦克风阵列实时收集的音频数据;频带分解步骤,将每一个麦克风通道所收集的当前帧音频数据分解成预设数量的频带信号,将所有麦克风通道同一时刻的频带信号组成频带信号向量;频带估计步骤,对频带信号向量进行分析,获得当前帧音频数据相同时刻的频带信号向量的波达方向估计向量;数据关联步骤,根据波达方向估计向量进行数据关联,得到当前帧音频数据的最终备选方向估计向量;波达方向跟踪步骤,对最终备选方向估计向量在时域中进行平滑处理,并获得当前帧音频数据的语音声源波达方向。
由上述方案可见,本发明的语音声源方向估计方法将多路的当前帧音频数据分解成多个频带信号,然后针对各路音频数据中相同时刻的频带信号进行估计分析,获得同一时刻频带信号组成的频带信号向量的波达方向估计向量,接着对波达方向估计向量进行数据关联处理,获得当前帧音频数据的最终备选方向估计向量,对最终备选方向估计向量在时域中进行平滑处理,从而获得当前帧音频数据的语音声源波达方向,使得声源方向估计更加精确。
一个方案中,频带估计步骤包括:语音存在概率估计步骤,获取同一时刻频带信号组成的频带信号向量,对频带信号向量进行计算,获得频带信号向量的语音存在概率;谱估计步骤,获取频带信号向量以及频带信号向量所对应的语音存在概率,估算出频带信号向量包含的噪声功率谱和语音功率谱;波达方向估计步骤,根据语音功率谱对频带信号向量进行窄带的波达方向估计,得到频带信号向量相应的波达方向估计向量。
由此可见,语音存在概率估计步骤可获得各频带信号存在语音的概率,可用于谱估计步骤中分离频带信号中的噪声谱数据和语音谱数据,然后通过波达方向估计步骤获得频带信号中的空间方位信息。
进一步的方案中,频带估计步骤还包括反馈步骤,将噪声功率谱延迟并反馈至语音存在概率估计步骤中,语音存在概率估计步骤根据噪声功率谱进行下一个频带信号向量的语音存在概率估计。
由此可见,通过反馈步骤,可将前一时刻的频带信号中所包含的噪声信号用于当前信号的参考,使得语音存在概率的评估更加精确。
进一步的方案中,数据关联步骤包括:获取频带信号向量相应的波达方向估计向量;判断当前频带信号向量是否超出当前帧音频数据前半部分频带信号的范围;如当前频带信号向量处于当前帧音频数据前半部分频带信号的范围内,则判断当前频带信号向量的频率是否处于预设频率范围内;如当前频带信号向量的频率处于预设频率范围内,则判断当前频带信号向量的语音存在概率是否大于或等于预设阈值;如当前频带信号向量的语音存在概率大于或等于预设阈值,则将当前频带信号向量的波达方向估计向量加入当前帧音频数据的波达方向观测向量集合中;获取下一频带信号向量相应的波达方向估计向量,并进行下一频带信号向量的判断,直至当前频带信号向量超出当前帧音频数据前半部分频带信号的范围。
由上述方案可见,由于实数DFT变换(离散傅里叶变换)的共轭对称性,所以进行数据关联时只需计算一帧数据中的前半部分频带信号即可。同时,将后半部分频带信号中符合作为波达方向观测向量条件的频带信号作为数据关联的参考数据,以提高波达方向评估的精确性。
进一步的方案中,数据关联步骤还包括根据当前帧音频数据所有的波达方向观测向量集合构造统计直方图;利用统计直方图的局部极值点获取初步备选方向估计向量;根据初步备选方向估计向量获取当前帧音频数据中语音存在概率最大的频带信号向量,将语音存在概率最大的频带信号向量的波达方向估计向量作为当前帧音频数据的最终备选方向估计向量。
由此可见,通过利用波达方向观测向量集合构造统计直方图的方式对多个波达方向观测向量进行分析,最终获得最佳的波达方向估计,可提高语音声源的方向估计,进而提高语音数据的增强。
为了实现上述另一目的,本发明提供的语音声源方向估计装置包括:声源获取模块,获取麦克风阵列实时收集的音频数据;频带分解模块,将每一个麦克风通道所收集的当前帧音频数据分解成预设数量的频带信号,将所有麦克风通道同一时刻的频带信号组成频带信号向量;频带估计模块,对频带信号向量进行分析,获得当前帧音频数据相同时刻的频带信号向量的波达方向估计向量;数据关联模块,根据波达方向估计向量进行数据关联,得到当前帧音频数据的最终备选方向估计向量;波达方向跟踪模块,对最终备选方向估计向量在时域中进行平滑处理,并获得当前帧音频数据的语音声源波达方向。
由上述方案可见,本发明的语音声源方向估计装置可实时跟踪变化的语音声源位置,并对语音信号进行增强,提高语音信号的输出。
附图说明
图1是现有一种典型的语音增强装置的原理框图。
图2是本发明语音声源方向估计装置实施例的原理框图。
图3是本发明语音声源方向估计装置实施例中频带估计模块的原理框图。
图4是本发明语音声源方向估计方法实施例的流程框图。
图5是本发明语音声源方向估计方法实施例中频带估计步骤的流程框图。
图6是本发明语音声源方向估计方法实施例中数据关联步骤的流程框图。
以下结合附图及实施例对本发明作进一步说明。
具体实施方式
如图2所示,本发明的语音声源方向估计装置包括声源获取模块11、频带分解模块12、频带估计模块13、数据关联模块14以及波达方向跟踪模块15。声源获取模块11用于获取麦克风阵列10实时收集的音频数据。频带分解模块12用于将每一个麦克风通道所收集的当前帧音频数据分解成预设数量的频带信号,将所有麦克风通道同一时刻的频带信号组成频带信号向量。频带估计模块13用于对频带信号向量进行分析,获得当前帧音频数据相同时刻的频带信号向量的波达方向估计向量。数据关联模块14用于根据波达方向估计向量进行数据关联,得到当前帧音频数据的最终备选方向估计向量。波达方向跟踪模块15用于对最终备选方向估计向量在时域中进行平滑处理,并获得当前帧音频数据的语音声源波达方向。
参见图3,频带估计模块13包括语音存在概率估计模块131、谱估计模块132、波达方向估计模块133以及反馈模块134。语音存在概率估计模块131用于获取同一时刻频带信号组成的频带信号向量,对频带信号向量进行计算,获得频带信号向量的语音存在概率。谱估计模块132用于获取频带信号向量以及频带信号向量所对应的语音存在概率,估算出频带信号向量包含的噪声功率谱和语音功率谱。波达方向估计模块133用于根据语音功率谱对频带信号向量进行窄带的波达方向估计,得到频带信号向量相应的波达方向估计向量。反馈模块134用于将噪声功率谱延迟并反馈至语音存在概率估计模块131中,语音存在概率估计模块131根据噪声功率谱进行下一个频带信号向量的语音存在概率估计。
由图2中还可看出,数据关联模块14包括获取波达方向估计向量模块141、判断模块142、观测向量集合模块143、直方图构造模块144、获取初步备选方向模块145以及获取最终备选方向模块146。获取波达方向估计向量模块141用于获取频带信号向量相应的波达方向估计向量。判断模块142用于判断当前频带信号向量是否超出当前帧音频数据前半部分频带信号的范围,判断当前频带信号向量的频率是否处于预设频率范围内,判断当前频带信号向量的语音存在概率是否大于或等于预设阈值。观测向量集合模块143用于将当前频带信号向量的波达方向估计向量加入当前帧音频数据的波达方向观测向量集合中。直方图构造模块144用于根据当前帧音频数据所有的波达方向观测向量集合构造统计直方图。获取初步备选方向模块145利用统计直方图的局部极值点获取初步备选方向估计向量。获取最终备选方向模块146用于根据初步备选方向估计向量获取当前帧音频数据中语音存在概率最大的频带信号向量,将语音存在概率最大的频带信号向量的波达方向估计向量作为当前帧音频数据的最终备选方向估计向量。
为了更好地说明本发明语音声源方向估计装置,下面结合语音声源方向估计装置的工作流程进行描述。
参见图4,本发明的语音声源方向估计装置工作时,声源获取模块11执行声源获取步骤S1,获取麦克风阵列10实时收集的音频数据。麦克风阵列10由M个参数一致的麦克风组成。麦克风阵列10中的任何一个麦克风通道收集的音频数据被发送至频带分解模块12。频带分解模块12执行频带分解步骤S2,将每一个麦克风通道所收集的当前帧音频数据分解成预设数量的频带信号yM(k,l),每一帧音频数据所分解成的频带信号数量相等,其中,k为每一帧音频数据中包括的频带信号数量,l为通道(麦克风)M所收集音频数据的帧数,yM(k,l)代表通道M所采集音频数据中第l帧的第k个频带信号。由于所有通道在同时进行音频数据的收集,所以各通道在同一时刻收集到的音频数据均为同一时刻的音频。需要说明的是,本发明旨在对多个通道相同时刻的频带信号进行分析,以获得跟精确地声源估计。
频带分解模块12还将所有通道同一时刻的频带信号组成频带信号向量:y(k,l)=[y1(k,l),y2(k,l),...,yM(k,l)]T。其中,频带信号向量y(k,l)包含了所需的语音信号向量x(k,l)=[x1(k,l),x2(k,l),...,xM(k,l)]T以及噪声信号向量v(k,l)=[v1(k,l),v2(k,l),...,vM(k,l)]T。频带分解模块12将频带信号向量发送至频带估计模块13,频带估计模块13执行频带估计步骤S3,对频带信号向量进行分析,获得所有当前帧音频数据相同时刻的频带信号的波达方向估计向量。本发明还可设置多个频带估计模块13同时对不同时刻的频带信号向量进行分析以加快分析速度,以提高性能。
参见图4,在频带估计模块13中,语音存在概率估计模块131执行语音存在概率估计步骤S31,获取同一时刻的频带信号组成频带信号向量,对频带信号向量进行计算,获得频带信号向量的语音存在概率。设H1(k,l)表示第l帧的第k个频带信号向量存在语音,则该频带信号向量的语音存在概率表示为Pr(H1(k,l)|y(k,l))。语音存在概率Pr(H1(k,l)|y(k,l))的计算步骤如下:
估计频带信号向量y(k,l)的功率谱密度为:Φyy(k,l)=[1-αy(k,l)]Φyy(k,l-1)+αy(k,l)y(k,l)yH(k,l),其中,αy(k,l)为频带信号向量y(k,l)的功率谱平滑系数,取值范围为0.9<αy(k,l)<1。估计噪声信号向量v(k,l)的功率谱密度为Φvv(k,l)=[1-αv(k,l)]Φvv(k,l-1)+αv(k,l)v(k,l)vH(k,l),其中,αv(k,l)为噪声信号向量的功率谱平滑系数,取值范围为0.9<αv(k,l)<1。则估计语音信号向量x(k,l)的功率谱密度为:Φxx(k,l)=Φyy(k,l)-Φvv(k,l)。根据上述公式,可获得多通道联合先验信噪比以及多通道联合后验信噪比,其中,多通道联合先验信噪比为多通道联合后验信噪比为因此,根据公式:可获得第l帧的第k个频带信号向量的语音存在概率Pr(H1(k,l)|y(k,l)),其中,q(k,l)表示第l帧的第k个频带信号向量不存在语音的先验概率。
语音存在概率估计模块131估算出第l帧的第k个频带信号向量y(k,l)的语音存在概率Pr(H1(k,l)|y(k,l))后,谱估计模块132执行谱估计步骤S32,获取频带分解模块12中频带信号向量y(k,l)以及获取语音存在概率估计模块131估算出的对应的语音存在概率Pr(H1(k,l)|y(k,l)),估算出频带信号向量y(k,l)包含的噪声功率谱密度和语音功率谱密度。谱估计模块132设置在语音存在概率估计模块131之后是基于以下原因:在语音存在的情形时,平滑系数αv(k,l)需选择足够小以避免噪声功率谱被过估计;在语音不存在的情形时,平滑系数αv(k,l)应该选择足够大以便跟踪噪声的变化。而平滑系数αv(k,l)的选择强烈依赖于语音存在概率Pr(H1(k,l)|y(k,l)),因此,谱估计模块132应该被安排在语音存在概率估计模块131之后。
谱估计模块132获取噪声功率谱密度和语音功率谱密度后,反馈模块134执行反馈步骤S34,将噪声功率谱密度数据延迟并反馈至语音存在概率估计步骤S31中,语音存在概率估计步骤S31根据噪声功率谱密度数据进行下一个频带信号向量的语音存在概率估计。
在反馈模块134执行反馈步骤S34的同时,波达方向估计模块133执行波达方向估计步骤S33,根据语音功率谱数据对频带信号向量进行窄带的波达方向估计,得到频带信号向量相应的波达方向估计向量。
波达方向估计模块133将针对当前频带信号向量y(k,l)的数据进行窄带的波达方向估计,从而得到频带信号向量y(k,l)相应的空间方位信息。窄带信号的波达方向估计方法可以分为基于相关的方法和基于空间谱的方法。基于相关的方法计算量小精度低,基于空间谱估计的方法计算量较大但精度高。在本实施例中,应用了TLS-ESPRIT空间谱估计方法来进行波达方向估计,其计算步骤如下:
对频带信号向量y(k,l)的功率谱密度Φyy(k,l)作特征分解,选择最大特征值对应的特征向量Us,得到Us1=Js1Us,Us2=Js2Us。其中,Js1=[IM-1×M-10M-1×1],Js2=[0M-1×1IM-1×M-1],IM-1×M-1为(M-1)×(M-1)的单位矩阵,0M-1×1为(M-1)×1的所有元素均为0的矩阵,Js1、Js2被用来作为子阵列的选择矩阵。根据Us1、Us2构造矩阵对矩阵2*2方阵做特征分解得到其中,Λ为按降序排列特征值构成的对角矩阵。设λ1、λ2为的两个特征值,且有λ1≥λ2,则V11、V21为特征值λ1对应特征向量的两个元素,V12、V22为特征值λ2对应特征向量的两个元素,则Λ=diag[λ1,λ2],λ1≥λ2。构造最终标量获得波达方向估计向量θ(k,l)=arccos(arg(Ψ)×C×2π×fk),其中,C代表声速,一般常温空气中声速取为340m/s,fk代表第k个频带信号向量对应的频率:fk=k/(FFT_LEN)×fs,FFT_LEN表示FFT变换的长度,fs为语音输入信号的采样率。一般情况下,FFT_LEN和fs两者的长度取值满足以下条件:20≤(FFT_LEN)×1000/fs≤100。
需要说明的是,本实施例采用的TLS-ESPRIT算法仅为优选的算法,其他诸如MUSIC算法、ROOT MUSIC算法、LS-ESPRIT算法均能针对不同的场合应用在波达方向估计模块16中。例如,针对均匀圆形麦克风阵列,ROOT MUSIC算法也是一个优化的选择。本领域的从业人员应能理解,不同的波达方向估计方法并不影响本发明原理的阐述。
波达方向估计模块133获得波达方向估计向量θ(k,l)后,从数据关联模块14执行数据关联步骤S4,根据波达方向估计向量进行数据关联,得到当前帧音频数据的最终备选方向估计向量。
参见图6,在数据关联模块14中,首先,获取波达方向估计向量模块141执行步骤S41,获取频带信号向量相应的波达方向估计向量。接着,判断模块142执行步骤S42,判断当前频带信号是否超出当前帧音频数据的前半部分频带信号的范围。如当前频带信号向量处于当前帧音频数据前半部分频带信号的范围内,则判断模块142执行步骤S43,判断当前频带信号向量的频率是否处于预设频率范围内,本实施例中,预设频率范围为100Hz至8000Hz。如当前频带信号向量的频率处于预设频率范围外,则获取波达方向估计向量模块141执行步骤S46,获取下一个频带信号向量对应的波达方向估计向量。如当前频带信号向量的频率处于预设频率范围内,则判断模块142执行步骤S44,判断当前频带信号向量的语音存在概率是否大于或等于预设阈值。阈值的选择需要综合考虑使用场景和噪声情况,一般的情况下,阈值设置为0到0.5之间。如当前频带信号向量的语音存在概率小于预设阈值,则获取波达方向估计向量模块141执行步骤S46,获取下一个频带信号向量对应的波达方向估计向量。如当前频带信号向量的语音存在概率大于或等于预设阈值,则观测向量集合模块143执行步骤S45,将当前频带信号向量的波达方向估计向量加入当前帧音频数据的波达方向观测向量集合中。观测向量集合模块143执行步骤S45后,获取波达方向估计向量模块141执行步骤S46,获取下一个频带信号向量对应的波达方向估计向量,并进行下一频带信号向量的判断,直至当前频带信号向量超出当前帧音频数据前半部分频带信号的范围。
若当前频带信号向量超出当前帧音频数据前半部分频带信号的范围,则认为已获得当前帧音频数据前半部分频带信号的波达方向观测向量集合。接着,直方图构造模块144执行步骤S47,根据当前帧音频数据所有的波达方向观测向量集合构造统计直方图。获取在N个区间的波达方向观测向量集合统计直方图,为了易于实现,N的取值可为10,20,30……等,本实施例中N的取值为20。统计直方图对应的各个区间中心为:接着,获取初步备选方向模块145执行步骤S48,利用统计直方图的局部极值点获取初步备选方向估计向量。在现实环境中,由于混响和噪声的存在,真实语音的方向不一定会体现在直方图的最大值所对应的区间,因此,需要通过直方图中选出初步候选方向估计向量。选取时通过选择最大的Lc个局部极值点对应的区间中心得到初步备选的方向估计向量:Lc的取值依赖于实现,Lc越大,实现的复杂度越高,本实施例中Lc取值为5。
获得初步备选方向估计向量后,获取最终备选方向模块146执行步骤S49,根据初步备选方向估计向量获取当前帧音频数据中语音存在概率最大的频带信号向量,将语音存在概率最大的频带信号向量的波达方向估计向量作为当前帧音频数据的最终备选方向估计向量。在每个波达方向估计值附近Δθ的范围内寻找最大语音存在概率的频带信号向量y(kmax,i,l),将语音存在概率最大的频带信号向量的波达方向估计向量作为当前帧音频数据的最终备选方向估计向量:其中,且
获得最终备选方向估计向量之后,波达方向跟踪模块15执行波达方向跟踪步骤S5,对最终备选方向估计向量在时域中进行平滑处理,并获得当前帧音频数据的语音声源波达方向。由于在实际的场景下,语音声源的波达方向通常是变化的,比如说话人的随机走动造成的方向变化等等。显然,将数据关联模块14输出的最终备选方向估计向量作为声源的真正的波达方向会在时间上表现得非常不平滑,因此还需波达方向跟踪模块15对最终备选方向估计向量在时间上做平滑处理。
波达方向跟踪模块15可以采用公知的卡尔曼滤波器对最终备选方向估计向量在时间上做平滑处理。由于最终备选方向估计向量是一个向量,所以需要对卡尔曼滤波器做必要的修正来适配卡尔曼滤波器的迭代方程,公知的卡尔曼滤波器对于本领域的技术人员来说应该是明了的,其原理在此不再赘述。在本实施例中,主要对卡尔曼滤波器做了如下更改:
首先,新息过程时考虑了所有的最终备选方向估计值θ(kmax,i,l),通过加权估计得到加权后的新息过程:其中,wi代表第i个最终备选方向估计值θ(kmax,i,l)的权重。设θt(l)为第l帧跟踪滤波后的波达方向估计值,θt(l)=θt(l-1)+Pr(H1(l)|y(l))Klα(l),其中,Kl为卡尔曼增益。则第i个候选方向的新息过程为α(i,l)=θ(kmax,i,l)-θt(l-1)。在本实施例中,权重wi的选择为:其中,N(x;u,S)表示均值为u,协方差矩阵为S的正态分布函数,Sl为新息过程的协方差矩阵。
此外,对于预测值更新方程以及预测误差协方差矩阵的更新也作了相应的修改。将定义为全局的语音存在概率,则卡尔曼方程中的预测值更新方程修正为:θt(l)=θt(l-1)+Pr(H1(l)|y(l))Klα(l),同时,预测误差协方差更新方程修改为:最终得到的预测值即为当前帧语音数据估计的语音声源方向。
尽管本实施例中仅针对卡尔曼滤波器跟踪做了详细的描述,但是本领域的技术从业人员应该能意识到,诸如粒子滤波器或者其他的滤波器均能使用到波达方向跟踪模块15中。
波达方向跟踪模块15的输出信号可以作为当前真正的语音声源波达方向输入到其他需要波达方向信息的模块中,进行进一步的数据处理。比如,可以作为图1中波束形成器3的输入信号,以帮助波束形成器将最大响应方向调向到真实的语音声源方向,从而获得最佳的信噪比。
由以上描述可知,本发明的语音声源方向估计方法将多路的当前帧音频数据分解成多个频带信号,然后针对各路音频数据中相同时刻的频带信号进行估计分析,获得同一时刻频带信号组成的频带信号向量的波达方向估计向量,接着对波达方向估计向量进行数据关联处理,获得当前帧音频数据的最终备选方向估计向量,对最终备选方向估计向量在时域中进行平滑处理,从而获得当前帧音频数据的语音声源波达方向,使得声源方向估计更加精确。
需要说明的是,以上仅为本发明的优选实施例,但发明的设计构思并不局限于此,凡利用此构思对本发明做出的非实质性修改,也均落入本发明的保护范围之内。
Claims (10)
1.语音声源方向估计方法,其特征在于:包括:
声源获取步骤,获取麦克风阵列实时收集的音频数据;
频带分解步骤,将每一个麦克风通道所收集的当前帧所述音频数据分解成预设数量的频带信号,将所有所述麦克风通道同一时刻的所述频带信号组成频带信号向量;
频带估计步骤,对所述频带信号向量进行分析,获得当前帧所述音频数据相同时刻的所述频带信号向量的波达方向估计向量;
数据关联步骤,根据所述波达方向估计向量进行数据关联,得到当前帧所述音频数据的最终备选方向估计向量;
波达方向跟踪步骤,对所述最终备选方向估计向量在时域中进行平滑处理,并获得当前帧所述音频数据的语音声源波达方向。
2.根据权利要求1所述的语音声源方向估计方法,其特征在于:所述频带估计步骤包括:
语音存在概率估计步骤,获取同一时刻所述频带信号组成的所述频带信号向量,对所述频带信号向量进行计算,获得所述频带信号向量的语音存在概率;
谱估计步骤,获取所述频带信号向量以及所述频带信号向量所对应的所述语音存在概率,估算出所述频带信号向量包含的噪声功率谱和语音功率谱;
波达方向估计步骤,根据所述语音功率谱对所述频带信号向量进行窄带的波达方向估计,得到所述频带信号向量相应的所述波达方向估计向量。
3.根据权利要求2所述的语音声源方向估计方法,其特征在于:所述频带估计步骤还包括:
反馈步骤,将所述噪声功率谱延迟并反馈至所述语音存在概率估计步骤中,所述语音存在概率估计步骤根据所述噪声功率谱进行下一个所述频带信号向量的所述语音存在概率估计。
4.根据权利要求3所述的语音声源方向估计方法,其特征在于:所述数据关联步骤包括:
获取所述频带信号向量相应的所述波达方向估计向量;
判断当前所述频带信号向量是否超出当前帧所述音频数据前半部分频带信号的范围;
如当前所述频带信号向量处于当前帧所述音频数据前半部分频带信号的范围内,则判断当前所述频带信号向量的频率是否处于预设频率范围内;
如当前所述频带信号向量的频率处于所述预设频率范围内,则判断当前所述频带信号向量的语音存在概率是否大于或等于预设阈值;
如当前所述频带信号向量的语音存在概率大于或等于所述预设阈值,则将当前所述频带信号向量的所述波达方向估计向量加入当前帧所述音频数据的波达方向观测向量集合中;
获取下一所述频带信号向量相应的所述波达方向估计向量,并进行下一所述频带信号向量的判断,直至当前所述频带信号向量超出当前帧所述音频数据前半部分频带信号的范围。
5.根据权利要求4所述的语音声源方向估计方法,其特征在于:所述数据关联步骤还包括:
若当前所述频带信号向量超出当前帧所述音频数据前半部分频带信号的范围,则根据当前帧所述音频数据所有的所述波达方向观测向量集合构造统计直方图;
利用所述统计直方图的局部极值点获取初步备选方向估计向量;
根据所述初步备选方向估计向量获取所述当前帧所述音频数据中所述语音存在概率最大的所述频带信号向量,将所述语音存在概率最大的所述频带信号向量的所述波达方向估计向量作为所述当前帧所述音频数据的所述最终备选方向估计向量。
6.语音声源方向估计装置,其特征在于:包括
声源获取模块,获取麦克风阵列实时收集的音频数据;
频带分解模块,将每一个麦克风通道所收集的当前帧所述音频数据分解成预设数量的频带信号,将所有所述麦克风通道同一时刻的所述频带信号组成频带信号向量;
频带估计模块,对所述频带信号向量进行分析,获得当前帧所述音频数据相同时刻的所述频带信号向量的波达方向估计向量;
数据关联模块,根据所述波达方向估计向量进行数据关联,得到当前帧所述音频数据的最终备选方向估计向量;
波达方向跟踪模块,对所述最终备选方向估计向量在时域中进行平滑处理,并获得当前帧所述音频数据的语音声源波达方向。
7.根据权利要求6所述的语音声源方向估计装置,其特征在于:所述频带估计模块包括:
语音存在概率估计模块,获取同一时刻所述频带信号组成的所述频带信号向量,对所述频带信号向量进行计算,获得所述频带信号向量的语音存在概率;
谱估计模块,获取所述频带信号向量以及所述频带信号向量所对应的所述语音存在概率,估算出所述频带信号向量包含的噪声功率谱和语音功率谱;
波达方向估计模块,根据所述语音功率谱对所述频带信号向量进行窄带的波达方向估计,得到所述频带信号向量相应的所述波达方向估计向量。
8.根据权利要求7所述的语音声源方向估计装置,其特征在于:所述频带估计模块还包括
反馈模块,将所述噪声功率谱延迟并反馈至所述语音存在概率估计模块中,所述语音存在概率估计模块根据所述噪声功率谱进行下一个所述频带信号向量的所述语音存在概率估计。
9.根据权利要求8所述的语音声源方向估计装置,其特征在于:所述数据关联模块包括
获取波达方向估计向量模块,获取所述频带信号向量相应的所述波达方向估计向量;
判断模块,判断当前所述频带信号向量是否超出当前帧所述音频数据前半部分频带信号的范围,判断当前所述频带信号向量的频率是否处于预设频率范围内,判断当前所述频带信号向量的语音存在概率是否大于或等于预设阈值;
观测向量集合模块,将当前所述频带信号向量的所述波达方向估计向量加入当前帧所述音频数据的波达方向观测向量集合中。
10.根据权利要求9所述的语音声源方向估计装置,其特征在于:所述数据关联模块还包括
直方图构造模块,根据当前帧所述音频数据所有的所述波达方向观测向量集合构造统计直方图;
获取初步备选方向模块,利用所述统计直方图的局部极值点获取初步备选方向估计向量;
获取最终备选方向模块,根据所述初步备选方向估计向量获取所述当前帧所述音频数据中所述语音存在概率最大的所述频带信号向量,将所述语音存在概率最大的所述频带信号向量的所述波达方向估计向量作为所述当前帧所述音频数据的所述最终备选方向估计向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610656669.5A CN106251877B (zh) | 2016-08-11 | 2016-08-11 | 语音声源方向估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610656669.5A CN106251877B (zh) | 2016-08-11 | 2016-08-11 | 语音声源方向估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106251877A CN106251877A (zh) | 2016-12-21 |
CN106251877B true CN106251877B (zh) | 2019-09-06 |
Family
ID=58079179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610656669.5A Active CN106251877B (zh) | 2016-08-11 | 2016-08-11 | 语音声源方向估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106251877B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106683685B (zh) * | 2016-12-23 | 2020-05-22 | 云知声(上海)智能科技有限公司 | 基于最小二乘法的目标方向语音检测方法 |
WO2019169616A1 (zh) * | 2018-03-09 | 2019-09-12 | 深圳市汇顶科技股份有限公司 | 语音信号处理方法及装置 |
CN110310651B (zh) * | 2018-03-25 | 2021-11-19 | 深圳市麦吉通科技有限公司 | 波束形成的自适应语音处理方法、移动终端及存储介质 |
WO2019227353A1 (en) * | 2018-05-30 | 2019-12-05 | Goertek Inc. | Method and device for estimating a direction of arrival |
CN110610718B (zh) * | 2018-06-15 | 2021-10-08 | 炬芯科技股份有限公司 | 一种提取期望声源语音信号的方法及装置 |
CN108899044B (zh) * | 2018-07-27 | 2020-06-26 | 苏州思必驰信息科技有限公司 | 语音信号处理方法及装置 |
CN110164423B (zh) * | 2018-08-06 | 2023-01-20 | 腾讯科技(深圳)有限公司 | 一种方位角估计的方法、设备及存储介质 |
CN110786022A (zh) * | 2018-11-14 | 2020-02-11 | 深圳市大疆创新科技有限公司 | 基于多麦克风的风噪处理方法、装置、系统及存储介质 |
CN109782246B (zh) * | 2018-12-31 | 2020-12-25 | 深圳市华讯方舟太赫兹科技有限公司 | 波达方向估计方法及装置、雷达、可读存储介质 |
CN109831709B (zh) * | 2019-02-15 | 2020-10-09 | 杭州嘉楠耘智信息科技有限公司 | 音源定向方法及装置和计算机可读存储介质 |
CN110082724B (zh) * | 2019-05-31 | 2021-09-21 | 浙江大华技术股份有限公司 | 一种声源定位方法、装置及存储介质 |
CN110267160B (zh) * | 2019-05-31 | 2020-09-22 | 潍坊歌尔电子有限公司 | 声音信号处理方法、装置及设备 |
CN110261816B (zh) * | 2019-07-10 | 2020-12-15 | 苏州思必驰信息科技有限公司 | 语音波达方向估计方法及装置 |
CN110600051B (zh) * | 2019-11-12 | 2020-03-31 | 乐鑫信息科技(上海)股份有限公司 | 用于选择麦克风阵列的输出波束的方法 |
CN111681665A (zh) * | 2020-05-20 | 2020-09-18 | 浙江大华技术股份有限公司 | 一种全向降噪方法、设备及存储介质 |
CN111933182B (zh) * | 2020-08-07 | 2024-04-19 | 抖音视界有限公司 | 声源跟踪方法、装置、设备和存储介质 |
CN112116920B (zh) * | 2020-08-10 | 2022-08-05 | 北京大学 | 一种说话人数未知的多通道语音分离方法 |
CN112558004B (zh) * | 2021-02-22 | 2021-05-28 | 北京远鉴信息技术有限公司 | 一种波束信息波达方向的确定方法、装置、及存储介质 |
CN113744752A (zh) * | 2021-08-30 | 2021-12-03 | 西安声必捷信息科技有限公司 | 语音处理方法及装置 |
CN114639398B (zh) * | 2022-03-10 | 2023-05-26 | 电子科技大学 | 一种基于麦克风阵列的宽带doa估计方法 |
CN116500624B (zh) * | 2023-06-29 | 2023-10-20 | 天津知海科技有限公司 | 恢复成像方法、装置、电子设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102421050A (zh) * | 2010-09-17 | 2012-04-18 | 三星电子株式会社 | 使用麦克风的非均匀布局来增强音频质量的设备和方法 |
CN103439688A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种用于分布式麦克风阵列的声源定位系统及定位方法 |
WO2014138758A2 (de) * | 2013-03-15 | 2014-09-18 | Commend International Gmbh | Verfahren zur erhöhung der sprachverständlichkeit |
CN105792074A (zh) * | 2016-02-26 | 2016-07-20 | 西北工业大学 | 一种语音信号处理方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101702561B1 (ko) * | 2010-08-30 | 2017-02-03 | 삼성전자 주식회사 | 음원출력장치 및 이를 제어하는 방법 |
-
2016
- 2016-08-11 CN CN201610656669.5A patent/CN106251877B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102421050A (zh) * | 2010-09-17 | 2012-04-18 | 三星电子株式会社 | 使用麦克风的非均匀布局来增强音频质量的设备和方法 |
WO2014138758A2 (de) * | 2013-03-15 | 2014-09-18 | Commend International Gmbh | Verfahren zur erhöhung der sprachverständlichkeit |
CN103439688A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种用于分布式麦克风阵列的声源定位系统及定位方法 |
CN105792074A (zh) * | 2016-02-26 | 2016-07-20 | 西北工业大学 | 一种语音信号处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106251877A (zh) | 2016-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106251877B (zh) | 语音声源方向估计方法及装置 | |
CN107993670B (zh) | 基于统计模型的麦克风阵列语音增强方法 | |
CN106782590B (zh) | 基于混响环境下麦克风阵列波束形成方法 | |
US10331396B2 (en) | Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrival estimates | |
CN110517701B (zh) | 一种麦克风阵列语音增强方法及实现装置 | |
CN111044973B (zh) | 一种用于麦克风方阵的mvdr目标声源定向拾音方法 | |
US9042573B2 (en) | Processing signals | |
US8958572B1 (en) | Adaptive noise cancellation for multi-microphone systems | |
Kumatani et al. | Microphone array processing for distant speech recognition: Towards real-world deployment | |
Taseska et al. | Informed spatial filtering for sound extraction using distributed microphone arrays | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
WO2016160821A1 (en) | Adaptive mixing of sub-band signals | |
CN111681665A (zh) | 一种全向降噪方法、设备及存储介质 | |
Schwartz et al. | Nested generalized sidelobe canceller for joint dereverberation and noise reduction | |
Niwa et al. | PSD estimation in beamspace using property of M-matrix | |
Maazaoui et al. | Adaptive blind source separation with HRTFs beamforming preprocessing | |
Stanacevic et al. | Gradient flow adaptive beamforming and signal separation in a miniature microphone array | |
Firoozabadi et al. | Combination of nested microphone array and subband processing for multiple simultaneous speaker localization | |
Kawase et al. | Automatic parameter switching of noise reduction for speech recognition | |
Tanaka et al. | Acoustic beamforming with maximum SNR criterion and efficient generalized eigenvector tracking | |
Pan et al. | Combined spatial/beamforming and time/frequency processing for blind source separation | |
CN113782046B (zh) | 一种用于远距离语音识别的麦克风阵列拾音方法及系统 | |
CN113470682B (zh) | 一种用麦克风阵列估计说话人方位的方法、装置及存储介质 | |
Kim et al. | Reverberated speech signal separation based on regularized subband feedforward ICA and instantaneous direction of arrival | |
Donley et al. | Adaptive multi-channel signal enhancement based on multi-source contribution estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |