CN105355210B - 用于远场语音识别的预处理方法和装置 - Google Patents
用于远场语音识别的预处理方法和装置 Download PDFInfo
- Publication number
- CN105355210B CN105355210B CN201510729573.2A CN201510729573A CN105355210B CN 105355210 B CN105355210 B CN 105355210B CN 201510729573 A CN201510729573 A CN 201510729573A CN 105355210 B CN105355210 B CN 105355210B
- Authority
- CN
- China
- Prior art keywords
- beamforming
- frequency components
- frequency
- low
- high frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000007781 pre-processing Methods 0.000 title claims abstract description 25
- 230000004044 response Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 14
- 238000012805 post-processing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明提出一种用于远场语音识别的预处理方法和装置,该用于远场语音识别的预处理方法包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。该方法能够提高远场语音识别的性能。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种用于远场语音识别的预处理方法和装置。
背景技术
为了提高语音识别的准确度,在语音识别之前通常会进行预处理。在远场语音识别场景下,目前采用比较多的一种预处理方案是回声消除(Acoustic echo cancellation,AEC)+声源定位+自适应波束形成技术。大致的思想是:先对每个麦克风采集的语音信号进行回声消除、再基于声源定位技术找到目标说话人的空间方位,进而通过自适应波束形成(Adaptive Beamforming,ABF)技术将主波束指向说话人,实现声音增强的效果。
但是,上述处理方案在运算量、准确度、收敛速度和残差等方面都存在一定的问题,进而影响最终的远场语音识别性能。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种用于远场语音识别的预处理方法,该方法可以实现了信号的声源定位和语音增强功能,并且新的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系统的性能。
本发明的另一个目的在于提出一种用于远场语音识别的预处理装置。
为达到上述目的,本发明第一方面实施例提出的用于远场语音识别的预处理方法,包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
本发明第一方面实施例提出的用于远场语音识别的预处理方法,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系统的性能。
为达到上述目的,本发明第二方面实施例提出的用于远场语音识别的预处理装置,包括:获取模块,用于获取由麦克风阵列采集的多路语音信号;划分模块,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;波束形成模块,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
本发明第二方面实施例提出的用于远场语音识别的预处理装置,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系统的性能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的用于远场语音识别的预处理方法的流程示意图;
图2是本发明另一实施例提出的用于远场语音识别的预处理方法的流程示意图;
图3是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图;
图4是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的用于远场语音识别的预处理方法的流程示意图,该方法包括:
S11:获取由麦克风阵列采集的多路语音信号。
其中,麦克风阵列可以具体是均匀环形麦克风阵列(Uniform Circular Array,UCA),UCA是指将多个麦克风均匀设置在环形平面上。
通过每个麦克风采集一路语音信号,从而可以获取到多路语音信号。
麦克风的个数以及环形半径可以设置,例如,N=16,R=0.08m。
S12:根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量。
频率点阈值例如是f0=1kHz。
低频分量是指频率小于f0的部分,中高频分量是指频率大于f0的部分。
每一路语音信号的频谱范围通常是在0-8kHz,通过与频率点阈值比较,可以将采集的多路语音信号分为低频分量和中高频分量。
S13:对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
对均匀环形麦克风阵列采集的语音信号进行延时求和波束形成可以称为DS-UCA,对均匀环形麦克风阵列采集的语音信号进行基于滤波器的波束形成可以称为FIB-UCA。
一些实施例中,参见图2,对低频分量的处理流程可以包括:
S201:对低频分量根据空间响应的公式,进行DS-UCA的波束成形。
其中,DS-UCA的波束成形时采用的空间响应的公式是:
其中,N是均匀环形麦克风阵列中麦克风的个数,R是环形半径,B表示波束形成器的空间响应,ω是语音信号的角频率,θ,φ分别是语音信号的仰角和方向角,在远场识别场景下,θ=θ0=π/2,k是波数,k=ω/c,c是光速,θ0,φ0分别是主波束的仰角和方向角,γn是第n个麦克风的方向角,γn=2π(n-1)/N。主波束的仰角和方向角可以设置。
S202:对低频分量中的高频分量进行预加重处理。
通过公式(1)可以看出,当语音信号的频率越大,频谱失真越严重,为此,在对低频分量(0-1kHz)计算空间响应后,可以对低频分量中的高频分量(偏向1kHz的部分)进行预加重处理。预加重处理时例如在上述的空间响应B的基础上乘以一个增益因子,该增益因子与频率成正比。具体的低频分量中高频分量的选择以及增益因子的设置可以根据经验值确定。
一些实施例中,参见图2,对中高频分量的处理流程可以包括:
S203:确定补偿滤波器。
补偿滤波器Hm(ω)的公式是:
其中,ωL,ωH分别表示ω的最低和最高值,K是麦克风的个数,m是相位模式(phase-mode)的索引,其中,麦克风采集的语音信号经过离散傅里叶逆变换(InverseDiscrete Fourier Transform,IDFT)变换可以转换为相位模式,Jn(α)为第一类Bessel函数,ω=πf/fmax,r是麦克风阵列的半径,c是光速,f是语音信号的频率,fmax是最高频率。
S204:确定加权因子。
加权因子{gm}是一个M阶有限长单位冲激响应(Finite Impulse Response,FIR)滤波器系数,M是m的最大值,滤波器的形状可以根据实际需求来设计,可以参考的指标如主波束宽度、旁瓣衰减量等。
S205:确定相位模式分量。
相位模式分量的公式是:
其中,令S(ω)=1。
S206:根据补偿滤波器、加权因子和相位模式分量计算空间响应。
空间响应的计算公式是:
S207:将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行FIB-UCA的波束成形。
例如,预设主波束方向角是θD,则调整后的空间响应是:
通过上述流程可以得到波束形成器的输出波束(S208),具体的,通过S201-S202可以得到低频分量的波束形成器的输出波束,以及,通过S203-S207可以得到高频分量的波束形成器的输出波束。
本实施例中,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系统的性能。
在波束形成之后,该方法还可以包括:
S209:对波束形成得到的每个输出波束进行回声消除(AEC)。
其中,通过上述的波束形成以及主波束调向技术,可以将整个声学空间划分成了若干个区域,比如3个固定波束,每个固定波束覆盖120°;或者6个固定波束,每个固定波束覆盖60°范围。
以3个波束为例,则波束形成器的输出是3个波束,之后可以分别对3个输出波束中的每个波束进行AEC。
AEC可以消除系统产生的音乐、文本到语音(Text to Speech,TTS)等干扰信号。
目前的方案需要对每一个麦克风信号进行AEC,当麦克风数量比较大时,回声消除的运算量非常大。
本实施例中,通过将AEC设置在波束形成之后,可以显著降低AEC所需运算量。
另外,AEC的处理效果要依赖于信噪比,回波信号信噪比越高,自适应滤波器的收敛越快,残留误差越小,但是,目前的方案中,由于ABF模块的滤波器变化速度远快于AEC模块中的滤波器的收敛速度,所以实际中,无法将ABF模块放在AEC之前来提高信噪比,这就会造成传统处理架构的回波消除(BargaIn)功能的收敛速度以及最终残差都无法达到最佳状态,进而也会部分影响最终的远场语音识别性能。
本实施例中,通过在AEC之前先进行波束形成,可以避免传统方案中将AEC放在自适应波束形成模块的前面所导致的AEC更新速度太慢的问题,从而可以提高AEC的效果,进而提高远场语音识别性能。
S210:根据AEC结果选择最优波束。
例如,可以将输出幅度最大或信噪比最高的输出波束确定为最优波束。
S211:对最优波束进行单通道语音增强和后处理。
在对最优波束进行单通道语音增强和后处理后可以输入到用于语音识别的识别器中,以进行远场语音识别。
本实施例中,通过上述的预处理流程,可以使得识别器接收到的信号有效抑制了混响和噪声的影响,同时也保证了语音各个频谱分量的失真最小,因此能够显著提升远场场景下语音识别的性能。
图3是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图,该装置30包括:获取模块31、划分模块32和波束形成模块33。
获取模块31,用于获取由麦克风阵列采集的多路语音信号;
其中,麦克风阵列可以具体是均匀环形麦克风阵列(Uniform Circular Array,UCA),UCA是指将多个麦克风均匀设置在环形平面上。
通过每个麦克风采集一路语音信号,从而可以获取到多路语音信号。
麦克风的个数以及环形半径可以设置,例如,N=16,R=0.08m。
划分模块32,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;
频率点阈值例如是f0=1kHz。
低频分量是指频率小于f0的部分,中高频分量是指频率大于f0的部分。
每一路语音信号的频谱范围通常是在0-8kHz,通过与频率点阈值比较,可以将采集的多路语音信号分为低频分量和中高频分量。
波束形成模块33,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
对均匀环形麦克风阵列采集的语音信号进行延时求和波束形成可以称为DS-UCA,对均匀环形麦克风阵列采集的语音信号进行基于滤波器的波束形成可以称为FIB-UCA。
其中,DS-UCA的波束成形公式是:
其中,N是均匀环形麦克风阵列中麦克风的个数,R是环形半径,B表示波束形成器的空间响应,ω是语音信号的频率,θ,φ分别是语音信号的仰角和方向角,在远场识别场景下,θ=θ0=π/2,k是波数,k=ω/c,c是光速,θ0,φ0分别是主波束的仰角和方向角,γn是第n个麦克风的方向角,γn=2π(n-1)/N。主波束的仰角和方向角可以设置。
一些实施例中,参见图4,所述波束形成模块包括:
低频分量波束形成单元331,用于对低频分量根据空间响应的公式,进行DS-UCA的波束成形:
预加重模块332,用于对低频分量中的高频分量进行预加重处理。
通过公式(1)可以看出,当语音信号的频率越大,频谱失真越严重,为此,在对低频分量(0-1kHz)计算空间响应后,可以对低频分量中的高频分量(偏向1kHz的部分)进行预加重处理。预加重处理时例如在上述的空间响应B的基础上乘以一个增益因子,该增益因子与频率成正比。具体的低频分量中高频分量的选择以及增益因子的设置可以根据经验值确定。
一些实施例中,所述波束形成模块33包括:中高频分量波束形成单元333,所述中高频分量波束形成单元333具体用于:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
具体的DS-UCA的流程以及FIB-UCA的流程可以参见上述实施例中的相关描述,在此不再赘述。
一些实施例中,参见图4,该装置还包括:
回声消除模块34,用于对波束形成得到的每个输出波束进行回声消除;
其中,通过上述的波束形成以及主波束调向技术,可以将整个声学空间划分成了若干个区域,比如3个固定波束,每个固定波束覆盖120°;或者6个固定波束,每个固定波束覆盖60°范围。
以3个波束为例,则波束形成器的输出是3个波束,之后可以分别对3个输出波束中的每个波束进行AEC。
AEC可以消除系统产生的音乐、文本到语音(Text to Speech,TTS)等干扰信号。
目前的方案需要对每一个麦克风信号进行AEC,当麦克风数量比较大时,回声消除的运算量非常大。
本实施例中,通过将AEC设置在波束形成之后,可以显著降低AEC所需运算量。
另外,AEC的处理效果要依赖于信噪比,回波信号信噪比越高,自适应滤波器的收敛越快,残留误差越小,但是,目前的方案中,由于ABF模块的滤波器变化速度远快于AEC模块中的滤波器的收敛速度,所以实际中,无法将ABF模块放在AEC之前来提高信噪比,这就会造成传统处理架构的回波消除(BargaIn)功能的收敛速度以及最终残差都无法达到最佳状态,进而也会部分影响最终的远场语音识别性能。
本实施例中,通过在AEC之前先进行波束形成,可以避免传统方案中将AEC放在自适应波束形成模块的前面所导致的AEC更新速度太慢的问题,从而可以提高AEC的效果,进而提高远场语音识别性能。
选择模块35,用于根据回声消除的结果选择最优波束;
例如,可以将输出幅度最大或信噪比最高的输出波束确定为最优波束。
后处理模块36,用于对最优波束进行单通道语音增强和后处理。
本实施例中,通过上述的预处理流程,可以使得识别器接收到的信号有效抑制了混响和噪声的影响,同时也保证了语音各个频谱分量的失真最小,因此能够显著提升远场场景下语音识别的性能。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种用于远场语音识别的预处理方法,其特征在于,包括:
获取由麦克风阵列采集的多路语音信号;
根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量,其中,将所述多路语音信号中频率小于所述频率点阈值的部分确定为低频分量,将所述多路语音信号中频率大于所述频率点阈值的部分确定为中高频分量;
对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成;
其中,所述对中高频分量进行基于滤波器的波束形成,包括:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
2.根据权利要求1所述的方法,其特征在于,还包括:
对波束形成得到的每个输出波束进行回声消除;
根据回声消除的结果选择最优波束;
对最优波束进行单通道语音增强和后处理。
3.根据权利要求1所述的方法,其特征在于,在对低频分量进行延迟求和波束形成之后,所述方法还包括:
对低频分量中的高频分量进行预加重处理。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述麦克风阵列是均匀环形麦克风阵列。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述频率点阈值是1kHz。
6.一种用于远场语音识别的预处理装置,其特征在于,包括:
获取模块,用于获取由麦克风阵列采集的多路语音信号;
划分模块,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量,其中,将所述多路语音信号中频率小于所述频率点阈值的部分确定为低频分量,将所述多路语音信号中频率大于所述频率点阈值的部分确定为中高频分量;
波束形成模块,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成;
其中,所述波束形成模块包括:中高频分量波束形成单元,所述中高频分量波束形成单元具体用于:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
7.根据权利要求6所述的装置,其特征在于,还包括:
回声消除模块,用于对波束形成得到的每个输出波束进行回声消除;
选择模块,用于根据回声消除的结果选择最优波束;
后处理模块,用于对最优波束进行单通道语音增强和后处理。
8.根据权利要求6所述的装置,其特征在于,所述波束形成模块包括:
低频分量波束形成单元,用于对低频分量根据空间响应的公式,进行DS-UCA的波束成形:
预加重模块,用于对低频分量中的高频分量进行预加重处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510729573.2A CN105355210B (zh) | 2015-10-30 | 2015-10-30 | 用于远场语音识别的预处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510729573.2A CN105355210B (zh) | 2015-10-30 | 2015-10-30 | 用于远场语音识别的预处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105355210A CN105355210A (zh) | 2016-02-24 |
CN105355210B true CN105355210B (zh) | 2020-06-23 |
Family
ID=55331171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510729573.2A Active CN105355210B (zh) | 2015-10-30 | 2015-10-30 | 用于远场语音识别的预处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105355210B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US10657983B2 (en) * | 2016-06-15 | 2020-05-19 | Intel Corporation | Automatic gain control for speech recognition |
CN106210368B (zh) * | 2016-06-20 | 2019-12-10 | 百度在线网络技术(北京)有限公司 | 消除多通道声回波的方法和装置 |
CN106328126B (zh) * | 2016-10-20 | 2019-08-16 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
CN106611600A (zh) * | 2016-12-02 | 2017-05-03 | 广州音书科技有限公司 | 用于远场拾音及移动充电的音频处理装置及系统 |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
CN107316649B (zh) * | 2017-05-15 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音识别方法及装置 |
CN107346661B (zh) * | 2017-06-01 | 2020-06-12 | 伊沃人工智能技术(江苏)有限公司 | 一种基于麦克风阵列的远距离虹膜跟踪与采集方法 |
CN107481729A (zh) * | 2017-09-13 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 一种将智能终端升级为远场语音智能设备的方法及系统 |
CN108694957B (zh) * | 2018-04-08 | 2021-08-31 | 湖北工业大学 | 基于圆形麦克风阵列波束形成的回声抵消设计方法 |
WO2019200564A1 (en) * | 2018-04-18 | 2019-10-24 | Baidu. Com Times Technology (Beijing) Co., Ltd. | Method for evaluating localization system of autonomous driving vehicles |
CN108447499B (zh) * | 2018-04-18 | 2020-08-04 | 佛山市顺德区中山大学研究院 | 一种双层圆环麦克风阵列语音增强方法 |
CN108831498B (zh) * | 2018-05-22 | 2020-01-24 | 出门问问信息科技有限公司 | 多波束波束成形的方法、装置及电子设备 |
US11523212B2 (en) | 2018-06-01 | 2022-12-06 | Shure Acquisition Holdings, Inc. | Pattern-forming microphone array |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
CN108922553B (zh) * | 2018-07-19 | 2020-10-09 | 苏州思必驰信息科技有限公司 | 用于音箱设备的波达方向估计方法及系统 |
EP3854108A1 (en) | 2018-09-20 | 2021-07-28 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
CN109978034B (zh) * | 2019-03-18 | 2020-12-22 | 华南理工大学 | 一种基于数据增强的声场景辨识方法 |
CN113841419A (zh) | 2019-03-21 | 2021-12-24 | 舒尔获得控股公司 | 天花板阵列麦克风的外壳及相关联设计特征 |
EP3942845A1 (en) | 2019-03-21 | 2022-01-26 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
US11445294B2 (en) | 2019-05-23 | 2022-09-13 | Shure Acquisition Holdings, Inc. | Steerable speaker array, system, and method for the same |
JP2022535229A (ja) | 2019-05-31 | 2022-08-05 | シュアー アクイジッション ホールディングス インコーポレイテッド | 音声およびノイズアクティビティ検出と統合された低レイテンシオートミキサー |
CN114467312A (zh) | 2019-08-23 | 2022-05-10 | 舒尔获得控股公司 | 具有改进方向性的二维麦克风阵列 |
CN110691301A (zh) * | 2019-09-25 | 2020-01-14 | 晶晨半导体(深圳)有限公司 | 一种测试远场语音设备与外置喇叭之间延迟时间的方法 |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
WO2021243368A2 (en) | 2020-05-29 | 2021-12-02 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
CN116918351A (zh) | 2021-01-28 | 2023-10-20 | 舒尔获得控股公司 | 混合音频波束成形系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2364121B (en) * | 2000-06-30 | 2004-11-24 | Mitel Corp | Method and apparatus for locating a talker |
CA2354858A1 (en) * | 2001-08-08 | 2003-02-08 | Dspfactory Ltd. | Subband directional audio signal processing using an oversampled filterbank |
WO2003083828A1 (en) * | 2002-03-27 | 2003-10-09 | Aliphcom | Nicrophone and voice activity detection (vad) configurations for use with communication systems |
KR100493172B1 (ko) * | 2003-03-06 | 2005-06-02 | 삼성전자주식회사 | 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치 |
CN101447190A (zh) * | 2008-06-25 | 2009-06-03 | 北京大学深圳研究生院 | 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法 |
CN104810021B (zh) * | 2015-05-11 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 应用于远场识别的前处理方法和装置 |
-
2015
- 2015-10-30 CN CN201510729573.2A patent/CN105355210B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于维纳滤波的 LCMV 波束形成器设计;郭水旺;《天中学刊》;20091031;全文第10-12页 * |
海底物体回波模拟与图像生成技术研究;丁迎迎;《中国优秀硕士学位论文全文数据库》;20061231;全文第30-33页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105355210A (zh) | 2016-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105355210B (zh) | 用于远场语音识别的预处理方法和装置 | |
JP5444472B2 (ja) | 音源分離装置、音源分離方法、及び、プログラム | |
JP7011075B2 (ja) | マイク・アレイに基づく対象音声取得方法及び装置 | |
AU2011334840B2 (en) | Apparatus and method for spatially selective sound acquisition by acoustic triangulation | |
KR101415026B1 (ko) | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 | |
US9591404B1 (en) | Beamformer design using constrained convex optimization in three-dimensional space | |
CN110557710B (zh) | 具有语音控制的低复杂度多声道智能扩音器 | |
WO2015196729A1 (zh) | 一种麦克风阵列语音增强方法及装置 | |
JP5785674B2 (ja) | デュアルマイクに基づく音声残響低減方法及びその装置 | |
CN104717587A (zh) | 用于音频信号处理的耳机和方法 | |
JP6371167B2 (ja) | 残響抑制装置 | |
US11483646B1 (en) | Beamforming using filter coefficients corresponding to virtual microphones | |
KR20090098552A (ko) | 위상정보를 이용한 자동 이득 조절 장치 및 방법 | |
JP2012049715A (ja) | 音源分離装置、音源分離方法、及び、プログラム | |
US10887709B1 (en) | Aligned beam merger | |
CN113491137B (zh) | 具有分数阶的灵活差分麦克风阵列 | |
CA3146517A1 (en) | Speech-tracking listening device | |
CN111034220B (zh) | 声辐射控制方法和系统 | |
JP2010152107A (ja) | 目的音抽出装置及び目的音抽出プログラム | |
JP7020955B2 (ja) | 音場補正装置、音場補正方法及び音場補正プログラム | |
Kim et al. | Target-to-non-target directional ratio estimation based on dual-microphone phase differences for target-directional speech enhancement. | |
AU2022267857A1 (en) | A method and system for directional processing of audio information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |