CN105355210B - 用于远场语音识别的预处理方法和装置 - Google Patents

用于远场语音识别的预处理方法和装置 Download PDF

Info

Publication number
CN105355210B
CN105355210B CN201510729573.2A CN201510729573A CN105355210B CN 105355210 B CN105355210 B CN 105355210B CN 201510729573 A CN201510729573 A CN 201510729573A CN 105355210 B CN105355210 B CN 105355210B
Authority
CN
China
Prior art keywords
beamforming
frequency components
frequency
low
high frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510729573.2A
Other languages
English (en)
Other versions
CN105355210A (zh
Inventor
宋辉
魏建强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510729573.2A priority Critical patent/CN105355210B/zh
Publication of CN105355210A publication Critical patent/CN105355210A/zh
Application granted granted Critical
Publication of CN105355210B publication Critical patent/CN105355210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明提出一种用于远场语音识别的预处理方法和装置,该用于远场语音识别的预处理方法包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。该方法能够提高远场语音识别的性能。

Description

用于远场语音识别的预处理方法和装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种用于远场语音识别的预处理方法和装置。
背景技术
为了提高语音识别的准确度,在语音识别之前通常会进行预处理。在远场语音识别场景下,目前采用比较多的一种预处理方案是回声消除(Acoustic echo cancellation,AEC)+声源定位+自适应波束形成技术。大致的思想是:先对每个麦克风采集的语音信号进行回声消除、再基于声源定位技术找到目标说话人的空间方位,进而通过自适应波束形成(Adaptive Beamforming,ABF)技术将主波束指向说话人,实现声音增强的效果。
但是,上述处理方案在运算量、准确度、收敛速度和残差等方面都存在一定的问题,进而影响最终的远场语音识别性能。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种用于远场语音识别的预处理方法,该方法可以实现了信号的声源定位和语音增强功能,并且新的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系统的性能。
本发明的另一个目的在于提出一种用于远场语音识别的预处理装置。
为达到上述目的,本发明第一方面实施例提出的用于远场语音识别的预处理方法,包括:获取由麦克风阵列采集的多路语音信号;根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
本发明第一方面实施例提出的用于远场语音识别的预处理方法,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系统的性能。
为达到上述目的,本发明第二方面实施例提出的用于远场语音识别的预处理装置,包括:获取模块,用于获取由麦克风阵列采集的多路语音信号;划分模块,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;波束形成模块,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
本发明第二方面实施例提出的用于远场语音识别的预处理装置,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系统的性能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的用于远场语音识别的预处理方法的流程示意图;
图2是本发明另一实施例提出的用于远场语音识别的预处理方法的流程示意图;
图3是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图;
图4是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的用于远场语音识别的预处理方法的流程示意图,该方法包括:
S11:获取由麦克风阵列采集的多路语音信号。
其中,麦克风阵列可以具体是均匀环形麦克风阵列(Uniform Circular Array,UCA),UCA是指将多个麦克风均匀设置在环形平面上。
通过每个麦克风采集一路语音信号,从而可以获取到多路语音信号。
麦克风的个数以及环形半径可以设置,例如,N=16,R=0.08m。
S12:根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量。
频率点阈值例如是f0=1kHz。
低频分量是指频率小于f0的部分,中高频分量是指频率大于f0的部分。
每一路语音信号的频谱范围通常是在0-8kHz,通过与频率点阈值比较,可以将采集的多路语音信号分为低频分量和中高频分量。
S13:对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
对均匀环形麦克风阵列采集的语音信号进行延时求和波束形成可以称为DS-UCA,对均匀环形麦克风阵列采集的语音信号进行基于滤波器的波束形成可以称为FIB-UCA。
一些实施例中,参见图2,对低频分量的处理流程可以包括:
S201:对低频分量根据空间响应的公式,进行DS-UCA的波束成形。
其中,DS-UCA的波束成形时采用的空间响应的公式是:
Figure BDA0000835188150000031
公式(1)
其中,N是均匀环形麦克风阵列中麦克风的个数,R是环形半径,B表示波束形成器的空间响应,ω是语音信号的角频率,θ,φ分别是语音信号的仰角和方向角,在远场识别场景下,θ=θ0=π/2,k是波数,k=ω/c,c是光速,θ00分别是主波束的仰角和方向角,γn是第n个麦克风的方向角,γn=2π(n-1)/N。主波束的仰角和方向角可以设置。
S202:对低频分量中的高频分量进行预加重处理。
通过公式(1)可以看出,当语音信号的频率越大,频谱失真越严重,为此,在对低频分量(0-1kHz)计算空间响应后,可以对低频分量中的高频分量(偏向1kHz的部分)进行预加重处理。预加重处理时例如在上述的空间响应B的基础上乘以一个增益因子,该增益因子与频率成正比。具体的低频分量中高频分量的选择以及增益因子的设置可以根据经验值确定。
一些实施例中,参见图2,对中高频分量的处理流程可以包括:
S203:确定补偿滤波器。
补偿滤波器Hm(ω)的公式是:
Figure BDA0000835188150000032
其中,ωLH分别表示ω的最低和最高值,K是麦克风的个数,m是相位模式(phase-mode)的索引,其中,麦克风采集的语音信号经过离散傅里叶逆变换(InverseDiscrete Fourier Transform,IDFT)变换可以转换为相位模式,Jn(α)为第一类Bessel函数,ω=πf/fmax
Figure BDA0000835188150000041
r是麦克风阵列的半径,c是光速,f是语音信号的频率,fmax是最高频率。
S204:确定加权因子。
加权因子{gm}是一个M阶有限长单位冲激响应(Finite Impulse Response,FIR)滤波器系数,M是m的最大值,滤波器的形状可以根据实际需求来设计,可以参考的指标如主波束宽度、旁瓣衰减量等。
S205:确定相位模式分量。
相位模式分量的公式是:
Figure BDA0000835188150000042
其中,令S(ω)=1。
S206:根据补偿滤波器、加权因子和相位模式分量计算空间响应。
空间响应的计算公式是:
Figure BDA0000835188150000043
其中,S(ω)=1。
S207:将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行FIB-UCA的波束成形。
例如,预设主波束方向角是θD,则调整后的空间响应是:
Figure BDA0000835188150000044
通过上述流程可以得到波束形成器的输出波束(S208),具体的,通过S201-S202可以得到低频分量的波束形成器的输出波束,以及,通过S203-S207可以得到高频分量的波束形成器的输出波束。
本实施例中,通过上述是波束形成方法,同时实现了信号的声源定位和语音增强功能,并且上述的波束形成方法还保证了阵列的空间响应与频率无关,从而降低信号的频谱失真程度,保证了后续音频通讯,尤其是语音识别系统的性能。
在波束形成之后,该方法还可以包括:
S209:对波束形成得到的每个输出波束进行回声消除(AEC)。
其中,通过上述的波束形成以及主波束调向技术,可以将整个声学空间划分成了若干个区域,比如3个固定波束,每个固定波束覆盖120°;或者6个固定波束,每个固定波束覆盖60°范围。
以3个波束为例,则波束形成器的输出是3个波束,之后可以分别对3个输出波束中的每个波束进行AEC。
AEC可以消除系统产生的音乐、文本到语音(Text to Speech,TTS)等干扰信号。
目前的方案需要对每一个麦克风信号进行AEC,当麦克风数量比较大时,回声消除的运算量非常大。
本实施例中,通过将AEC设置在波束形成之后,可以显著降低AEC所需运算量。
另外,AEC的处理效果要依赖于信噪比,回波信号信噪比越高,自适应滤波器的收敛越快,残留误差越小,但是,目前的方案中,由于ABF模块的滤波器变化速度远快于AEC模块中的滤波器的收敛速度,所以实际中,无法将ABF模块放在AEC之前来提高信噪比,这就会造成传统处理架构的回波消除(BargaIn)功能的收敛速度以及最终残差都无法达到最佳状态,进而也会部分影响最终的远场语音识别性能。
本实施例中,通过在AEC之前先进行波束形成,可以避免传统方案中将AEC放在自适应波束形成模块的前面所导致的AEC更新速度太慢的问题,从而可以提高AEC的效果,进而提高远场语音识别性能。
S210:根据AEC结果选择最优波束。
例如,可以将输出幅度最大或信噪比最高的输出波束确定为最优波束。
S211:对最优波束进行单通道语音增强和后处理。
在对最优波束进行单通道语音增强和后处理后可以输入到用于语音识别的识别器中,以进行远场语音识别。
本实施例中,通过上述的预处理流程,可以使得识别器接收到的信号有效抑制了混响和噪声的影响,同时也保证了语音各个频谱分量的失真最小,因此能够显著提升远场场景下语音识别的性能。
图3是本发明另一实施例提出的用于远场语音识别的预处理装置的结构示意图,该装置30包括:获取模块31、划分模块32和波束形成模块33。
获取模块31,用于获取由麦克风阵列采集的多路语音信号;
其中,麦克风阵列可以具体是均匀环形麦克风阵列(Uniform Circular Array,UCA),UCA是指将多个麦克风均匀设置在环形平面上。
通过每个麦克风采集一路语音信号,从而可以获取到多路语音信号。
麦克风的个数以及环形半径可以设置,例如,N=16,R=0.08m。
划分模块32,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量;
频率点阈值例如是f0=1kHz。
低频分量是指频率小于f0的部分,中高频分量是指频率大于f0的部分。
每一路语音信号的频谱范围通常是在0-8kHz,通过与频率点阈值比较,可以将采集的多路语音信号分为低频分量和中高频分量。
波束形成模块33,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成。
对均匀环形麦克风阵列采集的语音信号进行延时求和波束形成可以称为DS-UCA,对均匀环形麦克风阵列采集的语音信号进行基于滤波器的波束形成可以称为FIB-UCA。
其中,DS-UCA的波束成形公式是:
Figure BDA0000835188150000061
公式(1)
其中,N是均匀环形麦克风阵列中麦克风的个数,R是环形半径,B表示波束形成器的空间响应,ω是语音信号的频率,θ,φ分别是语音信号的仰角和方向角,在远场识别场景下,θ=θ0=π/2,k是波数,k=ω/c,c是光速,θ00分别是主波束的仰角和方向角,γn是第n个麦克风的方向角,γn=2π(n-1)/N。主波束的仰角和方向角可以设置。
一些实施例中,参见图4,所述波束形成模块包括:
低频分量波束形成单元331,用于对低频分量根据空间响应的公式,进行DS-UCA的波束成形:
预加重模块332,用于对低频分量中的高频分量进行预加重处理。
通过公式(1)可以看出,当语音信号的频率越大,频谱失真越严重,为此,在对低频分量(0-1kHz)计算空间响应后,可以对低频分量中的高频分量(偏向1kHz的部分)进行预加重处理。预加重处理时例如在上述的空间响应B的基础上乘以一个增益因子,该增益因子与频率成正比。具体的低频分量中高频分量的选择以及增益因子的设置可以根据经验值确定。
一些实施例中,所述波束形成模块33包括:中高频分量波束形成单元333,所述中高频分量波束形成单元333具体用于:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
具体的DS-UCA的流程以及FIB-UCA的流程可以参见上述实施例中的相关描述,在此不再赘述。
一些实施例中,参见图4,该装置还包括:
回声消除模块34,用于对波束形成得到的每个输出波束进行回声消除;
其中,通过上述的波束形成以及主波束调向技术,可以将整个声学空间划分成了若干个区域,比如3个固定波束,每个固定波束覆盖120°;或者6个固定波束,每个固定波束覆盖60°范围。
以3个波束为例,则波束形成器的输出是3个波束,之后可以分别对3个输出波束中的每个波束进行AEC。
AEC可以消除系统产生的音乐、文本到语音(Text to Speech,TTS)等干扰信号。
目前的方案需要对每一个麦克风信号进行AEC,当麦克风数量比较大时,回声消除的运算量非常大。
本实施例中,通过将AEC设置在波束形成之后,可以显著降低AEC所需运算量。
另外,AEC的处理效果要依赖于信噪比,回波信号信噪比越高,自适应滤波器的收敛越快,残留误差越小,但是,目前的方案中,由于ABF模块的滤波器变化速度远快于AEC模块中的滤波器的收敛速度,所以实际中,无法将ABF模块放在AEC之前来提高信噪比,这就会造成传统处理架构的回波消除(BargaIn)功能的收敛速度以及最终残差都无法达到最佳状态,进而也会部分影响最终的远场语音识别性能。
本实施例中,通过在AEC之前先进行波束形成,可以避免传统方案中将AEC放在自适应波束形成模块的前面所导致的AEC更新速度太慢的问题,从而可以提高AEC的效果,进而提高远场语音识别性能。
选择模块35,用于根据回声消除的结果选择最优波束;
例如,可以将输出幅度最大或信噪比最高的输出波束确定为最优波束。
后处理模块36,用于对最优波束进行单通道语音增强和后处理。
本实施例中,通过上述的预处理流程,可以使得识别器接收到的信号有效抑制了混响和噪声的影响,同时也保证了语音各个频谱分量的失真最小,因此能够显著提升远场场景下语音识别的性能。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种用于远场语音识别的预处理方法,其特征在于,包括:
获取由麦克风阵列采集的多路语音信号;
根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量,其中,将所述多路语音信号中频率小于所述频率点阈值的部分确定为低频分量,将所述多路语音信号中频率大于所述频率点阈值的部分确定为中高频分量;
对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成;
其中,所述对中高频分量进行基于滤波器的波束形成,包括:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
2.根据权利要求1所述的方法,其特征在于,还包括:
对波束形成得到的每个输出波束进行回声消除;
根据回声消除的结果选择最优波束;
对最优波束进行单通道语音增强和后处理。
3.根据权利要求1所述的方法,其特征在于,在对低频分量进行延迟求和波束形成之后,所述方法还包括:
对低频分量中的高频分量进行预加重处理。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述麦克风阵列是均匀环形麦克风阵列。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述频率点阈值是1kHz。
6.一种用于远场语音识别的预处理装置,其特征在于,包括:
获取模块,用于获取由麦克风阵列采集的多路语音信号;
划分模块,用于根据预设的频率点阈值,将所述多路语音信号分为低频分量和中高频分量,其中,将所述多路语音信号中频率小于所述频率点阈值的部分确定为低频分量,将所述多路语音信号中频率大于所述频率点阈值的部分确定为中高频分量;
波束形成模块,用于对低频分量进行延迟求和波束形成,以及,对中高频分量进行基于滤波器的波束形成;
其中,所述波束形成模块包括:中高频分量波束形成单元,所述中高频分量波束形成单元具体用于:
确定补偿滤波器;
确定加权因子;
确定相位模式分量;
根据补偿滤波器、加权因子和相位模式分量计算空间响应;
将空间响应的主波束方向调整为预设的主波束方向,根据调整后的空间响应的公式,对中高频分量进行基于滤波器的波束成形。
7.根据权利要求6所述的装置,其特征在于,还包括:
回声消除模块,用于对波束形成得到的每个输出波束进行回声消除;
选择模块,用于根据回声消除的结果选择最优波束;
后处理模块,用于对最优波束进行单通道语音增强和后处理。
8.根据权利要求6所述的装置,其特征在于,所述波束形成模块包括:
低频分量波束形成单元,用于对低频分量根据空间响应的公式,进行DS-UCA的波束成形:
预加重模块,用于对低频分量中的高频分量进行预加重处理。
CN201510729573.2A 2015-10-30 2015-10-30 用于远场语音识别的预处理方法和装置 Active CN105355210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510729573.2A CN105355210B (zh) 2015-10-30 2015-10-30 用于远场语音识别的预处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510729573.2A CN105355210B (zh) 2015-10-30 2015-10-30 用于远场语音识别的预处理方法和装置

Publications (2)

Publication Number Publication Date
CN105355210A CN105355210A (zh) 2016-02-24
CN105355210B true CN105355210B (zh) 2020-06-23

Family

ID=55331171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510729573.2A Active CN105355210B (zh) 2015-10-30 2015-10-30 用于远场语音识别的预处理方法和装置

Country Status (1)

Country Link
CN (1) CN105355210B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US10657983B2 (en) * 2016-06-15 2020-05-19 Intel Corporation Automatic gain control for speech recognition
CN106210368B (zh) * 2016-06-20 2019-12-10 百度在线网络技术(北京)有限公司 消除多通道声回波的方法和装置
CN106328126B (zh) * 2016-10-20 2019-08-16 北京云知声信息技术有限公司 远场语音识别处理方法及装置
CN106611600A (zh) * 2016-12-02 2017-05-03 广州音书科技有限公司 用于远场拾音及移动充电的音频处理装置及系统
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107346661B (zh) * 2017-06-01 2020-06-12 伊沃人工智能技术(江苏)有限公司 一种基于麦克风阵列的远距离虹膜跟踪与采集方法
CN107481729A (zh) * 2017-09-13 2017-12-15 百度在线网络技术(北京)有限公司 一种将智能终端升级为远场语音智能设备的方法及系统
CN108694957B (zh) * 2018-04-08 2021-08-31 湖北工业大学 基于圆形麦克风阵列波束形成的回声抵消设计方法
WO2019200564A1 (en) * 2018-04-18 2019-10-24 Baidu. Com Times Technology (Beijing) Co., Ltd. Method for evaluating localization system of autonomous driving vehicles
CN108447499B (zh) * 2018-04-18 2020-08-04 佛山市顺德区中山大学研究院 一种双层圆环麦克风阵列语音增强方法
CN108831498B (zh) * 2018-05-22 2020-01-24 出门问问信息科技有限公司 多波束波束成形的方法、装置及电子设备
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN108922553B (zh) * 2018-07-19 2020-10-09 苏州思必驰信息科技有限公司 用于音箱设备的波达方向估计方法及系统
EP3854108A1 (en) 2018-09-20 2021-07-28 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
CN109978034B (zh) * 2019-03-18 2020-12-22 华南理工大学 一种基于数据增强的声场景辨识方法
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
EP3942845A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11445294B2 (en) 2019-05-23 2022-09-13 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
JP2022535229A (ja) 2019-05-31 2022-08-05 シュアー アクイジッション ホールディングス インコーポレイテッド 音声およびノイズアクティビティ検出と統合された低レイテンシオートミキサー
CN114467312A (zh) 2019-08-23 2022-05-10 舒尔获得控股公司 具有改进方向性的二维麦克风阵列
CN110691301A (zh) * 2019-09-25 2020-01-14 晶晨半导体(深圳)有限公司 一种测试远场语音设备与外置喇叭之间延迟时间的方法
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2364121B (en) * 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
CA2354858A1 (en) * 2001-08-08 2003-02-08 Dspfactory Ltd. Subband directional audio signal processing using an oversampled filterbank
WO2003083828A1 (en) * 2002-03-27 2003-10-09 Aliphcom Nicrophone and voice activity detection (vad) configurations for use with communication systems
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치
CN101447190A (zh) * 2008-06-25 2009-06-03 北京大学深圳研究生院 基于嵌套子阵列的后置滤波与谱减法联合语音增强方法
CN104810021B (zh) * 2015-05-11 2017-08-18 百度在线网络技术(北京)有限公司 应用于远场识别的前处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于维纳滤波的 LCMV 波束形成器设计;郭水旺;《天中学刊》;20091031;全文第10-12页 *
海底物体回波模拟与图像生成技术研究;丁迎迎;《中国优秀硕士学位论文全文数据库》;20061231;全文第30-33页 *

Also Published As

Publication number Publication date
CN105355210A (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN105355210B (zh) 用于远场语音识别的预处理方法和装置
JP5444472B2 (ja) 音源分離装置、音源分離方法、及び、プログラム
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
AU2011334840B2 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
KR101415026B1 (ko) 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
US9591404B1 (en) Beamformer design using constrained convex optimization in three-dimensional space
CN110557710B (zh) 具有语音控制的低复杂度多声道智能扩音器
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
JP5785674B2 (ja) デュアルマイクに基づく音声残響低減方法及びその装置
CN104717587A (zh) 用于音频信号处理的耳机和方法
JP6371167B2 (ja) 残響抑制装置
US11483646B1 (en) Beamforming using filter coefficients corresponding to virtual microphones
KR20090098552A (ko) 위상정보를 이용한 자동 이득 조절 장치 및 방법
JP2012049715A (ja) 音源分離装置、音源分離方法、及び、プログラム
US10887709B1 (en) Aligned beam merger
CN113491137B (zh) 具有分数阶的灵活差分麦克风阵列
CA3146517A1 (en) Speech-tracking listening device
CN111034220B (zh) 声辐射控制方法和系统
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム
JP7020955B2 (ja) 音場補正装置、音場補正方法及び音場補正プログラム
Kim et al. Target-to-non-target directional ratio estimation based on dual-microphone phase differences for target-directional speech enhancement.
AU2022267857A1 (en) A method and system for directional processing of audio information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant