CN104640001A - 基于多重超定向波束形成器的共同讲话者调零 - Google Patents

基于多重超定向波束形成器的共同讲话者调零 Download PDF

Info

Publication number
CN104640001A
CN104640001A CN201410621776.5A CN201410621776A CN104640001A CN 104640001 A CN104640001 A CN 104640001A CN 201410621776 A CN201410621776 A CN 201410621776A CN 104640001 A CN104640001 A CN 104640001A
Authority
CN
China
Prior art keywords
sound
microphone
audio signal
driver
passenger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410621776.5A
Other languages
English (en)
Other versions
CN104640001B (zh
Inventor
宋建鸣
M.罗伊特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TEMIC AUTOMOTIVE NA Inc
Continental Automotive Systems Inc
Original Assignee
TEMIC AUTOMOTIVE NA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TEMIC AUTOMOTIVE NA Inc filed Critical TEMIC AUTOMOTIVE NA Inc
Publication of CN104640001A publication Critical patent/CN104640001A/zh
Application granted granted Critical
Publication of CN104640001B publication Critical patent/CN104640001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Abstract

使用多个定向麦克风定向地选择车辆中来自驾驶员的语音和来自乘客的语音。从被第二多个定向麦克风检测为来自驾驶员的声音抑制从多个定向麦克风被检测为来自乘客的声音。

Description

基于多重超定向波束形成器的共同讲话者调零
相关申请的交叉引用
本申请与下列申请相关:Co-Talker Nulling For Automatic Speech Recognition Systems,由Mike Reuter发明,和本申请同日提交,并由代理人案号2013P03181US标识。
背景技术
在最近几年中,通过计算机精确识别人类语音有所改善,但尚未百分之百地精确。语音识别系统的一个已知问题是排除从除了其语音旨在被识别的人以外的某个人发出的声音或语音,即共同讲话者(co-talker)的语音可能使语音识别系统混乱。能够定位并抑制来自共同讲话者声音将是优于现有技术的改善。
附图说明
图1是车辆乘客室的平面图的示意性描绘;
图2是一对空间选择性麦克风检测波束的示意性表示;
图3描绘定向波瓣(lobe)对,表示空间选择性虚拟麦克风;
图4是音频系统的框图;
图5描绘由单个“波束”对上的话音样本处理器执行的方法的步骤,该方法实现从驾驶员选择性捕获或音频;
图6是话音样本处理器的框图;
图7是车辆乘客室的平面图的示意性描绘;
图8示出响应于来自驾驶员的语音信号的波形,该波形表示从图7所描绘的车辆乘客室中的麦克风输出的电信号;
图9描绘图8中所示的波形的延迟副本;
图10示出响应于来自乘客的语音信号声波的波形,该波形表示从图7中所示的麦克风输出的电信号;以及
图11是图10中所示波形的延迟和反转副本。
具体实施方式
由Young的实验演示的行波的相长和相消干涉是公知的。简单地说,当光波经过贯通平板的两个狭缝时,从狭缝发出的光波将在定位成越过平板的屏幕上产生交替的亮带和暗带。在屏幕上产生的各交替的带由从狭缝发出的波的相加和相消干涉引起。
发送的无线电波的相加和相消干涉也是公知的。该现象的一种用途是相控阵雷达。简单地说,相控阵雷达引导从两个紧密间隔的天线发送的RF信号,并且因此,相对于发送到第二天线的信号,通过改变发送到一个天线的RF信号的相位而引导雷达“波束”。
行波的相加和相消干涉的另一种用途是定向选择性或“波束形成”麦克风,它们也是公知的。例如McCowan et al., “Near-field Adaptive Beam former for Robust Speech Recognition,” Queensland University of Technology, Brisbane, Australia,其全部内容通过引用并入本文。如下文所述,多对超定向麦克风(其中的每一个通过把来自两个不同的麦克风的信号以数字方式延迟逐步不同的时间长度来实现)精确地定位和检测来自驾驶员和共同讲话乘客的声音。由具有最强的共同讲话乘客音频的至少一个超定向麦克风对拾取的、来自共同讲话乘客的声音被从驾驶员的声音中去除,所述驾驶员的声音由具有最强驾驶员音频信号的超定向麦克风对拾取。
现在参照各图,图1是车辆乘客室100、车辆驾驶员102、车辆乘客104和从他们中每一个发出的声波的平面图的示意性描绘,声波由同心圆部分106表示。图1还示出两个非定向和通用麦克风108、110相对于驾驶员102和乘客104的布置。在图1中,麦克风106、108被示出为附连到车辆的后视反射镜112,并由此彼此以相对小的距离114(典型地是10-14英寸)被间隔开。
如图1所示,右侧麦克风108比左侧麦克风108更加远离驾驶员102。类似地,左侧麦克风108比右侧麦克风110更远离乘客104。从驾驶员102发出的声波106因此将在来自驾驶员102的相同声波108到达右侧麦克风110之前到达左侧麦克风108。从另一侧的乘客104发出的声波106因此将在来自乘客104的相同声波104到达左侧麦克风108之前到达右侧麦克风110。
当驾驶员102说话时,来自驾驶员102的相应的声波106在两个不同的时间到达两个麦克风108、110。来自驾驶员的声音将在声音到达右麦克风110之前到达左麦克风108。当右侧麦克风转化来自驾驶员的声波时,由右侧麦克风生成的模拟电信号将具有相位角,该相位角“滞后于”或者在当左侧麦克风转化相同声波时由左侧麦克风生成的电信号的相位角的后面。当乘客104说话时,并且来自乘客104的相应的声波106到达两个麦克风108、110,当左侧麦克风转化来自乘客的声波时,由左侧麦克风生成的模拟电信号将具有相位角,该相位角“滞后于”或者在当右侧麦克风转化相同的乘客的声波时由右侧麦克风生成的电信号的相位角的后面。
来自两个麦克风的音频信号被采样,并使用信号处理领域中的普通技术人员公知的技术转换成表示样本的数字值。为了产生超定向麦克风“波束”,即定向选择性麦克风,有必要实现源于空间中不同位置并且将必须传播不同距离到两个麦克风的波的相加和相长干涉的等效。等效于在不同位置处空间定位麦克风以便实现来自特定方向的波的相加,表示来自第一麦克风的样本的数字值被选择性地以数字方式延迟达预定的时间长度,然后与从另一麦克风获得的样本组合。当表示非延迟样本的数字值被相加到表示先前获得和延迟的样本的数字值时,所得的值将是由麦克风检测的音频信号的相加或相消干涉。换句话说,通过选择性地延迟和组合来自不同麦克风的样本,由两个麦克风提供的信号与从中获得样本的音频信号的相加或相消“干涉”组合。选择性地延迟和组合从麦克风获得的延迟的样本因此使得两个麦克风能够从不同位置选择性地接收音频。因此麦克风表现得好像它们接收和转化仅来自定位在离两个麦克风一距离处的地区或区域的音频,使得在麦克风处接收的信号将被相加地组合。通过相加地或相消地把样本组合在一起,源于车辆中的各位置以使得当它们被组合时它们彼此相消地干涉的音频信号因此能够被选择性地接收或抑制。
来自两个麦克风108、110的信号因此可被以数字方式操纵,以便实现空间选择性或“波束”,由两个麦克风从空间选择性或“波束”检测到的声音将被相加或相干地彼此组合,并且因此可用于后续的用途或处理。
图2是一对空间选择性麦克风检测“波束”200、204的示意性表示,“波束”200、204在本文中也被称为“波束对”206。“波束”200、204由上述声波的相长和相消干涉“生成”。敏感性的左侧麦克风区域或“波束”202被“引导”向乘客室100中驾驶员102所定位的位置,并且选择性地检测从驾驶员发出的声音。右侧麦克风“波束”204被“引导”向乘客104所定位的位置,选择性地检测从乘客104发出的声音。
信号处理领域中的普通技术人员将认识到:来自驾驶员102的某些声音将到达最靠近乘客104的麦克风110并由其检测。类似地,来自乘客104的声音也将到达最靠近驾驶员102的麦克风108并由其检测。因此重要的是,尽可能近地定位驾驶员和共同讲话者以便能够从所检测的驾驶员的声音中抑制所检测的共同讲话者的声音。一旦共同讲话乘客被定位,就可抑制由麦克风波束拾取的共同讲话者的语音。
图3描绘定向波瓣对,该对由附图标记302A和302B、304A和304B以及306A和306B标识。波瓣一般表示乘客室100的空间区域,其中将使用两个物理麦克风310、312选择性地检测声音,它的输出声音使用音频行波的相加和相消干涉的原理以数字方式被处理,从而来实现多个定向选择性虚拟麦克风。
波束对的不同选择性方向通过检测由第一虚拟麦克风拾取和由第二虚拟麦克风拾取的声音来实现。来自虚拟麦克风之一的声音被选择性地延迟达逐渐不同的时间长度。每个被延迟的样本然后与由其它麦克风同时检测的声音样本组合。因为各麦克风被定位成以稍微不同的距离远离声源,所以由一个麦克风拾取的声音将和由不同的麦克风拾取的相同声音具有不同的相位角。当那些相位角之间的差是180度时,把这些声音相加在一起将使得由各麦克风拾取的声音抵消。通过改变来自一个麦克风的声音的延迟时间长度并把不同延迟的组合在一起声音,将不同延迟的样本组合到未延迟的样本将产生不同程度的相加或相消干涉。这种干涉发生得好像所检测的声音源于不同的空间位置,这相当于“转向”检测音频的方向。产生分别来自驾驶员和乘客的信号的最大振幅相长干涉的波束对302、304、306与使用单个波束的可能情况相比更精确地确定驾驶员和乘客二者的位置,而且他们各自的语音信号与使用单个波束的可能情况相比更精确。基于由麦克风检测的声音的振幅大于还是小于预定阈值,做出声音来自乘客还是驾驶员的决定,如下所阐述。
在替代实施例中,从空间上分离的麦克风发出的电信号可被选择性地“选通”或采样,以便选择性地接收和忽略在不同时间到达两个麦克风的声波。例如,可在第一时刻t1采样来自麦克风108的电信号,并且此后的被忽略。可在稍后的时间t2采样来自另一麦克风110的电信号,并且此后的被忽略。通过选择t1和t2,使得它们之间的差等于声音的波长从第一麦克风传播到第二麦克风所需的时间,两个样本将相长地相加。相反地,如果选择t1和t2,使得它们的差是声音的半波长从第一麦克风传播到第二麦克风所需的时间,则这两个样本将相消地相加。因此选择性地选择t1和t2使得两个空间上分离的麦克风能够通过在不同时间采样来自麦克风的声音而定向地辨别声音。
通过比较由每个波束对选择性地检测的声音的相对振幅并把那些振幅和实验确定的和预定的阈值相比较,波束对包括定向选择性滤波器,通过定向选择性滤波器,与不使用多个波束对的可能情况相比,可更精确地定位驾驶员的位置和驾驶员的音频。来自波束对302、304、306的音频信号因此能够定位驾驶员和乘客。和阈值相比,提供最强检测信号的波束此后被用来选择性地从驾驶员音频信号去除乘客音频信号。换句话说,通过比较从每个波束对生成的输出,波束对实现对驾驶员的语音和乘客的语音的选择性定位。多个波束对还实现对源于乘客的语音信号的抑制。
图4是由语音控制的音频系统400的框图。系统400包括:两个常规的但是空间上分离的麦克风402、404;常规的模拟到数字(A/D)转换器406;快速傅立叶变换处理器408,被配置成生成来自A/D转换器406的数字信号的傅立叶变换;话音样本处理器416;语音识别器418;和命令处理器420。命令处理器420形成分离车辆系统422的部分,诸如话音启动导航或“信息娱乐”设备或系统。
在优选实施例中,车辆系统422可由话音命令控制,该话音命令首先由话音样本处理器416识别为来自驾驶员。被识别为来自驾驶员的命令之后被提供给语音识别器,语音识别器被配置成处理声音并识别音素,并生成电信号,被配置成实现车辆系统的操作,诸如到收音机、蜂窝电话或导航系统的命令。在优选实施例中,话音样本处理器416和语音识别器418被体现在相同的数字信号处理器(DSP)中。
如上所指出,波束形成和麦克风波束形成是公知的,然而,多个波束的波束形成以及分别来自驾驶员和乘客的声音的选择性检测和抑制在此以前不是已知的。图5描绘由话音样本处理器对单个“波束”对执行的方法的步骤,并且使用麦克风“波束对”的多个超定向对(诸如在图3中所描绘的各超定向对),该方法实现选择性捕获或来自驾驶员的音频,并且同时减少或抑制来自乘客的音频信号。因此在逐个波束对的基础上执行图5中所示的步骤。
图5中所呈现的步骤不处于以必须按其执行该步骤的特定顺序。例如,可以在需要从来自第二麦克风的第二样本的FFT表示中去除或减去一个样本的频率分量之前的任何时间确定来自第一麦克风的话音样本的FFT表示的频率分量。
在图5A中所示的第一步骤502中,生成由两个麦克风中的第一个转化的信号的样本的快速傅立叶变换(FFT)表示。在步骤504处,样本被存储在寄存器或存储器设备中,以便能够控制麦克风样本的数字表示将与来自另一个麦克风的样本组合的时间。
步骤506示出允许经过预定的时间量。预定的时间量已经经过之后,在步骤508处确定FFT的频率分量。如上所指出,也可在存储FFT之前做出FFT分量的确定。
在图5B中所示的步骤510处,针对第一样本的FFT中的频率分量中的每一个确定最大信号水平。换句话说,确定由最靠近驾驶员的麦克风拾取的声音的最大振幅。
在步骤512处,确定第二样本的频率分量。这就是说,确定由最靠近乘客的麦克风拾取的音频的频率分量。
在步骤514处,从由最靠近驾驶员的麦克风拾取的音频的频率分量中去除由最靠近驾驶员的麦克风拾取的频率分量。所得的差是从由最靠近乘客的麦克风拾取的信号中调零(nulling)由最靠近乘客的麦克风拾取的信号的分量。
重要的是:由最靠近乘客的麦克风拾取的信号和由最靠近驾驶员的麦克风拾取的信号是由定向辨别虚拟麦克风拾取的信号,在本文中被称为麦克风“波束”。换句话说,由每个麦克风拾取的信号是通过两个麦克风拾取的波的相干或相长干涉所定向选择的音频信号。此外,多个麦克风“波束”用在每个方向中,即多个“波束”被引导向驾驶员,并且多个“波束”被引导向乘客。从由引导向驾驶员的多个波束拾取的音频信号中抑制从引导向乘客的多个波束拾取的音频信号,所述引导向乘客的多个波束中的一个波束将具有最大的检测信号水平,所述引导向驾驶员的多个波束中的一个波束也将具有最大的检测信号水平。通过将来自两个麦克风之一的样本选择性地延迟不同的时间长度,提供多个定向选择性麦克风波束对。
不管可以通过在不同选择时间在第一麦克风处接收音频样本并将那些样本与来自第二麦克风的样本组合来获得的定向选择性如何,不可能完全避免检测源自定向波束外部的位置的声音。换句话说,两个麦克风将检测来自驾驶员和乘客二者的至少某个音频。在第二个人也在说话时优先检测来自第一个人的语音需要标识来自第二个人的语音。抑制或调零共同讲话者的语音,即共同讲话者调零(CT)基本上包括三个步骤,其中之一是可选的。
第一步骤是标识任何语音的空间位置,这是使用上述方法和装置实现的。第二步骤是衰减被确定为来自除了驾驶员之外的位置的语音,即从驾驶员的检测语音中去除或抑制来自除了驾驶员以外的源的信号。在第三和可选步骤中,为被衰减的任何语音注入舒适噪声。
在优选实施例中,其操作由下列公式表示, 是形成麦克风权重向量的第k个虚拟麦克风波束。它们表示来自分别“看见”驾驶员和前排乘客的波束形成麦克风的定向选择性波束。来自这两个权重向量的输出被计算为:
其中H表示厄密(Hermitian)共轭转置。
量ζ用来确定从四种可能性中的信号源:1.驾驶员,2.乘客,3.并发(驾驶员+乘客语音在时间上重叠)以及4.没有语音。选择在其上计算ζ的频率范围,使得波束对在方向性上展现出大的对比度/区别。从计算量ζ,如下:
针对ζ的最大和最小值被计算为:
频率范围是从第一“bin” N1到第二“bin” N2。根据麦克风阵列几何结构的知识确定针对N1和N2的值。
在这些计算中隐含的是驾驶员侧的麦克风配对之间的配对,即在乘客侧的麦克风波束“波瓣”和在乘客侧麦克风波束“波瓣”的配对。麦克风配对由麦克风阵列的对称性定义。例如,对于虚拟麦克风指数k=0,驾驶员侧虚拟麦克风是最左边的波束,并且乘客侧波束是最右边的波束,即配对的虚拟麦克风是关于宽边的镜像。通过定义两个阈值Dthreshold和Pthreshold,根据下列伪代码中阐述的步骤确定语音源的位置vSource:
 // 来自驾驶员和乘客的语音在时间上重叠}
其中VAD是话音活动检测器,对于本领域普通技术人员是公知的。
简单地说,当驾驶员的话音活动检测器VAD为真时,语音已被检测到。如果所检测语音的最小振幅                                                  大于针对驾驶员的检测语音的第一实验确定的最小阈值,即Dthreshold,则所检测语音被认为是来自驾驶员的语音。如果所检测语音的最大振幅小于针对乘客的检测语音的第二实验确定的最大阈值,即Pthreshold。如果所检测语音的最大振幅大于Pthreshold并且小于Dthreshold,则所检测语音被认为是来自乘客和驾驶员二者。
图6是装置600的框图,装置600提供图4中描绘的话音样本处理器的功能,以上描述并在图5中描绘它的至少某个功能。简单地说,该装置被优选地体现为数字信号处理器602、一个或多个非临时性存储器设备604以及在存储器设备中存储并且因此未在图6中示出的预定指令。当指令在存储器设备604中被执行时,它们使得DSP执行上述方法步骤,包括图5中所示的方法步骤。存储器604通过常规的总线606耦合到DSP 602。
上述装置和方法有效检测来自驾驶员的语音并且调零来自共同讲话乘客的语音,只要被操作为提供定向辨别麦克风波束的麦克风彼此相对靠近,它们之间分离的优选间隔在大约10至14英寸之间。当麦克风之间的分离距离显著地更大时,例如大约30英寸或以上,选择性地延迟话音样本以提供波束形成麦克风是有问题的。当麦克风间隔大约是30英寸或以上时,不同装置和方法被用来检测来自驾驶员的语音和调零来自共同讲话乘客的语音。
在替代实施例中,其中麦克风被彼此远远地间隔开,即大约30英寸,布置两个“波束形成”麦克风,使得从期望的说话者的方向发出的声能在两个波束之间具有零度相位;从共同讲话者的方向发出的声能具有180度的相对相位。两个波束的相位估计被用作讲话者辨别器。两个波束的相位估计也可用作共同讲话者调零机制。
图7是车辆乘客室700、车辆驾驶员702、车辆乘客704和从他们中每一个发出的声波的平面图的示意性描绘,该声波分别由同心圆部分706和708表示。图7还示出了两个非定向的和通用的麦克风710、712相对于驾驶员702和乘客704的布置。在图7中,麦克风710、712都耦合到相同的数字信号处理器(DSP),并且各自由大约30英寸的分离距离S分离。配置两个麦克风和DSP,使得两个定向选择性麦克风能够拾取来自驾驶员和乘客的声音。
图8示出第一波形800-1,第一波形800-1表示响应于从驾驶员102发出并且撞击第一麦克风710的语音信号声波706而从第一麦克风710输出的电信号。和第一波形800-1相同但稍有延迟的第二波形800-2表示响应于从驾驶员102发出但撞击第二麦克风712的相同语音信号声波706而从第二麦克风712输出的电信号。因此稍微在第一波形800-1“后面”短时间段生成第二波形800-2。第二波形800-2和第一波形800-1因此只是时间上不同,两个波形之间的差由被命名为“”的相位角度差度量。
当由第一麦克风710生成的第一波形800-1被延迟等于对应于的时间差的非常短的时间段时,被延迟的波形800-1和第二波形800-2然后将彼此同相。当两个同相的波形相加在一起时,它们将如图9中所示那样彼此相长地相加,图9描绘相长地相加到第二波形800-2以形成第三波形900的延迟的第一波形800-1。
在优选实施例中,图7中所示的数字信号处理器(DSP)714被编程为接收从两个麦克风710、712输出的音频信号的样本。DSP被编程为通过执行快速傅立叶变换来将源于麦克风的时域样本转换到频域。在时域中从麦克风获得的样本被转换到频域之后,表示从第一麦克风输出的音频信号的个体频率或频率范围被选择性延迟不同的时间长度,然后与从第二麦克风获得的样本的相应频域表示组合,使得由来自第一麦克风的时间延迟的样本所表示的音频信号与由从第二麦克风获得的样本所表示的音频信号同相。换句话说,从麦克风之一获得的语音优选地在频域中被时间延迟一时间量,使得当时间延迟的语音与从另一麦克风获得的语音组合时,组合的语音信号将相干地相加,如图9中所示。
现在参照图10,第一波形1000表示响应于从乘客104发出并且撞击第二麦克风712的语音信号声波708而从第二麦克风712输出的电信号。图11描绘第二波形1100,第二波形1100表示响应于相同的语音信号声波708而从第一麦克风710输出的信号,该相同的语音信号声波708从乘客104发出但是在声波708到达第二麦克风712之后的短时间撞击第一麦克风710。如图10和11中所见,两个波形1000和1100彼此180度异相。两个波形(即与在第一麦克风710处捕获的波形异相的在第二麦克风712处捕获的波形)在它们相加时将相互抵消。通过将在第二麦克风712处获得的第一波形1000的样本延迟一时间量,该时间量等于声波108的半波长传播额外距离d'到第一麦克风710所需的时间,异相的样本将彼此相消地干涉,有效地抵消来自乘客的语音。
本领域普通技术人员将认识到:图7-11中所示的那样处理语音信号可使用图6中所示的DSP以及也在图6中所示的关联非易失性存储器设备中存储的可执行指令来实现。通过选择性地使能或配置两个麦克风710、712及其关联的DSP 714来捕获声音并将在至少一个麦克风处捕获的声音延迟全波或半波长传播到第二麦克风所需的时间,在逐个频率的基础上,可使得麦克风710、712的输出或其数字表示彼此相加或抵消。
前面的描述是为了说明的目的。在所附权利要求中阐述本发明的真实范围。

Claims (12)

1.一种在车辆中用于抑制从乘客发出的声音的方法,所述车辆具有驾驶员和乘客以及空间上分离的第一和第二麦克风,两个麦克风都检测来自乘客和驾驶员二者的声音,第一麦克风与驾驶员分离第一距离,第二麦克风与驾驶员分离第二距离,所述方法包括:
在两个麦克风处选择性地检测从乘客发出的第一声音,第一声音包括第一多个频率分量,每个频率分量具有相应的信号水平;
处理第一声音以标识第一声音的第一频率分量和确定第一频率分量的最大信号水平;
在两个麦克风处选择性地检测从驾驶员发出的第二声音,第二声音包括第二多个频率分量;以及
处理第一声音的表示并且处理第二声音的表示,以便从第二声音抑制在第一声音中检测到的并且具有低于预定阈值水平的最大信号水平的频率分量。
2.根据权利要求1所述的方法,其中在两个麦克风处选择性地检测从驾驶员发出的第二声音的步骤包括如下步骤:
在第一麦克风处接收音频信号,第一麦克风比第二麦克风更靠近驾驶员;
处理在第一麦克风处接收的音频信号以便生成音频信号的第一预定部分的数字表示,第一预定部分的数字表示在第一时间点被生成;
存储第一预定部分的数字表示;
在第二麦克风处接收音频信号,第二麦克风在空间上与第一麦克风分离预定距离;
处理在第二麦克风处接收的音频信号以便生成音频信号的第二预定部分的数字表示,第二预定部分的数字表示在稍后的第二时间点被生成;
存储音频信号的第二预定部分的数字表示;以及
选择性地组合处于不同预定时间的音频信号的第二预定部分的数字表示与第一预定部分的数字表示,由此实现对来自多个不同方向的声音的定向选择性接收。
3.根据权利要求1所述的方法,还包括:
在第一和第二麦克风处接收从乘客发出的第二音频信号;
处理在第一和第二麦克风处接收的第二音频信号,以便生成来自乘客的定向选择的第二音频信号;
处理第一音频信号以从其去除第二音频信号的分量。
4.根据权利要求2所述的方法,还包括:从第二声音选择性地抑制第一声音的频率分量的步骤。
5.根据权利要求1所述的方法,其中处理在第一麦克风处接收的第一音频信号以便生成第一音频信号的第一预定部分的数字表示包括:定向地选择从驾驶员发出的、在第一和第二麦克风处接收的声音。
6.根据权利要求5所述的方法,其中处理在第二麦克风处接收的第一音频信号以便生成第一音频信号的第二预定部分的数字表示包括:定向地选择从单个源发出的、在第一和第二麦克风处接收的声音。
7.一种用于在车辆中选择性地接收来自车辆驾驶员的语音并选择性地抑制来自共同讲话乘客的语音的装置,所述装置包括:
第一和第二麦克风,安装在车辆内间隔开的第一和第二位置处,间隔开的第一和第二位置在驾驶员和共同讲话乘客的前面,第一和第二麦克风中的至少一个被定位在驾驶员和共同讲话乘客之间;
处理器,耦合到第一和第二麦克风;
非临时性存储器设备,耦合到处理器并存储可执行指令,当可执行指令被执行时,使得处理器:
  从两个麦克风选择性地检测从乘客发出的第一声音,第一声音包括第一多个频率分量,每个频率分量具有相应的信号水平;
处理第一声音以标识第一声音的第一频率分量和确定第一频率分量的最大信号水平;
从两个麦克风选择性地检测从驾驶员发出的第二声音,第二声音包括第二多个频率分量;
处理第一声音的表示并且处理第二声音的表示,以便从第二声音抑制在第一声音中由处理器检测到的并且具有低于预定阈值水平的最大信号水平的频率分量;以及
把驾驶员语音的表示提供给语音识别器。
8.根据权利要求4所述的装置,权利要求1的方法,其中存储器设备存储额外的指令,当所述额外的指令被执行时使得处理器:
从第一麦克风接收第一音频信号;
处理从第一麦克风接收的第一音频信号以便生成第一音频信号的第一预定部分的数字表示,第一预定部分的数字表示在第一时间点被生成;
存储第一预定部分的数字表示;
从第二麦克风接收第一音频信号,第二麦克风在空间上与第一麦克风分离预定距离;
处理在第二麦克风处接收的第一音频信号以便生成第一音频信号的第二预定部分的数字表示,第二预定部分的数字表示在稍后的第二时间点被生成;
存储第二预定部分的数字表示;以及
选择第一和第二预定部分和预定的第二时间点,使得当第一和第二预定部分被相加地组合时,第一和第二预定部分相长干涉。
9.根据权利要求4所述的装置,权利要求1的方法,其中存储器设备存储额外的指令,当所述额外的指令被执行时使得处理器:选择性地从第二声音抑制第一声音的频率分量。
10.根据权利要求1所述的装置,还包括:命令处理器,耦合到语音识别器,命令处理器被配置为实现由语音识别器识别的说话命令的实施。
11.根据权利要求10所述的装置,还包括:车辆信息娱乐系统,耦合至命令处理器并且从命令处理器接收命令。
12.根据权利要求10所述的装置,其中车辆信息娱乐系统包括蜂窝收音机。
CN201410621776.5A 2013-11-07 2014-11-07 基于多重超定向波束形成器的共同讲话者调零方法和装置 Active CN104640001B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/074,645 US9497528B2 (en) 2013-11-07 2013-11-07 Cotalker nulling based on multi super directional beamformer
US14/074645 2013-11-07

Publications (2)

Publication Number Publication Date
CN104640001A true CN104640001A (zh) 2015-05-20
CN104640001B CN104640001B (zh) 2020-02-18

Family

ID=50114725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410621776.5A Active CN104640001B (zh) 2013-11-07 2014-11-07 基于多重超定向波束形成器的共同讲话者调零方法和装置

Country Status (4)

Country Link
US (1) US9497528B2 (zh)
CN (1) CN104640001B (zh)
DE (1) DE102014221059A1 (zh)
GB (1) GB2522009A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976815A (zh) * 2016-04-22 2016-09-28 乐视控股(北京)有限公司 车载语音识别方法及装置
CN108090393A (zh) * 2016-11-10 2018-05-29 厦门雅迅网络股份有限公司 基于音视频识别的出租车载客不打表的检测方法及系统
CN108399916A (zh) * 2018-01-08 2018-08-14 蔚来汽车有限公司 车载智能语音交互系统和方法、处理装置和存储装置
CN109754803A (zh) * 2019-01-23 2019-05-14 上海华镇电子科技有限公司 车载多音区语音交互系统及方法
CN109997368A (zh) * 2016-11-02 2019-07-09 奥迪股份公司 具有动态指向特性的用于机动车的麦克风系统
CN111696539A (zh) * 2020-06-29 2020-09-22 浙江吉利新能源商用车集团有限公司 对内部通话主动降噪的语音交互系统及车辆

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014002828B4 (de) * 2014-02-27 2022-02-17 Paragon Ag Vorrichtung zur Kopplung elektrischer Signale über den Körper eines Lebewesens
US10878832B2 (en) * 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program
JPWO2018216694A1 (ja) * 2017-05-24 2020-03-26 株式会社トランストロン 車載装置
US11741529B2 (en) 2019-02-26 2023-08-29 Xenial, Inc. System for eatery ordering with mobile interface and point-of-sale terminal
US11170752B1 (en) * 2020-04-29 2021-11-09 Gulfstream Aerospace Corporation Phased array speaker and microphone system for cockpit communication
CN111863012A (zh) * 2020-07-31 2020-10-30 北京小米松果电子有限公司 一种音频信号处理方法、装置、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005080303A (ja) * 2003-08-29 2005-03-24 Audio-Technica Us Inc オーディオトランスデューサ用音声マッチングシステム
US8112272B2 (en) * 2005-08-11 2012-02-07 Asashi Kasei Kabushiki Kaisha Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
WO2012093345A1 (en) * 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
JP2012517613A (ja) * 2009-02-09 2012-08-02 ウェーブス・オーディオ・リミテッド 複数マイクロフォンベースの方向性音フィルタ
WO2013160735A1 (en) * 2012-04-27 2013-10-31 Sony Mobile Communications Ab Noise suppression based on correlation of sound in a microphone array

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243060B2 (en) 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
DE102004005998B3 (de) * 2004-02-06 2005-05-25 Ruwisch, Dietmar, Dr. Verfahren und Vorrichtung zur Separierung von Schallsignalen
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005080303A (ja) * 2003-08-29 2005-03-24 Audio-Technica Us Inc オーディオトランスデューサ用音声マッチングシステム
US8112272B2 (en) * 2005-08-11 2012-02-07 Asashi Kasei Kabushiki Kaisha Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
JP2012517613A (ja) * 2009-02-09 2012-08-02 ウェーブス・オーディオ・リミテッド 複数マイクロフォンベースの方向性音フィルタ
WO2012093345A1 (en) * 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
WO2013160735A1 (en) * 2012-04-27 2013-10-31 Sony Mobile Communications Ab Noise suppression based on correlation of sound in a microphone array

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976815A (zh) * 2016-04-22 2016-09-28 乐视控股(北京)有限公司 车载语音识别方法及装置
CN109997368A (zh) * 2016-11-02 2019-07-09 奥迪股份公司 具有动态指向特性的用于机动车的麦克风系统
US10623853B2 (en) 2016-11-02 2020-04-14 Audi Ag Microphone system for a motor vehicle with dynamic directivity
CN108090393A (zh) * 2016-11-10 2018-05-29 厦门雅迅网络股份有限公司 基于音视频识别的出租车载客不打表的检测方法及系统
CN108399916A (zh) * 2018-01-08 2018-08-14 蔚来汽车有限公司 车载智能语音交互系统和方法、处理装置和存储装置
CN109754803A (zh) * 2019-01-23 2019-05-14 上海华镇电子科技有限公司 车载多音区语音交互系统及方法
CN111696539A (zh) * 2020-06-29 2020-09-22 浙江吉利新能源商用车集团有限公司 对内部通话主动降噪的语音交互系统及车辆

Also Published As

Publication number Publication date
US9497528B2 (en) 2016-11-15
DE102014221059A1 (de) 2015-05-07
GB2522009A (en) 2015-07-15
US20150124988A1 (en) 2015-05-07
GB201322975D0 (en) 2014-02-12
CN104640001B (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN104637492B (zh) 用于自动语音识别系统的共同讲话者调零
CN104640001A (zh) 基于多重超定向波束形成器的共同讲话者调零
US11831812B2 (en) Conferencing device with beamforming and echo cancellation
CN108122563B (zh) 提高语音唤醒率及修正doa的方法
US8085949B2 (en) Method and apparatus for canceling noise from sound input through microphone
US8774952B2 (en) Adaptive mode control apparatus and method for adaptive beamforming based on detection of user direction sound
JP4734070B2 (ja) ノイズ低減による多重チャンネル適応の音声信号処理
EP2749042B1 (en) Processing signals
US20170352349A1 (en) Voice processing device
US10887691B2 (en) Audio capture using beamforming
US20080288219A1 (en) Sensor array beamformer post-processor
US20080232607A1 (en) Robust adaptive beamforming with enhanced noise suppression
US9521486B1 (en) Frequency based beamforming
WO2008121905A2 (en) Enhanced beamforming for arrays of directional microphones
CN104041075A (zh) 音频源位置估计
US8639499B2 (en) Formant aided noise cancellation using multiple microphones
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
JP2016126022A (ja) 音声処理装置
JP2016167645A (ja) 音声処理装置及び制御装置
CN112216295A (zh) 一种声源定位方法、装置及设备
JP2001045592A (ja) 雑音キャンセル式マイクロホンアレイ
Tripathy et al. Acoustic Beamforming
JP2016092767A (ja) 音響処理装置及び音響処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant