CN103299656A - 动态麦克风信号混合器 - Google Patents

动态麦克风信号混合器 Download PDF

Info

Publication number
CN103299656A
CN103299656A CN2010800709944A CN201080070994A CN103299656A CN 103299656 A CN103299656 A CN 103299656A CN 2010800709944 A CN2010800709944 A CN 2010800709944A CN 201080070994 A CN201080070994 A CN 201080070994A CN 103299656 A CN103299656 A CN 103299656A
Authority
CN
China
Prior art keywords
signal
channel
noise
dynamic
preprocessed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800709944A
Other languages
English (en)
Other versions
CN103299656B (zh
Inventor
M·布克
T·毛泰加
A·文兴托普夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Serenes operations
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN103299656A publication Critical patent/CN103299656A/zh
Application granted granted Critical
Publication of CN103299656B publication Critical patent/CN103299656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R9/00Transducers of moving-coil, moving-strip, or moving-wire type
    • H04R9/08Microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供了支持在嘈杂环境中的不同扬声器的信号组合的系统和方法。具体对于在信道当中的噪声特征中的偏差,各种实施例能够确保在扬声器改变时背景噪声的平稳过渡。修改的噪声降低(NR)可通过应用动态的、信道特定的、以及与频率相关的最大衰减来为所有信道实现等效的背景噪声特征。用于调节背景噪声的参考特征可由占优势的扬声器信道来规定。在各种实施例中,具有动态目标电平的自动增益控制(AGC)可确保在所有信道中相似的语音信号电平。

Description

动态麦克风信号混合器
技术领域
本发明涉及用于动态信号混合器的系统和方法,且更具体地涉及包括频谱预处理以补偿不同的语音电平和/或不同的背景噪声的动态麦克风信号混合器。
背景技术
在数字信号处理中,存在许多多麦克风布置,其中必须组合两个或更多麦克风信号。应用可例如从与电话会议相关联的直播混合场景变化到汽车环境中的免提电话。信号质量可取决于麦克风位置、麦克风类型、背景噪声的种类和扬声器本身在各种扬声器信道当中强烈地不同。例如,考虑包括汽车中的多个扬声器的免提电话系统。每个扬声器具有能够捕获语音的专用麦克风。由于像打开的窗户等不同的影响因素,如果彼此比较麦克风信号,则背景噪声会强烈地改变。如果完成在活动的扬声器之间的硬切换,或者软混合功能包括较高的噪声电平并增加所产生的噪声电平,则噪声跳跃和/或不同的着色(coloration)将会是明显的。
在此以其全部内容通过引用并入本文的D.Dugan的“Application ofAutomatic Mixing Techniques to Audio Consoles”(SMPTE TelevisionConference,vol.101,19-27,New York,NY,1992)中提出了自动麦克风混合器概念,其对多麦克风直播声情景使用“自动混合”功能。然而,在Dugan中没有考虑来自背景噪声的影响。在此以其全部内容通过引用并入的S.P.Chandra,K.M.Senthil,M.P.P.Bala的“Audio Mixer for Multi-partyConferencing in VoIP”(Proceedings of the3rd IEEE International Conferenceon Internet Multimedia Services Architecture and Applications(IMSAA’09),31–36,IEEE Press,Piscataway,NJ,USA,2009)中,公开了在每个信道中使用固定方案的噪声降低来切换噪声信号,但对于混合器标准本身,不考虑噪声。其它解决方案是基于在混合过程的输出端处的信噪比(SNR)的最大化(参见例如:J.Freudenberger,S.Stenzel,B.Venditti的“SpectralCombining for Microphonediversity Systems”(17th European Signal ProcessingConference(EUSIPCO-2009),Glasgow,2009);和W.Kellermann的Sprachverarbeitung seinrichtung((DE4330243),1995),这两个文献以其全部内容在此通过引用来并入)。考虑了像在汽车环境中的高背景噪声情景,但只考虑具有多个专用麦克风的一个扬声器。在Freudenberger中,公开了在假定所有麦克风信道中相似的噪声电平而增加同相信号的分集技术。在此以其全部内容通过引用来并入的T.Gerkmann和R.Martin的“Soft decisioncombining of dual channel noise reduction”(在9.Int.Conference on SpokenLanguage Processing(Interspeech ICSLP),Pittsburgh,Pennsylvania,Sept.2006,第2134-2137页)中,公开了使用分集效应并处理不同噪声的另一方法。在这里,在语音时段期间估计相位差。
上述方法并未考虑不同噪声电平和着色可能会出现,以及并未考虑在不同扬声器的活动之间的切换考虑到背景噪声而不应是显著的。此外,不应通过混合功能增加噪声电平。
发明内容
根据本发明的实施例,信号处理系统包括预处理模块,其接收多个信号并根据噪声降低算法来动态过滤每个信号以产生具有基本等效的噪声特征的预处理信号。混合器组合预处理信号中的至少两个。
根据本发明的有关实施例,信号处理系统可包括提供多个信号的多个麦克风。至少两个或更多麦克风设置在交通工具(例如汽车或船)的不同乘客室中。在其它实施例中,可将两个或更多麦克风远程设置在用于会议呼叫的不同位置处。
根据本发明另外有关实施例,噪声降低算法可驱动每个信号,使得它们的背景噪声关于频谱形状和/或功率是基本等效的。噪声降低算法可驱动每个信号,使得它们的信噪比是基本相等的。每个信号可与信道相关联,其中,噪声降低算法包括至少部分地基于噪声功率频谱密度来确定每个信道的动态频谱基。
在本发明的又一些有关实施例中,预处理模块还可包括用于动态调节每个信号的信号电平的增益控制模块。增益控制模块可将每个信号的信号电平动态调节到目标电平。每个信号可与信道相关联,其中预处理模块还可包括确定每个信道的优势权重的语音活动检测模块,增益控制模块至少部分地基于每个信号相关联的信道的优势权重来调节每个信号的信号电平。
在本发明的又一些实施例中,每个信号与信道相关联,其中预处理模块还可包括确定每个信道的优势权重的语音活动检测模块,噪声降低算法至少部分地基于每个信道相关联的优势权重来为每个信道产生预处理信号。混合器还可包括用于对预处理信号进行加权的动态权重,动态权重不同于与预处理模块相关联的优势权重。
根据本发明的另一实施例,信号处理的方法包括接收多个信号。根据噪声降低算法来对每个信号进行动态过滤以产生具有基本等效的噪声特征的预处理信号。组合预处理信号中的至少两个。
根据本发明的有关实施例,该方法还包括通过多个麦克风提供多个信号,其中麦克风中的至少两个或更多设置在交通工具的不同乘客室中。在其它实施例中,两个或更多麦克风可远程定位在用于会议呼叫的不同位置上。
根据本发明的有关实施例,根据噪声降低算法动态过滤每个信号可包括驱动每个信号,使得它们的背景噪声关于频谱形状和/或功率中的至少一个是基本等效的。根据噪声降低算法动态过滤每个信号可包括驱动每个信号,使得它们的信噪比是基本相等的。每个信号可与信道相关联,其中根据噪声降低算法动态过滤每个信号包括至少部分地基于噪声功率频谱密度来确定每个信道的动态频谱基。
根据本发明另外有关实施例,该方法可还包括在产生预处理信号时动态调节每个信号的信号电平。动态调节每个信号的信号电平可包括将每个信号的信号电平动态调节到目标电平。每个信号可与信道相关联,其中该方法还包括应用确定每个信道的优势权重的语音活动检测模块。在产生预处理信号时动态调节每个信号的信号电平可包括至少部分地基于每个信道相关联的优势权重来为每个信道产生预处理信号。
根据本发明的又一些实施例,每个信号与信道相关联,其中该方法还包括应用确定每个信道的优势权重的语音活动检测模块。根据噪声降低算法对每个信号进行动态加权以产生预处理信号可包括至少部分地基于每个信道相关联的优势权重来为每个信道产生预处理信号。组合预处理信号中的至少两个还可包括使用用于对预处理信号进行加权的动态加权因子。与组合预处理信号相关联的动态加权因子可不同于与产生预处理信号相关联的优势权重。
根据本发明的另一实施例,提供了用于动态组合多个信号的计算机程序产品。计算机程序产品包括在其上具有计算机可读程序代码的计算机可用介质,计算机可读程序代码包括程序代码。该程序代码提供了根据噪声降低算法动态过滤每个信号以产生具有基本等效的噪声特征的预处理信号。组合预处理信号中的至少两个。
根据本发明的有关实施例,用于根据噪声降低算法动态过滤每个信号的程序代码可包括用于驱动每个信号使得它们的背景噪声关于频谱形状和/或功率是基本等效的程序代码。每个信号可与信道相关联,其中用于根据噪声降低算法动态过滤每个信号的程序代码包括用于至少部分地基于噪声功率频谱密度来确定每个信道的动态频谱基的程序代码。
根据本发明另外的有关实施例,计算机程序产品还包括用于在产生预处理信号时动态调节每个信号的信号电平的程序代码。每个信号可与信道相关联。计算机程序产品还包括用于应用确定每个信道的优势权重的语音活动检测模块的程序代码。用于在产生预处理信号时动态调节每个信号的信号电平的程序代码可包括用于至少部分地基于其相关联的优势权重来为每个信道产生预处理信号的程序代码。
在本发明的又一些有关实施例中,每个信号可与信道相关联,计算机程序产品还包括用于应用确定每个信道的优势权重的语音活动检测模块的程序代码。用于根据噪声降低算法对每个信号进行动态加权以产生预处理信号的程序代码可包括用于至少部分地基于其相关联的优势权重来为每个信道产生预处理信号的程序代码。用于组合预处理信号中的至少两个的程序代码还可包括使用用于对预处理信号进行加权的动态加权因子的程序代码。与组合预处理信号相关联的动态加权因子可不同于与产生预处理信号相关联的优势权重。
附图说明
通过参考以下参照附图所做出的详细描述将更容易理解实施例的前述特征,其中:
图1示出根据本发明实施例的用于动态地混合信号的信号处理系统的系统概观;
图2(a)示出根据本发明实施例的与各种信道相关联的示例性计数器(其中cmax=100)。图2(b)示出根据本发明实施例的映射到使扬声器的优势特征化的扬声器优势权重gm(l)的计数器;
图3示出根据本发明的实施例的自动增益控制(AGC)的框图;
图4示出根据本发明的实施例的噪声降低(NR)的框图;
图5(a)示出在信道间切换(无NR)之后的处理的输出信号。图5(b)示出根据本发明实施例的具有bref=0.4的所产生的处理的信号;以及
图6(a)示出各种混合系统方法的评估的平均表决结果。图6(b)示出对不同方法的评价分布。
具体实施方式
在本发明的说明性实施例中,提供了支持在嘈杂环境中的不同扬声器的信号组合的新系统和方法。具体对于在信道当中的噪声特征中的偏差,各种实施例能够确保在扬声器改变时背景噪声的平稳过渡。修改的噪声降低(NR)可通过应用动态的、信道特定的、以及与频率相关的最大衰减来为所有信道实现等效的背景噪声特征。用于调节背景噪声的参考特征可由占优势的扬声器信道来规定。在各种实施例中,具有动态目标电平的自动增益控制(AGC)可确保在所有信道中相似的语音信号电平。下面讨论细节。
图1示出根据本发明实施例的用于动态混合信号的信号处理系统的系统概观。系统的应用可从在电话会议系统上的直播混合情景极大地改变到汽车系统中的免提电话。系统包括与非限制性的M个输入信号相关联的、具有麦克风指数m的M个麦克风100。将M个输入信号组合以形成一个(或多个)输出信号Y。
由于变化的声情况(包括但不限于扬声器变化),麦克风信号电平通常随时间而改变。此外,各种麦克风100可非限制性地设置在彼此分隔开定位以便具有变化的噪声特征的不同扬声器中。例如,各种扬声器可设置在交通工具(诸如汽车或船)的不同乘客室中或在用于会议呼叫的不同位置处。
在说明性实施例中,预处理模块110从麦克风100接收信号,并根据噪声降低算法动态过滤每个信号,以产生具有基本等效的噪声特征的预处理信号Y1到YM。预处理模块110可非限制性地包括确定每个麦克风和/或扬声器的优势的语音活动检测部(VAD)112,因此,可对有助于计算用于调节AGC114的目标值120和NR116的最大衰减的优势权重(DW)进行计算(118)。在这些预处理步骤之后,将每个信道中的信号驱动到相似的声音电平和噪声特征,并例如在混合器122处组合。
可在频域中或在子频带域中完成处理,其中l表示帧指数,而k表示频率指数。短时间傅立叶变换可使用Hann窗口和非限制性的256个样本(其在11025Hz的采样频率下具有75%重叠)的块长度。每个麦克风信号可例如通过语音和噪声信号分量的叠加来建模:
X ~ m ( l , k ) = S ~ m ( l , k ) + N ~ m ( l , k ) - - - ( 1 ) .
扬声器优势
根据本发明的各种实施例,当计算目标电平120时,知晓哪个扬声器/麦克风是在时间实例处占优势的扬声器/麦克风常常很重要。可通过评估扬声器讲话的持续时间来确定优势权重(DW)118。DW118可稍后用于设定目标值120。如果仅一个扬声器是活动的,则在预定的时间量之后可由这个单独的具体信道来控制目标值。如果所有扬声器均是活动的,则以类似的方式,目标值可非限制性地对应于所有信道特征的平均值。DW的快速变化可导致背景噪声中的电平跳跃或调制。因此,推荐这些权重的慢适应(例如,通过强时间平滑来实现)。
为了确定对于每个信道必要的全频带VAD vadm(l)的值,可使用各种方法,例如在此以其全部内容通过引用并入本文的T.Matheja和M.Buck的“Robust Voice Activity Detection for Distributed Microphones by Modeling ofPower Ratios”(在9.ITG-Fachtagung Sprachkommunikation,Bochum,2010年10月中)中描述的方法。例如,可对于特定扬声器是活动的(vadm(l)=1)每个时间帧和每个信道而非限制性地使特定的计数器cm(l)增加,否则使计数器减小或保持不变:
计数器的限制cmax或cmin分别定义了扬声器的全优势或最小优势。在各种实施例中,可将计数器的递增间隔cinc设定成使得当前扬声器是在讲了tinc秒钟之后占优势的扬声器。利用在两个连续的时间帧之间的更新时间Tframe,结果是:
c inc = c max - c min t inc · T frame - - - ( 3 ) .
如果在任何其它信道m’中的另一扬声器变为活动的,则可对信道m重新计算递减的常数。在该实施例中,假设单一谈话。在这样的实施例中,在先扬声器的优势计数器在新活动的扬声器达到cmax且随之达到全优势之后将变成cmin。包括具有非常低的值的常数ε以避免除以零,cdec,m可由下式确定:
c dec , m = c m ( l ) - c min c max - c m ′ ( l ) + ϵ · c inc , 如果 vad m ( l ) = 0 - - - ( 4 ) .
说明性地,图2(a)示出示例性计数器(其中cmin=0和cmax=100),如图2(b)所示,其可被映射到使扬声器的优势特征化的扬声器优势权重gm(l):
g m ( l ) = c m ( l ) Σ n = 1 M c n ( l ) - - - ( 5 ) .
动态信号调节
为了补偿上面提到的语音和/或噪声电平差异,在下文提出了根据本发明的各个实施例的AGC114和动态NR116,该AGC114和动态NR116对从基础的麦克风信号计算出的自适应目标电平执行适应性改变。
自动增益控制
图3示出根据本发明实施例的AGC的框图。在本发明的各种实施例中,基于输入信号
Figure BDA00003427704900081
AGC302可非限制性地估计在第m个麦克风信号304中的峰值电平
Figure BDA00003427704900082
并确定全频带放大因子am(l)306,以使所估计的峰值电平适应目标峰值电平
Figure BDA00003427704900087
在此以其全部内容通过引用并入本文的E.Hansler和G.Schmidt的“Acoustic Echo and Noise Control:A Practical Approach”(Hoboken,NJ,USA:John Wiley&Sons,2004,vol.1)中提出了用于峰值电平估计的说明性方法。代替使用用于峰值跟踪的时域信号,可在所有子频带上应用均方根测量。可在每个信道中使用频率独立的增益因子来处理AGC114。然后输出结果是:
X m ( l , k ) = a m ( l ) X ~ m ( l , k ) , - - - ( 6 )
其中递归平均增益因子为:
a m ( l ) = γ · a m ( l - 1 ) + ( 1 - γ ) · X P ref ( l ) X ^ P , m ( l ) - - - ( 7 ) .
在这里,γ表示平滑常数。γ的范围可非限制性地为0<γ<1。例如,γ可被设定为.9。目标或更确切地说是参考峰值电平
Figure BDA00003427704900088
是所有峰值电平的加权和并由下式来确定:
X P ref ( l ) = &Sigma; m = 1 M g m ( l ) &CenterDot; X ^ P , m ( l ) - - - ( 8 ) .
因此,在本发明的说明性实施例中,参考语音电平可主要由优势信道规定,且不同的语音信号电平近似地适合于同一信号功率。
动态噪声降低
说明性地,动态NR116目的可在于所有信道的背景噪声的等效的功率和频谱形状。图4示出根据本发明实施例的NR402的框图。NR402可分别包括功率和噪声估计器404和406,其确定用于过滤410进入的信号的滤波特征408。对于每个麦克风和每个子频带最大衰减可以变化。其中表示第m个麦克风信道中的估计噪声功率频谱密度(PSD),在AGC114之后的噪声PSD结果是:
&Phi; n , m ( l , k ) = a m 2 ( l ) &Phi; ~ n , m ( l , k ) - - - ( 9 ) .
对于NR116,可基于频谱加权来选择不同的特征。例如,可通过具有固定的过高估计因子β、最大过高估计α和通过递归平滑估计的总信号PSDΦx,m(l,k)的递归Wiener特征(参见E.Hansler等人)来计算NR滤波系数 H ~ m ( l , k ) :
H ~ m ( l , k ) = 1 - min ( &alpha; , &beta; H m ( l - 1 , k ) ) &Phi; n , m ( l , k ) &Phi; x , m ( l , k ) - - - ( 10 ) .
为了在每个信道中实现最大衰减,滤波系数可由单独的动态频谱基(floor)bm(l,k)来限制:
H m ( l , k ) = max ( H ~ m ( l , k ) , b m ( l , k ) ) - - - ( 11 ) .
在设定规定总噪声降低的参考基bref之后和在估计公共目标噪声PSD
Figure BDA00003427704900097
之后,频谱基可由下式来确定:
b m ( l , k ) = b ref &CenterDot; &Phi; n ref ( l , k ) &Phi; n , m ( l , k ) - - - ( 12 ) .
在这里,可类似于在方程8中的目标峰值电平由优势权重适应性地计算目标噪声PSD:
&Phi; n ref ( l , k ) = &Sigma; m = 1 M g m ( l ) &CenterDot; &Phi; n , m ( l , k ) - - - ( 13 ) .
在所有信道上的噪声电平和着色中的差异可非限制性地由动态频谱基bm(l,k)补偿。图5(a)示出在信道间切换(无NR)之后的输出信号。图5(b)示出根据本发明实施例的具有bref=0.4的所产生的处理的信号的频谱图。在各种实施例中,并不强制进行尽可能多的噪声降低,而是尽可能期望对所提到的不同噪声特征进行补偿。说明性地,为了NR116的充分执行,可有利地引入限制:
bm(l,k)∈[bmin,bmax]其中bmin≤bref≤bmax    (14)。
如果AGC权重在以下范围中:
b ref b max &Phi; n ref ( l - 1 , k ) &Phi; ~ n , m ( l , k ) < a m ( l ) < b ref b min &Phi; n ref ( l - 1 , k ) &Phi; ~ n , m ( l , k ) - - - ( 15 ) .
处理通常工作良好,否则残余切换效应可能是听得见的。为了得到所处理的信号,来自方程11的滤波系数可应用于频域中的复值信号:
Ym(l,k)=Hm(l,k)Xm(l,k)    (16)。
因此,驱动所有信号以显示相似的噪声特征(例如,等效的功率和/或频谱形状)和在特定的活动扬声器信道之间的平稳过渡期。如果例如仅一个扬声器是优势扬声器,则可容忍在噪声信号的强度中的差异,但只可在某个时间之后出现。
信号组合
现在在混合器122处将所处理的信号组合以得到非限制性地一个输出信号。在各种实施例中,多个输出可通过所处理的信号的任何组合来实现。当然,用于组合信号的权重可独立于优势权重来选择,且可应用各种不同的方法。混合器权重可使用例如来自VAD112的输出而非限制性地基于语音活动。硬切换方法将应用具有离散值的实值权重。可替换地,可通过软权重更平稳地实现在信道之间的切换,软权重以取决于语音活动的特定速度来增加和减小。更复杂的混合方法可使用根据输入信号动态分配的与频率相关的权重。这些方法也可包括复值权重,以使输入信号的语音分量的相位对齐。在这种情况下,由于期望信号的建设性叠加而导致输出信号可产生提高的SNR。
根据各种实施例,例如其中,可假设单一谈话情况,其中只有一个扬声器同时是活动的,使用实值全频带权重wm(l)将是合适的:
Y mix ( l , k ) = &Sigma; M w m ( l ) Y m ( l , k ) - - - ( 17 ) .
由于在所有信道中的不同信号特征的调节,可在活动的扬声器之间切换,而未发现任何切换效应(参见图3)。权重wm(l)∈{0,1}可由VAD112确定并被保存,直到另一扬声器变为活动的。当使用软权重用于混合时,混合器权重wm(l)必须快速改变。例如,新的(直到现在为止是不活动的)扬声器的发动需要相对应的权重的快速增加(开始处理),以便不遗漏很多语音。衰减(释放)通常更慢地完成,这是因为活动的扬声器很可能继续讲话。
通常,可应用本领域中已知的任何混合技术。例如,可非限制性地对应用与频率相关的权重(例如,分集技术)或平均复值权重(例如,SNR优化技术)的混合方法进行利用。
计算有效解
为了节省计算工作,在各种实施例中,并不完全处理所有的信道。例如,可只对N个最活跃的信道计算噪声降低和/或AGC。说明性地,可采用具有最高混合器权重wm(l)的信道(1≤N<M)。不对其它信道进行处理,且将对应的混合器权重设定为零。它们根本不对输出信号起作用。在多于N个扬声器同时活动的情况下,可能存在至少一个扬声器未被最佳覆盖的问题。然而,在汽车环境中,该扬声器的语音信号可交叉耦合到混合器的输出信号中。因此,他未被完全抑制。在特定的情景中,这不应经常或永久地发生。
评估
使用在以大约90km/h和130km/h行驶的汽车中测量的信号评估上述系统,其中,汽车里有四个交替讲话的人,两个在前座椅,而两个在后座椅,每个座椅具有专用麦克风。考虑具有打开的窗口的不利的噪声情景。执行主观收听测试,其中对三个信号组合方法进行比较:在具有固定频谱基b=0.4的噪声降低的信道信号之间的硬切换;根据本发明的各种实施例的用于动态信号组合的方法(bref=0.4、bmin=0.1、bmax=3);以及分集方法(参见Freudenberger等人)。十个测试人收听17个语音信号组。在每个组中,三个不同方法中的每个方法均对一个信号进行处理。挑战是以它们的质量(以最佳(指数1)来开始并以最差(指数3)来结束)来对所产生的信号进行分类。受验对象可如他们喜欢的一样多次收听信号。对语音质量、噪声的声音和总印象进行评价。
图6(a-b)示出测试的结果。图6(a)示出平均表决结果。图6(b)示出对不同方法的评价分布。在信道之间的简单硬切换显示出可能来自讨厌的噪声跳跃的差结果。使用其它方法实现了基本恒定的背景噪声,但根据本发明的各种实施例的动态信号组合的方法将产生最佳结果。语音质量在所有三个方案中被类似地评价。分集方法在这里显示不自然夸大的背景噪声,这是因为它最初被设计成实现良好的语音质量。对于总印象而言,背景噪声似乎也是关键的。因此,根据本发明上述实施例的利用自然声音和平稳噪声过渡的方案是有利的。
结论
提出了在嘈杂环境中用于支持数个扬声器的动态信号组合的新系统和方法。可使用可独立被控制的两组不同的权重:混合器权重可非常快速地改变以在扬声器改变之后捕获语音开始,而优势权重可更缓慢地被调节以规定所产生的信号的期望信号特征。因此,可实现在不同扬声器的麦克风信号之间的平稳过渡,即使背景噪声或语音电平在信道当中强烈不同。由于这些权重的完全独立性,因此所提出的系统和方法也可用作用于具有软权重或复值权重的其它混合方案的预处理器。
本发明(例如,预处理模块110和/或混合器122)可体现在很多不同的形式中,该形式包括但决不限于用在处理器(例如,微处理器、微控制器、数字信号处理器或通用计算机)上的计算机程序逻辑、用在可编程逻辑设备(例如,现场可编程门阵列(FPGA)或其它PLD)上的可编程逻辑、分立部件、集成电路(例如,特定用途集成电路(ASIC)或包括其任意组合的任何其它装置。
实现前面在本文描述的功能的全部或部分的计算机程序逻辑可体现在各种形式中,该各种形式包括但决不限于源代码形式、计算机可执行形式以及各种中间形式(例如,由汇编器、编译器、链接器或定位器产生的形式)。源代码可包括以用在各种操作系统或操作环境上的各种编程语言中的任一种(例如,对象代码、汇编语言或诸如Fortran、C、C++、JAVA或HTML的高级语言)来实现的一序列计算机程序指令。源代码可定义并使用各种数据结构和通信消息。源代码可以以计算机可执行形式(例如,经由解释程序),或源代码可(例如,经由翻译器、汇编器或编译器)转换成计算机可执行形式。
计算机程序可以以任意形式(例如,源代码形式、计算机可执行形式或中间形式)永久性地、非暂时性地或暂时性地固着在有形存储介质(例如半导体存储器设备(例如,RAM、ROM、PROM、EEPROM或闪速可编程RAM)、磁性存储器设备(例如,磁盘或固定磁盘)、光学存储器设备(例如,CD-ROM)、PC卡(例如,PCMCIA卡)、或其它存储器设备)中。计算机程序可以以任意形式固着在信号中,该信号可使用各种通信技术中的任一种(其包括但决不限于模拟技术、数字技术、光学技术、无线技术、连网技术和互连网技术)来传输至计算机。计算机程序可作为具有附随的印刷或电子文件(例如,压缩打包软件或磁带)的可移动存储介质以任意形式来分布、可预装在计算机系统(例如,在系统ROM或固定磁盘上)上、或通过通信系统(例如,互联网或万维网)从服务器或电子公告板分布。
实现前面在本文描述的功能的全部或部分的硬件逻辑(包括用在可编程逻辑设备上的可编程逻辑)可使用传统手动方法来设计,或可使用各种工具(例如,计算机辅助设计(CAD)、硬件描述语言(例如,VHDL或AHDL)或PLD编程语言(例如,PALASM、ABEL或CUPL))来电子设计、捕获、模拟或证明。
上述发明的实施例仅旨在为示例性的;许多变化和修改将对本领域技术人员是明显的。所有这样的变化和修改旨在落入如在任何所附权利要求中限定的本发明的范围内。

Claims (29)

1.一种信号处理系统,包括:
预处理模块,其接收多个信号并根据噪声降低算法来动态过滤所述信号中的每一个,以产生具有基本等效的噪声特征的预处理信号;以及
混合器,其用于组合所述预处理信号中的至少两个。
2.根据权利要求1所述的信号处理系统,还包括提供所述多个信号的多个麦克风,其中,所述麦克风中的至少两个或更多设置在交通工具的不同乘客室中。
3.根据权利要求1所述的信号处理系统,其中,所述噪声降低算法驱动所述信号中的每一个,使得它们的背景噪声关于频谱形状和功率中的至少一个是基本等效的。
4.根据权利要求1所述的信号处理系统,其中,所述噪声降低算法驱动所述信号中的每一个,使得它们的信噪比是基本相等的。
5.根据权利要求1所述的信号处理系统,其中,每个信号与信道相关联,且其中,所述噪声降低算法包括至少部分地基于噪声功率频谱密度来确定每个信道的动态频谱基。
6.根据权利要求1所述的信号处理系统,其中,所述预处理模块还包括用于动态调节所述信号中的每一个的信号电平的增益控制模块。
7.根据权利要求6所述的信号处理系统,其中,所述增益控制模块将所述信号中的每一个的所述信号电平动态调节到目标电平。
8.根据权利要求6所述的信号处理系统,其中,每个信号与信道相关联,且其中,所述预处理模块还包括确定每个信道的优势权重的语音活动检测模块,所述增益控制模块至少部分地基于其相关联的信道的优势权重来调节所述信号中的每一个的所述信号电平。
9.根据权利要求1所述的信号处理系统,其中,每个信号与信道相关联,且其中,所述预处理模块还包括确定每个信道的优势权重的语音活动检测模块,所述噪声降低算法至少部分地基于每个信道相关联的优势权重来为每个信道产生所述预处理信号。
10.根据权利要求9所述的信号处理系统,其中,所述混合器还包括用于对所述预处理信号进行加权的动态权重,所述动态权重不同于与所述预处理模块相关联的所述优势权重。
11.一种信号处理的方法,包括:
接收多个信号;
根据噪声降低算法来动态过滤所述信号中的每一个,以产生具有基本等效的噪声特征的预处理信号;以及
组合所述预处理信号中的至少两个。
12.根据权利要求11所述的方法,还包括通过多个麦克风提供所述多个信号,其中,所述麦克风中的至少两个或更多设置在交通工具的不同乘客室中。
13.根据权利要求11所述的方法,其中,根据噪声降低算法动态过滤所述信号中的每一个包括驱动所述信号中的每一个,使得它们的背景噪声关于频谱形状和功率中的至少一个是基本等效的。
14.根据权利要求11所述的方法,其中,根据噪声降低算法动态过滤所述信号中的每一个包括驱动所述信号中的每一个,使得它们的信噪比是基本相等的。
15.根据权利要求11所述的方法,其中,每一个信号与信道相关联,且其中,根据噪声降低算法动态过滤所述信号中的每一个包括至少部分地基于噪声功率频谱密度来确定每个信道的动态频谱基。
16.根据权利要求11所述的方法,还包括在产生所述预处理信号时动态调节所述信号中的每一个的信号电平。
17.根据权利要求16所述的方法,其中,动态调节所述信号中的每一个的所述信号电平包括将所述信号中的每一个的所述信号电平调节到目标电平。
18.根据权利要求16所述的方法,其中,每个信号与信道相关联,且其中,所述方法还包括应用确定每个信道的优势权重的语音活动检测模块,其中,在产生所述预处理信号时动态调节所述信号中的每一个的所述信号电平包括至少部分地基于每个信道相关联的优势权重来为每个信道产生所述预处理信号。
19.根据权利要求11所述的方法,其中,每个信号与信道相关联,且其中,所述方法还包括应用确定每个信道的优势权重的语音活动检测模块,其中,根据噪声降低算法对所述信号中的每一个进行动态加权以产生预处理信号包括至少部分地基于每个信道相关联的优势权重来为每个信道产生所述预处理信号。
20.根据权利要求19所述的方法,其中,组合所述预处理信号中的至少两个还包括使用用于对所述预处理信号进行加权的动态加权因子。
21.根据权利要求20所述的方法,其中,与组合所述预处理信号相关联的所述动态加权因子不同于与产生所述预处理信号相关联的所述优势权重。
22.一种用于动态组合多个信号的计算机程序产品,所述计算机程序产品包括在其上具有计算机可读程序代码的计算机可用介质,所述计算机可读程序代码包括:
用于根据噪声降低算法来动态过滤所述信号中的每一个以产生具有基本等效的噪声特征的预处理信号的程序代码;以及
用于组合所述预处理信号中的至少两个的程序代码。
23.根据权利要求22所述的计算机程序产品,其中,用于根据噪声降低算法动态过滤所述信号中的每一个的程序代码包括用于驱动所述信号中的每一个以使得它们的背景噪声关于频谱形状和/或功率中的至少一个是基本等效的程序代码。
24.根据权利要求22所述的计算机程序产品,其中,每个信号与信道相关联,且其中,用于根据噪声降低算法动态过滤所述信号中的每一个的程序代码包括用于至少部分地基于噪声功率频谱密度来确定每个信道的动态频谱基的程序代码。
25.根据权利要求22所述的计算机程序产品,还包括用于在产生所述预处理信号时动态调节所述信号中的每一个的信号电平的程序代码。
26.根据权利要求25所述的计算机程序产品,其中,每个信号与信道相关联,所述计算机程序产品还包括用于应用确定每个信道的优势权重的语音活动检测模块的程序代码,其中,用于在产生所述预处理信号时动态调节所述信号中的每一个的所述信号电平的程序代码包括用于至少部分地基于每个信道相关联的优势权重来为每个信道产生所述预处理信号的程序代码。
27.根据权利要求22所述的计算机程序产品,其中,每个信号与信道相关联,所述计算机程序产品还包括用于应用确定每个信道的优势权重的语音活动检测模块的程序代码,其中,用于根据噪声降低算法对所述信号中的每一个进行动态加权以产生预处理信号的程序代码包括用于至少部分地基于每个信道相关联的优势权重来为每个信道产生所述预处理信号的程序代码。
28.根据权利要求27所述的计算机程序产品,其中,用于组合所述预处理信号中的至少两个的程序代码还包括使用用于对所述预处理信号进行加权的动态加权因子的程序代码。
29.根据权利要求28所述的计算机程序产品,其中,与组合所述预处理信号相关联的所述动态加权因子不同于与产生所述预处理信号相关联的所述优势权重。
CN201080070994.4A 2010-11-29 2010-11-29 动态麦克风信号混合器 Active CN103299656B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2010/058168 WO2012074503A1 (en) 2010-11-29 2010-11-29 Dynamic microphone signal mixer

Publications (2)

Publication Number Publication Date
CN103299656A true CN103299656A (zh) 2013-09-11
CN103299656B CN103299656B (zh) 2016-08-10

Family

ID=46172182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080070994.4A Active CN103299656B (zh) 2010-11-29 2010-11-29 动态麦克风信号混合器

Country Status (6)

Country Link
US (1) US20130325458A1 (zh)
EP (1) EP2647223B1 (zh)
JP (1) JP5834088B2 (zh)
KR (1) KR101791444B1 (zh)
CN (1) CN103299656B (zh)
WO (1) WO2012074503A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107910012A (zh) * 2017-11-14 2018-04-13 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及系统
CN110036440A (zh) * 2016-10-18 2019-07-19 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法
CN110140346A (zh) * 2016-12-30 2019-08-16 哈曼贝克自动系统股份有限公司 声回波消除

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9641933B2 (en) * 2012-06-18 2017-05-02 Jacob G. Appelbaum Wired and wireless microphone arrays
DK2765787T3 (da) * 2013-02-07 2020-03-09 Oticon As Fremgangsmåde til reduktion af ikke-korreleret støj i en audiobehandlingsenhed
WO2014163797A1 (en) * 2013-03-13 2014-10-09 Kopin Corporation Noise cancelling microphone apparatus
WO2015065362A1 (en) * 2013-10-30 2015-05-07 Nuance Communications, Inc Methods and apparatus for selective microphone signal combining
EP3275208B1 (en) 2015-03-25 2019-12-25 Dolby Laboratories Licensing Corporation Sub-band mixing of multiple microphones
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
US10491179B2 (en) * 2017-09-25 2019-11-26 Nuvoton Technology Corporation Asymmetric multi-channel audio dynamic range processing
FR3103618B1 (fr) * 2019-11-21 2021-10-22 Psa Automobiles Sa Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5598466A (en) * 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
US20060222184A1 (en) * 2004-09-23 2006-10-05 Markus Buck Multi-channel adaptive speech signal processing system with noise reduction
US20080285773A1 (en) * 2007-05-17 2008-11-20 Rajeev Nongpiur Adaptive LPC noise reduction system
US20090055169A1 (en) * 2005-01-26 2009-02-26 Matsushita Electric Industrial Co., Ltd. Voice encoding device, and voice encoding method

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
US6674865B1 (en) * 2000-10-19 2004-01-06 Lear Corporation Automatic volume control for communication system
US8934382B2 (en) * 2001-05-10 2015-01-13 Polycom, Inc. Conference endpoint controlling functions of a remote device
JP4119328B2 (ja) * 2003-08-15 2008-07-16 日本電信電話株式会社 収音方法、その装置、そのプログラム、およびその記録媒体。
DE602004004503D1 (de) * 2004-04-02 2007-03-15 Suisse Electronique Microtech HF-Mehrbandempfänger mit Vorrichtung zur Reduzierung des Energieverbrauches
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8175874B2 (en) * 2005-11-17 2012-05-08 Shaul Shimhi Personalized voice activity detection
EP1830348B1 (en) * 2006-03-01 2016-09-28 Nuance Communications, Inc. Hands-free system for speech signal acquisition
US8068619B2 (en) * 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US8249271B2 (en) * 2007-01-23 2012-08-21 Karl M. Bizjak Noise analysis and extraction systems and methods
JP4580409B2 (ja) * 2007-06-11 2010-11-10 富士通株式会社 音量制御装置および方法
JP4455614B2 (ja) * 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
JP4850191B2 (ja) * 2008-01-16 2012-01-11 富士通株式会社 自動音量制御装置及びそれを用いた音声通信装置
US8374854B2 (en) * 2008-03-28 2013-02-12 Southern Methodist University Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition
JP5087476B2 (ja) * 2008-06-12 2012-12-05 ルネサスエレクトロニクス株式会社 受信装置およびその動作方法
GB2461082A (en) * 2008-06-20 2009-12-23 Ubidyne Inc Antenna array calibration with reduced interference from a payload signal
US8503694B2 (en) * 2008-06-24 2013-08-06 Microsoft Corporation Sound capture system for devices with two microphones
US8811537B2 (en) * 2008-12-03 2014-08-19 Electronics And Telecommunications Research Institute Signal receiving apparatus and method for wireless communication system using multiple antennas
WO2010091077A1 (en) * 2009-02-03 2010-08-12 University Of Ottawa Method and system for a multi-microphone noise reduction
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5598466A (en) * 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
US20060222184A1 (en) * 2004-09-23 2006-10-05 Markus Buck Multi-channel adaptive speech signal processing system with noise reduction
US20090055169A1 (en) * 2005-01-26 2009-02-26 Matsushita Electric Industrial Co., Ltd. Voice encoding device, and voice encoding method
US20080285773A1 (en) * 2007-05-17 2008-11-20 Rajeev Nongpiur Adaptive LPC noise reduction system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110036440A (zh) * 2016-10-18 2019-07-19 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法
US11664040B2 (en) 2016-10-18 2023-05-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for reducing noise in an audio signal
CN110036440B (zh) * 2016-10-18 2023-09-29 弗劳恩霍夫应用研究促进协会 用于处理音频信号的装置和方法
CN110140346A (zh) * 2016-12-30 2019-08-16 哈曼贝克自动系统股份有限公司 声回波消除
CN110140346B (zh) * 2016-12-30 2021-07-27 哈曼贝克自动系统股份有限公司 声回波消除
CN107910012A (zh) * 2017-11-14 2018-04-13 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及系统
CN107910012B (zh) * 2017-11-14 2020-07-03 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及系统

Also Published As

Publication number Publication date
KR20140032354A (ko) 2014-03-14
KR101791444B1 (ko) 2017-10-30
CN103299656B (zh) 2016-08-10
JP2014502471A (ja) 2014-01-30
EP2647223B1 (en) 2019-08-07
WO2012074503A1 (en) 2012-06-07
EP2647223A1 (en) 2013-10-09
US20130325458A1 (en) 2013-12-05
JP5834088B2 (ja) 2015-12-16
EP2647223A4 (en) 2017-01-04

Similar Documents

Publication Publication Date Title
CN103299656A (zh) 动态麦克风信号混合器
US9711162B2 (en) Method and apparatus for environmental noise compensation by determining a presence or an absence of an audio event
KR102230623B1 (ko) 다중의 오디오 신호들의 인코딩
EP3189521B1 (en) Method and apparatus for enhancing sound sources
RU2639952C2 (ru) Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
CN1809105A (zh) 适用于小型移动通信设备的双麦克语音增强方法及系统
EP3692525B1 (en) Decoding of audio signals
TW201737244A (zh) 音訊信號解碼
US9532138B1 (en) Systems and methods for suppressing audio noise in a communication system
US10535357B2 (en) Encoding or decoding of audio signals
EP3692527B1 (en) Decoding of audio signals
EP3692528B1 (en) Decoding of audio signals
KR20230138046A (ko) 채널간 위상차 파라미터 수정
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
Matheja et al. Dynamic signal combining for distributed microphone systems in car environments
Yamato et al. Implementation of a Multipurpose Noise Suppressor Based on a Novel Scalable Framework
JP2017067990A (ja) 音声処理装置、プログラム及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200918

Address after: Massachusetts, USA

Patentee after: Serenes operations

Address before: Massachusetts, USA

Patentee before: Nuance Communications, Inc.

TR01 Transfer of patent right