CN1893461A - 声音信号处理方法和装置 - Google Patents

声音信号处理方法和装置 Download PDF

Info

Publication number
CN1893461A
CN1893461A CNA2006100942963A CN200610094296A CN1893461A CN 1893461 A CN1893461 A CN 1893461A CN A2006100942963 A CNA2006100942963 A CN A2006100942963A CN 200610094296 A CN200610094296 A CN 200610094296A CN 1893461 A CN1893461 A CN 1893461A
Authority
CN
China
Prior art keywords
sound signal
input sound
weighting
feature quantities
weighting coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100942963A
Other languages
English (en)
Inventor
天田皇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN1893461A publication Critical patent/CN1893461A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种声音信号处理方法,其包含:计算多通道输入声音信号中每两个之间的差异以获得多个特征量,每一所述特征量表示所述差异;从包含多通道的多个加权系数的加权系数字典中选择对应于所述输入特征量的加权系数;采用所述选择的加权系数对所述声音信号进行加权;以及对所述加权后的输入声音信号进行相加以生成输出声音信号。

Description

声音信号处理方法和装置
技术领域
本发明涉及一种用于强调输入声音信号中的目标语音信号并输出经强调后的语音信号的声音信号处理方法及装置。
背景技术
当语音识别技术被用于实际环境中时,周围的噪音对语音识别率有着很大的影响。存在着多种噪音,例如发动机声音(风噪音)、对向的车辆的声音、经过的车辆的声音、车辆中车辆音频装置的声音。这些噪音被混合在说话者的话音之中并被输入到语音识别系统中,由此导致识别率的大为下降。话筒阵列的采用被认为是解决这样一种噪音问题的方法。话筒阵列使来自多个话筒的输入声音信号受到信号处理以便对目标语音信号进行强调并输出经强调后的语音信号,其中,目标语音信号为说话者的话音。
众所周知,适应型话筒阵列通过自动将话筒的接收声音灵敏度较低的死角(null)转向噪音到来的方向来抑制噪音。适应型话筒阵列在这样的条件(约束条件)下设计:目标声音方向的信号通常不被抑制。结果,可以在不抑制来自话筒阵列正面方向的目标语音信号的情况下抑制来自话筒阵列侧面的噪音。
然而,存在所谓的残响(reverberation)问题,即在实际环境中,位于话筒阵列正面的说话者的话音被说话者周围的障碍物例如墙壁等反射,且来自各种方向的话音分量进入话筒。在传统的适应型话筒阵列中没有考虑到残响。结果,当适应型话筒阵列在残响情况下应用时,存在具有被称作“目标信号消除”现象的问题,即应当被强调的目标语音信号不正确地被抑制了。
如果残响的影响已知,即从声音源到话筒的传递函数已知,人们设想出一种可以防止目标信号消除问题的方法。例如,J.L.Flanagan、A.C.Surendran和E.E.Jan在“Spatially Selective Sound Capture for Speechand Audio Processing”(Speech Communication,13,pp207-222,1993)中提出了一种方法,该方法对来自话筒的输入声音信号用匹配的滤波器进行滤波,该滤波器由以脉冲响应形式表达的传递函数提供。A.V.Oppenheim和R.W.Schafer在“Digital Signal Processing”(Prentice Hall,pp.519-524,1975)中提供了一种通过将输入声音信号转换为倒频谱(cepstrum)并对高阶倒频谱进行抑制来减小残响的方法。
J.L.Flanagan等人的方法必须预先知道脉冲响应,因此有必要在系统实际被使用的环境中测量脉冲响应。由于存在许多影响车辆中的传递函数的要素,例如乘客和负载、窗户的开与关等,必须预先知道这种脉冲响应的方法是难以实施的。
另一方面,A.V.Oppenheim等人利用了残响分量在倒频谱的较高项中易于出现的趋势。但是,由于直接波和残响分量不完全分离,因此,能在多大程度上移除对适应型话筒阵列有害的残响分量取决于系统的情况。
车辆的空间非常狭小,小到以至于反射分量在短时间范围内集中。于是,直接声音和反射的声音混合,并极大地改变了频谱。因此,采用倒频谱的方法不能充分分离直接波与残响分量,故而难以防止由于残响影响所引起的目标信号消除。
在车辆的狭小空间中,上述现有技术存在不能对导致话筒阵列目标信号消除的残响分量充分进行移除的问题。
发明内容
本发明的一个实施形态提供了一种声音信号处理方法,其包含:准备加权系数字典,该字典包含与多个特征量联系的多个加权系数,每一特征量表示多通道声音信号之间的差异;计算在多通道输入声音信号中每很少几个之间的输入声音信号差异以获得多个输入特征量,每个输入特征量表示输入声音信号差异;从加权系数字典中选择对应于所述输入特征量的多个加权系数;利用所选择的加权系数对输入声音信号进行加权;以及将加权后的输入声音信号相加以生成输出声音信号。
附图说明
图1为关于第一实施例的声音信号处理装置的框图;
图2为示出关于第一实施例的处理过程的流程图;
图3阐释了第一实施例中设置加权系数的方法;
图4阐释了第一实施例中设置加权系数的方法;
图5为关于第二实施例的声音信号处理装置的框图;
图6为关于第三实施例的声音信号处理装置的框图;
图7为示出关于第三实施例的处理过程的流程图;
图8为采用了根据第四实施例的声音信号处理装置的系统的原理性平面图;
图9为采用了根据第五实施例的声音信号处理装置的系统的原理性平面图;
图10为采用了根据第六实施例的声音信号处理装置的回声消除器的框图。
具体实施方式
参照附图将介绍本发明的实施例。
第一实施例
如图1所示,根据第一实施例的声音信号处理装置包含:特征量计算器102,其计算来自多个(N个)话筒101-1至101-N的N通道接收声音信号(输入声音信号)的通道间特征量;加权系数字典103,其存储了多个加权系数;选择器104,其基于通道间特征量在加权系数字典103中选择加权系数;多个加权单元105-1至105-N,其用所选择的加权系数对输入声音信号x1至xN进行加权;以及加法器,其对加权单元105-1至105-N的经加权后的输出信号进行相加,输出经强调后的输出声音信号。
本实施例的处理过程根据图2的流程图进行阐释。
来自话筒101-1至101-N的输入声音信号x1至xN被输入到特征量计算器102以计算通道间特征量(步骤S11)。当采用数字信号处理技术时,输入声音信号x1至xN用未示出的AD转换器在时间方向上进行离散化,并采用例如时标t来表示为x1(t)。通道间特征量是表示例如输入声音信号x1至xN的每两个通道之间的差异的量,并在下文具体介绍。如果输入声音信号x1至xN是离散化的,通道间特征量也是离散化的。
根据通道间特征量,由选择器104从加权系数字典103中选取与通道间特征量对应的加权系数w1至wN(步骤S12)。预先确定通道间特征量与加权系数w1...wN的关系。最简单的方法是将离散化的通道间特征量与离散化的加权系数w1至wN一一对应地联系在一起的方法。
更有效率地将离散化的通道间特征量与离散化的加权系数w1至wN相联系的方法是:如同下面的第三实施例所阐释的那样,采用例如LBG等聚类(clustering)方法对通道间特征量进行分组、并将加权系数w1至wN联系到通道间特征量的组的方法。另外,可考虑采用例如GMM(高斯混合模型)等统计分布来将该分布的权重与加权系数w1至wN联系在一起的方法。可考虑用于将通道间特征量与加权系数相联系的如上所述的多种方法,并在考虑到计算复杂性或存储器数量的情况下确定合适的方法。
由选择器104所选择的加权系数w1至wN被设置到加权单元105-1至105-N。输入声音信号x1至xN在由加权单元105-1至105-N根据加权系数w1至wN进行加权后,由加法器106相加以产生输出声音信号y,其中,目标声音信号得到了强调(步骤S13)。
在时域中的数字信号处理中,加权用卷积表示。在这种情况下,加权系数w1至wN表示为滤波器系数wn={wn(0),wn(1)...,wn(L-1)},n=1,2,...N,其中,如果假设L为滤波长度,输出信号y可表示为通道的卷积和,如下面的公式(1)所示:
y ( t ) = Σ n = 1 N ( xn ( t ) * wn ) . . . ( 1 )
其中,*表示卷积、并可用下面的公式(2)表示:
xn ( t ) * wn = Σ k = 0 L - 1 ( xn ( t - k ) * wn ( k ) ) . . . ( 2 )
加权系数wn以一个采样、一帧等单位更新。
下面介绍通道间特征量。通道间特征量是表示在例如来自N个话筒101-1至101-N的N通道的输入声音信号x1至xN中每两个之间的差异。如下面所介绍,可考虑不同的量。
考虑当N=2时输入声音信号x1至xN间的到达时间差异τ。如图3所示,当输入声音信号x1至xN来自话筒阵列101-1至101-N的正面时,τ=0。如图4所示,当输入声音信号x1至xN来自相对于话筒阵列正面偏移角度θ的侧面时,发生τ=d sinθ/c的延迟,其中,c为光速,d为话筒101-1到101-N间的距离。
如果可检测到达时间差异τ,通过将相对于τ=0较大的加权系数例如(0.5,0.5)与通道间特征量相联系、并将相对于τ=0以外的值较小的加权系数例如(0,0)与之相联系,仅对来自话筒阵列正面的输入声音信号进行强调。如果τ是离散化的,其可按对应于话筒101-1至101-N能够检测目标语音的最小角度的时间单位被设置。或者,其可按对应于1度等的恒定角度单位的时间被设置,或者按与角度等无关的恒定时间间隔被设置。
传统上得到广泛应用的话筒阵列中有许多通过对来自各个话筒的输入声音信号进行加权并对加权后的声音信号进行相加来生成输出信号。存在不同的话筒阵列方案,但方案间的区别基本在于确定加权系数w的方法。许多适应型话筒阵列基于输入声音信号在分析中获得加权系数w。根据适应型话筒阵列之一的DCMP(定向约束功率最小化(DirectionallyConstrained Minimization of Power)),加权系数w用下面的公式(3)表示:
w = inv ( Rxx ) c ( c h inv ( Rxx ) c ) h . . . ( 3 )
其中,Rxx表示输入声音信号的通道间相关矩阵,inv()表示逆矩阵,h表示共轭变换,w和c均表示向量,h为标量。向量c被称为约束向量。可以对该装置进行设计,使得在向量c所表示方向上的响应成为希望的响应h。可以设置多个约束条件。在这种情况下,c为矩阵且h为向量。通常,将装置设置为:将约束向量设置在目标声音方向上,且将希望的响应设置为1。
在DCMP中,由于基于来自话筒的输入声音信号适应性地获得加权系数,与例如延迟和阵列等固定型阵列相比,可以在减小的话筒数量的情况下实现高噪音抑制能力。然而,由于残响情况下声音波的干扰,预先确定的向量c的方向不总是与目标声音信号实际上所来自的方向重合,故而产生目标声音信号被认为是噪音并被抑制的“目标信号消除”问题。如上所述,基于输入声音信号适应性地构成方向特征的适应型阵列严重地受到残响影响,因此,“目标信号消除”问题不可避免。
形成对比的是,根据本实施例、基于通道间特征量设置加权系数的方法可通过对加权系数进行学习来抑制目标信号消除。假设由于来自障碍物的反射,在话筒阵列正面发出的声音信号相对于到达时间差异τ延迟τ0,可以通过将对应于τ0的加权系数相对增大到(0.5,0.5)并将对应于除τ0以外的τ的加权系数相对减小到(0,0)来避免目标信号消除问题。用下面介绍的方法预先完成对加权系数的学习,也就是说,当完成加权系数字典103时将通道间特征量与加权系数联系在一起。
例如,可将CSP(互功率谱相(cross-power-spectrum phase))方法作为获取到达时间差异τ的方法。在CSP方法中,在N=2的情况下,通过下面的公式(4)计算CSP系数:
CSP ( t ) = IFT conj ( X 1 ( f ) × X 2 ( f ) ) | X 1 ( f ) | × | X 2 ( f ) | . . . ( 4 )
CSP(t)表示CSP系数,Xn(f)表示xn(t)的傅立叶变换,IFT{}表示傅立叶逆变换,conj()表示共轭复数,‖表示绝对值。CSP系数是通过白色化互谱(whitening cross spectrum)的傅立叶逆变换获得的,在对应于到达时间差异τ的时刻t上获得脉冲形的峰值。因此,到达时间差异τ可被通过搜寻CSP系数的最大值来获知。
基于到达时间差异的通道间特征量可使用复相干性(complexcoherence)而不是到达时间差异。X1(f)、X2(f)的复相干性可用下面的公式(5)表示:
Coh ( f ) = E { conj ( X 1 ( f ) ) × X 2 ( f ) } E { | X 1 ( f ) | 2 } × E { | X 2 ( f ) | 2 } . . . ( 5 )
其中,Coh(f)为复相干性,E{}为时间方向的期望。信号处理领域中,相干性被用作表示两个信号的关系的量。在例如扩散性噪音通道之间、没有相关性的信号在相干性的绝对值上减小,且定向信号在相干性上增大。由于在定向信号中,通道之间的时间差异作为相干性的相位分量出现,可通过相位来区分定向信号是来自目标声音方向的信号还是来自除该方向之外的方向的信号。通过将这些性质作为特征量,可区分扩散性噪音、目标声音信号和定向噪音。由于如公式(5)可见、相干性是频率的函数,其与第二实施例充分匹配。然而,当其被用于时域中时,可以想到在频率方向上对其进行平均以及采用代表性频率值等等的多种方法。相干性通常由N通道定义,而不限于例如上述实例的N=2的情况。
对于通道间的特征量,可使用基于到达时间差异的特征量以及广义的相关性函数。例如,C.H.Knapp和G.C.Carter在“The GeneralizedCorrelation Method for Estimation of Time Delay”(IEEE Trans,Acoust.,Speech,Signal Processing,Vol.ASSP-24,No.4,pp320-327(1976))中介绍了广义的相关性函数。广义的相关性函数GCC(t)由下面的公式(6)定义:
GCC(t)=IFT{Φ(f)×G12(f)}                         (6)
其中,IFT为傅立叶逆变换,Φ(f)为加权系数,G12(f)为通道间的互功率谱。如同上述文档所介绍的那样,存在多种确定Φ(f)的方法。基于例如最大似然估计法的加权系数Φml(f)用下面的公式(7)表示:
Φml ( f ) = 1 | G 12 ( f ) | × | γ 12 ( f ) | 2 1 - | γ 12 ( f ) | 2 . . . ( 7 )
其中,|γ12(f)|2是幅度平方相干性(amplitude square coherence)。声音源的方向和通道间相关性的强度可由GCC(t)的最大值以及给出该最大值的t获知,这与CSP的情况下类似。
如上所述,即使输入声音信号x1至xN的方向信息被残响所打乱,通过对加权系数w1至wN和通道间特征量的关系进行学习,可以在不存在“目标信号消除”问题的情况下强调目标声音信号。
第二实施例
在图5所示的本实施例中,傅立叶变换器201-1至201-N和傅立叶逆变换器206被添加到图1所示第一实施例的声音处理装置中,且图1中的加权单元105-1至105-N进一步地用加权单元205-1至205-N代替以进行频域中的乘法运算。正如数字信号处理技术领域中所知的那样,时域中的卷积处理在频域中表示为乘积。在本实施例中,加权相加在输入声音信号x1至xN经过傅立叶变换器201-1至201-N变换为频域中的信号分量之后进行。其后,傅立叶逆变换器206使变换后的信号分量经过傅立叶逆变换变回时域信号,并生成输出声音信号。第二实施例进行与在时域中进行信号处理的第一实施例等效的信号处理。对应于公式(1)的、加法器106的输出信号用乘积而不是卷积形式表达,如下面的公式(8)所示:
Y ( k ) = Σ n = 1 N ( Xn ( k ) * wn ( k ) ) . . . ( 8 )
其中,k为频率标志。
通过使加法器106的输出信号Y(k)经过傅立叶逆变换而生成具有时域波形的输出声音信号y(t)。以这种方法将声音信号变换到频域所获得的优点在于:根据加权单元105-1至105-N的加权系数减小计算量,且由于声音信号可以以频率为单位独立进行处理,可用简单的方式表达复杂的残响。作为对后者的补充,通常,由于残响所造成的波形的干扰对每个频率在强度和相位上不同。换言之,声音信号在频率方向上严格变化。具体而言,在某个特定的频率上声音信号被残响强烈干扰,但在另一频率上没有受到残响的多大影响。在这种情况下,人们希望对每个频率独立地处理声音信号,以便使准确的处理成为可能。可将多个频率按照计算复杂性的方便进行打包(bundle),以便以分波段(subband)为单位对声音信号进行处理。
第三实施例
在第三实施例中,如图6所示,将聚类单元208和聚类字典209添加到图5所示的、第二实施例的声音信号处理装置中。聚类字典209存储由LBG法提供的I个质心(centroid)。
如图7所示,首先,类似于第二实施例,来自话筒101-1至101-N的输入声音信号x1至xN被傅立叶变换器205-1至205-N变换到频域,接着,用通道间特征量计算器102计算通道间特征量(步骤S21)。
参照聚类字典209,聚类单元208对通道间特征量进行聚类,生成多个聚类(步骤S22)。计算出每个聚类的质心(重心),即代表点(步骤S23)。计算出在所计算的质心和聚类字典209中的I个质心之间的距离(步骤S24)。
聚类单元208将索引编号发送给选择器204,该索引编号表示使所计算出的距离最小化的质心(距离变为最小的代表点)。选择器204从加权系数字典103中选择对应于该索引编号的加权系数,并将它们发送到加权单元105-1至105-N(步骤S25)。
由傅立叶变换器205-1至205-N变换到频域的输入声音信号由加权单元105-1至105-N用加权系数进行加权,并由加法器106进行相加(步骤S26)。其后,傅立叶逆变换器206将加权相加后的信号变换为时域波形,以生成输出声音信号,在该信号中,目标语音信号得到了强调。如果其通过单独进行其他步骤外的S22和S23来预先生成质心字典,其按照S21、S24、S25、S26的顺序进行。
下面介绍通过学习来制作加权系数字典103的方法。对每一声音源位置或每一分析帧,通道间特征量具有特定的分布。由于这种分布是连续的,有必要将通道间特征量与有待离散化的加权系数联系起来。尽管存在多种将通道间特征量与加权系数相联系的方法,这里介绍预先按照LBG算法对通道间特征量进行聚类、并将加权系数与具有使得相对于该通道间特征量之间距离最小的质心的该聚类的号码相联系的方法。换言之,对每一聚类计算通道间特征量的平均值,且每一聚类对应于一个加权系数。
当制作聚类字典209时,用话筒101-1至101-N接收在假定的残响环境下、在改变声音源位置的同时由声音源所发出的一系列声音,且如上所述计算关于来自话筒的N通道学习输入声音信号的通道间特征量。将LBG算法应用于通道间特征量。随后,如下所述制作对应于该聚类的加权系数字典103。
频域中输入声音信号和输出声音信号之间的关系用下面的公式(9)表示:
Y(k)=X(k)h×W(k)                                       (9)
其中,X(k)为向量,X(k)={X1(k),X2(k),......,XN(k)},且W(k)为由各通道加权系数构成的向量,k为频率标志,h表示共轭变换。
假设来自话筒的第m帧学习输入声音信号为X(m,k),按照加权系数对学习输入声音信号X(m,k)进行加权及相加后所获得的输出声音信号为Y(m,k),且目标信号即所希望的Y(m,k)为S(m,k)。假设这些X(m,k)、Y(m,k)和S(m,k)为第m帧的学习数据。下面省略频率标志k。
假设在例如不同位置的不同环境下所生成的学习数据全部帧的数量为M,且对每一帧指定帧索引。对学习输入声音信号的通道间特征量进行聚类,且用Ci表示属于第i聚类的一组帧索引。计算出目标信号相对于属于第i聚类的学习数据的输出声音信号的误差。此误差为目标信号相对于属于例如第i聚类的学习数据的输出声音信号的误差平方的总和Ji,且用下面的公式(10)表示:
Ji = Σ i ∈ Ci ( X ( m ) h × W - S ( m ) ) 2 . . . ( 10 )
假设使公式(10)中的Ji最小化的wi为对应于第i聚类的加权系数。通过对Ji用W进行偏微分来获得加权系数wi。换言之,其用下面的公式(11)表示:
Wi=inv(Rxx)P                                      (11)
其中,
Rxx=E{X(m)X(m)h}                                  (12)
P=E{SX(m)}
其中,E{}表示期望。
对所有聚类这样进行,且将Wi(i=1,2,......,I)记录在加权系数字典103中,其中,I为聚类的总数。
将通道间特征量与加权系数相联系可以通过其他方法——例如采用统计技术的GMM——进行,且不限于本实施例。本实施例介绍了在频域中设置加权系数的方法,但可以在时域中设置加权系数。
第四实施例
在第四实施例中,如图8所示,将第一至第三实施例中任意一实施例所介绍的声音信号处理装置100以及话筒101-1至101-N布置在具有说话者601-1至601-2的空间602中。空间602例如为车辆的内部。声音信号处理装置100将目标信号方向设置在说话者601-1的方向上,且在等同于或相对类似于空间602的环境中通过执行第三实施例所介绍的学习来制作出加权系数字典。因此,说话者601-1的发声不被抑制,仅有说话者601-2的发声被抑制。
事实上存在着变化因素,例如人坐下的位置、人的体型、车中座位的位置等相对于声音源的改变、装载在车上的负载以及窗户的开与关等。在学习的时候,在将这些变化因素包含在学习数据中的情况下完成学习,且装置被设计为对这些变化因素具有鲁棒性。然而,在对状况进行最优化的时候可以想到进行附加学习。基于说话者601-1发出的某些发声来对包含在声音信号处理装置100中的聚类字典和加权系数字典(未示出)进行更新。类似地,可以对字典进行更新以抑制说话者601-2发出的语音。
第五实施例
根据第五实施例,话筒101-1和101-2被布置在机器人头部701的两侧,即如图9所示的其耳部,并被连接到第一至第三实施例中任一实施例所阐释的声音信号处理装置100。
如上所述,在机器人头部701上所提供的话筒101-1和101-2中,与残响类似到来的声音的方向信息被头部701上复杂的声音波的衍射所干扰。换言之,在话筒101-1和101-2布置在机器人头部701的这种方式下,机器人头部701成为连接话筒与声音源的直线上的障碍物。例如,当声音源存在于机器人头部701的左侧时,声音直接到达位于左耳处的话筒101-2,但由于机器人头部701成为障碍物,其不能直接到达位于右耳处的话筒101-1,且绕头部701传播的衍射波到达该话筒。
用数学方法分析这种衍射的影响非常难。由于这个原因,在如图9所示话筒被布置为将机器人头部701的耳朵夹在中间或将例如柱子或墙壁等障碍物夹在中间的情况下,话筒之间的障碍物使声音信号方向的推定变得复杂。
根据第一至第三实施例,即使在连接话筒与声音源的直线上存在障碍物,通过学习由于障碍物所引起的衍射的影响并将其结合到声音信号处理装置之中,可以仅对来自某个特定方向的目标声音信号进行强调。
第六实施例
图10示出了根据第六实施例的回声消除器。回声消除器包括布置在例如车辆的空间801中的话筒101-1至101-N、声信号处理装置100和发送器802,还包含扬声器803。当用电话、个人数字助理(PDA)、个人计算机(PC)等等进行免提通话时,存在这样的问题:由扬声器803进入话筒101-1至101-N的、发自扬声器803的声音的分量(回声)被送到通话者。回声消除器通常用于防止这一情况。
在本实施例中,利用了声音信号处理装置100可通过学习来产生方向性的特征,且由扬声器803所发出的声音信号通过预先学习其并非目标信号而得到了抑制。类似地,通过学习传送来自话筒正面的声音信号,说话者的话音得到了传送,由此,来自扬声器803的声音可被抑制。如果应用此原理,可以学习对例如来自车辆内扬声器的音乐进行抑制。
第一至第六实施例中所阐释的声音信号处理可通过将例如通用计算机用作基本硬件来实现。换言之,可以使嵌入在计算机中的处理器执行程序来实现声音信号处理。可通过预先将该程序安装在计算机上而实现。或者,通过在例如光盘只读存储器等存储介质上存储该程序或通过网络来分发该程序,可将该程序正确地安装在计算机上。
根据本发明,可以通过对加权系数进行学习来容易地基于多个输入声音信号的通道间特征量选择加权系数,以避免由于残响所造成的目标信号消除问题。
本领域技术人员可容易地发现其他优点和修改。
因此,本发明在其更宽的事实形态上不限于这里所示出和介绍的具体细节和典型实施例。
因此,在不脱离所附权利要求书及其等同物所限定的一般发明构思的精神或范围的条件下,可进行各种各样的修改。

Claims (24)

1.一种声音信号处理方法,其包含:
准备加权系数字典,该字典包含与多个特征量联系的多个加权系数,每一所述特征量表示多通道输入声音信号之间的差异;
计算多通道输入声音信号中每两个之间的输入声音信号差异以获得多个输入特征量,每一所述输入特征量指示所述输入声音信号差异;
从所述加权系数字典中选择对应于所述输入特征量的多个加权系数;
采用所述选择的加权系数对所述多通道输入声音信号进行加权;以及
对所述加权后的输入声音信号进行相加以生成输出声音信号。
2.根据权利要求1的方法,其中,获取所述多个特征量包含:基于所述多通道输入声音信号的通道间的到达时间差异来获取所述特征量。
3.根据权利要求1的方法,其中,获取所述多个特征量包含:计算所述多通道输入声音信号的通道间的复相干性。
4.根据权利要求1的方法,其进一步包含:在障碍物被布置在声音源与多个话筒之间的情况下,生成来自所述话筒的所述多通道输入声音信号。
5.根据权利要求1的方法,其中,所述加权系数字典包含被确定为对来自扬声器的信号进行抑制的所述加权系数。
6.根据权利要求1的方法,其中,所述加权系数对应于时域中的滤波器系数,且对所述多通道输入声音信号的加权用所述多通道输入声音信号和所述加权系数的卷积表示。
7.根据权利要求1的方法,其中,所述加权系数对应于频域中的滤波器系数,且对所述多通道输入声音信号的加权用所述多通道输入声音信号和所述加权系数的乘积表示。
8.一种声音信号处理方法,其包含:
准备加权系数字典,该字典包含与多个特征量联系的多个加权系数,每一所述特征量表示多通道输入声音信号之间的差异;
计算多通道输入声音信号中每两个之间的输入声音信号差异以获得多个输入特征量,每一所述输入特征量指示所述差异;
对所述输入特征量进行聚类以生成多个聚类;
计算每一所述聚类的质心;
计算每一所述输入特征量与所述质心之间的距离以获得多个距离;
从所述加权系数字典中选择加权系数,该加权系数对应于具有使所述距离最小化的质心的、所述聚类中的一个;
采用所述选择的加权系数对所述多通道输入声音信号进行加权;以及
对所述加权后的多通道输入声音信号进行相加以生成输出声音信号。
9.根据权利要求8的方法,其中,获取所述多个特征量包含:基于所述多通道输入声音信号的通道间的到达时间差异来获取特征量。
10.根据权利要求8的方法,其中,获取所述多个特征量包含:计算所述多通道输入声音信号的通道间的复相干性。
11.根据权利要求8的方法,其进一步包含:
计算多通道第二输入声音信号的通道间的差异,以获得多个第二特征量,每一所述第二特征量表示所述差异,所述多通道第二输入声音信号通过在改变学习位置的同时用话筒接收发自声音源的一系列声音来获得;
对所述第二特征量进行聚类以生成多个第二聚类;
通过所述加权系数字典的第二加权系数,对与所述第二聚类中的每一个相对应的所述多通道第二输入声音信号进行加权;
将所述加权后的多通道第二输入声音信号进行相加以生成第二输出声音信号;以及
在所述加权系数字典中记录使所述第二输出声音信号相对于目标信号的误差最小化的所述第二加权系数的加权系数。
12.根据权利要求8的方法,其进一步包含:在障碍物被布置在声音源与多个话筒之间的情况下,生成来自所述话筒的所述多通道输入声音信号。
13.根据权利要求8的方法,其中,所述加权系数字典包含被确定为对来自扬声器的信号进行抑制的所述加权系数。
14.根据权利要求8的方法,其中,所述加权系数对应于时域中的滤波器系数,且对所述多通道输入声音信号的加权用所述多通道输入声音信号和所述加权系数的卷积表示。
15.根据权利要求8的方法,其中,所述加权系数对应于频域中的滤波器系数,且对所述多通道输入声音信号的加权用所述多通道输入声音信号和所述加权系数的乘积表示。
16.一种声音信号处理方法,其包含:
准备加权系数字典,该字典包含与多个特征量联系的多个加权系数,每一所述特征量表示多通道输入声音信号之间的差异;
计算多通道输入声音信号中每两个之间的输入声音信号差异以获得多个输入特征量,每一所述输入特征量指示所述输入声音信号差异;
计算所述输入特征量中的每一个与预先准备的多个代表点中的每一个之间的距离;
确定某个代表点,在所述代表点上所述距离为最小;
从所述加权系数字典中选择对应于所述确定的代表点的多通道加权系数;
采用所述选择的加权系数对所述多通道输入声音信号进行加权;以及
对所述加权后的多通道输入声音信号进行相加以生成输出声音信号。
17.根据权利要求16的方法,其中,获取所述多个特征量包含:基于所述多通道输入声音信号的通道间的到达时间差异来获取特征量。
18.根据权利要求16的方法,其中,获取所述多个特征量包含:计算所述多通道输入声音信号的通道间的复相干性。
19.根据权利要求16的方法,其进一步包含:在障碍物被布置在声音源与多个话筒之间的情况下,生成来自所述话筒的所述多通道输入声音信号。
20.根据权利要求16的方法,其中,所述加权系数字典包含被确定为对来自扬声器的信号进行抑制的所述加权系数。
21.根据权利要求16的方法,其中,所述加权系数对应于时域中的滤波器系数,且对所述多通道输入声音信号的加权用所述多通道输入声音信号和所述加权系数的卷积表示。
22.根据权利要求16的方法,其中,所述加权系数对应于频域中的滤波器系数,且对所述多通道输入声音信号的加权用所述多通道输入声音信号和所述加权系数的乘积表示。
23.一种声音信号处理装置,该装置包含:
加权系数字典,其包含与多个特征量联系的多个加权系数,每一所述特征量表示多通道输入声音信号之间的差异;
计算器,其计算多通道输入声音信号中每两个之间的输入声音信号差异以获得多个特征量,每一所述特征量表示所述输入声音信号差异;
选择器,其从所述加权系数字典中选择对应于所述特征量的多通道加权系数;
加权相加单元,其被配置为通过所述选择的加权系数对所述多通道输入声音信号进行加权,并且对所述加权后的多通道输入声音信号进行相加以生成输出声音信号。
24.一种声信号处理装置,该装置包含:
加权系数字典,其包含与多个特征量联系的多个加权系数,每一所述特征量表示多通道输入声音信号之间的差异;
计算器,其计算多个所述多通道输入声音信号中每两个之间的输入声音信号差异以获得多个特征量,每一所述特征量表示所述输入声音信号差异;
聚类单元,其被配置为对所述特征量进行聚类以生成多个聚类;
选择器,其从所述加权系数字典中选择多通道加权系数,所述多通道加权系数对应于具有表示相对于所述特征量的最小距离的质心的、所述聚类中的一个;
加权相加单元,其被配置为采用所述选择的加权系数对所述多通道输入声音信号进行加权以生成输出声音信号。
CNA2006100942963A 2005-06-29 2006-06-29 声音信号处理方法和装置 Pending CN1893461A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP190272/2005 2005-06-29
JP2005190272A JP4896449B2 (ja) 2005-06-29 2005-06-29 音響信号処理方法、装置及びプログラム

Publications (1)

Publication Number Publication Date
CN1893461A true CN1893461A (zh) 2007-01-10

Family

ID=37590788

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100942963A Pending CN1893461A (zh) 2005-06-29 2006-06-29 声音信号处理方法和装置

Country Status (3)

Country Link
US (1) US7995767B2 (zh)
JP (1) JP4896449B2 (zh)
CN (1) CN1893461A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030372B (zh) * 2007-02-01 2011-11-30 北京中星微电子有限公司 一种语音信号处理系统
CN102687535A (zh) * 2009-11-12 2012-09-19 无线电技术研究学院有限公司 用于混合利用多个麦克风录音的麦克风信号的方法
US8363850B2 (en) 2007-06-13 2013-01-29 Kabushiki Kaisha Toshiba Audio signal processing method and apparatus for the same
CN108293170A (zh) * 2015-10-22 2018-07-17 思睿逻辑国际半导体有限公司 波束成形应用中的自适应无相位失真幅度响应均衡
CN108353229A (zh) * 2015-11-10 2018-07-31 大众汽车有限公司 车辆中的音频信号处理

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5070873B2 (ja) * 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
US8214219B2 (en) * 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
JP2008246037A (ja) * 2007-03-30 2008-10-16 Railway Technical Res Inst 発話音響環境対応型発話音声分析システム
JP4469882B2 (ja) * 2007-08-16 2010-06-02 株式会社東芝 音響信号処理方法及び装置
JP4907494B2 (ja) * 2007-11-06 2012-03-28 日本電信電話株式会社 位相自動補正機能付き複数チャンネル音声転送システム、方法、プログラム、および位相ずれ自動調整方法
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
WO2009143434A2 (en) * 2008-05-23 2009-11-26 Analog Devices, Inc. Wide dynamic range microphone
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
JP5386936B2 (ja) * 2008-11-05 2014-01-15 ヤマハ株式会社 放収音装置
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
EP2196988B1 (en) * 2008-12-12 2012-09-05 Nuance Communications, Inc. Determination of the coherence of audio signals
US8208649B2 (en) * 2009-04-28 2012-06-26 Hewlett-Packard Development Company, L.P. Methods and systems for robust approximations of impulse responses in multichannel audio-communication systems
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
JP4906908B2 (ja) * 2009-11-30 2012-03-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
JP5903758B2 (ja) * 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
KR101527441B1 (ko) * 2010-10-19 2015-06-11 한국전자통신연구원 음원 분리 장치 및 그 방법
JP4945675B2 (ja) 2010-11-12 2012-06-06 株式会社東芝 音響信号処理装置、テレビジョン装置及びプログラム
JP2012149906A (ja) * 2011-01-17 2012-08-09 Mitsubishi Electric Corp 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
JP5974901B2 (ja) * 2011-02-01 2016-08-23 日本電気株式会社 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
JP5649488B2 (ja) * 2011-03-11 2015-01-07 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
JP5865050B2 (ja) * 2011-12-15 2016-02-17 キヤノン株式会社 被検体情報取得装置
JP6221258B2 (ja) 2013-02-26 2017-11-01 沖電気工業株式会社 信号処理装置、方法及びプログラム
JP6221257B2 (ja) 2013-02-26 2017-11-01 沖電気工業株式会社 信号処理装置、方法及びプログラム
KR102109381B1 (ko) * 2013-07-11 2020-05-12 삼성전자주식회사 전기기기 및 그 제어 방법
JP6485711B2 (ja) * 2014-04-16 2019-03-20 ソニー株式会社 音場再現装置および方法、並びにプログラム
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
JP6567479B2 (ja) * 2016-08-31 2019-08-28 株式会社東芝 信号処理装置、信号処理方法およびプログラム
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10089998B1 (en) * 2018-01-15 2018-10-02 Advanced Micro Devices, Inc. Method and apparatus for processing audio signals in a multi-microphone system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573090A (ja) * 1991-09-18 1993-03-26 Fujitsu Ltd 音声認識方法
JP3714706B2 (ja) * 1995-02-17 2005-11-09 株式会社竹中工務店 音抽出装置
JPH11202894A (ja) * 1998-01-20 1999-07-30 Mitsubishi Electric Corp 雑音除去装置
DE69908463T2 (de) * 1998-03-05 2004-05-13 Nippon Telegraph And Telephone Corp. Verfahren und Einrichtung zur mehrkanaligen Kompensation eines akustischen Echos
JP3933860B2 (ja) * 2000-02-28 2007-06-20 三菱電機株式会社 音声認識装置
EP1184676B1 (en) 2000-09-02 2004-05-06 Nokia Corporation System and method for processing a signal being emitted from a target signal source into a noisy environment
JP3716918B2 (ja) * 2001-09-06 2005-11-16 日本電信電話株式会社 収音装置、方法及びプログラム、記録媒体
JP2003140686A (ja) * 2001-10-31 2003-05-16 Nagoya Industrial Science Research Inst 音声入力の雑音抑制方法、雑音抑制制御プログラム、記録媒体及び音声信号入力装置
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4247037B2 (ja) * 2003-01-29 2009-04-02 株式会社東芝 音声信号処理方法と装置及びプログラム
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
JP4892184B2 (ja) * 2004-10-14 2012-03-07 パナソニック株式会社 音響信号符号化装置及び音響信号復号装置
JP2009503574A (ja) * 2005-07-29 2009-01-29 エルジー エレクトロニクス インコーポレイティド 分割情報のシグナリング方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030372B (zh) * 2007-02-01 2011-11-30 北京中星微电子有限公司 一种语音信号处理系统
US8363850B2 (en) 2007-06-13 2013-01-29 Kabushiki Kaisha Toshiba Audio signal processing method and apparatus for the same
CN102687535A (zh) * 2009-11-12 2012-09-19 无线电技术研究学院有限公司 用于混合利用多个麦克风录音的麦克风信号的方法
CN108293170A (zh) * 2015-10-22 2018-07-17 思睿逻辑国际半导体有限公司 波束成形应用中的自适应无相位失真幅度响应均衡
CN108353229A (zh) * 2015-11-10 2018-07-31 大众汽车有限公司 车辆中的音频信号处理

Also Published As

Publication number Publication date
US7995767B2 (en) 2011-08-09
JP2007010897A (ja) 2007-01-18
JP4896449B2 (ja) 2012-03-14
US20070005350A1 (en) 2007-01-04

Similar Documents

Publication Publication Date Title
CN1893461A (zh) 声音信号处理方法和装置
JP4455614B2 (ja) 音響信号処理方法及び装置
Gannot et al. A consolidated perspective on multimicrophone speech enhancement and source separation
EP1640971B1 (en) Multi-channel adaptive speech signal processing with noise reduction
EP2237270B1 (en) A method for determining a noise reference signal for noise compensation and/or noise reduction
US9031257B2 (en) Processing signals
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
CN1168069C (zh) 识别系统和识别方法
US9002027B2 (en) Space-time noise reduction system for use in a vehicle and method of forming same
CN108122563A (zh) 提高语音唤醒率及修正doa的方法
US20110058676A1 (en) Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
CN107993670A (zh) 基于统计模型的麦克风阵列语音增强方法
TW201222533A (en) Sound source separator device, sound source separator method, and program
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
CN104717587A (zh) 用于音频信号处理的耳机和方法
CN101030383A (zh) 声源分离装置、方法和程序
AU2005200699A1 (en) A system and method for beamforming using a microphone array
Yoshioka et al. Dereverberation for reverberation-robust microphone arrays
Niwa et al. Post-filter design for speech enhancement in various noisy environments
US8639499B2 (en) Formant aided noise cancellation using multiple microphones
JP2015070321A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP5489711B2 (ja) 音声符号化装置及び音声復号装置
JP5235725B2 (ja) 発話向き推定装置、方法及びプログラム
JP5235605B2 (ja) 発話向き推定装置、方法及びプログラム
CN113782046B (zh) 一种用于远距离语音识别的麦克风阵列拾音方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned