CN1333994A - 双路立体声信号处理技术 - Google Patents

双路立体声信号处理技术 Download PDF

Info

Publication number
CN1333994A
CN1333994A CN99815559.4A CN99815559A CN1333994A CN 1333994 A CN1333994 A CN 1333994A CN 99815559 A CN99815559 A CN 99815559A CN 1333994 A CN1333994 A CN 1333994A
Authority
CN
China
Prior art keywords
signal
sound source
source
frequency
inhibit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN99815559.4A
Other languages
English (en)
Inventor
A·S·冯
C·刘
R·C·比尔格尔
D·L·琼斯
C·R·兰辛
小W·D·奥布里恩
B·C·维勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Illinois
Original Assignee
University of Illinois
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/193,058 external-priority patent/US6987856B1/en
Application filed by University of Illinois filed Critical University of Illinois
Publication of CN1333994A publication Critical patent/CN1333994A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/552Binaural

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Neurosurgery (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic Arrangements (AREA)

Abstract

通过以处理器(30)产生一个表示期望信号的信号,期望的声学信号从噪声环境中提取出来。处理器(30)从位置不同的两个传感器(22,24)接收可听声音信号。处理器(30)这两个输入被从模拟形式转换成数字形式,并传送给离散傅里叶变换过程以产生离散谱信号表示。该谱信号被延迟以给出一些中间信号,每个中间信号对应于相对两个传感器的不同空间位置。噪声源,期望的信号源以及期望信号的谱内容是根据对应于噪声源位置的中间信号确定的。选出中间信号的反变换之后是数模转换,这样以输出设备(90)给出表示期望信号的输出信号。定位多个声源的技术也被描述。另外,基于两个传感器接收的、对于多源噪声衰减增强的技术也得到描述。

Description

双路立体声信号处理技术
                 相关申请的交叉参考
该申请是下述申请的继续部分申请:共有的、申请中的、Feng等等的美国专利申请号No 08/666,757,发布于1996.6.19,名为BINAURAL SIGNAL PROCESSING SYSTEM AND METHOD。
发明背景
本发明针对声学信号的处理,特别的,但不是唯一的,涉及对不同声源发出的声学信号进行定位和提取。
在干扰信号存在的情况下提取期望信号的困难是声学工程师所面临的一个长期存在的问题。该问题影响了多种设备,如用于声音识别和消息采集的系统的设计和构造。特别麻烦的是,在助听设备中,将期望的声音与不想要的声音分离。一般的,当期望声音被附近声源的噪声污染,尤其是当噪声很强时,助听设备并不允许对期望声音的选择性放大。当期望的声音是语音信号,而附近的噪声也是多个说话者产生的语音信号(例如,唠叨)时问题更加严重。如这里所使用的,“噪声”指随机的,或不确定的信号,另外可选的,指任何干扰期望信号接收的信号或不期望的信号。
解决该问题的一个尝试是采用一个高度定向的麦克风来增强助听接收机的方向性。该方法仅有有限的能力。结果是,采用了谱减法,梳状滤波器和语音产生模型来增强单个麦克风的性能。然而,这些方法仍然不能提高期望语音信号的清晰度,当信号和噪声源很近时尤其是这样。
另外一种方法安排了一些麦克风,它们按选出的空间关系排列以形成一种方向检测束。不幸的是,当受阻于助听设备的实际尺寸时,波束形成阵列分离接近信号的能力也有限,尤其是噪声强于期望语音信号时会这样。此外,在较小回响环境中,一个噪声源的情况下,束形成器提供的噪声削减随着噪声源与麦克风阵列的相对位置而变化。R.W Stadler和W.M Rabinowitz,的on the Potential ofFixed Array for Hearing Aids(关于固定阵列在助听器中的应用前景),94 Journal Acoustical Society of America 1332(1993.9)以及w.Soede等人的Development of a Directional HearingInstrument Based on Array Technology(基于阵列技术的指向性听力仪器的发展),94 Journal Acoustical Society of America785(1993.8)被列举作为关于束形成方法的附加背景。
另一种使用两个不同位置的麦克风来给出两个信号以仿真双路立体声系统某些方面的方法已经被申请,其中的立体声系统对于人类和多种动物来说是常见的。尽管双路立体声的某些生物方面还没有完全搞清楚,要相信定位声源的能力基于听觉系统对于下面参数的评估:与两个声音信号中每一个相关的双路立体声时间延迟和不同频带上的声音大小。基于耳间时间和强度差值的系统对声源的定位方法在W.Lindemann的Extension of a Binaural Cross-CorrelationModel by Contralateral Inhibition-I Simulation ofLateralization for Stationary Signals(用反边音对双耳互相关模型扩展-I对静止信号的头侧定位的模拟),80 Journal of theAcoustical Society of America 1608(1998.12)中讨论。
基于来自两个麦克风的输入进行多声源定位面临几个明显的挑战,例如,一旦声源被定位,该期望信号被分离出来。例如,在MarkusBodden,的Modeling Human Sound-Source Localization and theCocktail-Party-Effect(模拟人声源定位和鸡尾酒会效应),ActaAcoustica 43(1993 2/4)提出的系统采用了包括窗处理的Wiener滤波器,试图一旦期望信号的位置被建立,就能从双路立体声输入信号中得到期望的信号。不幸的是,该方法导致期望语音保真度的明显恶化。而且,该系统仅仅被证明在至少为30度的方位角分隔的情况下抑制了等同于期望信号强度的噪声。与期望声源间隔小于30度的声源所发出的更强的噪声仍然是一个问题。此外,所建议的Bodden系统算法计算量很大-所以它是否能实际应用于助听设备中是一个严重的问题。
另一个双麦克风系统的例子可以在下面文章中找到:D.Banks,的Localization and Separation of Simultaneous Voiceswith Two Microphones(用两个话筒对同时发生的声音定位和分离),IEE Proceeding-I,140(1993)。当声源的谱与干扰噪声谱相比没有重叠区域时,该系统采用窗技术来估计声源的位置。当没有这种重叠的宽带信号被涉及时,该系统不能进行定位。此外,Banks的文章没有给出用于重构期望信号的算法细节。Lindemann的美国专利5,479,322。Soli的5,289,544,Franklin的5,325,436,Zwicker的4,773,095作为涉及双麦克风助听系统的额外背景文献在此给出。
导致高于某些和输入麦克风间隔有关的频率的模糊定位信息常常阻碍了有效的定位。该问题在下面文章中被提及:Stern,R.M.Zeiberg,A.S和Trahiotis,C.“Lateralization of ComplexBinaural Stimuli:A Weighted-image Model(对综合双耳刺激的头侧定位:加权图形模型),”J.Acoust Soc Am.84,156-165(1988)。
这样,一直需要一种更有效的定位和提取技术-尤其是用于双路立体声系统。该发明满足这些需要,并给出其它明显的有益之处和优点。
                      发明概要
本发明涉及声学信号的处理。本发明的各个方面都是新的,并非显而易见的,并给出多种优点。这里涉及的本发明的实质仅仅能通过附件的权利要求来确定,这里给出的优选实施方案的选出形式和特征将被简要描述如下。
本发明的一种形式包括一种独特的信号处理技术用于定位并表征一些不同定位声源中的每一个。这种形式可能包括两个不同位置的传感器来检测声源的声学输出。每个或一个特定的选出声源可以被提取,而抑制其它声源的输出。多种应用可以得益于该技术,包括助听器,声音位置映射或跟踪设备,以及声音识别装置等等。
在另一种形式下,第一声学传感器给出第一信号,与第一声学传感器位置不同的第二声学传感器给出第二声学信号。第一和第二信号都对应于两个或多个声源的组合,即包括多个干扰源和一个期望源。通过处理第一种第二信号,干扰源被定位,并给出对应数量的干扰源信号。这些信号包括一些频率分量。对于每个干扰源信号,一个或多个频率分量被抑制。在两个输入传感器的情况下,该方法有利于消除每个噪声源中的不同频率分量。
本发明的另一种形式是一种处理系统,该系统有一对传感器和一个延迟操作器,对应于来自传感器的一对输入信号,该延迟器产生一些延迟后的信号。该系统还有一个定位操作器,该操作器对应于延迟信号,相对于传感器的位置来定位干扰源,并给出多个干扰源信号,每个信号由一些频率分量表示。该系统还包括一个提取操作器,对于每个干扰源信号,该操作器抑制选出频率分量的作用,并且它还提取对应于期望源的期望信号。对应于期望信号,输出设备还包括给出表示期望源的输出。该系统还可以引入一个与传感器连接的信号处理器以便当提取期望信号时,便于定位并抑制多个噪声源。
另一种形式对应于声源的位置加频率属性,它包括放置第一声学传感器和第二声学传感器来检测多个不同定位的声源。第一和第二信号分别由第一和第二传感器产生,这两个传感器接收声源的激励信号。根据第一和第二信号,系统给出一些延迟后的信号对,每个信号对应于相对于第一和第二传感器的一些位置中的一个。这些声源被按照延迟信号对和一些一致模板的函数来定位。这些模板是针对位置和频率的,并可以被用来识别并且据此计算位置数据估计值,这些估计值对应于每个真实的声音位置。其结果是,这些模板可以作为滤波器工作以给出更好的定位分辨率并消除伪数据。
在另一种形式中,系统包括两个传感器,每个被配置来产生对应的第一或第二输入信号,系统还包括一个延迟器,对应于这些信号,该延迟器产生一些延迟信号,这些信号对应于相对于传感器的一些位置中的一个。该系统还包括一个定位操作器,该操作器对应于延迟信号来确定一些声源定位信号。这些定位信号是根据对应于其中一个位置的延迟信号和一些一致模板确定的。该模板使得模糊相位乘法造成的频率变化声源定位信息与对应位置相关以提高声源定位。该系统还有一个输出设备,对应于定位信号,该设备给出对应于至少一个声源的输出。
另一种形式用两个传感器给出对应的双路立体声信号,根据该信号,可以按时间的函数建立第一声源与第二声源的相对分离,并且第一声源的期望声学信号的谱值可以被代表性的提取。同时可以进行期望声学信号的谱值的定位和识别。这种形式即使在附近的噪声源具有很大的相对强度的情况下,也能成功地提取期望的声学信号。
本发明的另一种形式采用不同位置的第一和第二传感器来给出声学信号的双路立体声表示,其中的声学信号包括从选出声源发出的信号和从几个干扰源发出的干扰信号。根据传感器信号,处理器产生一个离散的第一谱信号和第二谱信号。该处理器以一些时间间隔延迟第一和第二谱信号以产生一些延迟后的第一信号和第二信号并给出一个时间递增信号。时间递增信号对应于选定声源与噪声源的分离。处理器按照时间递增信号的函数来产生输出信号,输出设备对应于输出信号给出表示期望信号的输出。
另外一种形式包括相对于第一信号源放置第一和第二传感器,第一和第二传感器放置在不同位置,第二信号源与第一信号源放置在不同位置。第一信号由第一传感器提供,第二信号由第二传感器提供。第一和第二信号都表示一个组合声学信号,该信号包括来自第一信号源的期望信号和来自其它声源的不期望信号。按照频率的函数,根据第一和第二信号可以建立一些谱信号。一些代表第二信号源位置的谱信号被确定,并且根据这些代表第一信号源的信号产生输出信号。这一特征方便了从谱信号中提取期望信号的操作,这种操作是干扰源定位的一部分。这种方法避免了许多双路立体声系统来提取期望信号所需的繁重的后定位计算。
因此,本发明的一个目标是给出增强的多声源定位。
另一个目标是从一些干扰源造成的噪声环境中提取期望的声学信号。
又一个目标是通过两个不同位置的传感器来检测这些信号的组合从而定位并提取声学信号的系统。
从这里给出的详细附图和描述中,本发明的其它实施方案,目标,特征,方面,益处,形式和优点都会变的很明白。
附图简要描述
图1是本发明一个实施方案的示意图。
图2是进一步描述图1中系统的选定部分的信号流图。
图3是图2的双路延迟线的示意表示。
图4A和4B描述了分别对应于助听应用和计算机声音识别应用的本发明的其它实施方案。
图5是大约两秒长的句子表示的语音信号。
图6是在OdB信噪比情况下,以及干扰噪声源相对于语音信号源位于大多60度方位角的情况下,包括图5的干扰噪声和语音信号的组合信号图。
图7是从图6中组合信号中提取之后的表示图5的语音信号的信号图。
图8是在-30dB信噪比情况下,以及干扰噪声源相对于语音信号源位于大约2度方位角的情况下,包括图5的干扰噪声和语音信号的组合信号图。
图9是从图8中组合信号中提取之后的表示图5的语音信号的信号图。
图10是本发明另一个实施方案的信号流图。
图11是更详细表示图10中双路延迟线选出部分的部分信号流图。
图12是为其中一个示例声源说明图10中给出的实施方案的选定几何特征的图。
图13是更详细说明图10中定位器选定方面的信号流图。
图14是说明本发明另一个实施方案的图。
图15是进一步说明图14中实施方案的选定方面的流程图。
图16是更详细说明图15中定位器选定方面的信号流图。
图17是两个声源的重合根轨迹图。
图18是对应于-75°,0°,20°和75°的方位角的一致模板。
图19-22是描述本发明实验结果的表格。
                  选定实施方案的描述
为了促使对本发明原理的理解,下面将参考附图中的实施方案,特定的语音将用于描述该实施方案。然而要理解的是,这里并不倾向于限制本发明的范围。所描述实施方案的任何改变和修正以及如这里所描述的本发明原理的其它应用对于本领域的技术人员来说都应该认为是与本发明相关的。
图1说明了本发明的一个实施方案的声学信号处理系统10。系统10被配置来从声源12中提取期望的声学信号,而不管附近声源14发出的干扰或噪声。系统10包括一对声学传感器22,24被配置用来检测声学激励,该激励信号包括来自声源12,14的信号。传感器22,24与处理器30操作性连接,用来处理所接收的信号。而且,处理器30与输出设备90操作性相连以给出表示来自声源12的期望信号的信号,其中与来自声源12,14的传送给传感器22,24的组合声学信号相比,声源14中的干扰被降低。
传感器22,24沿横轴T相隔距离D放置。中点M表示沿距离D从传感器22到24的半程点。参考轴R1与声源12对齐并通过中点M与轴T垂直相交。轴N与声源14对齐,并且也与M相交。轴N被放置成与参考轴R1形成角度A。图1给出大约20的角A。明显的,参考轴R1可以被选择来在方位角平面定义一个0度的参考方位角,其中的方位角平面与声源12,14,传感器22,24相交,并包括轴T,N,R1。结果是,声源12在轴上,而与轴N平行的声源14为轴外。声源14与声源12形成大约20度的方位角。
最好的是,传感器22,24相对固定,并被配置用来前后移动以便相对于期望的声学信号源选择性地定位参考轴R1。最好的是,传感器22,24可以是传统的多种形式的麦克风,例如全向动态麦克风。在另一个实施方案中,如对于该领域中技术人员会发生的那样,不同的类型的传感器可以被使用。
再次参考图2,这里给出图1中实施方案的各个处理阶段的信号流图。传感器22,24给出模拟信号Lp(t)和Rp(t),分别对应于左传感器22和右传感器24。信号Lp(t)和Rp(t)最初以不同的处理通道L和R输入给处理器30。对于每个信道L,R,信号Lp(t)和Rp(t)在级32a,32b中被调节并滤波以降低偏移。在滤波级32a和32b之后,调节后的信号Lp(t)和Rp(t)被输入给对应的模数转换器(A/D)34a和34b以给出离散信号Lp(k),Rp(k),其中k为离散采样事件的索引。在一个实施方案中,A/D级34a,34b以至少两倍于音频范围上限的频率对信号Lp(t)和Rp(t)采样以保证输入信号的高保真性。
离散信号Lp(k)和Rp(k)通过级36a,36b中的短时离散傅里叶变换(DFT)算法从时域变换到频域以给出复数信号XLp(m)和XRp(m)。在级36a,36b中,信号XLp(m)和XRp(m)在离散频率fm上计算,其中m是离散频率的索引(m=1到M),索引p表示短时谱分析时间帧。索引p按倒时序排列,最近的时间帧索引为p=1,下一个最近时间帧为p=2,以此类推。最好的是,频率M包含可听频率范围,短时分析中采用的一些样本被选出,以便在处理速度限制和所产生输出信号的期望分辨率之间达到最佳平衡。在一个实施方案中,0.1到6KHz的音频在A/D级34a,34b中以至少12.5KHz的频率被采样,这时每个短时谱分析时间帧有512个样本。在另一个可选实施方案中,可以由在A/D级34a,34b之前采用的模拟滤波器组提供频域分析。应该理解的是,谱信号XLp(m)和XRp(m)可以表示为1*M维的数组,其中的1*M维对应于不同的频率fm
如在图3中进一步详述的,谱信号XLp(m)和XRp(m)被输入给双路延迟线40。图3给出了两个延迟线42,44,每条延迟线具有N个延迟级。每条延迟线42,44都配置了延迟级D1到DN。延迟线42,44被配置来在相反的方向从一个延迟级到另一个延迟级来延迟对应的输入信号,通常对应于与自然双路收听过程相关的双路收听通道。延迟级D1,D2,D3,…,DN-2,DN-1和DN每一个都以对应的时间延迟增量τ1,τ2,τ3,…,τN-1,τN(集中由τi表示)来延迟输入信号,其中索引i从左到右增加。对于延迟线42,XLp(m)可以由XLp 1(m)表示。XLp 1(m)由时间延迟增量τ1,τ2,τ3,…,τN-1,τN延迟以便在延迟线42的抽头处产生延迟后的输出,它们分别由XLp 2(m),XLp 3(m),XLp 4(m),…,XLp N-1(m),XLp N(m)和XLp N+1(m)表示(由XLp i(m)集总表示)。对于延迟线44,XRp(m)可替换表示为XRp N+1(m)。XRp N+1(m)然后被时间延迟增量τ1,τ2,τ3,…,τN-1,τN延迟以便在延迟线44的抽头处产生延迟输出,它们分别表示为XRp N(m),XRp N-1(m),XRp N-2(m),…,XRp 3(m),XRp 2(m)和XRp 1(m)(集中由XRp i(m)表示)。输入谱信号和来自延迟线42,44抽头的信号被安排为操作阵列46的输入对,来自延迟线42,44的抽头对被表示为图3的输入对P。
操作阵列46具有编号为1到N+1的操作单元(OP),表示为OP1,OP2,OP3,OP4,…,OPN-2,OPN-1,OPN,OPN+1,并集中表示为OPi。来自延迟线42,44的输入对对应于操作阵列46。如下所示:OP1[XLp 1(m),XRp 1(m)],OP2[XLp 2(m),XRp 2(m)],OP3[XLp 3(m),XRp 3(m)],…,OPN-2[XLp N-2(m),XRp N-2(m)],OPN-1[XLp N-1(m),XRp N-1(m)],OPN[XLp N(m),XRp N(m)],OPN+1[XLp N+1(m),XRp N+1(m)]表示,其中OPi[XLp i(m),XRp i(m)]表示OPi按照输入对XLp i(m),XRp i(m)的函数被确定。因此,操作阵列46的输出为Xp1(m),Xp2(m),Xp3(m),…,XpN-2(m),XpN-1(m),XpN(m),XpN+1(m)(集中表示为Xpi(m))
对于i=1到i≤N/2,对于阵列46的每个OPi的操作可以根据下面的复数表达式(CE1)确定 X p i ( m ) = XL p i ( m ) - XR p i ( m ) exp [ - j 2 π ( τi + … + τN / 2 ) fm ] · exp [ j 2 π ( τ ( ( N / 2 ) + 1 ) + … + τ ( N - i + 1 ) ) fm ] ,
其中exp[参数]表示参数的自然指数幂,虚数j是-1的平方根。对i>(N/2+1)到i=N+1,操作阵列46的操作是根据下述的复数表达式2(CE2)确定的, X p i ( m ) = XL p i ( m ) - XR p i ( m ) exp [ j 2 π ( τ ( ( N / 2 ) + 1 ) + … + τ ( i - 1 ) ) fm ] - exp [ - j 2 π ( τ ( N - i + 2 ) + … + τN / 2 ) fm ] ,
其中exp[参数]表示参数的自然指数幂,虚数j是-1的平方根。对i=(N/2+1),CE1和CE2都不会执行。
对于N=4(i=1到i=N+1),确定操作的例子如下所示:
i=1,CE1如下所示 X p l ( m ) = XL p 1 ( m ) - XR p l ( m ) exp [ - j 2 π ( τ 1 + τ 2 ) fm ] - exp [ j 2 π ( τ 3 + τ 4 ) fm ] ;
i=2≤(N/2),CE1如下所示: Xp 2 ( m ) = XLp 2 ( m ) - XRp 2 ( m ) exp [ - j 2 π ( τ 2 ) fm ] - exp [ j 2 π ( τ 3 ) fm ] ;
i=3:不适用,(N/2)<i≤(N/2+1)
i=4,CE2如下所示: X p 4 ( m ) = XL p 4 ( m ) - XR p 4 ( m ) exp [ j 2 π ( τ 3 ) fm ] - exp [ - j 2 π ( τ 2 ) fm ] ; 和,
i=5,CE2如下所示: X p 5 ( m ) = XL p 5 ( m ) - XR p 5 ( m ) exp [ j 2 π ( τ 3 + τ 4 ) fm ] - exp [ - j 2 π ( τ 1 + τ 2 ) fm ] .
参考图1-3,操作阵列46中的每个OPi被定义为表示相对于参考轴R的不同方位角位置。“中心”操作,OPi,[其中i=(N/2+1)]表示参考轴和声源12的位置。对于例子N=4,该中心操作对应于i=3。这种方案模拟了与自然双路立体声系统相关的不同耳间时间差值。在这些自然系统中,耳中每个声音通道中存在一个相对位置,该位置对应于给定声源的最大“同相”峰值。因此,阵列46的每个操作表示对应于声源的潜在方位角或角度范围的位置,并且中心操作表示在0方位角的声源-与参考轴R对齐的声源。对于具有一个声源且没有噪声或干扰的环境,确定具有最大强度的信号对足以找到具有很少附加处理的声源;然而,在噪声或多声源环境中,需要进一步处理以正确地估计位置。
应该理解的是,双路延迟线40给出具有N+1列,M行的两维阵列输出,其中N+1列对应于Xp i(m),M行对应于Xp i(m)的每个离散频率fm。该(N+1)*M阵列是为每个短时谱分析间隔P确定。此外,通过从XLp i(m)中减去XRp i(m),每个表达式CE1,CE2的分母被安排为当信号对在给定频率fm下为同相时,给出Xp i(m)的最小值。定位部分70利用表达式CE1,CE2的这方面来计算相对于声源12的声源14的位置。
定位部分70累计这些阵列中P数量以确定表示声源14位置的Xp i(m)。对于每个列i,定位部分70执行|XRp i(m)|幅度和频率fm的二次方的和,m=1…M。该和被乘以M的倒数以找到平均谱能量,如下所述: Xavg p i = ( 1 / M ) Σ m = 1 M | X p i ( m ) | 2
所产生的均值,Xavgp i然后在P个最近谱分析时间帧上求时间平均,其中的谱分析帧由p为索引,如下所示: X i = Σ p = 1 p γpXavg p i ,
其中γp是经验确定的加权因子。在一个实施方案中,γp因子最好在0.85p到0.90p之间,其中p是短时谱分析时间帧的索引。Xi被分析以确定最小值,min[Xi],min(Xi)的索引i表示为I,估计出表示声源14相对于声源12的方位角位置的列。
已经发现,来自声源12的期望信号谱值在近似与参考轴R1对齐时可以从Xp I(m)中估计出来。换句话说,阵列46的谱信号输出同时给出来自声源12的信号的谱表示,其中的阵列46是接近地对应于轴外声源14的相对位置。其结果是,双路延迟线40的信号处理不仅有利于声源14的定位,而且只需要很少的后定位处理给出期望信号的谱估计,以产生代表性输出。
后定位处理包括由定位部分70为概念性开关80提供指定信号以选择双路延迟线40的输出列Xp I(m)。Xp I(m)由开关80寻路到级82中的反傅里叶变换算法(反DFT)以便从频域信号表示转换成表示为S(k)的离散时域信号表示。信号估计值S(k)然后被数摸(D/A)转换器84转换以便向输出设备90提供输出信号。
输出设备90以放大器92放大来自处理器30的输出信号,并将放大后的信号提供给扬声器94以便给出来自声源12的提取信号。
已经发现与轴上声源仅仅偏离2度的轴外声源的干扰可以用本发明降低或消除--即使期望信号包括语音,干扰包括噪声时也是这样。此外,本发明即使在干扰或噪声信号等于或大于相对强度时,也能给出期望信号的提取。通过前后移动传感器22,24,选择用来提取的信号可以对应地改变。此外,本发明可以应用于除了声源12,14之后还有很多声源的环境。在另一个实施方案中,利用自动学习技术,定位算法被配置来动态响应相对位置以及相对强度。在另一个实施方案中,本发明被调整与高度定向的麦克风、多于两个的传感器一起使用以便同时提取多个信号,对于本领域的技术人员来说,还有多种自适应放大和滤波技术是已知的。
作为定位处理的一部分,通过确定表示期望信号的谱信号,与传统系统相比,本发明极大的提高了计算效率。其结果是,声源12的期望信号的输出信号特征被按照对应于声源14与声源12分离的信号对XLp 2(m),XRp 2(m)的函数确定。而且,CE1和CE2分母中的指数对应于频率fm的相位差值,该差值产生于声源12与声源14的分离。参考N=4的例子,假定I=1,该相位差值为-2π(τ1+τ2)fm(对于延迟线42)和2π(τ3+τ4)fm(对于延迟线44)并对应于i=3时,轴外声源14与轴上声源12的代表性位置的分离。而且时间增量τ1+τ2和τ3+τ4也对应于该例中声源14与声源12的分离。这样,处理器30实现了双路延迟线40以及对应的操作关系CE1和CE2以给出通过找到相对于期望信号源的干扰信号源的位置而产生期望信号的装置。
最好的是,τi被选择为相对于参考轴R给出相等的方位角位置。在一个实施方案中,该方案对应于从最小值到最大值变化大约20%的τi。在另一个实施方案中,τi通常相等,简化了阵列46的操作。注意到,CE1,CE2中对应于声源12和14分离的分子中的时间增量在所有τi值相等时近似相等。
处理器30可以由一个或多个组件或设备部件构成。该处理器可以包括数字电路,模拟电路或这些电路的组合。处理器30可以是可编程的集成状态机,或利用以上技术的组合。最好的是,处理器30是一个固态集成数字信号处理器。被定制为以最小的外部元件和连接来执行本发明的处理。类似的,本发明的提取处理可以对各种安排的处理设备执行,在一个或多个硬件模块,固件模块,软件模块或其组合情况下,这些设备被配置来给出对应的功能。此外,如这里使用的,“信号”包括,但是不局限于软件,固件,硬件,编程变量,通讯信道和存储器位置表示。
参考图4A,本发明的一个应用被描述为助听系统110。系统110包括具有固定在眼睛G上,并互相分离的麦克风122,124的眼镜G。麦克风122,124与助听器130相连。处理器130与输出设备190相连。输出设备190定位于耳朵E中以便为佩戴者提供音频信号。
麦克风122,124以类似于图1-3描述的实施方案中的传感器22,24的方法被使用。类似的,处理器130配有图1-3中给出的信号提取处理。处理器130为输出设备190提供提取信号以便为佩戴者提供音频输出。系统110的佩戴者可以调整眼镜G的位置以便与期望声源例如语音信号对准,以降低来自附近噪声源的干扰,其中噪声源在麦克风122,124的中点轴之外。此外,通过与其它的期望声源对准,佩戴者可以选择一个不同的信号来降低来自噪声环境的干扰。
处理器130和输出设备190可以是独立的单元(如给出的)或者包括在耳朵上戴的普通单元中。处理器130和输出设备190之间的连接可以是电缆或无线传输。在另一个可选实施方案中,传感器122,124和处理器130位置很远,并被配置来通过无线电频率传输或其它传统通讯方法而向耳朵E中的一个或多个输出设备190广播。
图4B给出采用本发明作为前端语音增强设备的声音识别系统210。系统210包括具有两个麦克风222,224的个人计算机C,其中的麦克风按照预定的关系互相分离。麦克风222,224与计算机C中的处理器230相连。处理器230提供输出信号作为内部使用或通过扬声器294a,294b或视觉显示296作出响应性回答。一个操作器按照预定关系与计算机C的麦克风222,224对准以传送声音命令。计算机C被配置来接收这些声音命令,根据图1-3中的处理系统从噪声环境中提取期望的声音命令。
参考图10-13,给出了本发明另一个实施方案的信号处理系统310。系统310的与系统110相同的参考号码表示相同的特征。图10的信号流图对应于系统310的各种信号处理技术。图10给出了系统310的信号处理器330的左“L”和右“R”输入信道。信道L,R每一个都包括一个声学传感器22,24,它们分别给出输入信号XLn(t),XRn(t)。输入信号XLn(t),XRn(t)对应于传感器22,24检测范围中的多个声源的声音组合。如结合图1系统10描述的,最好是传感器22,24为标准麦克风,它们彼此距离为预定距离D。在另一个实施方案中,不同的传感器类型或装置可以被使用,如本领域的技术人员常常碰到的那样。
传感器22,24与系统310的处理器330相连以便为A/D转换器34a,34b提供输入信号XLn(t),XRn(t)。处理器330的A/D转换器34a,34b将输入信号XLn(t),XRn(t)从模拟形式转换成离散形式。如XLn(k),XRn(k)所表示的,其中“t”是熟悉的连续时域变量,“k”是离散样本索引变量。对应的预调节滤波器(没有给出)可以包括在处理器330中,如结合系统10所描述的那样。
数字傅里叶变换(DFT)部分36a,36b从转换器34a,34b分别接收数字化输入信号对XLn(k),XRn(k)。利用短时离散傅里叶变换算法,36a,36b将输入信号XLn(k),XRn(k)转换成XLn(m),XRn(m)表示的谱信号。谱信号XLn(m),XRn(m)以一些离散频率分量表示,其索引为整数m,其中m=1,2,…,M。而且,如这里所使用的,L和R表示左和右信道。n表示离散傅里叶变换分析时间帧的索引。
延迟操作器340从级36a,36b接收谱信号XLn(m),XRn(m)。延迟操作器340包括一些双路延迟线(DDLs)342,每个双路延迟线对应于一个不同的分量频率,这些频率以m为索引。这样,用到了M个不同的双路延迟线342。然而,只有对应于m=1和m=M的双路延迟线在图10中给出以保持清晰。余下的对应于m=1和m=M-1的双路延迟线由省略号表示以保持清晰度。另外,延迟操作器340可以描述为单个的双路延迟线,该延迟线如系统10的双路延迟线40那样同时对M个频率操作。
对应于给定m值的来自DFT级36a,36b的频率分量对被输入给对应的一个双路延迟线342。对于图10中给出的例子,对于对应于m=1的频率,谱信号分量XLn(m=1)和XRn(m=1)被送给上部的双路延迟线342;对于m=M的频率,谱信号分量对XLn(m=M)和XRn(m=M)被送给下面的双路延迟线342。同样对于对应于m=2到m=(M-1)的频率,XLn(m)和XRn(m)的普通频率对被送给对应的双路延迟线,这些延迟线由省略号表示以保持清晰度。
另外参考图11,这里进一步给出了双路延迟线342的某些特征。每个双路延迟线342包括一个左声道延迟线342a,用来接收来自DFT级36a的对应频率分量输入,342还包括右声道延迟线342b,用来接收来自DFT级36b的对应频率分量。延迟线342a,342b每个都包括索引为i=1,2,…,I的奇数个延迟级344。I个延迟的信号对在延迟级344的输出端345给出,并相应地发送给复数乘法器346。对于每个延迟线342a,342b,存在一个对应于每个延迟级344的乘法器346。乘法器346为延迟级344的对应输出提供均衡的加权。每个来自对应输出345的延迟信号对有一个来自左延迟线342a的延迟级344的分量以及来自右延迟线342b的延迟级344的分量。每个双路延迟线342的复数乘法器346输出对应的沿抽头347的I个延迟信号对的乘积。对于操作器340的每个双路延迟线342,来自抽头347的I个信号对被输入给信号操作器350。
对于每个双路延迟线342,I对乘法器抽头347中的每一个都输入给操作器350的不同操作阵列(OA)352。每个抽头对347被提供给对应操作阵列352中的不同操作级354。在图11中,只有一部分延迟级344,乘法器346,操作级345被给出,它们对应于延迟线342a,342b任一端的两个级,以及延迟线342a,342b的中间级。介于其间的各级遵循所示级的模板,并且由省略号表示以保持清晰度。
对于任意的频率ωm,延迟时间τi由下面等式(1)给出: τ i = IT D max 2 sin ( i - 1 I - 1 π - π 2 ) , i=1,…,I              (I)
其中i是整数延迟级索引,范围为(i=1,…,I),ITDmax=D/C是麦克风之间的最大时间差;D是传感器22,24之间的距离;C是声音的速度。此外,对于对应于i=(I+1)/2的延迟级中点,延迟时间τi是非对称的,如下面等式(2)表示的: τ I - i + 1 = ITD max 2 sin [ ( I - i + 1 ) - 1 I - 1 π - π 2 ] = - ITD max 2 sin ( i - 1 I - 1 π - π 2 ) = - τ 1 . (2)
方位角平面可以被统一划分成I个区域,每个区域的方位角位置由下面等式3给出。
Figure A9981555900242
i=1,…,I.            (3)
可听空间中的方位角位置可以根据下述等式(4)沿每个双路延迟线342被映射到对应的延迟信号对。 τ i = ITD max 2 sin θ i , i=1,…,I.                 (4)
双路延迟线结构类似于系统10的实施方案,不同点在于对于每个m值给出不同的双路延迟线表示,并且乘法器346被包括用来将每个对应的延迟级344乘以一个适当的均衡因子αi(m),其中i是以前描述的延迟级索引。最好的是,元素αi(m)被选择用来按照方位角和频率的函数来补偿传感器22,24处噪声强度中的差值。
用来确定均衡因子αi(m)的一个优选实施方案假设幅度补偿独立于频率,视任何与此模型的偏差是可忽略的。对于该实施方案,所接收声音压强|P|的幅度根据下面的等式(A1)和(A2)随着声源-接收机之间的距离γ而变化。 | p | ∝ 1 r , - - - - - ( A 1 ) | P L | | P R | = r R r L , - - - - - ( A 2 )
其中|PL|和|PR|是传感器22,24处的声音压强幅度。图12描述了传感器22,24以及在接收范围之内的代表性声源S1以给出输入信号XLn(t)和XRn(t)。根据图12中给出的几何表示,声源S1到左,右传感器的距离γL和γR分别由等式(A3)和(A4)给出。 r L = ( l sin θ i + D / 2 ) 2 + ( l cos θ i ) 2 = l 2 + LD sin θ i + D 2 / 4 , - - - - - ( A 3 ) r R = ( l sin θ i - D / 2 ) 2 + ( l cos θ i ) 2 = l 2 - lD sin θ i + D 2 / 4 , - - - - - ( A 4 )
为了图11的双路延迟线342中的给定延迟信号对在该方法中保持相等,因子αi(m)和αI-i+l(m)必须满足等式(A5),如下所示:
|pLi(m)=|PRI-j+l(m).    (A5)将等式(A2)代入等式(A5),产生等式(A6)如下所示: r L r R = α 1 ( m ) α I - i + 1 ( m ) , - - - - - ( A 6 ) 根据等式(A7)定义αi(m)如下所示, α i ( m ) = K l 2 + lD sin θ i + D 2 / 4 , - - - - - ( A 7 )
其中,K是以单位值表示的长度倒数,并被选择来给出方便的幅度值,αI-i+l(m)由下面等式(A8)给出, α I - i + 1 ( m ) = K l 2 + lD sin θ I - i + 1 + D 2 / 4 = K l 2 - lD sin θ i + D 2 / 4 , - - - - - - ( A 8 ) (A8)
其中,通过用I-i+l代替等式(3)中的i,可以得到关系式sinθI-i+l=sinθi.。通过将等式(A7)和(A8)带入等式(A6),可以证实等式(7)中αi(m)的值满足等式(A6)建立的条件。
在根据该实施方案获得均衡因子αi(m)之后,最好进行微小的调节以校准传感器安排中的不对称性,并校准其它与理想情况的偏离,例如,如那些由于声学能量的媒体吸收所造成的情况,非点声源的声源几何位置以及依赖于举例之外其它参数的幅度削减。
在乘法器340通过因子αi(m)进行均衡操作之后,对于对应于i=isignal=s的延迟信号对来说,双路延迟线342中的左,右声道中的同相期望信号分量基本上相同,并且对于单个的,预定的干扰噪声源来说,对于对应于i=inise=g的延迟信号对来说,双路延迟线342的左,右声道中的同相噪声信号分量也基本相同。i=s时的期望信号可以表示为Sn(m)=Asexp[j(ωmt+φs)],i=g时的干扰信号可以表示为Gn(m)=Agexp[j(ωmt+φg)],其中φs,φg表示初始相位。基于这些模型,沿双路延迟线342的任意点i(除了i=s)上左声道和右声道的均衡信号αi(m)XLn (i)(m)以及αI-i+l(m)XRn (i)(m)可以表示为下面的等式: α 1 ( m ) X L ( 1 ) ( m ) = A s expj [ ω m ( t + τ s - τ i ) + φ s ] + A s expj [ ω m ( t + τ s - τ 1 ) + φ s ] , - - - ( 5 ) α I - i + 1 ( m ) X Rn ( 1 ) ( m ) = (6)Asexpj[ωm(t+τI-i+l-τI-i+l)+φs]+Agexpj[ωm(t+τI-g+l-τI-I+l)+φg].其中等式(7)和(8)进一步定义了等式(5)(6)的某些项: X Ln ( 1 ) ( m ) = X Ln ( m ) exp ( - j 2 πfm τ i ) - - - - - ( 7 ) X Rn ( 1 ) ( m ) = X Rn ( m ) exp ( - j 2 π f m τ I - i + 1 ) - - - - - ( 8 )
对于所有的m,每个信号对αi(m)XLn (i)(m)和αI-i+l(m)XRn (i)(m)被输入到对应操作阵列352的对应操作级354。其中在双路延迟线342的情况下,每个操作器阵列352对应于不同的m值。对于给定的操作阵列352,对应于每个I值的操作级354执行等式(9)定义的操作,如下所示(除了i=s之外)。 X n ( 1 ) ( m ) = α 1 ( m ) X Ln ( 1 ) ( m ) - α I - i + 1 ( m ) X Rn ( 1 ) ( m ) ( α l / α s ) exp [ j ω m ( τ s - τ 1 ) ] - [ α I - i + 1 / α I - s + 1 ] exp [ j ω m ( τ I - s + 1 - τ I - i + 1 ) ] ,
                        fori≠s.(9)
如果等式(9)中的分母太小,一个小的正常数ε被加入分母以限制输出信号Xn (i)(m)的幅度。对于所有的m值,操作级354不会对对应于i=s的信号对进行任何操作(信号操作器350的所有操作阵列352)。
等式(9)可以与系统10的表达式CE1和CE2相比;然而,等式(9)包含均衡元素αi(m)并被组织成一个单独的表达式。在来自操作阵列352的输出的情况下,对期望信号谱值的同时定位和识别可以用系统310执行。系统310的定位和提取可以进一步由图13的信号流图描述,并遵循数学模型。通过将等式(5)和(6)代入等式(9),等式(10)表示为: X n ( 1 ) ( m ) = S n ( m ) + G n ( m ) · υ s · s ( 1 ) ( m ) , i≠s                            (10)等式(11)进一步定义为: υ s , s ( 1 ) ( m ) = ( α 1 / α s ) exp [ j ω m ( τ s - τ i ) ] - ( α I - i + 1 / α I - i + 1 ) exp [ j ω m ( τ I - i + 1 / τ I - i + 1 ) ] ( α i / α s ) exp [ j ω m ( τ s - τ i ) ] - ( α I - i + 1 / α I - i + 1 ) exp [ j ω m ( τ I - i + 1 - τ I - i + 1 ) ] , i≠s (11)
通过将等式(2)施加给等式(11),等式(12)产生,如下所示: υ s , s ( 1 ) ( m ) = ( α i / α s ) exp [ j ω m ( τ s - τ i ) ] - ( α I - i + 1 / α I - s + 1 ) exp [ - j ω m ( τ s - τ i ) ] ( α i / α s ) exp [ j ω m ( τ s - τ i ) ] - ( α I - i + 1 / α I - s + 1 ) exp [ - j ω m ( τ s - τ i ) ] , i≠s.(12)信号Xn (i)(m)的能量在等式(13)中表示,如下所示: | X n ( 1 ) ( m ) | 2 = | S n ( m ) + G n ( m ) · υ s , s ( 1 ) ( m ) | 2 信号矢量可以被定义: x ( i ) = ( X 1 ( i ) ( 1 ) , X 1 ( i ) ( 2 ) , … , X 1 ( i ) ( M ) , X 2 ( i ) ( 1 ) , … , X 2 ( i ) ( M ) , … , X N ( i ) ( 1 ) , … , X N ( i ) ( M ) ) T , i=1,…,I,
其中,T表示转置,矢量X(i)的能量‖X(i)2 2由等式(14)给出,如下所示: | | x ( 1 ) | | 2 2 = Σ n = 1 N Σ m = 1 M | X n ( 1 ) ( m ) | 2 = Σ n = 1 N Σ m = 1 M | S n ( m ) + G n ( m ) · υ s , s ( 1 ) ( m ) | 2 i=1,…,I.(14)
等式(14)是在时间和频率上的双重相加,它近似了连续时域表示中的双积分。
进一步定义下面矢量:s=(S1(1),S1(2),…,S1(M),S2(1),…,S2(M),…,SN(1),…,SN(M))T,和 g ( 1 ) = ( G 1 ( 1 ) υ s , s ( 1 ) ( 1 ) , G 1 ( 2 ) υ s , s ( 1 ) ( 2 ) , … , G 1 ( M ) υ s , s ( 1 ) ( M ) , G 2 ( 1 ) υ s , s ( 1 ) ( 1 ) , … , G 2 ( M ) υ s , s ( 1 ) ( M ) , … , G N ( 1 ) υ s , s ( 1 ) ( 1 ) , … , G N ( M ) υ s , s ( 1 ) ( M ) ) T , wherei=1,…,I,矢量s和g(i)的能量分别由等式(15)和(16)确定,如下所示 | | s | | 2 2 = Σ n = 1 N Σ m = 1 M | S n ( m ) | 2 (15) | | g ( 1 ) | | 2 2 = Σ n = 1 N Σ m = 1 M | G n ( m ) · υ s , s ( 1 ) ( m ) | 2 , i=1,…,I.                          (16)
对于独立于干扰源的期望信号,矢量s和g(i)正交。根据Pythagoras理论,等式(17)产生,如下所示: | | x ( 1 ) | | 2 2 = | | s + g ( 1 ) | | 2 2 = | | s | | 2 2 + | | g ( 1 ) | | 2 2 , i=1,…,l.                          (17)因为‖g(i)2 2≥0,等式(18)产生,如下所示: | | x ( 1 ) | | 2 2 ≥ | | s ( 1 ) | | 2 2 , i=1,…,I.(18)
等式(18)中的均衡仅在‖g(i)2 2=0时才满足,该条件在下面两个条件之一满足时发生,(a)Gn(m)=0,即噪声源为无声状态—在该情况下,不许要进行噪声源定位和噪声消除;(b)νsg (i)(m)=0,其中等式(12)表明该第二条件在i=g=inoise时产生。因此,‖X(i)2 2在i=g=inoise时有最小值,根据等式(18),该值为‖S‖2 2。等式(19)将该条件进一步描述为: | | s | | 2 2 = | | x ( l _ ) | | 2 2 = min 1 | | x ( 1 ) | | 2 2 , (19)
这样,定位过程包括沿操作阵列352为每个延迟线342找到位置inoise,在该位置上产生‖X(i)2 2的最小值。一旦沿双路延迟线342的位置inoise确定了,噪声源的方位角位置可以用等式(3)确定。估计的噪声位置inoise可以用来进行噪声消除或期望信号的提取,如后面进一步描述的。实际上,对于所有对应于i=inoise的m值,操作级354按等式(20)给定的那样提供期望信号的谱分量。 S n 1 ( m ) = X n ( l max ) ( m ) = S n ( m ) + G n ( m ) · υ s , s ( l max ) ( m ) = S n ( m ) , (20)
定位操作器360表征了系统310的定位技术。对于每个整数索引i,其中i=1,…,I,图13进一步描述了具有加法操作器对362和364的操作器360。集中来说,加法操作器362和364执行对应于等式(14)的操作以便为每个i值产生‖X(i)2 2。对于每个变换时间帧n,加法操作器362对应于它们的i值从操作级354接收输入Xn (i)(L)到Xn (i)(M)。并在频率m=1到m=M上对频率求和。对于给出的例子,上面的加法操作器362对应于i=1并接收信号Xn (1)(1)到Xn (1)(M)用于相加;下面的加法操作器362对应于i=I,并接收信号Xn (1)(1)到Xn (1)(M)用于相加。
每个加法操作器364从对应于相同的i值的加法操作器362为每个变换时间帧接收结果,并在对应于n=1到n=N的时间变换帧上累积这些和;其中N是经验确定的适于定位操作的时间帧数。对于给出的例子,上面的加法操作器364对应于i=1并将上面加法操作器362在N个样本上得到的结果相加;下面的加法操作器364对应于i=I,并将来自下面加法操作器362的结果在N个样本上相加。
产生于I个相加操作器364的I个‖X(i)2 2值被级366接收。级366将I个‖X(i)2 2值比较以确定对应于最小‖X(i)2 2的i值。该i值被级366作为i=g=inoise输出。
再次参考图10,系统310进行的后定位处理被进一步描述。当等式(9)在i=g处应用于延迟线342的输入对时,它对应于轴外噪声源的位置,并且等式(20)表示它给出了期望信号S′n(m)的近似值。为了提取信号S′n(m),定位单元360的级366将索引值i=g发送给提取操作器380。对应于g,提取操作器380将输出xn (g)(1)到xn (g)(M)=S′n(m)传送给与之连接的反傅里叶变换(IFT)级82。出于该目的,提取操作器380最好包括一个复用器或阵列开关,该阵列有I*M个复数输入和M个复数输出;其中不同组的M个输入对应于定位操作器360的级366的输出为每个不同的索引值i传送给输出。
级82将从提取单元380接收的M个谱分量转换以便将期望信号S′n(m)的谱近似值从频域变换到时域,由n(k)表示。级82与数摸转换器(D/A)84相连。D/A转换器84接收信号n(k)用来从离散形式转换成模拟形式,由S′n(t)表示,S′n(t)被输入到输出设备90以给出期望信号的可听表示或如本领域技术人员已知的其它表示。级82,转换器84,设备90被结合系统10进一步解释。
等式(9)的另一种表示由等式(21)给出: X n ( 1 ) ( m ) = w Ln ( m ) X Ln ( 1 ) ( m ) + w Rn ( m ) X Rn ( i ) ( m ) ,                                                 (21)
项wLn和wRn等价于对左,右声道的束形成加权。其结果是,等式(9)的操作可以等价模拟成束形成过程,该过程在对应于主要噪声源的位置放置一个“空”,同时转换到期望输出信号S′n(t)。
图14给出了本发明的另一个实施方案的系统410。系统410的几个参考标号与系统10和310中的一样,并表示同样的特征。图14中给出了一些在系统410的声学传感器22,24的接收范围之内的声学源412,414,416,418。声学源412,414,416,418的位置还由相对于轴AZ的方位角表示,轴AZ由参考标号412a,414a,416a,418a表示。如所给出的,角度412a,414a,416a,418a对应于大约0°,+20°,+75°,和-75°。传感器22,24与信号处理器430相连,并且轴AZ在它们的中线上延伸。如结合系统310所描述的那样,处理器430从对应于左声道L和右声道R的传感器22,24接收输入信号xLn(t),xRn(t)。处理器430处理信号xLn(t),xRn(t),并将对应的输出信号提供给与之相连的输出设备90,490。
再参考图15的信号流图,系统410的选出特征被进一步说明。系统410包括D/A转换器34a,34b和DFT级36a,36b以便如结合系统310所描述的那样给出相同的左,右声道处理。系统410还包括如为系统310描述的延迟操作器340和信号操作器350;然而,最好的是,均衡因子αi(m)(i=1,…,I)被设置为单位值以用于与系统410的定位操作器460相关的定位过程。此外,系统410的定位操作器460直接接收延迟操作器340的输出信号,而不是接收信号操作器350的输出信号,与系统310不同。
操作器460中实现的定位技术从建立两维(2-D)一致轨迹图开始,该两维图以频率与方位角位置的关系表示。对于索引为m的每个频率,每个轨迹的一致点表示左,右声道之间的最小差值。该最小差值可以表示为每个离散频率m上频域表示XLp (i)(m)和Xgp (i)(m)之间得最小幅度差值δXn (i)(m),因此产生M/2的潜在不同轨迹。如果声源的空间位置一致,那麽这些轨迹在所有的频率上一样。该操作在等式(22)-(25)中描述: i n ( m ) = arg min 1 ( δ X n ( 1 ) ( m ) ) , m=1,…,M/2.              (22) δ X n ( 1 ) ( m ) = | X Ln ( 1 ) ( m ) - X Rn ( 1 ) ( m ) | , i=1,…,I;m=1,…,M/2,(23) X Ln ( 1 ) ( m ) = X Ln ( m ) exp ( - j 2 π τ i m / M ) , i=1,…,I;m=l,…,M/2,(24) X Rn ( 1 ) ( m ) = X Rn ( m ) exp ( - j 2 π τ I - i + 1 m / M ) , i=1,…,I;m=1,…,M/2. (25)
如果在系统410的双路延迟线342的索引为i的位置上,左右声道的幅度相等,那麽对应i值的δXn (i)(m)值被最小化,如果基本上不为0的话。注意到,不管传感器之间的强度差异,均衡因子αi(m)(i=1,…,I)应该尽量保持单位化以便达到一致检测。否则,最小δXn (i)(m)将不会对应于同相(一致)位置。
另一可选方法可以基于根据相位差值来识别一致轨迹。对于该相位差值方法,在双路延迟线342上由i索引的位置上,左右声道信号之间的最小相位差值如下面等式(26)和(27)所描述的那样定位。 i n ( m ) = arg min 1 { δ X n ( 1 ) } , m=1,…,M/2,                     (26) δ X n ( 1 ) ( m ) = | Im [ X Ln ( i ) ( m ) X Rn ( i ) ( m ) 1 ] | , i=1,…,I;m=1,…,M/2,        (27)
其中,Im[.]表示参数的虚数部分,上标+表示复数共轭。由于相位差值技术检测到两个复数矢量之间的最小角度,因此不必补偿传感器间的强度差值。
尽管在没有进一步处理的情况下,幅度差值方法或相位差值方法都可以有效地定位单个声源,多个声源常常发出谱互相重叠的信号,这导致对应于不存在声源或伪声源的一致轨迹(例如,在同一频率下,两个相等强度声源之间的中点)。图1 7给出了两维一致线图500,该图垂直轴由频率表示,水平轴以方位角位置角度表示。线图500表示了两个声源,分别对应于大约在-20度的垂直对准的位置512a和对应于大约在-20度的垂直对准的位置512b。线图500还包括误识别的或伪声源点514a、514b,514c,514d,514e,它们位于对应于具有较大能量的频率的其它方位角位置上。对于多于两个不同定位的竞争性声源,会产生更复杂的图。
为了降低两维一致图数据中的伪信息的发生,定位操作器460在时间和频率上积分。当信号不是在每个频率上相关时,信号间的互干扰可以通过临时积分来逐渐削减。该方法对一致的位置求平均,而不是用来确定最小值的函数值求平均,这等价于应用kroneckerδ函数,δ(i-in(m))到δXn (i)(m)并在时间上对δ(i-in(m))求平均。反过来,对应于声源的真实位置的一致轨迹被增强。时间积分将忽视平均施加给两维一致图,该图是在n=1,…,N的变换时间帧的预定组上得到的;并由等式(28)的加法近似表示: P N ( θ i , m ) = Σ m = 1 N β N - n δ ( i - i n ( m ) ) , i=1,…,I;m=1,…,M/2,(28)
其中0<β<1是一个加权系数,该系数从指数上削弱(或忽视)以前一致结果的作用,δ(.)是kroneckerδ函数,θi表示双路延迟线342上对应于空间方位角θi[等式(2)]的位置,N指当前时间帧。为了降低由于声源的瞬时交互作用造成的束效应,等式(28)的结果根据等式(29)定义的关系而测试:                            (29)
其中Γ≥0,是一个经验确定的阈值。尽管该方法假定传感器间的延迟独立于频率,已经发现,与该假设的偏离可以忽略不计。
通过在频率上对一致图进行积分,可以获得空间中声源位置的更鲁棒,更可靠的表示。Pni,m)在频率上的积分产生一个定位模板,该模板为方位角的函数。可以采用用来估计声源真实位置的两种技术。第一种估计技术完全基于频率上的垂直轨迹,其中的频率对应于不同的方位角。对于该技术,θd表示积分相关的方位角,使得θd=θi,并导致等式(30)对频率的相加。 H N ( θ d ) = Σ m P N ( θ d , m ) , d=1,…,I.                   (30)
其中,方程(30)逼近时间上的积分
Hnd)中的峰值表示了声源的方位角位置。如果存在Q个声源,通常会得到HNd)中的Q个峰值。当在每个频率上与模板δ(i-in(m))相比时,当多于一个声源存在时,不仅定位准确性被增强,而且当前帧的多个声源的立即定位也是可能的。此外,尽管在HNd)中,主声源通常比其它较弱的声源具有更高的峰值,HNd)中峰值的高度间接地反映了声源的能量。此外,高度由几个因子影响,例如,对于每个频段来说,相对于其它信号分量能量的对应于θd的信号分量能量,频段数,以及信号占主要地位的时间。实际上,在等式(28)中,每个频率被同样加权。其结果是,主声源对较弱声源的掩盖被削弱。对比之下,现存的时域互相关方法引入了信号强度,与主声源之间更强的偏移敏感度。
注意到,对于高频率声音来说,耳间时间差值是模糊的,其中声学波长小于传感器22,24之间的距离D。该模糊性产生于相位与上述传感器间距离相关频率的相乘,使得特定的相位差值Δφ不能从Δφ+2π中分辨出来。其结果是,在某些频率上,不存在位置与频率间的一对一关系。这样,除了对应于θd=θI,的主垂直轨迹之外,还存在第二种关系,表征了每个模糊相位的随频率变化的位置。这些第二关系被考虑用于频率上积分的第二估计技术。等式(31)给出一种方法来确定给定方位角的预测一致性模板,它按照下式考虑第二关系: sin θ i - sin θ d = γ m , d IT D max f m ,                  (31)
其中参数γm,d是一个整数,每个值γm,d定义模板PN(θI,m)中的一个包络。主要关系与γm,d=0相关。对于特定的θd,γm,d的正确值范围由等式32给出,如下所示:
       -ITDmaxfm(1+sinθd)≤γm,d≤ITDmaxfm(1-sinθd)  (32)
图18的600给出了根据等式(31)和(32)确定的一些代表性一致模板612,614,616,618,其中垂直轴表示频率(Hz),水平轴表示方位角位置(度)。模板612对应于0度的方位角位置。模板612主要对应于垂直实线612a,其次对应于曲线实线612b。类似的,模板614,616,618对应于-75度,20度和75度的方位角位置,并且其主要关系表示为垂直线614a,616a,618a,其次表示为曲线614b,616b,618b,它们以对应的不同间断线表示。一般地,垂直线被表示为主包络,曲线段被表示为第二包络。其它方位角位置的一致模板可以由等式(31)和(32)确定,如本领域技术人员已知的那样。
注意到,PNi,m)中存在的这些模糊性在对θd=θI,积分之后,会产生HNd)中的人为峰值。对应于几个声源的曲线轨迹的上重合可以包括一个噪声项HNd)。当远离任何实际声源的峰值时,人工峰值可能错误地表示检测到不存在的声源;然而,当接近对应于真实声源的峰值时,它们可能既影响HNd)中真实声源峰值的检测,又影响这些峰值的定位。当要求降低相位模糊性的负面影响时,对于每个给定方位角位置来说,定位操作除了主要关系之外,还要考虑第二关系。这样,感兴趣的每个方位角方向θd(d=1,…,I)的一致模板可以被确定并描绘,这可以被用作具有PN(θi,m)定义的形状的“型板”(stencil)窗口(i=1,…,I;m=1,…,M)。换句话说,每个型板是一致点的预测模板,这些点可归于主要包络的方位角位置上的声源,包括对应于作为频率因子的其它方位角位置的伪位置。模板可以被用来过滤不同m值上的数据。
通过采用等式(32),等式(30)的积分近似被修正,该修正在下面等式(33)中反映。 H N ( θ d ) = 1 A ( θ d ) Σ m P N [ sin - 1 ( γ m , d IT D max f m + sin θ d ) , m ] , d=1,…,I,(33)
其中A(θd)表示涉及加法的点数。注意到,等式(30)是对应于γm,d=0的等式(33)的特殊情况。这样,当需要在频率上积分的第二技术时,等式(33)被用来代替等式(30)。
如在等式(2)中给出的,变量θi和τi是等价的,并表示双路延迟线中的位置。这些变量间的差值是θi,通过利用其对应的空间方位角,θi表明双路延迟线中的位置,通过使用τi的对应时间延迟单元,τi表示位置。因此,如果如下面等式(34)中定义的那样,模板滤波功能由τi表示,那麽模板变的更简单。 τ i - τ d = γ m , d 2 f m , - - - - - ( 34 )
其中,通过等式(14),τd与θd相关。对于特定的τd,正确的γm,d的范围由等式(35)给出
-(ITDmax/2+τd)fm≤γm,d≤ITDmax/2-τd)fm,γm,d是一个整数。
                                                                                        (35)
改变τd仅仅使得一致模板(或模板)沿τi轴移动,而不改变其形状。等式(34)和(35)表征的方法可以用来代替感兴趣的每个方位角位置的分离模板;然而由于延迟单元τi的缩放沿双路延迟线是统一的,双路延迟线完成的方位角划分并不是统一的,而是越接近中点平面的区域具有较高的方位角分辨率。另一方面,为了获得方位角中的相等分辨率,利用统一τi将比利用统一θi需要更大的延迟单元I。
图16的信号流图说明了定位操作器460的选定细节。在均衡因子αi(m)被设置为单位值情况下,延迟级344的延迟信号对被送给一致检测操作器462来为每个频率索引m确定一致点。检测操作器462根据等式(22)或(26)确定最小值。对于给定的m,每个一致检测操作器462将结果in(m)发送给对应的模板产生器464。对于每个索引为m的频率,产生器464创建了一个两维一致图,并将结果值送给对应的加法操作器466以便为该给定频率执行等式(28)表示的操作。加法操作器466近似了在时间上的积分。在图16中,只有对应于m=1到m=M的操作器462,464和466被举例以保证清晰度,其中对应于m=2到m=M-1的操作器由省略点表示。
加法操作器466将结果传送给加法操作器468以近似对频率的积分。如果高频处的产生于第二关系的人工迹象不存在或可以被忽略,那麽操作器468可以根据等式(30)配置。此外,具有包括第二关系的预测一致模板的模板滤波可以通过施加具有加法操作器468的等式(33)执行。
再次参考图15,操作器468将HNd)输出给输出设备490以映射对应的声学源位置信息。设备490最好包括一个显示器或打印机,它们能够给出表示声源空间安排的图,其中的声源与预定的方位角位置相关。此外,可以在声源位置移动时,对其进行动态定位和跟踪。可以根据在每个样本窗n计算出的定位δ(i-in(m))组估计出移动轨迹。对于其它的将系统410引入较小的便携单元的实施方案,例如助听设备,最好不包括输出设备490。在其它实施方案中,可以不包括输出设备90。
定位操作器460的定位技术特别适合于定位多于两个具有可比声压大小和频率范围的声源,并且不需要指定轴上的期望声源。这样,系统410的定位技术能够独立定位并映射多于两个声源,这两个声源与参考传感器22,24定义的一些位置相关。然而,在其它实施方案中,定位操作器460的定位能力也可以结合所表示的参考源被用来执行提取和噪声抑制。实际上,示例实施方案的提取操作器如下面详细描述的那样引入这种特征。
基于两个传感器检测方案的现存系统通常仅仅尝试通过波束形成而抑制属于最主要干扰源的噪声。不幸的是,当在很近位置上存在一些可比干扰源时,该方法取值有限。
已经发现,通过在定位之后,抑制多个干扰源中一个或多个不同频率分量,有可能降低复杂声学环境中来自噪声源的干扰,如多个说话者的情况,而不管说话者之间的暂存频率叠加。尽管对于给定的时间帧可以抑制干扰源中一个的给定频率分量或分量组,与简单的仅仅将所有频率上最强声源置零相比,在所定位干扰声源中对每个频率抑制的动态分配通常导致期望信号更好的清晰度。
通过利用来自定位操作器460的定位信息来识别对应于I=s之外的位置的Q个干扰声源,提取操作器480给出该方法的一个实现。Q噪声源的位置由I=noise1,noise2,…,noiseQ表示。注意到,操作器480如结合系统310所描述的那样接收信号操作器350的输出,对于每个频率m,它们表示对应的信号Xn (i=noise1)(m),Xn (i=noise2)(m),…,Xn (i=noiseQ)(m)。这些信号包括频率m上的期望信号分量以及被消除的声源之外的分量。出于提取和抑制的目的,一旦定位发生,均衡因子αi(m)不必被设置为单位值。为了确定特定噪声源中要抑制的频率分量或分量组,Xn (i=noise1)(m),Xn (i=noise2)(m),…,Xn (i=noiseQ)(m)的幅度被计算并比较。作为输出S′n(m)的最小Xn (inoise)(m)由下式(36)定义: S n ( m ) = X n ( inoise ) ( m ) , - - - - - ( 36 ) 其中Xn (inoise)(m)满足等式(37)表示的条件,如下所示: | X n ( inoise ) ( m ) | = min { | X n ( i = noise 1 ) ( m ) | , | X n ( i = noise 2 ) ( m ) | , … , | X n ( i = noiseQ ) ( m ) | , | α s ( m ) X Ln ( s ) ( m ) | } ; (37)
对于每个m值。应该注意到,在等式(37)中,包括了原始信号αs(m)XLn (S)(m)。所产生的波束模板可以常常放大其它较弱的噪声源。当噪声放大量大于最强噪声源的消除量时,可以在操作器中包括进一步的条件以防止对于该时刻的频率改变输出信号。
处理器30,330,430包括一个或多个以软件,硬件或本领域技术人员已知的技术来实现的对应算法,阶,操作器,转换器,产生器,阵列,过程,处理和技术,它们由各个等式和信号流图描述。如本领域技术人员碰到的那样,处理器30,330,430可以是任意类型的。然而,最好的是,处理器30,330,430是基于固态,集成数字信号处理器的,它们由专用硬件实现,以便以最小的其它分量来执行必要的操作。
系统310,410的大小可以根据既结合参考图4A描述的那种助听设备应用而调整。在另一个助听实施方案中,传感器应用22,24被缩放并整形以适用于听者的耳廓。处理器算法被调整以考虑头和躯干造成的阴影。这种调节可以通过获得与头相关的传递函数来给出,其中的传递函数是针对听者的,或者如本领域技术人员已知的那样通过平均得到的。该函数被用来为双路延迟级输出信号提供适当的加权以补偿遮蔽。
在另一个实施方案中,系统310,410被调整适用于结合图4B所描述的那种类型的声音识别系统。在另一个实施方案中,系统310,410可以应用于声源映射应用中,或者如本领域技术人员已知的那样应用于其它应用中。
考虑到如本领域技术人员已知的那样在不偏离本发明思想的情况下,各种信号流操作器,转换器,功能块,产生器,单元,处理级,处理和技术可以被更改,重新安排,替换,删除,复制,组合或相加。在另一个实施方案中,根据本发明的信号处理系统包括一个第一传感器,该传感器被配置用来给出对应于声学激励的第一信号;该激励包括来自第一声源的第一声学信号和来自与第一声源位置不同的第二声源的第二声学信号。该系统还包括一个第二传感器,该传感器位置不同于第一传感器,该传感器被配置来给出对应于激励的第二信号。该系统还包括一个处理器,该处理器可以对应于第一和第二传感器信号以第一声学信号的谱表示来产生期望的信号。该装置包括具有一些给出延迟第一信号的第一抽头和具有一些给出延迟第二信号的第二抽头的第一延迟线和第二延迟线。该系统还包括输出装置用于产生表示期望信号的传感器输出表示。在另一个实施方案中,一种信号处理方法包括在第一位置检测第一声学激励以给出对应的第一信号并且在第二位置检测声学激励以给出对应的第二信号。该激励信号是来自第一声源的期望声学信号和来自第二声源的干扰声学信号的组合,其中第二声源与第一声源位置不同。该方法还包括按照第一和第二信号的函数从空间相对于第一声源来定位第二声源,并在该定位执行过程中产生表示期望声学信号的特征信号。
实验部分
下面的实验结果仅仅作为示例被提供以增强对本发明的理解,而不能被构造成对本发明思想的限制。
示例
一台sun aparc-20工作站被编程以仿真本发明的信号提取过程。扬声器(L1)被用来发射语音信号,另一个扬声器(L2)被用来在半消声室中发射噪声信号。两个传统类型的麦克风被定位在室中,并与工作站相连。这些麦克风之间的举例大约为15厘米,并且与L1大约3英尺。L1与麦克风之间的中点对齐以定义零方位角。L2被定位在相对于L1不同的、近似与L1和L2的中点相等的方位角上。
参考图5,给出了大约2秒的清晰的语音句子,该句子从L1发出,并且没有来自L2的干扰。图6给出了来自L1和L2的组合信号,该组合信号包括来自L2的噪声,该噪声信号与图5中给出的语音信号组合。噪声和语音信号基本上具有相等的强度(0dB),并且L2相对于L1位于大约60度的方位角上。图7给出了从图6的组合信号中恢复出来的信号,该信号基本上与图5的信号一样。
图8给出另一个组合信号,其中噪声信号比图5的期望信号强30dB。此外,L2与L1的位置仅仅差2度方位角。图9给出了从图8的组合信号恢复的信号,并给出图5信号的清晰表示,而不管来自L2和附近位置的更大的噪声强度。
示例2
对应于系统410的实验是在两个组的情况下进行的,其中每个组中有四个说话者(2个男性,两个女性)。每个组合会进行5个不同的测试,每个测试中声源的空间配置不同。四个说话者根据图14的声源412,414,416和418进行安排,在每个测试中角度412a,414a,416a,418a具有不同的值。图14的示例最接近地对应于角度418a=-75度,412a=0度,414a=+20度,416a=+75度的第一测试。图18的一致模板612,614,616,618也对应于-75度,0度,+20度,和+75度的方位角位置。
这些测试的实验设置是:为传感器22,24使用了两个麦克风,麦克风的间距为144mm。两个麦克风之间不存在衍射和遮蔽,并且对于这些测试,麦克风间的强度差值被设置为0。这些信号在6kHz下被低通滤波,并以12.8KHz采样,16比特量化。一台基于wintel的计算机被编程以接收量化信号用于根据本发明的处理,并输出此后描述的测试结果。在短时谱分析中,20毫秒的信号段被汉宁窗加权,然后被填充0以达到2048点以用于DFT,因此频率分辨率大约为6Hz。时间延迟单元τi的值(i=1,…,I)被确定使得双路延迟线的方位角分辨率为统一的0.5度,即I=361。测试中使用的双路延迟线是方位角统一的。一致检测方法是基于最小幅度差值的。
5个测试中的每一个都包括4个子测试,其中不同的说话者被选做理想声源。为了在最困难的测试约束下测试系统性能,语音素材(4个等强度扬扬格字)被故意临时对齐。语音素材出现在自由场。说话者的定位是利用等式(30)和等式(33)一起进行的。
系统性能是利用目标清晰度加权测量来评估的,如在Poterson,P.M,“Adaptive Array Processing for multiple microphonehearing aids(多传声器助听器的自适应阵列处理),”博士论文,Dept.Elect.Eng and Comp Sci,MIT;Res Lab.Elect Tech Rept.541,MIT,Cambridge,MA(1989)中推荐并在Liu,C.和Sideman,S.,“Simulation of fixed microphone arrays for directionalhearing aids(定向助听器的固定传声器阵列的模拟)”,J.Acoust.Soc.Am,100,848-856(1996)中详细描述的。具体的,清晰度加权信号消除,清晰度加权噪声消除以及净清晰度加权增益被使用。
实验结果在图19-22的表1,2,3和4中给出,通过使用等式(30),图19的表1中描述的5个测试近似了频率上的积分;并包括两个男性说话者M1,M2和两个女性说话者F1,F2。图20的表2中描述的5个测试与表1一样,除了对频率的积分是由等式(33)近似的。图21的表3中描述的5个测试利用等式(30)近似在频率上的积分;并包括两个不同的男性说话者M3,M4和两个不同的女性说话者F3,F4。图22的表4中描述的5个测试与表3中一样,除了对频率的积分由等式(33)近似之外。
对于每个测试,数据被放置在矩阵中,矩阵中对角线上的数字表示期望噪声源的以dB表示的噪声消除程度(理想为0dB),其它的数字表示每个噪声源的噪声消除度。倒数第二列表示所有噪声源加在一起的消除程度,而最后一列给出了(既考虑了噪声消除又考虑了期望信号的损耗)净清晰度加权改进。
这些结果通常给出范围为3-11dB的清晰度加权侧量值中的消除,而期望声源的衰减通常小于0.1dB。总的噪声消除在8-12dB的范围内。各个表的比较表明在测试中很少依赖于说话者或语音素材。类似的结果可以从6个说话者实验中得到。一般地,当存在产生于6个不同扬声器的6个大小相等,临时对齐的语音声音时,清晰度加权信噪比中7-10dB的增强会产生。
当每个出版物或专利申请被分别或特地指明作为参考引用时,该细则中举例的所有出版物和专利申请在这里作为参考引用,包括但不局限于美国专利申请号08/666,757发布于1996.6.19以及发布于1998.11.16的美国专利申请号08/193,158。此外,这里陈述的任何理论,操作机制,证据,或发现意味着进一步增强对本发明的理解,而不是试图使下面权利要求定义的本发明或本发明范围以任何方式依赖于这种理论,操作机制,证据或发现。尽管本发明已经在附图和前面的描述中举例并描述,同样的,它们也仅仅被认为是示例,而不是限制,要理解的是,只有选出的实施方案已经给出并描述,并且所有在下面权利要求定义的本发明思想范围内的改变,修正和等价物都是被保护的。

Claims (45)

1.一种方法,包括
从第一声学传感器给出第一信号,从第二声学传感器给出第二信号,这第一和第二传感器处于不同位置,第一信号和第二信号每一个对应于两个或多个声源,所述声源包括多个干扰源和一个期望声源,
根据第一和第二信号定位干扰源以给出对应数量的干扰源信号,每个干扰源信号对应于一个不同的干扰源,并且每个干扰源信号包括多个频率分量,这些分量每一个对应于不同的频率;以及
抑制每个干扰源信号中每一个的一个或多个不同频率分量来降低噪声。
2.权利要求1的方法,其中所述抑制包括提取表示期望声源的期望信号。
3.权利要求2的方法,其中所述提取包括按照干扰信号的函数确定一个最小值。
4.权利要求1-3中任何一个的方法,其中所述定位包括以一些一致模板来滤波,每个模板对应于一些预定的相对于第一和第二传感器的空间位置之一,每个模板给出一个虚位置信息,该虚位置信息相对于所述预定的空间位置之一随频率变化。
5.权利要求1的方法,还包括对一组频率中的每个频率以不同的双路延迟线对第一和第二信号延迟以给出对应数量的延迟信号以执行所述的定位。
6.权利要求5的方法,还包括在所述定位之后处理延迟信号以执行所述抑制。
7.权利要求6的方法,还包括:
在所述延迟之前,将第一和第二信号从时域形式转换成以所述频率表征的频域形式。
提取表示期望声源的期望信号,所述提取包括所述抑制;
将期望信号从频域形式转换到时域形式,
根据期望信号的时域形式产生期望声源的声学输出表示。
8.权利要求5的方法,其中每个干扰信号是按照唯一的延迟信号对幅度间的差值与按照延迟量的函数确定的差值之间的比例来根据所述延迟信号对来确定的,其中的延迟量与唯一延迟信号对中的每一个成分相关。
9一种系统,包括:
一对分离的声学传感器,每一个传感器被安排来检测两个或多个不同定位的声源,并对应产生输入信号对,所述声源包括期望声源和多个干扰源;
对应于所述输入信号产生一些延迟信号的延迟操作器,
对应于所述延迟信号相对于所述传感器的位置来定位所述干扰源的定位操作器,该操作器还给出多个干扰源信号,每个信号表示对应的一个所述干扰源,所述干扰源信号各自由多个频率分量表示,所述分量分别对应于不同频率,
对应于所述干扰源信号来抑制每个所述干扰源信号的所述频率分量至少之一的提取操作器,该操作器还提取对应于所述期望声源的期望信号,所述至少一个所述频率分量对于每个所述干扰源信号是不同的,
对应于所述期望信号给出对应于所述期望声源的输出的输出设备。
10.权利要求9的系统,其中所述定位操作器包括一个滤波器来相对于一些位置定位所述干扰源,所述滤波器基于模糊位置信息的不同一致模板,其中的模糊位置信息对于每个所述位置随频率变化。
11.权利要求9的系统,还包括:
对应于所述输入信号将每个所述输入信号从模拟形式转换成数字形式的模数转换器;
对应于所述输入信号的所述数字形式将所述输入信号从时域形式转换成以多个离散频率表示的频域形式的第一转换级,对于每个所述频率,所述延迟操作器包括一个双路延迟线,
对应于所述期望信号将所述期望信号从数字频率形式转换成数字时域形式的第二转换级,
对应于所述数字时域形式,将所述期望信号转换成所述输出设备的模拟输出形式的数摸转换器。
12.权利要求9-11中任何一个的系统,其中所述延迟操作器,所述定位操作器,所述提取操作器由固态信号处理设备提供。
13.权利要求9-11中任何一个的系统,其中所述期望声源信号是按照所述干扰信号的函数确定。
14.权利要求9-11中任何一个的系统,其中所述干扰源信号是根据唯一的所述延迟信号对确定的。
15.权利要求14的系统,其中所述干扰信号对应于所述延迟信号对幅度差值与按照延迟量的函数确定的差值之间的比例,其中的延迟量与所述延迟信号对的每个分量相关。
16.权利要求9-11中任何一个的系统,其中所述输出设备被配置来给出表示所述期望声源的声学输出。
17.一种方法,包括:
放置第一声学传感器和第二声学传感器以检测多个不同定位的声源;
以所述第一传感器产生对应于第一声源的第一信号,以所述第二传感器产生对应于第二声源的第二信号;
根据第一和第二信号给出一些延迟后的信号对,延迟信号对每一个对应于相对第一和第二传感器中的一些位置之一;
按照延迟信号对和一些一致模板的函数来定位声源,每个模板对应于其中一个位置,建立期望的声源位置信息随可归于在所述位置之一处的源的频率的期望变化。
18.权利要求17的方法,其中一致模板对应于一些关系,这些关系表征了伪声源位置随频率的变化,这些关系对应于不同的模糊相位。
19.权利要求18的方法,还包括为每个一致模板按照第一和第二传感器间距的函数来确定所述关系。
20.权利要求18的方法,其中的关系对应于第二包络,该包络相对于主要包络而弯曲,主包络表示根据对应于其中一个位置的延迟信号对确定的频率不变声源位置信息。
21.权利要求17到20中任何一个的方法,其中所述定位包括以一致模板滤波以便以伪位置信息来增强真实的位置信息。
22.权利要求21的方法,其中所述定位包括在时间上积分和在频率上积分。
23.权利要求17到20中任何一个的方法,其中第一传感器和第二传感器是助听设备中的一部分,并包括以与头相关的传递函数来调整延迟信号对。
24.权利要求17到20中任何一个的方法,主要包括:
在所述定位之后提取期望的信号;
对于选出数量声源的每个,抑制不同的频率分量组以降低噪声;
25.权利要求17到20中任何一个的方法,其中每个位置对应于相对于第一和第二传感器建立的方位角,还包括产生表示每个声源相对位置的映射图。
26.一种系统,包括:
一对分离的声学传感器,每个都被配置来产生输入信号对中的对应一个信号,这些信号表示一些不同定位的声源;
对应于所述输入信号来产生一些延迟信号的延迟操作器,其中的每个所述延迟信号对应于相对所述传感器的一些位置之一,
对应于所述延迟信号来根据所述延迟信号和一些一致模板确定一些声源定位信号的定位操作器,每个所述模板对应于其中一个所述位置以及相关的频率变化声源位置信息,该信息是由模糊相位乘以所述一个位置来提高声源定位而造成的。
27.权利要求26的系统,还包括:
对应于所述输入信号将每个所述输入信号从模拟形式转换成数字形式的模数转换器;
对应于所述输入信号的所述数字形式将所述输入信号从时域形式转换成以多个离散频率表示的频域形式的第一转换级,对于每个所述频率,所述延迟操作器包括一个双路延迟线。
28.权利要求27的系统,还包括:
根据所述定位信号提取期望信号的提取操作器;
对应于所述期望信号将所述期望信号从数字频率形式转换成数字时域形式的第二转换级;
对应于所述数字时域形式,将所述期望信号转换成所述输出设备的模拟输出形式的数摸转换器。
29.根据权利要求26-28中任何一个的系统,其中所述输出设备被配置以给出声源定位图。
30.权利要求26-28中任何一个的系统,其中所述延迟操作器,所述定位操作器,所述提取操作器由集成固态信号处理器提供。
31.权利要求26-28中任何一个的系统,其中所述定位操作器根据所述延迟信号为所述声源中的一个确定最接近的一个所述位置,其方式是按照对应于所述最接近位置的至少一个所述延迟信号和对应于其它位置的至少两个其它所述延迟信号的函数来确定,所述至少两个其它所述延迟信号是根据一个对应的所述一致性模板确定的。
32.一种系统包括:
一对分离的声学传感器,每个都被配置来产生输入信号对的对应一个信号,这些信号表示一些不同定位的声源;
相应所述传感器的信号处理器,所述处理器包括:(a)根据所述输入信号来产生一些延迟信号的装置,其中的每个延迟信号对应于相对所述第一和第二传感器的一些位置之一;(b)按照所述延迟信号和其中一个对应模板将每个所述声源定位到其中一个所述位置的装置,所述模板为对应于其中一个所述位置的频率不变数据以及对应于至少另外两个位置的频率相关数据的模板;(c)用于抑制所述造成干扰的声源中选出部分中每一个的不同频率分量并提取表示其中一个所述声源的期望信号的装置;
对应于所述期望信号给出对应于其中一个所述声源的输出的输出设备。
33.权利要求32的系统,其中所述处理器包括以与头相关传递函数来调节所述延迟信号的装置。
34.一种信号处理系统,包括:
(a)位于第一位置被配置来给出对应于声学信号的第一信号的第一传感器,所述声学信号包括从选定声源发出的期望信号和从噪声源发出的噪声;
(b)位于第二位置被配置来给出对应于声学信号的第二信号的第二传感器;
(c)一个信号处理器,对应于所述第一和第二信号从而产生对应于所述第一信号的离散第一谱信号和对应于所述第二信号的离散第二谱信号,所述处理器被配置来以一些时间间断来延迟所述第一和第二谱信号以产生一些延迟的第一谱信号和第二谱信号,并给出时间增加信号,所述时间增加信号对应于选定声源与噪声源的分离,所述处理器被进一步配置来按照所述时间增加信号的函数产生输出信号;
(d)对应于所述输出信号给出表示所述期望信号的输出的输出设备。
35.权利要求34的系统,其中所述第一和第二传感器每个都包括一个麦克风,所述输出设备包括一个音频扬声器。
36.权利要求34的系统,其中所述处理器包括一个模数转换电路被配置来给出所述离散第一谱信号。
37.权利要求34的系统,其中所述第一和第二谱信号的产生包括离散傅里叶变换算法的执行。
38.权利要求34的系统,其中所述第一和第二传感器被配置来移动以根据所述第一和第二传感器的位置选出所述期望信号,所述第一和第二传感器被配置在空间位置上相对固定。
39.权利要求34-38中任何一个的系统,其中所述每个第一信号对应于来自第一延迟线的其中一个第一抽头,所述每个第二信号对应于来自第二延迟线的其中一个第二抽头。
40.权利要求39的系统,其中所述输出信号的确定对应于:
所述第一和第二延迟线被配置成双路延迟线;
所述离散第一谱信号被输入到所述第一延迟线,所述离散第二谱信号被输入到所述第二延迟线;
每个所述第一抽头,第二抽头,第一和第二谱信号被安排为一些信号对,所述信号对包括信号对的第一部分和信号对的第二部分,所述处理器被配置按照所述时间间断的函数对所述第一部分的每个所述信号对执行第一操作,所述处理器被配置按照所述时间间断的函数对所述第二部分的每个所述信号对执行第二操作,所述第一操作不同于所述第二操作。
41.一种信号处理方法,包括:
(a)相对于第一信号源定位第一和第二传感器,第一和第二传感器互相分离,第二信号源与第一信号源互相分离;
(b)从第一传感器提供第一信号,从第二传感器提供第二信号,第一和第二信号每一个都代表组合声学信号,该组合声学信号包括来自第一信号源的期望信号和来自第二信号源的不期望信号;
(c)根据第一和第二信号,按照一些频率的函数来建立一些谱信号,每个谱信号表示相对于第一信号源的不同位置;
(d)确定一些表示第二信号源位置的谱信号成员;
(e)根据所述成员产生输出信号,输出信号表示第一信号的谱值。
42.权利要求41的方法,其中的成员是按照相位差值的函数确定的。
43.权利要求41的方法,其中的期望信号包括语音,输出信号由助听设备给出。
44.权利要求41-43中任何一个的方法,还包括重新定位第一和第二传感器以便从第三信号源提取第三信号。
45.权利要求41-43中任何一个的方法,其中所述建立包括:
(a1)将第一和第二信号延迟一些时间间断以产生一些延迟的第一信号和第二信号;
(a2)将每个第一延迟信号与延迟第二信号比较,每个谱信号是延迟第一信号和延迟第二信号中至少一个的函数。
CN99815559.4A 1998-11-16 1999-11-16 双路立体声信号处理技术 Pending CN1333994A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/193,058 1998-11-16
US09/193,058 US6987856B1 (en) 1996-06-19 1998-11-16 Binaural signal processing techniques

Publications (1)

Publication Number Publication Date
CN1333994A true CN1333994A (zh) 2002-01-30

Family

ID=22712122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99815559.4A Pending CN1333994A (zh) 1998-11-16 1999-11-16 双路立体声信号处理技术

Country Status (9)

Country Link
EP (1) EP1133899B1 (zh)
JP (1) JP3745227B2 (zh)
CN (1) CN1333994A (zh)
AT (1) ATE404028T1 (zh)
AU (1) AU748113B2 (zh)
CA (1) CA2348894C (zh)
DE (1) DE69939272D1 (zh)
DK (1) DK1133899T3 (zh)
WO (1) WO2000030404A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147192B (zh) * 2005-02-23 2010-06-16 霍尼韦尔国际公司 用于音频通知系统的清晰度测量的方法与装置
CN101236250B (zh) * 2007-01-30 2011-06-22 富士通株式会社 声音判定方法和声音判定装置
CN102165795A (zh) * 2008-09-25 2011-08-24 阿尔卡特朗讯美国公司 自动转向的方向性助听器及其操作方法
CN101512374B (zh) * 2006-11-09 2012-04-11 松下电器产业株式会社 声源位置检测装置
CN102640517A (zh) * 2009-10-28 2012-08-15 阿尔卡特朗讯 自操控有向扬声装置及其操作方法
CN102687535A (zh) * 2009-11-12 2012-09-19 无线电技术研究学院有限公司 用于混合利用多个麦克风录音的麦克风信号的方法
CN102771144A (zh) * 2010-02-19 2012-11-07 西门子医疗器械公司 用于方向相关空间噪声减低的设备和方法
CN102067210B (zh) * 2008-05-09 2013-05-15 诺基亚公司 用于对音频信号进行编码和解码的设备和方法
CN103680506A (zh) * 2012-09-13 2014-03-26 Nxp股份有限公司 数字音频处理系统和方法
CN105307095A (zh) * 2015-09-15 2016-02-03 中国电子科技集团公司第四十一研究所 一种基于fft的高分辨率音频频率测量方法
CN108727363A (zh) * 2017-04-19 2018-11-02 上海炯烁医药科技有限公司 一种新型细胞周期蛋白依赖性激酶cdk9抑制剂
CN109493877A (zh) * 2017-09-12 2019-03-19 清华大学 一种助听装置的语音增强方法和装置
WO2020147642A1 (zh) * 2019-01-15 2020-07-23 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
CN112424863A (zh) * 2017-12-07 2021-02-26 Hed科技有限责任公司 语音感知音频系统及方法
CN114624652A (zh) * 2022-03-16 2022-06-14 浙江浙能技术研究院有限公司 一种强多径干扰条件下的声源定位方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7206423B1 (en) 2000-05-10 2007-04-17 Board Of Trustees Of University Of Illinois Intrabody communication for a hearing aid
ITMI20020566A1 (it) * 2002-03-18 2003-09-18 Daniele Ramenzoni Dispositivo per captare movimenti anche piccoli nell'aria e nei fluidi adatto per applicazioni cibernetiche e di laboratorio come trasduttor
JP4580210B2 (ja) 2004-10-19 2010-11-10 ソニー株式会社 音声信号処理装置および音声信号処理方法
AU2009311276B2 (en) * 2008-11-05 2013-01-10 Noopl, Inc A system and method for producing a directional output signal
CN102111697B (zh) 2009-12-28 2015-03-25 歌尔声学股份有限公司 一种麦克风阵列降噪控制方法及装置
JP6107151B2 (ja) 2013-01-15 2017-04-05 富士通株式会社 雑音抑圧装置、方法、及びプログラム
CN117031397B (zh) * 2023-10-07 2023-12-12 成都流体动力创新中心 一种运动物体噪声源定位和评估的快速计算方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6223300A (ja) * 1985-07-23 1987-01-31 Victor Co Of Japan Ltd 指向性マイクロホン装置
US5029216A (en) * 1989-06-09 1991-07-02 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Visual aid for the hearing impaired
US5400409A (en) * 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US5473701A (en) * 1993-11-05 1995-12-05 At&T Corp. Adaptive microphone array
US6130949A (en) * 1996-09-18 2000-10-10 Nippon Telegraph And Telephone Corporation Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor
CN1260087A (zh) * 1997-04-14 2000-07-12 拉马信号处理有限公司 双重处理干扰消除系统和方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147192B (zh) * 2005-02-23 2010-06-16 霍尼韦尔国际公司 用于音频通知系统的清晰度测量的方法与装置
CN101512374B (zh) * 2006-11-09 2012-04-11 松下电器产业株式会社 声源位置检测装置
CN101236250B (zh) * 2007-01-30 2011-06-22 富士通株式会社 声音判定方法和声音判定装置
CN102067210B (zh) * 2008-05-09 2013-05-15 诺基亚公司 用于对音频信号进行编码和解码的设备和方法
CN102165795A (zh) * 2008-09-25 2011-08-24 阿尔卡特朗讯美国公司 自动转向的方向性助听器及其操作方法
CN102640517A (zh) * 2009-10-28 2012-08-15 阿尔卡特朗讯 自操控有向扬声装置及其操作方法
CN102640517B (zh) * 2009-10-28 2016-06-29 阿尔卡特朗讯 有向声音系统、传输声音至空间位置方法及有向通信系统
US9049531B2 (en) 2009-11-12 2015-06-02 Institut Fur Rundfunktechnik Gmbh Method for dubbing microphone signals of a sound recording having a plurality of microphones
CN102687535A (zh) * 2009-11-12 2012-09-19 无线电技术研究学院有限公司 用于混合利用多个麦克风录音的麦克风信号的方法
CN102687535B (zh) * 2009-11-12 2015-09-23 无线电技术研究学院有限公司 用于混合利用多个麦克风录音的麦克风信号的方法
CN102771144A (zh) * 2010-02-19 2012-11-07 西门子医疗器械公司 用于方向相关空间噪声减低的设备和方法
CN102771144B (zh) * 2010-02-19 2015-03-25 西门子医疗器械公司 用于方向相关空间噪声减低的设备和方法
US9113247B2 (en) 2010-02-19 2015-08-18 Sivantos Pte. Ltd. Device and method for direction dependent spatial noise reduction
CN103680506B (zh) * 2012-09-13 2016-05-04 Nxp股份有限公司 数字音频处理系统和方法
CN103680506A (zh) * 2012-09-13 2014-03-26 Nxp股份有限公司 数字音频处理系统和方法
CN105307095B (zh) * 2015-09-15 2019-09-10 中国电子科技集团公司第四十一研究所 一种基于fft的高分辨率音频频率测量方法
CN105307095A (zh) * 2015-09-15 2016-02-03 中国电子科技集团公司第四十一研究所 一种基于fft的高分辨率音频频率测量方法
CN108727363A (zh) * 2017-04-19 2018-11-02 上海炯烁医药科技有限公司 一种新型细胞周期蛋白依赖性激酶cdk9抑制剂
CN109493877A (zh) * 2017-09-12 2019-03-19 清华大学 一种助听装置的语音增强方法和装置
CN109493877B (zh) * 2017-09-12 2022-01-28 清华大学 一种助听装置的语音增强方法和装置
CN112424863A (zh) * 2017-12-07 2021-02-26 Hed科技有限责任公司 语音感知音频系统及方法
CN112424863B (zh) * 2017-12-07 2024-04-09 Hed科技有限责任公司 语音感知音频系统及方法
WO2020147642A1 (zh) * 2019-01-15 2020-07-23 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、计算机可读介质及电子设备
US11817112B2 (en) 2019-01-15 2023-11-14 Beijing Horizon Robotics Technology Research And Development Co., Ltd. Method, device, computer readable storage medium and electronic apparatus for speech signal processing
CN114624652A (zh) * 2022-03-16 2022-06-14 浙江浙能技术研究院有限公司 一种强多径干扰条件下的声源定位方法
CN114624652B (zh) * 2022-03-16 2022-09-30 浙江浙能技术研究院有限公司 一种强多径干扰条件下的声源定位方法

Also Published As

Publication number Publication date
DE69939272D1 (de) 2008-09-18
CA2348894C (en) 2007-09-25
WO2000030404A1 (en) 2000-05-25
EP1133899B1 (en) 2008-08-06
DK1133899T3 (da) 2009-01-12
EP1133899A1 (en) 2001-09-19
AU748113B2 (en) 2002-05-30
AU1624000A (en) 2000-06-05
ATE404028T1 (de) 2008-08-15
EP1133899A4 (en) 2003-09-03
JP2002530966A (ja) 2002-09-17
JP3745227B2 (ja) 2006-02-15
CA2348894A1 (en) 2000-05-22

Similar Documents

Publication Publication Date Title
CN1333994A (zh) 双路立体声信号处理技术
CN105489227B (zh) 包括低延时声源分离单元的听力装置
EP3588981B1 (en) A hearing device comprising an acoustic event detector
Van den Bogaert et al. Speech enhancement with multichannel Wiener filter techniques in multimicrophone binaural hearing aids
US9113247B2 (en) Device and method for direction dependent spatial noise reduction
CN109660928B (zh) 包括用于影响处理算法的语音可懂度估计器的听力装置
EP3203473B1 (en) A monaural speech intelligibility predictor unit, a hearing aid and a binaural hearing system
US10587962B2 (en) Hearing aid comprising a directional microphone system
CN1440628A (zh) 干扰抑制技术
CN107371111B (zh) 用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统
CN107147981B (zh) 单耳侵入语音可懂度预测单元、助听器及双耳助听器系统
CN105407440A (zh) 包括定向系统的听力装置
CN1832633A (zh) 一种声源定位方法
CN102316404B (zh) 用于定位音频源的方法以及多通道的听力系统
CN110169083A (zh) 麦克风阵列波束形成
Barfuss et al. HRTF-based robust least-squares frequency-invariant beamforming
CN113038322B (zh) 一种以听觉增强环境感知的方法与装置
EP3833043B1 (en) A hearing system comprising a personalized beamformer
CN109743659A (zh) 一种语音传声器阵列及其控制方法
DK3148217T3 (en) Method of using a binaural hearing system
Zhang et al. Binaural Reverberant Speech Separation Based on Deep Neural Networks.
Levin et al. Near-Field Superdirectivity: An Analytical Perspective
EP3794844B1 (en) Adaptive binaural beamforming with preservation of spatial cues in hearing assistance devices
KR101089108B1 (ko) 음향 재생 장치
KR101207274B1 (ko) 음향 재생 장치

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
PB01 Publication
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication