CN102197424B - 用于一致性检测的系统、方法和设备 - Google Patents

用于一致性检测的系统、方法和设备 Download PDF

Info

Publication number
CN102197424B
CN102197424B CN2009801423034A CN200980142303A CN102197424B CN 102197424 B CN102197424 B CN 102197424B CN 2009801423034 A CN2009801423034 A CN 2009801423034A CN 200980142303 A CN200980142303 A CN 200980142303A CN 102197424 B CN102197424 B CN 102197424B
Authority
CN
China
Prior art keywords
consistency metric
value
channel
task
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009801423034A
Other languages
English (en)
Other versions
CN102197424A (zh
Inventor
埃里克·维瑟
伊恩·埃尔纳恩·刘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority to CN201310233520.2A priority Critical patent/CN103295579B/zh
Publication of CN102197424A publication Critical patent/CN102197424A/zh
Application granted granted Critical
Publication of CN102197424B publication Critical patent/CN102197424B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/86Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves with means for eliminating undesired waves, e.g. disturbing noises
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

基于多信道信号的不同信道的对应频率分量之间的相位差,计算方向一致性的度量。还揭示将此度量应用于话音活动检测和噪声减少。

Description

用于一致性检测的系统、方法和设备
根据35U.S.C.§119主张优先权
本专利申请案主张2008年10月24日申请并转让给本受让人的标题为“用于基于多mic相位相关性的遮蔽方案的动机(Motivation for multi mic phase correlation based masking scheme)”的第61/108,447号美国临时专利申请案的优先权。本专利申请案还主张2009年6月9日申请并转让给本受让人的标题为“用于一致性检测的系统、方法、设备和计算机可读媒体(Systems,methods,apparatus,and computer-readable media for coherence detection)”的第61/185,518号美国临时专利申请案的优先权。本专利申请案还主张2009年9月8日申请并转让给本受让人的标题为“用于一致性检测的系统、方法、设备和计算机可读媒体(Systems,methods,apparatus,and computer-readable media for coherence detection)”的第61/240,318号美国临时专利申请案的优先权。 
技术领域
本发明涉及信号处理。 
背景技术
先前在安静的办公室或家庭环境中做的许多活动如今正在声学上可变的情况(如,汽车、街道或咖啡馆)中做。举例来说,一人可能期望使用话音通信信道与另一人进行通信。举例来说,所述信道可由移动无线手持机或耳机、对讲机、双向无线电、车载套件或另一通信装置提供。因此,使用移动装置(例如,智能电话、手持机和/或耳机)在用户由其他人包围、具有通常在人们倾向于聚集的情况中遭遇的类型的噪声内容的环境中发生大量话音通信。此噪声倾向于使电话通话的远端处的用户分心或烦恼。此外,许多标准自动化商业交易(例如,账户结余或股票报价核查)使用基于话音辨识的数据查询,且这些系统的准确性可显著地被干扰噪声阻碍。 
 对于通信发生于嘈杂环境中的应用来说,可能需要将所要语音信号与背景噪声分离。可将噪声定义为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包括产生于声学环境(例如,其他人的背景通话)内的许多噪声信号以及从所要信号和/或其它信号中的任一者产生的反射和混响。如果所要语音信号未与背景噪声分离,则可能难以可靠且有效地利用所述所要语音信号。在一个特定实例中,语音信号产生于嘈杂环境中,且使用语音处理方法将语音信号与环境噪声分离。 
移动环境中遭遇的噪声可包括各种不同分量,例如,竞争性的讲话者、音乐、串音、街道噪声和/或机场噪声。因为此噪声的特性通常不稳定且接近于用户自身的频率特性,所以所述噪声可能难以使用传统单一麦克风或固定波束成形型方法来模型化。单一麦克风噪声减少技术通常需要显著的参数调谐以实现最佳性能。举例来说,在这些情况中可能不可直接获得适当的噪声参考值,且可能必需间接地导出噪声参考值。因此,可能需要基于多个麦克风的高级信号处理以支持使用移动装置用于嘈杂环境中的话音通信。 
发明内容
一种根据一般配置处理多信道信号的方法包括:针对所述多信道信号的多个不同频率分量中的每一者计算所述多信道信号的第一信道中的所述频率分量的相位与所述多信道信号的第二信道中的所述频率分量的相位之间的差。此方法还包括基于来自所述多个所计算出的相位差的信息来计算一致性度量的值,所述值指示至少所述多个不同频率分量的到达方向之间的一致性的程度。在本文中还揭示存储用于执行此方法的机器可读指令的计算机可读媒体、经配置以执行此方法的设备和含有此设备的系统。 
一种用于根据一般配置处理多信道信号的设备包括:用于针对所述多信道信号的多个不同频率分量中的每一者计算所述多信道信号的第一信道中的所述频率分量的相位与所述多信道信号的第二信道中的所述频率分量的相位之间的差的装置。此设备还包括用于基于来自所述多个所计算出的相位差的信息来计算一致性度量的值的装置,所述值指示至少所述多个不同频率分量的到达方向之间的一致性的程度。 
一种用于根据另一般配置处理多信道信号的设备包括:相位差计算器,其经配置以针对所述多信道信号的多个不同频率分量中的每一者计算所述多信道信号的第一信道中的所述频率分量的相位与所述多信道信号的第二信道中的所述频率分量的相位之间的差。此设备还包括一致性度量计算器,其经配置以基于来自所述多个所计算出的相位差的信息来计算一致性度量的值,所述值指示至少所述多个不同频率分量的到达方向之间的一致性的程度。 
附图说明
图1A展示根据一般配置的方法M100的流程图。 
图1B展示任务T100的实施方案T102的流程图。 
图1C展示任务T110的实施方案T112的流程图。 
图2A展示任务T200的实施方案T202的流程图。 
图2B展示任务T200的替代实施方案T204的流程图。 
图2C展示任务T200的替代实施方案T206的流程图。 
图3A展示说明用以估计到达方向θ的方法的几何近似法的实例。 
图3B到图3D展示遮蔽函数的三个不同轮廓的实例。 
图4展示图3A中所说明的几何近似法的另一实例。 
图5展示以相对于用户的嘴的标准定向安装于用户的耳朵处的耳机D100的图。 
图6展示耳机D100的相对于用户的嘴的标准定向的两个实例。 
图7展示手持机D300的相对于用户的嘴的标准定向的两个实例。 
图8A到图8D展示非线性遮蔽函数的四个不同轮廓的实例。 
图9展示有声语音信号的256点FFT的前128个频段的振幅的实例。 
图10展示将任务T100的(例如,任务T1122的)实施方案应用于频谱展示于图9中的信号的实例。 
图11A展示方法M100的实施方案M200的流程图。 
图11B展示任务T300的实施方案T302的流程图。 
图11C、图11D和图11E分别展示任务T310的实施方案T312、T314和T316的流程图。 
图12A和图12B分别展示任务T302的实施方案T3021和T3022的流程图。 
图13A展示任务T300的实施方案T304的流程图。 
图13B和图13C分别展示任务T304的实施方案T3041和T3042的流程图。 
图14A展示任务T300的实施方案T306的流程图。 
图14B展示任务T300的实施方案T308的流程图。 
图14C展示任务T308的实施方案T3082的流程图。 
图15A展示方法M200的实施方案M210的流程图。 
图15B展示方法M100的此实施方案M120的流程图。 
图15C展示方法M100的此实施方案M130的流程图。 
图15D展示方法M130的实施方案M140的流程图。 
图16A展示任务T316的实施方案T3164的流程图。 
图16B展示任务T400的实施方案T402的流程图。 
图16C展示任务T500的实施方案T502的流程图。 
图17A展示方法M200的实施方案M220的流程图。 
图17B展示方法M200的实施方案M230的流程图。 
图17C展示方法M230的实施方案M240的流程图。 
图18A展示根据一般配置的设备A10的方框图。 
图18B展示设备A10的实施方案A100的方框图。 
图18C展示设备A10的实施方案A20的方框图。 
图18D展示设备A20的实施方案A200的方框图。 
图18E展示设备A10的实施方案A12的方框图。 
图18F展示设备A12的实施方案A120的方框图。 
图19A展示设备A100的实施方案A1002的方框图。 
图19B展示设备A1002的实施方案A2002的方框图。 
图20A展示设备A10的实施方案A13的方框图。 
图20B展示设备A13的实施方案A130的方框图。 
图20C展示设备A10的实施方案A14的方框图。 
图20D展示设备A14的实施方案A140的方框图。 
图20E展示设备A14和设备A20的实施方案A24的方框图。 
图20F展示设备A140和设备A200的实施方案A240的方框图。 
图21展示设备A240的实施方案A2402的方框图。 
图22A展示阵列R100的实施方案R200的方框图。 
图22B展示阵列R200的实施方案R210的方框图。 
图23A展示根据一般配置的装置D10的方框图。 
图23B展示装置D10的实施方案D20的方框图。 
图24A到图24D展示多麦克风无线耳机D100的各种视图。 
图25A到图25D展示多麦克风无线耳机D200的各种视图。 
图26A展示多麦克风通信手持机D300的横截面图(沿一中心轴线)。 
图26B展示装置D300的实施方案D310的横截面图。 
图27A展示多麦克风媒体播放器D400的图。 
图27B和图27C分别展示装置D400的实施方案D410和D420的图。 
图28A展示多麦克风免提车载套件D500的图。 
图28B展示多麦克风书写装置D600的图。 
图29A和图29B分别展示装置D700的前视图和俯视图。 
图29C和图29D分别展示装置D710的前视图和俯视图。 
图30展示装置D10的多麦克风便携式音频感测实施方案D800的图。 
图31A展示方法M300的流程图。 
图31B展示任务T280的实施方案T288的流程图。 
图31C展示任务T280的实施方案T282的流程图。 
图32A展示任务T280的实施方案T284的流程图。 
图32B展示任务T280的实施方案T286的流程图。 
图32C展示阵列R100的多对实施方案的一个实例。 
图33A展示二麦克风阵列和两个源。 
图33B展示二麦克风阵列和端射导向遮蔽函数。 
图33C展示二麦克风阵列和垂射导向遮蔽函数。 
图33D展示四麦克风阵列和端射导向遮蔽函数。 
图34A展示三麦克风阵列的一般实例。 
图34B展示三麦克风阵列的应用的另一实例。 
图34C展示四麦克风阵列的应用的一实例。 
图35A展示手持机D300的实施方案D320的前视图。 
图35B展示手持机D320的侧视图。 
图35C展示手持机D300的实施方案D330的前视图。 
图35D展示手持机D330的侧视图。 
图36A展示宽容许角被划分成三个重叠扇区的应用的实例。 
图36B展示方法M100的实施方案M400的流程图。 
图37展示任务T700的此类实施方案T702的流程图。 
图38A展示任务T700的实施方案T704的流程图。 
图38B展示方法M400的实施方案M410的流程图。 
图39展示任务T720的实施方案T722的流程图。 
图40展示方法M300的实施方案M350的流程图。 
图41展示设备A100的实施方案A400的应用。 
图42展示设备A400的实施方案A420的应用。 
图43展示一对麦克风用于产生不稳定噪声参考值的实例。 
图44展示两个以上麦克风用于产生不稳定噪声参考值的实例。 
图45展示方向遮蔽函数和互补遮罩的实例。 
图46展示方法M100的实施方案M500的流程图。 
图47A展示方法M100的实施方案M600的流程图。 
图47B展示方法M600(包括任务T910)的实施方案M610的流程图。 
图48展示直方图。 
图49展示遮蔽函数的通频带是基于直方图而选择的实例。 
图50和图51展示所计算波束的一个实例的曲线的两个视图。 
图52到图54展示针对线性等距四麦克风阵列而获得的波束图案的实例集合。 
图55展示扩音器-麦克风设置。 
图56和图57展示已收敛的一个BSS解决方案的实例。 
图58和图59展示较窄的波束。 
图60展示从图58中的波束获得的另一窄化波束。 
具体实施方式
真实世界充满多个噪声源,包括单点噪声源,所述噪声源常越入到多个声音中,从而导致混响。背景声学噪声可包括由一般环境产生的许多噪声信号和由其他人的背景通话产生的干扰信号,以及从所要声音信号和/或其它信号中的任一者产生的反射和混响。 
环境噪声可影响所感测音频信号(例如,近端语音信号)的可懂度。可能需要使用信号处理来区分所要音频信号与背景噪声。举例来说,对于通信可能发生于嘈杂环境中的应用来说,可能需要使用语音处理方法来区分语音信号与背景噪声并增强其可懂度。此处理在日常通信的许多领域中可为重要的,因为噪声几乎始终存在于真实世界条件中。 
用于手持机和耳机的多麦克风噪声减少方案包括波束成形方法(例如,广义旁瓣抵消(GSC)、最小方差无失真响应(MVDR)和/或线性限制最小方差(LCMV)波束成形器)和盲源分离(BSS)方法。这些方法通常不能够抑制从与所要声音(例如,近场说话者的话音)相同的方向到达的噪声。尤其在耳机和中场或远场手持机应用(例如,浏览-讲话和扬声器电话模式)中,由麦克风阵列记录的多信道信号可能包括来自干扰噪声源和/或所要近场讲话者的语音的显著混响的声音。尤其对于耳机来说,与用户的嘴的大距离可允许麦克风阵列拾取来自前方的大量噪声,仅使用方向信息可能难以显著抑制所述噪声。 
可将近场定义为距声音接收器(例如,麦克风阵列)小于一个波长的空间区域。根 据此定义,到所述区域的边界的距离与频率相反地变化。举例来说,在200、700和2000赫兹的频率下,到一波长的边界的距离分别为约170、49和17厘米。替代地将近场/远场边界视为处于距麦克风阵列特定距离(例如,距阵列的麦克风或距阵列的形心50厘米,或距阵列的麦克风或距阵列的形心1.5米)处可为有用的。 
可能需要实施一种辨别来自近场源的声音与来自远场源的声音的信号处理方案(例如,以实现较佳噪声减少)。举例来说,可能需要区分来自所要近场讲话者的声音与来自远场源的从相同方向到达的声音。此方案的一个基于振幅或增益的实例在两个麦克风之间使用压力梯度场以确定源是近场还是远场。虽然此技术可用于在近场静寂期间降低来自远场源的噪声,然而,当两源均活动时,其可能不支持近场信号与远场信号之间的辨别。此技术通常还高度取决于麦克风相对于彼此的准确增益校准,实现其可为困难和/或不切实际的(例如,昂贵和/或耗时)。可能需要在极少或不视麦克风增益校准而定的情况中减少在近场源静寂和近场源活动两者期间的远场信号和/或辨别来自近场源的信号与来自远场源的信号。 
本发明包括对经配置以确定多信道信号(例如,由麦克风阵列产生)的各种频率分量之间的方向一致性的系统、方法和设备的描述。可能需要基于在多个不同频率中的每一者下信号的信道的所估计相位之间的差来配置此系统、方法或设备以确定方向一致性。在本文中还将此些配置称为“基于相位”。基于相位的配置可使用(例如)根据多个不同频率之间的相关性(例如,线性关系的强度)和在所述多个不同频率中的每一者下的所估计相位差来确定方向一致性的方案。在本文中还将此些方案称为“基于相位相关性”。 
麦克风阵列产生多信道信号,在所述多信道信号中,每一信道是基于麦克风中的对应一者对声学环境的响应。当所述阵列接收源自远场源的声音时,所得多信道信号通常将不如源自近场源的所接收声音的所得多信道信号方向一致。举例来说,在多个不同频率分量中的每一者下麦克风信道之间的相位差与源自远场源的所接收声音的频率的相关性通常将小于与源自近场源的所接收声音的频率的相关性。当阵列在一个方向上接收来自所要近场源的声音且在不同方向上接收来自干扰近场源的声音时,所述阵列响应于每一声音而产生的信号通常将在对应方向上一致。 
可能需要使用基于相位或基于相位相关性的方案来识别展现非所要的相位差特性(例如,与频率不相关和/或与频率相关但指示非所要的方向上的一致性的相位差)的时间-频率点。此识别可包括对所记录的多信道信号执行方向遮蔽操作。方向遮蔽操作可包括(例如)将方向遮蔽函数(或“遮罩”)应用于多信道信号的相位分析的结果以便丢 弃所述信号的大量时间-频率点。与所记录信号相比的经遮蔽信号的功率的较大减小可用于指示在那个特定时间间隔中存在远场源和/或干扰近场源,且可能需要在那个间隔期间衰减记录的一个或一个以上信道。此方法可经配置以(例如)衰减多信道信号的主要信道(即,基于由主要麦克风(例如,经定向以最直接地接收用户的话音的麦克风)产生的信号的信道)中的非所要的时间频率点。 
基于相位或基于相位相关性的方向一致性方案(例如,遮蔽方案)的应用范围包括:减少不稳定散播和/或方向噪声;消除由近场所要说话者产生的声音的混响;移除在麦克风信道之间不相关的噪声(例如,风和/或传感器噪声);抑制来自非所要方向的声音;抑制来自任何方向的远场信号;估计直接路径与混响(direct-path-to-reverberation)信号强度(例如,以用于显著减少来自远场源的干扰);经由辨别近场源与远场源而减少不稳定噪声;以及减小在近场所要源活动期间以及暂停期间来自前方干扰者的声音,其通常不可使用基于增益的方法来实现。 
在具有二麦克风阵列的通信耳机中,可使用基于相位的遮蔽方案来辨别近场讲话者与远场讲话者并因此减少远场干扰而不管其到达方向如何。来自近场源的声音与来自远场源的声音之间的此辨别通常不可从当前噪声减少方案获得且可预期向耳机性能添加显著益处。在具有四麦克风阵列的通信手持机中,可使用基于相位的遮蔽方法来获得对来自近场讲话者的声音的混响的显著消除和/或在浏览-讲话模式(即,装置使用模式,其中用户在观看装置的显示屏幕的同时致力于例如电话呼叫等话音通信会话)下的不稳定噪声的减少。 
可能需要对一个或一个以上其它处理操作上游的所记录多信道输入执行基于相位的方案。举例来说,来自基于相位或基于相位相关性的操作的结果可用于支持各种其它应用,例如,对所记录输入的增益校准操作、空间选择性处理操作和/或噪声减少操作。 
除非明确由其上下文限制,否则术语“信号”在本文中用来指示其普通意义中的任一者,包括如电线、总线或其它发射媒体上表达的存储器位置(或存储器位置的集合)的状态。除非明确由其上下文限制,否则术语“产生”在本文用来指示其普通意义中的任一者,例如计算或以其它方式产生。除非明确由其上下文限制,否则术语“计算”在本文用来指示其普通意义中的任一者,例如计算、评估、估计和/或从多个值中选择。除非明确由其上下文限制,否则术语“获得”用来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非明确由其上下文限制,否则术语“选择”用来指示其普通意义中的任一者,例如识别、指示、应用和/或使用具有两个或两个以上者的集合中的至少一者(且少于全部)。当术语“包含” 用于本发明的描述和权利要求书中时,其并不排除其它元件或操作。术语“基于”(如在“A是基于B”中)用来指示其普通意义中的任一者,包括以下情况:(i)“从…导出”(例如,“B为A的前体”);(ii)“至少基于”(例如,“A至少基于B”);以及(iii)“等同于”(例如,“A等同于B”)(如果在特定上下文中为适当的)。类似地,术语“响应于”用来指示其普通意义中的任一者,包括“至少响应于”。 
除非上下文另外指示,否则对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学上敏感的面的中心位置。根据特定上下文,术语“信道”有时用于指示信号路径且在其它时候用于指示由此路径载运的信号。除非另外指示,否则术语“系列”用于指示具有两个或两个以上项目的序列。术语“对数”用于指示底为10的对数,但此运算向其它底的延伸处于本发明的范围内。术语“频率分量”用于指示信号的频率或频带的集合中的一者,例如,所述信号的频域表示的样本(例如,由快速傅立叶变换产生)或所述信号的子频带(例如,Bark标度或mel标度子频带)。 
除非另外指示,否则具有特定特征的设备的操作的任何揭示内容还明确意欲揭示具有类似特征的方法(且反之亦然),且根据特定配置的设备的操作的任何揭示内容还明确意欲揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或系统而使用。除非特定上下文另外指示,否则术语“方法”、“过程”、“程序”和“技术”通用地且可交换地使用。除非特定上下文另外指示,否则术语“设备”和“装置”还通用地且可交换地使用。术语“组件”和“模块”通常用于指示较大配置的一部分。除非明确由其上下文限制,否则术语“系统”在本文中用来指示其普通意义中的任一者,包括“相互作用以实现共同目的的元件群组”。还应将文献的部分以引用的方式的任何并入理解为并入所述部分内所引用的术语或变量的定义(其中此些定义出现于所述文献的其它地方)以及所并入部分中所引用的任何图。 
此描述包括以下揭示内容:应用关于麦克风间距离和频率与麦克风间相位差之间的相关性的信息来确定所感测多信道信号的特定频率分量是源自可允许的麦克风间角的范围内还是源自此范围外的系统、方法和设备。此确定可用于辨别从不同方向到达的信号(例如,以使得源自那个范围内的声音得以保留且源自那个范围外的声音得以抑制)和/或用于辨别近场信号与远场信号。 
在典型应用中,此系统、方法或设备用于针对多信道信号的每一时间-频率点来计算相对于麦克风对的到达方向。可将方向遮蔽函数应用于这些结果以区分具有在所要范围内的到达方向的点与具有其它到达方向的点。来自遮蔽操作的结果可用于通过丢弃或衰减具有在遮罩外的到达方向的时间-频率点而移除来自非所要方向的信号。举例来说,可 能需要计算在所有时间-频率点上的到达方向的直方图(例如,通过计算映射到每一到达方向的所测量时间-频率点的数目)并从所述直方图选择所要方向。 
图1A展示根据一般配置的处理多信道信号的方法M100的流程图。方法M100包括针对多信道信号的多个不同频率分量中的每一者计算所述信号的信道(例如,麦克风信道)之间的相位差的任务T100和基于所计算出的相位差计算一致性度量的任务T200。 
方法M100可经配置以将所述多信道信号处理为一系列片段。典型片段长度的范围处于约5或10毫秒到约40或50毫秒之间,且所述片段可重叠(例如,邻近片段重叠25%或50%)或不重叠。在一个特定实例中,多信道信号被划分成一系列不重叠片段或“帧”,所述片段或“帧”各自具有10毫秒的长度。任务T100可经配置以计算相位差的集合(例如,向量),且任务T200可经配置以针对片段中的每一者计算一致性度量。由方法M100处理的片段还可为由不同操作处理的较大片段的一片段(即,“子帧”),或反之亦然。 
图1B展示任务T100的实施方案T102的流程图。对于每一麦克风信道,任务T102包括针对不同频率分量中的每一者估计信道的相位的子任务T110的相应例子。图1C展示任务T110的实施方案T112(包括子任务T1121和T1122)的流程图。任务T1121计算信道的频率变换,例如快速傅立叶变换(FFT)或离散余弦变换(DCT)。任务T1121通常经配置以针对每一片段计算信道的频率变换。举例来说,可能需要将任务T1121配置成执行每一片段的128点或256点FFT。任务T1121的替代实施方案经配置以使用一组子频带滤波器分离信道的各种频率分量。 
任务T1122针对不同频率分量(还称为“频段”)中的每一者计算(例如,估计)麦克风信道的相位。举例来说,针对待检验的每一频率分量,任务T1122可经配置以将相位估计为对应FFT系数的虚数项与FFT系数的实数项的比率的反正切(还被称作反正切(arctangent))。 
任务T102还包括基于每一信道的所估计相位而针对不同频率分量中的每一者计算相位差 
Figure BPA00001349782800101
的子任务T120。任务T120可经配置以通过从用于一个信道中的那个频率分量的所估计相位减去用于另一信道中的那个频率分量的所估计相位来计算相位差。举例来说,任务T120可经配置以通过从用于另一(例如,次要)信道中的那个频率分量的所估计相位减去用于主要信道中的那个频率分量的所估计相位来计算相位差。在此情况中,主要信道可为预期具有最高信噪比的信道,例如,对应于预期在装置的典型使用期间最直接地接收用户的话音的麦克风的信道。 
可能需要配置方法M100(或经配置以执行此方法的系统或设备)以确定在频率的 宽带范围中的多信道信号的信道之间的方向一致性。此宽带范围可(例如)从0、50、100或200Hz的低频率界限扩展到3、3.5或4kHz(或甚至更高,例如,高达7或8kHz或更大)的高频率界限。然而,任务T100可能不必计算跨越信号的整个带宽的相位差。举例来说,对于此宽带范围中的许多频带,相位估计可为不切实际或不必要的。在极低频率下的所接收波形的相位关系的实际评价通常需要换能器之间的对应大的间距。因此,麦克风之间的最大可用间距可建立一低频率界限。另一方面,麦克风之间的距离不应超过最小波长的一半以便避免空间假频(spatial aliasing)。举例来说,8千赫兹的取样率给出0到4千赫兹的带宽。4kHz信号的波长为约8.5厘米,因此在此情况中,邻近麦克风之间的间距不应超过约4厘米。麦克风信道可经低通滤波,以便移除可能引起空间假频的频率。 
可能需要将可预期语音信号(或其它所要信号)在其上是方向一致的特定频率分量或特定频率范围作为目标。可预期,例如方向噪声(例如,来自例如汽车的源)和/或散播噪声的背景噪声在相同范围中将不为方向一致的。语音在4到8千赫兹的范围中倾向于具有低功率,因此可能需要预先进行在至少此范围中的相位估计。举例来说,可能需要在约700赫兹到约2千赫兹的范围中执行相位估计并确定方向一致性。 
因此,可能需要配置任务T1122以针对少于由任务T1121产生的频率分量中的全部的频率分量(例如,针对少于由任务T1121执行的FFT的频率样本中的全部的频率样本)来计算相位估计。在一个实例中,任务T1122针对700Hz到2000Hz的频率范围计算相位估计。对于4千赫兹带宽的信号的128点FFT,700Hz到2000Hz的范围大致对应于从第10个样本到第32个样本的23个频率样本。 
基于来自由任务T100计算出的相位差的信息,任务T200计算多信道信号的一致性度量。图2A展示任务T200的实施方案T202(包括子任务T210)的流程图。针对从任务T100计算出的多个相位差中的每一者,任务T210计算对应的方向指示符。 
任务T210可经配置以将方向指示符中的每一者计算为多信道信号的对应频率分量fi的到达方向θi。举例来说,任务T210可经配置以将到达方向θi估计为量 
Figure BPA00001349782800111
的反余弦(还称为反余弦(arccosine)),其中c表示声音的速度(约340m/sec),d表示麦克风之间的距离, 表示两个麦克风的对应相位估计之间的弧度差,且fi为所述相位估计所对应的频率分量(例如,对应FFT样本的频率或对应子频带的中心或边缘频率)。或者,任务T210可经配置以将到达方向θi估计为量 
Figure BPA00001349782800113
的反余弦,其中λi表示频率分 量fi的波长。 
图3A展示几何近似法的实例,所述实例说明用于估计相对于二麦克风阵列MC10、MC20的麦克风MC20的到达方向θ的此方法。在此实例中,θi的值=0指示从参考端射方向(即,麦克风MC10的方向)到达麦克风MC20的信号,θi的值=π指示从另一端射方向到达的信号,且θi的值=π/2指示从垂射方向到达的信号。在另一实例中,任务T210可经配置以评估相对于不同参考位置(例如,麦克风MC10或例如在所述麦克风之间的中途的点等某一其它点)和/或不同参考方向(例如,另一端射方向、垂射方向等)的θi。图3A中所说明的方案可用于 
Figure BPA00001349782800121
的正值(例如,从0到π/2)。图4展示针对 
Figure BPA00001349782800122
的负值(例如,从0到-π/2)使用相同近似法的实例。在此情况中,可如上文所描述而计算反余弦以评估角ζ,接着从π弧度减去ζ以得到到达方向θi。对于仅关注 
Figure BPA00001349782800123
的正值(例如,前向端射瓣(forward endfire lobe))的情况,当 为负时,可不必计算到达方向θi。举例来说,可能需要排斥 为负的任何分量或以其它方式将此分量分类为噪声。在职工程师还将理解,可代替弧度而用度或适于特定应用的任何其它单位来表达到达方向θi。 
如上文所提及,可根据如图3A和图4中说明的几何近似法来执行对到达方向θi的计算。此近似法假定距离s等于距离L,其中s为麦克风MC20的位置与麦克风MC10的位置到声源与麦克风MC20之间的线上的正交投影之间的距离,且L为每一麦克风与声源的距离之间的实际差。当相对于麦克风MC20的到达方向θ接近于0时,误差(s-L)变得较小。当声源与麦克风阵列之间的相对距离增加时,此误差也变得较小。 
在替代实施方案中,任务T210经配置以将方向指示符中的每一者计算为多信道信号的对应频率分量fi的到达时间延迟τi(例如,以秒为单位)。任务T210可经配置以使用例如 
Figure BPA00001349782800126
或 
Figure BPA00001349782800127
的表达式来估计麦克风MC20处的相对于麦克风MC10的到达时间延迟τi。在这些实例中,τi的值=0指示从垂射方向到达的信号,τi的大的正值指示从参考端射方向到达的信号,且τi的大的负值指示从其它端射方向到达的信号。对于仅关注 
Figure BPA00001349782800128
的正值(例如,前向端射瓣)的情况,当 
Figure BPA00001349782800129
为负时,可不必计算到达时间延迟τi。在计算值τi中,可能需要使用被认为适于特定应用的时间单位,例如,取样周期(例如,在8kHz的取样率下的125毫秒的单位)或秒分数(例如,10-3、10-4、10-5或10-6秒)。应注意,任务T210还可经配置以通过使时域中的每一信道的频率分量fi交叉相关来计算到达时间延迟τi。 
对于方向上理想地一致的信号, 
Figure BPA00001349782800131
的值对于所有频率来说等于常数k,其中k的值与到达方向θ和到达时间延迟τ有关。在另一替代实施方案中,任务T210经配置以将方向指示符中的每一者计算为所估计相位差 
Figure BPA00001349782800132
与频率fi之间的比ri(例如, )。对于仅关注 
Figure BPA00001349782800134
的正值(例如,前向端射瓣)的情况,当 
Figure BPA00001349782800135
为负时,可不必计算比ri。 
应注意,在表达式 
Figure BPA00001349782800136
或 
Figure BPA00001349782800137
根据远场模型(即,采用平面波前的模型)计算方向指示符θi时,表达式 
Figure BPA00001349782800138
Figure BPA00001349782800139
Figure BPA000013497828001310
和 根据近场模型(即,采用球面波前的模型)计算方向指示符τi和ri。虽然基于近场模型的方向指示符可提供较准确和/或较易于计算的结果,但如上文所述的方向指示符θi提供可用于例如振幅控制(例如,增益控制)的应用的相位差的非线性映射。 
任务T202还包括评定由任务T210产生的方向指示符的子任务T220。任务T220可经配置以通过针对待检验的每一频率分量将方向指示符的值转换或映射到关于振幅、量值或成功/失败标度的对应值来评定方向指示符。举例来说,任务T220可经配置以使用方向遮蔽函数将每一方向指示符的值映射到指示所指示方向是否落入遮蔽函数的通频带内(和/或落入遮蔽函数的通频带内的程度)的遮罩得分。(在此情况中,术语“通频带”指遮蔽函数所通过的到达方向的范围。)用于各种频率分量的遮罩得分集合可视为一向量。 
遮蔽函数的通频带可经选择以包括所要信号方向。可通过改变通频带的宽度来控制遮蔽函数的空间选择性,其可根据容许范围(即,函数通过的到达方向或时间延迟的范围)与噪声排斥之间的所要权衡来选择。虽然宽通频带可允许较大的用户移动性和使用灵活性,但还将预期其允许多信道信号中的环境噪声中的较多者传递通过到输出。 
音频感测装置通常固持于相对于用户的嘴的特定几何形状(即,标准定向中)中。在正常使用期间,便携式音频感测装置可能在相对于所要声源的一定范围的标准定向中的任一者中操作。举例来说,不同用户可能以不同方式佩戴或固持装置,且同一用户可能在不同时间以不同方式佩戴或固持装置,即使在相同使用周期内(例如,在单一电话呼叫期间)也是如此。图5展示以相对于用户的嘴的标准定向安装于用户的耳朵上的耳 机的俯视图,且图6展示在耳机的相对于用户的嘴的标准定向范围中的两个实例的侧视图。可能需要根据标准定向的所要可允许范围来选择遮蔽函数的通频带。举例来说,在0度指示阵列最直接指向用户的嘴的标准定向的情况下,可能需要在耳机应用中提供正45度到负45度的通频带(在正45度到负45度的到达方向的范围中)。 
对于手持机来说,可能需要允许比耳机大的标准定向范围。举例来说,在0度指示阵列最直接指向用户的嘴的标准定向的情况中,可能需要将用于手持机应用的遮蔽函数配置成具有正90度到负90度的通频带。图7展示手持机相对于用户的嘴的标准定向范围的两个实例。 
方向遮蔽函数可经实施以使得抑止频带与通频带之间的转变的位置和/或锐度在操作期间可根据一个或一个以上因子(例如,信噪比(SNR)、噪声底限等)的值来选择和/或变化。举例来说,当SNR为低时,可能需要使用较窄的通频带。 
可能需要根据所要应用来选择方向遮蔽函数的转移函数。为了获得二进制值输出(例如,针对话音活动检测应用),可能需要配置任务T220以使用在通频带与抑止频带之间具有相对突然的转变的遮蔽函数(例如,如图3B中所展示的用于具有中心在θ=π/4的到达方向处的通频带的遮蔽函数的砖墙式轮廓)。在一个此类情况中,任务T220经配置以在方向指示符指示函数的通频带内的方向时传回具有第一值(例如,1)的遮罩得分,且在方向指示符指示函数的通频带外的方向时传回具有第二值(例如,0)的遮罩得分。 
另一方面,为了获得多值输出(例如,针对增益控制或另一振幅控制应用),可能需要配置任务T220以使用在通频带与抑止频带之间具有较不突然的转变(例如,较平缓的下降)的遮蔽函数。图3C展示具有线性下降和中心在θ=π/4的到达方向处的通频带的遮蔽函数的实例,且图3D展示具有非线性下降和中心在θ=π/4的到达方向处的通频带的遮蔽函数的实例。 
非线性方向遮蔽函数的一个实例可表达为: 
m = 1 1 + exp ( γ [ | θ - θ T | - ( w 2 ) ] ) ,
其中θT表示目标到达方向,w表示遮罩的所要宽度(以弧度为单位),且γ表示锐度参数。图8A到图8D展示对于(γ,w,θT)分别等于 
Figure BPA00001349782800143
Figure BPA00001349782800144
和 
Figure BPA00001349782800151
的此函数的实例。还可根据时间延迟τ或比r而不是方向θ来表达此函数。应注意,对于小的麦克风间距离(例如,10cm或更小)和低频率(例如,小于1kHz), 
Figure BPA00001349782800152
的可观测值可受限制。举例来说,对于200Hz的频率分量,对应波长为约170cm。对于此分量,具有1厘米的麦克风间距离的阵列可观测仅约2度的最大相位差(例如,在端射处)。在此情况中,大于2度的所观测相位差指示来自一个以上源的信号(例如,信号和其混响)。因此,可能需要配置方法M100以检测所报告的相位差何时超过最大值(例如,在给定特定麦克风间距离和频率的情况下的最大可观测相位差)。可将此条件解释为与单一源不相容。在一个此类实例中,当检测到此条件时,将用于对应频率分量的遮罩得分设定为最低遮罩得分(例如,0)。 
对于需要检测来自特定类型的源的方向上一致的信号的存在的应用,可能需要根据关于目标信号的其它特性的信息来修改方法M100。此修改的潜在优势包括减小搜索空间和排除有噪声数据。举例来说,对于话音活动检测应用,可能需要根据关于语音信号的一个或一个以上特性的信息而配置方法M100。 
有声语音(例如,元音声)的能谱倾向于在音调频率的谐波处具有局部峰值。图9展示此信号的256点FFT的前128个频段的振幅,其中星号指示峰值。另一方面,背景噪声的能谱倾向于相对非结构化。因此,可预期输入信道中的在音调频率的谐波下的分量具有比其它分量高的信噪比(SNR)。对于方法M100的语音处理应用(例如,话音活动检测应用),可能需要配置任务T100(例如,配置任务T1122)以仅考虑对应于所估计音调频率的倍数的相位差。 
典型音调频率处于约70到100Hz(对于男性说话者)到约150到200Hz(对于女性说话者)的范围中。可通过将音调周期计算为邻近音调峰值之间的距离(例如,在主要麦克风信道中)来估计当前音调频率。可基于输入信道的样本的能量的度量(例如,基于样本能量与帧平均能量之间的比率)和/或所述样本的相邻者与已知音调峰值的类似相邻者相关的程度的度量而将所述样本识别为音调峰值。举例来说,在EVRC(增强型可变速率编解码器)文献C.S0014-C的章节4.6.3(第4-44页到第4-49页)中描述音调估计程序,所述文献可在www.3gpp.org处在线获得。音调频率的当前估计(例如,以音调周期或“音调滞后”的估计的形式)通常将已从包括语音编码和/或解码的应用(例如,使用包括音调估计(例如,码激励线性预测(CELP)和原型波形内插(PWI))的编解码器的话音通信)中获得。 
图10展示将任务T100的(例如,T1122的)此实施方案应用于频谱展示于图9中 的信号的实例。虚线指示待考虑的频率范围。在此实例中,所述范围从第10频段扩展到第76频段(约300到2500Hz)。通过仅考虑对应于音调频率(在此实例中约190Hz)的倍数的那些相位差,待考虑的相位差的数目从67减少到仅11。此外,可预期,用以计算出此11个相位差的频率系数相对于在正考虑的频率范围内的其它频率系数具有较高的SNR。在更一般的情况中,还可考虑其它信号特性。举例来说,可能需要配置任务T1122以使得所计算出的相位差的至少25%、50%或75%对应于所估计音调频率的倍数。相同原理还可适用于其它所要谐波信号。在方法M100的相关实施方案中,任务T100经配置以针对多信道信号的至少一个子频带的频率分量中的每一者计算相位差,且任务T200经配置以仅基于对应于所估计音调频率的倍数的那些相位差来计算一致性度量的值。 
共振峰追踪为可包括于方法M100的实施方案中以用于语音处理应用(例如,话音活动检测应用)的另一语音特性相关程序。共振峰追踪可使用线性预测性编码、隐式马可夫模型(HMM)、卡尔曼滤波器(Kalman filter)和/或梅尔频率倒谱系数(MFCC)而执行。共振峰信息通常已可从包括语音编码和/或解码(例如,使用线性预测性编码的话音通信、使用MFCC和/或HMM的语音辨识应用)的应用中获得。 
任务T202还包括基于评定结果来计算用于信号的一致性度量的子任务T230。举例来说,任务T230可经配置以组合对应于所关注频率(例如,在700到2000Hz的范围中的分量和/或在音调频率的倍数下的分量)的各种遮罩得分以获得一致性度量。举例来说,任务T230可经配置以通过对遮罩得分求平均(例如,通过对所述遮罩得分求和,或通过使总和规格化以获得遮罩得分的平均值)来计算一致性度量。在此情况中,任务T230可经配置以对遮罩得分中的每一者同等地加权(例如,通过1对每一遮罩得分进行加权)或对一个或一个以上遮罩得分以彼此不同的方式进行加权(例如,对于对应于低频率或高频率分量的遮罩得分没有对应于中间范围频率分量的遮罩得分那么重地加权)。或者,任务T230可经配置以通过计算所关注频率分量(例如,在700到2000Hz的范围中的分量和/或在音调频率的倍数下的分量)的经加权值(例如,量值)的总和来计算一致性度量,其中每一值是通过对应的遮罩得分进行加权。在此情况中,可从多信道信号的一个信道(例如,主要信道)或从两个信道获取(例如,作为来自每一信道的对应值的均值)每一频率分量的值。 
图2B展示任务T200的替代实施方案T204的流程图。替代评定多个方向指示符中的每一者,任务T204包括使用对应方向遮蔽函数mi来评定每一相位差 的子任务T240。举例来说,对于需要选择从θL到θH的范围中的方向到达的一致信号的情况,每 一遮蔽函数mi可经配置以具有在 
Figure BPA00001349782800171
到 
Figure BPA00001349782800172
的范围中的通频带,其中 (等效地, 
Figure BPA00001349782800174
)且 
Figure BPA00001349782800175
(等效地, 
Figure BPA00001349782800176
)。对于需要选择从对应于τL到τH的到达时间延迟的范围的方向到达的一致信号的情况,每一遮蔽函数mi可经配置以具有在 
Figure BPA00001349782800177
到 的范围中的通频带,其中 
Figure BPA00001349782800179
(等效地, 
Figure BPA000013497828001710
)且 
Figure BPA000013497828001711
(等效地, 
Figure BPA000013497828001712
)。对于需要选择从对应于rL到rH的相位差与频率的比率的范围的方向到达的一致信号的情况,每一遮蔽函数mi可经配置以具有在 
Figure BPA000013497828001713
到 的范围中的通频带,其中 
Figure BPA000013497828001715
且 
Figure BPA000013497828001716
如上文参考任务T220所论述,可根据所要应用(例如,话音活动检测、增益控制等)来选择每一遮蔽函数的轮廓。 
在一些情况中,可能需要在不参考预定到达方向或到达时间延迟的情况下计算一致性度量。图2C展示任务T200的替代实施方案T206(包括子任务T250)的流程图。基于由任务T210计算出的方向指示符,任务T250计算用于多信道信号的一致性度量。任务T250可经配置以基于针对各种频率分量的方向指示符的当前值的分布来计算一致性度量。在一个特定实例中,任务T250经配置以基于方向指示符的变动来计算一致性度量。举例来说,任务T250的此类实施方案可经配置以基于每一方向指示符的平方差的总和与所述方向指示符的平均值来计算一致性度量。在计算此分布时,可能需要对一个或一个以上方向指示符以彼此不同的方式进行加权。举例来说,可能需要对于对应于低频带或高频带的方向指示符没有对应于中间范围频带的方向指示符那么重地加权。 
可能需要配置任务T230或任务T250以将一致性度量产生为时间上平滑的值。举例来说,此任务可经配置以使用时间平滑化函数(例如,有限或无限脉冲响应滤波器)来计算一致性度量。在一个此类实例中,所述任务经配置以将一致性度量产生为最近的m个帧上的平均值,其中m的可能值包括4、5、8、10、16和20。在另一此类实例中,所述任务经配置以根据例如z(n)=αz(n-1)+(1-α)c(n)(还称为一阶IIR或递归滤波器)的表达式来计算用于帧n的经平滑化的一致性度量z(n),其中z(n-1)表示用于前一帧的经平滑化的一致性度量,c(n)表示一致性度量的当前未经平滑化的值,且α为值可为选自0(无平滑化)到1(无更新)的范围的平滑化因子。平滑化因子α的典型值包括0.1、0.2、0.25、0.3、0.4和0.5。在初始收敛周期期间(例如,紧接在音频感测电路的通电或其它启动之后),所述任务可能需要比在后续稳定状态操作期间在更短间隔内或使用平 滑化因子α的更小的值来平滑化一致性度量。 
除了评估一致性度量之外,可能需要基于来自所计算出的相位差的信息来控制多信道信号的一个或一个以上信道的一个或一个以上频率分量的增益(或以其它方式改变多信道信号的一个或一个以上信道的一个或一个以上频率分量的振幅)。举例来说,在一致性度量的值为高时,可能需要比在一致性度量的值为低时向至少一个信道应用更高的增益。图11A展示方法M100的实施方案M200(包括任务T200的实施方案T300)的流程图。除了如上文所描述来计算一致性度量的值之外,任务T300产生基于所计算出的相位差和多信道信号的至少一个信道的经遮蔽信号。任务T300可经配置以根据对应评定结果的值而基于加权或选通至少一个信道的频率分量的结果来产生经遮蔽信号。举例来说,任务T300可经配置以通过基于对于所计算出的相位差的评定结果(例如,遮罩得分)来改变多信道信号的一个或一个以上信道的一个或一个以上频率分量的振幅而产生经遮蔽信号。 
经遮蔽信号可为单信道信号或可具有一个以上信道。对于复值频率分量来说,改变所述分量的振幅可通过以相同因子改变所述分量的实数值和虚数值或通过改变所述分量的量值或通过向所述分量应用增益因子来执行。改变信号的至少一个频率分量的振幅还可通过在时域中向所述信号应用增益因子来执行。可线性地或通过对数(例如,通过应用具有以分贝为单位的值的增益因子)执行此些振幅改变操作。 
图11B展示任务T300的实施方案T302的流程图。也是上文所论述的任务T202的实施方案的任务T302包括评定任务T220的第二例子T220b。可根据本文中所描述的实施方案中的任一者而配置的任务T220b可经配置以使用与任务T220的另一例子不同的方向遮蔽函数。任务T302还包括任务T310,所述任务T310经配置以通过基于来自由任务T220b产生的评定结果的信息来改变多信道信号的至少一个信道(例如,主要信道)的至少一个频率分量的振幅而产生经遮蔽信号。图12A展示任务T302的实施方案T3021的流程图,其中任务T220和T220b是使用任务T220的单个例子来实施。 
单一遮蔽任务T310可经配置以将评定结果应用到至少一个信道的对应频率分量、至少一个信道的子频带或整个信道。图11C展示信号遮蔽任务T310的实施方案T312的流程图,所述实施方案T312通过对频率分量的至少一者中的每一者根据对应于那个频率分量的评定结果进行加权而将评定结果应用于至少一个信道。举例来说,任务T312可经配置以通过根据例如smi=ci×fi的表达式将遮罩得分作为加权因子应用到多信道信号的一信道的频率分量中的一些或全部而产生经遮蔽信号,其中fi表示第i个频率分量,ci表示对应遮罩得分,且smi表示经遮蔽信号的对应频率分量。可能需要配置任务T310 以向经遮蔽频率分量的遮罩得分和/或量值的值强加下限(例如,以避免非活动帧的过度衰减)。 
替代地或另外,任务T312可经配置以通过选通多信道信号的一信道的频率分量中的一些或全部而产生经遮蔽信号。举例来说,任务T312可经配置以根据例如 
Figure BPA00001349782800191
或 
Figure BPA00001349782800192
的表达式而产生经遮蔽信号。在这些实例中,Ti表示可在所有频率分量fi下具有相同值的阈值。或者,阈值Ti可在频率分量中的两者或两者以上和可能全部中的每一者下具有不同值(例如,根据指定频谱轮廓,例如,所要信号的预期频谱轮廓)。量值εi的最小振幅可在所有频率分量fi下具有相同值(例如,0或某一小的正值),或替代地,可在频率分量中的两者或两者以上(可能全部)中的每一者下具有不同值。 
对于少于频率分量中的全部的频率分量(例如,仅音调频率的倍数)具有对应遮罩得分的情况,任务T312可经配置以通过复制或内插(例如,线性地内插)而通过附近分量的遮罩得分计算在其它频率分量fi下的ci的值。 
可能需要配置任务T310以执行子频带遮蔽。举例来说,此方法可帮助消除信号与噪声的相关性和/或减少噪声调制。图11D展示任务T310的实施方案T314的流程图,所述实施方案T314将评定结果应用于至少一个信道的一个或一个以上子频带以产生经遮蔽信号。任务T314包括任务T3142,任务T3142基于来自对应评定结果的信息而针对一个或一个以上子频带中的每一者(例如,Bark标度或mel标度子频带的集合中的一者或一者以上中的每一者)来计算子频带评定结果。可能需要配置评定任务T220的对应例子以针对子频带中的两者或两者以上(可能全部)中的每一者使用具有不同通频带宽度和/或下降轮廓的方向遮蔽函数。举例来说,针对低频率子频带可能需要比针对高频率子频带使用更窄的通频带。 
任务T3142可经配置以通过组合用于子频带j的频率分量的评定结果而针对所述子频带计算子频带评定结果。举例来说,任务T3142可经配置以通过对对应于一子频带的频率分量的所计算出的相位差的评定结果求平均(例如,通过对所述遮罩得分求和,或通过使总和规格化以获得遮罩得分的平均值)来计算所述子频带的子频带评定结果。在此情况中,任务T3142可经配置以对评定结果中的每一者同等地加权(例如,通过1对每一遮罩得分进行加权)或对子频带中的评定结果中的一者或一者以上(例如,两者、三者或可能全部)以彼此不同的方式进行加权。由任务T3142计算的子频带评定结果还可被视为用于对应子频带的一致性度量。 
任务T314还包括任务T3144,任务T3144通过基于任务T3142中所计算出的子频带评定结果来改变至少一个信道的至少一个频率分量的振幅而产生经遮蔽信号。举例来说,对于至少一个信道的子频带中的一者或一者以上(例如,两者或三者或可能全部)中的每一者,任务T3144可经配置以根据对应子频带评定结果对子频带的频率分量中的至少一者(可能全部)中的每一者进行加权和/或根据对应子频带评定结果与阈值之间的关系的状态(例如,根据类似于以上表达式(1a)或(1b)的表达式)而选通子频带的频率分量中的至少一者(可能全部)中的每一者。 
另外或替代地,任务T3144可经配置以根据由任务T3142在一子频带中计算的子频带评定结果而对不同子频带的频率分量中的至少一者中的每一者进行加权和/或根据阈值与由任务T3142在一子频带上计算出的子频带评定结果之间的关系的状态(例如,根据类似于以上表达式(1a)或(1b)的表达式)而选通不同子频带的频率分量中的至少一者中的每一者。举例来说,任务T3144可经配置以根据由任务T3142在不包括低频率分量的子频带(例如,中间频率子频带、高频率子频带或仅包括中间频率和高频率分量的子频带)上计算出的子频带评定结果来对至少一个信道的频率分量(包括低频率子频带的分量)进行加权。因为用于所感测多信道信号的低频率分量的相位信息可被噪声破坏,所以此方法可帮助消除噪声与近场所要语音之间的相关性。任务T3144可经配置以通过基于时域中的子频带评定结果来应用增益因子(例如,应用到经布置以改变子频带的振幅的放大器的增益控制输入)而改变子频带的振幅。 
图11E展示任务T310的实施方案T316的流程图,所述实施方案T316通过基于一致性度量来改变至少一个频率分量的振幅而将评定结果应用于至少一个信道。任务T316包括一致性度量计算任务T230的例子(例如,根据本文中所描述的实施方案中的任一者)。任务T316还包括任务T3162,任务T3162通过基于一致性度量来改变至少一个信道的至少一个频率分量的振幅而产生经遮蔽信号。举例来说,任务T3162可经配置以通过根据一致性度量对至少一个信道的频率分量中的一者或一者以上(可能全部)进行加权和/或通过根据一致性度量与阈值之间的关系的状态(例如,根据类似于以上表达式(1a)或(1b)的表达式)来选通至少一个信道的频率分量中的一者或一者以上(可能全部)而产生经遮蔽信号。任务T3162可经配置以通过基于时域中的一致性度量来应用增益因子(例如,应用到经布置以改变至少一个信道的振幅的放大器的增益控制输入)而改变所述至少一个信道的振幅。图12B展示任务T3021的实施方案T3022的流程图,其中任务T230和T310是通过任务T316的一例子来实施。 
图13A展示任务T300的另一实施方案T304的流程图。也是上文所论述的任务T204 的实施方案的任务T304包括评定任务T240的第二例子。可根据本文中所描述的实施方案中的任一者而配置的任务T240b可经配置以使用与任务T240的另一例子不同的方向遮蔽函数。任务T304还包括信号遮蔽任务T310的一例子,其经配置以通过基于来自由任务T240b产生的评定结果的信息来改变多信道信号的至少一个信道(例如,主要信道)的至少一个频率分量的振幅而产生经遮蔽信号。图13B展示任务T304的实施方案T3041的流程图,其中任务T240和T240b是使用任务T240的单一例子来实施,且图13C展示任务T3041的实施方案T3042的流程图,其中任务T230和T310是通过任务T316的一例子来实施。 
图14A展示任务T300的实施方案T306的流程图。也是任务T206的实施方案的任务T306包括经配置以基于由任务T210产生的方向指示符而选择方向遮蔽函数的任务T260。任务T260可经配置以基于方向指示符的均值和/或分布来选择方向遮蔽函数。举例来说,任务T260可经配置以将方向遮蔽函数的一通频带方向选择为方向指示符中的两者或两者以上(可能全部)的均值和/或根据方向指示符的变动来选择方向遮蔽函数的通频带宽度和/或轮廓。 
任务T306还包括评定任务T220的一例子,其可根据本文中所描述的实施方案中的任一者来配置,其经布置以使用所选择遮蔽函数来评定方向指示符。任务T306还包括单一遮蔽任务T310的一例子,其可根据本文中所描述的实施方案中的任一者来配置,其经布置以基于来自由任务T220产生的评定结果的信息而产生经遮蔽信号。 
图14B展示任务T3021的相关实施方案T308(包括任务T260)的流程图,且图14C展示任务T3022的相关实施方案T3082的流程图。在这些情况中,任务T260经布置以基于由任务T210产生的方向指示符来选择方向遮蔽函数,且任务T220经布置以使用由任务T260选择的方向遮蔽函数来评定方向指示符。 
可能需要配置方法M200以对由任务T300产生的经遮蔽信号执行一个或一个以上额外操作。举例来说,当遮蔽前的信号电平与遮蔽后的信号电平之间存在较大的差时,可能需要衰减经遮蔽信号,因为此差可指示未经遮蔽的信号的能量中的多数是归因于混响和/或干扰。图15A展示方法M200的实施方案M210的流程图。方法M210包括任务T350,任务T350经配置以在遮蔽后的信号电平与遮蔽前的信号电平的比率较小时衰减经遮蔽信号。 
任务T350可经配置以根据例如∑i|smi|/∑i|fi|的表达式来计算经遮蔽电平与未遮蔽电平的比R(即,任务T300产生的经遮蔽信号的频率分量的量值的总和与任务T300对其操作的未经遮蔽信号的频率分量的量值的总和的比率)。或者,任务T350可经配置以 根据例如∑i|smi|2/∑i|fi|2的表达式来计算R(即,两个信号的频率分量的能量的总和之间的比率)。 
任务T350可经配置以在比率R小于(或者,不大于)最小比率阈值η时衰减经遮蔽信号,且在不另外进一步衰减的情况下传递经遮蔽信号。此关系可等效地表达为R<η、1/R>1/η、M<η*U或U>M/η(或者,R≤η、1/R≥1/η、M≤η*U或U≥M/η),其中U和M分别表示未经遮蔽的电平和经遮蔽的电平,且任务T350可经实施以根据任何一个或一个以上此些表达式来评估所述关系。阈值η的值的实例包括0.2、0.25、0.3、0.4、0.5、0.6和0.7。 
任务T350可经配置以通过对经遮蔽信号以衰减因子ε(η)(其中ε(η)具有0与1之间的值(例如,0.25、0.3、0.4、0.5、0.6或0.7))进行加权或通过从信号减去以分贝为单位的对应值来衰减经遮蔽信号。举例来说,任务T350可经配置以通过对经遮蔽信号的每一频率分量smi以ε(η)进行加权、通过对时域中的经遮蔽信号以ε(η)进行加权或通过将以分贝为单位的对应增益因子应用于时域或频域中的信号来衰减经遮蔽信号。 
可能需要配置任务T350以使用用于最小比率阈值η的一个以上值与用于衰减因子ε(η)的对应值。举例来说,任务T350的此实施方案可经配置以连续地使用用于最小比率阈值η的较大值直到η的当前值大于(或者,不小于)比率R为止,并使用衰减因子ε(η)的对应值衰减经遮蔽信号,或在比率R不小于(或者,大于)η的值中的最大者的情况下不进行进一步衰减来传递经遮蔽信号。在此情况中,可能需要配置任务T350以在时间上在片段间平滑化衰减因子ε(η)的值(例如,以避免经遮蔽信号的电平上的突然且可能感知上不适宜的改变)。任务T350可经配置以通过延迟衰减因子ε(η)的值的改变直到已针对指定数目的连续帧(例如,2、3、4、5或10个帧)指示新的值为止,来执行此平滑化。此方法可帮助避免衰减因子ε(η)的值的瞬变。或者,任务T350可经配置以根据时间平滑化算法(例如,FIR或IIR滤波器,例如,一阶IIR滤波器)来执行此平滑化,如本文中的相关上下文中所描述。 
可能需要基于一致性度量的值来修改多信道信号的至少一个信道的残余背景噪声频谱。图15B展示方法M100的实施方案M120(包括任务T400)的流程图。任务T400经配置以基于一致性度量的值来修改多信道信号的一个或一个以上信道的噪声分量的频谱。在此情形中,术语“噪声分量”指示不是所要信息信号的多信道信号的内容。噪声分量可包括所要信息信号的混响。 
任务T400可经配置以在一致性度量的值小于(或者,不大于)指定阈值的间隔期间修改多信道信号的一个或一个以上信道(例如,主要信道)的频谱。此频谱修改可包 括衰减一个或一个以上频谱峰值中的每一者处的一个或一个以上频率分量和/或提升一个或一个以上频谱谷值中的每一者处的一个或一个以上频率分量。举例来说,任务T400可经配置以根据所要噪声频谱轮廓(例如,准白色或粉红色频谱轮廓)而在此些间隔期间压缩或减少信号频谱。 
此噪声白化可产生对残余稳定噪声底限的感觉和/或可产生对噪声进入到或后退到背景中的感知。任务T400可能需要包括平滑化方案(例如,上文中所描述的时间平滑化方案)以在不对信号执行此修改的间隔(例如,语音间隔)与执行频谱修改的间隔(例如,噪声间隔)之间平滑化相关频率分量的振幅的转变。可包括使用如上文中所描述的FIR或IIR滤波器的此平滑化可帮助支持语音间隔与噪声间隔之间的感知上平滑的转变。 
可能需要计算多信道信号的噪声分量的估计(还称为“噪声参考值”或“噪声功率参考值”)。举例来说,可将噪声功率参考信号计算为由话音活动检测(VAD)操作分类为非活动的输入信道的帧在时间上的均值。典型环境中的声学噪声可包括串音噪声、机场噪声、街道噪声、竞争性讲话者的话音和/或来自干扰源(例如,电视机或无线电)的声音。此噪声通常不稳定且可能具有接近于用户自身的话音的频谱的平均频谱。然而,当VAD操作仅基于单一信道时,所得噪声参考值通常仅为稳定噪声的近似估计。此外,此参考值的计算通常需要噪声功率估计延迟,使得对噪声分量的频谱特性的改变的响应仅可在显著延迟之后执行。 
由任务T200产生的一致性度量可用于支持噪声参考值的计算,所述计算比基于单一信道VAD信号的噪声估计更可靠和同时。图15C展示方法M100的实施方案M130(包括任务T500)的流程图。基于一致性度量的值,任务T500计算噪声参考值(例如,主要信道的噪声分量的估计)。举例来说,任务T500可经配置以通过在一致性度量的值小于(或者,不大于)指定阈值时基于来自主要信道的帧的信息更新噪声估计来计算噪声估计。 
任务T500可经配置以使用时间平滑化函数(例如,有限或无限脉冲响应滤波器)来计算噪声参考值。在一个此类实例中,任务T500经配置以计算噪声参考值,使得噪声参考值的每一频率分量为主要信道在最近m个非活动帧上的对应频率分量的平均值,其中m的可能值包括2、3、4、5、8、10和16。在另一此类实例中,任务T500经配置以根据例如ri=βri0+(1-β)qi的表达式来更新噪声参考值r的每一频率分量ri,其中ri0表示ri的前一值,qi表示当前非活动帧的对应频率分量,且β为值可选自0(无平滑化)到1(无更新)的范围的平滑化因子。平滑化因子β的典型值包括0.1、0.2、0.25、0.3、0.4和0.5。在初始收敛周期期间(例如,紧接在音频感测电路的通电或其它启动之后), 任务T500可能需要比在后续稳定状态操作期间以更短间隔或使用平滑化因子β的更小的值来计算噪声参考值。 
应注意,噪声参考值中的频率分量的数目可不同于多信道信号中的频率分量的数目。举例来说,任务T500可经实施以基于子频带来计算噪声参考值。任务T500的此实施方案可经配置以针对噪声帧的一组子频带(例如,Bark标度或mel标度子频带)中的每一者计算频率分量的均值并使用所述均值来更新噪声参考值的对应子频带。 
方法M130可经实施以使用由任务T500产生的噪声参考值来对多信道信号中的一个或一个以上信道执行频率相依振幅控制操作。方法M130的此实施方案可经配置以通过(例如)衰减对应于噪声参考值中的峰值的分量或子频带来修改至少一个信道的频谱。图15D展示方法M130的实施方案M140(包括任务T550)的流程图。任务T550经配置以使用噪声参考值来对多信道信号中的至少一个信道执行噪声减少操作。此噪声减少操作的一个实例使用噪声参考值对主要信道执行维纳(Wiener)滤波操作。此噪声减少操作的另一实例使用噪声参考值来对主要信道执行频谱减法运算(例如,通过从主要信道减去噪声频谱)。此噪声减少操作的另一实例基于噪声参考值的对应频率分量的能量来衰减主要信道的一个或一个以上频率分量的增益(例如,通过将随噪声参考值的对应频率分量的能量而增加的增益衰减施加到每一频率分量)。 
任务T550可经配置以基于子频带执行噪声减少操作(例如,频谱减法或增益衰减操作)。举例来说,任务T550的此实施方案可经配置以将一组子频带增益衰减施加到主要信道的对应子频带应用,所述衰减中的每一者是基于噪声参考值的对应子频带的能量。当任务T550对多信道信号的仅一个信道(例如,主要信道)执行噪声减少操作时,所得操作可被视为利用双信道VAD操作的准单信道噪声减少算法。或者,任务T550可经配置以对多信道信号执行此噪声减少操作(使用单信道或多信道噪声参考值)以产生多信道输出。 
方法M100可经实施以基于一致性度量的值而产生一致性指示,所述一致性指示在输入信道在方向上一致时具有第一状态(例如,高或“1”)且在输入信道在方向上不一致时具有第二状态(例如,低或“0”)。此一致性指示可用作话音活动检测(VAD)信号或旗标,以使得在一致性指示的对应状态为第一状态的情况下将帧分类为活动(即,话音)且在一致性指示的对应状态不为第一状态的情况下将帧分类为非活动(即,噪声)。举例来说,如上文中所论述(例如,参考任务T316、T400和T500),可能需要配置方法M100以根据一致性度量的值与阈值之间的关系的状态来执行一个或一个以上任务。在此情况中,可能需要配置方法M100以产生一指示一致性度量与阈值之间的此关系的 状态的一致性指示。 
对于一致性度量的较高值指示较高程度的方向一致性的应用,一致性指示可经配置以在一致性度量大于(或者,不小于)阈值时指示信号一致性。对于一致性度量的较低值指示较高程度的方向一致性的应用,一致性指示可经配置以在一致性度量小于(或者,不大于)阈值时指示信号一致性。可能随时间为固定或可变的阈值可根据例如遮蔽函数的通频带的宽度和方向以及检测操作的所要敏感度等因素来选择。 
图16A展示任务T316的实施方案T3164(包括任务T3166)的流程图。任务T3166包括基于一致性度量产生一致性指示的子任务T3168。举例来说,任务T3168可经配置以使得一致性指示在一致性度量大于(或者,不小于)阈值时具有第一状态且在一致性度量不大于阈值时具有第二状态。任务T3166还包括基于一致性指示的状态来改变多信道信号的至少一个信道的至少一个频率分量的振幅的子任务T3169。 
举例来说,方法M100的实施方案(包括任务T3164)可经配置以将一致性指示用作选通信号,以使得经选通的信号(例如,多信道信号或经遮蔽信号的一个或一个以上信道)在输入信道在方向上一致时经传递且在输入信道在方向上不一致时被阻挡。任务T3164的此实施方案可经配置以在一致性指示具有第一状态时传递经选通的信号的所有子频带(或者,信号的在选定频率范围中的所有子频带)。举例来说,任务T3164可经配置以在活动帧期间传递主要信道的所有子频带(例如,通过计算一致性指示的逻辑“与”和经选通信号中的每一位)。或者,可能需要配置任务T3164以仅在还满足一个或一个以上额外约束条件的情况下传递经选通信号的子频带。 
举例来说,任务T3164可经配置以在一致性指示具有第一状态时仅传递具有足够高遮罩得分的那些子频带。替代地或另外,任务T3164可经配置以在一致性指示具有第一状态时仅传递具有至少等于(或者,不小于)最小能量阈值的能量的那些子频带。此阈值对于每一子频带可为相同的,或对于子频带中的两者或两者以上(可能全部)中的每一者可为不同的。此频率相依约束条件可帮助减小失真。 
图16B展示任务T400的相关实施方案T402(包括任务T3168和子任务T404的例子)的流程图。任务T404经配置以基于一致性指示的状态来修改多信道信号的一个或一个以上信道的噪声分量的频谱。图16C展示任务T500的相关实施方案T502(包括任务T3168和子任务T504的例子)的流程图。任务T504经配置以基于一致性指示的状态来计算多信道信号的一个或一个以上信道的噪声分量的估计。 
时间相依增益控制(例如,本文中参考任务T300所描述的信号遮蔽)可使输出中的噪声分量的量值随时间改变。举例来说,时间相依增益控制可导致在所要说话者活动 的间隔期间比在所要说话者非活动的间隔期间不成比例地更高量的噪声的通过。此效应称为“噪声选通”、“噪声乘坐(ride-in)”或“噪声调制”。 
可能需要配置信号遮蔽任务T316以在一致性度量的值指示缺乏方向一致性的多信道信号间隔期间不成比例地衰减一个或一个以上信道。类似地,可能需要配置信号遮蔽任务T314以在对应评定结果的值指示缺乏方向一致性的多信道信号间隔期间不成比例地衰减一个或一个以上频率分量和/或子频带。类似地,可能需要配置信号遮蔽任务T312以在这些间隔期间不成比例地衰减一个或一个以上频率分量。此些方法可通过(例如)消除噪声与近场所要语音的相关性而减少噪声选通。 
噪声乘坐通常在基于噪声参考值的噪声减少操作(例如,维纳滤波、频谱减法或参考(例如)上文的任务T330而描述的其它频率相依增益控制操作)的情况下不会被观测到。因此,可能需要组合(例如,混合)由任务T300产生的经遮蔽信号与通过对多信道信号的至少一个信道执行任务T400或T550的例子而产生的在频谱上经修改的信号。举例来说,可能需要实施方法M200以包括任务T400或T500和T550的此例子,并产生作为由任务T300产生的经遮蔽信号与任务T400或T550的输出信号的均值的输出信号。方法M200的此实施方案可经配置以对主要信道执行任务T300和T400(或T500和T550)中的每一者并混合所述结果。对于任务T300和T400或T550中的每一者产生多信道输出(例如,用于立体发射)的应用,可能需要混合这些输出以使得结果的每一信道为经遮蔽信号的对应信道与任务T400或T550的输出信号的对应信道的均值。 
作为混合任务T400或T550的输出与由任务T300产生的经遮蔽信号的替代,可能需要将任务T400或T550施加到经遮蔽信号的一个或一个以上信道。图17A展示方法M200的此实施方案M220(包括任务T400的实施方案T410)的流程图,实施方案T410经配置以基于一致性度量的值来修改经遮蔽信号的一个或一个以上信道的噪声分量的频谱。图17B展示方法M200的相关实施方案M230(包括任务T500的实施方案T510)的流程图,实施方案T510经配置以基于一致性度量的值来计算经遮蔽信号的噪声分量的估计。图17C展示方法M230的相关实施方案M240(包括任务T550的实施方案T560)的流程图,实施方案T560经配置以基于由任务T510产生的噪声估计而对经遮蔽信号的一个或一个以上信道执行噪声减少操作。 
一些多信道信号处理操作使用来自多信道信号的一个以上信道的信息来产生多信道输出的每一信道。此些操作的实例可包括波束成形和盲源分离(BSS)操作。可能难以将回音消除与此技术集成在一起,因为所述操作倾向于改变每一输出信道中的残余回音。如本文中所描述,方法M100可经实施以使用来自所计算出的相位差的信息对多信 道信号的一个或一个以上信道(例如,主要信道)中的每一者执行单信道时间相依和/或频率相依振幅控制(例如,噪声减少操作)。此单信道操作可经实施以使得残余回音保持大体上不改变。因此,回音消除操作与方法M100的实施方案(包括此噪声减少操作)的集成可比回音消除操作与对两个或两个以上麦克风信道操作的噪声减少操作的集成更容易。 
当声源与麦克风对之间的相对距离增加时,可预期不同频率分量的到达方向之间的一致性降低(例如,归因于混响的增加)。因此,任务T200中所计算出的一致性度量在某种程度上还可用作接近度度量。举例来说,不同于仅基于到达方向的处理操作,如本文中所描述的基于一致性度量的值的时间相依和/或频率相依振幅控制可有效地用于区分用户或另一所要近场源的语音与干扰(例如,在相同方向上来自远场源的竞争性说话者的语音)。方向一致性随距离变小的速率可视环境而改变。举例来说,汽车的内部通常非常混响,使得较广范围的频率中的方向一致性可在距源仅约50厘米的范围内随时间维持于可靠稳定的水平下。在此情况中,来自后座乘客的声音可被排斥为不一致,即使那个说话者定位于方向遮蔽函数的通频带内也是如此。在此些情形下,对于较高的说话者来说,可检测的一致性的范围还可能减小(例如,归因于来自附近顶板的反射)。 
变化可发生于阵列R100的麦克风的制造期间,使得即使在一批大量生产且表观上相同的麦克风中,敏感度也可能视麦克风而显著变化。举例来说,用于便携式大量销售的装置中的麦克风可以加减3分贝的敏感度容限而制造,使得装置的麦克风阵列中的两个此类麦克风的增益响应可能相差6分贝之多。 
许多多麦克风空间处理操作本质上取决于麦克风信道的相对增益响应。在制造期间对麦克风增益响应的校准(其可能必需启用此些空间处理操作)通常为耗时和/或另外昂贵的。然而,应注意,方法M100可经实施而不受输入信道的增益之间的不同所影响,使得对应麦克风的增益响应彼此经校准的程度不是对空间处理方法的性能(例如,所计算出的相位差的准确性和基于其的后续操作)的限制因素。 
方法M100的实施方案还可经配置以支持各种其它操作,例如,增益校准操作或空间选择性处理操作。举例来说,可能需要实施方法M100以包括自动增益匹配(AGM)操作。可假定,如果麦克风信道经适当校准,则其对远场噪声的响应的水平将相等。AGM操作响应于信道对远场噪声的响应之间的偏移而调整至少一个信道的增益响应。 
为了区分远场间隔与近场间隔(此可能不适于增益匹配),当前AGM技术通常依赖于信道的相对水平的比较。基于相位的VAD操作(例如,经配置以产生一致性指示的方法M100的实施方案,如本文中所描述)可用于(通常)比当前技术更快速且更可靠 地识别远场噪声间隔。远场噪声间隔的准确检测允许AGM操作更准确地匹配麦克风信道的增益。此改进的增益匹配还可用于较激进地调谐基于接近效应的衰减方案。美国临时专利申请案第61/240,320号(代理人案号第091561P2号,申请于2009年9月8日)中揭示了此些操作的实例的描述。 
图18A展示根据一般配置的设备A10的方框图。设备A10包括用于针对多信道信号的多个不同频率分量中的每一者计算所述信号的信道之间的相位差(例如,如本文中参考任务T100所描述)的装置F100。设备A10还包括用于基于来自所计算出的相位差的信息来计算一致性度量的值(例如,如本文中参考任务T200所描述)的装置F200,所述值指示至少所述多个不同频率分量的到达方向之间的一致性程度。 
图18B展示设备A10的实施方案A100的方框图。设备A100包括相位差计算器100,所述相位差计算器100经配置以针对多信道信号的多个不同频率分量中的每一者计算所述信号的信道之间的相位差(例如,如本文中参考任务T100所描述)且是装置F100的实施方案。设备A100还包括一致性度量计算器200,所述一致性度量计算器200经配置以基于来自所计算出的相位差的信息来计算一致性度量的值(例如,如本文中参考任务T200所描述)且是装置F200的实施方案。 
图18C展示设备A10的实施方案A20的方框图。设备A20包括用于计算一致性度量的值并产生经遮蔽信号(例如,如本文中参考任务T300所描述)的装置F300。图18D展示设备A20和A100的实施方案A200的方框图。设备A200包括经遮蔽信号产生器300,经遮蔽信号产生器300经配置以根据来自一致性度量计算器200的信息(例如,方向指示符,评定结果或一致性度量,如本文参考任务T300所描述)而基于多信道信号的至少一个信道产生经遮蔽信号。 
图18E展示设备A10的实施方案A12的方框图。设备A12包括用于修改多信道信号的至少一个信道的噪声分量的频谱(例如,如本文参考任务T400所描述)的装置F400。图18F展示设备A12和A100的实施方案A120的方框图。设备A120包括频谱修改器400,所述频谱修改器400经配置以根据指定噪声频谱轮廓来改变多信道信号的至少一个信道的至少一个频率分量的振幅(例如,如本文参考任务T400所描述)。 
图19A展示设备A100的实施方案A1002的方框图。设备A1002包括分别接收多信道信号的信道S10-1和S10-2并执行FFT操作以将对应频率分量输出到相位差计算器100的FFT模块FFT1和FFT2。图19B展示设备A1002和A200的实施方案A2002的方框图。设备A2002还包括经布置以基于多信道信号的主要信道S10-1产生经遮蔽信号的经遮蔽信号产生器300。设备A2002还包括经配置以执行反FFT操作以转换来自频域的经 遮蔽信号以产生时域信号S20的反FFT模块IFFT1。 
图20A展示设备A10的实施方案A13的方框图。设备A13包括用于估计多信道信号的至少一个信道的噪声分量(例如,如本文参考任务T500所描述)的装置F500。图20B展示设备A13和A100的实施方案A130的方框图。设备A130包括经配置以估计多信道信号的至少一个信道的噪声分量(例如,如本文参考任务T500所描述)的噪声估计器500。 
图20C展示设备A10的实施方案A14的方框图。设备A14包括用于基于由装置F500产生的噪声估计来修改多信道信号的至少一个信道的频谱(例如,如本文参考任务T550所描述)的装置F550。图20D展示设备A14和A130的实施方案A140的方框图。设备A140包括经配置以修改多信道信号的至少一个信道的频谱(例如,如本文参考任务T550所描述)的频谱估计器550。 
图20E展示设备A14和设备A20的实施方案A24的方框图。设备A24包括装置F500的用于估计由装置F300产生的经遮蔽信号的至少一个信道的噪声分量(例如,如本文参考任务T510所描述)的实施方案F510。设备A24还包括装置F550的用于基于由装置F510产生的噪声估计来修改经遮蔽信号的至少一个信道的频谱(例如,如本文参考任务T560所描述)的实施方案F560。 
图20F展示设备A140和设备A200的实施方案A240的方框图。设备A240包括噪声估计器500的实施方案510,所述实施方案510经布置以估计由经遮蔽信号产生器300产生的经遮蔽信号的至少一个信道的噪声分量(例如,如本文参考任务T510所描述)。设备A240还包括频谱估计器550的实施方案560,所述实施方案560经配置以基于由噪声估计器510产生的噪声估计来修改经遮蔽信号的至少一个信道的频谱(例如,如本文参考任务T560所描述)。 
图21展示设备A240的实施方案A2402的方框图。设备A2402包括经配置以对多信道信号的相应信道S10-1到S10-4执行FFT操作的四个FFT模块FFT1到FFT4。设备A2402还包括经遮蔽信号产生器300的实施方案316,所述实施方案316经配置以基于主要信道S10-1和由一致性度量计算器200产生的一致性度量而产生经遮蔽信号。举例来说,经可将遮蔽信号产生器316实施为经配置以加权或选通主要信道S10-1的至少一个频率分量或子频带的增益控制组件(例如,乘法器或放大器)。可能需要配置经遮蔽信号产生器316以改变主要信道S10-1的频率范围的仅一部分(例如,仅低频率子频带,例如,0到4kHz的频带)的振幅。 
设备A2402还包括经布置以计算信道S10-1的噪声分量的估计的噪声估计器500的 例子和经布置以基于所述噪声估计修改经遮蔽信号的频谱的频谱修改器560的例子。可能需要配置频谱修改器560以在主要信道S10-1的宽于由经遮蔽信号产生器316操作的范围的频率范围中(例如,在整个频带(例如,0到8kHz的频带)中)执行噪声减少操作。设备A2402还包括经配置以执行反FFT操作来转换来自频域的在频谱上经修改的经遮蔽信号以产生时域信号S20的反FFT模块IFFT1。 
可能需要产生具有经配置以接收声学信号的两个或两个以上麦克风的阵列R100的便携式音频感测装置。可经实施以包括此阵列且可用于音频记录和/或话音通信应用的便携式音频感测装置的实例包括:电话手持机(例如,蜂窝式电话手持机);有线或无线耳机(例如,蓝牙耳机);便携式音频和/或视频记录器;个人媒体播放器,其经配置以记录音频和/或视频内容;个人数字助理(PDA)或其它便携式计算装置;以及笔记本计算机、膝上型计算机、上网本计算机或其它便携式计算装置。 
阵列R100的每一麦克风可具有为全向、双向或单向(例如,心形曲线)的响应。可用于阵列R100中的各种类型的麦克风包括(但不限于)压电麦克风、动态麦克风和驻极体麦克风。在用于便携式话音通信的装置(例如,手持机或耳机)中,阵列R100的邻近麦克风之间的中心间距通常处于约1.5cm到约4.5cm的范围中,但较大间距(例如,高达10或15cm)在例如手持机等装置中也是可能的。在助听器中,阵列R100的邻近麦克风之间的中心间距可小到约4或5mm。阵列R100的麦克风可沿一条直线布置,或替代地经布置以使得其中心位于二维(例如,三角形)或三维形状的顶点处。 
在多麦克风音频感测装置(例如,如本文中所描述的装置D100、D200、D300、D400、D500、D600、D700或D800)的操作期间,阵列R100产生多信道信号,在所述多信道信号中,每一信道是基于麦克风中的对应一者对声学环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音,使得对应信道彼此不同以共同提供比使用单一麦克风可俘获的声学环境表示更完整的声学环境表示。 
阵列R100可能需要对由麦克风产生的信号执行一个或一个以上处理操作以产生多信道信号S10。图22A展示阵列R100的包括经配置以执行一个或一个以上此些操作的音频预处理级AP10的实施方案R200的方框图,所述操作可包括(但不限于)阻抗匹配、模/数转换、增益控制和/或模拟和/或数字域中的滤波。 
图22B展示阵列R200的实施方案R210的方框图。阵列R210包括音频预处理级AP10的实施方案AP20,所述实施方案AP20包括模拟预处理级P10a和P10b。在一个实例中,级P10a和P10b各自经配置以对对应麦克风信号执行高通滤波操作(例如,以50、100或200Hz的截止频率)。 
阵列R100可能需要产生多信道信号作为数字信号,即,作为样本序列。举例来说,阵列R210包括各自经布置以对对应模拟信道进行取样的模/数转换器(ADC)C10a和C10b。声学应用的典型取样率包括8kHz、12kHz、16kHz和在约8到约16kHz的范围中的其它频率,但还可使用高达约44kHz的取样率。在此特定实例中,阵列R210还包括各自经配置以对对应经数字化的信道执行一个或一个以上预处理操作(例如,回音消除、噪声减少和/或频谱整形)的数字预处理级P20a和P20b。 
应明确注意,阵列R100的麦克风可更一般地实施为除对声音敏感之外还对辐射或发射敏感的换能器。在一个此实例中,阵列R100的麦克风实施为超音波换能器(例如,对大于15、20、25、30、40或50千赫兹或更大的声学频率敏感的换能器)。 
图23A展示根据一般配置的装置D10的方框图。装置D10包括本文所揭示的麦克风阵列R100的实施方案中的任一者的例子,且本文所揭示的音频感测装置中的任一者可实施为装置D10的例子。装置D10还包括经配置以处理由阵列R100产生的多信道信号以计算一致性度量的值的设备A10的实施方案的例子。举例来说,设备A10可经配置以根据本文所揭示的方法M100的实施方案中的任一者的例子来处理多信道音频信号。设备A10可以硬件和/或以软件(例如,固件)实施。举例来说,设备A10可实施于装置D10的处理器上,所述处理器还经配置以对经处理的多信道信号执行如上文所描述的空间处理操作(例如,确定音频感测装置与特定声源之间的距离、减少噪声、增强从特定方向到达的信号分量和/或分离一个或一个以上声音分量与其它环境声音的一个或一个以上操作)。 
图23B展示作为装置D10的一实施方案的通信装置D20的方框图。装置D20包括包括设备A10的芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组)。芯片/芯片组CS10可包括可经配置以执行设备A10的全部或部分(例如,作为指令)的一个或一个以上处理器。芯片/芯片组CS10还可包括阵列R100的处理元件(例如,音频预处理级AP10的元件)。芯片/芯片组CS10包括:接收器,其经配置以接收射频(RF)通信信号并解码和再现在所述RF信号内所编码的音频信号;以及发射器,其经配置以编码基于由设备A10产生的经处理的信号的音频信号并发射描述所述经编码的音频信号的RF通信信号。举例来说,芯片/芯片组CS10中的一个或一个以上处理器可经配置以对多信道信号的一个或一个以上信道执行如上文所描述的噪声减少操作,以使得所述经编码的音频信号是基于减少了噪声的信号。 
装置D20经配置以经由天线C30接收并发射RF通信信号。装置D20还可在到天线C30的路径中包括双工器和一个或一个以上功率放大器。芯片/芯片组CS10还经配置以 经由小键盘C10接收用户输入并经由显示器C20显示信息。在此实例中,装置D20还包括一个或一个以上天线C40以支持全球定位系统(GPS)定位服务和/或与例如无线(例如,BluetoothTM)耳机等外部装置的短程通信。在另一实例中,此通信装置自身为蓝牙耳机且不具有小键盘C10、显示器C20和天线C30。 
如本文所描述的设备A10的实施方案可实施于包括耳机和手持机的多种音频感测装置中。手持机实施方案的一个实例包括阵列R100的面向前的双麦克风实施方案,所述阵列R100在麦克风之间具有6.5厘米的间距。双麦克风遮蔽方法的实施方案可包括以光谱图直接分析麦克风对的相位关系以及遮蔽来自非所要方向的时间-频率点。 
图24A到图24D展示装置D10的多麦克风便携式音频感测实施方案D100的各种视图。装置D100为包括承载阵列R100的二麦克风实施方案的外壳Z10和从所述外壳延伸的听筒Z20的无线耳机。此装置可经配置以经由与例如蜂窝式电话手持机等电话装置的通信(例如,使用由华盛顿州贝勒由市蓝牙技术联盟(Bluetooth Special Interest Group,Inc.,Bellevue,WA)发布的BluetoothTM协议的一版本)而支持半双工或全双工电话。一般来说,耳机的外壳可为长方形或另外细长的(如图24A、图24B和图24D中所展示(例如,如微型支架的形状))或可为较圆或甚至为圆形的。所述外壳还可封闭电池和处理器和/或其它处理电路(例如,印刷电路板和安装于其上的组件)且可包括电端口(例如,微型通用串行总线(USB)或用于电池充电的另一端口)和例如一个或一个以上按钮开关和/或LED的用户接口特征。通常,外壳的沿其主轴线的长度在1到3英寸的范围中。 
通常,阵列R100的每一麦克风安装于装置内,位于外壳中的充当声端口的一个或一个以上小孔后面。图24B到图24D展示用于装置D100的阵列的主要麦克风的声端口Z40和用于装置D100的阵列的次要麦克风的声端口Z50的位置。 
耳机还可包括通常可从所述耳机拆卸的紧固装置,例如,耳钩Z30。举例来说,外部耳钩可为可反转的,以允许用户配置耳机以在任一耳朵上使用。或者,可将耳机的听筒设计为可包括内部紧固装置(例如,耳塞),所述内部紧固装置可移除听筒以允许不同用户使用不同大小(例如,直径)的听筒来更好地配合特定用户的耳道的外部部分。 
图25A到图25D展示装置D10的多麦克风便携式音频感测实施方案D200的各种视图,所述实施方案D200为无线耳机的另一实例。装置D200包括变圆的椭圆形外壳Z12和可配置为耳塞的听筒Z22。图25A到图25D还展示用于装置D200的阵列的主要麦克风的声端口Z42和用于其次要麦克风的声端口Z52的位置。次要麦克风端口Z52可至少部分地闭塞(例如,通过用户接口按钮)是可能的。 
图26A展示装置D10的多麦克风便携式音频感测实施方案D300的横截面图(沿中 心轴线),所述实施方案D300为通信手持机。装置D300包括具有主要麦克风MC10和次要麦克风MC20的阵列R100的实施方案。在此实例中,装置D300还包括主要扩音器SP10和次要扩音器SP20。此装置可经配置以经由一个或一个以上编码和解码方案(还被称为“编解码器”)而无线地发射和接收话音通信数据。此些编解码器的实例包括:增强型可变速率编解码器,如标题为“用于宽带扩展频谱数字系统的增强型可变速率编解码器、语音服务选项3、68和70(Enhanced Variable Rate Codec,Speech Service Options3,68,and 70 for Wideband Spread Spectrum Digital Systems)”(2007年2月)的第三代合作伙伴计划2(3GPP2)文献C.S0014-C,v1.0(可在www.3gpp.org处在线获得)中所描述;可选模式声码器语音编解码器,如标题为“用于宽带扩展频谱通信系统的可选模式声码器(SMV)服务选项(Selectable Mode Vocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems)”(2004年1月)的3GPP2文献C.S0030-0,v3.0(可在www.3gpp.org处在线获得)中所描述;自适应多速率(AMR)语音编解码器,如文献ETSI TS 126 092 V6.0.0(欧洲电信标准协会(ETSI),法国索菲亚安提波利斯西德克斯市(Sophia Antipolis Cedex,FR),2004年12月)中所描述;以及AMR宽带语音编解码器,如文献ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中所描述。在图3A的实例中,手持机D300为蛤壳型蜂窝式电话手持机(还称为“翻盖”手持机)。此多麦克风通信手持机的其它配置包括直板型和滑盖型电话手持机。图26B展示装置D300的实施方案D310的横截面图,所述实施方案D310包括包括第三麦克风MC30的阵列R100的三麦克风实施方案。 
图27A展示装置D10的多麦克风便携式音频感测实施方案D400的图,所述实施方案D400为媒体播放器。此装置可经配置以播放经压缩的音频或视听信息,例如,根据标准压缩格式编码的文件或流(例如,运动图片专家组(MPEG)-1音频层3(MP3)、MPEG-4第14部分(MP4)、窗口媒体音频/视频版本(WMA/WMV)(华盛顿州莱德蒙德市微软公司(Microsoft Corp.,Redmond,WA))、高级音频编码(AAC)、国际电信联盟(ITU)-T H.264等)。装置D400包括安置于装置的前面的显示屏幕SC10和扩音器SP10,和安置于装置的相同面处的阵列R100的麦克风MC10和MC20(例如,安置于顶面的相对侧上(如在此实例中)或安置于前面的相对侧上)。图27B展示装置D400的另一实施方案D410,其中麦克风MC10和MC20安置于装置的相对面上;且图27C展示装置D400的另一实施方案D420,其中麦克风MC10和MC20安置于装置的邻近面上。媒体播放器还可经设计以使得较长轴线在既定使用期间为水平的。 
图28A展示装置D10的多麦克风便携式音频感测实施方案D500的图,所述实施方 案D500为免提车载套件。此装置可经配置以安装于车辆的仪表板、风挡、后视镜、遮光板或另一内部表面中或上或可移除地固定到车辆的仪表板、风挡、后视镜、遮光板或另一内部表面。装置D500包括扩音器85和阵列R100的实施方案。在此特定实例中,装置D500将阵列R100的实施方案R102包括为以线性阵列布置的四个麦克风。此装置可经配置以经由一个或一个以上编解码器(例如上文列举的实例)而无线地发射并接收话音通信数据。替代地或另外,此装置可经配置以经由与例如蜂窝式电话手持机的电话装置的通信(例如,使用如上文所描述的BluetoothTM协议的一版本)而支持半双工或全双工电话。 
图28B展示装置D10的多麦克风便携式音频感测实施方案D600的图,所述实施方案D600为书写装置(例如,钢笔或铅笔)。装置D600包括阵列R100的实施方案。此装置可经配置以经由一个或一个以上编解码器(例如上文列举的实例)而无线地发射并接收话音通信数据。替代地或另外,此装置可经配置以经由与例如蜂窝式电话手持机和/或无线耳机的装置的通信(例如,使用如上文所描述的BluetoothTM协议的一版本)而支持半双工或全双工电话。装置D600可包括经配置以执行空间选择性处理操作以降低由阵列R100产生的信号中的刮擦噪声82的水平的一个或一个以上处理器,刮擦噪声82可由于装置D600的尖端在绘制表面81(例如,一张纸)上的移动而产生。 
便携式计算装置的种类当前包括具有例如以下名称的装置:膝上型计算机、笔记本计算机、上网本计算机、超便携式计算机、平板型计算机、移动因特网装置、智能本或智能电话。此些装置通常具有包括显示屏幕的顶部面板和可包括键盘的底部面板,其中所述两个面板可以蛤壳或另一铰接关系连接。 
图29A展示装置D10的此类实施方案D700的实例的前视图,所述实施方案D700包括以线性阵列布置于显示屏幕SC10上的顶部面板PL10上的四个麦克风MC10、MC20、MC30、MC40。图29B展示顶部面板PL10的俯视图,所述俯视图以另一维度展示所述四个麦克风的位置。图29C展示此便携式计算装置D710的另一实例的前视图,所述实例包括以非线性阵列布置于显示屏幕SC10上的顶部面板PL12上的四个麦克风MC10、MC20、MC30、MC40。图29D展示顶部面板PL12的俯视图,所述俯视图以另一维度展示所述四个麦克风的位置,其中麦克风MC10、MC20和MC30安置于所述面板的前面且麦克风MC40安置于所述面板的背面。 
图30展示用于便携式应用的装置D10的多麦克风便携式音频感测实施方案D800的图。装置D800包括触控屏显示器TS10、三个前部麦克风MC10到MC30、一背部麦克风MC40、两个扩音器SP10和SP20、一左侧用户接口控制件(例如,用于选择)UI10 和一右侧用户接口控制件(例如,用于导航)UI20。所述用户界面控制器中的每一者可使用以下各者中的一者或一者以上来实施:按钮、轨迹球、点击式转盘(click-wheels)、触摸板、操纵杆和/或其它指向装置等。可在浏览-讲话模式或玩游戏模式下使用的装置D800的典型大小为约15厘米乘20厘米。明确揭示,本文中所揭示的系统、方法和设备的适用性并不限于图24A到图30中所展示的特定实例。可应用此些系统、方法和设备的便携式音频感测装置的其它实例包括助听器。 
可能需要将方法M100扩展到处理一个以上多信道信号。举例来说,如下文参考所述实例所论述,方法M100的经扩展的实施方案M300可用于支持在仅一个麦克风对的情况下不可达到的操作。 
图31A展示方法M300的流程图,所述方法M300包括任务T100的基于第一多信道信号计算第一多个相位差的第一例子T100a和任务T100的基于第二多信道信号计算第二多个相位差的第二例子T100b。方法M300还可经实施以包括任务T100的经配置以基于相应额外多信道信号计算额外多个相位差的额外例子。方法M300还包括基于来自第一和第二(且可能其它)多个相位差的信息来计算一致性度量的值的任务T280。 
图31B展示任务T280的实施方案T288的流程图。任务T288包括任务T200的基于来自第一多个相位差的信息来计算第一致性度量的值的第一例子T200a。任务T288还包括任务T200的基于来自第二多个相位差的信息来计算第二一致性度量的值的第二例子T200b。任务T288还可经实施以包括任务T200的经配置以基于从相应额外多信道信号所计算出的相位差计算额外一致性度量的值的额外例子。 
任务T288还包括组合分量一致性度量(在此实例中为第一和第二一致性度量)的值以获得复合一致性度量的值的任务T610。举例来说,任务T610可经配置以基于分量一致性度量的乘积计算复合一致性度量。对于分量一致性度量的值为二进制(例如,如上文所描述的一致性指示)的情况,此乘积可使用逻辑“与”运算来计算。 
图31C展示任务T280和任务T202的实施方案T282的流程图。任务T282包括任务T210的经布置以针对由任务T100a计算出的第一多个相位差中的每一者计算对应方向指示符的第一例子T210a和任务T220的经布置以评定方向指示符以产生第一评定结果集合(例如,遮罩得分的第一向量)的第一例子T220a。任务T282还包括任务T210的经布置以针对由任务T100b计算出的第二多个相位差中的每一者计算对应方向指示符的至少第二例子T210b和任务T220的经布置以评定方向指示符以产生第二评定结果集合(例如,遮罩得分的第二向量)的对应第二例子T220b。 
任务T282还包括经配置以合并第一和第二(和可能额外的评定结果集合)评定结 果集合以产生经合并的评定结果集合的任务T620,和经布置以基于经合并的评定结果集合计算一致性度量的值(例如,作为如由经合并的评定结果集合加权的所关注频率分量的值的总和)的任务T230的例子。任务T620可经配置以通过将经合并的集合的每一评定结果计算为来自任务T220的各种例子的对应评定结果的均值(例如,平均值)而合并所述评定结果集合。或者,任务T620可经配置以通过将经合并的集合的每一评定结果计算为来自任务T220的各种例子的对应评定结果中的最小值而合并所述评定结果集合。对于二进制值评定结果,任务T620可经配置以通过将经合并的集合的每一评定结果计算为来自任务T220的各种例子的对应评定结果的逻辑“与”而合并所述评定结果集合。 
在一个此类实例中,任务T220a产生对应于在200到1000赫兹的范围中的频率分量的评定结果集合,且任务T220b产生对应于在500到2000赫兹的范围中的频率分量的评定结果集合。在此实例中,任务T620可经配置以产生对应于在200到2000赫兹的范围中的频率分量的经合并评定结果集合,使得对于200到500赫兹的范围的每一经合并的评定结果为由任务T220a产生的对应评定结果(即,其自身的均值),对于1000到2000赫兹的范围的每一经合并的评定结果为由任务T220b产生的对应评定结果,且对于500到1000赫兹的范围的每一经合并的评定结果为由任务T220a和T220b产生的对应评定结果的平均值。 
图32A展示任务T280和任务T204的实施方案T284的流程图。任务T284包括:任务T240的第一例子T240a,其经布置以使用对应遮蔽函数来评定由任务T100a计算出的第一多个相位差中的每一者;任务T240的第二例子T240b,其经布置以使用对应遮蔽函数来评定由任务T100b计算出的第二多个相位差中的每一者;以及任务T240的可能额外例子,其经布置以评定由任务T100的相应额外例子计算出的多个相位差。任务T284还包括经布置以合并第一和第二(和可能额外)评定结果集合以产生经合并的评定结果集合的任务T620的例子和经布置以基于经合并的评定结果来计算一致性度量的值的任务T230的例子。 
图32B展示任务T280和任务T206的实施方案T286的流程图。任务T286包括任务T210的经布置以针对由任务T100的每一例子计算出的多个相位差计算对应多个方向指示符的至少第一例子T210a和第二例子T210b。任务T286还包括:任务T250的至少第一例子T250a和第二例子T250b,其经布置以针对所述多个方向指示符中的每一者计算对应一致性度量;任务T610的例子,其经布置以组合分量一致性度量的值以获得复合一致性度量的值。 
方法M300的应用的一个实例为计算基于在比使用单一麦克风对可观测的频率范围宽的频率范围上的相位差的一致性度量。如上文所述,可在其上可靠地计算出相位差的频率范围可从上受空间假频限制,且从下受最大可观测相位差限制。因此,可能需要应用方法M300以基于根据从一个以上麦克风对记录的信号所计算出的相位差来计算一致性度量。任务T200的相应例子可经配置以使用相同方向遮蔽函数,或相应遮蔽函数的通频带和/或轮廓可根据正被每一例子作为目标的频率范围而不同。举例来说,可能需要针对任务T200的对应于较低频率范围的例子而使用较窄的通频带。 
图32C展示包括三个麦克风MC10、MC20和MC30的阵列R100的多对实施方案的一个实例。在此实例中,第一多信道信号是基于由麦克风MC10和MC20记录的信号,且第二多信道信号是基于由麦克风MC10和MC30记录的信号。因为麦克风MC10与MC20之间的距离小于麦克风MC10与MC30之间的距离,所以第一多信道信号可用于计算比第二多信道信号高的频率下的相位差,且第二多信道信号可用于计算比第一多信道信号低的频率下的相位差。方法M300的实施方案可用于处理两个多信道信号以获得指示在比可单独由任一麦克风对可靠地支持的频率范围大的频率范围中的方向一致性的程度的复合一致性度量。 
图32C展示线性麦克风阵列,但还可使用非线性布置,只要考虑到麦克风对的不同定向即可。虽然麦克风MC10为图32C的阵列中的两对所共用,但还可能从不具有共同麦克风的对获得第一和第二多信道信号。 
到达阵列的两个麦克风处的频率分量之间的相位差理想地对应于相对于所述阵列的轴线的特定角(所述角的顶点在沿那个轴线的某一参考点处,例如,所述麦克风中的一者的中心或所述麦克风之间的中点)。因此,从相对于阵列在空间上处于不同位置处但满足相对于阵列轴线的相同角关系的源(例如,图33A中的源1和2)所接收的相等频率的分量将理想地具有相同相位差。 
方向遮蔽函数通常定义于包括麦克风阵列的轴线的半平面上(即,180度的空间范围上),以使得所述函数的响应在所述阵列轴线周围的空间中大致对称。(实际上,此对称的程度可受例如以下因素限制:麦克风的响应中的方向性、来自装置的一个或一个以上表面的反射、麦克风相对于特定源方向的闭塞,等。)当预期来自所要源的声音从端射方向到达(如在图33B的实例中)时,遮蔽函数的此对称可为可接受的或甚至为需要的。然而,当遮蔽函数的通频带经配置以看起来处于垂射方向上(如在图33C的实例中)时,可能需要区分从轴线的一侧(例如,装置的前侧)到达的声音与从轴线的另一侧(例如,装置的背侧)到达的声音。 
方法M300的应用的另一实例为以一个以上维度和/或在装置的一个以上面上提供方向选择性。图33D展示已将两个麦克风MC30和MC40添加到图33C的阵列的此类实例。在此情况中,方法M300经配置以将如图33C中所展示的垂射引导的遮蔽函数应用于基于来自麦克风MC10和MC20的信号的第一多信道信号、将如图33D中所展示的端射引导的遮蔽函数应用于基于来自麦克风MC30和MC40的信号的第二多信道信号,且产生指示在两个遮蔽函数的通频带的空间中的相交部分上的一致性的程度的一致性度量。在此布置的典型使用中,麦克风MC10、MC20和MC30定位于装置的前面(即,面向用户),麦克风MC40定位于装置的背面,且方法M300操作以指示相对于装置前部处的所要覆盖区域(例如,接近锥形)的一致性。 
图34A展示可用于便携式音频感测装置中的三麦克风阵列的一般实例。在此情况中,方法M300可经配置以将第一遮蔽函数应用于来自麦克风MC10和MC20的信道以辨别左右方向上(即,xy平面中)的角,且将第二遮蔽函数应用于麦克风MC10和MC30的信道以辨别上下方向上(即,yz平面中)的角。方法M300的此实施方案可经配置以组合来自这两个复合遮蔽函数的结果,以指示相对于三维体积中的选定方向范围(其可被视为锥形覆盖)的一致性。在此应用的另一实例中,将复合遮蔽函数中的每一者应用于具有四个或四个以上麦克风的阵列中的不同麦克风对的信道。 
图34B展示可用于便携式音频感测装置中的三麦克风阵列的应用的另一实例。在此情况中,方法M300可经配置以将第一遮蔽函数应用于麦克风MC10和MC20的信道以辨别左右方向上的角,且将第二遮蔽函数应用于麦克风MC10和MC30的信道以传递从前向方向到达的声音并排斥从后向方向到达的声音。举例来说,在膝上型计算机或上网本计算机实施方案中,可能需要辨别从阵列的前部到达的声音与从阵列的背部到达的声音。在此应用的另一实例中,将复合遮蔽函数中的每一者应用于具有四个或四个以上麦克风的阵列中的不同麦克风对的信道。用于此应用的四麦克风阵列的一个实例包括一组面向前的三个麦克风和一面向后的麦克风。来自面向前的麦克风中的两者的信号可用于覆盖一用户位置范围,且来自另一面向前的麦克风和所述面向后的麦克风的信号可用于辨别从前方到达的信号与从后方到达的信号。举例来说,在图34C中,麦克风MC20和MC40的信道可用于左右辨别。 
在四麦克风阵列的另一实例中,麦克风以大致四面体的配置布置,使得一个麦克风定位于顶点由相隔约3厘米的其它三个麦克风的位置界定的三角形后面(例如,在后面约1厘米)。此阵列的潜在应用包括在扬声器电话模式下操作的手持机,对此,说话者的嘴与阵列之间的预期距离为约20到30厘米。图35A展示手持机D300的实施方案D320 的前视图,其包括以大致四面体的配置布置的四个麦克风MC10、MC20、MC30、MC40。图35B展示手持机D320的侧视图,其展示麦克风MC10、MC20、MC30和MC40在手持机内的位置。 
用于手持机应用的四麦克风阵列的另一实例包括在手持机前面(例如,靠近小键盘的1、7和9位置)的三个麦克风和在背面(例如,在小键盘的7或9位置后面)的一个麦克风。图35C展示手持机D300的实施方案D330的前视图,其包括以“星形”配置布置的四个麦克风MC10、MC20、MC30、MC40。图35D展示手持机D330的侧视图,其展示麦克风MC10、MC20、MC30和MC40在手持机内的位置。 
对于一些应用,所要声音(例如,用户的话音)的到达方向的预期范围通常限于相对窄的范围。在此些情况(例如,对于典型耳机或手持机应用)中,单一方向遮蔽函数可宽得足以包括对应维度内的所要声音的预期到达方向范围,但窄得足以提供足够高的信噪比(SNR)以用于宽带一致性信号的可靠检测(例如,通过排斥由可允许范围外的噪声源产生的频率分量)。 
然而,对于其它应用,具有宽得足以包括所要到达方向范围的容许范围的单一遮蔽函数可能容许过多噪声以致不能可靠地区分宽带一致性信号与干扰。举例来说,例如膝上型计算机、智能电话和新兴装置(例如MID(移动因特网装置))的许多消费型装置支持一定范围的不同用户接口模式,且在给定情形下可能没必要清楚用户正从哪一方向讲话。这些装置通常具有较大的显示屏幕且可允许较广范围的可能麦克风放置和同时的麦克风信号获取。举例来说,在“浏览讲话”模式下,用户可注视显示屏幕,同时经由视频链接聊天或进行通话。因为在此模式期间用户的嘴通常定位于距麦克风较远,所以维持愉快的通信经历可涉及实质性语音增强处理。 
对于典型膝上型计算机或上网本计算机或免提车载套件应用,可能需要允许较广范围的可能说话者位置,例如,达180度的可允许到达方向范围。举例来说,可预期,用户可能在使用期间在便携式计算装置D700或D710的前部从一侧移动到另一侧、朝向装置和远离所述装置移动,和/或甚至在所述装置周围(例如,从所述装置的前部到背部)移动。对于其它应用(例如,会议),可能需要允许更大范围的可能说话者位置。 
遗憾地,具有较广容许范围的遮蔽函数还可能从噪声源传递声音。虽然加宽遮蔽函数的容许角可允许较大范围的到达方向,但此加宽还可降低所述方法区分在所要频率范围中方向一致的信号与背景噪声的能力。对于使用两个或两个以上麦克风提供宽容许角的应用(例如,车载套件或膝上型计算机或上网本计算机应用),可能需要使用多个方向遮蔽函数将所要容许角划分成对应扇区,其中每一扇区经定义为对应遮蔽函数的通频 带。 
为了实现此所要说话者定位和/或声音的空间辨别,可能需要在麦克风阵列周围的不同方向上产生窄的空间扇区以便准确地确定声源(例如,用户)的位置。在具有两个麦克风的情况下,相对窄的扇区通常仅可产生于端射方向上,而垂射扇区通常宽得多。然而,在具有三个、四个或更多麦克风的情况下,较窄扇区通常在所有方向上均是可能的。 
可能需要设计邻近扇区之间的重叠(例如,以确保所要说话者移动的连续性、支持较平滑的转变和/或降低抖动)。图36A展示宽容许角(跨越麦克风MC20处的相对于麦克风MC10的所要到达方向范围)被划分成三个重叠扇区的应用的一个实例。在另一特定实例中,180度的容许角被划分成九个重叠扇区(例如,对于上网本计算机或膝上型计算机应用)。 
在一般情况中,任何容许角可被划分成若干扇区,且可使用任意数目的扇区(例如,取决于(一方面)每一扇区的宽度与(另一方面)可用计算资源之间的所要权衡)。所述扇区可具有彼此相同的角宽度(例如,以度或弧度为单位),或所述扇区中的两者或两者以上(可能全部)可具有彼此不同的宽度。举例来说,可能需要实施每一遮罩以在中心(即,在阵列处)具有约20度的带宽且在最大可允许距离处具有更宽的带宽。 
手持机在扬声器电话模式下操作的一个实例使用三个遮蔽函数,每一遮蔽函数宽为约90度,其中一个遮罩对准用户、一个对准用户的左边45度且另一者对准用户的右边45度。在另一实例中,车载套件应用经实施以包括朝向司机头部定向的扇区、定向于司机头部与中间之间的扇区、朝向中间定向的扇区和朝向前座乘客的头部定向的扇区。在另一实例中,车载套件应用经实施以包括朝向司机的门或窗定向的扇区、朝向司机的座位或头部定向的扇区,和朝向中间(即,在司机与前座乘客之间)定向的扇区。此应用还可包括朝向乘客的头部定向的扇区。车载套件应用可包括手动地将司机或乘客选择(例如,经由按钮或其它用户接口)为所要说话者的能力。 
可能需要配置多扇区应用以使得可在复合容许角内的任何位置处检测宽带一致性信号,只要所述信号在所述扇区中的一者内为宽带一致即可。图36B展示方法M100的实施方案M400的流程图,所述实施方案M400包括任务T100和任务T700的至少一个例子。基于由任务T100计算出的相位差,任务T700确定对应多信道信号在多个扇区中的任一者中是否一致。以此方式检测一致性信号可用于支持话音活动检测和/或噪声减少操作(例如,如上文中较详细地描述)。 
可能需要配置任务T700以对于每一分量遮蔽函数包括一致性度量评估任务T230的一例子。图37展示用于n扇区应用的任务T700和T202的此实施方案T702的流程图, 其中n为大于1的整数。任务T702包括子任务T220的n个例子T220a、T220b、…、T220n,其中每一例子j经配置以使用n个方向遮蔽函数中的相应一者(即,对应于第j扇区的函数)来评定由任务T210产生的方向指示符。可能需要使用分频带结构(split-band structure)和/或重叠保存框架来实施各种方向遮蔽函数。 
任务T702还包括子任务T230的n个例子T230a、T230b、…、T230n。任务T230的每一例子经配置以基于由任务T220的对应例子产生的评定结果而相对于对应扇区计算信号的一致性度量。可能需要配置任务T230的各种例子中的每一者以将对应一致性度量产生为时间上平滑的值。在一个此类实例中,任务T230的每一例子经配置以根据例如z(n)=βz(n-1)+(1-β)c(n)的表达式来计算用于帧n的经平滑化一致性度量z(n),其中z(n-1)表示前一帧的经平滑化一致性度量,c(n)表示一致性度量的当前值,且β为值可选自0(无平滑化)到1(无更新)的范围的平滑化因子。平滑化因子β的典型值包括0.1、0.2、0.25、0.3、0.4和0.5。此任务可能在不同时间(例如,在音频感测电路的启动期间与在稳定状态期间)使用不同的平滑化因子β的值。此任务T230的对应于不同扇区的例子通常(但非必要)使用相同的β值。 
任务T702还包括经配置以基于对应一致性度量确定多频带信号在n扇区中的任一者中是否一致的子任务T710。举例来说,任务T710可经配置以指示一致性度量中的任一者是否超过(或者,至少等于)对应阈值。可能需要配置任务T710以针对一个扇区使用比另一扇区大的阈值。空间上分布的噪声倾向于随时间而具有垂直于麦克风对的轴线的平均到达方向,使得垂射扇区(包括垂直于麦克风对的轴线的方向的扇区)可能比端射扇区(包括麦克风对的轴线的扇区)遭遇到更多此类噪声。因此,可能针对垂射扇区(例如,0.4、0.5、0.6或0.7)比针对端射扇区(例如,0.2、0.3、0.4或0.5)需要使用更大的阈值。类似地,垂射扇区可能需要对准稍微偏离轴线的方向(例如,以减小所容许的分布噪声的量)。 
图38A展示用于n扇区应用的任务T700和T204的实施方案T704的流程图。任务T704包括子任务T240的实施方案T245,所述实施方案T245使用多扇区遮蔽函数来评定相位差中的每一者。举例来说,任务T245可经配置以针对每一扇区指示每一相位差是否落入在那个扇区处的那个频率分量下的可允许相位差范围内(和/或每一相位差落入在那个扇区处的那个频率分量下的可允许相位差范围内的程度)。 
可能需要配置任务T710以指示在其内检测到一致性信号的扇区。举例来说,任务T710的此类实施方案T712可经配置以指示一致性度量最大的扇区或一致性度量具有最大对比度的扇区。在此情况中,可将一致性度量的对比度表达为一致性度量的当前值与 一致性度量随时间(例如,在最近10、20、50或100个帧期间)的平均值之间的关系(例如,差或比率)的值。 
可预期,任务T712随时间将指示不同扇区(例如,如所要声源的相对位置从一扇区移动到另一扇区)。可能需要抑制任务T712切换扇区(即,指示不同于当前扇区的扇区),除非目标扇区的一致性度量超过(或者,不小于)那个扇区的阈值。举例来说,可能需要配置任务T712的此实施方案以在不满足此条件的情况下继续指示当前扇区,即使目标扇区的一致性度量当前具有最大值或最大对比度也是如此。如上文所提及,可能针对垂射扇区(例如,0.4、0.5、0.6或0.7)比针对端射扇区(例如,0.2、0.3、0.4或0.5)需要使用更大的阈值。 
可能需要基于多信道信号的至少一个信道产生经遮蔽信号(例如,如上文参考任务T310所描述),其中每一帧是使用对应于由任务T712针对那个帧所识别的扇区的遮蔽函数而获得。此操作可包括(例如)基于对应遮蔽函数的遮罩得分而衰减主要信道的频率分量和/或子频带,和/或传递少于主要信道的所有子频带的子频带。方法M400的其它实施方案可经配置以包括经配置以根据由任务T712指示的扇区选择而基于多信道信号的一个或一个以上信道产生音频信号(例如,将与特定选定扇区相关联的波束或其它滤波器应用于多信道信号的至少一个信道)的类似任务。 
可能需要实施任务T712以包括用以支持从一个扇区到另一扇区的平滑转变的逻辑。举例来说,可能需要配置任务T712以包括可帮助降低抖动的惯性机构(例如,释放延迟逻辑)。此释放延迟逻辑可经配置以抑制任务T712切换到目标扇区,除非指示切换到那个扇区的条件(例如,如上文所描述)在若干连续帧(例如,2、3、4、5、10或20个帧)的周期中持续存在。 
任务T710可经实施以一次指示一个以上一致扇区。举例来说,任务T710的此实施方案可经配置以指示哪些扇区具有高于(或者,不小于)对应阈值的一致性度量。包括此任务的方法M400的实施方案可经配置以根据来自一个以上所指示扇区的评定结果和/或一致性度量而产生经遮蔽信号。多个扇区指示可用于追踪一个以上所要源(例如,在会议应用中)。然而,追踪多个源还可能容许更多噪声进入输出中。替代地或另外,任务T710可经配置以包括用以指示在较长时间(例如,0.25、0.5、1或2秒)中未检测到一致扇区(在此情况中,可能需要应用更多噪声减少)的逻辑。 
可能需要配置任务T710以产生基于扇区特定一致性度量的一致性度量。任务T710的一个此类实例针对多信道信号的每一帧产生基于(例如,等于)那个帧的各种扇区的一致性度量中的最大者的复合一致性度量。任务T710的另一此类实例针对每一帧产生 基于(例如,等于)当前具有最大对比度的扇区特定一致性度量的复合一致性度量。任务T710的实施方案可经配置以将复合一致性度量产生为时间上平滑的值(例如,根据本文中所描述的时间平滑化技术中的任一者)。 
方法M400的实施方案可经配置以使用由任务T710产生的一致性度量来用于VAD指示和/或用于噪声减少(例如,用于上文参考任务T400所描述的噪声修改和/或用于上文参考任务T500和T550所描述的噪声估计)。替代地或另外,方法M400的实施方案可经配置以基于由任务T710产生的一致性度量的值而向多信道信号的至少一个信道(例如,主要信道)应用增益因子。方法M400的此实施方案可经配置以随时间而平滑化此增益因子的值(例如,根据本文所描述的时间平滑化技术中的任一者)。 
可能需要配置任务T710以在时间上平滑化跨越扇区切换操作的值和/或结构。举例来说,任务T710可经配置以平滑化从与一个扇区相关联的波束到与另一扇区相关联的波束的转变,和/或平滑化从一个扇区的一个或一个以上值(例如,遮罩得分和/或一致性度量)到另一扇区的对应值的转变。此平滑化可根据例如r=μq+(1-μ)p的表达式而执行,其中p表示与当前扇区相关联的值或结构,q表示与目标扇区相关联的对应值或结构,r表示混合的值或结构,且μ表示在若干帧(例如,2、3、4、5或10个帧)的周期中值在0到1的范围中增加的平滑化因子。 
方法M400还可经配置以接收各自来自不同麦克风对的两个或两个以上多信道信号,并指示在所述多信道信号中的任一者的任何扇区中是否检测到一致性。举例来说,方法M400的此实施方案可经配置以处理来自线性阵列的不同麦克风对的多信道信号。 
图38B展示方法M400的此实施方案M410的流程图,所述实施方案M410包括任务T100的多个例子,每一例子经配置以从对应多信道信号计算多个相位差。方法M410还包括任务T700的实施方案T720,所述实施方案T720基于来自多个所计算出的相位差的信息而确定多信道信号中的任一者在任何扇区中是否一致。图39展示任务T720和T702的实施方案T722的流程图。任务T720还可以类似方式实施为任务T704的经扩展实施方案。 
在方法M410的应用的一个实例中,任务T210a从图34C中所展示的阵列的麦克风MC40和MC20接收第一多信道信号,且任务T210b从所述阵列的麦克风MC20和MC10接收第二多信道信号。在此特定实例中,任务T722将覆盖从麦克风MC40的端射方向到垂射方向(即,垂直于阵列轴线的方向)的约90度范围的遮蔽函数应用于第一多信道信号,且任务T722将覆盖从麦克风MC10的端射方向到垂射方向的约90度范围的遮蔽函数应用于第二多信道信号。 
另外或替代地,方法M100可配置为方向选择方法M300和扇区选择方法M400两者的实施方案,使得对由方法M300处理的多信道信号中的至少一者执行方法M400的扇区选择。举例来说,方法M400的此实施方案可经配置以处理来自非线性阵列的不同麦克风对的多信道信号。 
图40展示方法M300和M400的此实施方案M350的流程图,所述实施方案M350包括任务T100的多个例子,每一例子经配置以从对应多信道信号计算多个相位差。方法M350还包括经配置以针对多信道信号中的一者计算一致性度量的值的任务T200的例子,和经配置以确定所述多信道信号中的另一者在任何扇区中是否一致的任务T700的例子。方法M350还包括经配置以组合来自任务T200的一致性度量与由任务T700产生的一致性指示以产生复合一致性度量的任务T610的例子。在方法M350的应用的一个实例中,任务T200的遮蔽函数的通频带覆盖装置的前面,且任务T700将所述装置的所述面划分成若干扇区。 
方法M100的实施方案可经配置以包括可根据任务T712的扇区选择而在方向上配置(例如,可操纵)的空间选择处理操作。举例来说,方法M100的此实施方案可经配置以对麦克风信道执行波束成形操作以使得根据扇区选择而可选择地引导(例如,操纵)波束。波束成形器可经配置以通过在多个固定波束成形器中进行选择或通过改变自适应波束成形器的波束方向而执行此可选择方向。 
图41展示设备A100的实施方案A400的方框图。设备A400包括一致性度量计算器200的实施方案712,所述实施方案712经配置以指示多个扇区中的一致扇区(例如,根据包括如本文中所描述的任务T710的实施方案T712的任务T700的实施方案)。设备A400还包括可选择的波束成形器800,其经配置以根据由一致性度量计算器712指示的扇区而选择多个波束中的一者,并将选定波束施加到信道S10-1到S10-4中的两者、三者、四者或更多者以产生包括所要声音和可能的噪声的第一信道和作为噪声参考值的第二信道。设备A400还包括经配置以对波束成形器800的多信道输出执行噪声减少操作以产生减少了噪声的信号的噪声减少模块600。模块600可经实施以包括经布置以估计波束成形器800的信号加噪声输出的噪声分量的噪声估计器500的例子,和经布置以将噪声估计施加到波束成形器输出的频谱修改器560的例子。 
波束成形器800可经配置以存储和/或计算多个波束,所述波束可根据包括(但不限于)本文中所提及的实例(例如,MVDR、受限BSS等)的任何波束成形方法来计算。可能需要配置波束成形器800以仅在信道的频率范围的一部分上(例如,在例如0到4kHz的频带的低频率频带中)施加选定波束。图42展示设备A400和A2402的实施方案 A420的方框图。设备A420包括经遮蔽信号产生器300的实施方案302,所述实施方案302经配置以根据由一致性度量计算器712产生的评定结果和/或一致性度量而基于波束成形器输出产生经遮蔽信号。设备A420还包括经布置以估计经遮蔽信号的噪声分量的噪声估计器500的例子和经布置以将噪声估计施加到经遮蔽信号的频谱修改器560的例子。 
在不稳定噪声环境中,双麦克风系统的性能可能受较不可靠、单信道VAD操作妨碍。此外,双麦克风阵列可能能够提供仅用于前后配置的不稳定噪声参考值。图43展示麦克风MC20和MC40的对用于从指向阵列的背部的遮罩(如由虚线半圆表示)产生不稳定噪声参考值的此类实例。此遮罩可包括(例如)对准阵列的前部的零点波束(null beam),且噪声参考值可用于支持如本文中所描述(例如,参考任务T500和T550)的对多信道信号的至少一个信道进行的后处理噪声减少操作。如图43中所展示,此噪声参考值可能无法包括来自在阵列前部处的源(如由扩音器表示)的干扰。 
具有更多麦克风(例如,四个麦克风)的阵列可用于支持在手持机与所要说话者之间的更广范围的相对空间配置中的不稳定噪声参考值的估计。图44展示组合朝向所要说话者引导的第一遮罩和与所述第一遮罩互补(且由虚线区域指示)的第二遮罩的实例。第一遮罩用于基于多信道信号的至少一个信道产生经遮蔽信号(例如,如上文参考任务T310所描述),且互补遮罩用于产生可用于支持如本文所描述(例如,参考任务T500和T550)的对经遮蔽信号的至少一个信道进行的后处理噪声减少操作的不稳定噪声参考值。可预期此噪声减少方案整体上比二麦克风方案更一贯地执行。 
图45展示朝向所要源引导的方向遮蔽函数(如由从约40到约90度的通频带指示)和远离所要源引导的互补遮罩(如由小于约20度的通频带和大于约100度的通频带指示)的实例。如此图中所展示,可能需要将信号的通频带与互补遮罩实施成具有极少重叠到无重叠。 
图46展示方法M100的实施方案M500的流程图,所述实施方案M500使用互补遮蔽函数来产生不稳定噪声估计。方法M500包括相位差计算任务T100的至少一个例子和包括扇区选择任务T712的任务T700的实施方案。方法M500还包括遮蔽任务T310的实施方案T740。任务T740根据来自对应于由任务T712选择的扇区的方向遮蔽函数的评定结果(例如,遮罩得分)而基于多信道信号的至少一个信道产生经遮蔽信号。 
方法M500还包括遮蔽任务T310的实施方案T750。任务T750使用与选定扇区互补的方向遮蔽函数来产生基于多信道信号的至少一个信道的经遮蔽噪声信号。方法M500还包括噪声估计任务T500的实施方案T520,所述实施方案T520计算多信道信号 的至少一个信道的不稳定噪声分量的估计。举例来说,任务T520可经配置以通过执行时间平滑化操作(例如,使用如本文中所描述的FIR或IIR滤波器)来计算不稳定噪声估计。在此情况中,更新所述噪声估计可能需要比通常更新稳定噪声估计更快速。举例来说,可能需要在短时间间隔(例如,2、3、5或10个帧)期间和/或通过执行比平滑化多的更新(例如,使用0.1、0.2或0.3的平滑化因子)来平滑化经遮蔽噪声信号。方法M500还包括经布置以基于由任务T520产生的不稳定噪声估计来修改经遮蔽信号的至少一个信道的频谱的频谱修改任务T560的例子。 
方法M500的替代实施方案可经配置以使用对应于选定扇区的波束而非方向遮蔽函数来产生经遮蔽信号,和/或使用朝向选定扇区引导的零点波束而非互补方向遮蔽函数来产生经遮蔽噪声信号。 
可能需要配置设备A100的实施方案以计算不稳定噪声参考值。举例来说,在设备A420的实施方案中,可能需要配置噪声参考值计算器500以基于选定遮罩的互补物(complement)来计算噪声参考值(例如,由一致性度量计算器712所指示)。在一个实例中,此噪声参考值是通过在由一致性度量计算器712产生的一致性度量较高时将低增益施加到信道S10-1来计算,且反之亦然。在另一实例中,此噪声参考值是通过将可选择的零点波束成形器(类似于波束成形器800)应用于信道S10-1到S10-4中的两者或两者以上以使得选定零点波束处于所要说话者的方向上(例如,处于选定扇区的方向上)而产生。以此方式,选定遮罩的互补物可通过面对没有所要说话者的区域而获得。有可能使用使用来自多信道信号的帧的信息而更新的此不稳定噪声参考值来对所述信号的相同帧的至少一个信道执行噪声减少操作。 
替代基于来自非活动间隔的信息而更新噪声估计的噪声估计器500的实施方案或除了所述实施方案之外,可使用噪声估计器500的此实施方案。举例来说,频谱修改器560可经配置以将两个噪声参考值的组合(例如,均值)应用于主要信道S10-1(或者,应用于由波束成形器800产生的信号加噪声信道)。 
在一个实例中,使用四个麦克风的遮蔽方法经实施以在所要区域中具有单位增益且在那个区域之外具有强衰减(例如,大于40分贝)。对于具有强正面方向噪声的情况,当所要说话者正从前部讲话时,有可能仅可实现约10或12分贝的噪声减少(即使当使用窄遮罩时)。然而,当所要说话者正从左侧或右侧讲话时,有可能实现大于20dB的噪声减少。 
在具有两个麦克风的情况下,相对窄的波束通常仅可产生于端射方向上,而垂射波束通常宽得多。然而,在三个、四个或更多麦克风的情况下,较窄波束通常在所有方向 上是可能的。 
可能需要实施方法M400以通过首先使用来自两个麦克风的宽扇区且接着使用来自四个麦克风的较窄扇区而靠近特定空间源。此方案可用于获得带宽的自适应调整而不会归因于所要说话者方向的估计的初始不确定性而损失所要话音振幅。从两个麦克风进行到三个和四个麦克风的方案还可经实施以用于较平缓的转变。如果一个麦克风发生故障,则由四个麦克风实现的最窄空间分辨率可能受损,但通常可通过三个麦克风的组合来实现足够窄的垂射扇区和/或波束。 
使用扇区(例如,方法M400)的操作的追踪精确度通常取决于所述扇区的宽度,所述扇区的宽度可设定追踪操作的空间分辨率的最小界限。举例来说,在当前经指示为接收到一致性信号的扇区内的源可位于所述扇区的中心或所述扇区的边缘中的一者处或那个扇区内的任何其它地方处。虽然追踪精确度可通过窄化扇区的宽度而增加,但此方法还可减小容许角(除非使用更多扇区),此于是可增加操作的计算复杂度。 
可能需要使用方向指示符的分布而非先验扇区集合来定位和/或追踪一致性信号的源。图47A展示方法M100的实施方案M600的流程图,所述实施方案M600包括相位差计算任务T100的例子、方向指示符计算任务T210的例子和一致性度量评估任务T250的实施方案T252。任务T252经配置以基于一到达方向范围中的方向指示符的分布来计算一致性度量的值。如上文所论述,可将方向指示符计算为(例如)到达方向的值、到达时间延迟或相位差与频率的比率。 
任务T252经配置以针对多个方向上的每一者确定方向指示符中的多少者对应于那个方向。举例来说,可将方向范围划分成多个频段,且任务T252可经配置以对值落入于每一频段内的方向指示符的数目进行计数。在此情况中,一致性度量的值是基于最多填充的频段中的方向指示符的数目。 
可能需要配置任务T252以仅考虑对应于所关注频率(例如,在700到2000Hz的范围中的分量和/或在音调频率的倍数下的分量)的方向指示符。任务T252还可经配置以根据其对应频率对方向指示符中的一者或一者以上进行加权。举例来说,任务T252的此实施方案可经配置以更重或更轻地对对应于特定子频带的方向指示符进行加权和/或更重地对对应于所估计音调频率的倍数的方向指示符加权。 
可能需要针对方向指示符的每一可能值具有一频段。在此情况中,任务T252经配置以通过对具有相同值的方向指示符的数目进行计数来计算一致性度量的值。举例来说,任务T252可经配置以将一致性度量的值计算为方向指示符的一模式。或者,可能需要将方向指示符中的两个或两个以上(例如,五个)可能值组合成单一频段。举例来 说,频段划分可经配置以使得每一频段覆盖方向指示符的可能值中的两者或两者以上。可能需要配置频段划分以支持不同方向上的不同追踪分辨率。 
任务T252可通过绘制如图48中所展示的直方图而实施。在此情况中,一致性度量的值可基于如由所述直方图指示的分布的峰值或重心。对于直方图不在峰值周围对称的例子,任务T252可能需要基于所加权的最大值(例如,重心)来计算一致性度量的值。 
任务T252可经配置以对一个帧中或多个帧(例如,5、10、20或50个帧)中的方向指示符进行计数。任务T252还可经配置以随时间而平滑化一致性度量的值(例如,使用如本文所描述的时间平滑化操作,例如,FIR或IIR滤波器)。 
任务T252可经配置以在一致性度量小于(或者,不大于)阈值时指示一致性的缺乏。在此情况中,可能需要针对多个方向上的两者或两者以上(可能全部)使用不同阈值。举例来说,可能针对朝向垂射方向的方向(即,相对于麦克风阵列的轴线)比针对朝向端射方向的方向需要使用更高的阈值。另外或替代地,任务T252可经配置以在一致性经指示而用于不同方向的情况下计算一个以上一致性度量中的每一者的值。 
图47B展示方法M600的实施方案M610(包括任务T910)的流程图。任务T910经配置以基于方向指示符的分布而选择遮蔽方向。举例来说,任务T910可经配置以选择对应于如由直方图指示的分布的峰值或重心的方向。对于直方图不在峰值周围对称的例子,任务T910可能需要选择对应于所加权最大值的方向。对于任务T252经配置以计算一个以上一致性度量中的每一者的值的情况,任务T910还可经配置以选择一个以上对应遮蔽方向。 
任务T910可经配置以从固定方向遮蔽函数(具有(例如)10度的宽度)的集合中选择。或者,任务T910可经配置以使用来自所述分布的信息来配置可操纵方向遮蔽函数。此函数的一个实例为如上文参考图8A到图8D所描述的非线性遮蔽函数。在此情况中,任务T910可经配置以选择通频带的中心频率(例如,从直方图的峰值或重心)并使用固定通频带宽度(例如,10度)和/或轮廓或基于所述分布的特性(例如,峰度(peakiness))来选择宽度和/或轮廓。图49展示其中基于直方图来选择遮蔽函数的通频带的实例。根据方法M600的定位方法的一个潜在优势为避免同时针对一组扇区中的每一者执行一致性度量评估的例子。 
关于上文所描述的波束成形器和波束成形操作,可能需要使用一个或一个以上数据相依或与数据无关的设计技术(MVDR、独立向量分析(IVA)等)来针对由如本文中所描述的方法M400的实施方案追踪的空间扇区产生固定波束。举例来说,可能需要将离线计算的波束存储于查找表中。一个此类实例针对每一滤波器(三个滤波器)包括65 个复合系数,以针对每一空间扇区(且总共9个空间扇区)产生波束。图50和图51展示此所计算波束的一个实例的曲线的两个视图。 
如MVDR、延迟和求和波束成形器的传统方法可用于基于自由场模型来设计波束图案,其中波束成形器输出能量使用等于1的受限注视方向能量而被最小化。举例来说,闭合形式MVDR技术可用于基于给定注视方向、麦克风间距离和噪声交叉相关矩阵来设计波束图案。通常,所得设计包含非所要旁瓣,可通过噪声交叉相关矩阵的频率相依对角负载来权衡所述旁瓣与主要波束。 
可能需要使用由线性编程技术解析的特殊受限MVDR成本函数,其可提供对主要波束宽度与旁瓣量值之间的权衡的较佳控制。图52到图54展示对于分别具有注视方向π/2、5π/8和3π/8的线性等距四麦克风阵列所获得的波束图案的一组实例。可观测到,在主要注视方向周围存在大量旁瓣,且波束在低频率子频带中为较薄,此可导致对风噪声放大的高敏感性。 
可能需要对于具有两个以上麦克风的应用实施迭代程序以设计波束图案。替代最小化所设计波束成形器的输出能量,此程序可使用通过创建到干扰源的零点波束而设法使源彼此分离的受限盲源分离(BSS)学习规则。替代射出波束到所要源中(如在传统波束成形技术中),此程序可经设计以通过消除其它竞争方向的波束而产生朝向所要源的波束。可能需要配置所述程序以使用受限BSS方法在每一个别频段中迭代地将波束图案整形并借此权衡相关噪声与非相关噪声以及旁瓣与主要波束。为了实现此结果,可能需要在所有注视角中使用规格化程序在所要注视方向上将收敛波束调整到单位增益。还可能需要使用调谐矩阵以在每一零点波束方向上在每一频段的迭代过程期间直接控制所强制执行的零点波束的深度和波束宽度。 
为了创建适当零点波束,可使用如图55中所展示的扩音器-麦克风设置来检索数据。如果需要产生朝向特定注视方向的波束,则扩音器可放置于相对于阵列的那些角处。所得波束的波束宽度可由干扰扩音器的接近度确定,因为受限BSS规则可设法排除竞争源且因此可产生由干扰扩音器的相对角距离确定的较窄或较宽的残余波束。 
可通过使用具有不同表面和曲率的根据其几何形状在空间中散播声音的扩音器来影响波束宽度。可使用小于或等于麦克风的数目的许多源信号将这些响应整形。由所述扩音器回放的不同声音文件可用于产生不同频率内容。如果扩音器含有不同频率内容,则所再现信号可在再现之前经等化以补偿特定频带中的频率损失。 
BSS算法可设法自然地消除干扰源的波束,仅留下所要注视方向上的能量。当在所有频段上进行规格化之后,此操作可在所要源方向上产生单位增益。BSS算法可能不会 在特定方向上产生完全对准的波束。如果需要产生具有特定空间拾取图案的波束成形器,则可使旁瓣最小化且可通过在特定注视方向上强制执行零点波束进行波束宽度整形,可针对每一频段并针对每一零点波束方向通过特定调谐因子强制执行所述零点波束的深度和宽度。 
可能需要通过选择性地强制执行旁瓣最小化和/或调整特定注视方向上的波束图案来微调由BSS算法提供的原始波束图案。所要注视方向可(例如)通过计算阵列注视方向上的滤波器空间响应的最大值并接着在此最大注视方向周围强加限制而获得。 
此合成波束成形器的每一输出信道j的波束图案可根据频域转移函数Wjm(i*ω)(其中m表示输入信道,1<=m<=M)通过计算所述表达式的量值曲线而获得。 
Wj1(i×ω)D(ω)1j+Wj2(i×ω)D(ω)2j+...+WjM(i×ω)D(ω)Mj。 
在此表达式中,D(ω)指示频率ω的方向性矩阵,使得: 
D(ω)ij=exp(-i×cos(θj)×pos(i)×ω/c),(5) 
其中pos(i)表示具有M个麦克风的阵列中的第i个麦克风的空间坐标,c为声音在媒体中的传播速度(例如,在空气中340m/s),且θj表示第j个源相对于麦克风阵列的轴线的到达入射角。 
盲源分离(BSS)算法的范围包括被称为频域ICA或复合ICA的方法,其中直接在频域中计算滤波器系数值。可使用前馈滤波器结构实施的此方法可包括对输入信道执行FFT或另一变换。此ICA技术经设计以针对每一频段ω计算M×M不混合矩阵W(ω),使得解混合的输出向量Y(ω,l)=W(ω)X(ω,l)相互独立。不混合矩阵W(ω)根据可如下表达的规则而更新: 
Figure BPA00001349782800501
其中Wl(ω)表示针对频段ω和窗口l的不混合矩阵,Y(ω,l)表示针对频段ω和窗口l的滤波器输出,Wl+r(ω)表示针对频段ω和窗口(l+r)的不混合矩阵,r为具有不小于1的整数值的更新速率参数,μ为学习速率参数,I为单位矩阵,Φ表示激活函数,上标H表示共轭倒置操作且括号<>表示时间l=1、…、L中的平均操作。在一个实例中, 激活函数Φ(Yj(ω,l))等于Yj(ω,l)/|Yj(ω,l)|。 
复合ICA解决方案通常遭受缩放不定性,此可在注视方向改变时导致波束图案增益和/或响应色彩(response color)上的变化。如果源为稳定的且源的变动在所有频段中已知,则所述缩放问题可通过将所述变动调整到已知值来解决。然而,天然信号源为动态的、通常不稳定的且具有未知变动。 
替代调整源变动,缩放问题可通过调整所学到的分离滤波器矩阵来解决。通过最小失真原理获得的一个众所周知的解决方案根据例如以下的表达式来缩放所学到的不混合矩阵。 
Wl+r(ω)←diag(Wl+r -1(ω))Wl+r(ω)。 
可能需要通过在所要注视方向上创建单位增益来解决缩放问题,此可帮助降低或避免所要说话者的话音的频率染色(frequency coloration)。一种此方法通过所有角中的滤波器响应量值的最大值而使矩阵W的每一行j规格化: 
max &theta; j = [ - &pi; , &pi; ] | W j 1 ( i &times; &omega; ) D ( &omega; ) 1 j + W j 2 ( i &times; &omega; ) D ( &omega; ) 2 j + &CenterDot; &CenterDot; &CenterDot; + W jM ( i &times; &omega; ) D ( &omega; ) Mj | .
一些复合ICA实施方案的另一问标题为与相同源有关的频段之间的一致性的损失。此损失可导致频率排列问题,其中主要含有来自信息源的能量的频段被错误指派到干扰输出信道,和/或反之亦然。可使用对此问题的若干解决方案。 
可使用的对排列问题的一个响应为独立向量分析(IVA),其为使用一源(在此之前模型化频段之间的预期相依性)的复合ICA的变化形式。在此方法中,激活函数Φ为例如以下的多变量激活函数: 
&Phi; ( Y j ( &omega; , l ) ) = Y j ( &omega; , l ) ( &Sigma; &omega; | Y j ( &omega; , l ) p | ) 1 / p
其中p具有大于或等于1(例如,1、2或3)的整数值。在此函数中,分母上的项涉及所有频段中的分离的源频谱。 
可能需要通过基于方向性矩阵D(ω)(如上文中的表达式(5)中)添加调整项J(ω) 来强制执行波束和/或零点波束。 
J(ω)=S(ω)‖W(ω)D(ω)-C(ω)‖2  (7) 
其中S(ω)为频率ω和每一零点波束方向的调谐矩阵,且C(ω)为等于diag(W(ω)*D(ω))的M×M对角矩阵,所述矩阵设定对所要波束图案的选择且针对每一输出信道j将空值放置于干扰方向处。此调整可帮助控制旁瓣。举例来说,矩阵S(ω)可用于通过在每一频段下在每一零点方向上控制强制执行的量而将特定方向θj中的每一零点波束的深度整形。此控制对于权衡旁瓣与窄或宽的零点波束的产生可为重要的。 
可通过例如以下表达式的表达式而将调整项(7)表达为不混合矩阵更新方程式的约束条件: 
constr(ω)=(dJ/dW)(ω)=μ*S(ω)*2*(W(ω)*D(ω)-C(ω))D(ω)H。(8) 
此约束条件可通过将此项添加到滤波器学习规则(例如,表达式(6))而实施,如在以下表达式中: 
Wconstr,l+p(ω)= 
Wl(ω)+μ[I-<Φ(Y(ω,l))Y(ω,l)H>]Wl(ω)+2S(ω)(Wl(ω)D(ω)-C(ω))D(ω)H。(9) 
源到达方向(DOA)值θj可基于收敛的BSS波束图案而确定以消除旁瓣。举例来说,图56和图57展示已在约π/2弧度的宽区域中收敛的一个BSS解决方案的实例。为了减少在此情况中的旁瓣(其对于所要应用来说可能过大),可能需要在(例如)θj=π/4和θj=3π/4处强制执行选择性零点波束。图58和图59展示所得较窄波束。图60展示通过在θj=6.5π/8处施加额外零点波束(所述零点波束经由特定矩阵S(ω)强制执行于每一频段中)而从图58中的波束获得的另一窄化波束。可观测到,旁瓣在中间频率带到高频率带中已显著减少。在此实例中,低频率带特意含有宽波束,此可帮助最小化非相关的噪声放大。闭合形式的MVDR设计通常不能够直接处置此些问题。 
受限BSS方法可用于在每一个别频段中迭代地将波束图案整形且借此对相关噪声与非相关噪声以及旁瓣与主要波束进行权衡。然而,如使用MVDR设计的情况,受限BSS设计单独可提供麦克风阵列的前部与背部之间的不足够的辨别。 
可能需要实施如本文中所描述的相关联的处理系统,以提供近场语音的保留与远场干扰的衰减之间的适当权衡和/或提供非所要方向上的非线性信号衰减。对于处理来自两个以上麦克风的信号的方法M100的实施方案的应用,可能需要选择线性麦克风配置以获得最小话音失真,或选择非线性麦克风配置以获得更佳噪声减少。 
可能需要同时或成对地使用三个、四个或更多麦克风以在最小化所要话音失真的同时实现此增强。类似于可展开使用的键盘,装置D10的实施方案可配备有可以此方式部署的非线性麦克风阵列。 
非线性四麦克风阵列的一个实例包括:处于一条直线上的三个麦克风,在中心麦克风与外部麦克风中的每一者之间具有5厘米的间距;以及另一麦克风,其定位于所述直线上方四厘米处且与中心麦克风的距离比与任一外部麦克风的距离近。此阵列的应用包括可安装于前座占用者的前部以及司机的遮光板与乘客的遮光板之间(例如,在后视镜中或上)的免提车载套件。 
对于在手持机模式下使用的通信装置,双麦克风阵列通常是足够的,因为手持机与所要说话者的空间配置的可变性通常是有限的,使得其可能足以处理仅有限范围的空间配置。可通过手持机模式的最佳布置来指示特定麦克风配置。所记录的信噪比通常为高的,使得可应用激进的后处理技术(例如,如参考任务T550所描述的噪声减少操作)。然而,二麦克风阵列可支持仅有限的用户追踪能力,使得说话者的话音可衰减超过特定范围。 
可能需要使用具有两个以上麦克风的阵列以在时间和空间上支持对用户的追踪和/或辨别近场与远场区域。在用户-手持机配置的适当追踪的情况下,此阵列可用于经由空间辨别处理来支持显著的噪声减少。此阵列可适合于远场相互作用模式,例如,智能电话或具有这些模式的另一装置的免提和/或浏览-讲话模式。对于此模式的在阵列与用户的嘴之间的典型距离为50厘米。此阵列可用于仅可容忍具有非常低的话音失真的噪声移除的自动语音辨识(ASR)应用(例如,话音搜索)。可能需要使用此阵列来追踪说话者移动并相应地对处理进行调适。然而,自动回音消除的问题可能比在手持机模式下更困难,且可能需要使用集成式回音消除噪声抑制(ECNS)解决方案以用于与来自三个或三个以上麦克风信道的噪声减少相互作用。 
使用具有两个以上麦克风的阵列可有益于高话音质量和/或良好的ASR性能。举例来说,此阵列的使用可在较广范围的空间配置中针对给定水平的噪声减少而提供较小话音失真。可能需要使用此阵列来支持增强型话音追踪能力,使得在所要说话者的移动期间经历较少的话音衰减或消声。 
本文中所揭示的方法和设备通常可应用于任何收发和/或音频感测应用中,尤其是此些应用的移动或另外便携的例子。举例来说,本文中所揭示的配置的范围包括驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有本文中所描述的特征的方法和设备可驻留于使用所属领域的技术人员所已知的较广范围的技术的各种通信系统中的任一者中,例如经由有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道使用IP话音(VoIP)的系统。 
明确地预期且在此揭示,本文揭示的通信装置可适用于为包交换(例如,根据例如VoIP等协议布置以载运音频发射的有线和/或无线网络)和/或电路交换的网络中。还明确地预期且在此揭示,本文揭示的通信装置可适用于窄带编码系统(例如,编码约四千赫兹或五千赫兹的音频频率范围的系统)中和用于宽带编码系统(例如,编码大于五千赫兹的音频频率的系统)中,包括全频带宽带编码系统和分频带宽带编码系统。 
提供所描述配置的前文呈现以使得所属领域的任何技术人员能够制造或使用本文所揭示的方法和其它结构。本文展示且描述的流程图、方框图和其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且还可将本文呈现的一般原理应用到其它配置。因此,本发明无意限于上文展示的配置,而是将赋予本发明与本文中以任何方式揭示的原理和新颖特征(包括于形成原始揭示案的一部分的所申请的附加权利要求书中)一致的最较广范围。 
所属领域的技术人员应理解,可使用各种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子,或其任何组合来表示可在整个上文描述中所参考的数据、指令、命令、信息、信号、位和符号。 
对于如本文所揭示的配置的实施方案的重要设计要求可包括(尤其)针对计算密集型应用(例如,以大于8千赫兹(例如,12、16或44kHz)的取样率进行话音通信的应用)将处理延迟和/或计算复杂度(通常以百万指令/秒或MIPS测量)最小化。 
多麦克风处理系统的目标可包括实现10到12dB的整体噪声减少、在所要说话者的移动期间保留话音水平和色彩、获得噪声已移动到背景中而非激进的噪声移除的感知、消除语音的混响和/或启用后处理的选项(例如,基于噪声估计的频谱修改操作,例如,任务T550)以获得较激进的噪声减少。 
本文所揭示的设备(例如,设备A10、A12、A13、A14、A20、A24、A100、A120、A130、A140、A200、A240、A400、A420、A1002、A2002和A2402)的实施方案的各 种元件可以被认为适合于既定应用的硬件、软件和/或固件的任何组合来体现。举例来说,可将此些元件制造为驻留于(例如)同一芯片或芯片组中的两个或两个以上芯片上的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)的阵列,且这些元件中的任一者可实施为一个或一个以上此些阵列。这些元件中的任两者或两者以上或甚至全部可实施于同一阵列或若干阵列内。此阵列或此些阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。 
本文中所揭示的设备(例如,设备A10、A12、A13、A14、A20、A24、A100、A120、A130、A140、A200、A240、A400、A420、A1002、A2002和A2402)的各种实施方案的一个或一个以上元件还可全部或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))上执行的一个或一个以上指令集合。本文中所揭示的设备的一实施方案的各种元件中的任一者还可实施为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集合或指令序列的一个或一个以上阵列的机器,还称为“处理器”),且这些元件中的任两者或两者以上或甚至全部可实施于相同的此或此些计算机内。 
可将用于如本文所揭示般进行处理的处理器或其它装置制造为驻留于(例如)同一芯片或芯片组中的两个或两个以上芯片之间的一个或一个以上电子和/或光学装置。此装置的一实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)的阵列,且这些元件的任一者可实施为一个或一个以上此些阵列。此阵列或此些阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。此些阵列的实例包括固定或可编程逻辑元件阵列,例如,微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。用于如本文所揭示般进行处理的处理器或其它装置可实施为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集合或指令序列的一个或一个以上阵列的机器)或其它处理器。有可能使用如本文所描述的处理器来执行并非与一致性检测程序直接相关的任务或执行并非与一致性检测程序直接相关的其它指令集合,例如,与其中嵌入有处理器的装置或系统(例如,音频感测装置)的另一操作相关的任务。还有可能通过音频感测装置的处理器来执行如本文所揭示的方法的部分(例如,相位差计算任务T100和/或一致性度量计算任务T200)且在一个或一个以上其它处理器的控制下执行所述方法的另一部分(例如,经配置以将一致性度量施加到信号的一个或一个以上信道的任务,例如,噪声减少任务)。 
所属领域的技术人员将了解,可将结合本文中所揭示的配置所描述的各种说明性模 块、逻辑块、电路,以及测试和其它操作实施为电子硬件、计算机软件或两者的组合。可使用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或经设计以产生本文中所揭示的配置的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件,或其任何组合来实施或执行此些模块、逻辑块、电路和操作。举例来说,此配置可至少部分地实施为硬连线电路、制造成专用集成电路的电路配置,或加载到非易失性存储器中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,此代码为可由逻辑元件的阵列(例如通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规处理器、控制器、微控制器或状态机。还可将处理器实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、与DSP核心联合的一个或一个以上微处理器,或任何其它此类配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(例如,快闪RAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移除磁盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。将说明性存储媒体耦合到处理器,使得所述处理器可从所述存储媒体读取信息和将信息写入到所述存储媒体。在替代方案中,存储媒体可集成到处理器。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器和存储媒体可作为离散组件而驻留于用户终端中。 
应注意,可通过例如处理器等逻辑元件阵列来执行本文中所揭示的各种方法,且如本文中所描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指包括呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,可将多个模块或系统组合成一个模块或系统,且可将一个模块或系统分离成多个模块或系统以执行相同功能。进程的元件在实施于软件或其它计算机可执行指令中时实质上为用以(例如)使用例程、程序、对象、组件、数据结构等来执行相关任务的代码片段。术语“软件”应理解为包括原代码、汇编语言代码、机器代码、二进制代码、固件、宏代码(macrocode)、微代码、可由逻辑元件阵列执行的任何一个或一个以上指令集合或指令序列,和此些实例的任何组合。程序或代码片段可存储于处理器可读媒体中,或可经由发射媒体或通信链路通过包含于载波中的计算机数据信号来发射。 
本文中所揭示的方法、方案和技术的实施方案还可有形地体现(例如,在如上文所列出的一个或一个以上计算机可读媒体中)为可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一个或一个以上指令集 合。术语“计算机可读媒体”可包括可存储或转移信息的任何媒体,包括易失性、非易失性、可移除或不可移除媒体。计算机可读媒体的实例包括电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路或可用于存储所要信息且可被存取的任何其它媒体。计算机数据信号可包括可经由发射媒体(例如,电子网络信道、光纤、空气、电磁、RF链路等)传播的任何信号。可经由例如因特网或内部网络等计算机网络下载代码片段。在任何情况中,本发明的范围不应被解释为受此些实施例限制。 
本文所描述的方法的任务中的每一者可直接以硬件、可由处理器执行的软件模块或以所述两者的组合来体现。在如本文所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。还可将任务中的一者或一者以上(可能全部)实施为包含于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪存储器或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集合),所述计算机程序产品可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。还可通过一个以上此阵列或机器执行如本文所揭示的方法的实施方案的任务。在这些或其它实施方案中,所述任务可执行于用于无线通信的装置内,例如,蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以(例如,使用例如VoIP的一个或一个以上协议)与电路交换和/或包交换网络通信。举例来说,此装置可包括经配置以接收和/或发射经编码的帧的RF电路。 
明确地揭示,本文所揭示的各种方法可通过例如手持机、耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文所描述的各种设备可包括于此装置内。典型实时(例如,在线)应用为使用此移动装置进行的电话通话。 
在一个或一个以上示范性实施例中,可以硬件、软件、固件或其任何组合来实施本文所描述的操作。如果以软件实施,则此些操作可作为一个或一个以上指令或代码存储在计算机可读媒体上或经由计算机可读媒体进行传输。术语“计算机可读媒体”包括计算机存储媒体和通信媒体两者,通信媒体包括促进将计算机程序从一处传递到另一处的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。以实例而非限制的方式,此计算机可读媒体可包含例如以下各者的存储元件阵列:半导体存储器(其可包括(但不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM)或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于以指令或数据结构的形式载运或存储所要程序代码且可由计算机存取的任何 其它媒体。而且,适当地将任何连接称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波的无线技术从网站、服务器或另一远程源发射软件,则所述同轴电缆、光纤电缆、双绞线、DSL,或例如红外线、无线电和/或微波的无线技术包括于媒体的定义中。如本文中所使用,磁盘和光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和Blu-ray DiscTM(加利福尼亚州环球影城市蓝光光盘协会(Blu-Ray Disc Association,Universal City,CA)),其中磁盘通常以磁性方式再现数据,而光盘使用激光以光学方式再现数据。以上各者的组合也应包括于计算机可读媒体的范围内。 
如本文中所描述的声学信号处理设备可并入到接受语音输入以便控制特定操作或可以其它方式受益于所要噪声与背景噪声的分离的电子装置(例如,通信装置)中。许多应用可受益于增强或分离清楚的所要声音与源自多个方向的背景声音。此些应用可在并入有例如话音辨识和检测、语音增强和分离、话音启动控制等的能力的电子或计算装置中包括人机接口。可能需要将此声学信号处理设备实施成适合于仅提供有限处理能力的装置中。 
可将如本文所描述的模块、元件和装置的各种实施方案的元件制造为驻留于(例如)同一芯片上或芯片组的两个或两个以上芯片之间的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)的阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可整体或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC)上执行的一个或一个以上指令集合。 
有可能使用如本文中所描述的设备的实施方案的一个或一个以上元件来执行并非与所述设备的操作直接相关的任务,或执行并非与所述设备的操作直接相关的其它指令集合,例如,与其中嵌入了所述设备的装置或系统的另一操作相关的任务。还有可能此设备的实施方案的一个或一个以上元件具有共同结构(例如,用以执行在不同时间对应于不同元件的代码部分的处理器,经执行以执行在不同时间对应于不同元件的任务的指令集合,或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。举例来说,可实施FFT模块FFT1到FFT4中的一者或一者以上(可能全部)以在不同时间使用相同结构(例如,界定FFT操作的相同指令集合)。 

Claims (63)

1.一种处理由麦克风阵列产生的多信道信号的方法,所述方法包含:
针对所述多信道信号的多个不同频率分量中的每一者,计算所述多信道信号的第一信道中的所述频率分量的相位与所述多信道信号的第二信道中的所述频率分量的相位之间的差;
基于来自所述多个所计算出的相位差的信息,计算:(A)第一一致性度量的值,所述值指示在第一空间扇区中至少所述多个不同频率分量的到达方向之间的一致性的程度;(B)第二一致性度量的值,所述值指示在不同于所述第一空间扇区的第二空间扇区中至少所述多个不同频率分量的到达方向之间的一致性的程度;
通过评估所述第一一致性度量的所述所计算出的值与所述第一一致性度量随时间的均值之间的关系来计算所述第一一致性度量的对比度;
通过评估所述第二一致性度量的所述所计算出的值与所述第二一致性度量随时间的均值之间的关系来计算所述第二一致性度量的对比度;以及
基于所述第一和第二一致性度量中哪一者具有最大对比度来指示所述第一和第二空间扇区中的一者。
2.根据权利要求1所述的方法,其中所述多个不同频率分量包括具有不大于1千赫兹的频率的至少一个频率分量和具有不小于1500赫兹的频率的至少一个频率分量。
3.根据权利要求1所述的方法,其中所述多个不同频率分量包括具有不大于800赫兹的频率的至少一个频率分量和具有不小于1800赫兹的频率的至少一个频率分量。
4.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包括基于所述多信道信号的所估计音调频率来选择所述多个不同频率分量。
5.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包括:
检测对应于所述所指示的扇区的所述一致性度量的值不大于对应阈值;以及
响应于所述检测,根据指定噪声频谱轮廓来改变所述多信道信号的至少一个信道的至少一个频率分量的振幅。
6.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包括当所述第一或第二一致性度量值小于指定阈值时,更新所述多信道信号的至少一个信道的噪声分量的估计。
7.根据权利要求1到3中任一权利要求所述的方法,其中所述计算所述第一一致性度量的所述值包含针对所述多个所计算出的相位差中的每一者计算对应方向指示符,且
其中所述多个方向指示符中的每一者指示以下各者中的至少一者:(A)对应频率分量的到达方向;(B)对应频率分量的到达时间延迟;以及(C)所述所计算出的相位差与对应频率分量的所述频率之间的比率,且
其中所述第一一致性度量的所述值是基于所述多个方向指示符。
8.根据权利要求7所述的方法,其中所述计算所述第一一致性度量的所述值包含针对所述多个方向指示符中的每一者根据方向遮蔽函数来评定所述方向指示符以获得对应遮罩得分,且
其中所述第一一致性度量的所述值是基于所述多个遮罩得分。
9.根据权利要求8所述的方法,其中所述方法包括基于所述对应遮罩得分来改变所述多信道信号的至少一个信道的所述多个频率分量中的至少一者的振幅以产生经遮蔽信号。
10.根据权利要求8所述的方法,其中所述方法包括:
基于对应于所述多信道信号的指定子频带中的频率分量的所述多个方向指示符中的至少一些的所述遮罩得分,计算子频带遮罩得分;以及
基于所述子频带遮罩得分来改变所述多信道信号的至少一个信道的至少所述指定子频带的所述频率分量的振幅,以产生经遮蔽信号。
11.根据权利要求9所述的方法,其中所述方法包括在所述经遮蔽信号的电平与所述至少一个信道的电平的比率较小时衰减所述经遮蔽信号。
12.根据权利要求1到3中任一权利要求所述的方法,其中所述指示所述第一和第二空间扇区中的一者是基于(A)具有所述最大对比度的所述一致性度量的所述所计算出的值与(B)对应于所述一致性度量的阈值之间的关系的状态。
13.根据权利要求12所述的方法,其中对应于所述第一一致性度量的所述阈值不同于对应于所述第二一致性度量的所述阈值。
14.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包含基于所述一致性度量的所述值与话音活动检测阈值之间的关系的状态来指示话音活动或者噪声在所述多信道信号中的存在。
15.根据权利要求1到3中任一权利要求所述的方法,其中所述多信道信号的所述第一和第二信道中的每一者是基于由一对麦克风中的对应一者产生的信号,且
其中所述第一空间扇区包括所述对麦克风的轴线,且所述第二空间扇区包括正交于所述轴线的方向,且
其中对应于所述第一一致性度量的所述阈值小于对应于所述第二一致性度量的所述阈值。
16.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包含,
在所述指示之后的时间,响应于检测到所述另一一致性度量具有所述最大对比度而指示所述第一和第二空间扇区中的另一者,
其中仅在所述另一一致性度量的值在所述后续时间不小于对应于所述另一一致性度量的所述阈值的情况下,才发生所述指示所述另一空间扇区。
17.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包含将波束施加到所述多信道信号的至少两个信道,其中所述波束的方向是基于所述第一和第二空间扇区中的所述所指示的一者。
18.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包含:
将零点波束施加到所述多信道信号的至少两个信道,其中所述波束的方向是基于所述第一和第二扇区中的所述所指示的一者;以及
基于所述施加零点波束的结果,更新所述多信道信号的噪声分量的估计。
19.根据权利要求1到3中任一权利要求所述的方法,其中所述第一一致性度量的所述值指示在第一频率范围上到达方向之间的一致性的程度,且
其中所述第二一致性度量的所述值指示在不同于所述第一频率范围的第二频率范围上到达方向之间的一致性的程度。
20.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包含针对第二多信道信号的多个不同频率分量中的每一者,计算所述第二多信道信号的第一信道中的所述频率分量的相位与所述第二多信道信号的第二信道中的所述频率分量的相位之间的差,以获得第二多个所计算出的相位差,且
其中所述多信道信号的所述第一和第二信道中的每一者是基于由第一对麦克风中的对应一者产生的信号,且
其中所述第二多信道信号的所述第一和第二信道中的每一者是基于由不同于所述第一对的第二对麦克风中的对应一者产生的信号,且
其中所述计算所述第一一致性度量的所述值和所述计算所述第二一致性度量的所述值中的至少一者是基于来自所述第二多个所计算出的相位差的信息。
21.根据权利要求20所述的方法,其中与所述第一对中的每一麦克风的位置相交的线不平行于与所述第二对中的每一麦克风的位置相交的线。
22.一种用于处理由麦克风阵列产生的多信道信号的设备,所述设备包含:
用于针对所述多信道信号的多个不同频率分量中的每一者计算所述多信道信号的第一信道中的所述频率分量的相位与所述多信道信号的第二信道中的所述频率分量的相位之间的差的装置;
用于基于来自所述多个所计算出的相位差的信息来计算以下值的装置:(A)第一一致性度量的值,所述值指示在第一空间扇区中至少所述多个不同频率分量的到达方向之间的一致性的程度;(B)第二一致性度量的值,所述值指示在不同于所述第一空间扇区的第二空间扇区中至少所述多个不同频率分量的到达方向之间的一致性的程度;
用于通过评估所述第一一致性度量的所述所计算出的值与所述第一一致性度量随时间的均值之间的关系来计算所述第一一致性度量的对比度的装置;
用于通过评估所述第二一致性度量的所述所计算出的值与所述第二一致性度量随时间的均值之间的关系来计算所述第二一致性度量的对比度的装置;以及
用于基于所述第一和第二一致性度量中哪一者具有最大对比度来指示所述第一和第二空间扇区中的一者的装置。
23.根据权利要求22所述的设备,其中所述多个不同频率分量包括具有不大于1千赫兹的频率的至少一个频率分量和具有不小于1500赫兹的频率的至少一个频率分量。
24.根据权利要求22所述的设备,其中所述多个不同频率分量包括具有不大于800赫兹的频率的至少一个频率分量和具有不小于1800赫兹的频率的至少一个频率分量。
25.根据权利要求22到24中任一权利要求所述的设备,其中所述设备包括用于基于所述多信道信号的所估计音调频率来选择所述多个不同频率分量的装置。
26.根据权利要求22到24中任一权利要求所述的设备,其中所述设备包括:
用于检测对应于所述所指示的扇区的所述一致性度量的值不大于对应阈值的装置;以及
用于响应于所述检测根据指定噪声频谱轮廓来改变所述多信道信号的至少一个信道的至少一个频率分量的振幅的装置。
27.根据权利要求22到24中任一权利要求所述的设备,其中所述设备包括用于当所述第一或第二一致性度量值小于指定阈值时更新所述多信道信号的至少一个信道的噪声分量的估计的装置。
28.根据权利要求22到24中任一权利要求所述的设备,其中所述用于计算所述第一一致性度量的所述值的装置包括用于针对所述多个所计算出的相位差中的每一者计算对应方向指示符的装置,且
其中所述多个方向指示符中的每一者指示以下各者中的至少一者:(A)对应频率分量的到达方向;(B)对应频率分量的到达时间延迟;以及(C)所计算出的相位差与对应频率分量的所述频率之间的比率,且
其中所述第一一致性度量的所述值是基于所述多个方向指示符。
29.根据权利要求28所述的设备,其中所述用于计算所述第一一致性度量的所述值的装置包含用于根据方向遮蔽函数来评定所述多个方向指示符中的每一者以获得对应遮罩得分的装置,且
其中所述第一一致性度量的所述值是基于所述多个遮罩得分。
30.根据权利要求29所述的设备,其中所述设备包括用于基于所述对应遮罩得分来改变所述多信道信号的至少一个信道的所述多个频率分量中的至少一者的振幅以产生经遮蔽信号的装置。
31.根据权利要求29所述的设备,其中所述设备包括:
用于基于对应于所述多信道信号的指定子频带中的频率分量的所述多个方向指示符中的至少一些的所述遮罩得分来计算子频带遮罩得分的装置;以及
用于基于所述子频带遮罩得分来改变所述多信道信号的至少一个信道的至少所述指定子频带的所述频率分量的振幅以产生经遮蔽信号的装置。
32.根据权利要求30所述的设备,其中所述设备包括用于在所述经遮蔽信号的电平与所述至少一个信道的电平的比率较小时衰减所述经遮蔽信号的装置。
33.根据权利要求22到24中任一权利要求所述的设备,其中所述用于指示的装置经配置以基于(A)具有所述最大对比度的所述一致性度量的所述所计算出的值与(B)对应于所述一致性度量的阈值之间的关系的状态来指示所述第一和第二空间扇区中的所述一者。
34.根据权利要求33所述的设备,其中对应于所述第一一致性度量的所述阈值不同于对应于所述第二一致性度量的所述阈值。
35.根据权利要求22到24中任一权利要求所述的设备,其中所述设备包含:用于基于所述一致性度量的所述值与话音活动检测阈值之间的关系的状态来指示话音活动或者噪声在所述多信道信号中的存在的装置。
36.根据权利要求22到24中任一权利要求所述的设备,其中所述多信道信号的所述第一和第二信道中的每一者是基于由一对麦克风中的对应一者产生的信号,且
其中所述第一空间扇区包括所述对麦克风的轴线,且所述第二空间扇区包括正交于所述轴线的方向,且
其中对应于所述第一一致性度量的所述阈值小于对应于所述第二一致性度量的所述阈值。
37.根据权利要求22到24中任一权利要求所述的设备,其中所述用于指示的装置经配置以在所述指示之后的时间,响应于检测到所述另一一致性度量具有所述最大对比度而指示所述第一和第二空间扇区中的另一者,
其中所述用于指示的装置经配置以仅在所述另一一致性度量的值在所述后续时间不小于对应于所述另一一致性度量的所述阈值的情况下,才指示所述另一空间扇区。
38.根据权利要求22到24中任一权利要求所述的设备,其中所述设备包含用于将波束施加到所述多信道信号的至少两个信道的装置,其中所述波束的方向是基于所述第一和第二空间扇区中的所述所指示的一者。
39.根据权利要求22到24中任一权利要求所述的设备,其中所述设备包含:
用于将零点波束施加到所述多信道信号的至少两个信道的装置,其中所述波束的方向是基于所述第一和第二扇区中的所述所指示的一者;以及
用于基于所述用于施加零点波束的装置的输出来更新所述多信道信号的噪声分量的估计的装置。
40.根据权利要求22到24中任一权利要求所述的设备,
其中所述第一一致性度量的所述值指示在第一频率范围上到达方向之间的一致性的程度,且
其中所述第二一致性度量的所述值指示在不同于所述第一频率范围的第二频率范围上到达方向之间的一致性的程度。
41.根据权利要求22到24中任一权利要求所述的设备,其中所述设备包含用于针对第二多信道信号的多个不同频率分量中的每一者计算所述第二多信道信号的第一信道中的所述频率分量的相位与所述第二多信道信号的第二信道中的所述频率分量的相位之间的差以获得第二多个所计算出的相位差的装置,且
其中所述多信道信号的所述第一和第二信道中的每一者是基于由第一对麦克风中的对应一者产生的信号,且
其中所述第二多信道信号的所述第一和第二信道中的每一者是基于由不同于所述第一对的第二对麦克风中的对应一者产生的信号,且
其中所述用于计算所述第一一致性度量的所述值的装置和所述用于计算所述第二一致性度量的所述值的装置中的至少一者经配置以基于来自所述第二多个所计算出的相位差的信息来计算所述一致性度量的所述值。
42.根据权利要求41所述的设备,其中与所述第一对中的每一麦克风的位置相交的线不平行于与所述第二对中的每一麦克风的位置相交的线。
43.一种用于处理由麦克风阵列产生的多信道信号的设备,所述设备包含:
相位差计算器,其经配置以针对所述多信道信号的多个不同频率分量中的每一者计算所述多信道信号的第一信道中的所述频率分量的相位与所述多信道信号的第二信道中的所述频率分量的相位之间的差;以及
一致性度量计算器,其经配置以基于来自所述多个所计算出的相位差的信息来计算:(A)第一一致性度量的值,所述值指示在第一空间扇区中至少所述多个不同频率分量的到达方向之间的一致性的程度;(B)第二一致性度量的值,所述值指示在不同于所述第一空间扇区的第二空间扇区中至少所述多个不同频率分量的到达方向之间的一致性的程度,
其中所述一致性度量计算器经配置以通过评估所述第一一致性度量的所述所计算出的值与所述第一一致性度量随时间的均值之间的关系来计算所述第一一致性度量的对比度;
其中所述一致性度量计算器经配置以通过评估所述第二一致性度量的所述所计算出的值与所述第二一致性度量随时间的均值之间的关系来计算所述第二一致性度量的对比度,且
其中所述一致性度量计算器经配置以基于所述第一和第二一致性度量中哪一者具有最大对比度来指示所述第一和第二空间扇区中的一者。
44.根据权利要求43所述的设备,其中所述多个不同频率分量包括具有不大于1千赫兹的频率的至少一个频率分量和具有不小于1500赫兹的频率的至少一个频率分量。
45.根据权利要求43所述的设备,其中所述多个不同频率分量包括具有不大于800赫兹的频率的至少一个频率分量和具有不小于1800赫兹的频率的至少一个频率分量。
46.根据权利要求43到45中任一权利要求所述的设备,其中所述相位差计算器和所述一致性度量计算器中的至少一者经配置以基于所述多信道信号的所估计音调频率来选择所述多个不同频率分量。
47.根据权利要求43到45中任一权利要求所述的设备,其中所述一致性度量计算器经配置以检测对应于所述所指示的扇区的所述一致性度量的值不大于对应阈值,且
其中所述设备包括频谱修改器,所述频谱修改器经配置以根据指定噪声频谱轮廓来改变所述多信道信号的至少一个信道的至少一个频率分量的振幅。
48.根据权利要求43到45中任一权利要求所述的设备,其中所述设备包括噪声估计器,所述噪声估计器经配置以,当所述第一或第二一致性度量值小于指定阈值时,更新所述多信道信号的至少一个信道的噪声分量的估计。
49.根据权利要求43到45中任一权利要求所述的设备,其中所述一致性度量计算器经配置以针对所述多个所计算出的相位差中的每一者计算对应方向指示符,且
其中所述多个方向指示符中的每一者指示以下各者中的至少一者:(A)对应频率分量的到达方向;(B)对应频率分量的到达时间延迟;以及(C)所述所计算出的相位差与对应频率分量的所述频率之间的比率,且
其中所述第一一致性度量的所述值是基于所述多个方向指示符。
50.根据权利要求49所述的设备,其中所述一致性度量计算器经配置以根据方向遮蔽函数来评定所述多个方向指示符中的每一者以获得对应遮罩得分,且
其中所述第一一致性度量的所述值是基于所述多个遮罩得分。
51.根据权利要求50所述的设备,其中所述设备包括经遮蔽信号产生器,所述经遮蔽信号产生器经配置以基于所述对应遮罩得分来改变所述多信道信号的至少一个信道的所述多个频率分量中的至少一者的振幅以产生经遮蔽信号。
52.根据权利要求50所述的设备,其中所述设备包括经遮蔽信号产生器,所述经遮蔽信号产生器经配置以基于对应于所述多信道信号的指定子频带中的频率分量的所述多个方向指示符中的至少一些的所述遮罩得分来计算子频带遮罩得分,且基于所述子频带遮罩得分来改变所述多信道信号的至少一个信道的至少所述指定子频带的所述频率分量的振幅以产生经遮蔽信号。
53.根据权利要求51所述的设备,其中所述经遮蔽信号产生器经配置以在所述经遮蔽信号的电平与所述至少一个信道的电平的比率较小时衰减所述经遮蔽信号。
54.根据权利要求43到45中任一权利要求所述的设备,其中所述一致性度量计算器经配置以基于(A)具有所述最大对比度的所述一致性度量的所述所计算出的值与(B)对应于所述一致性度量的阈值之间的关系的状态来指示所述第一和第二空间扇区中的所述一者。
55.根据权利要求54所述的设备,其中对应于所述第一一致性度量的所述阈值不同于对应于所述第二一致性度量的所述阈值。
56.根据权利要求43到45中任一权利要求所述的设备,其中所述设备包含话音活动检测器,所述话音活动检测器经配置以基于所述一致性度量的所述值与话音活动检测阈值之间的关系的状态来指示话音活动或者噪声在所述多信道信号中的存在。
57.根据权利要求43到45中任一权利要求所述的设备,其中所述多信道信号的所述第一和第二信道中的每一者是基于由一对麦克风中的对应一者产生的信号,且
其中所述第一空间扇区包括所述对麦克风的轴线,且所述第二空间扇区包括正交于所述轴线的方向,且
其中对应于所述第一一致性度量的所述阈值小于对应于所述第二一致性度量的所述阈值。
58.根据权利要求43到45中任一权利要求所述的设备,其中所述一致性度量计算器经配置以在所述指示之后的时间,响应于检测到所述另一一致性度量具有所述最大对比度而指示所述第一和第二空间扇区中的另一者,
其中所述一致性度量计算器经配置以仅在所述另一一致性度量的值在所述后续时间不小于对应于所述另一一致性度量的所述阈值的情况下,才指示所述另一空间扇区。
59.根据权利要求43到45中任一权利要求所述的设备,其中所述设备包含波束成形器,所述波束成形器经配置以将波束施加到所述多信道信号的至少两个信道,其中所述波束的方向是基于所述第一和第二空间扇区中的所述所指示的一者。
60.根据权利要求43到45中任一权利要求所述的设备,其中所述设备包含:
零点波束成形器,其经配置以将零点波束施加到所述多信道信号的至少两个信道,其中所述波束的方向是基于所述第一和第二扇区中的所述所指示的一者;以及
噪声估计器,其经配置以基于所述零点波束成形器的输出来更新所述多信道信号的噪声分量的估计。
61.根据权利要求43到45中任一权利要求所述的设备,其中所述第一一致性度量的所述值指示在第一频率范围上到达方向之间的一致性的程度,且
其中所述第二一致性度量的所述值指示在不同于所述第一频率范围的第二频率范围上到达方向之间的一致性的程度。
62.根据权利要求43到45中任一权利要求所述的设备,其中所述设备包含第二相位差计算器,所述第二相位差计算器经配置以针对第二多信道信号的多个不同频率分量中的每一者,计算所述第二多信道信号的第一信道中的所述频率分量的相位与所述第二多信道信号的第二信道中的所述频率分量的相位之间的差,以获得第二多个所计算出的相位差,且
其中所述多信道信号的所述第一和第二信道中的每一者是基于由第一对麦克风中的对应一者产生的信号,且
其中所述第二多信道信号的所述第一和第二信道中的每一者是基于由不同于所述第一对的第二对麦克风中的对应一者产生的信号,且
其中所述一致性度量计算器经配置以基于来自所述第二多个所计算出的相位差的信息来计算所述第一和第二一致性度量中的至少一者的所述值。
63.根据权利要求62所述的设备,其中与所述第一对中的每一麦克风的位置相交的线不平行于与所述第二对中的每一麦克风的位置相交的线。
CN2009801423034A 2008-10-24 2009-10-26 用于一致性检测的系统、方法和设备 Expired - Fee Related CN102197424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310233520.2A CN103295579B (zh) 2008-10-24 2009-10-26 用于一致性检测的系统、方法和设备

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US10844708P 2008-10-24 2008-10-24
US61/108,447 2008-10-24
US18551809P 2009-06-09 2009-06-09
US61/185,518 2009-06-09
US24031809P 2009-09-08 2009-09-08
US61/240,318 2009-09-08
US12/605,158 2009-10-23
US12/605,158 US8724829B2 (en) 2008-10-24 2009-10-23 Systems, methods, apparatus, and computer-readable media for coherence detection
PCT/US2009/062098 WO2010048620A1 (en) 2008-10-24 2009-10-26 Systems, methods, apparatus, and computer-readable media for coherence detection

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201310233520.2A Division CN103295579B (zh) 2008-10-24 2009-10-26 用于一致性检测的系统、方法和设备

Publications (2)

Publication Number Publication Date
CN102197424A CN102197424A (zh) 2011-09-21
CN102197424B true CN102197424B (zh) 2013-07-17

Family

ID=41651609

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2009801423034A Expired - Fee Related CN102197424B (zh) 2008-10-24 2009-10-26 用于一致性检测的系统、方法和设备
CN201310233520.2A Expired - Fee Related CN103295579B (zh) 2008-10-24 2009-10-26 用于一致性检测的系统、方法和设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201310233520.2A Expired - Fee Related CN103295579B (zh) 2008-10-24 2009-10-26 用于一致性检测的系统、方法和设备

Country Status (6)

Country Link
US (1) US8724829B2 (zh)
EP (1) EP2345031B1 (zh)
JP (2) JP5307248B2 (zh)
CN (2) CN102197424B (zh)
TW (1) TW201032220A (zh)
WO (1) WO2010048620A1 (zh)

Families Citing this family (319)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008092269A (ja) * 2006-10-02 2008-04-17 Matsushita Electric Ind Co Ltd ハンズフリー通話装置
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
CN103137139B (zh) * 2008-06-30 2014-12-10 杜比实验室特许公司 多麦克风语音活动检测器
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010058230A2 (en) * 2008-11-24 2010-05-27 Institut Rudjer Boskovic Method of and system for blind extraction of more than two pure components out of spectroscopic or spectrometric measurements of only two mixtures by means of sparse component analysis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CA2777601C (en) * 2009-10-15 2016-06-21 Widex A/S A hearing aid with audio codec and method
US20110096937A1 (en) * 2009-10-28 2011-04-28 Fortemedia, Inc. Microphone apparatus and sound processing method
US9838784B2 (en) * 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8897455B2 (en) 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8958572B1 (en) * 2010-04-19 2015-02-17 Audience, Inc. Adaptive noise cancellation for multi-microphone systems
US9165567B2 (en) 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US20110288860A1 (en) 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US9025782B2 (en) 2010-07-26 2015-05-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US8855341B2 (en) 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
US9031256B2 (en) 2010-10-25 2015-05-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for orientation-sensitive recording control
US9552840B2 (en) * 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US9111526B2 (en) 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US9330675B2 (en) 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
WO2012091643A1 (en) 2010-12-29 2012-07-05 Telefonaktiebolaget L M Ericsson (Publ) A noise suppressing method and a noise suppressor for applying the noise suppressing method
US8525868B2 (en) 2011-01-13 2013-09-03 Qualcomm Incorporated Variable beamforming with a mobile platform
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US9354310B2 (en) * 2011-03-03 2016-05-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8942382B2 (en) * 2011-03-22 2015-01-27 Mh Acoustics Llc Dynamic beamformer processing for acoustic echo cancellation in systems with high acoustic coupling
EP2716069B1 (en) * 2011-05-23 2021-09-08 Sonova AG A method of processing a signal in a hearing instrument, and hearing instrument
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8817917B2 (en) * 2011-06-21 2014-08-26 Ibiquity Digital Corporation Method and apparatus for implementing signal quality metrics and antenna diversity switching control
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10015589B1 (en) * 2011-09-02 2018-07-03 Cirrus Logic, Inc. Controlling speech enhancement algorithms using near-field spatial statistics
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
EP2771061B1 (en) * 2011-10-27 2020-07-29 MED-EL Elektromedizinische Geräte GmbH Optimized energy and data transfer in hearing implant systems
KR20130048075A (ko) 2011-11-01 2013-05-09 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US10448161B2 (en) 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US20130275873A1 (en) * 2012-04-13 2013-10-17 Qualcomm Incorporated Systems and methods for displaying a user interface
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140006017A1 (en) * 2012-06-29 2014-01-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal
US10075801B2 (en) * 2012-07-13 2018-09-11 Sony Corporation Information processing system and storage medium
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP6028502B2 (ja) 2012-10-03 2016-11-16 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
US9210499B2 (en) * 2012-12-13 2015-12-08 Cisco Technology, Inc. Spatial interference suppression using dual-microphone arrays
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
WO2014104815A1 (ko) * 2012-12-28 2014-07-03 한국과학기술연구원 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
US9516418B2 (en) 2013-01-29 2016-12-06 2236008 Ontario Inc. Sound field spatial stabilizer
SG11201505898XA (en) 2013-01-29 2015-09-29 Fraunhofer Ges Forschung Concept for coding mode switching compensation
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9257952B2 (en) 2013-03-13 2016-02-09 Kopin Corporation Apparatuses and methods for multi-channel signal compression during desired voice activity detection
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
TWI629464B (zh) * 2013-03-21 2018-07-11 唯亞威方案公司 用於識別一海產樣本之方法及裝置與用於判定一海產樣本之鮮度之方法
CN105122359B (zh) 2013-04-10 2019-04-23 杜比实验室特许公司 语音去混响的方法、设备和系统
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9269350B2 (en) 2013-05-24 2016-02-23 Google Technology Holdings LLC Voice controlled audio recording or transmission apparatus with keyword filtering
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9271100B2 (en) * 2013-06-20 2016-02-23 2236008 Ontario Inc. Sound field spatial stabilizer with spectral coherence compensation
US9099973B2 (en) 2013-06-20 2015-08-04 2236008 Ontario Inc. Sound field spatial stabilizer with structured noise compensation
DE112014003443B4 (de) * 2013-07-26 2016-12-29 Analog Devices, Inc. Mikrophonkalibrierung
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
KR102089638B1 (ko) 2013-08-26 2020-03-16 삼성전자주식회사 전자장치의 음성 녹음 방법 및 장치
WO2015041549A1 (en) * 2013-09-17 2015-03-26 Intel Corporation Adaptive phase difference based noise reduction for automatic speech recognition (asr)
KR20150050693A (ko) * 2013-10-30 2015-05-11 삼성전자주식회사 컨텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6295650B2 (ja) * 2013-12-25 2018-03-20 沖電気工業株式会社 音声信号処理装置及びプログラム
CA2947324C (en) 2014-04-30 2019-09-17 Motorola Solutions, Inc. Method and apparatus for discriminating between voice signals
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US20150348530A1 (en) * 2014-06-02 2015-12-03 Plantronics, Inc. Noise Masking in Headsets
US9946331B2 (en) 2014-06-27 2018-04-17 Samsung Electronics Co., Ltd. System and method to process signals having a common component
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
EP3220659B1 (en) * 2014-11-11 2021-06-23 Sony Corporation Sound processing device, sound processing method, and program
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
WO2016093854A1 (en) 2014-12-12 2016-06-16 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
CN105791961B (zh) * 2014-12-23 2018-12-07 深圳Tcl数字技术有限公司 终端与环绕音响之间音频数据的无线传输方法及系统
CA2971147C (en) * 2014-12-23 2022-07-26 Timothy DEGRAYE Method and system for audio sharing
JP2016127300A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
US9800964B2 (en) 2014-12-29 2017-10-24 Sound Devices, LLC Motion detection for microphone gating
DE112016000287T5 (de) 2015-01-07 2017-10-05 Knowles Electronics, Llc Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
EP3259927A1 (en) * 2015-02-19 2017-12-27 Dolby Laboratories Licensing Corporation Loudspeaker-room equalization with perceptual correction of spectral dips
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9489963B2 (en) * 2015-03-16 2016-11-08 Qualcomm Technologies International, Ltd. Correlation-based two microphone algorithm for noise reduction in reverberation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
DK3329692T3 (da) * 2015-07-27 2021-08-30 Sonova Ag Mikrofonaggregat med klemmefastgørelse
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
EP3157268B1 (en) * 2015-10-12 2021-06-30 Oticon A/s A hearing device and a hearing system configured to localize a sound source
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
US9878664B2 (en) * 2015-11-04 2018-01-30 Zoox, Inc. Method for robotic vehicle communication with an external environment via acoustic beam forming
US9804599B2 (en) 2015-11-04 2017-10-31 Zoox, Inc. Active lighting control for communicating a state of an autonomous vehicle to entities in a surrounding environment
US9494940B1 (en) 2015-11-04 2016-11-15 Zoox, Inc. Quadrant configuration of robotic vehicles
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11120814B2 (en) 2016-02-19 2021-09-14 Dolby Laboratories Licensing Corporation Multi-microphone signal enhancement
WO2017143105A1 (en) 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Multi-microphone signal enhancement
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
JP6645322B2 (ja) * 2016-03-31 2020-02-14 富士通株式会社 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム
WO2017174136A1 (en) * 2016-04-07 2017-10-12 Sonova Ag Hearing assistance system
BR112017021239B1 (pt) * 2016-04-29 2023-10-03 Honor Device Co., Ltd Método, aparelho, e meio legível por computador de determinação de exceção de entrada de voz
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US20180160226A1 (en) * 2016-12-05 2018-06-07 Semiconductor Components Industries, Llc Reducing or eliminating transducer reverberation
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
EP3346725B1 (en) 2017-01-05 2019-09-25 Harman Becker Automotive Systems GmbH Active noise reduction earphones
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10481202B2 (en) * 2017-02-13 2019-11-19 Qualcomm Incorporated In-field self-test controller for safety critical automotive use cases
CN110226101B (zh) * 2017-04-25 2021-09-14 华为技术有限公司 用于估计到达方向的设备和方法
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
CN107948900A (zh) * 2017-10-26 2018-04-20 青岛亿联客信息技术有限公司 一种电子设备麦克风阵列一致性检测方法及其装置
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10339949B1 (en) 2017-12-19 2019-07-02 Apple Inc. Multi-channel speech enhancement
CN108303463A (zh) * 2017-12-22 2018-07-20 江苏大学 一种用于禽蛋裂纹识别的音频传感器的检测装置及方法
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
KR102088222B1 (ko) * 2018-01-25 2020-03-16 서강대학교 산학협력단 분산도 마스크를 이용한 음원 국지화 방법 및 음원 국지화 장치
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11523212B2 (en) 2018-06-01 2022-12-06 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
CN109104683B (zh) * 2018-07-13 2021-02-02 深圳市小瑞科技股份有限公司 一种双麦克风相位测量校正的方法及校正系统
US11310596B2 (en) 2018-09-20 2022-04-19 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN109743653B (zh) * 2019-01-21 2020-11-10 闻泰通讯股份有限公司 耳机电路结构及通讯设备
US10665220B1 (en) * 2019-03-05 2020-05-26 Bose Corporation Active noise reduction (ANR) system with multiple feedforward microphones and multiple controllers
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
US11438691B2 (en) 2019-03-21 2022-09-06 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
WO2020191354A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
CN110012331B (zh) * 2019-04-11 2021-05-25 杭州微纳科技股份有限公司 一种红外触发的远场双麦远场语音识别方法
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
TW202101422A (zh) 2019-05-23 2021-01-01 美商舒爾獲得控股公司 可操縱揚聲器陣列、系統及其方法
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
EP3977449A1 (en) 2019-05-31 2022-04-06 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110383378B (zh) 2019-06-14 2023-05-19 深圳市汇顶科技股份有限公司 差分波束形成方法及模块、信号处理方法及装置、芯片
EP3764360B1 (en) * 2019-07-10 2024-05-01 Analog Devices International Unlimited Company Signal processing methods and systems for beam forming with improved signal to noise ratio
US11297426B2 (en) 2019-08-23 2022-04-05 Shure Acquisition Holdings, Inc. One-dimensional array microphone with improved directivity
JP7199322B2 (ja) * 2019-08-26 2023-01-05 株式会社東芝 測距装置及び測距方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110996244B (zh) * 2019-12-23 2021-08-03 四川虹美智能科技有限公司 麦克风阵列性能测试方法、装置及系统
US11508348B2 (en) * 2020-02-05 2022-11-22 Motorola Mobility Llc Directional noise suppression
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN113466840B (zh) * 2020-03-30 2022-09-20 阿里巴巴集团控股有限公司 测距方法、定位方法、装置、设备及系统
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
CN112365900B (zh) * 2020-10-30 2021-12-24 北京声智科技有限公司 一种语音信号增强方法、装置、介质和设备
WO2022150950A1 (zh) * 2021-01-12 2022-07-21 华为技术有限公司 评估传声器阵列一致性的方法和装置
CN116918351A (zh) 2021-01-28 2023-10-20 舒尔获得控股公司 混合音频波束成形系统
CN113889137B (zh) * 2021-12-06 2022-04-01 中国科学院自动化研究所 麦克风阵列语音增强的方法、装置、电子设备及存储介质
CN117935837B (zh) * 2024-03-25 2024-05-24 中国空气动力研究与发展中心计算空气动力研究所 一种时域多声源定位及噪声处理方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100230231B1 (ko) 1994-05-31 1999-11-15 윤종용 다채널 오디오 마스킹처리장치
JP3797751B2 (ja) * 1996-11-27 2006-07-19 富士通株式会社 マイクロホンシステム
US6654468B1 (en) * 1998-08-25 2003-11-25 Knowles Electronics, Llc Apparatus and method for matching the response of microphones in magnitude and phase
JP2002540696A (ja) 1999-03-19 2002-11-26 シーメンス アクチエンゲゼルシヤフト ノイズ音響に満ちた環境でのオーディオ信号の受信と処理のための方法
EP1198974B1 (en) * 1999-08-03 2003-06-04 Widex A/S Hearing aid with adaptive matching of microphones
JP3599653B2 (ja) 2000-09-06 2004-12-08 日本電信電話株式会社 収音装置、収音・音源分離装置及び収音方法、収音・音源分離方法並びに収音プログラム、収音・音源分離プログラムを記録した記録媒体
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030112896A1 (en) 2001-07-11 2003-06-19 Raghavan Sreen A. Multi-channel communications transceiver
JP3716918B2 (ja) 2001-09-06 2005-11-16 日本電信電話株式会社 収音装置、方法及びプログラム、記録媒体
US7171008B2 (en) * 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
JP2004128707A (ja) * 2002-08-02 2004-04-22 Sony Corp 指向性を備えた音声受信装置およびその方法
JP3949150B2 (ja) * 2003-09-02 2007-07-25 日本電信電話株式会社 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
JP4247195B2 (ja) * 2005-03-23 2009-04-02 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録した記録媒体
JP4896449B2 (ja) 2005-06-29 2012-03-14 株式会社東芝 音響信号処理方法、装置及びプログラム
JP2007027939A (ja) * 2005-07-13 2007-02-01 Advanced Telecommunication Research Institute International 音響信号処理装置
JP4701931B2 (ja) 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
JP5098176B2 (ja) 2006-01-10 2012-12-12 カシオ計算機株式会社 音源方向判定方法及び装置
JP4912036B2 (ja) * 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP4660740B2 (ja) * 2006-09-13 2011-03-30 独立行政法人産業技術総合研究所 電動車椅子搭載用音声入力装置
JP2008079256A (ja) 2006-09-25 2008-04-03 Toshiba Corp 音響信号処理装置、音響信号処理方法及びプログラム
EP2101513A4 (en) * 2006-11-22 2011-09-28 Funai Eaa Tech Res Inst Inc LANGUAGE INPUT DEVICE, METHOD FOR THEIR MANUFACTURE AND INFORMATION PROCESSING SYSTEM
US8041043B2 (en) * 2007-01-12 2011-10-18 Fraunhofer-Gessellschaft Zur Foerderung Angewandten Forschung E.V. Processing microphone generated signals to generate surround sound
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
GB2453118B (en) 2007-09-25 2011-09-21 Motorola Inc Method and apparatus for generating and audio signal from multiple microphones
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal

Also Published As

Publication number Publication date
US20110038489A1 (en) 2011-02-17
JP2013240082A (ja) 2013-11-28
JP2012507049A (ja) 2012-03-22
US8724829B2 (en) 2014-05-13
CN102197424A (zh) 2011-09-21
CN103295579A (zh) 2013-09-11
EP2345031B1 (en) 2015-07-29
EP2345031A1 (en) 2011-07-20
WO2010048620A1 (en) 2010-04-29
CN103295579B (zh) 2015-10-21
JP5307248B2 (ja) 2013-10-02
TW201032220A (en) 2010-09-01

Similar Documents

Publication Publication Date Title
CN102197424B (zh) 用于一致性检测的系统、方法和设备
CN102763160B (zh) 用于稳健噪声降低的麦克风阵列子组选择
CN102625946B (zh) 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体
CN102461203B (zh) 用于对多信道信号进行基于相位的处理的系统、方法及设备
US9165567B2 (en) Systems, methods, and apparatus for speech feature detection
KR101217970B1 (ko) 멀티채널 신호 밸런싱을 위한 시스템, 방법, 및 장치
US9025782B2 (en) Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing
Omologo et al. Environmental conditions and acoustic transduction in hands-free speech recognition
CN102893331A (zh) 用于使用头戴式麦克风对来处理语音信号的方法、设备和计算机可读媒体
US8639499B2 (en) Formant aided noise cancellation using multiple microphones
Rex Microphone signal processing for speech recognition in cars.
Ichikawa Noise Reduction Front-End for Robust Speech Recognition using Multi-Channel Signals and Harmonic Structure

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130717