CN102763160A - 用于稳健噪声降低的麦克风阵列子组选择 - Google Patents
用于稳健噪声降低的麦克风阵列子组选择 Download PDFInfo
- Publication number
- CN102763160A CN102763160A CN2011800098733A CN201180009873A CN102763160A CN 102763160 A CN102763160 A CN 102763160A CN 2011800098733 A CN2011800098733 A CN 2011800098733A CN 201180009873 A CN201180009873 A CN 201180009873A CN 102763160 A CN102763160 A CN 102763160A
- Authority
- CN
- China
- Prior art keywords
- pair
- microphone
- passage
- coherence measurement
- sector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009467 reduction Effects 0.000 title description 10
- 238000000034 method Methods 0.000 claims abstract description 111
- 238000005259 measurement Methods 0.000 claims description 135
- 230000004044 response Effects 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 34
- 238000004891 communication Methods 0.000 description 32
- 238000010586 diagram Methods 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000005070 sampling Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 238000003491 array Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 10
- 230000009977 dual effect Effects 0.000 description 10
- 230000001747 exhibiting effect Effects 0.000 description 10
- 238000009499 grossing Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 206010038743 Restlessness Diseases 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000009434 installation Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 210000002310 elbow joint Anatomy 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000007790 scraping Methods 0.000 description 2
- 239000010454 slate Substances 0.000 description 2
- 241000256844 Apis mellifera Species 0.000 description 1
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 244000105624 Arachis hypogaea Species 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 206010019133 Hangover Diseases 0.000 description 1
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 description 1
- 101100229939 Mus musculus Gpsm1 gene Proteins 0.000 description 1
- 240000005373 Panax quinquefolius Species 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 229920002457 flexible plastic Polymers 0.000 description 1
- 235000015220 hamburgers Nutrition 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000006187 pill Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
一种所揭示的方法基于关于多通道信号的至少一个频率分量的到达方向的信息来选择所述多通道信号的多个(少于全部)通道。
Description
根据35U.S.C.§119主张优先权
本专利申请案主张2010年2月18日申请的题为“用于稳健噪声降低的麦克风阵列子组选择(MICROPHONE ARRAY SUBSET SELECTION FOR ROBUST NOISEREDUCTION)”的第61/305,763号临时申请案(代理人案号100217P1)的优先权,所述临时申请案转让给本案的受让人且在此以引用的方式明确地并入本文中。
技术领域
本发明涉及信号处理。
背景技术
先前在安静的办公室或家庭环境中进行的许多活动现今是在声响可变的情形(如汽车、街道或咖啡馆)中执行。举例来说,一个人可能需要使用语音通信通道与另一个人通信。所述通道可(例如)由移动无线手持机或头戴式耳机(headset)、对讲机、双向无线电、车载套件(car-kit)或另一通信装置提供。因此,在用户由其它人包围的环境(具有在人们趋向于聚集的地方通常遇到的种类的噪声内容)中使用移动装置(例如,智能电话、手持机及/或头戴式耳机)发生大量的语音通信。此噪声趋向于使在电话对话的远端的用户分心或受到干扰。此外,许多标准自动化商业交易(例如,账户结余或股票报价检查)采用以语音辨识为基础的数据查询,且干扰性噪声可能显著地妨碍这些系统的准确度。
对于通信发生于有噪声环境中的应用来说,可能需要分离所要的话音信号与背景噪声。可将噪声定义为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包括:在声环境(例如其它人的背景对话)内产生的众多噪声信号,以及从所要信号及/或其它信号中的任一者产生的反射及回响。除非分离所要的话音信号与背景噪声,否则可能难以可靠及有效地使用所要的话音信号。在一个特定实例中,在有噪声环境中产生话音信号,且使用话音处理方法来分离话音信号与环境噪声。
在移动环境中遇到的噪声可包括多种不同分量,例如竞争的讲话者、音乐、混串音(babble)、街道噪声及/或机场噪声。因为此噪声的特征通常是不稳定的且接近于用户自己的频率特征,所以可能难以使用传统的单麦克风或固定式波束成形型方法来模型化所述噪声。单麦克风噪声降低技术通常需要显著的参数调整来实现最佳性能。举例来说,在这些状况下可能无法直接获得合适的噪声参考,且可能有必须间接地导出噪声参考。因此,可能需要以多麦克风为基础的高级信号处理来支持将移动装置用于有噪声环境中的语音通信。
发明内容
根据一个一般配置的处理多通道信号的方法包括:针对多通道信号的多个不同频率分量中的每一者来计算在第一时间在所述多通道信号的第一对通道中的每一者中所述频率分量的相位之间的差,以获得第一多个相位差;及基于来自所述第一多个计算出的相位差的信息来计算第一相干性测量的值,所述第一相干性测量指示在第一时间所述第一对的至少所述多个不同频率分量的到达方向在第一空间扇区中相干的程度。此方法还包括:针对多通道信号的所述多个不同频率分量中的每一者来计算在第二时间在所述多通道信号的第二对通道(所述第二对不同于所述第一对)中的每一者中所述频率分量的相位之间的差,以获得第二多个相位差;及基于来自所述第二多个计算出的相位差的信息来计算第二相干性测量的值,所述第二相干性测量指示在第二时间所述第二对的至少所述多个不同频率分量的到达方向在第二空间扇区中相干的程度。此方法还包括:通过评估第一相干性测量的计算值与第一相干性测量随时间的平均值之间的关系来计算第一相干性测量的对比度;及通过评估第二相干性测量的计算值与第二相干性测量随时间的平均值之间的关系来计算第二相干性测量的对比度。此方法还包括基于第一相干性测量及第二相干性测量当中的哪一者具有最大对比度而在第一对通道及第二对通道当中选择一对。所揭示的配置还包括具有有形特征的计算机可读存储媒体,所述有形特征使读取所述特征的机器执行此方法。
根据一个一般配置的用于处理多通道信号的设备包括:用于针对多通道信号的多个不同频率分量中的每一者来计算在第一时间在所述多通道信号的第一对通道中的每一者中所述频率分量的相位之间的差以获得第一多个相位差的装置;及用于基于来自所述第一多个计算出的相位差的信息来计算第一相干性测量的值的装置,所述第一相干性测量指示在第一时间所述第一对的至少所述多个不同频率分量的到达方向在第一空间扇区中相干的程度。此设备还包括:用于针对多通道信号的所述多个不同频率分量中的每一者来计算在第二时间在所述多通道信号的第二对通道(所述第二对不同于所述第一对)中的每一者中所述频率分量的相位之间的差以获得第二多个相位差的装置;及用于基于来自所述第二多个计算出的相位差的信息来计算第二相干性测量的值的装置,所述第二相干性测量指示在第二时间所述第二对的至少所述多个不同频率分量的到达方向在第二空间扇区中相干的程度。此设备还包括:用于通过评估第一相干性测量的计算值与第一相干性测量随时间的平均值之间的关系来计算第一相干性测量的对比度的装置;及用于通过评估第二相干性测量的计算值与第二相干性测量随时间的平均值之间的关系来计算第二相干性测量的对比度的装置。此设备还包括用于基于第一相干性测量及第二相干性测量当中的哪一者具有最大对比度而在第一对通道及第二对通道当中选择一对的装置。
根据另一个一般配置的用于处理多通道信号的设备包括:第一计算器,其经配置以针对多通道信号的多个不同频率分量中的每一者来计算在第一时间在所述多通道信号的第一对通道中的每一者中所述频率分量的相位之间的差以获得第一多个相位差;及第二计算器,其经配置以基于来自所述第一多个计算出的相位差的信息来计算第一相干性测量的值,所述第一相干性测量指示在第一时间所述第一对的至少所述多个不同频率分量的到达方向在第一空间扇区中相干的程度。此设备还包括:第三计算器,其经配置以针对多通道信号的所述多个不同频率分量中的每一者来计算在第二时间在所述多通道信号的第二对通道(所述第二对不同于所述第一对)中的每一者中所述频率分量的相位之间的差以获得第二多个相位差;及第四计算器,其经配置以基于来自所述第二多个计算出的相位差的信息来计算第二相干性测量的值,所述第二相干性测量指示在第二时间所述第二对的至少所述多个不同频率分量的到达方向在第二空间扇区中相干的程度。此设备还包括:第五计算器,其经配置以通过评估第一相干性测量的计算值与第一相干性测量随时间的平均值之间的关系来计算第一相干性测量的对比度;及第六计算器,其经配置以通过评估第二相干性测量的计算值与第二相干性测量随时间的平均值之间的关系来计算第二相干性测量的对比度。此设备还包括一选择器,其经配置以基于第一相干性测量及第二相干性测量当中的哪一者具有最大对比度而在第一对通道及第二对通道当中选择一对。
附图说明
图1展示在标称手持机模式固持位置中使用的手持机的实例。
图2展示处于两个不同固持位置中的手持机的实例。
图3、4及5展示在正面具有一行三个麦克风及在背面具有另一麦克风的手持机的不同固持位置的实例。
图6展示手持机D340的正视图、后视图及侧视图。
图7展示手持机D360的正视图、后视图及侧视图。
图8A展示阵列R100的实施方案R200的框图。
图8B展示阵列R200的实施方案R210的框图。
图9A到9D展示多麦克风无线头戴式耳机D100的各种视图。
图10A到10D展示多麦克风无线头戴式耳机D200的各种视图。
图11A展示多麦克风通信手持机D300的横截面图(沿中心轴线)。
图11B展示装置D300的实施方案D310的横截面图。
图12A展示多麦克风便携式媒体播放器D400的图。
图12B展示多麦克风便携式媒体播放器D400的实施方案D410的图。
图12C展示多麦克风便携式媒体播放器D400的实施方案D420的图。
图13A展示手持机D320的正视图。
图13B展示手持机D320的侧视图。
图13C展示手持机D330的正视图。
图13D展示手持机D330的侧视图。
图14展示用于手持型应用的便携式多麦克风音频感测装置D800的图。
图15A展示多麦克风免持车载套件D500的图。
图15B展示多麦克风书写装置D600的图。
图16A及16B展示便携式计算装置D700的两个视图。
图16C及16D展示便携式计算装置D710的两个视图。
图17A到17C展示便携式音频感测装置的额外实例。
图18展示在多源环境中阵列R100的三麦克风实施方案的实例。图19及20展示相关实例。
图21A到21D展示会议装置的若干实例的俯视图。
图22A展示根据一般配置的方法M100的流程图。
图22B展示根据一般配置的设备MF100的框图。
图22C展示根据一般配置的设备A100的框图。
图23A展示任务T100的实施方案T102的流程图。
图23B展示相对于麦克风对MC10-MC20的空间扇区的实例。
图24A及24B展示几何近似法的实例,其说明用以估计到达方向的方法。
图25展示一不同模型的实例。
图26展示针对一信号的FFT的量值对频率区间的曲线图。
图27展示对图26的频谱执行的音调选择操作的结果。
图28A到28D展示屏蔽函数的实例。
图29A到29D展示非线性屏蔽函数的实例。
图30展示相对于麦克风对MC20-MC10的空间扇区的实例。
图31展示方法M100的实施方案M110的流程图。
图32展示方法M110的实施方案M112的流程图。
图33展示设备MF100的实施方案MF112的框图。
图34A展示设备A100的实施方案A112的框图。
图34B展示设备A112的实施方案A1121的框图。
图35展示相对于手持机D340的各种麦克风对的空间扇区的实例。
图36展示相对于手持机D340的各种麦克风对的空间扇区的实例。
图37展示相对于手持机D340的各种麦克风对的空间扇区的实例。
图38展示相对于手持机D340的各种麦克风对的空间扇区的实例。
图39展示相对于手持机D360的各种麦克风对的空间扇区的实例。
图40展示相对于手持机D360的各种麦克风对的空间扇区的实例。
图41展示相对于手持机D360的各种麦克风对的空间扇区的实例。
图42展示方法M100的实施方案M200的流程图。
图43A展示根据一般配置的装置D10的框图。
图43B展示通信装置D20的框图。
具体实施方式
此描述包括系统、方法及设备的揭示内容,所述系统、方法及设备应用关于麦克风间距离的信息以及频率与麦克风间相位差之间的相关性来确定所感测的多通道信号的一特定频率分量是来源于可允许的麦克风间角度的范围内还是来源于所述范围外。此确定可用以在从不同方向到达的信号之间进行区分(例如,使得来源于所述范围内的声音得以保持,而来源于所述范围外的声音受到抑制)及/或在近场信号与远场信号之间进行区分。
除非受上下文明确限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如在导线、总线或其它传输媒体上所表达的存储器位置(或存储器位置的集合)的状态。除非受上下文明确限制,否则术语“产生”在本文中用以指示其普通意义中的任一者,例如计算或以其它方式得到。除非受上下文明确限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如计算、评估、估计及/或从多个值进行选择。除非受上下文明确限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件阵列)。除非受上下文明确限制,否则术语“选择”用以指示其普通意义中的任一者,例如识别、指示、应用及/或使用两者或两者以上的一集合中的至少一个者(且少于全部)。在术语“包含”用于本描述及权利要求书中的情况下,其并不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通意义中的任一者,包括以下状况:(i)“从…导出”(例如,“B为A之前身”);(ii)“至少基于”(例如,“A至少基于B”);及如果在特定上下文中适当,则(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包括“至少响应于”。
除非上下文另外指示,否则对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置。根据特定上下文,术语“通道”在一些时候用以指示信号路径且在其它时候用以指示由此路径携载的信号。除非另外指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示底数为10的对数,但此运算扩展到其它底数也在本发明的范围内。术语“频率分量”用以指示在信号的频率或频带的集合当中的一者,例如信号的频域表示的样本(例如,如通过快速傅立叶变换产生)或信号的子带(例如,巴克(Bark)标度或梅尔(mel)标度子带)。
除非另外指示,否则具有特定特征的设备的操作的任何揭示内容还明确地既定揭示具有类似特征的方法(且反之亦然),且根据特定配置的设备的操作的任何揭示内容还明确地既定揭示根据类似配置的方法(且反之亦然)。如特定上下文所指示,术语“配置”可关于方法、设备及/或系统来使用。除非特定上下文另外指示,否则一般性地且可互换地使用术语“方法”、“过程”、“程序”及“技术”。除非特定上下文另外指示,否则还一般性地且可互换地使用术语“设备”及“装置”。术语“元件”及“模块”通常用以指示较大配置的一部分。除非受上下文明确限制,否则术语“系统”在本文中用以指示其普通意义中的任一者,包括“为实现共同目的而交互的元件的群组”。通过引用文献的一部分而进行的任何并入还应理解为并入有在所述部分内所引用的术语或变量的定义(其中这些定义出现在所述文献中的别处)以及在所并入的部分中所引用的任何图。
可将近场定义为距声音接收器(例如,麦克风阵列)的距离小于一个波长的空间区域。按照此定义,到所述区域的边界的距离与频率成反比地变化。在200赫兹、700赫兹及2000赫兹的频率下,例如,到一个波长的边界的距离分别约为170厘米、49厘米及17厘米。改为将近场/远场边界视为距麦克风阵列一特定距离(例如,距所述阵列的一麦克风或距所述阵列的质心50厘米,或距所述阵列的一麦克风或距所述阵列的质心1米或1.5米)可为有用的。
图1展示在标称手持机模式固持位置中使用的具有双麦克风阵列(包括主要麦克风及次要麦克风)的手持机的实例。在此实例中,所述阵列的主要麦克风位于手持机的正面(即,朝着用户)且次要麦克风位于手持机的背面(即,远离用户),但所述阵列也可配置有位于手持机的同一侧上的麦克风。
在手持机处于此固持位置中的情况下,来自麦克风阵列的信号可用以支持双麦克风噪声降低。举例来说,手持机可经配置以对经由麦克风阵列所接收的立体声信号(即,其中每一通道是基于由所述两个麦克风中的一个对应麦克风产生的信号的立体声信号)执行空间选择性处理(SSP)操作。SSP操作的实例包括基于通道之间的相位及/或电平(例如,振幅、增益、能量)差来指示所接收的多通道信号的一个或一个以上频率分量的到达方向(DOA)的操作。SSP操作可经配置以区别由从前向端射方向到达所述阵列的声音引起的信号分量(例如,从用户嘴巴的方向到达的所要语音信号)与由从边射方向(broadsidedirection)到达所述阵列的声音引起的信号分量(例如,来自周围环境的噪声)。
双麦克风布置可能对方向性噪声敏感。举例来说,双麦克风布置可准许从位于大型空间区域内的源到达的声音进入,使得可能难以基于以相位为基础的方向相干性及增益差的严格阈值而在近场源与远场源之间进行区分。
当所要声音信号从远离麦克风阵列的轴线的方向达到时,双麦克风噪声降低技术通常较不有效。当将手持机固持为远离嘴巴(例如,处于图2中所示的角固持位置中的任一者中)时,麦克风阵列的轴线侧面对着嘴巴,且有效的双麦克风噪声降低可能是不可能的。在手持机被固持于此位置中的时间间隔期间使用双麦克风噪声降低可能会导致使所要语音信号衰减。针对手持机模式,以双麦克风为基础的方案通常无法跨越广泛范围的电话固持位置提供一致的噪声降低而不在所述位置中的至少一些位置中使所要话音电平衰减。
针对阵列的端射方向是指向远离用户嘴巴的固持位置,可能需要切换到单麦克风噪声降低方案以避免话音衰减。这些操作可在这些边射时间间隔期间降低稳定性噪声(例如,通过在频域中减去来自通道的时间平均噪声信号)及/或保持话音。然而,单麦克风噪声降低方案通常不提供非稳定性噪声(例如,脉冲及其它突然及/或短暂的噪声事件)的降低。
可得出结论:针对手持机模式中可遇到的广泛范围的角固持位置,双麦克风方法通常将无法同时提供一致的噪声降低与所要话音电平的保持两者。
所提议的解决方案使用三个或三个以上麦克风的一集合连同一切换策略,所述切换策略从所述集合当中选择一阵列(例如,所选的一对麦克风)。换句话说,所述切换策略选择所述集合的少于全部麦克风的一阵列。此选择是基于关于由所述麦克风集合产生的多通道信号的至少一个频率分量的到达方向的信息。
在端射布置中,麦克风阵列相对于信号源(例如,用户嘴巴)定向,以使得阵列的轴线对准信号源。此布置提供所要的话音-噪声信号的两个有最大差异的混合物。在边射布置中,麦克风阵列相对于信号源(例如,用户嘴巴)定向,以使得从阵列中心到信号源的方向大致正交于阵列的轴线。此布置产生所要的话音-噪声信号的两个基本上非常相似的混合物。因此,针对使用小型麦克风阵列(例如,在便携式装置上)来支持噪声降低操作的状况,端射布置通常是优选的。
图3、4及5展示在正面具有一行三个麦克风及在背面具有另一麦克风的手持机的不同使用状况(此处为不同固持位置)的实例。在图3中,手持机被固持于标称固持位置中,使得用户嘴巴在中心前麦克风(作为主要麦克风)及后麦克风(次要麦克风)的阵列的端射方向中,且切换策略选择此对麦克风。在图4中,手持机经固持以使得用户嘴巴在左前麦克风(作为主要麦克风)及中心前麦克风(次要麦克风)的阵列的端射方向中,且切换策略选择此对麦克风。在图5中,手持机经固持以使得用户嘴巴在右前麦克风(作为主要麦克风)及中心前麦克风(次要麦克风)的阵列的端射方向中,且切换策略选择此对麦克风。
此技术可基于用于手持机模式的三个、四个或四个以上麦克风的阵列。图6展示手持机D340的正视图、后视图及侧视图,所述手持机D340具有可经配置以执行此策略的五个麦克风的集合。在此实例中,所述麦克风中的三个麦克风以线性阵列位于正面上,另一麦克风位于正面的顶角,且另一麦克风位于背面上。图7展示手持机D360的正视图、后视图及侧视图,所述手持机D360具有可经配置以执行此策略的五个麦克风的一不同布置。在此实例中,所述麦克风中的三个麦克风位于正面上,且所述麦克风中的两个麦克风位于背面上。这些手持机的麦克风之间的最大距离通常约为10或12厘米。本文中描述具有也可经配置以执行此策略的两个或两个以上麦克风的手持机的其它实例。
在设计与此切换策略一起使用的麦克风的集合的过程中,可能需要定向个别麦克风对的轴线以使得针对所有预期的源-装置定向,可能存在至少一个大体上以端射方式定向的麦克风对。所得布置可根据特定的预期使用状况而变化。
一般来说,可使用一个或一个以上便携式音频感测装置来实施本文中所描述的切换策略(例如,如在下文所陈述的方法M100的各种实施方案中),所述一个或一个以上便携式音频感测装置各自具有经配置以接收声信号的两个或两个以上麦克风的阵列R100。可经建构以包括此阵列且与此切换策略一起用于音频记录及/或语音通信应用的便携式音频感测装置的实例包括:电话手持机(例如,蜂窝式电话手持机);有线或无线头戴式耳机(例如,蓝牙头戴式耳机);手持型音频及/或视频记录器;经配置以记录音频及/或视频内容的个人媒体播放器;个人数字助理(PDA)或其它手持型计算装置;及笔记型计算机、膝上型计算机、迷你笔记型计算机、平板计算机或其它便携式计算装置。可经建构以包括阵列R100的实例且与此切换策略一起使用的音频感测装置的其它实例包括机顶盒(set-top box)及音频会议装置及/或视频会议装置。
阵列R100的每一麦克风可具有全向、双向或单向的响应(例如,心形线)。可用于阵列R100中的各种类型的麦克风包括(不限于)压电麦克风、动态麦克风及驻极体麦克风。在用于便携式语音通信的装置(例如手持机或头戴式耳机)中,阵列R100的邻近麦克风之间的中心到中心的间距通常在约1.5cm到约4.5cm的范围中,但在例如手持机或智能电话的装置中更大的间距(例如,高达10cm或15cm)也是可能的,且在例如平板计算机的装置中甚至更大的间距(例如,高达20cm、25cm或30cm或更大)是可能的。在助听器中,阵列R100的邻近麦克风之间的中心到中心的间距可约为4mm或5mm那么小。阵列R100的麦克风可沿一条线布置,或者经布置以使得其中心位于二维形状(例如,三角形)或三维形状的顶点。然而,一般来说,阵列R100的麦克风可按被认为适合于特定应用的任何配置来安置。举例来说,图6及7中的每一者展示不符合规则多边形的阵列R100的五麦克风实施方案的实例。
在如本文中所描述的多麦克风音频感测装置的操作期间,阵列R100产生多通道信号,其中每一通道是基于所述麦克风中的一个对应麦克风对声环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音,使得对应的通道彼此不同以共同地提供比使用单一麦克风可俘获的表示更完整的对声环境的表示。
可能需要使阵列R100对由麦克风产生的信号执行一个或一个以上处理操作以产生多通道信号S10。图8A展示阵列R100的实施方案R200的框图,所述实施方案R200包括经配置以执行一个或一个以上这些操作的音频预处理级AP10,所述一个或一个以上这些操作可包括(不限于)阻抗匹配、模/数转换、增益控制及/或在模拟域及/或数字域中的滤波。
图8B展示阵列R200的实施方案R210的框图。阵列R210包括音频预处理级AP10的实施方案AP20,实施方案AP20包括模拟预处理级P10a及P10b。在一个实例中,级P10a及P10b各自经配置以对相对应的麦克风信号执行高通滤波操作(例如,截止频率为50Hz、100Hz或200Hz)。
可能需要使阵列R100将多通道信号产生为数字信号(即,样本序列)。举例来说,阵列R210包括各自经布置以对相对应的模拟通道进行取样的模/数转换器(ADC)C10a及C10b。声应用的典型取样速率包括8kHz、12kHz、16kHz及在约8kHz到约16kHz的范围中的其它频率,但也可使用高达约44kHz的取样速率。在此特定实例中,阵列R210还包括各自经配置以对相对应的经数字化通道执行一个或一个以上预处理操作(例如,回音消除、噪声降低及/或频谱成形)的数字预处理级P20a及P20b。
明确注意到,可将阵列R100的麦克风更一般地实施为对除声音外的辐射或发射敏感的变换器。在一个此实例中,将阵列R100的麦克风实施为超声波变换器(例如,对大于15千赫、20千赫、25千赫、30千赫、40千赫或50千赫或更大的声频率敏感的变换器)。
图9A到图9D展示多麦克风便携式音频感测装置D100的各种视图。装置D100为无线头戴式耳机,其包括载有阵列R100的双麦克风实施方案的外壳Z10及从所述外壳延伸的听筒Z20。此装置可经配置以经由与例如蜂窝式电话手持机的电话装置进行的通信(例如,使用如由华盛顿州贝尔维尤市蓝牙特殊兴趣小组公司(Bluetooth Special InterestGroup,Inc.,Bellevue,WA)发布的BluetoothTM协议的一版本)来支持半双工或全双工电话。一般来说,如图9A、9B及9D中所示,头戴式耳机的外壳可为矩形或其它细长型的(例如,形状像小型吊杆),或可能更圆或甚至为圆形。外壳还可封围住电池及处理器及/或其它处理电路(例如,印刷电路板及安装到其上的组件)且可包括电端口(例如,小型通用串行总线(USB)或用于电池充电的其它端口)及例如一个或一个以上按钮开关及/或LED的用户接口特征。通常,外壳沿其长轴线的长度在1英寸到3英寸的范围内。
通常,阵列R100的每一麦克风安装于装置内,在外壳中的充当声端口的一个或一个以上小孔后面。图9B到图9D展示用于装置D100的阵列的主要麦克风的声端口Z40及用于装置D100的阵列的次要麦克风的声端口Z50的位置。
头戴式耳机还可包括通常可从头戴式耳机拆卸的紧固装置(例如耳钩Z30)。外部耳钩可为可反转的(例如)以允许用户配置头戴式耳机以便在任一耳朵上使用。或者,可将头戴式耳机的听筒设计为内部紧固装置(例如,耳塞),其可包括可装卸式听筒以允许不同用户使用不同大小(例如,直径)的听筒来更好地配合特定用户的耳道的外部分。
图10A到10D展示多麦克风便携式音频感测装置D200(无线头戴式耳机的另一实例)的各种视图。装置D200包括圆的椭圆形外壳Z12及可配置为耳塞的听筒Z22。图10A到10D还展示用于装置D200的阵列的主要麦克风的声端口Z42及用于装置D200的阵列的次要麦克风的声端口Z52的位置。有可能可至少部分地封闭(例如,通过用户接口按钮)次要麦克风端口Z52。
图11A展示多麦克风便携式音频感测装置D300(通信手持机)的横截面图(沿中心轴线)。装置D300包括具有主要麦克风MC10及次要麦克风MC20的阵列R100的实施方案。在此实例中,装置D300还包括主要扬声器SP10及次要扬声器SP20。此装置可经配置以经由一种或一种以上编码及解码方案(还被称为“编解码器”)无线地发射及接收语音通信数据。这些编解码器的实例包括:如2007年2月的题为“增强型可变速率编解码器,用于宽带扩频数字系统的话音服务选项3、68和70(Enhanced Variable RateCodec、Speech Service Options 3,68,and 70 for Wideband Spread Spectrum DigitalSystems)”的第三代合作伙伴计划2(3GPP2)文献C.S0014-C(v1.0)(在www-dot-3gpp-dot-org在线可得)中所描述的增强型可变速率编解码器;如2004年1月的题为“用于宽带扩频通信系统的可选模式声码器(SMV)服务选项(Selectable ModeVocoder(SMV)Service Option for Wideband Spread Spectrum Communication Systems)”的3GPP2文献C.S0030-0(v3.0)(在www-dot-3gpp-dot-org在线可得)中所描述的可选模式声码器话音编解码器;如文献ETSI TS 126 092 V6.0.0(欧洲电信标准协会(ETSI),法国索菲亚安提波利斯企业特投(Sophia Antipolis Cedex,FR),2004年12月)中所描述的自适应多速率(AMR)话音编解码器;及如文献ETSI TS 126 192 V6.0.0(ETSI,2004年12月)中所描述的AMR宽带话音编解码器。在图3A的实例中,手持机D300为掀盖型蜂窝式电话手持机(还被称为“翻盖”手持机)。此多麦克风通信手持机的其它配置包括直板型及滑盖型电话手持机。图11B展示装置D300的实施方案D310的横截面图,所述实施方案D310包括阵列R100的三麦克风型实施方案(包括第三麦克风MC30)。
图12A展示多麦克风便携式音频感测装置D400(媒体播放器)的图。此装置可经配置以用于重放经压缩的音频或视听信息,例如根据标准压缩格式(例如,动画专家小组(MPEG)-1音频层3(MP3)、MPEG-4第14部分(MP4)、Windows媒体音频/视频(WMA/WMV)(华盛顿州雷蒙德市微软公司(Microsoft Corp.,Redmond,WA))的一版本、高级音频译码(AAC)、国际电信联盟(ITU)-T H.264或其类似者)编码的文件或串流。装置D400包括安置于装置的正面的显示屏SC10及扬声器SP10,且阵列R100的麦克风MC10及MC20安置于装置的同一面上(例如,如在此实例中安置于顶面的相对侧上,或安置于正面的相对侧上)。图12B展示装置D400的另一实施方案D410,其中麦克风MC10及MC20安置于装置的相对面上,且图12C展示装置D400的再一实施方案D420,其中麦克风MC10及MC20安置于装置的邻近面上。还可设计媒体播放器以使得较长的轴线在预期使用期间为水平的。
在阵列R100的四麦克风实例的实例中,麦克风是按大致为四面体的配置来布置,使得一个麦克风定位于顶点由其它三个麦克风(间隔约3厘米)的位置界定的三角形后面(例如,在后面约1厘米)。此阵列的潜在应用包括在扬声器电话模式(speakerphone mode)下操作的手持机,对于所述模式,说话者嘴巴与阵列之间的预期距离约为20厘米到30厘米。图13A展示包括阵列R100的此实施方案的手持机D320的正视图,其中四个麦克风MC10、MC20、MC30、MC40是按大致为四面体的配置来布置。图13B展示手持机D320的侧视图,其展示所述手持机内的麦克风MC10、MC20、MC30及MC40的位置。
用于手持机应用的阵列R100的四麦克风实例的另一实例在手持机的正面上(例如,在小键盘的1、7及9位置附近)包括三个麦克风且在背面上(例如,在小键盘的7或9位置后面)包括一个麦克风。图13C展示包括阵列R100的此实施方案的手持机D330的正视图,其中四个麦克风MC10、MC20、MC30、MC40是按“星形”配置来布置。图13D展示手持机D330的侧视图,其展示所述手持机内的麦克风MC10、MC20、MC30及MC40的位置。可用以执行如本文中所描述的切换策略的便携式音频感测装置的其它实例包括手持机D320及D330的触摸屏实施方案(例如,实施为平坦的非折叠块,例如iPhone(加利福尼亚州库珀蒂诺市苹果公司(Apple Inc.,Cupertino,CA))、HD2(HTC,台湾,ROC)或CLIQ(伊利诺伊州夏姆伯格市摩托罗拉公司(Motorola,Inc.,Schaumberg,IL))),其中麦克风是按类似方式布置于触摸屏的外围上。
图14展示用于手持型应用的便携式多麦克风音频感测装置D800的图。装置D800包括:触摸屏显示器TS10;用户接口选择控制件UI10(左侧);用户接口导航控制件UI20(右侧);两个扬声器SP10及SP20;及阵列R100的实施方案,包括三个前麦克风MC10、MC20、MC30及一后麦克风MC40。可使用按钮、轨迹球、棘轮(click-wheel)、触摸板、操纵杆及/或其它指向装置等中的一者或一者以上来实施用户接口控制件中的每一者。可在浏览-通话(browse-talk)模式或玩游戏模式下使用的装置D800的典型大小约为15厘米×20厘米。便携式多麦克风音频感测装置可类似地实施为在顶表面上包括触摸屏显示器的平板计算机(例如,“板(slate)”,例如iPad(苹果公司(Apple,Inc.))、Slate(加利福尼亚州帕洛阿尔托市惠普公司(Hewlett-Packard Co.,Palo Alto,CA))或Streak(德克萨斯州圆石市戴尔公司(Dell Inc.,Round Rock,TX))),其中阵列R100的麦克风安置于顶表面的边限内及/或安置于平板计算机的一个或一个以上侧表面上。
图15A展示多麦克风便携式音频感测装置D500(免持车载套件)的图。此装置可经配置以安装于交通工具的仪表板、挡风玻璃、后视镜、遮光板或另一内表面中或上,或以可装卸方式固定到交通工具的仪表板、挡风玻璃、后视镜、遮光板或另一内表面。装置D500包括扬声器85及阵列R100的实施方案。在此特定实例中,装置D500包括阵列R100的实施方案R102(四个麦克风按线性阵列布置)。此装置可经配置以经由一个或一个以上编解码器(例如上文所列出的实例)无线地发射及接收语音通信数据。或者或另外,此装置可经配置以经由与例如蜂窝式电话手持机的电话装置进行的通信(例如,使用如上文所描述的BluetoothTM协议的一版本)来支持半双工或全双工电话。
图15B展示多麦克风便携式音频感测装置D600(书写装置(例如,钢笔或铅笔))的图。装置D600包括阵列R100的实施方案。此装置可经配置以经由一个或一个以上编解码器(例如上文所列出的实例)无线地发射及接收语音通信数据。或者或另外,此装置可经配置以经由与例如蜂窝式电话手持机及/或无线头戴式耳机的装置进行的通信(例如,使用如上文所描述的BluetoothTM协议的一版本)来支持半双工或全双工电话。装置D600可包括一个或一个以上处理器,所述一个或一个以上处理器经配置以执行空间选择性处理操作以降低在由阵列R100产生的信号中的刮擦噪声82的电平,刮擦噪声82可由装置D600的尖端跨越绘画表面81(例如,一张纸)的移动引起。
便携式计算装置的类别当前包括具有以下各者的名称的装置:例如膝上型计算机、笔记型计算机、迷你笔记型计算机、超便携式计算机、平板计算机、移动因特网装置、智能型笔记本计算机或智能电话。一种类型的此装置具有如上文所描述的板或块配置,且还可包括滑出键盘。图16A到16D展示另一种类型的此装置,其具有包括显示屏的顶部面板及可包括键盘的底部面板,其中所述两个面板可按掀盖或其它铰接关系相连接。
图16A展示此装置D700的一实例的正视图,所述装置D700包括在显示屏SC10上方按线性阵列布置于顶部面板PL10上的四个麦克风MC10、MC20、MC30、MC40。图16B展示顶部面板PL10的俯视图,其在另一维度中展示四个麦克风的位置。图16C展示此便携式计算装置D710的另一实例的正视图,所述便携式计算装置D710包括在显示屏SC10上方按非线性阵列布置于顶部面板PL12上的四个麦克风MC10、MC20、MC30、MC40。图16D展示顶部面板PL12的俯视图,其在另一维度中展示四个麦克风的位置,其中麦克风MC10、MC20及MC30安置于面板的正面上且麦克风MC40安置于面板的背面上。
图17A到17C展示可经实施以包括阵列R100的实例且与如本文中所揭示的切换策略一起使用的便携式音频感测装置的额外实例。在这些实例中的每一者中,通过开口圆来指示阵列R100的麦克风。图17A展示具有至少一个前定向式麦克风对的眼镜(例如,处方眼镜、太阳镜或安全镜),其中所述对的一个麦克风在一太阳穴上且另一麦克风在所述太阳穴或相对应的终端片上。图17B展示头盔,其中阵列R100包括一个或一个以上麦克风对(在此实例中,在嘴巴处有一对,且在用户头部的每一侧有一对)。图17C展示包括至少一个麦克风对(在此实例中为前对及侧对)的护目镜(例如,滑雪护目镜)。
具有将与如本文中所揭示的切换策略一起使用的一个或一个以上麦克风的便携式音频感测装置的额外布置实例包括(但不限于)以下各者:帽或帽子的帽舌或帽沿;翻领、胸袋、肩膀、上臂(即,肩膀与肘关节之间)、下臂(即,肘关节与手腕之间)、袖口或手表。在所述策略中使用的一个或一个以上麦克风可驻留于例如相机或摄录像机的手持型装置上。
如本文中所揭示的切换策略的应用并不限于便携式音频感测装置。图18展示在多源环境(例如,音频会议或视频会议应用)中阵列R100的三麦克风实施方案的实例。在此实例中,麦克风对MC10-MC20相对于说话者SA及SC呈端射布置,且麦克风对MC20-MC30相对于说话者SB及SD呈端射布置。因此,当说话者SA或SC活动时,可能需要使用由麦克风对MC10-MC20俘获的信号来执行噪声降低,且当说话者SB或SD活动时,可能需要使用由麦克风对MC20-MC30俘获的信号来执行噪声降低。应注意,对于不同说话者布置来说,可能需要使用由麦克风对MC10-MC30俘获的信号来执行噪声降低。
图19展示一相关实例,其中阵列R100包括一额外麦克风MC40。图20展示切换策略可针对不同的相对活动的说话者位置如何选择阵列的不同麦克风对。
图21A到21D展示会议装置的若干实例的俯视图。图20A包括阵列R100的三麦克风实施方案(麦克风MC10、MC20及MC30)。图20B包括阵列R100的四麦克风实施方案(麦克风MC10、MC20、MC30及MC40)。图20C包括阵列R100的五麦克风实施方案(麦克风MC10、MC20、MC30、MC40及MC50)。图20D包括阵列R100的六麦克风实施方案(麦克风MC10、MC20、MC30、MC40、MC50及MC60)。可能需要将阵列R100的麦克风中的每一者定位于规则多边形的一对应顶点处。用于再现远端音频信号的扬声器S P10可包括于装置内(例如,如图20A中所示),及/或此扬声器可与装置分开定位(例如,以减少声反馈)。额外远场使用状况的实例包括TV机顶盒(例如,以支持IP语音(VoIP)应用)及游戏控制台(例如,微软Xbox、索尼Playstation、任天堂Wii)。
明确揭示,本文中所揭示的系统、方法及设备的适用性包括且不限于图6到21D中所示的特定实例。在切换策略的实施方案中使用的麦克风对可甚至位于不同装置(例如,分布式集合)上,使得所述对可随时间的过去相对于彼此可移动。举例来说,此实施方案中所使用的麦克风可位于便携式媒体播放器(例如,苹果iPod)与电话两者上、头戴式耳机与电话两者上、翻领固定件与电话两者上、便携式计算装置(例如,平板计算机)与电话或头戴式耳机两者上、各自佩带于用户身体上的两个不同装置上、佩戴于用户身体上的装置与固持于用户手中的装置两者上、由用户佩戴或固持的装置与并非由用户佩戴或固持的装置两者上等。来自不同麦克风对的通道可具有不同频率范围及/或不同取样速率。
切换策略可经配置以针对给定的源-装置定向(例如,给定的电话固持位置)来挑选最好的端射麦克风对。例如,对于每一固持位置来说,切换策略可经配置以根据多个麦克风(例如,四个麦克风)的选择来识别出或多或少地定向于朝着用户嘴巴的端射方向中的麦克风对。此识别可基于近场DOA估计,所述近场DOA估计可基于麦克风信号之间的相位差及/或增益差。来自所识别的麦克风对的信号可用以支持一个或一个以上多通道空间选择性处理操作(例如双麦克风噪声降低),所述一个或一个以上多通道空间选择性处理操作也可基于麦克风信号之间的相位差及/或增益差。
图22A展示根据一般配置的方法M100(例如,切换策略)的流程图。方法M100可实施(例如)为用于在三个或三个以上麦克风的一集合的不同麦克风对之间进行切换的决策机制,其中所述集合的每一麦克风产生多通道信号的一对应通道。方法M100包括任务T100,任务T100计算关于多通道信号的所要声音分量(例如,用户语音的声音)的到达方向(DOA)的信息。方法M100还包括任务T200,任务T200基于计算出的DOA信息来选择多通道信号的通道的一恰当子组(即,少于全部)。举例来说,任务T200可经配置以选择端射方向对应于由任务T100指示的DOA的一麦克风对的通道。明确注意到,任务T200还可经实施以一次选择一个以上子组(针对多源应用,例如,例如音频会议及/或视频会议应用)。
图22B展示根据一般配置的设备MF100的框图。设备MF100包括:用于计算关于多通道信号的所要声音分量的到达方向(DOA)的信息(例如,通过执行如本文中所描述的任务T100的实施方案)的装置F100;及用于基于计算出的DOA信息来选择多通道信号的通道的一恰当子组(例如,通过执行如本文中所描述的任务T200的实施方案)的装置F200。
图22C展示根据一般配置的设备A100的框图。设备A100包括:方向信息计算器100,其经配置以计算关于多通道信号的所要声音分量的到达方向(DOA)的信息(例如,通过执行如本文中所描述的任务T100的实施方案);及子组选择器200,其经配置以基于计算出的DOA信息来选择多通道信号的通道的一恰当子组(例如,通过执行如本文中所描述的任务T200的实施方案)。
任务T100可经配置以针对一对应通道对的每一时间-频率点来计算相对于一麦克风对的到达方向。可将方向屏蔽函数应用于这些结果以区别具有在所要范围(例如,端射扇区)内的到达方向的点与具有其它到达方向的点。也可使用来自屏蔽操作的结果,通过舍弃具有在屏蔽外的到达方向的时间-频率点或使所述时间-频率点衰减而移除来自不符合要求的方向的信号。
任务T100可经配置以将多通道信号处理为一系列区段。典型区段长度的范围为约5毫秒或10毫秒到约40毫秒或50毫秒,且所述区段可为重叠的(例如,邻近区段重叠达25%或50%)或为非重叠的。在一个特定实例中,将多通道信号分成各自具有10毫秒的长度的一系列非重叠区段或“帧”。由任务T100处理的区段也可为由一不同操作处理的较大区段的一区段(即,“子帧”),或反之亦然。
任务T100可经配置以使用来自麦克风阵列(例如,麦克风对)的多通道记录,基于在某些空间扇区中的方向相干性来指示近场源的DOA。图23A展示任务T100的此实施方案T102的流程图,所述实施方案T102包括子任务T110及T120。基于由任务T110计算的多个相位差,任务T120评估多通道信号在多个空间扇区中的一个或一个以上空间扇区中的每一者中的方向相干性程度。
任务T110可包括计算每一通道的频率变换(例如快速傅立叶变换(FFT)或离散余弦变换(DCT))。任务T110通常经配置以针对每一区段计算通道的频率变换。举例来说,可能需要配置任务T110以执行每一区段的128点或256点FFT。任务T110的一替代实施方案经配置以使用一组子带滤波器来分离通道的各种频率分量。
任务T110还可包括针对不同频率分量(还称为“区间(bin)”)中的每一者来计算(例如,估计)麦克风通道的相位。例如,针对待检查的每一频率分量,任务T110可经配置以将相位估计为对应的FFT系数的虚数项对所述FFT系数的实数项的比率的反正切(还称为反正切(arctangent))。
任务T110基于每一通道的估计相位来针对不同频率分量中的每一者计算相位差任务T110可经配置以通过从另一通道中的所述频率分量的估计相位减去一个通道中的所述频率分量的估计相位来计算相位差。举例来说,任务T110可经配置以通过从另一(例如,次要)通道中的所述频率分量的估计相位减去主要通道中的所述频率分量的估计相位来计算相位差。在此状况下,主要通道可为预期具有最高信噪比的通道,例如,对应于预期在装置的典型使用期间最直接地接收用户语音的麦克风的通道。
可能需要配置方法M100(或经配置以执行此方法的系统或设备)以确定在一宽带频率范围中每一对的通道之间的方向相干性。此宽带范围可(例如)从0Hz、50Hz、100Hz或200Hz的低频边界扩展到3kHz、3.5kHz或4kHz(或甚至更高,例如高达7kHz或8kHz或更大)的高频边界。然而,任务T110可能没有必要跨越信号的整个带宽来计算相位差。例如,对于此宽带范围中的许多频带来说,相位估计可能不切实际或没有必要。在极低频率下对所接收的波形的相位关系的实际估定通常需要变换器之间的相应较大间距。因此,麦克风之间的最大可用间距可建立低频边界。另一方面,麦克风之间的距离应不超过最小波长的一半以便避免空间频叠(aliasing)。例如,8千赫的取样速率给出从0千赫到4千赫的带宽。4千赫信号的波长约为8.5厘米,因此在此状况下,邻近麦克风之间之间距应不超过约4厘米。可对麦克风通道进行低通滤波以便移除可能会引起空间频叠的频率。
可能需要以特定频率分量或一特定频率范围为目标,可预期一话音信号(或其它所要信号)跨越所述特定频率分量或所述特定频率范围为方向上相干的。可预期例如方向性噪声(例如,来自例如汽车的源)及/或扩散噪声等背景噪声在所述范围内将不是方向上相干的。话音趋向于在从4千赫到8千赫的范围中具有低功率,因此可能需要至少在此范围内放弃相位估计。举例来说,可能需要在从约700赫兹到约2千赫的范围内执行相位估计且确定方向相干性。
因此,可能需要配置任务T110以针对少于全部的频率分量(例如,一FFT的少于全部的频率样本)计算相位估计。在一个实例中,任务T110针对700Hz到2000Hz的频率范围计算相位估计。对于4千赫带宽信号的128点FFT来说,700Hz到2000Hz的范围大致对应于从第10个样本到第32个样本的23个频率样本。
基于来自由任务T110计算出的相位差的信息,任务T120评估在至少一个空间扇区中通道对的方向相干性(其中所述空间扇区是相对于麦克风对的轴线)。将多通道信号的“方向相干性”定义为所述信号的各种频率分量从同一方向到达的程度。对于理想的方向上相干的通道对来说,的值针对所有频率都等于常数k,其中k的值与到达方向θ及到达时间延迟τ有关。举例来说,可通过以下操作来量化多通道信号的方向相干性:根据每一频率分量的估计到达方向与特定方向相符合的程度来将每一频率分量的估计到达方向分级;及接着组合各种频率分量的分级结果以获得所述信号的相干性测量。方向相干性的测量的计算及应用还描述于(例如)国际专利公开案WO2010/048620A1及WO2010/144577A1(维瑟(Visser)等人)中。
针对多个计算出的相位差中的每一者,任务T120计算到达方向的对应指示。任务T120可经配置以将每一频率分量的到达方向θi的指示计算为估计相位差与频率fi之间的比率ri(例如,)。或者,任务T120可经配置以将到达方向θi估计为量的反余弦(还称为反余弦(arccosine)),其中c表示声速(大约340米/秒),d表示麦克风之间的距离,表示两个麦克风的对应相位估计之间的弧度差,且fi为所述相位估计所对应的频率分量(例如,对应的FFT样本的频率,或对应的子带的中心或边缘频率)。或者,任务T120可经配置以将到达方向θi估计为量的反余弦,其中λi表示频率分量fi的波长。
图24A展示几何近似法的实例,其说明用以估计相对于麦克风对MC10、MC20中的麦克风MC20的到达方向θ的此方法。此近似法假定距离s等于距离L,其中s为麦克风MC20的位置与麦克风MC10的位置到位于声源与麦克风MC20之间的线上的正交投影之间的距离,且L为每一麦克风到声源的距离之间的实际差。随着相对于麦克风MC20的到达方向θ接近于0,误差(s-L)变小。随着声源与麦克风阵列之间的相对距离增加,此误差也变小。
图24A中所说明的方案可用于的第一象限值及第四象限值(即,从0到+π/2及从0到-π/2)。图24B展示将同一近似法用于的第二象限值及第三象限值(即,从+π/2到-π/2)的实例。在此状况下,可如上文所描述来计算反余弦以评估角度ζ,接着从π弧度减去所述角度ζ以产生到达方向θi。在实践中的工程师还将理解,可以度数或适合于特定应用的任何其它单位而非弧度来表达到达方向θi。
在图24A的实例中,值θi=0指示从参考端射方向(即,麦克风MC10的方向)到达麦克风MC20的信号,值θi=π指示从另一端射方向到达的信号,且值θi=π/2指示从边射方向到达的信号。在另一实例中,任务T120可经配置以评估相对于一不同参考位置(例如,麦克风MC10或某一其它点,例如在所述麦克风中间的点)及/或一不同参考方向(例如,另一端射方向、边射方向等)的θi。
在另一实例中,任务T120经配置以将到达方向的指示计算为多通道信号的对应频率分量fi的到达时间延迟τi(例如,以秒为单位)。举例来说,任务T120可经配置以使用例如或的表达式,参考主要麦克风MC10来估计次要麦克风MC20处的到达时间延迟τi。在这些实例中,值τi=0指示从边射方向到达的信号,τi的大的正值指示从参考端射方向到达的信号,且τi的大的负值指示从另一端射方向到达的信号。在计算值τi的过程中,可能需要使用被认为适合于特定应用的时间单位,例如取样周期(例如,针对8kHz的取样速率为125微秒的单位)或一秒的分数(例如,10-3、10-4、10-5或10-6秒)。应注意,任务T100还可经配置以通过在时域中使每一通道的频率分量fi交叉相关来计算到达时间延迟τi。
应注意,尽管表达式或根据远场模型(即,采取平面波前的模型)来计算方向指示项θi,但表达式 及根据近场模型(即,采取球形波前的模型,如图25中所说明)来计算方向指示项τi及ri。尽管基于近场模型的方向指示项可提供更准确及/或更容易计算的结果,但基于远场模型的方向指示项提供相位差与方向指示项值之间的非线性映射,此可为方法M100的一些应用所要的。
可能需要根据话音信号的一个或一个以上特性来配置方法M100。在一个此实例中,任务T110经配置以针对700Hz到2000Hz的频率范围来计算相位差,可预期所述频率范围包括用户语音的大部分能量。对于4千赫带宽的信号的128点FFT来说,700Hz到2000Hz的范围大致对应于从第10个样本到第32个样本的23个频率样本。在再一实例中,任务T110经配置以在从约50Hz、100Hz、200Hz、300Hz或500Hz的下界扩展到约700Hz、1000Hz、1200Hz、1500Hz或2000Hz的上界的频率范围内计算相位差(明确涵盖及揭示这些下界及上界的25个组合中的每一者)。
有声话音(例如,元音声音)的能量谱趋向于在音调频率的谐波处具有局部峰值。图26展示此信号的256点FFT的最初128个区间的量值,其中星号指示峰值。另一方面,背景噪声的能量谱趋向于相对来说未经结构化。因此,可预期在音调频率的谐波处的输入通道的分量具有比其它分量高的信噪比(SNR)。可能需要配置方法M110(例如,配置任务T120)以仅考虑对应于多倍的估计音调频率的相位差。
典型音调频率的范围为男性说话者的约70Hz到100Hz到女性说话者的约150Hz到200Hz。可通过将音调周期计算为邻近音调峰值之间的距离(例如,在主要麦克风通道中)来估计当前音调频率。输入通道的一样本可基于以下两者而被识别为音调峰值:其能量的测量(例如,基于样本能量与帧平均能量之间的比率)及/或所述样本的邻域与已知音调峰值的类似邻域的相关程度的测量。音调估计程序描述于(例如)EVRC(增强型可变速率编解码器)文献C.S0014-C(在www-dot-3gpp-dot-org在线可得)的章节4.6.3(第4-44页到第4-49页)中。在包括话音编码及/或解码的应用(例如,使用以下编解码器的语音通信,所述编解码器包括例如码激励线性预测(CELP)及原型波形内插(PWI)的音调估计)中,将通常已可获得音调频率的当前估计(例如,呈音调周期或“音调延滞”的估计的形式)。
图27展示将方法M110的此实施方案(例如,任务T120)应用于频谱展示于图26中的信号的实例。虚线指示待考虑的频率范围。在此实例中,所述范围从第10个频率区间扩展到第76个频率区间(大约300Hz到2500Hz)。通过仅考虑对应于多倍的音调频率(在此实例中为大约190Hz)的那些相位差,使待考虑的相位差的数目从67个减少到仅11个。此外,可预期计算这11个相位差所根据的频率系数将相对于所考虑的频率范围内的其它频率系数具有高SNR。在更一般的状况下,还可考虑其它信号特性。举例来说,可能需要配置任务T110以使得至少25%、50%或75%计算出的相位差对应于多倍的估计音调频率。还可将同一原理应用于其它所要的谐波信号。在方法M110的相关实施方案中,任务T110经配置以针对通道对的至少一个子带的频率分量中的每一者计算相位差,且任务T120经配置以仅基于对应于多倍的估计音调频率的那些相位差来评估相干性。
共振峰跟踪是可包括于方法M100的实施方案中以用于话音处理应用(例如,语音活动检测应用)的另一话音特性相关程序。可使用线性预测译码、隐式马尔可夫模型(HMM)、卡尔曼滤波器及/或梅尔倒频谱系数(MFCC)来执行共振峰跟踪。在包括话音编码及/或解码的应用(例如,使用线性预测译码的语音通信、使用MFCC及/或HMM的话音辨识应用)中,将通常已可获得共振峰信息。
任务T120可经配置以通过针对待检查的每一频率分量将方向指示项的值转换为或映射到以振幅、量值或通过/未通过为标度的对应值来将方向指示项分级。举例来说,针对待评估相干性的每一扇区,任务T120可经配置以使用方向屏蔽函数以将每一方向指示项的值映射到一屏蔽得分,所述屏蔽得分指示所指示的方向是否在屏蔽函数的通带内(及/或在屏蔽函数的通带内的程度)。(在本上下文中,术语“通带”指代屏蔽函数所通过的到达方向的范围)。选择屏蔽函数的通带以反映待评估方向相干性的空间扇区。可将各种频率分量的屏蔽得分的集合看作一个向量。
可通过例如待评估相干性的扇区的数目、扇区之间的所要重叠程度及/或待由扇区涵盖的总的角范围(可小于360度)等因素来确定通带的宽度。可能需要设计邻近扇区之间的重叠(例如,为了确保所要说话者移动的连续性,支持更平滑的转变,及/或减少抖动)。扇区可具有彼此相同的角宽度(例如,以度或弧度为单位),或所述扇区中的两者或两者以上(可能为所有扇区)可具有彼此不同的宽度。
通带的宽度还可用以控制屏蔽函数的空间选择性,其可根据准许范围(即,所述函数所通过的到达方向或时间延迟的范围)与噪声抑制之间的所要取舍来选择。尽管宽通带可允许更大的用户移动性及使用灵活性,但还将预期其使得通道对中的更多环境噪声通过而到达输出。
可实施方向屏蔽函数以使得阻带(stopband)与通带(passband)之间的转变的陡度(sharpness)在操作期间根据例如信噪比(SNR)、噪声底限等的一个或一个以上因数的值而可选择及/或可变。举例来说,当SNR低时,可能需要使用更窄的通带。
图28A展示屏蔽函数的实例,所述屏蔽函数具有通带与阻带之间的相对突然的转变(还称为“砖墙式”轮廓)及以到达方向θ=0为中心的通带(即,端射扇区)。在一个此状况下,任务T120经配置以:在方向指示项指示在所述函数的通带内的方向时指派具有第一值(例如,1)的二进制值屏蔽得分,且在方向指示项指示在所述函数的通带外的方向时指派具有第二值(例如,0)的屏蔽得分。任务T120可经配置以通过比较方向指示项与阈值来应用此屏蔽函数。图28B展示屏蔽函数的实例,所述屏蔽函数具有“砖墙式”轮廓及以到达方向θ=π/2为中心的通带(即,边射扇区)。任务T120可经配置以通过比较方向指示项与上阈值及下阈值来应用此屏蔽函数。可能需要取决于例如信噪比(SNR)、噪声底限等的一个或一个以上因数而改变阻带与通带之间的转变的位置(例如,以在SNR高时使用更窄的通带,高SNR指示可不利地影响校准准确度的所要方向性信号的存在)。
或者,可能需要配置任务T120以使用具有通带与阻带之间的较不突然的转变的屏蔽函数(例如,更为渐进的滚降,其产生非二进制值屏蔽得分)。图28C展示具有以到达方向θ=0为中心的通带的屏蔽函数的线性滚降的实例,且图28D展示具有以到达方向θ=0为中心的通带的屏蔽函数的非线性滚降的实例。可能需要取决于例如SNR、噪声底限等的一个或一个以上因数而改变阻带与通带之间的转变的位置及/或陡度(例如,以在SNR高时使用更突然的滚降,高SNR指示可不利地影响校准准确度的所要方向性信号的存在)。当然,还可按时间延迟τ或比率r而非方向θ来表达屏蔽函数(例如,如图28A到28D中所示)。举例来说,到达方向θ=π/2对应于为0的时间延迟τ或比率
可将非线性屏蔽函数的一个实例表达为其中θT表示目标到达方向,w表示屏蔽的所要宽度(以弧度为单位),且γ表示陡度参数。图29A到29D分别展示此函数在(γ、w、θT)分别等于 及时的实例。当然,还可按时间延迟τ或比率r而非方向θ来表达此函数。可能需要取决于例如SNR、噪声底限等的一个或一个以上因数而改变屏蔽的宽度及/或陡度(例如,以在SNR高时使用更窄的屏蔽及/或更突然的滚降)。
应注意,针对较小麦克风间距离(例如,10cm或更小)及低频(例如,小于1kHz),可限制的可观测值。例如,针对200Hz的频率分量,对应的波长约为170cm。具有为1厘米的麦克风间距离的阵列针对此分量可观测到仅约为2度的最大相位差(例如,在端射情况下)。在此状况下,大于2度的观测相位差指示来自一个以上源的信号(例如,一信号及其回响)。因此,可能需要配置方法M110以检测所报告的相位差何时超过最大值(例如,在特定麦克风间距离及频率的情况下的最大可观测相位差)。可将此状况解释为与单一源不一致。在一个此实例中,当检测到此状况时,任务T120将最低分级值(例如,0)指派给对应的频率分量。
任务T120基于分级结果来计算信号的相干性测量。举例来说,任务T120可经配置以组合对应于感兴趣频率(例如,在700Hz到2000Hz的范围中的分量,及/或在多倍的音调频率下的分量)的各种屏蔽得分以获得相干性测量。举例来说,任务T120可经配置以通过对屏蔽得分求平均值(例如,通过对屏蔽得分求和,或通过使所述总和正规化以获得屏蔽得分的平均值)来计算相干性测量。在此状况下,任务T120可经配置以使屏蔽得分中的每一者相等地加权(例如,以使每一屏蔽得分加权1)或使一个或一个以上屏蔽得分彼此不同地加权(例如,以使对应于低频分量或高频分量的屏蔽得分加权的程度轻于使对应于中间频率分量加权的程度)。或者,任务T120可经配置以通过计算感兴趣频率分量(例如,在700Hz到2000Hz的范围中的分量,及/或在多倍的音调频率下的分量)的经加权值(例如,量值)的总和来计算相干性测量,其中每一值是由对应的屏蔽得分而加权。在此状况下,每一频率分量的值可从多通道信号的一个通道(例如,主要通道)或从两个通道(例如,作为来自每一通道的对应值的平均值)获得。
任务T120的替代实施方案经配置以使用对应的方向屏蔽函数mi来将每一相位差分级,而非将多个方向指示项中的每一者分级。例如,针对需要选择从在从θL到θH的范围中的方向到达的相干信号的状况,每一屏蔽函数mi可经配置以具有范围为到的通带,其中(等效地,)且(等效地,)。针对需要选择从对应于从τL到τH的到达时间延迟范围的方向到达的相干信号的状况,每一屏蔽函数mi可经配置以具有范围为到的通带,其中(等效地,)且(等效地,)。针对需要选择从对应于从rL到rH的相位差对频率的比率范围的方向到达的相干信号的状况,每一屏蔽函数mi可经配置以具有范围为到的通带,其中且根据待评估的扇区且可能根据如上文所论述的额外因数来选择每一屏蔽函数的轮廓。
可能需要配置任务T120以将相干性测量产生为时间平滑值。举例来说,任务T120可经配置以使用时间平滑函数(例如有限脉冲响应滤波器或无限脉冲响应滤波器)来计算相干性测量。在一个此实例中,所述任务经配置以将相干性测量产生为在最近m个帧中的平均值,其中m的可能值包括4、5、8、10、16及20。在另一此实例中,所述任务经配置以根据例如z(n)=βz(n-1)+(1-β)c(n)(还通称为一阶IIR或递归滤波器)的表达式来计算帧n的经平滑的相干性测量z(n),其中z(n-1)表示先前帧的经平滑的相干性测量,c(n)表示相干性测量的当前未经平滑值,且β为平滑因子,β的值可选自0(无平滑)到1(无更新)的范围。平滑因子β的典型值包括0.1、0.2、0.25、0.3、0.4及0.5。与后续稳态操作期间相比,在初始收敛周期(例如,紧跟在音频感测电路的通电或其它启动之后)期间可能需要使所述任务在较短的时间间隔内平滑化相干性测量或使用平滑因子α的较小值。典型的是(但未必)使用β的同一值来平滑化对应于不同扇区的相干性测量。
可将相干性测量的对比度表达为相干性测量的当前值与相干性测量随时间的平均值(例如,在最近10个、20个、50个或100个帧内的平均值、众数或中值)之间的关系(例如,差或比率)的值。任务T200可经配置以使用例如漏积分器的时间平滑函数或根据例如v(n)=αv(n-1)+(1-α)c(n)的表达式来计算相干性测量的平均值,其中v(n)表示当前帧的平均值,v(n-1)表示先前帧的平均值,c(n)表示相干性测量的当前值,且α为平滑因子,α的值可选自从0(无平滑)到1(无更新)的范围。平滑因子α的典型值包括0.01、0.02、0.05及0.1。
可能需要实施任务T200以包括用以支持从一个所选子组到另一子组的平滑转变的逻辑。举例来说,可能需要配置任务T200以包括例如滞留(hangover)逻辑的惯性机制,其可帮助减少抖动。此滞留逻辑可经配置以:除非指示切换到通道的一不同子组的状况(例如,如上文所描述)在若干连续帧(例如,2个、3个、4个、5个、10个或20个帧)的周期内持续,否则禁止任务T200切换到所述子组。
图23B展示任务T102经配置以评估经由麦克风子阵列MC10及MC20(或者,MC10及MC30)所接收的立体声信号在三个重叠扇区中的每一者中的方向相干性程度的一实例。在图23B中所示的实例中,如果立体声信号在扇区1中最为相干,则任务T200选择对应于麦克风对MC10(作为主要麦克风)及MC30(作为次要麦克风)的通道;如果立体声信号在扇区2中最为相干,则选择对应于麦克风对MC10(作为主要麦克风)及MC40(作为次要麦克风)的通道;且如果立体声信号在扇区3中最为相干,则选择对应于麦克风对MC10(作为主要麦克风)及MC20(作为次要麦克风)的通道。
任务T200可经配置以将信号最为相干的扇区选择为相干性测量最大的扇区。或者,任务T120可经配置以将信号最为相干的扇区选择为相干性测量具有最大对比度(例如,具有与所述扇区的相干性测量的长期时间平均值相差达最大相对量值的当前值)的扇区。
图30展示任务T102经配置以评估经由麦克风子阵列MC20及MC10(或者,MC20及MC30)所接收的立体声信号在三个重叠扇区中的每一者中的方向相干性程度的另一实例。在图30中所示的实例中,如果立体声信号在扇区1中最为相干,则任务T200选择对应于麦克风对MC20(作为主要麦克风)及MC10(作为次要麦克风)的通道;如果立体声信号在扇区2中最为相干,则选择对应于麦克风对MC10或MC20(作为主要麦克风)及MC40(作为次要麦克风)的通道;且如果立体声信号在扇区3中最为相干,则选择对应于麦克风对MC10或MC30(作为主要麦克风)及MC20或MC10(作为次要麦克风)的通道。(在以下的文字中,列出一麦克风对的麦克风,其中首先为主要麦克风且最后为次要麦克风)。如上文所注释,任务T200可经配置以将信号最为相干的扇区选择为相干性测量最大的扇区,或将信号最为相干的扇区选择为相干性测量具有最大对比度的扇区。
或者,任务T100可经配置以使用来自三个或三个以上(例如,四个)麦克风的一集合的多通道记录,基于在某些扇区中的方向相干性来指示近场源的DOA。图31展示方法M100的此实施方案M110的流程图。方法M110包括如上文所描述的任务T200及任务T100的实施方案T104。任务T104包括任务T110及T120的n个实例(其中n的值为2或更大的整数)。在任务T104中,任务T110的每一实例针对多通道信号的一对应不同通道对的频率分量来计算相位差,且任务T120的每一实例评估所述对应对在至少一个空间扇区中的每一者中的方向相干性程度。基于所评估的相干性程度,任务T200选择多通道信号的通道的一恰当子组(例如,选择对应于信号最为相干的扇区的通道对)。
如上文所注释,任务T200可经配置以将信号最为相干的扇区选择为相干性测量最大的扇区,或将信号最为相干的扇区选择为相干性测量具有最大对比度的扇区。图32展示方法M100的实施方案M112的流程图,所述实施方案M112包括任务T200的此实施方案T204。任务T204包括任务T210的n个实例,所述n个实例中的每一者针对所述对应的通道对来计算每一相干性测量的对比度。任务T204还包括基于计算出的对比度来选择多通道信号的通道的一恰当子组的任务T220。
图33展示设备MF100的实施方案MF112的框图。设备MF112包括装置F100的实施方案F104,所述实施方案F104包括用于针对多通道信号的一对应不同通道对的频率分量来计算相位差(例如,通过执行如本文中所描述的任务T110的实施方案)的装置F110的n个实例。装置F104还包括用于基于对应的计算出的相位差来计算所述对应对在至少一个空间扇区中的每一者中的相干性测量(例如,通过执行如本文中所描述的任务T120的实施方案)的装置F120的n个实例。设备MF112还包括装置F200的实施方案F204,所述实施方案F204包括用于针对所述对应通道对来计算每一相干性测量的对比度(例如,通过执行如本文中所描述的任务T210的实施方案)的装置F210的n个实例。装置F204还包括用于基于计算出的对比度来选择多通道信号的通道的一恰当子组(例如,通过执行如本文中所描述的任务T220的实施方案)的装置F220。
图34A展示设备A100的实施方案A112的框图。设备A112包括方向信息计算器100的实施方案102,所述实施方案102具有计算器110的n个实例,所述n个实例各自经配置以针对多通道信号的一对应不同通道对的频率分量来计算相位差(例如,通过执行如本文中所描述的任务T110的实施方案)。计算器102还包括计算器120的n个实例,所述n个实例各自经配置以基于对应的计算出的相位差来计算所述对应对在至少一个空间扇区中的每一者中的相干性测量(例如,通过执行如本文中所描述的任务T120的实施方案)。设备A112还包括子组选择器200的实施方案202,所述实施方案202具有计算器210的n个实例,所述n个实例各自经配置以针对所述对应通道对来计算每一相干性测量的对比度(例如,通过执行如本文中所描述的任务T210的实施方案)。选择器202还包括选择器220,其经配置以基于计算出的对比度来选择多通道信号的通道的一恰当子组(例如,通过执行如本文中所描述的任务T220的实施方案)。图34B展示设备A112的实施方案A1121的框图,所述实施方案A1121包括FFT模块对FFTa1、FFTa2到FFTn1、FFTn2的n个实例,所述n个实例各自经配置以对相对应的时域麦克风通道执行FFT操作。
图35展示任务T104的一应用的实例,其用以指示经由手持机D340的麦克风集合MC10、MC20、MC30、MC40所接收的多通道信号在三个重叠扇区中的任一者中是否相干。针对扇区1,任务T120的第一实例基于由任务T110的第一实例从对应于麦克风对MC20及MC10(或者,MC30)的通道计算出的多个相位差来计算第一相干性测量。针对扇区2,任务T120的第二实例基于由任务T110的第二实例从对应于麦克风对MC10及MC40的通道计算出的多个相位差来计算第二相干性测量。针对扇区3,任务T120的第三实例基于由任务T110的第三实例从对应于麦克风对MC30及MC10(或者,MC20)的通道计算出的多个相位差来计算第三相干性测量。基于所述相干性测量的值,任务T200选择多通道信号的一通道对(例如,选择对应于信号最为相干的扇区的通道对)。如上文所注释,任务T200可经配置以将信号最为相干的扇区选择为相干性测量最大的扇区,或将信号最为相干的扇区选择为相干性测量具有最大对比度的扇区。
图36展示任务T104的一应用的类似实例,其用以指示经由手持机D340的麦克风集合MC10、MC20、MC30、MC40所接收的多通道信号在四个重叠扇区中的任一者中是否相干并且相应地选择一通道对。此应用(例如)在手持机在扬声器电话模式下操作期间可为有用的。
图37展示任务T104的一类似应用的实例,其用以指示经由手持机D340的麦克风集合MC10、MC20、MC30、MC40所接收的多通道信号在五个扇区(其也可为重叠的)中的任一者中是否相干,其中每一扇区的中间DOA由对应的箭头指示。针对扇区1,任务T120的第一实例基于由任务T110的第一实例从对应于麦克风对MC20及MC10(或者,MC30)的通道计算出的多个相位差来计算第一相干性测量。针对扇区2,任务T120的第二实例基于由任务T110的第二实例从对应于麦克风对MC20及MC40的通道计算出的多个相位差来计算第二相干性测量。针对扇区3,任务T120的第三实例基于由任务T110的第三实例从对应于麦克风对MC10及MC40的通道计算出的多个相位差来计算第三相干性测量。针对扇区4,任务T120的第四实例基于由任务T110的第四实例从对应于麦克风对MC30及MC40的通道计算出的多个相位差来计算第四相干性测量。针对扇区5,任务T120的第五实例基于由任务T110的第五实例从对应于麦克风对MC30及MC10(或者,MC20)的通道计算出的多个相位差来计算第五相干性测量。基于所述相干性测量的值,任务T200选择多通道信号的一通道对(例如,选择对应于其中信号最为相干的扇区的通道对)。如上文所注释,任务T200可经配置以将信号最为相干的扇区选择为相干性测量最大的扇区,或将信号最为相干的扇区选择为相干性测量具有最大对比度的扇区。
图38展示任务T104的一应用的类似实例,其用以指示经由手持机D340的麦克风集合MC10、MC20、MC30、MC40所接收的多通道信号在八个扇区(其也可为重叠的)中的任一者中是否相干并且相应地选择一通道对,其中每一扇区的中间DOA由对应的箭头指示。针对扇区6,任务T120的第六实例基于由任务T110的第六实例从对应于麦克风对MC40及MC20的通道计算出的多个相位差来计算第六相干性测量。针对扇区7,任务T120的第七实例基于由任务T110的第七实例从对应于麦克风对MC40及MC10的通道计算出的多个相位差来计算第七相干性测量。针对扇区8,任务T120的第八实例基于由任务T110的第八实例从对应于麦克风对MC40及MC30的通道计算出的多个相位差来计算第八相干性测量。此应用(例如)在手持机在扬声器电话模式下操作期间可为有用的。
图39展示任务T104的一类似应用的实例,其用以指示经由手持机D360的麦克风集合MC10、MC20、MC30、MC40所接收的多通道信号在四个扇区(其也可为重叠的)中的任一者中是否相干,其中每一扇区的中间DOA由对应的箭头指示。针对扇区1,任务T120的第一实例基于由任务T110的第一实例从对应于麦克风对MC10及MC30的通道计算出的多个相位差来计算第一相干性测量。针对扇区2,任务T120的第二实例基于由任务T110的第二实例从对应于麦克风对MC10及MC40(或者,MC20及MC40,或MC10及MC20)的通道计算出的多个相位差来计算第二相干性测量。针对扇区3,任务T120的第三实例基于由任务T110的第三实例从对应于麦克风对MC30及MC40的通道计算出的多个相位差来计算第三相干性测量。针对扇区4,任务T120的第四实例基于由任务T110的第四实例从对应于麦克风对MC30及MC10的通道计算出的多个相位差来计算第四相干性测量。基于所述相干性测量的值,任务T200选择多通道信号的一通道对(例如,选择对应于信号最为相干的扇区的通道对)。如上文所注释,任务T200可经配置以将信号最为相干的扇区选择为相干性测量最大的扇区,或将信号最为相干的扇区选择为相干性测量具有最大对比度的扇区。
图40展示任务T104的一应用的类似实例,其用以指示经由手持机D360的麦克风集合MC10、MC20、MC30、MC40所接收的多通道信号在六个扇区(其也可为重叠的)中的任一者中是否相干并且相应地选择一通道对,其中每一扇区的中间DOA由对应的箭头指示。针对扇区5,任务T120的第五实例基于由任务T110的第五实例从对应于麦克风对MC40及MC10(或者,MC20)的通道计算出的多个相位差来计算第五相干性测量。针对扇区6,任务T120的第六实例基于由任务T110的第六实例从对应于麦克风对MC40及MC30的通道计算出的多个相位差来计算第六相干性测量。此应用(例如)在手持机在扬声器电话模式下操作期间可为有用的。
图41展示任务T104的一应用的类似实例,其还使用手持机D360的麦克风MC50来指示已接收的多通道信号在八个扇区(其也可为重叠的)中的任一者中是否相干并且相应地选择一通道对,其中每一扇区的中间DOA由对应的箭头指示。针对扇区7,任务T120的第七实例基于由任务T110的第七实例从对应于麦克风对MC50及MC40(或者,MC10或MC20)的通道计算出的多个相位差来计算第七相干性测量。针对扇区8,任务T120的第八实例基于由任务T110的第八实例从对应于麦克风对MC40(或者,MC10或MC20)及MC50的通道计算出的多个相位差来计算第八相干性测量。在此状况下,可改为从对应于麦克风对MC30及MC50的通道来计算扇区2的相干性测量,且可改为从对应于麦克风对MC50及MC30的通道来计算扇区2的相干性测量。此应用(例如)在手持机在扬声器电话模式下操作期间可为有用的。
如上文所注释,多通道信号的不同通道对可基于由不同装置上的麦克风对产生的信号。在此状况下,各种麦克风对可随时间的过去相对于彼此可移动。从一个此装置到另一装置(例如,到执行切换策略的装置)的通道对的通信可经由有线及/或无线传输通道而发生。可用以支持此通信链路的无线方法的实例包括用于短程通信(例如,几英寸到几英尺)的低功率无线电规范,例如,蓝牙(例如,如在蓝牙核心规范第4.0版(华盛顿州柯克兰市蓝牙SIG公司(Bluetooth SIG,Inc.,Kirkland,WA))[其包括经典蓝牙、蓝牙高速及蓝牙低能量协议]中所描述的头戴式耳机或其它规范);Peanut(加利福尼亚州圣地亚哥市高通公司(QUALCOMM Incorporated,San Diego,CA));及ZigBee(例如,如在ZigBee 2007规范及/或ZigBee RF4CE规范(加利福尼亚州圣拉蒙市紫蜂联盟(ZigBee Alliance,SanRamon,CA))中所描述)。可使用的其它无线传输通道包括例如红外线及超声波的非无线电通道。
还有可能使一对的两个通道基于由不同装置上的麦克风对产生的信号(例如,使得一对的麦克风随时间的过去相对于彼此可移动)。从一个此装置到另一装置(例如,到执行切换策略的装置)的通道的通信可经由如上文所描述的有线及/或无线传输通道而发生。在此状况下,可能需要处理远程通道(或者,针对两个通道均由执行切换策略的装置无线地接收的状况为若干通道)以补偿传输延迟及/或取样时钟失配。
传输延迟可能由于无线通信协议(例如,BluetoothTM)而发生。对于给定的头戴式耳机来说,延迟补偿所需的延迟值通常为已知的。如果延迟值为未知的,则可将标称值用于延迟补偿,且可在进一步处理阶段中处置不准确度。
还可能需要补偿两个麦克风信号之间的数据速率差(例如,经由取样速率补偿)。一般来说,可通过两个独立的时钟源来控制所述装置,且时钟速率可随时间的过去相对于彼此轻微地漂移。如果时钟速率不同,则两个麦克风信号的每帧所传递的样本的数目可不同。此通常被称为样本滑动问题,且可使用所属领域的技术人员已知的多种方法来解决此问题。如果发生样本滑动,则方法M100可包括补偿两个麦克风信号之间的数据速率差的任务,且经配置以执行方法M100的设备可包括用于此补偿的装置(例如,取样速率补偿模块)。
在此状况下,可能需要在执行任务T100之前匹配所述通道对的取样速率。举例来说,一种方式为添加样本/从一个串流移除样本以匹配另一串流中的样本/帧。另一方式为完成一个串流的精细取样速率调整以匹配另一串流。在一个实例中,两个通道具有8kHz的标称取样速率,但一个通道的实际取样速率为7985Hz。在此状况下,可能需要将来自此通道的音频样本上取样到8000Hz。在另一实例中,一个通道具有8023Hz的取样速率,且可能需要将其音频样本下取样到8kHz。
如上文所描述,方法M100可经配置以根据基于在不同频率下通道之间的相位差的DOA信息来选择对应于特定端射麦克风对的通道。或者或另外,方法M100可经配置以根据基于通道之间的增益差的DOA信息来选择对应于特定端射麦克风对的通道。用于多通道信号的方向处理的以增益差为基础的技术的实例包括(不限于)波束成形、盲源分离(BSS)及受控响应功率-相位变换(SRP-PHAT)。波束成形方法的实例包括广义旁波瓣消除(GSC)、最小方差无失真响应(MVDR)及线性限制式最小方差(LCMV)波束成形器。BSS方法的实例包括独立分量分析(ICA)及独立向量分析(IVA)。
以相位差为基础的方向处理技术通常在一个或一个以上声源接近于麦克风(例如,在1米内)时产生良好的结果,但在较大的源-麦克风距离处,其性能可降低。可实施方法M110以取决于源的估计范围(即,源与麦克风之间的估计距离)而在一些时候使用如上文所描述的以相位差为基础的处理且在其它时候使用以增益差为基础的处理来选择一子组。在此状况下,可将一对的通道的电平之间的关系(例如,通道的能量之间的对数域差或线性域比率)用作源范围的指示项。还可能需要调谐方向相干性及/或增益差阈值(例如,基于例如远场方向性噪声及/或分布式噪声抑制需求等因素)。
方法M110的此实施方案可经配置以通过组合来自以相位差为基础的处理技术及以增益差为基础的处理技术的方向指示来选择通道的一子组。举例来说,此实施方案可经配置以在估计范围较小时使以相位差为基础的技术的方向指示更重地加权,且在估计范围较大时使以增益差为基础的技术的方向指示更重地加权。或者,此实施方案可经配置以在估计范围较小时基于以相位差为基础的技术的方向指示来选择通道的子组,且在估计范围较大时基于以增益差为基础的技术的方向指示来选择通道的子组。
一些便携式音频感测装置(例如,无线头戴式耳机)能够提供范围信息(例如,经由例如BluetoothTM的通信协议)。举例来说,此范围信息可指示一头戴式耳机距一装置(例如,电话)有多远,所述头戴式耳机当前正与所述装置通信。关于麦克风间距离的此信息可在方法M100中用于相位差计算及/或用于决定将使用哪种类型的方向估计技术。举例来说,波束成形方法通常在主要麦克风与次要麦克风的位置更接近于彼此(距离<8cm)时起到良好的作用,BSS算法通常在中距离(6cm<距离<15cm)时起到良好的作用,且空间分集方法通常在麦克风间隔很远(距离>15cm)时起到良好的作用。
图42展示方法M100的实施方案M200的流程图。方法M200包括任务T100的实施方案的多个实例T150A到T150C,所述实例T150A到T150C中的每一者评估在端射方向中来自一对应麦克风对的立体声信号的方向相干性或固定式波束成形器输出能量。举例来说,任务T150可经配置以取决于从源到麦克风的估计距离而在一些时候执行以方向相干性为基础的处理且在其它时候使用以波束成形器为基础的处理。任务T200的实施方案T250选择来自所述麦克风对的具有最大正规化方向相干性(即,具有最大对比度的相干性测量)或波束成形器输出能量的信号,且任务T300将来自所选信号的噪声降低输出提供到系统层级输出。
方法M100(或执行此方法的设备)的实施方案还可包括对通道的所选子组执行一个或一个以上空间选择性处理操作。举例来说,可实施方法M100以包括:通过使从与所选子组的方向相干部分的DOA不同的方向(例如,在对应扇区外的方向)到达的频率分量衰减而基于所选子组来产生屏蔽信号。或者,方法M100可经配置以计算所选子组的噪声分量的估计,所述噪声分量包括从与所选子组的方向相干部分的DOA不同的方向到达的频率分量。或者或另外,一个或一个以上未选扇区(可能甚至为一个或一个以上未选子组)可用以产生噪声估计。针对计算噪声估计的状况,方法M100还可经配置以使用所述噪声估计对所选子组的一个或一个以上通道执行噪声降低操作(例如,维纳滤波或从所选子组的一个或一个以上通道对噪声估计进行频谱相减)。
任务T200还可经配置以选择所选扇区中的相干性测量的对应阈值。举例来说,相干性测量(及可能此阈值)可用以支持语音活动检测(VAD)操作。通道之间的增益差可用于接近度检测,接近度检测也可用以支持VAD操作。VAD操作可用于训练自适应滤波器及/或用于将信号的时间区段(例如,帧)分类为(远场)噪声或(近场)语音以支持噪声降低操作。举例来说,可使用基于对应的相干性测量值而被分类为噪声的帧来更新如上文所描述的噪声估计(例如,基于主要通道的帧的单通道噪声估计,或双通道噪声估计)。可实施此方案以跨越广泛范围的可能的源到麦克风对的定向来支持一致的噪声降低而所要话音不会衰减。
可能需要将此方法或设备与计时机制一起使用,以使得所述方法或设备经配置以在(例如)所述扇区当中的最大相干性测量(或者,所述相干性测量当中的最大对比度)太低已达一段时间的情况下切换到单通道噪声估计(例如,时间平均单通道噪声估计)。
图43A展示根据一般配置的装置D10的框图。装置D10包括本文中所揭示的麦克风阵列R100的实施方案中的任一者的实例,且本文中所揭示的音频感测装置中的任一者可实施为装置D10的实例。装置D10还包括设备100的实施方案的一实例,其经配置以处理由阵列R100产生的多通道信号以选择多通道信号的通道的一恰当子组(例如,根据本文中所揭示的方法M100的实施方案中的任一者的实例)。设备100可实施于硬件及/或硬件与软件及/或固件的组合中。举例来说,设备100可实施于装置D10的处理器上,所述处理器还经配置以对所选子组执行如上文所描述的空间处理操作(例如,确定音频感测装置与一特定声源之间的距离、降低噪声、增强从一特定方向到达的信号分量及/或分离一个或一个以上声音分量与其它环境声音的一个或一个以上操作)。
图43B展示通信装置D20的框图,所述通信装置D20为装置D10的实施方案。本文中所描述的便携式音频感测装置中的任一者可实施为装置D20的实例,其包括一包括设备100的芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组)。芯片/芯片组CS10可包括可经配置以执行设备100的软件及/或固件部分(例如,作为指令)的一个或一个以上处理器。芯片/芯片组CS10还可包括阵列R100的处理元件(例如,音频预处理级AP10的元件)。芯片/芯片组CS10包括:一接收器,其经配置以接收射频(RF)通信信号及解码并重现编码于所述RF信号内的音频信号;及一发射器,其经配置以编码一基于由设备A10产生的经处理信号的音频信号且发射一描述所述经编码的音频信号的RF通信信号。举例来说,芯片/芯片组CS10的一个或一个以上处理器可经配置以对多通道信号的一个或一个以上通道执行如上文所描述的噪声降低操作,使得经编码的音频信号是基于经噪声降低的信号。
装置D20经配置以经由天线C30接收及发射RF通信信号。装置D20在到天线C30的路径中还可包括一个双工器及一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10接收用户输入且经由显示器C20显示信息。在此实例中,装置D20还包括一个或一个以上天线C40以支持全球定位系统(GPS)位置服务及/或与例如无线(例如,BluetoothTM)头戴式耳机等外部装置的短程通信。在另一实例中,此通信装置自身为蓝牙头戴式耳机且无小键盘C10、显示器C20及天线C30。
本文中所揭示的方法及设备通常可应用于任何收发及/或音频感测应用(尤其是这些应用的移动或其它便携式实例)中。举例来说,本文中所揭示的配置的范围包括驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员应理解,具有如本文中所描述的特征的方法及设备可驻留于使用所属领域的技术人员已知的广泛范围的技术的各种通信系统中的任一者中,例如经由有线及/或无线(例如,CDMA、TDMA、FDMA及/或TD-SCDMA)传输通道使用IP语音(VoIP)的系统。
明确预期且特此揭示,本文中所揭示的通信装置可经调适以用于包交换式网络(例如,根据例如VoIP的协议经布置以携载音频传输的有线及/或无线网络)及/或电路交换式网络中。还明确预期且特此揭示,本文中所揭示的通信装置可经调适以用于窄带译码系统(例如,编码约4千赫或5千赫的音频频率范围的系统)中及/或用于宽带译码系统(例如,编码大于5千赫的音频频率的系统)中,所述系统包括全带宽带译码系统及分带宽带译码系统。
提供所描述的配置的前述呈现以使所属领域的技术人员能够制造或使用本文中所揭示的方法及其它结构。本文中所展示及描述的流程图、框图及其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理也可应用于其它配置。因此,本发明既定不限于上文所示的配置,而是应被赋予与本文中以任何方式(包括在所申请的附加权利要求书中)揭示的原理及新颖特征一致的最广范围,权利要求书形成原始揭示内容的一部分。
所属领域的技术人员应理解,可使用多种不同技术及技艺中的任一者来表示信息及信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或其任何组合来表示在以上描述全篇中可引用的数据、指令、命令、信息、信号、位及符号。
对于如本文中所揭示的配置的实施方案的重要设计要求可包括最小化处理延迟及/或计算复杂性(通常以每秒多少百万指令或MIPS来测量),尤其是对于计算密集型应用,例如用于在高于8千赫的取样速率(例如,12kHz、16kHz或44kHz)下的语音通信的应用。
如本文中所描述的多麦克风处理系统的目标可包括:实现10dB到12dB的总噪声降低;在所要说话者移动期间保持语音电平及色彩;获得噪声已被移到背景中的感知而非积极的噪声移除;话音的去除回响;及/或启用后处理(例如,屏蔽及/或噪声降低)的选项以获得更积极的噪声降低。
如本文中所揭示的设备的实施方案(例如,设备A100、A112、A1121、MF100及MF112)的各种元件可体现于认为适合于预期应用的任何硬件结构或硬件与软件及/或固件的任何组合中。举例来说,这些元件可制造为驻留于(例如)同一芯片上或一芯片组中的两个或两个以上芯片当中的电子装置及/或光学装置。此装置的一个实例为逻辑元件(例如晶体管或逻辑门)的固定或可编程阵列,且这些元件中的任一者可被实施为一个或一个以上这些阵列。这些元件中的任何两者或两者以上或甚至全部可被实施于相同的一个或一个以上阵列内。此阵列或这些阵列可被实施于一个或一个以上芯片内(例如,实施于包括两个或两个以上芯片的一芯片组内)。
本文中所揭示的设备的各种实施方案(例如,设备A100、A112、A1121、MF100及MF112)的一个或一个以上元件还可部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)及ASIC(专用集成电路))上执行。如本文中所揭示的设备的一实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,还被称为“处理器”),且这些元件中的任何两者或两者以上或甚至全部可实施于相同的此计算机或这些计算机内。
可将如本文中所揭示的处理器或用于处理的其它装置制造为驻留于(例如)同一芯片上或一芯片组中的两个或两个以上芯片当中的一个或一个以上电子装置及/或光学装置。此装置的一个实例为逻辑元件(例如晶体管或逻辑门)的固定或可编程阵列,且这些元件中的任一者可被实施为一个或一个以上这些阵列。此阵列或这些阵列可被实施于一个或一个以上芯片内(例如,实施于包括两个或两个以上芯片的一芯片组内)。这些阵列的实例包括固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP及ASIC)。如本文中所揭示的处理器或用于处理的其它装置还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。有可能使用如本文中所描述的处理器来执行并非与选择多通道信号的通道的子组的程序直接有关的任务或执行并非与选择多通道信号的通道的子组的程序直接有关的其它指令集,例如与嵌入有所述处理器的装置或系统(例如,音频感测装置)的另一操作有关的任务。还有可能由音频感测装置的处理器执行如本文中所揭示的方法的一部分(例如,任务T100)且在一个或一个以上其它处理器的控制下执行所述方法的另一部分(例如,任务T200)。
所属领域的技术人员应了解,可将结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路及测试与其它操作实施为电子硬件、计算机软件或两者的组合。这些模块、逻辑块、电路及操作可使用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的其任何组合来实施或执行。举例来说,此配置可至少部分地实施为一硬联线电路、实施为制造于专用集成电路中的电路配置,或实施为加载到非易失性存储装置中的固件程序或作为机器可读代码而从一数据存储媒体加载或加载到一数据存储媒体中的软件程序,此代码是可由逻辑元件阵列(例如,通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器,但在替代例中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器,或任一其它此配置。软件模块可驻留于非暂时性存储媒体中,例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸式盘或CD-ROM,或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得所述处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代例中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代例中,处理器及存储媒体可作为离散组件而驻留于用户终端中。
应注意,本文中所揭示的各种方法(例如,方法M100、M110、M112及M200)可由例如处理器的逻辑元件阵列来执行,且如本文中所描述的设备的各种元件可部分地实施为经设计以在此阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指代包括呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,多个模块或系统可组合成一个模块或系统,且一个模块或系统可分成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的要素基本上是用以执行相关任务的代码段,例如例程、程序、对象、组件、数据结构及其类似者。术语“软件”应被理解为包括源代码、汇编语言代码、机器码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列,及这些实例的任何组合。程序或代码段可存储于处理器可读存储媒体中,或可经由传输媒体或通信链路通过体现于载波中的计算机数据信号来传输。
本文中所揭示的方法、方案及技术的实施方案还可有形地体现(例如,在如本文中所列出的一个或一个以上计算机可读存储媒体的有形的计算机可读特征中)为可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一个或一个以上指令集。术语“计算机可读媒体”可包括可存储或传送信息的任何媒体,包括易失性、非易失性、可装卸式及非可装卸式存储媒体。计算机可读媒体的实例包括电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包括可经由例如电子网络通道、光纤、空气、电磁、RF链路等的传输媒体传播的任何信号。可经由例如因特网或企业内部网络的计算机网络来下载代码段。在任何状况下,本发明的范围不应被解释为受这些实施例限制。
本文中所描述的方法的任务中的每一者可直接体现于硬件中、由处理器执行的软件模块中或所述两者的组合中。在如本文中所揭示的方法的一实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行方法的各种任务中的一者、一者以上或甚至全部。任务中的一者或一者以上(可能为全部)还可被实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪存储器卡或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述代码可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取及/或执行。如本文中所揭示的方法的一实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中,可在用于无线通信的装置(例如,蜂窝式电话)或具有此通信能力的其它装置内执行任务。此装置可经配置以与电路交换式网络及/或包交换式网络通信(例如,使用例如VoIP的一个或一个以上协议)。举例来说,此装置可包括经配置以接收及/或发射经编码的帧的RF电路。
明确揭示,本文中所揭示的各种方法可由便携式通信装置(例如,手持机、头戴式耳机或便携式数字助理(PDA))执行,且本文中所描述的各种设备可包括于此装置内。典型的实时(例如,在线)应用为使用此移动装置进行的电话对话。
在一个或一个以上示范性实施例中,本文中所描述的操作可以硬件、软件、固件或其任何组合来实施。如果以软件实施,则这些操作可作为一个或一个以上指令或代码而在计算机可读媒体上存储或经由所述计算机可读媒体传输。术语“计算机可读媒体”包括计算机可读存储媒体与通信(例如,传输)媒体两者。通过实例且非限制,计算机可读存储媒体可包含存储元件阵列,例如半导体存储器(其可包括(不限于)动态或静态RAM、ROM、EEPROM及/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置;及/或磁盘存储装置或其它磁性存储装置。这些存储媒体可存储呈可由计算机存取的指令或数据结构的形式的信息。通信媒体可包含可用以携载呈指令或数据结构的形式的所需程序代码且可由计算机存取的任何媒体,包括促进计算机程序从一处到另一处的传送的任何媒体。又,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL),或例如红外线、无线电及/或微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤缆线、双绞线、DSL,或例如红外线、无线电及/或微波的无线技术包括于媒体的定义中。如本文中所使用,磁盘及光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘及Blu-ray DiscTM(加利福尼亚州环球城蓝光光盘协会(Blu-Ray DiscAssociation,Universal City,CA)),其中磁盘通常以磁性方式再生数据,而光盘通过激光以光学方式再生数据。上述各者的组合也应包括在计算机可读媒体的范围内。
如本文中所描述的声信号处理设备可并入到一电子装置(例如通信装置)中,所述电子装置接受话音输入以便控制某些操作,或可另外受益于所要噪声与背景噪声的分离。许多应用可受益于增强清楚的所要声音或分离清楚的所要声音与来源于多个方向的背景声音。这些应用可包括并入有例如语音辨识及检测、话音增强及分离、语音启动的控制及其类似者等能力的电子或计算装置中的人机接口。可能需要实施此声信号处理设备以适合于仅提供有限处理能力的装置中。
可将本文中所描述的模块、元件及装置的各种实施方案的元件制造为驻留于(例如)同一芯片上或一芯片组中的两个或两个以上芯片当中的电子装置及/或光学装置。此装置的一个实例为逻辑元件(例如晶体管或门)的固定或可编程阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件也可完全或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行。
有可能使用如本文中所描述的设备的一实施方案的一个或一个以上元件来执行并非与所述设备的操作直接有关的任务或执行并非与所述设备的操作直接有关的其它指令集,例如与嵌入有所述设备的装置或系统的另一操作有关的任务。还有可能此设备的实施方案的一个或一个以上元件具有共同的结构(例如,用以在不同时间执行对应于不同元件的代码部分的处理器,经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行不同元件的操作的电子装置及/或光学装置的布置)。举例来说,可实施计算器110a到110n中的一者或一者以上(可能为全部)以在不同时间使用同一结构(例如,界定相位差计算操作的同一指令集)。
Claims (34)
1.一种处理多通道信号的方法,所述方法包含:
针对所述多通道信号的多个不同频率分量中的每一者来计算在第一时间在所述多通道信号的第一对通道中的每一者中所述频率分量的相位之间的差,以获得第一多个相位差;
基于来自所述第一多个计算出的相位差的信息来计算第一相干性测量的值,所述第一相干性测量指示在所述第一时间所述第一对的至少所述多个不同频率分量的到达方向在第一空间扇区中相干的程度;
针对所述多通道信号的所述多个不同频率分量中的每一者来计算在第二时间在所述多通道信号的第二对通道中的每一者中所述频率分量的相位之间的差,以获得第二多个相位差,所述第二对不同于所述第一对;
基于来自所述第二多个计算出的相位差的信息来计算第二相干性测量的值,所述第二相干性测量指示在所述第二时间所述第二对的至少所述多个不同频率分量的到达方向在第二空间扇区中相干的程度;
通过评估所述第一相干性测量的所述计算值与所述第一相干性测量随时间的平均值之间的关系来计算所述第一相干性测量的对比度;
通过评估所述第二相干性测量的所述计算值与所述第二相干性测量随时间的平均值之间的关系来计算所述第二相干性测量的对比度;及
基于所述第一相干性测量及所述第二相干性测量当中的哪一者具有最大对比度而在所述第一对通道及所述第二对通道当中选择一对。
2.根据权利要求1所述的方法,其中所述在所述第一对通道及所述第二对通道当中选择一对是基于:(A)所述第一对通道中的每一者的能量之间的关系;及(B)所述第二对通道中的每一者的能量之间的关系。
3.根据权利要求1及2中任一权利要求所述的方法,其中所述方法包含响应于所述在所述第一对通道及所述第二对通道当中选择一对而计算所述所选对的噪声分量的估计。
4.根据权利要求1到3中任一权利要求所述的方法,其中所述方法包含:针对所述所选对的至少一个通道的至少一个频率分量,基于所述频率分量的所述计算出的相位差而使所述频率分量衰减。
5.根据权利要求1到4中任一权利要求所述的方法,其中所述方法包含估计信号源的范围,且
其中所述在所述第一对通道及所述第二对通道当中选择一对是基于所述估计的范围。
6.根据权利要求1到5中任一权利要求所述的方法,其中所述第一对通道中的每一者是基于由第一对麦克风中的对应一个麦克风产生的信号;且
其中所述第二对通道中的每一者是基于由第二对麦克风中的对应一个麦克风产生的信号。
7.根据权利要求6所述的方法,其中所述第一空间扇区包括所述第一对麦克风的端射方向,且所述第二空间扇区包括所述第二对麦克风的端射方向。
8.根据权利要求6及7中任一权利要求所述的方法,其中所述第一空间扇区排除所述第一对麦克风的边射方向,且所述第二空间扇区排除所述第二对麦克风的边射方向。
9.根据权利要求6到8中任一权利要求所述的方法,其中所述第一对麦克风包括所述第二对麦克风当中的一个麦克风。
10.根据权利要求6到9中任一权利要求所述的方法,其中所述第一对麦克风当中的每一麦克风的位置相对于所述第一对麦克风当中的另一麦克风的位置为固定的,且
其中所述第二对麦克风当中的至少一个麦克风相对于所述第一对麦克风可移动。
11.根据权利要求6到10中任一权利要求所述的方法,其中所述方法包含经由无线传输通道接收所述第二对通道当中的至少一个通道。
12.根据权利要求6到11中任一权利要求所述的方法,其中所述在所述第一对通道及所述第二对通道当中选择一对是基于(A)以下(A)与(B)之间的关系:(A)在包括所述第一对麦克风的一个端射方向且排除所述第一对麦克风的另一端射方向的射束中所述第一对通道的能量,及(B)在包括所述第二对麦克风的一个端射方向且排除所述第二对麦克风的另一端射方向的射束中所述第二对通道的能量。
13.根据权利要求6到12中任一权利要求所述的方法,其中所述方法包含:
估计信号源的范围;及
在所述第一时间及所述第二时间之后的第三时间,且基于所述估计的范围,基于(A)以下(A)与(B)之间的关系而在所述第一对通道及所述第二对通道当中选择另一对:(A)在包括所述第一对麦克风的一个端射方向且排除所述第一对麦克风的另一端射方向的射束中所述第一对通道的能量,及(B)在包括所述第二对麦克风的一个端射方向且排除所述第二对麦克风的另一端射方向的射束中所述第二对通道的能量。
14.一种具有有形特征的计算机可读存储媒体,所述有形特征使读取所述特征的机器执行根据权利要求1到13中任一权利要求所述的方法。
15.一种用于处理多通道信号的设备,所述设备包含:
用于针对所述多通道信号的多个不同频率分量中的每一者来计算在第一时间在所述多通道信号的第一对通道中的每一者中所述频率分量的相位之间的差以获得第一多个相位差的装置;
用于基于来自所述第一多个计算出的相位差的信息来计算第一相干性测量的值的装置,所述第一相干性测量指示在所述第一时间所述第一对的至少所述多个不同频率分量的到达方向在第一空间扇区中相干的程度;
用于针对所述多通道信号的所述多个不同频率分量中的每一者来计算在第二时间在所述多通道信号的第二对通道中的每一者中所述频率分量的相位之间的差以获得第二多个相位差的装置,所述第二对不同于所述第一对;
用于基于来自所述第二多个计算出的相位差的信息来计算第二相干性测量的值的装置,所述第二相干性测量指示在所述第二时间所述第二对的至少所述多个不同频率分量的到达方向在第二空间扇区中相干的程度;
用于通过评估所述第一相干性测量的所述计算值与所述第一相干性测量随时间的平均值之间的关系来计算所述第一相干性测量的对比度的装置;
用于通过评估所述第二相干性测量的所述计算值与所述第二相干性测量随时间的平均值之间的关系来计算所述第二相干性测量的对比度的装置;及
用于基于所述第一相干性测量及所述第二相干性测量当中的哪一者具有最大对比度而在所述第一对通道及所述第二对通道当中选择一对的装置。
16.根据权利要求15所述的设备,其中所述用于在所述第一对通道及所述第二对通道当中选择一对的装置经配置以基于(A)所述第一对通道中的每一者的能量之间的关系及(B)所述第二对通道中的每一者的能量之间的关系而在所述第一对通道及所述第二对通道当中选择所述一对。
17.根据权利要求15及16中任一权利要求所述的设备,其中所述设备包含用于响应于所述在所述第一对通道及所述第二对通道当中选择一对来计算所述所选对的噪声分量的估计的装置。
18.根据权利要求15到17中任一权利要求所述的设备,其中所述第一对通道中的每一者是基于由第一对麦克风中的对应一个麦克风产生的信号,且
其中所述第二对通道中的每一者是基于由第二对麦克风中的对应一个麦克风产生的信号。
19.根据权利要求18所述的设备,其中所述第一空间扇区包括所述第一对麦克风的端射方向,且所述第二空间扇区包括所述第二对麦克风的端射方向。
20.根据权利要求18及19中任一权利要求所述的设备,其中所述第一空间扇区排除所述第一对麦克风的边射方向,且所述第二空间扇区排除所述第二对麦克风的边射方向。
21.根据权利要求18到20中任一权利要求所述的设备,其中所述第一对麦克风包括所述第二对麦克风当中的一个麦克风。
22.根据权利要求18到21中任一权利要求所述的设备,其中所述第一对麦克风当中的每一麦克风的位置相对于所述第一对麦克风当中的另一麦克风的位置为固定的,且
其中所述第二对麦克风当中的至少一个麦克风相对于所述第一对麦克风可移动。
23.根据权利要求18到22中任一权利要求所述的设备,其中所述设备包含用于经由无线传输通道接收所述第二对通道当中的至少一个通道的装置。
24.根据权利要求18到23中任一权利要求所述的设备,其中所述用于在所述第一对通道及所述第二对通道当中选择一对的装置经配置以基于(A)以下(A)与(B)之间的关系而在所述第一对通道及所述第二对通道当中选择所述一对:(A)在包括所述第一对麦克风的一个端射方向且排除所述第一对麦克风的另一端射方向的射束中所述第一对通道的能量,及(B)在包括所述第二对麦克风的一个端射方向且排除所述第二对麦克风的另一端射方向的射束中所述第二对通道的能量。
25.一种用于处理多通道信号的设备,所述设备包含:
第一计算器,其经配置以针对所述多通道信号的多个不同频率分量中的每一者来计算在第一时间在所述多通道信号的第一对通道中的每一者中所述频率分量的相位之间的差以获得第一多个相位差;
第二计算器,其经配置以基于来自所述第一多个计算出的相位差的信息来计算第一相干性测量的值,所述第一相干性测量指示在所述第一时间所述第一对的至少所述多个不同频率分量的到达方向在第一空间扇区中相干的程度;
第三计算器,其经配置以针对所述多通道信号的所述多个不同频率分量中的每一者来计算在第二时间在所述多通道信号的第二对通道中的每一者中所述频率分量的相位之间的差以获得第二多个相位差,所述第二对不同于所述第一对;
第四计算器,其经配置以基于来自所述第二多个计算出的相位差的信息来计算第二相干性测量的值,所述第二相干性测量指示在所述第二时间所述第二对的至少所述多个不同频率分量的到达方向在第二空间扇区中相干的程度;
第五计算器,其经配置以通过评估所述第一相干性测量的所述计算值与所述第一相干性测量随时间的平均值之间的关系来计算所述第一相干性测量的对比度;
第六计算器,其经配置以通过评估所述第二相干性测量的所述计算值与所述第二相干性测量随时间的平均值之间的关系来计算所述第二相干性测量的对比度;及
选择器,其经配置以基于所述第一相干性测量及所述第二相干性测量当中的哪一者具有最大对比度而在所述第一对通道及所述第二对通道当中选择一对。
26.根据权利要求25所述的设备,其中所述选择器经配置以基于(A)所述第一对通道中的每一者的能量之间的关系及(B)所述第二对通道中的每一者的能量之间的关系而在所述第一对通道及所述第二对通道当中选择所述一对。
27.根据权利要求25及26中任一权利要求所述的设备,其中所述设备包含第七计算器,所述第七计算器经配置以响应于所述在所述第一对通道及所述第二对通道当中选择一对而计算所述所选对的噪声分量的估计。
28.根据权利要求25到27中任一权利要求所述的设备,其中所述第一对通道中的每一者是基于由第一对麦克风中的对应一个麦克风产生的信号,且
其中所述第二对通道中的每一者是基于由第二对麦克风中的对应一个麦克风产生的信号。
29.根据权利要求28所述的设备,其中所述第一空间扇区包括所述第一对麦克风的端射方向,且所述第二空间扇区包括所述第二对麦克风的端射方向。
30.根据权利要求28及29中任一权利要求所述的设备,其中所述第一空间扇区排除所述第一对麦克风的边射方向,且所述第二空间扇区排除所述第二对麦克风的边射方向。
31.根据权利要求28到30中任一权利要求所述的设备,其中所述第一对麦克风包括所述第二对麦克风当中的一个麦克风。
32.根据权利要求28到31中任一权利要求所述的设备,其中所述第一对麦克风当中的每一麦克风的位置相对于所述第一对麦克风当中的另一麦克风的位置为固定的,且
其中所述第二对麦克风当中的至少一个麦克风相对于所述第一对麦克风可移动。
33.根据权利要求28到32中任一权利要求所述的设备,其中所述设备包含接收器,所述接收器经配置以经由无线传输通道接收所述第二对通道当中的至少一个通道。
34.根据权利要求28到33中任一权利要求所述的设备,其中所述选择器经配置以基于(A)以下(A)与(B)之间的关系而在所述第一对通道及所述第二对通道当中选择所述一对:(A)在包括所述第一对麦克风的一个端射方向且排除所述第一对麦克风的另一端射方向的射束中所述第一对通道的能量,及(B)在包括所述第二对麦克风的一个端射方向且排除所述第二对麦克风的另一端射方向的射束中所述第二对通道的能量。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US30576310P | 2010-02-18 | 2010-02-18 | |
US61/305,763 | 2010-02-18 | ||
US13/029,582 | 2011-02-17 | ||
US13/029,582 US8897455B2 (en) | 2010-02-18 | 2011-02-17 | Microphone array subset selection for robust noise reduction |
PCT/US2011/025512 WO2011103488A1 (en) | 2010-02-18 | 2011-02-18 | Microphone array subset selection for robust noise reduction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102763160A true CN102763160A (zh) | 2012-10-31 |
CN102763160B CN102763160B (zh) | 2014-06-25 |
Family
ID=44064205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180009873.3A Expired - Fee Related CN102763160B (zh) | 2010-02-18 | 2011-02-18 | 用于稳健噪声降低的麦克风阵列子组选择 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8897455B2 (zh) |
EP (1) | EP2537153A1 (zh) |
JP (1) | JP5038550B1 (zh) |
KR (1) | KR101337695B1 (zh) |
CN (1) | CN102763160B (zh) |
TW (1) | TW201142830A (zh) |
WO (1) | WO2011103488A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105529033A (zh) * | 2014-10-20 | 2016-04-27 | 索尼公司 | 声音处理系统 |
CN105637894A (zh) * | 2013-08-21 | 2016-06-01 | 微软技术许可有限责任公司 | 经由多个话筒的音频聚焦 |
CN106105261A (zh) * | 2014-03-12 | 2016-11-09 | 索尼公司 | 声场声音拾取装置和方法、声场再现装置和方法以及程序 |
CN106463106A (zh) * | 2014-07-14 | 2017-02-22 | 英特尔Ip公司 | 用于音频接收的风噪声降低 |
CN106797507A (zh) * | 2014-10-02 | 2017-05-31 | 美商楼氏电子有限公司 | 低功率声学装置和操作方法 |
CN107113498A (zh) * | 2014-12-26 | 2017-08-29 | 爱信精机株式会社 | 声音处理装置 |
CN107734426A (zh) * | 2017-08-28 | 2018-02-23 | 深圳市金立通信设备有限公司 | 音频信号处理方法、终端及计算机可读存储介质 |
CN107889022A (zh) * | 2016-09-30 | 2018-04-06 | 松下电器产业株式会社 | 噪音抑制装置以及噪音抑制方法 |
CN108417221A (zh) * | 2018-01-25 | 2018-08-17 | 南京理工大学 | 基于信号二维重组融合滤波的数字对讲机声码类型检测法 |
CN109845287A (zh) * | 2016-09-30 | 2019-06-04 | 伯斯有限公司 | 用于动态声音调节的噪声估计 |
CN110428851A (zh) * | 2019-08-21 | 2019-11-08 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
CN110459236A (zh) * | 2019-08-15 | 2019-11-15 | 北京小米移动软件有限公司 | 音频信号的噪声估计方法、装置及存储介质 |
CN113891213A (zh) * | 2021-10-26 | 2022-01-04 | 苏州登堡电子科技有限公司 | 一种优化骨传导耳机 |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9247346B2 (en) | 2007-12-07 | 2016-01-26 | Northern Illinois Research Foundation | Apparatus, system and method for noise cancellation and communication for incubators and related devices |
DE102011012573B4 (de) * | 2011-02-26 | 2021-09-16 | Paragon Ag | Sprachbedienvorrichtung für Kraftfahrzeuge und Verfahren zur Auswahl eines Mikrofons für den Betrieb einer Sprachbedienvorrichtung |
US9635474B2 (en) * | 2011-05-23 | 2017-04-25 | Sonova Ag | Method of processing a signal in a hearing instrument, and hearing instrument |
JP5817366B2 (ja) * | 2011-09-12 | 2015-11-18 | 沖電気工業株式会社 | 音声信号処理装置、方法及びプログラム |
JP6179081B2 (ja) * | 2011-09-15 | 2017-08-16 | 株式会社Jvcケンウッド | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 |
EP2828855B1 (en) | 2012-03-23 | 2016-04-27 | Dolby Laboratories Licensing Corporation | Determining a harmonicity measure for voice processing |
CN103325384A (zh) | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 谐度估计、音频分类、音调确定及噪声估计 |
WO2013144609A1 (en) * | 2012-03-26 | 2013-10-03 | University Of Surrey | Acoustic source separation |
US20130282372A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
CN102801861B (zh) * | 2012-08-07 | 2015-08-19 | 歌尔声学股份有限公司 | 一种应用于手机的语音增强方法和装置 |
JP6096437B2 (ja) * | 2012-08-27 | 2017-03-15 | 株式会社ザクティ | 音声処理装置 |
US8988480B2 (en) * | 2012-09-10 | 2015-03-24 | Apple Inc. | Use of an earpiece acoustic opening as a microphone port for beamforming applications |
US20160210957A1 (en) * | 2015-01-16 | 2016-07-21 | Foundation For Research And Technology - Hellas (Forth) | Foreground Signal Suppression Apparatuses, Methods, and Systems |
US10136239B1 (en) | 2012-09-26 | 2018-11-20 | Foundation For Research And Technology—Hellas (F.O.R.T.H.) | Capturing and reproducing spatial sound apparatuses, methods, and systems |
US10175335B1 (en) | 2012-09-26 | 2019-01-08 | Foundation For Research And Technology-Hellas (Forth) | Direction of arrival (DOA) estimation apparatuses, methods, and systems |
US10149048B1 (en) | 2012-09-26 | 2018-12-04 | Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) | Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems |
US9955277B1 (en) | 2012-09-26 | 2018-04-24 | Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) | Spatial sound characterization apparatuses, methods and systems |
US20140112517A1 (en) * | 2012-10-18 | 2014-04-24 | Apple Inc. | Microphone features related to a portable computing device |
WO2014087195A1 (en) | 2012-12-05 | 2014-06-12 | Nokia Corporation | Orientation Based Microphone Selection Apparatus |
CN103067821B (zh) * | 2012-12-12 | 2015-03-11 | 歌尔声学股份有限公司 | 一种基于双麦克的语音混响消减方法和装置 |
WO2014101156A1 (en) * | 2012-12-31 | 2014-07-03 | Spreadtrum Communications (Shanghai) Co., Ltd. | Adaptive audio capturing |
JP6107151B2 (ja) | 2013-01-15 | 2017-04-05 | 富士通株式会社 | 雑音抑圧装置、方法、及びプログラム |
EP2958447B1 (en) * | 2013-02-21 | 2019-01-16 | Cardo Systems, Ltd. | Helmet with cheek-embedded microphone |
US9312826B2 (en) | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
US10306389B2 (en) * | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
US11854565B2 (en) * | 2013-03-13 | 2023-12-26 | Solos Technology Limited | Wrist wearable apparatuses and methods with desired signal extraction |
EP2992687B1 (en) | 2013-04-29 | 2018-06-06 | University Of Surrey | Microphone array for acoustic source separation |
JP6206003B2 (ja) * | 2013-08-30 | 2017-10-04 | 沖電気工業株式会社 | 音源分離装置、音源分離プログラム、収音装置及び収音プログラム |
CN104424953B (zh) * | 2013-09-11 | 2019-11-01 | 华为技术有限公司 | 语音信号处理方法与装置 |
GB2519379B (en) | 2013-10-21 | 2020-08-26 | Nokia Technologies Oy | Noise reduction in multi-microphone systems |
CN104795067B (zh) * | 2014-01-20 | 2019-08-06 | 华为技术有限公司 | 语音交互方法及装置 |
JP6213324B2 (ja) * | 2014-03-19 | 2017-10-18 | 沖電気工業株式会社 | 音声信号処理装置及びプログラム |
JP6252274B2 (ja) * | 2014-03-19 | 2017-12-27 | 沖電気工業株式会社 | 背景雑音区間推定装置及びプログラム |
US9313621B2 (en) * | 2014-04-15 | 2016-04-12 | Motorola Solutions, Inc. | Method for automatically switching to a channel for transmission on a multi-watch portable radio |
EP3152756B1 (en) * | 2014-06-09 | 2019-10-23 | Dolby Laboratories Licensing Corporation | Noise level estimation |
KR101596762B1 (ko) | 2014-12-15 | 2016-02-23 | 현대자동차주식회사 | 스마트 안경을 이용한 차량 위치 안내 방법 및 이를 수행하는 장치 |
US9489963B2 (en) * | 2015-03-16 | 2016-11-08 | Qualcomm Technologies International, Ltd. | Correlation-based two microphone algorithm for noise reduction in reverberation |
US9992584B2 (en) * | 2015-06-09 | 2018-06-05 | Cochlear Limited | Hearing prostheses for single-sided deafness |
CN108141654B (zh) * | 2015-10-13 | 2020-02-14 | 索尼公司 | 信息处理装置 |
CN110493692B (zh) | 2015-10-13 | 2022-01-25 | 索尼公司 | 信息处理装置 |
US11631421B2 (en) * | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
JP2017116909A (ja) * | 2015-12-27 | 2017-06-29 | パナソニックIpマネジメント株式会社 | 騒音低減装置 |
US9851938B2 (en) * | 2016-04-26 | 2017-12-26 | Analog Devices, Inc. | Microphone arrays and communication systems for directional reception |
GB2556093A (en) | 2016-11-18 | 2018-05-23 | Nokia Technologies Oy | Analysis of spatial metadata from multi-microphones having asymmetric geometry in devices |
US10127920B2 (en) | 2017-01-09 | 2018-11-13 | Google Llc | Acoustic parameter adjustment |
US20180317006A1 (en) * | 2017-04-28 | 2018-11-01 | Qualcomm Incorporated | Microphone configurations |
JP6918602B2 (ja) * | 2017-06-27 | 2021-08-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 集音装置 |
US20190090052A1 (en) * | 2017-09-20 | 2019-03-21 | Knowles Electronics, Llc | Cost effective microphone array design for spatial filtering |
CN111656442B (zh) * | 2017-11-17 | 2024-06-28 | 弗劳恩霍夫应用研究促进协会 | 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法 |
US10755690B2 (en) | 2018-06-11 | 2020-08-25 | Qualcomm Incorporated | Directional noise cancelling headset with multiple feedforward microphones |
US10871543B2 (en) * | 2018-06-12 | 2020-12-22 | Kaam Llc | Direction of arrival estimation of acoustic-signals from acoustic source using sub-array selection |
US10942548B2 (en) * | 2018-09-24 | 2021-03-09 | Apple Inc. | Method for porting microphone through keyboard |
WO2020086623A1 (en) * | 2018-10-22 | 2020-04-30 | Zeev Neumeier | Hearing aid |
US12106752B2 (en) * | 2018-12-21 | 2024-10-01 | Nura Holdings Pty Ltd | Speech recognition using multiple sensors |
CA3130978A1 (en) | 2019-02-21 | 2020-08-27 | Envoy Medical Corporation | Implantable cochlear system with integrated components and lead characterization |
US11049509B2 (en) * | 2019-03-06 | 2021-06-29 | Plantronics, Inc. | Voice signal enhancement for head-worn audio devices |
WO2021048632A2 (en) * | 2019-05-22 | 2021-03-18 | Solos Technology Limited | Microphone configurations for eyewear devices, systems, apparatuses, and methods |
KR20210001646A (ko) * | 2019-06-28 | 2021-01-06 | 삼성전자주식회사 | 전자 장치 및 이를 이용한 오디오 신호를 처리하기 위한 음향 장치를 결정하는 방법 |
US11234073B1 (en) * | 2019-07-05 | 2022-01-25 | Facebook Technologies, Llc | Selective active noise cancellation |
US11937056B2 (en) | 2019-08-22 | 2024-03-19 | Rensselaer Polytechnic Institute | Multi-talker separation using 3-tuple coprime microphone array |
US20200120416A1 (en) * | 2019-12-16 | 2020-04-16 | Intel Corporation | Methods and apparatus to detect an audio source |
US11632635B2 (en) * | 2020-04-17 | 2023-04-18 | Oticon A/S | Hearing aid comprising a noise reduction system |
KR20220012518A (ko) | 2020-07-23 | 2022-02-04 | (주) 보쉬전장 | 주파수 제어필터가 구비되지 않는 펄스 변복조 모터의 노이즈 제거장치 |
US11564046B2 (en) | 2020-08-28 | 2023-01-24 | Envoy Medical Corporation | Programming of cochlear implant accessories |
US11806531B2 (en) | 2020-12-02 | 2023-11-07 | Envoy Medical Corporation | Implantable cochlear system with inner ear sensor |
US11471689B2 (en) | 2020-12-02 | 2022-10-18 | Envoy Medical Corporation | Cochlear implant stimulation calibration |
US11697019B2 (en) | 2020-12-02 | 2023-07-11 | Envoy Medical Corporation | Combination hearing aid and cochlear implant system |
TWI763232B (zh) * | 2021-01-04 | 2022-05-01 | 瑞昱半導體股份有限公司 | 消除未穩態雜訊之方法及其裝置 |
US11633591B2 (en) | 2021-02-23 | 2023-04-25 | Envoy Medical Corporation | Combination implant system with removable earplug sensor and implanted battery |
US11839765B2 (en) | 2021-02-23 | 2023-12-12 | Envoy Medical Corporation | Cochlear implant system with integrated signal analysis functionality |
US12081061B2 (en) | 2021-02-23 | 2024-09-03 | Envoy Medical Corporation | Predicting a cumulative thermal dose in implantable battery recharge systems and methods |
US11865339B2 (en) | 2021-04-05 | 2024-01-09 | Envoy Medical Corporation | Cochlear implant system with electrode impedance diagnostics |
CN114125635A (zh) * | 2021-11-26 | 2022-03-01 | 深圳市逸音科技有限公司 | 一种主动降噪耳机配对连接方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6069961A (en) * | 1996-11-27 | 2000-05-30 | Fujitsu Limited | Microphone system |
CN1837846A (zh) * | 2005-03-23 | 2006-09-27 | 株式会社东芝 | 用于处理声音信号的装置和方法 |
US20060233389A1 (en) * | 2003-08-27 | 2006-10-19 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
JP2007150743A (ja) * | 2005-11-28 | 2007-06-14 | Nippon Telegr & Teleph Corp <Ntt> | 送話装置 |
US20070160230A1 (en) * | 2006-01-10 | 2007-07-12 | Casio Computer Co., Ltd. | Device and method for determining sound source direction |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4485484A (en) * | 1982-10-28 | 1984-11-27 | At&T Bell Laboratories | Directable microphone system |
US4653102A (en) * | 1985-11-05 | 1987-03-24 | Position Orientation Systems | Directional microphone system |
FR2682251B1 (fr) * | 1991-10-02 | 1997-04-25 | Prescom Sarl | Procede et systeme de prise de son, et appareil de prise et de restitution de son. |
JP4167694B2 (ja) | 1996-11-27 | 2008-10-15 | 富士通株式会社 | マイクロホンシステム |
US7171008B2 (en) * | 2002-02-05 | 2007-01-30 | Mh Acoustics, Llc | Reducing noise in audio systems |
US8098844B2 (en) * | 2002-02-05 | 2012-01-17 | Mh Acoustics, Llc | Dual-microphone spatial noise suppression |
EP1662485B1 (en) * | 2003-09-02 | 2009-07-22 | Nippon Telegraph and Telephone Corporation | Signal separation method, signal separation device, signal separation program, and recording medium |
JP4873913B2 (ja) | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
US7565288B2 (en) | 2005-12-22 | 2009-07-21 | Microsoft Corporation | Spatial noise suppression for a microphone array |
JP4894353B2 (ja) | 2006-05-26 | 2012-03-14 | ヤマハ株式会社 | 放収音装置 |
US20080273476A1 (en) | 2007-05-02 | 2008-11-06 | Menachem Cohen | Device Method and System For Teleconferencing |
US9113240B2 (en) | 2008-03-18 | 2015-08-18 | Qualcomm Incorporated | Speech enhancement using multiple microphones on multiple devices |
US8724829B2 (en) | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
US9202456B2 (en) | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US8620672B2 (en) | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
US20110058683A1 (en) * | 2009-09-04 | 2011-03-10 | Glenn Kosteva | Method & apparatus for selecting a microphone in a microphone array |
-
2011
- 2011-02-17 US US13/029,582 patent/US8897455B2/en not_active Expired - Fee Related
- 2011-02-18 CN CN201180009873.3A patent/CN102763160B/zh not_active Expired - Fee Related
- 2011-02-18 KR KR1020127024232A patent/KR101337695B1/ko not_active IP Right Cessation
- 2011-02-18 EP EP11706122A patent/EP2537153A1/en not_active Withdrawn
- 2011-02-18 WO PCT/US2011/025512 patent/WO2011103488A1/en active Application Filing
- 2011-02-18 TW TW100105534A patent/TW201142830A/zh unknown
- 2011-02-18 JP JP2012507484A patent/JP5038550B1/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6069961A (en) * | 1996-11-27 | 2000-05-30 | Fujitsu Limited | Microphone system |
US20060233389A1 (en) * | 2003-08-27 | 2006-10-19 | Sony Computer Entertainment Inc. | Methods and apparatus for targeted sound detection and characterization |
CN1837846A (zh) * | 2005-03-23 | 2006-09-27 | 株式会社东芝 | 用于处理声音信号的装置和方法 |
JP2007150743A (ja) * | 2005-11-28 | 2007-06-14 | Nippon Telegr & Teleph Corp <Ntt> | 送話装置 |
US20070160230A1 (en) * | 2006-01-10 | 2007-07-12 | Casio Computer Co., Ltd. | Device and method for determining sound source direction |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105637894B (zh) * | 2013-08-21 | 2019-03-08 | 微软技术许可有限责任公司 | 经由多个话筒的音频聚焦 |
CN105637894A (zh) * | 2013-08-21 | 2016-06-01 | 微软技术许可有限责任公司 | 经由多个话筒的音频聚焦 |
CN106105261A (zh) * | 2014-03-12 | 2016-11-09 | 索尼公司 | 声场声音拾取装置和方法、声场再现装置和方法以及程序 |
CN106105261B (zh) * | 2014-03-12 | 2019-11-05 | 索尼公司 | 声场声音拾取装置和方法、声场再现装置和方法以及程序 |
CN106463106A (zh) * | 2014-07-14 | 2017-02-22 | 英特尔Ip公司 | 用于音频接收的风噪声降低 |
CN106463106B (zh) * | 2014-07-14 | 2021-01-26 | 英特尔Ip公司 | 用于音频接收的风噪声降低 |
CN106797507A (zh) * | 2014-10-02 | 2017-05-31 | 美商楼氏电子有限公司 | 低功率声学装置和操作方法 |
US11172292B2 (en) | 2014-10-20 | 2021-11-09 | Sony Corporation | Voice processing system |
CN105529033A (zh) * | 2014-10-20 | 2016-04-27 | 索尼公司 | 声音处理系统 |
US10674258B2 (en) | 2014-10-20 | 2020-06-02 | Sony Corporation | Voice processing system |
CN105529033B (zh) * | 2014-10-20 | 2020-11-10 | 索尼公司 | 声音处理系统 |
CN107113498A (zh) * | 2014-12-26 | 2017-08-29 | 爱信精机株式会社 | 声音处理装置 |
CN109845287B (zh) * | 2016-09-30 | 2021-11-16 | 伯斯有限公司 | 用于动态声音调节的噪声估计的系统和方法 |
CN107889022A (zh) * | 2016-09-30 | 2018-04-06 | 松下电器产业株式会社 | 噪音抑制装置以及噪音抑制方法 |
CN109845287A (zh) * | 2016-09-30 | 2019-06-04 | 伯斯有限公司 | 用于动态声音调节的噪声估计 |
CN107889022B (zh) * | 2016-09-30 | 2021-03-23 | 松下电器产业株式会社 | 噪音抑制装置以及噪音抑制方法 |
CN107734426A (zh) * | 2017-08-28 | 2018-02-23 | 深圳市金立通信设备有限公司 | 音频信号处理方法、终端及计算机可读存储介质 |
CN108417221B (zh) * | 2018-01-25 | 2021-09-21 | 南京理工大学 | 基于信号二维重组融合滤波的数字对讲机声码类型检测法 |
CN108417221A (zh) * | 2018-01-25 | 2018-08-17 | 南京理工大学 | 基于信号二维重组融合滤波的数字对讲机声码类型检测法 |
CN110459236A (zh) * | 2019-08-15 | 2019-11-15 | 北京小米移动软件有限公司 | 音频信号的噪声估计方法、装置及存储介质 |
CN110459236B (zh) * | 2019-08-15 | 2021-11-30 | 北京小米移动软件有限公司 | 音频信号的噪声估计方法、装置及存储介质 |
CN110428851A (zh) * | 2019-08-21 | 2019-11-08 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
CN110428851B (zh) * | 2019-08-21 | 2022-02-18 | 浙江大华技术股份有限公司 | 基于麦克风阵列的波束形成方法和装置、存储介质 |
CN113891213A (zh) * | 2021-10-26 | 2022-01-04 | 苏州登堡电子科技有限公司 | 一种优化骨传导耳机 |
CN113891213B (zh) * | 2021-10-26 | 2023-11-03 | 苏州登堡电子科技有限公司 | 一种优化骨传导耳机 |
Also Published As
Publication number | Publication date |
---|---|
TW201142830A (en) | 2011-12-01 |
KR20120123562A (ko) | 2012-11-08 |
KR101337695B1 (ko) | 2013-12-06 |
WO2011103488A1 (en) | 2011-08-25 |
CN102763160B (zh) | 2014-06-25 |
JP2012524505A (ja) | 2012-10-11 |
JP5038550B1 (ja) | 2012-10-03 |
EP2537153A1 (en) | 2012-12-26 |
US20120051548A1 (en) | 2012-03-01 |
US8897455B2 (en) | 2014-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102763160B (zh) | 用于稳健噪声降低的麦克风阵列子组选择 | |
CN102625946B (zh) | 用于多信道信号的去除回响的系统、方法、设备和计算机可读媒体 | |
CN102461203B (zh) | 用于对多信道信号进行基于相位的处理的系统、方法及设备 | |
CN102197424B (zh) | 用于一致性检测的系统、方法和设备 | |
US9165567B2 (en) | Systems, methods, and apparatus for speech feature detection | |
CN103180900B (zh) | 用于话音活动检测的系统、方法和设备 | |
CN103026733B (zh) | 用于多麦克风位置选择性处理的系统、方法、设备和计算机可读媒体 | |
CN102047688B (zh) | 用于多通道信号平衡的系统、方法和设备 | |
US9485574B2 (en) | Spatial interference suppression using dual-microphone arrays | |
US20130272097A1 (en) | Systems, methods, and apparatus for estimating direction of arrival | |
CN102893331A (zh) | 用于使用头戴式麦克风对来处理语音信号的方法、设备和计算机可读媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140625 Termination date: 20190218 |
|
CF01 | Termination of patent right due to non-payment of annual fee |