CN103247295B - 用于频谱对比加强的系统、方法、设备 - Google Patents
用于频谱对比加强的系统、方法、设备 Download PDFInfo
- Publication number
- CN103247295B CN103247295B CN201310216954.1A CN201310216954A CN103247295B CN 103247295 B CN103247295 B CN 103247295B CN 201310216954 A CN201310216954 A CN 201310216954A CN 103247295 B CN103247295 B CN 103247295B
- Authority
- CN
- China
- Prior art keywords
- signal
- subband
- noise
- voice
- intensive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 216
- 230000003595 spectral effect Effects 0.000 title claims abstract description 98
- 230000005236 sound signal Effects 0.000 claims abstract description 113
- 230000008569 process Effects 0.000 claims abstract description 86
- 230000002787 reinforcement Effects 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims description 51
- 102000004127 Cytokines Human genes 0.000 claims description 30
- 108090000695 Cytokines Proteins 0.000 claims description 30
- 230000008859 change Effects 0.000 claims description 30
- 238000005728 strengthening Methods 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 25
- 238000011112 process operation Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 19
- 230000009467 reduction Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 166
- 230000000875 corresponding effect Effects 0.000 description 117
- 239000013598 vector Substances 0.000 description 98
- 238000001228 spectrum Methods 0.000 description 81
- 101100165336 Arabidopsis thaliana BHLH101 gene Proteins 0.000 description 66
- 238000009499 grossing Methods 0.000 description 62
- 238000012545 processing Methods 0.000 description 45
- 101100096719 Arabidopsis thaliana SSL2 gene Proteins 0.000 description 42
- 101100366560 Panax ginseng SS10 gene Proteins 0.000 description 42
- 238000004891 communication Methods 0.000 description 40
- 230000004044 response Effects 0.000 description 39
- 238000012549 training Methods 0.000 description 37
- 230000006870 function Effects 0.000 description 28
- 238000005070 sampling Methods 0.000 description 26
- 238000005516 engineering process Methods 0.000 description 24
- 238000013461 design Methods 0.000 description 18
- 238000000926 separation method Methods 0.000 description 17
- 230000001747 exhibiting effect Effects 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 15
- 101000608720 Helianthus annuus 10 kDa late embryogenesis abundant protein Proteins 0.000 description 14
- 230000003044 adaptive effect Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 14
- 101001043818 Mus musculus Interleukin-31 receptor subunit alpha Proteins 0.000 description 13
- 230000006835 compression Effects 0.000 description 13
- 238000007906 compression Methods 0.000 description 13
- 238000010276 construction Methods 0.000 description 13
- 206010038743 Restlessness Diseases 0.000 description 12
- 101000718497 Homo sapiens Protein AF-10 Proteins 0.000 description 11
- 102100026286 Protein AF-10 Human genes 0.000 description 11
- 230000011664 signaling Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000001276 controlling effect Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 10
- 238000012546 transfer Methods 0.000 description 10
- 230000001413 cellular effect Effects 0.000 description 9
- 238000011144 upstream manufacturing Methods 0.000 description 9
- 101100421708 Schistosoma mansoni SM20 gene Proteins 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000012880 independent component analysis Methods 0.000 description 8
- 230000001737 promoting effect Effects 0.000 description 8
- 238000007493 shaping process Methods 0.000 description 8
- 102100029774 Eukaryotic translation initiation factor 1b Human genes 0.000 description 7
- 101001012792 Homo sapiens Eukaryotic translation initiation factor 1b Proteins 0.000 description 7
- 108010025037 T140 peptide Proteins 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- RXKGHZCQFXXWFQ-UHFFFAOYSA-N 4-ho-mipt Chemical compound C1=CC(O)=C2C(CCN(C)C(C)C)=CNC2=C1 RXKGHZCQFXXWFQ-UHFFFAOYSA-N 0.000 description 5
- 230000012010 growth Effects 0.000 description 5
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 4
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 4
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 4
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 4
- 101150093282 SG12 gene Proteins 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 101100165340 Arabidopsis thaliana BHLH107 gene Proteins 0.000 description 3
- 101000802640 Homo sapiens Lactosylceramide 4-alpha-galactosyltransferase Proteins 0.000 description 3
- 102100035838 Lactosylceramide 4-alpha-galactosyltransferase Human genes 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000008929 regeneration Effects 0.000 description 3
- 238000011069 regeneration method Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 101100078869 Arabidopsis thaliana MUTE gene Proteins 0.000 description 2
- 101100191136 Arabidopsis thaliana PCMP-A2 gene Proteins 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 2
- 241000385251 Hydrangea arborescens Species 0.000 description 2
- 101100422768 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SUL2 gene Proteins 0.000 description 2
- 101100048260 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) UBX2 gene Proteins 0.000 description 2
- 235000012139 Viburnum alnifolium Nutrition 0.000 description 2
- 230000005534 acoustic noise Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 101100058329 Arabidopsis thaliana BHLH28 gene Proteins 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 101100229939 Mus musculus Gpsm1 gene Proteins 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002079 cooperative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
Abstract
本申请涉及用于频谱对比加强的系统、方法、设备及计算机程序产品。本发明揭示用于基于来自由空间选择性处理滤波器从多通道所感测音频信号导出的噪声参考的信息对语音信号进行的频谱对比加强的系统、方法及设备。
Description
分案申请的相关信息
本案是分案申请。该分案的母案是申请日为2009年5月29日、申请号为200980119650.5、发明名称为“用于频谱对比加强的系统、方法、设备及计算机程序产品”的发明专利申请案。
根据35U.S.C.§119主张优先权
本专利申请案主张于2008年5月29日申请的题为“用于双麦克风音频装置中对语音音频的改善的频谱对比加强的系统、方法、设备及计算机程序产品(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTERPROGRAMPRODUCTSFORIMPROVEDSPECTRALCONTRASTENHANCEMENTOFSPEECHAUDIOINADUAL-MICROPHONEAUDIODEVICE)”的第61/057,187号临时申请案(代理人案号080442P1)的优先权,所述临时申请案已转让给本发明的受让人。
对共同待决专利申请案的参考
本专利申请案涉及维塞尔(Visser)等人于2008年11月24日申请的题为“用于加强的可懂度的系统、方法、设备及计算机程序产品(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTERPROGRAMPRODUCTSFORENHANCEDINTELLIGIBILITY”)的共同待决的第12/277,283号美国专利申请案(代理人案号081737)。
技术领域
本发明涉及语音处理。
背景技术
以前在安静的办公室或家庭环境中进行的许多活动现今在像汽车、街道或咖啡馆的声音可变情景中进行。举例来说,一人可能希望使用话音通信信道来与另一人进行通信。所述信道可(例如)由移动无线手持机或头戴式耳机、对讲机、双向无线电、车载设备或另一通信装置提供。因此,在用户由其它人包围的环境中,在具有人们倾向于聚集之处通常碰到的种类的噪声内容的情况下,相当大数量的话音通信是使用移动装置(例如,手持机及/或头戴式耳机)来进行的。此噪声倾向于使电话会话的远端处的用户分心或感到恼火。此外,许多标准自动化商业交易(例如,账户余额或股票报价检查)使用基于话音辨识的数据查询,且这些系统的准确性可能会受到干扰噪声的显著妨碍。
对于通信发生于有噪声环境中的应用来说,可能希望将所要语音信号与背景噪声分离。可将噪声界定为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包括在声环境内产生的众多噪声信号(例如,其它人的背景会话)以及从所述信号中的每一者产生的反射及回响。除非将所要语音信号与背景噪声分离,否则可能难以可靠且有效地使用所述语音信号。
有噪声声环境还可能倾向于屏蔽或以其它方式使得难以听到所要的再生音频信号,例如电话会话中的远端信号。声环境可具有与由通信装置正在再生的远端信号竞争的许多非可控噪声源。此噪声可引起令人不满意的通信体验。除非可将远端信号与背景噪声区别开,否则可能难以可靠且有效地使用所述远端信号。
发明内容
根据通用配置,一种处理语音信号的方法包括使用经配置以处理音频信号的装置来对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考,且对所述语音信号执行频谱对比加强操作以产生经处理语音信号。在此种方法中,执行频谱对比加强操作包括:基于来自噪声参考的信息来计算多个噪声子带功率估计;基于来自所述语音信号的信息来产生加强向量;及基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号。在此种方法中,所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。
根据通用配置,一种用于处理语音信号的设备包括:用于对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的装置,及用于对所述语音信号执行频谱对比加强操作以产生经处理语音信号的装置。用于对所述语音信号执行频谱对比加强操作的所述装置包括:用于基于来自噪声参考的信息来计算多个噪声子带功率估计的装置;用于基于来自所述语音信号的信息来产生加强向量的装置;及用于基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号的装置。在此种设备中,所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。
根据另一通用配置,一种用于处理语音信号的设备包括:空间选择性处理滤波器,其经配置以对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考;及频谱对比加强器,其经配置以对所述语音信号执行频谱对比加强操作以产生经处理语音信号。在此种设备中,所述频谱对比加强器包括:功率估计计算器,其经配置以基于来自噪声参考的信息来计算多个噪声子带功率估计;及加强向量产生器,其经配置以基于来自所述语音信号的信息来产生加强向量。在此种设备中,所述频谱对比加强器经配置以基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号。在此种设备中,所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。
根据通用配置,一种计算机可读媒体包括在由至少一个处理器执行时使所述至少一个处理器执行处理多通道音频信号的方法的指令。这些指令包括:在由处理器执行时使所述处理器对多通道感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的指令;及在由处理器执行时使所述处理器对所述语音信号执行频谱对比加强操作以产生经处理语音信号的指令。用以执行频谱对比加强操作的指令包括:用以基于来自噪声参考的信息来计算多个噪声子带功率估计的指令;用以基于来自所述语音信号的信息来产生加强向量的指令;及用以基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自所述加强向量的信息来产生所述经处理语音信号的指令。在此种方法中,所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。
根据通用配置,一种处理语音信号的方法包括:使用经配置以处理音频信号的装置来使所述语音信号的频谱平滑以获得第一平滑信号;使所述第一平滑信号平滑以获得第二平滑信号;且产生基于所述第一平滑信号及所述第二平滑信号的比率的对比加强语音信号。还揭示经配置以执行此方法的设备,以及具有在由至少一个处理器执行时使所述至少一个处理器执行此方法的指令的计算机可读媒体。
附图说明
图1展示清晰度指数曲线图。
图2展示在典型窄带电话应用中的再生语音信号的功率谱。
图3展示典型语音功率谱及典型噪声功率谱的实例。
图4A说明自动音量控制对图3的实例的应用。
图4B说明子带均衡对图3的实例的应用。
图5展示根据通用配置的设备A100的框图。
图6A展示设备A100的实施方案A110的框图。
图6B展示设备A100(及设备A110)的实施方案A120的框图。
图7展示空间选择性处理(SSP)滤波器SS10的一个实例的波束图(beampattern)。
图8A展示SSP滤波器SS10的实施方案SS20的框图。
图8B展示设备A100的实施方案A130的框图。
图9A展示设备A130的实施方案A132的框图。
图9B展示设备A132的实施方案A134的框图。
图10A展示设备A130(及设备A110)的实施方案A140的框图。
图10B展示设备A140(及设备A120)的实施方案A150的框图。
图11A展示SSP滤波器SS10的实施方案SS110的框图。
图11B展示SSP滤波器SS20及SS110的实施方案SS120的框图。
图12展示加强器EN10的实施方案EN100的框图。
图13展示语音信号的帧的幅度谱(magnitudespectrum)。
图14展示对应于图13的谱的加强向量EV10的帧。
图15到图18分别展示语音信号的幅度谱、所述幅度谱的平滑型式、所述幅度谱的双平滑型式及所述平滑频谱与所述双平滑频谱的比率的实例。
图19A展示加强向量产生器VG100的实施方案VG110的框图。
图19B展示加强向量产生器VG110的实施方案VG120的框图。
图20展示从图13的幅度谱产生的平滑信号的实例。
图21展示从图20的平滑信号产生的平滑信号的实例。
图22展示语音信号S40的帧的加强向量的实例。
图23A展示用于动态范围控制操作的转移函数的实例。
图23B展示动态范围压缩操作对三角波形的应用。
图24A展示用于动态范围压缩操作的转移函数的实例。
图24B展示动态范围压缩操作对三角波形的应用。
图25展示自适应均衡操作的实例。
图26A展示子带信号产生器SG200的框图。
图26B展示子带信号产生器SG300的框图。
图26C展示子带信号产生器SG400的框图。
图26D展示子带功率估计计算器EC110的框图。
图26E展示子带功率估计计算器EC120的框图。
图27包括指示一组七个巴克标度(Barkscale)子带的边缘的一行点。
图28展示子带滤波器阵列SG10的实施方案SG12的框图。
图29A说明通用无限脉冲响应(IIR)滤波器实施方案的转置直接形式II。
图29B说明IIR滤波器的双二阶实施方案的转置直接形式II结构。
图30展示IIR滤波器的双二阶实施方案的一个实例的幅度及相位响应曲线图。
图31展示一连串七个双二阶滤波器的幅度及相位响应。
图32展示加强器EN10的实施方案EN110的框图。
图33A展示混合因子计算器FC200的实施方案FC250的框图。
图33B展示混合因子计算器FC250的实施方案FC260的框图。
图33C展示增益因子计算器FC300的实施方案FC310的框图。
图33D展示增益因子计算器FC300的实施方案FC320的框图。
图34A展示伪码列表。
图34B展示图34A的伪码列表的修改。
图35A及图35B分别展示图34A及图34B的伪码列表的修改。
图36A展示增益控制元件CE110的实施方案CE115的框图。
图36B展示子带滤波器阵列FA100的包括并联布置的一组带通滤波器的实施方案FA110的框图。
图37A展示子带滤波器阵列FA100的带通滤波器串联布置的实施方案FA120的框图。
图37B展示IIR滤波器的双二阶实施方案的另一实例。
图38展示加强器EN10的实施方案EN120的框图。
图39展示增益控制元件CE120的实施方案CE130的框图。
图40A展示设备A100的实施方案A160的框图。
图40B展示设备A140(及设备A165)的实施方案A165的框图。
图41展示图35A的伪码列表的修改。
图42展示图35A的伪码列表的另一修改。
图43A展示设备A100的实施方案A170的框图。
图43B展示设备A170的实施方案A180的框图。
图44展示加强器EN110的包括峰值限制器L10的实施方案EN160的框图。
图45A展示描述峰值限制操作的一个实例的伪码列表。
图45B展示图45A的伪码列表的另一型式。
图46展示设备A100的包括分离评估器EV10的实施方案A200的框图。
图47展示设备A200的实施方案A210的框图。
图48展示加强器EN200(及加强器EN110)的实施方案EN300的框图。
图49展示加强器EN300的实施方案EN310的框图。
图50展示加强器EN300(及加强器EN310)的实施方案EN320的框图。
图51A展示子带信号产生器EC210的框图。
图51B展示子带信号产生器EC210的实施方案EC220的框图。
图52展示加强器EN320的实施方案EN330的框图。
图53展示加强器EN110的实施方案EN400的框图。
图54展示加强器EN110的实施方案EN450的框图。
图55展示设备A100的实施方案A250的框图。
图56展示加强器EN450(及加强器EN400)的实施方案EN460的框图。
图57展示设备A210的包括话音活动检测器V20的实施方案A230。
图58A展示加强器EN400的实施方案EN55的框图。
图58B展示功率估计计算器EC120的实施方案EC125的框图。
图59展示设备A100的实施方案A300的框图。
图60展示设备A300的实施方案A310的框图。
图61展示设备A310的实施方案A320的框图。
图62展示设备A100的实施方案A400的框图。
图63展示设备A100的实施方案A500的框图。
图64A展示音频预处理器AP10的实施方案AP20的框图。
图64B展示音频预处理器AP20的实施方案AP30的框图。
图65展示设备A310的实施方案A330的框图。
图66A展示回音消除器EC10的实施方案EC12的框图。
图66B展示回音消除器EC20a的实施方案EC22a的框图。
图66C展示设备A110的实施方案A600的框图。
图67A展示第一操作配置中的双麦克风手持机H100的图。
图67B展示手持机H100的第二操作配置。
图68A展示手持机H100的包括三个麦克风的实施方案H110的图。
图68B展示手持机H110的两个其它视图。
图69A到图69D分别展示多麦克风音频感测装置D300的仰视图、俯视图、正视图及侧视图。
图70A展示头戴式耳机的不同操作配置的范围的图。
图70B展示免持车载设备的图。
图71A到图71D分别展示多麦克风音频感测装置D350的仰视图、俯视图、正视图及侧视图。
图72A到图72C展示媒体播放装置的实例。
图73A展示通信装置D100的框图。
图73B展示通信装置D100的实施方案D200的框图。
图74A展示声码器VC10的框图。
图74B展示编码器ENC100的实施方案ENC110的框图。
图75A展示设计方法M10的流程图。
图75B展示经配置以用于记录训练数据的消声腔室的实例。
图76A展示自适应滤波器结构FS10的双通道实例的框图。
图76B展示滤波器结构FS10的实施方案FS20的框图。
图77说明无线电话系统。
图78说明经配置以支持包交换数据通信的无线电话系统。
图79A展示根据通用配置的方法M100的流程图。
图79B展示方法M100的实施方案M110的流程图。
图80A展示方法M100的实施方案M120的流程图。
图80B展示任务T130的实施方案T230的流程图。
图81A展示任务T140的实施方案T240的流程图。
图81B展示任务T240的实施方案T340的流程图。
图81C展示方法M110的实施方案M130的流程图。
图82A展示方法M100的实施方案M140的流程图。
图82B展示根据通用配置的方法M200的流程图。
图83A展示根据通用配置的设备F100的框图。
图83B展示设备F100的实施方案F110的框图。
图84A展示设备F100的实施方案F120的框图。
图84B展示装置G130的实施方案G230的框图。
图85A展示装置G140的实施方案G240的框图。
图85B展示装置G240的实施方案G340的框图。
图85C展示设备F110的实施方案F130的框图。
图86A展示设备F100的实施方案F140的框图。
图86B展示根据通用配置的设备F200的框图。
在这些图式中,除非上下文另有指示,否则相同标记的使用指示相同结构的例子。
具体实施方式
在移动环境中影响语音信号的噪声可包括各种不同组成部分,例如竞争谈话者、音乐、串音、街道噪声及/或飞机场噪声。由于此噪声的特征通常为非稳定的且接近于语音信号的频率特征(frequencysignature),所以可能难以使用传统单一麦克风或固定波束成形类型的方法来为所述噪声建模。单一麦克风噪声减少技术通常需要显著参数调谐(parametertuning)以实现最佳性能。举例来说,在所述情况下,合适的噪声参考可能并非直接可用,且可能有必要间接地导出噪声参考。因此,可能需要用基于多个麦克风的高级信号处理来支持在有噪声环境中使用移动装置进行话音通信。在一个特定实例中,在有噪声环境中感测语音信号,且使用语音处理方法来将所述语音信号与环境噪声(也被称作“背景噪声”或“周围噪声”)分离。在另一特定实例中,在有噪声环境中再生语音信号,且使用语音处理方法来将所述语音信号与环境噪声分离。语音信号处理在日常通信的许多领域中是重要的,因为在真实世界状况中几乎总是存在噪声。
可使用如本文所描述的系统、方法及设备来支持所感测语音信号及/或再生语音信号的增加的可懂度(intelligibility),尤其在有噪声环境中。所述技术可大体上应用于任何记录、音频感测、收发及/或音频再生应用中,尤其所述应用的移动或其它便携型例子。举例来说,本文所揭示的配置范围包括驻留于经配置以使用码分多址(CDMA)无线接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有如本文中所描述的特征的方法及设备可驻留于使用所属领域的技术人员所已知的各种各样的技术的各种通信系统中的任一者中,所述通信系统例如是经由有线及/或无线(例如,CDMA、TDMA、FDMA、TD-SCDMA或OFDM)发射信道使用话音IP(“VoIP”)的系统。
除非受其上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括在导线、总线或其它传输媒体上表示的存储器位置(或存储器位置的集合)的状态。除非受其上下文明确地限制,否则术语“产生”在本文中用以指示其普通意义中的任一者,例如计算或以其它方式得到。除非受其上下文明确地限制,否则术语“计算”在本文中用以指示其普通意义的任一者,例如计算、评估、平滑及/或从多个值中进行选择。除非受其上下文明确地限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件的阵列)。在术语“包含”用于本描述及权利要求书中时,其并不排除其它元件或操作。术语“基于”(如在“A是基于B”中)用以指示其普通意义中的任一者,包括以下情况:(i)“导出自”(例如,“B为A的前体”);(ii)“至少基于”(例如,“A至少基于B”),及在特定情形下适当时,(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包括“至少响应于”。
除非另外指示,否则对具有特定特征的设备的操作的任何揭示还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示还明确地希望揭示根据类似配置的方法(且反之亦然)。如由其特定上下文所指示,术语“配置”可参考方法、设备及/或系统来使用。除非由特定上下文另外指示,否则一般地且可互换地使用术语“方法”、“过程”、“程序”及“技术”。除非由特定上下文另外指示,否则还一般地且可互换地使用术语“设备”与“装置”。术语“元件”及“模块”通常用以指示较大配置的一部分。除非由其上下文明确地限制,否则术语“系统”在本文中用以指示其普通意义中的任一者,包括“相互作用以实现共同目标的一群组元件”。通过引用文档的一部分而做出的任何并入还应理解为并入在所述部分内提及的术语或变量的定义(其中所述定义出现于文档中的别处)以及所述并入部分中提及的任何图。
可互换地使用术语“编码器”、“编解码器”及“编码系统”以表示一系统,所述系统包括经配置以接收音频信号的帧并对其进行编码(可能在例如感知加权及/或其它滤波操作的一个或一个以上预处理操作后)的至少一个编码器及经配置以接收所述经编码帧及产生所述帧的对应经解码表示的对应解码器。此种编码器及解码器通常部署于通信链路的相对终端处。为了支持全双工通信,编码器及解码器两者的例子通常部署于此种链路的每一端处。
在此描述中,术语“所感测音频信号”表示经由一个或一个以上麦克风接收到的信号。音频感测装置(例如,通信或记录装置)可经配置以存储基于所述所感测音频信号的信号及/或将此信号输出到经由导线或用无线方式耦合到所述音频发送装置的一个或一个以上其它装置。
在此描述中,术语“再生音频信号”表示由从存储装置检索及/或经由到另一装置的有线或无线连接接收到的信息来再生的信号。音频再生装置(例如,通信或播放装置)可经配置以将再生音频信号输出到所述装置的一个或一个以上扬声器。或者,此装置可经配置以将再生音频信号输出到耳机、其它头戴式耳机或经由导线或用无线方式耦合到所述装置的外部扬声器。参考用于话音通信的收发器应用(例如,电话),所感测音频信号为将由收发器发射的近端信号,且再生音频信号为由收发器接收到(例如,经由有线及/或无线通信链路)的远端信号。参考移动音频再生应用(例如,所记录音乐或语音(例如,MP3、音频图书、播客)的播放或此内容的流式传输),再生音频信号为所播放或流式传输的音频信号。
语音信号的可懂度可相对于所述信号的频谱特性而改变。举例来说,图1的清晰度指数曲线图展示语音可懂度的相关组成如何随着音频频率而改变。此曲线图说明在1kHz与4kHz之间的频谱分量对于可懂度来说尤其重要,相对重要峰值大约在2kHz。
图2展示经由电话应用的典型窄带信道来发射及/或接收的语音信号的功率谱。此图说明此信号的能量在频率增加高于500Hz时快速地减少。然而,如图1所示,达4kHz的频率对于语音可懂度来说可能非常重要。因此,在500Hz与4000Hz之间的频带中人工提升能量可预期改善此电话应用中语音信号的可懂度。
由于高于4kHz的音频频率通常不如1kHz到4kHz带对可懂度那么重要,所以经由典型带限通信信道发射窄带信号通常足以具有可懂的会话。然而,对于通信信道支持宽带信号的传输的情况来说,可预期个人语音特点的增加的清晰性及更好的通信。在话音电话情形中,术语“窄带”指代从约0Hz到500Hz(例如,0、50、100或200Hz)到约3kHz到5kHz(例如,3500、4000或4500Hz)的频率范围,且术语“宽带”指代从约0Hz到500Hz(例如,0、50、100或200Hz)到约7kHz到8kHz(例如,7000、7500或8000Hz)的频率范围。
可能需要通过提升语音信号的选定部分来增加语音可懂度。举例来说,在助听器应用中,可使用动态范围压缩技术来通过提升再生音频信号中的特定频率子带来补偿所述子带中的已知听力损失。
真实世界充满多个噪声源(包括单点噪声源),其通常侵入多个声音中,从而造成回响。背景声噪声可包括由一般环境产生的众多噪声信号及由其它人的背景会话产生的干扰信号,以及从所述信号中的每一者产生的反射及回响。
环境噪声可影响所感测音频信号(例如,近端语音信号)及/或再生音频信号(例如,远端语音信号)的可懂度。对于通信发生于有噪声环境中的应用来说,可能需要使用语音处理方法来将语音信号与背景噪声区别开且加强语音信号的可懂度。此处理在日常通信的许多领域中可为重要的,因为在真实世界状况中几乎总是存在噪声。
自动增益控制(AGC,也被称作自动音量控制或AVC)为可用以增加在有噪声环境中感测或再生的音频信号的可懂度的处理方法。可使用自动增益控制技术来将所述信号的动态范围压缩到有限振幅带中,借此提升所述信号的具有低功率的区段并减少具有高功率的区段中的能量。图3展示典型语音功率谱(其中自然语音功率滚降使功率随频率减少)及典型噪声功率谱(其中功率大体上在至少语音频率范围内恒定)的实例。在此情况下,语音信号的高频率分量可具有比噪声信号的对应分量少的能量,从而导致对高频率语音带的屏蔽。图4A说明AVC对此实例的应用。如此图中所示,通常实施AVC模块以无差别地提升语音信号的所有频带。此方法可能需要将放大信号的大动态范围用于高频率功率的适度提升。
背景噪声对高频率语音内容的淹没速度通常比对低频率内容快得多,因为高频带中的语音功率通常远小于低频带中的语音功率。因此,仅提升信号的总音量将不一定提升低于1kHz的低频率内容,此可能不会显著地有助于可懂度。可能需要改为调整音频子带功率以补偿对语音信号的噪声屏蔽效应。举例来说,可能需要与噪声语音子带功率的比率成反比地提升语音功率,且在高频率子带中不成比例地提升语音功率,以便朝着高频率补偿语音功率的固有滚降。
可能需要在由环境噪声占主导的频率子带中补偿低话音功率。举例来说,如图4B所示,可能需要对选定子带起作用以通过将不同增益提升应用于语音信号的不同子带(例如,根据语音噪声比率)来提升可懂度。与图4A所示的AVC实例对比,可预期所述均衡提供更清楚及更可懂的信号,同时避免对低频率分量的不必要提升。
为了以此方式选择性地提升语音功率,可能需要获得对环境噪声电平的可靠且同时的估计。然而,在实际应用中,可能难以使用传统单一麦克风或固定波束成形类型的方法来根据所感测音频信号为环境噪声建模。虽然图3表明噪声电平随频率而恒定,但在通信装置或媒体播放装置的实际应用中,环境噪声电平通常随时间及频率两者而显著且快速地改变。
在典型环境中,声噪声可包括串音噪声、飞机场噪声、街道噪声、竞争谈话者的话音,及/或来自干扰源(例如,电视机或收音机)的声音。因此,此噪声通常为非稳定的且可具有接近于用户自身话音的频谱的平均频谱。根据单一麦克风信号计算出的噪声功率参考信号通常仅为近似稳定噪声估计。此外,此计算通常必然伴有噪声功率估计延迟,使得可仅在显著延迟后才执行对子带增益的对应调整。可能需要获得对环境噪声的可靠且同时的估计。
图5展示根据通用配置的经配置以处理音频信号的设备A100的框图,所述设备包括空间选择性处理滤波器SS10及频谱对比加强器EN10。空间选择性处理(SSP)滤波器SS10经配置以对M通道感测音频信号S10(其中M为大于一的整数)执行空间选择性处理操作以产生源信号S20及噪声参考S30。加强器EN10经配置以基于来自噪声参考S30的信息来动态地更改语音信号S40的频谱特性以产生经处理语音信号S50。举例来说,加强器EN10可经配置以使用来自噪声参考S30的信息来相对于语音信号S40的至少一个频率子带来提升语音信号S40的至少一个其它频率子带及/或使其衰减以产生经处理语音信号S50。
可实施设备A100,使得语音信号S40为再生音频信号(例如,远端信号)。或者,可实施设备A100,使得语音信号S40为所感测音频信号(例如,近端信号)。举例来说,可实施设备A100,使得语音信号S40基于多通道感测音频信号S10。图6A展示设备A100的此实施方案A110的框图,其中加强器EN10经布置以将源信号S20作为语音信号S40来接收。图6B展示设备A100(及设备A110)的另一实施方案A120的框图,实施方案A120包括加强器EN10的两个例子EN10a及EN10b。在此实例中,加强器EN10a经布置以处理语音信号S40(例如,远端信号)以产生经处理语音信号S50a,且加强器EN10a经布置以处理源信号S20(例如,近端信号)以产生经处理语音信号S50b。
在设备A100的典型应用中,所感测音频信号S10的每一通道是基于来自M个麦克风的阵列中的对应一者的信号,其中M为具有大于一的值的整数。可经实施以包括具有此麦克风阵列的设备A100的实施方案的音频感测装置的实例包括助听器、通信装置、记录装置及音频或视听播放装置。所述通信装置的实例包括(不限于)电话机(例如,有绳或无绳电话、蜂窝式电话手持机、通用串行总线(USB)手持机)、有线及/或无线头戴式耳机(例如,蓝牙头戴式耳机),及免持车载设备。所述记录装置的实例包括(不限于)手持型音频及/或视频记录器及数字相机。所述音频或视听播放装置的实例包括(不限于)经配置以再生流式传输或预记录的音频或视听内容的媒体播放器。可经实施以包括具有此麦克风阵列的设备A100的实施方案且可经配置以执行通信、记录及/或音频或视听播放操作的音频感测装置的其它实例包括个人数字助理(PDA)及其它手持型计算装置;上网本(netbook)计算机、笔记本计算机、膝上型计算机及其它便携型计算装置;及桌上型计算机及工作站。
可实施M个麦克风的阵列以具有经配置以接收声信号的两个麦克风(例如,立体声阵列)或两个以上的麦克风。所述阵列中的每一麦克风可具有全向、双向或单向(例如,心形线)的响应。可使用的各种类型的麦克风包括(不限于)压电式麦克风、动圈式麦克风(dynamicmicrophone)及驻极体麦克风(electretmicrophone)。在用于便携式话音通信的装置(例如,手持机或头戴式耳机)中,此阵列中的相邻麦克风之间的中心到中心间隔通常在约1.5cm到约4.5cm的范围中,但在例如手持机的装置中,较大间隔(例如,达10cm或15cm)也是可能的。在助听器中,此阵列中的相邻麦克风之间的中心到中心间隔可小如约4mm或5mm。此阵列中的麦克风可沿着一条线布置,或替代地,使得其中心位于二维(例如,三角形)或三维形状的顶点处。
可能需要通过对由所述阵列的麦克风产生的信号执行一个或一个以上预处理操作来获得所感测音频信号S10。所述预处理操作可包括取样、滤波(例如,用于回音消除、噪声减少、频谱整形等等)及可能甚至预分离(例如,通过如本文所描述的另一SSP滤波器或自适应滤波器)以获得所感测音频信号S10。对于例如语音的声应用来说,典型取样速率的范围是从8kHz到16kHz。其它典型预处理操作包括模拟及/或数字域中的阻抗匹配、增益控制及滤波。
空间选择性处理(SSP)滤波器SS10经配置以对所感测音频信号S10执行空间选择性处理操作以产生源信号S20及噪声参考S30。此操作可经设计以确定所述音频感测装置与特定声音源之间的距离、减少噪声、加强从特定方向到来的信号分量,及/或将一个或一个以上声音分量与其它环境声音分离。所述空间处理操作的实例描述于2008年8月25日申请的题为“用于信号分离的系统、方法及设备(SYSTEMS,METHODS,ANDAPPARATUSFORSIGNALSEPARATION)”的第12/197,924号美国专利申请案及于2008年11月24日申请的题为“用于加强的可懂度的系统、方法、设备及计算机程序产品(SYSTEMS,METHODS,APPARATUS,ANDCOMPUTERPROGRAMPRODUCTSFORENHANCEDINTELLIGIBILITY)”的第12/277,283号美国专利申请案中且包括(不限于)波束成形及盲源分离操作。噪声分量的实例包括(不限于)漫射环境噪声(例如,街道噪声、汽车噪声及/或串音噪声)及方向性噪声(例如,干扰扬声器及/或来自例如电视、收音机或播音系统的另一点源的声音)。
空间选择性处理滤波器SS10可经配置以将所感测音频信号S10的方向性所要分量(例如,用户的话音)与所述信号的一个或一个以上其它分量(例如,方向性干扰分量及/或漫射噪声分量)分离。在此情况下,SSP滤波器SS10可经配置以集中所述方向性所要分量的能量,使得源信号S20包括比所感测音频通道S10的每一通道包括的能量多的所述方向性所要分量的能量(也就是说,使得源信号S20包括比所感测音频通道S10的任何个别通道包括的能量多的所述方向性所要分量的能量)。图7展示SSP滤波器SS10的此实例的波束图,其表明滤波器响应相对于麦克风阵列的轴的方向性。
可使用空间选择性处理滤波器SS10来提供对环境噪声的可靠且同时的估计。在一些噪声估计方法中,通过对输入信号的不活动帧(例如,仅含有背景噪声或为寂静的帧)求平均来估计噪声参考。所述方法可能会对环境噪声的改变反应缓慢,且通常对于为非稳定噪声(例如,脉冲噪声)建模为无效的。空间选择性处理滤波器SS10可经配置以将噪声分量甚至与输入信号的活动帧分离以提供噪声参考S30。通过SSP滤波器SS10分离到此噪声参考的帧中的噪声可基本上与源信号S20的对应帧中的信息内容同时,且此噪声参考还被称作“瞬时”噪声估计。
空间选择性处理滤波器SS10通常经实施以包括由滤波器系数值的一个或一个以上矩阵表征的固定滤波器FF10。可使用如下文更详细描述的波束成形、盲源分离(BSS)或组合的BSS/波束成形方法来获得这些滤波器系数值。空间选择性处理滤波器SS10还可经实施以包括一个以上的级。图8A展示SSP滤波器SS10的此实施方案SS20的框图,实施方案SS20包括固定滤波器级FF10及自适应滤波器级AF10。在此实例中,固定滤波器级FF10经布置以对所感测音频信号S10的通道S10-1及S10-2进行滤波以产生经滤波信号S15的通道S15-1及S15-2,且自适应滤波器级AF10经布置以对通道S15-1及S15-2进行滤波以产生源信号S20及噪声参考S30。在此情况下,如下文更详细地描述,可能需要使用固定滤波器级FF10来为自适应滤波器级AF10产生初始条件。还可能需要对SSP滤波器SS10的输入执行自适应缩放(例如,以确保IIR固定或自适应滤波器组的稳定性)。
在SSP滤波器SS20的另一实施方案中,自适应滤波器AF10经布置以将经滤波的通道S15-1及所感测音频通道S10-2作为输入来接收。在此情况下,可能需要自适应滤波器AF10经由与固定滤波器FF10的预期处理延迟匹配的延迟元件来接收所感测音频通道S10-2。
可能需要实施SSP滤波器SS10以包括多个固定滤波器级,其经布置使得可在操作期间选择所述固定滤波器级中的适当一者(例如,根据各种固定滤波器级的相对分离性能)。此结构揭示于(例如)于2008年12月12日申请的题为“用于基于多麦克风的语音加强的系统、方法及设备(SYSTEMS,METHODS,ANDAPPARATUSFORMULTI-MICROPHONEBASEDSPEECHENHANCEMENT)”的第12/334,246号美国专利申请案(代理人案号080426)中。
空间选择性处理滤波器SS10可经配置以在时域中处理所感测音频信号S10且产生源信号S20及噪声参考S30作为时域信号。或者,SSP滤波器SS10可经配置以在频域(或另一变换域)中接收所感测音频信号S10或将所感测音频信号S10转换到此域,且在所述域中处理所感测音频信号S10。
可能需要在SSP滤波器SS10或SS20后跟着噪声减少级,所述噪声减少级经配置以应用噪声参考S30以进一步减少源信号S20中的噪声。图8B展示设备A100的实施方案A130的框图,实施方案A130包括此噪声减少级NR10。噪声减少级NR10可实施为维纳滤波器(Wienerfilter),其滤波系数值是基于来自源信号S20及噪声参考S30的信号及噪声功率信息。在此情况下,噪声减少级NR10可经配置以基于来自噪声参考S30的信息来估计噪声频谱。或者,噪声减少级NR10可经实施以基于噪声参考S30的频谱来对源信号S20执行频谱相减(spectralsubstraction)操作。或者,噪声减少级NR10可实施为卡尔曼滤波器,其噪声协方差是基于来自噪声参考S30的信息。
噪声减少级NR10可经配置以在频域(或另一变换域)中处理源信号S20及噪声参考S30。图9A展示设备A130的实施方案A132的框图,实施方案A132包括噪声减少级NR10的此实施方案NR20。设备A132还包括变换模块TR10,其经配置以将源信号S20及噪声参考S30变换到变换域中。在典型实例中,变换模块TR10经配置以对源信号S20及噪声参考S30中的每一者执行快速傅立叶变换(FFT)(例如,128点、256点或512点FFT)以产生相应频域信号。图9B展示设备A132的实施方案A134的框图,实施方案A134还包括逆变换模块TR20,逆变换模块TR20经布置以将噪声减少级NR20的输出变换到时域(例如,通过对噪声减少级NR20的输出执行逆FFT)。
噪声减少级NR20可经配置以通过根据噪声参考S30的对应频段(bin)的值来对源信号S20的频域频段进行加权来计算噪声减少的语音信号S45。在此情况下,噪声减少级NR20可经配置以根据例如Bi=wiAi的表达式来产生噪声减少的语音信号S45,其中Bi指示噪声减少的语音信号S45的第i个频段,Ai指示源信号S20的第i个频段,且wi指示帧的权重向量的第i个元素。每一频段可包括对应频域信号的仅一个值,或噪声减少级NR20可经配置以根据所要子带划分方案来将每一频域信号的所述值分组成多个频段(例如,如在下文参考频段化(binning)模块SG30所描述)。
噪声减少级NR20的此实施方案可经配置以计算权重wi,使得所述权重对于噪声参考S30具有低值的频段来说为较高的(例如,较接近于一)且对于噪声参考S30具有高值的频段来说为较低的(例如,较接近于零)。噪声减少级NR20的一个此实例经配置以通过根据一表达式来计算权重wi中的每一者来阻断源信号S20的频段或使其通过,所述表达式例如在频段Ni中的值的总和(或者,平均值)小于(或者,不大于)阈值Ti时为wi=1且否则为wi=0。在此实例中,Ni指示噪声参考S30的第i个频段。可能需要配置噪声减少级NR20的此实施方案,使得阈值Ti彼此相等,或替代地,使得阈值Ti中的至少两者彼此不同。在另一实例中,噪声减少级NR20经配置以通过在频域中从源信号S20中减去噪声参考S30(即,通过从源信号S20的频谱中减去噪声参考S30的频谱)来计算噪声减少的语音信号S45。
如下文更详细地描述,加强器EN10可经配置以在频域或另一变换域中对一个或一个以上信号执行操作。图10A展示设备A100的实施方案A140的框图,实施方案A140包括噪声减少级NR20的例子。在此实例中,加强器EN10经布置以将噪声减少的语音信号S45作为语音信号S40来接收,且加强器EN10还经布置以将噪声参考S30及噪声减少的语音信号S45作为变换域信号来接收。设备A140还包括逆变换模块TR20的例子,其经布置以将经处理语音信号S50从变换域变换到时域。
明确地提到,对于语音信号S40具有高取样速率(例如,44.1kHz或高于十千赫的另一取样速率)的情况,可能需要加强器EN10通过在时域中处理信号S40来产生对应经处理语音信号S50。举例来说,可能需要避免对此信号执行变换操作的计算代价。从媒体文件或文件流再生的信号可具有此取样速率。
图10B展示设备A140的实施方案A150的框图。设备A150包括加强器EN10的例子EN10a,其经配置以在变换域中处理噪声参考S30及噪声减少的语音信号S45(例如,如上文参考设备A140所描述)以产生第一经处理语音信号S50a。设备A150还包括加强器EN10的例子EN10b,其经配置以在时域中处理噪声参考S30及语音信号S40(例如,远端或其它再生信号)以产生第二经处理语音信号S50b。
在经配置以执行方向性处理操作的替代方案中,或除了经配置以执行方向性处理操作外,SSP滤波器SS10可经配置以执行距离处理操作。图11A及图11B分别展示SSP滤波器SS10的实施方案SS110及SS120的框图,所述实施方案包括经配置以执行此操作的距离处理模块DS10。距离处理模块DS10经配置以产生(作为距离处理操作的结果)距离指示信号DI10,所述信号指示多通道感测音频信号S10的分量的源相对于麦克风阵列的距离。距离处理模块DS10通常经配置以产生距离指示信号DI10作为两个状态分别指示近场源及远场源的二元值指示信号,但产生连续及/或多值信号的配置也是可能的。
在一个实例中,距离处理模块DS10经配置,使得距离指示信号DI10的状态是基于麦克风信号的功率梯度之间的类似程度。距离处理模块DS10的此实施方案可经配置以根据(A)麦克风信号的功率梯度之间的差异与(B)阈值之间的关系来产生距离指示信号DI10。一种此关系可表达为:
其中θ表示距离指示信号DI10的当前状态,表示所感测音频信号S10的主要通道(例如,对应于通常最直接地接收来自所要源(例如,用户的话音)的声音的麦克风的通道)的功率梯度的当前值,表示所感测音频信号S10的次要通道(例如,对应于通常比所述主要通道的麦克风较不直接地接收来自所要源的声音的麦克风的通道)的功率梯度的当前值,且Td表示阈值,所述阈值可为固定的或自适应的(例如,基于所述麦克风信号中的一者或一者以上的当前电平)。在此特定实例中,距离指示信号DI10的状态1指示远场源,且状态0指示近场源,但当然在需要时可使用相反实施方案(即,使得状态1指示近场源且状态0指示远场源)。
可能需要实施距离处理模块DS10以将功率梯度的值计算为相继帧上所感测音频信号S10的对应通道的能量之间的差异。在一个此实例中,距离处理模块DS10经配置以将功率梯度及中的每一者的当前值计算为通道的当前帧的值的平方的总和与通道的先前帧的值的平方的总和之间的差。在另一个此实例中,距离处理模块DS10经配置以将功率梯度及中的每一者的当前值计算为对应通道的当前帧的值的量值的总和与通道的先前帧的值的量值的总和之间的差。
另外或在替代方案中,距离处理模块DS10可经配置,使得距离指示信号DI10的状态是基于在一系列频率上所感测音频信号S10的主要通道的相位与次要通道的相位之间的相关程度。距离处理模块DS10的此实施方案可经配置以根据(A)通道的相位向量之间的相关性与(B)阈值之间的关系来产生距离指示信号DI10。一个此关系可表达为:
其中μ表示距离指示信号DI10的当前状态,表示所感测音频信号S10的主要通道的当前相位向量,表示所感测音频信号S10的次要通道的当前相位向量,且Tc表示阈值,所述阈值可为固定或自适应的(例如,基于通道中的一者或一者以上的当前电平)。可能需要实施距离处理模块DS10以计算相位向量,使得相位向量的每一元素表示在对应频率下或在对应频率子带上对应通道的当前相位角。在此特定实例中,距离指示信号DI10的状态1指示远场源且状态0指示近场源,但当然在需要时可使用相反实施方案。距离指示信号DI10可作为控制信号应用于噪声减少级NR10,使得在距离指示信号DI10指示远场源时,由噪声减少级NR10执行的噪声减少得以最大化。
可能需要配置距离处理模块DS10,使得距离指示信号DI10的状态是基于上文所揭示的功率梯度及相位相关性准则两者。在此情况下,距离处理模块DS10可经配置以将距离指示信号DI10的状态计算为θ与μ的当前值的组合(例如,逻辑OR或逻辑AND)。或者,距离处理模块DS10可经配置以根据这些准则(即,功率梯度类似性或相位相关性)中的一者来计算距离指示信号DI10的状态,使得对应阈值的值是基于另一准则的当前值。
SSP滤波器SS10的替代实施方案经配置以对所感测音频信号S10执行相位相关性屏蔽操作以产生源信号S20及噪声参考S30。SSP滤波器SS10的此实施方案的一个实例经配置以确定在不同频率下所感测音频信号S10的不同通道之间的相对相位角。如果多数频率下的相位角大体上相等(例如,在百分之五、十或二十内),则滤波器使所述频率通过作为源信号S20且将其它频率下的分量(即,具有其它相位角的分量)分离到噪声参考S30中。
加强器EN10可经布置以接收来自时域缓冲器的噪声参考S30。替代地或另外,加强器EN10可经布置以接收来自时域缓冲器的第一语音信号S40。在一个实例中,每一时域缓冲器具有十毫秒的长度(例如,在八kHz的取样速率下的八十个样本或在十六kHz的取样速率下的160个样本)。
加强器EN10经配置以对语音信号S40执行频谱对比加强操作以产生经处理语音信号S50。可将频谱对比界定为信号频谱中相邻峰值与谷值之间的差异(例如,以分贝为单位),且加强器EN10可经配置以通过在语音信号S40的能量谱或幅度谱中增加峰值与谷值之间的差异来产生经处理语音信号S50。语音信号的频谱峰值还被称作“共振峰”(formant)。频谱对比加强操作包括基于来自噪声参考S30的信息来计算多个噪声子带功率估计;基于来自所述语音信号的信息来产生加强向量EV10;及基于所述多个噪声子带功率估计、来自语音信号S40的信息及来自加强向量EV10的信息来产生经处理语音信号S50。
在一个实例中,加强器EN10经配置以基于语音信号S40来产生对比加强信号SC10(例如,根据本文所描述的技术中的任一者)、计算噪声参考S30的每一帧的功率估计,且通过根据对应噪声功率估计将语音信号S30与对比加强信号SC10的对应帧混合来产生经处理语音信号S50。举例来说,加强器EN10的此实施方案可经配置以在对应噪声功率估计为高时相称地更多使用对比加强信号SC10的对应帧,且在对应噪声功率估计为低时相称地更多使用语音信号S40的对应帧来产生经处理语音信号S50的帧。加强器EN10的此实施方案可经配置以根据例如PSS(n)=ρCES(n)+(1-ρ)SS(n)的表达式来产生经处理语音信号S50的帧PSS(n),其中CES(n)及SS(n)分别指示对比加强信号SC10及语音信号S40的对应帧,且ρ指示噪声电平指示,所述噪声电平指示具有基于对应噪声功率估计的在零到一的范围中的值。
图12展示频谱对比加强器EN10的实施方案EN100的框图。加强器EN100经配置以产生基于对比加强语音信号SC10的经处理语音信号S50。加强器EN100还经配置以产生经处理语音信号S50,使得经处理语音信号S50的多个频率子带中的每一者是基于语音信号S40的对应频率子带。
加强器EN100包括:加强向量产生器VG100,其经配置以产生基于语音信号S40的加强向量EV10;加强子带信号产生器EG100,其经配置以基于来自加强向量EV10的信息来产生一组加强子带信号;及加强子带功率估计产生器EP100,其经配置以产生一组加强子带功率估计,其各自基于来自所述加强子带信号中的对应一者的信息。加强器EN100还包括:子带增益因子计算器FC100,其经配置以计算多个增益因子值,使得所述多个增益因子值中的每一者是基于来自加强向量EV10的对应频率子带的信息;语音子带信号产生器SG100,其经配置以基于来自语音信号S40的信息来产生一组语音子带信号;及增益控制元件CE100,其经配置以基于所述语音子带信号及来自加强向量EV10的信息(例如,所述多个增益因子值)来产生对比加强信号SC10。
加强器EN100包括:噪声子带信号产生器NG100,其经配置以基于来自噪声参考S30的信息来产生一组噪声子带信号;及噪声子带功率估计计算器NP100,其经配置以产生一组噪声子带功率估计,其各自基于来自所述噪声子带信号中的对应一者的信息。加强器EN100还包括:子带混合因子计算器FC200,其经配置以基于来自对应噪声子带功率估计的信息来计算所述子带中的每一者的混合因子;及混合器X100,其经配置以基于来自所述混合因子、语音信号S40及对比加强信号SC10的信息来产生经处理语音信号S50。
明确地提到,在应用加强器EN100(及本文所揭示的加强器EN10的其它实施方案中的任一者)的过程中,可能需要从已经受回音消除操作(例如,如下文参考音频预处理器AP20及回音消除器EC10所描述)的麦克风信号获得噪声参考S30。对于语音信号S40为再生音频信号的情况来说,此操作可尤其合意。如果声回音保留于噪声参考S30中(或可由下文所揭示的加强器EN10的其它实施方案使用的其它噪声参考中的任一者中),则可在经处理语音信号S50与子带增益因子计算路径之间产生正反馈环路。举例来说,此环路可具有经处理语音信号S50将远端扬声器驱动得越大声则加强器将倾向于使增益因子增加得更多的效应。
在一个实例中,加强向量产生器VG100经配置以通过使语音信号S40的幅度谱或功率谱升高到M次幂(M大于一(例如,在1.2到2.5的范围中的值,例如1.2、1.5、1.7、1.9或二))来产生加强向量EV10。加强向量产生器VG100可经配置以根据例如yi=Mxi的表达式来对对数频谱值执行此操作,其中xi表示以分贝为单位的语音信号S40的频谱的值,且yi表示以分贝为单位的加强向量EV10的对应值。加强向量产生器VG100还可经配置以使功率升高操作的结果正规化及/或将加强器向量EV10作为功率升高操作的结果与原始幅度谱或功率谱之间的比率来产生。
在另一实例中,加强向量产生器VG100经配置以通过使语音信号S40的频谱的二阶导数平滑来产生加强向量EV10。加强向量产生器VG100的此实施方案可经配置以根据例如D2(xi)=xi-1+xi+1-2xi的表达式来将离散项中的二阶导数计算为二阶差分,其中频谱值xi可为线性或对数的(例如,以分贝为单位)。二阶差分D2(xi)的值在频谱峰值处小于零且在频谱谷值处大于零,且可能需要配置加强向量产生器VG100以将所述二阶差分计算为此值的负数(或对经平滑二阶差分求反)以获得在频谱峰值处大于零且在频谱谷值处小于零的结果。
加强向量产生器VG100可经配置以通过应用平滑滤波器(例如,加权平均滤波器(例如,三角滤波器))来使频谱二阶差分平滑。平滑滤波器的长度可基于频谱峰值的估计带宽。举例来说,可能需要平滑滤波器使具有小于所估计峰值带宽的两倍的周期的频率衰减。典型平滑滤波器长度包括三个、五个、七个、九个、十一个、十三个及十五个分接头(tap)。加强向量产生器VG100的此实施方案可经配置以连续地执行差分及平滑计算或作为一个操作来执行。图13展示语音信号S40的帧的幅度谱的实例,且图14展示计算为由十五分接头三角滤波器平滑的二阶频谱差分的加强向量EV10的对应帧的实例。
在类似实例中,加强向量产生器VG100经配置以通过用高斯差(DoG)滤波器来卷积语音信号S40的频谱来产生加强向量EV10,所述高斯差滤波器可根据例如下式的表达式来实施:
其中σ1及σ2表示相应高斯分布的标准偏差,且μ表示频谱平均数。也可使用具有与DoG滤波器类似的形状的另一滤波器(例如,“墨西哥帽状”小波滤波器)。在另一实例中,加强向量产生器VG100经配置以将加强向量EV10作为以分贝为单位的语音信号S40的平滑频谱的指数的二阶差分来产生。
在另一实例中,加强向量产生器VG100经配置以通过计算语音信号S40的平滑频谱的比率来产生加强向量EV10。加强向量产生器VG100的此实施方案可经配置以通过使语音信号S40的频谱平滑来计算第一平滑信号,通过使所述第一平滑信号平滑来计算第二平滑信号,且将加强向量EV10计算为所述第一平滑信号与第二平滑信号之间的比率。图15到图18分别展示语音信号S40的幅度谱、所述幅度谱的平滑型式、所述幅度谱的双平滑型式及所述平滑频谱与所述双平滑频谱的比率的实例。
图19A展示加强向量产生器VG100的实施方案VG110的框图,实施方案VG110包括第一频谱平滑器SM10、第二频谱平滑器SM20及比率计算器RC10。频谱平滑器SM10经配置以使语音信号S40的频谱平滑以产生第一平滑信号MS10。频谱平滑器SM10可实施为平滑滤波器,例如加权平均滤波器(例如,三角滤波器)。平滑滤波器的长度可基于频谱峰值的估计带宽。举例来说,可能需要平滑滤波器使具有小于所估计峰值带宽的两倍的周期的频率衰减。典型平滑滤波器长度包括三个、五个、七个、九个、十一个、十三个及十五个分接头。
频谱平滑器SM20经配置以使第一平滑信号MS10平滑以产生第二平滑信号MS20。频谱平滑器SM20通常经配置以执行与频谱平滑器SM10相同的平滑操作。然而,也可实施频谱平滑器SM10及SM20以执行不同平滑操作(例如,使用不同滤波器形状及/或长度)。频谱平滑器SM10及SM20可实施为不同结构(例如,不同电路或软件模块)或在不同时间时实施为相同结构(例如,经配置以随时间而执行一序列不同任务的计算电路或处理器)。比率计算器RC10经配置以计算信号MS10与MS20之间的比率(即,信号MS10与MS20的对应值之间的一连串比率)以产生加强向量EV10的例子EV12。在一个实例中,比率计算器RC10经配置以将每一比率值计算为两个对数值的差。
图20展示通过频谱平滑器MS10的十五分接头三角滤波器实施方案从图13的幅度谱产生的平滑信号MS10的实例。图21展示通过频谱平滑器MS20的十五分接头三角滤波器实施方案从图20的平滑信号MS10产生的平滑信号MS20的实例,且图22展示为图20的平滑信号MS10与图21的平滑信号MS20的比率的加强向量EV12的帧的实例。
如上文所描述,加强向量产生器VG100可经配置以将语音信号S40作为频谱信号来处理(即,在频域中)。对于语音信号S40的频域例子以其它方式为不可用的设备A100的实施方案来说,加强向量产生器VG100的此实施方案可包括变换模块的例子TR10,其经布置以对语音信号S40的时域例子执行变换操作(例如,FFT)。在此情况下,加强子带信号产生器EG100可经配置以在频域中处理加强向量EV10,或加强向量产生器VG100还可包括逆变换模块的例子TR20,其经布置以对加强向量EV10执行逆变换操作(例如,逆FFT)。
可使用线性预测分析来计算全极点滤波器(all-polefilter)的参数,所述全极点滤波器在语音信号的帧期间为扬声器的声道的共振建模。加强向量产生器VG100的另一实例经配置以基于语音信号S40的线性预测分析的结果来产生加强向量EV10。加强向量产生器VG100的此实施方案可经配置以基于对应全极点滤波器的极点(例如,根据语音信号S40的每一有声帧的一组线性预测编码(LPC)系数(例如,滤波器系数或反射系数)确定)来追踪所述帧的一个或一个以上(例如,两个、三个、四个或五个)共振峰。加强向量产生器VG100的此实施方案可经配置以通过在所述共振峰的中心频率下将带通滤波器应用于语音信号S40或通过以其它方式提升语音信号S40的含有所述共振峰的中心频率的子带(例如,如使用本文所论述的均一或非均一子带划分方案来界定的)来产生加强向量EV10。
加强向量产生器VG100还可经实施以包括预加强处理模块PM10,预加强处理模块PM10经配置以在如上文所描述的加强向量产生操作上游对语音信号S40执行一个或一个以上预处理操作。图19B展示加强向量产生器VG110的此实施方案VG120的框图。在一个实例中,预加强处理模块PM10经配置以对语音信号S40执行动态范围控制操作(例如,压缩及/或扩展)。动态范围压缩操作(也被称作“软限制”操作)根据大于一的输入输出比率来将超过阈值的输入电平映射成超过所述阈值较小量的输出值。图23A的点划线展示固定输入输出比率的此转移函数的实例,且图23A中的实线展示随输入电平而增加的输入输出比率的此转移函数的实例。图23B展示根据图23A的实线的动态范围压缩操作对三角波形的应用,其中点线指示输入波形且实线指示经压缩波形。
图24A展示动态范围压缩操作的转移函数的实例,所述动态范围压缩操作根据在低频率下小于一且随输入电平而增加的输入输出比率将低于所述阈值的输入电平映射成较高输出电平。图24B展示此操作对三角波形的应用,其中点线指示输入波形且实线指示经压缩波形。
如图23B及图24B的实例中所示,预加强处理模块PM10可经配置以在时域中对语音信号S40执行动态范围控制操作(例如,在FFT操作上游)。或者,预加强处理模块PM10可经配置以对语音信号S40的频谱(即,在频域中)执行动态范围控制操作。
替代地或另外,预加强处理模块PM10可经配置以在加强向量产生操作上游对语音信号S40执行自适应均衡操作。在此情况下,预加强处理模块PM10经配置以将噪声参考S30的频谱添加到语音信号S40的频谱。图25展示此操作的实例,其中实线指示均衡之前的语音信号S40的帧的频谱,点线指示噪声参考S30的对应帧的频谱,且虚线指示均衡之后的语音信号S40的频谱。在此实例中,可看出在均衡之前,语音信号S40的高频分量被噪声掩盖,且均衡操作以自适应的方式提升这些分量,其可预期增加可懂度。预加强处理模块PM10可经配置以在全FFT分辨率下或如本文所描述对语音信号S40的一组频率子带中的每一者执行此自适应均衡操作。
明确地提到,设备A110可不必要对源信号S20执行自适应均衡操作,因为SSP滤波器SS10已操作以将噪声与语音信号分离。然而,对于源信号S20与噪声参考S30之间的分离不充分(例如,如下文参考分离评估器EV10所论述)的帧,在此设备中此操作可变成有用的。
如图25的实例所示,语音信号倾向于具有向下的频谱倾斜,信号功率在较高频率处滚降。因为噪声参考S30的频谱倾向于比语音信号S40的频谱平坦,所以自适应均衡操作倾向于减少此向下频谱倾斜。
可由预加强处理模块PM10对语音信号S40执行以获得倾斜减少信号的倾斜减少预处理操作的另一实例是预加重(pre-emphasis)。在典型实施方案中,预加强处理模块PM10经配置以通过应用1-αz-1形式的一阶高通滤波器来对语音信号S40执行预加重操作,在所述形式的滤波器中,α具有从0.9到1.0的范围内的值。此滤波器通常经配置以将高频率分量提升每八音度约六dB。倾斜减少操作还可减少频谱峰值的幅度之间的差异。举例来说,此操作可通过相对于较低频率第一共振峰的振幅来增加较高频率第二及第三共振峰的振幅来均衡语音信号。倾斜减少操作的另一实例将增益因子应用于语音信号S40的频谱,其中所述增益因子的值随着频率增加且不依赖于噪声参考S30。
可能需要实施设备A120,使得加强器EN10a包括加强向量产生器VG100的实施方案VG100a,实施方案VG100a经布置以基于来自语音信号S40的信息来产生第一加强向量EV10a,且加强器EN10b包括加强向量产生器VG100的实施方案VG100b,实施方案VG100b经布置以基于来自源信号S20的信息来产生第二加强向量VG10b。在此情况下,产生器VG100a可经配置以执行与产生器VG100b不同的加强向量产生操作。在一个实例中,产生器VG100a经配置以通过从一组线性预测系数追踪语音信号S40的一个或一个以上共振峰来产生加强向量VG10a,且产生器VG100b经配置以通过计算源信号S20的平滑频谱的比率来产生加强向量VG10b。
噪声子带信号产生器NG100、语音子带信号产生器SG100及加强子带信号产生器EG100中的任一者或所有可实施为图26A所示的子带信号产生器SG200的相应例子。子带信号产生器SG200经配置以基于来自信号A(即,噪声参考S30、语音信号S40或在适当时加强向量EV10)的信息来产生一组q个子带信号S(i),其中1≤i≤q且q为子带的所要数目(例如,四个、七个、八个、十二个、十六个、二十四个)。在此情况下,子带信号产生器SG200包括子带滤波器阵列SG10,子带滤波器阵列SG10经配置以通过相对于信号A的其它子带将不同增益应用于信号A的对应子带(即,通过提升通带(passband)及/或使阻带(stopband)衰减)来产生子带信号S(1)到S(q)中的每一者。
子带滤波器阵列SG10可经实施以包括经配置以并行地产生不同子带信号的两个或两个以上分量滤波器。图28展示子带滤波器阵列SG10的此实施方案SG12的框图,实施方案SG12包括并联地布置以执行信号A的子带分解的q个带通滤波器F10-1到F10-q的阵列。滤波器F10-1到F10-q中的每一者经配置以对信号A进行滤波以产生q个子带信号S(1)到S(q)中的对应一者。
滤波器F10-1到F10-q中的每一者可经实施以具有有限脉冲响应(FIR)或无限脉冲响应(IIR)。在一个实例中,子带滤波器阵列SG12实施为小波或多相分析滤波器组。在另一实例中,滤波器F10-1到F10-q中的一者或一者以上(可能所有)中的每一者实施为二阶IIR区段或“双二阶滤波器”。双二阶滤波器的转移函数可表达为:
可能需要使用转置直接形式II来实施每一双二阶滤波器,尤其对于加强器EN10的浮点实施方案来说。图29A说明滤波器F10-1到F10-q中的一者的通用IIR滤波器实施方案的转置直接形式II,且图29B说明滤波器F10-1到F10-q中的一者的双二阶实施方案的转置直接形式II结构。图30展示滤波器F10-1到F10-q中的一者的双二阶实施方案的一个实例的幅度及相位响应曲线图。
可能需要滤波器F10-1到F10-q执行信号A的非均一子带分解(例如,使得滤波器通带中的两者或两者以上具有不同宽度)而非均一子带分解(例如,使得滤波器通带具有相等宽度)。如上文所提到,非均一子带划分方案的实例包括先验方案(例如,基于巴克标度的方案)或对数方案(例如,基于梅尔标度的方案)。一个此划分方案由图27中的点说明,所述点对应于频率20Hz、300Hz、630Hz、1080Hz、1720Hz、2700Hz、4400Hz及7700Hz且指示宽度随着频率增加的一组七个巴克标度子带的边缘。此子带布置可用于宽带语音处理系统(例如,具有16kHz的取样速率的装置)中。在此划分方案的其它实例中,省略最低子带以获得六子带方案,及/或将最高子带的上限从7700Hz增加到8000Hz。
在窄带语音处理系统(例如,具有8kHz的取样速率的装置)中,可能需要使用较少子带的布置。此子带划分方案的一个实例为四带准巴克方案300-510Hz、510-920Hz、920-1480Hz及1480-4000Hz。使用宽的高频带(例如,如在此实例中)可是合乎需要,此是由于低子带能量估计及/或为了处理用双二阶滤波器为最高子带建模的过程中的困难。
滤波器F10-1到F10-q中的每一者经配置以在对应子带上提供增益提升(即,信号幅度的增加)且/或在其它子带上提供衰减(即,信号幅度的减少)。所述滤波器中的每一者可经配置以将其相应通带提升了约相同量(例如,提升了三dB,或提升了六dB)。或者,所述滤波器中的每一者可经配置以使其相应阻带衰减了约相同量(例如,衰减了三dB,或衰减了六dB)。图31展示可用于实施一组滤波器F10-1到F10-q的一连串七个双二阶滤波器的幅度及相位响应,其中q等于七。在此实例中,每一滤波器经配置以将其相应子带提升了约相同量。可能需要配置滤波器F10-1到F10-q,使得每一滤波器具有相同峰值响应,且所述滤波器的带宽随着频率增加。
或者,可能需要配置滤波器F10-1到F10-q中的一者或一者以上以提供比所述滤波器中的另一者多的提升(或衰减)。举例来说,可能需要在噪声子带信号产生器NG100、语音子带信号产生器SG100及加强子带信号产生器EG100中的一者中配置子带滤波器阵列SG10的滤波器F10-1到F10-q中的每一者以将相同增益提升提供给其相应子带(或将相同增益衰减提供给其它子带),且在噪声子带信号产生器NG100、语音子带信号产生器SG100及加强子带信号产生器EG100中的另一者中配置子带滤波器阵列SG10的滤波器F10-1到F10-q中的至少一些以根据(例如)所要心理声学加权函数来提供彼此不同的增益提升(或衰减)。
图28展示滤波器F10-1到F10-q并行地产生子带信号S(1)到S(q)的布置。所属领域的技术人员将理解,这些滤波器中的一者或一者以上中的每一者还可经实施以连续地产生子带信号中的两者或两者以上。举例来说,子带滤波器阵列SG10可经实施以包括滤波器结构(例如,双二阶滤波器),所述滤波器结构在一个时间时用第一组滤波器系数值来配置以对信号A进行滤波从而产生子带信号S(1)到S(q)中的一者,且在随后时间时用第二组滤波器系数值来配置以对信号A进行滤波从而产生子带信号S(1)到S(q)中的不同一者。在此情况下,可使用少于q个带通滤波器来实施子带滤波器阵列SG10。举例来说,可用单一滤波器结构来实施子带滤波器阵列SG10,所述单一滤波器结构以使得根据q组滤波器系数值中的相应一者来产生q个子带信号S(1)到S(q)中的每一者的方式来连续地重新配置。
替代地或另外,噪声子带信号产生器NG100、语音子带信号产生器SG100及加强子带信号产生器EG100中的任一者或所有可实施为图26B所示的子带信号产生器SG300的例子。子带信号产生器SG300经配置以基于来自信号A(即,噪声参考S30、语音信号S40或适当时加强向量EV10)的信息来产生一组q个子带信号S(i),其中1≤i≤q且q为子带的所要数目。子带信号产生器SG300包括变换模块SG20,变换模块SG20经配置以对信号A执行变换操作以产生经变换信号T。变换模块SG20可经配置以对信号A执行频域变换操作(例如,经由快速傅立叶变换或FFT)以产生频域变换信号。变换模块SG20的其它实施方案可经配置以对信号A执行不同变换操作(例如,小波变换操作或离散余弦变换(DCT)操作)。可根据所要均一分辨率来执行变换操作(例如,32点、64点、128点、256点或512点FFT操作)。
子带信号产生器SG300还包括频段化模块SG30,频段化模块SG30经配置以通过根据所要子带划分方案将经变换信号T划分成一组q个频段来将所述组子带信号S(i)产生为所述组频段。频段化模块SG30可经配置以应用均一子带划分方案。在均一子带划分方案中,每一频段具有大体上相同的宽度(例如,约百分之十内)。或者,可能需要频段化模块SG30应用非均一的子带划分方案,因为心理声学研究已表明人类听力在频域中对非均一分辨率起作用。非均一子带划分方案的实例包括先验方案(例如,基于巴克标度的方案)或对数方案(例如,基于梅尔标度的方案)。图27中的所述点行指示一组七个巴克标度子带的边缘,所述边缘对应于频率20Hz、300Hz、630Hz、1080Hz、1720Hz、2700Hz、4400Hz及7700Hz。此子带布置可用于具有16kHz的取样速率的宽带语音处理系统中。在此划分方案的其它实例中,省略较低子带以获得六子带布置,且/或将高频率限制从7700Hz增加到8000Hz。频段化模块SG30通常经实施以将经变换信号T划分成一组非重叠频段,但也可实施频段化模块SG30使得所述频段中的一者或一者以上(可能所有)与至少一个邻近频段重叠。
上文对子带信号产生器SG200及SG300的论述假定信号产生器将信号A作为时域信号来接收。或者,噪声子带信号产生器NG100、语音子带信号产生器SG100及加强子带信号产生器EG100中的任一者或所有可实施为图26C所示的子带信号产生器SG400的例子。子带信号产生器SG400经配置以将信号A(即,噪声参考S30、语音信号S40或加强向量EV10)作为变换域信号来接收且基于来自信号A的信息产生一组q个子带信号S(i)。举例来说,子带信号产生器SG400可经配置以将信号A作为频域信号或作为小波变换、DCT或其它变换域中的信号来接收。在此实例中,子带信号产生器SG400实施为如上文所描述的频段化模块SG30的例子。
噪声子带功率估计计算器NP100及加强子带功率估计计算器EP100中的任一者或两者可实施为图26D所示的子带功率估计计算器EC110的例子。子带功率估计计算器EC110包括求和器EC10,求和器EC10经配置以接收所述组子带信号S(i)且产生一组对应q个子带功率估计E(i),其中1≤i≤q。求和器EC10通常经配置以计算信号A(即,噪声参考S30或适当时加强向量EV10)的连续样本的每一块(也被称作“帧”)的一组q个子带功率估计。典型帧长度的范围为约五毫秒或十毫秒到约四十毫秒或五十毫秒,且帧可为重叠或非重叠的。由一个操作处理的帧还可为由不同操作处理的较大帧的区段(即,“子帧”)。在一个特定实例中,将信号A划分成10毫秒非重叠帧的序列,且求和器EC10经配置以计算信号A的每一帧的一组q个子带功率估计。
在一个实例中,求和器EC10经配置以将所述子带功率估计E(i)中的每一者计算为子带信号S(i)的对应一者的值的平方的总和。求和器EC10的此实施方案可经配置以根据例如下式的表达式来计算信号A的每一帧的一组q个子带功率估计:
E(i,k)=∑j∈kS(i,j)2,1≤i≤q,(2)
其中E(i,k)表示子带i及帧k的子带功率估计,且S(i,j)表示第i个子带信号的第j个样本。
在另一实例中,求和器EC10经配置以将所述子带功率估计E(i)中的每一者计算为子带信号S(i)的对应一者的值的量值的总和。求和器EC10的此实施方案可经配置以根据例如下式的表达式来计算信号A的每一帧的一组q个子带功率估计:
E(i,k)=∑j∈k|S(i,j)|,1≤i≤q。(3)
可能需要实施求和器EC10以通过信号A的对应总和来使每一子带总和正规化。在一个此实例中,求和器EC10经配置以将所述子带功率估计E(i)中的每一者计算为被信号A的值的平方的总和除的子带信号S(i)中的对应一者的值的平方的总和。求和器EC10的此实施方案可经配置以根据例如下式的表达式来计算信号A的每一帧的一组q个子带功率估计:
其中A(j)表示信号A的第j个样本。在另一个此实例中,求和器EC10经配置以将每一子带功率估计计算为被信号A的值的量值的总和除的子带信号S(i)的对应一者的值的量值的总和。求和器EC10的此实施方案可经配置以根据例如下式的表达式来计算音频信号的每一帧的一组q个子带功率估计:
或者,对于所述组子带信号S(i)是由频段化模块SG30的实施方案产生的情况来说,可能需要求和器EC10通过子带信号S(i)的对应一者中的总样本数目来使每一子带总和正规化。对于使用除法运算来使每一子带总和正规化(例如,如上文的表达式(4a)及(4b)中)的情况来说,可能需要将小的非零(例如,正的)值ζ添加到分母以避免被零除的可能性。对于所有子带来说,值ζ可为相同的,或可针对所述子带中的两者或两者以上(可能所有)中的每一者使用不同的ζ值(例如,用于实现调谐及/或加权目的)。ζ的值可为固定的或可随着时间而调适(例如,从一个帧到下一个帧)。
或者,可能需要实施求和器EC10以通过减去信号A的对应总和来使每一子带总和正规化。在一个此实例中,求和器EC10经配置以将所述子带功率估计E(i)中的每一者计算为子带信号S(i)的对应一者的值的平方的总和与信号A的值的平方的总和之间的差。求和器EC10的此实施方案可经配置以根据例如下式的表达式来计算信号A的每一帧的一组q个子带功率估计:
E(i,k)=∑j∈kS(i,j)2-∑j∈kA(j)2,1≤i≤q。(5a)
在另一个此实例中,求和器EC10经配置以将所述子带功率估计E(i)中的每一者计算为子带信号S(i)的对应一者的值的量值的总和与信号A的值的量值的总和之间的差。求和器EC10的此实施方案可经配置以根据例如下式的表达式来计算信号A的每一帧的一组q个子带功率估计:
E(i,k)=∑j∈k|S(i,j)|-∑j∈k|A(j)|,1≤i≤q。(5b)
举例来说,可能需要将噪声子带信号产生器NG100实施为子带滤波器阵列SG10的提升实施方案及将噪声子带功率估计计算器NP100实施为求和器EC10的经配置以根据表达式(5b)来计算一组q个子带功率估计的实施方案。替代地或另外,可能需要将加强子带信号产生器EG100实施为子带滤波器阵列SG10的提升实施方案及将加强子带功率估计计算器EP100实施为求和器EC10的经配置以根据表达式(5b)来计算一组q个子带功率估计的实施方案。
噪声子带功率估计计算器NP100及加强子带功率估计计算器EP100中的任一者或两者可经配置以对子带功率估计执行时间平滑操作。举例来说,噪声子带功率估计计算器NP100及加强子带功率估计计算器EP100中的任一者或两者可实施为图26E所示的子带功率估计计算器EC120的例子。子带功率估计计算器EC120包括平滑器EC20,平滑器EC20经配置以随着时间使由求和器EC10计算的总和平滑以产生子带功率估计E(i)。平滑器EC20可经配置以将子带功率估计E(i)计算为总和的移动平均值。平滑器EC20的此实施方案可经配置以根据例如以下各式中的一者的线性平滑表达式来计算信号A的每一帧的一组q个子带功率估计E(i):
E(i,k)←aE(i,k-1)+(1-a)E(i,k),(6)
E(i,k)←aE(i,k-1)+(1-a)|E(i,k)|,(7)
1≤i≤q,其中平滑因子α为在零(不平滑)到一(最大平滑,不更新)的范围中的值(例如,0.3、0.5、0.7、0.9、0.99或0.999)。可能需要平滑器EC20针对所有q个子带使用平滑因子α的相同值。或者,可能需要平滑器EC20针对q个子带中的两者或两者以上(可能所有)中的每一者使用平滑因子α的不同值。平滑因子α的值可为固定的或可随着时间而调适(例如,从一个帧到下一个帧)。
子带功率估计计算器EC120的一个特定实例经配置以根据上述表达式(3)来计算q个子带总和,且根据上述表达式(7)来计算q个对应子带功率估计。子带功率估计计算器EC120的另一特定实例经配置以根据上述表达式(5b)来计算q个子带总和,且根据上述表达式(7)来计算q个对应子带功率估计。然而,请注意,在此个别明确地揭示表达式(2)到(5b)中的一者与表达式(6)到(8)中的一者的所有十八个可能组合。平滑器EC20的替代实施方案可经配置以对由求和器EC10计算的总和执行非线性平滑操作。
明确地提到,上文所论述的子带功率估计计算器EC110的实施方案可经布置以将所述组子带信号S(i)作为时域信号或作为变换域中的信号(例如,作为频域信号)来接收。
增益控制元件CE100经配置以将多个子带增益因子中的每一者应用于语音信号S40的对应子带以产生对比加强语音信号SC10。可实施加强器EN10,使得增益控制元件CE100经布置以将加强子带功率估计作为所述多个增益因子来接收。或者,增益控制元件CE100可经配置以从子带增益因子计算器FC100(例如,如图12所示)接收所述多个增益因子。
子带增益因子计算器FC100经配置以基于来自对应加强子带功率估计的信息来针对q个子带中的每一者计算一组增益因子G(i)中的对应一者,其中1≤i≤q。计算器FC100可经配置以通过将上限UL及/或下限LL应用于对应加强子带功率估计E(i)来计算子带增益因子中的一者或一者以上(可能所有)中的每一者(例如,根据例如G(i)=max(LL,E(i))及/或G(i)=min(UL,E(i))的表达式)。另外或在替代方案中,计算器FC100可经配置以通过使对应加强子带功率估计正规化来计算所述子带增益因子中的一者或一者以上(可能所有)中的每一者。举例来说,计算器FC100的此实施方案可经配置以根据例如下式的表达式来计算每一子带增益因子G(i):
另外或在替代方案中,计算器FC100可经配置以对每一子带增益因子执行时间平滑操作。
可能需要配置加强器EN10以补偿可由子带的重叠引起的过度提升。举例来说,增益因子计算器FC100可经配置以减少中间频率增益因子(例如,包括频率fs/4的子带,其中fs表示语音信号S40的取样频率)中的一者或一者以上的值。增益因子计算器FC100的此实施方案可经配置以通过将增益因子的当前值乘以具有小于一的值的比例因子来执行所述减少。增益因子计算器FC100的此实施方案可经配置以针对待按比例减小的每一增益因子使用相同比例因子,或替代地,针对待按比例减小的每一增益因子使用不同比例因子(例如,基于对应子带与一个或一个以上相邻子带的重叠程度)。
另外或在替代方案中,可能需要配置加强器EN10以增加对高频率子带中的一者或一者以上的提升程度。举例来说,可能需要配置增益因子计算器FC100以确保语音信号S40的一个或一个以上高频率子带(例如,最高子带)的放大不低于中间频率子带(例如,包括频率fs/4的子带,其中fs表示语音信号S40的取样频率)的放大。增益因子计算器FC100可经配置以通过将中间频率子带的增益因子的当前值乘以大于一的比例因子来计算高频率子带的增益因子的当前值。在另一实例中,增益因子计算器FC100经配置以将高频率子带的增益因子的当前值计算为以下各者中的最大者:(A)根据本文所揭示的技术中的任一者基于所述子带的噪声功率估计计算的当前增益因子值及(B)通过将中间频率子带的增益因子的当前值乘以大于一的比例因子而获得的值。替代地或另外,增益因子计算器FC100可经配置以使用上界UB的较高值来计算一个或一个以上高频率子带的增益因子。
增益控制元件CE100经配置以将增益因子中的每一者应用于语音信号S40的对应子带(例如,将增益因子作为增益因子向量来应用于语音信号S40)以产生对比加强语音信号SC10。增益控制元件CE100可经配置以(例如)通过将语音信号S40的帧的频域子带中的每一者乘以对应增益因子G(i)来产生对比加强语音信号SC10的频域型式。增益控制元件CE100的其它实例经配置以使用重叠相加或重叠保留方法来将增益因子应用于语音信号S40的对应子带(例如,通过将增益因子应用于合成滤波器组的相应滤波器)。
增益控制元件CE100可经配置以产生对比加强语音信号SC10的时域型式。举例来说,增益控制元件CE100可包括子带增益控制元件G20-1到G20-q(例如,乘法器或放大器)的阵列,其中子带增益控制元件中的每一者经布置以将增益因子G(1)到G(q)中的相应一者应用于子带信号S(1)到S(q)中的相应一者。
子带混合因子计算器FC200经配置以基于来自对应噪声子带功率估计的信息而针对q个子带中的每一者计算一组混合因子M(i)中的对应一者,其中1≤i≤q。图33A展示混合因子计算器FC200的实施方案FC250的框图,实施方案FC250经配置以将每一混合因子M(i)计算为对对应子带的噪声电平η的指示。混合因子计算器FC250包括噪声电平指示计算器NL10,噪声电平指示计算器NL10经配置以基于所述组对应噪声子带功率估计来计算语音信号的每一帧k的一组噪声电平指示η(i,k),使得每一噪声电平指示指示噪声参考S30的对应子带中的相对噪声电平。噪声电平指示计算器NL10可经配置以计算噪声电平指示中的每一者使的具有在某范围(例如,零到一)内的值。举例来说,噪声电平指示计算器NL10可经配置以根据例如下式的表达式来计算一组q个噪声电平指示中的每一者:
其中EN(i,k)表示子带i及帧k的由噪声子带功率估计计算器NP100(即,基于噪声参考S20)产生的子带功率估计;η(i,k)表示子带i及帧k的噪声电平指示;且ηmin及ηmax分别表示η(i,k)的最小值及最大值。
噪声电平指示计算器NL10的此实施方案可经配置以针对所有q个子带使用相同的ηmin值及ηmax值,或替代地,可经配置以针对子带彼此使用不同的ηmin值及/或ηmax值。这些界限中的每一者的值可为固定的。或者,可根据(例如)加强器EN10的所要边限及/或经处理语音信号S50的当前音量(例如,如下文参考音频输出级O10描述的音量控制信号VS10的当前值)来调适这些界限中的任一者或两者的值。替代地或另外,这些界限中的任一者或两者的值可基于来自语音信号S40的信息(例如,语音信号S40的当前电平)。在另一实例中,噪声电平指示计算器NL10可经配置以根据例如下式的表达式通过使子带功率估计正规化来计算一组q个噪声电平指示中的每一者:
混合因子计算器FC200还可经配置以对混合因子M(i)中的一者或一者以上(可能所有)中的每一者执行平滑操作。图33B展示混合因子计算器FC250的此实施方案FC260的框图,实施方案FC260包括经配置以对由噪声电平指示计算器NL10产生的q个噪声电平指示中的一者或一者以上(可能所有)中的每一者执行时间平滑操作的平滑器GC20。在一个实例中,平滑器GC20经配置以根据例如下式的表达式来对q个噪声电平指示中的每一者执行线性平滑操作:
M(i,k)←βη(i,k-1)+(1-β)η(i,k),1≤i≤q,(10)
其中β为平滑因子。在此实例中,平滑因子β具有在零(不平滑)到一(最大平滑,不更新)的范围中的值(例如,0.3、0.5、0.7、0.9、0.99或0.999)。
可能需要平滑器GC20取决于混合因子的当前值与先前值之间的关系来在平滑因子β的两个或两个以上值中选择一者。举例来说,可能需要平滑器GC20通过在噪声的程度增加时允许混合因子值更快地改变及/或通过在噪声的程度减少时抑制混合因子值的快速改变来执行差分时间平滑操作。此配置可有助于抵制高声噪声甚至在噪声已结束后仍继续屏蔽所要声音的心理声学时间屏蔽效应。因此,可能需要,与在噪声电平指示的当前值大于先前值时的平滑因子β的值相比,平滑因子β的值在噪声电平指示的当前值小于先前值时较大。在一个此实例中,平滑器GC20经配置以根据例如下式的表达式来对q个噪声电平指示中的每一者执行线性平滑操作:
1≤i≤q,其中βatt表示平滑因子β的起动值(attackvalue),βdec表示平滑因子β的衰减值(decayvalue),且βatt<βdec。平滑器EC20的另一实施方案经配置以根据例如以下各者中的一者的线性平滑表达式来对q个噪声电平指示中的每一者执行线性平滑操作:
平滑器GC20的另一实施方案可经配置以在噪声程度减少时延迟对q个混合因子中的一者或一者以上(可能所有)的更新。举例来说,平滑器CG20可经实施以包括根据由值hangover_max(i)指定的时间间隔在比率衰减分布期间延迟更新的释放延迟逻辑(hangoverlogic),值hangover_max(i)可在(例如)一或二到五、六或八的范围中。可针对每一子带使用相同hangover_max值,或可针对不同子带使用不同hangover_max值。
混合器X100经配置以基于来自混合因子、语音信号S40及对比加强信号SC10的信息来产生经处理语音信号S50。举例来说,加强器EN100可包括混合器X100的一实施方案,所述实施方案经配置以通过根据例如P(i,k)=M(i,k)C(i,k)+(1-M(i,k))S(i,k)(1≤i≤q)的表达式来将语音信号S40的对应频域子带与对比加强信号SC10的对应频域子带混合来产生经处理语音信号S50的频域型式,其中P(i,k)指示P(k)的子带i,C(i,k)指示对比加强信号SC10的子带i及帧k,且S(i,k)指示语音信号S40的子带i及帧k。或者,加强器EN100可包括混合器X100的一实施方案,所述实施方案经配置以通过根据例如的表达式来将语音信号S40的对应时域子带与对比加强信号SC10的对应时域子带混合来产生经处理语音信号S50的时域型式,其中P(i,k)=M(i,k)C(i,k)+(1-M(i,k))S(i,k),1≤i≤q,P(k)指示经处理语音信号S50的帧k,P(i,k)指示P(k)的子带i,C(i,k)指示对比加强信号SC10的子带i及帧k,且S(i,k)指示语音信号S40的子带i及帧k。
可能需要配置混合器X100以基于额外信息(例如,固定或自适应频率分布)来产生经处理语音信号S50。举例来说,可能需要应用此频率分布来补偿麦克风或扬声器的频率响应。或者,可能需要应用描述用户选定均衡分布的频率分布。在所述情况下,混合器X100可经配置以根据例如的表达式来产生经处理语音信号S50,其中值wi界定所要频率加权分布。
图32展示频谱对比加强器EN10的实施方案EN110的框图。加强器EN110包括语音子带信号产生器SG100,语音子带信号产生器SG100经配置以基于来自语音信号S40的信息来产生一组语音子带信号。如上文所提到,语音子带信号产生器SG100可实施(例如)为图26A所示的子带信号产生器SG200、图26B所示的子带信号产生器SG300或图26C所示的子带信号产生器SG400的例子。
加强器EN110还包括语音子带功率估计计算器SP100,语音子带功率估计计算器SP100经配置以产生一组语音子带功率估计,所述语音子带功率估计各自基于来自语音子带信号中的对应一者的信息。语音子带功率估计计算器SP100可实施为图26D所示的子带功率估计计算器EC110的例子。举例来说,可能需要将语音子带信号产生器SG100实施为子带滤波器阵列SG10的提升实施方案及将语音子带功率估计计算器SP100实施为求和器EC10的经配置以根据表达式(5b)来计算一组q个子带功率估计的实施方案。另外或在替代方案中,语音子带功率估计计算器SP100可经配置以对子带功率估计执行时间平滑操作。举例来说,语音子带功率估计计算器SP100可实施为图26E所示的子带功率估计计算器EC120的例子。
加强器EN110还包括:子带增益因子计算器FC100(及子带混合因子计算器FC200)的实施方案FC300,其经配置以基于来自对应噪声子带功率估计及对应加强子带功率估计的信息来计算语音子带信号中的每一者的增益因子;及增益控制元件CE110,其经配置以将所述增益因子中的每一者应用于语音信号S40的对应子带以产生经处理语音信号S50。明确地提到,至少在启用频谱对比加强且加强向量EV10对增益因子值中的至少一者有贡献的情况下,经处理语音信号S50也可被称作对比加强语音信号。
增益因子计算器FC300经配置以基于对应噪声子带功率估计及对应加强子带功率估计来计算q个子带中的每一者的一组增益因子G(i)中的对应一者,其中1≤i≤q。图33C展示增益因子计算器FC300的实施方案FC310的框图,实施方案FC310经配置以通过使用对应噪声子带功率估计对对应加强子带功率估计对每一增益因子G(i)的贡献进行加权来计算所述增益因子。
增益因子计算器FC310包括如上文参考混合因子计算器FC200描述的噪声电平指示计算器NL10的例子。增益因子计算器FC310还包括比率计算器GC10,比率计算器GC10经配置以将语音信号的每一帧的一组q个功率比率中的每一者计算为混和子带功率估计与对应语音子带功率估计ES(i,k)之间的比率。举例来说,增益因子计算器FC310可经配置以根据例如下式的表达式来计算语音信号的每一帧的一组q个功率比率中的每一者:
其中ES(i,k)表示子带i及帧k的由语音子带功率估计计算器SP100(即,基于语音信号S40)产生的子带功率估计,且EE(i,k)表示子带i及帧k的由加强子带功率估计计算器EP100(即,基于加强向量EV10)产生的子带功率估计。表达式(14)的分子表示混和子带功率估计,其中,根据对应噪声电平指示来对语音子带功率估计及对应加强子带功率估计的相对贡献进行加权。
在另一实例中,比率计算器GC10经配置以根据例如下式的表达式来计算语音信号S40的每一帧的所述组q个子带功率估计比率中的至少一者(及可能所有):
其中ε为具有小的正值(即,小于ES(i,k)的预期值的值)的调谐参数。可能需要比率计算器GC10的此实施方案针对所有子带使用相同的调谐参数ε值。或者,可能需要比率计算器GC10的此实施方案针对子带中的两者或两者以上(可能所有)中的每一者使用不同的调谐参数ε值。调谐参数ε的值可为固定的或可随着时间而加以调适(例如,从一个帧到下一个帧)。调谐参数ε的使用可有助于在比率计算器GC10中避免被零除的错误的可能性。
增益因子计算器FC310还可经配置以对q个功率比率中的一者或一者以上(可能所有)中的每一者执行平滑操作。图33D展示增益因子计算器FC310的此实施方案FC320的框图,实施方案FC320包括平滑器GC20的经布置以对由比率计算器GC10产生的q个功率比率中的一者或一者以上(可能所有)中的每一者执行时间平滑操作的例子GC25。在一个此实例中,平滑器GC25经配置以根据例如下式的表达式来对q个功率比率中的每一者执行线性平滑操作:
G(i,k)←βG(i,k-1)+(1-β)G(i,k),1≤i≤q,(16)
其中β为平滑因子。在此实例中,平滑因子β具有在零(不平滑)到一(最大平滑,不更新)的范围中的值(例如,0.3、0.5、0.7、0.9、0.99或0.999)。
可能需要平滑器GC25取决于增益因子的当前值与先前值之间的关系来在平滑因子β的两个或两个以上值中选择一者。因此,可能需要,与在增益因子的当前值大于先前值时的平滑因子β的值相比,平滑因子β的值在增益因子的当前值小于先前值时较大。在一个此实例中,平滑器GC25经配置以根据例如下式的表达式来对q个功率比率中的每一者执行线性平滑操作:
其中1≤i≤q,其中βatt表示平滑因子β的起动值,βdec表示平滑因子β的衰减值,且βatt<βdec。平滑器EC25的另一实施方案经配置以根据例如以下各者中的一者的线性平滑表达式来对q个功率比率中的每一者执行线性平滑操作:
替代地或另外,表达式(17)-(19)可经实施以基于噪声电平指示之间的关系(例如,根据表达式η(i,k)>η(i,k-1)的值)来在β的值当中进行选择。
图34A展示根据上述表达式(15)及(18)描述此平滑的一个实例的伪码列表,其可针对帧k处的每一子带i而加以执行。在此列表中,计算噪声电平指示的当前值,且将增益因子的当前值初始化为混和子带功率与原始语音子带功率的比率。如果此比率小于增益因子的先前值,则通过按具有小于一的值的比例因子beta_dec来按比例缩小先前值来计算增益因子的当前值。否则,使用具有在零(不平滑)到一(最大平滑,不更新)的范围中的值(例如,0.3、0.5、0.7、0.9、0.99或0.999)的平均因子beta_att来将增益因子的当前值计算为所述比率与增益因子的先前值的平均值。
平滑器GC25的另一实施方案可经配置以在噪声程度减少时延迟对q个增益因子中的一者或一者以上(可能所有)的更新。图34B展示可用以实施此差分时间平滑操作的图34A的伪码列表的修改。此列表包括根据由值hangover_max(i)指定的时间间隔在比率衰减分布期间延迟更新的释放延迟逻辑,值hangover_max(i)可在(例如)一或二到五、六或八的范围中。可针对每一子带使用相同hangover_max值,或可针对不同子带使用不同hangover_max值。
如本文所描述的增益因子计算器FC100或FC300的实施方案可进一步经配置以将上界及/或下界应用于增益因子中的一者或一者以上(可能所有)。图35A及图35B分别展示可用以将此上界UB及下界LB应用于增益因子值中的每一者的图34A及图34B的伪码列表的修改。这些界限中的每一者的值可为固定的。或者,可根据(例如)加强器EN10的所要边限及/或经处理语音信号S50的当前音量(例如,音量控制信号VS10的当前值)来调适这些界限中的任一者或两者的值。替代地或另外,这些界限中的任一者或两者的值可基于来自语音信号S40的信息(例如,语音信号S40的当前电平)。
增益控制元件CE110经配置以将增益因子中的每一者应用于语音信号S40的对应子带(例如,将增益因子作为增益因子向量来应用于语音信号S40)以产生经处理语音信号S50。增益控制元件CE110可经配置以(例如)通过将语音信号S40的帧的频域子带中的每一者乘以对应增益因子G(i)来产生经处理语音信号S50的频域型式。增益控制元件CE110的其它实例经配置以使用重叠相加或重叠保留方法来将增益因子应用于语音信号S40的对应子带(例如,通过将增益因子应用于合成滤波器组的相应滤波器)。
增益控制元件CE110可经配置以产生经处理语音信号S50的时域型式。图36A展示增益控制元件CE110的此实施方案CE115的框图,实施方案CE115包括具有带通滤波器阵列的子带滤波器阵列FA100,所述带通滤波器各自经配置以将增益因子中的相应一者应用于语音信号S40的对应时域子带。此阵列中的滤波器可并联地及/或串联地布置。在一个实例中,阵列FA100实施为小波或多相合成滤波器组。加强器EN110的包括增益控制元件CE110的时域实施方案且经配置以将语音信号S40作为频域信号接收的实施方案还可包括逆变换模块TR20的经布置以将语音信号S40的时域型式提供到增益控制元件CE110的例子。
图36B展示子带滤波器阵列FA100的包括并联地布置的一组q个带通滤波器F20-1到F20-q的实施方案FA110的框图。在此情况下,滤波器F20-1到F20-q中的每一者经布置以通过根据增益因子对子带进行滤波来将q个增益因子G(1)到G(q)(例如,通过增益因子计算器FC300计算)中的对应一者应用于语音信号S40的对应子带以产生对应带通信号。子带滤波器阵列FA110还包括经配置以将q个带通信号混合以产生经处理语音信号S50的组合器MX10。
图37A展示子带滤波器阵列FA100的另一实施方案FA120的框图,其中带通滤波器F20-1到F20-q经布置以通过根据增益因子串行地(即,在级联中,使得每一滤波器F20-k经布置以对滤波器F20-(k-1)的输出进行滤波,2≤k≤q)对语音信号S40进行滤波来将增益因子G(1)到G(q)中的每一者应用于语音信号S40的对应子带。
滤波器F20-1到F20-q中的每一者可经实施以具有有限脉冲响应(FIR)或无限脉冲响应(IIR)。举例来说,滤波器F20-1到F20-q中的一者或一者以上(可能所有)中的每一者可实施为双二阶滤波器。举例来说,子带滤波器阵列FA120可实施为双二阶滤波器的级联。此实施方案也可被称作双二阶IIR滤波器级联、二阶IIR区段或滤波器的级联,或级联式的一连串子带IIR双二阶滤波器。可能需要使用转置直接形式II来实施每一双二阶滤波器,尤其对于加强器EN10的浮点实施方案来说。
可能需要滤波器F20-1到F20-q的通带表示将语音信号S40的带宽划分成一组非均一子带(例如,使得滤波器通带中的两者或两者以上具有不同宽度)而非一组均一子带(例如,使得滤波器通带具有相等宽度)。如上文所提到,非均一子带划分方案的实例包括先验方案(例如,基于巴克标度的方案)或对数方案(例如,基于梅尔标度的方案)。举例来说,可根据由图27中的点说明的巴克标度划分方案来配置滤波器F20-1到F20-q。此子带布置可用于宽带语音处理系统(例如,具有16kHz的取样速率的装置)中。在此划分方案的其它实例中,省略最低子带以获得六子带方案,及/或将最高子带的上限从7700Hz增加到8000Hz。
在窄带语音处理系统(例如,具有8kHz的取样速率的装置)中,可能需要根据具有少于六个或七个子带的划分方案来设计滤波器F20-1到F20-q的通带。此子带划分方案的一个实例为四带准巴克方案300-510Hz、510-920Hz、920-1480Hz及1480-4000Hz。使用宽高频带(例如,如在此实例中)可能合乎需要,这是由于低子带能量估计及/或为了处理用双二阶滤波器为最高子带建模过程中的困难。
可使用增益因子G(1)到G(q)中的每一者来更新滤波器F20-1到F20-q中的对应一者的一个或一个以上滤波器系数值。在此情况下,可能需要配置滤波器F20-1到F20-q中的一者或一者以上(可能所有)中的每一者,使得其频率特性(例如,中心频率及其通带的宽度)为固定的且其增益为可变的。可通过按共同因子(例如,增益因子G(1)到G(q)中的对应一者的当前值)来仅改变前馈系数(例如,上述双二阶表达式(1)中的系数b0、b1及b2)的值来针对FIR或IIR滤波器来实施此技术。举例来说,可根据增益因子G(1)到G(q)中的对应一者G(i)的当前值来改变滤波器F20-1到F20-q中的一者F20-i的双二阶实施方案中的前馈系数中的每一者的值以获得以下转移函数:
图37B展示滤波器F20-1到F20-q中的一者F20-i的双二阶实施方案的另一实例,其中根据对应增益因子G(i)的当前值来改变滤波器增益。
可能需要实施子带滤波器阵列FA100,使得在所有增益因子G(1)到G(q)等于一时,子带滤波器阵列FA100在所关注的频率范围(例如,从50Hz、100Hz或200Hz到3000Hz、3500Hz、4000Hz、7000Hz、7500Hz或8000Hz)内的有效转移函数大体上恒定。举例来说,可能需要在所有增益因子G(1)到G(q)等于一时,子带滤波器阵列FA100的有效转移函数在所述频率范围的百分之五、百分之十或百分之二十内(例如,0.25、0.5或一分贝内)为恒定。在一个特定实例中,在所有增益因子G(1)到G(q)等于一时,子带滤波器阵列FA100的有效转移函数大体上等于一。
可能需要子带滤波器阵列FA100将相同子带划分方案作为语音子带信号产生器SG100的子带滤波器阵列SG10的实施方案及/或加强子带信号产生器EG100的子带滤波器阵列SG10的实施方案来应用。举例来说,可能需要子带滤波器阵列FA100使用具有与所述滤波器的设计(例如,一组双二阶滤波器)相同的设计的一组滤波器,其中将固定值用于所述子带滤波器阵列SG10的增益因子。可甚至使用与所述子带滤波器阵列相同的分量滤波器来实施子带滤波器阵列FA100(例如,在不同时间,以不同增益因子值,且可能其中分量滤波器以不同方式布置,如在阵列FA120的级联中布置)。
可能需要根据稳定性及/或量化噪声考虑来设计子带滤波器阵列FA100。举例来说,如上文所提到,子带滤波器阵列FA120可实施为二阶区段(second-ordersection)的级联。使用转置直接形式II双二阶结构实施此区段可有助于使舍入噪声最小化及/或在所述区段内获得稳健系数/频率敏感性。加强器EN10可经配置以对滤波器输入及/或系数值执行缩放,此可有助于避免溢出情形。加强器EN10可经配置以执行心智检查操作,所述心智检查操作在滤波器输入与输出之间存在大差异的情况下将子带滤波器阵列FA100的一个或一个以上IIR滤波器的历史复位。数值实验及在线测试已导致以下结论:可在无用于量化噪声补偿的任何模块的情况下实施加强器EN10,但也可包括一个或一个以上所述模块(例如,经配置以对子带滤波器阵列FA100的一个或一个以上滤波器中的每一者的输出执行抖动操作的模块)。
如上文所描述,可使用适合于提升语音信号S40的相应子带的分量滤波器(例如,双二阶滤波器)来实施子带滤波器阵列FA100。然而,在一些情况下,还可能需要使语音信号S40的一个或一个以上子带相对于语音信号S40的其它子带衰减。举例来说,可能需要放大一个或一个以上频谱峰值且还希望使一个或一个以上频谱谷值衰减。可通过根据帧的最大所要衰减来在子带滤波器阵列FA100上游使语音信号S40衰减且相应地增加其它子带的帧的增益因子的值以补偿所述衰减来执行此衰减。举例来说,可通过在子带滤波器阵列FA100上游使语音信号S40衰减两分贝、使子带i在无提升的情况下通过阵列FA100,及使其它子带的增益因子的值增加两分贝来实现子带i衰减两分贝。作为在子带滤波器阵列FA100上游将衰减应用于语音信号S40的替代方案,可在子带滤波器阵列FA100下游将此衰减应用于经处理语音信号S50。
图38展示频谱对比加强器EN10的实施方案EN120的框图。与加强器EN110相比,加强器EN120包括增益控制元件CE100的实施方案CE120,实施方案CE120经配置以处理由语音子带信号产生器SG100从语音信号S40产生的一组q个子带信号S(i)。举例来说,图39展示增益控制元件CE120的实施方案CE130的框图,实施方案CE130包括子带增益控制元件G20-1到G20-q的阵列及组合器MX10的例子。所述q个子带增益控制元件G20-1到G20-q中的每一者(其可实施为(例如)乘法器或放大器)经布置以将增益因子G(1)到G(q)中的相应一者应用于子带信号S(1)到S(q)中的相应一者。组合器MX10经布置以组合(例如,混合)增益受控子带信号以产生经处理语音信号S50。
对于加强器EN100、EN110或EN120将语音信号S40作为变换域信号(例如,作为频域信号)来接收的情况,对应增益控制元件CE100、CE110或CE120可经配置以将增益因子应用于变换域中的相应子带。举例来说,增益控制元件CE100、CE110或CE120的此实施方案可经配置以使每一子带乘以所述增益因子中的对应一者,或使用对数值来执行类似运算(例如,将增益因子与子带值相加(以分贝为单位))。加强器EN100、EN110或EN120的替代实施方案可经配置以在增益控制元件上游将语音信号S40从变换域转换到时域。
可能需要配置加强器EN10以使语音信号S40的一个或一个以上子带在无提升的情况下通过。举例来说,低频率子带的提升可导致对其他子带的压抑,且可能需要加强器EN10使语音信号S40的一个或一个以上低频率子带(例如,包括小于300Hz的频率的子带)在无提升的情况下通过。
举例来说,加强器EN100、EN110或EN120的此实施方案可包括增益控制元件CE100、CE110或CE120的经配置以使一个或一个以上子带在无提升的情况下通过的实施方案。在一个此情况下,可实施子带滤波器阵列FA110,使得子带滤波器F20-1到F20-q中的一者或一者以上应用增益因子一(例如,零dB)。在另一个此情况下,子带滤波器阵列FA120可实施为比滤波器F20-1到F20-q的所有少的级联。在另外一个此情况下,可实施增益控制元件CE100或CE120,使得增益控制元件G20-1到G20-q中的一者或一者以上应用增益因子一(例如,零dB)或以其它方式配置以使相应子带信号在不改变其电平的情况下通过。
可能需要避免加强语音信号S40的仅含有背景噪声或为寂静的部分的频谱对比。举例来说,可能需要配置设备A100以在语音信号S40不活动的时间间隔期间绕过加强器EN10或以其它方式延缓或抑制语音信号S40的频谱对比加强。设备A100的此实施方案可包括话音活动检测器(VAD),话音活动检测器(VAD)经配置以基于一个或一个以上因子(例如,帧能量、信噪比、周期性、语音及/或残余(例如,线性预测编码残余)的自相关、过零率及/或第一反射系数)来将语音信号S40的帧分类为活动(例如,语音)或不活动(例如,背景噪声或寂静)。此分类可包括将此因子的值或量值与阈值比较及/或将此因子的改变的量值与阈值比较。
图40A展示设备A100的包括此VADV10的实施方案A160的框图。话音活动检测器V10经配置以产生更新控制信号S70,其状态指示在语音信号S40上是否检测到语音活动。设备A160还包括加强器EN10(例如,加强器EN110或EN120)的实施方案EN150,实施方案EN150是根据更新控制信号S70的状态来控制。加强器EN10的此实施方案可经配置,使得在语音信号S40的未检测到语音的时间间隔期间,抑制增益因子值的更新及/或噪声电平指示η的更新。举例来说,加强器EN150可经配置,使得增益因子计算器FC300针对语音信号S40的未检测到语音的帧输出增益因子值的先前值。
在另一实例中,加强器EN150包括增益因子计算器FC300的一实施方案,所述实施方案经配置以在VADV10指示语音信号S40的当前帧不活动时迫使增益因子的值为中性值(例如,指示无来自加强向量EV10的贡献或为零分贝的增益因子)或迫使增益因子的值在两个或两个以上的帧内衰减到中性值。替代地或另外,加强器EN150可包括增益因子计算器FC300的一实施方案,所述实施方案经配置以在VADV10指示语音信号S40的当前帧不活动时将噪声电平指示η的值设定为零,或允许噪声电平指示的值衰减到零。
话音活动检测器V10可经配置以基于一个或一个以上因子(例如,帧能量、信噪比(SNR)、周期性、过零率、语音及/或残余的自相关及第一反射系数来将语音信号S40的帧分类为活动或不活动(例如,控制更新控制信号S70的二元状态)。此分类可包括将此因子的值或量值与阈值比较及/或将此因子的改变的量值与阈值比较。替代地或另外,此分类可包括将在一个频带中此因子(例如,能量)的值或量值或此因子的改变的量值与另一频带中的类似值比较。可能需要实施VADV10以基于多个准则(例如,能量、过零率等等)及/或近来VAD决策的记忆来执行话音活动检测。可由VADV10执行的话音活动检测操作的一个实例包括将语音信号S40的高带及低带能量与相应阈值比较,如描述(例如)于2007年1月的题为“宽带扩频数字系统的加强可变速率编解码器,语音服务选项3、68及70(EnhancedVariableRateCodec,SpeechServiceOptions3,68,and70forWidebandSpreadSpectrumDigitalSystems)”的3GPP2文档C.S0014-C,v1.0的部分4.7(第4-49页到4-57页)中(在www-dot-3gpp-dot-org处在线可获得)。话音活动检测器V10通常经配置以将更新控制信号S70产生为二元值话音检测指示,但产生连续及/或多值信号的配置也是可能的。
设备A110可经配置以包括话音活动检测器V10的实施方案V15,实施方案V15经配置以基于噪声减少级NR20的输入与输出之间的关系(即,基于源信号S20与噪声减少的语音信号S45之间的关系)来将源信号S20的帧分为活动或不活动的。可认为此关系的值指示噪声减少级NR20的增益。图40B展示设备A140(及设备A160)的此实施方案A165的框图。
在一个实例中,VADV15经配置以基于通过级NR20的频域频段的数目来指示帧是否为活动的。在此情况下,更新控制信号S70指示帧在所通过频段的数目超过(或者,不小于)阈值的情况下为活动的且否则为不活动的。在另一实例中,VADV15经配置以基于由级NR20阻断的频域频段的数目来指示帧是否为活动的。在此情况下,更新控制信号S70指示帧在所阻断频段的数目超过(或者,不小于)阈值时为不活动的且否则为活动的。在确定帧为活动还是不活动的过程中,可能需要VADV15仅考虑更有可能含有语音能量的频段,例如低频率的频段(例如,含有不高于一千赫、一千五百赫或两千赫的频率值的频段)或中间频率的频段(例如,含有不小于两百赫、三百赫或五百赫的频率值的低频率的频段)。
图41展示图35A的伪码列表的修改,其中变量VAD(例如,更新控制信号S70)的状态在语音信号S40的当前帧为活动的时为1且否则为0。在此实例(其可通过增益因子计算器FC300的对应实施方案执行)中,将子带i及帧k的子带增益因子的当前值初始化为最近的值,且对于不活动帧,不更新子带增益因子的值。图42展示图35A的伪码列表的另一修改,其中在未检测到话音活动的周期期间(即,对于不活动帧)子带增益因子的值衰减到一。
可能需要在设备A100中在别处应用VADV10的一个或一个以上例子。举例来说,可能需要布置VADV10的例子以在以下信号中的一者或一者以上上检测语音活动:所感测音频信号S10的至少一个通道(例如,主要通道)、经滤波信号S15的至少一个通道,及源信号S20。可使用对应结果来控制SSP滤波器SS20的自适应滤波器AF10的操作。举例来说,可能需要配置设备A100以在此话音活动检测操作的结果指示当前帧为活动的时启动自适应滤波器AF10的训练(例如,调适),增加自适应滤波器AF10的训练速率,及/或增加自适应滤波器AF10的深度,且/或否则关闭训练及/或减少所述值。
可能需要配置设备A100以控制语音信号S40的电平。举例来说,可能需要配置设备A100以控制语音信号S40的电平以提供足够边限来适应由加强器EN10进行的子带提升。另外或在替代方案中,可能需要配置设备A100以如上文参考增益因子计算器FC300所揭示基于关于语音信号S40的信息(例如,语音信号S40的当前电平)来确定噪声电平指示边界ηmin及ηmax中的任一者或两者的值及/或增益因子值边界UB及LB中的任一者或两者的值。
图43A展示设备A100的实施方案A170的框图,其中加强器EN10经布置以经由自动增益控制(AGC)模块G10来接收语音信号S40。自动增益控制模块G10可经配置以根据已知或将开发的任何AGC技术来将音频输入信号S100的动态范围压缩到受限振幅带中以获得语音信号S40。自动增益控制模块G10可经配置以通过(例如)提升输入信号的具有低功率的区段(例如,帧)且使输入信号的具有高功率的区段衰减来执行此动态范围压缩。对于语音信号S40为再生音频信号(例如,远端通信信号、流式传输的音频信号或从所存储媒体文件解码的信号)的应用中,设备A170可经布置以从解码级接收音频输入信号S100。如下文所描述的通信装置D100的对应例子可经构造以包括也为设备A170的实施方案(即,包括AGC模块G10)的设备A100的实施方案。对于加强器EN10经布置以将源信号S20作为语音信号S40来接收(例如,如在上文所描述的设备A110中)的应用,音频输入信号S100可基于所感测的音频信号S10。
自动增益控制模块G10可经配置以提供边限界定及/或主音量设定。举例来说,AGC模块G10可经配置以将如上所揭示的上界UB及下界LB中的任一者或两者的值及/或如上所揭示的噪声电平指示边界ηmin及ηmax中的任一者或两者的值提供到加强器EN10。AGC模块G10的操作参数(例如,压缩阈值及/或音量设定)可限制加强器EN10的有效边限。可能需要调谐设备A100(例如,调谐加强器EN10及/或AGC模块G10(如果存在)),使得在所感测音频信号S10上不存在噪声的情况下,设备A100的净效应大体上无增益放大(例如,语音信号S40与经处理语音信号S50之间的电平差异小于约正或负百分之五、百分之十或百分之二十)。
时域动态范围压缩可通过(例如)随着时间使信号的改变的可感知性增加来增加信号可懂度。此信号改变的一个特定实例涉及随着时间清楚界定的共振峰轨迹的存在,此可显著有助于信号的可懂度。通常通过辅音尤其闭合辅音(例如,[k]、[t]、[p]等等)来标记共振峰轨迹的开始点及结束点。与语音的元音内容及其它有声部分相比,这些标记辅音通常具有低能量。提升标记辅音的能量可通过允许收听者更清楚地跟随语音开始及结束来增加可懂度。可懂度的此增加不同于可通过频率子带功率调整来获得的可懂度增加(例如,如本文中参考加强器EN10所描述)。因此,采用这两个效应之间的协作(例如,如上文所描述,在设备A170的实施方案中,及/或在对比加强信号产生器EG110的实施方案EG120中)可允许总体语音可懂度的可观增加。
可能需要配置设备A100以进一步控制经处理语音信号S50的电平。举例来说,设备A100可经配置以包括经布置以控制经处理语音信号S50的电平的AGC模块(另外或在替代方案中,AGC模块G10)。图44展示加强器EN20的实施方案EN160的框图,实施方案EN160包括经布置以限制频谱对比加强器的声输出电平的峰值限制器L10。峰值限制器L10可实施为可变增益音频电平压缩器。举例来说,峰值限制器L10可经配置以将高峰值压缩到阈值,使得加强器EN160实现组合频谱对比加强/压缩效应。图43B展示设备A100的实施方案A180的框图,实施方案A180包括加强器EN160以及AGC模块G10。
图45A的伪码列表描述可由峰值限制器L10执行的峰值限制操作的一个实例。对于输入信号sig的每一样本k(例如,对于经处理语音信号S50的每一样本k),此操作计算样本幅度与软峰值限制peak_lim之间的差异pkdiff。peak_lim的值可为固定的或可随着时间而加以调适。举例来说,peak_lim的值可基于来自AGC模块G10的信息。此信息可包括(例如)以下各者中的任一者:上界UB及/或下界LB的值、噪声电平指示边界ηmin及/或ηmax的值、与语音信号S40的当前电平有关的信息。
如果pkdiff的值至少为零,则样本幅度不超过峰值限制peak_lim。在此情况下,将差分增益值diffgain设定为一。否则,样本幅度大于峰值限制peak_lim,且将diffgain设定为与超过幅度成比例的小于一的值。
峰值限制操作还可包括对差分增益值的平滑。此平滑可根据增益是随着时间增加还是减少而不同。如图45A所示,举例来说,如果diffgain的值超过峰值增益参数g_pk的先前值,则使用g_pk的先前值、diffgain的当前值及起动增益平滑参数gamma_att来更新g_pk的值。否则,使用g_pk的先前值、diffgain的当前值及衰减增益平滑参数gamma_dec来更新g_pk的值。值gamma_att及gamma_dec是选自约零(不平滑)到约0.999(最大平滑)的范围。接着使输入信号sig的对应样本k乘以g_pk的经平滑值以获得峰值受限样本。
图45B展示图45A的伪码列表的修改,其使用不同表达式来计算差分增益值diffgain。作为这些实例的替代方案,峰值限制器L10可经配置以执行如图45A或图45B中所描述的峰值限制操作的另一实例,其中较不频繁地更新pkdiff的值(例如,其中将pkdiff的值计算为peak_lim与信号sig的若干样本的绝对值的平均值之间的差)。
如本文所提到,通信装置可经构造以包括设备A100的一实施方案。在此装置的操作期间的一些时间,可能需要设备A100根据来自不同于噪声参考S30的参考的信息来加强语音信号S40的频谱对比。在一些环境或定向中,例如,SSP滤波器SS10的方向性处理操作可产生不可靠的结果。在装置的一些操作模式(例如,即按即说(PTT)模式或扬声器电话模式)下,所感测音频通道的空间选择性处理可为不必要或非所要的。在所述情况下,可能需要设备A100在非空间(或“单通道”)模式而非空间选择性(或“多通道”)模式下操作。
设备A100的一实施方案可经配置以根据模式选择信号的当前状态来在单通道模式或多通道模式下操作。设备A100的此实施方案可包括分离评估器,分离评估器经配置以基于所感测音频信号S10、源信号S20及噪声参考S30中的至少一者的质量来产生模式选择信号(例如,二元旗标)。由此分离评估器用于确定模式选择信号的状态的准则可包括以下参数中的一者或一者以上的当前值与对应阈值之间的关系:源信号S20的能量与噪声参考S30的能量之间的差异或比率;噪声参考S20的能量与所感测音频信号S10的一个或一个以上通道的能量之间的差异或比率;源信号S20与噪声参考S30之间的相关性;源信号S20载有语音的可能性,如由源信号S20的一个或一个以上统计度量(例如,峰态、自相关)指示。在此情况下,可将信号的能量的当前值计算为所述信号的连续样本的块(例如,当前帧)的平方样本值的总和。
设备A100的此实施方案A200可包括分离评估器EV10,分离评估器EV10经配置以基于来自源信号S20及噪声参考S30的信息(例如,基于源信号S20的能量与噪声参考S30的能量之间的差异或比率)来产生模式选择信号S80。此分离评估器可经配置以产生模式选择信号S80以在其确定SSP滤波器SS10已将所要声音分量(例如,用户的话音)充分地分离到源信号S20中时具有第一状态且否则具有第二状态。在一个此实例中,分离评估器EV10经配置以在其确定源信号S20的当前能量与噪声参考S30的当前能量之间的差异超过(或者,不小于)对应阈值时指示充分分离。在另一个此实例中,分离评估器EV10经配置以在其确定源信号S20的当前帧与噪声参考S30的当前帧之间的相关性小于(或者,不超过)对应阈值时指示充分分离。
设备A100的包括分离评估器EV10的例子的实施方案可经配置以在模式选择信号S80具有第二状态时绕过加强器EN10。此布置(例如)对于加强器EN10经配置以将源信号S20作为语音信号来接收的设备A110的实施方案来说可为所要的。在一个实例中,通过迫使所述帧的增益因子为中性值(例如,指示无来自加强向量EV10的贡献,或零分贝的增益因子)使得增益控制元件CE100、CE110或CE120使语音信号S40在无改变的情况下通过来执行绕过加强器EN10。可突然地或逐渐地(例如,两个或两个以上帧内的衰减)实施此迫使。
图46展示设备A100的包括加强器EN10的实施方案EN200的替代实施方案A200的框图。加强器EN200经配置以在模式选择信号S80具有第一状态时在多通道模式下操作(例如,根据以上揭示的加强器EN10的实施方案中的任一者)且在模式选择信号S80具有第二状态时在单通道模式下操作。在单通道模式下,加强器EN200经配置以基于来自未经分离的噪声参考S95的一组子带功率估计来计算增益因子值G(1)到G(q)。未经分离的噪声参考S95是基于未经分离的所感测音频信号(例如,基于所感测音频信号S10的一个或一个以上通道)。
可实施设备A200,使得未经分离的噪声参考S95为所感测音频通道S10-1及S10-2中的一者。图47展示设备A200的此实施方案A210的框图,其中未经分离的噪声参考S95为所感测音频通道S10-1。可能需要设备A200经由回音消除器或经配置以对麦克风信号执行回音消除操作的其它音频预处理级(例如,如下文所描述的音频预处理器AP20的例子)来接收所感测音频通道S10,尤其对于语音信号S40为再生音频信号的情况来说。在设备A200的更一般的实施方案中,未经分离的噪声参考S95为未经分离的麦克风信号(例如,如下文所描述的模拟麦克风信号SM10-1及SM10-2中的任一者,或如下文所描述的数字化麦克风信号DM10-1及DM10-2中的任一者)。
可实施设备A200,使得未经分离的噪声参考S95为所感测音频通道S10-1及S10-2中对应于通信装置的主要麦克风(例如,通常最直接地接收用户的话音的麦克风)的特定一者。此布置(例如)对于语音信号S40为再生音频信号(例如,远端通信信号、流式传输的音频信号或从所存储媒体文件解码的信号)的应用来说可能合乎需要。或者,可实施设备A200,使得未经分离的噪声参考S95为所感测音频通道S10-1及S10-2中对应于通信装置的次要麦克风(例如,通常仅间接地接收用户的话音的麦克风)的特定一者。此布置(例如)对于加强器EN10经布置以将源信号S20作为语音信号S40来接收的应用来说可能合乎需要。
在另一布置中,设备A200可经配置以通过将所感测音频通道S10-1及S10-2混合到单一通道来获得未经分离的噪声参考S95。或者,设备A200可经配置以根据一个或一个以上准则(例如,最高信噪比、最大语音可能性(例如,由一个或一个以上统计度量指示)、通信装置的当前操作配置,及/或所要源信号被确定所发自的方向)来从所感测音频通道S10-1及S10-2中选择未经分离的噪声参考S95。
更一般地,设备A200可经配置以从一组两个或两个以上麦克风信号(例如,如下文所描述的麦克风信号SM10-1及SM10-2或如下文所描述的麦克风信号DM10-1及DM10-2)获得未经分离的噪声参考S95。可能需要设备A200从已经受回音消除操作(例如,如下文参考音频预处理器AP20及回音消除器EC10所描述)的一个或一个以上麦克风信号来获得未经分离的噪声参考S95。
设备A200可经布置以从时域缓冲器接收未经分离的噪声参考S95。在一个此实例中,时域缓冲器具有十毫秒的长度(例如,在八kHz的取样速率下的八十个样本或在十六kHz的取样速率下的160个样本)。
加强器EN200可经配置以根据模式选择信号S80的状态基于噪声参考S30及未经分离的噪声参考S95中的一者来产生所述组第二子带信号。图48展示加强器EN200(及加强器EN110)的此实施方案EN300的框图,实施方案EN300包括选择器SL10(例如,多路分用器),选择器SL10经配置以根据模式选择信号S80的当前状态来选择噪声参考S30及未经分离的噪声参考S95中的一者。加强器EN300还可包括增益因子计算器FC300的一实施方案,所述实施方案经配置以根据模式选择信号S80的状态来在边界ηmin及ηmax中的任一者或两者及/或边界UB及LB中的任一者或两者的不同值中进行选择。
加强器EN200可经配置以根据模式选择信号S80的状态在不同组子带信号中进行选择以产生所述组第二子带功率估计。图49展示加强器EN300的此实施方案EN310的框图,实施方案EN310包括子带信号产生器NG100的第一例子NG100a、子带信号产生器NG100的第二例子NG100b,及选择器SL20。第二子带信号产生器NG100b(其可实施为子带信号产生器SG200的例子或实施为子带信号产生器SG300的例子)经配置以产生一组子带信号,其是基于未经分离的噪声参考S95。选择器SL20(例如,多路分用器)经配置以根据模式选择信号S80的当前状态来在由第一子带信号产生器NG100a及第二子带信号产生器NG100b产生的多组子带信号中选择一者,且将所述选定组的子带信号提供到噪声子带功率估计计算器NP100作为所述组噪声子带信号。
在另一替代方案中,加强器EN200经配置以根据模式选择信号S80的状态在不同组噪声子带功率估计中进行选择以产生所述组子带增益因子。图50展示加强器EN300(及加强器EN310)的此实施方案EN320的框图,实施方案EN320包括噪声子带功率估计计算器NP100的第一例子NP100a、噪声子带功率估计计算器NP100的第二例子NP100b及选择器SL30。第一噪声子带功率估计计算器NP100a经配置以产生第一组噪声子带功率估计,其是基于由如上文所述的第一噪声子带信号产生器NG100a产生的所述组子带信号。第二噪声子带功率估计计算器NP100b经配置以产生第二组噪声子带功率估计,其是基于由如上文所描述的第二噪声子带信号产生器NG100b产生的所述组子带信号。举例来说,加强器EN320可经配置以并行地评估噪声参考中的每一者的子带功率估计。选择器SL30(例如,多路分用器)经配置以根据模式选择信号S80的当前状态来在由第一噪声子带功率估计计算器NP100a及第二噪声子带功率估计计算器NP100b产生的多组噪声子带功率估计中选择一者且将所述选定组的噪声子带功率估计提供到增益因子计算器FC300。
第一噪声子带功率估计计算器NP100a可实施为子带功率估计计算器EC110的例子或实施为子带功率估计计算器EC120的例子。第二噪声子带功率估计计算器NP100b还可实施为子带功率估计计算器EC110的例子或实施为子带功率估计计算器EC120的例子。第二噪声子带功率估计计算器NP100b还可进一步经配置以识别未经分离的噪声参考S95的当前子带功率估计的最小值,且用此最小值来替换未经分离的噪声参考S95的其它当前子带功率估计。举例来说,第二噪声子带功率估计计算器NP100b可实施为如图51A所示的子带信号产生器EC210的例子。子带信号产生器EC210为如上文所述的子带信号产生器EC110的实施方案,其包括最小化器MZ10,最小化器MZ10经配置以根据例如下式的表达式来识别及应用最小子带功率估计:
E(i,k)←min1≤i≤qE(i,k)(21)
其中1≤i≤q。或者,第二噪声子带功率估计计算器NP100b可实施为如图51B所示的子带信号产生器EC220的例子。子带信号产生器EC220为如上文所描述的子带信号产生器EC120的实施方案,其包括最小化器MZ10的例子。
可能需要配置加强器EN320以在多通道模式下操作时计算子带增益因子值,子带增益因子值是基于来自未经分离的噪声参考S95的子带功率估计以及基于来自噪声参考S30的子带功率估计。图52展示加强器EN320的此实施方案EN330的框图。加强器EN330包括经配置以根据例如下式的表达式来计算一组子带功率估计的最大化器MAX10:
E(i,k)←max(Eb(i,k),Ec(i,k))(22)
1≤i≤q,其中Eb(i,k)表示子带i及帧k的由第一噪声子带功率估计计算器NP100a计算的子带功率估计,且Ec(i,k)表示子带i及帧k的由第二噪声子带功率估计计算器NP100b计算的子带功率估计。
可能需要设备A100的实施方案在组合来自单通道及多通道噪声参考的噪声子带功率信息的模式下操作。虽然多通道噪声参考可支持对非稳定噪声的动态响应,但所述设备的所得操作可对(例如)用户位置的改变反应过度。单通道噪声参考可提供更稳定但缺乏补偿非稳定噪声的能力的响应。图53展示加强器EN110的实施方案EN400的框图,实施方案EN400经配置以基于来自噪声参考S30的信息及基于来自未经分离的噪声参考S95的信息来加强语音信号S40的频谱对比。加强器EN400包括如上文所揭示般配置的最大化器MAX10的例子。
还可实施最大化器MAX10以允许对单通道及多通道噪声子带功率估计的增益的独立操纵。举例来说,可能需要实施最大化器MAX10以应用增益因子(或一组增益因子中的对应一者)来对由第一子带功率估计计算器NP100a及/或第二子带功率估计计算器NP100b产生的噪声子带功率估计中的一者或一者以上(可能所有)中的每一者进行缩放,使得所述缩放发生于最大化操作上游。
在包括设备A100的一实施方案的装置的操作期间的一些时间,可能需要所述设备根据来自不同于噪声参考S30的参考的信息来加强语音信号S40的频谱对比。对于所要声音分量(例如,用户的话音)及方向性噪声分量(例如,来自干扰扬声器、公共播音系统、电视或收音机)从相同方向到达麦克风阵列的情景,例如,方向性处理操作可能会提供对这些分量的不充分分离。在此情况下,所述方向性处理操作可能会将方向性噪声分量分离到源信号S20中,使得所得噪声参考S30可能不足以支持语音信号的所要加强。
可能需要实施设备A100以应用如本文所揭示的方向性处理操作及距离处理操作两者的结果。举例来说,对于近场所要声音分量(例如,用户的话音)及远场方向性噪声分量(例如,来自干扰扬声器、公共播音系统、电视或收音机)从相同方向到达麦克风阵列的情况,此实施方案可提供改善的频谱对比加强性能。
在一个实例中,设备A100的包括SSP滤波器SS110的例子的实施方案经配置以在距离指示信号DI10的当前状态指示远场信号时绕过加强器EN10(例如,如上文所描述)。此布置(例如)对于加强器EN10经配置以将源信号S20作为语音信号来接收的设备A110的实施方案来说可能合乎需要。
或者,可能需要实施设备A100以根据噪声子带功率估计来相对于语音信号S40的另一子带来提升语音信号S40的至少一个子带及/或使语音信号S40的至少一个子带衰减,所述噪声子带功率估计是基于来自噪声参考S30的信息及基于来自源信号S20的信息。图54展示加强器EN20的此实施方案EN450的框图,实施方案EN450经配置以将源信号S20作为额外噪声参考来处理。加强器EN450包括噪声子带信号产生器NG100的第三例子NG100c、子带功率估计计算器NP100的第三例子NP100c,及最大化器MAX10的例子MAX20。第三噪声子带功率估计计算器NP100c经布置以产生第三组噪声子带功率估计,其是基于由第三噪声子带信号产生器NG100c从源信号S20产生所述组子带信号,且最大化器MAX20经布置以从第一及第三噪声子带功率估计中选择最大值。在此实施方案中,选择器SL40经布置以接收由如本文所揭示的SSP滤波器SS110的实施方案产生的距离指示信号DI10。选择器SL30经布置以在距离指示信号DI10的当前状态指示远场信号时选择最大化器MAX20的输出,且否则选择第一噪声子带功率估计计算器NP100a的输出。
明确地揭示,还可实施设备A100以包括如本文所揭示的加强器EN200的实施方案的例子,其经配置以将源信号S20作为第二噪声参考而非未经分离的噪声参考S95来接收。还明确地提到,加强器EN200的将源信号S20作为噪声参考来接收的实施方案对于加强再生语音信号(例如,远端信号)比对于加强所感测语音信号(例如,近端信号)可能更有用。
图55展示设备A100的实施方案A250的框图,实施方案A250包括如本文所揭示的SSP滤波器SS110及加强器EN450。图56展示加强器EN450(及加强器EN400)的实施方案EN460的框图,实施方案EN460将对远场非稳定噪声的补偿的支持(例如,如本文中参考加强器EN450所揭示)与来自单通道及多通道噪声参考两者的噪声子带功率信息(例如,如本文中参考加强器EN400所揭示)组合。在此实例中,增益因子计算器FC300接收基于来自以下三个不同噪声估计的信息的噪声子带功率估计:未经分离的噪声参考S95(其可经重度平滑及/或长时间平滑,例如多于五个帧)、来自源信号S20的远场非稳定噪声的估计(其可未经平滑或仅最小限度地平滑),及可为基于方向的噪声参考S30。重申,加强器EN200的本文揭示为应用未经分离的噪声参考S95的任何实施方案(例如,如图56中所说明)还可经实施以改为应用来自源信号S20的经平滑的噪声估计(例如,经重度平滑的估计及/或在若干帧内平滑的长时间估计)。
可能需要配置加强器EN200(或加强器EN400或加强器EN450)以仅在未经分离的噪声参考S95(或对应未经分离的所感测音频信号)为不活动的时间间隔期间更新基于未经分离的噪声参考S95的噪声子带功率估计。设备A100的此实施方案可包括话音活动检测器(VAD),话音活动检测器经配置以基于一个或一个以上因子(例如,帧能量、信噪比、周期性、语音及/或残余(例如,线性预测编码残余)的自相关、过零率及/或第一反射系数来将未经分离的噪声参考S95的帧或未经分离的所感测音频信号的帧分类为活动(例如,语音)或不活动(例如,背景噪声或寂静)。此分类可包括将此因子的值或量值与阈值比较及/或将此因子的改变的量值与阈值比较。可能需要实施此VAD以基于多个准则(例如,能量、过零率等等)及/或近来VAD决策的记忆来执行话音活动检测。
图57展示设备A200的包括此话音活动检测器(或“VAD”)V20的此实施方案A230。话音活动检测器V20(其可实施为如上文所描述的VADV10的例子)经配置以产生状态指示在所感测音频通道S10-1上是否检测到语音活动的更新控制信号UC10。对于设备A230包括如图48所示的加强器EN200的实施方案EN300的情况来说,可应用更新控制信号UC10来防止噪声子带信号产生器NG100在在所感测音频通道S10-1上检测到语音且选择单通道模式的时间间隔(例如,帧)期间接受输入及/或更新其输出。对于设备A230包括如图48所示的加强器EN200的实施方案EN300或如图49所示的加强器EN200的实施方案EN310的情况来说,可应用更新控制信号UC10来防止噪声子带功率估计产生器NP100在在所感测音频通道S10-1上检测到语音且选择单通道模式的时间间隔(例如,帧)期间接受输入及/或更新其输出。
对于设备A230包括如图49所示的加强器EN200的实施方案EN310的情况来说,可应用更新控制信号UC10来防止第二噪声子带信号产生器NG100b在在所感测音频通道S10-1上检测到语音的时间间隔(例如,帧)期间接受输入及/或更新其输出。对于设备A230包括加强器EN200的实施方案EN320或加强器EN200的实施方案EN330的情况来说,或对于设备A100包括加强器EN200的实施方案EN400的情况来说,可应用更新控制信号UC10以在在所感测音频通道S10-1上检测到语音的时间间隔(例如,帧)期间防止第二噪声子带信号产生器NG100b接受输入及/或更新其输出及/或防止第二噪声子带功率估计产生器NP100b接受输入及/或更新其输出。
图58A展示加强器EN400的此实施方案EN55的框图。加强器EN55包括噪声子带功率估计计算器NP100b的实施方案NP105,实施方案NP105根据更新控制信号UC10的状态来产生一组第二噪声子带功率估计。举例来说,噪声子带功率估计计算器NP105可实施为图58B的框图中所示的功率估计计算器EC120的实施方案EC125的例子。功率估计计算器EC125包括平滑器EC20的实施方案EC25,实施方案EC25经配置以根据例如下式的线性平滑表达式来对由求和器EC10计算的q个总和中的每一者执行时间平滑操作(例如,两个或两个以上不活动帧上的平均值):
其中γ为平滑因子。在此实例中,平滑因子γ具有在零(不平滑)到一(最大平滑,不更新)的范围中的值(例如,0.3、0.5、0.7、0.9、0.99或0.999)。可能需要平滑器EC25针对所有所述q个子带使用平滑因子γ的相同值。或者,可能需要平滑器EC25针对所述q个子带中的两者或两者以上(可能所有)中的每一者使用平滑因子γ的不同值。平滑因子γ的值可为固定的或可随着时间而加以调适(例如,从一个帧到下一个帧)。类似地,可能需要使用噪声子带功率估计计算器NP105的例子来在加强器EN320(如图50所示)、EN330(如图52所示)、EN450(如图54所示)或EN460(如图56所示)中实施第二噪声子带功率估计计算器NP100b。
图59展示设备A100的替代实施方案A300的框图,实施方案A300经配置以根据模式选择信号的当前状态来在单通道模式或多通道模式下操作。类似于设备A200,设备A100的设备A300包括经配置以产生模式选择信号S80的分离评估器(例如,分离评估器EV10)。在此情况下,设备A300还包括经配置以对语音信号S40执行AGC或AVC操作的自动音量控制(AVC)模块VC10,且应用模式选择信号S80以控制选择器SL40(例如,多路复用器)及SL50(例如,多路分用器)来根据模式选择信号S80的对应状态针对每一帧在AVC模块VC10及加强器EN10中选择一者。图60展示设备A300的实施方案A310的框图,实施方案A310还包括如本文所描述的加强器EN150的实施方案EN500及AGC模块G10及VADV10的例子。在此实例中,加强器EN500还为如上文所描述的加强器EN160的实施方案,其包括经布置以限制均衡器的声输出电平的峰值限制器L10的例子。(所属领域的技术人员将理解,也可使用如本文所揭示的加强器EN10的替代实施方案(例如,加强器EN400或EN450)来实施设备A300的此配置及其它所揭示的配置。)
AGC或AVC操作基于稳定噪声估计来控制音频信号的电平,所述稳定噪声估计通常是从单一麦克风获得。可根据如本文所描述的未经分离的噪声参考S95的例子(或者,根据所感测音频信号S10)来计算此估计。举例来说,可能需要配置AVC模块VC10以根据一参数(例如,未经分离的噪声参考S95的功率估计)的值(例如,当前帧的能量或绝对值的总和)来控制语音信号S40的电平。如上文参考其它功率估计所描述的,可能需要配置AVC模块VC10以仅在未经分离的所感测音频信号当前不含有话音活动时对此参数值执行时间平滑操作及/或更新参数值。图61展示设备A310的实施方案A320的框图,其中AVC模块VC10的实施方案VC20经配置以根据来自所感测音频通道S10-1的信息(例如,信号S10-1的当前功率估计)来控制语音信号S40的音量。
图62展示设备A100的另一实施方案A400的框图。设备A400包括如本文所描述的加强器EN200的实施方案且类似于设备A200。然而,在此情况下,通过非相关噪声检测器UD10来产生模式选择信号S80。非相关噪声(其为影响阵列中的一个麦克风且不影响另一麦克风的噪声)可包括风噪声、呼吸声、劈拍噪声及其类似者。非相关噪声可在例如SSP滤波器SS10的多麦克风信号分离系统中造成不合意的结果,因为所述系统在准许时实际上可放大此噪声。用于检测非相关噪声的技术包括估计麦克风信号(或其部分,例如每一麦克风信号中从约200Hz到约800Hz或1000Hz的带)的交叉相关。此交叉相关估计可包括对次要麦克风信号的通带进行增益调整以均衡麦克风之间的远场响应、从主要麦克风信号的通带减去经增益调整的信号,及将差信号的能量与阈值(其可基于差信号及/或主要麦克风通带的能量随着时间而自适应)比较。可根据此技术及/或任何其它合适技术来实施非相关噪声检测器UD10。在多麦克风装置中对非相关噪声的检测还论述于2008年8月29日申请的题为“用于检测非相关分量的系统、方法及设备(SYSTEMS,METHODS,ANDAPPARATUSFORDETECTIONOFUNCORRELATEDCOMPONENT)”的第12/201,528号美国专利申请案中,所述文档以引用的方式并入本文中,目的限于揭示非相关噪声检测器UD10的设计及实施及此检测器到语音处理设备中的集成。明确地提到,设备A400可实施为设备A110的一实施方案(即,使得加强器EN200经布置以将源信号S20作为语音信号S40来接收)。
在另一实例中,设备A100的包括非相关噪声检测器UD10的例子的实施方案经配置以在模式选择信号S80具有第二状态时(即,在模式选择信号S80指示检测到非相关噪声时)绕过加强器EN10(例如,如上文所描述)。此布置(例如)对于加强器EN10经配置以将源信号S20作为语音信号来接收的设备A110的实施方案来说可能合乎需要。
如上文所提到,可能需要通过对两个或两个以上麦克风信号执行一个或一个以上预处理操作来获得所感测音频信号S10。图63展示设备A100的实施方案A500(可能设备A110及/或A120的实施方案)的框图,实施方案A500包括经配置以预处理M个模拟麦克风信号SM10-1到SM10-M以产生所感测音频信号S10的M个通道S10-1到S10-M的音频预处理器AP10。举例来说,音频预处理器AP10可经配置以使一对模拟麦克风信号SM10-1、SM10-2数字化以产生所感测音频信号S10的一对通道S10-1、S10-2。明确地提到,设备A500可实施为设备A110的一实施方案(即,使得加强器EN10经布置以将源信号S20作为语音信号S40来接收)。
音频预处理器AP10还可经配置以在模拟及/或数字域中对麦克风信号执行其它预处理操作,例如频谱整形及/或回音消除。举例来说,音频预处理器AP10可经配置以在模拟域及数字域中的任一者中将一个或一个以上增益因子应用于麦克风信号中的一者或一者以上中的每一者。可选择或以其它方式来计算这些增益因子的值,使得在频率响应及/或增益方面使麦克风彼此匹配。在下文更详细地描述可经执行以评估这些增益因子的校准程序。
图64A展示音频预处理器AP10的实施方案AP20的框图,实施方案AP20包括第一模-数转换器(ADC)C10a及第二模-数转换器(ADC)C10b。第一ADCC10a经配置以使来自麦克风MC10的信号SM10-1数字化以获得经数字化的麦克风信号DM10-1,且第二ADCC10b经配置以使来自麦克风MC20的信号SM10-2数字化以获得经数字化的麦克风信号DM10-2。可由ADCC10a及ADCC10b应用的典型取样速率包括8kHz、12kHz、16kHz及在约8kHz到约16kHz的范围中的其它频率,但也可使用高如约44kHz的取样速率。在此实例中,音频预处理器AP20还包括:一对模拟预处理器P10a及P10b,其经配置以在取样之前分别对麦克风信号SM10-1及SM10-2执行一个或一个以上模拟预处理操作;及一对数字预处理器P20a及P20b,其经配置以在取样之后分别对麦克风信号DM10-1及DM10-2执行一个或一个以上数字预处理操作(例如,回音消除、噪声减少及/或频谱整形)。
图65展示设备A310的实施方案A330的框图,实施方案A330包括音频预处理器AP20的例子。设备A330还包括AVC模块VC10的实施方案VC30,实施方案VC30经配置以根据来自麦克风信号SM10-1的信息(例如,信号SM10-1的当前功率估计)来控制语音信号S40的音量。
图64B展示音频预处理器AP20的实施方案AP30的框图。在此实例中,模拟预处理器P10a及P10b中的每一者实施为高通滤波器F10a及F10b中的相应一者,高通滤波器F10a及F10b经配置以在取样之前分别对麦克风信号SM10-1及SM10-2执行模拟频谱整形操作。每一滤波器F10a及F10b可经配置以在(例如)50Hz、100Hz或200Hz的截止频率下执行高通滤波操作。
对于语音信号S40为再生语音信号(例如,远端信号)的情况来说,可使用对应经处理语音信号S50来训练经配置以从所感测音频信号S10消除回音(即,从麦克风信号移除回音)的回音消除器。在音频预处理器AP30的实例中,数字预处理器P20a及P20b实施为经配置以基于来自经处理语音信号S50的信息来从所感测音频信号S10消除回音的回音消除器EC10。回音消除器EC10可经布置以从时域缓冲器接收经处理语音信号S50。在一个此实例中,时域缓冲器具有十毫秒的长度(例如,在八kHz的取样速率下的八十个样本或在十六kHz的取样速率下的160个样本)。在包括设备A110的通信装置的某些操作模式(例如,扬声器电话模式及/或即按即说(PTT)模式)期间,可能需要延缓回音消除操作(例如,配置回音消除器EC10以使麦克风信号未改变地通过)。
使用经处理语音信号S50来训练回音消除器有可能可引起反馈问题(例如,归因于在回音消除器与加强控制元件的输出之间发生的处理的程度)。在此情况下,可能需要根据加强器EN10的当前活动来控制回音消除器的训练速率。举例来说,可能需要与增益因子的当前值的测度(例如,平均值)成反比地控制回音消除器的训练速率及/或与增益因子的连续值之间的差异的测度(例如,平均值)成反比地控制回音消除器的训练速率。
图66A展示回音消除器EC10的实施方案EC12的框图,实施方案EC12包括单通道回音消除器的两个例子EC20a及EC20b。在此实例中,单通道回音消除器的每一例子经配置以处理麦克风信号DM10-1、DM10-2中的对应一者以产生所感测音频信号S10的对应通道S10-1、S10-2。可各自根据当前已知或仍待开发的任何回音消除技术(例如,最小均方技术及/或自适应相关技术)来配置单通道回音消除器的各种例子。举例来说,回音消除论述于上文引用的第12/197,924号美国专利申请案的段落[00139]-[00141]处(开始于“设备(Anapparatus)”且结束于“B500”),所述段落以引用的方式并入本文中,目的限于揭示回音消除问题,包括(但不限于)回音消除器的设计及/或实施及/或回音消除器与语音处理设备的其它元件的集成。
图66B展示回音消除器EC20a的实施方案EC22a的框图,实施方案EC22a包括经布置以对经处理语音信号S50进行滤波的滤波器CE10及经布置以将经滤波信号与正处理的麦克风信号组合的加法器CE20。滤波器CE10的滤波器系数值可为固定的。或者,在设备A110的操作期间可调适滤波器CE10的滤波器系数值中的至少一者(及可能所有)(例如,基于经处理语音信号S50)。如下文更详细地描述,可能需要使用一组多通道信号将滤波器CE10的参考例子训练为初始状态及将所述初始状态复制到滤波器CE10的产生例子中,所述组多通道信号是由通信装置的参考例子在再生音频信号时记录的。
回音消除器EC20b可实施为回音消除器EC22a的另一例子,其经配置以处理麦克风信号DM10-2以产生所感测音频通道S40-2。或者,回音消除器EC20a及EC20b可实施为单通道回音消除器的相同例子(例如,回音消除器EC22a),其经配置以在不同时间时处理相应麦克风信号中的每一者。
设备A110的包括回音消除器EC10的例子的实施方案还可经配置以包括VADV10的例子,所述例子经布置以对经处理语音信号S50执行话音活动检测操作。在此情况下,设备A110可经配置以基于话音活动操作的结果来控制回音消除器EC10的操作。举例来说,可能需要配置设备A110以在此话音活动检测操作的结果指示当前帧活动时启动对回音消除器EC10的训练(例如,调适)、增加回音消除器EC10的训练速率,及/或增加回音消除器EC10中的一个或一个以上滤波器(例如,滤波器CE10)的深度。
图66C展示设备A110的实施方案A600的框图。设备A600包括均衡器EQ10,均衡器EQ10经布置以处理音频输入信号S100(例如,远端信号)以产生经均衡的音频信号ES10。均衡器EQ10可经配置以基于来自噪声参考S30的信息动态地更改音频输入信号S100的频谱特性以产生经均衡的音频信号ES10。举例来说,均衡器EQ10可经配置以使用来自噪声参考S30的信息相对于音频输入信号S100的至少一个频率子带来提升音频输入信号S100的至少一个其它频率子带以产生经均衡的音频信号ES10。均衡器EQ10的实例及相关均衡方法揭示于(例如)上文所引用的第12/277,283号美国专利申请案中。可实施如本文所揭示的通信装置D100以包括设备A600而非设备A550的例子。
可经构造以包括设备A100的实施方案(例如,设备A110的实施方案)的音频感测装置的一些实例说明于图67A到图72C中。图67A展示第一操作配置中的双麦克风手持机H100的沿着中心轴的横截面图。手持机H100包括具有主要麦克风MC10及次要麦克风MC20的阵列。在此实例中,手持机H100还包括主要扬声器SP10及次要扬声器SP20。在手持机H100处于第一操作配置中时,主要扬声器SP10为活动的且次要扬声器SP20可停用或以其它方式静音。可能需要主要麦克风MC10及次要麦克风MC20在此配置下均保持活动以支持用于语音加强及/或噪声减少的空间选择性处理技术。
手持机H100可经配置以经由一个或一个以上编解码器用无线方式来发射及接收话音通信数据。可与或经调适以与如本文所描述的通信装置的发射器及/或接收器一起使用的编解码器的实例包括:加强型可变速率编解码器(EVRC),如描述于2007年2月的题为“宽带扩频数字系统的加强可变速率编解码器,语音服务选项3、68及70(EnhancedVariableRateCodec,SpeechServiceOptions3,68,and70forWidebandSpreadSpectrumDigitalSystems)”的第三代合作伙伴计划2(3GPP2)文档C.S0014-C,v1.0中(在www-dot-3gpp-dot-org处在线可获得);可选择模式声码器语音编解码器,如描述于2004年1月的题为“宽带扩频通信系统的可选择模式声码器(SMV)服务选项(SelectableModeVocoder(SMV)ServiceOptionforWidebandSpreadSpectrumCommunicationSystems)”的3GPP2文档C.S0030-0,v3.0中(在www-dot-3gpp-dot-org处在线可获得);自适应多速率(AMR)语音编解码器,如描述于文档ETSITS126092V6.0.0(欧洲电信标准协会(ETSI),索菲亚-安提波利斯高等商学院,法国,2004年12月)中;及AMR宽带语音编解码器,如描述于文档ETSITS126192V6.0.0(ETSI,2004年12月)中。
图67B展示手持机H100的第二操作配置。在此配置中,主要麦克风MC10为关闭的,次要扬声器SP20为活动的,且主要扬声器SP10可停用或以其它方式静音。同样,可能需要主要麦克风MC10及次要麦克风MC20两者在此配置下保持活动(例如,以支持空间选择性处理技术)。手持机H100可包括一个或一个以上开关或类似致动器,其状态指示装置的当前操作配置。
设备A100可经配置以接收所感测音频信号S10的具有两个以上通道的例子。举例来说,图68A展示手持机H100的实施方案H110的横截面图,其中阵列包括第三麦克风MC30。图68B展示手持机H110的两个其它视图,其展示各种转换器沿着所述装置的轴的放置。图67A到图68B展示翻盖型(clamshell-type)蜂窝式电话手持机的实例。具有设备A100的实施方案的蜂窝式电话手持机的其它配置包括直板型及滑盖型电话手持机,以及转换器中的一者或一者以上设置成远离所述轴的手持机。
具有M个麦克风的耳机或其它头戴式耳机为可包括设备A100的实施方案的另一类便携型通信装置。此头戴式耳机可为有线或无线的。图69A到图69D展示此无线头戴式耳机D300的一个实例的各种视图,头戴式耳机D300包括载有双麦克风阵列的外壳Z10及从所述外壳延伸的用于再生远端信号的听筒Z20(例如,扬声器)。此装置可经配置以经由与例如蜂窝式电话手持机的电话装置的通信(例如,使用由蓝牙技术联盟(BluetoothSpecialInterestGroup)公司,华盛顿州贝尔维尤市)发布的BluetoothTM协议的版本)来支持半双工或全双工电话。大体上,如图69A、图69B及图69D所示,头戴式耳机的外壳可为矩形或以其它方式为狭长的(例如,形如酷行通耳机(miniboom))或可为更圆的或甚至圆形。所述外壳可封围电池及处理器及/或经配置以执行设备A100的实施方案的其它处理电路(例如,印刷电路板及其上安装的组件)。所述外壳还可包括电端口(例如,迷你通用串行总线(USB)或用于电池充电的其它端口)及例如一个或一个以上按钮开关及/或LED的用户接口特征。通常,所述外壳的沿着其主轴的长度是在一英寸到三英寸的范围中。
通常,所述阵列中的每一麦克风安装于所述装置内所述外壳中的充当声端口的一个或一个以上小孔后面。图69B到69D展示所述阵列的主要麦克风的声端口Z40及所述阵列的次要麦克风的声端口Z50的位置。头戴式耳机还可包括紧固装置(例如,耳钩Z30),其通常可从所述头戴式耳机拆卸。举例来说,外部耳钩可为可颠倒的以允许用户配置所述头戴式耳机以在任一耳朵上使用。或者,头戴式耳机的听筒可设计成内部紧固装置(例如,耳塞),其可包括可移除耳机以允许不同用户使用不同大小(例如,直径)的耳机以更好地适合于特定用户的耳道的外部。
图70A展示如经安装以用在用户的耳朵65上的头戴式耳机D300的实施方案D310的不同操作配置的范围66的图。头戴式耳机D310包括布置成端射式配置的主要麦克风及次要麦克风的阵列67,其在使用期间可相对于用户的嘴巴64不同地定向。在另一实例中,包括设备A100的实施方案的手持机经配置以从具有M个麦克风的头戴式耳机接收所感测音频信号S10,及经由有线及/或无线通信链路(例如,使用BluetoothTM协议的版本)来将远端经处理语音信号S50输出到头戴式耳机。
图71A到图71D展示为无线头戴式耳机的另一实例的多麦克风便携型音频感测装置D350的各种视图。头戴式耳机D350包括圆化的椭圆外壳Z12及可配置为耳塞的听筒Z22。图71A到图71D还展示装置D350的阵列的主要麦克风的声端口Z42及次要麦克风的声端口Z52的位置。次要麦克风端口Z52有可能可为至少部分关闭(例如,通过用户接口按钮)。
具有M个麦克风的免持车载设备为可包括设备A100的实施方案的另一类移动通信装置。此装置的声环境可包括风噪声、滚动噪声及/或引擎噪声。此装置可经配置以安装于交通工具的仪表板中或可移除式地固定到挡风玻璃、遮阳板或另一内表面。图70B展示包括扬声器85及M麦克风阵列84的此车载设备83的一实例的图。在此特定实例中,M等于四,且M个麦克风布置成线性阵列。此装置可经配置以经由一个或一个以上编解码器(例如,上文所列出的实例)用无线方式来发射及接收话音通信数据。替代地或另外,此装置可经配置以经由与例如蜂窝式电话手持机的电话装置的通信(例如,使用如上文所描述的BluetoothTM协议的版本)来支持半双工或全双工电话。
可包括设备A100的实施方案的通信装置的其它实例包括用于音频或视听会议的通信装置。此会议装置的典型使用可涉及多个所要语音源(例如,各个参与者的嘴巴)。在此情况下,可能需要麦克风阵列包括两个以上麦克风。
具有M个麦克风的媒体播放装置为可包括设备A100的实施方案的一类音频或视听播放装置。图72A展示此装置D400的图,所述装置可经配置以用于播放(及可能用于记录)压缩音频或视听信息,例如根据标准编解码器(例如,移动图片专家组(MPEG)-1音频层3(MP3)、MPEG-4部分14(MP4)、视窗媒体音频/视频(WMA/WMV)的版本(微软公司,华盛顿州雷蒙德市)、高级音频编码(AAC)、国际电信联盟(ITU)-TH.264,或其类似者)编码的文件或流。装置D400包括设置在装置的正面处的显示屏幕DSC10及扬声器SP10,且麦克风阵列的麦克风MC10及MC20设置于装置的相同面处(例如,如在此实例中设置于顶面的相对侧上,或设置于正面的相对侧上)。图72B展示装置D400的另一实施方案D410,其中麦克风MC10及MC20设置于装置的相对面处,且图72C展示装置D400的另一实施方案D420,其中麦克风MC10及MC20设置于装置的相邻面处。图72A到图72C中所示的媒体播放装置还可经设计,使得较长的轴在期望使用期间为水平的。
设备A100的实施方案可包括于收发器(例如,如上文所描述的蜂窝式电话或无线头戴式耳机)内。图73A展示此通信装置D100的框图,通信装置D100包括设备A500及设备A120的实施方案A550。装置D100包括耦合到设备A550的接收器R10,接收器R10经配置以接收射频(RF)通信信号且解码及再生在RF信号内编码的音频信号作为远端音频输入信号S100,信号S100在此实例中由设备A550作为语音信号S40来接收。装置D100还包括耦合到设备A550的发射器X10,发射器X10经配置以对近端经处理语音信号S50b进行编码且发射描述经编码音频信号的RF通信信号。设备A550的近端路径(即,从信号SM10-1及SM10-2到经处理语音信号S50b)可被称作装置D100的“音频前端”。装置D100还包括音频输出级O10,音频输出级O10经配置以处理远端经处理语音信号S50a(例如,将经处理语音信号S50a转换成模拟信号)且将经处理音频信号输出到扬声器SP10。在此实例中,音频输出级O10经配置以根据音量控制信号VS10的电平来控制经处理音频信号的音量,此电平可在用户控制下改变。
可能需要设备A100的实施方案(例如,A110或A120)驻留于通信装置内,使得所述装置的其它元件(例如,移动台调制解调器(MSM)芯片或芯片组的基带部分)经布置以对所感测音频信号S10执行其它音频处理操作。在设计将包括于设备A110的实施方案中的回音消除器(例如,回音消除器EC10)的过程中,可能需要考虑此回音消除器与通信装置的任何其它回音消除器(例如,MSM芯片或芯片组的回音消除模块)之间的可能协同效应。
图73B展示通信装置D100的实施方案D200的框图。装置D200包括一包括经配置以执行设备A550的例子的一个或一个以上处理器的芯片或芯片组CS10(例如,MSM芯片组)。芯片或芯片组CS10还包括接收器R10及发射器X10的元件,且CS10的所述一个或一个以上处理器可经配置以执行所述元件中的一者或一者以上(例如,经配置以对用无线方式接收到的经编码信号进行解码以产生音频输入信号S100且对经处理语音信号S50b进行编码的声码器VC10)。装置D200经配置以经由天线C30来接收及发射RF通信信号。装置D200在到天线C30的路径中还可包括一双工器及一个或一个以上功率放大器。芯片/芯片组CS10还经配置以经由小键盘C10来接收用户输入且经由显示器C20来显示信息。在此实例中,装置D200还包括一个或一个以上天线C40以支持全球定位系统(GPS)位置服务及/或与例如无线(例如,BluetoothTM)头戴式耳机的外部装置的短程通信。在另一实例中,此通信装置本身为蓝牙头戴式耳机且缺少小键盘C10、显示器C20及天线C30。
图74A展示声码器VC10的框图。声码器VC10包括编码器ENC100,编码器ENC100经配置以对经处理语音信号S50进行编码(例如,根据一个或一个以上编解码器,例如本文所识别的编解码器)以产生对应近端经编码语音信号E10。声码器VC10还包括解码器DEC100,解码器DEC100经配置以对远端经编码语音信号E20进行解码(例如,根据一个或一个以上编解码器,例如本文所识别的编解码器)以产生音频输入信号S100。声码器VC10还可包括经配置以将信号E10的经编码帧组合成传出包的包化器(未图示)及经配置以从传入包提取信号E20的经编码帧的解包化器(未图示)。
编解码器可使用不同编码方案来对不同类型的帧进行编码。图74B展示编码器ENC100的实施方案ENC110的框图,实施方案ENC110包括活动帧编码器ENC10及不活动帧编码器ENC20。活动帧编码器ENC10可经配置以根据有声帧的编码方案(例如,代码激励线性预测(CELP)、原型波形内插(PWI)或原型音高周期(PPP)编码方案)来对帧进行编码。不活动帧编码器ENC20可经配置以根据无声帧的编码方案(例如,噪声激励线性预测(NELP)编码方案)或非有声帧的编码方案(例如,修改型离散余弦变换(MDCT)编码方案)来对帧进行编码。帧编码器ENC10及ENC20可共享共同结构,例如LPC系数值的计算器(可能经配置以产生对于不同编码方案具有不同阶的结果,例如语音及非语音帧的阶比不活动帧的阶高)及/或LPC残余产生器。编码器ENC110接收编码方案选择信号CS10,编码方案选择信号CS10针对每一帧选择帧编码器中的适当一者(例如,经由选择器SEL1及SEL2)。解码器DEC100可经类似地配置以根据如由经编码语音信号E20内的信息及/或对应传入RF信号内的其它信息指示的所述编码方案中的两者或两者以上中的一者来对经编码帧进行解码。
可能需要编码方案选择信号CS10基于话音活动检测操作的结果,例如本文所描述的(例如,设备A160的)VADV10或(例如,设备A165的)V15的输出。还请注意,编码器ENC110的软件或固件实施方案可使用编码方案选择信号CS10来将执行流引导到帧编码器中的一者或另一者,且此实施方案可不包括选择器SEL1及/或选择器SEL2的类似者。
或者,可能需要实施声码器VC10以包括加强器EN10的经配置以在线性预测域中操作的例子。举例来说,加强器EN10的此实施方案可包括加强向量产生器VG100的实施方案,其经配置以基于如上文所描述的语音信号S40的线性预测分析的结果来产生加强向量EV10,其中所述分析是由声码器的另一元件(例如,LPC系数值的计算器)执行。在此情况下,如本文所描述的设备A100的实施方案的其它元件(例如,从音频预处理器AP10到噪声减少级NR10)可位于声码器上游。
图75A展示可用以获得系数值的设计方法M10的流程图,所述系数值表征SSP滤波器SS10的一个或一个以上方向性处理级。方法M10包括记录一组多通道训练信号的任务T10、训练SSP滤波器SS10的结构以收敛的任务T20,及评估经训练的滤波器的分离性能的任务T30。通常使用个人计算机或工作站来在音频感测装置外部执行任务T20及T30。方法M10的任务中的一者或一者以上可反复,直到在任务T30中获得可接受的结果。在下文中更详细地论述方法M10的各种任务,且对这些任务的额外描述见于2008年8月25日申请的题为“用于信号分离的系统、方法及设备(SYSTEMS,METHODS,ANDAPPARATUSFORSIGNALSEPARATION)”的第12/197,924号美国专利申请案中,所述文档以引用的方式并入本文中,目的限于设计、实施、训练及/或评估SSP滤波器SS10的一个或一个以上方向性处理级。
任务T10使用至少M个麦克风的阵列以记录一组M通道训练信号,使得所述M个通道中的每一者基于所述M个麦克风中的对应一者的输出。训练信号中的每一者是基于由此阵列响应于至少一个信息源及至少一个干扰源而产生的信号,使得每一训练信号包括语音分量及噪声分量两者。举例来说,可能需要训练信号中的每一者为有噪声环境中语音的记录。麦克风信号通常经取样、可经预处理(例如,为回音消除、噪声减少、频谱整形等等而进行滤波)且可甚至经预分离(例如,通过如本文所描述的另一空间分离滤波器或自适应滤波器)。对于例如语音的声应用来说,典型取样速率的范围为8kHz到16kHz。
在P个场景中的一者下记录所述组M通道训练信号中的每一者,其中P可等于二,但通常为大于一的任何整数。P个场景中的每一者可包含不同空间特征(例如,不同手持机或头戴式耳机定向)及/或不同频谱特征(例如,对可具有不同性质的声音源的捕获)。所述组训练信号包括各自是在所述P个场景中的不同一者下记录的至少P个训练信号,但此组将通常包括每一场景的多个训练信号。
可使用含有如本文所描述的设备A100的其它元件的相同音频感测装置来执行任务T10。然而,更通常,将使用音频感测装置的参考例子(例如,手持机或头戴式耳机)来执行任务T10。接着在产生期间将由方法M10产生的一组所得收敛滤波器解复制到相同或类似音频感测装置的其它例子中(例如,加载到每一此产生例子的快闪存储器中)。
可使用消声腔室来记录所述组M通道训练信号。图75B展示经配置以用于记录训练数据的消声腔室的实例。在此实例中,头部及躯干仿真器(HATS,如由Bruel&Kjaer(丹麦奈如姆)制造)定位于干扰源(即,四个扬声器)的向内聚集阵列内。HATS头部在声学上类似于代表性的人类头部且在嘴巴中包括扬声器以用于再生语音信号。所述干扰源阵列可受驱动以产生如所示般封围HATS的漫射噪声场。在一个此实例中,扬声器的阵列经配置以在75到78dB的声压电平下在HATS耳朵参考点或嘴巴参考点处播放噪声信号。在其它情况下,一个或一个以上所述干扰源可受驱动以产生具有不同空间分布的噪声场(例如,方向性噪声场)。
可使用的噪声信号的类型包括白噪声、粉红噪声、灰噪声及豪瑟噪声(Hothnoise)(例如,如描述于由电气与电子工程师学会(IEEE)(新泽西州皮斯卡塔韦市)发布的题为“用于测量模拟及数字电话机、手持机及头戴式耳机的发射性能的初步标准方法(DraftStandardMethodsforMeasuringTransmissionPerformanceofAnalogandDigitalTelephoneSets,HandsetsandHeadsets)”的IEEE标准269-2001中)。可使用的其它类型的噪声信号包括褐噪声、蓝噪声及紫噪声。
在阵列中的麦克风的制造期间可能会出现变化,使得甚至在一批大量产生及表面上相同的麦克风中,灵敏度在麦克风之间也可能会显著地变化。可在(例如)正或负三分贝的灵敏度容差下制造用于便携型大量市场装置中的麦克风,使得阵列中两个所述麦克风的灵敏度可相差多达六分贝。
此外,一旦麦克风已安装到装置中或装置上,在所述麦克风的有效响应特性中便可发生改变。麦克风通常安装于装置外壳内声端口后面且可通过压力及/或通过摩擦或粘附来固定于适当位置中。许多因素可影响以此方式安装的麦克风的有效响应特性,例如安装有麦克风的腔的共振及/或其它声特性、麦克风与安装垫圈之间的压力的量及/或均一性、声端口的大小及形状,等等。
由方法M10产生的收敛滤波器解的空间分离特性(例如,对应波束图的形状及定向)很可能对在任务T10中用以获取训练信号的麦克风的相对特性敏感。可能需要在使用参考装置来记录所述组训练信号之前相对于彼此来至少校准所述装置的M个麦克风的增益。此校准可包括计算或选择将应用于所述麦克风中的一者或一者以上的输出的加权因子,使得所述麦克风的增益的所得比率在所要范围内。
任务T20使用所述组训练信号来根据源分离算法训练SSP滤波器SS10的结构(即,计算对应收敛滤波器解)。可使用个人计算机或工作站来在参考装置内执行任务T20,但通常是在音频感测装置外部执行。可能需要任务T20产生收敛滤波器结构,其经配置以对具有方向性分量的多通道输入信号(例如,所感测音频信号S10)进行滤波,使得在所得输出信号中,所述方向性分量的能量集中到输出通道中的一者(例如,源信号S20)中。此输出通道可具有与所述多通道输入信号的任一通道相比增加的信噪比(SNR)。
术语“源分离算法”包括盲源分离(BSS)算法,其为仅基于源信号的混合来分离个别源信号(其可包括来自一个或一个以上信息源及一个或一个以上干扰源的信号)的方法。盲源分离算法可用以分离来自多个独立源的混合信号。因为这些技术不需要关于每一信号的源的信息,所以其被称为“盲源分离”方法。术语“盲”指代参考信号或所关注的信号不可获得的事实,且所述方法通常包括关于信息及/或干扰信号中的一者或一者以上的统计数据的假定。举例来说,在语音应用中,通常假定所关注的语音信号具有超高斯分布(例如,高峰态)。BSS算法的类别还包括多变量盲解卷积算法。
BSS方法可包括独立分量分析的实施方案。独立分量分析(ICA)为用于分离可能彼此独立的混合源信号(分量)的技术。简化形式的独立分量分析将权重的“未混合”矩阵应用于混合信号(例如,通过将所述矩阵与所述混合信号相乘)以产生经分离的信号。可为所述权重指派初始值,所述初始值接着经调整以使所述信号的联合熵(jointentropy)最大化以便使信息冗余最小化。重复此权重调整及熵增加过程,直到将信号的信息冗余减少到最小值。例如ICA的方法提供用于将语音信号与噪声源分离的相对准确及灵活的手段。独立向量分析(“IVA”)为源信号为向量源信号而非单一可变源信号的相关BSS技术。
源分离算法的类别还包括BSS算法的变型,例如受约束ICA及受约束IVA,其是根据其它先验信息(例如,声源中的一者或一者以上中的每一者相对于(例如)麦克风阵列的轴的已知方向)而受约束。可仅基于方向性信息且不基于所观测到的信号来区别所述算法与应用固定、非自适应解的波束成形器。
如上文参看图8A所论述,SSP滤波器SS10可包括一个或一个以上级(例如,固定滤波器级FF10、自适应滤波器级AF10)。这些级中的每一者可基于对应自适应滤波器结构,其系数值是由任务T20使用从源分离算法导出的学习规则来计算的。所述滤波器结构可包括前馈及/或反馈系数且可为有限脉冲响应(FIR)或无限脉冲响应(IIR)设计。所述滤波器结构的实例描述于如上文并入的第12/197,924号美国专利申请案中。
图76A展示自适应滤波器结构FS10的双通道实例的框图,滤波器结构FS10包括两个反馈滤波器C110及C120,且图76B展示滤波器结构FS10的实施方案FS20的框图,实施方案FS20还包括两个直接型滤波器D110及D120。可实施空间选择性处理滤波器SS10以包括此结构,使得(例如)输入通道I1、I2分别对应于所感测音频通道S10-1、S10-2,且输出通道O1、O2分别对应于源信号S20及噪声参考S30。由任务T20用以训练此结构的学习规则可经设计以使滤波器的输出通道之间的信息最大化(例如,使由滤波器的输出通道中的至少一者含有的信息的量最大化)。此标准还可重新陈述为使输出通道的统计独立性最大化,或使输出通道间的相互信息最小化,或使输出处的熵最大化。可使用的不同学习规则的特定实例包括最大信息(也被称作infomax)、最大可能性,及最大非高斯性(例如,最大峰态)。
所述自适应结构及基于ICA或IVA自适应反馈及前馈方案的学习规则的其它实例描述于以下各者中:于2006年3月9日公开的题为“用于在稳定性约束下使用独立分量分析来进行语音处理的系统及方法(SystemandMethodforSpeechProcessingusingIndependentComponentAnalysisunderStabilityConstraints)”的第2006/0053002A1号美国公开专利申请案;于2006年3月1日申请的题为“用于使用盲信号源处理实现改善的信号分离的系统及方法(SystemandMethodforImprovedSignalSeparationusingaBlindSignalSourceProcess)”的第60/777,920号美国临时申请案;于2006年3月1日申请的题为“用于产生分离信号的系统及方法(SystemandMethodforGeneratingaSeparatedSignal”)的第60/777,900号美国临时申请案;及题为“用于盲源信号分离的系统及方法(SystemsandMethodsforBlindSourceSignalSeparation)”的国际专利公开案WO2007/100330A1(金(Kim)等人)。对自适应滤波器结构及可在任务T20中用以训练所述滤波器结构的学习规则的额外描述可见于如在上文以引用的方式并入的第12/197,924号美国专利申请案中。举例来说,可使用两个前馈滤波器代替两个反馈滤波器来实施滤波器结构FS10及FS20中的每一者。
可在任务T20中用以训练如图76A所示的反馈结构FS10的学习规则的一个实例可表达如下:
△h12k=-f(y1(t))×y2(t-k)(C)
△h21k=-f(y2(t))×y1(t-k)(D)
其中t表示时间样本索引,h12(t)表示滤波器C110在时间t时的系数值,h21(t)表示滤波器C120在时间t时的系数值,符号表示时域卷积运算,△h12k表示在输出值y1(t)及y2(t)的计算后滤波器C110的第k个系数值的改变,且△h21k表示在输出值y1(t)及y2(t)的计算后滤波器C120的第k个系数值的改变。可能需要将启动函数f实施为近似所要信号的累积密度函数的非线性有界函数。可用于语音应用的启动信号f的非线性有界函数的实例包括双曲线切线函数、S形函数及符号函数。
可用于对从线性麦克风阵列接收到的信号进行方向性处理的另一类技术通常被称作“波束成形”。波束成形技术使用由麦克风的空间分集产生的通道之间的时间差来加强从特定方向到达的信号的分量。更确切地说,很可能麦克风中的一者将更直接定向于所要源(例如,用户的嘴巴)处,而其它麦克风可产生来自此源的相对衰减的信号。这些波束成形技术为操纵波束朝向声音源从而将空值置于其它方向的用于空间滤波的方法。波束成形技术不对声音源做假定,但为实现对信号去回响或定位声音源的目的,假定源与传感器之间的几何形态或声音信号本身为已知的。可根据数据相关或数据独立波束成形器设计(例如,超方向性波束成形器、最小平方波束成形器或统计上最佳的波束成形器设计)来计算SSP滤波器SS10的结构的滤波器系数值。在数据独立波束成形器设计的情况下,可能需要对波束图进行整形以覆盖所要空间区域(例如,通过调谐噪声相关矩阵)。
任务T30通过评估在任务T20中产生的经训练滤波器的分离性能来评估所述滤波器。举例来说,任务T30可经配置以评估所述经训练滤波器对一组评估信号的响应。此组评估信号可与任务T20中所用的训练组相同。或者,所述组评估信号可为不同于(但类似于)所述训练组的信号(例如,使用相同麦克风阵列的至少一部分及相同P个场景中的至少一些来记录)的一组M通道信号。此评估可自动地执行及/或通过人工监督来执行。通常使用个人计算机或工作站来在音频感测装置外部执行任务T30。
任务T30可经配置以根据一个或一个以上度量的值来评估滤波器响应。举例来说,任务T30可经配置以计算一个或一个以上度量中的每一者的值且将所计算出的值与相应阈值比较。可用以评估滤波器响应的度量的一个实例为(A)评估信号的原始信息分量(例如,在评估信号的记录期间从HATS的嘴巴扬声器再生的语音信号)与(B)滤波器对所述评估信号的响应的至少一个通道之间的相关性。此度量可指示收敛滤波器结构如何良好地将信息与干扰分离。在此情况下,在信息分量与滤波器响应的M个通道中的一者大体上相关且与其它通道具有很少相关性时,指示分离。
可用以评估滤波器响应(例如,指示滤波器如何良好地将信息与干扰分离)的度量的其它实例包括例如方差、高斯性的统计性质及/或例如峰态的较高阶统计矩。可用于语音信号的度量的额外实例包括过零率及时间突发(也被称作时间稀疏(timesparsity))。大体上,语音信号展现比噪声信号低的过零率及低的时间稀疏。可用以评估滤波器响应的度量的另一实例为如由滤波器对评估信号的响应所指示的在所述评估信号的记录期间信息或干扰源相对于麦克风阵列的实际位置与波束图(或空值波束图)一致的程度。可能需要任务T30中所用的度量包括或将限于用于设备A200的对应实施方案中的分离测度(例如,如上文参考例如分离评估器EV10的分离评估器所论述)。
一旦已在任务T30中获得SSP滤波器SS10的固定滤波器级(例如,固定滤波器级FF10)的所要评估结果,便可将对应滤波器状态加载到产生装置中作为SSP滤波器SS10的固定状态(即,一组固定滤波器系数值)。如下文所描述,还可能需要执行用以校准每一产生装置中的麦克风的增益及/或频率响应的程序,例如实验室、工厂或自动(例如,自动增益匹配)校准程序。
在方法M10的一个例子中产生的经训练固定滤波器可用于方法M10的另一例子中以对也使用参考装置记录的另一组训练信号进行滤波,以便计算自适应滤波器级(例如,SSP滤波器SS10的自适应滤波器级AF10)的初始条件。自适应滤波器的初始条件的此计算的实例描述于2008年8月25日申请的题为“用于信号分离的系统、方法及设备(SYSTEMS,METHODS,ANDAPPARATUSFORSIGNALSEPARATION)”的第12/197,924号美国专利申请案中的(例如)段落[00129]到[00135]处(开始于“可能需要(Itmaybedesirable)”且结束于“并列消除(cancellationinparallel)”),所述段落以引用的方式并入本文中,目的限于描述自适应滤波器级的设计、训练及/或实施。所述初始条件还可在产生期间加载到相同或类似装置的其它例子中(例如,关于经训练固定滤波器级)。
替代地或另外,可执行方法M10的例子以获得用于如上文所描述的回音消除器EC10的一个或一个以上收敛滤波器组。可接着使用回音消除器的经训练滤波器来在SSP滤波器SS10的训练信号的记录期间对麦克风信号执行回音消除。
在产生装置中,对由麦克风阵列产生的多通道信号的操作(例如,如上文参考SSP滤波器SS10论述的空间选择性处理操作)的性能可取决于阵列通道的响应特性如何良好地彼此匹配。归因于可包括相应麦克风的响应特性上的差异、相应预处理级的增益电平上的差异及/或电路噪声电平上的差异的因素,通道的电平有可能不同。在此情况下,所得多通道信号可能不提供对声环境的准确表现,除非可补偿麦克风响应特性之间的差异。在无此补偿的情况下,基于此信号的空间处理操作可能会提供错误结果。举例来说,在低频率下(即,约100Hz到1kHz)通道之间小如一或二分贝的振幅响应偏差可显著降低低频率方向性。麦克风阵列的通道间不平衡的效应对于处理来自具有两个以上麦克风的阵列的多通道信号的应用来说可尤其有害。
因此,可能需要在产生期间及/或之后相对于彼此来至少校准每一产生装置的麦克风的增益。举例来说,可能需要对组合多麦克风音频感测装置执行交付前校准操作(也就是说,在交付给用户之前),以便量化所述阵列的通道的有效响应特性之间的差异(例如,所述阵列的通道的有效增益特性之间的差异)。
虽然也可对产生装置执行如上文所论述的实验室程序,但对每一产生装置执行此程序很可能不切实际。可用以执行产生装置(例如,手持机)的工厂校准的便携型腔室及其它校准外壳及程序的实例描述于2008年6月30日申请的题为“用于校准多麦克风装置的系统、方法及设备(SYSTEMS,METHODS,ANDAPPARATUSFORCALIBRATIONOFMULTI-MICROPHONEDEVICES)”的第61/077,144号美国专利申请案中。校准程序可经配置以产生将应用于相应麦克风通道的补偿因子(例如,增益因子)。举例来说,音频预处理器AP10的元件(例如,数字预处理器D20a或D20b)可经配置以将此补偿因子应用于所感测音频信号S10的相应通道。
对于多数所制造的装置来说,执行交付前校准程序可能耗时过多或因其它原因不切实际。举例来说,对大量市场装置的每一例子执行此操作在经济上可能不可行。此外,单单交付前操作可能不足以在装置的寿命内确保良好性能。麦克风灵敏度可能会随着时间而漂移或以其它方式改变,此归因于可包括老化、温度、辐射及污染的因素。然而,在未适当地补偿阵列的各个通道的响应间的不平衡的情况下,多通道操作(例如,空间选择性处理操作)的所要性能等级可能难以或不可能实现。
因此,可能需要在音频感测装置内包括校准例程,所述校准例程经配置以在周期性服务期间或在某其它事件后(例如,在加电时、在用户选择后等等)匹配一个或一个以上麦克风频率性质及/或灵敏度(例如,麦克风增益之间的比率)。此自动增益匹配程序的实例描述于2009年3月XX日申请的题为“用于多通道信号平衡的系统、方法及设备(SYSTEMS,METHODS,ANDAPPARATUSFORMULTICHANNELSIGNALBALANCING)”的第1X/XXX,XXX号美国专利申请案(代理人案号081747)中,所述文档以引用的方式并入本文中,目的限于揭示校准方法、例程、操作、装置、腔室及程序。
如图77中所说明,无线电话系统(例如,CDMA、TDMA、FDMA及/或TD-SCDMA系统)通常包括经配置以与无线电接入网络用无线方式通信的多个移动用户单元10,所述无线电接入网络包括多个基站12及一个或一个以上基站控制器(BSC)14。此系统还通常包括耦合到BSC14的移动交换中心(MSC)16,其经配置以将所述无线电接入网络与常规公共交换电话网络(PSTN)18介接。为支持此介接,所述MSC可包括媒体网关或以其它方式与媒体网关通信,所述媒体网关充当网络之间的翻译单元。媒体网关经配置以在不同格式(例如,不同发射及/或编码技术)之间转换(例如,在时分多址(TDM)话音与VoIP之间转换)且还可经配置以执行媒体流式传输功能(例如,回音消除、双时多频率(DTMF)及音调发送)。BSC14经由回程线路而耦合到基站12。所述回程线路可经配置以支持若干种已知接口中的任一者,包括例如,E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL。基站12、BSC14、MSC16及媒体网关(如果有)的集合也被称作“基础结构”。
每一基站12有利地包括至少一个扇区(未图示),每一扇区包含全向天线或远离基站12放射状地指向特定方向的天线。或者,每一扇区可包含用于分集接收的两个或两个以上天线。每一基站12可有利地设计成支持多个频率指派。扇区与频率指派的相交可被称作CDMA信道。基站12也可被称作基站收发器子系统(BTS)12。或者,“基站”在本行业中可用以共同指代BSC14及一个或一个以上BTS12。BTS12还可表示为“小区基站”(cellsite)12。或者,给定BTS12的个别扇区可被称作小区基站。移动用户单元10的类别通常包括如本文所描述的通信装置,例如蜂窝式及/或PCS(个人通信服务)电话、个人数字助理(PDA),及/或具有移动电话能力的其它通信装置。此单元10可包括内部扬声器及麦克风阵列、包括扬声器及麦克风阵列的系留式手持机或头戴式耳机(例如,USB手持机),或包括扬声器及麦克风阵列的无线头戴式耳机(例如,使用如由蓝牙技术联盟公司(华盛顿州贝尔维尤市)发布的蓝牙协议的版本来将音频信息传达到所述单元的头戴式耳机)。可根据IS-95标准的一个或一个以上版本(例如,IS-95、IS-95A、IS-95B、cdma2000;如由电信行业联盟(弗吉尼亚州阿灵顿市)所公布)来配置此系统以供使用。
现描述蜂窝式电话系统的典型操作。基站12从多组移动用户单元10接收多组反向链路信号。所述移动用户单元10正在进行电话呼叫或其它通信。在给定基站12内处理由所述基站12接收到的每一反向链路信号,且将所得数据转发到BSC14。BSC14提供呼叫资源分配及移动性管理功能性,包括基站12之间的软越区交递的安排。BSC14还将接收到的数据路由到MSC16,其为与PSTN18的介接提供额外路由服务。类似地,PSTN18与MSC16介接,且MSC16与BSC14介接,BSC14又控制基站12将多组前向链路信号转发到多组移动用户单元10。
如图77所示的蜂窝式电话系统的元件还可经配置以支持包交换数据通信。如图78所示,通常使用耦合到一连接到外部包数据网络24(例如,例如因特网的公共网络)的网关路由器的包数据服务节点(PDSN)22来在移动用户单元10与所述包数据网络之间路由包数据业务。PDSN22又将数据路由到一个或一个以上包控制功能(PCF)20,其各自服务于一个或一个以上BSC14且充当包数据网络与无线电接入网络之间的链路。还可实施包数据网络24以包括局域网络(LAN)、校园网络(CAN)、都会网络(MAN)、广域网络(WAN)、环状网络、星形网络、令牌环形网络等等。连接到网络24的用户终端可为在如本文所描述的音频感测装置的类别内的装置,例如PDA、膝上型计算机、个人计算机、游戏装置(此装置的实例包括XBOX及XBOX360(微软公司,华盛顿州雷蒙德市)、游戏站3(Playstation3)及便携型游戏站(PlaystationPortable)(索尼公司,日本东京)及Wii及DS(任天堂,日本京都)),及/或具有音频处理能力且可经配置以支持电话呼叫或使用例如VoIP的一个或一个以上协议的其它通信的任何装置。此终端可包括内部扬声器及麦克风阵列、包括扬声器及麦克风阵列的系留式手持机(例如,USB手持机),或包括扬声器及麦克风阵列的无线头戴式耳机(例如,使用如由蓝牙技术联盟公司(华盛顿州贝尔维尤市)发布的蓝牙协议的版本来将音频信息传达到所述终端的头戴式耳机)。此系统可经配置以在不同无线电接入网络上的移动用户单元之间(例如,经由例如VoIP的一个或一个以上协议)、在移动用户单元与非移动用户终端之间,或在两个非移动用户终端之间在甚至未进入PSTN的情况下将电话呼叫或其它通信作为包数据业务来载运。移动用户单元10或其它用户终端也可被称作“接入终端”。
图79A展示可在装置内执行的处理语音信号的方法M100的流程图,所述装置经配置以处理音频信号(例如,本文所识别的音频感测装置中的任一者,例如通信装置)。方法M100包括任务T110,任务T110对多通道所感测音频信号执行空间选择性处理操作(例如,如本文中参考SSP滤波器SS10所描述)以产生源信号及噪声参考。举例来说,任务T110可包括将多通道所感测音频信号的方向性分量的能量集中到所述源信号中。
方法M100还包括对语音信号执行频谱对比加强操作以产生经处理语音信号的任务。此任务包括子任务T120、T130及T140。任务T120基于来自噪声参考的信息来计算多个噪声子带功率估计(例如,如本文中参考噪声子带功率估计计算器NP100所描述)。任务T130基于来自语音信号的信息来产生加强向量(例如,如本文中参考加强向量产生器VG100所描述)。任务T140基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自加强向量的信息来产生经处理语音信号(例如,如本文中参考增益控制元件CE100及混合器X100,或增益因子计算器FC300及增益控制元件CE110或CE120所描述),使得所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。在本文中明确地揭示方法M100及任务T110、T120、T130及T140的众多实施方案(例如,依靠本文所揭示的各种设备、元件及操作)。
可能需要实施方法M100,使得所述语音信号是基于多通道所感测音频信号。图79B展示方法M100的此实施方案M110的流程图,其中任务T130经布置以将源信号作为语音信号来接收。在此情况下,任务T140还经布置,使得所述经处理语音信号的多个频率子带中的每一者是基于所述源信号的对应频率子带(例如,如本文中参考设备A110所描述)。
或者,可能需要实施方法M100,使得所述语音信号是基于来自经解码语音信号的信息。可(例如)通过对由所述装置用无线方式接收到的信号进行解码来获得此经解码语音信号。图80A展示方法M100的此实施方案M120的流程图,实施方案M120包括任务T150。任务T150对由所述装置用无线方式接收到的经编码语音信号进行解码以产生语音信号。举例来说,任务T150可经配置以根据本文所识别的编解码器(例如,EVRC、SMV、AMR)中的一者或一者以上来对经编码语音信号进行解码。
图80B展示加强向量产生任务T130的实施方案T230的流程图,实施方案T230包括子任务T232、T234及T236。任务T232使语音信号的频谱平滑以获得第一平滑信号(例如,如本文中参考频谱平滑器SM10所描述)。任务T234使所述第一平滑信号平滑以获得第二平滑信号(例如,如本文中参考频谱平滑器SM20所描述)。任务T236计算所述第一平滑信号与第二平滑信号的比率(例如,如本文中参考比率计算器RC10所描述)。任务T130或任务T230还可经配置以包括子任务,所述子任务减少语音信号的频谱峰值的幅度之间的差异(例如,如本文中参考预加强处理模块PM10所描述),使得加强向量是基于此子任务的结果。
图81A展示产生任务T140的实施方案T240的流程图,实施方案T240包括子任务T242、T244及T246。任务T242基于多个噪声子带功率估计且基于来自加强向量的信息来计算多个增益因子值,使得所述多个增益因子值中的第一者不同于所述多个增益因子值中的第二者(例如,如本文中参考增益因子计算器FC300所描述)。任务T244将所述第一增益因子值应用于所述语音信号的第一频率子带以获得所述经处理语音信号的第一子带,且任务T246将所述第二增益因子值应用于所述语音信号的第二频率子带以获得所述经处理语音信号的第二子带(例如,如本文中参考增益控制元件CE110及/或CE120所描述)。
图81B展示产生任务T240的实施方案T340的流程图,实施方案T340包括任务T244及T246分别的实施方案T344及T346。任务340通过使用滤波器级的级联对语音信号进行滤波来产生经处理语音信号(例如,如本文中参考子带滤波器阵列FA120所描述)。任务T344将所述第一增益因子值应用于所述级联的第一滤波器级,且任务T346将所述第二增益因子值应用于所述级联的第二滤波器级。
图81C展示方法M110的实施方案M130的流程图,实施方案M130包括任务T160及T170。基于来自噪声参考的信息,任务T160对源信号执行噪声减少操作以获得语音信号(例如,如本文中参考噪声减少级NR10所描述)。在一个实例中,任务T160经配置以对源信号执行频谱相减操作(例如,如本文中参考噪声减少级NR20所描述)。任务T170基于源信号与语音信号之间的关系来执行话音活动检测操作(例如,如本文中参考VADV15所描述)。方法M130还包括任务T140的实施方案T142,实施方案142基于话音活动检测任务T170的结果来产生经处理语音信号(例如,如本文中参考加强器EN150所描述)。
图82A展示方法M100的实施方案M140的流程图,实施方案M140包括任务T105及T180。任务T105使用回音消除器来从多通道所感测音频信号消除回音(例如,如本文中参考回音消除器EC10所描述)。任务T180使用经处理语音信号来训练回音消除器(例如,如本文中参考音频预处理器AP30所描述)。
图82B展示可在装置内执行的处理语音信号的方法M200的流程图,所述装置经配置以处理音频信号(例如,本文所识别的音频感测装置中的任一者,例如通信装置)。方法M200包括任务TM10、TM20及TM30。任务TM10使语音信号的频谱平滑以获得第一平滑信号(例如,如本文中参考频谱平滑器SM10及任务T232所描述)。任务TM20使所述第一平滑信号平滑以获得第二平滑信号(例如,如本文中参考频谱平滑器SM20及任务T234所描述)。任务TM30产生对比加强语音信号,所述对比加强语音信号是基于所述第一平滑信号与第二平滑信号的比率(例如,如本文中参考加强向量产生器VG110及包括此产生器的加强器EN100、EN110及EN120的实施方案所描述)。举例来说,任务TM30可经配置以通过控制语音信号的多个子带的增益来产生对比加强语音信号,使得每一子带的增益是基于所述第一平滑信号与第二平滑信号的比率的来自对应子带的信息。
还可实施方法M200以包括执行自适应均衡操作的任务及/或减少语音信号的频谱峰值的幅度之间的差异的任务,以获得语音信号的均衡频谱(例如,如本文中参考预加强处理模块PM10所描述)。在所述情况下,任务TM10可经布置以使均衡频谱平滑以获得所述第一平滑信号。
图83A展示根据通用配置的用于处理语音信号的设备F100的框图。设备F100包括用于对多通道所感测音频信号执行空间选择性处理操作(例如,如本文中参考SSP滤波器SS10所描述)以产生源信号及噪声参考的装置G110。举例来说,装置G110可经配置以将多通道所感测音频信号的方向性分量的能量集中到所述源信号中。
设备F100还包括用于对语音信号执行频谱对比加强操作以产生经处理语音信号的装置。此装置包括用于基于来自噪声参考的信息来计算多个噪声子带功率估计(例如,如本文中参考噪声子带功率估计计算器NP100所描述)的装置G120。用于对语音信号执行频谱对比加强操作的装置还包括用于基于来自语音信号的信息来产生加强向量(例如,如本文中参考加强向量产生器VG100所描述)的装置G130。用于对语音信号执行频谱对比加强操作的装置还包括装置G140,用于基于所述多个噪声子带功率估计、来自所述语音信号的信息及来自加强向量的信息来产生经处理语音信号(例如,如本文中参考增益控制元件CE100及混合器X100或增益因子计算器FC300及增益控制元件CE110或CE120所描述),使得所述经处理语音信号的多个频率子带中的每一者是基于所述语音信号的对应频率子带。设备F100可实施于经配置以处理音频信号的装置(例如,本文所识别的音频感测装置中的任一者,例如通信装置)内,且在本文中明确地揭示设备F100、装置G110、装置G120、装置G130及装置G140的众多实施方案(例如,依靠本文所揭示的各种设备、元件及操作)。
可能需要实施设备F100,使得所述语音信号是基于多通道所感测音频信号。图83B展示设备F100的此实施方案F110的框图,其中装置G130经布置以将源信号作为语音信号来接收。在此情况下,装置G140还经布置,使得所述经处理语音信号的多个频率子带中的每一者是基于所述源信号的对应频率子带(例如,如本文中参考设备A110所描述)。
或者,可能需要实施设备F100,使得所述语音信号是基于来自经解码语音信号的信息。可(例如)通过对由所述装置用无线方式接收到的信号进行解码来获得此经解码语音信号。图84A展示设备F100的此实施方案F120的框图,实施方案F120包括用于对由所述装置用无线方式接收到的经编码语音信号进行解码以产生语音信号的装置G150。举例来说,装置G150可经配置以根据本文所识别的编解码器(例如,EVRC、SMV、AMR)中的一者来对经编码语音信号进行解码。
图84B展示用于产生加强向量的装置G130的实施方案G230的流程图,实施方案G230包括用于使所述语音信号的频谱平滑以获得第一平滑信号(例如,如本文中参考频谱平滑器SM10所描述)的装置G232、用于使所述第一平滑信号平滑以获得第二平滑信号(例如,如本文中参考频谱平滑器SM20所描述)的装置G234,及用于计算所述第一平滑信号与第二平滑信号的比率(例如,如本文中参考比率计算器RC10所描述)的装置G236。装置G130或装置G230还可经配置以包括用于减少语音信号的频谱峰值的幅度之间的差异(例如,如本文中参考预加强处理模块PM10所描述)使得加强向量是基于此差异减少操作的结果的装置。
图85A展示装置G140的实施方案G240的框图,实施方案G240包括用于基于所述多个噪声子带功率估计及基于来自加强向量的信息来计算多个增益因子值使得所述多个增益因子值中的第一者不同于所述多个增益因子值中的第二者(例如,如本文中参考增益因子计算器FC300所描述)的装置G242。装置G240包括用于将所述第一增益因子值应用于所述语音信号的第一频率子带以获得所述经处理语音信号的第一子带的装置G244及用于将所述第二增益因子值应用于所述语音信号的第二频率子带以获得所述经处理语音信号的第二子带的装置G246(例如,如本文中参考增益控制元件CE110及/或CE120所描述)。
图85B展示装置G240的实施方案G340的框图,实施方案G340包括经布置以对语音信号进行滤波以产生经处理语音信号(例如,如本文中参考子带滤波器阵列FA120所描述)的滤波器级的级联。装置G340包括用于将所述第一增益因子值应用于所述级联的第一滤波器级的装置G244的实施方案G344及用于将所述第二增益因子值应用于所述级联的第二滤波器级的装置G246的实施方案G346。
图85C展示设备F110的实施方案F130的流程图,实施方案F130包括用于基于来自噪声参考的信息对源信号执行噪声减少操作以获得语音信号(例如,如本文中参考噪声减少级NR10所描述)的装置G160。在一个实例中,装置G160经配置以对源信号执行频谱相减操作(例如,如本文中参考噪声减少级NR20所描述)。设备F130还包括用于基于源信号与语音信号之间的关系来执行话音活动检测操作(例如,如本文中参考VADV15所描述)的装置G170。设备F130还包括用于基于话音活动检测操作的结果来产生经处理语音信号(例如,如本文中参考加强器EN150所描述)的装置G140的实施方案G142。
图86A展示设备F100的实施方案F140的流程图,实施方案F140包括用于从多通道所感测音频信号消除回音(例如,如本文中参考回音消除器EC10所描述)的装置G105。装置G105经配置及经布置以用经处理语音信号来训练(例如,如本文中参考音频预处理器AP30所描述)。
图86B展示根据通用配置的用于处理语音信号的设备F200的框图。设备F200可实施于经配置以处理音频信号的装置(例如,本文所识别的音频感测装置中的任一者,例如通信装置)内。设备F200包括如上文所描述的用于平滑的装置G232及用于平滑的装置G234。设备F200还包括用于产生对比加强语音信号的装置G144,所述对比加强语音信号是基于所述第一平滑信号与第二平滑信号的比率(例如,如本文中参考加强向量产生器VG110及包括此产生器的加强器EN100、EN110及EN120的实施方案所描述)。举例来说,装置G144可经配置以通过控制语音信号的多个子带的增益来产生对比加强语音信号,使得每一子带的增益是基于所述第一平滑信号与第二平滑信号的比率的来自对应子带的信息。
还可实施设备F200以包括用于执行自适应均衡操作的装置及/或用于减少语音信号的频谱峰值的幅度之间的差异的装置,以获得语音信号的均衡频谱(例如,如本文中参考预加强处理模块PM10所描述)。在所述情况下,装置G232可经布置以使均衡频谱平滑以获得所述第一平滑信号。
提供所述配置的前述呈现以使任何所属领域的技术人员能够制造或使用本文所揭示的方法及其它结构。本文所展示并描述的流程图、框图、状态图及其它结构仅为实例,且这些结构的其它变型也处于本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理也可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是符合与在本文中以任何方式揭示的原理及新颖特征一致的最广泛范围(包括于所申请的所附权利要求书中),所述权利要求书形成原始揭示内容的一部分。
明确地预期且借此揭示,本文中所揭示的通信装置可适于用于经包交换(例如,经布置以根据例如VoIP的协议来载运音频传输的有线及/或无线网络)的网络中及/或电路交换的网络中。还明确地预期且借此揭示,本文中所揭示的通信装置可适于用于窄带编码系统(例如,对约四或五千赫的音频频率范围进行编码的系统)中及/或用于宽带编码系统(例如,对大于五千赫的音频频率进行编码的系统)中,包括全带宽带编码系统及分割带宽带编码系统。
所属领域的技术人员应理解,可使用多种不同技术及技艺中的任一者来表示信息及信号。举例来说,可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示可在整个上述描述中提及的数据、指令、命令、信息、信号、位及符号。
如本文所揭示的配置的实施方案的重要设计要求可包括使处理延迟及/或计算复杂性(通常以每秒百万个指令或MIPS来测量)最小化,尤其对于计算密集应用(例如,压缩音频或视听信息(例如,根据例如本文所识别的实例中的一者的压缩格式来编码的文件或流)的播放)或在较高取样速率下的话音通信(例如,对于宽带通信)的应用来说。
可以被认为适合于所希望的应用的硬件、软件及/或固件的任何组合来体现如本文所揭示的设备的实施方案的各种元件(例如,设备A100、A110、A120、A130、A132、A134、A140、A150、A160、A165、A170、A180、A200、A210、A230、A250、A300、A310、A320、A330、A400、A500、A550、A600、F100、F110、F120、F130、F140及F200的各种元件)。举例来说,可将所述元件制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上所述阵列。这些元件中的任何两者或两者以上或甚至所有可实施于相同阵列内。所述阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。
本文所揭示的设备的各种实施方案的一个或一个以上元件(例如,如上文所列举)还可整个或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)及ASIC(专用集成电路))上执行。如本文所揭示的设备的实施方案的各种元件中的任一者还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器,也被称为“处理器”),且这些元件中的任何两者或两者以上或甚至所有可实施于相同的所述计算机内。
可将如本文所揭示的处理器或其它处理装置制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的一个或一个以上电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上所述阵列。所述阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。所述阵列的实例包括固定或可编程逻辑元件阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP及ASIC。如本文所揭示的处理器或其它处理装置还可体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集或指令序列的一个或一个以上阵列的机器)或其它处理器。如本文所描述的处理器可用以执行与信号平衡程序不直接相关的任务或执行与信号平衡程序不直接相关的其它指令集,例如与处理器所嵌入于其中的装置或系统(例如,音频感测装置)的另一操作有关的任务。也可能如本文所揭示的方法的一部分由所述音频感测装置的处理器执行(例如,任务T110、T120及T130;或任务T110、T120、T130及T242),且所述方法的另一部分在一个或一个以上其它处理器的控制下加以执行(例如,解码任务T150及/或增益控制任务T244及T246)。
所属领域的技术人员将了解,结合本文所揭示的配置而描述的各种说明性模块、逻辑块、电路及操作可实施为电子硬件、计算机软件或两者的组合。可用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文所揭示的配置的任何组合来实施或执行所述模块、逻辑块、电路及操作。举例来说,此配置可至少部分地实施为硬连线电路、制造于专用集成电路中的电路配置,或加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,此代码为可由逻辑元件阵列(例如,通用处理器或其它数字信号处理单元)执行的指令。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、一个或一个以上微处理器结合DSP核心,或任何其它此配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM的非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸盘、CD-ROM,或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器及存储媒体可作为离散组件而驻留于用户终端中。
请注意,可通过例如处理器的逻辑元件阵列来执行本文所揭示的各种方法(例如,方法M100、M110、M120、M130、M140及M200,以及所述方法及在本文中依靠对如本文所揭示的设备的各种实施方案的操作的描述来明确地揭示的额外方法的众多实施方案),且可将如本文所描述的设备的各种元件实施为设计成在此阵列上执行的模块。如本文所使用,术语“模块”或“子模块”可指代包括呈软件、硬件或固件形式的计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,可将多个模块或系统组合成一个模块或系统,且可将一个模块或系统分成多个模块或系统以执行相同功能。在以软件或其它计算机可执行指令来实施时,处理的元件基本上为用以执行相关任务的代码段,例如例程、程序、对象、组件、数据结构及其类似者。术语“软件”应被理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏代码、微代码、可由逻辑元件阵列执行的任何一个或一个以上指令集或指令序列,及所述实例的任何组合。程序或代码段可存储于处理器可读媒体中或可经由传输媒体或通信链路通过体现于载波中的计算机数据信号来传输。
本文所揭示的方法、方案及技术的实施方案还可有形地体现(例如,在本文所列出的一个或一个以上计算机可读媒体中)为可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取及/或执行的一个或一个以上指令集。术语“计算机可读媒体”可包括可存储或传递信息的任何媒体,包括易失性、非易失性、可装卸及不可装卸媒体。计算机可读媒体的实例包括电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路,或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包括可经由传输媒体(例如,电子网络信道、光纤、空气、电磁、RF链路等等)来传播的任何信号。可经由例如因特网或企业内部网络的计算机网络来下载代码段。在任何情况下,本发明的范围不应被理解为受所述实施例的限制。
可以硬件、由处理器执行的软件模块或所述两者的组合来直接地体现本文所描述的方法的任务中的每一者。在如本文所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至所有。还可将任务中的一者或一者以上(可能所有)实施为体现于计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中的代码(例如,一个或一个以上指令集),所述计算机程序产品可由包括逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取及/或执行。还可通过一个以上的此阵列或机器来执行如本文所揭示的方法的实施方案的任务。在这些或其它实施方案中,可在用于无线通信的装置(例如,蜂窝式电话或具有此通信能力的其它装置)内执行任务。此装置可经配置以与电路交换及/或包交换网络通信(例如,使用例如VoIP的一个或一个以上协议)。举例来说,此装置可包括经配置以接收及/或发射经编码帧的RF电路。
明确地揭示,可通过例如手持机、头戴式耳机或便携型数字助理(PDA)的便携型通信装置来执行本文所揭示的各种方法,且本文所描述的各种设备可包括于此装置内。典型实时(例如,在线)应用为使用此移动装置进行的电话会话。
在一个或一个以上示范性实施例中,可以硬件、软件、固件或其任何组合来实施本文所描述的操作。如果以软件来实施,则所述操作可作为一个或一个以上指令或代码而存储于计算机可读媒体上或经由计算机可读媒体来传输。术语“计算机可读媒体”包括计算机存储媒体及通信媒体两者,通信媒体包括促进将计算机程序从一处传递到另一处的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。举例来说且非限制,此计算机可读媒体可包含存储元件阵列,例如半导体存储器(其可包括(不限于)动态或静态RAM、ROM、EEPROM及/或快闪RAM),或铁电、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于载运或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。又,将任何连接适当地称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或例如红外、无线电及/或微波的无线技术来从网站、服务器或其它远端源传输软件,则所述同轴电缆、光纤电缆、双绞线、DSL或例如红外、无线电及/或微波的无线技术包括于媒体的定义中。如本文中使用,磁盘及光盘包括压缩光盘(CD)、激光光盘、光学光盘、数字通用光盘(DVD)、软性磁盘及Blu-rayDiscTM(蓝光光盘协会,加利福尼亚州环球影城),其中磁盘通常以磁性方式来再生数据,而光盘用激光以光学方式来再生数据。上述各者的组合也应包括于计算机可读媒体的范围内。
如本文所描述的声信号处理设备可并入于接受语音输入以便控制某些操作或可以其它方式受益于所要噪声与背景噪声的分离的电子装置(例如,通信装置)中。许多应用可受益于加强清楚的所要声音或将其与发自多个方向的背景声音分离。所述应用可包括在并入有例如话音辨识及检测、语音加强及分离、话音启动的控制及其类似者的能力的电子或计算装置中的人机界面。可能需要实施此声信号处理设备以使其在仅提供有限处理能力的装置中为适合的。
可将本文所描述的模块、元件及装置的各种实施方案的元件制造为驻留于(例如)同一芯片上或芯片组中的两个或两个以上芯片间的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)阵列。本文所描述的设备的各种实施方案的一个或一个以上元件还可整个或部分地实施为一个或一个以上指令集,所述一个或一个以上指令集经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行。
如本文所描述的设备的实施方案的一个或一个以上元件可用以执行与所述设备的操作不直接相关的任务或执行与所述设备的操作不直接相关的其它指令集,例如与所述设备所嵌入于其中的装置或系统的另一操作有关的任务。此设备的实施方案的一个或一个以上元件也可具有共同结构(例如,用以在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。举例来说,可实施子带信号产生器SG100、EG100、NG100a、NG100b及NG100c中的多者中的两者以在不同时间包括相同结构。在另一实例中,可实施子带功率估计计算器SP100、EP100、NP100a、NP100b(或NP105)及NP100c中的多者中的两者以在不同时间包括相同结构。在另一实例中,可实施子带滤波器阵列FA100及子带滤波器阵列SG10的一个或一个以上实施方案以在不同时间包括相同结构(例如,在不同时间使用不同组的滤波器系数值)。
还明确地预期且借此揭示,在本文中参考设备A100的特定实施方案及/或加强器EN10描述的各种元件还可以所描述的方式与其它所揭示实施方案一起使用。举例来说,AGC模块G10(如参考设备A170所描述)、音频预处理器AP10(如参考设备A500所描述)、回音消除器EC10(如参考音频预处理器AP30所描述)、噪声减少级NR10(如参考设备A130所描述)或NR20,及话音活动检测器V10(如参考设备A160所描述)或V15(如参考设备A165所描述)中的一者或一者以上可包括于设备A100的其它所揭示实施方案中。同样,峰值限制器L10(如参考加强器EN40所描述)可包括于加强器EN10的其它所揭示实施方案中。尽管在上文主要描述对所感测音频信号S10的双通道(例如,立体声)例子的应用,但还在本文中明确地预期及揭示本文所揭示的原理对于所感测音频信号S10的具有三个或三个以上通道(例如,来自三个或三个以上麦克风的阵列)的例子的扩展。
Claims (27)
1.一种用于频谱对比加强的方法,所述方法包含在经配置以处理音频信号的装置内执行以下动作中的每一者:
在空间选择性处理滤波器内对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考;以及
在第一频谱对比加强器内对远端语音信号和所述噪声参考执行第一频谱对比加强操作以产生第一经处理语音信号,其中所述第一频谱对比加强器经配置以基于来自所述噪声参考的信息更改所述远端语音信号的频谱特性以产生所述第一经处理语音信号。
2.根据权利要求1所述的方法,包括对所述装置用无线方式接收到的信号进行解码以获得经解码语音信号,其中所述远端语音信号是基于来自所述经解码语音信号的信息。
3.根据权利要求1所述的方法,其中所述方法包括:
使用回音消除器来从所述多通道所感测音频信号中消除回音;以及
使用所述第一经处理语音信号来训练所述回音消除器。
4.根据权利要求1所述的方法,其中所述方法包括:
基于来自所述噪声参考的信息,对所述源信号执行噪声减少操作以获得所述远端语音信号;以及
基于所述源信号与所述远端语音信号之间的关系来执行话音活动检测操作,其中产生所述第一经处理语音信号是基于所述话音活动检测操作的结果。
5.根据权利要求1所述的方法,其中所述执行空间选择性处理操作包括确定在多个不同频率中的每一者下所述多通道所感测音频信号的通道的相位角之间的关系。
6.根据权利要求1所述的方法,其中所述执行第一频谱对比加强操作包括:
基于来自所述噪声参考的信息来计算第一多个子带混合因子;
基于来自所述远端语音信号的信息来计算第二多个子带增益因子;
通过将所述第二多个子带增益因子应用到所述远端语音信号来产生第一经对比加强信号;以及
通过组合所述第一多个子带混合因子和所述第一经对比加强信号来生成所述第一经处理语音信号。
7.根据权利要求1所述的方法,其中所述执行空间选择性处理操作包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中,并且其中所述多通道所感测音频信号包括近端语音信号。
8.根据权利要求1所述的方法,进一步包括在第二频谱对比加强器内对近端语音信号执行第二频谱对比加强操作以生成第二经处理语音信号。
9.根据权利要求8所述的方法,其中所述执行第二频谱对比加强操作包括:
基于来自所述噪声参考的信息来计算第三多个子带混合因子;
基于来自所述近端语音信号的信息来计算第四多个子带增益因子;
通过将所述第四多个子带增益因子应用到所述近端语音信号来产生第二经对比加强信号;以及
通过组合所述第三多个子带混合因子和所述第二经对比加强信号来生成第二经处理语音信号。
10.根据权利要求9所述的方法,其中所述生成第二经处理语音信号包括使用滤波器级的级联来对所述近端语音信号进行滤波。
11.一种用于频谱对比加强的设备,其包括:
用于在空间选择性处理滤波器内对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考的装置;以及
用于在第一频谱对比加强器内对远端语音信号和所述噪声参考执行第一频谱对比加强操作以产生第一经处理语音信号的装置,其中所述第一频谱对比加强器经配置以基于来自所述噪声参考的信息更改所述远端语音信号的频谱特性以产生所述第一经处理语音信号。
12.根据权利要求11所述的设备,包括用于对所述设备用无线方式接收到的信号进行解码以获得经解码语音信号的装置,其中所述远端语音信号是基于来自所述经解码语音信号的信息。
13.根据权利要求11所述的设备,其中所述设备包括用于从所述多通道所感测音频信号中消除回音的装置,并且其中所述用于消除回音的装置经配置和设置以被所述第一经处理语音信号训练。
14.根据权利要求11所述的设备,其中所述设备包括:
用于基于来自所述噪声参考的信息对所述源信号执行噪声减少操作以获得所述远端语音信号的装置;以及
用于基于所述源信号与所述远端语音信号之间的关系来执行话音活动检测操作的装置,
其中所述用于产生第一经处理语音信号的装置经配置以基于所述话音活动检测操作的结果来产生所述第一经处理语音信号。
15.根据权利要求11所述的设备,其中用于执行第一频谱对比加强操作的装置包括:
用于基于来自所述噪声参考的信息来计算第一多个子带混合因子的装置;
用于基于来自所述远端语音信号的信息来计算第二多个子带增益因子的装置;
用于通过将所述第二多个子带增益因子应用到所述远端语音信号来产生第一经对比加强信号的装置;以及
用于通过用于组合所述第一多个子带混合因子和所述第一经对比加强信号的装置来生成第一经处理语音信号的装置。
16.根据权利要求11所述的设备,其中所述用于执行空间选择性处理操作的装置包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中,并且其中所述多通道所感测音频信号包括近端语音信号。
17.根据权利要求11所述的设备,进一步包括用于在第二频谱对比加强器内对近端语音信号和所述噪声参考执行第二频谱对比加强操作以生成第二经处理语音信号的装置。
18.根据权利要求17所述的设备,其中所述用于执行第二频谱对比加强操作的装置包括:
用于基于来自所述噪声参考的信息来计算第三多个子带混合因子的装置;
用于基于来自所述近端语音信号的信息来计算第四多个子带增益因子的装置;
用于通过将所述第四多个子带增益因子应用到所述近端语音信号来产生第二经对比加强信号的装置;以及
用于通过用于组合所述第三多个子带混合因子和所述第二经对比加强信号的装置来生成第二经处理语音信号的装置。
19.根据权利要求18所述的设备,其中所述用于生成第二经处理语音信号的装置包括经设置以对所述近端语音信号进行滤波的滤波器级的级联。
20.一种用于频谱对比加强的设备,包括:
空间选择性处理滤波器,其经配置以对多通道所感测音频信号执行空间选择性处理操作以产生源信号及噪声参考;以及
第一频谱对比加强器,其耦合到所述空间选择性处理滤波器、经配置以对远端语音信号和所述噪声参考执行频谱对比加强操作以产生第一经处理语音信号,其中所述第一频谱对比加强器经配置以基于来自所述噪声参考的信息更改所述远端语音信号的频谱特性以产生所述第一经处理语音信号。
21.根据权利要求20所述的设备,其中所述设备包括解码器,所述解码器经配置以对所述设备用无线方式接收到的信号进行解码以获得经解码语音信号,并且
其中所述远端语音信号是基于来自所述经解码语音信号的信息。
22.根据权利要求20所述的设备,其中所述第一频谱对比加强器包括回音消除器,所述回音消除器经配置以从所述多通道所感测音频信号中消除回音;并且
其中所述回音消除器经配置和设置以被所述第一经处理语音信号训练。
23.根据权利要求20所述的设备,其中所述设备包括:
噪音减小级,其经配置以基于来自所述噪声参考的信息来对所述源信号执行噪声减少操作以获得所述远端语音信号;以及
话音活动检测器,其经配置以基于所述源信号与所述远端语音信号之间的关系来执行话音活动检测操作,
其中所述第一频谱对比加强器经配置以基于所述话音活动检测操作的结果来产生所述第一经处理语音信号。
24.根据权利要求20所述的设备,其中所述第一频谱对比加强器包括:
第一子带因子计算器,其经配置以基于来自噪声参考的信息计算第一多个子带混合因子;
第二子带因子计算器,其经配置以基于来自远端语音信号的信息计算第二多个子带增益因子;
控制元件,其经配置以基于将所述第二多个子带增益因子应用到所述远端语音信号来产生第一经对比加强信号;以及
混合器,其经配置以组合所述第一多个子带混合因子和所述第一经对比加强信号。
25.根据权利要求20所述的设备,其中所述空间选择性处理操作包括将所述多通道所感测音频信号的方向性分量的能量集中到所述源信号中,并且其中所述多通道所感测音频信号包括近端语音信号。
26.根据权利要求20所述的设备,进一步包括耦合到空间选择性处理滤波器的第二频谱对比加强器,其经配置以对近端语音信号执行频谱对比加强操作以产生第二经处理语音信号。
27.根据权利要求26所述的设备,其中所述第二频谱对比加强器包括:
第三子带因子计算器,其经配置以基于来自所述噪声参考的信息来计算第三多个子带混合因子;
第四子带因子计算器,其经配置以基于来自所述远端语音信号的信息来计算第四多个子带增益因子;
控制元件,其经配置以基于将所述第四多个子带增益因子应用到所述远端语音信号来产生第二经对比加强信号;以及
混合器,其经配置以组合所述第三多个子带混合因子和所述第二经对比加强信号。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US5718708P | 2008-05-29 | 2008-05-29 | |
US61/057,187 | 2008-05-29 | ||
US12/473,492 US8831936B2 (en) | 2008-05-29 | 2009-05-28 | Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement |
US12/473,492 | 2009-05-28 | ||
CN2009801196505A CN102047326A (zh) | 2008-05-29 | 2009-05-29 | 用于频谱对比加强的系统、方法、设备及计算机程序产品 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801196505A Division CN102047326A (zh) | 2008-05-29 | 2009-05-29 | 用于频谱对比加强的系统、方法、设备及计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103247295A CN103247295A (zh) | 2013-08-14 |
CN103247295B true CN103247295B (zh) | 2016-02-24 |
Family
ID=41380870
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801196505A Pending CN102047326A (zh) | 2008-05-29 | 2009-05-29 | 用于频谱对比加强的系统、方法、设备及计算机程序产品 |
CN201310216954.1A Expired - Fee Related CN103247295B (zh) | 2008-05-29 | 2009-05-29 | 用于频谱对比加强的系统、方法、设备 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801196505A Pending CN102047326A (zh) | 2008-05-29 | 2009-05-29 | 用于频谱对比加强的系统、方法、设备及计算机程序产品 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8831936B2 (zh) |
EP (1) | EP2297730A2 (zh) |
JP (1) | JP5628152B2 (zh) |
KR (1) | KR101270854B1 (zh) |
CN (2) | CN102047326A (zh) |
TW (1) | TW201013640A (zh) |
WO (1) | WO2009148960A2 (zh) |
Families Citing this family (146)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100754220B1 (ko) * | 2006-03-07 | 2007-09-03 | 삼성전자주식회사 | Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법 |
KR101756834B1 (ko) * | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US20100057472A1 (en) * | 2008-08-26 | 2010-03-04 | Hanks Zeng | Method and system for frequency compensation in an audio codec |
KR20100057307A (ko) * | 2008-11-21 | 2010-05-31 | 삼성전자주식회사 | 노래점수 평가방법 및 이를 이용한 가라오케 장치 |
US8771204B2 (en) | 2008-12-30 | 2014-07-08 | Masimo Corporation | Acoustic sensor assembly |
US9202456B2 (en) | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
EP2444966B1 (en) * | 2009-06-19 | 2019-07-10 | Fujitsu Limited | Audio signal processing device and audio signal processing method |
US8275148B2 (en) * | 2009-07-28 | 2012-09-25 | Fortemedia, Inc. | Audio processing apparatus and method |
KR101587844B1 (ko) * | 2009-08-26 | 2016-01-22 | 삼성전자주식회사 | 마이크로폰의 신호 보상 장치 및 그 방법 |
WO2011047213A1 (en) * | 2009-10-15 | 2011-04-21 | Masimo Corporation | Acoustic respiratory monitoring systems and methods |
US8702627B2 (en) | 2009-10-15 | 2014-04-22 | Masimo Corporation | Acoustic respiratory monitoring sensor having multiple sensing elements |
US8523781B2 (en) | 2009-10-15 | 2013-09-03 | Masimo Corporation | Bidirectional physiological information display |
CN102714034B (zh) * | 2009-10-15 | 2014-06-04 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
US8821415B2 (en) * | 2009-10-15 | 2014-09-02 | Masimo Corporation | Physiological acoustic monitoring system |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
US20110125497A1 (en) * | 2009-11-20 | 2011-05-26 | Takahiro Unno | Method and System for Voice Activity Detection |
WO2011119630A1 (en) * | 2010-03-22 | 2011-09-29 | Aliph, Inc. | Pipe calibration of omnidirectional microphones |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US9245538B1 (en) * | 2010-05-20 | 2016-01-26 | Audience, Inc. | Bandwidth enhancement of speech signals assisted by noise reduction |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
CN101894561B (zh) * | 2010-07-01 | 2015-04-08 | 西北工业大学 | 一种基于小波变换和变步长最小均方算法的语音降噪方法 |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
WO2012021832A1 (en) | 2010-08-12 | 2012-02-16 | Aliph, Inc. | Calibration system with clamping system |
US9111526B2 (en) | 2010-10-25 | 2015-08-18 | Qualcomm Incorporated | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal |
US9521015B2 (en) * | 2010-12-21 | 2016-12-13 | Genband Us Llc | Dynamic insertion of a quality enhancement gateway |
CN102075599A (zh) * | 2011-01-07 | 2011-05-25 | 蔡镇滨 | 一种降低环境噪声的装置及方法 |
US10218327B2 (en) * | 2011-01-10 | 2019-02-26 | Zhinian Jing | Dynamic enhancement of audio (DAE) in headset systems |
JP5411880B2 (ja) * | 2011-01-14 | 2014-02-12 | レノボ・シンガポール・プライベート・リミテッド | 情報処理装置、その音声設定方法、およびコンピュータが実行するためのプログラム |
JP5664265B2 (ja) | 2011-01-19 | 2015-02-04 | ヤマハ株式会社 | ダイナミックレンジ圧縮回路 |
CN102629470B (zh) * | 2011-02-02 | 2015-05-20 | Jvc建伍株式会社 | 辅音区间检测装置及辅音区间检测方法 |
WO2012107561A1 (en) * | 2011-02-10 | 2012-08-16 | Dolby International Ab | Spatial adaptation in multi-microphone sound capture |
JP5668553B2 (ja) * | 2011-03-18 | 2015-02-12 | 富士通株式会社 | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
CN102740215A (zh) * | 2011-03-31 | 2012-10-17 | Jvc建伍株式会社 | 声音输入装置、通信装置、及声音输入装置的动作方法 |
CN105825859B (zh) * | 2011-05-13 | 2020-02-14 | 三星电子株式会社 | 比特分配、音频编码和解码 |
US20120294446A1 (en) * | 2011-05-16 | 2012-11-22 | Qualcomm Incorporated | Blind source separation based spatial filtering |
EP2714184B1 (en) * | 2011-05-26 | 2017-05-10 | Advanced Bionics AG | Systems for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels |
US20130066638A1 (en) * | 2011-09-09 | 2013-03-14 | Qnx Software Systems Limited | Echo Cancelling-Codec |
US9210506B1 (en) * | 2011-09-12 | 2015-12-08 | Audyssey Laboratories, Inc. | FFT bin based signal limiting |
EP2590165B1 (en) * | 2011-11-07 | 2015-04-29 | Dietmar Ruwisch | Method and apparatus for generating a noise reduced audio signal |
DE102011086728B4 (de) | 2011-11-21 | 2014-06-05 | Siemens Medical Instruments Pte. Ltd. | Hörvorrichtung mit einer Einrichtung zum Verringern eines Mikrofonrauschens und Verfahren zum Verringern eines Mikrofonrauschens |
US11553692B2 (en) | 2011-12-05 | 2023-01-17 | Radio Systems Corporation | Piezoelectric detection coupling of a bark collar |
US11470814B2 (en) | 2011-12-05 | 2022-10-18 | Radio Systems Corporation | Piezoelectric detection coupling of a bark collar |
GB2499052A (en) * | 2012-02-01 | 2013-08-07 | Continental Automotive Systems | Calculating a power value in a vehicular application |
TWI483624B (zh) * | 2012-03-19 | 2015-05-01 | Universal Scient Ind Shanghai | 用於收音系統之等化前處理方法及其系統 |
EP2828853B1 (en) | 2012-03-23 | 2018-09-12 | Dolby Laboratories Licensing Corporation | Method and system for bias corrected speech level determination |
US9082389B2 (en) | 2012-03-30 | 2015-07-14 | Apple Inc. | Pre-shaping series filter for active noise cancellation adaptive filter |
US9633667B2 (en) | 2012-04-05 | 2017-04-25 | Nokia Technologies Oy | Adaptive audio signal filtering |
US8749312B2 (en) * | 2012-04-18 | 2014-06-10 | Qualcomm Incorporated | Optimizing cascade gain stages in a communication system |
US8843367B2 (en) * | 2012-05-04 | 2014-09-23 | 8758271 Canada Inc. | Adaptive equalization system |
US9955937B2 (en) | 2012-09-20 | 2018-05-01 | Masimo Corporation | Acoustic patient sensor coupler |
WO2014046916A1 (en) * | 2012-09-21 | 2014-03-27 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
EP2901668B1 (en) * | 2012-09-27 | 2018-11-14 | Dolby Laboratories Licensing Corporation | Method for improving perceptual continuity in a spatial teleconferencing system |
US9147157B2 (en) | 2012-11-06 | 2015-09-29 | Qualcomm Incorporated | Methods and apparatus for identifying spectral peaks in neuronal spiking representation of a signal |
US9424859B2 (en) * | 2012-11-21 | 2016-08-23 | Harman International Industries Canada Ltd. | System to control audio effect parameters of vocal signals |
WO2014088659A1 (en) * | 2012-12-06 | 2014-06-12 | Intel Corporation | New carrier type (nct) information embedded in synchronization signal |
US9549271B2 (en) * | 2012-12-28 | 2017-01-17 | Korea Institute Of Science And Technology | Device and method for tracking sound source location by removing wind noise |
JP6162254B2 (ja) * | 2013-01-08 | 2017-07-12 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 背景ノイズにおけるスピーチ了解度を増幅及び圧縮により向上させる装置と方法 |
US20140372110A1 (en) * | 2013-02-15 | 2014-12-18 | Max Sound Corporation | Voic call enhancement |
US20140372111A1 (en) * | 2013-02-15 | 2014-12-18 | Max Sound Corporation | Voice recognition enhancement |
US20150006180A1 (en) * | 2013-02-21 | 2015-01-01 | Max Sound Corporation | Sound enhancement for movie theaters |
US9237225B2 (en) * | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
WO2014165032A1 (en) * | 2013-03-12 | 2014-10-09 | Aawtend, Inc. | Integrated sensor-array processor |
US9263061B2 (en) * | 2013-05-21 | 2016-02-16 | Google Inc. | Detection of chopped speech |
EP2819429B1 (en) * | 2013-06-28 | 2016-06-22 | GN Netcom A/S | A headset having a microphone |
CN103441962B (zh) * | 2013-07-17 | 2016-04-27 | 宁波大学 | 一种基于压缩感知的ofdm系统脉冲干扰抑制方法 |
US10828007B1 (en) | 2013-10-11 | 2020-11-10 | Masimo Corporation | Acoustic sensor with attachment portion |
US9635456B2 (en) * | 2013-10-28 | 2017-04-25 | Signal Interface Group Llc | Digital signal processing with acoustic arrays |
RU2643646C2 (ru) | 2013-11-13 | 2018-02-02 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции |
EP2884491A1 (en) * | 2013-12-11 | 2015-06-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraction of reverberant sound using microphone arrays |
FR3017484A1 (fr) * | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
WO2015130257A1 (en) | 2014-02-25 | 2015-09-03 | Intel Corporation | Apparatus, system and method of simultaneous transmit and receive (str) wireless communication |
US20170019149A1 (en) * | 2014-03-11 | 2017-01-19 | Lantiq Deutschland Gmbh | Communication devices, systems and methods |
CN105225661B (zh) * | 2014-05-29 | 2019-06-28 | 美的集团股份有限公司 | 语音控制方法和系统 |
US10141003B2 (en) * | 2014-06-09 | 2018-11-27 | Dolby Laboratories Licensing Corporation | Noise level estimation |
JP6401521B2 (ja) * | 2014-07-04 | 2018-10-10 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
CN105336332A (zh) * | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
US9817634B2 (en) * | 2014-07-21 | 2017-11-14 | Intel Corporation | Distinguishing speech from multiple users in a computer interaction |
WO2016034915A1 (en) * | 2014-09-05 | 2016-03-10 | Intel IP Corporation | Audio processing circuit and method for reducing noise in an audio signal |
UA120372C2 (uk) * | 2014-10-02 | 2019-11-25 | Долбі Інтернешнл Аб | Спосіб декодування і декодер для посилення діалогу |
US9659578B2 (en) * | 2014-11-27 | 2017-05-23 | Tata Consultancy Services Ltd. | Computer implemented system and method for identifying significant speech frames within speech signals |
KR102493123B1 (ko) * | 2015-01-23 | 2023-01-30 | 삼성전자주식회사 | 음성 향상 방법 및 시스템 |
TWI579835B (zh) * | 2015-03-19 | 2017-04-21 | 絡達科技股份有限公司 | 音效增益方法 |
GB2536729B (en) * | 2015-03-27 | 2018-08-29 | Toshiba Res Europe Limited | A speech processing system and speech processing method |
US10559303B2 (en) * | 2015-05-26 | 2020-02-11 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US9666192B2 (en) | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
CN106297813A (zh) | 2015-05-28 | 2017-01-04 | 杜比实验室特许公司 | 分离的音频分析和处理 |
US9734845B1 (en) * | 2015-06-26 | 2017-08-15 | Amazon Technologies, Inc. | Mitigating effects of electronic audio sources in expression detection |
US9401158B1 (en) * | 2015-09-14 | 2016-07-26 | Knowles Electronics, Llc | Microphone signal fusion |
US10373608B2 (en) * | 2015-10-22 | 2019-08-06 | Texas Instruments Incorporated | Time-based frequency tuning of analog-to-information feature extraction |
JP6272586B2 (ja) * | 2015-10-30 | 2018-01-31 | 三菱電機株式会社 | ハンズフリー制御装置 |
US9923592B2 (en) | 2015-12-26 | 2018-03-20 | Intel Corporation | Echo cancellation using minimal complexity in a device |
US10825465B2 (en) * | 2016-01-08 | 2020-11-03 | Nec Corporation | Signal processing apparatus, gain adjustment method, and gain adjustment program |
US10318813B1 (en) * | 2016-03-11 | 2019-06-11 | Gracenote, Inc. | Digital video fingerprinting using motion segmentation |
US11373672B2 (en) | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN107564544A (zh) * | 2016-06-30 | 2018-01-09 | 展讯通信(上海)有限公司 | 语音活动侦测方法及装置 |
CN107871494B (zh) * | 2016-09-23 | 2020-12-11 | 北京搜狗科技发展有限公司 | 一种语音合成的方法、装置及电子设备 |
CN106454642B (zh) * | 2016-09-23 | 2019-01-08 | 佛山科学技术学院 | 自适应子带音频反馈抑制方法 |
CN110121890B (zh) * | 2017-01-03 | 2020-12-08 | 杜比实验室特许公司 | 处理音频信号的方法和装置及计算机可读介质 |
US10720165B2 (en) * | 2017-01-23 | 2020-07-21 | Qualcomm Incorporated | Keyword voice authentication |
GB2573249B (en) | 2017-02-27 | 2022-05-04 | Radio Systems Corp | Threshold barrier system |
GB2561021B (en) * | 2017-03-30 | 2019-09-18 | Cirrus Logic Int Semiconductor Ltd | Apparatus and methods for monitoring a microphone |
JP7123984B2 (ja) * | 2017-06-22 | 2022-08-23 | コーニンクレッカ フィリップス エヌ ヴェ | 化合物超音波画像生成の方法及びシステム |
US10930276B2 (en) * | 2017-07-12 | 2021-02-23 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
US11489691B2 (en) | 2017-07-12 | 2022-11-01 | Universal Electronics Inc. | Apparatus, system and method for directing voice input in a controlling device |
JP6345327B1 (ja) * | 2017-09-07 | 2018-06-20 | ヤフー株式会社 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
US11769510B2 (en) | 2017-09-29 | 2023-09-26 | Cirrus Logic Inc. | Microphone authentication |
GB2567018B (en) | 2017-09-29 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Microphone authentication |
US11394196B2 (en) | 2017-11-10 | 2022-07-19 | Radio Systems Corporation | Interactive application to protect pet containment systems from external surge damage |
US11372077B2 (en) | 2017-12-15 | 2022-06-28 | Radio Systems Corporation | Location based wireless pet containment system using single base unit |
CN108333568B (zh) * | 2018-01-05 | 2021-10-22 | 大连大学 | 冲击噪声环境下基于Sigmoid变换的宽带回波Doppler和时延估计方法 |
EP3740950B8 (en) * | 2018-01-18 | 2022-05-18 | Dolby Laboratories Licensing Corporation | Methods and devices for coding soundfield representation signals |
US10657981B1 (en) * | 2018-01-19 | 2020-05-19 | Amazon Technologies, Inc. | Acoustic echo cancellation with loudspeaker canceling beamformer |
CN108198570B (zh) * | 2018-02-02 | 2020-10-23 | 北京云知声信息技术有限公司 | 审讯时语音分离的方法及装置 |
TWI691955B (zh) * | 2018-03-05 | 2020-04-21 | 國立中央大學 | 多通道之多重音頻串流方法以及使用該方法之系統 |
US10524048B2 (en) | 2018-04-13 | 2019-12-31 | Bose Corporation | Intelligent beam steering in microphone array |
CN108717855B (zh) * | 2018-04-27 | 2020-07-28 | 深圳市沃特沃德股份有限公司 | 噪音处理方法与装置 |
US10951996B2 (en) * | 2018-06-28 | 2021-03-16 | Gn Hearing A/S | Binaural hearing device system with binaural active occlusion cancellation |
CN109104683B (zh) * | 2018-07-13 | 2021-02-02 | 深圳市小瑞科技股份有限公司 | 一种双麦克风相位测量校正的方法及校正系统 |
TW202008800A (zh) * | 2018-07-31 | 2020-02-16 | 塞席爾商元鼎音訊股份有限公司 | 助聽器及其助聽器之輸出語音調整之方法 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN111048107B (zh) * | 2018-10-12 | 2022-09-23 | 北京微播视界科技有限公司 | 音频处理方法和装置 |
US10694298B2 (en) * | 2018-10-22 | 2020-06-23 | Zeev Neumeier | Hearing aid |
AU2020217761A1 (en) * | 2019-02-04 | 2021-09-23 | Radio Systems Corporation | Systems and methods for providing a sound masking environment |
US11049509B2 (en) * | 2019-03-06 | 2021-06-29 | Plantronics, Inc. | Voice signal enhancement for head-worn audio devices |
CN109905808B (zh) * | 2019-03-13 | 2021-12-07 | 北京百度网讯科技有限公司 | 用于调节智能语音设备的方法和装置 |
TWI712033B (zh) * | 2019-03-14 | 2020-12-01 | 鴻海精密工業股份有限公司 | 聲音識別方法、裝置、電腦裝置及存儲介質 |
EP3928315A4 (en) | 2019-03-14 | 2022-11-30 | Boomcloud 360, Inc. | SPATIALLY SENSITIVE MULTIBAND COMPRESSION SYSTEM WITH PRIORITY |
CN111986695B (zh) * | 2019-05-24 | 2023-07-25 | 中国科学院声学研究所 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
US11238889B2 (en) | 2019-07-25 | 2022-02-01 | Radio Systems Corporation | Systems and methods for remote multi-directional bark deterrence |
MX2022001150A (es) * | 2019-08-01 | 2022-02-22 | Dolby Laboratories Licensing Corp | Sistemas y metodos para suavizacion de covarianza. |
US11172294B2 (en) * | 2019-12-27 | 2021-11-09 | Bose Corporation | Audio device with speech-based audio signal processing |
CN113223544B (zh) * | 2020-01-21 | 2024-04-02 | 珠海市煊扬科技有限公司 | 音频的方向定位侦测装置及方法以及音频处理系统 |
CN111294474B (zh) * | 2020-02-13 | 2021-04-16 | 杭州国芯科技股份有限公司 | 一种双端通话检测方法 |
CN111402918B (zh) * | 2020-03-20 | 2023-08-08 | 北京达佳互联信息技术有限公司 | 一种音频处理方法、装置、设备及存储介质 |
US11490597B2 (en) | 2020-07-04 | 2022-11-08 | Radio Systems Corporation | Systems, methods, and apparatus for establishing keep out zones within wireless containment regions |
CN113949979A (zh) * | 2020-07-17 | 2022-01-18 | 通用微(深圳)科技有限公司 | 声音采集装置、声音处理设备及方法、装置、存储介质 |
CN113949977B (zh) * | 2020-07-17 | 2023-08-11 | 通用微(深圳)科技有限公司 | 声音采集装置、声音处理设备及方法、装置、存储介质 |
CN112201267A (zh) * | 2020-09-07 | 2021-01-08 | 北京达佳互联信息技术有限公司 | 一种音频处理方法、装置、电子设备及存储介质 |
CN113008851B (zh) * | 2021-02-20 | 2024-04-12 | 大连海事大学 | 一种基于斜入式激发提高共聚焦结构微弱信号检测信噪比的装置 |
KR20220136750A (ko) | 2021-04-01 | 2022-10-11 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
CN113190508B (zh) * | 2021-04-26 | 2023-05-05 | 重庆市规划和自然资源信息中心 | 一种面向管理的自然语言识别方法 |
CN114745026B (zh) * | 2022-04-12 | 2023-10-20 | 重庆邮电大学 | 一种基于深度饱和脉冲噪声的自动增益控制方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1613109A (zh) * | 2002-01-09 | 2005-05-04 | 皇家飞利浦电子股份有限公司 | 具有与频谱功率比值相关的处理器的音频增强系统 |
Family Cites Families (127)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4641344A (en) | 1984-01-06 | 1987-02-03 | Nissan Motor Company, Limited | Audio equipment |
CN85105410B (zh) | 1985-07-15 | 1988-05-04 | 日本胜利株式会社 | 降低噪音系统 |
US5105377A (en) | 1990-02-09 | 1992-04-14 | Noise Cancellation Technologies, Inc. | Digital virtual earth active cancellation system |
JP2797616B2 (ja) * | 1990-03-16 | 1998-09-17 | 松下電器産業株式会社 | 雑音抑圧装置 |
JPH06503897A (ja) | 1990-09-14 | 1994-04-28 | トッドター、クリス | ノイズ消去システム |
US5388185A (en) | 1991-09-30 | 1995-02-07 | U S West Advanced Technologies, Inc. | System for adaptive processing of telephone voice signals |
WO1993026085A1 (en) | 1992-06-05 | 1993-12-23 | Noise Cancellation Technologies | Active/passive headset with speech filter |
DE69227924T2 (de) | 1992-06-05 | 1999-07-29 | Noise Cancellation Tech | Aktiver kopfhörer mit erhöhter selektivität |
JPH06175691A (ja) * | 1992-12-07 | 1994-06-24 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 音声強調装置と音声強調方法 |
US7103188B1 (en) | 1993-06-23 | 2006-09-05 | Owen Jones | Variable gain active noise cancelling system with improved residual noise sensing |
US5485515A (en) | 1993-12-29 | 1996-01-16 | At&T Corp. | Background noise compensation in a telephone network |
US5526419A (en) | 1993-12-29 | 1996-06-11 | At&T Corp. | Background noise compensation in a telephone set |
US5764698A (en) | 1993-12-30 | 1998-06-09 | International Business Machines Corporation | Method and apparatus for efficient compression of high quality digital audio |
US6885752B1 (en) | 1994-07-08 | 2005-04-26 | Brigham Young University | Hearing aid device incorporating signal processing techniques |
US5646961A (en) | 1994-12-30 | 1997-07-08 | Lucent Technologies Inc. | Method for noise weighting filtering |
JP2993396B2 (ja) | 1995-05-12 | 1999-12-20 | 三菱電機株式会社 | 音声加工フィルタ及び音声合成装置 |
JPH096391A (ja) * | 1995-06-22 | 1997-01-10 | Ono Sokki Co Ltd | 信号推定装置 |
DE69628103T2 (de) | 1995-09-14 | 2004-04-01 | Kabushiki Kaisha Toshiba, Kawasaki | Verfahren und Filter zur Hervorbebung von Formanten |
US6002776A (en) | 1995-09-18 | 1999-12-14 | Interval Research Corporation | Directional acoustic signal processor and method therefor |
US5794187A (en) | 1996-07-16 | 1998-08-11 | Audiological Engineering Corporation | Method and apparatus for improving effective signal to noise ratios in hearing aids and other communication systems used in noisy environments without loss of spectral information |
US6240192B1 (en) | 1997-04-16 | 2001-05-29 | Dspfactory Ltd. | Apparatus for and method of filtering in an digital hearing aid, including an application specific integrated circuit and a programmable digital signal processor |
DE19806015C2 (de) | 1998-02-13 | 1999-12-23 | Siemens Ag | Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen |
DE19805942C1 (de) * | 1998-02-13 | 1999-08-12 | Siemens Ag | Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen |
US6415253B1 (en) | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US6411927B1 (en) * | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
JP3459363B2 (ja) | 1998-09-07 | 2003-10-20 | 日本電信電話株式会社 | 雑音低減処理方法、その装置及びプログラム記憶媒体 |
US7031460B1 (en) | 1998-10-13 | 2006-04-18 | Lucent Technologies Inc. | Telephonic handset employing feed-forward noise cancellation |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US6233549B1 (en) | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
EP1155561B1 (de) | 1999-02-26 | 2006-05-24 | Infineon Technologies AG | Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen |
US6704428B1 (en) | 1999-03-05 | 2004-03-09 | Michael Wurtz | Automatic turn-on and turn-off control for battery-powered headsets |
WO2000065872A1 (en) | 1999-04-26 | 2000-11-02 | Dspfactory Ltd. | Loudness normalization control for a digital hearing aid |
ATE356469T1 (de) | 1999-07-28 | 2007-03-15 | Clear Audio Ltd | Verstärkungsregelung von audiosignalen in lärmender umgebung mit hilfe einer filterbank |
JP2001056693A (ja) | 1999-08-20 | 2001-02-27 | Matsushita Electric Ind Co Ltd | 騒音低減装置 |
EP1081685A3 (en) | 1999-09-01 | 2002-04-24 | TRW Inc. | System and method for noise reduction using a single microphone |
US6732073B1 (en) * | 1999-09-10 | 2004-05-04 | Wisconsin Alumni Research Foundation | Spectral enhancement of acoustic signals to provide improved recognition of speech |
US6480610B1 (en) | 1999-09-21 | 2002-11-12 | Sonic Innovations, Inc. | Subband acoustic feedback cancellation in hearing aids |
AUPQ366799A0 (en) | 1999-10-26 | 1999-11-18 | University Of Melbourne, The | Emphasis of short-duration transient speech features |
CA2290037A1 (en) | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US20070110042A1 (en) | 1999-12-09 | 2007-05-17 | Henry Li | Voice and data exchange over a packet based network |
US6757395B1 (en) | 2000-01-12 | 2004-06-29 | Sonic Innovations, Inc. | Noise reduction apparatus and method |
JP2001292491A (ja) | 2000-02-03 | 2001-10-19 | Alpine Electronics Inc | イコライザ装置 |
US7742927B2 (en) | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
US6678651B2 (en) | 2000-09-15 | 2004-01-13 | Mindspeed Technologies, Inc. | Short-term enhancement in CELP speech coding |
US7010480B2 (en) | 2000-09-15 | 2006-03-07 | Mindspeed Technologies, Inc. | Controlling a weighting filter based on the spectral content of a speech signal |
US7206418B2 (en) * | 2001-02-12 | 2007-04-17 | Fortemedia, Inc. | Noise suppression for a wireless communication device |
US6616481B2 (en) | 2001-03-02 | 2003-09-09 | Sumitomo Wiring Systems, Ltd. | Connector |
US20030028386A1 (en) | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
US6937738B2 (en) | 2001-04-12 | 2005-08-30 | Gennum Corporation | Digital hearing aid system |
EP1251715B2 (en) | 2001-04-18 | 2010-12-01 | Sound Design Technologies Ltd. | Multi-channel hearing instrument with inter-channel communication |
US6820054B2 (en) | 2001-05-07 | 2004-11-16 | Intel Corporation | Audio signal processing for speech communication |
JP4145507B2 (ja) | 2001-06-07 | 2008-09-03 | 松下電器産業株式会社 | 音質音量制御装置 |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
CA2354755A1 (en) | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
US7277554B2 (en) | 2001-08-08 | 2007-10-02 | Gn Resound North America Corporation | Dynamic range compression using digital frequency warping |
JP2003218745A (ja) | 2002-01-22 | 2003-07-31 | Asahi Kasei Microsystems Kk | ノイズキャンセラ及び音声検出装置 |
US6748009B2 (en) | 2002-02-12 | 2004-06-08 | Interdigital Technology Corporation | Receiver for wireless telecommunication stations and method |
JP2003271191A (ja) | 2002-03-15 | 2003-09-25 | Toshiba Corp | 音声認識用雑音抑圧装置及び方法、音声認識装置及び方法並びにプログラム |
CA2388352A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
US6968171B2 (en) | 2002-06-04 | 2005-11-22 | Sierra Wireless, Inc. | Adaptive noise reduction system for a wireless receiver |
EP1522206B1 (en) | 2002-07-12 | 2007-10-03 | Widex A/S | Hearing aid and a method for enhancing speech intelligibility |
DE60310084T2 (de) | 2002-07-24 | 2007-06-28 | Massachusetts Institute Of Technology, Cambridge | Vorrichtung und verfahren zur verteilten verstärkungsregelung zur spektralen verbesserung |
US7336662B2 (en) * | 2002-10-25 | 2008-02-26 | Alcatel Lucent | System and method for implementing GFR service in an access node's ATM switch fabric |
CN100369111C (zh) | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
US7242763B2 (en) | 2002-11-26 | 2007-07-10 | Lucent Technologies Inc. | Systems and methods for far-end noise reduction and near-end noise compensation in a mixed time-frequency domain compander to improve signal quality in communications systems |
KR100480789B1 (ko) | 2003-01-17 | 2005-04-06 | 삼성전자주식회사 | 피드백 구조를 이용한 적응적 빔 형성방법 및 장치 |
DE10308483A1 (de) | 2003-02-26 | 2004-09-09 | Siemens Audiologische Technik Gmbh | Verfahren zur automatischen Verstärkungseinstellung in einem Hörhilfegerät sowie Hörhilfegerät |
JP4018571B2 (ja) | 2003-03-24 | 2007-12-05 | 富士通株式会社 | 音声強調装置 |
US7330556B2 (en) | 2003-04-03 | 2008-02-12 | Gn Resound A/S | Binaural signal enhancement system |
WO2004097799A1 (en) | 2003-04-24 | 2004-11-11 | Massachusetts Institute Of Technology | System and method for spectral enhancement employing compression and expansion |
SE0301273D0 (sv) | 2003-04-30 | 2003-04-30 | Coding Technologies Sweden Ab | Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods |
BRPI0410740A (pt) | 2003-05-28 | 2006-06-27 | Dolby Lab Licensing Corp | método, aparelho e programa de computador para calcular e ajustar o volume percebido de um sinal de áudio |
JP4583781B2 (ja) | 2003-06-12 | 2010-11-17 | アルパイン株式会社 | 音声補正装置 |
JP2005004013A (ja) | 2003-06-12 | 2005-01-06 | Pioneer Electronic Corp | ノイズ低減装置 |
ATE324763T1 (de) | 2003-08-21 | 2006-05-15 | Bernafon Ag | Verfahren zur verarbeitung von audiosignalen |
US7099821B2 (en) | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
DE10362073A1 (de) | 2003-11-06 | 2005-11-24 | Herbert Buchner | Vorrichtung und Verfahren zum Verarbeiten eines Eingangssignals |
JP2005168736A (ja) | 2003-12-10 | 2005-06-30 | Aruze Corp | 遊技機 |
EP1704559A1 (en) | 2004-01-06 | 2006-09-27 | Koninklijke Philips Electronics N.V. | Systems and methods for automatically equalizing audio signals |
ATE402468T1 (de) | 2004-03-17 | 2008-08-15 | Harman Becker Automotive Sys | Geräuschabstimmungsvorrichtung, verwendung derselben und geräuschabstimmungsverfahren |
TWI238012B (en) | 2004-03-24 | 2005-08-11 | Ou-Huang Lin | Circuit for modulating audio signals in two channels of television to generate audio signal of center third channel |
CN1322488C (zh) | 2004-04-14 | 2007-06-20 | 华为技术有限公司 | 一种语音增强的方法 |
US7492889B2 (en) | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
TWI279775B (en) | 2004-07-14 | 2007-04-21 | Fortemedia Inc | Audio apparatus with active noise cancellation |
CA2481629A1 (en) | 2004-09-15 | 2006-03-15 | Dspfactory Ltd. | Method and system for active noise cancellation |
DE602004015987D1 (de) | 2004-09-23 | 2008-10-02 | Harman Becker Automotive Sys | Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung |
US7676362B2 (en) | 2004-12-31 | 2010-03-09 | Motorola, Inc. | Method and apparatus for enhancing loudness of a speech signal |
US7903824B2 (en) | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
US20080243496A1 (en) | 2005-01-21 | 2008-10-02 | Matsushita Electric Industrial Co., Ltd. | Band Division Noise Suppressor and Band Division Noise Suppressing Method |
US8102872B2 (en) | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
US20060262938A1 (en) | 2005-05-18 | 2006-11-23 | Gauger Daniel M Jr | Adapted audio response |
US8280730B2 (en) | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
US8566086B2 (en) | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
KR100800725B1 (ko) | 2005-09-07 | 2008-02-01 | 삼성전자주식회사 | 이동통신 단말의 오디오 재생시 주변 잡음에 적응하는 자동음량 조절 방법 및 장치 |
EP4372743A2 (en) | 2006-01-27 | 2024-05-22 | Dolby International AB | Efficient filtering with a complex modulated filterbank |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US7729775B1 (en) * | 2006-03-21 | 2010-06-01 | Advanced Bionics, Llc | Spectral contrast enhancement in a cochlear implant speech processor |
US7676374B2 (en) | 2006-03-28 | 2010-03-09 | Nokia Corporation | Low complexity subband-domain filtering in the case of cascaded filter banks |
GB2436657B (en) | 2006-04-01 | 2011-10-26 | Sonaptic Ltd | Ambient noise-reduction control system |
US7720455B2 (en) | 2006-06-30 | 2010-05-18 | St-Ericsson Sa | Sidetone generation for a wireless system that uses time domain isolation |
US8185383B2 (en) | 2006-07-24 | 2012-05-22 | The Regents Of The University Of California | Methods and apparatus for adapting speech coders to improve cochlear implant performance |
JP4455551B2 (ja) | 2006-07-31 | 2010-04-21 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2008122729A (ja) | 2006-11-14 | 2008-05-29 | Sony Corp | ノイズ低減装置、ノイズ低減方法、ノイズ低減プログラムおよびノイズ低減音声出力装置 |
US7401442B2 (en) * | 2006-11-28 | 2008-07-22 | Roger A Clark | Portable panel construction and method for making the same |
DK1931172T3 (da) | 2006-12-01 | 2009-10-12 | Siemens Audiologische Technik | Höreapparat med undertrykkelse af stöjlyde og en tilsvarende fremgangsmåde |
JP4882773B2 (ja) | 2007-02-05 | 2012-02-22 | ソニー株式会社 | 信号処理装置、信号処理方法 |
US8160273B2 (en) * | 2007-02-26 | 2012-04-17 | Erik Visser | Systems, methods, and apparatus for signal separation using data driven techniques |
JP5034595B2 (ja) | 2007-03-27 | 2012-09-26 | ソニー株式会社 | 音響再生装置および音響再生方法 |
US7742746B2 (en) | 2007-04-30 | 2010-06-22 | Qualcomm Incorporated | Automatic volume and dynamic range adjustment for mobile audio devices |
WO2008138349A2 (en) | 2007-05-10 | 2008-11-20 | Microsound A/S | Enhanced management of sound provided via headphones |
US8600516B2 (en) | 2007-07-17 | 2013-12-03 | Advanced Bionics Ag | Spectral contrast enhancement in a cochlear implant speech processor |
US8489396B2 (en) | 2007-07-25 | 2013-07-16 | Qnx Software Systems Limited | Noise reduction with integrated tonal noise reduction |
US8428661B2 (en) | 2007-10-30 | 2013-04-23 | Broadcom Corporation | Speech intelligibility in telephones with multiple microphones |
WO2009082302A1 (en) | 2007-12-20 | 2009-07-02 | Telefonaktiebolaget L M Ericsson (Publ) | Noise suppression method and apparatus |
US20090170550A1 (en) | 2007-12-31 | 2009-07-02 | Foley Denis J | Method and Apparatus for Portable Phone Based Noise Cancellation |
DE102008039329A1 (de) | 2008-01-25 | 2009-07-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts |
US8483854B2 (en) | 2008-01-28 | 2013-07-09 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multiple microphones |
US9142221B2 (en) | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
US8131541B2 (en) | 2008-04-25 | 2012-03-06 | Cambridge Silicon Radio Limited | Two microphone noise reduction system |
US8538749B2 (en) | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US9202455B2 (en) | 2008-11-24 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced active noise cancellation |
US9202456B2 (en) | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US20100296666A1 (en) | 2009-05-25 | 2010-11-25 | National Chin-Yi University Of Technology | Apparatus and method for noise cancellation in voice communication |
US8737636B2 (en) | 2009-07-10 | 2014-05-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive active noise cancellation |
US20110099010A1 (en) | 2009-10-22 | 2011-04-28 | Broadcom Corporation | Multi-channel noise suppression system |
US9053697B2 (en) | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
US20120263317A1 (en) | 2011-04-13 | 2012-10-18 | Qualcomm Incorporated | Systems, methods, apparatus, and computer readable media for equalization |
-
2009
- 2009-05-28 US US12/473,492 patent/US8831936B2/en active Active
- 2009-05-29 WO PCT/US2009/045676 patent/WO2009148960A2/en active Application Filing
- 2009-05-29 CN CN2009801196505A patent/CN102047326A/zh active Pending
- 2009-05-29 CN CN201310216954.1A patent/CN103247295B/zh not_active Expired - Fee Related
- 2009-05-29 KR KR1020107029470A patent/KR101270854B1/ko not_active IP Right Cessation
- 2009-05-29 JP JP2011511857A patent/JP5628152B2/ja not_active Expired - Fee Related
- 2009-05-29 EP EP09759121A patent/EP2297730A2/en not_active Withdrawn
- 2009-06-01 TW TW098118088A patent/TW201013640A/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1613109A (zh) * | 2002-01-09 | 2005-05-04 | 皇家飞利浦电子股份有限公司 | 具有与频谱功率比值相关的处理器的音频增强系统 |
Also Published As
Publication number | Publication date |
---|---|
CN103247295A (zh) | 2013-08-14 |
TW201013640A (en) | 2010-04-01 |
US20090299742A1 (en) | 2009-12-03 |
WO2009148960A2 (en) | 2009-12-10 |
JP2011522294A (ja) | 2011-07-28 |
WO2009148960A3 (en) | 2010-02-18 |
EP2297730A2 (en) | 2011-03-23 |
CN102047326A (zh) | 2011-05-04 |
KR101270854B1 (ko) | 2013-06-05 |
US8831936B2 (en) | 2014-09-09 |
KR20110025667A (ko) | 2011-03-10 |
JP5628152B2 (ja) | 2014-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103247295B (zh) | 用于频谱对比加强的系统、方法、设备 | |
CN102057427B (zh) | 用于加强可懂度的方法和设备 | |
CN102947878B (zh) | 用于音频均衡的系统、方法、装置和设备 | |
CN101903948B (zh) | 用于基于多麦克风的语音增强的系统、方法及设备 | |
CN102461203B (zh) | 用于对多信道信号进行基于相位的处理的系统、方法及设备 | |
CN102893331B (zh) | 用于使用头戴式麦克风对来处理语音信号的方法和设备 | |
CN103026733B (zh) | 用于多麦克风位置选择性处理的系统、方法、设备和计算机可读媒体 | |
CN103392349B (zh) | 用于空间选择性音频增强的方法和设备 | |
CN101622669A (zh) | 用于信号分离的系统、方法及设备 | |
CN102047688A (zh) | 用于多通道信号平衡的系统、方法和设备 | |
CN101278337A (zh) | 噪声环境中语音信号的健壮分离 | |
TW201030733A (en) | Systems, methods, apparatus, and computer program products for enhanced active noise cancellation | |
TW202345145A (zh) | 使用神經網路和多個子帶網路的音訊樣本重構 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160224 Termination date: 20210529 |
|
CF01 | Termination of patent right due to non-payment of annual fee |