CN104246877B - 用于音频信号处理的系统和方法 - Google Patents
用于音频信号处理的系统和方法 Download PDFInfo
- Publication number
- CN104246877B CN104246877B CN201380021438.1A CN201380021438A CN104246877B CN 104246877 B CN104246877 B CN 104246877B CN 201380021438 A CN201380021438 A CN 201380021438A CN 104246877 B CN104246877 B CN 104246877B
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- spectrum
- module
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 244
- 230000005236 sound signal Effects 0.000 title claims abstract description 243
- 238000012545 processing Methods 0.000 title description 15
- 238000001228 spectrum Methods 0.000 claims description 213
- 230000001629 suppression Effects 0.000 claims description 114
- 238000001514 detection method Methods 0.000 claims description 81
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000009434 installation Methods 0.000 description 240
- 239000011295 pitch Substances 0.000 description 149
- 230000000694 effects Effects 0.000 description 104
- 230000008569 process Effects 0.000 description 67
- 238000004891 communication Methods 0.000 description 58
- 238000012805 post-processing Methods 0.000 description 48
- 238000010586 diagram Methods 0.000 description 39
- 230000009977 dual effect Effects 0.000 description 32
- 230000006870 function Effects 0.000 description 27
- 238000011084 recovery Methods 0.000 description 27
- 238000003860 storage Methods 0.000 description 24
- 238000004140 cleaning Methods 0.000 description 17
- 230000003068 static effect Effects 0.000 description 17
- 238000010606 normalization Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 239000012634 fragment Substances 0.000 description 14
- 239000000047 product Substances 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 230000005611 electricity Effects 0.000 description 12
- 238000000926 separation method Methods 0.000 description 11
- 102100026436 Regulator of MON1-CCZ1 complex Human genes 0.000 description 9
- 101710180672 Regulator of MON1-CCZ1 complex Proteins 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 230000001419 dependent effect Effects 0.000 description 7
- 238000007689 inspection Methods 0.000 description 7
- 241001269238 Data Species 0.000 description 6
- 241000209140 Triticum Species 0.000 description 6
- 235000021307 Triticum Nutrition 0.000 description 6
- 238000003491 array Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 4
- 230000000712 assembly Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 239000011469 building brick Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 239000004568 cement Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002463 transducing effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 101000746134 Homo sapiens DNA endonuclease RBBP8 Proteins 0.000 description 1
- 101000969031 Homo sapiens Nuclear protein 1 Proteins 0.000 description 1
- 102100021133 Nuclear protein 1 Human genes 0.000 description 1
- 241000545442 Radix Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000005621 ferroelectricity Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Circuits Of Receivers In General (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明描述一种用于通过电子装置进行信号电平匹配的方法。所述方法包含从多个麦克风俘获多个音频信号。所述方法还包含基于麦克风间减法确定差信号。所述差信号包含多个谐波。所述方法还包含确定所述差信号的调和性是否超过调和性阈值。所述方法还包含保留所述谐波以确定包络。所述方法进一步将所述包络应用于经噪声抑制信号。
Description
相关申请案
本申请案涉及且主张2012年4月23日申请的题为“用于在噪声抑制之后近似匹配输出电平与输入电平的装置(DEVICES FOR APPROXIMATELY MATCHING OUTPUT LEVEL TOINPUT LEVEL AFTER NOISE SUPPRESSION)”的第61/637,175号美国临时专利申请案、2012年6月12日申请的题为“用于保留音频包络的装置(DEVICES FOR PRESERVING AN AUDIOENVELOPE)”的第61/658,843号美国临时专利申请案、2012年11月14日申请的题为“用于信号电平匹配的系统和方法(SYSTEMS AND METHODS FOR SIGNAL LEVEL MATCHING)”的第61/726,458号美国临时专利申请案以及2012年12月18日申请的题为“用于信号电平匹配的装置(DEVICES FOR SIGNAL LEVEL MATCHING)”的第61/738,976号美国临时专利申请案的优先权。
技术领域
本发明大体上涉及通信系统。更具体来说,本发明涉及用于音频信号处理的系统和方法。
背景技术
通信系统经广泛部署以提供各种类型的通信内容,例如数据、话音、视频等等。这些系统可为能够支持多个通信装置(例如,无线通信装置、接入终端等等)与一或多个其它通信装置(例如,基站、接入点等等)的同时通信的多址系统。一些通信装置(例如,接入终端、膝上型计算机、智能电话、媒体播放器、游戏装置等等)可以无线方式与其它通信装置通信。
先前在安静的办公室或家庭环境中执行的许多活动现在可以在例如汽车、街道或咖啡店的声学可变情形中执行。举例来说,一个人可使用话音通信信道与另一个人通信。所述信道可例如由移动无线手持机或头戴式耳机、对讲机、双向无线电、车载套件或另一通信装置提供。因此,在用户被其他人包围的环境中,大量话音通信正在使用便携式音频感测装置(例如,智能电话、手持机和/或头戴式耳机)发生,其中噪声内容的种类是通常在人们容易聚集的地方遇到的种类。
此噪声往往使得在电话对话的远端的用户分心或烦恼。而且,许多标准自动化商业事务(例如,账户余额或股票报价检查)采用基于话音辨识的数据查询,且这些系统的准确性可受到干扰噪声的明显妨碍。因此,可帮助减少这些低效的装置可为有益的。
发明内容
本发明描述一种用于通过电子装置进行信号电平匹配的方法。所述方法包含从多个麦克风俘获多个音频信号。所述方法还包含基于麦克风间减法确定差信号。所述差信号包含多个谐波。所述方法还包含确定所述差信号的调和性是否超过调和性阈值。所述方法还包含保留所述谐波以确定包络。所述方法包含将所述包络应用于经噪声抑制信号。
所述方法可包含将输入频谱分段为一或多个频带。所述方法还可包含测量每一频带的信噪比。所述方法还可包含确定所述信噪比是否小于第一阈值。所述方法可进一步包含组装目标频谱。所述方法可包含基于所述目标频谱调整所述经噪声抑制信号中的一或多个频带的增益。
组装目标频谱可包含用语音模板频谱的一部分代替语音参考频谱的一部分。语音参考频谱的被代替的部分可包含信噪比小于第一阈值的一或多个频带。语音参考频谱可基于输入频谱。语音模板频谱可基于码簿。所述语音模板频谱可基于所述输入频谱的其中所述信噪比大于所述第一阈值的频带的内插。
组装目标频谱可包含谐波合成产生。所述方法可包含基于所述多个音频信号抑制残余噪声。将所述包络应用于所述经噪声抑制信号可包含调整所述经噪声抑制信号的增益以使得经噪声抑制信号电平近似匹配于音频信号电平。确定差信号可包含确定所述输入频谱的对应于语音信号的部分。目标频谱可基于增益差和音高估计。
所述方法可包含接收信号。所述方法可包含对所述噪声信号进行滤波以产生经滤波噪声信号。所述方法可包含基于所述经滤波噪声信号和语音信号产生第一求和信号。所述方法可包含基于所述第一求和信号产生经变换信号。所述方法还可包含产生所述经变换信号的基频。所述方法可包含产生置信度量度或发音参数。所述方法可进一步包含基于所述基频估计一或多个正弦参数。所述方法还可包含基于所述一或多个正弦参数产生正弦信号。所述方法可包含将所述正弦信号乘以所述置信度量度或发音参数以产生经按比例缩放正弦信号。所述方法还可包含对所述经按比例缩放正弦信号进行滤波以产生第一经滤波信号。所述方法可包含对所述经变换信号进行滤波以产生第二经滤波信号。所述方法可进一步包含将所述第一经滤波信号和所述第二经滤波信号求和以产生第二求和信号。所述方法可进一步包含将所述第二求和信号变换到时域中。
还描述一种用于信号电平匹配的电子装置。所述电子装置包含多个麦克风,其俘获多个音频信号。所述电子装置还包含麦克风间减法电路,其耦合到所述多个音频麦克风。所述麦克风间减法电路基于麦克风间减法确定差信号。所述差信号包含多个谐波。所述电子装置还包含包络确定电路,其耦合到所述麦克风间减法电路。所述包络确定电路确定所述差信号的调和性是否超过调和性阈值。所述包络确定电路还保留所述谐波以确定包络。所述电子装置还包含包络应用电路,其耦合到所述包络确定电路。所述包络应用电路将所述包络应用于经噪声抑制信号。
还描述一种用于信号电平匹配的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于致使电子装置从多个麦克风俘获多个音频信号的代码。所述指令还包含用于致使所述电子装置基于麦克风间减法确定差信号的代码。所述差信号包含多个谐波。所述指令包含用于致使所述电子装置确定所述差信号的调和性是否超过调和性阈值的代码。所述指令还包含用于致使所述电子装置保留所述谐波以确定包络的代码。所述指令进一步包含用于致使所述电子装置将所述包络应用于经噪声抑制信号的代码。
还描述一种用于信号电平匹配的设备。所述设备包含用于俘获多个音频信号的装置。所述设备还包含用于基于麦克风间减法确定差信号的装置。所述差信号包含多个谐波。所述设备还包含用于确定所述差信号的调和性是否超过调和性阈值的装置。所述设备还包含用于保留所述谐波以确定包络的装置。所述设备还包含用于将所述包络应用于经噪声抑制信号的装置。
还描述另一种通过电子装置进行信号电平匹配的方法。所述方法包含将输入频谱分段为多个频带。所述方法还包含测量每一频带处的信噪比。所述方法进一步包含确定所述信噪比是否低于第一阈值。所述方法另外包含组装目标频谱。所述方法还包含基于所述目标频谱调整经噪声抑制信号中的一或多个频带的增益。
还描述另一种用于信号电平匹配的电子装置。所述电子装置包含分段电路,其将输入频谱分段为多个频带。所述电子装置还包含测量电路,其耦合到所述分段电路。所述测量电路测量每一频带处的信噪比。所述电子装置还包含阈值电路,其耦合到所述测量电路。所述阈值电路确定所述信噪比是否低于第一阈值。所述电子装置进一步包含组装电路,其耦合到所述阈值电路。所述组装电路组装目标频谱。所述电子装置另外包含调整电路,其耦合到所述组装电路。所述调整电路基于所述目标频谱调整经噪声抑制信号中的每一频带的增益。
还描述另一种用于信号电平匹配的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于致使电子装置将输入频谱分段为多个频带的代码。所述指令还包含用于致使所述电子装置测量每一频带处的信噪比的代码。所述指令进一步包含用于致使所述电子装置确定所述信噪比是否低于第一阈值的代码。所述指令另外包含用于致使所述电子装置组装目标频谱的代码。所述指令还包含用于致使所述电子装置基于所述目标频谱调整经噪声抑制信号中的每一频带的增益的代码。
还描述另一种用于信号电平匹配的设备。所述设备包含用于将输入频谱分段为多个频带的装置。所述设备还包含用于测量每一频带处的信噪比的装置。所述设备进一步包含用于确定所述信噪比是否低于第一阈值的装置。所述设备另外包含用于组装目标频谱的装置。所述设备还包含用于基于所述目标频谱调整经噪声抑制信号中的每一频带的增益的装置。
附图说明
图1是说明其中可实施用于信号电平匹配的系统和方法的电子装置的一个配置的框图;
图2是说明用于信号电平匹配的方法的一个配置的流程图;
图3是说明用于语音包络保留和/或恢复的方法的一个配置的流程图;
图4是说明其中可实施用于信号电平匹配的系统和方法的电子装置的另一配置的框图;
图5是说明用于信号电平匹配的方法的另一配置的流程图;
图6是说明用于噪声抑制的方法的一个配置的流程图;
图7是说明其中可实施用于信号电平匹配的系统和方法的电子装置的另一配置的框图;
图8是说明用于信号电平匹配的方法的另一配置的流程图;
图9是说明其中可实施用于信号电平匹配的系统和方法的电子装置的另一配置的框图;
图10是说明其中可实施用于检测话音活动的系统和方法的电子装置的一个配置的框图;
图11是说明用于检测话音活动的方法的一个配置的流程图;
图12是说明其中可实施用于检测话音活动的系统和方法的无线通信装置的一个配置的框图;
图13是说明用于检测话音活动的方法的另一配置的流程图;
图13A是说明用于麦克风切换的方法的一个配置的流程图;
图14是说明用于检测话音活动的方法的另一配置的流程图;
图15是说明粉红噪声中的有话音语音的所记录频谱的曲线图;
图16A到16B包含说明音乐噪声中的谐波积谱统计数据的各种曲线图;
图17A是说明双麦克风噪声抑制系统的一个配置的一部分的框图;
图17B是说明双麦克风噪声抑制系统的一个配置的另一部分的框图;
图18是说明汽车噪声中的立体语音记录的曲线图;
图19是说明汽车噪声中的立体语音记录的另一曲线图;
图20是说明可根据本文揭示的系统和方法实施的元件的一个配置的框图;
图21是说明用于通过电子装置恢复经处理语音信号的方法的一个配置的流程图;
图22是说明后处理的较特定实例的框图;
图23是说明其中可实施用于恢复经处理语音信号的系统和方法的电子装置的更具体配置的框图;
图24是说明精炼器的一个配置的框图;
图25说明根据本文揭示的系统和方法的经正规化调和性的实例;
图26说明根据本文揭示的系统和方法的频率相依阈值设定的实例;
图27说明根据本文揭示的系统和方法的峰图的实例;
图28A说明根据本文揭示的系统和方法的后处理的实例;
图28B说明根据本文揭示的系统和方法的后处理的另一实例;
图28C说明根据本文揭示的系统和方法的后处理的另一实例;
图29是说明其中可实施用于信号电平匹配和检测话音活动的系统和方法的电子装置中的若干组件的一个配置的框图;
图30说明可在电子装置中利用的各种组件;以及
图31说明可包含在无线通信装置内的某些组件。
具体实施方式
第三代合作伙伴计划(3GPP)是旨在界定全球适用的第三代(3G)移动电话规范的电信协会的小组之间的合作。3GPP长期演进(LTE)是旨在改善通用移动电信系统(UMTS)移动电话标准的3GPP计划。3GPP可界定用于下一代移动网络、移动系统和移动装置的规范。
一些通信装置(例如,接入终端、客户端装置、客户端台等等)可以无线方式与其它通信装置通信。一些通信装置(例如,无线通信装置)可称为移动装置、移动台、订户台、客户端、客户端台、用户设备(UE)、远程台、接入终端、移动终端、终端、用户终端、订户单元等等。通信装置的实例包含蜂窝式电话基站或节点、接入点、无线网关、无线路由器、膝上型或桌上型计算机、蜂窝式电话、智能电话、无线调制解调器、电子阅读器、平板装置、游戏系统等等。这些通信装置中的一些可根据如上所述的一或多个行业标准来操作。因此,一般术语“通信装置”可包含以根据行业标准的不同命名(例如,接入终端、用户设备、远程终端、接入点、基站、节点B、演进型节点B等等)描述的通信装置。
通过引用文档的一部分的任何并入也应当理解为并入了在所述部分内参考的术语或变量的定义,此些定义在文档中的别处出现的地方,以及在所并入部分中参考的任何图式。除非初始通过定冠词介绍,否则用以修改权利要求元素的序数术语(例如,“第一”、“第二”、“第三”等等)本身并不指示所述权利要求元素相对于另一元素的任何优先级或次序,而是仅使所述权利要求元素区别于具有相同名称(但出于序数术语的使用)的另一权利要求元素。除非通过其上下文明确限制,否则术语“多个”和“集合”中的每一者在本文用以指示大于一的整数量。
对于其中通信在噪声环境中发生的应用,可能希望使所要语音信号与背景噪声分离。噪声可界定为干扰所要信号或另外使所要信号降级的所有信号的组合。背景噪声可包含在例如其他人的背景对话等声学环境内产生的许多噪声信号,以及从所要信号和/或其它信号中的任一者产生的反射和混响。除非所要语音信号与背景噪声分离,否则可能难以可靠且有效地使用所述信号。在一个特定实例中,语音信号在噪声环境中产生,且使用语音处理方法来分离语音信号与环境噪声。
在移动环境中遇到的噪声可包含多种不同分量,例如竞争的讲话者、音乐、多路串扰、街道噪声和/或机场噪声。由于此噪声的特征通常是非静止的且接近于用户自己的频率特征,因此所述噪声可能难以使用传统的单麦克风或固定波束成形类型方法来建模。单麦克风噪声减少技术通常需要显著参数调谐来实现最优性能。举例来说,合适的噪声参考在此些情况下可能不直接可用,且可能必须间接地推导噪声参考。因此,可能需要基于多麦克风的高级信号处理来支持在噪声环境中用于话音通信的移动装置的使用。
本文揭示的技术可用以改善话音活动检测(VAD)以便增强语音处理,例如话音译码。所揭示话音活动检测技术可用以改善话音检测的准确性和可靠性,且因此改善取决于话音活动检测的功能,例如噪声减少、回声消除、速率译码和类似功能。此改善可例如通过使用可从一或多个单独装置提供的话音活动检测信息来实现。话音活动检测信息可使用多个麦克风或其它传感器模态来产生以提供较准确的话音活动检测器。
如本文所述的话音活动检测器的使用可预期减少经常在传统话音活动检测中、尤其在低信噪比(SNR)情境中、在非静态噪声和竞争话音情况以及可能存在话音的其它情况中经历的语音处理错误。另外,可识别目标话音,且此话音活动检测器可用以提供目标话音活动的可靠估计。可能希望使用话音活动检测信息来控制声码器功能,例如噪声估计更新、回声消除(EC)、速率控制和类似功能。较可靠且准确的话音活动检测器可用以改善例如以下各项的语音处理功能:噪声减少(NR)(即,在较可靠话音活动检测的情况下,可在非话音片段中执行较高噪声减少),话音和非话音片段估计,回声消除,经改进双检测方案和速率译码改进,其允许较激进的速率译码方案(例如,用于非话音片段的较低速率)。
如本文描述的方法可经配置以处理所俘获信号作为一系列片段。典型的片段长度范围是从大约五或十毫秒到大约四十或五十毫秒,且片段可重叠(例如,其中邻近片段重叠25%或50%)或不重叠。在一个特定实例中,将信号划分为一系列不重叠的片段或“帧”,其各自具有十毫秒的长度。通过此方法处理的片段也可为通过不同操作处理的较大片段的片段(即,“子帧”),或反之亦然。
不利环境中的噪声抑制可能需要噪声和话音参数的准确估计。所记录信号的哪些部分对应于语音或噪声的标记可通过开发这些信号的性质的单通道或多通道话音活动检测器来实现。可评估信噪比条件以确定话音活动检测器中的哪些是可靠的。可对标记方案设定对应的检查和界定。尽管存在此些预防措施和复杂标记,也可能对经处理语音发生一些损害,尤其在具有低信噪比条件的信号中或在决策错误可导致临时话音衰减的动态情境中。这在语音包络的凸起和下沉、彻底衰减或语音输出信号的显著失真中是显著的。因此,可利用恢复阶段来维持某一感知输出电平一致性。这使得噪声抑制方案为闭环系统,其中可通过对照所记录语音输入频谱和电平检查噪声抑制输出来确定最终输出增益。
语音包络可在其有话音部分中编码,更具体来说在频谱增益中在基音频率的倍数处编码。确定这些增益可包含彻底跟踪所记录频谱和/或音高估计中的峰。信噪比测量可确定频谱的哪些部分可用以确定这些增益。在手持机配置中,确保存在具有良好信噪比的信号的一种方法可为在麦克风间减法级的输出处估计峰位置或音高,所述减法级将具有相同内容但由于麦克风距用户的嘴的距离而具有不同的所记录信噪比的两个(或两个以上)信号相减。一旦知道峰位置,便可从原始输入频谱检索所述位置。标记输入频谱的哪些部分是用于分析的有话音语音可通过使用单通道和多通道话音活动检测器来实现。给定语音包络,噪声抑制输出或增益可在有话音语音峰位置处按比例缩放回到预定义电平或与所记录输出相关的电平。举例来说,如果往回按比例缩放经抑制的输出,那么在固定点实施方案中可能发生一些精度损失。为了防止此情况,可改为致力于增益,其中在所有功能之后应用最终增益。这可导致一致的响度和语音颜色的感觉。在例如扬声器电话或分布式麦克风阵列等其它情境中,信噪比可能在频谱的部分中太差而使得可能需要语音包络的完全重构,因为噪声抑制将造成太多损坏。这要求有话音和无话音语音两者的合成(例如,增益合成和相位合成),其中丢失的参数是基于某个码簿或从频谱的较少噪声部分外推。
在一些实施方案中,为了保留语音包络,电子装置可包含有话音语音话音活动检测器。所述电子装置还可包含开关机构(例如,用于从双麦克风切换到单麦克风等等)。根据一个方法,所述切换机构可基于相位和双麦克风增益差。在另一方法中,所述切换机构可基于相位、双麦克风增益差和单麦克风话音活动检测器。此切换机构在具有0到5dB信噪比的公共噪声和/或音乐噪声的存在下可能是不足够的。因此,根据本文揭示的系统和方法可利用基于语音调和性的较可靠的话音活动检测器。近端话音语音检测器的一个实例是谐波积谱(HPS)话音活动检测器。
在一些实施方案中,电子装置可通过评估经增强信号的音高来计算对谐波内容敏感的统计数据。在一些实施方案中,经增强信号可表征为Mic1-a*Mic2。因此,第二麦克风(例如,Mic2)的信号可从第一麦克风(例如,Mic1)的信号减去。另外,第二麦克风(例如,Mic2)的信号可按比例缩放(例如,以因数a)。在一些实例中,音高估计可基于自相关、倒谱、谐波积谱和/或线性预测译码(LPC)技术来执行。举例来说,谐波积谱可使用频域方法用于计算音高。电子装置还可在最优保持模式间隔中计算语音音高直方图。语音音高直方图可用以选通谐波统计数据。举例来说,直方图可通过仅对语音音高范围敏感而选通谐波统计数据。在一些实施方案中,直方图可能够以固定缓冲长度更新,使得其可随着时间而调整。最终谐波统计数据(例如,经选通谐波统计数据)可用以计算近端有话音语音检测器。在一些实施方案中,术语“近端”涉及其中音高估计可基于两个麦克风之间的差(例如,Mic1-Mic2)的信号。这可强调较靠近Mic1(因此近端电话用户)的信号。有话音语音检测器可寻找某一音高范围中的调和性。语音直方图可学习音高范围或轮廓。在一些实施方案中,音高范围可用以对调和性统计数据进行加权。举例来说,在当前帧中的音高位于靠近直方图的最大值处时可使用接近于一的权重。或者,当音高范围沿着直方图的尾端定位时可使用接近于零的权重。在一些实施方案中,仅当麦克风增益差较大和/或测得的调和性较大时可更新直方图。近端有话音语音检测器可与其它单通道话音活动检测集成以检测近端语音。如果在一些间隔(例如,1.5秒间隔)期间检测到经衰减近端语音,那么切换机构可切换到单麦克风。应注意,在一些情况下,术语“谐波”和“调和性”在此可以可互换地使用。举例来说,“谐波统计数据”可替代地称为“调和性统计数据”。
话音活动检测可用以指示音频信号的片段中人语音的存在或不存在,所述音频信号也可含有音乐、噪声或其它声音。语音作用帧与语音非作用帧的此区别是语音增强和语音译码的重要部分,且话音活动检测是用于多种基于语音的应用的重要实现技术。举例来说,话音活动检测可用以支持例如话音译码和语音辨识等应用。话音活动检测也可用以在非语音片段期间减活一些过程。此减活可用以避免音频信号的静默帧的不必要译码和/或发射,从而节省计算和网络带宽。话音活动检测的方法(例如,如本文描述)通常经配置以在音频信号的一系列片段中的每一者上反复以指示片段中是否存在语音。
可能希望话音通信系统内的话音活动检测操作能够在极为多样类型的声学背景噪声的存在下检测话音活动。在噪声环境中话音检测的一个难题是有时遇到的极低的信噪比。在这些情形中,经常难以在话音与噪声、音乐或其它声音之间进行区分。
现在参见图式描述各种配置,其中相同参考数字可指示功能上类似的元件。如本文图中一般描述和说明的系统和方法可以广泛多种不同配置来布置和设计。因此,如图中表示的以下若干配置的更详细描述既定不限制所主张的范围,而仅代表所述系统和方法。在图中描绘的特征和/或元件在一些配置中可与在一或多个其它图中描绘的一或多个特征和/或元件组合或被其代替。举例来说,本文描述的电子装置中的一或多者可包含用于执行结合本文描述的方法中的一或多者描述的功能中的一或多者的电路。此外,在一些配置中的功能和/或块/模块中的一或多者可被其它配置中的功能和/或块/模块中的一或多者代替或与其组合。
图1是说明其中可实施用于信号电平匹配的系统和方法的电子装置102的一个配置的框图。电子装置102的实例包含无线通信装置、数字音频记录器、摄像机、桌上型计算机等等。举例来说,无线通信装置的实例包含智能电话、蜂窝式电话、个人数字助理(PDA)、无线调制解调器、手持式装置、膝上型计算机、会话起始协议(SIP)电话、无线本地回路(WLL)台、其它无线装置等等。
电子装置102可包含多个麦克风104中的一或多者、麦克风间减法块/模块106、包络确定块/模块110、经调整噪声抑制增益应用块/模块118和噪声抑制块/模块114。如本文使用,短语“块/模块”指示特定组件可以硬件、软件或两者的组合实施。举例来说,麦克风间减法块/模块106可以例如电路等硬件组件和/或例如指令或代码等软件组件等等来实施。
所述多个麦克风104可接收(例如,俘获)多个音频信号182。在一些实施方案中,音频信号182可具有一或多个分量。举例来说,麦克风104可接收具有语音分量和噪声分量的音频信号182。在一个实例中,语音分量可包含在电子装置102上讲话的用户的话音。如上所述,音频信号182的噪声分量可为干扰所要语音分量的任何分量。噪声分量的实例包含竞争的讲话者、环境噪声、语音信号的混响等等。
在一些配置中,所述多个麦克风104可在电子装置102上间隔开。举例来说,第一麦克风104可在电子装置102上放置于第一位置处。第二麦克风104可在电子装置102上放置于与第一位置明显不同的第二位置处。在此实例中,第一麦克风104和第二麦克风104可接收不同音频信号182。举例来说,第一麦克风104可较靠近音频信号182的源定位。第二麦克风104可较远离音频信号182的源定位。在此实例中,第一麦克风104可接收与由第二麦克风104接收的音频信号182不同的音频信号182。举例来说,由第一麦克风104接收的音频信号182的语音分量可比由第二麦克风104接收的音频信号182的语音分量强。
应注意,电子装置102可将输入频谱分段为一或多个频带(其中输入频谱是基于例如音频信号182)。举例来说,电子装置102可包含分段块/模块(图1中未图示),其将音频信号182的输入频谱分段且将频带提供到图1中说明的块/模块中的一或多者。因此,分段块/模块可耦合到图1中说明的其它块/模块中的一或多者。另外或替代地,图1中说明的块/模块中的一或多者(例如,噪声抑制块/模块114、麦克风间减法块/模块106、包络确定块/模块110、经调整噪声抑制增益应用块/模块118等等)可将输入频谱分段为一或多个频带。
噪声抑制块/模块114可耦合到所述多个麦克风104。噪声抑制块/模块114可从所述多个麦克风104接收所述多个音频信号182。基于所述多个音频信号182,噪声抑制块/模块114可产生噪声抑制增益116。在一些实施方案中,噪声抑制增益116可反映用于具有经抑制噪声的音频信号182的滤波器增益的版本。举例来说,噪声抑制块/模块114可从所述多个麦克风104接收多个音频信号182。噪声抑制块/模块114可随后使用多种噪声抑制技术(例如,削波技术)减少噪声音频信号182。
麦克风间减法块/模块106可耦合到所述多个麦克风104。麦克风间减法块/模块106可从所述多个麦克风104接收所述多个音频信号182。在一些配置中,麦克风间减法块/模块106可基于所述多个音频信号182确定差信号108。举例来说,麦克风间减法块/模块106可从由第一麦克风104接收的音频信号182减去由第二麦克风104接收的音频信号182以产生差信号108。
在电子装置102的使用期间,电子装置102可保持在各种定向。对于大多数手持机保持角度,语音音频信号182可预期从第一麦克风104(例如,较靠近音频信号182的源的麦克风104)到第二麦克风104(例如,较远离音频信号182的源的麦克风104)不同。然而,噪声音频信号182可预期从第一麦克风104到第二麦克风104保持近似相等。因此,麦克风间减法可预期改善第一麦克风104(例如,较靠近音频信号182的源的麦克风104)中的信噪比。
在一些配置中,差信号108可指示来自所述多个麦克风104的一或多个音频信号182之间的差。举例来说,差信号108可指示由第一麦克风104接收的音频信号182与由第二麦克风104接收的音频信号182之间的差。在一些实例中,差信号108可指示所接收音频信号182的一或多个特性。举例来说,差信号108可指示所接收音频信号182中的相位差。另外或替代地,差信号108可指示所接收音频信号182中的电平差。差信号108还可加重音频信号182的不同分量。举例来说,如上文描述,第一麦克风104可具有与第二麦克风104不同的语音音频信号182。在此实例中,第一麦克风104和第二麦克风104可具有类似的噪声音频信号182。在此实例中,差信号108可指示语音音频信号182中的差,因此突出语音音频信号182。
差信号108可包括多个谐波。在一些配置中,谐波可为基频的整数倍。举例来说,基频可表示话音的谐振频率。换句话说,谐波可由声带的振动引起。因此,差信号108可包括基频的多个整数变化。在此实例中,差信号108可包含基于基频的多个谐波。
在一些配置中,可基于差信号108计算调和性。举例来说,可使用谐波积谱(HPS)方法(例如,周期性程度)来计算调和性。可将调和性阈值应用于调和性水平。如果差信号108的调和性超过某一调和性阈值,那么此帧可经标记为有话音语音帧或至少是具有有话音语音的可能候选。在一些配置中,包络确定块/模块110可计算调和性。或者,另一组件或块/模块可计算调和性。
在一些实施方案中,在增强型可变速率编解码器(EVRC)中用于有话音/无话音语音分类的调和性阈值可基于波形的能量。调和性阈值可与涉及自相关的列文逊-杜宾(Levinson-Durbin)算法中的初始项中的一些相关。在一些实施方案中,调和性阈值可在经验上确定和/或可调谐。调和性阈值的一些实例可基于零交叉的数目或能量百分比范围。
在一些实施方案中,也可将阈值应用于差信号108。此差信号108阈值可为隐式阈值。此隐式阈值可为零。举例来说,在逐二进位减法之后,可将负差削减到零。另外,差信号108阈值可从零调整到任意固定值,或者其可根据例如调和性或信噪比等统计数据来设定。举例来说,如果调和性最近较高,那么可调整(例如,增加)差信号108阈值以使得忽略小的差,因为强谐波分量中的一些将无论如何都较可能在此条件中存留。在另一实例中,在低信噪比情况下,可升高差信号108阈值以丢弃差信号108中的噪声。在另一方法中,可将差信号108阈值降低到零以下,且可添加偏置以使差处于阈值零,使得含噪声的所要信号可用于调和性计算。
在一些方法中,可在将音频信号182中的一或多者乘以一或多个增益之后确定或获得差信号108。举例来说,差信号108可表达为Mic1-a*Mic2,其中“Mic1”是第一麦克风104信号,“Mic2”是第二麦克风信号104,且“a”是增益。应注意,增益中的一或多者可为0。举例来说,差信号108可表达为Mic1-0*Mic2。因此,在一些配置中,差信号108可为音频信号182中的一者。应注意,在一些配置中,麦克风间减法块/模块106可为任选的,且可不包含于电子装置102中。在这些配置中,可将音频信号182中的一或多者提供到包络确定块/模块110。
包络确定块/模块110可耦合到麦克风间减法块/模块106。包络确定块/模块110可确定包络112。换句话说,包络确定块/模块110可确定包络112的形状。包络确定块/模块110可产生和/或组装多个频带轮廓以产生包络112。在一些实施方案中,包络确定块/模块110可基于所述多个音频信号182确定包络112。更具体来说,包络确定块/模块110可基于音频信号182确定包络112。举例来说,包络确定块/模块110可基于如差信号108中指示的音频信号182的语音分量来确定包络112。
在一些配置中,包络确定块/模块110可使包络112基于音频信号182的一或多个谐波。如上所述,音频信号182可包含基频(对应于语音)的一或多个谐波。在此实例中,包络确定块/模块110可在确定包络112中保留音频信号182的谐波。
在一些实施方案中,一旦帧已经标记为有话音语音(例如,有话音语音对语音包络进行编码),便可基于检测到的调和性确定音高且基于音高确定原始麦克风输入信号的语音峰。所述峰也可通过在具有检测到的有话音语音的每一帧中执行最小值/最大值搜索来确定。这些峰振幅可能已被噪声抑制损坏,因此其可能需要往回按比例缩放或恢复到原始输入电平。
经调整噪声抑制增益应用块/模块118可耦合到包络确定块/模块110、噪声抑制块/模块114和/或一或多个麦克风104。经调整噪声抑制增益应用块/模块118可基于噪声抑制增益116、包络112和参考音频信号103中的一或多者产生输出101(例如,经噪声抑制输出信号)。举例来说,经调整噪声抑制增益应用块/模块118可将包络112应用于经噪声抑制信号。如更早描述,噪声抑制增益116可反映用于具有经抑制噪声的音频信号182的滤波器增益,其中已使用任何数目的噪声抑制技术抑制噪声。在一些配置中,经调整噪声抑制增益应用块/模块118可从噪声抑制块/模块114接收噪声抑制增益116。经调整噪声抑制增益应用块/模块118还可从包络确定块/模块110接收包络112。另外,经调整噪声抑制增益应用块/模块118可从所述一或多个麦克风104接收参考音频信号103。在一些配置中,差音频信号103可为音频信号182中的一者。举例来说,差音频信号103可为麦克风104信号中的一者,可从其测量目标语音的实际增益。
在一个实例中,经调整噪声抑制增益应用块/模块118可将包络112和噪声抑制增益中的一或多者应用于经噪声抑制信号。在一些实施方案中,经调整噪声抑制增益应用块/模块118可应用包络112和噪声抑制增益116以使得输出101电平近似匹配于音频信号182电平。举例来说,经调整噪声抑制增益应用块/模块118可削减经噪声抑制信号的一或多个峰和谷。另外或替代地,经调整噪声抑制增益应用块/模块118可按比例缩放经噪声抑制信号的一部分以使得其近似匹配包络112。举例来说,经调整噪声抑制增益应用块/模块118可将经噪声抑制信号的一或多个频带倍增以使得其近似匹配包络112。在一些配置中,经调整噪声抑制增益应用块/模块118可应用包络112和噪声抑制增益116以使得输出101电平近似匹配于所述多个音频信号182的电平。
在一些配置中,电子装置102可利用差信号108和/或差音频信号103以便确定频谱峰。频谱峰可用以基于频谱峰来恢复和/或调整最终噪声抑制增益。应注意,可在对经噪声抑制信号应用增益函数之前应用恢复或包络调整。举例来说,如果在增益函数之后应用恢复或包络调整,那么固定点译码中的一些精度损失可发生。下文结合图20到28给出关于这些配置的更多细节。
图2是说明用于信号电平匹配的方法200的一个配置的流程图。方法200可由电子装置102执行。举例来说,方法200可由无线通信装置执行。电子装置102可从多个麦克风104俘获202多个音频信号182。举例来说,所述多个麦克风104可将多个声学音频信号转换为多个电子音频信号。在一些配置中,电子装置102可将输入频谱分段为一或多个频带(其中输入频谱是基于例如音频信号182)。
电子装置102可基于麦克风间减法确定204差信号108。更具体来说,电子装置102可基于所述多个音频信号182的麦克风间减法确定204差信号108。举例来说,电子装置102可基于由第一麦克风104接收的音频信号182和由第二麦克风104接收的音频信号182确定204差信号108。在一些实施方案中,电子装置102可基于麦克风间减法确定204差信号,其中所述差信号包括多个谐波。举例来说,差信号108可包括基频的多个谐波。在一些实施方案中,基于麦克风间减法确定204差信号108可包含确定输入频谱的对应于语音信号的部分。
电子装置102可确定206差信号108的调和性是否超过调和性阈值。举例来说,可基于差信号108计算调和性。在一些实施方案中,这可如上所述完成。如果差信号108的调和性超过某一调和性阈值,那么此帧可经标记为有话音语音帧或至少是具有有话音语音的可能候选。
电子装置102可保留208谐波以确定包络112。举例来说,电子装置102可通过产生和/或组装多个频带轮廓以产生包络112来确定包络112。在一些实施方案中,包络确定块/模块110可基于所述多个音频信号182确定包络112。更具体来说,包络确定块/模块110可基于语音音频信号182确定包络112。举例来说,包络确定块/模块110可基于如差信号108中指示的语音音频信号182来确定包络112。
在一些配置中,包络确定块/模块110可使包络112基于音频信号182的一或多个谐波。在此实例中,包络确定块/模块110可保留208音频信号182的谐波。谐波可随后用以确定包络112。如上所述,差信号108可指示音频信号182的一或多个谐波。在一些实施方案中,包络确定块/模块110可保留208如差信号108中指示的音频信号182的谐波。在一些配置中,保留208谐波以形成包络112可导致近似等于由麦克风104接收的多个音频信号182的电平的包络112电平。
电子装置102可应用210包络112和经调整噪声抑制增益中的一或多者以获得经噪声抑制信号。举例来说,电子装置102可应用210包络112以使得输出信号(例如,经正规化信号)电平匹配于输入音频信号182的一或多个电平(例如,话音信号电平)。如上所述,经噪声抑制信号可基于所述多个音频信号182。举例来说,经噪声抑制信号可反映其中已抑制噪声的所述多个音频信号182的版本。
在一些实施方案中,应用210包络112可包含调整经噪声抑制信号以近似匹配于包络112。举例来说,经调整噪声抑制增益应用块/模块118可削减经噪声抑制信号的一或多个峰和谷以使得经噪声抑制信号近似匹配于包络112。另外或替代地,经调整噪声抑制增益应用块/模块118可按比例缩放经噪声抑制信号的一部分以近似匹配于包络112。举例来说,经调整噪声抑制增益应用块/模块118可将经噪声抑制信号的一或多个频带倍增以使得其近似匹配包络112。在一些配置中,经调整噪声抑制增益应用块/模块118可将包络112应用于信号以使得经噪声抑制信号电平近似匹配于所述多个音频信号182的电平。
图3是说明用于语音包络保留和/或恢复的方法300的一个配置的流程图。方法300可由电子装置102执行。在一些配置中,电子装置102可确定302麦克风间增益差是否平均较小。如果电子装置102确定302麦克风间增益差平均较小,那么电子装置102可切换304到单个麦克风。举例来说,如果信号满足一或多个准则,那么电子装置102可保持远离嘴部,且切换304到单个麦克风104。切换304到单个麦克风的实例如下给出。电子装置102可确定音频信号182是否满足一或多个准则。在一些实例中,音频信号182可为由关系Mic1-bMic2界定的双麦克风104信号,其中b是标量。准则的实例包含音频信号182的调和性在经界定时间周期中数次超过某一阈值,单通道话音活动检测器在作用中且双麦克风104噪声抑制输出相对于输入衰减。在一些配置中,除了在每一帧中评估差信号是否超过某一调和性阈值,此条件可能必须在一周期(例如,2秒)内针对至少某一数目的帧满足,因为将存在足够证据以将噪声抑制方案从多(例如,双)麦克风切换到单麦克风。如果电子装置102确定音频信号182满足一或多个准则,那么电子装置102可切换304到单个麦克风104。在一些实例中,切换304到单个麦克风104可基于接收到的输入。举例来说,用户可保持电话远离嘴部。
如果电子装置102确定302麦克风间增益并非平均较小,那么电子装置102可测量306每个频率区间的麦克风间差。在一些实施方案中,电子装置102可基于一或多个准则将频率区间标记308为语音频谱区间。举例来说,电子装置102可当差(例如,麦克风间增益差)超过某一阈值且近端有话音语音检测器指示话音活动时(例如,当谐波积谱话音活动检测器等于1时)将频率区间标记308为语音频谱区间。电子装置102可使用检测到的音高来预测310额外语音频谱峰。电子装置102可测量312第一麦克风104(例如,Mic1)信号中的经标记语音频谱增益。电子装置102可将输出语音频谱峰区间恢复314到第一麦克风104(例如,Mic1)电平和/或衰减语音频谱谷区间。
图4是说明其中可实施用于信号电平匹配的系统和方法的电子装置402的另一配置的框图。电子装置402可为结合图1描述的电子装置102的实例。电子装置402可包含麦克风间减法块/模块406,其可为结合图1描述的麦克风间减法块/模块106的实例。具体来说,麦克风间减法块/模块406可将由多个麦克风104提供的一或多个音频信号482a到482b相减。在一些配置中,音频信号482a到482b可为结合图1描述的音频信号182的实例。在一些实施方案中,麦克风间减法块/模块406可将输入频谱分段为一或多个频带。麦克风间减法块/模块406可降低音频信号482a到482b中的噪声电平,可能增强由麦克风间减法块/模块406产生的差信号408的峰。在一些配置中,差信号408可为结合图1描述的差信号108的实例。
电子装置402还可包含以下各项中的一或多者:峰跟踪器424、音高跟踪器422、回声消除/噪声抑制块/模块420、噪声峰学习器438、残余噪声抑制块/模块436、峰定位器426、精炼块/模块428、语音模板频谱确定块/模块440、语音参考频谱确定块/模块442、组装频谱块/模块444以及增益调整器块/模块446。
差信号408可提供到峰跟踪器424和音高跟踪器422中的一或多者。另外或替代地,所述多个麦克风104可将音频信号482a到482b提供到峰跟踪器424和/或音高跟踪器422。峰跟踪器424可跟踪差信号408和/或两个或两个以上音频信号482a到482b中的峰。音高跟踪器422可跟踪差信号408和/或两个或两个以上音频信号482a到482b的音高(例如,话音信号的基频和/或谐波)。峰跟踪器424和/或音高跟踪器422可将跟踪信息提供到峰定位器426。在一些实施方案中,峰定位器426可确定音频信号482a到482b中的峰的位置。举例来说,峰定位器426可分析差信号408和从麦克风104接收的音频信号482a到482b的峰以确定哪些峰是由噪声引起且哪些峰是由语音引起。
峰定位器426可将峰信息提供到精炼块/模块428。精炼块/模块428可确定用于确定包络112的峰信息的充分性。如上所述,包络112可基于所述多个音频信号482a到482b的峰。如果所述峰并不充分,那么包络112可能不可靠。在一个配置中,精炼块/模块428可通过确定音频信号482a到482b的信噪比且确定所述信噪比是否太低来确定峰是否充分。举例来说,精炼块/模块428可确定信噪比是否小于第一阈值。如果峰的信噪比太低(例如,低于第一阈值),那么所述峰不可提供充足信息来确定包络112的形状。在此情况下,电子装置402可利用位于语音模板频谱确定块/模块440中的语音模板频谱484以便为音频信号482a到482b的具有低信噪比的部分选择代替带频谱。在一些配置中,语音模板频谱484可基于码簿。在其它配置中,语音模板频谱484可基于输入频谱(例如,差信号408和音频信号482a到482b)的频带的内插,其中信噪比是充分的。
作为比较,如果峰是充分的(例如,信噪比不是太低),那么电子装置402可利用语音参考频谱486以便为音频信号482a到482b的所述部分选择带频谱。如上所述,所述多个麦克风104可耦合到语音参考频谱确定块/模块442。在一些情况下,语音参考频谱确定块/模块442可包含基于所述多个音频信号482a到482b的语音参考频谱486。在此情况下,语音参考频谱确定块/模块442中含有的语音参考频谱486可包含输入频谱(例如,来自所述多个麦克风104的音频信号482a到482b)的其中信噪比不太低的部分。
来自语音参考频谱486和/或来自语音模板频谱484的一或多个信号频带可提供到组装频谱块/模块444。举例来说,语音参考频谱确定块/模块442可将语音参考频谱486的一或多个频带(例如,对应于音频信号482a到482b的其中峰信息充分的频带)发送到组装频谱块/模块444。类似地,语音模板频谱确定块/模块440可将语音模板频谱484的一或多个频带(例如,对应于音频信号482a到482b的其中峰信息不充分的频带)发送到组装频谱块/模块444。组装频谱块/模块444可基于接收到的频带来组装目标频谱488。在一些配置中,结合图1描述的包络112可为目标频谱488的实例。在一些实施方案中,目标频谱488可基于增益差和音高估计。目标频谱488可随后提供到增益调整器块/模块446。如下文将更详细描述,增益调整器块/模块446可基于目标频谱488和/或噪声抑制增益416调整经噪声抑制信号的增益。
回声消除/噪声抑制块/模块420可对从所述一或多个麦克风104接收的输入音频信号482a到482b执行回声消除和/或噪声抑制。在一些实施方案中,回声消除/噪声抑制块/模块420可实施由结合图1描述的噪声抑制块/模块114执行的功能中的一或多者。回声消除/噪声抑制块/模块420可将话音和噪声信号434(V+N)以及噪声信号432(N)提供到残余噪声抑制块/模块436。
来自峰定位器426的噪声峰信息430可提供到残余噪声抑制块/模块436。另外或替代地,噪声峰学习器438可将信息提供到残余噪声抑制块/模块436。噪声峰学习器438可确定(例如,学习)非静态噪声频谱中的峰。在一些配置中,这可基于在音高跟踪和/或峰跟踪中利用的相同技术来实现。然而,这可对噪声参考信号执行或可经确定(例如,学习)为语音峰跟踪的副产物。学习到的噪声峰可用以识别干扰的说话者或音乐的音调残余。随后可例如在噪声抑制后处理级(例如,残余噪声抑制块/模块436)中有效地移除音调残余。残余噪声抑制块/模块436可执行额外噪声抑制以尝试从话音和噪声信号434移除残余噪声。举例来说,残余噪声抑制块/模块436可确定第一麦克风104信号的谐波。基于这些谐波,残余噪声抑制块/模块436可进一步抑制噪声。在另一实例中,残余噪声抑制块/模块436可确定差信号(例如,第一麦克风104减第二麦克风104信号)的谐波。基于这些谐波,残余噪声抑制块/模块436可进一步抑制噪声。举例来说,残余噪声抑制块/模块436可基于所述多个音频信号抑制残余噪声。在一些实施方案中,残余噪声抑制块/模块436可实施由结合图1描述的噪声抑制块/模块114执行的功能中的一或多者。
残余噪声抑制块/模块436可将噪声抑制增益416提供到增益调整器块/模块446。增益调整器块/模块446可基于目标频谱488和/或噪声抑制增益416放大和/或衰减经噪声抑制信号的部分(例如,频带)。另外或替代地,增益调整器块/模块446可按比例缩放经噪声抑制信号的一部分以使得其近似匹配于目标频谱488。举例来说,增益调整器块/模块446可将经噪声抑制信号的一或多个频带倍增以使得其近似匹配于目标频谱488。在一些配置中,增益调整器块/模块446可将目标频谱488应用于经噪声抑制信号,使得经噪声抑制信号近似匹配于所述多个麦克风104的所述多个音频信号482a到482b的电平。在一些配置中,增益调整器块/模块446可削减经噪声抑制信号的一或多个峰和谷,使得经噪声抑制信号近似匹配于目标频谱488的电平和/或所述多个音频信号482a到482b的电平。增益调整器块/模块446可提供输出频谱448。在一些配置中,输出频谱448可反映已应用目标频谱488的经噪声抑制信号。输出频谱448信号的电平可近似匹配于输入音频信号482a到482b(例如,输入话音信号)的电平。
在一些配置中,SNR跟踪器447可类似于结合图20描述的SNR确定块/模块2085来实施。另外,峰跟踪器424可类似于结合图20描述的峰图块/模块2083来实施。此外,音高跟踪器422可包含结合图20描述的逐帧处理块/模块2073以计算调和性信息。精炼块/模块428可包含结合图20描述的后处理块/模块2093。
在一些配置中,音高跟踪器422可提供调和性信息以便在回声消除/噪声抑制块/模块420中(和/或之前)执行麦克风切换(例如,双到单麦克风切换和单到双麦克风切换统计数据改变)。
图5是说明用于信号电平匹配的方法500的另一配置的流程图。方法500可由电子装置102执行。电子装置102可将输入频谱分段502为多个频带。在一些配置中,输入频谱可包含多个音频信号182。在此实例中,电子装置102可将输入频谱(例如,多个音频信号182)分段502为多个频率范围。电子装置102可测量504每一频带处的信噪比。在此实例中,一或多个信噪比可对应于输入频谱。电子装置102可确定506信噪比是否小于第一阈值。
电子装置102可组装508目标频谱488。举例来说,电子装置102可组装508多个频带以便产生目标频谱488。在一些实施方案中,如果电子装置102确定506频带的信噪比低于第一阈值,那么组装508目标频谱488可包含用语音模板频谱484的一部分代替语音参考频谱486的一部分。目标频谱488可包含语音参考频谱486的一部分和语音模板频谱484的一部分中的一或多者。在一些配置中,电子装置102可用语音模板频谱484代替语音参考频谱486的部分。语音参考频谱486的被代替的部分可包含信噪比小于第一阈值的一或多个频带。举例来说,如果一或多个频带的信噪比小于第一阈值,那么电子装置102可搜索码簿(例如,语音模板频谱484)是否有最接近的匹配轮廓。电子装置102可随后用语音模板频谱484的所述部分代替语音参考频谱486的一部分。以此方式,电子装置102可针对信噪比太低而无法可靠地确定输入话音(例如,语音)轮廓的情况任选地利用语音模板频谱484。在一些配置中,组装508目标频谱488可包含谐波合成产生。
如果电子装置102确定506频带的信噪比不低于第一阈值,那么组装508目标频谱488可包含组装语音参考频谱486的一部分。在一些实例中,语音参考频谱486可基于输入频谱。在一些配置中,语音参考频谱486的被包含的部分可对应于展现大于第一阈值的信噪比的频带。在一些实施方案中,方法500可进一步包含基于所述多个音频信号抑制残余噪声。
电子装置102可基于目标频谱488调整510经噪声抑制信号中的一或多个频带的增益。举例来说,如果电子装置102确定506信噪比不小于第一阈值或在组装508目标频谱488后,电子装置102可即刻调整510每一频带的经噪声抑制信号的增益,以便使一或多个输出频谱448电平近似匹配于一或多个输入信号电平。举例来说,电子装置102可按比例缩放经噪声抑制信号的一部分以使得其近似匹配于目标频谱488。举例来说,电子装置102可将经噪声抑制信号的一或多个频带倍增以使得其近似匹配于目标频谱488。在一些配置中,电子装置102可调整510经噪声抑制信号以使得经噪声抑制信号近似匹配于所述多个音频信号182的电平。
图6是说明用于噪声抑制的方法600的一个配置的流程图。在一些实施方案中,电子装置102可包含用于执行本文描述的功能中的一或多者的电路。在一些配置中,电子装置102可获得602双麦克风104噪声抑制输出。电子装置102可针对每一时间帧计算604第二麦克风104音频信号182或Mic2-b*Mic1音频信号182上的音高和调和性统计数据。电子装置102可去往606双麦克风104噪声抑制输出中的噪声音高频率的倍数。在一些配置中,电子装置102可基于主要麦克风信号(例如,音频信号182中的一者)利用噪声音高频率的倍数来预测谐波噪声峰,且仅在那些噪声峰位置处提供选择性噪声减少。在一些实施方案中,电子装置102可确定608麦克风间增益是否较小或为负的。如果电子装置102确定608麦克风间增益较小或为负的,那么电子装置102可适度地削减612所识别的峰。在一些配置中,如果电子装置102确定608麦克风间增益差较小或为负的,那么电子装置102可完全不削减所识别的峰。另外或替代地,如果麦克风间增益差平均较小(或为负的),那么电子装置102可将一或多个频率区间标记为语音频谱区间。如果电子装置102确定608麦克风间增益差并非较小或为负的,那么电子装置102可激进地削减610所识别的峰。
图7是说明其中可实施用于信号电平匹配的系统和方法的电子装置702的另一配置的框图。在一些配置中,电子装置702可为结合图1描述的电子装置102的实例。电子装置702可包含以下各项中的一或多者:第一滤波器754a、第一求和器782a、第一变换器756a、音高分析块/模块762、正弦参数估计块/模块766、正弦合成块/模块768、按比例缩放块/模块774、第二滤波器754b、第三滤波器754c、第二求和器782b以及第二变换器756b。
电子装置702可接收一或多个噪声信号750。噪声信号750的实例包含但不限于多路串扰噪声、环境噪声或任何其它竞争语音。噪声信号750可提供到(例如,由其接收)第一滤波器754a以产生经滤波噪声信号758。在一些实施方案中,第一滤波器754a可为低通滤波器(例如,600Hz低通滤波器)。第一滤波器754a可耦合到第一求和器782a。经滤波噪声信号758可提供到第一求和器782a。第一求和器782a可求和或组合经滤波噪声信号758与语音信号752以产生第一求和信号790a。在一些配置中,语音信号752可为“清洁的”宽带(WB)语音信号752。在一些配置中,噪声信号750(例如,多路串扰噪声或竞争语音信号)和语音信号752(例如,“清洁的”WB语音信号)可提供到回声消除/噪声抑制块/模块420。在此实例中,语音信号752(例如,“清洁的”WB语音信号)可为经噪声抑制信号。
第一变换器756a可耦合到第一求和器782a。在此实例中,第一求和信号790a可提供到第一变换器756a。第一变换器756a可将第一求和信号790a变换为经变换信号760。在一些实施方案中,经变换信号760在频域中可类似于第一求和信号790a。第一变换器756a可为快速傅立叶变换(FFT)块/模块。
第一变换器756a可耦合到第三滤波器754c。第三滤波器754c可接收经变换信号760且将其倍增以产生下文将更详细描述的第二经滤波信号780。
第一变换器756a也可耦合到音高分析块/模块762。在此实例中,音高分析块/模块762可接收经变换信号760。音高分析块/模块762可执行音高分析以便从经变换信号760提取频率(例如,基频764)。音高分析块/模块762还可将置信度量度或发音参数770提供到耦合到音高分析块/模块762的按比例缩放块/模块774。
基频764可提供到耦合到音高分析块/模块762的正弦参数估计块/模块766。如下文将更详细描述,正弦参数估计块/模块766可执行一或多个操作以估计一或多个正弦参数。
正弦参数可提供到耦合到正弦参数估计块/模块766的正弦合成块/模块768以产生正弦信号772。在一些实施方案中,正弦信号772可例如经由快速傅立叶变换(FFT)变换到频域中。所得的频域正弦信号772可提供到耦合到正弦合成块/模块768的按比例缩放块/模块774。按比例缩放块/模块774可将频域正弦信号772与置信度量度或发音参数770相乘以产生经按比例缩放正弦信号776。
可耦合到按比例缩放块/模块774的第二滤波器754b可接收经按比例缩放正弦信号776以产生第一经滤波信号778。可耦合到第二滤波器754b和第三滤波器754c的第二求和器782b可接收第一经滤波信号778和第二经滤波信号780。第二求和器782b可将第一经滤波信号778和第二经滤波信号780求和以产生第二求和信号790b。可耦合到第二求和器782b的第二变换器756b可接收第二求和信号790b。第二变换器756b可将第二求和信号790b变换到时域中以产生时域求和信号784。举例来说,第二变换器756b可为逆快速傅立叶变换,其将第二求和信号790b变换到时域中以产生时域求和信号784。
图8是说明用于信号电平匹配的方法800的另一配置的流程图。方法800可由电子装置102执行。电子装置102可接收802噪声信号750。噪声信号750可包含多路串扰噪声、环境噪声和与语音信号752竞争的任何其它信号。在一些配置中,语音信号752可表示为x(n)。第一滤波器754a可对噪声信号750进行滤波804以产生经滤波噪声信号758。在一些实施方案中,第一滤波器754a可为低通滤波器。耦合到第一滤波器754a的第一求和器782a可基于经滤波噪声信号758和语音信号752产生806第一求和信号790a。在一些配置中,第一求和信号790a可表示为xn(n)。第一变换器756a可基于经滤波求和信号790a产生808经变换信号。经变换信号760可表示为xn(k)。在一些配置中,经变换信号760可基于第一求和信号790a。举例来说,经变换信号760在频域中可类似于第一求和信号790a。第一变换器756a可使用快速傅立叶变换(FFT)来产生808经变换信号760。
电子装置102的音高分析块/模块762可产生810经变换信号760的基频764。举例来说,音高分析块/模块762可接收经变换信号760且执行音高分析以提取基频764。基频764可表示为ωo。音高分析块/模块762还可产生812置信度量度或发音参数770。在一些实施方案中,置信度量度或发音参数770可基于经变换信号760。
正弦参数估计块/模块766可基于基频764估计814一或多个正弦参数。举例来说,正弦参数估计块/模块766可基于以下等式中的一或多者估计814一或多个正弦参数。
以及
在上述等式中,ωo可指代基频764或音高,可指代在音高频率的倍数处的语音峰的振幅,可指代每一频率区间i和帧m中的相位分量,且s(n)可指代所述一或多个正弦参数。
正弦合成块/模块768可基于所述一或多个正弦参数产生816正弦信号772。举例来说,正弦合成块/模块768可执行一或多个正弦参数的快速傅立叶变换以产生正弦信号772。在一些实施方案中,正弦信号772可表示为S(k)。在这些实施方案中,正弦参数s(n)与正弦信号S(k)772之间的关系可说明为S(k)=FFT{s(n)}。
电子装置102的按比例缩放块/模块774可基于正弦信号772和置信度量度或发音参数770来产生818经按比例缩放正弦信号776。举例来说,按比例缩放块/模块774可将频域正弦信号772与置信度量度或发音参数770相乘以产生818经按比例缩放正弦信号776。
第二滤波器754b可对经按比例缩放正弦信号776进行滤波820以产生第一经滤波信号778。举例来说,经按比例缩放正弦信号776可被乘以W2(k)(例如,低通滤波器传递函数)或经滤波以产生第一经滤波信号778。类似地,第三滤波器754c可对经变换信号760进行滤波822以产生第二经滤波信号780。举例来说,经变换信号760可被乘以W1(k)(例如,高通滤波器传递函数)或经滤波以产生第二经滤波信号780。
第二求和器782b可将第一经滤波信号778和第二经滤波信号780求和824以产生第二求和信号790b。举例来说,第二求和器782b可接收第一经滤波信号778和第二经滤波信号780且将其组合以产生第二求和信号790b。
第二变换器756b可将第二求和信号790b变换826到时域中。举例来说,第二变换器756b可为逆快速傅立叶变换,以将第二求和信号790b变换826到时域中以产生时域求和信号784。
图9是说明其中可实施用于信号电平匹配的系统和方法的电子装置902的另一配置的框图。电子装置902可为结合图1描述的电子装置102的实例。电子装置902可包含音高跟踪器922、回声消除/噪声抑制块/模块920、语音模板频谱确定块/模块940和组装频谱块/模块944,其类似于较早描述的对应元件。电子装置902还可包含以下各项中的一或多者:信噪比产生器/频谱评估器990、时域块/模块992,和谐波合成产生器994。
在一些实例中,所述多个麦克风104(未图示)可耦合到音高跟踪器922和/或回声消除/噪声抑制块/模块920。来自所述多个麦克风104的输入音频信号982a到982b可提供到音高跟踪器922。音高跟踪器922可跟踪音频信号982a到982b的音高(例如,话音信号的基频和/或谐波)。音高跟踪器922可将跟踪信息984(例如,频率,)提供到谐波合成产生器994。
回声消除/噪声抑制块/模块920可对从所述一或多个麦克风104接收的输入音频信号982a到982b执行回声消除和/或噪声抑制。在一些实施方案中,回声消除/噪声抑制块/模块920可实施由结合图1描述的噪声抑制块/模块114执行的功能中的一或多者。回声消除/噪声抑制块/模块920可将话音和噪声信号934(V+N)以及噪声信号932(N)提供到信噪比产生器/频谱评估器990。
信噪比产生器/频谱评估器990可确定目标带频谱986。在一些实施方案中,目标带频谱986可为结合图4描述的目标频谱488的实例。电子装置902可任选地确定代替频谱增益988(例如,)。在一些实施方案中,代替频谱增益988可基于结合图4描述的语音参考频谱486和语音模板频谱484中的一或多者。在一些实施方案中,代替频谱增益988可基于目标带频谱986从语音模板频谱确定块/模块940(例如,码簿)获得。代替频谱增益988可提供到谐波合成产生器994。
信噪比产生器/频谱评估器990还可将频域信号提供到时域块/模块992。时域块/模块992可将频域信号转换到时域中。时域块/模块992还可将时域信号提供到谐波合成产生器994。谐波合成产生器994可基于代替频谱增益988、跟踪信息984和时域信号来产生代替带频谱996。代替带频谱996可提供到组装频谱块/模块944。组装频谱块/模块944可组装频谱且基于来自信噪比产生器/频谱评估器990的输出和/或代替带频谱996而产生输出频谱948。
图10是说明其中可实施用于检测话音活动的系统和方法的电子装置1002的一个配置的框图。在一些配置中,电子装置1002可为结合图1描述的电子装置102的实例。电子装置1002可包含以下各项中的一或多者:语音音高直方图确定块/模块1098、谐波统计数据确定块/模块1003、近端有话音语音检测器1007、至少一个单通道话音活动检测器1009以及近端语音检测器1011。
在一些配置中,语音音高直方图确定块/模块1098可确定可用以检测有话音语音音频信号182的语音音高直方图1001。举例来说,语音音高直方图确定块/模块1098可确定对应于有话音语音音频信号182的语音音高直方图1001。在一些配置中,有话音语音音频信号182可基于音高来检测。在此配置中,语音音高直方图1001可将对应于有话音语音的音频信号182区别于其它类型的音频信号182。举例来说,有话音语音音频信号182可对应于相异的音高范围。其它类型的音频信号182可对应于其它音高范围。在一些实施方案中,语音音高直方图1001可识别对应于有话音语音音频信号182的音高范围。
谐波统计数据确定块/模块1003可耦合到语音音高直方图确定块/模块1098。有话音语音音频信号182也可基于谐波来检测。如上所述,谐波是音频信号182的基频(例如,话音的谐振频率)的倍数。如本文使用,术语“调和性”可指代可谐波的性质。举例来说,调和性可指代音频信号182的谐波的数目和质量。举例来说,具有良好调和性的音频信号182可具有许多良好界定的基频的倍数。
在一些配置中,谐波统计数据确定块/模块1003可确定谐波统计数据1005。如本文使用的统计数据可指代识别有话音语音的量度。举例来说,有话音语音可基于音频信号182能量水平来检测。在此实例中,音频信号182能量水平可为统计数据。统计数据的其它实例可包含每帧的零交叉的数目(例如,输入音频信号182的值的正负号从一个样本到下一样本改变的次数),音高估计和检测算法结果,共振峰确定结果,倒谱系数确定结果,基于信噪比的量度,基于似然比的量度,语音开始和/或结束,双麦克风信号差(例如,量值差、增益差、电平差、接近度差和/或相位差)。在一些配置中,统计数据可包含两个或两个以上量度的任一合适组合。在这些实例中,有话音语音音频信号182可通过将阈值应用于统计数据值(也称为得分)来检测。此得分可与阈值进行比较以确定话音活动。举例来说,有话音语音音频信号182可由高于阈值的能量水平或高于阈值的零交叉数目指示。
因此,谐波统计数据1005可指代基于音频信号182的调和性识别有话音语音的量度。举例来说,谐波统计数据1005可在音频信号182具有良好调和性(例如,许多良好界定的基频的倍数)的情况下将音频信号182识别为有话音语音。在此实例中,有话音语音音频信号182可通过将阈值应用于谐波统计数据1005值(例如,得分)来检测。此得分可与阈值进行比较以确定话音活动。举例来说,话音活动可由高于阈值的谐波统计数据1005指示。
在一些实施方案中,谐波统计数据1005可基于语音音高直方图1001。举例来说,谐波统计数据确定块/模块1003可从语音音高直方图确定块/模块1098接收语音音高直方图1001。谐波统计数据确定块/模块1003可随后确定谐波统计数据1005。在一些配置中,基于语音音高直方图1001的谐波统计数据1005可识别具有良好调和性且落在由语音音高直方图1001界定的音高范围内的音频信号182。可基于语音音高直方图1001的谐波统计数据1005的实例如下给出。如上所述,有话音语音音频信号182可包含一或多个谐波。类似地,一些无话音音频信号182也可包含一或多个谐波,例如音乐。然而,无话音音频信号182可对应于不同音高范围。在此实例中,基于语音音高直方图1001的谐波统计数据1005可将有话音语音音频信号182(例如,具有良好调和性且落在音高范围内的音频信号182)区别于无话音音频信号182(例如,具有良好调和性且落在音高范围之外的音频信号182)。
近端有话音语音检测器1007可检测近端有话音语音。举例来说,在具有多个麦克风104的电子装置102(例如,无线通信装置)上讲话的用户可产生近端有话音语音。近端有话音语音检测器1007可耦合到谐波统计数据确定块/模块1003。在此实例中,近端有话音语音检测器1007可从谐波统计数据确定块/模块1003接收谐波统计数据1005。基于谐波统计数据1005,近端有话音语音检测器1007可检测近端有话音语音。举例来说,近端有话音语音检测器1007可在音频信号182满足谐波统计数据1005(例如,音频信号182的调和性大于由谐波统计数据1005界定的阈值)时检测近端有话音语音。如上所述,在一些配置中,谐波统计数据1005可基于语音音高直方图1001。
近端有话音语音检测器1007还可基于语音音高直方图1001检测近端有话音语音。举例来说,近端有话音语音检测器1007可在音频信号182落在由语音音高直方图1001界定的音高范围内时检测近端有话音语音。
在一些配置中,近端有话音语音检测器1007可基于谐波统计数据1005与语音音高直方图1001的组合来检测近端有话音语音。举例来说,近端有话音语音检测器1007可在音频信号182的音高落在由语音音高直方图1001界定的音高范围内的情况下且在音频信号182满足谐波统计数据1005(例如,音频信号182的调和性大于由谐波统计数据1005界定的阈值)时检测近端有话音语音。在一些实施方案中,近端有话音语音检测器1007可基于谐波统计数据1005与语音音高直方图1001的不同加权来检测近端语音。举例来说,近端有话音语音检测器1007可在尽管音高可能不完全落在由语音音高直方图1001界定的音高范围内但调和性较高时检测近端有话音语音。类似地,近端有话音语音检测器1007可在尽管具有较低调和性但音高范围完全落在由语音音高直方图1001界定的音高范围内时检测近端有话音语音。
另外或替代地,近端有话音语音检测器1007可与增益统计数据相关联。在此实例中,增益统计数据可基于所述多个音频信号182之间的增益差来识别有话音语音。在一些实施方案中,近端有话音语音检测器1007可基于谐波统计数据1005、增益统计数据和语音音高直方图1001的不同加权来检测近端语音。举例来说,近端有话音语音检测器1007可在尽管增益差可能较小但调和性较高时检测近端有话音语音。类似地,近端有话音语音检测器1007可在尽管具有较低调和性但增益差较大时检测近端有话音语音。
所述至少一个单通道话音活动检测器1009可检测语音音频信号182。在一些配置中,所述至少一个单通道话音活动检测器1009可基于能量水平检测语音音频信号182。举例来说,所述至少一个单通道话音活动检测器1009可检测某些程度的能量水平增加以检测语音。在一些配置中,单通道话音活动检测器1009可包含如上所述的一或多个统计数据以检测语音音频信号182。在一些配置中,近端有话音语音检测器1007和所述至少一个单通道话音活动检测器1009可集成。举例来说,近端有话音语音检测器1007和所述至少一个单通道话音活动检测器1009可组合到单个块/模块(未图示)中。
近端语音检测器1011可耦合到近端有话音语音检测器1007和/或所述至少一个单通道话音活动检测器1009以检测近端语音。举例来说,近端语音检测器1011可接收来自近端有话音语音检测器1007的结果(例如,近端有话音语音检测器1007是否检测到近端有话音语音)和来自单通道话音活动检测器1009的结果(例如,单通道话音活动检测器1009是否检测到语音音频信号182)。近端语音检测器1011可随后检测近端语音。近端语音检测器1011可随后提供近端语音检测指示符1013,其识别是否检测到近端语音。如下文将更详细描述,近端语音检测指示符1013可指示电子装置102的一或多个功能(例如,从双麦克风104系统切换到单麦克风104系统)。
图11是说明用于检测话音活动的方法1100的一个配置的流程图。方法1100可由电子装置102执行。电子装置102可获得1102谐波统计数据1005。如上所述,谐波统计数据1005可指代基于音频信号182的谐波识别有话音语音的量度。举例来说,谐波统计数据1005可在音频信号182具有许多良好界定的基频的倍数的情况下识别有话音语音。在一些实施方案中,电子装置102可获得1102基于语音音高直方图1001的谐波统计数据1005。举例来说,谐波统计数据1005可识别落在由语音音高直方图1001界定的音高范围内且满足谐波统计数据1005的音频信号182。
电子装置102可获得1104语音音高直方图1001。如上所述,语音音高直方图1001可识别对应于有话音语音的音高范围。举例来说,语音音高直方图1001可识别对应于与有话音语音相关联的音高的某一音高范围。
电子装置102的近端语音检测器1011可基于近端有话音语音检测器1007和至少一个单通道话音活动检测器1009来检测1106近端语音。在一些实施方案中,近端有话音语音检测器1007可基于谐波统计数据1005和语音音高直方图1001中的一或多者来检测近端有话音语音。举例来说,近端有话音语音检测器1007可基于如上所述的语音音高直方图1001与谐波统计数据1005相关联。另外或替代地,近端有话音语音检测器1007可基于增益统计数据检测近端有话音语音。
近端有话音语音检测器1007可基于谐波统计数据1005、语音音高直方图1001和增益统计数据的不同加权来检测近端语音。举例来说,近端有话音语音检测器1007可在尽管音高可能不完全落在由语音音高直方图1001界定的音高范围内但调和性较高时检测近端有话音语音。类似地,近端有话音语音检测器1007可在尽管具有较低调和性但音高范围完全落在由语音音高直方图1001界定的音高范围内时检测近端有话音语音。在另一实例中,近端有话音语音检测器1007可在尽管增益差可能较小但调和性较高时检测近端有话音语音。类似地,近端有话音语音检测器1007可在尽管具有较低调和性但增益差较大时检测近端有话音语音。
电子装置102的所述至少一个单通道话音活动检测器1009可检测语音音频信号182。近端语音检测器1011可使用来自近端有话音语音检测器1007和所述至少一个单通道话音活动检测器1009的信息来检测1106近端语音。
在一些配置中,近端有话音语音检测器1007可基于谐波统计数据1005与语音音高直方图1001的组合来检测近端有话音语音。举例来说,近端有话音语音检测器1007可在音频信号182的音高落在由语音音高直方图1001界定的音高范围内且音频信号182满足谐波统计数据1005(例如,音频信号182的调和性大于由谐波统计数据1005界定的阈值)的情况下检测近端有话音语音。在一些实施方案中,近端有话音语音检测器1007可基于谐波统计数据1005与语音音高直方图1001的不同加权来检测近端语音。举例来说,近端有话音语音检测器1007可在尽管音高可能不完全落在由语音音高直方图1001界定的音高范围内但调和性较高时检测近端有话音语音。类似地,近端有话音语音检测器1007可在尽管具有较低调和性但音高范围完全落在由语音音高直方图1001界定的音高范围内时检测近端有话音语音。
图12是说明其中可实施用于检测话音活动的系统和方法的无线通信装置1202的一个配置的框图。无线通信装置1202可为结合图1描述的电子装置102的实例。无线通信装置1202可包含以下各项中的一或多者:语音音高直方图确定块/模块1298、谐波统计数据确定块/模块1203、近端有话音语音检测器1207、至少一个单通道话音活动检测器1209以及近端语音检测器1211,其可为较早描述的对应元件的实例。在一些配置中,语音音高直方图确定块/模块1298可提供可为结合图10描述的语音音高直方图1001的实例的语音音高直方图1201。谐波统计数据确定块/模块1203可提供可为结合图10描述的谐波统计数据1005的实例的谐波统计数据1205。近端语音检测器1211可提供可为结合图10描述的近端语音检测指示符1013的实例的近端语音检测指示符1213。
在一些配置中,无线通信装置1202可包含类似于结合图1描述的多个麦克风104的多个麦克风1204。举例来说,所述多个麦克风1204可俘获多个音频信号182。
无线通信装置1202还可包含开关1217,其可耦合到所述多个麦克风1204。开关1217可切换到单个麦克风1204。举例来说,开关1217可从双麦克风1204系统切换到单麦克风1204系统。在一些配置中,开关1217可基于一或多个准则切换到单个麦克风1204。举例来说,开关1217可在信噪比超过阈值时切换到单个麦克风1204。举例来说,在一些情况下,双麦克风1204系统可能不产生可靠音频信号182(例如,当信噪比在0到5分贝(dB)范围中时)。在此情况下,开关1217可从双麦克风1204系统切换到单麦克风1204系统。开关1217还可在未维持包络112时切换到单个麦克风1204。开关1217可在近端语音衰减时切换到单个麦克风1204。举例来说,近端语音检测器1211可检测经衰减近端语音。基于此信息,开关1217可切换到单个麦克风1204。在一些配置中,开关1217可当在某一时间间隔(例如1.5秒)期间近端语音衰减时基于经衰减近端语音切换到单个麦克风1204。
图13是说明用于检测话音活动的方法1300的另一配置的流程图。方法1300可由电子装置102执行。电子装置102可获得1302语音音高直方图1001。在一些实施方案中,这可如结合图11所述完成。
电子装置102可计算1304对谐波内容敏感的统计数据。在一些配置中,谐波统计数据确定块/模块1003可计算1304对谐波内容敏感的统计数据。如上所述,统计数据可指代识别有话音语音的量度。在此实例中,电子装置102可基于音频信号182的谐波计算1304识别有话音语音的统计数据。举例来说,谐波统计数据1005可在音频信号182具有良好调和性(例如,许多良好界定的基频的倍数)的情况下将音频信号182识别为有话音语音。在一些实施方案中,计算1304对谐波内容敏感的统计数据可包含评估经增强信号(例如,第一麦克风减经按比例缩放第二麦克风)上的音高。评估音高可包含自相关、倒谱译码、谐波积谱译码和线性预测译码中的一或多者。在一些实施方案中,经增强信号可为结合图1描述的差信号108的实例。谐波统计数据确定块/模块1003可基于语音音高直方图1001产生1306谐波统计数据1005。如较早描述,谐波统计数据1005可基于语音音高直方图1001。在一些配置中,基于语音音高直方图1001的谐波统计数据1005可识别具有良好调和性且落在由语音音高直方图1001界定的音高范围内的音频信号182。换句话说,谐波统计数据1005可识别落在由语音音高直方图1001界定的音高范围内的话音语音(例如,基于其调和性)。电子装置102可检测1308近端有话音语音。
电子装置102可确定1310信噪比是否大于阈值。在一些实施方案中,所述阈值可由另一电子装置102获得。所述阈值可反映超过便无法获得可靠语音音频信号182的信噪比。如果信噪比大于阈值,那么开关1217可从一或多个麦克风104切换1312到单个麦克风104。举例来说,开关1217可从双麦克风104系统切换到单麦克风104系统。如将更详细描述,近端语音检测器1011可随后基于近端有话音语音检测器1007和至少一个单通道话音活动检测器1009来检测1318近端语音。
如果电子装置102确定1310信噪比不大于阈值,那么电子装置102可确定1314是否可维持包络112。如果电子装置102确定1314无法(例如,不)维持包络112,那么开关1217可从一或多个麦克风104切换1312到单个麦克风104。
如果电子装置102确定1314可维持包络112,那么电子装置102可确定1316近端语音是否经衰减。如果电子装置102确定1314近端语音经衰减(例如,检测到经衰减近端语音),那么开关1217可从一或多个麦克风104切换1312到单个麦克风104。
如果电子装置102确定1316近端语音未经衰减,那么电子装置102可基于近端有话音语音检测器1007和至少一个单通道话音活动检测器1009来检测1318近端语音。在一些实施方案中,这可如结合图11所述完成。
图13A是说明用于麦克风切换的方法1300a的一个配置的流程图。特定来说,图13A说明基于智能开关(IS)的投票方案的一个实例。电子装置可确定1302a调和性是否超过某一阈值,近端话音检测器是否检测到有话音语音(例如,1420)以及单通道话音活动检测器(例如,单通道VAD 1209)是否接通(例如,指示话音活动)。如果这些准则中的任一者未满足,那么电子装置可如下利用决策逻辑。应注意,缩写词“VAD”在此可用以缩写“话音活动检测”和/或“话音活动检测器”。
电子装置可确定1312a是否切换到另一麦克风状态或维持麦克风状态。更具体来说,电子装置可基于语音非作用帧的计数以及每一状态的投票与切换裕度的比较来确定1312a是否在若干帧内切换到或维持单麦克风状态或双麦克风状态。特定来说,电子装置可在某一时间量期间收集每一状态的投票。如果没有足够的语音作用帧,那么电子装置不可切换状态(单麦克风状态与多麦克风(例如,双麦克风)状态之间)。如果在某个裕度的情况下双状态胜过单状态,那么电子装置可利用(例如,切换到或维持)双麦克风状态。如果在某个裕度的情况下单麦克风状态胜过双麦克风状态,那么电子装置可利用(例如,切换到或维持)单麦克风状态。每一状态的裕度可为不同的。更新状态可以或不可每个帧来完成。举例来说,其可直到每“用于投票的帧数”来完成。在一些配置中,确定1312a是否切换到(或维持)单麦克风状态或双麦克风状态也可基于先前状态(例如,先前状态是否为单麦克风状态或双麦克风状态)。
为了清楚,给出关于整个处理块如何贡献于语音恢复(语音电平匹配)的额外描述。如果总是执行双麦克风处理(例如,以双麦克风状态),那么针对用户的正常电话保持情况可实现改善或最佳的性能。然而,对于例如向下或向外保持等次最优保持位置,双麦克风处理可能不仅抑制不希望的噪声,而且也抑制有益地保留的目标语音。
为了避免目标语音抑制,可需要以单麦克风状态切换到单麦克风处理(使用智能切换方案)。然而同时,可有益地防止不必要的切换,因为双麦克风噪声抑制性能可能好得多。
为了具有稳健的切换方案,电子装置可在某一时间量中收集信息以做出决策,尤其针对双到单状态切换。然而,在做出从双到单的决策之前,如果用户突然将电话移动到次最优保持位置,那么在切换实际上发生之前,目标语音抑制不可避免。
如果用户以某种极端方式保持电话,使得基于调和性的VAD不工作,那么智能切换将不工作。在此情况下,结合图20到24描述的语音恢复方案可起重要作用,因为其起到门卫的作用。这意味着无论状态如何,其都在目标语音已被错误地抑制的情况下恢复目标语音。
如果调和性超过某一阈值,如果近端话音检测器检测到有话音语音且如果单通道VAD接通,那么电子装置可确定1304a近端语音是否衰减到低于阈值。如果近端语音衰减到低于阈值,那么电子装置可递增1310a单麦克风状态计数。电子装置可如上所述确定1312a是否在若干帧内切换到单麦克风状态或双麦克风状态。
如果近端语音未衰减到低于阈值,那么电子装置可确定1306a到达方向是否是针对目标方向。举例来说,电子装置可确定到达方向是否对应于目标方向(例如在某个角度范围内)。如果到达方向不是针对目标方向,那么电子装置可递增1310a单麦克风状态计数且如上所述确定1312a是否在若干帧内切换到单麦克风状态或双麦克风状态。如果到达方向是针对目标方向,那么电子装置可如上所述确定1312a是否在若干帧内切换到单麦克风状态或双麦克风状态。
在一些配置中,电子装置可在到达方向是针对目标方向时另外确定近端语音是否未经衰减高于某一阈值。如果近端语音经衰减高于某一阈值,那么电子装置可递增双麦克风状态计数且如上所述确定1312a是否切换。在一些配置中,电子装置可使是否切换的确定1312a基于近端语音未经衰减高于某个阈值的情况。举例来说,电子装置可在近端语音未经衰减高于某个阈值的情况下切换到双麦克风状态。
图14是说明用于检测话音活动的方法1400的另一配置的流程图。在一个实施方案中,电子装置102可确定1402是否检测到清洁的语音。在一些实施方案中,如果音频信号182含有高信噪比(满足或超过例如特定阈值),那么可检测到清洁的语音。如果电子装置102确定1402检测到清洁的语音,那么电子装置102可使用1404第一麦克风104(例如,Mic1信号)的音频信号182。如果电子装置102确定1402未检测到清洁的语音,那么电子装置102可计算1406经预增强音频信号182(例如,Mic1-a*Mic2)。
在任一情况下,电子装置102可针对每一时间帧计算1408音高和调和性统计数据。在一些实施方案中,电子装置102可在满足一或多个准则的情况下更新1410语音音高直方图1001。准则的实例包含调和性是否满足高阈值以及麦克风间增益差是否较高(例如,满足或超过阈值)。在一些实施方案中,可将更新添加到现存语音音高直方图1001。另外,在一些实施方案中,电子装置102可计算1412第二麦克风104(例如,Mic2)信号上的噪声谐波。另外或替代地,电子装置102可计算1412Mic2-b*Mic1音频信号182上的噪声谐波。在一些实施方案中,可基于第二麦克风104(例如,Mic2)音频信号182或经增强信号(例如,Mic2-b*Mic1)的噪声谐波来精炼语音音高直方图1001。在此实施方案中,第一麦克风104的音频信号182可从第二麦克风104的音频信号182减去且可按比例缩放(例如,以因数“b”)。
电子装置102还可计算1414随着时间的调和性统计数据的最小值。举例来说,电子装置102可计算时间t上的调和性统计数据的最小值。电子装置102可通过调和性统计数据的最小值(例如,跟踪的最小值)和固定最大值来正规化1416调和性统计数据。最大值可经设定以实现软语音帧(可能被噪声污染),但不实现仅噪声帧。
如果帧的经正规化调和性超过某一阈值,那么此帧可经标记为有话音语音帧或至少是很可能所述帧含有有话音语音。对于经正规化调和性阈值,可使用跟踪统计数据的最小值和/或最大值的技术(例如针对双麦克风配置)。如本文使用,术语“调和性”可用以指代调和性和/或经正规化调和性,除非明确指示原始调和性。
在语音音高直方图经更新1001的情况下,电子装置102可随后以语音音高直方图中检测到的音高的得分来加权1418调和性统计数据。如果调和性超过某一阈值,那么近端有话音语音检测器可检测1420有话音语音。举例来说,近端有话音语音检测器可产生“1”以指示话音活动。
图15是说明粉红噪声中的有话音语音的所记录频谱1519a到1519b的曲线图。在一些实施方案中,一或多个麦克风104可记录有话音语音。所述一或多个麦克风104可包含在电子装置102中。所述曲线图说明可由第一麦克风104记录的第一频谱1519a。曲线图1500还说明可由第二麦克风104记录的第二频谱1519b。在一些实施方案中,电子装置102可识别噪声信号中的语音谐波以维持输出频谱448处的包络112。在一些情况下,输出频谱448可包含经噪声抑制信号。噪声中的语音谐波的识别也可减少频谱零点中的噪声。在一些实施方案中,如果无法维持包络112,那么电子装置102可减少噪声抑制。另外或替代地,如果无法维持包络112,那么电子装置102可从多个麦克风104切换到单个麦克风104(例如,可将作用中麦克风的数目减少到单个麦克风104)。为了概念清楚,图15中还将包络1512的一个实例描绘为虚线。包络1512可从波形或信号提取。在此实例中,所描述的包络1512与第一频谱1519a相关。信号或波形的包络1512可由所述信号或波形的峰和/或谷界定。本文揭示的系统和方法的一些配置可保留谐波以便确定可应用于经噪声抑制信号的包络1512。应注意,取决于实施方案,图15中描绘的包络1512可以或可不为结合图1描述的包络112的实例。
图16A到16B包含说明音乐噪声中的谐波统计数据1005的各种曲线图1621a到1621f。图16A的第一曲线图1621a是音乐噪声中的近端有话音语音(例如,谐波积谱)统计数据的谱图。在此实例中,x轴可表示音频信号182的帧,且y轴可表示音频信号182的频率区间。图16A的第二曲线图1621b说明近端有话音语音(例如,谐波积谱)统计数据的音高跟踪。在此实例中,x轴可表示音频信号182的帧,且y轴可表示音频信号182的频率区间。图16A的第三曲线图162c说明近端有话音语音(例如,谐波积谱)统计数据的调和性1623a。在此实例中,x轴可表示音频信号182的帧,且y轴可表示音频信号182的调和性(以dB计)。图16A的第四曲线图162d说明近端有话音语音(例如,谐波积谱)统计数据的最小统计数据1625。在此实例中,x轴可表示音频信号182的帧,且y轴可表示音频信号182的最小调和性统计数据(以dB计)。图16B的第一曲线图1621e描绘区别于音乐噪声的近端语音。图16B的第一曲线图1621e可描绘经正规化调和性1623b。在此实例中,x轴可表示音频信号182的帧,且y轴可表示音频信号182的经正规化调和性(以dB计)。图16B的第二曲线图1621f描绘区别于音乐噪声的近端语音。图16B的第二曲线图1621f可描绘直方图抑制调和性1623c。直方图抑制调和性1623c可指示区别于音乐噪声的近端语音。在此实例中,x轴可表示音频信号182的帧,且y轴可表示音频信号182的经正规化直方图抑制调和性(以dB计)。
图17A是说明双麦克风噪声抑制系统1774的一个配置的一部分的框图。在一些实施方案中,双麦克风噪声抑制系统1774可根据本文描述的功能和/或结构中的一或多者来实施。举例来说,双麦克风噪声抑制系统1774可包含在电子装置102、402、702、902、1002和无线通信装置1202中的一或多者上。更具体来说,双麦克风噪声抑制系统1774可为结合图1描述的噪声抑制块/模块116的实例。在一个实例中,双麦克风噪声抑制系统1774可接收一或多个输入麦克风信道1778(例如,所述多个音频信号182)。双麦克风噪声抑制系统1774可包含可处理输入麦克风通道1778以输出一或多个中间信号1776a到1776f的一或多个块/模块。
举例来说,双麦克风噪声抑制系统1774可包含快速傅立叶变换块/模块1729,其可将输入麦克风通道1778分裂为一或多个频带。切换块/模块1731可在双麦克风模式与单麦克风模式之间切换。在一些配置中,这可基于到达方向(DOA)估计。话音活动检测块/模块1733可包含检测输入麦克风通道1778中的有话音语音的一或多个话音活动检测器。话音活动检测器的实例包含单通道话音活动检测器、接近度话音活动检测器、相位话音活动检测器以及开始/结束话音活动检测器。
双麦克风噪声抑制系统1774还可包含以下各项中的一或多者:自适应波束成形器1735、低频率麦克风间减法块/模块1737、掩蔽块/模块1739以及时间频率话音活动检测块/模块1741,以处理输入麦克风通道1778来输出一或多个中间信号1776a到1776f。
图17B是说明双麦克风噪声抑制系统1774的一个配置的另一部分的框图。在此实例中,双麦克风噪声抑制系统1774可进一步包含噪声参考块/模块1743。噪声参考块/模块1743可包含一或多个噪声参考。噪声参考的实例包含非静态噪声参考、最小统计数据噪声参考、长期噪声参考、理想比率掩蔽噪声参考、TF掩蔽噪声参考以及噪声偏差噪声参考。双麦克风噪声抑制系统1774还可包含以下各项中的一或多者:增益应用块/模块1753、后处理增益计算块/模块1745、噪声统计数据(例如,频谱平坦型量度)估计块/模块1747、基于TF相位话音活动检测/增益差的抑制块/模块1749、基于话音活动检测的残余噪声抑制块/模块1751、梳状滤波块/模块1755以及逆快速傅立叶变换块模块1757,其将一或多个中间信号1776a到1776f处理为输出信号1780。明确注意到,图17A到17B中所示的块/模块中的任何一或多者可独立于系统的其余部分(例如,作为另一音频信号处理系统的部分)来实施。
图18和19是说明汽车噪声中的立体语音记录的曲线图1859、1961。更具体来说,图18展示时域信号的曲线图1859,且图19展示频谱的曲线图1961。在每一情况下,上部迹线1859a、1961a对应于来自第一麦克风104(例如,朝向用户的嘴定向或另外最直接地接收用户的话音的麦克风104)的音频信号182,且下部迹线1859b、1961b对应于来自第二麦克风104的音频信号182。频谱曲线图1961展示信噪比对于第一麦克风104音频信号182来说较好。举例来说可见,有话音语音(例如,峰)在第一麦克风104音频信号182中较强,而背景噪声(例如,谷)在通道之间响度大约相等。在一些配置中,麦克风间通道减法可通常预期得到[0-500Hz]频带中的8到12dB噪声减少与极少的话音失真,其类似于使用具有许多元件的大麦克风阵列可通过空间处理获得的噪声减少结果。
低频率噪声抑制可包含麦克风间减法和/或空间处理。减少多个音频信号中的噪声的方法的一个实例包含针对小于500Hz的频率使用麦克风间差(例如,相位差和/或电平差),且针对大于500Hz的频率使用空间选择性滤波操作(例如,方向选择性操作,例如波束成形器)。
可能希望使用自适应增益校准滤波器来避免两个麦克风104之间的增益失配。此滤波器可根据来自第一麦克风104和一或多个次要麦克风104的信号之间的低频率增益差来计算。举例来说,可根据例如以下表达式在语音非作用间隔上获得增益校准滤波器M
其中ω表示频率,Y1表示第一麦克风104通道,Y2表示次要麦克风104通道,且||·||表示向量范数运算(例如,L2范数)。
在大多数应用中,次要麦克风104通道可预期含有一些话音能量,使得总体话音通道可通过简单减法过程来衰减。因此,可能希望引入补偿增益以将话音增益按比例缩放回到其原始电平。此过程的一个实例可通过例如以下表达式来概括
其中Yn表示所得输出通道,且G表示自适应话音补偿增益因数。相位可从第一麦克风104音频信号获得。
自适应话音补偿增益因数G可通过[0-500Hz]上的低频率话音校准而确定以避免引入混响。可根据例如以下表达式在语音作用间隔上获得话音补偿增益G
在[0-500Hz]频带中,此麦克风间减法对自适应滤波方案可为优选的。对于在手持机形状因数上采用的典型麦克风104间距,低频率内容(例如,在[0-500Hz]范围中)通常在通道之间高度相关,其可事实上导致低频率内容的放大或混响。在建议方案中,以低于500Hz的麦克风间减法模块覆写自适应波束成形输出Yn。然而,自适应空波束成形方案还产生噪声参考,其用于后处理阶段中。
本文揭示的系统和方法的一些配置描述用于多(例如,双)麦克风噪声减少的语音恢复。基于双麦克风计算听觉场景分析(CASA-)的噪声抑制具有当电话突然改变到非最优保持位置时的临时语音静音和衰减的问题。举例来说,在双麦克风模式与单麦克风模式之间的智能切换(IS)被延迟时这些问题可能发生。此处揭示的系统和方法提供对这些问题的解决方案。
本文揭示的系统和方法可利用恢复块/模块来当输出信号含有语音且经噪声抑制话音被静音或衰减时将输出信号恢复到输入信号电平。恢复块/模块可充当用于语音信号的“门卫”。本文揭示的系统和方法可尝试恢复所有语音且不恢复噪声(例如,粉红噪声、多路串扰噪声、街道噪声、音乐等等)。当语音存在噪声时,本文揭示的系统和方法尝试仅恢复语音,但这并不是强烈要求的。
如下提供算法概览。逐帧条件可包含基于调和性的条件。特定来说,电子装置可基于调和性(例如,谐波积和(HPS))检测语音支配的帧。逐区间条件可包含输入信号SNR和/或峰跟踪(例如,峰图)。具体来说,电子装置可基于最小统计数据(MinStat)噪声估计来检测清洁语音。另外或替代地,电子装置可使用峰图来检测与语音相关联的频谱峰。
后处理可包含在一些情况下撤销恢复(例如基于逐帧)。此后处理可基于恢复比率、异常峰移除、静态低SNR以及恢复连续性中的一或多者。恢复连续性可确保所恢复信号对于每一区间是连续的。
图20是说明其中可实施用于恢复经处理语音信号的系统和方法的电子装置2002的一个配置的框图。电子装置2002可为结合图1描述的电子装置102的一个实例。电子装置2002中包含的元件中的一或多者可以硬件(例如,电路)、软件或两者实施。可利用多个麦克风2063来俘获多个音频信号通道2065、2067。举例来说,多个麦克风2063可如上所述提供多个音频信号。
可将两个或两个以上音频信号通道2067提供到噪声抑制块/模块2014(例如,双麦克风噪声抑制块/模块2014)。噪声抑制块/模块2014可产生经噪声抑制输出帧2001(和/或噪声抑制增益)。
可将音频信号通道2065(例如,主要通道)提供到快速傅立叶变换(FFT)块/模块2069。在一些配置中,主要通道2065可对应于麦克风2063中的一者。在其它配置中,主要通道2065可为选自对应于麦克风2063的多个通道的单个通道。举例来说,电子装置2002可从对应于麦克风2063的若干通道当中选择具有最高调和性值的通道作为主要通道2065。在又其它配置中,主要通道可为得自麦克风间减法的通道(例如具有或不具有按比例缩放值)。
FFT块/模块2069可将主要通道音频信号2065从时域变换到频域中。可将经变换音频信号2071提供到逐帧处理块/模块2073和逐区间处理块/模块2081。
逐帧处理块/模块2073可确定逐帧条件。在一些配置中,逐帧处理块/模块2073可基于帧执行操作,且可包含调和性块/模块2075和逐帧话音活动检测器(VAD)2077。逐帧处理块/模块2073可从FFT块/模块2069接收输入帧(例如,经变换音频信号2071的帧)。逐帧处理块/模块2073可如下基于逐帧条件操作。
调和性块/模块2075可基于主要通道2065(例如,经变换音频信号2071)确定谐波积谱(HPS)以便测量调和性。HPS可为用于确定音高的已知方法。举例来说,调和性块/模块2075返回音高和调和性水平。逐帧处理块/模块2073可使用最小统计数据(例如,MinStat)正规化原始调和性。在一些配置中,举例来说,逐帧处理块/模块2073可从逐区间处理块/模块2081中包含的SNR确定块/模块2085获得最小统计数据(例如,MinStat)以便正规化原始调和性。替代地,逐帧处理块/模块2073可确定最小统计数据(例如,MinStat)以用于正规化原始调和性。下文结合图25提供经正规化调和性的实例。可将调和性结果(例如,调和性和/或音高)提供到逐帧VAD 2077。换句话说,逐帧VAD 2077可为基于调和性的VAD。
逐帧VAD 2077可基于经变换信号2071以及由调和性块/模块2075提供的调和性和/或音高来检测话音活动。举例来说,逐帧VAD 2077可在调和性满足一或多个阈值(其中阈值例如在一些配置中可基于音高)的情况下指示话音活动。逐帧VAD 2077可将逐帧话音指示符2079提供到逐区间处理块/模块2081(例如,提供到逐区间VAD2087)。逐帧话音指示符2079可指示逐帧VAD 2077是否已检测到帧中的话音活动。
在本文揭示的系统和方法的一些配置中可利用悬置方案。举例来说,如果帧具有强调和性水平,那么只要调和性不是非常低,电子装置2002就可维持若干帧的状态。举例来说,此状态涉及有话音语音检测,其中悬置可避免截断语音尾部。
基于逐帧条件可良好地对静态噪声进行滤波。可通过逐区间条件和后处理对音乐噪声进行滤波。举例来说,在静态噪声中,逐帧条件(由逐帧处理块/模块2073利用)可足以区分语音与噪声。然而在音乐噪声中,可能需要调和性估计的后处理以进一步确定经变换音频信号2071是否含有语音或谐波噪声。图25中提供说明在旋转期间的清洁语音、语音和音乐/仅音乐/仅语音以及语音和公共噪声/仅公共噪声/仅语音的调和性的曲线图。
逐区间处理块/模块2081可确定逐区间条件。在一些配置中,逐区间处理块/模块2081可基于逐区间执行操作,且可包含峰图块/模块2083、SNR确定块/模块2085、逐区间VAD2087和/或峰移除块/模块2090。在一些配置中,峰移除块/模块2090可替代地独立于逐区间处理块/模块2081和/或包含在后处理块/模块2093中。每一“区间”可包含特定频带或频率范围。
峰图块/模块2083可执行峰跟踪。特定来说,峰图块/模块2083可识别经变换音频信号2071中的任何峰的位置(基于例如最大值和/或最小值)。峰图块/模块2083可将这些峰位置(例如在频率中)的信号或指示符提供到逐区间VAD 2087。
逐区间VAD 2087可基于峰信息、逐区间SNR和逐帧话音指示符2079确定话音活动。举例来说,逐区间VAD 2087可基于逐区间来检测话音活动。更具体来说,逐区间VAD 2087可确定由峰图块/模块2083指示的峰中的哪些是语音峰。逐区间VAD 2087可产生逐区间话音指示符2089,其可指示检测到话音活动的任何区间。特定来说,逐区间话音指示符2089可指示经变换音频信号2071中的语音峰和/或非语音峰。峰移除块/模块2090可移除非语音峰。
逐区间VAD 2087可基于邻近峰之间的距离和时间连续性来指示与语音相关联的峰。举例来说,逐区间VAD 2087可指示小的峰(例如,在最大峰以下超过阈值量(例如,30dB)的峰)。逐区间话音指示符2089可向峰移除块/模块2090指示这些小的峰,所述峰移除块/模块可从经变换音频信号2071移除所述小的峰。举例来说,如果峰经确定为显著低于(例如,30dB)最大峰,那么所述峰可不与语音包络相关且因此被消除。
另外,如果两个峰在某一频率范围(例如,90Hz)内且其量值并不是很不同(例如,小于12dB),那么较低的一者可由逐区间VAD 2087指示为非语音峰且可由峰移除块/模块2090移除。可取决于说话者来调整频率范围。举例来说,可针对具有相对较高音高的女人或孩子增加频率范围。
逐区间VAD 2087还可检测时间上隔离的峰(基于例如由峰图块/模块2083指示的峰)。举例来说,逐区间VAD 2087可将来自一或多个其它帧(例如,先前帧和/或后续帧)的峰与当前帧中的峰进行比较。举例来说,逐区间VAD 2087可检测在特定范围内一帧中在先前帧中不具有对应峰的峰。所述范围可基于峰的位置而变化。举例来说,逐区间VAD可在针对较低频率峰的±1区间内和在针对较高频率峰的±3区间内在先前帧中发现对应峰的情况下确定峰在先前帧中具有对应峰(例如,峰是时间上连续的)。逐区间VAD 2087可向峰移除块/模块2090指示时间上隔离的峰(例如,当前帧中在先前帧中不具有对应峰的峰),所述峰移除块/模块可从经变换音频信号2071移除时间上隔离的峰。
逐区间条件中的一者可基于输入信号SNR。特定来说,SNR确定块/模块2085可如下操作。逐区间输入信号SNR可经界定为麦克风输入信号的量值除以其最小统计数据(MinStat)噪声估计。替代地,可基于调和性确定SNR(例如,调和性除以平均调和性)。利用逐区间输入信号SNR的一个益处可为,对于有噪声语音片段,由于较高的噪声水平,SNR可相对较低。相反,对于清洁语音片段,由于较低的噪声水平,SNR将较高,无论保持模式如何。
SNR确定块/模块2085可基于经变换音频信号2071确定逐区间SNR。举例来说,SNR确定块/模块2085可基于逐区间将经变换音频信号2071的量值除以估计噪声最小统计数据来产生逐区间SNR。可将逐区间SNR提供到逐区间VAD 2087。
逐区间VAD 2087可确定具有不满足阈值的SNR的峰。举例来说,逐区间VAD可向峰移除块/模块2090指示具有低于一或多个阈值的SNR的峰。峰移除块/模块2090可移除经变换音频信号2071中的不满足阈值的峰。
在一些配置中,逐区间VAD 2087可利用频率相依的阈值设定。举例来说,可利用非线性阈值来恢复感知上较为支配性的话音频带。在一些配置中,可在音乐声音的开始处增加阈值(使用例如高频率内容)。另外或替代地,当输入信号电平太低(例如,在软语音中)时可减小阈值。图26中提供说明频率相依阈值设定(例如,一个清洁语音静音帧中的SNR和一个音乐噪声帧中的SNR)的实例的曲线图。举例来说,不满足或超过频率相依阈值的峰可由峰移除块/模块2090移除。
由逐区间处理块/模块2081提供的方法可允许自然地建立谐波结构。另外,非语音峰的数目可用作话音活动的指示符。图27中提供峰图(由峰绘图块/模块2083产生)的实例性曲线图。特定来说,提供与清洁语音和有噪声语音(粉红噪声中)相关的曲线图。
峰移除块/模块2090可基于逐区间话音指示符2089产生经恢复帧2091。举例来说,电子装置2002可基于逐区间话音指示符2089从经变换音频信号2071移除噪声峰。可将经恢复帧2091或代替信号提供到后处理块/模块2093。
后处理块/模块2093可包含恢复确定块/模块2095和/或恢复评估块/模块2097。后处理块/模块2093可基于以下条件中的一或多者确定是否将丢弃经恢复帧2091。特定来说,恢复评估块/模块2097可计算例如恢复比率、连续性量度或得分、异常峰检测指示符和/或静态低SNR检测指示符等参数。所述参数中的一或多者可基于输入帧(例如,经变换音频信号2071)和/或经恢复帧2091。恢复确定块/模块2095可确定是否保持或丢弃经恢复帧2091。
恢复比率可经界定为在每一帧处(例如经恢复帧2091的)经恢复FFT量值的和与(例如经变换音频信号2071的)原始FFT量值的和之间的比率。恢复比率可由后处理块/模块2093确定。如果恢复比率小于阈值,那么后处理块/模块2093可撤销恢复。
后处理块/模块2093还可确定连续性量度(例如,恢复连续性)。连续性量度可为逐帧得分。后处理块/模块2093可针对每一区间检查恢复决策的连续性。在一个实例中,后处理块/模块2093可在所述区间针对当前和先前帧两者经恢复的情况下将值(例如,2)加到区间得分。此外,后处理块/模块2093可在当前帧区间经恢复但对应先前帧区间未经恢复(例如作为开始点而发生)的情况下将值(例如,1)加到区间得分。可在先前帧区间经恢复但对应当前帧区间未经恢复(例如作为结束点而发生)的情况下从区间得分减去值(例如,1)。可将所有区间得分求和以获得每一帧的连续性量度。当帧未经恢复时可将逐帧连续性量度(例如,得分)复位为零。后处理块/模块2093可在连续性得分小于阈值的情况下撤销逐帧恢复。
在一些配置中,可执行额外后处理(例如针对一些次要情况)。换句话说,可执行针对一些次要情况的某种精细调谐。在一些配置中,后处理块/模块2093可检测一或多个异常峰。特定来说,可能发现仅一个或两个峰被恢复的情况。如果存留的峰位于高频率处或彼此相距太远(例如,至少阈值距离),那么可撤销针对所述帧的恢复。
另外或替代地,后处理块/模块2093可确定静态低SNR(例如,响亮的粉红噪声)是否满足至少一个阈值。如果最小统计数据(例如,MinStat)总和的平均值较高(例如,高于阈值量)且变化较低(例如,低于阈值量),那么可保留经恢复帧2091。
图28A、28B和28C中提供后处理的实例。特定来说,图28A中提供清洁语音的实例,其中保留大多数检测到的帧。图28B中还提供音乐噪声的实例,其中丢弃大多数检测到的帧。此外,图28C中提供公共噪声的实例,其中丢弃所有检测到的帧。
后处理块/模块2093(例如,恢复确定块/模块2095)可将恢复信息2099提供到最大值块/模块2003。举例来说,在恢复确定块/模块2095确定保留经恢复帧2091的情况下,恢复信息2099可包含经恢复帧2091和/或对应于经恢复帧2091的振幅、量值或增益。当恢复撤销(例如,丢弃经恢复帧)时,恢复信息2099可引导最大值块/模块2003传递经噪声抑制输出帧2001而不按比例缩放。
如图20中说明,电子装置2002还可执行噪声抑制(例如基于来自两个或两个以上麦克风的音频信号通道2067)。噪声抑制块/模块2014可产生噪声抑制增益和/或经噪声抑制输出帧2001,其可提供到最大值块/模块2003。
最大值块/模块2003可基于噪声抑制增益/经噪声抑制输出帧2001和恢复信息2099确定最大值。举例来说,最大值块/模块2003可确定经恢复帧2091与经噪声抑制输出帧2001之间的逐区间最大值。如果与对应经噪声抑制输出帧2001区间相比,经恢复帧2091区间较大(例如,具有较大量值),那么最大值块/模块2003可调整经噪声抑制输出帧2001区间的增益(例如,按比例增加)。举例来说,最大值块/模块2003可将增益值应用于超越小噪声抑制增益的具有较大增益(例如,增益1)的经噪声抑制输出帧2001。举例来说,噪声抑制增益2001通常小于1。当恢复发生时,在语音谐波峰区间中可将噪声减小增益设定为1。因此,最大值块/模块2003可执行两个增益之间的最大值运算(例如针对每一区间)。
最大值块/模块2003可产生输出帧2005。举例来说,在后处理块/模块2093保留经恢复帧2091且基于经恢复帧2091调整经噪声抑制输出帧2001的一或多个区间的情况下,输出帧2005可为经噪声抑制输出帧2001的经增益调整版本。举例来说,在一些情况下输出帧2005可视为最终经恢复帧,其为其中一或多个区间中的噪声抑制增益2001(例如,噪声减小增益)已通过峰恢复决策覆写的帧,因为已经确定这些区间为谐波语音峰。然而,在其中丢弃经恢复帧2091(例如,“撤销”恢复)的情况下,输出帧2005可为不具有增益调整的经噪声抑制输出帧2001。后处理块/模块2093和最大值块/模块2003(和/或其组件)中的一或多者可为用于基于逐区间话音活动检测来恢复经处理语音信号的电路。
图21是说明用于通过电子装置2002恢复经处理语音信号的方法2100的一个配置的流程图。电子装置2002可获得2102至少一个音频信号。举例来说,电子装置2002可从至少一个麦克风俘获音频信号。
电子装置2002可基于所述至少一个音频信号执行2104逐帧(例如,逐个帧或基于帧)话音活动检测。举例来说,电子装置2002可确定调和性。执行2104逐帧话音活动检测可基于如上所述的调和性。
电子装置2002可基于所述至少一个音频信号执行2106逐区间(例如,逐个区间或基于区间)话音活动检测。举例来说,电子装置2002可基于所述至少一个音频信号执行峰跟踪(例如,确定峰图),且可基于所述至少一个音频信号确定信噪比(SNR)(例如,最小统计数据或MinStat)。执行2106逐区间话音活动检测(例如,确定是否检测到话音活动)可基于如上所述的峰图和SNR。在一些配置中,可仅针对由逐帧话音活动检测指示的帧执行2106逐区间活动检测。换句话说,电子装置2002可在逐帧话音活动检测指示话音或语音的情况下基于所述至少一个音频信号执行2106逐区间话音活动检测。在其它配置中,可针对所有帧执行2106逐区间话音活动检测。
电子装置2002可基于逐区间话音活动检测恢复2108经处理语音信号。举例来说,恢复2108经处理语音信号可意味着恢复音频信号中的语音内容(例如,谐波内容)。特定来说,本文揭示的系统和方法的一个目的是当通过噪声减小而抑制时恢复谐波语音内容但不恢复其它谐波信号(例如,音乐等等)。如上所述,恢复2108经处理语音信号可基于逐区间话音活动检测(例如,基于从经恢复帧确定的一或多个参数)而为有条件的。在一些配置中,基于逐区间话音活动检测恢复2108经处理语音信号可包含基于逐区间话音活动检测从经变换音频信号移除一或多个峰(例如,检测到的噪声峰)以产生经恢复帧,如上所述。
另外或替代地,恢复2108经处理语音信号可包含确定一或多个参数(例如,恢复比率和/或连续性量度),如上所述。此外,确定是否恢复经处理语音信号可基于如上所述的参数(例如,恢复比率和/或连续性量度)。在一些配置中,电子装置2002可另外确定是否检测到一或多个异常峰和/或静态低SNR是否满足至少一个阈值,如上所述。确定是否恢复经处理语音信号可另外或替代地基于是否检测到异常峰和/或静态低SNR是否满足至少一个阈值。
在一些配置中,可如下确定恢复经处理语音信号。如果恢复比率满足阈值(例如,恢复比率至少等于恢复比率阈值)且未检测到异常峰,那么电子装置2002可恢复经处理语音信号。如果连续性量度满足阈值(例如,连续性量度至少等于连续性量度阈值),那么电子装置2002可恢复经处理语音信号。如果静态低SNR满足至少一个阈值(例如,最小统计数据总和的平均值至少等于最小统计数据阈值且变化低于变化阈值),那么电子装置2002可恢复经处理语音信号。在任一其它情况下,电子装置2002可避免恢复(例如,不恢复)经处理语音信号(例如,撤销经恢复帧)。因此,确定是否恢复经处理语音信号可基于恢复比率、连续性量度、异常峰检测和静态低SNR条件中的一或多者。
在一些配置中,经处理语音信号可为经噪声抑制输出帧2001。举例来说,在确定恢复经处理语音信号的情况下,电子装置2002可通过基于经恢复帧2091调整经噪声抑制输出帧2001的一或多个区间的增益来恢复2108经处理语音信号。举例来说,电子装置2002可确定经噪声抑制输出帧2001和经恢复帧2091的每一区间之间的最大值(例如量值、振幅、增益等等)。电子装置2002可随后调整例如其中经恢复帧2091区间较大的区间的增益。这可帮助恢复已通过噪声抑制而抑制的经噪声抑制输出帧2001中的语音内容。然而在其它情况下,电子装置2002可如根据基于逐区间VAD的参数(例如,经恢复帧2091)确定而丢弃经恢复帧2091。
图22是说明根据本文揭示的系统和方法的后处理的更具体实例的框图。特定来说,图22说明后处理块/模块2293的一个实例。后处理块/模块2293可获得输入帧2207和经恢复帧2291。后处理块/模块2293可包含恢复评估块/模块2297和/或恢复确定块/模块2295。
恢复评估块/模块2297可如上所述基于输入帧2207和经恢复帧2291而确定恢复比率2211,确定连续性量度(例如,得分)2213,检测任何异常峰2215和/或确定静态低SNR2217是否满足至少一个阈值。后处理块/模块2293可在恢复比率满足阈值(且例如未检测到异常帧)的情况下或在连续性量度满足阈值的情况下或在静态低SNR满足至少一个阈值的情况下确定保留经恢复帧2291。否则,后处理块/模块2293可确定不恢复经处理语音信号(例如,撤销恢复或丢弃经恢复帧)。
恢复信息2299(例如,在确定恢复经处理语音信号的情况下的经恢复帧2291)可通过最大值块/模块2203与经噪声抑制输出帧2201进行比较。可提供这些帧的最大值作为输出帧2205。举例来说,可将经恢复帧2291与经噪声抑制输出帧之间的每一区间的最大值应用于噪声抑制增益。更具体来说,如果恢复发生,那么可针对经恢复帧2291中较大的每一区间用增益1超越小的噪声抑制增益。最大值块/模块2203因此执行“最大值”运算。
图23是说明其中可实施用于恢复经处理语音信号的系统和方法的电子装置2302的更具体配置的框图。电子装置2302可包含峰跟踪器2349、音高跟踪器2345、噪声峰学习器2335、回声消除/噪声抑制块/模块与残余噪声抑制器2333和/或增益调整器2341中的一或多者。在一些配置中,这些元件中的一或多者可类似于上文结合图4描述的对应元件来配置和/或类似于所述对应元件来操作。
电子装置2302还可包含近端语音(NES)检测器2327(具有NES控制逻辑2329)、精炼器2353(在一些配置中可包含峰移除块/模块2390)、SNR跟踪器2347、逐帧VAD2377、逐区间VAD 2387。SNR跟踪器2347可根据上文结合图20描述的SNR(MinStat)块/模块2085来操作。峰跟踪器2349可根据上文结合图20描述的峰图块/模块2083来操作。在此实例中,音高跟踪器2345可执行上文结合图20描述的逐帧处理以计算调和性信息。音高跟踪器2345、SNR跟踪器2347和峰跟踪器2349可基于第一音频信号2321a来操作。在一些配置中,第一音频信号2321a可经静态配置(例如,可来自一个麦克风)或可选自类似于上文结合图20描述的主要通道2065的音频信号群组(例如包含第二音频信号2321b)。精炼器块/模块2353可包含上文结合图20描述的后处理块/模块2093。举例来说,精炼器块/模块2353可执行结合上文描述的图20和/或22中的后处理块/模块2093描述的操作中的一或多者。
如图23中说明,近端语音检测器2327可基于一或多个音频信号2321a到2321b检测近端语音。另外,近端语音(NES)控制逻辑2329可基于谐波统计数据2323和逐帧VAD 2325(例如,单通道)提供控制。近端语音检测器2327可将音频信号2321a到2321b中的一或多者和/或NES状态2331提供到噪声抑制块/模块与残余噪声抑制器2333。在一些配置中,NES状态2331可指示单麦克风状态或多麦克风(例如,双麦克风)状态。
噪声抑制块/模块与残余噪声抑制器2333可将经噪声抑制信号2337和噪声抑制增益2339提供到增益调整器2341。在一些配置中,噪声与残余噪声抑制器2333可包含自适应波束成形器(ABF)功能性。举例来说,噪声抑制与残余噪声抑制器2333可执行波束成形操作以便抑制音频信号2321a到2321b中的噪声。换句话说,在一些配置中,经噪声抑制信号2337可基于自适应波束成形。增益调整器2341可提供结合图20和22中的一或多者描述的“最大值”功能性。举例来说,增益调整器2341可将噪声抑制增益2339与恢复信息2351(例如,对应于经恢复帧的增益)进行比较以便产生输出帧2343。
逐区间VAD 2387可将逐区间话音指示符2389(例如,逐区间VAD信号)提供到精炼器2353(例如,峰移除块/模块2390)。逐区间话音指示符2389可指示不包含语音的特定区间(例如,峰)。逐区间话音指示符2389(例如,逐区间VAD信号)可基于频率区间中的能量。峰移除块/模块2390可为上文结合图20描述的峰移除块/模块2090的一个实例。峰移除块/模块2090可移除非语音峰。
精炼可在精炼器2353中发生。第一音频信号2321a可包含在精炼之前具有频谱峰的增益(可能有点杂乱,尤其针对例如音乐等谐波噪声)。精炼器2353可为用于基于调和性量度(例如,由音高跟踪器2345提供的调和性信息)精炼语音信号(例如,第一音频信号2321a)的电路。精炼器2353可产生代替信号(例如,经恢复帧)。在一些配置中,例如,精炼可包含从第一音频信号2321a移除非语音峰。如上所述,代替信号(例如,经恢复帧)可基于逐区间VAD信号2389。精炼器2353可产生恢复信息2351(例如,代替信号、经恢复帧和/或对应于代替信号或经恢复帧的信息(例如,一或多个增益))。精炼器2353可将恢复信息2351提供到增益调整器。在一些配置中,恢复信息2351可包含在通过针对经恢复帧的错误恢复部分“撤销”恢复的精炼之后具有频谱峰的增益。举例来说,可基于帧调和性和逐区间条件来恢复一或多个帧。通常可基于帧调和性和逐区间条件来恢复帧。然而,如果调和性条件的后处理进一步确定这是错误决策,那么撤销基本恢复决策。应注意,精炼器可对应于图20和22中的一或多者中的后处理块。
在整个噪声抑制处理之前可发生双或单麦克风状态切换,且语音恢复可能不依赖于状态。精炼器2353可提供经恢复语音或例如在一些频率区间中抑制所要语音的情况下撤销恢复。
在一些配置中,增益调整器2341可为用于基于代替信号来代替经噪声抑制语音帧(例如,经噪声抑制信号2337)的电路。举例来说,增益调整器2341可调整经噪声抑制信号2337的噪声抑制增益2339以便产生输出帧2343。在一些配置中,电子装置2302可因此基于调和性量度精炼语音信号以产生代替信号,且基于代替信号来代替经噪声抑制语音帧。代替信号可基于逐区间VAD信号,其可基于频率区间中的能量。
图24是说明精炼器2453的一个配置的框图。精炼器2453可为结合图20、22和23中的一或多者描述的后处理块/模块和精炼器2453中的一或多者的一个实例。精炼器2453可获得输入帧2455和经恢复帧2491。举例来说,精炼器2453可获得且分析经恢复帧2491。在一些配置中,精炼器2453可任选地获得逐区间VAD信号2489。精炼器2453可包含恢复评估块/模块2497和恢复确定块/模块2495。
恢复评估块/模块2497可包含恢复比率确定块/模块2411、连续性得分确定块/模块2413、异常峰检测块/模块2415和静态低SNR检测块/模块2417。恢复比率确定块/模块2411可基于经恢复帧2491和输入帧2455确定恢复比率。举例来说,恢复比率可为在每一帧处经恢复FFT量值的和与原始FFT量值的和之间的比率。
连续性得分确定块/模块2413可基于当前和过去帧恢复来确定连续性量度或得分。举例来说,连续性得分确定可在当前和先前帧均经恢复的情况下加上第一正值(例如,+2),在当前帧经恢复但先前帧未经恢复的情况下加上第二正值(例如,+1),且在先前帧经恢复但当前帧未经恢复的情况下加上负值(例如,-1)。可基于实施方案将不同权重指派于所述正值和负值。举例来说,如果当前和先前帧均经恢复,那么第一正值可为+2.4。连续性得分确定块/模块可将所有区间的得分求和以获得每一帧的连续性得分。当帧未经恢复时可将逐帧连续性得分复位为零。
异常峰检测块/模块2415可检测任何异常峰。举例来说,异常峰检测块/模块可检测低于阈值数目(例如,仅一个或两个)的峰经恢复的情况。
静态低SNR检测块/模块2417可检测静态低SNR条件。这可在最小统计数据(例如,MinStat)总和的平均值较高且变化较低的情况下发生。
恢复确定块/模块2495可在恢复比率满足阈值(且例如未检测到异常帧)的情况下或在连续性量度满足阈值的情况下或在静态低SNR满足至少一个阈值的情况下确定保留经恢复帧2491。否则,恢复确定块/模块2495可确定不恢复经处理语音信号(例如,撤销恢复或丢弃经恢复帧2491)。在此情况下,恢复确定块/模块2495可丢弃经恢复帧2491。在一些配置中,精炼器2453可确定是否将使用经恢复帧2491。因此,在其中精炼器2453确定保留经恢复帧2491的情况下,其可提供最终经恢复帧2499。应注意,经恢复帧2491可包含已被代替或恢复的一或多个频率区间。举例来说,在一些配置中,可基于逐区间来恢复帧以产生经恢复帧2491。
图25说明根据本文揭示的系统和方法的经正规化调和性的实例。特定来说,实例A2557a说明在旋转期间的清洁语音的经正规化调和性。实例B 2557b说明语音+音乐/仅音乐/仅语音的经正规化调和性。此外,实例C 2557c说明语音+公共噪声/仅公共噪声/仅语音的经正规化调和性。实例A到C 2557a到2557c中说明的曲线图的水平轴是以频率给出。实例A到C 2557a到2557c中说明的曲线图的垂直轴提供经正规化调和性的度量,但调和性是测量周期性程度(如所说明在频率方向上)的无量纲量度。
图26说明根据本文揭示的系统和方法的频率相依阈值设定的实例。特定来说,实例A 2659a说明一个清洁语音静音帧中的SNR。实例A 2659a还说明频率相依阈值。实例B2659b说明一个音乐噪声帧中的SNR。实例B 2659b还说明频率相依阈值。
可利用图26中说明的非线性阈值来恢复感知上较为支配性的话音频带。此外,可在音乐声音的开始处增加阈值(使用例如高频率内容)。另外,当输入信号电平太低(例如,在软语音中)时可减小阈值。
图27说明根据本文揭示的系统和方法的峰图的实例。特定来说,实例A 2761a说明清洁语音信号中的谱图、原始峰和经精炼峰。实例B 2761b说明有噪声语音信号(例如具有粉红噪声)中的谱图、原始峰和经精炼峰。图27中的曲线图在垂直轴上以千赫(kHz)为单位且在水平轴上以秒的时间单位来说明。
图28A说明根据本文揭示的系统和方法的后处理的实例。特定来说,此实例说明针对清洁语音信号的谱图曲线图2801a、帧VAD状态曲线图2803a、恢复比率曲线图2805a(具有阈值)、连续性得分曲线图2807a和在后处理之后的帧VAD状态曲线图2809a。在此实例中,保留大多数检测到的帧。
图28A中的曲线图的水平轴是以时间来说明。谱图曲线图2801a的垂直轴是以频率(kHz)来说明。在帧VAD状态曲线图2803a和后处理之后的帧VAD状态曲线图2809a中,垂直轴上的1的值表示具有检测到的话音的帧,而垂直轴上的0的值表示不具有检测到的话音的帧。如图28A中说明,本文描述的系统和方法可帮助经由后处理(例如,移除错误的话音检测)来精炼VAD状态。恢复比率曲线图2805a的垂直轴表示无量纲值,其指示经恢复帧FFT量值总和除以原始帧FFT量值总和的比率。在此实例中,恢复比率阈值说明为40%。连续性得分曲线图2807a的垂直轴表示无量纲值,其指示如上所述的恢复连续性的程度。
图28B说明根据本文揭示的系统和方法的后处理的另一实例。特定来说,此实例说明针对音乐噪声的谱图曲线图2801b、帧VAD状态曲线图2803b、恢复比率曲线图2805b(具有阈值)、连续性得分曲线图2807b和在后处理之后的帧VAD状态曲线图2809b。在此实例中,丢弃大多数检测到的帧。
图28B中的曲线图的水平轴是以时间来说明。谱图曲线图2801b的垂直轴是以频率(kHz)来说明。在帧VAD状态曲线图2803b和后处理之后的帧VAD状态曲线图2809b中,垂直轴上的1的值表示具有检测到的话音的帧,而垂直轴上的0的值表示不具有检测到的话音的帧。如图28B中说明,本文描述的系统和方法可帮助经由后处理(例如,移除错误的话音检测)来精炼VAD状态。恢复比率曲线图2805b的垂直轴表示无量纲值,其指示经恢复帧FFT量值总和除以原始帧FFT量值总和的比率。在此实例中,恢复比率阈值说明为40%。连续性得分曲线图2807b的垂直轴表示无量纲值,其指示如上所述的恢复连续性的程度。
图28C说明根据本文揭示的系统和方法的后处理的另一实例。特定来说,此实例说明针对公共噪声的谱图曲线图2801c、帧VAD状态曲线图2803c、恢复比率曲线图2805c(具有阈值)、连续性得分曲线图2807c和在后处理之后的帧VAD状态曲线图2809c。在此实例中,丢弃所有检测到的帧。
图28C中的曲线图的水平轴是以时间来说明。谱图曲线图2801c的垂直轴是以频率(kHz)来说明。在帧VAD状态曲线图2803c和后处理之后的帧VAD状态曲线图2809c中,垂直轴上的1的值表示具有检测到的话音的帧,而垂直轴上的0的值表示不具有检测到的话音的帧。如图28C中说明,本文描述的系统和方法可帮助经由后处理(例如,移除错误的话音检测)来精炼VAD状态。恢复比率曲线图2805c的垂直轴表示无量纲值,其指示经恢复帧FFT量值总和除以原始帧FFT量值总和的比率。在此实例中,恢复比率阈值说明为40%。连续性得分曲线图2807c的垂直轴表示无量纲值,其指示如上所述的恢复连续性的程度。
图29是说明其中可实施用于信号电平匹配和检测话音活动的系统和方法的电子装置2902中的若干组件的一个配置的框图。如上所述,电子装置2902的一个实例可为无线通信装置。无线通信装置的实例包含蜂窝式电话、智能电话、膝上型计算机、个人数字助理(PDA)、数字音乐播放器、数码相机、数字摄像机、游戏控制台等等。电子装置2902可能够以无线方式与一或多个其它装置通信。电子装置2902可包含应用程序处理器2963。应用程序处理器2963一般处理指令(例如,运行程序)以在电子装置2902上执行功能。应用程序处理器2963可耦合到音频块/模块2965。
音频块/模块2965可为用于处理音频信号的电子装置(例如,集成电路)。举例来说,音频块/模块2965可包含用于对音频信号进行译码和/或解码的音频编解码器。音频块/模块2965可耦合到一或多个扬声器2967、一或多个耳机扬声器2969、输出插孔2971和/或一或多个麦克风2904。扬声器2967可包含一或多个电声变换器,其将电或电子信号转换为声信号。举例来说,扬声器2967可用以播放音乐或输出扬声器电话对话等等。所述一或多个耳机扬声器2969可包含一或多个扬声器或电声变换器,其可用以向用户输出声信号(例如,语音信号、超声信号、噪声控制信号等等)。举例来说,可使用一或多个耳机扬声器2969以使得仅用户可以可靠地听到由耳机扬声器2969产生的声信号。输出插孔2971可用于将其它装置耦合到电子装置2902以用于输出音频,例如头戴式受话器。扬声器2967、一或多个耳机扬声器2969和/或输出插孔2971可一般用于输出来自音频块/模块2965的音频信号。所述一或多个麦克风2904可为声电变换器,其将声信号(例如用户的话音)转换为提供到音频块/模块2965的电或电子信号。
音频处理块/模块2975a可任选地实施为音频块/模块2965的部分。举例来说,音频处理块/模块2975a可根据本文描述的功能和/或结构中的一或多者来实施。
另外或替代地,音频处理块/模块2975b可在应用程序处理器2963中实施。举例来说,音频处理块/模块2975b可根据本文描述的功能和/或结构中的一或多者来实施。
应用程序处理器2963可耦合到电力管理电路2977。电力管理电路2977的一个实例是电力管理集成电路(PMIC),其可用以管理电子装置2902的电功率消耗。电力管理电路2977可耦合到电池2979。电池2979可一般将电力提供到电子装置2902。应注意,电力管理电路2977和/或电池2979可耦合到电子装置2902中包含的元件中的一或多者(例如,全部)。
应用程序处理器2963可耦合到一或多个输入装置2981用于接收输入。输入装置2981的实例包含红外传感器、图像传感器、加速度计、触摸传感器、力(例如,压力)传感器、小键盘、麦克风、输入端口/插孔等等。输入装置2981可允许与电子装置2902的用户交互。应用程序处理器2963还可耦合到一或多个输出装置2983。输出装置2983的实例包含打印机、投影仪、屏幕、触觉装置、扬声器等等。输出装置2983可允许电子装置2902产生可由用户体验的输出。
应用程序处理器2963可耦合到应用程序存储器2985。应用程序存储器2985可为能够存储电子信息的任何电子装置。应用程序存储器2985的实例包含双数据速率同步动态随机存取存储器(DDRAM)、同步动态随机存取存储器(SDRAM)、快闪存储器等等。应用程序存储器2985可为应用程序处理器2963提供存储。举例来说,应用程序存储器2985可存储用于在应用程序处理器2963上运行的程序的功能的数据和/或指令。在一个配置中,应用程序存储器2985可存储和/或提供用于执行本文描述的方法中的一或多者的数据和/或指令。
应用程序处理器2963可耦合到显示器控制器2987,所述显示器控制器又可耦合到显示器2989。显示器控制器2987可为用以在显示器2989上产生图像的硬件块。举例来说,显示器控制器2987可将来自应用程序处理器2963的指令和/或数据转换为可在显示器2989上呈现的图像。显示器2989的实例包含液晶显示器(LCD)面板、发光二极管(LED)面板、阴极射线管(CRT)显示器、等离子显示器等等。
应用程序处理器2963可耦合到基带处理器2991。基带处理器2991一般处理通信信号。举例来说,基带处理器2991可对所接收信号进行解调和/或解码。另外或替代地,基带处理器2991可对信号进行编码和/或调制以准备发射。
基带处理器2991可耦合到基带存储器2993。基带存储器2993可为能够存储电子信息的任何电子装置,例如SDRAM、DDRAM、快闪存储器等等。基带处理器2991可从基带存储器2993读取信息(例如,指令和/或数据)和/或向其写入信息。另外或替代地,基带处理器2991可使用存储在基带存储器2993中的指令和/或数据来执行通信操作。
基带处理器2991可耦合到射频(RF)收发器2995。RF收发器2995可耦合到一或多个功率放大器2997和一或多个天线2999。RF收发器2995可发射和/或接收射频信号。举例来说,RF收发器2995可使用功率放大器2997和一或多个天线2999发射RF信号。RF收发器2995还可使用一或多个天线2999接收RF信号。
图30说明可在电子装置3002中利用的各种组件。所说明组件可位于同一物理结构内或单独的外壳或结构中。在一些配置中,本文描述的装置或电子装置中的一或多者可根据图30中说明的电子装置3002来实施。电子装置3002包含处理器3007。处理器3007可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等等。处理器3007可称为中央处理单元(CPU)。虽然图30的电子装置3002中仅展示单个处理器3007,但在替代配置中,可使用处理器3007的组合(例如,ARM和DSP)。
电子装置3002还包含与处理器3007电子通信的存储器3001。也就是说,处理器3007可从存储器3001读取信息和/或向其写入信息。存储器3001可为能够存储电子信息的任何电子组件。存储器3001可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、与处理器3007一起包含的板上存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等等,包含其组合。
数据3005a和指令3003a可存储在存储器3001中。指令3003a可包含一或多个程序、例程、子例程、函数、过程等等。指令3003a可包含单个计算机可读语句或许多计算机可读语句。指令3003a可由处理器3007执行以实施本文描述的方法或功能中的一或多者。执行指令3003a可涉及存储在存储器3001中的数据3005a的使用。图30展示一些指令3003b和数据3005b加载到处理器3007中(可源自指令3003a和数据3005a)。
电子装置3002还可包含用于与其它电子装置通信的一或多个通信接口3011。通信接口3011可基于有线通信技术、无线通信技术或两者。不同类型的通信接口3011的实例包含串行端口、并行端口、通用串行总线(USB)、以太网适配器、IEEE 1394总线接口、小型计算机系统接口(SCSI)总线接口、红外(IR)通信端口、蓝牙无线通信适配器等等。
电子装置3002还可包含一或多个输入装置3013和一或多个输出装置3017。不同种类的输入装置3013的实例包含键盘、鼠标、麦克风、远程控制装置、按钮、操纵杆、轨迹球、触摸板、光笔等等。举例来说,电子装置3002可包含用于俘获声信号的一或多个麦克风3015。在一个配置中,麦克风3015可为变换器,其将声信号(例如,话音、语音、噪声等等)转换为电或电子信号。不同种类的输出装置3017的实例包含扬声器、打印机等等。举例来说,电子装置3002可包含一或多个扬声器3019。在一个配置中,扬声器3019可为将电或电子信号转换为声信号的变换器。
电子装置3002中可包含的一个特定类型的输出装置3017为显示装置3021。与本文揭示的配置一起使用的显示装置3021可利用任何合适的图像投影技术,例如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)、气体等离子、电致发光或类似技术。还可提供显示器控制器3023,用于将存储在存储器3001中的数据3005a转换为在显示装置3021上展示的文本、图形和/或移动图像(适当时)。
电子装置3002的各种组件可通过一或多个总线耦合在一起,所述总线可包含电力总线、控制信号总线、状态信号总线、数据总线等等。为了简单,图30中将各种总线说明为总线系统3009。应注意,图30仅说明电子装置3002的一个可能配置。可利用各种其它架构和组件。
图31说明可包含在无线通信装置3102内的某些组件。在一些配置中,本文描述的装置或电子装置中的一或多者可根据图31中说明的无线通信装置3102来实施。
无线通信装置3102包含处理器3141。处理器3141可为通用单芯片或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等等。处理器3141可称为中央处理单元(CPU)。虽然图31的无线通信装置3102中仅展示单个处理器3141,但在替代配置中,可使用处理器3141的组合(例如,ARM和DSP)。
无线通信装置3102还包含与处理器3141电子通信的存储器3125(例如,处理器3141可从存储器3125读取信息和/或向其写入信息)。存储器3125可为能够存储电子信息的任何电子组件。存储器3125可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、与处理器3141一起包含的板上存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等等,包含其组合。
数据3127a和指令3129a可存储在存储器3125中。指令3129a可包含一或多个程序、例程、子例程、函数、过程、代码等等。指令3129a可包含单个计算机可读语句或许多计算机可读语句。指令3129a可由处理器3141执行以实施本文描述的方法或功能中的一或多者。执行指令3129a可涉及存储在存储器3125中的数据3127a的使用。图31展示一些指令3129b和数据3127b加载到处理器3141中(可来自存储器3125中的指令3129a和数据3127a)。
无线通信装置3102还可包含发射器3137和接收器3139以允许无线通信装置3102与远程位置(例如,另一无线通信装置等等)之间的信号发射和接收。发射器3137和接收器3139可统称为收发器3135。天线3145可电耦合到收发器3135。无线通信装置3102还可包含(未图示)多个发射器3137、多个接收器3139、多个收发器3135和/或多个天线3145。
在一些配置中,无线通信装置3102可包含用于俘获声信号的一或多个麦克风3131。在一个配置中,麦克风3131可为变换器,其将声信号(例如,话音、语音、噪声等等)转换为电或电子信号。另外或替代地,无线通信装置3102可包含一或多个扬声器3133。在一个配置中,扬声器3133可为将电或电子信号转换为声信号的变换器。
无线通信装置3102的各种组件可通过一或多个总线耦合在一起,所述总线可包含电力总线、控制信号总线、状态信号总线、数据总线等等。为了简单,图31中将各种总线说明为总线系统3143。
在以上描述中,已有时结合各种术语使用参考数字。在结合参考数字使用术语的情况下,这可有意指代在图式中的一或多者中展示的特定元件。在无参考数字的情况下使用术语的情况下,这可有意一般地指代所述术语而不限于任何特定图式。
本文揭示的方法和设备可一般应用于任何收发和/或音频感测应用中,包含此些应用的移动或另外便携式实例和/或来自远场源的信号分量的感测。举例来说,本文揭示的配置的范围包含驻留在经配置以采用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将了解,具有如本文描述的特征的方法和设备可驻留在采用所属领域的技术人员已知的广泛多种技术的各种通信系统中的任一者中,例如采用有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道上的IP话音(VoIP)的系统。
本文描述的技术可用于各种通信系统,包含基于正交多路复用方案的通信系统。此些通信系统的实例包含正交频分多址(OFDMA)系统、单载波频分多址(SC-FDMA)系统等等。OFDMA系统利用正交频分多路复用(OFDM),其为将总体系统带宽分割为多个正交副载波的调制技术。这些副载波也可称为音调、区间等等。在OFDM的情况下,每一副载波可用数据独立地调制。SC-FDMA系统可利用交错FDMA(IFDMA)来在分布于系统带宽上的副载波上发射,利用局部化FDMA(LFDMA)来在邻近副载波的块上发射,或利用增强型FDMA(EFDMA)来在邻近副载波的多个块上发射。大体上,调制符号对于OFDM是在频域中发送且对于SC-FDMA是在时域中发送。
术语“确定”涵盖广泛多种动作,且因此,“确定”可包含运算、计算、处理、推导、调查、查找(例如,在表、数据库或另一数据结构中查找)、确认和类似动作。而且,“确定”可包含接收(例如,接收信息)、存取(例如,存取存储器中的数据)和类似动作。而且,“确定”可包含解析、选择、挑选、建立和类似动作。
短语“基于”并不意味着“仅基于”,除非另外明确指定。换句话说,短语“基于”描述“仅基于”和“至少基于”两者。举例来说,术语“基于”可指示其普通意义中的任一者,包含如下情况:(i)“推导自”(例如,“B是A的前体”),(ii)“至少基于”(例如,“A至少基于B”),以及在特定上下文中适当的情况下,(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包含“至少响应于”。
术语“耦合”及其任何变化可指示元件之间的直接或间接连接。举例来说,耦合到第二元件的第一元件可直接连接到第二元件,或通过另一元件间接连接到第二元件。
术语“处理器”应广义地解释为涵盖通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等等。在一些情况下,“处理器”可指代专用集成电路(ASIC)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)等等。术语“处理器”可指代处理装置的组合,例如数字信号处理器(DSP)与微处理器的组合、多个微处理器、结合数字信号处理器(DSP)核心的一或多个微处理器,或任何其它此类配置。
术语“存储器”应广义地解释为涵盖能够存储电子信息的任何电子组件。术语存储器可指代各种类型的处理器可读媒体,例如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、快闪存储器、磁性或光学数据存储装置、寄存器等等。如果处理器可从存储器读取信息和/或向存储器写入信息,那么存储器称为与处理器电子通信。与处理器成一体式的存储器与所述处理器电子通信。
术语“指令”和“代码”应广义地解释为包含任何类型的计算机可读语句。举例来说,术语“指令”和“代码”可指代一或多个程序、例程、子例程、函数、过程等等。“指令”和“代码”可包括单个计算机可读语句或许多计算机可读语句。
除非由其上下文明确限制,否则术语“信号”在此用以指示其普通意义中的任一者,包含如在电线、总线或其它传输媒体上表示的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则术语“产生”在此用以指示其普通意义中的任一者,例如计算或以其它方式产生。除非由其上下文明确限制,否则术语“计算”在此用以指示其普通意义中的任一者,例如计算、评估、平滑和/或从多个值中选择。除非由其上下文明确限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、推导、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非由其上下文明确限制,否则术语“选择”用以指示其普通意义中的任一者,例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。在本发明描述和权利要求书中使用术语“包括”的情况下,其并不排除其它元件或操作。
对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置,除非上下文另外指示。根据特定上下文,术语“通道”有时候用以指示信号路径且在其它时候用以指示由此路径载运的信号。除非另外指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示基于十的对数,但此运算向其它基数的扩展在本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者,例如所述信号的频域表示的样本(例如,由快速傅立叶变换产生)或所述信号的子带(例如,巴克(Bark)尺度或梅尔(mel)尺度子带)。除非上下文另外指示,否则术语“结束”在此用作术语“开始”的反义词。
明确预期且在此揭示,本文揭示的通信装置可适于在包交换(例如,经布置以根据例如VoIP等协议载运音频发射的有线和/或无线网络)和/或电路交换的网络中使用。还明确预期且在此揭示,本文揭示的通信装置可适于在窄带译码系统(例如,对大约四或五千赫的音频频率范围进行编码的系统)中使用和/或在宽带译码系统(例如,对大于五千赫的音频频率进行编码的系统)中使用,包含全带宽带译码系统和分带宽带译码系统。
提供所描述配置的前述呈现以使得所属领域的技术人员能够制作或使用本文揭示的方法和其它结构。本文展示和描述的流程图、流图、框图和其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且在此呈现的一般原理也可应用于其它配置。因此,本发明既定不限于上文展示的配置,而是应被赋予与本文以任何方式(包含所申请的形成原始发明的一部分的所附权利要求书中)揭示的原理和新颖特征一致的最广范围。
所属领域的技术人员将了解,可使用多种不同技艺和技术中的任一者来表示信息和信号。举例来说,贯穿以上描述可参考的数据、指令、命令、信息、信号、位和符号可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任一组合来表示。
用于如本文揭示的配置的实施的重要设计要求可包含最小化处理延迟和/或计算复杂性(通常以每秒百万指令或MIPS测量),尤其是针对计算密集型应用,例如经压缩音频或视听信息的重放(例如,根据例如本文识别的实例中的一者的压缩格式编码的文件或流)或用于宽带通信的应用(例如,在高于八千赫的取样率下的话音通信,例如12、16、44.1、48或192kHz)。
多麦克风处理系统的目标可包含实现十到十二dB的总体噪声减少,在所要说话者的移动期间保留话音电平和颜色,获得噪声已移动到背景中的感知而非激进的噪声移除,语音的解混响,和/或实现用于较激进的噪声减少的后处理的选项。
如本文揭示的设备可以被视为适合于既定应用的硬件与软件和/或与固件的任一组合来实施。举例来说,此设备的元件可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且这些元件中的任一者可实施为一或多个此类阵列。所述设备的元件中的任何两个或两个以上或甚至全部可在相同的一或多个阵列内实施。此一或多个阵列可在一或多个芯片内(例如,在包含两个或两个以上芯片的芯片组内)实施。
本文揭示的设备的各种设施方案的一或多个元件也可整体或部分地实施为经布置以在一或多个固定或可编程逻辑元件阵列上执行的一或多个指令集,所述逻辑元件阵列例如为微处理器、嵌入式处理器、知识产权(IP)核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文揭示的设备的实施方案的各种元件中的任一者也可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器,也称为“处理器”),且这些元件中的任何两个或两个以上或甚至全部可在相同的此类一或多个计算机内实施。
如本文揭示的处理器或用于处理的其它装置可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的一或多个电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且这些元件中的任一者可实施为一或多个此类阵列。此一或多个阵列可在一或多个芯片内(例如,在包含两个或两个以上芯片的芯片组内)实施。此些阵列的实例包含固定或可编程逻辑元件阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文揭示的处理器或用于处理的其它装置也可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器)或其它处理器。如本文描述的处理器可用以执行不直接与本文描述的话音活动检测程序相关的任务或其它指令集,例如与其中嵌入处理器的装置或系统(例如,音频感测装置)的另一操作相关的任务。如本文揭示的方法的部分还可由音频感测装置的处理器执行,且所述方法的另一部分在一或多个其它处理器的控制下执行。
所属领域的技术人员将了解,结合本文揭示的配置描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件或两者的组合。此些模块、逻辑块、电路和操作可以通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文揭示的配置的任一组合来实施或执行。举例来说,此配置可至少部分地实施为硬连线电路、制造于专用集成电路中的电路配置,或者加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到其中的软件程序,此代码是可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器,但在替代例中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器,或任何其它此类配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸式磁盘、CD-ROM或此项技术中已知的任一其它形式的存储媒体。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和向存储媒体写入信息。在替代方案中,存储器媒体可与处理器成一体式。处理器和存储媒体可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储媒体可作为离散组件驻留在用户终端中。
应注意,本文揭示的各种方法(例如,借助于本文描述的各种设备的操作的描述而揭示的方法和其它方法)可由例如处理器等逻辑元件阵列执行,且如本文描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文使用,术语“模块”或“子模块”可指代呈软件、硬件或固件形式的任何方法、设备、装置、单元或包含计算机指令(例如,逻辑表达式)的计算机可读数据存储媒体。应了解,多个模块或系统可组合为一个模块或系统,且一个模块或系统可分离为多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的元素基本上是用以执行相关任务的代码段,例如例程、程序、对象、组件、数据结构和类似物。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的任何一或多个指令集或指令序列,和此些实例的任一组合。程序或代码段可存储在处理器可读存储媒体中或通过体现于载波中的计算机数据信号在传输媒体或通信链路上发射。
本文揭示的方法、方案和技术的实施方案也可有形地体现(例如,在如本文列出的一或多个计算机可读媒体中)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一或多个指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸式和不可装卸式媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软磁盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路,或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包含可在例如电子网络信道、光纤、空气、电磁、RF链路等等传输媒体上传播的任何信号。代码段可经由例如因特网或内部网等计算机网络下载。在任一情况下,本发明的范围都不应解释为受此些实施例限制。
本文描述的方法的任务中的每一者可直接以硬件、以由处理器执行的软件模块或以两者的组合来体现。在如本文揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一或多者(可能全部)也可实施为代码(例如,一或多个指令集),体现于计算机程序产品(例如,例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等等一或多个数据存储媒体)中,其可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文揭示的方法的实施方案的任务也可由一个以上此类阵列或机器执行。在这些或其它实施方案中,所述任务可在例如蜂窝式电话等用于无线通信的装置或具有此通信能力的其它装置内执行。此装置可经配置以与电路交换和/或包交换网络通信(例如,使用例如VoIP等一或多个协议)。举例来说,此装置可包含经配置以接收和/或发射经编码帧的RF电路。
明确地揭示了本文揭示的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文描述的各种设备可包含在此装置内。典型的实时(例如,在线)应用是使用此移动装置进行的电话对话。
在一或多个示范性实施例中,本文描述的操作可以硬件、软件、固件或其任一组合实施。如果以软件实施,那么此些操作可作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如,传输)媒体两者。举例来说而非限制,计算机可读存储媒体可包括:存储元件阵列,例如半导体存储器(可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM)或铁电的、磁阻的、双向的、聚合的或相变存储器;CD-ROM或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此存储媒体可以可由计算机存取的指令或数据结构的形式存储信息。通信媒体可包括可用以用指令或数据结构的形式载运所要程序代码且可由计算机存取的任何媒体,包含促进计算机程序从一处转移到另一处的任何媒体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波等无线技术从网站、服务器或其它远程源发射软件,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波等无线技术包含于媒体的定义中。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和Blu-ray DiscTM(蓝光光盘协会,加利福尼亚环球城),其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。以上各项的组合也应包含在计算机可读媒体的范围内。
如本文描述的声信号处理设备可并入到接受语音输入以便控制某些操作或可另外得益于所要噪声与背景噪声的分离的电子装置(例如通信装置)中。许多应用可得益于增强或分离清晰的所要声音与源自多个方向的背景声音。此些应用可包含并入有例如话音辨识和检测、语音增强和分离、话音激活的控制和类似情况的能力的电子或计算装置中的人机接口。可能希望实施此声信号处理设备以适合于仅提供有限处理能力的装置中。
本文描述的模块、元件和装置的各种实施方案的元件可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此装置的一个实例为例如晶体管或门等逻辑元件的固定或可编程阵列。本文描述的设备的各种设施方案的一或多个元件也可整体或部分地实施为经布置以在一或多个固定或可编程逻辑元件阵列上执行的一或多个指令集,所述逻辑元件阵列例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC。
如本文描述的设备的实施方案的一或多个元件可用以执行不直接与所述设备的操作相关的任务或其它指令集,例如与其中嵌入所述设备的装置或系统的另一操作相关的任务。此设备的实施方案的一或多个元件也可具有共同的结构(例如,用以在不同时间执行对应于不同元件的代码的部分的处理器,经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行用于不同元件的操作的电子和/或光学装置的布置)。
本文揭示的方法包括用于实现所描述方法的一或多个步骤或动作。在不脱离权利要求书的范围的情况下,所述方法步骤和/或动作可彼此互换。换句话说,除非对于正在描述的方法的适当操作要求步骤或动作的特定次序,否则可在不脱离权利要求书的范围的情况下修改特定步骤和/或动作的次序和/或使用。
除非另外指示,否则对具有特定特征的设备的操作的任何揭示也明确预期揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示也明确预期揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或系统来使用。术语“方法”、“过程”、“程序”和“技术”一般地且可互换地使用,除非特定上下文另外指示。术语“设备”和“装置”也一般地且可互换地使用,除非特定上下文另外指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非由其上下文明确限制,否则术语“系统”在此用以指示其普通意义中的任一者,包含“相互作用以用于共同目的的元件群组”。
应了解,权利要求书不限于上文说明的精确配置和组件。在不脱离权利要求书的范围的情况下,可在本文描述的系统、方法和设备的布置、操作和细节上做出各种修改、改变和变化。
Claims (33)
1.一种用于通过电子音频装置进行一或多个音频信号的信号电平匹配的方法,其包括:
将输入频谱分段为一或多个频带;
测量每一频带的信噪比;
确定所述信噪比是否小于信噪比阈值;
组装目标频谱,其中组装目标频谱包括用与所述音频信号的信噪比小于所述信噪比阈值的一或多个频带相对应的语音模板频谱的一部分代替语音参考频谱的一部分;以及
调整经噪声抑制信号中的一或多个频带的增益,使得所述一或多个频带近似匹配于所述目标频谱。
2.根据权利要求1所述的方法,其进一步包括:
从多个麦克风俘获所述音频信号;
基于麦克风间减法确定差信号,其中所述差信号包括多个谐波;
确定所述差信号的调和性是否超过调和性阈值;
保留所述谐波以确定包络;以及
将所述包络应用于所述经噪声抑制信号。
3.根据权利要求2所述的方法,其进一步包括:基于所述音频信号抑制残余噪声。
4.根据权利要求2所述的方法,其中将所述包络应用于所述经噪声抑制信号包括:调整所述经噪声抑制信号的增益以使得经噪声抑制信号电平近似匹配于音频信号电平。
5.根据权利要求2所述的方法,其中确定差信号包括确定所述输入频谱的对应于语音信号的部分。
6.根据权利要求1所述的方法,其中所述语音模板频谱是基于码簿。
7.根据权利要求1所述的方法,其中所述语音模板频谱是基于所述输入频谱的其中所述信噪比大于所述信噪比阈值的频带的内插。
8.根据权利要求1所述的方法,其中所述语音参考频谱是基于所述输入频谱。
9.根据权利要求1所述的方法,其中组装目标频谱包括谐波合成产生。
10.根据权利要求1所述的方法,其进一步包括:产生置信度量度或发音参数;基于基频估计一或多个正弦参数;基于所述一或多个正弦参数产生正弦信号;以及将所述正弦信号乘以所述置信度量度或所述发音参数以产生经按比例缩放正弦信号。
11.根据权利要求1所述的方法,其中所述目标频谱是基于增益差和音高估计。
12.根据权利要求1所述的方法,其进一步包括:
接收噪声信号;
对所述噪声信号进行滤波以产生经滤波噪声信号;
基于所述经滤波噪声信号和语音信号产生第一求和信号;
基于所述第一求和信号产生经变换信号;
产生所述经变换信号的基频;
产生置信度量度或发音参数;
基于所述基频估计一或多个正弦参数;
基于所述一或多个正弦参数产生正弦信号;
将所述正弦信号乘以所述置信度量度或所述发音参数以产生经按比例缩放正弦信号;
对所述经按比例缩放正弦信号进行滤波以产生第一经滤波信号;
对所述经变换信号进行滤波以产生第二经滤波信号;
将所述第一经滤波信号和所述第二经滤波信号求和以产生第二求和信号;以及
将所述第二求和信号变换到时域中。
13.一种用于一或多个音频信号的信号电平匹配的电子音频装置,其包括:
麦克风间减法电路,其经配置以将输入频带分段为一或多个频带;
峰充分性确定电路,其耦合到所述麦克风间减法电路,其中所述峰充分性确定电路经配置以测量每一频带的信噪比且确定所述信噪比是否小于信噪比阈值;
组装频谱电路,其耦合到所述峰充分性确定电路,其中所述组装频谱电路经配置以通过用与所述音频信号的信噪比小于所述信噪比阈值的一或多个频带相对应的语音模板频谱的一部分代替语音参考频谱的一部分来组装目标频谱;以及
增益调整器,其耦合到所述组装频谱电路,其中所述增益调整器经配置以调整经噪声抑制信号中的一或多个频带的增益,使得所述一或多个频带近似匹配于所述目标频谱。
14.根据权利要求13所述的电子音频装置,其中所述麦克风间减法电路经配置以基于麦克风间减法确定差信号,其中所述差信号包括多个谐波,以及
其中所述电子音频装置进一步包括:
多个麦克风,其耦合到所述麦克风间减法电路,其中所述多个麦克风经配置以俘获所述音频信号;
包络确定电路,其耦合到所述麦克风间减法电路,其中所述包络确定电路经配置以确定所述差信号的调和性是否超过调和性阈值且保留所述谐波以确定包络;以及
包络应用电路,其耦合到所述包络确定电路,其中所述包络应用电路经配置以将所述包络应用于经噪声抑制信号。
15.根据权利要求14所述的电子音频装置,其进一步包括残余噪声抑制电路,所述残余噪声抑制电路耦合到所述麦克风间减法电路,其中所述残余噪声抑制电路经配置以基于所述音频信号抑制残余噪声。
16.根据权利要求14所述的电子音频装置,其中所述包络应用电路经配置以通过调整所述经噪声抑制信号的增益以使得经噪声抑制信号电平近似匹配于音频信号电平来将所述包络应用于所述经噪声抑制信号。
17.根据权利要求14所述的电子音频装置,其中所述麦克风间减法电路经配置以通过确定所述输入频谱的对应于语音信号的部分来确定差信号。
18.根据权利要求13所述的电子音频装置,其中所述语音模板频谱是基于码簿。
19.根据权利要求13所述的电子音频装置,其中所述语音模板频谱是基于所述输入频谱的其中所述信噪比大于所述信噪比阈值的频带的内插。
20.根据权利要求13所述的电子音频装置,其中所述语音参考频谱是基于所述输入频谱。
21.根据权利要求13所述的电子音频装置,其中所述组装频谱电路经配置以通过谐波合成产生来组装所述目标频谱。
22.根据权利要求13所述的电子音频装置,其中所述目标频谱是基于增益差和音高估计。
23.根据权利要求13所述的电子音频装置,其进一步包括:
第一滤波器,其经配置以接收噪声信号且对所述噪声信号进行滤波以产生经滤波噪声信号;
第一求和器,其耦合到所述第一滤波器,其中所述第一求和器经配置以基于所述经滤波噪声信号和语音信号产生第一求和信号;
第一变换器,其耦合到所述第一求和器,其中所述第一变换器经配置以基于所述第一求和信号产生经变换信号;
音高分析电路,其耦合到所述第一变换器,其中所述音高分析电路经配置以产生所述经变换信号的基频且产生置信度量度或发音参数;
正弦参数估计电路,其耦合到所述音高分析电路,其中所述正弦参数估计电路经配置以基于所述基频估计一或多个正弦参数;
正弦合成电路,其耦合到所述正弦参数估计电路,其中所述正弦合成电路经配置以基于所述一或多个正弦参数产生正弦信号;
第一乘法器,其耦合到所述正弦合成电路,其中所述第一乘法器经配置以将所述正弦信号乘以所述置信度量度或所述发音参数以产生经按比例缩放正弦信号;
第二滤波器,其耦合到所述正弦合成电路,其中所述第二滤波器经配置以对所述经按比例缩放正弦信号进行滤波以产生第一经滤波信号;
第三滤波器,其耦合到所述第一变换器,其中所述第三滤波器经配置以对所述经变换信号进行滤波以产生第二经滤波信号;
第二求和器,其耦合到所述第二滤波器和所述第三滤波器,其中所述第二求和器经配置以将所述第一经滤波信号和所述第二经滤波信号求和以产生第二求和信号;
以及
第二变换器,其耦合到所述求和器,其中所述变换器经配置以将所述第二求和信号变换到时域中。
24.一种用于一或多个音频信号的信号电平匹配的设备,其包括:
用于将输入频谱分段为一或多个频带的装置;
用于测量每一频带的信噪比的装置;
用于确定所述信噪比是否小于信噪比阈值的装置;
用于组装目标频谱的装置,其中所述用于组装目标频谱的装置包括用于用与所述音频信号的信噪比小于所述信噪比阈值的一或多个频带相对应的语音模板频谱的一部分代替语音参考频谱的一部分的装置;以及
用于调整经噪声抑制信号中的一或多个频带的增益使得所述一或多个频带近似匹配于所述目标频谱的装置。
25.根据权利要求24所述的设备,其进一步包括:
用于俘获所述音频信号的装置;
用于基于麦克风间减法确定差信号的装置,其中所述差信号包括多个谐波;
用于确定所述差信号的调和性是否超过调和性阈值的装置;
用于保留所述谐波以确定包络的装置;以及
用于将所述包络应用于经噪声抑制信号的装置。
26.根据权利要求25所述的设备,其中用于将所述包络应用于所述经噪声抑制信号的装置包括:用于调整所述经噪声抑制信号的增益以使得经噪声抑制信号电平近似匹配于音频信号电平的装置。
27.根据权利要求25所述的设备,其中用于确定差信号的装置包括用于确定所述输入频谱的对应于语音信号的部分的装置。
28.根据权利要求24所述的设备,其中所述语音模板频谱是基于码簿。
29.根据权利要求24所述的设备,其中所述语音模板频谱是基于所述输入频谱的其中所述信噪比大于所述信噪比阈值的频带的内插。
30.根据权利要求24所述的设备,其中所述语音参考频谱是基于所述输入频谱。
31.根据权利要求24所述的设备,其中用于组装目标频谱的装置包括用于谐波合成产生的装置。
32.根据权利要求24所述的设备,其中所述目标频谱是基于增益差和音高估计。
33.根据权利要求24所述的设备,其进一步包括:
用于接收噪声信号且对所述噪声信号进行滤波以产生经滤波噪声信号的装置;
用于基于所述经滤波噪声信号和语音信号产生第一求和信号的装置;
用于基于所述第一求和信号产生经变换信号的装置;
用于产生所述经变换信号的基频的装置;
用于产生发音参数或置信度量度的装置;
用于基于所述基频估计一或多个正弦参数的装置;
用于基于所述一或多个正弦参数产生正弦信号的装置;
用于将所述正弦信号乘以所述置信度量度或所述发音参数以产生经按比例缩放正弦信号的装置;
用于对所述经按比例缩放正弦信号进行滤波以产生第一经滤波信号的装置;
用于对所述经变换信号进行滤波以产生第二经滤波信号的装置;
用于将所述第一经滤波信号和所述第二经滤波信号求和以产生第二求和信号的装置;以及
用于将所述第二求和信号变换到时域中的装置。
Applications Claiming Priority (11)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261637175P | 2012-04-23 | 2012-04-23 | |
US61/637,175 | 2012-04-23 | ||
US201261658843P | 2012-06-12 | 2012-06-12 | |
US61/658,843 | 2012-06-12 | ||
US201261726458P | 2012-11-14 | 2012-11-14 | |
US61/726,458 | 2012-11-14 | ||
US201261738976P | 2012-12-18 | 2012-12-18 | |
US61/738,976 | 2012-12-18 | ||
US13/827,894 US9305567B2 (en) | 2012-04-23 | 2013-03-14 | Systems and methods for audio signal processing |
US13/827,894 | 2013-03-14 | ||
PCT/US2013/037117 WO2013162995A2 (en) | 2012-04-23 | 2013-04-18 | Systems and methods for audio signal processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104246877A CN104246877A (zh) | 2014-12-24 |
CN104246877B true CN104246877B (zh) | 2017-05-10 |
Family
ID=49380926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380021438.1A Expired - Fee Related CN104246877B (zh) | 2012-04-23 | 2013-04-18 | 用于音频信号处理的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (3) | US20130282372A1 (zh) |
KR (1) | KR20150005979A (zh) |
CN (1) | CN104246877B (zh) |
IN (1) | IN2014MN02011A (zh) |
WO (3) | WO2013162994A2 (zh) |
Families Citing this family (116)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103138807B (zh) * | 2011-11-28 | 2014-11-26 | 财付通支付科技有限公司 | 一种近距离通信实现方法和系统 |
JP2013205830A (ja) * | 2012-03-29 | 2013-10-07 | Sony Corp | トーン成分検出方法、トーン成分検出装置およびプログラム |
US20130282372A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US8884150B2 (en) * | 2012-08-03 | 2014-11-11 | The Penn State Research Foundation | Microphone array transducer for acoustical musical instrument |
US9264524B2 (en) | 2012-08-03 | 2016-02-16 | The Penn State Research Foundation | Microphone array transducer for acoustic musical instrument |
US9362935B2 (en) * | 2012-08-13 | 2016-06-07 | University Of South Australia | System and method for analog to digital conversion |
US9516418B2 (en) | 2013-01-29 | 2016-12-06 | 2236008 Ontario Inc. | Sound field spatial stabilizer |
WO2014165032A1 (en) * | 2013-03-12 | 2014-10-09 | Aawtend, Inc. | Integrated sensor-array processor |
US9196262B2 (en) * | 2013-03-14 | 2015-11-24 | Qualcomm Incorporated | User sensing system and method for low power voice command activation in wireless communication systems |
US9338551B2 (en) * | 2013-03-15 | 2016-05-10 | Broadcom Corporation | Multi-microphone source tracking and noise suppression |
US20140337021A1 (en) * | 2013-05-10 | 2014-11-13 | Qualcomm Incorporated | Systems and methods for noise characteristic dependent speech enhancement |
US9099973B2 (en) * | 2013-06-20 | 2015-08-04 | 2236008 Ontario Inc. | Sound field spatial stabilizer with structured noise compensation |
US9106196B2 (en) * | 2013-06-20 | 2015-08-11 | 2236008 Ontario Inc. | Sound field spatial stabilizer with echo spectral coherence compensation |
US9271100B2 (en) | 2013-06-20 | 2016-02-23 | 2236008 Ontario Inc. | Sound field spatial stabilizer with spectral coherence compensation |
GB2519117A (en) * | 2013-10-10 | 2015-04-15 | Nokia Corp | Speech processing |
US9454976B2 (en) | 2013-10-14 | 2016-09-27 | Zanavox | Efficient discrimination of voiced and unvoiced sounds |
GB2520048B (en) * | 2013-11-07 | 2018-07-11 | Toshiba Res Europe Limited | Speech processing system |
US9959886B2 (en) * | 2013-12-06 | 2018-05-01 | Malaspina Labs (Barbados), Inc. | Spectral comb voice activity detection |
US20150179181A1 (en) * | 2013-12-20 | 2015-06-25 | Microsoft Corporation | Adapting audio based upon detected environmental accoustics |
US9524735B2 (en) | 2014-01-31 | 2016-12-20 | Apple Inc. | Threshold adaptation in two-channel noise estimation and voice activity detection |
CN107293287B (zh) | 2014-03-12 | 2021-10-26 | 华为技术有限公司 | 检测音频信号的方法和装置 |
US9807725B1 (en) | 2014-04-10 | 2017-10-31 | Knowles Electronics, Llc | Determining a spatial relationship between different user contexts |
ES2874757T3 (es) * | 2014-05-08 | 2021-11-05 | Ericsson Telefon Ab L M | Clasificador de señales de audio |
US20150327035A1 (en) * | 2014-05-12 | 2015-11-12 | Intel Corporation | Far-end context dependent pre-processing |
US9467779B2 (en) | 2014-05-13 | 2016-10-11 | Apple Inc. | Microphone partial occlusion detector |
NO2780522T3 (zh) * | 2014-05-15 | 2018-06-09 | ||
CN105336339B (zh) | 2014-06-03 | 2019-05-03 | 华为技术有限公司 | 一种语音频信号的处理方法和装置 |
US20150365750A1 (en) * | 2014-06-16 | 2015-12-17 | Mediatek Inc. | Activating Method and Electronic Device Using the Same |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
US9350895B1 (en) | 2014-11-19 | 2016-05-24 | Gopro, Inc. | Audio signal level estimation in cameras |
EP3204945B1 (en) * | 2014-12-12 | 2019-10-16 | Huawei Technologies Co. Ltd. | A signal processing apparatus for enhancing a voice component within a multi-channel audio signal |
FR3031225B1 (fr) * | 2014-12-31 | 2018-02-02 | Audionamix | Procede de separation ameliore et produit programme d'ordinateur |
US9501568B2 (en) | 2015-01-02 | 2016-11-22 | Gracenote, Inc. | Audio matching based on harmonogram |
CN107210824A (zh) * | 2015-01-30 | 2017-09-26 | 美商楼氏电子有限公司 | 麦克风的环境切换 |
US10142484B2 (en) | 2015-02-09 | 2018-11-27 | Dolby Laboratories Licensing Corporation | Nearby talker obscuring, duplicate dialogue amelioration and automatic muting of acoustically proximate participants |
US9536537B2 (en) | 2015-02-27 | 2017-01-03 | Qualcomm Incorporated | Systems and methods for speech restoration |
CN105989853B (zh) * | 2015-02-28 | 2020-08-18 | 科大讯飞股份有限公司 | 一种音频质量评测方法及系统 |
US11295753B2 (en) * | 2015-03-03 | 2022-04-05 | Continental Automotive Systems, Inc. | Speech quality under heavy noise conditions in hands-free communication |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
US10497356B2 (en) * | 2015-05-18 | 2019-12-03 | Panasonic Intellectual Property Management Co., Ltd. | Directionality control system and sound output control method |
EP3107097B1 (en) * | 2015-06-17 | 2017-11-15 | Nxp B.V. | Improved speech intelligilibility |
US11343413B2 (en) * | 2015-07-02 | 2022-05-24 | Gopro, Inc. | Automatically determining a wet microphone condition in a camera |
WO2017003958A1 (en) * | 2015-07-02 | 2017-01-05 | Gopro, Inc. | Automatic microphone selection in a sports camera |
US9769364B2 (en) * | 2015-07-02 | 2017-09-19 | Gopro, Inc. | Automatically determining a wet microphone condition in a sports camera |
WO2017027397A2 (en) * | 2015-08-07 | 2017-02-16 | Cirrus Logic International Semiconductor, Ltd. | Event detection for playback management in an audio device |
US10186276B2 (en) | 2015-09-25 | 2019-01-22 | Qualcomm Incorporated | Adaptive noise suppression for super wideband music |
KR102476600B1 (ko) * | 2015-10-21 | 2022-12-12 | 삼성전자주식회사 | 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
JP2017083600A (ja) * | 2015-10-27 | 2017-05-18 | パナソニックIpマネジメント株式会社 | 車載収音装置及び収音方法 |
US20170256270A1 (en) * | 2016-03-02 | 2017-09-07 | Motorola Mobility Llc | Voice Recognition Accuracy in High Noise Conditions |
US10582401B2 (en) * | 2016-03-08 | 2020-03-03 | Aurora Insight Inc. | Large scale radio frequency signal information processing and analysis system |
EP3223279B1 (en) * | 2016-03-21 | 2019-01-09 | Nxp B.V. | A speech signal processing circuit |
EP3242295B1 (en) * | 2016-05-06 | 2019-10-23 | Nxp B.V. | A signal processor |
JP2019518985A (ja) * | 2016-05-13 | 2019-07-04 | ボーズ・コーポレーションBose Corporation | 分散したマイクロホンからの音声の処理 |
FR3051958B1 (fr) * | 2016-05-25 | 2018-05-11 | Invoxia | Procede et dispositif pour estimer un signal dereverbere |
WO2017202680A1 (en) * | 2016-05-26 | 2017-11-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for voice or sound activity detection for spatial audio |
US10431211B2 (en) * | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US10482899B2 (en) | 2016-08-01 | 2019-11-19 | Apple Inc. | Coordination of beamformers for noise estimation and noise suppression |
US11120821B2 (en) | 2016-08-08 | 2021-09-14 | Plantronics, Inc. | Vowel sensing voice activity detector |
US9679578B1 (en) | 2016-08-31 | 2017-06-13 | Sorenson Ip Holdings, Llc | Signal clipping compensation |
KR102500291B1 (ko) * | 2016-09-05 | 2023-02-16 | 삼성전자주식회사 | 통신 인터페이스 장치 및 디스플레이 장치 |
US10433087B2 (en) | 2016-09-15 | 2019-10-01 | Qualcomm Incorporated | Systems and methods for reducing vibration noise |
US9807501B1 (en) * | 2016-09-16 | 2017-10-31 | Gopro, Inc. | Generating an audio signal from multiple microphones based on a wet microphone condition |
CN106782591B (zh) * | 2016-12-26 | 2021-02-19 | 惠州Tcl移动通信有限公司 | 一种在背景噪音下提高语音识别率的装置及其方法 |
EP3566228B1 (en) * | 2017-01-03 | 2020-06-10 | Koninklijke Philips N.V. | Audio capture using beamforming |
US10600432B1 (en) * | 2017-03-28 | 2020-03-24 | Amazon Technologies, Inc. | Methods for voice enhancement |
US10504538B2 (en) | 2017-06-01 | 2019-12-10 | Sorenson Ip Holdings, Llc | Noise reduction by application of two thresholds in each frequency band in audio signals |
CN111226278B (zh) * | 2017-08-17 | 2023-08-25 | 塞伦妮经营公司 | 低复杂度的浊音语音检测和基音估计 |
US10339910B2 (en) * | 2017-08-31 | 2019-07-02 | GM Global Technology Operations LLC | System and method for cancelling objectionable wind noise in a vehicle cabin |
JP6907859B2 (ja) * | 2017-09-25 | 2021-07-21 | 富士通株式会社 | 音声処理プログラム、音声処理方法および音声処理装置 |
CN107547704A (zh) * | 2017-09-28 | 2018-01-05 | 奇酷互联网络科技(深圳)有限公司 | 通话mic的切换方法、装置和移动终端 |
US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
US10249319B1 (en) | 2017-10-26 | 2019-04-02 | The Nielsen Company (Us), Llc | Methods and apparatus to reduce noise from harmonic noise sources |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483884A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
CN109859749A (zh) | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
US10339949B1 (en) | 2017-12-19 | 2019-07-02 | Apple Inc. | Multi-channel speech enhancement |
WO2019136475A1 (en) * | 2018-01-08 | 2019-07-11 | Avnera Corporation | Voice isolation system |
US10043530B1 (en) * | 2018-02-08 | 2018-08-07 | Omnivision Technologies, Inc. | Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts |
KR102475989B1 (ko) * | 2018-02-12 | 2022-12-12 | 삼성전자주식회사 | 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법 |
US10755728B1 (en) * | 2018-02-27 | 2020-08-25 | Amazon Technologies, Inc. | Multichannel noise cancellation using frequency domain spectrum masking |
US10847162B2 (en) * | 2018-05-07 | 2020-11-24 | Microsoft Technology Licensing, Llc | Multi-modal speech localization |
CN110797021B (zh) * | 2018-05-24 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
US10455319B1 (en) * | 2018-07-18 | 2019-10-22 | Motorola Mobility Llc | Reducing noise in audio signals |
CN108962275B (zh) * | 2018-08-01 | 2021-06-15 | 电信科学技术研究院有限公司 | 一种音乐噪声抑制方法及装置 |
US10726856B2 (en) * | 2018-08-16 | 2020-07-28 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for enhancing audio signals corrupted by noise |
US20200168317A1 (en) | 2018-08-22 | 2020-05-28 | Centre For Addiction And Mental Health | Tool for assisting individuals experiencing auditory hallucinations to differentiate between hallucinations and ambient sounds |
TWI719385B (zh) * | 2019-01-11 | 2021-02-21 | 緯創資通股份有限公司 | 電子裝置及其語音指令辨識方法 |
CN113348508A (zh) * | 2019-01-23 | 2021-09-03 | 索尼集团公司 | 电子设备、方法和计算机程序 |
CN111294473B (zh) * | 2019-01-28 | 2022-01-04 | 展讯通信(上海)有限公司 | 信号处理方法及装置 |
US11955138B2 (en) * | 2019-03-15 | 2024-04-09 | Advanced Micro Devices, Inc. | Detecting voice regions in a non-stationary noisy environment |
CN109758716B (zh) * | 2019-03-26 | 2020-12-01 | 林叶蓁 | 一种基于声音信息的跳绳计数方法 |
CN110322882A (zh) * | 2019-05-13 | 2019-10-11 | 厦门亿联网络技术股份有限公司 | 一种生成混合语音数据的方法及系统 |
US11146607B1 (en) * | 2019-05-31 | 2021-10-12 | Dialpad, Inc. | Smart noise cancellation |
EP3977449A1 (en) * | 2019-05-31 | 2022-04-06 | Shure Acquisition Holdings, Inc. | Low latency automixer integrated with voice and noise activity detection |
KR102651311B1 (ko) * | 2019-06-03 | 2024-03-27 | 삼성전자주식회사 | 마이크로폰들을 이용하여 사용자의 음성을 분석하는 전자 장치 및 모바일 장치 |
US11380312B1 (en) * | 2019-06-20 | 2022-07-05 | Amazon Technologies, Inc. | Residual echo suppression for keyword detection |
EP4005226A4 (en) | 2019-09-12 | 2022-08-17 | Shenzhen Shokz Co., Ltd. | SYSTEMS AND METHODS FOR AUDIO SIGNAL GENERATION |
BR112022010062A2 (pt) * | 2019-11-27 | 2022-09-06 | Fraunhofer Ges Forschung | Codificador, decodificador, aparelho para ocultação de perda de quadro, sistema e métodos |
CN111654780B (zh) * | 2019-12-31 | 2021-06-25 | 广州励丰文化科技股份有限公司 | 一种音频信号的自动切换方法及音频设备 |
TWI789577B (zh) * | 2020-04-01 | 2023-01-11 | 同響科技股份有限公司 | 音訊資料重建方法及系統 |
CN111613243B (zh) * | 2020-04-26 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种语音检测的方法及其装置 |
EP4147458A4 (en) | 2020-05-08 | 2024-04-03 | Microsoft Technology Licensing Llc | SYSTEM AND METHOD FOR DATA AMPLIFICATION FOR MULTI-MICROPHONE SIGNAL PROCESSING |
CN112153533B (zh) * | 2020-09-25 | 2021-09-07 | 展讯通信(上海)有限公司 | 音频信号的破音消除方法及装置、存储介质、终端 |
CN112151080B (zh) * | 2020-10-28 | 2021-08-03 | 成都启英泰伦科技有限公司 | 一种录制和处理训练语料的方法 |
US11694692B2 (en) | 2020-11-11 | 2023-07-04 | Bank Of America Corporation | Systems and methods for audio enhancement and conversion |
US11462231B1 (en) * | 2020-11-18 | 2022-10-04 | Amazon Technologies, Inc. | Spectral smoothing method for noise reduction |
CN112614513B (zh) * | 2021-03-08 | 2021-06-08 | 浙江华创视讯科技有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
EP4075822B1 (en) * | 2021-04-15 | 2023-06-07 | Rtx A/S | Microphone mute notification with voice activity detection |
CN113488076A (zh) * | 2021-06-30 | 2021-10-08 | 北京小米移动软件有限公司 | 音频信号处理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101278337A (zh) * | 2005-07-22 | 2008-10-01 | 索福特迈克斯有限公司 | 噪声环境中语音信号的健壮分离 |
WO2011133405A1 (en) * | 2010-04-19 | 2011-10-27 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
Family Cites Families (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4091237A (en) * | 1975-10-06 | 1978-05-23 | Lockheed Missiles & Space Company, Inc. | Bi-Phase harmonic histogram pitch extractor |
EP0459362B1 (en) * | 1990-05-28 | 1997-01-08 | Matsushita Electric Industrial Co., Ltd. | Voice signal processor |
JP3277398B2 (ja) | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
US20020138254A1 (en) * | 1997-07-18 | 2002-09-26 | Takehiko Isaka | Method and apparatus for processing speech signals |
US6122384A (en) | 1997-09-02 | 2000-09-19 | Qualcomm Inc. | Noise suppression system and method |
FR2768544B1 (fr) | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de detection d'activite vocale |
AU4661497A (en) | 1997-09-30 | 1999-03-22 | Qualcomm Incorporated | Channel gain modification system and method for noise reduction in voice communication |
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
US6363345B1 (en) | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
US6253171B1 (en) * | 1999-02-23 | 2001-06-26 | Comsat Corporation | Method of determining the voicing probability of speech signals |
GB2349259B (en) | 1999-04-23 | 2003-11-12 | Canon Kk | Speech processing apparatus and method |
JP2002149200A (ja) | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
US20020147585A1 (en) | 2001-04-06 | 2002-10-10 | Poulsen Steven P. | Voice activity detection |
WO2003001173A1 (en) | 2001-06-22 | 2003-01-03 | Rti Tech Pte Ltd | A noise-stripping device |
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
JP4195267B2 (ja) * | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
US7283956B2 (en) * | 2002-09-18 | 2007-10-16 | Motorola, Inc. | Noise suppression |
US8959019B2 (en) * | 2002-10-31 | 2015-02-17 | Promptu Systems Corporation | Efficient empirical determination, computation, and use of acoustic confusability measures |
US7091409B2 (en) * | 2003-02-14 | 2006-08-15 | University Of Rochester | Music feature extraction using wavelet coefficient histograms |
US7725315B2 (en) | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
WO2004111996A1 (ja) * | 2003-06-11 | 2004-12-23 | Matsushita Electric Industrial Co., Ltd. | 音響区間検出方法および装置 |
SG120121A1 (en) | 2003-09-26 | 2006-03-28 | St Microelectronics Asia | Pitch detection of speech signals |
EP1768108A4 (en) * | 2004-06-18 | 2008-03-19 | Matsushita Electric Ind Co Ltd | NOISE SUPPRESSION DEVICE AND NOISE SUPPRESSION METHOD |
KR20070050058A (ko) | 2004-09-07 | 2007-05-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 향상된 잡음 억제를 구비한 전화통신 디바이스 |
US7917356B2 (en) * | 2004-09-16 | 2011-03-29 | At&T Corporation | Operating method for voice activity detection/silence suppression system |
KR100933548B1 (ko) * | 2005-04-15 | 2009-12-23 | 돌비 스웨덴 에이비 | 비상관 신호의 시간적 엔벨로프 정형화 |
US8566086B2 (en) * | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
US20070036342A1 (en) * | 2005-08-05 | 2007-02-15 | Boillot Marc A | Method and system for operation of a voice activity detector |
US8326614B2 (en) * | 2005-09-02 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement system |
EP1772855B1 (en) * | 2005-10-07 | 2013-09-18 | Nuance Communications, Inc. | Method for extending the spectral bandwidth of a speech signal |
KR100762596B1 (ko) | 2006-04-05 | 2007-10-01 | 삼성전자주식회사 | 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법 |
KR100827153B1 (ko) | 2006-04-17 | 2008-05-02 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
EP1883066A1 (en) | 2006-07-27 | 2008-01-30 | Avaya ECS Ltd. | Signal processing for speech signal |
KR100868763B1 (ko) * | 2006-12-04 | 2008-11-13 | 삼성전자주식회사 | 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
US7521622B1 (en) | 2007-02-16 | 2009-04-21 | Hewlett-Packard Development Company, L.P. | Noise-resistant detection of harmonic segments of audio signals |
US8503686B2 (en) | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
US8428275B2 (en) * | 2007-06-22 | 2013-04-23 | Sanyo Electric Co., Ltd. | Wind noise reduction device |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
US8606566B2 (en) * | 2007-10-24 | 2013-12-10 | Qnx Software Systems Limited | Speech enhancement through partial speech reconstruction |
US8326617B2 (en) * | 2007-10-24 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement with minimum gating |
US20090193959A1 (en) * | 2008-02-06 | 2009-08-06 | Jordi Janer Mestres | Audio recording analysis and rating |
CA2715432C (en) | 2008-03-05 | 2016-08-16 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
US9142221B2 (en) | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
US8275136B2 (en) | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
US9373339B2 (en) * | 2008-05-12 | 2016-06-21 | Broadcom Corporation | Speech intelligibility enhancement system and method |
ES2642906T3 (es) * | 2008-07-11 | 2017-11-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de audio, procedimientos para proporcionar un flujo de audio y programa de ordenador |
JP4660578B2 (ja) * | 2008-08-29 | 2011-03-30 | 株式会社東芝 | 信号補正装置 |
KR101547344B1 (ko) * | 2008-10-31 | 2015-08-27 | 삼성전자 주식회사 | 음성복원장치 및 그 방법 |
WO2010083879A1 (en) | 2009-01-20 | 2010-07-29 | Widex A/S | Hearing aid and a method of detecting and attenuating transients |
US20110286605A1 (en) * | 2009-04-02 | 2011-11-24 | Mitsubishi Electric Corporation | Noise suppressor |
US8620672B2 (en) | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
JP5293817B2 (ja) * | 2009-06-19 | 2013-09-18 | 富士通株式会社 | 音声信号処理装置及び音声信号処理方法 |
US8625775B2 (en) * | 2009-08-06 | 2014-01-07 | Hti Ip, L.L.C. | Method and system for reducing echo and noise in a vehicle passenger compartment environment |
US8600073B2 (en) * | 2009-11-04 | 2013-12-03 | Cambridge Silicon Radio Limited | Wind noise suppression |
US8897455B2 (en) | 2010-02-18 | 2014-11-25 | Qualcomm Incorporated | Microphone array subset selection for robust noise reduction |
US9082391B2 (en) * | 2010-04-12 | 2015-07-14 | Telefonaktiebolaget L M Ericsson (Publ) | Method and arrangement for noise cancellation in a speech encoder |
US9165567B2 (en) | 2010-04-22 | 2015-10-20 | Qualcomm Incorporated | Systems, methods, and apparatus for speech feature detection |
US8423357B2 (en) * | 2010-06-18 | 2013-04-16 | Alon Konchitsky | System and method for biometric acoustic noise reduction |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
JP6035702B2 (ja) * | 2010-10-28 | 2016-11-30 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US8577057B2 (en) * | 2010-11-02 | 2013-11-05 | Robert Bosch Gmbh | Digital dual microphone module with intelligent cross fading |
US9047878B2 (en) * | 2010-11-24 | 2015-06-02 | JVC Kenwood Corporation | Speech determination apparatus and speech determination method |
US8972251B2 (en) * | 2011-06-07 | 2015-03-03 | Qualcomm Incorporated | Generating a masking signal on an electronic device |
WO2013007070A1 (zh) * | 2011-07-08 | 2013-01-17 | 歌尔声学股份有限公司 | 一种抑制残留回声的方法和装置 |
JP5772448B2 (ja) | 2011-09-27 | 2015-09-02 | 富士ゼロックス株式会社 | 音声解析システムおよび音声解析装置 |
CN103827967B (zh) * | 2011-12-27 | 2016-08-17 | 三菱电机株式会社 | 语音信号复原装置以及语音信号复原方法 |
US8831686B2 (en) | 2012-01-30 | 2014-09-09 | Blackberry Limited | Adjusted noise suppression and voice activity detection |
JP5665780B2 (ja) * | 2012-02-21 | 2015-02-04 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
US20130282372A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
EP2709105B1 (en) | 2012-09-13 | 2014-11-19 | Nxp B.V. | Method, system and computer program product for reducing impulsive noise disturbance in an audio signal |
US20140337021A1 (en) * | 2013-05-10 | 2014-11-13 | Qualcomm Incorporated | Systems and methods for noise characteristic dependent speech enhancement |
-
2013
- 2013-03-14 US US13/828,158 patent/US20130282372A1/en not_active Abandoned
- 2013-03-14 US US13/827,894 patent/US9305567B2/en not_active Expired - Fee Related
- 2013-03-14 US US13/828,415 patent/US20130282373A1/en not_active Abandoned
- 2013-04-18 IN IN2011MUN2014 patent/IN2014MN02011A/en unknown
- 2013-04-18 WO PCT/US2013/037109 patent/WO2013162994A2/en active Application Filing
- 2013-04-18 KR KR1020147032347A patent/KR20150005979A/ko active IP Right Grant
- 2013-04-18 CN CN201380021438.1A patent/CN104246877B/zh not_active Expired - Fee Related
- 2013-04-18 WO PCT/US2013/037102 patent/WO2013162993A1/en active Application Filing
- 2013-04-18 WO PCT/US2013/037117 patent/WO2013162995A2/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101278337A (zh) * | 2005-07-22 | 2008-10-01 | 索福特迈克斯有限公司 | 噪声环境中语音信号的健壮分离 |
WO2011133405A1 (en) * | 2010-04-19 | 2011-10-27 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
Non-Patent Citations (1)
Title |
---|
"Noisy Speech Enhancement Using Harmonic-Noise Model and Codebook-Based Post-Processing";Esfandiar Zavarehei等;《IEEE TRANSACTIONS ON AUDIO,SPEECH AND LANGUAGE PROCESSING》;20070501;第15卷(第4期);第1194-1200页的摘要,第3-4节 * |
Also Published As
Publication number | Publication date |
---|---|
WO2013162995A3 (en) | 2014-04-10 |
WO2013162994A2 (en) | 2013-10-31 |
IN2014MN02011A (zh) | 2015-08-07 |
US20130282373A1 (en) | 2013-10-24 |
CN104246877A (zh) | 2014-12-24 |
WO2013162994A3 (en) | 2014-04-03 |
KR20150005979A (ko) | 2015-01-15 |
US20130282372A1 (en) | 2013-10-24 |
WO2013162995A2 (en) | 2013-10-31 |
US20130282369A1 (en) | 2013-10-24 |
WO2013162993A1 (en) | 2013-10-31 |
US9305567B2 (en) | 2016-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104246877B (zh) | 用于音频信号处理的系统和方法 | |
US9165567B2 (en) | Systems, methods, and apparatus for speech feature detection | |
EP2633519B1 (en) | Method and apparatus for voice activity detection | |
CN102763160B (zh) | 用于稳健噪声降低的麦克风阵列子组选择 | |
US8175291B2 (en) | Systems, methods, and apparatus for multi-microphone based speech enhancement | |
TWI281354B (en) | Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression | |
US20140337021A1 (en) | Systems and methods for noise characteristic dependent speech enhancement | |
US20120020485A1 (en) | Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing | |
TW201013640A (en) | Systems, methods, apparatus, and computer program products for spectral contrast enhancement | |
KR20050086378A (ko) | 이동 장치의 다감각 음성 개선을 위한 방법 및 장치 | |
JP2005157354A (ja) | 複数感知の音声強調のための方法および機器 | |
CN102461203A (zh) | 用于对多信道信号进行基于相位的处理的系统、方法、设备及计算机可读媒体 | |
US9792898B2 (en) | Concurrent segmentation of multiple similar vocalizations | |
CN108461081A (zh) | 语音控制的方法、装置、设备和存储介质 | |
Venkatesan et al. | Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker | |
KR102661005B1 (ko) | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170510 Termination date: 20190418 |