CN109243478A - 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 - Google Patents
用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 Download PDFInfo
- Publication number
- CN109243478A CN109243478A CN201811182531.1A CN201811182531A CN109243478A CN 109243478 A CN109243478 A CN 109243478A CN 201811182531 A CN201811182531 A CN 201811182531A CN 109243478 A CN109243478 A CN 109243478A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- signal
- formant
- filter
- codebook vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000003044 adaptive effect Effects 0.000 title abstract description 17
- 230000005236 sound signal Effects 0.000 claims abstract description 90
- 239000013598 vector Substances 0.000 claims abstract description 67
- 230000007774 longterm Effects 0.000 claims description 37
- 238000005086 pumping Methods 0.000 claims description 25
- 238000003786 synthesis reaction Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 16
- 239000002131 composite material Substances 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000003672 processing method Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 25
- 230000005284 excitation Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 15
- 238000001228 spectrum Methods 0.000 description 15
- 238000003491 array Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 101000666657 Homo sapiens Rho-related GTP-binding protein RhoQ Proteins 0.000 description 3
- 102100038339 Rho-related GTP-binding protein RhoQ Human genes 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000009849 deactivation Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 239000000835 fiber Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 102000003729 Neprilysin Human genes 0.000 description 2
- 108090000028 Neprilysin Proteins 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000545442 Radix Species 0.000 description 1
- 241001282153 Scopelogadus mizolepis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005621 ferroelectricity Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000001453 impedance spectrum Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请涉及用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体。一种处理音频信号的方法包含确定随着时间的过去所述音频信号的平均信噪比。所述方法包含:基于所述所确定的平均信噪比,确定共振峰锐化因子。所述方法还包含:将基于所述所确定的共振峰锐化因子的滤波器应用到基于来自所述音频信号的信息的码本向量。
Description
分案申请的相关信息
本案是分案申请。该分案的母案是申请日为2013年12月23日、申请号为201380071333.7、发明名称为“用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体”的发明专利申请案。
相关申请的交叉引用
本申请案主张2013年1月29日申请的共同拥有的美国临时专利申请案第61/758,152号和2013年9月13日申请的美国非临时专利申请案第14/026,765号的优先权,所述专利申请案的内容以引用的方式明确地并入本文中。
技术领域
本发明涉及音频信号的译码(例如,语音译码)。
背景技术
线性预测(LP)分析-合成构架对于语音译码来说已经是成功的,因为其非常适合于用于语音合成的源系统范例。确切地说,当预测残差捕获声带的浊音、清音或混合激励行为时,通过全极点滤波器来模型化上声道的缓慢时变频谱特性。使用闭环合成分析过程来模型化和编码来自LP分析的预测残差。
在合成分析码激励线性预测(CELP)系统中,选择导致输入语音与重构语音之间的最低观测“感知加权”均方误差(MSE)的激励序列。感知加权滤波器使预测误差成形,使得量化噪声被高能共振峰所掩蔽掉。感知加权滤波器的作用是降低共振峰区域中的误差能量的重要性。这个降低重要性策略是基于在共振峰区域中量化噪声被语音所部分地掩蔽掉的事实。在CELP译码中,从两个码本(即,自适应码本(ACB)和固定码本(FCB))产生激励信号。ACB向量表示过去激励信号的延迟(即,延迟了闭环音调值)段并促成整体激励的周期性分量。在捕获整体激励中的周期性贡献之后,执行固定码本搜索。FCB激励向量部分地表示激励信号中的剩余非周期性分量并且是使用交错、单式脉冲的代数码本而建构。在语音译码中,音调锐化技术和共振峰锐化技术提供了语音重构质量的显著改善(例如,在更低的比特率下)。
共振峰锐化可促成清晰语音中的显著质量增益;但是,在存在噪声的情况下且在低信噪比(SNR)下,质量增益不大显著。这可能归因于共振峰锐化滤波器的不准确估计并且部分地归因于另外需要对噪声做出解释的源系统语音模型的某些局限性。在一些情况下,在存在带宽扩展(其中经变换的共振峰锐化低波段激励被用于高波段合成中)的情况下,语音质量的降级更为明显。确切地说,低波段激励的某些分量(例如,固定码本贡献)可经历音调锐化和/或共振峰锐化,以改善低波段合成的感知质量。将来自低波段的音调锐化和/或共振峰锐化激励用于高波段合成引起可听伪影的可能性可能高于改善整体语音重构质量的可能性。
附图说明
图1展示用于低比特率语音译码的码激励线性预测(CELP)合成分析架构的示意图。
图2展示语音信号的帧的一个实例的快速傅里叶变换(FFT)频谱和相对应的LPC频谱。
图3A展示根据一般配置的用于处理音频信号的方法M100的流程图。
图3B展示根据一般配置的用于处理音频信号的设备MF100的框图。
图3C展示根据一般配置的用于处理音频信号的设备A100的框图。
图3D展示方法M100的实施方案M120的流程图。
图3E展示设备MF100的实施方案MF120的框图。
图3F展示设备A100的实施方案A120的框图。
图4展示用于计算长期SNR的伪码清单的实例。
图5展示用于根据长期SNR来估计共振峰锐化因子的伪码清单的实例。
图6A到6C是γ2值对长期SNR的实例图。
图7说明供自适应码本搜索的目标信号x(n)的产生。
图8展示FCB估计方法。
图9展示图8的方法的修改例以包含如本文中所描述的自适应共振峰锐化。
图10A展示根据一般配置的用于处理经编码音频信号的方法M200的流程图。
图10B展示根据一般配置的用于处理经编码音频信号的设备MF200的框图。
图10C展示根据一般配置的用于处理经编码音频信号的设备A200的框图。
图11A是说明经由网络NW10通信的发射终端102和接收终端104的实例的框图。
图11B展示音频编码器AE10的实施方案AE20的框图。
图12展示帧编码器FE10的基本实施方案FE20的框图。
图13A展示通信装置D10的框图。
图13B展示无线装置1102的框图。
图14展示手持机H100的正视图、后视图和侧视图。
具体实施方式
除非通过其上下文明确地限制,否则在本文中使用术语“信号”来指示其一般含义中的任一者,包含如在导线、总线或其它发射媒体上表达的存储器位置的状态(或存储器位置的集合)。除非通过其上下文明确地限制,否则在本文中使用术语“产生”来指示其一般含义中的任一者,例如计算或以其它方式产生等。除非通过其上下文明确地限制,否则在本文中使用术语“计算”来指示其一般含义中的任一者,例如计算、评估、平滑化和/或从多个值中选择等。除非通过其上下文明确地限制,否则使用术语“获得”来指示其一般含义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件的阵列)等。除非通过其上下文明确地限制,否则使用术语“选择”来指示其一般含义中的任一者,例如识别、指示、应用和/或使用一组两个或两个以上中的至少一者和少于所有者等。除非通过其上下文明确地限制,否则使用术语“确定”来指示其一般含义中的任一者,例如决定、建立、总结、计算、选择和/或评估。在本发明描述和权利要求书中使用术语“包括”时,并不排除其它元件或操作。使用术语“基于”(如在“A是基于B”中)来指示其一般含义中的任一者,包含以下情况:(i)“从……导出”(例如,“B是A的前驱体”);(ii)“至少基于”(例如,“A至少基于B”),及适当时在特定上下文中;(iii)“等于”(例如,“A等于B”)。类似地,使用术语“响应于”来指示其一般含义中的任一者,包含“至少响应于”。
除非另有指示,否则使用术语“系列”来指示一连串两个或两个以上项目。使用术语“对数”来指示基数为十的对数,不过此类运算到其它基数的扩展是在本发明的范围内。使用术语“频率分量”来指示信号的一组频率或频带中的一者,例如信号的频域表示的样本(例如,如由快速傅里叶变换或MDCT产生)或信号的子带(例如,巴克(Bark)尺度或梅尔(mel)尺度子带)等。
除非另有指示,否则对具有特定特征的设备的操作的任何揭示内容还明确地欲揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地欲揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考如通过其特定上下文指示的方法、设备和/或系统来使用。除非特定上下文另有指示,否则术语“方法”、“过程”、“程序”及“技术”通用地且可互换地使用。具有多个子任务的“任务”也是方法。除非特定上下文另有指示,否则术语“设备”与“装置”也通用地且可互换地使用。术语“元件”和“模块”通常用来指示更大配置的一部分。除非通过其上下文明确地限制,否则在本文中使用术语“系统”来指示其一般含义中的任一者,包含“相互作用以用于共同目的的一群组元件”。术语“多个”意指“两个或两个以上”。文件的一部分以引用的方式进行的任何并入也应理解为并入了在所述部分内参考的术语或变量的定义,其中此些定义出现在文件中的其它地方,以及并入了在所并入部分中参考的任何图。
术语“译码器”、“编解码器”和“译码系统”可互换地使用以指代包含以下各者的系统:至少一个编码器,其经配置以接收和编码音频信号的帧(可能在例如感知加权和/或其它滤波操作等一或多个预处理操作之后);以及相对应的解码器,其经配置以产生帧的经解码表示。此类编码器和解码器通常部署于通信链路的相反终端处。为了支持全双工通信,编码器与解码器两者的例子通常部署于此类链路的每一端处。
除非另有指示,否则术语“声码器”、“音频译码器”和“语音译码器”是指音频编码器和相对应的音频解码器的组合。除非另有指示,否则术语“译码”指示音频信号凭借编解码器的转移,包含编码及后续解码。除非另有指示,否则术语“发射”指示传播(例如,信号)到发射信道中。
可应用如本文中所描述的译码方案以译码任何音频信号(例如,包含非语音音频)。替代地,可能需要将此类译码方案仅用于语音。在这种情况下,可将译码方案与分类方案一起使用,以确定音频信号的每一帧的内容的类型并选择合适的译码方案。
可将如本文中所描述的译码方案用作主要编解码器或用作多层或多级编解码器中的一个层或级。在一个此类实例中,此类译码方案用来译码音频信号的频率内容的一部分(例如,低波段或高波段),且另一译码方案用来译码信号的频率内容的另一部分。
线性预测(LP)分析-合成构架对于语音译码来说已经是成功的,因为其非常适合于用于语音合成的源系统范例。确切地说,当预测残差捕获声带的浊音、清音或混合激励行为时,通过全极点滤波器来模型化上声道的缓慢时变频谱特性。
可能需要使用闭环合成分析过程来模型化和编码来自LP分析的预测残差。在合成分析码激励LP(CELP)系统(例如,如图1中所示)中,选择最小化输入语音与重构(或“合成”)语音之间的误差的激励序列。在此类系统中被最小化的误差可为例如感知加权均方误差(MSE)。
图2展示语音信号的帧的一个实例的快速傅里叶变换(FFT)频谱和相对应的LPC频谱。在此实例中,对应于声道中的共振的共振峰(标记为F1到F4)处的能量浓度在更平滑的LPC频谱中清晰可见。
可预期,共振峰区域中的语音能量将部分地掩蔽掉否则可能出现在那些区域中的噪声。因此,可能需要实施LP译码器以包含感知加权滤波器(PWF)从而使预测误差成形,使得归因于量化误差的噪声可被高能共振峰所掩蔽掉。
可根据例如下式等表达式来实施PWF W(z),所述PWF W(z)降低共振峰区域中的预测误差的能量的重要性(例如,使得可更准确地模型化超出那些区域的误差):
或
其中γ1和γ2是权重,其值满足关系式02<γ1<1,ai是全极点滤波器A(z)的系数,且L是全极点滤波器的阶。通常,前馈权重γ1的值等于或大于0.9(例如,在0.94到0.98的范围中),且反馈权重γ2的值在0.4与0.7之间变化。如表达式(1a)中所示,对于不同滤波器系数ai来说,γ1和γ2的值可不同,或可将γ1和γ2的相同值用于所有i(1≤i≤L)。举例来说,可根据与LPC频谱包络相关联的倾斜(或平坦度)特性来选择γ1和γ2的值。在一个实例中,由第一反射系数指示频谱倾斜。其中根据表达式(1b)(值{γ1,γ2}={0.92,0.68})来实施W(z)的特定实例描述于技术规范(TS)26.190v11.0.0(AMR-WB语音编解码器,2012年9月,第3代合作伙伴计划(3GPP),瓦尔邦讷,法国)的部分4.3和5.3中。
在CELP译码中,从两个码本(即,自适应码本(ACB)和固定码本(FCB))产生激励信号e(n)。可根据例如下式等表达式来产生激励信号e(n):
e(n)=gpv(n)+gcc(n), (2)
其中n是样本索引,gp和gc是ACB增益和FCB增益,且v(n)和c(n)分别是ACB向量和FCB向量。ACB向量v(n)表示过去激励信号的延迟段(即,延迟了例如闭环音调值等音调值)并促成整体激励的周期性分量。FCB激励向量c(n)部分地表示激励信号中的剩余非周期性分量。在一个实例中,使用交错、单式脉冲的代数码本来建构向量c(n)。通过在gpv(n)中捕获整体激励中的周期性贡献之后执行固定码本搜索,可获得FCB向量c(n)。
如本文中所描述的方法、系统和设备可经配置以将音频信号处理为一系列段。典型段长度的范围为从约5或10毫秒到约40或50毫秒,且段可为重叠的(例如,与邻近段重叠达25%或50%)或非重叠的。在一个特定实例中,将音频信号划分成一系列非重叠段或“帧”,每一者的长度为10毫秒。在另一特定实例中,每一帧的长度为20毫秒。音频信号的取样率的实例包含(不限于)8、12、16、32、44.1、48和192千赫兹。可能需要此类方法、系统或设备在子帧的基础上更新LP分析(例如,每一帧划分成大小大致相等的2个、3个或4个子帧)。另外地或替代地,可能需要此类方法、系统或设备在子帧的基础上产生激励信号。
图1展示用于低比特率语音译码的码激励线性预测(CELP)合成分析架构的示意图。在此图中,s是输入语音,s(n)是经预处理的语音,是重构语音,且A(z)是LP分析滤波器。
可能需要采用音调锐化和/或共振峰锐化技术,这样可提供对语音重构质量的显著改善(确切地说,在低比特率下)。通过在FCB搜索之前首先将音调锐化和共振峰锐化应用于加权合成滤波器的脉冲响应(例如,的脉冲响应,其中指代经量化的合成滤波器)且继而随后将锐化应用于如下文描述的所估计的FCB向量c(n),可实施此些技术。
1)可预期,ACB向量v(n)不捕获信号s(n)中的全部音调能量,且将根据包含一些音调能量的余部来执行FCB搜索。因此,可能需要使用当前音调估计值(例如,闭环音调值)来锐化FCB向量中的相对应的分量。可使用例如下式等转移函数来执行音调锐化:
其中τ是基于当前音调估计值(例如,τ是舍入到最近整数值的闭环音调值)。使用此类音调预滤波器H1(z)来对所估计的FCB向量c(n)进行滤波。在FCB估计之前,也将滤波器H1(z)应用到加权合成滤波器的脉冲响应(例如,应用到的脉冲响应)。在另一实例中,滤波器H1(z)是基于自适应码本增益gp,例如在下式中:
(例如,如第3代合作伙伴计划2(3GPP2)文件C.S0014-E v1.0的部分4.12.4.14中所描述(2011年12月,阿灵顿,弗吉尼亚)),其中可用值[0.2,0.9]来对gp(0≤gp≤1)的值进行划界。
2)还可预期,将根据包含共振峰区域中的更多能量而不是为完全噪声类的余部来执行FCB搜索。可使用类似于如上文所描述的滤波器W(z)的感知加权滤波器来执行共振峰锐化(FS)。但是,在这种情况下,权重的值满足关系式0<γ1<γ2<1。在一个此类实例中,使用前馈权重的值γ1=0.75和反馈权重的γ2=0.9:
不同于等式(1)中的PWF W(z)(其执行降低重要性以隐藏共振峰中的量化噪声),如等式(4)中所示的FS滤波器H2(z)强调与FCB激励相关联的共振峰区域。使用此类FS滤波器H2(z)来对所估计的FCB向量c(n)进行滤波。在FCB估计之前,也将滤波器H2(z)应用到加权合成滤波器的脉冲响应(例如,应用到的脉冲响应)。
通过使用音调锐化和共振峰锐化可获得的语音重构质量方面的改善可直接取决于基础语音信号模型和对闭环音调τ与LP分析滤波器A(z)所作估计的准确度。基于几个大规模侦听测试,已用实验的方式验证:共振峰锐化可促成清晰语音中的重大质量增益。但是,在存在噪声的情况下,已一致地观测到某种程度的降级。由共振峰锐化造成的降级可归因于对FS滤波器的不准确估计和/或归因于另外需要考虑到噪声的源系统语音模型化中的局限性。
通过以下步骤,带宽扩展技术可用来将经解码窄带语音信号(具有例如从0、50、100、200、300或350赫兹到3、3.2、3.4、3.5、4、6.4或8kHz的带宽)的带宽提高到高波段(例如,高达7、8、12、14、16或20kHz):频谱地扩展窄带LPC滤波器系数以获得高波段LPC滤波器系数(替代地,通过将高波段LPC滤波器系数包含在经编码信号中),及频谱地扩展窄带激励信号(例如,使用例如绝对值或平方法等非线性函数)以获得高波段激励信号。不幸的是,在存在带宽扩展(其中此类经变换的低波段激励被用于高波段合成中)的情况下,由共振峰锐化造成的降级可更为严重。
可能需要保持清晰语音与嘈杂语音两者中归因于FS的质量改善。本文中描述一种用以自适应地改变共振峰锐化(FS)因子的方法。确切地说,当在存在噪声的情况下将不大积极的强调因子γ2用于共振峰锐化时,质量改善是显著的。
图3A展示根据一般配置的用于处理音频信号的方法M100的流程图,所述方法M100包含任务T100、T200和T300。任务T100确定(例如,计算)随着时间的过去音频信号的平均信噪比。基于平均SNR,任务T200确定(例如,计算、估计、从查找表中检索等)共振峰锐化因子。“共振峰锐化因子”(或“FS因子”)对应于这样一个参数,即这个参数可应用于语音译码(或解码)系统中使得系统响应于参数的不同值而产生不同共振峰强调结果。为进行说明,共振峰锐化因子可为共振峰锐化滤波器的滤波器参数。举例来说,等式1(a)、等式1(b)和等式4的γ1和/或γ2是共振峰锐化因子。可基于长期信噪比(例如,关于图5和图6A到6C所描述的信噪比等)来确定共振峰锐化因子γ2。还可基于例如浊音化、译码模式和/或音调滞后等其它因素来确定共振峰锐化因子γ2。任务T300将基于FS因子的滤波器应用到基于来自音频信号的信息的FCB向量。
在实例实施例中,图3A中的任务T100还可包含确定其它中间因子,例如浊音化因子(例如,在0.8到1.0的范围中的浊音化值对应于重读浊音段;在0到0.2的范围中的浊音化值对应于弱读浊音段)、译码模式(例如,语音、音乐、静默、暂态帧或清音帧)和音调滞后等。这些辅助参数可结合平均SNR或代替平均SNR而被用来确定共振峰锐化因子。
可实施任务T100以执行噪声估计和计算长期SNR。举例来说,可实施任务T100以在音频信号的非活动段期间跟踪长期噪声估计值和在音频信号的活动段期间计算长期信号能量。可通过编码器的另一个模块(例如,话音活动检测器等)来指示音频信号的段(例如,帧)是活动的还是不活动的。任务T100可随后使用时间上平滑的噪声和信号能量估计值以计算长期SNR。
图4展示可通过任务T100执行的伪码清单的实例,所述伪码清单用于计算长期SNRFS_ltSNR,其中FS_ltNsEner和FS_ltSpEner分别指代长期噪声能量估计值和长期语音能量估计值。在此实例中,将值为0.99的时间平滑因子用于噪声能量估计值与信号能量估计值两者,不过一般来说每一此类因子可具有在0(无平滑)与1(无更新)之间的任何所要值。
可实施任务T200以随着时间的过去自适应地改变共振峰锐化因子。举例来说,可实施任务T200以使用来自当前帧的所估计的长期SNR,从而针对下一帧自适应地改变共振峰锐化因子。图5展示可通过任务T200执行的伪码清单的实例,所述伪码清单用于根据长期SNR来估计FS因子。图6A是γ2值对长期SNR的实例图,其说明图5的清单中所使用的一些参数。任务T200还可包含以下子任务:削减所计算的FS因子以强加下限(例如,γ2MIN)和上限(例如,γ2MAX)。
还可实施任务T200以使用γ2值对长期SNR的不同映射。此类映射可为分段地呈线性,其具有1、2或更多额外拐点和邻接拐点之间的不同斜率。此类映射的斜率对于更低的SNR来说可更陡,且在更高SNR下可更浅,如图6B的实例中所展示。替代地,此类映射可为非线性函数,例如γ2=k*FS_ltSNR^2或如图6C的实例中。
任务T300使用通过任务T200所产生的FS因子而将共振峰锐化滤波器应用于FCB激励。举例来说,可根据例如下式等表达式来实施共振峰锐化滤波器H2(z):
应注意,对于清晰语音来说且在存在高SNR的情况下,γ2的值在图5中的实例中接近于0.9,从而导致积极共振峰锐化。在约为10到15dB的低SNR中,γ2的值大约是0.75到0.78,从而导致无共振峰锐化或不大积极的共振峰锐化。
在带宽扩展中,将共振峰锐化低波段激励用于高波段合成可导致伪影。如本文中所描述的方法M100的实施方案可用来改变FS因子使得对高波段的影响保持为可忽略。替代地,可禁用对高波段激励的共振峰锐化贡献(例如,通过在高波段激励产生中使用FCB向量的预锐化版本,或通过在窄带与高波段两者中针对激励产生而禁用共振峰锐化)。可在例如便携型通信装置(例如,蜂窝式电话等)内执行此类方法。
图3D展示方法M100的实施方案M120的流程图,所述实施方案M120包含任务T220和T240。任务T220将基于所确定的FS因子的滤波器(例如,如本文中所描述的共振峰锐化滤波器)应用到合成滤波器(例如,如本文中所描述的加权合成滤波器)的脉冲响应。任务T240选择FCB向量(对所述FCB向量执行任务T300)。举例来说,任务T240可经配置以执行码本搜索(例如,如在本文中的图8中和/或在3GPP TS 26.190v11.0.0的部分5.8中所描述)。
图3B展示根据一般配置的用于处理音频信号的设备MF100的框图,所述设备MF100包含任务T100、T200和T300。设备MF100包含用于计算随着时间的过去音频信号的平均信噪比的装置F100(例如,如本文中参考任务T100所描述)。在实例实施例中,设备MF100可包含用于计算其它中间因子的装置F100,所述其它中间因子为例如浊音化因子(例如,在0.8到1.0的范围中的浊音化值对应于重读浊音段;在0到0.2的范围中的浊音化值对应于弱读浊音段)、译码模式(例如,语音、音乐、静默、暂态帧或清音帧)和音调滞后等。这些辅助参数可结合平均SNR或代替平均SNR而被用来确定共振峰锐化因子。
设备MF100还包含用于基于所计算的平均SNR来计算共振峰锐化因子的装置F200(例如,如本文中参考任务T200所描述)。设备MF100还包含用于将基于所计算的FS因子的滤波器应用到基于来自音频信号的信息的FCB向量的装置F300(例如,如本文中参考任务T300所描述)。可在例如便携型通信装置(例如,蜂窝式电话等)的编码器内实施此类设备。
图3E展示设备MF100的实施方案MF120的框图,所述实施方案MF120包含用于将基于所计算的FS因子的滤波器应用到合成滤波器的脉冲响应的装置F220(例如,如本文中参考任务T220所描述)。设备MF120还包含用于选择FCB向量的装置F240(例如,如本文中参考任务T240所描述)。
图3C展示根据一般配置的用于处理音频信号的设备A100的框图,所述设备A100包含第一计算器100、第二计算器200和滤波器300。计算器100经配置以确定(例如,计算)随着时间的过去音频信号的平均信噪比(例如,如本文中参考任务T100所描述)。计算器200经配置以基于所计算的平均SNR来确定(例如,计算)共振峰锐化因子(例如,如本文中参考任务T200所描述)。滤波器300是基于所计算的FS因子且经布置以对基于来自音频信号的信息的FCB向量进行滤波(例如,如本文中参考任务T300所描述)。可在例如便携型通信装置(例如,蜂窝式电话等)的编码器内实施此类设备。
图3F展示设备A100的实施方案A120的框图,其中滤波器300经布置以对合成滤波器的脉冲响应进行滤波(例如,如本文中参考任务T220所描述)。设备A120还包含经配置以选择FCB向量的码本搜索模块240(例如,如本文中参考任务T240所描述)。
图7和8展示FCB估计方法的额外细节,所述方法可经修改以包含如本文中所描述的自适应共振峰锐化。图7说明通过将加权合成滤波器应用到预测误差来产生供自适应码本搜索的目标信号x(n),所述预测误差是基于经预处理的语音信号s(n)和在先前子帧结束时获得的激励信号。
在图8中,将加权合成滤波器的脉冲响应h(n)与ACB向量v(n)进行卷积以产生ACB分量y(n)。用gp对ACB分量y(n)进行加权以产生ACB贡献,从目标信号x(n)减去所述ACB贡献以产生供FCB搜索的经修改的目标信号x′(n),可执行所述FCB搜索,例如以找到FCB脉冲中最大化图8中所示的搜索项的索引位置k(例如,如TS 26.190 V11.0.0的部分5.8.3中所描述)。
图9展示图8中所示的FCB估计程序的修改例以包含如本文中所描述的自适应性共振峰锐化。在这种情况下,将滤波器H1(z)和H2(z)应用到加权合成滤波器的脉冲响应h(n)以产生经修改的h′(n)。在搜索之后,这些滤波器还被应用到FCB(或“代数码本”)向量。
也可实施解码器以将滤波器H1(z)和H2(z)应用到FCB向量。在一个此类实例中,实施编码器以将所计算的FS因子作为编码帧的参数而发射到解码器。这个实施方案可用来控制经解码信号中共振峰锐化的程度。在另一个此类实例中,实施解码器以基于可在局部产生的长期SNR估计值来产生滤波器H1(z)和H2(z)(例如,如本文中参考图4和5中的伪码清单所描述),使得不需要额外所发射的信息。但是,在这种情况下,编码器和解码器处的SNR估计值有可能变得不同步(例如,归因于解码器处的帧删除率的大规模突发)。可能需要通过在编码器和解码器处执行长期SNR估计值的同步和周期性重设(例如,重设到当前瞬时SNR)来抢先解决此类潜在SNR漂移。在一个实例中,以规则时间间隔(例如,每5秒,或每250帧)执行此类重设。在另一个实例中,在不活动期(例如,至少2秒的时间段,或一连串至少100个连续不活动帧)之后出现的语音段开始时执行此类重设。
图10A展示根据一般配置的处理经编码音频信号的方法M200的流程图,所述方法M200包含任务T500、T600和T700。任务T500基于来自经编码音频信号的第一帧的信息来确定(例如,计算)随着时间的过去的平均信噪比(例如,如本文中参考任务T100所描述)。任务T600基于平均信噪比来确定(例如,计算)共振峰锐化因子(例如,如本文中参考任务T200所描述)。任务T700将基于共振峰锐化因子的滤波器(例如,如本文中所描述的H2(z)或H1(z)H2(z))应用到基于来自经编码音频信号的第二帧的信息的码本向量(例如,FCB向量)。可在例如便携型通信装置(例如,蜂窝式电话等)内执行此类方法。
图10B展示根据一般配置的用于处理经编码音频信号的设备MF200的框图。设备MF200包含用于基于来自经编码音频信号的第一帧的信息来计算随着时间的过去的平均信噪比的装置F500(例如,如本文中参考任务T100所描述)。设备MF200还包含用于基于所计算的平均信噪比来计算共振峰锐化因子的装置F600((例如,如本文中参考任务T200所描述)。设备MF200还包含用于将基于所计算的共振峰锐化因子的滤波器(例如,如本文中所描述的H2(z)或H1(z)H2(z))应用到基于来自经编码音频信号的第二帧的信息的码本向量(例如,FCB向量)的装置F700。可在例如便携型通信装置(例如,蜂窝式电话等)内实施此类设备。
图10C展示根据一般配置的用于处理经编码音频信号的设备A200的框图。设备A200包含第一计算器500,所述第一计算器500经配置以基于来自经编码音频信号的第一帧的信息来确定随着时间的过去的平均信噪比(例如,如本文中参考任务T100所描述)。设备A200还包含第二计算器600,所述第二计算器600经配置以基于平均信噪比来确定共振峰锐化因子(例如,如本文中参考任务T200所描述)。设备A200还包含滤波器700(例如,如本文中所描述的H2(z)或H1(z)H2(z)),所述滤波器700是基于共振峰锐化因子且经布置以对基于来自经编码音频信号的第二帧的信息的码本向量(例如,FCB向量)进行滤波。可在例如便携型通信装置(例如,蜂窝式电话等)内实施此类设备。
图11A是说明经由网络NW10凭借发射信道TC10通信的发射终端102和接收终端104的实例的框图。可实施终端102和104中的每一者以执行如本文中所描述的方法和/或包含如本文中所描述的设备。发射终端102和接收终端104可为能够支持话音通信的任何装置,包含电话(例如,智能电话)、计算机、音频广播和装备、视频会议装备或类似者。举例来说,可用例如码分多址(CDMA)能力等无线多址技术来实施发射终端102和接收终端104。CDMA是基于展频通信的调制和多址方案。
发射终端102包含音频编码器AE10,且接收终端104包含音频解码器AD10。可实施音频编码器AE10以执行如本文中所描述的方法,所述AE10可通过根据人语音产生的模型提取参数值而被用来压缩来自第一用户接口UI10(例如,麦克风和音频前端)的音频信息(例如,语音)。信道编码器CE10将参数值汇编到包中,且发射器TX10经由网络NW10凭借发射信道TC10来发射包含这些参数值的包,所述网络NW10可包含例如因特网或企业内部网络等基于包的网络。发射信道TC10可为有线和/或无线发射信道且可取决于如何确定信道质量及确定哪里的信道质量而被视为扩展到网络NW10的入口点(例如,基站控制器)、扩展到网络NW10内的另一个实体(例如,信道质量分析器)和/或扩展到接收终端104的接收器RX10。
接收终端104的接收器RX10用来凭借发射信道从网络NW10接收包。信道解码器CD10解码所述包以获得参数值,且音频解码器AD10使用来自包的参数值来合成音频信息(例如,根据如本文中所描述的方法)。经合成的音频(例如,语音)被提供到接收104上的第二用户接口UI20(例如,音频输出级和扬声器)。虽然未展示,但各种信号处理功能可执行于信道编码器CE10和信道解码器CD10中(例如,包含循环冗余检查(CRC)功能的卷积译码,交错)以及发射器TX10和接收器RX10中(例如,数字调制和相对应的解调、展频处理、模数和数模转换)。
通信的每一方可进行发射也可进行接收,且每一终端可包含音频编码器AE10和解码器AD10的例子。音频编码器和解码器可为独立装置或集成到被称为“话音译码器”或“声码器”的单一装置中。如图11A中所展示,终端102、104被描述为在网络NW10的一个终端处具有音频编码器AE10且在另一终端处具有音频解码器AD10。
在发射终端102的至少一个配置中,可在数个帧中将音频信号(例如,语音)从第一用户接口UI10输入到音频编码器AE10,其中每一帧进一步分割成数个子帧。可使用此些任意帧边界,在这些帧边界处执行某种块处理。但是,如果实施连续处理而非块处理,那么可省略音频样本到帧(和子帧)的此类分割。在所描述的实例中,跨越网络NW10所发射的每一包可取决于特定应用和整体设计约束而包含一或多个帧。
音频编码器AE10可为可变速率或单一固定速率编码器。取决于音频内容(例如,取决于是否存在语音和/或存在何种类型的语音),可变速率编码器可随帧不同而在多个编码器模式(例如,不同固定速率)之间动态地切换。音频解码器AD10也可按相对应的方式随帧不同而在相对应的解码器模式之间动态地切换。可针对每一帧选择特定模式,以达成可用的最低比特率同时维持接收终端104处可接受的信号再现质量。
音频编码器AE10通常将输入信号处理为一系列在时间上非重叠段或“帧”,其中针对每一帧计算新的编码帧。一般来讲,帧周期是可预期信号在局部静止所历时的周期;常见实例包含20毫秒(与16kHz的取样率下的320样本、12.8kHz的取样率下的256样本或8kHz的取样率下的160样本等效)和10毫秒。也有可能实施音频编码器AE10以将输入信号处理为一系列重叠帧。
图11B展示音频编码器AE10的实施方案AE20的框图,所述实施方案AE20包含帧编码器FE10。帧编码器FE10经配置以编码输入信号的一连串帧CF(“核心音频帧”)中的每一者,从而产生一连串经编码音频帧EF中的相对应的一者。还可实施音频编码器AE10以执行额外任务,例如将输入信号分成帧及选择帧编码器FE10的译码模式(例如,选择初始比特配置的再分配,如本文中参考任务T400所描述)。选择译码模式(例如,速率控制)可包含执行话音活动检测(VAD)和/或不然对帧的音频内容进行分类。在此实例中,音频编码器AE20还包含话音活动检测器VAD10,所述话音活动检测器VAD10经配置以处理核心音频帧CF,从而产生话音活动检测信号VS(例如,如3GPP TS 26.194 v11.0.0中所描述,2012年9月,可于ETSI获得)。
实施帧编码器FE10以根据源滤波器模型来执行基于码本的方案(例如,码本激励线性预测或CELP),所述源滤波器模型将输入音频信号的每一帧编码为:(A)描述滤波器的一组参数;以及(B)激励信号,其将在解码器处被用来驱动所描述的滤波器以产生音频帧的合成再现物。语音信号的频谱包络通常由峰值来表征,所述峰值表示声道(例如,喉部和口部)的共振且称为共振峰。大多数语音译码器将至少此粗糙频谱结构编码为例如滤波器系数等一组参数。可将剩余残差信号模型化为源(例如,如通过声带产生),所述源驱动滤波器以产生语音信号且通常由其强度和音调来表征。
可由帧编码器FE10使用以产生经编码帧EF的编码方案的特定实例包含(不限于)以下各者:G.726、G.728、G.729A、AMR、AMR-WB、AMR-WB+(例如,如3GPP TS 26.290 v11.0.0中所描述,2012年9月(可从ETSI获得))、VMR-WB(例如,如第3代合作伙伴计划2(3GPP2)文件C.S0052-A v1.0中所描述,2005年4月(可在www-dot-3gpp2-dot-org下在线获得))、增强型可变速率编解码器(EVRC,如3GPP2文件C.S0014-E v1.0中所描述,2011年12月(可在www-dot-3gpp2-dot-org下在线获得))、可选模式声码器语音编解码器(如3GPP2文件C.S0030-0,v3.0中所描述,2004年1月(可在www-dot-3gpp2-dot-org下在线获得)),以及增强型话音服务编解码器(EVS,例如如3GPP TR 22.813 v10.0.0中所描述(2010年3月),可从ETSI获得)。
图12展示帧编码器FE10的基本实施方案FE20的框图,所述实施方案FE20包含预处理模块PP10、线性预测译码(LPC)分析模块LA10、开环音调搜索模块OL10、自适应码本(ACB)搜索模块AS10、固定码本(FCB)搜索模块FS10和增益向量量化(VQ)模块GV10。可实施预处理模块PP10,例如如3GPP TS 26.190 v11.0.0的部分5.1中所描述。在一个此类实例中,实施预处理模块PP10以执行对核心音频帧的降低取样(例如,从16kHz到12.8kHz)、对降低取样帧的高遍次滤波(例如,具有50Hz的截止频率)和对滤波帧的预强调(例如,使用一阶高通滤波器)。
线性预测译码(LPC)分析模块LA10将每一核心音频帧的频谱包络编码为一组线性预测(LP)系数(例如,如上文所描述的全极点滤波器1/A(z)的系数)。在一个实例中,LPC分析模块LA10经配置以计算一组16个LP滤波器系数来表征每一20毫秒帧的共振峰结构。可实施分析模块LA10,例如如3GPP TS 26.190 v11.0.0的部分5.2中所描述。
分析模块LA10可经配置以直接分析每一帧的样本,或可首先根据开窗函数(例如,汉明窗(Hamming window))来对样本进行加权。也可在大于帧的例如30ms窗等窗内执行分析。此窗可为对称的(例如,5-20-5,使得其紧接20毫秒帧之前和之后包含5ms)或不对称的(例如,10-20,使得其包含前一帧的后10ms)。LPC分析模块通常经配置以使用Levinson-Durbin递推或Leroux-Gueguen算法来计算LP滤波器系数。虽然LPC编码非常适合于语音,但其也可用来编码一般音频信号(例如,包含例如音乐等非语音)。在另一实施方案中,分析模块可经配置以针对每一帧计算一组倒频谱系数而非一组LP滤波器系数。
线性预测滤波器系数通常难以有效量化且通常映射到例如线谱对(LSP)或线谱频率(LSF)或者导抗谱对(ISP)或导抗谱频率(ISF)等另一表示中,以用于量化和/或熵编码。在一个实例中,分析模块LA10将所述组LP滤波器系数变换成一组相对应的ISF。LP滤波器系数的其它一对一表示包含部分自相关系数和对数面积比值。通常,一组LP滤波器系数与一组相对应的LSF、LSP、ISF或ISP之间的变换是可逆的,但实施例也包含其中变换是不可逆且无误差的分析模块LA10的实施方案。
分析模块LA10经配置以量化所述组ISF(或LSF或其它系数表示),且帧编码器FE20经配置以将此量化的结果输出为LPC索引XL。此类量化器通常包含向量量化器,所述向量量化器将输入向量编码为到表或码本中相对应的向量条目的索引。模块LA10还经配置以提供经量化系数以用于计算如本文中所描述的加权合成滤波器(例如,通过ACB搜索模块AS10)。
帧编码器FE20还包含任选的开环音调搜索模块OL10,所述开环音调搜索模块OL10可用来简化音调分析并减小自适应码本搜索模块AS10中的闭环音调搜索的范围。可实施模块OL10以经由基于经去量化LP滤波器系数的加权滤波器来对输入信号进行滤波,抽取加权信号的十分之二,及每帧产生音调估计值一次或两次(取决于当前速率)。可实施模块OL10,例如如3GPP TS 26.190 v11.0.0的部分5.4中所描述。
自适应码本(ACB)搜索模块AS10经配置以搜索自适应码本(基于过去激励,且也称为“音调码本”),从而产生音调滤波器的延迟和增益。可实施模块AS10,以在子帧的基础上对目标信号执行围绕开环音调估计值的闭环音调搜索(例如,如通过经由加权合成滤波器基于经量化和经去量化LP滤波器系数对LP残差进行滤波而获得)且随后通过在所指示的分数音调滞后处内插过去激励来计算自适应码向量并计算ACB增益。还可实施模块AS10以使用LP残差来扩展过去激励缓冲器,从而简化闭环音调搜索(尤其是对于小于例如40或64个样本的子帧大小的延迟来说)。可实施模块AS10以产生ACB增益gp(例如,对于每一子帧来说)和经量化索引,所述经量化索引指示第一子帧的音调延迟(或取决于当前速率,第一子帧和第三子帧的音调延迟)及其它子帧的相对音调延迟。可实施模块AS10,例如如3GPP TS26.190 v11.0.0的部分5.7中所描述。在图12的实例中,模块AS10将经修改的目标信号x′(n)和经修改的脉冲响应h′(n)提供到FCB搜索模块FS10。
固定码本(FCB)搜索模块FS10经配置以产生指示固定码本(也称为“创新码本”、“创新型码本”、“随机码本”或“代数码本”)的向量的索引,其表示所述激励的未通过自适应码向量而模型化的部分。可实施模块FS10以将码本索引产生为码字,所述码字含有再现FCB向量c(n)(例如,表示脉冲位置和符号)所需的所有信息,使得不需要码本。可实施模块FS10,例如如在本文中的图8中和/或在3GPP TS 26.190 v11.0.0的部分5.8中所描述。在图12的实例中,模块FS10还经配置以将滤波器H1(z)H2(z)应用到c(n)(例如,在计算子帧的激励信号e(n)之前,其中e(n)=gpv(n)+gcc′(n))。
增益向量量化模块GV10经配置以量化FCB增益和ACB增益,所述增益可包含每一子帧的增益。可实施模块GV10,例如如3GPP TS 26.190 v11.0.0的部分5.9中所描述。
图13A展示通信装置D10的框图,所述通信装置D10包含体现设备A100(或MF100)的元件的芯片或芯片组CS10(例如,移动台调制解调器(MSM)芯片组)。芯片/芯片组CS10可包含一个或多个处理器,所述处理器可经配置以执行设备A100或MF100的软件和/或固件部分(例如,作为指令)。发射终端102可实现为装置D10的实施方案。
芯片/芯片组CS10包含:接收器(例如,RX10),其经配置以接收射频(RF)通信信号并对编码于RF信号内的音频信号进行解码和再现;以及发射器(例如,TX10),其经配置以发射描述经编码音频信号(例如,如使用方法M100所产生)的RF通信信号。此类装置可经配置以经由本文中提及的编解码器中的任何一或多者而以无线方式发射和接收话音通信数据。
装置D10经配置以凭借天线C30来接收和发射RF通信信号。装置D10还可包含在到天线C30的路径中的双工器和一或多个功率放大器。芯片/芯片组CS10还经配置以凭借小键盘C10来接收用户输入且凭借显示器C20来显示信息。在此实例中,装置D10还包含一或多个天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如,BluetoothTM)耳机等外部装置的短程通信。在另一实例中,此类通信装置自身为BluetoothTM耳机,且不具有小键盘C10、显示器C20和天线C30。
通信装置D10可体现在多种通信装置中,包含智能电话以及膝上型计算机和平板计算机。图14展示一个此类实例的正视图、后视图和侧视图:手持机H100(例如,智能电话)具有布置在正面上的两个话音麦克风MV10-1和MV10-3、布置在背面上的话音麦克风MV10-2、位于正面的顶部拐角中的另一麦克风ME10(例如,用于增强方向选择性和/或捕获用户耳朵处的声学误差以供输入到主动噪声消除操作),以及位于背面上的另一麦克风MR10(例如,用于增强方向选择性和/或捕获背景噪声参考)。扬声器LS10在误差麦克风ME10附近布置在正面的顶部中心中,且还提供两个其它扬声器LS20L、LS20R(例如,用于扬声器电话应用)。此类手持机的数个麦克风之间的最大距离通常为约10或12厘米。
图13B展示无线装置1102的框图,可实施所述无线装置1102以执行如本文中所描述的方法。发射终端102可实现为无线装置1102的实施方案。无线装置1102可为远端台、接入终端、手持机、个人数字助理(PDA)、蜂窝式电话等。
无线装置1102包含控制装置的操作的处理器1104。处理器1104也可被称作中央处理单元(CPU)。存储器1106(其可包含只读存储器(ROM)与随机存取存储器(RAM)两者)将指令和数据提供到处理器1104。存储器1106的一部分还可包含非易失性随机存取存储器(NVRAM)。处理器1104通常基于存储在存储器1106内的程序指令来执行逻辑和算术运算。存储器1106中的指令可执行以实施如本文中所描述的一或多种方法。
无线装置1102包含外壳1108,所述外壳1108可包含发射器1110和接收器1112以允许在无线装置1102与远端位置之间发射和接收数据。发射器1110和接收器1112可组合成收发器1114。天线1116可附接到外壳1108且电耦合到收发器1114。无线装置1102还可包含(未展示)多个发射器、多个接收器、多个收发器和/或多个天线。
在此实例中,无线装置1102还包含信号检测器1118,所述信号检测器1118可用来检测并量化由收发器1114接收的信号的电平。信号检测器1118可将此些信号检测为总能量、每伪噪声(PN)码片的导频能量、功率谱密度和其它信号。无线装置1102还包含供用于处理信号的数字信号处理器(DSP)1120。
无线装置1102的各个组件通过总线系统1122耦合在一起,所述总线系统1122除数据总线之外还可包含功率总线、控制信号总线和状态信号总线。为清楚起见,各种总线在图13B中说明为总线系统1122。
本文中所揭示的方法和设备一般来说可应用于任何收发和/或音频感测应用中,尤其是此些应用的移动或要不然便携式例子。举例来说,本文中所揭示的配置的范围包含驻留在经配置以采用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有如本文中所描述的特征的方法及设备可驻留在采用为所属领域的技术人员所已知的广泛范围的技术的各种通信系统中的任一者中,例如,在有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道上采用IP话音(VoIP)的系统等。
明确地涵盖且特此揭示,本文中所揭示的通信装置可适于在包交换型(例如,经布置以根据例如VoIP等协议携载音频发射的有线和/或无线网络)和/或电路交换型网络中使用。还明确地涵盖和特此揭示,本文中所揭示的通信装置可适于在窄带译码系统(例如,对约四或五千赫兹的音频频率范围进行编码的系统)中使用和/或在宽带译码系统(例如,对大于五千赫兹的音频频率进行编码的系统)(包含全波段宽带译码系统和分离波段宽带译码系统)中使用。
提供对所描述配置的呈现以使得所属领域的技术人员能够制作或使用本文中所揭示的方法及其它结构。本文中所展示和描述的流程图、框图及其它结构仅为实例,且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改均为可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不欲限于以上展示的配置而是将符合与本文中(包含在形成原始揭示内容的部分的所申请的所附权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围。
所属领域的技术人员将理解,可以使用多种不同技术及技艺中的任一者来表示信息及信号。举例来说,可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示在整个以上描述中参考的数据、指令、命令、信息、信号、位及符号。
对如本文中所揭示的配置的实施方案的重要设计要求可包含最小化处理延迟和/或计算复杂度(通常以每秒多少百万指令或MIPS来测量),尤其是对于计算密集型应用(例如,压缩音频或视听信息(例如,根据例如本文中所识别的实例中的一者等压缩格式而编码的文件或流)的重放)或宽带通信的应用(例如,在例如12、16、32、44.1、48或192kHz等高于8千赫兹的取样率下的话音通信)来说。
如本文中所揭示的设备(例如,设备A100、A200、MF100、MF200)可按被视为适合于既定应用的硬件与软件和/或与固件的任何组合来实施。举例来说,可将此类设备的元件制造为(例如)驻留在相同芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此类装置的一个实例是逻辑元件(例如,晶体管或逻辑门)的固定或可编程阵列,且可将这些元件中的任一者实施为一或多个此些阵列。这些元件中的任何两者或两者以上或甚至全部可实施于相同的一或多个阵列内。此类一或多个阵列可实施在一或多个芯片内(例如,包含两个或两个以上芯片的芯片组内)。
可将本文中所揭示的设备的各种实施方案(例如,设备A100、A200、MF100、MF200)的一或多个元件完全或部分地实施为一或多个指令集,所述指令集被布置成执行于逻辑元件的一或多个固定或可编程阵列上,例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)等。如本文中所揭示的设备的实施方案的各种元件中的任一者还可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器,也被称为“处理器”),且这些元件中的任何两者或两者以上或甚至全部可实施于相同的此类一或多个计算机内。
可将如本文中所揭示的处理器或用于处理的其它装置制造为(例如)驻留在相同芯片上或芯片组中的两个或两个以上芯片当中的一或多个电子和/或光学装置。此类装置的一个实例是逻辑元件(例如,晶体管或逻辑门等)的固定或可编程阵列,且这些元件中的任一者可实施为一或多个此类阵列。此类一或多个阵列可实施于一或多个芯片内(例如,包含两个或两个以上芯片的芯片组内)。此些阵列的实例包含逻辑元件的固定或可编程阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP及ASIC等。如本文中所揭示的处理器或用于处理的其它装置还可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器)或其它处理器。如本文所描述的处理器有可能用来执行任务或执行不直接与方法M100的实施方案的程序相关的其它指令集,例如,与其中嵌入有处理器的装置或系统(例如,音频感测装置)的另一操作相关的任务等。如本文中所揭示的方法的一部分还有可能由音频感测装置的处理器执行,且方法的另一部分还有可能在一或多个其它处理器的控制下执行。
所属领域的技术人员将了解,结合本文中所揭示的配置而描述的各种说明性模块、逻辑块、电路及测试和其它操作可实施为电子硬件、计算机软件或两者的组合。可使用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文中所揭示的配置的任何组合来实施或执行此些模块、逻辑块、电路及操作。举例来说,可将此类配置至少部分地实施为硬连线电路、实施为制造到专用集成电路中的电路配置,或实施为加载到非易失性存储器中的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,此类代码为可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器,但在替代例中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器,或任何其它此类配置。软件模块可驻留在非暂时性存储媒体中,所述非暂时性存储媒体例如随机存取存储器(RAM)、只读存储器(ROM)、非易失性RAM(NVRAM)(例如,快闪RAM、可抹除可编程ROM(EPROM)、电可抹除可编程ROM(EEPROM))、寄存器、硬盘、可装卸式磁盘或CD-ROM;或驻留在所属领域中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代例中,储存媒体可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代例中,处理器和存储媒体可作为离散组件驻留在用户终端中。
应注意,本文中所揭示的各种方法(例如,方法M100或M200的实施方案)可由例如处理器等逻辑元件阵列执行,且如本文中所描述的设备的各种元件可实施为经设计以在此类阵列上执行的模块。如本文中所使用,术语“模块”或“子模块”可指以软件、硬件或固件形式包含计算机指令(例如,逻辑表达式)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解,可将多个模块或系统组合为一个模块或系统,且可将一个模块或系统分离成多个模块或系统以执行相同功能。在实施于软件或其它计算机可执行指令中时,过程的元件基本上是用于例如使用例程、程序、对象、组件、数据结构及类似者执行相关任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一或多个指令集或指令序列以及此些实例的任何组合。所述程序或代码段可存储于处理器可读媒体中或由体现在发射媒体或通信链路上的载波中的计算机数据信号发射。
本文中所揭示的方法、方案和技术的实施方案还可有形地体现(例如,在如本文中所列举的一或多个计算机可读存储媒体的有形计算机可读特征中)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器执行的一或多个指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸式及非可装卸式存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可抹除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储器、硬盘或可用来存储所要信息的任何其它媒体、光纤媒体、射频(RF)链路或可用来携载所要信息并可存取的任何其它媒体。计算机数据信号可包含可经由例如电子网络信道、光纤、空气、电磁波、RF链路等发射媒体来传播的任何信号。可凭借例如因特网或企业内部网路等计算机网络来下载代码段。在任何情况下,不应将本发明的范围解释为受此些实施例限制。
本文中所描述的方法的任务中的每一者可直接以硬件、以由处理器执行的软件模块或以所述两者的组合来体现。在如本文中所揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。还可将所述任务中的一或多者(可能全部)实施为体现在计算机程序产品(例如,一或多个数据存储媒体,例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等)中的代码(例如,一或多个指令集),所述计算机程序产品可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文中所揭示的方法的实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置(例如,蜂窝式电话或具有此类通信能力的其它装置)内执行。此装置可经配置以与电路交换型和/或包交换型网络通信(例如,使用例如VoIP等一或多个协议)。举例来说,此类装置可包含经配置以接收和/或发射经编码帧的RF电路。
明确地揭示的是,本文中所揭示的各种方法可由例如手持机、耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文中所描述的各种设备可包含在此类装置内。典型的实时(例如,在线)应用是使用此类移动装置进行的电话交谈。
在一或多个例示性实施例中,本文中所描述的操作可在硬件、软件、固体或其任何组合中实施。如果实施于软件中,那么可将此些操作作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体进行发射。术语“计算机可读媒体”包含计算机可读存储媒体与通信(例如,发射)媒体两者。举例说明而非限制,计算机可读存储媒体可包括存储元件阵列,例如半导体存储器(其可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM),或铁电、磁阻式、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此类存储媒体可以可由计算机存取的指令或数据结构的形式存储信息。通信媒体可包括可用来携载呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何媒体,包含促进将计算机程序从一处传送到另一处的任何媒体。并且,任何连接被适当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或无线技术(例如,红外线、无线电和/或微波等)从网站、服务器或其它远端源发射软件,那么所述同轴电缆、光纤电缆、双绞线、DSL或无线技术(例如,红外线、无线电和/或微波等)包含在媒体的定义中。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光DiscTM(蓝光光盘协会,环球影城,加拿大),其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各物的组合也应包含在计算机可读媒体的范围内。
如本文中所描述的声学信号处理设备可并入到电子装置(例如,通信装置)中,所述电子装置接受语音输入以便控制某些操作,或可否则得益于所要噪声与后台噪声的分离。许多应用可得益于从源自多个方向的后台声音增强或分离清晰的所要声音。此些应用可包含并有例如话音辨识及检测、语音增强及分离、话音激活控制及类似者等能力的电子或计算装置中的人机接口。可能需要实施此类声学信号处理设备以适合于仅提供有限处理能力的装置中。
可将本文中所描述的模块、元件及装置的各种实施方案的元件制造为(例如)驻留在相同芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此类装置的一个实例为逻辑元件(例如,晶体管或门等)的固定或可编程阵列。本文中所描述的设备的各种实施方案的一或多个元件还可完全地或部分地实施为经布置以在逻辑元件的一或多个固定或可编程阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC等)上执行的一或多个指令集。
如本文中所描述的设备的实施方案的一或多个元件有可能用来执行任务或执行不直接与设备的操作相关的其它指令集,例如,与其中嵌入有所述设备的装置或系统的另一操作相关的任务。此类设备的实施方案的一或多个元件还有可能具有共同结构(例如,用来执行对应于不同时间的不同元件的代码部分的处理器,经执行以执行对应于不同时间的不同元件的任务的指令集,或执行用于不同时间的不同元件的操作的电子和/或光学装置的布置)。
Claims (30)
1.一种设备,其包括:
音频译码器输入,其经配置以接收音频信号;
第一计算器,其经配置以确定所述音频信号的长期噪声估计值;
第二计算器,其经配置以基于所确定的长期噪声估计值来确定共振峰锐化因子;
滤波器,其经配置以基于所确定的共振峰锐化因子对码本向量进行滤波以产生经滤波的码本向量,其中所述码本向量是基于来自所述音频信号的信息;以及音频译码器,其经配置以:
基于所述经滤波的码本向量来产生共振峰锐化低波段激励信号;以及
基于所述共振峰锐化低波段激励信号来产生经合成的音频信号。
2.根据权利要求1所述的设备,其中所述音频译码器进一步经配置以在带宽扩展模式下的操作期间:
产生独立于所述经滤波的码本向量的高波段激励信号;以及
基于所述共振峰锐化低波段激励信号以及所述高波段激励信号来产生所述经合成的音频信号。
3.根据权利要求1所述的设备,其进一步包括:第三计算器,其经配置以基于所述音频信号确定长期信噪比,其中所述第二计算器进一步经配置以基于所述长期信噪比来确定所述共振峰锐化因子。
4.根据权利要求1所述的设备,其进一步包括:话音活动检测器,其经配置以指示所述音频信号的帧是活动的还是不活动的,其中所述第一计算器经配置以基于所述音频信号的不活动的帧的噪声水平来计算所述长期噪声估计值。
5.根据权利要求1所述的设备,其中所述过滤器包括:
共振峰锐化滤波器;以及
基于音调估计值的音调锐化滤波器。
6.根据权利要求1所述的设备,其中所述码本向量包括一连串单式脉冲,且其中所述滤波器包括:
前馈权重;以及
反馈权重,其大于所述前馈权重。
7.根据权利要求1所述的设备,其中所述音频译码器进一步经配置以:对所述音频信号进行编码以产生经编码的音频信号,且其中所确定的共振峰锐化因子包括在所述经编码的音频信号的编码音频帧中。
8.根据权利要求1所述的设备,其进一步包括:
天线;以及
发射器,其耦合到所述天线且经配置以发射对应于所述音频信号的经编码音频信号。
9.根据权利要求8所述的设备,其中所述第一计算器、所述第二计算器、所述滤波器、所述发射器以及所述天线集成在移动装置中。
10.根据权利要求1所述的设备,其中所述音频信号包括经编码的音频信号,且所述设备进一步包括:
天线;以及
接收器,其耦合到所述天线且经配置成接收所述经编码的音频信号。
11.根据权利要求10所述的设备,其中所述第一计算器、所述第二计算器、所述滤波器、所述接收器以及所述天线集成在移动装置中。
12.一种音频信号处理方法,所述方法包括:
在音频译码器处接收音频信号;
对所述音频信号执行噪声估计以确定长期噪声估计值;
基于所确定的长期噪声估计值来确定共振峰锐化因子;
将共振峰锐化滤波器应用于码本向量以产生经滤波的码本向量,其中所述共振峰锐化滤波器是基于所确定的共振峰锐化因子,且其中所述码本向量是基于来自所述音频信号的信息;
基于所述经滤波的码本向量来产生共振峰锐化低波段激励信号;以及
基于所述共振峰锐化低波段激励信号来产生经合成的音频信号。
13.根据权利要求12所述的方法,其进一步包括:在所述音频译码器的带宽扩展模式下的操作期间:
产生独立于所述经滤波的码本向量的高波段激励信号;以及
由所述音频译码器基于所述共振峰锐化低波段激励信号以及所述高波段激励信号来产生所述经合成的音频信号。
14.根据权利要求12所述的方法,其进一步包括:
对所述音频信号执行线性预测译码分析,以获得多个线性预测滤波器系数;
将所述滤波器应用到第二滤波器的脉冲响应以获得经修改的脉冲响应,其中所述第二滤波器基于所述多个线性预测滤波器系数;以及
基于所述经修改的脉冲响应,从多个代数码本向量中选择所述码本向量,其中所述码本向量包括一连串单式脉冲。
15.根据权利要求14所述的方法,其进一步包括:
基于所述音频信号以及基于与所述音频信号的先前子帧相关联的激励信号,来产生预测误差;以及
基于将所述第二滤波器应用于所述预测误差来产生目标信号,其中基于目标信号进一步选择所述码本向量,且其中所述第二滤波器包括合成滤波器。
16.根据权利要求15所述的方法,其中所述合成滤波器包括加权合成滤波器,所述加权合成滤波器包括前馈权重和反馈权重,且其中所述前馈权重大于所述反馈权重。
17.根据权利要求12所述的方法,其进一步包括:将所述所确定的共振峰锐化因子的指示作为所述音频信号的经译码版本的帧的参数而发送到解码器。
18.根据权利要求12所述的方法,其进一步包括:基于所述音频信号确定长期信噪比,其中所述共振峰锐化因子是进一步基于所述长期信噪比确定的。
19.根据权利要求18所述的方法,其进一步包括:根据重设准则选择性地重设所述音频信号的所述长期信噪比。
20.根据权利要求19所述的方法,其中以规则时间间隔执行、或响应于所述音频信号的话音突发的开始而执行重设所述长期信噪比。
21.根据权利要求18所述的方法,其中确定所述共振峰锐化因子包括:
基于所确定的长期信噪比来估计所述共振峰锐化因子,其中基于所述音频信号的不活动的帧的噪声水平并基于所述音频信号的活动的帧的能量水平,来产生所述长期信噪比;以及
响应于确定所估计的共振峰锐化因子在特定值范围之外,选择所述特定值范围内的特定值作为所确定的共振峰锐化因子。
22.根据权利要求12所述的方法,其中所述音频信号包括经编码的音频信号,且所述方法进一步包括解码所述经编码的音频信号。
23.根据权利要求22所述的方法,其中解码所述经编码的音频信号包括基于所述经编码的音频信号执行带宽扩展,且其中确定所述共振峰锐化因子包括:
根据所确定的长期噪声估计值来估计所述共振峰锐化因子;以及
基于在带宽扩展模式下操作的所述音频译码器来修改所估计的共振峰锐化因子。
24.根据权利要求12所述的方法,其中在包括移动装置的设备内执行以下操作:执行噪声估计、应用所述滤波器以及产生所述共振峰锐化低波段激励信号。
25.一种设备,其包括:
用于接收音频信号的装置;
用于基于所述音频信号来计算长期噪声估计值的装置;
用于基于所计算的长期噪声估计值来计算共振峰锐化因子的装置;
用于基于所计算的共振峰锐化因子并基于码本向量来产生经滤波的码本向量的装置,所述码本向量基于来自所述音频信号的信息;
用于基于所述经滤波的码本向量来产生共振峰锐化低波段激励信号的装置;以及
用于基于所述共振峰锐化低波段激励信号来产生经合成的音频信号的装置。
26.根据权利要求25所述的设备,其进一步包括:用于确定所述音频信号的浊音化因子、译码模式以及音调滞后中的一个或多个的装置,其中所述用于计算所述共振峰锐化因子的装置进一步经配置以进一步基于所述浊音化因子、所述译码模式、所述音调滞后、或其组合来计算所述共振峰锐化因子。
27.根据权利要求25所述的设备,其中所述用于接收所述音频信号的装置、所述用于计算所述长期噪声估计值的装置、所述用于计算所述共振峰锐化因子的装置、所述用于产生经滤波的码本向量的装置、所述用于产生共振峰锐化低波段激励信号的装置以及所述用于产生经合成的音频信号的装置集成在移动装置中,且其中所述用于接收所述音频信号的装置包括音频译码器输入端子。
28.一种非暂时性计算机可读介质,其包括指令,所述指令在由计算机执行时使得所述计算机执行下述步骤:
接收音频信号;
对所述音频信号执行噪声估计以确定长期噪声估计值;
基于所确定的长期噪声估计值来确定共振峰锐化因子;
将滤波器应用于码本向量以产生经滤波的码本向量,其中所述滤波器是基于所确定的共振峰锐化因子,且其中所述码本向量是基于来自所述音频信号的信息;基于所述经滤波的码本向量来产生共振峰锐化低波段激励信号;以及
基于所述共振峰锐化低波段激励信号来产生经合成的音频信号。
29.根据权利要求28所述的非暂时性计算机可读介质,其中所述指令进一步致使所述计算机基于所述码本向量来产生高波段合成信号。
30.根据权利要求28所述的非暂时性计算机可读介质,其中至少基于来自所述音频信号的第一帧的信息来确定所确定的长期噪声估计值,且其中所述码本向量是基于来自所述第一帧之后的所述音频信号第二帧的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811182531.1A CN109243478B (zh) | 2013-01-29 | 2013-12-23 | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758152P | 2013-01-29 | 2013-01-29 | |
US61/758,152 | 2013-01-29 | ||
US14/026,765 | 2013-09-13 | ||
US14/026,765 US9728200B2 (en) | 2013-01-29 | 2013-09-13 | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
CN201380071333.7A CN104937662B (zh) | 2013-01-29 | 2013-12-23 | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 |
PCT/US2013/077421 WO2014120365A2 (en) | 2013-01-29 | 2013-12-23 | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
CN201811182531.1A CN109243478B (zh) | 2013-01-29 | 2013-12-23 | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380071333.7A Division CN104937662B (zh) | 2013-01-29 | 2013-12-23 | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109243478A true CN109243478A (zh) | 2019-01-18 |
CN109243478B CN109243478B (zh) | 2023-09-08 |
Family
ID=51223881
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380071333.7A Active CN104937662B (zh) | 2013-01-29 | 2013-12-23 | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 |
CN201811182531.1A Active CN109243478B (zh) | 2013-01-29 | 2013-12-23 | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380071333.7A Active CN104937662B (zh) | 2013-01-29 | 2013-12-23 | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 |
Country Status (10)
Country | Link |
---|---|
US (2) | US9728200B2 (zh) |
EP (1) | EP2951823B1 (zh) |
JP (1) | JP6373873B2 (zh) |
KR (1) | KR101891388B1 (zh) |
CN (2) | CN104937662B (zh) |
BR (1) | BR112015018057B1 (zh) |
DK (1) | DK2951823T3 (zh) |
ES (1) | ES2907212T3 (zh) |
HU (1) | HUE057931T2 (zh) |
WO (1) | WO2014120365A2 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976830B (zh) * | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
US9728200B2 (en) | 2013-01-29 | 2017-08-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
JP6305694B2 (ja) * | 2013-05-31 | 2018-04-04 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
US9666202B2 (en) | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
EP2963646A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
EP3079151A1 (en) * | 2015-04-09 | 2016-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and method for encoding an audio signal |
US10847170B2 (en) * | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US10694298B2 (en) * | 2018-10-22 | 2020-06-23 | Zeev Neumeier | Hearing aid |
CN110164461B (zh) * | 2019-07-08 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 语音信号处理方法、装置、电子设备及存储介质 |
CN110444192A (zh) * | 2019-08-15 | 2019-11-12 | 广州科粤信息科技有限公司 | 一种基于语音技术的智能语音机器人 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5845244A (en) * | 1995-05-17 | 1998-12-01 | France Telecom | Adapting noise masking level in analysis-by-synthesis employing perceptual weighting |
US6098036A (en) * | 1998-07-13 | 2000-08-01 | Lockheed Martin Corp. | Speech coding system and method including spectral formant enhancer |
US20020116182A1 (en) * | 2000-09-15 | 2002-08-22 | Conexant System, Inc. | Controlling a weighting filter based on the spectral content of a speech signal |
US20050041170A1 (en) * | 2001-12-27 | 2005-02-24 | Chae Gee Sung | Array substrate for a liquid crystal display device having an improved contact property and fabricating method thereof |
US20080086302A1 (en) * | 2006-10-06 | 2008-04-10 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
US20120095757A1 (en) * | 2010-10-15 | 2012-04-19 | Motorola Mobility, Inc. | Audio signal bandwidth extension in celp-based speech coder |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754976A (en) * | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
US5732389A (en) | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
JP3390897B2 (ja) * | 1995-06-22 | 2003-03-31 | 富士通株式会社 | 音声処理装置及びその方法 |
JPH09160595A (ja) * | 1995-12-04 | 1997-06-20 | Toshiba Corp | 音声合成方法 |
FI980132A (fi) * | 1998-01-21 | 1999-07-22 | Nokia Mobile Phones Ltd | Adaptoituva jälkisuodatin |
US6141638A (en) | 1998-05-28 | 2000-10-31 | Motorola, Inc. | Method and apparatus for coding an information signal |
JP4308345B2 (ja) * | 1998-08-21 | 2009-08-05 | パナソニック株式会社 | マルチモード音声符号化装置及び復号化装置 |
US7117146B2 (en) | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US6556966B1 (en) * | 1998-08-24 | 2003-04-29 | Conexant Systems, Inc. | Codebook structure for changeable pulse multimode speech coding |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
GB2342829B (en) | 1998-10-13 | 2003-03-26 | Nokia Mobile Phones Ltd | Postfilter |
CA2252170A1 (en) | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6449313B1 (en) | 1999-04-28 | 2002-09-10 | Lucent Technologies Inc. | Shaped fixed codebook search for celp speech coding |
US6704701B1 (en) | 1999-07-02 | 2004-03-09 | Mindspeed Technologies, Inc. | Bi-directional pitch enhancement in speech coding systems |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
AU2001287970A1 (en) | 2000-09-15 | 2002-03-26 | Conexant Systems, Inc. | Short-term enhancement in celp speech coding |
US6760698B2 (en) | 2000-09-15 | 2004-07-06 | Mindspeed Technologies Inc. | System for coding speech information using an adaptive codebook with enhanced variable resolution scheme |
US7606703B2 (en) * | 2000-11-15 | 2009-10-20 | Texas Instruments Incorporated | Layered celp system and method with varying perceptual filter or short-term postfilter strengths |
CA2327041A1 (en) * | 2000-11-22 | 2002-05-22 | Voiceage Corporation | A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals |
US6766289B2 (en) | 2001-06-04 | 2004-07-20 | Qualcomm Incorporated | Fast code-vector searching |
US7047188B2 (en) | 2002-11-08 | 2006-05-16 | Motorola, Inc. | Method and apparatus for improvement coding of the subframe gain in a speech coding system |
US7424423B2 (en) * | 2003-04-01 | 2008-09-09 | Microsoft Corporation | Method and apparatus for formant tracking using a residual model |
AU2003274864A1 (en) | 2003-10-24 | 2005-05-11 | Nokia Corpration | Noise-dependent postfiltering |
US7788091B2 (en) | 2004-09-22 | 2010-08-31 | Texas Instruments Incorporated | Methods, devices and systems for improved pitch enhancement and autocorrelation in voice codecs |
US7676362B2 (en) * | 2004-12-31 | 2010-03-09 | Motorola, Inc. | Method and apparatus for enhancing loudness of a speech signal |
CN101185125B (zh) * | 2005-04-01 | 2012-01-11 | 高通股份有限公司 | 用于带宽延伸语音预测激励信号的抗稀疏滤波的方法和设备 |
NZ562182A (en) | 2005-04-01 | 2010-03-26 | Qualcomm Inc | Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal |
US8280730B2 (en) | 2005-05-25 | 2012-10-02 | Motorola Mobility Llc | Method and apparatus of increasing speech intelligibility in noisy environments |
EP2096631A4 (en) | 2006-12-13 | 2012-07-25 | Panasonic Corp | TONE DECODING DEVICE AND POWER ADJUSTMENT METHOD |
US8706480B2 (en) * | 2007-06-11 | 2014-04-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoding audio signal |
KR101789632B1 (ko) * | 2009-12-10 | 2017-10-25 | 엘지전자 주식회사 | 음성 신호 부호화 방법 및 장치 |
US9728200B2 (en) | 2013-01-29 | 2017-08-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
-
2013
- 2013-09-13 US US14/026,765 patent/US9728200B2/en active Active
- 2013-12-23 EP EP13824256.5A patent/EP2951823B1/en active Active
- 2013-12-23 ES ES13824256T patent/ES2907212T3/es active Active
- 2013-12-23 KR KR1020157022785A patent/KR101891388B1/ko active IP Right Grant
- 2013-12-23 CN CN201380071333.7A patent/CN104937662B/zh active Active
- 2013-12-23 DK DK13824256.5T patent/DK2951823T3/da active
- 2013-12-23 CN CN201811182531.1A patent/CN109243478B/zh active Active
- 2013-12-23 BR BR112015018057-4A patent/BR112015018057B1/pt active IP Right Grant
- 2013-12-23 WO PCT/US2013/077421 patent/WO2014120365A2/en active Application Filing
- 2013-12-23 HU HUE13824256A patent/HUE057931T2/hu unknown
- 2013-12-23 JP JP2015555166A patent/JP6373873B2/ja active Active
-
2017
- 2017-06-28 US US15/636,501 patent/US10141001B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5845244A (en) * | 1995-05-17 | 1998-12-01 | France Telecom | Adapting noise masking level in analysis-by-synthesis employing perceptual weighting |
US6098036A (en) * | 1998-07-13 | 2000-08-01 | Lockheed Martin Corp. | Speech coding system and method including spectral formant enhancer |
US20020116182A1 (en) * | 2000-09-15 | 2002-08-22 | Conexant System, Inc. | Controlling a weighting filter based on the spectral content of a speech signal |
US20050041170A1 (en) * | 2001-12-27 | 2005-02-24 | Chae Gee Sung | Array substrate for a liquid crystal display device having an improved contact property and fabricating method thereof |
US20080086302A1 (en) * | 2006-10-06 | 2008-04-10 | Qualcomm Incorporated | Systems, methods, and apparatus for frame erasure recovery |
US20120095757A1 (en) * | 2010-10-15 | 2012-04-19 | Motorola Mobility, Inc. | Audio signal bandwidth extension in celp-based speech coder |
Also Published As
Publication number | Publication date |
---|---|
CN104937662B (zh) | 2018-11-06 |
KR20150110721A (ko) | 2015-10-02 |
CN104937662A (zh) | 2015-09-23 |
DK2951823T3 (da) | 2022-02-28 |
JP2016504637A (ja) | 2016-02-12 |
US20170301364A1 (en) | 2017-10-19 |
BR112015018057B1 (pt) | 2021-12-07 |
WO2014120365A3 (en) | 2014-11-20 |
EP2951823B1 (en) | 2022-01-26 |
BR112015018057A2 (pt) | 2017-07-18 |
ES2907212T3 (es) | 2022-04-22 |
KR101891388B1 (ko) | 2018-08-24 |
US10141001B2 (en) | 2018-11-27 |
US20140214413A1 (en) | 2014-07-31 |
JP6373873B2 (ja) | 2018-08-15 |
EP2951823A2 (en) | 2015-12-09 |
US9728200B2 (en) | 2017-08-08 |
HUE057931T2 (hu) | 2022-06-28 |
WO2014120365A2 (en) | 2014-08-07 |
CN109243478B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104937662B (zh) | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 | |
EP3852104B1 (en) | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation | |
CN102934163B (zh) | 用于宽带语音编码的系统、方法、设备 | |
CN103069482B (zh) | 用于噪声注入的系统、方法和设备 | |
US9842598B2 (en) | Systems and methods for mitigating potential frame instability | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
US9208775B2 (en) | Systems and methods for determining pitch pulse period signal boundaries | |
CN105074820B (zh) | 用于确定内插因数组的系统和方法 | |
TW201435859A (zh) | 用於量化及解量化相位資訊之系統及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |