CN107527628B - 用于在音频信号解码器中进行频带扩展的优化缩放因子 - Google Patents
用于在音频信号解码器中进行频带扩展的优化缩放因子 Download PDFInfo
- Publication number
- CN107527628B CN107527628B CN201710729750.6A CN201710729750A CN107527628B CN 107527628 B CN107527628 B CN 107527628B CN 201710729750 A CN201710729750 A CN 201710729750A CN 107527628 B CN107527628 B CN 107527628B
- Authority
- CN
- China
- Prior art keywords
- band
- frequency
- filter
- linear prediction
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 19
- 230000005284 excitation Effects 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 75
- 230000004044 response Effects 0.000 claims abstract description 40
- 238000009499 grossing Methods 0.000 claims abstract description 27
- 230000003595 spectral effect Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 description 39
- 230000015572 biosynthetic process Effects 0.000 description 26
- 238000003786 synthesis reaction Methods 0.000 description 26
- 239000000126 substance Substances 0.000 description 22
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000012937 correction Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 10
- 238000012952 Resampling Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 1
- 101100391182 Dictyostelium discoideum forI gene Proteins 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/72—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
Abstract
提供一种用于在音频信号频带扩展方法中确定有待被应用于激励信号或滤波器的优化的缩放因子的方法,包括:计算第一频带的线性预测滤波器的频率响应R,对R值进行平滑处理,以获得Rsmoothed,该平滑处理的方法从包括至少两个平滑处理的方法的集合中选择,平滑处理的方法是包括多个参数的参数集合的函数,多个参数包括频谱斜率的值tilt,确定优化的缩放因子,包括计算max(min(Rsmoothed,Q),P)/P,P是在第二频带上的线性预测滤波器的频率响应,第二频带高于第一频带,Q是通过截断所述线性预测滤波器多项式获得的附加滤波器的频率响应。还提供一种相应的装置。
Description
技术领域
本发明涉及为了对音频信号(如语音、音乐或其他此类信号)进行传输或存储而对其进行编码/解码和处理的领域。
更具体而言,本发明涉及一种用于确定优化缩放因子的方法和装置,作为在解码器或处理器中增强音频信号的频带扩展的一部分,该优化缩放因子可用来对激励信号的电平进行调整或者以等效方式对滤波器的电平进行调整。
背景技术
存在许多技术用于压缩(有损耗)音频信号(如语音或音乐)。
通常将用于对话式应用的常规编码方法分类为:波形编码(“脉冲编码调制”PCM、“自适应差分脉冲编码调制”ADCPM、变换编码等);参数编码(“线性预测编码”LPC、正弦编码等);以及通过“合成分析(analysis by synthesis)”对参数进行量化的参数混合编码,其中,CELP(“码激励线性预测”)编码是最著名的示例。
对于非对话式应用,(单)音频信号编码的现有技术由通过变换或以子频带进行的感知编码与通过频带复制进行的对高频的参数编码所组成。
可以在以下这些著作中找到对常规语音和音频编码方法的回顾:W.B. 克莱因(W.B. Kleijn)和K.K. 帕利埃尔(K.K. Paliwal)(编辑),《语音编码与合成》(SpeechCoding and Synthesis),爱思唯尔出版社,1995;M. 博瑟(M. Bosi)、R.E. 高德博格(R.E.Goldberg),《数字音频编码和标准介绍》(Introduction to Digital Audio Coding andStandards),斯普林格出版社,2002;J. 贝尼斯提(J. Benesty)、M.M. 松迪(M.M.Sondhi)、Y. 黄(Y. Huang)(编辑),《语音处理手册》(Handbook of Speech Processing),斯普林格出版社,2008。
在此,更具体地关注3GPP标准化AMR-WB(“宽带自适应多速率”)编解码器(编码器和解码器),该编解码器在16 kHz的输入/输出频率上进行操作并且其中信号被分成两个子频带:低频带(0 kHz-6.4 kHz)和高频带(6.4 kHz-7 kHz),该低频带以12.8 kHz进行采样并且由CELP模型进行编码,而该高频带取决于当前帧的模式在有附加信息或者没有附加信息的情况下通过“频带扩展”(或者“带宽扩展”BWE)参数化地进行重建。在此,可以注意到的是,在7 kHz上对AMR-WB编解码器的编码频带的限制实质上与以下事实相关联:根据在标准ITU-T P.341中所定义的频率掩模并且更具体地通过使用在标准ITU-T G.191中所定义的截断7 kHz以上的频率的所谓“P341”滤波器(此滤波器遵循在P.341中所定义的掩模)在进行标准化(ETSI/3GPP,然后ITU-T)时近似估计在宽带终端的传输过程中的频率响应。然而,理论上,众所周知的是,以16 kHz采样的信号可以具有所限定的从0 Hz到8000 Hz的音频频带;因此,AMR-WB编解码器通过与8 kHz的理论带宽进行比较来引入对高频带的限制。
在2001年,主要针对关于GSM(2G)和UMTS(3G)的电路模式(CS)电话技术应用对3GPP AMR-WB语音编解码器进行了标准化。还在2003年由ITU-T以建议G.722.2“使用自适应多速率宽带(AMR-WB)以大约16 kbit/s进行宽带编码语音”的形式对这种相同的编解码器进行了标准化。
它包括从6.6 kbit/s到23.85 kbit/s的九种比特率(称为模式),并且包括多种连续传输机制(DTX,“不连续传输”)以及多种丢失帧校正机制(“帧擦除隐藏”FEC,有时也称为“包丢失隐藏”PLC),这些连续传输机制具有语音活动检测(VAD)以及来自静音描述帧(SID,“静音插入描述符”)的舒适噪音生成(CNG)。
在此不再重复AMR-WB编码和解码算法的细节。可以在以下文献中找到对这种编解码的详细说明:3GPP规范(TS 26.190、26.191、26.192、26.193、26.194、26.204);ITU-T-G.722.2(以及相应的附件和附录);B. 贝塞特(B. Bessette)等人的题为《自适应多速率宽带语音编解码器(AMR-WB)》(“The adaptive multirate wideband speech codec (AMR-WB)”)的文章,IEEE语音和音频处理会刊,第10卷,第8期,2002年,620-636页;以及相关联的3GPP标准和ITU-T标准的源代码。
AMR-WB编解码器中的频带扩展原理是相当基础的。实际上,高频带(6.4 kHz-7kHz)是通过时间(以每子帧增益的形式应用的)和频率(通过应用线性预测合成滤波器或“线性预测编码”LPC)包络对白噪声进行整形而生成的。在图1中展示了这种频带扩展技术。
●然后,获得高频带中的激励(框106或109),形式如下:
其中,增益是根据比特率以不同的方式获得的。如果当前帧的比特率< 23.85kbit/s,那么增益被估计为“盲式(blind)”(也就是说,没有附加信息);在这种情况下,框103通过具有400 Hz的截止频率的高通滤波器对在低频带中所解码的信号进行滤波来获得信号,——此高通滤波器消除了非常低频率的可以使在框104中所作出的估计发生偏移的影响——然后,通过归一化的自相关(框104)来计算信号的被表示为的“倾斜度(tilt)”(频谱斜率指示符):
其中,是应用于有效语音(SP)帧的增益,是应用于与背景(BG)噪声相关联的无效语音帧的增益,并且是取决于语音活动检测(VAD)的加权函数。应理解的是,对倾斜度()的估计使得有可能根据信号的频谱性质对高频带的电平进行适配;当CELP解码信号的频谱斜率为使得在频率增加时平均能量减少时(语音信号的情况,其中,接近于1,因此,被由此减小),这种估计尤其重要。还应注意的是,AMR-WB解码中的因子是有界的,在范围[0.1,1.0]内取值。实际上,对于在频率增加时能量增加的信号(接近于-1,接近于2),增益通常被低估。
以23.85 kbit/s,校正信息项由AMR-WB编码器所传输并且被解码(框107、框108)以便改进针对每个子帧所估计的增益(每5毫秒4比特或0.8 kbit/s)。然后,通过具有传递函数并且以16 kHz的采样频率进行操作的LPC合成滤波器(框111)来对人工激励进行滤波(框111)。这种滤波器的构造取决于当前帧的比特率:
●以6.6 kbit/s,通过按照因子= 0.9对阶数为20的LPC滤波器进行加权来获得滤波器,这对在低频带中(以12.8 kHz)所解码的阶数为16的LPC滤波器进行“外插”——在标准G.722.2第6.3.2.1节中描述了在ISF(导抗频谱频率)参数领域中进行的外插的细节。在这种情况下,
结果最终由FIR(“有限脉冲响应”)类型的带通滤波器(框112)处理以仅保留6 kHz-7 kHz的频带;以23.85 kbit/s,同样为FIR类型的低通滤波器(框113)被添加到处理过程中以进一步衰减7 kH以上的频率。高频(HF)合成最终被添加(框130)到通过框120至框122所获得的低频(LF)合成中并且被以16 kHz进行再采样(框123)。从而,即使在AMR-WB编解码器中高频带理论上从6.4 kHz扩展至7 kHz,HF合成在与LF合成相加之前而是被包含在6 kHz-7 kHz频带中。
可以对AMR-WB编解码器的频带扩展技术的许多缺点进行标识,具体而言:
●对每个子帧的增益(框101、框103至框105)的估计不是最佳的。部分地,它是基于对不同频率上的信号之间的每子帧“绝对”能量所进行的均衡(框101):16 kHz上的人工激励(白噪声)以及12.8 kHz上的信号(经解码的ACELP激励)。具体地,可注意到的是,这种方法隐含地引起了对高频带激励的衰减(按照比例12.8/16 = 0.8进行);实际上,还将注意的是,在AMR-WB编解码器中未对高频带进行去加重,这隐含地引起了相对接近于0.6的放大(这对应于在6400 Hz处的频率响应的值)。实际上,因子1/0.8与0.6得到了近似补偿。
●关于语音,记录于3GPP报告TR 26.976中的3GPP AMR-WB编解码器特征化测试已经示出以23.85 kbit/s的模式具有与在23.05 kbit/s上的模式相比不是很好的质量,其质量实际上类似于以15.85 kbit/s的模式的质量。这具体地示出了必须非常谨慎地控制人工HF信号的电平,因为质量在23.85 kbit/s上降低,而每帧4比特被认为是最有可能使得可以接近于原始高频的能量。
●在7 kHz上的低通滤波器(框113)在低频带与高频带之间引入了几乎1 ms的偏移,这可能会通过以23.85 kbit/s对这两个频带稍微进行去同步而降低某些信号的质量——这种去同步还会在将比特率从23.85 kbit/s切换至其他模式时带来多种问题。
在描述AMR-WB+编解码器的3GPP标准TS 26.290(标准化于2005年)中描述了通过时间方式进行频带扩展的示例。在图2a的框图(一般框图)和图2b的框图(通过响应电平校正进行的增益预测)中展示了本示例,这两个框图分别对应于3GPP规范TS 26.290的图16和图10。
在AMR-WB+编解码器中,以频率Fs(Hz)采样的(单)输入信号被分成两个单独的频带,其中,两个LPC滤波器被单独地计算和编码:
如在3GPP规范TS 26.290的第5.4节(HF编码)和第6.2节(HF解码)中所详细描述的,在AMR-WB+编解码器中完成频带扩展。其原理概述于此:该扩展在于使用在低频处所解码的激励(LFC激励)并且通过每子帧时间增益(框205)和LPC合成滤波(框207)将此激励格式化;此外,如在图2a中所展示的那些实现对激励进行增强(后处理)(框206)以及对重建的HF信号的能量进行平滑处理(框208)的那些处理操作。
重要的是要注意到,AMR-WB+中的这种扩展需要对以下附加信息进行传输:在204中的滤波器的那些系数以及每子帧时间格式化增益(框201)。AMR-WB+中的频带扩展算法的一个具体特征在于每子帧增益是通过预测方式进行量化的;换言之,这些增益不是直接编码的,而是相对于对增益的估计(被表示为)的增益校正。此估计实际上对应于在低频带与高频带之间的分离频率(Fs/4)上的滤波器与之间的电平均衡因子。在3GPP规范TS 26.290的图10(在此再现于图2b)中详细描述了对因子的计算(框203)。在此将不再对此图进行进一步详细描述。将简单地注意到,在回想滤波器对频谱混叠的高频带进行建模时,使用框210至框213来计算的脉冲响应的能量(由于滤波器组将低频带与高频带分开的频谱特性)。因为通过多个子帧对这些滤波器进行内插,每子帧仅计算一次增益,并且通过多个子帧对其进行插值。
AMR-WB+中的频带扩展增益编码技术(并且更具体地这些LPC滤波器在其连接处的电平补偿)是在低频带和高频带中通过LPC模型进行频带扩展的背景下的一种合适方法,并且可以注意到的是,在AMR-WB编解码器的频带扩展中不存在这种LPC滤波器之间的电平补偿。然而,实际上有可能证实在分离频率上两个LPC滤波器之间的直接电平均衡不是最佳的方法并且会引起对高频带中的能量的高估以及在某些情况下的可听到的伪信号;应回想起,LPC滤波器表示频谱包络,而针对给定频率对两个LPC滤波器之间的电平进行均衡的原理相当于调整两个LPC包络的相对电平。目前,这种在明确频率上执行的均衡并不确保当信号的频率包络在均衡点附近显著地波动时在此附近的能量(在频率上)的完全连续性以及整体一致性。假定问题的数学方式在于注意到可以通过迫使两条曲线在同一个点会合来确保它们之间的连续性,但是无法保证局部特性(逐次求导)一致以确保更全局的一致性。确保低频带LPC包络与高频带LPC包络之间的点连续性的风险在于将在高频带中的LPC包络设置在太强或太弱的相对电平上,太强电平的情况更具有损害性,因为其导致更令人烦恼的伪信号。
此外,AMR-WB+中的增益补偿主要是对编码器和解码器而言已知的增益进行的预测,并且其用于降低传输对高频带激励信号进行缩放的增益信息所必需的比特率。目前,在AMR-WB编码/解码的可互操作增强的背景下,不可能在AMR-WB 23.85 kbit/s模式下通过频带扩展的子帧(0.8 kbit/s)来修改对增益的现有编码。此外,对于严格小于23.85 kbit/s的比特率,LPC滤波器在低频带和高频带中的电平补偿可以应用于对兼容AMR-WB的解码的频带扩展中,但是经验表明源自AMR-WB编码的这种唯一的技术在未进行优化的情况下应用时会导致高估高频带(> 6 kHz)的能量的问题。
因此,需要在不以任何方式高估频带中的能量并且不要求来自编码器中的附加信息的情况下针对AMR-WB类型的编解码器或此解码器的可互操作版本中的频带扩展提高不同频带的线性预测滤波器之间的增益补偿。
发明内容
本发明改善了这种状况。
为此,本发明目标在于一种用于在音频信号频带扩展方法中确定有待被应用于激励信号或滤波器的优化缩放因子的方法,该频带扩展方法包括在第一频带中对激励信号以及该第一频带的包括线性预测滤波器的多个系数在内的多个参数进行解码或提取的步骤、生成在至少一个第二频带上的经扩展的激励信号的步骤以及通过线性预测滤波器针对该第二频带进行滤波的步骤。该确定方法使得其包括以下步骤:
- 确定阶数低于该第一频带的该线性预测滤波器、被称为附加滤波器的线性预测滤波器,该附加滤波器的那些系数是从自该第一频带中解码或提取出来的这些参数中获得的;以及
- 至少根据该附加滤波器的这些系数计算该优化缩放因子。
从而,使用阶数低于有待被均衡的第一频带的滤波器的附加滤波器使得有可能避免高估高频中的能量,该高估可由包络的局部波动导致并且其将破坏这些预测滤波器的均衡。
从而,增强了对第一频带与第二频带的这些线性预测滤波器之间的增益的均衡。
在适当获得的优化缩放因子的有利的应用中,该频带扩展方法包括将该优化缩放因子应用到该经扩展的激励信号的步骤。
在合适的实施例中,所述应用该优化缩放因子与所述在该第二频带中进行滤波的步骤相组合。
从而,将滤波步骤与应用优化缩放因子的步骤组合到单个滤波步骤中以减小处理复杂度。
在具体的实施例中,该附加滤波器的这些系数是通过截断该第一频带的该线性预测滤波器的传递函数以获得更低阶数而获得的。
因此,以一种简单的方式获得了这种更低阶的附加滤波器。
此外,为了获得稳定的滤波器,该附加滤波器的这些系数是根据该附加滤波器的稳定性标准而被修改的。
在具体的实施例中,对优化缩放因子的计算包括以下步骤:
- 计算该第一频带和该第二频带的这些线性预测滤波器对公共频率的频率响应;
- 计算该附加滤波器对此公共频率的频率响应;
- 根据这些适当计算的频率响应计算该优化缩放因子。
从而,计算优化缩放因子的方式为避免如果接近于公共频率的第一频带的更高阶滤波器频率响应显示信号波峰或信号波谷则可能发生的那些令人烦恼的伪信号。
在具体的实施例中,该方法进一步包括针对预定解码比特率实现的以下步骤:
- 按照根据该经解码的激励信号与该经扩展的激励信号之间的能量比针对每个子帧所计算的增益对该经扩展的激励信号进行第一缩放;
- 按照经解码的校正增益对从该第一缩放中所获得的该激励信号进行第二缩放;
- 按照调整因子来调整针对当前子帧的该激励的能量,该调整因子是根据在该第二缩放之后获得的该信号的能量并且根据在应用该优化缩放因子之后获得的该信号所计算的。
从而,附加信息可以用来增强预定操作模式的经扩展的信号的质量。
本发明的目标还在于一种用于在音频信号频带扩展装置中确定有待被应用于激励信号或滤波器的优化缩放因子的装置,该频带扩展装置包括用于在第一频带中对激励信号以及该第一频带的包括线性预测滤波器的多个系数在内的多个参数进行解码或提取的模块、用于生成在至少一个第二频带上的经扩展的激励信号的模块以及用于通过线性预测滤波器针对该第二频带进行滤波的模块。该确定装置使得其包括:
- 用于确定阶数低于该第一频带的该线性预测滤波器、被称作附加滤波器的线性预测滤波器的模块,该附加滤波器的这些系数是从自该第一频带中解码或提取出来的这些参数中获得的;以及
- 用于至少根据该附加滤波器的这些系数计算该优化缩放因子的模块。
本发明的目标在于一种包括如所述装置的解码器。
本发明的目标在于一种包括代码指令的计算机程序,这些指令当由处理器执行时用于实现如所述的用于确定优化缩放因子的方法的那些步骤。
最后,本发明涉及一种存储介质,该存储介质可由处理器读取、在用于确定优化缩放因子的设备中结合或不结合、可能地可移除的、存储有实现如先前所描述的用于确定优化缩放因子的方法的计算机程序。
附图说明
通过阅读以下仅作为非限制性示例给出并且参照这些附图所作出的描述,本发明的其他特征和优点将变得更清晰明显,其中:
- 图1展示了实现现有技术的频带扩展步骤并且如之前所述的AMR-WB类型的解码器的一部分;
- 图2a和图2b呈现了根据现有技术并且如之前所述的在AMR-WB+编解码器中对高频带进行的编码;
- 图3展示了根据本发明的实施例使用的一种可以与AMR-WB编码交互工作、合并有频带扩展装置的解码器;
- 图4展示了根据本发明的实施例的一种用于确定由子帧根据比特率优化的缩放因子的装置;并且
- 图5a和图5b展示了根据本发明的实施例用于计算优化缩放因子的这些滤波器的频率响应;
- 图6以流程图的形式展示了根据本发明的实施例的一种用于确定优化缩放因子的方法的主要步骤;
- 图7展示了作为频带扩展的一部分的一种用于确定优化缩放因子的装置在频域中的实施例;
- 图8展示了在根据本发明的频带扩展中的优化缩放因子确定装置的硬件实现。
具体实施方式
图3展示了可与AMR-WB/G.722.2标准相兼容的示例性解码器,在该标准中,存在包括根据本发明的方法的实施例来确定优化缩放因子、通过由框309所展示的频带扩展装置实现的频带扩展。
不像以16 kHz输出采样频率进行操作的AMR-WB解码,在此考虑可以通过在fs =8kHz、16 kHz、32 kHz或48 kHz的频率上的输出信号(合成)进行操作的解码器。应注意的是,在此假设已经根据AMR-WB算法执行编码,其中,在低频带中通过在16 kHz的频率上以23.85kbit/s每子帧进行增益编码来以12.8 kHz的内部频率进行CELP编码;虽然本发明在此是在解码层级上进行描述的,在此假设的是,编码还可以用fs =8 kHz、16 kHz、32 kHz或48 kHz频率的输入信号进行操作,并且根据fs的值在编码中实现超出本发明内容的合适的重采样操作。可以注意到,当fs = 8 kHz时,在与AMR-WB相兼容的解码的情况下,不需要扩展0kHz-6.4 kHz低频带,因为以频率fs重建的音频带被限制在0 Hz-4000 Hz中。
在图3中,CELP解码(低频LF)如在AMR-WB中那样仍然以12.8 kHz的内部频率进行操作,而用于本发明的频带扩展(高频HF)以16 kHz的频率进行操作,并且在合适的重采样(框306以及在框311中的内部处理)之后以频率fs将LF合成与HF合成进行组合(框312)。在变体实施例中,可以在已经对从12.8 kHz到16 kHz的低频带进行重采样之后、在以频率fs对组合信号进行重采样之前以16 kHz将低频带与高频带进行组合。
根据图3的解码取决于与所接收到的当前帧相关联的AMR-WB模式(或比特率)。作为指示并且在不影响框309的情况下,在低频带中对CELP部分进行解码包括以下步骤:
●在正确接收到帧的情况下(bfi = 0,其中,bfi是“坏帧指示符”,对于所接收到的帧的值为0并且对于丢失帧的值为1),对这些编码的参数进行解复用(框300);
●如在标准G.722.2的条款6.1中所描述的,通过内插以及转换成LPC系数对ISF参数进行解码(框301);
通过遵循与AMR-WB编码器/解码器可互操作的解码器的ITU-T建议G.718的条款7.1.2.1的符号,就CELP解码而言,其中,和分别是自适应词典和固定词典的码字,并且和是相关联的解码增益。在下一个子帧的自适应词典中使用此激励;然后,对该激励进行后处理,并且,按照G.718,将激励(也被表示为exc)与其经修改的后处理版本(也被表示为exc2)区别开来,该后处理版本充当在框303中的合成滤波器的输入;
●如果fs =8 kHz,则根据G.718的条款7.3进行窄带后处理(框304);
●如在G.718的条款7.14.1.1中所描述的,对低频进行后处理(称作“低音后滤波”)(框306),该后处理对低频上的交叉谐波噪声进行衰减。这种处理引入了延迟,在对高频带(> 6.4 kHz)的解码过程中将该延迟考虑在内;
●以输出频率fs对12.8 kHz的内部频率进行重采样(框307)。许多实施例是可能的。在不失一般性的情况下,通过示例的方式在此考虑:如果fs = 8 kHz或16 kHz,则在此重复G.718的条款7.6中所描述的重采样,并且如果fs = 32 kHz或48 kHz则使用多个附加有限脉冲响应(FIR)滤波器;
●如在G.718的条款7.14.3中所描述的,优先执行对“噪声门”(框308)的那些参数的计算以通过降低电平来“增强”静音的质量。
在可实现用于本发明的变体中,在不影响频带扩展的性质的情况下,可以对应用于激励的后处理操作进行修改(例如,可以增强相分散),或者可以对这些后处理操作进行扩展(例如,可以实现对交叉谐波噪声的降低)。
可以注意的是,对框306、框308、框314的使用是可选的。
还将注意的是,上述对低频带的解码采取具有在6.6 kbit/s与23.85 kbit/s之间的比特率的所谓“有效”当前帧。实际上,当激活DTX模式时,某些帧可以被编码成“无效的”,并且在这种情况下,有可能传输静止描述符(在35个比特上)或者什么都不传输。具体而言,将回想起,SID帧描述了多个参数:在8个帧上取平均的多个ISF参数、在8个帧上的平均能量、非平稳噪声的重建的“抖动”标记。在所有情况下,对于针对当前帧进行激励或LPC滤波器的重建,在解码器中存在与针对有效帧相同的解码模式,这使得有可能将频带扩展甚至应用到无效帧中。同样的情况适用于对“丢失帧”的解码(或FEC、PLC),其中,LPC模型被应用。
在此所描述的实施例中并且参照图7,该解码器使得有可能将经解码的低频带(50Hz-6400 Hz,将解码器上的50 Hz高通滤波、一般情况下的0 Hz-6400 Hz考虑在内)扩展至经扩展的频带,该经扩展的频带的宽度根据在当前帧中所实现的模式近似地从50 Hz-6900Hz变化至50 Hz-7700 Hz。从而,其有可能指0 Hz至6400 Hz的第一频带以及6400 Hz至8000Hz的第二频带。实际上,在优选实施例中,在5000 Hz至8000 Hz频带的频域中进行对激励的扩展,以允许对6000 Hz至6900 Hz或者6000 Hz至7700 Hz宽度的带通滤波。
在23.85 kbit/s上,以23.85 kbit/s传输的HF增益校正信息(0.8 kbit/s)在此被解码。稍后参照图4详细描述它的使用。在表示用于本发明的频带扩展装置的框309中产生高频带合成部分,并且在一个实施例中在图7中详细描述了该装置。
为了对准经解码的低频带和高频带,引入延迟(框310)以使框306和框307的输出同步并且从16 kHz到频率fs(框311的输出)对以16 kHz合成的高频带进行重采样。如在低频的后处理中那样,延迟T的值取决于高频带信号是如何合成的,并且取决于频率fs。从而,通常,将需要根据具体的实现方式来调整框310中的T值。
然后,在框312中对低频带和高频带进行组合(相加),并且所获得的合成由2阶的(IIR类型的)50 Hz高通滤波进行后处理,该滤波的系数取决于频率fs(框313),并且以类似于G.718的方式通过可选地应用“噪声门”来进行输出后处理(框314)。
参照图3,现在描述一种在频带扩展过程中用于确定有待应用于激励信号的优化缩放因子的装置的实施例。此装置被包括在之前所述的频带扩展框309中。
在此将注意到的是,根据本发明对优化缩放因子的估计与信号是如何获得的无关。然而,一个与其能量有关的条件是重要的。实际上,从6000 Hz到8000 Hz的高频带的能量必须处于与在框302的输出处的经解码的激励信号的从4000 Hz至6000 Hz的频带的能量相类似的水平。此外,由于对低频带信号进行了去加重(框305),必须或者通过使用特定的去加重滤波器或者通过乘以与所提及的滤波器的平均衰减相对应的常数因子来向高频带激励信号将去加重也应用于高频带激励信号。此条件并不适用于使用由编码器传输的附加信息的23.85 kbit/s比特率的情况。在这种情况下,如稍后将解释的,高频带激励信号的能量必须与对应于编码器的信号的能量相一致。
例如,可以通过与针对参照图1在框100至框102中所描述的AMR-WB类型的解码器相同的方法来从白噪声实现频带扩展。
在另一实施例中,如稍后针对图7中的框700至框707所展示并描述的,可以从白噪声与经解码的激励信号的组合来执行此频带扩展。
如以下所描述的,当然可以针对框400设想保存了经解码的信号与经扩展的激励信号之间的能量水平的其他频带扩展方法。
此外,频带扩展模块还可以独立于解码器,并且可以通过分析音频信号以从其中提取激励和LPC滤波器来针对被存储至或传输至扩展模块的现有音频信号进行频带扩展。在这种情况下,在扩展模块的输入处的激励信号不再是经解码的信号而是在分析之后所提取的信号,像在用于在本发明的实现方式中确定优化缩放因子的方法中所使用的第一频带的线性预测滤波器的那些系数。
在图4所展示的示例中,首先考虑比特率< 23.85 kbit/s的情况,其中,对优化缩放因子的确定被限制在框401中。在这种情况下,计算被表示为的优化缩放因子。在一个实施例中,如稍后参照图7所描述的,针对每个子帧优先执行此计算,并且该计算在于对在低频和高频中所使用的LPC滤波器和的频率响应的电平进行量化,需额外谨慎以避免出现会导致合成的高频带的能量过度并因此生成可听到的伪信号的高估情况。
在替代性实施例中,如在AMR-WB解码器或可与AMR-WB编码器/解码器交互工作的解码器中所实现的那样,将有可能例如根据ITU-T建议G.718来保持外插的HF合成滤波器以代替滤波器。然后,从滤波器和执行根据本发明的补偿。
对优化缩放因子的确定还通过确定(在401a中)阶数低于第一频带的线性预测滤波器、被称为附加滤波器的线性预测滤波器来执行,该附加滤波器的那些系数是从自该第一频带中解码或提取出来的这些参数中获得的。然后,至少根据有待被应用于经扩展的激励信号的这些系数来计算(在401b中)该优化缩放因子。
通过从以16 kHz采样的信号所获得的具体示例,在图5a和图5b中展示了在框401中所实现的确定优化缩放因子的原理。在当前子帧中于6000 Hz(竖直虚线)的公共频率上计算3个滤波器的频率响应幅值(以下被表示为R、P、Q),其中,在此在由子帧内插的LPC滤波器的记法中未调用索引m以便简化正文。选择6000 Hz的值,从而使得其接近于低频带的奈奎斯特频率,即,6400 Hz。优选的是不采用此奈奎斯特频率来确定优化缩放因子。实际上,低频带中的经解码的信号的能量通常在6400 Hz上已经被衰减。此外,在范围从6000 Hz到8000 Hz的第二频带(称作高频带)上执行在此所描述的频带扩展。应注意的是,在本发明的变体中,将能够不失一般性地选择除了6000 Hz之外的频率来确定优化缩放因子。还将有可能考虑针对这些单独的频带(如在AMR-WB+中)定义两个LPC滤波器的情况。在这种情况下,将在分离频率上计算R、P和Q。
图5a和图5b展示了如何定义量R、P、Q。
第一步骤在于分别计算第一频带(低频带)和第二频带(高频带)的线性预测滤波器在6000 Hz频率上的频率响应R和P。首先计算下式:
然后,类似地,计算下式:
其中,
在优选实施例中,根据下面的伪代码计算量P和R:
px = py = 0
rx = ry = 0
for i=0 to 16
px = px + Ap[i]*exp_tab_p[i]
px = px + Ap[i]*exp_tab_p[i]
rx = rx + Aq[i]*exp_tab_q[i]
ry = ry + Aq[i]*exp_tab_q[33-i]
end for
P = 1/sqrt(px*px+py*py)
R = 1/sqrt(rx*rx+ry*ry)
其中,Aq[i] = 对应于(阶数为16)的系数,Ap[i] = 对应于的系数,sqrt()对应于平方根运算并且大小为34的表exp_tab_p和表exp_tab_q包含与6000Hz频率相关联的复指数的实数部分和虚数部分,其中
实际上,直接截断至该阶数导致滤波器,这会带来问题,因为通常无法保证此2阶的滤波器是稳定的。在优选实施例中,因此对滤波器的稳定性进行了检测,并且使用滤波器,该滤波器的系数是根据该不稳定性检测从中提取出来的。更具体而言,进行以下初始化:
其中,min(.,.)和max(.,.)分别给出了2个运算对象的最小值和最大值。
应注意的是,在本发明的变体中,将能够对阈值(的阈值0.99以及的阈值0.6)进行调整。将回想起,第一反射系数表征被建模成1阶的信号的频谱斜率(或倾斜度);在本发明中,的值在接近于稳定极限的值上饱和,以便保留此斜率并且保持与的倾斜度相类似的倾斜度。还将回想起,第二反射系数表征被建模成2阶的信号的谐振能级;由于使用2阶的滤波器的目的是消除在6000 Hz频率周围的这种谐振的影响,所以的值被更严格地限制。此极限被设置为0.6。
因此,附加滤波器的频率响应最终被计算为:
qx = qy = 0
for i=0 to 2
qx = qx + As[i]*exp_tab_q[i];
qy = qy + As[i]*exp_tab_q[33-i];
end for
Q = 1/sqrt(qx*qx+qy*qy)
在不失一般性的情况下,将有可能以其他方式来计算2阶滤波器的系数,例如,通过将在J.D.马克尔(J.D. Markel)和A.H 格雷(A.H Gray)的《线性语音预测》(LinearPrediction of Speech),斯普林格出版社,1976中所描述的被称作“降阶(STEP DOWN)”的LPC阶降低程序应用于16阶的LPC滤波器,或者通过执行两次来自以12.8 kHz合成的(解码的)信号上计算的并且加窗的自相关Levinson-Durbin(或升阶(STEP-UP))的算法迭代。
对于一些信号,从经解码的前3个LPC系数中计算出来的量Q更好地考虑了频谱斜率(或倾斜度)在频谱中的影响,并且避免了接近6000 Hz的会偏移或升高从所有LPC系数所计算出来的量R的值的“假”波峰或波谷的影响。
在优选实施例中,从预先计算的量R,P,Q中有条件地推断出优化缩放因子,如下:
如果倾斜度(如在框104中在AMR-WB中的那样进行计算,通过以r(1)/r(0)为形式的归一化的自相关计算,其中,r(i)是自相关)为负数(如在图5b中表示的,倾斜度< 0),则按照如下方式完成对缩放因子的计算:
为了避免由于高频带的能量的过度突变造成的伪信号,对R的值应用平滑处理。在优选实施例中,以如下形式通过时间上的固定因子(0.5)来执行指数平滑处理:
然后,通过下式给出优化缩放因子:
如果倾斜度(如在框104中在AMR-WB中所计算的)为正数(如在图5a中,倾斜度>0),则按照如下方式完成对缩放因子的计算:
在时间上自适应地对量R进行平滑处理,其中,当R为低时进行更强的平滑处理——如在前述情况下,这种平滑处理使得有可能减少时间变化并因此避免伪信号:
然后,通过下式给出优化缩放因子:
在此取R、P、Q中的最小值以便避免高估缩放因子。
附加参数的一个示例是可以被如下定义的过零点数量(ZCR,过零率):
其中,
参数通常给出类似于倾斜度的结果。好的分类标准是在12800 Hz处针对合成信号计算的与针对激励信号计算的之间的比值。此比值在0与1之间,其中,0意味着信号具有降低的频谱,1意味着频谱是增加的(其对应于)。在这种情况下,比值 > 0.5对应于 < 0的情况,比值< 0.5对应于> 0。
在一个变体中,将有可能使用参数的函数,其中,是用例如在4800 Hz上的截止频率针对由高通滤波器滤波得到的合成信号计算的倾斜度;在这种情况下,从6kHz到8 kHz的响应(在16 kHz处应用的)对应于从4.8 kHz到6.4 kHz的加权响应。因为具有更平坦的响应,所以有必要补偿此倾斜度变化。然后,在一个实施例中,通过下式给出根据的缩放因子函数:。Q和R因此当 > 0时乘以或者当 < 0时乘以。
现在考虑23.85 kbit/s比特率的情况,其中,由框403至框408执行增益校正。另外,这种增益校正可以是一个独立发明的主题。在根据本发明的此具体实施例中,使用由AMR-WB(可兼容的)编码以0.8 kbit/s的比特率所传输的增益校正信息(被表示为)来提高在23.85 kbit/s上的质量。
在此所假设的是,如在ITU-T条款G.722.2/5.11或者等效地在3GPP条款TS26.190/5.11中所描述的,AMR-WB(可兼容的)编码已经在4个比特上执行了校正增益量化。
在AMR-WB编码器中,通过将以16 kHz采样并且由6 kHz-7 kHz带通滤波器滤波得到的原始信号的能量与由合成滤波器和6 kHz-7 kHz带通滤波器滤波得到的在16 kHz上的白噪声的能量进行比较来计算校正增益(在滤波之前,噪声的能量被设为与在12.8 kHz上的激励信号的电平类似的电平)。该增益是原始信号的能量与被一分为二的噪声的能量之比的根。在一个可能的实施例中,将有可能将带通滤波器改变成具有更宽频带(例如,从6 kHz到7.6 kHz)的滤波器。
为了能够应用在23.85 kbit/s上接收到的增益信息(在框407中),重要的是使激励达到与AMR-WB(可兼容的)编码的预期电平类似的电平。从而,框404根据以下方程执行对激励信号的缩放:
<i>i</i> | <i>HP_gain(i)</i> | <i>I</i> | <i>HP_gain(i)</i> |
<i>0</i> | <i>0.110595703125000</i> | <i>8</i> | <i>0.342102050781250</i> |
<i>1</i> | <i>0.142608642578125</i> | <i>9</i> | <i>0.372497558593750</i> |
<i>2</i> | <i>0.170806884765625</i> | <i>10</i> | <i>0.408660888671875</i> |
<i>3</i> | <i>0.197723388671875</i> | <i>11</i> | <i>0.453002929687500</i> |
<i>4</i> | <i>0.226593017578125</i> | <i>12</i> | <i>0.511779785156250</i> |
<i>5</i> | <i>0.255676269531250</i> | <i>13</i> | <i>0.599822998046875f</i> |
<i>6</i> | <i>0.284545898437500</i> | <i>14</i> | <i>0.741241455078125</i> |
<i>7</i> | <i>0.313232421875000</i> | <i>15</i> | <i>0.998779296875000</i> |
表1(在23.85 kbit/s上的增益词典)。
框407根据以下方程执行对激励信号的缩放:
最终,通过以下条件将激励的能量调整为当前子帧的电平(框408)。计算下式:
这里的分子表示将于模式23.05中获得的高频带信号能量。如之前所解释的,对于比特率 < 23.85 kbit/s,有必要保持经解码的激励信号与经扩展的激励信号之间的能量水平,但是此约束在23.85 kbit/s比特率的情况下不是必需的,因为在这种情况下按照增益被缩放。为了避免双重乘法,在框400中应用于信号的某些乘法运算通过乘以而被应用于框402中。的值取决于合成算法并且必须被调整为使得在低频带中的经解码的激励信号与信号之间的能量水平被保持住。
在将于稍后参照图7详细描述的具体实施例中,,其中,是增益,该增益针对信号确保了关于信号的每子帧能量与每帧能量之间的相同比值,并且0.6对应于去加重滤波器从5000 Hz至6400 Hz的平均频率响应幅值。
假设在框408中存在关于低频带信号的倾斜度的信息——在优选实施例中,如根据框103和框104在AMR-WB编解码器中那样计算此倾斜度,但是在不改变本发明的原理的情况下,其他用于估计倾斜度的方法是有可能的。
否则:
将注意的是,在此所描述的对优化缩放因子的计算(尤其是在框401和框402中)通过多个方面与上述在AMR-WB+编解码器中进行的对滤波器电平的量化区分开来:
●在不涉及任何时间滤波的情况下,直接从LPC滤波器的传递函数中计算优化缩放因子。这简化了该方法。
●优选在不同于与低频带相关联的奈奎斯特频率(6400 Hz)的频率上进行量化。实际上,LPC建模隐含地表示对通常由重采样操作导致的信号进行衰减,并且因此LPC滤波器的频率响应可能在奈奎斯特频率上经受降低,此降低并非到所选择的公共频率上。
●这里的量化依赖于除了有待被量化的那2个滤波器之外的一个更低阶的(此处为2阶的)滤波器。此附加滤波器使得有可能避免局部频谱波动(波峰或波谷)的影响,这些影响可能出现在用于计算预测滤波器的频率响应的公共频率上。
对于框403至框408,本发明的优点在于根据本发明在23.85 kbit/s上解码的信号的质量相对于在23.05 kbit/s上解码的信号的质量得到了提高,在AMR-WB解码器中情况并非如此。实际上,本发明的这个方面使得有可能使用在23.85 kbit/s上所接收(0.8 kbit/s)到的附加信息、但是以一种受控的方式(框408)来提高在23.85的比特率上的经扩展的激励信号的质量。
如由图4的框401至框408所展示的用于确定优化缩放因子的装置实现了现在参照图6所描述的用于确定优化缩放因子的方法。
主要步骤由框401实现。
从而,在频带扩展方法E601中获得经扩展的激励信号u HB (n),该方法包括在第一频带(被称作低频带)中对激励信号以及该第一频带的参数(如,例如,第一频带的线性预测滤波器的那些系数)进行解码或提取的步骤。
步骤E602确定阶数低于第一频带的线性预测滤波器的被称为附加滤波器的线性预测滤波器。为了确定此滤波器,使用经解码或经提取的第一频带的这些参数。
在一个实施例中,通过截断低频带的线性预测滤波器的传递函数以获得更低阶的滤波器阶(例如,2阶来执行此步骤)。然后,可以根据如之前参照图4所解释的稳定性标准来修改这些系数。
从由此确定的附加滤波器的这些系数中,实现步骤E603以计算有待被应用于经扩展的激励信号的优化缩放因子。例如,此优化缩放因子是从附加滤波器在低频带(第一频带)与高频带(第二频带)之间的公共频率上的频率响应计算得到的。可以在此滤波器的频率响应与低频带滤波器和高频带滤波器的那些频率响应之间选择最小值。
这因此避免了可能存在于现有技术方法中对能量的高估。
这个计算优化缩放因子的步骤是例如之前参照图4和图5a以及图5b所描述的。
通过框402或框409(根据解码比特率)执行的用于频带扩展的步骤E604将适当计算的优化缩放因子应用于经扩展的扩展信号以便获得优化的经扩展的激励信号u HB '(n)。
在具体实施例中,将用于确定优化缩放因子的装置708合并到现在参照图7所描述的频带扩展装置中。由框708所展示的用于确定优化缩放因子的此装置实现了之前参照图6所描述的用于确定优化缩放因子的方法。
在此实施例中,图4的频带扩展框400包括现在所描述的图7的框700至框707。
将注意的是,在此实施例中,生成过采样的或经扩展的激励是在从5 kHz至8 kHz范围上的频带(因此包括在第一频带(0 kHz-6.4 kHz)之上的第二频带(6.4 kHz-8 kHz))中执行的。
从而,至少在第二频带之上执行并且还在第一频带的一部分之上执行生成经扩展的激励信号。
显然,定义这些频带的值可以根据本发明所应用于其中的解码器或处理装置而不同。
这里应注意的是,在没有加窗(或者,等效地具有帧长度的隐式的长方形窗口)的情况下的变换是有可能的,因为该处理是在激励域而不是信号域中执行的,从而使得没有可听到的伪信号(框效应),这构成了本发明的本实施例的重要优点。
在本实施例中,DCT-IV变换是根据在D.M. 张(D.M. Zhang)、H.T. 李(H.T. Li)的文章《一种低复杂性变换——演进型DCT》(A Low Complexity Transform – Evolved DCT),IEEE第14届计算科学与工程(CSE)国际会议,2011年8月,144-149页中所描述的所谓“演进型DCT(EDCT)”算法通过FFT实现的,并且是在ITU-T标准G.718附件B和G.729.1附件E中实现的。
在本发明的变体中,并且不失一般性地,将能够以具有相同长度且在激励域中的其他短期时间频率变换来替代DCT-IV变换,如FFT(“快速傅里叶变换”)或者DCT-II(“离散 余弦变换”——类型II)。可替代地,将有可能以具有重叠相加并且具有比当前帧的长度更长的长度的窗口的变换来替代帧上的DCT-IV,例如,通过使用MDCT(“经修改的离散余弦变 换”)。在这种情况下,将必须根据由于通过此变换进行的分析/合成所导致的附加延迟来适当地调整(减小)在图3的框310中的延迟T。
其中,优先取start_band = 160。
此外,因为的前200个样本被设为零,框701在0 Hz-5000 Hz频带中执行隐式高通滤波。如稍后所解释的,还通过在5000 Hz-6400 Hz频带中索引为的频谱值的渐进式衰减的一部分来对此高通滤波进行补偿;这种渐进式衰减是在框704中实现的,但可以在框704外部被单独地执行。等效地,并且在本发明的变体中,将因此能够在单个步骤中执行实现在索引为的系数被设为零的多个框中进行的高通滤波、衰减在变换域中的系数。
在本示例性实施例中并且根据的定义,将注意的是,的5000 Hz-6000 Hz频带(其对应于索引)是从的5000 Hz-6000 Hz频带复制过来的。这种方式使得有可能在对HF合成与LF合成进行相加时将原始频谱保持在此频带中并且避免在5000 Hz-6000 Hz频带中引入失真——具体地,在此频带中信号的相(隐含地表示在DCT-IV域中)被保留。
在本发明的一个变体中,将能够使start_band的值围绕160的值为自适应的。在此不对start_band值的自适应细节进行描述,因为它们超出了本发明的框架但是不改变其范围。
对于特定的宽带信号(以16 kHz采样的),高频带(> 6 kHz)可能是有噪音的、调谐的或者包括噪声和谐音的混合物。此外,在6000 Hz-8000 Hz频带中的调谐性水平通常与低频带的调谐性水平相关联。从而,噪声生成框702在频域中执行噪声生成,其中对于的U HBN(k)(80个样本)与第二频带(被称作高频)相对应,以便然后在框703中将此噪声与的频谱进行组合。
在具体实施例中,通过16位的线性同余生成器伪随机地生成噪声(在6000 Hz-8000 Hz频带中):
可以用不同的方式产生组合框703。优先地,考虑以下形式的自适应相加混合:
在优选实施例中,在三个频带中被计算噪声的能量:2000 Hz-4000 Hz、4000 Hz-6000 Hz和6000 Hz-8000 Hz,其中,
其中,
可以注意的是,用于计算噪声能量的其他方法是有可能的,例如通过采取在所考虑的频带上的频谱的中间值或者通过在计算每频带能量之前对每个频率线应用平滑处理。
其中,
在本发明的变体中,计算将能够由其他方法替代。例如,在一个变体中,将有可能提取(计算)表征低频带中的信号的不同参数(或“特征”),包括与在AMR-WB编解码器中所计算的参数相类似的“倾斜度”参数,并且将通过将其值限制在0与1之间从这些不同的参数中根据线性回归来估计因子。例如,将能够通过在学习的基础中互换原始高频带来估计因子以监督的方式来估计线性回归。将注意的是,计算的方式并不限制本发明的性质。
在一个优选实施例中,取值如下
以便在混合后保留经扩展的信号的能量。
在本发明的其他变体中,将有可能取:
因此,在此应注意的是,框703执行图1的框101的等效形式以根据激励将白噪声归一化,在此通过对比,该激励在频域中已经被扩展至16 kHz的速率;此外,该混合被限制在6000 Hz-8000 Hz频带中。
框704可选地在频域中执行应用带通滤波器频率响应以及应用去加重滤波的双重操作。
在本发明的一个变体中,在框705之后(甚至在框700之前),将能够在时域中执行去加重滤波。然而,在这种情况下,在框704中所执行的带通滤波可以留下某些非常低电平的低频成分,这些低频成分通过去加重而被放大,这可以以一种轻微可感知的方式来修改经解码的低频带。出于这种原因,在此优选在频域中执行去加重。在优选实施例中,索引为的这些系数被设为零,因此,去加重被限制在更高阶的系数中。
根据以下方程,首先对激励进行去加重:
其中,
应注意的是,去加重被应用于两个阶段中:针对对应于5000 Hz-6400 Hz频带的,其中,如在12.8 kHz上那样应用响应;以及针对对应于6400Hz-8000 Hz频带的,其中,该响应从这里的16 kHz扩展至在6.4 kHz-8 kHz频带中的常数值。
可以注意的是,在AMR-WB编解码器中,未对HF合成进行去加重。
在这里所呈现的实施例中,相反地,对高频信号进行去加重以便在离开图3的框305之后将其带入与低频信号(0 kHz-6.4 kHz)相一致的域中。这对于对HF合成的能量进行估计以及调整来说是很重要的。
在扩展装置的实施例的另一个变体中,在逆DCT之后将能够在时域中以一种等效的方式执行去加重。
除了去加重,带通滤波与两个单独的部分一起被应用:其一,固定的高通部分;其二,自适应的(比特率的函数)低通部分。
这种滤波是在频域中执行的。
在优选实施例中,在频域中按照下式计算低通滤波器部分响应:
然后,以以下形式应用带通滤波器:
K | ghp(k) | K | ghp(k) | K | ghp(k) | K | ghp(k) |
0 | 0.001622428 | 14 | 0.114057967 | 28 | 0.403990611 | 42 | 0.776551214 |
1 | 0.004717458 | 15 | 0.128865425 | 29 | 0.430149896 | 43 | 0.800503267 |
2 | 0.008410494 | 16 | 0.144662643 | 30 | 0.456722014 | 44 | 0.823611104 |
3 | 0.012747280 | 17 | 0.161445005 | 31 | 0.483628433 | 45 | 0.845788355 |
4 | 0.017772424 | 18 | 0.179202219 | 32 | 0.510787115 | 46 | 0.866951597 |
5 | 0.023528982 | 19 | 0.197918220 | 33 | 0.538112915 | 47 | 0.887020781 |
6 | 0.030058032 | 20 | 0.217571104 | 34 | 0.565518011 | 48 | 0.905919644 |
7 | 0.037398264 | 21 | 0.238133114 | 35 | 0.592912340 | 49 | 0.923576092 |
8 | 0.045585564 | 22 | 0.259570657 | 36 | 0.620204057 | 50 | 0.939922577 |
9 | 0.054652620 | 23 | 0.281844373 | 37 | 0.647300005 | 51 | 0.954896429 |
10 | 0.064628539 | 24 | 0.304909235 | 38 | 0.674106188 | 52 | 0.968440179 |
11 | 0.075538482 | 25 | 0.328714699 | 39 | 0.700528260 | 53 | 0.980501849 |
12 | 0.087403328 | 26 | 0.353204886 | 40 | 0.726472003 | 54 | 0.991035206 |
13 | 0.100239356 | 27 | 0.378318805 | 41 | 0.751843820 | 55 | 1.000000000 |
表2。
还将注意的是,将能够通过定义组合了高通滤波与低通滤波的单个滤波步骤来适配带通滤波。
在另一个实施例中,在逆DCT步骤之后,将能够根据比特率用不同的滤波系数在时域中以等效的方式执行带通滤波(如在图1的框112中那样)。然而,将注意的是,有利的是在频域中直接执行此步骤,因为该滤波是在LPC激励域中执行的,并且因此在此域中循环卷积和边缘效应的问题是非常有限的。
逆变换框705对320个样本执行逆DCT以找到以16 kHz所采样的高频激励。除了变换长度是320而不是256,该逆变换框的实现方式与框700完全一样(因为DCT-IV是归一化正交的),并且得到下式:
然后,可选地按照对80个样本的每子帧所定义的增益来对以16 kHz采样的此激励进行缩放(框707)。
在优选实施例中,首先通过子帧的能量比来计算每子帧增益gHB1(m)(框706),从而使得在当前帧的索引m = 0、1、2或3的每子帧中:
其中,
框707根据以下方程执行对组合信号的缩放:
将注意的是,对框706的实现不同于对图1的框101的实现,因为除了子帧的能量水平还将当前帧的能量水平考虑在内。这使得有可能得到每个子帧能量关于每帧能量之比。因此,对低频带与高频带之间的能量比(或相对能量)而不是绝对能量进行比较。
从而,此缩放步骤使得有可能通过与在低频带中相同的方式在高频带中保持子帧与帧之间的能量比。
根据本发明,如之前参照图6所描述并且在图4和图5中详细描述的,框708然后针对信号的每个子帧执行缩放因子计算(图6的步骤E602至步骤E603)。
在一个变体中,将能够以与针对AMR-WB解码器的图1的框111所描述相同的方式来执行此滤波,但是滤波器的阶数在6.6比特率上变为20阶,这不会显著地改变合成信号的质量。在另一个变体中,在已经计算了在框710中所实现的滤波器的频率响应之后,将有可能在频域中执行LPC合成滤波。
在一个变体实施例中,通过线性滤波器710针对第二频带进行滤波的步骤与应用优化缩放因子的步骤相组合,这使得有可能减小处理复杂度。从而,将滤波步骤与应用优化缩放因子步骤组合到单个滤波步骤中以减小处理复杂度。
在本发明的变体实施例中,对低频带(0 kHz-6.4 kHz)的编码将能够由CELP编码器而不是在AMR-WB中所使用的编码器替代,如,例如,在G.718中在8 kbit/s处的CELP编码器。不失一般性地,可以使用其他宽带编码器或在16 kHz以上的频率上进行操作的编码器,其中,对低频带的编码以在12.8 kHz上的内部频率进行操作。此外,当低频编码器以低于原始信号或重建信号的采样频率进行操作时,本发明可以显著地适应于除12.8 kHz之外的采样频率。当低频带解码不使用线性预测时,不存在有待扩展的激励信号,在这种情况下,将有可能对在当前帧中重建的信号进行LPC分析,并且将计算LPC激励以便能够应用本发明。
最终,在本发明的另一个变体中,在对长度320进行变换(例如,DCT-IV)之前,例如通过在从12.8 kHz至16 kHz上进行线性内插或三次“样条”来对激励()进行重采样。此变体具有更复杂的缺陷,因为激励的变换(DCT-IV)随后是在更长的长度之上计算的并且该重采样不是在变换域中执行的。
在此变体的一个可能实施例中,在提取激励的步骤之前对低频带音频信号进行重采样,从而使得从音频信号(通过线性预测)提取的激励已经被重采样。
在这种情况下,在图7中所展示的频带扩展被应用于未被解码但是已被分析的低频带。
图8表示根据本发明的一种用于确定优化缩放因子的装置800的示例性物理实施例。后者可以形成音频信号解码器的集成部分或者接收经解码或未经解码的音频信号的设备项的集成部分。
这种类型的装置包括与存储器框BM协同操作的处理器PROC,该储存框包括存储设备和/或工作存储器MEM。
这种装置包括输入模块E,该输入模块适用于接收在第一频带(被称作低频带)中解码或提取的激励音频信号(或)以及线性预测合成滤波器()的多个参数。该装置包括输出模块S,该输出模块适用于将合成并经优化的高频信号(uHB'(n))传输至例如类似于图7的框710的滤波模块或者类似于图3的模块311的重采样模块。
存储器框可以有利地包括计算机程序,该计算机程序包括多条代码指令,当这些指令由处理器PROC执行时,这些指令代码在本发明的意义内用于实现用于确定有待应用于激励信号或滤波器的优化缩放因子的方法的这些步骤,以及显著地确定(E602)阶数低于第一频带的被称作附加滤波器的线性预测滤波器的步骤以及至少根据该附加滤波器的这些系数计算(E603)优化缩放因子的步骤,该附加滤波器的这些系数是从自该第一频带中解码或提取出来的那些参数中获得的。
通常,图6的描述重复了这种计算机程序的算法的这些步骤。计算机程序还可以被存储在存储介质上,其可以由装置的读取器进行读取或者可以被下载到其存储空间中。
通常,存储器MEM存储实现该方法所必需的所有数据。
在一个可能的实施例中,除了根据本发明所述的这些优化缩放因子确定功能之外,由此所描述的装置还可以包括将优化缩放因子应用到经扩展的激励信号的功能、频带扩展功能、低频带解码功能以及例如在图3和图4中所描述的其他处理功能。
Claims (9)
1.一种用于在音频信号频带扩展方法中确定有待被应用于激励信号或滤波器的优化的缩放因子的方法,
该方法包括以下步骤:
计算第一频带的线性预测滤波器的频率响应R,
对R值进行平滑处理,以便获得Rsmoothed,所述平滑处理的方法从包括至少两个平滑处理的方法的平滑处理的方法的集合中选择,所述平滑处理的方法是包括多个参数的参数集合的函数,所述多个参数包括频谱斜率的值tilt,
所述方法进一步包括确定优化的缩放因子的步骤,所述确定优化的缩放因子的步骤包括计算
max(min(Rsmoothed, Q),P)/P,
其中P是在第二频带上的线性预测滤波器的频率响应,所述第二频带高于所述第一频带,Q是通过截断所述线性预测滤波器多项式获得的附加滤波器的频率响应。
2.如权利要求1所述的方法,其特征在于,所述平滑处理的方法的集合包括指数平滑处理,其具有时间上的固定因子。
3.如权利要求2所述的方法,其特征在于,所述指数平滑处理是以下类型:
Rsmoothed = 0.5 Rprecomputed + 0.5 Rprev,
其中Rprev对应于Rsmoothed在过去的子帧中的值,Rprecomputed对应于R在计算频带的线性预测滤波器的频率响应R的步骤期间所计算的值。
4.如权利要求1所述的方法,其特征在于,所述平滑处理的方法的集合包括时间上自适应的平滑处理的方法。
5.如权利要求4所述的方法,其特征在于,R值越小,所述平滑处理越强。
6.如权利要求4或5所述的方法,其特征在于,所述自适应平滑处理的形式是:
Rsmoothed= (1-α)Rprecomputed + α.Rprev, 其中 α = 1-Rprecomputed^2,
其中Rprev对应于Rsmoothed在过去的子帧中的值,Rprecomputed对应于R在计算频带的线性预测滤波器的频率响应R的步骤期间所计算的值。
9.一种用于在音频信号频带扩展装置中确定有待被应用于激励信号或滤波器的优化缩放因子的装置,
所述装置包括:
用于计算第一频带的线性预测滤波器的频率响应R的处理器,
适配来对R值进行平滑处理,以便获得Rsmoothed的平滑处理块,所述平滑处理的方法从至少两个平滑处理的方法的集合中选择,所述平滑处理的方法基于包括频谱斜率的值tilt的多个参数的集合,
所述装置被配置用于使用以下计算确定所述优化的缩放因子:
max(min(Rsmoothed, Q),P)/P,
其中P是在第二频带上的线性预测滤波器的频率响应,所述第二频带高于所述第一频带,Q是通过截断所述线性预测滤波器多项式获得的附加滤波器的频率响应。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1356909 | 2013-07-12 | ||
FR1356909A FR3008533A1 (fr) | 2013-07-12 | 2013-07-12 | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
CN201480039594.5A CN105378837B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480039594.5A Division CN105378837B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107527628A CN107527628A (zh) | 2017-12-29 |
CN107527628B true CN107527628B (zh) | 2021-03-30 |
Family
ID=49753286
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710730367.2A Active CN107492385B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
CN201710730366.8A Active CN107527629B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
CN201710729750.6A Active CN107527628B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
CN201480039594.5A Active CN105378837B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710730367.2A Active CN107492385B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
CN201710730366.8A Active CN107527629B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480039594.5A Active CN105378837B (zh) | 2013-07-12 | 2014-07-04 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
Country Status (11)
Country | Link |
---|---|
US (8) | US10446163B2 (zh) |
EP (1) | EP3020043B1 (zh) |
JP (4) | JP6487429B2 (zh) |
KR (4) | KR102423081B1 (zh) |
CN (4) | CN107492385B (zh) |
BR (4) | BR122017018556B1 (zh) |
CA (4) | CA2917795C (zh) |
FR (1) | FR3008533A1 (zh) |
MX (1) | MX354394B (zh) |
RU (4) | RU2668058C2 (zh) |
WO (1) | WO2015004373A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
CN105976830B (zh) * | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
TWI557726B (zh) * | 2013-08-29 | 2016-11-11 | 杜比國際公司 | 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法 |
US20160323425A1 (en) * | 2015-04-29 | 2016-11-03 | Qualcomm Incorporated | Enhanced voice services (evs) in 3gpp2 network |
US9830921B2 (en) * | 2015-08-17 | 2017-11-28 | Qualcomm Incorporated | High-band target signal control |
US10825467B2 (en) * | 2017-04-21 | 2020-11-03 | Qualcomm Incorporated | Non-harmonic speech detection and bandwidth extension in a multi-source environment |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
US10681486B2 (en) * | 2017-10-18 | 2020-06-09 | Htc Corporation | Method, electronic device and recording medium for obtaining Hi-Res audio transfer information |
TWI834582B (zh) * | 2018-01-26 | 2024-03-01 | 瑞典商都比國際公司 | 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體 |
CN110660409A (zh) * | 2018-06-29 | 2020-01-07 | 华为技术有限公司 | 一种扩频的方法及装置 |
JP2022527111A (ja) * | 2019-04-03 | 2022-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | スケーラブル音声シーンメディアサーバ |
CN115136236A (zh) * | 2020-02-25 | 2022-09-30 | 索尼集团公司 | 信号处理装置、信号处理方法和程序 |
RU2747368C1 (ru) * | 2020-07-13 | 2021-05-04 | федеральное государственное казенное военное образовательное учреждение высшего образования "Военная академия связи имени Маршала Советского Союза С.М. Буденного" Министерства обороны Российской Федерации | Способ мониторинга и управления информационной безопасностью подвижной сети связи |
CN114333856A (zh) * | 2021-12-24 | 2022-04-12 | 南京西觉硕信息科技有限公司 | 给定线性预测系数时后半帧语音信号的求解方法、装置及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060277039A1 (en) * | 2005-04-22 | 2006-12-07 | Vos Koen B | Systems, methods, and apparatus for gain factor smoothing |
US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
CN101281748A (zh) * | 2008-05-14 | 2008-10-08 | 武汉大学 | 用编码索引实现的空缺子带填充方法及编码索引生成方法 |
CN101385079A (zh) * | 2006-02-14 | 2009-03-11 | 法国电信公司 | 在音频编码/解码中用于知觉加权的设备 |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
CN101556800A (zh) * | 2003-10-23 | 2009-10-14 | 松下电器产业株式会社 | 频谱编码装置、频谱解码装置、声音信号发送装置、声音信号接收装置及其使用方法 |
US20110099004A1 (en) * | 2009-10-23 | 2011-04-28 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
WO2011148230A1 (en) * | 2010-05-25 | 2011-12-01 | Nokia Corporation | A bandwidth extender |
CN102708868A (zh) * | 2006-01-20 | 2012-10-03 | 微软公司 | 使用扩展带频率编码的复变换信道编码 |
CN102934163A (zh) * | 2010-06-01 | 2013-02-13 | 高通股份有限公司 | 用于宽带语音编码的系统、方法、设备和计算机程序产品 |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69232202T2 (de) * | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
SE502244C2 (sv) * | 1993-06-11 | 1995-09-25 | Ericsson Telefon Ab L M | Sätt och anordning för avkodning av ljudsignaler i ett system för mobilradiokommunikation |
JP3189614B2 (ja) * | 1995-03-13 | 2001-07-16 | 松下電器産業株式会社 | 音声帯域拡大装置 |
US6002352A (en) * | 1997-06-24 | 1999-12-14 | International Business Machines Corporation | Method of sampling, downconverting, and digitizing a bandpass signal using a digital predictive coder |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
JP4792613B2 (ja) * | 1999-09-29 | 2011-10-12 | ソニー株式会社 | 情報処理装置および方法、並びに記録媒体 |
FI119576B (fi) * | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
US6889182B2 (en) * | 2001-01-12 | 2005-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Speech bandwidth extension |
AUPR433901A0 (en) * | 2001-04-10 | 2001-05-17 | Lake Technology Limited | High frequency signal construction method |
US6732071B2 (en) * | 2001-09-27 | 2004-05-04 | Intel Corporation | Method, apparatus, and system for efficient rate control in audio encoding |
US7353168B2 (en) * | 2001-10-03 | 2008-04-01 | Broadcom Corporation | Method and apparatus to eliminate discontinuities in adaptively filtered signals |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
WO2003038812A1 (en) * | 2001-11-02 | 2003-05-08 | Matsushita Electric Industrial Co., Ltd. | Audio encoding and decoding device |
AU2003281128A1 (en) * | 2002-07-16 | 2004-02-02 | Koninklijke Philips Electronics N.V. | Audio coding |
JP4676140B2 (ja) * | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
DE602004030594D1 (de) * | 2003-10-07 | 2011-01-27 | Panasonic Corp | Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
EP1914722B1 (en) * | 2004-03-01 | 2009-04-29 | Dolby Laboratories Licensing Corporation | Multichannel audio decoding |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
WO2006103488A1 (en) * | 2005-03-30 | 2006-10-05 | Nokia Corporation | Source coding and/or decoding |
AU2006232364B2 (en) * | 2005-04-01 | 2010-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband speech coding |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
US8032371B2 (en) * | 2006-07-28 | 2011-10-04 | Apple Inc. | Determining scale factor values in encoding audio data with AAC |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
US9454974B2 (en) * | 2006-07-31 | 2016-09-27 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor limiting |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
KR101565919B1 (ko) | 2006-11-17 | 2015-11-05 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 방법 및 장치 |
KR100905585B1 (ko) * | 2007-03-02 | 2009-07-02 | 삼성전자주식회사 | 음성신호의 대역폭 확장 제어 방법 및 장치 |
US8392198B1 (en) * | 2007-04-03 | 2013-03-05 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Split-band speech compression based on loudness estimation |
RU2439721C2 (ru) * | 2007-06-11 | 2012-01-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал |
KR101373004B1 (ko) * | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CA2729752C (en) * | 2008-07-10 | 2018-06-05 | Voiceage Corporation | Multi-reference lpc filter quantization and inverse quantization device and method |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
US8571231B2 (en) * | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
KR101411759B1 (ko) * | 2009-10-20 | 2014-06-25 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법 |
CA2683983A1 (en) | 2009-10-21 | 2011-04-21 | Carbon Solutions Inc. | Stabilization and remote recovery of acid gas fractions from sour wellsite gas |
CN102044250B (zh) * | 2009-10-23 | 2012-06-27 | 华为技术有限公司 | 频带扩展方法及装置 |
US8380524B2 (en) * | 2009-11-26 | 2013-02-19 | Research In Motion Limited | Rate-distortion optimization for advanced audio coding |
US8455888B2 (en) * | 2010-05-20 | 2013-06-04 | Industrial Technology Research Institute | Light emitting diode module, and light emitting diode lamp |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
CN103035248B (zh) * | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
EP3089164A1 (en) * | 2011-11-02 | 2016-11-02 | Telefonaktiebolaget LM Ericsson (publ) | Generation of a high band extension of a bandwidth extended audio signal |
EP2774148B1 (en) * | 2011-11-03 | 2014-12-24 | Telefonaktiebolaget LM Ericsson (PUBL) | Bandwidth extension of audio signals |
US8909539B2 (en) * | 2011-12-07 | 2014-12-09 | Gwangju Institute Of Science And Technology | Method and device for extending bandwidth of speech signal |
CN102930872A (zh) * | 2012-11-05 | 2013-02-13 | 深圳广晟信源技术有限公司 | 用于宽带语音解码中基音增强后处理的方法及装置 |
ES2924427T3 (es) * | 2013-01-29 | 2022-10-06 | Fraunhofer Ges Forschung | Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
CN104517611B (zh) * | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
US10163447B2 (en) * | 2013-12-16 | 2018-12-25 | Qualcomm Incorporated | High-band signal modeling |
US9542955B2 (en) * | 2014-03-31 | 2017-01-10 | Qualcomm Incorporated | High-band signal coding using multiple sub-bands |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
JP2017145792A (ja) | 2016-02-19 | 2017-08-24 | 株式会社ケーヒン | インテークマニホールドにおけるセンサ取付構造 |
RU2636700C1 (ru) * | 2016-03-18 | 2017-11-27 | Акционерное общество "Лаборатория Касперского" | Способ устранения уязвимостей устройств, имеющих выход в Интернет |
TWI596952B (zh) * | 2016-03-21 | 2017-08-21 | 固昌通訊股份有限公司 | 耳道式耳機 |
-
2013
- 2013-07-12 FR FR1356909A patent/FR3008533A1/fr active Pending
-
2014
- 2014-07-04 BR BR122017018556-0A patent/BR122017018556B1/pt active IP Right Grant
- 2014-07-04 CA CA2917795A patent/CA2917795C/en active Active
- 2014-07-04 CA CA3108924A patent/CA3108924A1/en active Pending
- 2014-07-04 CN CN201710730367.2A patent/CN107492385B/zh active Active
- 2014-07-04 JP JP2016524867A patent/JP6487429B2/ja active Active
- 2014-07-04 CN CN201710730366.8A patent/CN107527629B/zh active Active
- 2014-07-04 CA CA3108921A patent/CA3108921C/en active Active
- 2014-07-04 RU RU2016104466A patent/RU2668058C2/ru active
- 2014-07-04 BR BR122017018553-5A patent/BR122017018553B1/pt active IP Right Grant
- 2014-07-04 MX MX2016000255A patent/MX354394B/es active IP Right Grant
- 2014-07-04 KR KR1020177024526A patent/KR102423081B1/ko active IP Right Grant
- 2014-07-04 WO PCT/FR2014/051720 patent/WO2015004373A1/fr active Application Filing
- 2014-07-04 CN CN201710729750.6A patent/CN107527628B/zh active Active
- 2014-07-04 CA CA3109028A patent/CA3109028C/en active Active
- 2014-07-04 BR BR122017018557-8A patent/BR122017018557B1/pt active IP Right Grant
- 2014-07-04 BR BR112016000337-3A patent/BR112016000337B1/pt active IP Right Grant
- 2014-07-04 RU RU2017144519A patent/RU2756434C2/ru active
- 2014-07-04 KR KR1020177024532A patent/KR102343019B1/ko active IP Right Grant
- 2014-07-04 RU RU2017144515A patent/RU2756435C2/ru active
- 2014-07-04 CN CN201480039594.5A patent/CN105378837B/zh active Active
- 2014-07-04 RU RU2017144518A patent/RU2751104C2/ru active
- 2014-07-04 KR KR1020167003307A patent/KR102315639B1/ko active IP Right Grant
- 2014-07-04 KR KR1020177024524A patent/KR102319881B1/ko active IP Right Grant
- 2014-07-04 EP EP14749907.3A patent/EP3020043B1/fr active Active
- 2014-07-04 US US14/904,555 patent/US10446163B2/en active Active
-
2017
- 2017-07-27 JP JP2017145792A patent/JP6515147B2/ja active Active
- 2017-09-13 JP JP2017175593A patent/JP6515158B2/ja active Active
- 2017-09-13 JP JP2017175592A patent/JP6515157B2/ja active Active
- 2017-09-26 US US15/715,733 patent/US10438599B2/en active Active
- 2017-09-26 US US15/715,819 patent/US10438600B2/en active Active
- 2017-09-26 US US15/715,785 patent/US10354664B2/en active Active
-
2019
- 2019-08-16 US US16/542,440 patent/US10943593B2/en active Active
- 2019-08-21 US US16/546,898 patent/US10943594B2/en active Active
- 2019-08-28 US US16/553,595 patent/US10672412B2/en active Active
- 2019-08-30 US US16/556,332 patent/US10783895B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101556800A (zh) * | 2003-10-23 | 2009-10-14 | 松下电器产业株式会社 | 频谱编码装置、频谱解码装置、声音信号发送装置、声音信号接收装置及其使用方法 |
US20060277039A1 (en) * | 2005-04-22 | 2006-12-07 | Vos Koen B | Systems, methods, and apparatus for gain factor smoothing |
CN102708868A (zh) * | 2006-01-20 | 2012-10-03 | 微软公司 | 使用扩展带频率编码的复变换信道编码 |
CN101385079A (zh) * | 2006-02-14 | 2009-03-11 | 法国电信公司 | 在音频编码/解码中用于知觉加权的设备 |
US20080004883A1 (en) * | 2006-06-30 | 2008-01-03 | Nokia Corporation | Scalable audio coding |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
CN101281748A (zh) * | 2008-05-14 | 2008-10-08 | 武汉大学 | 用编码索引实现的空缺子带填充方法及编码索引生成方法 |
US20110099004A1 (en) * | 2009-10-23 | 2011-04-28 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
WO2011148230A1 (en) * | 2010-05-25 | 2011-12-01 | Nokia Corporation | A bandwidth extender |
CN102934163A (zh) * | 2010-06-01 | 2013-02-13 | 高通股份有限公司 | 用于宽带语音编码的系统、方法、设备和计算机程序产品 |
Non-Patent Citations (4)
Title |
---|
AMR-WB+语音编解码技术的优化与实现;邵鹏;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20130401;全文 * |
Bandwidth Extension of Audio Based on Partial Loudness;Visar Berisha;《IEEE Workshop on Multimedia Signal Processing 2006》;20061130;全文 * |
BANDWIDTH EXTENSION OF AUDIO SIGNALS BY SPECTRAL BAND REPLICATION;Per Ekstrand;《Proc.1st IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002)》;20021115;全文 * |
The Adaptive Multirate Wideband speech codec (AMR-WB);Redwan Salami et al;《IEEE Transactions on Speech and Audio Processing》;20021130;第10卷(第8期);全文 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107527628B (zh) | 用于在音频信号解码器中进行频带扩展的优化缩放因子 | |
CN108109632B (zh) | 用于扩展音频信号的频带的方法和装置以及音频信号解码器 | |
US9911432B2 (en) | Frequency band extension in an audio signal decoder | |
JP2016528539A5 (zh) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |