CN110223704B - 对音频信号的频谱执行噪声填充的装置 - Google Patents
对音频信号的频谱执行噪声填充的装置 Download PDFInfo
- Publication number
- CN110223704B CN110223704B CN201910420349.3A CN201910420349A CN110223704B CN 110223704 B CN110223704 B CN 110223704B CN 201910420349 A CN201910420349 A CN 201910420349A CN 110223704 B CN110223704 B CN 110223704B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- noise
- spectral
- audio signal
- spectrally
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 293
- 230000005236 sound signal Effects 0.000 title claims abstract description 147
- 230000003595 spectral effect Effects 0.000 claims description 306
- 238000007493 shaping process Methods 0.000 claims description 51
- 238000000034 method Methods 0.000 claims description 47
- 238000013139 quantization Methods 0.000 claims description 43
- 230000001419 dependent effect Effects 0.000 claims description 39
- 230000002123 temporal effect Effects 0.000 claims description 19
- 230000011664 signaling Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007423 decrease Effects 0.000 claims description 11
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 169
- 239000011295 pitch Substances 0.000 description 63
- 239000000945 filler Substances 0.000 description 45
- 230000007704 transition Effects 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 9
- 230000000873 masking effect Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001747 exhibiting effect Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 229940035637 spectrum-4 Drugs 0.000 description 2
- 241000669244 Unaspis euonymi Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012885 constant function Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Noise Elimination (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Stereophonic System (AREA)
Abstract
本申请公开了一种对音频信号的频谱执行噪声填充的装置,藉由以相依于一音频信号的一音调的一方式来执行该音频信号的一频谱的噪声填充,关于该噪声填充式频谱而在质量上改良该噪声填充,使得该噪声填充式音频信号的重现较不烦人。
Description
本申请是申请日为2014年1月28日、申请号为201480006656.2、发明名称为“噪声填充技术”的分案申请,其全部内容结合于此作为参考。
技术领域
本申请涉及音频编码(audio coding),且尤其涉及结合音频编码的噪声填充。
背景技术
在转换编码中,常常认识到(对照[1]、[2]、[3]),将频谱的部分量化至零会导致感知降级。量化至零的该部分被称作频谱洞(spectrum hole)。[1]、[2]、[3]及[4]中呈现的针对此问题的解决方案是用噪声来替换零量化谱线。有时,在低于某一频率的情况下避免噪声的插入。用于噪声填充的开始频率是固定的,但在已知先前技术之间是不同的。
有时,使用频域噪声整形(Frequency Domain Noise Shaping,FDNS)以用于整形频谱(包括插入的噪声)且用于控制量化噪声,如在USAC中(对照[4])。使用LPC滤波器的量值响应来执行FDNS。使用经预强调输入信号来计算LPC滤波器系数。
在[1]中注意到,在音调分量的紧接邻域中添加噪声会导致降级,且因此,正如在[5]中,用噪声来仅填充长系列零,以避免注入的周围噪声将非零量化值隐蔽。
在[3]中注意到,存在噪声填充的粒度与所需旁侧信息的大小之间的折衷的问题。在[1]、[2]、[3]及[5]中,传输每完整频谱一个噪声填充参数。如在[2]中使用LPC或如在[3]中使用比例因子,来频谱地整形插入的噪声。[3]中描述如何针对整个频谱,使比例因子适应于具有一个噪声填充水平的噪声填充。在[3]中,修改用于完全地量化至零的频带的比例因子,以避免频谱洞且具有正确噪声水平。
即使[1]及[5]中的解决方案因其建议不填充小频谱洞,而避免音调分量的降级,仍需要进一步改良使用噪声填充而编码的音频信号的质量,尤其是在极低比特率下。
发明内容
本发明的目标在于提供一种用于具有改良特性的噪声填充的概念。
此目标藉由同此附入的独立权利要求的主题而达成,其中本申请的有利方面为从属权利要求的主题。
本申请的一基本发现为:藉由以相依于一音频信号的一音调的一方式来执行该音频信号的一频谱的噪声填充,可关于该噪声填充式频谱而在质量上改良该噪声填充,使得该噪声填充式音频信号的重现较不烦人。
根据本申请的一实施例,藉由使用一函数而频谱上整形的噪声来填充该音频信号的频谱的一相连频谱零部分,该函数在该相连频谱零部分的一内部中采取一最大值,且具有向外下降边缘,该向外下降边缘的一绝对斜率负相依于该音调,亦即,该斜率随着音调递增而递减。另外或替代地,用于填充的该函数在该相连频谱零部分的一内部中采取一最大值,且具有向外下降边缘,该向外下降边缘的一频谱宽度正相依于该音调,亦即,该频谱宽度随着音调递增而递增。更进一步,另外或替代地,可将一常数或单峰函数用于填充,该常数或单峰函数对该相连频谱零部分的外部四等份(outer quarter)的一积分——标准化为1的一积分——负相依于该音调,亦即,该积分随着音调递增而递减。藉由所有措施,噪声填充倾向于对于该音频信号的音调部分较不有害,然而,在频谱洞的缩减方面,对于该音频信号的非音调部分仍然有效。换言之,无论何时该音频信号具有一音调内容,填充至该音频信号的频谱中的该噪声皆离开通过保持与其相隔足够距离而未受到影响的该频谱的音调峰,然而,其中仍然藉由该噪声填充来满足具有作为非音调的音频内容的该音频信号的时间相位的非音调特性。
根据本申请的一实施例,识别该音频信号的频谱的相连频谱零部分,且用藉由函数而频谱上整形的噪声来填充所识别的零部分,使得对于每一相连频谱零部分,相依于一相应的相连频谱零部分的宽度及该音频信号的一音调来设定相应的函数。出于实施简易起见,可藉由在函数的一查找表中的一查找来达成该相依性,或可相依于该相连频谱零部分的宽度及该音频信号的该音调而使用一数学公式来以分析方式计算函数。在任何状况下,相比于由该相依性引起的优势,用于实现该相依性的努力相对微小。具体地,该相依性可使得:相依于该相连频谱零部分的宽度来设定该各自函数,使得该函数限于该各自相连频谱零部分;及相依于该音频信号的该音调来设定该各自函数,使得对于该音频信号的一较高音调,一函数的群体(mass)在该各自相连频谱零部分的该内部中变得更紧凑,且远离于该各自相连频谱零部分的边缘。
根据一另外实施例,通常使用一频谱上全局噪声填充水平来按比例调整经频谱上整形且填充至相连频谱零部分中的该噪声。具体地,按比例调整该噪声,使得在相连频谱零部分中对该噪声的一积分或对相连频谱零部分的函数的一积分相当于(例如,等于)一全局噪声填充水平。有利地,无论如何皆在现有音频编码译码器内编码一全局噪声填充水平,使得不必针对这种音频编码译码器提供额外语法。亦即,可以以少量努力明确地在该音频信号被编码至的数据流中传信该全局噪声填充水平。实际上,可按比例调整供频谱上整形该相连频谱零部分的噪声所使用的函数,使得对填充所有相连频谱零部分所使用的该噪声的一积分对应于该全局噪声填充水平。
根据本申请的一实施例,该音调自一编码参数导出,该音频信号使用该编码参数予以编码。藉由此措施,无需在一现有音频编码译码器内传输额外信息。根据具体实施例,该编码参数为一长期预测(Long-Term Prediction,LTP)旗标或增益、一时间噪声整形(Temporal Noise Shaping,TNS)启用旗标或增益,及/或一频谱重新配置启用旗标(spectrum rearrangement enablement flag)。
根据一另外实施例,该噪声填充的执行限于一高频频谱部分上,其中对应于一数据流中的一明确传信来设定该高频频谱部分的一低频开始位置,且将该音频信号编码至该数据流。藉由此措施,执行该噪声填充的该高频频谱部分的下限的一信号自适应性设定是可行的。藉由此措施,又可增加由该噪声填充引起的该音频质量。又由该明确传信造成的所必要的额外旁侧信息比较小。
根据本申请的一另外实施例,装置被配置为使用一频谱低通滤波器来执行该噪声填充,以便抵消由用以编码该音频信号的频谱的一预强调造成的一频谱倾斜。藉由此措施,更进一步增加该噪声填充质量,这是因为进一步缩减剩余频谱洞的深度。更一般而言,除了在频谱洞内相依于音调频谱上整形该噪声以外,亦可藉由运用一频谱上全局倾斜而非以一频谱上平坦方式来执行感知转换音频编码译码器中的噪声填充而改良该噪声填充。举例来说,该频谱上全局倾斜可具有一负斜率,亦即,展现自低频至高频的一递减,以便至少部分地反转由使噪声填充式频谱经受频谱感知加权函数造成的频谱倾斜。一正斜率亦可为可想象的,例如,在该经编码频谱展现一类似高通特性的状况下。具体地,频谱感知加权函数通常倾向于展现自低频至高频率的一递增。因此,以一频谱上平坦方式填充至感知转换音频编码器的频谱中的噪声将在经最终重新建构的频谱中以一倾斜噪声底限而终结。然而,本申请的发明者已认识到,最终重新建构的频谱中的该倾斜负面地影响音频质量,这是因为其导致在该频谱的噪声填充式部分中保留有频谱洞。因此,运用一频谱上全局倾斜来插入该噪声以使得噪声水平自低频至高频递减,会使用该频谱感知加权函数来至少部分地补偿由该噪声填充式频谱的后续整形造成的此频谱倾斜,藉此改良该音频质量。相依于情况,一正斜率可较佳,例如,在某些类似高通频谱上。
根据一实施例,该频谱上全局倾斜的该斜率响应于该频谱被编码至的数据流中的一传信而变化。该传信可(例如)明确地传信陡度,且可在编码侧处适应于由该频谱感知加权函数造成的频谱倾斜的量。举例来说,由该频谱感知加权函数造成的频谱倾斜的量可源于在对音频信号应用LPC分析之前该音频信号所经受的一预强调。
该噪声填充可用于音频编码及/或音频译码侧处。当用于该音频编码侧处时,可出于合成式分析目的而使用该噪声填充式频谱。
根据一实施例,一编码器藉由考虑该音调相依性来判定该全局噪声比例水平。
附图说明
下文关于附图来描述本申请的优选实施例,在附图中:
图1出于说明目的而以时间对准方式相继地自顶部至底部示出了音频信号中的时间片段、使用示意性指示的、频谱能量的「灰阶」频谱时间变化的频谱图,及音频信号的音调;
图2示出根据一实施例的噪声填充装置的方块图;
图3示出根据一实施例的将经受噪声填充的频谱及用以频谱上整形噪声的函数的示意图,该噪声用以填充此频谱的相连频谱零部分;
图4示出根据一另外实施例的将经受噪声填充的频谱及用以频谱上整形噪声的函数的示意图,该噪声用以填充此频谱的相连频谱零部分;
图5示出根据再一实施例的将经受噪声填充的频谱及用以频谱上整形噪声的函数的示意图,该噪声用以填充此频谱的相连频谱零部分;
图6示出根据一实施例的图2的噪声填充器的方块图;
图7示意性地示出根据一实施例的所判定的音频信号的音调(一方面)与可用于频谱上整形相连频谱零部分的可能函数(另一方面)之间的可能关系;
图8示意性地示出根据一实施例的待噪声填充的频谱,其中另外示出用以频谱上整形用于填充该频谱的相连频谱零部分的噪声的函数,以便说明如何按比例调整该噪声的水平;
图9示出可在采用关于图1至图8所描述的噪声填充概念的音频编码译码器内使用的编码器的方块图;
图10示意性地示出根据一实施例的如由图9的编码器编码的待噪声填充的量化频谱,连同传输的旁侧信息(side information,辅助信息,补充信息),即,比例因子及全局噪声水平;
图11示出配合于图9的编码器且包括根据图2的噪声填充装置的译码器的方块图;
图12示出根据图9的编码器及图11的译码器的实施的变形例的具有关联的旁侧信息数据的频谱图的示意图;
图13示出根据一实施例的可包括于使用图1至图8的噪声填充概念的音频编码译码器中的线性预测转换音频编码器;
图14示出配合于图13的编码器的译码器的方块图;
图15示出来自待噪声填充的频谱的片段的实例;
图16示出根据一实施例的一函数的具体实例,该函数用于整形填充至待噪声填充的频谱的某一相连频谱零部分中的噪声;
图17A至图17D示出函数的各种实例,函数用于针对不同音调所使用的不同零部分宽度及不同过渡宽度,而在频谱上整形填充至相连频谱零部分中的噪声;以及
图18A示出根据一实施例的感知转换音频编码器的方块图;
图18B示出根据一实施例的感知转换音频译码器的方块图;
图18C示出根据一实施例的说明实现引入至所填充的噪声中的频谱上全局倾斜的可能方式的示意图。
无论在图的以下描述中何处,皆将相同参考记号用于这些图所示出的组件,关于一个图中的一个组件所提出的描述应被解译为可转移至另一图中已使用相同参考记号而引用的组件上。藉由此措施,尽可能地避免延伸性且重复性的描述,藉此使各种实施例的描述集中于彼此间的差异,而非自开头起一次又一次地重新描述所有实施例。
具体实施方式
以下描述首先开始于用于对音频信号的频谱执行噪声填充的装置的实施例。其次,针对各种音频编码译码器呈现不同实施例(其中此噪声填充可为内建式),连同可结合所呈现的各自音频编码译码器而应用的细节。注意到,在任何状况下,可在译码侧处执行接下来所描述的噪声填充。然而,相依于编码器,亦可在编码侧处执行如接下来所描述的噪声填充,诸如,出于合成式分析原因。下文亦描述一中间状况,根据该中间状况,根据下文所概述的实施例的噪声填充的经修改方式仅仅部分地改变编码器工作的方式,诸如,以便判定频谱上全局噪声填充水平。
图1出于说明目的而示出音频信号10,亦即,其音频样本的时间进程,例如,音频信号的时间对准频谱图12,其已自音频信号10导出,该导出至少尤其经由诸如在14处说明的搭接转换的合适转换,该搭接转换针对两个连续转换窗16及关联频谱18来例示,其因此表示(例如)在对应于关联转换窗16的中间的时间例项时来自频谱图12的切片。下文进一步呈现频谱图12及如何导出频谱图12的实例。在任何状况下,频谱图12已经受某一种类的量化,且因此具有零部分,其中频谱图12被频谱时间上取样时的频谱值相连地为零。搭接转换14可(例如)为诸如MDCT的临界取样转换。转换窗16可具有相互50%的重叠,但不同实施例亦可行的。另外,频谱图12被取样至频谱值中时的频谱时间分辨率可在时间上变化。换言之,频谱图12的连续频谱18之间的时间距离可在时间上变化,且其适用于每一频谱18的频谱分辨率。具体地,就连续频谱18之间的时间距离而言,时间变化可与频谱的频谱分辨率的变化相反。举例来说,量化使用频谱上变化的信号自适应性量化步长,其(例如)根据音频信号的LPC频谱包络而变化,LPC频谱包络藉由在具有待噪声填充的频谱18的频谱图12的量化频谱值被编码至的数据流中传信的LP系数而描述,或根据又根据心理声学模型所判定且在该数据流中传信的比例因子而变化。
除此之外,以时间对准方式,图1示出音频信号10的特性及其时间变化,即,该音频信号的音调。一般而言,「音调」指示描述音频信号的能量在某一时间点时在与彼时间点相关联的各自频谱18中的集中程度的度量。若能量散布得多,诸如,在音频信号10的噪声时间相位中,则音调低。但,若能量实质上集中至一或多个频谱峰,则音调高。
图2示出根据本发明的一实施例的被配置为对音频信号的频谱执行噪声填充的装置。如下文将更详细地所描述,该装置被配置为相依于音频信号的音调来执行噪声填充。
图2的装置使用参考记号30予以大体上指示,且包含噪声填充器32及音调判定器34,音调判定器34是可选的。
实际噪声填充由噪声填充器32执行。噪声填充器32接收将被应用噪声填充的频谱。此频谱在图2中被说明为稀疏频谱34。稀疏频谱34可为来自频谱图12中的频谱18。频谱18循序地进入噪声填充器32。噪声填充器32使频谱34经受噪声填充且输出“填充式频谱”36。噪声填充器32相依于音频信号的音调(诸如,图1中的音调20)来执行噪声填充。相依于情况,可能不会直接地可得到音调。举例来说,现有音频编码译码器不在数据流中提供音频信号的音调的明确传信,使得若装置30安装于译码侧处,则将不可行的是在无高度错误估计的情况下重新建构该音调。举例来说,归因于频谱34的稀疏性及/或由于其信号自适应性变化量化,频谱34可并非用于音调估计的最佳基础。
因此,音调判定器34的任务在于基于另一音调提示38而向噪声填充器32提供音调的估计,如下文将更详细地所描述。根据稍后所描述的实施例,藉由在使用(例如)装置30的音频编码译码器的数据流内传送的各自编码参数,无论如何皆可在编码侧及译码侧处可得到音调提示38。
图3示出量化至零的稀疏频谱34(亦即,具有由频谱34的数个系列频谱上相邻频谱值组成的相连部分40及42的量化频谱)的实例。相连部分40及42因此频谱上不相接,或经由频谱34中的至少一未量化至零的频谱线而彼此远离。
可如下实施上文关于图2大体上所描述的噪声填充的音调相依性。图3示出在46处夸示的包括相连频谱零部分40的时间部分44。噪声填充器32被配置为以相依于在频谱34所属的时间时的音频信号的音调的方式,来填充此相连频谱零部分40。具体地,噪声填充器32藉由使用一函数而频谱上整形的噪声来填充相连频谱零部分,该函数在相连频谱零部分的内部中采取最大值,且具有向外下降边缘,向外下降边缘的绝对斜率负相依于音调。图3针对两个不同音调例示性地示出两个函数48。两个函数皆为“单峰”,亦即,在相连频谱零部分40的内部中采取绝对最大值,且具有可为平线区或单一频谱频率的仅仅一个局部最大值。此处,局部最大值由函数48及50遍及零部分40的中心中配置的延伸区间52(亦即,平线区)连续地采取。函数48及50域为零部分40。中心区间52仅仅覆盖零部分40的中心部分,且由在区间52的较高频率侧处的边缘部分54及在区间52的较低频率侧处的较低频率边缘部分56侧接。在边缘部分54内,函数48及52具有下降边缘58,且在边缘部分56内,函数48及52具有上升边缘60。绝对斜率可分别归因于每一边缘58及60,诸如,分别在边缘部分54及56内的平均斜率。亦即,归因于下降边缘58的斜率可为各自函数48及52在边缘部分54内的各自的平均斜率,且归因于上升边缘60的斜率可为函数48及52在边缘部分56内的各自的平均斜率。
可看出,边缘58及60的斜率的绝对值针对函数50相比于针对函数48较高。针对较低的音调,噪声填充器32选择运用函数50来填充零部分40,针对较高的音调,噪声填充器32选择使用函数48以用于填充零部分40。藉由此措施,噪声填充器32避免群集频谱34的潜在音调频谱峰(诸如,峰62)的紧接周边。边缘58及60的绝对斜率愈小,则填充至零部分40中的噪声与环绕零部分40的频谱34的非零部分相隔得愈远。
噪声填充器32可(例如)在音频信号的音调为τ2的状况下决定选择函数48,且在音频信号的音调为τ1的状况下决定选择函数50,但下文进一步所提出的描述将揭露出噪声填充器32可鉴别音频信号的音调的两个以上不同状态,亦即,可支持用于填充某一相连频谱零部分的两个以上不同函数48、50,且经由自音调至函数的满射映像而相依于音调在这些函数之间进行选择。
作为微小批注,注意到,函数48、50的建构仅仅为一实例,根据该建构,函数在内部区间52中具有平线区,其是由边缘58及60侧接,以便引起单峰函数。替代地,举例来说,根据一替代例,可使用钟形函数(bell-shaped function)。区间52可替代地被定义为函数比其最大值高95%所处的区间。
图4示出关于音调的用于函数的变化的替代例,该函数用以频谱上整形由噪声填充器32填充某一相连频谱零部分40所运用的噪声。根据图4,该变化是关于分别为边缘部分54及56以及向外下降边缘58及60的频谱宽度。如图4所示出,根据图4的实例,边缘58及60的斜率可甚至独立于音调,亦即,不根据音调而改变。具体地,根据图4的实例,噪声填充器32设定频谱上整形用于填充零部分40的噪声所使用的函数,使得向外下降边缘58及60的频谱宽度正相依于音调,亦即,对于较高音调,使用向外下降边缘58及60的频谱宽度较大的函数48,且对于较低音调,使用向外下降边缘58及60的频谱宽度较小的函数50。
图4示出一函数的变化的另一实例,该函数由噪声填充器32使用以用于频谱上整形填充相连频谱零部分40所运用的噪声:此处,随着音调而变化的函数的特性为对零部分40的外部四等份的积分。音调愈高,则区间愈大。在判定区间的前,函数对完整零部分40的总积分等化/标准化至(诸如)1。
为了解释此情形,参见图5。相连频谱零部分40被示出为经分割成四个相等大小的四等份a、b、c、d,其中四等份a及d为外部四等份。可看出,函数50及48两者在内部中(此处例示性地在零部分40的中间中)具有其质心,但函数两者自内部四等份b、c延伸至外部四等份a及d中。函数48及50的重叠部分(分别重叠于外部四等份a及d)仅仅被示出为阴影。
在图5中,两个函数皆具有对整个零部分40(亦即,对所有四个四等份a、b、c、d)的相同积分。该积分被(例如)标准化至1。
在此情形中,函数50对四等份a、d的积分大于函数48对四等份a、d的积分,且因此,噪声填充器32将函数50用于较高音调,且将函数48用于较低音调,亦即,标准化函数50及48对外部四等份的积分负相依于音调。
出于说明目的,在图5的状况下,函数48及50两者已被例示性地示出为常数或二元函数。举例来说,函数50为遍及整个域(亦即,整个零部分40)采取常数值的函数,且函数48为在零部分40的外部边缘处为零且在其间采取非零常数值的二元函数。应清楚,一般而言,根据图5的实例的函数50及48可为任何常数或单峰函数,诸如,对应于图3及图4所示出的函数的函数。甚至更精确而言,至少一者可为单峰且至少一者可为(分段)常数,且潜在另外者可为单峰或常数中任一者。
虽然相依于音调的函数48及50的变化类型变化,但图3至图5的所有实例共同之处在于:对于递增的音调,缩减或避免使频谱34中的音调峰的紧接周围拖尾的程度,使得噪声填充的质量增加,这是因为噪声填充不会负面地影响音频信号的音调相位,且仍然产生音频信号的非音调相位的合意近似。
直到现在,图3至图5的描述聚焦于一个相连频谱零部分的填充。根据图6的实施例,图2的装置被配置为识别音频信号的频谱的相连频谱零部分且将噪声填充应用至如此所识别的相连频谱零部分上。具体地,图6将图2的噪声填充器32更详细地示出为包含零部分识别器70及零部分填充器72。该零部分识别器在频谱34中搜寻相连频谱零部分,诸如,图3中的40及42。如上文已经描述,可将相连频谱零部分定义为已量化至零的数个系列频谱值。零部分识别器70可被配置为将识别限于音频信号频谱开始的某一开始频率(亦即,位于某一开始频率之上)的高频频谱部分上。因此,装置可被配置为将噪声填充的执行限于此高频频谱部分上。该开始频率(在高于该开始频率的情况下,零部分识别器70执行相连频谱零部分的识别且装置被配置为限制噪声填充的执行)可固定或可变化。举例来说,可使用音频信号经由其频谱被编码至的音频信号的数据流中的明确传信以传信待使用的开始频率。
零部分填充器72被配置为运用根据如上文关于图3、图4或图5所描述的函数而频谱上整形的噪声来填充由识别器70识别的经识别的相连频谱零部分。因此,零部分填充器72运用相依于各自相连频谱零部分的宽度(诸如,各自相连频谱零部分的一系列零量化频谱值已量化至零的多个频谱值)及音频信号的音调而设定的函数,来填充由识别器70识别的相连频谱零部分。
具体地,由识别器70识别的每一相连频谱零部分的单独填充是可由填充器72执行如下:相依于相连频谱零部分的宽度来设定函数,使得函数限于各自相连频谱零部分,亦即,函数的域与相连频谱零部分的宽度重合。函数的设定进一步相依于音频信号的音调,即,以上文关于图3至图5所概述的方式,使得若音频信号的音调递增,则函数的群体在各自相连零部分的内部中变得更紧凑,且远离于各自相连频谱零部分的边缘。在使用此函数的情况下,频谱上整形相连频谱零部分的初步填充状态(根据该状态,将每一频谱值设定至一随机、伪随机或修补/复制值),即,藉由该函数与初步频谱值的相乘。
上文已经概述出,噪声填充对音调的相依性可在仅两个以上(诸如,3个、4个或甚至4个以上)不同音调之间区分。举例来说,图7示出可能音调的域,亦即,可能音调间值的区间,如由判定器34在参考记号74处所判定。在76处,图7例示性地示出用于频谱上整形可填充相连频谱零部分所运用的噪声的可能函数集合。如图7所说明的集合76为藉由频谱宽度或域长度及/或形状(亦即,紧凑性及与外部边缘相隔的距离)彼此相互区分的离散函数具现化集合。在78处,图7进一步示出可能零部分宽度的域。虽然区间78为自某一最小宽度至某一最大宽度的范围的离散值的区间,但由判定器34输出以量测音频信号的音调的音调值可为整数值抑或属于某一其他类型,诸如,浮点值。可藉由表查找或使用数学函数来实现自区间74及78对至可能函数的集合76的映像。举例来说,对于由识别器70识别的某一相连频谱零部分,零部分填充器72可使用各自相连频谱零部分的宽度及如由判定器34判定的当前音调,以便在表中查找被定义为(例如)函数值的序列的集合76的函数,该序列的长度与相连频谱零部分的宽度重合。替代地,零部分填充器72查找函数参数,且将函数的参数填充至预定函数中,以便导出用于频谱上整形待填充至各自相连频谱零部分中的噪声的函数。在另一替代例中,零部分填充器72可直接地将各自相连频谱零部分的宽度及当前音调插入至数学公式中以便得出函数参数,以便根据数学上所计算的函数参数来构建各自函数。
直到现在,本申请的某些实施例的描述聚焦于用以频谱上整形填充某些相连频谱零部分所运用的噪声的函数的形状。然而,有利的是控制添加至待噪声填充的某一频谱的噪声的总水平,以便产生合意重新建构或甚至频谱上控制噪声引入的水平。
图8示出待噪声填充的频谱,其中未量化至零且因此未经受噪声填充的部分以交叉影线指示,其中三个相连频谱零部分90、92及94以预填充状态示出,该预填充状态使用不关注的标度而由记有用于频谱整形填充至部分90至94中的噪声的选定函数的零部分说明。
根据一个实施例,用于频谱上整形待填充至部分90至94中的噪声的函数48、50的可用集合皆具有为编码器及译码器所知的预定义标度。在音频信号(亦即,频谱的未量化部分)被编码至的数据流内明确地传信频谱上全局比例因子。此因子指示(例如)针对一噪声水平的RMS或另一度量,亦即,随机或伪随机频谱线值,藉由该值,部分90至94在译码侧处被设定,接着使用音调相依选定函数48、50按原样被频谱上整形。下文进一步描述关于可如何在编码器侧处判定全局噪声比例因子。举例来说,使A为频谱被量化至零且属于部分90至94中任一者的频谱线的索引i的集合,且使N表示全局噪声比例因子。频谱的值将被表示为xi。另外,“random(N)”将表示在给出对应于水平“N”的水平的随机值的情况下的函数,且left(i)将为指示下者的函数:对于在索引i处的任何零量化频谱值,在i所属的零部分的低频端处的零量化值的索引,且Fi(j)(其中j=0至Ji-1)将表示相依于音调而指派至开始于索引i的零部分90至94的函数48或50,其中Ji指示彼零部分的宽度。接着,根据xi=Fleft(i)(i–left(i))·random(N)来填充部分90至94。
另外,可控制噪声至部分90至94中的填充,使得噪声水平自低频至高频递减。此情形可藉由频谱上整形预设定部分所运用的噪声而进行,或根据低通滤波器的转移函数来频谱上整形函数48、50的配置而进行。此情形可补偿归因于(例如)在判定量化步长的频谱进程时使用的预强调而重新按比例调整/去量化填充式频谱时造成的频谱倾斜。因此,可根据所应用的预强调的程度来控制递减的陡度或低通滤波器的转移函数。在应用上文所使用的术语的情况下,可根据xi=Fleft(i)(i–left(i))·random(N)·LPF(i)来填充部分90至94,其中LPF(i)表示可为线性的低频滤波器的转移函数。相依于情况,对应于函数15的函数LPF可具有正斜率,及经改变以相应地读取HPF的LPF。
代替使用相依于音调及零部分的宽度而选择的函数的固定按比例调整,可直接地藉由亦使用各自相连零部分的频谱位置作为查找中的索引或以其他方式判定(80)待用于频谱上整形必须填充各自相连频谱零部分所运用的噪声的函数,来考虑刚才所概述的频谱倾斜校正。举例来说,函数的平均值或其用于频谱上整形待填充至某一零部分90至94中的噪声的预按比例调整可相依于零部分90至94的频谱位置,使得遍及频谱的整个带宽,预按比例调整用于相连频谱零部分90至94的函数以便模拟低通滤波器转移函数,从而补偿用以导出频谱的非零量化部分的任何高通预强调转移函数。
在已描述用于执行噪声填充的实施例的情况下,在下文中,呈现用于音频编码译码器的实施例,上文所概述的噪声填充可有利地构建在用于音频编码译码器的实施例中。举例来说,图9及图10分别示出编码器及译码器的对,其一起实施形成(例如)进阶音频编码(Advanced Audio Coding,AAC)的基础的类型的以转换为基础的感知音频编码译码器。图9所示出的编码器100使原始音频信号102经受转换器104中的转换。由转换器104执行的转换为(例如)对应于图1的转换14的搭接转换:其藉由使原始音频信号的连续相互重叠转换窗经受一连串频谱18来频谱上分解输入的原始音频信号102,该一连串频谱18一起构成频谱图12。如上文所表示,定义频谱图12的时间分辨率的转换窗间补片可在时间上变化,正如转换窗的时间长度可在时间上变化,此情形定义每一频谱18的频谱分辨率。编码器100进一步包含感知模型化器106,其基于进入转换器104的时域版本或由转换器104输出的频谱分解版本而自原始音频信号导出定义一频谱曲线的感知遮蔽临限值,在低于该频谱曲线的情况下,可隐藏量化噪声,使得其为不可察觉的。
音频信号的逐频谱线表示(亦即,频谱图12)及遮蔽临限值输入量化器108,量化器108负责使用相依于遮蔽临限值的频谱上变化量化步长来使频谱图12的频谱样本量化:遮蔽临限值愈大,则量化步长愈小。具体地,量化器108以所谓的比例因子的形式向解码侧通知量化步长的变化,藉由量化步长(一方面)与感知遮蔽临限值(另一方面)之间的刚才所描述的关系,比例因子表示感知遮蔽临限值自身的表示种类。为了找到将比例因子传输至解码侧所花费的旁侧信息的量与使量化噪声适应于感知遮蔽临限值的粒度之间的良好折衷,量化器108以比量化频谱水平描述音频信号的频谱图12的逐频谱线表示时的频谱时间分辨率低或粗的频谱时间分辨率,来设定/变化比例因子。举例来说,量化器108将每一频谱细分成比例因子频带110(诸如,巴克(bark)频带),且传输每比例因子频带110一个比例因子。就时间分辨率而言,相比于频谱图12的频谱值的频谱水平,时间分辨率就比例因子的传输而言亦可较低。
将频谱图12的频谱值的频谱水平以及比例因子112两者传输至解码侧。然而,为了改良音频质量,编码器100亦在数据流内传输向译码侧传信噪声水平的全局噪声水平,必须在藉由应用比例因子112来重新按比例调整频谱或使频谱去量化之前,运用噪声来填充频谱12的零量化部分直至该噪声水平。图10中示出此情形。图10使用交叉影线来示出尚未重新按比例调整的音频信号的频谱,诸如,图9中的18。其具有相连频谱零部分40a、40b、40c及40d。亦可针对每一频谱18而在数据流中传输的全局噪声水平114向译码器指示在使此填充式频谱经受使用比例因子112的重新按比例调整或重新量化之前,零部分40a至40d应运用噪声被填充直至的水平。
如上文已经表示,全局噪声水平114所指的噪声填充可经受一限定,此在于:此种类的噪声填充仅仅将高于图10中仅仅出于说明目的而指示的某一开始频率的频率称作fstart。
图10亦说明另一特定特征,其可实施于编码器100中:因为可存在包含比例因子频带110的频谱18,其中各自比例因子频带内的所有频谱值已被量化至零,所以与此比例因子频带相关联的比例因子112实际上多余。因此,量化器100使用此恰好的比例因子以用于运用除了使用全局噪声水平114而填充至比例因子频带中的噪声以外的噪声来单独地填满比例因子频带,或换言之,以便响应于全局噪声水平114而按比例调整归因于各自比例因子频带的噪声。举例来说,参见图10。图10示出频谱18成为比例因子频带110a至110h的例示性细分。比例因子频带110e为一比例因子频带,其频谱值皆已被量化至零。因此,关联比例因子112“自由”,且用以判定(114)此比例因子频带被完全地填充直至的噪声的水平。包含量化至非零水平的频谱值的其他比例因子频带具有与其相关联的比例因子,其用以重新按比例调整尚未量化至零的频谱18的频谱值,包括已填充零部分40a至40d所使用的噪声,此按比例调整代表性地使用箭头116予以指示。
图9的编码器100可能已经考虑到,在译码侧内,将使用上文所描述的噪声填充实施例来执行使用全局噪声水平114的噪声填充,例如,使用对音调的相依性,及/或对噪声强加频谱上全局倾斜,及/或变化噪声填充开始频率,等等。
就对音调的相依性而言,编码器100可判定全局噪声水平114,且藉由使用于频谱上整形用于填充各自零部分的噪声的函数关联至零部分40a至40d而将全局噪声水平114插入至数据流中。具体地,编码器可使用函数以便加权部分40a至40d中的原始(亦即,经加权但尚未量化)音频信号的频谱值,以便判定全局噪声水平114。藉此,在数据流内判定及传输的全局噪声水平114在译码侧处导致噪声填充,其更紧密地恢复原始音频信号的频谱。
编码器100可相依于音频信号的内容而决定使用一些编码选项,编码选项又可用作音调提示(诸如,图2所示出的音调提示38),以便允许解码侧正确地设定用于频谱上整形用以填充部分40a至40d的噪声的函数。举例来说,编码器100可使用时间预测,以便使用所谓的长期预测增益参数而自先前频谱预测一个频谱18。换言之,长期预测增益可设定使用或不使用此时间预测所至的程度。因此,长期预测增益或LTP增益为可用作音调提示的参数,这是因为:LTP增益愈高,则音频信号的音调将最有可能愈高。因此,举例来说,图2的音调判定器34可根据对LTP增益的单调正相依性来设定音调。代替LTP增益或除了LTP增益以外,数据流亦可包含传信接通/断开LTP的LTP启用旗标,藉此亦揭露(例如)关于音调的二元值提示。
另外或替代地,编码器100可支持时间噪声整形。亦即,举例来说,基于每频谱18,编码器100可决定使频谱18经受时间噪声整形,其中藉由时间噪声整形启用旗标而向译码器指示此决策。TNS启用旗标指示频谱18的频谱水平是否形成频谱的频谱(亦即,沿着所判定的频率方向)线性预测的预测残差,或频谱是否未被LP预测。若TNS被传信为启用,则数据流另外包含用于频谱上线性预测频谱的线性预测系数,使得译码器可使用线性预测系数藉由在重新按比例调整或去量化之前或之后将线性预测系数应用至频谱上而恢复频谱。TNS启用旗标亦为音调提示:若TNS启用旗标将TNS传信为接通(例如,在一瞬间),则音频信号非常不太可能为音调,此是因为频谱似乎可藉由线性预测沿着频率轴线被良好地预测,且因此为非静止的。因此,可基于TNS启用旗标来判定音调,使得若TNS启用旗标停用TNS,则音调较高,且若TNS启用旗标传信TNS的启用,则音调较低。代替TNS启用旗标或除了TNS启用旗标以外,亦可有可能自TNS滤波器系数导出的TNS增益,TNS增益指示TNS可用于预测频谱所至的程度,藉此亦揭露关于音调的两值以上提示。
亦可由编码器100在数据流内编码其他编码参数。举例来说,频谱重新配置启用旗标可传信一个编码选项,根据该编码选项,藉由频谱上重新配置频谱水平(亦即,量化频谱值)来编码频谱18,其中另外在数据流内传输重新配置规定,使得译码器可重新配置或重新扰乱频谱水平以便恢复频谱18。若启用频谱重新配置启用旗标,亦即,应用频谱重新配置,则此情形指示出音频信号很可能为音调,这是因为:若在频谱内存在许多音调峰,则重新配置倾向于在压缩数据流时更具速率/失真效益。因此,另外或替代地,可使用频谱重新配置启用旗标作为音调提示,且在启用频谱重新配置启用旗标的状况下,可将用于噪声填充的音调设定为较大,且若停用频谱配置启用旗标,则可将用于噪声填充的音调设定为较低。
出于完整起见,且亦参看图10,注意到,至少对于高于预定最小宽度的相连频谱零部分的宽度,用于频谱上整形零部分40a至40d的不同函数的数目(亦即,经鉴别用于设定用于频谱上整形的函数的不同音调的数目)可(例如)大于四,或甚至大于八。
就对噪声强加频谱上全局倾斜且当在编码侧处计算噪声水平参数时考虑频谱上全局倾斜的概念而言,编码器100可判定全局噪声水平114,且将全局噪声水平114插入至数据流中,其藉由运用至少遍及频谱带宽的整个噪声填充部分频谱上延伸且具有相对于(例如)在译码侧处用于噪声填充的函数15的相反正负号的斜率的函数,来加权尚未量化但具有感知加权函数加权的音频信号的频谱值的逆的部分(频谱上共置至零部分40a至40d),且基于如此所加权的未量化值来量测该水平。
图11示出配合于图9的编码器的译码器。图11的译码器使用参考记号130予以大体上指示,且包含对应于上述实施例的噪声填充器30、去量化器132及逆转换器134。噪声填充器30接收频谱图12内的一连串频谱18,亦即,包括量化频谱值的逐频谱线表示,且视情况自数据流接收音调提示,诸如,上文所论述的编码参数中的一者或若干者。噪声填充器30接着如上文所描述而运用噪声来填满相连频谱零部分40a至40d,诸如,使用上文所描述的音调相依性,及/或藉由对噪声强加频谱上全局倾斜,且如上文所描述而使用全局噪声水平114以用于按比例调整噪声水平。在如此填充的情况下,频谱到达去量化器132,去量化器132又使用比例因子112来使噪声填充式频谱去量化或重新按比例调整噪声填充式频谱。逆转换器134又使去量化频谱经受逆转换,以便恢复音频信号。如上文所描述,逆转换器134亦可包含一重叠相加程序(overlap-add-process),以便实现在由转换器104使用的转换为诸如MDCT的临界取样搭接转换的状况下造成的时域混迭消除,在此状况下,由逆转换器134应用的逆转换将为IMDCT(反MDCT)。
如已经关于图9及图10所描述,去量化器132将比例因子应用至预填充式频谱。亦即,使用比例因子来按比例调整比例因子频带内未完全地量化至零的频谱值,而不管表示非零频谱值的频谱值或已由如上文所描述的噪声填充器30频谱上整形的噪声。完全零量化频谱带具有与其相关联的比例因子,其完全自由地控制噪声填充,且噪声填充器30可使用此比例因子以单独地按比例调整噪声,对于该噪声,比例因子频带已藉由噪声填充器30对相连频谱零部分的噪声填充而填充,或就零量化频谱带而言,噪声填充器30可使用该比例因子以另外填满(亦即,添加)额外噪声。
注意到,噪声填充器30以上文所描述的音调相依方式频谱上整形及/或以上文所描述的方式经受频谱上全局倾斜的噪声可源于伪随机噪声来源,或可基于自同一频谱或相关频谱(诸如,另一通道的时间对准频谱,或时间上在前频谱)的其他区域的频谱复制或修补,而自噪声填充器30导出。甚至自同一频谱的修补仍可为可行的,诸如,自频谱18的较低频率区域的复制(频谱复制)。不管噪声填充器30导出噪声的方式,填充器30皆以上文所描述的音调相依方式来频谱上整形噪声以用于填充至相连频谱零部分40a至40d中,及/或以上文所描述的方式来使噪声经受频谱上全局倾斜。
仅出于完整起见,在图12中示出图9的编码器100及图11的译码器130的实施例可变化,此在于:比例因子(一方面)与比例因子特定噪声水平之间的并置被不同地实施。根据图12的实例,除了比例因子112以外,编码器亦在数据流内传输以比频谱图12的逐频谱线分辨率粗的分辨率(诸如,以与比例因子112相同的频谱时间分辨率)而频谱时间上取样的噪声包络的信息。图12中使用参考记号140来指示此噪声包络信息。藉由此措施,对于未完全地量化至零的比例因子频带,存在两个值:用于重新按比例调整各自比例因子频带内的非零频谱值或使各自比例因子频带内的非零频谱值去量化的比例因子,以及用于单独按比例调整比例因子频带内的零量化频谱值的噪声水平的比例因子频带的噪声水平140。此概念有时被称作智慧间隙填充(Intelligent Gap Filling,IGF)。
甚至在此处,噪声填充器30可应用相连频谱零部分40a至40d的音调相依填充,如图12例示性地所示出。
根据上文关于图9至图12所概述的音频编码译码器实例,已藉由使用呈比例因子形式的频谱时间表示来传输关于感知遮蔽临限值的信息,而执行量化噪声的频谱整形。图13及图14示出一对编码器及译码器,其中亦可使用关于图1至图8所描述的噪声填充实施例,但其中根据音频信号的频谱的线性预测(Linear Prediction,LP)描述来频谱上整形量化噪声。在两个实施例中,待噪声填充的频谱在加权域中,亦即,使用加权域或感知上加权域中的频谱上恒定步长来使该频谱量化。
图13示出编码器150,其包含转换器152、量化器154、预强调器156、LPC分析器158及LPC至频谱线变换器160。预强调器156是可选的。预强调器156使输入音频信号12经受预强调,即,使用(例如)FIR或IIR滤波器而运用浅高通滤波器转移函数进行高通滤波。一阶高通滤波器可(例如)用于预强调器156,诸如,H(z)=1–αz-1,其中α设定(例如)预强调的量或强度,根据实施例中的一者,用于填充至频谱中的噪声所经受的频谱上全局倾斜按照该量或强度而变化。α的可能设定可为0.68。由预强调器156造成的预强调使由编码器150传输的量化频谱值的能量自高频至低频移位,藉此考虑人类感知在低频区中比在高频区中较高所根据的心理声学法则。无论音频信号是否被预强调,LPC分析器158皆对输入音频信号12执行LPC分析,以便线性地预测音频信号,或更精确而言,估计其频谱包络。LPC分析器158以(例如)由音频信号12的数个音频样本组成的子帧的时间单位来判定线性预测系数,且如在162处所示出而在数据流内将线性预测系数传输至译码侧。LPC分析器158使用分析窗中的自动相关性且使用(例如)李文森-杜宾(Levinson-Durbin)算法,来判定(例如)线性预测系数。可以量化及/或经转换版本(诸如,以频谱线对或其类似者的形式)而在数据流中传输线性预测系数。在任何状况下,LPC分析器158经由数据流而将亦可用于译码侧处的线性预测系数传输至LPC至频谱线变换器160,且变换器160将线性预测系数变换成由量化器154使用以频谱上变化/设定量化步长的频谱曲线。具体地,转换器152使输入音频信号12经受转换,诸如,以与转换器104进行转换的方式相同的方式。因此,转换器152输出一连串频谱,且量化器154可(例如)藉由自变换器160获得的频谱曲线来划分每一频谱,接着将频谱上恒定量化步长用于整个频谱。由量化器154输出的一连串频谱的频谱图被示出于图13中的164处,且亦包含可在解码侧处填充的一些相连频谱零部分。可由编码器150在数据流内传输全局噪声水平参数。
图14示出配合于图13的编码器的译码器。图14的译码器使用参考记号170予以大体上指示,且包含噪声填充器30、LPC至频谱线变换器172、去量化器174及逆转换器176。噪声填充器30接收量化频谱164,执行如上文所描述的至相连频谱零部分上的噪声填充,且将如此填充的频谱图传输至去量化器174。去量化器174自LPC至频谱线变换器172接收待由去量化器174使用以用于重新整形填充式频谱或换言之用于使填充式频谱去量化的频谱曲线。此过程有时被称作频域噪声整形(FDNS)。LPC至频谱线变换器172基于数据流中的LPC信息162来导出频谱曲线。由去量化器174输出的去量化频谱或经重新整形频谱经受由逆转换器176进行的逆转换,以便恢复音频信号。再次,可由逆转换器176使该一连串经重新整形频谱经受逆转换,接着经受一重叠相加程序,以便在转换器152的转换为诸如MDCT的临界取样搭接转换的状况下,执行连续重新转换之间的时域混迭消除。
藉由图13及图14中的虚线,示出由预强调器156应用的预强调可在时间上变化,其中一变化在数据流内被传信。在此状况下,噪声填充器30可在执行如上文关于图8所描述的噪声填充时考虑预强调。具体地,预强调在由量化器154输出的量化频谱中造成频谱倾斜,此在于:量化频谱值(亦即,频谱水平)倾向于自较低频率至较高频率递减,亦即,其示出频谱倾斜。可由噪声填充器30以上文所描述的方式来补偿或更好地模拟或适应于此频谱倾斜。若在数据流中进行传信,则所传信的预强调的程度可用来以相依于预强调的程度的方式来执行填充噪声的自适应性倾斜。亦即,在数据流中传信的预强调的程度可由译码器使用以设定强加至由噪声填充器30填充至频谱中的噪声上的频谱倾斜的程度。
到现在为止,已描述若干实施例,且下文呈现具体实施实例。关于实例所提出的细节应被理解为可单独地转移至以上实施例上以进一步指定细节。然而,此前,应注意到,上文所描述的所有实施例可用于音频以及语音编码中。其通常指转换编码,且使用信号自适应性概念以用于使用极少量的旁侧信息而运用经频谱上整形噪声来替换量化程序中引入的零。在上文所描述的实施例中,已利用以下观测:若使用一噪声填充开始频率,则频谱洞有时亦刚好出现于任何此类开始频率下方,且频谱洞有时感知上烦人。使用开始频率的明确传信的以上实施例允许移除造成降级的洞,但允许避免噪声的插入将引入失真的所在的低频下插入噪声。
此外,上文所概述的实施例中的一些使用预强调控制噪声填充,以便补偿由预强调造成的频谱倾斜。实施例考虑以下惯例:若对一预强调信号计算LPC滤波器,则仅仅应用待插入噪声的全局或平均量值或平均能量将会使噪声整形在插入的噪声中引入频谱倾斜,这是因为解码侧处的FDNS将使经频谱上平坦插入噪声经受仍示出预强调的频谱倾斜的频谱整形。因此,后者实施例以使得考虑及补偿来自预强调的频谱倾斜的方式来执行噪声填充。
因此,换言之,图11及图14各自示出一感知转换音频译码器。其包含被配置为对音频信号的频谱18执行噪声填充的噪声填充器30。可音调相依地进行该执行,如上文所描述。可藉由运用展现频谱上全局倾斜的噪声来填充频谱以便获得噪声填充式频谱而进行该执行,如上文所描述。“频谱上全局倾斜”应(例如)意谓该倾斜(例如)在横越待运用噪声而填充的所有部分40包络噪声的包络中显现自身,该包络倾斜,亦即,具有非零斜率。举例来说,“包络”被定义为频谱回归曲线,诸如,线性函数或另一二阶或三阶多项式,例如,经由填充至部分40中的噪声的局域最大值而引向,局域最大值皆自我相连,但频谱上远离。“自低频至高频递减”意谓此倾斜具有负斜率,且“自低频至高频递增”意谓此倾斜具有正斜率。两个执行方面可同时地或仅仅应用其中的一者。
另外,感知转换音频译码器包含呈去量化器132、174形式的频域噪声整形器6,被配置为使用频谱感知加权函数来使噪声填充式频谱经受频谱整形。在图11的状况下,频域噪声整形器132被配置为自在频谱被编码至的数据流中传信的线性预测系数信息162判定频谱感知加权函数。在图14的状况下,频域噪声整形器174被配置为自在数据流中传信的关于比例因子频带110的比例因子112判定频谱感知加权函数。如关于图8所描述且关于图11所说明,噪声填充器34可被配置为响应于数据流中的明确传信来改变频谱上全局倾斜的斜率,或自传信频谱感知加权函数的数据流的部分推断该斜率(诸如,藉由评估LPC频谱包络或比例因子),或自经量化且经传输的频谱18推断该斜率。
另外,感知转换音频译码器包含逆转换器134、176,被配置为逆转换由频域噪声整形器频谱上整形的噪声填充式频谱,以获得逆转换,且使逆转换经受重叠相加程序。
对应地,图13及图9皆示出用于被配置为执行皆实施于图9及图13所示出的量化器模块108、154中的频谱加权1及量化2的感知转换音频编码器的实例。频谱加权1根据频谱感知加权函数的逆来频谱上加权音频信号的原始频谱,以便获得感知上加权频谱,且量化2以频谱上均一方式来使感知上加权频谱量化,以便获得量化频谱。感知转换音频编码器在量化模块108、154内进一步执行噪声水平计算3,例如,藉由以运用自低频至高频递增的频谱上全局倾斜而加权的方式来测量共置至量化频谱的零部分的感知上加权频谱的水平而计算噪声水平参数。根据图13,感知转换音频编码器包含LPC分析器158,被配置为判定表示音频信号的原始频谱的LPC频谱包络的线性预测系数信息162,其中频谱加权器154被配置为判定频谱感知加权函数,以便遵循LPC频谱包络。如所描述,LPC分析器158可被配置为藉由对经受预强调滤波器156的音频信号的版本执行LPC分析来判定线性预测系数信息162。如上文关于图13所描述,预强调滤波器156可被配置为运用变化的预强调量来对音频信号进行高通滤波,以便获得经受预强调滤波器的音频信号的版本,其中噪声水平计算可被配置为相依于预强调量来设定频谱上全局倾斜的量。可使用频谱上全局倾斜的量或预强调量在数据流中的明确传信。在图9的状况下,感知转换音频编码器包含经由感知模型106而控制的比例因子判定,其判定关于比例因子频带110的比例因子112,以便遵循遮蔽临限值。此判定实施于量化模块108中,例如,量化模块108亦充当被配置为判定频谱感知加权函数以便遵循比例因子的频谱加权器。
现在拾取用以描述图9至图14的刚才所应用的替代性且一般化的用语以描述图18A及图18B。
图18A示出根据本申请的一实施例的感知转换音频编码器,且图18B示出根据本申请的一实施例的感知转换音频译码器,两者配合在一起以便形成感知转换音频编码译码器。
如图18A所示出,感知转换音频编码器包含频谱加权器1,其被配置为实例在下文中被示出的预定方式而根据由频谱加权器1判定的频谱加权感知加权函数的逆,来频谱上加权由频谱加权器1接收的音频信号的原始频谱。藉由此措施,频谱加权器1获得感知上加权频谱,其接着以频谱上均一方式(亦即,以对于频谱线相同的方式)在感知转换音频编码器的量化器2中经受量化。由均一量化器2输出的结果为量化频谱34,其最终被编码至由感知转换音频编码器输出的数据流中。
为了控制待在译码侧处执行的噪声填充以便改良频谱34,关于设定噪声的水平,可视情况存在感知转换音频编码器的噪声水平计算装置3,其藉由测量在共置至量化频谱34的零部分40的部分5处的感知上加权频谱4的水平来计算噪声水平参数。亦可在前述数据流中编码如此计算的噪声水平参数,以便到达译码器。
图18B中示出感知转换音频译码器。感知转换音频译码器包含噪声填充装置30,被配置为藉由运用展现频谱上全局倾斜的噪声来填充频谱34,以使得噪声底限自低频至高频递减而对如编码至由图18A的编码器产生的数据流中的音频信号的入端口频谱34执行噪声填充,以便获得噪声填充式频谱36。使用参考记号6而指示的感知转换音频译码器的噪声频域噪声整形器被配置为下文进一步藉由特定实例描述的方式使用经由数据流而自编码侧获得的频谱感知加权函数来使噪声填充式频谱经受频谱整形。可将由频域噪声整形器6输出的此频谱传输至逆转换器7,以便在时域中重新建构音频信号,且同样地,在感知转换音频编码器内,转换器8可在频谱加权器1之前,以便向频谱加权器1提供音频信号的频谱。
运用展现频谱上全局倾斜的噪声9来填充频谱34的显著性如下:稍后,当噪声填充式频谱36经受由频域噪声整形器6进行的频谱整形时,频谱36将经受倾斜加权函数。举例来说,相比于低频的加权,在高频下,频谱将被放大。亦即,相对于较低频率,在较高频率下,频谱36的水平将升高。此情形在频谱36的原始频谱上平坦部分中造成具有正斜率的频谱上全局倾斜。因此,若噪声9将以频谱上平坦方式被填充至频谱36中以便填充其零部分40,则由FDNS 6输出的频谱将在部分40内示出倾向于自(例如)低频至高频递增的噪声底限。亦即,当检验执行噪声填充的整个频谱或频谱带宽的至少部分时,将看到,部分40内的噪声所具有的倾向或线性回归函数具有正斜率或负斜率。然而,因为噪声填充装置30运用展现正或负斜率(在图18B中被指示为α)的频谱上全局倾斜且倾斜成相反方向(相比于由FDNS9造成的倾斜)的噪声来填充频谱34,所以补偿由FDNS 6造成的频谱倾斜,且如此引入至在FDNS 6的输出处的经最终重新建构频谱中的噪声底限平坦或至少较平坦,藉此增加音频质量,从而留下较少的深噪声洞。
“频谱上全局倾斜”应表示填充至频谱34中的噪声9具有倾向于自低频至高频递减(或递增)的水平。举例来说,当经由如填充至相连频谱零部分40中(例如,相互频谱上远离)的噪声9的局域最大值而放置线性回归线时,所得线性回归线具有负(或正)斜率α。
虽然并非强制性,但感知转换音频编码器的噪声水平计算装置可藉由以运用频谱上全局倾斜而加权的方式,来测量在部分5处的感知上加权频谱4的水平,而考虑将噪声填充至频谱34中的倾斜方式,该频谱上全局倾斜(例如)在α为负的状况下具有正斜率且在α为正的情况下具有负斜率。由噪声水平计算装置应用的斜率(其在图18A中被指示为β)就其绝对值而言不必与在解码侧处应用的斜率相同,但根据一实施例,可能为斜率相同的状况。藉此,噪声水平计算机3能够以最佳方式且横越整个频谱带宽使在解码侧处插入的噪声9的水平更精确地适应于近似原始信号的噪声水平。
稍后,将描述出可能可行的是经由数据流中的明确传信或经由隐含传信而控制频谱上全局倾斜的斜率α的变化,此在于(例如):噪声填充装置30自(例如)频谱感知加权函数自身或自转换窗长度切换推断陡度。举例来说,藉由文字推断,可使斜率适应于窗长度。
存在供噪声填充装置30使噪声9展现频谱上全局倾斜的不同可行方式。举例来说,图18C说明了噪声填充装置30执行表示噪声填充过程中的中间状态的中间噪声信号13与单调递减(或递增)函数15(亦即,横越整个频谱或执行噪声填充的至少部分单调地频谱上递减(或递增)的函数)之间的逐频谱线相乘11,以获得噪声9。如图18C所说明,中间噪声信号13可能已被频谱上整形。在此方面的细节关于下文进一步所概述的特定实施例,根据实施例,亦相依于音调来执行噪声填充。然而,亦可略去或可在相乘11的后执行频谱整形。可使用噪声水平参数信号及数据流以设定中间噪声信号13的水平,但替代地,可使用标准水平来产生中间噪声信号,从而应用标量噪声水平参数以便在相乘11之后按比例调整频谱线。如图18C所说明,单调递减函数15可为线性函数、分段线性函数、多项式函数或任何其他函数。
如下文将更详细地所描述,将可行的是自适应性地设定由噪声填充装置30执行噪声填充所处的整个频谱的部分。
结合以特定非平坦且音调相依的方式来填充频谱34中的相连频谱零部分(亦即,频谱洞)所根据的下文进一步所概述的实施例,将解释到亦存在用于图18C所说明的相乘11的替代例,以便激发至此所论述的频谱上全局倾斜。
上文所描述的所有实施例所具有的共同之处在于:避免频谱洞,且亦避免音调非零量化线的隐蔽。以上文所描述的方式,可节约信号的有噪声部分中的能量,且以上文所描述的方式避免遮蔽音调分量的噪声的添加。
在上文所描述的特定实例中,用于执行音调相依噪声填充的旁侧信息的部分未将任何事项添加至使用噪声填充的编码译码器的现有旁侧信息。不管噪声填充,用于频谱的重新建构的来自数据流的所有信息亦可用于噪声填充的整形。
根据一实施实例,如下执行噪声填充器30中的噪声填充。运用非零值来替换量化至零的在噪声填充开始索引上方的所有频谱线。此情形(例如)运用频谱上恒定机率密度函数或使用来自其他频谱频谱图位置(来源)的修补以随机或伪随机方式而进行。举例来说,参见图15。图15示出用于将经受噪声填充的频谱的两个实例,正如由量化器108输出的频谱图12中的频谱34或频谱18,或由量化器154输出的频谱164。噪声填充开始索引为介于iFreq0与iFreq1的间的频谱线索引(0<iFreq0<=iFreq1),其中iFreq0及iFreq1为预定比特率及带宽相依频谱线索引。噪声填充开始索引等于量化至非零值的频谱线的索引iStart(iFreq0<=iStart<=iFreq1),其中具有索引j(iStart<j<=Freq1)的所有频谱线被量化至零。亦可在位串流中传输用于iStart、iFreq0或iFreq1的不同值以允许在某些信号(例如,环境噪声)中插入极低频率噪声。
在以下步骤中整形插入的噪声:
1.在残余域或加权域中。上文已关于图1至图14而延伸性地描述在残余域或加权域中的整形。
2.已关于图13及图14而描述使用LPC或FDNS的频谱整形(使用LPC的量值响应的在转换域中的整形)。亦可使用比例因子(如在AAC中)或使用用于整形完整频谱的任何其他频谱整形方法(如关于图9至图12所描述)来整形频谱。
3.已简要地关于图9至图12而描述使用较少量的位的使用时间噪声整形(TNS)的选用整形。
噪声填充所需要的仅有额外旁侧信息为水平,其(例如)使用3个位以传输。
当使用FDNS时,无需使其适应于特定噪声填充,且其使用数目小于比例因子的位而遍及完整频谱来整形噪声。
可在插入的噪声中引入频谱倾斜以抵消来自以LPC为基础的感知噪声整形中的预强调的频谱倾斜。因为预强调表示应用至输入信号的平缓高通滤波器,所以倾斜补偿可藉由将轻微低通滤波器的转移函数的当量乘至插入的噪声频谱,来抵消此预强调。此低通操作的频谱倾斜相依于预强调因子,且较佳地相依于比特率及带宽。参看图8而论述此情形。
对于由1个或多个连续零量化频谱线构成的每一频谱洞,可如图16所描绘来整形插入的噪声。可在编码器中找到且在位串流中传输噪声填充水平。在非零量化线处不存在噪声填充,且其在过渡区域中增加直至完全噪声填充。在完全噪声填充的区域中,噪声填充水平等于(例如)在位串流中传输的水平。此情形避免在可潜在地遮蔽音调分量或使音调分量失真的非零量化频谱线的紧接邻域中插入高水平的噪声。然而,运用噪声来替换所有零量化线,从而不留下频谱洞。
过渡宽度相依于输入信号的音调。针对每一时间讯框获得音调。在图17A至图17D中,针对不同洞大小及过渡宽度例示性地描绘噪声填充形状。
频谱的音调度量可基于可在位串流中得到的信息:
·LTP增益
·频谱重新配置启用旗标(参见[6])
·TNS启用旗标
过渡宽度系与音调成比例——对于似噪声信号而言小,对于恰好的音调信号而言大。
在一实施例中,若LTP增益>0,则过渡宽度与LTP增益成比例。若LTP增益等于0且启用频谱重新配置,则使用用于平均LTP增益的过渡宽度。若启用TNS,则不存在过渡区域,但应将完全噪声填充应用至所有零量化频谱线。若LTP增益等于0且停用TNS及频谱重新配置,则使用最小过渡宽度。
若在位串流中不存在音调信息,则可在无噪声填充的情况下对经译码信号计算音调度量。若不存在TNS信息,则可对经译码信号计算时间平坦度度量。然而,若可得到TNS信息,则可直接地自TNS滤波器系数导出此平坦度度量,例如,藉由计算滤波器的预测增益。
在编码器中,可较佳地藉由考虑过渡宽度来计算噪声填充水平。用以自量化频谱判定噪声填充水平的若干方式系可能的。最简单方式系对噪声填充区中的标准化输入频谱(亦即,在iStart上方)的所有线(其被量化至零)的能量(平方)求总和,接着将此总和除以线的数目以获得每线的平均能量,且最终自平均线能量的平方根计算量化噪声水平。以此方式,自量化至零的频谱分量的RMS有效地导出噪声水平。举例来说,使A为频谱已被量化至零且属于零部分中任一者(亦即,在开始频率上方)的频谱线的索引i的集合,且使N表示全局噪声比例因子。尚未量化的频谱的值将被表示为yi。另外,left(i)将为指示下者的函数:对于在索引i处的任何零量化频谱值,在i所属的零部分的低频端处的零量化值的索引,且Fi(j)(其中j=0至Ji-1)将表示相依于音调而指派至开始于索引i的零部分的函数,其中Ji指示彼零部分的宽度。接着,可藉由N=sqrt(∑i∈Ayi 2/cardinality(A))来判定N。
在较佳实施例中,考虑个别洞大小以及过渡宽度。为此,将数个系列连续零量化线分组成洞区。接着藉由过渡函数来按比例调整一洞区中的每一标准化输入频谱线(亦即,任何相连频谱零部分内的频谱位置处的原始信号的每一频谱值),如在先前章节中所描述,且随后计算经按比例调整线的能量的总和。类似于在先前简单实施例中,接着可自零量化线的RMS计算噪声填充水平。在应用以上术语的情况下,可藉由N=sqrt(∑i∈A(Fleft(i)(i-left(i))·yi)2/cardinality(A))来计算N。
然而,此途径的问题为:小洞区(亦即,具有比过渡宽度的两倍小得多的宽度的区)中的频谱能量被低估,这是因为在RMS计算中,总和中除能量总和的频谱线的数目不变。换言之,当量化频谱主要地展现许多小洞区时,相比于当该频谱稀疏且仅具有少数长洞区时,所得噪声填充水平将较低。为了确保在两种状况下找到相似噪声水平,因此有利的是使在RMS计算的分母中使用的线计数适应于过渡宽度。最重要地,若洞区大小小于过渡宽度的两倍,则彼洞区中的频谱线的数目未被按原样(亦即,作为整数个线)计数,而作为小于整数线数的分数线数计数。举例来说,在关于N的以上公式中,相依于「小」零部分的数目,将藉由较小数来替换「cardinality(A)」。
此外,亦应在噪声水平计算期间考虑归因于以LPC为基础的感知编码的在噪声填充中的频谱倾斜的补偿。更具体言的,较佳地将译码器侧噪声填充倾斜补偿的逆应用至原始未量化频谱线,在计算噪声水平的前,将原始未量化频谱线量化至零。在使用预强调的以LPC为基础的编码的上下文中,此隐含着在噪声水平估计的前相对于较低频率线稍微放大较高频率线。在应用以上术语的情况下,可藉由N=sqrt(∑i∈A(Fleft(i)(i-left(i))·LPF(i)-1·yi)2/cardinality(A))来计算N。如上文所提到,相依于情况,对应于函数15的函数LPF可具有正斜率,及经改变以相应地读取HPF的LPF。简要地注意到,在使用「LPF」的所有以上公式中,将Fleft设定至常数函数(诸如,设定至全1)将揭露如何应用藉由频谱上全局倾斜使噪声经受填充至频谱34中而无音调相依洞填充的概念的方式。
可在编码器中(诸如,在108或154中)执行N的可能计算。
最后,已发现,当恰好音调的静止信号的谐波被量化至零时,表示谐波的线导致相对高或不稳定(亦即,时间波动)噪声水平。可藉由在噪声水平计算中使用零量化线的平均量值而非其RMS来缩减此伪讯。虽然此替代途径并不始终保证译码器中的噪声填充式线的能量重现在噪声填充区中的原始线的能量,但其确实确保噪声填充区中的频谱峰对总噪声水平仅具有有限贡献,藉此缩减噪声水平高估的风险。
最后,注意到,编码器可甚至被配置为完全地执行噪声填充,以便使其自身按照译码器,诸如,出于合成式分析目的。
因此,以上实施例尤其描述一种用于运用经频谱上整形噪声来替换量化程序中引入的零的信号自适应性方法。描述藉由实施以下各者来满足上述要求的用于编码器及译码器的噪声填充延伸:
·可使噪声填充开始索引适应于频谱量化的结果,但限于某一范围
·可在插入的噪声中引入频谱倾斜以抵消来自感知噪声整形的频谱倾斜
·运用噪声来替换在噪声填充开始索引上方的所有零量化线
·藉由过渡函数,使插入的噪声衰减至靠近未量化至零的频谱线
·过渡函数相依于输入信号的瞬时特性
·噪声填充开始索引、频谱倾斜及过渡函数的调适可基于可在译码器中得到的信息
无需额外旁侧信息,惟噪声填充水平除外
虽然已在装置的上下文中描述一些方面,但很显然,方面亦表示对应方法的描述,其中区块或器件对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面亦表示对应装置的对应区块或项目或特征的描述。方法步骤中的一些或全部系可由(或使用)硬件装置(例如,微处理器、可规划计算机或电子电路)执行。在一些实施例中,最重要的方法步骤中的某一者或多者系可由此装置执行。
相依于某些实施要求,可以硬件或以软件来实施本发明的实施例。可使用储存有电子可读控制信号的数字储存媒体(例如,软性磁盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或FLASH内存)来执行该实施,电子可读控制信号与(或能够与)一可规划计算机系统合作,使得执行各自方法。因此,数字储存媒体可为计算机可读的。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,电子可读控制信号能够与一可规划计算机系统合作,使得执行本文所描述的方法中的一者。
通常,可将本发明的实施例实施为具有程序代码的计算机程序产品,该程序代码可操作以当该计算机程序产品在计算机上执行时执行方法中的一者。程序代码可(例如)储存于机器可读载体上。
其他实施例包含用于执行本文所描述的方法中的一者的计算机程序,其储存于机器可读载体上。
换言之,本发明的方法的一实施例因此为具有程序代码的计算机程序,该程序代码用于当该计算机程序在计算机上执行时执行本文所描述的方法中的一者。
本发明的方法的另外实施例因此为一数据载体(或数字储存媒体,或计算机可读媒体),其包含记录于其上的用于执行本文所描述的方法中的一者的计算机程序。数据载体、数字储存媒体或记录媒体通常系有形的及/或非过渡性的。
本发明的方法的另外实施例因此为一数据流或一连串信号,其表示用于执行本文所描述的方法中的一者的计算机程序。举例来说,该数据流或该一连串信号可被配置为经由数据通信连接(例如,经由因特网)而传送。
一另外实施例包含一处理构件,例如,计算机或可规划逻辑器件,其经组配或调适以执行本文所描述的方法中的一者。
一另外实施例包含一计算机,其具有安装于其上的用于执行本文所描述的方法中的一者的计算机程序。
根据本发明的另外实施例包含被配置为将用于执行本文所描述的方法中的一者的计算机程序传送(例如,电子地或光学的)至接收器的装置或系统。举例来说,该接收器可为计算机、行动器件、内存器件或其类似者。举例来说,该装置或系统可包含用于将计算机程序传送至接收器的文件服务器。
在一些实施例中,可使用可规划逻辑器件(例如,场可规划门阵列)以执行本文所描述的方法的功能性中的一些或全部。在一些实施例中,场可规划门阵列可与微处理器合作,以便执行本文所描述的方法中的一者。通常,方法系较佳地由任何硬件装置执行。
可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来实施本文所描述的装置。
可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来执行本文所描述的方法。
上述实施例仅仅说明本发明的原理。应理解,本文所描述的配置及细节的修改及变化对于其他熟习此项技术者将显而易见。因此,意图系仅受到即将出现的专利申请专利范围的范畴限制,而不受到作为本文中的实施例的描述及解释而呈现的特定细节限制。
此外,本申请的配置可以为如下:
项1.一种装置,被配置为以相依于一音频信号的一音调的方式来对所述音频信号的一频谱(34)执行噪声填充。
项2.根据项1所述的装置,其中,所述装置被配置为在执行所述噪声填充时,用相依于所述音频信号的所述音调而频谱上整形的噪声来填充所述频谱(34)的相连频谱零部分(40)。
项3.根据项1或2所述的装置,其中,所述频谱(34)已使用经由一线性预测频谱包络而控制的一频谱上变化且信号自适应的量化步长或关于比例因子频带(110)的比例因子(112)而被量化,在所述频谱(34)被编码至的一数据流中传信所述比例因子,所述线性预测频谱包络经由所述频谱(34)被编码(164)至的所述数据流中的线性预测系数(162)被传信。
项4.根据项1或2所述的装置,其中,所述装置被配置为使用经由一线性预测频谱包络而控制的一频谱上变化且信号自适应的量化步长或关于比例因子频带(110)的比例因子(112),来使在所述噪声填充之后得到的所述频谱(34)去量化(132;174),在所述频谱(34)被编码至的一数据流中传信所述比例因子,所述线性预测频谱包络经由所述频谱(34)被编码(164)至的所述数据流中的线性预测系数(162)来传信。
项5.根据项1至4中任一项所述的装置,其中,所述装置被配置为藉由使用一函数(48,50)而频谱上整形的噪声来填充所述音频信号的频谱(34)的一相连频谱零部分(40),所述函数在所述相连频谱零部分(40)的一内部(52)中取一最大值,且具有向外下降边缘(58,60),所述向外下降边缘的一绝对斜率负相依于所述音调。
项6.根据项1至5中任一项所述的装置,其中,所述装置被配置为藉由使用一函数(48,50)而频谱上整形的噪声来填充所述音频信号的频谱(34)的一相连频谱零部分(40),所述函数在所述相连频谱零部分(40)的一内部(52)中取一最大值,且具有向外下降边缘(58,60),所述向外下降边缘的一频谱宽度(54,56)正相依于所述音调。
项7.根据项1至6中任一项所述的装置,其中,所述装置被配置为藉由使用一常数或单峰函数(48,50)而频谱上整形的噪声来填充所述音频信号的频谱(34)的一相连频谱零部分(40),所述常数或单峰函数对所述相连频谱零部分(40)的外部四分之一区(a,d)的一积分——标准化为1的一积分——负相依于所述音调。
项8.根据前述项任一项所述的装置,其中,所述装置被配置为识别(70)所述音频信号的频谱的相连频谱零部分,且将所述噪声填充应用至所识别的所述相连频谱零部分上。
项9.根据项1至8中任一项所述的装置,其中,所述装置被配置为使用藉由函数集(80)而频谱上整形的噪声来分别填充所述音频信号的频谱的相连频谱零部分,所述函数集相依于一各自相连频谱零部分的宽度及所述音频信号的所述音调。
项10.根据项1至9中任一项所述的装置,其中,所述装置被配置为使用藉由函数集(80)而频谱上整形的噪声来分别填充所述音频信号的频谱的相连频谱零部分,所述函数集相依于一各自相连频谱零部分的宽度,使得函数限于所述各自相连频谱零部分,且所述函数集相依于所述音频信号的所述音调,使得若所述音频信号的所述音调递增,则一函数的群体在所述各自相连频谱零部分的内部中变得更紧凑,且远离所述各自相连频谱零部分的外部边缘。
项11.根据项9或10所述的装置,其中,所述装置被配置为使用一标量全局噪声水平来按比例调整填充所述相连频谱零部分所用的所述噪声,所述标量全局噪声水平在以频谱上全局方式将所述频谱编码至的一数据流中传信。
项12.根据项9至11中任一项所述的装置,其中,所述装置被配置为使用一随机或伪随机程序或使用修补,来产生填充所述相连频谱零部分所用的所述噪声。
项13.根据前述项任一项所述的装置,其中,所述装置被配置为自编码所述音频信号所使用的一编码参数导出所述音调。
项14.根据项13所述的装置,其中,所述装置被配置为使得所述编码参数为一长期预测(LTP)或时间噪声整形(TNS)启用旗标或增益,及/或一频谱重新配置启用旗标。
项15.根据前述项任一项所述的装置,其中,所述装置被配置为将所述噪声填充的执行限于所述音频信号的频谱的一高频频谱部分上。
项16.根据项15所述的装置,其中,所述装置被配置为根据所述音频信号的所述频谱被编码至的一数据流中的一明确传信,设定所述高频频谱部分的一低频开始位置。
项17.根据前述项任一项所述的装置,其中,所述装置被配置为在执行所述噪声填充时,运用一水平表现为自低频至高频的一递减的噪声来填充所述频谱(34)的相连频谱零部分(40),从而使一频谱低通滤波器的转移函数接近于抵消由用以编码所述音频信号的频谱的一预强调造成的一频谱倾斜。
项18.根据项17所述的装置,其中,所述装置被配置为使所述递减的一陡度适应于所述预强调的一预强调因子。
项19.根据前述项中任一项所述的装置,其中,所述装置被配置为识别所述音频信号的频谱的相连频谱零部分,且用函数集来填充所述相连频谱零部分,所述函数集相依于一各自相连频谱零部分的宽度,使得函数限于所述各自相连频谱零部分,且所述函数集相依于所述音频信号的所述音调,使得若所述音频信号的所述音调递增,则一函数的群体在所述各自相连频谱零部分的内部中变得愈加更紧凑,且远离所述各自相连频谱零部分的边缘,且另外,所述函数集相依于所述各自相连频谱零部分的频谱位置,使得函数的一按比例调整相依于所述各自相连频谱零部分的频谱位置。
项20.一种支持噪声填充的音频译码器,包含一根据前述项中任一项的装置。
项21.一种感知转换音频译码器,包含:
一根据项1至19中任一项的装置,被配置为对一音频信号的一频谱(34)执行噪声填充;以及
一频域噪声整形器,被配置为使用一频谱感知加权函数来使噪声填充式频谱经受频谱整形。
项22.一种支持噪声填充的音频编码器,包含一根据前述项中任一项所述的装置,所述编码器被配置为根据自所述装置获得的一噪声填充结果而后向自适应性地调整用以编码所述音频信号的一编码参数。
项23.一种支持噪声填充的音频编码器,被配置为使一音频信号的一频谱量化且将所述频谱编码至一数据流中,以及
以相依于所述音频信号的一音调的方式,来设定用于对所述音频信号的所述频谱执行噪声填充的一频谱上全局噪声填充水平且将所述频谱上全局噪声填充水平编码至所述数据流中。
项24.根据项23所述的音频编码器,其中,所述编码器被配置为在设定及编码所述频谱上全局噪声填充水平时,对相依于所述音频信号的所述音调而频谱上整形的所述频谱(34)的相连频谱零部分(40)内的所述音频信号的一水平进行测量。
项25.根据项24所述的音频编码器,其中,所述测量为一RMS。
项26.根据项24或25所述的音频编码器,其中,所述装置被配置为使用相依于一各自相连频谱零部分的宽度及所述音频信号的所述音调的函数集(80),以用于频谱上整形所述音频信号的频谱的所述相连频谱零部分。
项27.根据项23至26中任一项所述的音频编码器,其中,所述编码器被配置为根据一线性预测频谱包络而使用一频谱上变化且信号自适应的量化步长来使所述频谱(34)量化,在一数据流中经由线性预测系数(162)来传信所述线性预测频谱包络,且将所述频谱(34)编码至所述数据流中。
项28.根据项23至27中任一项所述的音频编码器,其中,所述编码器被配置为根据关于比例因子频带(110)的比例因子(112)而使用一频谱上变化且信号自适应的量化步长来使所述频谱(34)量化,在一数据流中传信所述比例因子,且将所述频谱(34)编码至所述数据流中。
项29.根据项23至28中任一项所述的音频编码器,其中,所述装置被配置为自用以编码所述音频信号的频谱的一编码参数导出所述音调。
项30.一种方法,包含以相依于一音频信号的一音调的方式来对所述音频信号的一频谱(34)执行噪声填充。
项31.一种支持噪声填充的音频编码方法,所述方法包含:使一音频信号的一频谱量化且将所述频谱编码至一数据流中;以及以相依于所述音频信号的一音调的方式来设定用于对所述音频信号的所述频谱执行噪声填充的一频谱上全局噪声填充水平且将所述频谱上全局噪声填充水平编码至所述数据流中。
项32.一种计算机程序,具有用于当在一计算机上执行时执行根据项30或31的方法的一程序代码。
参考文献
[1]B.G.G.F.S.G.M.M.H.P.J.H.S.W.G.S.J.H.Nikolaus Rettelbach,"NoiseFiller,Noise Filling Parameter Calculator Encoded Audio SignalRepresentation,Methods and Computer Program".Patent US 2011/0173012 A1.
[2]Extended Adaptive Multi-Rate-Wideband(AMR-WB+)codec,3GPPTS26.290V6.3.0,2005-2006.
[3]B.G.G.F.S.G.M.M.H.P.J.H.S.W.G.S.J.H.Nikolaus Rettelbach,"Audioencoder,audio decoder,methods for encoding and decoding an audio signal,audiostream and computer program".Patent WO 2010/003556 A1.
[4]M.M.N.R.G.F.J.R.J.L.S.W.S.B.S.D.C.H.R.L.P.G.B.B.J.L.K.K.H.MaxNeuendorf,"MPEG Unified Speech and Audio Coding–The ISO/MPEG Standard forHigh-Efficiency Audio Coding of all Content Types,"in 132nd Convertion AES,Budapest,2012.Also appears in the Journal of the AES,vol.61,2013.
[5]M.M.M.N.a.R.G.Guillaume Fuchs,"MDCT-Based Coder for HighlyAdaptive Speech and Audio Coding,"in 17th European Signal ProcessingConference(EUSIPCO 2009),Glasgow,2009.
[6]H.Y.K.Y.M.T.Harada Noboru,"Coding Mmethod,Decoding Method,CodingDevice,Decoding Device,Program,and Recording Medium".Patent WO 2012/046685A1.
Claims (24)
1.一种被配置为以相依于一音频信号的一音调的方式对所述音频信号的一频谱(34)执行噪声填充的装置,
其中,所述装置被配置为使用经由一线性预测频谱包络而控制的一频谱上变化且信号自适应的量化步长或关于比例因子频带(110)的比例因子(112),来使在所述噪声填充之后得到的所述频谱(34)去量化(132;174),在所述频谱(34)被编码至的一数据流中传信所述比例因子,所述线性预测频谱包络经由所述频谱(34)被编码(164)至的所述数据流中的线性预测系数(162)来传信,
其中,所述装置被配置为使用藉由以下函数而频谱上整形的噪声来填充所述音频信号的频谱(34)的一相连频谱零部分(40):
一函数(48,50),该函数在所述相连频谱零部分(40)的一内部(52)中取一最大值,且具有向外下降边缘(58,60),所述向外下降边缘的一绝对斜率负相依于所述音调。
2.根据权利要求1所述的装置,其中,所述装置被配置为使用一标量全局噪声水平来按比例调整填充所述相连频谱零部分所用的所述噪声,所述标量全局噪声水平在以频谱上全局方式将所述频谱编码至的数据流中传信。
3.根据权利要求1所述的装置,其中,所述装置被配置为使用一随机或伪随机程序,来产生填充所述相连频谱零部分所用的所述噪声。
4.根据权利要求1所述的装置,其中,所述装置被配置为自编码在所述数据流中的一编码参数导出所述音调。
5.根据权利要求4所述的装置,其中,所述装置被配置为使得所述编码参数为一长期预测(LTP)或时间噪声整形(TNS)启用旗标或增益,及/或一频谱重新配置启用旗标,所述频谱重新配置启用旗标传信一编码选项,根据所述编码选项,频谱上重新配置量化频谱值,其中另外在所述数据流内传输重新配置规定。
6.根据权利要求1所述的装置,其中,所述装置被配置为将所述噪声填充的执行限于所述音频信号的频谱的一高频频谱部分上。
7.根据权利要求6所述的装置,其中,所述装置被配置为根据所述数据流中的一明确传信,设定所述高频频谱部分的一低频开始位置。
8.根据权利要求1项所述的装置,其中,所述装置被配置为在执行所述噪声填充时,用一水平表现为自低频至高频的一递减的噪声来填充所述频谱(34)的相连频谱零部分(40),从而抵消由用以编码所述音频信号的频谱的一预强调造成的一频谱倾斜。
9.根据权利要求8所述的装置,其中,所述装置被配置为使所述递减的一陡度适应于所述预强调的一预强调因子。
10.根据权利要求1所述的装置,其中,所述装置被配置为鉴别所述音调的两个以上不同状态。
11.一种支持噪声填充的音频译码器,包含一根据前述权利要求中任一项的装置。
12.一种感知转换音频译码器,包含:
一根据权利要求1至9中任一项的被配置为对一音频信号的一频谱(34)执行噪声填充的装置;以及
一频域噪声整形器,被配置为使用一频谱感知加权函数来使噪声填充式频谱经受频谱整形。
13.一种支持噪声填充的音频编码器,包含根据权利要求1-9中任一项所述的装置,所述编码器被配置为使用由所述装置填充有噪声的频谱执行合成式分析。
14.一种支持噪声填充的音频编码器,被配置为使一音频信号的一频谱(34)量化且将所述频谱编码至一数据流中,以及
以相依于所述音频信号的一音调的方式,来设定用于对所述音频信号的所述频谱执行噪声填充的一频谱上全局噪声填充水平且将所述频谱上全局噪声填充水平编码至所述数据流中,
其中,所述编码器被配置为:在设定及编码所述频谱上全局噪声填充水平时,对相依于所述音频信号的所述音调而频谱上整形的所述频谱(34)的相连频谱零部分(40)内的所述音频信号的一水平的度量,
其中使用以下函数来对所述音频信号的所述频谱(34)的所述相连频谱零部分(40)进行频谱上成形,
一函数(48,50),该函数在所述相连频谱零部分(40)的一内部(52)中取一最大值,且具有向外下降边缘(58,60),所述向外下降边缘的一绝对斜率负相依于所述音调。
15.根据权利要求14所述的音频编码器,其中,所述度量是均方根。
16.根据权利要求14所述的音频编码器,其中,
其中,所述编码器被配置为根据一线性预测频谱包络而使用一频谱上变化且信号自适应的量化步长来使所述频谱(34)量化,在一数据流中经由线性预测系数(162)来传信所述线性预测频谱包络,且将所述频谱(34)编码至所述数据流中。
17.根据权利要求14所述的音频编码器,其中,所述编码器被配置为根据关于比例因子频带(110)的比例因子(112)而使用一频谱上变化且信号自适应的量化步长来使所述频谱(34)量化,在一数据流中传信所述比例因子,且将所述频谱(34)编码至所述数据流中。
18.根据权利要求14所述的音频编码器,被配置为自用以编码所述音频信号的频谱的一编码参数导出所述音调。
19.根据权利要求14所述的音频编码器,其中,所述音频编码器被配置为鉴别所述音调的两个以上不同状态。
20.一种包含以相依于一音频信号的一音调的方式来对所述音频信号的一频谱(34)执行噪声填充的方法,其中所述方法包含使用经由一线性预测频谱包络而控制的一频谱上变化且信号自适应的量化步长或关于比例因子频带(110)的比例因子(112),来使在所述噪声填充之后得到的所述频谱(34)去量化(132;174),在所述频谱(34)被编码至的一数据流中传信所述比例因子,所述线性预测频谱包络经由所述频谱(34)被编码(164)至的所述数据流中的线性预测系数(162)来传信,
其中,所述方法包括使用藉由以下函数而频谱上成形的噪声来对所述音频信号的所述频谱(34)的相连频谱零部分(40)进行填充,
一函数(48,50),该函数在所述相连频谱零部分(40)的一内部(52)中取一最大值,且具有向外下降边缘(58,60),所述向外下降边缘的一绝对斜率负相依于所述音调。
21.根据权利要求20所述的方法,其中,鉴别所述音调的两个以上不同状态。
22.一种支持噪声填充的音频编码方法,所述方法包含:使一音频信号的一频谱量化且将所述频谱编码至一数据流中;以及以相依于所述音频信号的一音调的方式来设定用于对所述音频信号的所述频谱执行噪声填充的一频谱上全局噪声填充水平且将所述频谱上全局噪声填充水平编码至所述数据流中,其中对所述频谱上全局噪声填充水平的设定和编码包括对相依于所述音频信号的所述音调而频谱上整形的所述频谱(34)的相连频谱零部分(40)内的所述音频信号的一水平的度量,
其中使用以下函数而频谱上整形所述音频信号的频谱(34)的所述相连频谱零部分(40),
一函数(48,50),该函数在所述相连频谱零部分(40)的一内部(52)中取一最大值,且具有向外下降边缘(58,60),所述向外下降边缘的一绝对斜率负相依于所述音调。
23.根据权利要求22所述的方法,其中,鉴别所述音调的两个以上不同状态。
24.一种计算机可读介质,存储有计算机程序,所述计算机程序具有程序代码,在计算机上运行时,所述计算机程序用于执行根据权利要求20或22所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910420349.3A CN110223704B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758209P | 2013-01-29 | 2013-01-29 | |
US61/758,209 | 2013-01-29 | ||
CN201910420349.3A CN110223704B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
PCT/EP2014/051630 WO2014118175A1 (en) | 2013-01-29 | 2014-01-28 | Noise filling concept |
CN201480006656.2A CN105190749B (zh) | 2013-01-29 | 2014-01-28 | 噪声填充技术 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480006656.2A Division CN105190749B (zh) | 2013-01-29 | 2014-01-28 | 噪声填充技术 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110223704A CN110223704A (zh) | 2019-09-10 |
CN110223704B true CN110223704B (zh) | 2023-09-15 |
Family
ID=50029035
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910419610.8A Active CN110189760B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
CN201910420349.3A Active CN110223704B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
CN201480006656.2A Active CN105190749B (zh) | 2013-01-29 | 2014-01-28 | 噪声填充技术 |
CN201910419597.6A Active CN110197667B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
CN201480019092.6A Active CN105264597B (zh) | 2013-01-29 | 2014-01-28 | 感知转换音频编码中的噪声填充 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910419610.8A Active CN110189760B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480006656.2A Active CN105190749B (zh) | 2013-01-29 | 2014-01-28 | 噪声填充技术 |
CN201910419597.6A Active CN110197667B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
CN201480019092.6A Active CN105264597B (zh) | 2013-01-29 | 2014-01-28 | 感知转换音频编码中的噪声填充 |
Country Status (21)
Country | Link |
---|---|
US (4) | US9524724B2 (zh) |
EP (6) | EP3693962B1 (zh) |
JP (2) | JP6289508B2 (zh) |
KR (6) | KR101926651B1 (zh) |
CN (5) | CN110189760B (zh) |
AR (2) | AR094678A1 (zh) |
AU (2) | AU2014211544B2 (zh) |
BR (2) | BR112015017633B1 (zh) |
CA (2) | CA2898024C (zh) |
ES (4) | ES2714289T3 (zh) |
HK (2) | HK1218345A1 (zh) |
MX (2) | MX345160B (zh) |
MY (2) | MY185164A (zh) |
PL (4) | PL3471093T3 (zh) |
PT (4) | PT2951817T (zh) |
RU (2) | RU2660605C2 (zh) |
SG (2) | SG11201505893TA (zh) |
TR (2) | TR201902849T4 (zh) |
TW (2) | TWI536367B (zh) |
WO (2) | WO2014118176A1 (zh) |
ZA (2) | ZA201506266B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2714289T3 (es) | 2013-01-29 | 2019-05-28 | Fraunhofer Ges Forschung | Llenado con ruido en la codificación de audio por transformada perceptual |
WO2014118156A1 (en) * | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
PL3069338T3 (pl) | 2013-11-13 | 2019-06-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder do kodowania sygnału audio, system przesyłania audio i sposób określania wartości korekcji |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980792A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an enhanced signal using independent noise-filling |
DE102016104665A1 (de) * | 2016-03-14 | 2017-09-14 | Ask Industries Gmbh | Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals |
US10146500B2 (en) | 2016-08-31 | 2018-12-04 | Dts, Inc. | Transform-based audio codec and method with subband energy smoothing |
TWI807562B (zh) | 2017-03-23 | 2023-07-01 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
EP3483880A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
WO2019166317A1 (en) * | 2018-02-27 | 2019-09-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | A spectrally adaptive noise filling tool (sanft) for perceptual transform coding of still and moving images |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
CN112735449B (zh) * | 2020-12-30 | 2023-04-14 | 北京百瑞互联技术有限公司 | 优化频域噪声整形的音频编码方法及装置 |
CN113883672B (zh) * | 2021-09-13 | 2022-11-15 | Tcl空调器(中山)有限公司 | 噪音类型识别方法、空调器及计算机可读存储介质 |
WO2023118598A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a tilt |
WO2023117144A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a tilt |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002091363A1 (en) * | 2001-05-08 | 2002-11-14 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2005078706A1 (en) * | 2004-02-18 | 2005-08-25 | Voiceage Corporation | Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx |
WO2010003565A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filler, noise filling parameter calculator, method for providing a noise filling parameter, method for providing a noise-filled spectral representation of an audio signal, corresponding computer program and encoded audio signal |
WO2010003618A2 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
WO2011042464A1 (en) * | 2009-10-08 | 2011-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
WO2011048117A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
WO2012110482A2 (en) * | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise generation in audio codecs |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
US6167133A (en) | 1997-04-02 | 2000-12-26 | At&T Corporation | Echo detection, tracking, cancellation and noise fill in real time in a communication system |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
WO2006079348A1 (en) * | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for generating concealment frames in communication system |
KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
US8332216B2 (en) | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
KR101291672B1 (ko) * | 2007-03-07 | 2013-08-01 | 삼성전자주식회사 | 노이즈 신호 부호화 및 복호화 장치 및 방법 |
CN101303855B (zh) * | 2007-05-11 | 2011-06-22 | 华为技术有限公司 | 一种舒适噪声参数产生方法和装置 |
US9653088B2 (en) | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
DK2571024T3 (en) * | 2007-08-27 | 2015-01-05 | Ericsson Telefon Ab L M | Adaptive transition frequency between the noise filling and bandwidth extension |
ES2704286T3 (es) * | 2007-08-27 | 2019-03-15 | Ericsson Telefon Ab L M | Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
BRPI0818927A2 (pt) * | 2007-11-02 | 2015-06-16 | Huawei Tech Co Ltd | Método e aparelho para a decodificação de áudio |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
MY181231A (en) | 2008-07-11 | 2020-12-21 | Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
CN102177426B (zh) | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
ES2797525T3 (es) * | 2009-10-15 | 2020-12-02 | Voiceage Corp | Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC |
CN102063905A (zh) * | 2009-11-13 | 2011-05-18 | 数维科技(北京)有限公司 | 一种用于音频解码的盲噪声填充方法及其装置 |
CN102194457B (zh) * | 2010-03-02 | 2013-02-27 | 中兴通讯股份有限公司 | 音频编解码方法、系统及噪声水平估计方法 |
US9236063B2 (en) * | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
WO2012046685A1 (ja) * | 2010-10-05 | 2012-04-12 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 |
ES2664090T3 (es) * | 2011-03-10 | 2018-04-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Relleno de subvectores no codificados en señales de audio codificadas por transformada |
TWI606441B (zh) * | 2011-05-13 | 2017-11-21 | 三星電子股份有限公司 | 解碼裝置 |
MX340386B (es) * | 2011-06-30 | 2016-07-07 | Samsung Electronics Co Ltd | Aparato y metodo para generar señal extendida de ancho de banda. |
JP2013015598A (ja) * | 2011-06-30 | 2013-01-24 | Zte Corp | オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法 |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
ES2714289T3 (es) | 2013-01-29 | 2019-05-28 | Fraunhofer Ges Forschung | Llenado con ruido en la codificación de audio por transformada perceptual |
-
2014
- 2014-01-28 ES ES14701753T patent/ES2714289T3/es active Active
- 2014-01-28 MY MYPI2015001882A patent/MY185164A/en unknown
- 2014-01-28 MX MX2015009600A patent/MX345160B/es active IP Right Grant
- 2014-01-28 PT PT14701753T patent/PT2951817T/pt unknown
- 2014-01-28 ES ES14701991T patent/ES2709360T3/es active Active
- 2014-01-28 KR KR1020177028123A patent/KR101926651B1/ko active IP Right Grant
- 2014-01-28 EP EP20164371.5A patent/EP3693962B1/en active Active
- 2014-01-28 TR TR2019/02849T patent/TR201902849T4/tr unknown
- 2014-01-28 CN CN201910419610.8A patent/CN110189760B/zh active Active
- 2014-01-28 KR KR1020167019946A patent/KR101778220B1/ko active IP Right Grant
- 2014-01-28 CA CA2898024A patent/CA2898024C/en active Active
- 2014-01-28 PL PL18206224T patent/PL3471093T3/pl unknown
- 2014-01-28 CA CA2898029A patent/CA2898029C/en active Active
- 2014-01-28 CN CN201910420349.3A patent/CN110223704B/zh active Active
- 2014-01-28 BR BR112015017633-0A patent/BR112015017633B1/pt active IP Right Grant
- 2014-01-28 KR KR1020157022497A patent/KR101897092B1/ko active IP Right Grant
- 2014-01-28 PL PL18199319T patent/PL3451334T3/pl unknown
- 2014-01-28 WO PCT/EP2014/051631 patent/WO2014118176A1/en active Application Filing
- 2014-01-28 KR KR1020167019945A patent/KR101877906B1/ko active IP Right Grant
- 2014-01-28 BR BR112015017748-4A patent/BR112015017748B1/pt active IP Right Grant
- 2014-01-28 WO PCT/EP2014/051630 patent/WO2014118175A1/en active Application Filing
- 2014-01-28 MX MX2015009601A patent/MX343572B/es active IP Right Grant
- 2014-01-28 AU AU2014211544A patent/AU2014211544B2/en active Active
- 2014-01-28 EP EP14701991.3A patent/EP2951818B1/en active Active
- 2014-01-28 SG SG11201505893TA patent/SG11201505893TA/en unknown
- 2014-01-28 ES ES18199319T patent/ES2796485T3/es active Active
- 2014-01-28 EP EP14701753.7A patent/EP2951817B1/en active Active
- 2014-01-28 CN CN201480006656.2A patent/CN105190749B/zh active Active
- 2014-01-28 PT PT181993197T patent/PT3451334T/pt unknown
- 2014-01-28 PT PT182062240T patent/PT3471093T/pt unknown
- 2014-01-28 SG SG11201505915YA patent/SG11201505915YA/en unknown
- 2014-01-28 EP EP18206224.0A patent/EP3471093B1/en active Active
- 2014-01-28 JP JP2015555679A patent/JP6289508B2/ja active Active
- 2014-01-28 RU RU2015136505A patent/RU2660605C2/ru active
- 2014-01-28 MY MYPI2015001884A patent/MY172238A/en unknown
- 2014-01-28 EP EP18199319.7A patent/EP3451334B1/en active Active
- 2014-01-28 ES ES18206224T patent/ES2834929T3/es active Active
- 2014-01-28 PT PT14701991T patent/PT2951818T/pt unknown
- 2014-01-28 AU AU2014211543A patent/AU2014211543B2/en active Active
- 2014-01-28 KR KR1020157022827A patent/KR101757347B1/ko active IP Right Grant
- 2014-01-28 JP JP2015555680A patent/JP6158352B2/ja active Active
- 2014-01-28 KR KR1020167019944A patent/KR101778217B1/ko active IP Right Grant
- 2014-01-28 CN CN201910419597.6A patent/CN110197667B/zh active Active
- 2014-01-28 PL PL14701753T patent/PL2951817T3/pl unknown
- 2014-01-28 EP EP20192419.8A patent/EP3761312B1/en active Active
- 2014-01-28 RU RU2015136502A patent/RU2631988C2/ru active
- 2014-01-28 PL PL14701991T patent/PL2951818T3/pl unknown
- 2014-01-28 TR TR2019/02394T patent/TR201902394T4/tr unknown
- 2014-01-28 CN CN201480019092.6A patent/CN105264597B/zh active Active
- 2014-01-29 TW TW103103524A patent/TWI536367B/zh active
- 2014-01-29 AR ARP140100294A patent/AR094678A1/es active IP Right Grant
- 2014-01-29 TW TW103103519A patent/TWI529700B/zh active
- 2014-01-29 AR ARP140100295A patent/AR094679A1/es active IP Right Grant
-
2015
- 2015-07-28 US US14/811,748 patent/US9524724B2/en active Active
- 2015-07-29 US US14/812,354 patent/US9792920B2/en active Active
- 2015-08-27 ZA ZA2015/06266A patent/ZA201506266B/en unknown
- 2015-08-27 ZA ZA2015/06269A patent/ZA201506269B/en unknown
-
2016
- 2016-06-03 HK HK16106324.6A patent/HK1218345A1/zh unknown
- 2016-06-03 HK HK16106322.8A patent/HK1218344A1/zh unknown
-
2017
- 2017-09-07 US US15/698,442 patent/US10410642B2/en active Active
-
2019
- 2019-07-26 US US16/523,588 patent/US11031022B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002091363A1 (en) * | 2001-05-08 | 2002-11-14 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2005078706A1 (en) * | 2004-02-18 | 2005-08-25 | Voiceage Corporation | Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx |
WO2010003565A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise filler, noise filling parameter calculator, method for providing a noise filling parameter, method for providing a noise-filled spectral representation of an audio signal, corresponding computer program and encoded audio signal |
WO2010003618A2 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
CN102089806A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 噪声填充器、噪声填充参数计算器、用于提供噪声填充参数的方法/用于提供音频信号的填充了噪声的频谱表示的方法、以及相应的计算机程序和经编码的音频信号表示 |
WO2011042464A1 (en) * | 2009-10-08 | 2011-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
WO2011048117A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation |
WO2012110482A2 (en) * | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Noise generation in audio codecs |
Non-Patent Citations (2)
Title |
---|
audio data hiding with application to surround sound;J.Chou;《ICASSP 03》;20031231;全文 * |
基于预测编码的CMOS DPS研究;张弛;《中国优秀硕士学位论文全文数据库》;20120815(第8期);全文 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223704B (zh) | 对音频信号的频谱执行噪声填充的装置 | |
CN118786481A (zh) | 用于在音频编码中使用不同噪声填充方法以频谱时间方式改善频谱间隙填充的方法和设备 | |
CN118805218A (zh) | 用于在音频编码中使用倾斜以频谱时间方式改善频谱间隙填充的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |