CN105264597B - 感知转换音频编码中的噪声填充 - Google Patents
感知转换音频编码中的噪声填充 Download PDFInfo
- Publication number
- CN105264597B CN105264597B CN201480019092.6A CN201480019092A CN105264597B CN 105264597 B CN105264597 B CN 105264597B CN 201480019092 A CN201480019092 A CN 201480019092A CN 105264597 B CN105264597 B CN 105264597B
- Authority
- CN
- China
- Prior art keywords
- spectral
- noise
- spectrum
- function
- contiguous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Abstract
通过利用频谱上全局倾斜而非以频谱上平坦方式来执行噪声填充以改良感知转换音频编码解码器中的噪声填充。
Description
技术领域
本申请是关于感知转换音频编码中的噪声填充。
背景技术
在转换编码中,常常认识到(对照[1]、[2]、[3]),将频谱的一部分量化至零会导致感知降级。量化至零的这种部分被称作频谱洞(spectrum hole)。[1]、[2]、[3]及[4]中呈现的针对此问题的解决方案是利用噪声来替换零量化谱线。有时,在低于某一频率的情况下避免噪声的插入。用于噪声填充的开始频率固定,但在已知现有技术之间不同。
有时,使用频域噪声整形(Frequency Domain Noise Shaping,FDNS)以用于整形(包括插入噪声的)频谱且用于控制量化噪声,如在USAC中(对照[4])。使用LPC滤波器的幅值响应来执行FDNS。使用经预强调输入信号来计算LPC滤波器系数。
在[1]中注意到,在音调分量的紧接邻域中添加噪声会导致降级,且因此,正如在[5]中,利用噪声来填充仅长是列零以避免由经注入周围噪声隐蔽非零量化值。
在[3]中注意到,存在噪声填充的粒度与所需旁侧信息的大小之间的折衷的问题。在[1]、[2]、[3]及[5]中,传输每完整频谱一个噪声填充参数。如在[2]中使用LPC或如在[3]中使用比例因子来频谱上整形经插入噪声。[3]中描述如何针对整个频谱使比例因子适应于具有一个噪声填充水平的噪声填充。在[3]中,修改用于完全地量化至零的频带的比例因子以避免频谱洞且具有正确噪声水平。
即使[1]及[5]中的解决方案因其建议不填充小频谱洞而避免音调分量的降级,仍需要进一步改良使用噪声填充而编码的音频信号的质量,尤其是在极低位速率下。
存在除了上文所论述的问题以外的其它问题,其是由至此所知的噪声填充概念引起,根据这些噪声填充概念,以频谱上平坦方式将噪声填充至频谱中。
将有利的是具有即将到来的一种改良型噪声填充概念,其至少结合感知转换音频编码来增加由音频填充式频谱引起的可达成的音频质量。
发明内容
因此,本发明的一目标是提供一种具有改良型特性的用于感知转换音频编码中的噪声填充的概念。
此目标是通过同此附入的独立权利要求的主题而达成,其中本申请的有利方面为从属权利要求的主题。
本申请的一基本发现为:可通过利用一频谱上全局倾斜而非以一频谱上平坦方式来执行感知转换音频编码解码器中的噪声填充而改良该噪声填充。举例来说,该频谱上全局倾斜可具有一负斜率,亦即,展现自低频至高频的一递减,以便至少部分地反转由使噪声填充频谱经受频谱感知加权函数而造成的频谱倾斜。一正斜率亦可为可想象的,例如,在该经编码频谱展现一似高通特性的状况下。详言之,频谱感知加权函数通常倾向于展现自低频至高频的一递增。因此,以一频谱上平坦方式填充至感知转换音频编码器的频谱中的噪声将在经最终重新建构频谱中以一倾斜噪声底面而完结。然而,本申请的发明者已认识到,该经最终重新建构频谱中的此倾斜负面地影响音频质量,此是因为其导致频谱洞剩余于该频谱的噪声填充式部分中。因此,利用一频谱上全局倾斜来插入该噪声以使得噪声水平自低频至高频递减会使用该频谱感知加权函数来至少部分地补偿由该噪声填充式频谱的后续整形造成的此频谱倾斜,藉此改良该音频质量。取决于情况,一正斜率可能是优选的,如上文所提到。
根据一实施例,该频谱上全局倾斜的该斜率是响应于该频谱被编码至的数据流中的一信令而变化。该信令可(例如)明确地信号通知陡度,且可在编码侧适应于由该频谱感知加权函数造成的频谱倾斜的量。举例来说,由该频谱感知加权函数造成的频谱倾斜的量可源于在对音频信号应用LPC分析之前该音频信号所经受的一预强调。
根据一实施例,通过以依赖于一音频信号的音调的一方式来执行该音频信号的一频谱的噪声填充,关于该噪声填充式频谱而在质量上更进一步改良该噪声填充,使得该噪声填充式音频信号的重现较不烦人。
根据本申请的一实施例,通过使用一函数而以频谱上整形的噪声来填充该音频信号的频谱的一相连频谱零部分,该函数在该相连频谱零部分的一内部中采取一最大值,且具有向外下降边缘,该向外下降边缘的一绝对斜率是负依赖于该调性,亦即,该斜率随着调性递增而递减。另外或替代地,用于填充的该函数在该相连频谱零部分的一内部中采取一最大值,且具有向外下降边缘,该向外下降边缘的一频谱宽度是正依赖于该调性,亦即,该频谱宽度随着调性递增而递增。更进一步,另外或替代地,可将一常数或单峰函数用于填充,该常数或单峰函数对该相连频谱零部分的外部四等份部(outer quarter)的一积分——归一化至为1的一积分——是负依赖于该调性,亦即,该积分随着调性递增而递减。通过所有这种措施,噪声填充倾向于对于该音频信号的音调部分较不有害,然而,在频谱洞的缩减方面对于该音频信号的非音调部分仍然有效。换言之,无论何时该音频信号具有一音调内容,填充至该音频信号的频谱中的该噪声皆离开未受到保持与其相隔足够距离影响的该频谱的音调峰,然而,其中仍然通过该噪声填充来满足具有作为非音调的音频内容的该音频信号的时间相位的非音调特性。
根据本申请的一实施例,识别该音频信号的频谱的相连频谱零部分,且利用通过函数而频谱上整形的噪声来填充所识别的该零部分,使得对于每一相连频谱零部分,依赖于一相应相连频谱零部分的宽度及该音频信号的音调来设定该相应函数。出于实施简易起见,可通过在函数的一查找表中的一查找来达成该依赖性,或可使用依赖于该相连频谱零部分的宽度及该音频信号的该调性的一数学公式来分析地计算该函数。在任何状况下,相比于由该依赖性引起的优势,用于实现该依赖性的努力相对微小。详言之,该依赖性可使得:依赖于该相连频谱零部分的宽度来设定该相应函数,使得该函数限于该相应相连频谱零部分;及依赖于该音频信号的该调性来设定该各函数,使得对于该音频信号的一较高调性,一函数的群体(mass)在该各相连频谱零部分的该内部中变得更紧凑,且远离于该各相连频谱零部分的边缘。
根据一另外实施例,通常使用一频谱上全局噪声填充水平来按比例调整经频谱上整形且填充至该相连频谱零部分中的该噪声。详言之,按比例调整该噪声,使得在该相连频谱零部分中对该噪声的一积分或对该相连频谱零部分的该函数的一积分对应于(例如,等于)一全局噪声填充水平。有利地,无论如何皆在现有音频编码解码器内编码一全局噪声填充水平,使得不必针对这种音频编码解码器提供额外语法。亦即,可以少量努力明确地在该音频信号被编码至的数据流中信令该全局噪声填充水平。实际上,可按比例调整供频谱上整形该相连频谱零部分的噪声的该函数,使得对供填充所有相连频谱零部分的该噪声的一积分对应于该全局噪声填充水平。
根据本申请的一实施例,该调性是自一编码参数导出,该音频信号是使用该编码参数予以编码。通过此措施,无需在一现有音频编码解码器内传输额外信息。根据特定实施例,该编码参数为一长期预测(Long-Term Prediction,LTP)标记或增益、一时间噪声整形(Temporal Noise Shaping,TNS)启用标记或增益,及/或一频谱重新配置启用标记(spectrum rearrangement enablement flag)。
根据一另外实施例,该噪声填充的该执行限于一高频频谱部分上,其中对应于一数据流中的一明确信令来设定该高频频谱部分的一低频开始位置,且将该音频信号编码至该数据流。通过此措施,执行该噪声填充的该高频频谱部分的下限的一信号自适应性设定是可行的。通过此措施,又可提高由该噪声填充引起的该音频质量。又由该明确信令造成的所必要的额外旁侧信息比较小。
该噪声填充可用于音频编码及/或音频解码侧。当用于音频编码侧时,可出于合成式分析目的而使用该噪声填充式频谱。
根据一实施例,一编码器通过考虑该调性依赖性来判定该全局噪声比例水平。
附图说明
下文关于诸图来描述本申请的较佳实施例,在附图当中:
图1a展示根据一实施例的感知转换音频编码器的方块图;
图1b展示根据一实施例的感知转换音频解码器的方块图;
图1c展示根据一实施例的说明实现将引入至所填充的噪声中的频谱上全局倾斜的可能方式的示意图;
图2a出于说明目的而以时间对准方式相继地自顶部至底部展示来自音频信号的时间片段、其使用频谱能量的示意性指示的“灰阶”频谱时间变化的频谱图,及音频信号的调性;
图2b展示根据一实施例的噪声填充装置的方块图;
图3展示根据一实施例的待经受噪声填充的频谱及用以频谱上整形噪声的函数的示意图,该噪声用以填充此频谱的相连频谱零部分;
图4展示根据一另外实施例的待经受噪声填充的频谱及用以频谱上整形噪声的函数的示意图,该噪声用以填充此频谱的相连频谱零部分;
图5展示根据再一实施例的待经受噪声填充的频谱及用以频谱上整形噪声的函数的示意图,该噪声用以填充此频谱的相连频谱零部分;
图6展示根据一实施例的图2的噪声填充器的方块图;
图7示意性地展示根据一实施例的所判定的音频信号的调性(一方面)与可用于频谱上整形相连频谱零部分的可能函数(另一方面)之间的可能关系;
图8示意性地展示根据一实施例的待噪声填充的频谱,其中另外展示用以频谱上整形用于填充该频谱的相连频谱零部分的噪声的函数,以便说明如何按比例调整该噪声的水平;
图9展示可用于采用关于图1至图8所描述的噪声填充概念的音频编码解码器内的编码器的方块图;
图10示意性地展示根据一实施例的如由图9的编码器编码的待噪声填充的量化频谱,连同经传输的旁侧信息,即,比例因子及全局噪声水平;
图11展示配合于图9的编码器且包括根据图2的噪声填充装置的解码器的方块图;
图12展示根据图9的编码器及图11的解码器的实施方式的变体的具有关联的旁侧信息数据的频谱图的示意图;
图13展示根据一实施例的可包括于使用图1至图8的噪声填充概念的音频编码解码器中的线性预测转换音频编码器;
图14展示配合于图13的编码器的解码器的方块图;
图15展示来自待噪声填充的频谱的片段的实例;
图16展示根据一实施例的用于一函数的明确实例,该函数用于整形填充至待噪声填充的频谱的某一相连频谱零部分中的噪声;
图17a至图17d展示用于函数的各种实例,该函数用于针对用于不同调性的不同零部分宽度及不同过渡宽度的频谱上整形填充至相连频谱零部分中的噪声。
无论在该附图的以下描述中何处,皆将相同参考记号用于这种图所展示的组件,关于一个图中的一个组件所提出的描述应被解译为可转移至另一图中已使用相同参考记号而参考的组件上。通过此措施,尽可能地避免延伸性且重复性的描述,藉此使各种实施例的描述集中于彼此间的差异,而非自开头起一次又一次地重新描述所有实施例。
具体实施方式
图1a展示根据本申请的一实施例的感知转换音频编码器,且图1b展示根据本申请的一实施例的感知转换音频解码器,两者配合在一起以便形成感知转换音频编码解码器。
如图1a所展示,感知转换音频编码器包含频谱加权器1,其被配置为以实例在下文中被展示的预定方式而根据由频谱加权器1判定的频谱加权感知加权函数的逆来频谱上加权由频谱加权器1接收的音频信号的原始频谱。通过此措施,频谱加权器1获得感知上加权频谱,其接着以频谱上均一方式(亦即,以对于频谱线相同的方式)在感知转换音频编码器的量化器2中经受量化。由均一量化器2输出的结果为量化频谱34,其最终被编码至由感知转换音频编码器输出的数据流中。
为了控制待在解码侧执行的噪声填充以便改良频谱34,关于设定噪声的水平,可视情况存在感知转换音频编码器的噪声水平计算机3,其通过量测在共置至量化频谱34的零部分40的部分5处的感知上加权频谱4的水平来计算噪声水平参数。亦可在前述数据流中编码如此计算的噪声水平参数,以便到达解码器。
图1b中展示感知转换音频解码器。感知转换音频解码器包含噪声填充装置30,其被配置为通过利用展现频谱上全局倾斜的噪声来填充频谱34以使得噪声水平自低频至高频递减而对如编码至由图1a的编码器产生的数据流中的音频信号的入端口频谱34执行噪声填充,以便获得噪声填充式频谱36。使用参考记号6而指示的感知转换音频解码器的噪声频域噪声整形器被配置为以下文进一步通过特定实例描述的方式使用经由数据流而自编码侧获得的频谱感知加权函数来使噪声填充式频谱经受频谱整形。可将由频域噪声整形器6输出的此频谱转递至逆转换器7,以便在时域中重新建构音频信号,且同样地,在感知转换音频编码器内,转换器8可在频谱加权器1之前,以便向频谱加权器1提供音频信号的频谱。
利用展现频谱上全局倾斜的噪声9来填充频谱34的显著性如下:稍后,当噪声填充式频谱36经受由频域噪声整形器6进行的频谱整形时,频谱36将经受倾斜加权函数。举例来说,相比于低频的加权,在高频下,频谱将被放大。亦即,相对于较低频率,在较高频下,频谱36的水平将升高。此情形在频谱36的原始频谱上平坦部分中造成具有正斜率的频谱上全局倾斜。因此,若噪声9将以频谱上平坦方式被填充至频谱36中以便填充其零部分40,则由FDNS 6输出的频谱将在这种部分40内展示倾向于自(例如)低频至高频递增的噪声底面。亦即,当检验其中执行噪声填充的整个频谱或频谱频宽的至少部分时,人们将看到,部分40内的噪声所具有的倾向或线性回归函数具有正斜率或负斜率。然而,因为噪声填充装置30利用展现正或负斜率(在图1b中被展示为α)的频谱上全局倾斜且倾斜成相反方向(相比于由FDNS 9造成的倾斜)的噪声来填充频谱34,所以补偿由FDNS 6造成的频谱倾斜,且如此引入至FDNS 6的输出处的经最终重新建构频谱中的噪声底面平坦或至少较平坦,藉此增加音频质量,从而留下较少的深噪声洞。
“频谱上全局倾斜”应表示出填充至频谱34中的噪声9具有倾向于自低频至高频递减(或递增)的水平。举例来说,当经由如填充至相连频谱零部分40中(例如,相互频谱上远离)的噪声9的局域最大值而置放线性回归线时,所得线性回归线具有负(或正)斜率α。
虽然并非强制性,但感知转换音频编码器的噪声水平计算机可通过以利用频谱上全局倾斜而加权的方式来量测在部分5处的感知上加权频谱4的水平而考虑将噪声填充至频谱34中的倾斜方式,该频谱上全局倾斜(例如)在α为负的状况下具有正斜率且在α为正的情况下具有负斜率。由噪声水平计算机应用的斜率(其在图1a中被指示为β)就其绝对值而言不必与在解码侧应用的斜率相同,但根据一实施例,可能为该斜率相同的状况。藉此,噪声水平计算机3能够以最佳方式且横越整个频谱频宽使在解码侧插入的噪声9的水平更精确地适应于近似原始信号的噪声水平。
稍后,将描述出可能可行的是经由数据流中的明确信令或经由隐含信令而控制频谱上全局倾斜的斜率α的变化,此在于(例如):噪声填充装置30自(例如)频谱感知加权函数自身或自转换窗长度切换推断陡度。举例来说,通过后者推断,可使斜率适应于窗长度。
存在供噪声填充装置30使噪声9展现频谱上全局倾斜的不同可行方式。举例来说,图1c说明出噪声填充装置30执行表示噪声填充处理中的中间状态的中间噪声信号13与单调递减(或递增)函数15(亦即,横越整个频谱或至少其中执行噪声填充的部分单调地频谱上递减(或递增)的函数)之间的逐频谱线相乘11,以获得噪声9。如图1c所说明,中间噪声信号13可能已被频谱上整形。在此方面的细节是关于下文进一步所概述的特定实施例,根据该实施例,亦依赖于调性来执行噪声填充。然而,亦可略去或可在相乘11之后执行频谱整形。可使用噪声水平参数信号及数据流以设定中间噪声信号13的水平,但替代地,可使用标准水平来产生中间噪声信号,从而应用标量噪声水平参数以便在相乘11之后按比例调整频谱线。如图1c所说明,单调递减函数15可为线性函数、分段线性函数、多项式函数或任何其它函数。
如下文将更详细地所描述,将可行的是自适应性地设定由噪声填充装置30执行噪声填充所处的整个频谱的部分。
结合以特定非平坦且调性依赖的方式来填充频谱34中的相连频谱零部分(亦即,频谱洞)所根据的下文进一步所概述的实施例,将解释到亦存在用于图1c所说明的相乘11的替代例,以便激发至此所论述的频谱上全局倾斜。
以下描述继续进行用于执行噪声填充的特定实施例。在下文中,针对各种音频编码解码器呈现不同实施例(其中该噪声填充可为内建式),连同可结合所呈现的相应音频编码解码器而应用的细节。注意到,在任何状况下,可在解码侧执行接下来所描述的噪声填充。然而,依赖于编码器,亦可在编码侧执行如接下来所描述的噪声填充,诸如,出于合成式分析原因。下文亦描述一中间状况,根据该中间状况,根据下文所概述的实施例的噪声填充的经修改方式仅仅部分地改变编码器工作的方式,诸如,以便判定频谱上全局噪声填充水平。
图2a出于说明目的而展示音频信号10,亦即,其音频样本的时间进程,例如,音频信号的时间对准频谱图12,其是已自音频信号10导出,该导出是至少尤其经由诸如在14处说明的搭接转换的合适转换,该搭接转换针对两个连续转换窗16及关联频谱18是例示性的,其因此表示(例如)在对应于关联转换窗16的中间的时间例项时来自频谱图12的切片。下文进一步呈现用于频谱图12及如何导出频谱图12的实例。在任何状况下,频谱图12已经受某一种类的量化,且因此具有零部分,其中频谱图12被频谱时间上取样时的频谱值相连地为零。搭接转换14可(例如)为诸如MDCT的临界取样转换。转换窗16可具有相互50%的重迭,但不同实施例亦是可行的。另外,频谱图12被取样至频谱值中时的频谱时间分辨率可在时间上变化。换言之,频谱图12的连续频谱18之间的时间距离可在时间上变化,且其适用于每一频谱18的频谱分辨率。详言之,就连续频谱18之间的时间距离而言,时间变化可与该频谱的频谱分辨率的变化相反。举例来说,量化使用频谱上变化的、信号自适应性量化步长,其(例如)根据通过在具有待噪声填充的频谱18的频谱图12的量化频谱值被编码至的数据流中信令的LP系数而描述的音频信号的LPC频谱包络而变化,或根据进而根据心理声学模型所判定且在该数据串流中信号通知的比例因子而变化。
除此之外,以时间对准方式,图2a展示音频信号10的特性及其时间变化,即,该音频信号的调性。一般而言,“调性”指示描述音频信号的能量在某一时间点时在与该时间点相关联的相应频谱18中的集中程度的度量。若能量散布得多,诸如,在音频信号10的有噪声时间相位中,则调性低。但,若能量实质上集中至一或多个频谱峰,则调性高。
图2b展示根据本发明的一实施例的被配置为对音频信号的频谱执行噪声填充的噪声填充装置30。如下文将更详细地所描述,该装置被配置为依赖于音频信号的调性来执行噪声填充。
图2b的装置包含噪声填充器32及调性判定器35,调性判定器35是选用的。
实际噪声填充是由噪声填充器32执行。噪声填充器32接收应被应用噪声填充的频谱。此频谱在图2b中被说明为稀疏频谱34。稀疏频谱34可为来自频谱图12的频谱18。频谱18循序地进入噪声填充器32。噪声填充器32使频谱34经受噪声填充且输出“填充式频谱”36。噪声填充器32依赖于音频信号的调性(诸如,图2a中的调性20)来执行噪声填充。依赖于情况,可能不会直接地可得到调性。举例来说,现有音频编码解码器不在数据流中提供音频信号的调性的明确信令,使得若装置30安装于解码侧,则将不可行的是在无高度错误估计的情况下重新建构该调性。举例来说,归因于频谱34的稀疏性及/或由于其信号自适应性变化量化,频谱34可能并非用于调性估计的最佳基础。
因此,调性判定器35的任务是基于另一音调提示38而向噪声填充器32提供调性的估计,如下文将更详细地所描述。根据稍后所描述的实施例,通过在使用(例如)装置30的音频编码解码器的数据流内传送的相应编码参数,无论如何皆可在编码侧及解码侧可得到调性提示38。在图1b中,装置30用于解码侧,但替代地,装置30亦可用于编码侧,诸如,在图1a的编码器的预测反馈回路(若存在)中。
图3展示针对量化至零的稀疏频谱34(亦即,具有由频谱34的数是列频谱上相邻频谱值组成的相连部分40及42的量化频谱)的实例。相连部分40及42因此频谱上不相交,或经由频谱34中的至少一个未量化至零频谱线而彼此远离。
可如下实施上文关于图2b大体上所描述的噪声填充的调性依赖性。图3展示在46处放大的包括相连频谱零部分40的时间部分44。噪声填充器32被配置为以依赖于在频谱34所属的时间时的音频信号的调性的方式来填充此相连频谱零部分40。详言之,噪声填充器32通过使用一函数而频谱上整形的噪声来填充相连频谱零部分,该函数在相连频谱零部分的内部中采取最大值,且具有向外下降边缘,该向外下降边缘的绝对斜率是负依赖于调性。图3针对两个不同调性例示性地展示两个函数48。两个函数皆为“单峰”,亦即,在相连频谱零部分40的内部中采取绝对最大值,且具有可为平顶区或单一频谱频率的仅仅一个局域最大值。此处,局域最大值是由函数48及50遍及零部分40的中心中配置的延伸区间52(亦即,平顶区)连续地采取。函数48及50的域为零部分40。中心区间52仅仅涵盖零部分40的中心部分,且是由在区间52的较高频侧的边缘部分54及在区间52的较低频率侧的较低频率边缘部分56侧接。在边缘部分54内,函数48及52具有下降边缘58,且在边缘部分56内,函数48及52具有上升边缘60。绝对斜率可分别归因于每一边缘58及60,诸如,分别在边缘部分54及56内的平均斜率。亦即,归因于下降边缘58的斜率可为分别在边缘部分54内的各自函数48及52的平均斜率,且归因于上升边缘60的斜率可为分别在边缘部分56内的函数48及52的平均斜率。
可看出,边缘58及60的斜率的绝对值针对函数50相比于针对函数48较高。针对低于噪声填充器32选择使用函数48以用于填充零部分40所针对的调性的调性,噪声填充器32选择利用函数50来填充零部分40。通过此措施,噪声填充器32避免群集频谱34的潜在音调频谱峰(诸如,峰62)的紧接周边。边缘58及60的绝对斜率愈小,则填充至零部分40中的噪声与环绕零部分40的频谱34的非零部分相隔得愈远。
噪声填充器32可(例如)在音频信号的调性为τ2的状况下决定选择函数48,且在音频信号的调性为τ1的状况下决定选择函数50,但下文进一步所提出的描述将揭露出噪声填充器32可鉴别音频信号的调性的多于两个的不同状态,亦即,可支持用于填充某一相连频谱零部分的多于两个不同函数48、50,且经由自调性至函数的满射映像而依赖于调性在彼等函数之间进行选择。
作为微小批注,注意到,函数48、50的建构仅仅为一实例,根据该建构,该函数在内部区间52中具有平顶区,其是由边缘58及60侧接,以便引起单峰函数。替代地,举例来说,根据一替代例,可使用钟形函数(bell-shaped function)。区间52可替代地被定义为函数比其最大值高95%所处的区间。
图4展示关于调性的用于函数的变化的替代例,该函数用以频谱上整形由噪声填充器32填充某一相连频谱零部分40所利用的噪声。根据图4,该变化是关于分别为边缘部分54及56以及向外下降边缘58及60的频谱宽度。如图4所展示,根据图4的实例,边缘58及60的斜率可甚至独立于调性,亦即,不根据调性而改变。详言之,根据图4的实例,噪声填充器32设定频谱上整形用于填充零部分40的噪声所使用的函数,使得向外下降边缘58及60的频谱宽度是正依赖于调性,亦即,对于较高调性,使用向外下降边缘58及60的频谱宽度较大的函数48,且对于较低调性,使用向外下降边缘58及60的频谱宽度较小的函数50。
图4展示一函数的变化的另一实例,该函数是由噪声填充器32使用以用于频谱上整形填充相连频谱零部分40所利用的噪声:此处,随着调性而变化的函数的特性为对零部分40的外部四等份部的积分。调性愈高,则区间愈大。在判定区间之前,函数对完整零部分40的总积分等化/归一化至(诸如)1。
为了解释此情形,参见图5。相连频谱零部分40被展示为经分割成四个相等大小的四等份部a、b、c、d,其中四等份部a及d为外部四等份部。可看出,函数50及48两者在内部中(此处例示性地在零部分40的中间中)具有其质心,但这函数两者自内部四等份部b、c延伸至外部四等份部a及d中。函数48及50的重迭部分(分别重迭于外部四等份部a及d)仅仅被展示为阴影。
在图5中,两个函数皆具有对整个零部分40(亦即,对所有四个四等份部a、b、c、d)的相同积分。该积分被(例如)归一化至1。
在此情形中,函数50对四等份部a、d的积分大于函数48对四等份部a、d的积分,且因此,噪声填充器32将函数50用于较高调性,且将函数48用于较低调性,亦即,对归一化函数50及48的外部四等份部的积分是负依赖于调性。
出于说明目的,在图5的状况下,函数48及50两者已被例示性地展示为常数或二元函数。举例来说,函数50为遍及整个域(亦即,整个零部分40)采取常数值的函数,且函数48为在零部分40的外部边缘处为零且在其间采取非零常数值的二元函数。应清楚,一般而言,根据图5的实例的函数50及48可为任何常数或单峰函数,诸如,对应于图3及图4所展示的函数的函数。甚至更精确而言,至少一者可为单峰且至少一者可为(分段)常数,且潜在另外者可为单峰或常数中任一者。
虽然依赖于调性的函数48及50的变化类型变化,但图3至图5的所有实例共同之处在于:对于递增的调性,缩减或避免使频谱34中的音调峰的紧接周围拖尾的程度,使得噪声填充的质量增加,此是因为噪声填充不负面地影响音频信号的音调相位且仍然引起音频信号的非音调相位的合意近似。
直到现在,图3至图5的描述聚焦于一个相连频谱零部分的填充。根据图6的实施例,图2b的装置被配置为识别音频信号的频谱的相连频谱零部分且将噪声填充应用至如此所识别的相连频谱零部分上。详言之,图6将图2b的噪声填充器32更详细地展示为包含零部分识别器70及零部分填充器72。该零部分识别器在频谱34中搜寻相连频谱零部分,诸如,图3中的40及42。如上文已经描述,可将相连频谱零部分定义为已量化至零的列频谱值。零部分识别器70可被配置为将识别限于开始某一开始频率(亦即,位于某一开始频率上方)的音频信号频谱的高频频谱部分上。因此,装置可被配置为将噪声填充的执行限于此高频频谱部分上。该开始频率(在高于该开始频率的情况下,零部分识别器70执行相连频谱零部分的识别且装置被配置为限制噪声填充的执行)可固定或可变化。举例来说,可使用音频信号经由其频谱被编码至的音频信号的数据流中的明确信令以信号通知待使用的开始频率。
零部分填充器72被配置为利用根据如上文关于图3、图4或图5所描述的函数而频谱上整形的噪声来填充由识别器70识别的经识别的相连频谱零部分。因此,零部分填充器72利用依赖于各自相连频谱零部分的宽度(诸如,各自相连频谱零部分的一系列零量化频谱值的已量化至零的频谱值的数目)及音频信号的调性而设定的函数来填充由识别器70识别的相连频谱零部分。
详言之,由识别器70识别的每一相连频谱零部分的个别填充是可由填充器72执行如下:依赖于相连频谱零部分的宽度来设定函数,使得函数限于各相连频谱零部分,亦即,函数的域与相连频谱零部分的宽度重合。函数的设定进一步依赖于音频信号的调性,即,以上文关于图3至图5所概述的方式,使得若音频信号的调性递增,则函数的群体在各相连零部分的内部中变得更紧凑,且远离于各相连频谱零部分的边缘。在使用此函数的情况下,频谱上整形相连频谱零部分的初步填充状态(根据该状态,将每一频谱值设定至一随机、伪随机或修补/复制值),即,通过该函数与初步频谱值的相乘。
上文已经概述出,噪声填充对调性的依赖性可鉴别多于仅两个(诸如,3个、4个或甚至4个以上)不同调性。举例来说,图7展示可能调性的域,亦即,可能调性间值的区间,如由判定器35在参考记号74处所判定。在76处,图7例示性地展示用于频谱上整形可填充相连频谱零部分所利用的噪声的可能函数集合。如图7所说明的集合76为通过频谱宽度或域长度及/或形状(亦即,紧凑性及与外部边缘相隔的长度)彼此相互区分的离散函数例示集合。在78处,图7进一步展示可能零部分宽度的域。虽然区间78为自某一最小宽度至某一最大宽度的范围的离散值的区间,但由判定器35输出以量测音频信号的调性的调性值可为整数值抑或属于某一其它类型,诸如,浮点值。可通过表查找或使用数学函数来实现自区间74及78的对至可能函数的集合76的映像。举例来说,对于由识别器70识别的某一相连频谱零部分,零部分填充器72可使用各相连频谱零部分的宽度及如由判定器35判定的当前调性,以便在表中查找被定义为(例如)函数值的序列的集合76的函数,该序列的长度与相连频谱零部分的宽度重合。替代地,零部分填充器72查找函数参数,且将这种函数的参数填充至预定函数中,以便导出待用于频谱上整形待填充至各相连频谱零部分中的噪声的函数。在另一替代例中,零部分填充器72可直接地将各相连频谱零部分的宽度及当前调性插入至数学公式中以便得出函数参数,以便根据数学上所计算的函数参数来建置各函数。
直到现在,本申请的某些实施例的描述聚焦于用以频谱上整形填充某些相连频谱零部分所利用的噪声的函数的形状。然而,有利的是控制添加至待噪声填充的某一频谱的噪声的总水平,以便引起合意重新建构或甚至频谱上控制噪声引入的水平。
图8展示待噪声填充的频谱,其中未量化至零且因此未经受噪声填充的部分是以交叉影线指示,其中三个相连频谱零部分90、92及94是以预填充状态展示,该预填充状态是使用不关注的标度而由记有用于频谱整形填充至这种部分90至94中的噪声的选定函数的零部分说明。
根据一个实施例,用于频谱上整形待填充至部分90至94中的噪声的函数48、50的可用集合皆具有为编码器及解码器所知的预定义标度。明确地在音频信号(亦即,频谱的未量化部分)被编码至的数据流内信号通知频谱上全局比例因子。此因子指示(例如)针对一噪声水平的RMS或另一度量,亦即,随机或伪随机频谱线值,通过该值,部分90至94在解码侧被预设定,接着使用调性依赖选定函数48、50按原样被频谱上整形。下文进一步描述关于可如何在编码器侧判定全局噪声比例因子。举例来说,使A为频谱被量化至零且属于部分90至94中任一者的频谱线的索引i的集合,且使N表示全局噪声比例因子。频谱的值将被表示为xi。另外,“random(N)”将表示在给出对应于水平“N”的水平的随机值的情况下的函数,且left(i)将为指示下者的函数:对于在索引i处的任何零量化频谱值,在i所属的零部分的低频端处的零量化值的索引,且Fi(j)(其中j=0至Ji-1)将表示依赖于调性而指派至开始于索引i的零部分90至94的函数48或50,其中Ji指示该零部分的宽度。接着,根据xi=Fleft(i)(i–left(i))·random(N)来填充部分90至94。
另外,可控制噪声至部分90至94中的填充,使得噪声水平自低频至高频递减。此情形是可通过频谱上整形预设定部分所利用的噪声而进行,或根据低通滤波器的转移函数来频谱上整形函数48、50的配置而进行。此情形可补偿当归因于(例如)在判定量化步长的频谱进程时使用的预强调而重新按比例调整/去量化填充式频谱时造成的频谱倾斜。因此,可根据所应用的预强调的程度来控制递减的陡度或低通滤波器的转移函数。在应用上文所使用的术语的情况下,可根据xi=Fleft(i)(i–left(i))·random(N)·LPF(i)来填充部分90至94,其中LPF(i)表示可为线性的低频滤波器的转移函数。依赖于情况,对应于函数15的函数LPF可具有正斜率,及经改变以相应地读取HPF的LPF。
代替使用依赖于调性及零部分的宽度而选择的函数的固定按比例调整,可直接地通过亦使用各相连零部分之频谱位置作为查找中的索引或以其它方式判定(80)待用于频谱上整形必须填充各相连频谱零部分所利用的噪声的函数来考虑刚才所概述的频谱倾斜校正。举例来说,函数的平均值或其用于频谱上整形待填充至某一零部分90至94中的噪声的预按比例调整可依赖于零部分90至94的频谱位置,使得遍及频谱的整个频宽,预按比例调整用于相连频谱零部分90至94的函数以便模仿低通滤波器转移函数,以便补偿用以导出频谱的非零量化部分的任何高通预强调转移函数。
最后,注意到,虽然图8例示性地指使用相连频谱零部分的经频谱上整形噪声填充的实施例,但其可替代地经修改以便指不使用经频谱整形噪声填充而以(例如)频谱上平坦方式来填充相连频谱零部分的实施例。因此,接着将根据xi=LPF(i)·random(N)来填充部分90至94。
在已描述用于执行噪声填充的实施例的情况下,在下文中,呈现用于音频编码解码器的实施例,上文所概述的噪声填充可有利地建置至用于音频编码解码器的实施例中。举例来说,图9及图10分别展示编码器及解码器对,其一起实施形成(例如)高级音频编码(Advanced Audio Coding,AAC)的基础的类型的以转换为基础的感知音频编码解码器。图9所展示的编码器100使原始音频信号102经受转换器104中的转换。由转换器104执行的转换为(例如)对应于图1的转换14的搭接转换:其通过使原始音频信号的连续相互重迭转换窗经受一连串频谱18来频谱上分解入端口原始音频信号102,该一连串频谱18一起构成频谱图12。如上文所表示,定义频谱图12的时间分辨率的转换窗间补片可在时间上变化,正如转换窗的时间长度可在时间上变化,此情形定义每一频谱18的频谱分辨率。编码器100进一步包含感知模型化器106,其基于进入转换器104的时域版本或由转换器104输出的频谱分解版本而自原始音频信号导出定义一频谱曲线的感知遮蔽临限值,在低于该频谱曲线的情况下,可隐藏量化噪声,使得其为不可察觉的。
音频信号的逐频谱线表示(亦即,频谱图12)及遮蔽临限值进入量化器108,量化器108负责使用依赖于遮蔽临限值的频谱上变化量化步长来使频谱图12的频谱样本量化:遮蔽临限值愈大,则量化步长愈小。详言之,量化器108以所谓的比例因子的形式向解码侧通知量化步长的变化,通过量化步长(一方面)与感知遮蔽临限值(另一方面)之间的刚才所描述的关系,该比例因子表示感知遮蔽临限值自身的表示种类。为了找到将比例因子传输至解码侧所花费的旁侧信息的量与使量化噪声适应于感知遮蔽临限值的粒度之间的良好折衷,量化器108以比量化频谱水平描述音频信号的频谱图12的逐频谱线表示时的频谱时间分辨率低或粗的频谱时间分辨率来设定/变化比例因子。举例来说,量化器108将每一频谱细分成比例因子频带110(诸如,巴克(bark)频带),且传输每比例因子频带110一个比例因子。就时间分辨率而言,相比于频谱图12的频谱值的频谱水平,时间分辨率就比例因子的传输而言亦可较低。
将频谱图12的频谱值的频谱水平以及比例因子112两者传输至解码侧。然而,为了改良音频质量,编码器100亦在数据流内传输向解码侧信号通知噪声水平的全局噪声水平,必须在通过应用比例因子112来重新按比例调整频谱或使频谱去量化之前利用噪声来填充表示12的零量化部分直至该噪声水平。图10中展示此情形。图10使用交叉影线来展示尚未重新按比例调整的音频信号额频谱,诸如,图9中的18。其具有相连频谱零部分40a、40b、40c及40d。亦可针对每一频谱18而在数据流中传输的全局噪声水平114向解码器指示在使此填充式频谱经受使用比例因子112的重新按比例调整或重新量化之前这种零部分40a至40d应利用噪声被填充直至的水平。
如上文已经表示,全局噪声水平114所指的噪声填充可经受一限定,此在于:此种类的噪声填充仅仅将高于图10中仅仅出于说明目的而指示的某一开始频率的频率称作fstart。
图10亦说明另一特定特征,其可实施于编码器100中:因为可存在包含比例因子频带110的频谱18,其中各比例因子频带内的所有频谱值已被量化至零,所以与此比例因子频带相关联的比例因子112实际上多余。因此,量化器100使用此恰好的比例因子以用于利用除了使用全局噪声水平114而填充至比例因子频带中的噪声以外的噪声来个别地填满比例因子频带,或换言之,以便响应于全局噪声水平114而按比例调整归因于各比例因子频带的噪声。举例来说,参见图10。图10展示频谱18成为比例因子频带110a至110h的例示性细分。比例因子频带110e为一比例因子频带,其频谱值皆已被量化至零。因此,关联比例因子112“自由”,且用以判定(114)此比例因子频带被完全地填充直至的噪声之水平。包含量化至非零水平之频谱值的其它比例因子频带具有与其相关联的比例因子,其用以重新按比例调整尚未量化至零的频谱18的频谱值,包括已填充零部分40a至40d所使用的噪声,此按比例调整是代表性地使用箭头116予以指示。
图9的编码器100可能已经考虑到,在解码侧内,将使用上文所描述的噪声填充实施例来执行使用全局噪声水平114的噪声填充,例如,使用对调性的依赖性,及/或对噪声强加频谱上全局倾斜,及/或变化噪声填充开始频率,等等。
就对调性的依赖性而言,编码器100可判定全局噪声水平114,且通过使用于频谱上整形用于填充各零部分的噪声的函数关联至零部分40a至40d而将全局噪声水平114插入至数据流中。详言之,编码器可使用这种函数以便加权这种部分40a至40d中的原始(亦即,经加权但尚未量化)音频信号的频谱值,以便判定全局噪声水平114。藉此,在数据流内判定及传输的全局噪声水平114在解码侧导致噪声填充,其更紧密地恢复原始音频信号的频谱。
编码器100可依赖于音频信号的内容而决定使用一些编码选项,该编码选项又可用作调性提示(诸如,图2所展示的调性提示38),以便允许解码侧正确地设定用于频谱上整形用以填充部分40a至40d的噪声的函数。举例来说,编码器100可使用时间预测,以便使用所谓的长期预测增益参数而自先前频谱预测一个频谱18。换言之,长期预测增益可设定使用或不使用此时间预测所至的程度。因此,长期预测增益或LTP增益为可用作调性提示的参数,这是因为:LTP增益愈高,则音频信号的调性将最有可能愈高。因此,举例来说,图2的调性判定器35可根据对LTP增益的单调正依赖性来设定调性。代替LTP增益或除了LTP增益以外,数据流亦可包含信令接通/断开LTP的LTP启用标记,藉此亦揭露(例如)关于调性的二元值提示。
另外或替代地,编码器100可支持时间噪声整形。亦即,举例来说,基于每频谱18,编码器100可决定使频谱18经受时间噪声整形,其中通过时间噪声整形启用标记而向解码器指示此决策。TNS启用标记指示频谱18的频谱水平是否形成频谱的频谱(亦即,沿着所判定之频率方向)线性预测的预测残差,或频谱是否未被LP预测。若TNS被信号通知为启用,则数据流另外包含用于频谱上线性预测频谱的线性预测系数,使得解码器可使用这种线性预测系数通过在重新按比例调整或去量化之前或之后将该线性预测系数应用至频谱上而恢复频谱。TNS启用标记亦为调性提示:若TNS启用标记将TNS信号通知为接通(例如,在一瞬间),则音频信号非常不太可能为音调,此是因为频谱似乎可通过线性预测沿着频率轴线被良好地预测,且因此为非静止的。因此,可基于TNS启用标记来判定调性,使得若TNS启用标记停用TNS,则调性较高,且若TNS启用标记信号通知TNS的启用,则调性较低。代替TNS启用标记或除了TNS启用标记以外,亦可有可能自TNS滤波器系数导出TNS增益,TNS增益指示TNS可用于预测频谱所至的程度,藉此亦揭露关于调性的多于两值的提示。
亦可由编码器100在数据流内编码其它编码参数。举例来说,频谱重新配置启用标记可信号通知一个编码选项,根据该编码选项,通过频谱上重新配置频谱水平(亦即,量化频谱值)来编码频谱18,其中另外在数据流内传输重新配置规定,使得解码器可重新配置或重新扰乱频谱水平以便恢复频谱18。若启用频谱重新配置启用标记,亦即,应用频谱重新配置,则此情形指示出音频信号很可能为音调,这是因为:若在频谱内存在许多音调峰,则重新配置倾向于在压缩数据流时更具速率/失真效益。因此,另外或替代地,可使用频谱重新配置启用标记作为音调提示,且在启用频谱重新配置启用标记的状况下,可将用于噪声填充的调性设定为较大,且若停用频谱配置启用标记,则可将用于噪声填充的调性设定为较低。
出于完整起见,且亦参看图2b,注意到,至少对于高于预定最小宽度的相连频谱零部分的宽度,用于频谱上整形零部分40a至40d的不同函数的数目(亦即,经鉴别用于设定用于频谱上整形的函数的不同调性的数目)可(例如)大于四,或甚至大于八。
就对噪声强加频谱上全局倾斜且当在编码侧计算噪声水平参数时考虑频谱上全局倾斜的概念而言,编码器100可判定全局噪声水平114,且将全局噪声水平114插入至数据流中,其是通过利用至少遍及频谱频宽的整个噪声填充部分频谱上延伸且具有相对于(例如)在解码侧用于噪声填充的函数15的相反正负号的斜率的函数来加权尚未量化但具有感知加权函数加权音频信号的频谱值的逆的部分(频谱上共置至零部分40a至40d),且基于如此所加权的未量化值来量测该水平。
图11展示配合于图9的编码器的解码器。图11的解码器是使用参考记号130予以大体上指示,且包含对应于上述实施例的噪声填充器30、去量化器132及逆转换器134。噪声填充器30接收频谱图12内的一连串频谱18,亦即,包括量化频谱值的逐频谱线表示,且视情况自数据串流接收调性提示,诸如,上文所论述额编码参数中的一者或若干者。噪声填充器30接着如上文所描述而利用噪声来填满相连频谱零部分40a至40d,诸如,使用上文所描述的调性依赖性,及/或通过对噪声强加频谱上全局倾斜,且如上文所描述而使用全局噪声水平114以用于按比例调整噪声水平。在如此填充的情况下,这种频谱到达去量化器132,去量化器132又使用比例因子112来使噪声填充式频谱去量化或重新按比例调整噪声填充式频谱。逆转换器134又使去量化频谱经受逆转换,以便恢复音频信号。如上文所描述,逆转换器134亦可包含一重迭相加处理(overlap-add-process),以便达成在由转换器104使用的转换为诸如MDCT的临界取样搭接转换的状况下造成的时域混迭消除,在此状况下,由逆转换器134应用的逆转换将为IMDCT(逆MDCT)。
如已经关于图9及图10所描述,去量化器132将比例因子应用至预填充式频谱。亦即,使用比例因子来按比例调整比例因子频带内未完全地量化至零的频谱值,而不管表示非零频谱值的频谱值或已由如上文所描述的噪声填充器30频谱上整形的噪声。完全零量化频谱带具有与其相关联的比例因子,其完全自由地控制噪声填充,且噪声填充器30可使用此比例因子以个别地按比例调整比例因子频带已通过噪声填充器30对相连频谱零部分的噪声填充而填充所利用的噪声,或就这种零量化频谱带而言,噪声填充器30可使用该比例因子以另外填满(亦即,添加)额外噪声。
注意到,噪声填充器30以上文所描述的调性依赖方式频谱上整形及/或以上文所描述的方式经受频谱上全局倾斜的噪声可源于伪随机噪声来源,或是可基于自同一频谱或相关频谱(诸如,另一通道的时间对准频谱,或时间上在前频谱)的其它区域的频谱复制或修补而自噪声填充器30导出。甚至自同一频谱的修补仍可为可行的,诸如,自频谱18的较低频率区域的复制(频谱复制)。不管噪声填充器30导出噪声的方式,填充器30皆以上文所描述的调性依赖方式来频谱上整形噪声以用于填充至相连频谱零部分40a至40d中,及/或以上文所描述的方式来使噪声经受频谱上全局倾斜。
仅出于完整起见,在图12中展示出图9的编码器100及图11的解码器130的实施例可变化,这在于:比例因子(一方面)与比例因子特定噪声水平之间的并置被不同地实施。根据图12的实例,除了比例因子112以外,编码器亦在数据流内传输以比频谱图12的逐频谱线分辨率粗的分辨率(诸如,以与比例因子112相同的频谱时间分辨率)而频谱时间上取样的噪声包络的信息。图12中使用参考记号140来指示此噪声包络信息。通过此措施,对于未完全地量化至零的比例因子频带,存在两个值:用于重新按比例调整该各比例因子频带内的非零频谱值或使该各比例因子频带内的非零频谱值去量化的比例因子,以及用于个别按比例调整该比例因子频带内的零量化频谱值的噪声水平的比例因子频带的噪声水平140。此概念有时被称作智能间隙填充(Intelligent Gap Filling,IGF)。
即使在此处,噪声填充器30可应用相连频谱零部分40a至40d的调性依赖填充,如图12例示性地所展示。
根据上文关于图9至图12所概述的音频编码解码器实例,已通过使用呈比例因子的形式的频谱时间表示来传输关于感知遮蔽临限值的信息而执行量化噪声的频谱整形。图13及图14展示一对编码器及解码器,其中亦可使用关于图1至图8所描述的噪声填充实施例,但其中根据音频信号的频谱的线性预测(Linear Prediction,LP)描述来频谱上整形量化噪声。在两个实施例中,待噪声填充的频谱在加权域中,亦即,使用加权域或感知上加权域中的频谱上恒定步长来使该频谱量化。
图13展示编码器150,其包含转换器152、量化器154、预强调器156、LPC分析器158及LPC至频谱线变换器160。预强调器156是选用的。预强调器156使入端口音频信号12经受预强调,即,使用(例如)FIR或IIR滤波器而利用浅高通滤波器转移函数进行高通滤波。一阶高通滤波器可(例如)用于预强调器156,诸如,H(z)=1–αz-1,其中α设定(例如)预强调的量或强度,根据该实施例中之一,用于填充至频谱中的噪声所经受的频谱上全局倾斜按照该量或强度而变化。α的可能设定可为0.68。由预强调器156造成的预强调是使由编码器150传输的量化频谱值的能量自高频至低频移位,藉此考虑人类感知在低频区中比在高频区中较高所根据的心理声学法则。无论音频信号是否被预强调,LPC分析器158皆对入端口音频信号12执行LPC分析,以便线性地预测音频信号,或更精确而言,估计其频谱包络。LPC分析器158以(例如)由音频信号12的数个音频样本组成的子帧的时间单位来判定线性预测系数,且如在162处所展示而在数据流内将线性预测系数传输至解码侧。LPC分析器158使用分析窗中的自动相关性且使用(例如)李文森-杜宾(Levinson-Durbin)算法来判定(例如)线性预测系数。可以量化及/或经转换版本(诸如,以频谱线对或其类似者之形式)而在数据流中传输线性预测系数。在任何状况下,LPC分析器158经由数据串流而将亦可用于解码侧的线性预测系数转递至LPC至频谱线变换器160,且变换器160将线性预测系数变换成由量化器154使用以频谱上变化/设定量化步长的频谱曲线。详言之,转换器152使入端口音频信号12经受转换,诸如,以与转换器104进行转换的方式相同的方式。因此,转换器152输出一连串频谱,且量化器154可(例如)通过自变换器160获得的频谱曲线来划分每一频谱,接着将频谱上恒定量化步长用于整个频谱。由量化器154输出的一连串频谱的频谱图被展示于图13中的164处,且亦包含可在解码侧填充的一些相连频谱零部分。可由编码器150在数据流内传输全局噪声水平参数。
图14展示配合于图13的编码器的解码器。图14的解码器是使用参考记号170予以大体上指示,且包含噪声填充器30、LPC至频谱线变换器172、去量化器174及逆转换器176。噪声填充器30接收量化频谱164,执行如上文所描述的至相连频谱零部分上的噪声填充,且将如此填充的频谱图转递至去量化器174。去量化器174自LPC至频谱线变换器172接收待由去量化器174使用以用于重新整形填充式频谱或换言之用于使填充式频谱去量化的频谱曲线。此处理有时被称作频域噪声整形(FDNS)。LPC至频谱线变换器172基于数据流中的LPC信息162来导出频谱曲线。由去量化器174输出的去量化频谱或经重新整形频谱经受由逆转换器176进行的逆转换,以便恢复音频信号。再次,可由逆转换器176使该一连串经重新整形频谱经受逆转换,接着经受一重迭相加处理,以便在转换器152的转换为诸如MDCT的临界取样搭接转换的状况下执行连续重新转换之间的时域混迭消除。
通过图13及图14中的虚线,展示出由预强调器156应用的预强调可在时间上变化,其中一变化是在数据流内被信号通知。在此状况下,噪声填充器30可在执行如上文关于图8所描述的噪声填充时考虑预强调。详言之,预强调在由量化器154输出的量化频谱中造成频谱倾斜,这在于:量化频谱值(亦即,频谱水平)倾向于自较低频率至较高频递减,亦即,其展示频谱倾斜。可由噪声填充器30以上文所描述的方式来补偿或更好地模仿或适应于此频谱倾斜。若在数据流中进行信号通知,则所信号通知的预强调的程度可用来以依赖于预强调之程度的方式来执行填充噪声之自适应性倾斜。亦即,在数据流中信令的预强调之程度可由解码器使用以设定强加至由噪声填充器30填充至频谱中之噪声上的频谱倾斜之程度。
到现在为止,已描述若干实施例,且下文呈现特定实施实例。关于这种实例所提出的细节应被理解为可个别地转移至以上实施例上以进一步指定该细节。然而,此前,应注意到,上文所描述的所有实施例可用于音频以及语音编码中。其通常是指转换编码,且使用信号自适应性概念以用于使用极少量的旁侧信息而利用经频谱上整形噪声来替换量化处理中引入的零。在上文所描述的实施例中,已利用以下观测:若使用一噪声填充开始频率,则频谱洞有时亦刚好出现于任何这种开始频率下方,且这种频谱洞有时感知上烦人。使用开始频率的明确信令的以上实施例允许移除引起降级的洞,但允许避免在噪声的插入将引入失真的处在低频下插入噪声。
此外,上文所概述的实施例中的一些使用预强调控制噪声填充,以便补偿由预强调造成的频谱倾斜。这种实施例考虑以下惯例:若对一预强调信号计算LPC滤波器,则仅仅应用待插入噪声的全局或平均幅值或平均能量将会使噪声整形在经插入噪声中引入频谱倾斜,这是因为解码侧的FDNS将使经频谱上平坦插入噪声经受仍展示预强调的频谱倾斜的频谱整形。因此,后者实施例以使得考虑及补偿来自预强调的频谱倾斜的方式来执行噪声填充。
因此,换言之,图11及图14各自展示一感知转换音频解码器。其包含被配置为对音频信号的频谱18执行噪声填充的噪声填充器30。可调性依赖地进行该执行,如上文所描述。可通过利用展现频谱上全局倾斜的噪声来填充频谱以便获得噪声填充式频谱而进行该执行,如上文所描述。“频谱上全局倾斜”应(例如)意谓该倾斜(例如)在横越待利用噪声而填充的所有部分40包络噪声的包络中显现自身,该包络倾斜,亦即,具有非零斜率。举例来说,“包络”被定义为频谱回归曲线,诸如,线性函数或另一二阶或三阶多项式,例如,经由填充至部分40中的噪声的局域最大值而引向,该局域最大值皆自我相连,但频谱上远离。“自低频至高频递减”意谓此倾斜具有负斜率,且“自低频至高频递增”意谓此倾斜具有正斜率。两个执行方面可同时地或仅仅应用其中之一者。
另外,感知转换音频解码器包含以去量化器132、174的形式的频域噪声整形器6,其被配置为使用频谱感知加权函数来使噪声填充式频谱经受频谱整形。在图11的状况下,频域噪声整形器132被配置为自在频谱被编码至的数据流中信令通知的线性预测系数信息162判定频谱感知加权函数。在图14的状况下,频域噪声整形器174被配置为自在数据串流中信号通知的关于比例因子频带110的比例因子112判定频谱感知加权函数。如关于图8所描述且关于图11所说明,噪声填充器32可被配置为响应于数据流中的明确信令来变化频谱上全局倾斜的斜率,或自信令频谱感知加权函数的数据流的部分推断该斜率(诸如,通过评估LPC频谱包络或比例因子),或自经量化且经传输的频谱18推断该斜率。
另外,感知转换音频解码器包含逆转换器134、176,其被配置为逆转换由频域噪声整形器频谱上整形的噪声填充式频谱,以获得逆转换,且使逆转换经受重迭相加处理。
对应地,图13及图9皆展示用于被配置为执行皆实施于图9及图13所展示的量化器模块108、154中的频谱加权1及量化2的感知转换音频编码器的实例。频谱加权1根据频谱感知加权函数的逆来频谱上加权音频信号的原始频谱,以便获得感知上加权频谱,且量化2以频谱上均一方式来使感知上加权频谱量化,以便获得量化频谱。感知转换音频编码器在量化模块108、154内进一步执行噪声水平计算3,例如,通过以利用自低频至高频递增的频谱上全局倾斜而加权的方式来量测共置至量化频谱的零部分的感知上加权频谱的水平而计算噪声水平参数。根据图13,感知转换音频编码器包含LPC分析器158,其被配置为判定表示音频信号的原始频谱的LPC频谱包络的线性预测系数信息162,其中频谱加权器154被配置为判定频谱感知加权函数,以便遵循LPC频谱包络。如所描述,LPC分析器158可被配置为通过对经受预强调滤波器156的音频信号的版本执行LP分析来判定线性预测系数信息162。如上文关于图13所描述,预强调滤波器156可被配置为利用变化的预强调量来对音频信号进行高通滤波,以便获得经受预强调滤波器的音频信号的版本,其中噪声水平计算可被配置为依赖于预强调量来设定频谱上全局倾斜的量。可使用频谱上全局倾斜的量或预强调量在数据串流中的明确信令。在图9的状况下,感知转换音频编码器包含经由感知模型106而控制的比例因子判定,其判定关于比例因子频带110的比例因子112,以便遵循遮蔽临限值。此判定实施于量化模块108中,例如,量化模块108亦充当被配置为判定频谱感知加权函数以便遵循比例因子的频谱加权器。
上文所描述的所有实施例所具有的共同之处在于:避免频谱洞,且亦避免音调非零量化线的隐蔽。以上文所描述之方式,可节约信号的有噪声部分中的能量,且以上文所描述之方式避免遮蔽音调分量的噪声的添加。
在上文所描述的特定实例中,用于执行调性依赖噪声填充的旁侧信息的部分未将任何事项添加至使用噪声填充的编码解码器的现有旁侧信息。不管噪声填充,用于频谱的重新建构的来自数据流的所有信息亦可用于噪声填充的整形。
根据一实施实例,如下执行噪声填充器30中的噪声填充。利用非零值来替换量化至零的在噪声填充开始索引上方的所有频谱线。此情形是(例如)利用频谱上恒定机率密度函数或使用来自其它频谱频谱图位置(来源)的修补以随机或伪随机方式而进行。举例来说,参见图15。图15展示用于将经受噪声填充的频谱的两个实例,正如由量化器108输出的频谱图12中的频谱34或频谱18,或由量化器154输出的频谱164。噪声填充开始索引为介于iFreq0与iFreq1之间的频谱线索引(0<iFreq0<=iFreq1),其中iFreq0及iFreq1为预定位速率及频宽依赖频谱线索引。噪声填充开始索引等于量化至非零值的频谱线的索引iStart(iFreq0<=iStart<=iFreq1),其中具有索引j(iStart<j<=Freq1)的所有频谱线被量化至零。亦可在位串流中传输用于iStart、iFreq0或iFreq1的不同值以允许在某些信号(例如,环境噪声)中插入极低频率噪声。
在以下步骤中整形经插入噪声:
1.在残余域或加权域中。上文已关于图1至图14而延伸性地描述在残余域或加权域中的整形。
2.已关于图13及图14而描述使用LPC或FDNS的频谱整形(使用LPC的幅值响应的在转换域中的整形)。亦可使用比例因子(如在AAC中)或使用用于整形完整频谱的任何其它频谱整形方法(如关于图9至图12所描述)来整形频谱。
3.已简要地关于图9至图12而描述使用较少量的位的使用时间噪声整形(TNS)的选用整形。
噪声填充所需要的仅有额外旁侧信息为水平,其是(例如)使用3个位予以传输。
当使用FDNS时,无需使其适应于特定噪声填充,且其使用数目小于比例因子的位而遍及完整频谱来整形噪声。
可在经插入噪声中引入频谱倾斜以抵消来自以LPC为基础的感知噪声整形中的预强调的频谱倾斜。因为预强调表示应用至输入信号的平缓高通滤波器,所以倾斜补偿可通过将轻微低通滤波器的转移函数的当量乘至经插入噪声频谱上来抵消此预强调。此低通操作的频谱倾斜依赖于预强调因子,且较佳地依赖于位速率及频宽。参看图8而论述此情形。
对于由1或多个连续零量化频谱线构成的每一频谱洞,可如图16所描绘来整形经插入噪声。可在编码器中找到且在位串流中传输噪声填充水平。在非零量化线处不存在噪声填充,且其在过渡区域中增加直至完全噪声填充。在完全噪声填充的区域中,噪声填充水平等于(例如)在位串流中传输的水平。此情形避免在可潜在地遮蔽音调分量或使音调分量失真的非零量化频谱线的紧接邻域中插入高水平的噪声。然而,利用噪声来替换所有零量化线,从而不留下频谱洞。
过渡宽度依赖于输入信号的调性。针对每一时间帧获得调性。在图17a至图17d中,针对不同洞大小及过渡宽度例示性地描绘噪声填充形状。
频谱的调性度量可基于可在位串流中得到的信息:
·LTP增益
·频谱重新配置启用标记(参见[6])
·TNS启用标记
过渡宽度是与调性成比例——对于似噪声的信号而言小,对于恰好的音调信号而言大。
在一实施例中,若LTP增益>0,则过渡宽度是与LTP增益成比例。若LTP增益等于0且启用频谱重新配置,则使用用于平均LTP增益的过渡宽度。若启用TNS,则不存在过渡区域,但应将完全噪声填充应用至所有零量化频谱线。若LTP增益等于0且停用TNS及频谱重新配置,则使用最小过渡宽度。
若在位串流中不存在调性信息,则可在无噪声填充的情况下对经解码信号计算调性度量。若不存在TNS信息,则可对经解码信号计算时间平坦度度量。然而,若可得到TNS信息,则可直接地自TNS滤波器系数导出此平坦度度量,例如,通过计算滤波器的预测增益。
在编码器中,可较佳地通过考虑过渡宽度来计算噪声填充水平。用以自量化频谱判定噪声填充水平的若干方式是可能的。最简单方式是对噪声填充区中的归一化输入频谱(亦即,在iStart上方)的所有线(其被量化至零)的能量(平方)求总和,接着将此总和除以这种线的数目以获得每线的平均能量,且最终自平均线能量的平方根计算量化噪声水平。以此方式,自量化至零的频谱分量的RMS有效地导出噪声水平。举例来说,使A为频谱已被量化至零且属于零部分中任一者(亦即,在开始频率上方)的频谱线的索引i的集合,且使N表示全局噪声比例因子。尚未量化的频谱的值将被表示为yi。另外,left(i)将为指示下者的函数:对于在索引i处的任何零量化频谱值,在i所属的零部分的低频端处的零量化值的索引,且Fi(j)(其中j=0至Ji-1)将表示依赖于调性而指派至开始于索引i的零部分的函数,其中Ji指示彼零部分的宽度。接着,可通过N=sqrt(N=sqrt(∑ieAyi 2/cardinality(A)))来判定N。
在较佳实施例中,考虑个别洞大小以及过渡宽度。为此,将数是列连续零量化线分组成洞区。接着通过过渡函数来按比例调整一洞区中之每一归一化输入频谱线(亦即,任何相连频谱零部分内之频谱位置处的原始信号之每一频谱值),如在先前章节中所描述,且随后计算经按比例调整线之能量的总和。类似于在先前简单实施例中,接着可自零量化线之RMS计算噪声填充水平。在应用以上术语的情况下,可通过N=sqrt(∑ieA(Fleft(i)(i-left(i))·yi)2/cardinality(A))来计算N。
然而,此途径的问题为,小洞区(亦即,具有比过渡宽度的两倍小得多的宽度的区)中的频谱能量被低估,这是因为在RMS计算中,总和中除能量总和的频谱线的数目不变。换言之,当量化频谱主要地展现许多小洞区时,相比于当该频谱稀疏且仅具有少数长洞区时,所得噪声填充水平将较低。为了确保在这两种状况下找到相似噪声水平,因此有利的是使在RMS计算的分母中使用的线计数适应于过渡宽度。最重要地,若洞区大小小于过渡宽度的两倍,则该洞区中的频谱线的数目未被按原样(亦即,作为整数个线)计数,而作为小于整数线数的分数线数计数。举例来说,在关于N的以上公式中,依赖于“小”零部分的数目,将通过较小数来替换“cardinality(A)”。
此外,亦应在噪声水平计算期间考虑归因于以LPC为基础的感知编码的在噪声填充中的频谱倾斜的补偿。更具体言之,较佳地将解码器侧噪声填充倾斜补偿的逆应用至原始未量化频谱线,在计算噪声水平之前,将原始未量化频谱线量化至零。在使用预强调的以LPC为基础的编码的上下文中,此隐含着在噪声水平估计之前相对于较低频率线稍微放大较高频线。在应用以上术语的情况下,可通过N=sqrt(∑ieA(Fleft(i)(i-left(i))·LPF(i)-1·yi)2/cardinality(A))来计算N。如上文所提到,依赖于情况,对应于函数15的函数LPF可具有正斜率,及经改变以相应地读取HPF的LPF。简要地注意到,在使用“LPF”的所有以上公式中,将Fleft设定至常数函数(诸如,设定至全1)将揭露如何应用通过频谱上全局倾斜使噪声经受填充至频谱34中而无调性依赖洞填充额概念的方式。
可在编码器中(诸如,在108或154中)执行N的可能计算。
最后,已发现,当恰好音调的静止信号的谐波被量化至零时,表示这种谐波的线导致相对高或不稳定(亦即,时间波动)噪声水平。可通过在噪声水平计算中使用零量化线的平均幅值而非其RMS来缩减此伪像。虽然此替代途径并不始终保证解码器中的噪声填充式线的能量重现在噪声填充区中的原始线的能量,但其确实确保噪声填充区中的频谱峰对总噪声水平仅具有有限贡献,藉此缩减噪声水平高估的风险。
最后,注意到,编码器可甚至被配置为完全地执行噪声填充,以便使其自身按照解码器,诸如,出于合成式分析目的。
因此,以上实施例尤其描述一种用于利用经频谱上整形噪声来替换量化处理中引入的零的信号自适应性方法。描述通过实施以下各者来满足上述要求的用于编码器及解码器的噪声填充延伸:
·可使噪声填充开始索引适应于频谱量化的结果,但限于某一范围
·可在经插入噪声中引入频谱倾斜以抵消来自感知噪声整形的频谱倾斜
·利用噪声来替换在噪声填充开始索引上方的所有零量化线
·通过过渡函数,使经插入噪声衰减至靠近未量化至零的频谱线
·过渡函数依赖于输入信号的瞬时特性
·噪声填充开始索引、频谱倾斜及过渡函数的调适可基于可在解码器中得到的信息
无需额外旁侧信息,但噪声填充水平除外
虽然已在装置的上下文中描述一些方面,但很显然,这种方面亦表示对应方法的描述,其中块或器件对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面亦表示对应装置的对应块或项或特征的描述。该方法步骤中的一些或全部是可由(或使用)硬件装置(例如,微处理器、可编程计算机或电子电路)执行。在一些实施例中,最重要的方法步骤中的某一者或多者是可由此装置执行。
依赖于某些实施要求,可以硬件或以软件来实施本发明的实施例。可使用储存有电子可读控制信号的数字储存介质(例如,软性磁盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行该实施,该电子可读控制信号与(或能够与)一可编程计算机系统合作,使得执行各方法。因此,数字储存介质可为计算机可读的。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,该电子可读控制信号能够与一可编程计算机系统合作,使得执行本文所描述的方法中的一者。
通常,可将本发明的实施例实施为具有程序代码的计算机程序产品,该程序代码是操作性的以当该计算机程序产品在计算机上执行时执行该方法中的一者。程序代码可(例如)储存于机器可读载体上。
其它实施例包含用于执行本文所描述的方法中的一者的计算机程序,其储存于机器可读载体上。
换言之,本发明的方法的一实施例因此为具有程序代码的计算机程序,该程序代码用于当该计算机程序在计算机上执行时执行本文所描述的方法中的一者。
本发明的方法的另外实施例因此为一数据载体(或数字储存介质,或计算机可读介质),其包含记录于其上的用于执行本文所描述的方法中的一者的计算机程序。数据载体、数字储存介质或记录媒体通常是有形的及/或非过渡性的。
本发明的方法的另外实施例因此为一数据流或一连串信号,其表示用于执行本文所描述的方法中的一者额计算机程序。举例来说,该数据流或该一连串信号可被配置为经由数据通信连接(例如,经由因特网)而传送。
一另外实施例包含一处理装置,例如,计算机或可编程逻辑器件,其经组配或调适以执行本文所描述的方法中的一者。
一另外实施例包含一计算机,其具有安装于其上的用于执行本文所描述的方法中的一者的计算机程序。
根据本发明的另外实施例包含被配置为将用于执行本文所描述的方法中的一者的计算机程序传送(例如,电子地或光学地)至接收器的装置或系统。举例来说,该接收器可为计算机、移动设备、存储设备或其类似者。举例来说,该装置或系统可包含用于将计算机程序传送至接收器的文件服务器。
在一些实施例中,可使用可编程逻辑器件(例如,现场可编程门阵列)以执行本文所描述的方法的功能性中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器合作,以便执行本文所描述的方法中的一者。通常,该方法是较佳地由任何硬件装置执行。
可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来实施本文所描述额装置。
可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来执行本文所描述的方法。
上述实施例仅仅说明本发明的原理。应理解,本文所描述的配置及细节的修改及变化对于本领域技术人员而言将显而易见。因此,意图是仅受到即将出现的专利权利要求书的范围限制,而不受到作为本文中的实施例的描述及解释而呈现的特定细节限制。
参考文献
[1]B.G.G.F.S.G.M.M.H.P.J.H.S.W.G.S.J.H.Nikolaus Rettelbach,"NoiseFiller,Noise Filling Parameter Calculator Encoded Audio SignalRepresentation,Methods and Computer Program".Patent US 2011/0173012 A1。
[2]Extended Adaptive Multi-Rate-Wideband(AMR-WB+)codec,3GPP TS 26.290V6.3.0,2005-2006。
[3]B.G.G.F.S.G.M.M.H.P.J.H.S.W.G.S.J.H.Nikolaus Rettelbach,"Audioencoder,audio decoder,methods for encoding and decoding an audio signal,audiostream and computer program".Patent WO 2010/003556 A1。
[4]M.M.N.R.G.F.J.R.J.L.S.W.S.B.S.D.C.H.R.L.P.G.B.B.J.L.K.K.H.MaxNeuendorf,"MPEG Unified Speech and Audio Coding–The ISO/MPEG Standard forHigh-Efficiency Audio Coding of all Content Types,"in 132nd Convertion AES,Budapest,2012.Also appears in the Journal of the AES,vol.61,2013。
[5]M.M.M.N.a.R.G.Guillaume Fuchs,"MDCT-Based Coder for HighlyAdaptive Speech and Audio Coding,"in 17th European Signal ProcessingConference(EUSIPCO 2009),Glasgow,2009。
[6]H.Y.K.Y.M.T.Harada Noboru,"Coding Mmethod,Decoding Method,CodingDevice,Decoding Device,Program,and Recording Medium".Patent WO 2012/046685A1。
Claims (24)
1.一种感知转换音频解码器,包含:
噪声填充器,被配置为通过利用噪声来填充音频信号的频谱(34)对所述频谱执行噪声填充,以便获得噪声填充式频谱;以及
频域噪声整形器,被配置为使用频谱感知加权函数来使所述噪声填充式频谱经受频谱整形,其中,所述频域噪声整形器被配置为:自在所述频谱(34)被编码至(164)的数据流中信号通知的线性预测系数信息(162)中判定所述频谱感知加权函数,或自在所述频谱(34)被编码至的所述数据流中信号通知的关于比例因子频带(110)的比例因子(112)中判定所述频谱感知加权函数,
其中,所述噪声填充器被配置为:
产生中间噪声信号;
识别所述音频信号的频谱的相连频谱零部分;
依赖于以下各项而针对每一相连频谱零部分判定一函数:
各所述相连频谱零部分的宽度,使得所述函数限于各所述相连频谱零部分,
各所述相连频谱零部分的频谱位置,使得所述函数的按比例调整依赖于各所述相连频谱零部分的频谱位置,使得所述按比例调整的量随着各所述相连频谱零部分的频谱位置的频率递增而单调地递增或递减;以及
对于每一相连频谱零部分,使用针对各所述相连频谱零部分所判定的所述函数来频谱上整形所述中间噪声信号,使得所述噪声展现具有负斜率的频谱上全局倾斜。
2.根据权利要求1所述的感知转换音频解码器,其中,所述噪声填充器被配置为响应于所述频谱(34)被编码(164)至的所述数据流中的隐含或明确信令而变化所述频谱上全局倾斜的陡度。
3.根据权利要求1或2所述的感知转换音频解码器,其中,所述噪声填充器被配置为自信号通知所述频谱感知加权函数的所述数据流的一部分或自所述数据流中的转换窗长度信令推断所述频谱上全局倾斜的陡度。
4.根据权利要求1或2所述的感知转换音频解码器,进一步包含:
逆转换器,被配置为逆转换由所述频域噪声整形器频谱上整形的所述噪声填充式频谱,以获得逆转换,且使所述逆转换经受重叠相加处理。
5.根据权利要求1所述的感知转换音频解码器,其中,所述噪声填充器被配置为使得所述函数(48,50)在所述相连频谱零部分(40)的内部(52)中采取最大值,且具有向外下降边缘(58,60),所述向外下降边缘的绝对斜率是负依赖于调性。
6.根据权利要求1所述的感知转换音频解码器,其中,所述噪声填充器被配置为使得所述函数(48,50)在所述相连频谱零部分(40)的内部(52)中采取最大值,且具有向外下降边缘(58,60),所述向外下降边缘的频谱宽度(54,56)是正依赖于调性。
7.根据权利要求1所述的感知转换音频解码器,其中,所述噪声填充器进一步被配置为使得所述函数是一常数或单峰函数(48,50),所述常数或单峰函数对所述相连频谱零部分(40)的外部四等份部(a,d)的积分归一化至为1的积分是负依赖于调性。
8.根据权利要求1或2所述的感知转换音频解码器,其中,所述噪声填充器被进一步配置为使得所述函数(80)是依赖于所述音频信号的调性而设定,使得若所述音频信号的所述调性递增,则一函数的群体在各所述相连频谱零部分的内部中变得更紧凑,且远离于各所述相连频谱零部分的外部边缘。
9.根据权利要求1或2所述的感知转换音频解码器,其中,所述噪声填充器被进一步配置为以一频谱上全局方式使用在所述频谱被编码至的数据流中信号通知的一噪声水平参数来按比例调整所述噪声。
10.根据权利要求1或2所述的感知转换音频解码器,所述噪声填充器被进一步配置为使用随机或伪随机处理或使用修补来产生所述噪声。
11.根据权利要求5至7中任一项所述的感知转换音频解码器,其中,所述噪声填充器被进一步配置为自编码所述音频信号所使用的编码参数导出所述调性。
12.根据权利要求11所述的感知转换音频解码器,其中,所述噪声填充器被进一步配置为使得所述编码参数为长期预测(LTP)或时间噪声整形(TNS)启用标记或增益,及/或一频谱重新配置启用标记,所述频谱重新配置启用标记信号通知一编码选项,根据所述编码选项,通过频谱上重新配置量化频谱值,其中另外在所述数据流内传输重新配置规定。
13.根据权利要求1或2所述的感知转换音频解码器,其中,所述噪声填充器被进一步配置为将所述噪声填充限于所述音频信号的频谱的高频频谱部分上。
14.根据权利要求13所述的感知转换音频解码器,其中,所述噪声填充器被进一步配置为设定对应于所述音频信号的所述频谱被编码至的数据流中的明确信令的所述高频频谱部分的低频开始位置。
15.一种感知转换音频编码器,包含:
预强调滤波器;
LPC分析器,被配置为通过对经受所述预强调滤波器的音频信号的版本执行LP分析来判定线性预测系数信息(162),所述线性预测系数信息(162)表示所述音频信号的预强调版本的频谱的LPC频谱包络;
转换器,被配置为提供所述音频信号的原始频谱;
频谱加权器,被配置为根据频谱感知加权函数的逆来频谱上加权所述音频信号的原始频谱,以便获得感知上加权频谱,其中,所述频谱加权器被配置为判定所述频谱感知加权函数,以便遵循所述LPC频谱包络;
量化器,被配置为以所述感知上加权频谱的频谱线上相同的方式来使所述感知上加权频谱量化,以便获得量化频谱,其中,所述感知转换音频编码器被配置为将所述量化频谱编码至待输出至感知转换音频解码器的数据流,所述线性预测系数信息也在所述数据流中信号通知;
噪声水平计算机,被配置为通过以下各项来计算噪声水平参数:
识别所述音频信号的频谱的相连频谱零部分;以及
以利用频谱上具有正斜率的全局倾斜而加权的方式测量共置至所述量化频谱的相连频谱零部分的所述感知上加权频谱的水平,
其中,所述感知转换音频编码器被配置为通过以下各项来执行噪声填充从而填充所述相连频谱零部分:
产生中间噪声信号;
依赖于以下各项而针对每一相连频谱零部分判定一函数:
各所述相连频谱零部分的宽度,使得所述函数限于各所述相连频谱零部分,
各所述相连频谱零部分的频谱位置,使得所述函数的按比例调整依赖于各所述相连频谱零部分的频谱位置,使得所述按比例调整的量随着各所述相连频谱零部分的频谱位置的频率递增而单调地递增或递减;以及
对于每一相连频谱零部分,使用针对各所述相连频谱零部分所判定的所述函数来频谱上整形所述中间噪声信号。
16.根据权利要求15所述的感知转换音频编码器,其中,所述预强调滤波器被配置为利用变化的预强调量来对所述音频信号进行高通滤波,以便获得经受预强调滤波器的所述音频信号的所述版本,其中,所述噪声水平计算机被配置为依赖于所述预强调量来设定所述频谱上全局倾斜的斜率。
17.根据权利要求16所述的感知转换音频编码器,被配置为在所述量化频谱(34)被编码(164)至的所述数据流中明确地编码所述频谱上全局倾斜的量或所述预强调量。
18.根据权利要求17所述的感知转换音频编码器,包含:
比例因子判定器,被配置为在经由感知模型进行控制的情况下判定关于比例因子频带(110)的比例因子(112),以便遵循一遮蔽临限值,其中,所述频谱加权器被配置为判定所述频谱感知加权函数,以便遵循所述比例因子。
19.根据权利要求15所述的感知转换音频编码器,其中,所述噪声水平计算机被配置为针对每一相连频谱零部分判定所述函数(48,50),使得:
所述函数在所述相连频谱零部分(40)的内部(52)中采取最大值,且具有向外下降边缘(58,60),所述向外下降边缘的绝对斜率是负依赖于调性,
所述函数在所述相连频谱零部分(40)的内部(52)中采取最大值,且具有向外下降边缘(58,60),所述向外下降边缘的频谱宽度(54,56)是正依赖于所述调性,及/或
所述函数为常数或单峰函数(48,50),所述常数或单峰函数对所述相连频谱零部分(40)的外部四等份部(a,d)的归一化至为积分1的积分是负依赖于所述调性。
20.根据权利要求19所述的感知转换音频编码器,其中,所述噪声水平计算机被配置为自由所述感知转换音频编码器使用以编码所述音频信号的长期预测(LTP)或时间噪声整形(TNS)启用标记或增益及/或频谱重新配置启用标记推断所述调性,所述频谱重新配置启用标记信号通知一编码选项,根据所述编码选项,通过频谱上重新配置量化频谱值,其中另外在所述数据流内传输重新配置规定。
21.根据权利要求15所述的感知转换音频编码器,被配置为将所述噪声填充限于所述音频信号的频谱的高频频谱部分上。
22.一种用于感知转换音频解码的方法,包含:
通过利用噪声来填充音频信号的频谱(34)而对所述频谱执行噪声填充,以便获得噪声填充式频谱;以及
频域噪声整形,包含使用频谱感知加权函数来使所述噪声填充式频谱经受频谱整形,其中,所述频域噪声整形包括:自在所述频谱(34)被编码至(164)的数据流中信号通知的线性预测系数信息(162)中判定所述频谱感知加权函数,或自在所述频谱(34)被编码至的所述数据流中信号通知的关于比例因子频带(110)的比例因子(112)中判定所述频谱感知加权函数,
其中,所述噪声填充涉及:
产生中间噪声信号;
识别所述音频信号的频谱的相连频谱零部分;
依赖于以下各项而针对每一相连频谱零部分判定一函数:
各所述相连频谱零部分的宽度,使得所述函数限于各所述相连频谱零部分,
各所述相连频谱零部分的频谱位置,使得所述函数的按比例调整依赖于各所述相连频谱零部分的频谱位置,使得所述按比例调整的量随着各所述相连频谱零部分的频谱位置的频率递增而单调地递增或递减;以及
对于每一相连频谱零部分,使用针对各所述相连频谱零部分所判定的所述函数来频谱上整形所述中间噪声信号,使得所述噪声展现具有负斜率的频谱上全局倾斜。
23.一种用于感知转换音频编码的方法,包含:
通过对经受预强调滤波器的音频信号的版本执行LP分析来判定线性预测系数信息(162),所述线性预测系数信息(162)表示所述音频信号的预强调版本的频谱的LPC频谱包络;
由转换器提供所述音频信号的原始频谱;
根据频谱感知加权函数的逆来频谱上加权所述音频信号的原始频谱,以便获得感知上加权频谱,其中,判定所述频谱感知加权函数,以便遵循所述LPC频谱包络;
以所述感知上加权频谱的频谱线相同的方式来使所述感知上加权频谱量化,以便获得量化频谱,其中,将所述量化频谱编码至待输出至感知转换音频解码器的数据流,所述线性预测系数信息也在所述数据流中信号通知;
通过以下各项来计算噪声水平参数:
识别所述音频信号的频谱的相连频谱零部分;以及
以利用频谱上具有正斜率的全局倾斜而加权的方式测量共置至所述量化频谱的相连频谱零部分的所述感知上加权频谱的水平,并且
通过以下各项来执行噪声填充从而填充所述相连频谱零部分:
产生中间噪声信号;
依赖于以下各项而针对每一相连频谱零部分判定一函数:
各所述相连频谱零部分的宽度,使得所述函数限于各所述相连频谱零部分,
各所述相连频谱零部分的频谱位置,使得所述函数的按比例调整依赖于各所述相连频谱零部分的频谱位置,使得所述按比例调整的量随着各所述相连频谱零部分的频谱位置的频率递增而单调地递增或递减;以及
对于每一相连频谱零部分,使用针对各所述相连频谱零部分所判定的所述函数来频谱上整形所述中间噪声信号。
24.一种计算机可读介质,存储计算机程序,所述计算机程序具有用于当在计算机上运行时执行根据权利要求22或23所述方法的程序代码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758209P | 2013-01-29 | 2013-01-29 | |
US61/758,209 | 2013-01-29 | ||
PCT/EP2014/051631 WO2014118176A1 (en) | 2013-01-29 | 2014-01-28 | Noise filling in perceptual transform audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105264597A CN105264597A (zh) | 2016-01-20 |
CN105264597B true CN105264597B (zh) | 2019-12-10 |
Family
ID=50029035
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910419597.6A Active CN110197667B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
CN201480006656.2A Active CN105190749B (zh) | 2013-01-29 | 2014-01-28 | 噪声填充技术 |
CN201480019092.6A Active CN105264597B (zh) | 2013-01-29 | 2014-01-28 | 感知转换音频编码中的噪声填充 |
CN201910419610.8A Active CN110189760B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
CN201910420349.3A Active CN110223704B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910419597.6A Active CN110197667B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
CN201480006656.2A Active CN105190749B (zh) | 2013-01-29 | 2014-01-28 | 噪声填充技术 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910419610.8A Active CN110189760B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
CN201910420349.3A Active CN110223704B (zh) | 2013-01-29 | 2014-01-28 | 对音频信号的频谱执行噪声填充的装置 |
Country Status (21)
Country | Link |
---|---|
US (4) | US9524724B2 (zh) |
EP (6) | EP3471093B1 (zh) |
JP (2) | JP6289508B2 (zh) |
KR (6) | KR101778220B1 (zh) |
CN (5) | CN110197667B (zh) |
AR (2) | AR094679A1 (zh) |
AU (2) | AU2014211544B2 (zh) |
BR (2) | BR112015017748B1 (zh) |
CA (2) | CA2898029C (zh) |
ES (4) | ES2796485T3 (zh) |
HK (2) | HK1218345A1 (zh) |
MX (2) | MX343572B (zh) |
MY (2) | MY172238A (zh) |
PL (4) | PL2951817T3 (zh) |
PT (4) | PT3451334T (zh) |
RU (2) | RU2660605C2 (zh) |
SG (2) | SG11201505915YA (zh) |
TR (2) | TR201902849T4 (zh) |
TW (2) | TWI529700B (zh) |
WO (2) | WO2014118175A1 (zh) |
ZA (2) | ZA201506269B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2014211544B2 (en) | 2013-01-29 | 2017-03-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Noise filling in perceptual transform audio coding |
BR112015018023B1 (pt) * | 2013-01-29 | 2022-06-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Aparelho e método para sintetizar um sinal de áudio, decodificador, codificador e sistema |
MX356164B (es) | 2013-11-13 | 2018-05-16 | Fraunhofer Ges Forschung | Codificador para codificar una señal de audio, sistema de audio de transmisión y método para determinar valores de corrección. |
EP2980792A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an enhanced signal using independent noise-filling |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
DE102016104665A1 (de) | 2016-03-14 | 2017-09-14 | Ask Industries Gmbh | Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals |
US10146500B2 (en) | 2016-08-31 | 2018-12-04 | Dts, Inc. | Transform-based audio codec and method with subband energy smoothing |
TW202341126A (zh) | 2017-03-23 | 2023-10-16 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
EP3483880A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
WO2019166317A1 (en) * | 2018-02-27 | 2019-09-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | A spectrally adaptive noise filling tool (sanft) for perceptual transform coding of still and moving images |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
CN112735449B (zh) * | 2020-12-30 | 2023-04-14 | 北京百瑞互联技术有限公司 | 优化频域噪声整形的音频编码方法及装置 |
CN113883672B (zh) * | 2021-09-13 | 2022-11-15 | Tcl空调器(中山)有限公司 | 噪音类型识别方法、空调器及计算机可读存储介质 |
WO2023117144A1 (en) * | 2021-12-23 | 2023-06-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a tilt |
TW202345142A (zh) * | 2021-12-23 | 2023-11-16 | 弗勞恩霍夫爾協會 | 在音訊寫碼中使用傾斜用於頻譜時間改善頻譜間隙填充之方法及設備 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
CN101030373A (zh) * | 2006-01-12 | 2007-09-05 | 意法半导体亚太私人有限公司 | 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法 |
CN101809657A (zh) * | 2007-08-27 | 2010-08-18 | 爱立信电话股份有限公司 | 用于噪声填充的方法和设备 |
CN102884574A (zh) * | 2009-10-20 | 2013-01-16 | 弗兰霍菲尔运输应用研究公司 | 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US6167133A (en) | 1997-04-02 | 2000-12-26 | At&T Corporation | Echo detection, tracking, cancellation and noise fill in real time in a communication system |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
ATE320651T1 (de) * | 2001-05-08 | 2006-04-15 | Koninkl Philips Electronics Nv | Kodieren eines audiosignals |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US9047860B2 (en) * | 2005-01-31 | 2015-06-02 | Skype | Method for concatenating frames in communication system |
KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
KR101291672B1 (ko) * | 2007-03-07 | 2013-08-01 | 삼성전자주식회사 | 노이즈 신호 부호화 및 복호화 장치 및 방법 |
CN101303855B (zh) * | 2007-05-11 | 2011-06-22 | 华为技术有限公司 | 一种舒适噪声参数产生方法和装置 |
US9653088B2 (en) | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
CN101939782B (zh) * | 2007-08-27 | 2012-12-05 | 爱立信电话股份有限公司 | 噪声填充与带宽扩展之间的自适应过渡频率 |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
KR101290622B1 (ko) * | 2007-11-02 | 2013-07-29 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 오디오 복호화 방법 및 장치 |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
CN101335000B (zh) * | 2008-03-26 | 2010-04-21 | 华为技术有限公司 | 编码的方法及装置 |
ATE539433T1 (de) * | 2008-07-11 | 2012-01-15 | Fraunhofer Ges Forschung | Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit |
KR101518532B1 (ko) * | 2008-07-11 | 2015-05-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램 |
EP3002750B1 (en) | 2008-07-11 | 2017-11-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding audio samples |
BRPI0914056B1 (pt) | 2008-10-08 | 2019-07-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificação/decodificação de áudio comutado multi-resolução |
AU2010305383B2 (en) | 2009-10-08 | 2013-10-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
EP3693964B1 (en) * | 2009-10-15 | 2021-07-28 | VoiceAge Corporation | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms |
CN102063905A (zh) * | 2009-11-13 | 2011-05-18 | 数维科技(北京)有限公司 | 一种用于音频解码的盲噪声填充方法及其装置 |
CN102194457B (zh) * | 2010-03-02 | 2013-02-27 | 中兴通讯股份有限公司 | 音频编解码方法、系统及噪声水平估计方法 |
US20120029926A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals |
US9208792B2 (en) * | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
JP5612698B2 (ja) | 2010-10-05 | 2014-10-22 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 |
RU2585999C2 (ru) * | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Генерирование шума в аудиокодеках |
ES2559040T3 (es) * | 2011-03-10 | 2016-02-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Relleno de subvectores no codificados en señales de audio codificadas por transformada |
RU2648595C2 (ru) * | 2011-05-13 | 2018-03-26 | Самсунг Электроникс Ко., Лтд. | Распределение битов, кодирование и декодирование аудио |
JP2013015598A (ja) * | 2011-06-30 | 2013-01-24 | Zte Corp | オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法 |
MX350162B (es) * | 2011-06-30 | 2017-08-29 | Samsung Electronics Co Ltd | Aparato y método para generar señal extendida de ancho de banda. |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
AU2014211544B2 (en) | 2013-01-29 | 2017-03-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Noise filling in perceptual transform audio coding |
-
2014
- 2014-01-28 AU AU2014211544A patent/AU2014211544B2/en active Active
- 2014-01-28 KR KR1020167019946A patent/KR101778220B1/ko active IP Right Grant
- 2014-01-28 PT PT181993197T patent/PT3451334T/pt unknown
- 2014-01-28 WO PCT/EP2014/051630 patent/WO2014118175A1/en active Application Filing
- 2014-01-28 PT PT182062240T patent/PT3471093T/pt unknown
- 2014-01-28 KR KR1020157022497A patent/KR101897092B1/ko active IP Right Grant
- 2014-01-28 RU RU2015136505A patent/RU2660605C2/ru active
- 2014-01-28 EP EP18206224.0A patent/EP3471093B1/en active Active
- 2014-01-28 PL PL14701753T patent/PL2951817T3/pl unknown
- 2014-01-28 MY MYPI2015001884A patent/MY172238A/en unknown
- 2014-01-28 RU RU2015136502A patent/RU2631988C2/ru active
- 2014-01-28 ES ES18199319T patent/ES2796485T3/es active Active
- 2014-01-28 EP EP20164371.5A patent/EP3693962A1/en active Pending
- 2014-01-28 EP EP14701991.3A patent/EP2951818B1/en active Active
- 2014-01-28 PL PL18206224T patent/PL3471093T3/pl unknown
- 2014-01-28 KR KR1020177028123A patent/KR101926651B1/ko active IP Right Grant
- 2014-01-28 EP EP18199319.7A patent/EP3451334B1/en active Active
- 2014-01-28 TR TR2019/02849T patent/TR201902849T4/tr unknown
- 2014-01-28 WO PCT/EP2014/051631 patent/WO2014118176A1/en active Application Filing
- 2014-01-28 CA CA2898029A patent/CA2898029C/en active Active
- 2014-01-28 ES ES14701753T patent/ES2714289T3/es active Active
- 2014-01-28 CN CN201910419597.6A patent/CN110197667B/zh active Active
- 2014-01-28 KR KR1020167019944A patent/KR101778217B1/ko active IP Right Grant
- 2014-01-28 CN CN201480006656.2A patent/CN105190749B/zh active Active
- 2014-01-28 MX MX2015009601A patent/MX343572B/es active IP Right Grant
- 2014-01-28 CN CN201480019092.6A patent/CN105264597B/zh active Active
- 2014-01-28 BR BR112015017748-4A patent/BR112015017748B1/pt active IP Right Grant
- 2014-01-28 CN CN201910419610.8A patent/CN110189760B/zh active Active
- 2014-01-28 SG SG11201505915YA patent/SG11201505915YA/en unknown
- 2014-01-28 ES ES18206224T patent/ES2834929T3/es active Active
- 2014-01-28 CN CN201910420349.3A patent/CN110223704B/zh active Active
- 2014-01-28 SG SG11201505893TA patent/SG11201505893TA/en unknown
- 2014-01-28 CA CA2898024A patent/CA2898024C/en active Active
- 2014-01-28 EP EP20192419.8A patent/EP3761312A1/en active Pending
- 2014-01-28 ES ES14701991T patent/ES2709360T3/es active Active
- 2014-01-28 AU AU2014211543A patent/AU2014211543B2/en active Active
- 2014-01-28 MX MX2015009600A patent/MX345160B/es active IP Right Grant
- 2014-01-28 BR BR112015017633-0A patent/BR112015017633B1/pt active IP Right Grant
- 2014-01-28 KR KR1020157022827A patent/KR101757347B1/ko active IP Right Grant
- 2014-01-28 TR TR2019/02394T patent/TR201902394T4/tr unknown
- 2014-01-28 MY MYPI2015001882A patent/MY185164A/en unknown
- 2014-01-28 PT PT14701753T patent/PT2951817T/pt unknown
- 2014-01-28 PT PT14701991T patent/PT2951818T/pt unknown
- 2014-01-28 PL PL14701991T patent/PL2951818T3/pl unknown
- 2014-01-28 JP JP2015555679A patent/JP6289508B2/ja active Active
- 2014-01-28 JP JP2015555680A patent/JP6158352B2/ja active Active
- 2014-01-28 KR KR1020167019945A patent/KR101877906B1/ko active IP Right Grant
- 2014-01-28 PL PL18199319T patent/PL3451334T3/pl unknown
- 2014-01-28 EP EP14701753.7A patent/EP2951817B1/en active Active
- 2014-01-29 AR ARP140100295A patent/AR094679A1/es active IP Right Grant
- 2014-01-29 TW TW103103519A patent/TWI529700B/zh active
- 2014-01-29 TW TW103103524A patent/TWI536367B/zh active
- 2014-01-29 AR ARP140100294A patent/AR094678A1/es active IP Right Grant
-
2015
- 2015-07-28 US US14/811,748 patent/US9524724B2/en active Active
- 2015-07-29 US US14/812,354 patent/US9792920B2/en active Active
- 2015-08-27 ZA ZA2015/06269A patent/ZA201506269B/en unknown
- 2015-08-27 ZA ZA2015/06266A patent/ZA201506266B/en unknown
-
2016
- 2016-06-03 HK HK16106324.6A patent/HK1218345A1/zh unknown
- 2016-06-03 HK HK16106322.8A patent/HK1218344A1/zh unknown
-
2017
- 2017-09-07 US US15/698,442 patent/US10410642B2/en active Active
-
2019
- 2019-07-26 US US16/523,588 patent/US11031022B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5692102A (en) * | 1995-10-26 | 1997-11-25 | Motorola, Inc. | Method device and system for an efficient noise injection process for low bitrate audio compression |
CN101030373A (zh) * | 2006-01-12 | 2007-09-05 | 意法半导体亚太私人有限公司 | 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法 |
CN101809657A (zh) * | 2007-08-27 | 2010-08-18 | 爱立信电话股份有限公司 | 用于噪声填充的方法和设备 |
CN102884574A (zh) * | 2009-10-20 | 2013-01-16 | 弗兰霍菲尔运输应用研究公司 | 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105264597B (zh) | 感知转换音频编码中的噪声填充 | |
KR20170037970A (ko) | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 | |
WO2023118605A1 (en) | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using a filtering | |
WO2023117145A1 (en) | Method and apparatus for spectrotemporally improved spectral gap filling in audio coding using different noise filling methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |