CN102859588A - 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法及用于低延迟应用的计算机程序 - Google Patents
音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法及用于低延迟应用的计算机程序 Download PDFInfo
- Publication number
- CN102859588A CN102859588A CN201080047598XA CN201080047598A CN102859588A CN 102859588 A CN102859588 A CN 102859588A CN 201080047598X A CN201080047598X A CN 201080047598XA CN 201080047598 A CN201080047598 A CN 201080047598A CN 102859588 A CN102859588 A CN 102859588A
- Authority
- CN
- China
- Prior art keywords
- audio content
- coding
- window
- domain
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Abstract
一种音频信号编码器(100)包含一变换域路径(12),其被构造为基于将以变换域模式编码的音频内容部分的时域表示型态(122)而获得一频谱系数集合(124)和噪声成形信息(126)。该变换域路径包含一时域至频域转换器(130),其被构造为对该音频内容的时域表示型态开窗以获得音频内容的开窗表示型态,并施加时域至频域转换以从该音频内容的开窗时域表示型态而导算出一频谱系数集合。该音频信号译码器包含一CELP路径(140),其被构造为基于将以CELP模式编码的音频内容部分获得码激励信息(144)和线性预测域参数信息(146)。时域至频域转换器(136)被构造为若该音频内容的目前部分被将以变换域模式编码的音频内容的随后部分所跟随,且若该音频内容的目前部分被将以CELP模式编码的音频内容的随后部分所跟随,则施加一预定非对称分析窗用于对将以变换域模式编码且跟随在将以变换域模式编码的音频内容部分后方的音频内容的目前部分进行开窗。若该音频内容的目前部分被将以CELP模式编码的音频内容的随后部分所跟随,则该音频信号编码器被构造为选择性地提供频迭抵消信息(164)。
Description
技术领域
根据本发明的实施例涉及一种用以基于音频内容的输入表示型态而提供该音频内容的编码表示型态的音频信号编码器。
根据本发明的实施例涉及一种用以基于音频内容的编码表示型态而提供该音频内容的译码表示型态的音频信号译码器。
根据本发明的实施例涉及一种用以基于音频内容的输入表示型态而提供该音频内容的编码表示型态的方法。
根据本发明的实施例涉及一种用以基于音频内容的编码表示型态而提供该音频内容的译码表示型态的方法。
根据本发明的实施例涉及一种用以执行这些方法的计算机程序。
根据本发明的实施例涉及一种用于带有低延迟的统一语音和音频编码的新颖编码方案。
背景技术
后文中将简短解释本发明的背景,方便协助了解本发明及其优点。
过去十年间,大量努力致力于以良好位率效率而数字式存储与分配音频内容的可能性。以此方式的一项重大成就为国际标准ISO/IEC 14496-3的定义。该标准的第三部分涉及音频内容的编码及译码,而第三部分的第四次部分涉及一般音频编码。ISO/IEC 14496第三部分、第四次部分定义一般音频内容的编码及译码构想。此外,已经提示进一步改进来改善质量和/或降低所要求的位率。
此外,已经发展音频编码器及音频译码器,它们特别适合用于编码及译码语音信号。这些语音最佳化音频编码器例如在第三代协作项目计划的技术规格“3GPP TS 26.090”、“3GPP TS 26.190”、及“3GPP TS 26.290”中得到描述。
已经发现有多项应用,其中,期望低的编码及译码延迟。举例言之,实时多媒体应用期望低度延迟,原因在于明显延迟将导致此项应用给使用人留下不愉悦的印象。
然而,也发现,质量与位率间的良好折衷偶尔要求取决于音频内容而在不同编码模式间作切换。已经发现音频内容的变异导致期望在编码模式间作改变,例如在变换编码激励线性预测域模式与码激励线性预测域模式(例如代数码激励线性预测域模式)间改变,或在频域模式与码激励线性预测域模式间改变。原因在于实际上有些音频内容(或接续音频内容的某些部分)可在这些模式中的一者中以较高编码效率编码,而其它音频内容(或相同连续音频内容的某些部分)可在这些模式中的一不同者以较佳编码效率编码。
有鉴于此种情况,发现期望在不同模式间切换而无需大量位率窗外间接管理数据量用于切换,且未显着地有损音频质量(例如呈现切换「喀嚓(click)」形式)。此外,发现不同模式间的切换须与具有低编码及译码延迟的目的为可兼容性。
有鉴于此种情况,本发明的目的形成一种用于多模式音频编码的构想,当在不同编码模式间切换时,其获致位率效率、音频质量与延迟间的良好折衷。
发明内容
发明概要
根据本发明的实施例形成一种用以基于一音频内容的输入表示型态提供该音频内容的编码表示型态的音频信号编码器。该音频信号编码器包含一变换域路径,其被构造为基于将以变换域模式编码的该音频内容部分的时域表示型态,而获得一频谱系数集合及噪声成形信息(例如定标因子信息或线性预测域参数信息),使得频谱系数描述该音频内容的一噪声成形(例如经定标因子处理或经线性预测域噪声成形)版本的频谱。该变换域路径包含一时域至频域转换器,其被构造为开窗该音频内容的一时域表示型态或其前处理版本,而获得该音频内容的开窗表示型态,且施加时域至频域转换以从该音频内容的开窗时域表示型态导算出一频谱系数集合。该音频信号编码器也包含一码激励线性预测域路径(被简单标示为CELP路径),其被构造为基于将以码激励线性预测域模式(也简短标示为CELP模式)编码的音频内容部分(例如代数码激励线性预测域模式),获得一码激励信息(例如代数码激励信息)及一线性预测域参数信息。该时域至频域转换器被构造为若音频内容的目前部分被该将以变换域模式编码的音频内容的一随后部分所跟随,且若该音频内容的目前部分被将以CELP模式编码的音频内容的一随后部分所跟随,则施加一预定非对称分析窗用于对将以变换域模式编码且跟随在将以变换域模式编码的音频内容部分后方的的音频内容的目前部分进行开窗。该音频信号编码器被构造为若该音频内容的目前部分(其以变换域模式编码)被将以CELP模式编码的该音频内容的随后部分所跟随,则选择性地提供频迭抵消信息(aliasingcancellation information)。
根据本发明的实施例是基于发现通过在变换域模式与CELP模式间切换,可获得编码效率(例如以平均位率表示)、音频质量与编码延迟间的良好折衷,其中,将以变换域模式编码的音频内容部分的开窗与其中编码该音频内容的随后部分的模式不相干地,及其中通过选择性地提供频迭抵消信息而使得频迭假影(aliasing artifacts)的减少或抵消变得可能,该频迭假影由使用开窗而其并未特别调适变迁朝向以CELP模式编码的该音频内容部分引起。如此,通过选择性提供频迭抵消信息,可使用一窗用于以变换域模式编码的音频内容部分(例如帧或次帧)的开窗,这些窗包含与这些音频内容的随后部分的时间重叠(或甚至频迭抵消重叠)。如此允许一序列以变换域模式编码的音频内容的随后部分的良好编码效率,原因在于这些窗的使用导致音频内容的随后部分间的时间重叠,形成可能具有特别有效的重叠及相加的译码器端。此外,若音频内容的目前部分被该将以变换域模式编码的音频内容的一随后部分所跟随,且若该音频内容的目前部分被将以CELP模式编码的音频内容的一随后部分所跟随,则通过使用相同窗对将以变换域模式编码且接在以变换域模式编码的该音频内容部分后方的音频内容部分进行开窗,可将延迟维持在低延迟。换言之,知道其中编码音频内容的随后部分的模式并非是选择一窗用于音频内容的目前部分的开窗所需要的。如此,编码延迟维持在小值,原因在于用于音频内容的随后部分编码的编码模模式已知之前,可执行音频内容的目前部分的开窗。尽管如此,通过使用开窗而导入的假影,可在译码器端使用频迭抵消信息而被抵消,该窗并非完美适用于从以变换域模式编码的音频内容部分变迁至以CELP模式编码的该音频内容部分。
如此,获得良好的平均编码效率,即便从以变换域模式编码的音频内容部分变迁至以CELP模式编码的该音频内容部分的变迁要求若干额外频迭抵消信息也如此。通过提供频迭抵消信息,音频质量维持在低质量;而通过做出与其中音频内容的随后部分的编码模式不相干的窗的选择,延迟可维持在较小值。要言之,如前文讨论的音频编码器组合良好位率效率与低编码延迟,而仍然允许良好的音频质量。
在较佳实施例中,该时域至频域转换器被构造为若该音频内容的目前部分被将以变换域模式编码的音频内容的一随后部分所跟随,且若该音频内容的目前部分被将以CELP模式编码的音频内容的一随后部分所跟随,则施加相同窗用于将以变换域模式编码且跟随在将以变换域模式编码的音频内容部分后方的音频内容的目前部分进行开窗。
在较佳实施例中,该预定非对称窗包含一左半窗及一右半窗,其中,该左半窗包含一左侧变迁斜坡,其中,所有窗值自零单调地增加至一窗中心值(位在该窗中心的一值);及一过冲部分,其中,所有窗值大于该窗中心值,及其中,该窗包含一最大值。该右半窗包含一右侧变迁斜坡,其中,所有窗值自该窗中心值单调地减至零,及一右侧零部分。通过使用此种非对称窗,编码延迟维持特小。而且,经由强调使用过冲部的左半窗,在变迁朝向以CELP模式编码的该音频内容部分的频迭假影维持为较小。如此,频迭抵消信息可以以位率有效方式编码。
在较佳实施例中,该左半窗包含不大于零窗值的1%的长度,及该右侧零部分包含该右半窗的所有窗值的至少20%的长度。发现此种窗特别适合将音频编码器应用于变换域模式与CELP模式间的切换。
在较佳实施例中,预定非对称分析窗的右半窗的所有窗值小于窗中心值,使得预定非对称分析窗的右半窗不具有过冲部分。已经发现此种窗形状导致在朝向以CELP模式编码的该音频内容部分变迁处的较小频迭假影。
在较佳实施例中,预定非对称分析窗的非零部分较短,比帧长度至少短10%。如此,延迟维持特小。
在较佳实施例中,音频信号编码器被构造为使得将以变换域模式编码的音频内容的随后部分包含至少40%的时间重叠。在此种情况下,音频编码器也较佳地被构造为使得该将以变换域模式编码的音频内容的目前部分及该将以码激励线性预测域模式编码的该音频内容的随后部分包含时间重叠。该音频信号编码器被构造为选择性地提供频迭抵消信息,使得该频迭抵消信息允许提供频迭抵消信号用以在自以变换域模式编码的音频内容部分变迁至以CELP模式编码的该音频内容部分时抵消频迭假影。通过提供将以变换域模式编码的音频内容的随后部分(例如帧或次帧)间的有效重叠,可使用重叠的变换,类似例如修正离散余弦变换用于时域至频域转换,其中,通过以变换域模式编码的随后帧间的重叠,而此种重叠变换的时域频迭减少或甚至完全消除。但在自以变换域模式编码的音频内容部分变迁至以CELP模式编码的该音频内容部分,也有某些时间重叠,但其并未导致完美频迭抵消(或甚至并未导致任何频迭抵消)。时间重叠用来避免在以不同模式编码的音频内容部分间变迁时,帧的过度修正。但为了减少或消除在以不同模式编码的音频内容部分间变迁时的重叠引起的频迭假影,提供频迭抵消信息。此外,由于预定非对称分析窗的非对称性,频迭维持较小,使得频迭抵消信息可以以位率有效方式编码。
在较佳实施例中,该音频信号编码器被构造为选择一窗用于音频内容的目前部分(其优选地以变换域模式编码)的开窗,而与用来编码时间上重叠该音频内容的目前部分的该音频内容的随后部分所使用的模式不相干地,使得该音频内容的目前部分(其有效地以变换域模式编码)的开窗表示型态重叠该音频内容的随后部分,即便该音频内容的随后部分以CELP模式编码也如此。该音频信号编码器被构造为响应于检测到该音频内容的随后部分将以CELP模式编码而提供频迭抵消信息,其中,该频迭抵消信息表示将由该音频内容的随后部分的变换域模式表示型态所表示(或含括于)的频迭抵消信号组分。另外,频迭抵消基于从以变换域模式编码的音频内容部分变迁至以CELP模式编码的该音频内容部分时的频迭抵消信息来实现,该频迭抵消(另外,也即在存在以变换域模式编码的音频内容的随后部分时)通过重叠及相加以变换域模式编码的音频内容两部分的时域表示型态来实现。如此,经由使用用频迭抵消信息,在该模式切换的前的音频内容部分开窗可保持不受影响,而协助减少延迟。
在较佳实施例中,该时域至频域转换器被构造为施加预定非对称分析窗用于对将以变换域模式编码且跟随在将以CELP模式编码的该音频内容部分后方的音频内容的目前部分进行开窗,使得与其中编码该音频内容的先前部分的模式不相干地,及与其中编码该音频内容的随后部分的模式不相干地,使用相同的预定非对称分析窗对将以变换域模式编码的音频内容部分开窗。也施加开窗使得该将以变换域模式编码的音频内容的目前部分的开窗表示型态在时间上重叠将以CELP模式编码的该音频内容的先前部分。如此可获得特别简单的开窗方案,其中,以变换域模式编码的音频内容部分经常性地(例如整块音频内容)使用相同的预定非对称分析窗编码。如此,无需发信号通知使用哪一类型的分析窗而可提高位率效率。而且,可维持极小的编码器复杂度(及译码器复杂度)。发现如前文讨论的非对称分析窗极为适用于从变换域模式变换至CELP模式,并从CELP模式变换至变换域模式。
在较佳实施例中,该音频信号编码器被构造为若该音频内容的目前部分跟随在以CELP模式编码的该音频内容的先前部分后方,则选择性地提供频迭抵消信息。已经发现频迭抵消信息的提供也可用于此种变换,并允许确保良好的音频质量。
在较佳实施例中,该时域至频域转换器被构造为施加与该预定非对称分析窗不同的一专用非对称变迁分析窗用于对将以变换域模式编码且接在以CELP模式编码的该音频内容部分后方的音频内容的目前部分进行开窗。而且,已经发现,在变换后,使用专用预定非对称分析窗不会导致出现额外延迟,原因在于是否须使用专用预定非对称分析窗的判定可基于需要判定时已取得的信息做出判定。如此,可减少频迭抵消信息量,或在某些情况下,甚至可去除任何频迭抵消信息的需要。
在较佳实施例中,码激励线性预测域路径(CELP路径)为代数码激励线性预测域路径(ACELP路径),其被构造为基于将以代数码激励线性预测域模式(ACELP模式)(其用作为码激励线性预测域模式)编码的音频内容部分,而获得代数码激励信息及线性预测域参数信息。
根据本发明的实施例形成一种用以基于一音频内容的编码表示型态而提供该音频内容的译码表示型态的音频信号译码器。该音频信号译码器包含一变换域路径,其被构造为基于一频谱系数集合和一噪声成形信息而获得以变换域模式编码的音频内容部分的时域表示型态。该变换域路径包含一频域至时域转换器,其被构造为施加频域至时域转换及开窗,而从该频谱系数集合或自其前处理版本导算出该音频内容的一开窗时域表示型态。该音频信号译码器也包含一码激励线性预测域路径,其被构造为基于码激励信息和线性预测域参数信息而获得以码激励线性预测域模式编码的该音频内容的时域表示型态。该频域至时域转换器被构造为若该音频内容的目前部分被以变换域模式编码的音频内容的随后部分所跟随,并且若该音频内容的目前部分被以CELP模式编码的该音频内容的随后部分所跟随,则施加一预定非对称合成窗,用于对以变换域模式编码且跟随在以变换域模式编码的该音频内容的先前部分后方的音频内容的目前部分进行开窗。该音频信号译码器被构造为若以变换域模式编码的音频内容的目前部分被以CELP模式编码的该音频内容的随后部分所跟随,则基于频迭抵消信息而选择性地提供频迭抵消信号。
此种音频信号译码器基于发现通过使用相同的预定非对称合成窗用于对以变换域模式编码的音频内容部分开窗,而与该音频内容的随后部分是否与以变换域模式编码或以CELP模式编码无关,可获得编码效率、音频质量与编码延迟间的良好折衷。通过使用非对称合成窗,可提高音频信号译码器的低延迟特性。通过具有施加至以变换域模式编码的音频内容的随后部分的各窗间的重叠,可维持较高的编码效率。尽管如此,在以不同模式编码的音频内容部分间变迁的情况下,因重叠所导致的频迭假影可由频迭抵消信号抵消,该频迭抵消信号在自以变换域模式编码的音频内容部分(例如帧或次帧)变迁至以CELP模式编码的该音频内容部分时被选择性地提供。此外,须指出,此处所述的音频信号译码器包含与前述音频信号编码器相同的优点,以及此处所述的音频信号译码器极为适用于与前文讨论的音频信号编码器协作。
在较佳实施例中,该频域至时域转换器被构造为若该音频内容的目前部分被以变换域模式编码的音频内容的随后部分所跟随,并且若该音频内容的目前部分被以CELP模式编码的该音频内容的随后部分所跟随,则施加相同窗用于对以变换域模式编码且跟随在以变换域模式编码的该音频内容的先前部分后方的音频内容的目前部分进行开窗。
在较佳实施例中,该预定非对称合成窗包含一左半窗及一右半窗。该左半窗包含一左侧零部分及一左侧变迁斜坡,其中,所有窗值自零单调地增加至一窗中心值。该右半窗包含一过冲部分,其中,所有窗值大于该窗中心值,及其中,该窗包含一最大值。该右半窗也包含一右侧变迁斜坡,其中,所有窗值自该窗中心值单调地减低至零。已经发现此种预定非对称合成窗的选择会导致特低的延迟,原因在于左侧零部分的存在允许与该音频内容的目前部分的时域音频信号不相干,直至该零部分(右侧)端(该音频内容先前部分的)一音频信号重建。如此,可以以较小延迟呈现音频内容。
在较佳实施例中,该左侧零部分包含占该左半窗的所有窗值至少20%的长度,及该右半窗包含不大于零窗值的1%。已经发现此种非对称窗极为适合用于低延迟应用,及此种预定非对称合成窗也极为适合用于与前述优良的预定非对称分析窗协作。
在较佳实施例中,该预定非对称合成窗的左半窗的所有窗值小于该窗中心值,使得在预定非对称合成窗的左半窗中没有过冲部分。如此,可以组合前述非对称分析窗,来达成良好低延迟的音频内容重建。而且,该窗还包含良好频率响应。
在较佳实施例中,预定非对称窗的非零部分比一帧长度至少短10%。
在较佳实施例中,该音频信号译码器被构造为使得以变换域模式编码的音频内容的随后部分包含至少40%的时间重叠。该音频信号译码器也被构造为使得以变换域模式编码的音频内容的目前部分及和码激励线性预测域模式编码的音频内容的随后部分均包含时间重叠。该音频信号译码器被构造为基于该频迭抵消信息而选择性地提供频迭抵消信号,使得在自(以变换域模式编码的)该音频内容的目前部分变迁至以CELP模式编码的该音频内容的随后部分时,该频迭抵消信号减少或抵消频迭假影。通过以变换域模式编码的音频内容的随后部分间的有效重叠,可获得平滑变迁,且可抵消频迭假影,频迭假影可能来自于使用重叠变换(类似例如修正离散余弦反变换)。如此,通过使用有效重叠,可促进一序列以变换域模式编码的音频内容部分的随后部分(例如帧或次帧)间的编码效率及平滑变迁。为了避免定帧(framing)的不一致性,并且为了允许与音频内容的随后部分的编码模式不相干地使用预定非对称合成窗,接受在以变换域模式编码的音频内容的目前部分与以CELP模式编码的该音频内容的随后部分之间存在时间重叠。尽管如此,出现在此种变迁的假影由频迭抵消信号抵消。如此,可获得变迁时的良好音频质量,同时维持低编码延迟,并具有高的平均编码效率。
在较佳实施例中,该音频信号译码器被构造为与用于音频内容的随后部分的编码模式不相干地,选择用于队该音频内容的目前部分进行开窗的一窗,该音频内容的随后部分与该音频内容的目前部分在时间上重叠,使得即便该音频内容的随后部分以CELP模式编码,该音频内容的目前部分的开窗表示型态与该音频内容的随后部分(的表示型态)也在时间上重叠。该音频信号译码器也被构造为响应于检测到该音频内容的下一部分以CELP模式编码,而在自以变换域模式编码的音频内容的目前部分变迁至以CELP模式编码的该音频内容的下一(随后)部分时,提供频迭抵消信号减少或抵消频迭假影。如此,若音频内容的目前部分确实被以CELP模式编码的该音频内容部分所跟随,则使用频迭抵消信号抵消这些频迭假影,若音频内容的目前部分被以变换域模式编码的音频内容部分所跟随,则这些频迭假影可由一变换域模式编码的一随后音频帧的时域表示型态抵消。由于此项机制,即便音频内容的随后部分以CELP模式编码,仍可防止变迁质量降级。
在较佳实施例中,频域至时域转换器被构造为施加该预定非对称合成窗用于对以变换域模式编码且跟随在以CELP模式编码的该音频内容部分后方的音频内容的目前部分进行开窗,使得以变换域模式编码的音频内容部分使用相同的预定非对称合成窗被开窗,而与其中编码该音频内容的先前部分的模式不相干,并且与其中编码该音频内容的随后部分的模式也不相干。该预定非对称合成窗被施加为使得以变换域模式编码的音频内容的目前部分的开窗时域表示型态与以CELP模式编码的该音频内容的先前部分的时域表示型态在时间上重叠。如此,相同的预定非对称合成窗用于以变换域模式编码的音频内容部分,而与其中编码音频内容的两相邻先前部分和随后部分的模式不相干。如此,可以达成特别简单的音频信号译码器的实施。而且,无需使用合成窗类型的任何传信,这可减低位率的需求。
在较佳实施例中,该音频信号译码器被构造为,若音频内容的目前部分跟随在以CELP模式编码的该音频内容的先前部分后方,则基于频迭抵消信息而选择性地提供频迭抵消信号。已经发现,偶尔期望在自以CELP模式编码的音频内容部分变迁至以变换域模式编码的该音频内容部分时,也使用频迭抵消信息来处理频迭。已经发现这种构想可带来位率效率与延迟特性间的良好折衷。
在另一个较佳实施例中,该频域至时域转换器被构造为施加与该预定非对称合成窗不同的一专用非对称变迁合成窗,用于对以变换域模式编码且跟随在以CELP模式编码的该音频内容部分后方的音频内容的目前部分进行开窗。已经发现,可通过此种构想而避免频迭假影的存在。而且,已经发现在变迁之后使用专用窗不会严重损害低延迟特性,原因在于此种专用窗的选择所需要的信息在施加此种专用合成窗之时已可取得利用。
在较佳实施例中,该码激励线性预测域路径(CELP路径)为一代数码激励线性预测域路径(ACELP路径),其被构造为基于代数码激励信息和线性预测域参数信息,而获得以代数码激励线性预测域模式(ACELP模式)(其用作为码激励线性预测域模式)编码的该音频内容的时域表示型态。在多种情况下,通过使用代数码激励线性预测域路径作为码激励线性预测域路径,可达成特高的编码效率。
根据本发明的其它实施例形成了一种基于一音频内容的输入表示型态而提供该音频内容的编码表示型态的方法;以及一种基于一音频内容的编码表示型态而提供该音频内容的译码表示型态的方法。根据本发明的其它实施例形成了一种用于执行这些方法中的至少一个的计算机程序。
这些方法及这些计算机程序基于与前述音频信号编码器和前述音频信号译码器相同的发现,并且可由关于音频信号编码器和音频信号译码器所讨论的任一项特征和函数性来补偿。
附图说明
随后将参考所揭示的附图来描述根据本发明的实施例,附图中:
图1示出了根据本发明实施例的一种音频信号编码器的方块示意图;
图2a至图2c示出了用于根据图1的音频信号编码器的变换域路径的方块示意图;
图3示出了根据本发明实施例的一种音频信号译码器的方块示意图;
图4a至图4c示出了用于根据图3的音频信号译码器的变换域路径的方块示意图;
图5示出了正弦窗(虚线)与用于根据本发明的若干实施例的G.718分析窗(实线)的比较图;
图6示出了正弦窗(虚线)与用于根据本发明若干实施例的G.718合成窗(实线)的比较图;
图7示出了一序列正弦窗的曲线表示型态;
图8示出了一序列G.718分析窗的曲线表示型态;
图9示出了一序列G.718合成窗的曲线表示型态;
图10示出了一序列正弦窗(实线)及ACELP(以方形标示的线)的曲线表示型态;
图11示出了包含一序列G.718分析窗(实线)、ACELP(以方形标示的线)、及正向频迭抵消(“FAC”)(虚线)的低延迟统一语音及音频编码(USAC)的第一选项的曲线表示型态;
图12示出了与根据图11的低延迟统一语音及音频编码的第一选项相对应的一序列合成的曲线表示型态;
图13示出了使用一序列G.718分析窗(实线)、ACELP(以方形标示的线)、及FAC(虚线)的低延迟统一语音及音频编码的第二选项的曲线表示型态;
图14示出了与根据图13的低延迟统一语音及音频编码的第二选项相对应的一序列合成的曲线表示型态;
图15示出了从进阶音频编码(AAC)变迁至适应性多速率宽带带加编码(AMR-WB+)的曲线表示型态;
图16示出了从适应性多速率宽带带加编码(AMR-WB+)变迁至进阶音频编码(AAC)的曲线表示型态;
图17示出了在带有增强低延迟的进阶音频编码(AAC-ELD)中的低延迟修正离散余弦变换(LD-MDCT)的一分析窗的曲线表示型态;
图18示出了在进阶音频编码增强低延迟(AAC-ELD)中的低延迟修正离散余弦变换(LD-MDCT)的一合成窗的曲线表示型态;
图19示出了用于进阶音频编码增强低延迟(AAC-ELD)与时域编译码器间切换的一实例窗序列的曲线表示型态;
图20示出了用于在进阶音频编码增强低延迟(AAC-ELD)与时域编译码器间切换的一实例分析窗序列的曲线表示型态;
图21a示出了用于从时域编译码器变迁至进阶音频编码增强低延迟(AAC-ELD)的一分析窗的曲线表示型态;
图21b示出了用于从时域编译码器变迁至进阶音频编码增强低延迟(AAC-ELD)的一分析窗且与标准进阶音频编码增强低延迟(AAC-ELD)分析窗相比较的曲线表示型态;
图22示出了用于在进阶音频编码增强低延迟(AAC-ELD)与时域编译码器间切换的一实例合成窗序列的曲线表示型态;
图23a示出了用于从进阶音频编码增强低延迟(AAC-ELD)变迁至时域编译码器的一合成窗的曲线表示型态;
图23b示出了用于从进阶音频编码增强低延迟(AAC-ELD)变迁至时域编译码器的一合成窗且与标准进阶音频编码增强低延迟(AAC-ELD)合成窗相比较的曲线表示型态;
图24示出了用于进阶音频编码增强低延迟(AAC-ELD)与时域编译码器间切换的窗序列的变迁窗的其它选项的曲线表示型态;
图25示出了时域信号的可选开窗及可选组帧的曲线表示型态;以及
图26示出了向时域编译码器提供TDA信号从而达成临界取样的替代的曲线表示型态。
具体实施方式
较佳实施例的详细说明
后文中,将叙述根据本发明的若干实施例。
此处,须注意在后文所述实施例中,将描述代数码激励线性预测域路径(ACELP路径)作为码激励线性预测域路径(CELP路径)的实例,以及将描述代数码激励线性预测域模式(ACELP模式)作为码激励线性预测域模式(CELP模式)的实例。而且,将描述代数码激励信息作为码激励信息。
尽管如此,但不同类型的码激励线性预测域路径将用来代替此处所述的ACELP路径。举例言之,代替ACELP路径,均可使用码激励线性预测域路径的任何其它变化例,类似例如RCELP路径、LD-CELP路径或VSELP路径。
总而言之,不同的构想可用来实施码激励线性预测域路径,其共同地具有:通过线性预测产生语音的来源滤波器模型被用在音频编码器端及用在音频译码器端;并且在编码器端通过对适用于激励(或刺激)线性预测模式(例如线性预测合成滤波器)用来重建将以CELP模式编码的该音频内容的一激励信号(也被标示为刺激信号)进行直接编码而导算出码激励信息,而不执行变换成频域;以及激励信号在音频译码器端而从码激励信息直接导算出,而不执行频域至时域转换,用来重建适用于激励(或刺激)线性预测模式(例如线性预测合成滤波器)以重建将以CELP模式编码的该音频内容的一激励信号(也被标示为刺激信号)。
换言之,音频信号编码器和音频信号译码器中的CELP路径典型地组合了线性预测域模型(或滤波器)(该模型或滤波器可较佳地被构造为对型化声道建模)与激励信号(或刺激信号,或残余信号)的“时域”编码或译码。在该“时域”编码或译码中,激励信号(或刺激信号,或残余信号)可使用适当的码字组而直接编码或译码(未执行该激励信号的时域至频域转换,或未执行该激励信号的频域至时域转换)。对于激励信号的编码和译码,可使用不同类型的码字组。举例言之,霍夫曼码字组(或霍夫曼编码方案,或霍夫曼译码方案)可用于激励信号样本的编码或译码(使得霍夫曼码字组可形成码激励信息)。然而,可选地,不同的适应性和/或固定式码簿可用于激励信号的编码或译码,选择性地组合了向量量化或向量编码/译码(使得这些码字组形成码激励信息)。在若干实施例中,代数码簿可用于激励信号(ACELP)的编码或译码,但不同类型的码簿也适用。
总体言之,存在用于激励信号的“直接”编码的多种不同构想,它们全部均可用在CELP路径中。因此使用ACELP构想的编码和译码(后文将详述)只可被视为实施CELP路径的各种可能性中的一个实例。
1.根据图1的音频信号编码器
后文中,根据本发明的实施例的音频信号编码器100将参考图1作说明,该图示出了此种音频信号编码器100的方块示意图。音频信号编码器100被构造为接收一音频内容的输入表示型态110,以及基于此而提供该音频内容的编码表示型态112。音频信号编码器100包含一变换域路径120,其被构造为接收将以变换域模式编码的音频内容部分(例如帧或次帧)的一时域表示型态122,以及基于该将以变换域模式编码的音频内容部分的该时域表示型态122,而获得一频谱系数集合124(其可以以编码形式提供)和一噪声成形信息126。变换路径120被构造为提供频谱系数124,使得这些频谱系数描述该音频内容的一噪声成形版本的频谱。
音频信号编码器100还包含一代数码激励线性预测域路径(被简称为ACELP路径)140,其被构造为接收将以ACELP模式编码的该音频内容部分的一时域表示型态142,并基于该将以代数码激励线性预测域模式(也被简称为ACELP模式)编码的音频内容部分,而获得代数码激励信息144和线性预测域参数信息146。音频信号编码器100还包含频迭抵消信息提供160,其被构造为提供频迭抵消信息164。
变换域路径包含一时域至频域转换器130,其被构造为对该音频内容的一时域表示型态122开窗(或更精确言之,将以变换域模式编码的音频内容部分的一时域表示型态)或其前处理版本,来获得该音频内容的开窗表示型态(或更精确言之,将以变换域模式编码的音频内容部分的一开窗表示型态),并且被构造为应用时域至频域转换以从该音频内容的开窗(时域)表示型态导算出一频谱系数集合124。该时域至频域转换器130被构造为若该音频内容的目前部分被将以变换域模式编码的音频内容的一随后部分所跟随,且若该音频内容的目前部分被将以ACELP模式编码的音频内容的一随后部分所跟随,则施加预定非对称分析窗用于对将以变换域模式编码且接在将以变换域模式编码的音频内容部分后方的该音频内容的目前部分进行开窗。
该音频信号编码器或更精确言之,频迭抵消信息提供160被构造为若音频内容的目前部分(其被假定以变换域模式编码)被将以ACELP模式编码的该音频内容的随后部分所跟随,则选择性地提供频迭抵消信息。相反地,若音频内容的目前部分(以变换域模式编码)被将以变换域模式编码的该音频内容的另一部分所跟随,则可不提供频迭抵消信息。
如此,同一个预定非对称分析窗用于将以变换域模式编码的该音频内容部分的开窗,而与音频内容的随后部分是否将以以变换域模式编码或以ACELP模式编码无关。预定非对称分析窗典型地提供音频内容的随后部分(例如帧或次帧)间的重叠,这通常导致良好编码效率,并可能在音频信号译码器中执行有效重叠和加法运算来由此避免块状假影。然而,若音频内容的两个随后(且部分重叠)部分以变换域模式编码,则典型地也能够通过重叠及加法运算而在编码器端消除频迭假影。相反地,即便在以变换域模式编码的该音频内容部分与将以ACELP模式编码的该音频内容的随后部分之间变迁时使用预定非对称分析窗,也会带来后述挑战,即,针对在以变换域模式编码的该音频内容的随后部分间的变迁表现效果良好的重叠及加法频迭抵消不再有效,原因在于,通常只有不具重叠(及更特别地,不具有淡入开窗或淡出开窗)的时间上锐度受限制的样本区块才以ACELP模式编码。
然而,已经发现可使用在以变换域模式编码的该音频内容的随后部分之间变迁时使用的相同非对称分析窗,甚至在以变换域模式编码的该音频内容部分与以ACELP模式编码的该音频内容的随后部分间变迁时使用的非对称分析窗,只要在该变迁时选择性地提供频迭抵消信息即可。
因此,为了判定哪一个分析窗须用于音频内容的目前时间部分的分析,时域至频域转换器130并不要求知晓其中编码音频内容的随后部分的模式。结果,在仍然使用非对称分析窗的同时可维持延迟极小,该窗提供足够的重叠来允许在译码器端的有效重叠及加法运算。此外,可在没有明显危害音频质量的情况下从变换域模式切换至ACELP模式,原因在于在此种变迁时提供频迭抵消信息164来考虑预定非对称分析窗并非完美地适用于此种变迁的事实。
后文中,将解说音频信号编码器100的若干进一步细节。
1.1.有关变换域路径的细节
1.1.1.根据图2a的变换域路径
图2a示出了变换域路径200的方块示意图,该变换域路径200可代替变换域路径120,并且其可视为频域路径。
变换域路径200接收将以频域模式编码的一音频帧的时域表示型态210,其中,频域模式为变换域模式的一实例。变换域路径200被构造为基于该时域表示型态210而提供编码频谱系数集合214和编码定标因子信息216。变换域路径200包含时域表示型态210的一选择性前处理220,来获得该时域表示型态210的一前处理版本220a。变换域路径200还包含开窗221,其中,预定非对称分析窗(如上所述)被施加至时域表示型态210或其前处理版本220a,来获得将以频域模式编码的该音频内容部分的开窗时域表示型态221a。变换域路径200还包含时域至频域转换222,其中,频域表示型态222a从将以频域模式编码的该音频内容部分的开窗时域表示型态221中导算出。变换域路径200还包含频谱处理223,其中,频谱成形被应用至形成该频域表示型态222a的频域系数或频谱系数。如此,例如,以频域系数或频谱系数形式获得频谱定标频域表示型态223a。量化及编码224应用至频谱定标(即频谱成形)频域表示型态223a,来获得编码频谱系数集合240。
变换域路径200还包含心理声学分析(psychoacoustic analysis)225,其被构造为例如关于频率遮蔽效应和时间遮蔽效应来分析该音频内容,以判定音频内容的哪些组分(例如,哪些频谱系数)须以较高分辨率编码,而哪些组分(例如,哪些频谱系数)以较低分辨率编码即可。如此,心理声学分析225例如可提供定标因子225a,其描述例如多个定标因子频带的心理声学相关性。举例言之,(较)大定标因子可能与(较)高心理声学相关性的定标因子频带相关联,而(较)小定标因子可能与(较)低心理声学相关性的定标因子频带相关联。
在频谱处理223中,频谱系数222a根据定标因子225a加权。举例言之,不同定标因子频带的频谱系数222a根据与所述各个定标因子频带相关联的定标因子225a加权。如此,在频谱成形频域表示型态223a,具有高心理声学相关性的定标因子频带的频谱系数的加权高于具有较心理声学相关性的定标因子频带的频谱系数。据此,具有高心理声学相关性的定标因子频带的频谱系数,通过量化/编码224而以较高量化准确度有效量化,原因在于频谱处理223的较高加权缘故。具有较低心理声学相关性的定标因子频带的频谱系数222a,通过量化/编码224而以较低分辨率有效量化,原因在于频谱处理223的较低加权缘故。
结果,变换域路径200提供编码频谱系数集合214和作为定标因子225a的编码表示型态的编码定标因子信息216。编码定标因子信息216有效组成噪声成形信息,原因在于编码定标因子信息216描述频谱处理223中的频谱系数222a的定标,其有效地确定不同定标因子频带间的量化噪声的分布。
有关其进一步细节,请参考所谓的“进阶音频编码”的参考文献,其中,描述了在频域模式中一音频帧的时域表示型态。
此外,须注意变换域路径200典型地处理时间上重叠的音频帧。优选地,时域至频域转换222包含重叠变换的执行,类似例如修正离散余弦变换(MDCT)。如此,对具有N个时域样本的一音频帧只提供约N/2个频谱系数222a。如此,例如N/2个频谱系数的编码集合214不足以完美(或近完美)重建N个时域样本的一帧。反而,典型地要求两个随后帧的重叠来完美地(或至少近完美地)重建该音频内容的时域表示型态。换言之,典型地在译码器端要求两个随后音频帧的频谱系数的编码集合214,来抵消以频域模式编码的两个随后帧的时间重叠区中的频迭。
然而,将在后文详述关于从以频域模式编码的一帧至以ACELP模式编码的一帧的频迭如何抵消的进一步细节。
1.1.2.根据图2b的变换域路径
图2b示出了变换域路径230的方块示意图,该变换域路径230可代替变换域路径120。
可被考虑作为变换编码激励线性预测域路径的变换域路径230,接收将以变换编码激励线性预测域模式(也被简称为TCX-LPD模式)编码的音频帧的时域表示型态240,其中,该TCX-LPD模式为变换域模式的实例。变换域路径230被构造为提供编码频谱系数集合244和可被考虑作为噪声成形信息的编码线性预测域参数246。变换域路径230选择性地包含前处理250,其被构造为提供时域表示型态240的前处理版本250a。变换域路径也包含线性预测域参数计算251,其被构造为基于时域表示型态240运算线性预测域滤波参数251a。线性预测域参数计算251例如可被构造为执行时域表示型态240的相关性(correlation)分析,来获得线性预测域滤波参数。举例言之,线性预测域参数计算251可如在第三代协作项目计划的文件“3GPP TS 26.090”、“3GPP TS 26.190”、及“3GPP TS 26.290”中所描述的那样。
变换域路径230还包含基于LPC的滤波262,其中,时域表示型态240或其前处理版本250a使用根据线性预测域滤波参数251a而构造的滤波器而被滤波。如此,通过基于线性预测域滤波参数251a的滤波262而获得滤波时域信号262a。滤波时域信号262a在开窗263中开窗以获得开窗时域信号263a。该开窗时域信号263a通过时域至频域转换264而转成频域表示型态,以获得一频谱系数集合264a作为时域至频域转换264的结果。该频谱系数集合264a随后在量化/编码265中经量化及编码,以获得编码频谱系数集合244。
变换域路径230还包含线性预测域滤波参数251a的量化及编码266,以提供编码线性预测域参数246。
关于变换域路径230的函数性,可认为线性预测域参数计算251提供在滤波262中施加的线性预测域滤波参数251a。滤波时域信号262a为时域表示型态240的或其前处理版本250a的频谱成形版本。总而言之,可认为滤波262执行噪声成形,使得与时域表示型态240所表示的音频内容对可理解性较不重要的时域表示型态240的频谱组分相比较,时域表示型态240所描述的音频信号对可理解性较重要的时域表示型态240组分作较高加权。如此,对音频内容的可理解性较为重要的时域表示型态240的频谱组分的频谱系数264a优于对音频内容的可理解性较不重要的频谱组分的频谱系数264a而被强调。
结果,与较为重要的时域表示型态240的频谱组分相关联的频谱系数与较低重要性的频谱组分的频谱系数相比将以更高的量化准确度而量化。如此,由量化/编码250所引起的量化噪声经成形,使得(就音频内容的可理解性而言)较重要的频谱组分与(就音频内容的可理解性而言)较不重要的频谱组分相比而受量化噪声的影响较不严重。
如此,编码线性预测域参数246可被考虑作为噪声成形信息,其以编码形式描述滤波262,并且其已经应用于使量化噪声成形。
此外,须注意,较佳重叠变换用于时域至频域转换264。举例言之,修正离散余弦变换(MDCT)用于时域至频域转换器264。如此,由变换域路径所提供的编码频谱系数244的数目小于音频帧的时域样本数目。举例言之,编码N/2频谱系数集合244可提供用于包含N个时域样本的一音频帧。基于与该音频帧相关联的编码N/2频谱系数集合244,而不能够达成该音频帧的N个时域样本的完美(或近完美)重建。反而,两个随后音频帧的已重建时域表示型态间的重叠及加法要求抵消时域频迭,该情况由下述事实所引起,即,较少数(例如N/2个)频谱系数与N个时域样本的音频帧相关联。如此,典型地要求在译码器端,重叠以TCX-LPD模式编码的两个随后音频帧的时域表示型态,来抵消这两个随后帧间的时间重叠区的频迭假影。
然而,将在后文详述在以TCX-LPD模式编码的音频帧与以ACELP模式编码的随后音频帧间变迁时的频迭抵消机制。
1.1.3.根据图2c的变换域路径
图2c示出了变换域路径260的方块示意图,该路径在某些实施例可替代变换域路径120,可视为变换码激励线性预测域路径。
变换域路径260被构造为接收将以TCX-LPD模式编码的一音频帧的时域表示型态,并基于此而提供编码频谱系数集合274和可视为噪声成形信息的编码线性预测域参数276。变换域路径260包含选择性前处理280,其可与前处理250相同,并提供时域表示型态270的前处理版本。变换域路径260还包含线性预测域参数计算281,其可与线性预测域参数计算251相同,并且其提供线性预测域滤波参数281a。变换域路径260还包含线性预测域至频域转换282,其被构造为接收线性预测域滤波参数281a,并基于此而提供线性预测域滤波参数的频域表示型态282b。变换域路径260还包含开窗283,其被构造为接收270或其前处理版本280a,并提供时域至频域转换284的开窗时域信号283a。时域至频域转换284提供一频谱系数集合284a。该频谱系数集合284在频谱处理285经频谱处理。举例言之,这些频谱系数284a各自根据线性预测域滤波参数的频域表示型态282a的相关联值而定标。如此,获得一已定标(即频谱已成形)频谱系数集合285a。量化及编码286被施加至该已定标频谱系数集合285a来获得已编码频谱系数集合274。如此,其频域表示型态282a的相关联值包含较大值的频谱系数284a在频谱处理285中被给予较高的权值;其频域表示型态282a的相关联值包含较小值的频谱系数284a在频谱处理285中被给予较小的权值;其中,这些权值通过频域表示型态282a的值测定。
选择性地,变换域路径260执行与变换域路径230相似的频谱成形,即便频谱成形通过频谱处理285执行而非通过滤波器排组(the filter bank)262执行也如此。
再者,线性预测域滤波参数281a在量化/编码288中经量化及编码来获得已编码的线性预测域参数276。已编码的线性预测域参数276以编码形式描述通过频谱处理285执行的噪声成形。
再者,须注意,时域至频域转换284较佳地使用重叠变换来执行,使得编码频谱系数集合274与一个音频帧的例如N个时域样本数目相比,典型地包含较小数(例如N/2个)频谱系数。如此,基于单一编码频谱系数集合274,不能够完美(或近完美)重建以TCX-LPD帧编码的音频帧。反而,以TCX-LPD帧编码的两个随后音频帧的时域表示型态典型地在音频信号译码器中重叠及相加来抵消频迭假影。
但后文将说明从以TCX-LPD帧编码的音频帧变迁至以ACELP模式编码的音频帧时用于频迭假影抵消的构想。
1.2.关于代数码激励线性预测域路径的细节
在后文中,将叙述关于代数码激励线性预测域路径140的若干细节。
ACELP路径140包含线性预测域参数计算150,在某些情况下,其可与线性预测域参数计算251和线性预测域参数计算281相同。ACELP路径140还包含ACELP激励运算152,其被构造为依据将以ACELP模式编码的该音频内容部分的时域表示型态142并且也依据由线性预测域参数计算150所提供的线性预测域参数150aa(其可为线性预测域滤波参数)而提供ACELP激励信息152。ACELP路径140也包含ACELP激励信息152的编码154以获得代数码激励信息144。此外,ACELP路径140包含线性预测域参数信息150a的量化和编码156来获得已编码的线性预测域参数信息146。须注意,ACELP路径可包含相似于或甚至等于如第三代协作项目计划的文件“3GPP TS 26.090”、“3GPP TS 26.190”、及“3GPP TS26.290”所述的函数性。但在若干实施例中也可应用基于时域表示型态142所提供的代数码激励信息144和线性预测域参数信息146的构想。
1.3.关于频迭抵消信息而提供的细节
在后文中,将解说有关频迭抵消信息提供160的若干细节,其用来提供频迭抵消信息164。
须注意,优选地,频迭抵消信息在从以变换域模式编码的该音频内容部分(例如以频域模式或以以TCX-LPD模式)变迁至以ACELP模式编码的该音频内容的随后部分时被选择性地提供;而频迭抵消信息的提供在从以变换域模式编码的该音频内容部分变迁至也以变换域模式编码的该音频内容部分时被删除。频迭抵消信息164例如可编码适用于抵消频迭假影的信号,该频迭假影包括在基于频谱系数集合124和噪声成形信息126而通过个别译码(不含与以变换域模式编码的该音频内容的随后部分的时域表示型态的重叠及加法)该音频内容部分所获得的该音频内容部分的时域表示型态中。
如前所述,通过基于频谱系数集合124和基于噪声成形信息126而译码单一音频帧所获得的时域表示型态包含时域频迭,该时域频迭通过使用时域至频域转换中的以及音频译码器的频域至时域转换器中的重叠变换所引起。
频迭抵消信息提供160例如可包含合成结果运算170,其被构造为运算一合成结果信号170a,使得该合成结果信号170a描述合成结果,其也基于频谱系数集合124并基于噪声成形信息126而个别译码音频内容的目前部分而在音频信号译码器中获得。合成结果信号170a可被馈送至误差运算172,其也接收该音频内容的输入表示型态110。误差运算172可比较合成结果信号170a与该音频内容的输入表示型态110,并提供误差信号172a。误差信号172a描述通过音频信号译码器可获得的合成结果与音频内容的输入表示型态110间的差。由于误差信号172的主要促成典型地由时域频迭判定,误差信号172极适用于译码器端的频迭抵消。频迭抵消信息提供160还包含误差编码174,其中,该误差信号172a被编码以获得频迭抵消信息164。如此,误差信号172a以下述方式编码,该方式选择性地调整适应误差信号172a的预期信号特性,来获得频迭抵消信息164,使得频迭抵消信息以位率有效方式描述该误差信号172a。如此,频迭抵消信息164允许译码器端的频迭抵消信号的重建,其适用于从以变换域模式编码的音频内容部分变迁至以ACELP模式编码的该音频内容随后部分时,减少或甚至消除频迭假影。
不同编码构想可用于误差编码174。举例言之,误差信号172a可通过频域编码(其包含时域至频域转换,来获得频谱值,及该频谱值的量化及编码)编码。可应用不同类型的量化噪声的噪声成形。然而,可选地,可使用不同的音频编码构想来编码误差信号172a。
此外,可在音频译码器中导出的额外误差抵消信号可考虑于误差运算172。
2.根据图3的音频信号译码器
在后文中,将描述音频信号译码器,其被构造为接收由音频信号译码器100所提供的编码音频表示型态112,及译码该编码音频内容表示型态。图3示出了根据本发明的实施例此种音频信号译码器300的方块示意图。
音频信号译码器300被构造为接收音频内容的编码表示型态310,并基于此而提供音频内容的译码表示型态312。
音频信号译码器300包含变换域路径320,其被构造为接收一频谱系数集合322和一噪声成形信息324。该变换域路径320被构造为基于该频谱系数集合322和该噪声成形信息324而获得以变换域模式(例如频域模式或变换码激励线性预测域模式)编码的该音频内容部分的一时域表示型态326。音频信号译码器300还包含代数码激励线性预测域路径340。代数码激励线性预测域路径340被构造为接收代数码激励信息342和线性预测域参数信息344。代数码激励线性预测域路径340被构造为基于代数码激励信息342和线性预测域参数信息344来获得以代数码激励线性预测域模式编码的音频内容部分的一时域表示型态346。
音频信号译码器300进一步包含一频迭抵消信号提供器360,其被构造为接收一频迭抵消信息362,并基于此频迭抵消信息362以提供一频迭抵消信号364。
音频信号译码器300进一步被构造为例如使用一380,来组合以变换域模式编码的该音频内容部分的时域表示型态326与以ACELP模式编码的该音频内容部分的时域表示型态346,而获得音频内容译码表示型态312。
变换域路径320包含频域至时域转换器330,其被构造为施加频域至时域转换332及开窗334,以从该频谱系数集合322或其前处理版本导算出该音频内容的时域表示型态。频域至时域转换器330被构造频内容的目前部分为以变换域模式编码的音频内容的随后部分所跟随且若该音频内容的目前部分为以ACELP模式编码的该音频内容的随后部分所跟随,则施加相同窗用于对以变换域模式编码且跟随在以变换域模式编码的该音频内容的先前部分后方的音频内容的目前部分进行开窗。
音频信号译码器(或更精确言之,频迭抵消低号提供器360)被构造为若(以变换域模式编码的)该音频内容的目前部分被以ACELP模式编码的该音频内容的随后部分所跟随,则基于频迭抵消信息362而选择性地提供频迭抵消信号364。
关于音频信号译码器300的函数性,可认为音频信号译码器300可提供音频内容的译码表示型态312,其部分以不同模式编码,换言之,以变换域模式或ACELP模式编码。对以变换域模式编码的该音频内容部分(例如帧或次帧),变换域路径320提供一时域表示型态326。但以变换域模式编码的该音频内容的一帧的时域表示型态326可包含时域频迭,原因在于频域至时域转换器330典型地使用反重叠变换来提供该时域表示型态326。在反重叠变换中,例如可为修正离散余弦反变换(IMDCT),一频谱系数集合322可被映射至该帧的时域样本,其中,该帧的时域样本数目可大于与该帧相关联的频谱系数322的数目。举例言之,可能具有与该音频帧相关联的N/2个频谱系数,而通过变换域路径320对该帧提供N个时域样本。如此,通过重叠及相加(例如在组合380中)针对以变换域编码的两个随后帧所得的(时移)时域表示型态,获得实质上不含频迭的时域表示型态。
然而,在从以变换域模式编码的音频内容部分(例如帧或次帧)变迁至以ACELP模式编码的该音频内容部分时,频迭抵消较为困难。优选地,以变换域模式编码的一帧或一次帧的该时域表示型态在时间上延伸至其(非零)时域样本由ACELP分支提供的时间部分(典型地呈区块形式)。而且,以变换域模式编码且在以ACELP模式编码的该音频内容的随后部分前方的该音频内容部分典型地包含某种程度的时域频迭,然而,该时域频迭无法通过ACELP分支对以ACELP模式编码的该音频内容部分所提供的时域样本进行抵消(但若音频内容的随后部分以变换域模式编码,则该时域频迭可由时域分支所提供的时域表示型态实质上抵消)。
但在从以变换域模式编码的音频内容部分变迁至以ACELP模式编码的该音频内容部分时的频迭,通过频迭抵消信号提供器360所提供的频迭抵消信号364而减少或甚至消除。为了达成此目的,频迭抵消信号提供器360评估频迭抵消信息,并基于此而提供时域频迭抵消信号。频迭抵消信号364被添加到例如由变换域路径针对以变换域模式编码的该音频内容部分所提供的N个时域样本的例如,时域表示型态右半(或较短的右侧部)来减少或甚至消除时域频迭。频迭抵消信号364可被添加至如下二者:其中以ACELP模式编码的该音频内容部分的(非零)时域表示型态346未重叠以变换域模式编码的该音频内容的时域表示型态的一时间部分;以及其中以ACELP模式编码的该音频内容部分的(非零)时域表示型态346重叠以变换域模式编码的该音频内容的时域表示型态的一时间部分。在以变换域模式编码的该音频内容部分与以ACELP模式编码的该音频内容的随后部分之间可获得平滑变迁(没有“喀嚓”假影)。使用频迭抵消信号,可在此种变迁时减少或甚至消除频迭假影。
结果,音频信号译码器300可有效处理一序列以变换域模式编码的该音频内容部分(例如帧)。此种情况下,时域频迭被以变换域模式编码的随后(时间上重叠)帧的(例如N个时域样本的)时域表示型态的重叠及加法所抵消。如此,并无任何额外重叠来获得平滑变迁。举例言之,经由评估每个音频帧N/2个频谱系数,并经由50%时帧重叠,可使用临界取样。针对此序列以变换域模式编码的音频帧来获得极佳编码效率,同时避免大块假影。
再者,通过使用相同的预定非对称合成窗,可维持合理够小的延迟,而与以变换域模式编码的该音频内容的目前部分被以变换域模式编码的该音频内容的随后部分所跟随无关,或者与被以ACELP模式编码的该音频内容的随后部分所跟随无关。
此外,通过使用基于频迭抵消信息而提供的频迭抵消信号,以变换域模式编码的该音频内容部分与以ACELP模式编码的该音频内容的随后部分间变迁的音频质量可维持够高,即便未使用特别调整适应的合成窗也如此。
如此,音频信号译码器300提供编码效率、音频质量与编码延迟间的良好折衷。
2.1.关于变换域路径的细节
后文中,将举出有关变换域路径320的细节。为了达成此项目的,将叙述变换域路径320的实施例。
2.1.1.根据图4a的变换域路径
图4a示出了变换域路径400的方块示意图,其在根据本发明的若干实施例中可替代变换域路径320,并且其可被视为频域路径。
变换域路径400被构造为接收频谱系数的编码集合412及编码定标因子信息414。变换域路径400被构造为提供以频域模式编码的该音频内容部分的时域表示型态416。
变换域路径400包含译码和反量化420,其接收该已编码的频谱系数集合412,并基于此而提供已译码且已反量化的频谱系数集合420a。变换域路径400还包含译码及反量化421,其接收编码定标因子信息414,并基于此而提供已译码且已反量化的定标因子信息421a。
变换域路径400还包含频谱处理422,该频谱处理422例如包含已译码且已反量化的频谱系数集合420a的定标因子逐频带定标(scale-factor-band-wise scaling)。如此获得已定标的(即已经频谱成形的)频谱系数集合422a。在频谱处理422中,(较)小定标因子可应用至具有较高心理声学相关性的此种定标因子频带,而(较)大定标因子可应用至具有较小的心理声学相关性的此种定标因子频带。如此,与具有较低心理声学相关性的定标因子频带的频谱系数的有效量化噪声相比,可达成具有较高心理声学相关性的定标因子频带的频谱系数具有较小的有效量化噪声。在频谱处理中,频谱系数420a可乘以个别相关联的定标因子,来获得已定标的频谱系数422a。
变换域路径400还可包含频域至时域转换423,其被构造为接收已定标频谱系数422a,并基于此而提供时域信号423a。举例言之,频域至时域转换可为反重叠变换,类似例如修正离散余弦反变换。如此,频域至时域转换423可基于N/2个已定标(已频谱成形)频谱系数422a来提供例如N个时域样本的时域表示型态423a。变换域路径400还包含开窗424,其被施加至时域信号423a。举例言之,如前述及容后详述的预定非对称合成窗可施加至时域信号423a而从其中导算出一开窗时域信号424a。选择性地,可对该开窗时域信号424a施加后处理425来获得以频域模式编码的音频内容部分的时域表示型态426。
如此,可被视为频域路径的变换域路径420被构造为使用在频谱处理422时施加的基于定标因子的量化噪声成形,来提供以频域模式编码的音频内容部分的时域表示型态416。优选地,对一组N/2个频谱系数提供N个时域样本的时域表示型态,其中,由于下述事实,(对一给定帧)时域表示型态的时域样本数目大于(例如2的因子或不同因子)该已编码频谱系数集合412(对该给定帧)的频谱系数数目,故该时域表示型态416包含若干频迭。
然而,如前文讨论,时域频迭通过以频域编码的音频内容的随后部分间的重叠及加法运算而被减少或抵消;或在以频域模式编码的音频内容部分与以ACELP模式编码的该音频内容部分间变迁的情况下,通过频迭抵消信号364的加法而减少或抵消。
2.1.2.根据图4b的变换域路径
图4b示出了变换码激励线性预测域路径430的方块示意图,其为变换域路径并且其可替代变换域路径320。
TCX-LPD路径430被构造为接收已编码的频谱系数集合442及可被视为噪声成形信息的已编码的线性预测域参数444。TCX-LPD路径430被构造为基于已编码的频谱系数集合442和已编码的线性预测域参数444而提供以TCX-LPD模式编码的音频内容部分的时域表示型态446。
TCX-LPD路径430包含已编码的频谱系数集合442的译码及反量化450,由于译码及反量化结果,而提供已译码及反量化的频谱系数集合450a。已译码及反量化的频谱系数集合450a输入频域至时域转换451,其基于已译码及反量化的频谱系数提供时域信号451a。频域至时域转换451例如可包含基于已译码及反量化的频谱系数450a而执行反重叠变换,来由于该反重叠变换结果提供时域信号451a。举例言之,可执行修正离散余弦反变换而从已译码及反量化的频谱系数集合450a导算出时域信号451a。在重叠变换的情况下,时域表示型态451a的时域样本数目(例如N)可大于输入频域至时域转换的频谱系数450a的数目(例如N/2),使得例如响应于N/2个频谱系数450a,可提供该时域信号451a的N个时域样本。
TCX-LPD路径430还包含开窗452,其中,施加合成窗函数用于该时域信号451a的开窗,来导算出已开窗时域信号452a。举例言之,预定非对称合成窗可应用于开窗452来获得已开窗时域信号452a作为时域信号451a的开窗版本。TCX-LPD路径430还包含译码及反量化453,其中,从已编码线性预测域参数444导算出已译码线性预测域参数信息453a。已译码线性预测域参数信息例如可包含(或描述)线性预测滤波器的滤波系数。滤波系数例如可如第三代协作项目计划的文件“3GPP TS 26.090”、“3GPP TS 26.190”、及“3GPP TS 26.290”所述的那样进行译码。如此,滤波系数453a可用来基于线性预测码滤波454来滤波开窗时域信号452a。换言之,用来从开窗时域信号452a导算出滤波时域信号454a的滤波(例如有限脉冲响应滤波)系数可依据描述这些滤波系数的已译码线性预测域参数信息453a而调整。如此,开窗时域信号452a,可用作基于线性预测码的信号合成454(其依据滤波系数453a而调整)的刺激信号。
选择性地,后处理455可应用于从滤波时域信号454a导算出以TCX-LPD模式编码的音频内容部分的时域表示型态446。
总而言之,通过编码线性预测域参数444描述的滤波454应用于从由已编码频谱系数集合442描述的滤波刺激信号452a导算出以TCX-LPD模式编码的音频内容部分的时域表示型态446。据此,针对这些信号而获得良好编码效率,这些信号是良好地可预测的,也即,其极为适用于线性预测滤波器。对于这些信号,刺激可由一编码频谱系数集合442而有效地编码,而信号的其它相关性特性可由滤波454来考虑,该滤波依据线性预测滤波系数453a而确定。
但须注意,通过在频域至时域转换451中应用重叠变换,将时域频迭导入时域表示型态446。时域频迭可由以TCX-LPD模式编码的音频内容随后部分的(时移)时域表示型态446的重叠及加法而抵消。时域频迭另外可在以不同模式块编的音频内容部分间变迁时,使用频迭抵消信号364而减少或抵消。
2.1.3.根据图4c的变换域路径
图4c示出了变换域路径460的方块示意图,根据本发明的若干实施例其可替代变换域路径320。
变换域路径460使用频域噪声成形的变换码激励线性预测域路径(TCX-LPD路径)。TCX-LPD路径460被构造为接收一编码频谱系数集合472和可被视为噪声成形信息的已编码线性预测域参数474。TCX-LPD路径460被构造为基于编码频谱系数集合472和已编码线性预测域参数474,而提供以TCX-LPD模式编码的音频内容部分的时域表示型态476。
TCX-LPD路径460包含译码/反量化480,其被构造为接收已编码频谱系数集合472,并基于此而提供已译码及反量化的频谱系数480a。TCX-LPD路径460还包含译码/反量化481,其被构造为接收已编码频谱系数集合472,并基于此而提供已译码及反量化的线性预测域参数481a,类似例如线性预测编码(LPC)滤波器的滤波系数。TCX-LPD路径460还包含线性预测域至频域转换482,其被构造为接收该已译码及反量化的线性预测域参数481,并提供该线性预测域参数481a的频域表示型态482a。举例言之,频域表示型态482a可为由线性预测域参数481a描述的滤波响应的频域表示型态。TCX-LPD路径460进一步包含频谱处理483,其被构造为依据线性预测域参数481的频域表示型态482a而定标频谱系数480a,来获得一已定标的频谱系数集合483a。举例言之,各个频谱系数480a可乘以定标因子,其根据(或依据)频域表示型态482a的频谱系数中的一个或多个来判定。如此,频谱系数480a的权值通过已编码线性预测域参数482所描述的线性预测编码滤波器的频谱响应而有效地测定。例如,对于线性预测滤波器包含较大频率响应的这些频率的频谱系数480a,在频谱处理483中,可以以小型定标因子定标,使得与该频谱系数480a相关联的量化噪声减低。相反地,对于线性预测滤波器包含较小频率响应的这些频率的频谱数480a,在频谱处理483中,可以以较高定标因子定标,使得这些频谱系数480a的有效量化噪声较高。如此,频谱处理483有效地致使依据已编码线性预测域参数472的量化噪声成形。
已定标的频谱系数483a被输入频域至时域转换484来获得时域信号484a。频域至时域转换484例如可包含重叠变换,类似例如修正离散余弦反变换。据此,时域表示型态484a可为基于已定标(即已频谱成形)的频谱系数483a的此种频域至时域转换执行的结果。须注意,时域表示型态484a可包含时域样本数目大于输入该频域至时域转换的已定标的频谱系数483a的数目。据此,时域样本484a包含时域频迭组分,其通过以TCX-LPD模式编码的音频内容随后部分(例如帧或次帧)的时域表示型态476的重叠及相加而抵消;或在以不同模式编码的音频内容部分间变迁的情况下,由频迭抵消信号364而抵消。
TCX-LPD路径460可包含开窗485,其应用于开窗时域信号484a以从其中导算出一已开窗时域信号485a。在该开窗485时,在根据本发明的若干实施例中可使用预定非对称合成窗,如后文所详述的。
选择性地,可应用后处理486从该已开窗时域信号485a导算出时域表示型态476。
概述TCX-LPD路径460的函数性,可认为在作为TCX-LPD路径460的中心部分的频谱处理483中,噪声成形应用于已译码及反量化的频谱系数480a,其中,噪声成形依据线性预测域参数而调整。随后,使用频域至时域转换484,而基于已定标的噪声成形频谱数483a提供已开窗时域信号485a,其中,优选地使用导入若干频迭的重叠变换。
2.2.关于ACELP路径的细节
后文中,将描述关于ACELP路径340的若干细节。
须注意,ACELP路径340与ACELP路径140相比较时可执行反函数性。ACELP路径340包含代数码激励信息342的译码350。译码350包含对激励信号运算的已译码的代数码激励信息350a和后处理351,其又转而提供ACELP激励信号351a。ACELP路径还包含线性预测域参数的译码352。译码352接收线性预测域参数信息344,并基于此而提供线性预测域参数352a,类似例如线性预测滤波器(也标示为LPC滤波器)的滤波系数。ACELP路径还包含合成滤波353,其被构造为根据该352a而对激励信号351a滤波。如此,由于合成滤波353结果而获得合成时域信号353a,其在后处理354中选择性地经后处理来导算出以ACELP模式编码的该音频内容部分的时域表示型态346。
ACELP路径被构造为提供以ACELP模式编码的该音频内容的时间有限部分的时域表示型态。举例言之,时域表示型态346可自身一致地表示音频内容部分的时域信号。换言之,时域表示型态346可不含时域频迭,且可能受块状窗所限。如此,时域表示型态346即足以重建明确划界的时间区块(具有块状窗形状)的音频信号,即便须小心在此区块边界并无大块假影也如此。
进一步细节容后详述。
2.3.关于频迭抵消信号提供器的细节
后文中,将描述关于频迭抵消信号提供器360的若干细节。频迭抵消信号提供器360被构造为接收频迭抵消信息362,并执行该频迭抵消信息362的译码370而获得已译码的频迭抵消信息370a。频迭抵消信号提供器360还被构造为基于已译码的频迭抵消信息370a而执行频迭抵消信号364的重建。
频迭抵消信号提供器360可以以不同形式编码,讨论如前。举例言之,频迭抵消信息362可以以频域表示型态或以线性预测域表示型态编码。如此,不同的量化噪声成形构想可应用于频迭抵消信号的重建372。在某些情况下,得自以频域模式编码的音频内容部分的定标因子可应用于频迭抵消信号364的重建。在若干其它情况下,线性预测域参数(例如线性预测滤波数)可应用于频迭抵消信号364的重建372。另外或此外,例如除了频域表示型态之外,噪声成形信息可含括于已编码的频迭抵消信息362。此外,来自于变换域路径320或来自ACELP分支340的额外信息可选择性地用于频迭抵消信号364的重建372。此外,开窗也可用于频迭抵消信号的重建372,容后详述。
总而言之,不同的信号译码构想可用来依据频迭抵消信息362的格式,而基于频迭抵消信息362来提供频迭抵消信号364。
3.开窗及频迭抵消构想
后文中,后文将详述关于可应用于音频信号编码器100及音频信号译码器300的开窗的频迭抵消构想的细节。
后文中,将提供在低延迟统一语音及音频编码(USAC)中的窗序列状态的描述。
在低延迟统一语音及音频编码(USAC)发展的目前实施例中,未使用具有延伸重叠至过去的来自进阶音频编码加强低延迟(AAC-ELD)的低延迟窗。反而使用正弦窗或与ITU-T G.718标准(例如于时域至频域转换器130及/或频域至时域转换器330)所使用的低延迟窗相同或相似的低延迟窗。该G.718窗具有类似于进阶音频编码加强低延迟窗(AAC-ELD窗)的非对称形状来减少延迟,但只有二时间重叠(2x重叠),也即与标准正弦窗相同的重叠。随后各图(特别地为图5至图9)示出了正弦窗与G.718窗间的差异。
须注意,在下列各图中,假设帧长度为400个样本来使得图中的格栅更加配合窗。然而,在实际系统中以512帧长度为佳。
3.1.正弦窗与G.718分析窗间的比较(图5至图9)
图5示出了正弦窗(以虚线表示)与G.718分析窗(以实线表示)的比较。参考图5,其示出了正弦窗与G.718分析窗的窗值的曲线表示,须注意,横坐标510描述以具有0至400的样本指针的时域样本表示时间,并且纵坐标512描述窗值(例如可为标准化窗值)。
如图5可知,实线520表示的G.718分析窗为非对称性。如图可知,左半窗(时域样本0至199)包含一变迁斜坡522,其中,窗值自0单调地增至窗中心值1;及一过冲部分524,其中,窗值大于窗中心值1。在过冲部分524中,窗包含最大值524a。G.718分析窗520也包含在中心526的中心值1中。G.718分析窗520还包含一右半窗(时域样本201至400)。右半窗包含一右侧变迁斜坡520a,其中,窗值自窗中心值1单调地减至0。右半窗也包含右侧零部分530。须注意,G.718分析窗520可用时域至频域转换器130,来开窗具有400样本的帧长度的一部分(例如帧或次帧),其中,该帧的最末50个样本因G.718分析窗的右侧零部分530,故不加以考虑。如此,时域至频域转换可始于帧的全部400个样本可利用之前。反而利用目前分析帧的350个样本即足以开始时域至频域转换。
而且,包含(只)在右半窗中的过冲部分524的该窗520的非对称形状,极为适用于音频信号编码器/音频信号译码器处理连锁中的低延迟信号的重建。
综上所述,图5示出了正弦窗(虚线)与G.718分析窗(实线)的比较,其中,在G.718分析窗520右侧的50个样本导致编码器(比较使用正弦窗的编码器)中的50个样本的延迟缩减。
图6示出了正弦窗(虚线)与G.718合成窗(实线)的比较。横坐标610描述以时域样本表示的时间,其中,该时域样本具有0至400的样本指针,并且纵坐标612描述(标准化)窗值。
如图可知,可用于频域至时域转换器330开窗的G.718合成窗620包含一左半窗及一右半窗。左半窗(样本0至199)包含左侧零部分622及左侧变迁斜坡624,其中,窗值自零(样本50)单调地增至窗中心值例如1。G.718合成窗620也包含中心窗值1(样本200)。右侧窗部分(样本201至400)包含过冲部分628,其包含最大值628a。右半窗(样本201至400)也包含右侧变迁斜坡630,其中,窗值自窗中心值(1)单调地降至零。
G.718合成窗620可应用于变换域路径320中以对以变换域模式编码的音频帧的400样本开窗。G.718窗左侧的50个样本(左侧零部分622)导致译码器中另外50个样本的延迟减少(例如比较包含400个样本的非零时间延伸的一窗)。延迟减少来自于下述事实,即,在音频内容的目前部分的时域表示型态获得之前,前一个音频帧的音频内容可输出至音频内容的目前部分的第50个样本位置。如此,前一个音频帧(或次音频帧)与目前音频帧(或次音频帧)间的(非零)重叠区缩减左侧零部分622的长度,其当提供译码音频表示型态时导致延迟缩减。但随后帧可位移50%(例如达200个样本)。额外细节讨论如下。
综上所述,图6示出了正弦窗(虚线)与G.718合成窗(实线)的比较。G.718合成窗左侧的50个样本导致译码器中另50个样本的延迟缩减。G.718合成窗620可用于例如频域至时域转换器330、开窗424、开窗452或开窗485。
图7示出了一序列正弦窗的曲线表示型态。横坐标710描述以音频样本值为单位表示的时间,并且纵坐标712描述标准化窗值。如图可知,第一正弦窗720与具有例如400个音频样本(样本指针0至399)的帧长度的第一音频帧722相关联。第二正弦窗730与具有例如400个音频样本(样本指针200至599)的帧长度的第二音频帧732相关联。如图可知,第二音频帧732相对于第一音频帧722偏移200个样本。而且,第一音频帧722和第二音频帧732包含例如200音频样本(样本指针200至399)的时间重叠。换言之,第一音频帧722和第二音频帧732包含约50%(具有例如±1样本的公差)的时间重叠。
图8示出了一序列G.718分析窗的曲线表示型态。横坐标810描述以时域音频样本为单位的时间,并且纵坐标812描述标准化窗值。第一G.718分析窗820与从样本0延伸至样本399的第一音频帧822相关联。第二G.718分析窗830与从样本200延伸至样本599的第二音频帧832相关联。如图可知,第一G.718分析窗820和第二G.718分析窗830包含例如150个样本(±1样本)的时间重叠(只考虑非零窗值时)。有关此一议题,须注意第一G.718分析窗820与从样本0延伸至样本399的第一音频帧822相关联。但第一G.718分析窗820包含例如50个样本的右侧零部分(右侧零部分530),使得分析窗820、830的重叠(以非零窗值为单位测量)减至150个样本值(±1样本值)。如图8可知,两相邻音频帧822、832间具有时间重叠(共200个样本值±1样本值),两个(不多于2)窗820、830的非零部分间也有时间重叠(共150个样本值±1样本值)。
须注意,图8所示的G.718分析窗序列可由频域至时域转换器130施加,并且由变换域路径200、230、260施加。
图9示出了一序列G.718合成窗的曲线表示型态。横坐标910描述以时域音频样本为单位表示的时间,纵坐标912描述标准化合成窗值。
依据图9的G.718合成窗序列包含第一G.718合成窗920和第二G.718合成窗930。第一G.718合成窗920与第一帧922(音频样本0至399)相关联,其中,该G.718合成窗920的左侧零部分(相对应于左侧零部分622)涵盖多个例如约50个在第一帧922起点的样本。如此,第一G.718合成窗的非零部分自样本50延伸至约样本399。第二G.718合成窗930与从音频样本200延伸至音频样本599的第二音频帧932相关联。如图可知,第二G.718合成窗930的左侧零部分从样本200延伸至249,结果,涵盖多个例如约50个在第二音频帧932起点的样本。第二G.718合成窗930的非零部分自样本250延伸至约样本599。如图可知,介于第一G.718合成窗与第二G.718合成窗930的非零区间自样本250至样本399有重叠。额外G.718合成窗间的间隔均匀,如图9可知。
3.2.正弦窗及ACELP的序列
图10示出了一序列正弦窗(实线)及ACELP(以方形标记的线)的曲线表示型态。如图可知,第一变换域音频帧1012自样本0延伸至399,第二变换域音频帧1022从样本200延伸至599,第一ACELP音频帧1032从样本400延伸至799,其带有样本500至700间的非零值,第二ACELP音频帧1042从样本600延伸至999,其带有样本700至900间的非零值,第三变换域音频帧1052从样本800延伸至样本1199,及第四变换域音频帧1062从样本1000延伸至样本1399。如图可知,第二变换域音频帧1022与第一ACELP音频帧1032的非零部分间有时间重叠(样本500至600间)。同理,第二ACELP音频帧1042的非零部分与第三变换域音频帧1052间有时间重叠(样本800至900间)。
正向频迭抵消信号1070(以虚线表示,且被简称为FAC)在从第二变换域音频帧1022至第一ACELP音频帧1032的变迁时提供,并且也在从第二ACELP音频帧1042至第三变换域音频帧1052的变迁时提供。
如图10可知,变迁允许借助于虚线示出的正向频迭抵消1070、1072(FAC)而完美重建(或至少近似完美重建)。须注意,正向频迭抵消窗1070、1072的形状仅供举例说明之用而非反映正确值。用于对称窗(诸如正弦窗),此项技术类似或甚至与也用于MPEG统一语音及音频编码(USAC)的技术相同。
3.3.模式变换的开窗-第一选项
后文中,将参考图11和图12叙述以变换域模式编码的该音频帧与以ACELP模式编码的该音频帧间变换的第一选项。
图11示出了依据低延迟统一语音及音频编码(USAC)开窗的示意表示型态。图11示出了一序列G.718分析窗(实线)、ACELP(以方形标记的线)和正向频迭抵消(虚线)的曲线表示型态。
在图11中,横坐标1110描述以(时域)音频样本为单位表示的时间,并且纵坐标1112描述标准化窗值。以变换域模式编码的第一音频帧从样本0延伸至399且以参考标号1122表示。第二音频帧以变换域模式编码,并且从样本200延伸至599,并以1132表示。第三音频帧以ACELP模式编码,并从样本400延伸至799,并且以1142表示。第四音频帧也以ACELP模式编码,并从样本600延伸至999,并以1152表示。第五音频帧以变换域模式编码,并从样本800延伸至1199,以1162表示。第六音频帧以变换域模式编码,并从样本1000延伸至1399,以1172表示。
如图可知,第一音频帧1122的音频样本使用G.718分析窗1120被开窗,其例如可与图5所示的G.718分析窗520相同。同理,第二音频帧1132的音频样本(时域样本)使用G.718分析窗1130被开窗,该G.718分析窗包含与G.718分析窗1120在样本200至350间的非零重叠区,如图11可知。对于音频帧1142,具有500至700的样本指针的一区块音频样本以ACELP模式编码。但具有在400至500间以及也在700至800间的样本指针的音频样本并未在与第三音频帧相关联的ACELP参数(代数码激励信息和线性预测域参数信息)中考虑。如此,与第三音频帧1142相关联的ACELP参数(代数码激励信息144和线性预测域参数信息146)只允许具有500至700的样本指针的音频样本重建。同理,具有700至900的样本指针的一区块音频样本在与第四音频帧1152相关联的ACELP信息中编码。换言之,对于以ACELP模式编码的音频帧1142、1152,在ACELP编码中考虑只在个别音频帧1142、1152中心处的时间有限的音频样本区块。相反地,对于以ACELP模式编码的音频帧,在ACELP编码中未考虑延长的左侧零部分(例如约100个样本)和延长的右侧零部分(例如约100个样本)。如此,须注意,一个音频帧的ACELP编码对约200个非零时域样本(例如第三帧1142的样本500至700和第四帧1152的样本700至900)编码。相反,每个音频帧有较高数目的非零音频样本以变换域模式编码。举例言之,针对一个音频帧存在约350音频样本以变换域模式编码(例如第一音频帧1122的音频样本0至349,及第二音频帧1132的音频样本200至549)。此外,施加G.718分析窗1160以对用于第五音频帧1162的变换域模式编码的这些时域样本开窗。施加G.718分析窗1170以对用于第六音频帧1172的变换域模式编码的这些时域样本开窗。
如图可知,G.718分析窗1130的右侧变迁斜坡(非零部分)与针对第三音频帧1142编码的一区块1140(非零)音频样本时间上重叠。但实际上G.718分析窗1130的右侧变迁斜坡并未重叠一接续G.718分析窗的左侧,结果导致时域频迭组分的出现。但此种时域频迭组分使用正向频迭抵消开窗(FAC开窗1136)来测定,并以频迭抵消信息164的形式编码。换言之,在从以变换域模式编码的音频帧变迁至以ACELP模式编码的随后音频帧时出现的时域频迭使用FAC窗1136来测定,并被编码为获得频迭抵消信息164。FAC窗1136可应用于音频信号编码器100的误差运算172或误差编码174。如此,频迭抵消信息164可以以编码形式表示出现在从第二音频帧1132至第三音频帧1142的变迁处的频迭,其中,该正向频迭抵消窗1136可用来加权该频迭(例如以音频信号编码器所得的频迭估值)。
同理,频迭可在从以ACELP模式编码的第四音频帧1152变迁至以变换域模式编码的第五音频帧1162时出现。由G.718分析窗1162的左侧变迁斜坡并未重叠前一个G.718分析窗的右侧变迁斜坡反而重叠以ACELP模式编码的一区块时域音频样本的事实,造成了在此变迁时的频迭例如经测定(例如使用合成结果运算170及误差运算172)及使用误差编码174编码而获得的频迭抵消信息164。在频迭信号的编码174中,可应用正向频迭抵消窗1156。
总而言之,频迭抵消信息在从第二帧1132至第三帧1142的变迁时选择性地提供,以及也在从第四帧1152至第五帧1162变迁时提供。
进一步总而言之,图11示出了低延迟统一语音及音频编码的第一选项。图11示出了一序列G.718分析窗(实线)、ACELP(以方形标记的线)和正向频迭抵消(FAC)(虚线)。已经发现,对非对称窗诸如G.718窗,该窗组合FAC带来比所熟知的构想明显的改良。更特别地达成编码延迟、音频质量与编码效率间的良好折衷。
图12示出了与根据图11的构想相对应的一序列用于合成的曲线表示型态。换言之,图12示出了定帧及开窗的曲线表示型态,其可用于根据图3的音频信号译码器300。
横坐标1210描述以(时域)音频样本表示的时间,并且纵坐标1212描述标准化窗值。第一音频帧1222以变换域模式编码,从音频样本0延伸至399;第二音频帧1232以变换域模式编码,从音频样本200延伸至599;第三音频帧1242以ACELP模式编码,从音频样本400延伸至799;第四音频帧1252以ACELP模式编码,从音频样本600延伸至999;第五音频帧1262以变换域模式编码,从音频样本800延伸至1199;以及第六音频帧1272以变换域模式编码,从音频样本1000延伸至1399。通过频域至时域转换423、451、484提供给第一音频帧1222的音频样本使用第一G.718合成窗1220来开窗,该窗可与根据图6的G.718合成窗620相同。同理,提供给第二音频帧1232的音频样本使用G.718合成窗1230来开窗。据此,具有音频样本指针0至399的音频样本,或更精确言之,具有音频样本指针50至399的非零音频样本提供给第一音频帧1222(也即基于与第一音频帧1222相关联的频谱系数集合322和与第一音频帧1222相关联的噪声成形信息324)。同理,具有音频样本指针200至599的音频样本提供给第二音频帧1232(带有具样本指针250至599的非零音频样本)。如此,提供给第一音频帧1222的(非零)音频样本与提供给第二音频帧1232的(非零)音频样本间具有时间重叠。提供给第一音频帧1222的音频样本与提供给第二音频帧1232的音频样本进行重叠及相加以由此抵消频迭。然而,提供给第二音频帧1232的具有音频样本指针200至599的音频样本使用第二G.718合成窗1230来开窗。对于以ACELP模式编码的第三音频帧1242,(非零)时域音频样本只提供在有限区块1240内,原因在于其典型地用于ACELP编码。但提供给第二音频帧1232且使用G.718合成窗1230的右侧变迁斜坡开窗的时域样本延伸至由区块1240所界定的时间区中,区块1240的(非零)时域样本只通过ACELP路径340提供。但由ACELP路径340提供的时域样本并不足以抵消G.718合成窗1230右半窗内的频迭。然而,频迭抵消信号被提供用以抵消在从以变换域模式编码的第二音频帧1232变迁至以ACELP模式编码的第三音频帧1242时的频迭(即在第二音频帧1232与第三音频帧1242间的重叠区中,其从样本400延伸至样本599,或至少延伸至该重叠区的一部分中)。该频迭抵消信号基于频迭抵消信息362提供,其可从表示该编码音频内容的位串流中提取。频迭抵消信息经译码(步骤370),并基于已译码的频迭抵消信息362而重建频迭抵消信号(步骤372)。正向频迭抵消窗1236应用于频迭抵消信号364的重建。据此,频迭抵消信号减少或甚至消除在以变换域模式编码的第二音频帧1232与以ACELP模式编码的第三音频帧1242间的变迁时的频迭,该频迭通常由以变换域模式编码的随后音频帧的(已开窗)时域样本抵消(在不存在有变迁时)。
第四音频帧1252以ACELP模式编码。据此,一区块1250时域样本提供给第四音频帧1252。然而,须注意,非零音频样本只通过ACELP分支340提供给第四音频帧1252的中心部分。此外,延长的左侧零部分(音频样本600至700)和延长的右侧零部分(音频样本900至1000)经由ACELP路径提供给第四音频帧1152。
提供给第五音频帧1262的时域表示型态使用G.718合成窗1260开窗。G.718合成窗1260的左侧非零部分(变迁斜坡)时间上重叠由ACELP路径340提供给第四音频帧1252的非零音频样本的时间部分。如此,由ACELP路径340提供给第四音频帧1252的音频样本与由变换域模式路径提供给第五音频帧1262的音频样本重叠及相加。
此外,在从第四音频帧1252变迁至第五音频帧1262时(例如在第四音频帧1252与第五音频帧1262时间重叠期间),基于频迭抵消信息362,通过频迭抵消信号提供器360提供频迭抵消信号364。在重建频迭抵消信号中,可施加频迭抵消窗1256。据此,频迭抵消信号364极为适合用于抵消频迭,同时维持将第四音频帧1252与第五音频帧1262重叠及相加的时域样本的可能。
3.4.模式变迁的开窗-第二洗项
后文中,将叙述以不同模式编码的音频帧变迁的修正开窗。
须注意,从变换域模式变迁至ACELP模式时,依据图13及图14的开窗方案与根据图11及图12的开窗方案相同。但从ACELP模式变迁至变换域模式时,根据图13及和图14的开窗方案与根据图11和图12的开窗方案不同。
图13示出了低延迟统一语音及音频编码的第二选项的曲线表示型态。图13示出了G.718分析窗(实线)、ACELP(以方形标记的线)及正向频迭抵消(虚线)的曲线表示型态。
正向频迭抵消只用于从变换编码器变迁至ACELP。用于从ACELP变迁至变换编码器,使用矩形窗形在变迁窗左侧来变换编码模式。
现在参考图13,横坐标1310描述以时域音频样本表示的时间,而纵坐标1312描述标准化窗值。第一音频帧1322以变换域模式编码,第二音频帧1332以变换域模式编码,第三音频帧1342以ACELP模式编码,第四音频帧1352以ACELP模式编码,第五音频帧1362以变换域模式编码,并且第六音频帧1372也以变换域模式编码。
须注意,第一帧1322、第二帧1332及第三帧1342的编码与参考图11所述第一帧1122、第二帧1132及第三帧1142相同。但须注意如图13可知,第四音频帧1352的中心部分1350的音频样本只使用ACELP分支340编码。换言之,具有样本指针700至900的时域样本被考虑用于第四音频帧1352的ACELP信息144、146的提供。为了第五音频帧1362相关联的变换域信息124、126,在时域至频域转换器130施加专用变迁分析窗1360(例如用于开窗221、263、283)。据此,编码第四音频帧1352时由ACELP路径140编码的时域样本(在从ACELP编码模式变迁至变换域编码模式之前),在使用变换域路径120编码第五音频帧1362时不加以考虑。
专用变迁分析窗1360包含一左侧变迁斜坡(在若干实施例中可为一阶级增高,而在若干其它实施例中可为极陡峭增高)、一恒定(非零)窗部以及一右侧变迁斜坡。但该专用变迁分析窗1360并未包含一过冲部分。反而专用变迁分析窗1360的窗值限于G.718分析窗中的一个的窗中心值。也须注意,专用变迁分析窗1360的右半窗或右侧变迁斜坡可与另一个G.718分析窗的右半窗或右侧变迁斜坡相同。
跟随在第五音频帧1362之后的第六音频帧1372使用G.718分析窗1370开窗,该窗与用于第一音频帧1322及第二音频帧1332开窗的G.718分析窗1320、1330相同。更特别地,G.718分析窗1370的左侧变迁斜坡与专用变迁分析窗1360的右侧变迁斜坡时间上重叠。
综上所述,在以ACELP域编码的前一个音频帧之后,专用变迁分析窗1360应用于以变换域编码的音频帧的开窗。此种情况下,以ACELP域编码的前一个音频帧1352的音频样本(例如具有样本指针700至900的音频样本),由于专用变迁分析窗1360形状原故而不考虑用于以变换域编码的随后音频帧1362的编码。为了达成此项目的,专用变迁分析窗1360包含用于以ACELP模式编码的音频样本(例如用于ACELP区块1350的音频样本)的零部分。
据此,从ACELP模式至变换域模式间的变迁并无频迭。但须施加专用窗形型,即专用变迁分析窗1360。
现在参考图14,将叙述解码构想,其适用于参考图13讨论的编码构想。
图14示出了与根据图13的分析相对应的一序列合成的曲线表示型态。换言之,图14示出了可用于根据图3的音频信号译码器300中的序列合成窗的曲线表示型态。横坐标1410描述以音频样本为单位表示的时间及纵坐标1412描述标准化窗值。第一音频帧1422以变换域模式编码并使用G.718合成窗1420译码,第二音频帧1432以变换域模式编码并使用G.718合成窗1430译码,第三音频帧1442以ACELP模式编码及译码来获得一ACELP区块1440,第四音频帧1452以ACELP模式编码及译码来获得一ACELP区块1450,第五音频帧1462以变换域模式编码而使用专用变迁合成窗1460译码,及第六音频帧1472以变换域模式编码而使用G.718合成窗1470译码。
须注意,第一音频帧1422、第二音频帧1432及第三音频帧1442的译码与已经参考图12描述音频帧1222、1232、1242的译码相同。但在从以ACELP模式编码的第四音频帧1452至以变换域模式编码的第五音频帧1462变迁时的译码是不同的。
专用变迁合成窗1460与G.718合成窗1260不同,在于专用变迁合成窗1460的左半窗被调整为使得专用变迁合成窗1460具有用于由ACELP路径340提供的(非零)音频样本的零值。换言之,专用变迁合成窗1460包含零值,使得变换域路径320只提供零时域样本用于样本时间情况,在这些情况下,ACELP路径提供零时域样本(即针对区块1450)。如此,避免针对音频帧1452(非零时域样本区块1450)由ACELP路径所提供的(非零)时域样本与针对音频帧1462由变换域路径320所提供的时域样本间的重叠。
此外,须注意,除了左侧零部分(样本800至899),专用变迁合成窗1460包含一左侧恒定部分(样本900至999),其中,窗值具有中心窗值(例如窗值1)。如此,在专用变迁合成窗260的左侧部中避免或至少减少频迭假影。专用变迁合成窗1460的右半窗优选地与G.718合成窗的右半窗相同。
综上所述,当使用变换域路径320用于以变换域模式编码的音频帧且跟随在以CELP模式编码的前一个音频帧之后,提供以变换域模式编码的音频内容部分的时域表示型态326时,专用变迁合成窗260用于开窗424、452、485。专用变迁合成窗1460包含左侧零部分,例如占窗左半的50%(样本800至899),及左侧恒定部分占专用变迁合成窗1460左半的其余50%(±1样本)(样本900至999)。专用变迁合成窗1460的右半部可与G.718合成窗的右半部相同,可包含过冲部分和右侧变迁斜坡。如此可获得以ACELP模式编码的帧1452至以变换域模式编码的帧1462间的无频迭变迁。
进一步概括言之,图13示出了低延迟统一语音及音频编码的第二选项。图13示出了一序列G.718分析窗(实线)、ACELP(标记方形的线)及正向频迭抵消(虚线)的曲线表示型态。正向频迭抵消只用于从变换编码器(变换域路径)变迁至ACELP(ACELP路径)。用于从ACELP变迁至变换编码器,矩形(或阶梯状)窗形(例如样本800至999)用于变迁窗1360左侧的变换编码模式。
图14示出了与图13的分析相对应的一序列合成的曲线表示型态。
3.5.选项的讨论
二选项(即根据图11及图12的选项及根据图13及图14的选项)目前考虑用于低延迟统一语音及音频编码的开发。第一选项(依据图11和图12)具有下述优点,与良好频率响应相同的窗用于变换编码的全部区块。但缺点是必须编码额外数据(例如正向频迭抵消信息)用于FAC部分。
第二选项具有下述优点,无需额外数据用于从ACELP变迁至变换编码器的正向频迭抵消(FAC)。但缺点是变迁窗(1360或1460)的频率响应比一般窗(1320、1330、1370;1420、1430、1470)的频率响应更差。
3.6.模式变迁的开窗-第三选项
后文中,将讨论另一个选项。第三选项使用矩形窗也用于变换编码器至ACELP的变迁。但此种第三选项将造成额外延迟,原因在于变换编码器与ACELP间的决策必须为事先已知的一个帧。如此,此一选项对低延迟统一语音及音频编码而言并非最佳。尽管如此,第三选项可用于若干实施例,此处延迟不具有最高相关性。
4.其它实施例
4.1.综论
后文中,将叙述具有低延迟的统一语音及音频编码(USAC)的另一个新颖编码方案。具体地,可用于频域编译码器AAC-ELD与时域编译码器AMR-WB或AMR-WB+间的切换。该系统(或根据本发明的实施例)维持音频编译码器与语音编译码器之间的内容相依性切换的优点,同时将延迟对于通讯应用用途维持得够低。利用用于AAC-ELD的低延迟滤波器排组(LD-MDCT)由变迁窗修正,其允许交叉衰减至时域编译码器并从时域编译码器交叉衰减,而比较AAC-ELD并未导入任何额外延迟。
须注意,后文所述的构想可用于根据图1的音频信号编码器100和/或用于根据图3的音频信号译码器300。
4.2.参考例1:统一语音及音频编码(USAC)
所谓的USAC编译码器允许音乐模式与语音模式间的切换。在音乐模式,利用类似进阶音频编码(AAC)的基于MDCT的编译码器。在语音模式,利用类似适应性多率宽带带+(AMR-WB+)的编译码器,其在USAC编译码器中被称作“LPD模式”。特别小心允许两个模式间的平滑及有效变迁,如后文详述那样。
后文中,将描述从AAC变迁至AMR-WB+的构想。使用此种构想,切换至AMR-WB+前的最末帧使用类似进阶音频编码(AAC)的“起始窗”的构想而开窗,但不具有与右侧频迭的时域。可利用64个样本的变迁区,其中,经AAC编码的样本交叉衰减至AMR-WB+编码样本。此点举例在第15图中得到说明。图15在统一语音及音频编码从AAC变迁至AMR-WB+所使用的一窗的曲线表示型态。横坐标1510描述时间,并且纵坐标1512描述窗值。有关其细节,请参考图15。
后文中,将简短叙述从AMR-WB+变迁至AAC的构想。当切换回进阶音频编码(AAC)时,第一AAC帧使用AAC的“中止”窗相同的一窗开窗。通过此方式,在交叉衰减范围导入时域频迭,该频迭通过蓄意相加在时域编码AMR-WB+信号中的相对应负时域频迭而抵消。这在图16中示出,其示出了从AMR-WB+变迁至AAC构想的曲线表示型态。横坐标1610描述以音频样本表示的时间,并且纵坐标1612描述窗值。有关其细节,请参考图16。
4.3.参考例2:MPEG-4增强的低延迟AAC(AAC-ELD)
所谓“增强的低延迟AAC”(也被简短标示为“AAC-ELD”或“进阶音频编码增强的低延迟”)编译码器基于修正离散余弦变换(MDCT)的特殊低延迟特性(也称作“LD-MDCT”)。在LD-MDCT中,重叠延伸至4的因子,而非MDCT的2的因子。此点的达成并无额外延迟,原因在于重叠以非对称方式相加,而且只利用来自过去的样本。另一方面,预见至未来在分析窗的右侧减少达某个零值。分析窗及合成窗分别在图17和图18中示出,其中,图17示出了在AAC-ELD的LD-MDCT的分析窗的曲线表示型态,及其中图18示出了在AAC-ELD中的LD-MDCT的合成窗的曲线表示型态。在图17中,横坐标1710描述以音频样本表示的时间,并且纵坐标1712描述窗值。曲线1720描述分析窗的窗值。在图18中,横坐标1810描述以音频样本表示的时间,及纵坐标1812描述窗值,及曲线1820描述合成窗的窗值。
AAC-ELD编码只利用此一窗,而未利用任何窗形状或区块长度的切换,其将导入延迟。此种单一窗(例如用于音频信号编码器的根据图17的分析窗1720,及用于音频信号译码器的根据图18的合成窗1820)对静态信号及瞬时信号二者用于任一类型的音频样本同等良好。
4.4.参考例的讨论
后文中,将提供在章节4.2及4.3所述的参考例的简短讨论。
USAC编译码器允许在音频编译码器与语音编译码器间切换,但此项切换导入延迟。由于需要有个变迁窗来执行到语音模式的变迁,故需预见来判定下个帧是否为语音帧。若是,则目前帧须以变迁窗开窗。如此,此种构想不适合用于通讯应用用途上要求的具有低延迟的编码系统。
AAC-ELD编译码器允许通讯应用用途上要求的低延迟,但用于以低位率编码的语音信号,此种编译码器的效能比起也具有低延迟的专用语音编译码器(例如AMR-WB)延迟滞后。
有鉴于此种情况,发现,因而期望在AAC-ELD与语音编译码器间切换来具有可供语音信号及音乐信号二者使用的最有效编码模式。也发现此种切换理想上不会对系统造成任何额外延迟的增加。
也发现对LD-MDCT,如同用于AAC-ELD,此种切换成语音编译码器不可能以直捷方式达成。也发现由语音节段的LD-MDCT窗所涵盖的整个时域部分的编码解决的道,将因LD-MDCT的四倍(4×)重叠而导致巨大的额外处理数据量。为了置换频域编码样本的一个帧(例如512频率值),在时域编码器须编码4×512时域样本。
有鉴于此,期望形成一种构想其可提供编码效率、编码延迟与音频质量间的较佳折衷。
4.5.根据图19至图23b的开窗构想
后文中,将叙述根据本发明的实施例的一种办法,其允许AAC-ELD与时域编译码器间的有效且无延迟的切换。
在本章节所提示的办法,利用AAC-ELD的LD-MDCT(例如于时域至频域转换器130或频域至时域转换器330)且通过变迁窗修订,其允许有效切换至时域编译码器而未导入任何额外的延迟。
在图19中示出了窗序列实例。图19示出了AAC-ELD与时域编译码器间切换用的窗序列实例。在图19中,横坐标1910描述以音频样本表示的时间,并且纵坐标1912描述窗值。有关曲线表示的意义细节请参考图19的图例。
举例言之,图19示出了LD-MDCT分析窗1920a-1920e、LD-MDCT合成窗1930a-1930e、时域编码信号的加权1940、及时域信号的时域频迭的加权1950a、1950b。
后文中,将说明有关分析开窗的细节。为了进一步解说分析窗的序列,图20示出了不含合成窗的相同序列(或窗序列)(例如图19所示的相同窗序列)。横坐标2010描述以音频样本表示的时间,及纵坐标2012描述窗值。换言之,图20示出了AAC-ELD与时域编译码器间切换用的分析窗序列实例。有关曲线表示的意义细节请参考图20的图例。
图20示出了LD-MDCT分析窗2020a-2020e、时域编码信号的加权2040、及时域信号的时域频迭的加权2050a、2050b。
在图20中可知,该序列由标准LD-MDCT窗2020a、2020b(如第17图所示)直至其中时域编译码器接管的该交接点所组成。自AAC-ELD至时域编译码器的变迁无需特殊变迁窗。如此,对切换至时域编译码器的判定无需预见(look-ahead),因此无需额外延迟。
自时域编译码器变迁至AAC-ELD,需要特殊变迁窗2020c,但只有重叠时域编码信号的(以时域编码信号的加权2040指示)此窗的左侧部与标准AAC-ELD窗2020a、2020b、2020d、2020e不同。图21a示出了该一变迁窗2020c,可与图21b的标准AAC-ELD分析窗作比较。
图21a示出了用于从时域编译码器变迁至AAC-ELD的分析窗2020c的曲线表示型态。横坐标2110描述以音频样本表示的时间,并且纵坐标2112描述窗值。
曲线2120描述分析窗2020c的窗值作为该窗内部的位置的函数。
图21b示出了用于从时域编译码器变迁至AAC-ELD的分析窗2020c、2120(实线)且与标准AAC-ELD的分析窗2020a、2020b、2020d、2020e、2170(虚线)作比较的曲线表示型态。横坐标2160描述以音频样本表示的时间,及纵坐标2162描述(标准化)窗值。
对图20的分析窗序列,进一步须注意,跟随在变迁窗2020c之后的全部分析窗并未利用变迁窗2020c的非零部分左侧的输入表示型态。虽然这些窗数(或窗值)在图20中图示出,但在实际处理上并未施用至输入信号。此点通过将变迁窗2020c的非零部分左侧的分析开窗输入缓冲器进行归零而达成。
后文中,将说明有关合成开窗的细节。合成开窗可用于前述音频译码器。至于合成开窗,图22示出了相对应的序列。该序列类似分析开窗的时间反相版本,但因延迟考虑,应在此处个别说明。
换言之,图22示出了AAC-ELD与时域编译码器间切换的合成窗序列实例的曲线表示型态。有关曲线表示的意义细节请参考图22的图例。
在图22中,横坐标2210描述以音频样本表示的时间,及纵坐标2212描述窗值。图22示出了LD-MDCT合成窗2220a-2220e、时域编码信号的加权2240、以及时域信号的时域频迭的加权2250a、2250b。
从AAC-ELD切换至时域编译码器前,具有一个变迁窗2220c,其细节在图23a中图示出。但此一变迁窗2220c并未在译码器中导入任何额外延迟,原因在于此窗的左侧部,即欲完成重叠-加法的部分、以及如此用于反LD-MDCT的时域输出信号完美重建部分与标准AAC-ELD合成窗(例如合成窗2220a、2220b、2220d、2220e)的左侧部完全相同,如图23b可见。类似于分析窗序列,这里也须注意在变迁窗2220c前方的合成窗2220a、2220b部分(可在变迁窗2220c的非零部分的右侧看到)实际上并未贡献于输出信号。在实际实施上,此点通过将变迁窗2220c的非零部分的右侧的这些窗输出值归零而达成。
当从时域编译码器切换返回AAC-ELD时无需特殊窗。标准AAC-ELD合成窗2220e可恰从AAC-ELD编码信号部分起点开始使用。
图23a示出了从AAC-ELD变迁至时域编译码器的合成窗2220c、2320的曲线表示型态。在图23中,横坐标2310描述以音频样本表示的时间,及纵坐标2312描述窗值。曲线2320描述合成窗2220c的窗值呈理想样本位置的函数。
图23b示出了从AAC-ELD变迁至时域编译码器的合成窗2220c(实线)的曲线表示型态,且与标准AAC-ELD合成窗2020a、2020b、2020d、2020e、2370(虚线)作比较。横坐标2360描述以音频样本表示的时间,及纵坐标2362描述(标准化)窗值。
后文中,将描述时域编码信号的加权。
尽管在图20(分析窗序列)及图22(合成窗序列)二者中示出,但时域编码信号的加权仅施加一次,且优选地在时域编码及译码也即在译码器300中施加。但也可交替地应用于编码器,即在时域编码之前,或交替地应用于编码器及译码器二者,使得所得总加权与图19、图20及图22所采用的加权函数相对应。
从这些附图进一步可知,加权函数(加点标记的实线,线1940、2040、2240)所涵盖的时域样本的总范围比两个输入样本帧略长。更精确言之,在本实例中,需要2*N+0.5*N以时域编码的样本来填补由未通过基于LD-MDCT的编译码器所编码的两个帧(每帧有N个新的输入样本)。举例言之,若N=512,则在时域中须编码2*515+256时域样本,而非2*512个频谱值。如此,通过切换至时域编译码器并返回,只导入半个帧的额外处理数据量。
后文将叙述有关时域频迭的若干细节。变迁至时域编译码器及返回变换编译码器时,蓄意地导入时域频迭来抵消由邻近LD-MDCT所编码的帧所导入的时域频迭。举例言之,时域频迭可通过频迭抵消信号提供器360导入。以点线标记且以1950a、1950b、2050a、2050b、2250a、2250b标示的虚线表示此项运算的加权函数。时域编码信号乘以此项加权函数,然后分别以时间反相方式加至开窗时域信号或从中扣除。
4.6.根据图24的开窗构想
后文中,将叙述变迁长度的其它设计。
更靠近观察图20的分析序列及图22的合成序列,可知变迁窗并非彼此的确切时间反相版本。合成变迁窗并非彼此的确切时间反相版本。合成变迁窗(图23a)具有比分析变迁窗(图21a)更短的非零部分。对分析及合成二者,较长版本及较短版本皆属可能且可不相干地选用。但由于数种理由故其以此种方式选用(如图20及图22所示)。为了进一步阐释,有两项选择的版本以不同方式在图24中图示出。
图24示出了AAC-ELD与时域编译码器间的窗序列切换的变迁窗的其它选择的曲线表示型态。在图24中,横坐标2410描述以音频样本表示的时间,并且纵坐标2412描述窗值。图24示出了LD-MDCT分析窗2420a至2420e、LD-MDCT合成窗2430a至2430e、时域编码信号的加权2440、及时域信号的时域频迭的加权2450a至2450b。有关曲线类型细节请参考图24的图例。
在图24示出的本替代例中可知,AAC-ELD至时域编译码器变迁的时域频迭的加权延伸至左侧。如此表示需要时域信号的额外部分,只为了蓄意时域频迭(或时域频迭抵消)缘故,而非由于实际交叉衰减。如此假设为无效且不必要。因此,较短的合成变迁窗及相对应较短的时域频迭区(如图19所示)的替代之道用于从AAC-ELD变迁至时域编译码器为佳。
另一方面,用于自时域编译码器变迁至AAC-ELD,图24的较短的分析变迁窗(与图19相比较)结果导致此窗的较恶劣频率响应。而且,此种变迁时图19的较长时域频迭区无需任何额外样本通过时域编译码器编码,原因在于这些样本可得自时域编译码器。因此,较长的变迁窗与对应的较长时域频迭区交替(如图19所示)对于自时域编译码器变迁至AAC-ELD为佳。
但须注意,在编码器100及译码器300的若干实施例中,可应用根据图24的开窗方案,即便图19的开窗方案施用于编码器100及译码器300明显可获得若干优点。
4.7.根据图25的开窗构想
后文中,将描述时域信号的另一种开窗及另一种定帧。
到目前为止的叙述中,在施加时域编码及译码后,时域信号被视为只开窗一次。此种开窗程序也可分成二阶段,一阶段在时域编码前,而一阶段在时域编码后。在AAC-ELD变迁至时域编译码器中,此点举例在图25中示出。
图25示出了时域信号的另一种开窗及另一种定帧的曲线表示型态。横坐标2510描述以音频样本表示的时间,及纵坐标2512描述(标准化)窗值。图25示出了LD-MDCT分析窗值2520a-2520e、LD-MDCT合成窗2530a-2530d、用于时域编译码器的前开窗的分析窗2542、用于时域编译码器的后TDA迭频/展频及开窗的合成窗2552、用于时域编译码器后第一MDCT的分析窗2562,及用于时域编译码器后第一MDCT的合成窗2572。
图25也示出了时域编译码器的定帧的替代之道。在时域编译码器中,全部帧可具有相等长度,而无需补偿因变迁时非临界取样所导致遗漏的样本。但然后需要MDCT编译码器来通过比其它MDCT帧具有更多频谱值的时域编译码器之后的第一MDCT来补偿(曲线2562及2572)。
总而言之,图25示出的此种替代之道使得编译码器极为类似统一语音及音频编码编译码器(USAC编译码器),但具有远较低的延迟。
此种替代之道的额外小量修正藉矩形变迁来替代自时域编译码器开窗变迁至AAC-ELD(曲线2542、2552、2562、2572),当从ACELP进入TCX时在AMR-WB+进行。在使用AMR-WB+作为“时域编译码器”的编译码器,如此也表示在ACELP帧之后,并不从ACELP直接变迁至AAC-ELD,反而经常性地具有TCX帧介于其间。以此方式,消除由于此项特殊变迁所导致的可能额外延迟,整个系统具有与AAC-ELD延迟一样低的延迟。此外,如此使得切换更具可挠性,原因在于在语音状信号的情况下,有效切换回AAC-ELD与从AAC-ELD切换至ACELP相比更有效,原因在于ACELP及TCX共享相同的LPC滤波。
4.8.根据图26的开窗构想
后文中,将叙述对时域编译码器馈送TDA信号及达成临界取样的替代之道。
图26示出了替代变化例。更精确言之,图26示出了对时域编译码器馈以TDA信号及由此达成临界取样的替代之道。横坐标2610描述以音频样本表示的时间,及纵坐标2612描述(标准化)窗值。图12示出了LD-MDCT分析窗值2620a-2620e、LD-MDCT合成窗2630a-2630e、用于时域编译码器之前开窗及TDA的分析窗2642a、及用于时域编译码器之后TDA展频及开窗的合成窗2652a。有关曲线细节,请参考图26的图例。
在本变化例中,时域编译码器的输入信号通过与LD-MDCT相同的开窗及TDA机制而被处理,并且频迭抵消信号被馈至时域编译码器。译码TDA后,展频与开窗被应用于时域编译码器的输出信号。
此种替代之道的优点为在变迁时达成临界取样。缺点为时域编译码TDA信号而非译码时域信号。在已译码的TDA信号展频后,编码误差产生镜像映像作用,如此可能造成回波前假影。
4.9.其它替代之道
后文中,将叙述可用于编码及译码改良的若干其它替代之道。
对目前MPEG正在发展中的USAC编译码器,统一AAC部分及TCX部分的努力正在进行中。此种统一基于正向频迭抵消(FAC)及频域噪声成形(FDNS)技术。这些技术也可应用于AAC-ELD与AMR-WB+状编译码器间的切换同时维持AAC-ELD的低度延迟。
有关此种构想的若干细节参考图1至图14的讨论。
后文中,将简单说明所谓的“提升实施(lifting implementation)”,其可应用于若干实施例。AAC-ELD的LD-MDCT也可以有效提升结构实施。对这里所述的变迁窗,也可利用此种提升实施,通过单纯删除部分提升系数而获得变迁窗。
5.可能的修正
有关前述实施例,须注意,可施加多项修正。具体地,依据需求可选用不同的窗长度。而且,可修正窗的定标。当然,可改变在变换域分支中施加的窗与在ACELP分支中施加的开窗间的定标。而且,在前述处理区块输入时并且也在前述处理区块间导入若干前处理步骤和/或后处理步骤,而未修正本发明的大致构想。当然也可做其它修正。
6.实施替代之道
尽管在装置的上下文中已经描述了若干方面,但显然这些方面也表示相对应方法的描述,其中,一区块或一组件与方法步骤或方法步骤的结构相对应。类似地,在方法步骤的上下文中所述的方面也表示相对应装置的相对应区块或项目或结构的描述。部分或全部方法步骤可由(或使用)硬件装置例如微处理器、可程序规划计算机或电子电路执行。在若干实施例中,最重要方法步骤中的一个或多个可通过此种装置执行。
本发明的编码音频信号可存储在数字存储媒体中,或通过传输媒体诸如无线传输媒体或有线传输媒体诸如因特网来传输。
依据某些实施要求,本发明的实施例可在硬件或在软件中实施。实施的执行可使用其上存储有可电子式读取的控制信号的数字存储媒体,例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存,这些媒体与可程序规划计算机系统协作(或能够协作),使得执行个别方法。因此,数字存储媒体可为计算机可读取式。
根据本发明的若干实施例包含具有可电子式读取的控制信号的数据载体,其与可编程计算机系统可协作,使得执行本文所述方法中的一者。
一般而言,本发明的实施例可被实施为具有程序代码的计算机程序产品,该程序代码可用于当该计算机程序产品于计算机上运行时用于执行这些方法中的一者。程序代码例如可存储在机器可读取载体上。
其它实施例包含用以执行此处所述方法中的一者的、存储在机器可读取载体上的计算机程序。
换言之,因而,本发明方法的实施例为一种具有程序代码的计算机程序,当该计算机程序产品在计算机上运行时用以执行此处所述方法中的一者。
因而,本发明方法的又一实施例为一种数据载体(或数字存储媒体,或计算机可读取媒体),其包含记录于其上用以执行这些方法中的一者的计算机程序。该数据载体或数字存储媒体或记录媒体典型地为实体和/或非瞬时。
因此,本发明方法的又一实施例为一种数据串流或一序列信号表示用以执行此处所述方法中的一者的计算机程序。该数据串流或该序列信号例如可被构造为经由数据通信连接(例如经由因特网)来传输。
又一实施例包含一种处理装置,例如计算机或可编程逻辑装置,其被构造为或适用于执行此处所述方法中的一者。
又一实施例包含一种计算机,其上安装用以执行此处所述方法中的一者的计算机程序。
根据本发明的又一实施例包括一种装置或一种系统,其被构造为传输(例如电子式或光学式)用以执行此处所述方法中的一者的计算机程序至接收器。接收器例如为计算机、移动组件、内存组件等。该装置或系统例如可包含一种用以将该计算机程序传输至接收器的档案服务器。
在若干实施例中,可编程逻辑装置((例如现场可编程门阵列)可用来执行此处所述方法的部分或全部函数。在若干实施例,现场可编程逻辑装置可与微处理器协作来执行此处所述方法中的一者。大致上,这些方法优选地由硬件装置执行。
前述实施例仅供举例说明本发明的原理。须了解,此处所述的配置及细节的修正及变化对本领域技术人员而言是显而易见的。因此,意图本发明只受随附的权利要求的范围限制,而非受通过此处实施例的描述及解说所呈现的特定细节限制。
Claims (27)
1.一种用于基于一音频内容的输入表示型态(110)来提供所述音频内容的编码表示型态(112)的音频信号编码器(100),所述音频信号编码器包含:
一变换域路径(120),其被构造为基于将以变换域模式编码的所述音频内容部分的时域表示型态(122)来获得一频谱系数集合(124)和一噪声成形信息(126),
使得频谱系数(124)描述所述音频内容的一噪声成形版本的频谱(223a;262a;285a);
其中,所述变换域路径(120;200;230;260)包含一时域至频域转换器(130;222;264;284),所时域至频域转换器被构造为对所述音频内容的一时域表示型态(220a;280a)或其前处理版本(262a)开窗,以获得所述音频内容的开窗表示型态(221a;263a;283a),以及施加时域至频域转换,以从所述音频内容的开窗时域表示型态导算出一频谱系数集合(222a;264a;284a);以及
一码激励线性预测域路径(CELP路径)(140),被构造为基于将以码激励线性预测域模式(CELP模式)编码的音频内容部分,获得一码激励信息(144)和一线性预测域参数信息(146);
其中,所述时域至频域转换器(130;221,222;263,264;283,284)被构造为若音频内容的目前部分被所述将以变换域模式编码的音频内容的一随后部分(1142;1342)所跟随,并且若所述音频内容的目前部分被将以CELP模式编码的音频内容的一随后部分所跟随,则施加一预定非对称分析窗(520;1130;1330)用于对将以变换域模式编码且跟随在将以变换域模式编码的音频内容部分(1122;1322)后方的音频内容的目前部分(1132;1332)进行开窗;以及
其中,所述音频信号编码器被构造为若所述音频内容的目前部分(1132;1332)被将以CELP模式编码的所述音频内容的随后部分(1142;1342)所跟随,则选择性地提供频迭抵消信息(164)。
2.根据权利要求1所述的音频信号编码器(100),其中,所述时域至频域转换器(130;222;264;284)被构造为若所述音频内容的目前部分被将以变换域模式编码的音频内容的一随后部分(1142;1342)所跟随,并且若所述音频内容的目前部分被将以CELP模式编码的音频内容的一随后部分所跟随,则施加相同的窗(520,1130,1330)用于对将以变换域模式编码且跟随在以变换域模式编码的音频内容的先前部分(1122;1322)后方的音频内容的目前部分(1132;1332)进行开窗。
3.根据权利要求1或2所述的音频信号编码器(100),其中,所述预定非对称分析窗(520,1130,1330)包含一左半窗和一右半窗,
其中,所述左半窗包含:一左侧变迁斜坡(522),其中,所有窗值自零单调地增加至一窗中心值;和一过冲部分(524),其中,所有窗值大于所述窗中心值,以及其中,所述预定非对称分析窗包含一最大值(524a),以及
其中,所述右半窗包含:一右侧变迁斜坡(528),其中,所有窗值自所述窗中心值单调地减至零;以及一右侧零部分(530)。
4.根据权利要求3所述的音频信号编码器(100),其中,所述左半窗包含不大于零窗值的1%,以及
其中,所述右侧零部分(530)包含所述右半窗的所有窗值的至少20%的长度。
5.根据权利要求3或4所述的音频信号编码器(100),其中,所述预定非对称分析窗(520)的右半窗的所有窗值小于所述窗中心值,使得在所述预定非对称分析窗的右半窗中没有过冲部分。
6.根据权利要求1至5中的任一项所述的音频信号编码器(100),其中,所述预定非对称分析窗(520)的一非零部分比一帧长度短至少10%。
7.根据权利要求1至6中的任一项所述的音频信号编码器(100),其中,所述音频信号编码器被构造为使得所述将以变换域模式编码的音频内容的随后部分(1122,1132,1162,1172;1322,1332,1362,1372)包含至少40%的时间重叠;以及
其中,所述音频信号编码器被构造为使得所述将以变换域模式编码的音频内容的目前部分(1132;1332)和所述将以码激励线性预测域模式编码的所述音频内容的随后部分(1142;1342)包含时间重叠;以及
其中,所述音频信号编码器被构造为选择性地提供频迭抵消信息(164),使得所述频迭抵消信息允许在音频信号译码器(300)中提供频迭抵消信号(364)用以在从以变换域模式编码的音频内容部分(1232)变迁至以CELP模式编码的所述音频内容部分(1242)时抵消频迭假影。
8.根据权利要求1至7中的任一项所述的音频信号编码器(100),其中,所述音频信号编码器被构造为选择一窗(1130;1330)用于对音频内容的目前部分(1132;1332)进行开窗,而与用来对在时间上重叠所述音频内容的目前部分的所述音频内容的随后部分(1142;1342)进行编码的模式不相干,使得即便所述音频内容的随后部分以CELP模式编码,所述音频内容的目前部分的开窗表示型态(221a;263a;283a)也与所述音频内容的随后部分(1142;1342)重叠;以及
其中,所述音频信号编码器被构造为响应于检测到所述音频内容的随后部分(1142;1342)将以CELP模式编码而提供频迭抵消信息(164),所述频迭抵消信息表示将由所述音频内容的随后部分(1142;1342)的变换域模式表示型态所表示的频迭抵消信号组分。
9.根据权利要求1至8中的任一项所述的音频信号编码器(100),其中,所述时域至频域转换器(130;221,222;263,264;283,284)被构造为施加预定非对称分析窗(520;1160)用于对将以变换域模式编码且跟随在将以CELP模式编码的所述音频内容部分(1152)后方的音频内容的目前部分(1162)进行开窗,使得所述将以变换域模式编码的音频内容的目前部分(1162)的开窗表示型态(221a;263a;283a)与将以CELP模式编码的所述音频内容的先前部分(1152)在时间上重叠,以及
使得与其中编码所述音频内容的先前部分的模式不相干地及与其中编码所述音频内容的随后部分的模式不相干地,使用相同的预定非对称分析窗(520,1120,1130,1160,1170)对将以变换域模式编码的音频内容的所述部分(1122,1132,1162,1172)进行开窗。
10.根据权利要求9所述的音频信号编码器(100),其中,所述音频信号编码器被构造为若所述音频内容的目前部分(1162)跟随在以CELP模式编码的所述音频内容的先前部分(1152)后方,则选择性地提供频迭抵消信息(164)。
11.根据权利要求1至8中的任一项所述的音频信号编码器(100),其中,所述时域至频域转换器(130;221,222;263,264;283,284)被构造为施加与所述预定非对称分析窗(520;1320,1330,1370)不同的一专用非对称变迁分析窗(1360),用于对将以变换域模式编码且跟随在以CELP模式编码的所述音频内容部分(1352)后方的音频内容的目前部分(1362)进行开窗。
12.根据权利要求1至11中的任一项所述的音频信号编码器,其中,所述码激励线性预测域路径(CELP路径)(140)为代数码激励线性预测域路径,其被构造为基于将以代数码激励线性预测域模式(CELP模式)编码的音频内容部分来获得代数码激励信息(144)和线性预测域参数信息(146)。
13.一种用以基于一音频内容的编码表示型态(310)而提供所述音频内容的译码表示型态(312)的音频信号译码器(300),所述音频信号译码器包含:
一变换域路径(320;400;430;460),被构造为基于一频谱系数集合(322;412,442,472)和一噪声成形信息(324;414;444;474)来获得以变换域模式编码的音频内容部分(1222,1232,1262,1272;1422,1432,1462,1472)的时域表示型态(326;416;446;476);
其中,所述变换域路径包含一频域至时域转换器(330;423,424;451,452;484,485),所述频域至时域转换器被构造为施加频域至时域转换(423;451;484)及开窗(424;452;485),以从所述频谱系数集合或从其前处理版本中导算出所述音频内容的一开窗时域表示型态(424a;452a;485a);
一码激励线性预测域路径(340),其被构造为基于码激励信息(342)和线性预测域参数信息(344)来获得以码激励线性预测域模式(CELP模式)编码的所述音频内容的时域表示型态(346);以及
其中,所述频域至时域转换器被构造为若所述音频内容的目前部分被以变换域模式编码的音频内容的随后部分(1242;1442)所跟随,并且若所述音频内容的目前部分被以CELP模式编码的所述音频内容的随后部分所跟随,则施加一预定非对称合成窗(620;1230;1430),用于对以变换域模式编码且跟随在以变换域模式编码的所述音频内容的先前部分(1222;1422)后方的音频内容的目前部分(1232;1432)进行开窗;以及
其中,所述音频信号译码器(300)被构造为若以变换域模式编码的音频内容的目前部分被以CELP模式编码的所述音频内容的随后部分所跟随,则基于频迭抵消信息(362)而选择性地提供频迭抵消信号(364)。
14.根据权利要求13所述的音频信号译码器(300),其中,所述频域至时域转换器(330;423,424;451,452;484,485)被构造为若所述音频内容的目前部分(1232;1432)被以变换域模式编码的音频内容的随后部分(1242;1442)所跟随,并且若所述音频内容的目前部分被以CELP模式编码的所述音频内容的随后部分所跟随,则施加相同窗(620;1230;1430)用于对以变换域模式编码且跟随在以变换域模式编码的所述音频内容的先前部分(1222;1422)后方的音频内容的目前部分(1232;1432)进行开窗。
15.根据权利要求13或14所述的音频信号译码器(300),其中,所述预定非对称合成窗(620;1230;1430)包含一左半窗和一右半窗,
其中,所述左半窗包含一左侧零部分(622)和一左侧变迁斜坡(624),在所述左侧变迁斜坡中,所有窗值自零单调地增加至一窗中心值;以及
其中,所述右半窗包含:一过冲部分(628),其中,所有窗值大于所述窗中心值,以及其中,所述预定非对称合成窗包含一最大值(628a);以及一右侧变迁斜坡(630),其中,所有窗值自所述窗中心值单调地减至零。
16.根据权利要求15所述的音频信号译码器(300),其中,所述左侧零部分(622)包含所述左半窗的所有窗值的至少20%的长度,以及
其中,所述右半窗包含不大于零窗值的1%的长度。
17.根据权利要求15或16所述的音频信号译码器(300),其中,所述预定非对称合成窗(620;1220,1230,1260;1420,1430,1470)的左半窗的所有窗值小于所述窗中心值,使得在所述预定非对称合成窗的左半窗中没有过冲部分。
18.根据权利要求13至17中的任一项所述的音频信号译码器,其中,所述预定非对称合成窗(620;1220,1230,1260;1420,1430,1470)的非零部分比一帧长度短至少10%。
19.根据权利要求13至18中的任一项所述的音频信号译码器(300),其中,所述音频信号译码器被构造为使得以变换域模式编码的音频内容的随后部分(1222,1232,1262,1272;1422,1432,1462,1472)包含至少40%的时间重叠;以及
其中,所述音频信号译码器被构造为使得以变换域模式编码的音频内容的目前部分(1232;1432)和以码激励线性预测域模式编码的音频内容的随后部分(1242;1442)均包含时间重叠;以及其中,所述音频信号译码器被构造为基于所述频迭抵消信息(362)而选择性地提供频迭抵消信号(364),使得在从以变换域模式编码的音频内容的目前部分变迁至以CELP模式编码的所述音频内容的随后部分时,所述频迭抵消信号减少或抵消频迭假影。
20.根据权利要求13至19中的任一项所述的音频信号译码器(300),其中,所述音频信号译码器被构造为与用于编码音频内容的随后部分(1242;1442)模式不相干地,选择用于对所述音频内容的目前部分(1232;1432)开窗的一窗(1230;1430),所述音频内容的随后部分与所述音频内容的目前部分(1232;1432)在时间上重叠,使得即便所述音频内容的随后部分以CELP模式编码,所述音频内容的目前部分的开窗表示型态(424a;452a;485a)也与所述音频内容的随后部分在时间上重叠;及
其中,所述音频信号译码器(300)被构造为响应于检测到所述音频内容的随后部分以CELP模式编码,而在从以变换域模式编码的音频内容的目前部分(1232;1432)变迁至以CELP模式编码的所述音频内容的随后部分(1242;1442)时,提供频迭抵消信号(364)以减少或抵消频迭假影。
21.根据权利要求13至20中的任一项所述的音频信号译码器(300),其中,所述频域至时域转换器(330;423,424;451,452;484,485)被构造为施加所述预定非对称合成窗(620;1230;1430)用于对以变换域模式编码且跟随在以CELP模式编码的所述音频内容的先前部分(1252;1452)后方的音频内容的目前部分(1262;1462)进行开窗,使得与其中编码所述音频内容的先前部分的模式不相干地以及与其中编码所述音频内容的随后部分的模式不相干地,使用相同的预定非对称合成窗(620;1220,1230,1260,1270)对以变换域模式编码的音频内容部分(1222;1232;1262;1272)进行开窗,以及
使得以变换域模式编码的音频内容的目前部分的开窗时域表示型态(424a;452a;485a)与以CELP模式编码的所述音频内容的先前部分(1252;1452)在时间上重叠。
22.根据权利要求21所述的音频信号译码器(300),其中,所述音频信号译码器被构造为,若音频内容的目前部分(1262)跟随在以CELP模式编码的所述音频内容的先前部分(1252)后方,则基于频迭抵消信息(362)选择性地提供频迭抵消信号(364)。
23.根据权利要求13至20中的任一项所述的音频信号译码器(300),其中,所述频域至时域转换器(330;423,424;451,452;4848,485)被构造为施加与所述预定非对称合成窗(620;1230;1430)不同的一专用非对称变迁合成窗(1460)用于对以变换域模式编码且跟随
在以CELP模式编码的所述音频内容部分(1452)后方的音频内容的目前部分(1462)进行开窗。
24.根据权利要求13至23中的任一项所述的音频信号译码器,其中,所述码激励线性预测域路径(340)是被构造为基于代数码激励信息(342)和线性预测域参数信息(344)来获得以代数码激励线性预测域模式(CELP模式)编码的所述音频内容的时域表示型态(346)的一代数码激励线性预测域路径。
25.一种基于一音频内容的输入表示型态而提供所述音频内容的编码表示型态的方法,所述方法包含:
基于将以变换域模式编码的音频内容部分的时域表示型态而获得一频谱系数集合和一噪声成形信息,使得这些频谱系数描述所述音频内容的噪声成形版本的频谱,
其中,对将以变换域模式编码的音频内容的时域表示型态或其前处理版本进行开窗,以及其中,施加时域至频域转换以从所述已开窗的所述音频内容时域表示型态中导算出一频谱系数集合;
基于将以码激励线性预测域模式(CELP模式)编码的所述音频内容部分,来获得码激励信息和线性预测域信息;
其中,若音频内容的目前部分被将以变换域模式编码的音频内容的随后部分所跟随,并且若音频内容的目前部分被将以CELP模式编码的所述音频内容的随后部分所跟随,则施加一预定非对称分析窗来用于对将以变换域模式编码且跟随在以变换域模式编码的所述音频内容部分后方的音频内容的目前部分进行开窗;以及
其中,若音频内容的目前部分被将以CELP模式编码的所述音频内容的随后部分所跟随,则选择性地提供频迭抵消信息。
26.一种基于一音频内容的编码表示型态而提供所述音频内容的译码表示型态的方法,所述方法包含:
基于一频谱系数集合和噪声成形信息而获得以变换域模式编码的音频内容部分的时域表示型态,
其中,施加频域至时域转换及开窗以从所述频谱系数集合或从其前处理版本中导算出已开窗的所述音频内容的时域表示型态;以及
基于码激励信息和线性预测域参数信息而获得以码激励线性预测域模式编码的所述音频内容的一时域表示型态;
其中,若所述音频内容的目前部分被以变换域模式编码的音频内容的随后部分所跟随,并且若所述音频内容的目前部分被以CELP模式编码的所述音频内容的随后部分所跟随,则施加一预定非对称合成窗用以对将以变换域模式编码且跟随在以变换域模式编码的音频内容的先前部分后方的音频内容的目前部分进行开窗;以及
其中,若所述音频内容的目前部分被以CELP模式编码的所述音频内容的随后部分所跟随,则基于频迭抵消信息而选择性地提供一频迭抵消信号。
27.一种计算机程序,用于当所述计算机程序在计算机上运行时执行根据权利要求25或26所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25345009P | 2009-10-20 | 2009-10-20 | |
US61/253,450 | 2009-10-20 | ||
PCT/EP2010/065753 WO2011048118A1 (en) | 2009-10-20 | 2010-10-19 | Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102859588A true CN102859588A (zh) | 2013-01-02 |
CN102859588B CN102859588B (zh) | 2014-09-10 |
Family
ID=43447915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080047598.XA Active CN102859588B (zh) | 2009-10-20 | 2010-10-19 | 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法 |
Country Status (17)
Country | Link |
---|---|
US (1) | US8630862B2 (zh) |
EP (1) | EP2473995B9 (zh) |
JP (1) | JP5243661B2 (zh) |
KR (1) | KR101414305B1 (zh) |
CN (1) | CN102859588B (zh) |
AR (1) | AR078702A1 (zh) |
BR (3) | BR122020024236B1 (zh) |
CA (1) | CA2778373C (zh) |
ES (1) | ES2533098T3 (zh) |
HK (1) | HK1172992A1 (zh) |
MX (1) | MX2012004518A (zh) |
MY (1) | MY162251A (zh) |
PL (1) | PL2473995T3 (zh) |
RU (1) | RU2596594C2 (zh) |
TW (1) | TWI435317B (zh) |
WO (1) | WO2011048118A1 (zh) |
ZA (1) | ZA201203611B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103548080A (zh) * | 2012-05-11 | 2014-01-29 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
CN105336336A (zh) * | 2014-06-12 | 2016-02-17 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR122021009256B1 (pt) * | 2008-07-11 | 2022-03-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados |
PL2311032T3 (pl) * | 2008-07-11 | 2016-06-30 | Fraunhofer Ges Forschung | Koder i dekoder audio do kodowania i dekodowania próbek audio |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
US20130311174A1 (en) * | 2010-12-20 | 2013-11-21 | Nikon Corporation | Audio control device and imaging device |
PL2676266T3 (pl) | 2011-02-14 | 2015-08-31 | Fraunhofer Ges Forschung | Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej |
SG192718A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Audio codec using noise synthesis during inactive phases |
BR112013020588B1 (pt) | 2011-02-14 | 2021-07-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparelho e método para codificação de uma parte de um sinal de áudio utilizando uma detecção transiente e um resultado de qualidade |
PT2676267T (pt) | 2011-02-14 | 2017-09-26 | Fraunhofer Ges Forschung | Codificação e descodificação de posições de pulso de faixas de um sinal de áudio |
TWI484479B (zh) | 2011-02-14 | 2015-05-11 | Fraunhofer Ges Forschung | 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法 |
MX2012013025A (es) | 2011-02-14 | 2013-01-22 | Fraunhofer Ges Forschung | Representacion de señal de informacion utilizando transformada superpuesta. |
ES2529025T3 (es) | 2011-02-14 | 2015-02-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para procesar una señal de audio decodificada en un dominio espectral |
CN105304090B (zh) * | 2011-02-14 | 2019-04-09 | 弗劳恩霍夫应用研究促进协会 | 使用对齐的前瞻部分将音频信号编码及解码的装置与方法 |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
BR122021000241B1 (pt) * | 2011-04-21 | 2022-08-30 | Samsung Electronics Co., Ltd | Aparelho de quantização de coeficientes de codificação preditiva linear |
MX354812B (es) * | 2011-04-21 | 2018-03-22 | Samsung Electronics Co Ltd | Método para cuantificar coeficientes de codificación predictiva lineal, método de codificación de sonido, método para decuantificar coeficientes de codificación predictiva lineal, método de decodificación de sonido y medio de grabación. |
WO2013061584A1 (ja) * | 2011-10-28 | 2013-05-02 | パナソニック株式会社 | 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法 |
JP6113278B2 (ja) * | 2012-06-28 | 2017-04-12 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化 |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
CN105229736B (zh) | 2013-01-29 | 2019-07-19 | 弗劳恩霍夫应用研究促进协会 | 用于选择第一编码算法与第二编码算法中的一个的装置及方法 |
MX354372B (es) | 2013-08-23 | 2018-02-28 | Fraunhofer Ges Forschung | Aparato y método para procesar una señal de audio empleando una señal de error de efecto aliasing. |
CN104681034A (zh) | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
EP3067886A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
EP3107096A1 (en) | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
US10008214B2 (en) * | 2015-09-11 | 2018-06-26 | Electronics And Telecommunications Research Institute | USAC audio signal encoding/decoding apparatus and method for digital radio services |
US10146500B2 (en) * | 2016-08-31 | 2018-12-04 | Dts, Inc. | Transform-based audio codec and method with subband energy smoothing |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1312660A (zh) * | 2001-04-19 | 2001-09-12 | 北京邮电大学 | 一种高有效性的移动通信系统性能的仿真方法 |
EP1278184A2 (en) * | 2001-06-26 | 2003-01-22 | Microsoft Corporation | Method for coding speech and music signals |
CN1485849A (zh) * | 2002-09-23 | 2004-03-31 | 上海乐金广电电子有限公司 | 数字音频编码器及解码方法 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
RU2256293C2 (ru) * | 1997-06-10 | 2005-07-10 | Коудинг Технолоджиз Аб | Усовершенствование исходного кодирования с использованием дублирования спектральной полосы |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US7020605B2 (en) * | 2000-09-15 | 2006-03-28 | Mindspeed Technologies, Inc. | Speech coding system with time-domain noise attenuation |
US6785645B2 (en) * | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
WO2004082288A1 (en) * | 2003-03-11 | 2004-09-23 | Nokia Corporation | Switching between coding schemes |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118835B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
BRPI0418839A (pt) * | 2004-05-17 | 2007-11-13 | Nokia Corp | método para suportar e dispositivo eletrÈnico suportando uma codificação de um sinal de áudio, sistema de codificação de áudio, e, produto de programa de software |
US7596486B2 (en) * | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
CA2574468C (en) * | 2005-04-28 | 2014-01-14 | Siemens Aktiengesellschaft | Noise suppression process and device |
US7490036B2 (en) * | 2005-10-20 | 2009-02-10 | Motorola, Inc. | Adaptive equalizer for a coded speech signal |
US7987089B2 (en) * | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
WO2008071353A2 (en) * | 2006-12-12 | 2008-06-19 | Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V: | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
EP2269188B1 (en) * | 2008-03-14 | 2014-06-11 | Dolby Laboratories Licensing Corporation | Multimode coding of speech-like and non-speech-like signals |
JP5295372B2 (ja) * | 2008-09-17 | 2013-09-18 | フランス・テレコム | デジタルオーディオ信号におけるプリエコーの減衰 |
CA2763793C (en) * | 2009-06-23 | 2017-05-09 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
-
2010
- 2010-10-19 JP JP2012534674A patent/JP5243661B2/ja active Active
- 2010-10-19 MX MX2012004518A patent/MX2012004518A/es active IP Right Grant
- 2010-10-19 BR BR122020024236-1A patent/BR122020024236B1/pt active IP Right Grant
- 2010-10-19 BR BR122020024243-4A patent/BR122020024243B1/pt active IP Right Grant
- 2010-10-19 CN CN201080047598.XA patent/CN102859588B/zh active Active
- 2010-10-19 PL PL10768928T patent/PL2473995T3/pl unknown
- 2010-10-19 MY MYPI2012001633A patent/MY162251A/en unknown
- 2010-10-19 EP EP10768928.3A patent/EP2473995B9/en active Active
- 2010-10-19 KR KR1020127010336A patent/KR101414305B1/ko active IP Right Grant
- 2010-10-19 CA CA2778373A patent/CA2778373C/en active Active
- 2010-10-19 BR BR112012009032-1A patent/BR112012009032B1/pt active IP Right Grant
- 2010-10-19 WO PCT/EP2010/065753 patent/WO2011048118A1/en active Application Filing
- 2010-10-19 ES ES10768928.3T patent/ES2533098T3/es active Active
- 2010-10-19 TW TW099135557A patent/TWI435317B/zh active
- 2010-10-19 RU RU2012118782/08A patent/RU2596594C2/ru not_active Application Discontinuation
- 2010-10-20 AR ARP100103829A patent/AR078702A1/es active IP Right Grant
-
2012
- 2012-04-19 US US13/450,792 patent/US8630862B2/en active Active
- 2012-05-17 ZA ZA2012/03611A patent/ZA201203611B/en unknown
-
2013
- 2013-01-02 HK HK13100001.2A patent/HK1172992A1/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1312660A (zh) * | 2001-04-19 | 2001-09-12 | 北京邮电大学 | 一种高有效性的移动通信系统性能的仿真方法 |
EP1278184A2 (en) * | 2001-06-26 | 2003-01-22 | Microsoft Corporation | Method for coding speech and music signals |
CN1485849A (zh) * | 2002-09-23 | 2004-03-31 | 上海乐金广电电子有限公司 | 数字音频编码器及解码方法 |
Non-Patent Citations (1)
Title |
---|
JEREMIE LECOMTE ET AL: "Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding", 《AES CONVENTION 126》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103548080A (zh) * | 2012-05-11 | 2014-01-29 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
CN103548080B (zh) * | 2012-05-11 | 2017-03-08 | 松下电器产业株式会社 | 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法 |
CN105336336A (zh) * | 2014-06-12 | 2016-02-17 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
CN105336336B (zh) * | 2014-06-12 | 2016-12-28 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
CN106409304A (zh) * | 2014-06-12 | 2017-02-15 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
US9799343B2 (en) | 2014-06-12 | 2017-10-24 | Huawei Technologies Co., Ltd. | Method and apparatus for processing temporal envelope of audio signal, and encoder |
US10170128B2 (en) | 2014-06-12 | 2019-01-01 | Huawei Technologies Co., Ltd. | Method and apparatus for processing temporal envelope of audio signal, and encoder |
US10580423B2 (en) | 2014-06-12 | 2020-03-03 | Huawei Technologies Co., Ltd. | Method and apparatus for processing temporal envelope of audio signal, and encoder |
CN106409304B (zh) * | 2014-06-12 | 2020-08-25 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
Also Published As
Publication number | Publication date |
---|---|
AR078702A1 (es) | 2011-11-30 |
PL2473995T3 (pl) | 2015-06-30 |
JP2013508766A (ja) | 2013-03-07 |
RU2596594C2 (ru) | 2016-09-10 |
BR112012009032A2 (pt) | 2020-08-18 |
BR112012009032B1 (pt) | 2021-09-21 |
ZA201203611B (en) | 2013-02-27 |
CA2778373C (en) | 2015-12-01 |
WO2011048118A1 (en) | 2011-04-28 |
CA2778373A1 (en) | 2011-04-28 |
EP2473995B9 (en) | 2016-12-21 |
BR122020024243B1 (pt) | 2022-02-01 |
TW201137861A (en) | 2011-11-01 |
US8630862B2 (en) | 2014-01-14 |
JP5243661B2 (ja) | 2013-07-24 |
EP2473995B1 (en) | 2014-12-17 |
RU2012118782A (ru) | 2013-11-10 |
EP2473995A1 (en) | 2012-07-11 |
KR101414305B1 (ko) | 2014-07-02 |
HK1172992A1 (zh) | 2013-05-03 |
CN102859588B (zh) | 2014-09-10 |
ES2533098T3 (es) | 2015-04-07 |
TWI435317B (zh) | 2014-04-21 |
MY162251A (en) | 2017-05-31 |
MX2012004518A (es) | 2012-05-29 |
KR20120063527A (ko) | 2012-06-15 |
US20120265541A1 (en) | 2012-10-18 |
AU2010309839A1 (en) | 2012-05-17 |
BR122020024236B1 (pt) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102859588B (zh) | 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法 | |
US11741973B2 (en) | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal | |
JP6173288B2 (ja) | マルチモードオーディオコーデックおよびそれに適応されるcelp符号化 | |
CN102770912B (zh) | 使用线性预测滤波的前向时域混叠消除 | |
US20220238125A1 (en) | Decoder for Decoding an Encoded Audio Signal and Encoder for Encoding an Audio Signal | |
RU2557455C2 (ru) | Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала | |
CN101878504B (zh) | 使用时间分辨率能选择的低复杂性频谱分析/合成 | |
RU2459282C2 (ru) | Масштабируемое кодирование речи и аудио с использованием комбинаторного кодирования mdct-спектра | |
CN1957398B (zh) | 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备 | |
CN102884573B (zh) | 使用取样率依赖时间扭曲轮廓编码的音频信号解码器、音频信号编码器及方法 | |
CN101589623B (zh) | 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法 | |
KR101397058B1 (ko) | 신호 처리 방법 및 이의 장치 | |
KR101751354B1 (ko) | 시간-도메인 및 주파수-도메인 코딩 방식을 지원하는 오디오 코덱 | |
US8990095B2 (en) | Method and an apparatus for processing an audio signal | |
AU2010309839B2 (en) | Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Munich, Germany Patentee after: Fraunhofer Application and Research Promotion Association Address before: Munich, Germany Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. |