CN103282958B - 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器 - Google Patents

信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器 Download PDF

Info

Publication number
CN103282958B
CN103282958B CN201080069629.1A CN201080069629A CN103282958B CN 103282958 B CN103282958 B CN 103282958B CN 201080069629 A CN201080069629 A CN 201080069629A CN 103282958 B CN103282958 B CN 103282958B
Authority
CN
China
Prior art keywords
signal
windowing
input signal
transform
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080069629.1A
Other languages
English (en)
Other versions
CN103282958A (zh
Inventor
阿里斯·塔勒布
齐峰岩
胡晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103282958A publication Critical patent/CN103282958A/zh
Application granted granted Critical
Publication of CN103282958B publication Critical patent/CN103282958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Abstract

信号分析器、信号分析方法、信号合成器、信号合成方法、加窗工具、变换器和反向变换器本发明涉及用于处理包含2N个后续输入信号值的重叠输入信号帧(103、105)的信号分析器(401)。信号分析器(401)包含:一个加窗工具(101),用于将重叠输入信号帧加窗,从而获得加窗信号,该加窗工具用于将重叠输入信号帧的M+N/2个后续输入信号值置零,其中M等于或大于1且小于N/2;以及一个变换器(403),用于使用N-M组变换参数来变换加窗信号剩余的3N/2-M个后续加窗信号值,从而获取包含N-M个变换域信号值的变换域信号。

Description

信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器
技术领域
本发明涉及信号分析和信号合成,尤其是音频信号处理和编码。
背景技术
移动设备正逐渐变成具有各种应用的多功能设备。特别是如今的移动电话,还可以用作数码照相机、电视/广播接收机和音乐播放设备。
移动设备可录制并播放语音和音乐的混合内容。该内容会自动流化或广播到设备。在移动应用实例中,语音和音乐内容都需要高效的低速率编码。
当前语音和音频编解码器的性能倾向于随内容的类型而定。最新的语音和音频编解码器已根据语音或音乐作了调整和优化。就其目标比特率和相应的应用而言,语音和音频编解码器实际上各自独立发展。但是,移动设备上的最新应用使这两种编解码器在比特率和质量方面有了相同的要求。
业界曾尝试标准化既能处理语音又能处理音频内容的编解码器。此项工作成果之一是3GPP进行AMR-WB+和E-AAC+标准化。虽然合成的编解码器的性能胜过以语音或音乐为目标应用的特定编解码器,但其质量仍倾向于随音频内容的类型而定。也就是说,音乐内容最好用音频编解码器(例如EAAC+)进行编码;语音内容最好用语音编解码器(例如AMR-WB+)进行编码。
MPEG社团还启动了关于统一语音和音频编码(USAC)(以移动应用为主要目标)的工作。此项工作产生了一种包含在时域编码模式和频域模式之间切换的方案,如Neuendorf,M.、Gournay,P.、Multrus,M.、Lecomte,J.、Bessette,B.、Geiger,R.、Bayer,S.、Fuchs,G.、Hilpert,J.、Rettelbach,N.、Salami,R.、Schuller,G.、Lefebvre,R.和Grill,B共同编写的ICASSP2009《用于在低比特率下获得高质量的统一语音和音频编码方案》中所述(2009年IEEE声学、语音和信号处理国际会议。2009年4月19日-24日。页数:1-4)。
在一个统一系统中使用两种根本不相同的编码模式会给切换点(到达该切换点时会从一个核心编解码器切换到另一个核心编解码器)带来一系列问题:块失真风险、切换可能需要的信息开销以及恒定成帧的必要性。在与统一语音和音频编码器(USAC)相似的架构中,如JeremieLecomte、PhilippeGournay、RalfGeiger、BrunoBessette和MaxNeuendorf共同编写的《用于基于LPC的音频编码和非基于LPC的音频编码之间转换的有效交叉渐变窗口》-在2009年5月7日至10日于德国慕尼黑举行的第126届大会上展示的音频工程协会大会论文,这是一个很大的挑战,因为频域核心编码器使用改进的离散余弦变换(MDCT)。MDCT最多可允许将相邻块重叠50%且不会引入额外开销。这对使块失真平滑非常有帮助,但要求引入时域混叠(TDA),时域混叠可能会在合成过程中被消除的,如J.Princen和A.Bradley共同编写的《基于时域混叠消除的分析/合成滤波器组设计》-1986年10月5日发布的IEEE声学、语音和信号处理公报34卷。时域混叠消除(TDAC)可通过合成侧上相邻MDCT块充足的重叠-相加运算来完成。
但是,在USAC中,相邻块可使用时域(TD)编码器进行编码,该编码器要么在加权LPC域而不是信号域中使用时域混叠(TDA),要么根本不使用TDA。
为了配合频域(FD)模式正确进行混叠消除(该模式会在信号域中引入混叠),所需的混叠分量可能会被变换成信号域(a情况下)或通过模拟分析加窗、折叠、展开及合成加窗的MDCT操作人工引入(b情况下)。此问题的另一个解决方案就是设计不带有TDAC区域的MDCT分析/合成窗口。重叠-相加运算随后会变得与窗口斜坡范围上的简单交叉渐变相同。USACRM0中同时运用这两种方法。为了获得必要的合适重叠区域用于交叉渐变和TDAC,必须在两种编码模式之间引入稍有不同的时间对齐。
根据USAC方案,设计了一个改进的开始窗口,窗口右侧没有任何时间混叠。此窗口的右部(在图10中列出)在MDCT的TDA(例如折叠点)的中心之前结束。因此,改进的开始窗口右侧上没有时域混叠。与128个样本(包括TDA)重叠的标准短窗口相比,改进的开始窗口的重叠区域减少到64个样本。但是,此重叠区域仍足以使块效果平滑。此外,此重叠区域还可以降低时域编码器的启动所导致的误差的影响,方法是向时域编码器提供渐入输入。请注意此转换需要64个样本的开销,即64个样本同时采用TD编解码器和FD编解码器进行编码。这会导致TD核心编解码器与FD核心编解码器之间的对准出现小小的差异。这个小失准会在编解码器切换回FD编解码器时得到补偿,如文献[2]第2章第4.4.2节所述。另请注意带有128个样本重叠区域的标准开始窗口会引入两倍的开销样本。语音编码,尤其是无线网络中,最重要的一个方面就是保持一个恒定比特率和恒定成帧。这归咎于已针对传统语音编解码器对无线接口进行了设计和优化,传统语音编解码器使用恒定帧长度和恒定比特率。例如,3GPP长期演进(LTE)无线访问系统中的一种重要调度模式就是所谓的半持久性调度,这种调度模式可通过假设VoIP包具有恒定大小和恒定帧速率来优化无线电资源。另外还有动态调度模式可用,但就信号发送所耗费的无线电资源而言,这种模式的成本较高。由于对恒定比特率和恒定帧速率有着这样的要求,因此诸如USAC等方案不可行,因为在TD和FD编码模式之间来回切换将导致出现异步现象。
通常,在两种不同的信号处理模式或编解码器之间切换时也会发生类似问题,其他信号处理区域(例如图像或视频处理或编码)也可能会发生类似问题。
发明内容
本发明的目的在于提供信号处理(分析与合成或编码与解码)构想,此构想允许在两种不同的处理模式之间有效切换,尤其是在数字信号(尤其是数字音频信号)的时域和频域处理或编码之间有效切换。
此目标通过独立权利要求的特征实现。从属权利要求清楚显示了其他实施例。
本发明基于以下发现:将用于从时域处理转换到频域处理或相反过程中使音频信号加窗的窗口缩短时,可提供一个在音频信号的时域处理和频域处理之间的有效切换。因此,根据部分实施情况,在时域和频域处理模式之间保持同步时可提供一个最短切换延迟。此外,由于窗口缩短了,因此可以应用缩短的变换将数字音频信号变换成频域。由于变换可能基于与传统MDCT方法所使用的函数类似的余弦函数,因此数字音频信号被变换成的域可能与提供(例如由MDCT或傅里叶变换器提供)的频域有所不同。因此,在下文中,语义更广的术语“变换域”用于表示在不同频率下通过振荡将信号变换成的域。
本发明的目的在于提供信号处理(分析与合成或编码与解码)构想,此构想允许在两种不同的处理模式之间有效切换,尤其是在数字信号(尤其是数字音频信号)的时域和频域处理或编码之间有效切换。
此目标通过独立权利要求的特征实现。从属权利要求清楚显示了其他实施例。
本发明基于以下发现:将用于从时域处理转换到频域处理或相反过程中使音频信号加窗的窗口缩短时,可提供一个在音频信号的时域处理和频域处理之间的有效切换。因此,根据部分实施情况,在时域和频域处理模式之间保持同步时可提供一个最短切换延迟。此外,由于窗口缩短了,因此可以应用缩短的变换将数字音频信号变换成频域。由于变换可能基于与传统MDCT方法所使用的函数类似的余弦函数,因此数字音频信号被变换成的域可能与提供(例如由MDCT或傅里叶变换器提供)的频域有所不同。因此,在下文中,语义更广的术语“变换域”用于表示在不同频率下通过振荡将信号变换成的域。
根据第一方面,本发明涉及用于将包含2N个连续输入信号值的重叠输入信号帧加窗或加权以获得加窗信号的加窗工具,加窗工具用于将重叠输入信号帧的M+N/2个连续输入信号值置零,M等于或大于1且小于N/2。
根据第一方面的加窗工具可与根据第二方面的变换器或根据第三方面或具有合适变换(例如MDCT变换)的反向变换器一起应用,在变换域处理模式和信号域处理模式(尤其是在频域处理模式和时域处理模式之间)之间转换时仍可实现低延迟或更快的切换速度以及恒定比特率和同步。
根据第一方面的第一种实施方式,重叠输入信号帧由两个连续信号输入帧(即前一输入信号帧和连续的当前或实际输入信号帧)构成,其中当前和先前输入信号帧各包含N个连续输入信号值,而且在重叠输入信号帧中,先前输入信号帧的最后一个输入信号值刚好在当前输入信号帧的第一个输入信号值之前。
根据第一方面的第二种实施方式(可能包含第一方面的第一种实施方式的特点),加窗工具应用到重叠输入信号帧的窗口的N/2+M个系数等于0,加窗工具用于截断M+N/2个连续输入信号值。
根据第一方面的第三种实施方式(可能另外包含第一方面的第一和/或第二种实施方式的特点),加窗工具用于使用3N/2-M个系数给重叠输入信号帧剩余的3N/2-M个连续输入信号值加权,其中3N/2-M个系数至少包含N/2个连续非零系数。
根据第一方面的第四种实施方式(可能另外包含第一方面的第一到第三种实施方式其中任意一种的特点),加窗工具应用到重叠输入信号帧的窗口具有一个上升斜坡和一个下降斜坡,下降斜坡的系数少于上升斜坡,或者上升斜坡的系数少于下降斜坡。
根据第一方面的第五种实施方式(可能另外包含第一方面的第一到第四种实施方式其中任意一种的特点),加窗工具应用到重叠输入信号帧的窗口具有一个上升斜坡和一个下降斜坡,下降斜坡的系数少于上升斜坡,和/或上升斜坡的系数少于下降斜坡,其中加窗工具会调整以应用到重叠输入信号帧(下降斜坡的系数比上升斜坡少的窗口或上升斜坡的系数比下降斜坡少的窗口),以此作为对转换指示标识的响应。
根据第一方面的第六种实施方式(可能另外包含第一方面的第一到第五种实施方式其中任意一种的特点),加窗工具应用到重叠输入信号帧的窗口具有N/2-M个系数(构成一个下降斜坡)和N个系数(构成一个上升斜坡,尤其是构成一个连续不断的上升斜坡)。
根据第一方面的第七种实施方式(可能另外包含第一方面的第一到第六种实施方式其中任意一种的特点),加窗工具应用到重叠输入信号帧的窗口具有N/2-M个系数(构成一个上升斜坡)和N个系数(构成一个下降斜坡,尤其是构成一个连续不断的下降斜坡)。
根据第一方面的第八种实施方式(可能另外包含第一方面的第一到第七种实施方式其中任意一种的特点),加窗工具应用到重叠输入信号帧的窗口具有N/2-M个系数(构成一个下降斜坡)和N个系数(构成一个上升斜坡),或者具有N/2-M个系数(构成一个上升斜坡)和N个系数(构成一个下降斜坡),其中加窗工具用于重叠输入信号帧(包含构成下降斜坡的N/2-M个系数的窗口或包含构成上升斜坡的N/2-M个系数的窗口),以此作为对转换指示标识的响应。.
根据第一方面的第九种实施方式(可能另外包含第一方面的第一到第八种实施方式其中任意一种的特点),重叠输入信号帧由两个连续输入信号帧构成,这两个连续输入信号帧分别具有N个输入信号值,其中加窗工具用于从两个输入信号帧的当前输入信号帧开始(尤其是从当前帧的第一个输入信号值开始),输入不多于3N/2-M个连续的加窗输入信号值。
根据第一方面的第十种实施方式(可能另外包含第一方面的第一到第九种实施方式其中任意一种的特点),输入信号为时域信号,变换域信号则为频域信号。
根据第一方面的第十一种实施方式(可能另外包含第一方面的第一到第十种实施方式其中任意一种的特点),输入信号为音频时域信号,变换域信号则为频域信号。
根据第二方面,本发明涉及一个用于将重叠输入信号帧变换成变换域信号的变换器,该重叠输入信号帧具有2N个输入信号值,该变换器用于使用N-M组参数来变换重叠输入信号帧的3N/2-M个信号值以获得变换域信号。重叠输入信号帧可能为时域信号,变换域信号则可能为频域信号。根据部分实施情况,变换器的输入可能为加窗工具的输出。
根据第二方面的第一种实施方式,变换参数组被安排构成一个具有N-M行和3N/2-M列的参数矩阵。
根据第二方面的第二种实施方式(可能另外包含第二方面的第一种实施方式的特点),变换器用于输出N-M个变换域信号值。
根据第二方面的第三种实施方式(可能另外包含第二方面的第一或第二种实施方式的特点),每组变换参数代表某个特定频率下的一次振荡,其中两次振荡之间的间距(尤其是频率间距)取决于N-M。
根据第二方面的第四种实施方式(可能另外包含第二方面的第一到第三种实施方式其中任意一种的特点),变换参数组构成一个离散余弦调制矩阵(尤其是大小为N-M的IV型离散余弦调制方形矩阵)。
根据第二方面的第五种实施方式(可能另外包含第二方面的第一到第四种实施方式其中任意一种的特点),重叠输入信号帧为时域信号,变换参数组则形成时域混叠运算。
根据第二方面的第六种实施方式(可能另外包含第二方面的第一到第六种实施方式其中任意一种的特点),变换器包含创造性的加窗工具。换句话说,变换器以单个处理步骤执行加窗和变换。
根据第二方面的第七种实施方式(可能另外包含第二方面的第一到第六种实施方式其中任意一种的特点),变换器用于将时域模式的重叠输入信号变换成变换域(尤其是频域)模式的变换域信号。
根据第二方面的第八种实施方式(可能另外包含第二方面的第一到第七种实施方式其中任意一种的特点),变换参数组可能由以下公式决定:
d kn = cos ( π N - M ( k + 1 2 ) ( n + N + 1 2 - M ) ) ,
k = 0 , . . . , N - M - 1 , n = 0 , . . . , 3 N 2 - 1 - M
其中k为固定指数并定义N-M组变换参数的其中一组,n定义相对应的变换参数组的其中一个变换参数,dkn表示由n和k指定的变换参数。
根据第三方面,本发明涉及一个用于反向变换变换域信号的反向变换器,该变换域信号具有N-M个变换域信号值,该反向变换器用于使用组反向变换参数将个变换域信号值反向变换成个反向变换域信号值。反向变换域信号值可能与一个反向变换域或信号域关联,例如与一个时域关联。
根据第三方面的第一种实施方式,反向变换参数组被安排构成一个具有3N/2-M行和N-M列的参数矩阵。
根据第三方面的第二种实施方式(可能另外包含第二方面的第一种实施方式的特点),反向变换器用于输出3N/2-M个反向变换域信号值(尤其是时域信号值)。
根据第三方面的第三种实施方式(可能另外包含第三方面的第一或第二种实施方式的特点),每组变换参数代表某个特定频率下的一次振荡,其中两次振荡之间的间距取决于N-M。
根据第三方面的第四种实施方式(可能另外包含第三方面的第一到第三种实施方式其中任意一种的特点),反向变换参数组构成一个离散余弦调制矩阵(尤其是大小为N-M的IV型离散余弦调制方形矩阵)。
根据第三方面的第五种实施方式(可能另外包含第三方面的第一到第四种实施方式其中任意一种的特点),反向变换参数组包含反向时域混叠运算。
根据第三方面的第六种实施方式(可能另外包含第三方面的第一到第五种实施方式其中任意一种的特点),反向变换器包含创造性的加窗工具。换句话说,反向变换器以单个处理步骤执行反向变换和加窗。
根据第三方面的第七种实施方式(可能另外包含第三方面的第一到第六种实施方式其中任意一种的特点),反向变换参数组由以下公式决定:
g kn = cos ( π N - M ( k + 1 2 ) ( n + N + 1 2 - M ) ) ,
n = 0 , . . . , 3 N 2 - 1 - M , k = 0 , . . . , N - M - 1
其中n为固定指数并定义3N/2-M组反向变换参数的其中一组,k定义相对应的变换参数组的其中一个变换参数,gkn表示由n和k指定的变换参数。
根据第四方面,本发明涉及一个用于处理重叠输入信号帧的音频信号分析器,该音频信号分析器包含加窗工具(根据第一方面或第一方面的任意一种实施方式)和/或创造性的变换器(根据第二方面或第二方面的任意一种实施方式)。
根据第四方面的第一种实施方式,加窗工具用于将输入信号加窗以获得加窗的输入信号;变换器则用于将加窗的输入信号变换成变换域(尤其是频域)模式下的一个变换域信号。
根据第四方面的第二种实施方式(可能另外包含第四方面的第二种实施方式的特点),加窗工具用于将使用N/2-M个系数(构成上升斜坡)和N个系数(构成下降斜坡)的输入信号加窗。
根据第四方面的第三种实施方式(可能另外包含第四方面的第一或第二种实施方式的特点),加窗工具用于将使用N/2-M个系数(构成下降斜坡)和N个系数(构成上升斜坡)的输入信号加窗。
根据第四方面的第四种实施方式(可能另外宝航第四方面的第一到第三种实施方式其中任意一种的特点),音频信号分析器有时域和变换域两种处理模式,其中加窗工具用于当从变换域处理模式切换到时域处理模式(以此作为对转换指示标识的响应)时,使用具有N个系数(构成一个上升斜坡)和N/2-M个系数(构成作为变换域处理模式的一部分的一个下降斜坡)的窗口将重叠输入信号帧加窗;和/或加窗工具用于当从时域处理模式切换到变换域处理模式(以此作为对转换指示标识的响应)时,使用具有N/2-M个系数(构成一个上升斜坡)和N个系数(构成作为变换域处理模式的一部分的一个下降斜坡)的窗口将重叠输入信号帧加窗。
根据第四方面的第五种实施方式(可能另外包含第四方面的第一到第四种实施方式其中任意一种的特点),重叠输入信号帧由一个当前输入信号帧和一个先前输入信号帧构成,这两个帧各包含N个连续输入信号值,音频信号分析器有时域和变换域两种处理模式,其中音频信号分析器进一步用于当从变换域处理模式切换到时域处理模式(以此作为对转换指示标识的响应)时,至少处理一部分当前输入信号帧(根据时域处理模式);和/或当从时域处理模式切换到变换域处理模式(以此作为对转换指示标识的响应)时,至少处理一部分先前输入信号帧(根据时域处理模式)。
根据第四方面的第六种实施方式(可能另外包含第四方面的第一到第五种实施方式其中任意一种的特点),音频分析器还包含一个处理模式转换检测器,该检测器会调整以触发从时域处理模式到变换域处理模式的转换,或者触发从变换域处理模式到时域处理模式的转换。用于触发转换(从时域处理模式到频域处理模式或从频域处理模式到时域处理模式)的控制(以实例说明)取决于最适用于输入信号帧的处理模式。例如,处理模式转换检测器可以是一个编码模式转换检测器。
根据第四方面的第七种实施方式(可能另外包含第四面的第一到第六种实施方式其中任意一种的特点),从变换域处理模式转换到时域处理模式或从时域处理模式转换到变换域处理模式时,音频分析器进一步用于根据作为变换域处理模式一部分的上述其中一种实施方式,将重叠输入信号帧加窗并变换以获得一个变换域信号,其中重叠输入信号帧由当前输入信号帧和先前输入信号帧构成,目的是根据时域处理模式至少处理一部分当前输入信号帧。
根据第五方面,本发明涉及一个用于合成变换域信号的音频合成器,该音频合成器包含反向变换器(根据第三方面或第三方面的任意一种实施方式)或加窗工具(根据第一方面或第一方面的任意一种实施方式)。
根据第五方面的第一种实施方式,反向变换器用于将变换域信号反向变换成反向变换域信号(例如变换成时域信号),其中加窗工具用于将反向变换域信号加窗以获得一个加窗信号。您可以为加窗信号部署重叠-相加方法以在时域模式下合成一个输出信号。
根据第五方面的第二种实施方式(可能另外包含第五方面的第一种实施方式的特点),加窗工具配置用于使用N/2-M个系数(构成一个下降斜坡)和N个系数(构成一个上升斜坡)进行加窗,或者用于使用N/2-M个系数(构成一个上升斜坡)和N个系数(构成一个下降斜坡)进行加窗。
根据第五方面的第三种实施方式(可能另外包含第五方面的第一或第二种实施方式的特点),音频合成器有时域(适用于时域处理)和变换域(适用于变换域处理)两种处理模式,其中加窗工具用于将反向变换域信号加窗以用于从变换域处理模式转换到时域处理模式。
根据第五方面的第四种实施方式(可能另外包含第五方面的第一到第三种实施方式其中任意一种的特点),音频合成器有时域(适用于时域处理)和变换域(适用于变换域处理)两种处理模式,其中加窗工具用于将反向变换域信号加窗以用于从时域处理模式转换到变换域处理模式。
根据第五方面的第五种实施方式(可能另外包含第五方面的第一到第四种实施方式其中任意一种的特点),音频合成器还包含一个转换检测器,该检测器会调整以触发信号合成器从时域处理模式转换到变换域处理模式。
根据第五方面的第六种实施方式(可能另外包含第五方面的第一到第五种实施方式其中任意一种的特点),音频合成器还包含一个转换检测器,该检测器会调整以触发音频合成器从变换域处理模式转换到时域处理模式。
根据第六方面,本发明涉及一个用于处理重叠输入信号帧(包含2N个连续输入信号值)的信号分析器,其中该信号分析器包含:一个加窗工具,它会调整以将重叠输入信号帧加窗,从而获得加窗信号,该加窗工具调整为将重叠输入信号帧的M+N/2个连续输入信号值置零,其中M等于或大于1且小于N/2;以及一个变换器,它会调整以使用N-M组变换参数来变换加窗信号剩余的3N/2-M个连续加窗信号值,从而获得包含N-M个变换域信号值的变换域信号。
根据第六方面的第一种实施方式,加窗工具应用到重叠输入信号帧的窗口包含个等于0的连续系数,或者,加窗工具会调整以截断个连续输入信号值。
根据第六方面的第二种实施方式(可能另外包含第六方面的第一种实施方式的特点),重叠输入信号帧由两个连续输入信号帧构成,这两个连续输入信号帧分别具有N个连续输入信号值。
根据第六方面的第三种实施方式(可能另外包含第六方面的第一或第二种实施方式的特点),N-M组变换参数的每一组代表某个特定频率下的一次振荡,其中两次振荡之间的间距(尤其是频率间距)取决于N-M。
根据第六方面的第四种实施方式(可能另外包含第六方面的第一到第三种实施方式其中任意一种的特点),变换参数组包含时域混叠运算(405)。
根据第六方面的第五种实施方式(可能另外包含第六方面的第一到第四种实施方式其中任意一种的特点),变换参数组由以下公式决定:
d kn = cos ( π N - M ( k + 1 2 ) ( n + N + 1 2 - M ) ) ,
k = 0 , . . . , N - M - 1 , n = 0 , . . . , 3 N 2 - 1 - M ,
其中k为固定指数并定义N-M组变换参数的其中一组,n定义相对应的变换参数组的其中一个变换参数,dkn表示由n和k指定的变换参数。
根据第六方面的第六种实施方式(可能另外包含第六方面的第一到第五种实施方式其中任意一种的特点),音频信号分析器有时域和变换域两种处理模式,其中加窗工具用于当从变换域处理模式切换到时域处理模式(以此作为对转换指示标识的响应)时,使用具有N个系数(构成一个上升斜坡)和N/2-M个系数(构成作为变换域处理模式的一部分的一个下降斜坡)的窗口将重叠输入信号帧加窗;和/或加窗工具用于当从时域处理模式切换到变换域处理模式(以此作为对转换指示标识的响应)时,使用具有N/2-M个系数(构成一个上升斜坡)和N个系数(构成作为变换域处理模式的一部分的一个下降斜坡)的窗口将重叠输入信号帧加窗。
根据第六方面的第七种实施方式(可能另外包含第六方面的第一到第六种实施方式其中任意一种的特点),重叠输入信号帧由一个当前输入信号帧和一个先前输入信号帧构成,这两个帧各包含N个连续输入信号值,其中音频信号分析器有时域和变换域两种处理模式,该音频信号分析器进一步用于当从变换域处理模式切换到时域处理模式(以此作为对转换指示标识的响应)时,至少处理一部分当前输入信号帧(根据时域处理模式);和/或当从时域处理模式切换到变换域处理模式(以此作为对转换指示标识的响应)时,至少处理一部分先前输入信号帧(根据时域处理模式)。
根据第六方面的第八种实施方式(可能另外包含第六方面的第一到第七种实施方式其中任意一种的特点),信号分析器是一个音频信号分析器(401),输入信号是时域中的一个音频输入信号。
根据第七方面,本发明涉及一个用于处理变换域信号(包含N-M个变换域信号值)的信号合成器,其中M大于1且小于N/2,信号合成器包含:一个反向变换器,它会调整以使用N-M组反向变换参数将3N/2-M个变换域信号值反向变换,从而获得3N/2-M个反向变换域信号值;以及一个加窗工具,它会调整以使用包含3N/2-M个系数的窗口将3N/2-M个反向变换域信号值加窗,从而获得包含3N/2-M个加窗信号值的加窗信号,其中3N/2-M个系数包含至少N/2个连续非零窗口系数。
根据第六方面的第一种实施方式,3N/2-M组反向变换参数的每一组代表某个特定频率下的一次振荡,其中两次振荡之间的间距(尤其是频率间距)取决于N-M。
根据第六方面的第二种实施方式(可能另外包含第七方面的第一种实施方式的任何特点),反向变换参数组包含反向时域混叠运算。
根据第六方面的第三种实施方式(可能另外包含第七方面的第一或第二种实施方式的任何特点),反向变换参数组由以下公式决定:
g kn = cos ( π N - M ( k + 1 2 ) ( n + N + 1 2 - M ) ) ,
n = 0 , . . . , 3 N 2 - 1 - M , k = 0 , . . . , N - M - 1
其中n为固定指数并定义3N/2-M组反向变换参数的其中一组,k定义相对应的反向变换参数组的其中一个反向变换参数,gkn表示由n和k指定的反向变换参数。
根据第六方面的第四种实施方式(可能另外包含第七方面的第一到第三种实施方式的任何特点),信号合成器还包含:一个重叠-加法器,它会调整以将加窗信号和另一个加窗信号重叠并相加,从而获得包含至少N个输出信号值的输出信号。
根据第六方面的第五种实施方式(可能另外包含第七方面的第一到第四种实施方式的任何特点),信号合成器有时域和变换域两种处理模式,其中加窗工具用于当从变换域处理模式切换到时域处理模式(以此作为对转换指示标识的响应)时,使用具有N个连续系数(构成一个上升斜坡)和N/2-M个系数(构成一个下降斜坡)的窗口将反向变换域信号加窗;和/或加窗工具用于当从时域处理模式切换到变换域处理模式(以此作为对转换指示标识的响应)时,使用具有N/2-M个系数(构成一个上升斜坡)和N个系数(构成一个下降斜坡)的窗口将反向变换域信号加窗。
根据第六方面的第六种实施方式(可能另外包含第七方面的第一到第五种实施方式的任何特点),信号合成器是一个音频信号合成器,其中变换域信号是一个频域信号,反向变换域信号则是一个时域音频信号。
根据第八方面,本发明涉及一个包含创造性的加窗工具(根据第一方面或其任意一种实施方式)和/或创造性的变换器(根据第二方面或其任意一种实施方式)和/或音频分析器(根据第六方面或其任意一种实施方式)的音频编码器。
根据第九方面,本发明涉及一个包含创造性的加窗工具(根据第一方面或其任意一种实施方式)和/或反向变换器(根据第三方面或其任意一种实施方式)和/或音频合成器(根据第五方面或其任意一种实施方式)的音频解码器。
根据第十方面,本发明涉及用于将包含2N个连续输入信号值的重叠输入信号帧加窗的方法,加窗包括将重叠输入信号帧的N/2+M个连续输入信号值置零,M等于或大于1且小于N/2。
根据第十一方面,本发明涉及用于变换一个重叠输入信号帧的方法,该方法包括使用N-M组变换参数来变换重叠输入信号帧的3N/2-M个连续输入信号值,从而获得一个包含N-M个变换域信号值的变换域信号。
根据第十二方面,本发明涉及用于反向变换变换域信号的方法,该变换域信号具有N-M个值,该方法包括使用3N/2-M组反向变换参数将N-M个变换域信号值反向变换成3N/2-M个反向变换域信号值。
根据第十三方面,本发明涉及用于处理输入信号的方法,该方法包括根据文中所述的原理将输入信号加窗或变换输入信号。
根据第十四方面,本发明涉及根据文中所述的原理,将变换域信号反向变换成输出信号的合成方法。
根据第十五方面,本发明涉及一种音频编码方法,该方法包括用于加窗的创造性方法和/或用于变换的创造性方法和/或根据文中所述的原理进行处理的方法。
根据第十四方面,本发明涉及一种音频解码方法,该方法包括用于加窗的创造性方法和/或用于反向变换的创造性方法和/或创造性的合成方法。
根据第十五方面,本发明涉及用于处理重叠输入信号帧(包含2N个连续输入信号值)的信号分析方法,该信号分析方法包括以下步骤:将重叠输入信号帧加窗以获得加窗信号,加窗包括将重叠输入信号帧的M+N/2个连续输入信号值置零,其中M等于或大于1且小于N/2;以及使用N-M组变换参数来变换加窗信号剩余的3N/2-M个连续加窗信号值,从而获得包含N-M个变换域信号值的变换域信号。
根据第十六方面,本发明涉及用于处理变换域信号(包含N-M个变换域信号值)的信号合成方法,其中M等于或大于1且小于3N/2,信号合成方法包括以下步骤:使用3N/2-M组反向变换参数将N-M个变换域信号值反向变换,从而获得3N/2-M个反向变换域信号值;以及使用包含3N/2-M个系数的窗口将3N/2-M个反向变换域信号值加窗,从而获得包含3N/2-M个加窗信号值的加窗信号,其中3N/2-M个系数包含至少N/2个连续非零窗口系数。
根据上述各个方面的第一种实施方式或任意一种实施方式,重叠输入信号帧由两个连续信号输入帧(即先前输入信号帧和连续的实际输入信号帧)构成,其中当前和先前输入信号帧各包含N个连续输入信号值,而且在重叠输入信号帧中,先前输入信号帧的最后一个输入信号值刚好在当前输入信号帧的第一个输入信号值之前。
根据上述各方面的另一种实施方式或任意一种实施方式,N是一个整数且大于1,M是一个整数。例如,N的典型值为256个样本、512个样本或1024个样本。但是,本发明的实施方式不仅限于N的这些值。
虽然已描述的各个方面和各种实施方式主要用于音频信号处理或编码,但上述各个方面和各种实施方式同样可用于处理或编码其他(非音频)时域信号或除时域信号之外的其他信号(例如空间域信号)。
因此,根据上述各个方面的另一种实施方式或任意一种实施方式,转换检测器、加窗工具、变换器、音频分析器、信号分析器、编码器等及相应方法的输入信号(尤其是重叠输入信号帧和输入信号帧)是一个时域信号,变换域信号是一个频域信号,相应反向变换器、加窗工具、音频合成器、信号合成器、解码器等的反向变换域信号则又是一个时域信号。
因此,根据上述各个方面的另一种实施方式或不涉及时域信号处理的实施方式,瞬变检测器、加窗工具、变换器、信号分析器等及相应方法的输入信号(尤其是重叠输入信号帧和输入信号帧)是一个空间域信号,变换域信号是一个空间频域信号,相应反向变换器、加窗工具、信号合成器等的反向变换域信号则又是一个空间域信号。
相应的方法(尤其是转换检测器、加窗工具、变换器、反向变换器、重叠-加法器、处理器、音频分析器、信号分析器、音频合成器、信号合成器、编码器和解码器)均为功能实体并且可以在硬件或软件中执行,或者可以在技术人员所熟悉的硬件和软件中联合执行。如果在硬件中执行所述方法,该方法可体现为一个设备(例如一台计算机或一个处理器),或者也可以体现为系统的一部分(例如一个计算机系统)。如果在软件中执行所述方法,则它可能体现为一个电脑程序产品、功能、例行程序、程序代码或可执行对象。
附图说明
本发明的其他实施方案将参考以下附图进行描述,包括:
图1显示了加窗工具一种实施方式的的一个窗口;
图2A显示了带有开环回路处理模式选择的编码器的实施例的结构图。
图2B显示了可在图2A的编码器中使用的变换域处理块的实施例的结构图。
图2C显示了可在图2A的编码器中使用的时域处理块的实施方案的结构图。
图2D显示了解码器的实施例的结构图。
图2E显示了在变换域编码和时域编码之间转换时进行加窗的实施例;
图3显示了窗口对比情况;
图4A显示了一个包含加窗工具和变换器的音频信号分析器,
图4B显示了一个包含反向变换器和加窗工具的音频信号合成器;
图5显示了MDCT基函数;
图6显示了USAC基函数;
图7显示了一种变换器实施例的基函数;
图8显示了加窗工具的一个实施方式中窗口的部署;
图9显示了一个分包方案;
图10显示了根据USAC从非LPD模式(FD编解码器)转换到LDP模式(TD编解码器)的一个窗口方案。
具体实施方式
图1显示了加窗工具的窗口101的一种实施方式;该窗口用于对输入信号构成的一个具有2N个信号值的输入信息块进行加窗或加权处理。该输入信号由两个连续的输入信号帧103和105组成(第一个输入信号帧为103,第二个输入信号帧为105)。例如,第一个输入信号帧103是先前输入信号帧103(在第二个或当前输入信号帧105之前)。由先前输入信号帧103和当前输入信号帧构成的合成输入信号也可称为重叠输入信号帧。输入信号帧103和105各包含N个连续的输入信号值,并且都细分成两个子帧。因此,每个子帧具有N/2个值,重叠输入信号帧具有2N个样本。如图1所示,窗口具有3N/2-M个非零系数,其中M表示关于该窗口(应用到重叠输入信号帧)的第三个子帧中零的个数,同时还相应表示一部分窗口(应用到第二个或当前帧105的第一个子帧)中零个个数,M大于或等于1且小于N/2。因此,窗口把输入信号或重叠输入信号帧(尤其是第二个或当前输入信号帧105)的M+N/2个值置零。
该窗口包含一个上升斜坡107(具有N个系数)和一个下降斜坡109(具有L个系数),其中L等于N/2-M,表示第三个子帧中非零系数的个数。下降斜坡109构成了一个长度为L的重叠区域。
图1中所示的窗口可用于从变换域处理(例如频域处理)转换到时域处理。例如,在这种情况下,第二个输入信号帧105的最后M+N/2个值会被置零或截断(见图1),其中截断指的是删掉这M+N/2个值,从而使加窗信号仅包含3N/2-M个加窗信号值。对于从时域转换到变换域,可设置如图1所示的对称形状窗口(235),其中以长度为2N的窗口或窗口函数的中心(位于图1的窗口函数中心的垂直虚线)为轴对称映射出窗口形状或窗口函数,或者换句话说,以第一个输入信号帧103与第二个输入信号帧105之间的边界为轴对称映射。例如,在这种映射情况下,第一个输入信号帧105的前M+N/2个值会被置零或截断,其中截断指的还是删掉这M+N/2个值,从而使加窗信号仅包含3N/2-M个加窗信号值。
图2A显示了以本发明为根据的编码器的实施方案。该编码器包含一个编码模式选择器201、一个用于FD编码模式的FD编码器211和一个用于TD编码模式的TD编码器213。对于长度为N的输入信号帧103和105,编码模式选择器会输出一个编码模式标识205,该标识决定了从TD或FD编码模式中为当前输入信号帧选择的合适编码模式。编码模式选择器可在闭环回路或开环回路模式下工作。在开环回路模式下,编码模式选择器会根据输入信号特性(可能包括诸如输入信号帧功率、频谱倾斜和音调等参数)来决定编码模式。闭环回路模式则基于潜在决定的结果,这与开环回路模式相反。如此一来,编码模式选择器可能会触发以通过FD编码器211根据FD编码模式执行输入信号帧的第一编码并通过TD编码器213根据TD编码模式执行输入信号帧的第二编码,然后确定并对比TD编码模式和FD编码模式获取的保真度标准,最后根据对比结果(分别是第一编码和第二编码的保真度标准)从TD和FD编码模式中为当前输入信号帧选择最合适的编码模式。可使用的保真度标准有许多种,例如信噪比(SNR)、分段式信噪比SNR(segSNR)、加权信噪比(wSNR)和加权分段式信噪比(wsegSNR)等。在开环回路和闭环回路两种方法中,编码模式选择器的决定可以用二进制标识205表示,该标识指示为当前输入信号帧(例如输入信号帧103)选择的编码模式。根据本发明,如果编码模式转换检测器207检测到时域编码和频域编码之间的转换,转换指示标识219会触发不同模式之间的切换(用开关209作为表示符号)。因此,如果检测到从TD到FD或从FD到TD的切换,则会启动两种编码模式之间的切换步骤,然后使用合适的编码器。时域编码器或频域编码器分别生成的比特流221与编码模式标识205一起被复用器217复用并传送到其他接收站(例如存储介质)。例如,编码模式转换检测器207可以用于存储先前输入信号帧103的编码模式标识并将当前输入信号帧105的编码模式标识与已存储的先前输入信号帧103的编码模式标识对比。如果当前输入信号帧105的编码模式标识与先前输入信号帧103的编码模式标识相同,则会保持相同的编码模式,并且编码模式转换检测器207没有检测到不同的编码模式的切换;反之,如果当前输入信号帧105的编码模式标识与先前输入信号帧103的编码模式标识不同,则检测到至不同编码模式的转换。一旦当前输入信号帧105的编码模式标识指示一种TD编码模式而先前输入信号帧103的编码模式标识指示一种FD编码模式,编码模式转换检测器207可进一步用于,当当前输入信号帧105的编码模式标识表示TD编码模式而先前输入信号帧103的编码模式标识表示FD编码模式时,通过合适的转换指示标识219检测并触发从FD编码模式到TD编码模式的转换,反之亦然,即当当前输入信号帧105的编码模式标识表示FD编码模式而先前输入信号帧103的编码模式标识表示TD编码模式时,通过合适的转换指示标识219检测并触发从TD编码模式到FD编码模式的转换。
图2B显示了FD编码器211及以本发明为根据的部分切换步骤209的实施方案。转换指示标识219指示四种可能的“转换”的其中一种。FD到FD转换表明编码器已被选中或触发,以便继续根据FD编码模式将帧编码;TD到TD转换则表明编码器已被选中或触发,以便继续根据TD编码模式将帧编码。
对于FD到FD转换(见图2B中央的信号处理路径),尺寸为N的输入信号帧105会根据众所周知的频域编码方法进行处理。形成包含先前输入信号帧103的重叠输入信号帧(见图2B中的227)。当前输入信号帧k可存储在内存中,以用作下一个输入信号帧k+1的先前输入信号帧。可以部署一个加窗工具,该加窗工具会应用MDCT窗口231对重叠输入信号帧的2N个信号值进行加权。生成的加窗信号会使用MDCT229变换成频域。然后会进一步处理用N个频谱系数表示的变换信号(见图2B中的233),例如量化(例如标量量化或矢量量化)和数据压缩(例如哈夫曼编码或算术编码)。
对于FD到TD转换(见图2B左边的信号处理路径),尺寸为N的输入信号帧105会根据本发明进行处理。形成包含先前输入信号帧103的重叠输入信号帧(见图2B中的227),这与FD到FD转换的情况相似。可以部署一个加窗工具,该加窗工具会对重叠输入信号帧的2N个信号值应用如图1描述的窗口101。生成的加窗信号会变换成变换域,例如,使用创造性的变换器403,这种变换器的功能性将在下文详加描述。与FD到FD转换相似,这些频谱系数随后会被进一步处理,例如量化(例如标量量化或矢量量化)和数据压缩(例如哈夫曼编码或算术编码)。
对于TD到FD转换(见图2B右边的信号处理路径),尺寸为N的输入信号帧105会根据本发明进行处理。形成包含先前输入信号帧103的重叠输入信号帧(见图2B中的227),这与FD到FD转换的情况相似。可以部署一个加窗工具,该加窗工具会对2N个信号值应用对称窗口235(如图1所述)。生成的加窗信号会变换成变换域,例如,使用创造性的变换器403。与FD到FD转换相似,变换的信号用N-M个频谱系数表示并且随后会被进一步处理,例如量化(例如标量量化或矢量量化)和数据压缩(例如哈夫曼编码或算术编码)。
图2C显示了TD编码器213及以本发明为根据的部分切换步骤209的实施方案。转换指示标识219通过与图2B相似的方式指示四种可能的转换的其中一种。FD到FD转换表明编码器已被选中或触发,以便继续根据FD编码模式将帧编码;TD到TD转换则表明编码器已被选中或触发,以便继续根据TD编码模式将帧编码。
对于TD到FD转换(见图2C中央的信号处理路径),尺寸为N的输入信号帧105会根据众所周知的时域编码模式进行处理,具体来说,本实施方案采用了CELP编码器237。用当前输入信号帧k105的前半部分和先前输入信号帧k-1103的后半部分形成尺寸为N的CELP输入信号帧。当前输入信号帧k105的后半部分可存储在内存中,以用作先前输入信号帧(用于处理下一个输入信号帧k+1)。CELP编码器237会进一步处理生成的尺寸为N的代表CELP输入信号帧的时域样本。
对于FD到TD转换(见图2C右边的信号处理路径),尺寸为N的当前输入信号帧k105会根据本发明进行处理。首先,使用当前输入信号帧k105形成半个输入信号帧。生成的N/2个输入信号样本会被拆分(见图2C中的241)成一个尺寸为L的重叠区域247,该重叠区域会由时频域(TFD)编码器245(见图9中的907)进行编码,剩余的M个信号样本可以由CELP编码器237(见图9中的909)进行编码。TFD编码器245的其中一个实施方案就是重用CELP作为编码系统,此编码器245的另一个实施方案可能是使用CELP编码器的改良版,以将生成的对重叠区域FD编码的相关性考虑在内,对重叠区域在转换期间由FD编码器和TFD编码器共同编码。
对于TD到FD转换(见图2C左边的信号处理路径),将映射为FD到TD转换描述的操作。尺寸为N的输入信号帧105会根据本发明进行处理,使用先前输入信号帧k-1103的前半部分形成半个输入信号帧。合成的N/2个输入信号样本会被拆分(241)成一个尺寸为L的重叠区域243,该重叠区域由时频域(TFD)编码器245(见图9中的919)进行编码,剩余的M个信号样本可能由CELP编码器237(见图9中的917)进行编码。
图2D显示了以本发明为根据的解码器。首先,编码模式转换检测器207会读取并处理编码模式标识205,以便确定转换指示标记207,这与编码器中的情况相似。比特流221由FD解码器和/或TD解码器进行解码。FD解码器249的工作模式与FD编码器211(例如图2B中的模式)相反,并且包含创造性的反向变换器415和加窗工具。TD解码器251的工作模式与TD编码器213相反。对于TD解码器和FD解码器之间的重叠区域243和247(例如TFD解码器重叠区域),可以部署重叠-相加运算,以便从FD编码模式平滑转换到TD编码模式,反之亦然。可以在反向MDCT或创造性的反向变换器415之后为FD编码模式部署重叠-相加运算,以便合成解码信号。
图2E显示了如图1所示的窗口的部署,该窗口用于从频域编码或更通用的变换域编码(例如使用MDCT作为变换)到时域编码(例如使用码激励线性预测编码)的转换的以及相反的转换过程。频域编码构成了变换域处理或变换域处理模式的一个实施方案,时域编码则构成了时域处理或时域处理模式的一个实施方案。
以实例说明,对于使用MDCT的频域编码,可以在由最左边两个尺寸为N的帧(第一个帧构成当前或第二个帧的先前帧)构成的重叠输入信号帧上部署一个普通MDCT窗口231。为输入信号的第一帧(从左起尺寸为N的第三帧)选定TD编码模式,从第一帧开始,可以在下一个重叠输入信号帧(由从左起的第二和第三帧构成,从左起的第三帧构成当前信号帧105,如图1所示)上部署窗口101,以用于从频域编码转换到时域编码。在时域编码模式下,信号会被编码但不会加窗。对于从时域编码到频域编码的转换,可以部署一个对称窗口235(窗口101的映射版本,请参见关于图1的说明)。对称窗口235通过倒转窗口101的系数的顺序而成。正如从图2E所见,窗口235被应用到由从左起第四和第五个输入信号帧(从左起的第五个输入信号帧构成选定了FD编码的当前输入信号帧,从左起的第四个输入信号帧则构成选定了TD编码的先前输入信号帧)构成的重叠输入信号帧。此后,在频域处理过程中,可能会再次使用MDCT窗口231。如图2E所描述,窗口101和235的重叠部分-247和243可使转换平滑并减少转换期间的块效果。
对于图1和2A至2E的实施方案,我们注意到时域和频域编解码器可以被同步,这对于现有技术的USAC方案来说是无法实现的。值得注意的还有用于从FD(频域)切换到TD(时域)以及切换回的切换窗口的形状101和235与现有技术USAC方案的不同。由于重叠区域从MDCT帧的一半处开始,因此创造性的加窗工具可允许在时域和频域两种模式下进行编码,以便按纯周期性信号的时间间隔开始,从而使时域和频域编解码器之间不会失去同步。
因此,根据部分实施方式,输入信号的整个帧可以用一个恒定比特率进行编码。此外,还可以实现分包方案,以允许在信息包与相应时间信号之间进行时间对准。
根据部分实施方式,窗口235(用于从TD转换到FD)正是窗口101(用于从FD转换到TD)的映射版本(时间倒转)。但是,重叠区域或区域243现在位于当前帧的起点之前,因此窗口235的中心正好对应将用频域模式进行编码的当前输入信号帧的起点。因此,还可以切换回FD编码模式并且不会丢失同步,该过程可实现一个恒定比特率。
根据其他实施方式,从图8不难发现:窗口803(用于从TD转换到FD)虽然不是窗口101(用于从FD转换到TD)的映射版本,但也能够在TD和FD编码器之间保持同步。
在下文中,MDCT的部分一般属性将用于解释本发明将衍生的部分实施方式。
改进的离散余弦变换(MDCT)通常定义用于尺寸为2N的输入,其中输入信号包含两个长度为N的连续输入信号帧,如下所示:
X k = Σ n = 0 2 N - 1 x n cos ( π N ( n + 1 2 + N 2 ) ( k + 1 2 ) )
其中,Xk表示MDCT频谱系数,k表示范围在0到N-1之间的频点索引,n表示范围在0到2N-1之间的时间索引。
这表明可将MDCT写为后跟IV型离散余弦变换(DCT)的时域混叠(TDA)运算,IV型离散余弦变换以DCT-IV表示。TDA运算可通过以下矩阵运算得出:
T N = 0 0 - J N 2 - I N 2 I N 2 - J N 2 0 0
其中矩阵表示阶数的恒等式和时间倒转矩阵
and
请注意:由于矩阵TN的行数是列数的一半,所以它是个尺寸为N×2N的矩形矩阵,从而使输出信号的长度为输入信号的一半。
DCT-IV被定义为
X k = Σ n = 0 N - 1 x n cos ( π N ( n + 1 2 ) ( k + 1 2 ) )
DCT-IV是其本身的倒置(达到本方程式中的比例因数)。我们用表示尺寸为N×N的DCT-IV正方形矩阵,该矩阵的元素为:
c kl IV = 2 N cos ( π N ( l + 1 2 ) ( k + 1 2 ) ) c kl IV = 2 N cos ( π N ( l + 1 2 ) ( k + 1 2 ) )
k=0,...,N-1,l=0,...,N-1
归一化因子可确保 C N IV C N IV T = C N IV 2 = I
DCT-IV是其本身的倒置。于是可将MDCT分解为以下因数:
M N = C N IV T N
由于MDCT是一个N×2N矩阵,因此它会将长度为2N的信号块映射到长度为N的频谱上。但是,反向MDCT定义十分明确,因为MDCT不是一对一变换,所谓的反向仅仅是一个伪逆矩阵。事实上,完全重建只能通过使用重叠-相加运算来实现。反向MDCT用以下矩阵定义:
其中是一个尺寸为2N×N的时间矩阵,我们将称之为反向时域混叠,通过以下矩阵得出:
请注意,假设没有对频谱系数执行编码或处理,所有的运算等于将以下变换应用到输入信号:
如上文所述,完全重建只能通过将先前加窗合成信号后半部分和当前加窗合成信号前半部分对应的信号部分重叠并相加来实现。
当采用MDCT作为滤波器组时(例如在音频处理和编码/解码应用中),需要加窗操作才能提取适用于处理和编码的有意义且简洁的信号表达。
在一个矩阵表达式中,加窗操作是应用到输入上的对角矩阵,可通过以下对角权重矩阵得出:
基于MDCT的余弦调制滤波器组更一般的形式可通过允许不同的分析及合成窗口来获得。这也称为双正交滤波器组。这意味着合成窗口被定义为:
该矩阵应用到反向MDCT(IMDCT)操作的输出。
滤波器组的完全重建条件可以概括如下:
fi=μiw2N-1-i,i=0,...,2N-1
μi为双对称数列,该数列的前四分之一可通过以下矩阵得出
μ i = 1 w N + i w N - 1 - i + w 2 N - 1 - i w i , n = 0 , . . . , N 2 - 1
在某些应用中,分析及合成滤波器必须具有完全相同的幅度响应,例如在音频编码器中,窄频分析滤波器(以有效缩减冗余度)和窄频合成滤波器(以有效应用心理听觉模型来减小不相关性)的使用十分重要。此对称性是正交滤波器组固有的,其中分析与合成滤波器互为彼此的时域翻转形式。总的来说,双正交滤波器并不是这样。
对于以后的发展过程,我们希望情况尽可能全面,但仍保留分析频率响应与合成频率响应对称的良好属性。
此条件实际上意味着分析与合成窗口是彼此的时域翻转形式:
fi=w2N-1-i,i=0,...,2N-1
它还意味着分析(或合成)窗口能够证实:
wN+iwN-1-i+w2N-1-iwi=1,
其中,必要的前提条件是μi=1,i=0,...,2N-1。
在下文中,我们假设满足这些条件。使这些条件尽可能全面的目的是为了稍后表明本发明对于一大类MDCT分析与合成窗口(例如包括已知为不对称的低延迟窗口)的适用性,如图8所示。
重叠输入信号帧用2N维矢量表示:
x ( k ) = x 0 ( k ) x 1 ( k ) x 2 ( k ) x 3 ( k ) = x kN x kN + 1 . . . x kN + 2 N - 1 T
请注意重叠输入信号帧用四个片段或子帧(例如先前输入信号帧103的前半部分和后半部分以及当前输入信号帧105的前半部分和后半部分)表示。窗口也可以用对角矩阵的4个分块对角矩阵表示。
W N = W N ( 0 ) 0 0 0 0 W N ( 1 ) 0 0 0 0 W N ( 2 ) 0 0 0 0 W N ( 3 )
加窗和时域混叠运算的N维输出将用u(k)表示:
u ( k ) = r ( k ) s ( k ) = T N W N x ( k ) = 0 0 - J N 2 - I N 2 I N 2 - J N 2 0 0 W N ( 0 ) x 0 ( k ) W N ( 1 ) x 1 ( k ) W N ( 2 ) x 2 ( k ) W N ( 3 ) x 3 ( k )
= - W N ( 3 ) x 3 ( k ) - J N 2 W N ( 2 ) x 2 ( k ) W N ( 0 ) x 0 ( k ) - J N 2 W N ( 1 ) x 1 ( k )
其中矢量r(k)和s(k)分别为上半部分和下半部分,也就是说,这些矢量的维数是N/2。
DCT-IV不需进行任何处理即可取消每个矢量,加窗之前的反向MDCT的输出等于:
“波浪符号”运算意味着时间反转(基本上是通过乘于矩阵)。
对于合成窗口的类似表达:
F N = F N ( 0 ) 0 0 0 0 F N ( 1 ) 0 0 0 0 F N ( 2 ) 0 0 0 0 F N ( 3 )
可证实输出矢量将得出
y ( k ) = y 0 ( k ) y 1 ( k ) y 2 ( k ) y 3 ( k ) = F N ( 0 ) W N ( 0 ) x 0 ( k ) - F N ( 0 ) J N W N ( 1 ) x 1 ( k ) F N ( 1 ) W N ( 1 ) x 1 ( k ) - F N ( 1 ) J N W N ( 0 ) x 0 ( k ) F N ( 2 ) W N ( 2 ) x 2 ( k ) + F N ( 2 ) J N W N ( 3 ) x 3 ( k ) F N ( 3 ) W N ( 3 ) x 3 ( k ) + F N ( 3 ) J N W N ( 2 ) x 2 ( k )
矢量z(k)的完全重建(PR)条件可通过假设分析与合成窗口-WN和FN来轻松验证。
在以上架构的基础上,根据部分实施方案,可以定义一个无混叠窗口,例如加窗工具。在上下文中,无混叠窗口指的是能够生成与任何输入信号没有时间混叠的信号的窗口。
这基本上意味着时间混叠信号:
u ( k ) = r ( k ) s ( k ) = - W N ( 3 ) x 3 ( k ) - J N 2 W N ( 2 ) x 2 ( k ) W N ( 0 ) x 0 ( k ) - J N 2 W N ( 1 ) x 1 ( k )
不包含镜像。
在这点上,根据部分实施方案,窗口的四分之一可能会被设定为零,以便能够实现这点。因此,其中至少一个可能等于零。
无混叠窗口是在频域和时域之间切换与时域和频域之间切换的基本条件。
使用无混叠帧将允许用户使部分重叠区域(例如247和243)无混叠,这将允许在重叠区域上使用诸如时域编码和频域编码结合的方法,例如使用TFD编码(245)。如果重叠区域包含时域混叠,这就不可能实现,因为混叠会破坏时域中信号样本之间的时域相关性,并使时域编码和频域编码之间的重叠区域变得不可用。
根据关于从FD切换到TD的部分实施方式,可以部署以下分析窗口:
W ‾ N = W N ( 0 ) 0 0 0 0 W N ( 1 ) 0 0 0 0 W N ( 2 ) 0 0 0 0 0
该窗口可通过设定获得。为了叙述简便起见,在矩阵上使用一条横线以与普通MDCT加窗矩阵WN相区别。类似地,合成窗口具有以下矩阵形式:
F ‾ N = F N ( 0 ) 0 0 0 0 F N ( 1 ) 0 0 0 0 F N ( 2 ) 0 0 0 0 0
如前文所述,为了确保完全重建,窗口的前半部分:(也就是与第一个或先前输入真103对应的)与先前帧的合成窗口的前半部分关联,例如根据图2E231或如图8窗口801的另一种实施方式所述。也可以在与第一个或先前帧对应的合成窗口的某些部分上进行类似观察。因此,窗口101的前半部分受MDCT窗口231的后半部分限制,并且完全依赖MDCT窗口的形状。本领域技术人员将意识到从时域切换到频域的情况也存在类似的依赖性。因此,仅有的自由参数就是中的窗口元素。
我们来检查时域混叠信号吧:
u ( k ) = r ( k ) s ( k ) = - W N ( 3 ) x 3 ( k ) - J N 2 W N ( 2 ) x 2 ( k ) W N ( 0 ) x 0 ( k ) - J N 2 W N ( 1 ) x 1 ( k ) = - J N 2 W N ( 2 ) x 2 ( k ) W N ( 0 ) x 0 ( k ) - J N 2 W N ( 1 ) x 1 ( k )
将被重叠并相加到先前帧(k-1)的部分为s(k)。无混叠有用信号是 r ( k ) = - J N 2 W N ( 2 ) x 2 ( k ) .
根据部分实施方式,TD编码模式可以尽快启动,同时可能会从窗口的中心(也就是帧边界)开始,以便允许时域编码模式与频域编码模式之间的同步。这可通过将整个矩阵或窗口设定为零来实现,但代价可能是会产生块失真。
为了确保仍尽快启动TD编码模式并保持减轻或消除块失真的能力,如图1所示的窗口101的部分窗口可用于将当前输入信号帧105的第一个子帧加窗。特别是该窗口的重叠区域或区域L,它们会立即开始,因此该窗口的系数从窗口中心之后就开始衰减。
图3显示了关于图1的实施方案的窗口101(粗线)、典型MDCT对称窗口231(虚线)和USAC窗口301(细线)的对比情况。如图3所述,与窗口231和301相比,窗口101的非零系数更少,尤其是第二个或当前帧105的第一个子帧(即长度为2N的重叠输入信号帧的第三个子帧)。因此,根据部分实施方式,可以更快的速度在不同的域之间实现转换。
在下文中,我们将用L表示重叠区域的长度。这意味着部分窗口(即用于将第二个或当前输入信号帧105的第一个子帧加权或加窗的部分窗口)具有M=N/2-L个零系数。这也意味着片段r(k)和u(k)中有N/2-L个零元素。
可以发现:由于矩阵零位于矢量的起点,也就是说
uk=0, k = 0 , . . . , N 2 - L - 1
上一个方程式指明:通过在发生重叠之前做好预防措施,可以快速切换到时域而不会提高数据速率。在这点上,下文将对两种实施方式加以描述。
第一种实施方式的基本原则是保持频率解析度不变并同时仅对频域中的N-L个样本进行编码。剩余的系数将通过插值获得。
第二种实施方式胜过第一种解决方案的方面是:它完全改变了调制方案,从而改变了滤波器组的频率解析度而不会破坏MDCT的完全重建属性。根据第二种实施方式,可以部署一个创造性的变换器,以便频率解析度从MDCT提供的高频谱解析度逐渐改变为全高时域解析度,从而将以介于FD编码模式的全频率解析度到TD编码模式的全时间解析度之间的频率解析度对转换帧进行编码。
根据部分实施方式,还可以执行插值编码,因为时间混叠信号可通过DCT-IV进行处理,以便获取滤波器组的输出。因此,输入u(k)可能很稀疏,而前M=N/2-L个分量则可能为零。u(k)的DCT-IV写为:
v ( k ) = C N IV u ( k ) = C N IV u ( k ) = C N IV 0 . . . 0 u M ( k ) . . . u N - 1 ( k ) = A M IV B M , N - M IV B M , N - M IV T D N - M IV 0 . . . 0 u M ( k ) . . . u N - 1 ( k )
= A M IV B M , N - M IV B M , N - M IV T D N - M IV 0 e ( k )
第二个等式本身定义了DCT-IV矩阵的一个分块矩阵表达式。
矩阵分别是M和N-M阶方。矩阵是尺寸为N×(N-M)的矩形。此外,对称(因为是对称的)。假设为正交的话,我们将得出:
A M IV B M , N - M IV B M , N - M IV T D N - M IV A M IV B M , N - M IV B M , N - M IV T D N - M IV
= A M IV 2 + B M , N - M IV B M , N - M IV T A M IV B M , N - M IV + B M , N - M IV D N - M IV B M , N - M IV T A M IV + D N - M IV B M , N - M IV T B M , N - M IV T B M , N - M IV + D N - M IV 2
= I M 0 0 I N - M
由于矩阵中包含零元素,该矩阵紧跟着为:
v ( k ) = B M , N - M IV D N - M IV e ( k ) = H N , N - M e ( k ) IV
很明显,v(k)包含有关e(k)的冗余信息,矩阵实际上包含一个满秩N-M。在这种情况下,我们仍能保持相同的频率解析度,仅编码部分频谱(例如仅N-M分量),然后给剩余的M分量插值。剩余的M分量通过要求插值N维向量的DCT-IV刚好包含M个零来进行插值。此运算就如同抽取DCT-IV的输出,其中仅部分DCT-IV是适合的并且被编码;剩余部分会被插值并与DFT的补零属性密切相关。
根据部分实施方式,可以通过调制频率更改执行更高的时间解析编码。
特别是,可以使用一种调制而不使用尺寸为N的DCT-IV的调制,该调制中分析、合成滤波器以如下角频率为中心:
ω k = π N - M ( k + 1 2 ) , k = 0 , . . . , N - M - 1
这意味着调制矩阵将写为以下N-M×N分块矩阵:
[0N-M,MCN-M]
该矩阵包含N-M个输出而不是N个输出。实际调制矩阵CN-M为正方形,维度为N-M,而矩阵0N-M,M则是一个包含零的矩形矩阵。将所有矩阵结合到一起可显示提出的改进变换的整体分析基函数,该函数写为:
M ‾ N = [ 0 N - M , M C N - M ] T N W ‾ N
M ‾ N = 0 N - M , M C N - M 0 0 - J N 2 - I N 2 I N 2 - J N 2 0 0 W N ( 0 ) 0 0 0 0 W N ( 1 ) 0 0 0 0 W N ( 2 ) 0 0 0 0 0
= 0 C N - M 0 0 - J N 2 W N ( 2 ) 0 W N ( 0 ) - J N 2 W N ( 1 ) 0 0
如果我们用分量为Xl,l=O,...,N-M的矢量来表示改进变换器的输出,我们将得出:
X k = Σ n = 0 N - M - 1 c kn e n = Σ n = 0 N - M - 1 c kn u n + M = Σ n = M N - 1 c k , n - M u n = Σ n = M N 2 - 1 c k , n - M u n + Σ n = N / 2 N - 1 c k , n - M u n
= - Σ n = M N 2 - 1 c k , n - M w ( 2 ) ( N 2 - 1 - n ) x 2 ( N 2 - 1 - n )
+ Σ n = N / 2 N - 1 c k , n - M { w ( 0 ) ( n - N 2 ) x 0 ( n - N 2 )
- w ( 1 ) ( N - n - 1 ) x 1 ( N - n - 1 ) }
= - Σ n = M N 2 - 1 c k , n - M w ( 2 ) ( N 2 - 1 - n ) x 2 ( N 2 - 1 - n )
+ Σ n = N / 2 N - 1 c k , n - M w ( 0 ) ( n - N 2 ) x 0 ( n - N 2 )
- Σ n = N / 2 N - 1 c k , n - M w ( 1 ) ( N - n - 1 ) x 1 ( N - n - 1 )
如果忽略窗口(为简明起见,我们假设这些窗口被吸收到信号中),我们将得出:
X k = - Σ n = M N 2 - 1 c k , n - M x ( N + N 2 - 1 - n ) + Σ n = N / 2 N - 1 c k , n - M x ( n - N 2 )
- Σ n = N / 2 N - 1 c k , n - M x ( N 2 + N - n - 1 )
= Σ n = 0 N / 2 - 1 c k , n + N / 2 - M x ( n ) - Σ n = N / 2 N - 1 c k , 3 N 2 - n - 1 - M x ( n )
- Σ n = N 3 N / 2 - M - 1 c k , 3 N 2 - 1 - n - M x ( n )
以上方程式采取下述形式:
X k = Σ n = 0 3 N 2 - 1 - M d kn x ( n )
dkn是新的基函数的元素,请注意在此方程式中,输入信号x(n)包含加窗。调制的一般形式为:
d kn = cos ( π K ( k + 1 2 ) n + φ k )
事实上,这意味着我们想要得到位于以下频率的N-M个基函数:
ω k = π K ( k + 1 2 )
这是包含相位期间为φk的余弦调制滤波器组。但是,此函数可允许高频率解析度滤波器组(例如MDCT)与低解析度滤波器组之间的转换。
标识两个方程式的项将在调制矩阵CN-M上生成以下方程式组:
c k , n + N 2 - M = c k , l = cos ( π K ( k + 1 2 ) n + φ k ) , n = 0 , . . . , N 2 - 1 ,
l = N 2 - M , . . . , N - 1 - M
c k , 3 N 2 - 1 - n - M = c k , l = - cos ( π K ( k + 1 2 ) n + φ k ) , n = N 2 , . . . , N - 1 ,
l = N - 1 - M , . . . , N 2 - M
c k , 3 N 2 - 1 - n - M = c k , l = - cos ( π K ( k + 1 2 ) n + φ k ) , n = N , . . . , 3 N 2 - 1 - M ,
l = N 2 - M - 1 , . . . , 0
因此,该矩阵紧跟着为:
c k , n = cos ( π K ( k + 1 2 ) ( n - N 2 + M ) φ k ) , n = N 2 - M , . . . , N - M - 1
c k , n = - cos ( π K ( k + 1 2 ) ( 3 N 2 - 1 - n - M ) φ k ) , n = N 2 - M , . . . , N - M - 1
c k , n = - cos ( π K ( k + 1 2 ) ( 3 N 2 - 1 - n - M ) + φ k ) , n = 0 , . . . , N 2 - M - 1
从第一个方程式,我们可得出有关相位和频率间距的限制。从前两个方程式,我们可明显得出:
cos ( π K ( k + 1 2 ) ( n - N 2 + M ) + φ k ) = - cos ( π K ( k + 1 2 ) ( 3 N 2 - 1 - n - M ) + φ k ) ,
n = N 2 - M , . . . , N - M - 1 , k = 0 , . . . , N - M
由于余弦是约为π的奇数,因此我们将得出
cos ( π K ( k + 1 2 ) ( n - N 2 + M ) + φ k ) = cos ( π K ( k + 1 2 ) ( 3 N 2 - 1 - n - M ) + φ k - π ) ,
n = N 2 - M , . . . , N - M - 1 , k = 0 , . . . , N - M
为了获得(k-)的确定选择,方程式的解法([2π]意味着解法以2π为模)为:
π K ( k + 1 2 ) ( n - N 2 + M ) + φ k = π K ( k + 1 2 ) ( 3 N 2 - 1 - n - M ) + φ k - π [ 2 π ] Or π K ( k + 1 2 ) ( n - N 2 + M ) + φ k = - π K ( k + 1 2 ) ( 3 N 2 - 1 - n - M ) - φ k + π [ 2 π ]
特别是,相位根据一种实施方式被消除。
根据另一种实施方式,可以执行以下方程式组
π K ( k + 1 2 ) n + π K ( k + 1 2 ) ( M - N 2 ) + 2 φ k
= π K ( k + 1 2 ) n + π + π K ( k + 1 2 ) ( M + 1 - 3 N 2 ) [ 2 π ]
我们可看到n消失了,得出
+ 2 φ k = π + π K ( k + 1 2 ) ( N 2 + 1 - 3 N 2 ) [ 2 π ]
φ k = π 2 + π 2 K ( k + 1 2 ) ( 1 - N ) [ π ]
可以使用相位的这个条件,以便确保从时间混叠和调制矩阵得出基函数。从而可实现重叠并添加先前帧,继而实现完全重建。
根据K=N的部分实施方式,相位与长度为2N的MDCT中的相同相位对应。
φ k = π 2 N ( k + 1 2 ) ( 1 - N ) + π 2 [ π ] = π N ( k + 1 2 ) ( N + 1 2 ) - 2 N π N ( k + 1 2 ) + π 2 [ π ]
= π N ( k + 1 2 ) ( N + 1 2 ) - π ( k + 1 2 ) + π 2 [ π ] = π N ( k + 1 2 ) ( N + 1 2 ) [ π ]
d kn = cos ( π K ( k + 1 2 ) n + φ k ) = cos ( π N ( k + 1 2 ) ( n + N + 1 2 ) )
它们是构成参数组的MDCT基函数。
由于相位可能为已定义的模π,因此我们可以选择:
φ k = π 2 + π 2 K ( k + 1 2 ) ( 1 - N ) [ π ] = π K ( k + 1 2 ) ( 1 - N 2 ) + π K ( k + 1 2 ) K [ π ]
= π K ( k + 1 2 ) ( K + 1 - N 2 ) [ π ]
选择主枝将生成以下基函数(即系数组):
d kn = cos ( π K ( k + 1 2 ) ( n + K + 1 - N 2 ) )
没有其他相位限制来自上一组调制方程式。
调制矩阵写为:
c k , n = cos ( π K ( k + 1 2 ) ( n + 1 2 - N + M + K ) ) , n = 0 , . . . , N - M - 1
根据部分实施方案,K可决定基函数的频率间距。请注意我们得到的基函数刚好为N-M个。因此,根据本发明,使用k+M-N=0将导致频率间距为K=N-M,并且满足基函数之间的最大频率间距,同时将生成以下调制矩阵:
c k , n = cos ( π N - M ( k + 1 2 ) ( n + 1 2 ) ) , n = 0 , . . . , N - M - 1
该矩阵是一个DCT-IV,但其长度为N-M,比用于MDCT的长度N短。
这还将转换为创造性的变换,应用到加窗的如下输入信号:
X k = Σ n = 0 3 N 2 - 1 - M d kn x ( n ) ,
其中的系数组由以下得出:
d kn = cos ( π N - M ( k + 1 2 ) ( n + N + 1 2 - M ) ) ,
k = 0 , . . . , N - M - 1 , n = 0 , . . . , 3 N 2 - 1 - M
本领域技术人员可以理解:受本发明约束的反向变换可通过创造性变换的转置轻松实现,该反向变换由以下系数得出:
g nk = cos ( π N - M ( k + 1 2 ) ( n + N + 1 2 - M ) ) ,
n = 0 , . . . , 3 N 2 - 1 - M , k = 0 , . . . , N - M - 1
根据部分实施方式,有一种快速算法可用于计算DCT-IV。此外,还可以获取基函数(其中已定义了振荡)之间的最大频率间距。另外,仅(N-M)个系数需要被变换和编码,从这种意义来讲,最大程度的减少变换。此外,通过构建以实现对先前的MDCT帧或接着的MDCT帧的完全重建来保证变换,先前的MDCT帧或接着的MDCT帧具体取决于窗口实施方式,例如根据图2E,窗口101的前半部分和MDCT窗口231的后半部分或MDCT窗口231的前半部分和窗口235的后半部分。
使用尺寸为N-M的DCT-IV时即可执行上述变换。图4A通过举例显示了在从时域模式转换到频域模式的情况下,如何在切换点实施变换。请注意部署的DCT-IV变换的尺寸已变小。另请注意仅需要为N-M输出进行时间混叠运算,因为大部分输入都被设定为零。至于频谱系数的处理(例如量化和/编码)部分,仅N-M频谱系数被编码。
更具体地说,图4A显示了一个包含以某种实施方式为根据的信号分析器401和处理器409的编码器。分析器401包含加窗工具,该加窗工具用于将输入信号加窗以在从变换域处理转换到时域处理时获取加窗输入信号。信号分析器还包含一个变换器403,该变换器用于将加窗信号变换成变换域(例如变换成频域)。举例来说,变换器403可能包含一个时间混叠器405,用于执行时间混叠运算;和一个调制矩阵407,使用N-M组参数来调制时域分析器405提供的信号,其中每组参数都包含3N/2-M个参数。由调制器407提供变换域信号可提供给编码器的处理器409。处理器409可执行进一步的变换域系数(例如变换域信号值)处理,例如量化和/或编码(数据压缩)。
处理器409提供的已处理信号可存储或传送到如图4B所示的信号合成器411。
图4B的解码器包含一个处理器413和一个信号合成器411。图4B的信号合成器(411)包含一个反向变换器415和一个加窗工具101。处理器413会将变换域信号解码(例如熵解码)。处理器413提供的已解码信号会提供给信号合成器411的反向变换器415,用于反向变换已处理信号(例如在时域模式下)。举例来说,反向变换器包含一个解调器417和一个反向时间混叠器419。解调器417经调整可使用参数组(例如与频率振荡关联的基函数)来解调已处理信号。解调器417可用于执行与调制器407相反的运算。已解调信号可提供正在执行与混叠器405相反的运算的反向时间混叠器419。反向时间混叠器419的输出信号可使用如图4B所述的窗口101进行加窗。对于MDCT使用对称窗口(例如231)的某些实施方式,假如分析器使用窗口235用于在时域处理模式与频域处理模式之间切换,那么信号合成器的加窗工具可以配置成使用与信号分析器相同的窗口(例如窗口101)。在其他实施方式中,MDCT使用不对称窗口。根据图8,分析器可部署一个窗口101,合成器则可部署一个窗口804,以用于从频域处理模式切换到时域处理模式;反之,分析器可部署窗口803,合成器则可部署一个经调整的窗口235,以用于从时域处理模式切换到频域处理模式。
根据涉及从TD切换到FD的部分实施方式,从TD到FD的反向切换刚好是从FD到TD模式的切换的镜像。因此,方程式完全相同,唯一不同的是它们被映射(或时间反转)。
根据部分实施方式,使用新变换来进行切换处理或编码模式时,可执行重叠-相加运算以恢复先前帧(例如构成重叠输入信号帧的第一个信号帧103)。如前文所述,如果未执行任何处理,例如包括量化(导致信号丢失)在内的编码,这将实现先前帧的完全重建。
与窗口的后半部分对应的第二个或当前信号帧105无混叠现象,因此可在TD编码器(例如TFD编码模式245)中有效应用。在其他一些实例中,此合成信号可从位于编码器上的输入信号减去,以便TD编码器仅编码不同的信号,从而重叠-相加运算将添加TD编码器和TFD编码器部分的贡献以及反向变换器的贡献,以在解码器上重建信号。
根据部分实施方式,我们可假设L或M短于CELP子帧的长度。从而重叠区域不会超出一个子帧的尺寸。重叠区域编码的子帧可称为TFD子帧。
在图5、6和7中,描述了由系数组决定的不同基函数的场景。特别是,图5显示了正弦函数例如对尺寸为16的窗口使用八个基函数(即N=8,2N=16)。图6通过举例显示了USAC切换产生的基函数,对尺寸为16的窗口使用八个基函数的结果基函数以获得(即N=8,2N=16)。图7显示了构成系数组(可能被变换器403使用)的基函数。如图7所示,对尺寸为16个样本的窗口,可将用于变换的基函数减为六个(即N=8,2N=16,M=2,N-M=6,3N/2-M=10)。
图5和6中所示的场景指的是从加窗信号上的全MDCT获得的基函数。本文中所讨论的用于创造性变换的基函数如图7所示,我们可从图中看到函数迅速衰减到零以符合快速切换的特点。此外,基函数的个数比USAC基函数少,这意味着频谱系数的个数较少,一般来说,转换时要编码的数据也较少,这对音频编码应用有利。
图8显示了用于在时域处理模式与变换域或频域处理模式之间切换的窗口的部署。在这个实施方案中,用于变换域编码的MDCT分析窗口801与窗口中心不对称。例如,它包含一小部分的零。窗口801是包含一个下降斜坡和一个上升斜坡的低延迟MDCT窗口,下降斜坡短于普通的MDCT正弦窗口下降斜坡。根据MDCT窗口的完全重建条件,MDCT合成窗口802是分析窗口801的时间倒转或对称形式。根据本发明,在分析端,在时域和频域处理或编码模式之间切换时,创造性的加窗工具可为窗口101部署一个与低延迟MDCT分析窗口801的上升斜坡对应的上升斜坡,以便用于从频域处理模式转换到时域处理模式。对于从时域处理模式到频域处理模式的转换,创造性的加窗工具可为窗口803部署一个与低延迟MDCT分析窗口801的下降斜坡对应的下降斜坡。如上文所述,分析端的半个转换窗口的形状受MDCT窗口(对称或不对称MDCT窗口)的对应形状限制,以便允许完全重建。在合成端,在时域和频域处理或编码模式之间切换时,创造性的加窗工具可为合成窗口804部署一个与低延迟MDCT合成窗口802的上升斜坡对应的上升斜坡,以便用于从频域处理模式转换到时域处理模式。另外还可为窗口235部署一个与低延迟MDCT合成窗口802的下降斜坡对应的下降斜坡,以便用于从时域处理模式转换到频域处理模式。对于此类实施方案,转换点的分析与合成窗口的形状不相同,以便确保与对应的低延迟MDCT合成窗口正常重叠。本领域技术人员应明白MDCT窗口(分析与合成)形状的差异对于FD编码器来说表示创造性的加窗工具的形状差异,以便确保未执行任何处理或编码时能够实现完全重建。
根据部分实施方式,低延迟MDCT窗口用于采用MDCT的FD编码模式。低延迟MDCT窗口是不对称MDCT窗口,这种窗口在帧的结尾有一组拖尾零,从而能够缩短预读和延迟。分析与合成窗口是不对称窗口,但是,如WO2009/081003A1所述,它们互为彼此的时域翻转形式。如果使用的是低延迟MDCT窗口,创造性分析窗口在切换时的形状可能与如图8所示稍有不同。配合部署了低延迟MDCT窗口的FD编码器使用本发明可保持拥有一个低延迟FD编码器的优势,从而生成一个整体低延迟切换模式编码器。因此,使用本发明不会使低延迟特色发生任何变化。就这点来说,我们可以部署创造性的加窗工具和变换器用以在基于低延迟MDCT的FD编码器与时域编码之间切换,同时保持这些MDCT窗口的低延迟属性。这是由于在FD编码与TD编码之间切换时,本发明允许解码尺寸达1.5倍的帧。因此,我们仍可以应用本文所述的变换构想,同时保持MDCT滤波器组的低延迟属性。这同样适用于从TD编码切换回频域编码。
图9显示了以某种实施方式为根据的分包方案。如图9所示,信号是逐个帧进行处理的,其中输入信号帧或长度为N的已恢复信号帧的帧边界用垂直点划线描绘。图9的下半部分(分组域)描绘了以本发明为根据的某个编码器(例如图2A的编码器)生成的信息包以及解码器(如图2D所示用于恢复信号的解码器)收到的信息包。上半部分(信号域)显示了在编码器或解码器中窗口部署。在本示例中,由于使用的是对称的MDCT窗口231,因此在编码器中执行的分析窗口的布局与在解码器中执行的合成窗口的布局完全相同。
在下文中,图9描述了一个编码器(以图2A为根据)的实施方案的实施情况。
尺寸为N的第一个和第二个帧(图9从左起)用于构成一个尺寸为2N的重叠输入信号帧,例如通过缓冲并将输入信号帧串联起来。就此第一个重叠输入信号帧而言,第二个输入信号帧构成了第一个当前输入信号帧,第一个输入信号帧则构成了第一个先前输入信号帧。第一个重叠输入信号帧在FD编码模式下使用MDCT窗口231进行编码,并封装成带有“FD模式”标签的第一个信息包901。第二个输入信号帧会被缓冲以编码下一个输入信号帧(即第三个输入信号帧)。
尺寸为N的第二和第三个输入信号帧(图9从左起)用于构成尺寸为2N的第二个重叠输入信号帧,其中第三个输入信号帧构成第二个当前输入信号帧,第二个输入信号帧则构成第二个先前输入信号帧(即第三个输入信号帧之前的那个帧)。由于第二个输入信号帧是采用FD模式编码的而第三个输入信号帧是采用TD模式编码的,因此会检测并触发从FD编码到TD编码的转换。因此,第二个重叠输入信号帧根据图2B使用左边的信号路径进行编码以获得带有“使用新变换的FD模式”标签的信息包部分905;第二个当前输入信号帧则根据图2C使用右边的信号路径进行编码以获得带有“TFD”标签的信息包部分907和带有“CELP”标签的信息包部分909。信息包部分905、907和909会被封装成第二个信息包903。第三个输入信号帧会被缓冲以编码下一个输入信号帧(即第四个输入信号帧)。
第四个输入信号帧将使用TD编码进行编码。因此,会保持TD编码模式,第三和第四个输入信号帧会根据图2C的中央信号路径的相似方式进行处理。已缓冲的第三个输入信号帧(第三个先前信号帧)的后半部分和第四个输入信号帧(第三个当前输入信号帧)的前半部分会被进一步一分为二(尺寸为N的输入信号帧四分之一大小的子帧,即N/4图2C未显示拆分),其中这些子帧的一半使用CELP编码进行TD编码以获得带有“CELP”标签的四个信息包部分。这四个信息包部分会被封装成第三个信息包911。与放入的信息包相关的输入信号帧的输入信号值位移在图9中以箭头显示。
第五个输入信号帧将使用FD编码进行编码。由于第四个输入信号帧是采用TD模式编码的而第五个输入信号帧是采用FD模式编码的,因此会检测并触发从TD编码到FD编码的转换。因此,第三个重叠输入信号值(由第四和第五个输入信号值构成,第五个输入信号值构成当前输入信号帧,第四个输入信号帧则构成第四个先前输入信号帧)会根据图2B使用右边的信号路径进行编码以获得带有“使用新变换的FD模式”标签的信息包部分921;第四个先前输入信号帧的后半部分则会根据图2C使用左边的信号路径进行编码以获得带有“TFD”标签的信息包部分919和带有“CELP”标签的信息包部分917。信息包部分917、919和921会被封装成第四个信息包913。第四个输入信号帧会被缓冲以编码下一个输入信号帧(即第六个输入信号帧)。
第六个输入信号帧将使用FD编码进行编码。因此,会保持FD编码模式,第五和第六个输入信号帧会根据图2B的中央信号路径进行处理(例如使用传统MDCT)。
换言之,举例来说,当第一个信息包901处于频域处理模式时,可以执行频域处理或编码,那时可使用MDCT窗口231。在后续的信息包903中,您可以使用窗口101启动频域编码与时域编码之间的转换。举例来说,一个音频解码器可以通过实施如本文所述的创造性窗口函数和反向变换,在频域模式下处理与收到的信息包903的FD编码模式对应的比特流部分905;还可以预先在时域模式下处理TFD比特流907和CELP比特流909。在后续的信息包911中,可以在CELP比特流上执行时域解码。此外,在下一个信息包913中,可以使用窗口235启动从时域到频域的转换,然后继续以相似的方式启动从频域到时域的转换。接着,在频域模式下,可以使用MDCT窗口231进行MDCT加窗和进行频域处理。
如图9所示的分包方案可实现高效的分包并保持TD与FD编码之间的同步。同步意味着帧将从某个预定的帧尺寸的倍数开始,在这种情况下即为N的倍数。
根据部分实施方式,分包方案可为TD和FD编解码器保留相同的帧边界,如图9所示。因此在一个编解码器与另一个编解码器之间切换不会导致更多延迟。
根据图2C245,采用TFD编码器所消耗的位元比编码一个完整CELP子帧所消耗的位元少(假设为少50%),于是在进行切换时,我们能够将与转换变换905对应的比特流以及采用TFD模式编码的907和下一个帧的第一个CELP子帧909放入一个信息包中。因此,与仅解码一个信号帧(即N个时域样本)相比,我们可以在解码器上解码并合成1.5个信号帧(即N+N/2个时域样本)。虽然解码并不是强制性的,但额外的N/2个信号样本将被缓冲并用于下一个帧,从而使FD编解码器能够进行延迟跳转,由于一个MDCT受重叠-相加运算所限而仅能解码一个帧,转换回到FD编码模式时将有N/2个额外的缓冲时域输出样本可用,因为信息包913包含的比特流仅允许解码N/2个样本。这种分包布置对保持时域和频域编码模式之间的同步有利。在USAC中,无法同步,切换回原来的模式之后将再次恢复同步。在我们讨论的情况中,同步始终不会丢失。这仅存在可能性而已,因为本文所述的时域变换允许减少需要编码的数据的数量,从而能够腾出比特率(在恒定比特率运算的情况下,即恒定信息包大小)用于编码TFD子帧和第一个CELP子帧。在某些实施方式中,TFD子帧仅仅是一个特殊的CELP子帧。
我们应注意:对于CELP编码,部分参数会在各个子帧之间共享。我们需要采取特别措施,以便一旦信息包丢失,两个帧的LPC滤波器不会丢失。
根据部分实施方式,本文所述的变换可用于在时域和频域编码方案之间切换的情况。这可使频率解析度适度降低并使FD和TD编解码器之间的时间解析度适度提高。变换本身可通过使用一个DCT-IV来有效实施。
根据部分实施方式,尽量减少变换,因此与现有技术完全不同。不会增加额外的数据。作为一个滤波器组,这种变换的阐述方式精确而又简洁,其频率解析度的精确性比MDCT长变换低。
使用这种变换可快速高效地切换到时域编码。变换还可以为TD和FD编解码器多路复用生成奇特的分包。因此TD和FD编解码器能够共享相同的帧边界并保持完全同步。变换还可在TD和FD编解码器上有效分配比特率,尤其是在转换点。
根据部分实施方式,该方案对低延迟MDCT窗口没有影响。由于切换时有大量的缓冲预读(允许解码多达1.5个帧)可用,因此新的切换构想与低延迟MDCT窗口的背景十分相符。

Claims (20)

1.一种音频信号分析器(401),用于处理包含2N个连续输入信号值的重叠输入信号帧(103和105),其中信号分析器(401)包含:
一个加窗工具,用于对重叠输入信号帧加窗(101、235、803),从而获得加窗信号,该加窗工具用于将重叠输入信号帧的M+N/2个连续输入信号值置零,其中M等于或大于1且小于N/2;以及
一个变换器(403),用于使用N-M组变换参数来变换加窗信号剩余的3N/2-M个连续加窗信号值,从而获得包含N-M个变换域信号值的变换域信号。
2.根据权利要求1的音频信号分析器(401),其中加窗工具应用到重叠输入信号帧的窗口(101、235、803)包含M+N/2个等于0的连续系数,或者,加窗工具用于截断M+N/2个连续输入信号值。
3.根据权利要求1或2的音频信号分析器(401),其中重叠输入信号帧由两个连续输入信号帧(103、105)构成,这两个连续输入信号帧分别具有N个连续输入信号值。
4.根据权利要求1至3其中任意一个的音频信号分析器(401),其中N-M组反向变换参数的每一组代表某个特定频率下的一次振荡,两次振荡之间的间距,尤其是频率间距,取决于N-M。
5.根据权利要求1至4其中任意一个的音频信号分析器(401),其中变换参数组包含时域混叠运算(405)。
6.根据权利要求1至5其中任意一个的音频信号分析器(401),其中变换参数组由以下公式决定:
d k n = cos ( π N - M ( k + 1 2 ) ( n + N + 1 2 - M ) ) , k = 0 , ... , N - M - 1 , n = 0 , ... , 3 N 2 - 1 - M ,
其中k为组索引,表示N-M组变换参数的其中一组,n表示对应的变换参数组的其中一个变换参数,dkn表示由n和k指定的变换参数。
7.根据权利要求1至6其中任意一个的音频信号分析器(401),其中信号分析器(401)具有时域处理模式(213)和变换域处理模式(211),
其中加窗工具用于当收到转换指示标识219,从变换域处理模式切换到时域处理模式时,使用由N个系数构成一个上升斜坡107和N/2-M个系数构成作为变换域处理模式一部分的一个下降斜坡109组成的窗口101将重叠输入信号帧加窗;和/或
加窗工具用于当收到转换指示标识219,从时域处理模式切换到变换域处理模式时,使用由N/2-M个系数构成一个上升斜坡和N个系数构成作为变换域处理模式一部分的一个下降斜坡组成的窗口(235、803)将重叠输入信号帧加窗。
8.根据权利要求1至7其中任意一个的音频信号分析器(401),其中重叠输入信号帧由一个当前输入信号帧(105)和一个先前输入信号帧(103)构成,这两个输入信号帧分别具有N个连续输入信号值,信号分析器(401)具有时域处理模式(213)和变换域处理模式(211),该信号分析器进一步用于
当收到转换指示标识219从变换域处理模式切换到时域处理模式时,根据时域处理模式239、241、237、245至少处理一部分当前输入信号帧;和/或
当收到转换指示标识219从时域处理模式切换到变换域处理模式时,根据时域处理模式239、241、237、245至少处理一部分先前输入信号帧。
9.根据权利要求1至8其中任意一个的音频信号分析器(401),其中信号分析器是一个音频信号分析器(401),输入信号则是时域模式下的一个音频输入信号。
10.一种音频信号合成器(411),用于处理包含N-M个变换域信号值的变换域信号,其中M大于1且小于N/2信号合成器(411)包含:
一个反向变换器(415),用于使用3N/2-M组反向变换参数将N-M个变换域信号值反向变换,从而获得3N/2-M个反向变换域信号值;以及
一个加窗工具,用于使用包含3N/2-M个系数的窗口(101、235、804)将3N/2-M个反向变换域信号值加窗,从而获得包含3N/2-M个加窗信号值的加窗信号,其中3N/2-M个系数包含至少N/2个连续的非零窗口系数。
11.根据权利要求10的音频信号合成器(411),其中3N/2-M组反向变换参数的每一组代表某个特定频率下的一次振荡,两次振荡之间的间距,尤其是频率间距,取决于N-M。
12.根据权利要求10或11的音频信号合成器(411),其中反向变换参数组包含反向时域混叠运算(419)。
13.根据权利要求10至12其中任意一个的音频信号合成器(411),其中反向变换参数组由以下公式决定:
g k n = cos ( π N - M ( k + 1 2 ) ( n + N + 1 2 - M ) ) , n = 0 , ... , 3 N 2 - 1 - M , k = 0 , ... , N - M - 1
其中n为组索引,表示3N/2-M组反向变换参数的其中一组,k表示对应的反向变换参数组的其中一个反向变换参数,gkn表示由n和k指定的反向变换参数。
14.根据权利要求10至13其中任意一个的音频信号合成器(411),其中信号合成器还包含:
一个重叠-加法器,用于将加窗信号和另一个加窗信号重叠并相加,从而获取包含至少N个输出信号值的输出信号。
15.根据权利要求10至14其中任意一个的音频信号合成器(411),其中信号合成器(411)具有时域处理模式(251)和变换域处理模式(249),
其中加窗工具用于当收到指示标识219,从变换域处理模式切换到时域处理模式时,使用由N个连续系数构成的一个上升斜坡107)和N/2-M个系数构成的一个下降斜坡组成的窗口(101、804)将反向变换域信号加窗;和/或
加窗工具用于当收到转换指示标识219,从时域处理模式切换到变换域处理模式时,使用具有N/2-M个系数构成的一个上升斜坡和N个系数构成的一个下降斜坡组成的窗口(235)将反向变换域信号加窗。
16.根据权利要求10至15其中任意一个的音频信号合成器(411),该信号合成器是一个音频信号合成器,其中变换域信号是一个频域信号,反向变换域信号则是一个时域音频信号。
17.一种音频信号分析方法,用于处理包含2N个连续输入信号值的重叠输入信号帧(103和105),该信号分析方法包含以下步骤:
将重叠输入信号帧加窗以获得加窗信号,加窗(101、235、803)包括将重叠输入信号帧的M+N/2个连续输入信号值置零,其中M等于或大于1且小于N/2;以及
使用N-M组变换参数来变换加窗信号剩余的3N/2-M个连续加窗信号值,从而获得包含N-M个变换域信号值的变换域信号。
18.一种音频信号合成方法,用于处理包含N-M个变换域信号值的变换域信号,其中M等于或大于1且小于N/2,信号合成方法包括以下步骤:
使用3N/2-M组反向变换参数将N-M个变换域信号值反向变换,从而获得3N/2-M个反向变换域信号值;以及
使用包含3N/2-M个系数的窗口(101、235、804)将3N/2-M个反向变换域信号值加窗,从而获得包含3N/2-M个加窗信号值的加窗信号,其中3N/2-M个系数包含至少N/2个连续非零窗口系数。
19.一个音频信号变换器(403),用于变换一个重叠输入信号帧(103、105),该变换器(403)用于使用N-M组变换参数来变换重叠输入信号帧的3N/2-M个连续输入信号值,从而获得包含N-M个变换域信号值的变换域信号。
20.一个音频信号反向变换器(415),用于反向变换变换域信号,该变换域信号具有N-M个值,该反向变换器(415)用于使用3N/2-M组反向变换参数将N-M个变换域信号值反向变换成3N/2-M个反向变换域信号值。
CN201080069629.1A 2010-10-15 2010-10-15 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器 Active CN103282958B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/077794 WO2012048472A1 (en) 2010-10-15 2010-10-15 Signal analyzer, signal analyzing method, signal synthesizer, signal synthesizing method, windower, transformer and inverse transformer

Publications (2)

Publication Number Publication Date
CN103282958A CN103282958A (zh) 2013-09-04
CN103282958B true CN103282958B (zh) 2016-03-30

Family

ID=45937835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080069629.1A Active CN103282958B (zh) 2010-10-15 2010-10-15 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器

Country Status (4)

Country Link
US (1) US8682645B2 (zh)
EP (1) EP2619758B1 (zh)
CN (1) CN103282958B (zh)
WO (1) WO2012048472A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5551693B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
BR112012009445B1 (pt) 2009-10-20 2023-02-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método para codificar uma informação de áudio, método para decodificar uma informação de áudio que utiliza uma detecção de um grupo de valores espectrais previamente decodificados
CN102859583B (zh) 2010-01-12 2014-09-10 弗劳恩霍弗实用研究促进协会 利用对数值先前脉络值的数字表示之修改的音频编码器、音频解码器、编码音频信息的方法及解码音频信息的方法
US9712829B2 (en) 2013-11-22 2017-07-18 Google Inc. Implementation design for hybrid transform coding scheme
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US9668074B2 (en) * 2014-08-01 2017-05-30 Litepoint Corporation Isolation, extraction and evaluation of transient distortions from a composite signal
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US9959877B2 (en) * 2016-03-18 2018-05-01 Qualcomm Incorporated Multi channel coding
WO2018201113A1 (en) 2017-04-28 2018-11-01 Dts, Inc. Audio coder window and transform implementations
WO2019079890A1 (en) * 2017-10-27 2019-05-02 Quantropi Inc. METHODS AND SYSTEMS FOR SECURE DATA COMMUNICATION
US11323247B2 (en) 2017-10-27 2022-05-03 Quantropi Inc. Methods and systems for secure data communication
CN110830884B (zh) * 2018-08-08 2021-06-25 瑞昱半导体股份有限公司 音频处理方法与音频均衡器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1276903A (zh) * 1997-10-17 2000-12-13 多尔拜实验特许公司 采用附加的滤波器阵列在帧边界处衰减混叠伪差的基于帧的音频编码
CN1312976A (zh) * 1998-05-27 2001-09-12 微软公司 用于屏蔽音频信号量化噪声的系统和方法
CN101611440A (zh) * 2007-01-05 2009-12-23 法国电信 一种使用加权窗的低延时变换编码

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE59002219D1 (de) * 1989-05-17 1993-09-09 Telefunken Fernseh & Rundfunk Verfahren zur uebertragung eines signals.
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
JP2001285073A (ja) * 2000-03-29 2001-10-12 Sony Corp 信号処理装置及び方法
US7243060B2 (en) * 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
US7251322B2 (en) * 2003-10-24 2007-07-31 Microsoft Corporation Systems and methods for echo cancellation with arbitrary playback sampling rates
ES2291877T3 (es) * 2004-05-17 2008-03-01 Nokia Corporation Codificacion de audio con diferentes modelos de codificacion.
KR100681258B1 (ko) * 2004-10-02 2007-02-09 삼성전자주식회사 트랜스코딩을 위한 움직임벡터 정밀화 기반 출력움직임벡터 추정방법 및 이를 이용한 트랜스코더
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
MX2010001763A (es) * 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable.
PT2410521T (pt) * 2008-07-11 2018-01-09 Fraunhofer Ges Forschung Codificador de sinal de áudio, método para gerar um sinal de áudio e programa de computador
MY159110A (en) * 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
JP5551693B2 (ja) 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
US8306136B2 (en) * 2009-10-22 2012-11-06 Thales Canada Inc. Communications system utilizing orthogonal linear frequency modulated waveforms

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1276903A (zh) * 1997-10-17 2000-12-13 多尔拜实验特许公司 采用附加的滤波器阵列在帧边界处衰减混叠伪差的基于帧的音频编码
CN1312976A (zh) * 1998-05-27 2001-09-12 微软公司 用于屏蔽音频信号量化噪声的系统和方法
CN101611440A (zh) * 2007-01-05 2009-12-23 法国电信 一种使用加权窗的低延时变换编码

Also Published As

Publication number Publication date
EP2619758A1 (en) 2013-07-31
EP2619758A4 (en) 2013-08-21
US20130268264A1 (en) 2013-10-10
WO2012048472A1 (en) 2012-04-19
US8682645B2 (en) 2014-03-25
CN103282958A (zh) 2013-09-04
EP2619758B1 (en) 2015-08-19

Similar Documents

Publication Publication Date Title
CN103282958B (zh) 信号分析器、信号分析方法、信号合成器、信号合成方法、变换器和反向变换器
CN1878001B (zh) 对音频数据编码及解码的设备及方法
CN101925950B (zh) 音频编码器和解码器
CN103329197B (zh) 用于反相声道的改进的立体声参数编码/解码
KR101238239B1 (ko) 인코더
KR100561869B1 (ko) 무손실 오디오 부호화/복호화 방법 및 장치
US8861738B2 (en) Method, medium, and system encoding/decoding multi-channel signal
CN101568959B (zh) 用带宽扩展进行编码和/或解码的方法
KR102209837B1 (ko) Mdct기반의 코더와 이종의 코더 간 변환에서의 인코딩 장치 및 디코딩 장치
US20070078646A1 (en) Method and apparatus to encode/decode audio signal
JP3317470B2 (ja) 音響信号符号化方法、音響信号復号化方法
CN101223577A (zh) 对低比特率音频信号进行编码/解码的方法和设备
US6629078B1 (en) Apparatus and method of coding a mono signal and stereo information
CN102394066A (zh) 语音编码装置、解码装置和语音编码方法、解码方法
US20070040709A1 (en) Scalable audio encoding and/or decoding method and apparatus
KR20100007738A (ko) 음성/오디오 통합 신호의 부호화/복호화 장치
CN104718572A (zh) 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置
KR950009669A (ko) 신호 인코딩 또는 디코딩 장치와 레코딩 매체
JPH09252254A (ja) オーディオ復号装置
KR20160015280A (ko) 오디오 신호 인코더
WO2019216187A1 (ja) ピッチ強調装置、その方法、およびプログラム
JP6094322B2 (ja) 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
US20120123788A1 (en) Coding method, decoding method, and device and program using the methods
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
CN107545900B (zh) 带宽扩展编码和解码中高频弦信号生成的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210423

Address after: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040

Patentee after: Honor Device Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.