CN101611440B - 一种使用加权窗的低延时变换编码的方法 - Google Patents

一种使用加权窗的低延时变换编码的方法 Download PDF

Info

Publication number
CN101611440B
CN101611440B CN200780051256.3A CN200780051256A CN101611440B CN 101611440 B CN101611440 B CN 101611440B CN 200780051256 A CN200780051256 A CN 200780051256A CN 101611440 B CN101611440 B CN 101611440B
Authority
CN
China
Prior art keywords
window
sampling
frame
weighting function
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200780051256.3A
Other languages
English (en)
Other versions
CN101611440A (zh
Inventor
巴拉兹·科维斯
大卫·维赫特
派瑞克·菲利普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FR0702768A external-priority patent/FR2911228A1/fr
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN101611440A publication Critical patent/CN101611440A/zh
Application granted granted Critical
Publication of CN101611440B publication Critical patent/CN101611440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种数字音频信号的变换编码/解码,该信号表现为连续帧,该连续帧使用不同长度的窗进行编码。为了执行根据本发明的编码,需要在当前帧(Ti)中检测(51)特定事件,例如:干扰;以及,至少当特定事件在当前帧的开始处(53)被检测到时,短窗(54)被直接使用,为当前帧(Ti)进行编码(56),并且不使用转换窗。因此,该编码降低了现有技术中所涉及的延时。此外,一个特殊处理在解码中被应用,使得在编码过程中,对从长窗直接转化到短窗进行补偿。

Description

一种使用加权窗的低延时变换编码的方法
技术领域
本发明涉及一种数字音频信号的编码/解码。
背景技术
在变换编码模式中,为了降低数据率,通常设法降低采样编码的精确度,同时仍然需要确保接收器感知到尽可能低的退化的程度(degree of degradation)。
为此目的,使用一种心理声学模型(psychoacoustic model)对通过量化操作实现的精确度的降低进行控制。该模型基于人耳特性的相关知识,使得在最低可感知听觉频率(least-perceptible auditory frequency)中调节量化噪声(quantification noise)成为可能。
为了使用从心理声学模型获得的数据,实质上是在频域中的数据,常规作法是进行时/频变换(time/frequency transform),并在频域上实施量化。
图1示出了一个变换编码器的结构,包括:
-分析滤波器FA1,...,FAn组BA,干扰输入信号X;
-量化模块Q,其后是编码模块COD;以及
-合成滤波器FS1,...,FSn组BS,其对已编码信号X′进行传送。
为了在传输前降低数据率,对已量化频域采样进行编码,通常使用一种称之为“熵”(entropic)(无损编码,lossless coding)的编码方式。量化可以用标准方式进行,通过一致或不一致的纯量计数器(scalar quantifier),或者通过向量计数器(vectorial quantifier)。
在量化步骤中引入的噪音被合成滤波器组(也被称为“逆变换”)锐化(shaped)。因此,必须选取与分析变换相关联的该逆变换以通过频域或时域方式有效压缩量化噪音,避免量化噪音变为可听见。
分析变换必须尽可能地压缩信号能量(signal energy),以允许在变换域内容易地进行采样编码。特别地,依赖于输入信号的变换编码增益必须尽可能的最大化。为此目的,可以使用关系式:
SNR=GTC+K·R
其中,K是常数项,优选地,其值为6.02。
这样,所获得的信噪比(SNR)与每个所选定的采样(R)的比特数(number of bits)成比例,其随分量GTC而增长,分量GTC表示变换编码增益。编码增益越大,重构质量(reconstruction quality)越高。
所以,变换编码的重要性可以被理解。因为它能压缩信号能量(通过分析部分),以及压缩量化噪音(通过合成部分),所以其允许容易地进行采样编码。
众所周知,由于音频信号是非平稳(non-stationary)的,在时间上实时采用时域/频域变换,并作为音频信号的自然特性的函数。
下面将描述一些标准编码技术的应用。
在调制变换中,标准音频编码技术集成了余弦调制滤波器组,这使得运用基于余弦变换或快速傅里叶变换的快速算法执行这些编码技术成为可能。
在这类变换中,最常用的变换(特别是在MP3,MPEG-2和MPEG-4 AAC编码中)是MDCT变换(Modified Discrete CosineTransform,修正离散余弦变换),其表达式如下:
X k t = Σ n = 0 2 M - 1 x n + tM p k ( n ) 0≤k<M
其中符号含义如下:
●M代表变换的大小;
●xn+tM是在时段n+tM内,数字化声音在周期
Figure GSB00000657929900022
(采样频率的倒数)中的采样;
●t为帧索引;
Figure GSB00000657929900023
是在变换域中帧t的采样;
p k ( n ) = 2 M h ( n ) cos [ π 4 M ( 2 n + 1 + M ) ( 2 k + 1 ) ] 是变换的基础函数(basefunction),其中h(n)被称为大小为2M的原型滤波器。
为了重构初始时域采样,使用下述逆变换以重构采样0≤n≤M-1:
x ^ n + tM = Σ k = 0 M - 1 [ X k t + 1 p k ( n ) + X k t p k ( n + M ) ]
参考图1a,重构执行如下:
●对采样
Figure GSB00000657929900033
进行逆DCT变换(以下记为DCT-1),以产生2M个采样;
●对采样
Figure GSB00000657929900034
进行逆DCT变换,以产生2M个采样,第一组M个采样具有与前一帧的最后M个采样具有相同的时序支持(temporal support);
●通过合成窗h(M+n)对帧Ti的后半部分(second half)(最后M个采样)进行加权,并且通过合成窗h(n)对所述后一帧Ti+1的前半部分(第一组M个采样)进行加权;以及
●对已进行窗操作的部分在共同支持上(common support)进行相加。
为了确保信号(在
Figure GSB00000657929900035
的情况下)的准确重构(称之为完全重构),适当的做法是选择一个符合多个限制条件的原型窗h(n)。
典型地,满足下述关系式以便得到完全重构:
h ( 2 M - 1 - n ) = h ( n ) h 2 ( n ) + h 2 ( n + M ) = 1
其中,该窗相对于中心采样具有偶对称。
符合这两个简单的限制条件相对容易,并且为此,一个标准原型滤波器通过一个正弦窗(sinusoidal window)组成,该窗表述如下:
h ( n ) = sin [ π 2 M ( n + 0.5 ) ]
当然,其它形式的原型滤波器也存在,例如在MPEG-4标准中规定的、名为“Kaiser Bessel Derived”(或KBD)的窗,或低重叠窗(lowoverlap window)。
图1a示出了运用长窗、通过MDCT变换进行的一个例子。在该图中:
-有箭头的虚线表示减法;
-有箭头的实线表示加法;
-有箭头的点划线表示编码的DCT过程和解码DEC的DCT-1过程,该DCT项对应于上述给定的基础函数的一个余弦项;
-待编码的信号的采样在一个标注为xin的流(flow)中,并且图1b中圈出(circled)和标记为a和b以及图1c中圈出标记为e和f的特定采样的所述编码/解码处理随之被执行;
-采样xin按帧进行分组,当前帧被标注为Ti,该帧之前和之后的帧被分别标注为Ti-1和Ti+1
-标注DEC和解码器所执行的处理有关(使用具有加法重构的合成窗FS);
-分析窗被标注为FA,以及合成窗被标注为FS;
-n是窗的中点至采样a的距离。
标注calcT’i涉及已编码帧T’i的计算,该计算使用分析窗FA以及帧Ti-1和Ti各自的采样。在此,图1a简单示出了一个常规实施例。例如,也可以决定对帧Ti和Ti+1进行索引以计算已编码帧T’i。根据图1a所示的实施例,标注calc T’i+1涉及已被编码帧T’i+1的计算,该计算使用帧Ti和Ti+1各自的采样。
在变换DCT和逆变换DCT-1之前获得的v1和v2项可通过如下类型的方程式获得:
v1=a*h(M+n)+b*h(2*M-1-n),
以及
v2=b*h(M-1-n)-a*h(n)
这样,在整个DCT/DCT-1处理和合成窗之后,重构项a’和b’可表示为:
a′=v1*h(M+n)-v2*h(n)=
a*h(M+n)*h(M+n)+b*h(2*M-1-n)*h(M+n)-b*h(M-1-n)*h(n)+a*h(n)*h(n),以及
b′=v1*h(2*M-1-n)+v2*h(M-1-n)=
a*h(M+n)*h(2M-n-1)+b*h(2*M-1-n-1)*h(2M-n-1)+b*h(M-1-n)*h(M-1-n)-a*h(n)*h(M-1-n)
并且因此可以验证重构是否是完全的(a’=a以及b’=b)。(通过使用所述关系式(1)以及推论h(M-1-n)=h(n+M))
上述MDCT变换的原理能够自然延用至被称为ELT的变换(Extended Lapped Transform,扩展重叠变换),其中基础函数的阶数比变换的大小大两倍,特别是:
X k t = Σ n = 0 L - 1 x n + tM p k ( n ) 0≤k<M  L=2KM
其中K是大于2的正整数。
对于重构,不同于MDCT变换需要连接两个连续帧,采样的合成涉及K个已进行窗操作的(windowsed)连续帧。
另外,被指出的是,窗对称的限制(原理将在下文中进行详述)可为ELT型变换放宽。分析和合成窗之间的一致性的限制也可以被放宽,允许使用双正交滤波器项。
考虑到需要为待编码信号调整变换,现有技术允许被称为“窗变换”操作,即随时间改变而改变变换的大小。
特别地,改变窗长度的必要性可以在下述实施例中得到证明。
当待编码信号,例如一语言信号,包含一个短暂的(非平稳)信号,该信号具有一较强的干扰(strong attack)的特征时(例如具有语言信号中爆破音特征的“ta”或“pa”的发音),可以适当增加编码的时间分辨率(temporal resolution),并且因此减小编码窗的大小,所以需要从长窗(long window)转化为短窗(short window)。更确切地,在现有技术中,所述转化先是从长窗(下文将描述的图2a)转化为转化窗(下文将描述的图2c),再转化为一系列短窗(下文将描述的图2b)。所以如下文所详述的,在确定当前帧的所述编码窗的长度、并且据此进行当前帧的编码之前,有必要对至少一个后续帧上的干扰进行预测。
下文将对根据现有技术的一个改变窗的长度的例子进行描述。
一个典型例子是如MPEG-AAC标准所定义的那样,将MDCT变换的大小由M转化为M/8。
为保持完全重构的特性,当进行两个大小的转化时,上述方程式(1)必须用下述公式进行替换:
Figure GSB00000657929900061
此外,不同大小的连续原型滤波器的关系式被给出:
h1(M+M/2-Ms/2+n)=h2(Ms-n)0≤n<Ms
因此,在进行转化时,关于大小M/2存在对称性。
图2a至2e示出了不同类型的窗,分别为:
-图2a示出了大小为2M=512采样的正弦窗(对称正弦函数);
-图2b示出了大小为2M=64采样的正弦窗(对称正弦函数);
-图2c示出了能够使得大小从512转化为64的转化窗;
-图2d示出了能够使得大小从64转化为512的转化窗;以及
-图2e示出了使用前述基础窗进行的构建的一个实施例。
每一个序列(succession)具有一个预先确定“长度”,定义了所谓的“窗长度”。因此,如图1a所示,待编码的采样被组合,至少成对地进行,并且在该组合过程中,通过窗的各自的加权值进行加权。
更特别地,正弦窗(图2a和图2b)是对称的,即在形成窗的连续的值中间处的中心值两边的加权值大致相等。一个优选实施例包括选择“正弦”函数,用于定义这些窗的加权值变量。选择其它窗也是可能的(例如那些在MPEG AAC编码器中使用的窗)。
然而,可以看出转化窗(图2c和2d)是不对称的,并且包括一个“平坦(flat)”区域(标注PLA),这意味着在这些区域的加权值是最大的,例如等于“1”。如图1b和1c所示,通过使用一个转化窗把长窗转化为短窗(图2c),包括采样a的两个采样(在图1b所示的例子中)简单的通过因子(factor)“1”进行加权,而采样b在已被编码帧T’i的计算中通过因子“0”进行加权,使得这两个包括采样a的采样可以简单地被传送,如同它们在已被编码帧T’i中(除了DCT以外)。
在下文中对在编码系统中使用可变大小的变换进行阐述。在用于重构音频采样的解码器层面上也将对相关操作进行阐述。
在标准系统中,编码器通常随时间选择使用的变换。因此在AAC标准中,编码器传送两比特(bits),使得选择上述四个窗大小配置中的一种成为可能。
图1b和1c示出了使用转化窗(长-短)的MDCT变换处理过程。这些图示出的计算,以与图1a所示相同的方式执行。
在图1b和1c中,仅示出了一些短分析窗,被标注为FA(在示出的实施例中,Ms=M/2)。而实际上,如图2e所示,提供了一系列多个短窗(典型地,Ms=M/8)。因此,可以理解图1b和1c中的每个窗FA实际上包括一系列的短窗。
用于计算已编码帧T’i(标注为calc T’i)的转化窗FTA(如图1b)包括:
-超出M个采样的一个长半窗(long half-window),在其上升沿;以及
-在其下降沿:
ο超出(M/2-Ms/2)采样的第一平坦区域PLA(其加权值等于1);
ο超出Ms采样的下降(falling)短半窗(short half-window);以及
ο超出(M/2-Ms/2)采样的第二平坦区域(其加权值等于1)。
为计算随后的已编码帧T’i+1(标注为calc T’i),第一部分的(M/2-Ms/2)采样被忽略,并且因此不通过短窗进行处理,随后的Ms个采样通过如图1b和1c所示的短分析窗的上升沿进行加权,并且随后的Ms个采样通过其下降沿进行加权。
下述标号使用如下:
-M是长帧的大小;
-Ms是短帧的大小。
在图1b中,为了与针对长窗的计算进行对比,采样b仅使用短窗进行合成。然后,由于长-短转化半窗(long-short transitionhalf-window)的特殊形式,采样a直接通过分析和合成转化窗进行重构。该转化窗在图1b和1c中被标注为FTA。
在图1c中,计算对应于位于长-短窗和短窗之间的转化区域(transition zone)的采样。通过对比图1a针对长窗的计算,在此跟着对标注为e和f的采样(被圈出)的处理过程。
下文将描述窗转化情形的两个实施例。
在第一实施例中,检测到一个干扰,要求在音频信号的时间t=720时(图2e)使用短窗。编码器必须通知解码器在先前使用的长窗和随后的短窗之间将插入使用长-短转化窗。
这样,编码器指示解码器的序列:
●长窗
●长-短转化窗
●短窗
●长-短转化窗
●长窗
然后,解码器应用如下类型的关系式:
x ^ n + tM = Σ k = 0 M - 1 [ X k t + 1 p l k ( n ) + X k t p s k ( n + M ) ]
其中
Figure GSB00000657929900082
Figure GSB00000657929900083
表示在时间t和t+1的变换的合成函数,这两个函数可以彼此不同。
除非基底函数(basis function)
Figure GSB00000657929900084
Figure GSB00000657929900085
具有不同“大小”,可以按照如前所述执行重构,然后参考图1b,执行下述步骤:
●对采样
Figure GSB00000657929900091
进行大小为M的逆DCT变换,以产生2M个采样;
●对采样
Figure GSB00000657929900092
进行大小为Ms的逆DCT变换,以产生2Ms个采样,第一组Ms个采样在重叠区上具有长度为Ms的共同时间支持(common time support),该重叠区包括短窗的上升部分,以及具有从对转化窗FTA的下降部分进行大小为M的逆DCT变换所获得的采样;
●对第一个半帧(first half),与转化窗FTA和图1b中标注为FTS的双合成窗进行相乘,以及对第二个半帧(second half),与短合成窗进行相乘;以及
●这些在重叠区上的已进行窗操作的分量进行相加,时间支持对应于初始帧Ti的最后部分。
因此,解码器服从于编码器,并且可靠地应用由编码器决定的窗的类型。
在该第一实施例中,在第一帧的采样到达过程中,编码器检测到一个转换(例如,图2e中的帧1,包括时间t=512和t=767之间的采样)。然后,编码器决定当前窗必须是一个长-短转化窗,编码、发送以及将信号传递给解码器。然后在采样t=624和t=911之间依次应用八个短窗。因此,在转化时(t=720),编码器使用短窗,其允许一个改进的信号的时间表达。
在第二实施例中,在采样t=540处,监测到一个转化。当编码器接收到第一帧(例如,图2e中的帧0)的采样时,它未检测到一个转化,并且因此选择长窗。在随后的第二帧(图2e所示实施例中的帧1)的采样到达过程中,编码器检测到一个干扰(在时间t=540处)。然后,在此情况下,该检测执行得太晚,并且在所述干扰的时刻,转化窗的使用并不能从使用短时支持(short time support)(短窗)中获益。然后,编码器必须预期到短窗的使用,并由此插入至少对应于M/2个采样的附加编码时延。
因此,可以理解现有技术的一个缺点为,其必须向编码器引入一额外的时延,以使得在一随后的帧的时间信号中能够检测到干扰,并且由此预先转化为短窗成为可能。该“干扰”可能是高强度(high-intensity transitory)的短暂信号,如语言信号中的爆破音,或者也可能是音乐序列中发生的冲击信号(percussive signal)。
在某些电信应用中,检测瞬时信号所需要的附加延时,以及转化窗的使用是不可接受的。因此,例如,在MPEG-4 AAC低延时编码器中,不使用短窗,只允许使用长窗。
发明内容
本发明对这样情况提供了一种改进。
它涉及一种窗之间的转化,且不需要引入附加延时。
为此,它提供了一种用于表现为连续帧的数字音频信号的变换编码/解码的方法,其中:
-提供至少两个加权窗,其具有各自不同的长度;以及
-在一个帧中检测到特定事件,则使用短窗对其进行编码。该特定事件可能是例如非连续现象,如当前帧所包含的在数字音频信号中出现的强干扰。
更特别地,为当前帧的编码,要设法检测在该当前帧中的特定事件,并且:
-至少当特定事件在当前帧的开始处被检测到时,则使用短窗对当前帧进行编码;
-而当特定事件在当前帧中未被检测到时,则使用长窗对当前帧进行编码。
这些步骤在随后帧中被重复,从而使得根据本发明及其教导,可以使用长窗对一给定帧进行编码,以及直接使用短窗对紧随该给定帧的一个帧进行编码,而不需如现有技术中使用转化窗。
通过使得长窗直接转化为短窗成为可能,对特定事件的检测可以直接在被正在进行编码的帧中执行,并且不需如现有技术那样在随后的帧上执行。因此,通过实施本发明的方法所执行的编码,与固定大小的MDCT变换相比,没有附加延时,这与现有技术的编码不同。
此外,本发明还涉及一种用于表现为连续帧的信号的变换解码的装置,所述连续帧至少使用两种类型的、长度各自不同的加权窗进行编码,其特征在于,当接收从长窗转化为短窗的信息项时,所属装置包括:
-确定采样的设备,其对给定帧应用短合成窗从解码中确定采样(b),所述给定帧使用短分析窗进行编码;以及
-补充采样(67,69)的设备,其包括:
*对所述给定帧之前帧(T’i)进行部分解码的设备,其中该帧是使用长分析窗编码进行编码的;以及
*通过使用至少两个涉及加权函数的加权项的组合设备,其中所述加权函数被制成表格并储存在解码器的存储器中。
附图说明
本发明的其它特征和优点通过下文的详细说明和附图将会变得更加明显,除了已在上文描述的与现有技术相关的图1,图1a,图1b,图1c,图2a,图2b,图2c,图2d,图2e之外,所述附图中:
-图3a示出了根据本发明的编码/解码处理,如在先前图1b中所述,其接在采样a和b的产生之后;
-图3b示出了根据本发明的编码/解码处理,如先前述图1c中所述的,其接在采样e和f的产生之后;
-图4a和4b示出了加权函数的变化的实施例,所述函数用于补偿解码,并在本发明的实施例中被执行;
-图5a示出了一个处理过程的实施例,其被应用在根据本发明的一个编码器中;
-图5b示出了一个处理过程的实施例,其被应用在根据本发明的一个解码器中;以及
-图6示出了一个编码器和一个解码器各自的结构,以及用于该编码中的所述类型的窗的信息的通讯;
-图7示出了用于具有分量M=512和重叠系数K=4的ELT变换情形下的长合成窗;
-图8示出了一个实施例中的加权函数w1,n和w2,n(当n在0至M/2-Ms/2之间时)的表现形式,其中已考虑了在重叠编码情形下先前采样(past samples)的影响;
-图9示出了在该实施例中加权函数w’1,n和w’2,n(当n在M/2-Ms/2至M/2+Ms/2之间时)的表现形式;
-图10示出了在该实施例中加权函数w’3,n和w’4,n(当n在M/2-Ms/2至M/2+Ms/2之间时)的表现形式;
-图11示出了在图8所示的具体实施例的一个变化实施例中加权函数w1,n和w2,n在n从0至M/2+Ms/2的整个区间上时的表现形式;
-图12示出了在该变化实施例中加权函数w3,n和w4,n在n从0至M/2+Ms/2的整个区间上时的表现形式。
具体实施方式
本发明使得至少在将长窗转化为短窗的过程中避免使用转化窗成为可能。
因此,根据先前在图2e中所描述的第二实施例,如果非平稳现象或“干扰”在时间t=540处被检测到,本发明提出了为帧0使用一个长窗(窗从时间t=256延伸到时间t=511)。然后,在提取随后帧(t=512到t=767)的采样和在t=540处检测干扰的过程中,编码器使用8个短窗对时间从t=368(相当于t=512-M/2-Ms/2)到t=655(相当于t=512+M/2+Ms/2-1,其中:
-2*M =512是该长窗的大小;以及
-2*Ms=64是该短窗的大小;在所述实施例中进行描述)的采样进行编码,和现有技术相比,上述编码不使用如图1b和1c所示的标准的不对称转化窗。
在解码器层级上,当接收到具有短窗的已编码帧时,该解码器随后进行如下操作:
●接收从编码器发来的用于指示对于当前帧必须使用短窗的信息项;
●应用一有利处理过程以对在编码过程中直接从长窗转化为短窗进行补偿,下文将结合图5b详细说明该处理过程的一个实施例。
图3a和3b示出了根据本发明的编码/解码方法,一方面用于获得采样a和b,采样a和b处在长窗和短窗之间的无重叠的区域(如图3a所示),以及另一方面用于获得采样e和f,采样e和f处在重叠区域(如图3b所示)。特别地,该重叠区域由长窗FL的下降沿和第一短窗FC的上升沿确定。
因此,根据图3a和3b,在编码过程中,帧Ti-1和Ti的采样通过长分析窗FL进行加权,用于构成已编码帧Ti,并且后续帧T’i和T’i+1的采样直接通过短分析窗FC进行加权,而不使用转化窗。
参考图3a和3b,可以注意到,未被短窗考虑的值(对于那些先于图3b所示实施例中的采样e的采样)先于第一短分析窗FC。更特别地,该处理被应用于待编码帧T’i+1的第一组M/2-Ms/2个采样,其方式类似于现有技术的编码/解码器。通常地,与现有技术相比,本发明在编码过程中设法尽可能少地干扰所进行的处理,并且在解码过程中也是如此。因此,一种选择可以是,例如忽略已编码帧T’i+1的第一组采样。
当然,在图3a和3b中,仅仅示出了具有两个短分析窗FC(Ms =M/2)的情况。不过与现有技术一样,也可以提供一系列的多个短窗,并且每个短窗系列在图3a和3b中用FC进行标示。
下文描述了对帧T’i+1进行解码的两个具体实施例,其中该帧已使用短窗FC进行编码,而该帧的前一帧T’i则使用长窗FL进行编码。
在第一实施例中,在解码过程中完全摈弃使用合成窗,并且示出了能确保完全重构的特性。
在图3a中,在对要求窗转化(从长窗直接转化为短窗)的干扰进行检测的过程中,首先,仅仅从短窗中合成采样(如图3a所示的采样b)。然后,预先计算出的采样b的影响通过长分析窗计算出的值v1获得补偿。
针对采样a的编码计算(已编码帧T’i)按如下公式执行:
V1=a*h(M+n)+b*h(2*M-1-n)
另一方面,采样a在编码值v2中不进行加权,因为紧跟合并的从短窗中的加权计算在不同的时间支持(temporal support)(已编码帧T’i+1)上执行,并且通过短窗进行重构后,我们得到:
v2=b
优选地,在根据本发明所述的编码/解码中完全重构得到验证。事实上:
a′=(v1-v2*h(2*M-1-n))/h(M+n)=a
还注意到,在解码过程中,在确定帧的开始处的采样(例如采样a)之前,从值v2=b及后续所获得的采样必须首先被确定。因此在解码过程中,时间反转被执行。
在图3b中,计算在长窗FL(下降沿)和第一个短窗FC(上升沿)之间的转化区的已编码采样,因此在采样e和f的层级上。在两个窗FL和FC之间的重叠区域的编码系数(coded coefficient)(下文或称为“值v1和v2”)的表达式为如下方程式:
v1=e*h(M+n)+f*h(2*M-1-n)
以及
v2=f*hs(Ms-1-m)-e*hs(m)
在解码器中,该具有两个未知数的方程式的系统必须被解出,以获得采样e和f的值:
e=[V1*hs(Ms-1-m)-V2*h(2*M-1-n)]/[h(M+n)*hs(Ms-1-m)+hs(m)*h(2*M-1-n)]
f=[V1*hs(m)+V2*h(M+n)]/[hs(Ms-1-m)*h(M+n)+h(2*M-1-n)*hs(m)]
优选地,能够证明完全重构的特性的公式也被推导出来:
e′=[v1*hs(Ms+m)-v2*h(n)]/[h(M+n)*hs(Ms+m)+h(2*M-1-n)*hs(n)]=e,
以及
f=[v1*hs(2*Ms-1-m)+v2*h(M-1-n)]/[h(M+n)*hs(Ms+m)+h(2*M-1-n)*hs(m)]=f,
其中:m=n-M/2+Ms/2
与现有技术的配置(如图1c的底部所示,其中v2通过短窗hs进行加权)相比,需要注意的是,值v2通过长窗h进行加权。
在第二实施例中,合成窗在解码过程中被保留。它们与分析窗具有相同的形式(与分析窗相同或对偶),如图3a和3b所示,并且长合成窗标记为FLS,短合成窗标记为FCS。该第二实施例具有与现有技术的解码器的操作相一致的优点,即使用长窗对通过长分析窗进行编码的帧进行解码,并且使用一系列短窗对通过一系列短分析窗进行编码的帧进行解码。
另一方面,如果一个帧已经使用长-短转化窗进行编码,则通过“补偿”对这些合成窗进行修正,以便对使用长窗进行编码的帧进行解码。换而言之,为了在编码器中补偿从长窗直接转化为短窗的影响,如下所述处理过程被用于对当前帧T’i+1进行解码,该当前帧已使用短窗FC进行编码,而该帧的前一帧T’i已使用长窗FL进行编码。
上述用于解码以及使得采样a,b,e,f和值v1、v2相关联的方程式,可以用如下的2项加权的形式重写,特别地,其执行了时间反转。
首先,在第一短合成窗FCS中,并且在前文所述的重叠区域之后,一个位置被采用(典型地,如图3a示出的,在采样v2=b和其后采样处)。对于仅仅从短合成窗FCS中解码没有重叠的部分,已编码帧T’i+1的“值”首先从v2=b进行解码(图3a)。一旦采样b和随后的采样被解码,随后的2项加权之和被运用:
x ^ n = w 1 , n l ~ n + w 2 , n s M - 1 - 1 0≤n<M/2-Ms/2
其中:
Figure GSB00000657929900152
表示已解码的采样(由于编码/解码是完全重构,其对应于初始信号xn);
-符号
Figure GSB00000657929900153
表示对应于通过长合成窗FLS、无修正解码(运用DCT-1逆变换)的采样;以及
-sn表示使用短合成窗FCS序列所得到的完全解码采样(典型地,采样b和随后采样)。
因此这两个加权函数w1,n和w2,n可以表示为:
w 1 , n = 1 h 2 ( M + n )
以及
w 2 , n = - h ( 2 M - n - 1 ) h ( M + n ) = - h ( n ) h ( M + n ) ,
其中0≤n<M/2-Ms/2
可以理解是,“采样”实际上是使用长合成窗通过合成和加权得到的不完全解码的值。典型地,这涉及到图3a所示的值v1,乘以窗FLS的系数h(M+n),并且其中包括从帧Ti的开始的采样,例如采样a。
还需要注意的是,此处采样b和随后的采样首先被确定,并且在上述公式中表示为“sM-1-n”,因此图示了根据该第二实施例中的解码处理所提供的时间反转。
需要注意的是,避免了通过长合成窗FLS执行加权,因为后者中没有w1,n项(原因是除以h(M+n))。
此外,为重构同时被长窗FL(下降沿)和第一短窗FC(上升沿)覆盖的部分的采样,对应于图3b中的采样e至f的区域,优选地,使用下述两个加权项的组合:
x ^ n = w 1 , n ′ s ~ m + w 2 , n ′ l ~ n
其中,m=n-M/2+Ms/2;M/2-Ms/2≤n<M/2+Ms/2
如前所述,项
Figure GSB00000657929900165
构成使用长合成窗FLS通过合成和加权所得到的不完全重构的值,并且项
Figure GSB00000657929900166
表示从第一短合成窗FCS的上升沿得到的不完全重构的值。
此处,加权函数w’1,n和w’2,n表示为:
w 1 , n ′ = h ( n ) - h s ( m ) h s ( Ms - 1 - m ) h ( M - 1 - n ) h ( M - 1 - n ) h s ( M s - 1 - m ) + h ( n ) h s ( m )
w 2 , n ′ = h s ( Ms - 1 - m ) h ( M - 1 - n ) h ( M - 1 - n ) h s ( M s - 1 - m ) + h ( n ) h s ( m )
所有这些加权函数w1,n、w2,n;w’1,n和w’2,n通过固定元素(fixedelement)构成,所述固定元素只取决于长窗和短窗。图4a和4b示出了这样的加权函数的变化实施例。在一个优选地实施例中,这些函数的值可以被先验地计算(被制成表格),并且最终被储存在根据本发明的解码器的存储器中。
因此,参考图5b,根据一个实施例,帧T’i的解码处理过程可包括如下步骤,其中帧T’i在编码时直接从长分析窗转化为短分析窗。为了对帧T’i进行解码(步骤60),首先,应用短合成窗(步骤61)对帧尾部的值v2=b进行解码(步骤63)。此处,依靠随后的已编码帧T’i+1(步骤62)以确定b。然后,通过对使用关系式
Figure GSB00000657929900173
(步骤67)并且使用预先计算和制表的加权值w1,n和w2,n(步骤66)的、在0到M/2-Ms/2之间的任何n进行补偿,应用长合成窗(步骤64)对帧T’i的开始处的采样进行解码(步骤65)。
因此,通过同时使用短合成窗和长合成窗(步骤68),以及应用特别是通过关系式
Figure GSB00000657929900174
其中m=n-M/2+Ms/2及被预先计算并被制表的加权值w’1,n和w’2,n(步骤70)所得到的补偿(步骤69),可并行地(图5b中“+”标记)执行已编码帧T’i的“中心”区域(在e和f之间)的解码,也就是n在M/2-Ms/2至M/2+Ms/2之间。最后,从该处理过程推断出初始帧Ti的所有类型的采样a、b、e或f的值(步骤71)。
在对帧T’i的解码过程中,其中帧T’i在编码时直接从长分析窗转化为短分析窗,上面所描述的第一和第二实施例保证了完全重构,以及在编码过程中,使得更有效地从长窗直接转化为短窗成为可能。
现在根据图5a所示,描述一个实施例,该实施例提出了在使用长-短转化窗的编码过程中,至少在某些情形下,摈弃所述应用。
当接收到帧Ti(步骤50)时,在帧Ti的数字音频信号中寻找非平稳现象,例如干扰ATT(判断51)。只要未检测到该类型的现象(在判断51的输出处的箭头n),继续应用长窗(步骤52)对帧Ti进行编码(步骤56)。否则(在判断51的输出处的箭头y),设法确定该事件ATT是否位于当前帧Ti的开始(例如在上半帧)(判断53),如果是(在判断53的输出处箭头y),则直接应用短窗、更确切是一系列短窗(步骤54),对帧Ti进行编码(步骤56)。这样,该实施例得以避免应用转化窗,并且不需等待后一帧Ti+1以应用短窗。
因此,可以理解与现有技术相反,可以直接在正在被编码的帧Ti而不是在随后帧Ti+1中检测诸如非平稳现象的特定事件。与现有技术相比,根据本发明的编码延时将被减少。事实上,如果非平稳现象在当前帧的开始处被检测到,那么直接应用短窗,而在现有技术中,必须在随后帧Ti+1中检测非平稳现象,以便在正在进行编码的帧Ti中应用转化窗。
再次参考图5a,如果在当前帧的尾部(比如在下半帧内)检测到非平稳现象(在判断53的输出处的箭头n),优选地,在应用一系列短窗之前,可以选择应用转化窗(步骤55)对正在进行处理的Ti帧进行编码(步骤56)。特别地,该实施例提出了一个等效于现有技术的处理过程,同时能确保降低编码延时。
因此,按照更通用的术语,在本实施例中至少提供了三种加权窗:
-短窗;
-长窗;以及
-转化窗,用于从使用长窗转化为使用短窗;以及如果在当前帧的尾部检测出特定事件(步骤53),例如非平稳现象,使用转化窗(步骤55)对当前帧Ti进行编码(步骤56)。
在本实施例的一个变化例中,提供了从使用长窗转化为使用短窗:
-对当前帧Ti,使用长窗FL;以及
-对紧随其后的帧Ti+1,直接使用短窗FC,不使用转化窗,即使在当前帧的尾部检测出特定事件。
该变化实施例具有如下优点。当窗的类型变化时,编码器必须发送一个信息项至解码器,该信息能够用单比特进行编码,而不再需要告知解码器在短窗和转化窗之间进行选择。
然而,对从短窗转化为长窗,也可以保留转化窗,尤其是为了继续确保通过单比特的窗的类型变化的信息的传递,随着接收到关于从长窗变换到短窗的信息项,为此解码器:
-使用短窗;
-然后,当未接收到窗的类型变化的信息时,在从短窗转化到长窗的过程中使用转化窗;
-最后,使用长窗。
图6示出了在编码过程中使用的窗的类型的信息的通信,从编码器10到解码器20。需要注意的是,编码器10包括检测模块11,用于在编码过程中对包含帧Ti的信号中的特定事件,比如强干扰进行检测,并且从该检测推断处所使用的窗的类型。为此,模块12选择所使用的窗的类型,并将这个信息传递至编码模块13,该编码模块传送使用由模块12选择的分析窗FA的已编码帧T’i。已编码帧T’i,以及和在编码过程中所使用的窗的类型的信息INF(通常是单个数据流)一起被传送到解码器20。解码器20包括模块22,用于根据从编码器10所接收到的信息INF选择合成窗FS,并且模块23应用已编码帧T’i的解码,以传递已解码帧
Figure GSB00000657929900191
本发明还涉及如图6中的编码器10的编码器,用于实施根据本发明的方法,并且更特别地,用于实施图5a所示的处理过程,或先前描述的变化例(用单比特传输窗的类型的变化的信息)。
本发明还涉及计算机程序,该程序储存在编码器的存储器中,并且当这样程序被编码器的处理器执行时,该程序包括用于执行这样上述处理过程、或是其变化例的指令。为此,图5a示出了这样的一个计算机程序的流程图。
值得注意的是,根据前文所述的第二实施例,编码器10使用分析窗FA,并且解码器20可以使用合成窗FS,然而通过由先前描述的补偿进行修正(通过使用加权函数w1,n,w2,n,w’1,n和w’2,n),使得这些合成窗与分析窗FA相当。
本发明还涉及另一计算机程序,该程序储存在诸如图6所示的解码器20的变换解码器的存储器中,并且当这样的程序被解码器20的处理器执行时,该程序包括用于执行根据所述第一实施例或根据图5b所示的第二实施例的解码过程的指令。为此,图5b示出了这样的一个计算机程序的流程图。
本发明还涉及到变换解码器本身,其包含存储器,储存用于解码过程的计算机程序的指令。
通常地,根据本发明的、对表现为至少通过两种类型的、长度各自不同的加权窗进行编码进行编码的帧的序列的信号进行变换解码的方法,可执行如下。
当接收到从长窗转化为短窗的信息项时:
-针对使用短分析窗FC进行编码的给定帧T’i+1通过应用短合成窗FCS确定采样(类型b);以及
-补充采样通过如下步骤获得:
●对该给定帧之前的、且通过长分析窗FL进行编码的帧T’i进行部分解码(应用逆变换DCT-1);以及
●通过应用两个涉及加权函数的加权项的组合,所述加权函数能够被制成表格并储存在解码器的存储器中。
在上述第二实施例中,包括被标注为w1,n,w2,n,w’1,n,w’2,n的函数。
然而,在第一和第二实施例的两种情形下使用这样的通常解码处理过程。
在第二实施例中:
-首先(图5b所示的步骤63),从给定帧(T’i+1)确定采样(b);
以及
-从来自使用属于第二实施例的长合成窗FLS的解码的采样中,推断(步骤65-67)出暂时对应于之前帧(T’i)的开始处的采样(a)。
在此情形下:
-包含M个采样的帧;
-包含2M个采样的长窗;
-包含2Ms个采样的短窗,Ms小于M;
当n包含在0至M/2-Ms/2之间时,其中n=0对应于正在被解码的帧的起始处,采样
Figure GSB00000657929900211
通过两个加权项的组合获得:
x ^ n = w 1 , n l ~ n + w 2 , n s M - 1 - n
其中:
Figure GSB00000657929900213
是从先前帧T’i获得值(v1);
-SM-1-n是通过使用应用于给定帧T’i+1的短合成窗而已解码的采样(b);以及
-w1,n和w2.n是加权函数,作为n的函数,其值可以被制成表格并储存在解码器的存储器中。
否则,当n包含在M/2-Ms/2至M/2+Ms/2间时,采样
Figure GSB00000657929900214
由两个加权项的组合得出:
x ^ n = w 1 , n ′ s ~ m + w 2 , n ′ l ~ n m=n-M/2+Ms/2
其中:
Figure GSB00000657929900216
是从先前帧T’i获得的值v1
Figure GSB00000657929900217
是从给定帧T’i+1中获得的值v2,;以及
-w’1,n和w’2,n是加权函数,作为n的函数,其值可以被制成表格并储存在解码器的存储器中。
因此,本发明与现有技术相比,提供了在窗之间转化时具有降低的延时,同时保留变换的完全重构的特性。该方法可应用各种类型的窗(非对称窗,以及各种分析和合成窗),以及各种不同的变换和滤波器组。
在从长窗转化到短窗的情况下的上述的补偿处理过程自然的延续至并类似于从短窗转化到更长的窗的情况。此时,短-长转化窗的缺失可以在解码器中通过类似于前述情况的加权进行补偿。
本发明可以应用于任何变换编码器,特别是那些用于交互式对话应用的编码器,例如MPEG-4中的“AAC-低延时”标准,但也可应用于不同于MDCT的变换,特别是前文所述的扩展重迭变换(ELT),以及它们的双正交扩展。
然而,特别在ELT类型变换的情况下,可以发现由调制(v1)而形成的时域叠加项可以与之前形成的时域叠加项进行合并。因此,上述修正处理过程考虑了随后采样的影响现象(或“混淆”)。另一方面,下文提及的发展同样考虑到了先前分量,使得至少在未量化的情况下,消除它们而得到完全重构。因此,本发明在此提出了对附加加权函数的定义,所述附加加权函数与合成的先前信号相结合,使得摒弃时域重叠项成为可能。
选择在下文描述的ELT变换为例子:“Modulated Filter Banks withArbitray System Delay:Efficient Implementations and the Time-VaryingCase”Gerald D.T.Schuller,Tanja Karp,IEEE Transactions onS SignalProcessing,Vol.48,No.3(March 2000)(“任意系统延迟的调制滤波带:有效的执行和时域转换”,Gerald D.T.Schuller,Tanja Karp,《IEEE信号处理汇刊》,Vol.48,No.3(2000年3月))。
在本发明框架中,下述实施例提出了不使用转化窗而从长窗(例如有2048个采样)转换成短窗(例如有128个采样)。
*长窗变换(K=4,M=512)
这是一个低延时变换,其窗的大小为K.M=2048,并且其分析可以被表示如下形式:
X t , k = - 2 · Σ n = - 2 M 2 M - 1 z t , n a cos ( π M ( n - M 2 + 1 2 ) ( k + 1 2 ) ) 0≤k≤M-1
-M是获得的频谱分量的数量;
-当-2M≤n≤2M-1时,表示所述已进行窗操作的输入信号;以及
_ w LD ( n ) = w L s ( n ) 表示长合成窗。
图7示出了用于ELT变换的长合成窗,其具有M=512分量,以及重叠系数K=4。
其逆变换表示为:
x n + tM inv = - 1 M Σ k = 0 M - 1 X t , k cos ( π M ( n - M 2 + 1 2 ) ( k + 1 2 ) ) 0≤n≤4M-1
以及重构信号xn+tM通过四个元素的重叠相加获得(K=4):
xn+tM=zt,n+zt-1,n+M+zt-2,n+2M+zt-3,n+3M 0≤n≤M-1以及
z t , n = w LD ( n ) · x n + tM inv
值得注意的是,合成窗定义如下:
w L s ( n ) = w LD ( n ) 0≤n≤4M-1
而分析窗通过采样顺序的翻转,从合成窗进行定义,即:
w L a ( n ) = w LD ( 4 M - 1 - n ) 0≤n≤4M-1
●短窗变换(K=2,Ms=64)
在使用短窗时,分析变换表示为如下形式:
X t , k = - 2 · Σ n = 0 2 M s - 1 z t , n a cos ( π M s ( n - M s 2 + 1 2 ) ( k + 1 2 ) ) 0≤k≤Ms-1
其中:
Figure GSB00000657929900238
0≤n≤2Ms-1,代表已进行窗操作的输入信号;以及
-wS(n),代表短合成窗。
逆变换被表示为:
x n + t M s inv = - 1 M s Σ k = 0 M s - 1 X t , k cos ( π M s ( n - M s 2 + 1 2 ) ( k + 1 2 ) ) 0≤n≤2Ms-1
以及重构信号xn+tM可通过两个元素的重叠相加获得(Ks=2):
x n + t M s = z t , n + z t - 1 , n + M s 0≤n≤Ms-1
以及
z t , n = w S ( n ) . x n + t M s inv
在该符号系统中,t是短帧的索引,并且分析和合成窗是相同的,因为它们是对称的,其中:
w a ( n ) = w S ( n ) = sin [ π 2 M s ( n + 0.5 ) ] , 0≤n<2Ms
●加权函数的表达式
在该具体实施例中,具有:
-包含M个采样的帧;
-包含4M个采样的长窗;
-包含2Ms个采样的短窗,Ms小于M;
当n包含在0至M/2-Ms/2中,并且n=0对应于在解码过程中帧的开始处,采样
Figure GSB00000657929900243
通过四个加权项的组合获得:
x ^ n = w 1 , n l ~ n + w 2 , n s M - 1 - n + w 3 , n s n - 2 M + w 4 , n s - M - 1 - n , 0≤n≤M/2-Ms/2,
其中:
Figure GSB00000657929900245
代表已解码的采样(如果编码/解码是完全重构的,则其相当于初始信号xn);
-符号
Figure GSB00000657929900246
表示在给定帧(T’i+1)之前的帧
(T’i)的不完全解码的采样(应用逆变换),其通过使用长窗以及没有帧T’i的修正的在先存储元素zt-1,n+2M+zt-2,n+3M
-sn代表通过使用一系列的短合成窗FCS的帧T’i+1的完全解码采样(例如,对于索引n为M/2+Ms/2≤n<M的采样),以及先前帧的完全解码采样(然后当0≤n<M时,标记为sn-2M,其等于{s-2M,s-2M+1,…,s-M-1});以及
-w1,n、w2,n、w3,n、和w4,n是加权函数,作为n的函数,其值可以被制成表格并储存在解码器的存储器中,或者作为长和短、分析和合成窗的函数进行计算。
优选地,下述表达式可被选择为加权函数,特别是为了确保完全重构:
当0≤n<M/2-Ms/2时
- w 1 , n = 1 h ( M + n ) · h ( M - 1 - n )
- w 2 , n = h ( n ) h ( M - n - 1 )
- w 3 , n = - h ( n ) h ( 4 M - 1 - n ) h ( M + n ) · h ( M - 1 - n )
- w 4 , n = - h ( n ) h ( 3 M + n ) h ( M + n ) · h ( M - 1 - n )
应当注意到,w1,n和w2,n的形式和前述MDCT变换中的形式稍有不同。实际上,滤波器不再是对称的(所以h2项消失),并且调制项被改变,这解释了符号的变化。
然后,仍根据本实施例,当n在M/2·Ms/2和M/2+Ms/2之间时,采样
Figure GSB00000657929900255
通过四个加权项的组合得出:
x ^ n = w ′ 1 , n l ~ n + w ′ 2 , n s ~ m + w ′ 3 , n s n - 2 M + w ′ 4 , n s - M - 1 - n
其中,m=n-M/2+Ms/2并且M/2-Ms/2≤n<M/2+Ms/2。
根据同样的符号系统:
Figure GSB00000657929900257
是在给定帧T’i+1之前的帧T’i的不完全解码采样;
Figure GSB00000657929900258
是给定帧T’i+1的第一短合成窗的不完全解码采样;以及
-sn是先前帧中的完全解码的采样;以及
w’1,n,w’2,n,w’3,n和w’4,n是加权函数,作为n的函数,其值可以被制成表格并储存在解码器的存储器中,或者作为长和短、分析和合成窗的函数进行计算。
优选地,根据下述形式选择加权函数,以确保完全重构:当M/2-Ms/2≤n<M/2+Ms/2,m=n-M/2+Ms/2时
- w ′ 1 , n = h s ( M s - 1 - m ) h ( M + n ) h ( M - 1 - n ) h s ( M s - 1 - m ) + h ( n ) h s ( m )
- w ′ 2 , n = h ( n ) - h s ( m ) h s ( M s - 1 - m ) h ( M + n ) h ( M - 1 - n ) h s ( M s - 1 - m ) + h ( n ) h s ( m )
- w ′ 3 . n = - h ( n ) h ( 4 M - 1 - n ) h s ( M s - 1 - m ) h ( M + n ) h ( M - 1 - n ) h s ( M s - 1 - m ) + h ( n ) h s ( m )
- w ′ 4 . n = - h ( n ) h ( 3 M + n ) h s ( M s - 1 - m ) h ( M + n ) h ( M - 1 - n ) h s ( M s - 1 - m ) + h ( n ) h s ( m )
因此,在该实施例中,在从长窗到短窗的转化过程中,信号通过下述几项的组合进行重构:
-通过短窗重构的采样的加权项(version);
-通过长窗部分重构的采样的加权项(集成存储器项zt-1,n+2M+z-2,n+3M);以及
-先前合成信号采样的组合的加权项。
在该实施例的一个变化例中,应当注意的是,函数w’3,n和w’4,n并没有很大不同。只有h(4M-1-n)项和h(3M+n)项的表达式不同。例如,一个实施例包括准备h(4M-1-n)sn-2M+h(3M+n)s-M-1-n项,然后通过函数加权该结果,该函数表达式如下:
w ′ ′ 3 - 4 , n = - h ( n ) h s ( M s - 1 - m ) h ( M + n ) h ( M - 1 - n ) h s ( M s - 1 - m ) + h ( n ) h s ( m )
以及,因此对应于已移除了h(4M-1-n)项和h(3M+n)项的贡献的函数w’3,n和w’4,n
相同原理类似地应用于w’3,n和w’4,n
在另一个变化实施例中,合成存储器被加权。优选地,该加权可以是合成存储器的一次置清零,以便通过从长窗获得的不完全重构的采样被加入到加权存储器zt-1,n+2M+zt-2,n+3M中。在这样地情况下,应用于先前合成信号的加权可以是不同的。
图9和10示出了在上述具体实施例中获得的加权函数w和w’的典型形式。特别地,参照这些曲线图的y轴值,相对于图9所示的函数w’1,n和w’2,n,图10所示的函数w’3,n和w’4,n显得可以被忽略(考虑到它们获得的值)。因此包含函数w’3,n和w’4,n中的项在总和中可被省略,该总和
Figure GSB00000657929900272
在上文以重构信号
Figure GSB00000657929900273
的角度给出。该省略导致很小的重构误差。
根据一个考虑更简单处理的变化例,也显示出w’3,n和w’4,n非常相似。因此,可以仅使用这两个加权的组合,例如两个函数的平均值,以获得在计算时间中的增益。
比较图8(示出了加权函数w1,n和w2,n)和图12(示出了加权函数w3,n和w4,n),相对于函数w1,n和w2,n,函数w3,n和w4,n援引了相同的附注。
因此,可以简化前述
Figure GSB00000657929900274
的表达式:
如果通过函数w3,n和w4,n进行的加权被省略;
-或 x ^ n = w 1 , n l ~ n + w 2 , n s M - 1 - n + w 3 - 4 , n ( s n - 2 M + s - M - 1 - n ) - - - [ 2 ] ;
其中,例如
Figure GSB00000657929900277
或是这两函数的任何其它线性组合,
其会导致一个中等的重构误差。
应当注意,对通过函数w3,n和w4,n进行的加权的省略会导致重构误差,该误差具有低于信号的84dB(分贝)的强度,以及使用简单线性组合(例如这些函数的平均值)本身会导致一低于信号的96dB的误差,在这两种情况下,都已经非常能满足音频的应用。应当注意,实践中的完全重构使得通常能够测量到低于信号的120到130dB的误差能量。
而且,不再在加权[1]中使用存储器项sn-2M和s-M-1-n,使得避免从先前传播量化噪声成为可能。因此,当信号最终被编码时,未被量化的不完全重构被转换为量化噪声的限制。
还应当注意的是,在时间支持0-128(如图8和12所示)上,加权函数具有特定形式:
w 1 , n = 1 w 2 , n = 0 w 3 , n = 0 w 4 , n = 0
该现象可以通过窗h(n)(如图7所示)的形式来进行解释,在所描述的实施例中,该窗包括具有零振幅的、在0和128之间的第一部分。因此优选地,在本实施例中,就复杂性而言,把第一重构分为两部分:
_ x ^ n = l ~ n , 当0≤n<128时;以及
_ x ^ n = w 1 , n l ~ n + w 2 , n s M - 1 - n + w 3 , n s n - 2 M + w 4 , n s - M - 1 - n , 当128≤n<M/2-Ms/2=224时。
在一个具有优势算法结构的实施例中,一方面加权函数w1,n和w2,n(如图11所示),以及另一方面w3,n和w4,n(如图12所示),可以被定义在从0到(M+Ms)/2的整个区间上,如下文所述。
第一步,将要重构的信号
Figure GSB00000657929900284
的主要表达式(标注为
Figure GSB00000657929900285
)的计算是从0到(M+Ms)/2进行,如下:
* x ~ n = w 1 , n l ~ n + w 3 , n s n - 2 M + w 4 , n s - M - 1 - n (其导致了在如图11所示的n从0到M/2+Ms/2的整个区间上计算函数w1,n,同时也导致了在相同的区间内计算函数w3,n和w4,n,如图12所示)。
然后,当n在0和M/2-Ms/2之间时(n=0对应于在解码过程中的一帧的开始处),则:
Figure GSB00000657929900287
其中w2,n相当于图11所示的参考曲线w2,n的开始处(在x轴上的224之前)。
以及
当n在M/2-Ms/2和M/2+Ms/2之间时,则:
x ^ n = x ~ n + w ′ 2 , n s ~ m ,
其中m=n-M/2+Ms/2以及M/2-Ms/2≤n<M/2+Ms/2,并且w’2,n相当于图11所示的参考曲线w2,n的结尾处(在x轴上的224之后)。
对于通过函数w2,n和w’2,n进行的加权的特定处理的差异解释如下。
对每一函数w1,n、w3,n和w4,n,仅使用一个在0到M/2+Ms/2之间的单一变量是可能的。另一方面,对于函数w2,n和w’2,n
-函数w2,n对完全解码采样进行加权;
-而函数w’2,n对不完全解码采样进行加权。
而且,所述处理的“时间反转”仅用于加权w2,n(索引s为-n),而不用于加权w’2,n
因此,用一般术语进行总结描述,在从长窗(具有重叠K>2)转化为短窗(具有重叠K′<K)过程中,本发明能够减小先前采样对完全解码采样的影响,解码采样通过包括先前合成信号的至少两个加权项的组合获得。

Claims (14)

1.一种用于表现为连续帧的信号的变换解码的方法,所述连续帧至少使用两种类型的、长度各自不同的加权窗进行编码,其特征在于,当接收从长窗转化为短窗的信息项时:
-对给定帧(T’i+1)应用短合成窗(61)从解码中确定(63)采样(b),所述给定帧使用短分析窗进行编码;以及
-补充采样(67,69)通过如下步骤获得:
●对所述给定帧之前帧(T’i)进行部分解码,并且该帧是使用长分析窗编码进行编码的;以及
●通过使用至少两个涉及加权函数(w1,n,w2,n;w’1,n,w’2,n)的加权项的组合,其中所述加权函数被制成表格并储存在解码器的存储器中。
2.根据权利要求1所述的方法,其特征在于:
-来自于所述给定帧(T’i+1)的采样(b)首先被确定(63);以及
-从来自使用长合成窗的解码的采样中,推断(65-67)出暂时对应于所述之前帧(T’i)的开始处的采样(a)。
3.根据权利要求2所述的方法,其中:
-包含M个采样的帧;
-包含2M个采样的长窗;
-包含2Ms个采样的短窗,Ms小于M;
其特征在于,当0≤n<(M/2-Ms/2)时,n=0对应于解码过程中一帧的开始处,采样
Figure FSB00000831945500011
通过具有如下类型的两种加权项的组合获得: x ^ n = w 1 , n l ~ n + w 2 , n S M - 1 - n , 其中:
Figure FSB00000831945500013
是从所述之前帧(T’i)获得的值(v1);以及
-sM-1-n是对所述给定帧(T’i+1)通过使用短合成窗的已解码的采样(b);以及
-w1,n和w2,n是加权函数,作为n的函数,其值可以被制成表格并储存在所述解码器的存储器中。
4.根据权利要求1所述的方法,其中:
-包含M个采样的帧;
-包含2M个采样的长窗;
-包含2Ms个采样的短窗,Ms小于M;
其特征在于,当(M/2-Ms/2)≤n<(M/2+Ms/2)时,n=0对应于解码过程中一帧的开始处,采样通过具有如下类型的两个加权项的组合获得:
Figure FSB00000831945500022
m=n-M/2+Ms/2,其中:
Figure FSB00000831945500023
是通过所述之前帧(T’i)获得的值(v1);
Figure FSB00000831945500024
是通过所述给定帧(T’i+1)获得的值(v2);以及
-w’1,n和w’2,n是加权函数,作为n的函数,其值可以被制成表格并储存在所述解码器的存储器中。
5.根据权利要求1所述的方法,其特征在于,对于使用重叠变换编码的帧进行解码,为了减轻先前采样的影响,将被解码的信号通过如下项的组合被重构:
-通过短窗重构的采样的加权;
-通过长窗重构的采样的加权;以及
-先前已解码信号的采样的加权。
6.根据权利要求5所述的方法,其特征在于,其中:
-包含M个采样的帧;
-包含4M个采样的长窗;
-包含2Ms个采样的短窗,Ms小于M;
当0≤n<M/2-Ms/2时,n=0对应于解码过程中一帧的开始处,将被解码的采样
Figure FSB00000831945500025
通过具有如下类型的四个加权项的组合获得:
x ^ n = w 1 , n l ~ n + w 2 , n s M - 1 - n + w 3 , n s n - 2 M + w 4 , n s - M - 1 - n , 0 &le; n < 2 M / 2 - Ms / 2 , 其中:
-符号
Figure FSB00000831945500027
表示在所述给定帧(T’i+1)之前的帧(T’i)的不完全解码采样,其通过使用长窗以及没有帧T’i的修正的在先存储元素zt-1,n+2M+zt-2,n+3M,索引t是帧索引;
-sn表示使用一系列的短合成窗FCS的所述给定帧(T’i+1)的完全解码采样,当M/2+Ms/2≤n<M时,并且表示了先前帧(T’i,T’i-1,T’i-2…)的完全解码采样,当-2M≤n<M时;以及
-w1,n、w2,n、w3,n和w4,n分别为第一、第二、第三和第四加权函数,所述加权函数依赖于所述采样索引n,并且至少第一和第二加权函数w1,n和w2,n的所获得的值,作为n的函数,被制成表格并储存在所述解码器的存储器中。
7.根据权利要求5所述的方法,其特征在于,具有:
-包含M个采样的帧;
-包含4M个采样的长窗;
-包含2Ms个采样的短窗,Ms小于M;
当M/2-Ms/2≤n<M/2+Ms/2之间时,所述被解码的采样
Figure FSB00000831945500031
通过具有如下类型的四个加权项的组合获得:
x ^ n = w &prime; 1 , n l ~ n + w &prime; 2 , n s ~ m + w &prime; 3 , n s n - 2 M + w &prime; 4 , n s - M - 1 - n , 其中:
Figure FSB00000831945500033
是在所述给定帧(T’i+1)之前的帧(T’i)的不完全解码采样;
Figure FSB00000831945500034
是所述给定帧(T’i+1)的第一短窗的不完全解码采样,其中m=n-M/2+Ms/2;
-sn代表先前帧(T’i,T’i-1,T’i-2…)的完全解码采样;
-w1’,n、w2’,n、w3’,n和w4’,n分别为第一、第二、第三和第四加权函数,所述加权函数依赖于所述采样索引n,并且至少第一和第二加权函数w1’,n和w2’,n的所获得的值,作为n的函数,被制成表格并储存在所述解码器的存储器中。
8.根据权利要求6所述的方法,其特征在于,所述第三和第四加权函数(w3,n、w4,n)的贡献在所述采样的计算中被忽略,使得只有从第一和第二加权函数(w1,n、w2,n)获得的值,作为n的函数,被制成表格并储存在所述解码器的存储器中。
9.根据权利要求7所述的方法,其特征在于,所述第三和第四加权函数(w’3,n、w’4,n)的贡献在所述采样的计算中被忽略,使得只有从第一和第二加权函数(w’1,n、w’2,n)获得的值,作为n的函数,被制成表格并储存在所述解码器的存储器中。
10.根据权利要求6所述的方法,其特征在于,所述第三和第四加权函数(w3,n、w4,n)通过单个加权函数(w3-4,n)给定,该单个加权函数由所述第三和第四加权函数(w3,n、w4,n)的线性组合产生,使得只有从第一和第二加权函数(w1,n、w2,n)获得的值,以及所述单个加权函数(w3-4,n)所获得的值,作为n的函数,被制成表格并储存在所述解码器的存储器中。
11.根据权利要求7所述的方法,其特征在于,所述第三和第四加权函数(w’3,n、w’4,n)通过单个加权函数(w’3-4,n)给定,该单个加权函数由所述第三和第四加权函数(w’3,n、w’4,n)的线性组合产生,使得只有从第一和第二加权函数(w’1,n、w’2,n)获得的值,以及所述单个加权函数(w’3-4,n)所获得的值,作为n的函数,被制成表格并储存在所述解码器的存储器中。
12.根据权利要求7所述的方法,其特征在于:
-包含M个采样的帧;
-包含4M个采样的长窗;
-包含2Ms个采样的短窗,Ms小于M;
当0≤n<M/2-Ms/2时,n=0对应于解码过程中一帧的开始处,所述将被解码的采样
Figure FSB00000831945500041
通过具有如下类型的四个加权项的组合获得:
x ^ n = w 1 , n l ~ n + w 2 , n s M - 1 - n + w 3 , n s n - 2 M + w 4 , n s - M - 1 - n , 0 &le; n < 2 M / 2 - Ms / 2 , 其中:
-符号
Figure FSB00000831945500043
表示在所述给定帧(T’i+1)之前的帧(T’i)的不完全解码采样,其通过使用长窗以及没有帧T’i的修正的在先存储元素zt-1,n+2M+zt-2,n+3M,索引t是帧索引;
-sn表示使用一系列的短合成窗FCS的所述给定帧(T’i+1)的完全解码采样,当M/2+Ms/2≤n<M时,并且表示了先前帧(T’i,T’i-1,T’i-2…)的完全解码采样,当-2M≤n<M时;以及
-w1,n、w2,n、w3,n和w4,n分别为第一、第二、第三和第四加权函数,所述加权函数依赖于所述采样索引n,并且至少第一和第二加权函数w1,n和w2,n的所获得的值,作为n的函数,被制成表格并储存在所述解码器的存储器中;且
-对于0≤n<(M+Ms)/2,被解码信号
Figure FSB00000831945500044
的主要表达式
Figure FSB00000831945500045
根据如下类型的加权组合进行计算:
x ~ n = w 1 , n l ~ n + w 3 , n s n - 2 M + w 4 , n s - M - 1 - n ;
-当0≤n<M/2-Ms/2时,n=0对应于解码过程中一帧的开始处,使得:
* x ^ n = x ~ n + w 2 . n s M - 1 - n ; 以及
-当M/2-Ms/2≤n<M/2+Ms/2时,使得:
其中m=n-M/2+Ms/2。
13.一种用于表现为连续帧的信号的变换解码器,所述连续帧从至少使用两种类型的、长度各自不同的加权窗进行编码的编码器中获得,其特征在于,该解码器至少包括:
-接收设备,用于接收从长窗转化到短窗的信息项;
-确定设备,用于对给定帧(T’i+1)应用短合成窗(61)从解码中确定(63)采样(b),所述给定帧使用短分析窗进行编码;以及
-获取补充采样(67,69)的设备,其能够:
●对所述给定帧之前帧(T’i)进行部分解码,并且该帧是使用长分析窗编码进行编码的;以及
●使用至少两个涉及加权函数(w1,n,w2,n;w’1,n,w’2,n)的加权项的组合,其中所述加权函数被制成表格并储存在解码器的存储器中。
14.一种用于表现为连续帧的信号的变换解码的装置,所述连续帧至少使用两种类型的、长度各自不同的加权窗进行编码,其特征在于,当接收从长窗转化为短窗的信息项时,所属装置包括:
-确定采样的设备,其对给定帧(T’i+1)应用短合成窗(61)从解码中确定(63)采样(b),所述给定帧使用短分析窗进行编码;以及
-补充采样(67,69)的设备,其包括:
●对所述给定帧之前帧(T’i)进行部分解码的设备,其中该帧是使用长分析窗编码进行编码的;以及
●通过使用至少两个涉及加权函数(w1,n,w2,n;w’1,n,w’2,n)的加权项的组合设备,其中所述加权函数被制成表格并储存在解码器的存储器中。
CN200780051256.3A 2007-01-05 2007-12-18 一种使用加权窗的低延时变换编码的方法 Active CN101611440B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
FR0700056A FR2911227A1 (fr) 2007-01-05 2007-01-05 Codage par transformee, utilisant des fenetres de ponderation et a faible retard
FR0700056 2007-01-05
FR0702768 2007-04-17
FR0702768A FR2911228A1 (fr) 2007-01-05 2007-04-17 Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
PCT/FR2007/052541 WO2008081144A2 (fr) 2007-01-05 2007-12-18 Codage par transformee, utilisant des fenetres de ponderation et a faible retard

Publications (2)

Publication Number Publication Date
CN101611440A CN101611440A (zh) 2009-12-23
CN101611440B true CN101611440B (zh) 2013-02-13

Family

ID=38230175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780051256.3A Active CN101611440B (zh) 2007-01-05 2007-12-18 一种使用加权窗的低延时变换编码的方法

Country Status (3)

Country Link
CN (1) CN101611440B (zh)
ES (1) ES2360898T3 (zh)
FR (1) FR2911227A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2619758B1 (en) * 2010-10-15 2015-08-19 Huawei Technologies Co., Ltd. Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis
EP2676265B1 (en) * 2011-02-14 2019-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using an aligned look-ahead portion
CN110232929B (zh) 2013-02-20 2023-06-13 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990009063A1 (de) * 1989-02-01 1990-08-09 Telefunken Fernseh Und Rundfunk Gmbh Verfahren zur übertragung eines signals
US5361278A (en) * 1989-10-06 1994-11-01 Telefunken Fernseh Und Rundfunk Gmbh Process for transmitting a signal
WO1998002971A1 (en) * 1996-07-11 1998-01-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A method of coding and decoding audio signals
EP1391878A2 (en) * 1994-12-19 2004-02-25 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
CN1525439A (zh) * 2002-11-14 2004-09-01 �ž������� 广义综合分析语音编码方法和实施该方法的编码器
CN1711587A (zh) * 2002-11-08 2005-12-21 摩托罗拉公司 对信息信号编码的方法和设备
CN1734555A (zh) * 2004-08-04 2006-02-15 三星电子株式会社 恢复音频数据的高频分量的方法和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990009063A1 (de) * 1989-02-01 1990-08-09 Telefunken Fernseh Und Rundfunk Gmbh Verfahren zur übertragung eines signals
US5361278A (en) * 1989-10-06 1994-11-01 Telefunken Fernseh Und Rundfunk Gmbh Process for transmitting a signal
EP1391878A2 (en) * 1994-12-19 2004-02-25 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
WO1998002971A1 (en) * 1996-07-11 1998-01-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A method of coding and decoding audio signals
CN1711587A (zh) * 2002-11-08 2005-12-21 摩托罗拉公司 对信息信号编码的方法和设备
CN1525439A (zh) * 2002-11-14 2004-09-01 �ž������� 广义综合分析语音编码方法和实施该方法的编码器
CN1734555A (zh) * 2004-08-04 2006-02-15 三星电子株式会社 恢复音频数据的高频分量的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EDLER B.CODIERUNG VON AUDIOSIGNALEN MIT UEBERLAPPENDER TRANSFORMATION UND ADAPTIVEN FENSTERFUNKTIONEN CODING OF AUDIO SIGNALS WITH OVERLAPPING BLOCK TRANSFORM AND ADAPTIVE WINDOW FUNCTIONS.《FREQUENZ SCHIELE UND SCHON,BERLIN,DE》.1989,第43卷(第9期),252-256. *
OMAR NIAMU ET AL.RD OPTIMAL TIME SEGMENTATION FOR THE TIME-VARYING MDCT.《PROCEEDINGS OF THE EUROPEAN SIGNAL PROCESSING CONFERENCE》.2004,1649-1652. *

Also Published As

Publication number Publication date
FR2911227A1 (fr) 2008-07-11
CN101611440A (zh) 2009-12-23
ES2360898T3 (es) 2011-06-10

Similar Documents

Publication Publication Date Title
EP0910067B1 (en) Audio signal coding and decoding methods and audio signal coder and decoder
EP0942411B1 (en) Audio signal coding and decoding apparatus
CN100370517C (zh) 一种对编码信号进行解码的方法
CN100583241C (zh) 音频编码设备、音频解码设备、音频编码方法和音频解码方法
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
CN101325060B (zh) 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备
US5809459A (en) Method and apparatus for speech excitation waveform coding using multiple error waveforms
US7454330B1 (en) Method and apparatus for speech encoding and decoding by sinusoidal analysis and waveform encoding with phase reproducibility
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
US8615390B2 (en) Low-delay transform coding using weighting windows
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
US20090198500A1 (en) Temporal masking in audio coding based on spectral dynamics in frequency sub-bands
EP2037451A1 (en) Method for improving the coding efficiency of an audio signal
JP3344962B2 (ja) オーディオ信号符号化装置、及びオーディオ信号復号化装置
CN101542599A (zh) 用于编码和解码宽带语音信号的方法、装置和系统
CN103262161A (zh) 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法
CN102272831A (zh) 基于峰值检测的选择性缩放掩码计算
CN100590712C (zh) 编码装置和译码装置
US5794185A (en) Method and apparatus for speech coding using ensemble statistics
EP1873753A1 (en) Enhanced audio encoding/decoding device and method
JP2003050600A (ja) 線スペクトル平方根を発生し符号化するための方法と装置
CN106233112A (zh) 信号编码方法和设备以及信号解码方法和设备
CN101611440B (zh) 一种使用加权窗的低延时变换编码的方法
KR20080059657A (ko) 스펙트럼 변화에 기초한 신호 코딩 및 디코딩
EP0919989A1 (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant