CN101952888B - 一种具有合适的窗口的基于变换的编码和解码方法 - Google Patents

一种具有合适的窗口的基于变换的编码和解码方法 Download PDF

Info

Publication number
CN101952888B
CN101952888B CN2008801273013A CN200880127301A CN101952888B CN 101952888 B CN101952888 B CN 101952888B CN 2008801273013 A CN2008801273013 A CN 2008801273013A CN 200880127301 A CN200880127301 A CN 200880127301A CN 101952888 B CN101952888 B CN 101952888B
Authority
CN
China
Prior art keywords
window
coding
analysis
analysis window
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008801273013A
Other languages
English (en)
Other versions
CN101952888A (zh
Inventor
皮埃里克·菲利普
戴维德·维雷泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN101952888A publication Critical patent/CN101952888A/zh
Application granted granted Critical
Publication of CN101952888B publication Critical patent/CN101952888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种编码/解码数字信号的方法,尤其是使用具有重叠的加权窗口的变换。在本发明中,两个连续的并且大小相等的信号采样块可分别通过不同的连续窗口进行加权。这两个窗口可根据由这两个块各自确定的信号特性(熵,数据率/失真,等)的标准作相互独立地选择。

Description

一种具有合适的窗口的基于变换的编码和解码方法
本发明涉及一种数字信号的编码和解码方法。
为了能降低在基于变换的编码中的比特率,通常是在保证最小失真的同时降低采样编码过程中的精确度。为了实现这一目的,可使用感知加权来控制量化精度的降低。根据人眼(对于图像编码)和人耳(对于声音编码)的已知特性为例,本发明能够将量化噪声设置在最小的感知频带中。
为使用在心理视觉或心理声学模型中的信息,特别是在频域中,运用时间/频率变换,在频域中执行的量化都可标准化实践。
图1图示说明了基于变换的编码器的结构,包括:
-用于接收输入信号X的分析滤波器FA1至FAn组BA;
-量化组Q(包括频带量化模块Q1至Qn),其后为包括编码模块COD1至CODn的编码组COD;以及
-用于传输已编码信号X′的合成滤波器FS1至FSn组BS。
为了在传输前进一步的降低比特率,通常使用熵(无损)编码过程编码已量化的频域采样。在标准的方法中,该量化是通过均匀或非均匀标量量化器或矢量量化器来实现的。
在量化步骤中引入的噪声通过合成滤波器组进行成型(这一过程通常称之为应用逆变换)。因此,该与分析变换相关联的逆变换必须选择能集中在频域或时域中的量化噪声,从而防止量化噪声变成可感知的噪声。
分析变换必须最优化的集中信号的能量,以便于对变换域中的采样进行编码。这种处理方法被称为能量压缩。具体地,取决于输入信号的分析变换的编码增益必须最大化。为此,使用以下类型的公式,式中K为常数,其优选值为6.02,以及R为每个选择采样的比特数:
SNR=GTC+K·R     (1)
因此,获得的信噪比(SNR)与R成正比,再加上表示变换编码增益的分量GTC
编码增益越高,重构的质量就越高。由此可见,在编码过程中使用变换的重要性。它有助于对采样进行编码,通过其能够集中信号(通过分析部分的方法)和量化噪声(通过合成部分的方法)的能量的方法。
通常,声音和图像都是不稳定的,时间频率变换必须适用于如一滤波器组的输入信号特性为函数的时间变化。
以下讨论几种常用的编码技术的应用。
对于调制变换,标准的语音编码技术集成了余弦调制滤波器组,从而能够实现这些采用基于余弦变换或者快速傅里叶变换的快速算法的编码技术。
这类最为常用的变换(尤其是MP3,MPEG-2和MPEG-4的AAC编码中)是改进离散余弦变换(MDCT),其表达式如下:
X k t = &Sigma; n = 0 2 M - 1 x n + tM p k ( n ) , 0 &le; k < M
式中:
·M为变换的长度;
·xn+tM为周期是
Figure BPA00001206401000022
(采样频率的倒数)的数字信号在n+tM时的采样;
·t为帧索引;
Figure BPA00001206401000023
为帧t在变换域中的采样;
为变换的基本函数,式中:
·ha(n)称为原型滤波器或分析加权窗口并且包括2M个采样;以及
·Cn,k定义了调制。
这种变换可应用于声音处理。它也可应用于图像处理,尤其适用于固定图像编码,这时可以采用标准方式将变换依次应用于各行和各列。此外,该原理还可拓展到两维以上的信号。
为了还原原始的时间采样,在解码中应用下述逆变换,以便重构位于两个连续变换的重叠区域中0≤n<M的采样。因此,该解码采样通过下述公式确定,式中
Figure BPA00001206401000031
定义为合成变换,该合成加权窗口为hs(n)并且也覆盖2M个采样:
x ^ n + tM + M = &Sigma; k = 0 M - 1 [ X k t + 1 p k s ( n ) + X k t p k s ( n + M ) ]
形成解码采样的重构公式还可以表示成如下形式:
x ^ n + tM + M = &Sigma; k = 0 M - 1 [ X k t + 1 h s ( n ) C k , n + X k t h s ( n + M ) C k , n + M ]
= h s ( n ) &Sigma; k = 0 M - 1 X k t + 1 C k , n + h s ( n + M ) &Sigma; k = 0 M - 1 X k t C k , n + M
这个重构公式的另一表达式考虑了两个逆余弦变换可能依次应用于变换域的采样
Figure BPA00001206401000035
Figure BPA00001206401000036
因此它们的结果结合了加权和累加操作。这种重构方法如图2所示,其中,变化域中的采样表示为Xt,k,以及时域的重构采样表示为
Figure BPA00001206401000037
MDCT通常使用同一个用于分析和合成的窗口,并因此h(n)=ha(n)=hs(n)。
为了保证信号(受到条件
Figure BPA00001206401000038
的影响)的重构的准确性(称为完整),需要选择满足一些限制的原型窗口h(n)。
下述公式满足获得完整的重构。它们通常都适合于MDCT的窗口重构。
h ( 2 M - 1 - n ) = h ( n ) h 2 ( n ) + h 2 ( n + M ) = 1 - - - ( 2 )
窗口是相对于中心采样的偶对称,如在图3中的实例所示。
这样能相对简单的满足这些采样的限制,并且为此目的,标准的原型滤波器可包括正弦窗口(如图3实线所示),能够表示为如下形式:
h ( n ) = sin [ &pi; 2 M ( n + 0.5 ) ]
当然,还存在其它形式的原型窗口,如在MPEG-4标准所定义的Kaiser-Bessel-Derived窗口(KBD),以及低重叠窗口。
给出适用信号编码变换的必要条件,通过下述的窗口切换,现有技术能使变换随时间而改变。这样需要考虑到变换改变的情况,使用窗口的大小保持不变,使得只有窗口的加权系数随着时间而改变。
上述用于不变窗口的表达式也适合下述窗口改变的情况。在非限制性情况中,对D M C T而言,重叠只包含在的两个连续帧中,对于两个连续帧T1和T2的转换在下文进行明晰。第一帧T1使用分析窗口ha1,并且第二帧使用分析窗口ha2。用于重构的合成窗口选择在窗口ha1和窗口ha2的重叠部分中的相同的分析窗口。因此,当0≤n<M时:
ha1(n+M)=hs1(n+M)
ha2(n)=hs2(n)
与上述相同窗口用于多个连续帧的情况不同,在分析窗口的第一半个与第二半个之间不存在直接的相关关系,这就意味着加权系数ha1(n+M)可以与系数ha1(n)相互独立。相同的,系数ha2(n)与系数ha2(n+M)相互独立。因此,所述分析窗口的形状就有可能随着时间变化而改变的。
当0≤n<M,完整重构的条件变为:
h a 1 2 ( n + M ) + h a 2 2 ( n ) = 1 h a 1 ( 2 M - 1 - n ) . h a 1 ( n + M ) - h a 2 ( M - 1 - n ) . h a 2 ( n ) = 0
用于核实上述条件的较简单的标准解决方法包括对0≤n<M时的选择:
ha1(n+M)=ha2(M-1-n)
因此,参照图4,在帧T2的第一半个中使用的分析窗口(图4中用虚线表示)是在帧T1的第二半个中使用的分析窗口(在图4中用实线表示)的一个镜像版本。也就是说,为了保证完整的重构,现有技术通过除了镜像效果外,还公用相同的分析窗口的方法来改善转变。
镜像作用还可根据合成和分析窗口的平等执行的特性应用于合成窗口。
由于镜像作用,在窗口ha1中的系数ha1(n+M)后的任何零插入(值为0的加权系数)都具有在窗口ha2(在ha2(n)中)起始处插入相同数量的零的效果。然而,这种零插入意味着着对逆顺序M-n插入相同数量数值为1的系数。
更为准确的表示为:
ha1(n+M)=ha2(M-1-n)
因此,如图5所示,这样包括多个零的窗口的一般外形类似于矩形窗口的外形。矩形窗口在频域和高级别的不连续的情况中具有较差的分辨率。这就是现有技术的编码/解码器所固有的第一个问题。
在已知标准化的编码/解码器中,解码器通常随时间变化选择变换。因此,在AAC标准中,如在文献:″Information technology-Codingof audio-visual objects-Part 3:Audio″,ISO/IEC 14496-3(2001)所述,编码器选择和发送对应于分析窗口第二半个的窗口形状,第一半个的窗口通过对先前帧的执行来选择。在AAC标准中,将一个比特发送给解码器,以便在合成中使用相同类型的窗口。
因此,解码器从动(slaved)于编码器,并始终应用编码器确定的窗口类型。
因此,很显然,现有技术的一个缺点是为了保证随着时间所使用的窗口类型的转变,就需要引入相互交错的半个窗口来确保完整的重构。于是,上述分析窗口ha1和ha2在它们的共同区域中就不能互相独立.
本发明旨于改善这种情况。
为此,本发明提出一种在窗口之间进行转变且对连续窗口没有任何限制的方法。
为此,本发明首先提供一种使用具有重叠加权窗口对数字信号进行基于变换的编码的方法,其中两个具有相同尺寸2M的信号采样连续块分别通过第一分析窗口和第二分析窗口进行加权。这些窗口各自包括上升沿和下降沿且第二窗口的上升沿不同于时间反转的第一窗口的下降沿。
这一特征明显不同于上述的现有技术,并因此显示出第一和第二窗口可以完全相互独立的选择的事实,例如,根据适用于两个块各自所确定的信号的特性的标准。
因此,至少提供两类加权窗口,尤其是用于编码的分析,并且可以对例如被检测出特定事件的当前块改变编码的加权窗口的类型。这种特定事件通常是信号的统计行为的变化,或者是发生了特定的现象,例如当前帧中所包含数字信号的能量的大幅增加。
这些步骤对后续块进行重复,从而有可能使用本发明,通过应用确定类型的加权窗口对确定块进行编码,以及通过直接应用另一种类型的加权窗口对在所述确定块之后的块进行编码,且没有限制性,尤其是不存在现有技术中所必要的交替窗口的限制。
如上所述,上述块能够对应于例如信号帧。
根据提供的从一个窗口直接到另一窗口的可能性,并且不需要转变,本发明就有可能通过窗口进行编码,所述窗口适用于被这些窗口所覆盖的每一个信号。于是,在所述窗口所覆盖的每个信号片断中都能获得编码增益的改善。
对比现有技术,通过窗口对信号特性的精确自适应,就能获得编码质量的改善。
在类似的方法中,本发明提供一种具有重叠使用加权窗口对数字信号进行解码的基于变换的方法,其中两个具有相同尺寸的信号采样的连续块分别通过第一合成窗口和第二合成窗口进行加权,这两个合成窗口各自包括上升沿和下降沿,并且具体地,第二个窗口的上升沿不同于时间反转的第一窗口的下降沿。
在本发明的一个实施例中,上述两种类型的分析窗口中的至少一个分析窗口包括至少一个包含系数都为零的结束部分。于是,在解码过程中,合成窗口在其开始部分包括零。这样就有可能减少与应用变换有关的编码和解码的延迟。
因此,本发明发现了在交互式通讯中的有利应用,在交互式通讯中延迟的最小化是非常重要的。
本发明的其它特征和优点将通过下文的详细讨论和附图变得更为明晰,其中图1至图5描述了现有技术。
图6示出了窗口类型的改变,本发明的第一和第二窗口具有不同的形状;
图7示出了本发明的优选实施例,分析窗口在其结束处包括Mz个零系数;
图8示出了优选实施例所获得的编码/解码延迟的减少;
图9示出了本发明的编码/解码系统;
图10A示出了本发明的编码方法的步骤;
图10B示出了解码方法的步骤;
图11示出了优选合成窗口的形状(用虚线表示)。
下文描述了本发明的一个实施例,该实施例有可能从一个分析窗口到另一个窗口,而不需要特定的准备,尤其是不需要任何转变窗口。于是,编码所选择的分析窗口都是相互独立的,这有助于改善编码质量。
考虑当前帧T2,在此假设已经为后续帧T1作了分析窗口的特定选择。为帧T2选择另一分析窗口,以便于在频域中对当前帧T2的采样进行编码。例如,一种可能的标准是帧T2所选择的窗口ha2应该最大化在变换域中的编码增益,如下式给出,式中
Figure BPA00001206401000071
表示变换采样Xk的变化预测:
G TC = 1 M &Sigma; k = 0 M - 1 &sigma; k 2 [ &Pi; k = 0 M - 1 &sigma; k 2 ] 1 / M
此外,不同的标准是基于变换采样的熵的最小化,例如表示为下述形式:
J H = - &Sigma; k = 0 M - 1 X k 2 log [ X k 2 ]
这样可以假设一个更加复杂的标准首先编码/解码后的失真与其次用于编码所需比特率之间的最优折衷。该用于最小化的较为复杂的标准可以如下形式表述,例如,式中D(X)为用于选择比特率的采样Xk的失真的测量;以及R(X)为选定的比特率:
JRD=D(X)+λR(X)
根据最终接受的标准,最佳的分析窗口ha2优选的是在组合的有限集中确定的。使用的分析滤波器的类型(特别是对应于编码加权窗口的分析原型滤波器)所施加的一个限制必须是解码器所已知的并因此必须发送至解码器。
于是,窗口ha2可以从分析窗口{h0,h1,h2,…,hNb-1}的库中选择,其中Nb表示可能选择的数值。因此,这样可以提供用于编码的窗口类型的索引,该窗口类型通过大于或者等于log2(Nb)的比特的整数范围内进行选择,并随后将该编码索引发送至解码器。
用这种方法所定义的所有窗口都可应用于M个采样,长度为2M的分析窗口ha1和/或ha2可以表示为下述公式,式中i和j为在0至Nb-1之间的整数:
h a 1 ( M + n ) = h i ( n ) 0 &le; n < M h a 2 ( n ) = h j ( M - 1 - n ) 0 &le; n < M
窗口hi和hj可以表示为,例如:
·KBD窗口(在图3中的虚线)具有不同形状系数值(通常表示为α)的参数集;
·正弦窗口
·如AAC标准所讨论的低重叠(低延迟)窗口;或者,
·根据不同标准优化的窗口,例如根据在″Bancs de Filtres etquantification vectorielle sur réseau-Etude conjointe pour lacompression d′images″″Bancs de Filtres et quantification vectorielle surréseau-Etude conjointe pour la compression d′images″,P.Onno,Universitéde Rennes 1 thesis(1996)中所述的编码增益标准。
这样就有可能将窗口的选择限制在一组参数窗口(例如KBD窗口)中。在这种情况下,所有的参数都可以以编码形式进行发送(其中KBD窗口的情况是限制类型参数α的量化和编码值)。
在解码时,在接收到用于编码的分析窗口ha2的类型后,并频域采样ha2的解码后,以及随后应用逆DCT变换,都必须应用合成窗口来重构时间采样。为了限制重构信号的明显衰减,优选的是选择在转换层上可以保证完整重建的合成窗。在没有量化时,在直接变换后进行逆变换是不会导致任何失真的。然而,这里所采用的标准是与预先确定的感知阈值相关联的变换重构误差的可分辨性应当是忽略不计的。
为了重构帧T1和T2之间的共同部分且没有因变换而产生的失真,影响该共同部分(hs2(n)和hs1(n+M),其中0≤n<M)的合成窗口部分就必须与覆盖(ha1(n+M)和ha2(n))的相同的共同部分的分析窗口相关联。下述表达式定义了能够保证该共同部分完整重构的条件,式中n=0...M-1:
h a 1 ( n + M ) . h s 1 ( n + M ) + h a 2 ( n ) . h s 2 ( n ) = 1 h a 1 ( 2 M - 1 - n ) . h s 1 ( n + M ) - h a 2 ( M - 1 - n ) . h s 2 ( n ) = 0
在条件D(n)=ha1(n+M)·ha2(M-1-n)+ha2(n)·ha1(2M-1-n)≠0中,通过解该系统的窗口hs2(n)和hs1(n+M)的公式,可以得到:
h s 1 ( n + M ) = h a 2 ( M - 1 - n ) D ( n ) h s 2 ( n ) = h a 1 ( 2 M - 1 - n ) D ( n )
于是,合成窗口hs1(n+M)和hs2(n)的选择确保了完整的重构。
因此,合成中:
·窗口hs1(n+M)应用于帧T1的第二部分进行MDCT逆变换;以及
·窗口hs2(n)应用于帧T2的第一半个进行MDCT逆变换。
两个加权的结果通过逐项相加得到总和,从而获得解码的采样。
窗口hs1(n+M)和hs2(n)可简单地通过应用校正参数D′(n)=1/D(n)之后的分析窗口的时间反转来重构。因此,窗口hs1(n+M)通过分析窗口ha2(n)时间索引的反转进行重构,相应的窗口hs2(n)通过分析窗口ha1(n+M)时间索引的反转进行重构。该修正参数(对应于各个窗口所应用的增益)可由D′(n)=1/D(n)定义。这里,时间反转或时间索引反转的表达式涉及到将窗口的形状定义成等于且与当前时间索引相反的索引(-n)的函数。
ha2(M-1-n)类型的窗口可以应用于帧T1的第二部分以及ha1(2M-1-n)类型窗口可以应用于帧T2的第一半个。然后,将加权的结果进行相加,并且最后采用加权参数D′(n)=1/D(n)进行加权。
一个显著的特征是加权参数1/D(n)是一个简单的增益参数,可用于校正幅度失真。因此,使用窗口ha2(M-1-n)和ha1(2M-1-n)的重构操作产生一个除去时间反转分量的重构信号。因此,增益D′(n)可以看成一项简单的幅度校正。
增益D(n)的表达式还可以具有下列显著特性:D(n)=D(M-1-n),实际上,它表示了只有M/2个增益系数D(n)必须进行计算和/或存储。这个特性还应用于在合成中的增益D′(n)。
因此,第一个实施例可以在编码中存储所有的包含在分析窗口之间所有可能转变的所有分析窗口,即,下述表达式的解:
(式中Di,j(n)=hi(n+M)·hj(M-1-n)+hj(n)·hi(2M-1-n)):
h s 1 , i , j ( n + M ) = h j ( M - 1 - n ) D i , j ( n ) h s 2 , i , j ( n ) = h j ( 2 M - 1 - n ) D i , j ( n )
因而,该实施例需要大量的内存。
第二实施例可以在解码器中存储分析窗口,因为它们具有或者伴随时间反转索引。随后,计算增益Di,j(n),(0≤n<M/2);在此之后,使用时间反转分析窗口进行重构。最后,在加法之后获得的结果通过增益D′i,j(n)=1/Di,j(n)进行加权。
对于(i,j)部分的一些特定组合,可能会有对一组n个采样,增益Di,j(n)=1。在该特定的情况中,可以省略最终的加权。
有可能把该简化式拓展到下述情况中,其中增益Di,j(n)非常接近于单位值,尤其是如果幅度增益的失真被校正至小于0.1dB,例如,在实际操作中,它可能表现为在增益Di,j(n)和单位值之间的差值的绝对值小于一确定的阈值,例如0.01。
在上述任意一个实施例中,增益函数Di,j(n)和其它的反转函数D′i,j(n)可以在使用时或者在为使用而最初的存储时以及当需要时进行计算。
需要进一步注意的是,增益公式Di,j(n)对每个(i,j)部分只需要M/2个存贮元素。此外,不是所有的组合都需要被储存,例如,不论任何(i,j)部分,Di,j(n)=Dj,i(n)。
以下讨论本发明应用于延迟减少的优选实施例。
在该特定实施例中,在零处的加权窗口的整数部分(加权系数的连续值)执行ha1(n+M)的分析窗的操作。更具体地,窗口ha1(n+M)包括在2M-Mz≤n<2M范围中(Mz<M/2)的Mz个零的部分,如图7所示,在该实施例中示出了两个典型的窗口。
在第一实施例中,与现有技术不同,窗口ha1和ha2在M和2M之间的范围内互相独立。选择窗口ha1和ha2的唯一条件为在0≤n<M中的D(n)数值必须不为零。窗口ha1(n+M)的特殊结构确保了合成窗口hs2(n)可以在0至Mz-1之间包括零。该结果可以从下述公式中得出:
h s 2 ( n ) = h a 1 ( 2 M - 1 - n ) D ( n )
因此,很显然,如同用于分析的同一不对称窗口ha1,零系数的数量Mz必须遵循下述公式给出的增益D(n)的条件,其中Mz<M/2:
D(n)=ha1(n+M)·ha1(M-1-n)+ha1(n)·ha1(2M-1-n)≠0
分析窗口ha1(n+M)的部分被设置为零,对采样重构延迟具有有利的效果,如下所述。
参照图8,帧T1(其长度为2M个采样)进行应用窗口ha1的操作。该加权的结果是通过DCT进行操作。因为,窗口ha1包括零,帧T1可容易的进行编码并且在2M-Mz个采样的结束后被发送。不需要等到帧T1的2M采样后发送对应的编码帧,但是只等到处理其第一个2M-Mz采样。对比现有技术标准窗口的使用,本发明具备对应于帧T1结束处Mz采样操作的时间优势。
在合成时,类似的合成窗口hs1在零处包括Mz的第一系数(不再是窗口的结束处,而现在是在窗口的开始处),通过相同的方法,有可能重构具有Mz个预先的解码采样。在实际操作中,对应于合成窗口开始部分的Mz采样通过图8中的操作窗口进行重构,因为窗口hs1的开始部分没有影响。于是,同样不再需要等待在逆DCT后的随后采样,就能有效地重构Mz个解码采样,在合成中这就使得Mz采样具备更有效的优势。
因此,在该分析窗口的结束部分执行连续零系数Mz可以使得有可能减少由处理2Mz采样的直接MDCT变换产生的延迟,以及随后对2Mz采样执行的MDCT-1逆变换所产生的延迟。因此,总延迟为2M-2Mz采样。该延迟的减少是通过具有2M-Mz的有效长度的窗口进行完成实现的,而现有技术的解决方案是通过一标准方法的分析和合成窗进行实施的,该窗对相同的延迟减少是同一的(除时间反转以外),并且具有2M-2Mz的有效长度。因此,可以执行根据这种通过执行更长的窗的实施例的方法,并且获得的频率响应更具有优势,并且编码的质量得到改善。
虽然该现有技术执行了在中间的系数为数值1的加权窗口,如果在该窗口的开始和结束引入了零值,这样具有该种类型的窗口(图5)会降低编码的特性,本发明不具有该缺点。此外,因为对连续分析窗口的选择没有限制,可以获得满意的编码特性。
因此,能够从在其结束部分包括零的分析滤波(例如,在原型滤波器的库中)中选择比其他信号编码更加适合的分析变换,就可以获得最佳的信号的编码和解码,并且与现有技术相比可以减少2Mz延迟。
以下讨论本发明的一个特定实施例,其中选择一组窗口ha1和ha2用于编码,这样就有可能避免在合成中的校正D′(n)。这里,有一个问题,需要对初始分析窗口进行重大修改。以便于保证合成时加权函数D′(n)为常数和等于单位值。
为此目的,两个分析窗口的部分基于在0≤n<2M的范围中定义的窗口h(n)进行确定,并且使得任何索引n满足非零的归一化因子Δ(n),其中0≤n<M:
&Delta; ( n ) = h ( n ) h ( 2 M - 1 - n ) + h ( n + M ) h ( M - 1 - n ) &NotEqual; 0
因此,当0≤n<M时,可以获得:
ha1(n+M)=h(n+M)/Δ(n)以及ha2(n)=h(n)/Δ(n)
通过这样的方法,在解码中的增益D′(n)对任何n是同一的,并且在合成中的重构由相同的但时间相反的分析窗口ha1和ha2的加权实现,该加权在一个简单的叠加之后。
一个窗口h(n)的实施例,其中0≤n<2M包括Mz个零,并且有可能限制2Mz采样的延迟,其中当0≤n<2M-Mz时:
h ( n ) = sin [ &pi; 2 M - M z ( n + 1 2 ) ]
否则,即,当2M-Mz≤n<2M时:h(n)=0
另一个可能的选择为包括在凯瑟-贝塞尔窗口中定义的能够根据一形式参数α进行变换的频率选择,当0≤n<M-Mz/2时,如下:
h ( n , &alpha; ) = I 0 [ &pi;&alpha; 1 - ( n - M &prime; M &prime; ) 2 I 0 [ &pi;&alpha; ] , with M &prime; = M - M z / 2
式中当0≤n<M-Mz/2时,h(2M-Mz-1-n,α)=h(n,α);以及
否则,h(n,α)=0(当n为2M-Mz≤n<2M)。
因此,可预见的是,有可能通过从所选择的初始化窗口h(n)中来确定分析窗口ha1和ha2并且通过简单的时间反转来确定合成窗口。
为了执行本发明的解码,还有可能直接从在窗口的开始部分包括Mz零系数的初始窗口h(n)中来确定两个合成窗口的部分hs1和hs2
根据正弦初始窗口(在图11中的实线曲线),当0≤n<Mz时:
h(n)=0;以及
当0≤n<2M-Mz时:
h ( n + M z ) = sin [ &pi; 2 M - M z ( n + 1 2 ) ]
因此,合成窗口部分hs1和hs2可以直接推断,如下式:
hs1(n+M)=h(n+M)/Δ(n)
hs2(n)=h(n)/Δ(n)0≤n<M
如之前所述,当0≤n<M时:
&Delta; ( n ) = h ( n ) h ( 2 M - 1 - n ) + h ( n + M ) h ( M - 1 - n ) &NotEqual; 0
图11以虚线示出由两个窗口部分hs1和hs2获得的整体合成窗口hsi的形状,该窗口部分hs1和hs2从在该实施例中实线表示的正弦的初始窗口h(n)中获得。
在此,籍助于图9所示的编码/解码系统的示例来阐释本发明的一个实施例。编码器COD接收用于编码的数字信号S,该数字信号包括连续的采样Xn。该连续采样以连续块Bi,Bi+1及其它等等进行处理,即,各个块具有2M个采样(图10A,步骤101)。处理操作是指编码器的微处理器依次分析块Bi的内容(图10A,步骤102),例如根据确定的标准(熵,编码增益,失真/比特率,等)以及通过使用编码器DIC库推导分析窗口hai,使得该窗口是根据上述标准最适用于块Bi。通过这种方法选择的分析加权窗口hai应用于当前块Bi(图10A,步骤103),然后进行编码(步骤104)。
由编码获得的块B′i然后从图9中以编码信号S′与在选定的分析窗口hai的DIC库中的编码一起发送到解码器DECOD。当然,解码器DOCOD接收到与先前块B′i-1同时库DIC中的编码表示先前使用的分析窗口hai-1。当接收包括连续编码块B′iB′i+1等的编码信号S′和用于对块Bi编码分析的hai进行编码的窗口(图10B,步骤106),解码器DECOD从自己的库DIC’(与编码器的库DIC类似)中确定用于合成的部分窗口hsi-1(n+M)和hsi(n)(步骤107)。
这里所阐述的实施例,处理过程是指解码器DECOD的处理器对各项为时间索引n预判校正参数D(n),该校正参数D(n)与先前分析使用的窗口hai-1相关联。如果校正参数接近于1(例如具有0.1dB绝对值的阈值),则在图10B的检测步骤109中,解码器应用非校正(箭头Y在检测步骤109的输出处)。否则(箭头n),处理步骤是指微处理器应用上述的校正D′(n)=1/D(n)(步骤110)。处理步骤继续执行对发送的(无损)解码信号
Figure BPA00001206401000141
的解码块
Figure BPA00001206401000142
等进行解码如在步骤111中块B′i通过窗口hsi进行的加权一样,该解码信号的(无损)采样具有初始采样Xn的值,因为执行了完整重构。
本发明还提供了在图9中所示的编码器COD类型,以及存储在例如编码器内存中的计算机程序,以及能够用图10A所示流程图表示的算法。本发明还提供了如图9所示的解码器DECOD,以及存储在例如解码器内存中的计算机程序,以及能够用图10B所示流程图表示的算法。

Claims (17)

1.一种使用具有重叠的加权窗口对数字信号进行基于变换的编码方法,其特征在于,两个具有相同尺寸(2M)的信号采样连续块分别通过第一分析窗口(ha1)和第二分析窗口(ha2)进行加权,以及,
所述第一分析窗口和第二分析窗口各自包括上升沿和下降沿且第二窗口(ha2)的上升沿不同于时间反转的第一分析窗口(ha1)的下降沿,并且所述第一分析窗口和第二分析窗口是相互独立的。
2.根据权利要求1所述的编码方法,其特征在于,所述第一和第二分析窗口是根据适用于两个块各自确定的信号特性的标准所选择的各个加权窗口相互独立选择。
3.根据权利要求2所述的编码方法,其特征在于,所述选择加权窗口的标准是下述条件的一个或其组合:
●最大化编码增益(GTC);
●最小化变换采样的熵(JH);
●优化由编码/解码所引起的失真以及所述编码所需的比特率的折衷(JRD)。
4.根据权利要求1所述的编码方法,其特征在于,所述用于块编码的各个加权窗口选自可能加权窗口的库,所述窗口索引都与来自所述库的各个窗口有关,
以及所述选择窗口的索引发送至解码器,以解码与在编码中选择窗口类似的窗口。
5.根据权利要求1所述的编码方法,其特征在于,至少一些所述分析窗口在该窗口结束部分包含确定数量(Mz)值为零的连续加权系数,以及零系数的所述确定数量(Mz)小于窗口系数总数(2M)的四分之一。
6.一种使用具有重叠的加权窗口对数字信号进行基于变换的解码方法,其特征在于,两个具有相同尺寸(2M)的信号采样连续块分别通过第一合成窗口(hs1)和第二合成窗口(hs2)进行加权,以及,其中所述第一合成窗口和第二合成窗口各自包括上升沿和下降沿且所述第二合成窗口(hs2)的上升沿不同于时间反转的所述第一窗口(hs1)的下降沿,并且所述第一分析窗口和第二分析窗口是相互独立的。
7.根据权利要求6所述的解码方法,其特征在于,接收在所述编码器处的分析窗口中的连续用于编码的信息(cod(hai)),并且所述第一和第二合成窗口(hs1,hs2)从连续用于编码的第一和第二分析窗口(ha1,ha2)中进行推断,通过分别反转所述第二和第一分析窗口的加权系数的时间位置和分别对第二和第一分析窗口的每个加权系数应用校正因子(1/D(n)),所述第一和第二合成窗口可以分别通过所述第二和第一分析窗口推断出来。
8.根据权利要求7所述的解码方法,其特征在于,所述第一合成窗口(hs1)和第二合成窗口(hs2)可以分别通过第一分析窗口(ha1)和第二分析窗口(ha2),使用以下类型的公式进行推断:
h s 1 ( n + M ) = h a 2 ( M - 1 - n ) D ( n ) h s 2 ( n ) = h a 1 ( 2 M - 1 - n ) D ( n )
式中:
●数字M使得一个采样块包括2M个采样;
●n是包括在O至M-1之间的时间位置索引;
●h(n)表示具有时间位置索引n的窗口h的加权系数;
●-n与所述索引n相等且相反,表示所述时间位置的反转;以及,
●D(n)表示所述校正因子应用于时间位置系数n,其中该因子是在包括在O至M-1之间的非零值,并且通过公式表示为:
D(n)=ha1(n+M)·ha2(M-1-n)+ha2(n)·ha1(2M-1-n)。
9.根据权利要求7所述的解码方法,其特征在于,所述分析窗口中的信息包括选自用于编码的窗口的库(DIC)中的索引,以及提供用于解码的包括与用于编码的分析窗口相似的分析窗口的相似库(DIC′),以及通过所述校正因子(1/D(n))预先校正,每个在相似库中的窗口都有可以由发送至解码器的所述分析窗口索引所确定的库索引。
10.根据权利要求7所述的解码方法,其特征在于,所述在分析窗口中的信息包括从用于编码的窗口的库(DIC)中的索引,以及还提供用于解码的包括从用于编码的分析滤波器组的原形滤波器中分别获得的窗口的相同的库,以及其中为编码应用:
●时间位置反转;以及,
●如果预测的系数的校正因子完全不同于在预定阈值中的单位值,将所述校正因子(1/D(n))应用于选自所述库的窗口的系数。
11.根据权利要求6所述的解码的方法,其特征在于,至少一些所述合成窗口包括在该窗口开始部分具有确定数量的值为零的连续加权系数,以及零系数的所述确定数量(Mz)小于窗口系数总数(2M)的四分之一。
12.根据权利要求11所述的解码方法,其特征在于,包括使用对应两个时间反转分析窗口部分的加权窗口的合成操作,其中通过所述合成窗口进行的加杈是籍助于累加来实现的,所述第一和第二分析窗口(ha1、ha2)可以通过ha1(n+M)=h(n+M)/△(n)以及ha2(n)=h(n)/△(n)类型公式表示,其中初始窗口h(n)表示变量,式中数字M使得一个采样块包括2M个采样,n是时间索引且0≤n<M,以及△(n)是定义任何索引n且0≤n<M的非零归一化因子。
13.根据权利要求11所述的解码方法,其特征在于,所述根据hs1(n+M)=h(n+M)/△(n)和hs2(n)=h(n)/△(n)且0≤n<M类型的公式,所述第一和第二合成窗口的部分(hs1、hs2)直接由其开始部分包括所述零系数的确定数量(Mz)的初始窗口h(n)所确定,式中数字M使得一个采样块包括2M个采样,n为时间索引且0≤n<M,并且△(n)是用于定义任何索引n且0≤n<M的非零归一化因子。
14.根据权利要求12所述的方法,其特征在于,所述归一化因子可以表示为类型的公式:
&Delta; ( n ) = h ( n ) h ( 2 M - 1 - n ) + h ( n + M ) h ( M - 1 - n ) .
15.根据权利要求13所述的方法,其特征在于,所述初始窗口h(n)通过下式表示,式中Mz是在初始窗口起始处的所述零系数的确定数量:
当0≤n<Mz时h(n)=0;
Figure FSB0000110101080000052
16.一种用于具有重叠加权窗口的基于变换的数字信号编码的设备,其特征在于,包括实施根据权利要求1至5中任一所述方法的装置。
17.一种用于具有重叠加杈窗口的基于变换的数字信号解码的设备,其特征在于,包括实施根据权利要求6至15中任一所述方法的编码指令。
CN2008801273013A 2007-12-21 2008-12-11 一种具有合适的窗口的基于变换的编码和解码方法 Active CN101952888B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0760258 2007-12-21
FR0760258 2007-12-21
PCT/FR2008/052286 WO2009081003A1 (fr) 2007-12-21 2008-12-11 Codage/decodage par transformee, a fenetres adaptatives

Publications (2)

Publication Number Publication Date
CN101952888A CN101952888A (zh) 2011-01-19
CN101952888B true CN101952888B (zh) 2013-10-09

Family

ID=39689331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801273013A Active CN101952888B (zh) 2007-12-21 2008-12-11 一种具有合适的窗口的基于变换的编码和解码方法

Country Status (9)

Country Link
US (1) US8253609B2 (zh)
EP (1) EP2232489B1 (zh)
JP (1) JP5328804B2 (zh)
KR (1) KR101408183B1 (zh)
CN (1) CN101952888B (zh)
BR (1) BRPI0821091B1 (zh)
ES (1) ES2666719T3 (zh)
RU (1) RU2488898C2 (zh)
WO (1) WO2009081003A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
FR2977969A1 (fr) * 2011-07-12 2013-01-18 France Telecom Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
KR101831286B1 (ko) * 2013-08-23 2018-02-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 엘리어싱 오류 신호를 사용하여 오디오 신호를 처리하기 위한 장치 및 방법
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN113630104B (zh) * 2021-08-18 2022-08-23 杭州电子科技大学 图滤波器的滤波器组频率选择性误差交替优化设计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5394473A (en) * 1990-04-12 1995-02-28 Dolby Laboratories Licensing Corporation Adaptive-block-length, adaptive-transforn, and adaptive-window transform coder, decoder, and encoder/decoder for high-quality audio

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3093178B2 (ja) * 1989-01-27 2000-10-03 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 高品質オーディオ用低ビットレート変換エンコーダ及びデコーダ
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US5913190A (en) * 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with video/audio data synchronization by audio sample rate conversion
US5903872A (en) * 1997-10-17 1999-05-11 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to attenuate spectral splatter at frame boundaries
US5899969A (en) * 1997-10-17 1999-05-04 Dolby Laboratories Licensing Corporation Frame-based audio coding with gain-control words
EP1386312B1 (en) * 2001-05-10 2008-02-20 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US7302111B2 (en) * 2001-09-12 2007-11-27 Micronic Laser Systems A.B. Graphics engine for high precision lithography
CN1288622C (zh) * 2001-11-02 2006-12-06 松下电器产业株式会社 编码设备和解码设备
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
MY159110A (en) * 2008-07-11 2016-12-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5394473A (en) * 1990-04-12 1995-02-28 Dolby Laboratories Licensing Corporation Adaptive-block-length, adaptive-transforn, and adaptive-window transform coder, decoder, and encoder/decoder for high-quality audio

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SMART G ET AL.Filter bank design based on time domain aliasing cancellation with non-identical windows.《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH, AND SIGNAL PROCESSING (ICASSP)》.1994,185-188. *
Von Bernd Edler.CODIERUNG VON AUDIOSIGNALEN MIT UEBERLAPPENDER TRANSFORMATION UND ADAPTIVEN FENSTERFUNKTIONEN.《FREQUENZ, SCHIELE UND SCHON》.1989,252-256. *

Also Published As

Publication number Publication date
JP2011507440A (ja) 2011-03-03
EP2232489A1 (fr) 2010-09-29
RU2488898C2 (ru) 2013-07-27
BRPI0821091A2 (pt) 2015-06-16
JP5328804B2 (ja) 2013-10-30
ES2666719T3 (es) 2018-05-07
CN101952888A (zh) 2011-01-19
RU2010130311A (ru) 2012-01-27
KR20110111231A (ko) 2011-10-10
US8253609B2 (en) 2012-08-28
WO2009081003A1 (fr) 2009-07-02
US20100283639A1 (en) 2010-11-11
KR101408183B1 (ko) 2014-06-19
BRPI0821091B1 (pt) 2020-11-10
EP2232489B1 (fr) 2018-02-07

Similar Documents

Publication Publication Date Title
CN101952888B (zh) 一种具有合适的窗口的基于变换的编码和解码方法
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
CN1918632B (zh) 音频编码
Ozerov et al. Informed source separation: source coding meets source separation
CN101325060B (zh) 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备
JP7280306B2 (ja) 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
US20050114126A1 (en) Apparatus and method for coding a time-discrete audio signal and apparatus and method for decoding coded audio data
EP2625687B1 (en) Apparatus and method for level estimation of coded audio frames in a bit stream domain
US20110145003A1 (en) Simultaneous Time-Domain and Frequency-Domain Noise Shaping for TDAC Transforms
CN106462557A (zh) 通过内插对音频信号进行重采样用于低延迟编码/解码
KR20130133848A (ko) 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식
CN102201238B (zh) 用于编码和解码激励模式的方法和装置
CN1918630B (zh) 量化信息信号的方法和设备
US11113934B2 (en) Encoding/decoding apparatuses and methods for encoding/decoding vibrotactile signals
US20060122825A1 (en) Method and apparatus for transforming audio signal, method and apparatus for adaptively encoding audio signal, method and apparatus for inversely transforming audio signal, and method and apparatus for adaptively decoding audio signal
CN103930946A (zh) 延迟优化的重叠变换,编码/解码加权窗口
EP2763137B1 (en) Voice signal encoding method and voice signal decoding method
CN1918631B (zh) 音频编码设备、方法和音频解码设备、方法
CN1458646A (zh) 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
CN1898722B (zh) 经改善的频域误码掩蔽
Deepa et al. Image coding using lapped biorthogonal transform
Imm et al. Lossless coding of audio spectral coefficients using selective bitplane coding
KR20100124675A (ko) Mdct―tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant