CN101868822B - 基于整数变换的编码和解码的取整噪声整形 - Google Patents

基于整数变换的编码和解码的取整噪声整形 Download PDF

Info

Publication number
CN101868822B
CN101868822B CN2008801172506A CN200880117250A CN101868822B CN 101868822 B CN101868822 B CN 101868822B CN 2008801172506 A CN2008801172506 A CN 2008801172506A CN 200880117250 A CN200880117250 A CN 200880117250A CN 101868822 B CN101868822 B CN 101868822B
Authority
CN
China
Prior art keywords
transformation
shaping
coefficient
integer
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008801172506A
Other languages
English (en)
Other versions
CN101868822A (zh
Inventor
彼得·杰克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN101868822A publication Critical patent/CN101868822A/zh
Application granted granted Critical
Publication of CN101868822B publication Critical patent/CN101868822B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

整数MDCT用于无损音频编码。但是,整数可逆变换被分成连续的提升步骤,每个步骤向信号引入不可忽略的取整误差。要编码的有用信号的电平越低,该问题就越严重。在没有噪声整形的情况下,取整误差噪声会对被变换信号的所有频率箱造成相等的影响。特别对于实际信号电平较低的频率箱而言,这是一个问题。本发明限制在整数可逆变换中来自或由于每个提升步骤导致的取整误差噪声对无损编解码的数据率的影响。根据当前时域信号特征,在各个单独提升步骤中针对变换系数,调整自适应噪声整形滤波器的滤波器系数。备选地,可以在无损变换之前添加自回归预滤波器。该滤波器将提高具有较低功率的频率区域的电平作为目标,以降低这些区域中取整误差的主导地位。这两种处理可以组合,以进一步提高无损编解码的压缩率。

Description

基于整数变换的编码和解码的取整噪声整形
技术领域
本发明涉及一种用于改进音频或视频信号的编码效率的方法和装置。
背景技术
整数可逆变换,特别是整数MDCT(IntMDCT),用于无损或HD(高清)音频/视频编码。例如,最近标准化的MPEG-4 SLS编解码器使用IntMDCT。
该方法也可以应用在使用无损变换的其他领域,例如,整数可逆小波变换用于无损的图像和视频编码。
任何整数可逆变换的问题在于,该变换被分成连续步骤,每个步骤向信号引入不可忽略的取整误差。要编码的有用信号的电平越低,该问题就越严重。因此,取整误差噪声是残差编码方案中的制约因素,在残差编码方案中,残差是原始(或无损或HD)信号与其有损或标清编码版本之间的误差信号。
在没有噪声整形的情况下,取整误差噪声会对被变换信号的所有频率箱造成相等的影响。特别对于实际信号电平较低的频率箱而言,这是一个问题。在取整误差占据了主导地位的箱中,为了无损变换,要付出熵(并且因此是数据率)急剧增大方面的较大“惩罚”。对于取整误差并非主导的频率箱,这种惩罚小很多。
在Yoshikazu Yokotani,Ralf Geiger,Gerald D.T.Schuller,SoontornOraintara,K.R.Rao,“Lossless audio coding using the IntMDCT androunding error shaping”,IEEE Transactions on Audio,Speech,andLanguage Processing,Vol.14,No.6,pp.2201-2211,November 2006中,Fraunhofer已经提出了针对上述问题的解决方案,其中,提出了向多个提升步骤(表示变换的小的整数可逆子步骤)添加固定的噪声整形滤波器,以处理特别是从高频到低频的取整误差影响。上述作者采用启发式优化准则来寻找噪声整形滤波器系数。该方法的简单变型是MPEG-4 SLS编解码器的一部分(固定的一阶低通滤波器)。
基于提升方案的整数变换将整数映射到整数,并且是可逆的。这种提升的基本思想是:例如,如果一对滤波器(h,g)是互补的,即,允许理想的重建,则对于每个滤波器s,该对(h’,g)在h’(z)=h(z)+s(z2)*g(z)的情况下也允许理想重建。对于滤波器t以及形式为g’(z)=g(z)+t(z2)*h(z)的每个对(h,g′),也是如此。相反也是如此:如果滤波器组(h,g)和(h’,g)允许理想重建,则存在唯一的滤波器s,其中h’(z)=h(z)+s(z2)*g(z)。
滤波器组的每一个这种变换操作称为提升步骤。一系列提升步骤可以构成交替提升,即,在一个步骤中,固定低通,而改变高通,在下一步骤中,固定高通,而改变低通,从而可以合并相同方向的连续步骤。
在视频编码领域,Min Shi,Shengli Xie,“A Lossless ImageCompression Algorithm by Combining DPCM with Integer WaveletTransform”,IEEE 6th CAS Symp.on Emerging Technologies:Mobile andWireless Comm.,Shanghai,China,May 31-June 2,2004中已公开了处理上述问题的另一方法。作者在无损变换之前应用DPCM预滤波器,从而对信号进行“白化”,并因此以类似信号谱的方式对取整误差噪声(也是“白色”的)进行有效整形。但是,该方法也有一些不足之处:第一,为了实现整数可逆,预滤波器需要向其自身添加取整误差,这会降低编码性能(参见下文);第二,作者采用“正常”前向DPCM滤波器,但是,该滤波器不是针对上述问题的最优选择。
发明内容
虽然平均来讲上述固定噪声整形是有益的,但是其对于单独的信号块可能在很大程度上是次优的。
本发明要解决的问题是优化在使用提升的整数可逆变换中的取整误差噪声分布、以及/或者减小对特定音频或视频信号进行比特精度的编码所必需的数据率,即,提高编码/解码效率。该问题由权利要求1和3公开的方法解决。权利要求2和4中公开了使用这些方法的相应装置。
本发明通过使用噪声整形的逐块调整,来限制在整数可逆变换中来自或由于每个提升步骤导致的取整误差噪声对无损编解码的数据率的影响。可以使用两种基本方法:
第一,根据当前时域信号特征,在各个单独提升步骤中调整用于变换的噪声整形滤波器的滤波器系数或频域系数。已经开发了新的分析调整规则,其得到接近最优的滤波器系统。此外,附加的(可选的)迭代过程产生局部最优系数集合。第二,可以在无损变换之前添加自回归(即,递归)预滤波器。该滤波器明显地将“提高”具有较低功率的频率区域的电平作为目标,以降低这些区域中取整误差的主导地位。该预滤波器共享本发明中与用于变换的自适应噪声整形处理或频域系数相同的调整规则。有利地,这两种基本处理可以组合,以进一步提高无损编解码的压缩率。
根据其可以计算滤波器系数的音频或视频信号采样帧可以具有与音频或视频信号采样块到相应的变换系数块的长度不同的长度,其中采用相应的变换系数块的滤波器系数。
作为备选或作为附加的,可以相对于采样块,在时间上移动采样帧,这种实施例的优点在于,不需要向解码器侧发送滤波器系数,而可以在解码器侧相应地计算滤波器系数。
可以不直接根据信号采样帧来计算滤波器系数,而是根据在编码处理中(例如,在音频或视频信号编码器的滤波器组部分中)可获得的误差或残差信号,来计算滤波器系数。
原理上,本发明的编码方法适合提高音频或视频信号的编码效率,其中针对所述信号的每个采样块,使用整数可逆变换,来处理所述信号,该整数变换是使用提升步骤来执行的,所述提升步骤表示所述整数变换的子步骤,所述提升步骤包括取整运算,其中执行针对从所述提升步骤产生的取整误差的噪声整形,所述方法包括如下步骤:
-使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形,对所述采样块进行整数变换,其中所述整数变换提供相应的变换系数块,并且执行所述噪声整形,以减小来自当前变换块中的低电平幅度变换系数的取整噪声,而增大来自所述当前变换块中的高电平幅度变换系数的取整噪声,并且相应的噪声整形滤波器的滤波器系数是根据所述音频或视频信号采样,逐帧地导出的。
原理上,本发明的编码装置适合提高音频或视频信号的编码效率,其中针对所述信号的每个采样块,使用整数可逆变换,来处理所述信号,该整数变换是使用提升步骤来执行的,所述提升步骤表示所述整数变换的子步骤,所述提升步骤包括取整运算,其中执行针对从所述提升步骤产生的取整误差的噪声整形,所述装置包括:
-用于使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形,对所述采样块进行整数变换的装置,其中所述整数变换提供相应的变换系数块,并且执行所述噪声整形,以减小来自当前变换块中的低电平幅度变换系数的取整噪声,而增大来自所述当前变换块中的高电平幅度变换系数的取整噪声;
-相应的噪声整形滤波器,其滤波器系数是根据所述音频或视频信号采样,逐帧地导出的。
原理上,本发明的解码方法适合提高音频或视频信号的编码/解码效率,其中在编码器侧,针对所述信号的每个采样块,使用整数可逆变换,来处理所述信号,该整数变换是使用提升步骤来执行的,所述提升步骤表示所述整数变换的子步骤,所述提升步骤包括取整运算,其中执行针对从所述提升步骤产生的取整误差的噪声整形,
其中,所述采样块是使用提升步骤以及至少一些针对所述提升步骤的自适应噪声整形而被整数变换的,所述整数变换提供相应的变换系数块,并且执行所述噪声整形,以减小来自当前变换块中的低电平幅度变换系数的取整噪声,而增大来自所述当前变换块中的高电平幅度变换系数的取整噪声,并且相应的噪声整形滤波器的滤波器系数是根据所述音频或视频信号采样,逐帧地导出的;
所述编码的音频或视频信号的解码包括如下步骤:
-使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形,对所述采样块进行整数逆变换,其中所述逆变换针对变换系数块执行,并提供相应的输出采样值块,其中执行所述噪声整形,以减小来自当前逆变换块中的低电平幅度变换系数的取整噪声,而增大来自所述当前逆变换块中的高电平幅度变换系数的取整噪声,并且相应的噪声整形滤波器的滤波器系数是根据逆变换的音频或视频信号采样,逐帧地导出的。
原理上,本发明的解码装置适合提高音频或视频信号的编码/解码效率,其中在编码器侧,针对所述信号的每个采样块,使用整数可逆变换,来处理所述信号,该整数变换是使用提升步骤来执行的,所述提升步骤表示所述整数变换的子步骤,所述提升步骤包括取整运算,其中执行针对从所述提升步骤产生的取整误差的噪声整形,
其中,所述采样块是使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形而被整数变换的,所述整数变换提供相应的变换系数块,并且执行所述噪声整形,以减小来自当前变换块中的低电平幅度变换系数的取整噪声,而增大来自所述当前变换块中的高电平幅度变换系数的取整噪声,并且相应的噪声整形滤波器的滤波器系数是根据所述音频或视频信号采样,逐帧地导出的;
所述装置适合对编码的音频或视频信号进行解码,并且包括:
-用于使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形,对所述采样块进行整数逆变换的装置,其中所述逆变换针对变换系数块执行,并提供相应的输出采样值块,其中执行所述噪声整形,以减小来自当前逆变换块中的低电平幅度变换系数的取整噪声,而增大来自所述当前逆变换块中的高电平幅度变换系数的取整噪声;
-相应的噪声整形滤波器,其滤波器系数是根据逆变换的音频或视频信号采样,逐帧地导出的。
在各个从属权利要求中公开了本发明的其他有利实施例。
例如,可以根据在所述音频或视频信号的解码处理(即,在音频或视频信号解码的滤波器组部分)中可获得的误差或残差信号,逐帧地导出噪声整形滤波器的滤波器系数。
该噪声整形滤波器可以是预滤波器(后滤波器),该预滤波器(后滤波器)不是布置在整数变换(整数逆变换)内,而是布置在整数变换(整数逆变换)的上游(下游)。
该上游(下游)噪声整形预滤波器(后滤波器)也可以除布置在整数变换(整数逆变换)内的噪声整形滤波器之外的附加的滤波器。
附图说明
参照附图描述本发明的示例实施例,附图中:
图1示出了对于TDAC,Givens旋转到三个连续提升步骤的分解,其中每个提升步骤具有取整运算;
图2示出了针对两个并行输入信号(立体声情况)应用的多维提升方案,其中两个输入信号x和y已经遭受TDAC块中的取整误差噪声;
图3示出了使用噪声整形的取整;
图4示出了公知的基于有损的无损编码器和解码器的基本框图;
图5示出了整数MDCT的分解;
图6示出了公知的无噪声整形的单个多维提升步骤;
图7示出了单个多维提升步骤中的公知的噪声整形;
图8示出了本发明的自适应噪声整形IntMDCT独立变体;
图9示出了本发明的自适应噪声整形逆IntMDCT独立变体;
图10示出了本发明的自适应噪声整形IntMDCT可缩放到无损变换编码器;
图11示出了本发明的自适应噪声整形逆IntMDCT可缩放到无损变换编码器;
图12示出了本发明的自适应预滤波器IntMDCT独立变体;
图13示出了本发明的自适应预滤波器逆IntMDCT独立变体。
具体实施方式
整数MDCT(IntMDCT)是对正常MDCT算法的近似,正常MDCT算法允许对原始PCM采样的比特精度的重建。该特征是通过将所有算法步骤分解成提升步骤来实现的,这些提升步骤是逐个步骤地在比特精度上可逆。更多信息可以在例如Ralf Geiger,Yoshikazu Yokotani,Gerald Schuller,Jürgen Herre,“Improved integer transforms usingmulti-dimensional lifting”,Proc.of ICASSP,volume 2,pages 17-21,Montreal,Canada,May 2004中找到。
无损(即,比特精度)重建特性的代价是加性误差:每个提升步骤中的取整运算添加了取整误差噪声。本发明的目的是对这些取整误差的方差进行量化,并评估其对无损编解码的压缩率的影响。然后,使用噪声整形滤波器和/或预滤波器进行优化,以获得最小熵。公开了固定和自适应滤波器的技术方案。
A)取整误差
在IntMDCT中的大多数提升步骤中引入了取整误差,具体内容和推导可以参见Y.Yokotani,R.Geiger,G.D.T.Schuller,S.Oraintara,K.R.Rao,“Lossless audio coding using the IntMDCT and rounding errorshaping”,IEEE Transactions on Audio,Speech,and Language Processing,14(6):2201-2211,November 2006。在以下部分中,简短总结了取整误差的来源并给出了一些定义。
A.1)时域混叠消除(TDAC)
图1示出了TDAC和窗运算(Givens旋转)分解成三个提升步骤。这种针对输入音频或视频信号的每个块或段的窗运算通常与对块或段中的幅度或大小进行加权结合,例如,通过使用正弦或余弦函数加权和50%交叠窗。将三个取整运算解释为相应的加性噪声值n1,n2,n3,得到
c’=a cos α-b sin α+n1 cos α+n2 cs α+n3    (1)
d’=a sin α+b cos α+n1 sin α+n2             (2)
其中cs α=(cos α-1)/sin α                    (3)
并且角度α的集合定义了窗函数。对于正弦窗,这些角度定义为
Figure GPA00001140329100081
一般而言,0≤α≤π/4。
取整误差的功率取决于Givens旋转的旋转角度α(c和d表示Givens旋转的未量化的期望输出):
E { ( c ′ - c ) 2 } = 1 12 ( cos 2 α + cs 2 α + 1 )
E { ( d ′ - d ) 2 } = 1 12 ( sin 2 α + 1 ) - - - ( 4,5 )
如上所述,图1示出了Givens旋转到三个连续提升步骤的分解,其中每个提升步骤具有取整运算。输入值是a和b,输出值是c’和d’(参见等式(1)和(2))。Q1,Q2和Q3表示量化步骤。
第一提升步骤计算a+Q1(csα*b),
第二提升步骤计算b+Q2(sinα[a+Q1(csα*b)]),
以及第三提升步骤计算a+Q1(csα*b)+Q3[csα(b+Q2(sinα[a+Q1(csα*b)]))]。
对于正弦窗,来自整数MDCT的TDAC部分的取整误差噪声的平均功率大约是1.6/12。可以通过针对所有使用的α值,对表达式1/2E{(c’-c)2}+1/2E{(d’-d)2}求平均,来从理论上导出该值。该平均功率值已进一步通过仿真得到了验证。
A.2)多维提升方案:立体声版本
图2示出了两个并行输入信号多维提升方案或立体声多维提升方案。两个输入信号x和y已经进行了TDAC块TDAC1和TDAC2中的取整误差噪声,参见图1。x和y分别表示编码器侧TDAC块的下部分和上部分的输出矢量。则IntMDCT域(在解码器之前)中的各个编码器输出矢量构成为:
X’=DCTIV{x}+DCTIV{n4}-n5      (6)
Y’=DCTIV{y}+DCTIV{n5}+n6      (7)
其中,‘DCTIV’表示类型IV的DCT(即,整数MDCT),n4,n5和n6是量化误差信号,Q4,Q5和Q6表示量化运算。根据该框图,每一个结果‘谱’是实际MDCT谱(例如DCTIV{x})和一些加性噪声的混合,这些加性噪声由频域和时域误差构成。在解码器侧,对三个变换提升步骤进行逆运算,随后是相应的TDAC块TDAC3和TDAC4。编码中的中间和最终结果的矢量的含糊的时域特性使得理解和滤波器优化比较困难。
A.2)预滤波器
优选地,在TDAC处理之前,由数字滤波器执行对输入信号的预处理。这可以由自回归(AR)或移动平均(MA)滤波器实现。该预滤波器要以整数可逆方式实施。这意味着滤波器特性必须是严格的最小相位。此外,在编码器和解码器中应用的滤波器结构必须是理想可逆的。因此,滤波器运算包括将中间值(预测器的输出)取整为整数值的至少一个取整运算。这意味着预滤波器始终会伴随有附加的取整误差噪声。
在IntMDCT内的噪声整形优化与预滤波器的优化之间存在很强的相似性。区别在于:预滤波器也对最终量化级(图2中的Q5/n5和Q6/n6;QX是非线性量化运算的数学描述,nX是得到的加性量化误差)的影响产生积极的影响;对于类似滤波器阶,计算复杂度较低;以及预滤波器会产生附加的取整误差。
B)具有噪声整形的取整
可以使用图3所示的噪声整形滤波器对取整误差的频率特性进行整形。由具有脉冲响应a(k)和延迟T的有限脉冲响应(fir)滤波器,对由量化器Q输出信号y(k)得到的原始量化噪声
Figure GPA00001140329100091
进行确定和滤波。将相应的滤波后噪声
Figure GPA00001140329100092
反馈到输入信号中x(k)。然后,假设噪声整形滤波器具有阶p,并且是因果的。则,在包括在前的延迟操作的情况下,滤波器具有以下传递函数:
G ( z ) = 1 + z - 1 A ( z )
= 1 + Σ λ = 1 p α λ z - λ . - - - ( 8,9 )
其中,A(z)表示a(k)的z变换,αλ是滤波器系数。可以自由修改滤波器系数αλ,λ=1...p,以获得不同的频率特性。
尤其令人感兴趣的是与离散MDCT的中心频率有关的频率响应。如果i表示离散频率索引,i=0,1,...,N-1,则MDCT的第i个频率箱的中心频率给定为角度表示形式的Ωi=(2π(i+0.5))/2N,其中N是MDCT的长度。
噪声整形滤波器的频率响应变为:
G ( i ) = 1 + Σ λ = 1 p a λ e - jλ Ω i ,
| G ( i ) | 2 = | 1 + Σ λ = 1 p a λ e - jλ Ω i | 2 - - - ( 10,11,12 )
= ( 1 + Σ λ = 1 p α λ cos ( λΩ i ) ) 2 + ( Σ λ = 1 p a λ sin ( λΩ i ) ) 2 .
在稍后的计算中,需要针对第γ个滤波器系数αγ的频率响应的偏导(等式13,14,15):
∂ | G ( i ) | 2 ∂ a γ = 2 cos ( γΩ i ) ( 1 + Σ λ = 1 p a λ cos ( λΩ i ) ) + 2 sin ( γΩ i ) ( Σ λ = 1 p a λ sin ( λΩ i ) )
= 2 cos ( γΩ i ) + 2 Σ λ = 1 p a λ ( cos ( λΩ i ) cos ( γΩ i ) + sin ( λΩ i ) sin ( γΩ i ) )
= 2 cos ( γΩ i ) + 2 Σ λ = 1 p a λ cos ( ( λ - γ ) Ω i ) .
由于噪声整形滤波,也修改了取整误差噪声的时域特性。除了引入相关之外,噪声整形滤波器还增大了得到的噪声信号n(k)的方差:
E { n 2 ( k ) } = E { ( n ~ ( k ) * g ( k ) ) 2 }
= E { ( n ~ ( k ) + Σ λ = 1 p a λ n ~ ( k - λ ) ) 2 }
= E { n ~ 2 ( k ) } + Σ λ = 1 p a λ 2 E { n ~ 2 ( k - λ ) } - - - ( 16,17,18,19 )
= E { n ~ 2 ( k ) } ( 1 + Σ λ = 1 p a λ 2 ) .
在上述推导中,假设在原点之外的原始量化噪声的自相关是0,即,如果γ≠0,则E{n(k)n(k-γ)}=0。注意,任何非零系数α≠0会增大时域中有效量化噪声的功率。
C)取整误差噪声和微分熵
为了简化下面的论述,假设输入信号是具有高斯概率密度函数(PDF)的随机噪声,并且至少是短期平稳的。但是,输入信号的频率特性不受限制。
设x(k)代表输入信号的时域表示。如果通过正常(浮点)MDCT来变换上述随机输入信号,则得到频域表示X(i),短Xi,i表示频率索引。为了能够理解的目的,省略了帧索引。由于假设输入信号是平稳的随机噪声,所以MDCT箱也是随机的,具有各自独立的方差
Figure GPA00001140329100111
第i个频率箱的微分熵是
h ( X i ) = 1 / 2 log 2 ( 2 πeσ X i 2 ) - - - ( 20 )
提升步骤中添加取整误差噪声,这向每个频率箱添加各自的噪声分量。第i个箱中的噪声方差由
Figure GPA00001140329100113
表示,并且假设每个箱中的信号分量Xi和噪声分量Ni是相互独立的。则,带噪频率箱的微分熵是:
h ( X i + N i ) = 1 2 log 2 ( 2 πe ( σ X i 2 + σ N i 2 ) )
= 1 2 log 2 ( 2 πe σ X i 2 ) + 1 2 log 2 ( 1 + σ N i 2 σ X i 2 ) - - - ( 21,22,23 )
= h ( X i ) + h i + .
即,微分熵遭“受到惩罚”hi +,该惩罚hi+取决于各自单独的信噪比。在全部的频率范围上,这些单独的惩罚加起来,增大了对每个块编码至少所需的总比特率(注意:假设在量化和编码之后,是微分熵与比特流的比特率之间的简化的直接映射。实际中,由于次优的熵编码等,可能存在其他损失): H + = Σ i = 0 N - 1 h i + . (24)
下文推导的目的是获得将每个块的上述总惩罚最小化的噪声整形滤波器的调整规则。
根据先前部分B)的推导,第i个频率箱中噪声分量的方差可以建模为:
σ N i 2 = | kG ( i ) | 2
= k 2 ( 1 + Σ λ = 1 p a λ cos ( λ Ω i ) ) 2 + k 2 ( Σ λ = 1 p a λ sin ( λ Ω i ) ) 2 . - - - ( 25,26 )
其中,Ωi=(2π(i+0.5))/2N,标量因子k2是对原始取整误差噪声
Figure GPA00001140329100123
的方差进行描述的任意因子。针对第γ个系数αλ的偏导为:
∂ | kG ( i ) | 2 ∂ a γ = 2 k 2 cos ( γ Ω i ) + 2 k 2 Σ λ = 1 p a λ cos ( ( λ - γ ) Ω i ) . - - - ( 27 )
参见上述等式13到15的推导。
C.1)近似解决方案
现在,应该优化系数αλ,以最小化总惩罚H+。为简化目的,首先假设低量化噪声,即,假设:
h i + = 1 2 log 2 ( 1 + σ N i 2 σ X i 2 ) - - - ( 28,29 )
≈ 1 2 ln 2 · σ N i 2 σ X i 2 .
从而使用近似log(1+x)≈x,其对于x<<1是有效的。在信号处理项中,假设
Figure GPA00001140329100127
在所有频率箱中都是有效的。总惩罚H+加起来为:
H + = Σ i = 0 N - 1 h i + - - - ( 30,31 )
≈ k 2 2 ln 2 Σ i = 0 N - 1 | G ( i ) | 2 σ X i 2 .
得到系数αλ的偏导:
∂ H + ∂ a γ ≈ k 2 2 ln 2 Σ i = 0 N - 1 1 σ X i 2 · ∂ | G ( i ) | 2 ∂ a γ
= k 2 ln 2 ( Σ i = 0 N - 1 cos ( γ Ω i ) σ X i 2 + Σ λ = 1 p a λ Σ i = 0 N - 1 cos ( ( γ - λ ) Ω i ) σ X i 2 ) . - - - ( 32,33 )
将该偏导设置为0,这带来方程组,要对该方程组求解,以找到具有最小熵惩罚的系数:
∂ H + ∂ a γ = ! 0
Σ λ = 1 p a λ Σ i = 0 N - 1 cos ( ( γ - λ ) Ω i ) σ X i 2 = - Σ i = 0 N - 1 cos ( γ Ω i ) σ X i 2 . - - - ( 34,35 )
在此,存在p个方程,来求解p个未知数。为理解目的,方程组可以表达为矩阵矢量符号。定义下面的矢量和矩阵:
a=[a1,a2,...,ap]T
e=[-R(1),-R(2),...,-R(p)]T
其中,使用缩写 R ( κ ) = Σ i = 0 N - 1 cos ( κ Ω i ) σ X i 2 , κ ∈ N ,
上述方程组给出了线性方程系统
M·a=e                (40)
这也可以通过Toeplitz矩阵M的取逆来求解:。
aopt=M-1·e           (41)
注意,量R(κ)等效于具有输入信号x(k)的逆谱的信号的自相关函数。结果,该优化方法与使用正常方程的线性预测滤波器的基于块的调整非常相似,例如参见P.Vary and R.Martin,“Digital SpeechTransmission:Enhancement,Coding and Error Concealment”,John Wiley&Sons Ltd,2006,Sec.6.2。因此,在计算伪自相关值R(κ)之后,可以利用用于优化线性预测滤波器的多种方法的全部集合,例如,在计算上高效的Levinson-Durbin算法。
通过计算信号采样帧的逆功率谱,来确定自适应噪声整形滤波器的滤波器系数,从而优化滤波器系数,以最小化逆功率谱与对应于这些滤波器系数的全极点滤波器的频率响应之间的平均谱距离。
即,通过基于信号采样帧的逆功率谱的线性预测分析,执行滤波器系数的优化。
在执行滤波器系数的优化之前,可以将逆功率谱变换为伪自相关系数。
C.2)趋向精确的解
在前面的章节中,使用近似来获得线性优化问题。为了实现更加精确的解,使用精确的项来表示熵惩罚:
H + = Σ i = 0 N - 1 1 2 log 2 ( 1 + | kG ( i ) | 2 σ X i 2 ) . - - - ( 42 )
第γ个滤波器系数的偏导得到如下项:
∂ H + ∂ a γ = 1 2 ln 2 Σ i = 0 N - 1 ∂ | G ( i ) | 2 ∂ a γ σ X i 2 k 2 + | G ( i ) | 2 - - - ( 43,44 )
= 1 ln 2 Σ i = 0 N - 1 cos ( γ Ω i ) + Σ λ = 1 p a λ cos ( ( λ - γ ) Ω i ) σ X i 2 k 2 + ( 1 + Σ λ = 1 p a λ cos ( λ Ω i ) ) 2 + ( Σ λ = 1 p a λ sin ( λ Ω i ) ) 2 .
不幸的是,该项是非线性的,对于
Figure GPA00001140329100144
无法得到简单的分析解。但是,可以应用多种方法来进行趋向最优解的迭代。例如,可以实施迭代梯度下降优化处理或迭代最速下降处理,以进一步改善到优化的滤波器系数。在该处理中,通过沿最陡(负的)梯度方向前进一小步,
a(μ+1)=a(μ)-θgrad H+(a(μ))           (45)
来在每一个迭代步骤中改善系数集合a=[a1,a2,...,ap]T,其中μ表示迭代索引,梯度定义为
grad H + ( a ( μ ) ) = ∂ H + ( ∂ ( μ ) ) ∂ a 0 1 0 . . . 0 + ∂ H + ( a ( μ ) ) ∂ a 1 0 1 . . . 0 + . . . + ∂ H + ( ∂ ( μ ) ) ∂ a p 0 0 . . . 1 . - - - ( 46 )
标量因子θ指定了步长,其可以用于控制调整的速度。重复进行迭代,直到例如系数集合已经收敛至稳定的解。过大的步长可能导致不稳定的收敛表现。
上述处理会找到针对p维优化问题的局部解。取决于迭代算法的开始点,即,取决于初始系数集合a(0),最终结果可能不同。通过以上述章节中给出的近似解来开始,已经获得一致的解。尽管如此,不保证该解反映了对原始的最小化H+的问题的全局最优。
此外,不保证最终系数集合得到最小相位滤波器响应。这意味着在将结果应用于预滤波器内之前,有必要针对最小相位特性来检查该结果。
上述自适应噪声整形的效果在于,减小了来自输入信号块或段中当前块或段中的低电平幅度采样的取整噪声,而增大了来自当前块或段中高电平幅度采样的取整噪声。‘低电平幅度’和‘高电平幅度’分别表示比例如该块中平均幅度电平或该块的阈值幅度电平更小或更大。
上述优化确实应用于移动平均噪声整形滤波器的调整。有利地,相同的调整规则可以应用于优化自回归(全极点)预滤波器。
C.3)移动平均(MA)预滤波器
为了导出移动平均(有限脉冲响应)预滤波器的最优系数,在滤波器结构方面,该处理与‘经典’预加重或线性预测非常相似。但是,针对当前问题的优化准则不同于针对这些研究成熟的情况。
由于进行预滤波,所以现在观察到MDCT域中信号的不同的功率谱:得到
Figure GPA00001140329100151
而不是
Figure GPA00001140329100152
假设在除了预滤波器之外没有应用其他的自适应噪声整形的情况下,MDCT域中的取整误差噪声是白色的。则噪声功率谱是常量
Figure GPA00001140329100153
相应地,优化准则定义如下:
H + = Σ i = 0 N - 1 1 2 log 2 ( 1 + k 2 σ X i 2 · | G ( i ) | 2 ) - - - ( 47,48 )
≈ 1 2 ln 2 Σ i = 0 N - 1 k 2 σ X i 2 · | G ( i ) | 2 .
注意,|G(i)|2的定义没有改变。第γ个滤波器系数的近似的偏导得到如下项:
∂ H + ∂ a γ = - k 2 2 ln 2 Σ i = 0 N - 1 ∂ | G ( i ) | 2 ∂ a γ σ X i 2 · ( | G ( i ) | 2 ) 2
Figure 000015
同样,该项是非线性的,很难导出对优化问题的分析解。但是,可以应用在前述章节中定义的相同的迭代‘最速下降’优化过程。
如果选择迭代改进处理,则也可以跳过以上使用的近似。如果以精确准则开始,则如下项是αγ的偏导结果:
∂ H + ∂ a γ = - k 2 2 ln 2 Σ i = 0 N - 1 ∂ | G ( i ) | 2 ∂ a γ | G ( i ) | 2 · ( σ X i 2 · | G ( i ) | 2 + k 2 ) . - - - ( 51 )
对于上述两种迭代调整规则,同样都无法保证能够获得全局最优。而是,该方法趋向局部最优收敛,最终结果将显著地取决于开始的解。
对来自EBU-SQAM CD的实际音频数据的具体仿真已展示了在应用本发明的处理时的预期改进。相对于其他提议方案,有多于0.2个百分点(假设16比特信号)的性能增益。
D)应用于立体声IntMDCT
一般而言,对左通道和右通道分别应用优化,如果对于所有取整误差,假设
Figure GPA00001140329100164
则近似地可以彼此独立地处理所有取整误差源。
因此,对来自TDAC处理的n1,n2,n3的噪声整形滤波器、以及对来自多维提升方案的第一级的n4的调整是清楚直接的,可以应用来自章节C.1的近似解。对于n6,即,对于多维提升方案的最末级,不应该执行任何噪声整形。问题在于如何找到针对n5的调整的解。量化误差具有两重影响:第一,量化误差直接添加到X,即,添加到左通道;第二,量化误差的频率变换添加到Y,即,添加到右通道。因此,需要找到在无噪声整形与使用‘正常’近似调整规则的全噪声整形之间的权衡。
对于取整误差噪声n5的惩罚包括两个加数:
Figure GPA00001140329100172
第γ个系数的微分得到:
∂ H n 5 + ∂ a γ ≈ k 2 ln 2 ( Σ i = 0 N - 1 cos ( γ Ω i ) σ Y i 2 + Σ λ = 1 p a λ Σ i = 0 N - 1 cos ( ( γ - λ ) Ω i ) σ Y i 2 + a γ Σ i = 0 N - 1 1 σ X i 2 ) . - - - ( 54 )
将这些项设置为0,得到:
Σ λ = 1 p a λ Σ i = 0 N - 1 cos ( ( γ - λ ) Ω i ) σ Y i 2 + a γ Σ i = 0 N - 1 1 σ X i 2 = - Σ i = 0 N - 1 cos ( γΩ i ) σ Y i 2 , - - - ( 55 )
这启发了一种修改的调整规则:
Figure GPA00001140329100175
Figure GPA00001140329100176
相比于章节C.1,仅有的区别在于,通过添加Rx(0),修改了主对角线。这种处理与有时在线性预测滤波器中(例如,在J.D.Markel,A.H.Gray,“Linear Prediction of Speech”,Springer-Verlag,Berlin,Heidelberg,New York,1976中)应用的白噪声校正处理相似。
E)本发明在编码/解码中的应用
为容易理解本发明,描述了一些现有技术细节。
图4示出了公知的基于有损的无损编码的基本原理。在图4左侧的编码部分中,PCM音频输入信号SPCM通过有损编码器81,至解码器部分(右侧)的有损解码器82,并作为有损比特流至有损解码器85。
使用有损编码和解码对信号进行去相关。在减法器83中,从输入信号SPCM中移除解码器82的输出信号,得到的差信号通过无损编码器84,作为扩展比特流至无损解码器87。将解码器85和87的输出信号组合86,以重新得到原始信号SPCM
在EP-B-0756386和US-B-6498811中以及在P.Craven,M.Gerzon,“Lossless Coding for Audio Discs”,J.Audio Eng.Soc.,Vol.44,No.9,September 1996和J.Koller,Th.Sporer,K.H.Brandenburg,“RobustCoding of High Quality Audio Signals”,AES 103rd Convention,Preprint4621,August 1997中公开和论述了针对音频编码的基本原理。
在有损编码器中,PCM音频输入信号SPCM通过分析滤波器组和针对子带采样的量化,至编码处理。该量化由感知模型控制,该感知模型接收信号SPCM,并可能接收来自分析滤波器组的相应信息。在解码器侧,对编码的有损比特流解码,得到的子带采样通过合成滤波器组,该合成滤波器组输出解码后的有损PCM信号。标准ISO/IEC11172-3(MPEG-1 Audio)中详细描述了有损编码和解码的示例。
在图5所示的公知的整数MDCT的分解中,输入信号x(k)和y(k)都通过具有固定噪声整形NS的TDAC以及具有固定噪声整形NS的DCTIV,提供输出信号X(i)和Y(i)。给出了立体声版本作为示例,如在R.Geiger等人的上述文章Proc.of ICASSP,May 2004中的一样。在三个步骤T* 1到T* 3中,针对每个通道,执行TDAC。使用图中所示的级来执行DCTIV,其中D* 1到D* 3是提升步骤(参见图2),P是针对一个通道的置换和符号反转(无取整运算)。提升步骤由‘*’标记,并且要求进行取整运算。
在现有技术中,优选地在T* 1、T* 2、T* 3以及D* 1中、并且可选地、在D* 2中,实施固定噪声整形。
根据本发明,在步骤/级T* 1、T* 2、T* 3以及D* 1的一个或多个中、并且可选地、在步骤/级D* 2中,实施自适应噪声整形。
图6示出了公知的针对输入信号矢量x(0),...,X(N)的、无噪声整形的单个多维提升步骤,得到输出信号矢量x(N+1),...,x(2N)。
基于图6,图7示出了公知的单个多维提升步骤中的噪声整形。这应用于图5的IntMDCT算法中的T* 1、T* 2、T* 3以及D* 1、并且可选地D* 2
基于图5,图8示出了本发明的自适应噪声整形IntMDCT的独立变体。根据输入信号x(k),在滤波器调整步骤或级121中计算滤波器调整参数或系数。将计算得到的滤波器参数或系数h(k)提供给整数MDCT步骤或级123,整数MDCT步骤或级123包括具有自适应噪声整形滤波的TDAC以及具有自适应噪声整形滤波的DCTIV。滤波器调整步骤或级121也可以提供针对解码器的相应的辅助信息122。
基于图8,图9示出了本发明的自适应噪声整形逆IntMDCT的独立变体。解码器输入信号X(i)通过逆整数MDCT步骤或级133,该逆整数MDCT步骤或级133包括具有自适应噪声整形的逆TDAC以及具有自适应噪声整形的逆DCTIV。根据其输出信号x(k),在滤波器调整步骤或级131中计算滤波器调整参数或系数。将计算得到的滤波器参数或系数h(k)提供给步骤/级133。滤波器调整步骤或级131也可以接收来自编码器的相应的辅助信息122。在这种情况下,步骤或级131可以不需要解码器输出信号x(k)。
图8和9所示的处理可应用于独立无损编解码,例如MPEG-4 SLS无内核。
图10示出了本发明的使用自适应噪声整形IntMDCT的可缩放至无损变换编码器的框图,其中‘可缩放至无损’表示比特流包括至少两个分级层:一个对应于有损内核编解码(例如AAC或mp3),一个-与第一层结合-代表原始PCM采样。一方面,输入信号x(k)通过变换编码器144(例如,AAC编码器),可选的映射步骤或级146、以及取整或量化步骤/级147,至减法器140。这些步骤/级包括在图4的有损编码器81中。变换编码器144提供针对有损编码器比特流的编码信号148。
另一方面,输入信号x(k)通过整数MDCT 143,至减法器140的另一输入。对于整数MDCT 143,使用本发明的自适应噪声整形,即,整数MDCT 143包括具有自适应噪声整形滤波的TDAC以及具有自适应噪声整形滤波的DCTIV。使用来自编码器144的相应信息(例如,量化的变换系数、量化器的参数、以及可能有原始变换系数),在残差估计步骤或级145中,估计要用于控制上述滤波器调整步骤或级141的残差信号(时域或频域中)。将计算得到的滤波器参数或系数h(k)提供给步骤/级143。
在减法器140中,从整数MDCT 143的输出信号中减去步骤/级147的输出信号,从而提供了残差信号R(i)。按照需要对信号R(i)编码,参见图4的无损编码器84。不同于图8,滤波器调整步骤或级141不需要提供针对解码器的相应的辅助信息,这是因为可以在解码器侧执行调整。
图11示出了本发明的使用自适应噪声整形逆IntMDCT的可缩放至无损变换编码器的框图。来自变换编码器比特流的解码器输入信号158通过变换解码器154(例如,AAC或mp3解码器)、可选的映射步骤或级156、以及取整或量化步骤或级157,至组合器150.
组合器150将步骤/级157的输出信号与来自扩展比特流的解码后的残差输入信号R(i)组合。组合后的信号X(i)通过逆整数MDCT 153,逆整数MDCT 153输出无损解码器输出信号x(k),该输出信号x(k)对应于图4中的SPCM。对于逆整数MDCT 153,使用本发明的自适应噪声整形,即,整数MDCT 143包括具有自适应噪声整形滤波的TDAC以及具有自适应噪声整形滤波的DCTIV。使用来自解码器154的相应信息(例如,量化的变换系数、量化器的参数、以及可能有原始变换系数),在残差估计步骤或级155中,估计要用于控制上述滤波器调整步骤或级151的残差信号(时域或频域中)。将计算得到的滤波器参数或系数h(k)提供给步骤/级153。不同于图9,滤波器调整步骤或级151不需要接收针对解码器的相应的辅助信息,这是因为可以在解码器侧执行调整。根据图10和11的处理可应用于例如MPEG-4 SLS。
图12示出了本发明的自适应预滤波器IntMDCT的独立变体的框图。一方面,将输入信号x(k)馈入滤波器调整步骤或级161。该步骤或级的输出信号为滤波器特性步骤/级168提供滤波器参数或系数h(k)。另一方面,输入信号x(k)通过组合器160,至整数MDCT步骤或级163(其中不执行噪声整形),整数MDCT步骤或级163提供要编码以在比特流中传输的输出信号X’(i)。组合器160的输出信号通过滤波器特性步骤/级168以及量化器169,至组合器160的另一输入。与图8类似,滤波器调整步骤或级161也可以提供针对解码器的相应的辅助信息162。
图13示出了本发明的在逆IntMDCT之后的自适应后滤波器的独立变体的框图。从比特流解码得到的解码器输入信号X(i)通过逆整数MDCT步骤或级173,其中不执行噪声整形。该步骤/级的输出信号馈入组合器170,该组合器170提供输出信号x(k)。输出信号x(k)馈入滤波器调整步骤或级171,该步骤或级171为滤波器特性步骤/级178提供滤波器参数或系数h(k)。逆整数MDCT步骤或级173的输出信号通过滤波器特性步骤/级178和量化器179,至组合器170的另一输入。
滤波器调整步骤或级171也可以接收来自编码器的相应的辅助信息162。在这种情况下,该步骤或级171不需要解码器输出信号x(k)。
根据图12和13的处理可应用于独立的无损编解码,例如MPEG-4SLS无内核。
有利地,相比于在上述MPEG-4 SLS中执行的无噪声整形或简单的低通噪声整形处理,优化的自适应噪声整形处理始终产生更好的性能。根据本发明,实施低阶的自适应噪声整形。有利地,滤波器系数的调整是清楚直接的,计算复杂度的增加也是非常适度的。
本发明有助于通过对取整误差噪声谱进行整形,来管理和限制数据率。
本发明可应用于无损编码,只要其包括到连续提升步骤的分解。
根据本发明编码的数字音频或视频信号可以存储或记录在存储介质上,例如在光盘、固态存储器或硬盘上。

Claims (22)

1.一种提高音频或视频信号(x(k))的编码效率的方法,其中针对所述信号(x(k))的每个采样块,使用整数可逆变换,来处理所述信号,该整数可逆变换是使用提升步骤来执行的,所述提升步骤表示所述整数可逆变换的子步骤,所述提升步骤包括取整运算,其中执行针对从所述提升步骤产生的取整误差的自适应噪声整形,所述方法的特征在于如下步骤:
-使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形,对所述采样块进行整数可逆变换(123,143,163),其中所述整数可逆变换提供相应的变换系数块,并且执行所述自适应噪声整形,以减小来自当前变换系数块中的低电平幅度变换系数的取整噪声,而增大来自所述当前变换系数块中的高电平幅度变换系数的取整噪声,并且相应的自适应噪声整形滤波器(168,169,160)的滤波器系数(h(k))是根据所述音频或视频信号采样逐帧地导出(121,141,161)的;
其中,通过计算信号采样帧的逆功率谱,来确定所述自适应噪声整形滤波器的所述滤波器系数(h(k));以及优化滤波器系数,以最小化所述逆功率谱与对应于所述滤波器系数的全极点滤波器的频率响应之间的平均谱距离。
2.一种提高音频或视频信号(x(k))的编码/解码效率的方法,其中在编码器侧,针对所述信号(x(k))的每个采样块,使用整数可逆变换来处理所述信号,该整数可逆变换是使用提升步骤来执行的,所述提升步骤表示所述整数可逆变换的子步骤,所述提升步骤包括取整运算,其中执行针对从所述提升步骤产生的取整误差的自适应噪声整形,
其中,所述采样块是使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形而被整数可逆变换(123,143,163)的,以获得编码的音频或视频信号,所述整数可逆变换提供相应的变换系数块,并且执行所述自适应噪声整形,以减小来自当前变换系数块中的低电平幅度变换系数的取整噪声,而增大来自所述当前变换系数块中的高电平幅度变换系数的取整噪声,并且相应的自适应噪声整形滤波器(168,169,160)的滤波器系数(h(k))是根据所述音频或视频信号采样逐帧地导出(121,141,161)的;
所述编码的音频或视频信号的解码包括如下步骤:
-使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形,对整数可逆变换的所述采样块进行整数逆变换(153,173),其中所述整数逆变换针对变换系数块执行,并提供相应的输出采样值块,其中执行所述自适应噪声整形,以减小来自当前逆变换系数块中的低电平幅度变换系数的取整噪声,而增大来自所述当前逆变换系数块中的高电平幅度变换系数的取整噪声,并且相应的自适应噪声整形滤波器(178,179,170)的滤波器系数(h(k))是根据逆变换的音频或视频信号采样逐帧地导出(151,171)的;
其中,通过计算信号采样帧的逆功率谱,来确定用于编码和解码的所述自适应噪声整形滤波器的所述滤波器系数(h(k));以及优化滤波器系数,以最小化所述逆功率谱与对应于所述滤波器系数的全极点滤波器的频率响应之间的平均谱距离。
3.根据权利要求1或2所述的方法,其中,基于所述信号采样帧的所述逆功率谱,通过线性预测分析来执行所述滤波器系数(h(k))的所述优化。
4.根据权利要求3所述的方法,其中,在执行所述滤波器系数(h(k))的所述优化之前,将所述逆功率谱变换成伪自相关系数。
5.根据权利要求3所述的方法,其中,通过迭代梯度下降优化过程,进一步改进所优化的滤波器系数(h(k))。
6.根据权利要求1或2所述的方法,其中,根据在音频或视频信号编码的滤波器组部分中所述音频或视频信号的编码处理中可获得的误差或残差信号,逐帧地导出(121,141,161)所述自适应噪声整形滤波器(168,169,160)的所述滤波器系数(h(k))。
7.根据权利要求2所述的方法,其中,根据在音频或视频信号解码的滤波器组部分中所述音频或视频信号的解码处理中可获得的误差或残差信号,逐帧地导出(151,171)所述自适应噪声整形滤波器(178,179,170)的所述滤波器系数(h(k))。
8.根据权利要求1或2所述的方法,其中,所述自适应噪声整形滤波器(160,168,169)是递归或全极点预滤波器,该预滤波器不是布置在所述整数可逆变换内,而是布置在所述整数可逆变换(163)的上游。
9.根据权利要求1或2所述的方法,其中,还在所述整数可逆变换(143)的上游布置有自适应噪声整形预滤波器(160,168,169)。
10.根据权利要求2所述的方法,其中,所述自适应噪声整形滤波器(170,178,179)是后滤波器,该后滤波器不是布置在所述整数逆变换内,而是布置在所述整数逆变换(173)的下游。
11.根据权利要求2所述的方法,其中,还在所述整数逆变换(153)的下游布置有自适应噪声整形后滤波器(170,178,179)。
12.一种提高音频或视频信号(x(k))的编码效率的装置,其中针对所述信号(x(k))的每个采样块,使用整数可逆变换,来处理所述信号,该整数可逆变换是使用提升步骤来执行的,所述提升步骤表示所述整数可逆变换的子步骤,所述提升步骤包括取整运算,其中执行针对从所述提升步骤产生的取整误差的自适应噪声整形,所述装置包括:
-用于使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形,对所述采样块进行整数可逆变换的装置(123,143,163),其中所述整数可逆变换提供相应的变换系数块,并且执行所述自适应噪声整形,以减小来自当前变换系数块中的低电平幅度变换系数的取整噪声,而增大来自所述当前变换系数块中的高电平幅度变换系数的取整噪声;
-相应的自适应噪声整形滤波器,其滤波器系数(h(k))是根据所述音频或视频信号采样,逐帧地导出的;
其中,通过计算信号采样帧的逆功率谱,来确定所述自适应噪声整形滤波器的所述滤波器系数(h(k));以及优化滤波器系数,以最小化所述逆功率谱与对应于所述滤波器系数的全极点滤波器的频率响应之间的平均谱距离。
13.一种提高音频或视频信号(x(k))的编码/解码效率的装置,其中在编码器侧,针对所述信号(x(k))的每个采样块,使用整数可逆变换,来处理所述信号,该整数可逆变换是使用提升步骤来执行的,所述提升步骤表示所述整数可逆变换的子步骤,所述提升步骤包括取整运算,其中执行针对从所述提升步骤产生的取整误差的自适应噪声整形,
其中,所述采样块是使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形而被整数可逆变换(123,143,163)的,以获得编码的音频或视频信号,所述整数可逆变换提供相应的变换系数块,并且执行所述自适应噪声整形,以减小来自当前变换系数块中的低电平幅度变换系数的取整噪声,而增大来自所述当前变换系数块中的高电平幅度变换系数的取整噪声,并且相应的自适应噪声整形滤波器(168,169,160)的滤波器系数(h(k))是根据所述音频或视频信号采样,逐帧地导出(121,141,161)的;
所述装置适合对编码的音频或视频信号进行解码,并且包括:
-用于使用提升步骤以及针对至少一些所述提升步骤的自适应噪声整形,对整数变化的所述采样块进行整数逆变换的装置(153,173),其中所述整数逆变换针对变换系数块执行,并提供相应的输出采样值块,其中执行所述自适应噪声整形,以减小来自当前逆变换系数块中的低电平幅度变换系数的取整噪声,而增大来自所述当前逆变换系数块中的高电平幅度变换系数的取整噪声;
-相应的自适应噪声整形滤波器,其滤波器系数(h(k))是根据逆变换的音频或视频信号采样,逐帧地导出的;
其中,通过计算信号采样帧的逆功率谱,来确定用于编码和解码的所述自适应噪声整形滤波器的所述滤波器系数(h(k));以及优化滤波器系数,以最小化所述逆功率谱与对应于所述滤波器系数的全极点滤波器的频率响应之间的平均谱距离。
14.根据权利要求12或13所述的装置,其中,基于所述信号采样帧的所述逆功率谱,通过线性预测分析来执行所述滤波器系数(h(k))的所述优化。
15.根据权利要求14所述的装置,其中,在执行所述滤波器系数(h(k))的所述优化之前,将所述逆功率谱变换成伪自相关系数。
16.根据权利要求14所述的装置,其中,通过迭代梯度下降优化过程,进一步改进所优化的滤波器系数(h(k))。
17.根据权利要求12或13所述的装置,其中,根据在音频或视频信号编码的滤波器组部分中所述音频或视频信号的编码处理中可获得的误差或残差信号,逐帧地导出(121,141,161)所述自适应噪声整形滤波器(168,169,160)的所述滤波器系数(h(k))。
18.根据权利要求13所述的装置,其中,根据在音频或视频信号编码的滤波器组部分中所述音频或视频信号的解码处理中可获得的误差或残差信号,逐帧地导出(151,171)所述自适应噪声整形滤波器(178,179,170)的所述滤波器系数(h(k))。
19.根据权利要求12或13所述的装置,其中,所述自适应噪声整形滤波器(168,169,160)是递归或全极点预滤波器,该预滤波器不是布置在所述整数可逆变换内,而是布置在所述整数可逆变换(163)的上游。
20.根据权利要求12或13所述的装置,其中,还在所述整数可逆变换(143)的上游布置有自适应噪声整形预滤波器(160,168,169)。
21.根据权利要求13所述的装置,其中,所述自适应噪声整形滤波器(170,178,179)是后滤波器,该后滤波器不是布置在所述整数逆变换内,而是布置在所述整数逆变换(173)的下游。
22.根据权利要求13所述的装置,其中,还在所述整数逆变换(153)的下游布置有自适应噪声整形后滤波器(170,178,179)。
CN2008801172506A 2007-11-23 2008-11-10 基于整数变换的编码和解码的取整噪声整形 Expired - Fee Related CN101868822B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP07121440A EP2063417A1 (en) 2007-11-23 2007-11-23 Rounding noise shaping for integer transform based encoding and decoding
EP07121440.7 2007-11-23
PCT/EP2008/065189 WO2009065748A1 (en) 2007-11-23 2008-11-10 Rounding noise shaping for integer transform based encoding and decoding

Publications (2)

Publication Number Publication Date
CN101868822A CN101868822A (zh) 2010-10-20
CN101868822B true CN101868822B (zh) 2012-05-30

Family

ID=40225570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801172506A Expired - Fee Related CN101868822B (zh) 2007-11-23 2008-11-10 基于整数变换的编码和解码的取整噪声整形

Country Status (11)

Country Link
US (1) US8503535B2 (zh)
EP (2) EP2063417A1 (zh)
JP (1) JP4961042B2 (zh)
KR (1) KR20100113065A (zh)
CN (1) CN101868822B (zh)
BR (1) BRPI0820467A2 (zh)
CA (1) CA2705228A1 (zh)
MX (1) MX2010005418A (zh)
PT (1) PT2215631E (zh)
RU (1) RU2530926C2 (zh)
WO (1) WO2009065748A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103923992B (zh) 2008-05-28 2016-04-27 花王株式会社 耐热菌类的检测方法
CA2777073C (en) * 2009-10-08 2015-11-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
JP5964755B2 (ja) * 2009-12-31 2016-08-03 トムソン ライセンシングThomson Licensing ビデオ符号化および復号化用の適応型結合前処理および後処理フィルタのための方法および装置
RU2571561C2 (ru) * 2011-04-05 2015-12-20 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
PL397008A1 (pl) * 2011-11-17 2013-05-27 Politechnika Poznanska Sposób kodowania obrazu
EP3120561B1 (en) * 2014-03-16 2023-09-06 VID SCALE, Inc. Method and apparatus for the signaling of lossless video coding
WO2018201113A1 (en) * 2017-04-28 2018-11-01 Dts, Inc. Audio coder window and transform implementations
WO2019013363A1 (ko) * 2017-07-10 2019-01-17 엘지전자 주식회사 영상 코딩 시스템에서 주파수 도메인 잡음 감소 방법 및 장치
US10892774B2 (en) * 2017-09-29 2021-01-12 Nagoya Institute Of Technology Re-quantization device having noise shaping function, signal compression device having noise shaping function, and signal transmission device having noise shaping function
KR20210128251A (ko) 2020-04-16 2021-10-26 (주)진영기계 유압실린더를 동력원으로 한 토글 프레스

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1625768A (zh) * 2002-04-18 2005-06-08 弗兰霍菲尔运输应用研究公司 对时间离散音频信号进行编码的装置和方法以及对已编码的音频数据进行解码的方法
CN1806239A (zh) * 2003-07-14 2006-07-19 弗兰霍菲尔运输应用研究公司 用于转换为变换表示或对变换表示进行反转换的设备和方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2201654C2 (ru) * 1997-12-23 2003-03-27 Томсон Лайсенсинг С.А. Способ низкошумового кодирования и декодирования
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
US7451082B2 (en) * 2003-08-27 2008-11-11 Texas Instruments Incorporated Noise-resistant utterance detector
DE10345996A1 (de) * 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
EP1939863A3 (en) * 2003-10-10 2008-07-16 Agency for Science, Technology and Research Method for encoding a digital signal into a scalable bitstream; method for decoding a scalable bitstream

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1625768A (zh) * 2002-04-18 2005-06-08 弗兰霍菲尔运输应用研究公司 对时间离散音频信号进行编码的装置和方法以及对已编码的音频数据进行解码的方法
CN1806239A (zh) * 2003-07-14 2006-07-19 弗兰霍菲尔运输应用研究公司 用于转换为变换表示或对变换表示进行反转换的设备和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Westen, S.J.P., et al..Adaptive spatial noise shaping for DCT based image compression.《1996 IEEE International Conference on Acoustics, Speech, and Signal Processing, 1996. ICASSP-96.Conference Proceedings. 》.1996,第4卷2124-2127. *
Yokotani, Y., et al..Lossless Audio Coding Using the IntMDCT and Rounding Error Shaping.《IEEE Transactions on Audio, Speech, and Language Processing》.2006,第14卷(第6期),2201-2211. *

Also Published As

Publication number Publication date
EP2215631B1 (en) 2012-05-16
EP2063417A1 (en) 2009-05-27
EP2215631A1 (en) 2010-08-11
MX2010005418A (es) 2010-10-26
CN101868822A (zh) 2010-10-20
US20100309983A1 (en) 2010-12-09
US8503535B2 (en) 2013-08-06
RU2010125613A (ru) 2011-12-27
JP2011505728A (ja) 2011-02-24
KR20100113065A (ko) 2010-10-20
BRPI0820467A2 (pt) 2015-06-16
RU2530926C2 (ru) 2014-10-20
JP4961042B2 (ja) 2012-06-27
PT2215631E (pt) 2012-06-26
WO2009065748A1 (en) 2009-05-28
CA2705228A1 (en) 2009-05-28

Similar Documents

Publication Publication Date Title
CN101868822B (zh) 基于整数变换的编码和解码的取整噪声整形
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
TWI407432B (zh) 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體
CN103329197B (zh) 用于反相声道的改进的立体声参数编码/解码
JP5722040B2 (ja) スケーラブルなスピーチおよびオーディオコーデックにおける、量子化mdctスペクトルに対するコードブックインデックスのエンコーディング/デコーディングのための技術
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
US7343287B2 (en) Method and apparatus for scalable encoding and method and apparatus for scalable decoding
CN102119414B (zh) 用于在超帧中量化和逆量化线性预测系数滤波器的设备和方法
CN1957398B (zh) 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
RU2557455C2 (ru) Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала
CN101622662A (zh) 编码装置和编码方法
CN101622661A (zh) 一种数字语音信号的改进编解码方法
CN101432802A (zh) 使用有损编码的数据流和无损扩展数据流对源信号进行无损编码的方法以及设备
US20040220805A1 (en) Method and device for processing time-discrete audio sampled values
CN103918028A (zh) 基于自回归系数的有效表示的音频编码/解码
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120530

Termination date: 20161110