CN102201238B - 用于编码和解码激励模式的方法和装置 - Google Patents

用于编码和解码激励模式的方法和装置 Download PDF

Info

Publication number
CN102201238B
CN102201238B CN201110071448.9A CN201110071448A CN102201238B CN 102201238 B CN102201238 B CN 102201238B CN 201110071448 A CN201110071448 A CN 201110071448A CN 102201238 B CN102201238 B CN 102201238B
Authority
CN
China
Prior art keywords
matrix
coding
incentive mode
window
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110071448.9A
Other languages
English (en)
Other versions
CN102201238A (zh
Inventor
弗洛里安.基勒
奥利弗.沃博尔特
约翰尼斯.贝姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN102201238A publication Critical patent/CN102201238A/zh
Application granted granted Critical
Publication of CN102201238B publication Critical patent/CN102201238B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/265Key design details; Special characteristics of individual keys of a keyboard; Key-like musical input devices, e.g. finger sensors, pedals, potentiometers, selectors
    • G10H2220/311Key design details; Special characteristics of individual keys of a keyboard; Key-like musical input devices, e.g. finger sensors, pedals, potentiometers, selectors with controlled tactile or haptic feedback effect; output interfaces therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

用于编码和解码激励模式的方法和装置。对于音频变换编码器中的谱数据的量化,需要心理声学信息,即,真正的掩蔽阈值的近似值。根据本发明,对音频信号编码中要量化的每个谱,为长和短窗口/变换长度计算并编码激励模式。在可变尺寸的矩阵中将各激励模式编组在一起。仅仅向激励模式数据矩阵值应用具有固定数目的值的预定的排序顺序,并且通过重新排列顺序形成向矩阵的比特平面应用SPECK编码的方形矩阵。

Description

用于编码和解码激励模式的方法和装置
技术领域
本发明涉及一种用于编码和解码激励模式的方法和装置,根据该激励模式确定音频信号变换编解码的掩蔽等级。
背景技术
对于音频变换编码器中的谱数据的量化,需要心理声学的信息,即,真正的掩蔽阈值的近似值(approximation)。在对应的音频变换解码器中,相同的近似值用于重构量化后的数据。在编码器侧,使用窗口函数对源信号的重叠部分进行窗口化。在解码器侧,为解码信号窗口执行重叠+添加。
为了限制要传送的辅助信息数据量,正在使用像mp3和AAC的已知的变换编解码器作为关键频带的掩蔽信息缩放因子(也被表示为“缩放因子频带”),这意味着在量化处理之前对于一组相邻频率窗口(frequency bin)或者系数使用相同的缩放因子。Cf.K.Brandenburg,M.Bosi的“ISO/IEC MPEG-2Advanced Audio Coding:Overview and Applications”,第103届AES大会(103rd AES Convention),1997年9月26-29日,纽约,预印版本No.4641。
然而,缩放因子仅仅代表掩蔽阈值的粗略的(步进的)近似值。掩蔽阈值的这种表示的精度是非常有限的,这是因为(些许)不同的幅值频率窗口的各组将得到相同的缩放因子,并且因此所应用的掩蔽阈值对于显著数目的频率窗口不是最优的。
为了改进编码/解码质量,可以如以下所示来计算掩蔽等级:
S.van de Par,A.Kohlrausch,G.Charestan,R.Heusdens的“A newpsychoacoustical masking model for audio coding applications”,ProceedingsICAS SP’02,IEEE International Conference on Acoustics,Speech and SignalProcessing,2002,Orlando,vol.2,pp.1805-1808;
S.van de Par,A.Kohlrausch,R.Heusdens,J.Jensen,S.H.Jen-sen的“APerceptual Model for Sinusoidal Audio Coding Based on Spectral Integration”,EURASIP Journal on Applied Signal Processing,vol.2005:9,pp.1292-1304,
其中,从要编码的音频信号的功率谱中导出的“激励模式”中导出掩蔽阈值。
在2005年5月28-31日巴塞罗那的第118届AES大会O.Niemeyer,B.Edler的“Efficient Coding of Excitation Patterns Combined with a TransformAudio Coder”的第6466页中描述了应用这种用于掩蔽目的的激励模式的音频编解码器。对于要编码的每个谱的音频数据块,计算激励模式,其中该激励模式代表人耳的(真正的)依赖于频率的心理声学属性。
为了避免与基于缩放因子的掩蔽相比较而显著增加作为结果的数据率,在每个情形下组合了16个连续的激励模式以便高效地编码这些激励模式。如在2004年11月的IEEE Transactions on Circuits and Systems for VideoTechnology,vol.14,no.11,pp.1219-1235的W.A.Pearlman,A.Islam,N.Nagaraj,A.Said的“Efficient,Low-Complexity Image Coding With a Set-PartitioningEmbedded Block Coder”中所描述的对于图像编码应用将激励模式矩阵值进行SPECK(Set Partitioning Embedded bloCK,集合分裂嵌入块)编码。在利用激励模式值建立频率和时间上的2维矩阵和对数尺度矩阵值的2维DCT变换之后执行实际的激励模式编码。对作为结果的变换系数从最高有效的那个开始在比特平面上进行量化和熵编码,由此将SPECK编码的位置和系数的符号传递到音频解码器作为比特流辅助信息。在编码器和解码器侧,为计算要在音频信号编码和解码中应用的掩蔽阈值,对应地解码编码的激励模式,使得计算后的掩蔽阈值在编码器和解码器二者中相同。音频信号量化由作为结果的改进的掩蔽阈值来控制。
不同的窗口/变换长度用于音频信号编码,而固定长度用于激励模式。
这种激励模式音频编码处理的缺点是在编码器中为多个块一起编码激励模式造成的处理延迟,但是其可以实现用于编码谱数据的掩蔽阈值的更精确的表示并且由此增加编码/解码质量,同时多个块的组合的激励模式编码仅仅造成辅助信息数据的少量增加。
发明内容
在上述的Niemeyer/Edler处理中,从激励模式导出的掩蔽阈值与在音频信号编码中选择的窗口和变换长度无关。替代地,从音频信号的定长部分中导出激励模式。然而,短的窗口和变换长度代表更高的时间分辨率并且针对最优的编码/解码质量,有关掩蔽阈值的等级应当相应地适配。
本发明要解决的问题是通过改进掩蔽阈值计算来进一步提高音频信号编码/解码的质量,而不造成辅助信息数据率的增加。通过在权利要求1和5中公开的方法来解决该问题。在权利要求2和6中公开了利用这些方法的装置。
根据本发明,对于在音频信号的编码中要量化的每个谱,计算并编码激励模式,即,对于每个较短的窗口/变换,计算其自身的激励模式并且由此该激励模式的时间分辨率是可变的。在对应的矩阵或者块中将用于长窗口/变换和用于较短的窗口/变换的激励模式编组在一起。激励模式数据量对于长窗口/变换长度与较短的窗口/变换长度(即,对于非瞬态源信号部分和对于瞬态源信号部分)二者是相同的。因此,在每个帧中激励模式矩阵可以具有不同数目的行。
关于激励模式编码,在可选的对矩阵值进行的对数计算之后,向二维变换的激励模式数据矩阵值应用预定的扫描或者排序顺序,并且通过重新排序,可以形成方形矩阵,对于该方形矩阵,向其矩阵比特平面直接应用SPECK编码。仅仅编码扫描路径的固定数目的值。
原则上,本发明的编码方法适合编码激励模式,在对应的激励模式解码之后,根据该激励模式确定用于音频信号编码的掩蔽等级,其中对于所述音频信号编码,使用不同的窗口和谱变换长度连续地处理所述音频信号,并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示相关,所述方法包括以下步骤:
a)对于所述音频信号的当前帧,在针对对应的一组连续激励模式的情形下形成激励模式矩阵P,其中对于所述不同谱变换长度中的每一个谱变换长度,在所述矩阵P中包括对应的激励模式,并且对每个矩阵P的条目取对数,
并且其中,在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下,通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸;
b)对取了对数的矩阵P值应用二维变换,产生矩阵PT
c)向所述矩阵PT中的系数应用预定的排序顺序,所述预定的排序顺序依赖于矩阵尺寸,该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示,并且,从第一个值开始仅仅取得对应的排序路径的固定数目的值,利用这些值形成矩阵PT的方形版本PTq
d)执行对矩阵PTq的SPECK编码,其中处理矩阵PTq的SPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。
原则上,本发明的编码装置是一种音频信号编码器,其中激励模式被编码,在对应的激励模式解码之后,根据该激励模式,确定用于编码所述音频信号的掩蔽等级,其中为编码所述音频信号,使用不同的窗口和谱变换长度连续地处理音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示相关,所述装置包括:
-适配为对于所述音频信号的当前帧、在每个针对对应的一组连续激励模式的情形下形成激励模式矩阵P并且对每个矩阵P的条目取对数的部件,其中对于所述不同谱变换长度中的每一个谱变换长度,在所述矩阵P中包括对应的激励模式,
并且其中,在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下,通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸,并且其中对取了对数的矩阵P的值应用二维变换,产生矩阵PT,以及其中向所述矩阵PT中的系数应用预定的排序顺序,所述预定的排序顺序依赖于矩阵尺寸,该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示,以及其中从第一个值开始仅仅取得对应的排序路径的固定数目的值,利用这些值形成矩阵PT的方形版本PTq
-适配为对矩阵PTq执行SPECK编码的部件,其中处理矩阵PTq的SPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。
原则上,本发明的解码方法适合于解码根据上述编码方法编码的激励模式,根据该激励模式确定用于对编码的音频信号进行解码的掩蔽等级,其中对于所述音频信号解码,使用不同的窗口和谱的逆变换长度连续地处理所述音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示相关,所述方法包括以下步骤:
a)对从比特流接收的对应数据执行所述方形矩阵PTq的对应的SPECK解码;
b)向重构的矩阵PTq数据附加零以便重新获得如在编码中使用的排序路径中的原始数目的数据,
并且根据用于当前矩阵的排序索引通过应用如在编码中使用的逆排序顺序将这些数据转换回重构的矩阵PT,其中该排序索引还用于建立合适的矩阵尺寸;
c)在矩阵PT上应用对应的逆二维变换和反对数以便重新获得重构的激励模式矩阵P。
原则上,本发明的解码装置是一种音频信号解码器,其中对根据上述编码方法编码的激励模式进行解码并且将其用于确定对编码的音频信号进行解码的掩蔽等级,其中对于所述音频信号的解码,使用不同的窗口和谱的逆变换长度连续地处理所述音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示相关,所述装置包括:
-适配于进行以下处理的部件:用于对从比特流接收的对应数据执行所述方形矩阵PTq的对应的SPECK解码,
和用于向重构的矩阵PTq数据附加零以便重新获得如在编码中使用的排序路径中的原始数目的数据,
并且用于根据当前矩阵的排序索引通过应用如在编码中使用的逆排序顺序将这些数据转换回重构的矩阵PT,其中该排序索引还用于建立合适的矩阵尺寸;
并且用于在矩阵PT上应用对应的逆二维变换和反对数以便重新获得重构的激励模式矩阵P;
-适配为根据矩阵P的激励模式计算所述掩蔽阈值的部件;
-适配为使用所述掩蔽阈值对所述编码的音频信号进行解码和重新量化,并且对作为结果的信号进行逆变换并且在其上应用重叠+添加处理的部件。
在相应的从属权利要求中公开了本发明的有利的附加实施例。
附图说明
参照附图来描述本发明的示例实施例,在附图中:
图1示出本发明的编码器的框图;
图2示出本发明的解码器的框图;
图3示出激励模式编码的流程图;
图4示出激励模式解码的流程图。
具体实施方式
在图1的本发明的音频变换编码器的框图中,音频输入信号10通过超前(look-ahead)延迟121传递到瞬态检测器级或阶11,瞬态检测器级或阶11选择在频率变换级或阶12中在输入信号10上要应用的当前窗口类型WT。在级/阶12中,使用具有与当前窗口类型对应的块长度的调制交叠变换(MLT),例如,MDCT(修改的离散余弦变换)。将K个输入信号样本的连续部分输入到级/阶12,其中K具有例如“128”或者“1024”的值。由于50%窗口重叠,变换长度是N=2*K。在对应的级/阶15中对变换的音频信号进行量化和熵编码。如同在级/阶14中的激励模式块处理,不是必须在级/阶15中按块对变换系数进行处理。在输出编码的比特流17的比特流多路复用级/阶16中对编码的频率窗口CFB、窗口类型码WT、激励数据矩阵码EPM,以及可能的其他辅助信息数据进行多路复用。
如上述的,在部分14中计算激励模式需要功率谱。为了得到功率谱,在级/阶12中还使用MDST(修改的离散正弦变换)来变换当前窗口化的信号块。MLT和MDST类型的两种频率表示被馈入存储直至L个块的缓冲器13中,其中L是例如“8”或“16”。当前窗口类型码还经由与一个块变换时段对应的延迟111被馈入缓冲器13。每个变换的输出包含用于一个信号块的K个频率窗口。如果在级/阶11中检测到瞬态,则通过整数个LS个短窗口(即,块)而不是长度N=2K的单个长窗口来对时域输入信号进行窗口化,其中LS是例如“3”或者“8”,并且其中用于一个长信号块的所有短窗口的频率窗口的总数是K。
L个数目的信号块形成被表示为“帧”的一数据组。在级/阶141中向帧的激励模式应用激励模式编码。对于随后要量化的每个谱,计算一个激励模式。该特征不同于上述的Brandenburg and the Niemeyer/Edler的公开中描述的音频编码和其中使用激励模式的固定时间分辨率的以下标准(国际标准ISO/IEC 11172-3“Information technology-Coding of moving pictures andassociated audio for digital storage media at up to about 1,5Mbit/s-Part 3:Audio”,国际标准ISO/IEC 13818-3“Information technology-Generic coding ofmoving pictures and associated audio information-Part 3:Audio”)中相应的特征。
激励模式数据量对于长变换长度和短变换长度二者是相同的。结果,对于包含短窗口的信号块比对于包含长窗口的信号块必须要编码更多的激励模式数据。优选地在具有非方形形状的矩阵P中排列要编码的激励模式。该矩阵的每一行包含与要量化的一个谱对应的一个激励模式。由此,行和列的索引分别对应于时间轴和频率轴。矩阵P中的行数至少是L,但是与Niemeyer/Edler公开中描述的处理相反,矩阵P可以在每个帧中具有不同行数,这是因为该数目将依赖于相应帧中短窗口的数目。
作为替换,可以交换矩阵P的行和列。
为了应用2维变换(例如,通过使用两个级联的1维DCT),可以复制矩阵的最后一行(或者甚至更多行)以便得到该变换可以处理的行数(例如,偶数)。表1示出了可能导致11行的、具有使用短窗口的一个块的帧的示例。因为2维变换可以处理作为“4”的倍数的输入尺寸,所以复制最后一行:
  块索引   窗口类型   模式索引
  1   长   1
  2   开始   2
  3   短   3
  3   短   4
  3   短   5
  3   短   6
  4   停止   7
  5   长   8
  6   长   9
  7   长   10
  8   长   11
  8(复制的)   (长)   12
表1:帧中窗口序列的示例(L=8,LS=4)
类似于上述的Niemeyer/Edler公开中3.2部分,按以下执行激励模式矩阵P的实际编码(也参见图3),但是存在若干重要差异:
a)取得每个矩阵P条目的对数。
b)在作为结果的矩阵值上应用2维变换(即,再次对谱激励模式表示进行被表示为矩阵PT的变换)。
c)减少要编码的变换矩阵PT的列数(例如,通过移除表示通常具有非常小的幅度的高频内容的矩阵PT的列)。
d)向变换矩阵PT的系数应用预定的扫描顺序(即,预定的排序)。在预处理时,通过执行利用代表性的输入信号进行的训练已经确定了每个矩阵尺寸的扫描或者排序顺序(即,依赖于用于每个矩阵PT的短窗口的激励模式的数目)。
注释:在理想的情形下,现在沿着扫描路径以降序排列变换矩阵PT系数的绝对值。
e)通过仅仅使用扫描或者排序路径的固定数目的值来进一步减少要编码的数据的数目,即,省略扫描路径的末尾处的对应值,并且形成矩阵PT的方形版本PTq,例如,通过利用来自扫描路径的值逐行地或者逐列地填充方形矩阵PTq。在之前的训练处理中也已经确定了该固定数目。还可以通过对应的矢量在该处理中表示方形矩阵PTq
f)对矩阵PTq执行在上述的Pearlman等人的公开的II和III,III.A-D部分中描述的SPECK处理,由此处理方形矩阵PTq的比特平面并且使用连续分区来定位和编码比特平面中相应系数比特的位置。
可以将表示方形矩阵PTq系数的符号的比特添加到EPM编码数据中,或者可以将其直接地(即,没有特定的编码)添加到多路复用器16中的比特流中。
当与Niemeyer/Edler公开比较时,激励模式编码处理在以上列出的步骤c)、d)和e)中不同。在本发明处理中附加地执行步骤c)。关于步骤d),执行矩阵PT系数的重新排列,该重新排列对于不同的矩阵尺寸是不同的。
关于步骤e),重新排列或者扫描相对于Niemeyer/Edler处理具有两个优点:
-作为结果的矩阵PTq是方形的使得可以直接地在比特平面上应用SPECK处理,而在Niemeyer/Edler中,矩形矩阵在可以执行原始的SPECK处理之前需要被分解为若干方形矩阵。否则需要改变原始的SPECK处理。
-因为在所应用的扫描路径内,最后的矩阵系数将非常可能具有最小的幅度,所以仅仅编码固定数目的系数将仅仅省略可忽略的幅值的系数,而在Niemeyer/Edler中,如果通过“跳过一个或者多个最低比特平面”而“实现了变换系数矩阵的足够近似”或者“满足了给定的比特率约束条件”,则停止编码循环。即,在Niemeyer/Edler中,被省略的系数可能包括可以得到更粗略量化的矩阵的一些重要系数和/或所有系数。
在步骤d)中,必须通过例如确定排序索引来为每个可能的矩阵P尺寸提供矩阵PT的排序或者扫描顺序,按照所述排序索引在音频编码器的存储器中和在音频解码器的存储器中存储对应的扫描路径。
在对所有类型的音频信号执行一次的训练阶段中,收集所有矩阵元素的统计值。为此目的,例如对于不同类型的音频信号的多个测试矩阵,计算每个矩阵条目的平方值并且对于矩阵内的每个值位置在测试矩阵上进行平均。然后,幅值的顺序代表排序的顺序。对于所有可能的矩阵尺寸执行这种处理,并且将对应的排序索引分配给每个矩阵尺寸的排序顺序。使用这些排序索引来(自动地)选择激励模式矩阵编码和解码处理中的扫描或排序顺序。
如在以上步骤e)中所述的,进一步减少要编码的值的数目。根据(在训练阶段确定的)统计值,评估要编码的固定数目的值:在排序之后,仅仅使用合计为总能量的给定阈值的该数目的值,例如0.999。
在音频信号编码器中,激励数据矩阵码EPM可以包括排序索引信息。作为节省总的数据率的替代方案,在解码器侧根据每帧的(被窗口类型码WT发信号通知的)短窗口的数目来自动地确定矩阵尺寸以及排序索引。在激励模式解码器级/阶142中按以下描述的对在级/阶141中编码的激励模式进行解码。根据解码的激励模式,在掩蔽阈值计算器级/阶143中为L个块计算对应的掩蔽阈值,掩蔽阈值计算器级/阶143的输出被中间存储在缓冲器144中,缓冲器144向量化和熵编码级/阶15提供用于从级/阶12和缓冲器13接收的每个变换系数的当前的掩蔽阈值。量化和熵编码级/阶15向比特流多路复用器16提供编码的频率窗口CFB。
在图2中示出的本发明的解码器中,所接收的编码比特流27在比特流多路分解器级/阶26中被分解为窗口类型码WT、编码的频率窗口CFB、激励模式数据矩阵码EPM,以及可能的其他辅助信息数据。使用在激励模式块处理级/阶24中计算的窗口类型码WT和掩蔽阈值信息在对应的级/阶25中对熵编码的CFB数据进行熵解码和去量化。在输出重构的音频信号20的逆变换/重叠+添加级/阶23中利用与当前窗口类型码WT对应的块长度对重构的频率窗口进行逆MLT变换及重叠+添加处理。在激励模式解码器242中解码激励模式数据矩阵码EPM,由此对应的逆SPECK处理提供矩阵PTq的副本,对应的逆扫描提供变换后的矩阵PT的副本,并且对应的逆变换提供用于当前块的重构的矩阵P。在掩蔽阈值计算级/阶243中使用重构的矩阵P的激励模式来重构用于当前块的掩蔽阈值,所述掩蔽阈值被中间存储在缓冲器244中并且被提供给级/阶25。
为重构激励模式在激励模式解码器242中执行以下步骤(也参见图4):
A)应用对应的SPECK解码处理。
B)向重构的矩阵PTq数据附加零以得到与在编码器中使用的扫描或者排序路径中相同(即,原始)数目的数据。
C)通过应用与在编码器中使用的相反的排序顺序而将这些数据转换回减少尺寸的变换矩阵,其中还使用有关的排序索引以将解码的数据转换回适当尺寸的矩阵。
D)利用零填充该重构的矩阵中缺少的列以便得到重构的矩阵PT
E)应用逆2维变换以得到重构的矩阵。
F)对所有矩阵条目取反对数以得到重构的激励模式矩阵P。
立体声/多声道信号的激励模式编码
当处理立体声输入信号或者更一般的多声道信号时,可以在激励模式编码中利用各声道之间的相关性。例如,在利用相同的窗口类型来处理所有的声道信号的情况下,可以使用同步的瞬态检测。即,对于每个声道nch而言,获得相同大小的激励模式矩阵P(nch)。可以以不同的多声道编码模式k来编码独立的矩阵(在立体声的情形下,L和R表示对应于左声道和右声道的数据):
-每声道交错的激励模式:LRLR...LR;
-具有声道数据的组合矩阵:LL...LRR...R;
-每个声道一个独立的矩阵。
在编码器中,可以执行所有三种编码模式k并且从产生矩阵P’(nch,k)的候选者或者暂时的比特流中解码激励模式。对于每个多声道编码模式k,计算所应用的编码的失真d(k):
根据这些暂时的比特流,在编码器中评估所需要的数据量s(k)。优选地,实际上使用的编码模式是其中实现d(k)*s(k)的乘积最小值的编码模式。该编码模式的对应的比特流数据被传送给解码器。也将多声道编码模式索引k作为另外的辅助信息传送到解码器。

Claims (19)

1.一种编码(141)激励模式的方法,在对应的激励模式解码(142)之后,根据该激励模式确定(143)用于音频信号(10)编码(11,12,15)的掩蔽等级,其中对于所述音频信号编码,使用不同的窗口和谱变换长度连续地处理(12,15)所述音频信号,并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示(12)相关,所述方法包括以下步骤:
a)对于所述音频信号(10)的当前帧,在每个针对对应的一组连续激励模式的情形中形成(12,13,31)激励模式矩阵P,其中对于所述不同的谱变换长度中的每一个谱变换长度,在所述矩阵P中包括对应的激励模式,并且对每个矩阵P的条目取对数(32),并且其中,在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下,通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸;
b)对取了对数的矩阵P的值应用(33)二维变换,产生矩阵PT
c)向所述矩阵PT中的系数应用(35)预定的排序顺序,所述预定的排序顺序依赖于矩阵尺寸,该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示,以及,从第一个值开始仅仅取得对应的排序路径的固定数目的值,利用这些值形成(35)矩阵PT的方形版本PTq
d)对矩阵PTq执行(36)SPECK编码,其中处理矩阵PTq的SPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。
2.一种解码(242)根据权利要求1的方法编码的激励模式的方法,根据该激励模式确定(243)用于对编码的音频信号(27)进行解码(25,23)的掩蔽等级,其中对于所述音频信号解码,使用不同的窗口和谱的逆变换长度连续地处理所述音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示(12)相关,所述方法包括以下步骤:
a)对从比特流接收(26)的对应数据(EPM)执行(41)所述方形矩阵PTq的对应的SPECK解码;
b)向重构的矩阵PTq数据附加(42)零以便重新获得在编码中使用的排序路径中的原始数目的数据,
并且根据用于当前矩阵的排序索引通过应用在编码中使用的逆排序顺序将这些数据转换(43)回重构的矩阵PT,其中该排序索引还用于建立合适的矩阵尺寸;
c)在矩阵PT上应用(45,46)对应的逆二维变换和反对数以便重新获得重构的激励模式矩阵P。
3.根据权利要求1的方法,其中在步骤b)和c)之间,通过移除代表在统计上具有最低幅度的频率的至少一个矩阵边界列或行来减少矩阵PT的尺寸。
4.根据权利要求1或3的方法,其中在编码的音频信号比特流中包括用于发信号通知当前窗口和谱变换长度的窗口类型码(WT)以及发信号通知当前矩阵尺寸的排序索引。
5.根据权利要求2的方法,其中在步骤b)和c)之间,利用零来填充(44)代表在统计上具有最低幅度的频率的矩阵边界列或行的缺少的值以便重新获得所述重构的矩阵PT
6.根据权利要求2或5的方法,其中根据每帧的短窗口的数目来自动地确定矩阵尺寸以及排序索引。
7.根据权利要求1至3中任一项的方法,其中所述窗口和谱变换长度具有两种类型:长的和短的,并且其中起始窗口在短窗口之前,停止窗口接在短窗口之后。
8.根据权利要求1或2的方法,其中代表矩阵PTq的值的符号的比特在没有特定的编码的情况下被包括在编码的音频信号比特流中。
9.根据权利要求1至3中任一项的方法,其中,在音频信号(10)是多声道音频信号的情形下,对于当前帧,在激励模式编码(141)中在所有声道中使用相同的矩阵尺寸,并且在以下多声道编码模式k中的至少一个中编码单独的矩阵;
-每声道的交错的激励模式;
-具有声道数据的组合的矩阵;
-每个声道的一个单独的矩阵,
并且其中在比特流中包括代表所述编码模式k的代码,并且在激励模式解码处理(142,242)中对应地使用该代码。
10.一种编码(141)激励模式的音频信号编码器,在对应的激励模式解码(142)之后,根据该激励模式确定(143)所述音频信号(10)的编码(11,12,15)的掩蔽等级,其中为编码所述音频信号,使用不同的窗口和谱变换长度连续地处理所述音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示(12)相关,所述音频信号编码器包括:
-适配为对于所述音频信号的当前帧、在每个针对对应的一组连续激励模式的情形中形成激励模式矩阵P并且对每个矩阵P的条目取对数的部件(12,13,141),其中对于所述不同谱变换长度中的每一个谱变换长度,在所述矩阵P中包括对应的激励模式,
并且其中,在作为结果的矩阵尺寸不适合于之后步骤的变换的情况下,通过将位于矩阵边界的激励模式的值复制必需的次数来增加矩阵的尺寸,
并且其中对取了对数的矩阵P的值应用二维变换,产生矩阵PT,以及其中向所述矩阵PT中的系数应用预定的排序顺序,所述预定的排序顺序依赖于矩阵尺寸,该矩阵尺寸依赖于当前帧中非最长的变换长度的数目并且通过对应的排序索引来表示,以及其中从第一个值开始仅仅取得对应的排序路径的固定数目的值,利用这些值形成矩阵PT的方形版本PTq
-适配为对矩阵PTq执行SPECK编码的部件,其中处理矩阵PTq的SPECK编码比特平面并且使用连续的分区来定位并编码所述比特平面中的对应系数比特的位置。
11.根据权利要求10的音频信号编码器,其中在所述二维变换和所述应用所述预定的排序顺序之间,通过移除代表在统计上具有最低幅度的频率的至少一个矩阵边界列或行来减少矩阵PT的尺寸。
12.根据权利要求10或11的音频信号编码器,其中在编码的音频信号比特流中包括用于发信号通知当前窗口和谱变换长度的窗口类型码(WT)以及发信号通知当前矩阵尺寸的排序索引。
13.根据权利要求10的音频信号编码器,其中所述窗口和谱变换长度具有两种类型:长的和短的,并且其中起始窗口在短窗口之前,停止窗口接在短窗口之后。
14.根据权利要求10的音频信号编码器,其中代表矩阵PTq的值的符号比特在没有特定的编码的情况下被包括在编码的音频信号比特流中。
15.一种音频信号解码器,其中对根据权利要求1的方法编码的激励模式进行解码并且将其用于确定对编码的音频信号(27)进行解码的掩蔽等级,其中对于所述音频信号的解码,使用不同的窗口和谱的逆变换长度连续地处理所述音频信号并且代表给定的多个最长的变换长度的音频信号的部分被表示为帧,并且其中所述激励模式与所述音频信号的连续部分的谱表示相关,所述音频信号解码器包括:
-适配于用于以下处理的部件(242):用于对从比特流接收的对应数据(EPM)执行(41)所述方形矩阵PTq的对应的SPECK解码,和用于向重构的矩阵PTq的数据附加(42)零以便重新获得在编码中使用的排序路径中的原始数目的数据,
并且用于根据当前矩阵的排序索引通过应用在编码中使用的逆排序顺序将这些数据转换(43)回重构的矩阵PT,其中该排序索引还用于建立合适的矩阵尺寸;
并且用于在矩阵PT上应用(45,46)对应的逆二维变换和反对数以便重新获得重构的激励模式矩阵P;
-适配为根据矩阵P的激励模式计算掩蔽阈值的部件(243);
-适配为使用所述掩蔽阈值对所述编码的音频信号进行解码和重新量化,并且对作为结果的信号进行逆变换并且在其上应用重叠+添加处理的部件(25,23)。
16.根据权利要求15的音频信号解码器,其中在所述逆排序之后,利用零来填充(44)代表在统计上具有最低幅度的频率的矩阵边界列或行的缺少的值以便重新获得所述重构的矩阵PT
17.根据权利要求15或16的音频信号解码器,其中根据每帧的短窗口的数目来自动地确定矩阵尺寸以及排序索引。
18.根据权利要求15的音频信号解码器,其中所述窗口和谱变换长度具有两种类型:长的和短的,并且其中起始窗口在短窗口之前,停止窗口接在短窗口之后。
19.根据权利要求15的音频信号解码器,其中代表矩阵PTq的值的符号比特在没有特定的编码的情况下被包括在编码的音频信号比特流中。
CN201110071448.9A 2010-03-24 2011-03-24 用于编码和解码激励模式的方法和装置 Expired - Fee Related CN102201238B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP10305295A EP2372705A1 (en) 2010-03-24 2010-03-24 Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined
EP10305295.7 2010-03-24

Publications (2)

Publication Number Publication Date
CN102201238A CN102201238A (zh) 2011-09-28
CN102201238B true CN102201238B (zh) 2015-06-03

Family

ID=42320355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110071448.9A Expired - Fee Related CN102201238B (zh) 2010-03-24 2011-03-24 用于编码和解码激励模式的方法和装置

Country Status (5)

Country Link
US (1) US8515770B2 (zh)
EP (2) EP2372705A1 (zh)
JP (1) JP5802412B2 (zh)
KR (1) KR20110107295A (zh)
CN (1) CN102201238B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010075377A1 (en) * 2008-12-24 2010-07-01 Dolby Laboratories Licensing Corporation Audio signal loudness determination and modification in the frequency domain
EP2956932B1 (en) * 2013-02-13 2016-08-31 Telefonaktiebolaget LM Ericsson (publ) Frame error concealment
KR102231756B1 (ko) 2013-09-05 2021-03-30 마이클 안토니 스톤 오디오 신호의 부호화, 복호화 방법 및 장치
US10599218B2 (en) * 2013-09-06 2020-03-24 Immersion Corporation Haptic conversion system using frequency shifting
CN111554311B (zh) * 2013-11-07 2023-05-12 瑞典爱立信有限公司 用于编码的矢量分段的方法和设备
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
US10511361B2 (en) * 2015-06-17 2019-12-17 Intel Corporation Method for determining a precoding matrix and precoding module
US10726851B2 (en) * 2017-08-31 2020-07-28 Sony Interactive Entertainment Inc. Low latency audio stream acceleration by selectively dropping and blending audio blocks
US11811686B2 (en) * 2020-12-08 2023-11-07 Mediatek Inc. Packet reordering method of sound bar
CN113853047A (zh) * 2021-09-29 2021-12-28 深圳市火乐科技发展有限公司 灯光控制方法、装置、存储介质和电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671413B1 (en) * 2000-01-24 2003-12-30 William A. Pearlman Embedded and efficient low-complexity hierarchical image coder and corresponding methods therefor
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
PT3550564T (pt) * 2007-08-27 2020-08-18 Ericsson Telefon Ab L M Análise/síntese espectral de baixa complexidade utilizando resolução temporal selecionável
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Efficient Coding of Excitation Patterns Combined with a Transform Audio Coder;EDLER BERND ET AL;《AES CONVENTION 118》;20050501;全文 *
Scalable Noise Coder for Parametric Sound Coding;KOT VALERY ET AL;《AES CONVENTION 118》;20050501;全文 *

Also Published As

Publication number Publication date
EP2372706A1 (en) 2011-10-05
US8515770B2 (en) 2013-08-20
EP2372706B1 (en) 2014-11-19
KR20110107295A (ko) 2011-09-30
JP2011203732A (ja) 2011-10-13
EP2372705A1 (en) 2011-10-05
JP5802412B2 (ja) 2015-10-28
CN102201238A (zh) 2011-09-28
US20110238424A1 (en) 2011-09-29

Similar Documents

Publication Publication Date Title
CN102201238B (zh) 用于编码和解码激励模式的方法和装置
KR100892152B1 (ko) 시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법
US7620554B2 (en) Multichannel audio extension
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
US7761290B2 (en) Flexible frequency and time partitioning in perceptual transform coding of audio
RU2224302C2 (ru) Способ и устройство для масштабируемого кодирования/декодирования аудиосигналов
CN101432802B (zh) 使用有损编码的数据流和无损扩展数据流对源信号进行无损编码的方法以及设备
EP2028648B1 (en) Multi-channel audio encoding and decoding
US8386271B2 (en) Lossless and near lossless scalable audio codec
CN1135721C (zh) 音频信号编码方法及其有关设备
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
US20100318368A1 (en) Quantization and inverse quantization for audio
KR100911994B1 (ko) Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법
KR102546098B1 (ko) 블록 기반의 오디오 부호화/복호화 장치 및 그 방법
Geiger et al. Integer low delay and MDCT filter banks
Ravelli et al. Extending fine-grain scalable audio coding to very low bitrates using overcomplete dictionaries
Chan et al. An Introduction to AVS Lossless Audio Coding
Kang et al. A hybrid warped linear prediction (WLP) AAC audio coding algorithm
Chiang et al. Efficient AAC Single Layer Transcoer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150603

Termination date: 20170324