CN101128866A - 多声道音频编码中的优化保真度和减少的信令 - Google Patents

多声道音频编码中的优化保真度和减少的信令 Download PDF

Info

Publication number
CN101128866A
CN101128866A CNA2006800056509A CN200680005650A CN101128866A CN 101128866 A CN101128866 A CN 101128866A CN A2006800056509 A CNA2006800056509 A CN A2006800056509A CN 200680005650 A CN200680005650 A CN 200680005650A CN 101128866 A CN101128866 A CN 101128866A
Authority
CN
China
Prior art keywords
frame
subframe
signal
cataloged procedure
scrambler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800056509A
Other languages
English (en)
Other versions
CN101128866B (zh
Inventor
A·塔勒布
S·安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Priority claimed from PCT/SE2006/000235 external-priority patent/WO2006091151A1/en
Publication of CN101128866A publication Critical patent/CN101128866A/zh
Application granted granted Critical
Publication of CN101128866B publication Critical patent/CN101128866B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

本发明提供用于对多声道音频信号进行编码的有效技术。本发明依靠以下原理:在第一编码过程中对多个声道的一个或多个的信号表示进行编码(S1),以及在基于滤波器的第二编码过程中对一个或多个声道的另一个信号表示进行编码。根据本发明的基本思路是,对于第二编码过程,根据预定标准选择(S2)下列各项的组合:i)整个编码帧到子帧集合的帧分割配置;以及ii)用于各子帧的滤波器长度。按照所选组合在整个编码帧的各子帧中对第二信号表示进行编码(S3)。选择帧分割配置以及同时调节用于各子帧的滤波器长度的可能性提供增加的自由度,并且一般产生改进的性能。

Description

多声道音频编码中的优化保真度和减少的信令
技术领域
一般来说,本发明涉及音频编码和解码技术,更具体来说,涉及多声道音频编码、如立体声编码。
背景技术
对于在保持高音频质量的同时以低比特率发送和存储音频信号存在极大的市场需要。具体来说,在传送资源或存储装置受到限制的情况中,低比特率操作是主要的成本因素。例如,在诸如GSM、UMTS或CDMA之类的移动通信系统的流播和消息传递应用中,情况通常是这样。
采用多声道编码和解码的音频传送系统的一般实例如图1示意说明。整个系统主要包括发送侧的多声道音频编码器100和传送模块10以及接收侧的接收模块20和多声道音频解码器200。
音频信号的立体声或多声道编码的最简单方式是把不同声道的信号分别编码为各个独立信号,如图2所示。但是,这意味着,不删除多个声道之间的冗余度,以及比特率要求将与声道的数量成正比。
立体声FM无线电传送中使用的并且确保与遗留单声道无线电接收器的兼容性的另一种基本方式是发送两个有关声道的和及差信号。
现有技术的音频编解码器、如MPEG-1/2第III层和MPEG-2/4AAC利用所谓的联合立体声编码。根据这种技术,不同声道的信号被联合处理而不是单独和分别处理。两种最常用的联合立体声编码技术称作‘中/侧’(M/S)立体声和强度立体声编码,它们通常应用于待编码的立体声或多声道信号的子带。
在对声道子带的和及差信号进行编码和发送、由此利用声道子带之间的冗余度的意义上,M/S立体声编码与立体声FM无线电中的所述程序相似。例如在参考文献[1]中描述了基于M/S立体声编码的编码器的结构和操作。
另一方面,强度立体声能够利用立体声不相干性。它发送(不同子带的)声道的联合强度以及某个位置信息,表明如何在声道之中分布强度。强度立体声仅提供声道的频谱幅度信息,而相位信息则没有传送。为了这个原因以及由于声道间时间信息(更具体来说是声道间时间差)特别在较低频率上具有主要心理声学相干性,所以强度立体声仅可在高于例如2kHz的高频上使用。例如在参考文献[2]中描述了强度立体声编码方法。
在参考文献[3]中描述了称作双耳线索编码(BCC)的最近发展的立体声编码方法。这种方法是参数多声道音频编码方法。这种参数编码技术的基本原理在于,在编码侧,来自N个声道的输入信号组合为一个单声道信号。单声道信号是采用任何传统单声道音频编解码器进行编码的音频。参数并行地从描述多声道图像的声道信号中得出。参数被编码以及与音频比特流一起发送给解码器。解码器首先对单声道信号解码,然后根据多声道图像的参数描述重新生成声道信号。
双耳线索编码(BCC)方法的原理在于,它发送编码单声道信号和所谓的BCC参数。BCC参数包括原始多声道输入信号的子带的已编码声道间电平差和声道间时间差。解码器通过根据BCC参数施加单声道信号的逐个子带的电平和相位和/或延迟调节,重新生成不同的声道信号。优于例如M/S或强度立体声的优点在于,包含声道间时间信息的立体声信息以低得多的比特率传送。但是,BCC在计算上要求高,并且一般在感知上没有优化。
参考文献[4]中描述的另一种技术采用单声道信号和所谓的侧信息的编码的相同原理。在这种情况中,侧信息由预测器滤波器和可选的残留信号组成。通过LMS算法估算的预测器滤波器在应用于单声道信号时,允许多声道音频信号的预测。通过这种技术,能够达到多声道音频源的极低比特率编码、但是以质量下降为代价。
这种参数立体声编码的基本原理如图3所示,它显示立体声编解码器的布局,其中包括混音模块120、核心单声道编解码器130、230和参数立体声侧信息编码器/解码器140、240。混音把多声道(在这种情况中为立体声)信号变换为单声道信号。参数立体声编解码器的目的是在给定重构的单声道信号和附加立体声参数的情况下在解码器上再生立体声信号。
最后,为了完整性,将提到在3D音频中使用的一种技术。这种技术通过采用所谓的头相关滤波器对声源信号进行滤波来合成右和左声道信号。但是,这种技术要求不同的声源信号被分离,因而一般不可应用于立体声或多声道编码。
发明内容
本发明克服了先有技术装置的这些及其它缺点。
本发明的一般目的是以低比特率提供高多声道音频质量。
具体来说,希望提供能够采用较低数量的编码位来准确表示立体声或多声道信息的有效编码过程。例如,对于立体声编码,重要的是,立体声图像的动态被完全表示,使得立体声信号重构的质量被增强。
本发明的另一个目的是有效利用可用位预算以及优化所需信令。
本发明的一个具体目的是提供用于对多声道音频信号进行编码的方法及装置。
本发明的另一个具体目的是提供用于对已编码多声道音频信号进行解码的方法及装置。
本发明的又一个具体目的是提供改进的音频传送系统。
如所附专利权利要求所定义的本发明满足这些及其它目的。
目前,不存在以经济上受关注的用于例如移动通信系统的比特率提供高立体声或多声道音频质量的可用的标准化编解码器。采用可得到的编解码器可能的情况是音频信号的单声道传送和/或存储。在某种程度上,立体声传送或存储也是可得到的,但是比特率限制通常需要相当严格地限制立体声表示。
通过提出允许分离来自音频信号的立体声或多声道信息以及以最佳可能的方式准确表示它的解决方案,本发明克服了这些问题。本发明依靠以下基本原理:在第一编码过程中对多个声道的一个或多个的第一信号表示进行编码,以及在基于滤波器的第二编码过程中对多个声道的一个或多个的第二信号表示进行编码。根据本发明的一个基本思路是,对于第二编码过程,根据预定标准选择下列各项的组合:i)整个编码帧到子帧集合的帧分割配置,以及ii)用于各子帧的滤波器长度。然后,根据所选组合在所选子帧集合的子帧的每个中对第二信号表示进行编码。
对于可变帧长度,编码帧一般可根据各种帧分割配置被分为多个子帧。子帧可具有不同大小,但是,任何给定帧分割配置的子帧的长度之和通常等于整个编码帧的长度。选择帧分割配置以及同时调节用于各子帧的滤波器长度的可能性提供增加的自由度,并且一般产生改进的性能。预定标准优选地基于表示在整个编码帧上第二编码过程的性能的量度的优化。
第二编码过程或与其关联的控制器将生成表示所选帧分割配置以及所选帧分割配置的用于各子帧的滤波器长度的输出数据。这个输出数据必须从编码侧发送到解码侧,以便实现已编码信息的正确解码。虽然整体性能将通过选择帧分割配置和滤波器长度的适当组合得到显著提高,但是,在音频传送系统中从编码侧到解码侧的传送的信令要求将明显增加。在本发明的一个具体的示范实施例中,因此,可能希望把某个长度的每个子帧与预定义滤波器长度关联。通常,把长滤波器分配给长帧,以及把短滤波器分配给短帧。
换言之,预定标准因而包括用于各子帧的滤波器长度根据子帧的长度来选择、使得编码帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示的要求。这样,到解码侧的所需信令可减小。
在本发明的一个优选实施例中,预定标准基于在用于各子帧的滤波器长度由子帧的长度控制的要求下,表示在整个编码帧上所述第二编码过程的性能的量度的优化。
在解码侧,解码器接收表示整个编码帧到子帧集合的哪一种帧分割配置以及各子帧的哪一种滤波器长度已经用于对应的第二编码过程的信息。这个信息用于在第二解码过程中解释第二信号重构数据,为了正确地对第二信号表示进行解码。如前面所述,这个信息优选地包在表明编码帧到子帧集合的帧分割配置的同时提供用于各子帧的所选滤波器维的指示的数据。
如果第一编码过程采用具有整个编码帧到子帧集合的帧分割配置的所谓可变帧长度处理,则对于第二编码过程也采用相同的帧分割配置可能是有用的。这样,仅对编码过程之一发信号通知表示帧分割配置的信息是足够的。
帧分割配置和滤波器长度的编码及关联的控制优选地逐帧执行。此外,控制系统优选地根据多声道音频信号的声道间相关特性进行操作。
例如,第一编码过程可以是主要编码过程,以及第一信号表示可以是主要信号表示。第二编码过程例如可以是辅助/侧信号过程,以及第二信号表示则可以是侧信号表示、如立体声侧信号。在这样一种情况中,第二编码过程通常包括用于根据第一和第二信号表示、采用与可调ICP滤波器长度结合的可变帧长度处理来预测第二信号表示的自适应声道间预测(ICP)。采用这样一种方案的优点在于,完善地表示立体声或多声道图像的动态。帧分割配置及关联的滤波器长度的选择优选地一般基于第二编码过程的估算性能,以及具体基于ICP滤波器。
虽然本发明主要针对第一编码过程是主要编码过程以及第二编码过程是辅助编码过程时的情况,但是应当理解,本发明也可适用于第一编码过程是辅助编码过程以及第二编码过程是主要编码过程的情况。情况甚至可能是,帧分割配置及关联的滤波器长度的控制对于第一编码过程以及第二编码过程来实行。
本发明提供以下优点:
Figure A20068000565000121
改进的多声道音频编码/解码。
Figure A20068000565000122
改进的音频传送系统。
增加的多声道音频重构质量。
Figure A20068000565000124
较低比特率的高多声道音频质量。
Figure A20068000565000125
具有优化信令的高保真度。
Figure A20068000565000126
立体声图像的动态的良好表示。
Figure A20068000565000127
立体声信号重构的增强的质量。
通过阅读以下对本发明的实施例的描述,将会理解本发明提供的其它优点。
附图说明
通过参照以下结合附图进行的说明,将会最佳地理解本发明以及其它目的和优点,附图中:
图1是示意框图,说明采用多声道编码和解码的音频传送系统的一般实例。
图2是示意图,说明如何把不同声道的信号分开地编码为各个独立信号。
图3是示意框图,说明参数立体声编码的基本原理。
图4是简图,说明单声道和侧信号的交叉谱。
图5是根据本发明的一个示范优选实施例的多声道编码器的示意框图。
图6是主帧中的不同帧分割的示意时序图。
图7说明根据本发明的一个示范实施例的不同帧配置。
图8是示意流程图,阐述根据本发明的一个优选实施例的基本多声道编码程序。
图9是示意框图,说明根据本发明的一个示范优选实施例的编码器的相干部分。
图10是示意框图,说明根据本发明的一个示范备选实施例的编码器的相干部分。
图11说明根据本发明的优选示范实施例的解码器。
具体实施方式
在所有附图中,相同的参考标号将用于相应或相似的元件。
本发明涉及音频应用中的多声道编码/解码技术,具体来说,涉及音频传送系统中和/或用于音频存储的立体声编码/解码。可能的音频应用的实例包括电话会议系统、移动通信系统中的立体声音频传送、用于提供音频服务的各种系统以及多声道家庭影院系统。
为了更好地理解本发明,以现有电话存在的问题的概述和分析开始可能是有用的。如前面所述,目前不存在以经济上受关注的用于例如移动通信系统的比特率提供高立体声或多声道音频质量的可用的标准化编解码器。采用可得到的编解码器可能的情况是音频信号的单声道传送和/或存储。在某种程度上,立体声传送或存储也是可得到的,但是比特率限制通常需要相当严格地限制立体声表示。
现有技术的多声道编码技术的问题在于,它们需要更高的比特率以便提供好的质量。强度立体声在以低至例如只有几kbps的低比特率应用时,遭遇到它不提供任何声道间时间信息的事实。由于这种信息对于低于例如2kHz的低频在感知上是重要的,所以无法以这类低频提供立体声感受。
另一方面,BCC能够甚至在低频以例如3kbps的低比特率再生立体声或多声道图像,因为它还发送声道间时间信息。但是,这种技术需要在编码器以及解码器上对声道的每个的计算上要求高的时间-频率变换。此外,在使它们与原始声道信号的感知差异为最小的意义上,BCC不尝试发现从所发送单声道信号到声道信号的映射。
用于多声道编码的又称作声道间预测(ICP)的LMS技术(参见[4])通过省略残留信号的传送来允许更低的比特率。为了得出声道重构滤波器,无约束误差最小化程序计算滤波器,使得其输出信号最好地匹配目标信号。为了计算滤波器,可使用几种误差量度。均方误差或加权均方误差是众所周知的,并且在计算上实现费用低。
大家知道,一般来说,现有技术方法的大多数是为高保真音频信号或纯语音的编码开发的。在信号能量集中在较低频率区域的语音编码中,子带编码很少使用。虽然如BCC等的方法允许低比特率立体声语音,但是子带变换编码处理增加复杂度以及延迟。
研究结果是,即使ICP编码技术不提供高质量立体声信号的好结果,对于具有集中于较低频率的能量的立体声信号,冗余度减小也是可能的[5]。ICP滤波器的白化效果增加较高频率区域中的能量,从而产生感知变换编码器的净编码损失。在[6]和[7]中证实了这些结果,在其中,仅对于语音信号报道了质量增强。
ICP重构信号的准确性由当前声道间相关来控制。Bauer等人[8]没有发现音频信号中的左与右声道之间的任何线性关系。但是,从图4中的单声道和侧信号的交叉谱中可以看到,在语音信号的较低频率区域(0-2000Hz)中发现强的声道间相关。在低声道间相关的情况中,作为用于立体声编码的部件的ICP滤波器将产生目标信号的不良估算值。
图5是根据本发明的一个示范优选实施例的多声道编码器的示意框图。多声道编码器主要包括可选的预处理单元110、可选的(线性)组合单元120、多个编码器130、140、控制器150和可选的复用器(MUX)单元160。编码器的数量N等于或大于2,并且包括第一编码器130和第二编码器140以及可能的其它编码器。
一般来说,本发明考虑多声道或多音信号。初始多声道输入信号可从音频信号存储装置(未示出)提供或者例如从一组话筒(未示出)“现场”提供。如果不是数字形式,则音频信号通常在进入多声道编码器之前被数字化。多声道信号可提供给可选预处理单元110以及可选信号组合单元120,用于生成N个信号表示,例如主要信号表示和辅助信号表示以及可能的其它信号表示。
多声道或多音信号可被提供给可选预处理单元110,在其中可执行不同的信号调节程序。
(可选预处理)信号可被提供给可选信号组合单元120,它包括用于执行不同信号组合程序、如输入信号的线性组合以便产生至少第一信号和第二信号的多个组合模块。例如,第一编码过程可以是主要编码过程,以及第一信号表示可以是主要信号表示。第二编码过程例如可以是辅助(侧)信号过程,以及第二信号表示则可以是辅助(侧)信号表示、如立体声侧信号。例如,在传统的立体声编码中,L和R声道被求和,以及和信号除以因子2,以便提供传统单声道信号作为第一(主要)信号。L和R声道也可相减,以及差信号除以因子2,以便提供传统侧信号作为第二信号。根据本发明,任何类型的线性组合或者那个方面的任何其它类型的信号组合可在信号组合单元中执行,其中具有来自各个声道的至少一部分的加权成分。大家理解,本发明使用的信号组合不限于两个声道,而是无疑可涉及多个声道。还可能生成不止两个信号,如图5所示。甚至可能把输入声道之一直接用作第一信号,以及把输入声道中的另一个直接用作第二信号。例如,对于立体声编码,这意味着,L声道可用作主要信号,以及R声道可用作侧信号,或者反之。还存在许多其它变化。
第一信号表示被提供给第一编码器130,它按照任何适当的编码原理对第一信号进行编码。第二信号表示被提供给第二编码器140,用于对第二信号进行编码。如果采用不止两个编码器,则各附加信号表示通常在相应编码器中编码。
举例来说,第一编码器可以是主要编码器,以及第二编码器可以是侧编码器。在这种情况中,第二侧编码器140例如可包括自适应声道间预测(ICP)级,用于根据第一信号表示和第二信号表示来生成信号重构数据。第一(主要)信号表示可等效地从第一编码器130所产生的信号编码参数中推断,如自第一编码器的虚线所示。
整个多声道编码器还包括控制器150,它配置成提供用于优化编码性能的增加的自由度。根据本发明的一个优选实施例,控制系统配置成对于所考虑的编码器,根据预定标准选择整个编码帧到子帧集合的帧分割配置以及用于各子帧的滤波器长度的组合。然后,根据所选组合在所选子帧集合的子帧的每个中对相应信号表示进行编码。可实现为独立控制器150或者集成在所考虑的编码器中的控制系统向编码器提供适当的控制命令。
选择帧分割配置以及同时调节用于各子帧的滤波器长度的可能性提供增加的自由度,并且一般产生改进的性能。预定标准优选地基于表示在整个编码帧上第二编码过程的性能的量度的优化。
各种编码器的输出信号以及来自控制器150的帧分割和滤波器长度信息优选地在复用器单元160中复用为单个传送(或存储)信号。但是,作为备选,输出信号可分开发送(或存储)。
具有可变大小子帧的所谓信号自适应优化帧处理提供较高自由度以便优化性能量度。模拟已经表明,某些音频帧获益于采用较长的滤波器,而对于其它帧,性能增加与所使用滤波器系数的数量不成正比。
对于可变帧长度,编码帧一般可根据各种帧分割配置被分为多个子帧。子帧可具有不同大小,但是,任何给定帧分割配置的子帧的长度之和通常等于整个编码帧的长度。
如通过引用作为实例结合到本文中的我们的共同未决美国专利申请No.11/011765以及对应的国际申请PCT/SE2004/001867中所述,提供多个编码方案,在其中,各编码方案的特征在于共同构成整个编码帧(又称作主帧)的子帧的相应集合或者与其关联。优选地至少部分根据待编码信号的信号内容选择具体编码方案,然后在所选子帧集合的子帧的每个中分别对该信号编码。
一般来说,编码通常一次在一帧中执行,以及各帧通常包括预定义时间周期中的音频样本。在任何情况中,样本到帧的分割都将在帧边界上产生某些不连续。使声音移位将提供主要在各帧边界上改变的移位编码参数。这将产生可感知误差。对此进行一定补偿的一种方式是使编码不仅基于将被编码的样本,而且还基于绝对接近帧的样本。这样,在不同帧之间将存在更软过渡。作为代替或补充,内插技术有时也用于减小帧边界引起的感知伪像。但是,所有这些程序都需要大的附加计算资源,以及对于某些特定编码技术,还可能是采用任何资源都难以提供的。
在这一点,有益的是利用尽可能长的帧,因为帧边界的数量将会少。另外,编码效率通常变高,以及必要的传输比特率通常将最小化。但是,长帧产生前回声伪像和类似幻像的声音的问题。
通过改为利用更短的帧,本领域的技术人员认识到,编码效率可减小,传输比特率可能必须更高,并且帧边界伪像存在的问题将增加。但是,较短的帧受到诸如类似幻像的声音和前回声之类的其它感知伪像影响较少。为了能够尽量使编码误差为最小,应当采用尽可能短的帧长度。
因此,对于帧的长度似乎存在有冲突的要求。因此,有益的是让音频感知采用取决于待编码信号的当前信号内容的帧长度。由于不同帧长度对音频感知的影响将根据待编码声音的性质而有所不同,因此,可通过让信号本身的性质影响所使用的帧长度来获得改进。具体来说,这个程序已经表明对于侧信号编码是有利的。
由于小的时间变化,例如在某些情况中,可能有益的是通过使用较长的帧对侧信号编码。对于具有大量扩散声场的录音、如音乐会录音,情况可能是这样。在其它情况、如立体声语音对话中,短帧是更可取的。
例如,所使用的子帧的长度可按照下式选择:
lsf=lf/2″
式中,lsf是子帧的长度,lf是整个编码帧的长度,以及n是整数。但是,应当理解,这只是一个实例。任何帧长度都能够使用,只要子帧的集合的总长度保持恒定。
关于要使用哪一种帧长度的判定通常可通过两种基本方式执行:闭环判定或开环判定。
当采用闭环判定时,输入信号通常通过所有可获得编码方案来编码。优选地,帧长度的所有可能的组合被测试,以及选择具有提供最佳目标质量、如信噪比或加权信噪比的子帧的关联集合的编码方案。
或者,帧长度判定是基于信号的统计信息的开环判定。换言之,(侧)信号的频谱特性将用作判定将使用哪一种编码方案的基础。如前面所述,特征在于子帧的不同集合的不同编码方案是可用的。但是,在这个实施例中,输入(侧)信号首先经过分析,然后选择和使用适当的编码方案。
开环判定的优点在于,只需要执行一个实际编码。但是,缺点在于,信号特性的分析实际上可能非常复杂,并且可能难以预先预测可能的行为。
通过采用闲环选择,可交换编码方案,而无需在实现的其余部分进行任何变化。另一方面,如果许多编码方案将被研究,则计算要求将会很高。
输入(侧)信号的这样一种可变帧长度编码的好处在于,可在一侧的精细时间分辨率和粗略频率分辨率与另一侧的粗略时间分辨率和精细频率分辨率之间进行选择。以上实施例将以可能的最佳方式保存多声道或立体声图像。
对于不同编码方案中使用的实际编码也存在一些要求。具体来说,当采用闭环选择时,执行多个不同程度并发的编码的计算资源必须很大。编码过程越复杂,则需要越多计算能力。此外,传送时的低比特率也是优选的。
可变长度优化帧处理可把大的“主帧”作为输入,以及在给定一定数量的帧分割配置的情况下,相对于给定失真量度、如MSE或加权MSE来选择最佳帧分割配置。
帧分割可具有不同大小,但是,所有帧分割的和覆盖主帧的整个长度。考虑长度为L毫秒的主帧,可能的帧分割的一个实例如图6所示,以及可能的帧配置的一个实例如图7所示。
如前面所述,思路是选择具有关联帧分割配置的编码方案以及用于各子帧的滤波器长度/维的组合,以便优化表示整个编码帧(主帧)上所考虑的编码过程或编码方案的性能的保真度量度。
优选地,所有可能的组合被测试,以及选择具有提供最佳目标质量、如信噪比或加权信噪比的子帧的关联集合和滤波器长度的编码方案。
调节用于各子帧的滤波器长度的可能性提供增加的自由度,并且一般产生改进的性能。采用这种方案的优点在于,完善地表示立体声或多声道图像的动态。
采用较高的自由度,能够发现实际最佳的选择。但是,待传递给解码侧的控制信息量增加。对于减小从编码侧到解码侧的传送期间的信令要求的具体问题,某个长度的各子帧优选地与预定义滤波器长度关联。通常,把长滤波器分配给长帧,以及把短滤波器分配给短帧。总之,预定标准因而包括用于各子帧的滤波器长度根据子帧的长度来选择、使得编码帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示的要求。这样,到解码侧的所需信令可减少。
在本发明的一个优选实施例中,预定标准基于在用于各子帧的滤波器长度由子帧的长度控制的要求下,表示整个编码帧上所述第二编码过程的性能的量度的优化。
如果第一编码过程采用具有整个编码帧到子帧集合的帧分割配置的所谓可变帧长度处理,则对于第二编码过程也采用相同的帧分割配置可能是有用的。这样,仅对编码过程之一发信号通知表示帧分割配置的信息是足够的。
参照图6和图7的具体实例,可能的帧配置在下表列出:
  0,0,0,00,0,1,11,1,0,00,1,1,01,1,1,12,2,2,2
采取形式(m1,m2,m3,m4),其中mk表示对于主帧内的长度为L/4毫秒的第k(子)帧所选的帧类型,使得例如:
对于具有滤波器长度P的L/4帧,mk=0,
对于具有滤波器长度2×P的L/2毫秒的帧,mk=1,
对于具有滤波器长度4×P的L毫秒的超帧,mk=2。
举例来说,配置(0,0,1,1)表明,L毫秒的主帧分为具有滤波器长度P的两个L/4毫秒(子)帧,之后跟随具有滤波器长度2×P的L/2毫秒的(子)帧。类似地,配置(2,2,2,2)表明,L毫秒的帧与滤波器长度4×P配合使用。这意味着,帧分割配置以及滤波器长度信息同时由信息(m1,m2,m3,m4)表示。
最佳配置例如根据MSE或等效的最大SNR来选择。例如,如果采用配置(0,0,1,1),则滤波器的总数为长度P的3∶2滤波器以及长度2×P的1滤波器。
通常选择产生最佳性能(例如由SNR或MSE来度量)、具有它的对应滤波器及其相应长度的帧配置。
在帧选择之前,通过包含滤波器量化级,滤波器计算可能是开环或者闭环的。
采用这种方案的优点在于,通过这个程序,完善地表示立体声或多声道图像的动态。
由于包括可变帧长度处理,在编码器中交迭的分析窗口可能具有不同长度。因此,在解码器中,它是声道信号到窗口相应的合成以及交迭-增加不同的信号长度所必要的。
情况通常是,对于固定信号,立体声图像相当稳定,并且估算声道滤波器相当固定。
图8是示意流程图,阐述根据本发明的一个优选实施例的基本多声道编码程序。在步骤S1,一个或多个音频声道的第一信号表示在第一编码过程中编码。在步骤S2,对于基于滤波器的第二编码过程选择帧分割配置和用于各子帧的滤波器长度的组合。这个选择程序按照可能基于性能量度的优化的预定标准来执行。在步骤S3,按照所选组合在整个编码帧的各子帧中对第二信号表示编码。
整个解码过程一般相当简单,并且主要包括读取入局数据流、采用所发送控制信息来解释数据、多声道音频信号的逆量化和最终重构。更具体来说,响应第一信号重构数据,在第一解码过程中对所述多个声道中的至少一个的已编码第一信号表示进行解码。响应第二信号重构数据,在第二解码过程中对所述多个声道中的至少一个的已编码第二信号表示进行解码。至少在后一种情况中,在解码侧接收表示整个编码帧到子帧集合的哪一种帧分割配置以及各子帧的哪一种滤波器长度已经用于对应的第二编码过程的信息。根据这个控制信息,然后确定在第二解码过程中如何解释第二信号重构数据。
在一个特别优选的实施例中,控制信息包含在表明编码帧到子帧集合的帧分割配置的同时提供各子帧的所选滤波器维的指示的数据。
为了更详细地理解,现在主要参照立体声(双声道)编码和解码来描述本发明。但是,应当记住,本发明一般适用于多个声道。实例包括但不限于编码/解码5.1(前左、前中置、前右、后左和后右以及低音扬声器)或者2.1(左、右和中置低音扬声器)多声道音响。
还应当理解,本发明可应用于侧编码器、主要编码器或者同时应用于侧编码器和主要编码器。实际上有可能把本发明应用于整个多声道编码器装置中的N个编码器的任意子集。
图9是示意框图,说明根据本发明的一个示范优选实施例的编码器的相干部分。编码器主要包括用于对第一(主要)信号、如典型单声道信号进行编码的第一(主要)编码器130、用于(辅助/侧)信号编码的第二(辅助/侧)编码器140、控制器150以及可选复用器单元160。控制器150适用于接收主要信号表示和侧信号表示,并且配置成执行必要的计算以便最佳地或者至少次最佳地(在给定限制下)选择整个编码帧的帧分割配置和用于各子帧的滤波器长度的组合。控制器150可以是“独立的”控制器或者集成到侧编码器140中。编码参数以及表示帧分割和滤波器长度的信息优选地在复用器单元160中复用为单个传送或存储信号。
图10是示意框图,说明根据本发明的一个示范备选实施例的编码器的相干部分。在这个具体实现中,整个立体声或多声道编码器内的每个子编码器具有它自己的集成控制器。侧编码器内的控制器优选地配置成选择侧编码过程的帧分割配置和滤波器长度。这个选择优选地基于编码器性能的优化和/或用于各子帧的滤波器长度根据子帧的长度来选择的要求。
例如,如果主要编码器采用具有整个编码帧到子帧集合的帧分割配置的所谓可变帧长度处理,则对于侧编码器也采用相同的帧分割配置可能是有用的。这样,仅对编码器之一的解码侧发送表示帧分割配置的信息是足够的。主要编码器控制器则通常发信号通知侧编码器控制器关于它将把哪一种帧分割配置用于整个编码帧,侧编码器控制器又采用相同的帧分割。对于侧编码过程仍然存在两种备选方案,即:1)令所确定的帧分割直接控制滤波器长度,或者2)为所确定的帧分割自由选择滤波器长度。后一种备选方案无疑提供更高自由度,但可能需要更多信令。前一种备选方案不需要其它任何信令。主要编码器控制器向解码侧发送关于所选帧分割配置的信息是足够的,解码侧则可采用这个信息来解释所发送信号重构数据,由此对已编码的多声道音频信息正确地解码。但是,前一种备选方案可能是次最佳的,因为滤波器长度的选择略微受到限制。
图11是示意框图,说明根据本发明的一个示范优选实施例的解码器的相干部分。解码器主要包括可选解复用器单元210、第一(主要)解码器230、第二(辅助/侧)解码器240、控制器250、可选信号组合单元260以及可选后处理单元270。解复用器210优选地分离入局重构信息、如第一(主要)信号重构数据、第二(辅助/侧)信号重构数据以及控制信息、如关于帧分割配置和滤波器长度的信息。第一(主要)解码器230响应通常以表示编码参数的第一(主要)信号的形式提供的第一(主要)信号重构数据而“重构”第一(主要)信号。第二(辅助/侧)解码器240优选地响应已量化滤波器系数和已重构第一信号表示而“重构”第二(侧)信号。第二(侧)解码器240还由可能或者可能没有集成在侧解码器中的控制器250控制。控制器从编码侧接收关于帧分割配置和滤波器长度的信息,并且相应地控制侧解码器240。
如果主要编码器采用具有帧分割配置的所谓可变帧长度处理,以及主要编码器控制器向解码侧发送关于所选帧分割配置的信息,则作为一个选项,可能能够(如虚线所示)令主要解码器230把这个信息发信号通知控制器250,以便在控制侧解码器240时使用。
为了更透彻地理解本发明,现在将参照基于参数编码原理、如声道间预测的各种示范实施例更详细地描述本发明。
采用声道间预测的参数编码
一般来说,声道间预测(ICP)技术利用声道之间的固有声道间相关。在立体声编码中,声道通常由左和右信号l(n)、r(n)表示,等效表示是单声道信号m(n)(主要信号的一个特例)和侧信号s(n)。两种表示是等效的,并且通常通过传统矩阵运算相关:
m ( n ) s ( n ) = 1 2 1 1 1 - 1 l ( n ) r ( n ) - - - ( 1 )
ICP技术针对通过估算值(n)来表示侧信号s(n),(n)通过经由具有N个滤波器系数ht(i)的时变FIR滤波器H(z)对单声道信号m(n)进行滤波来获得:
s ^ ( n ) = Σ i = 0 N - 1 h t ( i ) m ( n - i ) - - - ( 2 )
应当注意,同样的方式可直接应用于左和右声道。
在编码器上得出的ICP滤波器例如可通过使侧信号预测误差e(n)的均方误差(MSE)或者相关的性能量度、如心理声学加权均方误差为最小来估算。MSE通常由下式给出:
ξ ( h ) = Σ n = 0 L - 1 MSE ( n , h ) = Σ n = 0 L - 1 ( s ( n ) - Σ i = 0 N - 1 h ( i ) m ( n - i ) ) 2 - - - ( 3 )
式中,L是帧大小,以及N是ICP滤波器的长度/阶/维。简单地说,ICP滤波器的性能、因而MSE的大小是确定最终立体声分离的主要因素。由于侧信号描述左与右声道之间的差异,因此,准确的侧信号重构是确保足够宽的立体声图像必不可少的。
通过使对于所有样本的预测误差的MSE为最小来找出最佳滤波器系数,并且表示为:
hopt TR=rhopt=R-1r
                                 (4)
在(4)中,相关向量r和协方差矩阵R定义为:
r=Ms
R=MMT
                                 (5)
式中
s=[s(0)s(1)…s(L-1)]T
Figure A20068000565000243
将(5)代入(3),得到(非量化)ICP滤波器的最小MSE(MMSE)的简化代数表达式:
MMSE=MSE(hopt)=PSS-rTR-1r
                            (7)
式中,PSS是侧信号的功率,又表示为sTs。
将r=Rhopt代入(7),得到:
MMSE=PSS-rTR-1Rhopt=PSS-rThopt
                            (8)
对R的LDLT因数分解[9]给出等式系统:
Figure A20068000565000251
式中,首先以迭代方式求解z:
Figure A20068000565000252
现在引入新的向量q=LTh。由于矩阵D仅在对角线具有非零值,求出q是简单的:
Dq = z ⇒ q i = z i d i , i = 1,2 , . . . , N - - - ( 11 )
所求的滤波器向量h这时可通过与(10)相同的方式迭代地计算:
Figure A20068000565000254
除了与正则矩阵求逆相比的计算节省之外,这个解决方案还提供有效计算与不同维n(滤波器长度)对应的滤波器系数的可能性:
H = { h opt ( n ) } n = 1 N - - - ( 13 )
最佳ICP(FIR)滤波器系数hopt可逐帧地被估算、量化以及发送给解码器。
一般来说,滤波器系数被看作向量,它们采用向量量化(VQ)来有效地量化。滤波器系数的量化是ICP编码程序的最重要方面之一。会看到,对滤波器系数引入的量化噪声可能直接与MSE的损失相关。
MMSE先前已经定义为:
MMSE = s T s - r T h opt = s T s - 2 h opt T r + h opt T Rh opt - - - ( 14 )
量化hopt产生量化误差e: h ^ = h opt + e . 新的MSE现在可写作:
MSE ( h opt + e ) = s T s - 2 ( h opt + e ) T r + ( h opt + e ) T R ( h opt + e )
= MMSE + e T Rh opt + e T Re + h opt T Re - 2 e T r
= MMSE + e T Re + 2 e T Rh opt - 2 e T r
                                            (15)
由于Rhopt=r,因此,(15)中的最后两项抵消,以及已量化滤波器的MSE变为:
MSE ( h ^ ) = s T s - r T h opt + e T Re
                                            (16)
这意味着,为了具有任何预测增益,量化误差项必须小于预测项,即rThopt>eTRe。
一般来说,量化较长的向量产生较大的量化误差。记住,已量化ICP滤波器的MSE定义为:
MSE ( h ^ ( n ) , n ) = s T s - ( r ( n ) ) T h opt ( n ) + ( e ( n ) ) T R ( n ) e ( n )
                                            (17)
可以看到,得到的MSE是所选滤波器维n与所强加量化误差之间的折衷。考虑一种方案,在其中,用于各帧的滤波器维经过选择,使得若给定固定数量的位,(17)始终为最小值:
n * = arg min n ∈ [ 1 , n max ] { MSE ( h ^ ( n ) , n ) } - - - ( 18 )
根据本发明的一个示范实施例,希望按照下式选择帧分割配置及其滤波器长度:
( n opt , m opt ) = arg min n ∈ [ 1 , n max ] m ∈ M { θ ( h ^ ( n ) , n , m ) } - - - ( 19 )
式中:
θ ( h ^ ( n ) , n , m ) = Σ m ∈ M n ∈ N Σ t = 0 m - 1 ( s ( t ) - Σ i = 0 n - 1 h ^ n ( i ) m ( t - i ) ) 2 - - - ( 20 )
以及式中,N是可能的滤波器维向量的集合,以及M是可能的帧长度配置的集合。应当理解,公式(20)只是一个实例,存在各种各样变化。
上述实施例只作为实例给出,并且应该理解,本发明不限于此。保留了本文所公开并要求其权益的根本的基本原理的其它修改、变更和改进均处于本发明的范围之内。
参考文献
[1]Johnston的美国专利No.5285498。
[2]Veldhuis等人的欧洲专利No.0497413。
[3]C.Faller等人的“应用于立体声和多声道音频压缩的双耳线索编码”,112th AES convention,2002年5月,Munich,Germany。
[4]Holt等人的美国专利No.5434948。
[5]S-S.Kuo、J.D.Johnston的“关于交叉声道预测不适用于感知音频编码的原因的研究”,IEEE Signal Processing Lett.,vol.8,第245-247页。
[6]B.Edler、C.Faller和G.Schuller的“采用时变线性前置和后置滤波器的感知音频编码”,in AES Convention,Los Angeles,CA,2000年9月。
[7]Bernd Edler和Gerald Schuller的“采用心理声学前置和后置滤波器的音频编码”,ICASSP-2000 Conference Record,2000年。
[8]Dieter Bauer和Dieter Seitzer的“时域中的高质量立体声信号的统计属性”,IEEE International Conf on Acoustics,Speech,andSignal Processing,vol.3,第2045-2048页,1989年5月。
[9]Gene H.Golub和Charles F.van Loan的“矩阵计算”,第2版,第4章,第137-138页,The John Hopkins University Press,1989年。

Claims (31)

1.一种对多声道音频信号进行编码的方法,包括以下步骤:
-在第一编码过程中对所述多个声道中的至少一个的第一信号表示进行编码;
-在基于滤波器的第二编码过程中对所述多个声道中的至少一个的第二信号表示进行编码,
其特征在于:
-对于所述第二编码过程,根据预定标准,选择下列各项的组合:
i)整个编码帧到子帧集合的帧分割配置,以及ii)用于各子帧的滤波器长度;以及
-对于所述整个帧,根据所选组合对所选子帧集合中的子帧的每个中的所述第二信号表示进行编码。
2.如权利要求1所述的编码方法,其特征在于,所述预定标准基于表示在整个编码帧上所述第二编码过程的性能的量度的优化。
3.如权利要求1所述的编码方法,其特征在于,所述预定标准包括以下要求:用于各子帧的滤波器长度根据子帧的长度来选择,使得编码帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示,由此减少到解码侧的所需信令。
4.如权利要求3所述的编码方法,其特征在于,所述预定标准基于在用于各子帧的滤波器长度由子帧的长度控制的要求下表示在整个编码帧上所述第二编码过程的性能的量度的优化。
5.如权利要求1所述的编码方法,其特征在于,所述第一编码过程还基于整个编码帧到子帧集合的帧分割配置,以及所述预定标准包括用于所述第二编码过程的整个编码帧到子帧集合的帧分割配置被选择为与所述第一编码过程的帧分割配置相同的要求。
6.如权利要求1所述的编码方法,其特征在于,包括生成表示所选帧分割配置以及所述所选帧分割配置的用于各子帧的滤波器长度的输出数据的步骤。
7.如权利要求1所述的编码方法,其特征在于,选择和编码的所述步骤逐帧地执行。
8.如权利要求1所述的编码方法,其特征在于,选择组合的所述步骤根据所述多声道音频信号的声道间相关特性来执行。
9.如权利要求1所述的编码方法,其特征在于,所述第二编码过程包括用于根据所述第一信号表示和所述第二信号表示来预测所述第二信号表示的自适应声道间预测。
10.如权利要求9所述的编码方法,其特征在于,选择组合的所述步骤根据所述第二编码过程的估算性能来执行。
11.如权利要求1所述的编码方法,其特征在于,为辅助编码过程执行选择组合的所述步骤,所述第二编码过程因而为辅助编码过程,而所述第一编码过程为主要编码过程。
12.如权利要求1所述的编码方法,其特征在于,为主要编码过程执行选择组合的所述步骤,所述第二编码过程因而为主要编码过程,而所述第一编码过程为辅助编码过程。
13.如权利要求1所述的编码方法,其特征在于,为所述第一编码过程以及所述第二编码过程都执行选择组合的所述步骤。
14.一种用于对多声道音频信号进行编码的装置,包括:
-第一编码器,用于对所述多个声道中的至少一个的第一信号表示进行编码;
-基于滤波器的第二编码器,用于对所述多个声道中的至少一个的第二信号表示进行编码,
其特征在于:
-用于根据预定标准为所述第二编码器选择下列各项的组合的部件:i)整个编码帧到子帧集合的帧分割配置,以及ii)用于各子帧的滤波器长度;以及
-用于对于所述整个帧、根据所选组合对所选子帧集合的子帧的每个中的所述第二信号表示进行编码的部件。
15.如权利要求14所述的装置,其特征在于,用于选择组合的所述部件配置成根据表示在整个编码帧上所述第二编码过程的性能的量度的优化进行操作。
16.如权利要求14所述的装置,其特征在于,用于选择组合的所述部件配置成在以下要求下进行操作:用于各子帧的滤波器长度根据子帧的长度来选择,使得编码帧到子帧集合的帧分割配置的指示同时提供用于各子帧的所选滤波器维的指示,由此减少到解码侧的所需信令。
17.如权利要求16所述的装置,其特征在于,用于选择组合的所述部件配置成根据在用于各子帧的滤波器长度由子帧的长度控制的要求下、表示在整个编码帧上所述第二编码过程的性能的量度的优化进行操作。
18.如权利要求14所述的装置,其特征在于,所述第一编码器还根据整个编码帧到子帧集合的帧分割配置进行操作,以及用于选择的所述部件配置成在用于所述第二编码过程的整个编码帧到子帧集合的帧分割配置被选择成与所述第一编码过程的帧分割配置相同的要求下进行操作。
19.如权利要求14所述的装置,其特征在于,包括用于生成表示所选帧分割配置以及所述所选帧分割配置的用于各子帧的滤波器长度的输出数据的部件。
20.如权利要求14所述的装置,其特征在于,用于选择和编码的所述部件是可逐帧地操作的。
21.如权利要求14所述的装置,其特征在于,用于选择组合的部件对所述多声道音频信号的声道间相关特性进行响应。
22.如权利要求14所述的装置,其特征在于,所述第二编码器包括用于根据所述第一信号表示和所述第二信号表示来预测所述第二信号表示的自适应声道间预测滤波器。
23.如权利要求22所述的装置,其特征在于,用于选择组合的所述部件对所述第二编码过程的估算性能进行响应。
24.如权利要求14所述的装置,其特征在于,用于选择组合的所述部件配置成为辅助编码器执行帧分割配置和用于各子帧的滤波器长度的组合的选择,所述第二编码器因而为辅助编码器,而所述第一编码器为主要编码器。
25.如权利要求14所述的装置,其特征在于,用于选择组合的所述部件配置成为主要编码器执行帧分割配置和用于各子帧的滤波器长度的组合的选择,所述第二编码器因而为主要编码器,而所述第一编码器为辅助编码器。
26.如权利要求14所述的装置,其特征在于,用于选择组合的所述部件配置成为所述第一编码器以及所述第二编码器都执行帧分割配置和用于各子帧的滤波器长度的组合的选择。
27.一种对已编码多声道音频信号进行解码的方法,包括以下步骤:
-响应第一信号重构数据,在第一解码过程中对所述多个声道中的至少一个的已编码第一信号表示进行解码;
-响应第二信号重构数据,在第二解码过程中对所述多个声道中的至少一个的已编码第二信号表示进行解码,
其特征在于:
-接收表示整个编码帧到子帧集合的哪一种帧分割配置以及用于各子帧的滤波器长度已经用于对应的第二编码过程的信息;
-根据所述信息来确定在所述第二解码过程中如何解释所述第二信号重构数据。
28.如权利要求27所述的解码方法,其特征在于,所述信息包含在表明编码帧到子帧集合的帧分割配置的同时提供用于各子帧的所选滤波器维的指示的数据。
29.一种用于对已编码多声道音频信号进行解码的装置,包括:
-用于响应第一信号重构数据、在第一解码过程中对所述多个声道中的至少一个的已编码第一信号表示进行解码的部件;
-用于响应第二信号重构数据、在第二解码过程中对所述多个声道中的至少一个的已编码第二信号表示进行解码的部件,
其特征在于:
-用于接收表示整个编码帧到子帧集合的哪一种帧分割配置以及用于各子帧的滤波器长度已经用于对应的第二编码过程的信息的部件;
-用于根据所述信息来确定在所述第二解码过程中如何解释所述第二信号重构数据的部件。
30.如权利要求29所述的解码装置,其特征在于,所述信息包含在表明编码帧到子帧集合的帧分割配置的同时提供用于各子帧的所选滤波器维的指示的数据。
31.一种音频传送系统,其特征在于,所述系统包括权利要求14的编码装置以及权利要求29的解码装置。
CN2006800056509A 2005-02-23 2006-02-22 多声道音频编码中的优化保真度和减少的信令 Expired - Fee Related CN101128866B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US65495605P 2005-02-23 2005-02-23
US60/654,956 2005-02-23
SEPCT/SE2005/002033 2005-12-22
PCT/SE2005/002033 WO2006091139A1 (en) 2005-02-23 2005-12-22 Adaptive bit allocation for multi-channel audio encoding
PCT/SE2006/000235 WO2006091151A1 (en) 2005-02-23 2006-02-22 Optimized fidelity and reduced signaling in multi-channel audio encoding

Publications (2)

Publication Number Publication Date
CN101128866A true CN101128866A (zh) 2008-02-20
CN101128866B CN101128866B (zh) 2011-09-21

Family

ID=36927684

Family Applications (3)

Application Number Title Priority Date Filing Date
CN2005800485035A Expired - Fee Related CN101124740B (zh) 2005-02-23 2005-12-22 多声道音频信号编码和解码的方法和装置和音频传送系统
CN2006800056513A Active CN101128867B (zh) 2005-02-23 2006-02-22 多声道音频编码和/或解码中改进的滤波器平滑
CN2006800056509A Expired - Fee Related CN101128866B (zh) 2005-02-23 2006-02-22 多声道音频编码中的优化保真度和减少的信令

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN2005800485035A Expired - Fee Related CN101124740B (zh) 2005-02-23 2005-12-22 多声道音频信号编码和解码的方法和装置和音频传送系统
CN2006800056513A Active CN101128867B (zh) 2005-02-23 2006-02-22 多声道音频编码和/或解码中改进的滤波器平滑

Country Status (7)

Country Link
US (2) US7822617B2 (zh)
EP (1) EP1851866B1 (zh)
JP (2) JP4809370B2 (zh)
CN (3) CN101124740B (zh)
AT (2) ATE521143T1 (zh)
ES (1) ES2389499T3 (zh)
WO (1) WO2006091139A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347077A (zh) * 2014-10-23 2015-02-11 清华大学 一种立体声编解码方法
WO2019029736A1 (zh) * 2017-08-10 2019-02-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN110459229A (zh) * 2014-06-27 2019-11-15 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904404B1 (en) * 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
WO2004008805A1 (en) * 2002-07-12 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US8121836B2 (en) 2005-07-11 2012-02-21 Lg Electronics Inc. Apparatus and method of processing an audio signal
US20070133819A1 (en) * 2005-12-12 2007-06-14 Laurent Benaroya Method for establishing the separation signals relating to sources based on a signal from the mix of those signals
CN101578658B (zh) * 2007-01-10 2012-06-20 皇家飞利浦电子股份有限公司 音频译码器
US8983830B2 (en) * 2007-03-30 2015-03-17 Panasonic Intellectual Property Corporation Of America Stereo signal encoding device including setting of threshold frequencies and stereo signal encoding method including setting of threshold frequencies
EP2201566B1 (en) 2007-09-19 2015-11-11 Telefonaktiebolaget LM Ericsson (publ) Joint multi-channel audio encoding/decoding
WO2009057327A1 (ja) * 2007-10-31 2009-05-07 Panasonic Corporation 符号化装置および復号装置
JP5404412B2 (ja) * 2007-11-01 2014-01-29 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2287836B1 (en) * 2008-05-30 2014-10-15 Panasonic Intellectual Property Corporation of America Encoder and encoding method
CN102177542B (zh) * 2008-10-10 2013-01-09 艾利森电话股份有限公司 能量保留多通道音频编码
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
US9384748B2 (en) 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
CN102016982B (zh) 2009-02-04 2014-08-27 松下电器产业株式会社 结合装置、远程通信系统以及结合方法
BRPI1009467B1 (pt) 2009-03-17 2020-08-18 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
EP2434483A4 (en) * 2009-05-20 2016-04-27 Panasonic Ip Corp America ENCODING DEVICE, DECODING DEVICE, AND ASSOCIATED METHODS
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
US8892427B2 (en) 2009-07-27 2014-11-18 Industry-Academic Cooperation Foundation, Yonsei University Method and an apparatus for processing an audio signal
US9105264B2 (en) * 2009-07-31 2015-08-11 Panasonic Intellectual Property Management Co., Ltd. Coding apparatus and decoding apparatus
JP5345024B2 (ja) * 2009-08-28 2013-11-20 日本放送協会 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
EP3462450A1 (en) * 2009-09-17 2019-04-03 Unified Sound Systems, Inc. A method and an apparatus for decoding an audio signal
AU2011219918B2 (en) 2010-02-24 2013-11-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
RU2525431C2 (ru) 2010-04-09 2014-08-10 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
EP4254951A3 (en) * 2010-04-13 2023-11-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoding method for processing stereo audio signals using a variable prediction direction
KR102030335B1 (ko) * 2010-07-02 2019-10-10 돌비 인터네셔널 에이비 선택적인 베이스 포스트 필터
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
CN103098131B (zh) * 2010-08-24 2015-03-11 杜比国际公司 调频立体声无线电接收器的间歇单声道接收的隐藏
WO2012045744A1 (en) * 2010-10-06 2012-04-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal and for providing a higher temporal granularity for a combined unified speech and audio codec (usac)
TWI687918B (zh) * 2010-12-03 2020-03-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
JP5680391B2 (ja) * 2010-12-07 2015-03-04 日本放送協会 音響符号化装置及びプログラム
JP5582027B2 (ja) * 2010-12-28 2014-09-03 富士通株式会社 符号器、符号化方法および符号化プログラム
PL3035330T3 (pl) 2011-02-02 2020-05-18 Telefonaktiebolaget Lm Ericsson (Publ) Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio
ES2704742T3 (es) * 2011-04-05 2019-03-19 Nippon Telegraph & Telephone Descodificación de una señal acústica
JP5825353B2 (ja) * 2011-09-28 2015-12-02 富士通株式会社 無線信号送信方法、無線信号送信装置及び無線信号受信装置
CN103220058A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据与视觉数据同步装置及其方法
US10100501B2 (en) 2012-08-24 2018-10-16 Bradley Fixtures Corporation Multi-purpose hand washing station
SG11201506542QA (en) * 2013-02-20 2015-09-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
CN109410964B (zh) * 2013-05-24 2023-04-14 杜比国际公司 包括音频对象的音频场景的高效编码
ES2761681T3 (es) * 2014-05-01 2020-05-20 Nippon Telegraph & Telephone Codificación y descodificación de una señal de sonido
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
CN104157293B (zh) * 2014-08-28 2017-04-05 福建师范大学福清分校 一种增强声环境中目标语音信号拾取的信号处理方法
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
US10339940B2 (en) 2015-09-25 2019-07-02 Voiceage Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
JP6721977B2 (ja) * 2015-12-15 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声音響信号符号化装置、音声音響信号復号装置、音声音響信号符号化方法、及び、音声音響信号復号方法
MX2020002988A (es) * 2017-09-20 2020-07-22 Voiceage Corp Metodo y dispositivo para distribuir eficientemente un presupuesto de bits en un codec celp.
JP7092049B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
CA3194878A1 (en) * 2020-10-09 2022-04-14 Franz REUTELHUBER Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing
EP4226365A2 (en) * 2020-10-09 2023-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a parameter conversion

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2637090B2 (ja) * 1987-01-26 1997-08-06 株式会社日立製作所 音響信号処理回路
US5434948A (en) * 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
NL9100173A (nl) 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JPH05289700A (ja) * 1992-04-09 1993-11-05 Olympus Optical Co Ltd 音声符号化装置
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
JPH0736493A (ja) * 1993-07-22 1995-02-07 Matsushita Electric Ind Co Ltd 可変レート音声符号化装置
JPH07334195A (ja) * 1994-06-14 1995-12-22 Matsushita Electric Ind Co Ltd サブフレーム長可変音声符号化装置
US5694332A (en) * 1994-12-13 1997-12-02 Lsi Logic Corporation MPEG audio decoding system with subframe input buffering
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
JPH1132399A (ja) 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6012031A (en) * 1997-09-24 2000-01-04 Sony Corporation Variable-length moving-average filter
WO1999034527A1 (en) * 1997-12-27 1999-07-08 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Method and apparatus for estimation of coupling parameters in a transform coder for high quality audio
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
JP3606458B2 (ja) * 1998-10-13 2005-01-05 日本ビクター株式会社 音声信号伝送方法及び音声復号方法
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
JP2001184090A (ja) 1999-12-27 2001-07-06 Fuji Techno Enterprise:Kk 信号符号化装置,及び信号復号化装置,並びに信号符号化プログラムを記録したコンピュータ読み取り可能な記録媒体,及び信号復号化プログラムを記録したコンピュータ読み取り可能な記録媒体
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP3894722B2 (ja) 2000-10-27 2007-03-22 松下電器産業株式会社 ステレオオーディオ信号高能率符号化装置
JP3846194B2 (ja) 2001-01-18 2006-11-15 日本ビクター株式会社 音声符号化方法,音声復号化方法,音声受信装置及び音声信号伝送方法
JP2004522198A (ja) * 2001-05-08 2004-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化方法
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
KR101021079B1 (ko) * 2002-04-22 2011-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 다채널 오디오 표현
AU2003216682A1 (en) 2002-04-22 2003-11-03 Koninklijke Philips Electronics N.V. Signal synthesizing
JP4062971B2 (ja) 2002-05-27 2008-03-19 松下電器産業株式会社 オーディオ信号符号化方法
WO2004008805A1 (en) * 2002-07-12 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
CN100481736C (zh) * 2002-08-21 2009-04-22 广州广晟数码技术有限公司 用于对多声道数字音频信号进行压缩编码的编码方法
JP4022111B2 (ja) * 2002-08-23 2007-12-12 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置及び信号符号化方法
JP4373693B2 (ja) * 2003-03-28 2009-11-25 パナソニック株式会社 音響信号の階層符号化方法および階層復号化方法
EP1618686A1 (en) * 2003-04-30 2006-01-25 Nokia Corporation Support of a multichannel audio extension
DE10328777A1 (de) 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
CN1212608C (zh) * 2003-09-12 2005-07-27 中国科学院声学研究所 一种采用后置滤波器的多通道语音增强方法
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459229A (zh) * 2014-06-27 2019-11-15 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN110459229B (zh) * 2014-06-27 2023-01-10 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN104347077A (zh) * 2014-10-23 2015-02-11 清华大学 一种立体声编解码方法
CN104347077B (zh) * 2014-10-23 2018-01-16 清华大学 一种立体声编解码方法
WO2019029736A1 (zh) * 2017-08-10 2019-02-14 华为技术有限公司 时域立体声编解码方法和相关产品
CN109389985A (zh) * 2017-08-10 2019-02-26 华为技术有限公司 时域立体声编解码方法和相关产品
CN109389985B (zh) * 2017-08-10 2021-09-14 华为技术有限公司 时域立体声编解码方法和相关产品
US11355131B2 (en) 2017-08-10 2022-06-07 Huawei Technologies Co., Ltd. Time-domain stereo encoding and decoding method and related product
US11900952B2 (en) 2017-08-10 2024-02-13 Huawei Technologies Co., Ltd. Time-domain stereo encoding and decoding method and related product

Also Published As

Publication number Publication date
ES2389499T3 (es) 2012-10-26
EP1851866A4 (en) 2010-05-19
US7945055B2 (en) 2011-05-17
JP4809370B2 (ja) 2011-11-09
ATE518313T1 (de) 2011-08-15
CN101128867A (zh) 2008-02-20
CN101128866B (zh) 2011-09-21
CN101128867B (zh) 2012-06-20
JP2008532064A (ja) 2008-08-14
CN101124740A (zh) 2008-02-13
EP1851866B1 (en) 2011-08-17
CN101124740B (zh) 2012-05-30
US20060195314A1 (en) 2006-08-31
JP2008529056A (ja) 2008-07-31
ATE521143T1 (de) 2011-09-15
EP1851866A1 (en) 2007-11-07
US7822617B2 (en) 2010-10-26
US20060246868A1 (en) 2006-11-02
JP5171269B2 (ja) 2013-03-27
WO2006091139A1 (en) 2006-08-31

Similar Documents

Publication Publication Date Title
CN101128866B (zh) 多声道音频编码中的优化保真度和减少的信令
US9626973B2 (en) Adaptive bit allocation for multi-channel audio encoding
US8218775B2 (en) Joint enhancement of multi-channel audio
US8046214B2 (en) Low complexity decoder for complex transform coding of multi-channel sound
CN100559465C (zh) 保真度优化的可变帧长编码
CN102177542B (zh) 能量保留多通道音频编码
US7953604B2 (en) Shape and scale parameters for extended-band frequency coding
CN101253557B (zh) 立体声编码装置及立体声编码方法
US8452587B2 (en) Encoder, decoder, and the methods therefor
US20160247515A1 (en) Bitstream syntax for multi-process audio decoding
CN102084418B (zh) 用于调整多通道音频信号的空间线索信息的设备和方法
US20070174062A1 (en) Complex-transform channel coding with extended-band frequency coding
CN103329197A (zh) 用于反相声道的改进的立体声参数编码/解码
US20080140428A1 (en) Method and apparatus to encode and/or decode by applying adaptive window size
US7725324B2 (en) Constrained filter encoding of polyphonic signals
Johnston et al. AT&T perceptual audio coding (PAC)
JP3099876B2 (ja) 多チャネル音声信号符号化方法及びその復号方法及びそれを使った符号化装置及び復号化装置
EP1639580B1 (en) Coding of multi-channel signals
MX2008009186A (en) Complex-transform channel coding with extended-band frequency coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110921

Termination date: 20190222

CF01 Termination of patent right due to non-payment of annual fee