CN101552007A - 多信道音频编码 - Google Patents

多信道音频编码 Download PDF

Info

Publication number
CN101552007A
CN101552007A CNA200910138855XA CN200910138855A CN101552007A CN 101552007 A CN101552007 A CN 101552007A CN A200910138855X A CNA200910138855X A CN A200910138855XA CN 200910138855 A CN200910138855 A CN 200910138855A CN 101552007 A CN101552007 A CN 101552007A
Authority
CN
China
Prior art keywords
channel
subband
angle
amplitude
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200910138855XA
Other languages
English (en)
Other versions
CN101552007B (zh
Inventor
马克·F·戴维斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN101552007A publication Critical patent/CN101552007A/zh
Application granted granted Critical
Publication of CN101552007B publication Critical patent/CN101552007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及多信道音频编码。将多个音频信道合并成单声复合信号,或合并成多个音频信道,连同用于重建多个音频信道的相关辅助信息,包括改进的下混合:将多个音频信道下混合到单声音频信号或下混合到多个音频信道;和改进的解相关:将从单声音频信道或从多个音频信道得到的多个音频信道解相关。所公开的本发明的方面可用于音频编码器、解码器、编码/解码系统、下混合器、上混合器和解相关器。

Description

多信道音频编码
本申请是申请号为200580006783.3、申请日为2005年2月28日、发明名称为“多信道音频编码”的发明专利申请的分案申请。
技术领域
本发明一般涉及音频信号处理。本发明尤其适用于低比特率和甚低比特率音频信号处理。具体地说,本发明的方面涉及:编码器(或编码过程),解码器(或解码过程),和音频信号的编码/解码系统(或编码/解码过程),其中多个音频信道用复合单声音频信道和辅助(“侧链”)信息来表示。或者,多个音频信道用多个音频信道和侧链信息来表示。本发明的方面还涉及:多信道-复合单声信道下混合器(或下混合过程),单声信道-多信道上混合器(或上混合过程),和单声信道-多信道解相关器(或解相关过程)。本发明其他方面涉及:多信道-多信道下混合器(或下混合过程),多信道-多信道上混合器(或上混合过程),和解相关器(或解相关过程)。
背景技术
在AC-3数字音频编码和解码系统中,当系统缺少比特时,可以有选择地在高频对信道进行合并或“耦合”。AC-3系统的细节在本技术领域是众所周知的,例如参见:ATSC Standard A52/A:Digital AudioCompression Standard(AC-3),Revision A,Advanced TelevisionSystems Committee,20Aug.2001。A/52A文献可以从万维网上的http://www.atsc.org/standards.html得到。A/52A文献在此全部包含作为参考。
AC-3系统根据需要以高于某一频率对信道进行合并,这一频率被称为“耦合”频率。高于耦合频率时,所耦合的信道被合并成“耦合”或复合信道。编码器为每一信道中高于耦合频率的每一子带产生“耦合坐标”(振幅比例因子)。耦合坐标表示每一耦合信道子带的原始能量与复合信道中相应子带的能量的比率。低于耦合频率时,信道被分立地编码。为了减少异相信号分量抵消,耦合信道的子带的相位极性在该信道与一个或多个其他耦合信道合并之前可以先被反向。复合信道与侧链信息(按每一子带含有耦合坐标以及信道相位是否反向)一起被发送到解码器。实际上,AC-3系统的商用实施方式中所用的耦合频率的范围是从约10kHz到约3500Hz。美国专利5,583,962、5,633,981、5,727,119、5,909,664和6,021,386包括一些教导,涉及将多个音频信道合并成复合信道以及辅助或侧链信息,和由此恢复出原始多个信道的近似。所述专利中的每一个在此全部包含作为参考。
发明内容
本发明的方面可以被认为是AC-3编码和解码系统的“耦合”技术的改进,同时也是如下其他技术的改进:将多个音频信道合并成单声复合信号,或合并成多个音频信道连同相关辅助信息,以及重建多个音频信道。本发明的方面还可以被认为是这样一些技术的改进:将多个音频信道下混合到单声音频信号或下混合到多个音频信道,和将从单声音频信道或从多个音频信道得到的多个音频信道解相关。
本发明的方面可以用于N:1:N的空间音频编码技术中(其中“N”是音频信道数)或M:1:N的空间音频编码技术中(其中“M”是编码的音频信道数而“N”是解码的音频信道数),这些技术尤其通过提供改进的相位补偿、解相关机制和与信号相关的可变时间常数来改进信道耦合。本发明的方面还可以用于N:x:N和M:x:N的空间音频编码技术中(其中“x”可以是1或大于1)。目的在于,在下混合之前通过调整信道间相对相位来减小编码过程中的耦合抵消人为产物,和通过在解码器中恢复相角和解相关度来改进再现信号的空间维度。本发明的方面在实际实施方式中体现时,应当考虑到连续不断的而不是请求式的信道耦合以及比例如AC-3系统中更低的耦合频率,从而降低所需的数据率。
附图说明
图1是示出体现本发明的方面的N:1编码配置的主要功能或设备的理想化框图。
图2是示出体现本发明的方面的1:N解码配置的主要功能或设备的理想化框图。
图3示出了下述内容的简化的概念性结构的一个例子:沿(纵向)频率轴的bin和子带,和沿(横向)时间轴的块和帧。该图没有按比例绘制。
图4具有混合流程图和功能框图的性质,示出了用于实现体现本发明的方面的编码配置的功能的编码步骤或设备。
图5具有混合流程图和功能框图的性质,示出了用于实现体现本发明的方面的解码配置的功能的解码步骤或设备。
图6是示出体现本发明的方面的第一种N:x编码配置的主要功能或设备的理想化框图。
图7是示出体现本发明的方面的x:M解码配置的主要功能或设备的理想化框图。
图8是示出体现本发明的方面的第一种可选x:M解码配置的主要功能或设备的理想化框图。
图9是示出体现本发明的方面的第二种可选x:M解码配置的主要功能或设备的理想化框图。
具体实施方式
基本N:1编码器
参照图1,示出了体现本发明的方面的N:1编码器功能或设备。该图是作为体现本发明的方面的基本编码器所实现的功能或结构的一个例子。实施本发明的方面的其他功能或结构配置也可以使用,包括如下所述的可选和/或等价的功能或结构配置。
两个或两个以上音频输入信道输入到编码器。尽管原则上本发明的方面可以用模拟、数字或混合模拟/数字实施方式来实施,但本文所公开的例子是数字实施方式。因此,输入信号可以是已从模拟音频信号中得到的时间样值。时间样值可以被编码成线性脉码调制(PCM)信号。每个线性PCM音频输入信道都由具有同相和正交输出的滤波器组功能或设备进行处理,比如通过512点开窗的正向离散傅里叶变换(DFT)(由快速傅里叶变换(FFT)所实现)进行处理。滤波器组可以被认为是一种时域-频域变换。
图1示出了各自输入到滤波器组功能或设备“滤波器组”2的第一PCM信道输入(信道“1”)和输入到另一滤波器组功能或设备“滤波器组”4的第二PCM信道输入(信道“n”)。可以有“n”个输入信道,其中“n”是大于等于2的正整数。因此,相应地有“n”个滤波器组,每个都接收“n”个输入信道中的唯一一个信道。为了便于说明,图1只示出了两个输入信道“1”和“n”。
当用FFT实现滤波器组时,输入时域信号被分割成连续的块,然后通常以交叠的块进行处理。FFT的离散频率输出(变换系数)称之为bin,每个bin都有一个具有实部和虚部(分别相应于同相和正交分量)的复值。邻接的变换bin可以组合成接近于人耳听觉临界带宽的子带,并且由编码器产生的大部分侧链信息(如下所述)可以按每一子带进行计算和发送,以便最大限度地减少处理资源和降低比特率。多个连续的时域块可以组合成帧,单个块的值在每帧上进行平均或反过来进行合并或累积,以便最大限度地降低侧链数据率。在本文所述的例子中,每一滤波器组都通过FFT实现,邻接的变换bin被组合成子带,块被组合成帧,而侧链数据每帧发送一次。或者,侧链数据可以每帧发送一次以上(如每块一次)。例如参见以下图3及其描述。众所周知,在发送侧链信息的频率与所需的比特率之间有一个折衷。
当使用48kHz采样率时,本发明的方面的一种适宜的实际实现方式可以使用约32毫秒的固定长度帧,每一帧有6个相互间隔约为5.3毫秒的块(例如采用持续时间约为10.6毫秒有50%交叠的块)。然而,假如这里所述的按每帧发送的信息以不低于约每隔40毫秒的频率发送,那么这种时序、固定长度帧的使用及其固定个数的块的划分对实施本发明的方面而言都不是关键所在。帧可以具有任意长度,而且其长度可以动态变化。正如上述AC-3系统中那样,可以使用可变块长度。条件是在此要参照“帧”和“块”。
实际上,如果复合单声或多信道信号或者复合单声或多信道信号和离散低频信道通过例如感觉编码器来编码(如下所述),那么可以方便地使用感觉编码器中所用的相同的帧和块结构。此外,如果该编码器使用可变块长度使得可以随时从一个块长度切换到另一个块长度,那么,当这种块切换发生时,最好更新本文所述的一个或多个侧链信息。为了使数据开销增量最小,当随着这种切换的发生而更新侧链信息时,可以降低所更新侧链信息的频率分辨率。
图3示出了下述内容的简化的概念性结构的一个例子:沿(纵向)频率轴的bin和子带,和沿(横向)时间轴的块和帧。当一些bin被划分为接近于临界频带的子带时,最低频率子带具有最少的bin(比如1个),而每一子带的bin个数随频率提高而增加。
回到图1,由每个信道的各自滤波器组(本例中的滤波器组2和4)所产生的n个时域输入信道中的每一个的频域形式通过加性合并功能或设备“加性合并器”6被一起合并(“下混合”)为单声复合音频信号。
下混合可以应用于输入音频信号的整个频率带宽,或者它可以可选地限于给定“耦合”频率以上的频率,因为下混合过程的人为产物在中频到低频可听得更清楚。在这些情况下,在耦合频率以下信道可以离散传送。这种策略即使在处理人为产物不成问题时也能合乎要求,这是因为,将变换bin组合成临界频带类的子带(宽度与频率大致成比例)所构成的中/低频子带使得在低频时有较少的变换bin(在甚低频只有一个bin),并可以直接用少数几个比特或比发送具有侧链信息的下混合单声音频信号所需更少的比特来编码。低至4kHz、2300Hz、1000Hz甚至低至输入到编码器的音频信号的频带的最低频率的耦合或过渡频率可适用于某些应用,尤其适用于甚低比特率显得重要的应用。其他频率可以在节省比特与听众接受之间提供有益的平衡。具体耦合频率的选择对本发明来说并不是关键。耦合频率可以变化,而且如果变化,那么该频率可以例如直接或间接地取决于输入信号特性。
本发明的一个方面在于,在下混合之前改进信道彼此之间的相角对准,以便当信道被合并时减少异相信号分量抵消并提供改进的单声复合信道。这可以通过随时间可控地对这些信道中的一些信道上的某些或所有变换bin的“绝对角度”进行偏移来实现。例如,必要时,在每一信道中或者当以某个信道作参考时在除该参考信道外的所有信道中,随时间可控地对表示高于耦合频率的音频(从而规定了所关心的频带)的所有变换bin进行偏移。
bin的“绝对角度”可以认为是滤波器组所产生的每一复值变换bin的幅度-角度表达式中的角度。信道中的bin的绝对角度的可控偏移可以利用角度转动功能或设备(“转动角度”)来实现。滤波器组2的输出在被应用于加性合并器6所提供的下混合合并之前,转动角度8先对其进行处理,而滤波器组4的输出在被应用于加性合并器6之前,转动角度10先对其进行处理。应当理解,在某些信号条件下,特定的变换bin在某一时间段(在这里所述的例子中为一帧的时间段)上可以不需要角度转动。低于耦合频率时,信道信息可以离散编码(图1中未示出)。
原则上,信道彼此之间的相角对准的改善可以通过在所关心的整个频带上的每个块中使每个变换bin或子带偏移其绝对相角的负值来完成。尽管这样基本上避免了异相信号分量抵消,然而,尤其当孤立倾听所得到的单声复合信号时,往往会造成可听得见的人为产物。因此,最好采用“最少处理”原则:根据需要只对信道中bin的绝对角度进行偏移,以便最大限度地减少下混合过程中的异相抵消和最大限度地减少解码器所重建的多信道信号的空间声像崩溃。一些用于确定这种角度偏移的技术如下所述。这些技术包括时间和频率平滑方法以及信号处理对发生瞬变作出响应的方式。
此外,如下所述,还可以在编码器中按每一bin进行能量归一化,以进一步减少孤立bin的其余任意异相抵消。如下进一步所述,还可以(在解码器中)按每一子带进行能量归一化,以确保单声复合信号的能量等于起作用信道的能量总和。
每一输入信道都有一个与其相关的音频分析器功能或设备(“音频分析器”),用于产生该信道的侧链信息,和用于在控制了应用于信道的角度转动量或度数之后才将其输入到下混合合并6。信道1和n的滤波器组输出分别输入到音频分析器12和音频分析器14。音频分析器12产生信道1的侧链信息和信道1的相角转动量。音频分析器14产生信道n的侧链信息和信道n的相角转动量。应当理解,本文中这些所谓“角度”指的是相角。
每个信道的音频分析器所产生的每个信道的侧链信息可以包括:
振幅比例因子(“振幅SF”),
角度控制参数,
解相关比例因子(“解相关SF”),
瞬变标志,和
可选内插标志。
这样的侧链信息可以表征为“空间参数”,表示信道的空间特性和/或表示可能与空间处理有关的信号特性(比如瞬变)。在每种情况下,侧链信息都将应用于单个子带(除了瞬变标志和内插标志之外,每一侧链信息都将应用于信道内的所有子带),并且可以每帧更新一次(如以下例子中所述)或者当在相关编码器中出现块切换时进行更新。各种空间参数的进一步的细节如下所述。编码器中的具体信道的角度转动可以被认为是极性反向的角度控制参数,它是侧链信息的一部分。
如果使用参考信道,那么该信道可以不需要音频分析器,或者可以需要只产生振幅比例因子侧链信息的音频分析器。如果解码器可以根据其他非参考信道的振幅比例因子推断出具有足够精度的振幅比例因子,那么未必发送该振幅比例因子。如下所述,如果编码器中的能量归一化确保任意子带内的所有信道上的比例因子实际平方和为1,那么在解码器中可以推断出参考信道的振幅比例因子的近似值。由于振幅比例因子的相对粗量化导致所再现的多信道音频中的声像移位,因此推断出的近似参考信道振幅比例因子值可能有误差。然而,在低数据率情况下,这种人为产物与使用比特来发送参考信道的振幅比例因子的情况相比更可接受。不过,在某些情况下,参考信道最好使用至少能产生振幅比例因子侧链信息的音频分析器。
图1用虚线来表示到每个音频分析器的可选输入(从PCM时域输入到该信道中的音频分析器)。音频分析器利用这一输入来检测某一时间段(在这里所述的例子中为一个块或帧的时间段)上的瞬变,并响应这一瞬变产生瞬变指示符(例如1比特“瞬变标志”)。或者,如以下图4的步骤408的解释中所述,可以在频域中检测瞬变,这样,音频分析器不必接收时域输入。
单声复合音频信号和所有信道(或除参考信道外的所有信道)的侧链信息可被存储、传送或者存储和传送到解码过程或设备(“解码器”)。在进行存储、传送或者存储和传送之前,各种音频信号和各种侧链信息可以被复用和打包到一个或多个适用于存储、传送或者存储和传送媒介或媒体的比特流中。在进行存储、传送或者存储和传送之前,单声复合音频可以输入到数据率下降编码过程或设备(比如感觉编码器)或者输入到感觉编码器和熵编码器(比如算术或霍夫曼编码器)(有时也称之为“无损”编码器)。此外,如上所述,只对于高于某一频率(“耦合”频率)的音频,才可以从多个输入信道中得到单声复合音频和相关侧链信息。在这种情况下,多个输入信道的每一个中的低于耦合频率的音频可以作为离散信道进行存储、传送或者存储和传送,或者可以按与这里所述不同的某种方式进行合并或处理。这些离散的或反过来合并的信道也可以输入到数据下降编码过程或设备(比如感觉编码器,或者感觉编码器和熵编码器)。单声复合音频和离散多信道音频都可以输入到综合感觉编码或者感觉和熵编码过程或设备。
在编码器比特流中载送侧链信息的具体方式对本发明而言并不是关键。需要时,侧链信息可以按比如比特流与老式解码器兼容(即比特流是向后兼容的)的方式进行载送。完成这项工作的许多合适技术是已知的。例如,许多编码器产生了具有解码器忽略的未用或无效比特的比特流。这种配置的一个例子如美国专利6,807,528B1中所述,该专利在此全部包含作为参考,它由Truman等人于2004年10月19日申请,名称为“Adding Data to a Compressed Data Frame”。这些比特可以用侧链信息来代替。另一个例子是,侧链信息可以在编码器的比特流中进行加密编码。此外,还可利用允许这种侧链信息和与老式解码器兼容的单声/立体声比特流一同传送或存储的任意技术,将侧链信息与向后兼容的比特流分别存储或传送。
基本1:N和1:M解码器
参照图2,示出了体现本发明的方面的1:N解码器功能或设备(“解码器”)。该图是作为体现本发明的方面的基本解码器所实现的功能或结构的一个例子。实施本发明的方面的其他功能或结构配置也可以使用,包括如下所述的可选和/或等价的功能或结构配置。
解码器接收单声复合音频信号和所有信道(或除参考信道外的所有信道)的侧链信息。必要时,将复合音频信号和相关侧链信息去复用、拆分和/或解码。解码可以采用查寻表。目的是要从单声复合音频信道中得到与输入到图1的编码器的音频信道中的各个信道接近的多个单独音频信道,以遵照本文所述的本发明的比特率下降技术。
当然,可以选择不恢复输入到编码器的所有信道或者只使用单声复合信号。此外,利用如下申请中所述发明的方面,还可以从根据本发明的方面的解码器的输出中得到除了这些输入到编码器的信道以外的信道:于2002年2月7日申请并于2002年8月15日公布的指定美国的国际申请PCT/US02/03619,及其于2003年8月5日申请的相应美国国家申请系列号10/467,213;和于2003年8月6日申请并于2001年3月4日公布为WO 2004/019656的指定美国的国际申请PCT/US03/24570,及其于2005年1月27日申请的相应美国国家申请系列号10/522,515。所述申请在此全部包含作为参考。实施本发明的方面的解码器所恢复的信道尤其可以与所述参考的申请中的信道相乘技术结合起来使用,这是因为,所恢复信道不仅具有有用的信道间振幅关系,而且还具有有用的信道间相位关系。信道相乘的另一种变通办法是使用矩阵解码器来得到附加信道。本发明的信道间振幅和相位保持的方面使得体现本发明的方面的解码器的输出信道尤其适用于对振幅和相位敏感的矩阵解码器。许多这样的矩阵解码器使用宽带控制电路,这种控制电路严格地仅当输入给它的信号在整个信号带宽上都是立体声时才工作。因此,如果在N等于2的N:1:N系统中体现本发明的方面,那么解码器所恢复的两个信道可以输入到2:M的有源矩阵解码器。如上所述,低于耦合频率时,这些信道可以是离散信道。许多合适的有源矩阵解码器在技术上是众所周知的,包括例如称为“Pro Logic”和“Pro Logic II”解码器的矩阵解码器(“Pro Logic”是Dolby Laboratories Licensing Corporation的商标)。Pro Logic解码器的有关方面如美国专利4,799,260和4,941,177中所公开,这些专利中的每一个在此全部包含作为参考。Pro Logic II解码器的有关方面如以下专利申请所公开:Fosgate于2000年3月22日申请并于2001年6月7日公布为WO 01/41504的未决美国专利申请系列号09/532,711,名称为“Method for Deriving at Least Three Audio Signalsfrom Two Input Audio Signals”;和Fosgate等人于2003年2月25日申请并于2004年7月1日公布为US 2004/0125960A1的未决美国专利申请系列号10/362,786,名称为“Method for Apparatus for Audio MatrixDecoding”。所述申请中的每一个在此全部包含作为参考。例如,在Roger Dressler的论文“Dolby Surround Pro Logic Decoder Principlesof Operation”和Jim Hilson的论文“Mixing with Dolby Pro Logic IITechnology”中,解释了Dolby Pro Logic和Pro Logic II解码器的操作的某些方面,这些论文可以从Dolby Laboratories的网站(www.dolby.com)上得到。其他合适的有源矩阵解码器可以包括下列美国专利和公开的国际申请(每个都指定美国)中的一个或多个中所述的有源矩阵解码器,这些专利和申请中的每一个在此全部包含作为参考:5,046,098;5,274,740;5,400,433;5,625,696;5,644,640;5,504,819;5,428,687;5,172,415;和WO 02/19768。
再回到图2,接收到的单声复合音频信道应用于多个信号通道,从中得到所恢复的多个音频信道中的各自一个信道。各信道得到通道包括(按任一次序)振幅调整功能或设备(“调整振幅”)和角度转动功能或设备(“转动角度”)。
调整振幅是对单声复合信号施加增益或衰减,这样,在某些信号条件下,从复合信号中得到的输出信道的相对输出幅度(或能量)类似于编码器输入端的信道的幅度(或能量)。此外,如下所述,在强加“随机”角度变动时的某些信号条件下,还可以对所恢复信道的振幅强加一个可控的“随机”振幅变动量,从而改进它相对于所恢复信道中的其他信道的解相关性。
转动角度应用了相位转动,这样,在某些信号条件下,从单声复合信号中得到的输出信道的相对相角类似于编码器输入端的信道的相角。最好,在某些信号条件下,还可以对所恢复信道的角度强加一个可控的“随机”角度变动量,从而改进它相对于所恢复信道中的其他信道的解相关性。
如以下进一步所述,“随机”角度振幅变动不仅包括伪随机和真随机变动,而且包括确定性产生的变动(具有减小信道之间的互相关的作用)。这还将在以下图5A的步骤505的解释中作进一步的讨论。
从概念上讲,具体信道的调整振幅和转动角度是要确定单声复合音频DFT系数,以便得到信道的重建变换bin值。
每个信道的调整振幅可以至少由具体信道的所恢复侧链振幅比例因子进行控制,或者,在有参考信道的情况下,既根据参考信道的所恢复侧链振幅比例因子又根据从其他非参考信道的所恢复侧链振幅比例因子中推断出的振幅比例因子进行控制。可选地,为了增强所恢复信道的解相关性,调整振幅还可以由从具体信道的所恢复侧链解相关比例因子以及具体信道的所恢复侧链瞬变标志中得出的随机振幅比例因子参数进行控制。
每个信道的转动角度可以至少由所恢复的侧链角度控制参数进行控制(在这种情况下,解码器中的转动角度基本上可以取消编码器中的转动角度所提供的角度转动)。为了增强所恢复信道的解相关性,转动角度还可以由从具体信道的所恢复侧链解相关比例因子以及具体信道的所恢复侧链瞬变标志中得出的随机角度控制参数进行控制。信道的随机角度控制参数以及信道的随机振幅比例因子(如果使用该因子的话)可以由可控的解相关器功能或设备(“可控解相关器”)从信道的所恢复解相关比例因子和信道的所恢复瞬变标志中得出。
参照图2中的例子,所恢复的单声复合音频输入到第一信道音频恢复通道22,通道22得出信道1音频;同时输入到第二信道音频恢复通道24,通道24得出信道n音频。音频通道22包括调整振幅26、转动角度28和反向滤波器组功能或设备(“反向滤波器组”)30(如果需要PCM输出的话)。同样,音频通道24包括调整振幅32、转动角度34和反向滤波器组功能或设备(“反向滤波器组”)36(如果需要PCM输出的话)。至于图1中的情况,为了便于说明,只示出了两个信道,应当理解可以有两个以上的信道。
第一信道(信道1)的所恢复侧链信息可以包括振幅比例因子、角度控制参数、解相关比例因子、瞬变标志和可选内插标志(如以上结合基本编码器的描述中所述)。振幅比例因子输入到调整振幅26。如果使用可选内插标志,那么可以使用可选频率内插器或内插器功能(“内插器”)27在整个频率上(例如信道的每一子带中的所有bin上)内插角度控制参数。这种内插可以是例如每个子带中心点之间的bin角度的线性内插。1比特内插标志的状态可以选择是否在频率上进行内插,如以下进一步所述。瞬变标志和解相关比例因子输入到可控解相关器38,该解相关器根据这一输入产生一个随机角度控制参数。1比特瞬变标志的状态可以选择随机角度解相关的两种复方式之一,如以下进一步所述。可在整个频率上进行内插(如果使用内插标志和内插器的话)的角度控制参数和随机角度控制参数通过加性合并器或合并功能40相加在一起,以便提供用于转动角度28的控制信号。可选地,可控解相关器38除了产生随机角度控制参数之外,还可以根据瞬变标志和解相关比例因子产生一个随机振幅比例因子。振幅比例因子与这种随机振幅比例因子通过加性合并器或合并功能(未示出)相加在一起,以便提供用于调整振幅26的控制信号。
同样,第二信道(信道n)的所恢复侧链信息也可以包括振幅比例因子、角度控制参数、解相关比例因子、瞬变标志和可选内插标志(如以上结合基本编码器的描述中所述)。振幅比例因子输入到调整振幅32。可以使用频率内插器或内插器功能(“内插器”)33在整个频率上内插角度控制参数。与信道1的情况一样,1比特内插标志的状态可以选择是否在整个频率上进行内插。瞬变标志和解相关比例因子输入到可控解相关器42,该解相关器根据这一输入产生一个随机角度控制参数。与信道1的情况一样,1比特瞬变标志的状态可以选择随机角度解相关的两种复方式之一,如以下进一步所述。角度控制参数和随机角度控制参数通过加性合并器或合并功能44相加在一起,以便提供用于转动角度34的控制信号。可选地,如以上结合信道1所述,可控解相关器42除了产生随机角度控制参数之外,还可以根据瞬变标志和解相关比例因子产生一个随机振幅比例因子。振幅比例因子与随机振幅比例因子通过加性合并器或合并功能(未示出)相加在一起,以便提供用于调整振幅32的控制信号。
尽管刚刚所述的过程或布局便于理解,然而,实际上利用能达到相同或类似结果的其他过程或布局也可以得到相同的结果。例如,调整振幅26(32)和转动角度28(34)的次序可以反过来,和/或可以有一个以上的转动角度(一个用于响应角度控制参数,而另一个用于响应随机角度控制参数)。转动角度还可以被认为是三个(而不是一个或两个)功能或设备,如以下图5的例子中所述。如果使用随机振幅比例因子,那么,可以有一个以上的调整振幅(一个用于响应振幅比例因子,而另一个用于响应随机振幅比例因子)。由于人耳听觉对振幅比对相位更敏感,因此,如果使用随机振幅比例因子,那么,最好调整随机振幅比例因子的影响相对于随机角度控制参数的影响的比例,使得随机振幅比例因子对振幅的影响小于随机角度控制参数对相角的影响。作为另一种可选的过程或布局,解相关比例因子还可以用来控制随机相角与基本相角的比例(而不是将表示随机相角的参数与表示基本相角的参数相加),以及(如果使用的话)随机振幅变动与基本振幅变动的比例(而不是将表示随机振幅的比例因子与表示基本振幅的比例因子相加)(即每种情况下的可变叠化)。
如果使用参考信道,那么,如以上结合基本编码器所述,由于参考信道的侧链信息可能只包括振幅比例因子(或者,如果该侧链信息不含参考信道的振幅比例因子,那么,当编码器中的能量归一化确保子带内的所有信道上的比例因子平方和为1时,该振幅比例因子可以从其他信道的振幅比例因子中推断出),因此可以省略该信道的可控解相关器和加性合并器。为参考信道提供振幅调整,并且可以由接收到的或所得出的参考信道的振幅比例因子来该控制振幅调整。无论参考信道的振幅比例因子是从该侧链中得出还是在解码器中推断出,所恢复参考信道都是单声复合信道的振幅定标形式。因此它不需要角度转动,这是因为它是其他信道的转动的参考。
尽管调整所恢复信道的相对振幅可以提供适度的解相关,然而,如果使用单独的振幅调整很可能导致许多信号条件下再现的声场实际上缺乏空间化或映像(例如“崩溃”的声场)。振幅调整可能影响耳边的耳间电平差,这只是耳朵所用的心理声学定向提示之一。因此,根据本发明的方面,可以根据信号条件使用某些角度调整技术,以提供附加的解相关。可以参照表1,表中给出了简要解释,这些解释便于理解根据本发明的方面所采用的多种角度调整解相关技术或操作模式。除了表1中的技术之外,还可以采用其他解相关技术(如以下结合图8和9的例子所述)。
实际上,实施角度转动和幅度变更可能导致循环回旋(circularconvolution)(也称为循环性或周期性回旋)。尽管通常要求避免循环回旋,然而,在编码器和解码器中通过互补角度偏移可以稍微减轻循环回旋所带来的令人不快的听得见的人为产物。此外,在本发明的方面的低成本实现方式中,尤其是在只有部分音频频带(比如1500Hz以上)下混合到单声或多个信道的那些实现方式中(这种情况下听得见的循环回旋的影响最小),可以容忍这种循环回旋的影响。可选地,利用任意合适的技术(包括例如适当使用“0”填充)可以避免或最大限度地减小循环回旋。使用“0”填充的一种方式是将所提出的频域变动(表示角度转动和振幅定标)变换到时域,对其开窗(利用任意窗口),为其填充一些“0”,然后再变换回到频域并乘以所要处理的音频的频域形式(该音频不必被开窗)。
表1角度调整解相关技术
  技术1   技术2   技术3
  信号类型(典型例子)   谱静态源   复连续信号   复脉冲信号(瞬变)
  对解相关的影响   将低频和稳态信号分量解相关   将非脉冲复信号分量解相关   将脉冲高频信号分量解相关
  帧中瞬变的影响   用缩短的时间常数进行操作   不操作   操作
  做什么   缓慢(逐帧地)对信道中的bin角度进行偏移   按信道中的逐个bin,将技术1中的角度加上一个时间不变随机角度   按信道中的逐个子带,将技术1中的角度加上一个快速(逐块)变化的随机角度
  控制或定标   基本相角由角度控制参数控制   随机角度的量由解相关SF直接定标;整个子带同一定标,每帧都更新定标   随机角度的量由解相关SF间接定标;整个子带同一定标,每帧都更新定标
  角度偏移的频率分辨率  子带(每一子带中的所有bin应用相同或内插的偏移值)   bin(每一bin应用不同的随机偏移值)   子带(每一子带中的所有bin应用相同的随机偏移值;信道中的每一子带应用不同的随机偏移值)
  时间分辨率  帧(每帧都更新偏移值)   随机偏移值保持相同而不改变   块(每块都更新随机偏移值)
对于实际上是谱静态的信号(比如管乐定调音符),第一种技术(“技术1”)将接收到的单声复合信号的角度相对于其他所恢复信道中的每一个的角度恢复到一个与在编码器的输入端该信道相对于其他信道的原始角度类似(经过频率和时间粒度并经过量化)的角度。相角差尤其适用于提供低于约1500Hz的低频信号分量(其中听觉遵循音频信号的单独周期)的解相关。最好,技术1在所有信号条件下都能操作以提供基本角度偏移。
对于高于约1500Hz的高频信号分量,听觉不遵循声音的单独周期而响应波形包络(基于临界频带)。因此,最好利用信号包络的差而不是用相角差来提供高于约1500Hz的解相关。按照技术1只应用相角偏移无法充分改变信号的包络来将高频信号解相关。第二和第三种技术(“技术2”和“技术3”)在某些信号条件下分别将技术1所确定的角度加上一个可控的随机角度变动量,从而得到可控的随机包络变动量,这增强了解相关性。
相角的随机变化是造成信号包络随机变化的最好方式。特定包络是由子带内频谱分量的振幅和相位的特定组合的交互作用所造成的。尽管改变子带内频谱分量的振幅可以改变包络,然而,需要大的振幅变化才能得到包络的显著变化,这不合乎需要,因为人耳听觉对频谱振幅的变动很敏感。相反,改变频谱分量的相角比改变频谱分量的振幅对包络的影响更大(频谱分量不再以同样的方式排齐),因此,在不同的时间出现了决定包络的加强和减弱,从而改变包络。尽管人耳听觉对包络有一定的敏感性,然而听觉对相位相对较弱,因此,总体声音质量实际上仍然相似。不过,对于某些信号条件,频谱分量的振幅的某种随机性与频谱分量的相位的随机性一道可以提供信号包络的增强型随机性,只要这种振幅随机性不造成令人不快的听得见的人为产物。
最好,在某些信号条件下,技术2或技术3的可控量或度数与技术1一同操作。瞬变标志选择技术2(在帧或块中(取决于瞬变标志是以帧速率还是以块速率传送)没有瞬变时)或选择技术3(在帧或块中有瞬变时)。因此,取决于是否有瞬变,将有多种操作模式。此外,在某些信号条件下,振幅随机性可控量或度还可以与试图恢复原始信道振幅的振幅定标一同操作。
技术2适用于谐波丰富的复连续信号,比如集中管弦乐队小提琴。技术3适用于复脉冲或瞬变信号,比如鼓掌欢呼、响板等。(技术2有时会抹去鼓掌欢呼中的拍手声,使得它不适用于这种信号)。如以下进一步所述,为了最大限度地减小听得见的人为产物,技术2和技术3具有不同的时间和频率分辨率,用于应用随机角度变动(没有瞬变时选用技术2,而有瞬变时选用技术3)。
技术1缓慢地(逐帧地)对信道中的bin角度进行偏移。这一基本偏移量或度数由角度控制参数控制(参数为0时没有偏移)。如以下进一步所述,每一子带中的所有bin都应用相同的或内插的参数,而每帧都要更新参数。因此,每个信道的每一子带相对于其他信道都有相移,从而在低频时(低于约2500Hz)提供了解相关度。然而,技术1本身不适用于诸如鼓掌欢呼等瞬变信号。对于这些信号条件,再现的信道可能表现出令人讨厌的不稳定梳状滤波效果。在鼓掌欢呼的情况下,本质上只通过调整所恢复信道的相对振幅无法提供解相关,这是因为所有信道在帧期间往往都有相同的振幅。
技术2在没有瞬变时工作。按信道中逐个bin(每个bin都有一个不同的随机偏移),技术2将技术1中的角度偏移加上一个不随时间变化的随机角度偏移,使得信道彼此之间的包络不同,从而提供这些信道当中的复信号的解相关。保持随机相角值不随时间变化避免了可能由于bin相角的随块或随帧而变所造成的块或帧的人为产物。尽管这一技术在没有瞬变时是一种很有用的解相关工具,然而,它可能会暂时模糊瞬变(导致通常所谓的“预噪声”——瞬变掩盖了后瞬变涂沫)。技术2所提供的附加偏移量或度数由解相关比例因子直接定标(比例因子为0时没有附加偏移)。理想地,根据技术2与基本角度偏移(技术1)相加的随机相角的量由解相关比例因子以最大限度地减小听得见的信号颤音人为产物的方式进行控制。如下所述,利用得到解相关比例因子的方式以及应用适当的时间平滑方式可以实现这种最大限度地减小信号颤音人为产物的过程。尽管每一bin应用了不同的附加随机角度偏移值且该偏移值不变,但整个子带却应用了相同的定标而每帧则更新定标。
技术3在帧或块中(取决于瞬变标志的传送速率)有瞬变时工作。它将信道中每一子带中的所有bin逐块地用唯一的随机角度值(子带中所有bin公用的)来偏移,使信道彼此之间不仅信号的包络而且信号的振幅和相位都随块而变。角度随机化的时间和频率分辨率的这些变化减小了这些信道当中的稳态信号相似性,并充分提供了信道的解相关而不会造成“预噪声”人为产物。角度随机化的频率分辨率从技术2中的很细(信道中的所有bin之间都不同)到技术3中的粗(子带中的所有bin之间都相同但每个子带之间不同)的变化尤其有利于最大限度地减小“预噪声”人为产物。尽管听觉高频时不直接对纯角度变化作出响应,然而,当两个或多个信道在从扬声器到听众的途中进行声音混合时,相差可能造成可听得见的令不不快的振幅变化(梳状滤波效果),而技术3则减弱了这种变化。信号的脉冲特性可以最大限度地减小要不然可能出现的块速率人为产物。因此,按信道中逐个子带,技术3将技术1中的相移加上一个快速(逐块)变化的随机角度偏移。如下所述,附加偏移量或度数由解相关比例因子间接定标(比例因子为0时没有附加偏移)。整个子带应用了相同的定标而每帧则更新定标。
尽管角度调整技术用三种技术进行了表征,然而,语义上讲,还可以用以下两种技术来表征:(1)技术1与技术2的可变度数(它可以是0)的组合,和(2)技术1与技术3的可变度数(它可以是0)的组合。为便于说明,这些技术也被看作是三种技术。
在提供通过上混合从一个或多个音频信道中(即使这些音频信道不是从根据本发明的方面的编码器中得出)所得到的音频信号的解相关时,可以采用多模式解相关技术的一些方面及其修改方式。这些配置当应用于单声音频信道时有时称之为“伪立体声”设备和功能。可以使用任意合适的设备或功能(“上混合器”)来从单声音频信道或从多个音频信道中得到多个信号。一旦通过上混合器得到这些多音频信道,就可以应用这里所述的多模式解相关技术,对这些音频信道中的一个或多个信道相对其他所得到的音频信号中一个或多个信号之间进行解相关。在这种应用中,通过检测所得到的音道本身中的瞬变,应用了这些解相关技术的每一所得到的音频信道可以在不同的操作模式之间相互切换。此外,有瞬变的技术(技术3)的操作可以被简化,以便有瞬变时不对频谱分量的相角进行偏移。
侧链信息
如上所述,侧链信息可以包括振幅比例因子、角度控制参数、解相关比例因子、瞬变标志和可选内插标志。本发明的方面的实际实施方式的这种侧链信息可以用下表2来概括。通常,侧链信息可以每帧更新一次。
表2信道的侧链信息特性
  侧链信息   值范围   表示(度量)   量化级   主要目的
  子带角度控制参数   0→+2π   信道的子带中的每一bin的角度与参考信道的子带中的相应bin的角度之间的差值在每一子带中的平滑时间平均值   6比特(64级)   提供信道中每一bin的基本角度转动
  子带解相关比例因子   0→1仅当频谱稳定性因子和信道间角度一致性因子都低时,子带解相关比例因子才高   在信道的子带中信号的频谱稳定性的随时间特性(频谱稳定性因子),和在信道的同一子带中bin角度相对于参考信道的相应bin的角度的一致性(信道间角度一致性因子)   3比特(8级)   对与基本角度转动相加的随机角度偏移进行定标,还对与基本振幅比例因子相加的随机振幅比例因子(如果使用该因子的话)进行定标,还可选地对混响度进行定标
  子带振幅比例因子   0-31(整数)0是最高振幅,31是最低振幅   信道的子带中的能量或振幅相对于所有信道上同一子带的能量或振幅   5比特(32级)粒度是1.5dB,因此其范围是31*1.5=46.5dB加上终值=off   对信道的子带中的bin的振幅进行定标
  瞬变标志   1,0(真/假)(任意极性)   在帧中或在块中有瞬变   1比特(2级)   判断是采用加上随机角度偏移的技术还是采用既加上角度偏移又加上振幅变动的技术
  内插标志   1,0(真/假)(任意极性)   子带边界附近的谱峰,或信道内呈线性级数的相角   1比特(2级)   判断是否在整个频率上内插基本角度转动
在每种情况下,信道的侧链信息都应用于单个子带(除了瞬变标志和内插标志之外,每一侧链信息都将应用于信道中的所有子带),并可以每帧更新一次。尽管得到所指示的时间分辨率(每帧一次)、频率分辨率(子带)、值范围和量化级后可以提供有效性能以及低比特率与性能之间的有效折衷,然而应当理解,这样的时间和频率分辨率、值范围以及量化级并不是关键,在实施本发明的方面时还可以采用其他分辨率、范围和级。例如,瞬变标志和内插标志(如果使用的话)可以每块更新一次,这样才只有最小的侧链数据开销增量。在瞬变标志的情况下,每块更新一次的好处是,技术2与技术3之间的切换将更精确。此外,如上所述,侧链信息还可以在相关编码器出现块切换时进行更新。
应当注意,上述技术2(也可参见表1)提供了bin频率分辨率而不是子带频率分辨率(也就是说,对每个bin而不是对每个子带实施不同的伪随机相角偏移),即使子带中的所有bin都应用了同一子带解相关比例因子。还应注意,上述技术3(也可参见表1)提供了块频率分辨率(也就是说,对每块而不是对帧实施不同的随机相角偏移),即使子带中的所有bin都应用了同一子带解相关比例因子。这些比侧链信息的分辨率高的分辨率是可行的,因为随机相角偏移可以在解码器中产生而且不必在编码器中得知(即使编码器也对所编码的单声复合信号实施随机相角偏移,情况也是这样,这种情况如下所述)。换言之,即使解相关技术采用bin或块粒度,也未必发送具有这种粒度的侧链信息。解码器可以使用例如一个或多个查寻随机bin相角的查寻表。获得解相关的比侧链信息率大的时间和/或频率分辨率属于本发明的方面之一。因此,经随机相位的解相关可以这样实现:利用不随时间变化的细频率分辨率(逐个bin)(技术2),或者利用粗频率分辨率(逐个频带)((或当使用频率内插时的细频率分辨率(逐个bin),如下进一步所述)和细时间分辨率(块速率)(技术3)。
还应当理解,随着不断增长的随机相移度数与所恢复信道的相角相加,所恢复信道的绝对相角与该信道的原始绝对相角相差越来越大。还应当理解本发明的一个方面,当信号条件是根据本发明的方面要加上随机相移时,所恢复信道的最终绝对相角不必与原始信道的绝对相角相符。例如,在解相关比例因子造成最大的随机相移度数时的极端情况下,技术2或技术3所造成的相移完全盖过技术1所造成基本相移。不过,这并不是所要关心的,因为随机相移的可听情况与原始信号中的不同随机相位一样,这些随机相位造成要加上某一度数的随机相移的解相关比例因子。
如上所述,除了使用随机相移之外还可以使用随机振幅变动。例如,调整振幅还可以由从具体信道的所恢复侧链解相关比例因子和该具体信道的所恢复侧链瞬变标志中得到的随机振幅比例因子参数来控制。这种随机振幅变动可以按与随机相移的应用情况类似的方式以两种模式进行操作。例如,在没有瞬变时,可以逐个bin地(随bin不同而不同)加上不随时间变化的随机振幅变动,而在(帧或块中)有瞬变时,可以加上逐块变化的(随块不同而不同)和随子带变化的(子带中所有bin具有相同变动;随子带不同而不同)随机振幅变动。尽管要加的随机振幅变动的量或度可以由解相关比例因子来控制,然而,应当知道,特定比例因子值可带来比从相同比例因子值得到的相应随机相移更小的振幅变动,从而避免听得见的人为产物。
当瞬变标志应用于帧时,通过在解码器中提供辅助瞬变检测器可以提高瞬变标志选择技术2或技术3所用的时间分辨率,从而提供比帧速率低甚至比块速率还要低的时间分辨率。这种辅助瞬变检测器可以检测解码器所接收到的单声或多信道复合音频信号中出现的瞬变,然后再将这种检测信息发送给每一可控解相关器(如图2中的38、42所示)。于是,当接收到其信道的瞬变标志时,一旦接收到解码器的本地瞬变检测指示,可控解相关器从技术2切换技术3。因此,无需提高侧链比特率就能明显改善时间分辨率,即使空间精度下降(编码器先检测每一输入信道中的瞬变再进行下混合,反之,在解码器中的检测则在下混合之后进行)。
作为逐帧发送侧链信息的另一种变通办法,至少对高动态信号每块都更新侧链信息。如上所述,每块更新瞬变标志和/或内插标志只导致很小的侧链数据开销增量。为了在不显著提高侧链数据率的前提下达到其他侧链信息的时间分辨率的这种提高,可以采用块浮点差分编码配置。例如,可在帧上按6块一组收集连续变换块。每个子带信道的全部侧链信息可以在第一块中发送。在5个后续块中,可以只发送差分值,每一差分值表示当前块的振幅和角度与上一块的等同值之间的差。对于静态信号(比如管乐定调音符),这将导致很低的数据率。对于较动态的信号,需要更大的差值范围,但精度低。因此,对于每组的5个差分值,可以首先利用比如3个比特来发送指数,然后,将差分值量化为比如2比特精度。这种配置将平均最坏情况的侧链数据率降低约1倍。通过省略参考信道的侧链数据(因为它可以从其他信道得到)(如上所述)和利用例如算术编码可以进一步降低该数据率。此外,还可以通过发送例如子带角度或振幅的差来使用整个频率上的差分编码。
无论侧链信息是逐帧发送还是更频繁地发送,在帧中的所有块上内插侧链值可能都是有用的。随时间的线性内插可以按如下所述的在整个频率上的线性内插的方式来使用。
本发明的方面的一种合适的实现方式使用了实现各个处理步骤且功能上与如下所述有关的处理步骤或设备。尽管下列编码和解码步骤各自都可以通过按下列步骤的次序操作的计算机软件指令序列来执行,然而,应当理解,考虑到从较早步骤得到了某些量,因此可以通过按其他方式排序的步骤得到等同或类似结果。例如,可以使用多线程计算机软件指令序列,使得可以并行执行某些顺序的步骤。或者,所述步骤可以实现成一些执行所述功能的设备,各种设备具有下文所述的功能和功能相互关系。
编码
编码器或编码功能可以收集帧的数据特性然后得出侧链信息,再将该帧的音频信道下混合到单个单声(单声)音频信道(按上述图1中的例子的方式)或下混合到多个音频信道(按下述图6中的例子的方式)。这样,首先将侧链信息发送到解码器,从而使解码器一接收到单声或多信道音频信息就立即开始解码。编码过程的步骤(“编码步骤”)可以描述如下。关于编码步骤,可以参照图4,图4具有混合流程图和功能框图的性质。从开始到步骤419,图4表示对一个信道的编码步骤。步骤420和421应用于所有多个信道,这些信道被合并以提供复合单声信号输出,或一起矩阵化以提供多个信道,如以下结合图6的例子所述。
步骤401,检测瞬变。
a.执行输入音频信道中的PCM值的瞬变检测。
b.如果在信道的帧的任一块中有瞬变,那么设置1比特瞬变标志“真”。
关于步骤401的解释:
瞬变标志构成侧链信息的一部分,而且还将用于如下所述的步骤411中。比解码器中的块速率更细的瞬变分辨率可以改善解码器性能。尽管,如上所述,块速率而不是帧速率的瞬变标志可以适度提高比特率来构成侧链信息的一部分,然而,通过检测解码器所接收到的单声复合信号中出现的瞬变,即使空间精度下降也可以在不提高侧链比特率的情况下得到同样的结果。
每帧每个信道都有一个瞬变标志,由于它是在时域中得出的,因此它必需应用于该信道内的所有子带。瞬变检测可以按类似于AC-3编码器中用于控制何时在长与短音频块之间切换的决定的方式进行,但其检测灵敏度更高,而且任一帧当其中块的瞬变标志为“真”时该帧的瞬变标志为“真”(AC-3编码器按块检测瞬变)。具体可以参见上述A/52A文献中的第8.2.2节。通过将第8.2.2节中所述的公式加上一个灵敏度因子F,可以提高该节中所述的瞬变检测的灵敏度。后面将通过加上灵敏度因子来陈述A/52A文献中的第8.2.2节(后面所再现的第8.2.2节进行了修改,以表明低通滤波器是级联双二次直接II型IIR滤波器而不是公开的A/52A文献中所述的“I型”;第8.2.2节在早期A/52A文献中是合适的)。尽管它并不是关键性的,但已发现在本发明的方面的实际实施方式中灵敏度因子0.2是一个合适的值。
或者,可以采用美国专利5,394,473中所述的类似的瞬变检测技术。该’473专利详述了A/52A文献的瞬变检测器的一些方面。无论所述A/52A文献还是所述’473专利在此全部包含作为参考。
作为另一种变通办法,可以在频域中而不是在时域中检测瞬变(参见步骤408的解释)。在这种情况下,步骤401可以省略而在如下所述的频域中使用另一步骤。
步骤402,开窗和DFT。
将PCM时间样值的相互交叠的块乘以时间窗口,然后通过用FFT所实现的DFT将它们转换成复频率值。
步骤403,将复值转换成幅度和角度。
利用标准复处理,将每一频域复变换bin值(a+jb)转换成幅度和角度表示:
a.幅度=(a2+b2)的平方根
b.角度=arctan(b/a)
关于步骤403的解释:
下列步骤中的某些步骤使用或可能使用(作为一种选择)bin的能量,能量被定义为上述幅度的平方(即能量=(a2+b2))。
步骤404,计算子带能量。
a.将每一子带内的bin能量值相加(整个频率上求和),计算出每块的子带能量。
b.将帧中的所有块中的能量平均或累积(整个时间上平均/累积),计算出每帧的子带能量。
c.如果编码器的耦合频率低于约1000Hz,那么将子带的帧-平均或帧-累积能量应用于在低于该频率而高于耦合频率的所有子带上工作的时间平滑器。
关于步骤404e的解释:
通过时间平滑以便在低频子带中提供帧间平滑将会是有益的。为了避免人为产物造成的子带边界处bin值之间的不连续性,可以很好地应用不断下降的时间平滑:从高于(含)耦合频率的最低频率子带(其中平滑会具有显著效果),直至更高的频率子带(其中时间平滑效果可测量但听不到,尽管近乎听得见)。最低频率范围子带(其中,如果子带是临界频带,那么子带是单个bin)的合适时间常数可以介于比如50-100毫秒范围。不断下降的时间平滑可以一直延续到包括约1000Hz的子带,其中时间常数可以是比如10毫秒。
尽管一阶平滑器是合适的,但该平滑器可以是两级平滑器,两级平滑器具有可变时间常数,它缩短了响应瞬变的增高和衰落时间(这种两级平滑器可是美国专利3,846,719和4,922,535中所述的模拟两级平滑器的数字等效物,这些专利每一个在此全部包含作为参考)。换言之,稳态时间常数可以根据频率来定标,也可以随瞬变而变。可选地,这种平滑过程还可以应用于步骤412。
步骤405,计算bin幅度的和。
a.计算出每块的每一子带的bin幅度的和(步骤403)(整个频率上求和)。
b.通过将帧中的所有块的步骤405a的幅度平均或累积(整个时间上平均/累积),计算出每帧的每一子带的bin幅度的和。这些和用于计算以下步骤410中的信道间角度一致性因子。
c.如果编码器的耦合频率低于约1000Hz,那么将子带的帧-平均或帧-累积幅度应用于在低于该频率而高于耦合频率的所有子带上工作的时间平滑器。
关于步骤405c的解释:除了在步骤405c的情况下时间平滑过程还可实现成步骤410的一部分之外,其他参见关于步骤404c的解释。
步骤406,计算信道间相对bin相角。
通过将步骤403的bin角度减去参考信道(比如第一信道)的相应bin角度,计算出每块的每一变换bin的信道间相对相角。正如本文中的其他角度加法或减法那样,其结果被取为模(π,-π)弧度(通过加上或减去2π,直到结果在所要求的-π至+π范围内)。
步骤407,计算信道间子带相角
针对每个信道,按如下方式计算出每一子带的帧速率振幅加权平均的信道间相角:
a.对于每一bin,根据步骤403的幅度和步骤406的信道间相对bin相角构建一个复数。
b.将每一子带上的步骤407a的所构建复数相加(整个频率上求和)。
关于步骤407b的解释:例如,如果子带有两个bin,其中一个bin具有复值1+j1而另一个bin具有复值2+j2,那么它们的复数和为3+3j。
c.将每一帧的所有块的步骤407b的每一子带的每块复数和平均或累积(整个时间上平均或累积)。
d.如果编码器的耦合频率低于约1000Hz,那么将子带的帧-平均或帧-累积复值应用于在低于该频率而高于耦合频率的所有子带上工作的时间平滑器。
关于步骤407d的解释:除了在步骤407d的情况下时间平滑过程还可实现成步骤407e或410的一部分之外,其他参见关于步骤404c的解释。
e.按照步骤403,计算出步骤407d的复数结果的幅度。
关于步骤407e的解释:这一幅度将用于以下步骤410a中。在步骤407b给出的简单例子中,3+3j的幅度为(9+9)的平方根=4.24。
f.按照步骤403,计算出复数结果的角度。
关于步骤407f的解释:在步骤407b给出的简单例子中,3+3j的角度为arctan(3/3)=45度=π/4弧度。这一子带角度进行与信号相关的时间平滑(参见步骤413)和量化(参见步骤414),以产生子带角度控制参数侧链信息,如下所述。
步骤408,计算bin频谱稳定性因子。
针对每一bin,按如下方式计算出0-1范围内的bin频谱稳定性因子:
a.设xm=步骤403中计算出的当前块的bin幅度。
b.设ym=上一块的相应bin幅度。
c.如果xm>ym,那么bin动态振幅因子=(ym/xm)2
d.否则,如果ym>xm,那么bin动态振幅因子=(xm/ym)2
e.否则,如果ym=xm,那么bin频谱稳定性因子=1。
关于步骤408f的解释:
“频谱稳定性”是频谱分量(如频谱系数或bin值)随时间变化程度的度量。bin频谱稳定性因子=1表示在给定时间段上没有变化。
频谱稳定性还可以被看作是有没有瞬变的指示符。瞬变可能造成在一个或多个块的时间段上频谱(bin)振幅的突升和突降,这取决于该瞬变相对于块及其边界的位置。因此,bin频谱稳定性因子在少数几个块上从高值到低值的变化可以被认为是具有较低值的一个或多个块上出现瞬变的指示。出现瞬变的进一步确认(或使用bin频谱稳定性因子的变通办法)是要观察块内bin的相角(例如在步骤403的相角输出)。由于瞬变很可能占据块内单个时间位置并在块中具有时域能量,因此,瞬变的存在和位置可以用块中bin之间的很均匀的相位延迟(即作为频率的函数的相角的基本上线性斜升)来指示。进一步确定(或变通办法)还要观察少数几个块上的bin振幅(例如在步骤403的幅度输出),也就是说直接查找频谱级别的突升和突降。
可选地,步骤408还可以查看连续三个块而不是一个块。如果编码器的耦合频率低于约1000Hz,那么步骤408可以查看连续三个以上的块。连续块的个数可以考虑随频率的变化,这样其个数随子带频率范围减小而逐渐增加。如果bin频谱稳定性因子是从一个以上的块中得到的,那么正如刚刚所述,瞬变的检测可以由只响应检测瞬变所用的块的个数的单独步骤来确定。
作为又一种变通办法,可以使用bin能量而不是bin幅度。
作为还有一种变通办法,步骤408可以采用如下在步骤409后面的解释中所述的“事件判决”检测技术。
步骤409,计算子带频谱稳定性因子。
按如下方式,通过形成帧中的所有块中的每一子带内的bin频谱稳定性因子的振幅加权平均值,来计算0-1范围内的帧速率子带频谱稳定性因子:
a.对于每一bin,计算出步骤408的bin频谱稳定性因子与步骤403的bin幅度的乘积。
b.求出每一子带内的这些乘积的总和(整个频率上求和)。
c.将帧中的所有块中的步骤409b的总和平均或累积(整个时间上平均/累积)。
d.如果编码器的耦合频率低于约1000Hz,那么将子带的帧-平均或帧-累积总和应用于在低于该频率而高于耦合频率的所有子带上工作的时间平滑器。
关于步骤409d的解释:除了在步骤409d的情况下没有还可以实现时间平滑过程的合适后续步骤之外,其他参见关于步骤404c的解释。
e.根据情况,将步骤409c或步骤409d的结果除以该子带内bin幅度(步骤403)的总和。
关于步骤409e的解释:步骤409a中的乘以幅度的乘法和步骤409e中除以幅度总和的除法提供了振幅加权。步骤408的输出与绝对振幅无关,如果不进行振幅加权,那么可使步骤409的输出受到很小振幅的控制,这是所不期望的。
f.通过将范围从{0.5...1}变换到{0...1}的方式对该结果进行定标,以得到子带频谱稳定性因子。这可以这样来完成:将结果乘以2再减1,并将小于0的结果限定为值0。
关于步骤409f的解释:步骤409f可以用于确保噪声信道得到子带频谱稳定性因子为0。
关于步骤408和409的解释:
步骤408和409的目的在于测量频谱稳定性——信道的子带中频谱成分随时间的变化。此外,还可以使用诸如国际公开号WO02/097792A1(指定美国)中所述的“事件判决”检测的方面来测量频谱稳定性,而不用刚刚结合步骤408和409所述的方法。2003年11月20日申请的美国专利申请系列号10/478,538是所公开的PTC申请WO02/097792A1的美国国家申请。无论所公开的PTC申请还是美国申请在此全部包含作为参考。根据这些所参考的申请,每一bin的复FFT系数的幅度都被计算和归一化(例如,将最大值设为值1)。然后,减去连续块中的相应bin的幅度(以dB为单位)(忽略符号),求出bin之间的差值的总和,如果总和超过阈值,那么认为该块边界是听觉事件边界。此外,块之间的振幅变化也可以与频谱级别变化(通过查看所要求的归一化量)一起加以考虑。
如果使用所参考的事件检测申请的方面来测量频谱稳定性,那么可以不需要归一化,而最好是基于子带来考虑频谱级别的变化(如果省略归一化则可以不测量振幅的变化)。取代如上所述的执行步骤408,根据所述申请的教导,可以求出每一子带中相应bin之间的频谱级别的分贝差的总和。然后,可以对表示块之间的频谱变化度的这些总和中的每一个进行定标,使得其结果为0-1范围内的频谱稳定性因子,其中,值1表示最高稳定性(给定bin的块之间的变化为0dB)。表示最低稳定性的值0可以指配给大于等于适当量(比如12dB)的分贝变化。步骤409使用这些结果bin频谱稳定性因子可以按上述步骤409使用步骤408的结果同样的方式进行。当步骤409接收到利用刚刚所述的另一种事件判决检测技术所得到的bin频谱稳定性因子时,步骤409的子带频谱稳定性因子也可以被用作瞬变的指示符。例如,如果步骤409产生的值的范围为0-1,那么,当子带频谱稳定性因子是一个小值(比如0.1,表示频谱相当不稳定)时,可以认为有瞬变。
应当理解,步骤408所产生的和刚刚所述步骤408的变通办法所产生的bin频谱稳定性因子在某种程度上都固有地提供了可变阈值,这是因为它们基于块之间的相对变化。可选地,通过例如根据帧中的多个瞬变或较小瞬变当中的大瞬变(比如突如其来的中上到低下的鼓掌欢呼的强烈瞬变)专门提供阈值的变动,可用来补充这种固有特性。在后一种例子中,事件检测器最初可以将每一拍手声识别为事件,但强烈瞬变(比如击鼓声)可能使得要求改变阈值,这样只有击鼓声被识别为事件。
此外,还可以利用随机度量(例如,如美国专利Re 36,714中所述,该专利在此全部包含作为参考),而不用频谱稳定性随时间的测量。
步骤410,计算信道间角度一致性因子。
针对具有一个以上bin的每一子带,按如下方式计算出帧速率信道间角度一致性因子:
a.将步骤407的复数总和的幅度除以步骤405的幅度的总和。得到的“原始”角度一致性因子是一个0-1范围内的数。
b.计算修正因子:设n=整个子带上对上述步骤中的两个量起作用的值的个数(换言之,“n”是子带中的bin的个数)。如果n小于2,则设角度一致性因子为1,并进至步骤411和413。
c.设r=所期望的随机变动=1/n。将步骤410b中的结果减去r。
d.将步骤410c的结果通过除以(1-r)进行归一化。结果的最大值为1。必要时将最小值限定为0。
关于步骤410的解释:
信道间角度一致性是在一帧时间段上子带内的信道间相角相似程度的度量。如果该子带的所有bin信道间角度都相同,那么信道间角度一致性因子为1.0;反之,如果信道角度是随机发散的,那么该值接近于0。
子带角度一致性因子表示信道之间是否有幻觉声像。如果一致性低,那么,要求将信道解相关。高值表示融合声像。声像融合与其他信号特性无关。
应当注意,子带角度一致性因子尽管是角度参数,但它间接地根据两个幅度来确定。如果信道间角度完全相同,那么,将这些复值相加然后取其幅度可得到与先取所有幅度再将它们相加得到的结果相同的结果,因此商为1。如果信道间角度是发散的,那么将这些复值相加(比如将具有不同角度的矢量相加)将导致至少部分抵消,因此总和的幅度小于幅度的总和,因而商小于1。
下列是具有两个bin的子带的一个简单例子:
假定,两个复bin值为(3+j4)和(6+j8)。(每种情况角度相同:角度=arctan(虚部/实部),因此,角度1=arctan(4/3),而角度2=arctan(8/6)=arctan(4/3))。将复值相加,总和为(9+12j),其幅度为(81+144)的平方根=15。
幅度的总和为(3+j4)的幅度+(6+j8)的幅度=5+10=15。因此商为15/15=1=一致性(在1/n归一化之前,而在归一化之后也为1)(归一化一致性=(1-0.5)/(1-0.5)=1.0)。
如果上述bin之一具有不同的角度,假定第二个bin是具有相同幅度10的复值(6-8j)。此时复数总和为(9-j4),其幅度为(81+16)的平方根=9.85,因此,商为9.85/15=0.66=一致性(归一化之前)。进行归一化,减去1/n=1/2,再除以(1-1/n)(归一化一致性=(0.66-0.5)/(1-0.5)=0.32)。
尽管已看出上述用于确定子带角度一致性因子的技术是有用的,但它的使用并不是关键性的。其他合适的技术也可以采用。例如,我们可以利用标准公式计算角度的标准偏差。无论如何,要求利用振幅加权以便最小化小信号对所计算的一致性值的影响。
此外,子带角度一致性因子的另一种导出方法可使用能量(幅度的平方)而不是幅度。这可以通过先将来自步骤403的幅度进行平方再将其应用于步骤405和407来实现。
步骤411,得出子带解相关比例因子。
按如下方式得出每一子带的帧速率解相关比例因子:
a.设x=步骤409f的帧速率频谱稳定性因子。
b.设y=步骤410e的帧速率角度一致性因子。
c.那么,帧速率子带解相关比例因子=(1-x)*(1-y),数值在0和1之间。
关于步骤411的解释:
子带解相关比例因子是信道的子带中信号特性随时间的频谱稳定性(频谱稳定性因子)和信道的同一子带中bin角度相对于参考信道的相应bin的一致性(信道间角度一致性因子)的函数。仅当频谱稳定性因子和信道间角度一致性因子都低时,子带解相关比例因子才为高。
如上所述,解相关比例因子控制解码器中所提供的包络解相关度。表现出随时间的频谱稳定性的信号最好不应通过改变其包络来解相关(不管其他信道上发生什么事),因为这种解相关会导致听得见的人为产物,即信号的摇摆或颤音。
步骤412,得出子带振幅比例因子。
根据步骤404的子带帧能量值和根据其他所有信道的子带帧能量值(可以由与步骤404相应的步骤或其等同步骤所得到),按如下方式得出帧速率子带振幅比例因子:
a.对于每个子带,求出所有输入信道上每帧能量值的总和。
b.将每帧的每一子带能量值(来自步骤404)除以所有输入信道上的能量值的总和(来自步骤412a),产生一些0-1范围内的值。
c.将每一比率转换成范围为-∞到0的dB值。
d.除以比例因子粒度(它可以设为例如1.5dB),改变符号得到一个非负值,限定一个最大值(它可以是例如31)(即5比特精度),并化整为最接近的整数以产生量化值。这些值便是帧速率子带振幅比例因子并作为侧链信息的一部分进行传送。
e.如果编码器的耦合频率低于约1000Hz,那么将子带的帧-平均或帧-累积幅度应用于在低于该频率而高于耦合频率的所有子带上工作的时间平滑器。
关于步骤412e的解释:除了在步骤412e的情况下没有还可以实现时间平滑过程的合适后续步骤之外,其他参见关于步骤404c的解释。
步骤412的解释:
尽管看出这里所表明的粒度(分辨率)和量化精度是有用的,但它们并不是关键性的,其他值也能提供可接受的结果。
可选地,我们可以使用幅度而不用能量来产生子带振幅比例因子。如果使用幅度,那么可以使用dB=20*log(振幅比率),否则如果使用能量,那么可以通过dB=10*log(能量比率)转换成dB,其中振幅比率=(能量比率)的平方根。
步骤413,对信道间子带相角进行与信号相关的时间平滑。
将与信号相关的时间平滑过程应用于步骤407f中所得出的子带帧速率信道间角度:
a.设v=步骤409d的子带频谱稳定性因子。
b.设w=步骤410e的相应角度一致性因子。
c.设x=(1-v)*w。其值在0和1之间,如果频谱稳定性因子低而角度一致性因子高,那么其值为高。
d.设y=1-x。如果频谱稳定性因子高而角度一致性因子低,那么y为高。
e.设z=yexp,其中exp是一个常数,可以是=0.1。z也在0-1范围内,但相应于慢时间常数,偏向于1。
f.如果设置信道的瞬变标志(步骤401),那么,相应于有瞬变时的快时间常数,设z=0。
g.计算z的最大允许值lim,lim=1-(0.1*w)。其范围从0.9(如果角度一致性因子高)至1.0(如果角度一致性因子低(0))。
h.必要时用lim来限定z:如果(z>lim),则z=lim。
i.利用z的值和为每一子带所保持的角度的运行平滑值来平滑步骤407f的子带角度。如果A=步骤407f的角度和RSA=到上一块为止的运行平滑角度值,而NewRSA是运行平滑角度值的新值,那么,NewRSA=RSA*z+A*(1-z)。RSA的值随后在处理下一块之前被设为等于NewRSA。NewRSA是步骤413的与信号相关的时间平滑角度输出。
关于步骤413的解释:
当测量瞬变时,子带角度更新时间常数被设为0,以便允许快速子带角度变化。这合乎要求,因为它允许正常角度更新机制利用相对较慢时间常数的范围,从而可以最大限度地减少静态或准静态信号期间的声像漂动,而快变化信号利用快时间常数来处理。
尽管还可以使用其他平滑技术和参数,但已看出执行步骤413的一阶平滑器是合适的。如果实现成一阶平滑器/低通滤波器,那么,变量“z”相当于前馈系数(有时表示为“ffo”),而变量“(1-z)”相当于反馈系数(有时表示为“fb1”)。
步骤414,将平滑的信道间子带相角量化。
将步骤413i中所得到的时间平滑的子带信道间角度量化以得到子带角度控制参数:
a.如果值小于0,那么加上2π,这样所要量化的所有角度值都在0-2π范围内。
b.除以角度粒度(分辨率)(该粒度可以是2π/64弧度),并化整为一个整数。最大值可以设为63,相应于6比特量化。
关于步骤414的解释:
将量化值处理成非负整数,因此量化角度的简便方法是将量化值变换为非负浮点数(如果小于0,则加上2π,使范围为0-(小于)2π),用粒度(分辨率)进行定标,并化整为整数。类似地,可按如下方式完成将整数去量化过程(否则可以用简单的查询表来实现):用角度粒度因子的倒数进行定标,将非负整数转换成非负浮点角度(范围也为0-2π),然后将其重新归一化为范围±π以便进一步使用。尽管看出子带角度控制参数的这种量化是有效的,但这种量化并不是关键性的,其他量化也可以提供可接受的结果。
步骤415,将子带解相关比例因子量化。
通过乘以7.49并化整为最接近的整数,可将步骤411所产生的子带解相关比例因子量化成例如8级(3比特)。这些量化值是侧链信息的一部分。
关于步骤415的解释:
尽管看出子带解相关比例因子的这种量化是有用的,使用举例值的量化并不是关键性的,其他量化也可以提供可接受的结果。
步骤416,将子带角度控制参数去量化。
将子带角度控制参数(参见步骤414)去量化,以便在下混合之前使用。
关于步骤416的解释:
编码器中使用量化值有助于保持编码器与解码器之间的同步。
步骤417,在所有块上分配帧速率去量化子带角度控制参数。
在准备下混合时,在整个时间上将每帧一次的步骤416的去量化子带角度控制参数分配给帧内每一块的子带。
关于步骤417的解释:
相同的帧值可以指配给帧中的每一块。可选地,在帧的所有块上内插子带角度控制参数值可能有用。随时间的线性内插可以按如下所述的在整个频率上的线性内插的方式来使用。
步骤418,将块子带角度控制参数内插到bin。
最好使用如下所述的线性内插,在整个频率上将每一信道的步骤417的块子带角度控制参数分配给bin。
关于步骤418的解释:
如果使用整个频率上的线性内插,那么步骤418将最大限度地减小整个子带边界处bin之间的相角变化,从而最大限度地减小混叠人为产物。例如,如下所述,在步骤422的描述之后,可以启动这种线性内插。子带角度相互独立地进行计算,每一子带角度表示整个子带上的平均值。因此,从一个子带到下一个子带可能会有大的变化。如果一个子带的净角度值应用于该子带中的所有bin(“矩形”子带分布),那么,两个bin之间会出现从一个子带到邻近子带的总相位变化。如果其中有强信号分量,那么可能会有剧烈的可能听得见的混叠。例如每一子带的中心点之间的线性内插扩散了子带中所有bin上的相角变化,从而最大限度地减小了任意一对bin之间的变化,这样,例如在子带的低端的角度与在低于它的子带的高端的角度紧密配合,同时保持总平均值与所给的计算子带角度相同。换言之,取代矩形子带分布,可以形成梯形的子带角度分布。
例如,假定最低耦合子带具有一个bin和20度的子带角度,那么下一子带有三个bin和40度的子带角度,而第三个子带有五个bin和100度的子带角度。无内插情况下,假定第一个bin(一个子带)被偏移20度的角度,那么接下来三个bin(另一个子带)被偏移40度的角度,而再接下来五个bin(又一个子带)被偏移100度的角度。该例子中,从bin4至bin5有60度的最大变化。有线性内插时,第一个bin仍被偏移20度的角度,接下来三个bin被偏移约30、40和50度;而再接下来五个bin被偏移约67、83、100、117和133度。平均子带角度偏移相同,但最大bin-bin变化被降至17度。
可选择地,子带之间的振幅变化连同本步骤以及这里所述的其他步骤(比如步骤417)也可以按类似的内插方式进行处理。不过,也可能没必要这样做,因为从一个子带到下一个子带其振幅往往有更自然的连续性。
步骤419,对信道的bin变换值应用相角转动
按下列方式对每一bin变换值应用相角转动:
a.设x=步骤418中所计算的这一bin的bin角度。
b.设y=-x;
c.计算z,即角度为y的单位幅度复相位转动比例因子,z=cos(y)+jsin(y)。
d.将bin值(a+jb)乘以z。
关于步骤419的解释:
应用于编码器的相角转动是从子带角度控制参数中得到的角度的负值。
如这里所述,在下混合(步骤420)之前在编码器或编码过程中的相角调整具有如下几个优点:(1)最大限度地减小了被合并成单声复合信号或矩阵化为多个信道的那些信道的抵消,(2)最大限度地减小了对能量归一化(步骤421)的依赖,和(3)对解码器反向角转动进行了预补偿,从而减小了混叠。
通过将每一子带中的每一变换bin值的角度减去该子带的相位修正值,在编码器中可以应用相位修正因子。这等价于将每一复bin值乘以一个幅度为1.0而角度等于负相位修正因子的复数。注意,幅度为1而角度为A的复数等于cos(A)+jsin(A)。利用A=子带的负相位修正,为每一信道的每一子带都计算一次这一后者量,然后乘以每一bin复信号值来获得相移的bin值。
相移是循环的,从而将导致循环回旋(如上所述)。尽管循环回旋可能对某些连续信号是良性的,然而,如果不同的相角用于不同的子带,那么它可能产生某些连续复信号(比如管乐定调)的寄生频谱分量或者可能造成瞬变的模糊。因此,可以采用能避免循环回旋的合适技术,或者可以使用瞬变标志,使得,例如当瞬变标志为“真”时,可以不考虑角度计算结果,而且信道中的所有子带都可以使用相位修正因子(比如0或随机值)。
步骤420,下混合。
通过将所有信道上的相应复变换bin相加产生单声复合信道的方式下混合到单声,或者通过形成输入信道的矩阵的方式下混合到多个信道(例如按下述图6中的例子的方式)。
关于步骤420的解释:
在编码器中,一旦所有信道的变换bin被相移,就逐个bin地合并信道,以形成单声复合音频信号。或者,将信道应用于无源或有源矩阵,这些矩阵可为一个信道提供简单合并(如图1中的N:1编码方式那样),或为多个信道提供简单合并。矩阵系数可以是实数也可以是复数(实部和虚部)。
步骤421,归一化。
为了避免孤立bin的抵消和同相信号的过分加强,按下列方式将单声复合信道的每一bin的振幅归一化,从而实际上具有与起作用能量的总和相同的能量:
a.设x=所有信道上bin能量的总和(步骤403中计算出的bin幅度的平方)。
b.设y=按照步骤403计算出的单声复合信道的相应bin的能量。
c.设z=比例因子=(x/y)的平方根。如果x=0,那么y=0,z设为1。
d.限定z的最大值(比如100)。如果z最初大于100(意味着下混合的强抵消),那么将一个任意值(比如0.01*(x)的平方根)与单声复合bin的实部和虚部相加,这将确保它足够大以便按下一步骤进行归一化。
e.将该复数单声复合bin值乘以z。
关于步骤421的解释:
尽管一般要求使用相同的相位因子来编码和解码,然而,即使是子带相位修正值的最佳选择也可能造成子带内的一个或多个听得见的频谱分量在编码下混合过程中抵消,因为步骤419的相移是基于子带而不是基于bin实现的。在这种情况下,可能使用编码器中孤立bin的不同相位因子,如果检测出这些bin的总能量比该频率上的单独信道bin的能量总和小得多的话。通常未必将这种孤立修正因子应用于解码器,因为孤立bin通常对总声像质量影响很小。如果使用多个信道而不是单声信道,那么可以应用类似的归一化。
步骤422,组装和打包到比特流。
每一信道的振幅比例因子、角度控制参数、解相关比例因子和瞬变标志侧链信息与公共单声复合音频或矩阵化多个信道一起根据需要被复用,并打包到一个或多个适用于存储、传送或者存储和传送媒介或媒体的比特流中。
关于步骤422的解释:
在打包之前,单声复合音频或多信道音频可以输入到数据率下降编码过程或设备(比如感觉编码器)或者输入到感觉编码器和熵编码器(比如算术或霍夫曼编码器)(有时也称之为“无损”编码器)。此外,如上所述,只对于高于某一频率(“耦合”频率)的音频,才可以从多个输入信道中得到单声复合音频(或多信道音频)和相关侧链信息。在这种情况下,多个输入信道中的每一个中的低于耦合频率的音频可以作为离散信道进行存储、传送或者存储和传送,或者可以按与这里所述不同的某种方式进行合并或处理。离散的或反过来合并的信道也可以输入到数据下降编码过程或设备(比如感觉编码器,或者感觉编码器和熵编码器)。打包之前,单声复合音频(或多信道音频)和离散多信道音频都可以输入到综合感觉编码或者感觉和熵编码过程或设备。
可选内插标志(图4中未示出)
在编码器中(步骤418)和/或在解码器中(下面的步骤505),可以启动子带角度控制参数所提供的基本相角偏移在整个频率上的内插。在解码器中,可用可选内插标志侧链参数来启动内插。在编码器中,既可以使用内插标志又可以使用类似于内插标志的启动标志。注意,由于编码器可以使用bin级的数据,因此它可以采用与解码器不同的内插值,即将子带角度控制参数内插到侧链信息中。
如果例如下列两个条件中的任一条件成立,那么可以在编码器或解码器中启动在整个频率上使用这种内插:
条件1:如果强度大的孤立谱峰位于两个其相位转动角度配置明显不同的子带的边界或其附近。
原因:无内插情况下,边界处的大相位变化可能在孤立频谱分量中引起颤音。通过利用内插扩散频带内所有bin值的带间相位变化,可以减小子带边界处的变化量。满足这一条件的谱峰强度、边界接近程度和子带间相位转动的差的阈值可以根据经验来调整。
条件2:如果取决于有无瞬变,信道间相角(无瞬变)或信道内的绝对相角(有瞬变)都能很好地适应线性级数。
原因:利用内插重建数据往往可以很好地适应原始数据。注意,线性级数的斜度未必在所有频率上都不变而只在每一子带内不变,这是因为角度数据仍将按子带传送到解码器;并形成到内插步骤418的输入。为满足这一条件,该数据所要很好地适应的度数也可以根据经验来调整。
其他条件(比如根据经验确定的那些条件)也可能得益于整个速率上的内插。刚刚提到的这两个条件的存在性可以判断如下:
条件1:如果强度大的孤立谱峰位于两个其相位转动角度配置明显不同的子带的边界或其附近:
对于解码器所要使用的内插标志,可用子带角度控制参数(步骤414的输出)来确定子带间的转动角度;而对于编码器内步骤418的启动,可用量化前步骤413的输出来确定子带间的转动角度。
无论对于内插标志还是对于编码器内的启动,都可以用步骤403的幅度输出即当前DFT幅度来找出子带边界处的孤立峰值。
条件2:如果取决于有无瞬变,信道间相角(无瞬变)或信道内的绝对相角(有瞬变)都能很好地适应线性级数:
如果瞬变标志不是“真”(无瞬变),那么利用步骤406的信道间相对bin相角来适应线性级数确定,和
如果瞬变标志为“真”(有瞬变),那么利用步骤403的信道的绝对相角。
解码
解码过程的步骤(“解码步骤”)如下所述。关于解码步骤,可以参见图5,图5具有混合流程图和功能框图的性质。为简便起见,该图示出了一个信道的侧链信息分量的得出过程,应当理解,必须得出每个信道的侧链信息分量,除非该信道是这些分量的参考信道,正如其他地方所述。
步骤501,将侧链信息拆分和解码。
根据需要,将每一信道(图5中所示的一个信道)的每一帧的侧链数据分量(振幅比例因子、角度控制参数、解相关比例因子和瞬变标志)拆分和解码(包括去量化)。可以利用查寻表将振幅比例因子、角度控制参数和解相关比例因子解码。
关于步骤501的解释:如上所述,如果使用参考信道,那么参考信道的侧链数据可以不含角度控制参数、解相关比例因子和瞬变标志。
步骤502,将单声复合或多信道音频信号拆分和解码。
根据需要,将单声复合或多信道音频信号信息拆分和解码,以提供单声复合或多信道音频信号的每一变换bin的DFT系数。
关于步骤502的解释:
步骤501和步骤502可以认为是信号拆分和解码步骤的一部分。步骤502可以包括无源或有源矩阵。
步骤503,在所有块上分配角度参数值。
从去量化的帧子带角度控制参数值中得到块子带角度控制参数值。
关于步骤503的解释:
步骤503可以通过将相同的参数值分配给帧中的每一块来实现。
步骤504,在所有块上分配子带解相关比例因子。
从去量化的帧子带解相关比例因子值中得到块子带解相关比例因子值。
关于步骤504的解释:
步骤504可以通过将相同的比例因子值分配给帧中的每一块来实现。
步骤505,在整个频率上进行线性内插。
可选择地,根据以上结合编码器步骤418所述的在整个频率上进行线性内插,从解码器步骤503的块子带角度中得出bin角度。在内插标志被使用且为“真”时,可以启动步骤505中的线性内插。
步骤506,加上随机相角偏移(技术3)。
根据如上所述的技术3,当瞬变标志指示瞬变时,将步骤503所提供的块子带角度控制参数(在步骤505中可能已在整个频率上线性内插)加上解相关比例因子所定标的随机偏移值(如该步骤中所述,定标可以是间接的):
a.设y=块子带解相关比例因子。
b.设z=yexp,其中exp是一个常数,比如=5。z也在0-1范围内,但偏向于1,反映了偏向于低级随机变动,除非解相关比例因子值高。
c.设x=+1.0和1.0之间的随机数,可分别为每个块的每一子带进行选择。
d.于是,被加到块子带角度控制参数中(以便根据技术3加上一个随机角度偏移值)的值为x*pi*z。
关于步骤506的解释:
正如普通技术人员所知,解相关比例因子用于定标的“随机”角度(或“随机”振幅,如果还对振幅进行定标的话)不仅可以包括伪随机和真随机变动,而且可以包括确定性产生的变动(当被应用于相角或者应用于相角和振幅时,具有减小信道之间的互相关的作用)。例如,可以使用具有不同种子值的伪随机数发生器。或者,可以利用硬件随机数发生器来产生真随机数。由于仅1度左右的随机角度分辨率就足够,因此,可以使用具有两个或三个小数位的随机数(比如0.84或0.844)的表。最好,随机值(在-1.0和1.0之间,参见以上步骤505c)在每个信道上其统计是均匀分布的。
尽管已看出步骤506的非线性间接定标是有用的,但这种定标并不是关键性的,其他合适的定标也可以采用,尤其可以使用其他指数值来得到类似的结果。
当子带解相关比例因子值为1时,加上随机角度的整个范围-π至+π(在这种情况下,可使步骤503所产生的块子带角度控制参数值不相关)。随着子带解相关比例因子值降至0,随机角度偏移也降至0,从而使步骤506的输出趋向于步骤503所产生的子带角度控制参数值。
如果需要,上述编码器还可以将根据技术3的所定标随机偏移与下混合前应用于信道的角度偏移相加。这样可以改善解码器中的混叠抵消。它还有利于提高编码器和解码器的同步性。
步骤507,加上随机相角偏移(技术2)。
根据如上所述的技术2,当瞬变标志没有指示瞬变时(针对每个bin),将步骤503所提供的帧中的所有块子带角度控制参数(仅当瞬变标志指示瞬变时,步骤505才操作)加上解相关比例因子所定标的不同随机偏移值(如该步骤中所述,定标可以是直接的):
a.设y=块子带解相关比例因子。
b.设x=+1.0和-1.0之间的随机数,可分别为每一帧的每一bin进行选择。
c.于是,被加到块bin角度控制参数中(以便根据技术3加上一个随机角度偏移值)的值为x*pi*y。
关于步骤507的解释:
关于随机角度偏移,参见以上关于步骤505的解释。
尽管已看出步骤507的直接定标是有用的,但这种定标并不是关键性的,其他合适的定标也可以采用。
为了最大限度地减少时间不连续性,每一信道的每一bin的唯一随机角度值最好不随时间变化。子带中的所有bin的随机角度值利用按帧速率更新的相同的子带解相关比例因子值进行定标。因此,当子带解相关比例因子值为1时,加上随机角度的整个范围-π至+π(在这种情况下,可使从去量化的帧子带角度值得出的块子带角度值不相关)。随着子带解相关比例因子值降至0,随机角度偏移也降至0。与步骤504不同,步骤507中的定标可以是子带解相关比例因子值的直接函数。例如,子带解相关比例因子值0.5将每个随机角度变动成比例地减少0.5。
然后可以将所定标的随机角度值与来自解码器步骤506的bin角度相加。解相关比例因子值每帧更新一次。针对帧有瞬变标志时,将跳过这一步骤,以免瞬变的预噪声人为产物。
如果需要,上述编码器还可以将根据技术2的所定标随机偏移与下混合前所应用的角度偏移相加。这样可以改善解码器中的混叠抵消。它还有利于提高编码器和解码器的同步性。
步骤508,将振幅比例因子归一化。
将所有信道上的振幅比例因子归一化,使得它们的平方和为1。
关于步骤508的解释:
例如,如果两个信道具有去量化比例因子-3.0dB(=2*1.5dB的粒度)(.70795),那么平方和为1.002。每个都除以1.002的平方根=1.001得到两个值.7072(-3.01dB)。
步骤509,提高子带比例因子值(可选项)。
可选择地,当瞬变标志指示没有瞬变时,根据子带解相关比例因子值,略微提高子带解相关比例因子值:将每一归一化子带振幅比例因子乘以一个小因子(比如,1+0.2*子带解相关比例因子)。当瞬变为“真”时,将跳过这一步骤。
关于步骤509的解释:
该步骤可能是有用的,因为解码器解相关步骤507可能导致最终反向滤波器组过程中略微降低的电平。
步骤510,在所有bin上分配子带振幅值。
步骤510可以通过将相同的子带振幅比例因子值分配给子带中的每一bin来实现。
步骤510a,加上随机振幅偏移(可选项)。
可选择地,根据子带解相关比例因子值和瞬变标志,将随机变动应用于归一化子带振幅比例因子。在没有瞬变时,可以逐个bin地(随bin不同而不同)加上不随时间变化的随机振幅变动,而在(帧或块中)有瞬变时,可以加上逐块变化的(随块不同而不同)和随子带变化的(子带中所有bin具有相同变动;随子带不同而不同)随机振幅比例因子。步骤510a在图中未示出。
关于步骤510a的解释:
尽管要加的随机振幅变动度可以由解相关比例因子来控制,然而,应当知道,特定比例因子值可带来比从相同比例因子值得到的相应随机相移更小的振幅变动,从而避免听得见的人为产物。
步骤511,上混合。
a.对于每一输出信道的每一bin,根据解码器步骤508的振幅和解码器步骤507的bin角度构建一个复数上混合比例因子:(振幅*(cos(角度)+jsin(角度))。
b.对于每一输出信道,将复bin值和复数上混合比例因子相乘,以产生该信道的每一bin的上混合复输出bin值。
步骤512,执行逆DFT变换(可选项)。
可选择地,对每一输出信道的bin进行逆DFT变换以产生多信道输出PCM值。众所周知,结合这种逆DFT变换,对时间样值的单独块开窗,将邻近块交叠并相加在一起,以便重建最终连续时间输出PCM音频信号。
关于步骤512的解释:
根据本发明的解码器可能不提供PCM输出。如果只在给定耦合频率以上使用解码器过程而为该频率以下的每一信道传送离散MDCT系数,那么最好将解码器上混合步骤511a和511b所得到的DFT系数转换成MDCT系数,这样它们可以与较低频率的离散MDCT系数合并后再重新量化,以便例如提供与具有大量安装用户的编码系统兼容的比特流,比如适用于可进行逆变换的外部设备的标准AC-3SP/DIF比特流。逆DFT变换可以应用于输出信道中的某些信道以提供PCM输出。
A/52A文献中的附加有灵敏度因子“F”的第8.2.2节
8.2.2瞬变检测
为了判断何时切换到长度短的音频块来改善预混响性能,可以在全带宽信道中进行瞬变检测。检查信号的高通滤波形式,查看能量从一个子块时间段到下一个子块时间段是否增加。以不同的时标检查子块。如果在信道中的音频块的后半部分中检测到瞬变,那么该信道切换到短块。进行了块切换的信道使用D45指数策略[即数据具有较粗的频率分辨率,以便减小因时间分辨率提高所带来的数据开销]。
瞬变检测器用于判断何时从长变换块(长度512)切换到短块(长度256)。对于每个音频块,对512个样值进行操作。这按两遍进行处理,每遍处理256个样值。瞬变检测分成四个步骤:1)高通滤波,2)将块分割成若干段,3)每个子块段内的峰值振幅检测,和4)阈值比较。瞬变检测器输出每一全带宽信道的标志blksw[n],当它被置为“1”时,表示相应信道的512长度输入块的后半部分中有瞬变。
1)高通滤波:高通滤波器实现成一个截止频率为8kHz的级联双二次直接II型IIR滤波器。
2)块分割:有256个高通滤波样值的块被分割成分级树,其中级1代表256长度的块,级2是长度为128的两个段,而级3是长度为64的四个段。
3)峰值检测:在分级树的每一级上,识别每段的最高幅度的样值。按如下方式得出单个级的峰值:
P[j][k]=max(x(n))
对于n=(512×(k-1)/2^j),(512×(k-1)/2^j)+1,...(512×k/2^j)-1
以及k=1,...,2^(j-1);
其中:x(n)=256长度块中的第n个样值
j=1,2,3是分级号
k=级j中的段号
注意,P[j][0](即k=0)被定义为当前树之前刚计算的树的级j上的最后段的峰值。例如,前一树中的P[3][4]是当前树中的P[3][0]。
4)阈值比较:阈值比较器的第一阶段检查当前块中是否有很大的信号电平。这通过将当前块的总峰值P[1][1]与“静阈值”进行比较来完成。如果P[1][1]低于该阈值,那么强加长块。静阈值为100/32768。比较器的下一阶段检查分级树的每一级上邻近段的相对峰值。如果特定级上任意两个邻近段的峰值比率超出该级的预定阈值,那么使标志指示当前256长度块中有瞬变。这些比率按下列方式比较:
mag(P[j][k]×T[j]>(F*mag(P[j][k-1]))
[注意,“F”为灵敏度因子]
其中:T[j]是级j的预定阈值,定义为:
T[1]=.1
T[2]=.075
T[3]=.05
如果这一不等式对于任意级上的任意两个段峰值都成立,那么指示512长度的输入块的前半部分有瞬变。这一过程的第二遍将确定512长度的输入块的后半部分有无瞬变。
N:M编码
本发明的方面并不局限于如上结合图1所述的N:1编码。更一般来说,本发明的方面可适用于按图6中的方式从任意多个输入信道(n个输入信道)到任意多个输出信道(m个输出信道)的变换(即N:M编码)。由于在许多普通应用中输入信道数n大于输出信道数m,因此,为了便于描述,将图6中的N:M编码配置称为“下混合”。
参照图6的细节,不是象图1的配置中那样在加性合并器6中将转动角度8和转动角度10的输出合并,而可以将这些输出输入到下混合矩阵设备或功能6’(“下混合矩阵”)。下混合矩阵6’可以是无源或有源矩阵,既可以象图1中的N:1编码那样简单合并为一个信道,又可以合并为多个信道。这些矩阵系数可以是实数或复数(实部和虚部)。图6中的其他设备和功能可以与图1的配置中的情况一样,并且它们标有相同的标号。
下混合矩阵6’可以提供与频率相关的混合功能,这样它可以提供例如频率范围为f1-f2的mf1-f2个信道和频率范围为f2-f3的mf2-f3个信道。例如,在耦合频率(如1000Hz)以下,下混合矩阵6’可以提供两个信道,而在耦合频率以上,下混合矩阵6’可以提供一个信道。通过使用耦合频率以下的两个信道,可以获得更好的空间保真度,尤其如果这两个信道代表水平方向(从而符合人耳听觉的水平性)。
尽管图6示出了象图1配置中那样为每个信道产生相同的侧链信息,然而,当下混合矩阵6’的输出提供一个以上的信道时,可以省略侧链信息中的一些信息。在某些情况下,当图6的配置只提供振幅比例因子侧链信息时,才能获得可接受的结果。关于侧链可选项的进一步细节如以下结合图7、8和9的描述所讨论。
如上刚刚所述,下混合矩阵6’所产生的多个信道不一定少于输入信道数n。当比如图6中的编码器的目的是要减少传送或存储的比特数时,下混合矩阵6’所产生的信道数很有可能将少于输入信道数n。然而,图6中的配置还可以用作“上混合”。在这种情况下,其应用将是下混合矩阵6’所产生的信道数多于输入信道数n。
结合图2、5和6的例子所述的编码器还可以包括其自身的本地解码器或解码功能,以便当被这种解码器解码时判断音频信息和侧链信息是否能提供合适的结果。这种判断的结果可以通过利用例如递归过程来改善参数。在块编码和解码系统中,例如可以在下一块结束之前对每个块都进行递归计算,以便在传送音频信息块及其相关空间参数时最大限度地减小延时。
当只对某些块不存储或传送空间参数时,也可以很好地使用其中编码器还包括其自身的本地解码器或解码功能的配置。如果不传送空间参数侧链信息导致了不合适的解码,那么将为该特定块传送这种侧链信息。这种情况下,该解码器可以是图2、5和6的解码器或解码功能的修正,因为,该解码器不仅要能从输入比特流中恢复出耦合频率以上的频率的空间参数侧链信息,而且要能根据耦合频率以下的立体声信息形成模拟的空间参数侧链信息。
作为这些具有本地解码器的编码器例子的一种简单替换方式,编码器可以不用具有本地解码器或解码功能,而只判断是否有耦合频率以下的任意信号内容(以任意合适的方式来判断,比如利用整个频率范围内的频率bin中的能量的总和来判断),如果没有,那么,如果能量大于阈值则传送或存储空间参数侧链信息。根据这种编码方案,低于耦合频率的低信号信息还可能导致更多用于传送侧链信息的比特。
M:N解码
图2中的配置的更一般形式如图7中所示,其中,上混合矩阵功能或设备(“上混合矩阵”)20接收图6中的配置所产生的1至m个信道。上混合矩阵20可以是无源矩阵。它可以是(但不一定是)图6配置中的下混合矩阵6’的共轭变换(即互补)。此外,上混合矩阵20还可以是有源矩阵,即可变矩阵或结合有可变矩阵的无源矩阵。如果使用有源矩阵解码器,那么,在其松驰或静态状态下,它可以是下混合矩阵的复共轭,或者它可以与下混合矩阵无关。可以如图7中所示那样应用侧链信息,以便控制调整振幅、转动角度和(可选)内插器功能或设备。在这种情况下,上混合矩阵(如果是有源矩阵的话)其操作可以与侧链信息无关,而只对输入到它的信道作出响应。此外,某些或所有侧链信息也可以输入到有源矩阵以协助其操作。在这种情况下,可以省略调整振幅、转动角度和内插器功能或设备中的某些或所有功能或设备。图7中的解码器例子在某些信号条件下还可以采用如以上结合图2和5所示的应用随机振幅变动度的变通办法。
当上混合矩阵20是有源矩阵时,图7中的配置可表征为用于在“混合矩阵编码器/解码器系统”中操作的“混合矩阵解码器”。这里的“混合”表示:解码器可以从其输入音频信号中得到控制信息的某些度量(即有源矩阵对输入到它的信道中所编码的空间信息作出响应),还从空间参数侧链信息中得到控制信息的某些度量。图7中的其他要素与图2配置中的情况一样,并且标有相同的标号。
混合矩阵解码器中所用的合适有源矩阵解码器可以包括诸如以上所述的作为参考的有源矩阵解码器,比如包括称为“Pro Logic”和“Pro Logic II”解码器的矩阵解码器(“Pro Logic”是DolbyLaboratories Licensing Corporation的商标)。
可选解相关
图8和9表示图7中的通用解码器的变型。具体地说,无论图8中的配置还是图9中的配置都示出了图2和7的解相关技术的变通办法。图8中,各个解相关器功能或设备(“解相关器”)46和48都在时域中,每一个都在其信道中的各自反向滤波器组30和36之后。在图9中,各个解相关器功能或设备(“解相关器”)50和52都在频域中,每一个都在其信道中的各自反向滤波器组30和36之前。无论在图8还是在图9的配置中,每个解相关器(46、48、50、52)都有其独特特征,因此,它们的输出相互之间被解相关。解相关比例因子可以用于控制例如每个信道所提供的解相关与相关信号之间的比率。可选择地,瞬变标志还可以用于变换解相关器的操作模式,如下所述。无论在图8还是在图9的配置中,每个解相关器都可以是具有其独特滤波特征的Schroeder型混响器,其中混响量或度由解相关比例因子来控制(例如,通过控制解相关器的输出在解相关器的输入和输出的线性组合中所占的比例来实现)。此外,其他一些可控解相关技术既可以单独使用,又可以相互结合起来使用,又可以与Schroeder型混响器一起使用。Schroeder型混响器是众所周知的,可以溯源到两篇期刊论文:M.R.Schroeder和B.F.Logan,“‘Colorless’Artificial Reverberation”,IRE Transactions onAudio,vol.AU-9,pp.209-214,1961;和M.R.Schroeder,“NaturalSounding Artificial Reverberation”,Journal A.E.S.,July 1962,vol.10,no.2,pp.219-223。
当解相关器46和48在时域中操作时,如图8配置中所示那样,需要单一(即宽带)解相关比例因子。这可以利用若干种方法中的任一种方法获得。例如,在图1或图7的编码器中可以只产生单一解相关比例因子。或者,如果图1或图7的编码器按子带产生解相关比例因子,那么,这些子带解相关比例因子可以是图1或图7的编码器中或图8的解码器中所求得的振幅和或功率和。
当解相关器50和52在频域中操作时,如图9配置中所示那样,它们可以接收每一子带或成组子带的解相关比例因子,并附带提供这些子带或成组子带的相应的解相关度。
图8中的解相关器46和48以及图9中的解相关器50和52可以可选地接收瞬变标志。在图8的时域解相关器中,可以利用瞬变标志来变换各个解相关器的操作模式。例如,没有瞬变标志时,解相关器可以作为Schroeder型混响器来操作,而当接收到瞬变标志且其后续时间段短(比方说1-10毫秒)时,可以作为固定延时来操作。每一信道都可以有一个预定的固定延时,或者延时可以随短时间段内的多个瞬变而变。在图9的频域解相关器中,也可以利用瞬变标志来变换各个解相关器的操作模式。不过,在这种情况下,瞬变标志的接收可以例如启动出现标志的信道中的振幅的短暂(几毫秒)提高。
无论在图8还是在图9的配置中,可选瞬变标志所控制的内插器27(33)可以按上述方式提供转动角度28(33)的相角输出在整个频率上的内插。
如上所述,当两个或多个信道与侧链信息一起被发送时,减少侧链参数个数是可以接受的。例如,可以接受只传送振幅比例因子,这样,可以省略解码器中的解相关和角度设备或功能(在这种情况下,图7、8和9简化为相同的配置)。
或者,可以只传送振幅比例因子、解相关比例因子和可选的瞬变标志。在这种情况下,可以采用图7、8或9配置中的任一配置(在每一个图中都省略了转动角度28和34)。
作为另一种选择,可以只传送振幅比例因子和角度控制参数。在这种情况下,可以采用图7、8或9配置中的任一配置(省略了图7中的解相关器38和42以及图8和9中的46、48、50、52)。
正如图1和2中那样,图6-9的配置旨在说明任意多个输入和输出信道,尽管为了便于说明只示出了两个信道。
应当理解,熟练技术人员容易想到本发明及其各个方面的其他变化和修改方式的实现,并且本发明并不局限于所述的这些具体的实施方式。因此,本发明是想要覆盖这里所述的基本原理的实际思想和范围内的全部修改方式、变更方式或等价方式。

Claims (12)

1.一种对M个编码音频信道和一组的一个或多个空间参数进行解码的方法,该M个编码音频信道表示N个音频信道,其中N大于等于2,该方法包括以下步骤:
a)接收该M个编码音频信道和该组空间参数;
b)从所述M个编码音频信道中得到N个音频信号,其中,每个音频信号被划分为多个频带,其中,每个频带包括一个或多个频谱分量;以及
c)根据所述N个音频信号和所述空间参数产生多信道输出信号,由此M大于等于2,该N个音频信号中的至少一个是从所述M个编码音频信道中的至少两个的加权组合中得到的相关信号,该组空间参数包括指示要与相关信号混合的不相关信号的量的第一参数,以及步骤c)包括:从所述至少一个相关信号中得到至少一个不相关信号;以及响应于所述空间参数中的一个或多个,控制所述多信道输出信号的至少一个信道中所述至少一个相关信号与所述至少一个不相关信号的比例,其中,所述控制是至少部分根据所述第一参数的。
2.如权利要求1所述的方法,其中,步骤c)包括:通过对所述至少一个相关信号应用一个人工混响滤波器,得到所述至少一个不相关信号。
3.如权利要求1所述的方法,其中,步骤c)包括:通过对所述至少一个相关信号应用多个人工混响滤波器,得到所述至少一个不相关信号。
4.如权利要求3所述的方法,其中,所述多个人工混响滤波器中的每一个都具有独特的滤波特征。
5.如权利要求1所述的方法,其中,步骤c)中的所述控制包括:至少部分根据所述第一参数,得到对于所述多个频带中的每一个的所述至少一个相关信号与所述至少一个不相关信号的各个比例。
6.如权利要求1所述的方法,其中,通过一种包括对所述M个编码音频信道进行解矩阵化的过程,从所述M个编码音频信道中得到所述N个音频信号。
7.如权利要求6所述的方法,其中,所述解矩阵化至少部分地响应于所述空间参数中的一个或多个而操作。
8.如权利要求1-7中任一项所述的方法,还包括:响应于所述空间参数中的一个或多个,变动所述N个音频信号中的至少一个中的频谱分量的幅度。
9.如权利要求1-8中任一项所述的方法,其中,所述多信道输出信号在时域中。
10.如权利要求1-8中任一项所述的方法,其中,所述多信道输出信号在频域中。
11.如权利要求1-10中任一项所述的方法,其中,N大于等于3。
12.一种设备,包括适合于执行权利要求1-11中任一项所述的方法的各个步骤的装置。
CN200910138855XA 2004-03-01 2005-02-28 用于对编码音频信道和空间参数进行解码的方法和设备 Active CN101552007B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US54936804P 2004-03-01 2004-03-01
US60/549,368 2004-03-01
US57997404P 2004-06-14 2004-06-14
US60/579,974 2004-06-14
US58825604P 2004-07-14 2004-07-14
US60/588,256 2004-07-14

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2005800067833A Division CN1926607B (zh) 2004-03-01 2005-02-28 多信道音频编码

Publications (2)

Publication Number Publication Date
CN101552007A true CN101552007A (zh) 2009-10-07
CN101552007B CN101552007B (zh) 2013-06-05

Family

ID=37818223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910138855XA Active CN101552007B (zh) 2004-03-01 2005-02-28 用于对编码音频信道和空间参数进行解码的方法和设备

Country Status (2)

Country Link
CN (1) CN101552007B (zh)
CA (1) CA2808226C (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102986254A (zh) * 2010-07-12 2013-03-20 华为技术有限公司 音频信号产生装置
CN103443854A (zh) * 2011-04-08 2013-12-11 杜比实验室特许公司 用于混合来自两个编码位流的音频节目的元数据的自动配置
CN105659319A (zh) * 2013-09-27 2016-06-08 杜比实验室特许公司 使用被插值矩阵的多通道音频的渲染
CN109712630A (zh) * 2013-05-24 2019-05-03 杜比国际公司 包括音频对象的音频场景的高效编码
CN110114826A (zh) * 2016-11-08 2019-08-09 弗劳恩霍夫应用研究促进协会 使用相位补偿对多声道信号进行下混合或上混合的装置和方法
CN110648674A (zh) * 2013-09-12 2020-01-03 杜比国际公司 多声道音频内容的编码
CN112037803A (zh) * 2020-05-08 2020-12-04 珠海市杰理科技股份有限公司 音频编码方法及装置、电子设备、存储介质
CN112820304A (zh) * 2014-05-01 2021-05-18 日本电信电话株式会社 解码装置、解码方法、解码程序、记录介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885329B (zh) * 2021-02-02 2023-10-31 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质
CN115691514A (zh) * 2021-07-29 2023-02-03 华为技术有限公司 一种多声道信号的编解码方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991020164A1 (en) * 1990-06-15 1991-12-26 Auris Corp. Method for eliminating the precedence effect in stereophonic sound systems and recording made with said method
CN1705980A (zh) * 2002-02-18 2005-12-07 皇家飞利浦电子股份有限公司 参数音频编码
WO2003090208A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102986254B (zh) * 2010-07-12 2015-06-17 华为技术有限公司 音频信号产生装置
CN102986254A (zh) * 2010-07-12 2013-03-20 华为技术有限公司 音频信号产生装置
CN103443854A (zh) * 2011-04-08 2013-12-11 杜比实验室特许公司 用于混合来自两个编码位流的音频节目的元数据的自动配置
US9171549B2 (en) 2011-04-08 2015-10-27 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams
CN103443854B (zh) * 2011-04-08 2016-06-08 杜比实验室特许公司 用于混合来自两个编码位流的音频节目的元数据的自动配置
CN109712630B (zh) * 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
CN109712630A (zh) * 2013-05-24 2019-05-03 杜比国际公司 包括音频对象的音频场景的高效编码
US11705139B2 (en) 2013-05-24 2023-07-18 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN110648674B (zh) * 2013-09-12 2023-09-22 杜比国际公司 多声道音频内容的编码
CN110648674A (zh) * 2013-09-12 2020-01-03 杜比国际公司 多声道音频内容的编码
CN105659319A (zh) * 2013-09-27 2016-06-08 杜比实验室特许公司 使用被插值矩阵的多通道音频的渲染
CN105659319B (zh) * 2013-09-27 2020-01-03 杜比实验室特许公司 使用被插值矩阵的多通道音频的渲染
CN112820304A (zh) * 2014-05-01 2021-05-18 日本电信电话株式会社 解码装置、解码方法、解码程序、记录介质
CN110114826B (zh) * 2016-11-08 2023-09-05 弗劳恩霍夫应用研究促进协会 使用相位补偿对多声道信号进行下混合或上混合的装置和方法
CN110114826A (zh) * 2016-11-08 2019-08-09 弗劳恩霍夫应用研究促进协会 使用相位补偿对多声道信号进行下混合或上混合的装置和方法
US12100402B2 (en) 2016-11-08 2024-09-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation
CN112037803A (zh) * 2020-05-08 2020-12-04 珠海市杰理科技股份有限公司 音频编码方法及装置、电子设备、存储介质
CN112037803B (zh) * 2020-05-08 2023-09-29 珠海市杰理科技股份有限公司 音频编码方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CA2808226A1 (en) 2005-09-15
CN101552007B (zh) 2013-06-05
CA2808226C (en) 2016-07-19

Similar Documents

Publication Publication Date Title
CN1926607B (zh) 多信道音频编码
CN101552007B (zh) 用于对编码音频信道和空间参数进行解码的方法和设备
KR100913987B1 (ko) 다중-채널 출력 신호를 발생시키기 위한 다중-채널합성장치 및 방법
CN103400583B (zh) 多声道下混对象编码的增强编码和参数表示
KR100803344B1 (ko) 멀티채널 출력 신호를 구성하고 다운믹스 신호를 생성하기위한 장치 및 방법
Faller et al. Binaural cue coding-Part II: Schemes and applications
RU2414095C2 (ru) Усовершенствование звукового сигнала возможностью повторного микширования
KR101016982B1 (ko) 디코딩 장치
CN101014999B (zh) 产生多通道信号或参数数据集的设备和方法
US8817992B2 (en) Multichannel audio coder and decoder
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
RU2555221C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
RU2409912C2 (ru) Декодирование бинауральных аудиосигналов
KR20050095896A (ko) 오디오 코딩
EP2038878A1 (en) Apparatus and method for combining multiple parametrically coded audio sources
NO338934B1 (no) Generering av kontrollsignal for flerkanals frekvensgeneratorer og flerkanals frekvensgenerering.
KR20050107812A (ko) 다중-채널 신호들의 처리

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant