CN103620677A

CN103620677A - 音频信号帧中事件时隙位置的编码与译码技术

Info

Publication number: CN103620677A
Application number: CN201280013909.XA
Authority: CN
Inventors: 阿希姆·昆茨; 萨沙·迪施; 汤姆·贝克斯特伦
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2011-01-18
Filing date: 2012-01-17
Publication date: 2014-03-05
Anticipated expiration: 2032-01-17
Also published as: KR20130133833A; SG191988A1; US20130304480A1; AR084873A1; CN103620677B; BR112013018362B1; EP2477188A1; EP2666161A1; AU2012208673B2; MY155887A; RU2013138354A; US9502040B2; JP2014508316A; TW201248619A; JP5818913B2; AU2012208673A1; WO2012098098A1; MX2013008364A; TWI485699B; CA2824935C

Abstract

对音频信号帧中包含事件的时隙位置的译码装置（10、40、60、410）、编码装置（510）、译码方法、及编码方法及相应的计算机程序及编码信号，其中，所述译码装置（10、40、60、410）包括：分析单元（20、42、70、420），用以分析指示该音频信号帧中的时隙总数的帧时隙数，指示该音频信号帧的包含事件的时隙数的事件时隙数，及事件状态数；以及生成单元（30、45、80、430），用于使用该帧时隙数、事件时隙数、及事件状态数来生成对在该音频信号帧中包含事件的多个时隙位置的指示。

Description

音频信号帧中事件时隙位置的编码与译码技术

技术领域

本发明涉及音频处理及音频编码领域，特别是涉及音频信号帧中事件时隙（slot）位置的编码与译码技术。

背景技术

音频处理及音频编码以各个领域均发展迅猛。特别是，空间音频应用已变得愈来愈重要。音频信号处理常用来去相关或渲染（render）信号。此外，信号的去相关及渲染用在单声道至立体声上混（upmix）、单声道/立体声至多声道上混、人工混响、立体声加宽或使用者交互式混合/渲染的处理程序中。

若干音频信号处理系统采用去相关器。一个重要实例为在参数性空间音频译码器中应用去相关信号来恢复从一或多个下混（downmix）信号重构的两个以上信号间的特定去相关性质。去相关器的应用显著地改进输出信号的知觉质量，例如当与立体声强度比较时。更明确言之，使用去相关器实现以宽广声音映像、若干并行声音对象及/或环境气氛来适当合成空间声音。但众所周知，去相关器也会导入假影，例如时间信号结构、音质等的改变。

去相关器在音频处理的其它应用实例有例如产生人造混响来改变空间效果，或在多声道回声消除系统使用去相关器来改良混响表现。

一种重要的空间音频编码方案为参数立体声（PS）。图1例示说明单声道至立体声译码器结构。单个去相关器从单声道输入信号M（“干燥（dry）”信号）产生去相关器信号D（“湿（wet）”信号）。去相关信号D然后连同信号M馈入混合器。然后，混合器对输入信号M及D应用混合矩阵H来产生输出信号L及R。混合矩阵H中的系数可以是固定的、信号依赖的、或由使用者所控制的。

可选地，混合矩阵由侧边信息控制，侧边信息连同下混传输并含有有关参数描述，该参数描述如何上混该下混的信号来形成期望的多声道输出。空间侧边信息通常在根据信号编码器的单声道下混处理期间产生。

如前述空间音频编码广泛应用于例如参数立体声。参数立体声译码器的典型结构显示于图2。在图2中，去相关在变换域执行。空间参数可由使用者或额外工具修改，例如双耳渲染/呈现的后处理。在此种情况下，上混参数与得自双耳滤波器的参数被组合来计算混合矩阵的输入参数。

混合矩阵H的输出L/R从单声道输入信号M及去相关信号D计算。

[\begin{matrix} L \\ R \end{matrix}] = [\begin{matrix} h_{11} & h_{12} \\ h_{21} & h_{22} \end{matrix}] [\begin{matrix} M \\ D \end{matrix}]

在混合矩阵中，馈送至输出的去相关声音量基于传输参数控制，例如声道间水平差（ILD）、声道间相关性/相干性（ICC）和/或固定式或使用者规定的设定值。

在构思上，去相关器输出D的输出信号置换残差信号，理想上允许原始L/R信号的完好译码。在该上混器中利用去相关器输出D替代残差信号，结果导致比特率的节省，否则将要求传输残差信号。由此，去相关器的目标是从单声道信号M产生信号D，其具有与由D所取代的残差信号相似的性质。参考文献：

[1]J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,“High-Quality Parametric Spatial Audio Coding at Low Bitrates”inProceedings of the AES116^th Convention,Berlin,Preprint6072,May2004.

考虑MPEG环绕（MPS），类似PS的定名为一到二盒（OTT盒）的结构被采用于空间音频译码树。这可视为将单声道至立体声上混的概念推广至多声道空间音频编码/译码方案。在MPS中，也存在有二到三上混系统（TTT盒），取决于TTT操作模式可应用去相关器。细节被描述于文献：

[2]J.Herre,K.J.Breebaart,et al.,“MPEG surround-theISO/MPEG standard for efficient and compatible multi-channel audio coding,”in Proceedings of the122^th AES Convention,Vienna,Austria,May2007.

至于方向性音频编码（DirAC），DirAC涉及参数声场编码方案，不限于有固定扬声器位置的固定音频输出声道数目。DirAC在DirAC渲染器中，即在空间音频译码器中应用去相关器来合成声场的非相干分量。方向性音频编码又更描述于：

[3]Pulkki,Ville:“Spatial Sound Reproduction with Directional AudioCoding”,in J.Audio Eng.Soc.,Vol.55,No.6,2007

有关高阶去相关器可参考文件：

[4]ISO/IEC International Standard“Information Technology–MPEGaudio technologies–Part1:MPEG Surround”,ISO/IEC23003-1:2007.

[5]J.Engdegard,H.Purnhagen,J.

L.Liljeryd,“SyntheticAmbience in Parametric Stereo Coding”in Proceedings of the AES116^thConvention,Preprint,May2004.

IIR晶格全通结构被用作空间音频译码器（类似MPS[2,4]）作为去相关器。其它现有去相关器应用（潜在频率依赖性）延迟来去相关信号或将输入信号与例如指数衰减噪声脉冲进行卷积。有关现有去相关器用于空间音频上混系统的综论，参考文献[5]：“于参数立体声编码的合成环境”。

一般而言，在参数空间音频编码器中编码/译码的立体声或多声道鼓掌式信号已知会导致信号质量减低。鼓掌式信号的特征在于含有来自不同方向的相当紧密的瞬态的混合。这样的信号的实例为鼓掌、雨声、马匹奔驰等。鼓掌式信号常也含有来自远方声源的声音分量，在知觉上融合入噪声式的平滑背景声场。

采用于类似MPEG环绕的空间音频译码器的晶格全通结构作为人工混响生成器，因此极为适用于生成均质平滑噪声式反声音（类似室内混响尾）。但其为仍然使收听者身临其境的具有非均质时空结构的声场的实例：一个典型实例为鼓掌式声场，其不仅通过均质噪声状场，还通过来自不同方向的一系列相当紧密的单个拍手产生收听者包络。如此，鼓掌声场的非均质分量的特征在于瞬态的空间分配的混合。这些离散拍手并不是均质的、平滑的和噪声状的。

由于其混响式的表现，晶格全通去相关器无法生成具有例如鼓掌特性的身临其境的（immersive）声场。取而代之，当应用于鼓掌式信号时，倾向于在时域上模糊（smear）信号的瞬态。非期望的结果是噪声式的身临其境的声场，而没有鼓掌式声场的唯一的时空结构。此外，瞬态事件类似单个拍手可引起去相关器滤波器的振铃假影。

USAC（统一语音与音频编码）是用于以不同比特率对语音和音频及其混合进行编码的音频编码标准。

当参数立体声编码技术为可应用时，USAC的知觉质量通过以32kbps范围的比特率对鼓掌及鼓掌式声音进行编码而被进一步改良。USAC编码鼓掌项目倾向于具有窄的声音阶段，若在编译码器内部未施加专用鼓掌处理则缺乏包络。至较大程度，USAC的立体声编码技术及其限制源自MPEG环绕（MPS）。但USAC确实提供用于适当鼓掌处理要求的专用适应方式。该适应方式定名为瞬态操控去相关器（TSD）且为本发明的实施方式。

鼓掌信号可预想为由时间上分开数毫秒的单个离散的邻近拍手构成，并与源自极为紧密远方拍手的噪声式环境叠加。在以可感测的侧边信息率的参数立体声编码中，空间参数集合的粒度（声道间水平差、声道间相关性等）过于低，以至于不能确保单个拍手的足够空间重新分配，结果导致缺乏包络。此外，拍手接受由晶格全通去相关器的处理。如此无可避免地导致瞬态的时域分散，及进一步减少主观质量。

在USAC译码器内部采用瞬态操控去相关器（TSD），结果导致MPS处理的修改。此种办法的潜在构思是解决如下的鼓掌去相关问题：

-在晶格全通去相关器之前在QMF域分离瞬态，亦即：将去相关器输入信号分开为瞬态流s2及非瞬态流s1。

-将瞬态流馈送至适于瞬态混合的不同参数控制的去相关器。

-将非瞬态流馈送至MPS全通去相关器。

-将两个去相关器D₁及D₂的输出相加来获得去相关信号D。

图3例示说明USAC译码器内部的一到二（OTT）配置。图3的U字形瞬态处理盒包含为瞬态处理而提出的并行信号路径。

引导TSD处理的两个参数作为频率独立性参数从编码器传输至译码器（参考图3）：

-在编码器运行的瞬态检测器的二进制瞬态/非瞬态确定被用于在译码器中控制具有QMF时隙（time slot）粒度的瞬态分离。有效无损耗编码方案用来传输瞬态的QMF时隙位置数据。

-实际瞬态去相关器参数，是瞬态去相关器调控瞬态的空间分配所需的。瞬态去相关器参数指示下混与其残差间的夹角。这些参数只针对在编码器已经检测到包含瞬态的时隙传输。

为了评比前述技术的质量，使用高质量静电STAX头戴式耳机，在受控的收听测试环境下，进行两项MUSHRA收听测试。测试以32kbps及16kbps立体声配置进行。16位专家收听者参与各项测试。

因USAC测试集合不含鼓掌项目，故须选择额外鼓掌项目来验证所提示技术的效果。表1列举项目已经包括于测试：

表1：收听测试项目

有关常规12个MPEG USAC收听测试项目，TSD未曾激活。然而，这些项目并未保持确切的比特位一致，因为TSD启动位（指示TSD为关闭）被额外地包括于比特流中，如此略微影响核心编码器的位预算。由于这些差异极小，故这些项目并未包括于收听测试。提供有关这些差的大小数据来显示这些改变为可忽略且无法觉察。

定名为inter-TES的编译码器工具是USAC参考模型8（RM8）的一部分。因为已报告此项技术改善了包括鼓掌式信号的瞬态的知觉质量，每个测试条件下inter-TES总是被开关为启动。此种配置中，确保了最佳可能质量，并验证了inter-TES及TSD的正交性。

系统测试具有下列配置：

-RM8：USAC RM8系统

-CE：通过瞬态操控去相关器（TSD）加强的USAC RM8系统

图4及图5描述MUSHRA分数及其用于32kbps测试情况的95%置信区间。针对该测试资料，假设是学生t分布。图4的绝对分数显示针对全部项目有较高平均分数，五项中的四项就95%置信意义而言显著改善。相对于RM8并无任何项目降级。在TSD核心实验（CE）中相对于USACRM8评估，对USAC+TSD的差异分数在图5示出。此处可知全部项目显著改良。

针对16kbps测试设置，图6及图7描述MUSHRA分数及其95%置信区间。假设为学生t分布。图6的绝对分数显示针对全部项目有较高平均分数。针对一个项目，可看到95%置信意义上的显著性。并无任何项目比RM8更差。差异分数被示出在图7。再度，证明了全部项目相对于不同数据的显著改善。

TSD工具由比特流中传输的bsTsdEnable标记（flag）启动。若TSD被启动，则瞬态的实际分离由瞬态检测标记TsdSepData控制，该标记也在比特流中传输，且在TSD被启动的情况下，该标记在TsdCodedPos编码。

在该编码器中，TSD启动标记bsTsdEnable由分段分类器生成。瞬态检测标记TsdSepData由瞬态检测器设定。

如前文已经指示，针对12个MPEG USAC测试项目，TSD未被激活。针对五个额外鼓掌项目，TSD激活描述在图8，相对于时间显示bsTsdEnable逻辑状态。

若TSD被激活，在某些QMF时隙中检测瞬态，随后馈送至专用瞬态去相关器。针对各个额外测试项目，表2列举于TSD激活帧内包含瞬态的时隙的百分比。

表2：瞬态时隙百分比（以TSD帧的全部时隙的%表示的瞬态时隙密度）

项目	瞬态时隙密度（%）
		ARL_applause	23.4
Applause4s	20.1
		applse_2ch	24.7
applse_st	23.8
		Klatschen	21.3

从编码器发射瞬态分离确定及去相关器参数给译码器确实要求一定量的侧边信息。但此量通过源自MPS内部宽带空间尾接提示（cue）的传输的比特率节省而被过度补偿。

结果，平均MPS+TSD侧边信息比特率甚至比表3第一栏列举的普通USAC的普通MPS侧边信息比特率更低。如用于主观质量评估的所提出的配置中，表3第二栏列举的平均比特率已经针对TSD测量：

表3：在32kbps立体声编译码器情况下的MPS（+TSD）比特率，以位/秒表示：

TSD的运算复杂度来自于

-瞬态时隙位置译码

-瞬态去相关器复杂度。

假设MPEG环绕空间帧长度是32个时隙，最差情况下时隙位置译码要求每个空间帧（64次除法+80次乘法），亦即每个空间帧64*25+80=1680次运算。

忽略拷贝操作及条件陈述，由每个时隙及混合QMF带一次复杂乘法可给定瞬态去相关器复杂度。

如此导致下列TSD的总复杂度值，于表4显示且与普通USAC复杂度值比较：

表4：TSD译码器复杂度以MOPS表示及相对于普通USAC译码器复杂度：

总而言之，收听测试数据清楚示出在两个运算点，在全部项目的不同分数中，鼓掌信号的主观分数有显著改进。以绝对分数表示，TSD条件的全部项目具有较高平均分数。针对32kbps，五项中的四项有显著改进。针对16kbps，一项有显著改进。并无任何项目的分数比RM8更差。如从复杂度数据可知，在可忽略运算成本上取得了进步。如此更进一步凸显了TSD工具用于USAC的效果。

前述瞬态调控去相关器显著改善了在USAC的音频处理。但如前文可知，瞬态操控去相关器要求关于特定时隙中是否存在有瞬态的信息。在USAC中，有关时隙的信息可以逐帧传输。一个帧包含多个、例如32个时隙。因此应了解编码器也逐帧传输关于哪些时隙包含瞬态的信息。减少欲传输的比特数在音频信号的处理上至关重要。由于即使单个音频记录包含大量帧，这意味着即便针对每个帧欲传输的比特数只减少几个比特，但总比特传输率可被显著减低。

但在音频信号帧中的事件的时隙位置的译码问题不仅限于译码瞬态问题。也又更可用于译码其它事件的时隙位置，诸如音频信号帧的时隙是否有音调（或没有）、是否包含噪声（或是否不含噪声）等。实际上，音频信号帧中的事件的时隙位置的有效编码及译码装置极有用于大量不同种事件。

当本文件提到音频信号帧的时隙或时隙位置时，这种意义上的时隙可以是时隙、频时隙、时频时隙、或任何其它时隙。还应进一步理解本发明并非限于USAC的音频处理及音频信号帧，反而涉及任一种音频信号帧及任一种音频格式，诸如MPEG1/2、层3（MP3）、高阶音频编码（AAC）等。针对任一种音频信号帧，音频信号帧中事件时隙位置的有效编码及译码是极其有用的。

发明内容

因此本发明的目的是提出一种以少数比特编码音频信号帧中事件时隙位置的装置。此外，本发明的目的是提出一种根据本发明的编码装置所编码的译码音频信号帧中的事件时隙位置的装置。本发明的目的是通过根据权利要求1的译码装置、根据权利要求11的编码装置、根据权利要求14的译码方法、根据权利要求15的编码方法、用于根据权利要求16译码的计算机程序、用于根据权利要求17编码的计算机程序、及根据权利要求18的编码信号而予达成。

本发明假设指示音频信号帧的总时隙数的帧时隙数及指示该音频信号帧包含事件的时隙数的事件时隙数可在本发明的译码装置得知。举例言之，编码器可传输帧时隙数和/或事件时隙数给译码装置。根据一个实施方式，编码器可通过传输音频信号帧的总时隙数减1的数目来指示音频信号帧的总时隙数。编码器还可通过传输该音频信号帧包含事件的时隙数减1数目来指示该音频信号帧包含事件的时隙数。另外，译码器本身可无需来自编码器的信息而确定音频信号帧中的总时隙数及该音频信号帧中包含事件的时隙数。

基于这些假设，根据本发明，在该音频信号帧中包含事件的时隙位置数目可使用下列发现结果编码及译码：

设N为音频信号帧的总时隙数，及

设P为音频信号帧中包含事件的时隙数。

假设编码装置及译码装置二者已知N值及P值。

已知N及P，可推导在该音频信号帧中包含事件的时隙位置只有

(\begin{matrix} N \\ P \end{matrix})

个不同组合。

举例言之，若一帧中的时隙位置被标号为从0至N-1及若P=8，则第一时隙位置与事件的可能组合为（0,1,2,3,4,5,6,7）、第二个为（0,1,2,3,4,5,6,8）、等等直到组合（N-8,N-7,N-6,N-5,N-4,,N-3,N-2,N-1），故共有

(\begin{matrix} N \\ P \end{matrix})

个不同组合。

此外，本发明采用其他发现结果，即事件状态数可由编码装置编码，及事件状态数被传输至译码器。若每个可能的

(\begin{matrix} N \\ P \end{matrix})

组合由唯一事件状态数表示，并如果译码装置已知哪个事件状态数表示在该音频信号帧中包含事件的哪个时隙位置组合（例如通过施加适当译码方法），则译码装置可使用N、P、及事件状态数译码包含事件的时隙位置。针对许多典型N及P值，此种编码技术相比于其它方法（例如针对帧的各个时隙采用具一个比特的比特数组，其中每个比特指示事件是否出现于该时隙）采用了更少比特来编码事件的时隙位置。

换而言之，在该音频信号帧中包含事件的时隙位置的编码问题可通过使用尽可能少的比特，编码在[0…N-1]范围的位置pk的离散数P，使得针对k≠h，时隙位置不相重叠p_k≠p_h加以解决。因位置顺序无关紧要，故接着位置的唯一组合数为二项式系数

(\begin{matrix} N \\ P \end{matrix}) .

因此，所要求的比特数为

bits = ceil (\log_{2} ((\begin{matrix} N \\ P \end{matrix})))

在一个实施方式中，提供一种译码装置，其中，该译码装置适用于进行测试比较事件状态数或更新后的事件状态数与阈值。可采用此种测试来从事件状态数推导包含事件的时隙位置。比较事件状态数与阈值的测试可通过比较该事件状态数或更新后的事件状态数是否大于、大于或等于、小于、或小于或等于该阈值而进行该测试。此外，优选的是该译码装置适用于根据该测试结果而更新该事件状态数或更新后的事件状态数。

根据一种实施方式，提供一种译码装置适用于进行测试以比较事件状态数或更新后的事件状态数与特定考虑时隙，其中，该阈值取决于该帧时隙数、该事件时隙数及该考虑时隙在该帧内部位置。由此，包含事件的时隙位置可以逐时隙确定，针对一帧的各个时隙逐一地确定该时隙是否包含事件。

根据又一实施方式，提供一种译码装置适用于将该帧分成包含该帧的第一组时隙的第一帧划分及第二组时隙的第二帧划分，及其中，该译码装置进一步适用于针对该等帧划分各自独立地确定包含该等事件的时隙位置。由此，通过将帧或帧划分重复地分割成更小的帧划分而可确定包含事件的时隙位置。

附图说明

后文中，将就附图以进一步细节描述本发明的实施方式，附图中：

图1为去相关器在单声道到立体声上混器的典型应用；

图2为去相关器在单声道到立体声上混器的又一典型应用；

图3为包括瞬态操控去相关器（TSD）的一到二（OTT）系统的综述；

图4为示出在TSD分数实验（CE）中针对32kbps立体声比较RM8与USAC RM8+TSD的绝对分数的示图；

图5为示出针对32kbps立体声比较采用瞬态操控去相关器的USAC相较于普通USAC系统的差异分数的示图；

图6为示出在TSD分数实验（CE）中针对16kbps立体声比较RM8与USAC RM8+TSD的绝对分数示图；

图7为示出针对16kbps立体声比较采用瞬态操控去相关器的USAC相较于普通USAC系统的差异分数的示图；

图8示出针对五个额外项目的TSD活性，描述为bsTsdEnable标记的逻辑状态；

图9a示出根据本发明的一个实施方式的译码在音频信号帧中包含事件的时隙位置的装置；

图9b示出根据本发明的又一实施方式的对在音频信号帧中包含事件的时隙位置进行译码的装置；

图9c显示根据本发明的另一实施方式的对在音频信号帧中包含事件的时隙位置进行译码的装置；

图10为示出根据本发明的一个实施方式由译码装置所执行的译码方法的流程图；

图11示出根据本发明的一个实施方式实现对包含事件的时隙位置的译码的伪代码；

图12为示出根据本发明的一个实施方式的由编码装置所执行的编码方法的流程图；

图13为描述根据本发明的又一实施方式的对在音频信号帧中包含事件的时隙位置的编码方法的伪代码；

图14示出根据本发明的又一实施方式对在音频信号帧中包含事件的时隙位置进行译码的装置；

图15显示根据本发明的一个实施方式对在音频信号帧中包含事件的时隙位置进行编码的装置；

图16描述根据一个实施方式的USAC的MPS212数据的语法；

图17示出根据一个实施方式的USAC的TsdData的语法；

图18示出取决于MPS帧长度的nBitsTrSlots表；

图19示出根据一个实施方式的有关USAC的bsTempShapeConfig的表；

图2示出根据一个实施方式USAC的TempShapeData的语法；

图21示出根据一个实施方式的在OTT译码块中的去相关器块D；

图22示出根据一个实施方式的USAC的EcData的语法；

图23示出用以产生TSD数据的信号流程图。

具体实施方式

图9a例示说明根据本发明的一个实施方式的对在音频信号帧中包含事件的时隙位置进行译码的装置10。译码装置10包含分析单元20及生成单元30。指示该音频信号帧的总时隙数的帧时隙数FSN，指示该音频信号帧的包含事件的时隙数的事件时隙数ESON，及事件状态数ESTN被馈送入译码装置10。然后译码装置10通过使用帧时隙数FSN、事件时隙数ESON、及事件状态数ESTN来译码包含事件的时隙位置。译码在译码过程中通过分析单元20与生成单元30的协作进行。分析单元20负责执行测试，例如比较事件状态数ESTN与阈值，而生成单元30产生并更新译码过程的中间结果，例如更新后的事件状态数。

此外，生成单元30产生对在该音频信号帧中包含事件的多个时隙位置的指示。对该音频信号帧中包含事件的多个时隙位置的特定指示可称作为“指示状态”。

根据一个实施方式，可产生对该音频信号帧中包含事件的多个时隙位置的指示，使得在第一时间点，生成单元30指示第一时隙而与该时隙是否包含事件无关；在第二时间点，生成单元30指示第二时隙而与该时隙是否包含事件无关等。

根据又一实施方式，包含事件的多个时隙位置的指示例如可以是一比特位数组，其针对对该帧的各个时隙指示是否包含事件。

分析单元20与生成单元30可协作使得在译码过程中两个单元彼此调用一次或多次来产生中间结果。

图9b例示说明根据本发明的一个实施方式的译码装置40。译码装置40与图9a的译码装置10相异之处在于其还包括音频信号处理器50。音频信号处理器50接收音频输入信号，及由生成单元45产生对在该音频信号帧中包含事件的多个时隙位置的指示。取决于该指示，音频信号处理器50产生音频输出信号。音频信号处理器50可例如通过将音频输入信号去相关而产生音频输出信号。此外，音频信号处理器50可包括晶格IIR去相关器54、瞬态去相关器56、及瞬态分离器52用以产生音频输出信号，如图3描述。若对在音频信号帧中包含事件的多个时隙位置的指示是指示时隙包含瞬态，则该音频信号处理器50将通过瞬态去相关器56而将与该时隙相关的音频输入信号去相关。但若对在该音频信号帧中包含事件的多个时隙位置的指示是指示时隙不包含瞬态，则该音频信号处理器将通过晶格IIR去相关器54而将与该时隙相关的音频输入信号S去相关。音频信号处理器采用瞬态分离器52，取决于该项指示是否指示该特定时隙包含瞬态（通过瞬态去相关器56去相关）或该时隙不包含瞬态（通过晶格IIR去相关器54去相关），基于该指示而确定该音频输入信号的与时隙相关部分被馈送入瞬态去相关器56还是馈送入晶格IIR去相关器54。

图9c例示说明根据本发明的一个实施方式的译码装置60。译码装置60与图9a的译码装置10相异的处在于其还包含时隙选择器90。译码被逐时隙地，针对一帧的各个时隙逐一地确定该时隙是否包含事件而进行。时隙选择器90确定考虑一帧中的哪个时隙。优选的办法为时隙选择器90逐一地选择帧中的时隙。

本实施方式的译码装置60的逐一时隙译码是基于以下发现，这些发现可应用于在音频信号帧中针对包含事件的时隙位置的译码装置、编码装置、译码方法、及编码方法的实施方式。下列发现也适用于个别计算机程序及编码信号：

假设N为音频信号帧的时隙（总）数目，及P为包含该帧的事件的时隙数（如此表示N可以是帧时隙数FSN，及P可以是事件时隙数ESON）。考虑帧的第一时隙。可区别两种情况：

若第一时隙为不包含事件的时隙，则相对于该帧的剩余N-1时隙，相对于该帧的剩余N-1时隙，P个包含事件的时隙位置只有

(\begin{matrix} N - 1 \\ p \end{matrix})

不同的可能组合。

若第一时隙为包含事件的时隙，则相对于该帧的剩余N-1时隙，相对于该帧的剩余N-1时隙，剩余P-1个包含事件的时隙位置只有

(\begin{matrix} N - 1 \\ P - 1 \end{matrix}) = (\begin{matrix} N \\ P \end{matrix}) - (\begin{matrix} N - 1 \\ P \end{matrix})

不同的可能组合。

基于此项发现，实施方式还基于一个发现：具有第一时隙不发生事件的全部组合应由小于或等于阈值的事件状态数编码。此外，具有第一时隙发生事件的全部组合应由大于阈值的事件状态数编码。在一实施方式中，全部事件状态数可以是正整数或0，有关第一时隙的适当阈值可以是

(\begin{matrix} N - 1 \\ P \end{matrix}) .

在一个实施方式中，译码装置适用于通过测试来确定帧的第一时隙是否包含事件，事件状态数是否大于阈值。（另外，也可实现实施方式的编码/译码处理，使得译码装置测试事件状态数是否大于或等于、小于或等于、或小于阈值）。分析第一时隙后，使用调整值继续对第二帧时隙继续译码：除了调整考虑的时隙数（减少1）的外，在事件状态数大于阈值的情况下，包含事件的时隙数最终也减少1（若该第一时隙确实包含事件）及事件状态数经调整，来从该事件状态数删除与第一时隙相关部分。译码过程可以类似方式针对该帧的其他时隙继续进行。

在一个实施方式中，编码在[0…N-1]范围的位置p_k的离散数目P，使得针对k≠h，时隙位置不相重叠p_k≠p_h。这里，在该给定范围的各个唯一时隙位置组合称作为状态，在该范围的各个可能位置称作为时隙。根据译码装置的一个实施方式，考虑于该范围的第一时隙。若该时隙不具有分配给其的位置，则该范围可减至N-1，及可能的状态数目减至

(\begin{matrix} N - 1 \\ p \end{matrix}) .

相反，若该状态大于

(\begin{matrix} N - 1 \\ p \end{matrix}),

则可得结论该时隙具有分配给其的位置。由此可获得如下译码算法：

对于每次迭代重复，计算二项式系数的代价昂贵。因此，根据实施方式，下述法则可用来运用得自前次迭代重复的值而更新该二项式系数：

(\begin{matrix} N \\ P \end{matrix}) = (\begin{matrix} N - 1 \\ P \end{matrix}) \cdot \frac{N}{N - P}

及

(\begin{matrix} N \\ P \end{matrix}) - (\begin{matrix} N \\ P - 1 \end{matrix}) \cdot \frac{N - P + 1}{P}

运用这些公式，二项式系数的每次更新只耗用一次乘法及一次除法，在此处明确评估将耗用各次迭代重复时P次乘除。

在该实施方式中，译码器的总复杂度针对该二项式系数的初始化是P次乘法及除法，针对每次迭代重复是1次乘法、除法、及条件语句，而针对每个编码位置则是1次乘法、加法及除法。注意理论上可将初始化所需除法数目减至一。但实际上，此种办法将导致极大整数，大到难以处理。最恶劣情况译码器的复杂度为N+2P次除法及N+2P次乘法、P次加法（若使用MAC运算则可忽略不计），及N个条件语句。

在一个实施方式中，编码装置采用的编码算法对于全部时隙无需迭代重复，但只对于被分配时隙位置的时隙需要迭代重复。因此，

For每个位置p_h,h=1...P

更新状态

state : = state + (\begin{matrix} p_{h} - 1 \\ h \end{matrix})

编码器最恶劣情况复杂度为P·(P-1)次乘法及P·(P-1)次除法，以及P-1次加法。

图10例示说明根据本发明的一个实施方式通过译码装置进行的译码方法。在此一实施方式中，译码逐时隙执行。

在步骤110，数值经初始化。译码装置储存其接收作为输入值的事件状态数于变量s。此外，由事件时隙数指示的该帧的包含事件的时隙数储存于变量p。此外，由帧时隙数指示的包含于该帧的时隙数系储存于变量N。

在步骤120，针对该帧的全部时隙，TsdSepData[t]的值以0初始化。比特数组TsdSepData是要生成的输出数据。其指示针对各个时隙位置t，具有相对应时隙位置的时隙是否包含事件（TsdSepData[t]=1）或不包含事件（TsdSepData[t]=0）。在步骤120，该帧的全部时隙的相对应值以0初始化。

在步骤130，变量k以值N-1初始化。在该实施方式中，包含N部分的帧时隙被编号为0,1,2,…,N-1。设k=N-1，表示具有最高时隙号码的该时隙被视为第一个。

在步骤140，考虑是否k≥0。若k<0，则时隙位置译码已经完成而结束处理程序，否则以步骤150继续处理程序。

在步骤150，测试是否p>k。若p大于k，则表示全部剩余TsdSepData时隙包含事件。在步骤230继续处理程序，其中剩余时隙0,1,…,k的全部域值被设定为1，指示剩余时隙各自包含事件。在此种情况下，随后结束处理程序。但若步骤150发现p不大于k，则于步骤160继续处理程序。

在步骤160，计算数值

C = (\begin{matrix} k \\ p \end{matrix}) .

C用作为阈值。

在步骤170，测试（最终更新的）事件状态数s是否大于或等于c，其中c为刚才于步骤160计算的阈值。

若s小于c，则表示所考虑的时隙（具有时隙位置k）不含事件。于此种情况下，无需实行进一步动作，原因在于在步骤140针对该时隙TsdSepData[k]已经设定为0。然后以步骤220继续处理。在步骤220，k设定为k:=k-1并考虑下个时隙。

但若在步骤170测试显示s大于或等于c，这表示所考虑的时隙k包含事件。在此种情况下，在步骤180事件状态数s被更新及设定为值s:=s-c。此外在步骤190，TsdSepData[k]被设定为1来指示时隙k包含事件。此外在步骤200，p设定为p-1，指示剩余欲检验的时隙只包含p-1个时隙具有事件。

在步骤210，测试p是否等于0。若p等于0，则剩余时隙不包含事件并且译码处理结束。否则，剩余时隙中的至少一个包含事件并且处理继续步骤220，在该处译码处理继续下个时隙（k-1）。

图10例示说明实施方式的译码处理产生数组TsdSepData作为输出值，指示针对该帧的各个时隙k，该时隙是否包含事件（TsdSepData[k]=1）或不包含事件（TsdSepData[k]=0）。

回来参考图9c，一个实施方式的译码装置60，其中该装置实现图10例示说明的译码方法，包含时隙选择器90，确定考虑哪个时隙。就图10而言，此种时隙选择器90适合执行图10的方法步骤130及220。该实施方式的合适的分析单元70将适用于执行图10的方法步骤140、150、170及210。该实施方式的生成单元80将适用于执行图10的全部其它方法步骤。

图11例示说明根据本发明的一个实施方式实现译码包含事件的时隙位置的伪代码。

图12例示说明根据本发明的一个实施方式的由编码装置执行的编码方法。在该实施方式中，编码逐时隙执行。根据图12例示说明的实施方式的编码方法目的是产生事件状态数。

在步骤310，数值被初始化。p_s以0初始化。事件状态数通过连续地更新变量p_s而产生。当编码程序结束时，p_s将携带该事件状态数。步骤310也初始化变量k，通过设定k为k:=一帧中包含事件的时隙数-1。

在步骤320，变量“slots”系设定为slots:=tsdPos[k]，其中tsdPos为保有包含事件的时隙位置的数组。该数组中的时隙位置升序储存。

在步骤330进行测试，测试是否k≥slots。若情况如此，则处理程序结束。否则，处理程序在步骤340继续。

在步骤340，求出值

c = (\begin{matrix} slots \\ k + 1 \end{matrix}) .

在步骤350，变量p_s经更新及设定为p_s:=p_s+c。

在步骤360，k系设定为k:=k-1。

然后在步骤370进行测试，测试是否k≥0。若情况如此，则考虑下个时隙k-1。否则处理程序结束。

图13描述伪代码，实现根据本发明的一个实施方式的包含事件的时隙位置的编码。

图14例示说明根据本发明又一实施方式的在音频信号帧中包含事件的时隙位置的译码装置410。再次，如同于图9a，指示该音频信号帧的时隙总数的帧时隙数FSN，指示该音频信号帧的包含事件的时隙数的事件时隙数ESON，及事件状态数ESTN被馈送入译码装置410。译码装置410与图9a的装置的差异在于前者还包含帧划分器440。帧划分器440适用于将该帧分成包含该帧的第一组时隙的第一帧划分及包含该帧的第二组时隙的第二帧划分，及其中针对各个帧划分而分开地确定包含事件的时隙位置。由此通过重复地将帧或帧划分分成更小的帧划分，可确定包含事件的时隙位置。

本实施方式的译码装置410的“基于划分”的译码基于下列构思，该构思可应用于对于在音频信号帧中包含事件的时隙位置的译码装置、编码装置、译码方法、及编码方法。下列构思也适用于个别计算机程序及编码信号：

基于划分的译码基于下列构思：帧被分成两个帧划分A及B，每个帧划分包含时隙组，其中帧划分A包含N_a个时隙及其中帧划分B包含N_b个时隙，并使得N_a+N_b=N。该帧可任意地分成两个划分，优选地使得划分A及B具有接近相等时隙总数（例如使得N_a=N_b或使得N_a=N_b-1）。通过将帧分成两个划分，确定何处发生事件的时隙位置任务也分成两个子任务，亦即确定在帧划分A何处发生事件的时隙位置，及确定在帧划分B何处发生事件的时隙位置。

在该实施方式中，再次假设译码装置已知该帧的时隙数、该帧的包含事件的时隙数、及事件状态数。为了解决两个子任务，译码装置也须已知各个帧划分的时隙数、有关各个帧划分发生事件的时隙数、及各个帧划分的事件状态数（此种帧划分的事件状态数现在称作为“事件子状态数”）。

当译码装置本身将帧分成两个帧划分时，本身已知帧划分A包含N_a个时隙及帧划分B包含N_b个时隙。针对两个帧划分中的每一个，确定包含事件的时隙数是基于下列发现：

当帧已经分裂成两个帧划分时，包含事件的时隙各自现在被定位于划分A或划分B。此外，假设P为一个帧划分包含事件的时隙数，及N为该帧划分的时隙总数，及f(P,N)为返回帧划分中的事件的时隙位置的不同组合数目的函数，则整个帧（已经分成划分A及划分B）的事件的时隙位置的不同组合数目为：

基于前述考虑，根据一个实施方式，具有第一配置的全部组合须以小于第一阈值的事件状态数编码，在该处划分A具有0时隙包含事件及划分B具有P时隙包含事件。事件状态数可编码成正或零的整数值。因只有f(0,N_a)·f(P,N_b)具第一配置，故适当阈值可以是f(0,N_a)·f(P,N_b)。

具有第二配置的全部组合应以大于或等于第一阈值但小于或第二第二值的事件状态数编码，其中划分A具有1个时隙包含事件并且划分B具有P-1时隙包含事件。事件状态数可编码成正或零的整数值。因只有f(1,N_a)·f(P-1,N_b)具第二配置，故适当阈值可以是f(0,N_a)·f(P,N_b)+f(1,N_a)·f(P-1,N_b)。对具有其它配置的组合的事件状态数以类似方式确定。

根据一个实施方式，译码是通过将一个帧分离成两个帧划分A和B进行。然后，测试事件状态数是否小于第一阈值。在一优选的实施方式中，第一阈值可以是f(0,N_a)·f(P,N_b)。

若事件状态数小于第一阈值，则可获得结论划分A具有0时隙包含事件及划分B具有该帧的全部P时隙发生事件。然后以表示该相对应划分的包含事件的时隙数所确定的个别数目对两个划分进行译码。此外，针对划分A确定第一事件状态数，并针对划分B确定第二事件状态数，个别地用作为新事件状态数。在本文件中，帧划分的事件状态数称作为“事件子状态数”。

但若事件状态数大于或等于第一阈值，则事件状态数可被更新。在一优选实施方式中，事件状态数可通过从事件状态数减去一个值，优选地通过减去第一阈值例如f(0,N_a)·f(P,N_b)而予更新。在第二步骤中，测试更新事件状态数是否小于第二阈值。在优选实施方式中，第二阈值可以是f(1,N_a)·f(P-1,N_b)。若事件状态数小于第二阈值，则可推导划分A具有1时隙包含事件及划分B具有P-1时隙包含事件。之后利用每个划分中所确定的包含事件的时隙数对两个划分进行译码。第一事件子状态值采用于划分A的译码，第二事件子状态值采用于划分B的译码。但若事件状态数大于或等于第二阈值，则该事件状态数可被更新。在一种优选实施方式中，事件状态数可通过从事件状态数减去一个值，优选为f(1,N_a)·f(P-1,N_b)而予更新。译码方法同理适用于有关二帧划分的包含事件的时隙的其余分配可能性。

在一个实施方式中，划分A的事件子状态数目及划分B的事件子状态数目可采用于划分A及划分B的译码，其中两个事件子状态值通过进行除法确定：

事件状态值/f(划分B的包含事件的时隙数，N_b)

优选地，划分A的事件子状态数为前述除法的整数部分，而划分B的事件子状态数目为该除法的余数。本除法中采用的事件状态数可以是该帧的原始事件状态数或更新后的事件状态数，例如如前述，通过减去一或多个阈值而更新。

为了例示说明前述基于划分而译码的构思，考虑一种情况，在这里一个帧具有两个时隙包含事件。此外，若f(p,N)仍是返回帧划分的事件的时隙位置的不同组合数目的函数，其中p为一帧划分包含事件的时隙数，及N为该帧划分的时隙总数。则针对位置的各个可能分配，获得下列可能组合数目：

划分A的位置	划分B的位置	在此配置的组合数目
			0	2	f(0,N_a)·f(2,N_b)
1	1	f(1,N_a)·f(1,N_b)
			2	0	f(2,N_a)·f(0,N_b)

如此可获得结论，若该帧的编码事件状态数小于f(0,N_a)·f(2,N_b)，则包含事件的时隙须分配为0及2。否则，f(0,N_a)·f(2,N_b)从该事件状态数减去，并且结果与f(1,N_a)·f(1,N_b)比较。若前者较小，则位置分配为1和1。否则只剩下分配2和0，时隙位置被分配为2及0。

后文中，根据一个实施方式，提供伪代码用于对音频信号帧中包含某些事件（此处：“pulses”）的时隙位置的译码。在该伪代码中，“pulses_a”为（假设）在划分A中包含事件的时隙数，及“pulses_b”为（假设）在划分B中包含事件的时隙数。在该伪代码中，（最终更新的）事件状态数称作为“state”。划分A及B的事件子状态数仍然联合编码于“state”变量。根据一个实施方式的联合编码方案，A的事件子状态数（后文称作为“state_a”）是除法：state/f（pulses_b,N_b）的整数部分，而B的事件子状态数（后文称作为“state_b”）是该除法的余数。由此，两个划分的长度（划分的时隙总数）及编码位置数目（划分中包含事件的时隙数）可通过相同办法译码：

Function x=decodestate(state,pulses,N)

1.将向量分为两个长度为Na和Nb的划分.

2.For pulses_a from0to pulses

a.pulses_b=pulses–pulses_a

b.if state<f(pulses_a,Na)*f(pulses_b,Nb)then

break for-loop.

c.state:=state–f(pulses_a,Na)*f(pulses_b,Nb)

3.划分B可能的状态数是

no_states_b=f(pulses_b,Nb)

4.划分A和B的states,state_a和state_b，分别是除法state/no_states_b的整数部分和余数.

5.If Na>1then划分A的译码向量通过

xa=decodestate(state_a,pulses_a,Na)递归获得.

Otherwise(Na==1),and向量xa是标量

and可设xa=state_a.

6.If Nb>1then划分B的译码后的向量通过

xb=decodestate(state_b,pulses_b,Nb)递归获得,

Otherwise(Nb==1),and向量xb是标量and

可设xb=state_b.

7.最终输出x通过合并xa和xb而获得

通过x=[xa xb].

该算法的输出为向量在每个编码位置（亦即包含事件的时隙的时隙位置）具有一（1）而在其他位置（亦即不包含事件的时隙位置）具有零（0）。

后文中，根据一个实施方式针对音频信号帧中包含事件的时隙位置的编码实施方式提供伪代码，该实施方式使用前述相似变量具有相似意义：

Function state=encodestate(x,N)

1.将向量分为长度为Na和Nb的两个划分xa和xb.

2.计算pulses_a和pulses_b中的划分A和B中的脉冲数,并设定pulses=pulses_a+pulses_b.

3.设state为0

4.For k from0to pulses_a-1

a.state:=state+f(k,Na)*f(pulses-k,Nb)

5.If Na>1,通过

state_a=encodestate(xa,Na)编码划分A、

Otherwise(Na==1),设state_a=xa.

6.If Nb>1,通过

state_b=encodestate(xb,Nb)编码划分B、

Otherwise(Nb==1),设state_b=xb.

7.联合编码states

state:=state+state_a*f(pulses_b,Nb)+state_b.

此处，类似译码器算法，假设在向量x的每个编码位置（亦即包含事件的时隙的时隙位置）是以一（1）标示及全部其它组件（亦即不包含事件的时隙位置）是零（0）。

前述以伪代码公式表示的递归方法方便使用标准方法以非递归方式实现。

根据本发明的一种实施方式，函数f(p,N)可实现为查询表。当位置为非重叠时，诸如在目前背景下，则状态数目函数f(p,N)单纯为二项式函数，可于在线计算。亦即

f (p, N) = \frac{N (N - 1) (N - 2) . . . (N - k)}{k (k - 1) (k - 2) . . . 1} .

根据本发明的一种实施方式，编码器及译码器两者皆具有for循环，

在该处针对k的连续值计算乘积f(p-k,Na)*f(k,Nb)。为了有效运算，可写成

f (p - k, N_{a}) f (k, N_{b}) = \frac{N_{a} (N_{a} - 1) (N_{a} - 1) . . . (N_{a} - p + k)}{(p - k) (p - k - 1) (p - k - 2) . . . 1} . \frac{N_{b} (N_{b} - 1) (N_{b} - 2) . . . (N_{b} - k)}{k (k - 1) (k - 2) . . . 1}

= \frac{N_{a} (N_{a} - 1) (N_{a} - 2) . . . (N_{a} - p - k + 1)}{(p - k + 1) (p - k) (p - k - 1) . . . 1} \cdot \frac{N_{b} (N_{b} - 1) (N_{b} - 2) . . . (N_{b} - k + 1)}{(k - 1) (k - 2) . . . 1} \cdot \frac{p - k + 1}{N_{a} - p - k + 1} \cdot \frac{N_{a} - k}{k}

= f (p - k + 1, N_{a}) f (k - 1, N_{b}) \cdot \frac{p - k + 1}{N_{a} - p - k + 1} \cdot \frac{N_{a} - k}{k} .

换言之，减法/加法（在译码器在步骤2b及2c，及在编码器在步骤4a）连续项可通过每次迭代重复中进行三次乘法及一次除法求出。

同理，如同于前述方法，长向量（有许多时隙的一帧）的状态可以是极大整数，容易延长在标准处理器中的表征长度。因此需要使用能够处理极长整数的算术函数。

有关复杂度，此处考虑的方法与前述逐一时隙法不同，是分离和克服算法。假设输入向量长度为2的次方，则递归具有log2（N）的深度。

因在递归的各个深度的脉冲数维持常数，故各次递归的for循环的迭代重复数是相同的。接着循环数目为pulses·log2（N）。

如前文说明，f(p-k,Na)*f(k,Nb)的各次更新可以三次乘法及一次除法完成。

须注意于译码器的减法和比较可假设为一次运算。

容易获知划分被合并log2(N)-1次。在编码器中对状态的联合编码，如此需要乘和加log2(N)-1次。同理，在译码器中状态的联合译码，如此需要除log2(N)-1次。

须注意除法中，只有在译码器中状态的联合编码需要除法，其中分母为长整数。其它除法在分母经常有相对短的整数。因具有长分母的除法是最复杂运算，故可能时应避开。

总而言之，在译码器中长整数算术运算数为

乘法(3·pulses+1)log2(N)-1

除法(pulses+1)log2(N)-1

其中长分母除法log2(N)-1

加法及减法pulses·log2(N)-1

同理，在编码器中为

乘法(3·pulses+1)log2(N)-1

除法(pulses+1)log2(N)-1

其中长分母除法0

加法及减法(pulses+2)·log2(N)

对于长分母只要求使用log2(N)-1次除法。

在其他实施方式中，包含或适用以采用递归处理步骤的前述实施方式被修改为使得部分或全部递归处理步骤使用标准方法以非递归方式实现。

图15例示说明根据一个实施方式对在音频信号帧中包含事件的时隙位置进行编码的装置（510）。编码装置（510）包含事件状态数生成器（530），其适用于通过编码事件状态数而编码时隙数。此外，该装置包含时隙信息单元（520）适用于提供帧时隙数及事件时隙数给事件状态数生成器（530）。事件状态数生成器可体现前述编码方法中的一个。

在又一实施方式中，提供编码音频信号。该编码音频信号包含事件状态数。在另一实施方式中，该编码音频信号又更包含事件时隙数。此外，该编码音频信号帧包含帧时隙数。在该音频信号帧中，在音频信号帧中包含事件的时隙位置可根据前述译码方法中的一个译码。在一个实施方式中，事件状态数、事件时隙数及帧时隙数被传输为使得在音频信号帧中包含事件的时隙位置可根据前述方法中的一个进行译码。

本发明的编码音频信号可储存于数字储存媒体或非暂时性储存媒体，或可在传输媒体诸如无线传输媒体或有线诸如因特网上传输。

下文中说明根据一个实施方式的适用于支持瞬态操控去相关器（TSD）的USAC语法定义：

图16例示说明MPEG环绕（MPS）212数据。MPS212数据为包含MPS212立体声模块的有效载荷的数据块。MPS212数据包含TSD资料。

图17描述TSD数据的语法。TSD数据报包括在MPS212资料帧中的瞬态时隙（bsTsdNumTrSlots）的数目及时隙的TSD瞬态相位数据（bsTsdTrPhaseData）。若时隙包含瞬态数据（TsdSepData[ts]被设定为1），则bsTsdTrPhaseData包含相位数据，否则bsTsdTrPhaseData[ts]被设定为0。

nBitsTrSlots定义被采用用于携载瞬态时隙数目（bsTsdNumTrSlots）的比特数。nBitsTrSlots取决于MPS212资料帧中的时隙数（numSlots）。图18例示说明在MPS212数据帧中的时隙数与被采用用于携载瞬态时隙数目的比特数之间的关系。

图19定义tempShapeConfig的意义。tempShapeConfig指示在译码器中，时间整形操作模式（STP或GES）或瞬态操控去相关的激活。若tempShapeConfig被设定为0，则不应用时间整形；若tempShapeConfig被设定为1，则应用子带域时间处理（STP）；若tempShapeConfig被设定为2，则应用导引包络成形（GES）；而若tempShapeConfig被设定为3，则应用瞬态操控去相关（TSD）。

图20例示说明TempShapeData的语法。若bsTempShapeConfig设定为3，则TempShapeData包含bsTsdEnable，其指示在一帧中TSD被启动。

图21例示说明根据一种实施方式的去相关器块D。在OTT译码块中的该去相关器块D包括信号分离器、两个去相关器结构、及一个信号组合器。

D_AP表示：全通去相关器，如小节7.11.2.5（全通去相关器）定义。

D_TR表示：瞬态去相关器。

如果在当前帧中TSD工具被激活，换言之，若（bsTsdEnable==1），则输入信号根据下式分开成瞬态流

及非瞬态流

每个时隙瞬态分离标记TsdSepData(n)被通过TsdTrPos_dec()而从可变长度代码字bsTsdCodedPos译码，容后详述。bsTsdCodedPos的代码字长度亦即nBitsTsdCW根据下式计算：

nBitsTsdCW = ceil (\log_{2} (\begin{matrix} bsFrameLength \\ bsTsdNumTrSlots + 1 \end{matrix}))

返回参考图11，图11例示说明根据一个实施方式将TSD瞬态时隙分离数据bsTsdCodedPos译码成TsdSepData[n]。由针对编码瞬态位置的“1”及针对其它位置的“0”所组成的长度numSlots数组被定义如图11例示说明。

若埃当前帧中TSD工具未被激活，换言之，若（bsTsdEnable==0），则输入信号系彷佛针对全部n的TsdSepData(n)=0般处理。

瞬态信号分量被在瞬态去相关器结构D_TR处理如下：

其中

非瞬态信号分量如下个小节定义在全通去相关器D_AP处理，获得针对非瞬态信号分量的去相关器输出，

d_{X, nonTr}^{n, k} = D_{AP} {v_{X, nonTr}^{n, k}} .

去相关器输出相加以形成含有瞬态分量及非瞬态分量两者的去相关信号。

d_{X}^{n, k} = d_{X, Tr}^{n, k} + d_{X, nonTr}^{n, k} .

图22例示说明包含bsFrequencyResStrideXXX的EcData语法。语法元素bsFreqResStride允许在MPS利用宽带尾接提示。XXX由数据类型值（CLD、ICC、IPD）替换。

在OTT译码器结构中的瞬态操控去相关器提供应用专用去相关器至鼓掌式信号的瞬态分量的可能。此种TSD特征的激活是通过每个帧传输一次的编码器产生的bsTsdEnable标记控制。

在编码器的二声道到一声道模块（R-OTT）中的TSD数据被产生如下：

-运行检测鼓掌式信号的语义信号分类器。分类结果每个帧被传输一次：针对鼓掌式信号bsTsdEnable标记被设定为1，否则被设定为0。

-若针对当前帧的bsTsdEnable被设定为0，则对此一帧不再产生/传输TSD数据。

-若针对当前帧的bsTsdEnable被设定为1，则执行下列：

○启动OTT空间参数的宽带计算。

○检测在当前帧的瞬态（每个MPS时隙的二进制确定）。

○根据下列伪代码编码在向量tsdPos中tsdPosLen瞬态时隙位置，其中，在tsdPos中的时隙位置预期为升序。图13例示说明用以编码在tsdPosLen中瞬态时隙位置的伪代码。

○传输瞬态时隙数（bsTsdNumTrSlots=（检测到的瞬态时隙数）-1）。

○传输编码瞬态位置（bsTsdCodedPos）。

○针对各个瞬态时隙，计算表示下混信号与残差信号之间的宽带相位差异的相位测量值。

○针对各个瞬态时隙，编码与传输宽带相位差异的测量值（bsTsdTrPhaseData）。

最后，图23例示说明在二声道到一声道模块（R-OTT）中的TSD数据产生的信号流程图。

虽然在装置背景下已经描述若干方面，但显然这些方面也表示相对应方法的描述，其中，一个方块或装置相对应于一个方法步骤或方法步骤特征。同理，在方法步骤的背景中描述的方面也表示相对应方块或项目或相对应装置的特征的描述。

取决于某些体现要求，本发明的实施方式可以以硬件或软件实现。实现方式可使用数字储存媒体执行，例如具有可电子读取控制信号储存在其上的软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存，这些信号与可编程计算机系统协作（或可协作）以执行相应方法。

根据本发明的若干实施方式包含具有电子可读取控制信号的数据载体，该信号能够与可编程计算机系统协作使得执行本文所述方法中的一个。

大致上言之，本发明的实施方式可体现为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可操作用于执行方法中的一个。程序代码例如可储存在机器可读取载体上。

其它实施方式包含储存于机器可读取载体上或非暂时性储存媒体上的用以执行本文揭示的方法中的一个的计算机程序。

换言之，因此，本发明方法的实施方式是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码可操作用于执行方法中的一个。

因此，本发明方法的又一实施方式为数据载体（或数字储存介质，或计算机可读取介质）包含用以执行本文所述方法中的一个的计算机程序被记录其上。

因此，本发明方法的又一实施方式是表征用以执行本文所述方法中的一个的计算机程序的数据流或信号序列。该数据流或信号序列例如可被配置为通过数据通信连接例如因特网而传输。

又一实施方式包含被配置为或适用于执行本文所述方法中的一个的处理装置，例如计算机或可可编程逻辑设备。

又一实施方式包含一种计算机，其具有用以执行本文所述方法中的一个的计算机程序安装于其上。

在若干实施方式中，可编程逻辑设备（例如现场可编程门阵列）可用以执行本文所述方法功能的部分或全部。在若干实施方式中，现场可编程门阵列可与微处理器协作来执行本文所述方法中的一个。大体来说，方法优选通过任一种硬件装置执行。

前述实施方式仅供举例说明本发明的原理。应了解此处所述配置及细节的修改及变化对本领域技术人员来说是显而易见的。因此，本发明的范围意图只受所附的权利要求的范围所限而非受通过由描述与解说本文实施方式而呈示的特定细节所限。

参考文献：

[1]J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,“High-Quality Parametric Spatial Audio Coding at Low Bitrates”inProceedings of the AES116^th Convention,Berlin,Preprint6072,May2004

[2]J.Herre,K.

J.Breebaart et al.,“MPEG surround–theISO/MPEG standard for efficient and compatible multi-channel audio coding,”in Proceedings of the122^th AES Convention,Vienna,Austria,May2007

[3]Pulkki,Ville;“Spatial Sound Reproduction with Directional AudioCoding”in J.Audio Eng.Soc.,Vol.55,No.6,2007

[5]J.Engdegard,H.Purnhagen,J.

L.Liljeryd,“SyntheticAmbience in Parametric Stereo Coding”in Proceedings of the AES116^thConvention,Berlin,Preprint,May2004

Claims

1.一种用于译码被编码的音频信号的装置（10、40、60、410），该被编码的音频信号具有包含时隙及与所述时隙相关联的事件的音频信号帧，该装置包括：

分析单元（20、42、70、420），用于分析指示所述音频信号帧中的时隙总数的帧时隙数，指示所述音频信号帧中的包含事件的时隙数的事件时隙数，以及事件状态数；以及

生成单元（30、45、80、430），用于使用所述帧时隙数、所述事件时隙数、以及所述事件状态数来生成对所述音频信号帧中包含所述事件的多个时隙位置的指示。

2.根据权利要求1所述的译码装置（10、40、60、410），

其中，所述译码装置（10、40、60、410）适用于译码音频信号帧中的瞬态的时隙位置。

3.根据权利要求1或2所述的译码装置（10、40、60、410），

其中，所述分析单元（20、42、70、420）适用于进行测试，以比较所述事件状态数或更新后的事件状态数与阈值。

4.根据权利要求3所述的译码装置（10、40、60、410），

其中，所述分析单元（20、42、70、420）适用于通过比较所述事件状态数或更新后的事件状态数是否大于、大于等于、小于、或小于等于所述阈值而进行所述测试，并且

其中，所述生成单元（30、45、80、430）还适用于根据所述测试结果而更新所述事件状态数或所述更新后的事件状态数。

5.根据权利要求3或4所述的译码装置（10、40、60），

其中，所述译码装置（10、40、60）还包括时隙选择器（90），

其中，所述时隙选择器（90）适用于选择时隙作为考虑时隙，

其中，所述分析单元（20、42、70）适用于关于考虑时隙进行所述测试，以及

其中，所述阈值取决于所述帧时隙数、所述事件时隙数并取决于所述考虑时隙在所述帧内部的位置。

6.根据权利要求5所述的译码装置（10、40），

其中，所述分析单元（20、42、70）适用于进行所述测试以比较所述事件状态数或所述更新后的事件状态数与所述阈值，

其中，所述阈值为

(\begin{matrix} N - h - 1 \\ P \end{matrix}),

其中，N为所述音频信号帧的时隙总数，其中，P为所述音频信号帧或所述音频信号帧的考虑部分中的包含所述事件的时隙数，并且其中，h为所考虑的时隙在所述帧内部的位置。

7.根据权利要求1至4中任一项所述的译码装置（10、40、410），

其中，所述译码装置（10、40、410）还包括帧划分器（440），

其中，所述帧划分器（440）适用于将所述帧分成包含所述帧的第一组时隙的第一帧划分及包含所述帧第二组时隙的第二帧划分，并且其中，所述译码装置（10、40、410）还适用于针对每一个所述帧划分独立地确定包含所述事件的时隙位置。

8.根据任一前述权利要求所述的译码装置（10、40、60、410），还包括：

音频信号处理器（50），用于利用使用所述帧时隙数、所述事件时隙数、及所述事件状态数生成的对所述音频信号帧中包含所述事件的多个时隙位置的所述指示来生成音频输出信号。

9.根据权利要求8所述的译码装置（10、60、410），

其中，如果对包含所述事件的多个时隙位置的所述指示处于第一指示状态，则所述音频信号处理器（50）适用于根据第一方法生成所述音频输出信号，并且其中，如果对包含所述事件的多个时隙位置的所述指示处于与所述第一指示状态不同的第二指示态，则所述音频信号处理器（50）适用于根据不同的第二方法生成所述音频输出信号。

10.根据权利要求9所述的译码装置（10、40、60、410），

其中，所述音频信号处理器（50）适用于使得如果所述第一指示状态指示所述时隙包含瞬态，则所述第一方法包括采用瞬态去相关器（56）来译码时隙，并且如果所述第二指示态指示所述时隙不包含瞬态，则所述第二方法包括采用第二去相关器（54）来译码时隙。

11.一种用于编码音频信号帧中包含事件的时隙位置的装置（510），所述装置包括：

事件状态数生成器（530），用于通过编码事件状态数来编码所述时隙位置；以及

时隙信息单元（520），适用于提供指示所述音频信号帧的时隙总数的帧时隙数和指示所述音频信号帧中包含所述事件的时隙数的事件时隙数给所述事件状态数生成器（530），

其中，所述事件状态数、所述帧时隙数、和所述事件时隙数共同指示所述音频信号帧中包含所述事件的多个时隙位置。

12.根据权利要求11所述的译码装置（510），

其中，所述事件状态数生成器（530）适用于通过对包含事件的每个时隙加正整数值而生成事件状态数。

13.根据权利要求11所述的译码装置（510），

其中，所述事件状态数生成器（530）适用于通过针对第一帧划分生成第一事件子状态数，针对第二帧划分生成第二事件子状态数，并组合所述第一事件子状态数和所述第二事件子状态数而生成所述事件状态数，从而生成所述事件状态数。

14.一种用于译码音频信号帧中包含事件的时隙位置的方法，所述方法包括：

分析指示所述音频信号帧的时隙总数的帧时隙数，指示所述音频信号帧中的包含事件的时隙数的事件时隙数，和事件状态数；以及

使用所述帧时隙数、所述事件时隙数、和所述事件状态数生成对所述音频信号帧中包含所述事件的多个时隙位置的指示。

15.一种用于编码音频信号帧中包含事件的时隙位置的方法，所述方法包括：

接收或确定指示所述音频信号帧的时隙总数的帧时隙数，

接收或确定指示所述音频信号帧中的包含事件的时隙数的事件时隙数，

基于事件状态数、所述帧时隙数、和所述事件时隙数编码所述事件状态数，使得能够使用所述帧时隙数、所述事件时隙数、及所述事件状态数来对所述音频信号帧中包含所述事件的多个时隙位置的指示进行译码。

16.一种用于译码音频信号帧中包含事件的时隙位置的计算机程序，所述计算机程序实现根据权利要求14所述的用于译码所述音频信号帧中所述事件的时隙位置的方法。

17.一种用于编码音频信号帧中包含事件的时隙位置的计算机程序，所述计算机程序实现根据权利要求15所述的用于编码所述音频信号帧中所述事件的时隙位置的方法。

18.一种包含事件状态数的编码音频信号，其中，所述包含事件的时隙位置能够根据权利要求14所述的方法被译码。