CN101356573A

CN101356573A - 对双耳音频信号的解码的控制

Info

Publication number: CN101356573A
Application number: CNA2006800506591A
Authority: CN
Inventors: J·雅卡; P·奥雅拉
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2006-01-09
Filing date: 2006-01-09
Publication date: 2009-01-28
Anticipated expiration: 2026-01-09
Also published as: EP1971978A1; CN101356573B; ATE476732T1; JP2009522610A; EP1971978B1; DE602006016017D1; US20090129601A1; JP4944902B2; EP1971978A4; US8081762B2; WO2007080212A1

Abstract

一种产生参数编码的音频信号的方法，所述方法包括：输入包括多个音频信号的多声道音频信号；产生多个音频声道的至少一个组合信号；以及产生包括用于控制双耳音频信号的合成中的音频源位置的声道配置信息的一个或者多个相应边带信息集。

Description

对双耳音频信号的解码的控制

技术领域

本发明涉及空间音频编码，并且尤其涉及对双耳(binaural)音频信号的解码进行控制。

背景技术

在空间音频编码中，处理双声道/多声道音频信号使得在不同音频声道上再现的音频信号彼此不同，由此对收听者提供环绕音频源的空间效果的印象。可以通过将音频直接记录成为用于多声道或者双耳再现的适合格式中来创建空间效果，或者空间效果可以在任何双声道/多声道音频信号中仿真(artificially)地创建，这已知为空间化。

通常已知针对耳机再现，仿真空间化可以通过HRTF(头部相关传输函数)滤波来执行，其产生针对收听者的左耳和右耳的双耳信号。声音源信号通过从对应于它们的起源方向的HRTF导出的滤波器来进行滤波。HRTF是从自由场中的声音源到人类或者仿真头部的耳部测量的传输函数，除以到代替头部并且置于头部中部的麦克风的传输函数。仿真房间效果(例如，早期反射和/或后期混响)可以添加到空间化的信号从而提高源外表化和自然性。

随着各种音频收听和交互设备的增加，兼容性变得更重要。在空间音频格式中，通过上混频和下混频技术来争取兼容性。通常已知存在用于将多声道音频信号转换成为立体声格式(诸如Dolby

和Dolby

)以及用于将立体声信号进一步转换成为双耳信号的算法。然而，在这种处理中，原始多声道音频信号的空间图像不能完全再现。一种较好的针对耳机收听的转换多声道音频信号的方式是通过使用HRTF滤波来用虚拟扩音器代替原始扩音器并且通过它们(例如Dolby

)播放扩音器声道信号。然而，这种处理具有以下缺点，即为了产生双耳信号，通常首先需要多声道混频。即，多声道(例如5+1声道)信号首先被解码并且合成，然后将HRTF应用于每个信号从而形成双耳信号。相比于直接从压缩的多声道格式解码到双耳格式，这是一种计算量繁重的方法。

双耳线索编码(Binaural Cue Coding)(BCC)是高度发展的参数空间音频编码方法。BCC将空间多声道信号表示为单个(或者数个)下混频音频声道以及被估计作为来自原始信号的时间和频率的函数的一组感知相关声道间差。该方法允许用于针对将仿真扩音器布局转换为任何其他扩音器布局而混频的空间音频信号，其中所述扩音器布局包括相同数目或者不同数目的扩音器。

因此，将BCC设计用于多声道扩音器系统。原始扩音器布局确定编码器输出的内容，即BCC处理的单声道信号及其边带信息，并且解码器单元的扩音器布局确定该信息如何被转换用于再现。当被再现以用于空间耳机回放时，原始扩音器布局指示将产生的双耳信号的声音源位置。这样，即使同样的空间双耳信号允许用于声音源位置的灵活替换方案，从传统编码的BCC信号产生的双耳信号的扩音器布局也被固定到原始多声道信号的声音源位置。这限制了增强型空间效果的应用。

发明内容

现在发明了一种改进的方法和实施该方法的技术设备，通过所述方法和设备，内容创建器能够控制解码器中的双耳下混频处理。本发明的各方面包括编码方法、编码器、解码方法、解码器、设备以及计算机程序，其特征在于独立权利要求中所述。本发明的各种实施方式在从属权利要求中公开。

根据第一方面，根据本发明的方法是基于产生参数编码的音频信号的思想，所述方法包括：输入包括多个音频声道的多声道音频信号；产生所述多个音频声道的至少一个组合信号；以及产生包括声道配置信息的一个或者多个对应边带信息集，从而控制双耳音频信号的合成中的音频源位置。因此，所述思想是将声道配置信息(即音频源位置信息，其可以是固定的或者可变的)包括到在解码中使用的边带信息中。声道配置信息使得内容创建器能够控制通过耳机收听者感知的空间音像中的声音源的位置的移动。

根据一个实施方式，在整个双音频信号序列上，所述音频源位置是固定的，因此所述方法进一步包括：在对应于所述双耳音频信号序列的所述一个或者多个相应边带信息集中包含作为信息字段的所述声道配置信息。

根据一个实施方式，所述音频源位置是可变的，因此所述方法进一步包括：在所述一个或者多个相应边带信息集中包含所述声道配置信息，作为反映所述音频源位置中的变化的多个信息字段。

根据一个实施方式，所述边带信息集进一步包括与收听位置相关的原始多声道声像的扩音器位置和数目，以及使用的帧长度。

根据一个实施方式，所述边带信息集进一步包括使用在双耳线索编码(BCC)方案中的声道间线索，诸如声道间时间差(ICTD)、声道间声级差(ICLD)以及声道间相干性(ICC)。

根据一个实施方式，所述边带信息集进一步包括描述原始声像的针对多声道音频的声道信号的增益估计集。

第二方面提供了一种用于合成双耳音频信号的方法，所述方法包括：输入包括多个音频声道的至少一个组合信号的参数编码的音频信号以及描述多声道声像并且包含声道配置信息的一个或者多个相应边带信息集；根据所述相应边带信息集来处理所述至少一个组合信号；以及从所述至少一个处理的信号合成双耳音频信号，其中使用所述声道配置信息以用于控制双耳音频信号中的音频源位置。

根据一个实施方式，处理至少一个组合信号的步骤进一步包括：在双耳线编码(BCC)合成处理中从至少一个组合信号合成多个音频声道的原始音频信号，其根据所述一个或者多个相应边带信息集而进行控制；并且将多个合成的音频信号应用到双耳下混频处理。

根据一个实施方式，处理至少一个组合信号的步骤进一步包括：将一组预定的头部相关的传输函数滤波器按照所述相应边带信息集所确定的比例应用到至少一个组合信号，以便合成双耳音频信号。

根据本发明的布置提供了极大的优势。主要优势在于内容创建器能够控制解码器中的双耳下混频处理，即内容创建器对于设计针对双耳内容的动态音像比利用物理固定扩音器位置的扩音器表现更具灵活性。空间效果可以例如通过移动声音源来增强，即虚拟扬声器进一步远离中心(中间)轴。另一优势是一个或者多个声音源能够在回放期间移动，因此实现空间音频效果。

本发明的其他方面包括布置用于执行本发明的上述方法的步骤的各种设备。

附图说明

在下文中，将参考附图对本发明的各种实施方式进行更详细的描述，其中

图1示出了根据现有技术的通用双耳线索编码(BCC)方案；

图2示出了根据现有技术的BCC合成方案的通用结构；

图3示出了根据本发明的一个实施方式的通用双耳编码方案；

图4a和图4b示出了根据本发明的一个实施方式的空间音像中的声音源的位置的替换方案；

图5示出了根据本发明的一个实施方式的双耳解码器的框图；以及

图6在简略框图中示出了根据本发明的一个实施方式的电子设备。

具体实施方式

在下文中，本发明将通过参考双耳线索编码(BCC)作为用于实现根据实施例的编码和解码方案的示例性平台来说明本发明。然而，注意到本发明不仅仅限于BCC类型的空间音频编码方法，而是可以在这样的任何音频编码方案中实施，该音频编码方案提供从一个或者多个音频声道的原始集和适合的空间边带信息组合的至少一个音频信号。

双耳线索编码(BCC)是用于空间音频的参数表示的一般概念，递送来自单个音频声道的具有任意数目声道的多声道输出加上一些边带信息。图1示出了所述概念。数个(M)输入音频声道通过下混频处理组合成为单个输出(S；“求和”)信号。并行地，描述多声道声像的最突出的声道间线索可以从输入声道提取并且压缩编码作为BCC边带信息。然后求和信号和边带信息两者被传送到接收器侧，可以使用适合的低比特率音频编码方案用于编码求和信号。在接收器侧，BCC解码器知晓作为用户输入的扩音器的数目(N)。最终，通过重新合成携带相关声道间线索(诸如声道间时间差(ICTD)、声道间声级差(ICLD)以及声道间相干性(ICC))的声道输出信号，BCC解码器从传送的和信号和空间线索信息产生用于扩音器的多声道(N)输出信号。因此，考虑到尤其是针对扩音器回放优化多声道音频信号的重建而选择BCC边带信息，即声道间线索。

存在两个BCC方案，即，用于灵活呈现(flexible render)的BCC(类型I BCC)，其意味着用于为了在接收器处呈现的目的而传输多个独立源信号，以及自然呈现的BCC(类型II BCC)，其意味着用于传输立体声或者环绕信号的多个音频声道。灵活呈现的BCC采用独立的音频源信号(例如语音信号，独立记录的仪器，多轨道记录)作为输入。接下来，自然呈现的BCC采用“最终混频”立体声或者多声道信号作为输入(例如CD音频、DVD环绕)。如果这些处理通过传统编码技术来执行，则比特率与音频声道的数目成比例或者至少近似成比例地伸缩，例如传送5.1.多声道系统的六个音频声道需要几乎一个音频声道六倍的比特率。然而，两个BCC方案都导致比特率仅略微高于一个音频声道的传输所要求的比特率，因为BCC边带信息仅需要很低的比特率(例如2kb/s)。

图2示出了BCC合成方案的一般结构。传送的单个信号(“求和”)首先在时域加窗成帧并且然后通过FFT处理(快速傅立叶变换)和滤波器组FB而映射到适合子带的频谱表示。在回放声道的通常情况下，在声道对之间的每个子带中，即针对相对于参考声道的每个声道，考虑ICLD和ICTD。选择子带使得实现足够的高频分辨率，例如通常认为等于ERB(等效矩形带宽)比例的两倍的子带宽度是合适的。针对待产生的每个输出声道，个体时间延迟ICTD和声级差ICLD被强加于频谱系数上，后面跟着是相干性合成处理，其重新引入合成的音频声道之间的相干性和/或相关性(ICC)的最相关的方面。最终，所有合成的输出声道通过IFFT处理(逆FFT)转换回到时域表示，导致多声道输出。对于更详细的BCC方法的描述，参见：F.Baumgarte和C.Faller的″Binaural Cue Coding-Part I：Psychoacoustic Fundamentals and Design Principles″(2003年11月的IEEE Transactions on Speech and Audio Processing，Vol.11，No.6)；以及参见：C.Faller和F.Baumgarte的″Binaural Cue Coding-Part II：Schemes and Applications″(2003年11月的IEEE Transactions onSpeech and Audio Processing，Vol.11，No.6)。

BCC是编码方案的一个示例，其提供了一个用于实施根据本发明的编码和解码方案的合适平台。这些实施方式的基本原理示于图3中。根据一个实施方式的编码器将多个输入音频声道(M)组合为一个或者多个组合信号(S)以及同时将多声道声像编码为BCC边带信息(SI)。而且，编码器创建声道配置信息(CC)，即音频源位置信息，其贯穿音频展示可以是固定的，因此仅在音频流的开始时需要单个信息块作为报头信息。可替换地，音频场景可以是动态的，因此位置更新包含在传送的比特流中。源位置更新固有地是可变的速率。因此，使用算法编码，可以有效地对信息进行编码以用于传输。声道配置信息(CC)优选地在边带信息(SI)内进行编码。

然后可以将一个或者多个求和信号(S)、边带信息(SI)以及声道配置信息(CC)传送到接收器侧，其中求和信号(S)被馈送到BCC合成处理中，其是根据通过边带信息的处理导出的声道间线索来控制的。BCC合成处理的输出被馈送到双耳下混频处理中，然后通过声道配置信息(CC)对其进行控制。在双耳下混频处理中，使用的HRTF对根据声道配置信息(CC)而改变，此改变移动耳机收听者所感觉到的空间音像中的声音源的位置。

空间音像中的声音源的位置的改变示于图4a和图4b中。在图4a中，针对耳机收听者创建空间音像作为双耳音频信号，其中模拟(phantom)扩音器位置(即声音源)根据传统5.1扩音器配置来创建。收听者前方的扩音器(FL和FR)被放置成与中心扬声器(C)成30度。后扬声器(RL和RR)被放置成距离中心计算的110度。由于双耳效果，声音源看起来像是处于耳机在与实际5.1回放中相同的位置中的双耳回放中。

在图4b中，通过在双耳域中呈现音像来改变空间音像，使得前部声音源FL和FR(模拟扩音器)移动得进一步远离从而创建增强的空间表像。所述移动通过根据声道配置信息选择用于FL和FR声道的不同HRTF对来完成。可替换地，任何或者所有声音源可以在不同的位置中移动，即使在回放期间。因此，当呈现双耳音频内容时，内容创建器设计动态音像更具灵活性。

为了允许声音源的平滑移动，解码器必须包含足够数目的HRTF对从而自由地改变空间音像中的声音源的位置。可以假定人类听觉系统不能根据入射角度区分彼此之间小于二度至五度的声音源的两个位置。然而，通过插入法使用HRTF的变化的平滑度作为入射角的函数，可以利用较稀少的HRTF滤波器集来实现足够的分辨率。如果需要覆盖360度的整个空间音像，则足够数目的HRTF对是360/10＝36HRTF对。当然，大多数空间效果不要求声音源位置的连续不同变化，因此甚至可以自然地使用小于36对HRTF，但是然后收听者通常感觉到声音源位置的变化是有区别的。

根据本发明的声道配置信息及其在空间音像中的效果可以应用在传统BCC编码方案中，其中声道配置信息是在承载相关空间声道间线索ICTD、ICLD和ICC的边带信息(SI)中进行编码的。BCC解码器基于接收的求和信号(S)和边带信息(SI)合成用于多个扩音器的原始音像，并且来自合成处理的多个输出信号进一步应用于双耳下混频处理，其中根据声道配置信息对HRTF对的选择进行控制。

然而，这样从BCC处理的单声道信号及其边带信息产生双耳信号需要基于单声道信号和边带信息首先合成多声道表示，并且只有那样才可能从多声道表示产生用于空间耳机回放的双耳信号。这是一种计算量繁重的方法，其未考虑到产生双耳信号而优化。

因此，可以考虑到根据一个实施方式产生双耳信号来简化BCC解码处理，其中代替合成多声道表示，用对应于与收听位置相关的扩音器方向的HRTF对来代替原始混频中的每个扩音器。单声道化信号的每个频率声道通过按照由具有在其中编码的声道配置信息的一组增益值集所指示的比例来馈送到实施HRTF的每对滤波器。因此，可以认为该处理是在双耳音频场景中实施对应于原始扩音器的虚拟扩音器集。因此，该实施方式允许双耳音频信号从参数编码的空间音频信号直接导出，而无需任何中间BCC合成处理。

该实施方式参见图5进一步示于下文中，图5示出了根据本实施方式的双耳解码器的框图。解码器500包括用于单声道化信号的第一输入502以及用于包括在其中编码的声道配置信息的边带信息的第二输入504。为了说明实施方式，输入502、504被示为不同的输入，而本领域技术人员将理解到在实际实现中，单声道化信号和边带信息可以经由相同的输入来提供。

根据一个实施方式，边带信息不必须包括与BCC方案中相同的声道间线索，即声道间时间差(ICTD)、声道间声级差(ICLD)以及声道间相干性(ICC)，而是改为仅仅一个增益估计集就足够，其中所述增益估计集定义每个频带处的原始混频的声道中的声压的分布。声道配置信息可以在增益估计内进行编码，或者它可以在音频流的起点或者偶然包含在传送的比特流中的单个字段中作为单个信息块(诸如报头信息)传送。除了增益估计和声道配置信息以外，边带信息还优选地包括与收听位置相关的原始混频的扩音器的数目和位置，以及使用的帧长度。根据一个实施方式，代替从编码器将增益估计作为边带信息的一部分进行传送，增益估计是在解码器中从BCC方案的声道间线索中(例如从ICLD中)计算的。

解码器500进一步包括加窗单元506，其中单声道化信号首先划分为使用的帧长度的时间帧，并然后帧可以被适合地加窗，例如正弦窗。应该调整适合的帧长度使得帧对于离散傅立叶变换(DFT)足够长而同时足够短以管理信号中的快速变化。实验已经示出合适的帧长度是大约50ms。因此，如果使用了采样频率44.1kHz(通常使用在各种音频编码方案中)，则帧可以包括例如1048个采样，其导致帧长度为46.4ms。优选地完成加窗，使得相邻窗口可以重叠50％，从而平滑化由频谱修改所引起的跃迁(声级和延迟)。

此后，在FFT单元508中，加窗的单声道信号转换到频域。为了有效计算，所述处理在频域中完成。为此目的，信号馈送到滤波器组510，其将信号划分到心理听觉激发频带。根据一个实施方式，将滤波器组510设计为使得将其布置用于将信号遵照通常知晓的等效矩形带宽(ERB)比例划分为32个频带，导致信号分量X₀，...，X₃₁在所述32个频带上。

解码器500包括HRTF集512、514作为预存储的信息，从该信息根据声道配置信息选出对应于每个扩音器方向的左-右HRTD对。为了说明目的，两个HRTF集512、514示于图5中，一个用于左侧信号并且一个用于右侧信号，但是明显的是在实际实施中，一个HRTF集就足够了。为了调整选择的左-右HRTF对从而对应于每个扩音器声道声音级，优选地估计增益值G。如上所述，增益估计可以包含在从编码器接收的边带信息中，或者它们可以在解码器中基于BCC边带信息而被计算。因此，针对每个扩音器声道将增益估计为时间和频率的函数，并且为了保留原始混频的增益级，优选地调整用于每个扩音器声道的增益使得每个增益值的平方之和等于一。这提供了以下优势，如果N是实际产生的声道的数目，则仅需要从编码器传送N-1增益估计，并且可以基于N-1增益值来计算丢失的增益值。然而，本领域技术人员理解到本发明的操作不必调整每个增益值的平方之和等于一，而是解码器可以将增益值的平方按比例缩放使得和等于一。

因此，根据声道配置信息选择适合的HRTF滤波器的左-右对512、514，并且然后按照增益集G所指示的比例调整选择的HRTF对，其得到调整的HRTF滤波器512’、514’。再次注意到在实践中，原始HRTF滤波器幅度512、514仅根据增益值来缩放，但是出于示出实施方式的原因，“附加的”HRTF集512’、514’示于图5中。

对于每个频带，将单声道信号X₀，...，X₃₁馈送到调整的每个HRTF滤波器左-右对512’、514’。然后针对左侧信号和右侧信号的滤波器输出在求和单元516、518中进行求和用于两个双耳声道。求和的双耳信号再次被加正弦窗，并通过在IFFT单元520、522中执行的逆FFT处理而转换回到时域。在分析滤波器求和不为一的情况下，或者它们的相位响应不是线性的情况下，则优选地使用适合的合成滤波器以避免最终的双耳信号B_R和B_L中的失真。

根据一个实施方式，为了增强双耳信号的外表化，即头部外的定位，可以将适度的房间响应添加到双耳信号。为此，解码器可以包括混响单元，优选地位于求和单元516、518和IFFT单元520、522之间。添加的房间响应模拟扩音器收听情形中的房间的效果。然而，混响时间需要足够短以使得计算复杂性不会显著提高。

本领域技术人员应该理解，因为HRTF高度独立并且不可能平均，所以完美的重新空间化仅可以通过测量收听者自己的唯一HRTF集而实现。因此，HRTF的使用必然使信号有色化使得处理的音频的质量不等于原始的。然而，因为测量每个收听者的HRTF是不理想的选择，所以当使用了模型化集或者从仿真头部或者具有平均大小和明显对称的头部的人测量的集时，则实现了可能的最佳结果。

如上所述，根据一个实施方式，增益估计可以包含在从编码器接收的边带信息中。因此，本发明的一个方面涉及用于多声道空间音频信号的编码器，其将针对每个扩音器声道的增益估计为频率和时间的函数并且将增益估计包括在待沿着一个(或者多个)组合的声道进行传送的边带信息中。而且，根据内容创建器的指令，编码器将声道配置信息包括到边带信息中。因此，内容创建器能够控制解码器中的双耳下混频处理。例如通过移动声音源(虚拟扬声器)进一步远离中心(中间)轴可以增强空间效果。另外，可以在回放期间移动一个或者多个声音源，这样实现指定音频效果。因此，内容创建器在设计针对双耳内容的音像方面比具有物理固定扩音器位置的扩音器表示更具自由度和灵活性。

编码器例如可以是已知的BCC编码器，在描述多声道声像的声道间线索ICTD、ICLD和ICC之外或者代替之，其进一步被布置用于计算增益估计。编码器可以将声道配置信息编码在增益估计内，或者作为音频流的起点中的单个信息块而被编码(在固定声道配置的情况下)，或者如果使用了动态配置更新，则编码在偶然包含在传送的比特流中的独立字段中。然后求和信号和边带信息两者(至少包括增益估计和声道配置信息)被传送到接收器侧，优选地使用适合的较低比特率音频编码方案用于编码求和信号。

根据一个实施方式，如果在编码器中计算增益估计，则通过对比每个独立声道的增益级和组合声道的累积增益级来执行所述计算，即，如果我们用X表示增益级，用“m”表示原始扩音器布局的独立声道并且用“k”表示采样，则针对每个声道的增益估计计算为|X_m(k)|/|X_SUM(k)|。因此，增益估计确定每个独立声道对比于所有声道的总增益幅度的成比例的增益幅度。

出于简化目的，描述了先前示例使得输入声道(M)在编码器中下混频从而形成单个组合(例如单声道)声道。然而，实施方式在可替换实施中同样可应用，其中，根据特定音频处理应用，将多个输入声道(M)下混频从而形成两个或者多个独立的组合声道(S)。如果下混频产生多个组合声道，则组合声道数据可以使用传统音频传输技术来传送。例如，如果产生了两个组合信号，则可以使用传统立体声传输技术。在这种情况中，BCC解码器可以提取并且使用BCC代码组，从而从两个组合的声道合成双耳信号。

根据一个实施方式，根据特定应用，合成的双耳信号中实际产生的“扩音器”的数目(N)可以不同于(大于或者小于)输入声道的数目(M)。例如，输入音频可以对应于7.1环绕声音并且双耳输出音频可以合成为对应于5.1环绕声音，反之亦然。

上述实施方式可以概括为使得本发明的实施方式允许将M个输入音频声道转化为S个组合音频声道，以及一个或者多个相应边带信息集，其中M＞S，并且允许从S个组合音频声道和相应边带信息集产生N个输出声道，其中N＞S，并且N可以等于或者不等于M。

因为用于一个组合声道和必要边带信息的传输所需要的比特率非常低，所以本发明尤其能够良好应用于诸如无线通信系统之类的可用带宽是稀少的资源的系统中。因此，实施方式尤其可应用于通常缺乏高质量扩音器的移动终端或者其他便携式设备中，其中可以通过收听根据实施方式的双耳音频信号的耳机来引入多声道环绕声音的特征。另一可行的应用的领域包括电话会议服务，其中通过向收听者给出会议呼叫参与者处于会议房间中不同位置处的印象，可以容易地区分电话会议的参与者。

图6示出了数据处理设备(TE)的简化结构，其中可以实施根据本发明的双耳解码系统。数据处理设备(TE)例如可以是移动终端、PDA设备或者个人计算机(PC)。数据处理单元(TE)包括I/O装置(I/O)、中央处理单元(CPU)和存储器(MEM)。存储器(MEM)包括只读存储器ROM部分和可重复读写部分，诸如随机存取存储器RAM和闪存存储器。通过I/O装置(I/O)传送去往/来自中央处理单元(CPU)的用于与不同外部方(例如CD-ROM、其他设备以及用户)进行通信的信息。如果数据处理设备实施为移动台，其通常包括收发器Tx/Rx，其与无线网络进行通信，通常通过天线与基站收发台进行通信。用户接口(UI)设备通常包括显示器、键盘、麦克风以及用于耳机的连接装置。数据处理设备可以进一步包括连接装置MMC，诸如标准形状插槽，用于各种硬件模块或者作为集成电路IC，其可以提供将在数据处理设备中运行的各种应用。

因此，根据本发明的双耳解码系统可以在数据处理设备的中央处理单元CPU中或者在专用数字信号处理器(DSP)(参数编码处理器)中执行，由此，数据处理设备接收包括多个音频声道的至少一个组合信号和描述多个声道声像并且包括用于控制双耳音频信号中的音频源位置的声道配置信息的一个或者多个相应边带信息集的参数编码音频信号。根据所述相应边带信息集，至少一个组合信号在处理器中处理。参数编码的音频信号可以从存储器装置接收，诸如CD-ROM，或者经由天线或者经由天线和收发机Tx/Rx从无线网络中接收。数据处理设备进一步包括合成器，其包括例如合适的滤波器组和一组预定的与头部相关的传输功函数滤波器，由此，双耳音频信号从至少一个经处理的信号合成，其中使用所述声道配置信息来控制双耳音频信号中的音频源位置。然后经由耳机再现双耳音频信号。

同样地，根据本发明的编码系统也可以在数据处理设备的中央处理单元CPU中或者在专用数字信号处理器(DSP)中执行，由此，数据处理设备生成包括多个音频声道的至少一个组合信号和包含了用于控制双耳音频信号中的音频源位置的声道配置信息的一个或者多个相应边带信息集。

本发明的功能还可以实施在终端设备中，诸如移动台，还可以作为计算机程序实施，当在中央处理单元CPU或专用数字信号处理器DSP中执行所述计算机程序时，所述计算机程序使得终端设备来实现本发明的过程。可将计算机程序SW的功能分布于相互通信的若干单独的程序组件。可将计算机软件存储于任何存储器装置中，诸如PC的硬盘或CD-ROM盘，可以从该处将其加载到移动终端的存储器内。也可通过网络加载计算机软件，例如，使用TCP/IP协议栈。

也可以使用硬件方案或硬件和软件方案的组合来实现本发明的装置。因而，可将上述计算机程序产品至少部分地在硬件模块中实现为硬件方案，例如，ASIC或FPGA电路，硬件模块包括用于将模块连接到电子器件的连接装置，或者实现为一个或多个集成电路IC，硬件模块或IC进一步包括用于执行所述程序代码任务的多种装置，将所述装置实现为硬件和/或软件。

很明显本发明不仅仅限于上文示出的实施方式，而是可以在所附权利要求书的范围内加以修改。

Claims

1.一种用于产生参数编码的音频信号的方法，所述方法包括：

输入包括多个音频声道的多声道音频信号；

产生所述多个音频声道的至少一个组合信号；以及

产生包括用于控制双耳音频信号合成中的音频源位置的声道配置信息的一个或者多个相应边带信息集。

2.根据权利要求1所述的方法，其中

所述音频源位置信息在整个双耳音频信号序列上是固定的，所述方法进一步包括：

在对应于所述双耳音频信号序列的所述一个或者多个相应边带信息集中包含作为信息字段的所述声道配置信息。

3.根据权利要求1所述的方法，其中

所述音频源位置是可变的，所述方法进一步包括：

在所述一个或者多个相应边带信息集中包含所述声道配置信息，作为反映所述音频源位置中的变化的多个信息字段。

4.根据前述权利要求中任意一项所述的方法，其中

所述边带信息集进一步包括与收听位置相关的原始多声道声像的扩音器的位置和数目，以及使用的帧长度。

5.根据前述权利要求中任意一项所述的方法，其中

所述边带信息集进一步包括使用在双耳线索编码(BCC)方案中的声道间线索，诸如声道间时间差(ICTD)、声道间声级差(ICLD)以及声道间相干性(ICC)。

6.根据前述权利要求中任意一项所述的方法，其中

所述边带信息集进一步包括描述原始声像的针对多声道音频的声道信号的增益估计集。

7.根据权利要求6所述的方法，进一步包括：

将原始多声道音频的增益估计集确定为时间和频率的函数；以及

调整针对每个扩音器信号的增益，使得每个增益值的平方和等于一。

8.一种用于产生参数编码音频信号的参数音频编码器，所述编码器包括：

用于输入包括多个音频声道的多声道音频信号的装置；

用于产生所述多个音频声道的至少一个组合信号的装置；以及

用于产生包括用于控制双耳音频信号合成中的音频源位置的声道配置信息的一个或者多个相应边带信息集的装置。

9.根据权利要求8所述的编码器，进一步包括：

用于如果所述音频源位置信息在整个所述双耳信号序列上是固定的，则在对应于所述双耳音频信号序列的所述一个或者多个相应边带信息集中包含作为信息字段的所述声道配置信息的装置。

10.根据权利要求8或者9所述的编码器，进一步包括：

用于如果所述音频源位置是可变的，则在所述一个或者多个相应边带信息集中包含所述声道配置信息，作为反映所述音频源位置中的变化的多个信息字段的装置。

11.根据权利要求8至10中任意一项所述的编码器，其中

12.根据权利要求8至11中任意一项所述的编码器，其中

13.一种计算机程序产品，存储在计算机可读介质之上并且可在数据处理设备中执行，用于产生参数编码的音频信号，所述计算机程序产品包括：

计算机程序代码部分，其用于输入包括多个音频声道的多声道音频信号；

计算机程序代码部分，其用于产生所述多个音频声道的至少一个组合信号；以及

计算机程序代码部分，其用于产生包括用于控制双耳音频信号合成中的音频源位置的声道配置信息的一个或者多个相应边带信息集。

14.一种合成双耳音频信号的方法，所述方法包括：

输入包括多个音频声道的至少一个组合信号以及描述多声道声像并且包含声道配置信息的一个或者多个相应边带信息集的参数编码的音频信号；

根据所述相应边带信息集来处理所述至少一个组合信号；以及

从至少一个处理的信号合成双耳音频信号，其中使用所述声道配置信息用于控制双耳音频信号中的音频源位置。

15.根据权利要求14所述的方法，其中

16.根据权利要求15所述的方法，其中处理所述至少一个组合信号的步骤进一步包括：

在双耳线索编码(BCC)合成处理中从所述至少一个组合信号中合成所述多个音频声道的原始音频信号，其根据一个或者多个相应边带信息集而进行控制；以及

将多个合成的音频信号应用到双耳下混频处理。

17.根据权利要求14所述的方法，其中

18.根据权利要求17所述的方法，其中处理至少一个组合信号的步骤进一步包括：

将一组预定的头部相关的传输函数滤波器按照所述相应边带信息集所确定的比例应用到至少一个组合信号，以便合成双耳音频信号。

19.根据权利要求18所述的方法，进一步包括：

根据所述声道配置信息，从所述一组预定的头部相关的传输函数滤波器应用头部相关函数滤波器的左-右对。

20.一种参数音频解码器，包括：

参数代码处理器，用于处理包括多个音频声道的至少一个组合信号和描述多声道声像和包含了声道配置信息的一个或者多个相应边带信息集的参数编码的音频信号，其中根据所述相应边带信息集来处理所述至少一个组合信号；以及

合成器，用于从至少一个处理的信号合成双耳音频信号，其中使用所述声道配置信息用于控制双耳音频信号中的音频源位置。

21.根据权利要求20所述的解码器，其中

22.根据权利要求21所述的解码器，其中：

将所述合成器布置用于在双耳线索编码(BCC)合成处理中从所述至少一个组合信号合成所述多个音频声道的原始音频信号，其中根据一个或者多个所述相应边带信息集来对其进行控制；以及所述解码器进一步包括

双耳下混频单元，对其应用多个合成的音频信号以用于根据所述声道配置信息来合成双耳音频信号。

23.根据权利要求20所述的解码器，其中

24.根据权利要求23所述的解码器，其中：

将所述合成器布置用于将一组预定的头部相关的传输函数滤波器按照所述相应边带信息集所确定的比例来应用到至少一个组合信号，以便合成双耳音频信号。

25.根据权利要求24所述的解码器，其中

将所述合成器布置用于根据所述声道配置信息，从所述一组预定的头部相关的传输函数滤波器应用头部相关函数滤波器的左-右对。

26.一种计算机程序产品，存储在计算机可读介质之上并且可在数据处理设备中执行，用于处理包括多个音频声道的至少一个组合信号和描述多声道声像和包含了声道配置信息的一个或者多个相应边带信息集的参数编码的音频信号，所述计算机程序产品包括：

计算机程序代码部分，用于根据所述相应边带信息集来对所述至少一个组合信号的处理进行控制；以及

计算机程序代码部分，用于从至少一个处理的信号合成双耳音频信号，其中使用所述声道配置信息用于控制双耳音频信号中的音频源位置。

27.一种用于合成双耳音频信号的设备，所述设备包括：

用于输入包括多个音频声道的至少一个组合信号和描述多声道声像和包含了声道配置信息的一个或者多个相应边带信息集的参数编码的音频信号的装置；

用于根据所述相应边带信息集来对所述至少一个组合信号进行处理处理的装置；

用于从至少一个处理的信号合成双耳音频信号的装置，其中使用所述声道配置信息用于控制双耳音频信号中的音频源位置；

用于在音频再现装置中提供双耳音频信号的装置。

28.根据权利要求27所述的设备，所述设备是移动终端、PDA设备或者个人计算机。