CN1655651A

CN1655651A - 基于后期混响的听觉场景

Info

Publication number: CN1655651A
Application number: CNA2005100082549A
Authority: CN
Inventors: 弗兰克·鲍姆加特; 克里斯多夫·法勒
Original assignee: Agere Systems LLC
Current assignee: Avago Technologies International Sales Pte Ltd
Priority date: 2004-02-12
Filing date: 2005-02-07
Publication date: 2005-08-17
Anticipated expiration: 2025-02-07
Also published as: KR101184568B1; US7583805B2; JP4874555B2; US20050180579A1; CN1655651B; HK1081044A1; KR20060041891A; JP2005229612A; EP1565036A3; EP1565036A2; EP1565036B1

Abstract

一种声道间相关(ICC)(正规化交叉相关)线索的立体声和多声道合成方案，用于参量立体声和多声道编码。该方案合成ICC线索，使得它们逼近原始的线索。为此，产生漫射音频声道并与传输的组合(例如求和)信号(多)混合。最好使用以指数衰减高斯脉冲响应的相对长的滤波器产生漫射音频声道。这种脉冲响应产生类似于回响的漫射声。提出了另一种可选的用于降低计算复杂性的实现，其中声道间电平差(ICLD)，声道间时间差(ICTD)，及ICC合成，包括用于漫射声产生的滤波，都在单个短时付立叶变换(STFT)域中进行。

Description

基于后期混响的听觉场景

技术领域

本发明涉及音频信号编码及从编码的音频数据的听觉场景的后继合成。

对相关申请的交叉参考

本申请要求作为代理人提要no.Faller 12在02/12/04提交的美国临时申请No.60/544,287的权益。这一申请的主题涉及以下专利申请的主题，作为代理人提要no.Faller 5在05/04/2001提交的序号09/848,877美国专利申请(“877申请”)，作为代理人提要no.Baumgarte 1-6-8在11/07/2001提交的序号10/045,458美国专利申请(“458申请”)，以及作为代理人提要no.Baumgarte 2-10(“437申请”)在05/24/2002提交的序号10/155,437美国专利申请。并参见C.Faller andF.Baumgarte，“Binaural Cue Coding Applied to Stereo andMulti-Channel Audio Compression，”Preprint 112th Conv.Aud.Eng.Soc.，May，2002。

背景技术

当人听到由一特定的音频源产生的音频信号(即声音)时，音频信号一般将在不同的时间并以两个不同的音频(例如分贝)级到达人的左和右耳，其中不同的时间和级分别是音频信号行进到达左和右耳的路径差别的函数。人的大脑解释这种时间和级别的这些差，以向人给出这样的感觉，即接收的音频信号是由位于相对于人特定的位置(例如方向和距离)的音频源产生的。听觉场景是同时听到由位于相对于人的一个或多个不同位置的一个或多个不同音频源产生的音频信号的人的净效果。

由大脑进行的这一处理的存在能够用来合成听觉场景，其中来自一个或多个不同音频源的音频信号被故意修改以产生左和右音频信号，给出不同音频源相对于收听者位于不同位置的感觉。

图1示出传统的双耳信号合成器100的高级框图，该合成器把单个的音频源信号(例如单声道信号)转换为双耳信号的左和右音频信号，其中双耳信号定义为在收听者的耳鼓收到的两个信号。除了音频源信号之外，合成器100接收一组对应于相对于收听者的音频源所需位置的空间线索。在典型的实现方法中，这组空间线索包括声道间的电平差(ICLD)值(该值标识分别作为左和右耳收到的左和右音频信号之间音频电平差)，以及声道间的时间差(ICTD)值(其标识分别作为左和右耳收到的左和右音频信号之间到达的时间差)。此外或作为替代实现，某些合成技术涉及对于从信号源到耳鼓的声音的与方向有关的传递函数，还涉及与头部相关的传递函数(HRTF)。例如参见J.Blauert，The Psychophysics of Human Sound Lacalization，MIT Press，1983。

使用图1的双耳信号合成器100，由单声源产生的单声道音频信号被这样处理，当通过头戴耳机收听时，通过施加一组适当的空间线索(例如ICLD，ICTD，和/或HRTF)在空间放置声源以产生用于每一耳的音频信号。例如参见，D.R.Begault，3-d Sound for VirtualReality and Multimedia，Academic Press，Cambridge，MA，1994。

图1的双耳信号合成器100产生最简单类型的听觉场景：其具有相对于收听者定位的单音频源。使用听觉场景合成器能够产生更复杂的听觉场景，包括相对于收听者位于不同位置的两个或多个音频源，这种合成器主要是使用多个双耳信号合成器样品实现的，其中每一双耳信号合成器样品产生对应于不同音频源的双耳信号。由于每一不同的音频源有相对于收听者不同的位置，对每一不同音频源使用不同的空间线索集合产生双耳音频信号。

图2示出传统听觉场景合成器200的高级框图，其对每一不同音频源使用不同空间线索集合，把多个音频源信号(例如多个单声道信号)转换为单个组合的双耳信号的左和右音频信号。然后左音频信号被组合(例如通过简单的相加)以对于结果的听觉场景产生左音频信号，并对于右音频信号类似。

听觉场景合成的应用之一是会议。例如假设有多个参加者的桌面会议，每一参加者在不同城市坐在他或她的个人计算机(PC)前。除了PC监视器之外，每一参加者的PC装有(1)一麦克风，其产生对应于该参加者对会议音频部分贡献的单音频源信号，以及(2)用于播放该音频部分的一组头戴耳机。在每一参加者PC监视器上显示作为从坐在桌子一端的人的视界所观察的会议桌的图像。在桌面不同位置显示的是其他会议参加者的实时视频图像。

在传统的单声道会议系统中，服务器把来自所有参加者的单声道信号组合为单个的组合的单声道信号，该信号被传送回每一参加者。为了使对每一参加者的感觉更加真实，使得他或她与其他参加者似乎坐在房间中实际会议桌旁，服务器可实现一种听觉场景合成器，诸如图2的合成器200，把适当的空间线索集合施加到来自每一不同参加者的单声道音频信号，并然后组合不同左和右音频信号，以对每一听觉场景产生单个组合的双耳信号的左和右音频信号。然后用于这一组合的双耳信号的左和右音频信号被传送到每一参加者。使用这种传统的立体声会议系统的问题之一涉及到传输带宽，因为服务器必须向每一会议参加者传送左音频信号和右音频信号。

发明内容

‘877和‘458申请描述了合成听觉场景技术，该技术涉及现有技术的传输带宽问题。根据‘877申请，对应于位于相对于收听者不同位置的多个音频源的听觉场景，是使用两个或多个不同的听觉场景参数(例如空间线索，诸如声道间电平差(ICLD)值，声道间时间时延(ICTD)值，和/或与头相关的传递函数(HRTF))从单个组合(例如单声道)的音频信号合成的。这样，在上述基于PC的会议的情形下，可实现一种解决方案，其中每一参加者的PC只接收对应于来自所有参加者(加不同的听觉场景参数)的单声道音频源信号的单个的音频信号。

‘877申请中所述的技术基于这样的假设，对于来自特定音频源的源信号的能量单声道音频信号中所有其他源信号能量占优势的那些频率子频带，就收听者的观点来看，单音频信号能够如同其只对应于该特定音频源那样被处理。根据这一技术的实现，不同的听觉场景参数集合(每一个对应于一特定的音频源)施加到单声道音频信号中不同频率子带，以合成听觉场景。

‘877申请中所述的技术从一个单声道音频信号与两个或多个不同听觉场景参数的集合产生听觉场景。‘877申请描述了单声道音频信号及其对应的听觉场景参数集合是如何产生的。用于产生单声道音频信号及其对应的听觉场景参数集合的该技术在本说明书中称为双耳线索编码(BCC)。BCC技术与在‘877和‘458申请中所述的空间线索(PCSC)技术的感知编码相同。

根据‘458申请，采用BCC技术以产生组合的(例如单声道)音频信号，其中在组合的音频信号中嵌入不同的听觉场景参数集合，使得结果的BCC信号能够由基于BCC的解码器或传统的(即以前的或非BCC)接收器处理。当通过基于BCC的解码器处理时，基于BCC的解码器抽取嵌入的听觉场景参数，并采用‘877申请的听觉场景合成技术产生双耳(或较高)的信号。听觉场景参数嵌入在BCC信号中，使得对于传统的接收器是透明的，该接收器处理BCC信号如同传统的(或单声道)音频信号那样。这样，通过基于BCC的解码器在‘458申请中所描述的技术支持‘877申请的BCC处理，同时提供向后兼容性，以使BCC信号能够由传统的接收器按传统方式处理。

‘877和‘458申请中所述的BCC技术，通过在BCC编码器把双耳输入信号(例如左和右音频声道)转换为单个的单声道音频声道，以及与单声道信号平行传输(或频带内或频带外)的双耳线索编码(BCC)参数流，有效地降低了传输带宽的需求。例如单声道信号能够以大约对应的两声道立体声信号所需的大约50-80％位速率传输。对于BCC参数附加的位速率只是几千位/秒(即大于比编码音频声道小的量级)。在BCC解码器，从接收的单声道信号和BCC参数合成双耳信号的左和右声道。

双耳信号的相干性与感觉的音频源宽度有关。音频源越宽，结果的双耳信号左和右声道之间的相干性越低。例如，对应于散布在演奏厅舞台上的管弦乐的双耳信号的相干性一般比对应于单个的小提琴独奏的双耳信号相干性低。一般来说，通常感觉较低相干性的音频信号在听觉空间散布得更多。

‘877和‘458申请的BCC技术产生双耳信号，其中左和右声道之间的相干性接近最大可能的值1。如果最初的双耳输入信号有小于最大的相干性，则BCC解码器将不再生有相同相干性的立体声信号。其结果是听觉图像常常以产生太窄的图像而出错，这产生太“干”的声学印象。

特别地，左和右输出声道将具有高的相干性，因为它们是从同一单声道信号通过在听觉临界频带慢变化电平修改产生的。把听觉范围划分为离散数目的音频子带的临界频带模型，心理声学中用来解释听觉系统的谱融合。对于耳机回放，左和右输出声道分别是左和右耳输入信号。如果耳信号具有高相干性，则在信号中获得的听觉对象将被感觉为非常“局部化”，且它们在听觉空间图像中只有很小的散布。对于扬声器回放，扬声器信号只是直接确定耳信号，因为必须考虑从左扬声器到右耳以及从右扬声器到左耳的串音。此外，房间的反射对于感知的听觉图像也能够起到重要作用。然而，对于扬声器回放，类似于耳机回放，高相干信号的听觉图像是非常窄且局部的。

根据‘437申请，‘877和‘437申请的BCC技术延伸到包含基于输入音频信号相干性的BCC参数。相干性参数从BCC编码器与其他BCC参数与编码的单声道信号平行传送到BCC解码器。BCC解码器解码器采用相干性参数与其他BCC参数组合，以合成一种带有听觉对象的听觉场景(例如双耳信号的左和右声道)，这些对象的感知宽度更精确地匹配产生最初输入到BCC编码器的音频信号的听觉对象的宽度。

与由‘877和‘437申请的BCC技术产生听觉对象的窄图像宽度相关的问题，是对不精确估计听觉空间线索(即BCC参数)的敏感性。特别是使用耳机回放，应当处于空间中稳定位置的听觉对象趋向随机运动。无意识在附近的运动的对象的感知可能是令人讨厌的，并实质上降低了感知的音频质量。当采用‘437申请的实施例时，这一问题如果不是完全但基本上消失了。

‘437申请的基于相干的技术在相对高的频率比在相对低的频率趋向工作得更好。根据本发明一定的实施例，‘437申请的基于相干的技术对于一个或多个—并可能所有的--频率子带由回响技术代替。在一个混合的实施例中，对于低频(例如低于规定的(例如凭经验确定的)阈值频率的频率子带)实现了回响技术，而对于高频(例如大于阈值频率的频率子带)实现‘437申请的基于相干的技术。

在一个实施例中，本发明是用于合成听觉场景的一种方法。至少一个输入声道被处理以产生两个或多个被处理的输入信号，且至少一个声道被滤波以产生两个或多个漫射的信号。两个或多个漫射信号与两个或多个被处理的输入信号组合，以为听觉场景产生多个输出声道。

在另一实施例中，本发明用于合成听觉场景的一种设备。该设备包括至少一个时域到频域(TD-FD)转换器与多个滤波器的一种配置，其中该配置适于从至少一个TD输入声道产生两个或多个被处理的FD输入信号和两个或多个漫射的FD信号。该设备还具有(a)两个或多个组合器，其适于组合两个或多个漫射FD信号与两个或多个被处理的FD输入信号，以产生多个合成的FD信号，以及(b)两个或多个频域到时域(TD-FD)转换器，其适于把合成的FD信号转换为用于听觉场景的多个TD输出声道。

附图说明

从以下详细的说明，所附的权利要求，及伴随的图示，本发明的其他方式，特征和优点将更为充分地表现出来，其中：

图1示出传统的双耳信号合成器的高级框图，其把单音频源信号(例如单声道信号)转换为双耳信号的左和右音频信号；

图2示出传统的听觉场景合成器的高级框图，其把多个频源信号(例如多个单声道信号)转换为单个组合双耳信号的左和右音频信号；

图3示出进行双耳线索编码的一种音频处理系统的框图；

图4示出根据‘437申请的一个实施例图3对应于相干度量产生的BCC分析器的处理部分的框图；

图5示出由图3的BCC合成器的一个实施例进行的音频处理的框图，使用基于相干音频合成把单个组合声道转换为两个或多个合成的音频输出声道；

图6(A)-(E)表示有不同线索编码的信号的感知；

图7示出由图3的BCC合成器进行的音频处理的框图，根据本发明的一个实施例使用基于回响的音频合成，把单个组合声道转换为(至少)两个合成的音频输出声道；

图8-10表示一示例性五声道音频系统；

图11和12图示出后期混响(late reverberation)滤波与DFT变换的定时；

图13示出由图3的BCC合成器进行的音频处理的一框图，根据本发明另一实施例使用基于回响的音频合成，把单个组合声道转换为两个合成的音频示出声道，其中LR处理在频率域中实现。

具体实施方式

基于BCC的音频处理

图3示出进行双耳线索编码(BCC)的音频处理系统300的框图。BCC系统300有一个BCC编码器302，其接收C音频输入声道308，其来自例如分布在音乐厅内不同位置的C个不同的麦克风306的每一个。BCC编码器302有一个下降混频器(downmixer)310，其把C个音频输入声道转换为(例如求平均)一个或多个但少于C个组合的声道312。此外，BCC编码器302具有一BCC分析器314，其对于C个输入声道产生BCC线索代码数据流316。

在一种可能的实现中，对于每一输入声道BCC线索代码包含声道之间电平差(ICLD)，声道之间的时间差(ICTD)，以及声道之间的相关(ICC)数据。BCC分析器314最好进行模拟‘877‘458申请中所述的基于频带的处理，以便对于音频输入声道的一个或多个不同的频率子带产生ICLD和ICTD数据。此外，BCC分析器314最好对每一频率子带产生相干度量作为ICC数据。这些相干度量在本说明书的下节中更详细描述。

BCC编码器302向BCC系统300的BCC解码器304传送一个或多个组合声道312与BCC线索代码数据流316(例如对于组合声道频带内或频带外侧的信息)。BCC解码器304具有辅助信息处理器318，其处理数据流316以便恢复BCC线索代码320(例如ICLD，ICTD，及ICC数据)。BCC解码器304还具有一个BCC合成器322，其使用恢复的BCC线索代码320从一个或多个组合的声道312合成C个音频输出声道324，用于分别通过C个扬声器326播放。

从BCC编码器302到BCC解码器304的数据传输的定义将依赖于音频处理系统300具体的应用。例如，诸如音乐会现场广播等某些应用中，传输可能涉及用于在远方立即回放的数据的实时传输。在其他应用中，“传输”可能涉及向CD或其他适当的存储介质供后来(即非实时)回放的数据的存储。当然，其他的应用也是可能的。

在音频处理系统300的一种可能的应用中，BCC编码器302把传统的5.1环绕声(即五个通常的音频声道+一个低频效果(LFE)声道，也称为亚低音声道)的六个音频输入声道，转换为单个的组合声道312及对应的BCC线索代码316，且BCC编码器304从单个的组合声道312和BCC线索代码316，产生合成的5.1环绕声(即五个合成的普通的音频声道+一个合成的LFE声道)。包含7.1环绕声或10.2环绕声的许多其他应用也可能的。

此外，虽然C个输入声道可下降混频为单个的组合声道312，但在另一实现中，C个输入声道可下降混频为两个或多个不同的组合声道，这取决于具体的音频处理应用。某些应用中，当下降混频产生两个组合声道时，可使用传统的立体声音频传输机制传送组合的声道数据。这样又可提供向后兼容性，其中使用传统(即非基于BCC)的立体声解码器回放两个BCC组合声道。当产生单个的BCC组合声道时，可对单声道解码器提供类似的向后兼容性。

虽然BCC系统300可有与音频输出声道相同数目的音频输入声道，但在另一实施例中，输入声道的数目可或大于或小于输出声道的数目，这取决于具体的应用。

取决于具体的实现，由图3的BCC编码器302与BCC解码器304接收和产生的各种信号，可以是任何包含全模拟或全数字的模拟和/或数字信号的适当组合。虽然图3中未示出，但业内专业人员将理解，一个或多个组合的声道312与BCC线索数据流316可进一步通过BCC编码器302被编码，并对应地通过BCC解码器304例如基于某种适当压缩方案(例如ADPCM)被解码，以进一步降低传输数据量。

相干估计

图4示出根据‘437申请的一个实施例图3对应于相干度量产生的BCC分析器314的处理部分的框图。如图4中所示，BCC分析器314包括两个时间-频率(TF)变换块402和404，其采用适当的变换，诸如长度1024的短时离散付立叶变换(DFT)，把左和右输入音频声道L和R从时域分别转换到频域。每一变换块产生对应于输入音频声道不同频率子带的数个输出。相干估计器406特征体现了每一个不同的考虑的临界带(以下标记为子带)的相干。业内专业人员将理解，在最优的基于DFT的实现中，看作为一个临界带的数个DFT系数从临界带变为有较低频率临界带的临界带，其一般比高频率临界带具有较少系数。

在一种实现中，估计每一DFT系数的相干。左声道DFT谱的谱分量K_L的实部和虚部可分别标记为Re{K_L}和Im{K_L}，对于右声道是类似的。这种情形下，对于左和右声道的功率估计P_LL和P_RR可分别由以下方程式(1)和(2)表示：

P_LL＝(1-α)P_LL+α(Re²{K_L}+Im²{K_L}) (1)

P_RR＝(1-α)P_RR+α(Re²{K_R}+Im²{K_R}) (2)

实和虚交叉项P_LR，Re和P_LR，Im分别由以下方程式(3)和(4)给出：

P_LR，Re＝(1-α)P_LR+α(Re{K_L}Re{K_R}-Im{K_L}Im{K_R}) (3)

P_LR，Im＝(1-α)P_LR+α(Re{K_L}Im{K_R}+Im{K_L}Re{K_R}) (4)

因子α确定了估计窗口持续时间，并对于32kHz音频采样率和512采样的帧位移能够选择为α＝0.1。如从方程式(1)-(4)所推导，对于子带的相干估计γ由以下方程式(5)给出：

γ = \sqrt{(P_{LR, Re}^{2} + P_{LR, Im}^{2}) / (P_{LL} P_{RR})} - - - (5)

如上所述，在每一临界带上相干估计器406对系数相干估计γ求平均。对于这求平均，最好在求平均之前向子带相干估计施加一加权函数。可以使加权与由方程式(1)和(2)给出的功率估计成比例。对于包含谱分量n1，n1+1，...，n2的一个临界带p，求平均的加权相干 γ_p可使用以下方程式(6)计算：

{\overset{&OverBar;}{γ}}_{p} = \frac{Σ_{n = n 1}^{n 2} {(P_{LL} (n) + P_{RR} (n)) γ (n)}}{Σ_{n = n 1}^{n 2} {(P_{LL} (n) + P_{RR} (n))}} - - - (6)

其中P_LL(n)，P_RR(n)和γ(n)为对于分别由方程式(1)，(2)和(6)给出的谱系数n的左声道功率，右声道功率，与相干估计。注意，方程式(1)-(6)对于每一谱系数n适用。

在图3的BCC编码器302的一种可能的实现中，对于包含在传输到BCC解码器304的BCC参数流，通过BCC分析器314产生对于不同临界带的平均加权相干估计 γ_p。

基于相干的音频合成

图5示出由图3的BCC合成器322的一实施例进行的音频处理的框图，使用基于相干的音频合成把单个组合声道312(S(n))转换为C个合成的音频输出声道324

({\hat{x}}_{1} (n), {\hat{x}}_{2} (n), . . ., {\hat{x}}_{C} (n)) .

具体来说，BCC合成器322有一个听觉滤波器组(AFB)块502，其进行时间-频率(TF)变换(例如快速付立叶变换(FFT))，把时域组合声道312转换为C个对应的频域信号504的拷贝

频域信号504的每一拷贝，基于从由图3的辅助信息处理器318恢复的对应的声道间时间差(ICTD)数据推导的时延值(d_i(k))，在对应的时延块506被时延。每一结果的时延信号508通过对应的乘法器510，基于辅助信息处理器318恢复的对应的声道电平差(ICLD)数据推导的换算(即增益)因子(a_i(k))被换算。

结果的换算信号512施加到相干处理器514，其基于由辅助信息处理器318恢复的ICC相干数据施加相干处理。以产生C个合成的频域信号516

({\tilde{\hat{x}}}_{1} (n), {\tilde{\hat{x}}}_{2} (n), . . ., {\tilde{\hat{x}}}_{C} (n)),

每一输出声道一个。然后每一合成的频域信号516施加到对应的逆AFB(IAFB)块518，以产生不同的时域输出声道324

在一优选的实现中，每一时延块506，每一乘法器510及相干处理器514的处理是基于频带的，其中潜在不同的时延值、换算因子、与相干度量施加到施加到频域信号的每一不同拷贝的每一不同频率子带。对每一子带给定估计的相干，量值在子带内按一频率的函数变化。另一可能性是按估计的相干函数在分割中改变作为频率函数的相位。在一优选实现中，改变相位以便作为子带内频率的函数施加不同的时延或组时延。而且，最好这样进行量值和/或时延(或组时延)变化，使得在每一临界带中修改的平均值为零。其结果是，在子带内的ICLD和ICTD不会被相干合成所改变。

在一优选的实现中，引入的量值的幅度g(或变化)或相位的变化基于左和右声道估计的相干被控制。对于较小的相干，增益g应当作为相干γ的适当的函数f(γ)被正确地映射。一般来说，如果相干大(例如接近最大可能的值+1)，则输入听觉场景中对象狭窄。这种情形下，增益g应当小(例如接近最小可能值0)，使得在子带内实际上没有量值或相位修改。另一方面，如果相干小(例如接近最小可能值0)，则输入听觉场景中的对象宽。这种情形下，增益g应当大，使得有明显的量值和/或相位修改，结果是在修改的子带信号之间有低相干。

对于一具体临界带量值g的适当的映射函数f(γ)由以下方程式(7)给出：

g＝5(1- γ) (7)

其中γ是对于对应的临界带估计的相干，其作为BCC参数流的一部分传输到BCC解码器304。根据这一线性映射函数，当估计的相干γ为1时增益g为0，并当 γ＝1时g＝5。在另一实施例中，增益g可以是相干的非线性函数。

虽然已经在基于伪随机序列修改加权因子w_L和w_R的情形下描述了基于相干的音频合成，但该技术不限于此。一般来说，基于相干的音频合成适用于较大(例如临界)带的子带之间任何感知的空间线索的修改。修改的函数不限于随机序列。例如，修改函数可基于正弦函数，其中(方程式(9)的)ICLD在子带内作为频率的函数以正弦方式变化。在某些实现中，正弦波的周期从临界带向临界带作为对应的临界带宽度的函数变化(例如在每一临界带内对应的正弦波的一个或多个全周期)。在其他实现中，正弦波的周期在整个频率范围上不变。在这两种实现中，正弦修改函数最好在临界带之间连续。

修改函数的另一例子是锯齿形或三角形函数，它们在正最大值和对应的负最小值之间线性地斜坡上升和下降。这里也与实现相关，相关函数的周期可从临界频带到临界频带变化，或在整个频率范围不变，但在任何情形下在临界频带之间最好是连续的。

虽然已经在随机，正弦的和三角形函数情形下描述了基于相干的音频合成，但在每一临界频带内修改加权因子的其他函数也是可能的。如同正弦和三角形函数那样，这些其他修改函数可能但并非必须在临界频带之间是连续的。

根据上述基于相干的音频合成的实施例，通过在音频信号的临界频带子频带之间引入修改水平差实现空间表现力。另外或加之，可采用基于修改的音频合成以修改时间差，作为真实的感知空间线索。具体来说，可如下对时间差采用类似于上述对于水平差生成听觉对象的较宽空间图像的技术。

如‘877和‘458申请中所定义，两个音频声道之间的子频带s的时间差标记为τ_s。根据基于相干的音频合成的一定的实现，可引入时延位移d_s和增益因子g_c，以根据以下方程式(8)对于子频带s产生修改的时间差τ_s’。

τ_s′＝g_cd_s+τ_s (8)

时延位移d_s对于每一子频带最好对时间不变，但在子频带之间有变化，并能够选择为零平均随机序列或较平滑的函数，在每一临界频带中最好具有零平均值。如同方程式(9)的增益因子g_c，相同的增益因子g_c可用于落入每一临界频带c内的所有的子频带n，但增益因子可从临界频带到临界频带变化。增益因子g_c是使用映射函数从相干估计推导的，这函数最好与方程式(7)的线性映射函数成正比。于是，g_c＝ag，其中常数值a通过实验调节确定。在另一些实施例中，增益g_c可以是相干的非线性函数。BCC合成器322采用修改的时间差τ_s’代替原来的时间差τ_s。为了增加听觉对象的图像宽度，可即采用水平差又采用时间差修改。

虽然已经在产生立体声音频场景的左和右频道的情形下描述了基于相干的处理，但该技术可扩展到任意数目的合成输出声道。

基于回响的音频合成

定义，符号与变量

对于有时间下标k的两音频频道的对应的频域输入子频带信号

和以下度量用于ICLD，ICTD及ICC：

oICLD(dB)：

Δ L_{12} (k) = 10 \log_{10} (\frac{p_{{\tilde{x}}_{2}} (k)}{p_{{\tilde{x}}_{1}} (k)}) - - - (9)

其中

和分别是信号和

的短时间估计。

oICTD(采样)：

τ_{12} (k) = \arg \max_{d} {Φ_{12} (d, k)} - - - (10)

使用短时间标准化互相关函数估计

Φ_{12} (d, k) = \frac{p_{{\tilde{x}}_{1} {\tilde{x}}_{2}} (d, k)}{\sqrt{p_{{\tilde{x}}_{1}} (k - d_{1}) p_{{\tilde{x}}_{2}} (k - d_{2})}} - - - (11)

其中

d₁＝max{-d，0}

d₂＝max{d，0} (12)

并且

p_{\tilde{x} 1 \tilde{x} 2} (d, k)

是

{\tilde{x}}_{1} (k - d_{1}) {\tilde{x}}_{2} (k - d_{2})

平均的短时间估计。

oICC：

c_{12} (k) = \max_{d} | Φ_{12} (d, k) | - - - (13)

注意，考虑了标准化互相关的绝对值，且c₁2(k)的范围是[0，1]。不必考虑负值，因为ICTD包含了由c₁₂(k)的符号表示的相位信息。

本说明书中使用以下符号和变量：

*卷积算子

i音频声道下标

k子频带信号时间下标(也是STFT谱的时间下标)

C编码器输入声道数，也是解码器输出声道数

x_i(n)时域编码器输入音频声道(例如图3的声道308之一)

x_i(n)的一个频域子频带信号(例如图4从TF变换402或404的输出之一)

s(n)被传输的时域组合声道(例如图3的合声道312)

s(n)的频域子频带信号(例如图7的信号704)

s_i(n)去相关的时域组合声道(例如图7被滤波的声道722)

s_i(n)的频域子频带信号(例如图7对应的信号726)

时域编码器输出音频声道(例如图3的信号324)

的一个频域子频带信号(例如图7对应的信号716)

功率的短时估计

h_i(n)用于输出声道i的后期回响(LR)滤波器(例如图7的LR滤波器)

M LR滤波器h_i(n)的长度

ICLD声道间电平差

ICTD声道间时间差

ICC声道间相关

ΔL_1i(k)声道1与声道i之间的ICLD

τ_1i(k)声道1与声道i之间的ICTD

c_1i(k)声道1与声道i之间的ICC

STFT短时付立叶变换

X_i(jω)信号的STFT谱

ICLD，ICTD和ICC的感知

图6(A)-(E)示出有不同线索代码的信号感知。具体来说，图6(A)表示一对扬声器信号之间的ICLD和ICTD如何确定听觉事件的感知角度。图6(B)示出一对耳机信号之间的ICLD和ICTD如何确定出现在头上部前方部分的听觉事件的位置。图6(C)示出，在扬声器信号之间的ICC降低时，听觉事件的范围如何增加(从区域1到区域3)。图6(D)示出，当左和右耳机信号之间的ICC降低时，听觉对象的范围如何增加(从区域1到区域3)，直到两个不同的听觉事件在侧面出现(区域4)。图6(E)示出，对于多扬声器回放，在信号之间的ICC降低时，环绕收听者的听觉事件范围如何增加(从区域1到区域4)。

相干的信号(ICC＝1)

图6(A)和6(B)示出，对于相干扬声器和耳机信号不同的ICLD和ICTD值感知的听觉事件。振幅摇动(panning)是为表现用于扬声器与耳机回放的音频信号最常用的技术。当左和右扬声器或耳机信号相干(即ICC＝1)，有相同的电平(即ICLD＝0)，及没有时延(即ICTD＝0)时，在中心出现听觉事件，如图6(A)与6(B)中区域1所示。注意，对于图6(A)的扬声器回放，听觉事件出现在两个扬声器之间，而对于图6(B)的耳机回放，出现在上半头的前方部分。

通过增加一侧的电平，例如右侧听觉事件向该侧移动，如图6(A)和6(B)中区域2所示。在极限的情形下，例如当只有左侧信号有效时，听觉事件出现在左侧，如图6(A)和6(B)中区域3所示。ICTD可类似地用来控制听觉事件的位置。对于耳机回放，为此可采用ICTD。然而，由于几个原因ICTD最好不用于扬声器回放。当收听者准确地在最有效点时，ICTD值在自由场中最有效。在封闭的环境中由于反射，ICTD(范围小，例如±1ms)将对听觉事件感知的方向影响很小。

部分相干信号(ICC＜1)

当通过一对扬声器同时发射相干(ICC＝1)宽带声音时，感知到相对紧凑的听觉事件。当ICC在这些信号之间降低时，听觉事件的范围如图6(C)所示从区域1到区域3增加。对于耳机回放，如图6(D)所示可观察到类似的趋势。当由耳机发射两个等同的信号(ICC)时，如同在区域1那样感知到相对紧凑的听觉事件。在耳机信号之间的ICC降低时，如同在区域2和3，听觉事件的范围增加，如同区域4直到在这些侧感知到两个不同的听觉事件。

一般来说，ICLD和ICTD确定感知的听觉事件的位置，且ICC确定听觉事件的范围或漫射性。此外，有收听的情形，这时收听者不仅在一定距离感知到听觉事件，而且通过漫射声音感知被环绕。这一现象被称为收听者包络。例如这种情形在音乐厅中出现，其中后期混响从所有的方向到达收听者的耳朵。如图6(E)所示，通过从分布在收听者周围的所有扬声器发射独立噪声信号能够引起类似的体验。在这种情景下，在ICC与环绕收听者的听觉事件范围之间有一种关系，如同区域1到4。

上述的感知可通过混合数个有低ICC的去相关音频声道产生。下节描述了用于产生这种效果的基于回响的技术。

从单个组合声道产生漫射声音

如前所述，音乐厅是收听者感知漫射声音一种典型的情景。在后期混响期间，声音从随机角度以随机强度到达耳朵，使得两个耳朵输入信号之间的相关低。这给出用于通过以对后期混响建模的滤波器，对给定的组合音频声道s(n)滤波，产生数个去相关音频声道的动机。本说明书中结果的滤波声道还称为“漫射声道”。

通过以下方程式(14)获得C个漫射声道s_i(n)，(1≤i≤C)：

s_i(n)＝h_i(n)*s(n) (14)

其中^*标记卷积，而h_i(n)是对后期混响建模的滤波器。后期混响能够通过以下方程式(15)建模：

其中而n_i(n)(1≤i≤C)是独立驻定的高斯白噪声信号，T是以秒计脉冲响应的以秒计的指数衰减的时间常数，f_s是采样频率，而M是采样脉冲响应的长度。选择一指数衰减，是因为后期混响的强度一般在时间上是指数衰减的。

许多音乐厅的回响衰减范围是1.5到3.5秒。为了使漫射音频声道充分独立以便产生音乐厅录音的漫射，T是这样选择的，使得h_i(n)的回响时间在相同的范围。这是T＝0.4秒的情形(结果是回响时间大约2.8秒)。

通过作为s(n)和s_i(n)(1≤i≤C)的加权和计算每一耳机或扬声器信号声道，可产生有所需漫射的信号(当使用s_i(n)时带有类似于音乐厅最大的漫射)。如下节所示，BCC合成最好在每一子带分别采用这种处理。

基于回响的示例性音频合成器

图7示出由图3的BCC合成器322进行的音频处理的框图，其根据本发明的一实施例，使用基于回响的音频合成，把信号组合声道312(s(n))转换为(至少)两个合成的音频输出声道324

({\hat{x}}_{1} (n), {\hat{x}}_{2} (n), . . .) .

如图7所示并类似于图5的BCC合成器322中的处理，AFB块702把时间域组合声道312转换为对应的频域信号704

的两个拷贝。频域信号704的每一个拷贝，基于从由图3的辅助信息处理器318恢复的对应的声道间时间差(ICTD)数据推导的时延值(d_i(k))，在对应的时延块706被时延。每一结果的时延信号708，基于从由辅助信息处理器318恢复的线索代码数据推导的换算因子，由对应的乘法器710换算。这些换算因子的推导在以下进一步详细说明。结果的换算时延信号712施加到求和结点714。

除了施加到AFB块702之外，组合声道312的拷贝还施加到后期混响(LR)处理器720。在某些实现中，LR处理器产生一信号，其类似于假如组合声道312在该音乐厅中回放在音乐厅引起的后期混响。此外，LR处理器可用来产生对应于音乐厅中不同位置的后期混响，使得它们的输出信号是去相关的。这种情形下，组合声道312和漫射LR输出声道722(s₁(n)，s₂(n))将具有高度的独立性(即ICC值接近零)。

如上节使用方程式(14)和(15)所述，漫射LR声道722可通过对组合的信号312滤波产生。另外，LR处理器可基于任何其他适当的回响技术实现，诸如在以下文献所述，M.R.Schroeder，“自然发声人工回响，”J.Aud.Eng.Soc.vol.10，no.3，pp.219-223，1962，以及W.G.Gardner，Applications of Digital Signal Processing to Audio and Acoustics，Kluwer Academic Publishing，Norwell，MA，USA，1998。一般来说，优选的LR滤波器是具有基本上随机的频率响应的滤波器，其谱包络是基本上是平缓的。

漫射LR声道722用于AFB块724，这把时域LR声道722转换为频域LR信号726

AFB块702和724最好是可逆的滤波器组，其带宽等于或正比于听觉系统的临界带宽。对于输入信号s(n)，s₁(n)和s₂(n)的每一子频带信号分别标记为或

不同的时间下标k用于分解的信号，而不是输入声道时间下标n，因为子带信号通常以比原来的输入声道低的采样频率表示。

乘法器728使频域LR信号726乘以从由辅助信息处理器318恢复的线索代码数据推导的换算因子(b_i(k))。这些换算因子的推导在以下进一步详细说明。结果的换算LR信号730施加到求和结点714。

求和结点714把来自乘法器728的换算的LR信号加到来自乘法器710的对应的换算的、时延的信号712，以对于不同的输出声道产生频域信号716

在求和结点714产生的子带信号716由以下方程式(16)给出：

{\tilde{\hat{x}}}_{1} (k) = a_{1} \tilde{s} (k - d_{1}) + b_{1} {\tilde{s}}_{1} (k)

{\tilde{\hat{x}}}_{2} (k) = a_{x} \tilde{s} (k - d_{2}) + b_{2} {\tilde{s}}_{2} (k) - - - (16)

其中换算因子(a₁，a₂，b₁，b₂)与时延(d₁，d₂)确定为所需的ICLDΔL₁₂(k)，ICTDτ₁₂(k)，与ICC c₁₂(k)的函数。(为了简洁省略了换算因子与时延的时间下标)。信号对所有子带产生。虽然图7的实施例依赖于求和结点组合换算的LR信号与对应的换算，时延信号，在另一实施例中，可使用与求和结点不同的组合器组合信号。可替代的组合器的例子包括进行加权求和，量值求和或最大值选择的组合器。

ICTDτ₁₂(k)通过对施以不同的时延被合成。这些时延通过方程式(10)以d＝τ₁₂(n)计算。为了使输出子带信号具有等于方程式(9)的ΔL₁₂(k)的ICLD，换算因子(a₁，a₂，b₁，b₂)应当满足以下方程式(17)：

\frac{a_{1}^{2} p_{\tilde{s}} (k) + b_{1}^{2} p_{{\tilde{s}}_{1}} (k)}{a_{2}^{2} p_{\tilde{s}} (k) + b_{2}^{2} p_{{\tilde{s}}_{2}} (k)} = 10^{\frac{Δ L_{12} (k)}{10}} - - - (17)

其中

p_{\tilde{s}} (k), p_{\tilde{s} 1} (k), p_{\tilde{s} 2} (k)

分别是子带信号

\tilde{s} (k), {\tilde{s}}_{1} (k), {\tilde{s}}_{2} (k)

的短时功率估计。

为了使输出子带信号具有方程式(13)的ICC c₁₂(k)，换算因子(a₁，a₂，b₁，b₂)应当满足以下方程式(18)：

\frac{(a_{1}^{2} + a_{2}^{2}) p_{\tilde{s}} (k)}{(a_{1}^{2} p_{\tilde{s}} (k) + b_{1}^{2} p_{{\tilde{s}}_{1}} (k)) (a_{2}^{2} p_{\tilde{s}} (k) + b_{2}^{2} p_{\tilde{s_{2}}} (k))} = c_{12} (k) - - - (18)

假设

\tilde{s} (k), {\tilde{s}}_{1}, {\tilde{s}}_{2} (k)

是独立的。

每一IAFB块718把一组频域信号716转换为用于输出声道之一的时域声道324。由于每一LR处理器720能够用于对从音乐厅中不同方向发出的后期混响建模，可对不同的后期混响建模用于图3音频处理系统300不同的扬声器326。

BCC合成通常标称化其输出信号，使得所有输出声道的功率和等于输入组合信号的功率。这对增益因子产生了另一方程式：

(a_{1}^{2} + a_{1}^{2}) p_{\tilde{s}} (k) + b_{1}^{2} p_{{\tilde{s}}_{1}} (k) + b_{2}^{2} p_{{\tilde{s}}_{2}} (k) = p_{\tilde{s}} (k) - - - (19)

由于有四个增益因子和三个方程式，在选择增益因子中仍然有一个自由度。这样附加的条件可以公式表示为：

b_{1}^{2} p_{{\tilde{s}}_{1}} (k) = b_{2}^{2} p_{{\tilde{s}}_{2}} (k) - - - (20)

方程式(20)意味着漫射音量在两个声道总是相同的。有几个为这样作的动机。首先，漫射音在音乐厅如同后期混响具有几乎与位置无关的电平那样出现(对于相对小的位移)。这样，两个声道之间的漫射音的电平差总是大约为0dB。其次，这有美好的边效果，即当ΔL₁₂(k)很大时，只有漫射音混入紧弱的声道。这样，较强声道的声音被最小地修改，降低了长回旋的负面效果，诸如瞬时的时间散布。

方程式(17)-(20)的非负解产生以下用于换算因子的方程式：

a_{1} = \sqrt{\frac{10^{\frac{Δ L_{12} (k)}{10}} + c_{12} (k) 10^{\frac{Δ L_{12} (k)}{20}} - 1}{2 (10^{\frac{Δ L_{12} (k)}{10}} + 1)}}

a_{2} = \sqrt{\frac{{- 10}^{\frac{Δ L_{12} (k)}{10}} + c_{12} (k) 10^{\frac{Δ L_{12} (k)}{20}} + 1}{2 (10^{\frac{Δ L_{12} (k)}{10}} + 1)}}

b_{1} = \sqrt{\frac{(10^{\frac{Δ L_{12} (k)}{10}} + c_{12} (k) - 10^{\frac{Δ L_{12} (k)}{20}} + 1) p_{\tilde{s}} (k)}{2 (10^{\frac{Δ L_{12} (k)}{10}} + 1) p_{{\tilde{s}}_{1}} (k)}} - - - (21)

b_{2} = \sqrt{\frac{(10^{\frac{Δ L_{12} (k)}{10}} + c_{12} (k) - 10^{\frac{Δ L_{12} (k)}{20}} + 1) p_{\tilde{s}} (k)}{2 (10^{\frac{Δ L_{12} (k)}{10}} + 1) p_{{\tilde{s}}_{2}} (k)}}

多声道BCC合成

虽然图7所示的配置产生两个输出声道，但通过替代图7虚线块中所示的配置，该配置可扩展到任何更大数目的输出声道。注意，在本发明的这些实施例中，有一个LR处理器720用于每一输出声道。还要注意，在这些实施例中，每一LR处理器的实现是在时域中对组合的声道工作。

图8表示一示例性五声道音频系统。只要在基准声道(例如声道号1)与其它四声道中每一个之间定义ICLD和IDTD即可，其中ΔL_1i(k)与τ_1i(k)标记基准声道1与声道i之间的ICLD和ICTD，2≤i≤5。

与ICLD和ICTD相反，ICC有更多的自由度。一般来说，ICC在所有可能的输入声道对之间可具有不同的值。对于C个声道，有C(C-1)/2个可能的声道对。例如，对于五声道，有十个声道对，如图9所示。

给定组合信号s(n)的子带加C-1漫射声道的子带，其中(1≤i≤C-1)，并假设漫射声道是独立的，能够产生C个子带信号，使得每一可能的声道对之间的ICC与在原始信号对应的子带中估计的ICC相同。然而，这种方案将涉及对每一子带在每一时间下标估计和传输C(C-1)/2个ICC值，结果造成相对高的计算复杂性和相对高的位速率。

对于每一子带，ICLD和ICTD确定子带中对应的信号分量的听觉事件被表现的方向。因而原则上，应当只添加一个ICC参数即可，该参数确定听觉事件范围或漫射。这样，在一实施例中，对于每一子带，在每一时间下标k，只估计对应于该子带中具有最大功率电平的两个声道的一个ICC值。这表示在图10中，其中在时刻k-1，声道对(3，4)对于一特定的子带具有最大功率电平，而在时刻k，声道对(1，2)对于同一子带具有最大的功率电平。一般来说，可对每一子带在每一时间段传输一个或多个ICC值。

类似于两声道(例如立体声)的情形，作为组合信号与漫射音频声道的子带信号的加权和，计算多声道输出子带信号如下：

{\tilde{\hat{x}}}_{1} (k) = a_{1} \tilde{s} (k - d_{1}) + b_{1} {\tilde{s}}_{1} (k)

{\tilde{\hat{x}}}_{2} (k) = a_{2} \tilde{s} (k - d_{2}) + b_{2} {\tilde{s}}_{2} (k) - - - (22)

_ _

{\tilde{\hat{x}}}_{C} (k) = a_{C} \tilde{s} (k - d_{C}) + b_{C} {\tilde{s}}_{C} (k)

从ICTD如下确定时延：

d_{i} = \{\begin{matrix} {- \min}_{1 \leq l < C} τ_{1 l} (k) & i = 1 \\ τ_{1 l} (k) + d_{1} & 2 \leq i \leq C \end{matrix} - - - (23)

在方程式(22)中需要2C个方程式确定2C个换算因子。以下的讨论描述导致这些方程式的条件。

oICLD：在声道对之间表示出类似于方程式(17)的C-1个方程式，使得输出子带信号具有所需的ICLD线索。

o用于两个最强的声道的ICC：表示出类似于两个最强的音频声道i₁和i₂之间的方程式(18)与(20)的两个方程式，使得(1)这些声道之间的ICC与编码器中估计的ICC相同，以及(2)在两个声道中的漫射音量分别相同。

o标称化：通过把方程式(19)扩展到C个声道获得如下的另一方程式：

Σ_{i = 1}^{C} a_{i}^{2} p_{\tilde{s}} (k) + Σ_{i = 1}^{C} b_{i}^{2} p_{{\tilde{s}}_{i}} (k) = p_{\tilde{s}} (k) - - - (24)

o用于C-2个最弱的声道的ICC：选择对于最弱的C-2个声道(i≠i₁∧i≠i₂)漫射音对非漫射音之间的比例与对于次最强声道i₂相同，使得：

\frac{b_{i}^{2} p_{{\tilde{s}}_{i}} (k)}{a_{i}^{2} p_{\tilde{s}} (k)} = \frac{b_{i_{2}}^{2} p_{{\tilde{s}}_{i}_{2}} (k)}{a_{i_{2}}^{2} p_{\tilde{s}} (k)} - - - (25)

结果是对于全部2C个方程式得到另外的C-2个方程式。换算因子是所述2C个方程式的非负解。

降低计算复杂性

如上所述，为了重放自然发出的漫射声音，方程式(15)的脉冲响应应当长达几百毫秒，结果造成高度计算复杂性。此外，如图7所示，对于每一h_i(t)(1≤i≤C)，BCC合成需要附加的滤波器组。

使用用于产生后期混响的人工回响算法并对s_i(t)使用该结果，能够降低计算复杂性。另一可能性是通过采用降低计算复杂性的基于快速付立叶变换(FFT)的算法进行卷积。而另一可能性是在频域中进行方程式(14)的卷积，而不引入过量的时延。这种情形下，带有重叠窗口的相同的短时付立叶变换(STFT)可用于卷积也可用于BCC处理。这结果是卷积计算较低的计算复杂性，且对每一h_i(t)不需要使用附加的滤波器组。该技术是对于单个组合信号s(t)与一般脉冲响应h(t)推导的。

STFT对信号s(t)的开窗口部分施加离散付立叶变换(DFT)。开窗口以标记为窗口跳跃大小N的规则间隔施加。结果带有窗口位置下标k的开窗口信号为：

其中W是窗口长度。Hann窗口可使用长度W＝512采样，且窗口跳跃大小为N＝W/2采样。可使用满足以下条件(在以下假设)其他窗口：

s (t) = Σ_{k = - \infty}^{\infty} s_{k} (t) - - - (27)

首先，考虑在频域中实现开窗口信号s_k(t)的卷积的简单情形。图11(A)示出长度M的脉冲响应h(t)的非零跨度。类似地，在图11(B)中示出s_k(t)的非零跨度。容易验证，h(t)*s_k(t)具有如图11(C)所示的W+M-1样本的非零跨度。

图12(A)-(C)示出，长度W+M-1的下标DFT在何时分别施加到信号h(t)，s_k(t)和h(t)*s_k(t)。图12(A)示出，H(jω)标记通过在时间下标t＝0开始向h(t)施加DFT获得的频谱。图12(B)和12(C)示出，通过在时间下标t＝Kn开始施加DFT分别从sk(t)和h(t)*s_k(t)计算X_k(jω)和Y_k(jω)。容易证明，Y_k(jω)＝H(jω)X_k(jω)。就是说，因为在信号h(t)和s_k(t)的末端的零，结果是圆周卷积通过等于线性卷积的谱乘积施加到信号。

从卷积和方程式(27)的线性，得出：

h (t) * s (t) = Σ_{k = - \infty}^{\infty} h (t) * s_{k} (t) - - - (28)

这样，能够通过在每一时间t计算乘积H(jω)X_k(jω)并施加逆的STFT(逆的DFT加重叠/加)，在STFT的域中实现卷积。长度W+M-1(或更长)的DFT应当以如图12所示零填充使用。所述的技术类似于推广的重叠/加卷积，可使用重叠窗口(带有任何满足方程式(27)条件的窗口)。

所述方法对于长脉冲响应(例如M＞＞W)是不实用，因为这时需要使用比W大得多的DFT。以下，所述方法被扩展，使得只需要使用大小W+N-1的DFT。

长度M＝LN的长脉冲响应h(t)被划分为L个较短脉冲响应h_l(t)，其中：

如果mod(M，N)≠0，则N-mod(M，N)零被加到h(t)的尾部。这时以h(t)的卷积可写为如下较短卷积之和：

h (t) * s (t) = Σ_{l = 0}^{L - 1} h_{l} (t) * s (t - lN) - - - (30)

同时采样方程式(29)和(30)，产生：

h (t) * s (t) = Σ_{k = - \infty}^{\infty} Σ_{l = 0}^{L - 1} h_{l} (t) * s_{k} (t - lN) - - - (31)

方程式(31)中作为k和l的函数的一个卷积的非零时间跨度h(t)*s_k(t-lN)是(k+l)N≤t＜(k+l+1)N+W。这样，为获得其频谱

DFT施加到这一区间(对应于DFT位置下标k+1)。可以证明，

{{\tilde{Y}}_{kl} (jω) = H}_{l} (jω) X_{k} (jω),

其中X_k(jω)按以前以M＝N定义，且H_l(jω)类似于H(jω)定义，但是对于脉冲响应h_l(t)。

带有相同DFT位置下标i＝k+l的所有的和如下：

Y_{i} (jω) = \underset{k + l = i}{Σ} {\tilde{Y}}_{k + l} (jω)

= Σ_{l = 0}^{L - 1} H_{l} (jω) X_{i - l} (jω) - - - (32)

这样，在STFT域中通过在每一谱下标i采用方程式(32)而获得Y_i(jω)实现卷积h(t)*s_k(t)。施加到Y_i(jω)的逆STFT(逆DFT加重叠/加)如所希望等于卷积h(t)*s(t)。

注意，与h(t)的长度无关，零填充量以N-1为上界(小于STFT窗口跳跃大小的一个采样)。如果需要，可使用大于W+N-1的DFT(例如使用长度等于二的幂的FFT)。

如上所述，低复杂性BCC合成能够在STFT域中工作。这种情形下，ICLD，ICTD和ICC合成施加到表示谱分量的STFT箱的组，其带宽等于或与临界频带的带宽成比例(其中箱组标记为“分割”)。在这一系统中，为了降低复杂性，代替向方程式(32)施加逆STFT，方程式(32)的谱直接在频域中用作为漫射音。

图13示出根据本发明的另一实施例，由图3的BCC合成器322进行的音频处理的框图，以便使用基于回响的音频合成把信号组合声道312(s(t))转换为两个合成的音频输出声道324

({\hat{x}}_{1} (t), {\hat{x}}_{2} (t)),

其中LR处理是在频域中实现的。具体来说，如图13所示，AFB块1302把时域组合声道312转换为对应的频域信号1304

的四个拷贝。频域信号1304的四个拷贝的两个施加到时延块1306，同时另两个拷贝施加到LR处理器1320，其频域LR输出信号1326施加到乘法器1328。图13的BCC合成器其余的组件和处理类似于图7的BCC合成器。

当在频域中实现LR滤波器诸如图13的LR滤波器1320时，其有可能对不同的频率的子带使用不同滤波器长度，例如在较高频率较短的滤波器。这可用来降低整个的计算复杂性。

混合的实施例

即使如图13当LR处理器在频域中实现时，BCC合成器的计算复杂性仍然可能相当高。例如如果使用脉冲响应对后期混响建模，则脉冲响应应当相当长，以获得高质量的漫射音。另一方面，‘437申请基于相干的音频合成一般计算复杂性较小，并对高频提供良好的性能。这导致能够实现混合的音频处理系统，其对低频采用本发明基于回响的处理(例如大约1-3kHz以下的频率)，同时对高频采用‘437申请基于相干的处理(例如大约1-3kHz以上的频率)，从而实现在整个频率范围提供良好性能同时降低了整个计算复杂性的系统。

替代的实施例

虽然已就基于回响的BCC处理并还依赖于ICLD和IDTD数据的情形下描述了本发明，但本发明不限于此。理论上，本发明的BCC处理能够在没有ICLD和/或ICTD数据，带有或没有其他适当线索代码，诸如与头相关的传递函数相关联的代码下实现。

如前所述，本发明能够在产生一个以上的“组合”声道的BCC编码的情形下实现。例如，BCC编码能够用于5.1环绕声的六个输入声道，以产生两个组合声道：一个基于左和左后声道，一个基于于右和右后声道。在一种可能的实现中，每一组合的声道还能够基于两个其他的5.1声道(即中心声道和LFE声道)。换言之，第一组合声道可基于左，后左，中心和LFE声道之和，而第二组合声道可基于右，后右，中心和LFE声道之和。这种情形下，可能有两组不同的BCC线索代码：一个用于产生第一组合声道的声道，一个用于产生第二组合声道的声道，使用BCC解码器有选择地向两个组合声道施加这些线索代码，一般在接收器产生合成的5.1环绕声。这一方案最好使两个组合声道能够作为传统的左和右声道在传统的立体声接收器上回放。

注意，理论上当有多个“组合”声道时，一个或多个组合声道实际上基于单个的输入声道。例如，BCC编码能够施加到7.1环绕声以产生5.1环绕信号及适当的BCC代码，其中例如5.1信号中的LFE声道可简单地是7.1信号中LFE声道的复制。

还就两个或多个输出声道从一个或多个组合声道合成的音频合成技术的情形对本发明进行了描述，其中有一个滤波器用于每一不同的输出声道。在另一实施例中，能够使用少于C个LR滤波器合成C个输出声道。这能够通过使用一个或多个组合声道组合少于C个LR滤波器漫射声道输出而实现，以产生C个合成的输出声道。例如，得以产生一个或多个输出声道，而无须任何回响，或通过组合结果的漫射声道与一个或多个组合声道的不同的换算、时延版本，一个LR滤波器可用来产生两个或多个输出声道。

另外，这能够通过采用先前对于一定的输出声道描述的回响技术实现。其他可适用于这种混合实现的基于相干的合成技术在以下文献中有述，E.Schuijers，W.Oomen，B.den Brinker，and J.Breebaart，“Advances in parametric coding for high-quality audio，”Preprint114^th Convention Aud.Eng.Soc.，March 2003，and Audio Subgroup，Parametric coding for High Quality Audio，ISO/IECJTC1/SC29/WG11 MPEG2002/N5381，December 2002.

虽然已经就传输声道的情形描述了图3中BCC编码器302和BCC解码器304之间的接口，但业内专业人员将理解，此外或替代地该接口可包含一存储介质。取决于具体的实现，传输声道可以是有线的或无线的，并可使用定制的或标准化的协议(例如IP)。诸如CD，DVD，数字磁带录像机及固态存储器等介质可用作为存储器。此外，传输和/或存储器可以但不是必须包含声道编码。类似地，虽然已就数字音频系统的情形描述了本发明，但业内专业人员将理解，本发明还可在模拟音频系统诸如AM无线广播，FM无线广播，及模拟电视广播的音频部分的情形实现，其中每一个支持包含附加的带内低位速率传输声道。

本发明能够对于许多不同的应用实现，诸如音乐复制，广播，及电话技术。例如，本发明可对于数字无线广播/TV/因特网(例如Web广播)广播，诸如Sirius Satellite Radio或XM。其他应用包括通过IP，PSTN的语音或其他语音网络，模拟广播及因特网无线广播。

取决于具体的应用，可采用不同的技术把BCC参数集嵌入单声道音频信号以实现本发明的BCC信号。任何具体技术的可用性至少部分地取决于具体的用于BCC信号的传输/存储介质。例如，数字无线广播的协议通常支持包含附加的“增强”位(例如在数据包的标头部分)，这通常被传统的接收器忽略。这些附加位可用来表示听觉场景参数集以产生BCC信号。一般来说，本发明可使用任何适当的用于音频信号水印的技术实现，其中对应于听觉场景参数集的数据嵌入到音频信号中，以形成BCC信号。例如，这些技术可能涉及隐藏在感知隐蔽曲线之下的数据，或隐藏在伪随机噪声中的数据。伪随机噪声可作为“舒服的噪声”被感知。和可使用类似于在用于带内传信的TDM(时分多路复用)传输的方法实现数据嵌入。另一可能的技术mu-law LSB位倒向，其中使用最低有效位传输数据。

本发明的BCC编码器可用来把双耳信号的左和右音频声道转换为一个编码的单声道信号及对应的BCC参数流。类似地，本发明的BCC解码器能够用来基于编码的单声道信号与对应的BCC参数流产生合成的双耳信号的左和右音频声道。然而本发明不限于此。一般来说，本发明的BCC编码器可在转换M个输入音频声道为N个组合音频声道及一个或多个对应的BCC参数集的情形下实现，其中M＞N。类似地，本发明的BCC解码器可在从N个组合的声道与对应的BCC参数集合产生P个输出音频声道的情形实现，其中P＞N，且P可以与M相同或不同。

虽然已就带有嵌入的听觉场景参数的单个组合(例如单声道)音频信号传输/存储的情形描述了本发明，但本发明还可对于其他声道数实现。例如，本发明可用来传输带有嵌入的听觉场景参数的两声道音频信号，其音频信号可以传统的两声道立体声接收器回放。这种情形下，BCC解码器可抽取并使用听觉场景参数以合成环绕声(例如基于5.1格式)。一般来说，本发明可用来从带有嵌入的听觉场景参数的N个音频声道产生M个音频声道，其中M＞N。

虽然已在采用‘877及‘458申请的技术合成听觉场景的BCC解码器的情形下描述了本发明，但本发明还可在采用其他合成听觉场景技术的BCC解码器的情形下实现，其不必依赖于‘877及‘458申请的技术。

本发明可作为基于电路的处理实现，其包括在单个集成电路上可能的实现。对于业内专业人员明显的是，电路元件的各种功能还可作为软件程序中的处理步骤实现。这种软件例如可在数字信号处理器、微控制器、或通用计算机中采用。

本发明可以方法或实践这些方法的设备的形式实施。本发明还可以有形的介质程序代码的形式实施，诸如软盘，CD-ROM，硬盘，或任何其他机器可读存储介质，其中当程序代码加载到诸如计算机等机器并由其执行时，该机器就成为用于实践本发明的设备。本发明还可程序代码的形式实施，例如或者存储在存储介质中，加载到机器和/或由其执行，或者通过某种传输介质或载体传输，诸如通过电线或电缆传送，通过光纤，或通过电磁辐射，其中当程序代码加载到诸如计算机等机器并由其执行时，该机器就成为实践本发明的设备。当在通用处理器上实现时，程序代码部分与处理器组合以提供唯一的装置，其操作类似于专用逻辑电路。

进而还能够理解，在已经描述并为解释本发明性质的细节、材料和部件排布上，可由业内专业人员在不背离以下权利要求表示的本发明范围之下作出各种变化。

Claims

1.一种用于合成听觉场景的方法，包括：

处理至少一个输入声道以产生两个或多个被处理的输入信号；

对至少一个输入声道滤波以产生两个或多个漫射信号；以及

组合这两个或多个漫射信号与两个或多个被处理的输入信号，以产生用于听觉场景的多个输出声道。

2.权利要求1的发明，其中处理至少一个输入声道包括：

把至少一个输入声道从时域转换到频域，以产生多个频域(FD)输入信号；以及

延迟并换算FD输入信号，以产生多个换算的时延的FD信号。

3.权利要求2的发明，其中：

漫射信号是FD信号；以及

对于每一输出声道，组合包括：

对换算、延迟的FD信号之一以及对应的FD漫射输入信号之一求和，以产生一个FD输出信号；以及

把FD输出信号从频域转换为时域，以产生输出声道。

4.权利要求3的发明，其中对至少一个输入声道滤波包括：

向至少一个输入声道施加两个或多个后期混响滤波器，以产生多个漫射声道；

把漫射声道从时域转换到频域，以产生多个FD漫射信号；以及

换算FD漫射信号以产生多个换算的FD漫射信号，其中换算的FD漫射信号与换算的、延迟的FD输入信号组合，以产生FD输出信号。

5.权利要求3的发明，其中至少一个输入声道包括：

向FD输入信号施加两个或多个FD后期混响滤波器，以产生多个漫射FD信号；以及

换算漫射FD信号以产生多个换算的漫射FD信号，其中换算的漫射FD信号与换算的、延迟的FD输入信号组合，以产生FD输出信号。

6.权利要求1的发明，其中：

该方法对小于规定阈值频率的输入声道频率施以处理、滤波与组合；以及

该方法进而对大于规定阈值频率的输入声道频率施以替换的听觉场景合成处理。

7.权利要求6的发明，其中替换的听觉场景合成处理涉及基于相干的没有滤波的BCC编码，其施加到小于规定阈值频率的输入声道频率。

8.一种用于合成听觉场景的设备，包括：

用于处理至少一个输入声道的装置，以产生两个或多个处理的输入信号；

用于滤波至少一个输入声道的装置，以产生两个或多个漫射信号；以及

用于组合两个或多个漫射信号与两个或多个处理的输入信号的装置，以产生用于听觉场景的多个输出声道。

9.一种用于合成听觉场景的设备，包括：

至少一个时域到频域(TD-FD)转换器和多个滤波器的配置，该配置适于从至少一个TD输入声道产生两个或多个处理的FD输入信号及两个或多个漫射FD信号；

两个或多个组合器，适于组合两个或多个漫射FD信号与两个或多个处理的FD输入信号，以产生多个合成的FD信号；以及

两个或多个频域到时域(FD-TD)转换器，适于把合成的FD信号转换为用于听觉场景的多个TD输出声道。

10.权利要求9的发明，其中至少两个滤波器具有不同的滤波器长度。