CN102656627B

CN102656627B - 多信道音频处理方法和装置

Info

Publication number: CN102656627B
Application number: CN200980162993.XA
Authority: CN
Inventors: P·奥雅拉
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2009-12-16
Filing date: 2009-12-16
Publication date: 2014-04-30
Anticipated expiration: 2029-12-16
Also published as: CN102656627A; TWI490853B; EP2513898B1; US20130195276A1; KR20120098883A; EP2513898A1; TW201135718A; US9584235B2; KR101450414B1; WO2011072729A1

Abstract

一种方法包括：接收至少第一输入音频信道和第二输入音频信道；并且使用信道间预测模型来形成至少一个信道间接收方向参数。

Description

多信道音频处理方法和装置

技术领域

本发明的实施方式涉及多信道音频处理。具体而言，涉及音频信号分析、编码和/或解码多信道音频。

背景技术

多信道音频信号分析用于例如关于3D图像、音频编码中的方向和运动以及声音源数量的多信道音频环境分析中，其又可用于编码例如语音、音乐等等。

多信道音频编码可用于例如数字音频广播、数字电视广播、音乐下载服务、流音乐服务、因特网广播、电话会议、基于分组交换网的实时多媒体传输(如IP语音、多媒体广播组播服务(MBMS)和分组交换流(PSS))。

发明内容

根据本发明的各种但不一定是所有实施方式，提供了一种方法，包括：接收至少第一输入音频信道和第二输入音频信道；并且使用信道间预测模型来形成至少一个信道间接收方向参数。

根据本发明的各种但不一定是所有实施方式，提供了一种计算机程序产品，包括当被加载到处理器中时控制该处理器执行以下操作的该机器可读指令：接收至少第一输入音频信道和第二输入音频信道；并且使用信道间预测模型来形成至少一个信道间接收方向参数。

根据本发明的各种但不一定是所有实施方式，提供了一种包括处理器和用于记录机器可读指令的存储器的装置，其中当该机器可读指令被加载到处理器中时使得该装置：接收至少第一输入音频信道和第二输入音频信道；并且使用信道间预测模型来形成至少一个信道间接收方向参数。

根据本发明的各种但不一定是所有实施方式，提供了一种装置，包括：用于接收至少第一输入音频信道和第二输入音频信道的单元；以及用于使用信道间预测模型来形成至少信道间接收方向参数的单元。

根据本发明的各种但不一定是所有实施方式，提供了一种方法，包括：接收缩混信号和至少一个信道间接收方向参数；并且使用该缩混信号和该至少一个信道间接收方向参数来呈现多信道音频输出。

附图说明

为了更好地理解本发明的各种示例性实施方式，现在将仅通过实例的方式来参考附图，其中：

图1示意性地示出了用于多信道音频编码的系统；

图2示意性地示出了编码器装置；

图3示意性地示出了在一些实现中可以如何确定对于不同的推定信道间预测模型H₁和H₂的成本函数；

图4示意性地示出了用于根据所选择的信道间预测模型H确定信道间参数的方法；

图5示意性地示出了用于根据所选择的信道间预测模型H确定信道间参数的方法；

图6示意性地示出了可以被用作为编码器装置和/或解码器装置的编解码器装置的组件；

图7示意性地示出了用于确定信道间接收方向参数的方法；

图8示意性地示出了用于将合成块的多信道输出混合到多个输出音频信道中的解码器；以及

图9示意性地示出了用于从编码器装置接收输入信号的解码器装置。

具体实施方式

在该实例中，所示的多信道音频编码器装置4是参数编码器，该参数编码器利用多信道音频信号分析根据预定义的参数模型来进行编码。

在该实例中，参数模型是一种使得能够进行有损压缩和数据速率降低以便降低容纳该多信道音频信号所需要的传输带宽或存储空间的直观模型。

编码器装置4在该实例中使用参数编码技术如双声道线索编码(binaural cue coding，BCC)参数化来执行多信道音频编码。参数音频编码模型通常将原始音频表示成缩混信号，其中该缩混信号包括从该原始信号的信道形成的数量减少的音频信道(例如作为单声道或作为双信道(立体声)加和信号)以及描述该原始信号的信道之间的差以便使得能够重构该原始信号(即描述由该原始信号所表示的空间图像)的参数的比特流。可以将包括多个信道的缩混信号看作为多个独立的缩混信号。

参数可以包括在多个变换域时-频时隙中的每一个中(即在输入帧的频率子带中)估计的至少一个信道间参数。传统而言，信道间参数是信道间等级差(ILD)参数和信道间时间差(ITD)参数。但是，在下文中信道间参数包括信道间接收方向(IDR)参数。在确定该信道间接收方向(IDR)参数的过程期间，仍然可以将信道间等级差(ILD)参数和/或信道间时间差(ITD)参数确定为中间参数。

为了保存输入信号的空间音频图像，重要的是准确地确定这些参数。

图1示意性地示出了用于多信道音频编码的系统2。多信道音频编码可以用于例如数字音频广播、数字电视广播、音乐下载服务、流音乐服务、因特网广播、对话应用、电话会议等等。

多信道音频信号35可以表示使用多个麦克风25_n从现实环境中捕获的音频图像，其中该多个麦克风25_n捕获来自声学空间中的一个或多个声音源的声音33。由独立的麦克风提供的信号表示多信道音频信号35中的独立的信道33_n。由编码器4处理该信号，以提供该声学空间的空间音频图像的浓缩表示。通常使用的麦克风结构的实例包括用于立体声(即两个信道)的多信道配置，5.1和7.2信道配置。特殊的情况是双耳音频捕获，其旨在通过使用两个信道33₁、33₂来捕获与到达(真实或虚拟)收听者的耳膜处的两个信道相对应的信号以建模人类听觉。但是，基本上可以使用任意类型的多麦克风结构来捕获多信道音频信号。典型而言，使用声学空间中的多个麦克风所捕获的多信道音频信号35产生具有相关信道的多信道音频。

输入到编码器4的多信道音频信号35也可以表示源自不同的(典型而言不相关的)源的可能通过组合信道33_n所创建的虚拟音频图像。原始信道33_n可以是单个信道或多个信道。可以由编码器4处理该多信道音频信号35的信道来展现希望的空间音频图像，例如通过这样一种方式将原始信号设置在该音频图像中的希望的“位置”中，其中在该方式中该原始信号直观看起来来自希望的方向并且可能还处于希望的等级。

图2示意性地示出了编码器装置4。

在该实例中，所示多信道音频编码器装置4是参数编码器，其中该参数编码器利用多信道音频信号分析根据所定义的参数模型来进行编码。

在该实例中，参数模型是允许有损压缩和带宽降低的直观模型。

编码器装置4在该实例中使用参数编码技术例如双声道线索编码(BCC)参数化来执行空间音频编码。参数音频编码模型如BCC通常将原始音频表示成缩混信号，其中该缩混信号包括从该原始信号的信道形成的数量减少的音频信道(例如作为单声道或作为双信道(立体声)加和信号)以及描述该原始信号的信道之间的差以便使得能够重构该原始信号(即描述由该原始信号所表示的空间图像)的参数的比特流。可以将包括多个信道的缩混信号看作为多个独立的缩混信号。

变换器50在离散时间帧上使用例如滤波器组分解，将输入音频信号(两个或更多个输入音频信道)从时域变换到频域。该滤波器组可能被严格抽样。严格抽样意味着数据(每秒钟的样本)的数量在变换域中保持相同。

可以将该滤波器组实现为例如重叠变换，其中当作为子带分解的一部分而执行块(即帧)的窗化时该重叠变换使得能够从一个帧到另一个帧进行平滑转变。可选择地，可以使用例如多相格式的FIR滤波器将该分解实现为连续滤波操作，以允许计算高效的操作。

将输入音频信号的信道独立地变换到频域，即变换到针对输入帧时隙的多个频率子带。因此，在时域中将输入音频信道划分成时隙并且在频域中将输入音频信道划分成子带。

在时域中该划分可能是均匀的，以形成均匀的时隙例如持续时间相等的时隙。在频域中该划分可能是均匀的，以形成均匀的子带例如频率范围相等的子带；或者在频域中该划分可能是不均匀的，以形成不均匀的子带结构例如频率范围不同的子带。在一些实施方式中，在低频处的子带比在高频处的子带窄。

从直观并且心理声学的观点看来，优选靠近ERB(等效矩形带宽)尺度的子带结构。但是可以应用任意类型的子带分割。

向音频场景分析器54提供来自变换器50的输出，音频场景分析器54产生场景参数55。在变换域中分析该音频场景，并且提取并处理对应的参数55以便传输或者存储以供稍后使用。

音频场景分析器54使用信道间预测模型来形成信道间场景参数55。

信道间参数可以包括例如在每个变换域时-频时隙(即输入帧的频率子带)中估计的信道间接收方向(IDR)参数。

另外，可以确定所选择的信道对之间的输入帧的频率子带的信道间相干性(ICC)。通常，针对输入信号的每个时-频时隙或者时-频时隙的子集确定IDR和ICC参数。时-频时隙的子集例如可以直观地表示最重要频率分量、输入帧的子集的频率时隙(的子集)或者特别感兴趣的时-频时隙的任意子集。信道间参数的直观重要性可能随时-频时隙的不同而不同。此外，对于具有不同特性的输入信号，信道间参数的直观重要性可能不同。

可以在任意两个信道之间确定IDR参数。作为一个实例，可以在输入音频信道与参考信道之间，通常是每个输入音频信道和参考输入音频信道之间，确定IDR参数。作为另一个实例，可以将麦克风阵列的相邻麦克风形成一个对来将输入信道分组为信道对，并且针对每个信道对确定IDR参数。通常针对将每个信道与参考信道进行比较来单独地确定ICC。

在下文中，使用具有两个输入信道L、R和单信道缩混信号的实例示出了BCC方法的一些细节。但是可以将该表示概括为覆盖多于两个输入音频信道和/或使用多个缩混信号(或具有多个信道的缩混信号)的配置。

缩混器52创建缩混信号作为输入信号的信道的组合。用于描述音频场景的参数还可用于多信道输入信号在缩混处理之前或之后的附加处理，以例如消除信道之间的时间差以便提供跨输入信道的时间对准的音频。

通常在变换域中将缩混信号创建为输入信号的信道的线性组合。例如，在双信道情况中，可以简单地通过求左信道和右信道的信号的平均来创建缩混：

S_{n} = \frac{1}{2} (S_{n}^{L} + S_{n}^{R})

-等式1

还存在用于创建缩混信号的其他手段。在一个实例中，可以在组合之前对左和右输入信道进行加权，以该方式可以保留该信号的能量。例如当其中一个信道上的信号能量显著低于另一个信道上的信号能量或者一个信道上的能量接近于零的时候，这可能是有用的。

可以使用可选择的逆变换器56在时域中产生缩混音频信号57。

可选择地，可以没有逆变换器56。因此在频域中对输出的缩混音频信号57进行连续编码。

多信道或双声道编码器的输出通常包括编码的缩混音频信号57 和场景参数55。可以用针对信号57和55的独立的编码块(未显示)来提供该编码。任意单声(或立体声)音频编码器适用于缩混音频信号57，而对于信道间参数55需要专门的BCC参数编码器。信道间参数可以包括例如信道间接收方向(IDR)参数。

图3示意性地示出了在一些实现中可以如何确定对于不同的推定信道间预测模型H₁和H₂的成本函数。

可以将音频信道j在主子带中在时间n处的样本表示为x_j(n)。

可以将音频信道j在主子带中在时间n处的历史过去样本表示为x_j(n-k)，其中k＞0。

可以将音频信道j在主子带中在时间n处的预测样本表示为y_j(n)。

信道间预测模型根据另一个音频信道的历史来表示一个音频信道j的预测样本y_j(n)。该信道间预测模型可以是自回归(AR)模型、移动平均(MA)模型或自回归移动平均(ARMA)模型等等。

作为一个基于AR模型的实例，阶数为L的第一信道间预测模型H₁可以将预测样本y₂表示为输入信号x₁的样本的加权线性组合。

输入信号x₁包括来自第一输入音频信道的样本，并且样本y₂表示第二输入音频信道的预测样本。

y_{2} (n) = Σ_{k = 0}^{L} H_{1} (k) x_{1} (n - k)

-等式2

模型阶数(L)，即预测器系数的数量，大于或等于期望的信道间延迟。即，该模型应该至少具有与样本中的期望的信道间延迟一样多的预测器系数。特别是当期望的延迟处于子样本域中时，具有比延迟略微高的模型阶数可能是有利的。

第二信道间预测模型H₂可以将预测样本y₁表示为输入信号x₂的样本的加权线性组合。

输入信号x₂包括来自第二输入音频信道的样本，并且预测样本y₁表示第一输入音频信道的预测样本。

y_{1} (n) = Σ_{k = 0}^{L} H_{2} (k) x_{2} (n - k)

-等式3

虽然在该实例中对于预测样本y₁和预测样本y₂两者而言，信道间模型阶数L是相同的，但是不一定总是这种情况。预测样本y₁的信道间模型阶数L可以与预测样本y₂的信道间模型阶数不同。模型阶数L也可以基于例如输入信号特性而随着输入帧的不同而不同。此外，可选择地或另外地，该模型阶数L可能在输入帧的频率子带上不同。

可以将在方框82处确定的成本函数定义为预测样本y与实际样本x之间的差。

在该实例中信道间预测模型H₁的成本函数是：

e_{2} (n) = x_{2} (n) - y_{2} (n) = x_{2} (n) - Σ_{k = 0}^{L} H_{1} (k) x_{1} (n - k)

-等式4

在该实例中信道间预测模型H₂的成本函数是：

e_{1} (n) = x_{1} (n) - y_{1} (n) = x_{1} (n) - Σ_{k = 0}^{L} H_{2} (k) x_{2} (n - k)

-等式5

将推定信道间预测模型的成本函数最小化，以确定推定信道间预测模型。可以使用例如最小平方线性回归分析来实现该确定。

可以使用利用未来样本的预测模型。例如，在实时分析(和/或编码)中，这可以通过缓存一定数量的输入帧以使得能够基于希望预测阶数的未来样本进行预测来实现。此外，当分析/编码预存音频信号时，希望数量的未来信号已经可用于该预测过程。

也可以使用递归的信道间预测模型。在该方法中，可以一个样本接一个样本地获得预测误差。该方法使得有可能在任意时刻选择预测模型并且甚至在一个帧中多次更新预测增益。例如可以如下递归地确定使用来自信道1的数据来预测信道2的预测模型f₁：

x₁(n)＝[x_1，n x_1，n-1 … x_1，n-p]^T

e₂(n)＝x₂(n)-f₁(n-1)^Tx₁(n)

g(n)＝P(n-1)x₁(n)(λ+x₁(n)^TP(n-1)x₁(n))^-1

P(n)＝λ^-1P(n-1)-g(n)x₁(n)^Tλ^-1P(n-1)

f₁(n)＝f₁(n-1)+e₂(n)g(n) 等式6

其中，初始值为f₁(0)＝[0 0…0]^T，P(0)＝δ^-1I是矩阵P(n)的初始状态，并且p是AR模型阶数即向量f的长度，并且λ是值为例如0.5的遗忘因子。

通常，不管预测模型是什么，关于图3将主子带的预测增益g_i定义为：

g_{1} = \frac{x_{2} {(n)}^{T} x_{2} (n)}{e_{1} {(n)}^{T} e_{1} (n)}

g_{2} = \frac{x_{1} {(n)}^{T} x_{1} (n)}{e_{2} {(n)}^{T} e_{2} (n)} .

等式7

高预测增益指示主子带中的信道之间的强相关性。

可以使用预测增益来评价推定信道间预测模型的质量。第一选择标准可能要求该推断信道间预测模型H_i的预测增益g_i大于绝对阈值T₁。

低预测增益意味着信道间相关性低。预测增益值低于或接近1指示该预测器不提供有意义的参数化。例如，可以将绝对阈值设置在10log₁₀(g_i)＝10dB。

如果该推定信道间预测模型H_i的预测增益g_i不超过该阈值，则测试不成功。因此确定该推定信道间预测模型H_i不适用于确定信道间参数。

如果该推定信道间预测模型H_i的预测增益g_i超过该阈值，则测试成功。因此确定该推定信道间预测模型H_i适用于确定至少一个信道间参数。

第二选择标准可能要求该推定信道间预测模型H_i的预测增益g_i超过相对阈值T₂。

相对阈值T₂可以是当前最佳预测增益加上偏移量。偏移量值可以是大于或等于零的任意值。在一个实现中，将该偏移量设置在20dB和40dB之间，例如为30dB。

使用所选择的信道间预测模型来形成IDR参数。

最初，通过将用于主音频信道的主域时-频时隙的特性与用于参考音频信道的同一时-频时隙的特性进行比较，确定在主域时-频时隙上的主音频信道的中间信道间参数。该特性可以是例如相位/延迟并且/或者其可以是幅度。

图4示意性地示出了用于在主子带中根据所选择的信道间预测模型H_i确定第一中间信道间参数的方法100。

在方框102处，确定信道间预测模型的相移/相位响应。

根据该模型的相位响应确定信道间时间差。当

时，将频率响应确定为

将该模型的相移确定为

φ(ω)＝∠(H(e^jω)) 等式9

在方框104处，确定该模型针对主子带的对应的相位延迟

τ_{φ} (ω) = - \frac{φ (ω)}{ω}

等式10

在方框106处，可以确定τ_φ(ω)在多个子带上的平均。该多个子带可以包括覆盖该频率范围的全部或子集的子带。

由于相位延迟分析是在子带域中完成的，所以对于帧中的信道间时间差(延迟)的合理的估计是τ_φ(ω)在覆盖该频率范围的全部或子集的多个子带上的平均。

图5示意性地示出了用于在主子带中根据所选择的信道间预测模型H_i确定第二中间信道间参数的方法110。

在方框112中，确定信道间预测模型的幅度。

根据该模型的幅度响应确定信道间等级差参数。

将该模型针对主子带的信道间等级差确定为：

g(ω)＝|H(e^jω)| 等式11

同样可以通过计算g(ω)在覆盖该频率范围的全部或子集的多个子带上的平均来估计该信道间等级差参数。

在方框114处，可以确定g(ω)在覆盖该频率范围的全部或子集的多个子带上的平均。可以使用该平均作为各个帧的信道间等级差参数。

图7示意性地示出了用于确定一个或多个信道间接收方向参数的方法70。

在方框72处，接收输入音频信道。在下文的实例中，使用两个输入信道，但是在其他实现中，可以使用更大数量的输入信道。例如，可以将更大数量的信道减少为一系列共享同一参考信道的信道对。作为另一个实例，可以基于信道配置将更大数量的输入信道分组成信道对。对于信道间预测模型和对应的预测增益对，可以将与相邻麦克风相对应的信道链接在一起。例如，当在阵列配置中具有N个麦克风时，到达方向估计可以从相邻麦克风信道形成N-1个信道对。然后可以针对每个信道对确定到达方向(或IDR)参数，从而产生N-1个参数。

在方框73处，确定输入信道的预测增益。

可以关于图3将预测增益g_i定义为：

g_{1} = \frac{x_{2} {(n)}^{T} x_{2} (n)}{e_{1} {(n)}^{T} e_{1} (n)}

等式12

g_{2} = \frac{x_{1} {(n)}^{T} x_{1} (n)}{e_{2} {(n)}^{T} e_{2} (n)}

等式13

第一预测增益是用于预测第一输入音频信道的信道间预测模型的第一度量g₁的实例。第二预测增益是用于预测第二输入音频信道的信道间预测模型的第二度量g₂的实例。

在方框74处，使用预测增益来确定一个或多个比较值。

合适的比较值的实例是预测增益差d，其中

d＝log₁₀(g₁)-log₁₀(g₂) 等式14

因此方框73确定将第一度量(例如g₁)与第二度量(例如g₂)进行比较的比较值(例如d)。将第一度量(例如g₁)用作慢速改变函数(例如算法)的自变量以获得修改后的第一度量(例如log₁₀(g₁))。将第二度量(例如g₂)用作同一慢速改变函数(例如算法)的自变量以获得修改后的第二度量(例如log₁₀(g₂))。将比较值d确定为一个比较值，例如该修改后的第一度量与该修改后的第二度量之间的差。

比较值(例如预测增益差)d可以与信道间接收方向参数成正比。因此，预测增益的差越大，则声音源与垂直于收听线(例如垂直于连接用于获取各个音频信道的麦克风的线，如线性麦克风阵列中的线性方向)的轴的中心相比的接收方向角越大。

可以将比较值(例如d)映射到信道间接收方向参数φ，其中φ是用于使用映射函数α()来描述接收方向的角度。作为一个实例，可以通过例如使用如下映射函数α，将预测增益差d线性映射到[-π/2…π/2]范围中的接收方向角：

d＝αφ 等式15

该映射也可以是恒定的或者是时间和子带的函数，即α(t，m)。

在方框76处，校准该映射。该方框使用所确定的比较值(方框74)以及参考信道间接收方向参数(方框75)。

该校准后的映射函数将信道间接收方向参数映射到该比较值。可以根据该比较值(来自方框74)和相关联的信道间接收方向参数(来自方框75)来校准该映射函数。

在方框75处可以使用每个子带n中的绝对信道间时间差参数τ或者绝对信道间等级差参数ΔL_n来确定该相关信道间接收方向参数。

可以由音频场景分析器54确定信道间时间差(ITD)参数τ_n和绝对信道间等级差(ILD)参数ΔL_n。

可以在变换域时-频时隙中，即在输入帧的频率子带中，估计该参数。通常，针对输入信号的每个时-频时隙或者直观表示最重要频率分量的频率时隙的子集，来确定ILD和ITD参数。

可以在输入音频信道和参考信道之间，通常在每个输入音频信道和参考输入音频信道之间，确定ILD和ITD参数。

在下文中，使用具有两个输入信道L、R和单个缩混信号的实例示出了一种方法的一些细节。但是可以将该表示概括为覆盖多于两个输入音频信道和/或使用多个缩混信号的配置。

通常将每个子带的信道间等级差(ILD)ΔL_n估计为：

Δ L_{n} = 10 \log_{10} (\frac{{s_{n}^{L}}^{T} s_{n}^{L}}{{s_{n}^{R}}^{T} s_{n}^{R}})

等式16

其中

和

分别是子带n中的时域左和右信道信号。

可以将两个输入音频信道之间的信道间时间差(ITD)即延迟确定为如下：

τ_n＝arg max_d{Φ_n(k，d)} 等式17

其中Φ_n(d，k)是归一化相关性

Φ_{n} (d, k) = \frac{s_{n}^{L} {(k - d_{1})}^{T} s_{n}^{R} (k - d_{2})}{\sqrt{(s_{n}^{L} {(k - d_{1})}^{T} s_{n}^{L} (k - d_{1})) (s_{n}^{R} {(k - d_{2})}^{T} s_{n}^{R} (k - d_{2}))}}

等式18

其中

d₁＝max{0，-d}

d₂＝max{0，d}

可选择地，可以在离散傅里叶变换(DFT)域中确定该参数。使用例如窗化短时傅里叶变换(STFT)，可以将上述子带信号转换成变换系数的组群。

和分别是给定分析帧的子带n的两个输入音频信道L、R的频谱系数。可以将变换域ILD确定为

Δ L_{n} = 10 \log_{10} (\frac{{S_{n}^{L}}^{*} S_{n}^{L}}{{S_{n}^{R}}^{*} S_{n}^{R}})

等式19

其中^*表示复共轭。

在本发明的实施方式中，可以使用除了DFT之外的任意产生复数值变换信号的变换。

但是，可能更容易将时间差(ITD)处理为信道间相位差(ICPD)

等式21。

可以仅针对有限数量的子带确定时间和等级差参数，并且不需要在每个帧中更新它们。

然后在方框75中，确定信道间接收方向参数。作为一个实例，可以使用绝对信道间时间差(ITD)参数τ，根据以下等式22确定参考信道间接收方向参数φ：

τ＝(|x|sin(φ))/c 等式22

其中|x|是麦克风之间的距离并且c是声音的速度。

作为另一个实例，可以如下等式24，使用(幅度)淘选法则(panning law)中的信道间信号等级差来确定参考信道间接收方向参数φ：

\sin φ = \frac{l_{1} - l_{2}}{l_{1} + l_{2}}

等式23

其中，

是信道i的信号等级参数。可以使用在等式16中确定的ILD线索来确定用于淘选法则的信号等级。首先通过

s_{n}^{L} = 2 \frac{10^{\frac{Δ L_{n}}{20}}}{10^{\frac{Δ L_{n}}{20}} + 1} s_{n}

s_{n}^{R} = 2 \frac{1}{10^{\frac{Δ L_{n}}{20}} + 1} s_{n}

从单声道缩混获取和

其中，s_n是单声道缩混。接下来，将等式23中需要的信号等级确定为

l_{1} = \sqrt{{s_{n}^{L}}^{T} s_{n}^{L}}

和

l_{2} = \sqrt{{s_{n}^{R}}^{T} s_{n}^{R}} .

往回参考方框76，可以根据所获得的比较值(来自方框74)和相关联的信道间接收方向参数(来自方框75)来校准该映射函数。

该映射函数可以是时间和子带的函数并且是使用可用的所获得的比较值和与那些比较值相关联的参考信道间接收方向参数确定的。如果该比较值和相关联的参考信道间接收方向参数在多个子带中可用，则映射函数在可用数据中适合做多项式。

可以间歇性地重新校准该映射函数。可以在规律的时间间隔或在映射准确性变得高于预先确定的阈值时基于输入信号特性或者甚至在每个帧和每个子带中重新校准该映射函数α(t，n)。

可以仅针对子带的子集发生该重新校准。

接下来方框77使用校准后的映射功能来确定信道间接收方向参数。

使用映射函数的逆函数将比较值(例如d)映射到信道间接收方向参数(例如 )。

例如可以使用等式

{\hat{φ}}_{n} = α^{- 1} (t, n) d_{n}

在编码器54中确定每个子带n中的接收方向。

根据本发明的一个实施方式，接收方向参数的估计是双声道编码器54的输出55。

也可以提供信道间相干性线索，作为音频场景参数55以便完成空间图像参数化。但是，对于高于1500Hz的高频子带，当信道间时间或相位差典型而言变得模糊时，可以使用绝对预测增益作为信道间相干性线索。

在一些实施方式中，只有

与以前提供的接收方向参数

至少相差一个阈值时，才可以向目的地提供接收方向参数

在本发明的一些实施方式中，可以向呈现侧提供该映射函数α(t，n)作为参数55。但是在解码器中呈现空间声音时不一定需要该映射函数。

信道间预测增益通常平滑地发展。在多个帧的相对较长时间周期上平滑(并且平均)映射函数α^-1(t，n)可以是有益的。即使当映射函数被平滑时，接收方向参数估计

也将保持对突然改变的快速反应能力，因为实际参数是基于基于帧和子带的预测增益的。

图6示意性地示出了可以被用作为编码器装置4和/或解码器装置80的编解码器装置的组件。该编解码器装置可以是最终产品或模块。如本文所使用的“模块”是指排除了特定部分/组件的单元或装置，其中将由最终制造商或者用户添加该特定部分/组件以形成最终产品装置。

编解码器的实现可以仅仅以硬件(电路、处理器等等)实现，以仅包括固件的软件来实现特定方面，或者可以是硬件和软件(包括固件)的组合。

可以使用支持硬件功能的指令来实现编解码器，例如通过在通用或专用处理器中使用可以存储在可由该处理器执行的计算机可读存储介质上(盘片、存储器等等)的可执行计算机程序指令。

在所示实例中，编码器装置4包括：处理器40、存储器42以及输入/输出接口44例如网络适配器。

处理器40被配置为从存储器42进行读取以及向存储器42进行写入。处理器40还可以包括输出接口和输入接口，其中处理器40经由该输出接口输出数据和/或命令，并且处理器40经由该输入接口输入数据和/或命令。

存储器42存储计算机程序46，计算机程序46包括当被加载到处理器40中时控制编解码器装置的操作的计算机程序指令。计算机程序指令46提供使得该装置能够执行图3到9中所示的方法的逻辑和例程。通过读取存储器42，处理器40能够加载并且执行计算机程序46。

计算机程序可以经由任何合适的传递机制48到达编解码器装置。传递机制48可以是例如计算机可读存储介质、计算机程序产品、存储设备、诸如CD-ROM或DVD之类的记录介质、有形体现计算机程序46的制品。传递机制48可以是被配置为可靠地传递计算机程序46的信号。编解码器装置可以将计算机程序46作为计算机数据信号来传播或发射。

虽然将存储器42示出为单个组件，但是可以将其实现为一个或多个独立的组件，该一个或多个独立的组件中的一些或全部组件可以是集成的/可拆卸的并且/或者可以提供永久的/半永久的/动态的/高速缓冲的存储装置。。

应该将对于“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等等或“控制器”、“计算机”、“处理器”等等理解为不仅包括具有不同架构(如单/多处理器架构和顺序(冯诺依曼)/并行架构)的计算机而且还包括专用电路如现场可编程门阵列 (FPGA)、专用集成电路(ASIC)、信号处理设备和其他设备。应该将对于计算机程序、指令、代码等等的参考理解为包括用于可编程处理器或固件的软件，例如硬件设备的可编程内容，不管是用于处理器的指令或者用于功能固定的设备、门阵列或可编程逻辑器件等等的配置设置。

译码

图9示意性地示出了用于从编码器装置4接收输入信号57、55的解码器装置180。

解码器装置180包括合成模块182和参数处理模块184。信号合成例如BCC合成可以基于由参数处理模块184提供的参数，发生在合成模块182处。

用例如DTF变换将包括N个样本s₀，…，S_N-1的缩混信号57的帧转换成N个频谱样本S₀，…，S_N-1。

信道间参数(BCC线索)例如上述IDR是来自参数处理模块184的输出，并且将其应用在合成模块182中以创建多(M)个输出音频信道183中的空间音频信号，在该实例中是双声道音频。

可以由

τ＝(|x|sin(φ))/c

来定义两个信道之间的时间差，其中，|x|是扬声器之间的距离，c是声音的速度。

可以由

\sin φ = \frac{l_{1} - l_{2}}{l_{1} + l_{2}}

来定义两个信道之间的等级差。

因此可以将接收的信道间接收方向参数

转换为幅度和时间/相位差淘选法则，以创建用于上混该单声道缩混的信道间等级和时间差线索。在经验质量的观点看来，当可以完全利用输出信道的相位差时，对于头戴式耳机收听而言这是特别有益的

可选择地，可以将接收的信道间接收方向参数仅转换为用于上混该单声道缩混的信道间等级差线索而没有时间延迟呈现。这可用于例如扬声器表示。

基于接收方向估计的提供是非常灵活的。输出信道配置不需要与获取侧的输出信道配置相同。即使使用双信道信号例如仅使用两个麦克风来执行该参数化，也可以使用任意数量的信道来呈现该音频。

应该注意到，使用取决于频率的接收方向(IDR)参数的合成重建来表示音频源的声音分量。环境声音仍然可能丢失，并且可以使用相干性参数来合成该环境声音。

一种用于基于相干性线索的环境声音分量的合成的方法包括信号的解相关，以创建后期混响信号。该实现可以包括使用随机相位滤波器来滤波输出音频信号并且将结果添加到输出中。当将不同的滤波器延迟应用于输出音频信道时，就创建了一组解相关的信号。

图8示意性地示出了一种解码器，其中在该解码器中通过混响器189将合成模块182的多信道输出合成到多(K)个输出音频信道191中，已知输出信道的数量可以与输入信道的数量不同(K≠M)。

这使得能够呈现不同的空间混响格式。例如混响器189可以响应于用户输入193识别用户的扬声器设置，以改变输出音频信道191的混响和属性和数量。在实施中，这意味着可以将例如最初针对5.1扬声器系统混响或记录的多信道电影声道上混为针对更现代的7.2扬声器系统。同样，可以通过多信道扬声器设置来回放用双声道麦克风记录的音乐或对话。

还有可能通过其他在计算上更昂贵的方法如交叉相关来获得信道间参数。在一些实施方式中，上述方法可用于第一频率范围并且交叉相关可用于第二个不同的频率范围。

图2到5和7到9中所示的方框可以表示方法中的步骤和/或计算机程序46中的代码段。对于方框的具体次序的说明不一定意味着对于该方框存在要求的或优选的次序，并且可以改变方框的次序和排列。此外，有可能省略一些步骤。

虽然在前文中已参考各种实例描述了本发明的实施方式，但是应该明白在不脱离如所要求的本发明的范围的前提下，可以对于所给出的实例做出修改。上述技术还可以例如应用于MPEG环绕音编解码器。

可以在除了明确所述的组合之外的其他组合中使用前文中所述的特征。

虽然已参考特定特征描述了一些功能，但是那些功能也可以由其他特征来执行，而不管那些特征有没有描述。

虽然已参考特定实施方式描述了一些特征，但是那些特征也可以出现在其他实施方式中，而不管那些实施方式有没有描述。

同时，前文竭力引起人们注意本发明的被确信为特别重要的那些特征，应该理解申请人要求关于上文涉及的并且/以及附图中显示的任意可专利的特征或特征组合的保护，而不管是否特别强调。

Claims

1.一种多信道音频处理方法，包括：

接收第一输入音频信道和第二输入音频信道；

确定第一度量为用于预测所述第一输入音频信道的信道间预测模型的预测增益，并且确定第二度量为用于预测所述第二输入音频信道的信道间预测模型的预测增益；

比较所述第一度量和所述第二度量以确定比较值；以及

基于所述比较值确定至少一个信道间接收方向参数。

2.根据权利要求1所述的方法，还包括：提供包括缩混信号和所述至少一个信道间接收方向参数的输出信号。

3.根据权利要求1所述的方法，还包括：

使用所述第一度量作为慢速改变函数的操作数以获得修改的第一度量；

使用所述第二度量作为同一慢速改变函数的操作数以获得修改的第二度量；以及

将所述修改的第一度量与所述修改的第二度量之间的差确定为所述比较值。

4.根据权利要求3所述的方法，其中所述比较值是所述第一度量的对数与所述第二度量的对数之间的差。

5.根据权利要求1所述的方法，还包括：

使用根据所获得的比较值和相关联的信道间接收方向参数所校准的映射函数，将所述信道间接收方向参数映射到所述比较值。

6.根据权利要求5所述的方法，其中使用绝对信道间时间差参数和/或绝对信道间等级差参数，确定所述相关联的信道间接收方向参数。

7.根据权利要求5所述的方法，还包括间隙性地重新校准所述映射函数。

8.根据权利要求5到7中的任意一项所述的方法，其中所述映射函数是时间与子带的函数，并且是使用可用的所获得的比较值与相关联的信道间接收方向参数来确定的。

9.根据权利要求1所述的方法，其中所述信道间预测模型针对不同的音频信道表示一个音频信道的预测样本。

10.根据权利要求9所述的方法，还包括：最小化所述预测样本的成本函数，以确定信道间预测模型，并且使用所述确定的信道间预测模型来确定至少一个信道间参数。

11.根据权利要求1到7、9或10中的任意一项所述的方法，还包括：

在时域中将至少所述第一输入音频信道和所述第二输入音频信道划分为时隙，以及在频域中将至少所述第一输入音频信道和所述第二输入音频信道划分为子带，以及

针对多个子带中的每个子带，使用信道间预测模型来形成信道间接收方向参数。

12.根据权利要求1所述的方法，还包括：使用至少一个选择标准来选择要使用的信道间预测模型，其中所述至少一个选择标准是基于所述信道间预测模型的性能测量。

13.根据权利要求12所述的方法，其中所述性能测量是预测增益。

14.根据权利要求1到7、9、10、12或13中的任意一项所述的方法，包括：从多个信道间预测模型中选择要使用的信道间预测模型。

15.一种多信道音频处理装置，包括：

用于接收第一输入音频信道和第二输入音频信道的单元；

用于确定第一度量为用于预测所述第一输入音频信道的信道间预测模型的预测增益，并且确定第二度量为用于预测所述第二输入音频信道的信道间预测模型的预测增益的单元；

用于比较所述第一度量和所述第二度量以确定比较值的单元；以及

用于确定至少一个信道间接收方向参数的单元。

16.根据权利要求15所述的装置，包括：

用于使用所述第一度量作为慢速改变函数的操作数以获得修改的第一度量的单元；

用于使用所述第二度量作为同一慢速改变函数的操作数以获得修改的第二度量的单元；以及

用于将所述修改的第一度量与所述修改的第二度量之间的差确定为所述比较值的单元。

17.根据权利要求15所述的装置，其中所述比较值是所述第一度量的对数与所述第二度量的对数之间的差。

18.一种多信道音频处理方法，包括：

接收至少一个信道间接收方向参数，其中所述至少一个信道间接收方向参数是基于比较值确定的，其中所述比较值是通过比较第一度量和第二度量确定的，其中所述第一度量被确定为用于预测第一音频输入信道的信道间预测模型的预测增益，所述第二度量被确定为用于预测第二输入音频信道的信道间预测模型的预测增益；以及

使用缩混信号和所述至少一个信道间接收方向参数来呈现多信道音频输出。

19.根据权利要求18所述的方法，还包括：

在呈现所述多信道音频输出之前，将所述至少一个信道间接收方向参数转换成信道间时间差。

20.根据权利要求18所述的方法，还包括：

使用淘选法则，将所述至少一个信道间接收方向参数转换成等级值。