CN101521013A

CN101521013A - 空间音频参数双向帧间预测编解码装置

Info

Publication number: CN101521013A
Application number: CN200910061440A
Authority: CN
Inventors: 胡瑞敏; 杭波; 马晔; 周成; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2009-04-08
Filing date: 2009-04-08
Publication date: 2009-09-02
Anticipated expiration: 2029-04-08
Also published as: CN101521013B

Abstract

本发明提供了空间音频参数双向帧间预测编解码装置。其中编码装置包括空间音频参数提取模块，用于对输入的多声道音频信号的帧信号分子带提取空间音频参数；空间音频参数预测模块，用于得到当前帧的空间音频参数的预测系数和预测残差；空间音频参数编码模块，用于将当前帧的空间音频参数的预测系数和预测残差进行编码。其中解码装置包括空间音频参数解码模块，用于从编码码流的帧信号中得到该帧的空间音频参数的预测系数和预测残差；空间音频参数重建模块，用于重建得到当前帧的空间音频参数。本发明考虑了空间音频参数的时域相关性，可有效降低编码码率。

Description

空间音频参数双向帧间预测编解码装置

技术领域

本发明属于音频技术领域，特别是涉及空间音频参数双向帧间编解码预测装置。

背景技术

在空间音频编码技术里，空间音频参数表达了多声道(含立体声)音频中蕴涵的空间信息，如双耳声强差、双耳时间差、双耳相关度。

其中双耳声强差(Interaural Level Difference，以下简称ILD)参数表达了声道间强差对声源方向定位的影响。简单说来，如果左耳感受到的声音强度比右耳的大，那么听音人会觉得声音来自左侧方向，反之亦然。

双耳时间差(Interaural Time Difference，以下简称ITD)参数表达了声道间时间差对声源方向定位的影响。简单说来，从声源发出的声音到达人的左耳和右耳时，有一个先后的过程，这段时间差就是双耳时间差。它的原理是：如果一个声音到达双耳的时间是同时的，那么听者就觉得这个声音处在正中间的位置；倘若声音到达左耳先于到达右耳，听者人就觉得声源偏左，反之亦然。。

双耳相关度(Interaural Correlation，以下简称IC)参数控制着声场宽度，在实际编码应用中被定义为声道间的相关系数，其数值在0和1之间。简单说来，当IC较小时，声道间信号相关性较小，双耳感知到的是面声源，给人一种开阔的听觉感受；当IC较大时，声道间信号相关性较大，双耳感知到的是点声源，给人一种集中的听觉感受。

通常认为语音频信号是瞬变信号，因此前一帧的参数对当前帧没有意义。但空间音频参数有其特殊性。因为音频对象在空间的移动通常是一个连续过程，表征音频对象空间方位的音频空间音频参数在时域前后帧存在着相关性。现有空间音频编码技术通过双声道下混和声道间的差异分析，提取空间音频参数进行编码，没有考虑到空间音频参数在时域上前后帧之间的相关性，导致在处理空间方位连续变化的音频信号时存在较大冗余。

发明内容

本发明目的在于利用基于空间音频参数的时域相关性，提出空间音频参数的线性预测分析技术方案，通过前后若干帧的空间音频参数预测当前帧的空间参数，在预测分析基础上可以重建空间参数，有效降低编码码率

本发明提供的一种空间音频参数双向帧间预测编码装置，包含以下部分：

空间音频参数提取模块，用于对输入的多声道音频信号的帧信号分子带提取空间音频参数，并输出到空间音频参数预测模块；

空间音频参数预测模块，用于使用之前帧的空间音频参数和之后帧的空间音频参数拟合预测当前帧的空间音频参数，得到当前帧的空间音频参数的预测系数；再通过对比预测结果与空间音频参数提取模块所得实际的当前帧的空间音频参数，得到对当前帧的空间音频参数的预测残差；并输出预测系数和预测残差到空间音频参数编码模块；

空间音频参数编码模块，用于将空间音频参数预测模块所得当前帧的空间音频参数的预测系数和预测残差进行编码得到编码码流。

而且，所述空间音频参数预测模块得到当前帧的空间音频参数的预测系数和预测残差，具体实现过程如下，

设由空间音频参数提取模块提取所得当前帧的K个子带的空间音频参数记为P₁，P₂，…P_k，之前M帧的K个子带的空间音频参数记为F_m1，F_m2，…F_mk，之后N帧的K个子带的空间音频参数记为B_n1，B_n2，…B_nk，其中K≥1，M≥0，N≥0，M+N>0，当M>0时m取1～M，当N>0时n取1～N；

对当前帧的第i子带的空间音频参数P_i，1≤i≤K，用之前M帧的第i子带的空间音频参数F_mi和之后N帧的第i子带的空间音频参数B_ni进行拟合，得到的拟合结果为当前帧的第i子带的空间音频拟合参数：

{\hat{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni},

其中α_mi为前向预测系数，β_ni为后向预测系数；

得到当前帧的第i子带的空间音频参数的预测系数C_i＝{α_1i，…α_Mi，β_1i，…β_Ni}；

根据当前帧的第i子带的空间音频参数P_i和空间音频拟合参数

计算当前帧的第i子带的空间音频参数的预测残差

δ_{i} = P_{i} - {\hat{P}}_{i} .

本发明还提供了相应的空间音频参数双向帧间预测解码装置，包含以下部分：

空间音频参数解码模块，用于从编码码流中得到帧信号的空间音频参数的预测系数和预测残差，并输入到空间音频参数重建模块；

空间音频参数重建模块，用于使用之前帧的空间音频参数、之后帧的空间音频参数及空间音频参数解码模块所得当前帧的预测系数和预测残差，重建得到当前帧的空间音频参数。

而且，所述空间音频参数重建模块重建得到当前帧的空间音频参数，具体实现过程如下，

空间音频参数重建模块从空间音频参数解码模块得到当前帧的空间音频参数的预测系数和预测残差，设当前帧的第i子带的空间音频参数的预测系数C_i＝{α_1i，…α_Mi，β_1i，…β_Ni}和预测残差δ_i、之前M帧的K个子带的空间音频参数F_m1，F_m2，…F_mk、之后N帧的K个子带的空间音频参数B_n1，B_n2，…B_nk，其中K≥1，M≥0，N≥0，M+N>0，当M>0时m取1～M，当N>0时n取1～N，α_1i，…α_Mi为前向预测系数，β_1i，…β_Ni为后向预测系数；重建得到当前帧第i子带的空间音频参数

{\tilde{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni} + δ_{i} .

本发明提供了一种空间音频参数双向帧间预测方案，包括编码端装置和解码端装置。通过在编码端对空间音频参数的拟合分析，将预测系数和预测残差放入编码码流；解码端就能用预测系数和预测残差来重建空间参数。可见本发明充分利用了空间音频参数的时域相关性，可有效降低编码码率。

附图说明

图1本发明的装置结构图；

图2本发明的空间音频参数拟合预测原理图；

图3本发明的空间音频参数重建原理图；

图4本发明实施例的空间音频参数预测示意图。

具体实施方式

参见图1，本发明提供的空间音频参数双向帧间预测技术方案实现如下。

编码端：

(1)空间音频参数提取模块，用于对输入的多声道音频信号的帧信号分子带提取空间音频参数，并输出到空间音频参数预测模块。

用于从输入的多声道音频信号的当前帧提取得到多个子带的空间音频参数。具体实施时，首先将当前帧信号由时域变换到频域，然后将所得的频域上的当前帧信号划分为K个子带并计算每个子带的空间音频参数，由此得出当前帧的K个子带的空间音频参数P₁，P₂，…P_k。

该模块所提取的空间音频参数可以是ILD、ITD、IC等。划分子带的数目可根据需要设定为一个或多个，建议采用现有音频技术中的Bark带划分规则分为24个子带。

(2)空间音频参数预测模块，用于使用之前帧的空间音频参数和之后帧的空间音频参数拟合预测当前帧的空间音频参数，得到当前帧的空间音频参数的预测系数；再通过对比拟合结果与空间音频参数提取模块所得实际的当前帧的空间音频参数，得到对当前帧的空间音频参数的预测残差；并输出预测系数和预测残差到空间音频参数编码模块。

拟合无需当前帧的所有之前帧和之后帧，只需在具体实施时，根据重建精确度和码率需要选择之前若干帧和之后若干帧即可。对当前帧处理完后，即从空间音频参数提取模块取多声道音频信号的下一帧信号作为当前帧，继续处理。参见图2，使用前后若干帧空间音频参数对当前帧空间音频参数拟合后，可以缓存记录当前帧空间音频参数用于其他帧拟合。参见图4，本发明实施例所取的空间参数为ILD，按照时间顺序，通过前一帧ILD和后一帧ILD就可以拟合当前帧ILD，得到预测残差。

本发明提供了进一步技术方案以供参考实施：所述空间音频参数预测模块得到当前帧的空间音频参数的预测系数和预测残差，具体实现过程如下，

设由空间音频参数提取模块提取所得当前帧的K个子带的空间音频参数记为P₁，P₂，…P_k，之前M帧的K个子带的空间音频参数记为F_m1，F_m2，…F_mk，之后N帧的K个子带的空间音频参数记为B_n1，B_n2，…B_nk。其中K≥1，M≥0，N≥0，M+N>0，当M>0时m取1～M，当N>0时n取1～N，也就是说可以只取之前帧(N＝0)或之后帧(M＝0)。

{\hat{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni},

其中α_mi为前向预测系数，β_ni为后向预测系数；

从而得到用于预测重建的当前帧的第i子带的空间音频参数的预测系数C_i＝{α_1i，…α_Mi，β_1i，…α_Ni}；

根据当前帧的第i子带的空间音频参数P_i和空间音频拟合参数

计算当前帧的第i子带的空间音频参数的预测残差

δ_{i} = P_{i} - {\hat{P}}_{i} .

具体实施时，可用一长度为M+N+1的存储单元Q存储由空间音频参数提取模块所得当前帧的K个子带的空间音频参数P₁，P₂，…P_k，和已得的当前帧的前M帧的K个子带的空间音频参数F_m1，F_m2，…F_mk及后N帧的K个子带的空间音频参数B_n1，B_n2，…B_nk。然后由当前帧的第i子带的空间音频参数P_i，可以用前M帧的第i子带的空间音频参数F_mi和后N帧的第i子带的空间音频参数B_ni进行拟合得到当前帧的第i子带的空间音频拟合参数：

{\hat{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni},

拟合所用的前向预测系数α_mi、后向预测系数β_ni组合构成当前帧的第i子带的空间音频参数的预测系数C_i＝{α_1i，…α_Mi，β_1i，…β_Ni}。其中，K≥1，M≥0，N≥0，M+N>0，1≤i≤K，当M>0时m取1～M，当N>0时n取1～N。当N＝0或M＝0时，相应后向预测系数β_ni或前向预测系数α_mi就不存在，相应地预测系数C_i＝{α_1i，…α_Mi}或{β_1i，…β_Ni}。根据当前帧的第i子带的空间音频参数P_i和空间音频拟合参数

计算当前帧的第i子带的空间音频参数的预测残差

δ_{i} = P_{i} - {\hat{P}}_{i} .

在编码端将预测系数C_i和预测残差δ_i加入编码码流后，解码端就可以根据预测系数C_i和预测残差δ_i进行重建。预测系数C_i采用固定的系数组合，也可动态调整。如果采用固定的系数组合，在带入公式

{\hat{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni}

后，就能得到预测残差

δ_{i} = P_{i} - {\hat{P}}_{i},

方便高效；如果采用动态调整方式，可以不断改变前向预测系数α_mi、后向预测系数β_ni的系数值带入公式

{\hat{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni}

后，令空间音频拟合参数

尽量贴合空间音频参数提取模块所得正视的空间音频参数P_i，即令预测残差δ_i的数值更小，这样解码重建更精确，但效率稍低。

以上所述存储单元Q的存储内容为：存储单元Q长度为M+N+1，该模块对当前帧空间音频参数进行拟合时，当前帧的前M帧的K个子带的空间音频参数P_m1，P_m2，…P_mk、当前帧的K个子带的空间音频参数F_m1，F_m2，…F_mk、当前帧的后N帧的K个子带的空间音频参数B_n1，B_n2，…B_nk依次按时间顺序存入存储单元Q。其中F_m1，F_m2，…F_mk和B_n1，B_n2，…B_nk可以使用本发明装置提取，也可以使用其他方法提取，例如直接提取或其他预测方法。

(3)空间音频参数编码模块，用于将空间音频参数预测模块所得当前帧的空间音频参数的预测系数和预测残差进行编码得到编码码流。

具体实施时，如果当前帧的空间音频参数的预测系数C_i采用固定的系数组合，编码码流中对预测系数编码不需要分配比特；如果当前帧的空间音频参数的预测系数动态调整，编码码流中需要分配若干比特对预测系数进行编码。

解码端：

(1)空间音频参数解码模块，用于从编码码流中得到帧信号的空间音频参数的预测系数和预测残差，并输入到空间音频参数重建模块。

编码端得到的编码码流传输到编码端后，由空间音频参数解码模块针对每帧帧信号进行预测信息提取。对于空间音频参数重建模块正在进行重建处理的当前帧而言，所需的就是空间音频参数解码模块从编码码流中得到的当前帧的空间音频参数的预测系数C_i和预测残差δ_i，其中i为对当前帧划分的子带数，且1≤i≤K。

(2)空间音频参数重建模块，用于使用之前帧的空间音频参数、之后帧的空间音频参数及空间音频参数解码模块所得当前帧的预测系数和预测残差，重建得到当前帧的空间音频参数。

本发明提供了进一步技术方案以供参考实施：所述空间音频参数重建模块重建得到当前帧的空间音频参数，具体实现过程如下，

空间音频参数重建模块从空间音频参数解码模块得到当前帧的空间音频参数的预测系数和预测残差，设当前帧的第i子带的空间音频参数的预测系数C_i＝{α_1i，…α_Mi，β_1i，…β_Ni}和预测残差δ_i、之前M帧的K个子带的空间音频参数F_m1，F_m2，…F_mk、之后N帧的K个子带的空间音频参数B_n1，B_n2，…B_nk。重建得到当前帧第i子带的空间音频参数

{\tilde{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni} + δ_{i} .

其中，K≥1，M≥0，N≥0，M+N>0，1≤i≤K，当M>0时m取1～M，当N>0时n取1～N。之前M帧的K个子带的空间音频参数F_m1，F_m2，…F_mk、之后N帧的K个子带的空间音频参数B_n1，B_n2，…B_nk可以通过本发明的空间音频参数重建模块得到，参见图3使用前后若干帧空间音频参数重建当前帧空间音频参数后，可以记录并作为当前帧空间音频参数用于其他帧预测。也可通过其他途径，例如在编码码流往往包括部分预测帧和部分非预测帧，在之前M帧和之后N帧中有非预测帧时，解码时可以直接从码流中提取其空间音频参数。当前帧缺乏之前帧或之后帧时，可以根据经验值设定相应空间音频参数。

具体实施时，除了以硬件方式提供空间音频参数双向帧间预测编解码装置外，也可采用软件方式通过计算机实现编解码流程。凡符合本发明所提供技术方案精神的情况，包括等同替换方案，都应当在本发明所要求保护范围内。

参见附图1，本发明所提供各模块之间连接主要是信息传递的连接：空间音频参数提取模块的输出连接空间音频参数预测模块的输入，空间音频参数提取模块所得当前帧的多个子带的空间音频参数通过该连接输入到空间音频参数预测模块；空间音频参数预测模块的输出连接空间音频参数编码模块的输入，空间音频参数预测模块所得当前帧的空间音频参数的预测系数和预测残差通过该连接输入到空间音频参数编码模块。空间音频参数编码模块的输出提供到空间音频参数解码模块的输入，即空间音频参数双向帧间预测编码装置所得编码码流输入到空间音频参数双向帧间预测解码装置。空间音频参数解码模块的输出连接空间音频参数重建模块的输入，空间音频参数解码模块所得当前帧的空间音频参数的预测系数和预测残差通过该连接输入到空间音频参数重建模块；空间音频参数重建模块输出所得空间音频重建参数。

为了便于实施参考，本发明提供了实施例的具体流程，包括以下步骤：

编码端：

(1)由空间音频参数提取模块提取当前帧的ILD。首先将当前帧信号经FFT变换由时域变换到频域，然后将所得的频域上的当前帧信号按Bark带划分规则划分为24个子带并计算每个子带的ILD，设所得的当前帧的24个子带的空间音频参数为P₁，P₂，…P₂₄。

当前帧的ILD计算方法如下：

P_{i} = 10 \lg \frac{I_{iL}}{I_{iR}}, i &Element; [1,24]

其中I_iL和I_iR分别为当前帧的第i子带上左声道与右声道能量值，且

I_{iL} = Σ_{n = 1}^{N_{i}} {[s_{L} (n)]}^{2},

I_{iR} = Σ_{n = 1}^{N_{i}} {[s_{R} (n)]}^{2}

其中s_L(n)和s_R(n)分别为当前帧第i个子带上左声道和右声道的频谱上的第n条谱线，N_i为第i个子带上的谱线总数。

(2)将(1)中所得的当前帧的24个子带的ILD序列P₁，P₂，…P₂₄，以及已得的当前帧前一帧的24个子带的ILD序列F₁₁，F₁₂，…F₁₂₄和当前帧后一帧的24个子带的ILD序列B₁₁，B₁₂，…B₁₂₄存入空间音频参数预测模块内一长度为3的存储单元Q，即取M＝1，N＝1。然后由前一帧的第i子带的ILD值F_1i和后一帧的第i子带的ILD值B_1i进行拟合得到当前帧的第i子带的拟合ILD：

{\hat{P}}_{i} = 0.5 F_{1 i} + 0.5 B_{1 i},

则当前帧的第i子带的ILD的预测系数C_i＝{0.5，0.5}，且i∈[1，24]。

然后根据当前帧的第i子带的ILD值P_i和拟合ILD值

计算当前帧的第i子带的ILD预测残差

δ_{i} = P_{i} - {\hat{P}}_{i} .

以上所述存储单元Q的存储内容为：存储单元Q长度为3，该模块对当前帧ILD进行拟合时，当前帧的前一帧的24个子带的ILD序列F₁₁，F₁₂，…F₁₂₄、当前帧的24个子带的ILD序列P₁，P₂，…P₂₄、当前帧后一帧的24个子带的ILD序列B₁₁，B₁₂，…B₁₂₄依次按时间顺序存入存储单元Q。

(3)由空间音频参数编码模块对(2)所得当前帧的ILD预测残差δ_i(i∈[1，24])进行编码得到编码码流。

本实施例中使用固定的预测系数组合C_i＝{0.5，0.5}，因此编码码流中对预测系数编码不需要分配比特，只需与解码端预先约定好即可。

解码端：

(1)由空间音频参数解码模块从编码码流中得到当前帧的第i子带的ILD的预测残差δ_i，且i∈[1，24]。

(2)由空间音频参数重建模块根据空间音频参数的预测系数C_i＝{0.5，0.5}和由(1)得到的当前帧的空间音频参数的预测残差δ_i，与已得的当前帧前一帧第i子带的ILD值F_1i与当前帧后一帧第i子带的ILD值B_1i进行计算得到当前帧的空间音频重建参数即重建的当前帧第i子带的ILD值为

{\tilde{P}}_{i} = 0.5 F_{1 i} + 0.5 B_{1 i} + δ_{i},

且i∈[1，24]。且F_1i和B_1i由一长度为3的存储单元

存储，求得

后可同样将

存入此存储单元

作为之后当前帧的之前帧ILD值参与后续重建。

Claims

1.一种空间音频参数双向帧间预测编码装置，其特征在于：包含以下部分，

2.根据权利要求1所述的空间音频参数双向帧间预测编码装置，其特征在于：所述空间音频参数预测模块得到当前帧的空间音频参数的预测系数和预测残差，具体实现过程如下，

{\hat{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni},

其中α_mi为前向预测系数，β_ni为后向预测系数；

得到当前帧的第i子带的空间音频参数的预测系数C_i＝{α_1i，…α_Mi，β_1i，…β_Ni}；根据当前帧的第i子带的空间音频参数P_i和空间音频拟合参数

计算当前帧的第i子带的空间音频参数的预测残差

δ_{i} = P_{i} - {\hat{P}}_{i} .

3.一种空间音频参数双向帧间预测解码装置，其特征在于：包含以下部分，

4.根据权利要求1所述的空间音频参数双向帧间预测解码装置，其特征在于：所述空间音频参数重建模块重建得到当前帧的空间音频参数，具体实现过程如下，

空间音频参数重建模块从空间音频参数解码模块得到当前帧的空间音频参数的预测系数和预测残差，设当前帧的第i子带的空间音频参数的预测系数C_i＝{α_1i，…α_Mi，β_1i，…β_Ni}和预测残差δ_i、之前M帧的K个子带的空间音频参数F_m1，F_m2，…F_mk、之后N帧的K个子带的空间音频参数B_n1，B_n2，…B_nk，其中K≥1，M≥0，N≥0，M+N>0，当M>0时m取1～M，当N>0时n取1～N，α_1i，…α_Mi为前向预测系数，β_1i，…β_Ni为后向预测系数，；重建得到当前帧第i子带的空间音频参数

{\tilde{P}}_{i} = Σ_{m = 1}^{M} α_{mi} F_{mi} + Σ_{n = 1}^{N} β_{ni} B_{ni} + δ_{i} .