CN101521012A

CN101521012A - Mdct域信号能量与相位补偿方法及其装置

Info

Publication number: CN101521012A
Application number: CN200910061439A
Authority: CN
Inventors: 胡瑞敏; 陈水仙; 陈冰; 陈琪
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2009-04-08
Filing date: 2009-04-08
Publication date: 2009-09-02
Anticipated expiration: 2029-04-08
Also published as: CN101521012B

Abstract

本发明提出了MDCT域信号能量与相位补偿方法及其装置，通过分析MDCT变换基和MDST变换基之间的关系，利用稀疏化近似矩阵，提取并简化MDCT至MDST的转换矩阵；利用转换矩阵实现MDCT谱至MDST谱的转换，并联合两者构造具有恒定能量及线性相位的MDFT谱；依据MDFT谱提取空间参数。本发明有效解决了信号在MDCT域的能量抖动及相位缺失问题，实现了在空间音频编码系统中低复杂度的MDCT域空间参数提取合成。

Description

MDCT域信号能量与相位补偿方法及其装置

技术领域

本发明属于空间音频技术领域，特别是涉及MDCT域信号能量与相位补偿方法及其装置。

背景技术

传统音频编码技术是对每个声道独立进行编码，适合单声道编码。在多声道立体声编码中，利用传统音频编码技术，会导致码率随声道数成线性增长。

空间音频编码技术是针对传统音频编码的问题而出现的，现有空间音频编解码系统结构如附图1所示：首先在编码端将输入信号进行声源分离和下混。空间参数提取模块针对分离出来的单一声源，提取声场空间信息。然后，由空间参数编码器将提取出来的声场空间信息进行量化编码。下混模块将左右声道混合成单声道信号送入传统编码器；在解码端空间参数解码器将空间参数解码，还原声场空间信息。传统解码器将经过编码的下混信号解码，并输出给上混模块。上混模块通过去相关等技术获得两路信号。结合还原出来的声场空间信息和获得的两路信号由合成模块重建原始音频信号，得到输出信号。

空间信息是通过空间参数来表征的，也就是说，通过度量空间参数的信息来表达信号的空间信息量。信号的能量能反应信号所含信息量的大小，空间参数的能量也反应了其表达的空间信息量大小。空间参数主要描述信号的方位信息和声像宽度。心理声学研究结果表明，声源定位最重要的依据是两耳之间声音信号的差别，通常用耳间时间差(Interaural Time Difference，ITD)和耳间声级差(Interaural Level Difference，ILD)两个参数来描述两耳之间声音信号的差别；另一个描述人耳接收声音信号特性的是双耳接听信号的相似度，用耳间相关性(Interaural Coherence，IC)来表示，主要反应了人耳对听觉事件声场宽度的感知。其他的一些空间参数还包括确定声源远近的距离信息和确定声源垂直位置的高度角信息等。

空间心理声学所指的空间参数都是针对单一声源的，而通常的立体声信号在同一时刻包含多个声源，这就需要进行声源分离。附图1中的声源分离模块正是为空间参数提取模块服务的。现有空间音频编解码系统中，声源分离模块通常是综合考虑信号的短时特性和人耳的非线性频率感知特性，采用独立的时频划分技术来实现虚拟声源的分离。主要的时频划分工具有混合镜像滤波器组HQMF，短时DFT、以及人工耳蜗滤波器CFB。传统编码器主要是利用通过降低声道内的冗余和消除主观冗余来提高编码效率，主要采用的是基于MDCT域的感知编码。

时频分析是编码系统中复杂度较高的部分，一个编码系统存在两种不同的时频变换更加提高了编码系统的复杂度。若传统编码器和声源分离模块都采用相同的时频分析工具，便能较大幅度降低编码系统的复杂度。

CFB、HQMF以及短时DFT由于复杂度、与心理声学的匹配性等原因不适合用于传统编码。而传统编码器的时频分析工具主要是MDCT(修正离散余弦变换)。所以在MDCT域进行声源分离，提取空间参数，降低编码系统复杂度是当前研究的热点。

MDCT是实变换，基于MDCT域的立体声空间参数提取，存在着两大困难：第一，通过MDCT变换后，存在能量抖动，导致变换前后空间参数能量不一致。例如记录了左右声道能量信息的ILD，若输入信号经过MDCT变换后产生能量抖动，那么ILD就不能正确反映左右声道信号间的能量差异。第二，MDCT谱线不存在直接的相位信息，导致提取带有相位的空间参数很困难。例如记录了具有最大互相关的时间偏移的ITD，若输入信号经过MDCT变换后不存在相位信息，那么就不能获得左右声道信号间的时间差异。

发明内容

本发明目的在于针对现有技术的不足，提供MDCT域信号能量与相位补偿方法及其装置，以统一编码系统中的时频分析工具，降低空间音频编解码系统的复杂度。

本发明的技术方案包含以下步骤：

步骤1，对输入信号进行MDCT变换，获得每一帧信号的MDCT谱Xⁱ、前一帧MDCT谱X^i-1，以及后一帧MDCT谱Xⁱ⁺¹；

步骤2，利用步骤1所得的前一帧MDCT谱X^i-1和后一帧MDCT谱Xⁱ⁺¹，计算差矩阵系数

及矩阵系数

X_{-}^{i} = (X^{i + 1} - X^{i - 1}) / 2,

X_{+}^{i} = (X^{i + 1} + X^{i - 1}) / 2;

利用MDCT和MDST的变换基特性以及相互关系，从MDCT和MDST的矩阵定义式出发，得到MDCT到MDST的转换矩阵，所述转换矩阵包括和矩阵T₊及差矩阵T_-，

T_{+} = \frac{1}{N} (S_{1}^{T} C_{0} + S_{0}^{T} C_{1}),

T_{-} = \frac{1}{N} (S_{1}^{T} C_{0} - S_{0}^{T} C_{1}),

其中C₀、C₁分别为MDCT的变换基的前半部分和后半部分的子向量，S₀、S₁分别为MDST的变换基的前半部分和后半部分的子向量，MDCT和MDST的变换基为2N×N的矩阵，MDCT和MDST分别的前半部分和后半部分的子向量均为N×N的矩阵；对和矩阵T₊进行稀疏近似化，得到近似化和矩阵T_m；

步骤3，结合差矩阵系数

、和矩阵系数

、差矩阵T_-和近似化和矩阵T_m，合成当前帧的MDST谱Yⁱ，

Y^{i} = T_{-} X_{-}^{i} + T_{m} X_{+}^{i};

步骤4，由信号的MDCT谱和MDST谱，构造MDFT谱，MDFT谱的构造方式为将MDCT谱作为实部，MDST谱作为虚部，即

Z(k)＝X(k)-jY(k)

其中X(k)为输入信号的MDCT谱，Y(k)为输入信号的MDST谱，Z(k)为输入信号的MDFT谱；j表示虚部；k＝0，1，...，N-1；

步骤5，利用步骤4所获输入信号的MDFT谱Z(k)，在MDCT域上提取能量信息，提取方式为依据如下公式求取信号MDFT谱能量E_m

E_{t} = \frac{1}{N} E_{m} = \frac{1}{N} Σ_{k = 0}^{N - 1} {| Z (k) |}^{2}

其中E_t表示输入信号的时域信号能量E_t；

利用步骤4所获输入信号的MDFT谱Z(k)，在MDCT域上提取相位信息，提取方式为将MDFT谱延时d个采样点，得到线性相位

，即

&PartialD; = \exp (- j \frac{π}{N} d (k + \frac{1}{2}))

其中k＝0，1，...，N-1，exp表示指数运算，j表示虚部；

步骤6，结合步骤5所提取的能量信息和相位信息，在MDCT域上提取空间参数。

而且，步骤2中，将MDCT的变换基c_k和MDST的变换基s_k分解为N维列向量表示，即

{(c_{k})}^{T} = (\begin{matrix} {(c_{k}^{0})}^{T} & {(c_{k}^{1})}^{T} \end{matrix})

{(s_{k})}^{T} = (\begin{matrix} {(s_{k}^{0})}^{T} & {(s_{k}^{1})}^{T} \end{matrix})

其中，

c_{k} = \cos (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

s_{k} = \sin (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

k＝0，1，...，N-1，n＝0，1，...，2N-1，上标“T”表示转置，上标“0”和“1”分别用于标识变换基的前半部分和后半部分的子向量；

从而得到以下四个N×N矩阵形式的子向量

C_{0} = (\begin{matrix} c_{0}^{0} & c_{1}^{0} & . . . & c_{N - 1}^{0} \end{matrix})

C_{1} = (\begin{matrix} c_{0}^{1} & c_{1}^{1} & . . . & c_{N - 1}^{1} \end{matrix})

S_{0} = (\begin{matrix} s_{0}^{0} & s_{1}^{0} & . . . & s_{N - 1}^{0} \end{matrix})

S_{1} = (\begin{matrix} s_{0}^{1} & s_{1}^{1} & . . . & s_{N - 1}^{1} \end{matrix})

所述提取MDCT到MDST的转换矩阵，包括和矩阵T₊和差矩阵T_-，通过将上述四个子向量带入下列公式求得

T_{+} = \frac{1}{N} (S_{1}^{T} C_{0} + S_{0}^{T} C_{1})

T_{-} = \frac{1}{N} (S_{1}^{T} C_{0} - S_{0}^{T} C_{1}) .

而且，所述步骤2中，对和矩阵T₊进行稀疏近似化，得到近似化和矩阵T_m的具体实施方式如下，

{(T_{+})}_{k, l} = \frac{1}{N} {(S_{1}^{T} C_{0} + S_{0}^{T} C_{1})}_{k, l}

(1)和矩阵T₊的表达式：

= \{\begin{matrix} \frac{Re {j^{k + l - 1}}}{N \sin [θ (k - l)]}, & k - l = odd \\ \frac{Re {j^{k - l + 2}}}{N \sin [θ (k + l + 1)]}, & k - l = even \end{matrix}

其中，θ＝π/(2N)，k，1分别表示行列标号，Re表示实部，odd表示奇数，even表示偶数；

(2)保留以上表达式呈现的稀疏对角阵中绝对值最大的2m个元素值，m取小于N×N/2的任意自然数，其它元素均置为0，从而实现对和矩阵T₊稀疏近似化，得到近似化和矩阵T_m。

而且，所述步骤5中，在MDCT域上提取能量信息的具体方式如下，

(1)提取时域输入信号与变换域的对应关系，

对于时域输入信号x(n)，n＝0，1，...，2N-1，

有对应关系如式

(x (n)) = (x (0), x (1), . . ., x (2 N - 1)) = \frac{1}{N} Σ_{k = 0}^{N - 1} (X (k) c_{k} + Y (k) s_{k}),

其中，

c_{k} = \cos (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

s_{k} = \sin (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

k＝0，1，...，N-1，X(k)为输入信号的MDCT谱，Y(k)为输入信号的MDST谱；

(2)根据时域输入信号与变换域之间的对应关系，通过计算能量，找到时域信号能量E_t与信号MDFT谱能量E_m之间对应的关系，具体方式如下

E_{t} = Σ_{n = 0}^{2 N - 1} x^{2} (n)

= \frac{1}{N} (Σ_{k = 0}^{N - 1} X^{2} (k) + Σ_{k = 0}^{N - 1} Y^{2} (k))

= \frac{1}{N} Σ_{k = 0}^{N - 1} {| Z (k) |}^{2} = \frac{1}{N} E_{m}

根据上式得到与时域信号能量E_t相应的MDCT域上的能量信息，即信号MDFT谱能量E_m。

而且，所述步骤6中，结合步骤5所提取的能量信息和相位信息，在MDCT域上提取空间参数的具体方式如下，

若提取代表左右声道能量差异的空间参数，则利用时域和MDCT域的能量关系

E_{t} = \frac{1}{N} E_{m},

在MDCT域上提取与时域等价的空间参数。

若提取代表左右声道相位差异的空间参数，则利用时域到MDCT域产生的线性相位

，在MDCT域上提取与时域等价的空间参数。

本发明还提供了实现上述MDCT域信号能量与相位补偿方法的相应装置，包含以下部分：

包含以下部分，

MDCT变换模块，用于对输入信号进行MDCT变换，获得信号的MDCT谱；

谱运算模块，用于计算差矩阵系数

和矩阵系数

MDST转换模块，用于获取MDCT到MDST的转换矩阵，得到MDST谱；

MDFT构造模块，用于根据信号的MDCT谱和MDST谱，构造MDFT谱；

能量提取模块，用于提取能量信息；

相位提取模块，用于提取相位信息；

空间参数提取模块，用于根据能量信息和相位信息，在MDCT域上提取空间参数；

其中，MDCT变换模块将输入信号的MDCT谱输出到谱运算模块和MDFT构造模块，谱运算模块输出差矩阵系数

、和矩阵系数

到MDST转换模块，MDST转换模块输出MDST谱到MDFT构造模块；MDFT构造模块输出MDFT谱到能量提取模块和相位提取模块；能量提取模块输出的能量信息、相位提取模块输出的相位信息接入空间参数提取模块。

本发明的技术方案通过引入MDST(修正离散正弦变换)谱，并提出MDCT谱到MDST谱的转换矩阵，最后构成MDFT(修正离散傅立叶变换)谱。达到引入MDST谱同时不增加系统复杂度的目的，从而可以补偿信号在MDCT域的能量抖动，并解决相位缺失问题。

附图说明

图1为现有空间音频编解码系统结构图；

图2为本发明的方法流程图；

图3为本发明的装置结构图

图4本发明在空间音频编解码系统中的应用示意图。

具体实施方式

参见附图2，本发明提供的MDCT域信号能量与相位补偿方法完成了低复杂度下MDCT谱到MDST谱的转换。并且，通过引入MDST谱，结合MDCT谱，构造了具有恒定能量和线性相位的MDFT谱。最终完成在MDCT域上，提取与时域信号等价的空间参数。MDCT域信号能量与相位补偿方法包括以下步骤：

步骤1，对输入信号进行MDCT变换，获得每一帧信号的MDCT谱Xⁱ、前一帧MDCT谱X^i-1，以及后一帧MDCT谱Xⁱ⁺¹。在音频信号处理中，总是分帧进行处理，当前帧为第i帧时，前一帧就是第i-1帧，后一帧就是第i+1帧。具体实施时，根据MDCT定义求取Xⁱ、X^i-1、Xⁱ⁺¹即可。MDCT是一种2N点到N点的实变换，具体定义如下：

X_{i} (k) = Σ_{n = 0}^{2 N - 1} x_{i} (n) \cos [\frac{N}{2} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})] . k = 0,1, . . ., N - 1, - - - (1.1)

其中x_i(n)表示立体声输入信号的第i帧信号，X_i(k)代表x_i(n)的MDCT谱线，n＝0，1，...，2N-1。

及矩阵系数

X_{-}^{i} = (X^{i + 1} - X^{i - 1}) / 2,

X_{+}^{i} = (X^{i + 1} + X^{i - 1}) / 2;

T_{+} = \frac{1}{N} (S_{1}^{T} C_{0} + S_{0}^{T} C_{1}),

T_{-} = \frac{1}{N} (S_{1}^{T} C_{0} - S_{0}^{T} C_{1}),

其中C₀、C₁分别为MDCT的变换基的前半部分和后半部分的子向量，S₀、S₁分别为MDST的变换基的前半部分和后半部分的子向量，MDCT和MDST的变换基为2N×N的矩阵，MDCT和MDST分别的前半部分和后半部分的子向量均为N×N的矩阵；对和矩阵，T₊进行稀疏近似化，得到近似化和矩阵T_m。

具体实施时，可以按以下子流程逐步完成步骤2：

步骤2.1，利用步骤1的MDCT谱Xⁱ⁺¹和X^i-1，计算差矩阵系数

计算公式为：

X_{-}^{i} = (X^{i + 1} - X^{i - 1}) / 2 - - - (1.2)

其中X^i-1为前一帧MDCT谱，Xⁱ⁺¹为后一帧MDCT谱。

步骤2.2，利用步骤1的MDCT谱Xⁱ⁺¹和X^i-1，计算和矩阵系数计算公式为：

X_{+}^{i} = (X^{i + 1} + X^{i - 1}) / 2 - - - (1.3)

其中X^i-1为前一帧MDCT谱，Xⁱ⁺¹为后一帧MDCT谱。

步骤2.3，利用MDCT和MDST的变换基特性以及相互关系，从MDCT和MDST的矩阵定义式出发，得到取得MDCT到MDST的转换矩阵。可以从对称性和正交性两个方面，考究MDCT的变换基c_k和MDST的变换基s_k之间的关系，具体方式如下：

1)将MDCT的变换基c_k和MDST的变换基s_k分解为N维列向量表示。即

{(c_{k})}^{T} = (\begin{matrix} {(c_{k}^{0})}^{T} & {(c_{k}^{1})}^{T} \end{matrix})

(1.4)

{(s_{k})}^{T} = (\begin{matrix} {(s_{k}^{0})}^{T} & {(s_{k}^{1})}^{T} \end{matrix})

其中，

c_{k} = \cos (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

s_{k} = \sin (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

k＝0，1，...，N-1，n＝0，1，...，2N-1，上标“T”表示转置，上标“0”和“1”分别表示基向量的前半部分和后半部分的子向量。于是，得到四个N×N的矩阵：

C_{0} = (\begin{matrix} c_{0}^{0} & c_{1}^{0} & . . . & c_{N - 1}^{0} \end{matrix})

C_{1} = (\begin{matrix} c_{0}^{1} & c_{1}^{1} & . . . & c_{N - 1}^{1} \end{matrix})

S_{0} = (\begin{matrix} s_{0}^{0} & s_{1}^{0} & . . . & s_{N - 1}^{0} \end{matrix})

S_{1} = (\begin{matrix} s_{0}^{1} & s_{1}^{1} & . . . & s_{N - 1}^{1} \end{matrix}) - - - (1.5)

2)关注MDCT的基函数ck和MDST的基函数sk分解后的向量的正交性。具体过程如下：

< c_{k_{i}}, c_{k_{j}} > = δ_{k_{i} - k_{j}} N - - - (1.6)

< s_{k_{i}}, s_{k_{j}} > = δ_{k_{i} - k_{j}} N - - - (1.7)

< c_{k_{i}}, s_{k_{j}} > = 0 - - - (1.8)

其中<，>代表内积操作，

是狄拉克符号，当且仅当i＝j时，

δ_{k_{i} - k_{j}} = 1,

其余为0。对MDCT的基函数c_k和MDST的基函数s_k分别进行内积操作后会发现，c_k和s_k各自在k取不同值(采用下标k_i和k_j表示)时是互相正交的，符合公式1.6和1.7所描述的。以c_k和s_k为参数进行内积操作后，发现c_k和s_k也是互相正交。

3)关注MDCT的基函数c_k和MDST的基函数s_k分解后的向量的对称性，具体过程如下：

JC₀＝-C₀，JC₁＝C₁ (1.9)

JS₀＝S₀，JS₁＝-S₁ (1.10)

其中J是N×N的反对角单位阵。通过分别乘以一个反对角阵，发现C₀的列向量

和S₁的列向量

是奇对称的，C₁的列向量和S₀的列向量

是偶对称的。

4)找到MDCT和MDST的基函数之间的关系。具体计算过程如下：

c_{k} (n + N) = \cos [\frac{π}{N} (n + N + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

= \cos [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2}) + π (k + \frac{1}{2})] - - - (1.11)

= {(- 1)}^{k - 1} \sin [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

= {(- 1)}^{k - 1} s_{k} (n)

同理，

s_k(n+N)＝(-1)^kc_k(n) (1.12)

其中c_k(n+N)为延时N点的c_k，s_k(n+N)为延时N点的s_k。c_k和s_k分别为MDCT和MDST的基函数。用矩阵表示它们之间的关系如下：

S₀＝-C₁P (1.13)

S₁＝C₀P

其中，P是N×N的符号单位阵，其仅在对角线上有数值+1，-1，+1，-1，....。

5)对比MDCT和MDST的矩阵定义式，根据变换基的基本性质，以及它们之间的关系，实现MDCT向MDST谱的转换，具体过程如下：

A.用矩阵形式表示MDCT的定义式。

(\begin{matrix} x_{0}^{i} \\ x_{1}^{i} \end{matrix}) = \frac{1}{N} (\begin{matrix} C_{1} X^{i - 1} + C_{0} X^{i} \\ C_{1} X^{i} + C_{0} X^{i + 1} \end{matrix}), - - - (1.14)

公式1.14利用了MDCT的重叠相加特性，用矩阵表示了MDCT的定义式。即对于第i帧2N点的时域信号，可通过第i-1帧MDCT谱线X^i-1、第i帧MDCT谱线Xⁱ，以及第i+1帧MDCT谱线Xⁱ⁺¹完美重建。其中，

和分别为时域信号的前N点和后N点组成的N维列向量。

B.利用1.9、1.10以及反对角单位阵J的性质J^TJ＝JJ＝I，有

S_{0}^{T} C_{0} = S_{0}^{T} J^{T} {JC}_{0} = {({JS}_{0})}^{T} ({JC}_{0}) = - S_{0}^{T} C_{0}

，(1.15)

S_{1}^{T} C_{1} = S_{1}^{T} J^{T} {JC}_{1} = {({JS}_{1})}^{T} ({JC}_{1}) = - S_{1}^{T} C_{1}

根据1.15，以及1.8所示c_k和s_k的正交性，有

S_{0}^{T} C_{0} = S_{1}^{T} C_{1} = 0, - - - (1.16)

C.将MDST谱线的定义式用矩阵形式表示，同时将1.14、1.15和1.16代入化简有：

Y^{i} = (\begin{matrix} S_{0}^{T} & S_{1}^{T} \end{matrix}) (\begin{matrix} x_{0}^{i} \\ x_{1}^{i} \end{matrix})

= \frac{1}{N} (S_{0}^{T} C_{1} X^{i - 1} + (S_{0}^{T} C_{0} + S_{1}^{T} C_{1}) X^{i} + S_{1}^{T} C_{0} X^{i + 1}) . - - - (1.17)

= \frac{1}{N} (S_{1}^{T} C_{0} - S_{0}^{T} C_{1}) X_{-}^{i} + \frac{1}{N} (S_{1}^{T} C_{0} + S_{0}^{T} C_{1}) X_{+}^{i}

其中，

为差矩阵系数，

为和矩阵系数。通过上式可以发现第i帧MDST谱线Yi能够由相邻的MDCT谱线X^i-1和Xⁱ⁺¹构成，而与当前帧MDCT谱线Xⁱ无关。

D，根据公式1.17，提取MDCT到MDST的转换矩阵。即和矩阵T₊和差矩阵T_-，即：

T_{+} = \frac{1}{N} (S_{1}^{T} C_{0} + S_{0}^{T} C_{1}) - - - (1.18)

T_{-} = \frac{1}{N} (S_{1}^{T} C_{0} - S_{0}^{T} C_{1}) - - - (1.19)

以上过程在具体实施时可以简化，直接根据MDCT的变换基c_k和MDST的变换基s_k代入结果公式，而不需重复考究关系的整个过程。因此，本发明提供进一步技术方案为：步骤2中，将MDCT的变换基c_k和MDST的变换基s_k分解为N维列向量表示，即

{(c_{k})}^{T} = (\begin{matrix} {(c_{k}^{0})}^{T} & {(c_{k}^{1})}^{T} \end{matrix})

{(s_{k})}^{T} = (\begin{matrix} {(s_{k}^{0})}^{T} & {(s_{k}^{1})}^{T} \end{matrix})

其中，

c_{k} = \cos (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

s_{k} = \sin (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

从而得到以下四个N×N矩阵形式的子向量

C_{0} = (\begin{matrix} c_{0}^{0} & c_{1}^{0} & . . . & c_{N - 1}^{0} \end{matrix})

C_{1} = (\begin{matrix} c_{0}^{1} & c_{1}^{1} & . . . & c_{N - 1}^{1} \end{matrix})

S_{0} = (\begin{matrix} s_{0}^{0} & s_{1}^{0} & . . . & s_{N - 1}^{0} \end{matrix})

S_{1} = (\begin{matrix} s_{0}^{1} & s_{1}^{1} & . . . & s_{N - 1}^{1} \end{matrix})

T_{+} = \frac{1}{N} (S_{1}^{T} C_{0} + S_{0}^{T} C_{1})

T_{-} = \frac{1}{N} (S_{1}^{T} C_{0} - S_{0}^{T} C_{1}) .

步骤2.4，将和矩阵T₊进行稀疏近似化。

获得MDCT到MDST的转换矩阵，即差矩阵

和矩阵之后，考察到差矩阵T_-是一个符号单位阵的转置，和矩阵T₊是一个稀疏对角阵。因此本发明提出针对和矩阵T₊进行稀疏近似化，具体实施方式如下：

首先，得到和矩阵T₊的表达式，如下所示：

{(T_{+})}_{k, l} = \frac{1}{N} {(S_{1}^{T} C_{0} + S_{0}^{T} C_{1})}_{k, l}

= \{\begin{matrix} \frac{Re {j^{k + l - 1}}}{N \sin [θ (k - l)]}, & k - l = odd \\ \frac{Re {j^{k - l + 2}}}{N \sin [θ (k + l + 1)]}, & k - l = even \end{matrix} - - - (1.20)

其中，θ＝π/(2N)，分子仅是一个正负1的变化，k，1分别表示行列标号，odd表示奇数，even表示偶数。

其次，保留公式1.20所示稀疏对角阵中绝对值最大的2m个元素值，其它元素均置为0值，即忽略矩阵元素的顺序、符号和非0值元素，稀疏近似化和矩阵T₊，得到近似化矩阵T_m。矩阵T_m的任意行或列中组成如下序列，

\frac{1}{N \sin θ}, \frac{1}{N \sin θ}

\frac{1}{N \sin 3 θ}, \frac{1}{N \sin 3 θ} - - - (1.21)

………，………

\frac{1}{N \sin [(2 m - 1) θ]}, \frac{1}{N \sin [(2 m - 1) θ]}

其中，稀疏对角阵中保留的元素值可以根据具体实施需要设定，因此m可取小于N×N/2的任意自然数。

步骤3，结合步骤2.1，步骤2.2，步骤2.3和步骤2.4所得结果，由MDCT谱合成MDST谱，合成公式为

Y^{i} = T_{-} X_{-}^{i} + T_{m} X_{+}^{i} - - - (1.22)

其中Yⁱ为当前帧的MDST谱，

为步骤2.1得到的差矩阵系数，

为步骤2.2得到的和矩阵系数，T_-为步骤2.3获得的差矩阵，T_m为步骤2.4获得的稀疏近似化后的和矩阵。

步骤4，由信号的MDCT谱和MDST谱，构造MDFT谱。可将MDCT看作实部，MDST看作虚部，构造MDFT，具体构造式如下：

Z(k)＝X(k)-jY(k) (1.23)

其中X(k)为输入信号的MDCT谱，Y(k)为输入信号的MDST谱，Z(k)为输入信号的MDFT谱；j表示虚部；k＝0，1，...，N-1。

步骤5，利用步骤4获得的MDFT谱，在MDCT域上提取能量信息和相位信息。可分以下两个步骤实现：

步骤5.1，根据构造的MDFT谱，对比输入信号在时域的能量E_t(称为时域信号能量)和MDFT谱包含的能量E_m(称为信号MDFT谱能量)，找到它们之间的对应关系

E_{t} = \frac{1}{N} E_{m} = \frac{1}{N} Σ_{k = 0}^{N - 1} {| Z (k) |}^{2} .

然后根据对应关系计算出信号MDFT谱能量E_m，作为MDCT域上的能量信息。具体过程可参见如下：

1.记Z_2N为原2N维空间，c_k展成的N维空间为C_N，s_k展成的N维空间为S_N，根据线性空间理论，以及公式1.6、1.7、1.8描述的正交性。找到时域输入信号与变换域的对应关系：

对于时域输入信号x(n)，n＝0，1，...，2N-1，有对应关系如式

(x (n)) = (x (0), x (1), . . ., x (2 N - 1)) = \frac{1}{N} Σ_{k = 0}^{N - 1} (X (k) c_{k} + Y (k) s_{k}) - - - (1.24)

其中，

c_{k} = \cos (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

s_{k} = \sin (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

k＝0，1，...，N-1；c_k和s_k、k＝0，1，...，N-1为构成的一组完备正交基。X(k)为信号的MDCT谱，Y(k)为信号的MDST谱。

2.根据信号之间的关系，相应计算能量，找到E_t和E_m之间对应的关系，具体计算过程如下：

E_{t} = Σ_{n = 0}^{2 N - 1} x^{2} (n)

= \frac{1}{N} (Σ_{k = 0}^{N - 1} X^{2} (k) + Σ_{k = 0}^{N - 1} Y^{2} (k)) - - - (1.25)

= \frac{1}{N} Σ_{k = 0}^{N - 1} {| Z (k) |}^{2} = \frac{1}{N} E_{m}

其中X(k)为信号的MDCT谱，Y(k)为信号的MDST谱。x(n)为时域输入信号。k＝0，1，...，N-1。

步骤5.2，将输入信号延时d个采样点，将MDFT谱延时d个采样点，得到线性相位

，即

&PartialD; = \exp (- j \frac{π}{N} d (k + \frac{1}{2})),

其中k＝0，1，...，N-1，exp表示指数运算，j表示虚部。通过得到延时信号的MDCT谱和MDST谱，然后得到延时信号的MDFT谱，找到延时前后MDFT谱的关系，即可得到线性相位

，作为相位信息。具体过程可参见如下：

1.延时MDCT谱，关注延时后的MDCT谱的变化。

X' (k) = Σ_{n = 0}^{2 N - 1} x (n - d) \cos [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

\approx Σ_{n = 0}^{2 N - 1} x (n) \cos [\frac{π}{N} (n + d + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

(1.26)

= \cos [\frac{π}{N} d (k + \frac{1}{2})] Σ_{n = 0}^{2 N - 1} x (n) \cos [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

- \sin [\frac{π}{N} d (k + \frac{1}{2})] Σ_{n = 0}^{2 N - 1} x (n) \sin [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

其中X′(k)为延时d个样点后的MDCT谱，x(n)为原输入信号。d为延时的样点。k＝0，1，...，N-1。

2.延时MDST谱，关注延时后的MDST谱的变化。

Y' (k) = Σ_{n = 0}^{2 N - 1} x (n - d) \sin [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

\approx Σ_{n = 0}^{2 N - 1} x (n) \sin [\frac{π}{N} (n + d + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

(1.27)

= \sin [\frac{π}{N} d (k + \frac{1}{2})] Σ_{n = 0}^{2 N - 1} x (n) \cos [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

+ \cos [\frac{π}{N} d (k + \frac{1}{2})] Σ_{n = 0}^{2 N - 1} x (n) \sin [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})]

其中Y′(k)为延时d个样点后MDST谱，x(n)为原输入信号。d为延时的样点。k＝0，1，...，N-1。

3.结合公式1.26和1.27，计算延时后MDFT谱的变化。

Z' (k) = X' (k) - jY' (k) = Z (k) \exp (- j \frac{π}{N} d (k + \frac{1}{2})) - - - (1.28)

其中Z′(k)为延时d个样点后MDFT谱，X′(k)为延时d个样点后MDCT谱，Y′(k)为延时d个样点后MDST谱，Z(k)为原MDFT谱。d为延时的样点。k＝0，1，...，N-1。

4.提取相位信息

。

根据公式1.28可以看出，延时前后的MDFT谱只有一个线性相位的差别，并且此线性相位只与延时点数d有关。通过调节延时的点数可以提取需要的相位信息。即：

&PartialD; = \exp (- j \frac{π}{N} d (k + \frac{1}{2})) - - - (1.29)

其中d为延时的样点数，k＝0，1，...，N-1。具体实施时直接采用公式1.29即可提取相位信息。

步骤6，结合步骤5.1所得能量信息和步骤5.2所得相位信息，在MDCT域上提取空间参数。具体实施时一般用多个空间参数来衡量空间信息的，有代表空间相位信息的，有代表空间能量信息的。若提取代表左右声道能量差异的空间参数，则利用时域和MDCT域的能量关系

E_{t} = \frac{1}{N} E_{m},

在MDCT域上提取与时域等价的空间参数。若提取代表左右声道相位差异的空间参数，则利用时域到MDCT域产生的线性相位

，在MDCT域上提取与时域等价的空间参数。

为了具体说明空间参数的提取，本步骤以双耳线索ILD，ITD为例具体说明。具体实施方式为：

1、在MDCT域提取ILD信息。

β_{l} = 10 \log_{10} ({&Integral; x}_{l}^{2} (t) dt / &Integral; x_{r}^{2} (t) dt) - - - (1.30)

β_{ml} = 20 \log_{10} \frac{| | x_{l} | |}{| | x_{r} | |} = 20 \log_{10} \frac{| | Z_{l} | |}{| | Z_{r} | |} - - - (1.31)

其中β_l为ILD在时域的值，β_ml为在MDCT域提取的ILD的值。x_l(t)和x_r(t)分别是左右声道输入信号，x_l和x_r分别表示左右接收的信号能量，l和r分别表示左右耳。ILD记录了左右声道信号的能量比。Z_l和Z_r分别代表左右声道的MDFT谱线。

2、在MDCT域提取ITD信息。

β_{t} = \underset{τ}{\arg \max} (&Integral; x_{l} (t) x_{r} (t + τ) dt) - - - (1.32)

β_{mt} = \frac{d}{dk} \arg (Z_{l} (k) {Z_{r}}^{*} (k)) - - - (1.33)

其中β_t为ITD在时域的值，β_ml为在MDCT域提取的ITD的值。通过计算左右声道输入信号MDFT谱线Z_l(k)和Z_r(k)相位差的群延时提取MDCT域的ITD值。为Z_r(k)的共轭。x_l(t)和x_r(t)分别是左右声道输入信号。ITD记录了最大互相关的时间偏移τ。k＝0，1，...，N-1。arg为取相角操作。

具体实施时，除了以软件方式通过计算机实现上述MDCT域信号能量与相位补偿方法，还可以模块化方式提供MDCT域信号能量与相位补偿装置。如附图3所示，所述包含以下部分：

谱运算模块，用于计算差矩阵系数

和矩阵系数

MDST转换模块，用于获取MDCT到MDST的转换矩阵，得到MDST谱；

MDFT构造模块，用于根据信号的MDCT谱和MDST谱，构造MDFT谱；

能量提取模块，用于提取能量信息；

相位提取模块，用于提取相位信息；

其中，MDCT变换模块将输入信号的MDCT谱输出到谱运算模块和MDFT构造模块，谱运算模块输出差矩阵系数、和矩阵系数

到MDST转换模块，MDST转换模块输出MDST谱到MDFT构造模块；MDFT构造模块输出MDFT谱到能量提取模块和相位提取模块；能量提取模块输出的能量信息、相位提取模块输出的相位信息接入空间参数提取模块。具体实施时，转换矩阵模块可分C/S矩阵形成单元和稀疏近似化单元两部分实现，其中C/S矩阵形成单元获得转换矩阵，由稀疏近似化单元对和矩阵T₊进行稀疏近似化。

本发明通过在MDCT域上提取空间参数，与传统编码器采用统一的时频分析工具，达到降低编码系统复杂度的目的。由于MDCT是实变换，所以在MDCT域上提取空间参数存在两大困难，第一，通过MDCT变换后，存在能量抖动，导致变换前后空间参数能量不一致。第二，MDCT谱线不存在直接的相位信息，导致提取带有相位的空间参数很困难。本发明提供了引入MDST谱的方法，来解决能量抖动和相位缺失的问题。如果直接引用MDST变换获取MDST谱，又会增加一种变换，使系统复杂度增加，失去意义。因此本发明提供了不经过MDST变换，直接从MDCT谱转换到MDST谱的方法，最终达到在MDCT域成功提取空间参数，同时达到降低系统复杂度的目的。

附图4将应用本发明前后的空间音频编解码系统进行对比。附图4上方是现有的空间音频编码系统，其中的空间参数提取模块和传统编码器需要运用独立的MDCT时频分析工具，传统编码器中包括了MDCT变换部分和量化编码部分。附图4下方是基于本发明的空间音频编解码系统，其中的空间参数提取模块按照本发明提供方案实现，不仅有原有的空间参数提取模块，还在前扩展了MDCT变换模块、谱运算模块、MDST转换模块、MDFT构造模块、能量提取模块和相位提取模块；新的空间参数提取模块和传统编码器共享MDCT时频变换，传统编码器中只设量化编码部分即可。统一时频变换工具后，整个编码端只需进行一次MDCT时频变换，较大幅度降低了编码系统的复杂度。

Claims

1.一种MDCT域信号能量与相位补偿方法，其特征在于，包含以下步骤：步骤1，对输入信号进行MDCT变换，获得每一帧信号的MDCT谱Xⁱ、前一帧MDCT谱X^i-1，以及后一帧MDCT谱Xⁱ⁺¹；

及矩阵系数

X_{-}^{i} = (X^{i + 1} - X^{i - 1}) / 2,

X_{+}^{i} = (X^{i + 1} + X^{i - 1}) / 2;

T_{+} = \frac{1}{N} (S_{1}^{T} C_{0} + S_{0}^{T} C_{1}),

T_{-} = \frac{1}{N} (S_{1}^{T} C_{0} - S_{0}^{T} C_{1}),

步骤3，结合差矩阵系数

、和矩阵系数

差矩阵T_-和近似化和矩阵T_m，合成当前帧的MDST谱Yⁱ，

Y^{i} = T_{-} X_{-}^{i} + T_{m} X_{+}^{i};

Z(k)＝X(k)-jY(k)

E_{t} = \frac{1}{N} E_{m} = \frac{1}{N} Σ_{k = 0}^{N - 1} {| Z (k) |}^{2}

其中E_t表示输入信号的时域信号能量E_t；

即

&PartialD; = \exp (- j \frac{π}{N} d (k + \frac{1}{2}))

其中k＝0，1，...，N-1，exp表示指数运算，j表示虚部；步骤6，结合步骤5所提取的能量信息和相位信息，在MDCT域上提取空间参数。

2.根据权利要求书1所述的MDCT域能量与相位补偿方法，其特征在于：步骤2中，将MDCT的变换基c_k和MDST的变换基s_k分解为N维列向量表示，即

{(c_{k})}^{T} = (\begin{matrix} {(c_{k}^{0})}^{T} & {(c_{k}^{1})}^{T} \end{matrix})

{(s_{k})}^{T} = (\begin{matrix} {(s_{k}^{0})}^{T} & {(s_{k}^{1})}^{T} \end{matrix})

其中，

c_{k} = \cos (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

s_{k} = \sin (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

从而得到以下四个N×N矩阵形式的子向量

C_{0} = (\begin{matrix} c_{0}^{0} & c_{1}^{0} & \cdot \cdot \cdot & c_{N - 1}^{0} \end{matrix})

C_{1} = (\begin{matrix} c_{0}^{1} & c_{1}^{1} & \cdot \cdot \cdot & c_{N - 1}^{1} \end{matrix})

S_{0} = (\begin{matrix} S_{0}^{0} & S_{1}^{0} & \cdot \cdot \cdot & S_{N - 1}^{0} \end{matrix})

S_{1} = (\begin{matrix} S_{0}^{1} & S_{1}^{1} & \cdot \cdot \cdot & S_{N - 1}^{1} \end{matrix})

T_{+} = \frac{1}{N} (S_{1}^{T} C_{0} + S_{0}^{T} C_{1})

T_{-} = \frac{1}{N} (S_{1}^{T} C_{0} - S_{0}^{T} C_{1}) .

3.根据权利要求书2所述的MDCT域能量与相位补偿方法，其特征在于：所述步骤2中，对和矩阵T₊进行稀疏近似化，得到近似化和矩阵T_m的具体实施方式如下，

{(T_{+})}_{k, l} = \frac{1}{N} {(S_{1}^{T} C_{0} + S_{0}^{T} C_{1})}_{k . l}

(1)和矩阵T₊的表达式：

= \{\begin{matrix} \frac{Re {j^{k + l - 1}}}{N \sin [θ (k - l)]}, & k - l = odd \\ \frac{Re {j^{k - l + 2}}}{N \sin [θ (k + l + 1)]}, & k - l = even \end{matrix}

其中，θ＝π/(2N)，k，l分别表示行列标号，Re表示实部，odd表示奇数，even表示偶数；

4、根据权利要求书1所述的MDCT域信号能量和相位补偿方法，其特征在于：所述步骤5中，在MDCT域上提取能量信息的具体方式如下，

(1)提取时域输入信号与变换域的对应关系，

对于时域输入信号x(n)，n＝0，1，...，2N-1，

有对应关系如式

(x (n)) = (x (0), x (1), . . ., x (2 N - 1)) = \frac{1}{N} Σ_{k = 0}^{N - 1} (X (k) c_{k} + Y (k) s_{k}),

其中，

c_{k} = \cos (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

s_{k} = \sin (\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})),

E_{t} = Σ_{n = 0}^{2 N - 1} x^{2} (n)

= \frac{1}{N} (Σ_{k = 0}^{N - 1} X^{2} (k) + Σ_{k = 0}^{N - 1} Y^{2} (k))

= \frac{1}{N} Σ_{k = 0}^{N - 1} {| Z (k) |}^{2} = \frac{1}{N} E_{m}

5、根据权利要求书1所述的MDCT域信号能量与相位补偿方法中，其特征在于：所述步骤6中，结合步骤5所提取的能量信息和相位信息，在MDCT域上提取空间参数的具体方式如下，

E_{t} = \frac{1}{N} E_{m},

在MDCT域上提取与时域等价的空间参数；

若提取代表左右声道相位差异的空间参数，则利用时域到MDCT域产生的线性相位在MDCT域上提取与时域等价的空间参数。

6、一种用于实现权利要求1或2或3或4或5所述MDCT域信号能量与相位补偿方法的装置，其特征在于：包含以下部分，

谱运算模块，用于计算差矩阵系数和矩阵系数

MDST转换模块，用于获取MDCT到MDST的转换矩阵，得到MDST谱；

MDFT构造模块，用于根据信号的MDCT谱和MDST谱，构造MDFT谱；

能量提取模块，用于提取能量信息；

相位提取模块，用于提取相位信息；

和矩阵系数