CN102982805B

CN102982805B - 一种基于张量分解的多声道音频信号压缩方法

Info

Publication number: CN102982805B
Application number: CN201210579570.1A
Authority: CN
Inventors: 王晶; 谢湘; 匡镜明
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2014-11-19
Anticipated expiration: 2032-12-27
Also published as: CN102982805A

Abstract

本发明公开了一种基于张量分解的多声道音频信号压缩方法，属于音频信号处理技术领域，尤其是空间音频编解码技术领域。将每个声道的音频信号进行交叠分帧，并对每帧信号进行时频变换得到频域系数，将所有声道和所有帧序列的频域系数组合，建立三阶张量信号，并对其进行张量分解得到低秩核张量用于编码传输，解码端结合恢复的低秩核张量和事先训练的低秩投影矩阵进行张量信号重建，对重建后的张量信号再进行每个声道上反变换和交叠相加恢复多声道音频信号。本方法结合时频变换和张量分解对多声道音频信号进行分析和编解码，利用声道间和声道内的相关性去处冗余信息，能较大程度提高多声道音频信号的压缩效率。

Description

一种基于张量分解的多声道音频信号压缩方法

技术领域

本发明涉及一种多声道音频信号压缩方法，尤其是一种基于张量分解的多声道信号压缩方法，属于音频信号处理技术领域，尤其是空间音频编解码技术领域。

背景技术

在数字音频应用领域，多声道音频能够提供临场感的环绕声音感受，这是传统立体声信号所不能提供的。随着人们对数字音频信号的高享受的需求，高效的音频信号压缩方法越来越被研究者重视。为了产生空间环绕的效果，多声道信号编解码技术例如Dolby AC-3，DTS以及MPEG Surround等相继被提出，这些方法在编码端大多需要传输由多声道下混后的单声道或立体声信号，并提取空间音频参数一并传输，以便在解码端再上混为多声道信号。

随着虚拟现实、3D游戏、高质量视频会议等交互式音频应用的发展，多声道音频信号需要以尽可能低的速率压缩传输，而声道数目的增多（甚至于几百声道）难以有较大程度的压缩效果，如何利用声道间和声道内的相关性进行高效压缩是多声道音频编码领域的关键问题。多声道信号相比传统的单声道和立体声信号研究的影响因素增多，至少涉及声道、时域、频域三种因素，构成一种高阶信号空间，适合用张量结构表示和分析，进而通过构建张量信号利用张量分解方法进行低秩近似达到压缩的目的。

张量分析方法近十年来在三维图像处理、说话人识别、数据挖掘等信号处理领域已有广泛应用，例如在语音信号的特征提取方面，Jeong等人提出了利用张量分析对语音信号的训练模型状态、特征维度、说话人、噪声空间进行多线性奇异值分析的方法；Mesgarani等人提出了声音信号从耳蜗到大脑皮层阶段产生的多尺度暂态语谱图特征，利用多线性降维技术进行处理，可以在低信噪比或者高回响的环境下或得较高的分辨率；我国公开号为CN102592593A（公开日为2012年7月18日）的专利“一种考虑语音中多线性群组稀疏性的情绪特征提取方法”，考虑了语音信号中包括的时间、频率、尺度、方向信息的多重因素，利用多线性群组稀疏分解的方法进行特征提取。而在多声道音频信号处理领域，尚未见有运用张量分解进行空间音频表示和压缩的应用。

发明内容

本发明的目的是为了充分表征和高效压缩多声道音频信号，提出了一种基于张量分解的多声道音频信号压缩方法，解决了传统多声道音频编解码只能用矢量或矩阵代数进行运算，不能同时考虑声道和时频的多因素影响的问题。

为了实现上述目的，本发明方法的基本思路是：对多声道音频信号，首先在编码端，将每个声道的音频信号通过交叠分帧和时频变换，对变换后的多声道信号建立包含声道、时域和频域的三阶张量信号，并利用张量分解进行低秩近似，得到低秩核张量和三个低秩投影矩阵，其中低秩核张量用于量化编码压缩，三个低秩投影矩阵用于训练过程，在解码端，将解量化和解码后的低秩核张量结合事先训练好的三个低秩投影矩阵，通过张量信号重构过程得到变换域的多声道信号，最后对每个声道信号进行反变换，并通过交叠相加恢复原来的每个声道的音频信号。

本发明所述一种基于张量分解的多声道音频信号压缩方法，包括以下步骤：

步骤一：在编码端，对待处理的声道数目为R的多声道音频信号，首先将每个声道的音频信号采用汉明窗进行分帧，帧长为L，帧移为M，从而把每个声道的音频信号分成N帧，顺序排列后得到每个声道的帧序列；

步骤二：对每个声道，对分帧后的每帧音频信号分别进行时频变换，每帧音频信号经过该时频变换后得到长度为S的频域系数；

若每帧音频信号补零后进行时频变换，则S大于L；

若每帧音频信号直接进行时频变换，则S等于L；

若每帧音频信号直接进行时频变换后只保留能量较大的频域系数，则S小于L；

若每帧音频信号补零后进行时频变换后只保留能量较大的频域系数，则S的大小视具体补零的长度以及保留频域系数的个数而定；

所述的时频变换为正交变换；

所述的时频变换优选采用DCT离散余弦变换；

步骤三：对每个声道，将每一帧所对应的长度为S的频域系数作为矩阵的每一行，即将N帧音频信号的频域系数构成一个大小为N×S的系数矩阵；

将所有R个声道的系数矩阵进行依次排列，构成大小为R×N×S的三阶张量信号X，所述的三阶分别称为：声道序列阶、帧序列阶、频域系数阶；

步骤四：对步骤三构造的三阶张量信号X进行张量分解，即分解为：

G×₁U⁽¹⁾×₂U⁽²⁾×₃U⁽³⁾ （1）

其中U⁽¹⁾、U⁽²⁾、U⁽³⁾彼此之间正交，分别代表张量信号在声道序列阶、帧序列阶、频域系数阶上进行投影的主分量，即，

U⁽¹⁾为该张量信号分解时在声道序列阶进行秩为O的低秩投影矩阵，矩阵大小为R×O，其中参数O应满足1≤O≤R；

U⁽²⁾为该张量信号分解时在帧序列阶进行秩为P的低秩投影矩阵，大小为N×P，其中参数P应满足1≤P≤N；

U⁽³⁾为张量信号分解时在频域系数阶进行的秩为Q的低秩投影矩阵，大小为S×Q，其中参数Q应满足1≤Q≤S；

G为三阶低秩核张量，在声道序列阶、帧序列阶、频域系数阶上的维度分别是上述的O、P、Q，核张量G通过下式计算得到：

G＝X×₁U^(1)T×₂U^(2)T×₃U^(3)T （2）

符号T表示伪逆，×₁、×₂、×₃分别表示张量第一阶、第二阶、第三阶的张量矩阵乘，张量矩阵乘定义如下：

设有一个大小为I₁×I₂×…×I_N的N阶张量H，一个大小为J×I_n的矩阵A，则张量的n阶矩阵乘H×_nA的结果是一个大小为I₁×I₂×…×I_n-1×J×I_n+1×…×I_N的N阶张量，其中1≤n≤N；

作为优选，步骤四中，所述张量分解时求取低秩投影矩阵采用ALS交替最小二乘法，或者HOSVD高阶奇异值分解的方法；

作为优选，在帧序列阶上不进行低秩投影，即P=N，而在声道序列阶和频域系数阶上进行低秩投影，即1≤O＜R且1≤Q＜S。

步骤五：对步骤四得到的三阶低秩核张量G进行降维获得一维序列，然后对该一维序列进行量化编码，获得压缩后的比特流数据，用于传输或存储，而低秩投影矩阵U⁽¹⁾、U⁽²⁾、U⁽³⁾不进行量化编码处理；

步骤六：在解码端，对压缩后的比特流数据进行与步骤五中量化编码方法相应的解码和解量化，再进行与步骤五相应的升维处理，得到恢复后的低秩核张量G'；

结合预先训练得到的三个低秩投影矩阵U'⁽¹⁾、U′⁽²⁾、U′⁽³⁾，进行张量信号重构得到恢复后的三阶张量信号Y，重构表示为：

Y＝G′×₁U'⁽¹⁾×₂U'⁽²⁾×₃U'⁽³⁾ （4）

其中张量信号Y在声道序列阶、帧序列阶、频域系数阶上的维度分别是R、N、S；

其中所述所述预先训练得到三个低秩投影矩阵U'⁽¹⁾、U′⁽²⁾、U′⁽³⁾的方法为：选取V组多声道音频信号，每组的声道数目均为R个，对每组多声道音频信号重复上述的步骤一、二、三、四，得到V组低秩投影矩阵U_v ⁽¹⁾、U_v ⁽²⁾、U_v ⁽³⁾，其中1≤v≤V，将V组低秩投影矩阵U_v ⁽¹⁾、U_v ⁽²⁾、U_v ⁽³⁾分别进行平均，即得到训练后的低秩投影矩阵U'⁽¹⁾、U'⁽²⁾、U'⁽³⁾；

作为优选，V≥10；

步骤七：步骤六得到的R×N×S的三阶张量信号Y中包含R个声道的N个帧，其中每帧长度为S，从Y中抽取每个声道的N×S系数矩阵，对矩阵的每行的S个数据，分别进行与步骤二相应的时频反变换，得到恢复的每帧音频信号；

作为优选，若步骤二所述的时频变换采用离散余弦变换DCT，则步骤七所述的时频反变换采用反离散余弦变换IDCT。

步骤八：将步骤七得到的每个声道的每帧音频信号通过交叠相加恢复每个声道的音频信号，帧长为L，帧间交叠长度为M。

对比现有技术，本发明的有益效果在于：本发明考虑了多声道音频信号同时受到声道、时域、频域三方面因素影响的特点，将多声道音频信号通过时频变换和张量分解转换为低秩核张量进行编解码，从而更好的利用声道间和声道内的相关性去处冗余信息，达到高效压缩的目的。本发明结合时频变换和张量分解对多声道音频信号进行分析和压缩，相比传统的多声道音频编解码方法增强了对声道间冗余信息的压缩能力，且不需要传输额外的空间参数信息，能够提高多声道音频信号的压缩效果。

附图说明

图1是利用张量分解对多声道音频信号进行编解码的流程图；

图2是张量信号构造示意图；

图3是本发明具体实施例中5.1声道音频信号压缩后的MUSHRA主观质量测试结果图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，本发明的基于张量分解的多声道音频信号压缩方法的一个具体实施例包括以下步骤：

步骤一：编码端，对待处理的多声道音频信号（声道数目为R），首先将每个声道的音频信号采用汉明窗进行分帧，帧长为L，帧移为M，从而把音频信号分成N帧，顺序排列后得到每个声道的帧序列；

以5.1声道的空间音频信号为例，则R的取值为6，这里取值帧长为L=960个样点，帧移为M=480个样点，音频信号分帧为N=899帧；

步骤二：对每个声道，对分帧后的每帧音频信号分别进行DCT离散余弦变换（也可以是其他的正交变换），每帧音频信号经过DCT变换后得到S个DCT系数，即频域系数；

作为优选，S的取值与帧长相等，即S=960；

如果S≤L则步骤七恢复每帧音频信号的时候频域补值，如果S>=L则变换时时域补值；

将所有R个声道的系数矩阵进行依次排列，构成大小为R×N×S的三阶张量信号X，所述的三阶分别称为：声道序列阶、帧序列阶、频域系数阶；该三阶张量信号X如图2所示；

步骤四：对步骤三构造的三阶张量信号X进行张量分解，分解表示为：

G×₁U⁽¹⁾×₂U⁽²⁾×₃U⁽³⁾ （1）

由于受到信号平稳性的影响，帧序列阶上的低秩投影过程对多声道音频信号的重建质量的影响相比其他两个阶上的低秩投影过程影响较大，所以在帧序列阶上可以不进行低秩投影，亦即P=N=899；而其他两个阶上可以进行较大程度的低秩投影，从而得到较大程度的压缩效果；即低秩投影的优选取值方式为：

1≤O＜R，P=N；1≤Q＜S；

G为三阶低秩核张量，在声道序列、帧序列、频域系数对应各阶上的维度分别是上述的O、P、Q，核张量G通过下式计算得到：

G＝X×₁U^(1)T×₂U^(2)T×₃U^(3)T （2）

，符号T表示伪逆，×₁、×₂、×₃分别表示张量第一阶、第二阶、第三阶的张量矩阵乘，张量矩阵乘定义如下：设有一个大小为I₁×I₂×…×I_N的N阶张量H，一个大小为J×I_n的矩阵A，则张量的n阶（1≤n≤N）矩阵乘为H×_nA的结果是一个大小为I₁×I₂×…×I_n-1×J×I_n+1×…×I_N的N阶张量；

作为优选，上述张量分解进行低秩近似的过程采用Evrim Acar等人在文献《An Optimization Approach for Fitting Canonical Tensor Decompositions》中13-14页所提出的ALS交替最小二乘法获得，但此处不限于采用交替最小二乘法；或者或者采用Lathauwera等人在《a multilinear singular value decomposition》中所提到的HOSVD高阶奇异值分解的方法。

步骤五：对步骤四得到的低秩核张量G进行降维获得一维序列，然后对该一维序列进行量化编码，获得压缩后的比特流数据，用于传输或存储，而低秩投影矩阵U⁽¹⁾、U⁽²⁾、U⁽³⁾不进行量化编码处理；

Y＝G′×₁U'⁽¹⁾×₂U'⁽²⁾×₃U'⁽³⁾ （4）

步骤六中所述预先训练得到三个低秩投影矩阵U′⁽¹⁾、U′⁽²⁾、U′⁽³⁾的方法为：选取V组多声道音频信号，每组的声道数目均为R个，对每组多声道音频信号重复所述的步骤一、二、三、四，得到V组低秩投影矩阵U_v ⁽¹⁾、U_v ⁽²⁾、U_v ⁽³⁾，其中1≤v≤V，将V组低秩投影矩阵U_v ⁽¹⁾、U_v ⁽²⁾、U_v ⁽³⁾分别进行平均，即得到训练后的低秩投影矩阵U′⁽¹⁾、U′⁽²⁾、U′⁽³⁾。

步骤七：步骤六得到的张量信号Y中包含R个声道的N个帧，其中每帧长度为S，从Y中抽取每个声道的N×S系数矩阵，对矩阵的每行的S个数据，分别进行反离散余弦变换IDCT得到恢复的每帧音频信号；

步骤八：将步骤七反变换得到的每个声道的每帧的音频信号通过交叠相加恢复每个声道的音频信号，帧长为L，帧间交叠长度为M，获得所有R个声道的音频信号恢复后多声道音频信号。

为了进一步说明步骤四—步骤六，具体说明各参数的关系：三阶张量信号X的大小为6×899×960（声道序列×帧序列×频域系数），张量信号X分解时对声道序列阶进行秩O=1近似，帧序列阶进行秩P=899近似，频域系数阶进行秩Q=200近似，张量信号X进行张量分解后得到1×899×200的低秩核张量G，该核张量中的每个元素进行量化编码后传给解码端；在解码端经过解码和解量化恢复后的1×899×200的低秩核张量与事先训练得到的低秩投影矩阵结合恢复原始张量信号，其中训练过程是选取10条多声道音频样本，对每条样本通过时频变换和张量分解得到一组低秩投影矩阵，最后将得到的10组低秩投影矩阵进行平均用于解码端的张量信号重构过程。

本发明方法当三阶低秩核张量G的大小不同时所获得的压缩效率不同，这里用压缩百分比来衡量不同O和Q取值时的压缩效果，用MUSHRA主观质量测试方法衡量不同O和Q取值时的解码输出音质表现，分数越高质量越好；选取6条测试用的5.1声道音频信号进行实验，实验结果见表1和图3；实验结果显示当O=2,Q=400时压缩百分比为86.1%，而主观质量可以达到78.7的良好程度，大量实验表明本发明利用张量分解进行多声道音频信号压缩的方法能够在可接受的音质情况下提供很高的压缩效率。

表15.1声道音频信号压缩百分比的结果表格

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换和替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于张量分解的多声道音频信号压缩方法，其特征在于，包括以下步骤：

G×₁U⁽¹⁾×₂U⁽²⁾×₃U⁽³⁾ (1)

G＝X×₁U^(1)T×₂U^(2)T×₃U^(3)T (2)

结合预先训练得到的三个低秩投影矩阵U'⁽¹⁾、U'⁽²⁾、U'⁽³⁾，进行张量信号重构得到恢复后的三阶张量信号Y，重构表示为：

Y＝G'×₁U'⁽¹⁾×₂U'⁽²⁾×₃U'⁽³⁾ (4)

2.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法，其特征在于，步骤二所述的时频变换为正交变换。

3.根据权利要求1或2所述一种基于张量分解的多声道音频信号压缩方法，其特征在于，若步骤二所述的时频变换采用离散余弦变换DCT，则步骤七所述的时频反变换采用反离散余弦变换IDCT。

4.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法，其特征在于，步骤四中，所述张量分解时求取低秩投影矩阵采用ALS交替最小二乘法，或者采用HOSVD高阶奇异值分解的方法。

5.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法，其特征在于，步骤六中所述预先训练得到三个低秩投影矩阵U'⁽¹⁾、U'⁽²⁾、U'⁽³⁾的方法为：选取V组多声道音频信号，每组的声道数目均为R个，对每组多声道音频信号重复所述的步骤一、二、三、四，得到V组低秩投影矩阵U_v ⁽¹⁾、U_v ⁽²⁾、U_v ⁽³⁾，其中1≤v≤V，将V组低秩投影矩阵U_v ⁽¹⁾、U_v ⁽²⁾、U_v ⁽³⁾分别进行平均，即得到训练后的低秩投影矩阵U'⁽¹⁾、U'⁽²⁾、U'⁽³⁾。

6.根据权利要求5所述一种基于张量分解的多声道音频信号压缩方法，其特征在于，步骤六中，V≥10。

7.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法，其特征在于，步骤二中，

若每帧音频信号补零后进行时频变换，则S大于L；

若每帧音频信号直接进行时频变换，则S等于L；

若每帧音频信号补零后进行时频变换后只保留能量较大的频域系数，则S的大小视具体补零的长度以及保留频域系数的个数而定。

8.根据权利要求1所述一种基于张量分解的多声道音频信号压缩方法，其特征在于，步骤四中，在帧序列阶上不进行低秩投影，即P＝N，而在声道序列阶和频域系数阶上进行低秩投影，即1≤O＜R且1≤Q＜S。