CN107610710A

CN107610710A - 一种面向多音频对象的音频编码及解码方法

Info

Publication number: CN107610710A
Application number: CN201710912599.XA
Authority: CN
Inventors: 胡瑞敏; 武庭照; 王晓晨; 柯善发; 李罡; 王金山; 陈玮
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-01-19
Anticipated expiration: 2037-09-29
Also published as: CN107610710B

Abstract

本发明公开了一种面向多音频对象的音频编码及解码方法，编码时本方法首先将输入的多个音频对象信号从时域变换到频域，并将音频对象频域信号降混合得到一个单声道混合信号；根据每个音频对象信号和混合信号提取参数；并利用矩阵分解方法将大尺寸参数矩阵分解为小尺寸的系数矩阵与基矩阵；最后将混合信号与系数矩阵、基矩阵合成码流。解码时首先分解码流，根据系数矩阵与基矩阵重建得到参数矩阵；然后根据参数矩阵和混合信号对音频对象信号进行重建。本方法提高了参数频域分辨率，并利用矩阵分解的方法降低参数编码所需码率，可以同时保证低码率和高质量地重建音频对象信号。

Description

一种面向多音频对象的音频编码及解码方法

技术领域

本发明属于数字音频信号处理技术领域，涉及一种音频对象编码解码方法，具体涉及一种高频域分辨率的多音频对象压缩编码及解码方法。

背景技术

音频编码技术已经有了长足的发展，从传统的单声道、立体声发展到更具沉浸感的多声道音频编码技术，例如MPEG空间音频编码，扬声器阵列以及波场合成等。并且基于多声道音频编码技术，实现了三维音频场景的编码与重建，并受到广泛关注。但是传统的基于声道编码的音频场景编码技术灵活性低，不能满足用户对音频场景个性化重建的需求以及对单个对象轨迹的准确性要求。所以为了保证音频场景重建的灵活性、准确性以及用户个性化的需求，新一代音频编码技术通常将音频场景分解为多个独立的音频对象，并对这些音频对象进行编码传输。

对于音频对象编码技术，许多学者和科研机构都已展开研究，也有一些技术相继被提出。比如知情音源分离技术、基于对象间或对象内部稀疏性的编码技术以及空间音频对象编码技术等。其中最具代表性的是由德国知名研究机构Fraunhofer提出的空间音频对象编码技术(Spatial Audio Object Coding,SAOC)。该方法在编码端按子带提取音频对象间的能量比值(Objects Level Difference,OLD)作为对象参数，然后将音频对象信号进行降混合得到混合信号，并与对象参数一起传送到解码端；在解码端，利用边信息OLD及混合信号可重建音频对象信号。SAOC方法可以以单声道或者立体声的码率编码传输多个音频对象信号，大大提高了音频对象编码的效率。

虽然现有SAOC方法基于少量子带提取参数可以实现低码率同时编码多个音频对象，但是SAOC重建得到的对象信号间会发生混淆，造成音质和主观听音感受较差。这是因为同一个子带共用一个参数使得音频对象信号的频率成分不能得到准确重建，在某些频率成分处有可能保留多个音频对象的能量，从而发生混淆。通过增加子带的数量可以有效缓解对象信号间的混淆，提高重建音频对象信号的音质，但是，简单地增加子带的数量会增加音频对象编码码率。所以现有方法并不能同时保证音频对象编码的低码率和高音质双重特点。

发明内容

为了解决上述技术问题，本发明提供了一种可以同时保证低码率与高音质的多音频对象编解码方法，从而进一步满足用户对音频场景个性化重建的需求以及对象轨迹的准确性要求。

本发明提供的一种面向多音频对象的音频编码方法，其特征在于，包括以下步骤：

步骤A1：对输入的多个音频对象信号进行时域-频域变换处理，得到矩阵形式的频域音频对象信号；

步骤A2：将变换后的多个音频对象信号降混合为单声道混合信号；

步骤A3：根据步骤A2中获得的单声道混合信号和步骤A1中输入的多音频对象信号提取对象信号与混合信号的能量比参数矩阵ODLR；

步骤A4：将参数矩阵ODLR分解为系数矩阵与基矩阵；

步骤A5：量化系数矩阵与基矩阵，获得矩阵量化码流；

步骤A6：将步骤A2中获得的单声道混合信号的码流与步骤A5中获得的矩阵量化码流合成编码输出码流，传输到解码端。

本发明提供的一种面向多音频对象的音频解码方法，其特征在于，包括以下步骤：

步骤B1：分解码流，得到单声道混合信号的码流以及矩阵量化码流；

步骤B 2：码流分析得到单声道混合信号、系数矩阵与基矩阵；

步骤B 3：根据系数矩阵与基矩阵计算参数矩阵ODLR；

步骤B 4：根据单声道混合信号与参数矩阵ODLR进行音频对象信号重建；

步骤B 5：利用时频-频域逆变换得到时域内连续的音频对象信号。

与现有音频对象编码技术相比，本发明的性能优势在于：以频点形式提取参数，极大地提高了对象参数的频域分辨率，可以有效缓解编码过程所产生的对象间的混淆，从而提升音质；同时在参数编码过程中引入矩阵分解方法，可以降低参数编码所需码率。也就是说，本发明可以同时保证多音频对象编码的高音质与低码率双重特点。

附图说明

图1是本发明实施例的编码方法流程图；

图2是本发明实施例的解码方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明在现有音频对象的基础上开展进一步的研究，提出了基于矩阵分解的多音频对象编解码方法。首先，研究具备高频域分辨率的对象参数提取策略，可以有效减轻重建对象信号间的混淆；然后利用矩阵分解方法将对象参数ODLR矩阵分解为两个低维矩阵，从而达到降低码率的目的。

参照图1，为本发明提出的一种面向多音频对象的编码方法，包括以下步骤：

输入的多个音频对象信号为钢琴、长笛等不同种类的音频信号，其采样频率为48KHz，位深度为16位。

应该注意的是，此处规定的采样格式只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

时域-频域转换处理包括分帧、加窗，以及修正离散余弦变换，其中，每一帧信号包含2048个点，加50％重叠窗，余弦变换也为2048点；最终输出多个矩阵形式的音频对象信号，其中矩阵的行数等于帧数(或列数等于帧数)、矩阵的列数等于频点数(或行数等于频点数)。

应该注意的是，此处规定的帧容量、窗函数类型以及变换形式只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

降混合是指将多个音频对象信号(矩阵形式)以相加的形式得到一个和矩阵，该矩阵即为所述单声道混合信号。

提取参数矩阵ODLR的方法是直接按照频点形式提取音频对象信号与混合信号对应频点的能量比，得到维度为N×M的ODLR矩阵(每个音频对象都对应一个ODLR矩阵)，其中N代表帧数，M代表频点数。

能量比如下式所示：

其中Ratio()函数的功能是计算第j个音频对象信号O_j与混合信号O_d之间的能量比，J，N，M分别代表音频对象数量、帧的数量以及频点数量。由上式也可以看出，ODLR矩阵与音频对象一一对应，且为每一个频点提取对应的参数。

按频点提取与按照子带提取相比，大大提高了参数的频域分辨率，有利于提高音频对象重建质量。

步骤A4：将参数矩阵ODLR分解为系数矩阵与基矩阵；

矩阵分解方法是指非负矩阵分解方法(Non-negative Matrix Factorization,简称NMF)。本方法利用NMF将ODLR分解为维度是N×K的系数矩阵和维度是K×M的基矩阵，分解过程如下所示：

其中公式(2)为目标函数，公式(3)为迭代更新公式，即经过多次迭代优化后得到的分解结果应满足目标函数，该分解结果即为所求系数矩阵与基矩阵；k∈[1,K]且K值由用户设置，代表基成分的数量，K值远小于N和M，所以能够实现压缩码率的目的。

将系数矩阵与基矩阵内的所有元素进行归一化，然后根据量化表将归一化后的元素值进行量化，根据对应的量化索引输出矩阵量化码流。

应该注意的是，此处规定的NMF方法的目标函数与迭代更新公式只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

步骤A5：量化系数矩阵与基矩阵，获得矩阵量化码流；

量化可通过查表法实现。在量化操作中，因为系数矩阵与基矩阵元素值对应范围不同，为了统一量化表，在量化前先对其进行归一化处理。然后根据每一个元素值的大小在量化表所包含的量化值中找到最接近的，并将对应的量化索引作为矩阵量化码流输出。

编码输出码流是指将混合信号的码流与矩阵量化码流进行整合。混合信号的码流是指混合信号经AAC编码器编码后输出的码流；所述矩阵量化码流是指系数矩阵与基矩阵量化后所输出的量化索引码流。

参照图2，为本发明提出的一种面向多音频对象的解码方法，包括以下步骤：

分解码流是根据合成编码输出码流的方法进行反演，得到混合信号的码流以及矩阵量化码流。

码流分析是指根据单声道混合信号的码流与矩阵量化码流得到混合信号、系数矩阵与基矩阵。其中混合信号的码流经过AAC解码器解码得到混合信号；矩阵量化码流经过去量化与去归一化得到量化的系数矩阵与基矩阵。

步骤B 3：根据系数矩阵与基矩阵计算参数矩阵ODLR；

系数矩阵与基矩阵是与音频对象数量一一对应的，并通过矩阵相乘可以计算得到参数矩阵ODLR，易知参数矩阵ODLR亦与音频对象信号一一对应。

音频对象信号重建是指将混合信号(矩阵形式)与参数矩阵ODLR对应元素进行相乘，得到矩阵形式的音频对象重建信号。

依次读取矩阵量化码流中包含的量化索引，每一个量化索引对应系数矩阵或基矩阵中的一个元素值，然后根据量化索引和量化表读取量化值作为该元素值，进而可以去量化得到对应于每个音频对象的量化后的系数矩阵与基矩阵与矩阵分解相对应，根据系数矩阵与基矩阵可以通过矩阵运算重建参数矩阵重建过程如下式所示：

根据混合信号以及重建参数矩阵与参数提取相对应，可以对音频对象信号进行重建，如下式所示：

重建的音频对象信号仍是频域的，需要转换到时域内才可以进行播放、渲染等。所以，解码方法中的时域-频域变换的作用是对对象信号进行去窗、修正离散余弦逆变换操作来得到时域内连续的多音频对象重建信号，用户可以根据这些重建对象信号以及自己的喜好进行个性化渲染。

与现有音频对象编码方法相比，本发明具有的积极效果是：

提高了对象参数的频域分辨率，有效地缓解了子带编码带来的音频对象混淆效应，明显改善了音质和主观听音体验；同时，将矩阵分解方法应用到对象参数的编码，可以有效抑制高频域分辨率导致的参数编码码率激增。因此，本发明在保证高质量编码音频对象的同时保证较低的码率，为同时高质量编码多个音频对象提供了更好的解决方案。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向多音频对象的音频编码方法，其特征在于，包括以下步骤：

步骤A4：将参数矩阵ODLR分解为系数矩阵与基矩阵；

步骤A5：量化系数矩阵与基矩阵，获得矩阵量化码流；

2.根据权利要求1所述的面向多音频对象的音频编码方法，其特征在于：步骤A1中所述时域-频域转换处理包括分帧、加窗，以及修正离散余弦变换，最终输出多个矩阵形式的音频对象信号，其中矩阵的行数或列数等于帧数、矩阵的列数或行数等于频点数。

3.根据权利要求1所述的面向多音频对象的音频编码方法，其特征在于：步骤A2中所述降混合是指将多个矩阵形式的音频对象信号相加，得到一个和矩阵，该和矩阵即为所述单声道混合信号。

4.根据权利要求1所述的面向多音频对象的音频编码方法，其特征在于：步骤A3中提取参数矩阵ODLR的方法是直接按照频点形式提取音频对象信号与混合信号对应频点的能量比，得到维度为N×M的ODLR矩阵，每个音频对象都对应一个ODLR矩阵，其中N代表帧数，M代表频点数。

5.根据权利要求1所述的面向多音频对象的音频编码方法，其特征在于：步骤A4中所述将参数矩阵ODLR分解为系数矩阵与基矩阵的方法采用的是非负矩阵分解方法NMF，将ODLR矩阵分解为维度是N×K的系数矩阵和维度是K×M的基矩阵；其中K的值通过实验验证所得，且K值远小于N和M的值。

6.根据权利要求1所述的面向多音频对象的音频编码方法，其特征在于：步骤A5中通过查表法量化系数矩阵与基矩阵；在量化前先对系数矩阵与基矩阵元素值进行归一化处理，然后根据每一个元素值的大小在量化表所包含的量化值中找到最接近的，并将对应的量化索引作为矩阵量化码流输出。

7.根据权利要求1所述的面向多音频对象的音频编码方法，其特征在于：步骤A6中，所述单声道混合信号的码流是指单声道混合信号经AAC编码器编码后输出的码流；所述矩阵量化码流是指系数矩阵与基矩阵量化后所输出的量化索引码流。

8.一种面向多音频对象的音频解码方法，其特征在于，包括以下步骤：

步骤B2：码流分析得到单声道混合信号、系数矩阵与基矩阵；

步骤B3：根据系数矩阵与基矩阵计算参数矩阵ODLR；

步骤B4：根据单声道混合信号与参数矩阵ODLR进行音频对象信号重建；

步骤B5：利用时频-频域逆变换得到时域内连续的音频对象信号。

9.根据权利要求8所述的面向多音频对象的音频解码方法，其特征在于：步骤B2中，单声道混合信号的码流经过AAC解码器解码得到单声道混合信号；矩阵量化码流经过去量化与去归一化得到量化的系数矩阵与基矩阵。

10.根据权利要求8所述的面向多音频对象的音频解码方法，其特征在于：步骤B3中，系数矩阵与基矩阵与音频对象数量一一对应，并通过矩阵相乘计算得到参数矩阵ODLR，参数矩阵ODLR与音频对象信号一一对应。

11.根据权利要求8所述的面向多音频对象的音频解码方法，其特征在于：步骤B4中，所述音频对象信号重建是指将矩阵形式的单声道混合信号与参数矩阵ODLR对应元素进行相乘，得到矩阵形式的音频对象重建信号。

12.根据权利要求8所述的面向多音频对象的音频解码方法，其特征在于：步骤B5中，所述时域-频域逆变换是指通过去窗、修正离散余弦逆变换将频域内矩阵形式的音频对象重建信号转换为时域内的连续信号，供用户收听或进行其他操作。