CN110660401A

CN110660401A - 一种基于高低频域分辨率切换的音频对象编解码方法

Info

Publication number: CN110660401A
Application number: CN201910822901.1A
Authority: CN
Inventors: 胡瑞敏; 武庭照; 王晓晨; 柯善发; 胡晨昊; 吴玉林
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2020-01-07
Anticipated expiration: 2039-09-02
Also published as: CN110660401B

Abstract

本发明提供了一种基于高低频域分辨率切换的音频对象编解码方法。编码端：输入的多个音频对象信号首先经过预处理模块，从时域变换到频域。变换后的音频对象信号一方面混合得到单声道的混合信号；另一方面基于低频域分辨率子带进行对象信号活跃性检测，并与混合信号一起用于提取参数，其中参数提取是根据对象信号活跃性基于高或低频域分辨率进行的。最后将混合信号，活跃性表达矩阵，基于高、低频域分辨率提取的对象参数合成码流。解码端：首先分解码流得到混合信号，活跃性表达矩阵与对象参数；然后在活跃性矩阵的指导下，利用混合信号与对象参数进行音频对象信号重建。本发明方法为同时高质量编码多个音频对象提供了更好的解决方案。

Description

一种基于高低频域分辨率切换的音频对象编解码方法

技术领域

本发明涉及数字音频信号处理领域，涉及音频对象编码，具体涉及多重频域分辨率的音频对象高质量压缩编码。

背景技术

基于空间音频听觉理论基础，音频编码技术已经从传统的单声道、立体声编码技术发展到更具沉浸感的多声道音频编码技术，实现了三维音频场景的编码与重建。但是传统的三维音频是基于声道的，不能适应非标准、多样化的回放环境，也不能满足用户对单个音频对象轨迹以及对音频场景个性化重建的需求。基于音频对象的音频编码技术可以将多个相互独立的音频对象进行编码传输，从而保证音频对象重建的灵活性、准确性以及用户个性化的需求，所以基于对象的音频编码技术被视为新一代音频编码技术。

国际上许多学者和科研机构都已开展音频对象编码的研究工作，并提出多种音频对象编码方法，如下表所示。

表1.多种音频对象编码方法简介

其中具代表性的两种方法是由德国知名研究机构Fraunhofer提出的空间音频对象编码技术(Spatial Audio Object Coding,SAOC)以及由武汉大学提出的基于非负矩阵分解的对象编码方法(Audio Object Coding based on Non-negative MatrixFactorization,NMF-based AOC)。

(1)SAOC方法在编码端基于子带为每一帧信号提取音频对象之间的能量比(Objects Level Difference,OLD)等作为对象参数，并将所有音频对象信号进行降混合得到单声道或立体声混合信号；在解码端，利用对象参数OLD等及混合信号可重建音频对象信号。SAOC方法可以以单声道或者立体声的码率编码传输多个音频对象信号，大大提高了音频对象编码的效率。但是SAOC方法基于少量子带提取参数实现低码率，所以重建得到的对象信号间会发生混淆，造成音质和主观听音感受较差。这是因为同一个子带共用一个参数，使得子带内音频对象信号的频率成分不能得到准确地重建，所以在某些频率成分处有可能保留多个音频对象的能量，从而发生混淆。

(2)NMF-based AOC方法针对SAOC所存在的问题进行了进一步研究。该方法通过增加子带的数量有效缓解了对象信号间的混淆，提高重建音频对象信号的音质；同时，该方法在参数编码中引入非负矩阵分解方法，可以降低因为增加子带所增长的码率。但是，该方法只能对完整的音频对象信号进行编码，所以该方法不能应用于流媒体；并且非负矩阵分解方法对于待分解矩阵的所有元素的分解精度都是一样的，不能将重要频率成分对应的参数更准确地重建。

发明内容

为解决现有音频对象编码方法存在的技术问题，本发明提出一种可以在不明显增加编码码率的条件下全面提升音频对象信号的编码质量，并且可以在流媒体环境中应用的音频对象编解码方法。

本发明提供的一种基于高低频域分辨率切换的音频对象编码方法，包含以下步骤：

步骤A1：对输入的J个音频对象信号经过预处理操作，得到从时域变换到频域的音频对象信号S₁(n,k),…,S_J(n,k)以及对应的包含所有对象的单声道混合信号D(n,k)，其中n表示帧序号，k表示频点序号；

步骤A2：基于低频域分辨率对步骤A1得到的多个音频对象信号进行活跃性检测，得到活跃性矩阵ActFlag_j,j∈[1,J]，j为对象编号；

步骤A3：利用步骤A1得到的对象信号以及单声道混合信号，在活跃性矩阵ActFlag_j,j∈[1,J]的指导下提取参数ODLR，其中参数ODLR表示对象信号与混合信号的能量比；

步骤A4：对步骤A2得到的活跃性矩阵进行转化，得到活跃性矩阵码流；

步骤A5：对步骤A3提取的对象参数进行量化编码，得到参数码流；

步骤A6：对步骤A1输出的单声道混合信号进行单声道编码，得到混合信号的码流；

步骤A7：将步骤A4得到的活跃性矩阵码流、步骤A5中得到的参数码流与步骤A6中得到的混合信号的码流合成编码输出码流，传输到解码端。

进一步的，步骤A1中，所述混合信号D(n,k)的计算方式如下：

其中sign()为符号函数，用于获取变量的符号。

进一步的，步骤A2中，所述活跃性矩阵的计算方式如下：

其中“1”表示活跃，“0”表示不活跃，

表示子带(n,b)的中心频率f₀的声压级，n、b分别表示帧序号以及子带序号，J、N、B分别为对象数量、帧总数以及子带数量；

表示频率f₀对应的听觉阈值，

表示音频信号的声压，r表示音源到听音点处的距离，

表示波数；p₀表示声压参考值，恒等于20μPa。

进一步的，步骤A3中，在活跃性矩阵ActFlag_j,j∈[1,J]的指导下提取参数ODLR的方法是根据对象信号在子带内的活跃性来选择是基于低频域分辨率提取参数还是基于高频域分辨率提取参数，具体选择标准为：当有多个对象在同一个子带活跃时，基于高频域分辨率提取参数；当最多仅有一个对象在同一子带内活跃时，基于低频域分辨率提取参数；且在基于高频域分辨率提取参数时，先对高频域分辨率子带进行细分，再基于细分后的子带提取参数。

进一步的，步骤A3中，所述参数ODLR的计算方式如下，

其中P_j(n,b)与P_d(n,b)分别表示对象j与单声道混合信号在子带(n,b)的能量。

进一步的，步骤A4中，利用位运算直接将活跃性矩阵中的参数写为码流。

进一步的，步骤A5中，利用查表法根据对象参数的值在量化表中找到量化值，并把对应的量化索用二进制表示，得到对象参数码流。

进一步的，步骤A6中，采用单声道编码技术ACC将步骤A1输出的单声道混合信号进行单声道编码，得到混合信号的码流。

本发明还提供一种基于高低频域分辨率切换的音频对象解码方法，包含以下步骤：

步骤B1：分解码流，得到每个对象信号的活跃性矩阵码流、对象参数码流以及混合信号的码流；

步骤B2：步骤B1得到的混合信号的码流经过单声道解码模块处理得到单声道混合信号；

步骤B3：步骤B1得到的对象参数码流经过去量化操作得到对象参数；

步骤B4：步骤B1得到活跃性矩阵码流经过重新排列得到活跃性矩阵；

步骤B5：根据步骤B2得到的混合信号与步骤B3得到的对象参数，在活跃性矩阵的指导下重建音频对象信号；

步骤B6：将步骤B5得到的音频对象信号经过时频逆变换操作得到时域内连续的音频对象信号。

进一步的，步骤B5中，重建音频对象信号的具体实现方法如下式所示：

其中S_j为重建的对象信号，

与

分别是经过编解码的混合信号与经过量化的对象参数，A_b-1与A_b-1分别表示子带(n,b)的起止点，(n,b)是低频域分辨率对应的子带或者高频域分辨率对应的子带。

与现有音频对象编码技术相比，本发明的性能优势在于：

1.有针对性地提高频率子带内参数的频域分辨率，可以提高对象编码质量；

2.根据对象信号的活跃性状态，切换高、低频域分辨率，可以更有效地利用编码码率。

与现有音频对象编码方法相比，本发明具有的积极效果是：

本发明将基于帧信号对音频对象进行编码和传输，可以适用于流媒体应用场景；另外，本发明根据音频对象信号的活跃性状态，有针对性的对频率子带进行细分，提高参数频域分辨率，可以有效缓解不同对象间的混淆效应，提升音质。

因此，本发明在保证高质量编码音频对象的同时保证较低的码率，并适用于流媒体应用场景，为同时高质量编码多个音频对象提供了更好的解决方案。

附图说明

为了更清楚地说明本实施例中的技术方案，下面将对实施例描述中所需要使用的附图进行简单地介绍。下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的编码方法流程图。

图2是本发明实施例的解码方法流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明在已有的音频对象编码基础上开展研究，提出了一种基于高低分辨率切换的音频对象编解码方法，根据对象信号的活跃性状态，切换高、低频域分辨率，可以有针对性地提高频率子带内参数的频域分辨率，更好地利用编码码率来提高对象编码质量。

下面参照本发明的附图，更详细地介绍本发明的具体实施例。但是此处所描述的具体实施示例仅用于解释本发明，但并不用于限定本发明。

参照图1，为本发明提出的一种基于高低分辨率切换的音频对象编码方法，包括以下步骤：

输入为多个音频对象的时域信号s₁(t)～s_J(t)，例如吉他、风铃等不同种类的音频对象信号，其采样频率为44.1KHz，位深度为16位。所述的高、低频域分辨率是指子带的频域分辨率，其中低频域分辨率是指每帧信号划分为28个ERB子带对应的频域分变率，高频域分辨率是指对ERB子带进行均分方法细分后对应的频域分辨率。

应该注意的是，此处规定的采样格式只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

步骤A1：对输入的J(J大于等于2)个音频对象信号经过预处理操作，得到从时域变换到频域的音频对象信号S₁(n,k),…,S_J(n,k)以及对应的包含所有对象的单声道混合信号D(n,k)，其中n表示帧序号，k表示频点序号；

预处理操作是将音频对象信号进行时域-频域变换，需经过分帧、加窗以及修正离散余弦变换操作。

一种典型的设置为，每一帧信号包含2048个点，加50％重叠的汉宁窗，进行修正离散余弦变换。时域-频域变换操作后输出为矩阵形式的频域音频对象信号，矩阵的行数(或列数)等于帧数，列数(或行数)等于频点数。

应该注意的是，此处规定的帧容量、窗函数类型以及变换形式只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

所述混合信号D(n,k)的计算方式如下：

其中sign()为符号函数，用于获取变量的符号。

具体来说，每个对象的活跃性检测是基于低频域分辨率独立进行的，每帧信号被分为28个频率子带，每个子带具有“0(不活跃)”或“1(活跃)”两个状态，可如下式计算：

其中

表示f₀对应的听觉阈值。表示音频信号的声压，r表示音源到听音点处的距离，

表示波数；p₀表示声压参考值，恒等于20μPa。

步骤A3：利用步骤A1得到的对象信号以及单声道混合信号，在活跃性矩阵ActFlag_j,j∈[1,J]的指导下提取参数(Object Down-mix Level Ratio,简称ODLR)，表示对象信号与混合信号的能量比；

具体来说，不同对象在同一子带的活跃性是切换高、低频域分辨率的依据。例如在(低分辨率)子带(n₀,b₀)中，对象1和对象2都活跃，其他对象不活跃，那么对象1和对象2需要基于高频域分辨率提取参数ODLR，而其他对象仍基于低频域分辨率提取参数ODLR。其中，实现高频域分辨率的方式是将子带(n₀,b₀)平均细分为2个或4个子带。

应该注意的是，此处规定活跃对象数量与编号，以及细分子带的数量只是为了举例说明本发明的具体实施流程，并不用作限定本发明。

所述参数ODLR的计算方式如下：

其中P_j(n,b)与P_d(n,b)分别表示对象j与混合信号在子带(n,b)的能量；另外，子带(n,b)可以是低频域分辨率对应的子带或者高频域分辨率对应的子带。

具体来说，活跃性矩阵是由0或1组成的，即每一帧都包含28个0和1，最简单的方法就是将这些0和1利用位运算直接写为码流。

具体来说，利用查表法根据对象参数的值在量化表中找到量化值，并把对应的量化索用二进制表示，得到对象参数码流。

本发明沿用已有的单声道编码技术，如AAC，将步骤A1输出的混合信号进行编码，输出混合信号的码流。

具体来说，为满足流媒体应用需求，本发明中码流基于帧进行整合。例如，编码输出的一帧码流有三部分，第一部分为所有对象在当前帧的活跃性矩阵码流；第二部分为所有对象在当前帧的参数码流；第三部分为混合信号当前帧的码流。

参照图2，为本发明提出的一种基于高低频域分辨率切换的音频对象解码方法，包含以下步骤：

具体来说，分解码流是根据合成编码输出码流的方法进行反演，帧与帧之间的码流分解也可独立进行，分别得到活跃性矩阵码流、对象参数码流以及混合信号的码流。

步骤B2：步骤B1得到的混合信号的码流经过单声道解码模块处理得到单声道混合信号

具体来说，与单声道编码对应，混合信号的码流经过与编码器对应的解码器(如AAC解码器解码得到混合信号。

步骤B3：步骤B1得到的对象参数码流经过去量化操作得到对象参数

具体来说，依次读取对象参数码流中包含的量化索引，然后根据量化索引和量化表读取量化值即为解码得到的对象参数。

具体来说，根据生成活跃性矩阵码流的排列规则进行反演，得到每个对象在当前帧的28个子带的活跃性。

具体来说，在活跃性矩阵的指导下重建音频对象信号是指在重建过程中需要根据对象信号活跃性来判断当前读取的子带参数是对应于高频域分辨率还是低频域分辨率。例如，在子带(n₀,b₀)中，对象1和对象2同时活跃，那么编码过程中在提取对象1与对象2的参数时，子带(n₀,b₀)需要被细分(此处假设被细分为为

与

两个子带)。那么在重建对象时，当根据对象活跃性判断出对象1和对象2在子带(n₀,b₀)同时活跃时，则需要读取对象1和对象2的两个参数(对应于高频域分辨率下

与

两个子带)，而其他对象仅需要读取1个参数(对应于低频域分辨率下的子带(n₀,b₀))。

重建对象信号的方法如下式所示：

其中S_j为重建的对象信号，

与

分别是经过编解码的混合信号与经过量化的对象参数。A_b-1与A_b-1分别表示子带(n,b)的起止点，(n,b)可以是低频域分辨率对应的子带或者高频域分辨率对应的子带。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于高低频域分辨率切换的音频对象编码方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法，其特征在于：步骤A1中，所述混合信号D(n,k)的计算方式如下：

其中sign()为符号函数，用于获取变量的符号。

3.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法，其特征在于：步骤A2中，所述活跃性矩阵的计算方式如下：

s.t.j∈[1,J],n∈[1,N],b∈[1,B]

其中“1”表示活跃，“0”表示不活跃，

表示频率f₀对应的听觉阈值，

表示音频信号的声压，r表示音源到听音点处的距离，

表示波数；p₀表示声压参考值，恒等于20μPa。

4.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法，其特征在于：步骤A3中，在活跃性矩阵ActFlag_j,j∈[1,J]的指导下提取参数ODLR的方法是根据对象信号在子带内的活跃性来选择是基于低频域分辨率提取参数还是基于高频域分辨率提取参数，具体选择标准为：当有多个对象在同一个子带活跃时，基于高频域分辨率提取参数；当最多仅有一个对象在同一子带内活跃时，基于低频域分辨率提取参数；且在基于高频域分辨率提取参数时，先对高频域分辨率子带进行细分，再基于细分后的子带提取参数。

5.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法，其特征在于：步骤A3中，所述参数ODLR的计算方式如下，

6.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法，其特征在于：步骤A4中，利用位运算直接将活跃性矩阵中的参数写为码流。

7.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法，其特征在于：步骤A5中，利用查表法根据对象参数的值在量化表中找到量化值，并把对应的量化索用二进制表示，得到对象参数码流。

8.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法，其特征在于：步骤A6中，采用单声道编码技术ACC将步骤A1输出的单声道混合信号进行单声道编码，得到混合信号的码流。

9.一种基于高低频域分辨率切换的音频对象解码方法，其特征在于，包含以下步骤：

10.根据权利要求9所述的一种基于高低频域分辨率切换的音频对象解码方法，其特征在于：步骤B5中，重建音频对象信号的具体实现方法如下式所示：

s.t.k∈[A_b-1,A_b-1]

其中S_j为重建的对象信号，

与