CN104170007A

CN104170007A - 对单声道或立体声进行编码的方法

Info

Publication number: CN104170007A
Application number: CN201280000961.1A
Authority: CN
Inventors: 王磊; 闫建新
Original assignee: Shenzhen Rising Source Technology Co ltd
Current assignee: Guangdong Guangsheng Research And Development Institute Co ltd
Priority date: 2012-06-19
Filing date: 2012-06-19
Publication date: 2014-11-26
Anticipated expiration: 2032-06-19
Also published as: CN104170007B; WO2013189030A1

Abstract

本发明提出一种对单声道或立体声进行编码的方法，包括：将单声道或立体声音频信号分为一基本层及至少一增强层；对基本层采用mp3、AAC、SBR、PS和/或DRA编码方式编码；对至少一增强层分别采用mp3、AAC、SBR、PS、DRA、残差编码、部分参数编码算法和/或参数编码算法编码。本发明对单声道或立体声进行粗分层，一般仅做2或3分层，实现简单可保证更高效率的压缩，无需精细分层技术下的各种限制条件。可通过灵活控制每层声道的质量，获取最佳综合声音质量；易于满足信道编码要求。

Description

对单声道或立体声进行编码的方法技术领域

本发明涉及音频编码处理领域，特别是涉及一种对单声道或立体声进行编码的方法。

在分层音频编码上，已经存在通过精细分层方式进行有损数字音频编码方法及无损音频编码技术，如 ISO/IEC 14496-3 MPEG-4 BSAC(Bit sliced arithmetic coding)比特片算术编码、在 AVS (Audio Video coding Standard Workgroup of China) 中采用的类似于 MPEG-4 BSAC编码方法以及 MPEG-4 SLS (Scalable Lossless Coding)的无损增强层方式都可实现对音频进行精细分层，对每一层分别编码。但精细分层方式存在编码效率低、结构复杂、处理逻辑复杂度高等缺点。

现有技术中还有一种非精细分层的编码方案：在 MPEG-4第三部分和 MPEG-2第七部分中都提供了可伸缩采样率编码算法 AAC-SSR (Advanced Audio Coding-Scalable Sampling Rate )，首先是由 Sony提出的，编码架构也类似于其独有的 ARTAC (Adaptive Transform Acoustic Coding) 编码。该编码方案首先将输入的数字音频信号通过 4带的多相正交滤波器组（PQF， Polyphase Quadrature Filter) 分割成 4个频带，然后这 4个频带分别进行 1个 256点 MDCT

(512样点窗长）或 8个 32点（64样点窗长） MDCT。该编码方案还可通过去除高 PQF带的方式降低数据率，通过减少频带的方式实现比特流分层，从而获得不同比特率和采样率。这种编码方案的好处是在每个频带内可以独立选择长块或短块 MDCT, 因此对高频可使用短块编码增强时间分辨率；而对低频使用长块编码获得高频率分辨率。但是由于 4个 PQF带间存在混迭，因此相邻部分的变换域系数编码效率会下降。发明内容

为解决上述技术问题，本发明提出一种对单声道或立体声进行编码的方法，包括：将单声道或立体声音频信号分为一基本层及至少一增强层；对基本层采用 mp3、 A AC, SBR、 PS和 /或 DRA编码方式编码；对至少一增强层分别采用 mp3、 A AC, SBR、 PS、 DRA、残差编码、部分参数编码算法和 /或参数编码算法编码。

优选地，上述将单声道或立体声音频信号分为一基本层和一增强层是：基于频带将单声道或立体声音频信号分为一基本层和一增强层，基本层为单声道或立体声的低频编码部分；增强层为单声道或立体声的高频编码部分；或基于声道将立体声音频信号分为一基本层和一增强层，基本层传输左声道或和声道；增强层传输右声道或差声道；或基于参数立体声编码将立体声音频信号分为一基本层和一增强层，基本层传输左右声道缩混的单个声道；增强层传输参数立体声信息；或基于残差分层结构将单声道或立体声音频信号分为一基本层和一增强层。

优选地，上述对基本层和 /或至少一增强层，分别采用带宽扩展算法进行编码。

优选地，上述对于基于残差分层结构划分得到的基本层和一增强层分别编码的步骤包括：根据增强层低频残差对基本层低频编码部分进行补充；通过增强层带宽扩展修正参数对基本层带宽扩展参数进行调整。

优选地，上述音频信号为立体声的情况下，基本层包含编码缩混的声道低频部分进行编码以及带宽扩展和参数立体声编码信息；增强层传输低频部分的残差编码。优选地，上述音频信号为立体声的情况下，基本层传输缩混的单声道信号的低频部分编码信息；增强层传输低频部分残差编码信息和带宽扩展及参数立体声编码信息。

优选地，上述对基本层编码的步骤包括：根据对基本层的码率要求进行编码，将得到的编码数据放入基本层传输；将原始音频与基本层解码恢复后的音频比较获取残差信号；而对增强层编码的步骤是对残差信号进行编码作为增强层。

优选地，上述将单声道或立体声音频信号分为一基本层、第一增强层和第二增强层是：基于频带将单声道或立体声音频信号分为一基本层、第一增强层和第二增强层，其中基本层为单声道或立体声的低频编码部分；第一增强层为单声道或立体声的中频编码部分；第二增强层为单声道或立体声的高频编码部分。

优选地，上述基于残差分层结构将单声道或立体声音频信号分为一基本层、至少一增强层；而对基本层编码的步骤包括：根据对基本层的码率要求进行编码，将得到的全频带基本质量编码数据放入基本层传输；将原始音频与基本层解码恢复后的音频比较，获得第一级残差信号；而对第一增强层和 /或第二增强层编码的步骤包括：对第一级残差信号进行编码作为第一增强层的数据；从第一增强层编码所输入的第一级残差信号中去除对第一增强层解码恢复的信号，获得第二级残差信号；对第二级残差信号进行编码，作为第二增强层的数据；依次根据上一级残差信号获得下一级残差信号，对下一级残差信号进行编码作为下一级增强层的数据，直至对所有增强层均完成编码。

优选地，上述对基本层编码的步骤包括：在编码端，对时域数据 x[n] 做 MDCT变换得到谱系数 X[k]_; 将频域系数分成多个子带，对其中属于子带 b的谱系数除以一个量化步长；对量化步长取整 (nint)得到量化后的谱系数每个量化步长和谱系数 ^X[W传输到解码端。优选地，上述对至少一增强层分别编码的步骤包括：在编码端，对时域数据 x[n]做 MDCT变换得到谱系数 X[k]_; 将频域系数分成多个子带，对其中属于子带 b的谱系数除以一个量化步长；对量化步长取整 (nint)得到量化后；每个量化步长和谱系数 ^XW传输到解码端；用量化步长和谱系数 ^{f W}恢复逆量化后的谱系数 ^f

^k] = A_b - X[k] . 用原始谱系数减去逆量化后的谱系数 W，得到残差谱系数 E E[k] = X[k] - X[k] . 将残差谱系数分成多个子带，对其中属于子带 c的谱系数除以一个残差谱系数量化步长，取整 (nint)得到量化后的残差；将残差谱系数量化步长和量化后的残差谱系数传输到解码端。

本发明对单声道或立体声进行粗分层，一般仅做 2或 3分层，实现简单可保证更高效率的压缩，无需精细分层技术下的各种限制条件。可通过灵活控制每层声道的质量，获取最佳综合声音质量；易于满足信道编码要求。附图说明

图 1为本发明- -实施例对单声道或立体声进行分层的示意图；

图 2为本发明- -实施例的编码流程示意图；

图 3为本发明- -实施例基于频带的分层结构对音频信号进行分层的示意图；

图 4为本发明一实施例基于声道的分层结构对音频信号进行分层的示意图；

图 5为本发明一实施例基于参数立体声编码的分层结构对音频信号进行分层的示意图；图 6为本发明一实施例的分层结构示意图；

图 7为本发明一实施例基于残差的分层结构对音频信号进行分层的示意图；

图 8为本发明一实施例基本层具有带宽扩展算法时基于残差分层的二层结构示意图；

图 9为本发明一实施例增强层具有带宽扩展算法时基于残差分层的二层结构示意图；

图 10为本发明一实施例基本层有带宽扩展和增强层有带宽扩展修正的基于残差分层的二层吉构示意图；

图 11为本发明一实施例一种对立体声音频信号分层的结构示意图；图 12为本发明一实施例另一种对立体声音频信号分层的结构示意图；图 13为本发明一实施例一种音频分层多层结构示意图；

图 14为本发明一实施例另一种音频分层多层结构示意图；

图 15为本发明一实施例一种音频分层结构示意图；

图 16为本发明一实施例的 dra算法简单示意图；

图 17为本发明一实施例的 DRA核残差编码算法示意图；

图 18为本发明一实施例的立体声音频分层结构示意图。具体实施方式

为详细说明本发明的技术内容、构造特征、所达成的目的及效果，下面将结合实施例并配合附图予以详细说明。

请参阅图 1示出的对单声道或立体声进行分层的示意图及图 2示出的编码流程示意图，本实施例对单声道或立体声进行编码的方法包括：

步骤 Sl、将单声道或立体声音频信号分为一基本层及至少一增强层；步骤 S2、对基本层采用 mp3、 A AC, SBR、 PS和 /或 DRA编码方式编码；步骤 S3、对至少一增强层分别采用 mp3、 A AC, SBR、 PS、 DRA、残差编码、部分参数编码算法和 /或参数编码算法编码。基于上述实施例，本发明给出一系列不同的分层方案。

参照图 3示出的基于频带的分层结构对音频信号进行分层的示意图，本发明基于频带将单声道或立体声音频信号分为一基本层和一增强层，依次从低频到高频将每个频段的音频编码信息放入基本层和增强层。基本层为单声道或立体声的低频编码部分；增强层为单声道或立体声的高频编码部分。

在该分层方案下，高频部分编码可以参与与低频部分同样的算法，或者采用参数方法如带宽扩展算法。基本层一般采用正常的编码算法如 mp3， AAC 或 DRA等，增强层仍可使用正常编码算法、部分参数编码算法如强度立体声、参数编码算法如带宽扩展等。以频带分层方案的优点是保证低频的质量。参照图 4示出的基于声道的分层结构对音频信号进行分层的示意图，本发明基于声道将立体声音频信号分为一基本层和一增强层，基本层传输左声道或和声道；增强层传输右声道或差声道。

在该分层方案下，带宽扩展算法可选择用于任何单个声道，如左声道或和声道，能够改善低码率下的主观声音质量，保证一个宽带的质量。参照图 5示出的基于参数立体声编码的分层结构对音频信号进行分层的示意图，本发明基于参数立体声编码将立体声音频信号分为一基本层和一增强层，基本层传输左右声道缩混的单个声道；增强层传输参数立体声信息。

参照图 6所示的分层结构示意图，在该分层方案下对各层进行编码，基本层的低频带部分可选择使用带宽扩展算法传输左右声道缩混后的单个声道；增强层传输的是参数立体声信息，也可选择传输带宽扩展算法所编码的缩混声道高频部分。该分层方案及编码方案可在低比特率下得到较高的质量。参照图 7示出的基于残差的分层结构对音频信号进行分层的示意图，本发明基于残差分层结构将单声道或立体声音频信号分为一基本层和一增强层。

在该分层结构下，对基本层和增强层编码的步骤包括：

步骤 S21、根据对基本层的码率要求进行编码，将得到的编码数据放入基本层传输；

步骤 S22、将原始音频与基本层解码恢复后的音频比较获取残差信号；步骤 S3 , 对增强层编码的步骤是对残差信号进行编码作为增强层。

具体来说，对单声道或立体声音频编码时，首先根据第一层的码率要求完成正常编码，并将编码后的数据放入基本层中传输；然后将原始音频与基本层解码恢复后的音频比较获取残差信号（可在时域也可在变换域），再对残差信号继续进行编码作为增强层。

进一步的，还可采用多种分层结构对音频信号进行分层。例如参照图 8示出的基本层具有带宽扩展算法时基于残差分层的二层结构示意图；图 9示出的增强层具有带宽扩展算法时基于残差分层的二层结构示意图；以及图 10示出的基本层有带宽扩展和增强层有带宽扩展修正的基于残差分层的二层结构示意图。在图 10示出的结构中，根据增强层低频残差对基本层低频编码部分的补充，获得更准确的低频部分，通过增强层带宽扩展修正参数对基本层带宽扩展参数进行调整以便更好地恢复每个声道的高频部分。还可参照图 11示出的对立体声音频信号分层的情况下，基本层包含编码缩混的声道低频部分编码以及带宽扩展和参数立体声编码信息，增强层传输低频部分的残差编码。参照图 12示出的另一种对立体声音频信号分层情况下，基本层传输缩混的单声道信号的低频部分编码信息，增强层传输低频部分残差编码信息和带宽扩展及参数立体声编码信息。

采用本实施例的残差分层结构，对音频信号进行分层的结构简单，编码效率提高。本发明还提出，除了一基本层和一增强层的二层结构外，还可将音频信号分为一基本层和多个增强层的多层结构。

参照图 13所示一种音频分层多层结构示意图，基于频带将单声道或立体声音频信号分为一基本层、第一增强层和第二增强层，其中基本层为单声道或立体声的低频编码部分；第一增强层为单声道或立体声的中频编码部分；第二增强层为单声道或立体声的高频编码部分。

参照图 14的另一种音频分层多层结构示意图，本发明还可基于残差分层结构将单声道或立体声音频信号分为一基本层、至少一增强层。

在该多层结构下，对基本层编码的步骤 S2包括：

步骤 S21、根据对基本层的码率要求进行编码，将得到的全频带基本质量编码数据放入基本层传输；

步骤 S22、将原始音频与基本层解码恢复后的音频比较，获得第一级残差信号。

而对第一增强层和 /或第二增强层编码的步骤 S3包括：

步骤 S31、对第一级残差信号进行编码作为第一增强层的数据；步骤 S32、从第一增强层编码所输入的第一级残差信号中去除对第一增强层解码恢复的信号，获得第二级残差信号；

步骤 S33、对第二级残差信号进行编码，作为第二增强层的数据；步骤 S34、依次根据上一级残差信号获得下一级残差信号，对下一级残差信号进行编码作为下一级增强层的数据，直至对所有增强层均完成编码。

本发明对音频信号可实现二层、三层或四层及以上分层及编码，一般不超过四层以简化分层及编码过程。此处给出本发明的一个具体示例。参照图 15给出的一种音频分层结构示意图，其中 DRA核编码模块是按照标准 GB/T 22726-2008实现 DRA的标准算法。在本发明中特指单声道和立体声的 DRA编码。其中 dra算法简单示意图如图 16 所示。为了清晰描述本专利，特将解码端也做了简单描述，其中解码端模块见图 16的虚线框图。

本实施例对基本层实现编码的步骤如下：

步骤 S211、在编码端，对时域数据 x[n]做 MDCT变换得到谱系数 X[k] _; 步骤 S212、将频域系数分成多个子带，对其中属于子带 b的谱系数除以一个量化步长；

步骤 S213、对取整 (nint)得到量化后的谱系数 [W 骤 S214、每个量化步长和谱系数 ^X[W通过各种方式传输到解码端 ₍ 在解码端对基本层解码的步骤为：

步骤 S4、用步骤 S214传过来的量化步长和谱系数 W恢复逆量化后的谱系数 f[W

X[k] = A_b - X[k] 步骤 S51、对逆量化谱系数 ^fc ¾_IMDCT得到逆量化的时域数据。上述 SBR编码模块是按照标准 "ISO/IEC 14496-3:2001/Amd.l:2003,

Bandwidth Extension"实现的。在本专利中将 SBR放在基本层中可以在较低码率下得到较高质量。由于 SBR的实现与本专利无关，并且 SBR编码模块是可选的，所以本专利不做具体描述。本发明又提出一示例，基于上述对基本层的编码，对至少一增强层分别编码。本实施例采用的 DRA核残差编码模块如图 16所示的中间模块。由图 17示出的 DRA核残差编码算法示意图可以看到，基本层和图 18的编码端完全一致即完全兼容。其中基本层的实现如上。本实施例至少一增强层编码的实现步骤如下:

在上述基本层步骤 3后增加如下实现增强层的编码步骤包括：

步骤 S311、在编码端，对时域数据 x[n]做 MDCT变换得到谱系数 X[k]_; 步骤 S312、将频域系数分成多个子带，对其中属于子带 b的谱系数除以一水- ：化步长 ; 步骤 S313、对量化歩长取整 (nint)得到量化后的谱系数 W 步骤 S314、将每个量化步长和谱系数 ^]传输到解码端；步骤 S315、用量化歩长和谱系数 ^]恢复逆量化后的谱系数 W X[k] = A_b-X[k], 步骤 S316、用原始谱系数 ^X[W减去逆量化后的谱系数 ]，得到残差谱系数 E[W

E[k] = X[k]-X[k], 步骤 S317、将残差谱系数分成多个子带，对其中属于子带 c的谱系数除以一个残差谱系数量化步长，取整 (nint)得到量化后的残差谱系数骤 S318、将残差谱系数量化步长^和量化后的残差谱系数传输到解

在解码端对至少一增强层分别解码的流程如下：

步骤 S41、用步骤 S214传过来的量化步长和谱系数 ]恢复逆量化后的谱系数 f[W X[k] = A_b - X[k] , 步骤 S42、用步骤 S34传过来的残差谱系数量化步长和量化后残差谱系数恢复逆量化后的残差谱系数

E[k] = A_e - E[k] . 步骤 S43、将步骤 S41得到的逆量化的谱系数 ^]和步骤 S42得到的逆量化的残差谱系数相加得到增强的逆量化谱系数 ^[^^]

X_a [k] = X[k] - E[k] , 步骤 S52、对增强的逆量化谱系数 ^f。^W做 IMDCT得到逆量化的时域数据 x[n]

本发明又提出以总编码码率 48kbps，音频信号以残差分层结构分成两层，每层 24kbps为例详细说明本实施例对基本层和至少一增强层分别编码的实现步骤。

步骤 S201、以 48kbps的编码带宽，用 24kbps编码码率编码基本层，得到 24kbps编码码率的量化步长和量化后的谱系数以及 sbr码流；

步骤 S301、在编码端用量化后谱系数乘以量化步长得到 24kbps编码码率下的逆量化谱系数

步骤 S302、用原始谱系数 ^x W减去逆量化谱系数 ^f W得到残差信号谱系数 E[k] . 步骤 S303、以 24kbps编码码率对残差信号谱系数 ^£[W做量化，量化方法可以和量化一致或相似，得到量化的残差信号的量化步长 ^Δ Ρ量化后的残差谱系数并传输到解码端。本发明还提出，如果仅对立体声进行分层编码，除了用上述实施例外，还可以用下一实施例实现对基本层和至少一增强层的编码。本实施例对比上一实施例的优点是，当立体声总编码码率很低时可以得到更高的质量。

如图 18所示的一种立体声音频分层结构示意图，本实施例将立体声两个声道下混成一个声道并用 PS编码，其中 PS编码是按照标准 ISO/IEC 14496-3:2001/ Amd.2:2004: "Parametric Coding for High Quality Audio"实现的。其中 DRA下混声道编码和图 16的基本层编码原理和步骤相同；和本实施例增强层的编码原理和 DRA下混声道残差编码相同，故不赘述。

本发明的对单声道或立体声进行编码的方法由上述揭露的方法，可以达到所述目的和效果，然而以上所揭露仅为本发明的较佳实施例，自不能以此限定本发明的权利范围，至于本发明的其它等效修饰或变化，均应涵盖在本发明的权利要求范围内。

Claims

权利要求书

1、一种对单声道或立体声进行编码的方法，其特征在于，包括：将单声道或立体声音频信号分为一基本层及至少一增强层；

对所述基本层采用 mp3、 A AC, SBR、 PS和 /或 DRA编码方式编码；对所述至少一增强层分别采用 mp3、 AAC、 SBR、 PS、 DRA、残差编码、部分参数编码算法和 /或参数编码算法编码。
2、根据权利要求 1所述的对单声道或立体声进行编码的方法，其特征在于，所述将单声道或立体声音频信号分为一基本层和一增强层是：

基于频带将单声道或立体声音频信号分为一基本层和一增强层，所述基本层为单声道或立体声的低频编码部分；所述增强层为单声道或立体声的高频编码部分；或

基于声道将立体声音频信号分为一基本层和一增强层，所述基本层传输左声道或和声道；所述增强层传输右声道或差声道；或

基于参数立体声编码将立体声音频信号分为一基本层和一增强层，所述基本层传输左右声道缩混的单个声道；增强层传输参数立体声信息；或

基于残差分层结构将单声道或立体声音频信号分为一基本层和一增强层。
3、根据权利要求 2所述的对单声道或立体声进行编码的方法，其特征在于，对所述基本层和 /或至少一增强层，分别采用带宽扩展算法进行编码。
4、根据权利要求 2所述的对单声道或立体声进行编码的方法，其特征在于，对于基于残差分层结构划分得到的基本层和一增强层分别编码的步骤包括：

根据增强层低频残差对基本层低频编码部分进行补充；

通过增强层带宽扩展修正参数对基本层带宽扩展参数进行调整。 5、根据权利要求 2所述的对单声道或立体声进行编码的方法，其特征在于：

音频信号为立体声的情况下，所述基本层包含编码缩混的声道低频部分进行编码以及带宽扩展和参数立体声编码信息；

所述增强层传输低频部分的残差编码。
6、根据权利要求 2所述的对单声道或立体声进行编码的方法，其特征在于：

音频信号为立体声的情况下，所述基本层传输缩混的单声道信号的低频部分编码信息；

所述增强层传输低频部分残差编码信息和带宽扩展及参数立体声编码信息。
7、根据权利要求 2所述的对单声道或立体声进行编码的方法，其特征在于，所述对基本层编码的步骤包括：

根据对基本层的码率要求进行编码，将得到的编码数据放入基本层传输; 将原始音频与基本层解码恢复后的音频比较获取残差信号；而

所述对所述增强层编码的步骤是对所述残差信号进行编码作为增强层。
8、根据权利要求 1所述的对单声道或立体声进行编码的方法，其特征在于，所述将单声道或立体声音频信号分为一基本层、第一增强层和第二增强层是：

基于频带将所述单声道或立体声音频信号分为一基本层、第一增强层和第二增强层，其中基本层为单声道或立体声的低频编码部分；第一增强层为单声道或立体声的中频编码部分；所述第二增强层为单声道或立体声的高频编码部分。
9、根据权利要求 1所述的对单声道或立体声进行编码的方法，其特征在于，基于残差分层结构将单声道或立体声音频信号分为一基本层、至少一增强层；而

所述对基本层编码的步骤包括：

根据对基本层的码率要求进行编码，将得到的全频带基本质量编码数据放入基本层传输；

将原始音频与基本层解码恢复后的音频比较，获得第一级残差信号；而对所述第一增强层和 /或第二增强层编码的步骤包括：

对所述第一级残差信号进行编码作为第一增强层的数据；

从第一增强层编码所输入的第一级残差信号中去除对所述第一增强层解码恢复的信号，获得第二级残差信号；

对所述第二级残差信号进行编码，作为第二增强层的数据；

依次根据上一级残差信号获得下一级残差信号，对下一级残差信号进行编码作为下一级增强层的数据，直至对所有增强层均完成编码。
10、根据权利要求 1至 9任意一项所述的对单声道或立体声进行编码的方法，其特征在于，对基本层编码的步骤包括：

在编码端，对时域数据 x[n]做 MDCT变换得到谱系数 X[k] _;

将频域系数分成多个子带，对其中属于子带 b的谱系数除以一个量化步长 ;

对量化步长取整 (nint)得到量化后的谱系数 ^f

每个量化步长和谱系数 W传输到解码端。
11、根据权利要求 10所述的对单声道或立体声进行编码的方法，其特征在于，对所述至少一增强层分别编码的步骤包括：

在编码端，对时域数据 x[n]做 MDCT变换得到谱系数 X[k] _;

将频域系数分成多个子带，对其中属于子带 b的谱系数除以一个量化步长 Δ 对量化步长取整 (nint)得到量化后的谱系数 W

每个量化步长和谱系数传输到解码端；

用量化步长和谱系数恢复逆量化后的谱系数 ^f

X[k] = A_b-X[k], 用原始谱系数 ^XW减去逆量化后的谱系数 ^^]，得到残差谱系数 ^£W E[k] = X[k]-X[k]. 将残差谱系数 ^£[W分成多个子带，对其中属于子带 c的谱系数除以一个残

；谱系数量化步长 ^Δ«，取整 (nint)得到量化后的残差谱系数