CN109801639A

CN109801639A - 一种符合ac-3格式的全景声信号的编解码方法

Info

Publication number: CN109801639A
Application number: CN201711140755.1A
Authority: CN
Inventors: 潘兴德; 吴超刚
Original assignee: Panorama Technology Nanjing Co Ltd
Current assignee: Beijing panoramic sound information technology Co.,Ltd.
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2019-05-24
Anticipated expiration: 2037-11-16
Also published as: CN109801639B

Abstract

本发明公开一种符合AC‑3格式的全景声信号的编解码方法，包括如下步骤：将全景声信号划分为全景声扩展数据和基础声道；将全景声扩展数据进行编码得到全景声扩展码流；将基础声道采用AC‑3编码方法进行编码，并将全景声扩展码流作为填充数据填入到填充位skipfield，得到符合AC‑3格式的全景声音频节目码流；解码时，从符合AC‑3码流格式的全景声码流中解码得到基础声道信号并恢复出全景声扩展码流，解码全景声扩展码流恢复出全景声信息。本发明实现了兼容已有的环绕声系统，并具备全景声的处理和呈现能力。

Description

一种符合AC-3格式的全景声信号的编解码方法

技术领域

本发明属于全景声信号编解码处理技术领域，具体涉及一种符合AC-3格式的全景声信号的编解码方法。

背景技术

经过多年发展，立体声、5.1、7.1环绕声等系统已经获得了广泛的应用，这些系统因缺乏声音的高度信息，最多只能呈现二维的声音。在真实的世界中，全景声(也称三维声)是声音最真实的呈现和表达方式，无论自然界、艺术领域或视听娱乐领域，全景声都是未来的发展趋势。

在现有的系统中，全景声可以是多声道信号(如9.1、11.1、13.1和22.2等)，可以是多个声音对象，也可以是两者的组合。在全景声系统中，多声道信号可以是环绕声信号，如5.1、7.1等，也可以是多层多声道信号(即多层声道信号分布在不同高度平面)。例如，有些全景声系统采用中间层及顶层的两层平面，有些全景声系统采用三层系统等。有些全景声系统只有多层多声道信号，但没有声音对象，例如SMPTE的22.2三维声系统和AURO 9.1系统等。有些全景声系统则既有多层多声道信号，也有声音对象，例如MPEG-H、Dolby Atmos和WANOS系统。当然，作为一个极端的例子，全景声也可以全部是声音对象信号。在全景声系统中，声音对象由声音对象波形数据、声音对象渲染信息(也称元数据或metadata)组成，具体可以参考ATMOS、WANOS、AVS2-P3或MPEG-H等相关的技术文献。

全景声作为刚刚出现的新技术和系统，还没有获得广泛的应用，其推广需要一个很长的发展阶段。因立体声、环绕声系统的普遍存在，全景声系统只有最大限度的兼容已经普遍存在的立体声或环绕声系统，例如应用广泛的AC-3环绕声系统(ATSC标准A52/A:Digital Audio Compression Standard(AC-3),修订版A,先进电视系统委员会,2001年8月20日)，才能获得市场的快速接受，并逐步成为主流。

发明内容

发明目的：本发明目的在于针对现有技术的不足，提供一种符合AC-3格式的全景声信号的编解码方法，该方法可以更好兼容已有的环绕声系统，同时具备全景声的处理和呈现能力。特别的，采用本发明方法所获得的符合AC-3格式的全景声音频节目码流，可以在任何支持AC-3格式的软件和硬件系统解码，并提供立体声或环绕声节目；在支持全景声格式的软件和硬件系统中，可以从本发明方法所获得的符合AC-3格式的全景声音频节目码流解码获得全景声节目。

技术方案：本发明所述符合AC-3格式的全景声信号的编码方法，包括如下步骤：

(1)将全景声信号划分为全景声扩展数据和基础声道；

(2)将全景声扩展数据进行编码得到全景声扩展码流；

(3)将基础声道采用AC-3编码方法进行编码，并将全景声扩展码流作为填充数据填入到填充位skipfield，得到符合AC-3格式的全景声音频节目码流。

进一步完善上述技术方案，所述全景声扩展数据包括声道数据、声音对象波形数据、声音对象渲染信息中的一种或多种。

本发明还提供了符合AC-3格式的全景声信号的下混兼容编码方法，包括如下步骤：

(31)按照下混策略，将全景声扩展数据下混到基础声道，得到下混基础声道；

(32)将全景声扩展数据进行编码，得到全景声扩展码流；

(33)采用AC-3编码方法对下混基础声道进行编码，编码过程中将全景声扩展码流填入到填充位skipfield，得到符合AC-3码流格式的全景声音频节目码流。

以及另一种符合AC-3格式的全景声信号的下混兼容编码方法，包括如下步骤：

(41)将全景声信号划分为全景声扩展数据和基础声道；

(42)将全景声扩展数据进行编码，得到全景声扩展码流，并对全景声扩展数据码流进行解码得到解码的全景声扩展数据；

(43)按照下混策略，将解码的全景声扩展数据下混到基础声道，得到下混基础声道；

(44)采用AC-3编码方法对下混基础声道进行编码，编码过程中将全景声扩展码流填入入到码流的填充位skipfield，得到符合AC-3码流格式的全景声音频节目码流。

上述编码方法所得全景声音频节目码流的全景声信号的解码方法，包括如下步骤：

(51)对全景声音频节目码流进行解码，得到解码的基础声道，并将填充位skipfield进行组合，得到全景声扩展码流；

(52)对全景声扩展码流进行解码，得到解码的全景声扩展数据；

(53)对解码的基础声道与全景声扩展数据进行组合，得到解码的全景声音频节目。

上述下混兼容编码方法所得全景声音频节目码流的全景声信号的解码方法，包括如下步骤：

(61)对全景声音频节目码流进行解码，得到解码的下混基础声道，并从填充位skipfield中恢复全景声扩展码流；

(62)对全景声扩展码流进行解码，得到解码的全景声扩展数据；

(63)对解码的下混基础声道进行去下混，得到解码的基础声道，解码的基础声道与解码的全景声扩展数据进行组合，得到解码的全景声音频节目。

有益效果：本发明提供的全景声信号的解码方法，将包含全景声信息的全景声扩展码流嵌入到AC-3码流中的填充字段skipfield中，得到符合AC-3码流格式的全景声码流；解码时，从符合AC-3码流格式的全景声码流中解码得到基础声道信号并恢复出全景声扩展码流，解码全景声扩展码流恢复出全景声信息，从而实现了兼容已有的环绕声系统，并具备全景声的处理和呈现能力；且方案灵活，适用于包括声道数据、声音对象波形数据、对象渲染信息的一种或多种的全景声扩展数据。

附图说明

图1为AC-3码流结构的示意图；

图2为实施例1的方法框图；

图3为实施例2的方法框图；

图4为实施例3的方法框图；

图5为实施例4的方法框图；

图6为实施例5的方法框图；

图7为实施例6的方法框图；

图8为实施例7的方法框图。

具体实施方式

下面通过附图对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：将全景声节目中与所要兼容的环绕声系统相一致的声道称为基础声道，将不包含在环绕声系统中的声道(如顶置声道)、声音对象波形数据及声音对象渲染信息称为全景声扩展数据，全景声扩展数据可以包括不包含在环绕声系统中的声道数据、声音对象波形数据、声音对象渲染信息的一种或多种。

如图2所示的符合AC-3码流格式的5.1.2全景声节目的编码方法，包括如下步骤：

(1)将全景声音频的顶置声道(.2)进行编码得到全景声扩展码流；

顶置声道(.2)的编码器可以是任何一种可行的编码，例如AAC系列编码器、AVS编码器、AC3等，因AC-3码流填充位skipfield的限制，优选高效率编码器。

(2)对全景声音节目中的5.1基础声道采用AC-3的编码方式进行编码,并将全景声扩展码流作为填充数据填入到填充位skipfield，得到全景声音频的AC-3码流。图1是AC-3码流结构的示意图，表1是AC-3码流中填充字段skipfield的语法结构。

表1AC-3码流中skipfield的语法结构

实施例2：如图3所示符合AC-3码流格式的5.1.2全景声节目的解码方法，包括如下步骤：

(1)对全景声音频的AC-3码流进行解码，得到解码的AC-3 5.1声道信号，并将填充位skipfield进行组合，得到全景声扩展码流；

(2)对全景声扩展码流进行解码，得到解码的全景声扩展数据；

(3)将解码的AC-3 5.1声道信号与全景声扩展数据进行组合，得到解码的全景声音频节目。

实施例3：如图4所示符合AC-3码流格式的5.1.2和4个声音对象全景声节目的编码方法，包括如下步骤：

(1)将全景声音频的顶置声道(.2)和4个声音对象进行编码得到全景声扩展码流；

(2)对全景声音节目中的5.1声道采用AC-3的编码方式进行编码,并将全景声扩展码流作为填充数据填入到填充位skipfield，得到全景声音频的AC-3码流。

实施例4：如图5所示符合AC-3码流格式的5.1.2和4个声音对象全景声节目的解码方法，包括如下步骤：

(2)对全景声扩展码流进行解码，得到解码的全景声扩展数据(顶置声道(.2)和4个声音对象)；

(3)将解码的AC-3 5.1声道信号与全景声扩展数据顶置声道(.2)和4个声音对象)进行组合，得到解码的全景声音频节目。

实施例5：如图6所示符合AC-3码流格式的5.1.2全景声节目的下混兼容编码方法，包括如下步骤：

(1)按照下混策略，将顶置声道信号下混到基础声道，得到下混的基础声道信号。

下混策略可以是任何一种合理的下混方法，比如一种可能的策略是：左顶信号下混到左声道，右顶信号下混到右声道，后左顶信号下混到后左声道，后右顶信号下混到后右声道。

(2)采用AC-3编码方法对顶置声道进行编码，得到顶置声道码流；

(3)采用AC-3编码方法对下混基础声道进行编码，编码过程中将顶置声道码流嵌入到码流的填充位skipfield部分，得到符合AC-3码流格式的全景声音频节目码流。

实施例6：如图7所示符合AC-3码流格式的5.1.2全景声音频节目的下混兼容解码方法，包括如下步骤：

如果是普通的AC3解码器则对符合AC-3码流格式的全景声音频节目码流，得到解码的基础声道信号；如果是全景声解码器则：

(1)对符合AC-3码流格式的全景声音频节目码流进行解码，得到解码的下混基础声道信号，并从skipfield部分中恢复顶置声道码流；

(2)对顶置声道码流进行解码，得到解码的顶置声道信号；

(3)对解码的下混基础声道信号进行去下混，得到解码的基础声道信号，解码的基础声道信号与解码的顶置声道信号构成解码的全景声节目；去下混是下混的逆过程。

实施例7：如图8所示符合AC-3码流格式的全景声音频节目的下混兼容编码方法，包括如下步骤：

(1)采用AC-3编码方法对顶置声道进行编码，得到顶置声道码流，并对顶置声道码流进行解码得到解码的顶置声道信号；

(2)按照下混策略，将解码的顶置声道信号下混到基础声道，得到下混的基础声道信号。

一种可能的策略，左顶信号下混到左声道，右顶信号下混到右声道，后左顶信号下混到后左声道，后右顶信号下混到后右声道。

(3)采用AC-3编码方法对下混基础声道进行编码，编码过程中将顶置声道码流嵌入到码流的skipfield部分，得到符合AC-3码流格式的全景声音频节目码流。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.一种符合AC-3格式的全景声信号的编码方法，其特征在于，包括如下步骤：

（1）将全景声信号划分为全景声扩展数据和基础声道；

（2）将全景声扩展数据进行编码得到全景声扩展码流；

（3）将基础声道采用AC-3编码方法进行编码，并将全景声扩展码流作为填充数据填入到填充位skipfield，得到符合AC-3格式的全景声音频节目码流。

2.根据权利要求1所述符合AC-3格式的全景声信号的编码方法，其特征在于：所述全景声扩展数据包括声道数据、声音对象波形数据、声音对象渲染信息中的一种或多种。

3.一种符合AC-3格式的全景声信号的下混兼容编码方法，其特征在于，包括如下步骤：

（31）按照下混策略，将全景声扩展数据下混到基础声道，得到下混基础声道；

（32）将全景声扩展数据进行编码，得到全景声扩展码流；

（33）采用AC-3编码方法对下混基础声道进行编码，编码过程中将全景声扩展码流填入到填充位skipfield，得到符合AC-3码流格式的全景声音频节目码流。

4.一种符合AC-3格式的全景声信号的下混兼容编码方法，其特征在于，包括如下步骤：

（41）将全景声信号划分为全景声扩展数据和基础声道；

（42）将全景声扩展数据进行编码，得到全景声扩展码流，并对全景声扩展码流进行解码得到解码的全景声扩展数据；

（43）按照下混策略，将解码的全景声扩展数据下混到基础声道，得到下混基础声道；

（44）采用AC-3编码方法对下混基础声道进行编码，编码过程中将全景声扩展码流填入到码流的填充位skipfield，得到符合AC-3码流格式的全景声音频节目码流。

5.一种用于权利要求1所述编码方法所得全景声音频节目码流的全景声信号的解码方法，其特征在于，包括如下步骤：

（51）对全景声音频节目码流进行解码，得到解码的基础声道，并将填充位skipfield进行组合，得到全景声扩展码流；

（52）对全景声扩展码流进行解码，得到解码的全景声扩展数据；

（53）对解码的基础声道与全景声扩展数据进行组合，得到解码的全景声音频节目。

6.一种用于权利要求3或4所述编码方法所得全景声音频节目码流的全景声信号的解码方法，其特征在于，包括如下步骤：

（61）对全景声音频节目码流进行解码，得到解码的下混基础声道，并从填充位skipfield中恢复全景声扩展码流；

（62）对全景声扩展码流进行解码，得到解码的全景声扩展数据；

（63）对解码的下混基础声道进行去下混，得到解码的基础声道，解码的基础声道与解码的全景声扩展数据进行组合，得到解码的全景声音频节目。