CN106375778A

CN106375778A - 一种符合数字电影规范的三维音频节目码流传输的方法

Info

Publication number: CN106375778A
Application number: CN201610668358.0A
Authority: CN
Inventors: 潘兴德; 吴超刚; 陈笑天
Original assignee: NANJING QINGJIN INFORMATION TECHNOLOGY Co Ltd
Current assignee: Beijing panoramic sound information technology Co.,Ltd.
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2017-02-01
Anticipated expiration: 2036-08-12
Also published as: CN106375778B

Abstract

本发明公开了一种符合数字电影技术规范（DCP）的三维音频节目码流传输的方法，包括：音频流转换：根据原始三维音频节目的声道数、声音对象数和格式信息来确定封装音频文件的声道数和格式信息；生成标识帧结构和格式信息的原始音频边信息；按照确定的封装音频文件格式输出封装音频文件；DCP打包；DCP解码；音频流逆转换，接收封装音频流数据，从所确定的原始音频边信息通路中搜索封装音频标识符，若找到，则判断为封装音频格式，该位置为封装音频帧结构的开始，根据边信息从接收到的音频数据中恢复出原始音频数据；音频处理和播放。本发明在能支持新的三维音频格式的前提下，仍能保证对传统的音频节目源（如5.1或7.1）的正确播放。

Description

一种符合数字电影规范的三维音频节目码流传输的方法

技术领域

本发明涉及数字电影音频的传输方法，具体涉及一种符合数字电影规范的三维音频节目码流传输的方法。

背景技术

目前大部分数字电影播放服务器符合好莱坞主导制定的数字电影技术规范(DCI规范)。DCI规范要求数字电影播放系统的音频子系统支持24比特采样精度，16声道、采样率为48kHz或96kHz的音频文件，特别要支持常见的5.1声道和7.1声道的数字电影音频文件，同时能实现两种采样率的灵活切换。

随着技术和需求的发展，电影音频技术已经从环绕声技术进入到沉浸式三维音频的新时代，杜比的Atoms全景声、Auro-3D三维声、DTS：X临境音、中国的WANOS全景声技术和中国多维声等都已经突破了7.1声道的限制，需要传输和呈现更多声道的音频数据。其中，Atmos和WANOS全景声技术在多声道的基础上，增加了大量的同步声音对象(即含有声音波形、声音运动轨迹和运动特性等的声音信号)，以获得更好的听觉体验。

目前，大部分数字电影播放服务器最多支持到16个声道，无法播放更多声道的节目源，这对新的数字电影音频技术和格式的应用造成了巨大障碍。一方面，制定和形成新的支持三维音频的数字电影播放技术规范需要时间，难以满足不断涌现的新的三维音频技术的发展需要，另一方面，将现有的数字电影播放服务器进行技术升级和替换，需要支付高昂成本且造成已有投资的浪费。

而在很多三维音频(如WANOS、Atmos全景声)应用中，音频节目所包含的声道数通常多于16声道，并可能包含多个同步声音对象，此时，三维音频节目无法在目前常用的影院播放服务器上进行播放。DCI规范规定音频数据从打包、发行到存储都必须保持没有压缩的PCM格式，即制作端的音频文件中的数据与播放端数字电影播放服务器输出的音频流数据是一致的。

发明内容

发明目的：针对现有技术的不足，本发明提供一种符合数字电影规范的三维音频节目码流传输的方法，在能支持新的三维音频格式的前提下，仍能保证对5.1或7.1音频节目源的正确播放。

技术方案：本发明所述符合数字电影规范的三维音频节目码流传输的方法，包括如下步骤：

(1)音频流转换：根据原始三维音频节目的声道数、声音对象数和格式信息来确定封装音频文件的声道数和格式信息；生成标识帧结构和格式信息的原始音频边信息；将原始音频、封装音频按照时间长度分为若干帧进行处理，对于每一帧，从原始三维音频节目中读取该帧原始音频数据，映射到封装音频文件中所对应的该帧数据中，当原始音频数据所需的比特数少于其所映射到的封装音频文件中所对应的该帧数据的比特数时，将空余部分填零，其中原始音频边信息被映射到封装音频文件该帧中的原始音频边信息通路；按照确定的封装音频文件格式输出封装音频文件；

(2)DCP打包：将封装音频文件与视频文件、文本文件、播放列表文件一起进行打包，生成符合DCI规范的DCP(Digital Cinema Package)包；

(3)DCP解码：对DCP包进行处理，解码其中的视频、音频数据，并通过数字接口将封装音频流数据输出；

(4)音频流逆转换：接收封装音频流数据，从所确定的原始音频边信息通路中搜索封装音频标识符，若找到，则判断为封装音频格式，该位置为封装音频帧结构的开始，根据边信息从接收到的封装音频流数据中恢复出原始音频数据，执行步骤(51)，若没有找到封装音频标识符，则直接执行步骤(52)；

(51)音频处理和播放：对封装音频流进行解码、处理，按照原始音频的采样率、声道数、声音对象和设定的声场进行播放；

(52)音频处理和播放：按照通用的数字电影音频处理过程对封装音频流数据进行播放。

进一步完善上述技术方案，所述步骤(1)中首先判断原始三维音频节目是否能够通过符合DCI规范的音频文件进行传输，如果原始音频数据所需比特数大于其所映射到的封装音频文件中所对应的该帧数据的比特数时，对原始三维音频节目进行压缩编码，使编码后的码率低于封装音频文件的码率。

进一步地，所述生成标识帧结构和格式信息的原始音频边信息包括封装音频标识符、原始音频格式信息、原始音频采样率、原始音频声道数、声道-通路映射信息。

进一步地，所述封装音频标识符为用于标识封装音频的字符串。

进一步地，所述三维音频节目从内容包括多声道节目、多个声道和多个声音对象的节目、多个声音对象的音频节目；所述三维音频节目从数据形式上包括一个音频文件或压缩码流文件，一组文件的集合，实时传输的音频流数据。

进一步地，当所述三维音频节目为多声道节目时，所述步骤(1)中每帧原始三维音频节目至少包含N1*M1个字的信息，N1为声道数，M1＝frame_t*samplerate1、frame_t为帧长、samplerate1为采样频率，每帧编码的边信息数据长度为M3个字，待传输的一帧原始音频信息为N1*M1+M3个字；当所述三维音频节目为多个声道和多个声音对象的节目时，每帧原始三维音频节目至少包含NA3个字的信息，每帧编码的边信息数据长度为M3，待传输的一帧原始音频信息为NA3+M3个字；对于封装音频文件整个通路的传输能力为每帧N2*M2个字，N2个声道的数据以dataout[i][j](0≤i≤N2-1,0≤j≤M2-1)表示，M2＝frame_t*samplerate2，samplerate2为采样频率、frame_t为帧长。

进一步地，当所述三维音频节目为多声道节目时，将每帧待传输的原始音频数据和原始音频边信息N1*M1+M3个字映射到封装音频文件中并填充N2*M2-(N1*M1+M3)个字；或将原始音频数据进行压缩编码，组织成N4个字的压缩码流streamin[j]，将压缩码流的数据映射到封装音频文件中。

进一步地，当所述三维音频节目为多个声道和多个声音对象的节目时，需要传输的数据每帧为NA3+M3个字，将一帧中原始音频数据、原始音频边信息映射到封装音频文件数据的方法包括直接将每帧需要传输的原始音频数据NA3个字和边信息M3个字直接加以组织并映射封装音频文件所对应的本帧数据中占用N2*M2个字中的NA3+M3个，并填充N2*M2-(NA3+M3)个字；或将原始文件数据进行压缩编码，组织成N4个字的压缩码流streamin[j]，将压缩码流的数据映射到封装音频文件中。

进一步地，当所述三维音频节目为多个声道和多个声音对象的节目时，将每帧待传输的原始音频数据和原始音频边信息NA3+M3个字映射到封装音频文件中并填充N2*M2-(NA3+M3)个字；或将原始文件数据进行压缩编码，组织成N5个字的压缩码流映射到封装音频文件中。

进一步地，当所述三维音频节目为音频文件或压缩码流时，将一帧数据按内容分块，将封装音频文件中的两个或两个以上声道组合为复合通路，将原始音频数据的全部或一个分块或原始音频边信息映射到该复合通路；或将封装音频文件中的一个声道分为两个或两个以上子通路，将原始音频数据的全部或一个分块或原始音频边信息映射到任一子通路。

进一地，当所述三维音频节目为包含声音对象的三维音频节目或三维音频压缩码流时，一帧原始音频包括三维音频的基础多声道数据、对象波形数据和声音轨迹信息，对一帧三维音频的码流数据分块，基础多声道数据作为第一个分块，对象波形数据作为第二个分块，帧头信息和声音轨迹信息作为第三个分块添加到原始音频边信息中、作为边信息的一部分，将边信息映射到特定的组合通路或通路，不足的部分补零。

有益效果：与现有技术相比，本发明的优点：本发明提出了一种通过现有数字电影音频传输通路进行三维音频(包括全景声、沉浸声、临境音等)节目码流传输的方案，能在符合现有的数字电影系统技术规范的前提下进行全景声电影的制作、发行、播放和呈现。该方案在能支持新的三维音频格式的前提下，仍能保证对传统的音频节目源(如5.1或7.1)的正确播放。

附图说明

图1为在数字电影中支持三维音频节目的原理框图；

图2为数字电影中的音频处理示意图；

图3为音频流转换的处理流程示意图。

具体实施方式

下面对本发明技术方案进行详细说明。

如图1、图2所示的音频处理过程如下：三维音频节目进行音频流转换后生成封装音频文件，在制作端，封装音频文件与视频文件、播放列表文件进行DCP(Digital CinemaPackage)打包，DCP打包通过数字电影母带文件进行发行和存储，数字电影播放服务器对数字电影母带文件处理得到视频流和封装音频流，音频处理器在播放端对封装音频流进行音频流逆转换得到音频流后对其进行解码得到三维音频节目流，再对三维音频节目流进行解码、处理和播放从而输出音频信号。

在制作过程中：

1)音频流转换：将原始三维音频节目进行格式转换，生成符合DCI技术规范的封装音频文件。

2)DCP打包：将封装音频文件与视频文件、文本文件、播放列表文件等一起进行打包，生成符合DCI规范的DCP包，这一部分与目前行业内通用的处理过程一致。

播放过程中：

1)DCP解码：数字电影播放服务器对DCP包进行处理，解码其中的视频、音频等数据，并通过数字接口将音频流数据输出，该封装音频流所含数据与前述封装音频文件中的数据保持一致。

2)音频流逆转换：音频处理器接受到音频流数据后，对其进行逆转换，得到解码的三维音频节目流。

3)音频处理和播放：音频处理器对解码的三维音频节目流进行解码、处理(如渲染、缩混、均衡和分频等)和播放。

在上述过程中音频流转换、音频流逆转换、音频处理和播放(在音频处理器中进行)是本发明不同于传统方案的主要之处。

音频流转换模块将原始的三维音频节目(即原始音频)进行格式转换，生成符合DCI技术规范的封装音频(即目标音频)文件，如图3所示，其具体处理过程如下：

11)对该三维音频节目是否可以通过符合DCI规范的音频文件传输的判断。

12)如果封装音频文件的码率低于原始的三维音频节目的码率，此时，为实现对三维音频节目的传输，需要在音频流转换中进行压缩编码，以实现对原始三维音频节目的压缩编码，使编码后的码率低于封装音频文件的码率，根据压缩率的要求，可以采用无损音频压缩或有损音频压缩技术；其中，有损压缩如AAC、AVS、MP3、AC3和OGG Vorbis等编码技术，无损压缩如FLAC、APE、MPEG LS、AVS LS等编码技术。

13)根据原始的三维音频节目的声道数、声音对象数和格式信息(采样率、采样精度等)来确定封装音频文件的声道数、采样率等格式信息，封装音频文件的码率应不低于原始的三维音频节目的码率，三维音频节目的码率是其包含的所有声道、音频对象、对象位置信息等的码率之和。

14)生成标识帧结构和格式信息的原始音频边信息，这其中包括封装音频标识符、原始音频格式信息、原始音频采样率、原始音频声道数、声道-通路映射信息等；

封装音频标识符：用来标识封装音频的字符串，即本发明所述的处理方式，如可以0xAA55FF005AA5F00F为标识符，也可以为任何类似的特定标识；

原始音频格式信息：原始音频文件的格式，可能是未压缩的PCM流或某种压缩流；

原始音频采样率：原始音频流的采样率；

原始音频声道数：原始音频所包含的声道个数；

声道-通路映射信息：封装音频文件中的数据可被划分为若干个分组，每个分组被称为一个“通路”，声道-通路映射信息标识了原始音频的各声道、音频对象的数据在封装音频文件中的位置，该信息可以没有也可以有，生成的封装音频文件中除了包含原始音频的数据，也包括关于原始音频的格式信息。

15)将原始音频、封装音频按照一定的时间长度分为若干帧进行处理，对于每一帧，从原始的三维音频节目中读取该帧原始音频数据(所包括的各个声道、音频对象的数据及原始音频边信息)映射到封装音频文件中所对应的该帧数据中，当映射原始音频数据所需的比特数少于封装音频文件中所对应的该帧数据的比特数时，将空余部分填零；其中，原始音频边信息被映射到封装音频文件该帧数据中的特定的位置中，以利于在播放端解析出帧结构，这些特定的位置被称作原始音频边信息通路。

16)按照确定的封装音频文件的格式输出封装音频文件。

音频流逆转换从数字电影播放服务器接受到封装音频流数据后，对其进行逆转换，得到解码的三维音频节目流，其具体处理过程如下：

21)封装音频格式判断和帧结构解析：从数字电影播放服务器接收到封装音频流数据，从所确定的原始音频边信息通路中搜索封装音频标识符，若找到，则判断为封装音频格式，该位置为封装音频帧结构的开始，也是一帧数据的开始。

22)若不是封装音频格式，则转入到音频处理和播放；若是封装音频格式，则解析出边信息，并根据边信息从接收到的音频数据中恢复出原始音频数据。

音频处理和播放：从音频流逆转换接收解码的三维音频节目流，如果是封装音频格式，则对其进行解码、音频对象渲染等处理，并按照原始音频的采样率、声道数和设定的声场进行播放；否则，与通用的影院音频处理过程一致。

从内容上看，“三维音频节目”可以包括：(1)多声道节目；(2)多个声道和多个声音对象的节目；(3)多个声音对象的音频节目；从数据形式上看，可以是一个音频文件或压缩码流文件，也可以是一组文件的集合，也可以是实时传输的音频流数据。

在音频流转换中，首先要计算原始三维音频节目的码率大小，以及该三维音频节目是否可以通过符合DCI规范的音频文件传输，具体计算方法如下：

1.对于包含多声道数据的原始音频，可将原始音频数据按照时间片断划分为一系列连续的帧，设每帧帧长为frame_t毫秒，以采样精度bitresolution个比特为一个字word，采样频率为samplerate1赫兹。则对于原始音频文件，每帧中每个声道包含M1＝frame_t*samplerate1个样点，所有N1个声道的PCM数据以datain[i][j](0≤i≤N1-1,0≤j≤M1-1)表示，则一帧原始文件至少包含N1*M1个字的信息。

2.当原始三维音频节目中除了多个声道外(如N1个)，还包含多个声音对象(如NO1个)，此时，还需要再进一步的加上声音对象的信息，声音对象的编码方法可以参考Atmos、WANOS、AVS2-P3等技术的表示方法，假设包含声音对象的原始三维音频节目中一帧数据至少包含NA3个字的信息。

3.对于封装音频文件，因要符合DCI规范对声道数(不高于16)、采样率(48千赫兹或96千赫兹)和位精度(24比特)的要求，若采样频率为samplerate2赫兹，每帧帧长仍为frame_t毫秒，每帧中每个声道包含M2＝frame_t*samplerate2个样点，所有N2个声道的数据以dataout[i][j](0≤i≤N2-1,0≤j≤M2-1)表示；此时整个通路的传输能力为每帧N2*M2个字。

4.假设音频流转换模块中每帧编码的边信息数据sideinfo[j]的长度为M3(以字为单位)，此时，待传输的一帧原始音频信息为N1*M1+M3(多声道音频)或NA3+M3(多声道音频+声音对象)个字。

对于包含多个声道的音频节目，需要传输的数据为每帧N1*M1+M3个字，将一帧中原始音频数据、边信息流映射到封装音频文件数据的方法可以有多种，可以将每帧需要传输的原始音频数据(N1*M1个字)和边信息(M3个字)直接加以组织并映射封装音频文件所对应的本帧数据中(占用N2*M2个字中的N1*M1+M3个)，并填充N2*M2-(N1*M1+M3)个字；也可以将原始音频数据进行压缩编码，组织成N4个字的压缩码流streamin[j]，将压缩码流的数据映射到封装音频文件中。

对于除多个声道外(如N1个)，还包含多个声音对象的音频节目，需要传输的数据每帧为NA3+M3个字。将一帧中原始音频数据、边信息流映射到封装音频文件数据的方法可以有多种，可以直接将每帧需要传输的原始文件数据(NA3个字)和边信息(M3个字)直接加以组织并映射封装音频文件所对应的本帧数据中(占用N2*M2个字中的NA3+M3个)，并填充N2*M2-(NA3+M3)个字；也可以将原始文件数据进行压缩编码，组织成N5个字的压缩码流streamin[j]，将压缩码流的数据映射到封装音频文件中。

对于以上所述操作，可以将原始音频文件或压缩码流的一帧数据进行分块，对每一分块数据各自进行映射到封装音频文件的操作，如按照所含数据内容的不同分为多声道数据分块、声音对象数据分块、声音对象位置信息分块等；可以将封装音频文件中的2个或多个声道组合为一个复合通路，将原始音频文件的数据的全部或一个分块或边信息映射到这一复合通路；可以将封装音频文件中的一个声道分为两个或多个子通路，将原始音频文件的数据的全部或一个分块或边信息映射到某一子通路，等等。

实施例1：当原始的三维音频节目为未压缩的PCM流数据时，音频流转换模块的具体步骤如下：

步骤1)对封装音频文件的声道通路进行子通路划分。若封装音频文件采样率是原始音频文件采样率的X倍，如X＝2，则可将每个输出通道划分为X个子通路，每个子通路含有整个输出通路的部分数据，整个N2个声道被划分为N2*X个子通路subdataout[i][j](0≤i≤N2*X-1,0≤j≤M1-1)。例如，子通路的数据与输出通路数据的关系可以是：

s u b d a t a o u t [i] [j] = = d a t a o u t [\frac{i}{X}] [X * j + (i % X)], (0 \leq i \leq N 2 * X - 1, 0 \leq j \leq M 1 - 1)

或者

s u b d a t a o u t [i] [j] = = d a t a o u t [\frac{i}{X}] [j + (i % X) * M 2], (0 \leq i \leq N 2 * X - 1, 0 \leq j \leq M 1 - 1)

步骤2)选择某一输出通路或子通路或某Y1个输出通路的复合通道groupdataout[i][j]作为传输边信息的通路。例如，将第startX到第startX+Y1-1输出通路作为一个复合通路，其对应关系可以是：

g r o u p d a t a o u t [i] [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X] [j % M 2], (i = 1, 1 \leq j \leq M 2 * Y 1)

或者

groupdataout[i][j]＝＝dataout[j％Y1+startX][j/Y1],(i＝1,1≤j≤M2*Y1)

步骤3)将边信息映射到特定的通路或子通路或复合通路k1(如k1＝0)，不足的部分补零。

s i d e d a t a o u t [j] = s u b d a t a o u t [k 1] [j] = \{\begin{matrix} s i d e \inf o [j], (0 \leq j \leq M 3 - 1) \\ 0, (M 3 \leq j \leq M 1 - 1) \end{matrix}

步骤4)将原始音频文件的某一路数据datain[i][j]映射到选定的子通路k2。

subdataout[k2][j]＝datain[i][j]，(0≤i≤N1-1,0≤j≤M1-1)。

实施例2：当原始的三维音频节目为某种格式的压缩码流数据时，

步骤1)选择某Y1个输出通路作为传输压缩码流的复合通道groupdataout[k2][j]。例如，将第startX到第startX+Y1-1输出通路作为一个复合通路，其对应关系可以是：

g r o u p d a t a o u t [k 2] [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X] [j % M 2], (0 \leq j \leq M 2 * Y 1 - 1)

或者

g r o u p d a t a o u t [k 2] [j] = = d a t a o u t [j % Y 1 + s t a r t X] [\frac{j}{Y 1}], (0 \leq j \leq M 2 * Y 1 - 1)

步骤2)选择特定的输出通路或者某Y2个输出通路的复合通道sidedataou[j]作为传输边信息的通路。例如，将第startX到第startX+Y2-1输出通路作为一个复合通路，其对应关系可以是：

s i d e d a t a o u t [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X] [j % M 2], (0 \leq j \leq M 2 * Y 2 - 1)

或者

s i d e d a t a o u t [j] = = d a t a o u t [j % Y 2 + s t a r t X] [\frac{j}{Y 2}], (0 \leq j \leq M 2 * Y 2 - 1)

步骤3)将边信息映射到特定的组合通路或通路sidedataout，不足的部分补零。

s i d e d a t a o u t [j] = \{\begin{matrix} s i d e \inf o [j], (0 \leq j \leq M 3 - 1) \\ 0, (M 3 \leq j \leq M 1 - 1) \end{matrix}

步骤4)将压缩码流数据stramin[j]映射到复合通路sidedataou[j]，不足部分补零。

实施例3：当原始的三维音频节目为PCM数据，采用先将其进行压缩编码，然后选用与实施例2相同的方式进行处理，其具体步骤如下：

步骤1)将PCM数据压缩为一帧压缩码流streamin[j](0≤j≤N4-1)。

步骤2)选择某Y1个输出通路作为传输压缩码流的复合通道groupdataout[j]，例如，将第startX到第startX+Y1-1输出通路作为一个复合通路，其对应关系可以是：

g r o u p d a t a o u t [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X] [j % M 2], (0 \leq j \leq M 2 * Y 1 - 1)

或者

g r o u p d a t a o u t [j] = = d a t a o u t [j % Y 1 + s t a r t X] [\frac{j}{Y 1}], (0 \leq j \leq M 2 * Y 1 - 1);

步骤3)选择特定的输出通路某Y1个输出通路的的复合通道sidedataout[j]作为传输边信息的通路，例如，将第startX到第startX+Y1-1输出通路作为一个复合通路，其对应关系可以是：

s i d e d a t a o u t [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X] [j % M 2], (0 \leq j \leq M 2 * Y 1 - 1)

或者

s i d e d a t a o u t [j] = = d a t a o u t [j % Y 1 + s t a r t X] [\frac{j}{Y 1}], (0 \leq j \leq M 2 * Y 1 - 1);

步骤4)将边信息映射到特定的组合通路或通路sidedataout，不足的部分补零，

s i d e d a t a o u t [j] = \{\begin{matrix} s i d e \inf o [j], (0 \leq j \leq M 3 - 1) \\ 0, (M 3 \leq j \leq M 1 - 1) \end{matrix};

步骤5)将压缩码流数据stramin[j]映射到复合通路groupdataout，不足的部分补零，

实施例4：当原始的音频节目为包含声音对象的三维音频节目时，一帧原始音频数据包括了三维音频的基础多声道数据、对象波形数据和声音轨迹等信息。如果基础声道数据和对象波形数据都是未压缩的PCM数据，则可以按照如下步骤进行处理：

步骤1)对一帧三维音频的码流数据进行分块，可分为两个分块或更多分块，如基础声道数据datain[i][j](0≤i≤N_bed-1)作为第一个分块，对象波形数据objdatain[i][j](0≤i≤N_obj-1)作为第二个分块，帧头信息和对象轨迹等信息作为第三个分块；

步骤2)将datain[i][j](0≤i≤N_bed-1)和objdatain[i][j](0≤i≤N_obj-1)组合形成新的datain[i][j](0≤i≤N_bed+N_obj-1)；

步骤3)对封装音频文件的声道通路进行子通路划分，若封装音频文件采样率是原始音频文件采样率的X倍，如X＝2，则可将每个输出通道划分为X个子通路，每个子通路含有整个输出通路的部分数据，整个N2个声道被划分为N2*X个子通路subdataiout[i][j](0≤i≤N2*X-1,0≤j≤M1-1)；例如，子通路的数据与输出通路数据的关系可以是：

s u b d a t a o u t [i] [j] = = d a t a o u t [\frac{i}{X}] [X * j + (i % X)], (0 \leq i \leq N 2 * X - 1, 0 \leq j \leq M 1 - 1)

或者

\begin{matrix} s u b d a t a o u t [i] [j] = = d a t a o u t [\frac{i}{X}] [j + (i % X) * M 2], (0 \leq i \leq N 2 * X - 1, 0 \leq j \leq M 1 - \\ 1); \end{matrix}

步骤4)选择特定的输出通路或子通路或某Y1个输出通路的复合通道groupdataout[j]作为传输边信息的通路，例如，将第startX到第startX+Y1-1输出通路作为一个复合通路，其对应关系可以是：

g r o u p d a t a o u t [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X] [j % M 2], (i = 0, 0 \leq j \leq M 2 * Y 1 - 1)

或者

g r o u p d a t a o u t [j] = = d a t a o u t [j % Y 1 + s t a r t X] [\frac{j}{Y 1}], (i = 0, 0 \leq j \leq M 2 * Y 1 - 1);

步骤5)将帧头信息和对象轨迹的分块作为边信息的一部分；将边信息映射到特定的通路或子通路k1(如k1＝＝1)或复合通路，不足的部分补零，如，将边信息映射到符合通路时：

g r o u p d a t a o u t [j] = \{\begin{matrix} s i d e \inf o [j], (0 \leq j \leq M 3 - 1) \\ 0, (M 3 \leq j \leq M 1 - 1) \end{matrix};

步骤6)将原始音频文件的某一路数据datain[i][j]映射到选定的子通路k2，

subdataout[k2][j]＝datain[i][j]，(0≤i≤N1-1,0≤j≤M1-1)。

实施例5：当原始的音频节目为包含声音对象的三维音频压缩码流时，一帧原始音频包括了三维音频的基础多声道数据、对象波形数据和声音轨迹等信息，则可以按照如下步骤进行处理：

步骤1)对一帧三维音频的码流数据进行分块，可分为两个分块或更多分块，如基础声道的码流数据streamin_bed[j](0≤j≤M_bed-1)作为一个分块，对象的码流数据streamin_obj[j](0≤j≤M_o4j-1)作为第二个分块，帧头信息和对象轨迹等信息作为第三个分块，第三个分块的内容添加到边信息中，作为边信息的一部分；

步骤2)选择某Y1个输出通路作为传输streamin_bed[j]的复合通道groupdataout_ded[j]，例如将第startX1到第startX1+Y1-1输出通路作为一个复合通路，其对应关系可以是：

g r o u p d a t a o u t_b e d [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X 1] [j % M 2], (0 \leq j \leq M 2 * Y 1 - 1)

或者

g r o u p d a t a o u t_b e d [j] = = d a t a o u t [j % Y 1 + s t a r t X 1] [\frac{j}{Y 1}], (0 \leq j \leq M 2 * Y 1 - 1);

步骤3)选择特定的输出通路或者某Y2个输出通路的复合通道sidedataout[j]作为传输边信息的通路，例如将第startX2到第startX2+Y2-1输出通路作为一个复合通路，其对应关系可以是：

s i d e d a t a o u t [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X 2] [j % M 2], (0 \leq j \leq M 2 * Y 2 - 1)

或者

s i d e d a t a o u t [j] = = d a t a o u t [j % Y 2 + s t a r t X 2] [\frac{j}{Y 2}], (0 \leq j \leq M 2 * Y 2 - 1);

步骤4)选择某Y3个输出通路作为传输streamin_obj[j]的复合通道groupdataout_obj[j]，例将第startX到第startX3+Y3-1输出通路作为一个复合通路，其对应关系可以是：

g r o u p d a t a o u t_o b j [j] = = d a t a o u t [\frac{j}{M 2} + s t a r t X 3] [j % M 2], (0 \leq j \leq M 2 * Y 3 - 1)

或者

g r o u p d a t a o u t_o b j [j] = = d a t a o u t [j % Y 3 + s t a r t X 3] [\frac{j}{Y 3}], (0 \leq j \leq M 2 * Y 3 - 1);

步骤5)将边信息映射到特定的组合通路或通路sidedataout，不足的部分补零，

步骤6)将压缩码流数据分块stramin_bed[j]映射到复合通路groupdataout_bed[j]，

步骤7)将压缩码流数据分块stramin_obj[j]映射到复合通路groupdataout_obj[j]，

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上作出各种变化。

Claims

1.一种符合数字电影规范的三维音频节目码流传输的方法，其特征在于，包括如下步骤：

（1）音频流转换：根据原始三维音频节目的声道数、声音对象数和格式信息来确定封装音频文件的声道数和格式信息；生成标识帧结构和格式信息的原始音频边信息；将原始音频、封装音频按照时间长度分为若干帧进行处理，对于每一帧，从原始三维音频节目中读取该帧原始音频数据，映射到封装音频文件中所对应的该帧数据中，当原始音频数据所需的比特数少于其所映射到的封装音频文件中所对应的该帧数据的比特数时，将空余部分填零，其中原始音频边信息被映射到封装音频文件该帧中的原始音频边信息通路；按照确定的封装音频文件格式输出封装音频文件；

（2）DCP打包：将封装音频文件与视频文件、文本文件、播放列表文件一起进行打包，生成符合DCI规范的DCP包；

（3）DCP解码：对DCP包进行处理，解码其中的视频、音频数据，并通过数字接口将封装音频流数据输出；

（4）音频流逆转换：接收封装音频流数据，从所确定的原始音频边信息通路中搜索封装音频标识符，若找到，则判断为封装音频格式，该位置为封装音频帧结构的开始，根据边信息从接收到的封装音频流数据中恢复出原始音频数据，执行步骤（51），若没有找到封装音频标识符，则直接执行步骤（52）；

（51）音频处理和播放：对封装音频流进行解码、处理，按照原始音频的采样率、声道数、声音对象和设定的声场进行播放；

（52）音频处理和播放：按照通用的数字电影音频处理过程对封装音频流数据进行播放。

2.根据权利要求1所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：所述步骤（1）中首先判断原始三维音频节目是否能够通过符合DCI规范的音频文件进行传输，如果原始音频数据所需比特数大于其所映射到的封装音频文件中所对应的该帧数据的比特数时，对原始三维音频节目进行压缩编码，使编码后的码率低于封装音频文件的码率。

3.根据权利要求1或2所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：所述生成标识帧结构和格式信息的原始音频边信息包括封装音频标识符、原始音频格式信息、原始音频采样率、原始音频声道数、声道-通路映射信息。

4.根据权利要求3所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：所述封装音频标识符为用于标识封装音频的字符串。

5.根据权利要求1或2所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：所述三维音频节目从内容上包括多声道节目，多个声道和多个声音对象的节目，多个声音对象的音频节目；所述三维音频节目从数据形式上包括一个音频文件或压缩码流文件，或一组文件的集合，或实时传输的音频流数据。

6.根据权利要求5所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：当所述三维音频节目为多声道节目时，所述步骤（1）中每帧原始三维音频节目至少包含N1*M1个字的信息，N1为声道数，M1 = frame_t*samplerate1、frame_t为帧长、samplerate1为采样频率，每帧编码的边信息数据长度为M3个字，待传输的一帧原始音频信息为N1*M1+M3个字；当所述三维音频节目为多个声道和多个声音对象的节目时，假设每帧原始三维音频节目至少包含NA3个字的信息，每帧编码的边信息数据长度为M3个字，则待传输的一帧原始音频信息为NA3+M3个字；对于封装音频文件整个通路的传输能力为每帧N2*M2个字，N2个声道的数据以dataout[i][j] (0≤i≤N2-1,0≤j≤M2-1)表示，M2 = frame_t*samplerate2，samplerate2为采样频率、frame_t为帧长。

7.根据权利要求6所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：当所述三维音频节目为多声道节目时，将每帧待传输的原始音频数据和原始音频边信息N1*M1+M3个字映射到封装音频文件中并填充N2*M2-（N1*M1+M3）个字；或将原始音频数据进行压缩编码，组织成N4个字的压缩码流streamin[j]，将压缩码流的数据映射到封装音频文件中。

8.根据权利要求6所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：当所述三维音频节目为多个声道和多个声音对象的节目时，将每帧待传输的原始音频数据和原始音频边信息NA3+M3个字映射到封装音频文件中并填充N2*M2-（NA3+M3）个字；或将原始文件数据进行压缩编码，组织成N5个字的压缩码流映射到封装音频文件中。

9.根据权利要求5所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：当所述三维音频节目为音频文件或压缩码流时，将一帧数据按内容分块，将封装音频文件中的两个或两个以上声道组合为复合通路，将原始音频数据的全部或一个分块或原始音频边信息映射到该复合通路；或将封装音频文件中的一个声道分为两个或两个以上子通路，将原始音频数据的全部或一个分块或原始音频边信息映射到任一子通路。

10.根据权利要求5所述的符合数字电影规范的三维音频节目码流传输的方法，其特征在于：当所述三维音频节目为包含声音对象的三维音频节目或三维音频压缩码流时，一帧原始音频包括三维音频的基础多声道数据、对象波形数据和声音轨迹信息，对一帧三维音频的码流数据分块，基础多声道数据作为第一个分块，对象波形数据作为第二个分块，帧头信息和声音轨迹信息作为第三个分块添加到原始音频边信息中、作为边信息的一部分，将边信息映射到特定的组合通路或通路，不足的部分补零。