CN102800320A

CN102800320A - 多对象音频信号的附加信息比特流产生方法和装置

Info

Publication number: CN102800320A
Application number: CN2012102340511A
Authority: CN
Inventors: 徐廷一; 白承权; 李泰辰; 李用主; 张大永; 姜京玉; 洪镇祐; 金镇雄; 安致得
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2008-03-31
Filing date: 2009-03-30
Publication date: 2012-11-28
Anticipated expiration: 2029-03-30
Also published as: EP3147899B1; EP2273492A4; EP2273492B1; ES2622060T3; US9299352B2; ES2705100T3; CN101981617B; WO2009123409A3; EP3147899A1; KR101506837B1; CN101981617A; US20110015770A1; KR20090104674A; WO2009123409A2; EP2273492A2; CN102800321B; KR101461685B1; CN102800321A; KR20140028094A; US20160165375A1

Abstract

本发明涉及一种多对象音频信号的附加信息比特流产生方法和装置。本发明的多对象音频信号的附加信息比特流产生装置，其特征在于，包括接收从多对象音频信号的编码装置产生的空间提示信息的空间提示信息输入部、接收关于所述多对象音频信号的预设信息的预设信息输入部、以及利用空间提示信息和预设信息产生附加信息比特流的附加信息比特流产生部，其中，附加信息比特流包括头区域和帧区域，预设信息包括在帧区域。根据本发明，具有这样的效果，即，通过在对多对象音频信号编码时产生的附加信息比特流的帧区域中包括预设信息，从而在再现多对象音频信号期间，也可根据编辑者或声音工程师的意图来改变所设定的音响场景信息。

Description

多对象音频信号的附加信息比特流产生方法和装置

本申请是申请日为2009年3月30日、申请号为200980111798.4、发明名称为“多对象音频信号的附加信息比特流产生方法和装置”的发明专利申请的分案申请。

技术领域

本发明涉及一种用于产生多对象音频信号的附加信息比特流的方法和装置。

背景技术

根据现有的音频编码和解码技术，由各种声道构成的多个音频对象无法根据用户需要而进行各种组合，因此无法以各种形态来消费一个音频内容。结果，用户只能被动地消费音频内容。

根据作为现有技术的空间音频编码(Spatial Audio Coding，SAC)，将多声道音频信号编码为缩混(down-mix)的单声道信号或缩混的立体声声道信号和空间提示(spatial cue)信息，因此即使在低比特率下也能传送高品质的多声道信号。根据SAC技术，按子带(sub-band)分析音频信号，并基于与每个子带对应的空间提示信息，从所述缩混的单声道或立体声声道信号恢复原多声道音频信号。所述空间提示信息包括用于在解码过程中恢复原来的信号的信息，并决定在SAC解码装置中再现的音频信号的音频品质。运动图像专家组(MPEG)以MPEG环绕(MPS)的名称进行SAC技术标准化，并将声道等级差(Channel Level Difference，CLD)用作空间提示。

根据SAC技术，对于多声道音频信号仅可以对一个音频对象进行编码和解码，所以无法对由多声道构成的多对象音频信号(例如，由单声道、立体声声道和5.1声道构成的各种对象的音频信号)进行编码和解码。

根据作为另一现有技术的双耳提示编码(Binaural Cue Coding，BCC)技术，能够对仅由单声道构成的多对象音频信号进行编码和解码，所以无法对由除单声道之外的多声道构成的多对象音频信号进行编码和解码。

结果，根据现有技术，仅可以对由单一声道构成的多对象音频信号或由多声道构成的单一对象音频信号进行编码和解码，无法对由多声道构成的多对象音频信号进行编码和解码。因此，无法根据用户的需要组合由各种声道构成的多个音频对象，无法以各种形态来消费一个音频内容。因此，用户只能被动地消费音频内容。

发明内容

技术问题

本发明的目的在于提供这样一种方法和装置，即，通过在对多对象音频信号进行编码时产生的附加信息比特流的帧区域中包括预设信息，从而在再现多对象音频信号期间，也能根据编辑者或声音工程师的意图改变所设定的音响场景信息。

本发明的目的不限于上述的目的，可通过下面的描述来理解没有提及的本发明的其它目的和优点，并根据本发明实施例更清楚地理解本发明的目的和优点。此外，容易理解，可通过权利要求所体现的手段及其组合来实现本发明的目的及优点。

技术方案

为了达到上述的目的，在本发明中，一种多对象音频信号的附加信息比特流产生装置，其特征在于，包括：空间提示信息输入部，接收从多对象音频信号的编码装置产生的空间提示信息；预设信息输入部，接收关于多对象音频信号的预设信息；附加信息比特流产生部，利用空间提示信息和预设信息产生附加信息比特流，其中，附加信息比特流包括头区域和帧区域，预设信息包括在所述帧区域。

另外，在本发明中，一种多对象音频信号的附加信息比特流分析装置，其特征在于，包括：附加信息比特流输入部，接收附加信息比特流；空间提示信息提取部，利用附加信息比特流提取空间提示信息；预设信息提取部，利用附加信息比特流提取预设信息，其中，附加信息比特流包括头区域和帧区域，预设信息包括在所述帧区域中。

另外，在本发明中，一种多对象音频信号的编码装置，其特征在于，包括：编码部，对由多个对象构成的音频信号进行缩混，产生关于由多个对象构成的音频信号的空间提示信息；附加信息比特流产生部，利用空间提示信息和关于音频信号的预设信息来产生附加信息比特流，其中，附加信息比特流包括头区域和帧区域，预设信息包括在帧区域中。

另外，在本发明中，一种多对象音频信号的解码装置，其特征在于，包括：附加信息比特流分析部，接收附加信息比特流，提取包括在附加信息比特流中的空间提示信息和预设信息；解码部，利用空间提示信息从缩混的输入音频信号恢复由多个对象构成的音频信号；渲染部，利用预设信息将由多个对象构成的音频信号渲染为由多个声道构成的音频信号，其中，附加信息比特流包括头区域和帧区域，预设信息包括在所述帧区域。

另外，在本发明中，一种多对象音频信号的附加信息比特流产生方法，其特征在于，包括如下步骤：接收从多对象音频信号的编码装置产生的空间提示信息；接收关于多对象音频信号的预设信息；利用空间提示信息和预设信息，产生附加信息比特流，其中，附加信息比特流包括头区域和帧区域，预设信息包括在镇区域中。

另外，在本发明中，一种多对象音频信号的附加信息比特流分析方法，其特征在于，包括如下步骤：接收附加信息比特流；利用附加信息比特流，提取空间提示信息；利用附加信息比特流，提取预设信息，附加信息比特流包括头区域和帧区域，预设信息包括在帧区域中。

另外，在本发明中，一种多对象音频信号的编码方法，其特征在于，包括如下步骤：对由多个对象构成的音频信号进行缩混，产生关于有多个对象构成的音频信号的空间提示信息；利用空间提示信息和关于音频信号的预设信息，产生附加信息比特流，其中，附加信息比特流包括头区域和帧区域，预设信息包括在帧区域中。

另外，在本发明中，一种多对象音频信号的解码方法，其特征在于，包括如下步骤：接收附加信息比特流，提取包括在附加信息比特流中的空间提示信息和预设信息；利用空间提示信息，从缩混的输入音频信号恢复由多个对象构成的音频信号；利用预设信息，将由多个对象构成的音频信号渲染为由多个声道构成的音频信号，其中，附加信息比特流包括头区域和帧区域，预设信息包括在帧区域中。

有益效果

根据前述本发明，具有这样的优点，即，通过在对多对象音频信号进行编码时产生的附加信息比特流的帧区域中包括预设信息，从而在再现多对象音频信号期间，也能根据编辑者或声音工程师的意图改变所设定的音响场景信息。

附图说明

图1是示出根据本发明实施例的多对象音频信号的编码、解码和渲染过程的组成图。

图2是用于说明利用多对象音频信号而产生的附加信息比特流的结构的结构图。

图3是用于说明在本发明实施例中使用的附加信息比特流的结构的结构图。

图4是用于说明在本发明另一实施例中使用的附加信息比特流的结构的结构图。

图5是用于说明根据本发明又一实施例的附加信息比特流的结构的结构图。

具体实施方式

以下将参照附图对上述的目的、特征和优点进行详细描述，从而本发明所属领域的普通技术人员能够容易地实施本发明的技术思想。在本发明的说明中，如果与本发明相关的公知技术的具体说明可能会混淆本发明的要点，则将省略详细描述。

本发明涉及多声道/多对象音频信号的压缩/恢复技术。多对象音频编码是将不同的音频对象压缩并发送的技术，基于最近公开的基于空间提示的音频编码方式(Spatial Audio Coding，SAC)。

在多对象音频信号的编码过程中，接收由多个对象构成的音频信号，将接收的音频信号进行缩混(downmix)并发送到解码器。此时，附加信息比特流(side information bitstream)与缩混的信号一起被传送。附加信息比特流中包括再现输入的多对象音频信号所必需的信息，其中的一个信息是预设信息(Preset-ASI：Preset Audio Scene Information)。收听多对象音频信号的听众通过根据编辑者或者声音工程师等的设定而提供的这种预设信息，可以享受各种音响场景。

附加信息比特流大致分为头(header)区域和帧(frame)区域，该预设信息仅包括在头区域中。因此，仅向听众提供包括在头区域中的默认预设信息，此后无法进行预设信息的更新。

本发明的目的在于解决这种问题，涉及这样一种技术，即，在多对象音频信号的再现期间更新预设信息，从而向用户提供更加真实的音响场景。为此，在本发明中，使附加信息比特流的帧区域能够包括预设信息。在帧区域中包括预设信息并传送，由此不仅将包括在头区域中的默认预设信息提供给听众，还可将与各个帧对应的最佳预设信息提供给听众。

例如，在再现初期与主音一起位于前面的合唱音源，可根据更新的预设信息，在特定时间段位于后面。作为另一例，可以根据时间将合唱音源位置前后移动。通过这种技术，可以增加提供的音频信号的声场效果，或可以构建更加动态的音响场景。

以下，将参照附图详细地描述根据本发明的优选实施例。在附图中，相同标号表示相同或类似的组成部分。

如图1所示，通过SAOC编码器102、比特流格式化器104、SAOC解码器106、比特流分析器108、渲染矩阵产生器110和渲染器112，来实现根据本发明实施例的多对象音频信号的编码、解码和渲染。

基于空间提示的多对象编码(SAOC：Spatial Audio Object Coding)方式中，对作为音频对象而输入的信号进行编码。各个音频对象通过解码器恢复。且不是单独地再现每个恢复的对象，而是为了构建特定音响场景，利用关于音频对象的信息来渲染恢复的对象，并作为具有各种声道的多对象音频信号而输出。因此，为了利用根据本发明实施例的多对象音频信号来获得特定音响场景，需要能够渲染关于输入的音频对象的信息的装置。

SAOC编码器102是基于空间提示的编码器，将输入音频信号作为音频对象进行编码。在此，输入到SAOC编码器102的音频对象可以是单声道信号或者立体声信号。SAOC编码器102从输入的1个以上的音频对象输出缩混的信号。在此，输出的缩混的信号是单声道信号或者立体声信号。并且，SAOC编码器102提取对缩混的信号解码所必需的与多对象相关联的空间提示参数(Spatial Cue Parameter)，并传送到比特流格式化器104。SAOC编码器102可使用“非均匀布局(Heterogeneous Layout)SAOC”或者“费勒(Faller)”方案来分析输入的音频对象信号。

提取的空间提示参数包括空间提示信息。通常以频域子带为单位分析并提取空间提示。在此，空间提示(spatial cue)是音频信号的编码和解码过程中所使用的信息，从频域提取，包括输入的两个信号的大小之差、延迟差、相关性等信息。例如，包括表示音频信号的功率增益信息的音频信号间声级差(Channel Level Difference，CLD)，音频信号间能量比(Inter-Channel LevelDifference，ICLD)，音频信号间时间差(Inter-Channel Time Difference，ICTD)，表示音频信号之间的相关性信息的音频信号间相关性(Inter ChannelCorrelation，ICC)及虚拟音源位置信息(Virtual Source Location Information)，但不限于此。

空间提示参数包括空间提示和用于音频信号恢复和控制的信息。特别是，包括在空间提示参数中的头信息包括用于恢复和再现由各种声道构成的多对象音频信号的信息，定义了关于音频对象的声道信息和该音频对象的ID，从而能够提供关于单声道、立体声声道、多声道的音频对象的解码信息。例如，在头信息中可定义能够区分编码的特定音频对象是单声道音频信号还是立体声声道音频信号的ID和各个对象的信息。

比特流格式化器104利用从SAOC编码器102发送的空间提示参数和从外部输入的预设信息(Preset-ASI)产生附加信息比特流(SAOC比特流)。

SAOC解码器106利用从比特流分析器108输出的空间提示参数将从SAOC编码器102输出的缩混的信号恢复为多对象音频信号。可将SAOC解码器106替换为MPEG Surround解码器、BCC解码器等。

比特流分析器108通过分析从比特流格式化器104输出的附加信息比特流，提取空间提示参数和预设信息。提取的空间提示参数被传送到SAOC解码器106，提取的预设信息被传送到渲染矩阵产生器110。

渲染矩阵产生器110利用从比特流分析器108输出的预设信息和从外部输入的用户控制产生渲染矩阵。如果没有从比特流分析器108传送预设信息，则将预设信息设置为基本值(默认值)。

渲染器112利用从渲染矩阵产生器110输出的渲染矩阵，将从SAOC解码器106输出的多对象音频信号渲染为多声道音频信号。

通过图1，说明了根据本发明实施例的多对象音频信号的编码、解码和渲染过程。但是，根据本发明的附加信息比特流不是限定应用在在图1所示的实施例。即，在多对象信号的处理过程中，如果包括了利用包括在附加信息比特流中的预设信息来渲染多对象信号的结构，则可适用本发明。

图2是用于说明利用多对象音频信号产生的附加信息比特流的结构的结构图。

如图2所示，附加信息比特流包括头区域和帧区域。头区域包括如上所述的头信息，即，关于音频对象的声道信息、相关音频对象的ID信息、各声道音频对象数量等信息。并且，帧区域包括关于实际音频信号的信息，例如，空间提示信息等。

在此，预设信息表示音频对象控制信息和扬声器的布局信息。具体地讲，预设信息包括扬声器的布局信息以及用于构建适合于扬声器的布局信息的音响场景的各音频对象的位置和等级信息。可直接表现预设信息，或者以矩阵(行列)形式表示预设信息。

当直接表示时，预设信息可包括再现系统的布局(单声道/立体声声道/多声道)、音频对象ID、音频对象布局(单声道或立体声声道)、音频对象位置、方位角(azimuth)(0度～360度)、立体声声道再现时的仰角(elevation)(-50度～90度)、音频对象等级信息(-50dB～50dB)。

当以矩阵表示时，预设信息具有满足以下数学式1的P矩阵的形式。以矩阵表示的预设信息与直接表示的情况一样地，包括用于将各个音频对象映射到输出声道的功率增益信息或相位信息作为向量元。

数学式1

预设信息可针对相同内容定义适合于不同再现方案的各种音响场景。例如，可产生适合于立体声/多声道(5.1，7.1等)再现系统的几个有用的预设信息使其符合为内容制造者的意图或再现服务的目的，并进行传送。

附加信息比特流中包括用于多对象音频信号的渲染的预设信息。但是，在现有技术中，这种预设信息仅包括在附加信息比特流的头区域中，而没有包括在帧区域中。因此，用户(或听众)仅能利用包括在头区域中的默认预设信息来欣赏多对象音频信号。

与通过图2的说明一样，在现有技术中，由于仅在头区域中包括默认预设信息，所以无法于再现期间提供适合于变化的环境、或者内容制造者或编辑者、声音工程师的意图的各种预设信息。因此，根据本发明实施例的附加信息比特流不仅在头区域中包括预设信息，在帧区域中也能包括预设信息，因此在多对象图像的再现期间，能够在特定的位置(或帧)提供与包括在头区域中的默认预设信息不同的预设信息。

参照图3，附加信息比特流包括头区域和帧区域。头区域包括头信息和默认预设信息。前面已描述了头信息，在此省略对其的详细描述。在多对象音频信号的再现初期，可将默认预设信息提供给用户。

另外，帧区域包括一个以上的帧。其在图3中表示为第1帧、第2帧...。在每个帧区域中可包括各种信息，但是为了便于说明，在图3中示出为包括空间提示信息和预设信息。如图3所示，第1帧区域不仅包括第1空间提示信息，还包括第1预设信息。相同地，第2帧区域包括第2空间提示信息和第2预设信息。

这样，在每个帧区域中分配能够包括预设信息的空间，所以能够在多对象音频信号的再现途中提供与相关帧对应的预设信息。例如，图1所示的比特流分析器108将顺序分析从比特流格式化器104传送过来的附加信息比特流。通过分析头区域来提取默认预设信息的比特流分析器108继续分析帧区域而提取包括在相关帧区域中的预设信息，并将提取的预设信息提供给渲染矩阵产生器110。因此，当每个帧区域被分析时，均能提取新的预设信息，并将该预设信息用于相关位置(帧)的多对象音频信号渲染。

通过这种按各个帧提供预设信息，能够使用更加多样的预设信息。例如，在再现初期，利用包括在头区域中的默认预设信息来渲染每个帧，当出现根据本发明实施例的包括新的预设信息的帧时，仅对该帧使用新的预设信息，或者对之后渲染的所有帧使用新的预设信息。(当然，对于包括与该预设信息不同的另一预设信息的帧，可使用该另一预设信息)。或者，作为使用包括在头区域中的默认预设信息的方法，可使听众同时提供头区域的默认预设信息和相关帧所包括的新的预设信息，从而可以提供更加多样化的预设信息。

参照图4，与图3相同，附加信息比特流分为头区域和帧区域。头区域包括头信息和默认预设信息。帧区域包括第1帧、第2帧...等一个以上的帧。

在图4中，第1帧包括多个预设信息，即，第1预设信息、第2预设信息等。这样，通过在每个帧中包括多个预设信息，从而用户在与第1帧对应的区间能够获得更加多样的预设信息。

另外，虽未在图4中示出，第2帧与第1帧一样，可包括多个预设信息，相反地，也可以不包括任何预设信息。

虽未在图4中示出，每个帧可以按照一定规则的包括预设信息。例如，从第1帧包括3个预设信息，第2帧包括0个预设信息，第3帧包括3个预设信息，第4帧包括0个预设信息，...等方式包括预设信息。除这种规则的方式之外，如通过4说明的那样，可以只在特定帧区域中包括预设信息。此外，可以使用能够适用的各种方案，将包括与各个帧对应的预设信息的一个以上的帧包括在帧区域中。

这样，按每个帧以各种方式设置可以包括预设信息的区域，从而对于与每个帧对应的多对象音频信号，可以提供更加多样化的音响场景信息。

参照图5，附加信息比特流(SAOC比特流)包括预设信息区域(Preset-ASIRegion)。预设信息区域包括多个预设信息(Preset-ASI(默认)，Preset-ASI(1)至(N)。并且，一个预设信息包括音频对象的控制信息和布局信息等。如上所述，可以直接表示预设信息，或者以矩阵的形式表示预设信息。当直接表示时，包括与对象数量相当的对象ID、对象类型、位置、扬声器布局、声音等级信息等。此外，如图5所示，预设信息可以以将这些因素作为向量元的矩阵形式表示。

上述的内容，对于本发明所属领域中的普通技术人员来说，在不脱离本发明的技术思想的情况下，可以进行各种替换、变形及变化，因此本发明不限于前述的实施例和附图。

Claims

1.一种多对象音频信号的附加信息比特流产生装置，包括：

空间提示信息输入部，接收从所述多对象音频信号的编码装置产生的空间提示信息；

预设信息输入部，接收关于所述多对象音频信号的预设信息；

附加信息比特流产生部，利用所述空间提示信息和所述预设信息产生所述附加信息比特流，

其中，所述附加信息比特流包括头区域和帧区域，所述预设信息包括在所述帧区域且表示音频对象控制信息和扬声器的布局信息。

2.一种多对象音频信号的附加信息比特流分析装置，包括：

附加信息比特流输入部，接收所述附加信息比特流；

空间提示信息提取部，利用所述附加信息比特流提取空间提示信息；

预设信息提取部，利用所述附加信息比特流提取预设信息，

其中，所述附加信息比特流包括头区域和帧区域，所述预设信息包括在所述帧区域中且表示音频对象控制信息和扬声器的布局信息。

3.一种多对象音频信号的编码装置，包括：

编码部，对由多个对象构成的音频信号进行缩混，产生关于所述由多个对象构成的音频信号的空间提示信息；

附加信息比特流产生部，利用所述空间提示信息和关于所述音频信号的预设信息来产生附加信息比特流，

4.一种多对象音频信号的解码装置，包括：

附加信息比特流分析部，接收附加信息比特流，提取包括在所述附加信息比特流中的空间提示信息和预设信息；

解码部，利用所述空间提示信息从缩混的输入音频信号恢复由多个对象构成的音频信号；

渲染部，利用所述预设信息将所述由多个对象构成的音频信号渲染为由多个声道构成的音频信号，

5.一种多对象音频信号的附加信息比特流产生方法，包括如下步骤：

接收从所述多对象音频信号的编码装置产生的空间提示信息；

接收关于所述多对象音频信号的预设信息；

利用所述空间提示信息和所述预设信息，产生所述附加信息比特流，

6.一种多对象音频信号的附加信息比特流分析方法，包括如下步骤：

接收所述附加信息比特流；

利用所述附加信息比特流，提取空间提示信息；

利用所述附加信息比特流，提取预设信息，

7.一种多对象音频信号的编码方法，包括如下步骤：

对由多个对象构成的音频信号进行缩混，产生关于所述由多个对象构成的音频信号的空间提示信息；以及，

利用所述空间提示信息和关于所述音频信号的预设信息，产生附加信息比特流，

8.一种多对象音频信号的解码方法，包括如下步骤：

接收附加信息比特流，提取包括在所述附加信息比特流中的空间提示信息和预设信息；

利用所述空间提示信息，从缩混的输入音频信号恢复由多个对象构成的音频信号；

利用所述预设信息，将所述由多个对象构成的音频信号渲染为由多个声道构成的音频信号，