CN109166588B

CN109166588B - 处理信道信号的编码/解码装置及方法

Info

Publication number: CN109166588B
Application number: CN201810969194.4A
Authority: CN
Inventors: 徐廷一; 白承权; 张大永; 姜京玉; 朴泰陈; 李用主; 崔根雨; 金镇雄
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2013-01-15
Filing date: 2014-01-15
Publication date: 2022-11-15
Anticipated expiration: 2034-01-15
Also published as: KR102213895B1; US20150371645A1; CN109166587A; CN105009207A; KR20220020849A; US10332532B2; CN108806706A; CN109166588A; KR20140092779A; KR102477610B1; CN109166587B; US20180301155A1; CN105009207B; US10068579B2; CN108806706B

Abstract

公开了信道信号控制的编码/解码装置及方法。解码装置可包括：USAC 3D解码单元，基于MPEG USAC技术解码扬声器的信道信号、不连续的对象信号、对象降混信号以及预渲染对象信号；对象渲染单元，渲染所述对象信号；OAM(对象元数据)解码单元，解码出对象元数据；对象渲染单元，利用所述对象元数据，并且基于制定生成格式生成对象波形；SAOC 3D解码单元，从解码的SAOC传输信道和参数化信息复原对象信号和信道信号，并且基于播放布局、复原的对象元数据以及附加的用户控制信息输出音频场面；以及混频单元，当信道基础内容和不连续/参数化对象在所述USAC 3D解码单元中被解码时，把与信道波形渲染的对象波形延迟对齐和按样品相加。

Description

处理信道信号的编码/解码装置及方法

本申请是申请日为2014年1月15日、申请号为201480004944.4(国际申请号为PCT/KR2014/000443)、发明名称为“处理信道信号的编码/解码装置及方法”的发明专利申请的分案申请。

技术领域

本发明涉及处理信道信号的编码/解码装置及方法，具体而言，涉及与信道信号及对象信号一起编码信道信号的渲染信息、传输，使处理信道信号的编码/解码装置及方法。

背景技术

如同MPEG-H 3D音频及杜比全景声，播放由多个信道信号(channel Signals)和多个对象信号(object signal)构成的音频内容时，基于扬声器的个数、扬声器的布置环境及扬声器的位置生成的对象信号的控制信息，或者适当地变换渲染信息，可充实的播放作者意图的音频内容。

但是，如同信道信号在二维或者三维空间由组布置时，可需要可由整体处理信道信号的功能。

发明内容

技术课题

本发明提供与信道信号及对象信号一起编码信道信号的渲染信息、传输，使根据播放音频内容的扬声器的布置环境提供处理信道信号功能的装置及方法。

技术方案

根据本发明的一个实施例，一种解码装置，其包括：USAC 3D解码单元，基于MPEGUSAC技术解码扬声器的信道信号、不连续的对象信号、对象降混信号以及预渲染对象信号；对象渲染单元，渲染所述对象信号；OAM(对象元数据)解码单元，解码出对象元数据；对象渲染单元，利用所述对象元数据，并且基于制定生成格式生成对象波形；SAOC 3D解码单元，从解码的SAOC传输信道和参数化信息复原对象信号和信道信号，并且基于播放布局、复原的对象元数据以及附加的用户控制信息输出音频场面；以及混频单元，当信道基础内容和不连续/参数化对象在所述USAC 3D解码单元中被解码时，把与信道波形渲染的对象波形延迟对齐和按样品相加。

根据本发明的一个实施例，一种解码方法，其步骤包括：基于MPEG USAC技术解码扬声器的信道信号、不连续的对象信号、对象降混信号以及预渲染对象信号；在对象渲染单元中，渲染所述对象信号；在OAM解码单元中，解码出对象元数据；在对象渲染单元中，基于制定生成格式并且利用所述对象元数据生成对象波形；在SAOC 3D解码单元中，从解码的SAOC传输信道和参数化信息复原对象信号和信道信号，并且基于播放布局、复原的对象元数据以及附加的用户控制信息输出音频场面；以及在混频单元中，当信道基础内容和不连续/参数化对象在USAC 3D解码单元中被解码时，把与信道波形渲染的对象波形延迟对齐和按样品相加。

根据本发明的一个实施例，一种编码装置，可包括：编码单元，编码对象信号、信道信号及信道信号的渲染信息；及比特流生成单元，由比特流生成所述编码的对象信号、所述编码的信道信号及所述编码的信道信号的渲染信息。

所述比特流生成单元可把所述生成的比特流存储在存储媒体，或者通过网络把所述生成的比特流传到解码装置。

所述信道信号的渲染信息，可包括：控制所述信道信号的音量或者增益的控制信息、控制所述信道信号的水平方向旋转的控制信息及控制所述信道信号的垂直方向旋转的控制信息中的至少一个。

根据本发明的一个实施例，一种解码装置，可包括：解码单元，从经编码装置生成的比特流提取对象信号、信道信号及信道信号的渲染信息；及渲染单元，基于所述信道信号的渲染信息渲染所述对象信号及所述信道信号。

所述信道信号的渲染信息可包括：控制所述信道信号的音量或者增益的控制信息、控制所述信道信号的水平方向旋转的控制信息及控制所述信道信号的垂直方向旋转的控制信息中的至少一个。

根据本发明的其他实施例，一种编码装置，包括：混频单元，渲染输入的对象信号，且混频被渲染的对象信号和信道信道；及编码单元，编码从所述混频单元输出的对象信号和信道信号，及用于对象信号和信道信号的附加信息，且所述附加信息，可包括：所述被编码的对象信号和信道信号的个数及文件名称。

根据本发明的其他实施例，一种解码装置，包括：解码单元，从比特流输出对象信号和信道信号；及混频单元，混频所述对象信号及信道信号，且所述混频单元可基于定义信道个数(number of channel)、信道元件(channel element)及与信道映射的扬声器(speaker)的信道构成信息混频所述对象信号和信道信号。

所述解码装置，还可包括：双声道渲染单元，将通过所述混频单元输出的信道信号双声道渲染。

所述解码单元，还可包括：格式变换单元，将通过所述混频单元输出的信道信号按照扬声器播放的布局变换格式。

根据本发明的一个实施例，一种编码方法，其步骤可包括：编码对象信号、信道信号及信道信号的渲染信息；及由比特流生成所述编码的对象信号、所述编码信道信号及所述编码的信道信号的渲染信息。

所述编码方法，其步骤还可包括：把所述生成的比特流储存在存储媒体；或者通过网络把所述生成的比特流传到解码装置。

所述信道信号的渲染信息，可包括：控制所述信道信号的音量或者增益的控制信息、控制所述信道信号的水平方向旋转(rotation)的控制信息及控制所述信道信号的垂直方向旋转的控制信息中的至少一个。

根据本发明的一个实施例，一种解码方法，其步骤可包括：从经编码装置生成的比特流提取对象信号、信道信号及信道信号的渲染信息；及基于所述信道信号的渲染信息渲染所述对象信号及所述信道信号。

根据本发明的其他实施例，一种编码方法，其步骤包括：渲染输入的对象信号，且混频被渲染的对象信号和信道信道；及编码通过混频过程输出的对象信号、信道信号及用于对象信号和信道信号的附加信息，且所述附加信息，可包括：所述被编码的对象信号和信道信号的个数及文件名称。

根据本发明的其他实施例，一种解码方法，其步骤包括：从比特流输出对象信号和信道信号；及混频所述对象信号及信道信号，且所述混频单元可基于定义信道个数、信道元件及与信道映射的扬声器的信道构成信息混频所述对象信号和信道信号。

所述解码方法，其步骤还可包括：双声道渲染通过混频过程输出的信道信号。

所述解码方法，其步骤还可包括：将通过混频过程输出的信道信号按照扬声器播放的布局变换格式。

技术效果

根据一个实施例，与信道信号及对象信号一起编码信道信号的渲染信息、传输，使按照输出音频内容的环境可提供处理信道信号的功能。

附图说明

图1是示出按照一个实施例的编码装置的详细构成图。

图2是示出按照一个实施例的输入在编码装置信息的图。

图3是示出按照一个实施例的信道信号的渲染信息的一个示例图。

图4是示出按照一个实施例的信道信号的渲染信息的另一个示例图。

图5是示出按照一个实施例的解码装置的详细构成图。

图6是示出按照一个实施例的输入在解码装置信息的图。

图7是示出按照一个实施例的编码装置的流程图。

图8是示出按照一个实施例的解码装置的流程图。

图9是示出按照其他实施例的编码装置的详细构成图。

图10是示出按照其他实施例的解码装置的详细构成图。

具体实施方式

参照以下的附图，对实施例进行详细地说明。以下特定的结构或者功能的说明只是为了说明发明的实施例为目的示出的，因此不可理解为发明的范围限定在本文所说明的实施例。根据一个实施例的编码方法及解码方法可经编码装置及解码装置执行，且各图面所示的同一的参照符号显示同一的部件。

图1是示出按照一个实施例的编码装置的详细构成图。

参照图1，根据本发明的一个实施例，编码装置100可包括编码单元110、比特流生成单元120。

编码单元110可编码对象信号、信道信号及信道信号的渲染信息。

根据一个示例，信道信号的渲染信息可包括控制信道信号的音量或者增益的控制信息、控制信道信号的水平方向旋转(rotation)的控制信息及控制信道信号的垂直方向旋转的控制信息中至少一个。

还有，为了信道信号难以向特定方向旋转的低性能的用户终端，信道信号的渲染信息可构成为控制信道信号的音量或者增益的控制信息。

比特流生成单元120可把从编码装置110编码的对象信号、信道信号及信道信号的渲染信息生成为比特流。由此，比特流生成单元120可把生成的比特流以文件形式存储在存储媒体。或者，比特流生成单元120可把生成的比特流通过网络传输到解码装置。

信道信号可以是在二维或者三维整体空间上由组布置的信号。因此，信道信号的渲染信息控制信道信号的整体音量或者增益，或者旋转整体信道信号时，可被利用。

因此，本发明可提供与信道信号和对象信号一起传输信道信号的渲染信息，由此根据输出音频内容的环境处理信道信号的功能。

图2是示出按照一个实施例的输入在编码装置信息的图。

参考图2，在编码装置100可输入N个信道信号、M个对象信号。并且，在编码装置100除了M个各个对象信号的渲染信息之外，也可输入N个信道信号的渲染信息。还有，为了在编码装置制作音频内容，也可输入被考虑的扬声器布置信息。

编码单元110可编码输入的N个信道信息、M个对象信号、信道信号的渲染信息及对象信号的渲染信息。比特流生成单元120可利用编码的结果生成比特流。比特流生成单元120可把生成的比特流以文件形式存储在存储媒体，或者可传输到解码装置。

图3是示出按照一个实施例的信道信号的渲染信息的一个例图。

对应于多个信道输入信道信号，且信道信号可被利用于背景音(backgroundsound)。其中，MBO可以是用于背景音的信道信号。

根据一个示例，信道信号的渲染信息可包括控制所述信道信号的音量或者增益的控制信息、控制所述信道信号的水平方向旋转(rotation)的控制信息及控制所述信道信号的垂直方向旋转的控制信息中的至少一个。

参考图3，信道信号的渲染信息可表现为renderinginfo_for_MBO。并且，控制信道信号的音量或者增益的控制信息可被定义为gain_factor。还有，控制信道信号的水平方向旋转(rotation)的控制信息可被定义为horizontal_rotation_angle。horizontal_rotation_angle可是指把信道信号以水平方向旋转时的旋转角度。

并且，控制信道信号的垂直方向旋转的控制信息可被定义为vertical_rotation_angle。vertical_rotation_angle可以是把信道信号以垂直方向旋转时的旋转角度。frame_index可以是信道信号的渲染信息被适用的音频帧的识别编号。

图4是示出按照一个实施例的信道信号的渲染信息的另一个例图。

播放信道信号的终端性能比预设的基准低时，不可执行旋转信道信号的功能。由此，信道信号的渲染信息可包括如图4所示的控制信道信号的音量或者增益的控制信息gain_factor。

例如，假设音频内容由M个信道信号和N个对象信号构成。在这种情况下，假设M个信道信号以背景音对应M个乐器信号，且假设N个对象信号对应歌手声音信号。由此，解码装置可控制歌手声音信号的位置和大小。或者解码装置把对象信号的歌手声音信号从音频内容中删除，由此可使用为卡拉OK服务的伴奏音。

还有，解码装置利用M个乐器信号的渲染信息控制乐器信号的大小(音量或者增益)，或者可把整个M个乐器信号以垂直方向或者水平方向旋转。或者，解码装置从音频内容删除信道信号的整个M个乐器信号，由此只可播放歌手声音信号。

图5是示出按照一个实施例的解码装置的详细构成图。

参考图5，根据本发明的一个实施例，解码装置500可包括解码单元510及渲染单元520。

解码单元510可从经编码装置生成的比特流提取对象信号、信道信号及信道信号的渲染信息。

渲染单元520可基于信道信号的渲染信息、对象信号的渲染信息及扬声器布置信息渲染对象信号及信道信号。其中，信道信号的渲染信息可包括控制所述信道信号的音量或者增益的控制信息、控制所述信道信号的水平方向旋转(rotation)的控制信息及控制所述信道信号的垂直方向旋转的控制信息中的至少一个。

图6是示出按照一个实施例的输入在解码装置信息的图。

根据一个实施例，解码装置500的解码单元510可从经编码装置生成的比特流提取N信道信道、对整个N信道信号的渲染信息、M个对象信息及对象信号各个的渲染信息。

由此，解码单元510可把N信道信道、对整个N信道信号的渲染信息、M个对象信息及对象信号各个的渲染信息传达到渲染单元520。

渲染单元520可利用从解码装置510传达的N个信道信道、对整个N个信道信号的渲染信息、M个对象信息及对象信号各个的渲染信息和附加输入的用户控制及连接在解码装置的扬声器的扬声器布置信息生成由K信道构成的音频输出信号。

图7是示出按照一个实施例的编码装置的流程图。

在步骤710中，编码装置可编码对象信号、信道信号及由对象信号及信道信号构成的为播放音频内容的附加信息。其中，附加信息可包括信道信号的渲染信息、对象信号的渲染信息、制作音频内容时考虑的扬声器布置信息。

在这种情况下，信道信号的渲染信息可包括控制所述信道信号的音量或者增益的控制信息、控制所述信道信号的水平方向旋转(rotation)的控制信息及控制所述信道信号的垂直方向旋转的控制信息中的至少一个。

在步骤720中，编码装置可利用对象信号、信道信号及由对象信号及信道信号构成的为播放音频内容的附加信息编码的结果生成比特流。由此，编码装置可把生成的比特流以文件形式存储在存储媒体，或者通过网络传输到解码装置。

图8是示出按照一个实施例的解码装置的流程图。

在步骤810中，解码装置可从经编码装置生成的比特流提取对象信息、信道信息及附加信息。其中，附加信息可包括信道信道的渲染信息、对象信号的渲染信息、与解码装置连接的扬声器的扬声器布置信息。

在步骤820中，解码装置利用附加信息使渲染信道信号和对象信号对应于与解码装置连接的扬声器的扬声器布置信息，可输出所要播放的音频内容。

图9是示出按照其他实施例的编码装置的详细构成图。

参考图9，编码装置可包括混频单元910、SAOC 3D编码单元920、USAC3D编码单元930及OAM编码单元940。

混频单元910可渲染输入的对象信号，或者混频对象信号和信道信号。还有，混频单元910可预渲染(pre rendering)输入的多个对象信号。具体地，混频单元910可把输入的信道信号和对象信号的组合变换成信道信号。并且，混频单元910可通过预渲染把不连续的(discrete)对象信号渲染成信道布局(channel layout)。为了各个信道信号的对各个对象信号的加权值可从对象元数据(OAM)获得。混频单元910可输出与信道信号预渲染的对象信号组合的结果、降混的对象信号、没有混频的对象信号。

SAOC 3D编码单元920基于MPEG SAOC技术可编码对象信号。由此，SAOC 3D编码单元920可再生成N个对象信号，且修正渲染，由此生成M个传输信道和附加的参数化信息。其中，M可比N少。并且，附加的参数化信息表现为SAOC-SI，且可包括对象等级区别OLD(ObjectLevel Difference),内部对象互相关IOC(Inter Object Cross Correlation),降混增益DMG(Downmix Gain)等对象信号间的空间参数。

SAOC 3D编码单元920把对象信号和信道信号以单声道波形采取，可输出包装在3D音频比特流的参数化信息和SAOC传输信道(transport channel)。SAOC传输信道可利用单信道元件被编码。

USAC 3D编码单元930可基于MPEG USAC技术编码扬声器的信道信号、不连续的对象信号、对象降混信号、预渲染的对象信号。USAC 3D编码单元930可基于输入的信道信号和对象信号的几何(geometric)信息，或者语义(semantic)信息生成信道映射信息和对象映射信息。其中，信道映射信息和对象映射信息显示如何把信道信号和对象信号映射到USAC信道元件(CPEs、SCES、LFEs)。

对象信号依赖于率/失真(rate/distortion)要求可由其他方式编码。预渲染的对象信号可译码成22.2信道信号。并且，不连续的对象信号可在USAC 3D编码单元930由单声道(monophonic)波形被输入。由此，USAC 3D编码单元930添加在信道信号，且为了传输对象信号可利用单信道元件SCEs。

还有，参数化对象信号可通过SAOC参数被定义为对象信号的属性和对象信号之间的关系。对象信号的降混结果可由USAC技术被编码，且参数化信息可另外的被传输。降混信道的个数可根据对象信号的个数和整个数据率被选择。通过OAM编码单元940可把编码的对象元数据输入到USAC 3D编码单元930。

OAM编码单元940量子化时间或者空间上的对象信号，由此可编码在三维空间上的各对象信号的几何位置和显示音量的对象元数据。编码的对象元数据可作为附加信息传输到解码装置。

以下，将说明输入在编码装置的多样形态的输入信息。具体地，在编码装置可输入信道基础输入数据、对象基础输入数据及高阶环绕声HOA(HighOrder Ambisonic)基础输入数据。

(1)信道基础输入数据

信道基础输入数据可由单声道信道信号的集合传输，且各个的信道信号可表现为单声道.wav文件。

单声道.wav文件可如下定义。

<item_name>_A<azimuth_angle>_E<elevation_angle>.wav

其中，azimuth_angle可表现为±180度，且越是正数由左方向进行。elevation_angle可表现为±90度，且越是正数由上方向进行。

并且，LFE信道的情况，可定义如下。

<item_name>_LFE<lfe_number>.wav

其中，lfe_number可以是1或者2。

(2)对象基础输入数据

对象基础输入数据可由单声道音频内容的集合和元数据传输，且各个的音频内容可表现为单声道.wav文件。

音频内容包括对象音频内容时，.wav文件可如下的定义。

<item_name>_<object_id_number>.wav

其中，object_id_number显示对象识别编号。

并且，音频内容包括在信道音频内容时，.wav文件可被如下的扬声器表现且映射。

<item_name>_A<azimuth_angle>_E<elevation_angle>.wav

对象音频内容可以是级别校准(level-calibration)和延迟对齐(delay-aligned)。例如，收听者在最有效点(sweet-spot)收听位置时，在相同样品指数中，可认知从两个对象信号发生的两个事件。如果，对象信号的位置变更时，对于对象信号迟到的级别和延迟可不变化。音频内容的校准可假设为扬声器校准。

对象元数据文件可用于把信道信号和对象信号组合构成的场面定义成元数据。对象元数据可由(<item_name>.OAM表现。对象元数据文件可包括参与场面的对象信号的个数、信道信号的个数。对象元数据文件从场面说明者中提供整体信息的首部开始。在首部以后显示说明数据领域和对象说明数据领域的系列。

文件首部以后，可导出<number_of_channel_signals>信道说明领域(channeldescription fields)或者<number_of_object_signals>对象说明领域(objectdescription fields)中至少一个。【表1】

其中，scene_description_header()是从场面说明提供整体信息的首部。object_data(i)是为了第i个对象信号的对象说明数据。

【表2】

format_id_string显示OAM的固有文字识别者。

format_version显示文件格式的版本个数。

number_of_channel_signals显示在场面被编译的信道信号的个数。number_of_channel_signals为0时，场面意味着只基于对象信号。

number_of_object_signals显示在场面被编译的对象信号的个数。number_of_object_signals为0时，场面意味着只基于信道信号。

description_string可包括人可读的内容说明者。

channel_file_name可包括音频信道文件的文件名的说明字符串。

object_description可包括说明对象的人可读的文字说明的说明字符串。

其中，number_of_channel_signals，channel_file_name可指信道信号的渲染信息。

【表3】

sample_index是基于从分配对象说明样品中，显示音频内容内部时间位置时间印记的样品。音频内容的第一个样品中sample_index表现为0。

object_index显示参照对象分配的音频内容的对象编号。第一个对象信号时，object_index表现为0。

position_azimuth为对象信号的位置，表现为-180度与180度范围的azimuth(°)。

position_elevation为对象信号的位置，表现为-90度与90度范围的elevation(°)。

position_radius为对象信号的位置，表现为不是负数的radius(m)。

gain_factor是指对象信号的增益或者音量。

所有对象信号在定义的时间印记中，可具有指定位置(azimuth，elevation，及radius)。在指定位置中，解码装置的渲染单元可计算平移增益(panning gain)。相邻的时间印记的双间的平移增益可由线性插补。解码装置的渲染单元对位于最有效点的收听者，以在对象信号位置迟到的方向对应的方式可计算扬声器的信号。所述插补可执行指定对象信号的位置正确的到达对应的sample_index。

解码装置渲染单元可把对象元数据文件和以其对象说明表现的场面变换成包括22.2信道的扬声器信号的.wav文件。对于各个的扬声器信号，信道基础的内容可经渲染单元附加。

VBAP(Vector Base Amplitude Panning)算法可经位于最有效点的混频单元播放导出的内容。VBAP为了计算平移增益可利用由以下三个顶点构成的三角网格。

【表4】

除了播放位于前面低位的对象信号和位于前面侧面的对象信号，22.2信道信号不可支援在收听者位置以下(标高＜0°)的音频信源。可计算经扬声器的设置指定的限定事项以下的音频信源。渲染单元根据对象信号的方位角可设定对象信号的最小标高。

最小标高可经在参照22.2信道的设置的可最低位置的扬声器被决定。例如，在方位角45°的对象信号可具有-15°的最小标高。假如，对象信号的标高比最小标高低时，对象信号的标高计算VBAP平移增益之前，可自动地调整最小标高。

最小标高可经如下的音频对象的方位角被决定。

方位角显示BtFL(45°)和BtFL(-45°)之间的位于前面的对象信号的最小标高是-15°。

方位角显示Sil(90°)和Sil(-90°)之间的位于前面的对象信号的最小标高是0°。

方位角显示Sil(90°)和BtFL(45°)之间的对象信号的最小标高可经直接连接Sil和BtFL的线被决定。

方位角显示Sil(90°)和BtFL(-45°)之间的对象信号的最小标高可经直接连接Sil和BtFL的线被决定。

(3)HOA基础输入数据

HOA基础输入数据可由单声道信道信号的集合传输，且各个的信道信号可由具有48KHz的抽样率的单声道.wav文件被表现。

各个.wav文件的内容是时间域的HOA实数系数信号，且可表现为HOA组件

声场说明(sound field description(SFD))可根据以下数学式1决定。

【数学式1】

其中，时间域的HOA实数系数可由

被定义。在这种情况下，iF_t{}是倒转时间域傅里叶变换，且F_t{}对应于

HOA渲染单元可提供操纵球形(spherical)扬声器排列的输出信号。在这种情况下，扬声器排列不是球形时，为了扬声器的排列可执行时间补偿及级别补偿。

HOA组件文件可如下的被表现。

<item_name>_<N>_<n><μ><±>.wav

其中，N是HOA的次数。并且，n是次指数、μ＝abs(m)、±＝sign(m)。并且，m显示方位角频率指数，且可通过如下表5定义。

【表5】

图10是示出按照其他实施例的解码装置的详细构成图。

参考图10，解码装置可包括USAC 3D解码单元1010、对象渲染单元1020、OAM解码单元1030、SAOC 3D解码单元1040、混频单元1050、双声道渲染单元1060及格式变换单元1070。

USAC 3D解码单元1010基于MPEG USAC技术可解码扬声器的信道信号、不连续的对象信号、对象降混信号、预渲染对象信号。USAC 3D解码单元930基于输入的信道信号和对象信号的几何(geometric)信息，或者语义(semantic)信息可生成信道映射信息和对象映射信息。其中，信道映射信息和对象映射信息显示如何把信号信号和对象信号映射在USAC信道元件(CPEs，SCEs，LFEs)。

对象信号依赖于率/失真(rate/distortion)要求可由其他方式解码。预渲染的对象信号可由22.2信道信号译码。并且，不连续的对象信号可在USAC3D解码单元930由单声道(monophonic)波形被输入。由此，USAC 3D解码单元930添加在信道信号，且为了传输对象信号可利用单信道元件SCEs。

还有，参数化对象信号通过SAOC参数可定义对象信号的属性和对象信号之间的关系。对象信号的降混结果可由USAC技术解码，且参数化信息可另外的传输。降混信道的个数可根据对象信号的个数和整个数据率被选择。

对象渲染单元1020可通过USAC 3D解码单元1010渲染输出的对象信号后，传到混频单元1050。具体地，对象渲染单元1020利用传到OAM解码单元1030的对象元数据(OAM)可根据制定生成格式生成对象波形(object waveform)。各个的对象信号根据对象元数据可渲染成输出信道。

OAM解码单元1030可解码从编码装置传输的编码对象元数据。并且，OAM解码单元1030可把导出的对象元数据转达给对象渲染单元1020和SAOC 3D解码单元1040。

SAOC 3D解码单元1040可从解码的SAOC传输信道和参数化信息复原对象信号和信道信号。并且，基于播放布局、复原的对象元数据及附加的用户控制信息可输出音频场面。参数化信息由SAOC-SI表现，且可包括对象等级区别OLD(Object Level Difference),内部对象互相关IOC(Inter Object Cross Correlation),降混增益DMG(Downmix Gain)等对象信号间的空间参数化。

混频单元1050可利用(i)从USAC 3D解码单元101输出的信道信号和预渲染对象信号、(ii)从对象渲染单元1020输出的渲染对象信号、(iii)从SAOC 3D解码单元1040输出的渲染对象信号生成符合指定扬声器格式的信道信号。具体地，信道基础内容和不连续/参数化对象被解码混频单元1050可把与信道波形渲染的对象波形延迟对齐(delay-aligned)、样品明智(sample-wise)。

作为一个示例，混频单元1050可通过以下的语法混频。

channelConfigurationIndex；
	if(channelConfigurationIndex＝＝0){
UsacChannelConfig()；

其中，channelConfigurationIndex可以是根据以下的表映射的扬声器、信道元件及信道信号的个数。在这种情况下，channelConfigurationIndex可定义为信道信号的渲染信息。

【表6】

通过混频单元1050，输出的信道信号可直接的馈入在扬声器播放。并且，上升到渲染单元1060对多个信道信号可执行双声道降混。在这种情况下，输入在双声道渲染单元1060的信道信号可表现为虚拟声源(virtual sound source)。双声道渲染单元1060在QMF指数可由框架进行的方向执行。双声道渲染可基于标定的双声道房室脉冲响应(roomimpulse response)执行。

格式变换单元1070可执行从混频单元1050传输的信道信号的构成和所愿的扬声器播放格式间的格式变换。格式变换单元1070可把从混频单元1050输出的信道信号的信道个数降混，变换成更低的信道个数。格式变换单元1070可把从混频单元1050输出的信道信号的构成优化成不仅是标准扬声器构成，而且具有非标准扬声器构成的随机构成，为此可降混或者上混信道信号。

本发明可提供信道信号及对象信号一起编码信道信号的渲染信息、传输，使得根据音频内容输出的环境处理信道信号的功能。

根据实施例的方法可通过多种计算机手段以可执行的程序指令形态被记录在计算机可读媒体中。计算机可读媒体可包括独立的或结合的程序指令、数据文件、数据结构等。媒体和程序指令可为了本发明被专门设计和创建，或为计算机软件技术人员熟知而应用。计算机可读媒体的例子包括：磁媒体(magnetic media)，如硬盘、软盘和磁带；光学媒体(optical media)，如CD ROM、DVD；磁光媒体(magneto-optical media)，如光盘(flopticaldisk)；和专门配置为存储和执行程序指令的硬件装置，如只读存储器(ROM)、随机存取存储器(RAM)等。程序指令的例子，既包括由编译器产生的机器代码，也包括使用解释程序并可通过计算机被执行的高级语言代码。为执行实施例的运作，所述硬件装置可被配置为以一个以上的软件模来运作，反之亦然。

如上所示，实施例虽然经有限的实施例和附图进行了说明，但是，在本发明所属领域中具备通常知识的人均可以从此记载中进行各种修改和变形。例如，可通过与说明的方法不同的顺序来执行所说明的技术，或是通过与说明的方法不同的形态来结合或组合所说明的系统、结构、装置、电路等的构成要素，或是通过其他构成要素或同等事物来代替或置换也可获得适当结果。

因此，其他表现、其他实施例及与权利要求均等的也包括在后续的权利要求范围。

Claims

1.一种解码装置，其包括：

联合语音及音频编码USAC三维3D解码单元，输出扬声器的信道信号和对象信号，其中，所述对象信号包含不连续的对象信号、对象降混信号以及预渲染对象信号；

对象元数据OAM解码单元，解码出对象元数据；

对象渲染单元，利用所述对象元数据，根据制定生成格式生成对象波形，其中，各个不连续的对象信号基于所述对象元数据而被渲染成所述扬声器的信道信号；

空间音频对象编码SAOC 3D解码单元，从解码的SAOC传输信道和参数化信息复原所述对象信号和所述信道信号，并且基于播放布局以及所述对象元数据输出音频场面；

混频单元，当信道基础内容和不连续/参数化对象在USAC 3D解码单元中被解码时，把与信道波形渲染的对象波形延迟对齐和按样品相加；以及

其中，所输出的信道信号基于与增益和旋转角度相关的信息而被渲染。

2.如权利要求1所述的解码装置，其中，所述信道信号基于水平角度及垂直角度来渲染。

3.一种解码方法，其步骤包括：

通过联合语音及音频编码USAC三维3D解码单元，输出扬声器的信道信号和对象信号，其中，所述对象信号包含不连续的对象信号、对象降混信号以及预渲染对象信号；

通过对象元数据OAM解码单元，解码出对象元数据；

通过对象渲染单元，根据制定生成格式，利用所述对象元数据生成对象波形，其中，各个对象信号基于所述对象元数据而被渲染成所述扬声器的信道信号；

通过空间音频对象编码SAOC 3D解码单元，从解码的SAOC传输信道和参数化信息复原所述对象信号和所述信道信号，并且基于播放布局以及所述对象元数据输出音频场面；

在混频单元中，当信道基础内容和不连续/参数化对象在USAC 3D解码单元中被解码时，把与信道波形渲染的对象波形延迟对齐和按样品相加；以及

4.如权利要求3所述的解码方法，其中，所述信道信号基于水平角度及垂直角度来渲染。

5.如权利要求3所述的解码方法，其中所述对象信号在定义的时间印记中具有position_azimuth、position_elevation、position_radius和gain_factor。

6.如权利要求3所述的解码方法，其中所述对象渲染单元计算所述对象信号的平移增益。

7.如权利要求6所述的解码方法，其中相邻的时间印记的对之间的平移增益被线性插补。

8.如权利要求6所述的解码方法，其中基于包含扬声器的顶点的三角网格来计算平移增益。