CN1717955A

CN1717955A - 用于描述音频信号的合成的方法

Info

Publication number: CN1717955A
Application number: CNA2003801043466A
Authority: CN
Inventors: 延斯·斯皮利; 于尔根·施密特
Original assignee: Thomson Licensing SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2002-12-02
Filing date: 2003-11-28
Publication date: 2006-01-04
Anticipated expiration: 2023-11-28
Also published as: BRPI0316548B1; CN1717955B; EP1568251B1; AU2003298146B2; DE60311522T2; AU2003298146A1; WO2004051624A3; ATE352970T1; JP4338647B2; BR0316548A; DE60311522D1; WO2004051624A2; KR20050084083A; EP1568251A2; KR101004249B1; PT1568251E; JP2006517356A; US9002716B2; US20060167695A1

Abstract

一种用于描述音频信号合成的方法，将所述音频信号编码为独立的音频对象。在声音场景中，通过在场景描述中层次排列的节点，描述音频对象的设置和处理。使用所述2D向量和描述所述音频对象深度的1D值，仅针对使用2D向量在2D屏幕上空间定位所指定的节点描述了音频对象的3D位置。在其它实施例中，进行了坐标映射，其使得在屏幕平面中图形对象的运动可以被映射到在垂直于所述屏幕平面的深度中的音频对象的运动。

Description

用于描述音频信号的合成的方法

技术领域

本发明涉及一种用于对音频信号的表述(presentation)进行编码和解码的方法和装置，具体地，针对在3D域中以MPEG-4编码的音频信号的空间定位(spatialization)。

背景技术

在MPEG-4音频标准ISO/IEC 14496-3：2001和MPEG-4系统标准14496-1：2001中所定义的MPEG-4音频标准，通过支持音频对象的表示(resentation)而促进了大量应用。对于音频对象附加信息的结合，即所谓的场景描述，确定了空间和时间的位置，并且与所编码的音频对象一起传输。

对于音频对象的重放进行单独地解码，并且使用场景描述进行合成，以便于准备单个声道，然后向听众播放。

为了提高效率，MPEG-4系统标准ISO/IEC 14496-1：2001定义了以二进制表示对场景描述进行编码的方法，所谓针对场景描述的二进制格式(BIFS)。相应地，音频场景使用所谓的音频BIFS进行描述。

场景描述是层次的结构，并且可以表示为图表，其中图表的叶节点形成独立对象，并且其它节点描述处理，例如定位、缩放、增加效果(effect)。可以在场景描述节点之内使用参数对独立对象的外表和行为进行控制。

发明内容

本发明基于对以下论据的认可。上述的MPEG-4音频标准版本定义了被称作″Sound″的节点，其允许在3D域中的音频信号的空间定位。其它被称作″Sound2D″的节点仅允许在2D屏幕上的空间定位。由于在2D和3D播放器中性能的不同实现，在2D图形播放器(2Dgraphical player)中没有详细规定″Sound″节点的使用。然而，根据游戏、电影和TV应用，公知的提供给最终用户完整的空间定位的″3D-Sound″表述是有意义的，即使视频表述局限于小型平面电视的前面。这对于所定义的″声音″和″Sound2D″节点是不可能的。

因此，本发明要解决的问题是克服上述缺点。该问题通过权利要求1中所公开的编码方法和权利要求5中所公开的相应的解码方法而解决。

原则上，本发明的编码方法包括声源的参数化(parametric)描述的产生，其包括允许在2D坐标系统中进行空间定位的信息。声源的参数化描述与所述声源的音频信号相链接。向所述参数化描述增加附加的1D值，其允许在3D域中所述声源在2D视觉前后关系中的空间定位。

独立的声源可以编码为独立的音频对象，并且在声音场景中声源的排列可以通过场景描述进行描述，所述场景描述具有与独立的音频对象相对应的第一节点和描述音频对象的表述的第二节点。第二节点的字段(field)可以定义声源的3D空间定位。

有利地，2D坐标系统与屏幕平面相对应，并且1D值与垂直于所述屏幕平面的深度信息相对应。

此外，所述2D坐标系统值到所述3维位置的变换可以使屏幕平面中的图形对象映射到在垂直于所述屏幕平面的深度上的音频对象的运动。

发明的解码方法主要包括，接收与声源相对应的音频信号，该声源与声源的参数化描述相链接。参数化描述包括允许在2D坐标系统中空间定位的信息。附加的1D值从所述参数化描述中分离。声源在3D域中的2D视觉前后关系中，使用所述附加的1D值进行空间定位。

可以独立地解码表示独立声源的音频对象，并且可以从所解码的音频对象，使用场景描述来合成单独的声道，场景描述具有与独立的音频对象相对应的第一节点和描述音频对象的处理的第二节点。第二节点的字段可以定义声源的3D空间定位。

具体实施方式

Sound2D节点定义如下：Sound2D{

exposedField SFFloat intensity 1.0

exposedField SFVec2f location 0，0

exposedField SFNode source NULL

field SFBool spatialize TRUE}

作为3D节点的声音节点定义如下：Sound{

exposedField SFVec3f direction 0，0，1

exposedField SFFloat intensity 1.0

exposedField SFVec3f location 0，0，0

exposedField SFFloat maxBack 10.0

exposedField SFFloat maxFront 10.0

exposedField SFFloat minBack 1.0

exposedField SFFloat minFront 1.0

exposedField SFFloat priority 0.0

exposedField SFNode source NULL

Field SFBool spatialize TRUE}

以下，将用于所有声音节点(Sound2D、Sound和DirectiveSound)的通用术语写为小写字母，例如′声音节点(sound nodes)′。

在最简单的情况下，Sound或Sound2D节点通过音频源节点连接到解码器输出。Sound节点包括intention和location信息。

从音频的角度来看，声音节点是扩音器映射(mapping)之前的最终节点。在具有几个声音节点的情况下，将对输出进行求和。从系统的角度来看，声音节点可以看作是针对音频子图的进入点。声音节点可以与非音频节点一起组成变换节点，所述变换节点将设置其初始位置。

利用AudioSource节点的phaseGroup字段，可以标记包含重要相位关系的通道，例如″立体声对″、″多通道″等情况。允许相位相关通道和非相位相关通道的混合操作。在声音节点中的空间定位的字段规定了声音是否进行空间定位。这仅对于不属于phaseGroup成员的通道是正确的。

Sound2D可以对2D屏幕上的声音进行空间定位。标准认为声音应该在距离为1米的尺寸为2m×1.5m的平面上空间定位。因为位置字段的值不受限制，所以该解释看起来是无效的，并且因此声音也可以位于屏幕尺寸之外。

Sound和DirectiveSound节点可以将位置设置在3D空间中的任何位置。对于现有扩音器位置的映射，可以使用简单的幅度移位(panning)或者更复杂的技术来完成。

Sound和Sound2D可以处理多通道输入，并且基本上具有相同的功能，但是Sound2D节点除了向前(front)之外不能空间定位声音。

一种可能是向所有场景图形轮廓增加Sound和Sound2D，即向SF2DNode群(group)增加声音节点。

但是，在2D场景图形轮廓中不包括″3D″声音节点的一个原因是，由于需要其用于声音方向和位置字段，典型的2D播放器不能处理3D向量(SFVec3f类型)。

另一个原因是为虚拟现实场景设计的Sound节点具体地具有移动收听点和针对远距离声音对象的衰减属性。为此，定义了收听点节点和Sound、maxBack、maxFront、minBack和minFront字段。

根据一个实施例，扩展了旧的Sound2D节点或者定义了新的Sound2Ddepth节点。Sound2Ddepth节点可以与Sound2D节点相似，但是具有附加的深度字段。Sound2Ddepth{

exposedField SFFloat intensity 1.0

exposedField SFVec2f location 0，0

exposedField SFFloat depth 0.0

exposedField SFNode source NULL

Field SFBool spatialize TRUE}

intensity字段调整声音的响度。其值的范围从0.0到1.0，并且该值规定了在声音重放期间所使用的因子。

location字段规定了在2D场景中的声音的位置。

depth字段使用与location字段相同的坐标系统规定了在2D场景中的声音的深度。默认值是0.0，并且其参考屏幕位置。

spatialize字段规定了声音是否应该空间定位。如果设置了该标志，声音应利用可能的最大复杂度(sophistication)进行空间定位。

与声音(3D)节点相同，针对多通道音频空间定位的规则也应用于Sound2Ddepth节点。

使用Sound2D节点，在2D场景中可以表述周围声音，就像作者对其进行记录。除了向前之外不可以空间定位声音。空间定位意味着根据用户相互影响或者场景更新而移动单声道信号的位置。

利用Sound2Ddepth节点，也可以在听众的后方、侧面或者上方对声音进行空间定位。假设音频表述系统具有能力对其进行表述。

本发明不局限于以上实施例，其中将附加的depth字段引入了Sound2D节点。此外，附加的深度字段可以插入到在Sound2D节点之上的等级设置的节点之中。

根据其它实施例，进行了坐标的映射。在Sound2DDepth节点中的附加字段dimensionMapping定义了变换，例如，如同用于将2D前后关系坐标系统(ccs)从已有的变换层次映射到节点的起点的2行×3列向量。

节点的坐标系统(ncs)的计算如下：

ncs＝ccs×dimensionMapping。

节点的位置是3维位置，来自关于ncs的2D输入向量位置和深度{location.x location.y depth}。

例如，节点的坐标系统的前后关系是{x_i，y_i}，dimensionMapping是{1，0，0，0，0，1}。这得到ncs＝{x_i，0，y_i}，其使得在y尺度中的对象的运动映射到深度中的音频运动。

字段‘dimensionMapping’可以定义为MFFloat。通过使用字段数据类型‘SFRotation’也可以得到相同的功能，其是另一种MPEG-4数据类型。

即使重放设备局限于2D图形，本发明允许在3D域中的音频信号的空间定位。

Claims

1.一种用于对音频信号的表述进行编码的方法，包括：

产生声源的参数化描述，其包括允许在2D坐标系统中空间定位的信息；

将所述声源的参数化描述与所述声源的音频信号相链接；

其特征在于

向所述参数化描述增加附加的1D值，所述附加的1D值允许在3D域中所述声源在2D视觉前后关系中的空间定位。

2.根据权利要求1所述的方法，其特征在于，将独立的声源作为独立的音频对象进行编码，并且通过场景描述，描述在声音场景中的声源排列，所述场景描述具有与独立的音频对象相对应的第一节点和描述音频对象的表述的第二节点，并且其中第二节点的字段定义了声源的3D空间定位。

3.根据权利要求1或2所述的方法，其特征在于，所述2D坐标系统与屏幕平面相对应，并且所述1D值与垂直于所述屏幕平面的深度信息相对应。

4.根据权利要求3所述的方法，其特征在于，所述2D坐标系统值到所述3维位置的转换，使在屏幕平面中的图形对象的运动被映射到在垂直于所述屏幕平面的深度中的音频对象的运动。

5.一种用于对音频信号的表述进行解码的方法，包括：

接收与所述声源的参数化描述相链接的声源相对应的音频信号，其中所述参数化描述包括允许在2D坐标系统中空间定位的信息；

其特征在于

从所述参数化描述中分离附加的1D值；以及

在3D域中，使用所述的附加1D值对所述声源进行2D视觉前后关系的空间定位。

6.根据权利要求5所述的方法，其特征在于，对表示独立声源的音频对象独立地进行解码，并且使用场景描述，从所解码的音频对象合成单个声道，场景描述具有与独立的音频对象相对应的第一节点和描述音频对象的处理的第二节点，并且其中第二节点的字段定义了声源的3D空间定位。

7.根据权利要求5或6所述的方法，其特征在于，所述2D坐标系统与屏幕平面相对应，并且所述1D值与垂直于所述屏幕平面的深度信息相对应。

8.根据权利要求7所述的方法，其特征在于，所述2D坐标系统值到所述3维位置的变换，使在屏幕平面中的图形对象的运动被映射到在垂直于所述屏幕平面的深度中的音频对象的运动。

9.一种用于执行根据以上任一权利要求所述方法的装置。