CN100553374C

CN100553374C - 处理具有扩展空间性的声源的三维音频场景的方法

Info

Publication number: CN100553374C
Application number: CNB200380103930XA
Authority: CN
Inventors: 徐廷一; 张大永; 姜京玉; 金镇雄; 安致得
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2002-10-15
Filing date: 2003-10-15
Publication date: 2009-10-21
Anticipated expiration: 2023-10-15
Also published as: KR100626661B1; KR20040034443A; JP4499165B2; JP2008172826A; CN1714600A

Abstract

一种处理其声源空间性被扩展的3D音频场景的方法描述声源的形状和大小属性。该方法包括步骤：a)产生包括声音对象的声源特征信息的三维音频场景描述信息；和b)对所述声音对象和包括所述声音对象的声源特征信息的三维音频场景描述信息进行编码，其中，所述声源特征信息包括声源的空间性扩展信息，该信息是关于在三维空间中表示的声源的大小和形状的信息。

Description

处理具有扩展空间性的声源的三维音频场景的方法

技术领域

本发明涉及一种用于处理具有其空间性被扩展的声源的三维音频场景的方法，具体地说，涉及一种用于处理三维音频场景以扩展在三维音频场景中的声源的空间性的方法。

背景技术

通常，内容提供服务器以预定的编码方法对内容编码并将编码后的内容发送给消费该内容的内容消费终端。内容消费终端以预定的解码方法解码该内容并输出所发送的内容。

因此，内容提供服务器包括用于编码内容的编码单元和用于发送编码后内容的发送单元。另一方面，内容消费终端包括用于接收所发送的编码后内容的接收单元、用于解码编码后内容的解码单元、和用于向用户输出解码后内容的输出单元。

迄今为止，已经知道了很多对音频/视频信号进行编码/解码的方法。在这些方法中，基于运动图像专家组4(MPEG-4)的编码/解码方法近来得到了广泛地使用。MPEG-4是与由MPEG定义的数据压缩和恢复技术相关的技术标准，用于以低发送速率发送运动图像。

MPEG-4，是ISO/IEC 14496-1，按照音频视频信息和相关的场景描述信息定义了用于编码/解码音频视频(AV)场景的技术。组成并发送、或者接收和呈现音频视频场景的这种编码表示的实体通常被称作“音频视频终端”或者仅仅为“终端”。该终端可以对应于一种独立的应用或者对应于应用系统的一部分。

MPEG-4描述了一种用于通信音频视频信息的系统，也就是，表示能够在听觉上和/或视觉上明白的物理或虚拟对象。在编码器侧，与物理场景相关的音频视频信息被压缩，如果需要的话被纠错保护，并且以被发送的一个或多个编码二进制流进行多路复用。在解码器侧，这些流被信号分离，纠错，解压缩，合成，并且被呈现给终端用户。在“Coding of Moving Pictures AndAudio”，ISO/IEC JTC1/SC29/WG11 N1483，Systems Working Draft Version 2.0，November 22，1996中公开了这些内容。

根据MPEG-4，任何形状的对象都可以被编码，并且内容消费终端消费由多个对象组成的场景。因此，MPEG-4利用用于指定声音对象表示方法及其特征的场景描述语言来定义用于场景的音频二进制格式(BIFS)。

场景描述是指描述音频视频对象的时空定位的信息，在“Coding OfMoving Pictures And Audio，”ISO/IEC JTC1/SC29/WG11 N1901，Text for CD14496-1Systems，November 21，1997中描述了这些内容。MPEG-4，是ISO/IEC14496-1，解决了各种类型：自然视频和音频对象，的音频视频对象的编码，并且解决了合成音乐和声音效果。为了在终端重建多媒体场景，因此不足以将原始音频视频数据发送到接收终端。在终端处需要附加的信息来组合该音频视频数据，并且向终端用户构造和呈现有意义的多媒体场景。这种信息，被称作场景描述，确定了音频视频对象在空间和时间的位置并且与对象一起被发送。场景描述仅描述了场景的结构。在相同表示空间中组成这些对象的动作称作合成(composition)。将这些音频视频对象从公共表示空间变换到特定呈现装置、即扬声器和观察窗的动作被称作表现(rendering)。

AV对象的示例是传统的视频、传统的音频、包括语音、音乐的预先混合的音频轨道、诸如MIDI的合成音频等。在AV对象可以被定义为其他AV对象的组成部分的情况下，被称作子对象，AV对象可以是分等级的。由子对象组成的AV对象被称作混合(compound)AV对象。所有其他AV对象被称作原始AV对象。层级结构中最顶部的对象被称作“场景”。AV场景是混合AV对象的层级结构中的最顶部的AV对象，并且在“Coding Of MovingPictures And Audio，”ISO/IEC JTC1/SC29/WG11 N1483，Systems Working DraftVersion 2.0，November 22，1996中公开了这些内容。一组AV对象被称作AV场景，并且AV场景包括定义AV对象的空时属性的场景描述信息。

同时，伴随着视频的开发，用户试图消费更加逼真的声音和视频质量的内容。在场景的MPEG-4音频二进制格式(Audio BIFS)中，使用AudioEX节点和DirectiveSound节点来表示三维音频场景的空间性。

BIFS场景描述是表示预定组对象的简洁二进制格式。BIFS格式包含关于对象的属性的信息，其定义包含这些对象的场景图的音频视频属性和结构。BIFS场景描述数据自身被传送到接收机作为基本(elementary)流。

BIFS场景描述包括描述场景及其布局的节点的集合(collection)。场景中的对象通过一个或多个节点来描述，其使用分组节点可被分组在一起。

对象可被完全描述在BIFS信息中，或者可以需要来自一个或多个AV解码器的流数据。在后面的情况下，节点指出对象描述符或者URL描述符，其指示基本流与该节点相关。

声音节点被用来根据以MPEG-4编码工具编码的音频源来创建音频场景。声音可被包含在2D或3D场景图中。在3D场景中，声音可以根据对象和听众的位置被空间地呈现，以便明显地起源于特定3D方向。声音节点被用来将声音附加到3D和2D场景图。使用视频对象，由该节点表示的音频对象在空间和时间具有一个位置，并且通过场景中在它们等级之上的节点的空间和分组变换来进行变换。然而，声音节点之下的节点组成音频子树。通过几个音频流的混合和处理，可以使用该子树来描述特定音频对象。除了表示空时变换的层级以外，音频子树内的节点表示信号流图，用于描述如何根据AudioSource流中编码的声音来创建音频对象。也就是，每个音频子树节点，即、AudioSource、AudioMix、AudioSwitch、AudioFX、Sound等接受输入声音的一个或几个通道，并且描述如何将输入声音的这些通道转换为输出声音的一个或多个通道。仅音频视频场景中呈现的声音是作为声音节点的子女的音频节点的输出的那些声音，也就是，音频子树中的“最高”输出。这里，AudioSource定义场景的声音输入，并且AudioMix混合声音。AudioSwitch切换场景中的声音，而AudioFX组合为定义特定声音的声音配置的音频对象。AudioSource被用来将声音添加到场景。在ISO/IEC CD 14496-3：1997中披露了各种音频编码工具。音频子树中呈现的音频节点不是每个都表示场景中将被呈现的声音。相反，音频子树表示信号流图，其基于AudioSource节点和参数变换中的一组音频输入来计算单个(可能是多通道)音频对象。仅呈现给听众的声音是作为这些音频子树的“输出”的声音，其连接到声音节点。这在“Coding Of Moving Pictures And Audio”1997.11.21.ISO/IECJTC1/SC29/WG11 N1901，Text for CD 14496-1Systems中被披露了。

在这些节点上，声源的建模通常依靠点源。在三维声音空间中可以容易地描述和体现点源。

但是，实际的点源趋向具有大于2的维数，而不是字面意义上的点。这里，更重要的是人类可以识别声源的形状，这是由J.Baluert、“SpatialHearing”、the MIT Press，C ambridge Mass，1966披露的。

例如，与直线延伸的海岸线碰撞的波的声音可以被识别为线性声源而不是点声源。

为了使用Audio BIFS改善三维音频场景的真实的感觉，应当表示声源的大小和形状。否则，三维音频场景的声音对象的真实感觉将被严重损害。

即，应当描述声源的空间性，以便赋予三维音频场景多于一维的声源。

发明内容

因此，本发明的目的是提供一种通过将具有与扩展声源空间性的信息相关的声源特征信息添加到三维音频描述信息中来处理具有其空间性被扩展的声源的三维音频场景的方法。

本领域普通技术人员从本发明附图、详细描述和权利要求书可以很容易地识别本发明的其它目的和优点。

根据本发明的一方面，提供了一种用于处理具有其空间性被扩展的声源的三维音频场景的方法，包括下述步骤：a)产生包括声音对象的声源特征信息的三维音频场景描述信息；和b)对所述声音对象和包括所述声音对象的声源特征信息的三维声音场景描述信息进行编码，其中，所述声源特征信息包括声源的空间性扩展信息，该信息是关于在三维空间中表示的声源的大小和形状的信息。

根据本发明的另一方面，提供了一种用于处理具有其空间性被扩展的声源的三维音频场景的方法，包括下述步骤：a)对声音对象和包括所述声音对象的声源特征信息的三维音频场景描述信息进行解码；和b)根据三维音频场景描述信息而输出声音对象，其中，所述声源特征信息包括空间性扩展信息，该信息是关于在三维空间中表示的声源的大小和形状的信息。

根据本发明的另一方面，提供了一种具有其空间性被扩展的声源的三维音频场景数据流，其包括：声音对象；和三维音频场景描述信息，包括用于声源对象数据的声源特征信息，其中，声源特征信息包括空间性扩展信息，该信息是关于在三维空间中表示的声源的大小和形状的信息。

附图说明

通过下面结合附图给出的最佳实施例的描述，本发明的上述和其它目的和特性将变得明显，其中：

图1是图解声源的各种形状的图；

图2是描述用于通过连续分组点声源表示空间声源的方法的图；

图3示出了根据本发明的一个例子，在该例子中，空间性扩展信息被添加到Audio BIFS的“DirectiveSound”节点；

图4是图解根据本发明声源如何被扩展的图；和

图5是描述根据本分明基于各种声源形状的点声源的分布的图。

具体实施方式

通过下面结合附图对实施例的描述，本发明的其它目的和范围将变得更加明显。

下面的描述仅仅解释本发明的原理。即使是在本说明书中没有清楚地描述或示出它们，本领域内的普通技术人员也可以在本发明的概念和范围内实施本发明的原理和本发明的各种装置。

在本说明书中存在的条件项的使用和实施例仅仅试图帮助对本发明的概念加以理解，并且本发明并不局限于在说明书中描述的实施例和条件。

另外，关于本发明原理、观点和实施例以及特定实施例的详细描述都应当被理解为包括结构及其与之等效的功能等效物。该等效物不仅包括当前已知的等效物，也包括将来研制出的等效物，即，被发明用来执行相同功能的所有设备，而不管其结构如何。

例如，本发明的框图将被理解为示出了实施本发明原理的概念性观点的解释性电路。类似的，所有的流程曲线、状态转换图表和伪码等都可以表示在计算机可读媒体中，并且，不管是否特别描述了计算机或处理器，它们都应当被理解为表示由计算机或处理器运行的各种处理。

在附图中示出的包括被表示为处理器或类似概念的功能框的各种设备的功能不仅可以使用专用于该功能的硬件提供，也可以使用能够运行与该功能相关的适当软件的硬件提供。当由处理器提供功能时，该功能可以由单一的专用处理器、信号共享的处理器或部分可被共享的多个单独的处理器提供。

‘处理器’、‘控制’或类似概念等术语的表面使用应当被理解为排它地指一个能够运行软件的硬件，还应当被理解为固有地包括数字信号处理器(DSP)、硬件和用于存储软件的ROM、RAM和非易失存储器。这里，也可以包括其它已知和公用的硬件。

在本说明书的权利要求书中，被表示为用于执行详细说明书中描述的功能的装置的元件试图包括用于执行包括软件的所有格式的功能的所有方法，诸如执行所欲功能的电路的组合以及固件/微码等。为了执行所欲的功能，元件与执行软件的适当电路协同工作。由权利要求定义的本发明包括执行特定功能的不同装置，和这些装置通过在权利要求书中请求的方法彼此相互连接。因此，能够提供相关功能的任何一种装置都应当被理解为等效于本说明书指出的装置。

通过下面结合附图对实施例的描述，本发明的其它目的和方面将变得更加明显。相同的参考标记被给予相同的元件，尽管这些元件出现在不同的附图中。另外，如果确定关于相关现有技术的描述使本发明的要点变得模糊，那么这些描述将被省略。下面将详细描述本发明的实施例。

图1是图解声源的各种形状和大小的图。参看图1，声源可以是点、线、表面和具有体积的空间。由于声源具有任意的形状和大小，所以，对声源的描述非常复杂。但是，如果控制了将被模拟的声源的形状，那么，就可以不太复杂地描述该声源。

在本发明中，假设在虚拟声源的维数中均匀地分布了多个点声源以便模拟各种形状和大小的声源。结果是，各种形状和大小的声源可以被表示为点声源的连续阵列。这里，可以使用在三维场景中定义的声源的矢量位置来计算虚拟对象中每个点声源的位置。

当利用多个点声源来模拟空间声源时，使用在Audio BIFS中定义的节点描述该空间声源。当使用在Audio BIFS中定义并被称之为AudioFX节点的该节点时，任何一种效果都能够被包括在三维场景中。因此，与空间声源对应的效果可以被经过AudioFX节点编程和插入到三维场景中。

但是，这需要非常复杂的数字信号处理(DSP)算法，并且控制空间声源的维数也非常麻烦。

另外，使用Audio BIFS分组在对象有限维数中分布的点声源，并且可以通过改变声源组改变声源的空间位置和方向。首先，使用多个“DirectiveSound”节点来描述点声源的特征。点声源的位置被计算出均匀分布在对象的表面上。

随后，利用能够消除空间混淆的空间距离来定位点声源，这种技术是由A.J.Berkhout、D.de.Vries和P.Vogel于1993年5月在J.Aoust Soc.Am 93卷5号从第2764页到2778页的“Acoustic control by wave field synthesis”中披露的。使用组节点并且对点声源分组可以对空间声源进行矢量化。

图2是描述Audio BIFS的场景的示意图。在该图中，使用沿线性声源的轴均匀分布的三个点声源来模拟虚拟连续线性声源。

根据虚拟声源的概念，点声源的位置可以被确定为是(x₀-dx，y₀-dy，z₀-dz)、(x₀，y₀，z₀)和(x₀+dx，y₀+dy，z₀+dz)。这里，可以根据听众和声源位置之间的矢量、声源方向矢量之间的角度以及以角度场和方向场定义的矢量和角度计算Dx、dY和dz。

图2描述了使用多个点声源的空间声源。Audio BIFS能够支持特定场景的描述。但是，这种方法需要太多的不必要的声音对象定义。这是由于很多对象应当被定义以便模拟一个单一的对象。

当被告知运动图像专家组4(MPEG-4)的混合描述的真对象是更多的面向对象表示时，它希望将用于模拟一个特定声源的多个点声源组合起来，并再现一个单一的对象。

根据本发明，新的字段被添加到Audio BIFS的“DurectiveSound”节点上以描述声源的形状和大小属性。图3示出了一个例子，其中，根据本发明，空间性扩展信息被添加到Audio BIFS的“DirectiveSound”节点上。

参看图3，与“SourceDimensions”字段的值对应的新绘制设计被应用于“DirectiveSound”节点。“sourceDimensions”字段还包括声源的形状信息。如果“SourceDimensions”字段的值是“0，0，0”，那么，声源变成一个点。没有用于扩展声源的附加技术被应用于“DirectiveSound”节点。如果“SourceDimensions”字段的值是除“0，0，0”以外的值，那么，声源的维数被虚拟地扩展。

在“DirectiveSound”节点中，声源的位置和方向分别是由位置字段和方向字段定义的。声源的维数基于“SoundDimentions”字段的值被垂直扩展到在方向字段中定义的矢量。

“location”字段定义扩展的声源的几何中心，而，“SoundDimentions”字段定义声源的三维尺寸。简言之，被空间扩展的声源的大小是根据ΔX、ΔY和ΔZ的值确定的。

图4示出了根据本发明声源是如何被扩展的。如图所示，“SourceDimensions”字段的值是(0，Δy，Δz)，Δy和Δz不等于零(Δy≠0，Δz≠0)。这表示表面声源具有Δy×Δz的区域。

在“SourceDimentions”字段的值、即(0，Δy，Δz)的基础上，示出的声源在垂直于在“direction”字段中定义的矢量的方向上被扩展，因此，形成表面声源。如上所述，当定义了声源的维数和位置时，点声源位于被扩展声源的表面。在本发明中，点声源的位置被计算为均匀地分布在被扩展声源的表面上。

图5A到5C示出了根据本发明基于各种声源形状的点声源的分布。声源的维数和距离是自由变量。因此，可以任意形成可被用户识别的声源的大小。

例如，可以通过线性扩展多个点声源来表示使用麦克风阵列记录的多轨道音频信号，如图5A所示。在这种情况下，“SourceDimentions”的值是(0，0，Δz)。

另外，不同的声源信号可以被表示为点声源的扩展，以便产生扩展的声源。图5B和5C示出了经过点声源扩展的表面声源和具有体积的空间声源。在图5B的情况下，“SourceDimensions”字段的值是(0，ΔY，ΔZ)，和在图5C的情况下，“SourceDimensions”字段的值是(ΔX，ΔY，ΔZ)。

当如上所述定义空间声源的维数时，点声源的数量(即输入音频频道的数量)确定在扩展声源中点声源的密度。

如果在“Source”字段中定义了“AudioSource”节点，那么，“numChan”字段的值可以指出所使用的点声源的数量。在“DirectiveSound”节点的“angle”、“directivity”和“frequency”字段中定义的方向性可以被均匀地应用到包括在扩展声源中的所有点声源。

通过扩展内容声源的空间性，本发明的装置和方法可以产生更加有效的三维声音。

尽管已经结合某些最佳实施例描述了本发明，但很明显，对于本领域普通技术人员来讲，在不脱离由权利要求书定义的本发明的范围的情况下，可以做出各种改变和修改。

Claims

1.一种用于处理具有其空间性被扩展的声源的三维音频场景的方法，包括下述步骤：

a)产生包括声音对象的声源特征信息的三维音频场景描述信息；和

b)对所述声音对象和包括所述声音对象的声源特征信息的三维音频场景描述信息进行编码；

其中，所述声源特征信息包括声源的空间性扩展信息，该信息是关于在三维空间中表示的声源的大小和形状的信息。

2.根据权利要求1所述的方法，其中，声源的空间性扩展信息包括声源维数信息，该信息被表示为三维直角坐标的三个分量。

3.根据权利要求2所述的方法，其中，所述三个分量是X分量、Y分量和Z分量。

4.根据权利要求2所述的方法，其中，声源的空间性扩展信息还包括声源维数信息的几何中心位置信息。

5.根据权利要求2所述的方法，其中，声源的空间性扩展信息包括声源的方向信息，并且声源的空间性扩展信息通过在垂直于声源方向的方向上扩展声源的空间性来描述三维音频场景。

6.一种用于处理具有其空间性被扩展的声源的三维音频场景的方法，包括下述步骤：和

a)对声音对象和包括所述声音对象的声源特征信息的三维音频场景描述信息进行解码；和

b)根据三维音频场景描述信息而输出声音对象，

其中，所述声源特征信息包括空间性扩展信息，该信息是关于在三维空间中表示的声源的大小和形状的信息。

7.根据权利要求6所述的方法，其中，声源的空间性扩展信息包括声源维数信息，该信息被表示为三维直角坐标的三个分量。

8.根据权利要求7所述的方法，其中，所述三个分量是三维直角坐标的X分量、Y分量和Z分量。

9.根据权利要求7所述的方法，其中，声源的空间性扩展信息还包括声源维数信息的几何中心位置信息。

10.根据权利要求7所述的方法，其中，声源的空间性扩展信息还包括声源的方向信息，并且声源的空间性扩展信息通过在垂直于声源方向的方向上扩展声源的空间性来描述三维音频场景。