CN104429063A

CN104429063A - 增强3d音频/视频处理装置和方法

Info

Publication number: CN104429063A
Application number: CN201380036875.0A
Authority: CN
Inventors: 丁商五; 金庆镐; 全柄文
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2012-07-09
Filing date: 2013-07-09
Publication date: 2015-03-18
Anticipated expiration: 2033-07-09
Also published as: US9723287B2; WO2014010920A1; EP2871842A4; EP2871842A1; US20150181192A1; CN104429063B; KR20150032253A

Abstract

根据本发明一个实施方式的增强3D音频/视频处理装置可以包括：3D内容生成单元，用于生成包括视频内容和模拟内容的3D内容；深度信息生成单元，用于生成针对构成视频内容的视频帧的深度信息；以及信号生成单元，用于生成包括生成的3D内容和深度信息的3D增强信号。而且，根据本发明的另一个实施方式的增强3D音频/视频处理装置可以包括：信号处理单元，用于处理包括3D内容的3D增强信号，3D内容包括视频内容和音频内容；深度信息提取单元，用于从处理的3D增强信号获取构成视频内容的视频帧的深度信息；3D音频效果生成单元，用于基于获取的深度信息来生成3D音频效果；以及3D音频内容生成单元，用于通过应用生成的3D音频效果来生成3D音频内容。

Description

增强3D音频/视频处理装置和方法

技术领域

本发明涉及无线通信系统，并且更具体地说，涉及用于处理增强三维(3D)音频和视频数据的方法和装置，并且更具体地说，涉及处理增强3D音频/视频数据，以利用MPEG文件格式(MPEG file format)执行用信号通知基于3D视频深度来控制3D音频深度的深度关联信息的方法和装置。

背景技术

随着三维(3-Dimensional,3D)电视(TV)的广泛使用，基于存储介质的3D视频内容和基于数字广播的3D视频内容传输已经快速得到广泛使用。另外，基于3D效果的3D音频内容不仅被广泛应用于视频内容而且应用于音频内容。

随着数字技术的日益增长的开发，用户已经连续请求更精确的音频/视频(A/V)体验。为最大化响应于用户需求的A/V体验(experience)，已经出现应用了能够应用于普通家庭影院系统(Home Theater System,HTS)的立体声(stereo sound)和环绕声(surround sound)技术的先进声音系统(advanced sound system)。

因为大部分TV或HTS具有两个扬声器，所以通常使用立体声系统来向用户提供声音体验。然而，因为高端(high-end)HTS具有两个或更多个扬声器，所以环绕声系统已经被广泛用于向用户提供更柔和且精确的声音体验。

近来，已经密集讨论了在3D声音空间内再现方向和距离以生成3D声音效果，由此提供3D声音的3D音频技术。在该3D音频技术中，声音再现被控制的最佳听音位置(acoustic sweet spot)，即，用户可以听到最佳声音的位置或范围，可以是3D空间和用户可听声音的某些部分。

另外，3D视频技术和3D音频技术可以分别应用至内容，并且针对同时应用了3D视频技术和3D音频技术的3D内容的需求在快速增加。即，尽管针对利用传统3D视频技术和传统3D音频技术来独立地应用3D视频效果和3D音频效果的3D内容的需求在增加，但针对通过在3D视频效果与3D音频效果之间的同步而获取的3D内容的需求在更快速增加。

发明内容

技术问题

本发明的目的是，提供处理增强3D音频/视频数据，其利用MPEG文件格式来执行用信号通知深度信息，以响应于3D视频的深度来生成3D音频效果，使得3D视频效果与3D音频效果同步的方法和装置。

技术解决方案

本发明的目的可以通过提供一种增强(enhanced)三维(3D)音频/视频(A/V)处理方法来实现，该方法包括以下步骤：生成包括视频内容和音频内容的三维(3-Dimensional,3D)内容；生成构成所述视频内容的视频帧的深度信息，以及生成包括生成的所述3D内容和所述深度信息的3D增强信号。所述深度信息被用于生成要应用至所述音频内容的3D音频效果，所述深度信息包括帧标识信息、深度级(depthlevel)信息以及深度范围(depth range)信息。所述帧标识信息指示用于标识每个视频帧的帧号码，所述深度级信息指示要应用至每个视频帧的3D效果的程度，并且所述深度范围信息指示所述深度级的总级数。

根据本发明的另一方面，一种增强(enhanced)三维(3-Dimensional,3D)音频/视频(A/V)处理方法，该方法包括以下步骤：处理包括3D内容的三维(3D)增强信号，该3D内容被构造成具有视频内容和音频内容；从处理的所述3D增强信号获取构成所述视频内容的视频帧的深度信息；根据所获取的所述深度信息生成3D音频效果；以及基于所生成的所述3D音频效果生成3D音频内容。所述深度信息被用于生成要应用至所述音频内容的3D音频效果，所述深度信息包括帧标识信息、深度级(depth level)信息以及深度范围(depth range)信息。所述帧标识信息指示用于标识每个视频帧的帧号码，所述深度级信息指示要应用至每个视频帧的3D效果的程度，并且所述深度范围信息指示所述深度级的总级数。

有益效果

如根据上面的描述明显的是，该增强3D A/V装置可以利用基于3D视频深度的信令信息来生成3D声音效果，使得其可以提供3D视频数据和3D音频数据被正确同步的3D内容。

根据本发明，该增强3D A/V装置可以利用基于3D视频深度的信令信息来生成3D声音效果，从而降低装置设计的复杂性。

根据本发明，当发送基于3D视频深度的信令信息时，该增强3D A/V装置去除冗余信息，并且发送除了该冗余信息以外的剩余信息，从而获取较高的发送效率。

附图说明

图1是例示音频系统的发展过程的概念图。

图2是例示增强3D音频/视频(A/V)处理装置的概念图。

图3是例示根据本发明的实施方式的深度表的概念图。

图4是例示根据本发明的另一个实施方式的深度表的概念图。

图5是例示根据本发明的另一个实施方式的深度表的概念图。

图6是例示根据本发明的实施方式的3D声音空间的概念图。

图7是例示根据本发明的实施方式的视频帧的概念图。

图8是例示根据本发明的另一个实施方式的视频帧的概念图。

图9是例示根据本发明的另一个实施方式的视频帧的概念图。

图10是例示根据本发明的另一个实施方式的视频帧的概念图。

图11是例示根据本发明的另一个实施方式的视频帧的概念图。

图12是例示根据本发明的实施方式的增强3D A/V处理装置的框图。

图13是例示根据本发明的另一个实施方式的增强3D A/V处理装置的框图。

图14是例示根据本发明的实施方式的增强3D A/V处理方法的流程图。

图15是例示根据本发明的另一个实施方式的增强3D A/V处理方法的流程图。

具体实施方式

下面，对本发明的优选实施方式进行详细说明。其示例在附图中进行了例示。下面参照附图给出的详细描述旨在说明本发明的示例性实施方式，而非示出可以根据本发明实现的唯一实施方式。

尽管该说明书中的部件的大多数术语已经考虑到其在本说明书中的功能而从本领域中广泛使用的普通术语中选择，但这些术语可以根据本发明或本领域技术人员的习惯或者新技术的引入来改变。一些术语已经由本申请人任意选择，并且他们的含义若需要则在下面的描述中加以说明。由此，本说明书中使用的术语应当基于本说明书的总体内容与该术语的实际含义一起而非它们的简单名称或含义来解释。

随着数字技术的日益发展，用户需要更好的音频/视频(A/V)体验(experience)。为最大化响应于用户请求的A/V体验，已经出现应用了能够应用于普通家庭影院系统(Home Theater System,HTS)的立体声(stereo sound)和环绕声(surround sound)技术的先进声音系统(advanced sound system)。

因为大部分TV或HTS具有两个扬声器，所以通常使用立体声系统来向用户提供声音体验。然而，因为高端HTS具有两个或更多个扬声器，所以环绕声系统已经被广泛用于向用户提供更柔和且优美的声音体验。

近来，已经密集讨论了在3D声音空间内再现声源的方向和距离来生成3D音频效果的3D音频技术。在该3D音频技术中，声音再现被控制的最佳听音位置(acousticsweet spot)，即，用户可以听到最佳声音的位置或范围，可以是3D空间和用户可听声音的某些部分。

另外，随着技术的日益发展，3D视频技术和3D音频技术可以分别应用至内容，并且针对同时应用了3D视频技术和3D音频技术的3D内容的需求在快速增加。即，尽管针对利用传统3D视频技术和传统3D音频技术来独立地应用3D视频效果和3D音频效果的3D内容的需求在增加，但针对通过在3D视频效果与3D音频效果之间的同步而获取的3D内容的需求在更快速增加。

在这种情况下，假定3D音频数据的深度(depth)与3D视频数据的深度正确地同步，可以向用户提供优美的增强3DA/V体验。

因此，本发明提供了所述增强3D增强3D A/V处理方法和装置，以利用MPEG文件格式来执行用信号通知用于响应于的3D视频数据的深度控制3D音频的深度所需的深度信息。

图1是例示音频系统的发展过程的概念图。参照图1，该音频系统已经从双通道立体音频系统演进至3D音频/视频(A/V)系统。下面，对图1所示发展过程的详细描述进行详细描述。

图1的(a)是例示立体音频系统的概念图。图1的(b)是环绕音频系统的概念图。图1的(c)是例示由本发明提出的增强3D音频系统的概念图。

该立体音频系统可以经由包括在普通TV或HTS中的两个扬声器向用户提供音频，如图1的(a)所示。该环绕音频系统可以经由两个或更多个扬声器向用户提供音频，如图1的(b)所示。该环绕音频系统通过在立体音频系统中使用的两个通道来提供基本音频，通过安装至该音频系统的前侧、横侧，以及后表面的附加扬声器来提供附加音频，从而实现立体声音效果。

图1的(c)所示的增强3D音频/视频(AV)系统可以具有围绕用户的多个通道，并且可以利用从视频内容获取的深度信息来生成要应用至在3D声音空间中提供的3D音频数据的3D音频效果。该3D声音空间是为提供3D音频数据而建立的区域，并且可以根据多个深度级划分成多个音频点。每个音频点都可以被限定为包括在3D声音空间中的特定位置。响应于每个深度级处理的3D音频数据可以提供给每个音频点。另外，应用至每个音频点的3D音频效果可以被限定为声音深度级。另外，该声音深度级可以根据上述3D视频数据的深度信息来确定。因此，获取视频内容的深度信息，以生成与3D声音空间的音频点相对应的3D音频效果，从而可以利用针对与当前视频内容相对应的3D音频效果，向用户提供高质量3D音频/视频(AV)体验。增强3D音频/视频(A/V)系统可以使用两个通道，并且还可以使用两个或更多个通道。

图2是例示增强3D音频/视频(A/V)处理装置的概念图。

参照图2，增强3D音频/视频(AV)处理装置可以包括视频引擎210和音频引擎220。视频引擎210可以包括深度图模块211和深度分析模块212，并且音频引擎220可以包括声音滤波模块221和3D声音效果生成模块222。

下面，对图2所示的上述模块进行详细描述。包括在视频引擎210中的深度图模块211可以从3D视频流中提取关于用于传送3D视频内容的左视图像(left viewimage)的左侧帧(left frame)与用于传送3D视频内容的右视图像(right view image)的右侧帧(right frame)两者的深度图(depth map)。

一般来说，3D视频内容利用立体视觉的原理向用户的眼睛提供立体(stereo)效果。人类通过因他们的眼睛之间的彼此隔开大约65mm的距离而造成的双眼视差(binocular parallax)来感测距离，使得3D图像使得右眼和左眼都分别观看关联的左视图像和右视图像，从而产生立体效果和透视效果。因此，左侧帧和右侧帧可以针对该立体效果而配对。

该深度(depth)可以指示立体效果，即，3D效果的量，并且可以通过特定数字化数值单位来表示，并且还可以根据设计者的意图而改变。根据实施方式的相同或不同深度的配对帧(即，帧对)可以被分配给相应帧。

深度图模块211可以提取关于被分配给每个帧的深度的信息，可以生成指示与每个帧相对应的深度信息的深度图，并且可以提取包括在3D视频流中的深度图。深度分析模块212可以分解所生成的深度图或所提取的深度图，并由此，确定相应对的帧的代表视频深度级。此后，视频引擎210可以向音频引擎220发送由深度分析模块212确定的视频深度级。

包括在音频引擎220中的声音滤波模块221可以对音频滤波。此后，3D声音效果生成模块222可以生成或确定能够指示滤波后的音频中的3D效果的3D音频效果(或3D声音效果)。3D音频效果的声深度级可以根据上述视频深度级来确定，使得3D音频深度级可以与3D视频深度级同步。

图2所示的增强3D A/V处理装置具有下列缺点。

首先，装置设计所必需的高开发成本和高生产成本会遭遇一些问题。根据上述增强3D A/V处理装置，视频引擎210可以确定3D视频深度级，并且音频引擎220可以生成与所确定的3D视频深度级相对应的3D音频效果。因此，设计能够确定3D视频深度级的视频引擎可能需要高开发成本和高生产成本。

第二，增加设计复杂性会导致装置设计方面的某些问题。一般来说，用于实时处理高质量3D视频数据的视频引擎设计需要比音频引擎更高的复杂性。因此，用于在视频引擎与音频引擎之间实时同步的装置就装置设计而言可能要求附加复杂性。

最后，低准确性和低满意度还可能导致不希望的问题。当前3D内容不总是需要包括与通过3D视频分析结果获取的深度级同步的3D音频效果。因此，尽管增强3DA/V处理装置以高设计复杂性和高生产成本来开发，但因为用于调节3D音频效果的深度级具有低准确性，该3D音频内容可以具有比3D视频内容低的质量，。而且，因为应用至3D视频内容的3D效果可变，所以每个视频帧的深度级的准确性会劣化。

为了致力于解决上述问题，本发明提供通过MPEG文件格式来用信号通知能够支持增强3D A/V内容的深度信息的方法。

能够构成上述3D内容的视频图像和音频数据可以按不同方式(诸如运动图像专家组(Moving Picuture Experts Group,MPEG))压缩编码。例如，用于构成3D视频内容的图像和用于构成3D音频内容的音频数据可以利用MPEG或H.264/AVC(Advanced Video Coding，高级视频编码)方案来压缩编码。在这种情况下，接收器可以按MPEG或H.264/AVC方案的逆序解码视频图像和音频数据，使得其可以获取3D内容。

MPEG文件格式可以被用于传送构成根据MPEG方案压缩的3D内容的视频和音频流，并且可以指示包括其它附加数据的多媒体容器格式。更详细地说，MPEG文件格式可以包括具有实际A/V流的数据的媒体数据容器(media data container)，和具有为再现与内容相关联的信息或文件所需的特定信息的元数据容器(meta datacontainer)。在本发明中，该媒体数据容器在下面被称为媒体数据盒(media data box)，而该元数据容器在下面被称为元数据盒(meta data box)。每个盒都可以包括子盒或子原子(sub atom)，其每个都可以被标识。

该媒体数据容器可以以帧为单位来存储A/V流的数据。该媒体数据容器可以包括A/V流的A/V轨道(track)和样本表盒(sample table box)。

该A/V样本可以是用于接近以帧为单位存储的A/V流的存取单元(access unit)。每个A/V样本都可以指示视频帧和音频帧中的每个的数据。在本发明中，为便于描述，术语“样本”在下面被称为帧。另外，A/V轨道可以指示一组A/V样本。样本表盒可以包括包含在每个轨道中的每个样本的定时(timing)点和针对物理布局(Physicallayout)的索引(index)。

因此，该3D内容发送/提供单元(即，3D内容发送器)可以通过MPEG文件格式来执行用信号通知上述深度信息，该3D内容接收器可以检测通过MPEG文件格式用信号通知的深度相关信息，可以确定3D声音深度，以生成3D音频效果，并且可以向用户提供增强3D内容。即，如可以从图2看出，该视频深度级未实时提取或处理，并且3D音频效果可以利用包括在MPEG文件格式中的深度信息来生成，使得可以提供更高质量的增强3D内容。

下面，对根据该实施方式的用于通过MPEG文件格式来发送上述深度信息的用信号通知方法进行详细描述。

根据该实施方式的深度信息可以包括在上述样本表盒中，并且可以根据设计者意图而变。具体来说，根据一个实施方式的深度信息可以包括视频帧的、用于调节3D音频效果的声音深度级的深度级(depth level)信息或者深度范围(depth range)信息，并且可以根据设计者意图而变。根据一个实施方式的深度信息可以每视频轨道而用信号通知。在这种情况下，该深度信息可以包括“num_depth_levels”信息。该“num_depth_levels”信息可以指示用于调节3D音频效果的声音深度的深度级(depthlevel)数，并且可以与针对每个视频帧限定的深度级数相同。该深度级值可以包括1至9的总计9个级别值。该“num_depth_levels”信息可以根据1～9的相同深度级而分别分配1、2、4、8、16、32、64、128，以及256。另外，“num_depth_levels”可以指示与每个视频轨道相对应的深度级数。

根据一个实施方式的“num_depth_levels”信息可以被包含在上述样本表盒中所包括的样本条目元素“VisualSampleEntry”或“AudioSampleEntry”中，并且可以包括在该样本表盒中所包括的子盒“DepthLevelsFor3DA VBox”中。术语“DepthLevelsFor3DAVBox”还可以根据设计者意图而改变成另一个，而且“DepthLevelsFor3DA VBox”可以包括在上述样本条目元素“VisualSampleEntry”或“AudioSampleEntry”中，并且还可以根据设计者意图而改变。

下面的表1示出了其中“num_depth_levels”信息通过“VisualSampleEntry”作为句法(syntax)用信号通知的示例性情况。下面的表2示出了其中“num_depth_levels”信息通过“AudioSampleEntry”作为句法用信号通知的示例性情况。

表1

[表1]

表2

[表2]

class AudioSampleEntry(codingname)extends SampleEntry(codingname){

const unsigned int(32)[2]reserved＝0；

template unsigned int(16)channelcount＝2；

template unsigned int(16)samplesize＝16；

unsigned int(16)pre_defined＝0；

unsigned int(4)num_depth_levels；

const unsigned int(8)reserved＝0：

template unsigned int(32)samplerate＝{default samplerate of media}＜＜16；

}

下面的表3示出了其中“num_depth_levels”信息通过“DepthLevelsFor3DA VBox”作为句法用信号通知的示例性情况。如上所述，“DepthLevelsFor3DA VBox”可以包括在上述样本条目元素“VisualSampleEntry”或“AudioSampleEntry”中，而且还可以包括在另一样本条目元素“MetadataSampleEntry”中。在表3中，“DepthLevelsFor3DA VBox”包括在“VisualSampleEntry”中。

表3

[表3]

根据一个实施方式的深度信息可以针对每个视频样本(即，针对每个视频帧)而用信号通知。在这种情况下，该深度信息可以包括“depth_level_per_video_frame”信息。该“depth_level_per_video_frame”信息可以指示在每个视频帧中限定的深度级信息，并且可以被用于确定应用至与视频帧相对应的音频内容的3D音频效果的声音深度。

更详细地说，该“depth_level_per_video_frame”信息可以被构造成包括在从0至“num_depth_levels-1”值(value)的范围中的值中的任一个，其指示在从“num_depth_levels”信息减去值1时所获取的结果。即，“depth_level_per_video_frame”信息可以被构造成与“num_depth_levels–1”值的范围相对应的值中的任一个。如果“depth_level_per_video_frame”信息被构造成零(0)，则与对应帧相对应的3D音频效果的声音深度级可以被限定为与最靠近电视机(TV)或者观看3D声音空间内的TV的用户定位的音频点相对应的3D声音深度级。另外，如果“depth_level_per_video_frame”信息用“num_depth_levels–1”指示，则与对应帧相对应的3D音频效果的声音深度级可以被限定为与离TV或者该用户最远的音频点相对应的3D声音深度级。

下面的表4示出了充任句法的“depth_level_per_video_frame”信息根据本发明的另一个实施方式包括在“DepthFor3DAVBox”中的示例性情况。

表4

[表4]

表4所示样本计数(sample count)值可以从包括在元数据容器中的样本尺寸盒(sample size box)导出。

如上所述，3D内容发送器/提供方可以利用表1至表4所示MPEG文件格式的句法来用信号通知“num_depth_levels”信息和“depth_level_per_video_frame”信息，并且3D内容接收器可以检测包括在表1至表4所示MPEG文件格式的句法中的“num_depth_levels”信息和“depth_level_per_video_frame”信息，使得其可以确定3D声音深度。然而，“depth_level_per_video_frame”信息值需要针对每个样本来限定，而且包括在该句法中的“depth_level_per_video_frame”信息的量可能导致不希望的问题。

因此，为了减小每个样本的“depth_level_per_video_frame”信息值，和执行有效的用信号通知，本发明提供一种用于指示其中将样本分组的每样本组的深度信息的用信号通知方法。在这种情况下，上述“num_depth_levels”信息和“depth_level_per_video_frame”信息可以分别通过两个“DepthLevelsGroupFor3DAV”来用信号通知。

下面的表5示出了根据本发明的另一个实施方式的句法，并且示出了“num_depth_levels”信息和“depth_level_per_video_frame”信息分别通过“DepthLevelsGroupFor3DAVBox”用信号通知，以指示针对其中将样本分组的每个样本组的深度信息的示例性情况。

表5

[表5]

如表5所示，两个“DepthLevelsGroupFor3DAV extends FullBox”单元中的每个都可以包括“entry_count”信息和“group_description_index”信息。

该“entry_count”信息可以指示用于任务处理的条目的数量，并且可以具有整数值。另外，该“group description_index”信息可以指示表示包括在当前组中的样本的同一样本组条目，并且可以具有整数值。该“group_description_index”信息可以包括在元数据容器的“SampleToGroupBox”中。另外，如表5所示，“DepthLevelsGroupFor3DAVextends FullBox”可以包括包括在每个样本组中的“num_depth_levels”信息，并且包括在每个样本组中的“num_depth_levels”信息可以与包括在3D视频数据组中的所有样本的其它“num_depth_levels”信息相同。

另外，因为“depth_level_per_video_frame”信息包括在“DepthLevelsGroupFor3DAVextends FullBox”中，所以同一“depth_level_per_video_frame”信息值可以应用至包括在每个样本组中的样本。

如上所述，根据一个实施方式的深度信息可以通过同一样本表盒的样本条目组元等来用信号通知。下面，对根据一个实施方式的、用于通过包括在样本表中的盒来用信号通知各种深度信息的方法进行详细描述。

表6示出了根据本发明的另一个实施方式的句法，并且示出了这样的示例性情况，即，深度信息通过样本表盒的“DepthLevelsGroupFor3DAVBox”用信号通知。

表6

[表6]

参照表6，该深度信息可以包括：“entry_counter”信息、“sample_index”信息、“depth_level”信息，以及“depth_range”信息。

该“entry_counter”信息可以指示包括在稍后要描述的深度表中的条目的数量，并且可以具有整数值。

该“sample_index”信息可以指示包括在当前视频轨道中的每个样本。即，“sample_index”信息可以指示每个帧的索引号，并且可以具有整数值。

该“depth_range”信息可以指示被用于调节3D声音深度的深度级的总级数。尽管“depth_range”信息和“num_depth_levels”信息具有不同的名称，但它们可以发送相同信息。换句话说，“depth_range”信息可以指示深度级的范围。因此，如果“depth_range”信息被构造成零(0)，则“depth_level”信息无意义。

该“深度级”信息被用于生成要向与视频帧相对应的音频内容应用的3D音频效果。更详细地说，3D音频效果的声深度级可以根据“depth_level”信息来确定。“depth_level”信息可以指示每个视频帧的深度级。尽管“depth_level”信息和“depth_level_per_video_frame”信息具有不同的名称，但它们可以发送相同信息。因此，该“depth_level”信息可以被构造成，包括在从0至“depth_range–1”值的范围中的值中的任一个，其指示在从“depth_range”信息减去值1时所获取的结果。即，“depth_level”信息可以被构造成与“depth_range–1”值的范围相对应的值中的任一个。如果“depth_level”信息被构造成零(0)，则与对应帧相对应的3D音频效果的声音深度级可以被限定为与最靠近电视机(TV)或者观看3D声音空间内的TV的用户定位的音频点相对应的3D声音深度级。另外，如果“depth_level”信息用“depth_range–1”指示，则与对应帧相对应的3D音频效果的声音深度级可以被限定为与离TV或者该用户最远的音频点相对应的3D声音深度级。即，该3D声音深度级可以对应于上述“深度级”信息，并且根据相应音频点可以具有相同或不同值。

如表6所示，“sample_index”信息、“depth_level”信息，以及““depth_range”信息可以位于紧接着“entry counter”信息定位的for-loop中，并且可以在响应于“entry_counter”信息值一个接一个地增加而限定的每个条目中限定。

根据表6的实施方式的句法可以提供包括包括在视频轨道中的3D视频样本的深度级和深度范围的深度表。下面，对该深度表进行详细描述。

图3是例示根据本发明的实施方式的深度表的概念图。

图3所示深度表可以通过表6的句法来提供。

图3的(a)的深度表可以包括：“sample_index”信息、“decoding_time”信息、“depth_range”信息，以及“depth_level”信息。该“decoding_time”信息可以指示解码根据“sample_index”信息标识的每个帧的具体时间。即，图3的(a)的深度表可以提供包括在视频轨道中的相应帧的解码时间信息、深度范围信息以及深度级信息。

图3的(b)所示深度表可以包括：“entry_counter”information”、“sample_index”、“depth_range”信息，以及“depth_level”信息。即，图3的(b)的深度表可以提供按每个条目处理的帧的深度范围信息(depth_range)和深度级信息(depth_level)。

图3的(b)的深度表可以根据图3的(a)的深度表来获取。图3的(b)所示深度表可以被生成并从发送器发送，并且还可以利用图3的(a)所示深度表通过接收器来生成。上述描述可以根据设计者意图而变。

下面，对图3的(a)所示深度表进行详细描述。

如图3的(a)所示，该深度表的第一行可以包括用于标识包括在视频轨道中的帧的“sample_index”样本索引信息值，第二行至第四行可以分别包括“decoding_time”信息值、“depth_range”信息值，以及“depth_level”信息值。分别包括在第二、第三，以及第四行中的“decoding_time”信息值、“depth_range”信息值，以及“depth_level”信息值可以在第一行的每个帧中限定。

更详细地说，如图3的(a)的深度表中所示，具有“sample_index”信息值1的帧1对应于对应视频轨道的第一帧，使得帧1可以具有“decoding_time”信息值零(0)。另外，帧1的深度范围根据图3的(a)的深度表设置成16，并且帧1的深度级对应于值3。另外，如图3的(a)的深度表中所示，具有“sample_index”信息值2的帧2在解码第一帧(帧1)之后解码，使得帧2的“decoding_time”信息值可以设置成10。如图3的(a)的深度表中所示，帧2的深度范围可以设置成16，并且帧2的深度级可以设置成3。

下面，对图3的(b)深度表进行详细描述。

如图3的(b)所示，该深度表的第一行可以指示“entry_counter”信息、“sample_index”信息、“depth_range”信息，以及“depth_level”信息以标识每一列。图3的(b)的深度表的第一行可以包括“entry_counter”信息值，并且第二列至第四列可以分别包括“sample_index”信息值、“depth_range”信息值，以及“depth_level”信息值。

如图3的(a)所示，从第一帧开始的相应帧被顺序地处理，使得与条目1相对应的帧可以是具有“sample_index”信息值1的帧。因此，如图3的(b)的深度表中所示，如果“entry_counter”信息值被构造成“1”时，“sample_index”信息值可以被构造成1。因此，具有该“sample_index”信息值的帧的深度范围被构造成16，并且该帧的深度级被构造成3，使得图3的(b)的深度表的“depth_range”信息值可以用16指示，并且“depth_level”信息值可以用3来指示。

按相同方式，因为与第二条目相对应的帧是具有“sample_index”信息值2的帧，所以如果“entry_counter”信息值被构造成“2”时，“sample_index”信息值可以用2指示，“depth_range”信息值可以用16指示，并且“depth_level”信息值可以用3指示。另外，因为帧的总数为12，所以图3的(b)的深度表的条目数可以设置成12。

因此，该接收器利用图3所示深度表，不仅可以获取关于每条目每一帧的深度范围的信息，而且可以获取关于每条目每一帧的深度级的信息，可以根据所获取信息解码视频帧，而且同时可以生成与每个帧的深度范围和深度级相对应的3D声音效果，使得可以每帧生成同步3D音频。

然而，图3所示深度表包括关于所有帧的深度信息。如果包括在一个视频轨道中的帧的数量增加，则深度表的容量可以增加。具体来说，即使一些帧具有相同的深度范围和相同的深度级，也存在冗余信息，从而降低发送效率。

为了减小深度表的容量并且增大发送效率，根据本发明的用信号通知方法可以去除具有相同深度范围和相同深度级的帧的冗余信息，可以通过分离句法发送“depth_range”信息和“depth_level”信息，并且可以提供独立深度表。

表7示出了根据本发明的另一个实施方式的句法，并且示出了这样的示例性情况，即，深度级信息通过样本表盒中包括的“DepthLevelsGroupFor3DAVBox”用信号通知。

表7

[表7]

尽管表7所示句法按和表6的句法相同的方式包括“entry_counter”信息、“sample_index”信息，以及“depth_level”信息，但表7的句法可以不包括“depth_range”信息，而是按不同于表6的方式包括“sample_offset”信息。和表6中相同的信息将从表7中省略，而且同样，在下面对“sample_offset”信息的详细描述进行详细描述。

“sample_offset”信息可以指示表示包括在视频轨道中的多个帧当中的、向其应用相同深度级的连续帧的数量的偏移。因此，向其应用相同深度级的连续帧的“sample_index”信息值和“sample_offset”信息值可以从1起顺序地增加，并且稍后，给出其详细描述。

按和表6的句法的相同的方式，根据另一实施方式的表7所示的句法可以提供包括在视频轨道中的3D视频样本的深度级的深度表。下面，对该深度表进行详细描述。

图4是例示根据本发明的另一个实施方式的深度表的概念图。

表7的句法可以提供如上所述图4中所示深度表。

图4的(a)所示深度表包括：“sample_index”信息值、“decoding_time”信息值、“sample_offset”信息值，以及“depth_level”信息值。即，图4的(a)所示深度表可以提供包括在视频轨道中的所有样表的解码收集信息，向其应用相同深度级的连续帧的偏移信息，以及该连续帧的深度级信息。

图4的(b)所示深度表可以包括：“entry_counter”信息值、“sample_index”信息值、“sample_offset”信息值，以及“depth_level”信息值。即，图4的(b)所示深度表可以向每个条目提供所处理帧的深度级和具有相同深度级的帧的偏移信息。

图4的(b)所示深度表可以根据图4的(a)所示深度表来获取。另外，图4的(b)所示深度表可以从发送器生成并发送，并且还可以利用表7所示句法和图4的(a)所示深度表通过接收器来生成。上述描述可以根据设计者意图而变。

下面，对图4的(a)所示深度表进行详细描述。

如图4的(a)所示，该深度表的第一行可以包括用于标识包括在视频轨道中的帧的“sample_index”样本索引信息值，第二行至第四行可以分别包括“decoding_time”信息值、“sample_offset”信息值，以及“depth_level”信息值。分别包括在第二、第三，以及第四行中的“decoding_time”信息值、sample_offset”信息值，以及“depth_level”信息值可以在第一行的每个帧中限定。

如图4的(a)的深度表中所示，具有“sample_index”信息值1的帧1根据“depth_level”信息值可以具有深度级3。如上所述，如果连续帧具有相同深度级，则仅具有对应深度级的第一帧的“depth_level”信息值显示在深度表上，并且后续连续帧的“depth_level”信息值不显示。因此，如图4的(a)所示，具有“sample_index”信息值2的帧2的深度级与帧1的深度级相同，使得冗余“depth_level”信息值不显示在深度表上。按相同方式，具有“sample_index”信息值8的帧8和具有“sample_index”信息值9的帧9具有和具有“sample_index”信息值7的帧7的深度级相同的深度级，使得帧8和帧9的“depth_level”信息值不显示在深度表上。

另外，具有相同深度级的帧的“sample_offset”值可以从对应帧当中的第一帧起顺序地增加。因此，如图4的(a)所示，帧1的“sample_offset”值被构造成1，并且帧2的“sample_offset”值从帧1的“sample_offset”值起增加一。与此相反，具有“sample_offset”信息值3的帧3具有depth_level信息值4，并且具有不同于帧1和帧2的深度级，使得帧3的“sample_offset”值用1指示。

按相同方式，对于具有相同深度级的帧7至帧9的情况来说，帧7具有“sample_offset”值1，帧8具有“sample_offset”值2，并且帧9具有“sample_offset”值3。具有“sample_index”信息值10的帧10具有不同于帧7至帧9深度级，使得帧10的“sample_offset”值用1指示。

下面，对图4的(b)所示深度表进行详细描述。

如图4的(b)所示，该深度表的第一行可以指示“entry_counter”信息、“sample_index”信息、“sample_offset”信息，以及“depth_level”信息以标识每一列。图3的(b)的深度表的第一行可以包括“entry_counter”信息值，并且第二列至第四列可以分别包括“sample_index”信息值、“sample_offset”信息值，以及“depth_level”信息值。

在这种情况下，其中将相同深度级应用至相应条目的帧可以同时处理，使得与每个条目相对应的“sample_index”信息值被显示为具有相同深度级的多个帧当中的第一帧的“sample_index”信息值。另外，与每个条目相对应的“sample_offset”信息值可以被显示为具有相同深度级的多个帧当中的末尾帧的“sample_index”信息值。

更详细地说，将相同深度级应用至如图4的(a)所示帧1和帧2，使得帧1和帧2可以同时处理。如在图4的(b)中所示深度级的第一行中所示，与条目1相对应的“sample_index”信息值可以被显示为帧1的“sample_index”信息值“1”，并且“sample_offset”信息值可以被显示为帧2的“sample_offset”信息值“2”。另外，并且“depth_level”信息值可以被显示为帧1和帧2的“depth_level”信息值“3”。

如图4的(a)的深度表中所示，范围从具有“sample_index”信息值“3”的帧3向具有“sample_index”信息值“6”的帧6变动的一些帧可以具有不同的“depth_level”信息值。因此，帧3至帧6的“sample_offset”信息值和“depth_level”信息值可以分别在图4的(b)的深度表的条目2至帧5的行处显示。

另外，如图4的(a)所示，因为样表深度级被应用至帧7至帧9，所以与图4的(b)的深度表中的条目6相对应的“sample_index”信息值可以被显示为帧7的“sample_index”信息值“7”，与条目6相对应的“sample_offset”信息值可以被显示为帧9的“sample_offset”信息值“3”。另外，“depth_level”信息值可以被显示为帧7至帧9的“depth_level”信息值“11”。

参照图4的(a)，尽管总样本数被构造成12，但向其应用相同深度级的帧在每个条目中同时处理，使得图4的(b)的深度表可以包括关于9个条目的信息。

因此，接收器可以利用图4所示深度表，获取关于向其应用相同深度级的帧的数量的信息，可以获取相同深度级信息仅一次，可以响应于所获取信息解码视频帧，并且同时可以生成与每个帧的深度级相对应的声音效果，使得可以按每个帧有效地生成同步3D音频。

表8示出了根据本发明的另一个实施方式的句法，并且示出了这样的示例性情况，即，深度范围信息通过“DepthLevelsGroupFor3DAVBox”用信号通知。

表8

[表8]

尽管表8所示句法按和表7的句法相同的方式包括“entry_counter”信息、“sample_index”信息，以及“sample_offset”信息，但表8的句法可以不包括“depth_range”信息，而是按不同于表7的方式包括“depth_range”信息。另外，尽管表8的“sample_offset”信息在名称上与表7的“sample_offset”信息相同，但应注意到，表8的“sample_offset”信息可以具有不同于表7的“sample_offset”信息的其它信息。和表6和7中相同的信息将从表8省略，而且同样，在下面对包括在表8的句法中的“sample_offset”信息的详细描述进行详细描述。

“sample_offset”信息可以指示表示包括在视频轨道中的多个帧当中的、向其应用具有相同深度范围的深度级的连续帧的数量的偏移。

因此，向其应用具有相同深度范围的深度级的连续帧的“sample_index”信息值和“sample_offset”信息值可以从1起顺序地增加，并且稍后，给出其详细描述。

按和表6和7的句法的相同的方式，根据另一实施方式的表8所示的句法可以提供包括在视频轨道中的3D视频样本的深度范围的深度表。下面，对该深度表进行详细描述。

图5是例示根据本发明的另一个实施方式的深度表的概念图。

表8的句法可以提供如上所述图4中所示深度表。

图5的(a)所示深度表包括：“sample_index”信息值、“decoding_time”信息值、“sample_offset”信息值，以及“depth_range”信息值。可选的是，图5的(a)所示深度表可以包括：“depth_level”信息值。即，图5的(a)所示深度表可以提供包括在视频轨道中的所有样表的解码收集信息，向其应用相同深度级的连续帧的偏移信息，以及该连续帧的深度范围信息。

图5的(b)所示深度表可以包括：“entry_counter”信息值、“sample_index”信息值、“sample_offset”信息值，以及“depth_range”信息值。即，图5的(b)所示深度表可以向每个条目提供所处理帧的深度范围和具有相同深度级的帧的偏移信息。

图5的(b)所示深度表可以根据图5的(a)所示深度表来获取。另外，图5的(b)所示深度表可以从发送器生成并发送，并且还可以利用表8所示句法和图5的(a)所示深度表通过接收器来生成。上述描述可以根据设计者意图而变。

下面，对图5的(a)所示深度表进行详细描述。

如图5的(a)的深度表中所示，具有“sample_index”信息值1的帧1根据“depth_level”信息值可以具有深度级3，并且该深度级的深度范围根据“depth_range”信息值设置成16。如上所述，如果连续帧的深度级的深度范围彼此相同，则仅具有基于对应深度范围的对应深度级的第一帧的“depth_range”信息值显示在深度表上，并且后续连续帧的“depth_range”信息值不显示。在这种情况下，关于连续帧的“depth_level”信息值是否彼此相同的信息不显著。

因此，如图5的(a)所示，分别具有sample_index信息值2～6的帧2～6的深度级的深度范围与帧1的深度范围相同，使得冗余“depth_range”信息值不显示在深度表上。

另外，具有与相同深度范围相对应的相同深度级的帧的“sample_offset”值可以从对应帧当中的第一帧起顺序地增加。因此，如图5的(a)所示，帧1的“sample_offset”值被构造成1，并且帧2、3、4、5，或6的“sample_offset”值从帧1的“sample_offset”值“1”起增加一，使得帧2至帧6的“sample_offset”“sample_offset”值分别用2、3、4、5，以及6指示。与此相反，帧7的“depth_range”信息值“4”不同于帧1的“depth_range”信息值，使得帧7的“depth_range”信息值“4”显示在深度表上。并且帧7的“sample_offset”值用1指示。

下面，对图5的(b)所示深度表进行详细描述。

如图5的(b)所示，该深度表的第一行可以指示“entry_counter”信息、“sample_index”信息、“sample_offset”信息，以及“depth_range”信息以标识每一列。图5的(b)的深度表的第一行可以包括“entry_counter”信息值，并且第二列至第四列可以分别包括“sample_index”信息值、“sample_offset”信息值，以及“depth_range”信息值。

在这种情况下，其中将与相同深度范围相对应的相同深度级应用至相应条目的帧可以同时处理，使得与每个条目相对应的“sample_index”信息值被显示为具有相同深度级的多个帧当中的第一帧的“sample_index”信息值。另外，与每个条目相对应的“sample_offset”信息值可以被显示为具有与相同深度范围相对应的深度级的多个帧当中的末尾帧的“sample_index”信息值。

更详细地说，将与相同深度范围相对应的相同深度级应用至如图5的(a)所示帧1至帧6，使得帧1至帧6可以同时处理。如在图5的(b)中所示深度级的第一行中所示，与条目1相对应的“sample_index”信息值可以被显示为帧1的“sample_index”信息值“1”，并且“sample_offset”信息值可以被显示为帧6的“sample_offset”信息值“6”。另外，“depth_range”信息值可以被显示为帧1至帧6的“depth_range”信息值“16”。

另外，如图5的(a)所示，因为将与相同深度范围相对应的相同深度级应用至帧7至帧12，所以与图5的(b)的深度表中的条目2相对应的“sample_index”信息值可以被显示为帧7的“sample_index”信息值“7”，并且“sample_offset”信息值可以被显示为帧6的“sample_offset”信息值“12”。另外，“depth_range”信息值可以被显示为帧7至帧9的“depth_range”信息值“4”。

参照图5的(a)，尽管总样本数被构造成12，但向其应用与相同深度范围相对应的相同深度级的帧在每个条目中同时处理，使得图5的(b)的深度表可以包括关于2个条目的信息。

因此，接收器可以利用图5所示深度表，获取关于向其应用与相同深度范围相对应的相同深度级的帧的数量的信息，可以获取相同深度范围信息仅一次，可以响应于所获取信息解码视频帧，并且同时可以生成与每个帧的深度级相对应的声音效果，使得可以按每个帧有效地生成同步3D音频。

图6是例示根据本发明的实施方式的3D声音空间的概念图。

如上所述，根据一个实施方式的3D声音空间被构造成提供3D音频数据，并且可以被划分成多个音频点。已经通过应用响应于对应深度级而生成的3D音频效果而获取的3D音频数据可以被应用至相应音频点。另外，音频点的数量可以根据深度范围和深度级而改变。另外，每个音频点都可以被限定为3D声音空间中的特定位置，并且已经响应于每个深度级而处理的3D音频数据可以应用至每个音频点。根据本发明应用至每个音频点的3D音频效果可以被限定为声音深度级。该声音深度级可以响应于3D视频数据的深度信息来确定。

图6是例示立3D声音空间的概念图。图6的左侧3D声音空间可以指示在将“depth_range”信息设置成4时的3D声音空间，并且图6的右侧3D声音空间可以指示在将“depth_range”信息设置成16时的30D声音空间。如上所述，尽管“num_depth_levels”信息具有与“depth_range”信息不同的名称，但“num_depth_levels”信息和“depth_range”信息被用作同一信息。另外，该“depth_level”信息可以被构造成，包括在从0至“depth_range–1”值的范围中的值中的任一个，其指示在从“depth_range”信息减去值1时所获取的结果。如果“depth_level”信息值被构造成零(0)，则与对应帧相对应的3D音频效果的声音深度级可以被限定为与最靠近电视机(TV)或者观看3D声音空间内的TV的用户定位的音频点相对应的3D声音深度级。另外，如果“depth_level”信息值用“depth_range–1”指示，则与对应帧相对应的3D音频效果的声音深度级可以被限定为与离TV或者该用户最远的音频点相对应的3D声音深度级。图6所示的3D声音空间被限定为在将“depth_level”信息值设置成零(0)时与最接近观看TV的用户定位的音频点相对应的深度级。

下面，对图6的详细描述进行说明。

图6左侧所示的3D声音空间是将“depth_range”信息设置成4时的3D声音，“depth_level”信息值可以被构造成0～3，从而3D声音空间可以根据“depth_level”信息值而划分成4个音频点。相应音频点按预定距离的间隔设置，并且将已经根据对应“depth_level”信息值生成针对其的3D音频效果的3D音频应用至每个音频点。因此，位于与“depth_level”信息值＝“3”相对应的音频点处的用户可以比位于与“depth_level”信息值＝“0”相对应的音频点处的另一用户识别更高的3D音频效果。

另外，图6右侧所示的3D声音空间是将“depth_range”信息值设置成16时的3D声音空间，“depth_level”信息值可以被构造成0～157，从而3D声音空间可以根据“depth_level”信息值而划分成16个音频点。相应音频点按预定距离的间隔设置，并且可以将根据对应“depth_level”信息值生成的3D音频效果所应用至的3D音频提供给每个音频点。因此，位于与“depth_level”信息值14相对应的音频点处的用户可以比位于与“depth_level”信息值0相对应的音频点处的另一用户识别更高的3D音频效果。

如果“depth_range”信息值如图6左侧所示较低，则根据“depth_level”信息值，存在较少量的音频点，并且相应音频点之间的距离较长。由此，位于相应音频点处的用户可以清晰且正确地识别相应音频点之间的3D音频差异。换句话说，当位于与“depth_level”信息值为零(0)相对应的音频点处的用户移动至与“depth_level”信息值3相对应的另一音频点时，该用户可以识别相应位置之间的3D音频效果的差异。

如果“depth_range”信息值如图6右侧所示较高，则根据“depth_level”信息值，存在较大量的音频点，并且相应音频点之间的距离较短，使得相应音频点之间的3D音频中存在稍微不同。因此，如果“depth_range”信息值较高，则相应音频点之间的3D音频差异不显著，使得可以将具有柔和声音的3D音频提供给用户。

图7至图9例示了根据本发明实施方式的、基于表1至表5中所示“num_depth_levels”和“depth_level_per_video_frame”信息的视频帧。在图7至图9中，下面，将“depth_level_per_video_frame”信息称为“depth_level”。

图7是例示根据本发明的实施方式的视频帧的概念图。

在图7中，包括在该视频轨道中的所有帧的深度级的深度范围固定，并且将8个视频帧的“num_depth_levels”信息值设置成16。另外，尽管可以将不同的“depth_level”信息值分配给相应视频帧，但该“depth_level”信息分配还可以根据设计者意图而改变。根据图7的实施方式，发送器可以利用表1至表4所示用信号通知方法发送“num_depth_levels”信息和“depth_level”信息，并且接收器可以利用所接收信息生成3D音频并将该3D音频提供给用户。

图8是例示根据本发明的另一个实施方式的视频帧的概念图。

图8示出了图7所示视频帧的另一实施例。在图8中，包括在该视频轨道中的所有帧的深度级的“num_depth_levels”信息值固定，并且相应视频帧可以具有相同或不同的“depth_level”信息值。如图8所示，帧1至帧4可以具有相同的“depth_level”信息值3，帧5和6可以具有相同的“depth_level”信息值213，并且帧7和帧8可以具有相同的“depth_level”信息值29。如上所述，在公共模式期间，发送器可以利用表1至表4的用信号通知方法发送“num_depth_levels”和“depth_level”信息，并且接收器可以利用所接收信息生成3D音频并将该3D音频提供给用户。

图9是例示根据本发明的另一个实施方式的视频帧的概念图。

在图9中，包括在视频轨道中的帧的“depth_level”信息值和“num_depth_levels”信息值改变，从而8个视频帧的“num_depth_levels”信息值可以以预定帧为基础而按不同方式来建立。在这种情况下，相应帧的“depth_level”信息值可以分配不同值。

如图9所示，帧1至帧3具有不同的“depth_level”信息值，但具有相同的“num_depth_levels”值16。另外，帧4至帧6具有不同的“depth_level”信息值，但具有相同的“num_depth_levels”信息值256。同样地，帧7和帧8可以具有不同的“depth_level”信息值，但具有相同的“num_depth_levels”信息值32。如上所述，在公共模式期间，发送器可以利用表1至表4的用信号通知方法发送“num_depth_levels”和“depth_level”信息，并且接收器可以利用所接收信息生成3D音频并将该3D音频提供给用户。

图10和图11例示了根据本发明实施方式的、基于表6至表8的前述“depth_range”和“depth_level”信息的视频帧。

在图10、包括在该视频轨道中的所有帧的深度级的深度范围固定，并且将12个视频帧的“depth_range”信息值设置成16。另外，可以将相同或不同的“depth_range”信息值分配给相应视频帧。图10示出了一般实施方式，以供在大多数增强3D音频/视频(A/V)处理装置中使用，并且图10的实施方式可以被称为公共模式(commonmode)。该“depth_range”信息分配还可以根据设计者意图而改变。在公共模式期间，发送器可以利用表6和图3所示用信号通知方法发送“depth_range”信息和“depth_level”信息，并且接收器可以利用所接收信息生成3D音频并将该3D音频提供给用户。

图11示出了包括在视频轨道中的帧的深度级和深度范围改变的示例性情况。可以将相同或不同的“depth_range”信息值分配给12个视频帧。另外，该相应视频帧可以具有相同或不同的“depth_level”信息值。在图11中，帧1至帧6可以具有相同的“depth_range”信息值16，并且帧7至帧12可以具有相同的“depth_range”信息值4。图11的实施方式可以在这样的情况中使用，即，对于视频内容的具有不同3D声音特征的几个部分来说，需要生成更宽泛种类的3D声音效果，而且图11的这种实施方式还可以被称为自适应模式(adaptive mode)，但可以根据设计者意图改变。另外，该自适应模式的“depth_range”信息值可以在考虑到最小数量的视频帧的情况下改变，通过该数量的视频帧，用户可以检测3D声音效果的变化。因此，该自适应模式可以指示包括与上述公共模式相对应的视频帧的一系列组。对于自适应模式的情况来说，发送器可以利用表7～8和图4～5的用信号通知方法发送“depth_range”和“depth_level”信息，并且接收器可以利用所接收信息生成3D音频并将该3D音频提供给用户。

参照图12，增强3D A/V处理装置可以包括：3D内容生成器1200、深度信息生成器1210，以及信号生成器1220。

该3D内容生成器1200可以生成包括视频内容和音频内容的3D内容。该3D内容可以指示在将3D效果应用至该视频内容和音频内容时所获取的内容。具体来说，该3D内容可以概念性地包括通过在3D视频效果与3D音频效果之间同步而获取的3D内容。

该深度信息生成器1210可以生成构成该视频内容的视频帧的深度信息。该深度信息可以被用于生成如图2所示的3D音频效果。

该深度信息可以包括表1至表8所示句法和图3至图5所示表。该深度信息可以通过MPEG文件格式来用信号通知。具体来说，该深度信息可以通过包括在MPEG文件格式中的样本表盒来用信号通知。

该深度信息可以包括：帧标识信息、深度级信息，以及深度范围信息，并且下面给出其详细描述。

帧ID信息可以是表6的“sample_index”信息。

该深度级信息可以是表1至表5的“depth_level_per_video_frame”信息或者表6至表8的“depth_level”信息。可以将相同或不同深度级信息分配给如图7至图11所示视频帧，或者该深度级信息可以根据视频帧当中的一些连续视频帧的相应单元不同地建立。

如果该深度级信息根据视频帧当中的一些连续视频帧的相应单元不同地建立，则该深度信息还可以包括指示一些连续视频帧的数量的第一偏移信息。该第一偏移信息可以是表7和图4所示“sample_offset”信息。

该深度级信息可以是表1至表5中的“num_depth_levels”信息或者表6至表8所示的“depth_range”信息。可以将相同的深度范围信息分配给如图7至图11所示视频帧，或者该深度范围信息可以根据视频帧当中的一些连续视频帧的相应单元不同地建立。

如果该深度范围信息根据视频帧当中的一些连续视频帧的相应单元不同地建立，则该深度信息还可以包括指示一些连续视频帧的数量的第二偏移信息。该第二偏移信息可以是表8和图5所示“sample_offset”信息。

此后，该信号生成器1220可以生成包括所生成的3D内容和所生成的深度信息的3D增强(enhanced)信号。该3D增强信号可以存储在诸如光盘(CD)的存储介质中，并且可以通过因特网或广播网络发送，但可以根据设计者意图改变。

参照图13，根据另一实施方式的增强3D A/V处理装置可以包括：信号处理器1300、深度信息提取单元1310、3D音频效果生成器1320，以及3D音频内容生成器1330。

该信号处理器1300可以处理包括3D内容的增强3D信号。信号处理器1300可以在包括在增强3D信号中的3D内容与深度信息之间辨别，并且还可以在包括在3D内容中的视频内容与音频内容之间辨别。该3D内容可以指示在将3D效果应用至该视频内容和音频内容时所获取的内容。具体来说，该3D内容可以概念性地包括通过在3D视频效果与3D音频效果之间同步而获取的3D内容。

另外，该3D增强信号可以是存储在诸如CD的存储介质中的信号，或者可以通过因特网或广播网络接收，但还可以根据设计者意图改变。

该深度信息提取单元1310可以提取包括在处理后的增强3D信号中的深度信息。

该深度信息可以被用于生成如图2所示的3D音频效果。

该深度信息可以包括表1至表8的句法和图3至图5所示表，并且可以通过MPEG文件格式来用信号通知。具体来说，该深度信息可以通过包括在MPEG文件格式中的样本表盒来用信号通知。

该深度信息可以包括：帧ID信息、深度级信息以及深度范围信息。

该帧ID信息可以指示表6所示的“sample_index”信息。

该深度级信息可以是表1至表5所示的“depth_level_per_video_frame”信息或者表6至表8所示的“depth_level”信息。可以将相同的深度级信息分配给如图7至图11所示相应视频帧，或者该深度级信息可以根据相应视频帧不同地建立，或者还可以根据视频帧当中的一些连续视频帧的相应单元不同地建立。

该3D音频效果生成器1320可以利用所获取的深度信息生成3D音频效果。如图6所示，该3D声音空间可以是被构造成提供3D音频的特定区域，并且可以被划分成多个音频点。每个音频点都可以被限定为包括在3D声音空间中的特定位置(spot)，并且响应于每个深度级处理的3D音频可以被应用至每个音频点。另外，根据本发明应用至每个音频点的3D音频效果可以被限定为声音深度级。该声音深度级可以根据3D视频数据的深度信息来确定。

此后，该3D音频内容生成器1330可以利用该3D音频效果生成3D音频内容，并且其详细描述和图6的描述相同。

参照图14，在步骤S1400中，图12所示的3D内容生成器1200可以生成3D内容。该3D内容可以指示在将3D效果应用至该视频内容和音频内容时所获取的内容。具体来说，该3D内容可以概念性地包括通过在3D视频效果与3D音频效果之间同步而获取的3D内容。

在步骤S1410，图12的深度信息生成器1210可以生成深度信息。该深度信息是构成该视频内容的视频帧的深度信息，并且可以被用于生成如图2所示的3D音频效果。

该深度信息可以包括表1至表8的句法和图3至图5的表，并且可以通过MPEG文件格式来用信号通知。具体来说，该深度信息可以通过包括在MPEG文件格式中的样本表盒来用信号通知。

该帧ID信息可以是表6所示的“sample_index”信息。

此后，在步骤S1420中，图12的信号生成器1220可以生成包括所生成的3D内容和所生成的深度信息的3D增强(enhanced)信号。该3D增强信号可以存储在诸如光盘(CD)的存储介质中，并且可以通过因特网或广播网络发送，或者可以根据设计者意图改变。

图13的信号处理器1300可以处理包括3D内容的增强3D信号。信号处理器1300可以在包括在增强3D信号中的3D内容与深度信息之间辨别，并且还可以在包括在3D内容中的视频内容与音频内容之间辨别。该3D内容可以指示在将3D效果应用至该视频内容和音频内容时所获取的内容。具体来说，该3D内容可以概念性地包括通过在3D视频效果与3D音频效果之间同步而获取的3D内容。

在步骤S1510中，图13的深度信息提取单元1310可以提取包括在处理后的增强3D信号中的深度信息。

该深度信息可以被用于生成如图2所示的3D音频效果。

该帧ID信息可以指示表6所示的“sample_index”信息。

在步骤S1520中，图13的3D音频效果生成器1320可以利用所获取的深度信息生成3D音频效果。如图6所示，该3D声音空间可以是被构造成提供3D音频的特定区域，并且可以被划分成多个音频点。每个音频点都可以被限定为包括在3D声音空间中的特定位置(spot)，并且响应于每个深度级处理的3D音频可以被应用至每个音频点。另外，根据本发明应用至每个音频点的3D音频效果可以被限定为声音深度级。该声音深度级可以根据3D视频数据的深度信息来确定。

此后，在步骤S1530中，图13的3D音频内容生成器1330可以利用3D音频效果生成3D音频内容，并且其详细描述和图6的描述相同。

用于本发明的模式

已经按用于执行本发明的最佳模式描述了各种实施方式。

工业适用性

本发明的实施方式可以整体或部分地应用至数字广播系统和增强3D A/V装置。

Claims

1.一种增强三维3D音频/视频A/V处理方法，该方法包括以下步骤：

生成包括视频内容和音频内容的三维3D内容；

生成构成所述视频内容的视频帧的深度信息，

其中，所述深度信息被用于生成要应用至所述音频内容的3D音频效果，所述深度信息包括帧标识信息、深度级信息以及深度范围信息，

其中，所述帧标识信息指示用于标识每个视频帧的帧号码，所述深度级信息指示要应用至每个视频帧的3D效果的程度，并且所述深度范围信息指示所述深度级的总级数；以及

生成包括所生成的所述3D内容和所述深度信息的3D增强信号。

2.根据权利要求1所述的方法，其中，所述深度信息被包含在运动图像专家组MPEG文件格式中。

3.根据权利要求1所述的方法，其中，将相同或不同深度级信息分配给所述视频帧，并且所述深度级信息能够根据所述视频帧当中的一些连续视频帧的相应单元不同地建立。

4.根据权利要求3所述的方法，其中，将相同深度范围信息分配给所述视频帧，或者所述深度范围信息根据所述视频帧当中的一些连续视频帧的相应单元不同地建立。

5.根据权利要求4所述的方法，其中：

如果所述深度级信息根据所述视频帧当中的一些连续视频帧的所述相应单元不同地建立，则所述深度信息还包括用于指示该一些连续视频帧的数量的第一偏移信息。

6.根据权利要求5所述的方法，其中：

如果所述深度范围信息根据所述视频帧当中的一些连续视频帧的所述相应单元不同地建立，则所述深度信息还包括用于指示该一些连续视频帧的数量的第二偏移信息。

7.一种增强三维3D音频/视频A/V处理方法，该方法包括以下步骤：

处理包括3D内容的三维3D增强信号，该3D内容被构造成具有视频内容和音频内容；

从处理后的所述3D增强信号获取构成所述视频内容的视频帧的深度信息，

其中，所述帧标识信息指示用于标识每个视频帧的帧号码，所述深度级信息指示要应用至每个视频帧的3D效果的程度，并且所述深度范围信息指示所述深度级的总级数；

根据所获取的所述深度信息生成3D音频效果；以及

基于所生成的所述3D音频效果生成3D音频内容。

8.根据权利要求7所述的方法，其中，所述深度信息被包含在运动图像专家组MPEG文件格式中。

9.根据权利要求7所述的方法，其中，将相同或不同深度级信息分配给所述视频帧，并且所述深度级信息能够根据所述视频帧当中的一些连续视频帧的相应单元不同地建立。

10.根据权利要求9所述的方法，其中，将相同深度范围信息分配给所述视频帧，或者所述深度范围信息根据所述视频帧当中的一些连续视频帧的相应单元不同地建立。

11.根据权利要求10所述的方法，其中：

12.根据权利要求11所述的方法，其中：

13.一种增强三维3D音频/视频A/V处理装置，该增强三维3D音频/视频A/V处理装置包括：

3D内容生成器，该3D内容生成器被构造成生成包括视频内容和音频内容的3D内容；

深度信息生成器，该深度信息生成器被构造成生成构成所述视频内容的视频帧的深度信息，

信号生成器，该信号生成器被构造成生成包括所生成的所述3D内容和所述深度信息的3D增强信号。

14.根据权利要求13所述的装置，其中，所述深度信息被包含在运动图像专家组MPEG文件格式中。

15.根据权利要求13所述的装置，其中：

将相同或不同深度级信息分配给所述视频帧，并且所述深度级信息能够根据所述视频帧当中的一些连续视频帧的相应单元不同地建立；并且

将相同深度范围信息分配给所述视频帧，或者所述深度范围信息根据所述视频帧当中的一些连续视频帧的相应单元不同地建立。

16.根据权利要求15所述的装置，其中，所述深度信息还包括第一偏移信息和第二偏移信息，

其中，如果所述深度级信息根据所述视频帧当中的一些连续视频帧的所述相应单元不同地建立，则所述第一偏移信息指示该一些连续视频帧的数量，而且

如果所述深度范围信息根据所述视频帧当中的一些连续视频帧的所述相应单元不同地建立，则所述第二偏移信息指示该一些连续视频帧的数量。

17.一种增强三维3D音频/视频A/V处理装置，该增强三维3D音频/视频A/V处理装置包括：

信号处理器，该信号处理器用于处理包括3D内容的三维3D增强信号，该3D内容被构造成具有视频内容和音频内容；

深度信息提取单元，该深度信息提取单元被构造成从经处理的所述3D增强信号获取构成所述视频内容的视频帧的深度信息，

3D音频效果生成器，该3D音频效果生成器被构造成根据所获取的所述深度信息生成3D音频效果；以及

3D音频内容生成器，该3D音频内容生成器被构造成基于所生成的所述3D音频效果生成3D音频内容。

18.根据权利要求17所述的装置，其中，所述深度信息被包含在运动图像专家组MPEG文件格式中。

19.根据权利要求17所述的装置，其中：

20.根据权利要求19所述的装置，其中，所述深度信息还包括第一偏移信息和第二偏移信息，