CN113490134B

CN113490134B - 音频再现方法和声音再现系统

Info

Publication number: CN113490134B
Application number: CN202110746945.8A
Authority: CN
Inventors: C·查巴尼; N·R·茨恩高斯; C·Q·鲁宾逊
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2010-03-23
Filing date: 2011-03-17
Publication date: 2023-06-09
Anticipated expiration: 2031-03-17
Also published as: WO2011119401A3; KR20160130516A; HK1213715A1; CN116471533A; KR20120130226A; CN113490133A; CN102823273A; CN113490132A; KR101490725B1; JP6078497B2; JP2014180044A; CN108989721A; US8755543B2; US20120183162A1; CN104869335A; CN102823273B; EP2550809B8; CN113490132B; CN116419138A; KR101777639B1

Abstract

本公开涉及音频再现方法和声音再现系统。提供视觉线索附近的局部中的音频感知。一种设备包括视频显示器、第一行音频换能器和第二行音频换能器。第一行和第二行可以垂直地设置在视频显示器上方和下方。第一行音频换能器和第二行音频换能器形成协调地生成可听信号的列。通过对所述列的音频换能器的输出进行加权，可听信号的感知发射是来自视频显示器的平面(例如，视觉线索的位置)。在某些实施例中，音频换能器在外围间隔地更远，以提高所述平面的中心部分中的保真度并降低外围的保真度。

Description

音频再现方法和声音再现系统

本申请是申请号为201810895098.X、申请日为2011年3月17日、发明名称为“音频再现方法和声音再现系统”的发明专利申请的分案申请，该申请号为201810895098.X的发明专利申请是申请号为201510284811.3、申请日为2011年3月17日、发明名称为“用于局域化感知音频的技术”的发明专利申请的分案申请，该申请号为201510284811.3的发明专利申请是申请号为201180015018.3、申请日为2011年3月17日、发明名称为“用于局域化感知音频的技术”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2010年3月23日提交的美国临时专利申请No.61/316,579的优先权，其全部内容通过引用整体合并于此。

技术领域

本发明总地涉及音频再现，更特别地，涉及视觉线索附近局部的音频感知。

背景技术

无论是在住宅客厅还是在剧院场所中，保真音响系统都通过利用立体声技术来逼近实际原始声场。这些系统使用至少两个呈现声道(例如，左声道和右声道、环绕声5.1、6.1或11.1等)，通常通过扬声器的对称布置来投射。例如，如图1所示，常规环绕声5.1系统100包括：(1)左前扬声器102、(2)右前扬声器104、(3)前置中心扬声器106(中心声道)、(4)低频扬声器108(例如，亚低音扬声器)、(5)左后扬声器110(例如，左环绕)和(6)右后扬声器112(例如，右环绕)。在系统100中，前置中心扬声器106或单个中心声道承载所有对话和与屏幕上的图像相关联的其它音频。

然而，这些系统受到缺陷的困扰，尤其是在使声音局域化在某些方向上时，并且通常要求用于最佳性能的单个固定的听众位置(例如，最佳听音位置114，扬声器之间的焦点，在该焦点处，个人听到混音者想要的音频混合)。迄今为止对于改进的许多努力涉及增加呈现声道的数量。混合大量声道对内容制作者招致更大的时间和成本害处，可是所得的感知未能将声音局限于声源的视觉线索附近。换句话讲，从这些音响系统再现的声音没有被感知为是从屏上视频平面发出的，因而缺乏真正的现实感。

发明人从以上意识到，用于与视频图像相关联的局域化感知音频的技术是改善自然听音体验所需的。

本部分中描述的方法是可被寻求的方法，但不一定是以前设想过或寻求过的方法。因此，除非另外表明，否则不应仅由于该部分中所述的任一方法包括在该部分中就假设该方法被视为现有技术。类似地，除非另外表明，否则关于一种或多种方法所识别的问题不应基于本部分就假设已经在任何现有技术中被意识到。

发明内容

提供用于视觉线索附近的局部中的音频感知的方法和装置。模拟的或数字的音频信号被接收。音频信号的感知起源(origin)在视频平面上的位置被确定，或者以其它方式被提供。选择与感知起源的水平位置对应的一列音频换能器(例如，扬声器)。所述列包括选自多行(例如，2行、3行或更多行)音频换能器的至少两个音频换能器。对于所述列的所述至少两个音频换能器，确定用于“摇移(panning)”(例如，在物理扬声器位置之间产生幻象声频图像)的权重因子。这些权重因子对应于感知起源的垂直位置。可听信号由所述列利用所述权重因子来呈现。

在本发明一实施例中，一种设备包括视频显示器、第一行音频换能器和第二行音频换能器。第一行和第二行垂直地设置在视频显示器上方和下方。第一行音频换能器和第二行音频换能器形成协调地生成可听信号的列。通过对所述列的音频换能器的输出进行加权，可听信号的感知发射是来自视频显示器的平面(例如，视觉线索的位置)。在某些实施例中，音频换能器在外围间隔得更远，以提高所述平面的中心部分中的保真度并降低外围的保真度。

在另一实施例中，一种系统包括音频透明屏幕、第一行音频换能器和第二行音频换能器。第一行和第二行设置在音频透明屏幕后面(相对于预期的观众/听众位置)。所述屏幕至少对于人类听力的所需频率范围而言是音频透明的。在特定实施例中，所述系统还可包括第三行、第四行或更多行音频换能器。例如，在电影院场所中，三行9个换能器可提供性能与复杂性(成本)之间的合理折衷。

在本发明的又一实施例中，接收元数据。所述元数据包括音频干路(stem)(例如，副路混合(submix)、副编组(subgroup)、或者在组合到主路混合(master mix)中之前可被单独处理的母线(bus))的感知起源的位置。选择与所述感知起源的水平位置最接近的一列或多列音频换能器。所述一列或多列中的每个包括选自多行音频换能器的至少两个音频换能器。确定用于所述至少两个音频换能器的权重因子。这些权重因子与所述感知起源的垂直位置相关，或者以其它方式与之相关连。所述音频干路由所述列利用所述权重因子来可听地呈现。

作为本发明的实施例，接收音频信号。确定用于所述音频信号的在视频平面上的第一位置。所述第一位置对应于第一帧上的视觉线索。确定用于所述音频信号的在所述视频平面上的第二位置。所述第二位置对应于第二帧上的所述视觉线索。对所述音频信号在所述视频平面上的第三位置进行内插，或者以其它方式估计该第三位置，以对应于所述视觉线索在第三帧上的定位。第三位置设置在第一位置与第二位置之间，并且第三帧介于第一帧和第二帧之间。

附图说明

在附图中以举例的方式、而非限制的方式示出了本发明，在附图中，相似的附图标记表示类似的元件，其中：

图1示出常规的环绕声5.1系统；

图2示出根据本发明一实施例的示例性系统；

图3示出本发明一实施例的收听位置不敏感性；

图4A和图4B是示出根据本发明的实施例的感知声音定位的简图；

图5是示出根据本发明的实施例的对于运动的感知声音定位的内插的简图；

图6A、图6B、图6C和图6D示出根据本发明的实施例的示例性设备配置；

图7A、图7B和图7C显示根据本发明的实施例的用于局域化感知音频的示例性元数据信息；

图8示出根据本发明的实施例的简化流程图；以及

图9示出根据本发明的实施例的另一简化流程图。

具体实施方式

图2示出根据本发明的实施例的示例性系统200。系统200包括视频显示设备202，视频显示设备202进一步包括视频屏幕204和两行音频换能器206、208。行206、208关于视频屏幕204垂直设置(例如，行206位于视频屏幕204上方，行208位于视频屏幕204下方)。在特定实施例中，行206、208取代前置中心扬声器106来在环绕声环境中输出中心声道音频信号。因此，系统200还可包括(但不一定必须包括)以下中的一个或多个：左前扬声器102、右前扬声器104、低频扬声器108、左后扬声器110和右后扬声器112。中心声道音频信号可以完全或部分地专用于再现媒体内容的语音片段或其它对话干路。

每行206、208包括多个音频换能器—2、3、4、5或更多个音频换能器。这些音频换能器对齐以形成列—2、3、4、5或更多列。两行5个换能器均提供性能与复杂性(成本)之间的明智折衷。在替选实施例中，每行中的换能器的数量可不同，和/或换能器的放置可歪斜。对每个音频换能器的馈给可基于信号处理和实时监视来个性化，以获得期望的感知起源、源大小和源运动等。

音频换能器可以是以下中的任意类型：扬声器(例如，安装在外壳中的直接辐射电动式驱动器)、喇叭形扬声器、压电式扬声器、磁致伸缩扬声器、静电式扬声器、带状和平面磁力扬声器、弯曲波扬声器、平板扬声器、分布式模式扬声器、Heil空气运动换能器、等离子弧扬声器、数字扬声器、分布式模式扬声器(例如，通过弯曲板振动操作—作为例子参见美国专利No.7,106,881，其整体合并于此用于任何目的)、以及它们的任何组合/混合。类似地，换能器的频率范围和保真度在需要时可在行之间以及行内变化。例如，行206可包括满范围(例如，3至8英寸直径的驱动器)或中范围的音频换能器以及高频高音扬声器。由行206、208形成的列可设计为包括共同提供健壮的可听输出的不同音频换能器。

图3示出显示设备202除了其它特征之外与图1的最佳听音位置114相比的收听位置不敏感性。对于中心声道，显示设备202避免了或者以其它方式减轻了：

(i)音色损伤—主要是梳理(combing)的结果，由收听者与在各个不同距离处的扬声器之间的传播时间不同而导致；

(ii)不相干性—主要是与由多个源模拟的波前相关联的不同速率末端能量矢量(velocity end energy vector)的结果，使声频图像要么是不可区分的(例如，听觉上模糊的)，要么被感知在每个扬声器位置，而不是在中间位置处的单个声频图像；以及

(iii)不稳定性—声频图像位置随听众位置的变化，例如，当听众移动到最佳听音位置之外时，声频图像将移动到更近的扬声器，或者甚至崩溃。

显示设备202采用至少一列来呈现音频，或者下文有时称为“列捕捉(columnsnapping)”，以改善声频图像位置和大小的空间分辨率，以及改善音频与相关联的视觉场景的集成。在这个例子中，包括音频换能器304和306的列302在位置307处呈现幻象可听信号。无论听众的横向位置(例如，听众位置308或310)如何，可听信号都被列捕捉到位置307。从听众位置308起，路径长度312和314基本上相等。这也适用于具有路径长度316和318的听众位置310。换句话讲，不管听众位置的任何横向变化如何，音频换能器302或304也都不比列302中的另一个音频换能器移动得相对更接近于听众。相反，左前扬声器102和右前扬声器104的路径320和322分别可极大地变化，并且仍受听众位置敏感性的困扰。

图4A和图4B是示出根据本发明的实施例的设备402的感知声音定位的简图。在图4A中，设备402在位置404处输出感知声音，然后跳转到位置406。跳转可与影片镜头切换或同一场景内的声源改变(例如，不同的讲话演员、音响效果等)相关联。这可以通过首先列捕捉到列408，然后到列410而在水平方向上实现。垂直定位通过改变所捕捉的列内的音频换能器之间的相对摇移权重来实现。另外，设备402还可使用两个列408和410同时在位置404和位置406处输出两个截然不同的局域化声音。如果多个视觉线索呈现在屏幕上的话，则这是可取的。作为特定实施例，多个视觉线索可与画中画(PiP)显示的使用相结合，以在同时显示多个节目期间将声音与合适画面空间上相关联。

在图4B中，设备402在位置414(设置在列408与412之间的中间位置)处输出感知声音。在这种情况下，两个列用于定位感知声音。应理解，可在整个收听区域上对音频换能器进行独立控制来达到所希望的效果。如上所述，声频图像可以例如通过列捕捉而置于视频屏幕显示上的任何地方。根据视觉线索，声频图像可以是点源或大面积源。例如，对话可被感知为从屏幕上的演员的嘴里发出，而波浪拍打海滩的声音可蔓延在屏幕的整个宽度上。在这个例子中，对话可被列捕捉，而同时，整行换能器用于发出波浪声。这些效果对于所有听众位置将被类似地感知。此外，所感知的声源在必要时可在屏幕上行进(例如，当演员在屏幕上移动时)。

图5是示出根据本发明的实施例由设备502对感知声音定位进行内插以获得运动效果的简图。该位置内插可在混音、编码、解码或处理后播放时发生，然后，所计算的内插位置(例如，显示屏幕上的x、y坐标位置)可被用于如这里所描述的音频呈现。例如，在时间t₀，音频干路可指定为位于起始位置506处。起始位置506可对应于音频干路的视觉线索或其它源(例如，演员的嘴巴、狂吠的狗、汽车引擎、枪支的枪口等)。在稍后的时间t₉(9帧之后)，相同的视觉线索或其它源可指定为位于结束位置504，优选地，在切换场景之前。在这个例子中，时间t₉和时间t₀时的帧是“关键帧”。给定起始位置、结束位置和经过时间，对于音频呈现中将使用的每个居间帧或非关键帧，可对移动源的估计位置进行线性内插。与场景相关联的元数据可包括(i)起始位置、结束位置和经过时间，(ii)内插位置，或(iii)项目(i)和(ii)二者。

在替选实施例中，内插可以是抛物线、分段恒定、多项式、样条或高斯过程。例如，如果音频源是放出的子弹，则弹道轨迹、而不是线性，可用于更接近地匹配视觉路径。在某些情况下，可能可取的是，使用沿行进方向的摇移来平滑运动，同时在与运动垂直的方向上“捕捉”到最近的行或列，以减小幻象损伤，从而可相应地调整内插函数。在其它情况下，超过所指定的结束位置504的额外位置可通过外插来计算，特别是针对短暂时段而言。

起始位置506和结束位置504的指定可通过多种方法来实现。指定可由混音操作者手动执行。时间变化的手动指定提供音频呈现中的准确度和优异控制。然而，它是劳动密集的，特别是如果视频场景包括多个声源或干路的话。

指定还可使用人工智能(诸如，神经网络、分类器、统计学习或模式匹配)、物体/面部识别、特征提取等来自动地执行。例如，如果确定音频干路表现出人类语音的特性，则它可自动地与通过面部识别技术在场景中找到的面部相关联。类似地，如果音频干路表现出特定乐器(例如，小提琴、钢琴等)的特性，则可对场景搜索合适的乐器，并且分配到对应的位置。在管弦乐队场景的情况下，每个乐器的自动分配可明显地比手动指定节省劳力。

另一种指定方法是对不同的已知位置提供多个音频流，每个音频流捕获整个场景。可对场景信号的相对水平(最佳地，考虑每个音频对象信号)进行分析，以对每个音频对象信号产生位置元数据。例如，立体声麦克风对可用于捕获整个摄影棚中的音频。演员的语音在立体声麦克风的每个麦克风中的相对水平可用于估计演员在棚中的位置。在计算机生成影像(CGI)或基于计算机的游戏的情况下，音频和视频对象在整个场景中的位置是已知的，可直接用于产生音频信号大小、形状和位置元数据。

图6A、图6B、图6C和图6D示出根据本发明的实施例的示范性设备配置。图6A显示设备602，其具有在两行604、606中密集间隔的换能器。换能器的高密度改进了声频图像位置和大小的空间分辨率，并且增加了颗粒运动内插。在特定实施例中，相邻换能器的间隔小于10英寸(中心间距离608)，或者对于大约8英尺的典型收听距离，大约小于大约6度。然而，应意识到，对于更高的密度，相邻换能器可邻接，和/或扬声器锥形大小缩小。可利用多个微扬声器(例如，索尼DAV-IS10；松下电子器件；2×1英寸扬声器或更小扬声器等)。

在图6B中，设备620包括音频透明屏幕622、第一行音频换能器624和第二行音频换能器626。第一行和第二行设置在音频透明屏幕的后面(相对于预期的观众/听众位置)。音频透明屏幕可以是但不限于投影屏幕、银幕、电视机显示屏幕、蜂窝无线电话屏幕(包括触摸屏)、膝上型计算机显示器或者台式/平板计算机显示器。所述屏幕至少对于人类听力的期望频率范围(优选地，大约20Hz至大约20kHz，或者更优选地，人类听力的整个范围)是音频透明的。

在特定实施例中，设备620还可包括第三行、第四行或更多行(未显示)的音频换能器。在这样的情况下，最上行和最下行优选地，但不必须，分别位于音频透明屏幕的上边缘和下边缘附近。这允许显示屏幕平面上的整个范围的音频摇移。此外，行之间的距离可变化，从而以一个部分为代价提供另一个部分中的更大的垂直分辨率。类似地，所述行中的一行或多行中的音频换能器在外围可间隔得更远，以提高所述平面的中心部分的水平分辨率并降低外围的分辨率。一个或多个区域中音频换能器的高密度(由行间隔和个体换能器间隔的组合所确定)可被构造用于较高的分辨率，在其它区域中，低密度可被构造用于较低的分辨率。

图6C中的设备640也包括两行音频换能器642、644。在这个实施例中，一行内的音频换能器之间的距离变化。相邻音频换能器之间的距离可作为距中心线646的函数而变化，无论是线性的、几何的，还是其它方式。如所示，距离648大于距离650。以这种方式，显示屏幕平面上的空间分辨率可不同。第一位置(例如，中心位置)的空间分辨率能以第二部分(例如，外围部分)的较低空间分辨率为代价而得到提高。当用于环绕系统中心声道中所呈现的对话的大部分视觉线索发生在屏幕平面的中心附近时，这可以是可取的。

图6D示出设备660的示例形状因素。提供高分辨率中心声道的音频换能器行662、664集成到单个形状因素中，还有左前扬声器666和右前扬声器668。这些部件集成到单个形状因素中可提供组装效率、更好的可靠性和改进的美观度。然而，在某些情况下，行662和664可被组装为单独的声音条，每个声音条物理地耦接(例如，安装)到显示设备。类似地，每个音频换能器可被单独封装并耦接到显示设备。事实上，每个音频换能器的位置可被终端用户根据终端用户偏好调整到可替换的预定位置。例如，换能器安装在具有可用的开槽位置的轨道上。在这样的情况下，换能器的最终位置由用户输入或者自动检测到播放设备中以用于适当地操作局域化感知音频。

图7A、图7B和图7C示出根据本发明的实施例用于局域化感知音频的元数据信息的类型。在图7A的简单例子中，元数据信息包括唯一标识符、时序信息(例如，起始帧和停止帧，或者替选地，经过的时间)、用于音频再现的坐标以及音频再现的期望大小。坐标可针对一种或多种常规视频格式或高宽比来提供，诸如宽屏幕(大于1.37:1)、标准(4:3)、ISO 216(1.414)、35mm(3:2)、WXGA(1.618)、超级16mm(5:3)、HDTV(16:9)等。提供可与视觉线索的大小相关的音频再现的大小，以允许由多个换能器列进行呈现以增大感知大小。

图7B中所提供的元数据信息与图7A的不同之处在于音频信号可被识别以用于运动内插。提供音频信号的起始位置和结束位置。例如，音频信号0001在X1、Y2处开始，并且在帧序列0001至0009期间移动到X2、Y2。在特定实施例中，元数据信息还可包括将用于运动内插的算法或函数。

在图7C中，提供了与图7B所示的例子类似的元数据信息。然而，在这个例子中，代替笛卡尔x-y坐标，再现位置信息被提供为显示屏幕尺寸的百分比。这给予了元数据信息的设备独立性。例如，音频信号0001在P1％(水平)、P2％(垂直)处开始。P1％可以是从参考点起显示长度的50％，P2％可以是从同一或另一参考点起显示高度的25％。替选地，声音再现的位置可根据从参考点起的距离(例如，半径)和角度来指定。类似地，再现的大小可被表达为显示尺寸或参考值的百分比。如果使用参考值，则参考值可作为元数据信息被提供给播放设备，或者如果与设备相关，则它可被预先定义并存储在回放设备上。

除了以上类型的元数据信息(地点、大小等)之外，其它合适类型可包括：

音频形状；

虚拟对真实图像偏好；

所需的绝对空间分辨率(帮助管理播放期间的幻象对真实声频成像)—分辨率可对于每个维度(例如，L/R、前/后)指定；以及

所需的相对空间分辨率(帮助管理播放期间的幻象对真实声频成像)—分辨率可对于每个维度(例如，L/R、前/后)指定。

另外，对于到中心声道音频换能器或环绕声系统扬声器的每个信号，可发送指示偏移的元数据。例如，元数据可对于将被展现的每个声道更精确地(水平和垂直地)指示所需位置。对于具有较高空间分辨率的系统，这将允许以较高分辨率展现来发送空间音频的过程，但向后兼容。

图8示出根据本发明的实施例的简化流程图800。在步骤802，接收音频信号。在步骤804，确定音频信号的感知起源在视频平面上的位置。接着，在步骤806，选择一列或多列音频换能器。所选的列对应于感知起源的水平位置。每列包括至少两个音频换能器。在步骤808，确定或者以其它方式计算用于所述至少两个音频换能器的权重因子。这些权重因子对应于感知起源的垂直位置以用于音频摇移。最后，在步骤810，由所述列利用所述权重因子来呈现可听信号。在不脱离这里所主张的范围的情况下，还可提供其它替选形式，在这些替选形式中，增加步骤，移除一个或多个步骤，或者按与以上序列不同的序列提供一个或多个步骤。

图9示出根据本发明的实施例的简化流程图900。在步骤902，接收音频信号。在步骤904，确定或者以其它方式识别音频信号在视频平面上的第一位置。第一位置对应于第一帧上的视觉线索。接着，在步骤906，确定或者以其它方式识别音频信号在视频平面上的第二位置。第二位置对应于第二帧上的视觉线索。对于步骤908，计算音频信号在视频平面上的第三位置。对第三位置进行内插，以对应于视觉线索在第三帧上的定位。第三位置设置在第一位置与第二位置之间，第三帧介于第一帧与第二帧之间。

所述流程图还(可选地)包括步骤910和912，步骤910和912分别选择一列音频换能器和计算权重因子。所选的列对应于第三位置的水平位置，并且权重因子对应于第三位置的垂直位置。在步骤914中，在显示第三帧期间，可选地通过所述列利用所述权重因子来呈现可听信号。在混音器再现媒体以产生必需的元数据期间或者在播放呈现音频期间，可全部或部分地执行流程图900。在不脱离这里主张的范围的情况下，还可提供其它替选形式，在这些替选形式中，增加步骤，移除一个或多个步骤，或者按与以上序列不同的序列提供一个或多个步骤。

用于局域化感知音频的以上技术可延及三维(3D)视频，例如，立体图像对：左眼感知图像和右眼感知图像。然而，对于关键帧仅识别一个感知图像中的视觉线索可导致最终立体图像中的视觉线索的位置与所感知的音频播放之间的水平差异。为了补偿，可对立体差异进行评估，并且可使用常规技术(诸如将关键帧中的视觉邻域与其它感知图像相关联或者从3D深度图计算)来自动地确定调整后的坐标。

立体关联还可用于自动地产生沿显示屏幕的法线指向且与声音图像的深度对应的附加坐标z。z坐标可被规范化，使得1正好在观看位置处，0指示在显示屏幕屏幕上，小于0指示该平面后面的位置。在播放时，附加深度坐标可用于与立体视觉组合地合成附加的身临其境的音频效果。

实现机构—硬件概述

根据一实施例，这里描述的技术用一个或多个专用计算设备来实现。所述专用计算设备可以被硬连线来执行所述技术，或者可包括数字电子器件，诸如被持久地编程为执行所述技术的一个或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA)，或者可包括按照固件、存储器、其它储存器或者组合中的程序指令被编程为执行所述技术的一个或多个通用硬件处理器。这样的专用计算设备还可将定制的硬连线逻辑器、ASIC或FPGA与定制编程组合来实现所述技术。所述专用计算设备可以是台式计算机系统、便携式计算机系统、手持设备、联网设备、或者合并实现所述技术的硬连线和/或程序逻辑的任何其它设备。所述技术不限于硬件电路系统和软件的任何特定组合，也不限于由计算设备或数据处理系统执行的指令的任何特定源。

这里使用的术语“储存介质”是指存储使机器以特定方式操作的数据和/或指令的任何介质。它是非暂时性的。这样的储存介质可包括非易失性介质和/或易失性介质。非易失性介质包括例如光盘或磁盘。易失性介质包括动态存储器。储存介质的常见形式包括例如软盘、柔性盘、硬盘、固态驱动器、磁带或任何其它磁性数据储存介质、CD-ROM、任何其它光学数据储存介质、具有孔图案的任何物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其它存储芯片或盒。

储存介质与传输介质截然不同，但是可与传输介质联合使用。传输介质参与在储存介质之间传送信息。例如，传输介质包括同轴电缆、铜线和光纤。传输介质还可采取声波或光波(诸如在无线电波和红外数据通信期间所产生的那些)的形式。

等同形式、扩展形式、替选形式和其它形式

在前述说明书中，已参照许多特定细节描述了本发明的可行实施例，这些细节在不同实现中可变化。因而，什么是本发明并且申请人意图什么是本发明的唯一的且排他的指示是本申请以特定形式发布的一套权利要求，在所述特定形式下，这种权利要求发布包括任何后续校正。本文对于这样的权利要求中所包含的术语明确阐述的任何定义应该决定权利要求中所使用的这样的术语的意义。因此，在权利要求中没有明确叙述的限制、元素、性质、特征、优点或属性不应以任何方式限制这样的权利要求的范围。因此，要从说明性、而非限制性的意义来看待说明书和附图。还应该理解，为了清晰起见，例如(e.g.)意味着“为了举例”(而非穷举)，其不同于即(i.e.)或“也就是说”。

另外，在前述描述中，阐述了许多特定细节，诸如特定组件、设备、方法等的例子，以便提供本发明的实施例的透彻理解。然而，对于本领域技术人员将显而易见的是，无需利用这些特定细节来实施本发明的实施例。在其它情况下，没有详细地描述公知的素材或方法，以便避免不必要地模糊本发明的实施例。

Claims

1.一种用于通过回放设备进行音频对象的音频再现的方法，所述方法包括：

接收音频流，所述音频流包括音频对象和参考屏幕元数据；

确定音频对象对应于参考屏幕；

从所述音频流提取所述参考屏幕元数据，其中所述参考屏幕元数据包括关于所述参考屏幕的尺寸的信息；

接收显示屏幕元数据和位置元数据，其中所述显示屏幕元数据包括关于所述回放设备的显示屏幕的尺寸的信息，并且其中所述位置元数据指示所述音频对象相对于参考屏幕的声音再现位置和/或大小，并且其中所述显示屏幕不同于所述参考屏幕；

通过处理器相对于显示屏幕确定所述音频对象的声音再现的再现信息，其中所述再现信息基于所述参考屏幕元数据、所述显示屏幕元数据、和所述位置元数据被确定；并且

通过所述回放设备基于所述再现信息呈现所述音频对象。

2.根据权利要求1所述的方法，其中，所述音频对象是中心声道音频信号。

3.根据权利要求1所述的方法，还包括接收用于左前扬声器、右前扬声器、左后扬声器和右后扬声器的多个其它音频信号。

4.一种用于音频对象的音频再现的回放装置，所述回放装置包括：

第一接收器，用于接收音频流，所述音频流包括音频对象和参考屏幕元数据；

第一处理器，用于确定音频对象对应于参考屏幕；

第二处理器，用于从所述音频流提取所述参考屏幕元数据，其中所述参考屏幕元数据包括关于所述参考屏幕的尺寸的信息；

第二接收器，用于接收显示屏幕元数据和位置元数据，其中所述显示屏幕元数据包括关于所述回放设备的显示屏幕的尺寸的信息，并且其中所述位置元数据指示所述音频对象相对于参考屏幕的声音再现位置和/或大小，并且其中所述显示屏幕不同于所述参考屏幕；

第三处理器，用于相对于显示屏幕确定所述音频对象的声音再现的再现信息，其中所述再现位置基于所述参考屏幕元数据、所述显示屏幕元数据、和所述位置元数据被确定；以及

呈现器，用于基于所述再现信息呈现所述音频对象。

5.根据权利要求4所述的回放装置，其中所述音频对象是中心声道音频信号。

6.根据权利要求4所述的回放装置，其中，所述第一接收器还被配置为接收用于左前扬声器、右前扬声器、左后扬声器和右后扬声器的多个其它音频信号。

7.一种用于音频对象的音频再现的设备，包括：

处理器；以及

非暂时性存储介质，包括指令，该指令在被处理器执行时使得执行根据权利要求1-3中任一项所述的方法。

8.一种非暂时性存储介质，包括指令，该指令在被处理器执行时使得执行根据权利要求1-3中任一项所述的方法。