CN103493513A

CN103493513A - 用于将音频上混以便产生3d音频的方法和系统

Info

Publication number: CN103493513A
Application number: CN201280019361.XA
Authority: CN
Inventors: N·R·茨恩高斯; C·Q·鲁宾逊; C·查巴尼; T·赫冯恩; P·格里菲思
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2011-04-18
Filing date: 2012-04-05
Publication date: 2014-01-01
Anticipated expiration: 2032-04-05
Also published as: JP5893129B2; JP2014515906A; EP2700250B1; US20140037117A1; CN103493513B; US9094771B2; WO2012145176A1; EP2700250A1

Abstract

在一些实施例中，提出用于将包括N个全范围声道的输入音频上混以便产生包括N+M个全范围声道的3D输出音频的方法，其中N+M个全范围声道意图由至少包括处于离收听者不同距离处的2个扬声器的扬声器呈现。N声道输入音频是2D音频节目，它的N个全范围声道意图由离收听者标称等距的N个扬声器呈现。响应于以自动的方式根据与输入音频对应的立体3D视频确定的提示，或者响应于以自动的方式根据输入音频确定的提示，典型地以自动的方式执行输入音频的上混以便产生3D输出音频。其它方面包括被配置为执行本发明的方法的任何实施例的系统、以及存储用于实现本发明的方法的任何实施例的代码的计算机可读介质。

Description

用于将音频上混以便产生3D音频的方法和系统

相关申请的交叉引用

本申请要求2011年4月18日提交的美国专利临时申请No.61/476,395的优先权，其整体通过参考被并入于此。

技术领域

本发明涉及用于将多声道的音频上混(upmix)以便产生多声道的3D输出音频的系统和方法。典型实施例是用于将意图由离收听者标称（nominally）等距的扬声器呈现的2D输入音频（包括N个全范围(full range)声道）上混以便产生包括N+M个全范围声道的3D输出音频的系统和方法，其中N+M个全范围声道意图被至少包括处于离收听者不同距离处的2个扬声器的扬声器呈现。

背景技术

在整个这个公开内容中（包括权利要求中），表述“对”信号或者数据执行操作（例如，对信号或者数据进行滤波、缩放(scaling)、或者变换）在广义上被用来表示直接对信号或者数据执行操作，或者对信号或者数据的经处理的版本（例如，对信号的在对其执行操作之前已经受到初步滤波的版本）执行操作。

在整个这个公开内容中（包括权利要求中），表述“系统”在广义上被用来表示装置、系统或者子系统。例如，实现解码器的子系统可以被称为解码器系统，并且包括这种子系统的系统（例如，响应于多个输入产生X个输出信号的系统，在其中子系统产生M个输入并且其它X-M个输入是从外部源接收的）也可以被称为解码器系统。

在整个这个公开内容中（包括权利要求中），以下表述具有以下定义：

扬声器（speaker）和扩音器（loudspeaker）被同义地使用，来表示任何发出声音的换能器。这个定义包括被实现为多个换能器的扩音器（例如，低音喇叭（woofer）和高音喇叭（tweeter））；

扬声器供给（feed）：要被直接施加到扩音器的音频信号，或者要被顺序地施加到放大器和扩音器的音频信号；

声道：以使得等同于直接施加音频信号到期望或标称位置处的扩音器的方式呈现的音频信号。期望的位置可以是静态的（典型地如具有物理的扩音器情况一样），或者动态的；

音频节目：一组一个或更多个音频声道；

呈现：将音频节目转换成一个或更多个扬声器供给的处理，或者将音频节目转换成一个或更多个扬声器供给并且使用一个或更多个扩音器将扬声器供给（一个或更多个）转换为声音的处理（在后一种情况下，在此呈现有时被称为“通过”扩音器（一个或更多个）呈现）。音频声道可以通过将信号直接施加到期望位置处的物理的扩音器而（在期望位置“处”）被琐细地（trivially）呈现，或者一个或更多个音频声道可以通过使用被设计为（对于收听者）基本上等同于这种琐细的呈现的各种虚拟化（virtualization）技术之一被呈现。在这个后一种情况中，每个音频声道可以被转换为要被施加到通常不同于期望位置的已知位置中的扩音器（一个或更多个）的一个或更多个扬声器供给，使得由扩音器（一个或更多个）响应于供给（一个或更多个）发出的声音将被感知为从期望位置发出。这种虚拟化技术的示例包括经由头戴耳机（headphones）（例如，使用对于头戴耳机佩带者模拟直到环绕声的7.1声道的Dolby头戴耳机处理）以及波场合成的双耳的呈现；

立体3D视频：在被显示时通过使用显示的场景（scene）到观看者的两个眼睛的视网膜上的两个稍有不同的投影而产生视觉深度的感觉的视频；

方位角（azimuth）（或者方位角度）：源相对于收听者/观看者的在水平面中的角度。典型地，0度的方位角度表示源在收听者/观看者的正前方，并且方位角度随着源围绕收听者/观看者以逆时针方向移动而增大；

仰角（elevation）（或者仰视角度）：源相对于收听者/观看者的在垂直面中的角度。典型地，0度的仰视角度表示源在与收听者/观看者相同的水平面中，并且仰视角度随着源相对于观看者向上移动而增大（在从0到90度的范围中）；

L：左前方音频声道。典型地意图由位于约30度方位角、0度仰角处的扬声器呈现；

C：中央前方音频声道。典型地意图由位于约0度方位角、0度仰角处的扬声器呈现；

R：右前方音频声道。典型地意图由位于约-30度方位角、0度仰角处的扬声器呈现；

Ls：左环绕音频声道。典型地意图由位于约110度方位角、0度仰角处的扬声器呈现；

Rs：右环绕音频声道。典型地意图由位于约-110度方位角、0度仰角处的扬声器呈现；

全范围声道：音频节目的除该节目的每个低频效果声道以外的所有音频声道。典型的全范围声道是立体声节目的L和R声道，以及环绕声节目的L、C、R、Ls和Rs声道。由低频效果声道（例如，亚低音扬声器（subwoofer）声道）确定的声音包括直到截止频率的可听范围中的频率分量，但是不包括截止频率以上的可听范围中的频率分量（如典型的全范围声道那样）；

前方声道：与前方的声音级（stage）关联的（音频节目的）音频声道。典型的前方声道是立体声节目的L和R声道或者环绕声节目的L、C和R声道；

2D音频节目（例如，2D输入音频，或者2D音频）：包括至少一个全范围声道（典型地由对于每个声道的音频信号确定）的音频节目，意图由离收听者标称等距的扬声器（一个或更多个）（例如，离收听者标称等距的两个、五个或者七个扬声器，或者一个扬声器）呈现。节目“意图”在如下的意义上由离收听者标称等距的扬声器呈现，即节目（例如，通过录制和母版制作（mastering），或者任何其它方法）被产生为使得在它的全范围声道由位于相对于收听者适当的方位角和仰视角度处的距离相等的扬声器（例如，其中每个扬声器在相对于收听者不同的预定的方位角度处）呈现时，发出的声音在感知的音频源的期望的成像的情况下由收听者感知。例如，声音可以被感知为来源于离收听者的距离与扬声器相同处的源，或者来源于离收听者不同的距离的范围中的源。传统的2D音频节目的示例是立体声音频节目和5.1环绕声节目；

3D音频节目（例如，3D输出音频，或者3D音频）：音频节目，它的全范围声道包括第一声道子集以及第二声道子集，第一声道子集包括确定2D音频节目（意图由至少一个“主”扬声器、以及典型地由离收听者距离相等的至少两个“主”扬声器呈现）的至少一个音频声道（有时被称为“主”声道或者多个“主”声道），第二声道子集包括意图由物理上位于比呈现主声道（一个或更多个）的扬声器（一个或更多个）（“主”扬声器（一个或更多个））更接近或者远离收听者的至少一个扬声器呈现的至少一个音频声道。第二声道子集可以包括意图由物理上位于比主扬声器更接近收听者的扬声器（"近处"或者"近场"扬声器）呈现的至少一个音频声道（在此有时被称为“近处”或者“近场”声道）和/或意图由物理上位于比主扬声器更远离收听者的扬声器呈现的至少一个音频声道（在此有时被称为"远处"或者"远场"声道）。节目在如下的意义上“意图”由扬声器呈现，即节目（例如，通过录制和母版制作，或者任何其它方法）被产生为使得在它的全范围声道由位于相对于收听者适当的方位角和仰视角度处的扬声器呈现时，发出的声音在感知的音频源的期望的成像的情况下由收听者感知。例如，声音可以被感知为来源于离收听者的距离与扬声器相同范围中的源，或者来源于比扬声器-收听者距离的范围宽或者窄的离收听者的距离的范围中的源。3D音频节目的“意图”由物理上比主扬声器更接近于收听者的近处扬声器（或者物理上比主扬声器更远离收听者的远处扬声器）呈现的“近处”（或者“远处”）声道可以实际地由这种物理上更接近的（或者更远的）扬声器（琐细地）呈现，或者它可以使用在离收听者任何物理距离（一个或更多个）处的扬声器（一个或更多个）以设计成至少基本上等同于琐细的呈现的方式被“虚拟地”呈现（例如，使用包括听觉传输（transaural）或者波场合成的许多技术中的任意一个）。3D音频节目的全范围声道的呈现的一个示例是用相对于收听者不同的预定的方位角度处的每个主扬声器、以及至少基本上等于零的方位角度处的每个近场和远场扬声器来呈现；

空间区域：被分析和分配深度值的视觉图像的一部分；以及

AVR：音频视频接收器。例如，用于控制音频与视频内容的回放的消费电子设备的类别中的接收器，例如在家庭影院中。

立体3D电影正变得越来越流行并且已经在美国占当今的票房收入的显著的百分比。新的数字电影、广播和蓝光规范允许3D电影和其它3D视频内容（例如，实况播送的运动）通过使用各种技术（包括偏振眼镜、全光谱色分离眼镜（full spectrum chromatic separationglasses）、有源快门眼镜或者不需要眼镜的自动立体显示）被分发和呈现作为有差别的左眼和右眼图像。在剧院以及家庭中用于创建、分发和呈现立体3D内容的基础设施现在就位。

立体3D视频将深度印象添加到视觉图像。显示的对象可以被呈现为使得看起来在离用户不同的距离处，从屏幕的正前方到远后方。伴随的音轨（典型地环绕音轨）目前通过使用与2D电影相同的技术来被创作和呈现。传统的2D环绕音轨典型地包括被路由到离收听者标称等距并且以相对于收听者不同的标称方位角度放置的扬声器的五个或者七个音频信号（全范围声道）。

例如，图1示出用于为收听者1呈现2D音频节目的传统的五扬声器声音回放系统。2D音频节目是传统的五声道环绕声节目。该系统包括至少基本上离收听者1距离相等的扬声器2、3、4、5和6。扬声器2、3、4、5和6中的每一个意图供呈现节目的不同的全范围声道之用。如所指出的，扬声器3（意图用于呈现节目的右前方声道）位于30度的方位角度处，扬声器6（意图用于呈现节目的右环绕声道）位于110度的方位角度处，并且扬声器4（意图用于呈现节目的中央前方声道）位于0度的方位角度处。

在自由场（没有反射）中，音频源距离的收听者的感知主要由三个提示（cue）引导：听觉的水平，高和低频率成分的相对水平，以及对于近场信号，收听者的耳朵之间的水平差异（disparity）。对于熟悉的声音，诸如以典型的发出水平发出的（或者假设已经被发出）的讲话，听觉的水平到目前为止是最重要的提示。如果收听者不具有对所感知的音频的发出水平的认识，则所感知的听觉的水平更少有用并且其它提示开始起作用。在混响的声环境中，存在额外的提示（对音频源的离收听者的距离），包括直接与混响的比（direct to reverbratio）以及早期反射的水平和方向。

对于在家庭听音室、电影院或者剧院中再现的音频信号，根据传统的扩音器呈现的“干的（dry）”或者未处理的信号通常将在扩音器距离处成像。在产生2D音频节目（例如，环绕音轨）中，可以通过使用公知的混合技术（例如，混响和低通滤波）模拟远处（来自遥远的源的声音的感知）。不存在有效的用于制作模拟近处（超出隐含的与来自模拟的远处源的音频的对比度）的2D音频节目的混合方法，这部分因为很难去除或者抑制回放地点的自然的混响。

已经提出了用于呈现3D音频（近处音频图像以及感知为来自更远离收听者的源的音频）的基于硬件的系统。在这种系统中音频由相对远离收听者放置的第一组扬声器（包括至少一个扬声器）和更接近于收听者放置的第二组扬声器（包括至少一个扬声器，例如，一组头戴耳机）呈现。典型地，第一组中的扬声器与第二组中的扬声器进行时间对准。在2006年3月9日公布的Tsuhako的美国专利申请公开No.2006/0050890中描述了这种系统的示例。这类的系统可以呈现3D音频节目。虽然这种3D音频节目可以被特别地产生以用于由这种系统呈现，但是直到本发明也还没有提出通过将2D音频节目上混而产生这种3D音频节目。（直到本发明）也还不知道如何对2D音频节目执行上混以便产生3D音频节目，例如，用于通过这个段落中讨论的类别中的系统呈现。

已经提出许多技术以用于（使用离收听者标称等距的扬声器，或者离收听者不同的距离处放置的扬声器）呈现音频节目，使得发出的声音将被感知为来源于离收听者不同的距离处的源。这种技术包括听觉传输声音呈现，波场合成，以及通过使用专用的扩音器设计的有源的直接与混响的比的控制。如果任何这种技术可以以实际的方式被实现并且被广泛地部署，则将可能呈现全3D音频。然而，直到实际的呈现装置可用，不然将有很少的刺激来明确地创作或者分布3D音频内容。相反地，在没有3D音频内容的情况下，将有很少的刺激来开发和安装需要的呈现装备。用于从传统的音轨中推导出3D音频信号以便打破这个“鸡和蛋”的两难困境的装置将是期望的。本发明的典型实施例提供通过从先前存在（例如，传统地产生）的N声道2D音频节目产生N+M个声道3D音频节目的对于这个问题的解决方案。

发明内容

在一类实施例中，本发明是一种用于将N声道输入音频（包括N个全范围声道，其中N是正整数）上混以产生包括N+M个全范围声道的3D输出音频的方法，其中M是正整数，并且N+M个全范围声道意图由包括离收听者不同的距离处的至少两个扬声器的扬声器呈现。典型地，所述方法包括提供指示至少一个音频源的离收听者的距离的源深度数据、以及通过使用源深度数据将输入音频上混以便产生3D输出音频的步骤。典型地，N声道输入音频是2D音频节目，该2D音频节目的N个全范围声道意图由离收听者距离相等的N个扬声器呈现。在一些实施例中，3D输出音频是3D音频节目，该3D音频节目的N+M个全范围声道包括要由离收听者标称等距的N个扬声器（有时被称为“主”扬声器）呈现的N个声道以及意图由额外的扬声器呈现的M个声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。在其它实施例中，3D输出音频的N+M个全范围声道没有映射到N个主扬声器和M个额外的扬声器，其中额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。例如，输出音频可以是包括要由X个扬声器呈现的N+M个全范围声道的3D音频节目，其中X不一定等于输出节目中的3D音频声道的数量（N+M），并且N+M个3D输出音频声道意图被处理（例如，混合和/或滤波）以便产生用于驱动X个扬声器的X个扬声器供给以使得收听者将从扬声器发出的声音感知为来源于在离收听者不同的距离处的源。设想（contemplated）3D输出音频的N+M个全范围声道中的多于一个可以驱动（或者被处理以产生经处理的音频，该音频驱动）单个扬声器，或者3D输出音频的N+M个全范围声道中的一个可以驱动（或者被处理以产生经处理的音频，该音频驱动）多于一个扬声器。

一些实施例可以包括以使得N+M个声道中的至少一个可以驱动一个或更多个扬声器以发出模拟（即，由收听者感知为）从离每个扬声器不同的距离处的多个源发出的声音的声音的方式产生3D输出音频的N+M个全范围声道中的所述至少一个的步骤。一些实施例可以包括以使得N+M个声道中的每一个可以驱动扬声器以发出由收听者感知为从扬声器的位置发出的声音的方式产生3D输出音频的N+M个全范围声道的步骤。在一些实施例中，3D输出音频包括要由离收听者标称等距的N个扬声器（"主"扬声器）呈现的N个全范围声道以及意图由额外的扬声器呈现的M个全范围声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者，并且响应于所述M个全范围声道中的一个从每个额外的扬声器发出的声音可以被感知为来自比主扬声器更靠近收听者的源（近场源）或者来自比主扬声器更远离收听者的源（远场源），不管主扬声器在由N声道输入音频驱动时是否会发出模拟来自这种近场或者远场源的声音的声音。

在优选实施例中，输入音频（包括N个全范围声道）的上混以便产生3D输出音频（包括N+M个全范围声道）以自动的方式被执行，例如，响应于以自动的方式根据与输入音频（例如，其中输入音频是用于3D视频的2D音频音轨）对应的立体3D视频确定（例如，提取）的提示，或者响应于以自动的方式根据输入音频确定的提示，或者响应于以自动的方式根据输入音频和与输入音频对应的立体3D视频确定的提示。在该上下文中，以“自动的”方式产生输出音频意图排除仅仅通过手动混合（例如，将声道乘以手动地选择的增益因子并且将它们相加）输入音频的声道来产生输出音频（例如，手动混合N声道2D输入音频的声道以产生3D输出音频的一个或更多个声道）。

在典型的视频驱动的上混实施例中，3D视频中可用的立体信息被用来提取相关的音频深度增强提示。这种实施例可以被用来通过产生用于电影的3D音轨而增强立体3D电影。在典型的音频驱动的上混实施例中，从2D音频节目（例如，用于3D视频节目的原始的2D音轨）中提取用于产生3D输出音频的提示。这些实施例也可以被用来通过产生用于电影的3D音轨来增强3D电影。

在一类实施例中，本发明是一种用于将N声道的2D输入音频（意图由离收听者标称等距的N个扬声器呈现）上混以产生包括N+M个全范围声道的3D输出音频的方法，其中N+M个声道包括要由离收听者标称等距的N个主扬声器呈现的N个全范围声道以及意图由额外的扬声器呈现的M个全范围声道，额外的扬声器中的每一个比主扬声器更接近或者远离收听者。

在另一类实施例中，本发明是一种用于响应于N声道输入音频自动产生3D输出音频的方法，其3D输出音频包括N+M个全范围声道，N和M中的每一个是正整数，并且3D输出音频的N+M个全范围声道意图由包括在离收听者不同的距离处的至少两个扬声器的扬声器呈现。典型地，N声道输入音频是要由离收听者标称等距的N个扬声器呈现的2D音频节目。在该上下文中，“自动的”产生输出音频意图排除仅仅通过手动混合输入音频的声道来产生输出音频（例如，手动混合N声道的2D输入音频的声道以产生3D输出音频的一个或更多个声道）。自动的产生可以包括产生（或者提供）指示至少一个音频源的离收听者的距离的源深度数据并且通过使用源深度数据将输入音频上混以产生3D输出音频的步骤。在这个类中的典型实施例中，源深度数据是如下的深度提示（或者是根据如下的深度提示确定的）：以自动的方式根据与输入音频（例如，其中输入音频是用于3D视频的2D音频音轨）对应的立体3D视频确定（例如，提取）的深度提示，或者以自动的方式根据输入音频确定的深度提示，或者以自动的方式根据输入音频以及与输入音频对应的立体3D视频确定的深度提示。

本发明的方法和系统不同于传统的音频上混方法和系统（例如，如在例如Gundry,Kenneth,A New Active Matrix Decoder forSurround Sound,AES Conference:19th International Conference:Surround Sound-Techniques,Technology,and Perception(June2001)中描述的Dolby Pro Logic II）。现有的上混器典型地转换意图用于在第一2D扬声器配置（例如，立体声）上回放的输入音频节目，并且产生用于在包括额外的方位角和/或仰视角度处的扬声器的第二（更大的）2D扬声器配置（例如，5.1配置）上回放的额外的音频信号。第一和第二扬声器配置两者都由全部离收听者标称等距的扩音器组成。与此对比，根据本发明的一类实施例的上混方法产生意图用于通过物理地放置在离收听者两个或更多个标称距离处的扬声器呈现的声频输出信号。

本发明的方面包括配置（例如，编程）为执行本发明的方法的任何实施例的系统、以及存储用于实现本发明的方法的任何实施例的代码的计算机可读介质（例如，盘）。

在典型实施例中，本发明的系统是或者包括利用软件（或者固件）编程的和/或被配置为执行本发明的方法的一个实施例的通用的或者专用的处理器。在一些实施例中，本发明的系统是或者包括通用处理器，其耦接为接收输入音频（以及可选地还有输入视频），以及（利用适当的软件）编程为（通过执行本发明的方法的一个实施例）响应于输入音频（以及可选地还有输入视频）产生输出音频。在其它实施例中，本发明的系统被实现为可操作地响应于输入音频产生输出音频的适当地配置的（例如，编程及其他配置）音频数字信号处理器（DSP）。

附图说明

图1是用于呈现2D音频的传统的系统的图。

图2是用于呈现3D音频（例如，根据本发明实施例产生的3D音频）的系统的图。

图3是立体3D视频节目的帧，示出与用于观看者的右眼的第二图像重叠的用于观看者的左眼的第一图像（第一图像的不同元素相对于第二图像的对应元素偏移了不同的量）。

图4是计算机系统的框图，包括存储用于对系统的处理器501编程以便执行本发明的方法的实施例的计算机代码的计算机可读的存储介质504。

具体实施方式

本发明的许多实施例技术上是可能的。本领域技术人员将根据本公开而清楚如何实现它们。将参考图1、2、3和4描述本发明的系统、方法和介质的实施例。

在一类实施例中，本发明是一种用于将N声道输入音频（其中N是正整数）上混以产生包括N+M个全范围声道的3D输出音频的方法，其中M是正整数，并且3D输出音频的N+M个全范围声道意图由包括离收听者不同的距离处的至少两个扬声器的扬声器呈现。典型地，N声道输入音频是其N个全范围声道意图由离收听者标称等距的N个扬声器呈现的2D音频节目。

例如，输入音频可以是五声道的、环绕声2D音频节目，意图由（上面描述的）图1的传统的五扬声器系统呈现。这种2D音频节目的五个全范围声道中的每一个意图用于驱动图1系统的扬声器2、3、4、5和6中的不同的一个扬声器。通过将这种五声道的2D输入音频上混，本发明的一个实施例产生意图用于由图2的七扬声器系统呈现的七声道（N=5，M=2）3D音频节目。图2系统包括扬声器2、3、4、5和6（与图1的同样编号的扬声器相同）、以及远处扬声器7（以相对于收听者1为0度的方位角度放置，但是显著地比扬声器4更远离收听者1）和近处扬声器8（也以相对于收听者1为0度的方位角度放置，但是显著地比扬声器4更接近于收听者1）。扬声器4、7和8可以以相对于收听者1不同的仰角被放置。（本示例性实施例中产生的）3D音频节目的七个全范围声道中的每一个意图用于驱动图2系统的扬声器2、3、4、5、6、7和8中的不同的一个。当如此驱动时，从扬声器2、3、4、5、6、7和8发出的声音将典型地被收听者1感知为来源于离收听者不同的距离处的至少两个源。例如，来自扬声器8的声音被感知为来源于扬声器8的位置处的近场源，来自扬声器7的声音被感知为来源于扬声器7的位置处的远场源，并且来自扬声器2、3、4、5和6的声音被感知为来源于离收听者1的距离与扬声器2、3、4、5和6相同的距离处的至少一个源。可替代地，来自扬声器2、3、4、5、6、7和8中的一个子集的声音模拟（即，由收听者1感知为）从离收听者1第一距离处的源发出的声音（例如，从扬声器2和7发出的声音被感知为来源于扬声器2和7之间的源，或者比扬声器7更远离收听者的源），并且来自扬声器2、3、4、5、6、7和8中的另一个子集的声音模拟从离收听者1另一个距离处的第二源发出的声音。

并未设想根据本发明产生的3D音频必须以任何特定的方式或者由任何特定的系统呈现。设想的是许多不同的呈现方法和系统中的任意一个可以被采用来呈现根据本发明的各个实施例产生的3D音频内容，以及根据本发明产生3D音频的特定的方式可以依赖于要采用的特定的呈现技术。在一些情况下，（根据本发明产生的3D音频节目的）近场音频内容可以通过使用接近收听者安置的一个或更多个物理的扩音器（例如，通过图2系统的扬声器8、或者通过位于前方声道扬声器和收听者之间的扬声器）被呈现。在其它情况下，近场音频内容（感知为来源于在离收听者的距离X处的源）可以通过比离收听者的距离X更近和/或更远放置的扬声器被呈现（使用特制的硬件和/或软件来创造近场音频的感觉），并且（根据本发明产生的相同的3D音频节目的）远场音频内容可以通过相同的扬声器（其可以是较大一组扬声器中的第一子集）或者通过不同的一组扬声器（例如，较大一组扬声器中的第二子集）被呈现。

设想在呈现通过本发明的一些实施例产生的3D音频中使用的呈现技术的示例包括：

具有在头戴耳机之上呈现的近场HRTF的双耳的音频系统，

具有近场HRTF的听觉传输音频系统，

使用波场合成的一个或更多个模拟的音频源，

使用聚焦成像（focused imaging）的一个或更多个模拟的音频源，

一个或更多个头顶上的（overhead）扩音器，或者

用于控制直接与混响的比的算法或者装置。

在一些实施例中，本发明是一种提取现有的2D音频节目的部分以便产生在由扬声器呈现时被感知为具有深度效果的上混的3D音频节目的编码方法。

将N声道输入音频上混以便产生3D输出音频（包括N+M个全范围声道）的本发明的方法的典型实施例采用深度映射（depth map），D(θ,γ)或D(θ)。深度映射描述与方位角和仰角（或者仅仅方位角）有关的（as a function of）、在收听者的位置处从具有方位角θ和仰角γ的方向入射的由3D输出音频确定的声音的至少一个源的深度（期望的感知的离收听者的距离）。在本发明的各个实施例中以许多不同的方式中的任意一个方式提供（例如，确定或者产生）这种深度映射D(θ,γ)。例如，深度映射可以被提供伴随输入音频（例如，作为一些3D广播格式中采用的类型的元数据，其中输入音频是用于3D视频节目的音轨），或者来自（与输入音频关联的）视频以及深度传感器，或者来自光栅（raster）呈现器的z-缓冲器（例如，GPU），或者来自与输入音频关联的立体3D视频节目内包括的标题（caption）和/或字幕（subtitle）深度元数据，或者甚至来自运动深度（depth-from-motion）估计。在元数据不可用但是与输入音频关联的立体3D视频是可用的时，深度提示可以被从供产生深度映射之用的3D视频中提取。利用适当的处理，可以使得视觉的物距（objectdistances）（由3D视频确定）与产生的音频深度效果相关。

我们接下来描述用于根据立体3D视频（例如，与2D输入音频节目对应以及设置有2D输入音频节目的3D视频）确定深度映射D(θ,γ)的优选的方法。我们然后将描述使用深度映射的响应于2D输入音频（根据本发明的方法的若干实施例）执行以便产生3D输出音频（其将在呈现时表现出深度效果）的示例性的音频分析和合成步骤。

立体3D视频节目的帧典型地确定被感知为处于离观看者不同的距离处的视觉的对象。例如，图3的立体3D视频帧确定与用于观看者的右眼的第二图像重叠的用于观看者的左眼的第一图像（其中第一图像的不同元素相对于第二图像的对应元素偏移了不同的量）。观看了图3的帧的一个人会感知由第一图像的元素L1确定的椭圆形的对象、轻微地从元素L1向右边偏移的第二图像的元素R1、以及由第一图像的元素L2来确定的菱形的对象、以及轻微地从元素L2向左边偏移的第二图像的元素R2。

对于立体3D视频节目的每个视觉元素，左眼帧图像和右眼帧图像具有差异（disparity），该差异随元素的感知的深度而变化。如果（如典型的那样）这种节目的3D图像具有零差异的点处（在其处在元素的左眼视图和右眼视图之间不存在偏移）的元素，该元素在屏幕的距离处出现。3D图像的具有正差异（例如，其差异为+P2的图3的菱形的对象，其是元素的左眼视图L2相对于元素的右眼视图R2向右边偏移了的距离）的元素被感知为更远于屏幕（在屏幕后面）。类似地，3D图像的具有负差异的元素（例如，图3的其差异为-P1的椭圆形的对象，该元素的左眼视图L1相对于该元素的右眼视图R1向左偏移了的距离）被感知为在屏幕前面。

根据本发明的一些实施例，立体3D视频帧的每个所识别的元素（或者至少一个所识别的元素）的差异被测量和用于创作视觉深度映射。视觉深度映射可以被直接用于创作音频深度映射，或者视觉深度映射可以被偏移和/或缩放并且随后用于创作音频深度映射（以便增强音频效果）。例如，如果视频场景视觉上主要出现在屏幕后面，则视觉深度映射可以被偏移以便将更多音频移动到室内（朝向收听者）。如果3D视频节目仅仅温和地利用深度（即，具有浅深度“等级（bracket）”），则视觉深度映射可以被放大以便增大音频深度效果。

在下面示例中，根据立体3D视频节目确定的视觉深度映射D(θ,γ)限于对应的2D音频节目的L和R扩音器位置（θ_L和θ_R）之间的方位角扇区。这个扇区被假设为视觉的观看屏幕的水平跨距（span）。此外，不同的仰角处的D(θ,γ)值被近似为相同的。因此图像分析的目的是获得：

D(θ，γ)≈D(θ),其中θ_L≤θ≤θ_R，

到图像分析的输入是每对左眼和右眼图像的RGB矩阵，其被可选地针对计算速度向下采样。左边（和右边）的图像的RGB值被变换到Lab颜色空间（或者，接近人类视觉的另一个颜色空间）中。颜色空间变换可以以许多公知的方式被实现并且在此不详细描述。以下描述假设左边图像的经变换的颜色值被处理以便产生所描述的显著度（saliency）和感兴趣区（ROI）值，但是可替代地这些操作可以对右边图像的经变换的颜色值执行。

假设对于位于水平和垂直坐标(x,y)处的左边图像的每个像素，我们具有矢量

其中值L_x,y是Lab颜色空间明度（lightness）值，并且值a_x,y和b_x,y是Lab颜色空间颜色分量值。

对于左边图像的每个像素，显著度测量值然后被计算为

S (x, y) = | | v_{A_{1}} - v_{n, m} | | + | | v_{A_{2}} - v_{n, m} | | + | | v_{A_{3}} - v_{n, m} | |,

其中符号ν_Ai表示图像的区域A_i内的像素的平均L、a和b值的矢量，并且||v_Ai-v_n，m||表示区域A_i中的每个像素的平均矢量ν_Ai和矢量ν_n,m之间的差的平均值（其中指标n和m的范围在对于该区域的相关范围之上）。在典型实施例中，区域Α₁、A₂和A₃分别是中心在当前的像素(x,y)处的具有等于左边图像高度的0.25、0.125、0.0625倍的尺寸的正方形区域（因此，每个区域A₁是相对大的区域，每个区域A₂是中间尺寸的区域，并且每个区域A₃是相对小的区域）。每个区域A_i中的像素的每个矢量ν_n,m和平均矢量ν_Ai之间的差的平均值被确定，并且这些平均值被求和以便产生每个值S(x,y)。可以根据视频内容应用区域A_i的尺寸的进一步调整。对于每个像素的L、a和b值可以通过将它们除以对应的帧最大值而被进一步规格化（normalize），使得规格化值将在显著度测量值S的计算中具有相等的权重。

基于对于3D帧的左边图像的显著度测量值，然后确定3D图像的感兴趣区（ROI）。典型地，ROI中的像素被确定为左边图像的其中显著度S超过阈值τ的区域中的那些。阈值可以从显著度直方图（histogram）中获得，或者可以根据视频内容被预先确定。实际上，这个步骤用来将（3D视频的帧序列的每个帧的）更静态的背景部分与相同的帧的ROI分离。（该序列中的每个帧的）ROI更可能包括与来自对应音频节目的声音关联的视觉的对象。

视觉深度D(θ)的评估优选地基于左和右灰度(grayscale)图像I_L和I_R之间的差异计算。在示例性实施例中，对于（3D节目的帧的）ROI中的（坐标（x,y）处的）每个左边图像像素，我们确定左边图像灰度值I_L(x,y)并且还确定对应的右边图像灰度值I_R(x,y)。我们考虑对于包括该像素的像素的水平范围的左边图像灰度值（即，具有与该像素相同的垂直坐标y并且具有从该像素的水平坐标x到坐标x+δ的范围中的水平坐标的那些左边图像像素，其中δ是预定值）。我们还考虑从该像素的水平坐标x偏移了候选的差异值d的水平位置的范围中的右边图像灰度值（换句话说，对应的右边图像的具有与左边图像值相同的垂直坐标y并且具有从左边图像值的偏移的水平坐标x+d的宽度δ的范围中的水平坐标、即从x+d到x+δ+d的范围中的x坐标的那些像素）。然后我们计算对于该像素的差异值（使用许多不同的候选的差异值d）为：

D (x, y) = \underset{d}{\arg \min} | | I_{L} (x : x + δ, y) - I_{R} (x + d : x + δ + d, y) | |, (x, y) &Element; ROI,

其为使对于像素的指出的差值I_L-I_R的平均值最小化的候选差异值d的值。δ和d的值可以根据视频内容的最大和最小差异（d_max和d_min）以及计算的期望精度对比可接受的复杂度而被调节。均匀的背景的差异（对于一些视频节目）等于零，给出错误的深度指示。因此，为了获得更精确的视觉深度测量，优选地执行上面描述的类型的显著度计算以便将ROI与背景分离。与ROI较小时相比，在ROI较大时的差异分析典型地在计算上更复杂以及昂贵。可选地，可以跳过将ROI区别于背景的步骤并且将整个帧作为ROI处理以便执行差异分析。

确定的差异值D(x,y)（典型地由对于ROI中的每个像素的差异值组成）接下来被映射到方位角度以便确定深度映射D(θ)。（由3D视频的帧确定的）图像被分离成方位角扇区θ_i（每个典型地具有约3°的宽度），并且针对每个扇区计算差异的平均值。例如，对于方位角扇区θ_i的平均的差异值可以是ROI的与扇区的交集（intersection）中的差异值D(x,y)的平均值D(θ_i)。为了计算差异值D(θ_i)作为可以被直接用在音频分析中的经缩放的值，ROI与相关的方位角扇区θ_i的交集中的像素的差异值D(x,y)的平均值可以通过因子d_n（通常作为对于3D视频的d_max和d_min的绝对值的最大值）被规格化并且可以可选地通过因子α被进一步缩放。缩放因子默认值可以为α=1，但是缩放因子可以取决于深度效果的期望的严重度（severity），以及取决于方位角扇区的相关的那些的平均显著度。在目标是例如通过将与零差异视频特征对应的音频的表观源（apparent source）放置在比屏幕更接近于收听者的位置处来偏离真实的视觉深度映射的情况中，深度偏置值d_b（出于此目的被调节）可以从规格化的差异值中被减去。因此可以（根据对于ROI的与相关的方位角扇区θ_i的交集ROI_θ中的每个像素的差异值D(x,y)）确定对于方位角扇区θ_i的差异值D(θ_i)作为

D (θ_{i}) = α \frac{\overset{&OverBar;}{D (x, y)}}{d_{n}} - d_{b}, (x, y) &Element; {ROI}_{θ} . - - - (1)

在公式（1）中，

表示对于ROI的与方位角扇区θ_i的交集中的每个像素的差异值D(x,y)的平均值。以这种方式深度映射D(θ)（对于所有方位角扇区的公式（1）的差异值D(θ_i)）可以被计算作为随着对于每个方位角扇区的视觉的距离线性地改变的一组缩放测量值。

根据公式（1）确定的映射D(θ)（“未修改的”映射）典型地被修改以供产生近处声道或者远处声道音频之用，这是因为未修改的映射D(θ)的负值表示正的近处声道增益，并且其正值表示远处声道增益。例如，第一修改映射被产生以用于产生近处声道音频，并且第二修改映射被产生以用于产生远处声道音频，其中未修改的映射的正值在第一修改映射中由指示零增益（而不是负增益）的值代替，并且未修改的映射的负值在第一修改映射中由它们的绝对值代替，并且未修改的映射的负值在第二修改映射中由指示零增益（而不是负增益）的值代替。

当修改的（例如，如上所指出的）或者未修改的确定的映射D(θ)被用作用于3D音频产生的输入时，它被认为指示音频源深度的相对测量值。因此它可以用于根据输入2D音频产生（3D音频节目的）“近处”和/或“远处”声道。在产生近处和/或远处声道中，典型地假设近处和/或远处音频声道呈现装置（例如，相对靠近收听者放置的远处扬声器（一个或更多个）和/或相对靠近收听者放置的近处扬声器（一个或更多个））将被利用要被用于呈现每个“主”音频声道的“主”音频声道呈现装置（例如离收听者标称等距的放置的在比每个远处扬声器近而比每个近处扬声器远的距离处的扬声器）适当地水平校准。

典型地，期望的是呈现的近处/远处声道音频信号将被感知为出自于前方的扇区（例如，出自于用于呈现环绕声的一组扬声器的左前方和右前方扬声器位置之间，诸如出自于图2系统的左边扬声器2和右边扬声器3之间）。此外，如果映射D(θ)被如上所述地计算，自然的是仅仅根据输入2D音频音轨（用于视频节目）的前方声道（例如L、R和C）产生“近处”和/或“远处”声道，因为观看屏幕被假定为跨过左前方（L）和右前方（R）扬声器之间的方位角扇区。

在其中执行视频节目分析（例如，以便确定用于产生3D音频节目的“近处”和/或“远处”音频声道的深度映射）以及音频分析的本发明的方法的实施例中，音频分析优选地在与视频帧时间上对应的帧中被执行。本发明的方法的典型实施例首先利用适当的变换（例如，短期的傅里叶变换，有时被称为“STFT”）将（2D输入音频的前方声道的）帧音频转换到频域，或者通过使用复杂的QMF滤波器组以便提供一些应用可能需要的频率修改稳健性（robustness）。在下面示例中，X_j(b,t)指出输入音频的帧（由时间t识别）的声道j的频带b的频域表示，并且X_s(b,t)指出频带b中的（由时间t识别的）输入音频帧的前方声道的和的频域表示。

在频域中，对于输入音频的每个前方声道（对于每个输入音频帧的每个频带）确定平均的增益值g_j作为带绝对值的时间平均。例如，对于输入音频的每个帧的每个频带，可以如此计算对于输入的5.1环绕声2D节目的左声道的平均增益值g_L、对于节目的右声道的平均的增益值g_R、以及对于节目的中央声道的平均增益值g_C，并且构造矩阵[g_L，g_C，g_R]。这使得可以计算与对于当前帧的频率有关的整体方位角方向矢量：

θ_tot(b，t)＝[g_L，g_C，g_R]L，

其中L是包含指向每个前方扩音器的标准基单位长度矢量的3×2矩阵。可替代地，也可以在确定θ_tot(b,t)时使用声道之间的相干性测量值。

在示例中，L和R扬声器之间的方位角区域被分成与由深度映射D(θ)给出的信息对应的扇区。通过使用由如下给出的空间平滑的掩模（mask）提取对于每个方位角扇区的音频：

M (θ, b, t) = e^{(- \frac{{| θ_{tot} (b, t) - θ |}^{2}}{σ})}, - - - (2)

其中σ是控制掩模的空间宽度的常数。

接下来，可以通过将前方声道的和（X_s(b,t)）乘以对于每个方位角扇区的深度映射值和（公式（2）的）掩模并且对全部的方位角扇区求和来计算近处声道信号：

Y (b, t) = \underset{θ}{Σ} D_{n} (θ) \cdot M (θ, b, t) \cdot X_{s} (b, t), - - - (3)

其中公式（3）中的Y(b,t)是近处声道音频帧（由时间t识别）中的频带b中的近处声道音频值，并且公式（3）中的映射D_n(θ)是根据公式（1）确定的深度映射，其被修改以便由零代替它的正值并且由它的负值的绝对值代替它的负值。

此外，通过将前方声道的和(X_s(b,t))乘以对于每个方位角扇区的深度映射值和（公式（2）的）掩模并且对全部的方位角扇区求和来计算远处声道信号：

Y (b, t) = \underset{θ}{Σ} D_{f} (θ) \cdot M (θ, b, t) \cdot X_{s} (b, t), - - - (4)

其中公式（4）中的Y(b,t)是远处声道音频帧（由时间t识别）中的频带b中的远处声道音频值，并且公式（4）中的映射D_f(θ)是根据公式（1）确定的深度映射，其被修改以便由零代替它的负值。

虽然在公式（3）和（4）中的每一个中来自不同的方位角扇区的经缩放的音频被求和为单信号，但是可以省略（公式（3）和（4）中的）求和以便确定对于近处和远处声道中的每一个的表示不同的方位角子扇区的音频的多个输出声道Y_n(θ，b，t)＝D_n(θ)·M(θ，b，t)·X_s(b，t)和Y_f(θ,b,t)=D_f(θ)·M(θ,b,t)·X_s(b,t)。

可以根据幂定律从（根据发明产生的3D音频的）前方主声道中去除近处声道的内容（由公式（3）的Y(b,t)值确定）和/或远处声道的内容（由公式（4）的Y(b,t)值确定）：

{X_{j}}^{'} (b, t) = X_{j} (b, t) \cdot \sqrt{1 - {(\underset{θ}{Σ} D (θ) \cdot M (θ, b, t))}^{2}}, - - - (5)

或者根据线性规律进行上述去除：

{X_{j}}^{'} (b, t) = X_{j} (b, t) \cdot (1 - (\underset{θ}{Σ} D (θ) \cdot M (θ, b, t))) . - - - (6)

作为最后的处理步骤，（产生的近处声道和远处声道的）所有频域帧信号被转换回到时域，以便产生输出3D音频的时域近处声道信号和时域远处声道信号。输出3D音频还包括作为未修改的输入2D音频的全范围声道（L、R、C以及典型地还有LS和RS）或者输入2D音频的修改版本的全范围声道（例如，其中作为如上参考公式（5）或者公式（6）所述的操作的结果它的L、R和C声道被修改）的“主”声道。

本发明的方法的其它实施例将2D音频（例如，3D视频节目的音轨）上混，还通过使用从与2D音频对应的立体3D视频节目导出的提示产生3D音频。实施例典型地将N声道输入音频（包括N个全范围声道，其中N是正整数）上混以便产生包括N+M个全范围声道的3D输出音频，其中M是正整数，并且N+M个全范围声道意图由包括在离收听者不同的距离处的至少两个扬声器的扬声器呈现，包括通过从3D视频识别视觉图像特征以及根据图像特征产生指示音频源深度的提示（例如，通过估计或者确定对于被假设为音频源的图像特征的深度提示）。

该方法典型地包括比较3D视频的帧（或者3D视频帧的序列）的左眼图像和对应的右眼图像以便估计至少一个视觉特征的局部深度、以及根据被假设为音频源的至少一个识别的视觉特征的局部深度产生指示音频源深度的提示的步骤。在对用于产生深度映射的上述的实施例的变型中，图像比较可以使用由图像确定的随机的多组稳健的特征（例如，激浪（surf））和/或颜色显著度测量值来将感兴趣区（ROI）中的像素与背景像素分离以及计算对于ROI中的像素的差异。在一些实施例中，包括在3D视频节目内或者伴随3D视频节目的预定的3D定位信息（例如，字幕或者隐藏式字幕（closed caption）、伴随3D视频提供的z轴3D定位信息）被用来确定与3D视频节目的至少一个视觉特征的时间（例如，帧编号）有关的深度。

从3D视频提取视觉特征可以以包括如下的各种方式和环境中的任意一种被执行：在后期制作中（在该情况下视觉特征深度提示可以被存储作为视听节目流中的元数据（例如，在3D视频中或者在用于3D视频的音轨中）以便使得能够得到后处理效果（包括根据本发明实施例的3D音频的后续的产生），或者根据没有这种元数据的3D视频实时地（例如，在音频视频接收器中），或者根据没有这种元数据的3D视频非实时地（例如，在家庭媒体服务器中）。

用于估计3D视频节目的视觉特征的深度的典型的方法包括对于3D视频图像（或者对于3D视频图像的许多空间区域中的每一个）产生最后的视觉图像深度估计值作为局部深度估计值（例如，其中局部深度估计值中的每一个指出相对小的ROI内的视觉特征深度）的平均值的步骤。求平均可以在空间上在3D视频图像的多个区域之上以以下方式中的一个被进行：通过对整个屏幕（即，由3D视频帧确定的整个3D图像）上的局部深度估计值求平均，或者通过对整个屏幕的一组静态空间子区域（例如，整个3D图像的左边/中央/右边区域）之上的局部深度估计值求平均（例如，以便产生对于屏幕的左边上的子区域的最后的“左边”视觉图像深度、对于屏幕的中央的子区域的最后的“中央”视觉图像深度、以及对于屏幕的右边上的子区域的最后的“右边”视觉图像深度），或者通过对（整个屏幕的）一组动态地变化的空间子区域之上的局部深度估计值求平均，例如，基于运动检测、或者局部深度估计值、或者模糊/聚焦估计值、或者音频、宽带（整个音频谱）或多频带水平以及声道之间的相关性（摇摄的（panned）音频位置）。可选地，根据至少一个显著度度量（诸如，例如，屏幕位置（例如，以便强调对于屏幕的中央处的视觉特征的距离估计值）和/或图像焦点（例如以便强调对于对焦的视觉图像的距离估计值）来执行加权平均。求平均可以在时间上在3D视频节目的多个时间间隔之上以包括以下的若干不同的方式中的任意一个方式被进行：没有时间的求平均（例如对于每个3D视频帧的当前的深度估计值被用来产生3D音频），在固定时间间隔上求平均（使得平均深度估计值的序列被用来产生3D音频），在通过视频的分析（单独或者部分地）确定的动态时间间隔上求平均，或者在通过与视频对应的输入音频（音轨）的分析（单独或者部分地）确定的动态时间间隔上求平均。

在使用从立体3D视频节目导出的视觉特征深度信息来将2D输入音频（例如，视频节目的音轨）上混以便产生3D音频的本发明的方法的实施例中，特征深度信息可以以各种方式中的任意一个方式与3D音频相关连。在一些实施例中，对于与空间区域对应的3D输出音频的每个近处（或者远处）声道（相对于收听者），来自2D输入音频声道的至少一个声道的音频与视觉特征深度关联并且通过使用以下方法中的一个或更多个被分配给3D输出音频的近处（或者远处）声道：

如果估计的深度小于中间深度，则与空间区域对应的2D输入音频的至少一个声道的内容的全部或者部分（例如，来自输入音频的两个声道的内容的混合）被分配给3D音频的近处声道（要被呈现为使得被感知为从空间区域发出），并且如果估计的深度大于中间深度，则与空间区域对应的2D输入音频的至少一个声道的内容的全部或者部分被分配给3D音频的远处声道（要被呈现为使得被感知为从空间区域发出）（例如如果估计的深度小于中间深度，输入音频的左声道的内容被映射到“左边”近处声道，要被呈现为使得被感知为从左边空间区域发出）；或者

分析输入音频的多对声道（以宽带或者每个频带为基础）以便确定对于每个对的表观的（apparent）音频图像位置，并且如果估计的深度小于中间深度，则一对声道的内容的全部或者部分被映射到3D音频的近处声道（要被呈现为使得被感知为从包括表观的音频图像位置的空间区域发出），并且如果估计的深度大于中间深度，则一对声道的内容的全部或者部分被映射到3D音频的远处声道（要被呈现为使得被感知为从包括表观的音频图像位置的空间区域发出）；或者

分析输入音频的多对声道（以宽带或者每个频带为基础）以便确定对于每个对的表观的音频图像内聚性（cohesion）（典型地基于相关程度），并且如果估计的深度小于中间深度，则一对声道的内容的全部或者部分被映射到3D音频的近处声道（要被呈现为使得被感知为从关联的空间区域发出），并且如果估计的深度大于中间深度，则一对声道的内容的全部或者部分被映射到3D音频的远处声道（要被呈现为使得被感知为从关联的空间区域发出），其中要被映射的内容的部分是部分地由音频图像内聚性确定的。

这些技术中的每一个可以被应用在整个2D输入音频节目之上。然而，将典型地优选的是，在2D输入音频节目的多个时间间隔和/或频率区域之上将来自2D输入音频节目的至少一个声道的音频分配到3D输出音频的近处和/或远处声道。

在通过使用从与2D音频对应的立体3D视频节目导出的深度信息将2D输入音频（例如，3D视频节目的音轨）上混以便产生3D输出音频的本发明的方法的一些实施例中，3D音频信号的近处（或者远处）声道通过使用确定的视觉深度信息被如下地产生。一旦视觉特征深度（对于空间区域）已经被确定，如果深度大于预定的阈值，就将2D输入音频的一个（或多于一个）声道的内容分配给3D音频的近处声道（要被呈现为使得被感知为从关联的空间区域发出），并且如果深度大于预定的第二阈值，就将内容分配给3D音频的远处声道（要被呈现为使得被感知为从关联的空间区域发出）。在一些实施例中，如果视觉特征深度估计值随时间（对于空间区域）从阈值以下的值增大到接近阈值，3D输出音频的主声道被产生为使得包括具有增大的平均水平的输入音频声道（一个或更多个）的音频内容（例如，已经被用增大的增益放大的内容），并且可选地此外3D输出音频的至少一个近处声道（要被呈现为使得被感知为从关联的空间区域发出）被产生为使得包括具有减小的平均水平的这种输入音频声道（一个或更多个）的音频内容（例如，已经被用减小的增益放大的内容），以便（在3D音频呈现期间）产生源正移动离开收听者的感知。

通过使用确定的视觉特征深度信息的近处（或者远处）声道内容的这种确定可以通过使用从整个2D输入音频节目导出的视觉特征深度信息被执行。然而，将典型地优选的是，在2D输入音频节目的多个时间间隔或者频率区域之上计算视觉特征深度估计值（并且确定3D输出音频的对应的近处或者远处声道内容）。

在根据本发明的任何实施例创建3D输出音频之后，3D输出音频声道可以（但是不必）被规格化。以下规格化方法中的一个或更多个可以被用来这样做：没有规格化，使得一些3D输出音频声道（例如，“主”输出音频声道）与对应的输入音频声道（例如，“主”输入音频声道）相同，并且以在此描述的任何方式在没有对其应用任何缩放或者规格化的情况下产生输出音频的产生的“近处”和/或“远处”声道；或者线性规格化（例如，总输出信号水平被规格化以便匹配总输入信号水平，例如，使得在N+M个声道之上求和的3D输出信号水平匹配在它的N个声道之上求和的2D输入信号水平），或者功率规格化（例如，总输出信号功率被规格化以便匹配总输入信号功率）。

在本发明的方法的另一类实施例中，通过仅仅使用2D音频（不使用与其对应的视频）执行将2D音频（例如，视频节目的音轨）上混以便产生3D音频。

例如，共模信号可以从2D音频的声道的至少一个子集中的每一个中（例如从2D音频的L和Rs声道，和/或从2D音频的R和Ls声道中）被提取，并且每个共模信号的全部或者一部分被分配给3D音频的至少一个近处声道中的每一个。共模信号的提取可以通过使用适合于专门应用的任何算法（例如，使用在它的3声道（L、C、R）输出模式中在传统的Dolby Pro Logic上混器中采用的算法）的2到3声道上混器被执行，并且提取的共模信号（例如在它的3声道（L、C、R）输出模式中使用Dolby Pro Logic上混器产生的中央声道C）然后（根据本发明）被分配到3D音频节目的近处声道。

本发明的方法的其它示例性实施例使用用于将2D音频上混以便产生3D音频（仅仅使用2D音频；不使用与其对应的视频）的两步处理。具体地，实施例将N声道输入音频（包括N个全范围声道，其中N是正整数）上混以便产生包括N+M个全范围声道的3D输出音频，其中M是正整数，并且N+M个全范围声道意图由包括在离收听者不同的距离处的至少两个扬声器的扬声器呈现，并且包括如下的步骤：从输入音频估计音频源深度；以及通过使用估计的源深度确定3D输出音频的至少一个近处（或者远处）音频声道。

例如，可以如下地通过分析2D音频的声道估计音频源深度。测量2D音频的至少两个声道子集中的每一个之间（例如在2D音频的L和Rs声道之间，和/或在2D音频的R和Ls声道之间）的相关性，并且深度（源距离）估计值基于相关性被分配，使得更高的相关性引起更短的深度估计值（即，音频的源的比在子集之间存在更低的相关性的情况下会得到的估计位置更接近于收听者的估计位置）。

对于另一示例，可以如下地通过分析2D音频的声道估计音频源深度。测量通过2D音频的一个或更多个声道指出的直接声音水平与混响水平的比，并且深度（源距离）估计值被分配为使得具有更高的直接与混响水平的比的音频被分配更短的深度估计值（即，音频的源的比在对于声道存在更低的直接与混响水平的比的情况下会得到的估计位置更接近于收听者的估计位置）。

任何这种音频源深度分析可以在整个2D音频节目之上被执行。然而，将典型地优选的是在2D音频节目的多个时间间隔和/或频率区域之上计算源深度估计值。

一旦已经估计音频源深度，从输入音频的声道（或者一组声道）导出的深度估计值可以被用来确定3D输出音频的至少一个近处（或者远处）音频声道。例如，如果从2D输入音频的声道（或者多个声道）导出的深度估计值小于预定的阈值，该声道（或者声道的混合）被分配给3D输出音频的近处声道（或者给一组近处声道中的每一个）（并且输入音频的声道（一个或更多个）还用作3D输出音频的主声道（一个或更多个）），并且如果从2D输入音频的声道（或者多个声道）导出的深度估计值大于预定的第二阈值，该声道（或者声道的混合）被分配给3D输出音频的远处声道（或者给一组远处声道中的每一个）（并且输入音频的声道（一个或更多个）还用作3D输出音频的主声道（一个或更多个））。在一些实施例中，如果对于输入音频的声道（或者多个声道）的深度估计值从阈值以下的值增大到接近阈值，3D输出音频的主声道被产生为使得包括具有增大的平均水平的这种输入音频声道（一个或更多个）的音频内容（例如，已经被用增大的增益放大的内容），并且可选地此外3D输出音频的近处声道（或者多个声道）被产生为使得包括具有减小的平均水平的这种输入音频声道（一个或更多个）的音频内容（例如，已经被用减小的增益放大的内容），以便（在呈现期间）产生源正移动离开收听者的感知。

通过使用估计的音频源深度的近处（或者远处）声道内容的这种确定可以通过使用从整个2D输入音频节目导出的估计的深度来被执行。然而，将典型地优选的是，在2D输入音频节目的多个时间间隔和/或频率区域之上计算深度估计值（并且确定3D输出音频的对应的近处或者远处声道内容）。

设想的是本发明的方法的一些实施例（用于2D输入音频的上混以产生3D音频）将通过使用深度元数据（例如，指示与2D输入音频关联的3D视频节目的视觉特征的深度的元数据）的AVR被实现，该深度元数据是在编码时间处提取的并且被封装（或者提供）伴随2D输入音频（AVR可以包括耦接并且被配置为从输入节目提取元数据并且将元数据提供给AVR的音频上混子系统以供产生3D输出音频之用的解码器或者编解码器）。可替代地，可以在音频节目的创作期间产生额外的近场（或者近场和远场）PCM音频声道（其确定根据本发明产生的3D音频节目的近处声道或者近处和远处声道），并且这些额外的声道设置有确定2D音频节目的声道的音频比特流（使得这些后面的声道也可以被用作3D音频节目的“主”声道）。

在典型实施例中，本发明的系统是或者包括利用软件（或者固件）编程的和/或被配置为执行本发明的方法的一个实施例的通用的或者专用的处理器。在其它实施例中，本发明的系统通过适当地配置（例如，通过编程）可配置的音频数字信号处理器（DSP）以执行本发明的方法的一个实施例而被实现。音频DSP可以是可配置（例如，可通过适当的软件或者固件编程，或者响应于控制数据可配置）以对输入音频数据执行各种操作中的任意一种的传统的音频DSP。

在一些实施例中，本发明的系统是通用处理器，其被耦接以接收输入数据（输入音频数据，或者输入的指示立体3D视频节目的视频数据和指示用于视频节目的N声道2D音轨的音频数据）并且被编程以通过执行本发明的方法的实施例响应于输入数据产生指示3D输出音频的输出数据。处理器典型地利用软件（或者固件）被编程和/或被配置（例如，响应于控制数据）以对输入数据执行各种操作中的任意一个，包括本发明的方法的实施例。图4的计算机系统是这种系统的示例。图4系统包括通用处理器501，其被编程来对输入数据执行各种操作中的任意一个，包括本发明的方法的实施例。

图4的计算机系统还包括耦接到处理器501的输入装置503（例如，鼠标和/或键盘）、耦接到处理器501的存储介质504以及耦接到处理器501的显示装置505。处理器501被编程来响应于通过输入装置503的用户操作输入的数据和指令实现本发明的方法。计算机可读的存储介质504（例如，光盘或者其它有形对象）在其上存储有适合于编程处理器501以执行本发明的方法的实施例的计算机代码。操作中，处理器501运行计算机代码以便根据本发明处理指示输入音频（或者输入音频和输入视频）的数据以产生指示多声道3D输出音频的输出数据。传统的数模转换器（DAC）可以对输出数据进行操作以产生用于由物理的扬声器（例如，图2系统的扬声器）呈现的模拟版本的音频输出声道。

本发明的方面是被编程为执行本发明的方法的任何实施例的计算机系统、以及存储用于实现本发明的方法的任何实施例的计算机可读的代码的计算机可读介质。

虽然在本申请中已经描述了本发明的特定的实施例和本发明的应用，但是本领域技术人员将清楚的是，在不脱离在本申请中描述和主张的本发明的范围的情况下在本申请中描述的实施例和应用上的许多变化是可能的。应当理解，虽然已经示出和描述了本发明的某些形式，但是本发明不被限于描述和示出的具体的实施例或者描述的具体方法。

Claims

1.一种用于产生包括N+M个全范围声道的3D输出音频的方法，其中N和M是正整数，并且N+M个全范围声道意图由包括离收听者不同的距离处的至少两个扬声器的扬声器呈现，所述方法包括如下步骤：

（a）提供包括N个全范围声道的N声道输入音频；以及

（b）将输入音频上混以便产生3D输出音频。

2.根据权利要求1所述的方法，还包括如下步骤：

（c）提供指示至少一个音频源的离收听者的距离的源深度数据，以及

其中步骤（b）包括通过使用源深度数据将N声道输入音频上混以便产生3D输出音频的步骤。

3.根据权利要求2所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤（c）包括通过包括识别由3D视频节目确定的至少一个视觉图像特征、以及产生指示每个所述视觉图像特征的确定的深度的源深度数据的操作，来产生源深度数据的操作。

4.根据权利要求2所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤（c）包括通过包括确定指示由3D视频节目确定的至少一个视觉图像特征的深度的深度映射的操作来产生源深度数据的操作。

5.根据权利要求4所述的方法，其中音频源是在收听者处从相对于收听者具有第一方位角和第一仰角的方向入射的由3D输出音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角和仰角有关的音频源离收听者的距离。

6.根据权利要求4所述的方法，其中音频源是在收听者处从相对于收听者具有第一方位角的方向入射的由3D输出音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角有关的音频源离收听者的距离。

7.根据权利要求2所述的方法，其中步骤（c）包括根据N声道输入音频产生源深度数据的步骤。

8.根据权利要求2所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤（c）包括根据立体3D视频节目以自动的方式产生源深度数据的步骤。

9.根据权利要求8所述的方法，其中步骤（b）以自动的方式被执行。

10.根据权利要求8所述的方法，其中立体3D视频节目包括标题和/或字幕深度元数据，并且步骤（c）包括根据标题和/或字幕深度元数据以自动的方式产生源深度数据的步骤。

11.根据权利要求2所述的方法，其中步骤（c）包括根据N声道输入音频以自动的方式产生源深度数据的步骤。

12.根据权利要求11所述的方法，其中步骤（b）以自动的方式被执行。

13.根据权利要求1所述的方法，其中N声道输入音频是2D音频节目。

14.根据权利要求1所述的方法，其中N声道输入音频是2D音频节目，并且2D音频节目的N个全范围声道意图由离收听者标称等距的N个扬声器呈现。

15.根据权利要求1所述的方法，其中3D输出音频是3D音频节目，并且3D音频节目的N+M个全范围声道包括要由离收听者标称等距的N个主扬声器呈现的N个声道以及意图由额外的扬声器呈现的M个声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。

16.一种用于自动产生包括N+M个全范围声道的3D输出音频的方法，其中N和M是正整数，并且N+M个全范围声道意图由包括在离收听者不同的距离处的至少两个扬声器的扬声器呈现，所述方法包括如下步骤：

（a）提供包括N个全范围声道的N声道输入音频；以及

（b）响应于输入音频以自动的方式产生3D输出音频。

17.根据权利要求16所述的方法，还包括如下步骤：

18.根据权利要求17所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤（c）包括产生源深度数据的操作，所述操作包括识别由3D视频节目确定的至少一个视觉图像特征、以及产生指示每个所述视觉图像特征的确定的深度的源深度数据。

19.根据权利要求17所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤（c）包括产生源深度数据的操作，所述操作包括确定指示由3D视频节目确定的至少一个视觉图像特征的深度的深度映射。

20.根据权利要求19所述的方法，其中音频源是在收听者处从相对于收听者具有第一方位角和第一仰角的方向入射的由3D输出音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角和仰角有关的音频源离收听者的距离。

21.根据权利要求19所述的方法，其中音频源是在收听者处从相对于收听者具有第一方位角的方向入射的由3D输出音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角有关的音频源离收听者的距离。

22.根据权利要求17所述的方法，其中步骤（c）包括根据N声道输入音频产生源深度数据的步骤。

23.根据权利要求17所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤（c）包括根据立体3D视频节目以自动的方式产生源深度数据的步骤。

24.根据权利要求17所述的方法，其中步骤（c）包括根据N声道输入音频以自动的方式产生源深度数据的步骤。

25.根据权利要求16所述的方法，其中N声道输入音频是2D音频节目。

26.根据权利要求16所述的方法，其中N声道输入音频是2D音频节目，并且2D音频节目的N个全范围声道意图由离收听者标称等距的N个扬声器呈现。

27.根据权利要求16所述的方法，其中3D输出音频是3D音频节目，并且3D音频节目的N+M个全范围声道包括要由离收听者标称等距的N个主扬声器呈现的N个声道以及意图由额外的扬声器呈现的M个声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。

28.一种包括处理器的系统，该处理器被耦接以接收指示包括N个全范围声道的N声道输入音频的输入数据，其中处理器被配置为通过以使得将输入音频上混并且使得输出数据指示包括N+M个全范围声道的3D音频的方式处理输入数据，来产生输出数据，其中N和M是正整数，并且N+M个全范围声道意图由包括在离收听者不同的距离处的至少两个扬声器的扬声器呈现。

29.根据权利要求28所述的系统，其中处理器被配置为处理输入数据和源深度数据以便产生输出数据，其中源深度数据指示至少一个音频源的离收听者的距离。

30.根据权利要求29所述的系统，其中N声道输入音频是立体3D视频节目的音轨，并且处理器被配置为包括通过识别由3D视频节目确定的至少一个视觉图像特征、以及产生指示每个所述视觉图像特征的确定的深度的源深度数据，来产生源深度数据。

31.根据权利要求29所述的系统，其中N声道输入音频是立体3D视频节目的音轨，输入数据指示立体3D视频节目，并且处理器被配置为包括通过确定指示由3D视频节目确定的至少一个视觉图像特征的深度的深度映射来产生源深度数据。

32.根据权利要求31所述的系统，其中音频源是在收听者处从相对于收听者具有第一方位角和第一仰角的方向入射的由3D音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角和仰角有关的音频源离收听者的距离。

33.根据权利要求31所述的系统，其中音频源是在收听者处从相对于收听者具有第一方位角和第一仰角的方向入射的由3D音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角和仰角有关的音频源离收听者的距离。

34.根据权利要求29所述的系统，其中处理器被配置为根据输入数据产生源深度数据。

35.根据权利要求28所述的系统，其中N声道输入音频是2D音频节目。

36.根据权利要求28所述的系统，其中N声道输入音频是2D音频节目，并且2D音频节目的N个全范围声道意图由离收听者标称等距的N个扬声器呈现。

37.根据权利要求28所述的系统，其中3D音频是3D音频节目，并且3D音频节目的N+M个全范围声道包括要由离收听者标称等距的N个主扬声器呈现的N个声道以及意图由额外的扬声器呈现的M个声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。

38.根据权利要求28所述的系统，其中所述系统是音频数字信号处理器。

39.根据权利要求28所述的系统，其中处理器是已经被编程以响应于输入数据产生输出数据的通用处理器。