CN104303522A

CN104303522A - 用于布局与格式独立的三维音频再现的方法和装置

Info

Publication number: CN104303522A
Application number: CN201280073062.4A
Authority: CN
Inventors: 丹尼尔·阿特亚加巴列尔; 波·阿鲁米亚尔博; 安东尼奥·马特奥斯舒莱
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-05-07
Filing date: 2012-05-07
Publication date: 2015-01-21
Anticipated expiration: 2032-05-07
Also published as: CN104303522B; JP2015518182A; WO2013167164A1; EP2848009A1; EP2848009B1; JP5973058B2; US9378747B2; US20150124973A1

Abstract

一种用于基于对中间声道独立表示的生成来编码音频信号以稍后在任意三维扬声器布局中进行再现的方法，该方法使得能够创建、操纵并且再现具有复杂表观尺寸和形状包括多个分离的形状的声音。

Description

用于布局与格式独立的三维音频再现的方法和装置

技术领域

本发明一般地涉及音频编码，并且具体涉及与扬声器的数量和位置独立的任意三维扬声器布局中的音频再现。

背景技术

在多声道声音制作、分配和重放的背景下，内容产业采用了不同的标准。第一标准与基于一个单个独立的音频声道来实现单声道声音系统相关。后续标准演进到基于两个独立音频声道的立体声系统，然后演进到分别基于6个和8个独立音频声道的5.1声道和7.1声道。特别地，一大部分影院剧场已经采用了所谓的5.1声道配置，并且在国内市场已经相当多地部署了所谓的5.1声道配置。通过音频声道的逐步添加实现的这些标准的自然演进已经导致了下述两个方面：一方面是连续增强了听众的空间声音感知，以及另一方面是增大了内容创建者的创建自由。

在试图针对内容创建者和内容消费者二者继续进行这些增强时，下述建议同时存在，即采用具有越来越多的独立音频声道的基于多声道布局的标准，例如由THX的创始人Tomlinson Holman建议的10.2系统，以及由来自日本广播公司NHK的Kimio Hamasaki建议的22.2系统。由于这些系统包括处于不同高度的扬声器并且能够提供比当前的5.1系统或7.1系统更好的体验，所以通常将所有这些系统称为3D(三维)布局。

然而，所有这些建议有一些共同的缺点。由于在制作内容时，内容必须考虑各种可能的再现格式，所以在内容制作阶段它们都需要复杂的程序。内容制作必须满足最复杂的再现格式以及较简单的再现格式。由于声音工程师需要在头脑中不断进行需要处理整个布局的决定，例如如何将特定给定音轨路由到特定扬声器(例如，顶部中间极左声道)，所以，在针对具有多个扬声器的布局的内容制作中，复杂性很大。这种脑力锻炼由于专注于技术任务而不是与再现的声音图像相关的美学处理限制了声音工程师的创建性。

扬声器安装困难是所有上述现有技术系统的另一个缺点。所有这些多声道格式需要再现地点中的每个扬声器的精确位置，根据给定标准，再现地点是专业影院或家庭环境。这是一个复杂且需要耗时的任务，需要专业声音技师的帮助。在许多情况下，由于特定地点的限制例如消防洒水器的位置、柱子、小的天花板高度、空调管道等，所有扬声器的正确定位是根本不可能的。在具有低数量的声道的系统例如立体声系统中，扬声器布局中的这个缺点是可忍受的。然而，随着声道的数量增大，这个问题变得难以处理，因此是不切实际的。

已经尝试了某些发展以通过实现音频工作流程来解决这些问题，由此内容创建与内容再现完全地分离。这种工作流程基于其中制作处理和后期制作处理与再现布局的细节完全独立的新范例。特别地，在这种工作流程中，后期制作的输出是通常以数字支持的原声音乐，原声音乐的生成基于各种声音编码技术，该声音编码技术不取决于期望的再现地点中的独立声道的数量和位置。

这种编码技术的早期示例是立体混响声和基于向量的幅度平移。Jot和Pulkki公开了中间声道独立编码方法的其他示例。在这些后面的工作中，通过在时频窗口中划分音频记录并且分析不同声道中的互相关，将空间位置分配给时频窗口中的每个时频窗口。这些现有技术方法的主要缺点中的一个缺点是时频分解不可避免地产生降低了最终再现的质量的可听处理制品。这限制了这些方法在其中仅接受最高质量再现的情况下的适用性。可听处理制品随着声道的数量增大而自身被放大。因此，使用多个声道来在3D环境中提供高质量再现的可能性极其有限。

许多声音源并不源自空间的单点，而是声音源具有一些内在的空间扩展，例如，周围声音经常在大的空间区域中扩展。另一个明显的示例是被认为是噪声的大卡车的声音在广泛区域中扩展。然而，尤其是当期望复杂尺寸时，用于声道独立音频编码的所有方法在对声音的表观尺寸的分配、操纵以及再现中表现出局限性。特别地，利用当前现有的音频编码方法，由多个分离区域组成的表观声音形状非常难以(如果不是不可能的)达到。这种由多个分离区域组成的声音形状的示例是来自不同街道的城市噪声或横向混响的声音。

因此，有必要提供多上述缺点的解决方案。特别地，期望以完全声道独立的方式来对声音进行编码，并且因此，在任何任意3D扬声器布局中声音是可再现的。还期望在不生成任何可听制品的情况下实现该目标。此外，期望利于对具有复杂表观尺寸包括多个分离形状的可能性的声音进行创建和操纵。

发明内容

因此，本发明的目的是提供对上述问题的解决方案。特别地，本发明的目的是提供关于用于处理音频信号以在包括3D扬声器布局的任意扬声器布局中稍后进行再现的新的编码技术和解码技术的实施例，其中，解决了上述问题中的全部或部分问题。

在本发明的一个实施例中，解决方案基于对输入音频信号的声道独立表示的生成，该生成这使得能够简单并直观地创建、操纵并且再现具有复杂表观尺寸包括多个分离的形状的可能性的声音，并且该生成不生成任何可听制品。

根据本发明的实施例，提供了一种方法和设备以用于将至少一个输入音频信号编码成适于通过任意扬声器布局进行再现的声道独立表示，该声道独立表示包括至少一个输出音频信号和相关联的元数据。

根据本发明的其他实施例，提供了一种方法和设备以用于解码适于通过任意扬声器布局进行再现的声道独立表示，该声道独立表示包括至少一个输出音频信号和相关联的元数据。

根据本发明的其他实施例，提供了一种系统和对应的方法以用于根据至少一个输入音频信号来生成声道独立表示并且用于根据声道独立表示来生成至少一个输出音频信号，以用于通过任意扬声器布局进行再现。

根据本发明的其他实施例，提供了一种计算机程序和实现该计算机程序的计算机可读介质，以用于进行本发明的不同方面和实施例的不同功能。

根据本发明的另一实施例，提供了一种系统和方法以用于将本发明的不同方面和实施例的不同功能集成到音频后期制作工作流程中，其中，声音工程师生成声道独立表示作为要被提供到不同收听地点的后期制作处理的结果。

本发明提供下述方法和设备，所述方法和设备实现由各种装置实现的本发明的各个方面、实施例以及特征。例如，可以以硬件、软件、固件或其组合来实现这些技术。

对于硬件实现来说，可以在一个或多个特定应用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计成进行本文描述的功能的其他电子单元或上述的组合中来实现处理单元。

对于软件实现来说，各种装置可以包括进行本文描述的功能的模块(例如，过程、功能等)。可以将软件代码存储在存储器单元中，并且由处理器来执行软件代码。可以在处理器内部或者处理器外部实现存储器单元。

描述了本发明的各方面、配置和实施例。具体地，如下所述，本发明提供实现了本发明的各方面、配置和特征的方法、装置、系统、处理器、程序代码和其他装置和元件。

附图说明

在结合附图的情况下，根据下面阐述的详细描述，本发明的特征和优点将变得更加明显，在附图中，相似的附图标记表示不同附图中的对应元件。也可以使用不同标记来引用对应的元件。

图1A和图1B描绘了根据本发明的一方面的对再现空间的不同抽象表示。

图2描绘了根据本发明的一个实施例的用于声道独立表示的系统。

图3描绘了根据本发明的一个方面的用于声道独立表示的系统。

图4描绘了根据本发明的一个方面的用于声道独立表示的系统。

图5描绘了根据本发明的实施例的将预处理级集成到系统。

图6描绘了根据本发明的一个方面的触觉用户界面。

图7描绘了根据本发明的另一方面的触觉用户界面。

图8描绘了根据本发明的一个实施例的在施加预处理上混级时的触觉用户界面。

图9描绘了根据本发明的另一方面的在施加预处理上混级时的触觉用户界面。

图10描绘了根据本发明的一个实施例的用于选择最适于特定再现环境的表示D的方法。

图11描绘了根据本发明的实施例的用于实现声道独立算法的方法。

图12描绘了空间存在因子M比例的三个示例。

具体实施方式

根据下面的描述，本领域普通技术人员将理解的是，如下面将详细描述的那样，虽然本发明的任何一个优选方面已经提供了对现有技术的设备和方法存在的问题中的至少一些问题的解决方案，但是本文公开的多个方面的组合导致了对现有技术的附加协同有益效果。

图1描绘了根据本发明的一方面的对再现空间100的不同抽象表示。D表示被限定为在潜在听众周围的区域的空间，其中要为潜在听众的收听来再现音频信号。如图1A所描绘的那样，空间D可以具有包括球形形状110或矩形形状120的任何任意形状。矩形空间D120很适于其中经常在矩形几何形状例如影院剧场或家庭剧场中再现内容的应用。另一方面，球形空间D110更适于圆形形状的礼堂，例如在天文馆中建立的礼堂，或者甚至是开放空间的露天剧场，或未限定的区域。可以方便地使用其他拓扑等同形状。空间D划分成为K个部分即s₁，s₂，…s_k，并且所有这些部分的集合是划分集S。图1B描绘了相同形状但是具有不同划分的两个示例。划分130具有与划分140不同数量的部分。对本领域普通技术人员来说明显的是，其他形状例如任何多边形形状也是可能的。划分集S内的部分可以具有不同的形状和面积。此外，这些划分不必须规则或均匀。如划分140中描绘的那样，任何用户可以手动地生成期望多的划分，其中，划分具有非线性边界。

如前所述，本发明的不同方面限定了最适于特定应用的不同空间D形状。在本发明的不同方面中，取决于应用需要，可以以不同的方式来划分每个空间D。一方面，例如在划分110中，较精细的划分S导致形状和尺寸更高的分辨率，从而提供对声音再现的更精确的控制。另一方面，例如在划分130中，较粗略的划分S需要较小的处理能力和功率，从而提供较少的计算密集型处理。再一方面，例如在划分140中，在其中在空间D的特定区域中需要较高的分辨率并且在在空间D的其他区域中需要较低分辨率的情况下，在空间D的特定区域中划分可以更精细，而在空间D的其他区域中划分可以更粗略。这种不均匀的空间划分实现资源的优化，在必要时保证质量，然而，在不完全必要时节省处理能力。

图2描绘了根据本发明的一个实施例的用于声道独立表示(channel-independent representation)的系统200。系统200包括音频信号a_i的原始集A 210，其中i＝1至N，通过声道独立编码器220或编码装置来对音频信号a_i进行编码，以产生经处理的输出音频信号。输入音频信号包括单独的轨道或者多声道内容的流的集合，多声道内容包括但不限于5.1多声道内容和7.1多声道内容。声道独立编码器220还生成与输出音频信号相关联的元数据，元数据包括描述空间D和相关联的划分S的信息。输出音频信号和相关联的元数据的所产生的组合产生经处理的信号集B230，该经处理的信号适于以根据任何标准的任何再现格式以及以任何扬声器布局来再现。

当通过解码器240或解码装置来对信号集B进行解码时，将所产生的信号250馈送到所选择的扬声器布局并且从那里进行再现。如果没有用任何特定参数来配置解码器240，则缺省参数集根据用户限定的偏好例如5.1系统、7.1系统或10.1系统对要被再现的信号B进行解码。

另一方面，也可以用详细描述特定收听地点的特定扬声器布局的参数来配置解码器240。用户可以将期望的再现格式以及扬声器布局信息输入到解码器，进而，在没有进一步的操纵或设计的情况下，针对预期的剧院空间来再现声道独立格式。

通过分配和操纵原始音频信号的集A中的每个音频信号a_i的空间存在因子m_i,k来生成声道独立表示信号集B，使得每个因子m_i,k将每个原始音频信号a_i与表示在潜在听众周围的区域的空间D的划分S的给定部分s_k相关联。在本发明的一个方面，存在因子m_i,k可以随时间变化。

输入音频与输出音频之间的关系可以通过表达式输出＝a_i.m_i,k来表示，其中，i是指示第i输入音频信号a的索引，k是指示划分S的部分s_k的索引，以及m是空间存在因子。在这个表达式中，声道独立表示被生成为针对所有i和所有k的所有乘积a_i.m_i,k的集，一个这样的乘积针对原始音频信号和划分集S中的部分的每个组合。

在相同实施例的另一配置中，输入音频和输出音频之间的关系可以通过表达式输出来表示。这里，声道独立表示被生成为所有原始音频信号的a_i.m_i,k的总和的集，每个总和对应于根据原始音频信号的存在来加权混合划分S的给定部分中的所有原始音频信号。

图3描绘了根据本发明的一个方面的用于声道独立表示的系统300。这个方面呈现了图2的实施例的进一步的细节。如可以看到的那样，声道独立编码器220可以被视为映射器310或映射装置，该映射装置将每个输入音频信号A映射成划分集S的特定部分s₁，s₂…，s_k。所有相关部分的收集，连同空间存在因子以及描述空间D和相关联的划分S的信息一起构成输出信号B，该输出信号B被相等地馈送到解码器240用于音频再现。

信号B可以包括组成特定空间D的所有划分集S，或者仅划分集S的子集。在仅需要覆盖特定空间D的特定面积或区域的情况下，可以仅生成划分集S中的特定一个划分或一组划分。基于所生成的信号B，一个或多个解码器能够提供适于特定再现环境的对应的扬声器信号。在一个方面中，信号B包括覆盖再现环境的全部范围的划分S的子集。在另一方面中，划分S的子集没有覆盖再现环境的整个范围，并且解码器用户缺省划分以提供针对环境的剩余部分的最小再现格式，例如立体声或5.1系统或7.1系统或10.1系统。

每个元素m_i,k可以被理解为将第i音频信号的存在的量表示成空间D的特定第k部分。在所有实施例的一个配置和本发明的方面中，存在的量被表示为将m_i,k限制成0与1之间的实数，其中0表示根本不存在，而1表示完全存在。在另一方面中，使用对数、分贝或比例来表示存在的量，其中，负无穷大表示根本不存在，并且0表示完全存在。

在本发明的另一方面中，元素m_i,k可以随着时间改变。在这个方面中，这些元素的值随着时间的变化引起末端听众对对应的音频信号的运动的感觉。空间存在因子随时间变化的性质可以由声音工程师手动地设置，也可以自动地跟随预定算法。在本发明的一个方面中，对存在因子的手动设置使得所再现的声音的直播能够适应特定听众的体验。

这方面的随时间变化的性质有用的一个示例是音乐厅中的音频再现。在音乐厅的情况下，一方面，声音工程师可以再现预记录的音频信号以最佳地适应环境和特定扬声器布局。另一方面，当发生正在进行的再现时，声音工程师或者甚至是音乐家可以通过以创意的方式改变空间D的不同区域的空间存在因子来参与创建身临其境的音频体验。这可以增强由收听现场主持人的参与者体验的音乐会，该现场主持人使用直接从听众接收的反馈来决定在没有任何延迟的情况下通过改变不同乐器声道的形状、音量以及区域与听众进行音乐地互动。

这方面的随时间变化的性质有用的另一示例是针对再现环境具有不特别适于根据特定记录来产生最好音频效果的固定扬声器布局的情况下的技术补偿。在这种情况下，声音工程师可以用低音频覆盖来补偿空间D的区域，以在这些区域中产生较高的音频存在，并且另一方面，减小直接靠近扬声器的区域中的音频存在，从而标准化遍及整个空间D的收听体验。

图6描绘了根据本发明的一个方面的用户界面视图600，其中借助于触觉界面610来直观地进行对空间存在因子m_i,k的创建和操纵。该界面示出了在影院厅下方的影院的视图。在这个特定配置中，通过被划分成多个划分620的矩形空间D来表示厅。部分624是位于影院天花板的划分集S的一部分，并且部分621、部分622以及部分623是位于影院侧壁处的部分。在厅的一端处以白色示出了影院屏幕630。

图7描绘了由用户例如声音工程师或音乐家操纵的图6的相同用户界面。用户的手710以及手指可以遍及触觉界面而移动，从而给空间存在因子m分配不同的值。上述操作是直观地进行的，在这个意义下用户界面有利于由末端用户进行的简单操纵，然而，用户不必须是经验丰富的声音工程师。由手指分配的浅色的部分720限定并且定位了特定音频信号，或者可以给不同部分限定并定位不同音频信号，从而导致高度复杂的表观(apparent)声音尺寸和形状。即使在如这种情况下，该形状由两个分离的部分组成时，也容易限定并操纵该形状。在本发明的一个方面中，由系统实现的算法将高空间存在值分配给通过手指触摸选择的浅色的部分，并且将低值分配给深色的其他部分。

在一个特定方面中，通过将中间值分配给中间区域中的因子来生成空间存在因子。将中间区域限定为具有高因子值的手指选择的区域与具有非常低因子值的相距甚远的区域之间的区域。以这种方式确保了S的不同部分之间的连续性的期望程度，保证了整个空间D中的更愉快的收听体验。

被应用于不同部分的时变值的不同可能的组合有利于甚至是不熟练的用户在3D环境中再现十分复杂的音频图像。因此，系统有意或无意地使得用户能够轻松地编辑m_i,k的值。这进而有利于将任何输入音频格式自动转换成与要由本发明的不同实施例进行的声道的再现布局或数量独立的任何输出音频格式。

图4描绘了根据本发明的一个方面的用于声道独立表示的系统400，该系统有利于将标准5.1内容和标准7.1内容上混成3D，通过下述的简单扩展，其他输入格式也是可能的。该视图描绘了输入5.1声道或输入7.1声道的原始集。对于5.1来说，来自典型5.1系统的通常被称为左声道L、右声道R、中间声道C、左环绕声道Ls以及右环绕声道Rs的前五个声道被认为是原始独立音频信号。对于7.1来说同样适用，其中，两个额外声道通常被称为左后声道Lb和右后声道Rb。通常还存在附加的低频效果LFE或超低音、信号。在本示例情况中，考虑了八个原始独立音频信号。

借助于所描述的各个方面和实施例，将每个信号编码成声道独立表示。对系数m_i,k的合适选择有助于增大身临其境的效果。例如，对于5.1来说，给左环绕声道分配遵循图8中示出的构思的尺寸和形状，其中，通过划分集810来标识左环绕声道，并且给右环绕声道分配由划分集820标识的尺寸和形状。

本发明生成复杂形状的能力在这种情况下被证明是必要的，因为避免了恶化并且产生可听制品的情况。例如，两个环绕声道在空间中不交叠，这使得尽可能不关联地保持环绕听众的左半球和右半球二者，这导致愉快自然的声音感受。还避免了对两个信号的混合，否则，将导致恼人的梳状滤波制品。类似地，防止了两个环绕声道到达屏幕区域830，环绕声道到达屏幕区域830将产生不期望的效果，例如减小对话的可理解性。因此，尤其在需要大数量的扬声器的环境中，本发明提高了在从立体声系统上混时的声音图像的质量。

图4还示出了通过使用自动因子生成器410或因子生成装置构成可选增强，因子生成装置生成时变空间存在因子m_i,k，生成算法基于例如预定轨道或基于输入音频声道的分析的结果。图9描绘增强身临其境的效果的合适的时变因子生成。在这方面，例如，通过使两个环绕声道在循环轨道910中移动，与声道中的一些声道的位置、尺寸和形状有关的属性是随时间改变的并且基于映射系数的预定变化。在另一实施例中，时间变化基于对原始声道中的音频的分析。在第一步中，确定存在于所有输入声道中的能量的量。然后根据声道的下述属性来标识声道，所述属性为这些声道是简单左/右立体声声道还是5.1/7.1声道中的一个声道。最终，可以将针对空间存在因子生成的值设置成取决于估计的能量的变化的结果。

例如，在声道是环绕声道的情况下，进行确定以估计存在于环绕声道中的总的声能相对于剩余声道的相对比例。最后，基于该相对能量估计遍及空间D来加速两个环绕声道的再现图像的运动。这使得听觉场景运动与环绕水平同步，使得取决于原始5.1/7.1内容产生了增强的现实和壮观。可以使用从对输入声道的分析提取的不同于能量估计的其他特征。

图5描绘了本发明的实施例，其中给前述实施例的系统集成了许多音频再现设置的典型的预处理级500。由于许多记录仅存在于2声道立体声格式510中，所以可以集成上混器520以将立体声上混到5.1或7.1，导致一组初始上混的多声道信号。在该初始上混之后，与前述实施例相同的上述音频处理级和方面适用于用声道独立表示对初始上混多声道信号进行编码。

图10描绘了根据本发明的一个实施例的用于选择最适于特定应用的表示D的方法1000。在步骤1010中，给用户提示信息，或者直接给用户从最适于实现3D音频的特定再现环境的可能的空间D形状和拓扑的列表中进行选择。在1020中，用户可以从包括圆形、矩形、正方形或任何其他多边形的列表中选择。在1030中，取决于所选择的拓扑，从存储器提取对应的空间D形状，并且为了用户的便利在触觉用户界面中可视化该空间D形状。

在用户没有输入选择的情况下，方法前进到步骤1040，其中将缺省表示(例如，球形)选择作为针对未知的应用最合适的形状。因此，在1040中，从存储器提取对应的缺省形状D，并且为了用户的便利在触觉用户界面中可视化该缺省形状D。在提取并可视化空间D之后，在步骤1050中，给用户呈现所选择的空间D的不同预设划分，每个划分具有不同的可调节的部分尺寸。取决于应用，用户可以选择具有非常小的单个部分的非常精细的划分或者具有较大的单个部分的较粗略的划分。然后算法前进到剩余的编码步骤。

图11描绘了根据本发明的实施例的用于实现声道独立算法的方法1100。在方法1000的步骤1050之后，进行下述拓扑和划分选择以及配置，在1110中，通过将输入显示在其中需要特定处理的选择区域上来提示用户。用户能够通过例如用手指或用任何其他合适的触摸设备或装置触摸触觉用户界面来提供该输入。在1120中，标识其中检测到接触的划分S，并且将划分S分类为所选择的区域。

在标识了选择区域时，在1130中选择最合适的空间存在因子M比例。根据这个比例来提取因子m的值。在步骤1140中，确定针对该特定输入音频声道的m的值。在1145中重复该处理直到针对空间D的所有部分和划分确定了针对所有输入音频声道的完整矩阵M为止。如果步骤1120的结果为没有检测到用户输入，则算法通过缺省为存在因子m的中间值来继续以适用于与空间D内的划分集或部分独立的所有输入音频声道。

通过简单地使得用户在触摸触觉用户界面时移动用户的手指，因此生成时变的空间存在系数，并且可选地在事件的时间线流中记录每个系数的对应的时间历史，用于将空间存在分配给每个输入音频声道的处理可以是时变的，如在用音频工作站和混合控制台进行声音后期制作中标准的那样。

当矩阵完整了，在步骤1150中，如所描述的那样进行输入音频信号集A与输出音频信号集B之间的映射。该映射包括在具有m的高值的选择区域与具有m的低值的非选择区域之间进行平滑转换。在一个方面中，取决于用户选择，同样可以通过从相同的所选择的M比例或者从不同的所选择的M比例中选择m的连续值来进行该平滑转换。

最后，在完成了对空间D的所有划分集和部分的映射之后，生成包括描述空间D和划分S的空间存在因子的相关联的元数据。元数据连同输出信号一起产生要在1160中被音频解码器进一步处理并且被馈送到存在于特定地点中的扬声器的输出音频信号B的完整集。然后，在1165中，该方法返回到初始步骤1110，以更新其关于用户触觉输入的信息，从而产生实时运行的动态算法。因此，方法1100是将用户指令集成到时变并且将输入音频信号A的自适应编码集成到声道独立表示B的迭代算法，该迭代算法解决了现有结束中识别的问题。

图12描绘了空间存在因子比例的三个示例1200。比例在其垂直轴上具有空间存在因子m可以采用的值的范围。可以取决于用户选择来设置m的最大值。m的最大值也可以在0与1之间或者在0与任何其他值例如100或1000之间变化。水平轴X是可以表示与身临其境的声音图像增强相关的多个因子的参数。

在一个方面中，X表示关系参数，该关系参数的值随着邻近的所选择的区域的数量增大而增大。因此，孤立的部分将具有比一组部分更低的m的值。同样，在该组部分内，给中心部分分配相比外围的其他部分最高的m的值。

在另一个方面中，X表示所选择的部分与空间D中的另一点Z的距离，该另一点Z例如影院的前屏幕、侧壁、具有通过地点的建筑结构而产生的特定回声效果的特定预定区域。因此，基于所选择的部分与该点Z的距离来分配m的值。

在另一个方面中，X表示与存在于所有部分的所有输入音频信号A中的全部能量相比，存在于所选择的部分中的相对声能。因此，将m的较高值分配给相对高能量，从而增大了暂时表现出高能音效的特定声道的空间存在。

在另一个方面中，X表示压力参数。换言之，当用户进行触觉接触时，将施加压力的差异转化成M比例的水平轴。在这方面，将施加在触觉界面上的较大的用户压力转化成m的对应的高值，使得在触觉界面上感测的压力越大，则将越高的压力参数分配给该特定划分S或特定划分S的部分。因此，与输入音频信号的固有特征独立地将较高的空间存在强加在该特定区域中。因此，所有这些方面以直观并且容易的方式从用户接收信息。

作为不同M比例可能性的示例，图12表示与基于所描述的不同的可能参数X所确定的m的值相关的一个线性函数和两个非线性函数。在第一线性M比例1210中，m的值直接与参数X的值的对应增大成比例地增大。

在第二非线性M比例1220中，m的值作为关于参数X的值的对应增大的对数函数而增大。这里，当超过相对高的预定阈值时，则分配m的高值。在这方面，仅当特定参数最接近于由预定阈值限定的其最大值时，将增强特定音频输入的空间存在。

在X表示关系参数的情况下，仅在超过了表示高数量的分组选择的阈值时，将m的对应高值分配给所选择的部分。在这种情况下，阈值是用户预先限定的或者将阈值缺省设置为4，表示4个手指。因此，如果使用超过4个手指，则要理解的是，在所选择的区域中预期有下述特殊意义，即转化成较高空间存在。在X表示距离的情况下，将m的对应高值分配给远离预定点Z的所选择的部分。例如，这在针对具有不同需求的人例如孩子或具有听觉敏感性的观众来限定特定低身临其境的区域时是有用的。在X表示相对声能的情况下，当超过预定阈值时，分配m的对应高值以正确地反映高能量输入信号表示的壮观的声音效果。最后，在X表示触觉压力的情况下，仅在压力超过特定阈值时，分配高m值。在其中触觉行为在用不同力量进行按压的用户之间改变的情况下，这是有用的。因此，这适用于讨论中的用户。

在第三非线性M比例1230中，m的值作为关于参数X的值的对应增大的对数函数而增大，然而，相对于前述分线性比例1220关系改变。这里，当超过相对低的预定阈值时，分配m的高值。在这方面，当特定参数最接近于由预定阈值限定的相对低值时，将立即增强特定音频输入的空间存在。

在X表示关系参数的情况下，一旦超过了表示低数量的分组选择的阈值时，将m的对应高值分配给所选择的部分。在这种情况下，阈值是用户预先限定的或者将阈值缺省设置为2，表示2个手指。因此，如果使用超过2个手指，则要理解的是，在所选择的区域中预期有下述特殊意义，即转化成较高空间存在。这方面还使得能够通过猛击手指动作来选择多于单个部分。在X表示距离的情况下，将m的对应高值分配给接近预定点Z的所选择的部分。例如，这对放大远离最佳扬声器热点的区域中的身临其境的体验来说是有用的。在X表示相对声能的情况下，当超过预定阈值时，分配m的对应高值以正确地反映高能量输入信号表示的壮观的声音效果。然而，在这种情况下，由于对数比例的低阈值，该方法将对输入能量的任何小的变化具有高反应。最后，在X表示触觉压力的情况下，在压力超过低阈值时，分配高m值。这在其中用户需要用低压力触摸来进行灵敏动作的情况下是有用的。因此，这适用于讨论中的用户。

本领域普通技术人员要理解的是，本发明的各个实施例的公开内容意在作为本发明的非限制性优选示例和实现，并且因此，在所描述的通用发明构思的范围内可以容易地组合不同实施例的特征。

要理解的是，可以通过硬件、软件、固件、中间件、微码或其任何组合来实现本文描述的实施例。当在软件、固件、中间件或微码、程序代码或代码段、计算机程序中实现系统和/或方法时，可以将系统和/或方法存储在机器可读介质例如存储部件中。计算机程序或代码段可以表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类或指令数据结构或程序语句的任何组合。通过传递和/或接收信息、数据、自变量、参数或存储器内容，可以将代码段耦接到另一代码段或硬件电路。可以使用包括内存共享、消息传递、令牌传递、网络传输等的任何合适的手段来传递，转发，或传输信息，自变量，参数，数据等。

对于软件实现来说，可以用执行本文所描述的功能的模块(例如，过程、功能等)来实现本文公开的技术。可以将软件代码存储在存储器单元中，并且由处理器来执行软件代码。可以在处理器内部或者处理器外部实现存储器单元，在这种情况下，存储器单元可以通过如在本领域中已知的各种手段来通信上耦接到处理器。此外，至少一个处理器可以包括可操作以进行本文描述的功能的一个或多个模块。

对于硬件实现来说，可以通过用被设计成进行所描述的功能的通用处理器、数字信号处理器(DSP)、特定应用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、离散门或晶体管逻辑、离散硬件部件或其任何组合进行操作来实现结合本文描述的实施例所描述的各种逻辑块、模块以及电路。通用处理器可以是微处理器，但是或者，处理器可以是任何传统的处理器、控制器、微控制器或状态机。

可以直接以硬件、由处理器执行的软件模块或上述二者的组合来实现所描述的方法或算法。软件模块可以存在于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域公知的任何其他形式的存储介质。

本领域普通技术人员应当理解的是，对一个或多个实施例的上述讨论不限制本发明，附图也不限制本发明。而是仅通过所附权利要求来限制本发明。

Claims

1.一种用于将至少一个输入音频信号编码成包括至少一个输出音频信号的声道独立表示以用于通过任意扬声器布局进行再现的设备，其中，所述输入音频信号包括单独的轨道多或者声道内容的流，所述设备包括：

用于限定覆盖目标听众的空间D的装置；

用于将所述空间D划分成多个部分k的装置；

用于针对输入音频和部分k的每个组合生成至少一个空间存在因子m的装置，其中，每个因子m对到空间D的每个部分k中的每个输入音频信号的存在的程度进行量化；以及

用于基于被分配给每个空间存在因子m的值将所述至少一个输入音频信号映射成所述至少一个输出音频信号，以用于在所述部分k内进行再现的装置。

2.根据权利要求1所述的设备，其中，输出的声道独立表示还包括描述预期听众周围的所述空间D以及描述将所述空间D划分成所述多个部分的信息。

3.根据权利要求2所述的设备，其中，所述空间D通过选择具有任意形状、球形形状、矩形形状或任何其他表面的空间D来限定。

4.根据权利要求2所述的设备，其中，所述空间D被划分成较精细部分或较粗略部分或较精细部分和较粗略部分的组合，并且其中，所述部分能够是规则形状或不规则形状。

5.根据权利要求2所述的设备，其中，每个因子m通过手动地或自动地分配值来生成，并且其中，分配给每个因子m的值是固定的或时变的，时间变化是手动地或根据预设指令来确定，或者取决于所述输入音频信号的内容而自动地生成。

6.根据权利要求2所述的设备，其中，所述空间D的特定部分是通过检测其中显示了所述空间D或所述空间D的一部分的触觉用户界面中的接触来选择。

7.根据权利要求6所述的设备，其中，与每个所选择的部分对应的所述空间存在因子m被分配高值，并且剩余部分被分配逐渐减小的较低值。

8.根据权利要求7所述的设备，其中，被分配给剩余部分的每个因子m的值与附近的所选择的部分的数量成比例地增大。

9.根据权利要求7所述的设备，其中，被分配给剩余部分的每个因子m的所述值与到所选择的部分的距离成比例地减小。

10.根据权利要求7所述的设备，其中，被分配给剩余部分的每个因子m的值与存在于所选择的部分中的相对声能成比例地增大，其中，相对声能是与所有部分的所有输入音频信号中的声能的总量相比的声能。

11.根据权利要求7所述的设备，其中，被分配给所选择的部分或剩余部分的每个因子m的值与在所述触觉用户界面的所选择的部分上感测到的触觉压力成比例地增大。

12.根据权利要求7所述的设备，其中，所述输入音频信号包括仅两个单独的轨道或立体声轨道的流，所述设备还包括：用于在生成所述声道独立表示之前将两个输入音频信号上混成4.0音频信号、5.1音频信号或7.1音频信号的预处理装置。

13.一种将至少一个输入音频信号编码成包括适于通过任意扬声器布局进行再现的至少一个输出音频信号的声道独立表示的方法，其中，所述输入音频信号包括单独的轨道或者多声道内容的流，所述方法包括：

限定覆盖目标听众的空间D；

将所述空间D划分成多个部分k；

针对输入音频和部分k的每个组合生成至少一个空间存在因子m，其中，每个因子m对到空间D的每个部分k中的每个输入音频信号的存在的程度进行量化；以及

基于被分配给每个空间存在因子m的值将所述至少一个输入音频信号映射成所述至少一个输出音频信号，以用于在所述部分k内进行再现。

14.根据权利要求13所述的方法，其中，输出的声道独立表示还包括描述预期听众周围的所述空间D以及描述将所述空间D划分成所述多个部分的信息。

15.根据权利要求13所述的方法，其中，所述输入音频信号包括仅两个单独的轨道或立体声轨道的流，所述方法还包括：在生成所述声道独立表示之前将两个输入音频信号上混成4.0音频信号、5.1音频信号或7.1音频信号。

16.一种用于解码包括至少一个输出音频信号的声道独立表示以用于通过任意扬声器布局进行再现的设备，所述设备包括：

用于接收至少一个声道独立表示的装置；

用于从所述至少一个声道独立表示中提取所述至少一个输出音频信号的装置；

用于通过所述任意扬声器布局来再现所述至少一个输出音频信号的装置；其中，所述至少一个输出音频信号在覆盖目标听众的空间D的多个部分k上被再现。

17.根据权利要求16所述的设备，其中，输出的声道独立表示还包括描述预期听众周围的所述空间D以及描述将所述空间D划分成所述多个部分的信息。

18.一种解码包括至少一个输出音频信号的声道独立表示以用于通过任意扬声器布局进行再现的方法，所述方法包括：

接收至少一个声道独立表示；

从所述至少一个声道独立表示中提取所述至少一个输出音频信号；

通过所述任意扬声器布局来再现所述至少一个输出音频信号；其中，在覆盖目标听众的空间D的多个部分k上再现所述至少一个输出音频信号。

19.根据权利要求18所述的方法，其中，输出的声道独立表示还包括描述预期听众周围的所述空间D以及描述将所述空间D划分成多个部分的信息。

20.一种用于根据至少一个输入音频信号来生成至少一个声道独立表示的系统，所述至少一个声道独立表示包括适于通过任意扬声器布局进行再现的至少一个输出音频信号，其中，所述输入音频信号包括单独的轨道或者多声道内容的流，所述系统包括：

用于收集至少一个输入音频信号的装置；

根据权利要求1至12中任一项所述的用于将所述至少一个输入音频信号编码成声道独立表示的装置；

根据权利要求16至17中任一项所述的用于将所述至少一个声道独立表示解码成至少一个输出音频信号并且用于通过所述任意扬声器布局来再现所述至少一个输出音频信号的装置。

21.根据权利要求20所述的系统，其中，所述输入音频信号包括仅两个单独的轨道或立体声轨道的流，所述系统还包括用于在生成所述声道独立表示之前将两个输入音频信号上混成4.0音频信号、5.1音频信号或7.1音频信号的预处理级。

22.一种根据至少一个输入音频信号来生成至少一个声道独立表示的方法，所述至少一个声道独立表示包括适于通过任意扬声器布局进行再现的至少一个输出音频信号，其中，所述输入音频信号包括单独的轨道或者多声道内容的流，所述方法包括：

收集至少一个输入音频信号；

根据权利要求13至15中任一项所述的将所述至少一个输入音频信号编码成声道独立表示；

根据权利要求18至19中任一项所述的将所述至少一个声道独立表示解码成至少一个输出音频信号并且通过所述任意扬声器布局来再现所述至少一个输出音频信号。

23.根据权利要求22所述的方法，其中，所述输入音频信号包括仅两个单独的轨道或立体声轨道的流，所述方法还包括：在生成所述声道独立表示之前将两个输入音频信号上混成4.0音频信号、5.1音频信号或7.1音频信号。

24.一种计算机程序，所述计算机程序在计算机器上被执行时再现根据方法权利要求13至15、方法权利要求18至19或方法权利要求22至23中任一项所述的步骤。

25.一种包括指令的计算机可读介质，所述指令在机器上被执行时进行根据方法权利要求13至15、方法权利要求18至19或方法权利要求22至23中任一项所述的步骤。