CN101960865A

CN101960865A - 用于捕获和呈现多个音频声道的装置

Info

Publication number: CN101960865A
Application number: CN200880127789XA
Authority: CN
Inventors: P·奥雅拉
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2008-03-03
Filing date: 2008-03-03
Publication date: 2011-01-26
Also published as: US20110002469A1; EP2250821A1; WO2009109217A1; KR20100131467A

Abstract

一种方法，包括：从多个音频源选择音频源子集；以及向装置传输来自选择的所述音频源子集的信号；其中所述音频源子集根据由所述装置提供的信息来选择。

Description

用于捕获和呈现多个音频声道的装置

技术领域

本发明涉及用于音频捕获和音频呈现的装置，并且更具体但不排他地，涉及通过分组交换网络传输实时多媒体。

背景技术

多种成束(beam forming)方法是已知的，其用于估计音频信号到达方向，以及通过对麦克风阵列的输出进行适当加权而集中到某个方向。这些方法的应用范围从水下音频监控到移动电话中有源噪声消除。

为了在成束方法中使用，麦克风阵列需要仔细组装，特别是麦克风的相对位置，因为成束功能依赖于感测器输出中的相位差。此外，为了能够利用相位差，麦克风的距离受到所接收音频信号波长的限制，即，感测器之间的距离必须小于波长的一半。

典型的成束麦克风阵列的输出是单声道信号。每个个体感测器的输出在根据成束目的而被适当加权和延迟之后相加在一起。因此，在成束之后不存在可用的多声道音频，因为输出是由单声道音频和对应于麦克风阵列设置的到达方向构成的。因此，在接收实体处不可能对音频场景进行包括进一步分析或开发在内的任何后处理。

现有的方向选择性录制的执行通常是通过使用应用于关系紧密的麦克风的已知麦克风阵列的输出的成束技术，或者使用选自覆盖感兴趣音频场景的麦克风网格的大型麦克风阵列。

源选择和源追踪可以使用成束来进行。例如，高保真环绕声(Ambisonic)技术需要良好定义的麦克风设置，其使用例如一致的麦克风设置以用于创建关于所捕获音频的方向信息。

感测器阵列或矩阵可以在自组织网络(例如，移动电话的网络)的基础上形成。在这种布置中，感测器位置并非已知的，而这可能对成束算法造成困难。然而，每个感测器的定位信息(如果可用的话)可被附加至每个声道，以便在接收终端中进一步分析。为了生成多声道音频表征，还需要麦克风定位信息。即，将音频内容置于各个扬声器配置上需要关于声源预期定位的知识。当音频源之间存在关联时尤其如此。

MPEG标准体正在研究基于对象的音频编码。基于对象的音频编码的目的与传统环绕声音频编码类似。然而，基于对象的编码器接收个体输入信号(或对象)，并生成一个或多个缩混(down mix)信号和侧信息(side information)的流。在接收侧，解码器产生一组对象输出，其被传递至混频器/呈现级，该混频器/呈现级生成针对期待数目的输出声道和扬声器设备的输出。此混频器/呈现器的参数因用户输入而变化，并且由此支持实时交互式音频构成。

在基于对象的音频编码中所使用的音频对象可以是基于用户偏好的音频场景中的定位。图1给出了基于对象的编码器架构。在图1所示架构中，多声道/对象编码器2接收多个输入音频声道/对象信号，并编码该信号以供传输。在多声道/对象解码器4处接收经编码的信号，将所接收信号解码成原始输入音频声道/对象信号。混频器/呈现器6从解码器4接收经解码的音频声道/对象，并且还接收用户交互信号8。混频器/呈现器根据经解码的音频声道/对象和用户输入8来生成多个输出音频声道/对象。

输出音频声道/对象的数目未必与输入声道/对象的数目相同。例如，混频器/呈现器6的输出可以用于从立体声到N声道输出的任何扬声器输出配置。此外，输出可以呈现为双耳格式，以供耳机收听。

与基于对象的音频编码有关的、称为个性化音频服务(PAS)的概念已被提出以用于基于对象的音频处理。在传统多声道音频应用中，仅为用户提供了单个预先安排的音频场景。因此，无法自由控制音频表征。然而，PAS概念递送非捆绑的音频对象，通过应用用户交互或控制信号，这些对象可以用来创建个性化的声音场景。这意味着用户能够控制音频对象的属性(诸如，音量、方向和距离)，以便根据自己的需求创建自己的音频场景。PAS系统的主要目标是用于广播服务。PAS概念所考虑的又一场景是提供用户偏好和音频控制的交互性。

图2给出了具有独立音频对象以供自由呈现的PAS概念。与图1架构的相似性在图2所示的PAS概念中是明显的。在编码器2中，对覆盖音频场景的多个音频声道或对象进行编码以供传输。所传输的信号在解码器4处被接收，并且被解码为组成音频声道/对象。继而，根据解码的音频声道/对象和用户交互8来呈现期待的音频场景。

用户可以能够控制3D空间信息(诸如，定位和强度等)。另外，用户可以在若干可用3D场景中进行选择。

然而，在图1和图2中每个架构的情况中，需要发送将要再现的音频场景中的每个音频对象的有关信息。即使对象未在根据用户偏好的最终音频场景呈现中使用也是如此。此外，将个体对象从音频场景隔离需要使用方向性成束技术，并且由此对用以监测原始音频场景的麦克风布置施加了严格的限制。这还意味着，麦克风的自组织网络无法与图1和图2的架构结合使用。

本发明一些实施方式的目的在于解决或者至少缓解这些问题中的一些。

发明内容

根据本发明的第一方面，提供一种方法，包括：从多个音频源选择音频源子集；向装置传输来自选择的所述音频源子集的信号；其中所述音频源子集根据由所述装置提供的信息来选择。

根据一个实施方式，该方法可以进一步包括：在传输之前，对来自所述音频源子集的信号进行编码。所述多个音频源可以包括麦克风栅格中的多个麦克风，或者包括适合于成束的麦克风阵列。所述装置提供的信息包括虚拟收听者坐标，或者音频源选择信息。该方法可以进一步包括：向所述装置提供与所述多个音频源有关的配置信息。所述装置提供的所述信息基于与所述多个音频源有关的配置信息而生成。所述配置信息可以包括与所述音频源有关的相对位置信息。所述配置信息可以包括与所述音频源有关的定向信息。

根据本发明的又一方面，提供一种方法，包括：生成与来自多个音频源的期待音频源子集有关的信息；向装置提供所述信息；以及接收由所述装置传输的信号。

根据本发明的一个实施方式，所公开的方法可以进一步包括：解码所述接收的信号，以合成与所述期待音频源子集有关的多个音频声道。该方法可以进一步包括：呈现所述合成的音频声道，以提供期待的音频场景。与期待的音频源子集有关的所述信息可以包括虚拟收听者坐标，或者可以包括音频源选择信息。该方法可以进一步包括：接收与所述多个音频源的配置有关的配置信息。与期待的音频源子集有关的所述信息可以根据所述配置信息而生成。所述配置信息包括与所述音频源有关的相对位置信息。所述配置信息可以包括与所述音频源有关的定向信息。呈现所述合成的音频声道可以进一步包括：根据与所述多个音频源有关的所述配置信息，呈现所述合成的信号以提供期待的音频场景。

根据本发明又一方面，提供一种装置，包括：音频源选择器，配置用于根据另一装置提供的信息来选择多个音频源的子集；以及编码器，配置用于对来自所述音频源子集的信号进行编码，并向所述另一设备传输所述编码信号。

根据本发明的一个实施方式，所述多个音频源可以包括麦克风栅格中的多个麦克风，或者所述多个音频源可以包括适合于成束的麦克风阵列。所述另一装置提供的所述信息可以包括虚拟收听者坐标，或者可以包括音频源选择信息。该装置可以进一步包括提供单元，配置用于向所述另一装置提供与所述多个音频源有关的配置信息。所述配置信息可以包括与所述音频源有关的相对位置信息。所述配置信息可以包括与所述音频源有关的定向信息。

根据本发明的另一方面，提供一种装置，包括：控制器，配置用于向另一装置提供与期待的音频场景有关的信息；以及解码器，配置用于从所述另一装置接收编码的信号，并解码该信号。

根据本发明一个实施方式，该装置可以进一步包括呈现器，配置用于从所述解码器接收解码的信号；以及其中所述控制器进一步配置用于向所述呈现器提供控制信号；所述呈现器进一步配置用于根据所述解码的信号和所述控制信号来生成期待的音频场景。与期待的音频源子集有关的所述信息可以包括虚拟收听者坐标或音频源选择信息。所述控制器可以进一步配置用于接收与所述多个音频源的配置有关的配置信息。所述配置信息可以包括与所述音频源有关的相对位置信息。所述配置信息可以包括与所述音频源有关的定向信息。

根据本发明的又一方面，提供一种设备，包括：控制装置，用于向另一设备提供与期待的音频场景有关的信息；以及解码装置，用于从所述另一设备接收编码的信号，以及解码所述信号。

根据本发明的又一方面，提供一种设备，包括：选择装置，用于根据另一设备提供的信息来选择多个音频源的子集；以及编码装置，用于对来自所述音频源子集的信号进行编码，以及用于向所述另一设备传输所述编码的信号。

根据本发明的又一方面，提供了一种计算机程序代码装置，当该程序运行在处理器上时，适用于执行所公开方法的任何步骤。

根据本发明的又一方面，提供了一种电子设备，或包括所公开装置的芯片集。

附图说明

现在将参考附图，仅通过示例方式来描述本发明的实施方式，其中：

图1示出了现有技术中基于对象的音频编码和呈现系统；

图2示出了现有技术中实现个性化音频服务概念的系统；

图3示出了适用于实现本发明元素的用户设备；

图4示出了根据本发明一个实施方式的具有收听者的虚拟路径的麦克风栅格；

图5示出了根据本发明一个实施方式的用于在麦克风栅格中选择麦克风的系统；

图6示出了根据本发明一个实施方式的具有针对声道/对象选择的反馈循环的基于多声道/对象的音频编码系统；以及

图7示出了根据本发明一个实施方式的方法。

具体实施方式

通过特定示例并具体参考优选实施方式，在此描述本发明的实施方式。本领域技术人员应当理解，本发明不限于此处给出的特定实施方式的细节。

根据本发明的一个实施方式，可以使用选择性多声道音频编码来传输来自任意感测器配置的多声道音频信息。可以选择由麦克风阵列或栅格提供的多个输入声道的子集，其后，可以使用例如BCC编码、MPEG空间音频编码器(SAC)(也称为MPS)、基于MPEG空间对象的音频编码器(SAOC)或方向性音频编码(DirAC)来编码信号。根据本发明的一个实施方式，只可以选择两个声道，从而允许使用更直接的立体声编码。

根据本发明的一个实施方式，为了有效地编码多声道内容，可以提供描述麦克风阵列中的麦克风的相对位置的信息。此外，关于音频源的信息(诸如，相对位置)可以在生成音频内容的表征时使用。

例如，使用任意扬声器配置(诸如，5.1)的音频场景表征可以要求将音频源放置到话筒位置。当收听者相对于麦克风位置的方位已知时，源可以置于任何任意扬声器配置上。备选地，可以支持具有双耳表征的耳机收听。

根据本发明的一个实施方式，与麦克风配置有关的信息(例如，相对位置和定向)可以在确定和控制收听者在音频场景中的期待位置时使用。在一个示例实施方式中，麦克风网络的布局可以随时间改变。为了允许这种改变，可能需要以足够的速率更新配置信息，从而允许对捕获布局的动态属性进行管理。

根据本发明的一个实施方式，可以使用按照任意布置来布置的麦克风阵列或栅格来捕获音频场景。由于感兴趣的点可以利用多个麦克风来覆盖，所以可以通过使用成束技术或者通过多麦克风录制来开发音频场景。如前所述，在使用成束技术时，需要对麦克风阵列进行良好定义，并且针对麦克风之间的距离存在严格的要求。根据一个示例实施方式，与成束有关的处理可以基于用户控制在接收方处执行，其中所需的麦克风数据被提供给接收方以在成束计算中使用。

首先参考图3，其示出了示例性电子设备10的示意框图，其可以包含根据本发明一个实施方式的编解码器。电子设备10例如可以是无线通信系统的移动终端或用户设备。

电子设备10包括麦克风11，其经由模数转换器14链接到处理器21。处理器21进一步经由数模转换器32链接到扬声器33。处理器21进一步链接到收发机(TX/RX)13、用户接口(UI)15和存储器22。

处理器21可以配置用于执行各种程序代码。所实现的程序代码可以包括音频解码代码和混频器/呈现代码。所实现的程序代码23可以例如存储在存储器22中，以在需要的时候由处理器21获取。存储器22可以进一步提供用于存储数据(例如，已经根据本发明编码的数据)的部分24。所实现的程序代码可以在本发明的实施方式中以硬件或固件实现。

用户接口15支持用户例如经由键盘向电子设备10输入命令，和/或例如经由显示器从电子设备10获得信息。收发机13支持例如经由无线通信网络与其他电子设备的通信。

还应当理解，电子设备10的结构可以以各种方式进行补充和改变。

图4示出了麦克风的确定性栅格9，其在本发明的一个实施方式中可以用于放置在感兴趣的区域周围。麦克风栅格覆盖的区域可以例如通过在空间周围移动虚拟收听者位置12来确定。利用与麦克风配置有关的信息(诸如，麦克风相对于期待的收听者位置的位置)，可以通过选择相关麦克风而将虚拟收听者放置在麦克风阵列覆盖的区域中。

图5示出了根据本发明一个实施方式的麦克风选择例程。在接收方实体中提供多视点(multiview)控制器16(或简称控制器)。与麦克风配置有关的信息19通过麦克风配置存储18被提供给多视点控制器16。多视点控制器可以使用麦克风配置信息19来确定期待的虚拟收听者位置12以及与麦克风配置9有关的定向信息，并且还可以在动态呈现音频场景情况下确定虚拟收听者位置12的移动。多视点控制器16向音频捕获实体中的麦克风选择器14提供虚拟收听者位置信息20。

收听者位置可以使用麦克风栅格/网格配置和定位信息来确定。配置和定位信息仅需传输一次。当然，对于动态配置，需要在信息改变时进行更新。

由此，基于由多视点控制器16提供的虚拟收听者坐标20，并且还基于麦克风配置信息，可以选择麦克风栅格10的麦克风子集以提供所需音频信息，以便生成期待的音频场景。麦克风选择器14可以被视为音频源选择器，因为其通常如下文所示，被配置用于选择在此示例中表示为麦克风源的多个音频源的子集。

用户不需要知道麦克风配置。位置、移动和定向的控制可以仅基于(先验)已知的或设想的音频场景来完成。备选地，用户可能希望基于已知的音频场景或感兴趣的定位来选择绝对位置、定向或移动轨迹。在这种情况下，用户可能需要知道空间和可用的多视点布局。用户可以将任何这种期待的位置等提供给多视点控制器16，其继而提供所需的控制和配置信号，以允许呈现期待的音频场景。

此外，根据本发明的一个实施方式，可以基于接收方实体提供的信息，在捕获实体的远端或本地控制要监测的多个麦克风。对所捕获音频场景的“广度(wideness)”的选择可以基于音频特性或音频内容。例如，可能期待利用多个麦克风来捕获周围的噪音。另外，多个麦克风可以用于稍后在接收实体中基于接收的多声道内容来支持成束功能。而且，在感兴趣的区域中存在若干不同音频源的情况下，利用多个麦克风(即，输入声道)是有益的。

图6给出了根据本发明一个实施方式的多视点音频捕获、编码、传输、呈现和控制架构。如上文针对图5所述，由麦克风选择实体14基于接收方实体中的多视点控制器16所提供的声道/对象选择信号来从麦克风栅格9中选择麦克风(音频源)的子集。继而，将来自麦克风的选定子集的捕获音频提供给编码器2。捕获的音频信号可以由编码器2使用任何多声道音频编码机制来编码，以便压缩信号以供传输。例如，可以应用MPEG环绕、SAOC、DirAC乃至传统立体声编解码器(仅在选择两个声道的情况下)。也可以利用单声道编解码器或多个单声道、立体声和多声道编解码器对一个或多个离散输入声道进行编码。

相应的解码器4从所传输的信号合成多声道内容，以用于呈现目的。

解码器提供的已解码多声道内容被应用至混频器/呈现器6。混频器/呈现器可以基于解码的音频声道和多视点控制16提供的交互/控制信号来呈现需要的音频场景。音频混频器/呈现器6的输出可以是多声道扬声器布局(诸如在家庭影院中使用的传统5.1配置)；或者备选地，在以立体声或双耳格式呈现内容的情况下，音频场景可以使用耳机来提供。如果仅跟踪一个输入声道，或者成束被作为混频器/呈现器6中的后处理操作来执行，则输出声道的数目可以限于1。

解码器4之后的呈现器6可以能够以如下方式来执行成束(如果满足了麦克风定位的需要的话)和/或源的放置，即，收听者被置于相对于麦克风位置的期待位置中。

图7示出了根据本发明一个实施方式的方法。该方法包括在S1中提供与音频源(例如，麦克风)有关的信息，该信息在S2中在接收方实体处被接收。该信息继而可以在S3中用以在接收方实体中生成虚拟收听者坐标，其描述所监测的音频场景中虚拟收听者的期待位置和定向。在其他实施方式中，虚拟收听者坐标可以由与来自可用音频源集合的期待音频源子集有关的、某些其他形式的生成信息来替换。虚拟收听者坐标或生成的信息继而在步骤S4中被提供给捕获实体。虚拟收听者坐标(或生成的信息)和与音频源配置有关的信息继而可以在步骤S5中用来选择将要向接收方提供的可用音频声道子集。在S6中，对音频声道的选定子集进行编码，以便传输至接收方。在S7中，在接收方实体处接收所传输的编码信号并对其进行解码，并且已解码信号继而可以用于在接收方处呈现或合成期待的音频场景。

基于解码的和呈现的音频场景，用户可以通过在S4中改变虚拟收听者位置和定向来与系统进行交互，以及随后影响S5中对麦克风栅格中的音频声道的选择。此外，系统可以基于获取的音频场景来自动地调整位置和定向，以例如更好地选择用于成束的麦克风配置。

本发明的实施方式可以提供以下一个或多个优点：

●在接收端处可以向多声道音频应用任何期待的音频处理，诸如成束。由此，可以在音频内容上创建若干视点。

●多声道和环绕音频编码支持选定音频内容的低比特速率传输。此外，可以基于用户需求或者感兴趣的地点处存在的音频条件和内容，来选择要包括在传输中的声道数目。

特别地，与现有技术的PAS(个性化音频服务)概念相比，本发明的某些实施方式允许显著减少在捕获实体和接收方实体之间传输的数据量，因为仅需要传输接收方实体呈现期待音频场景所需要的那些信号。

所描述的实施方式可以应用于远程在线和“分享所见(see-what-I-see)”服务，从而允许在接收方实体处重现音频场景。本发明的实施方式可以涉及语音和音频编码、媒体适配、通过分组交换网络的实时多媒体传输(例如，IP语音)。

根据本发明的一些实施方式，接收方实体可以包括移动网络中的用户设备。此外，所述麦克风栅格可以包括覆盖感兴趣区域的任何已知类型音频源的任意栅格。麦克风栅格的相对位置信息可以是预先配置的，或者可以例如使用GPS实时生成。

应当理解，术语“用户设备”意在覆盖任何适当类型的无线用户设备，诸如移动电话、便携式数据处理设备或便携式web浏览器。

一般地，本发明的各种实施方式可以以硬件或专用电路、软件、逻辑或其任何组合实现。例如，某些方面可以以硬件实现，而其他方面可以以控制器、微处理器或其他计算设备可以执行的固件或软件执行，尽管本发明不限于此。尽管将本发明的各种方面示出和描述为框图、流程图或使用某些其他图形表征，但是应当理解，在此描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合(作为非限制示例)实现。

例如，本发明的实施方式可以实现为芯片集，换言之，实现为彼此通信的一系列集成电路。芯片集可以包括被布置以运行代码的微处理器、专用集成电路(ASIC)或用于执行上述操作的可编程数字信号处理器。

本发明的实施方式可以由移动设备的数据处理器(诸如，处理器实体中的)可执行的计算机软件来实现，或者由硬件或硬件和软件的组合来实现。此外，就这一点，应当注意，附图中逻辑流程的任何框可以表示程序步骤或者互连的逻辑电路、框和功能，或者程序步骤和逻辑电路、框和功能的组合。

本发明的实施方式可以在诸如集成电路模块的各种组件中实践。集成电路的设计基本上是高度自动化的过程。复杂并且强大的软件工具可用于将逻辑水平设计转化成已经准备好可以蚀刻并在半导体基片上形成的半导体电路设计。

诸如加利福尼亚州Mountain View市的Synopsys Inc.和加利福尼亚州San Jose市的Cadence Design公司所提供程序之类的程序使用已建立的良好设计规则和预先存储的设计模块库来自动规划导体并将组件定位在半导体芯片上。一旦完成了对半导体电路的设计，则作为结果的标准电子格式设计(例如，Opus、GDSII等)可以传送到半导体制造设备或者用于制造的“加工”。

前述描述已经通过示例和非限制示例提供了本发明示例性实施方式的完整和信息性描述。然而，对于本领域技术人员而言，在结合附图和所附权利要求进行阅读时，各种修改和调整会变得明显。然而，本发明教导的所有这种和类似修改仍落入所附权利要求中定义的本发明范围内。

Claims

1.一种方法，包括：

从多个音频源选择音频源子集；

向装置传输来自选择的所述音频源子集的信号；

其中所述音频源子集根据由所述装置提供的信息来选择。

2.如权利要求1所述的方法，进一步包括：在传输之前对来自所述音频源子集的所述信号进行编码。

3.如前述任一权利要求所述的方法，其中所述多个音频源包括麦克风栅格中的多个麦克风。

4.如前述任一权利要求所述的方法，其中所述多个音频源包括适于成束的麦克风阵列。

5.如前述任一权利要求所述的方法，其中由所述装置提供的所述信息包括虚拟收听者坐标。

6.如权利要求1-4任一项所述的方法，其中由所述装置提供的所述信息包括音频源选择信息。

7.如前述任一权利要求所述的方法，进一步包括：向所述装置提供与所述多个音频源有关的配置信息。

8.如权利要求7所述的方法，其中由所述装置提供的所述信息基于与所述多个音频源有关的所述配置信息而生成。

9.如权利要求7或8所述的方法，其中所述配置信息包括与所述音频源有关的相对位置信息。

10.如权利要求7-9所述的方法，其中所述配置信息包括与所述音频源有关的定向信息。

11.一种方法，包括：

生成与来自多个音频源的期待音频源子集有关的信息；

向装置提供所述信息；以及

接收由所述装置传输的信号。

12.如权利要求11所述的方法，进一步包括：解码所述接收的信号，以合成与所述期待音频源子集有关的多个音频声道。

13.如权利要求12所述的方法，进一步包括：呈现所述合成的音频声道，以提供期待的音频场景。

14.如权利要求11或12所述的方法，其中与期待的音频源子集有关的所述信息包括虚拟收听者坐标。

15.如权利要求11-13任一项所述的方法，其中与期待的音频源子集有关的所述信息包括音频源选择信息。

16.如权利要求11-15任一项所述的方法，进一步包括：接收与所述多个音频源的配置有关的配置信息。

17.如权利要求16所述的方法，其中与期待的音频源子集有关的所述信息根据所述配置信息而生成。

18.如权利要求16或17所述的方法，其中所述配置信息包括与所述音频源有关的相对位置信息。

19.如权利要求16-18所述的方法，其中所述配置信息包括与所述音频源有关的定向信息。

20.如从属于权利要求13的权利要求16所述的方法，其中呈现所述合成的音频声道进一步包括：根据与所述多个音频源有关的所述配置信息，呈现所述合成的信号以提供期待的音频场景。

21.一种装置，包括：

音频源选择器，配置用于根据由另一装置提供的信息来选择多个音频源的子集；以及

编码器，配置用于对来自音频源的所述子集的信号进行编码，以及向所述另一设备传输所述编码信号。

22.如权利要求21所述的装置，其中所述多个音频源包括麦克风栅格中的多个麦克风。

23.如权利要求21所述的装置，其中所述多个音频源包括适于成束的麦克风阵列。

24.如权利要求21-23任一项所述的装置，其中由所述另一装置提供的所述信息包括虚拟收听者坐标。

25.如权利要求21-23任一项所述的装置，其中由所述装置提供的所述信息包括音频源选择信息。

26.如权利要求21-25任一项所述的装置，进一步包括：提供单元，配置用于向所述另一装置提供与所述多个音频源有关的配置信息。

27.如权利要求26所述的装置，其中所述配置信息包括与所述音频源有关的相对位置信息。

28.如权利要求26或27所述的装置，其中所述配置信息包括与所述音频源有关的定向信息。

29.一种装置，包括：

控制器，配置用于向另一装置提供与期待的音频场景有关的信息；以及

解码器，配置用于从所述另一装置接收编码的信号，并解码所述信号。

30.如权利要求29所述的装置，进一步包括：呈现器，配置用于从所述解码器接收解码的信号；以及

其中所述控制器进一步配置用于向所述呈现器提供控制信号；

所述呈现器进一步配置用于根据所述解码的信号和所述控制信号来生成期待的音频场景。

31.如权利要求29或30所述的装置，其中与期待的音频源子集有关的所述信息包括虚拟收听者坐标。

32.如权利要求29或30所述的装置，其中与期待的音频源子集有关的所述信息包括音频源选择信息。

33.如权利要求29-32任一项所述的装置，其中所述控制器进一步配置用于接收与所述多个音频源的配置有关的配置信息。

34.如权利要求33所述的装置，其中所述配置信息包括与所述音频源有关的相对位置信息。

35.如权利要求33或34所述的装置，其中所述配置信息包括与所述音频源有关的定向信息。

36.一种设备，包括：

控制装置，用于向另一设备提供与期待的音频场景有关的信息；以及

解码装置，用于从所述另一设备接收编码的信号，以及解码所述信号。

37.一种设备，包括：

选择装置，用于根据由另一设备提供的信息来选择多个音频源的子集；以及

编码装置，用于对来自音频源的所述子集的信号进行编码，以及用于向所述另一设备传输所述编码的信号。

38.一种计算机程序代码装置，当该程序运行在处理器上时，适于执行如权利要求1-20所述的任何步骤。

39.一种电子设备，包括如权利要求21-37任一项所述的装置。

40.一种芯片集，包括如权利要求21-37任一项所述的装置。