CN102763432B

CN102763432B - 对多装置音频捕获的处理

Info

Publication number: CN102763432B
Application number: CN201080064131.6A
Authority: CN
Inventors: J·P·奥扬佩雷
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2010-02-17
Filing date: 2010-02-17
Publication date: 2015-06-24
Anticipated expiration: 2030-02-17
Also published as: US9332346B2; US20120310396A1; CN102763432A; US9913067B2; US20160212562A1; WO2011101708A1; EP2537350A4; EP2537350A1

Abstract

尤其公开了通过第一设备（21）选择一个或多个记录装置（20）以获得所选记录装置集，或者在所述第一设备（21）处接收关于一个或多个所选记录装置的集的信息。所述所选记录装置集中的所述所选记录装置至少基于为所述记录装置集的所述记录装置确定的相关性水平，选自所述记录装置集。通过所述第一设备（21）执行或引起对音频场景中所选记录装置集的所述所选记录装置记录的音频信号的合并，以获得用于呈现的一个或多个合并后的音频信号。

Description

对多装置音频捕获的处理

技术领域

本发明涉及音频捕获、处理、表示、传输和呈现领域，尤其涉及通过多个装置提供的音频记录环境。

背景技术

多视角音频是这种音频捕获、处理、表示、传输和呈现的使用场合的一个示例。多视角音频是这样的概念：其提供对音频场景的不同听觉视角，用户可以从不同的听觉视角选择他/她喜欢的那个视角。不管是单独还是与相应的多视角视频概念结合，多视角音频都使得能够实现被认为是下列领域中有趣的特性的功能，这些领域包括：远程呈现（telepresence）应用、音/视频会议、沉浸式人与人通信（还可能包括视频和/或合成内容，例如为了提供“全3D”体验）、游戏或虚拟/增强现实应用等，不一而足。

发明内容

对多视角音频的捕获涉及利用向周围音频场景提供不同听觉视角的许多记录装置。可以向用户（或应用）给出选择，以便根据他/她的偏好选择收听这些记录中的具体的一个。

还可以向用户（或应用）给出对音频场景内期望的收听位置的自由选择。在这种途径中，与所期望的收听位置关联的音频信号被确定为音频场景内多个记录的一个或多个合并——每个合并例如基于例如源自接近所选的收听位置的多个记录装置的一个或多个记录。

然而，由于测量和/或估计音频场景内多个记录装置的多个位置的能力有限，和/或由于该位置测量和/或估计的不精确性，所以如果只依赖所测量/估计的多个记录装置的多个位置，则确定与音频场景内期望的收听位置关联的多个记录的合适合并会打折扣。

此外，可以存在这样的情况，其中根本就没有可用的对各个记录装置的专用的测量/估计位置，例如，如果诸如因为记录装置能够接收来自基站/接入点/信标的无线电信号，所以只是笼统地知道一对记录装置位于具体的区域中，例如蜂窝通信系统（例如小区）的基站的覆盖区域、或无线局域网（WLAN）接入点的覆盖区域、或无线电广播系统的信标的覆盖区域，示例不一而足。于是期望的收听位置可以例如被了解到在该覆盖区域内。此外，甚至可能存在这样的情况，其中，来自一对记录装置的多个记录将被不依赖于期望的收听位置地适当合并。

在所有这些使用场合中，如果记录装置的数量大，将会加剧对来自多个记录装置的多个记录的合并，举例来讲，如果在诸如音乐会等大型事件中记录音频，则很容易出现这种情况。

因此，除其他目的外本发明的目的尤其是，提供用于对多个记录装置记录的多个音频信号的适当合并的方法、设备、系统、计算机程序以及计算机程序产品。

在本发明的第一方面，公开了一种方法，包括：

通过第一设备选择一个或多个记录装置以获得所选记录装置集，以及在所述第一设备处接收关于一个或多个所选记录装置的集的信息之一，所述所选记录装置集中所选的记录装置是至少基于为记录装置集的记录装置确定的相关性水平选自所述记录装置集，以及

通过所述第一设备执行对音频场景中所述所选记录装置集的所选记录装置记录的音频信号的合并和通过所述第一设备引起所述合并之一，以获得用于呈现的一个或多个经过合并的音频信号。

在本发明的该第一个方面，还公开了计算机程序，其包括用于在计算机程序在处理器上执行时执行根据本发明的第一方面的方法的程序代码。所述计算机程序可以例如是经由网络（比如因特网）可分发的。计算机程序可以是例如在计算机可读介质中可存储或可编码的。计算机程序可以例如至少部分地表示处理器的软件和/或固件。

在本发明的该第一方面中，还公开了计算机可读介质，其上存储有根据本发明第一方面的计算机程序。计算机可读介质可以例如被实现为电、磁、电-磁、光或其它存储介质，并且可以是可移除介质或被固定安装在设备或装置中的介质。随机访问存储器（RAM）或只读存储器（ROM）是这种计算机可读介质的非限制性示例。计算机可读介质可以例如是有形介质，例如有形存储介质。计算机可读介质被理解为计算机（比如处理器）可读的。

在本发明的该第一方面中，还公开了第一设备，其被配置为执行根据本发明第一方面的方法。

在本发明的该第一方面中，还公开了第一设备，包括：

用于选择一个或多个记录装置以获得所选记录装置集以及接收关于一个或多个所选记录装置的集的信息两者之一的装置，所述所选记录装置集中所选的记录装置是至少基于为记录装置集的记录装置确定的相关性水平选自所述记录装置集，以及

用于执行对音频场景中所述所选记录装置集的所选记录装置记录的音频信号的合并以及引起所述合并两者之一，以获得用于呈现的一个或多个经过合并的音频信号的装置。

在本发明的该第一方面中，还公开了第一设备，其包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起，引起所述第一设备至少：

选择一个或多个记录装置以获得所选记录装置集以及接收关于一个或多个所选记录装置的集的信息两者之一，所述所选记录装置集中所选的记录装置是至少基于为记录装置集的记录装置确定的相关性水平选自所述记录装置集，以及

执行对音频场景中所述所选记录装置集的所选记录装置记录的音频信号的合并以及引起所述合并两者之一，以获得用于呈现的一个或多个经过合并的音频信号。

包括在存储器中的计算机程序代码可以例如至少部分地表示用于处理器的软件和/或固件。可由处理器访问的RAM或ROM是存储器的非限制性示例。

根据本发明第一方面的所述第一设备可以例如是电子装置（比如服务器，例如音频服务器）或被包括在电子装置中。所述第一设备可以例如包括用户接口和/或网络接口（例如，用来与通信网络（比如因特网、蜂窝通信系统以及WLAN，非限制性示例不一而足）对接）。

在下文中，将描述本发明第一方面的特征和实施方式（示出了进一步的特征），它们被理解为同样适用于上述本发明第一方面的方法、设备、计算机程序和计算机程序产品。这些单个的特征/实施方式被认为是示例性的且非限制性的，并且可分别独立于其他所公开的特征/实施方式合并。此外，这些特征/实施方式也将被认为是以相互以及与上述本发明第一方面所有可能的组合进行了公开。

如果未特别声明，则在本说明书中如果设备/装置被描述为执行某种动作，则设备/装置被理解为包括用于执行该动作的相应装置，设备的存储器和计算机代码被理解为被配置用于，与处理器一起，引起设备（除了已由设备执行的其它动作之外还）执行该动作，并且计算机程序被认为包括在程序在处理器上执行时用于执行该动作的相应程序代码。

包括在记录装置集中的记录装置能够记录音频信号，其中该记录装置集包括一个或多个（例如至少两个）记录装置。记录装置可以例如能够每个记录装置记录一个音频信号，但是同样可行的是，一个或多个记录装置中的一个或多个记录装置能够一次记录例如来自不同的方向的多于一个音频信号。为了记录音频信号，记录装置可以例如配备有一个或多个麦克风。记录装置或连接到（经由无线或有线连接）记录装置的设备还能够向第一设备或者直接地或经由一个或多个另外的设备提供所记录的音频信号。举例来讲，可以在至少部分地使用了无线电通信系统的情况下将记录的音频信号提供给第一设备。

所述记录装置集中的记录装置可以例如构成多个记录装置的子集，其中，所述多个记录装置可以例如包括记录或已经记录了在音频场景中记录的音频信号的所有记录装置。所述记录装置集可以例如只包含所述多个记录装置中接近期望的收听效果的那些记录装置。

从所述记录装置集入手，通过从所述记录装置集选择记录装置来确定所选记录装置集。于是所选记录装置被包括在所选记录装置集中。

至少基于为所述记录装置集的记录装置确定的相关性水平来选择所述所选记录装置。其中，可以例如确定相关性水平使得每个记录装置都被指派各自的相关性水平。被指派给记录装置的相关性水平可以相互不同，但同样可行的是，同一相关性水平可被指派给两个或更多记录装置。相关性水平指示记录装置的相关性，例如感性相关性，并因而在从记录装置集选择记录装置时作为辅助。可以例如至少基于记录装置记录的音频信号为记录装置集的记录装置确定相关性水平。对所选记录装置的确定还可以基于记录装置的测量/估计的方位。

可以例如为同一记录装置集的记录装置确定不同（例如，至少两个不同的）的相关性水平集。例如，可以例如通过将不同的带通滤波器应用到记录装置所记录的音频信号并形成用于确定相关性水平的至少部分基础，分别为不同频带确定不同的相关性水平集。这种特定于频带的多个相关性水平集于是还可以产生特定于频带的多个所选记录装置集以及特定于频带的合并后的音频信号。这可对音频场景中的多音频源/音频活动中心的改善的分辨率有所贡献。

通过对音频场景中所选记录装置集的所选记录装置记录的音频信号进行合并来利用所述所选记录装置集，以获得用于呈现（例如，通过第一设备或另一设备来呈现）的一个或多个经过合并的音频信号。其中，如果关于记录装置的相关性水平是至少基于记录装置所记录的音频信号来确定，则被合并以获得所述一个或多个经过合并的音频信号的所记录的音频信号，可以与确定用于所选记录装置的相关性水平所基于的所记录的音频信号相同，或者也可以是不同的所记录的音频信号。

可在所述所选记录装置已经记录了音频信号之前、期间或之后，确定（通过选择记录装置）所选记录装置集，其中，所述音频信号被合并以获得一个或多个经过合并的音频信号。

其中，一个或多个音频信号可以按照每个所选记录装置被记录，并且可以参与所述合并。可能存在例如这种情况，一个或多个所选装置只具有一个被记录的音频信号，并且一个或多个所选记录装置具有多于一个（例如至少两个）的被记录的音频信号。对所选记录装置所记录的音频信号进行合并可以例如通过下混合所述音频信号来执行，例如通过立体声下混合，非限制性示例不一而足。所述合并可以包括进一步的信号处理，比如滤波或平移。所述合并可以例如产生单声道信号、立体声信号、双耳信号或多声道音频信号，非限制性示例不一而足。其中，只有所述所选记录装置集的所选记录装置所记录的音频信号被合并，即，由其它记录装置记录的音频信号被排除在所述合并之外。

在这种方式中，所述一个或多个经过合并的音频信号只包含由所选记录装置所记录的音频信号，而不包括来自所述记录装置集的所有记录装置的音频信号。由于所选记录装置是基于相关性水平被选择的，所以所述一个或多个经过合并的音频信号于是只包含由被认为与音频场景相关（基于相关性水平）的记录装置记录的音频信号，即，例如以最佳方式表示音频场景。这也降低了生成经过合并的音频信号的复杂性（因为只需处理来自较少记录装置的音频信号）。此外，在所述记录装置集表示被认为接近所期望的收听位置的记录装置的情况下，但是如果记录装置的测量/估计位置不可靠的，则只考虑被认为是相关的记录装置的音频信号可对排除被错误地包括在记录装置集中的记录装置的音频信号有所贡献，因此可提升所述经过合并的音频信号的质量。针对这种使用场合的合适的相关性准则可以是例如，基于由记录装置记录的音频信号的相似性的准则。这同样适用于记录装置的位置根本不可用或这不相关的情况，由此通过基于生成所述一个或多个经过合并的音频信号的所记录的音频信号，只将相关的记录装置包括到所选记录装置集中，也可以实现记录装置数量的适当缩减。

第一设备或者自己执行对记录装置的选择（例如，基于关于期望的目标收听效果的信息），或者接收关于所选记录装置集的信息（例如从用户、应用、或者从另外的设备接收，示例不一而足）。信息可以是例如所选记录装置集自身，或者对其的表示（例如编码表示）。信息还可以从至少部分不同的至少两组所选记录装置集标识出对所选记录装置集的选择。

此外，第一设备或者执行对由所选记录装置记录的音频信号的合并，或者引起该合并（例如，通过将所选记录装置集转发给执行该合并的设备）。

第一设备可以例如是服务器或其一部分。服务器可以例如是多视角音频服务器。第一设备可以例如进一步地能够接收由记录装置集的记录装置记录的音频信号。第一设备可以例如进一步地能够确定相关性水平。

根据本发明第一方面的第一实施方式，所述记录装置集至少在考虑了音频场景中期望的收听位置与记录装置的测量/估计位置间的位置关系的情况下，从多个记录装置得到。其中，在本说明书全文中，斜杠“/”被认为表示“和/或”。所述多个记录装置可以例如包括从中接收或已经接收到例如关于特定音频场景被记录的音频信号的所有记录装置。所述多个记录装置可以例如包括活动的和/或连接到音频服务器的那些记录装置。相对于期望的收听位置，基于记录装置的测量/估计位置从所述多个记录装置得到记录装置集构成用来减少对所述一个或多个经过合并的音频信号做出贡献的记录装置的数量的方式。

在本发明第一方面的第一实施方式中，所述得到可以例如由第一设备执行。可替换地，所述得到可以由另一设备执行，并且相关性水平于是可被提供给选择记录装置以获得所选记录装置集的实体。

在本发明第一方面的该第一实施方式中，期望的收听位置可以是例如由要在其上呈现所述一个或多个经过合并的音频信号的第二设备来提供。期望的收听位置可以例如由第二设备的用户选择（例如，基于房间计划或提供给他的地图）或者由第二设备执行的应用选择，并随后将其从第二设备提供给第一设备。可替换地，期望的收听位置可以是预定义的。进一步可替换地，期望的收听位置可以是自动确定的，例如基于所测量/估计的记录装置的位置（例如取其平均）。

在本发明第一方面的该第一实施方式中，只有具有处于所期望的收听位置周围预定区域内的所测量/估计位置的记录装置才会被包括在记录装置集中。

在本发明第一方面的该第一实施方式中，只有具有处于所期望的收听位置周围预定区域内的所测量/估计位置的预定数量的记录装置被包括在记录装置集中。包括在所述记录装置集中的记录装置可以例如是具有相对于所述期望的收听位置最近的测量/估计位置的记录装置。

根据本发明第一方面的第二实施方式，记录装置的相关性水平至少基于对记录装置所记录的音频信号的表示间的相似性分析而确定。

相似性可以是例如通过可展示音频信号间的相似性的相似性分析函数来确定（即使这些音频信号被不同地延迟），其可被看做对记录了音频信号的记录装置的相关性的测量。例如，记录了展现出与许多其他记录装置的被记录的音频信号的相似性的音频信号的记录装置可被指派高相关性。于是所述所选记录装置集可以例如只包括记录了彼此相似的音频信号的记录装置，而排除记录了不相似音频信号的记录装置。被记录的音频信号的相似性可以例如被看作指示被记录的源自同一音频源（或者源自音频源的相似混合）的音频信号。只合并这种相似的被记录的音频信号从而可以给出音频源（或音频源的混合）的纯粹效果，并可以进一步消除不相似的被记录的音频信号（它们可以例如源自其他可能较远的音频源）的影响。

相似性分析函数可以例如至少部分地基于所述表示间的互相关。例如，所述相似性分析函数可以是互相关函数、或加权互相关函数、或互相关函数的变换、或互相关函数与其它函数（例如与互相关函数的变换）的组合，非限制性示例不一而足。在所有这些基于互相关的函数中，可以使用被记录的音频信号的表示或其修正版本（例如硬限制副本）。同样可行的是，相似性分析函数可以基于对两个表示相对于彼此的不同移位的两个表示之间的差的分析，例如平均幅度差函数（AMDF）的情况中。同样可行的是，相似性分析函数可以基于差分析函数和基于互相关的函数的合并。

根据本发明第一方面的第三实施方式，记录装置的相关性水平与记录装置记录的音频信号的表示关于参考信号的延迟有关。

音频信号的表示可以例如是被记录的音频信号的相应的同一表示（例如相应的复制）。同样可行的是，形成由记录装置记录的一个或多个音频信号的这种表示可以包括滤波、抽取、合并（例如取平均）或通过其它方式来处理一个或多个音频信号。例如，音频信号可以被带通滤波，例如为了改善音频场景中的多音频源/音频活动中心的分辨率。每个记录装置可以例如存在一个相应的表示。

在本发明第一方面的该第三实施方式中，延迟可以例如基于被应用到记录装置所记录的音频信号的表示的相对于基准信号的相似性分析函数来确定。延迟可以例如被确定为表示与产生基于互相关的函数的极（例如，最大值或最小值）值（例如，最大互相关值或最小差值）的参考信号之间的移位。每个记录装置可以存在例如一个相应的表示，并且每个表示/记录装置可以存在例如一个相应的延迟。在相似性分析函数（例如互相关函数或差函数）中，可以考虑音频信号的每个表示的一个或多个分段。这可对改善相似性分析结果有所贡献。

在本发明第一方面的该第三实施方式中，参考信号可以例如是记录装置集的记录装置中的一个记录的一个或多个音频信号的表示。参考信号可以例如是相对于所有其他（其它记录装置所记录的音频信号的）表示具有最大相似性的（记录装置所记录的音频信号的）表示。

在本发明第一方面的该第三实施方式中，参考信号可以被识别，并且延迟可以作为来自至少部分联合进程的结果而被获得。

在本发明第一方面的该第三实施方式中，参考信号可以例如是从记录装置记录的音频信号的表示确定，所述表示在所有表示中，相对于其它表示展现出相似性分析函数的各个极值（例如最大值或最小值）之和最大。这样，在记录装置集中存在M个记录装置且每个记录装置一个表示的情况下，对于每个表示，可以确定相对于所有其它M-1个表示，各个相似性分析函数的各个M-1个极值（例如，互相关的最大值或差的最小值），并将这M-1个极值求和以得到每个表示一个和值，于是可将具有最大（在形成互相关的情况下）或最小（在形成差的情况下）和值的表示看作参考信号。

在本发明第一方面的该第三实施方式中，记录装置的相关性水平是通过将延迟分成分别表示相关性水平的组来确定的。

每个相关性水平例如可以有一个组，例如，如果记录装置集中有M个记录装置，并且有K个不同的相关性水平，则每组可能有M/K个延迟（假设M可被K整除）。同样可行的是，每组的延迟数在组间可以不同。

相关性水平可以例如随着延迟的增加而降低，从而小的延迟指示高相关性而大的延迟指示低相关性。

根据本发明第一方面的第四实施方式，关于一个或多个所选记录装置的集的信息被接收，并且所选记录装置集的所选记录装置在其上将要呈现所述一个或多个经过合并的音频信号的第二设备处选择。该选择可以例如由用户执行、或自动地例如基于选择规则由第二设备执行（例如由第二设备执行的应用执行）。

在本发明第一方面的该第四实施方式中，相关性水平可以例如由第一设备确定，并作为用于选择所选记录装置集的所选记录装置的至少部分基础，被提供给第二设备。此外，与相关性水平关联的进一步信息可被提供给第二设备，例如，关于各个相关性水平涉及的记录装置的位置（如果可用）和/或方位（如果可用）的信息。这种信息可以例如被呈现给用户（或应用），以允许舒适的选择记录装置。

其中，所述选择可以由第二设备的用户执行或由第二设备自动执行（例如由第二设备执行的应用执行）。

根据本发明第一方面的第五实施方式，所述一个或多个记录装置由第一设备选择，以获得所选记录装置集，并且相关性水平由第一设备确定。

根据本发明第一方面的第六实施方式，所选记录装置集中的所选记录装置选自记录装置集，使得所选记录装置集的所选记录装置所记录的音频信号的合并提供目标收听效果。相关性水平可以例如与目标收听效果相关。所选记录装置可以例如是选自所述记录装置集，使得只有所选记录装置集的所选记录装置记录的那些音频信号的合并提供目标收听效果。

在本发明的第一方面的第六实施方式中，所述所选记录装置集的所选记录装置基于相关性水平以及选择规则来选择，其中，所述选择规则至少依赖于目标收听效果并与相关性水平有关。所选记录装置可以是例如基于相关性水平和选择规则被自动选择，例如由第一设备或其上要呈现一个或多个经过合并的音频信号的第二设备选择。选择规则可以例如定义阈值，并要求具有高于或低于所述阈值的各个相关性水平的记录装置应当被选择。选择规则可以是例如预定义的选择规则。对于不同的目标收听效果，可以存在例如分别不同的选择规则，这些选择规则可以是例如预定义的。目标收听效果可以是例如由用户（例如由第二设备的用户）或由第二设备执行的应用等（示例不一而足）定义或者从目标收听效果集选择。可替换地，目标收听效果可以是预定义的。选择规则可以进一步依赖于所测量/估计的记录装置的方位。

在本发明第一方面的第六实施方式中，目标收听效果可以是近端收听效果和远端收听效果之一。为了实现近端收听效果，例如只有被认为接近音频源的记录装置记录的音频信号才被合并，反之，为了实现远端收听效果，例如只有被认为远离音频源的记录装置记录的音频信号才被合并。

在本发明第一方面的第六实施方式中，可以从至少两个预定义的不同目标收听效果集选择目标收听效果。目标收听效果集可以例如包括至少远端和近端收听效果。所述选择可以例如由其上将要呈现所述一个或多个经过合并的音频信号的第二设备的用户执行，或由第二设备执行的应用执行。

根据本发明第一方面的第七实施方式，从同一记录装置集确定（通过选择记录装置）至少部分不同的至少两个所选记录装置集。所述不同的至少两个所选记录装置集可以例如进一步基于同一被记录的音频信号集来确定。所述不同的至少两个所选记录装置集可以例如分别与不同的目标收听效果关联。设备（例如第二设备）可以例如提供关于期望哪个所选记录装置集的信息（例如通过提供关于期望的目标收听效果的信息），并进而可以由例如要在该设备上呈现的第一设备产生（或者触发产生）所期望的所选记录装置集的所选记录装置记录的经过合并的音频信号。

根据本发明的第二个方面，公开了一种方法，包括：

在第二设备处接收一个或多个经过合并的音频信号，所述音频信号获得自音频场景中所选记录装置集的所选记录装置记录的音频信号的合并，所述所选记录装置集的所选记录装置至少基于为记录装置集的记录装置确定的相关性水平选自记录装置集，

在接收到所述音频场景中所选记录装置记录的音频信号的合并之前，向第一设备提供关于所选记录装置集的信息和允许所述记录装置被所述第一设备选择以获得所选记录装置集的信息之一，其中，所述第一设备执行产生对所选记录装置记录的所述音频信号的合并或引起所述合并之一。

在本发明的该第二个方面，还公开了一种计算机程序，其包括在处理器上执行该计算机程序时用于执行根据本发明第二方面的方法的程序代码。所述计算机程序可以具有与已经参照本发明第一方面的计算机程序解释过的相同的属性。

在本发明的该第二个方面，还公开了一种计算机可读介质，其上存储有根据本发明第二方面的计算机程序。所述计算机可读介质可具有与参照本发明第一方面的计算机可读介质解释过的相同的属性。

在本发明的该第二方面，还公开了第一设备，其被配置为执行根据本发明第二方面的方法。

在本发明的该第二方面，还公开了第二设备，包括：

用于接收一个或多个经过合并的音频信号的装置，所述音频信号获得自音频场景中所选记录装置集的所选记录装置记录的音频信号的合并，所述所选记录装置集的所选记录装置至少基于为记录装置集的记录装置确定的相关性水平选自所述记录装置集，

用于在接收到所述音频场景中所选记录装置记录的音频信号的合并之前，向第一设备提供对所选记录装置记录的音频信号的合并的产生和引起之一，提供关于所选记录装置集的信息和关于允许所述记录装置被所述第一设备选择以获得所选记录装置集的信息之一的装置。

在本发明的第二方面，还公开了第二设备，其包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起，引起所述第二设备至少：

接收一个或多个经过合并的音频信号，所述音频信号获得自音频场景中所选记录装置集的所选记录装置记录的音频信号的合并，所述所选记录装置集的所选记录装置至少基于为记录装置集的记录装置确定的相关性水平选自所述记录装置集，以及

在接收到所述音频场景中所选记录装置记录的音频信号的合并之前，向第一设备提供对所选记录装置记录的音频信号的合并的产生和引起之一，提供关于所选记录装置集的信息和关于允许所述记录装置被所述第一设备选择以获得所选记录装置集的信息之一。

根据本发明第二方面的第二设备可以例如是或者被包括在电子装置（比如，举例来讲，音频呈现装置）中。这种电子装置的非限制性示例是移动电话、个人数字助理以及计算机。所述第二设备可以例如包括用户接口和/或网络接口（例如，用来与通信网络（比如因特网、蜂窝通信系统以及WLAN，非限制性示例不一而足）对接）。

应当注意到，本发明第二方面涉及分别用来补充根据本发明第一方面的方法、设备、计算机程序和计算机程序产品的方法、设备、计算机程序和计算机程序产品，从而本发明第一方面的上述描述被认为也适用于本发明第二方面，并在此明确引用。同样可行的是，本发明的第二个方面的描述也适用于本发明的第一个方面，并明确地被认为也在本发明的第一个方面的上下文中予以了公开，不过仅以非限制性的意义公开。

在下文中，将描述本发明第二方面的具体特征和实施方式（展现了进一步的特征），它们被理解为同样适用于上述本发明第二方面的方法、设备、计算机程序和计算机程序产品。这些单个的特征/实施方式被认为是示例性的且非限制性的，并且可独立于其他所公开的特征/实施方式地分别可结合于上述本发明的第二方面。此外，这些特征/实施方式还应被认为对彼此之间以及与上述本发明第二方面所有可能的组合进行了公开。

根据本发明第二方面，所述第二设备提供关于所述所选记录装置集的信息或允许所述记录装置被所述第一设备选择以获得所述所选记录装置集的信息，其中，所述第一设备是在其上产生或引起对所选记录装置记录的音频信号的合并的设备。响应于该信息，所述第一设备于是可以产生或引起对所选记录装置记录的音频信号的合并，以获得一个或多个经过合并的音频信号，并且这些经过合并的音频信号在所述第二设备处被接收。

对记录装置的选择以获得所选记录装置集可以发生在第二设备处或第一设备处，或甚至在另外的设备处。例如，所述选择可由第二设备的用户执行。同样可行的是，所述选择可在有或者没有用户输入的情况下由第二设备自动执行（例如由第二设备执行的应用程序执行）。在第二设备处同样可行的是，可以执行（例如通过用户）从至少部分不同的至少两个所选记录装置集进行的选择，并且关于所期望的所选记录装置集的信息于是可被提供给第一设备。还可能的是，在第二设备处用户（或应用）提供的信息，比如举例来讲关于目标收听效果的信息，被作为所述选择的基础而提供给第一设备。

在任何情况中，选择是基于为记录装置集的记录装置确定的相关性水平，例如基于记录装置记录的音频信号，该音频信号相对于被合并以获得合并后的音频信号的音频信号可以相同或不同。

根据本发明第二方面的第一实施方式，记录装置集是在至少考虑了音频场景中期望的收听位置与所测量/估计的记录装置的位置间的位置关系的情况下，从多个记录装置得到的。对于进一步的细节，这里明确引用对本发明第一方面的第一实施方式的描述。

在本发明第二方面的第一实施方式中，关于所期望的收听位置的信息可以例如在第二设备处从第二设备的用户或从第二设备执行的应用获得。

根据本发明第二方面的第二实施方式，相关性水平在第一设备处被确定并被提供给第二设备。可替换地，相关性水平也可以由另一设备得到并提供给第二设备。

根据本发明第二方面的第三实施方式，记录装置的相关性水平至少基于记录装置记录的音频信号的表示间的相似性分析来确定。对于进一步的细节，这里明确引用对本发明第一方面的第二实施方式的描述。

根据本发明第二方面的第四实施方式，记录装置的相关性水平与记录装置记录的音频信号的表示相对于参考信号的延迟有关。对于进一步细节，这里明确引用对本发明第一方面的第三实施方式的描述。

根据本发明第二方面的第五实施方式，关于所选记录装置集的信息在第二设备处从第二设备的用户或第二设备执行的应用获得。用户可以例如经由用户接口选择记录装置，使得所选记录装置集在第二设备处可用并随后提供给第一设备。可替换地，关于所选记录装置集的信息可以允许对不同的至少两个所选记录装置集之一的标识（例如通过第一设备进行），所述标识可以例如在第一设备处确定和提供，并提供给第二设备。于是，在第一设备处，例如，可产生/引起关于不同的至少两个所选记录装置集的音频信号的各个合并（其可以例如分别是不同目标收听效果的代表），并且第二设备的用户于是可通过提供关于所选记录信号集的信息，来选择哪些合并后的音频信号应当通过第二设备而被接收（例如，根据与所选择的那个所选再现装置集关联的目标收听效果）。同样可行的是，第一设备只产生/引起对所选择的那个所选记录装置集的所选记录装置记录的音频信号的合并。

根据本发明第二方面的第六实施方式，所选记录装置集的所选记录装置选自所述记录装置集，使得对所选记录装置集的所选记录装置记录的音频信号的合并提供目标收听效果。对于进一步的细节，这里明确引用对本发明第一方面的第六实施方式的描述。

根据本发明第二方面的第七实施方式，在第二设备处呈现一个或多个合并后的音频信号。为此，第二设备可以例如包括一个或多个扬声器或耳机。

根据本发明第三方面，公开了一种系统，其包括根据本发明第一方面的第一设备，以及根据本发明第二方面的第二设备。

应该注意到，本发明第一和第二方面的上述描述被认为同样适用于本发明的第三方面，在此对其明确引用。

从此后所提供的详细描述，本发明的这些以及进一步的概念将变得明显，并结合此后所提供的详细描述进行了阐述。

附图说明

附图中示出了：

图1：其中根据本发明实施方式记录音频信号的音频空间的示例；

图2：根据本发明的一种实施方式的系统的示意性框图；

图3：根据本发明的一种实施方式的第一设备的示意性框图；

图4：根据本发明的一种实施方式的第二设备的示意性框图；

图5：根据本发明的一种实施方式有形存储介质的示意性图示；

图6a：根据本发明的一种实施方式的第一设备执行的方法的流程图；

图6b：根据本发明的一种实施方式的第一设备执行的方法的流程图；

图6c：根据本发明的一种实施方式的第一设备执行的方法的流程图；

图7a：根据本发明的一种实施方式的第二设备执行的方法的流程图；

图7b：根据本发明的一种实施方式的第二设备执行的方法的流程图；

图7c：根据本发明的一种实施方式的第二设备执行的方法的流程图；

图8：根据本发明的一种实施方式确定相关性水平的方法的流程图；

图9：根据本发明的一种实施方式的对多个信号分段的互相关的计算的示意性图示；

图10a：具有记录装置集的初始音频场景的示例；

图10b：图10a的音频场景的经过排列和转换的表示；

图10c：为了获得近端收听效果而从图10b中选择的记录装置；

图10d：为了获得远端收听效果而从图10b中选择的记录装置；

图11：指南针信息到角度信息的变换的惯例的示例；以及

图12：具有方向/方位信息的经过排列和转换的音频场景的示例。

具体实施方式

本发明与多装置音频捕获有关。图1中给出了相应的“远程收听”应用场景的示例。

图1描述了音频空间1的一个示例，其中部署了多个记录装置10-1…10-12，以便记录音频场景。所述部署可以是例如任意进行的或根据部署规则（例如根据规则网格）进行的。记录装置10-1…10-12可以包括具有定向波束的麦克风，但同样可行的是，可以在部分或全部记录装置10-1…10-12中使用全向麦克风或任何其他波束形状。在音频空间1中，示出了两个声音活动中心11-1和11-2，它们可以例如被认为代表音频源。为了后文引用方便，还示出了期望的收听位置12以及该期望的收听位置周围的周围区域13。

图2示出了根据本发明的一个示例性实施方式的端到端系统2的示意性框图。系统包括多个记录装置20（对应于图1中的记录装置10-1…10-12）、音频场景服务器21和呈现装置22。记录装置20和音频场景服务器21之间的信息经由传输信道/网络23来交换，而音频场景服务器21和呈现装置22之间的信息经由传输信道/网络24来交换。

于是每个记录装置20都可记录（例如至少暂时连续地）音频场景，例如响应于被触发（例如由音频场景服务器21触发）或响应于对其附近的音频活动的监控来记录，以及可以例如通过基于记录装置20和音频场景服务器21都可用/接入的有线和/或无线数据网络23的上传/上行流，向音频场景服务器21提供一个或多个所记录的音频信号。这种网络的非限制性示例是WLAN、蜂窝通信系统或固定IP网络或其组合。

此外，可通过记录装置20将指示音频信号在哪里被记录以及记录方向/方位的进一步位置信息提供给音频场景服务器21。其中，记录装置可每次记录一个或多个音频信号。于是这些音频信号的记录方向/方位可能不同。位置信息可以例如通过全球导航卫星系统（GNSS）（类似例如全球定位系统（GPS）或GALILEO或GLONASS系统）来获得。可替换地，还可以例如基于三角测量方法来获得位置信息，例如基于接收自具有已知位置的三个或更多源的（音频/无线电）信号。记录方向/方位可以例如获得自指南针、加速计和/或陀螺仪信息。

许多记录装置20在不同但接近的位置记录音频场景是有益的。音频场景服务器21于是可以接收记录装置20记录的音频信号，并可对位置和关联的方向/方位进行追踪。

音频场景服务器21可提供高水平坐标，该坐标对应于被上传/上行流的内容可用于收听的位置。例如，这些高水平坐标可作为地图被提供给呈现装置22的用户，使得用户能够选择期望的收听位置，比如图1中的收听位置12。用户或者例如用户使用的应用于是可负责确定所期望的收听位置，并且关于该期望的收听位置的信息于是可被提供给音频场景服务器21。

音频场景服务器21现在可以基于这个期望的收听位置（见图1中的位置12）和记录装置20的位置（例如图1中的记录装置10-1…10-12），确定哪些记录装置20位于该期望的收听位置附近（例如图1中的记录装置10-6…10-12），并且可以将这些记录装置记录的音频信号合并到合并后的音频信号中，该合并后的音频信号将被转发（经由传输信道/网络24）给呈现装置22用于呈现。

然而，该方法可能有以下缺点：记录装置20的定位（在GPS是大约1到15米的情况下）对于恰当地选择真正在期望的收听点附近的记录装置20而言可能不准确或不够准确。在对记录装置20的错误位置测量/估计的情况下，不是位于期望的收听位置附近的记录装置20的音频信号可能被合并到要由呈现装置22呈现的合并后的音频信号中，和/或实际处于非常接近期望的收听位置的记录装置20的音频信号没有被合并到要由呈现装置20呈现的合并后的音频信号中。

此外，在一些情况下，记录装置20的位置信息可能根本不可用（例如，在室内场景中GNSS通常不能正常工作）。

此外，在不管记录装置20的（准确的）位置信息是否可用的情况下，记录装置20的数量可能非常大，使得对所有这些记录装置20所记录的音频信号的合并可能变得在计算方面要求很高。复杂度可以例如通过随机丢弃记录装置来降低；然而，这可能导致对音频场景合成的非常小的控制以及极有可能导致合并后的音频信号的感性降级。

因而，本发明的实施方式通过确定记录装置的相关性水平引入了对记录装置的排列，相关性水平指示记录装置的感知重要性。至少基于相关性水平来确定所选记录装置集，即，记录装置20的总数的一个子集，并且仅这些所选记录装置记录的音频信号被合并到要由呈现装置22呈现（或存储用于以后的呈现）的合并后的音频信号中。对记录装置的排列（相关性水平确定）使得不同的音频场景合成能够被创建并提供给呈现装置22的用户或呈现装置22上运行的应用。

其中，作为预处理阶段，通过进一步考虑仅仅被认为处于接近所期望的收听位置——根据它们的测量/估计的位置——的那些记录装置20（例如位于图1中收听位置12周围的区域13内的记录装置10-6…10-12），仍然可以减少记录装置20（例如，记录装置10-1…10-12）的数量。然而，该步骤不是必须的。同样可行的是，可以对所有可用的记录装置20执行排列，并且选择于是可基于所有这些记录装置20。

其中，对将被包括到所选记录装置集中的记录装置的选择（基于此，产生用于由呈现装置22进行呈现的合并后的音频信号）可以例如，由音频场景服务器21执行（例如基于目标收听效果（表示具体的音频场景收听方法），这可以例如是预定义的、或选自不同备选的集、或呈现装置22的用户定义的），或者由呈现装置22执行（例如基于目标收听效果，这可以例如是预定义的、或选自不同备选的集、或是呈现装置22的用户定义的），或者由呈现装置22的用户执行。为了完成这点的音频场景21和呈现装置22间的相应信息交换通过图2中的双向箭头示出。还可能的情况是，音频场景服务器向呈现装置22提供多于一个的所选记录装置集（以及相应地不同的收听效果）以便选择。下文将提供关于该选择过程的进一步细节。

排列（对相关性水平的确定）可以例如由音频场景服务器21执行。下文也将提供关于排列过程的进一步的细节。

由音频场景服务器21执行对所选记录装置记录的音频信号进行的合并，并得到一个或多个合并后的音频信号（所谓的“导演版”），该合并后的音频信号经由传输信道/网络（其可以例如至少部分上是基于因特网的）被转发给呈现装置22用于呈现。这些一（多）个合并后的音频信号可以例如是单声道、立体声、双耳或多声道信号，示例不一而足。即使在记录装置通过音频场景服务器21来选择的情况下，相关性水平仍然可被提供给呈现装置22，例如在对于端用户来说音频场景的勘察是可行的情况下，例如为了增强收听效果。

图3是根据本发明的一种实施方式的设备3（在权利要求中表示为“第一”设备）的示意性图示。该设备3可以例如表示图2中的音频场景服务器21，或音频场景服务器21的一部分。设备3尤其被配置为确定或接收所选记录装置集，以及执行或引起对所选记录装置记录的音频信号的合并以获得一个或多个合并后的音频信号。

设备3包括处理器30，该处理器30可以例如被实现为微处理器、数字信号处理器（DSP）、专用集成电路（ASIC），非限制性示例不一而足。处理器30执行存储在程序存储器31中的程序代码，并使用主存储器32作为工作存储器，例如以便至少暂时地存储中间结果，但也存储例如预定义的参数。存储器31和32中的一些或全部也可被包括到处理器30中。存储器31和/或32可以例如被实现为只读存储器（ROM）、随机访问存储器（RAM），非限制性示例不一而足。存储器31和32中的一个或它们两者可以被固定地连接到处理器30或可从处理器30移除，例如以存储卡或棒的形式。

处理器30进一步控制被配置用于接收和/或输出信息的通信接口33。例如，通信接口33可被配置为与图2的音频场景服务器21的其它组件、或与图2的记录装置20、或与图2的传输信道/网络的组件（例如网络节点）交换信息。通信接口33可进一步被配置为与呈现装置22或与传输信道/网络24的组件（例如网络节点）交换信息。

处理器30进一步控制被配置为向设备3的用户（例如向图2的音频场景服务器21的人员控制器）显示信息和/或从这种用户接收信息的可选用户接口34。

图4是根据本发明的一种实施方式的设备4（在权利要求中表示为“第二”设备）的示意性图示。该设备4可以例如表示图2的呈现装置22，或呈现装置22的一部分。设备4尤其被配置为向音频场景服务器21提供关于所选记录装置集的信息或允许记录装置被音频场景服务器21选择以获得所选记录装置集的信息，以及被配置为从音频场景服务器21接收从对所选记录装置记录的音频信号的合并获得的合并后的音频信号。

设备4包括处理器40，该处理器40执行存储在程序存储器41中的程序代码，并使用主存储器42作为工作存储器，例如以便至少暂时地存储中间结果，但也存储例如预定义的参数。对于处理器40和存储器41和42的具体实现，参见对图3的设备3的处理器30和存储器31和32的相应描述。

处理器40进一步控制被配置为接收和/或输出信息的通信接口43。例如，通信接口43可被配置为与图2的呈现装置22的其它组件、或与图2的音频场景服务器21、或与图2的传输信道/网络24的组件（例如网络节点）交换信息。

处理器40进一步控制被配置为向设备4的用户（例如，向图2的呈现装置22的用户）显示信息和/或从这种用户接收信息的用户接口44。

最后，处理器40进一步控制被配置为呈现（例如播放）音频信号尤其是设备4收到的合并后的音频信号的呈现单元45。该呈现单元45可以例如包括一个或多个扬声器或耳机。

设备3和4的组件形成的电路可被实现在单独的硬件中、部分在硬件部分在软件中、或只在软件中，如本说明书的结尾部分所描述的。

图5是根据本发明的一种实施方式的有形存储介质50的示意性图示。该有形存储介质可以例如形成图3的设备3的程序存储器31的至少一部分，或图4的设备4的程序存储器41的至少一部分。该有形存储介质50可例如被实现为RAM或ROM存储器，但同样可以被实现为可移除式存储器，类似例如存储卡或棒。有形存储介质50包括计算机程序51，计算机程序51包括程序代码52。该程序代码可以例如实施将在下文描述的图6a-7c的流程图100-600的方法。

图6a-6c表示根据本发明的各实施方式图3的设备3执行的方法的流程图。

在图6a的流程图100的步骤101中，记录装置被选择以获得所选记录装置集，或者关于所选记录装置集的信息被接收。在步骤102中，于是，对在步骤101中选择或接收的所选记录装置记录的音频信号的合并被执行或引起。

图6b的流程图200针对记录装置由图3的设备3选择这一示例情况完善了图6a的流程图100的处理。

在可选步骤201中，从多个记录装置得到记录装置集。该得到可以例如基于期望的收听位置，该期望的收听位置可以例如已经接收自图2的呈现装置22（例如，呈现装置22上正运行的应用或呈现装置22的用户所期望的收听位置）。于是，例如从图1中示出的多个记录装置10-1…10-12，用在期望的收听位置周围的有限区域13中的记录装置10-6…10-12形成了记录装置10-6…10-12集。但是，如上文所述，该步骤201是可选的，这是因为即使没有位置信息可用或者即使这种信息不应被限制性地使用，按本发明的实施方式执行的排列和选择对于记录装置的任何联合（constellation）都起作用。如果不执行步骤201，则所有可用的记录装置都被认为构成记录装置集。

在步骤202中，关于记录装置集中的记录装置的各相关性水平被确定。这可通过将相似性分析函数应用到记录装置记录的音频信号的表示来执行。

归一化互相关是这种相似性分析函数的一个示例，其在下文的等式（2）中进行了定义，并将在对图8的描述中进行进一步的讨论。

G.C.Carter、A.H.Nutall和P.G.Cable在题为“The SmoothedCoherence Transform（平滑相干变换）”（Proceedings of IEEE，第61卷，第10期，第1497-1498页，1973年10月）中展现了相似性分析函数的一个替代性示例。该参考文献中描述的平滑相干变换是加权互相关的傅里叶变换，其中，对于加权，可使用汉宁钟形函数（Hanning bell function）。如上述参考文献中所解释的那样，平滑相干变换可被用来确定两个信号或过程（或如在本例中，对记录装置所记录的音频信号的表示）之间的延迟。

R.Cusani在题为“Performance of Fast Time Delay Estimators（快速时间延迟估计器的性能）”（IEEE Transactions on Acoustics,Speech,andSignal Processing，第37卷，第5期，第757-759页，1989年5月）中展现了相似性分析函数的又一个可替代性示例。其中，例如，将要被互相关的两个信号中的一个或它们两者被其互相关中的硬限制版本替代。随后可分析得到的函数，以确定将要在下文中参照归一化互相关情况（见对图8的讨论）描述的延迟。

平均幅度差函数（AMDF）是相似性分析函数的又一个可替换性示例，这例如描述在J.Chen、J.Benesty以及Y.Huang的题为“Performance ofGCC and AMDF Based Time Delay Estimation in Practical ReverberantEnvironments（实际反射环境中基于GCC和AMDF的时间延迟估计的性能）”（EURASIP Journal on Applied Signal Processing，第1卷，第25-36页，2005年）中。AMDF对关于信号的不同移位的两个信号之间的差的大小进行分析。于是与AMDF的最小值关联的移位指示两个信号之间的延迟。在这篇文献中，还展现了基于AMDF和互相关的组合的相似性分析函数。例如，通过AMDF的倒数对广义互相关（GCC）函数（例如对应于上述平滑相干变换）进行加权。随后可对得到的函数进行分析，以确定将在下文参照归一化互相关情况（见对图8的讨论）描述的延迟。

回到图6b的流程图200，在步骤203中，接收关于目标收听效果的信息，例如从图2的呈现装置22接收，其中，目标收听效果（也可被称作目标收听体验）可以例如由用户或应用来指定。目标收听效果可以例如被指定为近端或远端收听效果。

在步骤204中，于是，来自记录装置集的记录装置被选择，以获得所选记录装置集。该选择基于在步骤202中确定的相关性水平以及在步骤203中接收的关于目标收听效果的信息。例如，依赖于目标收听效果的选择规则可在该选择中被应用。

在步骤205中，所选记录装置记录的音频信号被合并，以获得一个或多个合并后的音频信号。

在步骤206中，这些合并后的音频信号于是被输出到图2的呈现装置22以用于呈现。

图6c的流程图300针对记录装置由图2的呈现装置22的用户选择并随后由图3的设备3接收这一示例情况完善了图6a的流程图100的过程。

其中，步骤301和302分别对应于图6b的流程图200中的步骤201和202。

在步骤303中，关于为记录装置确定的相关性水平的信息被提供给图2的呈现装置22。在呈现装置22，用户随后可基于该信息执行对记录装置的选择。

在步骤304中，相应地，从图2的呈现装置22接收关于所选记录装置集的信息。

步骤305和306分别对应于图6b的流程图200的步骤205和206。

图7a-7c表示根据本发明的各实施方式图4的设备4执行的方法的流程图。

在图7a的流程图400的步骤401中，关于所选记录装置集的信息，或者允许记录装置被选择以获得所选记录装置集的信息，被提供给图2的音频场景服务器21。在步骤402中，于是，从图2的音频场景服务器21接收通过对所选记录装置记录的音频信号的合并而获得的一个或多个合并后的音频信号。

现在，图7b的流程图500针对记录装置由图3的设备3基于图4的设备4提供的目标收听效果选择这一示例情况完善了图7a的流程图400的过程。因此，流程图500补充了图6b的流程图200。

从而，在步骤501中，这种信息被提供给图2的音频场景服务器21。

在步骤502中，从图2的音频场景服务器21接收一个或多个合并后的音频信号。

在步骤503中，所述一个或多个合并后的音频信号被呈现。

图7c的流程图600针对记录装置由图2的呈现装置22的用户选择并随后通过图3的设备3接收这一示例情况完善了图7a的流程图400的过程。因此，流程图600补充了图6c的流程图300。

在步骤601中，从图2的音频场景服务器21接收关于相关性水平的信息。

在步骤602中，该信息被显示给用户（例如经由设备4的用户接口44，见图4）以便选择，并且在步骤603中，从用户（例如同样经由用户接口44）接收关于所选记录装置集的信息。

在步骤604中，关于所选记录装置集的信息被提供给图2的音频场景服务器21。

步骤605和606分别对应于图7b的流程图500的步骤502和503。

在下文中，将详细解释图6a-7c的流程图中执行的动作。

首先，将描述从多个记录装置（例如图1的记录装置10-1…10-12）对记录装置集（例如图1的记录装置10-6…10-12）的得到（见图6b的流程图200的步骤201和图6c的流程图300的步骤301）。记录装置集可被认为是与期望的收听位置（例如图1的收听位置12）关联的“初始”音频场景。它通过使用与记录装置关联位置估计（例如GNSS信息）确定要被包括到音频场景中的记录装置来形成。例如，这可根据以下步骤来执行：

1.令收听位置为位置（x,y）

2.设定m=0且r=2米

3.找出被估计处于距离期望收听位置r米内且尚未被包括在初始音频场景中的记录装置。针对这些记录装置中的每个记录装置，增加变量m的值，其中变量m指示到目前为止被添加到初始音频场景的记录装置数。

4.如果m<M且r<R,则r增加2米，回到步骤3；否则退出。

（If m<M and r<R

Increase r=r+2 meters

Goto step 3

Else

Exit）。

其中，对于r=2米的选择只表示一种示例性选择，同样可以确定更小或更大的值，例如依赖以下描述的变量R。此外，还应理解到，这里音频场景的圆形也只是用作示例。同样可以使用包括期望的收听点的任何其他区域形状（例如期望规格的矩形或六角形区域）或者包括期望的收听点的任意形状的区域，来确定与收听点关联的音频场景。

变量M指示被允许进入初始音频场景的记录装置的最大数量（记录装置集），且R指示被允许进入初始音频场景的记录装置距离期望的收听位置的最大估计距离。可替换地，例如，在选择中仅考虑记录装置距离期望的收听位置的估计距离，即，在步骤4中只有r的值被考虑，不考虑当前包括在音频场景中的记录装置的数量m。

应该注意到的是，关于记录装置的位置信息可能并非总是可用。例如，对于室内录制而言，GNSS位置信息可能不可用。在该情况中，可以例如通过使用最后已知的GNSS位置（例如，记录装置可每T分钟探测一次位置以保持位置总是被更新）和/或通过使用记录装置的用户在对内容进行上传/上行流时提供给音频场景服务器的额外的元数据信息（例如记录位置：冰球中心，坦佩雷市）来确定估计位置，来形成初始音频场景。一般而言，可替代性或补充位置估计方法可被用于主位置估计方法（例如本例中的GNSS）不能以足够的准确性/可靠性估计位置的情况中。

现在，将参考图8更详细的解释对相关性水平的确定（见图6b的流程图200的步骤202以及图6c的流程图300的步骤302），图8示出了根据本发明用于确定相关性水平的示例性实施方式的流程图700。

在流程图700的步骤701中，对记录装置集的记录装置记录的音频信号的表示被确定。就所涉及的所选记录装置而言，用于确定相关性水平的被记录的音频信号可以与被合并以获得要由图2的呈现装置22呈现的一个或多个合并后的音频信号的那些音频信号相同。不过，也可使用分别在不同时间记录的音频信号。例如，如果在对音频信号的记录已经完成之后，执行对记录装置的选择以便获得所选记录装置集，那么对于相关性水平的确定和合并来说，使用相同的被记录的音频信号是方便的（就涉及的所选记录装置而言）。相反的，如果期望对直播事件进行远程收听，则对相关性水平的确定以及进而对记录装置的选择基于在确定/选择之前被记录的音频信号，而对被记录的音频信号的合并是使用在确定/选择之后被记录的音频信号来执行（例如直播或仅有小延迟）是方便的。

在步骤701中，如果被记录的信号包括多个信道，则例如通过确定信道信号或信道信号的子集的平均，或通过只选择信道信号中的一个信道信号，将信道转换成单个信道表示。这产生了每个记录装置一个相应的对被记录的音频信号的表示。形成该表示可进一步包括：将被记录的音频信号抽取成更低的数据率，以减少后续处理步骤的计算复杂度。例如，可通过对信号进行低通滤波然后选取每个第F个过滤后的样本，来实现抽取。在这种滤波器的一种实施方式中，带通可以例如是大致0.2倍的奈奎斯特频率（也就是，被记录的音频信号的采样率的一半），而抑制频带可大致起始于0.25倍的奈奎斯特频率。在这种实施方式中，滤波器特性从而是F的值被设定为5。

在流程图700的步骤702中，于是参考信号被识别，并且记录装置记录的音频信号的表示相对于该参考信号的延迟被确定。其中，如下文解释的那样，通过分析在步骤701中确定的表示的所有对的互相关，来识别参考信号和获得延迟。在该实施方式中，参考信号是对记录装置记录的音频信号的表示中的一个。

通常，可计算两个信号x和y之间的时间延迟τ_xy，例如，根据下式

τ_{xy} = \arg \max_{d} {φ_{xy} (d)}, - - - (1)

其中，φ_xy是信号x和y之间的归一化互相关，其被定义为：

φ_{xy} (d) = \frac{Σ_{k = 0}^{L - 1} x (k) \cdot y (k + d)}{\sqrt{Σ_{k = 0}^{L - 1} x {(k)}^{2} \cdot Σ_{k = 0}^{L - 1} y {(k)}^{2}}} - - - (2)

其中，L是在其上计算等式（2）的计算窗口的长度。

在本实施方式中，示例性地假定等式（2）的归一化互相关被用作相似性分析函数。然而，如上文所述，作为替代，这里可使用如平滑相干变换、AMDF等替代性相似性分析函数。在AMDF的情况下，不是找到最大化等式（1）的互相关的延迟，而是必须找到最小化AMDF的延迟。

根据本发明的实施方式，为了增加结果的鲁棒性，在信号对x和y的的多个临时位置处计算时间延迟τ_xy，即，使用来自信号对x和y的多个不同分段。这在图9以具有P个不同分段的示例来示意性示出。最后，从计算结果确定信号对间的最终时间延迟。

在步骤702中执行的进程可由下列伪码表示：

1 for n₁=1 to N

2 for n₂=1 to N

3

4 If n₁ equal to n₂

5 Continue to next n₂

6 Reset cr;

7 For r_I=1:nFrameJump:nFrames

8

9 startIdx=(r_I-1)＊frameSize+1;

10 endIdx=startIdx+windowSize＊frameSize-1;

11 blockSize=endIdx-startIdx;

12

13 x₁=iX(n₁,startIdx:endIdx);

14 x₂=iX(n₂,startIdx:endIdx);

15

16 φ_xy(d)=Calculate Equation(2),where

x=x₁;y=x₂;

d=1,…,maxLag;

L=blockSize-maxLag

17

18 cr=cr+φ_xy;

19 End

20

21 Sort entries of cr into decreasing order of values,crIdx contains therespective indices of the sorted values in order to determine maximum ofnormalized correlation and associated time delay（将cr条目排序成值的降序。crIdx包含被排序的值的相应索引，以确定归一化相关的最大值和关联的时间延迟。）

22

23 crAll(n₁,n₂)=cr(1);

24 idxAll(n₁,n₂)=crIdx(1);

25 End

26 End

27

28

cr 2 (n) - Σ_{k = 1}^{N} crAll (n, k),

1≤n≤N

29

30 Sort cr2 into decreasing order of values,crIdx2 contains therespective indices of the sorted values in order to determine maximumoverall correlation and the index determining the associated channel（将cr2排序成值的降序，crIdx2包含被排序的值的相应索引，以确定最大总体相关和确定所关联的信道的索引。）

31

32 refIdx=crIdx2(1);

33 tLag=idxAll(refIdx,1:N);

在伪码中使用的变量如下：N描述用于初始音频场景的记录装置的数量（即，记录装置集的大小）；nFrameJump描述临时位置的“跳大小”（以帧数的形式），其中，在所述临时位置处计算时间延迟；nFrames描述分析中考虑的信号所覆盖的帧的总数（对应于图9中分段数P）；frameSize描述帧的大小；windowSize描述在延迟计算中使用的连续帧的数目；以及矩阵iX包含来自音频场景内每个记录装置的被记录的音频信号的各个表示（矩阵中的每一行包含一个表示），正如在流程图700的步骤701中确定的。

第9-10行确定关于当前表示对的当前计算窗口的开始和结束位置。

第11行确定当前计算窗口的大小。

与当前计算窗口对应的当前表示对的分段在第13-14行被提取。

第16行计算所提取的表示的分段之间的归一化互相关φ_xy（d）。在第18行，将相关φ_xy添加到向量变量cr，cr对不同计算窗口位置处计算的当前表示对的结果进行累加。注意到向量变量cr的maxLag元素在进入第7行开始的循环之前，在第6行被初始化为零。

在第21-24行，变量cr内累加的结果于是被排序成重要性的降序，以识别最大相关值和关联的延迟。作为潜在低复杂性的替代，不是按降序对向量cr进行排序，而是可能足以找到cr中的最大条目以及关联的时间延迟。

在第1-26行中，针对每个表示对完成这些计算，从而crAll(n1,n2)包含关于所有可能的对(n1,n2)的互相关的各个最大值，并且idxAll(n1,n2)包含对其达到了互相关的这些最大值的各个互相关横坐标值/延迟。应该理解，crAll和idxAll两者在伪码被执行之前都被初始化为零。

第28行为每个表示确定相对于所有其他表示的互相关的最大值的和cr2(n)。

在第29-30行中，所累加的相关cr2(n)再次被排序，以查看哪个表示相对于所有其他表示具有最高相关。作为替代，不是对向量cr2的条目进行排序，而是可能足以找到cr2的最大条目（即，最大累加相关）和识别所关联的表示的索引。

在第32行，对应于该表示的记录装置refIdx将作为对于其他记录装置的参考记录装置，并且该参考记录装置的对应的表示将作为参考信号。参考记录装置指示在音频场景中最先收到音频信号的记录装置。在音频场景中只有一个音频源/音频活动中心的情况下，参考记录装置收到的音频信号是该单个音频源/音频活动中心的音频信号。在音频场景中有若干音频源/音频活动中心（如图1中的两个音频活动中心11-1和11-2）的情况下，参考记录装置接收的音频信号可被认为是来自这些音频源/音频活动中心的音频信号的叠加（同样可行的是，这些音频源/音频活动中心可被认为形成单个（较大）音频源/音频活动中心）。剩余的记录装置接收相似（或至少实质上相似）的音频信号，该相似的音频信号只是参考记录装置接收的参考信号的延迟版本。

在音频场景中有单个或多个音频源/音频活动中心的两种情况中，互相关构成了一种有效且鲁棒的方式，用以识别需要合并/下混合的该音频场景的最相关记录装置，尽管在多个音频源/音频活动中心的情况下，音频源/音频活动中心之间的具体细节可能不再是可区分的。多音频源/音频活动中心的改进的方案可以例如，通过对记录装置记录的音频信号进行带通滤波（例如代替仅低通滤波）以及对这些经过带通滤波的信号进行排列来实现。在这种方式中，可以获得相关性水平的多个特定于频带的集，并且基于相关性水平的特定于频带的集，还可获得所选记录装置的特定于频带的多个集以及相应地对记录装置记录的音频信号的特定于频带的多个合并，以便获得用于由图2的呈现装置22呈现的特定于频带的经过合并的音频信号。

返回到上述伪码，最后，在第33行，从idxAll确定其它记录装置的表示相对于参考信号的时间延迟tLag。

因此，作为结果，获得参考记录装置/参考信号的索引refIdx，以及具有其它记录装置记录的音频信号的表示相对于参考信号之间的时间延迟的阵列tLag（而tLag的第一条目被认为是零，并且其中剩余条目被按降序排序）。

在图8的流程图700的步骤703中，基于在步骤702中确定的延迟为记录装置确定相关性水平。

记录装置可以例如根据计算出的时间延迟按如下步骤被组织成不同的重要/相关水平：

1.定义相关性水平的数量K

2.根据增加时间延迟值tLag将记录装置组织到不同的水平

2.1第一个水平包含具有个最小时间延迟的源

2.2第二个水平包含具有接下来个最小时间延迟的源

2.K第K个水平包含具有个最高时间延迟的源

其中，下取整函数|·|将其自变量凑整到下一个最小的整数值。

以下示例示例性示出针对K＝3个不同相关性水平的示例情况的三个步骤：

记录装置 A B C D E F

时间延迟（tLag）15 0 100 150 25 40

记录装置 B A E F C D

经过排序的时间 0 15 25 40 100 150

延迟

Claims

1.一种获得合并后的音频信号的方法，所述方法包括：

通过第一设备选择一个或多个记录装置，所选的一个或多个记录装置基于对所述记录装置记录的音频信号的表示之间的相似性的分析，以及

通过第一设备执行对音频场景中所述所选记录装置记录的音频信号的合并以及通过所述第一设备引起对音频场景中所述所选记录装置记录的音频信号的合并两者之一，以获得用于呈现的一个或多个合并后的音频信号。

2.根据权利要求1所述的方法，其中，所述一个或多个所选的记录装置选自记录装置集，该记录装置集是在至少考虑了所述音频场景中期望的收听位置与所测量/估计的所述记录装置的位置之间的位置关系的情况下，从多个记录装置得到。

3.根据权利要求1所述的方法，其中，所述相似性的分析与所述记录装置记录的音频信号的表示相对于参考信号的延迟有关。

4.根据权利要求3所述的方法，其中，所述参考信号是从所述记录装置记录的所述音频信号的所述表示确定的，所述参考信号被确定为，在所有所述表示中，相对于其它表示展现出相似性分析函数的各个极值之和最大的那个表示。

5.根据权利要求4所述的方法，其中，所述相似性的分析是通过将所述延迟分成分别表示所述记录装置的相关性水平的组来确定的。

6.根据权利要求1所述的方法，包括对所述一个或多个记录装置的所述选择，其中，所述相似性的分析通过所述第一设备来确定。

7.根据权利要求1所述的方法，其中，所述所选记录装置被选择，使得对所述所选记录装置记录的音频信号的合并提供目标收听效果。

8.根据权利要求7所述的方法，其中，所述所选记录装置基于所述记录装置的相关性水平和选择规则被选择，其中，所述选择规则至少依赖于所述目标收听效果并与所述相似性的分析有关。

9.根据权利要求7所述的方法，其中，所述目标收听效果是近端收听效果和远端收听效果之一。

10.根据权利要求7所述的方法，其中，所述目标收听效果选自至少两个预定义的不同目标收听效果的集合。

11.根据权利要求1所述的方法，其中，至少部分不同的至少两个所选记录装置集被从同一记录装置集确定。

12.根据权利要求1所述的方法，进一步包括：

在第二设备处接收所述一个或多个合并后的音频信号，

在收到所述音频场景中所选记录装置记录的所述音频信号的所述合并之前，向所述第一设备提供允许所述记录装置被所述第一设备选择以获得所述所选记录装置的信息。

13.根据权利要求12所述的方法，其中，所述一个或多个所选记录装置选自记录装置集，该记录装置集是在至少考虑了所述音频场景中期望的收听位置与所测量/估计的所述记录装置的位置之间的位置关系的情况下，从多个记录装置得到。

14.根据权利要求13所述的方法，其中，关于所述期望的收听位置的信息是在所述第二设备处从所述第二设备的用户和所述第二设备执行的应用两者之一获得。

15.根据权利要求12所述的方法，其中，所述相似性的分析在所述第一设备处确定，并被提供给所述第二设备。

16.根据权利要求12所述的方法，其中，关于所选记录装置集的所述信息是在所述第二设备处从所述第二设备的用户和所述第二设备执行的应用两者之一获得。

17.根据权利要求16所述的方法，其中，关于所述所选记录装置集的所述信息允许对不同的至少两个所选记录装置集中的一个所选记录装置集进行标识。

18.根据权利要求12所述的方法，其中，所述所选记录装置集中的所述所选记录装置选自所述记录装置集，使得对所述所选记录装置集的所述所选记录装置记录的音频信号的合并提供目标收听效果。

19.根据权利要求18所述的方法，其中，所述所选记录装置集的所述所选记录装置基于选择规则被选择，其中，所述选择规则至少依赖于所述目标收听效果并与所述记录装置的相关性水平有关。

20.根据权利要求18所述的方法，其中，关于所述目标收听效果的信息在所述第二设备处从所述第二设备的用户和所述第二设备执行的应用两者之一获得。

21.根据权利要求18所述的方法，其中，所述目标收听效果是近端目标收听效果和远端目标收听效果之一。

22.根据权利要求18所述的方法，其中，所述目标收听效果选自至少两个预定义的不同目标收听效果的集合。

23.根据权利要求12所述的方法，其中，所述一个或多个合并后的音频信号在所述第二设备处被呈现。

24.一种用于获得合并后的音频信号的第一设备，该第一设备包括：

用于选择一个或多个记录装置的装置，所选的一个或多个记录装置基于对所述记录装置记录的音频信号的表示之间的相似性的分析，以及

用于执行对音频场景中所述所选记录装置记录的音频信号的合并以及引起对音频场景中所述所选记录装置记录的音频信号的合并两者之一，以获得用于呈现的一个或多个合并后的音频信号的装置。

25.根据权利要求24所述的第一设备，其中，所述一个或多个所选的记录装置选自记录装置集，该记录装置集是在至少考虑了所述音频场景中期望的收听位置与所测量/估计的所述记录装置的位置之间的位置关系的情况下，从多个记录装置得到。

26.根据权利要求24所述的第一设备，其中，所述记录装置的所述相似性的分析与所述记录装置记录的音频信号的表示相对于参考信号的延迟有关。

27.根据权利要求26所述的第一设备，其中，所述参考信号是从所述记录装置记录的所述音频信号的所述表示确定的，所述参考信号被确定为，在所有所述表示中，相对于其它表示展现出相似性分析函数的各个极值之和最大的那个表示。

28.根据权利要求26所述的第一设备，其中，所述记录装置的所述相似性的分析是通过将所述延迟分成分别表示所述相似性的分析的组来确定的。

29.根据权利要求24所述的第一设备，其中，所述所选记录装置是在其上将要呈现所述一个或多个合并后的音频信号的第二设备处被选择。

30.根据权利要求29所述的第一设备，其中，所述相似性的分析通过所述第一设备来确定，并被提供给所述第二设备，作为用来选择所选记录装置集的所述所选记录装置的至少部分基础。

31.根据权利要求24所述的第一设备，其中所述一个或多个记录装置被选择，以便在所述第一设备处获得所述所选记录装置，其中，所述相似性的分析通过所述第一设备来确定。

32.根据权利要求24所述的第一设备，其中，所述所选记录装置被选择，使得对所述所选记录装置记录的音频信号的合并提供目标收听效果。

33.根据权利要求32所述的第一设备，其中，所述所选记录装置基于所述相似性的分析和选择规则被选择，其中，所述选择规则至少依赖于所述目标收听效果并与所述相似性的分析有关。

34.根据权利要求32所述的第一设备，其中，所述目标收听效果是近端收听效果和远端收听效果之一。

35.根据权利要求32所述的第一设备，其中，所述目标收听效果选自至少两个预定义的不同目标收听效果的集合。

36.根据权利要求24所述的第一设备，其中，至少部分不同的至少两个所选记录装置集被从同一记录装置集确定。

37.一种用于处理多设备音频捕获的系统，该系统包括根据权利要求24所述的第一设备和第二设备，该第二设备包括：

用于接收一个或多个合并后的音频信号的装置，以及

用于在收到所述音频场景中所选记录装置记录的所述音频信号的所述合并之前，向所述第一设备提供允许所述记录装置被所述第一设备选择以获得所述所选记录装置的信息的装置。

38.根据权利要求37所述的系统，其中，所述一个或多个所选的记录装置选自记录装置集，该记录装置集是在至少考虑了所述音频场景中期望的收听位置与所测量/估计的所述记录装置的位置之间的位置关系的情况下，从多个记录装置得到。

39.根据权利要求38所述的系统，其中，关于所述期望的收听位置的信息是在所述第二设备处从所述第二设备的用户和所述第二设备执行的应用两者之一获得。

40.根据权利要求37至39中任一项所述的系统，其中，所述相似性的分析在所述第一设备处确定，并被提供给所述第二设备。

41.根据权利要求37所述的系统，其中，关于所选记录装置集的所述信息是在所述第二设备处从所述第二设备的用户和所述第二设备执行的应用两者之一获得。

42.根据权利要求41所述的系统，其中，关于所述所选记录装置集的所述信息允许对不同的至少两个所选记录装置集中的一个所选记录装置集进行标识。

43.根据权利要求37所述的系统，其中，所述所选记录装置被选择，使得对所述所选记录装置记录的音频信号的合并提供目标收听效果。

44.根据权利要求43所述的系统，其中，所述所选记录装置基于选择规则被选择，其中，所述选择规则至少依赖于所述目标收听效果并与所述相似性的分析有关。

45.根据权利要求43所述的系统，其中，关于所述目标收听效果的信息在所述第二设备处从所述第二设备的用户和所述第二设备执行的应用两者之一获得。

46.权利要求43所述的系统，其中，所述目标收听效果是近端目标收听效果和远端目标收听效果之一。

47.根据权利要求43所述的系统，其中，所述目标收听效果选自至少两个预定义的不同目标收听效果的集合。

48.根据权利要求37所述的系统，其中，所述一个或多个合并后的音频信号在所述第二设备处被呈现。

49.根据权利要求24所述的设备，进一步包括用户接口和网络接口之一。