CN109417669B

CN109417669B - 用于获得音频信号的装置、方法和计算机程序

Info

Publication number: CN109417669B
Application number: CN201780041471.9A
Authority: CN
Inventors: J·维卡莫; J·维罗莱南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-06-30
Filing date: 2017-06-20
Publication date: 2022-03-04
Anticipated expiration: 2037-06-20
Also published as: CN114360577A; WO2018002428A1; EP3479595A1; US20210266665A1; EP3479595A4; US11575988B2; GB201611377D0; US20190182587A1; CN109417669A; US11044555B2; GB2551780A

Abstract

装置、电子设备、方法和计算机程序，其中所述装置包括：处理电路；存储器电路，该存储器电路包括计算机程序代码，存储器电路和计算机程序代码被配置为，与处理电路一起使装置能执行：获得空间信息，空间信息与从麦克风的第一集合捕获的声场相关；从麦克风的第二集合获得一个或多个信号，其中一个或多个信号与捕获的声场相关；以及，使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号；其中麦克风的第一集合在电子设备内被提供，并且麦克风的第二集合在电子设备外部被提供。

Description

用于获得音频信号的装置、方法和计算机程序

技术领域

本公开的示例涉及用于获得音频信号的装置、方法和计算机程序。具体地，本公开的示例涉及用于获得高质量空间音频信号的装置、方法以及计算机程序。

背景技术

已知包括麦克风和其他组件的电子设备。例如，图像捕获设备可以包括一个或多个相机以及一个或多个麦克风。将麦克风集成到与其他组件相同的电子设备可能会降低可以由麦克风捕获的音频信号的质量。

发明内容

根据一些但并不一定是所有的本公开的示例，可以提供装置，包括：处理电路；存储器电路，该存储器电路包括计算机程序代码，存储器电路和计算机程序代码被配置为，与处理电路一起使装置能执行：获得空间信息，空间信息与从麦克风的第一集合捕获的声场相关；从麦克风的第二集合获得一个或多个信号，其中一个或多个信号与捕获的声场相关；以及，使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号；其中麦克风的第一集合在电子设备内被提供，并且麦克风的第二集合在电子设备外部被提供。

来自麦克风的第一集合的空间信息可以被用于空间地处理从麦克风的第二集合获得的一个或多个信号。

麦克风的第二集合可以被布置以获得比麦克风的第一集合更高质量的音频信号。

麦克风的第二集合可以包括一个或多个比麦克风的第一集合更高质量的麦克风。

麦克风的第二集合可以与降低音频信号的质量的组件分离。

麦克风的第一集合可以以预定的几何形状被布置。

麦克风的第一集合可以在图像捕获设备内被提供。

麦克风的第一集合可以包括比麦克风的第二集合更多的麦克风。

麦克风的第二集合可以靠近电子设备被定位，使得麦克风的第一集合和麦克风的第二集合位于类似的声场中。

空间信息可以使用空间音频捕获过程而被获得。

空间信息可以指示麦克风的第一集合中的每个麦克风在多个频带中的每个频带内的能量比的信息，能量比为时间的函数。

麦克风的第二集合可以被耦合到电子设备。

根据一些但并不一定是所有的本公开的示例，可以提供包括根据任一权前述利所述的装置的电子设备。

根据一些但并不一定是所有的本公开的示例，可以提供方法，包括：获得空间信息，空间信息与从麦克风的第一集合捕获的声场相关；从麦克风的第二集合获得一个或多个信号，其中一个或多个信号与捕获的声场相关；以及，使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号；其中麦克风的第一集合在电子设备内被提供，以及麦克风的第二集合在电子设备外部被提供。

来自麦克风的第一集合的空间信息可以被用于空间处理从麦克风的第二集合获得的所述一个或多个信号。

麦克风的第二集合可以与降低音频信号的质量的组件被分离。

麦克风的第一集合可以以预定的几何形状被布置。

麦克风的第一集合可以被提供在图像捕获设备内。

麦克风的第二集合可以被靠近电子设备定位，使得麦克风的第一集合和麦克风的第二集合位于类似的声场中。

与音频信号相关的空间信息可以使用空间音频捕获过程而被获得。

空间信息可以包括指示麦克风的第一集合中的每个麦克风在多个频带中的每个频带内的能量比的信息，能量比为时间的函数。

麦克风的第二集合可以被耦合到电子设备。

根据一些但并不一定是所有的本公开的示例，可以提供包括计算机程序指令的计算机程序，当计算机程序指令由处理电路执行时，实现：获得空间信息，空间信息与从麦克风的第一集合捕获的声场相关；从麦克风的第二集合获得一个或多个信号，其中一个或多个信号与捕获的声场相关；以及，使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号；其中麦克风的第一集合在电子设备内被提供，以及麦克风的第二集合在电子设备外部被提供。

根据一些但并不一定是所有的本公开的示例，可以提供包括程序指令的计算机程序，该程序指令用于使得计算机来执行上文描述的方法。

根据一些但并不一定是所有的本公开的示例，可以提供物理实体，该物理实体体现如上文描述的计算机程序。

根据一些但并不一定是所有的本公开的示例，可以提供承载如上文描述的计算机程序的电磁载波信号。

根据一些但并不一定是所有的本公开的示例，可以提供装置，包括：用于获得与从麦克风的第一集合捕获的声场相关的空间信息的部件；用于从麦克风的第二集合获得一个或多个信号的部件，其中一个或多个信号与捕获的声场相关；以及用于使用从麦克风的第一集合获得的空间信息来处理从麦克风的第二集合获得的一个或多个信号的部件；其中麦克风的第一集合在电子设备内被提供，以及麦克风的第二集合在电子设备外部被提供。

根据各种但并不一定是所有的本公开的示例，提供如所附权利要求所述的示例。

附图说明

为了更好的理解各种示例，这些示例有助于理解具体描述，现在将仅通过示例的方式来参考附图，其中：

图1图示了装置；

图2图示了电子设备；

图3图示了电子设备；

图4A和图4B图示了电子设备；

图5图示了方法；

图6图示了方法；以及

图7图示了方法。

具体实施方式

附图示出了装置1，它包括：处理电路5；以及包括计算机程序代码11的存储器电路7，存储器电路7和计算机程序代码11被配置为，与处理电路5一起使得装置能执行：获得51与从麦克风的第一集合23捕获的声场相关的空间信息39；从麦克风的第二集合27获得53一个或多个信号，其中一个或多个信号与捕获的声场相关；以及，使用从麦克风的第一集合23获得的空间信息39来处理从麦克风的第二集合27获得的一个或多个信号；其中麦克风的第一集合23被提供在电子设备21内，以及麦克风的第二集合27被提供在电子设备21的外部。

装置1可以被用于获得音频信号。装置1可以被用于获得高质量的空间音频信号。这种装置1可以被用在呈现捕获设备、图像捕获设备、虚拟现实系统或者任何其他合适的电子设备或系统中。

图1示意地图示了可以在本公开的示例中被使用的示例装置1。图1中图示的装置1可以是芯片或芯片集。在一些示例中，装置1可以被提供在电子设备21内。电子设备21可以是呈现捕获设备、图像捕获设备、虚拟现实系统或任何其他合适的电子设备。在一些示例中，装置1可以被提供在电子设备(诸如，处理设备或回放设备)中。

示例装置1包括控制电路3。控制电路3可以提供用于控制电子设备21的部件。控制电路3还可以提供用于执行本公开的示例的方法或者方法的至少一部分的部件。

处理电路5可以被配置为从存储器电路7读取，或向存储器电路7写入。处理电路5可以包括一个或多个处理器。处理电路5还可以包括输出接口和输入接口，数据和/或命令由处理电路5经由输出接口输出，数据和/或命令经由输入接口被输入到处理电路5。

存储器电路7可以被配置为存储包括计算机程序指令(计算机程序代码11)的计算机程序9，当被加载到处理电路5中时，计算机程序9控制装置1的操作。计算机程序9的计算机程序指令提供逻辑和例程，逻辑和例程使装置1能执行图5至图7中图示的示例方法或示例方法的至少一部分。通过读取存储器电路7，处理电路5能够加载并且执行计算机程序9。

在一些示例中，计算机程序9可以包括音频信号处理应用。音频信号处理应用可以被布置以从麦克风的第一集合23获得空间信息39，并且使用该空间信息39来空间地处理45从麦克风的第二集合27获得的一个或多个信号。麦克风的第一集合23可以被提供在电子设备21内，以及麦克风的第二集合27可以被定位在电子设备21外部，从而麦克风的第二集合27获得比麦克风的第一集合23更高质量的音频信号。更高质量的音频信号可以具有更高的信噪比，可以被更好地保护以免受外部噪声(诸如风)的影响，或者可以具有使更好的音频信号能被提供给用户的任何其他参数。

因此，装置1包括：处理电路5；以及包括计算机程序代码11的存储器电路7，存储器电路7和计算机程序代码11被配置为，与处理电路5一起使得装置1至少执行：获得51与从麦克风的第一集合23捕获的声场相关的空间信息39；从麦克风的第二集合获得53一个或多个信号，其中一个或多个信号与捕获的声场相关；以及使用从麦克风的第一集合23获得的空间信息39来处理从麦克风的第二集合27获得的一个或多个信号；其中麦克风的第一集合23被提供在电子设备21内，以及麦克风的第二集合27被提供在电子设备21的外部。

计算机程序9可以经由任何合适的传送机制到达装置1。传送机制可以是例如非暂时性计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或者数字通用光盘(DVD)的记录介质、或者有形地实现计算机程序的制品。传送机制可以是被配置为可靠地转移计算机程序9的信号。装置1可以使计算机程序9的传播或传输能成为计算机数据信号。在一些示例中，计算机程序代码11可以使用无线协议(诸如，蓝牙、蓝牙低功耗、蓝牙智能、6LoWPan(低功率个人局域网上的IPv6)ZigBee、ANT+、近场通信(NFC)、射频识别、无线局域网(无线LAN))或任何其他合适的协议而被传输到装置1。

尽管存储器电路7被图示为图中的单个组件，但是应当理解存储器电路7可以被实现为一个或多个单独的组件，这些组件中的一些或所有组件可以是集成的/可移除的，和/或可以提供永久/半永久/动态/高速缓存存储。

尽管处理电路5被图示为图中的单个组件，但是应当理解处理电路5可以被实现为一个或多个单独的组件，这些组件中的一些或所有组件可以是集成的/可移除的。

对“计算机可读存储介质”、“计算机程序产品”、“有形实施的计算机程序”等或“控制器”、“计算机”、“处理器”等的参考应被理解为不仅涵盖具有不同架构的计算机，诸如单/多处理器架构、精简指令集计算(RISC)和顺序(冯诺依曼)/并行架构，还涵盖专用电路，诸如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)，信号处理设备和其他处理电路。对计算机程序、指令、代码等的参考应当被理解为涵盖用于可编程处理器或固件的软件，诸如，例如硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备、门阵列或可编程逻辑设备等的配置设置。

如本申请使用的，术语“电路”指代以下的所有：

(a)仅硬件电路实现(诸如仅在模拟和/或数字电路中实现)以及(b)电路与软件(和/或固件)的组合，诸如(如适用)：(i)(多个)处理器的组合或者(ii)一起工作以使得装置(诸如移动电话或服务器)来执行各种功能的(多个)处理器/软件(包括(多个)数字信号处理器)、软件、以及(多个)存储器中的一部分，以及(c)电路，诸如需要用于操作的软件或固件的(多个)微处理器或(多个)微处理器的一部分，即使软件或固件不是物理存在的。

该“电路”的定义适用于本申请中(包括任何权利要求中的)该术语的所有使用。作为进一步的示例，如本申请中使用的术语“电路”还将覆盖仅处理器(或多个处理器)或处理器的一部分以及其(或它们的)所附软件和/或固件的实现。术语“电路”还将覆盖，例如并且如果适用于特定权利要求元素，用于移动电话的基带集成电路或应用处理器集成电路，或者服务器、蜂窝网络设备、或其他网络设备中的类似的集成电路。

图2示意地图示了示例电子设备21。电子设备21包括装置1，装置1包括如上文描述的处理电路5和存储器电路7。对应的附图标记被用于对应的特征。除装置1之外，图2的示例电子设备还包括麦克风的第一集合23、相机阵列25以及接口29。应当理解，电子设备21可以包括图2中未示出的其他特征，诸如功率源、制冷组件或者任何其他合适的特征。

图2还图示了麦克风的第二集合27。麦克风的第二集合27被提供在电子设备21外部。图2的示例电子设备21可以被配置为使与捕获的声场相关的空间信息39能被获得。捕获的声场可以包括一个或多个声源。空间信息39可以被用于处理由麦克风的第二集合27获得的一个或多个信号。

麦克风的第一集合23可以包括能够获得音频信号相关的空间信息39的任何部件。麦克风的第一集合23内的麦克风可以包括任何部件，这些部件可以被配置为将声输入信号转换成电输出信号。麦克风的第一集合23可以被耦合到装置1，以使装置1能处理由麦克风的第一集合23检测到的信号31，并且获得与信号31相关的空间信息39。信号31可以与捕获的声场相关。麦克风的第一集合23可以使声场的至少一部分能被捕获。麦克风的第一集合23可以使来自声场中空间采样位置的信号信息能被获得。

麦克风的第一集合23包括多个麦克风。多个麦克风被布置在电子设备21内的不同位置，从而使空间信息39能由麦克风的第一集合23获得。空间信息39可以包括可以被用于由麦克风的第二集合27获得的一个或多个信号33的的空间处理45的任何信息。空间信息39包括指示空间参数(诸如，方向参数)的信息。空间信息可以包括指示捕获的声场的方向性质的信息。在一些示例中，空间信息可以包括指示捕获的声场的方向性的比率或能量参数。该比率或能量参数可以指示捕获的声能量中有多少声能量是方向性的。该比率或能量参数还可以指示捕获的声能量中有多少声能量是非方向性的方向性的。非方向性的声能量可以是漫射声能，漫射声能可以包括混响或其他环境声。该比率或能量参数可以在时间和/或频率中变化。应当理解，方向参数可以在时间和/或频率中变化。

图2的示例电子设备21还包括相机阵列25。阵列25内的相机可以包括能够获得图像的部件。每个相机可以包括图像传感器，该图像传感器可以被配置为将入射在图像传感器上的光转换成电信号以使图像能被产生。图像传感器可以包括，例如数字图像传感器，诸如电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)。

相机阵列25可以包括多个相机。多个相机可以被分布在整个电子设备21中，从而相机阵列25可以获得全景图像或任何其他合适类型的图像。由相机阵列25获得的图像可以被用于呈现应用，虚拟现实应用或任何其他合适的应用。相机阵列25可以位于在电子设备21内从而能够获得高质量图像。电子设备21内的相机的位置可能限制可用于电子设备21内的麦克风的第一阵列23的位置。

在其他示例中，电子设备21可以包括单个相机，该单个相机可以布置以获得全景图像或三维图像或者任何其他合适类型的图像。在其他示例中，电子设备可以包括除相机之外的组件。

相机阵列25可以被布置以获得静止图像和/或视频图像。相机阵列25可以被布置以在与麦克风的第一阵列23获得音频信号相同的时间时获得图像。

相机阵列25可以被耦合到装置1，以使装置1能处理由相机阵列25检测到的图像信号。

接口29可以包括可以使电子设备21能与另一电子设备交换信息的任何部件。在图2的示例中，接口29被布置以使电子设备21能与麦克风的第二集合27交换信息。在一些示例中，接口29可以被布置以使电子设备21能与诸如回放设备或处理设备的远程设备交换信息。

在一些设备中，接口29可以包括有线连接或其他物理连接。在其他示例中，接口29可以包括一个或多个收发器，这些收发器可以实现电子设备21与麦克风的第二集合27之间的无线通信连接。无线通信连接可以是短程无线通信连接或者任何其他合适类型的无线通信连接。

在图2的示例中，提供了麦克风的第二集合27。麦克风的第二集合27可以被提供在电子设备21外部。麦克风的第二集合27被提供在电子设备21的壳体外部，而麦克风的第一集合23被提供在电子设备21的壳体内部。

在图2的示例中，麦克风的第二集合27被耦合到电子设备21。麦克风的第二集合27可以被提供在电子设备21的外部，但是通过有线或其他合适的连接部件而被连接到电子设备21。在这种示例中，麦克风的第二集合27可以被提供在距电子设备21的固定距离处。在这样示例中，有线连接或者其他物理连接可以实现功率从电子设备21被提供到麦克风的第二集合27。在一些示例中，麦克风的第二集合27可以通过浮动安装件而被连接到电子设备21，浮动安装件可以被布置来抑制来自电子设备21的任何振动，该振动可以影响由麦克风的第二集合27捕获的音频信号的质量。在一些示例中，浮动安装件还可以抑制来自其他源的振动，诸如脚步或任何其他环境源。浮动安装件可以包括一个或多个弹簧或任何其他合适的部件。

在其他示例中，麦克风的第二集合27可以与电子设备21分离地被提供。在这样的示例中，麦克风的第二集合27与电子设备21之间不存在物理连接。在这种示例中，电子设备21和麦克风的第二集合27可以经由无线连接交换信息。这可以使麦克风的第二集合27能相对于电子设备21移动。

麦克风的第二集合27被靠近电子设备21提供。麦克风的第二集合27可以被靠近电子设备21地提供，从而麦克风的第一集合23和麦克风的第二集合27位于类似的声场中。麦克风的第二集合27可以使声场的至少一部分能被捕获。麦克风的第二集合27可以使来自声场的信号信息能被获得。麦克风的第二集合27可以被靠近电子设备21地定位，从而麦克风的第一集合23和麦克风的第二集合27检测来自声源47的相同或基本上相同的音频信号。

麦克风的第二集合27可以包括使信号能被获得的任何部件。麦克风的第二集合27内的麦克风可以包括任何部件，这些部件可以被配置为将声输入信号转换成电输出信号。

麦克风的第二集合27可以布置来经由接口29与电子设备21交换信息。这使电子设备21内的装置1能获得与由麦克风的第二集合27捕获的捕获声场相关的一个或多个信号33。然后，装置1可以使用从麦克风的第一集合23获得的空间信息39来处理由麦克风的第二集合27捕获的一个或多个信号33。

麦克风的第二集合27可以包括任何合适数目的麦克风。在一些示例中，麦克风的第二集合27可以包括单个麦克风。在其他示例中，麦克风的第二集合27可以包括两个或多个麦克风。

麦克风的第一集合23可以包括比麦克风的第二集合27更多的麦克风。第一集合23中的麦克风的数目和位置可以被布置，以优化音频信号的空间信息39的获得51。第二集合27中的麦克风的数目和位置可以被优化以获得高质量的音频信号。麦克风的第二集合27不需要被布置来获得空间信息，因为被用于空间处理45的空间信息39从麦克风的第一集合23被获得。

麦克风的第二集合27可以被布置，以获得比麦克风的第一集合23更高质量的音频信号。在一些示例中，麦克风的第二集合27可以被布置来通过与电子设备21分离地定位来获得更高质量的音频信号。在这样的示例中，由麦克风的第一集合23获得的音频信号将检测到由电子设备21的组件制造的噪音，因为第一集合23中的麦克风23被靠近这些组件地定位。例如，诸如相机阵列25、制冷组件(诸如，风扇)或电子设备21的任何其他组件的组件可以生成将由麦克风的第一集合23检测到的噪声。这将使由麦克风的第一集合23捕获的信号31失真。由于麦克风的第二集合27在电子设备21外部，麦克风的第二集合27不检测由这些组件生成的噪声，并且因此，由麦克风的第二集合27捕获的一个或多个信号具有更高的信噪比。

在一些示例中，麦克风的第二集合27可以被布置以获得更高质量的音频信号，因为麦克风的第二集合27可以包括比麦克风的第一集合23更高质量的麦克风。例如，麦克风的第二集合27可以包括与麦克风的第一集合23相比具有更大振膜的麦克风。大的振膜可以在任何捕获的音频信号中提供高信噪比。大振膜的直径可以超过2cm或者任何其他合适的大小，而较小的振膜可以约为1mm。

在一些示例中，麦克风的第二集合27可以被布置以获得更高质量的音频信号，因为第二集合27中的麦克风可以被布置为受到保护而不受可以使得捕获音频信号失真的参数的影响。例如，麦克风的第二集合27可以被屏蔽以保护集合27内的麦克风免于检测风噪声。为麦克风的第一集合23提供这种屏蔽可能是不可行的，因为这种屏蔽可能阻碍通过相机阵列25来获得图像，和/或可能增加电子设备21的复杂度。

在图2的示例中，从麦克风的集合23、25获得信号并且执行空间处理45的装置1被提供在电子设备21内，电子设备21还包括麦克风的第一集合23。应当理解，装置1可以被提供在任何合适的电子设备21中。例如，在一些示例中，装置1可以被提供在远程设备中，诸如服务器、回放设备或者其他处理设备。远程设备可以被布置为接收包括来自麦克风的第一集合的空间信息39的信号，以及包括由麦克风的第二集合27捕获的音频信号的信号。然后，对音频信号的处理中的一些或所有处理可以对于电子设备21和麦克风的第二集合27远程地执行。

图3图示了可以在本公开的一些示例中被使用的电子设备21和麦克风的第二集合27。

在图3的示例中，电子设备21包括呈现捕获设备。呈现捕获设备包括球形或基本上球形的壳体，其具有围绕壳体分布的相机集合25。壳体的其他形状可以在本公开的其他示例中被使用。相机集合25可以被布置为获得全景图像(诸如，360°度图像)或其他合适的图像。

麦克风的第一集合23被提供在电子设备21的球形壳体内。麦克风的第一集合23可以包括任何合适数目的麦克风，这些麦克风使空间信息能被获得。在图3的示例中，电子设备21可以包括八个麦克风。在其他示例中，电子设备21可以包括至少三个麦克风，以使足够的空间信息39能被获得。

在本公开的一些示例中，麦克风的第一集合可以以预定几何形状被布置。预定几何形状可以被固定在电子设备21的壳体内。预定几何形状可以取决于电子设备21以及电子设备21被布置来执行的功能。例如，在图3的示例中，在电子设备21被布置用于呈现捕获的情况下，麦克风的第一集合23可以包括以立方体几何形状被布置的八个麦克风。麦克风可以被提供在立方体的每个角上。其他的几何形状可以在本公开的其他示例中被使用。在图3的示例中，预定几何形状可以被布置用于呈现捕获。预定几何形状可以在本公开的其他示例中被布置用于其他功能。

麦克风的第一集合23内的麦克风可以小型和/或低成本麦克风。这可以减少电子设备21内麦克风所需的空间量。这还可以将电子设备21的成本保持为最小。

在图3的示例中，麦克风的第二集合27与电子设备21分离地提供。麦克风的第二集合27可以包括比麦克风的第一集合23更少的麦克风，因为麦克风的第二集合27不需要获得空间信息39。在图3的示例中，麦克风的第二集合27包括两个麦克风。在本公开的其他示例中，其他数目的麦克风可以被提供。例如，在一些示例中，麦克风的第二集合27可以仅包括一个麦克风。在麦克风的第二集合27仅包括单个麦克风的示例中，可以对由单个麦克风捕获的音频信号使用解相关处理，以合成空间非相干性。如果两个或多个麦克风被提供在第二集合27中，则可能并不需要解相关处理。在一些示例中，优化算法可以被用来代替解相关处理。

麦克风的第二集合27被布置为获得高质量的音频信号。高质量的音频信号可以具有高信噪比。高质量音频信号可以具有与由麦克风的第一集合23获得的信号相比的高信噪比。

在一些示例中，麦克风的第二集合27内的麦克风可以包括高质量的麦克风，诸如AKG C414 XLS。这些麦克风可以具有为88dB的信噪比。在麦克风的第一集合23内被提供的麦克风可以包括小型麦克风，针对相同的音频信号电平，该小型麦克风具有为65dB的信噪比。即使不考虑诸如来自电子设备21中其他组件的噪声的因素，用户也可清楚地听出信噪比中的差异。

麦克风的第二集合27被足够靠近电子设备21地定位，从而麦克风的第一集合23和麦克风的第二集合27检测相同的音频信号。在一些示例中，麦克风的第二集合27可以被定位在电子设备21的0.3m至0.8m内。其他距离可以在本公开的其他示例中被使用。

麦克风的第二集合27可以相对于电子设备21被定位在任何合适的位置处。麦克风的第二集合27可以相对于电子设备21而被定位，使得麦克风的第二集合27不阻碍电子设备21内的相机阵列25。在图3的示例中，麦克风的第二集合27被定位在电子设备21下方。在其他示例中，麦克风的第二集合27可以相对于电子设备21被定位在不同的位置。

在图3的示例中，麦克风的第二集合27包括两个麦克风。使用两个麦克风可以使适用于在耳机中回放的信号能被捕获。使用两个麦克风可以实现对由两个麦克风的捕获的两个音频通道执行双耳合成。使用两个麦克风可以避免对使用解相关器的需要，如果仅一个麦克风被使用则可能需要解相关。使用解相关器可能对一些音频信号的感知质量有负面影响。在一些示例中，第二集合27可以包括多于两个麦克风，然而在本公开的一些示例中，由附加的麦克风获得的附加信息可能不提供任何附加的有用信息。

在图3的示例中，由麦克风的第一集合23捕获的信号31与由麦克风的第二集合27捕获的信号33被同步35。由于麦克风的两个集合23、27被彼此靠近地定位，因此捕获的信号31、33可以表示来自相同声源47的音频信号。

使用任何合适的过程，两个捕获的信号31、33被暂时同步以确保对由麦克风的第二集合27获得的信号33的空间处理是稳健的。捕获信号31、33的同步可以由电子设备21内的装置1执行。

在图3的示例中，对由麦克风的集合23、27捕获的信号31、33执行同步。在其他示例中，同步可以在处理的不同阶段处被执行。例如，在一些示例中，可以对由麦克风的第二集合27捕获的一个或多个信号以及从信号31获得的空间信息39执行同步，信号31由麦克风的第一集合23捕获。在一些示例中，可以对由麦克风的第二集合27捕获的一个或多个信号以及从信号31获得的空间信息39执行同步，信号31由麦克风的第一集合23获得。

任何合适的技术可以用于同步。在一些示例中，同步可以包括使用离线脉冲响应测量，通过使用在由相应集合23、27捕获的信号31、33之间的相关测量，通过使用在音频捕获期间可以被附接到信号31、33的时间码，通过手动同步或使用任何其他合适的技术。

由麦克风的第一集合23捕获的信号31可以使用任何合适的空间音频捕获(SPAC)技术而被处理37，以获得与音频信号相关的空间信息39。被获得的空间信息39可以包括方向信息。空间信息39可以包括指示捕获的声场的方向性质。在一些示例中，空间信息可以包括指示捕获的声场的方向性的比率或能量参数。该比率或能量参数可以指示捕获的声能量中有多少声能量是方向性的。该比率或能量参数可以在时间和/或频率中变化。该信息可以对应于人类听觉如何感知空间音频信息。因此空间信息39可以实现准确地空间声音再现。

应当理解，任何合适的技术可以被用于从由麦克风的第一集合23捕获的信号31获得空间信息39。在一些示例中，技术可以包括定向音频编码(DirAC)。定向音频编码可以包括在时间和频率中自适应地估计声音强度矢量。然后，方向参数可以从声音强度矢量被获得。定向音频编码还可以包括基于关于时频间隔中的声场能量的声场强度的绝对值来估计比率参数。

在一些示例中，用于获得空间信息39的技术可以包括谐波平面波展开(HARPEX)。谐波平面波展开可以包括针对多个时频间隔中的每个时频间隔估计两个同时的到达方向。在这种示例中，基于声场强度的绝对值的比率参数、或其他类似的参数并不像定向音频编码中那样被估计。在使用谐波平面波展开的示例中，这些信息在在两个到达方向内是固有的，因为到达方向将在方向能量小的时频中快速波动。

用于获得空间信息39的其他技术可以在本公开的其他示例中被使用。

由麦克风的第二集合27捕获的一个或多个信号33与捕获的声场相关。由麦克风的第二集合27捕获的一个或多个信号33可以被处理41以获得高质量的音频信号43。高质量的音频信号43可以具有高信噪比，但是可能不包括使空间音频信号能被再现的足够信息。处理41可以包括均衡、动态处理或者任何其他合适的处理。在一些示例中，可以省略由麦克风的第二集合获得的信号33的处理41。

高质量的音频信号43使用空间信息39而被空间处理45。在一些示例中，高质量的音频信号43可以由电子设备21内的装置1来空间地处理。在其他示例中，高质量的音频信号43可以由远程装置1来空间地处理。

在空间处理45由远程装置1执行的示例中，电子设备21可以被布置为向远程装置1传输空间信息39和高质量的音频信号43。在这样的示例中，在高质量的音频信号43被传输之前，空间信息39可以与高质量的音频信号43相关联。高质量音频信号43与空间信息39之间的关联将两个信号中的信息进行组合，使得它们可以被一起传输和/或存储。空间信息43以及高质量音频信号43可以被编码以及传输到远程装置1。任何合适的技术可以被用于编码以及由远程装置1进行的后续解码。

在图3的示例中，仅来自由麦克风的第一集合23捕获的信号31的空间信息39被需要。信号31中的其他信息不被需要。在这样的示例中，一旦空间信息39已经被获得，就不使用由麦克风的第一集合23捕获的信号31。这可以使由麦克风的第一集合23捕获的信号31在空间信息39已经被获得之后被丢弃。在这种示例中，由麦克风的第一集合捕获的信号31不需要被存储在存储器电路7中和/或被传输到远程装置1。

空间处理45可以包括任何处理，这些处理将空间信息39与高质量音频信号43组合以提供高质量的空间音频信号79。高质量空间音频信号79可以包括由麦克风的第二集合27捕获的信号33的高信噪比、以及由由麦克风的第一集合23捕获的信号31的空间信息39指示的空间性质两者。

任何合适的技术可以被用于空间处理45。在一些示例中，空间处理45可以包括最小二乘优化混合和解相关技术。这种技术可以处理多个频带中的每个频带中的高质量音频信号43的空间协方差矩阵。该技术可以包括估计输入信号协方差矩阵以及制定混合/解相关规则来处理高质量音频信号43的多个频带中的每个频带。这获得指示所需空间特性的目标协方差性质。

在一些示例中，空间处理45可以包括将高质量音频信号43的频带划分成方向性分量和非方向性分量。来自可以使用定向音频编码技术而被获得的空间信息39的比率参数可以被用于划分高质量的音频信号43。然后，通过使用幅度平移、头部相关传输函数(HRTF)或任何其他合适的技术，方向性分量可以被处理到由空间信息39确定的方向。非方向性分量可以被处理为空间非相干的。

高质量的空间音频信号79可以被提供给音频输出设备，诸如扬声器、耳机或任何其他合适的输出设备。

在一些示例中，空间处理45可以由电子设备1内的装置1来执行。在其他示例中，空间处理可以由远程设备内的装置1来执行。在这样的示例中，由电子设备21的装置1获得的信号被编码以及被传输到远程设备，用于处理。信号可以使用任何合适的处理而被编码，诸如音频编码(AAC)或任何其他合适的技术。在一些示例中，由麦克风的第二集合27捕获的信号33可以被编码和传输。由麦克风的第一集合23获得的空间信息39还可以被量化和编码，并且与由麦克风的第二集合27捕获的编码信号33相关联。在一些示例中，空间信息39可以被提供作为编码信号33内的元数据。在一些示例中，从电子设备21获得的图像信息也可以被包括在编码信号33中。

图4A和图4B图示了电子设备21和麦克风的第二集合27的不同布置。在图4A和图4B的示例中，电子设备21可以包括图像捕获设备，以及麦克风的第二集合27可以包括在上文参考图3被描述的两个高质量的麦克风。其他电子设备21和麦克风的集合23、27可以在本公开的其他示例中被使用。

在图4A和图4B的示例中，不同的距离被提供在电子设备21与麦克风的第二集合27之间。电子设备21与麦克风的第二集合27之间的距离可以依赖于电子设备21与声源的接近度，或者电子设备21与捕获的声场中的一个或多个声源47之间的期望距离。

在图4A和图4B的示例中，声源47是人。其他声源47可以在本公开的其他示例中被使用。

在图4A的示例中，电子设备21与麦克风的第二集合27可以位于远离声源47的位置。该布置可以在大房间中出现，诸如剧院或音乐厅，其中电子设备21可以位于远离声源47数十米处。由于电子设备21和麦克风的第二集合27位于远离声源47的位置，因此大的间隔可以在电子设备21与麦克风的第二集合27之间被提供。这仍然可以使麦克风的第一集合23和麦克风的第二集合27能基本上检测到来自相同声源47的相同音频信号。在图4A的示例中，在电子设备21与麦克风的第二集合27之间的距离d₁可以是若干米。

在图4B的示例中，电子设备21和麦克风的第二集合27位于靠近声源47的位置。该布置可以在小房间中出现，诸如会议室，其中电子设备21可以位于声源47的若干米内。应当理解，在其他布置中电子设备21可以位于更靠近声源47的位置。

由于电子设备21和麦克风的第二集合27位于靠近声源47的位置，因此小的间隔可以在电子设备21与麦克风的第二集合27之间被提供，以便使麦克风的第一集合23和麦克风的第二集合27能基本上检测到相同的音频信号。在图4B的示例中，在电子设备21与麦克风的第二集合27之间的距离d₂可以约为0.3m。

应当理解，电子设备21与麦克风的第二集合27的其他间隔可以在本公开的其他示例中被使用。在一些示例中，在电子设备21与麦克风的第二集合27之间的距离可以是可调整的，从而用户可以相对于电子设备21移动麦克风的第二集合27。这可以使用户能根据电子设备21和声源47的相对位置来改变相对位置。在其他示例中，电子设备21与麦克风的第二集合27之间的距离可以是固定的。在这样的示例中，电子设备21可以被优化，以用于在距声源47的某些距离处获得图像和音频。

图5图示了根据本公开的示例的方法。该方法可以使用如上文描述的装置1和电子设备21而被实现。在一些示例中，该方法可以使用如上文描述的电子设备21内的装置1而被实现。在其他示例中，该方法可以由对于麦克风集合23、27被远程提供的装置1实现。

该方法包括，在框51处，获得与从麦克风的第一集合23捕获的声场相关的空间信息39。该方法还包括，在框53处，从麦克风的第二集合27获得一个或多个信号，其中一个或多个信号与捕获的声场相关，以及使用从麦克风的第一集合23获得的空间信息39来处理从麦克风的第二集合27获得的一个或多个信号。麦克风的第一集合23被提供在电子设备21内，以及麦克风的第二集合27被提供在电子设备21外部。

图6图示了方法，该方法可以被用于处理由麦克风的第一集合23捕获的信号31以获得与音频信号相关的空间信息39。该方法可以在图3的框37处被执行。在图6的方法被执行之前，由麦克风的第一集合23捕获的信号31与由麦克风的第二集合27捕获的信号33被同步。

图6的示例方法可以由电子设备21的装置1执行。在其他示例中，由麦克风的第一集合23捕获的信号31可以被提供给远程装置1，以使远程装置1能执行该方法或该方法的至少一部分。

在框61处，由麦克风的第一集合23捕获的信号31被装置1接收。在图6的示例中，信号31可以以数字形式被提供。在图6的示例中，脉冲编码调制(PCM)被执行以将由麦克风捕获的模拟信号转换成数字形式。其他技术可以在本公开的其他示例中被使用。

在框63处，信号31被分解成多个频带。信号31可以使用任何合适的部件而被分解成多个频带。在图6的示例中，滤波器组被用于将信号31分解成频带。滤波器组可以包括短时傅里叶变换(STFT)、复调制正交镜像滤波器(QMF)组或任何其他合适的部件。

在框65处，多个频带中的每个频带的随机性质被估计。随机性质可以被用于获得空间信息39。

在图6的示例方法中，球面谐波变换也可以在框65处被执行。球面调谐变换可以包括麦克风信号预处理应用，该应用将由麦克风的第一集合23捕获的信号31的多个频带变换成球面谐波，诸如B-格式(B-format)信号。B-格式信号可以包括四个球面谐波信号。这四个球面谐波信号可以包括全向信号，以及彼此正交组织的三个八字形信号。三个八字形信号可以与x轴、y轴以及z轴对齐。其他方向格式信号可以在本公开的其他示例中被使用。

在图6的示例中，方向格式信号被用于估计短时随机性质。任何合适的技术可以被用于估计短时随机性质。在一些示例中，技术可以包括制定全向信号关于八字形信号中的每个八字形信号的互相关。互相关的结果是声场强度矢量，声场强度矢量在诸如定向音频编码的技术中被使用。

针对每个频带以及针对多个不同的时间间隔，短时随机性质可以被估计。平均算子可以在不同的频率间隔和/或时间间隔上被使用。

在框67处，一旦短时随机估计已经被获得，空间信息39被获得。在图6的示例中，模型参数估计被用于获得来自短时随机估计的空间信息39。空间信息39可以包括到达方向，直接对总能力比率以及任何其他合适的信息。到达方向参数指示到达声音的方向，以及直接对总比率指示声音能量的比例是方向性的。其他参数可以在本公开的其他示例中被使用。例如，参数可以包括诸如直接对环境比率或环境对总比率的信息。针对频带中的每个频带，空间信息39可以被获得。

空间信息39可以被存储在装置1的存储器电路7中，从而空间信息39可以被用于空间处理45。在一些示例中，空间信息39可以被传输到另一电子设备，以使空间处理45能被另一电子设备执行。

图7图示了可以被用于空间处理由麦克风的第二集合27捕获的信号33的方法。该方法可以在图3中的块45处被执行。在图7的方法被执行之前，信号33被麦克风的第二集合27捕获，并且与由麦克风的第一集合23捕获的信号31被同步。

图7的示例方法可以由电子设备21的装置1执行。在其他示例中，由麦克风的第二集合27获得的信号33可以被提供给远程装置1，以使远程装置1能执行该方法或该方法的至少一部分。

在框71处，由麦克风的第二集合27捕获的信号33被装置1接收。在图7的示例中，信号33可以以数字形式被提供。在图7的示例中，脉冲编码调制(PCM)被执行以将模拟信号转换成数字形式。其他技术可以在本公开的其他示例中被使用。

在框73处，信号33被分解成多个频带。信号33可以使用任何合适的部件而被分解成多个频带。在图7的示例中，滤波器组被用于将信号33分解成频带。滤波器组可以包括短时傅里叶变换(STFT)、复调制正交镜像滤波器(QMF)组或任何其他合适的部件。

在框75，频带中的每个频带使用从麦克风的第一集合23获得的空间信息39而被空间地处理。

在一些示例中，用户头部的定向也可以被用于空间处理由麦克风的第二集合29捕获的信号33的频带。在这样的示例中，用户头部位置的信息指示在框75处被接收。用户头部位置的信息指示可以被用于旋转空间信息39内的方向参数，使得这些方向参数对应于用户头部的当前位置。用户头部位置的信息指示可以从头戴式显示器或任何其他合适设备被获得。将方向参数考虑为矢量，并且使用旋转矩阵或任何其他合适处理，旋转矩阵或任何其他合适处理可以被用于使空间信息39的方向参数能对应于用户头部的当前位置。

任何合适的技术可以被用于空间处理。在一些示例中，空间处理可以包括基于协方差矩阵的技术。在这种示例中，针对输入频带的混合规则可以被制定，使得输出信号具有由空间信息39确定的方向性质。混合规则可以针对输出频带中的每个输出频带而被确定。

在框77处，经空间处理的信号被变换成时域信号。经空间处理的信号可以使用逆滤波器组或任何其他合适的技术而被变换到时域中。

这提供了高质量的空间音频信号79。高质量的空间音频信号79使用由麦克风的第二集合27捕获的信号33的高信噪比，以及从由麦克风的第一集合23捕获的信号31获得的空间信息39。高质量的音频信号79可以被提供给输出设备，诸如用于向用户回放的扬声器、耳机。

本公开的示例提供了用于提供高质量的空间音频信号79的装置1、电子设备21和方法。在本公开的示例中，空间信息39源自麦克风的第一集合23，高质量的音频信号43源自麦克风的第二集合27。由于麦克风的不同集合23、27可以被布置来获得不同的信息，因此不同的集合23、27可以针对特定目的而被优化。例如，麦克风的第一集合23内的麦克风的数目和位置可以被优化，以使空间信息39能被获得；同时第二集合27中的麦克风的参数可以被优化以使高质量的音频信号43能被捕获，但是不需要被布置来获得空间信息39。

本公开的示例还使高质量的麦克风能被使用在麦克风的第二集合27中。高质量的麦克风可以被用于记录偶尔出现的静音或非常低的信号电平时段的音频信号。这可以是本公开的示例能被用于获得来自不同类型的声源47的高质量空间音频信号79。例如，麦克风的第二集合可以适用于获得古典音乐或其他类似声源47的高质量记录。

本公开的示例还允许麦克风的第二集合27被保护免受诸如风的环境参数的影响。针对电子设备21被用于捕获户外场景的图像的实施例，这可以是有用的，因为可能无法保护麦克风的第一集合23免受这些参数的影响。

由于麦克风的第二集合27被提供在电子设备21的外部，因此这可以使不同类型的麦克风与相同的电子设备21被一起使用。例如，这可以使用户能使用第二集合27内的第一类型的麦克风来记录来自第一声源47的音频，并且使用第二不同类型的麦克风来记录来自第二声源47的音频。不同类型的麦克风可以被优化以用于捕获来自不同类型的声源47的不同类型的音频信号。

还由于麦克风的第二集合27被提供在电子设备21的外部，因此这可以使用户能选择用于麦克风的第二集合27的方向拾取模式。例如，用户可以选择方向拾取模式使得来自特定方向的声音被衰减。这可以使来自电子设备21或其他噪声源的声音能被衰减，使得麦克风的第二集合27可以提供更高的信噪比。

本文档中使用的术语“包括”具有包含性而非排他性的意义。即，任何涉及的X包括Y指示X可以仅包括一个Y或者可以包括多于一个Y。如果意在使用具有排他性含义的“包括”，则在上下文中将通过提及“仅包括一个......”或通过使用“由......组成”来表明。

在该简要描述中，已经参考了各种示例。与示例相关的特征或功能的描述指示那些特征或功能存在于该示例中。文本中术语“示例”或“例如”的使用表示，无论是否明确说明，这些特征或功能至少在所描述的示例中存在(无论是否作为示例被描述)，并且它们可以但不一定存在于某些或所有其他示例中。因此“示例”、“例如”或者“可以”指代示例类中的特定实例。实例的性质可以是仅该实例的性质或者是类的性质或者类的子类的性质，子类包括类中的实例中的一些但不是所有。因此，隐含地公开了参考一个示例而不是参考另一示例描述的特征，在可能的情况下可以在该其他示例中被使用，但不一定必须在该其他示例中被使用。

尽管本公开的示例已经在前述段落中参考各种示例而被描述，但是应当理解，可以对给出的示例进行修改而不脱离所要求保护的本发明的范围。例如，在上文描述的示例中，连接可以被提供以实现信息在电子设备21与麦克风的第二集合27之间被交换。在其他示例中，可能不需要连接，因为电子设备21和麦克风的第二集合27可以被布置为利用远程设备交换信息。远程设备可以执行对由麦克风的集合23、27捕获的信号31、信号33的处理。信号一被远程设备接收到，处理就可以被实时地执行。在其他示例中，信号31、信号33可以被远程设备存储，并且处理可以在稍后被执行。

，除了明确描述的组合之外，前述描述中描述的特征可以被组合地使用。

尽管已经参考某些特征描述了功能，但是这些功能可以通过其他特征而被执行，无论是否被描述。

尽管已经参考某些实施例描述了特征，但是这些特征也可以存在于其他实施例中，无论是否被描述。

尽管在前面的具体实施方式中努力引起对本发明的被认为是特别重要的那些特征的关注，但是应当理解，申请人要求保护关于上文提及和/或在附图中示出的任何可获得专利的特征或特征的组合，无论是否对其进行了特别强调。

Claims

1.一种装置，包括：

处理电路；以及

存储器电路，所述存储器电路包括计算机程序代码，所述存储器电路和所述计算机程序代码被配置为与所述处理电路一起使得所述装置：

获得与捕获的声场相关的空间信息，其中，所捕获的声场的至少一部分由麦克风的第一集合捕获，其中，所述空间信息是通过处理由所述麦克风的第一集合检测到的信号而获得的，并且包括方向性的声音能量的比例的指示；

从麦克风的第二集合获得一个或多个信号，其中，所述一个或多个信号与所捕获的声场相关；以及

使用从所述麦克风的第一集合获得的所述空间信息来处理从所述麦克风的第二集合获得的所述一个或多个信号；

其中，所述麦克风的第一集合在电子设备内被提供，并且所述麦克风的第二集合在所述电子设备外部被提供。

2.根据权利要求1所述的装置，其中，来自所述麦克风的第一集合的所述空间信息被用于空间地处理从所述麦克风的第二集合获得的所述一个或多个信号。

3.根据权利要求1所述的装置，其中，所述麦克风的第二集合被布置以获得比所述麦克风的第一集合更高质量的音频信号。

4.根据权利要求1所述的装置，其中，所述麦克风的第二集合包括一个或多个比所述麦克风的第一集合更高质量的麦克风。

5.根据权利要求1所述的装置，其中，所述麦克风的第二集合与降低所获得的一个或多个信号的质量的组件分离。

6.根据权利要求1所述的装置，其中，所述麦克风的第一集合以预定的几何形状被布置。

7.根据权利要求1所述的装置，其中，所述麦克风的第一集合在图像捕获设备内被提供。

8.根据权利要求1所述的装置，其中，所述麦克风的第一集合包括比所述麦克风的第二集合更多的麦克风。

9.根据权利要求1所述的装置，其中，所述麦克风的第二集合靠近所述电子设备被定位，使得所述麦克风的第一集合和所述麦克风的第二集合位于类似的声场中。

10.根据权利要求1所述的装置，其中，所述空间信息是使用空间音频捕获过程而获得的。

11.根据权利要求1所述的装置，其中，所述空间信息包括指示所述麦克风的第一集合中的每个麦克风在多个频带中的每个频带内的能量比的信息，所述能量比为时间的函数。

12.根据权利要求1所述的装置，其中，所述麦克风的第二集合被耦合到所述电子设备。

13.一种电子设备，包括根据权利要求1所述的装置，其中，所述电子设备还包括：输出接口、输入接口、所述麦克风的第一集合，并且所述电子设备被配置为与所述麦克风的第二集合交换信息。

14.一种方法，包括：

15.根据权利要求14所述的方法，其中，来自所述麦克风的第一集合的所述空间信息被用于空间地处理从所述麦克风的第二集合获得的所述一个或多个信号。

16.根据权利要求14所述的方法，其中，所述麦克风的第二集合被布置以获得比所述麦克风的第一集合更高质量的音频信号。

17.根据权利要求14所述的方法，其中，所述麦克风的第二集合包括一个或多个比所述麦克风的第一集合更高质量的麦克风。

18.根据权利要求14所述的方法，其中，所述麦克风的第二集合靠近所述电子设备被定位，使得所述麦克风的第一集合和所述麦克风第二集合位于类似的声场中。

19.根据权利要求14所述的方法，其中，所述空间信息包括指示所述麦克风的第一集合中的每个麦克风在多个频带中的每个频带内的能量比的信息，所述能量比为时间的函数。

20.一种计算机可读存储介质，在其上存储计算机程序指令，当所述计算机程序指令由处理电路执行时实现：

获得与捕获的声场相关的空间信息，其中，所捕获的声场的至少一部分利用麦克风的第一集合捕获，其中，所述空间信息是通过处理由所述麦克风的第一集合检测到的信号而获得的，并且包括方向性的声音能量的比例的指示；