CN107925712B

CN107925712B - 捕获声音

Info

Publication number: CN107925712B
Application number: CN201680046025.2A
Authority: CN
Inventors: M·维莱莫; M-V·莱蒂南; K·奥茨坎
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2015-07-08
Filing date: 2016-07-05
Publication date: 2021-08-31
Anticipated expiration: 2036-07-05
Also published as: US20180213309A1; EP3320692B1; CN107925712A; US11838707B2; GB2542112A; GB201513198D0; GB201511949D0; EP3320692A1; EP3320677A1; EP3320692A4; GB2540175A; WO2017005978A1; US11115739B2; CN107925815B; WO2017005977A1; EP3320677B1; US20180206039A1; US10382849B2; EP3320677A4; US20210368248A1

Abstract

一种装置，包括：主体；多个麦克风，该多个麦克风相对于主体以预定的几何形状被布置，使得该装置被配置为从基本上主体周围的所有方向捕获声音以针对所捕获的声音产生方向和环境信息；以及用于处理来自多个麦克风的信号的电子器件。

Description

捕获声音

技术领域

本申请涉及捕获用于音频信号的空间处理的声音以实现音频信号的空间再现。

背景技术

空间音频包括捕获和处理音频信号，以便基于声场的方向信息和环境信息提供对音频内容的感知。空间处理可以在诸如空间声音再现的应用内被实现。空间声音再现的目的是再现声场的空间方面的感知。这些包括声源的方向、距离和大小，以及周围物理空间的属性。

然而，为了空间处理和后续再现而捕获声音带来了某些问题。例如，某种感兴趣的声音可能根本没有被捕获，或者以非自然的方式被捕获。声音捕获设备可能需要操作人员将它们指向感兴趣的声音内容。由操作人员或以其他方式对设备的操纵(例如，转动)可能导致不期望的干扰信号。操作员也可能导致声影。

本文中描述的示例旨在解决这些问题中的至少一些问题。

发明内容

根据一方面，提供了一种装置，包括：主体；多个麦克风，该多个麦克风相对于主体以预定的几何形状被布置，使得该装置被配置为从基本上主体周围的所有方向捕获声音以针对所捕获的声音产生方向和环境信息；以及用于处理来自多个麦克风的信号的电子器件。

根据另一方面，提供了一种用于捕获声音的方法，包括：通过相对于捕获装置的主体以预定的几何形状定位的多个麦克风从基本上主体周围的所有方向捕获声音，以及针对所捕获的声音产生方向和环境信息。

根据更详细的方面，麦克风被布置为使得预定义的最小数目的麦克风从任何方向是可见的。可以布置至少八个麦克风，使得来自任何方向的声音被这些麦克风中的至少四个麦克风捕获。

可以提供多个第二类型的传感器。第二类型的传感器可以包括相机和/或运动传感器。几何形状和/或形成几何形状的麦克风的数目取决于第二类型传感器的位置和/或数目。

主体可以具有基本上球形的外部形状。

麦克风可以被对称地布置在主体周围。

麦克风可以相对于主体以相同的方式被布置，使得每个麦克风以相同的方式捕获声音。麦克风也可以相对于电子器件以相同的方式被布置，使得来自每个麦克风的声音信号受到由该装置内的其他组件和/或延迟导致的类似的干扰。

麦克风可以被布置为使得在使用中不需要主体的引导。

突出元件在元件和/或元件的使用导致对声音捕获的最小干扰的位置处从主体延伸。突出元件可以被提供用于控制主体的方向和/或操纵该装置和/或指示优选方向。

电子器件可以被配置为基于来自麦克风的信号来产生用于再现的预定数目的声音通道。生成用于再现设备的至少一个信号所需要的所有电子器件可以被包括在该装置的主体中。备选地，生成用于再现设备的至少一个信号所需要的电子器件中的至少一部分电子器件在该装置的主体外部。

在一个实施例中，预定的几何形状由至少八个麦克风形成。预定的几何形状可以基本上是立方体几何形状，每个麦克风被定位在立方体几何形状的角落处。八个麦克风的输出信号可以被处理以确定声场中的至少一个声源的方向信息。八个麦克风的输出信号可以被处理以确定声场的环境信息。

一种存储在介质上的计算机程序产品可以使得装置执行如本文中描述的方法。

还可以提供一种芯片组，该芯片组提供如本文中描述的处理的至少一部分。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，在附图中：

图1示意性地示出了根据一些实施例的音频捕获装置；

图2和图3示出了来自两个方向的音频和视频捕获设备的更详细的示例；

图4示意性地示出了根据一些实施例的装置的组件的视图；

图5示出了根据实施例的框图；以及

图6示出了操作的流程图。

具体实施方式

以下进一步详细描述用于为空间信号处理供应有效的声音捕获的合适的装置和可能的机制。本文中描述的示例涉及由包括多个麦克风的装置进行的音频存在捕获的领域。根据某些示例，具有麦克风的装置周围的空间音频场在该装置周围的所有方向上或者至少基本上所有方向上被捕获，以产生声场的存在捕获。除了在水平面上在该装置周围之外，还可以在上面和下面的所有方向上提供捕获。也就是说，可以沿着坐标系的所有三个轴提供捕获。可以根据装置上的预定的几何形状放置麦克风，使得有可能记录来自所有方向的音频，并且使得装置主体的听觉遮蔽效应当被最小化。

在示例实施例中，多个麦克风形成基本上立方体几何形状或立方体状几何形状。每个麦克风被定位在几何形状的角落处，立方体或立方体状几何形状的三个表面在此相交。在其他示例实施例中，多个麦克风的位置可以形成其他几何形状。可以理解，该装置包含由多个麦克风产生的几何形状。

多个麦克风可以以特定几何配置被布置在装置的外部或内部。该配置可以是预定的配置，以从所有方向捕获声场的存在。麦克风可以被对称地布置，使得麦克风能够捕获音频而不管声音来自何方向。麦克风可以被对称地放置，使得具有来自主体的对称的遮蔽效应和听觉延迟的至少一些麦克风对被提供。对称定位有助于通过使得音频信号的处理更容易而保持高质量的音频，并且至少在一些方向上为每只耳朵提供类似的发声音频能够帮助。

图1示出了包括如本文中公开的用于多个麦克风的预定的几何配置的装置的示意呈现。更具体地，图1示出了被定位在立方体的角落中的八个可能的布置。以这种方式，在装置的主体周围的所有方向上麦克风仅有来自主体的很小的遮蔽效应。应当理解，这样的预定的几何配置可以被包含在便携式电子设备的任何形状内。

麦克风位置的几何形状可以被布置为使得至少相同的最小数目的麦克风从任何方向始终是可见的。例如，该布置可以使得相同图案的麦克风在x、y和z轴方向上是可见的。

在图1至图3的示例中，可以从任何位置容易地看到八个可能位置中的四个麦克风位置。四个可见麦克风被认为利用捕获来自方向的声音的最少数目的麦克风在产生关于声音的方向和环境信息中具有良好性能。

在术语麦克风、麦克风的可见部分是什么、麦克风的哪个部分捕获声音的上下文中，注意到，本文中所指的可见部分不一定是物理麦克风组件，而是观看者只能从每个视角(右-左-上-下-前-后)看到每个麦克风的声音出口。这样的出口(例如，主体上的孔)可以仅被声学地耦合到相应的麦克风组件。然而，在本公开的上下文中，这些部分应当被理解为被通用术语麦克风涵盖。因此，在本说明书中，术语麦克风始终用于指代物理麦克风布置的任何部分，其提供麦克风的几何布置的一部分，通过该部分，声音可以从基本上装置的主体的整个周围被捕获。

根据主体具有基本上球形形状的可能性。在图1中，主体的球状形状用两个圆圈表示，以指示近似球形的形状。

在某些实施例中，形状可以被设计成具有用于操纵装置的合适定形的延伸，例如以支持物的形式。如果被提供，该延伸可以被设计成避免在使用中干扰多个麦克风和多个相机模块。

麦克风可以在所有方向(x，y，z)上分离，以便能够捕获所有方向。这可能需要由至少四个麦克风捕获。麦克风可能需要被定位成使得它们不在同一平面上。

可以使用更小或更大的最小数目的麦克风用于捕获。例如，如果仅水平面上的方向是所期望的，则少于四个麦克风(诸如三个麦克风)可以是足够的。在这种情况下，麦克风通常会位于被置于装置的主体周围的(虚拟)水平面上。

还可以提供麦克风对，使得多对麦克风可以被用于从装置周围的多个方向估计声音方向。可以使用统计分析来将多对方向估计合并成一个。还可以产生有关环境声音的信息。备选地，全部八个麦克风可以用于捕获声场。可以理解，可以通过使用全部八个麦克风来确定声场中声源的方向信息和声场的环境信息。

在一些示例实施例中，多个麦克风以几何形状被布置，使得从观看方向可以直观地看到至少4个麦克风的声音出口，而其他麦克风在相同的观看方向上被遮蔽。在备选实施例中，可以提供其他布置，使得多个麦克风中的2个麦克风可以从基本上基本上所有观看方向上被遮蔽。可以理解，这种定位麦克风布置在捕获和再现时提供特别的益处。例如，至少一些或全部的未被遮蔽的麦克风可以用于中间信号确定(和生成)，而至少一些或全部的被遮蔽的麦克风用于侧向信号确定(和生成)。

该装置也可以适用于同时捕获视频。视频捕获也可以基本上围绕所有方向。麦克风的定位和/或数目可以取决于相机的定位和/或数目。设备因此可以被配置为捕获来自所有方向的音频和视频信息两者，以便捕获视觉和声场的增强存在。

麦克风和相机(如果被提供的话)的位置使得有可能记录基本上来自所有方向的音频和可能的视频。当有趣的音频和可能的视频内容在设备周围移动时，该配置可以使得装置不需要被旋转或以其他方式被移动。

除了多个相机模块之外，多个麦克风还可以相对于多个第二类型的传感器被布置。例如，运动传感器可以被提供。

空间声场的各个方面可以被捕获。例如，可以捕获声场的定向部分、声场的方向和/或声场的环境部分。所捕获的信息可以被至少暂时地存储，并且取决于收听者的情况被使用，例如基于收听者的观看方向和/或位置。这种情况的示例将在本描述中稍后被更详细地解释。

该装置可以被设计和标定尺寸使得其是便携式的。便携式的存在捕获设备可以在该设备的整个周围具有麦克风，以便能够以该装置的最小遮蔽效应来捕获来自所有方向的音频。虽然该装置被分类为便携式，但是它可以被定位或固定在某位置处。该装置可以与另一机械部分连接。

该装置可以具有优选方向。还可以提供用于由用户引导该装置的部件。

在图2和3中从两个方向示出了根据本文中公开的原理配置的音频捕获装置10的示例。装置10被示出为具有大致球形形状的主体11。然而，也可以使用其他形状。例如，该设备的主体的直径可以是大约10-30cm。但是，这个范围仅是示例，并且其他尺寸、甚至完全不同量级的尺寸也是可能的。

该设备可以被提供有多个麦克风，图2和图3示出了麦克风12a-12f。总体而言，设备10具有在其主体周围对称放置的八个麦克风。麦克风可以是全向或定向的(诸如心形)。优选地，如果使用定向麦克风，或者如果全向麦克风位于设备主体使得麦克风响应在至少一些频带中定向的地方，则定向麦克风的方向可以被布置为基本上覆盖设备周围的所有方向。

还提供了多个相机14a-14h。设备10具有能够捕获视频图像并且覆盖该设备的整个周围的八个相机。应当注意，取决于应用，可以使用不同数目的相机。

从图2和图3的侧视图和端视图可以看出麦克风相对于主体和相机的可能布置。

该设备可以具有优选视点。在图2中，这由箭头13表示。优选视点可以是该设备工作最好和/或当使用例如移动设备、头戴式显示器、电脑屏幕、具有很多显示器的虚拟现实环境等查看所捕获的多媒体时由该设备捕获的文件或流的重放开始的视点。优选视点可以由该设备的形状来指示。例如，突出元件可以被提供在原本大部分对称的设备的形状中以指向或偏离优选视点。在图2中，这由从原本球形主体延伸的突出元件16来提供。元件16还为用户提供手柄以四处引导和/或移动该设备。优选方向也可以由该设备上的适当标记来指示。以这种方式，用户直观地知道该装置的优选取向。

如图所示，麦克风被对称地放置在主体上，以帮助装置主体针对良好发声音频(至少在一些观看方向上)产生对称的遮蔽。备选地，麦克风的至少一些子集被对称地放置。对称布置可以由成对麦克风或所有麦克风提供。对称放置也可以有助于在来自设备周围的不同声源的延迟对称的情况下创建信号。这可以使得声源方向的分析变得更容易，并且还可以通过对双耳产生对称信号来使得信号被准确地再现。这可以至少在某些观看方向上被提供。

该设备可以包含其自己的电源、处理器、存储器、无线联网能力等。在一些情况下，该设备可以被连接到电源和有线网络。图2和图3还示出了支架18。这可以具有任何形状和设计，例如三脚架、枢转臂、可旋转臂等。也可能具有没有支架的捕获设备。

麦克风可以布置在各方向上。下面是某些示例，其中装置的中心被认为提供原点(参见图1)，并且针对方位角和仰角两者的零度是优选视点方向。在下面的表中，左边的列是方位角，并且右边的列是仰角，单位为度。

例1：

例2：

例3：

从设备麦克风到处理器的导线可以是对称的，使得由设备电子器件导致的任何干扰在所有麦克风信号中是类似的。这可以在处理麦克风信号中提供优势，因为它们之间的差异更多地是由麦克风相对于声源的相对位置而不是设备电子器件导致。

麦克风入口和入口周围的装置形状可以是类似的。这有助于处理麦克风信号，因为它们之间的差异更多地是由麦克风相对于声源的相对位置而不是由入口的形状和设备的形状导致。

有可能估计大量方向，使得一个方向从麦克风的子集被估计并且存在多个子集。使用统计处理(例如，平均或中间方向)从大量方向来估计单个最终方向估计。

麦克风可以相对于多个相机被放置，使得设备中的每个相机在其周围具有类似定位的麦克风子集。例如在直接使用视点而不是使用视频处理来在相机之间创建视点的情况下，这可以是有利的。当以这种方式使用视点并且麦克风相对于每个相机被类似地放置时，不管正在使用哪个相机，音频属性是类似的。

在一些实施例中，麦克风以这样的方式定位，即当声源基本上位于电子器件的轴上(沿着x、y、z、-x、-y或-z轴，参见图1)时，电子器件能够朝向声源的方向基本上指向至少四个麦克风(并且因此指向相应麦克风的麦克风出口)。考虑到每个轴线方向，麦克风可以以基本上对称的配置来被布置，图1示出了这样的配置的示例。例如，可以有四对麦克风(麦克风1，麦克风2)、(麦克风3，麦克风4)、(麦克风5，麦克风6)和(麦克风7，麦克风9)，这些麦克风均指向z轴方向。这实现朝向z(和-z)轴方向的容易的波束赋形。而且，这种配置可以有利地用于使用声音到达每个麦克风的时间差来估计声源方向。

例如，假设声源位于图1的z轴方向附近。有四个麦克风(麦克风1、麦克风3、麦克风5、麦克风7)从该声源接收声音，而没有来自设备主体的显著的声学遮蔽(麦克风2、麦克风4、麦克风6、麦克风7在声影中接收声音)。为了检测声源方向在+x轴方向上与z轴有多大的差异，有可能使用两个麦克风对(麦克风1，麦克风5)和(麦克风3，麦克风7)，它们在没有遮蔽并且具有明显时间差的情况下接收声源。为了检测声源方向在+y轴方向与z轴有多大的差异，有可能使用两个麦克风对(麦克风1，麦克风3)和(麦克风5，麦克风7)，它们在没有遮蔽并且具有明显时间差的情况下接收声源。然后可以使用统计方法(例如，平均值、中值等)来组合这些大量方向估计。该配置类似地允许朝向所有轴上方向的大量的对，并且因此该配置可以与丢失了一些麦克风的配置或者具有显著不同配置的麦克风的任何配置更好。

该设备可以捕获空间声场的很多方面。例如：声场的定向部分、声场中的声源的方向和声场的环境部分。定向部分可以使用波束赋形或者例如在GB专利申请1511949.8中提出的方法来被捕获。GB申请公开了如何有可能生成被配置为表示音频源信息的至少一个中间信号和被配置为表示环境音频信息的至少两个侧向信号的某些示例。所捕获的分量可以被分开存储和/或处理。关于某些实施例，可以利用声学遮蔽效应以通过对源自于不同方向的声音提供改进的空间源分离并且在声学遮蔽对象周围采用多个麦克风来改善音频质量。中间信号可以使用可用麦克风的自适应选择的子集来被创建，并且多个侧向信号可以使用多个麦克风来被创建。中间信号可以基于所估计的到达方向(DOA)被自适应地创建。此外，与所估计的DOA“最接近”或“较接近”的麦克风可以被选择作为“参考”麦克风。其他所选择的麦克风音频信号然后可以与来自“参考”音频信号的音频信号时间对准。被时间对准的麦克风信号然后可以被相加以形成中间信号。还有可能基于所估计的DOA对所选择的麦克风音频信号进行加权以避免在从一个麦克风子集改变为另一麦克风子集时的不连续性。侧向信号可以通过使用用于创建多个侧向信号的两个或更多个麦克风来被创建。为了生成每个侧向信号，麦克风音频信号可以利用自适应的时间频率相关增益被加权。这些加权的音频信号可以与被配置为对音频信号进行解相关的预定的解相关器或滤波器卷积。多个音频信号的生成还可以包括将音频信号传递通过合适的呈现或再现相关的滤波器。例如，音频信号可以通过其中期望进行耳麦或耳机再现的头部相关的传递函数(HRTF)滤波器或其中期望扬声器呈现的多声道扬声器传递函数滤波器。

麦克风中的全部或子集可以用于捕获定向部分。麦克风的数目和哪些麦克风被使用可以取决于声音的特性，例如，取决于声音的方向。例如，声音的方向可以使用基于来自声源的声音到达不同麦克风时的时间差的多点定位来被估计。时间差可以使用相关性来被估计。麦克风中的全部或子集可以用于估计声源的方向。可以针对短时间段(通常20ms)和很多频带(例如，第三倍频程带、巴克频带等)单独地估计方向。

麦克风的数目和哪些麦克风被使用可以取决于声音的特性。例如，可以首先使用所有麦克风进行初始估计，并且然后使用与初始估计的源方向在设备的相同侧的麦克风进行更可靠的估计。另一示例方法可以在美国公开2012/0128174中找到。

环境可以使用麦克风中的全部或子集来被估计。如果相同的环境信号被用于观看所捕获的内容的用户的所有方向，则通常所有麦克风或没有用于捕获定向内容的麦克风被用于创建环境。备选地，如果期望更准确的环境，则可以使用与用户观看方向基本上相反的方向的麦克风来创建环境。备选地，在一些实施例中，与声源方向基本上相反的麦克风被用于创建环境信号。

所有的方法都可以基于频带分割、时间分割和方向分割来工作，使得定向信号、定向信息和环境信号在每个分段组合中是不同的。

在GB专利申请1511949.8中提出的方法可以用于捕获声音并且将其转换为5.1、7.1、双耳或其他格式。由设备捕获的音频可以被如此存储、传输和/或流传输，或者被转换为某种其他音频表示。也可以使用诸如mp3、MPEG AAC、Dolby AC-3、MPEG SAOC等现有或未来的音频编解码器来压缩音频。音频数据可以是直接麦克风信号的形式，从而使得渲染成为合适的再现方法(立体声扬声器、5.1扬声器、具有“高度扬声器”的更复杂的扬声器设置、耳机等)，音频数据可以是已经变为5.1、7.1信号等的形式，音频数据可以是多个并行信号(例如，双耳信号)的形式，每个方向一个信号，使得方向(通常为5-32个方向)被分布在球体周围，音频数据可以是一个或多个定向信号+定向信息+一个或多个环境信号的形式(这种形式再次使得渲染成为合适的再现方法，诸如5.1、双耳等，以在接收“定向信号+定向信息+环境表示”的设备处进行；GB专利申请1511949.8和US公布2012/0128174和2013/0044884给出了如何能够完成这个的示例)。

所捕获的音频数据还可以由具有内置扬声器的设备或通过耳机(可能作为双耳信号)或者通过移动电话、平板电脑、膝上型电脑、PC等来再现。有可能通过具有耳机的头戴式显示器再现由本文中描述的装置捕获的数据，使得观看和收听数据的用户能够在这种能力被提供的情况下转动其头部并且体验音频和视频中的所有方向。所捕获的声音的所产生的信息可以有利地用于增强现实应用中。

收听者/观看者甚至可以被提供有视频和音频的实时流。利用头部跟踪设备，视频和音频可以跟踪真实的生活情况。

机械或无线连接器也可以被提供以实现接口机构。

该设备可以根据需要在任何方向上被自由旋转和定位。该设计可以包括支持物和/或基座部分，但是在其他示例实施例中，可以不需要这样的支持物和/或基座部分。便携式捕获设备的大小可以具有任何尺寸，例如针对对称形状的便携式设计，长度、宽度和高度可以被设计为15-30厘米左右。如上所述，由于支持物或操纵部分，总的长度、高度、宽度尺寸可能会扩大。便携式装置的大小可以受所提到的多个麦克风和/或相机模块的数目的影响。便携式装置的大小也可以受预定的几何麦克风配置的影响。

音频捕获设备可以包括各种附加特征，诸如内部电池或针对外部电池的连接性、内部充电器或针对外部充电器的连接性、一个或多个合适的连接器(诸如微型USB、AV插孔、存储卡、HDMI、显示端口、DVI、RCA、XLR、3.5mm插头、1/4”插头等)、包括DSP算法等的一个或多个处理器、内部存储器、有线和/或无线连接性模块(诸如LAN、BT、WLAN、红外等)、相机、显示器(诸如LCD)、扬声器和其他传感器(诸如GPS、加速度计、触摸传感器等)。

可以提供存在捕获设备，其中从设备周围的所有方向记录音频及其方向。装置的取向不需要被改变，例如，当感兴趣的声源(和视觉源)在设备周围移动时，设备不需要被旋转，因为设备同时记录所有方向。麦克风位置使得能够使用统计分析来改善声音方向分析。对称的设备形状和麦克风位置以及类似的入口和接线都有助于更易于分析和更好地发声的麦克风信号。与其中设备不能从所有方向捕获声音和视频并且因此缺少一些潜在有趣的内容的现有技术中不同，该设备可以被布置为捕获其周围的所有声音。由于在捕获期间不需要转动设备，所以可以避免操纵可能导致操纵噪声并且可能要求用户靠近设备从而导致增加的遮蔽效应的设备。该设备易于使用。用户不一定需要具有对空间声音处理的专业的声音技术员水平的理解。相反，用户可以定位该设备并且相应地定位麦克风的所配置的几何形状，使得设备电子器件能够处理所需要的信息，用于准确的空间音频捕获和对所捕获的声音的再现。

图4示出了适用于实现一些实施例的音频捕获装置的内部组件的示例。音频捕获装置100包括麦克风阵列101。麦克风阵列101包括多个(例如，N个)麦克风。图4所示的示例示出了麦克风阵列101，其包括以六面体配置组织的八个麦克风121₁至121₈。在一些实施例中，麦克风可以被组织成使得它们被定位在音频捕获设备壳体的角落处，使得音频捕获装置100的用户可以使用和/或保持该装置而不覆盖或阻挡麦克风中的任何麦克风。

示出了被配置为将声波转换成合适的电子音频信号的麦克风121。在一些实施例中，麦克风121能够捕获音频信号并且各自输出合适的数字信号。在一些其他实施例中，麦克风或麦克风阵列121可以包括任何合适的麦克风或音频捕获部件，例如电容式麦克风、电容器式麦克风、静电麦克风、驻极体电容式麦克风、动态麦克风、带状麦克风、碳麦克风、压电式麦克风或微机电系统(MEMS)麦克风。在一些实施例中，麦克风121可以将音频捕获信号输出到模数转换器(ADC)103。

音频捕获装置100还可以包括模数转换器103。模数转换器103可以被配置为从麦克风阵列101中的每个麦克风121接收音频信号并且将其转换为适合于处理的格式。在一些实施例中，麦克风121可以包括ASIC，其中可以在每个麦克风中发生这样的模数转换。模数转换器103可以是任何合适的模数转换或处理部件。模数转换器103可以被配置为将音频信号的数字表示输出到处理器107或存储器111。

音频捕获装置100电子器件还可以包括至少一个处理器或中央处理单元107。处理器107可以被配置为执行各种程序代码。所实现的程序代码可以包括例如空间处理、中间信号生成、侧向信号生成、时域到频域音频信号转换、频域到时域音频信号转换和其他算法例程。

音频捕获装置还可以包括存储器111。至少一个处理器107可以耦合到存储器111。存储器111可以是任何合适的存储部件。存储器111可以包括用于存储在处理器107上可实现的程序代码的程序代码部分。此外，存储器111还可以包括用于存储数据(例如，已经处理或待处理的数据)的存储数据区段。存储在程序代码区段内的所实现的程序代码和存储在存储数据区段内的数据可以在需要时由处理器107经由存储器处理器耦合取回。

音频捕获装置还可以包括用户界面105。在一些实施例中，用户界面105可以耦合到处理器107。在一些实施例中，处理器107可以控制用户界面105的操作并且从用户界面105接收输入。在一些实施例中，用户界面105可以使得用户能够例如经由键盘向音频捕获装置100输入命令。在一些实施例中，用户界面105可以使得用户能够从装置100获取信息。例如，用户界面105可以包括被配置为将来自装置100的信息显示给用户的显示器。在一些实施例中，用户界面105可以包括能够使得信息能够被输入到装置100以及进一步向装置100的用户显示信息的触摸屏或触摸界面。

在一些实现中，音频捕获装置100包括收发器109。在这样的实施例中，收发器109可以耦合到处理器107并且被配置为例如经由无线或固定线路通信网络来实现与其他装置或电子设备的通信。在一些实施例中，收发器109或任何合适的收发器或发射器和/或接收器部件可以被配置为经由无线或有线耦合与其他电子设备或装置通信。

收发器109可以通过任何合适的已知的通信协议与另外的装置通信。例如，在一些实施例中，收发器109或收发器部件可以使用合适的通用移动电信系统(UMTS)协议、诸如例如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短程射频通信协议、或红外数据通信路径(IRDA)。

音频捕获装置100还可以包括数模转换器113。数模转换器113可以耦合到处理器107和/或存储器111，并且被配置为将音频信号(诸如来自处理器107)的数字表示转换为适合于经由音频子系统输出来呈现的合适的模拟格式。在一些实施例中，数模转换器(DAC)113或信号处理部件可以是任何合适的DAC技术。

此外，在一些实施例中，音频子系统可以包括音频子系统输出115。如图4所示的示例是一对扬声器131₁和131₂。在一些实施例中，扬声器131可以被配置为接收来自数模转换器113的输出并且将模拟音频信号呈现给用户。在一些实施例中，扬声器131可以表示头戴式耳机，例如一组耳机或无绳耳机。

此外，音频捕获装置100被示出为在其中存在多个音频源的环境或音频场景内操作。在图4所示的示例中，环境包括第一音频源151，诸如在第一位置处讲话的人的声音源。此外，图4所示的环境包括第二音频源153，诸如在第二位置处的小号演奏的器乐源。第一音频源151的第一位置和第二音频源153的第二位置可以分别不同。此外，在一些实施例中，第一和第二音频源可以生成具有不同频谱特性的音频信号。

虽然音频捕获装置100被示出为具有音频捕获和音频呈现组件，但是应当理解，设备100可以仅包括音频捕获元件，使得仅存在麦克风(用于音频捕获)。类似地，在下面的示例中，音频捕获装置100被描述为适合于执行在下文中描述的空间音频信号处理。音频捕获组件和空间信号处理组件也可以是分开的。换言之，音频信号可以由包括麦克风阵列和合适的发射器的第一装置来捕获。音频信号然后可以以本文中描述的方式在包括接收器和处理器以及存储器的第二装置中被接收和处理。

图5是示出处理来自多个麦克风的信号以在两个通道上输出信号的示意性框图。其他多通道再现也是可能的。除了来自麦克风的输入之外，关于头部取向的输入也可以由空间合成使用。

为了声音处理和再现，可以以各种不同的方式来布置组件。

根据虚线左侧的一切内容在存在捕获设备中发生并且直接/环境信号右侧的一切内容在观看/收听设备(例如，具有耳机的头戴式显示器、平板电脑、移动电话、膝上型电脑等)中发生的可能性。直接信号、环境信号和定向信息可以被编码/存储/流传输/传输到观看设备。

根据所有处理发生在存在捕获设备中的可能性。存在捕获装置可以包括用于观看所捕获的媒体的显示器和耳机连接器(例如，1/4”插头)。直接信号、环境信号和定向信息被编码/存储在存在捕获设备中。

根据所有处理在存在捕获设备中发生的可能性，但是取代于一个输出(左输出信号、右输出信号)，存在用于很多方向的一个输出，例如，用于观看媒体的用户能够观察的不同方向的32个输出。观看媒体的用户优选地具有带有耳机的头戴式设备，其根据用户正在看向的方向在输出信号32之间切换。然而，这可以被提供用于移动电话、平板电脑、膝上型电脑等。使用例如头戴式设备中的头部跟踪器，或者移动电话、平板电脑、笔记本电脑等中的加速计/鼠标/触摸屏来检测用户正在观看的方向。输出信号32可以被编码/存储/流传输/传输到观看设备。

根据所有处理在观看设备中发生的可能性。这样的麦克风信号被编码/存储/流传输/传输到观看设备。

图6是用于捕获声音的方法的流程图。在该方法中，在60处，由相对于捕获装置的主体以预定的几何形状定位的多个麦克风从基本上主体周围的所有方向捕获声音。在62处，针对所捕获的声音产生方向和环境信息。然后在64处，进行声音的再现。

通常，上述某些操作可以在硬件或专用电路、软件、逻辑或其任何组合中被实现。例如，一些方面可以在硬件中被实现，而其他方面可以在固件或软件被实现，固件或软件可以由控制器、微处理器或其他计算设备执行，尽管本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形被表示，但是很好理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合中被实现。可以提供由数据处理器(诸如在处理器实体中)、或由硬件、或由软件和硬件的组合可执行的计算机软件。另外，在这方面，应当注意，如附图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以被存储在物理介质上，诸如存储器芯片、在处理器内实现的存储器块，诸如硬盘或软盘的磁介质，以及诸如例如DVD及其数据变型、CD的光学介质。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来被实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可拆卸存储器。数据处理器可以是适用于本地技术环境的任何类型，并且作为非限制性示例可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器。

本发明的实施例可以在诸如集成电路模块的各种组件中被实践。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑级设计转换为准备好在半导体基底上蚀刻和形成的半导体电路设计。

诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence设计公司提供的程序使用已经良好建立的设计规则以及预先存储的设计模块的库来自动对导体进行布线并且将组件定位在半导体芯片上。一旦半导体电路的设计已经完成，则可以将标准化的电子格式(例如，Opus、GDSII等)的所得到的设计传输到半导体制造工厂或“fab”以进行制造。

以上描述已经通过示例性而非限制性的示例的方式提供了本发明的示例性实施例的全面和信息性的描述。然而，当结合附图和所附权利要求阅读时，鉴于前面的描述，各种修改和适应对于相关领域的技术人员来说可以变得显而易见。然而，对本发明的教导的所有这样的和类似的修改仍然落入如所附权利要求限定的本发明的范围内。

Claims

1.一种用于捕获声音的装置，包括：

主体，

多个麦克风，所述多个麦克风以预定的几何形状被布置在所述主体上，使得所述装置被配置为基于所述预定的几何形状捕获在所述主体周围的多个方向上的声场，其中所述预定的几何形状的多个麦克风被配置为使得能够从所述主体周围的任何方向捕获所述声场，从而使得所述多个麦克风中的至少三个麦克风在所述主体周围的任何方向上接收声音而没有声学遮蔽，而所述多个麦克风中的至少一个其他麦克风在相对于所述至少三个麦克风的捕获方向上接收所述声音而具有声学遮蔽，以便确保来自所述捕获方向的声音是利用所述至少三个麦克风捕获的，而没有声学遮蔽；以及

电子器件，用于处理来自所述多个麦克风的信号，其中所述电子器件被配置为至少部分地基于所述多个麦克风，确定所述声场的环境信息和在所述主体周围的所述声场内至少一个声源的方向信息。

2.根据权利要求1所述的装置，其中所述麦克风被布置为使得预定义的最小数目的麦克风从任何方向均是可见的，并且其中所述环境信息是至少部分地基于利用所述多个麦克风在所述多个方向上捕获的声场而与所述方向信息分开确定的，其中所述预定的几何形状被配置为使得所述电子器件能够确定所述声场的环境信息。

3.根据权利要求1所述的装置，包括至少八个麦克风，所述至少八个麦克风被布置为使得来自任何方向的声音被所述至少八个麦克风中的至少四个麦克风捕获，同时所述多个麦克风中的至少两个其他麦克风被遮蔽。

4.根据权利要求1所述的装置，包括多个第二类型的传感器，其中所述几何形状和/或形成所述几何形状的麦克风的数目取决于所述多个第二类型的传感器的位置和/或数目。

5.根据权利要求4所述的装置，其中所述多个第二类型的传感器包括相机和/或运动传感器。

6.根据权利要求1所述的装置，其中所述主体具有球形的外部形状。

7.根据权利要求1所述的装置，其中所述麦克风被对称地布置在所述主体周围。

8.根据权利要求1所述的装置，其中所述麦克风通过以下至少一种方式被布置：

相对于所述主体的相同的方式，使得每个麦克风以相同的方式捕获声音；

相对于所述电子器件的相同的方式，使得来自每个麦克风的声音信号受到由所述装置内的其他组件和/或延迟导致的类似的干扰；以及

在使用中不需要所述主体的引导。

9.根据权利要求1所述的装置，包括突出元件，所述突出元件在所述元件和/或所述元件的使用导致对所述声音捕获的最小干扰的位置处从所述主体延伸。

10.根据权利要求9所述的装置，其中所述突出元件用于控制所述主体的方向和/或操纵所述装置和/或指示优选方向。

11.根据权利要求1所述的装置，其中所述电子器件被配置为以下任意一项：

基于从所述多个麦克风接收的信号来产生用于再现的预定数目的声音通道；

生成用于再现设备的至少一个信号，所述再现设备被包括在所述装置的所述主体中；以及

至少部分生成用于再现设备的至少一个信号，所述再生设备在所述装置的所述主体外部。

12.根据权利要求1至11中任一项所述的装置，其中所述预定的几何形状是以下中的至少一项：

由至少八个麦克风形成；以及

基本上立方体几何形状，并且每个麦克风被定位在所述立方体几何形状的角落处。

13.根据权利要求12所述的装置，其中所述八个麦克风的输出信号被处理以确定声场中的至少一个声源的定向信息。

14.根据权利要求12所述的装置，其中所述八个麦克风的输出信号被处理以确定声场的环境信息。

15.一种用于捕获声音的方法，包括：

利用以预定的几何形状位于捕获装置的主体上的多个麦克风，基于所述预定的几何形状捕获所述主体周围的多个方向上的声场，其中所述预定的几何形状的多个麦克风被配置为使得能够从所述主体周围的任何方向捕获所述声场，从而使得所述多个麦克风中的至少三个麦克风在所述主体周围的任何方向上接收声音而没有声学遮蔽，而所述多个麦克风中的至少一个其他麦克风在相对于所述至少三个麦克风的捕获方向上接收所述声音而具有声学遮蔽，以便确保来自所述捕获方向的声音是利用所述至少三个麦克风捕获的，而没有声学遮蔽；以及

处理来自所述多个麦克风的信号，其中对来自所述多个麦克风的信号的处理被配置为至少部分地基于所述多个麦克风，产生在所述声场内至少一个声源的方向信息和所述主体周围的所述声场的环境信息。

16.根据权利要求15所述的方法，其中所述多个麦克风被布置为使得预定义的最小数目的麦克风从任何方向均是可见的，并且其中所述环境信息是至少部分地基于利用所述多个麦克风在所述多个方向上捕获的声场而确定的。

17.根据权利要求15所述的方法，包括通过被布置在所述装置的所述主体上的八个麦克风中的至少四个麦克风捕获来自一个方向的声音。

18.根据权利要求15所述的方法，包括通过多个第二类型的传感器捕获信息，其中所述几何形状和/或形成所述几何形状的麦克风的数目取决于所述多个第二类型的传感器的位置和/或数目。

19.根据权利要求18所述的方法，其中所述多个第二类型的传感器包括相机和/或运动传感器。

20.根据权利要求15至19中任一项所述的方法，包括以以下一种方式来捕获所述声音：

通过每个麦克风的相同的方式；以及

不同方向和/或从移动声源，而不改变所述主体的方向和/或位置。