CN113853529A

CN113853529A - 用于空间音频捕获的装置和相关方法

Info

Publication number: CN113853529A
Application number: CN202080037691.6A
Authority: CN
Inventors: A·J·埃罗南; A·J·勒蒂涅米; M·T·维勒莫; M-V·I·莱蒂南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-05-20
Filing date: 2020-05-11
Publication date: 2021-12-28
Also published as: US20220225049A1; JP2022533755A; EP3742185B1; WO2020234015A1; EP3742185A1; JP7439131B2

Abstract

一种装置被配置为：接收空间音频数据，该空间音频数据包括从围绕捕获设备延伸的空间被捕获的音频、和方向信息；接收由相机捕获的视频图像，其中空间音频数据被捕获的空间的范围大于相机的视场；针对视场内的音频源，将根据方向信息而被确定的每个音频源关联于与朝向音频源的方向相对应的视频图像的区域，并且针对视场外的音频源，将根据方向信息而被确定的一个或多个音频源中的每个音频源关联于视图外图形的一部分，视图外图形指示视场外的空间的空间范围；显示视频图像和视图外图形；接收用户输入；并且提供对所述一个或多个音频源中的选择的一个音频源的至少一个音频捕获属性的控制。

Description

用于空间音频捕获的装置和相关方法

技术领域

本公开涉及空间音频的捕获领域。特别地，本公开涉及提供空间音频的一个或多个音频捕获属性的修改的用户界面的呈现、相关联的装置、方法和计算机程序。

背景技术

空间音频的捕获可能是有用的，并且所述捕获的控制可能是困难的。

本说明书中的先前公开的文件或任何背景的列表或讨论不应当被视为承认该文件或背景是现有技术的一部分或公知常识。本公开的一个或多个方面/示例可以解决或可以不解决背景问题中的一个或多个。

发明内容

在第一示例方面，提供了一种装置，该装置包括被配置为进行以下各项的部件：

接收空间音频数据，该空间音频数据包括从围绕捕获设备延伸的空间中的一个或多个音频源被捕获的音频和至少指示朝向所述一个或多个音频源的方向的方向信息，其中空间音频数据由所述捕获设备捕获；

接收由捕获设备的相机捕获的视频图像，该视频图像具有视场，其中空间音频数据被捕获的空间的范围大于视场；

针对视场内的音频源，将根据方向信息而被确定的一个或多个音频源中的每个音频源关联于与朝向音频源的方向相对应的视频图像的区域，并且针对视场外的音频源，将根据方向信息而被确定的一个或多个音频源中的每个音频源关联于与朝向音频源的方向相对应的视图外图形的一部分，视图外图形指示视场外的空间的空间范围；

提供视频图像与视图外图形一起在显示器上的显示；

接收用以选择视频图像的区域或视图外图形的一部分的用户输入；

提供对所述一个或多个音频源中的选择的一个音频源的至少一个音频捕获属性的控制，其中所述一个或多个音频源中的所述选择的音频源包括与由用户输入选择的区域或部分相关联的一个或多个音频源中的音频源。

在一个或多个示例中，该部件被配置为在以下中的一项或多项(例如，这两者)处提供对标记的显示：

与朝向一个或多个音频源的一个或多个方向相对应的视图外图形的一个或多个部分；以及

与朝向一个或多个音频源的一个或多个方向相对应的视频图像的一个或多个区域。

在一个或多个示例中，对至少一个音频捕获属性的控制包括部件被配置为提供信令以引起使用波束成形技术对选择的一个音频源的捕获或记录。

在一个或多个示例中，对至少一个音频捕获属性的控制包括部件被配置为进行以下操作至少一项：

相对于应用于空间音频数据的其他音频的音量增益以较大的音量增益来捕获或记录选择的一个音频源；

相对于应用于空间音频数据的其他音频的质量以较高质量来捕获或记录选择的一个音频源；或者

将选择的一个音频源的音频捕获或记录为与空间音频数据的其他音频分离的音频流。

在一个或多个示例中，该部件被配置为通过使用方向信息确定具有高于预定阈值的音量的音频从哪个方向被接收来确定一个或多个音频源。

在一个或多个示例中，指示视场外的空间的空间范围的视图外图形包括以下至少一项：

线，其中沿着线从其一端到另一端的定位表示从至少与视场的第一边缘相对应的方向到至少与跟第一边缘相对的视场的第二边缘相对应的方向接收音频源的音频的方向；或者

椭圆的扇区，其中扇区内的定位表示从至少与视场的第一边缘相对应的方向到至少与跟第一边缘相对的视场的第二边缘相对应的方向接收音频源的音频的方向。

在一个或多个示例中，指示视场外的空间的空间范围的视图外图形表示围绕捕获设备的平面，其中所呈现的标记相对于视图外图形的定位表示音频源的音频被接收的方位角方向，并且其中在视图外图形上方或下方的一定距离处描绘的标记的定位对应于音频源的音频在所述平面上方或下方被接收的仰角方向。

在一个或多个示例中，指示视场外的空间的空间范围的视图外图形包括线，其中沿着线从其一端到另一端的定位表示方位角方向，音频源的音频从该方位角方向从至少与视场的第一边缘相对应的方位角方向到至少与跟第一边缘相对的视场的第二边缘相对应的方位角方向被接收，并且其中线上方或下方的距离对应于接收音频源的音频的仰角方向。

在一个或多个示例中，该部件被配置为：基于包括在触敏输入设备上在一位置处选择视频图像的区域或视图外图形的部分的的轻敲的用户输入，通过应用波束成形技术修改所述音频捕获属性来提供对至少一个音频捕获属性的控制，波束成形技术聚焦于与选择的区域或部分相对应的空间的区域。

在一个或多个示例中，该部件被配置为：基于包括在触敏输入设备上在一位置处选择视频图像的区域或视图外图形的部分的捏合手势(pinch gesture)的用户输入，通过应用波束成形技术修改所述音频捕获属性来提供对至少一个音频捕获属性的控制，波束成形技术具有与捏合手势的大小相关的度(degree)。

在一个或多个示例中，该部件被配置为：基于所接收的用户输入选择了不存在相关联的音频源的视频图像的区域或视图外图形的一部分，提供对第二标记的显示，第二标记用于指示在与视频图像的所选择的区域或视图外图形的一部分相对应的方向上不存在音频源。

在一个或多个示例中，波束成形技术包括以下至少一项：所选择的音频源的音频被强化(emphasized)的延迟求和波束成形技术或参数空间音频处理技术。

在一个或多个示例中，该部件被配置为利用具有受控音频捕获属性的所选择的音频源来提供空间音频数据的呈现和记录中的一项或多项(例如，这两者)。

在一个或多个示例中，该装置的该部件包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使该装置执行第一方面的功能。

在第二示例方面，提供了一种电子设备，该电子设备包括第一方面的装置、被配置为捕获视频图像的相机、被配置为捕获空间音频数据的多个麦克风、以及供该装置使用以显示视频图像以及视图外图形的显示器。

在第三示例方面，提供了一种方法，该方法包括：

针对视场内的音频源，将根据方向信息而确定的一个或多个音频源中的每个音频源关联于与朝向音频源的方向相对应的视频图像的区域，并且针对视场外的音频源，将根据方向信息而确定的一个或多个音频源中的每个音频源关联于与朝向音频源的方向相对应的视图外图形的一部分，视图外图形指示视场外的空间的空间范围；

提供视频图像与视图外图形一起在显示器上的显示；

在一个或多个示例中，该方法包括在以下中的一项或两项处提供对标记的显示：

在一个或多个示例中，对至少一个音频捕获属性的控制包括提供信令以引起使用波束成形技术对选择的一个音频源的捕获或记录的方法。

在一个或多个示例中，对至少一个音频捕获属性的控制包括执行以下至少一项的方法：

在一个或多个示例中，该方法包括通过使用方向信息确定具有高于预定阈值的音量的音频从哪个方向被接收来确定一个或多个音频源。

在一个或多个示例中，该方法包括接收包括在触敏输入设备上在一位置处选择视频图像的区域或视图外图形的部分的轻敲的用户输入，并且通过应用波束成形技术修改所述音频捕获属性来提供对至少一个音频捕获属性的控制，波束成形技术聚焦于与选择的区域或部分相对应的空间的区域。

在一个或多个示例中，该方法接收包括在触敏输入设备上在一位置处选择视频图像的区域或视图外图形的部分的捏合手势的用户输入，并且通过应用波束成形技术修改所述音频捕获属性来提供对至少一个音频捕获属性的控制，波束成形技术具有与捏合手势的大小相关的度。

在一个或多个示例中，该方法包括接收选择了不存在相关联的音频源的视频图像的区域或视图外图形的一部分的用户输入，并且提供对第二标记的显示，第二标记用于指示在与视频图像的所选择的区域或视图外图形的一部分相对应的方向上不存在音频源。

在一个或多个示例中，该方法包括利用具有受控音频捕获属性的所选择的音频源来提供空间音频数据的呈现和记录中的一项或两项。

在第四示例方面，提供了一种包括存储在其上的计算机程序代码的计算机可读介质，该计算机可读介质和计算机程序代码被配置为当在至少一个处理器上运行时执行方法，该方法包括：

提供视频图像与视图外图形一起在显示器上的显示；

在第四示例方面，提供了一种装置，该装置包括：

至少一个处理器；以及

至少一个存储器，包括计算机程序代码，

该至少一个存储器和该计算机程序代码被配置为与该至少一个处理器一起使该装置至少执行以下操作：

提供视频图像与视图外图形一起在显示器上的显示；

第一方面的可选特征同样适用于第四方面的装置。此外，由第一方面的可选特征提供的功能可以由第二方面的方法和第三方面的计算机可读介质的代码来执行。

本公开包括单独或各种组合的一个或多个对应的方面、示例或特征，无论其是否以该组合或单独形式具体陈述(包括要求保护)。用于执行所讨论的功能中的一个或多个功能的对应部件和对应功能单元(例如，功能使能器、AR/VR图形渲染器、显示设备)也在本公开内。

用于实现所公开的方法中的一个或多个方法的对应计算机程序也在本公开内并且被所描述的示例中的一个或多个示例所涵盖。

以上概述旨在仅仅是示例性的而非限制性的。

附图说明

现在仅通过示例的方式参考附图进行描述，在附图中：

图1示出了用于控制至少一个音频捕获属性的示例装置，该装置被示出为具有音频源的空间中的电子设备或“捕获设备”的一部分；

图2示出了示出基于来自装置的信令的界面的显示器的第一示例视图；

图3示出了示出基于来自装置的信令的界面的显示器的第二示例视图；

图4示出了示出基于来自装置的信令的界面的显示器的第三示例视图；

图5示出了示出基于来自装置的信令的界面的显示器的第四示例视图，其中用户提供包括捏合手势的用户输入；

图6示出了示出基于来自装置的信令的界面的显示器的第五示例视图，其中用户提供用以选择视图外图形的一部分的用户输入；

图7示出了说明示例方法的流程图；以及

图8示出了计算机可读介质。

具体实施方式

空间音频的捕获可以用于提供丰富的不同用户体验，诸如在虚拟现实、增强现实、通信和视频捕获领域。因此，能够捕获空间音频的设备的数目可能会增加。鉴于空间音频包括捕获具有方向信息的音频，该方向信息指示朝向一个或多个音频源的方向，或者换言之，该方向信息指示音频从一个或多个音频源到达的方向，这种音频的有效捕获可以很复杂。可能希望以高效方式提供对空间音频内容的一个或多个音频捕获属性的控制，尽管捕获所述空间音频的设备可能存在限制。

空间音频包括诸如由空间音频捕获设备捕获的具有方向信息的音频。因此，所捕获的空间音频可以具有表示音频本身的信息以及指示该音频的源在空间音频捕获设备周围的空间中的空间布置的信息。空间音频可以以如下这样的方式呈现给用户，该方式使得每个音频源可以被感知为源自特定位置，就好像音频的个体源位于这些特定位置一样。空间音频数据包括用于呈现为空间音频的音频，并且因此通常包括音频和方向信息，例如明确指定为元数据，或者以捕获音频的方式固有地存在。空间音频数据可以被呈现为使得其分量音频(例如，空间中被捕获的音频源)根据方向信息被感知为源自一个或多个点或一个或多个方向。音频渲染可以考虑早期反射和混响，该早期反射和混响可以例如根据发生音频呈现的虚拟或真实空间来建模。

所捕获的空间音频可以是参数空间音频，诸如DirAC或一阶或高阶Ambisonics(FOA、HOA)。空间音频数据的捕获可以通过使用若干麦克风(诸如至少三个)来提供。在一个或多个示例中，可以使用参数空间音频捕获处理。如本领域技术人员已知的，参数空间音频捕获可以包括：对于所捕获的多麦克风信号的每个时频图块，分析用以表示信号的感知相关属性的充足的空间参数。例如，这些可以包括到达方向和比率参数，诸如每个时频图块的扩散度。空间音频信号然后可以用方向信息(例如，空间元数据)表示，该方向信息可以包括从多麦克风输入信号形成的传输信号。在渲染期间中，传输音频信号与方向信息一起用于合成声场，该声场产生的听觉感知类似于在听者的头部位于麦克风布置的位置处时听者的听觉感知。

空间音频的空间定位可以由3D音频效果提供，诸如利用头部相关传递函数来创建空间音频空间(在增强现实的情况下与真实世界空间对准)的3D音频效果，音频可以被定位在该空间音频空间中以呈现给用户。空间音频可以由耳机通过使用头部相关传递函数(HRTF)滤波技术来呈现，或者由扬声器通过使用矢量基幅度平移技术定位音频内容的感知听觉来源来呈现。空间音频可以使用向用户的每个耳朵呈现的可听呈现之间的音量差异、时间差异和音高差异中的一项或多项来创建关于音频源在空间中的特定位置或特定方向的感知(例如，并非必须与扬声器对准)。到音频的感知源的感知距离可以通过控制混响和增益的量以指示与空间音频的感知源的接近或距离来渲染。应当理解，如本文所述的空间音频呈现可以涉及仅具有朝向其起源的感知方向的音频呈现以及使得音频的起源具有感知位置(例如，包括感知与用户的距离)的音频呈现。

虚拟现实(VR)内容可以被提供有具有方向属性的空间音频，使得音频被感知为源自VR空间中的点，该点可以链接到VR内容的图像。增强或混合现实内容可以被提供有空间音频，使得空间音频被感知为源自用户可见的真实世界对象和/或源自覆盖在用户视图上的增强现实图形。电子设备之间的通信可以使用空间音频来向远离第一用户的第二用户呈现由第一用户感知的听觉场景。

图1示出了被配置为提供对一个或多个音频源中的选择的一个音频源的至少一个音频捕获属性的控制的示例装置100。装置100包括诸如处理器101和存储器102等用于接收空间音频数据并且提供对音频捕获属性的控制的部件。在该示例和一个或多个示例中，装置100可以包括诸如智能电话或平板电脑等电子设备103的一部分。电子设备103可以包括被配置为接收空间音频数据和/或视频图像的捕获设备的实施例。

装置100被配置为从一个或多个麦克风104接收空间音频数据。在一个或多个示例中，麦克风104可以是电子设备103的一部分，但在其他示例中可以与电子设备103分离。一个或多个麦克风104可以包括例如布置为用于捕获空间音频数据的麦克风阵列的至少三个麦克风。装置100或电子设备103可以被配置为处理从麦克风104捕获的音频以生成相关联的方向信息。在一个或多个示例中，对电子设备103周围的空间105中的音频源的跟踪可以用于生成方向信息。

装置100被配置为从相机106接收视频图像。在一个或多个示例中，相机可以是电子设备103的一部分，但在其他示例中可以与电子设备103分离。相机具有空间105的视场107，视场107由视场的第一边缘108与视场的第二边缘109之间的箭头表示。相机106的视场107小于空间105的空间范围，空间音频数据从该空间范围被麦克风104捕获。因此，在相机106的视场107外存在空间105的区域110。电子设备103可以被称为“捕获设备”，因为它用于捕获空间音频数据和视频图像。然而，如果相机106和麦克风104与电子设备103分离或独立，则相机106和麦克风104可以被共同视为包括捕获设备。

装置100可以被配置为通过向显示器111提供信令来提供显示。显示器111可以与触敏用户输入设备112相关联，触敏用户输入设备112提供触摸屏输入以提供给呈现在显示器111上的用户界面。应当理解，其他用户输入功能可以由装置100或由电子设备103提供以供装置100使用。

虽然在该示例中，装置100被示出为电子设备103的一部分并且可能与电子设备103共享诸如处理器101、存储器102、相机106、显示器111和麦克风104等硬件资源，但在其他实施例中，装置100可以包括与电子设备103通信或与相机106、麦克风104和显示器111通信的服务器(未示出)的一部分，无论相机106、麦克风104和显示器111是否是电子设备103的一部分。因此，装置100可以利用通信元件来接收空间音频数据和视频图像并且提供信令以引起图像被显示器显示。

无论装置100以何种方式体现，诸如以服务器或电子设备103的一部分的形式，装置100可以包括或连接到处理器101和存储器102，并且可以被配置为执行计算机程序代码。装置100可以仅具有一个处理器101和一个存储器102，但是应当理解，其他实施例可以利用多于一个处理器和/或多于一个存储器(例如，相同或不同的处理器/存储器类型)。此外，装置100可以是专用集成电路(ASIC)。

处理器可以是专用于根据以计算机程序代码形式存储在存储器中的指令来执行/处理从其他组件(诸如从麦克风104、相机106和触敏用户输入设备112)接收的信息的通用处理器。由处理器的这样的操作生成的输出信令被提供给另外的组件，诸如显示器111或被配置为按照装置100的指令处理空间音频数据的音频处理模块。在其他示例中，装置100可以包括用于处理空间音频数据的部件并且可以修改空间音频捕获属性。

存储器102(不一定是单个存储器单元)是存储计算机程序代码的计算机可读介质(本示例中为固态存储器，但可以是其他类型的存储器，诸如硬盘驱动器、ROM、RAM、闪存等)。当程序代码在处理器上运行时，该计算机程序代码存储由处理器可执行的指令。在一个或多个示例实施例中，存储器与处理器之间的内部连接可以理解为在处理器与存储器之间提供主动耦合以允许处理器访问存储在存储器上的计算机程序代码。

在该示例中，相应处理器和存储器在内部彼此电连接以允许相应组件之间的电通信。在该示例中，所有组件彼此靠近放置，以便一起形成为ASIC，换言之，以便集成在一起作为可以安装到电子设备中的单个芯片/电路。在一些示例中，一个或多个或所有组件可以彼此分离放置。

在一个或多个示例中，装置100被配置为接收空间音频数据，该空间音频数据包括从围绕电子设备103延伸的空间105中的一个或多个音频源捕获的音频。在图1的示例中，包括四个音频源，包括在相机106的视场107内的第一音频源113和第二音频源114以及在相机106的视场107(即，区域110)外的第三音频源115和第四音频源116。装置100可以被配置为当第一音频源113至第四音频源116当前正在生成音频时将它们识别为音频源。在其他示例中，当自音频源上次生成音频起小于预定静默时间时，第一音频源113至第四音频源116可以被视为音频源。取决于用户偏好，静默时间可以包括多达5、10、20、30、40、50或60秒或更多。因此，装置100可以被配置为分析所捕获的音频并且基于音频当前是可听的还是在静默时间内已经可听来确定其中的一个或多个音频源。在其他示例中，该装置可以接收标识音频源存在于空间音频数据中的何处的信息。空间音频数据还包括至少指示朝向所述一个或多个音频源的方向的方向信息。因此，方向信息可以指示第一音频源113的第一方向117；第二音频源114的第二方向118；第三音源115的第三方向119；以及第四音频源116的第四方向120。应当理解，空间音频数据可以以多种不同方式编码并且方向117-120可以被记录为元数据或者音频本身可以被编码以指示方向117-120以及其他技术。

如上所述，装置100可以被配置为接收由电子设备103的相机106捕获的视频图像，其中空间音频数据被捕获的空间105的空间范围大于视场107。因此，来自第三音频源115和第四音频源116的音频在空间音频数据中具有特征，但是第三音频源115和第四音频源116的图像在给定时间在视频图像中不具有特征。应当理解，电子设备103可以在视频图像和空间音频数据被捕获的同时围绕空间105移动，使得视场随着时间落在其他音频源上。因此，在视场107内的音频源可以随时间改变。

示例图2示出了电子设备103及其显示器111，显示器111上呈现有用户界面。装置100被配置为提供来自相机106的视频图像的显示。因此，装置100可以提供信令使得在相机106的视场107内捕获的视频图像被呈现在显示器111上。应当理解，相机捕获的内容的范围可能与显示器111上呈现的内容不完全相同。例如，相机106可以默认地裁剪(crop)区域以使视频图像的分辨率或方面匹配显示器111。因此，相机106的视场107可以被认为包括用于在显示器111上呈现的视场。在图2的示例中，第一音频源113以及第二音频源114在被提供用于在显示器111上呈现的视频图像中是可见的。

示例图2示出了视图外图形200的第一示例。视图外图形200包括被显示以表示视场107外的空间105的空间范围的图形元素或图像。特别地，它可以表示在视场107外的空间105的范围，空间音频数据从该范围被捕获，诸如仅在视场外的空间105的那部分。因此，出现在视频图像中的音频源不在视图外图形200上表示。在一个或多个示例中，视图外图形200可以不仅表示视场107外的空间105，并且可以包括表示视场107内的空间105的部分的部分。

在该示例和其他示例中，视图外图形200包括椭圆的扇区，诸如半个椭圆。因此，椭圆或圆可以用于表示围绕电子设备103的空间105的360度，而半椭圆或其他扇形部分可以表示在视场107外的空间105的区域110。在一个或多个示例中，视图外图形200具有第一径向部分201和第二径向部分202，第一径向部分201表示与视场107的至少第一边缘108相对应的方向，第二径向部分202表示与视场107的至少第二边缘109相对应的方向，第二边缘109与第一边缘108相对。假定视图外图形200表示空间105的视场107外的部分。视图外图形内的定位可以用于表示接收音频源115、116的音频的方向。

为了提供对基于示出在显示器111上的定位而选择的音频源的音频捕获属性的控制，装置100可以将所显示的视频图像或视图外图形200的区域/部分与一个或多个音频源中的每个音频源相关联，音频源本身可以从方向信息中确定。因此，对于视场107内的音频源113、114，装置100可以将视频图像的区域203、204与音频源113，114或朝向音频源的方向相关联。对于视场107外的第三音频源115和第四音频源116，装置100可以关联与朝向音频源115、116的方向相对应的示出为标记215和216的视图外图形200的一部分。因此，标记215表示朝向第三音频源115的位置或方向，并且标记216表示朝向第四音频源116的位置或方向。

装置100可以被配置为接收用户输入。在该示例中，用户输入可以通过在触敏用户输入设备112处的用户输入来提供。应当理解，可以使用其他用户输入方法，诸如眼睛注视位置或通过控制器对光标或指针的移动。用户输入在显示器111上的定位可以选择视频图像的区域或者选择视图外图形200的一部分，诸如区域203、204中的一个或标记215或216中的一个。给定为这些区域203、204和标记215、216进行的关联，装置100被提供有来自第一音频源113至第四音频源116中的一个的音频的选择。应当理解，在其他示例中，可以进行多项选择。在示例图2中，手指206所示的用户已经选择标记216并且因此选择空间音频数据中的第四音频源116的音频。

装置100可以被配置为提供对至少一个音频捕获属性的控制，其中该控制特定于所述一个或多个音频源113-116中的所选择的音频源。

因此，装置100可以被配置为接收空间音频数据，该空间音频数据表示从比共同接收的视频图像的空间范围更大的方向范围捕获的音频。因此，电子设备103或更一般地是传入的空间音频数据和视频图像具有技术限制，即，在音频源113-116的音频被捕获时，在没有诸如球形布置的相机布置等多相机的情况下，无法捕获同等程度的视觉图像。这种多相机布置可能会限制可以捕获空间音频数据的情况，因为这种多相机布置通常是庞大和笨重的。因此，装置100以如下方式提供对空间音频数据和视频图像的处理以及对界面的呈现，该方式使得可以克服与空间音频捕获的控制相关联的问题以及相机106的较小视场与空间音频数据的较大捕获领域相结合的技术限制。

视图外图形200被示出为具有若干箭头，箭头可以被标记以帮助用户理解所表示的内容。例如，箭头207可以标记有180°以示出它表示与视频图像的正前方方向成180°方向。类似地，其他箭头208和209可以标记有135°和225°以示出由视图外图形200的这些部分表示的方向。

在一个或多个示例中，装置100可以通过诸如耳机等音频呈现设备(未示出)来提供空间音频数据的呈现。在其他示例中，考虑到电子设备103的用户将能够第一手听到作为空间音频数据而捕获的音频，空间音频数据的呈现可能不是必需的。然而，空间音频数据的呈现可能是有利的，使得用户可以了解他们通过用户输入指示的改变对音频捕获属性的影响。因此，在一个或多个示例中，该装置可以被配置为仅提供来自已经修改音频捕获属性的音频源的音频的呈现。

标记215、216在视图外图形200上的位置可以实时或周期性地更新以表示视场107外的音频源的当前定位。如果音频源从区域110移动到视场107内，则可以从显示器移除其相关联的标记。同样地，如果音频源移动到区域110，则装置100可以向视图外图形200添加标记。在一个或多个示例中，在视觉上类似于标记215、216或不同的(多个)标记可以在视频图像的一个或多个区域203、204处呈现，该区域对应于朝向视场107内的一个或多个音频源的一个或多个方向。因此，该装置可以提供标记的呈现以指示装置100将视频图像中的人视为当前时间的第一音频源113或第二音频源114，并且示出音频源的定位(除了在视频图像中具有特征的音频源)。在一个或多个示例中，用于视频图像中的音频源的标记可以包括轮廓或半透明阴影以标记相关区域203、204。

在一个或多个示例中，装置100被配置为在空间音频数据和视频图像被捕获时提供对现场音频捕获属性的控制。在一个或多个示例中，空间音频数据和视频图像被同时捕获并且记录，并且该装置被提供有预先记录的空间音频数据和预先记录的视频图像。

对音频捕获属性的控制可以以各种方式提供。在一个或多个示例中，装置100可以被配置为控制如何捕获空间音频数据，诸如通过修改麦克风104的布置或麦克风104的参数，诸如应用于音频源的增益或(多个)麦克风的定向焦点。在一个或多个示例中，装置100可以被配置为控制如何记录空间音频数据，并且因此可以提供对空间音频数据的音频处理并且记录空间音频数据和对其应用的音频捕获属性的修改。控制音频捕获属性的目的可以是提供对来自特定音频源113-116或方向的音频的强化。

在一个或多个示例中，对音频捕获属性的控制通过使用波束成形技术来提供。波束成形技术可以用于捕获所选择的音频源的单声道音频流。单声道音频流可以特定于所选择的音频源，而其他音频源可以共同记录在公共流中。波束成形技术可以提供空间音频数据，该空间音频数据在所选择的方向上的音频源相对被强化和/或在其他方向上的音频源相对被减弱。波束成形技术的一个示例是延迟求和波束成形技术，该技术利用至少三个麦克风的麦克风阵列来将麦克风聚焦在从所选择的音频源或方向的音频捕获上。备选地，波束成形技术可以包括用于形成波束成形输出的参数空间音频处理，其中空间音频的某个(某些)区域或方向从表示从空间105接收的音频的空间音频场中被强化或“提取”。

因此，标识视频图像和视图外图形200中的任何一个上的定位的用户输入可以引起装置100控制所选择的音频源的音频捕获属性，诸如通过波束成形。

在一个或多个示例中，对至少一个音频捕获属性的控制包括被配置为相对于应用于空间音频数据的其他音频源113、114、115的音频的音量增益以较大音量增益来捕获或记录所选择的一个音频源116的部件。因此，用于增加音量水平的音频处理可以选择性地应用于来自第四音频源116的方向的音频。应当理解，在其他示例中，不是包括音量增益，而是音频捕获属性可以包括捕获来自所选择的音频源/方向的音频的质量。因此，与用于空间音频数据的其他音频的比特率相比，可以使用较高比特率来记录来自所选择的音频源116的音频。

在所描述的示例中，提及可以将对音频捕获属性的控制应用于从所选择的方向接收的音频或应用于来自所选择的音频源的音频。在一个或多个实施例中，这两者可以被认为是可互换的。然而，装置100可以被配置为标识朝向音频源的方向，并且从而标识空间音频数据中的音频源的存在。装置100可以被配置为使用方向信息确定具有高于预定阈值的音量的音频从哪个方向被接收。如果从特定方向接收到高于阈值的音频，则可以确定该方向指向音频源。

可以使用不同技术来定位空间105中的主要声源。一个示例是转向响应功率相位变换(SRP-PHAT)。该算法可以被理解为一种基于波束成形的方法，该方法搜索音频源的候选定位或方向并且最大化用于“扫描”空间105的受控延迟求和波束成形器的输出。在一个或多个示例中，为了限制该方法的计算负担，可以将电子设备103的正面、背面和/或侧面划分为固定大小的扇区，并且为每个扇区设计固定波束成形器，该固定波束成形器由麦克风或麦克风阵列形成，一起在104示出。可以理解，可以应用过滤来仅标识满足期望阈值的音频源。在一个或多个示例中，该装置可以被配置为应用深度学习方法或语音活动检测来确定音频源何时是活动的，然后经由波束成形手段(诸如SRP-PHAT)搜索其位置/方向。当确定位置时，可以进行关联和/或将标记215、216放置在视图外图形200上的适当点处。在一个或多个示例中，装置100可以应用阈值持续时间，在该阈值持续时间期间，音频源需要是活动的才能将其检测为音频源。这可以有助于过滤掉持续时间较短的声音，这些声音可能被认为是不需要的噪声。

示例图3示出了视图外图形300的备选实施例。示例图3类似于示例图2，并且因此使用相同的附图标记，除了用于视图外图形300。因此，在该示例中，视图外图形包括线，其中沿着线从其一端301到另一端302的定位表示从至少与视场107的第一边缘108相对应的方向到至少与跟第一边缘108相对的视场107的第二边缘109相对应的方向接收音频源的音频的方向。

如前所述，提供标记215和216以显示在线上以表示视场107外的空间105中的音频源的位置。在该示例中，仅表示麦克风104周围的方位角方向。然而，在其他示例中，可以描绘音频源113-116的球形定位，即，具有在围绕电子设备103延伸的水平面之上或之下的高度。

因此，参考示例图4，在一个或多个示例中，视图外图形400包括线，其中沿着线从其一端到另一端的定位表示方位角方向，音频源的音频从该方位角方向从与视场的至少第一边缘108相对应的方位角方向到与跟第一边缘相对的视场的至少第二边缘109相对应的方位角方向被接收，并且其中视图外图形400(例如，线)上方或下方的距离401、402对应于接收音频源115、116的音频的仰角方向。因此，表示第三音频源115的标记215被示出为在线的两端之间在中央并且在线上方距离401处，以表明音频是从麦克风104后面和上方接收的。此外，表示第四音频源116的标记216被示出为在线下方距离402处，以表明音频是从麦克风104右侧和上方接收的。可以理解，在一些示例中，可以仅为高于水平面或仅为低于水平面的音频源提供高度。

用户输入已经被描述为引起对音频捕获属性的控制，这可以通过将预定音频焦点应用于音频源来提供，诸如通过音频处理或波束成形。在一个或多个示例中，应用音频处理或波束成形或其他控制的度是可控的。装置100可以被配置为提供一种有效的方法来选择和控制控制被应用于什么音频以及如何控制音频捕获属性。

示例图5与示例图4基本相同，并且应用了相同的附图标记。在一个或多个示例中，装置100可以被配置为接收捏合手势。图5示出了用户的两个手指501和502在标记216中的一个上执行捏合手势。应当理解，捏合手势可以应用于其他标记215或应用于在视频图像中可见的音频源113、114。

装置100可以被配置为通过应用具有与捏合手势的大小503相关的度的波束成形技术来提供对所述音频捕获属性的修改。应当理解，捏合手势可以用于选择音频源中的一个以及控制对音频捕获属性的改变度。在一个或多个示例中，可以在应用捏合手势以“预览”最终效果期间执行对音频捕获属性的控制。在一个或多个示例中，当捏合手势完成并且用户的手指从显示器111移开时可以确定大小503。总而言之，用户输入可以包括在触敏用户输入设备112上在一位置(例如，标记216的位置)处选择视频图像的区域或视图外图形的部分并且控制修改音频捕获属性的度的捏合手势。

在波束成形技术的应用方面，捏合手势的大小503可以确定空间音频数据中音频焦点相对于其他空间音频数据的主导度。例如，捏合手势可以控制波束成形技术提供的波束宽度或最大增益。在一个或多个示例中，波束宽度是波束成形技术的宽度，其以音频源在其中被放大和音频源在其之外被衰减的扇区的度为单位(例如，相对于放大源)。在一个或多个示例中，最大增益是最大放大声源与最大衰减声源的分贝差。

该装置可以被配置为通过控制表示由捏合手势选择的音频源的标记的大小来向捏合手势提供用户反馈。因此，标记216被示出为大于标记215，因为它已经引起相关联的第四音频源116的音频通过波束成形或以其他方式被修改而被聚焦。

示例图6示出了应用于视图外图形300的一部分600的用户输入，在该部分600处没有标记并且因此没有音频源。应当理解，用户输入可能已经被应用于没有关联音频源的视频图像区域。响应于这样的用户输入，装置100可以被配置为提供对第二标记601的显示以指示在与视频图像的所选择的区域或视图外图形300的部分相对应的方向上不存在音频源。第二标记601的颜色或图案或外观可以与标记215、216不同。

图7示出了图示以下步骤的流程图：接收701空间音频数据，该空间音频数据包括从围绕捕获设备延伸的空间中的一个或多个音频源被捕获的音频和至少指示朝向所述一个或多个音频源的方向的方向信息，其中空间音频数据由所述捕获设备捕获；

接收702由捕获设备的相机捕获的视频图像，该视频图像具有视场，其中空间音频数据被捕获的空间的范围大于视场；

针对视场内的音频源，将根据方向信息而被确定的一个或多个音频源中的每个音频源关联于703与朝向音频源的方向相对应的视频图像区域，并且针对视场外的音频源，将根据方向信息而被确定的一个或多个音频源中的每个音频源关联于703与朝向音频源的方向相对应的视图外图形的一部分，视图外图形指示视场外的空间的空间范围；

提供704视频图像与视图外图形一起在显示器上的显示；

接收705用以选择视频图像的区域或视图外图形的一部分的用户输入；

提供706对所述一个或多个音频源中的选择的一个音频源的至少一个音频捕获属性的控制，其中所述一个或多个音频源中的所述选择的一个音频源包括与由用户输入选择的区域或部分相关联的一个或多个音频源中的音频源。

该方法的特征可以在于以上关于该装置而描述的任何特征。

图8示意性地示出了根据示例的提供程序的计算机/处理器可读介质800。在该示例中，计算机/处理器可读介质是诸如数字多功能盘(DVD)或压缩盘(CD)等盘。在一些示例中，计算机可读介质可以是已经以执行发明功能的方式被编程的任何介质。计算机程序代码可以分布在多个相同类型的存储器之间，也可以分布在诸如ROM、RAM、闪存、硬盘、固态等多个不同类型的存储器之间。

用户输入可以是手势，其包括轻敲、轻扫、滑动、按压、保持、旋转手势、靠近设备的用户界面的静态悬停手势、靠近设备的移动悬停手势、弯曲设备的至少一部分、挤压设备的至少一部分、多指手势、倾斜设备或翻转控制设备中的一种或多种。此外，手势可以是使用用户身体的任何自由空间用户手势，诸如他们的手臂，或触控笔或适合执行自由空间用户手势的其他元素。

上述示例中所示的装置可以是便携式电子设备、笔记本电脑、手机、智能电话、平板电脑、个人数字助理、数码相机、智能手表、智能眼镜、笔式计算机、非便携式电子设备、台式计算机、显示器、智能电视、服务器、可穿戴设备、虚拟现实设备、或用于上述各项中的一个或多个的模块/电路系统。

任何提及的设备和/或特定提及的装置的其他特征可以由布置成使得它们被配置为仅在启用(例如，开机等)时执行期望操作的装置提供。在这种情况下，它们可能不必在非启用(例如，关闭状态)下将适当软件加载到活动存储器中，而仅在启用(例如，打开状态)下加载适当软件。该装置可以包括硬件电路系统和/或固件。该装置可以包括加载到存储器上的软件。这样的软件/计算机程序可以记录在相同的存储器/处理器/功能单元和/或一个或多个存储器/处理器/功能单元上。

在一些示例中，特定提到的装置可以用适当软件预编程以执行期望操作，并且其中适当软件可以被启用以供用户下载“密钥”使用，例如，以解锁/启用软件及其相关功能。与这样的示例相关联的优点可以包括当设备需要更多功能时减少下载数据的要求，并且这在设备被认为具有足够能力来存储这样的预编程软件以实现用户可能未启用的功能的示例中是有用的。

任何提到的装置/电路系统/元件/处理器除了提到的功能之外还可以具有其他功能，并且这些功能可以由相同的装置/电路系统/元件/处理器来执行。一个或多个公开的方面可以包括记录在适当载体(例如，存储器、信号)上的相关计算机程序和计算机程序(其可以是源/传输编码的)的电子分发。

本文中描述的任何“计算机”可以包括一个或多个个体处理器/处理元件的集合，这些处理器/处理元件可以位于或可以不位于同一电路板或电路板的同一区域/定位或甚至同一设备上。在一些示例中，任何提到的处理器中的一个或多个可以分布在多个设备上。相同或不同的处理器/处理元件可以执行本文中描述的一个或多个功能。

术语“信令”可以是指作为一系列传输和/或接收的电/光信号而传输的一个或多个信号。该系列信号可以包括用于组成所述信令的一个、两个、三个、四个或甚至更多个个体信号分量或不同信号。这些个体信号中的一些或全部可以通过无线或有线通信同时、依次和/或以使得它们在时间上彼此重叠的方式被传输/接收。

参考任何提及的计算机和/或处理器和存储器(例如，包括ROM、CD-ROM等)的任何讨论，这些可以包括计算机处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、和/或已经以使得能够执行本发明的功能的方式被编程的其他硬件组件。

申请人在此单独公开本文中描述的每个个体特征以及两个或更多个这样的特征的任何组合，以使得这样的特征或组合能够鉴于本领域技术人员的一般知识基于本说明书作为整体来实现，而无论这样的特征或特征组合是否解决了本文中公开的任何问题，并且不限制权利要求的范围。申请人指出，所公开的方面/示例可以由任何这样的个体特征或特征组合组成。鉴于前面的描述，本领域技术人员很清楚的是，可以在本公开的范围内进行各种修改。

虽然已经示出和描述并且指出了应用于其示例的基本新颖特征，但是应当理解，在不脱离本公开的范围的情况下，本领域技术人员可以对所描述的装置和方法的形式和细节进行各种省略和替换以及改变。例如，以基本相同的方式执行基本相同的功能以实现相同的结果的这些元件和/或方法步骤的所有组合都在本公开的范围内。此外，应当认识到，结合任何公开的形式或示例而示出和/或描述的结构和/或元件和/或方法步骤可以作为一般设计事项选择并入任何其他公开或描述或建议的形式或示例中。此外，在权利要求中，手段加功能条款旨在涵盖本文中描述为执行上述功能的结构，并且不仅是结构等效物，而且是等效结构。因此，虽然钉子和螺钉可能不是结构等效物，因为钉子采用圆柱面将木制部件固定在一起，而螺钉采用螺旋面，但在紧固木制部件的环境中，钉子和螺钉可以是等效结构。

Claims

1.一种装置，包括被配置为进行以下操作的部件：

接收空间音频数据，所述空间音频数据包括从围绕捕获设备延伸的空间中的一个或多个音频源被捕获的音频和至少指示朝向所述一个或多个音频源的方向的方向信息，其中所述空间音频数据由所述捕获设备捕获；

接收由所述捕获设备的相机捕获的视频图像，所述视频图像具有视场，其中所述空间音频数据被捕获的所述空间的范围大于所述视场；

针对所述视场内的音频源，将根据所述方向信息而被确定的所述一个或多个音频源中的每个音频源关联于与朝向所述音频源的所述方向相对应的所述视频图像的区域，并且针对所述视场外的音频源，将根据所述方向信息而被确定的所述一个或多个音频源中的每个音频源关联于与朝向所述音频源的所述方向相对应的视图外图形的一部分，所述视图外图形指示所述视场外的所述空间的空间范围；

提供所述视频图像与所述视图外图形一起在显示器上的显示；

接收用以选择所述视频图像的区域或所述视图外图形的一部分的用户输入；

提供对所述一个或多个音频源中的选择的一个音频源的至少一个音频捕获属性的控制，其中所述一个或多个音频源中的所述选择的音频源包括与由所述用户输入选择的所述区域或所述部分相关联的所述一个或多个音频源中的音频源。

2.根据权利要求1所述的装置，其中所述部件被配置为在以的一项或多项处提供对标记的显示：

与朝向所述一个或多个音频源的一个或多个所述方向相对应的所述视图外图形的一个或多个所述部分；以及

与朝向所述一个或多个音频源的一个或多个所述方向相对应的所述视频图像的一个或多个所述区域。

3.根据权利要求1或权利要求2所述的装置，其中对至少一个音频捕获属性的所述控制包括：所述部件被配置为提供信令以引起使用波束成形技术对所述选择的一个音频源的捕获或记录。

4.根据任一项前述权利要求所述的装置，其中对至少一个音频捕获属性的所述控制包括所述部件被配置为进行以下操作至少一项：

相对于应用于所述空间音频数据的其他音频的音量增益以更大的音量增益来捕获或记录所述选择的一个音频源；

相对于应用于所述空间音频数据的其他音频的质量以较高质量来捕获或记录所述选择的一个音频源；或者

将所述选择的一个音频源的所述音频捕获或记录为与所述空间音频数据的其他音频分离的音频流。

5.根据任一项前述权利要求所述的装置，其中所述部件被配置为通过使用所述方向信息确定具有高于预定阈值的音量的音频从哪个方向被接收，来确定所述一个或多个音频源。

6.根据任一项前述权利要求所述的装置，其中指示所述视场外的所述空间的所述空间范围的所述视图外图形包括以下至少一项：

线，其中沿着所述线从其一端到另一端的定位表示与所述视图外图形相关联的所述音频源的所述音频被接收的方向，其中所述线的所述一端表示至少与所述视场的第一边缘相对应的方向，并且所述线的所述另一端表示至少与跟所述第一边缘相对的所述视场的第二边缘相对应的方向；或者

椭圆的扇区，其中所述扇区内的定位表示与所述视图外图形相关联的所述音频源的所述音频被接收的方向，其中所述扇区的第一部分表示至少与所述视场的第一边缘相对应的方向，并且所述扇区的第二部分表示至少与跟所述第一边缘相对的所述视场的第二边缘相对应的方向。

7.根据任一项前述权利要求所述的装置，其中指示所述视场外的所述空间的所述空间范围的所述视图外图形表示围绕所述捕获设备的平面，其中所呈现的标记相对于所述视图外图形的定位表示所述音频源的所述音频被接收的方位角方向，并且其中在所述视图外图形上方或下方的一距离处被描绘的所呈现的标记的定位对应于所述音频源的所述音频在所述平面上方或下方被接收的仰角方向。

8.根据任一项前述权利要求所述的装置，其中所述部件被配置为：基于包括在触敏输入设备上在一位置处选择所述视频图像的所述区域或所述视图外图形的所述部分的轻敲的所述用户输入，通过应用波束成形技术修改所述音频捕获属性来提供对至少一个音频捕获属性的控制，所述波束成形技术聚焦于与选择的所述区域或所述部分相对应的所述空间的所述区域。

9.根据任一项前述权利要求所述的装置，其中所述部件被配置为：基于包括在触敏输入设备上在一位置处选择所述视频图像的所述区域或所述视图外图形的所述部分的捏合手势的所述用户输入，通过应用波束成形技术修改所述音频捕获属性来提供对至少一个音频捕获属性的控制，所述波束成形技术具有与所述捏合手势的大小相关的度的角度。

10.根据任一项前述权利要求所述的装置，其中所述部件被配置为：基于所接收的所述用户输入选择了不存在相关联的音频源的所述视频图像的区域或所述视图外图形的一部分，提供对第二标记的显示，以指示在与所述视频图像的所选择的区域或所述视图外图形的一部分相对应的方向上不存在音频源。

11.根据权利要求3所述的装置，其中所述波束成形技术包括以下至少一项：选择的所述音频源被强化的音频的延迟求和波束成形技术或参数空间音频处理技术。

12.根据任一项前述权利要求所述的装置，其中所述部件被配置为利用具有受控音频捕获属性的选择的所述音频源来提供所述空间音频数据的呈现和记录中的一项或两项。

13.一种电子设备，包括根据任一项前述权利要求所述的装置、被配置为捕获所述视频图像的相机、被配置为捕获所述空间音频数据的多个麦克风、以及供所述装置使用以将所述视频图像与所述视图外图形一起显示的显示器。

14.一种方法，所述方法包括：

针对所述视场内的音频源，使根据所述方向信息而被确定的所述一个或多个音频源中的每个音频源关联于与朝向所述音频源的所述方向相对应的所述视频图像的区域，并且针对所述视场外的音频源，使根据所述方向信息而被确定的所述一个或多个音频源中的每个音频源关联于与朝向所述音频源的所述方向相对应的视图外图形的一部分，所述视图外图形指示所述视场外的所述空间的空间范围；

15.一种包括存储在其上的计算机程序代码的计算机可读介质，所述计算机可读介质和所述计算机程序代码被配置为当在至少一个处理器上运行时执行方法，所述方法包括：