CN111512371B

CN111512371B - 用于所捕获的空间音频内容的呈现的装置和相关方法

Info

Publication number: CN111512371B
Application number: CN201880083288.XA
Authority: CN
Inventors: L·拉克索南; A·勒蒂涅米; T·马基南; M·海基南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2017-12-22
Filing date: 2018-12-11
Publication date: 2021-10-22
Anticipated expiration: 2038-12-11
Also published as: WO2019121150A1; CN111512371A; US11223925B2; JP7037654B2; EP3503102A1; US20200389755A1; JP2021508193A

Abstract

一种装置，被配置为：基于(i)场景的所捕获的空间音频内容，其包括音频，该音频与至少指示场景中的上述音频被捕获的方向的信息相关联；以及(ii)视觉焦点信息，其包括至少指示场景的第一部分的信息，场景的对应的捕获的视觉图像被聚焦在第一部分上以呈现给用户；提供所捕获的空间音频内容的呈现以伴随所捕获的视觉图像，所捕获的空间音频内容被呈现为空间音频，所提供的用于呈现的空间音频内容具有选择性地应用于从场景的不同于第一部分的第二部分捕获的音频的空间音频焦点，空间音频焦点包括用于增加具有与第二部分相对应的方向的音频的可听性的音频修改效果。

Description

用于所捕获的空间音频内容的呈现的装置和相关方法

技术领域

本公开涉及空间音频内容的呈现领域。特别地，它涉及焦点在空间音频内容的一部分上的空间音频内容的呈现、相关的装置、方法和计算机程序。

背景技术

空间音频内容的呈现为用户提供了丰富的体验。但是，丰富的体验可能使这样的内容的呈现不堪重负或难以理解。因此，以有效方式提供空间音频内容的呈现可能是困难的。

本说明书中对先前出版的文档或任何背景的列出或讨论不一定被认为确认该文档或背景是现有技术的一部分或是公知常识。本公开的一个或多个方面/示例可以解决或未解决一个或多个背景问题。

发明内容

在第一示例方面，提供了一种装置，该装置包括被配置为以下的部件：

基于

(i)场景的所捕获的空间音频内容，该场景包括音频，该音频与至少指示场景中的方向的信息相关联，音频从该方向被捕获；以及

(ii)视觉焦点信息，包括至少指示场景的第一部分的信息，场景的对应的所捕获的视觉图像被聚焦在第一部分上以呈现给用户；

提供所捕获的空间音频内容的呈现以伴随所捕获的视觉图像的呈现，所捕获的空间音频内容被呈现为空间音频，空间音频被配置为向用户提供音频源自在所捕获的空间音频内容中指示的方向的感知，空间音频内容被提供用于具有空间音频焦点的呈现，该空间音频焦点选择性地应用于从场景的不同于第一部分的第二部分捕获的音频，空间音频焦点包括音频修改效果，该音频修改效果用于相对于来自场景中的其他地方的音频增加具有与第二部分相对应的方向的音频的可听性。

在一个或多个示例中，第二部分是由该装置基于特定于用户的音频焦点信息来选择的，所捕获的视觉图像和所捕获的空间音频内容旨在呈现给用户，并且该装置包括被配置为基于以下至少之一来确定音频焦点信息的部件：

a)来自用户的对场景的至少一部分的用户选择；

b)用户设置的简档设置，指示用户偏好的音频或音频源中的一者或多者；

b)历史数据，与用户相关联并且指示用户对共同特征的一个或多个用户选择，共同特征以可听方式存在于所捕获的空间音频内容中或者以可视方式出现在所捕获的视觉内容中，并且在先前已经被呈现给用户并且由用户选择的不同的所捕获的视觉和音频内容中；

c)历史位置数据，与用户相关联并且指示共同特征，共同特征以可听方式存在于所捕获的空间音频内容中或者以可视方式出现在所捕获的视觉内容中，并且在先前已经在于场景的所确定的位置相对应的位置处被呈现给用户的不同的所捕获的视觉和音频内容中；

d)时间特定数据，包括历史数据，历史数据指示对于所捕获的空间音频内容是共同的并且在相关时间段捕获的不同的所捕获的视觉和音频内容中的音频，该相关时间段包括最近时间段或者一天或一年中的对应时间。

在一个或多个示例中，该装置具有在提供所捕获的空间音频内容的呈现时被配置为基于所捕获的空间音频内容的捕获时间和捕获位置中的一者或两者来将所捕获的空间音频内容与有关所捕获的空间音频内容的不同的捕获的空间音频内容进行混合的部件，空间音频焦点被应用于混合的不同的捕获的空间音频内容的第二部分。

在一个或多个示例中，场景的第一部分包括以下至少一项：

a)当前被提供用于呈现的所捕获的视觉内容的整个空间范围；

b)当前被提供用于呈现的所捕获的视觉内容的整个空间范围的子区段；

c)当前别提供用于呈现并且已经由用户选择的所捕获的视觉内容的一部分。

在一个或多个示例中，所捕获的视觉内容和所捕获的空间音频内容被提供用于实况呈现，并且用于具有选择性地应用的空间音频焦点的呈现的、所捕获的空间音频内容的提供提供反馈信令到捕获所捕获的空间音频内容的内容捕获设备的发送，反馈信令被配置为提供由内容捕获设备对音频修改效果的应用。

在一个或多个示例中，所捕获的视觉内容和所捕获的空间音频内容是预先记录的所捕获的内容，所捕获的视觉内容是以光学可重聚焦格式捕获的，光学可重聚焦格式使得以下成为可能：根据视觉焦点信息，就视觉图像的景深的位置和深度中的一者或两者而言的光学焦点的改变。

在一个或多个示例中，基于场景的所捕获的视觉图像，该装置被配置为提供具有场景的第一部分的所捕获的视觉图像的呈现，场景的第一部分在视觉焦点信息中被定义为被聚焦用于呈现给用户。

在一个或多个示例中，场景的第一部分将在至少以下之一方面被聚焦用于呈现：

i)第一部分包括场景的空间子区段，该空间子区段在被提供用于呈现的视图内；以及

ii)第一部分包括被提供用于呈现的视图的空间子区段，该空间子区段相对于被提供用于显示的光学聚焦较少的视图的其余部分处于光学聚焦。

在一个或多个示例中，场景的所捕获的视觉图像包括以下中的一项：

a)场景的静止视觉图像；

b)场景的视频图像；

c)场景的虚拟现实图像，虚拟现实图像具有比在任何一个时刻能够呈现给用户的空间范围大的空间范围。

在一个或多个示例中，该装置具有被配置为执行以下操作的部件：

基于

(i)视觉焦点信息的变化，用以至少定义场景的第三部分，被提供用于呈现给用户的所捕获的视觉图像应当被聚焦在第三部分上；以及

(ii)所捕获的空间音频内容的持续呈现，以伴随所捕获的视觉图像的呈现；

提供选择性地应用的空间音频焦点向如下音频的变化，该音频从场景的不同于第二部分的第四部分捕获。

在一个或多个示例中，该装置具有被配置为执行以下的部件：

基于

(i)对所捕获的空间音频内容的分析，指示场景中的音频源的变化和场景中的音频源的位置的变化中的一者或两者；以及

提供选择性地应用的空间音频焦点向如下音频的变化，该音频从场景的不同于第一部分和第二部分的第四部分捕获。

在一个或多个示例中，所捕获的视觉内容和所捕获的空间音频内容被提供用于实况呈现，并且该装置包括被配置为以下的部件：基于在所捕获的空间音频内容被捕获时对其的计算机实现的分析来确定场景的一个或多个候选第二部分，该装置被配置为选择候选第二部分中的一个或多个候选第二部分用于上述空间音频焦点的应用。

在一个或多个示例中，所捕获的视觉内容和所捕获的空间音频内容是预先记录的内容，并且该装置包括被配置为以下的部件：基于至少部分地在提供所捕获的空间音频内容用于呈现之前对所捕获的空间音频内容的计算机实现的分析，来确定场景的一个或多个候选第二部分，该装置被配置为选择候选第二部分中的一个或多个候选第二部分用于上述空间音频焦点的应用。

在一个或多个示例中，被提供有空间音频焦点的音频进一步呈现有用户可选择的链接，其中该装置具有在用户选择链接时被配置为提供不同的所捕获的视觉图像和对应的所捕获的视觉图像的呈现的部件，不同的所捕获的视觉图像和对应的所捕获的视觉图像具有以下中的一项或多项：

(i)所捕获的空间音频内容，基于音频分析而被确定为与被提供有空间音频焦点的音频相比在听觉上相似，以及

(ii)所捕获的视觉图像，被确定为包含音频源的图像，音频源的图像与被提供有空间音频焦点的音频的所确定的源有关。

在一个或多个示例中，音频焦点信息是基于呈现给用户的空间音频内容的多个实例，使用神经网络来确定的。

在第二示例方面，提供了一种方法，该方法包括：

基于

(i)场景的所捕获的空间音频内容，所述场景包括音频，该音频与至少指示场景中的方向的信息相关联，该音频从该方向被捕获；以及

提供所捕获的空间音频内容的呈现以伴随所捕获的视觉图像的呈现，所捕获的空间音频内容被呈现为空间音频，空间音频被配置为向用户提供音频源自在所捕获的空间音频内容中指示的方向的感知，空间音频内容被提供用于具有空间音频内容的呈现，空间音频焦点选择性地应用于从场景的不同于第一部分的第二部分捕获的音频，空间音频焦点包括音频修改效果，该音频修改效果用于相对于来自场景中的其他地方的音频增加具有与第二部分相对应的方向的音频的可听性。

在第三示例方面，提供了一种计算机可读介质，该计算机可读介质包括存储在其上的计算机程序代码，该计算机可读介质和计算机程序代码被配置为当在至少一个处理器上运行时执行以下方法：

基于

(i)场景的所捕获的空间音频内容，场景包括音频，该音频与至少指示场景中的方向的信息相关联，上述音频从该方向被捕获；以及(ii)视觉焦点信息，其包括至少指示场景的第一部分的信息，场景的对应的捕获的视觉图像被聚焦在第一部分上以呈现给用户；

提供所捕获的空间音频内容的呈现以伴随所捕获的视觉图像的呈现，所捕获的空间音频内容被呈现为空间音频，空间音频被配置为向用户提供音频源自在所捕获的空间音频内容中指示的方向的感知，空间音频内容被提供用于具有空间音频焦点的呈现，空间音频焦点选择性地应用于从场景的不同于第一部分的第二部分捕获的音频，空间音频焦点包括音频修改效果，该音频修改效果用于相对于来自场景中的其他地方的音频增加具有与第二部分相对应的方向的音频的可听性。

在第四示例方面，提供了一种装置，该装置包括：

至少一个处理器；以及

至少一个存储器，包括计算机程序代码，

至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少执行以下操作：

基于

(i)场景的所捕获的空间音频内容，场景包括音频，该音频与至少指示场景中的方向的信息相关联，上述音频从该方向被捕获；以及(ii)视觉焦点信息，包括至少指示场景的第一部分的信息，场景的对应的所捕获的视觉图像被聚焦在第一部分上以呈现给用户；

本公开内容以隔离或多种组合的方式包括一个或多个对应的方面、示例或特征，而无论是否以该组合或隔离的方式具体说明(包括要求保护)。用于执行所讨论的功能中的一个或多个功能的对应模块和对应功能单元(例如，功能使能器、AR/VR图形显现器、显示设备)也在本公开的范围内。

用于实现所公开的方法中的一种或多种方法的对应计算机程序也在本公开的范围内，并且被所描述的示例中的一个或多个示例所涵盖。

以上概述旨在仅是示例性而非限制性的。

附图说明

现在仅通过示例的方式参考附图进行描述，在附图中：

图1示出了用于提供由内容捕获设备捕获的场景的所捕获的空间音频内容和视觉图像的呈现的示例装置；

图2示出了该装置的示例框图；

图3示出了图示该装置的示例操作流程的流程图；

图4示出了图示该装置的另一示例操作流程的流程图；

图5示出了图示该装置的又一示例操作流程的流程图；

图6是示出使用中的装置的示例的流程图；

图7示出了图示示例方法的流程图；以及

图8示出了计算机可读介质。

具体实施方式

参考图1，系统100并且尤其是装置101提供所捕获的空间音频内容的呈现。在一个或多个示例中，装置101以所捕获的视觉图像和所捕获的空间音频内容的形式提供视听内容的呈现。空间音频内容以使得能够捕获场景中的音频源的空间布置以在回放空间音频内容时可听地提供场景的再现的方式被捕获。所捕获的空间音频内容可以被呈现以使得用户将呈现给他们的音频感知为源自与场景中的空间布置相对应的特定方向和/或位置。因此，所捕获的空间音频内容可以被认为提供虚拟音频场景，该虚拟音频场景可以利用布置在捕获设备周围的音频源来复制真实世界的场景或者可以包括计算机生成的场景。

如所提及的，空间音频包括以这样的方式呈现给用户的音频，即该音频被感知为源自特定位置，就像该音频的一个或多个源位于特定相应位置一样。空间音频可以在没有伴随视觉图像或具有静止或运动视觉图像(例如，图片或视频)的情况下被呈现。虚拟现实内容可以被提供有空间音频，使得音频被感知为源自虚拟现实(VR)空间中的一个或多个点，该虚拟现实(VR)空间可以被链接到VR内容的图像。增强或混合现实内容可以被提供有空间音频，使得空间音频被感知为源自用户可见的现实世界对象和/或覆盖在用户视图上的增强现实图形。

用于生成“虚拟音频场景”的空间音频的空间定位可以通过3D音频效果来提供，诸如利用头部相关传递函数来创建空间音频空间的那些音频效果，音频可以在该空间音频空间中被定位以用于向用户呈现。可以通过耳机使用头部相关传递函数(HRTF)过滤技术来呈现空间音频，或者对于扬声器，可以通过使用矢量基幅度平移技术(VBAP)来定位音频内容的(多个)所感知的听觉源来呈现空间音频。在其他实施例中，环境立体声音频呈现可以用于呈现空间音频。空间音频可以使用向用户的每只耳朵的可听呈现之间的音量差异、时序差异和音高差异中的一个或多个来产生感知，即音频的起源是在空间中的特定位置。距音频源的感知距离可以通过控制用于指示距空间音频的感知源的接近度或距离的混响量、频率含量控制和增益来显现。

内容捕获设备102可以用于捕获场景104的至少空间部分103的视觉图像以及来自场景104的全向音频内容。内容捕获设备102可以包括具有空间音频捕获能力或与空间音频捕获能力相关联的静止图像相机。内容捕获设备102可以包括具有空间音频捕获能力或与空间音频捕获能力相关联的摄像机。内容捕获设备102可以包括相机，或者智能电话包括相机，该相机用于捕获运动图像或静止图像并且具有空间音频捕获能力或与空间音频捕获能力相关联。在一个或多个示例中，内容捕获设备包括虚拟现实内容捕获设备，这将在下面进行描述。

虚拟现实(VR)可以使用VR显示器，包括头戴式耳机(诸如眼镜或护目镜或虚拟视网膜显示器)或者围绕用户的用于向用户提供沉浸式的虚拟体验的一个或多个显示屏。可以包括或不包括VR显示器的虚拟现实装置可以提供表示虚拟现实场景的多媒体VR内容以用于向用户呈现，以模拟用户正存在于虚拟现实场景内。因此，在一个或多个示例中，VR装置可以向VR显示器提供信令以向用户显示VR内容，而在一个或多个其他示例中，VR装置可以是VR显示器的一部分，例如，头戴式耳机的一部分。因此，虚拟现实场景可以包括显示在三维虚拟现实空间内的VR内容，使得用户感觉沉浸在场景中，就像他们在场一样，并且可以在VR空间中查看显示在他们周围的VR内容。虚拟现实场景可以复制真实世界场景以模拟在物理上出现在真实世界位置处的用户，或者虚拟现实场景可以是计算机生成的或者是计算机生成的内容与真实世界多媒体内容的组合。因此，VR内容可以被认为包括图像(例如，静态或视频图像)、音频和/或伴随数据，可以根据这些图像、音频和/或伴随数据来生成虚拟现实场景以供显示。因此，VR装置可以通过生成用于在其中显示VR内容的虚拟三维VR空间来提供VR场景。虚拟现实场景可以由全景视频(诸如全景实况广播)提供，该全景视频包括具有宽或360°视场(或更多，诸如在水平方向的视场上方和/或下方，例如360°×180°)的视频。全景视频可以具有宽视场，因为它的空间范围大于用户的视场或者大于全景视频打算与之一起显示的视场。

被提供用于向用户呈现的VR内容可以包括例如由VR内容捕获设备捕获的真实世界的实况或记录图像。示例VR内容捕获设备包括诺基亚技术OZO设备。由于VR场景通常大于用户可以通过VR显示器查看的部分，因此VR装置可以提供VR场景的虚拟现实视图以供在VR显示器上向用户显示，该VR视图仅示出了可以随时查看的VR内容的空间部分。VR装置可以基于用户头部和/或眼睛的移动来在VR场景中提供VR视图以供平移。VR内容捕获设备可以被配置为捕获VR内容以显示给一个或多个用户。VR内容捕获设备可以包括一个或多个相机、以及被配置为从捕获视角来捕获周围的视觉和听觉场景的可选的一个或多个(例如，定向)麦克风或麦克风阵列。在一些示例中，VR内容捕获设备包括多个物理上分离的相机和/或麦克风。因此，可以使用VR内容捕获设备来捕获(和记录)音乐表演，该VR内容捕获设备可以放置在舞台上，其中表演者可以围绕它或从观众的视角来看移动。在每种情况下，VR内容的消费者都可以能够使用VR装置的VR显示器来环顾四周以体验捕获位置的性能就好像它们存在一样。

增强现实(AR)可以使用AR显示器(诸如眼镜或护目镜或虚拟视网膜显示器)来用计算机生成的内容(其可以根据所捕获的内容以电子方式来创建或裁剪或以其他方式提取)来增强真实世界的视图(诸如通过眼镜或护目镜看到的)。可以包括或不包括AR显示器的增强现实装置可以提供多媒体AR内容的呈现，该多媒体AR内容被配置为覆盖在用户对真实世界的视图之上。因此，增强现实的用户可以能够查看周围的真实世界环境，该真实世界环境通过由增强现实装置提供的内容被增强或补充，该内容可以覆盖在他们对真实世界的视图上和/或可听见地覆盖在他们可以听到的听觉真实世界场景上。内容可以包括多媒体内容，诸如图片、照片、视频、图表、文本信息、听觉内容等。因此，尽管增强现实可以通过添加计算机生成的图形和/或音频内容来提供对真实世界的直接查看，但是虚拟现实的用户基本上可以只能看到虚拟现实装置的VR显示器上呈现的内容，而无需直接查看真实世界。

虚拟现实内容可以包括预定义查看位置VR或自由查看位置VR，并且呈现上述VR内容的VR装置可以提供预定义查看位置VR或自由查看位置VR。在预定义查看位置VR中，用户在虚拟现实空间中的位置可以是固定的或者遵循预定义路径。因此，用户可以相对于被提供以供在虚拟现实空间中在其周围显示的虚拟现实图像来自由地改变他们的查看方向，但是用户可能不能自由地在VR空间中随意改变他们的查看位置来探索VR空间。因此，用户可以从固定的视角或查看位置(或基于VR内容捕获设备在场景中的位置的有限数目的位置)体验这样的VR内容。在预定义查看位置VR的一些示例中，图像可以被视为移动经过它们。在真实世界的所捕获的预定义查看位置VR内容中，可以向用户提供VR内容捕获设备的视角。预定义查看位置VR内容可以在VR空间中为用户提供三个自由度，包括查看方向围绕x、y和z轴中的任一个的旋转，并且因此可以称为三自由度VR(3DoF VR)。

本文中描述的示例装置的实施例可以包括VR或AR装置。AR或VR内容可以是预定义观看位置类型或自由观看位置类型。在很多示例中，AR主要被认为是自由观看位置类型，尤其是在将内容映射到真实世界几何图形时。

在一个或多个示例中，当将音频呈现为空间音频时，鉴于空间音频的身临其境的特性，体验可能会非常丰富且令人不知所措，尤其是在伴随有诸如VR内容等视觉内容的情况下。在一个或多个示例中，用户可能难以从所捕获的音频的空间音频呈现和视觉图像的呈现来理解场景102。在一个或多个示例中，用户可能难以快速标识场景中最相关的内容并因此例如难以决定是继续浏览场景还是结束内容的呈现并且可能切换到不同场景。装置101可以以改善用户体验的方式来提供所捕获的空间音频内容的呈现，并且在至少一些示例中，装置101有助于理解场景以及其中提供的各种音频和视觉内容。因此，在一个或多个示例中，可能难以有效地呈现空间音频内容。在现实世界中，用户可能会更加了解自己的周围环境并且因此可以了解他们所处的场景。但是，在呈现可以模拟真实世界位置或包括计算机生成的位置的空间音频和视觉图像时，可能存在较少理解并且因此呈现内容的方式提出了一项技术挑战以确保内容的使用者了解他们被呈现的内容的上下文。作为另外的示例，其中存在真实世界和增强刺激的增强现实的呈现可能会令人困惑，并且因此增强现实内容的有效呈现可能是有利的。

图1的示例系统100示出了用于通过呈现设备来呈现所捕获的空间音频内容的装置101，该呈现设备可以至少包括耳机105或其他形式的音频呈现设备，诸如扬声器。装置101可以包括计算装置106的一部分，诸如移动电话、智能电话、智能手表、膝上型计算机、平板计算机或可穿戴设备等。在该示例中，处理器101A和存储器101B由计算装置106和装置101共享，但是在其他示例中，它们可以具有其自身的处理器和/或存储器。

装置101可以包括或连接到处理器101A和存储器101B，并且可以被配置为执行计算机程序代码。装置101可以仅具有一个处理器101A和一个存储器101B，但是应当理解，其他实施例可以利用一个以上的处理器和/或一个以上的存储器(例如，相同或不同的处理器/存储器类型)。此外，装置101可以是专用集成电路(ASIC)。

处理器可以是通用处理器，其专用于根据以计算机程序代码的形式存储在存储器中的指令来执行/处理从其他组件(诸如从音频焦点信息装置107和内容存储库108)接收的信息。由处理器的这样的操作生成的输出信令被继续提供给其他组件，诸如呈现设备105。

存储器101B(不一定是单个存储器单元)是存储计算机程序代码的计算机可读介质(在该示例中为固态存储器，但是可以是其他类型的存储器，诸如硬盘驱动器、ROM、RAM、闪存等)。当程序代码在处理器上运行时，该计算机程序代码存储由处理器可执行的指令。在一个或多个示例实施例中，存储器与处理器之间的内部连接可以被理解为在处理器与存储器之间提供主动耦合，以允许处理器访问存储在存储器上的计算机程序代码。

在该示例中，各个处理器和存储器在内部彼此电连接以允许相应组件之间的电通信。在该示例中，所有组件都彼此靠近放置，以便一起形成为ASIC，换言之，以便一起集成为可以安装到电子设备中的单个芯片/电路。在一些示例中，一个或多个或所有组件可以彼此分离放置。

装置101或在装置101的控制下的计算装置106可以提供所捕获的空间音频内容以及可选的所捕获的视觉图像用于呈现。在一个或多个示例中，装置101可以被配置为提供所捕获的空间音频内容而不是所捕获的视觉图像用于呈现。可以提供视觉图像内容以供不同装置(诸如装置106)显示。但是，在其他实施例中，装置101或装置101和106的组合可以提供所捕获的视觉图像和所捕获的空间音频内容用于呈现。在一个或多个示例中，呈现设备105包括显示器和耳机，并且在其他示例中，呈现设备包括VR头戴式耳机。

装置101可以从存储库108接收表示所捕获的空间音频内容的信令，该信令可能已经被一个或多个内容捕获设备102捕获。如上所述，捕获设备102可以包括VR内容捕获设备，诸如Nokia OZO相机。捕获设备102可以被配置为捕获其所在的场景的至少空间音频内容。在一个或多个示例中，内容捕获设备102被配置为捕获场景104的视觉图像和空间音频内容。

装置101可以被配置为提供实况呈现(例如，在捕获事件的时间)或预先记录的空间音频内容(例如，在捕获事件的时间之后)。因此，在预先记录的内容的情况下，存储库108可以表示装置101可以访问的包括所捕获的空间音频内容的副本的物理存储设备或远程服务器。在实况内容的情况下，存储库108可以表示所捕获的空间音频内容在被呈现给用户之前的缓冲或瞬时存储。此外，包括内容捕获设备102、存储库108和装置106、108的系统100可以包括单个设备，并且因此，场景的捕获和呈现可以由同一装置提供。在其他示例中，内容捕获设备102可以与装置101、106分离，并且所捕获的空间音频内容和视觉图像可以被传输给存储库108以供一个或多个其他装置101访问。虽然系统100示出了两个捕获内容以及用于呈现内容的装置101、106、105，但是这可能仅仅是为了理解整个系统，并且内容的捕获和存储可以从所捕获的内容的呈现来远程地执行。

示例场景104包括父亲110和儿子111以及宠物狗112。如由虚线113表示的表示所捕获的视觉图像的视场的内容捕获设备102正在捕获或已经捕获了父亲110和儿子111的视觉图像，而狗112在视场113之外。可以理解，视场113可以表示所捕获的内容的空间范围，并且可以在所捕获的视觉内容中观看，但是在其他示例中，所捕获的内容的空间范围可以大于在任何时候呈现给用户的内容的空间范围。场景104包括多个音频源，包括父亲喊声114、狗叫声115和另一音频源116。因此，所捕获的音频在场景104中具有方向117、118、119或位置，这些方向或位置被捕获设备102捕获。因此，在一个或多个示例中，一个或多个定向麦克风可以用于区分来自不同方向的音频。在一个或多个示例中，诸如在电视制作实施例中，可以从与每个音频源相关联的位置跟踪的特写麦克风来接收音频。在一个或多个示例中，捕获音频的方式(诸如环境立体声音频捕获或其他相关的多麦克风配置和捕获处理)固有地提供音频源的空间布置用于重新创建。

在一个或多个示例中，装置101可以被配置为提供所捕获的空间音频内容的呈现以伴随所捕获的视觉图像的呈现，例如，所捕获的视觉图像也可以被提供以由装置101或由装置106呈现。装置101可以基于以下接收信息来提供上述呈现：

(i)所捕获的空间音频内容；

(ii)视觉焦点信息；以及(可选的)

(iii)音频焦点信息。

场景104的所捕获的空间音频内容可以包括从场景104中的音频源114、115、116捕获的音频，该音频与至少指示场景104中捕获上述音频的方向117、118、119的信息相关联。在一个或多个示例中，所捕获的音频可以与指示场景104中的位置(诸如相对于内容捕获设备102的位置)的信息相关联。所捕获的空间音频内容可以包括计算机生成的内容。

所捕获的视觉图像的呈现可以被提供有焦点。在一个或多个示例中，焦点可以包括所捕获的视觉图像的当前视场113，并且因此可以包括相对于场景104的焦点。因此，视觉图像的具有焦点的部分可以包括当前提供用于呈现给用户的该视觉图像。在一个或多个示例中，所捕获的视觉图像的空间范围可以大于被提供用于呈现给用户的空间范围，并且因此焦点可以包括当前提供用于呈现的所捕获的视觉内容的整个空间范围的空间子区段。在一个或多个示例中，焦点可以包括视觉图像的整个空间范围或当前呈现给用户或用户已经选择的空间范围的空间子区段。该空间子区段可以具有视觉效果，以在提供用于呈现给用户的剩余视觉图像上对其区分。因此，总而言之，焦点包括场景或其一部分的视觉图像的视图，该视图或其一部分通过视觉差异在呈现给用户的内容的其余部分上被赋予焦点。

提供给装置101的视觉焦点信息可以向装置101通知场景104的至少第一部分120(如所捕获的视觉图像中表示的)或者被提供用于呈现给用户的内容的空间子区段。因此，第一部分120可以包括在所捕获的场景中的什么地方或在当前呈现给用户的视图中的什么地方被聚焦以呈现给用户的指示。所捕获的视觉图像的呈现可以由不同的装置提供，并且因此视觉焦点信息可以由上述不同的装置报告或响应于装置101的查询而提供。在一个或多个示例中，装置101还提供所捕获的视觉图像用于呈现，并且因此装置101可以确定第一部分。

因此，基于上述信息，装置101可以提供所捕获的空间音频内容用于呈现以伴随所捕获的视觉图像的呈现，所捕获的空间音频内容被呈现为空间音频，该空间音频被配置为向用户提供源自在所捕获的空间音频内容中指示的方向的音频的感知。在一个或多个示例中，装置101提供空间音频内容的呈现，其中空间音频焦点选择性地仅应用于从场景的不同于第一部分120的部分捕获的所捕获的空间音频内容的一部分。在该示例中，空间音频焦点被应用于来自捕获场景104的不同于第一部分120的第二部分121的音频。应当理解，空间音频焦点可以被应用于一个或多个第二部分121，诸如在捕获场景104中可以在空间上彼此分离的第二部分。

第二部分121的选择还可以基于音频焦点信息。音频焦点信息包括指示捕获场景104的至少一部分的信息，如所捕获的空间音频内容中表示的，所捕获的空间音频内容可以被聚焦在该部分上。音频焦点信息可以提供场景的多个候选部分。音频焦点信息可以简单地标识从其接收到音频(即，从方向117、118、119)的场景的部分，如所捕获的空间音频内容中表示的。在一个或多个示例中，可以从音频焦点确定装置107接收音频焦点信息。音频焦点确定装置107可以对所捕获的空间音频内容执行计算机实现的音频分析以标识音频源110、112、116，并且可以将其中的一个或多个建议为相对于预定准则而言最相关。音频焦点确定装置107可以基于对所捕获的视觉图像的视觉分析来确定所捕获的空间音频内容应当聚焦在其上的场景104的(多个)部分。因此，在该示例中，音频焦点确定装置107可以确定音频114是父亲在叫狗，但是狗不在视场中。因此，可以选择所捕获的空间音频内容应当聚焦在其上的场景104的至少一部分作为方向118上与狗112相对应的部分。在一个或多个示例中，音频聚焦确定装置107可以包括装置101的一部分，并且因此装置101可以确定所捕获的空间音频内容应当聚焦在其上的场景104的一部分。

音频焦点信息可以是用户特定的，所捕获的视觉图像和所捕获的空间音频内容旨在被呈现给该用户。因此，装置101可以被提供有标识要被呈现所捕获的视觉图像和所捕获的空间音频内容的用户的信息，并且因此可以向用户定制所捕获的视觉图像和所捕获的空间音频内容的呈现。在其他示例中，装置101可以被提供有与至少不同的视听内容的历史观看有关的参数，其可以用作标识用于针对当前视听内容来进行聚焦的空间视频内容的一部分的基础。

因此，基于上述信息，装置101可以提供所捕获的空间音频内容的呈现以伴随所捕获的视觉图像的呈现，所捕获的空间音频内容被呈现为空间音频，该空间音频被配置为向用户提供源自在所捕获的空间音频内容中指示的方向的音频的感知。在一个或多个示例中，装置101基于音频焦点信息来提供具有选择性地仅应用于所捕获的空间音频内容的一部分的空间音频焦点的空间音频内容的呈现。在该示例中，空间音频焦点被应用于来自捕获场景104的不同于第一部分120的第二部分121的音频。应当理解，空间音频焦点可以应用于一个或多个第二部分121，诸如在捕获场景104中可以在空间上彼此分离的第二部分。

在一个或多个示例中，音频焦点信息可以包括捕获场景104的一个或多个部分，并且可以排除第一部分120。在一个或多个其他示例中，音频焦点信息可以建议捕获场景104的多个部分，并且装置101可以至少基于准则来选择这些多个部分中在位置或方向方面与第一部分120不同的部分。

在该示例中，空间音频焦点包括音频修改效果，该音频修改效果用于相对于来自捕获场景104中的其他地方的音频(诸如来自方向117、119的音频)增加具有与第二部分相对应的方向118的音频的可听性。可听性的这种增加可以通过以下中的任一项来实现：(i)向来自方向118的音频提供更大的相对音量增益；(ii)衰减来自所捕获的场景102中的其他地方的音频的音量；(iii)增加来自方向118的空间音频的感知的空间宽度，或者(i)、(ii)和(iii)中的两个或更多个的组合。因此，在一个或多个示例中，具有在第二部分上的音频焦点的音频修改效果相对于不是来自第一部分的其他音频增加了来自第二部分的音频的可听性。

因此，在一个或多个示例中，向视觉焦点提供不同的音频焦点可以帮助用户理解所捕获的视觉图像和空间音频内容。在该示例中，第二部分121与第一部分120不重叠，但是在其他示例中，二者可以重叠。在一个或多个示例中，第二部分121被选择为在视场113之外。在其他示例中，第一部分和第二部分都可以在视场113之内。例如，所捕获的视觉图像的呈现可以聚焦在儿子111上。作为示例，视觉图像可以具有狭窄的景深，并且因此，更靠近内容捕获设备的儿子111可以处于光学聚焦，而父亲110可能未处于光学聚焦。因此，视觉焦点信息可以将第一部分指示为与所捕获的场景中存在儿子111的部分相对应。音频焦点信息可以将音频114指定为应当被应用音频修改效果的所捕获的场景的一部分，并且因此，视觉图像可以聚焦在儿子111上，而空间音频内容可以聚焦在来自父亲110的音频114上。

如上所述，装置101可以提供对音频焦点信息的确定。音频焦点信息可以基于如下中的一者或两者：基于预定准则的所捕获的空间音频内容的计算机实现的音频分析和所捕获的视觉图像的计算机实现的视觉分析。装置101可以被配置为使得针对视觉焦点的第一部分的选择可以驱动针对音频焦点信息的不同部分的选择。音频焦点信息可以通过神经网络处理或其他机器学习技术来确定。神经网络处理或机器学习技术可以基于例如呈现给用户(或很多不同用户)的其他空间音频内容被训练。音频焦点信息可以例如基于与视觉焦点信息有关的上下文重要性来选择。因此，第二部分121的选择可能是相关的，并且在一些示例中是用户特定的。

在一个或多个示例中，音频焦点信息可以基于来自用户的对捕获场景104的至少一部分的用户选择。因此，查看所捕获的空间音频和视觉图像内容的用户可以手动选择第二部分121以及可选的第一部分120。

在一个或多个示例中，音频焦点信息可以基于用户设置的简档设置，该简档设置指示音频偏好，诸如优选声音(诸如音乐或鸟鸣类型)或特定音频源(诸如可能出现在视觉图像中的家庭成员或动物)。

在一个或多个示例中，音频焦点信息可以基于与装置101向其提供用于呈现的内容的用户相关联的历史数据。历史数据可以指示用户对他们已经消费的其他内容中的音频源的一个或多个用户选择。相应地，以可听方式存在于所捕获的空间音频内容中或者以可视方式出现在所捕获的视觉内容中的特征可以基于它们还出现在先前已经呈现给用户并且可选地由用户手动选择的不同的捕获的视觉和音频内容中而通过视觉和/或音频分析来标识。

在一个或多个示例中，音频焦点信息可以基于位置特定数据，该位置特定数据包括与用户相关联的历史位置数据并且指示共同特征，该共同特征以可听方式存在于所捕获的空间音频内容中或者以可视方式出现在所捕获的视觉内容中，并且在先前已经在与场景的所确定的位置相对应的位置处被呈现给用户的不同的所捕获的视觉和音频内容中。对应位置可以是对应地理位置或对应区域、建筑物或房间，诸如公园(可能具有不同地理位置的公园)、图书馆(可能具有不同地理位置的图书馆)或客厅或厨房(可能位于不同房子)。

在一个或多个示例中，音频焦点信息可以基于时间特定数据，该时间特定数据包括历史数据，该历史数据指示对于所捕获的空间音频内容是共同的并且在相关时间段捕获的不同的所捕获的视觉和音频内容中的音频，该相关时间段包括最近时间段或者一天或一年中的对应时间。因此，作为示例，在去年圣诞节期间捕获的视频中存在的空间音频内容可以在当年圣诞节期间捕获的内容中被标识，并且可以被标识用于音频修改效果的应用。

因此，总体而言，音频焦点信息可以基于标识空间音频和视觉图像的呈现对象的用户的信息，并且基于关于用户的已知信息进行定制以在用户消费所捕获的视觉图像和所捕获的空间音频内容时为他们提供定制体验。

在一个或多个示例中，该装置具有在提供所捕获的空间音频内容用于呈现时被配置为基于其捕获时间和捕获位置中的一者或两者来将所捕获的空间音频内容与与所捕获的空间音频内容相关的不同的捕获的空间音频内容进行混合的部件，空间音频焦点被应用于混合的不同的捕获的空间音频内容的第二部分。因此，由装置101接收的所捕获的空间音频内容可以包括来自场景的内容，但是还可以包括来自不同场景的内容，该内容通过用户偏好、时间或位置之一被确定为与场景相对应。

所捕获的空间音频内容和对应的视觉图像可以实况呈现或者可以被记录并且然后在稍后的时间呈现。

在一个或多个示例中，所捕获的视觉图像和所捕获的空间音频内容被提供用于实况呈现，并且装置101对空间音频焦点的应用提供反馈信令到内容捕获设备102的发送。因此，视觉图像和空间音频内容的消费者可以控制设备102如何捕获内容。反馈信令可以被配置为提供内容捕获设备102对音频修改效果的应用。因此，装置101可以提供在内容捕获设备102处的空间音频增益的应用的控制，或者可以控制麦克风指向的方向。这可以减少由内容捕获设备102向存储库108传输的数据，因为可以根据用户的期望在内容捕获设备102处处理或捕获所捕获的空间音频内容。因此，以适当的增益设置来捕获空间音频内容可以提供音频修改效果的应用。反馈控制信道122可以提供上述控制。该通信信道122可以直接提供或经由网络提供。

在其他示例中，无论是实况呈现还是预先记录的，所捕获的视觉图像都可以以光学可重新聚焦的格式被捕获，该格式使得能够就视觉图像的景深的位置和深度中的一者或两者根据视觉焦点信息来改变光学焦点。应当理解，在视觉图像的呈现中，光学焦点包括视觉图像的清晰度，其中物体的深度相对于从中捕获或显现所捕获的视觉图像的视点而出现在视觉图像中。

如可重新聚焦图像格式的技术人员所知，内容捕获设备可以包括光场相机。在其他示例中，所捕获的视觉图像可以与场景深度信息相关联使得在所捕获的视觉图像中出现在视觉图像中的对象的深度是已知的，并且因此就视觉图像的景深的清晰度和深度而言的模拟的光学焦点可以通过图像处理的方式被应用于所捕获的视觉图像。在其他实施例中，可重新聚焦图像格式可以基于在不同聚焦距离和/或景深处的若干单独的图像捕获。这样的方法可能特别适合于静止图像捕获而不是视频捕获。

如以上简要提到的，基于来自存储库108的场景104的所捕获的视觉图像，装置101可以被配置为提供所捕获的视觉图像用于呈现，捕获场景104的第一部分120在被聚焦以呈现给用户的视觉焦点信息中定义。就第一部分120而言，可以将捕获场景104的第一部分120视为被聚焦用于呈现给用户，该第一部分120包括在被提供用于呈现的视图113内的捕获场景104的空间子区段。在一个或多个示例中，第一部分120包括被提供用于呈现的视场113的空间子区段，该空间子区段相对于被提供用于显示的光学聚焦较少的视场113中的视觉图像的其余部分处于光学聚焦。因此，装置101可以提供使用可重新聚焦图像格式的视觉图像的光学焦点的控制，或者可以提供用于提供相似的感知视觉效果的光学聚焦效果的应用。

所捕获的视觉图像可以具有多种不同形式。例如，场景104的所捕获的视觉图像包括以下之一：

a)场景的静止图像；

b)实况的视觉图像；

c)场景的虚拟现实图像，该虚拟现实图像的空间范围大于在任何时候能够呈现给用户的空间范围113。

在所捕获的视觉图像和所捕获的空间音频内容的呈现期间，装置101可以提供音频焦点应用于哪个音频的改变或更新。该改变或更新可以响应于视觉焦点信息的变化或所捕获的空间音频内容本身的变化。例如，在视频图像的情况下，先前聚焦的音频源可能已经离开场景104，并且因此可能不再存在于所捕获的空间音频内容中。另一方面，随着时间的推移，音频源可能会变得不活动。在预先记录的内容的情况下，还可以知道音频源从活动状态到非活动状态的转变是否是永久变化。在实况捕获的情况下，通常不知道例如讲话者(或其他音频源)在其当前讲话完成并且讲话者变得不活跃之后是否保持沉默。由于这些原因，音频焦点目标的更新可以包括时间延迟或滞后。

在一个或多个示例中，装置101可以被配置为：基于(i)视觉焦点信息的变化，视觉焦点信息用于至少定义捕获的场景104的不同于第一部分120的第三部分，被提供用于呈现给用户的所捕获的视觉图像应当被聚焦在该第三部分上；以及(ii)所捕获的空间音频内容的持续呈现，该持续呈现伴随所捕获的视觉图像的呈现；提供选择性地应用于从场景的不同于第二部分121的第四部分捕获的音频的空间音频焦点的变化。

作为上述示例，儿子111可能突然对某事做出反应。因此，在该示例中，第三部分可以包括示出儿子111的视觉图像的一部分。然后，提供用于呈现给用户的视觉图像可以被修改为使儿子111变为光学聚焦，而父亲110可变为稍微超出光学聚焦。在一个或多个示例中，视觉焦点信息的变化可以触发装置101提供对所捕获的空间音频内容的音频分析，该音频分析可以标识来自源116的很大声音的发生，儿子111可能已经对此做出了反应。因此，音频焦点可以被改变以应用于第四部分，该第四部分可以包括捕获场景104的包含另一音频源116的部分。在一个或多个示例中，场景的包括另一音频源116的部分可以被添加到第二部分121中应用于狗112的现有音频焦点，而不是替换第二部分121。因此，可以将音频修改效果应用于包含来自狗112的音频的第二部分121和包含来自音频源116的音频的第四部分两者。

作为装置101如何被配置为对所捕获的空间音频内容中的变化做出反应的示例，装置101可以基于(i)对所捕获的空间音频内容的计算机实现的分析，其指示场景中的音频源114、115、116的变化和场景中的音频源114、115、116的位置的变化中的一者或两者；以及(ii)所捕获的空间音频内容的持续呈现，其用于伴随所捕获的视觉图像的呈现；提供选择性地应用于从场景的不同于第一部分120和第二部分121的第四部分捕获的音频的空间音频焦点的变化。如在先前的示例中，第四部分可以包括包括音频源116的部分。在一个或多个示例中，音频分析可以由装置101执行。音频分析可以包括基于所捕获的空间音频来监测来自场景104的捕获音频的不同部分的音频内容的存在或不存在以标识场景的包括音频的各部分。音频分析可以包括跟踪通过捕获场景104的音频的音频的运动以更新对其应用音频焦点的部分的位置。音频分析可以包括对可能引起音频的对象或出现的音频识别，可以针对它们的相关性对音频进行分类或排序，诸如针对标识为存在于所捕获的视觉图像中的对象。

装置101所提供的音频分析可以应用于实况捕获的空间音频内容或预先记录的捕获的空间音频内容。在实况内容的情况下，仅当前和/或过去的内容可以进行音频分析。然而，对于预先记录的内容，音频分析可以在当前回放时间点之前被应用于所捕获的空间音频内容，该当前回放时间点可以被提供用于呈现给用户。

因此，在其中所捕获的视觉内容和所捕获的空间音频内容被提供用于实况呈现的一个或多个示例中，装置101可以包括被配置为根据与所捕获的空间音频内容一起提供的方向信息来确定捕获场景104的一个或多个候选第二部分的部件。一个或多个候选第二部分的确定可以基于对所捕获的空间音频内容在被捕获时的计算机实现的分析，装置101被配置为选择一个或多个上述候选第二部分用于上述空间音频焦点的应用。

因此，在所捕获的视觉内容和所捕获的空间音频内容是预先记录的内容的一个或多个示例中，装置101可以包括被配置为根据与所捕获的空间音频内容一起提供的方向信息来确定捕获场景104的一个或多个候选第二部分的部件。一个或多个候选第二部分的确定可以至少部分在提供所捕获的空间音频内容用于呈现之前基于对所捕获的空间音频内容的计算机实现的分析，装置101被配置为选择一个或多个上述候选第二部分用于上述空间音频焦点的应用。

在以上示例中，就在其上提供视觉焦点以呈现给用户的所捕获的视觉图像而言的捕获场景的部分的变化、以及就被应用音频焦点的所捕获的空间音频内容而言的所捕获的场景音频的部分的变化可以逐渐提供以避免焦点的突然变化。因此，可以在预定的转变时间段内提供改变，在该时间段内，减少至少一个第二部分的增加的可听性，同时增加新的第二部分的可听性。

当浏览包括所捕获的视觉图像和所捕获的空间音频内容的视听内容的多个实例时，音频焦点的应用可以具有进一步有益的应用。

因此，在一个或多个示例中，提供有空间音频焦点的所捕获的空间音频的音频进一步呈现有用户可选择的链接。可以提供视觉图形或声音或其他反馈以指示与焦点一起提供的音频是用户可选择的链接。装置101具有在链接的用户选择时被配置为提供包括不同的捕获的视觉图像和对应的不同的捕获的视觉图像的不同的视听内容用于呈现的部件。不同的捕获的视觉图像和对应的捕获的视觉图像可以具有以下中的一项或多项：(i)所捕获的空间音频内容，其基于计算机实现的音频分析而被确定为与具有空间音频焦点的音频相比在听觉上相似，以及(ii)所捕获的视觉图像，其被确定为包含与具有空间音频焦点的音频的确定源有关的音频源的图像。

因此，装置101可以被配置为基于对焦点音频的分析和用户对焦点音频的用户选择来提供与不同视听内容的链接。用户选择可以包括聚焦音频方向118上的预定手势或某种其他用户输入

如果不同的视听内容具有相似的捕获的空间音频内容，则当提供不同的视听内容以呈现给用户时，可以为与这两个视听内容相同或相似的音频提供音频焦点。如果不同的视听内容具有与具有上述焦点的音频源的身份相关的相似视觉图像，则可以提供示出上述源的在不同视听内容中的视觉图像的一部分以与视觉焦点一起呈现。

示例图2示出了图示装置101的功能框的示例布置的框图。

在框201，所捕获的视觉图像和所捕获的空间音频内容可以被提供给装置。在框202，所捕获的视觉图像可以被提供给装置101以进行显现，或者可以被提供给不同的装置以进行显现。所捕获的空间音频内容可以被传递给上下文空间音频分析框203以标识一个或多个第二部分以提供音频焦点信息的生成。框203可以执行计算机实现的视觉和/或音频分析以基于一个或多个预定准则标识来自所捕获的场景104中的不同方向以及从而来自与用户上下文相关的场景的不同部分的音频。框204包括上下文图像分析框，该上下文图像分析框表示至少在视觉图像上的计算机实现的图像分析的执行，以确定视觉图像的呈现聚焦在其上的第一部分。因此，与框203类似，框204被配置为标识所捕获的内容的上下文相关部分用于呈现，其焦点包括图像增强效果和音频修改效果。框205示出了对第一部分的选择以及因此视觉焦点信息的生成。上下文空间音频分析框203可以接收视觉焦点信息，从而由此标识的第二部分121与第一部分120不同。上下文空间音频分析框203可以基于上面提到的位置、时间、用户特定准则中的一个或多个对所捕获的空间音频执行计算机实现的分析(在具有或没有用户输入的情况下)，并且将音频焦点信息提供给框206。框206示出了基于来自框203的音频焦点信息的对一个或多个第二部分121的选择。框207示出了用于视觉图像焦点的所选第一部分以及被提供用于显现所捕获的视觉图像和所捕获的空间音频内容的所选择的空间音频内容焦点，其中相关的视觉焦点效果和音频修改效果应用于所确定的第一部分120第二部分121。框208示出了期望的视觉焦点的可能的用户选择。借助于这种用户选择，可以将第一部分120的变化提供给框207用于具有新的焦点的视觉图像的显现，并且还提供给框203用于基于第一部分120的变化来触发框203和206对不同的第二部分121的可能的确定和选择。

示例图3示出了流程图，该流程图示出了在步骤301对用于呈现的视听内容的提供以及对视觉图像焦点或空间音频焦点的应用的变化的确定。步骤302示出了对被提供用于呈现的所捕获的视觉图像的任何改变的确定。如果没有发生变化或变化低于阈值变化，则流程返回点303。如果发生视觉图像变化，则流程进行到步骤304，在步骤304中，执行上下文图像分析以确定要在其上向用户提供视觉图像的呈现的焦点的第一部分120。步骤305示出了视觉图像焦点的选择，并且步骤306示出了具有视觉焦点的视听内容的显现。

步骤307示出了装置101被配置为对所捕获的空间音频内容执行音频分析以标识音频内容的任何变化。步骤308示出了对所捕获的空间音频内容的超过预定“明显变化”阈值的任何变化的确定。该阈值可以是恒定的，或者可以至少部分基于内容来调节。如果没有发生变化或变化在阈值变化以下，则流程返回到点309。如果已经发生所捕获的空间音频的变化，则流程进行到步骤310，在步骤310中，执行上下文空间音频分析以确定要在其上向用户提供所捕获的空间音频内容的呈现的焦点的一个或多个第二部分121。步骤311示出了对空间音频焦点的选择，并且步骤306示出了具有所选择的空间音频焦点的视听内容的显现。如箭头312和313所示，视觉图像焦点的变化可以提供步骤310的发起以执行上下文空间音频分析来确定要在其上向用户提供所捕获的空间音频内容的呈现的焦点的一个或多个第二部分121。

图4和5示出了由将内容发送给不同用户的第一用户对所捕获的空间音频内容和对应的捕获的视觉图像的捕获的两个示例，其中基于被呈现内容的用户来确定视觉焦点和/或空间音频焦点。

参考图4，步骤401示出了空间音频内容和对应的视觉图像由第一用户捕获。步骤302示出了第一用户的装置确定视觉图像焦点以用于向第一用户呈现内容。步骤304示出了第一用户的装置确定用于第一用户的音频焦点以用于向第一用户呈现内容。步骤305示出了第一用户选择第二用户的装置，以向其发送所捕获的内容。如上所述，视觉和/或音频焦点可以特定于观看内容的用户。

第一用户装置被示为在306处发送上下文信息查询，该上下文信息查询可以包括内容或关于内容中存在的对象/音频源的信息。在步骤307，第二用户装置选择视觉焦点和空间音频焦点应当在何处呈现给第二用户。步骤308示出了关于由第一用户装置和第二用户装置中的一者或两者将所选择的视觉焦点和空间音频焦点应用于内容的信息。步骤309示出了第一用户装置已经向第二用户装置发送了具有第二用户的所选择的视觉焦点和所选择的空间音频焦点的所捕获的空间音频内容和对应的捕获的视觉图像。因此，第二用户接收具有针对他们的需求而定制的视觉焦点和音频焦点的内容。

图5示出了替代实施例。步骤301至307基本相同，因此使用了相同的附图标记。然而，在步骤307之后，该示例的方法前进到步骤408，在步骤408中，关于第二用户装置所做出的视觉焦点和(多个)空间音频焦点选择的信息被传送给第一用户装置。步骤409示出了第一用户装置发送具有“与接收者有关的媒体焦点信息”的内容，该内容向第二用户装置提供指令以显现在步骤306中发送的具有所选择的视觉焦点和所选择的空间音频焦点的内容。步骤410示出了第二用户装置显现具有所指示的视觉焦点和空间音频焦点的内容。

图6示出了图4和图5所示的概念的实际结果。图6示出了由包括智能电话601的第一用户装置捕获的场景600。第一用户装置然后将所捕获的内容发送给两个不同的接收者以用于在602和603处呈现。在一个或多个示例中，由于视觉焦点和空间音频焦点是特定于向其呈现内容的用户的，因此可以在每个接收者的装置处不同地显示内容。因此，装置601可以执行图4和5所示的过程中的任一过程。作为示例，内容被呈现给第一接收者，其中圆圈604所示的音频焦点在来自出现在内容中的第一人的音频上。然而，呈现给第二接收者的内容具有由圆圈605所示的音频焦点，该音频焦点聚焦在来自出现在内容中的第二人的音频上。

因此，在一个或多个示例中，该装置可以被配置为基于上下文选择信息来提供所捕获的空间音频和对应的视觉图像到第二用户装置的发送，包括视觉和/或空间音频焦点应当在内容中的何处应用，上下文选择信息是至少响应于关于从装置发送给第二用户装置的所捕获的内容的信息而从第二用户装置接收的。因此，然后可以由第二用户装置提供场景的所捕获的内容以与第二用户相关的视觉焦点和/或空间音频焦点一起呈现给第二用户。

图7示出了流程图，其示出了以下步骤：基于700

(i)场景的所捕获的空间音频内容，其包括音频，该音频与至少指示场景中的上述音频被捕获的方向的信息相关联；以及

(ii)视觉焦点信息，其包括至少指示场景的第一部分的信息，场景的对应的捕获的视觉图像被聚焦在第一部分上以呈现给用户；

提供701所捕获的空间音频内容的呈现以伴随所捕获的视觉图像，所捕获的空间音频内容被呈现为空间音频，该空间音频被配置为向用户提供源自在所捕获的空间音频内容中指示的方向的音频的感知，被提供用于呈现的空间音频内容具有选择性地应用于从场景的不同于第一部分的第二部分捕获的音频的空间音频焦点，空间音频焦点包括音频修改效果，该音频修改效果用于相对于来自场景中的其他地方的音频增加具有与第二部分相对应的方向的音频的可听性。

图8示意性地示出了根据示例的提供程序的计算机/处理器可读介质800。在该示例中，计算机/处理器可读介质是诸如数字通用盘(DVD)或光盘(CD)等盘。在一些示例中，计算机可读介质可以是已经以能够执行发明功能的方式被编程的任何介质。计算机程序代码可以分布在相同类型的多个存储器之间，也可以分布在不同类型的多个存储器之间，诸如ROM、RAM、闪存、硬盘、固态硬盘等。

用户输入可以是包括以下中的一项或多项的手势：轻击、轻扫、滑动、按压、保持、旋转手势、靠近设备的用户界面的静态悬停手势、靠近设备的移动悬停手势、弯曲设备的至少一部分、挤压设备的至少一部分、多指手势、倾斜设备、或者翻转控制设备。此外，这些手势可以是使用用户身体的任何自由空间用户手势，诸如他们的手臂、或手写笔、或适合于执行自由空间用户手势的其他适合的元件。

以上示例中示出的装置可以是便携式电子设备、膝上型计算机、移动电话、智能电话、平板计算机、个人数字助理、数字相机、智能手表、智能眼镜、基于笔的计算机、非便携式电子设备、台式计算机、监测器、智能电视、服务器、可穿戴设备、虚拟现实装置、或者用于上述中的一项或多项的模块/电路系统。

任何提及的装置和/或特定的提及的装置的其他特征可以由被布置为使得它们被配置为仅在被启用(例如，开机等)时才执行期望操作的装置来提供。在这种情况下，它们可能未必在未启用状态(例如，关闭状态)下将适当的软件加载到活动存储器中，而仅在启用状态(例如，开启状态)下加载适当的软件。该装置可以包括硬件电路系统和/或固件。该装置可以包括加载到存储器上的软件。这样的软件/计算机程序可以被记录在相同的存储器/处理器/功能单元上和/或在一个或多个存储器/处理器/功能单元上。

在一些示例中，可以使用适当的软件对特定的提及的装置进行预编程以执行期望操作，并且其中可以使得适当的软件能够被下载“密钥”的用户使用，例如，以解锁/启用该软件及其相关功能。与这样的示例相关联的优点可以包括：在设备需要其他功能时，减少下载数据的需求，并且这在其中设备被感知为具有足够的能力来存储用于用户无法启用的功能的这样的预编程软件的示例中可能很有用。

除了所提及的功能，任何提及的装置/电路系统/元件/处理器可以具有其他功能，并且这些功能可以由相同的装置/电路系统/元件/处理器来执行。所公开的一个或多个方面可以包括相关的计算机程序和记录在适当载体(例如，存储器、信号)上的计算机程序(其可以是源/传输编码的)的电子分发。

本文中描述的任何“计算机”可以包括一个或多个单独的处理器/处理元件的集合，这些处理器/处理元件可以位于或不位于同一电路板或者电路板的同一区域/位置或者甚至同一设备上。在一些示例中，任何提及的处理器中的一个或多个可以分布在多个设备上。相同或不同的处理器/处理元件可以执行本文中描述的一个或多个功能。

术语“信令”可以是指作为一系列发射和/或接收的电/光信号而传输的一个或多个信号。这一系列信号可以包括一个、两个、三个、四个或者甚至更多个单独的信号分量或不同的信号以构成上述信令。这些单独的信号中的一些或全部可以通过同时地、依次和/或以使得它们在时间上彼此重叠的方式无线或有线通信来被发射/接收。

参考对任何提及的计算机和/或处理器和存储器(例如，包括ROM、CD-ROM等)的任何讨论，这些可以包括计算机处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、和/或已经以使得能够执行本发明功能的方式进行编程的其他硬件组件。

申请人由此单独地公开了本文中描述的每个单独的特征以及两个或更多个这样的特征的任何组合，其公开程度在于，根据本领域技术人员的公知常识，可以基于本说明书作为整体来执行这样的特征或特征组合，而无论这样的特征或特征组合是否解决了本文中公开的任何问题，并且不限于权利要求的范围。申请人指出，所公开的方面/示例可以包括任何这样的单个特征或特征组合。鉴于以上描述，对于本领域技术人员很清楚的是，可以在本公开的范围内进行各种修改。

尽管已经示出和描述并且指出了应用于其示例的基本新颖特征，但是应当理解，在不脱离本公开的范围的情况下，本领域技术人员可以对所描述的设备和方法的形式和细节进行各种省略和替换以及改变。例如，明确地旨在以基本相同的方式执行基本相同的功能以实现相同的结果的元件和/或方法步骤的所有组合均在本公开的范围内。此外，应当认识到，结合任何公开的形式或示例而示出和/或描述的结构和/或元件和/或方法步骤可以作为设计选择的一般内容而并入任何其他公开的或描述的或建议的形式或示例中。此外，在权利要求书中，装置加功能条款旨在覆盖本文中被描述为执行所叙述的功能的结构，不仅覆盖结构上的等同物，而且还覆盖等同结构。因此，虽然钉子和螺钉可能不是结构上的等同物，因为钉子采用圆柱形表面将木质零件固定在一起，而钉子采用螺旋表面，但是在紧固木制零件的环境中，钉子和螺钉可能是等同结构。

Claims

1.一种用于空间音频内容的呈现的装置，所述装置包括被配置为以下的部件：

基于

(i)场景的所捕获的空间音频内容，所述场景包括音频，所述音频与至少指示所述场景中的方向的信息相关联，所述音频从所述方向被捕获；以及

(ii)视觉焦点信息，包括至少指示所述场景的第一部分的信息，所述场景的对应的所捕获的视觉图像被聚焦在所述第一部分上以呈现给用户；

提供所述场景的所捕获的所述空间音频内容的呈现以伴随所述场景的所捕获的所述视觉图像的所述呈现，所捕获的所述空间音频内容被呈现为空间音频，所述空间音频被配置为向所述用户提供所述音频源自在所捕获的所述空间音频内容中指示的所述方向的感知，所述空间音频内容被提供用于具有空间音频焦点的呈现，所述空间音频焦点选择性地应用于从所述场景的不同于所述第一部分的第二部分捕获的音频，所述空间音频焦点包括音频修改效果，所述音频修改效果用以相对于来自所述场景中的其他地方的音频而增加具有与所述第二部分相对应的方向的音频的可听性，所述第二部分是由所述装置基于特定于所述用户的音频焦点信息来选择的，所捕获的所述视觉图像和所捕获的所述空间音频内容旨在呈现给所述用户。

2.根据权利要求1所述的装置，其中所述装置包括被配置为基于以下至少之一来确定所述音频焦点信息的部件：

a)来自所述用户的对所述场景的至少一部分的用户选择；

b)用户设置的简档设置，指示所述用户偏好的音频或音频源中的一者或多者；

c)历史数据，与所述用户相关联并且指示所述用户对共同特征的一个或多个用户选择，所述共同特征以可听方式存在于所捕获的所述空间音频内容中或者以可视方式出现在所捕获的所述视觉图像中，并且在先前已经被呈现给所述用户并且由所述用户选择的不同的所捕获的视觉图像和音频内容中；

d)历史位置数据，与所述用户相关联并且指示共同特征，所述共同特征以可听方式存在于所捕获的所述空间音频内容中或者以可视方式出现在所捕获的所述视觉图像中，并且在先前已经在与所述场景的所确定的位置相对应的位置处被呈现给所述用户的不同的所捕获的视觉和音频内容中；

e)时间特定数据，包括历史数据，所述历史数据指示对于所捕获的所述空间音频内容是共同的并且在相关时间段捕获的不同的所捕获的视觉和音频内容中的音频，所述相关时间段包括最近时间段或者一天或一年中的对应时间。

3.根据权利要求1或权利要求2所述的装置，其中所述场景的所述第一部分包括以下至少之一：

a)当前被提供用于呈现的所捕获的所述视觉图像的整个空间范围；

b)当前被提供用于呈现的所捕获的所述视觉图像的整个空间范围的子区段；

c)当前被提供用于呈现并且已经由所述用户选择的所捕获的所述视觉图像的一部分。

4.根据权利要求1或权利要求2所述的装置，其中所捕获的所述视觉图像和所捕获的所述空间音频内容被提供用于实况呈现，并且用于具有选择性地应用的所述空间音频焦点的呈现的、所捕获的所述空间音频内容的所述提供，提供反馈信令到捕获所捕获的所述空间音频内容的内容捕获设备的发送，所述反馈信令被配置为提供由所述内容捕获设备对所述音频修改效果的应用。

5.根据权利要求1或权利要求2所述的装置，其中所捕获的所述视觉图像和所捕获的所述空间音频内容是预先记录的所捕获的内容，所捕获的所述视觉图像是以光学可重聚焦格式捕获的，所述光学可重聚焦格式使得以下成为可能：根据所述视觉焦点信息，就所述视觉图像的景深的位置和深度中的一者或两者而言的所述视觉焦点的改变。

6.根据权利要求1或权利要求2所述的装置，其中基于所述场景的所捕获的所述视觉图像，所述装置被配置为提供具有所述场景的所述第一部分的所捕获的所述视觉图像的呈现，所述场景的所述第一部分在所述视觉焦点信息中被定义为被聚焦用于呈现给所述用户。

7.根据权利要求1或权利要求2所述的装置，其中所述场景的所捕获的所述视觉图像包括以下中的一项：

a)所述场景的静止视觉图像；

b)所述场景的视频图像；

c)所述场景的虚拟现实图像，所述虚拟现实图像具有比在任何一个时刻能够呈现给所述用户的空间范围大的空间范围。

8.根据权利要求4所述的装置，其中所述装置具有被配置为执行以下的部件：基于(i)所述视觉焦点信息的变化，用以至少定义所述场景的第三部分，被提供用于呈现给用户的所捕获的所述视觉图像应当被聚焦在所述第三部分上；以及(ii)所捕获的所述空间音频内容的持续呈现，以伴随所捕获的所述视觉图像的呈现；

提供选择性地应用的空间音频焦点向如下音频的变化，所述音频从所述场景的不同于所述第二部分的第四部分捕获。

9.根据权利要求5所述的装置，其中所述装置具有被配置为执行以下的部件：基于(i)所述视觉焦点信息的变化，用以至少定义所述场景的第三部分，被提供用于呈现给用户的所捕获的所述视觉图像应当被聚焦在所述第三部分上；以及(ii)所捕获的所述空间音频内容的持续呈现，以伴随所捕获的所述视觉图像的呈现；

10.根据权利要求4所述的装置，其中所述装置具有被配置为执行以下的部件：基于(i)对所捕获的所述空间音频内容的分析，指示所述场景中的音频源的变化和所述场景中的音频源的位置的变化中的一者或两者；以及(ii)所捕获的所述空间音频内容的持续呈现，以伴随所捕获的所述视觉图像的呈现；

提供选择性地应用的空间音频焦点向如下音频的变化，所述音频从所述场景的不同于所述第一部分和所述第二部分的第四部分捕获。

11.根据权利要求4所述的装置，其中所捕获的所述视觉图像和所捕获的所述空间音频内容被提供用于实况呈现，并且所述装置包括被配置为以下的部件：基于在所捕获的所述空间音频内容被捕获时对其的计算机实现的分析来确定所述场景的一个或多个候选第二部分，所述装置被配置为选择所述候选第二部分中的一个或多个候选第二部分用于所述空间音频焦点的应用。

12.根据权利要求5所述的装置，其中所捕获的所述视觉图像和所捕获的所述空间音频内容是预先记录的内容，并且所述装置包括被配置为以下的部件：基于至少部分地在提供所捕获的所述空间音频内容用于呈现之前对所捕获的所述空间音频内容的计算机实现的分析，来确定所述场景的一个或多个候选第二部分，所述装置被配置为选择所述候选第二部分中的一个或多个候选第二部分用于所述空间音频焦点的应用。

13.根据权利要求1或权利要求2所述的装置，其中被提供有所述空间音频焦点的所述音频进一步呈现有用户可选择的链接，其中所述装置具有在用户选择所述链接时被配置为提供不同的所捕获的视觉图像和对应的所捕获的视觉图像的呈现的部件，所述不同的所捕获的视觉图像和所述对应的所捕获的视觉图像具有以下中的一项或多项：(i)所捕获的空间音频内容，基于音频分析而被确定为与被提供有所述空间音频焦点的音频相比在听觉上相似，以及(ii)所捕获的视觉图像，被确定为包含音频源的图像，所述音频源的所述图像与被提供有所述空间音频焦点的所述音频的所确定的源有关。

14.根据权利要求2所述的装置，其中所述音频焦点信息是基于呈现给所述用户的空间音频内容的多个实例，使用神经网络来确定的。

15.一种用于空间音频内容的呈现的方法，所述方法包括：

基于

提供所述场景的所捕获的所述空间音频内容的呈现以伴随所述场景的所捕获的所述视觉图像的所述呈现，所捕获的所述空间音频内容被呈现为空间音频，所述空间音频被配置为向所述用户提供所述音频源自在所捕获的所述空间音频内容中指示的所述方向的感知，所述空间音频内容被提供用于具有空间音频焦点的呈现，所述空间音频焦点选择性地应用于从所述场景的不同于所述第一部分的第二部分捕获的音频，所述空间音频焦点包括音频修改效果，所述音频修改效果用以相对于来自所述场景中的其他地方的音频增加具有与所述第二部分相对应的方向的音频的可听性，所述第二部分是基于特定于所述用户的音频焦点信息来选择的，所捕获的所述视觉图像和所捕获的所述空间音频内容旨在呈现给所述用户。

16.一种计算机可读介质，包括存储在其上的计算机程序代码，所述计算机可读介质和所述计算机程序代码被配置为当在至少一个处理器上运行时执行以下方法：

基于

(ii)视觉焦点信息，包括至少指示所述场景的第一部分的信息，所述场景的对应的所捕获的视觉图像被聚集在所述第一部分上以呈现给用户；