CN110121695B

CN110121695B - 虚拟现实领域中的装置及相关联的方法

Info

Publication number: CN110121695B
Application number: CN201780081707.1A
Authority: CN
Inventors: A·埃罗南; A·勒蒂涅米; J·莱帕南; J·阿拉斯维奥里
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-12-30
Filing date: 2017-12-08
Publication date: 2022-05-27
Anticipated expiration: 2037-12-08
Also published as: JP2020504384A; EP3343349B1; US11055057B2; WO2018122449A1; EP3343349A1; CN110121695A; JP6741873B2; US20200089466A1

Abstract

关于用于在虚拟现实(VR)空间中呈现给用户的场景的虚拟现实内容，VR内容包括由音频捕获设备在音频捕获位置捕获的空间音频，并且基于用户在虚拟现实空间中相对于虚拟音频捕获位置的虚拟位置，该虚拟音频捕获位置对应于音频捕获位置；当虚拟位置在具有空间音频效果的阈值距离内时，提供空间音频的可听呈现，使得一个或多个声音被感知为源自虚拟现实空间中的与方向性信息相对应的一个或多个方向；以及当虚拟位置超出阈值距离时，提供空间音频的可听呈现，使得一个或多个声音被可听地呈现为具有环境音频效果。

Description

虚拟现实领域中的装置及相关联的方法

技术领域

本公开涉及虚拟现实领域。还公开了相关联的方法、计算机程序和装置。某些公开的方面/示例涉及便携式电子设备。

背景技术

将被感知为源自特定方向的空间音频呈现为使得其与呈现给用户的视觉内容相对应，是很重要的。

先前公布的文件及本说明书中的任何背景的列出或讨论不应被视为承认该文件和背景是现有技术的一部分或是公知常识。本公开的一个或多个方面/示例可以或可以不解决一个或多个背景问题。

发明内容

在第一示例方面，提供了一种装置，包括：

至少一个处理器；及

包括计算机程序代码的至少一个存储器，

该至少一个存储器和该计算机程序代码被配置为与至少一个处理器一起使得该装置至少执行下述操作：

关于场景的所捕获的虚拟现实内容，该场景用于在虚拟现实空间中呈现给用户以用于在虚拟现实中观看，虚拟现实内容包括由至少一个音频捕获设备捕获的空间音频，该至少一个音频捕获设备位于场景中的音频捕获位置处，空间音频包括来自场景的具有方向性信息的音频，方向性信息定义朝向来自音频捕获位置的音频的一个或多个声音的源的一个或多个方向，

基于用户在虚拟现实空间中相对于虚拟现实空间中的虚拟音频捕获位置的虚拟位置，该虚拟音频捕获位置对应于场景中的音频捕获位置；

当虚拟位置在具有空间音频效果的虚拟音频捕获位置的阈值距离内时，提供空间音频的可听呈现，使得一个或多个声音被感知为源自虚拟现实空间中的与方向性信息相对应的一个或多个方向；以及

当虚拟位置距虚拟音频捕获位置超过阈值距离时，提供空间音频的可听呈现，使得至少该一个或多个声音的子集在不具有空间音频效果但具有环境音频效果的情况下被可听地呈现，使得所述声音被感知为没有特定的起源方向。

在一个或多个实施例中，环境音频效果被配置为可听地呈现空间音频的一个或多个声音，使得其被感知为源自用户周围的所有方向中的一个方向以及多个方向。在一个或多个示例中，具有环境音频效果的空间音频被呈现，使得其被感知为普遍的背景音频。

在一个或多个实施例中，VR内容包括个体音频，该个体音频包括来自场景中的特定声音源的音频，其中空间音频还至少部分地包括来自场景中同一特定声音源的音频，当虚拟位置超过阈值距离时，相对于虚拟位置在阈值距离内时，装置被使得以相对于空间音频较高的音量提供个体音频的可听呈现。

在一个或多个实施例中，个体音频与特定源位置信息相关联，该特定源位置信息定义场景中的特定声源的位置，并且基于所述特定源位置信息和当前观看方向以及用户的虚拟位置，个体音频被提供具有空间音频效果的可听呈现，该空间音频效果被配置为将音频定位在虚拟现实空间中，使得其被感知为源自虚拟现实空间中与特定源位置信息相对应的方向。

在一个或多个实施例中，阈值距离定义转变区域，该转变区域包括虚拟现实空间的区域，在虚拟现实空间的该区域中，被提供具有空间音频效果的可听呈现的空间音频与被提供具有环境音频效果的可听呈现的所述空间音频的比率根据距所述虚拟音频捕获位置的距离而变化。

在一个或多个实施例中，随着用户的虚拟位置距虚拟音频捕获位置的距离增加，被提供具有空间音频效果的可听呈现提供的空间音频的增益减小。

在一个或多个实施例中，随着用户的虚拟位置距虚拟音频捕获位置的距离增加，被提供具有环境音频效果的可听呈现的空间音频的增益增加。

在一个或多个实施例中，空间音频效果使用头部相关传递函数和矢量基幅度平移中的一项来可听地呈现空间音频。

在一个或多个实施例中，当虚拟位置距虚拟音频捕获位置超出阈值距离时，装置被使得提供空间音频的可听呈现，使得由空间音频捕获设备捕获的一个或多个声音中的所有声音在以下情况下被可听地呈现：

i)不具有空间音频效果以及

ii)具有环境音频效果，使得所述声音被感知为在没有特定起源方向。

在一个或多个实施例中，当虚拟位置距虚拟音频捕获位置超出阈值距离时，装置被使得提供音频的该子集之外的一个或多个声音的具有空间音频效果的可听呈现，其中一个或多个声音的方向性信息指示从用户的所述虚拟位置和虚拟音频捕获位置延伸的方向的方向阈值内的方向。

因此，在一个或多个示例中，空间音频效果仍然可以用于源自虚拟音频捕获位置的相对侧的位置的到用户的虚拟位置(由上述阈值定义)的声音，因为朝向这些声音源的方向在用户的虚拟位置仍然有效。然而，来自其他方向的声音可能无法正确地对应于VR内容中声音源的视觉位置，因此对于那些声音，环境音频效果被使用。

在第二方面，提供了一种方法，该方法包括：

在第三方面，提供了一种包括在其上存储的计算机程序代码的计算机可读介质，计算机可读介质和计算机程序代码被配置为，当在至少一个处理器上运行时，执行以下方法：

在另一方面，提供了一种装置，该装置包括部件，该被配置为：

本公开包括单独或以各种组合形式的一个或多个对应的方面，示例或特征，无论是否以组合或单独的形式被具体陈述(包括要求权利)。用于执行一个或多个所讨论功能的对应部件和对应的功能单元(诸如，功能使能器、视点确定器、显示设备、音频渲染器)也在本公开内。

用于实施所公开的一种或多种方法的相应计算机程序也在本公开内，并由一个或多个所描述的示例所涵盖。

上述发明内容旨在于仅仅示例而非限制。

附图说明

现在仅以示例的方式参考附图给出说明，其中：

图1图示了装置的示例实施例；

图2图示了捕获VR内容的示例真实世界场景，其包括音频捕获设备；

图3图示了基于图2的场景的示例虚拟现实空间，其表示出音频的源和用户的虚拟位置；

图4图示了捕获VR内容的另一示例真实世界场景，其包括音频捕获设备和两个音频源；

图5图示了基于图4的场景的示例虚拟现实空间，其示出了音频源的虚拟表示和用户相对于阈值距离的虚拟位置，并图示了装置的功能；

图6示出框图，其示出了装置的示例实施例；

图7示出流程图，其图示了示例方法；以及

图8示出计算机可读介质。

具体实施方式

虚拟现实(VR)可以使用包含头盔的VR显示器，诸如眼镜或护目镜或虚拟视网膜显示器，或围绕用户以向用户提供沉浸式虚拟体验的一个或多个显示屏。使用VR显示器的虚拟现实装置，可以向用户呈现表示场景的多媒体VR内容，以模拟用户真实存在于场景中。虚拟现实场景可以复制真实世界场景以模拟用户物理地存在于真实世界位置，或者虚拟现实场景可以是计算机生成的，或者是计算机生成及成像的真实世界多媒体内容的组合。虚拟现实场景可以由全景视频(诸如全景直播的或预记录的内容)提供，全景视频包括具有宽视野或360°视野(或更多，诸如水平方位的视野的上方和/或下方)的视频。用户可以被呈现场景的VR视图，并且可以诸如通过VR显示器(即头盔)的移动来移动VR视图以环视VR内容处的场景。因此，可以提供如下的三维虚拟现实空间，其中虚拟现实内容被显示并且在其中用户可以环视四周，并且可选地通过平移诸如在VR空间中进行探索。

例如，提供给用户的VR内容可以包括由VR内容捕获设备捕获的真实世界的实况的或记录的图像。VR内容捕获设备可以被配置为捕获VR内容以向一个或多个用户显示。VR内容捕获设备可以包括一个或多个相机以及一个或多个(诸如，方向性的和/或环境中的)麦克风，其被配置为从视点捕获周围的视觉和听觉场景。示例VR内容捕获设备是诺基亚技术公司的诺基亚OZO相机。这样，音乐表演可以通过使用VR内容捕获设备被捕获(和记录)，该VR内容捕获设备可以放置在舞台上，表演者在其周围移动，或者从观众成员的角度被捕获。在每种情况下，VR内容的消费者可以能够使用VR设备的VR显示器环视四周，以便以捕获位置视点体验表演，就好像他们在场一样。

由于VR场景通常在空间上大于用户可以在任何时间通过VR显示器上呈现的VR视图观看的部分，因此VR装置可以基于用户的头部或眼睛的移动来提供在VR场景中的VR视图周围的平移。例如，VR显示器在水平面上的视野可以是大约120°但VR内容可以提供360°视频图像。因此，由VR显示器提供的VR视图的视野可以小于VR内容的总空间范围。

在一个或多个示例中，VR内容可以使得用户可以改变其VR视图的观看方向以环视VR场景，但是其视点位置在其控制之外并且取决于VR内容捕获设备在捕获场景时的位置的视点。在一个或多个示例中，有时被称为“自由视点”VR，用户能够探索VR空间。可探索的VR空间可以是计算机生成的，诸如从三维模型渲染的，或者可以是根据来自一个或多个VR内容捕获设备的场景的视觉图像生成的，或者两者的组合。因此，自由视点VR内容可以使得用户可以自由地控制其在VR空间中的视点的位置以及其VR视图的观看方向以环视VR空间。当用户处于VR空间中与VR内容在场景中被捕获的位置相对应的虚拟位置时，用户可以被提供来自该内容捕获设备的VR内容。当用户实际上远离VR内容捕获设备的位置而移动时，VR装置可以提供来自不同位置处的不同VR内容捕获设备的VR内容的显示，或者提供来自多个内容捕获设备的图像的组合的显示，以模拟用户在其当前虚拟位置可以看到的视图。应当理解，存在各种技术，以用于基于在场景中的一个或多个VR内容捕获位置处捕获的VR内容来模拟用户可以在虚拟现实空间中的某点处接收的视图，其，包括：使用来自不同位置处的VR内容捕获设备的VR内容；使用来自不同位置处的VR内容捕获设备的图像的组合；对来自不同位置处的一个或多个VR内容捕获设备的视觉图像进行插值；使用场景的计算机模型来模拟VR内容捕获设备之间的视点位置。

虚拟现实内容可以被提供具有方向性属性的空间音频，使得音频被感知为源自VR空间中的点，其可以关联到VR内容的图像。音频的空间定位可以通过被呈现给多声道音频布置的每个声道的音频的角度以及3D音频效果被提供，3D音频效果诸如为利用头部相关传递函数(HRTF)或矢量基振幅平移(VBAP)来创建音频可以被定位于其中以用于呈现给用户的空间音频空间或“听觉场景”的那些3D音频效果。

装置100可以组成用于向用户呈现VR内容的VR装置101的一部分或与之通信。存储装置102被示出为表示VR内容被VR装置101捕获和接收时存储在存储介质中或瞬时存在于数据传输总线上的VR内容。VR内容可以由至少一个VR内容捕获设备捕获并且可以是现场的或记录的。用户可以使用VR头盔103或其他VR显示器来观看VR内容。VR显示器103，或更一般地，VR装置101，可以与耳机104或其他多声道声音生成布置相关联以用于空间音频和环境音频的呈现，环境音频不具有感知的起源方向。在其他实施例中，VR装置101可以远离装置100，并且可以经由诸如因特网的网络连接。VR装置101可以组成存储装置102的一部分，并且在一个或多个示例中，将VR内容发送到VR显示器103和耳机104。在其他实施例中，VR装置101可以与VR显示器103和/或耳机104集成在一起，这样装置100可以与其集成或者在远程并与VR装置101通信。

在该实施例中，上述装置100可以具有或可以连接到仅一个处理器101A和一个存储器101B，但是应当理解，其他实施例可以使用多于一个处理器和/或多于一个存储器(诸如，相同或不同的处理器/存储器类型)。此外，装置100可以是专用集成电路(ASIC)。装置100可以与VR装置101分离并且与其通信，或者如图1所示，可以与VR装置101集成。装置100和VR装置101可以共享处理器101A和/或存储器101B或者可以被提供单独的处理器和/或存储器。

处理器101A可以是通用处理器，其专用于根据在存储器上以计算机程序代码的形式存储的指令来执行/处理从诸如VR装置101和装置100的其他组件接收的信息。由处理器的此类操作产生的输出信令被向前提供给其他组件，诸如在下文更详细介绍的用于显示所需图像的VR装置101。

存储器101B(不必是个体存储器单元)是存储计算机程序的计算机可读介质(在该示例中为固态存储器，但可以是诸如硬盘驱动器、ROM、RAM、闪存等的其他类型的存储器)。当程序代码在处理器上运行时，计算机程序代码存储由处理器可执行的指令。在一个或多个示例实施例中，存储器和处理器之间的内部连接可以被理解为在处理器和存储器之间提供有源耦合，以允许处理器访问存储在存储器上的计算机程序代码。

在该示例中，处理器101A和存储器101B都在内部彼此电连接以允许各个组件之间的电通信。在该示例中，所有组件都位于彼此相邻的位置，以便共同集成为ASIC，换言之，以便共同集成为可以安装到电子设备中的个体芯片/电路。在其他示例中，组件中的一个或多个或全部可以彼此分开放置。

图2和图3图示了呈现空间音频的潜在困难，尤其是在自由视点虚拟现实中。

图2示出了真实世界场景200的平面视图。场景200包括音频捕获设备201，其可以包括诺基亚OZO VR相机。在该示例中，音频捕获设备201还捕获场景200的VR视觉图像，并且为此用途而包括指向不同方向的多个相机202。因此音频捕获设备201或更一般地，VR相机201捕获场景的VR内容。音频捕获设备201物理上位于场景中的音频捕获位置203处，包括场景200中的场景的声音被捕获的“监听”位置。

场景200还包括音乐家204，其包括用于由音频捕获设备201捕获的音频的源。由音频捕获设备201捕获的空间音频包括用于标识朝向音乐家204发出的声音的方向205的信息。因此，由VR相机201生成的VR内容将包括方向性信息，该方向性信息指示音乐家204的声音在场景200中是从方向205捕获的。应当理解在其他示例中，音频捕获设备201可以不是VR相机的一部分并且可以与场景200中的VR相机在物理上分离和/或位于不同的位置。音频捕获设备201可以包括包含多个方向性聚焦麦克风的麦克风阵列。音频捕获设备201可以与定位系统相关联，该定位系统用于定位与音频捕获设备相关联的标签的位置以及场景中的一个或多个声音源，以提供或协助场景200中的音频捕获设备和音频源的位置信息的捕获。

应当理解，场景可以包括一个或多个音频源，每个音频源生成声音，因此空间音频可以包括来自场景的具有方向性信息的音频，其中方向性信息定义朝向来自音频捕获位置203的一个或多个声音的一个或多个声源的一个或多个方向。

图3示出了虚拟现实空间300，其包括表示场景200中真实世界空间的虚拟三维环境。VR内容被呈现在虚拟现实空间300中，使得VR内容的视觉图像被呈现以供观看。因此，音乐家204的图像304以及其他背景视觉图像(为简单起见未示出)被示出。

在该示例中，由VR装置101提供的VR空间和VR图像是自由视点VR，因此在VR空间300中用户可以改变其视线方向以及其视点的位置。用户的视点的位置由用户306的平面图示出，用户306佩戴用于根据用户正在空间中注视的位置来显示VR空间300的VR视图的VR显示头盔103以及用于向用户306呈现空间音频(及环境音频)的头戴式耳机104。

图3示出了用户306处于VR空间300中的两个不同视点位置或“观看位置”303、307。在第一观看位置303处，用户306正在从VR空间300中的对应虚拟位置向音频捕获位置203(即在音乐家204的图像304前方)观看VR内容。因此，在图2和图3的比较中，将认识到观看位置303实质上等同于音频捕获位置203。基于方向性信息，呈现给用户306的空间音频正确地使得从方向305听到音乐家204的声音，方向305对应于VR空间300中的音乐家的视觉图像304的位置。

在第二观看位置307中，如果空间音频继续被根据方向性信息提供，则呈现给用户的空间音频将从方向308被听到，该方向错误地没有对应于从第二观看位置307朝向音乐家204的图像304的方向。这可能会令人困惑，因为当用户实际上离开VR空间300中对应于音频捕获位置203的位置303时，“听觉场景”没有对应于在第二观看位置307处的VR视觉图像。

图4和图5图示了装置如何被配置以进行操作的示例。

图4示出了与图2类似的真实世界场景，并且相同的附图标记被使用。然而，在图4中，场景400中存在另外的歌唱家404，场景400中包括用于由音频捕获设备201捕获的具有方向性信息的声音的源。在该图4中，音乐家204的身上还带有领夹式麦克风410。麦克风410可以被视为捕获音乐家204的个体音频，因为其通过物理附接到或者被配置为追踪音乐家204与之相关联。应当理解，场景400中的声音可能普遍存在，因此领夹式麦克风410可以捕获场景400中来自其他音频源的声音，但主要考虑捕获来自音乐家204的音频。

因此，在该示例中，场景的所捕获的VR内容可以包括由空间音频捕获设备201从音频捕获位置203捕获的空间音频，其包括来自音乐家204的具有方向性信息的声音和来自歌唱家404的具有方向性信息的声音。VR内容还可以包括由领夹式麦克风410捕获的来自音乐家204的个体音频。

如前面利用图2和图3所示，图5示出了表示图4的真实世界场景400的虚拟现实空间500。因此，音乐家204的图像304以及歌唱家404的图像504被提供以供显示。在VR空间500中对应于音频捕获位置203的位置称为“虚拟音频捕获位置”513，其由以虚线示出的音频捕获设备201图示。图5还示出处于VR空间500中的两个不同视点位置或“观看位置”处的用户306。在第一观看位置503，用户306正在VR空间300中从在阈值虚拟距离511内的虚拟位置观看VR内容，并且由虚线圈512图示，该虚线圈512定义与音频捕获位置对应的虚拟音频捕获位置周围的区域。在第二观看位置507处，用户306正在从超过阈值虚拟距离511的VR空间300中的虚拟位置观看VR内容。

在该示例中，装置100被使得基于用户306在虚拟现实空间500中相对于虚拟现实空间中的虚拟音频捕获位置503的虚拟位置503、507，以不同方式提供空间音频的可听呈现，虚拟音频捕获位置503对应于场景400中的音频捕获位置2011。

特别地，当虚拟位置503在具有空间音频效果的虚拟音频捕获位置513的阈值距离内时，装置100被配置为提供来自音频捕获设备201的空间音频的可听呈现，使得一个或多个声音(来自音乐家204和歌唱家404)被感知为源自虚拟现实空间500中与方向性信息相对应的一个或多个方向。因此，当用户的虚拟位置503在虚拟音频捕获位置附近(在阈值内)时，空间音频被可听地呈现为具有方向性信息的空间音频，该方向性信息用于提供声音中的方向的感知以对应于音乐家的图像304和歌唱家的图像504的位置。

当虚拟位置507超出距虚拟音频捕获位置513的阈值距离511时，装置100被配置为用于提供空间音频的可听呈现，使得一个或多个声音的至少子集在不具有空间音频效果但具有氛围音频效果的情况下可听地呈现，使得所述声音被感知为没有特定的起源方向。因此，当用户的虚拟位置507与虚拟音频捕获位置(高于阈值)间隔开时，构成空间音频的至少一些声音不是作为空间音频而是作为氛围音频的方式被可听地呈现。因此，空间音频的音频内容被使用，但是与其相关联的方向性信息至少可以部分地忽略。

因此，在用户可自由探索虚拟现实空间的一个或多个示例中，理想的是他们听到的听觉场景与他们从其虚拟位置503、507处被呈现的视觉虚拟场景一致。VR内容可能不包括场景中的每个可能位置处的麦克风或其他音频捕获设备，因此渲染听觉场景可能是困难的，尤其是当音频包括来自特定音频捕获位置的空间音频时。呈现来自特定音频捕获设备的空间音频，使得当用户实际上在音频捕获位置附近时其方向性信息通过空间音频效果被渲染，并且当用户实际上远离音频捕获位置时其方向性信息利用氛围音频效果被呈现，可能是有利的。即使当用户的虚拟位置使得与其相关联的方向性信息不适合使用时，这也可以允许空间音频的使用。用户的虚拟位置、虚拟音频捕获位置、虚拟音频捕获位置与用户的位置之间的距离中的一个或多个可由VR装置101报告或由装置100计算。虚拟音频捕获位置可以根据与VR内容相关联的信息确定。

因此，在虚拟位置503处，用户可以被可听地呈现由音频捕获设备201捕获的音乐家204的作为空间音频(即具有空间音频效果)的声音，使得根据图像304声音被感知为源自用户306的前方。来自个体音频麦克风410的音频可以被可听地呈现，并且以第一比率与空间音频被音频混合。用户306可以被可听地呈现由音频捕获设备201捕获的歌唱家404的作为空间音频(即具有空间音频效果)的声音，使得根据图像504，声音被感知为源自用户左侧约45°处。

在虚拟位置507处，用户可以被可听地呈现由音频捕获设备201作为空间音频捕获但是作为环境音频(即有环境音频效果)的音乐家204的声音，使得声音不被感知为源自特定方向而是被感知为环境或“全向音频”。来自个体音频麦克风410的音频可以被可听地呈现，并且与空间音频被音频混合，该空间音频被以不同于第一比率的第二比率可听地呈现为环境音频。用户306可以被可听地呈现由音频捕获设备201作为环境音频(即具有环境音频效果)捕获的歌唱家404的声音，使得声音不被感知为源自特定方向而是被感知为环境或全向音频。

空间音频效果可以使用头部相关传递函数(HRTF)和矢量基幅度平移(VBAP)之一来提供空间音频的可听呈现，以可听地呈现空间音频，使得声音被感知为源自VR空间500中与场景400中的音频源204、404的方向相对应的离散方向。可以理解，空间音频可通过其他的方式及使用不同技术被渲染用于向用户进行可听呈现。虽然我们将HRTF和VBAP列为空间音频效果的示例，但空间音频效果可以被视为包括用于渲染空间音频的任何技术，因为其意图是被听到，即具有方向性声音。

环境音频效果可以被配置为可听地呈现空间音频的一个或多个声音，使得其被感知为源自用户周围的所有方向，或者在一些示例中，源自比具有空间音频效果更宽的方向范围。因此，空间音频的音频内容被使用，但头部相关传递函数或矢量基幅度平移可以不用于根据方向性信息来呈现声音的方向性。

在一个示例实施方式中，空间音频捕获设备可以包括多个麦克风，因此可以捕获多麦克风信号。由空间音频捕获设备捕获的多麦克风信号可以被分析以确定表示直接声音(即，直接从声源到达收听者的声音)的一个或多个信号。相应地，由空间音频捕获设备捕获的多麦克风信号可以被分析以确定表示环境或混响声音的一个或多个信号，该声音即为没有任何明显到达方向(为环境)的声音，或作为通过墙壁的反射或一般混响的声音。呈现方向性空间音频可以涉及渲染表示具有空间音频效果的直接声音的一个或多个信号，包括诸如HRTF渲染或VBAP平移。呈现空间音频的环境声音可以涉及渲染表示具有环境音频效果的环境声音的一个或多个信号，该效果包括不使用HRTF渲染或VBAP平移的可听呈现。完整的空间音频场景可以通过混合渲染的直接信号和环境信号来呈现。因此，空间音频可以包括来自特定方向的声音的音频以及没有特定方向的环境声音。当用户的虚拟位置超过阈值距离时，装置100可以被配置为以与环境声音相同的方式呈现来自特定方向的声音的至少部分音频。

当用户实际上位于比阈值距离511更远的位置时，与用户实际上位于距虚拟音频捕获位置513的阈值距离511内时相比，第一比率和第二比率可以被设置为以相对于空间音频的音量较高的音量来呈现个体音频。

在一个或多个示例中，捕获个体音频的麦克风410的位置可以诸如从使用定位标签监视场景的定位系统得知，如本领域技术人员所知的。利用包括个体音频的音频捕获位置的这种特定源位置信息，装置100可以基于用户的当前观看方向被配置为可听地呈现具有空间音频效果的个体音频，该空间音频效果被配置为在虚拟现实空间500中定位音频，使得其可以被感知源自虚拟现实空间中与特定源位置信息相对应的方向，即，根据音乐家204的图像304的位置。因此，由于音乐家204的声音主导着个体音频，所以其可以根据特定的源位置信息利用空间音频效果被放置在听觉场景中。

在一个或多个示例中，由于具有空间音频效果的空间音频的呈现从可听呈现中被移除(当移动超过阈值距离511时)，因此可以增加具有空间音频效果的个体音频的呈现以提供更多的方向性。

在上述示例中，阈值距离511可以定义将空间音频呈现为空间音频或将空间音频呈现为环境音频之间的转变点。然而，在其他示例中，将空间音频呈现为空间音频或呈现为环境音频之间的转变可以不那么突然并且可以在由阈值距离511定义的转变区域出现。因此，在一个或多个示例中，当用户在阈值距离内时，空间音频的音频内容可以被完全呈现为具有空间音频效果的空间音频。超过了阈值距离，随着距虚拟音频捕获位置513的距离增加，音频混合可以被提供，以降低被呈现为具有空间音频效果的空间音频的水平从而具有离散的感知起源方向，并且提高被呈现为具有环境音频效果的空间音频的水平。在一个或多个示例中，水平的这种提高和降低可以通过具有空间音频效果的空间音频与具有环境音频效果的同一空间音频的音频音量混合来实现。因此，空间上呈现的空间音频的音量可以随着距离而减小，而环境中呈现的空间音频的音量可以随着距离而增加。在一个或多个其他示例中，转变区域通过空间音频效果来提供，该空间音频效果被配置为随着距位置513的距离的增加而增加空间音频的音频内容可以被感知源自的方向的范围，直到其被听成源自所有方向并且因此包括环境音频。

被呈现为具有环境音频效果的空间音频随着距虚拟音频捕获位置的距离的增加可以由第一函数控制。被呈现为具有空间音频效果的空间音频随着距虚拟音频捕获位置的距离的减小可以由第二函数控制。用于控制空间音频水平的增加或减少程度的函数可以是线性函数或任何其它连续函数，以用于将具有空间/环境音频效果的空间音频呈现映射到距虚拟音频捕获位置513的虚拟距离。用于减少具有空间音频效果的空间音频的呈现的第一/第二函数可以与用于增加具有环境音频效果的空间音频的呈现的函数相同或不同。

在上述示例中，空间音频包括声音，该声音借助于方向性信息与从虚拟音频捕获位置的不同方向相关联。参考图5，当用户沿箭头514方向从第一观看位置503移动到第二观看位置507时，朝着图像304和图像504的方向向右移动。因此，如上所述，来自音乐家204和歌唱家404的声音可以有利地从空间音频转换为环境音频。然而，对于源自位置515的声音(如图4的场景400中的真实世界中和图5的VR空间500中所示)，在沿箭头514的方向移动时朝向该声音的方向不变。因此，对于位于虚拟音频捕获位置515的相对侧的到用户的虚拟位置507的声音的源，这些声音的方向可能不会改变太多，诸如小于朝向其的方向的阈值改变。因此，尽管在上述示例中，构成空间音频的所有声音都基于阈值距离511被呈现为具有空间音频效果或环境音频效果(在转变区域中经过了任何可选音频混合)，在该示例中，只有空间音频的声音的子集可以这种方式被呈现。因此，在一个或多个示例中，如下空间音频的声音被呈现为具有空间音频效果，其中方向性信息指示了声音的起源位于虚拟音频捕获位置的相对侧，在相对于用户的当前虚拟位置的直接相对的方向阈值内，同时即使当前虚拟位置大于距虚拟音频捕获位置513的阈值距离511，空间音频剩余的声音仍被呈现为具有环境音频效果。换言之，子集外的声音的方向性信息指示了当虚拟位置超过距虚拟音频捕获位置的阈值距离时，其具有在方向阈值内的起源方向，如从用户517的虚拟位置并且向虚拟音频捕获位置513延伸的方向516的弧517所示。

图6示出了提供空间音频混合的装置100的至少一部分的示例实施例的框图。在一个或多个示例中，装置100包括控制逻辑600，其被配置为在601处接收用户的当前虚拟位置。VR装置101可以提供当前的虚拟位置。装置还包括空间音频处理块602和个体音频处理块603。空间音频处理块在604处接收空间音频的音频内容和方向性信息。个体音频处理块603在605处接收来自从独立麦克风410获得的VR内容的音频内容。特定的源位置信息可以在606处接收。因此，来自空间音频处理块602的音频的增益由增益控制器609控制，并且在其增益由增益控制器610控制之后与来自个体音频处理块603的音频组合，该组合由混合器607提供以提供混合的音频608，以用于由VR装置101呈现。控制逻辑600提供对增益控制器609、610的控制，以提供从被呈现为具有空间音频效果的空间音频到被呈现为具有环境音频效果的空间音频(以及任何其他独立音频)的转变。因此，设备100可以参考阈值511基于虚拟位置503、507和虚拟音频捕获位置513之间的距离，来提供对被呈现为具有空间音频效果的空间音频的增益和被呈现为具有环境音频效果的空间音频的增益的控制。

图7示出了流程图，其图示了如下步骤，关于用于在虚拟现实空间中呈现给用户以便在虚拟现实中观看的场景的所捕获的虚拟现实内容，该虚拟现实内容包括由在场景中位于音频捕获位置的至少一个音频捕获设备捕获的空间音频，空间音频包括来自场景的具有方向性信息的音频，方向性信息定义了朝向来自音频捕获位置的音频的一个或多个声音的源的一个或多个方向，

基于(700)用户在虚拟现实空间中相对应于在虚拟现实空间中的虚拟音频捕获位置的虚拟位置，该虚拟音频捕获位置对应于场景中的音频捕获位置；

当虚拟位置在具有空间音频效果的虚拟音频捕获位置的阈值距离内时，提供(710)空间音频的可听呈现，使得一个或多个声音被感知为源自虚拟现实空间中的与方向性信息相对应的一个或多个方向；以及当虚拟位置超过距虚拟音频捕获位置的阈值距离时，提供空间音频的可听呈现，使得一个或多个声音的至少子集在不具有空间音频效果但具有环境音频效果的情况下被可听地呈现，以使得所述声音被感知为没有特定的起源方向。

图8示意性地图示了根据示例提供程序的计算机/处理器可读介质800。在该示例中，计算机/处理器可读介质是诸如数字多功能光盘(DVD)或压缩光盘(CD)之类的光盘。在一些示例中，计算机可读介质可以是已经被以用于执行发明功能的方式编程的任何介质。计算机程序代码可以分布在相同类型的多个存储器之间，或者不同类型的多个存储器之间，诸如ROM、RAM、闪存、硬盘、固态等。

上述示例中所示的装置可以是便携式电子设备、膝上型计算机、移动电话、智能手机、平板计算机、个人数字助理、数码相机、智能手表、智能眼镜，手写计算机，非便携式电子设备、台式计算机、监视器、家用电器、智能电视、服务器、可穿戴装置、虚拟现实装置或用于其中的一个或多个的模块/电路。

任何提及的装置和/或特定的所提及的装置的其他特征可以由如下装置提供，该装置被布置为使得其被配置为仅在启用(例如，开启等)时执行所期望的操作。在这种情况下，它们可能不必在非启用状态(例如关闭状态)下将适当的软件加载到活动存储器中，而仅在启用状态(例如开启状态)下加载适当的软件。装置可以包括硬件电路和/或固件。装置可以包括加载到存储器上的软件。这样的软件/计算机程序可以被记录在同一存储器/处理器/功能单元和/或一个或多个存储器/处理器/功能单元上。

在一些示例中，特定的所提及的装置可以用适当的软件进行预编程以执行所期望的操作，并且其中适当的软件可以被启用，以由下载“密钥”的用户例如用于解锁/启用软件及其相关联功能。与该示例相关联的优点可以包括当进一步的功能被设备所需要时减少下载数据的需求，并且这在设备被感知具有足够容量来存储这样的预编程软件以用于用户可能无法启用的功能的示例中是有用的。

除上述功能外，任何提及的装置/电路/元件/处理器可以具有其他功能，并且这些功能可以由相同的装置/电路/元件/处理器执行。一个或多个公开的方面可以包括相关联的计算机程序的电子分发和记录在适当的载体(例如存储器、信号)上的(可以是源/传输编码的)计算机程序。

本文所述的任何“计算机”可以包括一个或多个个体处理器/处理元件的集合，这些处理器/处理元件可以位于或可以不位于同一电路板，或者电路板的同一区域/位置或甚至同一设备上。在一些示例中，任何提及的处理器中的一个或多个处理器可以分布在多个设备上。相同或不同的处理器/处理元件可以执行本文所述的一个或多个功能。

术语“信号传输”可以指作为一系列发送和/或接收的电/光信号发送的一个或多个信号。该系列信号可以包括一个、两个、三个、四个或甚至更多个体信号分量或不同信号以构成所述信号传输。这些个体信号中的一些或全部可以通过无线或有线通信同时、依次和/或使它们暂时彼此重叠而发送/接收。

参考任何提及的计算机和/或处理器和存储器(例如包括ROM、CD-ROM等)的任何讨论，这些可以包括计算机处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和/或已被以用以执行本发明功能的方式编程的其他硬件组件。

申请人在此独立地将本文所述的每个个体特征以及两个或多个这样的特征的任何组合，公开到这些特征或组合能够根据本领域技术人员的公知常识总体上基于本说明书被执行的程度，不论这些特征或特征的组合是否解决了本文公开的任何问题，并且不限制权利要求的范围。申请人指出公开的方面/示例可以包括任何这样的个体特征或特征的组合。鉴于前述描述，对于本领域技术人员显而易见的是，可以在本公开的范围内进行各种修改。

尽管已经示出并描述和指出了应用于其示例的基本的新颖性特征，但是应当理解，设备和方法的形式和细节的各种省略和替换以及改变可以由本领域技术人员在不脱离本公开的范围的情况下作出。例如，明确预计的是，以基本相同的方式执行基本相同的功能以实现相同结果的那些元件和/或方法步骤的所有组合都在本公开的范围内。此外，应该认识到，与任何公开的形式或示例相关的示出和/或描述的结构和/或元件和/或方法步骤可以作为设计选择的一般事项并入任何其他公开的、描述的或建议的形式或示例中。此外，在权利要求中，部件加功能的条款旨在涵盖本文描述的执行所阐述功能的结构，并且不仅包括结构等效物，还包括等效结构。因此，尽管钉子和螺钉可能不是结构等效物，因为钉子采用圆柱形表面以将木质部件固定在一起，而螺钉采用螺旋表面，但在紧固木质部件的环境中，钉子和螺钉可能是等效的结构。

Claims

1.一种电子装置，包括：

至少一个存储器；以及

包括计算机程序代码的至少一个存储器，

所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起，使得所述装置执行至少以下操作：

关于场景的所捕获的虚拟现实内容，所述场景用于在虚拟现实空间中呈现给用户以用于在虚拟现实中观看，所述虚拟现实内容包括由至少一个音频捕获设备捕获的空间音频，所述至少一个音频捕获设备位于所述场景中的音频捕获位置处，所述空间音频包括来自所述场景的具有方向性信息的音频，所述方向性信息定义一个或多个方向，所述一个或多个方向朝向来自所述音频捕获位置的所述音频的一个或多个声音的源，

基于用户在所述虚拟现实空间中相对于在所述虚拟现实空间中的虚拟音频捕获位置的虚拟位置，所述虚拟音频捕获位置对应于所述场景中的所述音频捕获位置；

当所述虚拟位置在具有空间音频效果的所述虚拟音频捕获位置的阈值距离内时，提供所述空间音频的可听呈现，使得所述一个或多个声音被感知为源自所述虚拟现实空间中的与所述方向性信息相对应的一个或多个方向；以及

当所述虚拟位置距所述虚拟音频捕获位置超过所述阈值距离时，提供所述空间音频的可听呈现，使得至少所述一个或多个声音的子集在不具有所述空间音频效果但具有环境音频效果的情况下被可听地呈现，以使得所述声音被感知为没有特定的起源方向。

2.根据权利要求1所述的电子装置，其中所述环境音频效果被配置为可听地呈现所述空间音频的所述一个或多个声音，使得其被感知为源自所述用户周围的所有方向中的一个方向以及多个方向。

3.根据权利要求1所述的电子装置，其中所述虚拟现实内容包括个体音频，所述个体音频包括来自所述场景中的特定声音源的音频，其中所述空间音频还至少部分地包括来自所述场景中的同一特定声音源的音频，所述装置被使得当所述虚拟位置超过所述阈值距离时，相对于所述虚拟位置在所述阈值距离内时，以相对于所述空间音频较高的音量提供所述个体音频的可听呈现。

4.根据权利要求3所述的电子装置，其中所述个体音频与特定源位置信息相关联，所述特定源位置信息定义所述场景中的所述特定声音源的所述位置，并且基于所述特定源位置信息和当前观看方向以及所述用户的所述虚拟位置，所述个体音频被提供具有所述空间音频效果的可听呈现，所述空间音频效果被配置为将所述音频定位在所述虚拟现实空间中，使得其被感知为源自所述虚拟现实空间中与所述特定源位置信息相对应的方向。

5.根据权利要求1所述的电子装置，其中所述阈值距离定义转变区域，所述转变区域包括虚拟现实空间的区域，在虚拟现实空间的所述区域中，被提供具有所述空间音频效果的可听呈现的空间音频与被提供具有所述环境音频效果的可听呈现的所述空间音频的比率根据距所述虚拟音频捕获位置的距离而变化。

6.根据权利要求1所述的电子装置，其中随着用户的所述虚拟位置距所述虚拟音频捕获位置的距离增加，被提供具有所述空间音频效果的可听呈现的所述空间音频的增益减小。

7.根据权利要求1所述的电子装置，其中随着用户的所述虚拟位置距虚拟音频捕获位置的距离的增加，被提供具有所述环境音频效果的可听呈现的所述空间音频的增益增加。

8.根据权利要求1所述的电子装置，其中所述空间音频效果使用头部相关传递函数和矢量基幅度平移中的一项来可听地呈现所述空间音频。

9.根据权利要求1到8中的任一项所述的电子装置，其中当所述虚拟位置距所述虚拟音频捕获位置超出所述阈值距离时，所述装置被使得提供所述空间音频的可听呈现，使得由所述空间音频捕获设备捕获的所述一个或多个声音中的所有声音在以下情况下被可听地呈现：

i)不具有所述空间音频效果以及

ii)具有所述环境音频效果，使得所述声音被感知为没有特定的起源方向。

10.根据权利要求1至8中的任一项所述的电子装置，其中所述装置被使得当所述虚拟位置距所述虚拟音频捕获位置超出所述阈值距离时，提供所述音频的所述子集之外的所述一个或多个声音的具有所述空间音频效果的可听呈现，其中所述一个或多个声音的所述方向性信息指示从所述用户的所述虚拟位置和所述虚拟音频捕获位置延伸的方向的方向阈值内的方向。

11.一种通过电子装置实施的方法，所述方法包括：

基于用户在所述虚拟现实空间中相对于所述虚拟现实空间中的虚拟音频捕获位置的虚拟位置，所述虚拟音频捕获位置对应于所述场景中的所述音频捕获位置；

当所述虚拟位置在具有所述空间音频效果的所述虚拟音频捕获位置的阈值距离内时，提供所述空间音频的可听呈现，使得所述一个或多个声音被感知为源自所述虚拟现实空间中的与所述方向性信息相对应的一个或多个方向；以及

当所述虚拟位置距所述虚拟音频捕获位置超出所述阈值距离时，提供所述空间音频的可听呈现，使得至少所述一个或多个声音的子集在不具有所述空间音频效果但具有环境音频效果的情况下被可听地呈现，以使得所述声音被感知为没有特定的起源方向。

12.一种计算机可读介质，所述计算机可读介质包括在其上存储的计算机程序代码，所述计算机可读介质和所述计算机程序代码被配置为当在至少一个处理器上被运行时执行以下方法：