CN110622106A

CN110622106A - 音频处理

Info

Publication number: CN110622106A
Application number: CN201880030058.7A
Authority: CN
Inventors: A·埃罗南; A·勒蒂涅米; J·莱帕南; J·阿拉斯维奥里
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2017-03-02
Filing date: 2018-02-26
Publication date: 2019-12-27
Anticipated expiration: 2038-02-26
Also published as: EP3370133A1; WO2018158499A1; US11367280B2; EP3370133B1; US20200042792A1; CN110622106B

Abstract

一种方法，包括：使用虚拟分隔来划分虚拟空间，该虚拟分隔映像用户在虚拟空间内对虚拟空间的感知；响应于用户相对于第一虚拟分隔而在虚拟空间中的第一动作，进行对第一虚拟分隔如何影响用户对虚拟空间感知方式的第一改变。

Description

音频处理

技术领域

本发明的实施例涉及音频处理。一些示例但不一定是全部示例涉及音频处理的自动控制。

背景技术

空间音频呈现包括呈现声音场景，该声音场景包括相应位置处的声源。

因此，每个声音场景包括由听众在听觉上处理的信息。用户将不仅理解声源的存在，而且会理解声源在声音场景中的位置以及相对于其他声源的位置。

声音的感知域比视力的感知域(视场)宽得多。这可能使得听众在听觉上对大量信息进行处理。

在所呈现的经协调的现实的上下文中，期望根据用户与虚拟空间的关系来控制用户从用户所占据的虚拟空间在视觉和听觉上都感知到了什么。如果用户改变了这种关系，例如通过改变虚拟空间内的用户定向或用户位置，则用户所感知的将被改变。

发明内容

根据本发明的各个实施例但不一定是全部实施例，提供了一种方法，该方法包括：使用一个或多个虚拟分隔来划分虚拟空间，该一个或多个虚拟分隔影响虚拟空间内的用户对虚拟空间的感知。

响应于用户相对于第一虚拟分隔的、在虚拟空间中的第一动作，对第一虚拟分隔如何影响用户所感知的虚拟空间进行第一改变。

根据本发明的各个实施例但不一定是全部实施例，提供了一种装置，该装置包括：至少一个处理器；以及至少一个存储器，该至少一个存储器包括计算机程序代码，该至少一个存储器和该计算机程序代码被配置为与至少一个处理器一起使装置至少执行：使用一个或多个虚拟分隔来引起虚拟空间的划分，该一个或多个虚拟分隔影响具有虚拟空间内的虚拟位置的用户对虚拟空间的感知；响应于真实用户相对于第一虚拟分隔的、在虚拟空间中的第一动作，对第一虚拟分隔如何影响用户所感知的虚拟空间进行第一改变。

根据本发明的各个实施例但不一定是全部实施例，提供了一种装置，该装置包括：用于使用一个或多个虚拟分隔来划分虚拟空间的部件，该一个或多个虚拟分隔影响虚拟空间内的用户对虚拟空间的感知；用于响应于用户相对于第一虚拟分隔的、在虚拟空间中的第一动作，来对第一虚拟分隔如何影响用户所感知的虚拟空间进行第一改变的部件。

根据本发明的各个实施例但不一定是全部实施例，提供了一种计算机程序产品，该计算机程序产品在处理器上运行时执行：使装置至少执行：使用一个或多个虚拟分隔来引起虚拟空间的划分，该一个或多个虚拟分隔影响具有虚拟空间内的虚拟位置的用户对虚拟空间的感知；响应于真实用户相对于第一虚拟分隔的、在虚拟空间中的第一动作，使得对第一虚拟分隔如何影响用户所感知的虚拟空间进行第一改变。

根据本发明的各个实施例但不一定是全部实施例，提供了如所附权利要求书所要求保护的示例。

附图说明

为了更好地理解有助于理解简要说明的各种示例，现在将仅以示例的方式参考附图，其中：

图1A-1C和图2A-2C示出了经协调的现实的示例，其中图1A、1B、1C从常用的俯视视角示出了相同的虚拟视觉空间和不同的视点，并且图2A、2B、2C示出了来自相应的视点的视角的虚拟视觉场景；

图3A示出了真实空间的示例，并且图3B示出了真实视觉场景的示例；

图4示出了可操作以实现经协调的现实和/或增强现实和/或虚拟现实的装置的示例；

图5A示出了用于实现经协调的现实和/或增强现实和/或虚拟现实的方法的示例；

图5B示出了用于针对增强现实更新虚拟视觉空间的模型的方法的示例；

图6A和图6B示出了实现向用户显示虚拟视觉场景的至少一些部分的装置的示例；

图7A示出了真实空间中的手势的示例，并且图7B示出了真实空间中的手势在虚拟视觉场景中被呈现的对应表示；

图8示出了用于修改经呈现的声音场景的系统的示例；

图9示出了可以被用来例如执行系统的定位块、定向块和距离块的功能的模块的示例；

图10示出了使用装置来实现的系统/模块的示例；

图11A示出了包括声音对象的声音场景，图11B示出了包括声音对象的声音场景，图11C示出了基于虚拟分隔的存在的经修改的声音场景的示例，图11D示出了与图11C中所示的声音空间相对应的虚拟视觉空间。

图12示出了用于响应于触发动作来控制虚拟分隔如何影响用户所感知的虚拟空间的方法；

图13A示出了手势210作为触发动作的示例；图13B示出了移动和手势210的组合作为触发动作；

图14示出了虚拟空间如何被划分成多个不同的声音场景；

图15示出了影响用户所感知的虚拟空间的虚拟分隔的不同改变的示例；

图16A、16B、17A和17B示出了相对于虚拟分隔的合适的触发动作的示例，该触发动作触发对虚拟分隔如何影响用户所感知的虚拟空间的改变。

图17A示意性地示出了在相对于虚拟分隔的触发动作之前被呈现给用户的音频的示例，图17B示意性地示出了在相对于虚拟分隔的触发动作之后被呈现给用户的音频的示例；以及图18A至图18D示出了如何创建和适配虚拟分隔的示例。

定义

“人工环境”可以是已经被记录或生成的事物。

“虚拟视觉空间”是指可以被观看的完全或部分人工的环境，其可以是三维的。

“虚拟视觉场景”是指从虚拟视觉空间内的特定视点观看的、虚拟视觉空间的表示。

“虚拟视觉对象”是虚拟视觉场景内的可见虚拟对象。

“真实空间”是指真实环境，其可以是三维的。

“真实视觉场景”是指从真实空间内的特定视点观看的、真实空间的表示。

在本文档中，“经协调的现实”是指用户在视觉上体验完全或部分人工的环境(虚拟空间)，作为由装置向用户至少部分地呈现的虚拟场景。虚拟场景由虚拟空间内的视点来确定。显示虚拟场景意指以可以被用户感知的形式来提供虚拟场景。

在本文档中，“增强现实”是指经协调的现实的一种形式，其中用户体验部分人工的环境(虚拟空间)作为虚拟场景，该虚拟场景包括由装置向用户所呈现的一个或多个视觉或音频元素补充的、物理真实世界环境(真实空间)的真实场景；

在本文档中，“虚拟现实”是指经协调的现实的一种形式，其中用户体验完全人工的环境(虚拟视觉空间)作为装置向用户所显示的虚拟场景；

如应用于经协调的现实、增强现实或虚拟现实的“经视角协调的”意指用户动作确定虚拟空间内的视点，从而改变虚拟场景；

如应用于经协调的现实、增强现实或虚拟现实的“经第一人称视角协调的”意指用附加约束协调的视角，该附加约束为用户的真实视点确定虚拟空间内的视点；

如应用于经协调的现实、增强现实或虚拟现实的“经第三人称视角协调的”意指用附加约束协调的视角，该附加约束为用户的真实视点不确定虚拟空间内的视点；

如应用于经协调的现实、增强现实或虚拟现实的“用户交互”意指用户动作至少部分地确定虚拟空间内发生的事情；

“显示”意指以用户在视觉上所感知(观看)的形式来提供。

“呈现”意指以用户所感知的形式来提供。

“声音空间”是指声源在三维空间中的布置。声音空间可以与记录声音相关地被限定(所记录的声音空间)，以及与呈现声音相关地被限定(所呈现的声音空间)。

“声音场景”是指从声音空间内的特定视点所听到的声音空间的表示。

“声音对象”是指可以被定位在声音空间内的声源。与虚拟视觉空间中的对象相关联的声源相反，源声音对象表示声音空间内的声源。所记录的声音对象表示在特定麦克风或位置处记录的声音。所呈现的声音对象表示从特定位置呈现的声音。

在与声音空间和虚拟视觉空间相关地被使用时，“对应性”或“对应的”意指声音空间和虚拟视觉空间是时间和空间对准的，即它们在相同时间处是相同空间。

在与声音场景和虚拟视觉场景(或视觉场景)相关地被使用时，“对应性”或“对应的”意指声音空间和虚拟视觉空间(或视觉场景)是对应的，并且其视点限定声音场景的概念上的听众和其视点限定虚拟视觉场景(或视觉场景)的概念上的观众处于相同的位置和定向，即它们具有相同的视点。

“虚拟空间”可以意指虚拟视觉空间、意指声音空间、或意指虚拟视觉空间和对应的声音空间的组合。在一些示例中，虚拟空间可以水平地延伸高达360°并且可以垂直地延伸高达180°。

“虚拟场景”可以意指虚拟视觉场景、意指声音场景、或意指虚拟视觉场景和对应的声音场景的组合。

“虚拟对象”是虚拟场景内的对象，它可以是人工虚拟对象(例如，计算机生成的虚拟对象)，或者它可以是真实空间中的真实对象的、现场的或所记录的图像。它可以是声音对象和/或虚拟视觉对象。

具体实施方式

图1A-1C和图2A-2C示出了经协调的现实的示例。经协调的现实可以是增强现实或虚拟现实。

图1A、1B、1C示出了包括相同虚拟视觉对象21的相同虚拟视觉空间20，但是，每个图示出了不同的视点24。视点24的位置和方向可以独立地改变。视点24的方向而非位置从图1A改变为图1B。视点24的方向和位置从图1B改变为图1C。

图2A、2B、2C示出了来自相应的图1A、1B、1C的不同视点24的视角的虚拟视觉场景22。虚拟视觉场景22由虚拟视觉空间20内的视点24和视场26来确定。虚拟视觉场景22被至少部分地显示给用户。

所示的虚拟视觉场景22可以是经协调的现实场景、虚拟现实场景或增强现实场景。虚拟现实场景显示完全人工的虚拟视觉空间20。增强现实场景显示部分人工、部分真实的虚拟视觉空间20。

经协调的现实、增强现实或虚拟现实可以是经用户交互协调的。在这种情况下，用户动作至少部分地确定虚拟视觉空间20内发生了什么。这可以实现与虚拟视觉空间20内的、诸如视觉元素28的虚拟对象21的交互。例如，用户可以能够选择并移动虚拟对象21。

经协调的现实、增强现实或虚拟现实可以是经视角协调的。在这种情况下，用户动作确定虚拟视觉空间20内的视点24，从而改变虚拟视觉场景22。例如，如图1A、1B、1C所示，虚拟视觉空间20内的视点24的位置23可以被改变，和/或虚拟视觉空间20内的视点24的方向或定向25可以被改变。如果虚拟视觉空间20是三维的，则视点24的位置23具有三个自由度，例如，上/下，前/后，左/右，并且虚拟视觉空间20内的视点24的方向25具有三个自由度，例如，滚动、俯仰、偏转。视点24的位置23和/或方向25可以持续地可变，并且然后用户动作持续地改变视点24的位置和/或方向。备选地，视点24可以具有离散的量化位置23和/或离散的量化方向25，并且用户动作可以通过在视点24的所允许的位置23和/或方向25之间离散地跳跃来切换。

图3A示出了真实空间10的示例，真实空间10包括与图1A的虚拟视觉空间20部分对应的真实对象11。在该示例中，真实空间10中的每个真实对象11具有对应的虚拟视觉空间20中的虚拟对象21，但是，虚拟视觉空间20中的每个虚拟对象21不具有对应的真实空间10中的真实对象11。在该示例中，虚拟对象21、计算机生成的视觉元素28中的一个是人工虚拟对象21，该人工虚拟对象21不具有对应的真实空间10中的真实对象11。

线性映射可以存在于真实空间10和虚拟视觉空间20之间，并且相同的映射存在于真实空间10中的每个真实对象11及其对应的虚拟对象21之间。因此，真实空间10中的真实对象11的相对关系与虚拟视觉空间20中的对应虚拟对象21之间的相对关系相同。

图3B示出了真实视觉场景12的示例，真实视觉场景12部分地对应于图1A的虚拟视觉场景22，其包括真实对象11但不包括人工虚拟对象。真实视觉场景来自于与图1A的虚拟视觉空间20中的视点24相对应的视角。真实视觉场景12内容由虚拟空间20中的对应视点24和视场26(真实空间10中的视点14)来确定。

图2A可以是图3B所示的真实视觉场景12的增强现实版本的图示。虚拟视觉场景22包括由装置向用户显示的一个或多个视觉元素28补充的真实空间10的真实视觉场景12。视觉元素28可以是计算机生成的视觉元素。在透视布置中，虚拟视觉场景22包括实际的真实视觉场景12，其通过(多个)补充视觉元素28的显示而被看到。在透视视频布置中，虚拟视觉场景22包括所显示的真实视觉场景12和(多个)所显示的补充视觉元素28。所显示的真实视觉场景12可以基于来自单个视点24的图像，或者基于来自相同时间的、不同视点的多个图像，该多个图像被处理以生成来自单个视点24的图像。

图4图示了装置30的示例，装置30可操作来支持经协调的现实和/或增强现实和/或虚拟现实。

装置30包括一个或多个呈现设备或设备32，其可以经由显示器而向用户虚拟地呈现信息、经由音频输出而向用户听觉地呈现信息和/或经由触觉设备而向用户触觉地呈现信息。出于示例的目的，(多个)呈现设备将被描述为显示器。

显示器32是用于以用户在视觉上感知的形式来向用户提供虚拟视觉场景的至少部分。显示器32可以是向用户提供显示虚拟视觉场景22的至少部分的光的视觉显示器。视觉显示器包括液晶显示器、有机发光显示器、发射、反射、透射和透反射显示器、直接视网膜投影显示器，近眼显示器等。

显示器32在该示例中被控制器42控制，但不一定在所有示例中被控制器42控制。

控制器42的实现可以是控制器电路系统。控制器42可以在单独在硬件中被实现、具有单独地包括固件的软件的某些方面或者可以是硬件和软件(包括固件)的组合。

如图4中所示的，控制器42可以包括处理器40，被配置为从存储器46加载计算机程序指令48。控制器42可以使用支持硬件功能性的指令而被实现，例如，通过在通用处理器或专用处理器40中使用可执行计算机程序指令48，该指令可以被存储在计算机可读存储介质(盘、存储器等)上，将被由这种处理器40来执行。

处理器40被配置为从存储器46进行读取或向存储器46进行写入。处理器40还可以包括输出接口和输入接口，数据和/或命令由处理器40经由该输出接口而输出，数据和/或命令经由该输入接口而输入到处理器40。

存储器46至少存储计算机程序48，计算机程序48(计算机程序代码)包括计算机程序指令(计算机程序代码)，该计算机程序指令在被加载到处理器40中时控制装置30的操作。计算机程序48的计算机程序指令提供逻辑和例程，该逻辑和例程支持装置至少执行图5A和图5B中所图示的方法。处理器40通过读取存储器46而能够加载和执行计算机程序48。

装置30可以支持用于经协调的现实和/或增强现实和/或虚拟现实的用户交互协调。用户输入电路系统44使用用户输入43来检测用户动作。这些用户动作由控制器42使用来确定在虚拟视觉空间20内发生了什么。这可以支持在虚拟视觉空间20内与视觉元素28进行交互。

装置30可以支持针对经协调的现实和/或增强现实和/或虚拟现实进行视角协调。用户输入电路系统44检测用户动作。这些用户动作由控制器42使用来确定在虚拟视觉空间20内的视点24，改变虚拟视觉场景22。视点24可以在位置和/或方向上连续变化，并且用户动作改变视点24的位置和/或方向。备选地，视点24可以具有离散的量化位置和/或离散的量化方向，并且用户动作通过调到视点24的下一位置和/或方向来切换。

装置30可以针对经协调的现实、增强现实或虚拟现实支持第一个人视角。用户输入电路系统44使用视点传感器45的用户点来检测用户的真实视点14。用户的真实视点由控制器42使用来确定虚拟视觉空间20内的视点24，改变虚拟视觉空间22。向回参考图3A，用户18具有真实视点14。真实视点可以被用户18改变。例如，真实视点14的真实位置是用户18的位置，并且可以通过改变用户18的物理位置13而被改变。例如，真实视点14的真实方向15是用户18观看的方向并且可以通过改变用户18的真实方向而被改变。真实方向15可以例如通过用户18改变他们的头部或视点的定向和/或用户改变他们的凝视的方向而被改变。头戴式装置30可以被用于使用户能通过测量用户的头部的定向改变和/或用户的凝视方向上的改变，来进行视角协调。

在一些但不一定是所有示例中，装置30包括作为输入电路系统44的一部分的视点传感器45，以用于确定真实视点的改变。

例如，诸如GPS的、通过向多个接收器传输和/或从多个发射器接收来进行三边定位(三角测量)的定位技术，加速度检测和加速度积分可以被用于确定用户18的新物理位置13和真实视点14。

例如，加速度计，电子陀螺仪或电子罗盘可以被用于确定用户的头部或视点的定向的改变以及真实视点14的真实方向15的相应改变。

例如，基于例如计算机视觉的瞳孔跟踪技术可以被用于跟踪用户的一只或两只眼睛的运动，并且因此确定用户凝视的方向以及真实视点14的真实方向15上的相应改变。

装置30可以包括作为输入电路系统44的一部分的图像传感器47，图像传感器47用于对真实空间10成像。

图像传感器47的示例是数字图像传感器，被配置为如同相机来操作。这种相机可以被操作为记录静态图像和/或视频图像。在一些但不一定全部实施例中，相机可以以立体或以其他空间上分布布置来配置，使得从不同的视角观察真实空间10。这可以支持例如通过视差效应来创建三维图像和/或进行处理以建立深度。

在一些但不一定所有实施例中，输入电路系统44包括深度传感器49。深度传感器49可以包括发射器和接收器。发射器传输信号(例如，人不能感测到的信号，诸如超声或红外线)，并且接收器接收所反射的信号。使用单个发射器和单个接收器、经由测量从传输到接收的飞行时间可以得到一些深度信息。更好的解决方案可以通过使用更多发射器和/或更多的接收器(空间散布的)来达成。在一个示例中，发射器被配置为利用光(优选地，诸如红外光的不可见光)、优选地利用空间相关的图案来将光“涂”在真实空间10上。接收器对某些图案的检测允许对真实空间10进行空间解析。到真实空间10的经空间解析部分的距离可以通过飞行时间和/或立体视觉而被确定(如果接收器处于相对于发射器的立体显示位置)。

在一些但不一定所有的实施例中，另外地或作为备选，输入电路系统44可以包括图像传感器47和深度传感器49中的一个或多个传感器。这种通信电路系统41可以与真实空间10中的一个或多个远程图像传感器47和/或与真实空间10中的一个或多个远程深度传感器49通信。

在块66处，三维虚拟视觉空间20的二维投影从由当前视点24所定义的位置23和方向25上得到。然后，投影受到视场26的限制，以产生虚拟视觉场景22。然后，该方法返回到块62。

图5B图示了方法70的示例，方法70用于更新用于经协调的现实和/或增强现实和/或虚拟现实的虚拟视觉空间20的模型。

装置30可以支持例如使用图5A中所示的方法60或类似方法来支持经协调的现实和/或增强现实和/或虚拟现实。控制器42存储和维护虚拟视觉空间20的模型50。模型可以被提供给控制器42，或有控制器42来确定。例如，输入电路系统44中的传感器可以被用于从不同视点创建虚拟视觉空间的重叠深度地图，然后三维模型可以被产生。

存在可以被用于创建深度地图的许多不同技术，Kinect设备中所使用的无源系统的一个示例是：当对象使用红外光而被涂上非均匀符号图案、并且所反射的光使用多个相机而被测量到并随后使用时差效果而被处理时，确定对象的定位。

在框62处，确定虚拟视觉空间20的模型是否已经被改变。如果虚拟视觉空间20已经改变，则方法去往框66。如果虚拟视觉空间20没有被改变，则方法返回框62。

在框64处，确定虚拟视觉空间20中的视点是否已经被改变。如果视点24已经被改变，则方法移至块66。如果视点24没有被改变，则方法返回块62。

在框66处，三维虚拟视觉空间20的二维投影从由当前视点24所定义的位置23和方向25上得到。然后，投影受到视场26的限制，以产生虚拟视觉场景22。然后，该方法返回到框62。

图5B图示了方法70的示例，方法70用于更新用于增强现实的虚拟视觉空间20的模型。在装置30支持增现实的情况下，虚拟视觉空间20包括来自真实空间10的对象11，以及在真实空间10中不存在的视觉元素28。这种视觉元素28的组合可以被称为人工虚拟视觉空间。

在框72处，确定真实空间10是否已经改变。如果真实空间10已经改变，则该方法去往框76。如果真实空间10没有被改变，则该方法去往框74。可以使用差分在像素级上实现对真实空间10的检测，并且可以实现该检测，以及可以使用计算机视觉在对象移动时进行跟踪而在对象级实现。

在框74处，确定人造虚拟视觉空间是否已改变。如果人造虚拟视觉空间没被有改变，则该方法返回到框72。由于人造虚拟视觉空间是由控制器42生成的，因此视觉元素28的改变易于被检测到。

在框76处，虚拟视觉空间20的方法被更新。

图5A和图5B中所图示的框可以表示方法中步骤和/或计算机程序48中的代码的部分。框的特定顺序的图示并不一定意味着框具有所要求或优选的顺序，并且框的顺序和布置可以改变。此外，一些框可能被省略。

图6A和图6B图示了装置30的示例，装置30支持向用户显示虚拟视觉场景22的至少部分以及向用户呈现音频。

图6A图示了手持式装置31，包括作为显示器32的显示屏，显示器32向用户显示图像，并且被用于向用户显示虚拟视觉场景22。装置30可以在用户的手中、在前述六个自由度中的一个或多个上被有意地移动。手持式装置31可以容纳传感器45，传感器45用于从用户控制的装置30在定向上的改变来确定真实视点的改变，诸如例如，按钮，虚拟按钮，滑框，操纵杆等的致动。手持式装置31可以是或可以被操作为用于增强现实的视频观看布置，该布置支持将真实视觉场景12的实况或所记录的视频显示在显示器32上以用于用户观看，同时，一个或多个视觉元素28被同时地显示在显示器32上以用于用户观看。所显示的真实视觉场景12和所显示的一个或多个视觉元素28的组合向用户提供虚拟视觉场景22。

如果手持式装置31具有被安装在显示器32的相对面上相机，则其可以被操作为这样的视频观看设备，该视频观看设备支持在向用户显示一个或多个视觉元素28的同时，查看实况的真实视觉场景，以提供虚拟视觉场景22的组合。

图6B图示了头戴式装置33，头戴式装置33包括显示器32，该显示器32向用户显示图像。头戴式装置33可以在用户头部移动时自动地被移动。头戴式装置33可以容纳传感器45以用于凝视方向检测和/或选择手势检测。

头戴式装置33可以是用于增强现实的透视布置，该透视布置支持在显示器32向用户显示一个或多个视觉元素28的同时观看实况真实视觉场景12，以提供虚拟视觉场景22的组合。在这种情况下，遮阳板34(如果存在)是透明或半透明的，因此可以通过遮阳板34观看实况真实视觉场景12。

头戴式装置33可以被操作为用于增强现实的视频观看布置，该布置支持真实视觉场景12的实况或所记录的视频将由显示器32所显示，以用于由用户观看，同时一个或多个视觉元素28被显示器32同时地显示以用于由用户进行观看。所显示的真实视觉场景12与所显示的一个或多个视觉元素28的组合向用户提供了虚拟视觉场景22。在这种情况下，在这种情况下，遮阳板34是不透明的并且可以被用作显示器32。

能够向用户显示虚拟视觉场景22的至少部分的装置30的其他示例可以被使用。

例如，可以使用一个或多个投影仪来投影一个或多个视觉元素，以通过补充物理真实世界环境(真实空间)的真实视觉场景来提供增强的现实。

例如，多个投影仪或显示器可以围绕用户以通过向用户展现作为虚拟视觉场景的完全人工的环境(虚拟视觉空间)来提供虚拟现实。

向回参考图4，装置30可以支持针对经协调的现实和/或增强现实和/或虚拟现实的用户交互协调。用户输入电路系统44使用用户输入43来检测用户动作。这些用户动作由控制器42使用来确定在虚拟视觉空间20内发生了什么。这可以支持在虚拟视觉空间20内与视觉元素28的交互。

例如，所检测到的用户动作可以是在真实空间10中执行的手势。手势可以以多种方式被检测到。例如，深度传感器49可以被用于检测用户18的部分的运动、和/或图像传感器47可以被用于检测用户18的部分的运动、和/或被附接到用户18的四肢的位置/运动传感器可以被用于检测四肢的运动。

对象跟踪可以被用于确定对象或用户何时改变。例如，在较大的宏观尺度上跟踪对象允许创建与对象一起移动的参考系。然后，通过使用关于对象的时间差异，该参考系可以被用于跟踪对象形状随时间演变的变化。这可以被用于检测小尺度的人体运动，诸如手势、手部运动、手指运动、面部运动。这些是场景独立的用户(仅)相对于用户的移动。

装置30可以跟踪与用户的身体相关的多个对象和/或点，例如用户的身体的一个或多个关节。在一些示例中，装置30可以执行对用户身体的全身骨骼跟踪。在一些实例中，装置30可以执行对用户手部的手指跟踪。

装置30可以在动作识别中使用关于用户的身体的对一个或多个对象和/或点的跟踪。

参照图7，真实空间10中的特定动作80是用户输入动作，该用户输入动作被控制42用作“用户控制”事件以确定在虚拟视觉空间20中发生了什么。用户输入动作是对于装置30意味着用户输入的动作80。

参照图7B，图示了在一些但不一定是所有示例中，与动作80对应的表示由装置30在虚拟视觉场景22中呈现。该表示涉及一个或多个视觉元素28移动82以在虚拟视觉场景22中复制或指示动作80。

动作80可以是静态或移动的。移动的动作可以包括运动或包括一系列的运动图案。例如，例它可能正在做圆周运动或左右运动或上下运动或在空间中追踪标志。移动动作可以例如是独立于设备的动作或从属于设备的动作。移动动作可以涉及用户输入对象(例如，用于身体部分或多个部分)相对于传感器的运动。身体部分可以包括用户的手或用户的手的一部分，例如一个或多个手指和拇指。在其他示例中，用户输入对象可以包括用户身体的不同部分，例如他们的头部或手臂。三维运动可以包括用户输入对象在六个自由度中的任意一个自由度上运动。该运动可以包括用户输入对象朝向或远离传感器移动以及在平行于传感器的平面中移动或这些运动的任何组合。

动作80可以非接触动作。非接触动作在动作期间内在任何时不与传感器接触。

动作80可以是在与传感器的绝对位移方面所定义的绝对动作。这种动作可以被系留(tether)，因为其在真实空间10中以精确位置被执行。备选地，动作80可以是在动作期间的相对位移方面所定义的相对动作。这种动作可以被去系留，因为其不需要在真实空间10中的精确位置执行，而可以在大量任意位置处被执行。

动作80可以被定义为被跟踪点相对于原点的位移的演变。例如，其可以使用诸如位移，速度或使用其他运动学参数或使用其他运动学参数在运方面而被定义。去系留动作可以被定义为相对位移Δd相对于时间Δt的演变。

动作80可以在一个空间维度上被执行(1D动作)，两个空间维度上被执行(2D动作)，三个空间维度上被执行(3D动作)。

动作80可以是手势。

图8图示了系统100的示例，并且也图示了方法200的示例。系统100和方法200记录声音空间并且处理所记录的声音空间，以支持针对在声音空间内特定定位(原点)和定向处的听者来将所记录的声音空间呈现为所呈现的声音场景。

声音空间是三维空间中的声音源的布置。声音空间可以与所记录声音(所记录的声音空间)相关地、以及与呈现声音(所呈现的声音空间)相关地被定义。

系统100可以可选地包括一个或多个便携式麦克风110和/或可以可选地包括一个或多个静态麦克风120。

在该示例(但不一定是所有示例)中，声音空间的起源是在麦克风上。在该示例中，起源处的麦克风是静态麦克风120。它可以记录一个或多个通道，例如，它可以是麦克风阵列。然而，原点可以在任意位置。

在该示例中，仅单个静态麦克风120被示出。然而，在其他示例中，多个静态麦克风120可以被单独地使用。

系统100可选地包括一个或多个便携式麦克风110。便携式麦克风110可以例如与声源一起在所记录的声音空间内移动。便携式麦克风可以例如是保持靠近声源的“近距离”麦克风。例如，这可以通过使用动臂麦克风来实现，或者例如通过将麦克风附接到声源，例如通过使用拉瓦利埃麦克风来实现。便携式麦克风110可以记录一个或多个记录通道。

便携式麦克风PM 110与原点的相对位置可以由矢量z表示。因此，矢量z相对于所记录的声音空间的名义听者来定位便携式麦克风110。

名义听者在原点处的相对定向可以由值Δ来表示。定向值定义了名义听者的“视点”，该视点定义声音场景。声音场景是对在声音空间内从特定视角所听到的声音空间的表示。

当经由图1中的系统100将所记录的声音空间呈现给用户(听众)时，其如同听者以特定的定向、位于所记录的声音空间的原点处而被呈现给听者。因此，重要的是，随着便携式麦克风110在所记录的声音空间中移动，其相对于记录的声音空间的原点的定位z应当被跟踪并被正确地表现在所呈现的声音空间中。系统100被配置为达成此效果。

从静态麦克风120输出的音频信号122被音频编码器130编码为多通道音频信号132。如果存在多个静态麦克风，则每个音频麦克风的输出将由音频编码器分别编码成多通道音频信号。

音频编码器130可以是空间音频编码器，使得多通道音频信号132表示由静态麦克风120所记录的声音空间，并且可以被呈现以给出空间音频效果。例如，音频编码器130可以被配置为根据定义的标准(诸如，例如，双耳编码，5.1环绕声编码，7.1环绕声编码等)来产生多声道音频信号132。如果存在多个静态麦克风，则将根据相同的所定义标准(诸如例如，双耳编码，5.1环绕声编码和7.1环绕声编码)、并且关于相同的公共呈现的声音空间来生成每个静态麦克风的多通道信号。

混合器102将来自一个或多个静态麦克风120的多声道音频信号132与来自一个或多个便携式麦克风110的多声道音频信号142混合，以产生表示相对于原点来呈现所记录的声音场景的多麦克风、多通道音频信号103，并且其可以由与音频编码器130相对应的音频解码器进行呈现，以向听者重新产生与当听者位于原点时所记录的声音场景相对应的所呈现的声音场景。

在混合之前，处理来自一个或每个便携式麦克风110的多通道音频信号142，以考虑便携式麦克风110相对于静态麦克风120处的原点的任何移动。

从便携式麦克风110输出的音频信号112由定位框140来处理，以调节便携式麦克风110相对于原点的运动。定位框140将矢量z或取决于矢量z的一个或多个参数作为输入。矢量z标识便携式麦克风110相对于原点的相对定位。

定位框140可以被配置为针对由便携式麦克风110所记录的音频信号112和由静态麦克风120所记录的音频信号122之间的任何时间未对准进行调整，使得它们共享公共的时间基准帧。例如，这可以通过以下来实现：将存在于来自便携式麦克风110的音频信号112内的自然出现的或人工引入的(不可听的)音频信号与来自静态麦克风120的音频信号122中的那些相关联。由关联所标识的任何定时偏移可以被用于在定位框140进行处理之前对来自便携式麦克风110的音频信号112进行延迟和提前。

定位框140考虑到便携式麦克风110相对于静态麦克风120的原点的相对方向(Arg(z))，来处理来自便携式麦克风110的音频信号112。

静态麦克风音频信号122的用以产生多通道音频信号132的音频编码采用所呈现的声音空间相对于所记录的声音空间的定向的特定方向，并且音频信号122相应地被编码为多通道音频信号132。

确定所记录的声音空间中的便携式麦克风110的相对定向Arg(z)，并将表示声音对象的音频信号112编码到由音频编码130所定义的多通道，以使声音对象与收听者处于相对方向为Arg(z)而被正确地定向在所呈现的声音空间内。例如，可以先将音频信号112混合或编码到多通道信号142中，然后在通过Arg(z)由多个通道所定义的空间内，可以使用变换T来旋转表示运动声音对象的多通道音频信号142。

如果必要，定向框150可以用于将多通道音频信号142旋转Δ。类似地，如果必要，定向框150可以被用于将多通道音频信号132旋转Δ。

定向框150的功能与定位框140的定向功能的功能非常相似，除了它旋转Δ而不是旋转Arg(z)。

在某些情况下，例如，当通过头戴式音频输出设备30(例如，使用双耳音频编码的耳机)将声音场景呈现给收听者时，当收听者在空间中转头时，可能是希望的是，所呈现的声音空间90在真实空间10中保持固定。这意味着，在与头部旋转相反的意义上，所呈现的声音空间90需要相对于音频输出设备30旋转达相同的量。所呈现的声音空间90的定向随着收听者头部的旋转而跟踪，使得所呈现的声音空间90的定向在空间中保持固定，并且不会随着收听者的头部而移动。

附加地处理便携式麦克风信号112，以控制在所呈现的声音场景中对声音对象与收听者的距离D的感知，例如以匹配声音对象距所记录的声音空间中的原点的距离|z|。当使用双耳编码时，这很有用，例如，声音对象从用户外部出现，并且看起来处在用户的耳朵之间一定距离处，而不是在用户的头部内。距离框160处理多通道音频信号142，以修改距离的感知。

图9示出了模框170，其例如可以用于执行图8中的定位框140、定向框150和距离框160的方法200和/或功能。模框170可以使用电路系统和/或已编程的处理器来实现。

该图示出了在多通道音频信号142与多通道音频信号132被混合以形成多麦克风多通道音频信号103之前，对多通道音频信号142的单个通道的处理。多通道信号142的单输入通道被输入为信号187。

在混合器196将来自路径的输出作为多通道信号混合在一起之前，输入信号187并行地通过“直接”路径和一个或多个“间接”路径，以产生输出多通道信号197。对于输入通道中的每个输入通道，输出多通道信号197被混合以形成与多通道音频信号132混合的多通道音频信号142。

直接路径表示在收听者看来似乎已经从音频源直接接收到的音频信号，而间接路径表示在收听者看来似乎经由诸如多路径或反射路径或折射路径的间接路径已经从音频源接收到的音频信号。

通过修改直接路径和间接路径之间的相对增益，距离框160改变在呈现的声音空间90中声音对象距收听者的距离D的感知。

并行路径中的每个路径包括可变增益设备181、191，其由距离框160所控制。

距离的感知可以通过控制直接路径和间接(解相关的)路径之间的相对增益来控制。相对于直接路径增益而增加间接路径增益会增加对距离的感知。

在直接路径中，输入信号187在距离框160的控制下由可变增益设备181放大，以产生经增益调整的信号183。经增益调整的信号183由直接处理模框182处理，以产生直接的多通道音频信号185。

在间接路径中，输入信号187在距离框160的控制下由可变增益设备191放大，以产生经增益调整的信号193。经增益调整的信号193由间接处理模框192处理，以产生间接的多通道音频信号195。

在混合器196中将直接的多声道音频信号185和一个或多个间接的多声道音频信号195混合，以产生输出多声道音频信号197。

直接处理框182和间接处理框192两者均接收到达信号188的方向。到达信号188的方向给出了所记录的声音空间中的便携式麦克风110(运动声音对象)的定向Arg(z)，以及所呈现的声音空间90相对于名义收听者/音频输出设备300的定向Δ。

移动声音对象的位置随着便携式麦克风110在所记录的声音空间中的移动而变化，并且所呈现的声音空间的方向随着呈现声音空间的头戴式音频输出设备的旋转而变化。

直接处理框182可以例如包括系统184，该系统184在适当的多声道空间中旋转单声道音频信号，增益调整后的输入信号183，从而产生直接多声道音频信号185。该系统使用传递函数，执行变换T，该变换T在针对多个通道所定义的空间内旋转多个通道信号达Arg(z)以及达Δ，其由到达信号188的方向所定义。例如，头部相关传递函数(HRTF)内插器可以是用于双耳音频。作为另一示例，向量基振幅平移(VBAP)可以用于扬声器格式(例如5.1)音频。

间接处理框192例如可以使用可变增益设备194使用到达信号188的方向来控制单声道音频信号(经增益调整后的输入信号193)的增益。然后，使用静态解相关器196和静态变换T来处理放大信号，以产生间接多通道音频信号195。在该示例中，静态解相关器使用至少2ms的预延迟。在为这些多个通道定义的空间内，变换T以类似于直接系统但固定量的方式旋转多通道信号。例如，静态头相关传递函数(HRTF)内插器可以用于双耳音频。

因此应当理解，模框170可以被用于处理便携式麦克风信号112并执行以下功能：

(i)改变所呈现的声音对象距所呈现的声音空间中的听众的相对位置(定向Arg(z)和/或距离|z|)，以及

(ii)更改所呈现的声音空间的定向(包括根据(i)定位的所呈现的声音对象)。

还应当理解，当处理由静态麦克风120提供的音频信号122时，模框170也可以仅用于执行定向框150的功能。然而，到达信号的方向将仅包括Δ和将不包括Arg(z)。在一些但并非全部示例中，可以将改变对间接路径的增益的可变增益设备191的增益设为零，并且可以将对直接路径的可变增益设备181的增益固定。在这种情况下，模框170缩减为以下系统，根据到达信号的方向，该系统旋转所记录的声音空间，以产生所呈现的声音空间，该到达信号仅包括Δ并且不包括Arg(z)。

图10示出了使用装置400所实现的系统100的示例。装置400可以是例如静态电子设备，便携式电子设备或手持式电子设备，其尺寸使其适合于可以放在用户的手掌上或用户的内部夹克口袋中。

在该示例中，装置400包括作为集成麦克风的静态麦克风120，但是不包括一个或多个远程的便携式麦克风110。在该示例中，但不一定是所有示例中，静态麦克风120是麦克风阵列。然而，在其他示例中，装置400不包括静态麦克风120。

装置400包括用于与外部麦克风(例如，(多个)远程便携式麦克风110)进行外部通信的外部通信接口402。例如，其可以包括无线电收发器。

定位系统450被图示为系统100的一部分。该定位系统450用于相对于声音空间的原点(例如静态麦克风120)来定位(多个)便携式麦克风110。在该示例中，定位系统450被图示为在便携式麦克风110和装置400两者的外部。它将取决于便携式麦克风110相对于声音空间的原点的位置z的信息提供给装置400。在该示例中，信息是经由外部通信接口402而提供，但是在其他示例中，可以使用不同的接口。而且，在其他示例中，定位系统可以全部或部分地位于便携式麦克风110内和/或装置400内。

定位系统450提供对具有特定频率的便携式麦克风110的位置的更新，并且术语“准确”和“不准确”的声音对象定位应该理解为，在位置更新的频率所施加的约束范围内的准确或不准确。也就是说，准确和不准确的是相对术语，而不是绝对术语。

定位系统450支持便携式麦克风110的位置被确定。定位系统450可以接收定位信号并确定提供给处理器412的位置，或者其可以提供定位信号或取决于定位信号的数据，以便处理器412可以确定便携式麦克风110的位置。

存在可由定位系统450使用的、用以定位对象的许多不同的技术，包括无源系统和有源系统，在无源系统中，被定位的对象是无源且不产生定位信号，在有源系统中，被定位的对象产生一个或多个定位信号。Kinect^TM设备中使用的系统的一个示例是，使用红外光将对象涂上非均匀符号图案的对象，然后使用多台摄像机测量反射光，然后使用视差效果对其进行处理，以确定对象的位置。有源无线电定位系统的一个示例是，对象具有将无线电定位信号传输给多个接收器以使对象能够通过例如三边定位或三角测量来定位的发射器。作为示例，发射器可以是蓝牙标签或射频识别(RFID)标签。无源无线电定位系统的示例是，对象具有一个或多个接收器，这些接收器从多个发射器接收无线电定位信号，以使对象能够通过例如定位或三角测量来定位。三边定位需要估计对象距已知位置上多个未对准的发射器/接收器位置的距离。可以例如使用飞行时间或信号衰减来估计距离。三角测量需要估计对象距已知位置上多个未对准的发送器/接收器位置的方位。例如，可以使用以可变窄口径传输的发射器、以可变窄口径接收的接收器或通过在分集接收器处检测相位差，来估计方位。

其他定位系统可能会使用航位推算和惯性运动或磁性定位。

所定位的对象可以是便携式麦克风110，也可以是与便携式麦克风110相关联的人佩戴或携带的对象，也可以是与便携式麦克风110相关联的人。

装置400全部或部分地操作上述系统100和方法200，以产生多麦克风多通道音频信号103。

装置400经由输出通信接口404将多麦克风多通道音频信号103提供给音频输出设备300，以进行呈现。

在一些但不是全部示例中，音频输出设备300可以使用双耳编码。备选地或另外地，在一些但不是全部示例中，音频输出设备300可以是头戴式音频输出设备。

在该示例中，装置400包括控制器410，该控制器410被配置为处理由静态麦克风120、便携式麦克风110和定位系统450所提供的信号。在一些示例中，根据麦克风110、120和音频输出设备300处的功能，可能需要控制器410来执行从麦克风110、120接收的信号的模数转换、和/或执行对被传输给音频输出设备300的信号的数模转换。但是，为了清楚起见，图9中没有图示转换器。

控制器410的实现可以作为控制器电路系统。控制器410可以单独以硬件来实现，可以单独具有包括固件的软件中的某些方面，或者可以是硬件和软件(包括固件)的组合。

如图10中所图示，控制器410可以使用实现硬件功能的指令来实现，例如，通过使用通用或专用处理器412中的计算机程序416的可执行指令，可以将该可执行指令存储在将由这样的处理器412执行的计算机可读存储介质(磁盘，存储器等)中。

处理器412被配置为从存储器414读取以及向存储器414写入。处理器412还可以包括输出接口以及输入接口，处理器412经由该输出接口而输出数据和/或命令，数据和/或命令经由该输入接口被输入给处理器412。

存储器414存储计算机程序416，该计算机程序416包括计算机程序指令(计算机程序代码)，该计算机程序指令在被加载到处理器412中时控制装置400的操作。计算机程序416的计算机程序指令提供使装置能执行图1至图19所示的方法的逻辑和例程。通过读取存储器414，处理器412能够加载并执行计算机程序416。

图8和图9所图示的框可以表示方法中的步骤和/或计算机程序416中的代码部分。对框的特定顺序的图示并不一定意味着该框具有所需或优选的顺序，并且框和框的顺序和布置可以改变。此外，有可能省略一些框。

上文的描述结合图1至图7描述了系统、装置30、方法60和计算机程序48，其使得能够取决于虚拟视觉空间20来控制虚拟视觉空间20和虚拟视觉场景26。

上文的描述结合图8至图10描述了系统100、装置400、方法200和计算机程序416，其实现取决于声音空间90来控制声音空间90和声音场景92。

通过相同的装置30、400、系统100，方法60、200或计算机程序48、416，可以提供如下功能，该功能取决于虚拟视觉空间20而能够控制虚拟视觉空间20和虚拟视觉场景26，并且取决于声音空间90而能够控制声音空间和声音场景92。

图11A从顶部透视图示出了对应于虚拟视觉空间20的声音空间90的示例。图11A是三维声音空间90的二维投影或横截面。声音空间90限定了声音场景92。装置30包括一个或多个呈现设备32，其可以经由音频输出(例如经由扬声器)以听觉方式向用户呈现信息。

在一些但不是全部示例中，虚拟视觉空间20和声音空间90可以是对应的，并且形成组合的虚拟空间90、20。当结合声音空间和虚拟视觉空间使用时，“对应关系”或“对应于”是指声音空间90和虚拟视觉空间20在时间和空间上被对准为组合的虚拟空间90、20，即它们同时处于相同的空间。

虚拟视觉空间20和声音空间90之间的对应导致虚拟视觉场景22和声音场景92之间的相对应，以形成组合的虚拟场景92、22。当结合声音场景92和虚拟视觉场景22来使用时，“对应关系”或“对应于”表示声音空间90和虚拟视觉空间20是对应的，并且是名义上的收听者(其视点定义了声音场景92)和名义上的观看者(其视点定义了虚拟视觉场景22)位于相同的位置和定向，即它们具有相同的视点24。

在图11A中，声音空间90和虚拟视觉空间20形成组合的虚拟空间90、20。声音空间90是声源94在三维空间中的布置。在该示例中，声音空间90是呈现的声音空间。

声音空间90定义了与虚拟视觉场景22相对应的声音场景92。声音场景92和虚拟视觉场景22形成了组合的虚拟场景92、22。声音场景92是对所收听的声音空间90的表示，以在声音空间90内形成虚拟收听者(用户)16的特定视点。声音场景92是经第一人称视角协调的。用户的真实视点确定了声音空间内的视点，从而改变了声音场景92。

在该示例中，声音空间90内的视点对应于虚拟视觉空间20内的视点24，并且使用了相同的标签。虚拟场景92、22是经第一人称视角协调的。用户的真实视点确定了组合虚拟空间90、20中虚拟用户16的视点24，从而更改了组合的虚拟场景92、22。

在这种意义上，“对应”意味着在声音空间90和虚拟视觉空间20之间存在一对一的映射，使得声音空间90中的位置在虚拟视觉空间20中具有对应的位置，并且虚拟视觉空间20中的位置在在声音空间90中具有对应的位置。在这种意义上，“对应”意味着在声音场景92与虚拟视觉场景22之间存在一对一的映射，使得声音场景92中的位置在虚拟视觉场景22中具有对应的位置，并且虚拟视觉场景22中的位置在声音场景中具有对应的位置92。“对应于”也意味着声音空间90/声音场景92的坐标系统和虚拟视觉空间20/虚拟视觉场景22的坐标系统是对齐的，以便在从虚拟用户16的视角中的相同位置，将对象定位为声音场景中的声音对象和视觉场景中的视觉对象。

在该图示的示例中，用户动作确定声音空间90(和虚拟视觉空间20)内的视点24，同时改变声音场景92和虚拟视觉场景22。例如，可以改变视点24在虚拟空间92、20内的位置23，和/或可以改变视点24在虚拟空间92、20内的方向或定向25。如果虚拟空间92、20是三维的，则视点24的位置23具有三个自由度，例如上/下、前/后、左/右，并且视点24在虚拟视觉空间20内的方向25具有三个自由度，例如，滚转、俯仰、偏航。视点24在位置23和/或方向25上可以是连续可变的，然后用户动作连续地改变视点24的位置和/或方向。备选地，视点24可以具有离散的量化位置23和/或离散的量化方向25，并且通过在视点24的允许用户动作通过位置23和/或方向25之间离散地跳跃来切换。

如前所述，用户输入电路系统44使用用户视点传感器45来检测用户的真实视点14。控制器42使用用户的真实视点来确定虚拟用户16在虚拟空间92、20内的视点24，从而改变虚拟场景92、22。回到图3A，用户18的真实视点14可以由用户18改变。例如，真实视点14的真实位置13是用户18的位置，并且可以通过更改用户18的实际位置13进行更改。例如，真实视点14的真实方向15是用户18正在看时的方向，并且可以通过改变用户18的真实方向来改变。例如，可以通过用户18改变他们的头部或视点的定向和/或用户改变他们的注视的方向，来改变真实方向15。通过测量用户的头部的方向的改变和/或用户的注视方向的改变，头戴式装置30可以用来实现第一人称视角协调。在一些但并非全部示例中，装置30包括作为输入电路系统44的一部分的视点传感器45，用于确定真实视点的变化。

该用户在真实空间10中作为真实用户18存在，并且在虚拟空间90、20中作为虚拟用户16存在。取决于上下文，术语“用户”将指真实空间10中的真实用户18和/或虚拟空间90、20中的用户16。例如，动作是由用户18在真实空间10中执行的，但它们在虚拟空间90、20中具有作为由虚拟用户16所执行的动作的含义。例如，真实空间10中的视点14由真实空间10中的真实用户18控制，但是为虚拟空间90、20中的虚拟用户16产生对应的视点24。

图11A和图11B示出了示例，其中用户的视点24相对于相同的声音空间90是相同的，并且基于在不同方向上的不同的建模听觉敏锐度，而将不同的声音场景92呈现给用户18。在图11A中，在所有方向上呈现声音对象94(其定义了声音场景92)的范围是相同的。在图11B中，呈现声音对象94(其定义了声音场景90)的范围在以视点24为中心的角度范围内较大，而在其他角度处(例如与视点24相反)较小。声音对象94是指位于声音空间90内并从声音空间90内的特定位置呈现的声源。

图11A示出了声音场景92，其包括朝向前方的声音对象94₁，94₂、94₃和朝向后方的声音对象94₄。

图11B示出了声音场景92，其包括朝向前方的声音对象94₁，94₂、94₃，但是不包括朝向后方声音对象94₄。

图11C示出了一个示例，其中用户的视点24相对于与图11A和图11B中相同的声音空间90是相同的，但是基于虚拟分隔240的存在而呈现出不同的声音场景90。

尽管示出了虚拟分隔240的特定布置(数目、形状、位置、定向)，但是应当理解，不同的布置是可能的。例如，单个虚拟分隔可以围绕用户16，并且一个或多个虚拟分隔可以以不同的方式成形、定位或取定向。例如，不同的虚拟分隔240可以被独立地成形、定位或取定向。虚拟分隔240的布置可以是随时间可变的，并且有时可能不存在虚拟分隔240。虚拟分隔240的变化可以是动态的并且响应于用户动作。例如，在一些但未必是全部示例中，最初可能存在没有任何虚拟分隔的声音场景90，并且响应于用户的动作(或某个其他事件)，初始声音场景90被划分为由虚拟分隔240隔开的较小的声音场景90。

在一些但未必是全部示例中，虚拟分隔240限定了由如图11C所示的(多个)虚拟分隔240界定的经修改的声音场景92。该经修改的声音场景92包括声音对象942，但不包括声音对象941、943、944。

虚拟分隔240对虚拟空间90、20进行划分。虚拟分隔240影响具有在虚拟空间90、20内的位置的虚拟用户16对虚拟空间90、20的感知。

在一些但未必是全部示例中，虚拟分隔240影响呈现，但不影响用户必须改变视点24的自由度(例如，改变位置23和/或改变方向25)。

在一些但未必是全部示例中，虚拟分隔240对音频呈现的影响大于对视频呈现的影响。

图11D示出了与图11C中示出的声音空间90对应的虚拟视觉空间20。虚拟分隔240可以例如是视觉空间20中的透明分隔或者半透明分隔。在一些但未必是全部示例中，视觉指示242可以与关联于虚拟分隔240的虚拟视觉空间20中的虚拟分隔240相关联。视觉指示242向虚拟空间20、90中的虚拟用户16视觉地标识虚拟分隔240，使得用户16、18可以在视觉上定位虚拟视觉空间20、90内的虚拟分隔240。视觉指示242的一个示例是虚拟分隔240的表面上的表面图案。

在对应的声音空间90中，如图11C中所示，虚拟分隔240可以是声音空间90的不透明分隔或明显不透明的分隔。因此，虚拟分隔240阻挡了从虚拟分隔240后面的声音对象94(例如，图11C中的声音对象944)产生的全部或大部分声音。也就是说，在向用户18呈现声音空间90时，在声音对象94n与虚拟用户16之间存在的虚拟分隔240阻挡了从声音对象94n产生的全部或大部分声音。

阻挡从声音对象94n产生的声音可以通过从当前由虚拟用户16占据的声音场景92中移除声音对象94n来实现。

阻挡从声音对象94n产生的大部分声音可以通过调整声音对象94n来实现。该调整可以包括通过降低声音对象的音量来衰减声音对象94n和/或对声音对象94n应用低通频谱滤波器，相比于低频分量，该低通频谱滤波器更多地衰减高频分量。该调整可以例如模拟在虚拟分隔240所处的位置处的吸音壁的存在。

图12示出了用于控制虚拟分隔240如何影响由用户感知的虚拟空间90、20的方法100。

在框102，该方法包括使用虚拟分隔240来划分虚拟空间90、20，该虚拟分隔240影响具有虚拟空间90、20内的视点24的用户18对虚拟空间90、20的感知。

在框104，该方法100包括对第一虚拟分隔240如何影响由用户16、18感知的虚拟空间90、20进行第一改变。这是响应于用户16、18在虚拟空间90、20中相对于第一虚拟分隔240的第一动作。

如图13A和13B中所示，第一动作210可以是例如，运动和/或手势。动作210可以改变用户16对于虚拟分隔2401的关系。

图13A中示出了作为触发的手势210的示例。在该示例中，用户16、18相对于虚拟分隔2401执行手势210。例如，用户16、18可以用一只手指向虚拟分隔2401，并且同时用另一只手触摸耳朵。作为响应，如图中从实线到虚线的变化所示，虚拟分隔2401被修改，从而使得虚拟分隔2401如何影响由用户16、18感知的虚拟空间90、20改变。

作为触发的运动210的示例是当用户16、18朝虚拟分隔240移动时。

在图13B中示出了运动与手势210相结合作为触发的示例。在该示例中，用户16、18相对于虚拟分隔2401移动并且相对于虚拟分隔2401执行手势。例如，用户16、18可以朝虚拟分隔2401移动，并且将耳朵置于虚拟分隔2401处、置于虚拟分隔2401之上或者置于虚拟分隔2401附近、或者将他们的头靠近虚拟分隔2401。作为响应，如图中从实线到虚线的变化所示，虚拟分隔2401被修改，以使得虚拟分隔2401如何影响由用户16、18感知的虚拟空间90、20改变。

在用户16、18执行将导致虚拟分隔2401如何影响由用户16、18感知的虚拟空间90、20改变的触发动作210时，可以向用户18提供触觉反馈。

在所述示例中，用户16周围的一个或多个分隔240限定了当前声音场景92c，当前声音场景92c至少部分地由一个或多个虚拟分隔240划定。声音场景92c至少部分地由至少一个虚拟分隔2401与在另一不同的声音场景921中的声音对象94分离。

与当前声音场景92c相关联的音频最初以大于与分离的声音对象94相关联的音频的音量被呈现给用户16、18。这可以通过在向用户16、18呈现音频期间，在当前声音场景92c之外提供对声音对象94的附加衰减来实现。

响应于用户16、18在虚拟空间90、20中相对于第一虚拟分隔2401的第一动作210，改变由第一虚拟分隔2401与当前声音场景92c分离的第一声音场景921的声音对象94的衰减。与声音对象94相关联的音频的衰减可以被降低。这导致以增加的音量向用户16、18呈现与第一声音场景921的声音对象94相关联的音频。

图14示出了虚拟空间90、20可以如何被划分成多个不同的声音场景92。

多个分隔240nm限定了至少部分地由虚拟分隔240划定的多个声音场景92。声音场景92n至少部分地被至少一个虚拟分隔240nm与相邻的声音场景92m分离。每个声音场景92包括不同的声音对象94j。

最初，在向用户16、18呈现音频期间，控制与除了当前声音场景92之外的声音场景92相关联的音频的附加衰减。与当前声音场景92c(c＝1，2，3或4)相关联的音频以大于与任何其他场景相关联的音频的音量被呈现给用户。当前场景由用户16在虚拟空间90、20中的位置确定。当前声音场景92是虚拟用户16当前位于其中的声音场景92。

响应于用户16、18在虚拟空间90、20中相对于第一虚拟分隔2401的第一触发动作210，改变被该第一虚拟分隔2401与当前声音场景92c分离的第一声音场景92i(i≠c)的声音对象94i的衰减。与那些声音对象84相关联的音频的衰减可以被降低。这导致以增加的音量向用户16、18呈现与第一声音场景92i的声音对象94相关联的音频。

图15示出了虚拟分隔240中的不同改变以及第一虚拟分隔240如何影响由用户16、18感知的虚拟空间90、20的示例。

响应于虚拟用户16在虚拟空间90、20中相对于第一虚拟分隔2401的第一触发动作2101，方法100对第一虚拟分隔2401如何影响由用户16、18感知的虚拟空间90、20进行第一改变2701。

在一些但未必是全部示例中，相对于第一虚拟分隔2401的第一触发动作2101在时间上改变第一虚拟分隔2401如何进行对于虚拟分隔2401如何影响由用户16、18感知的虚拟空间90、20的第一改变2701。该方法可以例如附加地包括：在不继续进行第一动作2101的情况下，通过执行对于虚拟分隔2401如何影响由用户感知的虚拟空间的附加改变2702，来自动地撤销第一改变2701。这对应于恢复到第一动作2101之前的存在状态。

该方法可以附加地或备选地包括：响应于与第一动作2101不同或者无关的第二动作2103，移除第一虚拟分隔2401对于用户所感知的虚拟空间90、20的作用。这对应于移除2703第一虚拟分隔2401并且重新限定当前声音场景92。

图16A和16B示出了适合的触发动作210的示例，该触发动作210触发对虚拟分隔240如何影响由用户16、18感知的虚拟空间90、20的改变。触发动作210是用户16、18相对于虚拟分隔240的动作。

在图16A中，触发动作210包括虚拟空间90、20中的虚拟用户16使他们的头272极为靠近虚拟分隔240，如同通过虚拟分隔240聆听一般。这触发了对该虚拟分隔240如何影响由用户16、18感知的虚拟空间90、20的改变。

在图16B中，触发动作210包括虚拟空间90、20中的虚拟用户16使他们的头272极为靠近虚拟分隔240，并且将他们的耳朵274置于虚拟分隔240附近、或者置于虚拟分隔240上、或者置于虚拟分隔240中，如同通过虚拟分隔240聆听一般。这触发了对该虚拟分隔240如何影响由用户16、18感知的虚拟空间90、20的改变

图17A示意性地示出了在触发动作210之前呈现给用户16、18的音频的示例。所呈现的音频280以正常音量来自当前声音场景92c。没有越过虚拟分隔240的、来自相邻声音场景92的呈现的音频。

图17B示意性地示出了在用户16、18相对于虚拟分隔240的触发动作210之后呈现给用户16、18的音频的示例。所呈现的音频以降低的音量来自当前场景92c。附加呈现的音频282来自越过虚拟分隔240的相邻的声音场景92。

在虚拟用户16在虚拟空间90、20中执行触发动作210之后，可以向用户18提供确认性触觉反馈，来确认用户动作已经被执行，该用户动作将引起对虚拟分隔240如何影响由用户16、18感知的虚拟空间90、20的改变。

装置30包括一个或多个呈现设备32，呈现设备32可以经由触觉设备以触觉方式向用户呈现信息。

图18A至18D示出了可以如何创建或调整虚拟分隔240的示例。

在一些但未必是全部示例中，影响虚拟空间内的虚拟用户16对虚拟空间90、20的感知的虚拟分隔240的布置可以最初被自动定义和/或由用户18定义。

在一些但未必是全部示例中，影响虚拟空间内的虚拟用户16对虚拟空间90、20的感知的虚拟分隔240的布置可以被动态改变(随时间变化)，从而利用虚拟分隔240将虚拟空间90、20的划分改变为声音场景92。

例如，虚拟分隔240可以被保留和/或移除和/或添加。这可以自动地发生。备选地或附加地，这可以响应于来自用户18的控制输入而发生。

例如，一个或多个虚拟分隔240可以通过改变其形状、定向或位置或者通过改变其对用户16、18对虚拟空间90、20的感知的作用而修改。这可以自动地发生。备选地或附加地，这可以响应于来自用户18的控制输入而发生。

图18A示出了用于捕获限定虚拟空间90、20的内容的捕获设备290的布置。该布置以与图18B-18D中所示的虚拟空间匹配的规模和定向被描述，以使得捕获设备290的真实位置对应于该捕获设备在虚拟空间90、20中的虚拟位置。

在图18B中，基于捕获设备290的虚拟位置来确定虚拟分隔240。使用影响虚拟空间90、20内的用户16对虚拟空间90、20的感知的虚拟分隔240对虚拟空间90、20的划分通过根据捕获设备290的虚拟位置来定位虚拟分隔240而确定。在此示例中，如图18B所示，每个捕获设备限定虚拟空间的分段292，并且每个分段292是声音场景92。声音场景/分段由虚拟分隔240分隔开。捕获设备290可以包括一个或多个视频捕获设备47和/或一个或多个音频捕获设备110、120，如图10的装置400中所示。

因此，虚拟分隔240的位置由用于捕获虚拟空间90、20的捕获设备290的位置确定。在该示例中，虚拟分隔240的位置在用于捕获虚拟空间90、20的捕获设备290之间的边界处。

图18C示出了基于声源94的分组的虚拟空间90、20中的虚拟分隔240的布置。

声源可以是与虚拟空间中的位置直接相关的声音对象。

备选地，声源可以是通过与虚拟视觉空间中的对象(例如，虚拟视觉对象)相关联而间接与虚拟空间中的位置相关联的声音。在该示例中，声源间接地与虚拟空间中的关联对象的位置相关联。

声源94可以被分组以形成组，因为它们在空间上是群聚的。

声源94可以被分组以形成组，因为它们是具有例如经协调的声音的交互式声源。

虚拟分隔240的布置对虚拟空间90、20进行划分，并且影响虚拟空间90、20内的虚拟用户16对虚拟空间90、20的感知。虚拟分隔240的布置基于组。每个组成为被一个或多个虚拟分隔240与其他声音场景92分开的单独的声音场景92。

可以动态地改变声源的分组。结果，可以动态地改变基于组的虚拟分隔240的布置。例如，分组可以取决于用户16在虚拟空间90、20内的位置。

例如，当虚拟用户16远离组并且用户在虚拟空间90、20中的位置与声源94的组相关联的位置之间的相对分离度增加时，可能发生组的合并以形成新的替换组。这样，组的空间分辨率降低。

例如，当虚拟用户16向该组移动并且虚拟用户16在虚拟空间90、20中的位置与声源94的组相关联的位置的相对分离降低时，可能会发生组的划分以形成多个组。这样，组的空间分辨率增加。

在一些示例中，用户18可以通过例如标识应当定义分离的组的虚拟视觉对象或声音对象来控制组的形成。

图18D类似于图18C，除了在该示例中声音场景不一定是连续的并且不覆盖所有虚拟空间。存在未落入声音场景92内的未定义区域96。如果虚拟用户16进入未定义区域96，则所有虚拟分隔240被移除直至虚拟用户16离开未定义区域并且进入声音场景92，在这种情况下，虚拟分隔240返回。

参照图11至图18所描述的方法可以任何合适的装置(例如，装置30、40)、计算机程序(例如，计算机程序46、416)、或系统(例如，系统100)来实现，诸如先前所描述的或类似的。

在前述示例中，参考了计算及程序或多个计算机程序。计算及程序，例如计算机程序48、416或计算机程序48、416的组合可以被配置为执行方法100。

作为另一示例，装置30、400可以包括：至少一个处理器40、412；以及至少一个存储器46、414，该至少一个存储器包括计算机程序代码，至少一个存储器46、414和计算机程序代码被配置为，与至少一个处理器40、412一起使装置400、20至少执行：使用虚拟分区240引起虚拟空间的划分，该虚拟分区240影响在虚拟空间内具有虚拟位置的用户18对虚拟空间的视角；响应于真实用户18相对于第一虚拟分区240在虚拟空间中的第一动作210，对第一虚拟分隔240如何影响由用户18所感知的的虚拟空间的方式进行第一改变。

计算机程序48、416可以通过任何合适的传递机制到达装置30、400。传递机制可以是例如非瞬态计算机可读存储介质、计算机程序产品、存储设备，诸如光盘只读存储器(CD-ROM)或数字多功能光盘(DVD)，有形地体现计算机程序48、416的制造产品。传送机制可以是被配置为可靠地传送计算机程序48、416的信号。装置30、400可以传播或传输计算机程序48、416作为计算机数据信号。图10示出了用于计算机程序416的传送机制430。

从前述内容将认识到，所描述的各种方法600可以由设备30、400，例如电子设备30、400来执行。

在一些示例中，电子设备30、400可以是诸如头戴式音频输出设备之类的音频输出设备300或用于这种音频输出设备300的模块的一部分。在一些示例中，电子设备30、400可以附加地是头戴式设备33或备选地是头戴式设备33的一部分，该头戴式设备33包括以视觉和/或听觉和/或触觉方式向用户呈现信息呈现设备32。

对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等，或者“控制器”、“计算机”、“处理器”等的引用，应当被理解为不仅包括具有不同架构的计算机，诸如单/多处理器架构和串行(冯诺依曼)/并行架构，而且还包括专用电路，诸如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理设备和其它处理电路系统。对计算机程序、指令、代码等的参考应当被理解为包括可编程处理器的软件或固件，诸如(例如)硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备、门阵列或可编程逻辑设备等的配置设置。

如在本申请所使用的术语“电路系统”是指以下全部：

(a)只有硬件的电路实施方式(诸如仅以模拟和/或数字电路的实施方式)，以及

(b)电路与软件(和/或固件)的组合，诸如(在适用时)：(i)(多个)处理器的组合或者(ii)一起工作以使得装置(诸如移动电话或服务器)执行多种功能的(多个)处理器/软件(包括(多个)数字信号处理器)、软件、和(多个)存储器的部分，以及

(c)电路，诸如需要用于操作的软件或固件(即使软件或固件不是物理存在的)的(多个)微处理器的部分。

电路系统的定义应用于本申请中此术语的所有使用，包括在任何权利要求中。作为进一步的示例，如在本申请中所使用的，术语“电路系统”也可以覆盖仅处理器(或多个处理器)或者处理器和附带的软件和/或固件的一部分的实施方式。术语“电路系统”还将覆盖(例如以及如果适用于特定权利要求元件)用于移动电话或者服务器中类似的集成电路、蜂窝网络设备、或者其他网络设备的基带集成电路或应用处理器集成电路。

图11-18中所示的框、步骤或过程可以代表方法中的步骤和/或计算机程序224中的代码段。这些框所显示的特定顺序并不一定暗示存在针对这些框的、所需要或优选的顺序，并且框的顺序和布置可以是变化的。此外，一些框是有可能被省略。

在结构性特征已经被描述的情况下，该结构特征可以被用于执行一个或多个结构特征功能的部件所替代，无论该功能或那些功能是明确还是隐含描述的。

此处所使用的“模块”指排除某些部件/组件的单元或装置，这些部件/组件可以被终端制造商或用户所添加。装置200、控制器211和/或显示装置202可以是模块。

术语“包括”在本文中的使用包含而非排他的含义。对于包括Y的X的参考，指示X可以包括仅一个Y或可以包括多于一个Y。若目的在于使用排他含义的“包括”，则在上下文中将通过使用“只包括一个”或通过使用“由...构成”来清楚表述。

在此简要说明中，已经对多个示例进行参考。与示例有关的特征或功能的说明，指示那些特征或功能存在于该示例。文本中的术语“示例”或“例如”或“可以”的使用，无论明确说明与否，此特征或功能存在于至少所述示例中，无论是否被描述为示例，并且它们可以但非必须出现在一些或全部其它示例。因此，“示例”、“例如”或“可以”指一组例子中的特定实例。实例的性质可以是仅该实例的性质，或者该组的性质，或该组的子组的性质，该子组包括该组中的一些实例但不包括该组中的所有实例。因此，在此暗示公开了根据一个示例但非另一示例所描述的特征，可以在有可能的情况下在其它示例中被使用，但并不一定必须在其它示例中被使用。

尽管已经参考多个示例在前面的段落中说明了本发明的实施例，但是应当理解，在不脱离本发明所要求保护的范围情况下，可以对给定示例进行多种修改。

除明确说明的多个组合以外的前述多个特征可以组合在一起被使用。

尽管已经参考某些特征描述了功能，但是这些功能可以是由其它特征可执行的，无论是否已描述。

尽管已经参考某些实施例对多个特征进行了描述，但是这些特征也可以出现在其它实施例中，无论是否已经描述。

尽管在前述说明书中关注了被确信为特别重要的本发明的那些特征，但是应当理解，申请人要求对此前在附图中所指代和/或显示的任何可被专利的特征或特征组合进行保护，而无论特定重点是否已被放置在其上。

Claims

1.一种装置，包括用于以下的部件：

使用至少一个虚拟分隔，将虚拟空间划分成当前声音场景和不同于所述当前场景的至少一个第一声音场景；

以比与至少一个第一声音场景相关联的音频大的音量，向用户呈现与所述当前声音场景相关联的音频；以及

响应于所述用户的相对于所述至少一个虚拟分隔的、在所述虚拟空间中的第一触发动作，减小与至少一个第一声音场景相关联的所述音频的衰减，使得与所述至少一个第一声音场景相关联的所述音频以增加的音量被呈现给所述用户。

2.根据权利要求1所述的装置，其中：

所述当前声音场景由所述虚拟空间中的虚拟用户的位置来确定。

3.根据权利要求1或2所述的装置，还包括用于以下的部件：

取决于距将所述当前场景与所述第一场景划分开的虚拟分隔的增加的用户接近度，以比与至少一个第一声音场景相关联的音频大的音量，向用户呈现与所述当前声音场景相关联的音频。

4.根据前述权利要求中任一项所述的装置，还包括用于以下的部件：

在向所述用户呈现音频期间，控制与所述至少一个第一声音场景相关联的音频的所述衰减、并且取决于与所述至少一个虚拟分隔的用户关系，来改变与所述至少一个第一声音场景相关联的音频的衰减，其包括：取决于距将所述第一场景与所述当前场景划分开的虚拟分隔的用户接近度，来减小与第一场景相关联的音频的衰减。

5.根据前述权利要求中任一项所述的装置，还包括用于以下的部件：

在没有继续所述第一触发动作的情况下，自动地撤消对与至少一个第一声音场景相关联的所述音频的所述衰减的所述改变。

6.根据前述权利要求中任一项所述的装置，还包括用于以下的部件：

响应于不同于所述第一触发动作的第二触发动作，通过撤销对与至少一个第一声音场景相关联的所述音频的所述衰减的所述改变，来移除所述第一触发动作在所述虚拟空间中相对于所述至少一个虚拟分隔的影响。

7.根据前述权利要求中任一项所述的装置，还包括用于以下的部件：

在用户在所述虚拟空间中执行所述第一触发动作之后，引起对所述用户的确认性触觉反馈，以确认引起对与至少一个第一声音场景相关联的所述音频的所述衰减的所述改变的用户动作。

8.根据前述权利要求中任一项所述的装置，还包括用于以下的部件：

使用所述至少一个虚拟分隔，来动态地改变所述虚拟空间的所述划分。

9.根据权利要求8所述的装置，还包括用于以下的部件：

使用所述至少一个虚拟分隔，来自动地改变所述虚拟空间的所述划分。

10.根据前述权利要求中任一项所述的装置，其中：

与所述当前声音场景相关联的所述音频和与所述至少第一声音场景相关联的所述音频包括声音对象，还包括用于以下的部件：

通过对声音对象进行分组，使用所述至少一个虚拟分隔来确定所述虚拟空间的所述划分。

11.根据权利要求10所述的装置，其中：

声音对象的所述分组取决于虚拟空间中的虚拟用户的位置和与声音对象相关联的位置之间的相对间隔。

12.根据前述权利要求中任一项所述的装置，还包括用于以下的部件：

通过取决于至少一个捕获设备的、在所述虚拟空间内的对应位置以定位所述至少一个虚拟分隔，来使用所述至少一个虚拟分隔确定所述虚拟空间的所述划分，所述至少一个捕获设备被用来捕获限定所述虚拟空间的内容。

13.根据前述权利要求中任一项所述的装置，还包括用于以下的部件：

呈现所述虚拟空间中的、与所述至少一个虚拟分隔相关联的视觉指示。

14.一种方法，包括：

15.根据权利要求14所述的方法，其中：

16.根据权利要求14或15所述的方法，还包括：

17.根据权利要求14至16中任一项所述的方法，还包括：

18.根据权利要求14至17中任一项所述的方法，还包括：

19.根据权利要求14至18中任一项所述的方法，还包括：

响应于不同于所述第一触发动作的第二触发动作，通过撤销对与至少一个第一声音场景相关联的所述音频的所述衰减的所述改变，来移除所述虚拟空间中的所述第一触发动作相对于所述至少一个虚拟分隔的影响。

20.根据权利要求14至19中任一项所述的方法，还包括：

21.根据权利要求14至20中任一项所述的方法，还包括：

22.根据权利要求21所述的方法，还包括：

23.根据权利要求14至22中任一项所述的方法，还包括：

24.根据权利要求23所述的方法，其中：

25.根据权利要求14至24中任一项所述的方法，还包括：

26.根据权利要求14至25中任一项所述的方法，还包括：

27.一种非暂态计算机可读介质，包括指令，所述指令在被执行时执行：