CN109314834A

CN109314834A - 改进介导现实中声音对象的感知

Info

Publication number: CN109314834A
Application number: CN201780038341.XA
Authority: CN
Inventors: L·拉克索宁; M·维勒尔莫; M·塔米; A·莱蒂尼米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-06-21
Filing date: 2017-06-02
Publication date: 2019-02-05
Also published as: WO2017220852A1; US10764705B2; US20190166448A1; KR102126162B1; EP3261367B1; EP3261367A1; JP2019522420A; JP6764490B2; KR20190020766A

Abstract

一种方法，包括：根据在所呈现的虚拟空间内的用户的历史动作，将虚拟空间内的声音对象分类为第一类声音对象或第二类声音对象；根据至少第一规则呈现第一类的一个或多个声音对象；以及根据与第一规则不同的至少第二规则以及用户在虚拟空间内的当前位置呈现第二类的一个或多个声音对象。

Description

改进介导现实中声音对象的感知

技术领域

本发明的实施例涉及介导现实，例如，增强现实或虚拟现实。

背景技术

本文中的介导现实是指用户体验完全或部分人工环境。

增强现实是其中用户体验部分人工、部分真实的环境的一种介导现实形式。虚拟现实是其中用户体验完全人工环境的一种介导现实形式。

发明内容

根据本发明的各种但并非所有实施例，提供一种方法，其包括：根据在所呈现的虚拟空间内的用户的历史动作，将虚拟空间内的声音对象分类为第一类声音对象或第二类声音对象；

根据至少第一规则，呈现第一类的一个或多个声音对象；以及

根据与第一规则不同的至少第二规则以及用户在虚拟空间内的当前位置，呈现第二类的一个或多个声音对象。

根据本发明的各种但并非所有实施例，提供了所附权利要求中要求保护的示例。

附图说明

为了更好地理解对理解发明内容有用的各种示例，现在将仅通过示例的方式参考附图，其中：

图1A至1C和2A至2C示出介导现实的示例，其中，图1A、1B、1C示出相同的虚拟视觉空间和不同的视点，图2A、2B、2C示出从相应视点的角度观看的虚拟视觉场景；

图3A示出真实空间的示例，图3B示出与图1B的虚拟视觉场景部分对应的真实视觉场景的示例；

图4示出可操作以实现介导现实和/或增强现实和/或虚拟现实的设备的示例；

图5A示出用于实现介导现实和/或增强现实和/或虚拟现实的方法的示例；

图5B示出用于更新增强现实的虚拟视觉空间的模型的方法的示例；

图6A和6B示出能够向用户显示至少部分虚拟视觉场景的设备的示例；

图7A示出真实空间中的姿势的示例，图7B示出真实空间中的姿势在虚拟视觉场景中呈现的对应表示；

图8示出用于修改所呈现的声音场景的系统的示例；

图9示出例如可用于执行系统的定位块、定向块和距离块的功能的模块的示例；

图10示出使用装置实现的系统/模块的示例；

图11示出用于控制声音对象的呈现的方法的示例；

图12A至12F示出图11的方法的示例性应用；

图13示出由用户在虚拟空间内执行的用于将声音对象的分类更改为第一类的“激活”动作的一个示例；

图14示出如何使用第一规则控制第一类声音对象的呈现的示例；

图15示出如何使用第一规则控制第一类的多个声音对象的同时呈现的示例；

图16A将图11的方法的示例的效果示出为状态图；

图16B将图11的方法的另一个示例的效果示出为状态图。

定义

“虚拟视觉空间”是指可以被观看的完全或部分人工环境，其可以是三维的。

“虚拟视觉场景”是指从虚拟视觉空间内的特定视点观看的虚拟视觉空间的表示。

“真实空间”是指真实环境，其可以是三维的。

“真实视觉场景”是指从真实空间内的特定视点观看的真实空间的表示。

本文中的“介导现实”是指当设备至少部分地向用户显示虚拟视觉场景时，用户在视觉上体验完全或部分人工环境(虚拟视觉空间)。虚拟视觉场景由虚拟视觉空间内的视点和视场确定。显示虚拟视觉场景意思是以用户可以看到的形式提供虚拟视觉场景。

本文中的“增强现实”是指当虚拟视觉场景包括由设备向用户显示的一个或多个视觉元素增强的物理真实世界环境(真实空间)的真实视觉场景时，其中用户在视觉上体验部分人工环境(虚拟视觉空间)的一种介导现实形式。

本文中的“虚拟现实”是指当设备向用户显示虚拟视觉场景时，其中用户在视觉上体验完全人工环境(虚拟视觉空间)的一种介导现实形式。

应用于介导现实、增强现实或虚拟现实的“视角介导(perspective-mediated)”意思是用户动作确定虚拟视觉空间内的视点，从而改变虚拟视觉场景。

应用于介导现实、增强现实或虚拟现实的“第一人视角介导”意思是具有附加约束的视角介导，其中用户的真实视点确定虚拟视觉空间内的视点。

应用于介导现实、增强现实或虚拟现实的“第三人视角介导”意思是具有附加约束的视角介导，其中用户的真实视点不确定虚拟视觉空间内的视点。

应用于介导现实、增强现实或虚拟现实的“用户交互介导”意思是用户动作至少部分地确定虚拟视觉空间内发生的情况。

“显示”意思是以用户在视觉上感知(观看)的形式提供。

“呈现”意思是以用户感知的形式提供。

“声音空间”是指三维空间中的声源的布置。可以关于记录声音定义声音空间(记录的声音空间)以及关于呈现声音定义声音空间(呈现的声音空间)。

“声音场景”是指从声音空间内的特定视点收听的声音空间的表示。

“声音对象”是指可能位于声音空间内的声音。源声音对象表示声音空间内的声源。记录的声音对象表示在特定麦克风处记录的声音。

当关于声音空间和虚拟视觉空间使用时，“对应”或“对应的”意思是声音空间和虚拟视觉空间是时间和空间对齐的，即它们在相同的时间是相同的空间。

当关于声音场景和虚拟视觉场景使用时，“对应”或“对应的”意思是声音空间和虚拟视觉空间是对应的，并且其视点定义声音场景的名义收听者和其视点定义虚拟视觉场景的名义观看者处于相同的位置和定向，即它们具有相同的视点。

“虚拟空间”可以表示虚拟视觉空间，表示声音空间或者表示虚拟视觉空间和对应的声音空间的组合。

具体实施方式

在不进行任何反射或混响的情况下对来自点源的真实世界声音传输进行简单建模意味着声音功率分布在球体表面上并且声音强度(每单位面积的功率)根据平方反比定律衰减。因此，随着相对于声源的距离增加，功率迅速降低。

人类对声音响度的感知不仅依赖于声音强度，还依赖于耳朵对声音强度的响应，该响应对强度和频率具有非线性依赖性。

人耳通常对2kHz至5kHz频率范围内所有强度下的声音具有增加的灵敏度。

人耳也表现出饱和效应。多个临界频带中的同一频带内的声音在内耳的基底膜上争用相同的神经末梢显示出饱和效应。

在真实世界(或虚拟世界)中，当一个人处于人们谈话的拥挤房间时，即使收听者非常接近那些声源(声音对象)，也很难听到不同的声源(声音对象)。

下面描述的至少一些实施例增强了用户收听虚拟空间中的特定声音对象的能力。虚拟世界不必受物理学或人体生理学的约束，并且可以为用户提供“超人类”听力。

例如，可以通过以下步骤实现此目的：根据在所呈现的虚拟空间内的用户的历史动作，将虚拟空间内的声音对象分类为第一类声音对象或第二类声音对象；然后根据至少第一规则呈现第一类的一个或多个声音对象，并根据与第一规则不同的至少第二规则以及用户在虚拟空间内的当前位置呈现第二类的一个或多个声音对象。

图1A至1C和2A至2C示出了介导现实的示例。介导现实可以是增强现实或虚拟现实。

图1A、1B、1C示出了包括相同虚拟对象21的相同虚拟视觉空间20，然而，每个附图示出了不同的视点24。视点24的位置和方向可以独立地改变。视点24的方向而非位置从图1A到图1B发生了改变。视点24的方向和位置从图1B到图1C发生了改变。

图2A、2B、2C从相应的图1A、1B、1C的不同视点24的角度示出了虚拟视觉场景22。虚拟视觉场景22由虚拟视觉空间20内的视点24和视场26确定。虚拟视觉场景22至少部分地显示给用户。

所示的虚拟视觉场景22可以是介导现实场景、虚拟现实场景或增强现实场景。虚拟现实场景显示完全人工的虚拟视觉空间20。增强现实场景显示部分人工、部分真实的虚拟视觉空间20。

介导现实、增强现实或虚拟现实可以是用户交互介导的。在这种情况下，用户动作至少部分地确定虚拟视觉空间20内发生的情况。这可以允许与虚拟对象21(例如虚拟视觉空间20内的视觉元素28)的交互。

介导现实、增强现实或虚拟现实可以是视角介导的。在这种情况下，用户动作确定虚拟视觉空间20内的视点24，改变虚拟视觉场景22。例如，如图1A、1B、1C所示，虚拟视觉空间20内的视点24的位置23可以改变和/或虚拟视觉空间20内的视点24的方向或定向25可以改变。如果虚拟视觉空间20是三维的，则虚拟视觉空间20内的视点24的位置23具有三个自由度，例如，上/下、前/后、左/右，并且视点24的方向25具有三个自由度，例如，滚转、俯仰、偏航。视点24的位置23和/或方向25可以连续地变化，因此用户动作连续地改变视点24的位置和/或方向。可替代地，视点24可具有不连续的量化位置23和/或不连续的量化方向25，并且用户动作通过在视点24的允许位置23和/或方向25之间不连续地跳跃而进行切换。

图3A示出了包括真实对象11的真实空间10，真实空间10部分地对应于图1A的虚拟视觉空间20。在该示例中，真实空间10中的每个真实对象11在虚拟视觉空间20中具有对应的虚拟对象21，然而，虚拟视觉空间20中的每个虚拟对象21在真实空间中不具有对应的真实对象11。在该示例中，虚拟对象21之一(即计算机生成的可视元素28)是在真实空间10中不具有对应的真实对象11的人工虚拟对象21。

真实空间10和虚拟视觉空间20之间存在线性映射，并且真实空间10中的每个真实对象11与其对应的虚拟对象21之间存在相同的映射。因此，真实空间10中的对象11的相对关系与虚拟视觉空间20中的对应虚拟对象21之间的相对关系相同。

图3B示出了与图1B的虚拟视觉场景22部分对应的真实视觉场景12，其包括真实对象11但不包括人工虚拟对象。真实视觉场景来自对应于图1A的虚拟视觉空间20中的视点24的视角。真实视觉场景12内容由对应的视点24和视场26确定。

图2A可以是图3B中所示的真实视觉场景12的增强现实版本的图示。虚拟视觉场景22包括由设备向用户显示的一个或多个视觉元素28增补的真实空间10的真实视觉场景12。视觉元素28可以是计算机生成的视觉元素。在穿透式(see-through)布置中，虚拟视觉场景22包括透过增补视觉元素28的显示而看到的实际真实视觉场景12。在视播(see-video)布置中，虚拟视觉场景22包括显示的真实视觉场景12和显示的增补视觉元素28。显示的真实视觉场景12可以基于来自单个视点24的图像或者同时基于来自不同视点24的多个图像，这些来着多个视点的多个图像经过处理产生来自单个视点24的图像。

图4示出了可操作以实现介导现实和/或增强现实和/或虚拟现实的装置30的示例。

装置30包括显示器32，其用于以用户视觉感知的形式向用户提供至少部分虚拟视觉场景22。显示器32可以是视觉显示器，其提供向用户显示至少部分虚拟视觉场景22的光。视觉显示器的示例包括液晶显示器；有机发光显示器；发射、反射、透射和透反射显示器；直接视网膜投影显示器；近眼显示器等。

在该示例但并非所有示例中，显示器32由控制器42控制。

控制器42的实现可以是控制器电路。控制器42可以仅通过硬件实现，仅具有软件(包括固件)的特定方面，或者可以是硬件和软件(包括固件)的组合。

如图4所示，控制器42可以使用实现硬件功能的指令来实现，例如，通过在通用或专用处理器40中使用可执行计算机程序指令48来实现，可执行计算机程序指令48可以存储在计算机可读存储介质(磁盘、存储器等)上以由此类处理器40执行。

处理器40被配置为对存储器46执行读写操作。处理器40还可以包括处理器40经由其输出数据和/或命令的输出接口以及经由其将数据和/或命令输入处理器40的输入接口。

存储器46存储计算机程序48，计算机程序48包括计算机程序指令(计算机程序代码)，当加载到处理器40中时，计算机程序指令(计算机程序代码)控制装置30的操作。计算机程序48的计算机程序指令提供使得装置能够执行图5A和5B所示方法的逻辑和例程。通过读取存储器46，处理器40能够加载并执行计算机程序48。

图5A和5B中示出的方框可以表示方法的步骤和/或计算机程序48中的代码段。方框的特定顺序的图示并非意味着存在必要或优选的方框顺序，方框的顺序和排列可以是变化的。此外，可以省略一些方框。

装置30例如可以使用图5A所示的方法60或类似的方法实现介导现实和/或增强现实和/或虚拟现实。控制器42存储并维护虚拟视觉空间20的模型50。该模型可以被提供给控制器42或由控制器42确定。例如，输入电路44中的传感器可用于从不同的视点创建虚拟视觉空间的重叠深度图，然后可以生成三维模型。

存在多种用于创建深度图的技术。在KinectTM设备中使用的无源系统的一个示例是当使用红外光将对象绘制上非均匀的符号图案时，使用多个相机测量反射光，然后使用视差效应处理反射光以确定对象的位置。

在框62处，确定虚拟视觉空间20的模型是否已经改变。如果虚拟视觉空间20的模型已经改变，则该方法移到框66。如果虚拟视觉空间20的模型没有改变，则该方法移到框64。

在框64处，确定虚拟视觉空间20中的视点24是否已经改变。如果视点24已经改变，则该方法移到框66。如果视点24没有改变，则该方法返回到框62。

在框66处，从由当前视点24限定的位置23和方向25获取三维虚拟视觉空间20的二维投影。然后，该投影被视场26限制以产生虚拟视觉场景22。然后该方法返回到框62。

在装置30实现增强现实的情况下，虚拟视觉空间20包括来自真实空间10的对象11以及不存在于真实空间10中的视觉元素28。这些视觉元素28的组合可以被称为人工虚拟视觉空间。图5B示出了用于更新增强现实的虚拟视觉空间20的模型的方法70。

在框72处，确定真实空间10是否已经改变。如果真实空间10已经改变，则该方法移到框76。如果真实空间10没有改变，则该方法移到框74。检测真实空间10的变化可以使用差分在像素级实现，并且可以使用计算机视觉跟踪正在移动的对象以在对象级实现。

在框74处，确定人工虚拟视觉空间是否已经改变。如果人工虚拟视觉空间已经改变，则该方法移到框76。如果人工虚拟视觉空间没有改变，则该方法返回到框72。当人工虚拟视觉空间由控制器42生成时，容易检测到视觉元素28的改变。

在框76处，更新虚拟视觉空间20的模型。

装置30可以实现用于介导现实和/或增强现实和/或虚拟现实的用户交互介导。用户输入电路44使用用户输入43检测用户动作。控制器42使用这些用户动作来确定虚拟视觉空间20内发生的情况。这样允许与虚拟视觉空间20内的视觉元素28进行交互。

装置30可以实现介导现实和/或增强现实和/或虚拟现实的视角介导。用户输入电路44检测用户动作。控制器42使用这些用户动作来确定虚拟视觉空间20内的视点24，从而改变虚拟视觉场景22。视点24可以在位置和/或方向上连续变化，并且用户动作改变视点24的位置和/或方向。可替代地，视点可以具有不连续的量化位置和/或不连续的量化方向，并且用户动作通过跳到视点24的下一位置和/或方向来进行切换。

装置30可以实现用于介导现实、增强现实或虚拟现实的第一人视角。用户输入电路44使用用户视点传感器45检测用户的真实视点14。控制器42使用用户的真实视点来确定虚拟视觉空间20内的视点24，从而改变虚拟视觉场景22。返回参考图3A，用户18具有真实视点14。用户18可以改变真实视点。例如，真实视点14的真实位置13是用户18的位置，并且可以通过改变用户18的物理位置13来进行改变。例如，真实视点14的真实方向15是用户18正在看的方向并且可以通过改变用户18的真实方向来进行改变。真实方向15例如可以通过用户18改变其头部或视点的定向和/或用户改变其注视方向来进行改变。头戴式装置30可用于通过测量用户头部的定向的变化和/或用户注视方向的变化来实现第一人视角介导。

在一些但并非所有示例中，装置30包括作为输入电路44的一部分的视点传感器45，其用于确定真实视点的变化。

例如，诸如GPS、通过发送到多个接收机和/或从多个发射机接收执行的三角测量(三边测量)、加速度检测和集成的定位技术可用于确定用户18和真实视点14的新物理位置13。

例如，加速度计、电子陀螺仪或电子罗盘可用于确定用户头部或视点的定向的变化以及真实视点14的真实方向15的相应变化。

例如，基于例如计算机视觉的瞳孔跟踪技术可用于跟踪用户的一只或两只眼睛的运动，并因此确定用户的注视方向以及真实视点14的真实方向15的相应变化。

装置30可以包括作为输入电路44的一部分的图像传感器47，其用于对真实空间10进行成像。

图像传感器47的示例是被配置为用作相机的数字图像传感器。此类相机可操作以记录静态图像和/或视频图像。在一些但并非所有实施例中，相机可以以立体或其它空间分布的布置配置，以使得能够从不同的视角观看真实空间10。这样可以创建三维图像和/或处理以例如通过视差效应建立深度。

在一些但并非所有实施例中，输入电路44包括深度传感器49。深度传感器49可包括发射机和接收机。发射机发射信号(例如，人类无法感知的信号，例如超声波或红外光)，接收机接收反射信号。通过使用单个发射机和单个接收机，可以经由测量从发射到接收的飞行时间来实现一些深度信息。通过使用多个发射机和/或多个接收机(空间分集)可以实现更好的分辨率。在一个示例中，发射机被配置为利用空间相关图案，用光(优选地为不可见光(诸如红外光))“绘制”真实空间10。接收机对特定图案的检测使得能够对真实空间10进行空间解析。到真实空间10的空间解析部分的距离可以通过飞行时间和/或立体视觉(如果接收机相对于发射机处于立体位置)来确定。

在一些但并非所有实施例中，输入电路44可以包括通信电路41，作为图像传感器47和深度传感器49中的一个或多个的补充或替代。这样的通信电路41可以与真实空间10中的一个或多个远程图像传感器47和/或真实空间10中的远程深度传感器49通信。

图6A和6B示出了能够向用户显示至少部分虚拟视觉场景22的装置30的示例。

图6A示出了手持装置31，其包括作为显示器32的显示屏，该显示屏向用户显示图像并用于向用户显示虚拟视觉场景22。用户可以将装置30握在手中，并根据前面提到的六个自由度中的一个或多个有意地移动该设备。手持装置31可以包括传感器45，用于根据装置30的定向变化确定真实视点的变化。

手持装置31可以是或可以作为用于增强现实的视播布置来操作，该布置允许在显示器32并行地显示一个或多个视觉元素图28以供用户观看，同时，在显示器32上显示真实视觉场景12的实时或记录视频以供用户观看。所显示的真实视觉场景12和所显示的一个或多个视觉元素28的组合向用户提供虚拟视觉场景22。

如果手持装置31具有安装在与显示器32相对的面上的相机，则其可以作为视播布置来操作，该布置允许在向用户显示一个或多个视觉元素28时观看实时真实视觉场景12，从而组合地提供虚拟视觉场景22。

图6B示出了头戴式装置33，其包括向用户显示图像的显示器32。当用户的头部移动时，头戴式装置33可以自动移动。头戴式装置33可以包括用于注视方向检测和/或选择姿势检测的传感器45。

头戴式装置33可以是用于增强现实的穿透式布置，该布置允许在显示器32向用户显示一个或多个视觉元素28时观看现场真实视觉场景12以组合地提供虚拟视觉。在这种情况下，面罩34(如果存在)是透明或半透明的，从而可以通过面罩34观察现场真实视觉场景12。

头戴式装置33可以作为用于增强现实的视播布置来操作，该布置允许在显示器32并行地显示一个或多个视觉元素图28以供用户观看，同时，在显示器32上显示真实视觉场景12的实时或记录视频以供用户观看。所显示的真实视觉场景12和所显示的一个或多个视觉元素28的组合向用户提供虚拟视觉场景22。在这种情况下，面罩34是不透明的并且可用作显示器32。

可以使用能够向用户显示至少部分虚拟视觉场景22的装置30的其它示例。

例如，可以使用一个或多个投影仪，其投影一个或多个视觉元素以通过增补物理真实世界环境(真实空间)的真实视觉场景来提供增强现实。

例如，多个投影仪或显示器可以围绕用户以通过向用户呈现完全人工环境(虚拟视觉空间)作为虚拟视觉场景来提供虚拟现实。

返回参考图4，装置30可以实现用于介导现实和/或增强现实和/或虚拟现实的用户交互介导。用户输入电路44检测使用用户输入43的用户动作。控制器42使用这些用户动作来确定虚拟视觉空间20内发生的情况。这允许与虚拟视觉空间20内的视觉元素28进行交互。

检测到的用户动作例如可以是在真实空间10中执行的姿势。可以以多种方式检测姿势。例如，深度传感器49可用于检测用户18的身体部位的动作和/或图像传感器47可用于检测用户18的身体部位的动作和/或附着到用户18的肢体的位置/运动传感器可用于检测肢体的运动。

对象跟踪可用于确定对象或用户何时改变。例如，在大的宏观尺度上跟踪对象允许创建随对象移动的参考系。然后，该参照系可用于通过使用关于对象的时间差分来跟踪随时间演变的对象形状变化。这可用于检测小幅度人体运动，例如，姿势、手部运动、手指运动和/或面部运动。这些是与用户相关的场景独立用户(仅)移动。

装置30可以跟踪与用户身体(例如，用户身体的一个或多个关节)相关的多个对象和/或点。在一些示例中，装置30可以执行用户身体的全身骨骼跟踪。在一些示例中，装置30可以执行对用户手部的数字跟踪。

在姿势识别中，装置30可以使用与用户身体相关的一个或多个对象和/或点的跟踪。

参考图7A，真实空间10中的特定姿势80是由控制器42用作“用户控制”事件的姿势用户输入，用于确定虚拟视觉空间20内发生的情况。姿势用户输入是对装置30具有意义的作为用户输入的姿势80。

参考图7B，该附图示出了在一些但并非所有示例中，由装置30在虚拟视觉场景22中呈现真实空间中的姿势80的对应表示。该表示涉及通过移动82以复制或指示虚拟视觉场景22中的姿势80的一个或多个视觉元素28。

姿势80可以是静态的或移动的。移动姿势可以包括动作或包含一系列动作的动作模式。例如，可以在空间中做出画圈动作或左右或上下滑动动作或姿势跟踪。移动姿势例如可以是设备无关姿势或设备相关姿势。移动姿势可以涉及用户输入对象的移动，例如用户一个或多个身体部分或其它装置相对于传感器的动作。身体部位可以包括用户的手或用户的手的一部分，例如，一个或多个手指和拇指。在其它示例中，用户输入对象可以包括用户身体的其它部位，例如他们的头部或手臂。三维移动可以包括用户输入对象在六个自由度中的任一个中的动作。该动作可以包括用户输入对象朝向或远离传感器移动以及在平行于传感器的平面中移动或者这些动作的任何组合。

姿势80可以是非接触姿势。在姿势期间的任何时间，非接触姿势都不会接触传感器。

姿势80可以是根据相对于传感器的绝对位移定义的绝对姿势。这样的姿势可以是束缚的，因为它在真实空间10中的精确位置处执行。可替代地，姿势80可以是根据姿势期间的相对移位定义的相对姿势。这样的姿势可以是非束缚的，因为它不需要在真实空间10中的精确位置处执行，并且可以在大量任意位置处执行。

姿势80可以被定义为跟踪点相对于原点随时间的位移演变。例如，它可以使用时间变量参数(例如，位移、速度)或使用其它运动学参数来根据运动定义。非束缚的姿势可以被定义为相对移位Δd随相对时间Δt的演变。

姿势80可以在一个空间维度(1D姿势)、两个空间维度(2D姿势)或三个空间维度(3D姿势)中执行。

图8示出了系统100的示例以及方法200的示例。系统100和方法200记录声音空间并处理记录的声音空间以针对位于声音空间内的特定位置(原点)的定向的收听者将记录的声音空间呈现为所呈现的声音场景。

声音空间是三维空间中声源的布置。可以关于记录声音(记录的声音空间)和关于呈现声音(呈现的声音空间)定义声音空间。呈现的声音空间可能与记录的声音空间不同，因为声音对象已被添加、移除或调整。例如，可以通过以下方式在演播室中记录或创建附加声音对象：例如对曲库进行采样，独立地记录声音或混合声音以形成演播室声音。

系统100包括一个或多个便携式麦克风110，并且可以包括一个或多个静态麦克风120。

在该示例但并非所有示例中，声音空间的原点在麦克风处。在该示例中，原点处的麦克风是静态麦克风120。它可以记录一个或多个声道，例如它可以是麦克风阵列。但是，原点可处于任意位置。

在该示例中，仅示出了单个静态麦克风120。然而，在其它示例中，可以独立地使用多个静态麦克风120。

系统100包括一个或多个便携式麦克风110。便携式麦克风110例如可以在记录的声音空间内与声源一起移动。例如，便携式麦克风可以是保持靠近声源的“近距离”麦克风。例如这可以通过使用悬臂式麦克风来实现，或者例如通过将麦克风连接到声源(例如，通过使用Lavalier麦克风)来实现。便携式麦克风110可以记录一个或多个记录声道。

便携式麦克风PM 110与原点的相对位置可以由矢量z表示。因此，矢量z相对于记录的声音空间的名义收听者定位便携式麦克风110。

名义收听者在原点处的相对定向可以由值Δ表示。定向值Δ定义了名义收听者的“视点”，该视点定义了声音场景。声音场景是从声音空间内的特定视点收听的声音空间的表示。

当记录的声音空间经由图1中的系统100呈现给用户(收听者)时，就像收听者位于具有特定定向的记录的声音空间的原点处那样呈现给收听者。因此，重要的是，当便携式麦克风110在记录的声音空间中移动时，其相对于记录的声音空间的原点的位置z被跟踪并且在呈现的声音空间中正确地表示。系统100被配置为实现此目的。

从静态麦克风120输出的音频信号122由音频编码器130编码成多声道音频信号132。如果存在多个静态麦克风，则每个静态麦克风的输出将由音频编码器单独编码成多声道音频信号。

音频编码器130可以是空间音频编码器，以使得多声道音频信号132表示由静态麦克风120记录的声音空间，并且可以被呈现以给出空间音频效果。例如，音频编码器130可以被配置为根据所定义的标准产生多声道音频信号132，这些标准例如包括双耳编码、5.1环绕声编码、7.1环绕声编码等。如果存在多个静态麦克风，则每个静态麦克风的多声道信号将根据相同的定义标准产生，例如双耳编码、5.1环绕声编码和7.1环绕声编码，并且与相同的公共呈现的声音空间有关。

来自一个或多个静态麦克风120的多声道音频信号132由混合器102与来自一个或多个便携式麦克风110的多声道音频信号142混合，以产生多麦克风多声道音频信号103，其表示相对于原点的记录的声音场景，并且可以由对应于音频编码器130的音频解码器呈现，以便当收听者处于原点时，将呈现的声音场景再现给与记录的声音场景对应的收听者。

来自便携式麦克风110或每个便携式麦克风110的多声道音频信号142在混合之前被处理，以考虑便携式麦克风110相对于静态麦克风120处的原点的任何移动。

从便携式麦克风110输出的音频信号112由定位块140处理，以调节便携式麦克风110相对于原点的移动。定位块140将矢量z或依赖于矢量z的某个或某些参数作为输入。矢量z表示便携式麦克风110相对于原点的相对位置。

定位块140可以被配置为调整由便携式麦克风110记录的音频信号112和由静态麦克风120记录的音频信号122之间的任何时刻的未对准，以使得它们共享公共时间参考帧。例如，可以通过将来自便携式麦克风110的音频信号112内存在的自然发生或人为引入的(不可听)音频信号与来自静态麦克风120的音频信号122内的音频信号进行关联来实现此目的。在定位块140执行处理之前，可以使用通过关联而识别的任何定时偏移来延迟/推进来自便携式麦克风110的音频信号112。

考虑到便携式麦克风110相对于静态麦克风120处的原点的相对定向(Arg(z))，定位块140处理来自便携式麦克风110的音频信号112。

用于产生多声道音频信号132的静态麦克风音频信号122的音频编码假定呈现的声音空间相对于记录的声音空间的定向的特定定向，并且相应地将音频信号122编码成多声道音频信号132。

确定便携式麦克风110在记录的声音空间中的相对定向Arg(z)，并且将表示声音对象的音频信号112编码成由音频编码130定义的多声道，以使得声音对象在呈现的声音空间内被正确地定向在相对于收听者的相对定向Arg(z)。例如，可以首先将音频信号112混合或编码成多声道信号142，然后可以使用变换T在由这些多声道定义的空间内将表示移动声音对象的多声道信号142旋转Arg(z)。

如果需要，可以使用定向块150将多声道音频信号142旋转Δ。类似地，如果需要，可以使用定向块150将多声道音频信号132旋转Δ。

定向块150的功能非常类似于定位块140的定向功能的功能，只是它旋转Δ而不是Arg(z)。

在一些情况下，例如当通过头戴式音频输出设备300(例如使用双耳音频编码的耳机)将声音场景呈现给收听者时，可能希望在收听者在空间中转动其头部330时使呈现的声音空间310在空间320中保持固定。这意味着呈现的声音空间310需要相对于音频输出设备300与头部旋转相反地旋转相同的量。呈现的声音空间310的定向跟随收听者的头部旋转，以使得呈现的声音空间310的定向在空间320中保持固定并且不随着收听者的头部330移动。

另外处理便携式麦克风信号112以控制声音对象与呈现的声音场景中的收听者的距离D的感知，例如以匹配声音对象与记录的声音空间中的原点的距离|z|。这在使用双耳编码以使得声音对象例如从用户外部化并似乎在用户的耳朵之间的距离处而不是在用户的头部内时是有用的。距离块160处理多声道音频信号142以修改距离感知。

图9示出了模块170，其例如可用于执行图8中的方法200和/或定位块140、定向块150和距离块160的功能。模块170可以使用电路和/或编程的处理器来实现。

该附图示出了在多声道音频信号142与多声道音频信号132混合以形成多麦克风多声道音频信号103之前对多声道音频信号142的单个声道的处理。多声道信号142的单个输入声道是作为信号187的输入。

输入信号187并行通过“直接”路径和一个或多个“间接”路径，然后来自这些路径的输出被混合器196混合在一起作为多声道信号，以产生输出多声道信号197。对于每个输入声道，输出多声道信号197被混合以形成与多声道音频信号132混合的多声道音频信号142。

直接路径表示在收听者看来已经直接从音频源接收的音频信号，而间接路径表示在收听者看来已经经由诸如多路径或反射路径或折射路径的间接路径接收的音频信号。

通过修改直接路径和间接路径之间的相对增益，距离块160改变声音对象与呈现的声音空间310中的收听者的距离D的感知。

每个并行路径包括可变增益设备181、191，其由距离块160控制。

可以通过控制直接路径和间接(去相关)路径之间的相对增益来控制距离感知。相对于直接路径增益增加间接路径增益会增加距离感知。

在直接路径中，输入信号187在距离块160的控制下由可变增益设备181放大，以产生增益调整信号183。增益调整信号183由直接处理模块182处理以产生直接多声道音频信号185。

在间接路径中，输入信号187在距离块160的控制下由可变增益设备191放大，以产生增益调整信号193。增益调整信号193由间接处理模块192处理以产生间接多声道音频信号195。

直接多声道音频信号185和一个或多个间接多声道音频信号195在混合器196中混合以产生输出多声道音频信号197。

直接处理块182和间接处理块192都接收到达方向信号188。到达方向信号188给出便携式麦克风110(移动声音对象)在记录的声音空间中的定向Arg(z)以及呈现的声音空间310相对于名义收听者/音频输出设备300的定向Δ。

当便携式麦克风110在记录的声音空间中移动时，移动声音对象的位置发生改变，并且当呈现声音空间的头戴式音频输出设备旋转时，呈现的声音空间的定向发生改变。

直接处理块182例如可以包括系统184，其在适当的多声道空间中旋转单声道音频信号、增益调整输入信号183，从而产生直接多声道音频信号185。系统使用传递函数来执行变换T，该变换在针对这些多个声道定义的空间内将多声道信号旋转Arg(z)和由到达方向信号188定义的Δ。例如，头部相关传递函数(HRTF)内插器可用于双耳音频。作为另一个示例，矢量基础幅度平移(VBAP)可用于扬声器格式(例如，5.1)音频。

间接处理块192例如可以利用到达方向信号188，使用可变增益设备194来控制单声道音频信号的增益、增益调整输入信号193。然后使用静态去相关器196和静态变换T来处理放大的信号以产生间接多声道音频信号195。该示例中的静态去相关器使用至少2ms的预延迟。变换T以类似于直接系统但采取固定量的方式在针对这些多个声道定义的空间内旋转多声道信号。例如，静态头部相关传递函数(HRTF)内插器可用于双耳音频。

因此，应当理解，模块170可用于处理便携式麦克风信号112并执行以下功能：

(i)改变声音对象相对于呈现的声音空间中的收听者的相对位置(定向Arg(z)和/或距离|z|)；以及

(ii)改变呈现的声音空间的定向(包括根据(i)定位的声音对象)。

还应当理解，当处理由静态麦克风120提供的音频信号122时，模块170还可以仅用于执行定向块150的功能。然而，到达方向信号将仅包括Δ而不包括Arg(z)。在一些但并非所有示例中，可以将修改间接路径的增益的可变增益设备191的增益设置为“零”，并且可以固定用于直接路径的可变增益设备181的增益。在这种情况下，模块170缩小成旋转记录的声音空间，以根据仅包括Δ并且不包括Arg(z)的到达方向信号产生呈现的声音空间的系统。

图10示出了使用装置400实现的系统100的示例。装置400例如可以是静态电子设备、便携式电子设备或手持便携式电子设备(其尺寸适合于拿在用户的手掌上或放入用户夹克口袋中)。

在该示例中，装置400包括静态麦克风120作为集成麦克风，但不包括一个或多个远程的便携式麦克风110。在该示例但并非所有示例中，静态麦克风120是麦克风阵列。然而，在其它示例中，装置400不包括静态麦克风120。

装置400包括外部通信接口402，用于与外部麦克风(例如，远程便携式麦克风110)进行外部通信。这例如可以包括无线收发机。

定位系统450被示为系统100的一部分。该定位系统450用于相对于声音空间的原点(例如，静态麦克风120)定位便携式麦克风110。在该示例中，定位系统450被示为在便携式麦克风110和装置400两者的外部。它向装置400提供依赖于便携式麦克风110相对于声音空间的原点的位置z的信息。在该示例中，经由外部通信接口402提供该信息，然而，在其它示例中，可以使用不同的接口。此外，在其它示例中，定位系统可以完全或部分地位于便携式麦克风110内和/或装置400内。

位置系统450以特定频率提供便携式麦克风110的位置更新，并且术语声音对象的“准确”和“不准确”定位应理解为在由位置更新频率施加的约束内的准确或不准确。也即是说，准确和不准确是相对术语而不是绝对术语。

位置系统450使得能够确定便携式麦克风110的位置。位置系统450可以接收定位信号并确定提供给处理器412的位置，或者它可以提供定位信号或依赖于定位信号的数据，以使得处理器412可以确定便携式麦克风110的位置。

位置系统450可以使用许多不同的技术来定位包括无源系统和有源系统的对象，在无源系统中，定位的对象是被动的并且不产生定位信号，而在有源系统中，定位的对象产生一个或多个定位信号。在Kinect^TM设备中使用的系统的示例是使用红外光将对象绘制上非均匀的符号图案，并且使用多个相机测量反射光，然后使用视差效应处理反射光以确定对象的位置。有源无线定位系统的示例是对象具有发射机，该发射机向多个接收机发送无线定位信号以允许通过例如三边测量或三角测量来定位对象。无源无线定位系统的示例是对象具有一个或多个接收机，这些接收机从多个发射机接收无线定位信号，以能够通过例如三边测量或三角测量来定位对象。三边测量需要估计对象与已知位置处的多个未对准的发射机/接收机位置的距离。例如，可以使用飞行时间或信号衰减来估计距离。三角测量需要估计对象相对于已知位置处的多个未对准的发射机/接收机位置的方位。例如，可以使用以可变窄孔径发射的发射机、以可变窄孔径接收的接收机，或通过检测分集接收机处的相位差来估计方位。

其它定位系统可以使用航位推算和惯性运动或磁定位。

定位的对象可以是便携式麦克风110，或者可以是与便携式麦克风110相关联的由人穿戴或携带的对象，或者可以是与便携式麦克风110相关联的人。

装置400完全或部分地操作上述系统100和方法200以产生多麦克风多声道音频信号103。

装置400经由输出通信接口404将多麦克风多声道音频信号103提供给音频输出设备300以进行呈现。

在一些但并非所有示例中，音频输出设备300可以使用双耳编码。可替代地或附加地，在一些但并非所有示例中，音频输出设备300可以是头戴式音频输出设备。

在该示例中，装置400包括控制器410，控制器410被配置为处理由静态麦克风120和便携式麦克风110以及定位系统450提供的信号。在一些示例中，控制器410可能需要根据麦克风110、120和音频输出设备300的功能对从麦克风110、120接收的信号执行模数转换和/或对发送到音频输出设备300的信号执行数模转换。然而，为了清楚地呈现，图9中未示出转换器。

控制器410的实现可以是控制器电路。控制器410可以仅通过硬件实现，仅具有软件(包括固件)的特定方面，或者可以是硬件和软件(包括固件)的组合。

如图10所示，控制器410可以使用实现硬件功能的指令来实现，例如，通过在通用或专用处理器40中使用可执行计算机程序指令416来实现，可执行计算机程序指令416可以存储在计算机可读存储介质(磁盘、存储器等)上以由此类处理器412执行。

处理器412被配置为对存储器414执行读写操作。处理器412还可以包括处理器412经由其输出数据和/或命令的输出接口以及经由其将数据和/或命令输入处理器412的输入接口。

存储器414存储计算机程序416，计算机程序416包括计算机程序指令(计算机程序代码)，当加载到处理器412中时，计算机程序指令(计算机程序代码)控制装置400的操作。计算机程序416的计算机程序指令提供使得装置能够执行图1至13所示方法的逻辑和例程。通过读取存储器414，处理器412能够加载并执行计算机程序416。

图8和9中示出的方框可以表示方法的步骤和/或计算机程序416中的代码段。方框的特定顺序的图示并非意味着存在必要或优选的方框顺序，方框的顺序和排列可以是变化的。此外，可以省略一些方框。

前面的描述关于图1至图7描述了系统、装置30、方法60和计算机程序48，其能够控制虚拟视觉空间20和依赖于虚拟视觉空间20的虚拟视觉场景26。

前面的描述关于图8至10描述了系统100、装置400、方法200和计算机程序416，其能够控制声音空间和依赖于声音空间的声音场景。

在一些但并非所有示例中，虚拟视觉空间20和声音空间可以是对应的。当关于声音空间和虚拟视觉空间使用时，“对应”或“对应的”意思是声音空间和虚拟视觉空间是时间和空间对齐的，即它们在相同的时间是相同的空间。

虚拟视觉空间与声音空间之间的对应导致虚拟视觉场景与声音场景之间的对应。当关于声音场景和虚拟视觉场景使用时，“对应”或“对应的”意思是声音空间和虚拟视觉空间是对应的，并且其视点定义声音场景的名义收听者和其视点定义虚拟视觉场景的名义观看者处于相同的位置和定向，即他们具有相同的视点。

以下描述关于图11至16描述了方法500，该方法能够基于过去的用户动作来控制声音对象。方法500可以由前面所述的系统、前面所述的设备和/或前面所述的计算机程序执行。

图11示出了用于控制声音对象的呈现的方法500的示例。

在框502处，该方法将在所呈现的虚拟空间内的声音对象分类为第一类声音对象(框504)或第二类声音对象(框514)。分类依赖于虚拟空间内的用户的历史动作。

在框506处，根据至少第一规则在虚拟空间内呈现已被分类为第一类的一个或多个声音对象。

在框506处，根据至少第二规则和用户在虚拟空间内的当前位置呈现已被分类为第二类的一个或多个声音对象。

用户的历史动作是过去而不是现在发生的动作。因此，声音对象的分类依赖于“记忆效应”，即先前发生的事件。可以存储记录用户的过去动作的数据，以便能够根据用户的历史动作进行分类。

根据用户的历史动作的分类所产生的“记忆效应”导致至少一些声音对象(第一类和/或第二类)的呈现依赖于虚拟空间内的用户的历史动作。这就是记忆效应基于虚拟空间内的动作。

然而，呈现不仅仅依赖于根据用户历史动作的声音对象分类。呈现还依赖于用户在虚拟空间内的当前位置。因此，基于用户在虚拟空间内的位置，存在呈现的实时动态方面。

这创建了一个虚拟空间的空间记忆效应，其中包含位于虚拟空间内不同位置处的声音对象的呈现的声音场景不仅依赖于当时用户(收听者)在虚拟空间内的位置(实时效应)，而且还依赖于虚拟空间内的用户的历史动作(记忆效应)。因此，虚拟空间内的用户的动作经由基于用户在虚拟空间中的实时位置的呈现而具有实时效应，并且经由基于差异呈现的呈现而具有记忆效应，所述差异呈现依赖于虚拟空间内的用户的历史动作。

方法500例如可用于相对于第二类的一个或多个声音对象改进第一类的一个或多个声音对象的用户感知。

在该示例中，第一规则结果与第二规则结果之间的差异是所呈现的声音对象的差异。

附加地或可替代地，方法500例如可用于相对于所记录的第一类的一个或多个声音对象改进所呈现的第一类的一个或多个声音对象的用户感知。在该示例中，第一个规则修改所记录的声音对象。

在至少一些示例中，第一类声音对象的呈现包括当呈现声音对象时，调整所记录的声音对象的至少一个特性。

第一规则与第二规则之间的差异导致第一类的一个或多个声音对象与第二类的一个或多个声音对象之间的一个或多个特性值的相对移位。

声音对象特性的示例包括但并非限于：

频率特性，即声音对象的频率(音高)；

强度特性，即声音对象的强度(每单位面积的功率)；

环境特性，如反射/混响量；

位置特性，即声音对象在虚拟空间内的位置。

声音对象的频率特性变化例如可以将所呈现的声音对象放置在与所记录的声音对象相比不同的临界频带中。该频率分集可以提高用户听到第一类声音对象的能力或者降低用户听到第二类声音对象的能力。

声音对象的强度特性变化例如可以与所记录的声音对象相比人为地增加第一类声音对象的响度，或者与所记录的声音对象相比人为地降低第二类声音对象的响度。这样可以提高用户听到第一类声音对象的能力或者降低用户听到第二类声音对象的能力。

声音对象的环境特性变化例如可以增加或减少混响(间接路径相对于直接路径的增益)。这可用于提高用户听到第一类声音对象的能力或者降低用户听到第二类声音对象的能力。

声音对象的位置特性变化例如可以改变声音对象在虚拟空间中的位置。这可用于提高用户听到第一类声音对象的能力(例如，通过使其与其它声音对象在空间上分离或通过使其更靠近用户)或者降低用户听到第二类声音对象的能力。

在一些但并非所有示例中，根据第二规则呈现第二类声音对象导致当呈现第二类声音对象时，在不调整的情况下使用所记录的声音对象的特性。

图12A至12F示出了方法500的示例性应用。

如前所述，声音对象620的呈现依赖于声音对象620相对于用户630(名义收听者)的位置。当声音对象620静止时，声音对象620的呈现依赖于所记录的声音对象的特性和用户630的位置。当声音对象620移动时，声音对象620的呈现依赖于所记录的声音对象620的特性以及用户630的位置和声音对象620的位置。在以下示例中，假设用户630相对于静止声音对象620移动。然而，这仅仅是为了便于描述方法500的应用。在其它示例中，通过简单的扩展，方法500可以应用于移动或其部分移动的声音对象620。

该附图示出了二维虚拟空间600，然而，方法500可应用于任何虚拟空间600，其中包括三维空间。

在图12A至12F的示例中，虚拟空间600可以仅是声音空间610，或者可以是对应的视觉虚拟空间20和声音空间610的混合虚拟空间。出于以下描述的目的，假设虚拟空间600是混合虚拟空间。在一些示例中，在视觉虚拟空间20内，声音对象620可以由虚拟对象21(例如计算机生成的虚拟对象28)表示。

图12A示出了位于未修改的虚拟空间600(声音空间610)V内的不同位置p处的多个不同声音对象620。用户630能够在虚拟空间610内移动。用户610表示名义收听者的位置P。

在没有方法500的操作的情况下，根据用户630在虚拟空间600内的当前位置P来呈现声音对象620。每个声音对象620具有与用户630相对的位置，该位置随着用户改变位置P而改变。声音对象620从正确的相对位置呈现给用户630。因此，所呈现给用户630的声音空间610与所记录的声音空间610相同。

在图12A至12F的示例中，出于说明的目的，假设所有声音对象620处于使其按照记录呈现的默认状态。方法500将改变这些声音对象620中的至少一些声音对象的状态，使其不再按照记录呈现。不按照记录的呈现那些声音对象620被分类为第一类声音对象，并且按照记录呈现的那些声音对象被分类为第二类声音对象。

在图12A中，用户630对声音对象620₁在虚拟空间600内执行“激活”动作。该激活动作足以导致声音对象620₁的状态改变以及导致其从第二类重新分类为第一类。

在图12B中，指示622用于将声音对象620₁识别为第一类声音对象。该指示622可以是计算机生成的虚拟对象28。然而，在其它示例中，不使用指示622。

图12B示出了稍后的图12A的虚拟空间600。用户630远离声音对象620₁移动。

该方法根据虚拟空间600内的用户630的历史动作，将在所呈现的虚拟空间内的声音对象分类为第一类声音对象(声音对象620₁)或第二类声音对象(其它声音对象620)(先前在图12A中执行的激活动作)。

已经被分类为第二类的声音对象620根据至少第二规则以及和用户在虚拟空间内的当前位置来呈现。这些声音对象可以按照记录呈现，以准确地再现记录的声音空间。

已经被分类为第一类的声音对象620₁根据第一规则在虚拟空间内呈现。

第一规则可以由一个或多个规则定义。第二规则可以由一个或多个规则定义。在一些但并非所有示例中，用户能够至少部分地制定第一规则。在一些但并非所有示例中，用户能够至少部分地制定第二规则。

第一规则可用于改进第一类声音对象620₁的用户感知。例如，它们可以使第一类声音对象620₁相对于位于类似位置/距离处的类似的第二类声音对象更容易听到。例如，它们可以使第一类声音对象620₁与相同的第二类声音对象相比更容易听到。

第一规则例如可以提供第一类声音对象620₁的感知持久性，尽管增加了用户630和第一类声音对象620₁在虚拟空间610的分离。第一类声音对象620₁的“可听性”与根据物理定律应具有的可听性相比增强，并且相对于应具有的可听性被人为地保持。这允许用户630在虚拟空间600内移动并仍然听到第一类声音对象620₁。

在一些但并非所有示例中，第一类声音对象620₁根据虚拟空间600内的至少第一规则以及用户的当前位置来呈现。在这些示例中，根据用户630的当前(实时)位置，第一类声音对象620₁的呈现是用户交互的。

作为示例，在一些但并非所有示例中，基于声音对象620与用户630的相对距离D，利用基于类的依赖性来呈现一个或多个声音对象620中的每一个。例如，第二类声音对象以物理真实性进行呈现，并且以与声音对象与用户630的相对距离D具有平方反比关系(I＝k₁D^-2)的强度来呈现，而第一类声音对象不以物理真实性进行呈现，并且以与声音对象与用户630的相对距离D具有其它关系(例如，I＝k₂D^-n，其中，0≤n<2，例如，n＝1或1/2)的强度来呈现。第一类声音对象较少依赖于用户和声音对象的实时当前相对位置的改变。

因此，第一规则可以定义呈现声音对象620的强度变化和虚拟空间600中的声音对象与用户630之间的距离D的变化之间的第一关系，并且第二规则可以定义呈现的声音对象620的强度变化和虚拟空间600中的声音对象与用户630之间的距离D的变化之间的第二不同的关系。

图12C示出了稍后的图12B的虚拟空间600。用户630已经进一步远离声音对象620₁移动并且靠近不同的声音对象620₂。

当用户靠近第二类的不同声音对象620₂时，用户630可以清楚地听到声音对象620₂。用户630远离第二类的其它声音对象620以及第一类声音对象620₁。然而，第一类声音对象620₁的呈现是根据第一规则，而第二类的其它声音对象620的呈现是根据第二规则。这提高了用户听到第一类声音对象620₁的能力。因此，用户能够同时听到附近的声音对象620₂和远处的第一类声音对象620₁。

方法500向虚拟空间中的用户630提供仿生或辅助听力，其允许用户听到现实生活中不再可能或难以听到的第一类声音对象620₁。

在图12C中，用户630对声音对象620₂在虚拟空间600内执行“激活”动作。该激活动作足以导致声音对象620₂的状态改变以及导致其从第二类重新分类为第一类。

在图12D中，指示622用于将声音对象620₂识别为第一类声音对象。该指示可以是计算机生成的虚拟对象28。然而，在其它示例中，不使用指示622。

图12D示出了稍后的图12C的虚拟空间600。用户630远离声音对象620₂移动。

该方法根据虚拟空间内的用户的历史动作，将所呈现的虚拟空间600内的声音对象分类为第一类声音对象(声音对象620₁、620₂)或第二类声音对象(其它声音对象620)(先前在图12A和图12C中执行的激活动作)。

已经被分类为第二类的声音对象620根据至少第二规则以及用户630在虚拟空间600内的当前位置来呈现。这些声音对象可以按照记录呈现，以准确地再现记录的声音空间。

已经被分类为第一类的声音对象620₁、620₂根据第一规则在虚拟空间600内呈现。

在一些但并非所有示例中，用户能够针对第一类的不同声音对象620₁、620₂制定至少部分不同的第一规则。在其它示例中，用户可以或不可以部分制定的相同第一规则被用于第一类的所有声音对象620₁、620₂。

如先前参考图12B所描述的，第一规则可用于改进第一类声音对象620₁、620₂的用户感知。例如，它们可以使第一类声音对象620₁、620₂相对于位于类似位置/距离处的类似的第二类声音对象更容易听到。例如，它们可以使第一类声音对象620₁、620₂与第二类的相同声音对象相比更容易听到。

第二规则例如可以提供第一类声音对象620₁、620₂的感知持久性，尽管增加了用户630和第一类声音对象620₁、620₂在虚拟空间610的分离。第一类声音对象620₁、620₂的“可听性”与根据物理定律应具有的可听性相比增强，并且相对于应具有的可听性被人为地保持。这允许用户630在虚拟空间600内移动并仍然听到第一类声音对象620₁、620₂。

在一些但并非所有示例中，第一类声音对象620₁、620₂根据至少第一规则以及用户的当前位置在虚拟空间内呈现，如先前参考图12B所描述的。

图12E示出了稍后的图12D的虚拟空间600。用户630已经进一步远离声音对象620₂移动并且靠近不同的声音对象620₃。

当用户靠近第二类的不同声音对象620₃时，用户630可以清楚地听到声音对象620₃。用户630远离第二类的其它声音对象620以及第一类声音对象620₂。然而，第一类声音对象620₁和620₂的呈现是根据第一规则，而第二类的其它声音对象620的呈现是根据第二规则。这提高了用户听到第一类声音对象620₁、620₂的能力。因此，用户能够同时听到附近的声音对象620₃和远处的第一类声音对象620₂以及非常远的第一类声音对象620₁。

方法500向虚拟空间中的用户630提供仿生或辅助听力，其允许用户听到现实生活中不再可能或难以听到的第一类声音对象620₁、620₂。

方法500另外可以允许用户630区分第一类声音对象620₁、620₂。在图12E的示例中，第一类声音对象620₁、620₂在空间上不是分集的(它们相对于用户在一条线上)并且用户可能难以分离第一类声音对象620₁、620₂，因为它们是根据其在虚拟空间600中的真实方向(方位)来呈现的。

因此，第一规则可以导致第一类声音对象620₁、620₂中的一个或多个以修改的位置特性和/或频率特性进行呈现(分集空间和/或频率通道)。第一规则例如可以防止第一类的多于一个的声音对象620₁、620₂的位置通道(方向/方位)的冗余(双重占用)。附加地或可替代地，第一规则例如可以防止第一类的多于一个的声音对象620₁、620₂的频率通道(临界频带)的冗余(双重占用)。

在图12E中，用户630不对声音对象620₃在虚拟空间600内执行“激活”动作。在图12E中，没有将声音对象620₃识别为第一类声音对象的指示622。

图12F示出了稍后的图12E的虚拟空间600。用户630已经进一步远离声音对象620₃移动。

当用户630进一步远离第二类声音对象620₃时，用户不能清楚地听到该声音对象。用户远离第二类的其它声音对象620以及第一类声音对象620₂。用户距离第一类声音对象620₁非常远。然而，第一类声音对象620₁和620₂的呈现是根据第一规则，而第二类的其它声音对象620的呈现是根据第二规则。这提高了用户听到第一类声音对象620₁、620₂的能力。因此，用户能够同时听到远处的第一类声音对象620₂和非常远的第一类声音对象620₁。

图13示出了由用户630在虚拟空间600内执行的“激活”动作的一个示例。用户在收听作为空间呈现的音频的呈现的声音对象620时，使用第一人视角介导、用户交互介导的介导现实来查看虚拟空间600。介导现实可以是虚拟现实或增强现实。用户能够观看虚拟视觉空间20的虚拟视觉场景22并同时听到对应的声音空间610的对应声音场景。

该附图示出了用户从用户视角观看的虚拟空间600(虚拟视觉空间20)的虚拟视觉场景22。

虚拟视觉场景22包括多个虚拟对象21。在该示例中，虚拟对象21表示在桌边对话的两个人。

该对话在声音空间610中作为位于声音空间610中的特定位置处的声音对象620存在于声音空间610中，该特定位置与对应的虚拟视觉空间20中的桌子的位置对应。

在该示例但并非所有示例中，使用计算机生成的虚拟对象28在虚拟视觉空间20中可视地表示对话声音对象620。

用户可以通过与对话声音对象620的视觉表示650进行交互来激活对话声音对象620。

当对话声音对象620被激活时，例如可以按照参考图12B和12D描述的那样进行指示。

例如可以通过观看表示650或在最小阈值时间段内位于表示650附近来暗示(自动)激活。可能需要诸如点头的姿势来确认暗示的激活，或者可能需要诸如摇头的姿势来取消暗示的激活。

激活可以是显式的(人工)，例如通过直接与表示650交互(例如，通过用户630在虚拟空间600内相对于表示650执行姿势，或者通过用户630在虚拟空间600内触摸表示650)。

图14示出了在该示出的示例中如何使用第一规则来控制第一类声音对象620的呈现的示例。

在该示例中，当呈现声音对象时，调整所记录的声音对象的一个或多个特性。此调整依赖于自开始根据第一规则呈现声音对象以来所累积的度量值m。度量值m测量自声音对象被分类为第一类声音对象以来所累积的值。

声音对象的特性或多个特性沿图14中曲线的y轴绘制，并且度量值m被绘制为x轴。

度量值m例如可以是已经过去的时间或用户行进的距离。

所示的具体示例示出了声音对象的强度(每单位面积的功率)与时间的关系图。

在该示例中，第一类声音对象的强度在声音对象被首次激活(或再次激活)时具有不随时间变化的固定的恒定值。在阈值时间段之后，第一类声音对象的强度随时间线性减小(例如，减小到“零”或物理上真实的值)，除非声音对象620被用户630再次激活或者用户630取消激活。

图15示出了在该示例中如何使用第一规则来控制多个第一类声音对象620的呈现的示例。

在该示例中，当呈现特定声音对象时，调整所记录的特定声音对象的一个或多个特性。对特定声音对象的特性的调整依赖于自开始根据第一规则呈现特定声音对象以来所累积的度量值m。度量值m测量自特定声音对象被分类为第一类声音对象以来所累积的值。

度量值m例如可以是已经过去的时间或用户630在虚拟空间600中行进的距离。该具体示例针对第一类的每个声音对象，示出了声音对象的强度与时间的关系图。

在该示例中，第一类声音对象的强度在声音对象被首次激活(或再次激活)时具有不随时间变化的固定的恒定值。在阈值时间段之后，第一类声音对象的强度随时间线性减小到“零”或物理上真实的值，除非声音对象被用户再次激活或者用户取消激活。

在该示例中，已经在不同的时间激活了两个第一类声音对象。

位于附图顶部的声音对象长期被分类为第一类声源。用户已经再次激活声音对象。该声音对象现在再次逐渐消失，并将恢复为第二类声音对象，除非用户再次激活它。

附图左下方的声音对象刚被分类为第一类声音对象。

图16A将方法500的效果示出为声音对象620的状态图。在该示例中，声音对象620可以处于两个状态672之一，并且状态转换673导致状态之间的转换。一个状态(第一个状态)672₁是第一类声音对象的状态。当声音对象处于第一状态672₁时，第一规则控制该声音对象的呈现。另一个状态(第二状态)672₂用于第二类声音对象。当声音对象处于第二状态672₂时，第二规则控制该声音对象的呈现。

如果声音对象被分类为第一类声音对象，则对声音对象进行分类的步骤可以导致从第二状态672₂到第一状态672₁的状态转换673₁。

如果声音对象被重新分类为第二类声音对象，则声音对象的重新分类可以导致从第一状态672₁到第二状态672₂的状态转换673₂。例如，这是可能发生的，因为第一状态672₁是临时状态，如果用户不再次激活便会过期，例如，如参考图14、15所描述的。第一状态672₁的再次激活由重新开始第一状态672₁的状态转换673₃示出。

当触发事件发生时，发生状态转换673。触发事件在满足一个或多个触发条件时发生。

第一状态672₁是持久状态。该状态在触发事件发生后持续。

需要进一步的触发事件才能退出第一状态672₁。在一些示例中，该进一步的触发事件可以自动发生，从而导致第一状态672₁是临时状态，例如在满足预定条件(例如，度量值m超过阈值)之后结束673₂，除非被更新(再次激活)673₃。

当触发事件/触发条件导致从第二状态672₂到第一状态673₁的状态转换时，它基于用户的历史动作。

类似于图16A，图16B将方法500的效果示出为状态图。

然而，在该示例中，第二状态672₂由多个子状态表示。

在该示例中，如果声音对象620处于第二状态，则它将处于多个子状态2(i)、2(ii)、2(iii)中的一个中。

多个子状态中的任一个可以是第二类声音对象的状态。当声音对象处于第二状态672₂的子状态时，第二规则控制该声音对象的呈现。

如果声音对象被分类为第一类声音对象，则对声音对象进行分类的步骤可以导致从第二状态672₂的子状态2(i)到第一状态672₁的状态转换673₁。

如果声音对象被重新分类为第二类声音对象，则声音对象的重新分类可以导致从第一状态672₁到第二状态672₂的子状态之一的状态转换673₂。例如，这是可能发生的，因为第一状态672₁是临时状态，如果用户不再次激活便会过期，例如，如参考图14、15所描述的。第一状态672₁的再次激活由重新开始第一状态672₁的状态转换673₃示出。

当触发事件发生时，发生状态转换673。触发事件在满足一个或多个触发条件时发生。第一状态672₁是持久状态。该状态在触发事件发生后持续。

当触发事件/触发条件导致从第二状态672₂的子状态之一到第一状态673₁的状态转换时，它基于用户的历史动作。

当声音对象620处于第二状态672₂并且声音对象620与用户630之间存在当前交互时，进入第二状态的第一子状态2(i)。例如，如果当前交互导致激活，则可以从该状态转换673₁为第一状态672₁。

当声音对象620处于第二状态672₂并且声音对象620与用户630之间存在潜在交互时(但是声音对象与用户之间没有当前交互)，进入第二状态的第二子状态2(ii)。在该示例中，不可能从该子状态2(ii)转换到第一状态672₁，但是对于其它状态图是可能的。可以从第一状态672₁转换673₂到该状态。可以转换673₄到第二状态672₂的第一子状态2(i)/从第二状态672₂的第一子状态2(i)进行转换673₄。

当声音对象620处于第二状态672₂并且声音对象620与用户630之间没有潜在交互时(声音对象与用户之间没有当前交互，并且声音对象与用户之间没有潜在的当前交互)，进入第二状态的第三子状态2(iii)。在该示例中，不可能从该子状态2(iii)转换到第一状态672₁，但是对于其它状态图是可能的。可以从第一状态672₁转换673₂到该子状态2(iii)。可以转换673₅到第二状态672₂的第二子状态2(ii)/从第二状态672₂的第二子状态2(ii)进行转换673₅。

处于第二状态672₂的子状态2(n)的声音对象620(第二类声音对象)与处于第一状态672₁的声音对象620(第一类声音对象)以不同的方式呈现。

处于第二状态672₂的每个子状态2(n)的不同声音对象620与处于第二状态672₂的其它子状态2(m)的声音对象620以不同的方式呈现，但是与处于第二状态672₂的相同子状态2(n)的声音对象620以相同的方式呈现。

例如，可以按照记录呈现处于第二状态672₂的第一子状态2(i)的声音对象620。

例如，可以呈现处于第二状态672₂的第二子状态2(ii)的声音对象620以强调声音对象620，但仅当用户630直接面对声音对象620在虚拟空间600中的位置时才执行此操作。

例如，可以呈现处于第二状态672₂的第三子状态2(iii)的声音对象620以去强调声音对象620。

可以通过修改声音对象620的特性来实现声音对象620的强调/去强调。

例如，可以通过使用不同的空间和/或频率通道和/或增加强度来实现强调。

例如，可以通过使用共享的空间和/或光谱通道，降低强度并使用混响模拟背景抖动来实现去强调。

在一个用例中，用户使用介导现实出席虚拟空间600中的鸡尾酒会。介导现实可以是虚拟现实或增强现实。用户经由空间音频收听第一张桌子(A)的对话。例如通过在阈值时间内注视或接近表示对话的声音对象620的计算机生成的虚拟对象，用户激活声音对象620。计算机生成的虚拟对象28改变外观，以指示622它已经被激活。用户630可以通过点头确认激活，或者通过摇头取消激活。用户630能够执行姿势以制定第一规则的特性。激活之后的声音对象620进入第一状态(被分类为第一类)，然后用户630能够收听声音对象620(来自桌子A的对话)，而用户630离开桌子A时，甚至同时收听另一个桌子(桌子B)的对话。

在前述示例中，已经参考了一个或多个计算机程序。计算机程序(例如计算机程序48、416中的任一个或计算机程序48、416的组合)可以被配置为执行方法500。

另外作为示例，装置30、400可以包括：

至少一个处理器40、412；以及

包括计算机程序代码的至少一个存储器46、414，

至少一个存储器46、414和计算机程序代码被配置为与至少一个处理器40、412一起使得装置30、400至少执行：

根据在所呈现的虚拟空间内的用户的历史动作，将虚拟空间内的声音对象分类为第一类声音对象或第二类声音对象；

计算机程序48、416可以经由任何适合的传送机制到达装置30、400。传送机制例如可以是非暂时性计算机可读存储介质、计算机程序产品、存储器设备、诸如光盘只读存储器(CD-ROM)或数字通用光盘(DVD)的记录介质、有形具体化计算机程序48、416的制品。传送机制可以是被配置为可靠地传送计算机程序48、416的信号。装置30、400可以传播或传送作为计算机数据信号的计算机程序48、416。图10示出了用于计算机程序416的传送装置430。

从前述内容可以理解，所描述的各种方法500可以由装置30、400(例如电子装置30、400)执行。

在一些示例中，电子装置400可以是音频输出设备300(诸如头戴式音频输出设备或这种音频输出设备300的模块)的一部分。在一些示例中，电子装置400附加地或可替代地可以是头戴式装置33(包括向用户显示图像的显示器32)的一部分。

在一些示例中，头戴式装置33放置在用户的头上可以使系统执行或能够执行图11所示的方法500。也即是说，如果头戴式装置33没有被放置在用户的头上，方法500不可操作。当头戴式装置被放置在用户的头上时，方法500变得可操作，从而允许使用第一视角用户交互式介导现实(虚拟现实或增强现实)来控制声音场景。

提到“计算机可读存储介质”、“计算机程序产品”、“有形具体化的计算机程序”等或者“控制器”、“计算机”、“处理器”等，应当被理解为不仅包括具有诸如单个/多个处理器架构和串行(冯诺依曼)/并行架构的不同架构的计算机，而且还包括诸如现场可编程门阵列FPGA、专用集成电路ASIC、信号处理设备和其它处理电路的专用电路。提到计算机程序、指令、代码等，应当被理解为包括用于可编程处理器的软件，或者可包括用于处理器的指令的诸如硬件设备的可编程内容的固件，或者用于固定功能器件、门阵列或可编程逻辑器件等的配置设置。

如在本申请中使用的，术语“电路”是指如下的全部：

(a)仅硬件的电路实现，诸如仅采用模拟和/或数字电路的实现；

(b)电路和软件(和/或固件)的组合，诸如(如可应用的)：(i)处理器的组合；或者(ii)处理器/软件的部分，包括数字信号处理器、软件和存储器，其协同工作以使诸如移动电话或服务器的装置执行各种功能；以及

(c)电路，诸如微处理器或微处理器的一部分，其需要软件或固件以工作，即使该软件或固件在物理上不存在。

“电路”的定义适用于本申请(包括任何权利要求)中的该术语的所有使用。作为进一步的示例，如在本申请中所使用的，术语“电路”还涵盖仅一个处理器(或多个处理器)或处理器的一部分及它(或它们的)伴随软件和/或固件的实现。例如，如果适用于特定的权利要求元素，术语“电路”还涵盖用于移动电话的基带集成电路或应用处理器集成电路，或服务器、蜂窝网络设备或其它网络设备中的类似集成电路。

图11至16B中示出的方框、步骤和过程可以表示计算机程序中的方法和/或代码段中的步骤。对方框的特定顺序的说明并非意味着这些方框具有必需或优选的顺序，方框的顺序和排列可以改变。此外，有些方框可被省略。

在已经描述了结构特征的情况下，可以通过用于执行结构特征的一个或多个功能的装置来替换结构特征，无论该功能或这些功能是否被明确或隐含地描述。

如在本文中所使用的，“模块”是指除了由终端制造商或用户添加的某些部件/组件以外的单元或装置。控制器42或控制器410例如可以是模块。装置可以是模块。显示器32可以是模块。

在本文中使用的术语“包括”具有包容而非排它性的意义。也即是说，任何提到“X包括Y”指示“X可以仅包括一个Y”或“X可以包括多于一个的Y”。如果意图使用具有排它性意义的“包括”，则将通过提及“仅包括一个”或通过使用“由...组成”在上下文中明确说明。

已经在详细的描述中参考了各种示例。针对示例的特征或功能的描述指示这些特征或功能存在于该示例中。无论是否明确陈述，在文本中术语“示例”或“例如”或“可”的使用表示这种特征或功能至少存在于所描述的示例中，无论是否作为示例来描述，并且这种特征或功能可以但不必存在于一些或所有其它示例中。因此“示例”、“例如”或“可”是指一类示例中的特别的实例。实例的性质可以仅是该实例的性质或该类实例的性质或包括一些但未包括全部该类实例的该类实例的子类的性质。因此，隐含公开了针对一个示例但未针对另一个示例描述的特征可以但不必用于其它示例。

尽管本发明的实施例已经在之前的段落中参考各种示例进行了描述，但应当理解，可在不背离本发明要求保护的范围的情况下对给出的示例进行修改。

在之前的描述中描述的特征可用于除了明确描述的组合之外的组合中。

尽管已经参考某些特征描述了功能，但这些功能可由其它特征来执行，无论是否描述。

尽管已经参考某些实施例描述了特征，但这些特征也可存在于其它实施例中，无论是否描述。

在之前的描述中试图指出被认为是特别重要的本发明的特征时，应当理解，申请人要求保护关于在本文中之前参考附图和/或在附图中示出的任何可授予专利的特征或特征组合的内容，无论是否已经强调。

Claims

1.一种方法，包括：

根据在所呈现的虚拟空间内的用户的历史动作，将所述虚拟空间内的声音对象分类为第一类声音对象或第二类声音对象；

根据至少第一规则，呈现所述第一类声音对象的一个或多个声音对象；以及

根据与所述第一规则不同的至少第二规则以及所述用户在所述虚拟空间内的当前位置，呈现所述第二类声音对象的一个或多个声音对象。

2.根据权利要求1所述的方法，其中，根据第一规则呈现所述第一类声音对象的一个或多个声音对象相对于所述第二类声音对象的一个或多个声音对象和/或相对于所记录的所述第一类声音对象的一个或多个声音对象改进所述第一类声音对象的一个或多个对象的用户感知。

3.根据权利要求1或2所述的方法，其中，根据第一规则呈现所述第一类声音对象的一个或多个声音对象提供所述第一类声音对象的所述一个或多个声音对象的感知持久性，尽管增加了所述用户和所述第一类声音对象的一个或多个声音对象在虚拟空间的分离。

4.根据任一前述权利要求所述的方法，其中，根据第一规则呈现所述第一类声音对象的一个或多个声音对象以及根据与所述第一规则不同的第二规则和所述用户的当前位置呈现所述第二类声音对象的一个或多个声音对象导致所述第一类声音对象的一个或多个声音对象中的每一个根据对所述第一类声音对象相对于用户的相对距离的第一依赖性而被呈现，并导致所述第二类声音对象的一个或多个声音对象中的每一个根据与所述第一依赖性不同的对所述第二类声音对象相对于用户的相对距离的第二依赖性而被呈现，其中，所述第一类声音对象较少依赖于所述用户与声音对象的实时当前相对位置的变化。

5.根据任一前述权利要求所述的方法，其中，根据第一规则呈现所述第一类声音对象的一个或多个声音对象，以使得当呈现所述声音对象时，所记录的所述声音对象的至少一个特性被调整，其中，调整依赖于自开始根据第一规则呈现所述第一类声音对象的一个或多个声音对象以来所累积的度量值。

6.根据任一前述权利要求所述的方法，其中，根据第一规则呈现所述第一类声音对象的一个或多个声音对象包括：当呈现所述声音对象时，调整所记录的所述声音对象的至少一个特性。

7.根据任一前述权利要求所述的方法，其中，所述第一规则与所述第二规则之间的差异导致在所述第一类声音对象的一个或多个声音对象与所述第二类声音对象的一个或多个声音对象之间一个或多个声音特性值的相对偏移。

8.根据任一前述权利要求所述的方法，其中，所述第一规则定义所呈现的声音对象的强度变化和所述虚拟空间中的所述声音对象与所述用户之间的距离变化之间的第一关系，并且其中，所述第二规则定义所呈现声音对象的强度变化和所述虚拟空间中所述声音对象与所述用户之间的距离变化之间的第二关系。

9.根据任一前述权利要求所述的方法，包括：根据所述虚拟空间内的公共第一规则，在不同的空间和/或频率通道中呈现所述第一类声音对象的多个声音对象。

10.根据任一前述权利要求所述的方法，包括：

根据所述声音对象与所述用户之间的历史交互，将在所呈现的虚拟空间内的声音对象分类为第一类声音对象；以及

根据以下项将在所呈现的虚拟空间内的声音对象分类为所述第二类声音对象的子类：

所述声音对象与所述用户之间的当前交互；或

所述声音对象与所述用户之间没有潜在交互；或

所述声音对象与所述用户之间的潜在交互；

根据依赖于所述子类的规则，呈现所述第二类声音对象。

11.根据任一前述权利要求所述的方法，包括：通过根据所述用户的历史动作所满足的触发事件触发对持久状态的改变来将声音对象分类为第一类声音对象，其中，所述状态在所述触发事件结束后具有持久性。

12.根据权利要求11所述的方法，其中，所述持久状态在满足预定条件后临时结束，除非更新所述预定条件。

13.根据任一前述权利要求所述的方法，其中，根据用户的历史动作将在所呈现的虚拟空间内的声音对象分类为第一类声音对象或第二类声音对象包括：根据所述用户与所述声音对象的先前交互，将声音对象分类为第一类声音对象或第二类声音对象。

14.根据任一前述权利要求所述的方法，其中，所述用户在收听作为空间呈现的音频的所呈现的声音对象时，正在经由用户视角介导现实观看所述虚拟空间。

15.一种装置，包括用于执行根据权利要求1至14中至少一项所述的方法的装置和/或计算机程序代码，所述计算机程序代码在由至少一个处理器执行时，使得执行根据权利要求1至14中至少一项所述的方法。