CN112534395A

CN112534395A - 用于控制音频区域的用户界面

Info

Publication number: CN112534395A
Application number: CN201980052528.4A
Authority: CN
Inventors: N.G.彼得斯
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2018-08-08
Filing date: 2019-08-01
Publication date: 2021-03-19
Also published as: EP3834074A1; TW202014849A; KR20210038561A; US11432071B2; WO2020033228A1; US20200053464A1

Abstract

本发明公开了技术和设备，该设备包括存储器，所述存储器被配置为将音频数据存储在分层声场中的第一音频区域或者第二音频区域中。该存储器耦合到一个或多个处理器，并且该存储器被配置为将音频数据存储在分层声场中的第一音频区域和第二音频数据中。该一个或多个处理器被配置为接收交互命令以控制分层声场中的第一音频区域和第二音频区域中的音频数据，以及生成接收到交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据的一个或多个指示符。

Description

用于控制音频区域的用户界面

根据35 U.S.C.§119要求优先权

本专利申请要求于2018年8月8日递交的、题为“USER INTERFACE FORCONTROLLING AUDIO ZONES”的非临时申请No.16/058,785的专利优先权，该申请被分配给本受让人且据此明确地以引用方式并入本发明。

技术领域

本发明涉及诸如音频数据的媒体数据的用户界面。

背景技术

近年来，人们对增强现实(AR)、虚拟现实(VR)和混合现实(MR)技术越来越感兴趣。发展到无线领域的图像处理和计算机视觉技术，已引起更好的渲染和分配的计算资源以改进这些技术的视觉质量和身临其境的视觉体验。

在VR技术中，可以使用头戴式显示器向用户呈现虚拟信息，使得该用户可以在他们眼前的屏幕上可视化地体验人工世界。在AR技术中，现实世界被超强施加的可视对象增强，或者，叠加在现实世界中的物理对象上。该增强可以将新的可视对象插入或用可视对象掩饰现实世界环境。在MR技术中，什么是真实的或合成的/虚拟的与用户视觉上体验到的之间的边界正在变得难以辨别。

发明内容

本发明通常涉及计算机介导现实系统的用户体验的听觉方面，包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形系统。该技术可以包括存储器，其被配置为将音频数据存储在分层声场的第一音频区域或第二音频区域中。该存储器可以耦合到一个或多个处理器，其被配置为接收交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据。该一个或多个处理器也可以被配置为生成接收到交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据的一个或多个指示符。

该技术还可以包括一种方法，该方法包括接收交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据。该方法还可以包括生成接收到交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据的一个或多个指示符。

此外，可以在一种装置中实现该技术，该装置包括用于接收交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据的部件。该装置还可以包括用于生成接收到交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据的一个或多个指示符的部件。

在附图和以下说明书中阐述了本发明的一个或多个示例的细节。从说明书和附图以及从权利要求书中，该技术的各个方面的其它特征、目的和优势将是显而易见的。

附图说明

图-1a示出了显示设备的一个表示，其可以是AR、MR或VR设备。

图-1b示出了显示设备的一个表示，其可以是AR、MR或VR设备。

图-1c示出了与在执行本发明中的技术的各个方面时可以使用的一个或多个音频区域相关联的情景的表示。

图-2a示出了两个视图的表示。该图的左边部分上的第一视图是与初始用户位置有关的一个或多个音频区域的表示。该图的右边部分上的第二视图是与用户的平移和/或定向移动后的用户位置有关的一个或多个音频区域的表示。

图-2b示出了分层声场的可视化和表示第一和第二设备位置的两个视图。

图-2c示出了音频阻止应用程序的表示。

图-2d和图-2e示出了分层声场中不同音频区域中的音频数据的放大和/或衰减。

图2f示出了对音频区域的跟踪，该音频区域与设备从第一设备位置到第二设备位置的移动成比例地移动，但是第二音频区域相对于该设备从第一设备位置到第二设备位置的移动保持静态。

图3-a和图3-b示出了与显示设备交互的外部对象。

图-4是示出可以用于实现根据本发明的各个方面的技术的框的框图。

图-5a是示出可以用于执行本发明的各个方面的区域控制单元的示例输入和输出的框图。

图-5b是示出可以用于执行本发明的各个方面的区域控制单元的示例输入和输出的另一个框图。

图-5c是示出围绕可以用于执行本发明的各个方面的区域控制单元的输入和输出的更多粒度的另一个框图。

图-6是示出了可以用于执行本发明的各个方面的区域控制单元的一个实施例的框图。

图-7a是示出了可以用于执行本发明的各个方面的区域控制单元的第二个实施例的框图。

图-7b是示出了可以用于执行本发明的各个方面的区域控制单元的第三个实施例的框图。

图-8是示出根据本发明的各个方面的可以执行的示例过程的流程图。

具体实施方式

下面参考附图描述本发明的特定实施方式。在说明书中，共同的特征贯穿附图由共同的附图标记指定。如本发明中所使用的，各种术语仅用于描述特定实施方式的目的而并非意在进行限制。例如，除非上下文另外明确指出，否则单数形式“一”、“一个”和“该”也意在包括复数形式。可以进一步理解，术语“包含”可以与“包括”互换使用。另外，将理解的是，术语“在其中”可以与“其中”互换使用。如本发明中所使用的，“示例性的”可以指示示例、实施方式和/或一个方面，并且不应被解释为限制或指示偏好或优选实施方式。如本发明中所使用的，用于修饰诸如结构、组件、操作等的元素的序数术语(例如，“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一个元素的任何优先级或顺序，而仅仅是将该元素与具有相同名称(但针对序数术语的使用)的另一个元素区分开。如本发明中所使用的，术语“集合”是指一个或多个元素的分组，并且术语“多个”是指多个元素。

如本发明中所使用的，“耦合”可以包括“通信耦合”、“电耦合”或“物理耦合”，并且还可以(或者可替代地)包括其任何组合。两个设备(或组件)可以经由一个或多个其它设备、组件、电线、总线、网络(例如，有线网络、无线网络或它们的组合)等直接或间接地耦合(例如，通信耦合、电耦合或物理耦合)。举例而言而非限制示例，电耦合的两个设备(或组件)可以包括在同一设备或不同设备中，并且可以经由电子设备、一个或多个连接器或感应耦合进行连接。在一些实施方式中，通信耦合(诸如以电通信方式)的两个设备(或组件)可以直接或间接(诸如经由一个或多个电线、总线、网络等)发送和接收电信号(数字信号或模拟信号)。如本发明中所使用的，“直接耦合”可以包括没有中间组件而耦合(例如，通信耦合、电耦合或物理耦合)的两个设备。

如本发明所使用的，“集成的”可以包括“与之一起制造或出售”。如果用户购买捆绑设备或将设备作为包的一部分的产品包，则该设备可以是集成的。在一些描述中，两个设备可以被耦合，但是不必被集成(例如，不同的外围设备可以不被集成到命令设备，但是仍然可以被“耦合”)。另一个示例可以是在本发明中描述的可以“耦合”到处理器的任何收发器或天线，但不一定是包括AR、VR或MR设备的产品包的一部分。当使用术语“集成的”时，可以从本文公开的上下文(包括这一段落)推断出其它示例。

如本发明中所使用的，设备之间的“无线”连接可以基于各种无线技术，诸如蓝牙、无线保真(Wi-Fi)或Wi-Fi的变体(例如，Wi-Fi直连)。设备可以是基于不同的蜂窝通信系统(诸如长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或一些其它无线系统)“无线连接的”。CDMA系统可以实现宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA)或一些其它版本的CDMA。另外，当两个设备在视线内时，“无线连接”也可以基于其它无线技术，诸如超声、红外、脉冲射频电磁能、结构光或信号处理(例如音频信号处理或射频处理)中使用的到达方向技术。

如本发明中所使用的，A“和/或”B可以意味着“A和B”，或者“A或B”或者“A和B”和“A或B”二者均适用或可接受。

术语“计算设备”在本发明中通常用于指服务器、个人计算机、膝上型计算机、平板计算机、移动设备、蜂窝电话、智能本、超级本、掌上型计算机、个人数据助理(PDA)、无线电子邮件接收器、支持互联网的多媒体蜂窝电话、全球定位系统(GPS)接收器、无线游戏控制器以及类似的包括用于无线发送和/或接收信息的可编程处理器和电路的电子设备中的任何一个或全部。

如本发明中所使用的，独立地控制可以包括独立于第二音频区域对第一音频区域中的音频数据的操纵、调整或旋转。例如，在一个音频区域中，音频数据可以针对响度进行补偿(调整的示例)，而在另一个音频区域中，音频数据可以进行动态范围压缩。在另一示例中，音频区域，可以旋转一个音频区域中的音频数据，而另一音频区域中的音频区域可以被均衡。典型地，音频数据存在于整个声场中，并且一次都被操纵或调整，而没有将三维声场分割成本发明中所描述的不同音频区域的能力。如果操纵或调整作为声场一部分的音频数据，则其不会在具有控制两种不同类型的操作(例如，响度补偿、均衡、旋转，动态范围压缩等)的能力的两个音频区域中完成。

如本发明所使用的，“映射点”可以包括采样点或可听场景的声场的采样。可听场景是三维的，并且采样点在该三维声场内可以均匀分布或不均匀分布。映射点可以例如作为用户界面的一部分被可视化，但是不一定必须被可视化。AR、VR和/或MR设备可以包括投射可视场景的显示器。在可听场景和可视场景共存以表示三维空间的情况下，映射点可以表示视频对象的像素，因为声场中的声音可能与视频对象相关联或在视频对象附近。可能有不同类型的音频格式，其中音频格式是基于场景的音频格式，映射点可以是锚点，但不一定必须是锚点。映射点(o)也可以是兴趣点(x)。音频对象或源或环境声源可以包含若干个映射点。映射点可以通过与音频对象或源或环境源的关联而聚类在一起，以形成一个或多个兴趣点来表示音频对象或源或环境声源。在一个示例中，音频源或对象可以是“脉冲”，在这种情况下，映射点和兴趣点是相同的。

如本发明中所使用的，一个兴趣点可以是若干个映射点的集群。在一些示例中，声源或环境声音的位置可以是音频兴趣点。在其它示例中，视频对象或像素集群可以用于生成视觉兴趣点。视觉兴趣点和音频兴趣点可以被包括在映射点的集群中。

如本发明中所使用的，单元可包括例如专用硬接线电路、结合可编程电路的软件和/或固件或其组合。

在本说明书中对“实施例”、“一个实施例”等的引用意味着所描述的特定特征、结构或特性包括在本发明的至少一个实施例中。在本说明书中出现这样的短语不一定都指的是同一实施例。另一方面，不同的实施例也可以不互斥。

音频区域是兴趣点的集合。音频区域的尺寸基于在声场的空间区域内包括一个或多个音频声源。当包括产生声音的可视对象时，音频区域可以包括声音从其发出的可视对象，并且装入包括一个音频源或多个音频源和/或环境声源的音频数据。

术语“AR设备”、“MR设备”和/或“VR设备”可以与包括用于无线发送和/或接收信息的电路的任何电子设备集成，包括蜂窝电话、个人或移动多媒体播放器、手表、手腕显示器、医疗设备、头戴式耳机，耳机和/或独立的AR/MR/VR设备、扬声器、麦克风、计算设备以及其它类似的电子产品。

尽管完整的三维可听渲染仍然提出挑战，但是本发明中的技术使得朝着这个目标又迈进了一步。AR、MR和/或VR的音频方面可以分为三个单独的沉浸类别。第一类别提供最低级别的沉浸，并且被称为三自由度(3DOF)。3DOF指的是考虑头部在三个自由度(摇摆、俯仰和转动)中的移动，从而使用户可以在任何方向上自由地环顾四周的音频渲染。但是，3DOF无法解决平移(和定向)头部移动(在这种情况下，头部的中心不在音场的光学和声学中心)的问题。

第二类别，称为3DOF plus(3DOF+)，除了由于头部远离声场中的光学中心和声学中心的移动而引起的有限空间平移(和定向)移动之外，还提供了三个自由度(摇摆、俯仰和转动)。3DOF+可以为诸如移动视差的感知效果提供支持，这可以增强沉浸感。

第三类别，被称为六自由度(6DOF)，其以在头部移动方面考虑三个自由度(摇摆、俯仰和转动)但也考虑人在空间中的平移(x、y和z平移)的方式来渲染音频数据。可以通过跟踪人在物理世界中的位置的传感器或通过输入控制器来引起空间平移。

VR的音频方面可能比视频方面的沉浸感小，从而潜在地减少了用户体验到的整体沉浸感。但是，随着处理器和无线连接的进步，可能可以用可穿戴式AR、MR和/或VR设备实现6DOF渲染。此外，将来可能会考虑具有AR、MR和/或VR设备的功能并提供身临其境的音频体验的车辆的移动。另外，本领域普通技术人员将认识到，例如手机的移动设备也可以实现VR、AR和/或MR技术。

根据本发明中描述的技术，调整音频数据(无论是音频信道格式、音频对象格式和/或基于音频场景的格式)的各种方式可以允许6DOF音频渲染。6DOF渲染通过以同时考虑头部移动方面的三个自由度(摇摆、俯仰和转动)和平移移动(在空间三维坐标系统-x、y、z中)二者的方式渲染音频数据，来提供更身临其境的聆听体验。在实现中，在头部移动可能不以光学和声学中心为中心的情况下，可以进行调整以提供6DOF渲染，并且不一定限于空间二维坐标系。如本发明中所公开的，以下附图和描述允许6DOF音频渲染。

如本发明中所公开的，以下附图和描述允许6DOF音频渲染以及允许用户选择的启用/禁用3DOF、3DOF+和/或6DOF头部跟踪的用户界面技术。另外，用户界面技术被描述为用于衰减或放大不同音频区内并且在分层声场中的音频数据。

图1a示出了显示设备102的表示，该显示设备可以是AR、MR和/或VR设备。人可以穿戴设备102。设备102可以是AR、MR和/或VR设备。设备102可以包括一个或多个传感器，传感器可以包括定向/平移单元、视觉单元和/或音频捕捉设备。尽管将设备102绘制为可穿戴设备，但设备102可以有其它形状因子。例如，设备102可以被包括在车辆(未明确绘制)、或者机器人(未明确绘制)、或者具有AR MR或VR功能的其它电子设备(未明确绘制)中。设备102可以耦合到与设备102相关联的扬声器。扬声器也可以与设备102集成在一起，或者可以在设备102外部。

AR、VR和/或MR设备102还可以包括除了示出的那些之外的其它类型的可穿戴设备。例如，手表(诸如所谓的“智能手表”)、眼镜(诸如所谓的“智能眼镜”)、耳机(包括经由无线连接耦合的无线耳机，或经由有线或无线连接耦合的智能耳机)、以及任何其它类型的可穿戴设备可以是AR、VR和/或MR设备102。这样，本发明中公开的各种技术可以由若干个可穿戴设备执行，当用户穿戴时，用户可以通过这些技术与可穿戴设备进行交互。

图1b是可以是AR、MR和/或VR设备的显示设备的表示。人可以穿戴设备140。设备140可以是AR、MR或VR设备。设备140可以包括定向/平移单元、视觉传感器和/或音频捕捉设备。定向/平移单元可以提供表示设备140的移动的一个或多个测量。虽然设备140被绘制为可穿戴设备，但是设备140可以有其它形状因子。例如，设备140可以被包括在车辆(未明确绘制)，或者机器人(未明确绘制)、或者具有AR、MR或VR功能的其它电子设备(未明确绘制)中。

类似于图1a中示出的设备102，AR、VR和/或MR设备140还可以包括除了示出的那些之外的其它类型的可穿戴设备。例如，手表(诸如所谓的“智能手表”)、眼镜(诸如所谓的“智能眼镜”)、耳机(包括经由无线连接耦合的无线耳机，或经由有线或无线连接耦合的智能耳机)、以及任何其它类型的可穿戴设备可以是AR、VR和/或MR设备140。

覆盖人的眼睛而不使光从外部进入的设备可以表现为图1b中的设备，并且可以与VR设备相关联。但是，AR、MR和/或VR设备可以具有不同的形状因子。例如，AR、MR和/或VR设备可以具有允许观看外部视频对象或视频场景的显示屏，或者可替代地，多个显示屏(例如，半透明屏或投影屏)可以被包括在执行AR、MR和/或VR的设备中。因此，诸如图1a或图1b的形状因子可以用于AR、MR和/或VR设备。图1b中的设备140也被耦合到扬声器144。

图1c示出了与在执行本发明中的技术的各个方面时可以使用的一个或多个音频区域相关联的场景的表示。在图1c中，该表示可以显示为二维或三维。该表示可以包括可视对象、可听对象和/或可视对象和可听对象。显示设备100上的显示屏90的一部分(见图4)可被用于表示该场景中的可视对象。例如，在图1c中，在显示屏90的左下方有一条狗7A的一部分，在显示屏90的顶部附近有一个女人7B，而在显示屏90的顶部附近有一个男人7C与女人7B说话，以及显示屏90的下部有另一个男人7C。在显示屏90上叠加有与AR、MR和/或VR设备相关联的映射点(o)。映射点可以是均匀间隔的或非均匀间隔的。映射点可以是均匀间隔的或非均匀间隔的。映射点可以可视化也可以不可视化。本发明中的映射点和兴趣点都不需要是锚点。音频区域和音频区域的跟踪可以允许更独立的灵活性来处理和控制音频数据。被操作的音频数据不限于环境立体声域(如在基于场景的音频格式中但与其它的格式(例如信道和/或对象格式)一起使用的)。此外，视频对象可以与音频区域相关联，在一些实施例中，允许利用已经在不同的移动设备中容易使用的面部检测技术。

图2a示出了两个视图的表示。在图的左边部分的第一视图是与初始用户位置有关的一个或多个音频区域的表示。在图的右边部分的第二视图是与平移和/或定向移动之后的用户位置有关的一个或多个音频区域的表示。人40可以穿戴AR、MR和/或VR设备(102、140)。AR、MR和/或VR设备(102、140)可以耦合到显示设备100。显示设备100可以被配置为表示音频区域，该音频区域可以包括在空间上分布的音频数据。例如，出于说明目的，音频区域表示为在音频区域的边界周围带有虚线的正方形。音频区域可以与可视对象、音频对象和/或可视对象和音频对象两者相关联。在一个实施例中，图1c中示出的映射点(o)可以被映射到兴趣点(x)。当该场景由可视场景和可听场景组成时，映射点可以是像素。在一个替代实施例中，当该场景是可听场景时，映射点可以是对声场采样的采样点。

AR、MR和/或VR设备(102、140)可以包括一个或多个处理器，其包括图4中示出的单元。设备400可以耦合到存储器120。存储器120可以被配置为将音频数据存储到与一个或多个兴趣点相关联的两个或更多个音频区域中，其中一个或多个兴趣点与该两个或更多个音频区域的每个区域相关联。例如，如图2a中示出的，在左视图(初始用户位置)和右视图(平移/定向移动之后)的每个视图中都显示了四个音频区域(20A、20B、20C、20D)。兴趣点由“X”表示。在一个实施例中，兴趣点可以与采样点相同。在另一个实施例中，兴趣点可以与映射点相同。在又一个实施例中，兴趣点位于有声音或可能有声音的地方附近。例如，在与狗7A相关联的音频区域20A中，在音频区域20A中有声音60A。该声音60A可以由音频区域20A中的音频数据表示。音频数据可以与音频区域20A中的一个兴趣点相关联。类似地，与女人7B相关联的音频区域20B中的声音60B可以由与两个兴趣点相关联的音频数据表示。与和女人7B讲话的男人7C相关联的音频区域20C中的声音60C可以由与三个兴趣点相关联的音频数据表示。通常，音频数据可以由与一个或多个兴趣点相关联的音频数据表示。兴趣点的数量可以是声音的响度和声音的空间分布的函数。

AR、MR和/或VR设备(102、140)可以是可穿戴的(图2a中未明确示出)。该可穿戴设备上可以有对于一个或多个音频区域的参考点或点。例如，人的眼睛之间的点可以被认为是参考点，或者如果存在越过人的头部的头带或条，则该条或头带的中点也可以被认为是一个参考点。作为人的一部分或可穿戴设备的一部分而定位的其它点可以被认为是参考点。在图2a中，左视图表示具有星66的参考点。右视图表示具有不同的星67的参考点。AR、MR和/或VR设备中一个或多个处理器可以获取音频区域20C和参考点66之间的第一距离62。参考点66与人40的初始位置有关。因此，如果人穿戴AR、MR和/或VR设备，则该设备位置可以用作参考点。例如，一个或多个处理器可以获取音频区域20C与第一设备位置之间的第一距离62。在人做出平移移动(例如，人或者向前、向后、向下、向上，或者向侧面移动)之后，该人从第一设备位置向第二设备位置移动。在人做出旋转移动(即，人将他/她的头部朝向顺时针、逆时针或上和下)之后，该设备(102，140)从第一设备位置向第二设备位置移动。这种移动(无论是平移还是旋转)在第一设备位置移动到第二设备位置时被指定为更新后的移动17。因此，该一个或多个处理器可以在设备(102、140)的移动已从第一设备位置更改为第二设备位置之后获取更新后的第一距离62。当至少存在第二音频区域时，第一设备位置(或初始用户位置处的人上的参考点)之间可能存在距离(未明确示出)。一个或多个处理器可以获取第一设备位置和第二音频区域之间的距离(第二距离)。在设备(102、140)的移动已经从第一设备位置改变到第二设备位置之后，一个或多个处理器可以获取第二音频区域和第一设备位置之间的更新后的第二距离。

设备(102、140)中的定向/平移传感器单元404可以表示用于感测的微机电系统(MEMS)或者能够提供信息以支持头部和/或身体跟踪的任何其它类型的传感器的组合。在一个示例中，定向/平移传感器单元404可以表示用于感测平移移动的MEMS，类似于在诸如所谓的“智能电话”的蜂窝电话中使用的那些。可以在2017年8月17日在URL地址msl.cs.illinois.edu/～lavalle/papers/LavYerKatAnt14.pdf处可访问到的LaValle等人的题为“Head Tracking for the Oculus Rift”的论文中找到有关用于执行头部跟踪的用于传感的MEMS的更多信息。另外，可以在日期为2015年11月1日的Jesper Tingvall等人的题为“Interior Design and Navigation in Virtual Reality”的论文中上找到有关使用相机和各种其它传感器(例如，视觉传感器130(也可以用于跟踪头部和/或身体移动))跟踪头部和身体的更多信息。

在替代实施例中，人40可以在车辆中，其中显示设备100被集成到该车辆中。可以用安装在车辆驾驶室内的内部摄像头跟踪该人40的头部移动和/或眼动，以确定头部移动或眼动。作为与车辆耦合或集成的电子设备的一部分，可以有一个或多个处理器，它们可以获取从人在第一位置处的头部移动和/或眼动至音频区域的第一距离，然后在头部移动和/或眼动至第二位置之后获取更新后的第一距离。以类似的方式，可以从人在第一位置处的头部移动和/或眼动来获取至第二音频区域的第二距离，并且在头部移动和/或眼动至第二位置之后，该车辆内的一个或多个处理器可以获取更新后的第二位置。替代设备(102、140)在可穿戴设备上的初始和最终位置，该第一和最终位置基于人在该车辆内的初始和最终的头部移动和/或眼动。

因此，AR、MR和/或VR设备(102、140)可以被耦合或集成到车辆中。注意，为方便起见，术语(102、140)用于指图1a和图-1b中示出的两个设备。设备(102、140)可以进一步包括一个或多个传感器，其被配置为估计表示该设备的移动的距离。估计的距离可以是到第一音频区域的第一距离，或者是到第二音频区域的第二距离，或者是使一个或多个处理器能够确定到第一音频区域的第一距离或者是到第二音频区域的第二距离的一些其它距离，并且考虑设备从第一设备位置到第二设备位置的移动。该一个或多个传感器可以可替代地被包括在车辆中，并且帮助确定人的头部移动或眼动。在一个替代实施例中，车辆可以被认为从一个设备位置移动到第二设备位置，其中，该设备位置是车辆位置。

此外，设备(102、140)或车辆可以包括发送器，被配置为发送第一设备位置、第二设备位置以及第一设备位置和第二设备位置之差，或者该第一设备位置，或者该第二设备位置，或者该第一设备位置和第二设备位置之差

在一个实施例中，设备(102、140)或车辆可以包括摄像机，其被配置为捕捉一个或多个图像以及与第一音频区域和第二音频区域相关联的兴趣区域。如果该摄像机被包括在车辆中，则它们可以是驾驶室内摄像机以捕捉车辆内的不同音频区域。在替代实施例中，摄像机可以在车辆外部，并且可以是驾驶室外摄像机以捕捉车辆外部的不同音频区域。

该AR、VR和/或MR设备(102，140)或车辆还可以包括一个或多个扬声器，其被配置为基于第一音频区和第二音频区的控制接收扬声器馈送，在该第一音频区域或第二音频区域中渲染该扬声器馈送并播放音频数据，或者在第一音频区域和第二音频区域中播放音频数据。

AR、VR和/或MR设备(102，140)或者车辆可以包括显示设备，其被配置为可视化音频区域。例如，在图2a中，显示了四个音频区域：音频区域20A、20B、20C和20D。显示设备100可以被配置为可视化包括在两个或更多个音频区域的至少一个音频区域中的一个或更多个视频对象。例如，狗7A的鼻尖的一小部分、女人7B、与该女人讲话的男人7C以及另一个男人7D都可以被认为是视频对象，并且可以全部可见，即显示在AR、VR和/或MR设备(102、140)的显示设备100上。另外，显示设备100可以被配置为在分层声场中可视化两个或更多个音频区域(例如，音频区域60A、60B、60C和60D的任何一个)。此外，显示设备100可以被配置为可视化分层声场的两个或更多个兴趣点。例如，可视化的兴趣点“X”可以帮助人40知道哪里有可以被操纵的音频能量或音频数据。

图2b示出了两个视图的表示。在图的左边部分上的第一视图是分层声场中有关初始用户位置的一个或多个音频区域的表示。在图的右边部分上的第二视图是分层声场中有关平移和/或定向移动之后的用户位置的一个或多个音频区域的表示。在第一视图和第二视图二者中，第一音频区域和第二音频区域位于分层声场中。分层声场可以表示层之间存在更高分辨率的音频数据。分层声场还可以表示人或设备的用户与不同音频区域之间的相对径向距离。作为示例，图2b中绘制了两个声场，虽然可能在替代实施例中绘制了更多(不同的同心环表示声场的不同层的声场)。

在图2b中，第一层或声场可以在带有虚线的同心圆80内，并且可以被称为前景声场。在图2b中，左视图包括前景声场中的两个音频区域(20B、20C)，和前景声场之外的两个音频区域(20A、20D)。前景声场之外的声场可以被指定为背景声场。对于给定的振幅和声压，声音与距离成反比例函数地下降(听起来更柔和)。因此，声音离人的距离越远，声音就越柔和，并且听起来好像在场景的背景中。但是应注意的是，声音也有不同类型。例如，可能存在主导声音或漫射声音。主导声音本质上可以是定向的，即它似乎来自某个方向。例如，狗狂吠或人讲话是主导声音的示例。可能会有风扇、风或椅子在地板上滑动的声音。当被人40听到时，这些声音可能听起来不是来自任何特定方向，因此可能不被认为是主导声音。如本发明中所描述的，图-2b中表示的分层声场可以包括前景声场或者背景声场之一中的主导声音。类似地，可能在前景声场或者背景声场之一中有漫射声音。背景声场还可以包括环境声音。环境声音可以是漫射声音。在一些实施例中，环境声音也可以是人们在说话，但是，由于环境中的距离和其它声音，可能无法弄清他们在说什么，或者如果有太多人在讲话，则会出现“多人谈话声”，即人们的很多闲聊。

如图2b中示出的，当设备(102，140)从第一设备位置移动到第二设备位置时，由一个或多个处理器获取更新后的移动17。因此，在设备(102、140)的移动已经从第一设备位置改变为第二设备位置之后，该一个或更多个处理器可以获取第一音频区域20C与人40之间的更新后的第一距离68。针对背景声场，可能有理想的“环境参考距离”，其可以被用于该背景声场中的所有音频对象或音频区域。尽管有可能获取每个音频区域的距离，但是如果它们包含主导声音(如狗7A吠叫的声音，或男人7D说话的声音)，则将每个音频区域或音频对象的距离当作具有一个环境参考距离来对待可能是计算方面更高效的。在感知上，可能更期望具有环境参考距离。因此，尽管包括狗7A的音频区域20A与包括男人7D的音频区域20D之间的距离可以不同，但是在一个实施例中，可以为这些距离分配相同的环境参考距离的值。然而，有可能存在不同的环境参考距离，背景声场中的每个音频区域都有一个。

在其它示例中，该参考距离是静态的，或者被定义为音频比特流的语法元素。当使用语法元素定义时，参考距离可以是静态的(诸如发送一次并且因此在该经历期间是静态的)或动态的(诸如在经历期间发送多次，例如，每个音频帧或每一些周期性或非周期性数量的音频帧)。

在相同或替代实施例中，具有狗7A的音频区域20A和/或具有男人7D的音频区域20D，可以控制这些音频区域(例如，音频区域20A或音频区域20D可以是分层声场中的第二音频区域，其中该分层声场是背景声场)。

控制的一个示例可以是一个或多个音频区域的响度补偿。控制的另一个示例可以是调整一个或多个音频区域的方向。控制的又一个示例可以是针对一个或多个音频区域的动态范围控制。

音频区域的控制可以基于基于环境参考距离对一个或多个音频区域的响度补偿、方向或动态范围控制的调整。此外，第一音频区域(例如，音频区域20A)中的音频数据可以被配置为基于基于第一环境参考距离的第一响度补偿来调整，并且第二音频区域(例如，音频区域20D)中的音频数据可以被配置为基于基于第二环境参考距离的第二响度补偿来调整。环境参考距离可以相同或不同。

在一个实施例中，第一音频区域(例如，具有女人7B的音频区域20B和与具有与她讲话的男人7C的音频区域20C)是在分层声场中，并且该分层声场是前景声场。在一个实施例中，设备(102、140)或车辆中的一个或多个处理器可以基于前景声场来执行响度补偿，其中从音频区域(20B，20C)到人40的每个距离可以被认为是它自己的前景参考距离。在一个替代实施例中，该前景参考距离针对前景声场中的每个音频区域可以是相同的。

在一个实施例中，设备(102、140)第一音频区域可以被配置为从分层声场的第一层转换到该分层声场的第二层。从音频区域的一个分层声场到另一个分层声场的音频区域的转换可以是，例如音频区域20D从背景声场转换到前景声场80，如图2b的右视图中所示。来自男人7D的声音可能从环境声音(当声音是在背景声场中时可能不是可辨别的)改变为主导声音(声音，例如语音，在前景声场中更发音明显)。另一个示例是具有女人70B的音频区域20B的转换，音频区域20B原本处于前景声场80中，但是在更新后的移动17之后处于背景声场中。

在一个实施例中，第二音频区域(例如，音频区域20D)可以从分层声场的第二层(例如，背景声场)转换到该分层声场的第一层(例如，前景声场)，并且第一音频区域(例如，音频区域20B)中的音频数据可以基于基于前景距离的第一响度补偿来调整，并且第二音频区域中的音频数据被配置为包括基于第二前景距离的第二响度补偿来调整。也就是说，即使第二音频区域处于背景声场中，但在更新后的移动17之后，第二音频区域已经转换为前景声场。这两个音频区域(该第一和第二音频区)都可以基于前景距离被更新。前景距离是不同的。但是，在某些情况下，可能希望仅对前景声场80中的所有音频区域使用一个前景距离。

应该注意，AR、MR和/或VR设备(102、140)的显示器可以描绘二维视觉场景或三维视觉场景。使用不同的测地虚线来强调可视场景和/或可听场景可以是三维的。在一些图中，为清晰起见，未图示说明测地线；然而，本领域普通技术人员将理解，三维可视场景或者三维可听场景是AR、MR和/或VR设备(102、140)的一部分。

AR、VR和/或MR设备(102、140)或车辆可以包括显示设备，该显示设备被配置为可视化包括在两个或更多个音频区域的至少一个音频区域中的一个或更多个视频对象。例如，音频区域20A、20B、20C和20D各自包括视频对象：狗7A的脸、女人7B、与该女人讲话的男人7C和另一个男人7D。

人40可以看到显示在显示设备上的音频区域，并且可以给出交互命令以操纵或控制所选音频区域中的音频数据。例如，人40可以触摸该音频区域、指向该音频区域、发出命令“音频区域1(可以标记该音频区域)”，或者可以使用控制器来触摸或点击该音频区域。另外，在一些实施例中，人40可以使用手势来抓住或触摸该音频区域。

交互命令可以是输入模态。例如，手部、手指或手势跟踪器(例如，跳跃运动传感器)可以指向场景元素(即，兴趣点，或音频区域，或视频对象)。手指，手部或手势可以被用于轻击、轻扫或抓住场景元素之一。此外，交互命令也可以是眼动或头部姿态的形式。例如，如果人40正在注视特定场景元素一段时间，则眼动可以被用于与场景元素进行交互并选择它。点头、摇头或头部移动可以用于也与场景元素进行交互的头部姿态。

另外，交互命令可以是语音命令。例如，可以在AR、MR和/或VR设备(102、140)中识别出一个对象。一旦将关键字或对象名称与该视频对象或音频对象相关联，就可以使用语音命令来操纵该视频或音频对象，例如，使对象声音变大、使对象静音。在另一个实施例中，交互命令可以是指针控制器，例如鼠标指针，其可以悬停在期望的场景元素例如视频或音频对象上。

一个或多个处理器可以接收交互命令来控制分层声场中的第一音频区域或第二音频区域中的音频数据，并生成接收到交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据的一个或多个指示符。

一个或多个指示符的生成可以由一个或多个处理器接收，并且该一个或多个处理器可以控制分层声场中的第一音频区域、第二音频区域或第一音频区域和第二音频区域二者中的音频数据。

另外，显示设备可以被配置为可视化分层声场的两个或更多个兴趣点。例如，在每个区域中都有一个“ex”“X”，其表示一个或多个兴趣点的可视化。兴趣点可以通过与音频区域类似的界面输入模态来操纵或控制，例如，一个或多个兴趣点上的触摸、指向、眼动、点头或点击。

此外，显示设备可以被配置为可视化该分层声场。前景声场80由圆圈描绘，尽管其它形状也可以表示声场。例如，前景声场可以由球体、立方体、正方形、矩形或其它闭合表面表示，以划定接近人40附近的声音之间的空间边界。接近度可以是相对于有边界空间的，声源的距离相对靠近声音检测器，以便声音检测器检测由声源发出的声音的级别。例如，除非是非常响亮的声音(例如，喷气机或非常响亮的音乐会)，否则通常不会听到由人或电子设备距离声音检测器500米发出的声音。但是，如果声音非常大，则20米远可能就是近端的。但是脚步声可能仅在1米处是更近端的，而20米处的脚步声可能被认为太远而无法进入前景声场。

在替代实施例中，交互命令也可以是作为移动设备的一部分的设备(例如，智能电话)的一部分，其中，人40可以握住或使用配件将智能电话转变为可穿戴设备，并且显示设备100被集成到移动设备中。

在替代实施例中，交互命令也可以是车辆中的设备的一部分，其中人40可以在车辆中，并且显示设备100被集成到车辆中。

前景声场的可视化可以跟随人40的移动。因此，在图2b的右视图中，前景声场与人40一起移动。在这一示例中，音频区域是静态的。这样，随着设备的移动，音频区域20B落入前景声场之外，而音频区域20D进入前景声场。这一模式支持其中人40能够听到(并且可视化)在前景声场中近端的音频区域的交互模式。在这种交互模式下，效果更类似于真实的沉浸式体验，当你接近人或声源时，它们会听起来更近。

为了清楚起见，在图2c、图2d和图2e中仅表示一个视图。尽管参考那些附图描述的特征在设备从一个位置移动到另一个位置时也是适用的。另外，为简单起见，图2c中也未图示说明音频区域。

在图2c中，兴趣点周围的区域在人们60C和60D周围的圆圈中具有斜杠标记。这样做是为了说明人40可以给出交互命令以使该区域中的音频静音或被阻挡。如果该音频区域(例如，音频区域20C和音频区域20D)中有其它音频数据，则可以阻挡该音频区域中的音频数据(所有音频数据或音频数据的一部分)。另外，在一个实施例中，音频区域中的视频对象也可以被遮挡或删除。例如，与女人7B交谈的男人7C在视觉上被部分遮挡。然而，在另一实施方式中，男人7C也可以在视觉上被完全遮挡。类似地，根据实施方式，男人7D也可以在视觉上被部分或完全遮挡。在视频摄像机类型的应用中，人40可能想要从录制结果抑制或消除音频和视频对象，可能希望进行阻挡(即删除或抑制音频和/或视频对象)。另一种应用可以用于对于音频用户界面、或例如个人数字助理或像Amazon spot(当前同时具有音频接口和摄像机捕捉能力两者的设备)这样的设备的某些未来修改版本，消除干扰信号(例如，不需要的音频源)。

在图2d和图2e中，一个或多个处理器可以被配置为控制述第一音频区域(例如，20B或20D)，其可以包括第一音频区域中的音频数据的放大。在图2d中，音频区域中的音频数据的放大和/或衰减的图示在前景声场80中。在图2e中，音频区域中的音频数据的放大和/或衰减的图示在背景声场中。这两个附图说明音频区域中的音频数据(和/或视频对象)的放大和/或衰减可能是在前景声场中或背景声场中。此外，普通技术人员将容易认识到，音频数据和/或视频对象的放大和/或衰减可以在分层声场中预先形成。也就是说，在前景声场80中可以放大音频数据(和/或视频对象)，而在背景声场中可以衰减音频数据(和/或视频对象)。相反，逆向也是可能的。即，在前景声场80中可以衰减音频数据(和/或视频对象)，而在背景声场中可以放大音频数据(和/或视频对象)。

下面描述额外的特征和能力。显示设备100可以被配置为可视化第一音频区域中的音频数据的放大的表示。第一音频区域中的音频数据的放大的可视表示可以通过第一音频区域的增加的尺寸来图示说明。因此，随着第一音频区域的尺寸增加，第一音频区域中的音频数据可以被放大。

另外，一个或多个处理器可以被配置为控制第二音频区域(例如，20C或20A)并缩小第二音频区域的尺寸。在这种情况下，第二音频区域中的音频数据的衰减的可视表示可以通过第二音频区域的减小的尺寸图示说明。因此，随着第二音频区域的尺寸减小，该第二音频区域中的音频数据可以被衰减。

在一个实施例中，音频数据的放大的可视表示可以被实现为显示设备的手电筒声音应用或阻挡声音应用。这样，或者第一音频区域、第二音频区域，或者第一音频区域和第二音频区域二者中的音频数据的放大或衰减的表示的可视化可以基于显示设备屏幕的照度的变化。例如，在音频数据被放大或衰减的情况下，声音被放大或衰减的区域的照度可以伴随音频数据的放大或衰减。

尽管没有明确图示说明，但是本领域普通技术人员可以想到，当有声音(即，音频数据)的放大或衰减时，显示设备100的一部分可以或多或少被照明。这样，显示设备的屏幕的照度变化可以表示第一音频区域，第二音频区域，或者第一音频区域和第二音频区域二者中的音频数据的不同放大或衰减级别的变化。用来表示音频数据的放大或衰减的颜色变化可以不一定必须是来自手电筒(例如，淡黄色)或阻挡声音应用(例如，黑色)的输出，但可以是不同的颜色，并且可以是可配置的。

这样，其它颜色可以与音频数据的放大和/或衰减相关联。例如，用于放大和/或衰减的颜色可以是可配置的。因此，人40可以有橙色、蓝色、绿色等颜色中的任何一种来表示放大，以及有棕色、灰色、红色等颜色中的任何一种来表示衰减。

在图2f中，该图的左视图示出了AR、VR和/或VR设备移动之前的显示设备100和分层声场(前景声场80之外的区域是背景声场)。该图的右视图示出了AR、VR和/或MR设备移动之后的显示设备100和分层声场。一个或多个处理器可以被配置为跟踪第一音频区域(例如，20B或20C)以便与该设备从第一设备位置到第二设备位置的移动成比例地移动，但第二音频区域(例如20A或20D)在该设备从第一设备位置移动到第二设备位置之前，相对于第二音频区域保持静态。可能需要这种跟踪的应用可能是要有目的地修改声场。例如，人40可能想要听到直接从人40的头后面而不是在左耳的方向上发出的狗的声音。类似地，人40可能想要使另一人的声音在前景声场80中的声音之后或偏离该声音。因此，如所看到的，音频区域20A和/或20D内的视频对象和音频数据随AR、VR和/或MR设备的移动进行跟踪，随旋转(和平移)进行移动。

图3a和图3b示出了与显示设备100交互的外部对象。手部310的手指311可用于指向显示设备100上的可以表示音频元素344和/或视频对象的一个区域，以衰减和/或放大音频数据或与该视频对象相关联的音频数据。音频元素可以是音频数据和/或与音频数据相关联的视频对象。也可以使用具有指示方向能力的指针或其它设备。这些外部对象(手部、手指、指针等等)可以被用于选择在分层声场中被放大和/或衰减的音频数据。在图3b中，可以在显示设备100上将外部对象(例如，手部)的表示插入声场中和/或将其增强到声场的可视表示中。通过这种表示，人40可以抓住、触摸、轻击等音频元素344和/或视频对象以衰减和/或放大音频数据或与该视频对象相关联的音频数据。外部对象可以在显示设备100内可视化，并且可以用于交互命令以控制分层声场内的音频数据和/或视频对象。

图4是示出可以用于实现根据本发明的各个方面的技术的块的框图。在图4中，AR、MR和/或VR设备(102，140)或集成到车辆中的AR、MR和/或VR设备可以包括如图4中所示的设备400中的组件。设备400可以包括一个或多个处理器402，其还可以包括集成到该一个或多个处理器中的区域控制单元428，其中，该区域控制单元428被配置为接收更新后的移动17。该更新后的移动17可以被用于确定更新后的第一距离或更新后的第二距离，或更新后的第一距离和更新后的第二距离二者。区域控制单元428中的区域跟踪器408可以在不同的音频域中操作。

在相同或替代实施例中，区域控制单元428包括区域跟踪器408，其被配置为跟踪两个或更多个音频区域并且被配置为接收更新后的移动17，将更新后的移动17与相关联的音频兴趣点的声音位置进行比较，并调整该两个或更多个音频区域的每个音频区域中的声场的平移或旋转，或平移和旋转二者。应当注意的是，在替代实施方式中，音频区域跟踪器功能可以位于区域控制单元内的其它块中，但是可以被称为另一个名称，或者可以被合并到该区域控制单元本身的功能中。例如，在一些实现中，音频区域跟踪器“跟踪”该音频区域，但可能不一定将更新后的移动17与相关联的音频兴趣点的声音位置进行比较，并且调整该两个或更多个音频区域的每个音频区域中的声场的平移或旋转，或平移和旋转二者。

在相同或替代实施例中，与一个或多个处理器420集成的音频空间化单元420可以被配置为输出424一个或多个声源和该一个或多个声源的相对应的位置。例如，可以将狗7A的吠叫，或女人7B的讲话，或男人7C、7D的讲话视为声源。与7A、7B、7C、7D它们相关联的声音所处的空间位置可以由音频空间化单元420输出。这些空间位置可以是声源位置和/或环境/漫射位置。在相同或替代实施例中，可以根据音频区域的尺寸以及用于跟踪音频区域的特定实现，将空间位置分配给音频区域。在一个实施例中，空间位置可以用笛卡尔坐标(x，y，z)表示。在替代实施例中，空间位置可以以球坐标(r，theta，phi)或(r，方位角，仰角)表示。在其它实施例中，空间位置可以用其它坐标表示来表示。

在相同或替代实施例中，音频空间化单元420进一步被配置为输出环境声音和相对应的环境声音参考距离。环境声音可以来自漫射声源。不同音频区域的环境参考距离可以是相同的或不同的。应当注意的是，贯穿本发明中，术语环境参考距离、环境参考和环境参考位置可以互换使用。尽管距离和位置可能不同，但是在一些实现中，位置和距离可能具有相同的原点参考点，因此可能具有相同的含义。

在相同或替代实施例中，音频空间化单元420被耦合到音频捕捉设备112。音频捕捉设备可以包括一个或多个麦克风，其被配置为捕捉音频信号并输出音频信号的音频信号表示。音频捕捉设备112可以包括麦克风的线性阵列、具有不同几何形状(例如，四面体、十字形、“L”形)的麦克风阵列。麦克风阵列可以放置在AR、MR和/或AR设备(102、140)的不同平面上。例如，一组麦克风可以位于设备的一侧，另一组麦克风可以位于设备的另一侧(例如，一侧可以是顶部、底部、左侧或右侧，具体取决于设备的形状因子)。每一侧的麦克风数量不一定必须相同。音频捕捉设备112还可以在一个或多个平面中包括麦克风的圆形阵列(即，在一个平面中可以有麦克风的同心圆，而在另一平面中可以有麦克风的不同的同心圆)。不同平面中的麦克风数量不一定必须相同。此外，捕捉设备112可以包括麦克风的球形阵列、麦克风的半球阵列(即，球形的一半)、麦克风的四分之一球(即，球形的四分之一)或球形的其它分数部分。

在本发明中描述的任何实施例中，音频捕捉设备112可以输出音频信号的音频信号表示。取决于实施例，音频信号表示可以是音频波形。在一些实施例中，音频波形可以被压缩、滤波或编码。取决于实施例，音频信号表示可以在时域、时间频率域或立体声域中表示音频信号。

在不同的实施例中，音频空间化单元420可以被集成到解码器单元中，该解码器单元也被集成到一个或多个处理器中，其中，解码器单元包括解析单元，其被配置为获取音频信号的音频信号表示。音频信号表示可以是向音频空间化单元420的输入。当该音频空间化单元被集成到解码器单元中时，音频信号的音频信号表示可以是要被解码的比特流的一部分，或者在一些实现中，音频信号的音频信号表示表示经解码的音频信号。

在相同或替代实施例中，音频空间化单元420可以耦合到包括存储器120的存储单元。音频空间化单元420可以被配置为存储音频信号表示，其中，该音频信号表示是向音频空间化单元420的输入。音频信号的音频信号表示可以是压缩后的音频信号、滤波后的音频信号，并且可以以不同的文件格式存储。一个或多个处理器可以被配置为通过读取(r)存储器120来检索以任何格式存储在存储器120中的音频信号表示。为了存储音频信号的音频信号表示，一个或多个处理器可以将音频信号的音频信号表示写入(w)存储器120。

音频空间化单元420可以在信道格式模式、对象格式模式和/或基于场景的格式模式下操作。在一个实施例中，音频空间化单元420可能不支持一种以上的音频格式。在不同的实施例中，音频空间化单元420可以支持两种或更多种音频格式。例如，音频空间化单元420可以支持对象格式和基于场景的格式，或者音频空间化单元420可以支持信道格式和对象格式，或者音频空间化单元420可以支持信道格式和基于场景的格式。在另一个实施例中，可以支持所有三种音频格式，并且可以(可选地)存在格式选择器442，该格式选择器442可以用于在不同格式之间进行切换，并且帮助在其可能操作的模式下(例如信道格式模式、对象格式模式和/或基于场景的格式模式)支持音频空间化单元420。基于场景的格式可以包括不同类型的立体声格式(例如，高阶立体声、混合阶立体声、B格式(也已知为一阶立体声)或一些其它变体。

在一个实施例中，一个或多个视觉传感器130可以输出视频信号的视觉信号表示。在一个实施例中，视频信号表示可以包括一组像素。一个或多个视觉传感器可以是摄像机或被包括在摄像机中，并且可以被配置为捕捉一个或多个图像，以及与第一音频区域和第二音频区域相关联的兴趣区域。

在不同的实施例中，一个或多个处理器402可以通过与另一设备的无线连接来接收视觉信号表示。与一个或多个天线490耦合的收发器480可以用于建立无线连接。在一些实施例中，视觉信号表示可以被压缩、滤波或编码。可以通过在设备之间包括视频比特流而在设备之间无线地发送和接收带宽编码的视觉信号。在这种情况下，视频比特流可以被称为视频信号的视觉信号表示。视频比特流可以通过视频解码器475解码。视频解码器475可以与一个或多个处理器402集成。在视频解码器475解码该视频比特流之后，经解码的视频信号可被称为重构的视频信号。因此，重构的视频信号也是视频信号的另一视觉信号表示。

视觉信号表示可以被输入到视觉单元410中。在一个实施例中，视觉单元410可以包括视觉对象分离器414。在相同或替代实施例中，视觉单元410可以包括深度图单元416。深度图单元416可以读入或接受从另一设备接收的(例如通过收发器48传送的)深度图，即，深度图可以被包括在视频比特流的一部分中。在不同的实施例中，视频解码器475可以能够在运行中从重构的立体图像生成和/或估计深度图。在一个实施例中，深度图可以提供360度虚拟现实场景的的灰度表示，其中黑色表示很远的距离，而白色表示较近的距离，同时伴随着黑色和白色之间的指示中间距离的各种灰度色调。AR、VR和/或MR设备(102、140)可以利用深度图，从视频比特流中指定的(或者由视觉传感器捕捉到的)各自的右眼视图或左眼视图来为左眼或右眼制定视图。视频解码器475可以基于该深度图来改变右眼视图和左眼视图之间的横向距离的量，基于灰色阴影越深将横向距离缩放得越小。这样，在深度图中用白色或浅灰色阴影表示的近距离对象在左眼和右眼视图之间可能具有较大的横向距离，而在深度图中用黑色或深色阴影表示的远距对象在左眼和右眼视图之间可能具有较小的横向距离(从而更接近像一个遥远的点)。

虽然被描述为关于灰度深度图来执行，但是可以关于提供深度信息的其它类型的信息执行该技术，诸如彩色图像、彩色或灰度立体图像、红外相机图像等。换句话说，可以关于提供与相对应的音频数据相关联的场景的深度信息的任何类型的信息来执行该技术。

与音频区域控制单元428耦合的视觉单元410可以利用由深度图提供的深度信息来适应或调整兴趣点相对于人40的头部的位置。也就是，与音频区域控制单元428耦合的视觉单元410可以将兴趣点映射到深度图，并且利用在深度图内的映射位置处的该深度图的深度信息来识别环境参考距离和/或声源位置的更精确参考距离。如本发明中所公开的，音频区域控制单元428可以利用深度图的输出来提供视频对象前景和/或视频对象背景位置。在其它实施例中，可能的是，深度图被直接输入到音频区域控制单元428中，并且深度图的变化的深度与映射点相关联，以确定音频区域的尺寸和音频区域中的兴趣点。

音频区域控制单元428可以利用深度图来估计每个映射点、像素、锚点、兴趣点或音频区域的个体距离。这样，音频区域控制单元428可以确定相对于映射点、像素、锚点(当音频数据是基于场景的时)、兴趣点或音频区域的个体确定的距离中的每一个的更新后的距离或更新后的移动。

在其中有前景和背景声场的实施例中，前景声场内的映射点可以是极为贴近的(例如在2米内)，并且背景声场内的映射点声场可以是很远的(例如超出2米但在不超过50米的范围内)。

在替代实施例中，深度图可以被加载到AR、MR和/或VR设备(102、140)的存储器120中，并且与视觉对象分离器414结合使用。在替代实施例中，视觉单元410不包括视觉对象分离器，并且不能提供至少一个视频前景对象(VO_fgnd)和/或一个视频背景对象(VO_bgnd)，并且可以包括深度图单元416，这可以帮助基于深度分离出不同的视频对象。处于更深深度的那些视频对象可以被称为视频前景对象(VO_fgnd)，而处于更近深度的那些视频对象可以被称为视频背景对象(VO_bgnd)。因此，可能存在所绘制的替代实施例，其将图示说明从深度图单元416指向下方的四个垂直箭头。这四个箭头将表示(至少一个)：(i)视频前景对象(VO_fgnd)；(ii)视频背景对象；(iii)视频前景对象的参考距离(VO_fgnd_ref_dist)；(iv)视频背景对象的参考距离(VO_bgnd_ref dist)。

在相同或替代实施例中，一个或多个兴趣点与视频对象相关联，并且与作为视频对象的第一音频区域中的音频数据相关联。例如，在一些实现中，不同音频区域中的狗7A、女人7B和男人7C、7D可以是视频对象。在相同或替代实施例中，一个或多个兴趣点是与视频对象相关联的视觉关键点。视频对象可以是前景视频对象(VO_fgnd)。例如，在图-2a中，可以将女人7B和与女人7B讲话的男人7C指定为前景视频对象。狗7A和不与女人7B讲话的男人7D可以被认为是背景视频对象(VO_bgnd)。视频对象可以不必分类为前景视频对象或背景视频对象，而是仅称为视频对象。

在一些实施例中，视觉单元410可以不包括深度图单元416。例如，使用面部检测算法可以相对于人40跟踪视频对象(即，人或狗的脸)。视觉单元410可以包括视觉跟踪器(未示出)以跟踪视频对象，并且视频对象连同该视频对象到人40一些其它参考点的相对距离一起可以是视频单元410的输出。在这种情况下，映射点可以与视频对象相关联，并且在将映射点关联到前景视频对象与将映射点关联到视频对象之间可能不一定存在区别，因为在那些实例中可能只有一个视频对象。类似地，将映射点关联到背景视频对象与将映射点关联到视频对象之间不一定存在区别，因为在那些实例中可能只有一个视频对象。在本发明中，本领域技术人员将认识到，即使在示例中使用前景视频对象(或背景视频对象)，但是在某些情况下，视觉单元410也不区分前景和背景视频对象，例如以面部检测器为例，对于某些用例的说明仍然适用于由面部检测器输出的视频对象。在一些实施例中，面部检测器可以被包括在视觉单元410中，或者面部检测器可以在视觉单元410之外。

在一个实施例中，视觉单元410的输出和/或视频解码器475的输出可以耦合至显示单元465。显示单元465可以处理视频解码器475和/或视觉单元410的输出。视频对象的可视化可以由边界框或一些其它标记表示并且可以被叠加或增强到重构的视频信号。因此，从连接到显示单元465的视觉单元410的箭头可以表示已经有由视觉单元410检测出的视频对象的标记或一些其它指示。类似地，从视频解码器475的箭头可以表示可以由显示单元465处理重构的视频信号。该显示单元465的输出可以被发送到人40看到的显示设备100。在图2a和2b中部分地示出了描绘人40可以在显示设备100上看到什么的示例。

显示单元465可以耦合到用户界面单元436。用户界面单元436可以用于实现与本发明中描述的技术相关联的控制逻辑。

在一个实施例中，一个或多个兴趣点与第一音频区域中的视频对象相关联，并且该一个或多个兴趣点与第一音频区域中的音频数据相关联。在相同或替代实施例中，一个或多个兴趣点是与视频对象相关联的视觉关键点。在相同或替代实施例中，视频对象是前景视频对象，或者视频对象是背景视频对象。在相同或替代实施例中，如果视频对象是前景视频对象，则第一区域内的音频数据与前景视频对象相关联。在相同或替代实施例中，该音频数据还与漫射声音相关联。

在一个实施例中，如果视频对象是背景视频对象，则第一区域内的音频数据与背景视频对象相关联，并且该音频数据还与主导声音相关联。

在一个实施例中，AR、VR和/或MR(102、140)设备还可以包括一个或多个扬声器，其被配置为接收扬声器馈送。扬声器馈送可以由扬声器馈送单元460生成。扬声器馈送单元460可以将音频渲染单元458的输出转换成可以驱动一个或多个扬声器470的扬声器馈送。音频渲染单元458被配置为采用音频区域效果单元432的输出456。输出456可以是基于信道的音频、基于对象的音频或基于立体声的音频。扬声器馈送可以基于使用第一音频区域和第二音频区域的音频区域控制单元。一个或多个扬声器470可以被配置为合成扬声器馈送并被配置为播放出第一音频区域或第二音频区域中的音频数据，或者被配置为播放出第一音频区域或第二音频区域中的音频数据。一个或多个扬声器470可以是包括在车辆中的扬声器的一部分。作为替代，一个或多个扬声器470可以是作为AR、VR和/或MR设备102、140的一部分的双耳扬声器。

双耳扬声器可以是耳机，并经由有线连接(诸如标准的3.5毫米音频插孔、通用系统总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过蓝牙连接、无线网络连接等)耦合到AR、VR和/或MR设备。耳机可以基于左和右扬声器馈送重新创建由音频信号表示所表示的声场。耳机可以包括左耳机扬声器和右耳机扬声器，它们由相对应的左和右扬声器馈送供电(或换句话说，驱动)。

从人40到音频区域的距离可以表示为d_{zone_distance(i)}。例如，针对音频区域20C的区域距离被标为62。在从第一设备位置到第二设备位置的该设备的更新后的移动17之后，到音频区域的区域距离可被更新并表示为d_{zone_updated_distance(i)}。d_{zone_distance(i)}与d_{zone_updated_distance(i)}的比率会影响音频区的控制。“第i个”区域的区域控制比率(zcr)为

针对每个音频区域，区域距离与更新后的区域距离的比率(或一些其它比较，例如该比率的分子和分母之差，或分子和分母的对数差)可以用于控制音频区域。该zcr(i)可以在区域控制单元420中计算，或在替代实施例中，可以在区域效果单元432中计算。

在图5A、图5B和图5C中示出了区域效果单元432的不同实施例。音频效果单元432可以允许第一音频区域和第二音频区域的独立控制，即，第一音频区域中的音频数据和第二音频区域中的音频数据可以被彼此独立控制。

音频区域效果单元432可以集成到一个或多个处理器402，并且可以包括调整单元515，其被配置为通过第一音频区域因子525来调整第一音频区域中的音频数据。调整单元515基于设备(102、140)的移动从第一位置到第二位置的变化，通过一个或多个第一音频区域因子525来调整第一音频区域中的音频数据。此外，音频效果单元515被配置为基于设备(102、140)的移动从第一位置到第二位置的变化，通过第二音频区域因子525来调整第二音频区域中的音频数据。

在一个实施例中(见图-5a)，音频区域效果单元432A可以包括独立的响度补偿单元515A，其用作调整单元515，并且可以被配置为随着设备(102、140)从第一位置移动到第二位置，基于用作音频区域因子525的一个或多个音频区域因子525A针对区域(第一音频区域和/或第二音频区域)执行响度补偿。

控制音频区域的示例是响度调整。缩放因子(音频区域强度因子525A)可以乘以zcr(i)以增加效果的强度(例如，响度的强度)。音频区域强度因子525A可以控制效果强度，其可以是由人40输入以控制的效果强度的强度或幅度。音频区域强度因子525A可以由人40来控制(例如，经由具有按钮的用户界面，该按钮基于触摸或语音改变)，或者也可以由内容创建者动态地或静态地指定。

独立响度调整单元515A可以包括响度因子的应用，该响度因子可以是对更新后的移动17不可知的。例如，在音频格式是信道格式时的实施例中，该独立响度调整单元515A可以包括全通滤波器，该全通滤波器使所有音频通过，并且不会影响音频的幅度。在相同或替代实施例中，响度调整单元515A可以是处于通过模式中，其中，向独立响度调整单元515A的输入与独立响度调整单元515A的输出是相同的。

在一个实施例中，当音频格式是对象格式时，与该音频对象相关联的元数据可以包括音频源的位置。在一些实现中，音频源的位置可以是吠叫的狗7A、讲话的女人7B或讲话的男人7C、7D的位置。这些音频源的位置可用于计算到音频区域的距离，可用于更新d_{zone_updated_distance(i)}。

可以将更新后的第一距离指定为d_{zone_updated_distance(1)}，并且可以将更新后的第二距离指定为d_{zone_updated_distance(2)}。与音频格式是声道格式时类似，独立响度调整单元515可以包括全通滤波器，该全通滤波器使所有音频通过，并且不会影响音频的幅度。在相同或替代实施例中，响度调整单元515可以处于通过模式中，其中，向独立响度调整单元515的输入与独立响度调整单元515的输出是相同的。

在一个实施例中，当音频格式是基于场景的格式时，映射点可以被映射到锚点。锚点表示中心位于人40的头部的球体上的空间点。锚点可以被用于立体声域中，诸如较高阶立体声(HOA)或混合阶立体声(MOA)。MOA可以是HOA的子集。对于音频区域，(如下所说明的)使用变量“K”而不是M来在使用球体上所有可用的点与选择地使用区域内的或者可以与一个区域相交的锚点之间进行区分。变量“K”大于或等于(N+1)²，其中N表示与HOA音频数据向关联的最高阶。K个锚点得到从人40的头部延伸到K个空间点中的每一个的K个空间方向，并且可以是均匀间隔的或非均匀间隔的。该K个空间方向可以由下标“k”_k表示。

可以如下将HOA系数或MOA系数与K个空间方向相关联：

其中

符号可以表示伪逆矩阵运算。

符号可以表示由HOA阶O的K个方向矢量S组成的矩阵。

符号可以表示由如

中定义的修改后(平移后和旋转后)的方向矢量组成的矩阵。

与现有技术相反，当音频格式是基于场景的音频格式时，在与距离无关的响度调整中，不一定需要考虑围绕球体所有M个空间方向上的所有锚点。例如，空间方向的数量可以被限制为与音频区域相交的空间方向的数量。例如，可能有多达K个从人40的头部延伸到与音频区域相交的K个等距空间点的空间方向。音频区域的尺寸越大，可能有越多与音频区域相交的空间点。音频区域的尺寸可以基于人40与音频区域的接近度。音频区域的尺寸也可以基于音频区域中音频对象或音频源的数量。作为示例，每个音频区域可以具有与其关联的锚点密度。在图-2a中，有女人7B的音频区域20B具有比有男性7C的音频区域20C更小的兴趣点数量。因此，标记20C的音频区域具有比标记20B的音频区域更大的区域内锚点密度，标记20B的音频区域具有更低的区域内锚点密度。但是，应该注意的是，在音频区域之外可能有一些影响音频区域的控制的兴趣点，因为它们也与该音频区域相交。在这一实施例中，由“x”图示说明的兴趣点可以是锚点，或者可以基于锚点到音频区域的相交而生成。

与每个区域的距离无关的响度调整Azone(l)相关联的锚点总数包括(a)与位于该音频区域中的音频区域相交的锚点，以及(b)还包括跨越人40的头周围的球体的不位于该音频区域中的某些子分区的一些数量的角度的锚点。每个区域的距离无关的响度调整Azone(l)判定中包括的每个音频区域的锚点总数K如下所示：

其中，k＝1..K

音频区域效果单元432可以使用矩阵R(渲染矩阵)、

(初步效果矩阵的一个版本)、每个区域的距离无关响度调整Azone(l)和区域控制率，以补偿更新后的移动17。例如，下面的等式可以用于补偿更新后的移动17：Azone(l)*zcr(l)。

音频效果单元432还可以有互动空间效果的特征，例如，以衰减来自用户通过基于冯·米塞斯分布的M个锚点的方向加权意识到的主视图方向之外的方向的声音；或者“屏蔽或阻挡”来自由用户界面设备(例如，AR、VR和/或MR设备(102、140))确定的特定方向的声音。在这种情况下，额外的加权矢量g_fx可以被添加到Azone(l)的计算。例如，可以使用下面的等式Azone(l)*zcr(l)*g_fx。

矢量g_fx的示例可以是二进制加权矢量[1 0 1 1 0 0 1 0]。其它二进制加权矢量是可能的。示例二进制加权矢量中的零使来自被屏蔽或阻挡的那些音频区域的任何贡献都无效。该示例二进制加权矢量中的一允许该声场中的音频数据被通过，并且可以在音频效果单元(例如，响度调整单元)中实现放大。

另外，矢量g_fx的另一个示例可以是非二进制加权矢量。例如，对于M＝3，原始声场可以具有由[(1-.5)，(1-.1)，(1-.9)]加权的锚点。在另一个示例中，该矢量可以是[0.50.1 0.9]。

为了在音频格式是基于场景的音频格式时考虑控制不同的音频区域，可以在HOA合成和渲染之前应用效果矩阵。也就是说，合成单元450接收音频区域效果单元432的输出，该输出可以包括距离无关的响度调整。合成单元450可以组合来自不同层的基于场景的格式的音频数据。例如，可能有前景和背景层，每个层可以包括至少一个音频区域，并且合成单元450可以组合这些音频区域。该组合，例如可以基于在背景层和前景层中的每个区域内添加立体声数据。

在第二实施例中(见图5b)，音频区域效果单元432B可以包括用作调整单元515的定向/平移调整单元515AB，并且可以被配置为随着设备(102、140)从第一位置移动到第二位置，基于用作音频区域因子525的一个或多个音频定向区域因子和/或平移因子525B，针对区域(第一音频区域和/或第二音频区域)执行定向和/或平移调整。控制音频区域是定向调整的一个示例是包括狗7A的音频区域20A可以被旋转，即，表示狗吠的音频数据可以在朝向或从人40远离的方向上旋转。控制音频区域是平移调整的另一个示例是包括狗7A的音频区域20A可以被平移，即，表示狗吠的音频数据可以在向上、向下、向前、向后或向用户的任何一侧的方向上平移。

在第三实施例中(见图5c)，音频区域效果单元432C可以包括动态范围压缩单元515C，其用作调整单元515，并且可以被配置为随着设备(102、140)从第一位置移动到第二位置，基于用作音频区域因子525的一个或多个音频区域动态范围因子525C针对一个区域(第一音频区域和/或第二音频区域)执行动态范围压缩(drc)。针对一个区域的动态范围压缩可以限制音频区域中的声音，并且可以理想地增加渲染时声场的整体增益。

如前所述，在一个实施例中，第一音频区域和第二音频区域可以位于分层声场中，其中第一音频区域是在声场的第一层中，并且该声场的第一层是前景声场。第二音频区域可以是在声场的第二层中，并且是背景声场。在一个实施例中，第二音频区域中的音频数据被配置为基于环境参考距离被调整，并且第一音频区域中的音频数据被配置为基于前景参考距离被调整。

在相同或替代实施例中，第一音频区域被配置为从分层声场的第一层过渡到该分层声场的第二层。在相同或替代实施例中，第一音频区域被配置为从分层声场的第一层过渡到分层声场的第二层，并且第一音频区域中的音频数据被配置为基于环境参考距离用调整单元来调整，并且第二音频区域中的音频数据被配置为基于环境参考距离用调整单元来调整。

在相同或替代实施例中，第一音频区域被配置为从分层声场的第一层过渡到分层声场的第二层。在相同或替代实施例中，第一音频区域被配置为从分层声场的第一层过渡到分层声场的第二层，并且第一音频区域中的音频数据被配置为基于前景参考距离用调整单元来调整，第二音频区域中的音频数据被配置为基于前景参考距离用调整单元来调整。

图6是示出音频区域控制单元620的一个实施例的框图。音频区域控制单元620可以包括映射点关联器单元625，其可以将音频源或视频对象与映射点相关联。映射点关联器块单元625包括第一映射点关联器单元625A，其可以将映射点关联到环境声音参考位置。该环境声音参考位置包括环境声音参考的位置或距离。可以有若干个与环境声音参考和声音参考位置相关联的映射点。针对本质上可以漫射的环境声音，映射点可能会更分散。由于映射点可以表示的环境源和/或环境声音参考位置附近的声场的样本，因此映射点关联器单元625A的输出可以采取映射点的子集，并生成音频兴趣点。在一个实施例中，在映射点较少的情况下，围绕环境源和/或环境声音参考位置的映射点全集合可以生成兴趣点。取决于环境声音的漫射性和强度，映射点与兴趣点的密度可能有所不同，其中兴趣点比映射点更少。在一些情况下，可能有映射点是音频兴趣点的环境声音和/或环境位置。通过将映射点与环境源和/或环境声音参考位置的关联而生成的音频兴趣点的集合可以形成音频区域。映射点关联器单元625A的输出可以是音频兴趣点、音频背景声音(可以是环境声音，或者如果环境源不是整体在音频区域之内则环境声音在该音频区域之内的部分)(在这一示例中将被视为音频数据)，音频区域(可以连同音频数据一起包括高度、宽度和深度)以及音频区域相对于人40或空间中的一些其它固定点的位置。可以以多种方式来确定音频区域的位置，并且可以以多种方式(例如，音频区域的一角、音频区域的中心、声场的质心、声音强度和扩散性的加权组合之一)来选择可以用于确定该位置的音频区域中的一个或多个点。

在相同或替代实施例中，映射点关联器块单元625包括第二映射点关联器单元625B，其可以将映射点关联到音频源位置。可能有若干个与音频源位置相关联的映射点。由于映射点可以表示音频源和/或音频源位置附近的声场的样本，因此映射点关联器单元625B的输出可以采用映射点的子集，并且生成音频兴趣点。在一个实施例中，在映射点较少的情况下，音频源和/或音频源位置周围的映射点全集合可以生成兴趣点。取决于音频源的强度，兴趣点可能比映射点更多或更少。在一些情况下，可能有映射点是音频兴趣点的音频源和/或源位置。通过将映射点与音频源和/或音频位置的关联而生成的音频兴趣点的集合可以形成音频区域。映射点关联器单元625B的输出可以是音频兴趣点、音频前景声音(可以是声源，或者如果声源不是完全处于该音频区域中则该声源在该音频区域之内的部分)(在这一示例中将被视为音频数据)、音频区域(可以连同音频数据一起包括高度、宽度和深度)以及音频区域相对于人40或空间中的一些其它固定点的位置。可以以多种方式来确定音频区域的位置，并且可以以多种方式(例如，音频区域的一角、音频区域的中心、声场的质心、声音强度的加权组合之一)来选择可以用于确定该位置的音频区域中的一个或多个点。

在相同或替代实施例中，音频区域控制单元620可以包括第一映射点视频对象关联器635A。映射点视频对象关联器635A可以将映射点关联到视频对象前景和视频对象前景距离。映射点可以是像素。尽管像素可以在视频对象内均匀地间隔开，但是到像素的映射可以均匀地间隔开或不均匀地间隔开。音频区域中被映射到视频对象的映射点不一定是到主导声音(即前景声音)或环境声音(即背景声音)的映射。音频区域中的映射点也可以被映射到视频对象前景距离。视频对象的前景距离可以包括使用视频对象的质心、视频对象的形心或某个固定点。在一个实施例中，映射点视频对象关联器635A和映射点音频关联器625B之间可以存在连接。该连接可以包括总线或信令机制，通过该总线或信令机制来协调或同步视频对象与适当的音频源的关联。

在相同或替代实施例中，音频区域控制单元620可以包括第二映射点的视频对象关联器635B。映射点视频对象关联器635B可以将映射点关联到视频对象背景和视频对象背景距离。映射点也可以是像素。尽管像素可以在视频对象内均匀地间隔开，但是到像素的映射可以均匀地间隔开或不均匀地间隔开。音频区域中映射到视频对象的映射点可能不一定是到主导声音或环境声音的映射。该音频区域中的映射点也可以映射到视频对象背景距离。视频对象的背景距离可以包括使用视频对象的质心，视频对象的形心或某个固定点。

在一个实施例中，可以发生视频对象(如果存在)与相对应的音频区域中的音频数据的关联。例如，如果在第一区域内的音频数据与前景视频对象相关联，并且如果该视频对象是前景视频对象，则音频数据也可以与漫射声音或主导声音相关联。除了其它因素，取决于声音(狗7A或不与女人7B讲话的男人7D的声音)到设备400的人40的相对距离，音频数据可以被确定为漫射声音(或环境声音)或主导声音。

在相同或替代实施例中，映射点视频对象关联器635B和第一映射点音频关联器625A之间，或者另一个映射点视频对象关联器635A(如果存在)和第二映射点音频关联器625B之间可以存在连接。该连接可以包括总线或信令机制，通过该总线或信令机制来协调或同步适当的视频对象与适当的音频源的关联。

音频区域控制单元620可以包括感兴趣音频区域确定器650。为清楚起见，在附图中以及贯穿本发明的一些实例中，术语区域可以包括音频兴趣点，还包括音频区域的尺寸。作为一个示例，图-6、图-7a和图-7b将“区域”图示说明为向感兴趣音频区域确定器的输入。使用术语区域一词来代替写“区域的空间尺寸”和分别写“区域内的兴趣点”。

在一个实施例中，分层声场更新器660被集成到一个或多个处理器402中。分层声场更新器660被配置为接收更新后的移动，并且其中，更新后的距离包括第三距离或者第四距离，或者第三距离和第四距离二者。第三距离可以与音频区域和第一设备位置之间的第一距离62相同。第三距离也可以是音频区域中的视频对象与第一设备位置之间的距离。在一个实施例中，第三距离可以是音频源(主导或环境)位置和视频对象与音频区域和第一设备位置的某种组合。

在相同或替代实施例中，分层声场更新器660的第四距离可以与音频区域和第二设备位置之间的第二距离相同。第四距离也可以是音频区域中的视频对象与第二设备位置之间的距离。在一个实施例中，第四距离可以是音频源(主导或环境)位置和视频对象与音频区域和第二设备位置的某种组合。

感兴趣音频区域确定器650还可以可选地包括音频区域调度器670。在一个实施例中，音频区域调度器670可以仅串行地传递一个音频区域，以供音频区域跟踪器680跟踪。在不同的实施例中，音频区域调度器670可以并行地传递多个音频区域，以供音频区域跟踪器680跟踪。

图7a和图7b示出了音频区域控制单元的其它实施例。在图7a中，框图示出了音频区域控制单元750A中的分层声场更新器760A的实施例。分层声场更新器760A可以基于更新后的距离来更新分层声场确定器764A。分层声场确定器764A的输出可以被发送到向分层声场的视频对象更新器768A。更新后的距离可以允许分层声场确定器764A确定音频区域何时从一个分层声场过渡到另一个。例如，音频区域可能最初已经在背景声场中，然后在设备从第一位置移动到第二位置之后，该音频区域变成了在前景声场中。类似地，该音频区域可能最初已经在前景声场中，然后在设备从第一位置移动到第二位置之后，该音频区域变成了在背景声场中。

在图7a中，音频区域跟踪器780的一个实施例包括比较器782，其被配置为将兴趣点的距离(或位置)与更新后的移动进行比较。比较器782可以耦合到调整器784，所述调整器784被配置为通过每一音频区域的更新后移动或更新后距离来调整声场的平移和/或定向。音频区域跟踪器780的音频区域控制单元输出可以包括基于更新后的移动并且被调整为基于更新后的移动或更新后的距离来考虑声场的平移和/或定向的音频数据。图-7b是图-7a的一个替代实施例，除了分层声场更新器760B不将更新后的距离用于音频区域控制单元750B。因此，在音频区域控制单元750A的前述实施例中，分层声场更新器750A输出已经考虑了更新后的移动的音频区域，并且相应地，比较器被配置为在已经从一个分层声场过渡(如果有过渡的话)到另一个的音频区域上操作。在音频区域控制单元750B中，比较器782被配置为在基于音频区域从声场的一层过渡到另一层之前的先前分层声场的音频区域上，或在相同的分层声场中但是不同位置处操作。对于每个实施例，音频区域控制单元的输出结果应当对人40产生相同的可感知结果。

图8是示出根据本发明的各个方面可以执行的示例过程的流程图。设备(102、140)或移动设备(例如手机)或车辆(其中车辆可以被视为可以位于不同设备位置(即第一设备位置和移动到第二设备位置)的AR、MR和/或VR设备)可以包括一个或多个处理器，可以接收交互命令来控制分层声场819中的第一音频区域或第二音频区域中的音频数据。另外，该一个或多个处理器可以生成一个或多个指示符，该指示符表示已接收到控制分层声场821中的第一音频区域或第二音频区域中的音频数据的交互命令。

应当认识到，取决于示例，本发明中描述的任何技术的某些动作或事件可以以不同的顺序执行，可以被添加、合并或完全省略(例如，并非所有描述的动作或事件是实施该技术所必需的)。此外，在某些示例中，动作或事件可以例如通过多线程处理、中断处理或多个处理器并发地而不是顺序地执行。

在一些示例中，VR设备(或流媒体设备)可以使用耦合到VR/流媒体设备的存储器的网络接口通信，以将消息交换到外部设备，其中该交换消息与多个可用的声场的表示相关联。在一些实施例中，VR设备可以使用耦合到网络接口的天线接收无线信号，包括数据包、音频包、视频包或与多个可用的声场的表示相关联的传输协议数据。在一些示例中，一个或多个麦克风阵列可以捕捉该声场。

在一些示例中，该多个可用的声场的表示的一个或多个声场表示可以包括至少一个高分辨率区域和至少一个较低分辨率区域，并且其中，基于转向角度所选择的展示相对于至少一个高分辨率区域提供较高的空间精度，并且相对于较低分辨率区域提供较小的空间精度。

在一个或多个示例中，可以以硬件、软件、固件或其任何组合来实现所描述的功能。如果以软件实现，则功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输，并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质的有形介质，或者通信介质，包括例如根据通信协议来促进将计算机程序从一个地方转移到另一个地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质，或者(2)诸如信号或载波的通信介质。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以检索指令、代码和/或数据结构以实现本发明中描述的技术的任何可用介质。计算机程序产品可以包括计算机可读介质。

作为示例而非限制，这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储设备、闪存或任何其它可以用于以指令或数据结构形式存储所需程序代码并且可以由计算机访问的其它介质。而且，任何连接都适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或无线技术(诸如红外、无线电和微波)从网站、服务器或其它远程源发送指令，则介质的定义包括同轴电缆、光纤电缆、双绞线、DSL或诸如红外、无线电和微波的无线技术。然而，应当理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质，而是针对非暂时的有形存储介质。本发明中使用的磁盘和光盘包括光盘(CD)、激光光盘、光学盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘则通过激光光学方式再现数据。上述的组合也应包括在计算机可读介质的范围内。

指令可以由一个或多个处理器执行，诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效的集成或分立逻辑电路。因此，如本发明中所使用的术语“处理器”可以是指任何前述结构或适合于实现本发明中描述的技术的任何其它结构。另外，在一些方面，本发明中描述的功能可以在被配置用于编码和解码或结合在组合编解码器中的专用硬件和/或软件模块内提供。同样，该技术可以在一个或多个电路或逻辑元件中完全实现。

本公开的技术可以在包括无线手机、集成电路(IC)或一组IC(例如，芯片组)的多种设备或装置中实现。在本发明中描述各种组件、模块或单元以强调被配置为执行所公开的技术的设备的功能方面，但不一定需要由不同硬件单元来实现。而是，如上所述，各种单元可以组合在编解码器硬件单元中，或者由互操作硬件单元的集合来提供，包括与适用的软件和/或固件结合的如上所述的一个或多个处理器。

已经描述了各种示例。这些和其它示例在下面所附权利要求的范围内。

Claims

1.一种设备，包括：

存储器，被配置为将音频数据存储在分层声场中的第一音频区域或第二音频区域中；

一个或多个处理器，耦合到所述存储器，并且被配置为：

接收交互命令以控制所述分层声场中的所述第一音频区域或所述第二音频区域中的所述音频数据；以及

生成接收到所述交互命令以控制所述分层声场的所述第一音频区域或所述第二音频区域中的所述音频数据的一个或多个指示符。

2.根据权利要求1所述的设备，还包括显示设备，所述显示设备被配置为可视化所述第一音频区域或所述第二音频区域的至少一个音频区域中包括的一个或多个视频对象。

3.根据权利要求1所述的设备，还包括显示设备，所述显示设备被配置为可视化所述分层声场中的所述第一音频区域或所述第二音频区域。

4.根据权利要求1所述的设备，还包括显示设备，所述显示设备被配置为可视化所述分层声场的两个或更多个兴趣点。

5.根据权利要求1所述的设备，还包括显示设备，所述显示设备被配置为可视化所述分层声场，其中，所述显示设备显示接收到所述交互命令的所述一个或多个指示符。

6.根据权利要求1所述的设备，其中，所述第一音频区域和所述第二音频区域的所述控制包括所述第一音频区域中的所述音频数据的放大、或者所述第二音频区域中的所述音频数据的放大、或者所述第一音频区域和所述第二音频区域中的所述音频数据的放大。

7.根据权利要求6所述的设备，还包括显示设备，所述显示设备被配置为可视化所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者内的所述音频数据的放大或衰减的表示。

8.根据权利要求7所述的设备，其中，所述可视化所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中的所述音频数据的放大或衰减的表示是基于所述显示设备的屏幕的照度的改变的。

9.根据权利要求8所述的设备，其中，所述显示设备的所述屏幕的所述照度改变颜色，并且不同颜色表示所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中的所述音频数据的不同放大级别。

10.根据权利要求8所述的设备，其中，所述显示设备的所述屏幕的所述照度改变颜色，并且不同颜色表示所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中的所述音频数据的不同衰减级别。

11.根据权利要求1所述的设备，其中，所述第一音频区域和所述第二音频区域的所述控制包括所述第一音频区域中的所述音频数据的衰减、或者所述第二音频区域中的所述音频数据的衰减、或者所述第一音频区域和所述第二音频区域中的所述音频数据的衰减。

12.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为跟踪所述第一音频区域以与所述设备从第一设备位置到第二设备位置的移动成比例地移动，其中，所述第二音频区域在所述设备从所述第一设备位置移动到所述第二设备位置之前相对于所述第二音频区域保持静态。

13.根据权利要求12所述的设备，还包括显示设备，所述显示设备被配置为可视化所述第一音频区域的表示，其中，所述第二音频区域在所述设备从所述第一设备位置移动到所述第二设备位置之前相对于所述第二音频区域保持静态。

14.根据权利要求1所述的设备，还包括显示设备，所述显示设备被配置为针对用于控制所述分层声场中的音频数据的所述交互命令可视化外部对象。

15.根据权利要求14所述的设备，其中，所述外部对象是至少手部、手指或指针的表示。

16.一种方法，包括：

接收交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据；以及

生成接收到所述交互命令以控制所述分层声场中的所述第一音频区域或所述第二音频区域中的所述音频数据的一个或多个指示符。

17.根据权利要求16所述的方法，还包括可视化所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中包括的一个或多个视频对象。

18.根据权利要求16所述的方法，还包括可视化所述分层声场中的所述第一音频区域或所述第二音频区域，其中，所述可视化包括接收到所述交互的所述一个或多个指示符。

19.根据权利要求16所述的方法，还包括可视化所述分层声场的两个或更多个兴趣点。

20.根据权利要求16所述的方法，还包括可视化所述分层声场。

21.根据权利要求16所述的方法，还包括基于所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中的所述音频数据的放大或衰减，控制所述第一音频区域和所述第二音频区域。

22.根据权利要求16所述的方法，还包括可视化所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中的所述音频数据的放大或衰减的表示。

23.根据权利要求22所述的方法，还包括其中，所述可视化所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中的所述音频数据的放大或衰减的所述表示是基于显示设备的屏幕的照度的改变的。

24.根据权利要求23所述的方法，其中，所述显示设备的所述屏幕的所述照度改变颜色，并且不同颜色表示所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中的所述音频数据的不同放大级别。

25.根据权利要求24所述的方法，其中，所述显示设备的所述屏幕的所述照度改变颜色，并且不同颜色表示所述第一音频区域、或者所述第二音频区域、或者所述第一音频区域和所述第二音频区域二者中的所述音频数据的不同衰减级别。

26.根据权利要求16所述的方法，还包括与设备从第一设备位置到第二设备位置的移动成比例地移动所述第一音频区域，其中，所述第二音频区域在所述设备从所述第一设备位置移动到所述第二设备位置之前相对于所述第二音频区域保持静态。

27.根据权利要求16所述的方法，还包括针对用于控制所述分层声场中的音频数据的所述交互命令可视化外部对象。

28.一种装置，包括：

用于接收交互命令以控制分层声场中的第一音频区域或第二音频区域中的音频数据的部件；以及

用于生成接收到所述交互命令以控制所述分层声场中的所述第一音频区域或所述第二音频区域中的所述音频数据的一个或多个指示符的部件。