CN111615834B

CN111615834B - 用于虚拟化的音频的甜蜜点适配的方法、系统和装置

Info

Publication number: CN111615834B
Application number: CN201880070313.0A
Authority: CN
Inventors: 石光霁; V·I·乌尔萨基; D·诺; T·G·卡兹安诺斯; A·考克; P·比基欧; J-M·卓特
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2017-09-01
Filing date: 2018-08-31
Publication date: 2022-08-09
Anticipated expiration: 2038-08-31
Also published as: KR20200063151A; US20190075418A1; EP3677054A4; US10728683B2; US20200322747A1; WO2019046706A1; JP2020532914A; EP3677054A1; CN111615834A

Abstract

本文讨论的系统和方法能够提供具有甜蜜点适配的三维音频虚拟化。在示例中，音频处理器电路能够被用于基于来自至少一个深度传感器或相机的关于收听环境中的收听者位置的信息来更新音频信号以进行甜蜜点适配。

Description

用于虚拟化的音频的甜蜜点适配的方法、系统和装置

优先权要求

本专利申请要求于2017年9月1日提交的美国临时专利申请No.62/553,453的优先权权益，该申请通过引用整体并入本文。

技术领域

本申请涉及用于虚拟化的音频的甜蜜点适配的方法、系统和装置。

背景技术

音频在消费电子产品中提供内容丰富的多媒体体验方面发挥着重要作用。消费电子设备的可扩展性和移动性与无线连接性的增长一起为用户提供了对内容的即时访问。各种音频再现系统可以用于通过耳机或扬声器回放。在一些示例中，音频节目内容可以包括多于一对立体声音频信号，诸如包括环绕声或其它多声道配置。

常规的音频再现系统可以从各种音频或音频/视频源(诸如CD播放器、电视调谐器、手持媒体播放器等)接收数字或模拟音频源信号信息。音频再现系统可以包括专用于广播音频和/或视频信号的选择、处理和路由的家庭影院接收器或汽车音频系统。音频输出信号可以被处理和输出，以通过扬声器系统回放。这样的输出信号可以是发送到耳机或一对前置扬声器的双声道信号，或者是用于环绕声回放的多声道信号。对于环绕声回放，音频再现系统可以包括多声道解码器。

音频再现系统还可以包括处理装备，诸如用于连接模拟音频源的模数转换器或者数字音频输入接口。音频再现系统可以包括用于处理音频信号的数字信号处理器，以及用于将经处理的输出信号转换成发送到换能器的电信号的数模转换器和信号放大器。可以按照由各种应用确定的各种配置来布置扬声器。扬声器例如可以是独立的单元，或者可以结合在设备中，诸如在消费电子产品(诸如电视机、膝上型计算机、手持式立体声设备等)的情况下。由于技术和物理约束，音频回放在此类设备中可能受到损害或限制。这样的限制在具有物理约束的电子设备(其中扬声器之间的距离窄，诸如在膝上型电脑和其它紧凑型移动设备中)中尤其明显。为了解决这样的音频约束，使用各种音频处理方法来通过一对耳机或一对扬声器再现双声道或多声道音频信号。这样的方法包括引人注目的空间增强效果，以改善收听者的体验。

已经提出了各种技术来实现基于头部相关传递函数(HRTF)滤波的音频信号处理，诸如用于使用耳机或扬声器进行三维音频再现。在一些示例中，这些技术用于再现诸如可以相对于收听者位于水平平面内或相对于收听者位于较高位置的虚拟扬声器。为了减少在基于扬声器的系统中远离“甜蜜点(sweet spot)”的收听者位置的水平定位伪像，可以应用各种滤波器将该影响限制到较低的频率。

可以至少部分地使用音频虚拟化器来执行音频信号处理。音频虚拟化器可以包括使用至少两个扬声器为收听者提供三维(3D)音频收听体验的系统或系统的一部分。但是，这种虚拟化的3D音频收听体验可以被限制在播放环境中的相对较小的区域或特定区域(通常被称为甜蜜点，其中3D效果对收听者的影响最大)。换句话说，一般而言，扬声器上的3D音频虚拟化对于位于甜蜜点的收听者最有吸引力。当收听者在甜蜜点之外时，收听者体验到声源定位不准确和音频信号不自然着色的问题。因此，对于甜蜜点之外的收听者来说，3D音频听觉体验会受到损害或降级。

发明内容

本发明人已经认识到要解决的问题包括确定收听环境中的收听者位置以及基于该收听者位置来调整音频信号处理。该问题的解决方案可以包括或使用来自相机的图像信息以帮助确定收听环境中的收听者位置。解决方案还可以包括确定从扬声器到收听者位置的距离，以及基于所确定的距离来选择要应用于一个或多个输入音频信号的一个或多个传递函数或滤波器。在示例中，解决方案包括分开执行音频虚拟化和甜蜜点适配处理。例如，音频虚拟化处理可以包括使用一个或多个头部相关传递函数滤波器来处理输入音频信号以产生虚拟化的音频信号，并且甜蜜点适配可以包括向一个或多个虚拟化的音频信号应用增益和/或延迟。在示例中，解决方案可以包括确定收听者的头部朝向(例如，头部偏航、头部俯仰或头部侧倾)并调整一个或多个滤波器或甜蜜点适配器参数以适应收听者的耳朵在环境中的位置。

本发明人已经认识到要解决的问题包括确定收听环境中的收听者位置，包括确定从扬声器到收听者位置的距离。该问题的解决方案可以包括或使用来自深度传感器或来自相机的关于收听者面部宽度的信息。在示例中，解决方案可以包括校正相机的透镜曲率对于测得的收听者面部宽度的影响。在示例中，解决方案可以包括在确定收听者与相机或传感器的实际距离时校正收听者的头部朝向。

本文讨论的系统和方法的示例可以包括或使用至少一个传感器(诸如相机)来实时地跟踪收听者的位置。实时的收听者位置信息可以被用于连续地更新或调整音频虚拟化或甜蜜点适配器电路的参数。在一些示例中，系统和方法可以被配置为改变收听环境中的甜蜜点位置，以适应在环境中移动的收听者。

本文讨论的系统和方法的示例可以被用于基于收听者的头部或面部的尺寸和位置、收听者的眼睛的位置或这两者来估计收听者的位置。在一些示例中，收听者位置信息包括方位角和到图像源或相机的距离。在一些示例中，收听者位置信息还包括朝向信息，诸如仰角、头部偏航、头部俯仰和/或头部侧倾角。在一些示例中，对收听者位置信息进行滤波或平滑以减少信号处理波动。本文讨论的系统和方法的各种示例可以与电视、条形音箱、膝上型计算机、平板电脑、台式计算机和移动电话以及其它设备和媒体再现系统一起应用。

在一些示例中，单个相机被用于检测收听者的位置，并且作为响应，调整音频信号处理以改变用于再现的音频的甜蜜点位置。在一些示例中，基于收听者的面部的尺寸和/或位置、眼睛的位置或此类技术的组合来估计收听者的位置。在一些示例中，甜蜜点适配器电路可以被配置为使用其它相机和扬声器配置进行操作。其它示例可以被配置为通过用户界面(UI)向收听者提供关于甜蜜点适配器电路的状态的反馈。

上面提到的特征或示例提供了几个优点。例如，一个优点是系统和方法的实施例对于用户或收听者可以是直观的并且使用最少的用户输入。而且，对于已经具有内置相机和两个扬声器的系统(诸如膝上型计算机、平板电脑、多合一计算机或带有内置相机的TV)，不会有附加的硬件成本。系统和方法的示例可以与各种类型的深度传感器或相机(例如，静止相机、视频相机、IR相机等)或其它通知收听者位置的传感器以及扬声器配置一起工作。

应当注意的是，替代实施例是可能的，并且取决于特定实施例，本文讨论的步骤和要素可以被改变、添加或消除。这些替代实施例包括在不脱离本发明范围的情况下可以使用的替代步骤和替代要素以及可以进行的结构改变。

本概述旨在提供本专利申请的主题的概述。并不旨在提供本发明的排他性或详尽的解释。为了提供关于本专利申请的更多信息，包括了具体实施方式。

附图说明

在不一定按比例绘制的附图中，相同的标号可以在不同的视图中描述相似的部件。具有不同字母后缀的相同标号可以表示相似部件的不同实例。附图通过示例而非限制的方式一般地图示了本文档中讨论的各种实施例。

图1一般地图示了收听者在收听环境中的甜蜜点中的示例。

图2一般地图示了收听者在收听环境中的甜蜜点之外的示例。

图3一般地图示了具有被配置为监视收听者的位置的相机的收听环境的示例。

图4一般地图示了具有条形音箱和相机的收听环境的示例。

图5A一般地图示了包括虚拟化器电路和甜蜜点适配器电路的第一系统的框图的示例。

图5B一般地图示了包括虚拟化器电路和甜蜜点适配器电路的第二系统的框图的示例。

图6一般地图示了包括适配虚拟化器电路的第三系统的框图的示例。

图7一般地图示了使用HRTF的三维声源的双耳合成的示例。

图8一般地图示了使用串扰消除器的三维声音虚拟化的示例。

图9一般地图示了包括估计收听者在相机的视场中的位置的方法的示例。

图10一般地图示了在相机捕获的图像上收听者面部相对于其投影的位置的示例。

图11一般地图示了确定图像坐标的示例。

图12一般地图示了确定收听者在相机的视场中的坐标的示例。

图13一般地图示了膝上型计算机的相机与扬声器之间的关系的示例。

图14一般地图示了示出能够从机器可读介质读取指令并执行本文讨论的方法中的任何一个或多个的机器的部件的框图。

具体实施方式

在以下包括用于执行音频信号虚拟化处理(诸如用于使用来自相机的关于环境中的收听者地点(location)、位置(position)和朝向的信息在环境中提供收听者甜蜜点适配)的系统、方法、装置和设备的示例的描述中，参考构成具体实施方式的一部分的附图。附图以图示的方式示出了可以实践本文公开的发明的具体实施例。这些实施例在本文中一般被称为“示例”。这样的示例可以包括除了所示出或描述的那些要素之外的要素。但是，本发明人还设想仅提供所示出或描述的那些要素的示例。本发明人设想了使用关于本文所示出或描述的特定示例(或其一个或多个方面)或者关于其它示例(或其一个或多个方面)所示出或描述的那些要素(或其一个或多个方面)的任意组合或置换的示例。

如本文所使用的，短语“音频信号”是表示物理声音的信号。本文描述的音频处理系统和方法可以包括被配置为使用各种滤波器来使用或处理音频信号的硬件电路系统和/或软件。在一些示例中，系统和方法可以使用来自多个音频声道的信号或与多个音频声道对应的信号。在示例中，音频信号可以包括数字信号，该数字信号包括与多个音频声道对应的信息。

各种音频处理系统和方法可以用于在各种扬声器配置上再现双声道或多声道音频信号。例如，可以通过耳机、通过一对书架式扬声器或者通过环绕声或沉浸式音频系统来再现音频信号，诸如使用相对于收听者位于环境中的各个位置的扬声器。一些示例可以包括或使用引人注目的空间增强效果以增强收听体验，诸如在物理扬声器的数量或朝向受到限制的时候。

在通过引用整体并入本文的授予Walsh等人的标题为“Virtual AudioProcessing for Loudspeaker or Headphone Playback”的美国专利No.8,000,485中，可以利用虚拟化器处理器电路来处理音频信号，以创建虚拟化的信号和经修改的立体声图像。作为'485专利中的技术的补充或替代，本发明人已经认识到，虚拟化处理可以被用于为在特定收听者的位置特定收听者定制声音再现。即，本文讨论的虚拟化处理可以被用于提供其中三维音频被收听者最有效地接收的“甜蜜点”。

在示例中，诸如可以从头部相关传递函数中得出的相对虚拟化滤波器可以被应用，以将收听者感知到的3D音频信息渲染为包括在各种指定高度或海拔处、在收听者之上或之下的声音信息，以进一步增强聆收听者的体验。在示例中，使用在水平平面中提供的扬声器来再现这样的虚拟音频信息，并且虚拟音频信息被感知为源自相对于水平平面升高的扬声器或其它源，诸如即使在没有物理或真实扬声器存在于感知到的始发位置的情况下。在示例中，虚拟音频信息提供从水平平面中的音频信息延伸并可选地包括水平平面中的音频信息的声音提升的印象或听觉错觉。类似地，可以应用虚拟化滤波器，以将收听者感知到的虚拟音频信息渲染为包括在水平平面内或水平平面之间的各种位置处的声音信息，诸如在声场中与扬声器的物理位置不对应的位置处。当收听者在收听环境中移动时，收听者感知到的虚拟音频信息可以跟随收听者，诸如通过响应于来自相机的关于收听者在环境中的位置的信息来改变甜蜜点。

本文讨论的系统和方法的示例可以使用来自至少一个相机的信息来实时获得关于收听者的位置的信息或收听者的位置的估计。该系统和方法可以使用收听者位置信息来调整音频输出，以使收听者可以在收听者的位置(该位置可以在环境中的默认甜蜜点之外)处享受3D音频收听体验。默认甜蜜点可以是环境中当应用默认的虚拟化处理或不应用增强的或其它虚拟化处理时将是甜蜜点的位置。

本文讨论的系统的示例可以包括或使用音频虚拟化器电路。音频虚拟化器电路可以包括双耳合成器和串扰消除器。系统还可以包括基于相机的收听者位置估计模块，收听者位置估计模块接收关于环境的视觉或光学信息并诸如通过检测和分析一个或多个面部特征及其位置来确定或计算收听者的空间位置。在示例中，系统还可以包括被配置为基于所确定的收听者的空间位置来增强收听者的收听体验的甜蜜点适配器电路。

在示例中，诸如可以使用音频处理器电路或音频虚拟化器电路执行的音频输入信号的音频虚拟化处理可以渲染可使用两个或更多个扬声器再现的输出信号，以向收听者提供3D音频体验。在包括两个或更多个扬声器的环境中，一般将3D音频体验限制到环境中较小的区块或区域。被称为甜蜜点的该较小的区块或区域表示3D音频体验最显著并且对于为收听者提供多维的听觉体验来说最有效的位置。当收听者远离甜蜜点时，听觉体验降级，这会导致3D空间中的声源的定位不准确。此外，不自然的信号着色会发生，或者会被甜蜜点之外的收听者感知到。

图1一般地图示了在收听环境101中的第一甜蜜点110中的收听者150的示例100。在图1的示例中，收听环境101包括通常为矩形的房间。虽然收听环境101是以二维方式描绘的，但是应该理解为包括可被收听者150和一个或多个声音再现设备等占据的三维环境。

收听环境101包括电视机102。电视机102包括一对左、右扬声器105A和105B。虽然这对扬声器105A和105B被示为与电视机102集成在一起，但是这对扬声器105A和105B可以是在电视机102外部提供的扬声器，并且可选地可以由除电视机以外的源驱动。这对扬声器105A和105B被定向为将声音从电视机102的正面朝着收听环境101中收听者150最可能位于的区块投射。

图1的示例一般地图示了第一甜蜜点110的示例，并且第一甜蜜点110表示在收听环境101中(诸如使用一对扬声器105A和105B再现的声音中所包括的)3D音频效果被收听者150准确地感知到的物理位置。虽然在图1中第一甜蜜点110被示为二维区域，但是可以将第一甜蜜点110理解为在收听环境101中包括三维体积。在图1的示例中，收听者150位于第一甜蜜点110处。即，收听者150的头部或耳朵位于第一甜蜜点110处或之中。

在示例中，一对扬声器105A和105B从音频信号处理器接收信号，该音频信号处理器包括或使用虚拟化器电路以从一个或多个输入信号生成虚拟化的或3D音频信号。音频信号处理器可以使用一个或多个HRTF滤波器、延迟滤波器、频率滤波器或其它音频滤波器来生成虚拟化的音频信号。

图2一般地图示了收听者150在收听环境101中的第一甜蜜点110之外的示例200。在示例200中，收听者150定位到第一甜蜜点110的右侧。由于收听者150位于第一甜蜜点110的外部，因此收听者150可以体验或感知不太理想的音频源定位。在一些示例中，收听者150会经历意外的或破坏性的着色、相位调整或其它声音伪像，其可能有害于收听者150使用一对扬声器105A和105B再现的音频节目的体验。在示例中，本文讨论的系统和方法可以被用于处理使用一对扬声器105A和105B再现的音频信号，以将第一甜蜜点110移动到与收听者150在收听环境101中的改变后的或实际的位置一致的第二位置。

图3一般地图示了具有被配置为监视收听者150的位置的相机301的收听环境101的示例300。相机301可以包括被配置为捕捉关于收听环境101的静止或移动图像或其它光学或视觉信息的相机。在示例中，相机301被配置为接收或感测可见光谱之外的信息，诸如包括红外或可被用于检测(诸如属于收听者150的)身体在收听环境101中的存在或不存在的其它频带。

虽然本文一般地将相机和视觉信息讨论为关于收听者150的位置信息的优选源，但是可以类似地使用其它传感器或设备。例如但不限于，来自麦克风阵列、(一个或多个)超声传感器、(一个或多个)加速度计、(一个或多个)重量传感器或被配置为检测环境中的收听者身体位置或收听者身体朝向的其它传感器的信息可以作为相机301的补充或替代地用于提供关于收听者150的位置信息。在示例中，深度传感器可以被用于检测收听者身体位置或收听者身体朝向。深度传感器可以包括激光器、经调制的光源或相机阵列等。

在示例中，相机301耦合到图像处理器电路。图像处理器电路可以被配置为从相机301接收信息并且确定或估计在相机301的视场中收听者150或其他收听者或物体的位置。在示例中，图像处理器电路可以被配置为使用来自相机301的信息以确定或估计收听者150的一个或多个特征的位置，诸如收听者150的耳朵、眼睛、嘴巴或其它特征中的一个或多个的位置。

在示例中，图像处理器电路可以基于收听者150的面部的尺寸和位置、收听者150的眼睛的位置或这两者来估计收听者150的位置。在示例中，关于收听者150的位置信息可以包括方位角和/或到相机301的距离。在一些示例中，图像处理器电路可以确定或使用关于收听者150的其它信息，包括收听者朝向信息，诸如收听者150的仰角、头部偏航、头部俯仰或头部侧倾角。可以对关于收听者150的位置信息进行滤波以减少波动。本文例如在图9-12中进一步讨论了确定收听者位置的一些示例。

在示例中，音频处理器电路(诸如可以被配置为针对一对扬声器105A和105B生成虚拟化的音频信号)可以耦合到相机301或图像处理器电路。在使用一对扬声器105A和105B再现信号之前，音频处理器电路可以使用来自相机301或来自图像处理器电路的关于收听者150的位置的信息来选择要向音频信号应用的一个或多个滤波器。即，音频处理器电路可以基于关于收听者150的位置的信息来处理音频信号，诸如更新或调整收听环境101中的甜蜜点的位置。

在示例中，音频处理器电路基于收听者150在收听环境101中的绝对位置、收听者150距相机301和/或距左右扬声器105A和105B中的一个或多个的确定的距离、收听者150相对于第一甜蜜点110的位置或关于收听者150的其它位置信息中的一项或多项来处理音频信号。在示例中，音频处理器电路基于收听者150的一个或多个特征的被确定或估计的位置(诸如收听者150的耳朵、眼睛、嘴巴或其它特征中的一个或多个的位置)来处理音频信号。

在图3的示例中，相机301可以接收关于收听环境101的信息，包括在视觉频谱中包含收听者150在收听环境中的存在的指示的信息。图像处理器电路可以确定收听者101在收听环境101中的相对或估计位置，并且音频处理器电路可以选择一个或多个滤波器以在收听者处于所确定的位置时应用从而为收听者150渲染虚拟化的音频信息。即，相机301及其对应的图像处理器电路可以向音频处理器电路提供收听者150已经移动至第一甜蜜点110之外并且应当选择使用将渲染第二甜蜜点310的虚拟化滤波器的信息。

音频处理器电路可以可选地连续地、周期性地或根据另一个固定或可调整的时间表从相机301接收关于收听者150的位置的信息。在示例中，图像处理器电路保留关于收听者150的位置改变信息，直到收听者150从初始位置移开至少指定的阈值量为止。在示例中，音频处理器电路可以确定关于收听者150的位置的信息是否要求或何时要求改变或更新音频信号处理参数。

图4一般地图示了具有条形音箱402和相机301的收听环境101的示例400。即，图4图示了收听环境101可以包括或使用除电视机102以外的声源。条形音箱402可以使用不同的一对扬声器405A和405B接收虚拟化的音频信息并再现音频信号，以便为收听者150提供3D音频体验。在示例中，诸如基于来自相机301的关于收听者150的位置的信息，可以调整来自条形音箱402的音频以适应不同的甜蜜点(诸如第一甜蜜点110和第二甜蜜点310)。

图5A、5B和6一般地图示了示出可以被用于使用关于收听者位置的信息(诸如使用来自相机或其他收听者位置传感器的信息)执行虚拟化处理的系统的各种框图。图5A一般地图示了包括第一虚拟化器电路512A和第一甜蜜点适配器电路514A的第一系统500A的框图的示例。在图5A的示例中，第一虚拟化器电路512A和第一甜蜜点适配器电路514A包括第一音频处理器电路510A的部分。

图5A包括提供一个或多个音频输入信号503的音频源501。在示例中，音频输入信号503包括多声道音频文件、音频流、基于对象的音频节目或其它的一个或多个信号(诸如可以适于使用扬声器、耳机等收听)。音频输入信号503被提供给第一音频处理器电路510A。

图5A还包括视频图像源521。在示例中，视频图像源521包括光学传感器或视觉传感器，诸如图3和4的示例中的相机301。在示例中，视频图像源521包括深度传感器。视频图像源521可以将图像信号523提供给图像处理器电路530。在包括作为深度传感器的视频图像源521的示例中，图像信号523可以包括距离信息和被感测或检测到的特征(例如，收听者面部特征)信息之一或组合。图像处理器电路530可以被配置为分析图像信号523以确定收听者的位置，或者确定收听环境中的收听者的位置的估计。在示例中，图像处理器电路530被配置为确定在收听环境中与收听者的位置对应的坐标。即，图像处理器电路530可以确定或提供关于从视频图像源521(例如，相机301、深度传感器等)到收听者的距离的信息。

在一些示例中，图像处理器电路530被配置为确定收听者的特性或特征，诸如包括关于收听者的头部朝向的信息。头部朝向可以包括关于收听者的头部偏航、头部俯仰或头部侧倾(例如，参见图9)的一项或多项的信息。在示例中，图像处理器电路530被配置为确定收听者的面部特征或其它头部特征中的一个或多个特征的位置(诸如收听者的耳朵、嘴巴、眼睛或其它特征的位置或坐标)。

图像处理器电路530可以将关于收听者位置或收听者朝向的信息作为收听者位置信号531提供给第一音频处理器电路510A。收听者位置信号531可以被提供给第一甜蜜点适配器电路514A，或被提供给第一虚拟化器电路512A，或被提供给第一甜蜜点适配器电路514A和第一虚拟化器电路512A两者。

在示例中，音频输入信号503由第一音频处理器电路510A中的第一虚拟化器电路512A接收。第一虚拟化器电路512A被配置为将虚拟化处理应用于音频输入信号503中的一个或多个，以提供中间音频输出信号505A。在一个示例中，第一虚拟化器电路512A基于参考甜蜜点或基于特定于收听环境的其它信息或考虑来应用一个或多个虚拟化滤波器。在这种示例中，第一虚拟化器电路512A不使用收听者位置信号531来影响其对音频输入信号503的处理。相反，第一甜蜜点适配器电路514A接收收听者位置信号531并且基于收听者位置信号531(例如，指示或包括关于收听者相对于收听者环境中的一个或多个扬声器的位置的信息的信号)，第一甜蜜点适配器电路514A选择用于处理从第一虚拟化器电路512A接收的中间音频输出信号505A的一个或多个滤波器。然后，第一甜蜜点适配器电路514A渲染或提供可以使用音频输出端550A再现的音频输出信号507A。在示例中，第一甜蜜点适配器电路514A将增益或衰减应用于中间音频输出信号505A中的一个或多个，以提供音频输出信号507A。增益或衰减可以应用于特定的频率或频带。在示例中，第一甜蜜点适配器电路514A将延迟应用于中间音频输出信号505A中的一个或多个，以提供音频输出信号507A。

在另一个示例中，第一虚拟化器电路512A至少部分地基于来自图像处理器电路530的收听者位置信号531来应用一个或多个虚拟化滤波器。即，可以基于来自收听者位置信号531的关于收听者位置的信息来选择由第一虚拟化器电路512A用来处理音频输入信号503的一个或多个滤波器。第一甜蜜点适配器电路514A还可以接收收听者位置信号531并且基于收听者位置信号531(例如，指示或包括关于收听者相对于收听者环境中的一个或多个扬声器的位置的信息的信号)，选择用于处理从第一虚拟化器电路512A接收的中间音频输出信号505A的一个或多个滤波器。

如图5A中所示，第一音频处理器电路510A接收多声道音频文件或音频流，并产生适于扬声器收听的双耳扬声器信号。收听者位置估计模块(诸如包括图像处理器电路530)将视觉信息作为输入并确定或估计收听者的位置，并将那个位置信息编码在收听者位置信号531中。在示例中，图像处理器电路530基于所确定的面部的位置和/或尺寸和/或收听者的眼睛的位置来提供收听者位置信号531。收听者位置信息可以包括方位角(例如，在水平平面中，图像中心与投影的面部中心之间的角度)和距离(例如，视频图像源521与收听者的面部中心之间的距离)。收听者位置信号531中的其它信息可以包括仰角(例如，在垂直平面中，图像中心与投影的面部中心之间的角度)、面部偏航、俯仰和/或侧倾角。为了进一步提高收听者位置估计的准确性，图像处理器电路530或另一个处理器电路可以执行分类算法，以确定收听者的年龄和性别中的一个或多个，并将对应的面部宽度参数应用于距离估计。第一甜蜜点适配器电路514A基于收听者的位置来计算对应的延迟和增益补偿。

图5B一般地图示了包括第二虚拟化器电路512B和第二甜蜜点适配器电路514B的第二系统500B的框图的示例。在图5B的示例中，第二虚拟化器电路512B和第二甜蜜点适配器电路514B包括第二音频处理器电路510B的部分。

图5B的第二系统500B与图5A的第一系统500A的示例的不同之处在于，第二甜蜜点适配器电路514B从音频源501接收音频输入信号503，而不是第一虚拟化器电路512A接收音频输入信号503。即，第二甜蜜点适配器电路514B可以被配置为诸如在由第二虚拟化器电路512B应用音频虚拟化处理之前提供音频输入信号503的增益和/或延迟或其它滤波。收听者位置信号531可以被提供给第二甜蜜点适配器电路514B或第二虚拟化器电路512B，或者第二甜蜜点适配器电路514B和第二虚拟化器电路512B两者。在图5B的示例中，第二虚拟化器电路512B渲染或提供可以使用音频输出端550B再现的音频输出信号507B。

图6一般地图示了包括第三虚拟化器电路612的第三系统600的框图的示例。在图6的示例中，第三虚拟化器电路612包括第三音频处理器电路610的至少一部分。图6包括提供一个或多个音频输入信号503的音频源501。音频输入信号503被提供给第三音频处理器电路610。

图6还包括被配置为将图像信号523提供给图像处理器电路530的视频图像源521，并且图像处理器电路被配置为分析图像信号523以确定收听者的位置，或者确定收听者在收听环境中的位置的估计。图像处理器电路530可以将关于收听者位置或收听者朝向的信息作为收听者位置信号531提供给第三音频处理器电路610。收听者位置信号531可以被提供给第三虚拟化器电路612。

在示例中，音频输入信号503由第三音频处理器电路610中的第三虚拟化器电路612接收。第三虚拟化器电路612被配置为将虚拟化处理应用于音频输入信号503中的一个或多个，以提供音频输出信号607。在示例中，第三虚拟化器电路612至少部分地基于来自图像处理器电路530的收听者位置信号531来应用一个或多个虚拟化滤波器。即，可以基于来自收听者位置信号531的关于收听者位置的信息来选择由第三虚拟化器电路612用来处理音频输入信号503的一个或多个滤波器。

在示例中，视频图像源521连续地、有规律地或间歇地将图像信号523馈送到图像处理器电路530。图像处理器电路530可以对应地生成收听者位置信号531的更新后的版本。即，图像处理器电路530可以基于图像信号523的改变来更新或调整收听者位置信号531。在图6的示例中，第三虚拟化器电路612可以接收更新或调整的收听者位置信号531，并确定是否更新或调整用于生成音频输出信号607的虚拟化滤波器中的一个或多个。

在示例中，图5A、5B和/或6的系统中的任何一个或多个可以包括或使用用户界面。用户界面可以被配置为向收听者或其他用户提供关于系统的工作状态的视觉反馈。例如，用户界面可以被配置为显示收听者相对于甜蜜点的位置的估算值。用户界面的特征和示例将在下面进一步讨论。

在示例中，通过扬声器的3D音频虚拟化的实现方式包括或使用双耳合成器和串扰消除器。当已经双声道地渲染了输入信号(诸如用于耳机收听)时，那么可以绕过双耳合成器步骤。双耳合成器和串扰消除器都可以使用头部相关传递函数(HRTF)。HRTF是HRIR(头部相关脉冲响应)的频域表示。HRTF表示从3D空间中的位置传播到收听者的耳朵的声源的声学变换。这种变换可以捕获由于收听者的头部、躯干和耳廓的物理特性等引起的声音的衍射。HRTF一般可以以成对的滤波器提供，诸如包括用于左耳的一个滤波器和用于右耳的一个滤波器。

在双耳合成中，声源与一对HRIR卷积，以合成在收听者的耳朵处接收到的双耳信号。在频域中，在收听者的耳朵处接收到的双耳信号可以被表述为：

图7一般地图示了使用HRTF的三维声源的双耳合成的示例。在图7的示例中，S表示声源，H_L是收听者左耳的HRTF，H_R是收听者右耳的HRTF，B_i是指在左耳处接收到的双耳信号，并且B_R表示在右耳处接收到的双耳信号。当同时有多个声源可用时，每个声源都可以与相关联一对HRTF卷积。可以将结果所得的信号求和以合成在收听者耳朵处接收到的双耳信号。结果所得的双耳信号可以适于耳机收听。在示例中，可以应用各种信号整形或频率响应补偿，以去除由于耳机换能器引起的任何不期望的变换。

在示例中，为了在收听环境中的两个扬声器上实现3D音频虚拟化，使用附加的步骤以去除从左扬声器到收听者右耳以及从右扬声器到收听者左耳的串扰。

图8一般地图示了使用串扰消除器的三维声音虚拟化的示例。在图8的示例中，T_LL表示从左扬声器到左耳的传递函数，T_LR表示从左扬声器到右耳的传递函数，T_RL表示从右扬声器到左耳的传递函数，T_RR是从右扬声器到右耳的传递函数，H_i是左双耳信号，并且B_R是右双耳信号。

在图8的示例中，串扰消除器被应用于双耳合成器(B_L和B_R)的输出。串扰消除器的输出信号被发送到左、右扬声器进行回放。在示例中，串扰消除器C可以被实现为声学传递矩阵T的逆函数，以使得在收听者的耳朵处接收到的信号恰好是B_L和B_R。即，

为简化起见，串扰消除技术常常假设扬声器相对于收听者放置在对称的位置。在诸如使用本文讨论的系统和方法的空间音频处理中，将收听者感知到最佳3D音频效果的位置称为甜蜜点(通常与两个扬声器之间的对称轴重合)。但是，如果收听者在甜蜜点之外，那么3D音频效果将不准确，例如因为违反了对称性的假设。

现在参考收听环境中的收听者位置的确定或估计，在示例中，本文讨论的图像处理器电路530可以在假设收听者的面部宽度或收听者的眼睛之间的距离恒定的前提下操作。在示例中，来自图像处理器电路530的收听者位置信息可以包括方位角和从收听者到相机的距离。可选地，收听者的位置信息也可以选择包括仰角、头部偏航、头部俯仰和/或头部侧倾角。可以使用各种不同的方法来估计收听者位置。

图9一般地图示了包括估计相机(诸如相机301和/或视频图像源521)的视场中的收听者位置的方法的示例。在图9的示例中，该方法可以包括先估计收听者的距离，然后基于估计的距离来估计收听者的方位角和仰角。该方法可以如下实现。

首先，机器或计算机视觉分析电路(例如，图像处理器电路530)可以从相机(例如，相机301和/或视频图像源521)接收视频输入流(例如，图像信号523)并且，作为响应，诸如使用第一算法来提供或确定面部矩形和/或关于收听者的一只或两只眼睛的位置的信息。第一算法可以诸如基于图像源的(例如，相机或透镜的)固有参数在检测面部矩形之前或之后可选地使用失真校正模块，以提高收听者位置估计的精度。

机器或计算机视觉分析电路(例如，图像处理器电路530)可以使用估计的面部矩形宽度(例如，以像素为单位)或眼睛距离(例如，以像素为单位)计算从图像源(例如，从深度传感器或相机)到收听者的面部中心的距离(例如，以毫米为单位)。距离计算可以基于相机硬件参数或实验校准参数等，例如使用面部宽度或眼睛之间的距离恒定的假设。在示例中，对于大多数收听者，或者对于最有可能被系统检测到的收听者，可以假设眼睛距离和/或头部宽度具有固定值或参考值。例如，大多数成人头部的直径约为14cm，大多数眼睛的间距约为5cm。这些参考维度可以被用于检测或校正关于收听者相对于深度传感器或相机的朝向的信息，例如，作为确定收听者与传感器的距离的先决条件。换句话说，系统可以被配置为首先确定收听者的头部朝向，然后使用头部朝向信息来确定从传感器到收听者的距离。

在示例中，对于面朝前的收听者，眼睛距离或瞳孔间距离可以假设为约5cm。瞳孔间距离的假设可以基于例如年龄或性别检测算法来调整。瞳孔间距离与接收到的图像中的像素的某个宽度对应，诸如可以使用图像中的眼睛位置、相机的视野以及本文针对类似“面部宽度”算法给出的公式被转换成角度。在这个示例中，角度值与距相机的特定距离对应。诸如对于相同或不同的面朝前的收听者，一旦进行了参考测量(例如，到收听者的参考距离，以毫米为单位，以及对应的瞳孔间距离，以像素为单位，诸如转换成弧度)，就可以使用稍后检测到的瞳孔间距离来确定到收听者的距离。

对于可能面对除朝前以外的方向(例如，相对于相机成一定角度)的收听者，来自头部朝向跟踪算法的信息(例如，被配置为检测或确定头部偏航、侧倾和/或俯仰角)可以被用于在例如成人面部的直径为143毫米的球体上旋转检测到的眼睛中心位置。如以上针对瞳孔间距离的类似解释的，假设的头部直径或参考头部直径可以根据例如收听者的年龄或性别进行改变。通过绕假想球体旋转检测到的眼睛中心，可以计算经校正的或对应的面朝前的眼睛位置。

在距离计算之后，可以使用可选的分类算法来增强或改善位置或距离估计的准确性。例如，分类算法可以被配置为确定收听者的年龄和/或性别，并应用对应的面部宽度参数或眼睛距离参数。

接下来，在了解了以像素为单位的面部图像中心(例如，image_width/2，image_height/2)和以像素为单位的面部中心的情况下，该方法可以包括以像素为单位计算面部平面中的水平和垂直距离。假设恒定的成人面部宽度(例如，约143毫米)及其检测到的以像素为单位的尺寸，可以将距离转换成毫米，例如使用：

距离(mm)＝距离(像素)*face_width(mm)/face_width(像素)。

使用两个距离值，该方法可以通过计算从图像中心到面部中心的对角线距离来继续。现在，利用从相机到收听者面部的已知距离以及从图像中心到收听者面部的距离，勾股定理可以被用于计算到人脸平面的距离。

接下来，可以计算方位角。方位角是在水平平面中面部平面的中心线与到面部的距离的投影之间的角度。可以将方位角计算为中心线与图像中心与面部位置之间的水平距离之间的反正切。

可以类似地确定仰角。仰角是从相机到面部中心的线与它跨图像中心到水平平面的投影之间的角度。仰角可以被计算为垂直距离与收听者距离之比的反正弦值。

最后，可以通过应用磁滞来可选地滤波估计的收听者位置，以减少收听者位置的任何不期望的波动或突变。

在示例中，用于估计收听环境中的收听者位置的另一种方法包括独立地确定收听者的距离和角度。这种方法使用诸如在校准活动期间可以获得的关于相机视场(FOV)的信息。

图10一般地图示了收听者面部位置相对于其在相机捕获的图像上的投影的示例1000。在环境中移动、面向相机并相对于相机维持相对恒定或不变距离的收听者面部可以大致画成球体。独立地进行水平和垂直移动，面部可以在水平轴上画圆并且在垂直轴上画圆。由于相机只能在特定或固定的视场中看到，因此相机只能看到圆的一部分。可见部分一般称为视场或视野(FOV)。真实场景通过相机的透镜投影在相机传感器上，例如沿着穿过图像投影的直线朝着这些线会聚的中心。利用这种见解，可以恢复相对于图像中的每个像素的图像中心的角度，并以弧度表述(诸如代替像素)。在示例1000中，x1和x2表示收听者面部的角落或边缘的位置，而D表示到相机的距离。

图11一般地图示了确定图像坐标的示例1100。示例1100可以包括确定或恢复相机视场中的任何图像坐标的角度。在图11的示例中，x指示图像中将被估计为角度的位置，并且y指示从图像宽度和视场计算出的可以被用于估计任何值x的值。角度θ₁指示相机的视场的一半，而角度θ₂指示要确定的期望的角度值，诸如与x对应。因此，可以将收听者的方位角(x_in_radians)计算为：

在校准事件期间，可以测量到相机的参考面部距离(d_ref)，并且可以记录以弧度为单位的对应的参考宽度(w_ref)。使用参考值，对于场景中的任何面部，可以将面部宽度转换成弧度(w_est)，并且到相机d的距离可以计算为：

d＝d_ref*w_ref/w_est.

在示例中，如果已知水平FOV和图像尺寸，那么可以将垂直FOV计算为：

以弧度为单位的仰角(e_in_radians)可以类似地计算为：

根据本文讨论的系统和方法，诸如通过向音频信号应用延迟和/或增益补偿，可以使用虚拟化器电路和甜蜜点适配器电路之一或其组合来执行甜蜜点适配。在示例中，甜蜜点适配器电路向从虚拟化器电路输出的音频信号应用延迟和/或增益补偿，并且甜蜜点适配器电路应用指定量的延迟和/或基于关于收听者位置或朝向的信息。在示例中，虚拟化器电路应用一个或多个不同的虚拟化滤波器(诸如HRTF)，并且这一个或多个虚拟化滤波器基于关于收听者位置或朝向的信息来选择。在示例中，虚拟化器电路和甜蜜点适配器电路可以被调整或被配置为一起工作以实现适当的音频虚拟化，以在收听环境中进行甜蜜点调整或重定位。

延迟和增益补偿可以使用收听者与用于回放虚拟音频信号的两个或更多个扬声器之间的距离来执行。可以使用关于收听者相对于相机的位置的信息以及关于扬声器相对于相机的位置的信息来计算该距离。在示例中，图像处理器电路可以被配置为估计或提供关于收听者相对于相机和/或相对于扬声器的方位角、从收听者到相机的距离、仰角以及相对于参考平面或线的面部偏航角、面部俯仰角和/或侧倾角的信息。

图12一般地图示了确定相机视场中的收听者的坐标的示例1200。例如，可以提供收听者相对于相机的笛卡尔坐标。在图12的示例中，相机的位置是坐标系的原点。在这种情况下，可以使用以下公式计算出收听者的笛卡尔坐标：

x＝d cos(φ)cos(α)

y＝d cos(φ)sin(Q)

z＝d sin(φ)，

其中d是相机与收听者之间的估计距离，α是方位角，并且

是仰角。

在示例中，左扬声器和右扬声器的坐标可以分别是[x_l y_l z_l]和[x_r y_r z_r]。收听者与两个扬声器之间的距离然后可以被计算为：

样本中的延迟(D)可以被计算为

诸如其中C是空气中的声音速度(室温下约为343m/s)。如果D为正，那么对右声道应用延迟。否则，对左声道应用延迟。

在示例中，可以诸如作为延迟的附加或替代将增益补偿应用于一个或多个音频信号或声道。在示例中，增益补偿可以基于两个扬声器之间的距离差。例如，以dB为单位的增益可以被计算为：

增益＝20*log₁₀(d_l/d_r).

为了保持总体声音水平，相对于收听者来说，距离较远的扬声器的增益可以增大，而距离较近的扬声器的增益可以减小。在这种情况下，所应用的增益可以约为计算出的增益值的一半。

图13一般地图示了膝上型计算机的相机和扬声器之间的关系的示例1300。在图13的示例中，固定到膝上型计算机的左、右扬声器(扬声器L和扬声器R)与固定在同一膝上型计算机上的相机的可以具有不同的轴。此外，膝上型计算机的屏幕角度通常不是正好90度。参考图13，如果将相机的位置视为坐标系的原点，那么左扬声器(扬声器L)的位置可以被表述为：

x＝c sin(α)+q

y＝-l

z＝-c cos(α).

类似地，右扬声器(扬声器R)的位置可以被表述为

x＝c sin(α)+q

y＝l

z＝-c cos(α).

在示例中，当q为0且c为0时，左扬声器和右扬声器的位置分别为[x＝0，y＝-l，z＝0]和[x＝0，y＝l，z＝0]。在这种情况下，两个扬声器与y轴重合。在例如包括或使用条形音箱的实现方式中(例如，参见图4的示例)，这种朝向可以是典型的。

在示例中，当q为0且α为0时，左扬声器和右扬声器的位置分别为[x＝0，y＝-l，z＝-c]和[x＝0，y＝l，z＝-c]。在这种情况下，两个扬声器位于y-z平面上。在例如包括电视的实现方式中(例如，参见图1-3的示例)，这种朝向可以是典型的。

但是，由于膝上型计算机的屏幕角度可变，因此相机的俯仰角可能不会完全等于0。即，相机可能不会面向x轴方向或与x轴方向重合。因此，可以在计算收听者与两个扬声器之间的距离之前调整检测到的收听者位置。可以在x-z平面上按相机俯仰角度旋转收听者的位置，以使相机面向x轴方向。例如，调整后的收听者位置可以表示为

x′＝-cos(α)x-sin(α)z

y′＝y

z′＝sin(a)x+cos(a)z。

在调整收听者位置之后，可以计算出收听者到每个扬声器的距离。

如前面所讨论的，可以对用户体验有益的是对延迟和增益参数进行滤波以适应所确定的收听者位置的各种改变或波动。即，可以对收听者体验有益的是，对估计的延迟值(D_est)和/或估计的增益值(G_est)进行滤波以减少意外的音频波动。一种高效的方法是应用移动平均值滤波器，例如，

D_next＝(1-α)D_prev+αD_est

G_next＝(1-α)G_prev+αG_est，

其中α是0到1之间的平滑常数，D_next和G_next是后续的或下一个延迟和增益值，而D_prev和G_prev是上一个延迟和增益值。可以附加地或替代地使用诸如中值滤波之类的用于平滑的替代方法。

在示例中，用户界面可以被配置为从视频图像源(例如，相机)、图像处理器电路或音频处理器电路(诸如包括虚拟化器电路或甜蜜点适配器电路)中的一个或多个接收信息。用户界面可以被配置为诸如向收听者提供信息或反馈，以指示视频图像源的(例如，相机的)和/或音频处理器电路的操作状态。

例如，视频图像源可以包括具有有限视场的相机。当收听者在相机的视场之外时，使用UI向收听者提供指示或警告会是有帮助的，诸如指示收听者应当移到相机的视场内的某个位置，以使得能够进行适应收听者在收听环境和视场中的实际位置的虚拟化处理。在示例中，UI可以在屏幕上显示文本或图像，例如包括关于来自图像处理器电路的收听者位置信号的信息，以指示收听者位置跟踪器的状态。其它示例可以包括显示视频或静止图像或从视频图像源中提取出的其它信息，诸如具有收听环境中的一个或多个可用甜蜜点的指示。UI还可以被用于在相机未聚焦或无法充分聚焦时向收听者指示。

本文讨论的3D甜蜜点适配系统和方法的替代实施例是可能的。根据本文档，除了本文描述的那些以外的许多其它变体将是显而易见的。例如，取决于实施例，本文描述的任何方法和算法的某些动作、事件或功能可以以不同的顺序执行、可以被添加、合并或完全省略(使得并非所有描述的动作或事件对于方法和算法的实践都是必要的)。而且，在某些实施例中，诸如通过多线程处理、中断处理、或多个处理器或处理器核或在其它并行架构上。动作或事件可以并发地执行，而不是顺序地执行。此外，可以由可以一起工作的不同机器、电路和计算系统执行不同的任务或处理。例如，音频虚拟化和甜蜜点适配可以使用分立的电路或系统来执行，或者可以使用常见的通用处理器来执行。

结合本文公开的实施例描述的各种说明性逻辑块、模块、方法和算法处理以及序列可以被实现为电子硬件、计算机软件或这两者的组合。为了清楚地说明硬件和软件的这种可互换性，上面已经一般地根据其功能描述了各种说明性部件、块、模块和处理动作。将这种功能性实现为硬件还是软件取决于特定的应用和施加在整个系统上的设计约束。可以针对每个特定应用以各种方式来实现所描述的功能，但是这种实现决定不应当被解释为造成背离本文档的范围。本文描述的甜蜜点适配和图像处理方法和技术的实施例可在多种类型的通用或专用计算系统环境或配置内操作，诸如在图14的讨论中所描述的。

结合本文公开的实施例描述的各种说明性逻辑块和模块可以由机器来实现或执行，所述机器诸如是通用处理器、处理设备、具有一个或多个处理设备的计算设备、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者被设计为执行本文描述的功能的其它可编程逻辑设备、分立门或晶体管逻辑、分立硬件部件或其任何组合。通用处理器和处理设备可以是微处理器，但替代地，处理器可以是控制器、微控制器或状态机、或者它们的组合等。处理器也可以被实现为计算设备的组合(诸如DSP和微处理器的组合)、多个微处理器、与DSP内核结合的一个或多个微处理器或任何其它此类配置。

另外，实施本文描述的虚拟化和/或甜蜜点适配的各个示例中的一些或全部或其部分的软件、程序或计算机程序产品的一个或任何组合可以被存储、接收、传输或从计算机或机器可读介质或存储设备或通信介质的任何期望组合以计算机可执行指令或其它数据结构的形式读取。虽然以特定于结构特征和方法动作的语言描述了本主题，但应该理解的是，所附权利要求书中定义的主题不必限于本文描述的具体特征或动作。更确切地说，上述具体特征和动作作为实现权利要求书的示例形式被公开。

各种系统和机器可以被配置为执行本文描述的信号处理任务中的一个或多个，包括但不限于使用来自传感器的信息或图像的收听者位置或方位确定或估计、诸如使用HRTF的音频虚拟化处理和/或诸如使用一个或多个信号的增益和/或延迟滤波的针对甜蜜点适配的音频信号处理。所公开的电路或处理任务中的任何一个或多个都可以使用通用机器或使用执行各种处理任务(诸如使用从有形的、非瞬态处理器可读介质接收的指令)的专门特制的机器来实现或执行。

图14是图示根据一些示例的能够从机器可读介质(例如，机器可读存储介质)读取指令1416并执行本文讨论的方法中的任何一个或多个的机器1400的部件的框图。具体而言，图14以计算机系统的示例形式示出了机器1400的示意图，在该机器1400内，可以执行使得机器1400执行本文讨论的任何一个或多个方法的指令1416(例如，软件、程序、应用、小应用、app或其它可执行代码)。例如，指令1416可以实现图5A、5B、6和/或8的模块或电路或部件中的一个或多个，诸如可以被配置为执行音频信号处理和/或本文讨论的图像信号处理。指令1416可以将通用的、未编程的机器1400变换成被编程为以所描述的方式(例如，作为音频处理器电路)执行所描述和示出的功能的特定机器。在替代实施例中，机器1400作为独立设备操作，或者可以耦合(例如，联网)到其它机器。在联网部署中，机器1400可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力操作，或者在对等(或分布式)网络环境中作为对等机器操作。

机器1400可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统或系统部件、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能电器)、其它智能设备、web电器、网络路由器、网络交换机、网桥、耳机驱动器，或能够顺序地或以其它方式执行指定要由机器1400采取的动作的指令1416的任何机器。另外，虽然仅示出了单个机器1400，但是术语“机器”也应被认为包括单独地或共同地执行指令1416以执行本文讨论的任何一个或多个方法的机器1400的集合。

机器1400可以包括或使用处理器1410(诸如包括音频处理器电路)、非暂态存储器/存储装置1430以及I/O部件1450，它们可以被配置为彼此通信，诸如经由总线1402。在示例实施例中，处理器1410(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC、射频集成电路(RFIC)、另一个处理器或其任意合适的组合)可以包括例如可以执行指令1416的电路，诸如处理器1412和处理器1414。术语“处理器”旨在包括多核处理器1412、1414，其可以包括可同时执行指令1416的两个或更多个独立处理器1412、1414(有时称为“核”)。虽然图14示出了多个处理器1410，但是机器1400可以包括具有单个核的单个处理器1412、1414、具有多个核的单个处理器1412、1414(例如，多核处理器1412、1414)、具有单个核的多个处理器1412、1414、具有多个核的多个处理器1412、1014或其任意组合，其中任何一个或多个处理器可以包括被配置为对音频和/或视频信号信息或其它数据进行编码的电路。

存储器/存储装置1430可以包括存储器1432(诸如主存储器电路或其它存储器存储电路)以及存储单元1436，这两者都可以诸如经由总线1402被处理器1410访问。存储单元1436和存储器1432存储实施本文描述的方法或功能中的任何一个或多个的指令1416。在由机器1400执行期间，指令1416还可以全部或部分地驻留在存储器1432内、存储单元1436内、处理器1410中的至少一个内(例如，处理器1412、1414的高速缓存存储器内)或其任意合适的组合。因而，存储器1432、存储单元1436和处理器1410的存储器是机器可读介质的示例。在示例中，存储器/存储装置1430包括前瞻缓冲电路120或其一个或多个实例。

如本文所使用的，“机器可读介质”是指能够临时或永久地存储指令1416和数据的设备，并且可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光学介质、磁性介质、高速缓存存储器、其它类型的存储装置(例如、可擦可编程只读存储器(EEPROM))和/或其任意合适的组合。术语“机器可读介质”应当被认为包括能够存储指令1416的单个介质或多个介质(例如，集中式或分布式数据库或者相关联的高速缓存和服务器)。术语“机器可读介质”也应被认为包括能够存储由机器(例如，机器1400)执行的指令(例如，指令1416)使得指令1416在由机器1400的一个或多个处理器(例如，处理器1410)执行时使机器1400执行本文所述的方法中的任何一个或多个的任何介质或多种介质的组合。因而，“机器可读介质”是指单个存储装置或设备以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”不包括信号本身。

I/O部件1450可以包括各种部件，以接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量等。特定机器1400中包括的具体I/O部件1450将取决于机器1400的类型。例如，诸如移动电话之类的便携式机器将可能包括触摸输入设备或其它这样的输入机制，而无头服务器机器可能将不包括这种触摸输入设备。将认识到的是，I/O部件1450可以包括在图14中未示出的许多其它部件。仅出于简化以下讨论的目的，I/O部件1450按功能分组，并且该分组绝不是限制性的。在各种示例实施例中，I/O部件1450可以包括输出部件1452和输入部件1454。输出部件1452可以包括视觉部件(例如，显示器，诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT))、声学部件(例如，扬声器)、触觉部件(例如，振动马达、阻力机制)、其它信号发生器等。输入部件1454可以包括字母数字输入部件(例如，键盘、被配置为接收字母数字输入的触摸屏、光电键盘或其它字母数字输入部件)、基于点的输入部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其它指向工具)、触感输入部件(例如，物理按钮、提供触摸或触摸手势的位置和/或力的触摸屏，或其它触感输入部件)、音频输入部件(例如，麦克风)、视频输入部件等。

在进一步的示例实施例中，I/O部件1450可以包括生物特征部件1456、运动部件1458、环境部件1460或位置(例如，位置和/或朝向)部件1462以及各种各样的其它部件。例如，生物特征部件1456可以包括检测表情(例如，手表情、面部表情、声音表情、身体手势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、汗水或脑电波)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件，诸如可以影响特定于收听者或特定于环境的滤波器的包含、使用或选择。运动部件1458可以包括加速度传感器部件(例如，加速度计)、重力传感器部件、旋转传感器部件(例如，陀螺仪)等，诸如可以被用于跟踪收听者110的位置的改变，诸如可以被处理器进一步考虑或使用以更新或调整甜蜜点。环境部件1460可以包括例如照明传感器部件(例如，光度计)、温度传感器部件(例如，检测环境温度的一个或多个温度计)、湿度传感器部件、压力传感器部件(例如，气压计)、声学传感器部件(例如，检测混响衰减时间的一个或多个麦克风，诸如针对一个或多个频率或频带)、接近传感器或房间体积感测部件(例如，检测附近物体的红外传感器)、气体传感器(例如，气体检测传感器，用于为了安全而检测有害气体的浓度或测量大气中的污染物)，或其它可以提供与周围物理环境对应的指示、测量或信号的部件。位置部件1462可以包括位置传感器部件(例如，全球定位系统(GPS)接收器部件)、高度传感器部件(例如，检测可以从中导出高度的气压的高度计或气压计)、朝向传感器部件(例如，磁力计)等。

可以使用多种技术来实现通信。I/O部件1450可以包括通信部件1464，通信部件1464可操作为分别经由耦合(coupling)1482和耦合1472将机器1400耦合到网络1480或设备1470。例如，通信部件1464可以包括网络接口部件或其它合适的设备以与网络1480接口。在另外的示例中，通信部件1464可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、Bluetooth

部件(例如，Bluetooth

低能量)、Wi-Fi

部件以及经由其它方式提供通信的其它通信部件。设备1470可以是另一个机器或各种各样的外围设备(例如，经由USB耦合的外围设备)中的任何一个。

而且，通信部件1464可以检测标识符或包括可操作为检测标识符的部件。例如，通信部件1464可以包括射频识别(RFID)标签读取器部件、NFC智能标签检测部件、光学阅读器部件(例如，用于检测一维条形码(诸如通用产品代码(UPC)条形码)、多维条形码(诸如快速响应(QR)码、Aztec码、数据矩阵、Dataglyph、MaxiCode、PDF49、Ultra码、UCC RSS-2D条形码和其它光学码)的光学传感器)，或声学检测部件(例如，用于识别标记的音频信号的麦克风)。此外，可以经由通信部件1464导出各种信息，诸如经由互联网协议(IP)地理定位的位置、经由Wi-Fi

信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置，等等。这样的标识符可以被用于确定关于参考或本地冲激响应、参考或本地环境特性或特定于收听者的特性中的一个或多个的信息。

在各种示例实施例中，网络1480的一个或多个部分(诸如可以被用于传输经编码的帧数据或要编码的帧数据)可以是自组织网络、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网、互联网的一部分、公共交换电话网(PSTN)的一部分、普通的旧电话服务(POTS)网络、蜂窝电话网络、无线网络、Wi-Fi

网络、另一种类型的网络或者此类网络中的两个或更多个的组合。例如，网络1080或网络1480的一部分可以包括无线或蜂窝网络，并且耦合1482可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或另一种类型的蜂窝或无线耦合。在这个示例中，耦合1482可以实现多种类型的数据传输技术中的任何一种，诸如单载波无线传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线业务(GPRS)技术、GSM演进的增强数据速率(EDGE)技术、包括3G、第四代无线(4G)网络的第三代合作伙伴计划(3GPP)、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球互操作性适用于微波接入(WiMAX)、长期演进(LTE)标准、由各种标准制定组织定义的其它标准、其它远程协议或其它数据传输技术。

指令1416可以经由网络接口设备(例如，通信部件1464中包括的网络接口部件)使用传输介质并且使用多种众所周知的传输协议中的任何一种(例如，超文本传输协议(HTTP))通过网络1480被发送或接收。类似地，指令1416可以使用传输介质经由耦合1472(例如，对等耦合)被发送或接收到设备1470。术语“传输介质”应被认为包括能够存储、编码或携带由机器1400执行的指令1416的任何无形介质，并且包括数字或模拟通信信号或其它无形介质以促进此类软件的通信。

本发明的各个方面可以独立使用或一起使用。例如，方面1可以包括或使用主题(诸如用于执行动作的装置、系统、设备、方法、单元，或包括指令的设备可读介质，这些指令在由设备执行时可以使设备执行动作)，诸如可以包括或使用用于基于相对于扬声器的收听者位置调整一个或多个接收到的音频信号以在收听环境中的收听者位置处提供甜蜜点的方法。方面1可以包括使用来自第一传感器的关于在由第一传感器监视的环境中的收听者位置的信息来接收关于收听者位置的第一指示；以及使用音频处理器电路基于(1)接收到的关于收听者位置的第一指示、(2)关于扬声器相对于第一传感器的位置的信息以及(3)一个或多个接收到的音频信号来生成一个或多个经调整的音频信号。

方面2可以包括或使用方面1的主题，或者可以可选地与方面1的主题相结合，以可选地包括：使用来自第一传感器的信息来接收关于收听者位置的第一指示包括从相机接收关于相机的视场中的收听者位置的信息。

方面3可以包括或使用方面1或2中的一个或任何组合的主题，或者可以可选地与方面1或2中的一个或任何组合的主题相结合，以可选地包括：使用来自第一传感器的信息来接收关于收听者位置的第一指示包括从深度传感器接收关于环境中的收听者位置处的收听者的一个或多个特征的信息。

方面4可以包括或使用方面1至3中的一个或任何组合的主题，或者可以可选地与方面1至3中的一个或任何组合的主题相结合，以可选地包括：使用来自第一传感器的信息来接收关于收听者位置的第一指示包括接收收听者的头部朝向的指示，其中收听者的头部朝向包括收听者的头部偏航、头部俯仰或头部侧倾中的一个或多个的指示，并且其中生成一个或多个经调整的音频信号包括使用收听者的头部偏航、头部俯仰或头部侧倾的指示。

方面5可以包括或使用方面4的主题，或者可以可选地与方面4的主题相结合，以可选地包括：基于接收到的收听者的头部朝向的指示来确定指示从扬声器到收听者的两只耳朵中的每只耳朵的距离的距离参数，并且其中生成一个或多个经调整的音频信号包括使用被选择为补偿从扬声器到收听者的两只耳朵中的每只耳朵的距离的滤波器来生成至少一对音频信号。

方面6可以包括或使用方面1至5中的一个或任何组合的主题，或者可以可选地与方面1至5中的一个或任何组合的主题相结合，以可选地包括：音频处理器电路，该音频处理器电路包括虚拟化器电路和甜蜜点适配器电路，其中虚拟化器电路被配置为接收一个或多个接收到的音频信号并基于第一虚拟化滤波器生成虚拟化的音频信号，其中甜蜜点适配器电路被配置为从虚拟化器电路接收虚拟化的音频信号并基于接收到的关于收听者位置的第一指示来提供一个或多个经调整的音频信号。

方面7可以包括或使用方面6的主题，或者可以可选地与方面6的主题相结合，以可选地包括：甜蜜点适配器电路，该甜蜜点适配器电路被配置为向接收到的虚拟化的音频信号的至少一个音频信号声道应用增益和/或延迟，其中增益和/或延迟基于接收到的关于收听者位置的第一指示。

方面8可以包括或使用方面1至5中的一个或任何组合的主题，或者可以可选地与方面1至5中的一个或任何组合的主题相结合，以可选地包括：音频处理器电路，该音频处理器电路包括虚拟化器电路和甜蜜点适配器电路，其中甜蜜点适配器电路被配置为接收一个或多个接收到的音频信号并提供中间音频输出，并且其中虚拟化器电路被配置为从甜蜜点适配器电路接收中间音频输出并基于接收到的关于收听者位置的第一指示来生成经调整的音频信号。

方面9可以包括或使用方面1至8中的一个或任何组合的主题，或者可以可选地与方面1至8中的一个或任何组合的主题相结合，以可选地包括：音频处理器电路，该音频处理器电路包括虚拟化器电路，并且其中虚拟化器电路被配置为接收一个或多个接收到的音频信号并对接收到的一个或多个音频信号应用虚拟化处理，以生成经调整的音频信号。

方面10可以包括或使用方面9的主题，或者可以可选地与方面9的主题相结合，以可选地包括：虚拟化器电路，该虚拟化器电路被配置为基于接收到的关于收听者位置的第一指示来选择要应用于接收到的一个或多个音频信号以生成经调整的音频信号的第一虚拟化滤波器。在方面10中，可以从存储器电路中的多个可用虚拟化滤波器当中选择第一虚拟化滤波器。在方面10中，可以基于数学模型使用虚拟化器电路或另一个处理器电路来确定第一虚拟化滤波器，其中数学模型使用关于收听者位置的第一指示作为模型的输入。在方面10中，可以使用多个其它滤波器的插值来确定第一虚拟化滤波器。

方面11可以包括或使用方面9或10中的一个或任何组合的主题，或者可以可选地与方面9或10中的一个或任何组合的主题相结合，以可选地包括：使用来自第一传感器的关于由第一传感器监视的环境中的收听者位置的信息来接收关于收听者位置的后续第二指示，并使用音频处理器电路基于不同的第二虚拟化滤波器来生成一个或多个经调整的音频信号，其中虚拟化器电路被配置为基于接收到的关于收听者位置的后续第二指示来选择不同的第二虚拟化滤波器。

方面12可以包括或使用方面1至11中的一个或任何组合的主题，或者可以可选地与方面1至11中的一个或任何组合的主题相结合，以可选地包括：使用来自第一传感器的信息来接收关于收听者位置的第一指示包括使用图像处理电路：确定相对于参考面部宽度的收听者的面部宽度，并使用确定的收听者的面部宽度来提供从第一传感器到收听者的头部位置的距离的指示。在方面12中，基于接收到的关于收听者位置的第一指示来生成一个或多个经调整的音频信号可以包括使用从第一传感器到收听者的头部位置的距离的指示。

方面13可以包括或使用方面1至12中的一个或任何组合的主题，或者可以可选地与方面1至12中的一个或任何组合的主题相结合，以可选地包括：使用来自第一传感器的信息来接收关于收听者位置的第一指示包括使用图像处理电路确定收听者相对于参考距离的瞳孔间距离，以及确定收听者的头部朝向。方面13可以包括使用确定的瞳孔间距离和收听者的头部朝向来提供从第一传感器到收听者的头部位置的距离的指示，并且方面13可以包括：基于接收到的关于收听者位置的第一指示来生成一个或多个经调整的音频信号包括使用从第一传感器到收听者的头部位置的距离的指示。

方面14可以包括或使用主题(诸如用于执行动作的装置、系统、设备、方法、手段，或包括指令的设备可读介质，指令在由设备执行时可以时设备执行动作)，诸如可以包括或使用用于基于相对于扬声器的收听者位置来调整一个或多个输入音频信号的系统，诸如可以单独或以各种组合包括方面1至13中的一个或多个。在示例中，方面14包括一种系统，该系统包括：第一传感器，被配置为接收关于由第一传感器监视的收听环境中的收听者位置的第一指示；以及音频处理器电路，被配置为基于(1)从第一传感器接收到的关于收听者位置的第一指示、(2)关于扬声器相对于相机的位置的信息以及(3)一个或多个接收到的音频信号来生成一个或多个经调整的音频信号。

方面15可以包括或使用方面14的主题，或者可以可选地与方面14的主题相结合，以可选地包括：耦合到第一传感器的图像处理器电路，该图像处理器电路被配置为从第一传感器接收关于收听环境的图像或深度信息，该图像或深度信息包括关于收听者位置的第一指示。在方面15中，图像处理器电路可以被配置为基于接收到的图像信息来确定收听者的头部朝向，该头部朝向包括收听者的头部偏航、头部俯仰或头部侧倾中的一个或多个的指示。在方面15中，音频处理器电路可以被配置为基于接收到的关于收听者位置的第一指示，包括使用确定的头部朝向，来生成一个或多个经调整的音频信号。

方面16可以包括或使用方面15的主题，或者可以可选地与方面15的主题相组合，以可选地包括：图像处理器电路和音频处理器电路中的至少一个还被配置为基于收听者的头部偏航、头部俯仰或头部侧倾中的一个或多个的指示来确定指示从到收听者的两只耳朵的每只耳朵的距离的距离参数。

方面17可以包括或使用方面14至16中的一个或任何组合的主题，或者可以可选地与方面14至16中的一个或任何组合的主题相结合，以可选地包括：音频处理器电路，该音频处理器电路包括被配置为接收一个或多个输入音频信号的音频输入端，以及耦合到音频输入端并被配置为使用虚拟化滤波器来生成与输入音频信号对应的虚拟化的音频信号的虚拟化器电路，其中虚拟化滤波器与从第一传感器接收到的关于收听者位置的第一指示对应。方面17可以包括被配置为向虚拟化的音频信号中的一个或多个应用增益和/或延迟以提供经调整的音频信号的甜蜜点适配器电路。方面17还可以包括被配置为提供经调整的音频信号的音频输出端。

方面18可以包括或使用方面14至16中的一个或任何组合的主题，或者可以可选地与方面14至16中的一个或任何组合的主题相结合，以可选地包括：音频处理器电路，该音频处理器电路包括被配置为接收一个或多个输入音频信号的音频输入端，以及耦合到音频输入端并被配置为使用虚拟化滤波器来基于输入音频信号生成一个或多个经调整的音频信号的虚拟化器电路，其中虚拟化器滤波器由虚拟化器电路基于从第一传感器接收到的关于收听者位置的第一指示来选择。

方面19可以包括或使用主题(诸如用于执行动作的装置、系统、设备、方法、手段，或包括指令的设备可读介质，指令在由设备执行时可以时设备执行动作)，诸如可以包括或使用用于基于输入音频信号为环境中的第一收听者生成一个或多个虚拟化的音频信号的装置，诸如可以单独或以各种组合包括方面1至18中的一个或多个。在示例中，方面19包括具有图像处理电路的第一传感器，该图像处理电路被配置为从第一传感器的第一视场接收图像信息并确定第一传感器的视场中从第一传感器到第一收听者的距离，其中图像处理电路被配置为使用关于第一收听者的头部偏航、头部俯仰或头部侧倾角中的一项或多项的信息来确定该距离。方面19还包括音频处理器电路，该音频处理器电路被配置为基于(1)确定的从相机到第一收听者的距离、(2)关于扬声器相对于第一传感器的位置的信息以及(3)输入音频信号来生成一个或多个虚拟化的音频信号。

方面20可以包括或使用方面19，或者可以与方面19的主题相结合，以可选地包括：音频处理器电路，该音频处理器电路包括虚拟化器电路和甜蜜点适配器电路，其中虚拟化器电路被配置为通过将头部相关传递函数(HRTF)滤波器应用于输入音频信号来生成中间输出信号，其中HRTF滤波器是基于确定的从第一传感器到第一收听者的距离来选择的，并且其中甜蜜点适配器电路被配置为通过将增益和/或延迟应用于由虚拟化器电路生成的中间输出信号来为环境中的第一收听者生成一个或多个虚拟化的音频信号。

这些非限制性方面中的每一个可以独立存在，或者可以与本文提供的一个或多个其它方面或示例以各种置换或组合的方式组合。

在本文件中，如在专利文件中常用的，术语“一”或“一个”包括一个或多于一个，独立于“至少一个”或“一个或多个”的任何其它情况或用法。在本文件中，除非另有说明，否则术语“或”用于表示非排他性的或，使得“A或B”包括“A但不包括B”、“B但不包括A”和“A和B”。在本文件中，术语“包括(including)”和“其中(in which)”被用作相应术语“包括(comprising)”和“其中(wherein)”的普通英语等效词。

除非另外特别说明或在所使用的上下文中以其它方式理解，否则本文中所使用的条件语言，尤其是诸如“能够”、“可能”、“可以”、“例如”等一般旨在传达某些实施例包括而某些实施例不包括某些特征、要素和/或状态。因此，这样的条件语言一般不旨在暗示特征、要素和/或状态以任何方式对于一个或多个实施例是必需的，或者一个或多个实施例必然包括用于在有或没有作者输入或提示的情况下决定这些特征、要素和/或状态是否要在任何特定实施例中被包括或将被执行的逻辑。

虽然上面的详细描述已经示出、描述并指出了应用于各种实施例的新颖特征，但是应该理解的是，可以对所示出的设备或算法的形式和细节进行各种省略、替换和改变。如将认识到的，本文描述的本发明的某些实施例可以以不提供本文阐述的所有特征和优点的形式来实施，因为一些特征可以与其它特征分开使用或实践。

而且，虽然已经用特定于结构特征或方法或动作的语言描述了主题，但是应该理解的是，所附权利要求书中定义的主题不必限于上述特定特征或动作。更确切地说，上述具体特征和动作被公开为实现权利要求的示例形式。

Claims

1.一种用于基于相对于第一扬声器和第二扬声器的收听者位置调整一个或多个接收到的音频信号以在收听环境中的收听者位置处提供收听甜蜜点的方法，该方法包括：

接收校准信息，该校准信息包括(a)从参考收听者位置到相机的参考距离信息、和(b)关于在参考收听者位置处的收听者头部或收听者面部的参考宽度信息，其中参考宽度信息以角度量度为单位；

从相机接收关于在收听环境中的收听者位置处的收听者的图像信息，该图像信息包括关于收听者的头部或面部的特征宽度信息；

使用参考距离信息、参考宽度信息和关于收听者的图像信息，确定从相机到收听者位置的距离，确定所述距离包括根据参考宽度信息与特征宽度信息之比来缩放参考距离信息；以及

使用音频处理器电路基于(1)所确定的从相机到收听者位置的距离、(2)关于相对于相机的第一扬声器和第二扬声器的位置的信息、和(3)所述一个或多个接收到的音频信号，生成一个或多个经调整的音频信号以便使用所述第一扬声器和第二扬声器回放。

2.如权利要求1所述的方法，其中，确定从相机到收听者位置的距离包括接收收听者的头部朝向的指示，其中，收听者的头部朝向包括收听者的头部偏航、头部俯仰或头部侧倾中的一项或多项的指示，并且其中，生成所述经调整的音频信号包括使用收听者的头部偏航、头部俯仰或头部侧倾的指示。

3.如权利要求2所述的方法，还包括基于接收到的收听者的头部朝向的指示来确定指示从扬声器到收听者的两只耳朵中的每只耳朵的距离的距离参数，并且其中，生成所述经调整的音频信号包括使用被选择为补偿从扬声器到收听者的两只耳朵中的每只耳朵的距离的滤波器来生成至少一对音频信号。

4.如权利要求3所述的方法，其中，音频处理器电路包括虚拟化器电路和甜蜜点适配器电路；

其中，虚拟化器电路被配置为接收所述一个或多个接收到的音频信号并基于第一虚拟化滤波器生成虚拟化的音频信号；并且

其中，甜蜜点适配器电路被配置为从虚拟化器电路接收虚拟化的音频信号并基于所确定的从相机到收听者位置的距离来提供所述一个或多个经调整的音频信号。

5.如权利要求4所述的方法，其中，甜蜜点适配器电路被配置为向接收到的虚拟化的音频信号的至少一个音频信号声道应用增益和/或延迟，其中，所述增益和/或延迟基于收听者位置。

6.如权利要求1所述的方法，其中，音频处理器电路包括虚拟化器电路和甜蜜点适配器电路；

其中，甜蜜点适配器电路被配置为接收所述一个或多个接收到的音频信号并基于接收到的关于收听者位置的第一指示应用增益和/或延迟以提供中间音频输出；并且

其中，虚拟化器电路被配置为从甜蜜点适配器电路接收中间音频输出并基于收听者位置使用第一虚拟化滤波器来应用音频虚拟化处理以生成经调整的音频信号。

7.如权利要求1所述的方法，其中，音频处理器电路包括虚拟化器电路，并且其中，虚拟化器电路被配置为接收所述一个或多个接收到的音频信号并对所述接收到的一个或多个音频信号应用虚拟化处理，以生成经调整的音频信号。

8.如权利要求7所述的方法，还包括基于收听者位置来选择要应用于所述接收到的一个或多个音频信号以生成经调整的音频信号的第一虚拟化滤波器，其中，第一虚拟化滤波器是：

从存储器电路中的多个可用的虚拟化滤波器当中选择的；或者

使用虚拟化器电路或另一个处理器电路基于数学模型而确定的，所述数学模型使用收听者位置作为模型的输入；或者

使用多个其它滤波器的插值而确定的。

9.如权利要求7所述的方法，还包括：

使用来自相机的信息来接收关于收听者位置的后续指示；以及

使用音频处理器电路基于不同的第二虚拟化滤波器来生成所述一个或多个经调整的音频信号，其中，虚拟化器电路被配置为基于接收到的关于收听者位置的后续指示来选择所述不同的第二虚拟化滤波器。

10.如权利要求3所述的方法，其中，确定从相机到收听者位置的距离包括使用图像处理电路：

确定相对于参考面部宽度的收听者的面部宽度；以及

使用所确定的收听者的面部宽度来确定从相机到收听者的头部位置的距离。

11.如权利要求3所述的方法，其中，确定从相机到收听者位置的距离包括：

确定相对于参考距离的收听者的瞳孔间距离；

确定收听者的头部朝向；以及

使用所确定的收听者的瞳孔间距离和头部朝向来提供到收听者的头部位置的距离的指示。

12.一种用于基于相对于扬声器的收听者位置来调整一个或多个输入音频信号的系统，该系统包括：

相机，被配置为接收关于具有收听环境中的收听者位置的收听者的图像数据，该图像数据没有深度信息，其中该图像数据包括关于收听者的面部宽度的信息，并且面部宽度以角度量度为单位来表示；

图像处理器电路，被配置为使用(a)没有深度信息的所述图像数据、(b)关于从参考收听者位置到相机的参考距离信息、和(c)关于在参考收听者位置处的收听者面部宽度的参考宽度信息来确定从相机到收听者位置的距离；以及

音频处理器电路，被配置为基于(1)所确定的从相机到收听者位置的距离、(2)关于相对于相机的扬声器的位置的信息、和(3)所述一个或多个输入音频信号，生成一个或多个经调整的音频信号，

其中，音频处理器电路被配置为通过根据关于收听者面部宽度的参考宽度信息与来自图像数据的关于收听者的面部宽度的信息之比来缩放参考距离信息，确定从相机到收听者位置的距离。

13.如权利要求12所述的系统，其中，图像处理器电路被配置为基于接收到的图像数据来确定收听者的头部朝向，该头部朝向包括收听者的头部偏航、头部俯仰或头部侧倾中的一项或多项的指示；并且

其中，音频处理器电路被配置为使用所确定的头部朝向来生成所述经调整的音频信号。

14.如权利要求13所述的系统，其中，图像处理器电路和音频处理器电路中的至少一个还被配置为基于收听者的头部偏航、头部俯仰或头部侧倾中的所述一项或多项的指示来确定指示从扬声器到收听者的两只耳朵中的每只耳朵的距离的距离参数。

15.如权利要求12所述的系统，其中，音频处理器电路包括：

音频输入端，被配置为接收所述一个或多个输入音频信号；

虚拟化器电路，耦合到音频输入端并被配置为使用虚拟化滤波器来生成与输入音频信号对应的虚拟化的音频信号，其中，虚拟化滤波器对应于收听者位置；以及

甜蜜点适配器电路，被配置为向虚拟化的音频信号中的一个或多个应用增益和/或延迟以提供经调整的音频信号；以及

音频输出端，被配置为提供经调整的音频信号。

16.如权利要求12所述的系统，其中，音频处理器电路包括：

音频输入端，被配置为接收所述一个或多个输入音频信号；以及

虚拟化器电路，耦合到音频输入端并被配置为使用虚拟化滤波器来基于输入音频信号生成所述经调整的音频信号，其中，虚拟化器滤波器是由虚拟化器电路基于收听者位置而选择的。

17.一种用于生成虚拟化的音频信号以供使用环境中的扬声器向第一收听者回放的装置，虚拟化的音频信号基于输入音频信号，该装置包括：

具有图像处理电路的相机，该图像处理电路被配置为：

从相机的第一视场接收没有深度信息的图像信息，该图像信息包括关于第一收听者的头部或面部的特征宽度信息，其中特征宽度信息以角度量度为单位，以及

通过根据关于在参考收听者位置处的收听者面部宽度的参考宽度信息与特征宽度信息之比来缩放关于从参考收听者位置到相机的距离的参考距离信息，确定相机的第一视场中从相机到第一收听者的距离；以及

音频处理器电路，被配置为生成虚拟化的音频信号以供使用扬声器向第一收听者回放，其中，虚拟化的音频信号基于(1)所确定的从相机到第一收听者的距离、(2)关于相对于相机的扬声器的位置的信息、以及(3)输入音频信号；

其中，生成虚拟化的音频信号包括选择头部相关传递函数(HRTF)滤波器并向输入音频信号应用所选择的HRTF滤波器。

18.如权利要求17所述的装置，其中，音频处理器电路包括虚拟化器电路和甜蜜点适配器电路，其中，虚拟化器电路被配置为通过向输入音频信号应用HRTF滤波器来生成中间输出信号，其中，HRTF滤波器是基于所确定的从相机到第一收听者的距离而选择的，并且其中，甜蜜点适配器电路被配置为通过向由虚拟化器电路生成的中间输出信号应用增益和/或延迟来为环境中的第一收听者生成所述虚拟化的音频信号。

19.如权利要求17所述的装置，其中，图像处理器电路被配置为使用关于收听者的头部偏航、头部俯仰或头部侧倾中的一项或多项的信息来确定距离。