CN105325014A

CN105325014A - 基于用户跟踪的声场调节

Info

Publication number: CN105325014A
Application number: CN201480024882.3A
Authority: CN
Inventors: C.R.海尼曼; A.W.罗维特
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-05-02
Filing date: 2014-05-02
Publication date: 2016-02-10
Also published as: EP2992690A1; WO2014179633A1; US20140328505A1

Abstract

公开了与调节环境中的声场相关的实施例。例如，一个公开的实施例包含接收关于环境中的用户的信息以及基于该信息将一个或多个音频信号输出到一个或多个扬声器。方法进一步包含：检测指示环境中的用户和与用户相关的物体中的一个或多个的方位的改变的信息的改变；以及基于该信息的改变修改输出到一个或多个扬声器的一个或多个音频信号。

Description

基于用户跟踪的声场调节

背景技术

音频系统可以产生用于输出到房间或其它环境中的扬声器的音频信号。与音频信号相关的各种设定可以基于环境中的扬声器设置来调整。例如，提供给环绕声扬声器系统的音频信号可以被校准以提供空间内的音频“甜点（sweetspot）”。同样地，用户可以在一些收听环境中经由头戴耳机消费音频。在这样的环境中，头部相关传递函数（HRTF）可以被利用以经由头戴耳机扬声器来再现环绕声体验。

发明内容

公开了用于调节环境中的声场的实施例。例如，一个公开的实施例提供了包含以下的方法：接收关于环境中的用户的信息；以及基于该信息将一个或多个音频信号输出到一个或多个扬声器。方法进一步包括：检测指示用户和与用户相关的物体中的一个或多个在环境中的方位的改变的信息中的改变；以及基于信息的改变而修改输出到一个或多个扬声器的一个或多个音频信号。

本发明内容被提供以简化的形式介绍以下具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识要求保护的主题的关键特征或必要特征，也不旨在用来限制要求保护的主题的范围。而且，要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实施方式。

附图说明

图1示出依据本公开的实施例的用于音频输出系统的示例使用环境的示意性描绘。

图2A－7示出依据本公开的示例声音调节场景。

图8示出用于调节环境中的声场的方法的实施例。

图9示意性示出计算系统的实施例。

具体实施方式

音频系统可以提供用于输出到一个或多个扬声器的音频信号，其中可以针对具体扬声器配置调节音频信号。例如，可以针对公共输出配置和格式，诸如7.1、9.1和5.1环绕声格式以及两扬声器立体声（2.0）格式，来调节音频内容。

音频接收器和渲染器可以操作以在给定用户的收听环境中的扬声器设置的情况下产生音频内容的选择表示。因此，一些音频输出系统可以基于本地环境来校准到扬声器的音频输出，以便提供环境内的一个或多个音频“甜点”。这里，术语“甜点”指代扬声器系统中的焦点，在该焦点中用户能够听见如旨在要通过混音器而听见的混音。

然而，这样的音频输出校准和/或操纵技术将恒定的声音体验提供给环境中的用户，因为“甜点”的位置是静态的。因此，如果用户移动远离房间中的扬声器“甜点”，则由用户感知的音频输出的质量可能相对于甜点处的质量而降低。另外，这样的校准和/或操纵技术可以是基于声学的，并且因此在校准期间易受房间噪声的影响。此外，在头戴耳机的情况下，经由头戴耳机提供给用户的混音可以随着用户在环境中改变取向和位置而保持不改变。

因此，基于自然用户界面（NUI）跟踪的反馈可以用来跟踪一个或多个用户在环境中的方位，并且提供给扬声器的声音信号可以基于（一个或多个）用户在环境中的方位而变化。用户跟踪可以经由任何适合的传感器来执行，该任何适合的传感器包含但不限一个或多个深度照相机或其它基于图像的深度感测系统、二维照相机、定向麦克风阵列、允许方位确定的其它声学深度感测系统（例如，声纳系统和/或基于混响时间的系统）和/或能够提供方位信息的其它传感器。

自然用户界面系统可以能够将这样的方位信息确定为用户在环境中的位置、用户在环境中的取向、用户的头部方位、姿态和姿势信息以及注视方向和注视焦点方位。另外，自然用户界面系统可以能够确定和表征环境的各种特征，诸如环境的大小、环境的布局、环境的几何形状、环境中的物体、环境中的表面纹理等。这样的信息然后可以被声场调节系统用来动态地调节提供给环境中的用户的声场，以便提供增强的收听体验。自然用户界面系统也能够特别地确定声场中的障碍物，从而呈现给环境中的用户的声场被调节或修改以补偿识别的障碍物。例如，如果一个人正站在针对另一用户的声场的路径中，则呈现给用户的声场可以被调节，从而声场看似那人不在那里。

图1示出针对音频输出系统的示例使用环境100的示意性描绘，其中环境100采取房间的形式。应当理解的是，出于示例的目的而呈现环境100，并且使用环境可以采取任何其它适合形式。举例来说，环境100包含音频输出系统116、显示设备104以及扬声器112和110。音频输出系统116和显示设备104可以被包含在电视、游戏系统、立体声系统、和/或其它适合计算系统中。应当理解的是，虽然图1示出显示设备104，但是在一些示例中环境100可以不包含任何显示设备。另外，应当理解的是，虽然图1示出单个显示设备104，但是在其它示例中环境100可以包含被安置在环境中的不同位置处的多个显示设备或者多个设备可以被包含在单个设备（例如其中具有游戏控制台的电视）中。

音频输出系统116被配置成将音频信号输出到扬声器112和110。应当理解的是，虽然图1示出环境100中的仅两个扬声器，但是任何适合数目的扬声器可以被包含在环境100中。例如，扬声器112和110可以被包含在环绕声扬声器系统中，该环绕声扬声器系统包含被安置在环境100中的不同位置处的多个扬声器。可以针对环境100中的特定扬声器布置，例如7.1、9.1、5.1或2.0音频输出格式来调节通过音频输出系统116输出的音频内容。

图1示出被安置在环境100中的中央位置处并且观看呈现在显示设备104上的内容的用户106。因为用户106被安置在扬声器112和110之间的中央位置处，通过音频输出系统116输出的音频内容的渲染可以针对在该中央位置或“甜点”处收听而被优化。另外，在一些示例中，环境100中的一个或多个用户可以穿戴从音频输出系统116接收输出的头戴耳机114。

环境100也包含被配置成跟踪环境100中的一个或多个用户的传感器系统108。传感器系统108可以提供适合于跟踪用户在环境100中的方位的数据。传感器系统108可以包含任何适合感测设备，其包含但不限于以下中的一个或多个：深度照相机、IR图像传感器、可见光（例如，RGB）图像传感器、声学传感器（诸如定向麦克风阵列）、声纳系统、和/或其它听觉方法（例如，基于混响时间）。

基于从传感器系统108接收到的数据，用户106的方位信息可以被实时确定和跟踪。可以被跟踪的用户的方位信息的示例包含：用户或用户的部分（例如用户的头部）的位置；用户或用户的部分（例如用户的头部）的取向；用户或用户的部分（例如用户的头部）的姿势或者用户的身体姿势；以及用户姿态。另外，传感器系统108可以用来参数化环境100的各种特征，其包含环境的大小、环境的布局、环境的几何形状、环境中的物体及其对用户106的相对方位、环境中的表面纹理等。

经由传感器系统108从用户跟踪系统捕获的用户在环境100中的实时方位和取向信息可以用来调节呈现给环境中的用户的声音。例如，图2A示出在环境100中的第一方位处的用户106，并且图2B示出在环境100中的第二、不同方位处的用户106。在图2A和2B中示出的示例中，用户106正听着从环境100中的扬声器112和110发出的声音。例如，与呈现在显示设备104上的内容相关联的音频可以被输出到扬声器112和110。

当用户106在图2A中示出的环境100中的第一方位处时，用户跟踪系统可以例如经由传感器系统108确定用户106的位置，并且被发送到扬声器的音频信号可以被相应地修改。例如，基于用户106在环境100中的该第一方位，到扬声器112和110的音频输出可以被调整以将声学“甜点”安置在对应于环境100中的用户106的第一方位的位置216处。更具体地，输出到用于扬声器112的第一音频通道和用于扬声器110的第二音频通道的音频信号可以基于用户106在环境100中的方位来选择。

在图2B中，用户106已经朝着环境100的左侧移到第二方位。用户跟踪系统确定用户106的该新的位置，并且通过调整提供给扬声器112和110的音频信号将“甜点”更新到新的位置218。音频信号可以以任何适合方式来调整。音频信号可以是数字或模拟的，并且可以包括分量的任何数学组合。例如，“甜点”可以通过调整每个通道音频延迟和/或增益而被重新定位。

另外，假定对于音频渲染器内的所有通道存在小量的缓冲，例如基于系统可以做出的调整的最大量的量，在一些实施例中，针对每个扬声器通道的数据缓冲可以取决于扬声器和用户位置而被动态地重新调整大小，以便保持预期的扬声器到达时间。该延迟可以例如使用以下来计算：用户106在3维空间中的头部位置、近似的扬声器位置、用户位置和声速。而且，能够进行针对每个通道的最终修改，以便抵消相比于中央位置处的期望功率的声音功率损耗（或增益）。而且，可以执行随着时间对滤波增益和/或到达时间的调整以例如为了更舒适的用户体验或由于系统的硬件限制而减少信号改变。

图3A和3B示出图示基于用户106在环境中的取向来调节呈现给用户106的声场的示例场景。图3A示出在环境100中以第一取向处于第一方位的用户106，并且图3B示出在环境100中以第二、不同取向处于第二、不同方位的用户106。在图3A和3B中示出的示例中，用户106经由头戴耳机114正听着与呈现在显示设备104上的内容相关联的声音。

图3A示出看向显示设备104的第一方位和取向中的用户106。当用户106在图3A中示出的环境100中的第一方位和取向处时，用户跟踪系统可以确定用户106相对于环境100中的各种物体例如相对于显示设备104和相对于书架302的取向，并且被发送到头戴耳机的音频信号可以被相应地修改。例如，基于用户106在环境100中的该第一取向，到头戴耳机114中的扬声器的音频输出可以被调整，使得头戴耳机中的左边和右边的扬声器具有与用户相对于显示设备104的位置相一致的立体声输出。作为更具体的示例，用户106可以正观看在显示设备104上显示的电影，并且到头戴耳机114的音频输出的左边和右边音量水平可以基于该取向对于用户是基本上类似。

接着关于图3B，用户106已经将取向改到面向书架302。用户跟踪系统可以确定用户106的该新的取向，并且到头戴耳机114的音频输出可以被相应地修改。例如，因为用户的头部被取向朝着书架302，这可以指示用户106已经将注意力从显示设备104移到书架302来看书，所以到头戴耳机114的左边和右边通道的音频输出可以被修改以不加强与呈现在显示设备104上的内容相关联的声音。另外，HRTF可以被应用到被发送到头戴耳机114的音频信号，以便将与显示设备内容相关联的声音安置在用户106后面并且到用户106的左边的位置处。作为另一示例，在用户106正背对显示设备104时，与呈现在显示设备上的内容相关联的音量可以被降低或静音。如在本文中使用的那样，术语“HRTF”可以包含基于用户方位被应用到音频信号的任何适合音频路径传递函数。作为一个非限制的示例，HRTF可以用来确定用户的左耳和右耳在从离用户的头部的某一方位处的在来自某一声源的直接路径中接收到什么。作为一个非限制的示例，用户的环境例如用户被安置于的房间（真实或虚拟）可以被建模，并且基于环境中的物体的回声路径可以被添加到声源。

图4A和4B示出示例场景，该示例场景图示呈现给包含第一房间402和第二房间404的环境100中的用户106的声场的调节。在图4A和4B中，第一房间402包含显示设备104，并且第二房间404没有显示设备。第二房间404通过包含门口412的墙410与第一房间402分离。

图4A示出被安置在第一房间402内面向显示设备104的用户106。显示设备104可以是用于游戏系统的输出，并且用户106可以与游戏系统交互并且经由头戴耳机114听着与显示的游戏相关联的音频输出。用户跟踪系统可以确定房间402中的用户106的方位和取向，并且可以基于用户在房间402中的方位和取向经由头戴耳机114来提供音频输出给用户。

在图4B中，用户104已经经由门口412移到第二房间404中，并且因此通过墙410与显示设备104分离。用户跟踪系统可以确定用户106已经离开含有显示设备104的房间，并且可以相应地修改到头戴耳机114的输出。例如，与提供在显示设备104上的内容相关联的音频输出可以响应于用户106离开房间402并且去到第二房间404中而被静音或降低。

图5A和5B示出调节呈现给包含具有分屏显示器的显示设备的环境100中的用户106的声场的示例。第一屏幕502被显示在显示设备104的左边区域上，并且第二屏幕504被显示在显示设备104的右侧上。显示设备104被描绘为在第一屏幕502上显示自然节目并且在第二屏幕504上显示拳击比赛的电视。音频输出系统116可以将与呈现在显示设备上的内容相关联的音频信号发送到扬声器（例如，扬声器112和扬声器110）和/或用户106穿戴的头戴耳机114。

在图5A中，用户106注视或聚焦于第一屏幕502。用户跟踪系统可以例如基于用户的头部取向、用户的身体姿势、眼睛跟踪数据或经由传感器系统108获得的任何其它适合的数据来确定用户的注视或焦点的位置或方向。响应于确定用户106正聚焦于第一屏幕502，发送到扬声器和/或头戴耳机114的音频信号可以基于用户的注视或焦点来修改。例如，因为用户106正聚焦于第一屏幕502，所以与第一屏幕502相关联的音频（例如，与自然节目相关联的声音）可以被输出到扬声器和/或头戴耳机。另外，与第二屏幕504相关联的音频可以不被输出到扬声器或头戴耳机。

在图5B中，用户106已经将焦点从第一屏幕502改变到第二屏幕504。用户跟踪系统可以例如基于传感器系统108来检测用户焦点的该改变，以确定用户的注视的新的位置或方向。响应于确定用户106正聚焦于第二屏幕504，发送到扬声器和/或头戴耳机114的音频信号可以基于用户的焦点的该改变来修改。例如，因为用户106现在正聚焦于第二屏幕504，所以与第二屏幕504相关联的音频（例如，拳击比赛）可以被输出到扬声器和/或头戴耳机。另外，与第一屏幕502相关联的音频可以被静音，因为用户不再聚焦于图5B中的第一屏幕502。

虽然图5A和5B示出包含多个不同屏幕的单个显示设备，但是在一些示例中环境100可以包含每个显示不同内容的多个不同显示设备。因此，经由扬声器和/或头戴耳机提供给用户的音频内容可以取决于用户聚焦于哪个特定显示设备，如以上在分屏的上下文中描述的那样。另外，在一些实施例中，混音内的不同声音可以取决于其中用户在显示单个屏幕的内容的单个显示器中正注视于的位置而被加强，以强调与显示在屏幕上的该位置处的物体相关联的声音。例如，如果用户正观看音乐会录像，则混音内的鼓声的音量可以在用户正注视在显示器上显示的鼓的情况下被增加。

图6示出图示调节呈现给包含处于分屏显示模式的显示设备104的环境100中的第一用户106和第二用户606的声场的示例场景。如以上关于图5A和5B描述的那样，第一屏幕502被显示在显示设备104的左边区域，并且第二屏幕504被显示在显示设备104的右侧。

在图6中，第一用户106正聚焦于第一屏幕502，该第一屏幕502正显示自然节目，并且第二用户606正聚焦于第二屏幕504，该第二屏幕正显示拳击比赛。用户跟踪系统例如经由传感器系统108确定第一用户106和第二用户606的位置和焦点方向，并且相应地修改到头戴耳机114和614的音频输出。例如，因为第一用户106被安置成接近和聚焦于第一屏幕502，所以与显示在第一屏幕502上的内容相关联的音频被输出到用户106穿戴的头戴耳机114，而与第二屏幕504上的内容相关联的音频输出不被输出到头戴耳机114。同样地，因为第二用户606被安置成接近和聚焦于第二屏幕504，所以与显示在第二屏幕504上的内容相关联的音频被输出到用户606穿戴的头戴耳机614，而与第一屏幕502上的内容相关联的音频输出不被输出到头戴耳机614。另外，将理解的是，任何声场（无论头戴耳机扬声器还是非头戴耳机扬声器提供）可以针对每个用户被创建和调节，如在本文中描述的那样。

图7示出图示基于用户的姿态来调节呈现给用户106的声场的示例场景。在图7中，用户正观看显示设备104（例如，电视）上的内容，并且经由头戴耳机114正听着与内容相关联的声音。用户跟踪系统可以例如经由传感器系统108确定用户106的姿态或姿势信息，并且相应地修改到头戴耳机的声音输出。例如，图7示出用户106执行其中用户的手正盖着用户的耳的姿态。响应于通过用户跟踪系统检测到该姿态，到头戴耳机114的音频输出可以被至少部分静音以模仿用户106盖着其耳来遮挡声音的音频效果。

图8示出描绘用于基于用户在环境中的实时方位信息来调节环境中的声场的方法800的示例实施例的流程图。例如，具有一个或多个传感器的用户跟踪接口可以用来随着用户在环境内改变方位，而持续地跟踪用户的位置、取向、姿势、姿态等。在一些示例中，该用户方位信息可以被馈入音频渲染器，以便调整呈现给用户的声场。在另一示例实施例中，音频信号可以从音频渲染器来接收，并且然后基于用户方位信息来修改。

在802处，方法800包含接收用户在环境中的方位信息。例如，在804处，方法800可以包含接收捕获在环境中的一个或多个用户的深度图像数据，和/或其它适合传感器数据，以及从传感器数据确定方位信息。方位信息可以指示一个或多个用户在环境中的位置、取向、姿态、姿势和注视方向或焦点的位置。作为更具体的非限制示例，深度照相机可以用来确定3空间中的用户的头部方位和取向，以便逼近用户的耳的方位。

另外，如在806处指示的那样，在一些实施例中，方法800可以包含接收环境特性数据。例如，来自深度照相机的深度图像可以用来确定和参数化环境的各种特征或特性。可以确定的环境的示例特性包含但不限于大小、几何形状、布局、表面位置和表面纹理。

在808处，方法800包含输出基于方位信息确定的音频信号。例如，一个或多个音频信号可以基于从用户跟踪系统确定的用户在环境中的方位信息而被输出到一个或多个扬声器。例如，一个或多个扬声器可以被包含在环绕声扬声器系统中和/或可以包含环境中的一个或多个用户穿戴的头戴耳机。如以上注释的那样，在一些示例中，方位信息可以被提供给音频渲染器，并且音频信号可以基于音频渲染器处的方位信息来修改。然而，在替代实施例中，音频信号可以从音频渲染器来接收，并且然后基于用户方位信息来修改。

可以以任何适合方式来确定声音信号。例如，在一些实施例中，基于用户的第一方位信息，第一HRTF可以被应用到音频信号。第一HRTF可以例如通过基于方位信息在HRTF的查找表中定位HRTF来确定，如以下更详细地描述的那样。在其它实施例中，用户位置、取向、姿势或其它方位信息可以被利用来确定增益、延迟和/或其它信号处理以应用到一个或多个音频信号。

另外，在另一示例场景中，在识别的物体上的用户焦点可以被确定，并且多个音频信号中的一个或多个音频信号可以以第一方式被修改以加强在混音中与识别的物体相关联的声音。混音中与识别的物体相关联的声音可以包含混音中的具体声音，并且可以是混音中的亚成分，例如通过音频信号处理暴露的个别音轨、特征等。作为更具体的示例，识别的物体可以被显示在环境中的显示设备上，并且与识别的物体相关联的声音可以被输出到聚焦于物体的用户穿戴的头戴耳机。

以图8继续，在一些实施例中，方法800可以在810处包含基于环境特性数据将音频信号输出到扬声器。例如，信号处理可以被利用来确定特定环境中的用户的媒体源的位置和延迟信息，并且音频输出相应地调整。作为更具体的示例，可以基于房间的大小利用混响量来处理音频信号。

在812处，方法800包含检测方位信息的改变。例如，用户跟踪系统可以用来检测方位信息的改变，其指示一个或多个用户在环境中的方位的改变。方位信息的改变可以以任何适合方式来检测。例如，如在814处指示的那样，方法800可以包含接收深度图像数据，并且从深度图像数据检测方位信息的改变。将理解的是，也可以利用除了深度图像数据以外或者之外的任何其它适合的传感器数据。

方位信息的改变可以包括任何适合类型的改变。例如，改变可以对应于以下中的改变：用户取向816、位置818、姿势820、姿态822、注视方向或注视焦点的位置等。另外，方位信息可以包括关于两个或更多个用户在环境中的方位的信息。在该示例中，到与不同用户相关联的扬声器的音频输出可以基于每个用户的更新方位信息来调整。

在824处，方法800包含基于方位信息的改变来修改到多个扬声器中的一个或多个的音频信号输出。如以上提到的那样，音频信号可以以任何适合方式来修改。例如，用户位置、取向、姿势或其它方位信息可以被利用来确定增益、延迟和/或其它信号处理以应用到一个或多个音频信号。

而且，用于改变的方位的HRTF可以被获得（例如，经由查找表或其它适合方式），并且HRTF可以被应用到音频信号，如在826处指示的那样。作为更具体的示例，当使用头戴耳机时，某一类型的HRTF缩混经常被应用以将具有许多通道的扬声器混音向下转换成立体声。因此，头部相关传递函数数据库、查找表或包括用于平面或球面使用的头部相关传递函数的其它数据存储可以用来修改到头戴耳机的音频输出。在平面使用中，若干头部相关传递函数可能在圆形上的不同点处可用，其中圆形边界表示声源位置并且圆心表示用户方位。球面使用类似于到球形的外推来工作。在任一情况下，头部相关传递函数“点”表示从边界上的特定位置到用户位置的有效变换位置或者滤波器，每个耳有一个。例如，用于创建来自5.1混音的立体声缩混的技术将会在源内容上运行单个组的左边和右边滤波器，每个源通道有一个。这样的处理将会产生3D音频效果。用户跟踪系统跟踪的头部取向可以用来实时编辑这些头部相关传递函数。例如，给定在任何时间的实际用户头部方向和取向，并且给定如以上描述的头部相关传递函数数据库，音频渲染器能够在头部相关传递函数滤波器之间内插，以便维持声场在确定的位置中，而不管用户头部移动。这样的处理可以随着用户在环境中改变取向，而将增加的写实主义水平添加给到头戴耳机的音频输出，因为声场被恒定地针对用户的取向调节。

另外，在一些示例中，可以基于用户相对于环境中的一个或多个物体的方位信息（诸如，在其中用户被确定聚集于的位置处的物体的身份）来修改到多个扬声器的音频信号输出。作为更具体的示例，多个音频信号中的一个或多个音频信号可以以第一方式来修改以当用户聚焦于第一物体时加强混音中与第一物体相关联的声音，并且多个音频信号中的一个或多个音频信号可以以第二方式来修改以当用户聚焦于第二物体时加强混音中与第二物体相关联的声音。

也可以取决于每个用户的方位信息针对环境中的不同用户不同地修改音频输出。例如，关于两个或更多个用户在环境中的方位的方位信息可以通过用户跟踪系统来确定，并且可以检测指示第一用户的方位的改变的方位信息的改变，使得输出到与第一用户相关联的一个或多个扬声器的一个或多个音频信号可以被修改。另外，可以检测指示第二用户的方位的改变的方位信息的改变，并且输出到与第二用户相关联的一个或多个扬声器的一个或多个音频信号可以被修改。

以该方式，基于用户跟踪的数据可以用来调节音频输出以提供更优化的体验给具有不同位置、取向、姿态和姿势的用户。另外，房间几何形状能够被参数化并且用来增强针对给定环境的体验，从而导致跨越收听环境的更优化的收听体验。

在一些实施例中，以上描述的方法和过程可以关联于一个或多个计算设备的计算系统。特别地，这样的方法和过程可以被实施为计算机应用程序或服务、应用编程接口（API）、库、和/或其它计算机程序产品。

图9示意性示出能够展现以上描述的方法和过程中的一个或多个的计算系统900的非限制实施例。显示设备104可以是计算系统900的一个非限制示例。作为另一示例，音频输出系统116可以是计算系统900的另一非限制示例。计算系统900以简化的形式来示出。将理解的是，实际上，在不脱离本公开的范围的情况下可以使用任何计算机体系结构。在不同实施例中，计算系统900可以采取以下形式：显示设备、可穿戴计算设备、主机计算机、服务器计算机、台式计算机、膝上型计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备（例如，智能电话）等。

计算系统900包含逻辑子系统902和存储子系统904。计算系统900可以可选地包含输出子系统906、输入子系统908、通信子系统910、和/或在图9中未示出的其它部件。

逻辑子系统902包含被配置成执行指令的一个或多个物理设备。例如，逻辑子系统可以被配置成执行指令，该指令是以下中的部分：一个或多个应用、服务、程序、例程、库、对象、部件、数据结构、或其他逻辑构造。这样的指令可以被实施以执行任务、实施数据类型、变换一个或多个部件的状态、或者以其它方式达到期望的结果。

逻辑子系统可以包含被配置成执行软件指令的一个或多个处理器。此外或替代地，逻辑子系统可以包含被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机器。逻辑子系统的处理器可以是单核或多核的，并且在其上执行的程序可以被配置用于顺序、并行或分布式处理。逻辑子系统可以可选地包含在能够被远程地定位和/或配置用于协同处理的两个或更多个设备当中分布的个别部件。逻辑子系统的方面可以通过云计算配置中配置的远程地可访问的、联网的计算设备被虚拟化和执行。

存储子系统904包含被配置成保存数据和/或由逻辑子系统可执行的指令以实施在本文中描述的方法和过程的一个或多个物理设备。当这样的方法和过程被实施时，存储子系统904的状态可以被变换——例如以保存不同数据。

存储子系统904可以包含可移除媒体和/或内建设备。除了其它以外，存储子系统904可以包含光学存储器设备（例如，CD、DVD、HD-DVD、蓝光光盘等）、半导体存储器设备（例如，RAM、EPROM、EEPROM等）和/或磁存储器设备（例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等）。存储子系统904可以包含易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址、和/或内容可寻址的设备。

将领会的是，存储子系统904包含一个或多个物理设备，并且排除本身传播信号。然而，在一些实施例中，在本文中描述的指令的方面可以经由通信媒体通过纯信号（例如，电磁信号、光学信号等）来传播，如与被存储在存储设备上相反。而且，属于本公开的数据和/或其它形式的信息可以通过纯信号来传播。

在一些实施例中，逻辑子系统902和存储子系统904的方面可以被一起集成到一个或多个硬件逻辑部件，通过其可以展现在本文中描述的功能性。这样的硬件逻辑部件可以包含例如现场可编程门阵列（FPGA）、程序和应用特定的集成电路（PASIC/ASIC）、程序和应用特定的标准产品（PSSP/ASSP）、片上系统（SOC）的系统、以及复杂可编程逻辑器件（CPLD）。

输出子系统906当被包含时可以用来呈现由存储子系统904保存的数据的视觉表示。该视觉表示可以采取图形用户界面（GUI）的形式。随着在本文中描述的方法和过程改变由存储子系统保存的数据并且因此变换存储子系统的状态，输出子系统906的状态可以同样地被变换以视觉上表示底层数据的改变。输出子系统906可以包含实质上利用任何类型的技术的一个或多个显示设备。这样的显示设备可以与逻辑子系统902和/或存储子系统904组合在共享外壳中，或者这样的显示设备可以是外围显示设备。

作为另一示例，输出子系统当被包含时可以用来呈现由存储子系统904保存的数据的音频表示。这些音频表示可以采取输出到一个或多个扬声器的一个或多个音频信号的形式。随着本文中描述的方法和过程改变由存储子系统保存的数据并且因此变换存储子系统的状态，输出子系统906的状态可以同样地被变换以经由音频信号表示底层数据的改变。输出子系统906可以包含实质上利用任何类型的技术的一个或多个音频渲染设备。这样的音频设备可以与逻辑子系统902和/或存储子系统904组合在共享外壳中，或者这样的音频设备可以是外围音频设备。

输入子系统908当被包含时可以包括以下或与以下对接：一个或多个用户输入设备，诸如键盘、鼠标、触摸屏、或游戏控制器。在一些实施例中，输入子系统可以包括选择的自然用户输入（NUI）元件部分或与选择的自然用户输入（NUI）元件部分对接。这样的元件部分可以是集成或外围的，并且输入动作的转导和/或处理可以在板上或板外被处理。示例NUI元件部分可以包含：用于话音和/或语音识别的麦克风；用于机器视觉和/或姿态识别的红外、彩色、立体、和/或深度照相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计、和/或陀螺仪；以及用于评估大脑活动的电场感测元件部分。

通信子系统910当被包含时可以被配置成将计算系统900与一个或多个其它计算设备通信地耦合。通信子系统910可以包含与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制示例，通信子系统可以被配置用于经由无线电话网络或者有线或无线的局域或广域网络来通信。在一些实施例中，通信子系统可以允许计算系统900经由诸如因特网之类的网络将消息发送到其它设备和/或从其它设备接收消息。

将理解的是，在本文中描述的配置和/或方案在性质上是示范性的，并且这些具体实施例或示例不要以限制的意义来考虑，因为许多变型是可能的。在本文中描述的具体例程或方法可以表示任何数目的处理策略中的一个或多个。因此，描述和/或图示的各种行为可以以描述和/或图示的顺序、以其它顺序或并行地来执行，或者被省略。同样地，以上描述的过程的次序可以被改变。

本公开的主题包含各种过程、系统和配置的所有新颖和不明显的组合或亚组合和在本文中公开的其它特征、功能、行为、和/或属性、以及其任何和所有等价物。

Claims

1.一种用于在计算设备上调节环境中的声场方法，所述方法包括：

接收关于在环境中的用户和与用户相关的物体中的一个或多个的方位的信息；

基于所述信息将一个或多个音频信号输出到一个或多个扬声器；

检测指示用户在环境中的方位的改变的所述信息的改变；以及

基于所述信息的所述改变修改输出到所述一个或多个扬声器的所述一个或多个音频信号。

2.权利要求1所述的方法，其中所述信息指示所述环境中的所述用户和所述物体中的所述一个或多个的位置、取向、姿势、和部分中的一个或多个。

3.权利要求1所述的方法，进一步包括接收环境特性数据以及基于所述环境特性数据来修改输出到所述一个或多个扬声器的所述一个或多个音频信号。

4.权利要求1所述的方法，进一步包括基于用户相对于所述环境中的一个或多个物体的信息来修改输出到多个扬声器的一个或多个音频信号。

5.权利要求1所述的方法，进一步包括基于用户被确定聚焦于的位置处的物体的身份来修改输出到所述一个或多个扬声器的所述一个或多个音频信号。

6.权利要求1所述的方法，其中修改输出到所述一个或多个扬声器的所述一个或多个音频信号包括应用基于所述信息的所述改变而选择的头部相关传递函数。

7.权利要求1所述的方法，其中所述信息关于两个或更多个用户在所述环境中的方位，并且其中所述方法进一步包括：

检测指示第一用户的方位的改变的信息的改变，并且修改输出到与所述第一用户相关联的一个或多个扬声器的一个或多个音频信号；以及

检测指示第二用户的方位的改变的信息的改变，并且修改输出到与所述第二用户相关联的一个或多个扬声器的一个或多个音频信号。

8.一种计算设备，包括：

逻辑子系统；以及

包括存储在其上的指令的存储子系统，所述指令由所述逻辑子系统可执行以：

　　接收来自深度照相机的深度图像；

　　从所述深度图像定位在环境中的一个或多个用户；

　　从所述深度信息确定在所述环境中的第一物体上的用户焦点；

　　以第一方式修改多个音频信号的一个或多个音频信号以加强混音中与所述第一物体相关联的声音；

　　从所述深度信息确定在所述环境中的第二物体上的用户焦点；以及

　　以第二方式修改所述多个音频信号的一个或多个音频信号以加强混音中与所述第二物体相关联的声音。

9.权利要求8所述的设备，其中在所述第一物体上的所述用户焦点是第一用户焦点并且在所述第二物体上的所述用户焦点是第二用户焦点，并且其中所述存储子系统包括存储在其上的指令，所述指令由所述逻辑子系统进一步可执行以：

将以所述第一方式修改的音频信号输出到与所述第一用户相关联的一个或多个扬声器；以及

将以所述第二方式修改的音频信号输出到与所述第二用户相关联的一个或多个扬声器。

10.权利要求8所述的设备，其中在所述第一物体上的所述用户焦点是用户在第一时间处的焦点并且在所述第二物体上的用户焦点是所述用户在第二时间处的焦点，并且其中所述存储子系统包括存储在其上的指令，所述指令由所述逻辑子系统进一步可执行以：

将以所述第一方式修改的音频信号输出到与在所述第一时间处的所述用户相关联的一个或多个扬声器；以及

将以所述第二方式修改的音频信号输出到与在所述第二时间处的所述用户相关联的一个或多个扬声器。