CN113519168A

CN113519168A - 基于麦克风阵列和深度相机组件输入的扬声器波束控制

Info

Publication number: CN113519168A
Application number: CN202080018314.8A
Authority: CN
Inventors: 迈克尔·阿斯范; 迈克尔·星谊·于; 斯蒂芬·玛格; 迈克尔·斯梅德加德
Original assignee: Facebook Inc
Current assignee: Meta Platforms Inc
Priority date: 2019-03-18
Filing date: 2020-02-17
Publication date: 2021-10-19
Also published as: EP3900393A1; WO2020190435A1; JP2022524684A; US20200304916A1; US10897672B2

Abstract

一种音频设备包括扬声器阵列和控制器，该控制器用于对扬声器阵列的音频输出进行波束控制，以将声音定位在音频设备周围的局部区域中的不同位置。音频设备还包括麦克风阵列或一组相机，其被配置为检测音频设备周围的局部区域中的对象，例如人。根据麦克风阵列或一组相机捕获的数据，音频设备确定对象在局部区域中的位置，并将扬声器阵列的音频输出朝向对象的确定位置控制。当对象在局部区域内移动时，音频设备动态地控制音频输出以随对象一起移动。

Description

基于麦克风阵列和深度相机组件输入的扬声器波束控制

相关申请的交叉引用

本申请要求2019年3月18日提交的第62/820，187号美国申请和2019年8月16日提交的第16/542，500号美国申请的优先权，出于所有目的，其内容通过引用整体结合于此。

背景

本公开一般涉及播放音频数据，更具体地说，涉及将音频数据的输出引导到在局部区域中识别的对象。

传统扬声器被配置为向特定位置或区域输出音频。因此，当用户离开扬声器被配置为输出音频的位置时，用户无法听到扬声器输出的音频。在没有重新定位扬声器或者必须配置不同的扬声器以向不同的位置提供音频输出的情况下，这限制了用户在无法听到扬声器的音频输出之前可以移动的区域。

概述

根据本发明，提供了一种设备，包括：多个扬声器；多个麦克风，其被配置为从所述多个麦克风周围的局部区域捕获音频数据；深度相机组件，其被配置为捕获所述局部区域的视频数据，并确定深度信息，所述深度信息标识从所述深度相机组件到所述局部区域内的位置的深度；控制器，其耦合到所述多个麦克风、所述深度相机组件和所述多个扬声器，所述控制器被配置成：确定所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的距离；从所述深度相机组件捕获的视频数据中识别所述多个麦克风在所述局部区域中捕获音频数据的位置内的对象；从所述深度相机组件捕获的深度信息确定从所述深度相机组件到识别的对象的深度；将所述扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且在距离所述深度相机组件的所述深度处的所识别的对象。

优选地，其中，将所述扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且在距离所述深度相机组件的所述深度处的所识别的对象包括：对于所述多个扬声器中的每一个，确定从法向于扬声器的中心的轴到所述多个麦克风在所述局部区域中捕获音频数据的位置的角度；为所述多个扬声器中的每一个确定加权函数，扬声器的所述加权函数基于为该扬声器确定的角度，并且在所确定的距离和所确定的深度处具有最大值；对于所述多个扬声器中的每一个，将对应于所述扬声器的加权函数应用于所述扬声器的音频输出。

方便地，其中，将所述扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且在距离所述深度相机组件的所述深度处的所识别的对象还包括：基于由所述控制器确定的概率和从法向于位于所述多个扬声器的中心的扬声器的中心的轴到所述多个麦克风在所述局部区域中捕获音频数据的位置的角度的乘积来确定阴影函数(shading function)；对所述多个扬声器的音频输出应用所述阴影函数。

优选地，以下中的任一项成立：a)其中所述深度相机组件包括相隔特定距离且并排放置的一对相机；或者b)其中所述深度相机组件包括相机和深度传感器；或者c)其中所述深度相机组件包括相机，并且所述控制器被配置为根据所述相机捕获的视频数据来确定从所述深度相机组件到所识别的对象的深度；或者d)其中所述多个麦克风包括一阶差分麦克风阵列；在这种情况下，可选地，其中所述一阶差分麦克风阵列包括中心麦克风和与所述中心麦克风具有相等距离的其他麦克风；或者e)其中所述多个麦克风包括二阶差分麦克风阵列，在这种情况下，可选地，其中所述二阶差分麦克风阵列包括以六边形图案排列的至少六个麦克风。

方便地，其中以下中的任一项成立：a)所述控制器还被配置成：从所述深度相机组件捕获的数据中确定所识别的对象在所述局部区域内的位置的改变；确定所识别的对象的相对于垂直于所述设备的中心的轴的更新的距离和改变后的位置；确定从所述深度相机组件到在所述改变后的位置中的所识别的对象的更新的深度；根据所述更新的距离和所述更新的深度，将所述扬声器中的每一个的音频输出重定向到所述局部区域内的所述改变后的位置处的所识别的对象；或者b)其中所述控制器还被配置成：从所述深度相机组件捕获的数据中确定所识别的对象在所述局部区域内的位置的改变；确定所识别的对象的相对于垂直于所述设备的中心的轴的更新的距离和改变后的位置；将所述扬声器中的每一个的音频输出根据所述更新的距离重定向到在所述局部区域内的所述改变后的位置处且位于所述深度的所识别的对象。

优选地，其中所述控制器还被配置成：确定从所述深度相机组件到所识别的对象的更新的深度；将所述扬声器中的每一个的音频输出重定向到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且位于所述更新的深度处的所识别的对象。

方便地，还包括耦合到所述控制器的低音炮。

根据本发明的另一方面，一种计算机程序产品包括其上编码有指令的非暂时性计算机可读存储介质，当由处理器执行时，所述指令使得所述处理器：从由设备中包括的一个或更多个传感器捕获的数据中识别所述设备的局部区域内的对象，所捕获的数据包括音频数据或视频数据；根据由所述传感器中的一个或更多个捕获的数据确定从所述设备到所识别的对象的距离；将所述设备的多个扬声器中的每一个的音频输出引导到所确定的距离处的所识别的对象。

优选地，以下中的任一项成立：a)其中根据由所述传感器中的一个或更多个捕获的数据确定从所述设备到所识别的对象的距离包括：从包括在所述设备中的相机捕获的视频数据中确定从所述设备到所识别的对象的深度；或者b)其中根据由所述传感器中的一个或更多个捕获的数据确定从所述设备到所识别的对象的距离包括：确定由所述设备中包括的一个或更多个麦克风捕获的音频数据到达所述设备的方向；或者c)其中根据由所述传感器中的一个或更多个捕获的数据来确定从所述设备到所识别的对象的距离包括：根据由包括在所述设备中的深度相机组件捕获的视频数据，确定从所述设备到所识别的对象的深度。

根据本发明的另一方面，一种计算机程序产品包括其上编码有指令的非暂时性计算机可读存储介质，当由处理器执行时，所述指令使得所述处理器：确定设备中包括的多个麦克风在局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的距离；从深度相机组件获得所述局部区域的视频数据，并从所述深度相机组件获得标识从所述深度相机组件到所述局部区域内的位置的深度的深度信息；从所述深度相机组件捕获的数据中识别所述多个麦克风在所述局部区域中捕获音频数据的位置内的对象；从所述深度相机组件捕获的数据确定从所述深度相机组件到所识别的对象的深度；将所述设备的多个扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处的所识别的对象以及到从所述深度相机组件到所述识别的对象的所述深度。

方便地，其中将所述设备的多个扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处的所识别的对象以及到从所述深度相机组件到所述识别的对象的所述深度包括：对于所述多个扬声器中的每一个，确定从垂直于扬声器的中心的轴到所述多个麦克风在所述局部区域中捕获音频数据的位置的角度；为所述多个扬声器中的每一个确定加权函数，扬声器的所述加权函数基于为该扬声器确定的角度，并且在所确定的距离和所确定的深度处具有最大值；对于所述多个扬声器中的每一个，将对应于所述扬声器的加权函数应用于所述扬声器的音频输出。

优选地，其中，到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处的所识别的对象以及到从所述深度相机组件到所识别的对象的所述深度还包括：基于由所述控制器确定的概率和从法向于位于所述多个扬声器的中心的扬声器的中心的轴到所述多个麦克风在所述局部区域中捕获音频数据的位置的角度的乘积来确定阴影函数；对所述多个扬声器的音频输出应用所述阴影函数。

方便地，其中，所述非暂时性计算机可读存储介质还具有编码在其上的指令，当由所述处理器执行时，所述指令使得所述处理器：从所述深度相机组件捕获的数据中确定所识别的对象在所述局部区域内的位置的改变；确定所识别的对象的相对于垂直于所述设备的中心的轴的更新的距离和改变后的位置；确定从所述深度相机组件到在所述改变后的位置中的所识别的对象的更新的深度；根据所述更新的距离和所述更新的深度，将所述多个扬声器中的每一个的音频输出重定向到所述局部区域内的所述改变后的位置处的所识别的对象。

优选地，其中，所述非暂时性计算机可读存储介质还具有编码在其上的指令，当由所述处理器执行时，所述指令使得所述处理器：从所述深度相机组件捕获的数据中确定所识别的对象在所述局部区域内的位置的改变；确定所识别的对象的相对于垂直于所述设备的中心的轴的更新的距离和改变后的位置；将所述多个扬声器中的每一个的音频输出根据所述更新的距离重定向到在所述局部区域内的所述改变后的位置处且位于所述深度的所述识别的对象。

方便地，其中，所述非暂时性计算机可读存储介质还具有编码在其上的指令，当由所述处理器执行时，所述指令使得所述处理器：确定从所述深度相机组件到所识别的对象的更新的深度；将所述多个扬声器中的每一个的音频输出重定向到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且位于所述更新的深度处的所识别的对象。

一种音频设备包括多个扬声器和控制器，该控制器被配置为将扬声器的音频输出引导到音频设备周围的局部区域内的位置。这允许控制器将扬声器的音频输出定位到局部区域内的特定位置。为了引导音频输出，音频设备包括耦合到控制器的多个麦克风和深度相机组件。使用由多个麦克风或深度相机组件捕获的数据，控制器在音频设备周围的局部区域内识别诸如人的对象的位置。

根据麦克风或深度相机组件捕获的音频，音频设备确定对象在局部区域中的位置，并将扬声器阵列的音频输出朝向对象的确定位置控制。在各种实施例中，当麦克风从局部区域内的位置捕获音频数据时，控制器确定从该位置到垂直于音频设备的中心并且垂直于包括该位置的平面的轴的距离。控制器还使用一种或更多种计算机视觉方法从深度相机组件捕获的视频数据中识别确定位置处的对象。另外，控制器根据深度相机组件获得的深度信息来确定从所识别的对象到深度相机组件的深度。根据所确定的距离和所确定的深度，控制器对扬声器的音频输出执行波束控制，以将音频输出引导到所识别的对象，同时衰减引导到局部区域中其他位置的音频输出。当对象在局部区域内移动时，音频设备动态地控制音频输出以随对象一起移动。

附图简述

图1是根据实施例的包括音频设备操作的系统环境的框图。

图2是根据实施例的音频设备的框图。

图3是根据实施例的音频设备上的麦克风的示例配置。

图4是根据实施例的确定音频设备周围的局部区域中的对象位置的音频设备的框图。

附图仅出于说明的目的描绘了各种实施例。本领域技术人员从下面的讨论中将容易认识到，在不脱离本文描述的原理的情况下，可以采用本文示出的结构和方法的替代实施例。

详细描述

系统架构

图1是包括音频设备117的系统环境100的框图。图1所示的系统环境100包括客户端设备110、网络120、一个或更多个第三方系统130和在线系统140。另外，在图1所示的系统环境100中，音频设备117耦合到客户端设备110。在替代配置中，系统环境100中可以包括不同的和/或附加的组件。

客户端设备110是能够接收用户输入以及经由网络120发送和/或接收数据的计算设备。此外，客户端设备110被配置为向用户呈现内容，例如音频、视频或图像数据。在一个实施例中，客户端设备110是传统的计算机系统，例如台式或膝上型计算机。可替代地，客户端设备110可以是具有计算机功能的设备，例如个人数字助理(PDA)、移动电话、智能手机或其他合适的设备。在其他实施例中，客户端设备110是被配置为获取内容并显示所获取的内容的电视或监视器。在各种实施例中，客户端设备110被配置成经由网络120进行通信。在一个实施例中，客户端设备110执行允许客户端设备110的用户与在线系统140交互的应用。例如，客户端设备110执行浏览器应用，以实现客户端设备110和在线系统140之间经由网络120的交互。在另一个实施例中，客户端设备110通过在客户端设备110的本机操作系统(例如

或ANDROID^TM)上运行的应用编程接口(API)与在线系统140交互。

在各种实施例中，客户端设备110包括显示设备。显示设备可以集成到客户端设备中或者耦合到客户端设备。例如，集成到客户端设备中的显示设备是被包括在客户端设备中的显示屏。替代地，显示设备是耦合到客户端设备的监视器或其他显示装置。显示设备向用户呈现图像数据或视频数据。显示设备呈现的图像或视频数据由在客户端设备上执行的应用确定。不同的应用可以被包括在客户端设备上，使得不同应用的执行改变由显示设备呈现给用户的内容。另外，显示设备呈现的内容可以是客户端设备110从在线系统140或第三方系统130接收的内容。

下面结合图2-4进一步描述的音频设备117从客户端设备110获得音频数据，并为音频设备117周围的局部区域中的一个或更多个用户播放音频数据。例如，音频设备117是耦合到客户端设备110的条形音箱。在其他实施例中，音频设备117经由网络120耦合到在线系统140或第三方系统130，并播放从在线系统140或第三方系统130获得的音频数据。如下面结合图2-4进一步描述的，音频设备117识别音频设备周围的局部区域中的对象，并使用一种或多种波束控制方法将音频输出引导到所识别的对象。这允许音频设备117将音频数据的输出聚焦到所识别的对象。如下面结合图4进一步描述的，当所识别的对象在局部区域内改变位置时，音频设备117动态更新应用于音频数据的一个或更多个波束控制方法，因此由音频设备117输出的音频数据被导向所识别的对象的改变后的位置。

客户端设备110被配置为使用有线和/或无线通信系统经由网络120进行通信，网络120可以包括局域网和/或广域网的任意组合。在一个实施例中，网络120使用标准通信技术和/或协议。例如，网络120包括使用诸如以太网、802.11、微波接入全球互通(WiMAX)、3G、4G、码分多址(CDMA)、数字用户线路(DSL)等技术的通信链路。用于通过网络120通信的网络协议的示例包括多协议标签交换(MPLS)、传输控制协议/互联网协议(TCP/IP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)和文件传输协议(FTP)。通过网络120交换的数据可以使用任何合适的格式来表示，例如超文本标记语言(HTML)或可扩展标记语言(XML)。在一些实施例中，网络120的所有或一些通信链路可以使用任何合适的一种或多种技术来加密。

一个或更多个第三方系统130可以耦合到网络120，以与在线系统140进行通信，这将在下面结合图3进行进一步的描述。在一个实施例中，第三方系统130是应用提供商，其传送描述用于由客户端设备110执行的应用的信息，或者向客户端设备110传送数据以供在客户端设备上执行的应用使用。在其他实施例中，第三方系统130提供用于经由客户端设备110呈现的内容或其他信息。第三方系统130还可以向在线系统140传送信息，例如广告、内容或关于第三方系统130提供的应用的信息。

在线系统140经由网络120与客户端设备110交换内容。在各种实施例中，在线系统140也可以经由网络与第三方系统130交换内容。例如，在线系统140是社交网络系统、内容共享网络或向用户提供内容的另一系统。在各种实施例中，在线系统140维护关于各种用户、不同用户之间的关连以及呈现给用户的内容的信息。

图2是音频设备117的实施例的框图。在图2所示的实施例中，音频设备117包括多个扬声器210A-210G(也使用附图标记210单独和共同指代)、低音炮220、多个麦克风230、深度相机组件(DCA)240和控制器250。然而，在其他实施例中，客户端设备110包括与图2所示的那些部件不同的部件或附加部件。

每个扬声器210A-210G基于从控制器250接收的指令发射音频数据或声音，控制器250耦合到每个扬声器210A-210G。扬声器210A-210G将音频数据投射到音频设备117周围的局部区域。如下文进一步描述的，从控制器250到扬声器210A-210G的指令执行波束控制，该波束控制将扬声器210A-210G输出的音频数据引导到音频设备117周围的局部区域内的特定位置。在各种实施例中，从控制器250接收的指令改变两个或更多个扬声器的幅度和相位，从而在局部区域内的特定位置添加和取消组合音频数据。扬声器210A-210G在公共平面中彼此相邻放置，扬声器210与相邻的扬声器210相隔公共的特定距离。例如，特定距离指定扬声器210的中心和相邻扬声器210的中心之间的距离，因此每对相邻扬声器具有在其中心之间的特定距离。在各种实施例中，每个扬声器210被封闭以减轻来自其他扬声器210的电抗。虽然图2示出了音频设备117包括七个扬声器210A-210G的示例，但是在其他实施例中，音频设备117包括其他数量的扬声器210。例如，在不同的实施例中，音频设备117包括5到9个扬声器210。

低音炮240是一种扬声器，配置为产生诸如低音和次低音等低沉音频。例如，低音炮240输出频率小于200赫兹的音频。在其他实施例中，低音炮240输出频率小于100赫兹或小于80赫兹的音频。在各种实施例中，低音炮240可以被包括在外壳中，并且在一些实施例中可以包括放大器或者耦合到放大器。

多个麦克风230被配置成从音频设备117周围的局部区域捕获音频数据或声音。每个麦克风230将捕获的音频数据转换成电子格式(例如，模拟数据、数字数据)。在各种实施例中，多个麦克风230包括一阶差分麦克风阵列。图3示出了多个麦克风230的示例配置。在图3所示的示例中，八个麦克风相对于彼此定位，以形成一阶差分麦克风阵列。如图3所示，多个麦克风230包括中心麦克风305和与中心麦克风305等距离分开的其他麦克风310A-310G。在图3的示例中，其他麦克风310A-310G中的每一个与中心麦克风305分开特定距离315，以创建一阶差分麦克风阵列。虽然图3示出了包括八个麦克风的示例，但是在其他实施例中，多个麦克风230包括任何合适数量的麦克风。在其他实施例中，多个麦克风230被配置成创建二阶差分麦克风阵列。例如，多个麦克风230包括以六边形图案排列的至少六个麦克风。

返回参考图2，DCA 240捕获音频设备117周围的局部区域的视频数据，并确定音频设备117周围的局部区域的深度信息。深度信息识别从DCA240到音频设备117周围的局部区域中的位置的深度。在各种实施例中，DCA 240包括彼此相邻放置并以已知基线距离分开的两个相机；两个相机被定位成捕获音频捕获设备117周围的局部区域的立体图像。包含在DCA240中的处理器或控制器250根据捕获的立体图像确定局部区域中不同位置和DCA 240之间的距离或深度，也称为“深度信息”。因此，两个或更多个相机从不同的有利点捕获围绕DCA 240的局部区域的图像，允许通过从不同相机捕获的图像比较局部区域中的对象的相对位置来确定深度信息。相对深度信息可以以视差图的形式获得，该视差图对相应图像点的水平坐标的差异进行编码。该视差图中的值与对应像素位置处距DCA 240的距离成反比。在一些实施例中，DCA 240还包括结构光源或激光器，其确定相机和结构光源或激光器之间的对应关系或相机之间的对应关系。

在一些实施例中，DCA 240包括结构光投影仪、相机和处理器。结构光投影仪将各种图案的结构光投射到局部区域中的对象上，在对象上产生从结构光投影仪的视角以外的视角看起来失真的照明。相机捕获从对象反射的结构光的图像，这些图像来自不同的视角，处理器从这些视角进行重构以重构对象的三维(3D)形状。

在一些实施例中，DCA 240包括相机和深度传感器。在各种实施例中，深度传感器基于飞行时间来确定DCA 240和局部区域中的位置之间的距离。例如，深度传感器测量从深度传感器向局部区域中的位置发射的光或声音与从该位置反射的光或声音之间的时间差，以确定局部区域中的位置距DCA 240的距离。如果深度传感器发射光，则发射的光可以包括光脉冲，从而直接测量飞行时间；可选地，深度传感器可以发射连续调制的正弦光波，并且通过测量发射光波和从局部区域中的位置反射的光波之间的相位差来间接确定飞行时间。因此，在各种实施例中，DCA 240可以根据诸如飞行时间、结构光深度感测、立体深度感测和主动立体深度感测的各种原理来确定深度信息。

在其他实施例中，DCA 240包括被配置为捕获音频设备117周围的局部区域的视频的相机。DCA 240可以包括耦合到相机的处理器，该处理器将一种或更多种计算机视觉方法应用于捕获的视频数据中的帧，以确定局部区域内不同位置的深度信息。例如，处理器将相机聚焦在不同的深度，并且用不同的焦点捕获局部区域的帧，并且基于由相机捕获的具有不同焦点的帧来确定局部区域内的位置的深度信息。然而，在其他实施例中，处理器可以使用任何合适的一种或多种方法从相机捕获的帧中确定深度信息。可选地，在一些实施例中，控制器250被配置成从相机捕获的图像中确定局部区域内位置的深度信息。

控制器250耦合到扬声器210A-210G、低音炮220、麦克风230和深度相机组件240。控制器250包括一个或更多个处理器和其上编码有指令的非暂时性计算机可读存储介质，当指令被一个或更多个处理器执行时，使得一个或更多个处理器执行下面进一步描述的功能。根据麦克风230捕获的音频数据，控制器250确定麦克风230从其捕获音频数据的局部区域中的位置相对于垂直于音频设备117的中心的轴的方向。例如，控制器250确定从其捕获音频数据的位置和垂直于音频设备117的中心并且垂直于包括从其捕获音频数据的位置的平面的轴之间的距离。参考图4，示出了音频设备117的麦克风230从位置405捕获音频数据的示例。根据捕获的音频数据，控制器250使用一种或更多种方法来确定麦克风230从其捕获音频数据的位置410和轴415之间的距离420，轴415垂直于音频设备117的中心并且也垂直于包括麦克风230从其捕获音频数据的位置410的平面。

返回参考图2，根据由DCA 240捕获的视频数据和由DCA 240确定的深度信息，控制器250还确定从DCA 240到麦克风230从其捕获音频数据的位置的距离。例如，控制器240从由DCA 240捕获的局部区域的视频数据中识别麦克风230从其捕获音频数据的位置处的对象，并从由DCA 240确定的深度信息中确定识别的对象距DCA 240的深度。返回参考图4，根据由DCA 240捕获的视频数据240，控制器250识别麦克风230从其捕获音频数据的位置410中或位于该位置的对象。根据由DCA 240确定的深度信息，控制器250确定位置410处的对象距DCA 240的深度425，指定位置410处的对象和DCA 240之间的距离。

在各种实施例中，为了从由DCA 240捕获的视频数据中识别诸如人的对象，控制器250生成识别捕获的视频数据的帧的一个或更多个前景部分和视频数据的帧的背景部分的模型。在各种实施例中，模型利用模型识别视频数据的帧的背景部分，因此未被识别为背景部分的视频数据的区域是视频数据的一个或更多个前景部分。控制器250可以基于捕获的视频数据的不同区域随时间的变化来生成模型，因此在至少阈值数量的连续像素上具有小于阈值变化量的视频数据的区域被识别为捕获的视频数据的背景部分。例如，所生成的模型将所捕获的视频数据的背景部分识别为所捕获的视频数据的包括静态对象的区域，而前景部分包括所捕获的视频数据的包括诸如人的移动对象或者否则包括具有在所捕获的视频数据的连续帧之间至少改变阈值量的属性的像素的区域。所生成的模型在DCA 240为其捕获视频数据的局部区域中的背景对象(例如，家具、墙壁、书架、桌子、椅子、地毯、天花板、吊灯以及保持在环境中而不移动的任何其他对象)和局部区域内随时间移动的对象(例如人)之间进行了区分。在各种实施例中，控制器250使用捕获的视频数据中的连续帧的周期性颜色和像素信息来生成模型，以确定局部区域的捕获的视频数据中的是背景的部分和局部区域的捕获的视频数据中的是前景的部分。如果捕获的视频数据的像素中的一些像素在捕获的视频数据的连续帧之间周期性地移动(例如，改变颜色或强度)，则控制器250将那些像素识别为捕获的视频数据的前景部分。然而，如果像素在阈值时间段内或在捕获的视频数据的阈值数量的连续帧内保持不变，则像素被识别为捕获的视频数据的背景部分。

因此，控制器250生成基于在视频数据的连续帧中具有相应位置的像素的差异区分所捕获的视频数据的前景部分和视频数据的背景部分的模型。在一些实施例中，所生成的模型将捕获的视频数据的对应于捕获的视频数据的帧内不同位置的像素的区域标记为背景部分或前景部分。或者，所生成的模型将对应于所捕获的视频数据的帧内不同位置的像素的所捕获的视频数据的区域标记为背景部分，而不标记对应于前景部分的所捕获的视频数据的区域(反之亦然)。

在一些实施例中，控制器250记录与捕获的视频数据的背景部分相关联的像素的颜色值，并将与背景部分相关联的像素的记录的颜色值标记为背景。在各种实施例中，控制器250还可以获得深度信息，因此每个像素具有深度值以及相应的颜色值。当生成识别捕获的视频数据的背景部分的模型时，控制器250可以使用不同像素的深度值，因为具有较小深度值的像素更有可能是前景部分，而具有较大深度值的像素更有可能是背景部分。

除了生成识别捕获的视频数据的背景部分的模型之外，控制器250将一个或更多个附加模型应用于捕获的视频数据，以识别视频数据帧内的包括人(或其他对象)的一个或更多个区域。一个或更多个附加模型的应用允许控制器250识别捕获的视频数据的帧内包括人或其他对象的区域，即使人在一段时间间隔内保持静止或最小程度地移动。例如，一个或更多个附加模型执行二维或三维姿势跟踪，允许控制器250基于姿势跟踪来组合捕获的视频数据的背景部分的识别和捕获的视频数据的包括人或其他对象的区域的识别。在各种实施例中，控制器250通过二维或三维姿势跟踪将由视频数据捕获的局部区域的部分识别为背景部分，除了视频数据内一个或更多个附加模型识别为包括人(或另一对象)的区域。

在各种实施例中，控制器250通过生成包围每个人(或其他对象)的二维或三维姿势数据的边界框(例如，边界框)来识别捕获的视频数据的帧内包括人的区域。可以为经由二维或三维姿势数据识别的每个人(或其他对象)生成边界框。根据识别捕获的视频数据的背景部分和前景部分的模型，控制器250可以基于每个对象进行的移动量来区分有生命的对象(例如，人、动物)和无生命的对象(例如，照片、衣架、壁画)。如果控制器250确定对象在捕获的视频数据的连续帧中移动超过阈值量，则该对象被分类为有生命的，而在捕获的视频数据的连续帧中移动小于阈值量的对象被分类为无生命的。在一些实施例中，当对象的二维或三维姿势数据与人的二维或三维姿势数据具有至少阈值相似性时，控制器250将被确定为有生命的对象分类为人。

例如，控制器250执行面部跟踪(二维或三维)、二维姿势跟踪、三维姿势跟踪或任何其他合适的方法来识别人的面部部分或人的身体部分。控制器250识别捕获的视频数据的包括人(或其他对象)的区域，并存储与视频数据相关联的元数据，该元数据指定所识别区域的捕获的视频数据内的位置。例如，控制器250存储指定被识别为包括人(或另一对象)的边界框的视频数据的帧的坐标，因此边界框指定捕获的视频数据的包括人(或另一对象)的区域。

在一些实施例中，控制器250随后收集并更新除了捕获的视频数据的被识别为包括人(或其他对象)的区域之外的捕获的视频数据的背景部分的数据。因此，控制器250可以随着时间的推移更新关于捕获的视频数据的背景部分的信息，同时使用先前捕获的数据或非均匀值(即，静态)用于捕获的视频数据的被识别为包括人(或另一对象)的区域的背景的像素。对于RGB图像，非均匀像素包括非均匀的红、绿、蓝值；例如，相邻像素的RGB值为(0，50，150)，(0，50，150)或(50，50，50)，(100，100，100)。在其他实施例中，颜色空间可以是灰度、HSV或任何其他合适的颜色空间。捕获的视频数据的每个像素对应于被捕获的视频数据的局部区域内的特定位置405，并且捕获的视频数据的每个像素在坐标系中具有不同于其他像素的位置的位置。例如，捕获的视频数据的帧的左下角的像素具有坐标对(0，0)，表示帧内的水平和垂直位置。每个像素还可以具有特定的颜色值，例如RGB颜色值。

根据在麦克风230从其捕获音频数据的位置和垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离以及麦克风230从其捕获音频数据的位置与DCA 240之间的距离，控制器250将每个扬声器210A-210G的音频输出引导到麦克风230从其捕获音频数据的位置。在一个实施例中，为了引导每个扬声器210A-210G的音频输出，控制器250将来自扬声器210A-210G的求和音频信号建模为：

其中n是表示不同扬声器210A-210G的索引，ω_n是加权函数，G_n是增益。由于从每个扬声器210A-210G到麦克风230从其捕获音频数据的位置的距离，对于每个扬声器210A-210G具有延迟补偿的正弦音频信号在麦克风230从其捕获音频数据的位置处具有最大值。

对于每个扬声器210A-210G，控制器250使用下式确定从扬声器210A-210G到麦克风230从其捕获音频数据的位置的距离：

其中n是表示不同扬声器210A-210G的索引，l是从DCA 240到麦克风230捕获音频数据的位置的距离，h是在麦克风230从其捕获音频数据的位置和垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离，d是相邻扬声器210A-210G之间的特定距离。

在上面等式(1)的增益G_n为1的实施例中，上面等式(1)中扬声器210A-210G的延迟δ_n定义为：

其中n是表示不同扬声器210A-210G的索引，d是相邻扬声器210A-210G之间的特定距离，c是声速(344米/秒)，θ_n是在麦克风230捕获音频数据的位置和垂直于扬声器210A-210G的中心并且垂直于包括麦克风230捕获音频数据的位置的平面的轴之间的角度。

扬声器210A-210G的延迟δ_n由控制器250根据从DCA 240到麦克风230捕获音频数据的位置的距离和麦克风230从其捕获音频数据的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离，确定为：

其中l是从DCA 240到麦克风230捕获音频数据的位置的距离，h是麦克风230从其捕获音频数据的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离。

因此，控制器250根据从DCA 240到麦克风230捕获音频数据的位置的距离以及麦克风230从其捕获音频数据的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离，确定麦克风230捕获音频数据的位置与垂直于扬声器210A-210G的中心并且垂直于包括麦克风230捕获音频数据的位置的平面的轴之间的角度的以下值：

其中n是表示不同扬声器210A-210G的索引，l是从DCA 240到麦克风230捕获音频数据的位置的距离，h是麦克风230从其捕获音频数据的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离。

参考图4的示例，控制器250将上面的等式5-7应用于位置410处的对象距DCA 240的深度425，指定位置410处的对象与DCA 240之间的距离，以及麦克风230从其捕获音频数据的位置410与垂直于音频设备117的中心并且也垂直于包括麦克风230从其捕获音频数据的位置410的平面的轴415之间的距离420，以确定角度430A、角度430B和角度430C的正弦、余弦和正切值。在图4的示例中，角度430A对应于θ₁，角度430B对应于θ₄，角度430C对应于θ₇。虽然图4出于说明的目的示出了角度430A、角度430B和角度430C，但是控制器250为每个扬声器210A-210G确定相应的值。

返回参考图2，在各种实施例中，控制器250使用余弦函数将压力梯度应用于每个扬声器210A-210G的音频输出，在各种实施例中，控制器250使用切比雪夫多项式W^a _n或勒让德多项式W^b _n来应用压力梯度：

其中θ₀是决定最大覆盖范围的缩放角度。在一些实施例中，控制器250通过基于麦克风230从其捕获音频数据的位置距音频设备117的距离应用一个或更多个机器学习模型和计算机视觉来确定缩放角度。

在各种实施例中，控制器250对等式1中的求和信号S(l，h)使用加权，这产生了局部最大值。例如，控制器250使用二维(2D)指数函数：

等式10中的指数函数的泰勒级数展开式为：

求和信号可以表示为：

其中N_nw是未经加权的信号部分，n是标识每个扬声器210A-210G的索引。

在各种实施例中，控制器250将加权的角度限制为-90度至90度，对应于来自音频设备117的水平面，导致通用角度θ，因此x＝y＝sin(θ)，因此扬声器210A-210G的加权函数Wn为

因此，控制器250修改每个扬声器210A-210G的音频输出，使得每个扬声器210A-210G的音频输出在麦克风230捕获音频数据的位置处和在麦克风230捕获音频数据的位置距DCA 240的深度处具有最大值，而在其他位置处最小。这将扬声器210A-210G的音频输出引导到在麦克风230捕获音频数据的位置处识别的对象。

在其他实施例中，控制器250使用作为概率密度函数的阴影函数来防止由扬声器210A-210G输出的音频数据的旁瓣在麦克风230捕获音频数据的位置处的对象外部。例如，概率密度函数是：

其中x＝0，1，2，…，N+1，N是扬声器210A-210G的数量。在一些实施例中，控制器250指定概率p的值1/2。为了考虑扬声器210A-210G的音频输出的波束控制，控制器将概率乘以麦克风230捕获音频数据的位置和垂直于居中位于音频设备117中的扬声器的中心并且垂直于包括麦克风230捕获音频数据的位置的平面的轴之间的角度的余弦。在图5的示例中，扬声器210D居中地位于音频设备117中，并且是第四扬声器210A-210D。因此，控制器250将概率乘以角度430B的余弦，这对应于将概率乘以前述等式中的θ₄的余弦。对不同扬声器210A-210G输出的音频应用阴影函数允许控制器250从不同扬声器210A-210G输出的音频数据中去除旁瓣。

因此，当针对延迟进行补偿时，由控制器205确定的求和信号是：

其中，P_ac(jω)是频域中的传递函数，求和信号利用等式(15)来补偿延迟。

控制器250根据由DCA 240或麦克风230捕获的数据确定所识别的对象相对于DCA240的深度的变化或者麦克风230从其捕获音频数据的所识别的对象的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离的变化。例如，响应于来自DCA 240的指示所识别的对象距DCA的深度的变化的深度信息，控制器250将扬声器210A-210G的音频输出重定向到在麦克风230从其捕获音频数据的被识别对象的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离处的对象的改变后的深度。在另一示例中，来自麦克风230或来自DCA 240的数据指示所识别的对象的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离改变，因此，控制器250将扬声器210A-210G的音频输出重定向到所识别的对象的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的改变后的距离，以及重定向到所识别的对象距DCA 240的深度。此外，响应于确定所识别的对象的位置与垂直于音频设备117的中心和包括麦克风230从其捕获音频数据的位置的平面的轴之间的距离改变以及所识别的对象距DCA 240的深度改变，控制器250将扬声器的音频输出重定向到距垂直于音频设备117的中心和包括所识别的对象的平面的轴的改变后的距离，以及到所识别的对象距DCA 240的改变后的深度。因此，当所识别的对象在局部区域内改变位置时，控制器250动态地重定向扬声器210A-210G的音频输出，使得输出音频在整个局部区域跟随所识别的对象。

在一些实施例中，控制器250维护音频设备117的一个或更多个用户的隐私设置。隐私设置可以允许第一用户指定(例如，通过选择退出，通过不选择加入)音频设备117是否可以出于任何目的接收、收集、记录或存储与用户相关联的特定对象或信息。在特定实施例中，隐私设置可以允许第一用户指定特定视频捕获设备、音频捕获设备、应用或过程是否可以访问、存储或使用与用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出使对象或信息被特定设备、应用或进程访问、存储或使用。音频设备117可以访问这样的信息，以便向第一用户提供特定的功能或服务，而音频设备117不能出于任何其他目的访问该信息。在访问、存储或使用这样的对象或信息之前，在线系统可以提示用户提供隐私设置，指定哪些应用或过程(如果有的话)可以在允许任何这样的动作之前访问、存储或使用对象或信息。

由控制器250维护和实施的隐私设置可以与默认设置相关联。在各种实施例中，控制器250不在捕获的视频数据、音频数据、图像数据或其他数据内识别用户，除非控制器250从用户获得授权控制器250识别用户的隐私设置。例如，与用户相关联的隐私设置具有防止控制器250识别用户的默认设置，因此控制器250不识别用户，除非用户手动改变该隐私设置以允许控制器250识别用户。此外，在各种实施例中，替代隐私设置调节从音频设备117向另一实体(例如，媒体设备110、在线系统140、第三方系统130)传送识别用户的信息。在各种实施例中，替代隐私设置具有防止传送识别用户的信息的默认设置，这防止了控制器250向其他实体传送识别用户的信息，除非用户手动修改该替代隐私设置以授权传送。控制器250为从捕获的视频数据或其他数据中识别的每个用户维护一个或更多个隐私设置，允许对每个用户的传送和识别进行用户特定的控制。在一些实施例中，当控制器250最初从捕获的数据中识别人时，控制器250提示此人提供隐私设置，并将所提供的隐私设置与识别此人的信息相关联地进行存储。

用户可以授权以一种或更多种方式捕获数据、识别用户和/或共享和跨应用使用用户相关数据。例如，在用户使用客户端设备110的功能和/或在在线系统140中采取动作之前，用户可以预先选择各种隐私设置。在另一种情况下，当用户第一次执行动作或使用客户端设备110和/或在线系统140的功能时、和/或当用户预定时间段内没有执行动作或使用功能时，可以提示选择对话框。在又一个示例中，当需要用户数据的某些功能开始操作或者由于用户的选择而被禁用时，客户端设备110和在线系统140还可以向用户提供通知，以允许用户通过通知做出进一步的选择。用户进行授权的其他合适方式也是可能的。

在一些实施例中，根据用户的隐私设置，控制器250为从捕获的视频数据中识别的用户获得由在线系统140维护的或来自一个或更多个第三方系统130的信息。基于包括客户端设备110先前捕获的用户的视频数据、音频数据、图像数据或其他数据以及获得的信息，控制器250可以生成用于经由客户端设备110呈现给用户的内容。例如，控制器250叠加(overlay)来自在线系统140的、与控制器250从客户端设备110捕获的视频数据或图像数据中识别的一个或更多个对象相关联的内容项。替代地，在线系统140基于从客户端设备110接收的包括用户的视频数据、图像数据、音频数据或其他数据以及在线系统140为用户维护的信息(或在线系统140从一个或更多个第三方系统130获得的信息)来为用户生成内容，并将生成的内容提供给客户端设备110用于呈现给用户。

在一些实施例中，控制器250被配置成根据由包括麦克风230和深度相机组件240的一个或更多个传感器捕获的数据来识别音频设备117的局部区域内的对象。根据由传感器中的一个或更多个捕获的数据，控制器250识别音频设备117的局部区域内的对象，并确定从音频设备117到所识别的对象的距离。控制器250将扬声器210A-210G的音频输出引导到对应于所识别的对象的局部区域中的距离，如上面进一步描述的。因此，在各种实施例中，控制器250使用由麦克风230或深度相机组件240捕获的数据来识别音频设备117周围的局部区域内的对象以及从音频设备117到所识别的对象的距离。例如，控制器250从深度相机组件240中包括的相机捕获的视频数据估计距音频设备117的深度和相对于音频设备117的中心的位置。在另一示例中，控制器250使用一种或更多种方法来确定麦克风240捕获的音频数据的到达方向，并在确定的到达方向上引导扬声器210A-210G的音频输出。作为另一示例，控制器250根据深度相机组件240确定的深度信息来确定从音频设备117到所识别的对象的深度，并将扬声器210A-210G的音频输出导向所识别的对象的深度。因此，在各种实施例中，控制器250使用包括在音频设备117中的不同传感器或传感器组合(例如上文进一步描述的麦克风230和深度相机组件240)来确定扬声器210A-210G的音频输出被引导到的距离和方向。

其他配置考虑因素

为了说明的目的，已经给出了实施例的前述描述；它并不旨在穷举或将专利权限制到所公开的精确形式。相关领域中的技术人员可以认识到，按照上面的公开，许多修改和变化是可能的。

本说明书的一些部分根据对信息的操作的算法和符号表示来描述实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作虽然在功能上、计算上或逻辑上进行了描述，但应理解为将由计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或其任何组合中。

可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括包含计算机程序代码的计算机可读介质的计算机程序产品来实现软件模块，计算机程序代码可以由计算机处理器执行，用于执行所描述的任何或全部步骤、操作或过程。

实施例还可以涉及用于执行这里的操作的装置。该装置可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这种计算机程序可以存储在非暂时性的、有形的计算机可读存储介质中，或者任何类型的适于存储电子指令的介质中，其可以耦合到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的架构。

实施例还可以涉及通过这里描述的计算过程生产的产品。这样的产品可以包括从计算过程获得的信息，其中信息被存储在非暂时性的、有形的计算机可读存储介质上并且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。

最后，说明书中使用的语言主要是出于可读性和指导性的目的而选择的，它可能不是为了描述或限制专利权而选择的。因此，本专利权利的范围不受本详细描述的限制，而是受基于此提出的申请的任何权利要求的限制。因此，实施例的公开旨在说明而非限制在所附权利要求中阐述的专利权范围。

Claims

1.一种设备，包括：

多个扬声器；

多个麦克风，其被配置为从所述多个麦克风周围的局部区域捕获音频数据；

深度相机组件，其被配置为捕获所述局部区域的视频数据，并确定深度信息，所述深度信息标识从所述深度相机组件到所述局部区域内的位置的深度；

控制器，其耦合到所述多个麦克风、所述深度相机组件和所述多个扬声器，所述控制器被配置成：

确定所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的距离；

从所述深度相机组件捕获的视频数据中识别所述多个麦克风在所述局部区域中捕获音频数据的位置内的对象；

从所述深度相机组件捕获的深度信息确定从所述深度相机组件到识别的对象的深度；和

将所述扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且在距离所述深度相机组件的所述深度处的所识别的对象。

2.根据权利要求1所述的设备，其中，将所述扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且在距离所述深度相机组件的所述深度处的所识别的对象包括：

对于所述多个扬声器中的每一个，确定从法向于扬声器的中心的轴到所述多个麦克风在所述局部区域中捕获音频数据的位置的角度；

为所述多个扬声器中的每一个确定加权函数，扬声器的所述加权函数基于为该扬声器确定的角度，并且在所确定的距离和所确定的深度处具有最大值；和

对于所述多个扬声器中的每一个，将对应于所述扬声器的加权函数应用于所述扬声器的音频输出。

3.根据权利要求2所述的设备，其中，将所述扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且在距离所述深度相机组件的所述深度处的所识别的对象还包括：

基于由所述控制器确定的概率和从法向于位于所述多个扬声器的中心的扬声器的中心的轴到所述多个麦克风在所述局部区域中捕获音频数据的位置的角度的乘积来确定阴影函数；和

对所述多个扬声器的音频输出应用所述阴影函数。

4.根据任一前述权利要求所述的设备，以下中的任一项成立：

a)其中，所述深度相机组件包括相隔特定距离且并排放置的一对相机；或者

b)其中，所述深度相机组件包括相机和深度传感器；

或者c)其中，所述深度相机组件包括相机，并且所述控制器被配置为根据所述相机捕获的视频数据来确定从所述深度相机组件到所识别的对象的深度；或者

d)其中，所述多个麦克风包括一阶差分麦克风阵列；在这种情况下，可选地，其中，所述一阶差分麦克风阵列包括中心麦克风和与所述中心麦克风具有相等距离的其他麦克风；或者

e)其中，所述多个麦克风包括二阶差分麦克风阵列，在这种情况下，可选地，其中，所述二阶差分麦克风阵列包括以六边形图案排列的至少六个麦克风。

5.根据任一前述权利要求所述的设备，其中，以下中的任一项成立：

a)所述控制器还被配置成：

从所述深度相机组件捕获的数据中确定所识别的对象在所述局部区域内的位置的改变；

确定所识别的对象的相对于垂直于所述设备的中心的轴的更新的距离和改变后的位置；

确定从所述深度相机组件到在所述改变后的位置中的所识别的对象的更新的深度；和

根据所述更新的距离和所述更新的深度，将所述扬声器中的每一个的音频输出重定向到在所述局部区域内的所述改变后的位置处的所识别的对象；或者

b)其中，所述控制器还被配置成：

将所述扬声器中的每一个的音频输出根据所述更新的距离重定向到在所述局部区域内的所述改变后的位置处且位于所述深度的所识别的对象。

6.根据任一前述权利要求所述的设备，其中，所述控制器还被配置成：

确定从所述深度相机组件到所识别的对象的更新的深度；和

将所述扬声器中的每一个的音频输出重定向到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且位于所述更新的深度处的所识别的对象。

7.根据任一前述权利要求所述的设备，还包括耦合到所述控制器的低音炮。

8.一种计算机程序产品，包括其上编码有指令的非暂时性计算机可读存储介质，当由处理器执行时，所述指令使得所述处理器：

从由设备中包括的一个或更多个传感器捕获的数据中识别所述设备的局部区域内的对象，所捕获的数据包括音频数据或视频数据；

根据由所述传感器中的一个或更多个捕获的数据确定从所述设备到所识别的对象的距离；和

将所述设备的多个扬声器中的每一个的音频输出引导到所确定的距离处的所识别的对象。

9.根据权利要求8所述的非暂时性计算机可读存储介质，以下中的任一项成立：

a)其中，根据由所述传感器中的一个或更多个捕获的数据确定从所述设备到所识别的对象的距离包括：

从包括在所述设备中的相机捕获的视频数据中确定从所述设备到所识别的对象的深度；

或者b)其中，根据由所述传感器中的一个或更多个捕获的数据确定从所述设备到所识别的对象的距离包括：

确定由所述设备中包括的一个或更多个麦克风捕获的音频数据到达所述设备的方向；或者

c)其中，根据由所述传感器中的一个或更多个捕获的数据来确定从所述设备到所识别的对象的距离包括：

根据由包括在所述设备中的深度相机组件捕获的视频数据，确定从所述设备到所识别的对象的深度。

10.一种计算机程序产品，包括其上编码有指令的非暂时性计算机可读存储介质，当由处理器执行时，所述指令使得所述处理器：

确定设备中包括的多个麦克风在局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的距离；

从深度相机组件获得所述局部区域的视频数据，并从所述深度相机组件获得标识从所述深度相机组件到所述局部区域内的位置的深度的深度信息；

从所述深度相机组件捕获的数据中识别所述多个麦克风在所述局部区域中捕获音频数据的所述位置内的对象；

从所述深度相机组件捕获的数据确定从所述深度相机组件到所识别的对象的深度；和

将所述设备的多个扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处的所识别的对象以及到从所述深度相机组件到所识别的对象的所述深度。

11.根据权利要求10所述的计算机程序产品，其中，将所述设备的多个扬声器中的每一个的音频输出引导到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处的所识别的对象以及到从所述深度相机组件到所识别的对象的所述深度包括：

对于所述多个扬声器中的每一个，确定从垂直于扬声器的中心的轴到所述多个麦克风在所述局部区域中捕获音频数据的位置的角度；

12.根据权利要求11所述的计算机程序产品，其中，到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处的所识别的对象以及到从所述深度相机组件到所识别的对象的所述深度还包括：

基于由控制器确定的概率和从法向于位于所述多个扬声器的中心的扬声器的中心的轴到所述多个麦克风在所述局部区域中捕获音频数据的位置的角度的乘积来确定阴影函数；和

对所述多个扬声器的音频输出应用所述阴影函数。

13.根据权利要求11或12所述的计算机程序产品，其中，所述非暂时性计算机可读存储介质还具有编码在其上的指令，当由所述处理器执行时，所述指令使得所述处理器：

根据所述更新的距离和所述更新的深度，将所述多个扬声器中的每一个的音频输出重定向到所述局部区域内的所述改变后的位置处的所识别的对象。

14.根据权利要求11至13中任一项所述的计算机程序产品，其中，所述非暂时性计算机可读存储介质还具有编码在其上的指令，当由所述处理器执行时，所述指令使得所述处理器：

将所述多个扬声器中的每一个的音频输出根据所述更新的距离重定向到在所述局部区域内的所述改变后的位置处且位于所述深度的所识别的对象。

15.根据权利要求11至14中任一项所述的计算机程序产品，其中，所述非暂时性计算机可读存储介质还具有编码在其上的指令，当由所述处理器执行时，所述指令使得所述处理器：

确定从所述深度相机组件到所识别的对象的更新的深度；和

将所述多个扬声器中的每一个的音频输出重定向到所述多个麦克风在所述局部区域中捕获音频数据的位置相对于垂直于所述设备的中心的轴的所述距离处且位于所述更新的深度处的所识别的对象。