CN105681968A

CN105681968A - 使用面部识别调节扬声器

Info

Publication number: CN105681968A
Application number: CN201510888189.7A
Authority: CN
Inventors: C.M.特雷斯坦; B.J.哈姆
Original assignee: Crown Audio Inc
Current assignee: Harman International Industries Inc; Crown Audio Inc
Priority date: 2014-12-08
Filing date: 2015-12-07
Publication date: 2016-06-15
Anticipated expiration: 2035-12-07
Also published as: EP3032847A3; US9544679B2; EP3032847A2; JP2016107978A; US20160165337A1; US9866951B2; EP3032847B1; CN105681968B; US20170150252A1; JP6829541B2

Abstract

本发明的实施方案描述了一种基于人的位置进行调节的音频系统。即，所述音频系统基于用户的位置或基于用户的数量调节一个或多个扬声器的音频输出的方向以优化所述音频系统的性能，而不是依赖于固定的扬声器。为此，所述音频系统可以包括摄像头和识别在所述摄像头前面的用户的位置和/或用户的数量的跟踪应用。使用这个信息，所述音频系统调节耦合到扬声器的一个或多个致动器以改变所述扬声器的音频输出的方向。随着所述用户继续移动或移位，所述音频系统可以继续调节所述扬声器以优化所述系统的性能。

Description

使用面部识别调节扬声器

技术领域

本公开涉及可变向扬声器，且更具体来说，涉及使用面部识别来调节可变向扬声器的方向。

背景技术

固定扬声器通常用于在车辆中输出音频。例如，机动车辆(诸如汽车)通常具有固定布置的多个扬声器以为车辆中的驾驶员和乘客输出音频(例如，音乐、有声书、广播节目等)。然而，固定扬声器不能响应于乘客处于收听环境中的不同位置进行调节。一个特定扬声器布置可能最适合于某一高度的乘客，但并非最适合于更高或更矮的乘客。此外，固定扬声器布置中的音频输出的方向不会根据车辆中的乘客的数量而改变。例如，如果当四名乘客在车辆中时，扬声器布置被设计成提供最佳性能，则当少于四名乘客在车辆中时，这个布置的性能可能不如扬声器的其他布置那么好。

发明内容

根据本公开的一个实施方案，一种方法包括基于由摄像头捕获的图像数据接收用户的位置；以及基于所述用户的位置识别一个或多个空间坐标。所述方法还包括基于所述一个或多个坐标产生用于调节至少一个致动器的控制信号，所述控制信号被配置成改变扬声器的定向，使得所述扬声器的音频输出区域包括所述一个或多个坐标。

本公开的另一实施方案为一种系统，其包括可变向扬声器、机械耦合到所述可变向扬声器的致动器，以及计算设备。所述计算设备被配置成基于由摄像头捕获的图像数据接收用户的位置；以及基于所述用户的位置识别一个或多个空间坐标。所述计算设备还被配置成基于所述一个或多个坐标产生用于调节所述致动器的控制信号，所述控制信号被配置成改变所述可变向扬声器的定向，使得所述可变向扬声器的音频输出区域包括所述一个或多个坐标。

本公开的另一实施方案为一种用于调节扬声器的计算机程序产品，其中所述计算机程序产品包括可由一个或多个计算机处理器执行的计算机可读程序代码。所述程序代码被配置成基于由摄像头捕获的图像数据接收用户的位置；以及基于所述用户的位置识别一个或多个空间坐标。此外，所述程序代码被配置成基于所述一个或多个坐标产生用于调节至少一个致动器的控制信号，所述控制信号被配置成改变所述扬声器的定向，使得所述扬声器的音频输出区域包括所述一个或多个坐标。

附图说明

图1是用于基于用户的位置调节可变向扬声器的系统；

图2是用于基于面部识别调节扬声器的系统的方框图；

图3是用于基于面部识别调节扬声器的方法；

图4A至图4C图示基于面部识别来识别位置以引导扬声器；

图5A和图5B图示基于车辆中的乘客的数量调节扬声器布置；

图6A和图6B图示基于车辆中的乘客的数量调节扬声器布置；

图7是用于识别路径以基于面部识别调节可变向扬声器的系统。

为了便于理解，在可能的情况下使用相同的参考数字指定图中所共有的相同的元件。可以预期的是，一个实施方案中所公开的元件可以有利地用于其他实施方案，而无需特别指明。这里所指的附图不应被理解为按比例绘制，除非特别注明。另外，为了清楚地呈现和解释，附图通常被简化并且细节或组件被省略。附图和讨论用来解释下面讨论的原理，其中相同的标号表示相同的元件。

具体实施方式

本文的实施方案描述了一种基于用户的位置调节的音频系统。本文所描述的音频系统根据用户的位置或数量调节一个或多个扬声器的音频输出的方向，而不是依赖于不能改变其音频输出的方向的固定扬声器。为此，音频系统可以包括摄像头；以及面部识别应用，其识别在摄像头前面的用户的位置和/或用户的数量。使用这个信息，音频系统调节耦合到扬声器的一个或多个致动器以改变扬声器的音频输出的方向—即，扬声器面向的方向。例如，面部识别应用可以识别用户在3D空间中的位置，并且作为响应，音频系统调节扬声器使得其面向该位置。随着用户继续移动或移位，音频系统可以继续调节扬声器以优化系统的性能。

在一个方面，面部识别应用检测在摄像头前面的多个用户。音频系统可以基于用户的各个位置调节扬声器。例如，如果扬声器被移动使得音频输出的方向是在两个用户之间，则可以实现最佳性能。或者，音频系统可以包括多个可调式扬声器，并且调节一个扬声器来面向用户中的一个并调节另一个扬声器来面向另一个扬声器。不管用户的数量或位置，音频系统可以被预编程来改变扬声器的方向以便优化(即，改进)音频性能。

图1是用于基于用户的位置调节可变向扬声器105的音频系统100。系统100包括扬声器105、致动器110、摄像头115和用户120。如图所示，扬声器105可以是响应于电信号输入产生声音的任何设备。扬声器105耦合到致动器110，其沿着一个或多个运动轴(例如，上下、左右、对角、圆周运动等)改变扬声器105的音频输出的方向。这里所示的致动器110是可以收缩或延伸以调节扬声器105面向的方向的活塞致动器。通过控制两个致动器110A和110B，系统100移动扬声器105来面向特定点或区域。例如，在扬声器105前面的区域可以被分为2D或3D网格，其中通过调节致动器110，系统100移动扬声器105来面向2D/3D网格内的点或区域。此外，在一个示例中，摄像头115的定向保持固定，而扬声器105的定向改变成面向点或区域。

这里所示的活塞致动器110只是合适的致动器的一个示例。致动器110可以使用球窝、螺钉、齿轮系统、链条等来调节扬声器105的方向。另外，致动器110可以使用用于产生运动的任何类型的驱动系统，诸如机械、电气、液压或气动系统。尽管图1图示两个致动器110，但是在其他示例中，扬声器105可以仅由一个致动器110移动。在一个方面，致动器110可能不直接附接到扬声器105。例如，电缆可以用于将由远程致动器110产生的力转移到扬声器105。这样做可能会减少扬声器105的形状因数，并且允许扬声器105适应在空间限制区域，诸如在仪表板或在分离车辆的挡风玻璃和门的支柱。

摄像头115可以包括一个或多个传感器，其用于基于接收的电磁信号(例如，红外或可见光信号)捕获图像。例如，摄像头115可以包括用于在约390nm至700nm(即，可见光)下检测电磁信号的可见光传感器、使用红外投影仪和传感器来捕获3D空间的图像的测距系统，或两者的组合。由摄像头115捕获的信息可以是2D或3D信息。在一个方面，深度(即，用户120与摄像头115之间的距离)可以是已知的。例如，音频系统可以被设计用于一个房间，其中用户120坐在距摄像头115和扬声器105预定义的距离的沙发上。因此，仅使用2D信息，音频系统110基于在沙发上的用户120的位置调节扬声器105。或者，深度可能不是已知的，因此，摄像头110捕获3D信息来确定用户120与摄像头115之间的距离。

使用由摄像头115捕获的信息，音频系统100跟踪用户120在1D、2D或3D空间中的运动。基于用户120的位置(例如，用户的脸部或耳朵的位置)，系统100将用于改变扬声器105的方向的指令提供给致动器110以便优化音频系统100的性能。例如，如果扬声器105面向用户120的耳朵，则可以获得最佳性能。当用户120移动时，致动器110改变扬声器105的方向以继续指向用户的耳朵在3D空间中的位置。

图2是用于基于面部识别调节扬声器105的系统200的方框图。系统200包括摄像头115、计算设备210和扬声器系统235。摄像头115包括用于收集深度信息的深度传感器205，所述深度信息用于确定摄像头115与用户之间的距离。然而，如上所述，在其他示例中，摄像头115可能不收集深度信息。

摄像头115耦合到计算设备210，计算设备210包括处理器215和存储器220。计算设备210可以是通用计算设备，诸如膝上型计算机、平板计算机、服务器、台式计算机等，或用于执行本文所描述的方面和示例的专用计算设备。处理器215可以是适合于执行本文所描述的功能的任何处理元件。处理器215可以代表单个处理元件或多个处理元件，其可以各自包括一个或多个处理核心。存储器220可以是易失性或非易失性存储器，其可以包括硬盘、RAM、闪速存储器等。如这里所示，存储器220包括面部识别应用225和致动器控制器230。面部识别应用225接收由摄像头115捕获的2D或3D数据，并且识别在摄像头115前面的区域中的用户。面部识别应用225可以产生一个或多个坐标，其识别用户在2D或3D空间中的位置(例如，用户的脸部的位置)。使用这些坐标，致动器控制器230确定致动器110的相应的控制信号，以便移动扬声器105以优化系统200的性能。例如，如果在扬声器105面向用户的耳朵的情况下性能得到改进，则致动器控制器240确定致使扬声器105面向在用户的耳朵方向上的控制信号。

在一个方面，致动器控制器230可以包括变换函数或算法，其用于将由面部识别应用225提供的坐标转换成致动器110的控制信号。例如，应用225可以返回一个或多个x、y和z坐标，其识别用户在摄像头115前面的位置。变换函数可以使用x、y和z坐标作为输入，并且输出致动器110的引起扬声器105面向用户的相应的控制信号。可以在配置阶段期间产生变换函数，其中自由空间中的一个或多个点被映射到致动器110的特定设置。这些映射接着可以被一般化以形成变换函数，其可以将自由空间中的一组坐标映射到致动器110的相应的设置中。然而，这仅仅是产生变换函数的一个非限制性方式，所述变换函数用于将2D或3D坐标转换成在所接收坐标的方向上指向扬声器105的致动器信号。

在一个方面，致动器控制器230可以使用由面部识别应用225提供的坐标来识别不同的坐标。例如，面部识别应用225可以返回用户的鼻子在3D空间中的坐标。然而，为了使扬声器105指向用户的耳朵，致动器控制器230可以使用预定义的调节参数来估计用户的耳朵的可能的位置。这个调节参数可以基于用户距摄像头115的距离而变化—例如，当用户更靠近摄像头115时，调节参数可能会更大。通过使用调节参数来改变坐标，致动器控制器230可以接着产生对应于例如用户的耳朵的坐标，其可以用作变换函数的输入以确定致动器控制信号。

在另一示例中，致动器控制器230根据检测到多少用户来改变由面部识别应用225提供的坐标。例如，如果应用225输出三个不同的用户的坐标，则致动器控制器230可以对坐标求平均值以识别用户之间的位置。以这种方式，不管系统200中的用户的数量或位置，致动器控制器230可以被设计成改变由面部识别应用225提供的一个(或多个)坐标以便调节扬声器105。

扬声器系统235包括图1中所描述的致动器110和扬声器105。扬声器系统235可以包括封装这两个组件的单一主体，或这些组件的支撑结构。在一个示例中，致动器110可以远离扬声器105，并且扬声器系统235可以包括机械元件，诸如用于将力从致动器110转移到扬声器105的电缆、链条或气动软管。

图3是使用面部识别调节扬声器的方法300。为了改进理解，结合图4A至图4C中所示的系统来描述方法300的方框。在方框305，面部识别应用225使用从摄像头115捕获的数据识别脸部。如图4A的系统400中所示，面部识别应用225识别围绕用户401的边界框405。本文所提供的示例不限于用于基于从摄像头115捕获的数据识别用户401的特定算法。在这个示例中，应用225识别围绕用户401的头部为中心的边界框405，但在其他示例中，面部识别应用225可以返回识别用户的脸部的几何中间的单个坐标，或各自对应于用户401的不同特征(例如，眼睛、耳朵、嘴等)的多个坐标。

面部识别应用225将边界框405的坐标传输到致动器控制器230。在方法300的方框310，致动器控制器230使用边界框405的坐标来识别点或区域。例如，当只有一个用户401由面部识别应用225识别时，致动器控制器230可以将扬声器105定向到用户的耳朵。在一个示例中，面部识别应用225可以识别用户的耳朵的坐标并且将这些坐标提供到致动器控制器230。然而，在图4A中所示的示例中，致动器控制器230使用边界框405的坐标来计算用户的耳朵的位置。

如图4B的系统420中所示，致动器控制器230通过使用调节参数来确定耳朵的位置425，所述调节参数可以根据用户401与摄像头115或扬声器105之间的距离而变化。例如，调节参数可以是从边界框405左侧的中间坐标减去的预定义值，从而产生耳朵的位置425的坐标。当然，调节参数的类型或值可以根据由面部识别应用225提供的坐标而变化。即，如图所示，相比于当应用225输出边界框405时，当应用225输出用户的鼻子的坐标时，需要不同的调节参数。此外，如上所述，当面部识别应用225识别多个用户时，致动器控制器230可以不同方式改变坐标。例如，致动器控制器230可以使用由面部识别应用225提供的坐标来识别多个用户之间的区域或点，而不是估计用户的耳朵的位置425。

在方框315，致动器控制器230将使用来自应用225的坐标识别的点或区域变换成致动器控制信号。控制器230可以使用将点(即，用户的耳朵的位置425)映射到控制信号中的变换函数或算法，所述控制信号将扬声器105的方向改变成面向点。致动器110接收这些信号并且改变扬声器105所面向的方向。区域410图示在扬声器105前面的区域，在这个区域扬声器的音频输出是最大的(例如，包括来自扬声器105的90％的音频输出)。如图所示，用户401在区域410的外部，因此可能比用户401在区域410内部的情况体验更差的音频演示。

在方框320，响应于控制信号，致动器110调节扬声器105所面向的方向，使得由区域410限定的音频输出现在包括用户的耳朵的位置425，如图4C中所示。在一个示例中，扬声器105的方向被调节，使得用户的耳朵的位置425至少在区域410内。即，位置425仅需要在区域410内，而不是移动扬声器105直到扬声器105的方向面向与位置425相交。通过不需要精确对准，当执行可能输出不太准确的坐标的应用225时，系统450改进了用户401的体验并且可以能够使用较便宜的摄像头115或节省处理时间。然而，这些坐标可以足够准确足以导出确保位置425在区域410内的控制信号，即使扬声器105不直接面向用户的耳朵。此外，因为摄像头115与扬声器105物理分隔，所以当音频输出区域410改变(即，扬声器105的定向被改变)时，摄像头115的定向可以在其当前定向上保持固定。换句话说，在扬声器105的音频输出区域410改变时，摄像头115继续面向相同的方向。

图5A和图5B图示基于车辆500中的乘客调节扬声器布置。具体来说，图5A和图5B图示车辆500的前半部，而后座或后置扬声器(如果有的话)被省略。如图5A和图5B中的顶视图所示，车辆500包括摄像头115和安装在车辆500的仪表板上或支柱中的两个扬声器505。为了清楚起见，用于移动扬声器505的致动器，以及用于处理由摄像头115捕获的数据并且确定致动器的控制信号的计算设备已被省略。然而，在一个示例中，计算设备可以集成到机载计算机中，所述机载计算机用于操作车辆或集成到车辆500中的信息娱乐系统。

基于由摄像头115捕获的数据，计算设备中的面部识别应用确定有多少乘客在车辆500中以及这些乘客在2D或3D空间中处于的位置。在图5A中，计算设备确定只有位于位置510的一名乘客(即，驾驶员)在车辆500中。作为响应，计算设备中的致动器控制器识别用于定向扬声器505的点或区域。

在一个方面，点或区域对于扬声器505A和扬声器505B可能是相同的——例如，两个扬声器均指向同一个3D点。或者，计算设备可以计算扬声器505的不同的点或区域。例如，扬声器505A可以指向驾驶员的左耳，而扬声器505B指向驾驶员的右耳。这样做允许音频系统在扬声器505上输出不同的声音，或使用环绕声来为驾驶员提供更身临其境的体验。然而，如果为两个扬声器505输出的声音是相同的，则更优的布置可能是将两个扬声器505定向在用户前面的公共点。由于驾驶员与两个扬声器之间的不同的距离，如果扬声器505A被定向到驾驶员的左耳，而扬声器505B被定向到驾驶员的右耳，则驾驶员可能会听到不同的声级，这可能是不愉快的。当然，在一个示例中，计算设备可能通过在使每个扬声器瞄准不同的耳朵时增加扬声器505B的音频输出(或减小扬声器505A的输出)来补偿这个距离差。无论如何，通过跟踪用户的位置510，音频系统能够调节扬声器505以优化音频演示。

在图5B中，计算设备确定有两名乘客在车辆500中——一名乘客在位置510而另一名乘客在位置515。为了识别乘客，摄像头115被定位成驾驶员的座椅和前右乘客的座椅均在其视图内。面部识别应用扫描由摄像头115产生的图像数据以识别乘客在车辆500中的位置。因为在这个示例中有两名乘客而不是如图5A中所示只有一名乘客，所以音频系统可以不同方式调节扬声器。例如，计算设备可以将扬声器505A调节成面向驾驶员，而扬声器505B被调节成面向乘客。在一个实施方案中，扬声器505A可以面向驾驶员的脸部的中央位置(诸如她的鼻子)，使得在驾驶员的耳朵中同样地听到扬声器505A的音频输出。类似地，扬声器505B可以被调节成面向在位置515处的乘客的脸部的中央位置，使得在她的两个耳朵中同样地听到其输出。然而，另一种优化的解决方案可以是使扬声器505A和505B直接面向驾驶员或乘客的一个耳朵。所使用的特定解决方案可以根据用户的偏好、所使用的扬声器的类型、车辆500的特定音响效果等而变化。

图5A和图5B图示计算设备改变如何基于车辆中的乘客的数量调节扬声器。更一般地说，用于改进音频系统的性能的特定技术可以基于有多少用户在摄像头115的视图中而改变。例如，音频系统可以是根据存在于房间中的用户的数量使用不同的扬声器布置的家庭娱乐系统，而不是车辆。

除了考虑用户的位置和/或识别的用户的数量之外，计算设备可以根据指定的用户偏好优化系统的性能。例如，除了识别用户的脸部的位置之外，面部识别应用可以基于她的面部特征识别用户的名称。一旦用户被识别，计算设备可以查找与用户相关联的偏好。例如，用户A可能比用户B更喜欢更多的低音和更少的高音。或者，用户A可能更喜欢立体声，而用户B更喜欢环绕声。计算设备可以在优化性能时考虑这些偏好。例如，当用户A是驾驶员时，计算设备可以改变扬声器505的低音到高音比。在一个方面，系统可以对由扬声器505输出的音频进行其他电气变化，诸如修改如何处理音频信号——例如，改变均衡、延迟等。

尽管将车辆500图示为汽车，但是本文所描述的实施方案可以施加到其他类型的车辆，诸如船、摩托车、飞机等。此外，车辆500可以包括用于识别和优化音频系统的性能的任何数量的扬声器或摄像头。

图6A和图6B图示基于车辆600中的乘客的数量调节扬声器布置。如由图6A和图6B的顶视图中所示，车辆600包括摄像头115A和115B以及四个扬声器605。扬声器605A和605B安装在车辆600的前面，而扬声器605C和605D安装在车辆600的后面。为了清楚起见，用于移动扬声器605的致动器，以及用于处理由摄像头115捕获的数据并且确定致动器的控制信号的计算设备已被省略。在一个实施方案中，计算设备可以集成到机载计算机中，所述机载计算机用于操作车辆或集成到车辆600中的信息娱乐系统。

基于由摄像头115A和115B捕获的数据，计算设备中的面部识别应用确定有多少乘客在车辆600中以及这些乘客在2D或3D空间中处于的位置。为此，摄像头115A位于车辆600的前面，而摄像头115B安装在车辆600的后面。两个摄像头可能是需要的，因为车辆600的后面相对于摄像头115A的视图可能被两个前排座椅遮挡。然而，在其他实施方案中，车辆600可以只使用一个摄像头115以便识别在车辆600的前面和后面的乘客。

在图6A中，计算设备确定只有一名位于位置610(即，驾驶员的座椅)的乘客在车辆600中。即，基于由后置摄像头115B提供的图像数据，面部识别应用确定在车辆600的后排座椅中没有乘客，而由前置摄像头115A提供的图像数据指示驾驶员在位置610。作为响应，计算设备识别用以引导扬声器605的点或区域以优化音频系统的性能。在一个实施方案中，四个扬声器605都指向与位置610相关联的同一个3D点。例如，计算设备可以计算相对于用户的中央位置并且产生相应的致动器信号，使得四个扬声器605导向在这个位置。或者，右边的两个扬声器(扬声器605B和605D)可以面向驾驶员的右耳，而左边的两个扬声器(扬声器605A和605C)面向驾驶员的左耳。或者，计算设备可以布置扬声器605以便为驾驶员提供环绕声体验，在这种情况下，扬声器605可以都导向到不同的3D点或区域。

如上所述，计算设备可以通过使用面部识别应用唯一地识别用户来优化音频系统。例如，计算设备可以使用面部识别应用考虑用户偏好，诸如用户是否更喜欢更多的低音或更多的高音，并且改变这些音频参数来匹配用户偏好。在一个示例中，计算设备包括I/O接口，其中用户可以为计算设备输入偏好来考虑。或者，计算设备可以耦合到车辆600中的信息娱乐系统，其与计算设备共享用户的偏好来改变音频或视频参数。替代地或另外，计算设备可以使用历史信息来了解用户的偏好。例如，当用户A是车上唯一的乘客时，最初计算设备可以将所有四个扬声器605导向在中央位置。使用I/O接口，用户A可以代替地指示计算，当她是唯一的乘客时她更喜欢环绕声。以这种方式，计算设备可以了解和调节特定用户或用户组的音频/视频参数或其他参数(例如，座椅或方向盘调节)。

在图6B中，计算设备确定在车辆600中有坐在位置610、615、620和625的多名乘客。对于在位置620和625的后排乘客，计算设备将右边的后置扬声器605D调节成面向位置625，并且将左边的后置扬声器605C调节成面向位置620。扬声器605C和605D可以指向在这些位置的乘客的一个耳朵。相比之下，对于在位置610和615的前排乘客，计算设备调节右边的前置扬声器605B和左边的前置扬声器605A以指向位置610与位置615之间的位置630。为此，计算设备可以对位置610和615的坐标求平均值以识别位置630。因此，图6B图示在车辆600的前半部的扬声器605的最佳布置可能不同于在车辆600的后半部的扬声器605的最佳布置。换句话说，为了为车辆600中的用户提供最佳性能，计算设备可以根据车辆600中的用户的不同的位置使用不同的扬声器布置。例如，不同的位置可以具有不同的声学性质，因此即使同一用户移动到不同的位置，计算设备仍然可以使用不同的扬声器布置来提供改进的性能。例如，如果用户A在驾驶员的座椅中，则计算设备可以将扬声器605A调节成直接指向用户的耳朵。然而，如果用户A在车辆的后面，则计算设备可以指示扬声器605C指向在用户的头部的背面的中央位置。

本文所描述的不同的示例、实施方案和方面讨论调节扬声器布置以优化一个或多个用户的音频体验。使用“最佳”并不旨在意指扬声器布置必须是最佳的布置，而是相对于其中扬声器保持固定的扬声器布置，最佳或优化的布置改进了用户的体验。换句话说，本文所描述的示例通过使用致动器来改变扬声器所面向的方向并且适应一个或多个用户的当前位置来改进收听体验。

图7是用于识别路径715以基于面部识别引导可变向扬声器105的系统700。在一些情况下，可能需要创建沿着路径模拟对象的运动的声音体验。为此，系统700包括用户701、摄像头115、面部识别应用225、致动器控制器230和扬声器105。摄像头115捕获包括用户701的图像数据，接着将图像数据传输到面部识别应用225。应用225使用面部识别算法来识别边界框705，边界框705限定用户的脸部在3D或2D空间中的位置。当然，其他面部识别算法可以使用不同于边界框705的方法来识别用户的脸部。

面部识别应用225将边界框705的坐标传输到致动器控制器230。在这个示例中，致动器控制器230确定路径715，而不是使用坐标识别指向扬声器105的点或区域。通过指示扬声器105的音频输出遵循路径715，扬声器105可以被用来模拟从正在移动的源(例如，在用户701上方飞行的鸟或飞机或跑过用户701的人)发出的声音。在一个方面，响应于从音频系统接收用于模拟从移动源发出的声音的命令，致动器控制器230可以确定路径715。例如，致动器控制器230可以等待确定路径715，直到音频控制器(例如，电影或视频游戏控制器)将用于确定特定声音的路径715的指令发送到致动器控制器230。在一个示例中，音频控制器和致动器控制器230可以是同步的，使得当控制器230移动扬声器105来跟踪路径715时，音频控制器输出对应于移动源的声音。例如，当扬声器105的输出区域710沿着路径715移动时，扬声器105输出鸟鸣叫的声音。

为了确定路径715，音频控制器可以向致动器控制器230通知音频输出应模拟的声音或运动的类型。尽管图7中的路径715是线性的，但是在其他示例中，路径715可以具有一个或多个曲线、环线等。例如，路径715可以模拟围绕用户701的头部盘旋的鸟或围绕用户的耳朵嗡嗡叫的蚊子。因此，根据这个信息，致动器控制器230使用边界框705的坐标来识别路径715。在所示示例中，致动器控制器230可以使用第一预定义的偏移来识别在3D空间中的第一点(其是边界框705的最左上角的左边)，并且使用第二预定义的偏移来识别在3D空间中的第二点(其是边界框705的最右上角的右边)。接着致动器控制器230通过绘制第一点与第二点之间的线来产生路径715。

致动器控制器230可以根据要使用扬声器105模拟的声音以不同方式计算路径715。例如，对于围绕用户701的耳朵嗡嗡叫的蚊子，致动器控制器230可以使用边界框705的坐标估计耳朵的位置，并且使用随机数生成器来确定接近用户的耳朵的随机路径。或者，对于在头顶盘旋的鸟，致动器控制器230可以使用预定义的垂直偏移来识别在用户701的头部上方的点。接着致动器控制器230计算在用户701上方的点为中心的圆以用作路径715。以这种方式，致动器控制器230可以被配置成使用用于计算路径715的不同的技术来模拟声音的不同的移动源。

系统700可以用于音频/视频演示，诸如电影、电视节目、视频游戏等。例如，系统700可以安装在剧场中以识别一个或多个用户的位置，并且将定制的音频体验提供给每个用户或用户组。在一个示例中，系统700包括多个扬声器105(例如，针对剧场中的每个用户的扬声器)，其使用相应的致动器来沿着不同的个别路径715移动扬声器105的相应的输出区域710。或者，多个扬声器105可以被用来模拟在用户701附近的不同的声源。一个扬声器105可以遵循模拟在用户701上方飞行的鸟的路径，而不同的扬声器105遵循模拟呼啸经过用户701的抛射体(例如，子弹或箭)的路径。系统700还可以用于音频演示，其中没有相应的视频演示。例如，系统700可以用于动画/木偶表演或在现场演员的舞台演出期间用于为用户701提供更逼真的环境。

各种实施方案的描述已为了说明的目的被呈现，但不旨在是详尽的或限于所公开的实施方案。在不脱离所描述实施方案的范围和精神的情况下，许多修改和变化对于本领域普通技术人员将是明显的。本文所用的术语被选择以最好地解释实施方案的原理、实际应用或优于在市场上发现的技术的技术改进，或使其他本领域普通技术人员能够理解本文所公开的实施方案。

在前述内容中，参考在本公开中提出的实施方案。然而，本公开的范围不限于具体描述的实施方案。相反，前述特征和元件的任何组合，无论是否涉及不同的实施方案，预期实施和实践预期的实施方案。此外，尽管本文所公开的实施方案可以实现优于其他可能的解决方案或现有技术的优点，但是是否特定优点是通过给定实施方案来实现不限制本公开的范围。因此，前述方面、特征、实施方案和优点仅仅是说明性的，并且除非在权利要求书中明确叙述，否则不被认为是所附权利要求书的要素或限制。

本公开的方面可以采取以下形式：完全硬件实施方案、完全软件实施方案(包括固件、驻留软件、微代码等)或组合软件和硬件方面的实施方案(其一般都可以在本文中被称为“电路”、“模块”或“系统”)。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括一个或多个计算机可读存储介质，其上具有用于致使处理器执行本公开的各方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如(但不限于)电子存储设备、磁存储设备、光学存储设备、电磁存储设备、半导体存储设备或上述任何合适的组合。计算机可读存储介质的更具体的示例的非详尽清单包括以下各项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪速存储器)、静态随机存取存储器(SRAM)、便携式压缩光盘只读存储器(CD-ROM)、数字通用光盘(DVD)、存储棒、软盘、机械编码设备(诸如具有在上面记录的指令的穿孔卡片或槽中的凸起结构)，以及前述任何合适的组合。如本文所用的计算机可读存储介质本身不被视为暂时性信号，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)，或通过导线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质被下载到相应的计算/处理设备，或经由网络(例如，互联网、局域网、广域网和/或无线网络)被下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网间连接计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并且转发计算机可读程序指令以用于存储在相应的计算/处理设备内的计算机可读存储介质中。

用于执行本公开的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微码、固件指令、状态设置数据，或以一个或多个编程语言的任何组合写入的源代码或目标代码，这些编程语言包括面向对象编程语言(诸如Smalltalk、C++等)和常规的程序化编程语言(诸如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全执行在用户的计算机上、作为独立软件包部分执行在用户的计算机上、部分执行在用户的计算机上并且部分执行在远程计算机上，或完全执行在远程计算机或服务器上。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或可以对外部计算机进行连接(例如，使用互联网服务提供商通过互联网)。在一些实施方案中，包括例如可编程逻辑电路系统、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路系统可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以个性化电子电路系统，以便执行本公开的各方面。

本文参照根据本公开的实施方案的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述本公开的各方面。将理解，流程图和/或方框图的每个方框，以及流程图和/或方框图中的方框的组合可以由计算机可读程序指令来实施。

可以将这些计算机可读程序指令提供给通用计算机、专用计算机的处理器，或其他可编程数据处理装置以产生机器，使得经由计算机的处理器或其他可编程数据处理装置执行的指令，创建用于实施在流程图和/或方框图的一个或多个方框中指定的功能/动作的方法。这些计算机可读程序指令也可以存储在可以指导计算机、可编程数据处理装置，和/或以特定方式起作用的其他设备的计算机可读存储介质中，使得具有存储在其中的指令的计算机可读存储介质包括制品，其包括实施在流程图和/或方框图的一个或多个方框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以致使在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实施过程，使得执行在计算机、其他可编程装置或其他设备上执行的指令实施在流程图和/或方框图的一个或多个方框中指定的功能/动作。

图中的流程图和方框图图示根据本公开的各种实施方案的系统、方法和计算机程序产品的可能的实施方式的架构、功能性和操作。在这方面，流程图或方框图中的每个方框可以表示指令的模块、区段或部分，所述指令包括用于实施指定逻辑功能的一个或多个可执行指令。在一些替代实施方式中，在方框中所述的功能可能不按图中所述的顺序发生。例如，根据所涉及的功能性，连续示出的两个方框实际上可能被大体上同时执行，或方框有时可能以相反的顺序被执行。也应注意，方框图和/或流程图的每个方框，以及方框图和/或流程图中的方框的组合，可以由专用的基于硬件的系统来实施，这些系统执行指定的功能/动作或执行专用硬件和计算机指令的组合。

尽管前述内容是针对本公开的实施方案，但是在不脱离本公开的基本范围的情况下，可以设计本公开的其他和另外的实施方案，并且其范围由以下权利要求书来确定。

Claims

1.一种方法，其包括：

基于由一个或多个摄像头捕获的图像数据接收用户的位置；

基于所述用户的所述位置在空间中识别一个或多个坐标；以及

基于所述一个或多个坐标，使用一个或多个计算机处理器产生控制信号，所述控制信号调节耦合到扬声器的至少一个致动器以改变所述扬声器的定向，以便相对于所述一个或多个坐标实现所需的声学环境，并且其中所述一个或多个摄像头的定向在空间中保持固定，而所述扬声器的所述定向被改变。

2.根据权利要求1所述的方法，其中所述用户的所述位置识别在二维或三维空间之一中的所述用户的脸部，所述方法还包括：

使用识别出的所述用户的脸部来识别与所述用户相关联的用户偏好；以及

基于所述用户偏好改变所述用户位于其中的车辆的参数。

3.根据权利要求1所述的方法，其中所述用户的所述位置包括基于与所述用户和所述一个或多个摄像头的距离的深度测量。

4.根据权利要求1所述的方法，其中产生控制信号还包括：

使用预定义函数将所述一个或多个坐标变换成所述控制信号。

5.根据权利要求4所述的方法，其中所述控制信号被配置成调节所述扬声器，使得所述扬声器面向所述一个或多个坐标。

6.根据权利要求1所述的方法，其中所述一个或多个坐标定义三维空间中的路径，并且其中所述控制信号被配置成调节所述致动器，使得所述区域的音频输出遵循所述路径。

7.根据权利要求1所述的方法，其还包括：

基于由所述一个或多个摄像头捕获的图像数据接收对应于多个用户的多个位置；

基于所述多个位置产生多个致动器的多个控制信号，所述致动器中的每个被配置成调节多个扬声器中的相应的一个。

8.根据权利要求7所述的方法，其中所述多个扬声器位于车辆中，其中所述多个位置识别所述多个用户在所述车辆中的相应的位置。

9.一种系统，其包括：

可变向扬声器；

致动器，其机械耦合到所述可变向扬声器；以及

计算设备，其被配置成：

基于由一个或多个摄像头捕获的图像数据接收用户的位置；

基于所述用户的所述位置识别一个或多个空间坐标；以及

基于所述一个或多个坐标，产生被配置成调节所述致动器的控制信号，所述致动器被耦合以改变所述可变向扬声器的定向以便相对于所述一个或多个坐标实现所需的声学环境，并且其中所述一个或多个摄像头的定向在空间中保持固定，而所述可变向扬声器的所述定向被改变。

10.根据权利要求9所述的系统，其中所述用户的所述位置识别在二维或三维空间之一中的所述用户的脸部。

11.根据权利要求9所述的系统，其中所述可变向扬声器安装在容纳所述用户的车辆中。

12.根据权利要求9所述的系统，其还包括机械耦合到所述可变向扬声器的至少两个致动器，其中所述计算设备被配置成确定所述至少两个致动器的相应的控制信号，使得所述可变向扬声器的音频输出区域包括所述一个或多个坐标。

13.根据权利要求12所述的系统，其中所述相应的控制信号被配置成调节所述可变向扬声器，使得所述可移动扬声器面向所述一个或多个坐标。

14.根据权利要求9所述的系统，其中所述一个或多个坐标对应于所述用户的身体部分在空间中的估计位置。

15.根据权利要求9所述的系统，其还包括多个致动器和多个扬声器，其中所述计算设备被配置成：

基于所述多个位置产生所述多个致动器的多个控制信号，所述致动器中的每个被配置成调节所述多个扬声器中的相应的一个。