CN110677781A

CN110677781A - 利用编码光线引导扬声器阵列和麦克风阵列的系统和方法

Info

Publication number: CN110677781A
Application number: CN201910565225.4A
Authority: CN
Inventors: 刘琼; D·G·金贝尔; 马尚
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-07-03
Filing date: 2019-06-27
Publication date: 2020-01-10
Anticipated expiration: 2039-06-27
Also published as: US10516939B1; JP2020010329A; CN110677781B; JP7326922B2; US20200015005A1

Abstract

利用编码光线引导扬声器阵列和麦克风阵列的系统和方法。描述了基于附接至TV观看者、嘈杂环境工作者或AR/VR系统用户的微型光传感器的方向输出来引导扬声器阵列或麦克风阵列的方法。将光投射器设置在天花板上，针对每个像素发出不同的顺序开/关信号。将两个光传感器附接至每个扬声器阵列或麦克风阵列，并将一个或更多个光传感器附接至每个用户。因为每个投射器像素对应于特定方向，所以在光传感器接收到投射器的顺序信号时，光传感器可以确定其对应于投射器的方向并将其报告给中心站。在已知扬声器/麦克风阵列方向和用户方向时，系统可针对不同扬声器信号生成适当相移，并为每个人生成定向声音。中心站可以确定用于组合来自不同麦克风的音频的相移。

Description

利用编码光线引导扬声器阵列和麦克风阵列的系统和方法

技术领域

所公开的实施方式总体上涉及声学系统，并且，更具体地，涉及利用编码光线引导扬声器阵列和麦克风阵列的系统和方法。

背景技术

当TV观看者想要欣赏节目而不干扰其他家庭成员或者不同的TV观看者喜欢不同的音量水平时，传统的耳机或耳塞仍然不是很方便。在普遍存在的高质量增强现实或虚拟现实(AR/VR)环境中，或者具有多个参与者的高噪声环境中，或者具有多个在场者和多个视频馈送的高端电话会议环境中，传统的声音捕捉方法不足以捕捉所需的清晰声音。类似地，传统的声音生成方法也不足以产生清晰的定向(directional)声音，就像人类在现实环境中体验的那样。在AR/VR环境中，如果耳机的方向无法很好匹配正确的音效，结果是AR/VR参与者可能会感到混乱或感到不舒服。

因此，鉴于常规声学技术的上述和其它缺点，需要新的和改进的系统和方法来引导扬声器阵列或麦克风阵列，使得系统可以从所有参与者获得更好的声音，并通过产生更准确的定向音效来为每个人提供更好的声学体验。

发明内容

本文描述的实施方式致力于基本上消除与常规声学系统和方法相关联的一个或更多个上述和其它问题的系统和方法。

根据本文描述的实施方式的一个方面，提供了一种系统，该系统包括：投射器，该投射器被配置成投射时间投射器光信号，其中，该时间投射器光信号是针对投射器的每个像素，利用包括投射器的每个像素的像素坐标的信息段来编码的；以及至少一个光传感器，该至少一个光传感器在工作上联接至计算机，其中，该光传感器被配置成检测时间投射器光信号并且生成传感器信号，并且其中，该计算机被配置成接收来自光传感器的传感器信号，基于所检测的时间投射器光信号来计算方向信息，以及基于所计算的方向信息来引导多个麦克风或多个扬声器。

在一个或更多个实施方式中，计算机还被配置成基于所检测的时间投射器光信号来周期性地重新计算方向信息。

在一个或更多个实施方式中，所计算的方向信息包括相对于多个麦克风的用户方向。

在一个或更多个实施方式中，所计算的方向信息包括相对于多个扬声器的用户方向。

在一个或更多个实施方式中，所计算的方向信息包括相对于显示多个视频流的多个视频监视器的用户头部方向，其中，当用户头部被确定为朝向多个视频监视器中的第一视频监视器时，计算机被配置成，利用多个扬声器朝向用户引导与多个视频流中显示在第一视频监视器上的视频流相对应的音频流。

在一个或更多个实施方式中，所计算的方向信息包括朝向房间中每个用户的方向，其中，计算机被配置成，利用多个扬声器朝向每个用户引导具有针对每个用户的特定参数的音频流。

在一个或更多个实施方式中，特定参数包括声级。

在一个或更多个实施方式中，至少一个光传感器是设置在每个用户身上的。

在一个或更多个实施方式中，所计算的方向信息包括朝向房间中用户的方向，其中，计算机被配置成，朝向用户引导多个麦克风。

在一个或更多个实施方式中，多个麦克风或多个扬声器是利用相移来引导的。

根据本文描述的实施方式的另一方面，提供了一种方法，该方法包括以下步骤：利用投射器来投射时间投射器光信号，其中，时间投射器光信号是针对投射器的每个像素，利用包括投射器的每个像素的像素坐标的信息段来编码的；利用在工作上联接至计算机的光传感器来检测时间投射器光信号并且生成对应传感器信号；以及利用计算机接收传感器信号，基于所检测的时间投射器光信号来计算方向信息，并且基于所计算的方向信息来引导多个麦克风或多个扬声器。

在一个或更多个实施方式中，计算机还被配置成，基于所检测的时间投射器光信号来周期性地重新计算方向信息。

在一个或更多个实施方式中，所计算的方向信息包括朝向房间中每个用户的方向，其中，计算机被配置成，利用多个扬声器以朝向每个用户引导具有针对每个用户的特定参数的音频流。

在一个或更多个实施方式中，特定参数包括声级。

根据本文描述的实施方式的又一方面，提供了一种包含实现方法的一组指令的有形计算机可读介质，该方法包括以下步骤：利用投射器来投射时间投射器光信号，其中，时间投射器光信号是针对投射器的每个像素，利用包括投射器的每个像素的像素坐标的信息段来编码的；利用在工作上联接至计算机的光传感器检测时间投射器光信号并且生成对应传感器信号；以及利用计算机接收传感器信号，基于所检测的时间投射器光信号来计算方向信息，并且基于所计算的方向信息来引导多个麦克风或多个扬声器。

与本发明有关的其他方面将部分地在下面的描述中加以阐述，并且部分地将从描述显而易见，或者可以通过实践本发明而获知。通过在以下详细描述和所附权利要求书中特别指出的部件以及各种部件和方面的组合，可以实现并获得本发明的各个方面。

应理解，前述和以下描述都仅是示例性和说明性的，并不旨在以任何方式限制所要求保护的发明或其应用。

附图说明

包含在本说明书中并且构成本说明书的一部分的附图举例说明了本发明的实施方式，并与描述一起用于解释和说明本发明技术的原理。具体地：

图1例示了控制中心和多个人类参与者的示例性实施方式，该控制中心具有显示多个视频馈送的多个视频监视器。

图2(a)和图2(b)例示了由投射器生成的两个示例性时间编码光信号。

图3例示了扬声器/麦克风阵列系统的示例性实施方式。

图4例示了当扬声器或麦克风之间的距离远小于对应的扬声器阵列与麦克风阵列之间的距离时，可以认为声音在近似误差不大的情况下以相同的方向进出。

图5例示了可以被用于实现本文所述的发明技术的计算机系统的示例性实施方式。

具体实施方式

在下面的详细描述中，将参考附图，其中相同的功能元件用相同的标号表示。上述附图以例示方式而非限制方式示出符合本发明原理的具体实施方式和实现。足够详细地描述了这些实现，以使本领域技术人员能够实践本发明，而且要明白的是，可以利用其它实现，并且可以在不脱离本发明的范围和精神的情况下对各种元件进行结构性改变和/或替换。因此，以下详细描述不应被解释为限制含义。另外，如所描述的本发明的各种实施方式可以采用在通用计算机上运行的软件的形式、专用硬件的形式、或者软件和硬件的组合来实现。

根据本文所述实施方式的一个方面，提供了一种基于附接至TV观看者、嘈杂环境工作者、或AR/VR系统用户的微型光传感器的方向输出来引导扬声器阵列或麦克风阵列的发明技术。更具体地说，在一个实施方式中，将投射器安装在房间的天花板上，并配置成针对每个像素发出不同的顺序开/关信号。还有附接至各个扬声器阵列或麦克风阵列的两个光传感器，以及附接至各个用户的一个或更多个光传感器。因为每个投射器像素对应于特定方向，所以在光传感器接收到来自该投射器的顺序信号时，该光传感器可以确定其对应于该投射器的方向并将该方向信息报告给中心站。在已知扬声器/麦克风阵列方向和用户方向的情况下，该系统可以向不同扬声器信号赋予适当的相移，并针对每个人生成定向声音。类似地，中心站可以确定用于组合来自不同麦克风的音频输出的相移。与基于麦克风阵列的声源定位不同，所述方法没有盲源分离问题，并且更可靠和准确。这些特性适于捕获基于麦克风阵列的高质量音频信号。类似地，其也适用于为TV观看者、或者AR/VR耳机用户和其它类似应用生成高质量的定向扬声器信号。利用该设置，AR/VR耳机所需的带宽比发送和接收高质量音频信号要少得多。当环境中存在许多耳机时，这很重要。此外，所描述的技术可以增加扬声器/麦克风阵列引导速度。其还可以通过取消麦克风、扬声器以及相关电路来降低AR/VR耳机的重量和功耗(光传感器所使用的功率远小于近距离通话麦克风和耳塞的功率)。另外，通过从耳机中去除麦克风和耳塞，用户可能感觉比佩戴近距离通话麦克风或耳塞更自然。

图1例示了控制中心和多个人类参与者102的示例性实施方式，该控制中心具有显示多个视频馈送的多个视频监视器101。在这种类型的环境中，视听系统的期望操作如下：当一个或更多个本地在场者102转向监视器101上显示的特定视频馈送时，他们应当能够清楚地听到视频馈送的对应音频，并且应当被该视频馈送中的一方清楚地听到。利用现有技术仍然无法实现这种期望的操作模式。

在这种情形下，均匀放大所有视频馈送可能会使控制中心非常嘈杂并破坏所有参与者的体验。如果使用面部检测来引导多个扬声器阵列(举例来说，如在H.Mizoguchi；Y.Tamai；K.Shinoda；S.Kagami；K.Nagashima,Invisible messenger:visually steerablesound beam forming system based on face tracking and speaker array,IEEEIROS2004,Sendai,Japan中所述)，那么视频馈送中的串扰可能会降低至某种程度。然而，本地参与者可能仍然会遇到嘈杂的状况，因为无论他们面向哪个方向，他们都会听到所有的视频馈送。不用说，这对本地参与者来说并不是一种自然的感受。另一方面，如果在T.F.Bergh,Speaker Tracking Based on Face Detection and Voice ActivityDetection Using a Microphone Array(,IEEE IPIN(Indoor Positioning and IndoorNavigation)2014,Busan,Korea)中描述的目前发展水平的麦克风阵列系统被用于定位参与者的位置，那么这些本地参与者必须大幅提高他们的声音，以便进行良好的声源位置检测。因为本地参与者必须与所有视频馈送的大声扬声器竞争，所以得到麦克风阵列的“关注”是一项非常困难的任务。

如本领域普通技术人员将清楚的，可以用近距离通话(close-talking)的麦克风获得人声。可以通过个人耳塞向每个人发送清晰的声音。然而，具有太多高品质的蓝牙(Bluetooth)麦克风和耳机是昂贵的，并且音频质量可能会因为网络流量而劣化。长时间使用耳塞也可能会损害本地参与者的听力。公共场所中个人麦克风或耳塞的替代品是软件可引导扬声器阵列和麦克风阵列。利用软件可引导扬声器阵列和麦克风阵列以及适当的在场者检测方法，系统可以利用波束成形技术来隔离和放大声音，使得其性能可以更接近在先前段落中所描述的期望操作模式。

传统麦克风阵列方法使用麦克风阵列来检测声源，进行盲声源分离，并将麦克风阵列引导向某些声源以获得更好的语音捕获。利用该方法，当声源数量大于麦克风数量时，并没有简单的方法来确定所有声源。在高噪声环境中，确定声源方向也很棘手而且不可靠。这些不可靠的声源估计可能会劣化波束成形结果。另外，基于麦克风阵列的声源定位和波束成形算法必须使用过去的音频信号来估计当前的波束成形方向。该方法不适用于引导麦克风阵列以跟随移动的声源。此外，对于扬声器阵列应用，没有生成用于检测用户的准确位置的用户声音。

要克服上述和其它问题，所述系统的实施方式部署安装在房间天花板上的红外(IR)光投射器，连同附接至每个扬声器阵列、麦克风阵列以及用户的多个微型光传感器。利用该设置，基于对应于不同投射器像素的立体角来分区整个空间。每个投射器像素利用唯一的数字顺序码来调制。

图2(a)和图2(b)例示了由投射器200生成的两个示例性时间编码光信号201和205。在一个实施方式中，投射器200是DLP投射器，如本领域普通技术人员熟知的。时间光信号201和时间光信号205对应于投射器200的两个不同的像素203和207。使用对应的第一唯一时间光脉冲序列，利用第一投射器像素203的唯一位置信息对沿方向202传播的时间光信号201进行编码。另一方面，使用对应的第二唯一时间光脉冲序列，利用第二投射器像素207的唯一位置信息对沿方向206传播的时间光信号205进行编码。在图2(a)和图2(b)中，投射器像素203和投射器像素207由其相应的投射例示并且位于虚构的投射面204上。前述第一光脉冲序列和第二光脉冲序列是不同的，并且携带关于相应投射器像素的信息。

如本领域普通技术人员将理解的，因为嵌入光中的编码和立体角之间的对应是预先定义的，所以该系统可以使用光传感器接收的编码来容易地确定其朝向光源的方向。以这种方式，其可以确定用户的位置以及扬声器阵列或麦克风阵列的方向。然后，可以将用户/扬声器阵列/麦克风阵列的关系用于引导扬声器阵列和麦克风阵列。由于利用当前技术，光传感器可以小至0.1mm x 0.1mm，因此，小型光传感器比近距离通话麦克风和耳塞更容易携带。另外，由于用户位置变化频度远低于音频频率，因此，位置数据传输的蓝牙/WIFI带宽消耗远低于传输高质量音频信号。这可以节省可佩戴传感器的更多功率和带宽。

在另一示例中，一个人想要在家看TV而不打扰其他家庭成员。利用所述设置，设置在用户身上的光传感器可以解码其接收的方向信号，并让系统使用该信息来引导扬声器阵列以获得高质量的声音，而无需影响其他家庭成员或用户自己的听力(hearing ability)。对于听力不同的家庭成员，也可以向佩戴不同光传感器的人提供不同的音量。因为扬声器阵列可以根据光传感器的方向进行引导，所以TV用户或家庭成员可以在TV前方自由移动，并仍然可以接收到个性化的音量。因为光传感器可以用70Hz或者甚至更高的频率进行跟踪，所以用户的移动不会影响个性化的音频波束成形。

图3例示了扬声器/麦克风阵列系统的示例性实施方式。当正在发言的多个用户302或多个麦克风301之间的距离远小于对应的正在发言的多个用户与多个麦克风阵列之间的距离D时，可以认为声音是在近似误差不大的情况下以相同的方向进出的，参见图4。将两个麦克风301或两个扬声器401之间的距离表示为d，两个麦克风301或两个扬声器401之间的声音行进距离差s将由以下公式确定：

该距离s可以被用于计算对应相移，如本领域普通技术人员所公知的那样。在一个或更多个实施方式中，该参数可以以上述方式用于麦克风阵列波束成形或扬声器阵列波束成形。

计算机系统的示例性实施方式

图5例示了可以被用于实现本文所述技术的计算机系统500的示例性实施方式。在一个或更多个实施方式中，计算机500可以按照本领域技术人员所公知的移动计算装置的尺寸外形实现。在另选实施方式中，计算机500可以基于膝上型计算机或笔记本计算机来实现。然而在另选实施方式中，计算机500可以是专用计算系统。

计算机500可以包括用于遍及计算机500的各种硬件组件并在其间传送信息的数据总线504或其它互连或通信机制，以及与数据总线504联接以处理信息和执行其它计算和控制任务的中央处理单元(CPU或者简称为处理器)501。计算机500还包括耦接至数据总线504的、存储各种信息和要通过处理器501执行的指令的存储器512，如随机存取存储器(RAM)或其它动态存储装置。存储器512还可以包括永久性存储装置，如磁盘、光盘、固态闪速存储器装置或其它非易失性固态存储装置。

在一个或更多个实施方式中，存储器512还可以被用于在处理器501执行指令期间，存储临时变量或其它中间信息。可选地，计算机500还可以包括只读存储器(ROM或EPROM)502或耦接至数据总线504的其它静态存储装置，以存储静态信息和用于处理器501的指令，如计算机500的操作所需的固件、基本输入输出系统(BIOS)，以及计算机500的各种配置参数。

在一个或更多个实施方式中，计算机500可以额外包含两个或更多个亮度传感器509、510，用于检测由投射器200生成的编码光信号。在一个实施方式中，亮度传感器509、510具有快速响应时间以提供高频度的位置检测。另外，计算机500可以包含用于生成音频信号的多个声音处理器506以及用于获得音频的多个麦克风511。

在一个或更多个实施方式中，计算机500可以额外包括通信接口，如耦接至数据总线504的网络接口505。网络接口505可以被配置成利用WIFI接口507和蜂窝网络(GSM或CDMA)适配器508中的至少一方在计算机500与因特网524之间建立连接。网络接口505可以被配置成在计算机500与因特网524之间提供双向数据通信。WIFI接口507可以遵循802.11a、802.11b、802.11g和/或802.11n协议以及本领域普通技术人员公知的蓝牙协议来操作。在示例性实现中，WIFI接口507和蜂窝网络(GSM或CDMA)适配器508发送和接收携带表示各种类型信息的数字数据流的电信号或电磁信号。

在一个或更多个实施方式中，因特网524通常通过一个或更多个子网络向其它网络资源提供数据通信。因此，计算机500能够访问位于因特网524上任何地方的各种网络资源，如远程媒体服务器、web服务器、其它内容服务器以及其它网络数据存储资源。在一个或更多个实施方式中，计算机500被配置成借助于网络接口505，通过包括因特网524在内的多种网络来发送和接收消息、媒体以及其它数据，包括应用程序代码。在该因特网示例中，当计算机500充当网络客户端时，其可以为在计算机500中执行的应用程序请求代码或数据。类似地，其可以将各种数据或计算机代码发送至其它网络资源。

在一个或更多个实施方式中，响应于处理器501执行包含在存储器512中的一个或更多个指令的一个或更多个序列，通过计算机500来实现本文所描述的功能。这样的指令可以从另一计算机可读介质来读入存储器512。执行包含在存储器512中的序列指令使处理器501执行本文所述的各个处理步骤。在另选实施方式中，可以代替地或者与软件指令组合地使用硬布线电路来实现本发明的实施方式。因此，本发明的实施方式不限于硬件电路和软件的任何特定组合。

在此使用的术语“计算机可读介质”是指参与向处理器501提供用于执行的指令的任何介质。该计算机可读介质仅是机器可读介质的一个示例，其可以携带用于实现本文所述任何方法和/或技术的指令。这种介质可以采取多种形式，包括但不限于非易失性介质和易失性介质。

非暂时性计算机可读介质的常见形式例如包括：软盘、软磁盘、硬盘、磁带或任何其它磁介质、CD-ROM、任何其它光学介质、穿孔卡、纸带、任何其它有孔图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、闪速驱动器、存储器卡、任何其它存储器芯片或盒式磁带，或者计算机可以从中读取的任何其它介质。各种形式的计算机可读介质可以涉及向处理器501传送一个或更多个指令的一个或更多个序列以供执行。例如，该指令可以最初在来自远程计算机的磁盘上携带。另选地，远程计算机可以将该指令加载到其动态存储器中并且通过因特网524发送该指令。具体地，该计算机指令可以利用本领域公知的多种网络数据通信协议，经由因特网524从前述远程计算机下载到计算机500的存储器512中。

在一个或更多个实施方式中，计算机500的存储器512可以存储任何以下软件程序、应用和/或模块：

1.操作系统(OS)513，其可以是用于实现基本系统服务和管理计算机500的各种硬件组件的移动操作系统。操作系统513的示例性实施方式对于本领域技术人员来说是公知的，并且可以包括任何现在已知或以后开发的移动操作系统。另外可以提供能够利用网络接口505来实现网络通信的网络通信模块514。

2.软件模块515例如可以包括由计算机500的处理器501执行的一组软件模块，其使计算机500执行某些预定功能，如利用声音处理器506使用声音控制模块516来产生声音，并在麦克风控制模块517的控制下使用麦克风511记录音频。

3.数据存储部518可用于例如存储各种参数和阈值519。

最后，应理解，本文描述的过程和技术并非固有地与任何特定装置相关，而是可以通过任何合适的组件组合来实现。而且，根据本文所描述的教导，可以使用各种类型的通用装置。还可以证明构造专用装置来执行本文所述方法步骤是有利的。已经结合特定实施例描述了本发明，这些实施例在所有方面都旨在是例示性的而不是限制性的。本领域技术人员应当清楚，硬件、软件和固件的许多不同组合将适用于实践本发明。例如，所描述的软件可以采用各种编程或脚本语言来实现，如汇编程序、C/C++、Objective-C、perl、shell、PHP、Java，以及任何现在已知或以后开发的编程或脚本语言。

此外，考虑到本文公开的本发明的说明书和实践，本发明的其他实现对于本领域技术人员将是显而易见的。所描述的实施方式的各个方面和/或组件可以单独地或者以任何组合使用于声学系统和方法中。本说明书和实施例仅被视为示例性的，并且本发明的真实范围和精神由所附权利要求书表示。

Claims

1.一种利用编码光线引导扬声器阵列和麦克风阵列的系统，该系统包括：

a.投射器，该投射器被配置成投射时间投射器光信号，其中，所述时间投射器光信号是针对所述投射器的每个像素，利用包括所述投射器的每个像素的像素坐标的信息段来编码的；以及

b.至少一个光传感器，所述至少一个光传感器在工作上联接至计算机，其中，所述光传感器被配置成检测所述时间投射器光信号并且生成传感器信号，并且其中，所述计算机被配置成接收来自所述光传感器的传感器信号，基于检测到的时间投射器光信号来计算方向信息，并且基于所计算的方向信息来引导多个麦克风或多个扬声器。

2.根据权利要求1所述的系统，其中，所述计算机还被配置成基于检测到的时间投射器光信号来周期性地重新计算所述方向信息。

3.根据权利要求1所述的系统，其中，所计算的方向信息包括用户相对于所述多个麦克风的方向。

4.根据权利要求1所述的系统，其中，所计算的方向信息包括用户相对于所述多个扬声器的方向。

5.根据权利要求1所述的系统，其中，所计算的方向信息包括用户头部相对于显示多个视频流的多个视频监视器的方向，其中，所述计算机被配置成，当用户头部被确定为朝向所述多个视频监视器中的第一视频监视器时，利用所述多个扬声器朝向所述用户引导与所述多个视频流中显示在所述第一视频监视器上的视频流相对应的音频流。

6.根据权利要求1所述的系统，其中，所计算的方向信息包括朝向房间中每个用户的方向，其中，所述计算机被配置成利用所述多个扬声器朝向每个用户引导具有针对每个用户的特定参数的音频流。

7.根据权利要求6所述的系统，其中，所述特定参数包括声级。

8.根据权利要求6所述的系统，其中，所述至少一个光传感器是设置在每个用户身上的。

9.根据权利要求1所述的系统，其中，所计算的方向信息包括朝向房间中用户的方向，其中，所述计算机被配置成朝向所述用户引导多个麦克风。

10.根据权利要求1所述的系统，其中，所述多个麦克风或所述多个扬声器是利用相移来引导的。

11.一种利用编码光线引导扬声器阵列和麦克风阵列的方法，该方法包括以下步骤：

a.利用投射器来投射时间投射器光信号，其中，所述时间投射器光信号是针对所述投射器的每个像素，利用包括所述投射器的每个像素的像素坐标的信息段来编码的；

b.利用在工作上联接至计算机的光传感器检测所述时间投射器光信号并且生成对应的传感器信号；以及

c.利用所述计算机接收所述传感器信号，基于检测到的时间投射器光信号来计算方向信息，并且基于所计算的方向信息来引导多个麦克风或多个扬声器。

12.根据权利要求11所述的方法，其中，所述计算机还被配置成基于检测到的时间投射器光信号来周期性地重新计算所述方向信息。

13.根据权利要求11所述的方法，其中，所计算的方向信息包括用户相对于所述多个麦克风的方向。

14.根据权利要求11所述的方法，其中，所计算的方向信息包括用户相对于所述多个扬声器的方向。

15.根据权利要求11所述的方法，其中，所计算的方向信息包括用户头部相对于显示多个视频流的多个视频监视器的方向，其中，所述计算机被配置成，当用户头部被确定为朝向所述多个视频监视器中的第一视频监视器时，利用所述多个扬声器朝向所述用户引导与所述多个视频流中显示在所述第一视频监视器上的视频流相对应的音频流。

16.根据权利要求11所述的方法，其中，所计算的方向信息包括朝向房间中每个用户的方向，其中，所述计算机被配置成利用所述多个扬声器朝向每个用户引导具有针对每个用户的特定参数的音频流。

17.根据权利要求16所述的方法，其中，所述特定参数包括声级。

18.根据权利要求16所述的方法，其中，所述至少一个光传感器是设置在每个用户身上的。

19.根据权利要求11所述的方法，其中，所计算的方向信息包括朝着房间中用户的方向，其中，所述计算机被配置成朝向所述用户引导多个麦克风。

20.根据权利要求11所述的方法，其中，所述多个麦克风或所述多个扬声器是利用相移来引导的。

21.一种有形计算机可读介质，该有形计算机可读介质包含实现方法的一组指令，所述方法包括以下步骤：