CN104106267B

CN104106267B - 在增强现实环境中的信号增强波束成形

Info

Publication number: CN104106267B
Application number: CN201280031024.2A
Authority: CN
Inventors: A·S·切特里; K·瓦卢萨米; E·D·克伦普
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2011-06-21
Filing date: 2012-06-20
Publication date: 2018-07-06
Anticipated expiration: 2032-06-20
Also published as: WO2012177802A2; WO2012177802A3; JP2014523679A; JP6101989B2; US20120327115A1; EP2724338A2; US9973848B2; EP2724338A4; CN104106267A

Abstract

增强现实环境允许虚拟和真实物体之间的交互作用。波束成形技术应用于由麦克风的阵列获取的信号以允许同时的空间跟踪和从多个用户的信号获取。例如来自环境中的其它传感器的定位信息可用于选择波束成形器系数的特定集合和聚焦于信号源上的因而产生的波束图样。可选地，一系列波束图样可以重复地用于以计算上有效的方式定位信号源。波束成形器系数可被预先计算。

Description

在增强现实环境中的信号增强波束成形

优先权要求和相关申请

本申请要求特此通过引用被并入的于2011年6月21日提交的美国非临时申请号13/165,620的优先权并与其相关。

背景技术

增强现实环境允许在用户和真实世界物体和虚拟或计算机产生的物体和信息当中的交互作用。在真实和虚拟世界之间的这个合并为新的交互作用机会铺路。然而，获取关于这些交互作用的数据例如包括语音或可闻手势的音频数据可能被物理环境中存在的噪声或多个信号损坏。

附图说明

参考附图来描述详细描述。在附图中，参考数字的最左边的数字标识参考数字首次出现的附图。在不同附图中的相同的参考数字的使用指示相似或相同的部件或特征。

图1示出在包括增强现实功能节点和具有波束成形模块的相关计算设备的增强现实环境内的例证性场景；

图2示出具有波束成形模块连同其它选定的部件的例证性增强现实功能节点；

图3示出麦克风阵列的俯视图；

图4示出图3的麦克风阵列的侧视图；

图5示出包含具有多个同时的波束图样的多个用户的房间，波束图样配置成从多个用户获取音频信号；

图6示出通过将波束成形系数应用于从麦克风阵列获取的信号数据而形成的波束图样的示意图；

图7示出当阵列中的麦克风的至少一部分的增益被调节时通过将波束成形系数应用于从麦克风阵列获取的信号而形成的波束图样的示意图；

图8示出与非波束成形比较当使用波束成形时在信号获取中的改进的曲线图；

图9是配置成存储预先计算的波束成形器系数和相关数据的波束成形器系数数据库的例证性图；

图10示出从不同的波束成形系数及其同时的使用产生的多个不同的波束图样；

图11示出与波束成形模块的交互作用；

图12是当到信号源的方向是已知的时使用波束成形器获取信号的例证性过程；

图13示出产生接连地具有较精细的空间特征的波束图样以确定到信号源的方向的波束成形器的使用；

图14是至少部分地基于信号的获取使用波束成形器来确定到信号源的方向的例证性过程。

具体实施方式

增强现实系统可配置成与场景内的物体交互作用并产生增强现实环境。增强现实环境允许虚拟物体和信息合并，且与有形真实世界物体交互作用，反之亦然。

本文公开的是适合于使用具有波束成形的声麦克风阵列来获取或拒绝出现在增强现实环境的物理环境内的音频信号的技术和设备。音频信号包括有用的信息例如用户语音、可闻手势、音频发信号设备以及噪声源例如街道噪声、机械系统等。音频信号可包括通常人耳可听得见的或人耳听不见的频率，例如超声波。

从布置在麦克风阵列中的多个麦克风接收信号数据。麦克风可以分布在规则或不规则的线性、平面或三维布置中。信号数据接着由波束成形器模块处理以产生经处理的数据。在一些实现中，信号数据可被存储用于以后处理。

波束成形是将一组波束成形器系数应用于信号数据以产生波束图样、或增益或衰减的有效体积的过程。在一些实现中，这些体积可被认为从来自麦克风阵列中的单独麦克风的信号之间的建设性和破坏性干扰产生。

这组波束成形器系数对信号数据的应用导致表示与那些波束成形器系数相关的波束图样的经处理的数据。不同的波束成形器系数对信号数据的应用产生不同经处理的数据。不同的几组波束成形器系数可应用于信号数据，导致多个同时的波束图样。这些波束图样中的每个可具有不同的形状、方向、增益等。

波束成形器系数可被预先计算以产生具有特定的特征的波束图样。这样的预先计算降低了总计算要求。同时在其它实例中，系数可在立即响应基础上被计算。在任一实例中，系数可在本地、远程地存储在例如云存储器内或分布在两者中。

给定的波束图样可用于从信号源存在于的特定空间位置选择性地收集信号。在增强现实环境内可用的、描述信号源的位置的定位数据可用于选择聚焦于该位置上的特定波束图样。信号源可通过各种技术——包括结构光、图像捕获、人工输入、音频信号的三边测量等——被定位，即，使其空间位置被确定在物理环境中。结构光可涉及图样到场景内的物体的投影，并可使用成像设备基于感测到物体与图样的交互作用来确定位置。图样可以是规则的、随机的、准随机的等。例如，结构光系统可确定用户的脸在房间内的特定坐标处。

选定的波束图样可配置成为信号源提供增益或衰减。例如，波束图样可聚焦在特定用户的头上，允许用户语音的恢复，同时使整个房间中来自工作的空调的噪声衰减。

通过使用波束成形的这样的空间选择性允许在波束图样之外的不需要的信号的拒绝或衰减。波束图样的增加的选择性提高了音频信号的信噪比。通过提高信噪比，提高了在增强现实环境内的音频信号的诠释。

来自波束成形器模块的经处理的数据可接着经历额外的过滤或直接由其它模块使用。例如，滤波器可应用于经处理的数据（其为从用户获取的语音），以从在环境中运行的机器移除残余音频噪声。

波束成形模块也可用于确定方向或定位音频信号源。这个确定可用于确认以另一方式例如从结构光或当没有初始位置数据是可用的时确定的位置。可以用平面方式例如参考方位角或以三维方式例如参考方位角和高度来识别信号源相对于麦克风阵列的方向。在一些实现中，可参考一组特定的坐标例如方位角、高度和离已知参考点的距离来定位信号源。

可通过探测在多个波束图样当中的最大信号来确定方向或定位。这些波束图样中的每个可具有在不同方向上的增益，具有不同的形状，等等。给出特征例如波束图样方向、拓扑、尺寸、相对增益、频率响应等，可确定方向和在一些实现中信号源的位置。

例证性环境

图1示出具有增强现实功能节点（ARFN）102的例证性增强现实环境100，ARFN102具有相关的计算设备。在一些实现中，可使用额外的102（1）、102（2）...102（N）。ARFN102可位于物理环境中，例如在天花板的角落或中心中、桌面上、落地支架上，等等。当是活动的时，一个这样的ARFN102可产生将一些或所有物品合并在场景例如真实世界物体中的增强现实环境。

麦克风阵列104、输入/输出设备106、网络接口108等可经由输入/输出接口114耦合到包含处理器112的计算设备110。麦克风阵列104包括多个麦克风。麦克风可以以规则或不规则图样分布。图样可以是线性的、平面的或三维的。阵列内的麦克风可具有不同的能力、图样等。下面参考图3和4更详细地讨论麦克风阵列104。

ARFN102可合并或耦合到输入/输出设备106。这些输入/输出设备包括投影仪、摄像机、麦克风、其它ARFN102、其它计算设备110等。在计算设备110和输入/输出设备106之间的耦合可经由电线、光纤电缆或无线连接。下面关于图2更详细地描述ARFN102的一些输入/输出设备106。

网络接口108配置成将计算设备110耦合到网络，例如局域网、广域网、无线广域网等。例如，网络接口108可用于经由互联网在计算设备110和云资源之间传输数据。

处理器112可包括配置成执行指令的一个或多个处理器。指令可存储在存储器116中、处理器112可访问的其它存储器中例如经由网络接口108访问的云中。

存储器116可包括计算机可读存储介质（“CRSM”）。CRSM可以是计算设备可访问以实现存储在其上的指令的任何可用物理介质。CRSM可包括但不限于随机存取存储器（“RAM”）、只读存储器（“ROM”）、电可擦除可编程只读存储器（“EEPROM”）、闪存或其它存储器技术、光盘只读存储器（“CD-ROM”）、数字通用盘（“DVD”）或其它光盘存储器、盒式磁带、磁带、磁卡存储器或其它磁性存储设备或可用于存储期望信息并可由计算设备访问的任何其它介质。

几个模块例如指令、数据库等可存储在存储器116内，并配置成在处理器例如处理器112上执行。操作系统模块118配置成管理计算设备110内的硬件和服务，并为了其它模块的益处而耦合到计算设备110。增强现实模块120配置成维持增强现实环境。

定位模块122配置成确定信号源相对于麦克风阵列104的位置或方向。定位模块122可至少部分地利用如经由输入/输出设备106或麦克风阵列104获取的包括结构光的数据、测距数据等，以确定音频信号源的位置。例如，结构光投影仪和摄像机可用于确定用户的头的物理位置，可闻信号可从该物理位置发出。在另一例子中，音频到达时间差技术可用于确定位置。

波束形成模块124配置成从麦克风阵列104接受信号数据，并将波束成形器系数应用于信号数据以产生经处理的数据。通过将波束成形器系数应用于信号数据，形成可展示增益、衰减、方向性等的波束图样。这样的增益、衰减、方向性等在经处理的数据中被展示。例如，波束图样可聚焦并增加对来自用户的语音的增益。通过应用配置成产生具有聚焦在用户的物理位置上的增益的波束形成的波束成形器系数，所获取的信号可以以几种方式改进。例如，因而产生的经处理的数据展示与非波束形成器信号比较具有更大的信噪比的语音信号。在另一例子中，经处理的数据可展示来自其它空间位置的减少的噪声。在其它实现中，可展示其它改进。下面关于图8更详细地讨论增益中的这个增加。

波束成形器系数可动态发生地被计算，或系数的至少一部分可在使用之前被预先计算。预先计算的波束成形器系数可存储在下面关于图9更深地描述的波束成形器系数数据库126中。在一些实现中，波束成形器系数数据库126的至少一部分可位于外部存储器上，例如经由网络接口108可访问的云存储器中。

在一些实现中，来自麦克风阵列104和/或在增强现实环境中的其它输入设备的信号数据可存储在信号数据库128中。例如，可存储关于产生音频信号的在环境内的物体的数据，例如其尺寸、形状、运动等。这个所存储的数据可由波束成形模块124或其它模块访问用于以后的处理。

模块可存储在ARFN102的存储器、在本地网络上可访问的存储设备或经由网络接口108可访问的云存储器中。例如，指示模块可被存储并从云资源内操作。

图2示出一个示例性增强现实功能节点102和包括输入/输出设备106的选定部件的例证性示意图200。ARFN102配置成扫描场景202的至少一部分及其中的物体。ARFN102也可配置成提供增强现实输出，例如图像、声音等。

台架204保持ARFN102的部件。在台架204内可布置产生图像并将图像投影到场景202中的投影仪206。这些图像可以是用户可察觉的可见光图像、用户不可察觉的可见光图像、具有不可见光的图像、或其组合。这个投影仪206可使用能够产生图像并将该图像投影到环境内的表面上的任何数量的技术来实现。适当的技术包括数字微镜设备（DMD）、硅覆液晶显示器（LCOS）、液晶显示器、3LCD等。投影仪206具有描述特定的立体角的投影仪视场208。投影仪视场208可根据投影仪的配置中的变化而改变。例如，投影仪视场208可在光学变焦应用于投影仪时变窄。在一些实现中，可使用多个投影仪206。

摄像机210也可布置在台架204内。摄像机210配置成以可见光波长、不可见光波长或两者使场景成像。摄像机210具有描述特定的立体角的摄像机视场212。摄像机视场212可根据摄像机210的配置中的变化而改变。例如，摄像机的光学变焦可使摄像机视场212变窄。在一些实现中，可使用多个摄像机210。

台架204可以以固定的方位安装，或经由执行器耦合到固定装置式的台架204可移动。执行器可包括压电执行器、电机、线性执行器和配置成转移或移动台架204或其中的部件例如投影仪206和/或摄像机210的其它设备。例如，在一个实现中，执行器可包括扫视电机214、俯仰电机216等。扫视电机214配置成在改变方位角的偏转运动中旋转台架204。俯仰电机216配置成改变台架204的俯仰，改变高度。通过扫视和/或俯仰台架204，可获取场景的不同视图。

一个或多个麦克风218可布置在台架204中或场景内的其它地方例如在麦克风阵列104中。这些麦克风218可用于从用户获取输入，用于回声定位、声音的位置确定，或以另外方式帮助来自场景的输入的特征化和接收。例如，用户可产生被预先表示为注意命令输入的特定的噪声，例如在墙壁上的轻叩声或捻手指声。用户可以可选地使用语音命令。在一些实现中，音频输入可使用麦克风当中的到达时间差和/或使用如下面关于图13-图14描述的波束成形而定位在场景内。

一个或多个扬声器220也可存在以提供可闻输出。例如，扬声器220可用于提供来自文本到语音模块的输出或重放预先记录的音频。

换能器222可存在于ARFN102内或环境内的其它地方，并配置成探测和/或产生不可闻信号例如次声或超声。这些不可闻信号可用于在附属设备和ARFN102之间提供发信号。

也可在ARFN102中提供测距系统224。测距系统224可配置成向扫描的物体或一组物体提供来自ARFN102的距离、位置或距离和位置信息。测距系统224可包括雷达、光探测和测距（LIDAR）、超声测距、立体测距等。在一些实现中，测距系统224也可提供方向信息。换能器222、麦克风218、扬声器220或其组合可配置成使用回声定位或回声测距来确定距离和空间特征。

在另一实现中，测距系统224可包括声换能器，且麦克风218可配置成探测由声换能器产生的信号。例如，一组超声换能器可布置成使得每个换能器将超声投影到房间的特定扇区中。麦克风218可配置成接收超声信号，或专用的超声麦克风可被使用。给定麦克风相对于彼此的已知位置，可提供主动声纳测距和定位。

在这个图示中，计算设备110被示为在台架204内。然而，在其它实现中，计算设备110的全部或一部分可布置在另一位置中并耦合到APRN102。这个耦合可经由电线、光纤电缆、无线地或其组合而出现。此外，可访问在ARFN102外部的额外资源，例如在经由网络接口108和局域网可访问的另一ARFN102中的资源、经由广域网连接可访问的云资源或其组合。

在这个图示中还示出被表示为“O”的投影仪/摄像机线性偏差。这是在投影仪206和摄像机210之间的线性距离。投影仪206和摄像机210放置在离彼此的距离“O”处帮助恢复来自场景的结构光数据。已知的投影仪/摄像机线性偏差“O”也可用于计算距离、量尺寸和以另外方式帮助场景202内的物体的特征化。在其它实现中，投影仪视场208和摄像机视场212的相对角度和尺寸可改变。此外，投影仪206和摄像机210相对于台架204的角度可改变。

在其它实现中，ARFN102的部件可分布在环境100内的一个或多个位置上。如上所述，麦克风218和扬声器220可分布在整个场景中。投影仪206和摄像机210也可位于单独的台架204中。ARFN102也可包括由用户使用来发出命令注意输入的分立便携式发信号设备。例如，可能有声冲切机（可闻或超声的）、电子发信号设备例如红外发射器、无线电发射机等。

图3示出麦克风阵列104的一个实现的俯视图300。在该图示中，支撑结构302描述具有垂直于彼此布置的两个线性构件以及如下面在图4中所示的十字架，每个线性构件具有D1和D2的长度。支撑结构302帮助维持麦克风218之间的已知预定距离，麦克风可接着在声信号的空间坐标的确定中使用。

麦克风218（1）-（M）沿着支撑结构302分布。麦克风218的分布可以对称的或非对称的。应理解，麦克风218的数量和放置以及支撑结构302的形状可改变。例如，在其它实现中，支撑结构可描述三角形、圆形或另一几何形状。在一些实现中，可使用非对称支撑结构形状、麦克风的分布或这两者。

支撑结构302可包括房间的结构的部分。例如，麦克风218可安装到房间内的墙壁、天花板、地板等。在一些实现中，可利用麦克风218以及通过其它感测装置例如经由测距系统224、结构光扫描、人工输入等确定的它们相对于彼此的位置。例如，在一个实现中，麦克风218可放置在房间内的不同位置和它们相对于彼此的精确位置处，精确位置由测距系统224使用配置成探测布置在每个麦克风上的光学标签的光学测距器来确定。

图4示出图3的麦克风阵列的侧视图400。如这里所示的，麦克风阵列104可配置有三维布置中的麦克风218。如这里所示的，支撑结构的一部分配置成正交于支撑结构302的其它构件。支撑结构302从ARFN102延长距离D3。通过将麦克风218布置在三维配置中，波束成形模块124可配置成产生相对于麦克风阵列104指向特定的方位角和高度的波束图样。

在一个实现中，麦克风218和麦克风阵列104配置成在具有小于每立方米100千米的密度的非水和气态介质中操作。例如，麦克风阵列104配置成在标准大气中获取音频信号。

图5示出在如ARFN102和麦克风阵列104提供的增强现实环境中包含多个用户的房间500。如所示，两个用户在房间的相对角落处，在图示中他们中的每个正讲话。此外，房间可具有其它声源，例如冰箱、空调等。来自第一个用户的语音被示为在信号源位置502（1）处。类似地，来自房间另一边的第二个用户的语音被示为在信号源位置502（2）处。波束成形模块124同时产生一对波束图样504（1）和504（2）。波束图样504（1）聚焦在信号源位置502（1）处，而波束图样504（2）聚焦在信号源位置502（2）处。通过聚焦相应的波束图样及其在单独用户上的因而产生的增益，在经处理的数据中的所获取的语音信号展示增加的信噪比，而来自另一用户的语音的声音被衰减或消除。这导致较干净的信号改进，导致下游处理，例如经处理的数据的语音识别。

到信号源的方向可在三维空间中以方位角和高度角表示。方位角506指示相对于原点的角位移。高度角508指示相对于原点例如本地垂线的角位移。

波束成形技术

图6示出通过将波束成形系数应用于从麦克风阵列104获取的信号数据而形成的波束图样504的示意图600。如上所述，波束图样从一组波束成形器系数对信号数据的应用产生。波束图样产生有效增益或衰减的体积。在这个图示中，虚线指示由波束成形系数提供的增益的等容线。例如，在虚线处的增益在这里相对于等方性麦克风可以是+12分贝（dB）。

波束图样504可展示多个波瓣或增益区，增益在表示波束图样方向602的特定方向上占优势。主波瓣604在这里被示为沿着波束图样方向602延伸。示出了指示主波瓣604的最大宽度的主波瓣波束宽度606。还示出多个侧波瓣608。沿着波束图样方向602与主波瓣604相对的是后波瓣610。布置在波束图样504周围的是零区域612。这些零区域是对信号衰减的区域。例如，如这里所示的，第一扬声器的信号源位置502（1）在主波瓣604内，并受益于由波束图样504提供的增益且与使用非波束获取的信号比较展示提高的信噪比。相反，第二扬声器的信号源位置502（2）在后波瓣610后面的零区域612。作为结果，来自信号源位置502（2）的信号相对于第一信号源位置502（1）明显减少了。

如在本图示中所示的，波束图样的使用与非波束形成比较提供信号获取中的增益。波束成形还允许空间选择性，实际上允许系统对不感兴趣的信号“充耳不闻”。此外，因为多个波束图样可同时应用于来自麦克风阵列104的同一组信号数据，可能有多个同时的波束图样。例如，第二波束图样504（2）可同时产生，允许对信号源位置502（2）特定的增益和信号拒绝，如在下面关于图10更深地讨论的。

图7示出当阵列中的麦克风的至少一部分的增益改变时通过将波束成形系数应用于从麦克风阵列104获取的信号而形成的波束图样的示意图700。在麦克风阵列104中的每个麦克风218的增益可在每个麦克风218中、一组麦克风218中或对单独的麦克风218全局地改变。麦克风增益改变可出现在麦克风硬件218中，可使用信号处理技术来应用，或其组合。此外，增益的调节可以是动态的，且因此随着时间的过去而调节。

如这里所示的，分别来自第一个和第二个用户的我们的两个信号位置502（1）和502（2）存在于单个房间中。在这个例子中，假设第二个用户是在信号源位置502（2）处产生高振幅音频信号的大声的讲话人。在这里示出的聚焦在第一个用户上的波束图样504的使用为第一扬声器的信号源位置502（1）提供增益，同时使在第二信号源位置502（2）处的第二扬声器衰减。然而，考虑到甚至在这个衰减从波束图样产生的情况下，第二个用户是大声的讲话人，使得他的语音继续干扰来自第一个用户的语音信号。

为了减轻这种情况或提供其它益处，麦克风218的增益可在麦克风阵列104中被微分地应用。在这种情况下，麦克风增益702的曲线图被示为与阵列104中的每个麦克风218相关。如这里所示的，增益在最接近第二信号源位置502（2）的麦克风218中减少。这减少了来自第二用户的信号输入，最小化了通过波束图样捕获的他们的语音的信号振幅。类似地，接近第一扬声器的第一信号源位置502（1）的麦克风218的增益增加以提供较大的信号振幅。

在取决于麦克风响应、扬声器的位置等的其它实现中，单独的麦克风的增益可改变以产生聚焦于感兴趣信号源位置上的波束图样。例如，在一些实现中，信噪比可通过降低接近感兴趣信号源位置的麦克风的增益来提高。

图8示出与非波束成形比较当使用波束成形时在信号恢复中的改进的示例性曲线图800。振幅802沿着垂直轴指示，而信号的频率804沿着水平轴指示。

在这里用虚线示出的是在没有波束形成被应用的情况下来自麦克风阵列104的总信号806。在总信号806中，感兴趣信号808示出与噪声信号可比较的振幅。在这里示出来自机器例如在房间810中的其它地方工作的空调的噪声信号。试图分析信号808，给定低信噪比，例如对语音识别的处理将可能导致差的结果。

相反，使用波束成形器812的信号明确地将感兴趣信号808升高到噪声之上。此外，使用波束成形器812的信号的空间选择性从信号有效地消除了机器噪声810。作为提高的信号质量的结果，例如对语音识别的信号的额外分析体验改进的结果。

图9是波束成形器系数数据库126的例证性图900。波束成形器系数数据库126配置成存储预先计算的或动态发展的波束成形器系数。波束成形器系数可被认为是应用于来自麦克风阵列104中的每个麦克风218的信号的权数的形式。如上所述，通过应用一组特定的波束成形器系数，可得到特定的波束图样。

波束成形器系数数据库126可配置成存储波束图样名称902以及波束图样504的方向性。可相对于麦克风阵列104的物理布置对波束图样504的一个或多个波瓣表示这个方向性。仅为了说明而不是作为限制，波束图样的方向性是波束图样方向602，即，主波瓣604的方向。

方向性可包括方位角方向904和高度方向906连同波束图样的尺寸和形状908。例如，波束图样A被定向在0度的方位角和30度的高度，并具有六个波瓣。在其它实现中，可规定每个波瓣的尺寸和宽度。也可存储波束图样的其它特征例如波束图样方向、拓扑、尺寸、相对增益、频率响应等。

产生每个波束图样的波束成形器系数910存储在波束成形器系数数据库126中。当应用于包括来自麦克风218（M）的信号的信号数据以产生经处理的数据时，这些系数用来加权或修改那些信号以产生特定的波束图样。

波束成形器系数数据库126可存储一个或多个波束图样。例如，可存储具有在不同的方向上的增益的波束图样。通过预先计算、存储并取回系数，与在处理期间波束成形器系数的计算比较，计算要求降低了。如上所述，在一些实现中，波束成形器系数数据库126的一个部分可存储在存储器116，而另一部分可存储在云资源中。

图10示出从不同的波束成形系数及其同时的使用产生的多个不同的波束图样1000。因为波束图样是产生特定的经处理的数据的数据结构，所以可能从同一组信号数据同时产生多个不同的波束图样。

如上所述，第一波束图样1002被示为通过具有波束成形器系数910（1）的应用波束图样A902产生。还示出具有在不同方向上的增益并从波束图样B902产生的第二波束图样1004。从波束图样C902的波束成形器系数910（3）的应用产生的第三波束1006指向不同于第一和第二波束图样的方向。

如在1008示出的，所有三个或多个波束图样可同时是活动的。因此，如在本例中所示的，三个单独的信号源可被跟踪，每个信号源具有不同的波束图样，波束图样具有波束成形器系数。只要波束成形模块124使用计算能力来处理来自麦克风104的进入的信号数据，额外的波束图样就可产生。

图11示出波束成形模块124及其交互作用。麦克风阵列104产生信号数据1102。这个信号数据1102包括来自阵列104中的麦克风的至少一部分的数据。例如，在一些实现中，一些麦克风218可被禁用，且因此不产生数据。信号数据1102被提供给波束形成模块124。

定位模块122可向波束形成模块124提供源方向数据1104。例如，定位模块122可使用结构光来确定用户的信号源位置502在某个空间坐标处。源方向数据1104可包括相对于麦克风阵列104的空间坐标、方位角、高度或方位角和高度。

波束形成模块124可从波束成形器系数数据库126产生或选择一组波束成形器系数910。可至少部分地基于信号源的源方向数据1104来确定波束成形器系数910及其相应的波束成形图样504的选择。可进行该选择来提供对给定的信号源的增益或衰减。例如，可选择导致波束图样504的波束成形器系数910，波束图样504向用户的语音提供增益同时使不同的噪声源在空间上衰减。如上所述，波束成形器系数910可以至少部分地被预先计算。

波束成形模块124将一组或多组波束成形器系数910应用于信号数据1102以产生经处理的数据1106。例如且不是作为限制，波束成形模块124可使用四组波束成形器系数910（1）-（4），并产生四组经处理的数据1106（1）-（4）。虽然起源于同一信号数据，这些组经处理的数据1106中的每组由于其不同的波束图样504而可以是不同的。

可通过额外的过程来分析或进一步操纵经处理的数据。如这里所示的，经处理的数据1106（1）由滤波器模块1108（1）过滤。过滤的经处理的数据1106（1）接着被提供给语音识别模块1110。过滤器模块1108（1）可包括配置成选择性地使人类语音的频率通过的带通滤波器。本文的滤波器模块可以是模拟的、数字的或其组合。语音识别模块110配置成分析可以或可以不被滤波器模块1108（1）过滤的经处理的数据1106，并将人类语音识别为对增强现实环境的输入。

第二组经处理的数据1106（2）可以或可以不由第二滤波器模块1108（2）处理，并被提供给可闻手势识别模块1112用于分析。可闻手势识别模块1112可配置成将可闻手势例如拍手、捻手指、轻叩等确定为对增强现实环境的输入。

只要波束形成模块124使用处理能力来将波束形成系数910应用于信号数据1102，多个同时的波束图样就可产生，每个波束图样具有经处理的数据输出。例如由第三组波束成形器系数910产生的第三组经处理的数据1106（3）可被提供到某个其它模块1114。其它模块1114可提供其它功能例如音频记录、生物监测等。

在一些实现中，源方向数据1104可能是不可得到的、不可靠的，或独立地确认源方向数据可能是合乎需要的。选择性地产生波束图样的能力同时可用于定位声源。

源方向确定模块1116可如所示配置成接受多个经处理的数据输入1106（1）...1106（Q）。使用一系列不同的波束图样504，系统可搜索信号强度最大值。通过接连地使用较高分辨率波束图样504，源方向确定模块116可配置成隔离相对于麦克风阵列104的到信号源的方向。在一些实现中，信号源可被定位到空间中的特定区域。例如，一组波束图样（每个波束图样具有不同的原点）可配置成对信号源位置作三角测量，如下面关于图13-图14更详细地讨论的。

波束成形模块124还可配置成跟踪信号源。该跟踪可包括预先计算的一组波束成形器系数910的修改或不同组的波束成形器系数910的连续选择。

波束成形模块124可实时、近实时地操作，或可应用于例如在信号数据库128中的以前获取和存储的数据。例如，考虑在增强现实环境中发生的演示。来自演示的信号数据1102存储在信号数据库128中。在由主持人演示期间，在房间后方的两个同事彼此交谈，讨论由主持人提出的观点。当请求其侧面交谈的记录时，波束成形模块124使用一个或多个波束图样来在交谈期间聚焦在来自房间中其位置的信号上，并产生其交谈的经处理的数据1106。相反，请求演示的重放的其他用户可听到从聚焦于主持人的波束图样产生的音频。

例证性过程

在本公开中描述的过程可通过在本文描述的体系结构或通过其它体系结构实现。这些过程被示为在逻辑流程图中的块的集合。在一些块代表可在硬件、软件或其组合中实现的操作。在软件的上下文中，块代表存储在一个或多个计算机可读存储介质上的计算机可执行指令，当所述指令由一个或多个处理器执行时执行所述操作。通常，计算机可执行指令包括执行特定的功能或实现特定的抽象数据类型的例程、程序、对象、部件、数据结构等。操作被描述的顺序并不预期被解释为限制，且任何数量的所述块可以按任何顺序或并行地组合以实现过程。应理解，下面的过程也可在其它体系结构上实现。

图12是当信号源的方向是已知的时使用波束成形器来获取信号的例证性过程1200。在1202，在麦克风阵列104处从信号源获取信号数据。例如，麦克风阵列104可在增强现实环境中探测用户的语音的声音。

在1204，确定信号源相对于麦克风阵列104的位置。继续这个例子，ARFN102可使用来自投影仪206并由摄像机210接收的结构光来确定源方向数据1104，其显示用户正位于房间中的空间坐标X、Y、Z处，其在相对于麦克风阵列104在300度的相对方位角和45度的高度处。

在1206，一组波束成形器系数910应用于信号数据以产生具有波束图样504的经处理的数据1106，波束图样504聚焦于信号源的位置或方向上。在一些实现中，波束成形器系数910的至少一部分可被预先计算并从波束成形器系数数据库126取回。可至少部分地通过信号方向数据1104的分辨率来确定这组波束成形器系数910的选择。例如，在源方向数据具有±1米的误差裕度的场合，可在具有较小的主波瓣波束-宽度606的波束图样上选择具有较大的主波瓣波束-宽度606的波束图样以确保信号的捕获。

在1208，可分析经处理的数据1106。例如，经处理器的数据可由语音识别模块1110、可闻手势识别模块1112等分析。继续这个例子，语音识别模块1110可从用户的语音产生文本数据。同样，可闻手势识别模块1112可确定拍手发生并产生这作为用户输入。

在一些实现中，这组波束成形器系数910可至少部分地响应于信号源的确定的位置或方向上的变化而更新。例如，在信号源是在行走时讲话的用户的场合，应用于信号数据1102的这组波束成形系数910可以被连续地更新以提供具有聚焦于在运动中时的用户上的增益的主波瓣。

虽然这里描述了单个信号和波束图样，应理解，多个信号可被获取，且多个同时的波束图样可存在。

图13示出产生接连地具有较精细的空间特征以确定到信号源的方向的波束成形器的使用1300。如上所述，在一些实现中，可能期望使用来自麦克风阵列104的信号数据1102来确定到可闻信号源的位置或方向。

这里所示的是房间，其中部署有一组四个粗略波束图样1302。这些波束图样504配置成覆盖房间的四个象限。如上所述，这些波束图样504可同时存在。信号源位置502用房间的右上象限中的“X”指示。来自每个波束图样504的经处理的数据1106可被比较以确定信号最大值存在于哪个波束图样中。例如，波束成形模块124可确定哪个波束图样具有最大声的信号。

如这里所示的，具有主波瓣和到右上象限的波束方向的波束图样504被加阴影，指示它是包含最大信号的波束图样。第一波束图样方向1304在第一角度1306处示出。因为粗略波束图样1302相对大，此时，到信号源位置502的方向是不精确的。

基于右上波束图样包含信号最大值的确定，一组中间波束图样1308接着应用于信号数据1102。如这里所述的，这组中间波束图样主要包含在感兴趣的右上象限的体积内，每个波束图样具有比粗略波束图样1302更小的主波瓣。信号最大值从中间波束图样1308当中且如这里所示的由具有成第二角度1312的第二波束图样方向1310的阴影主波瓣确定。

具有不同的增益、方位等的一系列波束图样可继续应用于信号数据1102以改善信号源位置502。如这里所示的，一组波束成形图样1314聚焦在第二波束图样方向1310周围。再次，从这些波束图样中，信号最大值被探测到。例如，如这里所示的，精细波束图样1314之一的阴影波瓣包含信号最大值。这个波束图样的第三波束图样方向1316被示为具有第三角度1318。到信号源位置502的方向可因此被确定为第三角度1318。

图14是至少部分地基于信号的获取使用波束成形器确定到信号源的方向的例证性过程1400。在1402，在麦克风阵列104处从信号源获取信号数据1102。例如，麦克风阵列104可在增强现实环境中探测用户拍手的声音。

在1404，描述包括第一体积的第一组波束图样504的第一组波束成形器系数910应用于信号数据1102。例如，图13的粗略波束图样1302可应用于信号数据1102。

在1406，做出关于第一组波束图样内的哪个波束图样包含来自信号的最大信号强度的确定。继续来自图13的例子，选择具有第一波束图样方向1304的波束图样。

在1408，描述具有在第一体积内的第二体积的第二组波束图样的第二组波束成形器系数910应用于信号数据1102。例如，在右上象限内的中间波束图样1308。在一些实现中，第二组中的波束图样可在第一体积外部延伸。然而，在第二组波束成形器系数910中的波束图样可配置成主要布置在第一体积内。

在1410，做出关于第二组波束图样内的哪个波束图样包含来自信号的最大信号强度的确定。例如，具有第二波束图样方向1310的波束图样。

在1412，至少部分地基于在包含信号强度最大值的第二组波束图样内的波束图样的特征来确定源相对于麦克风阵列104的方向。波束图样的特征可包括波束图样方向602、朱波瓣波束宽度606、增益图样、波束图样几何结构、零区域612的位置等。

在一些实现中，较精细的波束图样的额外的连续迭代可用于进一步改善到信号源的方向。此外，在一些实现中，波束图样可配置成具有布置在不同的物理位置上的原点。波束图样的原点是中心点，波瓣可被认为从该中心点延伸。

结论

虽然以结构特征特定的语言描述了主题，应理解，在所附权利中定义的主题不一定限于所描述的特定特征。更确切地，特定的特征被公开为实现权利要求的例证形式。

条款

1.一种增强现实系统，包括：

处理器；

麦克风阵列，其包括耦合到所述处理器并配置成从音频信号源产生信号数据的多个麦克风；

投影仪，其耦合到所述处理器并配置成产生结构光；

摄像机，其耦合到所述处理器并配置成接收所述结构光；

定位模块，其耦合到所述处理器并配置成至少部分地使用所述结构光来确定所述音频信号源的位置；

波束成形器系数数据库，其配置成存储一组或多组波束成形器系数，每组波束成形器系数与波束图样相关；以及

波束成形模块，其配置成至少部分地基于所述音频信号源的所确定的位置来从所述波束成形器系数数据库选择一组或多组所述一个或多个波束图样。

2.如条款1的系统，其中所述一个或多个波束图样中的每个包括主波瓣，且其中所述波束成形模块配置成通过确定配置成将所述音频信号源的位置放置在选定的波束图样的主波瓣内的波束图样来选择所述波束图样。

3.如条款1的系统，其中所述一个或多个波束图样中的每个包括零区域，且其中所述波束形成模块配置成通过确定配置成将所述音频信号源的所述位置放置在所述选定的波束图样的零区域内的波束图样来选择所述波束图样。

4.如条款1的系统，其中所述波束成形模块配置成通过确定具有适合于所述音频信号源的所述位置的准确度的主波瓣带宽的波束图样来选择所述波束图样

5.如条款1的系统，其中所述多个麦克风配置成在操作时放置在平面布置中。

6.条款1的系统，其中所述多个麦克风配置成在操作时放置在三维布置中。

7.如条款1的系统，其中所述波束成形模块还配置成将与选定的波束图样相关的所述组波束成形器系数应用于所述信号数据以产生经处理的数据。

8.如条款1的系统，还包括配置成存储信号数据用于由所述波束形成模块处理的信号数据库。

9.如条款5的系统，还包括配置成过滤所述经处理的数据的滤波器模块。

10.如条款5的系统，还包括配置成至少部分地基于所述经处理的数据来确定可闻手势的可闻手势识别模块。

11.存储计算机可执行指令的一个或多个计算机可读介质，当所述指令被执行时使一个或多个处理器执行包括下列操作的行动：

在麦克风阵列处获取来自信号源的信号数据；

确定所述信号源相对于所述麦克风阵列的方向；以及

将一组波束成形器系数应用于所述信号数据以产生经处理的数据，所述组波束成形器系数配置成产生聚焦在所述信号源的所述方向上的波束图样。

12.如条款8的一个或多个计算机可读存储介质，其中所述波束成形器系数在所述信号数据的获取之前被计算。

13.如条款8的一个或多个计算机可读存储介质，其中确定所述信号源相对于所述麦克风阵列的所述方向包括从定位模块接收位置或方向信息。

14.如条款8的一个或多个计算机可读存储介质，所述行动还包括分析所述经处理的数据。

15.如条款10的一个或多个计算机可读存储介质，所述分析包括识别在所述经处理的数据中的语音。

16.如条款10的一个或多个计算机可读存储介质，所述分析包括识别在所述经处理的数据中的可闻手势。

17.如条款8的一个或多个计算机可读存储介质，所述行动还包括选择性地调节在所述麦克风阵列内的一个或多个麦克风的增益。

18.如条款11的一个或多个计算机可读存储介质，其中增益的所述选择性调节包括改变在所述麦克风阵列内的所述一个或多个麦克风的模拟增益。

19.存储计算机可执行指令的一个或多个计算机可读介质，当所述指令被执行时使一个或多个处理器执行包括下列操作的行动：

从麦克风阵列获取信号源的信号数据；

将所述信号数据应用于描述包括第一体积的第一组波束图样的第一组波束成形器系数；

确定在所述第一组波束图样内的哪个波束图样包含与所述第一组波束图样的其它波束图样比较的来自所述信号数据的最大信号强度；

将所述信号数据应用于描述具有主要布置在所述第一体积内的第二体积的第二组波束图样的第二组波束成形器系数；

确定在所述第二组波束图样内的哪个波束图样包含与所述第二组波束图样的其它波束图样比较的来自所述信号数据的最大信号强度；以及

至少部分地基于在包含所述信号强度最大值的所述第二组波束图样内的所述波束图样的一个或多个特征来确定所述信号源相对于所述麦克风阵列的方向。

20.如条款12的一个或多个计算机可读存储介质，其中所述波束图样的所述特征包括波束图样方向、拓扑、尺寸、相对增益或频率响应。

21.如条款12的一个或多个计算机可读存储介质，其中所述组波束成形器系数并行地应用于所述信号数据。

22.如条款12的一个或多个计算机可读存储介质，其中所述第一组波束图样同时包括所述第一体积。

23.如条款12的一个或多个计算机可读存储介质，其中所述第二组波束图样同时包括所述第二体积。

24.如条款12的一个或多个计算机可读存储介质，所述行动还包括分析来自包含所述最大信号强度的所述波束图样的经处理的信号数据。

Claims

1.一种增强现实系统，包括：

处理器；

麦克风阵列，其包括耦合到所述处理器的多个麦克风，并配置成从该麦克风阵列产生来自音频信号源的总信号数据；

投影仪，其耦合到所述处理器并配置成产生结构光；

摄像机，其耦合到所述处理器并配置成接收所述结构光；

存储器，其耦合到所述处理器并配置成包括能够由所述处理器执行的一个或多个计算机可执行指令以至少部分地使用所述结构光来确定第一位置和第二位置，其中所述第一位置是所述音频信号源中第一音频信号源的位置，以及所述第二位置是所述音频信号源中第二音频信号源的位置；

所述存储器还被配置成包括能够由所述处理器执行的一个或多个计算机可执行指令来：

至少部分地基于所述第一位置和所述第一音频信号源的方向数据从所述波束成形器系数数据库选择选择第一组波束成形器系数，所述第一组波束成形器系数对应于第一波束图样；以及

至少部分地基于所述第二位置和所述第二音频信号源的方向数据从所述波束成形器系数数据库选择选择第二组波束成形器系数，所述第二组波束成形器系数对应于第二波束图样，

其中使用所述第一波束图样提供对所述第一位置的增益而衰减在所述第二位置处的所述第二音频信号源。

2.如权利要求1所述的系统，其中所述一个或多个波束图样中的每个包括主波瓣，且其中所述一个或多个计算机可执行指令还能够由所述处理器执行以通过确定配置成将所述第一音频信号源的位置放置在所述波束图样的主波瓣内的波束图样来选择所述第一波束图样。

3.如权利要求1所述的系统，其中所述一个或多个波束图样中的每个包括零区域，且其中所述一个或多个计算机可执行指令还能够由所述处理器执行以通过确定配置成将所述第一音频信号源的所述位置放置在所述波束图样的零区域内的波束图样来选择所述第一波束图样。

4.如权利要求1所述的系统，其中所述一个或多个计算机可执行指令还能够由所述处理器执行以通过确定具有适合于所述第一音频信号源的所述第一位置的准确度的主波瓣带宽的波束图样来选择所述第一波束图样。

5.如权利要求1所述的系统，其中所述一个或多个计算机可执行指令还能够由所述处理器执行以将与所述第一波束图样相关的所述第一组波束成形器系数应用于所述总信号数据以产生经处理的数据。

6.如权利要求5所述的系统，其中所述一个或多个计算机可执行指令还能够由所述处理器执行以过滤所述经处理的数据。

7.如权利要求5所述的系统，其中所述一个或多个计算机可执行指令还能够由所述处理器执行以至少部分地基于所述经处理的数据来确定可闻手势。

8.一种用于生成波束图样的方法，该方法包括：

在麦克风阵列处获取来自信号源的总信号数据；

确定所述信号源中第一信号源相对于所述麦克风阵列的第一方向，以及所述信号源中第二信号源相对于所述麦克风阵列的第二方向；以及

分别将第一组波束成形器系数和第二组波束成形器系数应用于所述总信号数据以产生经处理的数据，所述第一组波束成形器系数被配置成产生聚焦在所述第一信号源的所述第一方向上的第一波束图样，以及所述第二组波束成形器系数被配置成产生聚焦在所述第二信号源的所述第二方向上的第二波束图样，

其中使用所述第一波束图样提供对所述第一信号源的增益而衰减所述第二信号源。

9.如权利要求8所述的方法，其中确定所述第一信号源相对于所述麦克风阵列的所述第一方向，以及所述第二信号源相对于所述麦克风阵列的第二方向包括接收位置或方向信息。

10.如权利要求8所述的方法，还包括下列中的一个或多个：

分析所述经处理的数据以识别在所述经处理的数据中的语音；或

分析所述经处理的数据以识别在所述经处理的数据中的可闻手势。

11.如权利要求8所述的方法，还包括选择性地调节在所述麦克风阵列内的一个或多个麦克风的增益。

12.一种用于确定信号源方向的方法，该方法包括：

从麦克风阵列获取所述信号源的总信号数据；

将所述总信号数据应用于描述包围第一体积的第一组波束图样的第一组波束成形器系数；

确定在所述第一组波束图样内的哪个波束图样包含与所述第一组波束图样的其它波束图样比较的来自所述总信号数据的第一最大信号强度；

将所述总信号数据应用于描述具有主要布置在所述第一体积内的第二体积的第二组波束图样的第二组波束成形器系数；

确定在所述第二组波束图样内的哪个波束图样包含与所述第二组波束图样的其它波束图样比较的来自所述总信号数据的第二最大信号强度；以及

13.如权利要求12所述的方法，其中所述波束图样的所述特征包括波束图样方向、拓扑、尺寸、相对增益或频率响应。

14.如权利要求12所述的方法，其中所述组波束成形器系数并行地应用于所述总信号数据。

15.如权利要求12所述的方法，还包括分析来自包含所述最大信号强度的所述波束图样的经处理的总信号数据。