CN105765486B

CN105765486B - 可穿戴通信增强装置

Info

Publication number: CN105765486B
Application number: CN201480063734.2A
Authority: CN
Inventors: 伊恩·A·康利夫
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 2013-09-24
Filing date: 2014-08-18
Publication date: 2018-12-25
Anticipated expiration: 2034-08-18
Also published as: CN105765486A; EP3049893A4; US9848260B2; US20180206028A1; EP3049893A1; US20150088500A1; WO2015047593A1

Abstract

文中公开的实施方式可包括一种可穿戴设备，该可穿戴设备包括具有与之相关联的存储器和处理器的框架。该设备可包括与框架相关联并且与处理器进行通信的相机，该相机被配置为追踪穿戴者的眼睛。该设备还可包括与框架相关联的至少一个麦克风。至少一个麦克风可被配置为从处理器接收定向指令。定向指令可基于响应于来自红外相机的检测出的眼睛运动而执行的自适应波束形成分析。该设备还可包括与框架相关联的扬声器，该扬声器被配置为将在至少一个麦克风接收的音频信号提供至穿戴者。

Description

可穿戴通信增强装置

相关申请的交叉引证

本申请要求于2013年9月24日提交的名称为“Wearable CommunicationEnhancement Device”的美国专利申请No.14/035,142的权益。其全部公开内容通过引证结合于此。

技术领域

本公开内容涉及通信辅助装置，并且更具体地，涉及能够增强一个或多个人之间通信的可穿戴装置。

背景技术

现今的助听器通常增大接近用户的所有事物的音量。因此，闹市区域或者具有多种不同声音的区域往往给穿戴者造成极大不满。进一步地，当其他人在穿戴者的耳朵附近说话时，当前的助听器经常产生反馈。这些类型的问题经常导致穿戴者采取唇读法或者可替代的次佳技术。

发明内容

在一个实现方式中，根据本公开内容的一直可穿戴设备可包括具有与框架相关联的存储器和处理器的框架。该设备可包括与框架相关联并且与处理器通信的相机，该相机被配置为追踪穿戴者的眼睛。该设备还可包括与框架相关联的至少一个麦克风，至少一个麦克风被配置为从处理器接收定向指令，该定向指令至少部分基于响应于来自红外相机的检测出的眼睛运动而执行的自适应波束形成分析。该设备可进一步包括与框架相关联的扬声器，该扬声器被配置为将在至少一个麦克风处接收的音频信号提供至穿戴者。

可包括以下特征中的一个或多个。在一些实施方式中，处理器可被配置为将音频信号转换为文本。该设备还可包括至少一个镜片，被配置为从处理器接收文本结果并且将该文本提供至穿戴者。该设备可进一步包括与框架相关联的面部识别相机，该面部识别相机被配置为识别设备的非穿戴者。在一些实施方式中，扬声器可包括在与处理器通信的至少一个耳机内。在一些实施方式中，存储器可被配置为存储基于所转换的文本的联系信息和会话日志文件中的至少一个。定向指令可至少部分基于设备的非穿戴者的识别。设备的非穿戴者的识别可基于穿戴者的眼睛运动来执行。设备的非穿戴者的识别可基于从与框架相关联的输入装置接收输入来执行。在一些实施方式中，至少一个镜片可被配置为将视觉反馈显示给穿戴者，该视觉反馈包括波束形状、波束方向以及所识别出的设备的非穿戴者中的至少一个。

在另一实现方式中，提供了一种方法。该方法可包括使用与框架相关联的相机追踪穿戴者的眼睛，该框架具有与之相关联的处理器和存储器。该方法还可包括在与框架相关联的麦克风处从处理器接收定向指令，该定向指令至少部分基于响应于来自相机的所检测出的眼睛运动而执行的自适应波束形成分析。该方法可进一步包括基于定向指令来调节麦克风的方向，在至少一个麦克风处接收音频信号并且使用与框架相关联的扬声器将音频信号提供至穿戴者。

可包括以下特征中的一个或多个。在一些实施方式中，该方法可包括使用处理器将音频信号转换为文本。该方法也可包括从处理器接收文本结果并且将该文本提供到至少一个镜片。该方法可进一步包括使用与框架相关联的面部识别相机识别设备的非穿戴者。在一些实施方式中，扬声器可包括在与处理器通信的至少一个耳机内。该方法还可包括存储器中存储基于所转换成的文本的联系信息和会话日志文件中的至少一个。在一些实施方式中，定向指令可至少部分基于设备的非穿戴者的识别。可基于穿戴者的眼睛运动执行设备的非穿戴者的识别。可基于从与框架相关联的输入装置接收输入来执行设备的非穿戴者的识别。该方法可进一步包括在至少一个镜片处将视觉反馈显示给穿戴者，该视觉反馈包括波束形状、波束方向和所识别出的设备的非穿戴者中的至少一个。

在附图以及以下说明书中，阐述了一个或多个实施方式的细节。通过说明、附图以及权利要求，其他特征和优点将变得显而易见。

附图说明

图1是根据本公开内容的实施方式的可穿戴设备的图解视图；

图2是根据本公开内容的实施方式的可穿戴设备的图解视图；

图3是根据本公开内容的实施方式的可以使用的波束形成器的框图；

图4是根据本公开内容的实施方式的可以使用的均衡系统的框图；

图5是根据本公开内容的实施方式的可以使用的声学回声消除系统的框图；

图6是通过根据本公开内容的实施方式的可穿戴设备产生的显示的图解视图；

图7是被配置为实现根据本公开内容的实施方式的声学波束形成处理的系统的图解视图；以及

图8是根据本公开内容的实施方式的声学波束形成处理的流程图。

各个附图中的相同参考符号可以表示相同元件。

具体实施方式

本文中提供的实施方式涉及可协助用户与其他个体通信(communication，交流)的可穿戴装置。为了定向性的语音识别的目的，一些实施方式可包括辅助可穿戴装置，该辅助可穿戴装置可以利用眼睛追踪来定向(direct)声学波束形成。一些实施方式还可为穿戴者提供实时的隐藏字幕以及增强和放大的音频。以此方式，与使用现有助听器相比，本公开内容的实施方式可允许聋人或耳背的人更容易地交流。

参考图1，示出了描述根据本公开内容的可穿戴通信设备100的实施方式。设备100可包括框架102，该框架具有与其相关联的许多组件。如图1所示，一些组件可包括但不限于，前置相机104、至少一个麦克风106、一个或多个扬声器108、透明镜片110a和110b、以及后置相机(在图2中示出的)。框架102可包括至少一个存储器和机载处理器，它们可被配置为和与框架102相关联的一些或所有组件进行通信。框架102可用任何合适的材料进行构造并且如通过图1所示，可被配置为穿戴在用户的头部上。

在一些实施方式中，框架102可包括前置相机104。前置相机104可嵌入框架102内并且可和与设备100相关联的机载处理器进行通信。前置相机104结合机载处理器和存储器可包括面部识别能力。因此，前置相机104可被配置为识别设备的穿戴者和/或非穿戴者。

在一些实施方式中，设备100的面部识别能力可与语音生物特征识别结合，这可允许系统识别到谁在讲话并且与个人信息进行配对。例如，如果穿戴者在与他/她的联系人中保存的人讲话，则这个语音/面部可与他们的联系信息配对。另外和/或可替代地，如果穿戴者之前讲话的是没有保存的人，则设备100可提示穿戴者保存他们的信息。在一些实施方式中，设备100可被配置为识别这个人作自我介绍的时间，并且要求穿戴者确认他/她愿意保存该信息。可以使用本文中描述的隐藏字幕选项、使用扬声器和/或任何其他合适的方法提供该选项。

还参考图2，示出了可穿戴设备200的实施方式。可穿戴设备200可包括参考图1所讨论的任何或者所有组件。另外和/或可替代地，可穿戴设备200可包括一个或多个相机202A和202B(例如，红外相机)，其可与框架102相关联并且与机载处理器进行通信。在一些实施方式中，红外相机202A和202B可被配置为追踪设备的穿戴者的眼睛。如在本文中使用的术语“相机”可指的是它的普通含义以及指的是可用于追踪物体的移动和/或提供有关特定目标的视频的任何装置。

在一些实施方式中，框架102可包括一个或多个麦克风106。尽管图1中描绘了两个麦克风，但是在不偏离本公开内容的范围的情况下，可以使用任意数量的麦克风。麦克风106可被配置为从一个或多个个体和/或设备100范围内的可替代的输入信号源接收语音输入信号。一些可替代的输入源可包括但不限于，电视、收音机、手机和/或任何其他声音源。麦克风106还可与机载处理器进行通信并且可被配置为从处理器接收一个或多个指令。在一些实施方式中，这个定向性指令可基于通过处理器执行的自适应波束形成分析，自适应波束形成分析可响应于来自红外相机202A和/或202B的检测出的眼睛运动而发生。定向性指令可被配置为在麦克风106处产生调整。以下参考图3-图5进一步详细地讨论波束形成的概念。

在一些实施方式中，设备的非穿戴者的识别可基于前置相机104的输入来执行，并且可基于用户选择非穿戴者作为感兴趣的人或者穿戴者有兴趣关注其语音的人(例如，使用眼睛运动、听觉选择、实体按钮选择等)。另外和/或可替代地，设备的非穿戴者的识别可基于接收来自与框架相关联的输入装置的输入来执行。在一些实施方式中，在穿戴者的选项中，定向性指令可基于这个识别和选择被发送至麦克风106。

在一些实施方式中，如图1所示，框架102也可包括一个或多个扬声器108。扬声器108可与框架102相关联并且可被配置为将在麦克风106接收的音频信号提供至穿戴者。在一些实施方式中，音频信号在扬声器108输出之前可受到处理。扬声器108可包括在可与处理器进行通信的耳机内。在不偏离本公开内容的范围的情况下，可使用任何合适的扬声器，包括但不限于，图1中描述的耳塞式扬声器。在一些实施方式中，扬声器108可使用任何合适的方法与框架102连接，例如，使用耳机插座、硬连线和/或其他连接。

在一些实施方式中，扬声器108可被配置为与设备100同步，并且可包括能够校准的可编程均衡器，这可允许用户选择调节一个或多个设置，诸如，改变低端频率，提高中频段等。因此，设备100可被配置为定期实施快速的听力测试以重新校准自身，因为穿戴者的听力可能随着时间的过去而恶化。

在一些实施方式中，机载处理器可被配置为从麦克风106接收输入信号。为了穿戴者的利益，可以处理所接收的输入信号并且传输至扬声器108。另外和/或可替代地，机载处理器可将所接收的音频信号转换为供穿戴者读取的文本，因此提供隐藏字幕功能，该实例在以下讨论的图6中进行描述。

图6描述了可穿戴设备的实施方式，该实施方式示出了由穿戴者透过镜片110A/110B观看到的显示。如上所述，镜片110A/110B可被配置为从处理器接收文本结果并且经由穿戴者可视的显示器将该文本提供至穿戴者。镜片110A/110B可包括允许用户观看他们的周围环境，同时还提供了图6中示出的隐藏字幕反馈的透明的或者局部透明的屏幕。在一些实施方式中，镜片110A/110B可被配置为例如经由图6中示出的显示器为穿戴者显示各种类型的视觉反馈。视觉反馈可包括但不限于，波束形状、波束方向以及设备的非穿戴者的识别。

如上所述，框架102可包括与之相关联的一个或多个存储装置。一些合适的存储器类型可包括但不限于：硬盘驱动器、磁带驱动器、光驱动器、RAID装置、随机存取存储器(RAM)、只读存储器(ROM)、以及所有形式的闪速存储器存储装置。例如，在一些实施方式中，框架102可包括机载闪速存储器，该机载闪速存储器可被配置为存储联系信息并且保存加密的会话日志文件。另外和/或可替代地，可穿戴设备100可利用云存储的可配置量进行通信，这可允许卸载(offloading，清理)各种类型的数据。一些代表类型的数据可包括但不限于，保存的聊天日志和备份的联系信息。

在一些实施方式中，设备100可包括各种类型的语音识别软件，该软件可通过机载处理器整体或部分地运行。另外和/或可替代地，设备100可与一个或多个服务器装置通信，这些服务器装置可执行一些或所有的语音识别操作。因此，设备100可使用语音识别将对话要素进行智能分类。能够被分类的一些要素可包括但不限于事物、事件、地点、人、或者通过该软件创建或发现的任何其他种类/类型名称。

现在参考图3，提供了包括波束形成器和后置滤波器的波束形成系统300的实施方式。如上所述，图3-图5的系统可采用各种波束形成技术，这些技术可被配置为生成一个或多个定向指令，这些指令可由麦克风106接收到并且可用于集中在特定扬声器或音源上。系统300可与诸如上述的那些麦克风的一个或多个相关联并且可结合在设备100内。在一些实施方式中，系统300可被配置为接收诸如上述的那些的一个或多个音频信号。系统300可包括波束形成器302和后置滤波器304以及大量其他处理组件和电路类型，诸如以下讨论的那些组件。在一些实施方式中，对音频信号的处理可出现在波束形成器302、后置滤波器304、自适应分块矩阵306等中。

如本文中使用的，术语“波束形成”通常可指的是在用于定向信号发送或接收的传感器阵列中使用的信号处理技术。波束形成方法可用于减少各种不同应用中的背景噪声。诸如波束形成器302的波束形成器可被配置为处理从麦克风阵列传出的信号以通过以下方式获取组合信号：来自与预定所需信号方向不同方向的信号分量被抑制。与常规的定向麦克风不同，麦克风阵列可以是电子可操纵的，这给予它们从期望方向或多个期望方向获取高质量的信号或多个信号，同时衰减离轴噪声或干扰的能力。应注意，仅通过举例的方式提供了波束形成的讨论，作为本公开内容的教导，可以使用任何合适的信号处理方法。

在一些实施方式中，波束形成可为麦克风阵列提供特定的定向性图案。例如，在延迟和求和波束形成(DSBF)的情况下，波束形成包含延迟补偿和信号求和。由于麦克风阵列和相应的波束形成器获取的空间滤波，通常可以提高信噪比(“SNR”)。然而，即使在理想的噪声条件下，以简单的DSBF实现SNR的重大改善也需要不切实际的麦克风数量。另一种波束形成器是自适应波束形成器。传统的自适应波束形成器在一些设定的限制条件下使一组信道滤波器最佳化。这些技术在窄带、远场应用中工作良好，并且其中，感兴趣信号通常具有固定统计量。然而，传统的自适应波束形成器不一定很好地适于在语言应用中使用，其中，例如，感兴趣信号具有宽带宽，感兴趣信号是非固定的，干扰信号也具有宽带宽，干扰信号可以是空间分布的，或者干扰信号是非固定的。具体的自适应阵列是广义旁瓣抵消器(GSC)。GSC使用自适应阵列结构测量只有噪声的信号，然后从波束形成器输出中消除。然而，获取免受信号漏泄影响的噪声测量，特别是在回响环境中，通常难处在于实现鲁棒的且有效的GSC。在L.J.Griffiths&C.W.Jim的"An Alternative Approach to LinearlyConstrained Adaptive Beamforming",in IEEE Transactions on Antennas andPropagation,1982pp.27-34中描述了具有GSC结构的波束形成器的实例。

在T.Wolff和M.Buck的"A Generalized View on Microphone ArrayPostfilters",Proc.International Workshop on Acoustic Echo and Noise Control(IWAENC),Tel Aviv,Israel,2010中，记载了一般化一些已知的后置滤波器，诸如由Zelinski、Simmer、McCowan、Leukimmiatis等人提出的那些滤波器的传递函数。以下提供了一般化的后置滤波器：

等式1

在此，Φ_xx表示麦克风处的功率谱密度(PSD)并且Φ_αα是波束形成器输出处的PSD。中间的项确定滤波器的空间特征，这取决于整个声场J_xx以及噪声J_nn中的一个噪声J_nn的相干矩阵。矩阵B可被设计成将后置滤波器与任何给定的波束形成器匹配：如果B与LCMV约束矩阵C_bf正交，因此BC_bf＝0，则B变成分块矩阵并且后置滤波器与波束形成器实施相同的约束。传递函数的第三部分表示分块矩阵增益G_bm的影响。有关进一步详情请参见T.Wolff和M.Buck的"A Generalized View on Microphone Array Postfilters",Proc.International Wor hop on Acoustic Echo and Noise Control(IWAENC),TelAviv,Israel,2010。

如上所述，在一些实施方式中，波束形成器-后置滤波器系统300可由任意波束形成器302、分块矩阵306和自适应后置滤波器304组成。如果分块矩阵约束与波束形成器约束一致：C_pf＝C_bf，则后置滤波器304可理想地与波束形成器302匹配。如果行得通，分块矩阵可排斥(reject，丢弃)通过波束形成器保持未失真的所有的那些信号分量。等式1表明可首先计算分块矩阵输出中的所有PSD的总和至于理想的分块矩阵，这个PSD可不再包含任何期望的语音分量，因为它们已经被分块矩阵排斥(阻断)。然而，实际上，回响能穿过分块矩阵，因为其不能从波束形成器(扩散声)的操纵方向进行影响(impinge)。因此，我们观察分块矩阵输出中的噪声以及回响。根据等式1，这个必须被下式均衡

等式2

以弥补通过分块矩阵B引入的赋色(coloration)。在此，Φ_nn是麦克风处的噪声PSD。然后，产生的噪声估计可从输入PSDΦ_xx中减去以获取所希望的语音的PSDΦ_ss＝Φ_xx-Φ_nn。与波束形成器输出Φ_αα处的PSD一起，可以计算最佳的后置滤波器H_pf。

然而，均衡器G_n通常是未知的并且因此必须要估计。经典后置滤波器，诸如由Zelinski或McCowans提出的后置滤波器，通过使用噪声相干函数的模型J_nn这样做。例如，假定不相关噪声场或者扩散噪声场。这些模型产生用于噪声的某个均衡器G_n。实际上，这两个假定与真实的噪声场不一致，因此噪声估计器将由有偏差。因此，各个滤波器在实际状况下不是最佳的，这意味着噪声不被抑制或者滤波器将太强劲并且抑制语音。因此，在T.Wolff和M.Buck的"A Generalized View on Microphone Array Postfilters",Proc.International Workshop on Acoustic Echo and Noise Control(IWAENC),TelAviv,Israel,2010中，已经提出了自适应地估计均衡滤波器G_n。这通常通过在语音停顿期间的时间平均来实现，并提供噪声PSD的无偏差估计，该噪声PSD的无偏差估计提高关于噪声的性能。为了发现语音停顿，必须使用语音活性检测(VAD)，这可与在O.Hoshuyama和A.Sugiyama的"Robust Adaptive Beamforming",Microphone Arrays,Springer,Berlin,Heidelberg,NY(2001)中提出的空间VAD相似地被实现。

类似原因对语音有效，即，如果所期望的语音分量的复杂相干函数没有被正确地考虑，则后置滤波器将导致不期望的语音失真。例如，使其最小化的一种方式是使用如在O.Hoshuyama和A.Sugiyama的"Robust Adaptive Beamforming",Microphone Arrays,Springer,Berlin,Heidelberg,NY(2001)中提出的分块矩阵的自适应实现。等式1中的分块矩阵增益G_bm然后通常被认为是无限的，因此没有必要估计该增益(也参见T.Wolff和M.Buck的"Influence of Blocking Matrix Design on Microphone Array Postfilters",Proc.International Workshop on Acoustic Echo and Noise Control(IWAENC),TelAviv,Israel,2010。因此，实际上仍然通过分块矩阵的剩余语音被处理为产生去回响(dereverberating)效果的干扰。

即使有自适应分块矩阵，也期望的是更好地控制后置滤波器的去回响效果。到目前为止描述的滤波器没有提供明确地控制去回响的任何可能性。这样的理由是均衡器G_n被设计成匹配噪声场-而不是回响。

在E.A.P.Habets和S.Gannot的"Dual-microphone Speech DereverberationUsing a Reference Signal",International Conference on Acoustics,Speech andSignal Processing(ICASSP'07),Honolulu,Hawaii,2007中稍微讨论了防止直达声产生不期望失真的问题。提出的主要思想是将分块矩阵输出Ф_uu处的PSD延迟几个帧的D

Φ_uu(k，μ)→Φ_uu(k-D，μ)

等式3

并且将其匹配至在波束形成器输出(注意，这个在当前帧中)处的噪声PSD。可以使用梯度算法执行该“匹配”以发现相应的映射。因为“噪声参考频谱”Φ_uu被延迟(因此不包含当前帧中的回响)，合成的后置滤波器对直达声的失真呈现增强的鲁棒性。然而，该延迟将Φ_uu(k，μ)与波束形成器输出(仅是时间不变的均衡器)处的噪声PSD之间的简单关系转变为取决于信号特性的相当复杂的关系。另外，提出的方法既不提供实现更强的回响抑制的方式，也不提供明确控制直达声失真的方式。

声学波束形成处理10的实施方式可被配置为实施波束形成器和空间后置滤波器。波束形成器以及空间后置滤波器这两者可被配置为抑制该回响，因为这些算法在空间上集中于所期望的扬声器。该回响通常从其他方向(扩散声场)撞击麦克风。将空间焦点放在扬声器的方向上，因此抑制该回响。因此，该回响可作为干扰信号。

现在参考图4，提供了声学波束形成处理10可以使用的基于模型的均衡系统400的实施方式。如上所述，声学波束形成处理10可包括使用直达声失真的时间约束来限制基于模型的回响均衡器。基于模型的回响均衡器可被配置为至少部分基于第一音频信号和回响音频信号中的至少一个，生成一个或多个输出。以此方式，为了优化后置滤波器对回响的行为，声学波束形成处理10可结合均衡滤波器G_opt(k，μ)而不是G_n(k，μ)。因此，声学波束形成处理10可利用由于扩散声的相干函数造成的基于模型的均衡，对其过度估计并且强加限制直达声分量失真的上限(例如，约束-EQ 406)。如图4中所示，通过保证所需的直噪比(direct-to-noise ratio，DNR)的最小值来实现后者。

在一些实施方式中，基于模型的回响均衡器可被配置为通过空间后置滤波器(例如，后置滤波器304)增加回响抑制的水平。基于模型的回响均衡器还可被配置为限制直达声的一些或所有失真并且使在后置滤波器中能够进行空间滤波。

在一些实施方式中，声学波束形成处理10可包括在诸如图3中示出的后置滤波器304的后置滤波器从基于模型的回响均衡器接收一个或多个输出。后置滤波器304也可从例如波束形成器302接收波束形成器输出。

如果为扩散噪声场设计均衡器，则合成的后置滤波器在低频率中可能太具有攻击性，因为直达声和扩散声的相干函数不可差别很大。因此，可以抑制这两者。应用扩散声场模型在低频率中不可产生最优解。

在较高频率中，扩散声场模型与相干直达声场差别很大，并且因此，空间后置滤波器运行良好并且导致回响抑制。从去回响的观点来看，通过(可期望较高的回响抑制)实际上可以提高该性能。较高的回响抑制可以简单地通过过度估计噪声PSD来实现。然而，这可导致所希望的信号分量(直达声)的不期望的失真。将失真到什么程度取决于DNR。

现在参考图5，提供了可以与可穿戴设备100相关联的被配置为实现声学回声消除处理的系统500的实施方式。系统500可包括多个滤波器502、504。滤波器502、504可具有任何合适的设计，例如，在以下更详细地讨论的自适应声学滤波器。系统500可进一步包括稀疏性分析模块506、控制滤波器更新模块508和约束模块510。稀疏性分析模块506可被配置为将至少一个稀疏更新应用至一个或多个滤波器502、504。在一些实施方式中，系统500可基于以下将更详细地讨论的多维稀疏性分析来更新一个或多个子带自适应滤波器。如图5所示，系统500可被配置为去除与所接收的音频参考信号相关联的任何回声分量。

在一些实施方式中，系统500可结合多信道子带(频率选择性)AEC实现。以此方式，系统500可被配置为分析音频参考信号关于时间、频率和音频信道的信号能量的水平以识别至少一个最大误差贡献点。因此，系统500的实施方式可仅更新将对误差贡献最多的3D时间频率信道空间中的点。另外和/或可替代地，系统500可被配置为设定处理一些预定量的阈值量。

在一些实施方式中，系统500可沿着时间、频率以及跨越信道分析多信道参考信号。然后，可应用确定如何将资源分配至相应子带和信道(例如，在被允许更新的系数的数量方面)的函数。以此方式，一些滤波器(例如，特定频率和信道中)可完全没有适配的系数，然而其他仅得到它们更新的一些系数。只有被认为是最重要的那些，将得到它们更新的所有系数。￡-Max方法最终可用于确定具体哪个系数(例如，给定的信道和子带)将最终接收更新。各种￡-Max选项可以是可用的。

再次参考图6，在一些实施方式中，在操作中，设备100的穿戴者可使用他/她的眼睛指向和/或指定它们希望的由设备100识别的说话者(或者以其他方式控制波束的方向)。以此方式，穿戴者可通过注视他们，然后立即注视他们的上方和下方来指定说话者，这可通过后置相机202A和/或202B进行捕捉。另外和/或可替代地，穿戴者可通过确定头或其他身体动作、和/或通过注视说话者和按压，或者以其他方式激活该装置上的选择项(例如，小按钮、语音激活控制等)、或者以与该装置相关联的其他方式来指定说话者。一旦指定了说话者，设备100可采用前置相机104追踪那个人，以将他们保持在波束焦点内并且还净化并提高他们的语音信号。

在一些实施方式中，本文中讨论的眼睛追踪能力可包括允许跟随穿戴者的眼睛位置的波束和/或允许穿戴者使用他/她的眼睛作为定点装置。例如，穿戴者可将声学波束聚焦在个体上，可注视它们以及还发出那个人是目标的“信号”(例如，在穿戴者注视那个人之后，通过注视他们的上方和下方)。另外和/或可替代地，与持续跟随穿戴者的眼睛方向相反，穿戴者可使用他们的眼睛指示，然后设定波束。如果穿戴者把目光移开，则这个设置可帮助避免无意地重置波束。

在一些实施方式中，波束可具有不同的模式和设置。例如，波束的角度可视不同情况而改变，包括其中用户想要能够听到他们周围的所有可能的声音的情况(例如，横过街道或者骑自行车)下的基本上全部宽阔视野的一些情况。另外和/或可替代地，多个窄波束可用于小组对话。

在一些实施方式中，设备100可被配置为向穿戴者净化并提高语言信号，同时还提高在设备100上运行的语音识别软件的精确性。设备100可经由与镜片110A/110B相关联的显示器提供实时字幕，并且还可存储对话的音频和/或文本录制，用于参考或用于稍后查询。

在一些实施方式中，设备100可被配置为利用前置相机104识别其记录的说话者的面部。因此，设备100可将这个数据与说话者的语音生物特征数据相关联以为那个人生成身份资料条目，如果可获得，该条目包括联系信息。以此方式，该系统可将会话日志数据与个人联系数据进行配对，这些可存储在机载存储器中、网络服务器中、或者使用任何其他合适的方法。这可帮助提高用于稍后参考的数据质量。

在一些实施方式中，设备100可进一步包括嵌入的语音助理，以致穿戴者可使用他们的语音容易地查询他们存储的会话日志(例如，“大卫说我们什么时候应该见面？以及在什么地方？”)该数据可存储在装置上和/或在通信网络上是可访问的。

在一些实施方式中，设备100可被配置为使用语言模型和语音识别来识别一个人什么时候介绍过他们自己。以此方式，设备100可提示穿戴者编辑或保存这个信息，以及说话者的配对面部/语音识别资料。例如，语音助理可经由扬声器108提醒穿戴者或者提示可经由与镜片110A/110B相关联的显示器呈现在文本中。

在一些实施方式中，设备100可配置有用于定位和翻译的语言包。例如，说法语的穿戴者可接收法语字幕，说西班牙语的穿戴者可接收西班牙语字幕等。这些语言包可与翻译软件配对，以致说法语的穿戴者可收听说西班牙语的人，并且可接收法语字幕。另外和/或可替代地，使用前置相机104以及手势模型和识别同样可允许设备100将手语转换成字幕。

再次参考图6，在一些实施方式中，设备100可包括各种会话模式，这可根据环境选择和/或自动触发。除了普通/自治模式，该普通/自治模式是默认设置并且如上所述进行运转。这些不同的模式可用于指定波束的宽度以及在发送至耳机和语音识别软件之前可施加于音频信号的滤波和增强的强度。在激活模式中，可记录尽可能宽的波束。例如，具体地，这在当对穿戴者来说听到他们周围的情况，诸如接近的汽车或警笛是重要的时间期间可以是有用的。在音乐模式中，穿戴者可收听音乐并且设备可运行，以致音乐不经由滤波被消除。在大房间模式中，用于声学回声消除的额外滤波器可被添加以减少回声并且在扬声器108上的回响以及进一步使背景噪声最小化。在手动模式中，定向波束可精确地匹配至眼睛方向。例如，使用刻度盘或数字界面用于指定波束宽度。这可用于其中所描述的模式没有应用并且穿戴者需要对波束的形状和方向具有精密控制的情况下。在不偏离本公开内容的范围的情况下，可使用多种模式。这些模式中的一些可包括但不限于，音乐模式、学习模式、聚会模式等。这些模式可以是基于当日时间或经由穿戴者的电话上的应用或经由设备100可编程的。

如上所述，在一些实施方式中，设备100可包括镜片110A和/或110B。除了字幕之外，镜片110A和/或110B也可将与波束形状和方向相关的显示视觉反馈给穿戴者，以及通过名字识别谁是指定的说话者。如果期望，穿戴者也可从随着在字幕中显示的单词所显示的配对面部/语音身份资料中得到说话者的名字和/或个人信息。

在一些实施方式中，设备100可为两个穿戴者以及穿戴者交互过的那些个体提供隐私保护。以此方式，通过设备100存储的会话文件可使用任何合适的技术进行加密。例如，使用可与穿戴者自己的语音有关系的生物特征确定的语音密钥。因此，所存储的会话日志仅可对设备100的穿戴者是可访问的。在云中存储的任何会话日志文件可进行类似加密。另外和/或可替代地，穿戴者可具有根据他们的选择删除一些或所有会话历史并且进行“不作记录”的能力。

尽管本文中讨论的许多实例聚集在了语音识别的背景上，但应注意的是，本公开内容的教导不局限于这些应用。例如，在一些实施方式中，设备100的前置相机104结合机载处理器可被配置为手势识别，以便解译手语然后将所解译的手语转换为隐藏字幕和/或通过扬声器108的语音翻译。本公开内容的教导也可应用于实时翻译。因此，设备100可将装置内部的语音识别引擎结合到翻译引擎中。以此方式，一个穿戴该装置的用户可讲英语，并且另一个人可讲法语，并且两个人都可以以他们选择的语言读取另一个人在说什么。因而，设备100可起到通用翻译器的作用。

现在参考图7，提供了可以使用在此描述的技术的通用计算机装置700和通用移动计算机装置750的实例。计算装置700旨在表示各种形式的数字计算机，诸如，平板电脑、膝上型电脑、桌上型电脑、工作站、个人数字助理、服务器、刀片式服务器、主机以及其他合适的计算机。在一些实施方式中，计算装置750可包括各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话以及其他类似的计算装置。计算装置750和/或计算装置700也可包括其他装置，诸如，具有嵌入在其中或者附接至其的一个或多个处理器的电视机。在此示出的组件，它们的连接和关系以及它们的功能意味着仅是示例性的并且不意味着显示在本文献中描述和/或要求的本发明的实现。

在一些实施方式中，计算装置700可包括处理器702、存储器704、存储装置706、连接至存储器704的高速接口708和高速扩展端口710、以及连接至低速总线714和存储装置706的低速接口712。每一个组件702、704、706、708、710和712可使用多条总线相互连接，并且可安装在常用母板上或者根据情况以其他方式连接。处理器702可处理用于在计算装置700内执行的指令，包括在存储器704中或在存储装置706上存储的指令，以在外部输入/输出装置，诸如耦接至高速接口708的显示器716上为GUI显示图形信息。在其他实现中，根据情况，可以使用多个处理器和/或多条总线，以及多个存储器和多种类型的存储器。另外，可以连接多个计算装置700，其中每个装置提供必需操作的一部分(例如，如服务器库、一组刀片式服务器或者多处理器系统)。

存储器704可存储计算装置700内的信息。在一个实现中，存储器704可以是一个易失性存储器单元或者多个易失性存储器单元。在另一实现中，存储器704可以是一个非易失性存储器单元或者多个非易失性存储器单元。存储器704也可以是计算机可读介质的另一种形式，诸如，磁盘或光盘。

存储装置706可能够为计算装置700提供大容量存储。在一个实现中，存储装置706可以是计算机可读介质或可包含计算机可读介质，诸如，软盘装置、硬盘装置、光盘装置、或磁带装置、闪速存储器或其他类似的固体存储器装置、或者一系列装置，包括存储区网络或者其他构造中的装置。计算机程序产品可以能触摸地包括在信息载体中。计算机程序产品也可包含执行时执行一个或多个方法的指令，诸如上述那些方法。信息载体是计算机可读介质或机器可读介质，诸如，存储器704、存储装置706、处理器702上的存储器、或者传播信号。

高速控制器708可为计算装置700管理带宽密集的操作，而低速控制器712可管理带宽密集较低的操作。这种功能分配仅是示例性的。在一个实现中，高速控制器708可耦接至存储器704、显示器716(例如，通过图形处理器或者加速器)，并且耦接至可接受各种扩展卡(未示出)的高速扩展端口710。在该实现中，低速控制器712耦接至存储装置706和低速扩展端口714。可包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可例如通过网络适配器耦接至一个或多个输入/输出装置，诸如，键盘、指示装置、扫描仪、或者诸如开关或路由器的网络装置。

如图中所示，计算装置700可以多种不同形式来实现。例如，可实现为标准服务器720、或者多次以这样的服务器的组来实现。还可实现为机架式服务器系统724的一部分。此外，可在诸如便携式计算机722的个人计算机中实现。可替代地，来自计算装置700的组件可与诸如装置750的移动装置(未示出)中的其他组件结合。每一个此种装置可包含一个或多个计算装置700、750，并且整个系统可由彼此通信的多个计算装置700、750构成。

计算装置750可包括处理器752、存储器764、诸如显示器754的输入/输出装置、通信接口766、和收发器768、以及其他组件。装置750还可设置有诸如微驱动器或其他装置的存储装置以提供附加存储。每一个组件750、752、764、754、766和768可使用多条总线相互连接，并且几个组件可安装在常用母板上或者根据情况以其他方式连接。

处理器752可执行计算装置750内的指令，该指令包括存储在存储器764中的指令。处理器可实现为芯片的芯片组，该芯片组包括分离的且多个模拟和数字处理器。例如，处理器可为装置750的其他组件提供协作，诸如，用户接口的控制、通过装置750运行的应用以及通过装置750的无线通信。

在一些实施方式中，处理器752可通过控制接口758以及耦接至显示器754的显示器接口756与用户通信。例如，显示器754可以是TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或者其他合适的显示技术。显示器接口756可包括用于驱动显示器754的合适电路以将图形和其他信息呈现给用户。控制接口758可从用户接收命令并且按照处理器752转换它们。此外，外部接口762可设置为与处理器752通信，以便能够使装置750与其他装置在相近区域通信。例如，外部接口762在一些实现中可提供为有线通信，或者在其他实现中提供为无线通信，并且也可使用多个接口。在一些实施方式中，存储器764可存储计算装置750内的信息。存储器764可实现为一个计算机可读介质或多个计算机可读介质、一个易失性存储器单元或多个易失性存储器单元、或者一个非易失性存储器单元或多个非易失性存储器单元中的一个或多个。扩展存储器774通过扩展接口772也可提供并连接至装置750，例如，该扩展接口可包括SIMM(单列直插存储模块)卡接口。这种扩展存储器774可为装置750提供附加存储空间，或者也可为装置750存储应用或者其他信息。具体地，扩展存储器774可包括执行上述过程或补充上述过程的指令，并且也可包括安全信息。因此，例如，扩展存储器774可为装置750提供安全模块，并且可利用允许安全使用装置750的指令进行编程。此外，可经由SIMM卡提供安全应用以及附加信息，诸如，以非可控制的方式将识别信息放置在SIMM卡上。

例如，如以下将讨论的，存储器可包括闪速存储器和/或NVRAM存储器。在一个实现中，计算机程序产品能触摸地体现在信息载体中。计算机程序产品可包含执行时执行一个或多个方法的指令，诸如上述那些方法。信息载体可以是计算机可读介质或者机器可读介质，诸如，存储器764、扩展存储器774、处理器752上的存储器、或者例如可在收发器768或外部接口762上接收的传播信号。

装置750可通过通信接口766进行无线通信，必要时，通信接口可包括数字信号处理电路。通信接口766可在多个模式或协议下提供通信，诸如，GSM语音呼叫、SMS、EMS、或MMS语音识别、CDMA、TDMA、PDC、WCDMA、CDMA2000、或者GPRS等。例如，这种通信可通过射频收发器768发生。此外，短程通信诸如可使用蓝牙、WiFi或者其他这种收发器(未示出)发生。此外，GPS(全球定位系统)接收器模块770可为装置750提供其他导航和位置相关的无线数据，根据情况，该数据可由在装置750上运行的应用使用。

装置750也可使用音频编解码器760可听见地通信，该音频编解码器可从用户接收所说的信息并且将其转换为可用的数字信息。音频编解码器760同样诸如可通过例如装置750的手机中的扬声器为用户产生可听声音。这种声音可包括来自语音电话呼叫的声音，可包括记录声音(例如，语音消息、音乐文件等)并且还可包括通过在装置750上操作的应用产生的声音。

如图中所示，计算装置750可以多种不同形式来实现。例如，可实现为蜂窝电话780。计算装置750也可实现为智能电话782、个人数字助理、远程控制或者其他类似移动装置的一部分。

现在参考图8，提供了声学波束形成处理10的实施方式。处理10可包括使用与框架相关联的相机追踪(802)穿戴者的眼睛，该框架具有与之相关联的处理器和存储器。处理10也可包括在与框架相关联的麦克风)从处理器接收(804)定向指令，该定向指令至少部分基于响应于从相机所检测的眼睛运动所执行的自适应波束形成分析。处理10可进一步包括基于定向指令调节(806)麦克风的方向，在至少一个麦克风处接收(808)音频信号，并且使用与框架相关联的扬声器将音频信号提供(810)至穿戴者。

在此描述的系统和技术的多种实现可在数字电子电路、集成电路、特定设计的ASIC(专用集成电路)、计算机硬件、程序包、软件、和/或它们的组合中实现。这些多种实现可包括一个或多个计算机程序中的实现，这些计算机程序在包括至少一个可编程处理器的可编程系统上是可执行和/或可说明的，该可编程处理器可以是专用型或通用型，被耦接以从存储系统、至少一个输入装置以及至少一个输出装置接收数据和指令并且将数据和指令传输至存储系统、至少一个输入装置以及至少一个输出装置。

这些计算机程序(还被称为程序、软件、软件应用或者代码)包括用于可编程处理器的机器指令，并且可以高水平程序的和/或目标导向的编程语言、和/或以设备/机器语言来实现。如本文中使用的，术语“机器可读介质”、“计算机可读介质”指的是任何计算机程序产品、用于将机器指令和/或数据提供至可编程处理器的设备和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLDs))，包括将机器指令接收为机器可读信号的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供至可编程处理器的任何信号。

本领域的技术人员应理解的是，本公开内容可体现为一种方法、系统或计算机程序产品。因此，本公开内容可采用以下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者组合软件和硬件方面(在本文中其可全部统称为“电路”、“模块”或“系统”)的实施方式。此外，本公开内容可采取具有嵌入在介质中的计算机可用程序代码的计算机可用存储介质上的计算机程序产品的形式。

可利用任何合适的计算机可用或计算机可读介质。计算机可用介质或计算机可读介质可以是例如但不限于：电子的、磁性的、光学的、电磁的、红外的或半导体系统、设备、装置或传播介质。计算机可读介质的更多具体实例(非详细列表)将包括以下几项：具有一个或多个配线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、诸如支持互联网或内联网的传输介质、或者磁存储装置。要注意的是，计算机可用或计算机可读介质甚至可以是纸或另一种适合的介质，该程序在其上进行打印，因为该程序可以经由例如光学扫描纸或其他介质以电子的方式捕捉，然后进行编译、解释、或者如有必要，另外以适合的方式进行处理，然后存储在计算机存储器中。在本文的上下文中，计算机可用或计算机可读介质可以是可包含、存储、通信、传播或传输程序的任何介质，该程序由指令执行系统、设备或装置使用或者与指令执行系统、设备或装置结合使用。

用于执行本公开内容的操作的计算机程序代码可用面向对象的编程语言编写，诸如，Java、Smalltalk、C++等。然而，也可用传统的程序编程语言(诸如，“C”编程语言或相似的编程语言)，编写用于执行本公开内容的操作的计算机程序代码。程序代码可完全在用户计算机上、部分地在用户计算机上作为独立软件包、部分地在用户计算机上以及部分地在远程计算机上或完全在远程计算机或服务器上执行。在后面一种情况下，远程计算机可通过局域网(LAN)或广域网(WAN)与用户的计算机连接，或者可连接至外部计算机(例如，通过使用互联网服务供应商的互联网)。

以下将参考根据本公开内容的实施方式的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本公开内容。应理解，流程图和/或框图的每个方框、以及流程图和/或框图中各方框的组合可由计算机程序指令实现。这些计算机程序指令可被提供至通用计算机的处理器、专用计算机的处理器、或其他可编程数据处理设备的处理器以形成机器，使得经由计算机的处理器或其他可编程数据处理设备的处理器执行的指令生成用于实现流程图和/或框图的一个或多个方框所具体指定的功能/行为的装置。

这些计算机程序指令也可储存在计算机可读存储器中，该存储器可引导计算机或其他可编程数据处理设备以种特定的方式运行，使得储存在计算机可读存储器内的指令产生制品，该制品包括实现在流程图和/或方框图的一个或多个方框中规定的功能/行为的指令装置。

计算机程序指令也可以加载至计算机或其他可编程数据处理设备上，使在计算机或者其他可编程设备上执行一系列操作步骤以产生计算机执行处理，使得在计算机或其他可编程设备上执行的指令提供用于实现流程图和/或框图中的一个或多个框中所指定的功能/行为的步骤。

为了提供与用户的交互，在此描述的系统和技术可在计算机上实现，该计算机具有用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示器)显示器)、以及键盘和定位装置(例如，鼠标或轨迹球)，通过这些装置，用户可将输入提供至计算机。其他类型的装置也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以任何形式接收来自用户的输入，包括声音、语音或触觉输入。

在此描述的系统和技术可在计算系统中实现，该计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面或网络浏览器的客户端计算机，用户可以通过图形用户界面或网络浏览器与在此描述的系统和技术的实现交互)，或者包括这种后端组件、中间件组件或前端组件的任意组合。该系统的组件可由任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的实例包括局域网(“LAN”)、广域网(“WAN”)和互联网。

计算系统可包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络交互。由于在各个计算机上运行的并且彼此具有客户端-服务器关系的计算机程序，所以客户端和服务器产生关系。

附图中的流程图和框图示出了根据本公开内容的各种实施方式的系统、方法和计算机程序产品的可能的实现方式的架构、功能和操作。鉴于此，流程图或框图中的每个框可表示代码的模块、区段或部分，其包括用于实现指定逻辑功能的一个或多个可执行指令。还应注意的是，在一些可替换的实现中，框中记录的功能可按照与图中记录的顺序不同的顺序发生。例如，连续示出的两个框实际上可基本上同时执行，或者根据所涉及的功能，有时可按照相反的顺序执行这些框。还应注意的是，框图和/或流程图插图的每个框以及框图和/或流程图中的框的组合可由基于专用硬件的系统实现，这些系统执行指定的功能或行为，或者专用硬件和计算机指令的组合。

在本文中所使用的术语用于仅仅描述具体实施方式，并非旨在限制本公开内容。如本文中使用的，单数形式“一个(a)”、“一个(an)”和“该”也旨在包括复数形式，除非上下文另有清晰指示。应进一步理解的是，在本说明书中使用时，术语“包含”和/或“包括”指定存在所陈述的特征、整数、步骤、操作、元件和/或组件，但是不排除存在或添加有一个或多个其他特征、整数、步骤、操作、元件、组件和/或其组合。

以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、作用以及等同物旨在包括结合特定要求保护的其他要求保护元件而执行功能的任何结构、材料或作用。本公开内容的说明仅供用于说明和描述的目的，而非旨在穷尽性说明或将本公开内容限制为所公开的形式。在不偏离本公开内容的范围和精神的情况下，许多修改和变化对于本领域普通技术人员而言将是显而易见的。选择并描述了该实施方式，以便最佳地解释本公开内容的原理和实际应用，并且使本领域的其他普通技术人员能够理解本公开内容，具有各种修改的各种实施方式适合于预期的特定使用。

因此，已经详细地描述本申请的公开内容并且通过参照其实施方式，显而易见的是，在不背离所附权利要求中限定的本公开内容的范围的情况下能够进行修改和变化。

Claims

1.一种可穿戴设备，包括：

框架，具有与所述框架相关联的存储器和处理器；

相机，与所述框架相关联并且与所述处理器进行通信，所述相机被配置为追踪穿戴者的眼睛；

至少一个麦克风，与所述框架相关联，所述至少一个麦克风被配置为从所述处理器接收定向指令，所述定向指令至少部分基于响应于来自所述相机的检测出的眼睛运动而执行的自适应波束形成分析，其中，所述至少一个麦克风包括用来抑制回响的带有空间后置滤波器的波束形成器；以及

扬声器，与所述框架相关联，所述扬声器被配置为将在所述至少一个麦克风处接收的音频信号提供至所述穿戴者。

2.根据权利要求1所述的可穿戴设备，其中，所述处理器被配置为将所述音频信号转换为文本。

3.根据权利要求1所述的可穿戴设备，进一步包括：

至少一个镜片，被配置为从所述处理器接收文本结果并且将所述文本提供至所述穿戴者。

4.根据权利要求1所述的可穿戴设备，进一步包括：

与所述框架相关联的面部识别相机，所述面部识别相机被配置为识别所述设备的非穿戴者。

5.根据权利要求1所述的可穿戴设备，其中，所述扬声器包含在与所述处理器进行通信的至少一个耳机内。

6.根据权利要求2所述的可穿戴设备，其中，所述存储器被配置为存储基于转换成的所述文本的联系信息和会话日志文件中的至少一个。

7.根据权利要求1所述的可穿戴设备，其中，所述定向指令至少部分基于所述设备的非穿戴者的识别。

8.根据权利要求1所述的可穿戴设备，其中，基于所述穿戴者的眼睛运动执行所述设备的非穿戴者的识别。

9.根据权利要求1所述的可穿戴设备，其中，基于从与所述框架相关联的输入装置接收一输入来执行所述设备的非穿戴者的识别。

10.根据权利要求1所述的可穿戴设备，其中，所述至少一个镜片被配置为向所述穿戴者显示视觉反馈，所述视觉反馈包括：波束形状、波束方向和识别出的所述设备的非穿戴者中的至少一个。

11.一种声学波束形成的方法，包括：

使用与框架相关联的相机来追踪穿戴者的眼睛，所述框架具有与所述框架相关联的处理器和存储器；

在与所述框架相关联的麦克风处从所述处理器接收定向指令，所述定向指令至少部分基于响应于来自所述相机的检测出的眼睛运动而执行的自适应波束形成分析，其中，所述麦克风包括用来抑制回响的带有空间后置滤波器的波束形成器；

基于所述定向指令调节所述麦克风的方向；

在至少一个所述麦克风处接收音频信号；并且

使用与所述框架相关联的扬声器将所述音频信号提供至所述穿戴者。

12.根据权利要求11所述的方法，进一步包括：

使用所述处理器将所述音频信号转换为文本。

13.根据权利要求11所述的方法，进一步包括：

从所述处理器接收文本结果并且将所述文本提供到至少一个镜片。

14.根据权利要求11所述的方法，进一步包括：

使用与所述框架相关联的面部识别相机来识别出设备的非穿戴者。

15.根据权利要求11所述的方法，其中，所述扬声器包含在与所述处理器进行通信的至少一个耳机内。

16.根据权利要求12所述的方法，进一步包括：

在所述存储器中存储基于转换成的所述文本的联系信息和会话日志文件中的至少一个。

17.根据权利要求11所述的方法，其中，所述定向指令至少部分基于设备的非穿戴者的识别。

18.根据权利要求11所述的方法，其中，基于所述穿戴者的眼睛运动来执行设备的非穿戴者的识别。

19.根据权利要求11所述的方法，其中，基于从与所述框架相关联的输入装置接收一输入来执行设备的非穿戴者的识别。

20.根据权利要求11所述的方法，进一步包括：

在至少一个镜片处向所述穿戴者显示视觉反馈，所述视觉反馈包括波束形状、波束方向和识别出的设备的非穿戴者中的至少一个。