CN117716325A

CN117716325A - 用于选择智能眼镜中的摄像头的视场的用户接口

Info

Publication number: CN117716325A
Application number: CN202280052580.1A
Authority: CN
Inventors: 塞巴斯蒂安·斯图克; 萨普纳·史洛夫; 胡均; 约翰娜·加布里埃拉·科约克·埃斯库德罗
Original assignee: Meta Platforms Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2021-07-29
Filing date: 2022-07-29
Publication date: 2024-03-15
Also published as: US20230031871A1; EP4377771A1; TW202319888A; US20230032467A1; TW202324065A; EP4377769A1

Abstract

提供了一种用于沉浸式现实应用中的可穿戴设备。该可穿戴设备具有：框架，该框架包括目镜，该目镜用于向用户提供前视图像；第一前视摄像头，该第一前视摄像头安装在框架上，该第一前视摄像头具有在该前视图像内的视场；传感器，该传感器被配置为接收来自用户的命令，该命令指示视场内的感兴趣区域；以及接口设备，该接口设备用于向用户指示第一前视摄像头的视场与感兴趣区域对准。还提供了该设备的使用方法、存储指令的存储器和执行所述指令以使设备执行使用方法的处理器。

Description

用于选择智能眼镜中的摄像头的视场的用户接口

背景

技术领域

本公开涉及智能眼镜设备中的用户接口，所述智能眼镜设备包括用于记录图像和视频的一个或多个摄像头。更具体地，本公开涉及如下方法：所述方法用于使用眼动追踪工具来识别用户视野中的感兴趣区域并向用户提供非侵入性反馈，以使用户的感兴趣区域与智能眼镜中的一个或多个摄像头的视场一致。

相关技术

当代许多电子装置包括嵌入在可穿戴框架内的一个或多个摄像头，用户可以激活该一个或多个摄像头来采集照片或视频。然而，在许多情况下，用户采集的图像和视频与在采集时用户视野的感兴趣区域不匹配。发生这种情况是因为该一个或多个摄像头的角度和视场通常不同于用户的角度和视野。在某些类型的电子装置中，这种不一致可以通过在显示器上直接向用户提供一个或多个摄像头附件的视场的反馈来解决。然后，用户可以手动修改摄像头位置和光学配置(放大倍数和光圈大小等)以使该一个或多个摄像头附件的视场与感兴趣区域一致。然而，这种方法需要使用显示器，这在一些装置中可能是不可用的，并且需要用户集中注意力来校正不一致。在一些具有显示器的装置中，可能仍然期望使用这些装置中的显示资源(real estate)以最大化用户享受而不是用于硬件调整。

发明内容

根据本公开的第一方面，提供了一种设备，该设备包括：框架，该框架包括目镜，该目镜用于向用户提供前视图像；第一前视摄像头，该第一前视摄像头安装在框架上，该第一前视摄像头具有在前视图像内的视场；传感器，该传感器被配置为接收来自用户的命令，该命令指示前视图像内的感兴趣区域；以及接口设备，该接口设备用于向用户指示第一前视摄像头的视场与感兴趣区域对准。

在一些实施例中，传感器包括传声器，该传声器被配置为接收来自用户的语音命令。在一些实施例中，传感器包括电容式传感器，该电容式传感器被配置为接收来自用户的触摸手势。

在一些实施例中，传感器为眼动追踪传感器，该设备还包括处理器，该处理器被配置为基于来自眼动追踪传感器的信号来确定用户的注视方向，并将感兴趣区域识别为前视图像中的以注视方向为中心的部分。

在一些实施例中，传感器为第一前视摄像头，并且来自用户的命令是手势。

在一些实施例中，该设备还包括处理器，该处理器被配置为接收来自用户的手势，并基于该手势来识别指示视场内的感兴趣区域的命令。

在一些实施例中，该设备还包括处理器，该处理器被配置为基于来自用户的命令，在来自第一前视摄像头的图像中识别感兴趣对象。

在一些实施例中，该设备还包括第二前视摄像头，其中在第一前视摄像头的视场与感兴趣区域未对准时，来自用户的命令包括激活第二前视摄像头。

在一些实施例中，第一前视摄像头包括运动致动器，该运动致动器被配置为基于来自用户的命令来调整第一前视摄像头的视场。

在一些实施例中，目镜包括显示器，该显示器被配置为向用户显示第一前视摄像头的视场。

根据本公开的第二方面，提供了一种计算机实现的方法，该方法包括：在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令，该命令指示用户观看的前视图像中的感兴趣区域；基于该命令确定感兴趣区域的边界；以及基于感兴趣区域与第一摄像头设备的视场之间的重叠向用户提供反馈。

在一些实施例中，该命令为语音命令，并且接收命令包括：将语音命令转换为文本命令，并对文本命令进行解析以获得指示用户意图的关键字。

在一些实施例中，该命令为语音命令，该方法还包括：基于语音签名来识别用户，以及在用户被识别时认证语音命令。

在一些实施例中，该命令是指示向用户显示的前视图像中的感兴趣对象的语音命令，该方法还包括：使第一摄像头设备的视场的中心对准感兴趣对象。

在一些实施例中，该计算机实现的方法还包括：接收来自用户的响应于反馈的第二命令，该第二命令涉及激活第二摄像头设备。

在一些实施例中，接收来自用户的命令包括：基于对所记录的来自用户的手势的学习历史，用手势识别模型来识别来自用户的手势。

在一些实施例中，接收来自用户的命令包括接收以下中一者：标记感兴趣区域的相对拐角的双手手势、描绘感兴趣区域的边界的手指手势、形成指示感兴趣区域中心的十字线的两指手势或包括感兴趣区域中心的圆形手势。

在一些实施例中，向用户提供反馈包括：激活致动器以指示用户移动头部位置，以改善感兴趣区域与第一摄像头设备的视场之间的对准。

在一些实施例中，该命令是手势，该方法还包括在手势识别模型未识别出手势时向用户提供反馈。

在一些实施例中，该命令是来自用户的手势，该方法还包括向用户提供该手势在第一摄像头设备的视场内不完整的反馈。

附图说明

图1示出了根据一些实施例的包括一个或多个可穿戴设备的架构，该一个或多个可穿戴设备彼此耦合、耦合到移动设备、远程服务器以及耦合到数据库。

图2示出了根据一些实施例的包括传声器的智能眼镜，该传声器用于接收来自用户的语音命令以基于感兴趣对象来调整摄像头的视场。

图3示出了根据一些实施例的用两只手框出感兴趣对象的手势。

图4示出了根据一些实施例的不完整的手势。

图5是示出了根据一些实施例的用于将摄像头设备中的视场与智能眼镜的用户的感兴趣区域对准的方法中的步骤的流程图。

图6是示出了根据一些实施例的示例性计算机系统的框图，可用该计算机系统实现头戴式设备(headset)及其使用方法。

在附图中，除非另有明确说明，否则具有相同或相似标记数字的元素共享相同或相似的特征。

发明内容

在第一实施例中，一种框架包括：目镜，该目镜用于向用户提供前视图像；第一前视摄像头，该第一前视摄像头安装在框架上，并且具有在前视图像内的视场；传感器，该传感器被配置为接收来自用户的命令，该命令指示前视图像内的感兴趣区域；以及接口设备，该接口设备用于向用户指示第一前视摄像头的视场与感兴趣区域对准。

在第二实施例中，一种计算机实现的方法包括：在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令，该命令指示向用户显示的前视图像中的感兴趣区域；基于该命令确定感兴趣区域的边界；以及基于感兴趣区域与第一摄像头设备的视场之间的重叠向用户提供反馈。

在第三实施例中，一种系统包括存储器以及一个或多个处理器，该存储器存储指令，该一个或多个处理器被配置为执行所述指令以使该系统执行方法。该方法包括：在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令，该命令指示向用户显示的前视图像内的感兴趣区域；基于该命令确定感兴趣区域的边界；以及基于感兴趣区域与第一摄像头设备的视场之间的重叠向用户提供反馈。

在又一实施例中，一种系统包括第一装置和第二装置，该第一装置用于存储指令，该第二装置用于执行所述指令以使该系统执行方法，该方法包括：在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令，该命令指示向用户显示的前视图像中的感兴趣区域；基于该命令确定感兴趣区域的边界；以及基于感兴趣区域与第一摄像头设备的视场之间的重叠向用户提供反馈。

根据以下公开内容，这些和其它实施例将是清楚的。

具体实施方式

在以下具体实施方式中，阐述了许多具体的细节，以提供对本公开的透彻理解。然而，对于本领域普通技术人员来说将是显而易见的是，可以在没有这些具体细节中的一些具体细节的情况下对本公开的实施例进行实践。在其它实例中，没有详细示出众所周知的结构和技术，以免模糊本公开。本文公开的实施例应该在本文的附图中所示的特征和其它实施例的范围内考虑，如下所示。

传统的摄像头或成像系统允许用户从摄像头的视角观看正被捕获的对象或场景。一些方法包括取景器、目镜、具有预览的显示器和实时流。然而，其中摄像头不具有取景器、显示器或其它这样的方式来从摄像头的视角观看正被捕获的对象或场景的系统，会向用户呈现关于摄像头视场的不期望的不确定性。虽然可以触发通过摄像头进行拍摄，但是当在触发捕获之前没有用于校正摄像头视场的反馈时，用户在捕获的瞬间可能不知道正被捕获的准确场景或视角。

为了解决在具有视频摄像头附件的可穿戴设备的技术领域中出现的上述问题，本文所公开的实施例允许用户了解待由摄像头覆盖的视场。在一些实施例中，系统包括智能眼镜，该智能眼镜具有内置的或附接的摄像头。该系统可能有或可能没有用于用户的显示器。如果存在显示器，该显示器可能不可用于观看摄像头的视场，或者可能优选地专用于其它实用程序。

此外，为了解决在具有视频摄像头附件的可穿戴设备(例如，“智能眼镜”)的技术领域中出现的上述问题，本文所公开的实施例允许用户了解待由摄像头覆盖的视场。在一些实施例中，系统包括智能眼镜，该智能眼镜具有内置的或附接的摄像头。该系统可能有或可能没有用于用户的显示器。

本文公开的智能眼镜设备包括：框架，该框架包括目镜，这些目镜用于向用户提供视场；前视摄像头，该前视摄像头安装在该框架上；传感设备，该传感设备面向用户以用于追踪用户的瞳孔位置；处理电路，该处理电路被配置为对用户的视野内的感兴趣区域进行识别；以及接口设备，该接口设备用于向用户指示前视摄像头的视场与感兴趣区域未对准。在一些实施例中，存储器可以存储指令，所述指令在由处理器执行时使智能眼镜执行与本公开一致的方法中的一个或多个步骤。存储器还可以存储数据，例如前视摄像头相对于用户视野的位置和取向的校准数据。

本文公开的实施例使用眼动追踪工具以对通过如上所述的智能眼镜观看的场景中的感兴趣区域进行识别。此外，本文公开的实施例读取用户手势，以对通过如上所述的智能眼镜观看的场景中的感兴趣区域进行识别。在一些实施例中，系统被设计成使得摄像头捕获场景，包括来自用户的一些示例手势。通过手势识别系统来运行包括手势的帧，以识别由用户呈现适当手势的时刻，并基于读取来自用户的手势来识别感兴趣区域。

图1示出了根据一些实施例的包括一个或多个可穿戴设备100-1(例如，智能眼镜)和100-2(例如，智能手表)(在下文中，统称为“可穿戴设备100”)的架构10，这些可穿戴设备彼此耦合、耦合到移动设备110、远程服务器130并且耦合到数据库152。智能眼镜100-1可以被配置用于增强现实(AR)/虚拟现实(VR)应用，并且移动设备110可以是智能手机，所有这些设备可以经由无线通信彼此通信并交换第一数据集103-1。数据集103-1可以包括所记录的视频、音频或一些其它文件或流媒体。可穿戴设备100的用户101也是移动设备110的所有者或与移动设备110相关联。在一些实施例中，智能眼镜可以经由网络与远程服务器、数据库或任何其它客户端设备(例如，不同用户的智能手机等)直接通信。移动设备可以经由网络150与远程服务器和数据库通信地耦合，并且彼此传输/共享信息、文件等，例如数据集103-2和数据集103-3(在下文中，统称为“数据集103”)。例如，网络150可以包括局域网(local area network，LAN)、广域网(wide area network，WAN)和互联网等中的任何一者或多者。此外，网络可以包括但不限于以下网络拓扑中的任何一者或多者：这些网络拓扑包括总线网络、星型网络、环形网络、网状网络、星型总线网络以及树形或分层网络等。

智能眼镜100-1可以包括框架105，该框架包括目镜107，这些目镜用于向用户101提供图像。(例如，前视)摄像头115安装在框架105上，并且具有视场(field of view，FOV)。面向用户的传感设备128被配置为追踪用户的瞳孔位置。处理器112被配置为识别用户101观看的图像内的感兴趣区域(region of interest，ROI)。接口设备129向用户101指示摄像头115的FOV至少部分地错过用户的ROI。在一些实施例中，智能眼镜100-1还可以包括触觉致动器125和扬声器127，该触觉致动器用于为用户重建触觉以用于VR/AR应用，该扬声器用于向用户101传送指示调整(例如，用来自传感设备128的瞳孔追踪信息获得的)注视方向的语音或声音信号，以用于改善摄像头115的FOV。例如，在一些实施例中，触觉致动器125可以包括振动部件，该振动部件用于指示用户朝期望方向移动其头部位置以使前视摄像头115的FOV与ROI对准，或者用于向用户确认FOV正确地以ROI为中心。

在一些实施例中，智能眼镜100-1可以包括多个传感器121，例如惯性测量单元(IMU)、陀螺仪、传声器和被配置作为用户的触摸接口的电容式传感器。其它触摸传感器可以包括压力传感器、温度计等。

此外，可穿戴设备100或移动设备110可以包括存储器电路120和处理器电路112，该存储器电路存储指令，该处理器电路被配置为执行这些指令以使智能眼镜100-1至少部分地执行与本公开一致的方法中的一些步骤。存储器电路120还可以存储数据，例如摄像头115相对于用户的FOV的位置和取向的校准数据。在一些实施例中，智能眼镜100-1、移动设备110、服务器130和/或数据库152还可以包括通信模块118，该通信模块使设备能够经由网络150与远程服务器130无线通信。因此，智能眼镜100-1可以从远程服务器130下载多媒体在线内容(例如，数据集103-1)，以至少部分地执行本文公开的方法中的一些操作。在一些实施例中，存储器120可以包括指令，所述指令使处理器112接收来自传感器121的信号并对来自传感器121的信号进行组合、避免假肯定以及在从用户接口接收到输入信号时更好地评估用户意图和命令。

图2示出了根据一些实施例的包括传声器221的智能眼镜200，该传声器用于接收来自用户的语音命令以基于感兴趣对象229来调整摄像头215-1的FOV 238。可以由用户通过语音命令来从场景210中识别感兴趣对象229，或可以使用手势指向感兴趣对象229。在一些实施例中，感兴趣对象229可以是由眼动追踪传感器228确定的用户的瞳孔位置的会聚点。作为响应，系统可以基于注视信号来调整摄像头215-1的景深和焦点或移动传感器裁剪区域。在一些实施例中，该系统可以启动摄像头215-1中的马达以将FOV 238引导到所期望的位置。在一些实施例中，系统可以确定第二前视摄像头215-2可以被更好地定位以使FOV238以感兴趣对象229为中心。在下文中，第一前视摄像头215-1和第二前视摄像头215-2将统称为前视摄像头215。

图3示出了根据一些实施例的用两只手311框出(framing)ROI 338以用于智能眼镜的用户手势350。安装在智能眼镜上的前视摄像头捕获手势，并且智能眼镜中的处理器通过使用诸如人工智能和/或机器学习等图像识别和算法，来解释该手势并选择由用户的双手311以ROI 338的相对拐角划定的ROI 338。

图4示出了根据一些实施例的仅使用一只手411框出ROI 438以用于智能眼镜的用户手势450。类似于双手手势(参见手势350)，前视摄像头可以捕获用户手势450，并且处理器被配置为即使在指向ROI 438的相对拐角的第二只手缺失时，也可以读取、解释和完成ROI 438。

图5是示出了根据一些实施例的用于将摄像头设备中的视场与智能眼镜(例如，智能眼镜100-1和200，以及摄像头115和215)的用户的感兴趣区域对准的方法500中的步骤的流程图。除了摄像头之外，智能眼镜还可以包括眼动追踪传感器、存储器以及处理器(例如，传感设备128和228、存储器120和处理器112)，该存储器存储指令，该处理器被配置为执行所述指令以至少部分地执行方法500中的一个或多个步骤。与本公开一致的方法可以包括方法500中的至少一个步骤，或者方法500中以不同顺序、同时、准同时或时间上重叠执行的两个或更多个步骤。

步骤502包括：在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令，该命令指示用户观看的前视图像中的感兴趣区域。在一些实施例中，步骤502包括基于对所记录的来自用户的手势的学习历史，用手势识别模型将命令识别为来自用户的手势。在一些实施例中，步骤502包括接收以下中的一者：标记感兴趣区域的相对拐角的双手手势、描绘感兴趣区域的边界的手指手势、形成指示感兴趣区域的中心的十字线的两指手势、或包括感兴趣区域的中心的圆形手势。

步骤504包括：基于该命令确定感兴趣区域的边界。

步骤506包括：基于感兴趣区域与摄像头设备的视场之间的重叠向用户提供反馈。在一些实施例中，步骤506包括激活致动器以指示用户移动头部位置，以改善感兴趣区域与摄像头设备的视场之间的对准。在一些实施例中，步骤506包括在手势识别模型未识别出命令时，向用户提供反馈。在一些实施例中，步骤506包括向用户提供手势在摄像头设备的视场内不完整的反馈。

硬件概述

图6是示出了根据一些实施例的示例性计算机系统600的框图，可以用该计算机系统来实现图1的头戴式设备100和方法500。在某些方面，计算机系统600可以使用硬件或软件与硬件的组合，要么在专用服务器中、要么集成到另一实体中、要么跨多个实体分布来实现。计算机系统600可以包括台式计算机、笔记本电脑、平板电脑、平板手机、智能手机、功能手机、服务器计算机或其它。服务器计算机可以远程地位于数据中心中或被存储在本地。

计算机系统600包括总线608或用于传输信息的其它通信机制、以及与总线608耦合的用于处理信息的处理器602(例如，处理器112)。作为示例，计算机系统600可以用一个或多个处理器602来实现。处理器602可以是通用微处理器、微控制器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)、可编程逻辑器件(Programmable Logic Device，PLD)、控制器、状态机、门控逻辑、分立的硬件部件、或可以执行对信息的计算或其它信息操作的任何其它合适的实体。

除了硬件之外，计算机系统600还可以包括创建所论述的计算机程序的执行环境的代码，例如，构成存储在所包括的存储器604(例如，存储器120)中的以下内容的代码：处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一者或多者的组合，该存储器例如为随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read-OnlyMemory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除PROM(Erasable PROM，EPROM)、寄存器、硬盘、可移除磁盘、紧凑型光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或任何其它合适的存储设备，该存储器与总线608耦合以用于存储处理器602要执行的信息和指令。处理器602和存储器604可以由专用逻辑电路补充或被并入专用逻辑电路中。

指令可以被存储在存储器604中，并且可以在一个或多个计算机程序产品中实现，该一个或多个计算机程序产品例如为多个计算机程序指令的一个或多个模块，这些计算机程序指令被编码在计算机可读介质上、以用于由计算机系统600执行或控制该计算机系统的操作，并且根据本领域技术人员众所周知的任何方法，这些计算机程序指令包括但不限于计算机语言，例如面向数据的语言(例如，SQL、dBase)、系统语言(例如，C、扩充C的面向对象编程语言(Objective-C)、C++、汇编)、结构性语言(例如，Java、.NET)以及应用程序语言(例如，PHP、Ruby、Perl、Python)。指令也可以在如下计算机语言中实现：诸如阵列语言、面向方面语言、汇编语言、写作语言(authoring language)、命令行接口语言、编译语言、并发语言、波形括号语言(curly-bracket language)、数据流语言、数据结构化语言、声明性语言、深奥的语言(esoteric language)、扩展语言(extension language)、第四代语言、函数式语言、交互模式语言、解释型语言、交互式语言(iterative language)、基于列表的语言(list-based language)、小语言(little language)、基于逻辑的语言、机器语言、宏语言、元编程语言、多范式语言(multiparadigm language)、数值分析、基于非英语的语言(non-English-based language)、基于类的面向对象语言、基于原型的面向对象语言、越位规则语言(off-side rule language)、过程式语言、反射式语言(reflective language)、基于规则的语言、脚本语言、基于堆栈的语言、同步式语言、语法处理语言(syntax handlinglanguage)、视觉语言、wirth语言和基于xml的语言。存储器604还可以用于在执行要由处理器602执行的指令期间，存储临时变量或其它中间信息。

如本文所论述的计算机程序不一定对应于文件系统中的文件。程序可以存储在保存有其它程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、存储在专用于所论述的程序的单个文件中、或者存储在多个协同文件(例如，存储有一个或多个模块、子程序、或部分代码的文件)中。计算机程序可以被部署为在一台计算机或多台计算机上执行，该多台计算机位于一个站点处或跨多个站点分布并且通过通信网络互连。本说明书中描述的过程和逻辑流可以由一个或多个可编程处理器执行，该一个或多个可编程处理器执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行功能。

计算机系统600还包括诸如磁盘或光盘等数据存储设备606，该数据存储设备与总线608耦合以用于存储信息和指令。计算机系统600可以经由输入/输出模块610耦合至各种设备。输入/输出模块610可以是任何输入/输出模块。示例性输入/输出模块610包括诸如通用串行总线(USB)端口等数据端口。该输入/输出模块610被配置为连接至通信模块612。示例性通信模块612包括网络接口卡，例如以太网卡和调制解调器。在某些方面，输入/输出模块610被配置为连接至多个设备，例如，输入设备614和/或输出设备616。示例性输入设备614包括键盘和定点设备(例如，鼠标或轨迹球)，用户可以通过键盘和定点设备向计算机系统600提供输入。其它种类的输入设备614也可以用于提供与用户的交互，这些输入设备例如为触觉输入设备、视觉输入设备、音频输入设备或脑-计算机接口设备。例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以包括声音输入、语音输入、触觉输入或脑电波输入的任何形式来接收来自用户的输入。示例性输出设备616包括用于向用户显示信息的显示设备，例如液晶显示器(liquid crystaldisplay，LCD)监视器。

根据本公开的一方面，可以响应于处理器602执行存储器604中包含的一个或多个指令的一个或多个序列，使用计算机系统600来至少部分地实施可穿戴设备100。这些指令可以从另一机器可读介质(例如，数据存储设备606)读入到存储器604中。对包含在主存储器604中的指令序列的执行，使得处理器602执行本文所描述的过程步骤。还可以采用多重处理配置中的一个或多个处理器来执行包含在存储器604中的指令序列。在替代方面，可以使用硬连线电路来代替软件指令、或可以将硬连接线路与软件指令组合使用，以实现本公开的各种方面。因此，本公开各方面不限于硬件电路和软件的任何特定组合。

本说明书中所描述的主题的各方面可以在计算系统中实现，该计算系统包括后端部件(例如，数据服务器)、或包括中间软件部件(例如，应用服务器)、或者包括前端部件(例如，具有图形用户界面或网络浏览器的客户端计算机，用户可以通过该图形用户界面或网络浏览器与本说明书中所描述的主题的实施方式进行交互)；或者本说明书中所描述的主题的各方面可以在一个或多个这种后端部件、一个或多个这种中间软件部件或一个或多个这种前端部件的任意组合中实现。该系统的各部件可以通过数字数据通信的任何形式或媒介(例如，通信网络)互连。通信网络(例如，网络150)例如可以包括以下中的任何一者或多者：LAN、WAN、和互联网等。此外，通信网络可以包括但不限于例如以下网络拓扑中的任何一者或多者，这些网络拓扑包括总线网络、星型网络、环形网络、网状网络、星型总线网络、或者树形或分层网络等。通信模块例如可以是调制解调器或以太网卡。

计算机系统600可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系是由于运行在各自的计算机上且相互之间具有客户端-服务器关系的计算机程序而生成的。例如，计算机系统600可以是但不限于台式计算机、膝上型计算机或平板电脑。计算机系统600还可以嵌入在另一设备中，该另一设备例如是但不限于是移动手机、个人数字助理(PDA)、移动音频播放器、全球定位系统(Global Positioning System，GPS)接收器、视频游戏控制台和/或电视机顶盒。

如本文所使用的术语“机器可读存储介质”或“计算机可读介质”是指参与向处理器602提供指令以用于执行的任何一个或多个介质。此类介质可以采取许多形式，这些形式包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质例如包括光盘或磁盘，例如数据存储设备606。易失性介质包括动态存储器，例如存储器604。传输介质包括同轴电缆、铜线和光纤，上述同轴电缆、铜线和光纤包括形成总线608的导线。机器可读介质的常见形式包括例如软盘(floppy disk)、软磁盘(flexibledisk)、硬盘、磁带、任何其它磁介质、CD-ROM、DVD、任何其它光学介质、穿孔卡、纸带、具有孔图案的任何其它物理介质、RAM、PROM、EPROM、FLASH EPROM、任何其它存储器芯片或盒式存储器、或计算机可以读取的任何其它介质。机器可读存储介质可以是机器可读存储设备、机器可读存储基体、存储器设备、影响机器可读传播信号的物质的组合、或者它们中的一者或多者的组合。

为了说明硬件与软件的可互换性，诸如各种说明性块、模块、部件、方法、操作、指令和算法等项目已大体上在它们的功能性方面进行了描述。是否将此功能性实施为硬件、软件、或者硬件与软件的组合，取决于特定应用程序和强加于整个系统的设计约束。本领域技术人员可以针对每一特定应用程序以不同方式来实现所描述的功能性。

如本文所使用的，在一系列项目之后的短语“中的至少一个”，与用于分隔这些项目中任何一者的术语“和”或“或”一起在整体上修饰列表，而不是修饰该列表的每个元素(例如，每个项目)。短语“中的至少一个”并不要求选择至少一个项目；而是，该短语的意思是包括这些项目中的任何一项中的至少一个，和/或这些项目的任何组合中的至少一个，和/或这些项目中的每项中的至少一个。作为示例，短语“A、B和C中的至少一个”或“A、B或C中的至少一个”均指的是：仅A、仅B或仅C；A、B和C的任意组合；和/或，A、B和C的每项中的至少一个。

本文使用词语“示例性”来意指“用作示例、实例或说明”。在本文中被描述为“示例性”的任何实施例不一定被解释为比其它实施例优选或有利。诸如一方面、该方面、另一方面、一些方面、一个或多个方面、一实施方式、该实施方式、另一实施方式、一些实施方式、一个或多个实施方式、一实施例、该实施例、另一实施例、一些实施例、一个或多个实施例、一配置、该配置、另一配置、一些配置、一个或多个配置、主题技术、该公开、本公开、以及它们的其它变型等的短语是为了方便，并不暗示与一个或多个这种短语相关的公开对主题技术是必不可少的，或该公开适用于主题技术的所有配置。与一个或多个这类短语相关的公开可以适用于所有配置、或一种或多种配置。与一个或多个这类短语相关的公开可以提供一个或多个示例。诸如一方面或一些方面等短语可以指一个或多个方面，并且反之亦然，并且这同样适用于前述其它短语。

除非特别说明，否则提及单数形式的元素并非旨在意指“一个且仅一个”，而是“一个或多个”。术语“一些”指的是一个或多个。带下划线和/或斜体的标题和副标题仅为了方便而使用，并不限制本主题技术，也不表示与本主题技术的描述的解释有关。诸如第一和第二等相关术语可用于将一个实体或动作与另一个实体或动作进行区分，而不必要求或暗示这些实体或动作之间的任何实际这种关系或顺序。本领域普通技术人员已知或以后将知晓的、贯穿本公开所描述的各种配置的元素的所有结构和功能等同物均通过引用明确地并入本文，并旨在被本主题技术所包含。此外，本文所公开的任何内容均不旨在奉献给公众，无论这种公开是否明确记载在以上描述中。权利要求的任何要素不得根据《美国法典》第35卷第112节第6段(35U.S.C.§112)的规定进行解释，除非该要素是使用短语“用于……的装置”来明确记载的，或者在方法权利要求的情况下，该要素是使用短语“用于……的步骤”来记载的。

虽然本说明书包含许多细节，但是这些细节不应被解释为对可能被描述的内容的范围的限制，而应被解释为对主题的特定实施方式的描述。在本说明书中在不同实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独实现或以任何合适的子组合实现。此外，尽管特征可能在以上被描述为在某些组合中起作用并且甚至最初被描述为如此，但是在一些情况下，来自所描述的组合的一个或多个特征可以从该组合中被去除，并且所描述的组合可以针对子组合或子组合的变型。

已经在特定方面描述了本说明书的主题，但其它方面可以被实现并且位于所附权利要求的范围内。例如，尽管在附图中以特定顺序描绘了各操作，但是这不应当被理解为要求以所示出的特定顺序或以连续顺序执行这些操作，或者要求执行所有示出的操作以实现期望的结果。权利要求中所描述的动作可以以不同的顺序执行，并且仍然实现了期望的结果。作为一个示例，附图中所描绘的过程不一定要求所示出的特定顺序或连续顺序来实现期望的结果。在某些情况下，多任务并行处理可能是有利的。此外，不应将上述多个方面中的各个系统部件的分开理解为要求在所有方面中都进行这样的分开，而应理解的是，所描述的程序组件和系统通常可以在一个软件产品中集成在一起或封装在多个软件产品中。

名称、背景技术、附图说明、摘要和附图在此被并入本公开中，并且作为本公开的说明性示例而非限制性描述来提供。应当理解的是，该摘要将不用于限制权利要求的范围或含义。此外，在具体实施方式中可以看出，该描述提供了说明性示例，并且不同的特征在不同的实施方式中被组合在一起以为了简化本公开。本公开的方法不应被解释为反映了以下意图：所描述的主题需要比每项权利要求中明确记载的特征更多的特征。相反，如权利要求所反映的，发明主题在于比单个公开的配置或操作的所有特征少。权利要求书在此被并入具体实施方式中，每项权利要求独立地作为单独描述的主题。

权利要求不旨在被限制为本文所描述的方面，而是应被赋予与语言权利要求一致的全部范围并且涵盖所有合法的等同物。尽管如此，权利要求中没有一个权利要求旨在包含不能满足适用专利法的要求的主题，也不应该以这种方式解释它们。

Claims

1.一种设备，包括：

框架，所述框架包括目镜，所述目镜用于向用户提供前视图像；

第一前视摄像头，所述第一前视摄像头安装在所述框架上，所述第一前视摄像头具有在所述前视图像内的视场；

传感器，所述传感器被配置为接收来自所述用户的命令，所述命令指示所述前视图像内的感兴趣区域；以及

接口设备，所述接口设备用于向所述用户指示所述第一前视摄像头的视场与所述感兴趣区域对准。

2.根据权利要求1所述的设备，其中，所述传感器包括传声器，所述传声器被配置为接收来自所述用户的语音命令。

3.根据权利要求1或2所述的设备，其中，所述传感器包括电容式传感器，所述电容式传感器被配置为接收来自所述用户的触摸手势。

4.根据前述权利要求中任一项所述的设备，其中，所述传感器是眼动追踪传感器，所述设备还包括处理器，所述处理器被配置为基于来自所述眼动追踪传感器的信号来确定所述用户的注视方向，并将所述感兴趣区域识别为所述前视图像中的以所述注视方向为中心的部分。

5.根据前述权利要求中任一项所述的设备，其中，所述传感器是所述第一前视摄像头，并且来自所述用户的所述命令是手势。

6.根据前述权利要求中任一项所述的设备，还包括处理器，所述处理器被配置为接收来自所述用户的手势，并基于所述手势来识别指示所述视场内的所述感兴趣区域的所述命令。

7.根据前述权利要求中任一项所述的设备，还包括处理器，所述处理器被配置为基于来自所述用户的所述命令在来自所述第一前视摄像头的图像中识别感兴趣对象。

8.根据前述权利要求中任一项所述的设备，还包括第二前视摄像头，其中，在所述第一前视摄像头的视场与所述感兴趣区域未对准时，来自所述用户的命令包括激活所述第二前视摄像头。

9.根据前述权利要求中任一项所述的设备，其中，所述第一前视摄像头包括运动致动器，所述运动致动器被配置为基于来自所述用户的命令来调整所述第一前视摄像头的视场；和/或优选地，其中，所述目镜包括显示器，所述显示器被配置为向所述用户显示所述第一前视摄像头的视场。

10.一种计算机实现的方法，包括：

在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令，所述命令指示所述用户观看的前视图像中的感兴趣区域；

基于所述命令确定所述感兴趣区域的边界；以及

基于所述感兴趣区域与所述第一摄像设备的视场之间的重叠向所述用户提供反馈。

11.根据权利要求10所述的计算机实现的方法，其中，所述命令是语音命令，并且接收所述命令包括：将所述语音命令转换为文本命令，并对所述文本命令进行解析以获得指示用户意图的关键字。

12.根据权利要求10或11所述的计算机实现的方法，其中，所述命令是语音命令，所述计算机实现的方法还包括：基于语音签名来识别用户，以及在所述用户被识别出时认证所述语音命令；和/或优选地，其中，所述命令是指示向所述用户显示的所述前视图像中的感兴趣对象的语音命令，所述计算机实现的方法还包括：使所述第一摄像头设备的视场的中心对准所述感兴趣对象。

13.根据权利要求10至12中任一项所述的计算机实现的方法，还包括：接收来自所述用户的响应于所述反馈的第二命令，所述第二命令涉及激活第二摄像头设备；和/或优选地，其中，接收来自所述用户的命令包括：基于对所记录的来自所述用户的手势的学习历史，用手势识别模型来识别来自所述用户的手势。

14.根据权利要求10至13中任一项所述的计算机实现的方法，其中，接收来自所述用户的命令包括接收以下中的一者：标记所述感兴趣区域的相对拐角的双手手势、描绘所述感兴趣区域的边界的手指手势、形成指示所述感兴趣区域的中心的十字线的两指手势或包括所述感兴趣区域的中心的圆形手势；和/或优选地，其中，向所述用户提供反馈包括激活致动器以指示所述用户移动头部位置，以改善所述感兴趣区域与所述第一摄像头设备的视场之间的对准。

15.根据权利要求10至14中任一项所述的计算机实现的方法，其中，所述命令是手势，所述计算机实现的方法还包括在手势识别模型未识别出所述手势时向所述用户提供反馈；和/或优选地，其中，所述命令是来自所述用户的手势，所述计算机实现的方法还包括向所述用户提供所述手势在所述第一摄像头设备的视场内不完整的反馈。