CN117716325A - 用于选择智能眼镜中的摄像头的视场的用户接口 - Google Patents

用于选择智能眼镜中的摄像头的视场的用户接口 Download PDF

Info

Publication number
CN117716325A
CN117716325A CN202280052580.1A CN202280052580A CN117716325A CN 117716325 A CN117716325 A CN 117716325A CN 202280052580 A CN202280052580 A CN 202280052580A CN 117716325 A CN117716325 A CN 117716325A
Authority
CN
China
Prior art keywords
user
command
view
interest
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280052580.1A
Other languages
English (en)
Inventor
塞巴斯蒂安·斯图克
萨普纳·史洛夫
胡均
约翰娜·加布里埃拉·科约克·埃斯库德罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Meta Platforms Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meta Platforms Technologies LLC filed Critical Meta Platforms Technologies LLC
Priority claimed from PCT/US2022/038849 external-priority patent/WO2023009806A1/en
Publication of CN117716325A publication Critical patent/CN117716325A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3629Guidance using speech or audio output, e.g. text-to-speech
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G02OPTICS
    • G02CSPECTACLES; SUNGLASSES OR GOGGLES INSOFAR AS THEY HAVE THE SAME FEATURES AS SPECTACLES; CONTACT LENSES
    • G02C11/00Non-optical adjuncts; Attachment thereof
    • G02C11/10Electronic devices other than hearing aids
    • GPHYSICS
    • G02OPTICS
    • G02CSPECTACLES; SUNGLASSES OR GOGGLES INSOFAR AS THEY HAVE THE SAME FEATURES AS SPECTACLES; CONTACT LENSES
    • G02C7/00Optical parts
    • G02C7/10Filters, e.g. for facilitating adaptation of the eyes to the dark; Sunglasses
    • G02C7/101Filters, e.g. for facilitating adaptation of the eyes to the dark; Sunglasses having an electro-optical light valve
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1686Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being an integrated camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/044Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means by capacitive means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/60Static or dynamic means for assisting the user to position a body part for biometric acquisition
    • G06V40/67Static or dynamic means for assisting the user to position a body part for biometric acquisition by interactive indications to the user
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/56Cameras or camera modules comprising electronic image sensors; Control thereof provided with illuminating means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0141Head-up displays characterised by optical features characterised by the informative content of the display
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • GPHYSICS
    • G02OPTICS
    • G02CSPECTACLES; SUNGLASSES OR GOGGLES INSOFAR AS THEY HAVE THE SAME FEATURES AS SPECTACLES; CONTACT LENSES
    • G02C7/00Optical parts
    • G02C7/16Shades; shields; Obturators, e.g. with pinhole, with slot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Signal Processing (AREA)
  • Optics & Photonics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Hardware Design (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Otolaryngology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Studio Devices (AREA)

Abstract

提供了一种用于沉浸式现实应用中的可穿戴设备。该可穿戴设备具有:框架,该框架包括目镜,该目镜用于向用户提供前视图像;第一前视摄像头,该第一前视摄像头安装在框架上,该第一前视摄像头具有在该前视图像内的视场;传感器,该传感器被配置为接收来自用户的命令,该命令指示视场内的感兴趣区域;以及接口设备,该接口设备用于向用户指示第一前视摄像头的视场与感兴趣区域对准。还提供了该设备的使用方法、存储指令的存储器和执行所述指令以使设备执行使用方法的处理器。

Description

用于选择智能眼镜中的摄像头的视场的用户接口
背景
技术领域
本公开涉及智能眼镜设备中的用户接口,所述智能眼镜设备包括用于记录图像和视频的一个或多个摄像头。更具体地,本公开涉及如下方法:所述方法用于使用眼动追踪工具来识别用户视野中的感兴趣区域并向用户提供非侵入性反馈,以使用户的感兴趣区域与智能眼镜中的一个或多个摄像头的视场一致。
相关技术
当代许多电子装置包括嵌入在可穿戴框架内的一个或多个摄像头,用户可以激活该一个或多个摄像头来采集照片或视频。然而,在许多情况下,用户采集的图像和视频与在采集时用户视野的感兴趣区域不匹配。发生这种情况是因为该一个或多个摄像头的角度和视场通常不同于用户的角度和视野。在某些类型的电子装置中,这种不一致可以通过在显示器上直接向用户提供一个或多个摄像头附件的视场的反馈来解决。然后,用户可以手动修改摄像头位置和光学配置(放大倍数和光圈大小等)以使该一个或多个摄像头附件的视场与感兴趣区域一致。然而,这种方法需要使用显示器,这在一些装置中可能是不可用的,并且需要用户集中注意力来校正不一致。在一些具有显示器的装置中,可能仍然期望使用这些装置中的显示资源(real estate)以最大化用户享受而不是用于硬件调整。
发明内容
根据本公开的第一方面,提供了一种设备,该设备包括:框架,该框架包括目镜,该目镜用于向用户提供前视图像;第一前视摄像头,该第一前视摄像头安装在框架上,该第一前视摄像头具有在前视图像内的视场;传感器,该传感器被配置为接收来自用户的命令,该命令指示前视图像内的感兴趣区域;以及接口设备,该接口设备用于向用户指示第一前视摄像头的视场与感兴趣区域对准。
在一些实施例中,传感器包括传声器,该传声器被配置为接收来自用户的语音命令。在一些实施例中,传感器包括电容式传感器,该电容式传感器被配置为接收来自用户的触摸手势。
在一些实施例中,传感器为眼动追踪传感器,该设备还包括处理器,该处理器被配置为基于来自眼动追踪传感器的信号来确定用户的注视方向,并将感兴趣区域识别为前视图像中的以注视方向为中心的部分。
在一些实施例中,传感器为第一前视摄像头,并且来自用户的命令是手势。
在一些实施例中,该设备还包括处理器,该处理器被配置为接收来自用户的手势,并基于该手势来识别指示视场内的感兴趣区域的命令。
在一些实施例中,该设备还包括处理器,该处理器被配置为基于来自用户的命令,在来自第一前视摄像头的图像中识别感兴趣对象。
在一些实施例中,该设备还包括第二前视摄像头,其中在第一前视摄像头的视场与感兴趣区域未对准时,来自用户的命令包括激活第二前视摄像头。
在一些实施例中,第一前视摄像头包括运动致动器,该运动致动器被配置为基于来自用户的命令来调整第一前视摄像头的视场。
在一些实施例中,目镜包括显示器,该显示器被配置为向用户显示第一前视摄像头的视场。
根据本公开的第二方面,提供了一种计算机实现的方法,该方法包括:在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令,该命令指示用户观看的前视图像中的感兴趣区域;基于该命令确定感兴趣区域的边界;以及基于感兴趣区域与第一摄像头设备的视场之间的重叠向用户提供反馈。
在一些实施例中,该命令为语音命令,并且接收命令包括:将语音命令转换为文本命令,并对文本命令进行解析以获得指示用户意图的关键字。
在一些实施例中,该命令为语音命令,该方法还包括:基于语音签名来识别用户,以及在用户被识别时认证语音命令。
在一些实施例中,该命令是指示向用户显示的前视图像中的感兴趣对象的语音命令,该方法还包括:使第一摄像头设备的视场的中心对准感兴趣对象。
在一些实施例中,该计算机实现的方法还包括:接收来自用户的响应于反馈的第二命令,该第二命令涉及激活第二摄像头设备。
在一些实施例中,接收来自用户的命令包括:基于对所记录的来自用户的手势的学习历史,用手势识别模型来识别来自用户的手势。
在一些实施例中,接收来自用户的命令包括接收以下中一者:标记感兴趣区域的相对拐角的双手手势、描绘感兴趣区域的边界的手指手势、形成指示感兴趣区域中心的十字线的两指手势或包括感兴趣区域中心的圆形手势。
在一些实施例中,向用户提供反馈包括:激活致动器以指示用户移动头部位置,以改善感兴趣区域与第一摄像头设备的视场之间的对准。
在一些实施例中,该命令是手势,该方法还包括在手势识别模型未识别出手势时向用户提供反馈。
在一些实施例中,该命令是来自用户的手势,该方法还包括向用户提供该手势在第一摄像头设备的视场内不完整的反馈。
附图说明
图1示出了根据一些实施例的包括一个或多个可穿戴设备的架构,该一个或多个可穿戴设备彼此耦合、耦合到移动设备、远程服务器以及耦合到数据库。
图2示出了根据一些实施例的包括传声器的智能眼镜,该传声器用于接收来自用户的语音命令以基于感兴趣对象来调整摄像头的视场。
图3示出了根据一些实施例的用两只手框出感兴趣对象的手势。
图4示出了根据一些实施例的不完整的手势。
图5是示出了根据一些实施例的用于将摄像头设备中的视场与智能眼镜的用户的感兴趣区域对准的方法中的步骤的流程图。
图6是示出了根据一些实施例的示例性计算机系统的框图,可用该计算机系统实现头戴式设备(headset)及其使用方法。
在附图中,除非另有明确说明,否则具有相同或相似标记数字的元素共享相同或相似的特征。
发明内容
在第一实施例中,一种框架包括:目镜,该目镜用于向用户提供前视图像;第一前视摄像头,该第一前视摄像头安装在框架上,并且具有在前视图像内的视场;传感器,该传感器被配置为接收来自用户的命令,该命令指示前视图像内的感兴趣区域;以及接口设备,该接口设备用于向用户指示第一前视摄像头的视场与感兴趣区域对准。
在第二实施例中,一种计算机实现的方法包括:在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令,该命令指示向用户显示的前视图像中的感兴趣区域;基于该命令确定感兴趣区域的边界;以及基于感兴趣区域与第一摄像头设备的视场之间的重叠向用户提供反馈。
在第三实施例中,一种系统包括存储器以及一个或多个处理器,该存储器存储指令,该一个或多个处理器被配置为执行所述指令以使该系统执行方法。该方法包括:在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令,该命令指示向用户显示的前视图像内的感兴趣区域;基于该命令确定感兴趣区域的边界;以及基于感兴趣区域与第一摄像头设备的视场之间的重叠向用户提供反馈。
在又一实施例中,一种系统包括第一装置和第二装置,该第一装置用于存储指令,该第二装置用于执行所述指令以使该系统执行方法,该方法包括:在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令,该命令指示向用户显示的前视图像中的感兴趣区域;基于该命令确定感兴趣区域的边界;以及基于感兴趣区域与第一摄像头设备的视场之间的重叠向用户提供反馈。
根据以下公开内容,这些和其它实施例将是清楚的。
具体实施方式
在以下具体实施方式中,阐述了许多具体的细节,以提供对本公开的透彻理解。然而,对于本领域普通技术人员来说将是显而易见的是,可以在没有这些具体细节中的一些具体细节的情况下对本公开的实施例进行实践。在其它实例中,没有详细示出众所周知的结构和技术,以免模糊本公开。本文公开的实施例应该在本文的附图中所示的特征和其它实施例的范围内考虑,如下所示。
传统的摄像头或成像系统允许用户从摄像头的视角观看正被捕获的对象或场景。一些方法包括取景器、目镜、具有预览的显示器和实时流。然而,其中摄像头不具有取景器、显示器或其它这样的方式来从摄像头的视角观看正被捕获的对象或场景的系统,会向用户呈现关于摄像头视场的不期望的不确定性。虽然可以触发通过摄像头进行拍摄,但是当在触发捕获之前没有用于校正摄像头视场的反馈时,用户在捕获的瞬间可能不知道正被捕获的准确场景或视角。
为了解决在具有视频摄像头附件的可穿戴设备的技术领域中出现的上述问题,本文所公开的实施例允许用户了解待由摄像头覆盖的视场。在一些实施例中,系统包括智能眼镜,该智能眼镜具有内置的或附接的摄像头。该系统可能有或可能没有用于用户的显示器。如果存在显示器,该显示器可能不可用于观看摄像头的视场,或者可能优选地专用于其它实用程序。
此外,为了解决在具有视频摄像头附件的可穿戴设备(例如,“智能眼镜”)的技术领域中出现的上述问题,本文所公开的实施例允许用户了解待由摄像头覆盖的视场。在一些实施例中,系统包括智能眼镜,该智能眼镜具有内置的或附接的摄像头。该系统可能有或可能没有用于用户的显示器。
本文公开的智能眼镜设备包括:框架,该框架包括目镜,这些目镜用于向用户提供视场;前视摄像头,该前视摄像头安装在该框架上;传感设备,该传感设备面向用户以用于追踪用户的瞳孔位置;处理电路,该处理电路被配置为对用户的视野内的感兴趣区域进行识别;以及接口设备,该接口设备用于向用户指示前视摄像头的视场与感兴趣区域未对准。在一些实施例中,存储器可以存储指令,所述指令在由处理器执行时使智能眼镜执行与本公开一致的方法中的一个或多个步骤。存储器还可以存储数据,例如前视摄像头相对于用户视野的位置和取向的校准数据。
本文公开的实施例使用眼动追踪工具以对通过如上所述的智能眼镜观看的场景中的感兴趣区域进行识别。此外,本文公开的实施例读取用户手势,以对通过如上所述的智能眼镜观看的场景中的感兴趣区域进行识别。在一些实施例中,系统被设计成使得摄像头捕获场景,包括来自用户的一些示例手势。通过手势识别系统来运行包括手势的帧,以识别由用户呈现适当手势的时刻,并基于读取来自用户的手势来识别感兴趣区域。
图1示出了根据一些实施例的包括一个或多个可穿戴设备100-1(例如,智能眼镜)和100-2(例如,智能手表)(在下文中,统称为“可穿戴设备100”)的架构10,这些可穿戴设备彼此耦合、耦合到移动设备110、远程服务器130并且耦合到数据库152。智能眼镜100-1可以被配置用于增强现实(AR)/虚拟现实(VR)应用,并且移动设备110可以是智能手机,所有这些设备可以经由无线通信彼此通信并交换第一数据集103-1。数据集103-1可以包括所记录的视频、音频或一些其它文件或流媒体。可穿戴设备100的用户101也是移动设备110的所有者或与移动设备110相关联。在一些实施例中,智能眼镜可以经由网络与远程服务器、数据库或任何其它客户端设备(例如,不同用户的智能手机等)直接通信。移动设备可以经由网络150与远程服务器和数据库通信地耦合,并且彼此传输/共享信息、文件等,例如数据集103-2和数据集103-3(在下文中,统称为“数据集103”)。例如,网络150可以包括局域网(local area network,LAN)、广域网(wide area network,WAN)和互联网等中的任何一者或多者。此外,网络可以包括但不限于以下网络拓扑中的任何一者或多者:这些网络拓扑包括总线网络、星型网络、环形网络、网状网络、星型总线网络以及树形或分层网络等。
智能眼镜100-1可以包括框架105,该框架包括目镜107,这些目镜用于向用户101提供图像。(例如,前视)摄像头115安装在框架105上,并且具有视场(field of view,FOV)。面向用户的传感设备128被配置为追踪用户的瞳孔位置。处理器112被配置为识别用户101观看的图像内的感兴趣区域(region of interest,ROI)。接口设备129向用户101指示摄像头115的FOV至少部分地错过用户的ROI。在一些实施例中,智能眼镜100-1还可以包括触觉致动器125和扬声器127,该触觉致动器用于为用户重建触觉以用于VR/AR应用,该扬声器用于向用户101传送指示调整(例如,用来自传感设备128的瞳孔追踪信息获得的)注视方向的语音或声音信号,以用于改善摄像头115的FOV。例如,在一些实施例中,触觉致动器125可以包括振动部件,该振动部件用于指示用户朝期望方向移动其头部位置以使前视摄像头115的FOV与ROI对准,或者用于向用户确认FOV正确地以ROI为中心。
在一些实施例中,智能眼镜100-1可以包括多个传感器121,例如惯性测量单元(IMU)、陀螺仪、传声器和被配置作为用户的触摸接口的电容式传感器。其它触摸传感器可以包括压力传感器、温度计等。
此外,可穿戴设备100或移动设备110可以包括存储器电路120和处理器电路112,该存储器电路存储指令,该处理器电路被配置为执行这些指令以使智能眼镜100-1至少部分地执行与本公开一致的方法中的一些步骤。存储器电路120还可以存储数据,例如摄像头115相对于用户的FOV的位置和取向的校准数据。在一些实施例中,智能眼镜100-1、移动设备110、服务器130和/或数据库152还可以包括通信模块118,该通信模块使设备能够经由网络150与远程服务器130无线通信。因此,智能眼镜100-1可以从远程服务器130下载多媒体在线内容(例如,数据集103-1),以至少部分地执行本文公开的方法中的一些操作。在一些实施例中,存储器120可以包括指令,所述指令使处理器112接收来自传感器121的信号并对来自传感器121的信号进行组合、避免假肯定以及在从用户接口接收到输入信号时更好地评估用户意图和命令。
图2示出了根据一些实施例的包括传声器221的智能眼镜200,该传声器用于接收来自用户的语音命令以基于感兴趣对象229来调整摄像头215-1的FOV 238。可以由用户通过语音命令来从场景210中识别感兴趣对象229,或可以使用手势指向感兴趣对象229。在一些实施例中,感兴趣对象229可以是由眼动追踪传感器228确定的用户的瞳孔位置的会聚点。作为响应,系统可以基于注视信号来调整摄像头215-1的景深和焦点或移动传感器裁剪区域。在一些实施例中,该系统可以启动摄像头215-1中的马达以将FOV 238引导到所期望的位置。在一些实施例中,系统可以确定第二前视摄像头215-2可以被更好地定位以使FOV238以感兴趣对象229为中心。在下文中,第一前视摄像头215-1和第二前视摄像头215-2将统称为前视摄像头215。
图3示出了根据一些实施例的用两只手311框出(framing)ROI 338以用于智能眼镜的用户手势350。安装在智能眼镜上的前视摄像头捕获手势,并且智能眼镜中的处理器通过使用诸如人工智能和/或机器学习等图像识别和算法,来解释该手势并选择由用户的双手311以ROI 338的相对拐角划定的ROI 338。
图4示出了根据一些实施例的仅使用一只手411框出ROI 438以用于智能眼镜的用户手势450。类似于双手手势(参见手势350),前视摄像头可以捕获用户手势450,并且处理器被配置为即使在指向ROI 438的相对拐角的第二只手缺失时,也可以读取、解释和完成ROI 438。
图5是示出了根据一些实施例的用于将摄像头设备中的视场与智能眼镜(例如,智能眼镜100-1和200,以及摄像头115和215)的用户的感兴趣区域对准的方法500中的步骤的流程图。除了摄像头之外,智能眼镜还可以包括眼动追踪传感器、存储器以及处理器(例如,传感设备128和228、存储器120和处理器112),该存储器存储指令,该处理器被配置为执行所述指令以至少部分地执行方法500中的一个或多个步骤。与本公开一致的方法可以包括方法500中的至少一个步骤,或者方法500中以不同顺序、同时、准同时或时间上重叠执行的两个或更多个步骤。
步骤502包括:在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令,该命令指示用户观看的前视图像中的感兴趣区域。在一些实施例中,步骤502包括基于对所记录的来自用户的手势的学习历史,用手势识别模型将命令识别为来自用户的手势。在一些实施例中,步骤502包括接收以下中的一者:标记感兴趣区域的相对拐角的双手手势、描绘感兴趣区域的边界的手指手势、形成指示感兴趣区域的中心的十字线的两指手势、或包括感兴趣区域的中心的圆形手势。
步骤504包括:基于该命令确定感兴趣区域的边界。
步骤506包括:基于感兴趣区域与摄像头设备的视场之间的重叠向用户提供反馈。在一些实施例中,步骤506包括激活致动器以指示用户移动头部位置,以改善感兴趣区域与摄像头设备的视场之间的对准。在一些实施例中,步骤506包括在手势识别模型未识别出命令时,向用户提供反馈。在一些实施例中,步骤506包括向用户提供手势在摄像头设备的视场内不完整的反馈。
硬件概述
图6是示出了根据一些实施例的示例性计算机系统600的框图,可以用该计算机系统来实现图1的头戴式设备100和方法500。在某些方面,计算机系统600可以使用硬件或软件与硬件的组合,要么在专用服务器中、要么集成到另一实体中、要么跨多个实体分布来实现。计算机系统600可以包括台式计算机、笔记本电脑、平板电脑、平板手机、智能手机、功能手机、服务器计算机或其它。服务器计算机可以远程地位于数据中心中或被存储在本地。
计算机系统600包括总线608或用于传输信息的其它通信机制、以及与总线608耦合的用于处理信息的处理器602(例如,处理器112)。作为示例,计算机系统600可以用一个或多个处理器602来实现。处理器602可以是通用微处理器、微控制器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、状态机、门控逻辑、分立的硬件部件、或可以执行对信息的计算或其它信息操作的任何其它合适的实体。
除了硬件之外,计算机系统600还可以包括创建所论述的计算机程序的执行环境的代码,例如,构成存储在所包括的存储器604(例如,存储器120)中的以下内容的代码:处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一者或多者的组合,该存储器例如为随机存取存储器(Random Access Memory,RAM)、闪存、只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除PROM(Erasable PROM,EPROM)、寄存器、硬盘、可移除磁盘、紧凑型光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或任何其它合适的存储设备,该存储器与总线608耦合以用于存储处理器602要执行的信息和指令。处理器602和存储器604可以由专用逻辑电路补充或被并入专用逻辑电路中。
指令可以被存储在存储器604中,并且可以在一个或多个计算机程序产品中实现,该一个或多个计算机程序产品例如为多个计算机程序指令的一个或多个模块,这些计算机程序指令被编码在计算机可读介质上、以用于由计算机系统600执行或控制该计算机系统的操作,并且根据本领域技术人员众所周知的任何方法,这些计算机程序指令包括但不限于计算机语言,例如面向数据的语言(例如,SQL、dBase)、系统语言(例如,C、扩充C的面向对象编程语言(Objective-C)、C++、汇编)、结构性语言(例如,Java、.NET)以及应用程序语言(例如,PHP、Ruby、Perl、Python)。指令也可以在如下计算机语言中实现:诸如阵列语言、面向方面语言、汇编语言、写作语言(authoring language)、命令行接口语言、编译语言、并发语言、波形括号语言(curly-bracket language)、数据流语言、数据结构化语言、声明性语言、深奥的语言(esoteric language)、扩展语言(extension language)、第四代语言、函数式语言、交互模式语言、解释型语言、交互式语言(iterative language)、基于列表的语言(list-based language)、小语言(little language)、基于逻辑的语言、机器语言、宏语言、元编程语言、多范式语言(multiparadigm language)、数值分析、基于非英语的语言(non-English-based language)、基于类的面向对象语言、基于原型的面向对象语言、越位规则语言(off-side rule language)、过程式语言、反射式语言(reflective language)、基于规则的语言、脚本语言、基于堆栈的语言、同步式语言、语法处理语言(syntax handlinglanguage)、视觉语言、wirth语言和基于xml的语言。存储器604还可以用于在执行要由处理器602执行的指令期间,存储临时变量或其它中间信息。
如本文所论述的计算机程序不一定对应于文件系统中的文件。程序可以存储在保存有其它程序或数据的文件的一部分(例如,存储在标记语言文档中的一个或多个脚本)中、存储在专用于所论述的程序的单个文件中、或者存储在多个协同文件(例如,存储有一个或多个模块、子程序、或部分代码的文件)中。计算机程序可以被部署为在一台计算机或多台计算机上执行,该多台计算机位于一个站点处或跨多个站点分布并且通过通信网络互连。本说明书中描述的过程和逻辑流可以由一个或多个可编程处理器执行,该一个或多个可编程处理器执行一个或多个计算机程序,以通过对输入数据进行操作并生成输出来执行功能。
计算机系统600还包括诸如磁盘或光盘等数据存储设备606,该数据存储设备与总线608耦合以用于存储信息和指令。计算机系统600可以经由输入/输出模块610耦合至各种设备。输入/输出模块610可以是任何输入/输出模块。示例性输入/输出模块610包括诸如通用串行总线(USB)端口等数据端口。该输入/输出模块610被配置为连接至通信模块612。示例性通信模块612包括网络接口卡,例如以太网卡和调制解调器。在某些方面,输入/输出模块610被配置为连接至多个设备,例如,输入设备614和/或输出设备616。示例性输入设备614包括键盘和定点设备(例如,鼠标或轨迹球),用户可以通过键盘和定点设备向计算机系统600提供输入。其它种类的输入设备614也可以用于提供与用户的交互,这些输入设备例如为触觉输入设备、视觉输入设备、音频输入设备或脑-计算机接口设备。例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以包括声音输入、语音输入、触觉输入或脑电波输入的任何形式来接收来自用户的输入。示例性输出设备616包括用于向用户显示信息的显示设备,例如液晶显示器(liquid crystaldisplay,LCD)监视器。
根据本公开的一方面,可以响应于处理器602执行存储器604中包含的一个或多个指令的一个或多个序列,使用计算机系统600来至少部分地实施可穿戴设备100。这些指令可以从另一机器可读介质(例如,数据存储设备606)读入到存储器604中。对包含在主存储器604中的指令序列的执行,使得处理器602执行本文所描述的过程步骤。还可以采用多重处理配置中的一个或多个处理器来执行包含在存储器604中的指令序列。在替代方面,可以使用硬连线电路来代替软件指令、或可以将硬连接线路与软件指令组合使用,以实现本公开的各种方面。因此,本公开各方面不限于硬件电路和软件的任何特定组合。
本说明书中所描述的主题的各方面可以在计算系统中实现,该计算系统包括后端部件(例如,数据服务器)、或包括中间软件部件(例如,应用服务器)、或者包括前端部件(例如,具有图形用户界面或网络浏览器的客户端计算机,用户可以通过该图形用户界面或网络浏览器与本说明书中所描述的主题的实施方式进行交互);或者本说明书中所描述的主题的各方面可以在一个或多个这种后端部件、一个或多个这种中间软件部件或一个或多个这种前端部件的任意组合中实现。该系统的各部件可以通过数字数据通信的任何形式或媒介(例如,通信网络)互连。通信网络(例如,网络150)例如可以包括以下中的任何一者或多者:LAN、WAN、和互联网等。此外,通信网络可以包括但不限于例如以下网络拓扑中的任何一者或多者,这些网络拓扑包括总线网络、星型网络、环形网络、网状网络、星型总线网络、或者树形或分层网络等。通信模块例如可以是调制解调器或以太网卡。
计算机系统600可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系是由于运行在各自的计算机上且相互之间具有客户端-服务器关系的计算机程序而生成的。例如,计算机系统600可以是但不限于台式计算机、膝上型计算机或平板电脑。计算机系统600还可以嵌入在另一设备中,该另一设备例如是但不限于是移动手机、个人数字助理(PDA)、移动音频播放器、全球定位系统(Global Positioning System,GPS)接收器、视频游戏控制台和/或电视机顶盒。
如本文所使用的术语“机器可读存储介质”或“计算机可读介质”是指参与向处理器602提供指令以用于执行的任何一个或多个介质。此类介质可以采取许多形式,这些形式包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质例如包括光盘或磁盘,例如数据存储设备606。易失性介质包括动态存储器,例如存储器604。传输介质包括同轴电缆、铜线和光纤,上述同轴电缆、铜线和光纤包括形成总线608的导线。机器可读介质的常见形式包括例如软盘(floppy disk)、软磁盘(flexibledisk)、硬盘、磁带、任何其它磁介质、CD-ROM、DVD、任何其它光学介质、穿孔卡、纸带、具有孔图案的任何其它物理介质、RAM、PROM、EPROM、FLASH EPROM、任何其它存储器芯片或盒式存储器、或计算机可以读取的任何其它介质。机器可读存储介质可以是机器可读存储设备、机器可读存储基体、存储器设备、影响机器可读传播信号的物质的组合、或者它们中的一者或多者的组合。
为了说明硬件与软件的可互换性,诸如各种说明性块、模块、部件、方法、操作、指令和算法等项目已大体上在它们的功能性方面进行了描述。是否将此功能性实施为硬件、软件、或者硬件与软件的组合,取决于特定应用程序和强加于整个系统的设计约束。本领域技术人员可以针对每一特定应用程序以不同方式来实现所描述的功能性。
如本文所使用的,在一系列项目之后的短语“中的至少一个”,与用于分隔这些项目中任何一者的术语“和”或“或”一起在整体上修饰列表,而不是修饰该列表的每个元素(例如,每个项目)。短语“中的至少一个”并不要求选择至少一个项目;而是,该短语的意思是包括这些项目中的任何一项中的至少一个,和/或这些项目的任何组合中的至少一个,和/或这些项目中的每项中的至少一个。作为示例,短语“A、B和C中的至少一个”或“A、B或C中的至少一个”均指的是:仅A、仅B或仅C;A、B和C的任意组合;和/或,A、B和C的每项中的至少一个。
本文使用词语“示例性”来意指“用作示例、实例或说明”。在本文中被描述为“示例性”的任何实施例不一定被解释为比其它实施例优选或有利。诸如一方面、该方面、另一方面、一些方面、一个或多个方面、一实施方式、该实施方式、另一实施方式、一些实施方式、一个或多个实施方式、一实施例、该实施例、另一实施例、一些实施例、一个或多个实施例、一配置、该配置、另一配置、一些配置、一个或多个配置、主题技术、该公开、本公开、以及它们的其它变型等的短语是为了方便,并不暗示与一个或多个这种短语相关的公开对主题技术是必不可少的,或该公开适用于主题技术的所有配置。与一个或多个这类短语相关的公开可以适用于所有配置、或一种或多种配置。与一个或多个这类短语相关的公开可以提供一个或多个示例。诸如一方面或一些方面等短语可以指一个或多个方面,并且反之亦然,并且这同样适用于前述其它短语。
除非特别说明,否则提及单数形式的元素并非旨在意指“一个且仅一个”,而是“一个或多个”。术语“一些”指的是一个或多个。带下划线和/或斜体的标题和副标题仅为了方便而使用,并不限制本主题技术,也不表示与本主题技术的描述的解释有关。诸如第一和第二等相关术语可用于将一个实体或动作与另一个实体或动作进行区分,而不必要求或暗示这些实体或动作之间的任何实际这种关系或顺序。本领域普通技术人员已知或以后将知晓的、贯穿本公开所描述的各种配置的元素的所有结构和功能等同物均通过引用明确地并入本文,并旨在被本主题技术所包含。此外,本文所公开的任何内容均不旨在奉献给公众,无论这种公开是否明确记载在以上描述中。权利要求的任何要素不得根据《美国法典》第35卷第112节第6段(35U.S.C.§112)的规定进行解释,除非该要素是使用短语“用于……的装置”来明确记载的,或者在方法权利要求的情况下,该要素是使用短语“用于……的步骤”来记载的。
虽然本说明书包含许多细节,但是这些细节不应被解释为对可能被描述的内容的范围的限制,而应被解释为对主题的特定实施方式的描述。在本说明书中在不同实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独实现或以任何合适的子组合实现。此外,尽管特征可能在以上被描述为在某些组合中起作用并且甚至最初被描述为如此,但是在一些情况下,来自所描述的组合的一个或多个特征可以从该组合中被去除,并且所描述的组合可以针对子组合或子组合的变型。
已经在特定方面描述了本说明书的主题,但其它方面可以被实现并且位于所附权利要求的范围内。例如,尽管在附图中以特定顺序描绘了各操作,但是这不应当被理解为要求以所示出的特定顺序或以连续顺序执行这些操作,或者要求执行所有示出的操作以实现期望的结果。权利要求中所描述的动作可以以不同的顺序执行,并且仍然实现了期望的结果。作为一个示例,附图中所描绘的过程不一定要求所示出的特定顺序或连续顺序来实现期望的结果。在某些情况下,多任务并行处理可能是有利的。此外,不应将上述多个方面中的各个系统部件的分开理解为要求在所有方面中都进行这样的分开,而应理解的是,所描述的程序组件和系统通常可以在一个软件产品中集成在一起或封装在多个软件产品中。
名称、背景技术、附图说明、摘要和附图在此被并入本公开中,并且作为本公开的说明性示例而非限制性描述来提供。应当理解的是,该摘要将不用于限制权利要求的范围或含义。此外,在具体实施方式中可以看出,该描述提供了说明性示例,并且不同的特征在不同的实施方式中被组合在一起以为了简化本公开。本公开的方法不应被解释为反映了以下意图:所描述的主题需要比每项权利要求中明确记载的特征更多的特征。相反,如权利要求所反映的,发明主题在于比单个公开的配置或操作的所有特征少。权利要求书在此被并入具体实施方式中,每项权利要求独立地作为单独描述的主题。
权利要求不旨在被限制为本文所描述的方面,而是应被赋予与语言权利要求一致的全部范围并且涵盖所有合法的等同物。尽管如此,权利要求中没有一个权利要求旨在包含不能满足适用专利法的要求的主题,也不应该以这种方式解释它们。

Claims (15)

1.一种设备,包括:
框架,所述框架包括目镜,所述目镜用于向用户提供前视图像;
第一前视摄像头,所述第一前视摄像头安装在所述框架上,所述第一前视摄像头具有在所述前视图像内的视场;
传感器,所述传感器被配置为接收来自所述用户的命令,所述命令指示所述前视图像内的感兴趣区域;以及
接口设备,所述接口设备用于向所述用户指示所述第一前视摄像头的视场与所述感兴趣区域对准。
2.根据权利要求1所述的设备,其中,所述传感器包括传声器,所述传声器被配置为接收来自所述用户的语音命令。
3.根据权利要求1或2所述的设备,其中,所述传感器包括电容式传感器,所述电容式传感器被配置为接收来自所述用户的触摸手势。
4.根据前述权利要求中任一项所述的设备,其中,所述传感器是眼动追踪传感器,所述设备还包括处理器,所述处理器被配置为基于来自所述眼动追踪传感器的信号来确定所述用户的注视方向,并将所述感兴趣区域识别为所述前视图像中的以所述注视方向为中心的部分。
5.根据前述权利要求中任一项所述的设备,其中,所述传感器是所述第一前视摄像头,并且来自所述用户的所述命令是手势。
6.根据前述权利要求中任一项所述的设备,还包括处理器,所述处理器被配置为接收来自所述用户的手势,并基于所述手势来识别指示所述视场内的所述感兴趣区域的所述命令。
7.根据前述权利要求中任一项所述的设备,还包括处理器,所述处理器被配置为基于来自所述用户的所述命令在来自所述第一前视摄像头的图像中识别感兴趣对象。
8.根据前述权利要求中任一项所述的设备,还包括第二前视摄像头,其中,在所述第一前视摄像头的视场与所述感兴趣区域未对准时,来自所述用户的命令包括激活所述第二前视摄像头。
9.根据前述权利要求中任一项所述的设备,其中,所述第一前视摄像头包括运动致动器,所述运动致动器被配置为基于来自所述用户的命令来调整所述第一前视摄像头的视场;和/或优选地,其中,所述目镜包括显示器,所述显示器被配置为向所述用户显示所述第一前视摄像头的视场。
10.一种计算机实现的方法,包括:
在安装在智能眼镜系统上的第一摄像头设备中接收来自用户的命令,所述命令指示所述用户观看的前视图像中的感兴趣区域;
基于所述命令确定所述感兴趣区域的边界;以及
基于所述感兴趣区域与所述第一摄像设备的视场之间的重叠向所述用户提供反馈。
11.根据权利要求10所述的计算机实现的方法,其中,所述命令是语音命令,并且接收所述命令包括:将所述语音命令转换为文本命令,并对所述文本命令进行解析以获得指示用户意图的关键字。
12.根据权利要求10或11所述的计算机实现的方法,其中,所述命令是语音命令,所述计算机实现的方法还包括:基于语音签名来识别用户,以及在所述用户被识别出时认证所述语音命令;和/或优选地,其中,所述命令是指示向所述用户显示的所述前视图像中的感兴趣对象的语音命令,所述计算机实现的方法还包括:使所述第一摄像头设备的视场的中心对准所述感兴趣对象。
13.根据权利要求10至12中任一项所述的计算机实现的方法,还包括:接收来自所述用户的响应于所述反馈的第二命令,所述第二命令涉及激活第二摄像头设备;和/或优选地,其中,接收来自所述用户的命令包括:基于对所记录的来自所述用户的手势的学习历史,用手势识别模型来识别来自所述用户的手势。
14.根据权利要求10至13中任一项所述的计算机实现的方法,其中,接收来自所述用户的命令包括接收以下中的一者:标记所述感兴趣区域的相对拐角的双手手势、描绘所述感兴趣区域的边界的手指手势、形成指示所述感兴趣区域的中心的十字线的两指手势或包括所述感兴趣区域的中心的圆形手势;和/或优选地,其中,向所述用户提供反馈包括激活致动器以指示所述用户移动头部位置,以改善所述感兴趣区域与所述第一摄像头设备的视场之间的对准。
15.根据权利要求10至14中任一项所述的计算机实现的方法,其中,所述命令是手势,所述计算机实现的方法还包括在手势识别模型未识别出所述手势时向所述用户提供反馈;和/或优选地,其中,所述命令是来自所述用户的手势,所述计算机实现的方法还包括向所述用户提供所述手势在所述第一摄像头设备的视场内不完整的反馈。
CN202280052580.1A 2021-07-29 2022-07-29 用于选择智能眼镜中的摄像头的视场的用户接口 Pending CN117716325A (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US202163227231P 2021-07-29 2021-07-29
US202163227238P 2021-07-29 2021-07-29
US202163227240P 2021-07-29 2021-07-29
US63/227,231 2021-07-29
US63/227,240 2021-07-29
US63/227,238 2021-07-29
US17/831,305 2022-06-02
US17/831,305 US20230031871A1 (en) 2021-07-29 2022-06-02 User interface to select field of view of a camera in a smart glass
PCT/US2022/038849 WO2023009806A1 (en) 2021-07-29 2022-07-29 User interface to select field of view of a camera in smart glasses

Publications (1)

Publication Number Publication Date
CN117716325A true CN117716325A (zh) 2024-03-15

Family

ID=85038251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280052580.1A Pending CN117716325A (zh) 2021-07-29 2022-07-29 用于选择智能眼镜中的摄像头的视场的用户接口

Country Status (4)

Country Link
US (2) US20230031871A1 (zh)
EP (2) EP4377769A1 (zh)
CN (1) CN117716325A (zh)
TW (2) TW202319888A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11902656B2 (en) * 2022-06-29 2024-02-13 Western Digital Technologies, Inc. Audio sensors for controlling surveillance video data capture

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3870109B2 (ja) * 2002-03-08 2007-01-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 画像表示装置、画像表示方法、及び画像表示プログラム
US8446509B2 (en) * 2006-08-09 2013-05-21 Tenebraex Corporation Methods of creating a virtual window
US20120242698A1 (en) * 2010-02-28 2012-09-27 Osterhout Group, Inc. See-through near-eye display glasses with a multi-segment processor-controlled optical layer
WO2012046156A1 (en) * 2010-10-08 2012-04-12 Koninklijke Philips Electronics N.V. Goggles, system and method for providing feedback
US9069166B2 (en) * 2012-02-29 2015-06-30 Recon Instruments Inc. Gaze detecting heads-up display systems
US8988465B2 (en) * 2012-03-30 2015-03-24 Ford Global Technologies, Llc Physical-virtual hybrid representation
KR102068604B1 (ko) * 2012-08-28 2020-01-22 삼성전자 주식회사 휴대단말기의 문자 인식장치 및 방법
US9575653B2 (en) * 2013-01-15 2017-02-21 Blackberry Limited Enhanced display of interactive elements in a browser
US20140223647A1 (en) * 2013-02-12 2014-08-14 Rodney Wayne Long Goggles for Use in Water
US9965062B2 (en) * 2013-06-06 2018-05-08 Microsoft Technology Licensing, Llc Visual enhancements based on eye tracking
US9086286B2 (en) * 2013-07-21 2015-07-21 Rodney Wayne Long Goggles for use in water
US9179061B1 (en) * 2013-12-11 2015-11-03 A9.Com, Inc. Assisted text input for computing devices
US9594247B2 (en) * 2013-12-19 2017-03-14 Nvidia Corporation System, method, and computer program product for a pinlight see-through near-eye display
US10424103B2 (en) * 2014-04-29 2019-09-24 Microsoft Technology Licensing, Llc Display device viewer gaze attraction
US10012506B1 (en) * 2014-06-01 2018-07-03 DNP Technology Navigation guidance system and method of use
US20160080874A1 (en) * 2014-09-16 2016-03-17 Scott Fullam Gaze-based audio direction
KR101577359B1 (ko) * 2015-03-16 2015-12-14 박준호 웨어러블 디바이스
US10113877B1 (en) * 2015-09-11 2018-10-30 Philip Raymond Schaefer System and method for providing directional information
US10458812B2 (en) * 2015-10-30 2019-10-29 Invensense, Inc. Sensor output configuration
US10667981B2 (en) * 2016-02-29 2020-06-02 Mentor Acquisition One, Llc Reading assistance system for visually impaired
US10591731B2 (en) * 2016-12-06 2020-03-17 Google Llc Ocular video stabilization
US10948993B2 (en) * 2018-06-07 2021-03-16 Facebook, Inc. Picture-taking within virtual reality
US10943115B2 (en) * 2018-07-24 2021-03-09 Apical Ltd. Processing image data to perform object detection
US20210081047A1 (en) * 2019-09-13 2021-03-18 Apple Inc. Head-Mounted Display With Haptic Output
US11086476B2 (en) * 2019-10-23 2021-08-10 Facebook Technologies, Llc 3D interactions with web content
US11175730B2 (en) * 2019-12-06 2021-11-16 Facebook Technologies, Llc Posture-based virtual space configurations
WO2021195266A1 (en) * 2020-03-24 2021-09-30 Magic Leap, Inc. Systems and methods for virtual and augmented reality
US11128636B1 (en) * 2020-05-13 2021-09-21 Science House LLC Systems, methods, and apparatus for enhanced headsets
US11520399B2 (en) * 2020-05-26 2022-12-06 Snap Inc. Interactive augmented reality experiences using positional tracking
US20210390882A1 (en) * 2020-06-16 2021-12-16 Venu Iyengar Blind assist eyewear with geometric hazard detection
US11256336B2 (en) * 2020-06-29 2022-02-22 Facebook Technologies, Llc Integration of artificial reality interaction modes
US11176755B1 (en) * 2020-08-31 2021-11-16 Facebook Technologies, Llc Artificial reality augments and surfaces
US11178376B1 (en) * 2020-09-04 2021-11-16 Facebook Technologies, Llc Metering for display modes in artificial reality
US11546505B2 (en) * 2020-09-28 2023-01-03 Snap Inc. Touchless photo capture in response to detected hand gestures
US11113893B1 (en) * 2020-11-17 2021-09-07 Facebook Technologies, Llc Artificial reality environment with glints displayed by an extra reality device
US11531402B1 (en) * 2021-02-25 2022-12-20 Snap Inc. Bimanual gestures for controlling virtual and graphical elements
US20230316698A1 (en) * 2022-03-30 2023-10-05 Motorola Mobility Llc Eye gaze detection based learning of subjective interest

Also Published As

Publication number Publication date
US20230031871A1 (en) 2023-02-02
US20230032467A1 (en) 2023-02-02
TW202324065A (zh) 2023-06-16
EP4377769A1 (en) 2024-06-05
TW202319888A (zh) 2023-05-16
EP4377771A1 (en) 2024-06-05

Similar Documents

Publication Publication Date Title
KR102257181B1 (ko) 감각 안경류
RU2710984C2 (ru) Совершение задачи без монитора в цифровом персональном помощнике
US8700392B1 (en) Speech-inclusive device interfaces
US9661214B2 (en) Depth determination using camera focus
US20190362557A1 (en) Transmodal input fusion for a wearable system
EP4078528A1 (en) Using text for avatar animation
US10146316B2 (en) Method and apparatus for disambiguating a plurality of targets
US8943582B1 (en) Transferring information among devices using cameras
CN110546601B (zh) 信息处理装置、信息处理方法和程序
WO2019214442A1 (zh) 一种设备控制方法、装置、控制设备及存储介质
US10514755B2 (en) Glasses-type terminal and control method therefor
CN109784128A (zh) 具有文本及语音处理功能的混合现实智能眼镜
CN117716325A (zh) 用于选择智能眼镜中的摄像头的视场的用户接口
KR20190113252A (ko) 시선 추적 방법 및 이를 수행하기 위한 단말
US10558951B2 (en) Method and arrangement for generating event data
WO2023009806A1 (en) User interface to select field of view of a camera in smart glasses
WO2023027824A1 (en) Method and system of automated question generation for speech assistance
US20230012426A1 (en) Camera control using system sensor data
US20230252822A1 (en) Sign language detection for smart glasses
EP4367569A1 (en) Camera control using system sensor data
CN117616361A (zh) 使用系统传感器数据的摄像头控制
CN117769694A (zh) 用于选择智能眼镜中的摄像头的视场的用户接口
US20230401795A1 (en) Extended reality based digital assistant interactions
WO2023150328A1 (en) Sign language detection for smart glasses
US20240112383A1 (en) Generating user interfaces in augmented reality environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination