CN110914790A - 采用用户界面设备的表示来训练神经网络 - Google Patents

采用用户界面设备的表示来训练神经网络 Download PDF

Info

Publication number
CN110914790A
CN110914790A CN201880047400.4A CN201880047400A CN110914790A CN 110914790 A CN110914790 A CN 110914790A CN 201880047400 A CN201880047400 A CN 201880047400A CN 110914790 A CN110914790 A CN 110914790A
Authority
CN
China
Prior art keywords
image
virtual
shape
user
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880047400.4A
Other languages
English (en)
Inventor
A·克勒
G·布拉德斯基
V·巴德里娜拉亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of CN110914790A publication Critical patent/CN110914790A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • G06N3/105Shells for specifying net layout
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0138Head-up displays characterised by optical features comprising image capture systems, e.g. camera
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/0141Head-up displays characterised by optical features characterised by the informative content of the display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04804Transparency, e.g. transparent or translucent windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04807Pen manipulated menu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Optics & Photonics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Abstract

在此公开的是能够使用神经网络确定关于虚拟UI设备(例如,按钮)和指针(例如,手指或手写笔)的用户界面(UI)事件的可穿戴显示系统的示例。当向用户示出虚拟UI设备并且用户使用指针与虚拟UI设备交互时,可穿戴显示系统可以将UI设备的表示渲染在捕获的指针的图像上。UI设备的表示可以包括高对比度的同心形状(或具有相似或相同重心的形状)。可以使用带有虚拟UI设备和指针的表示的训练图像来训练神经网络。

Description

采用用户界面设备的表示来训练神经网络
相关申请的交叉引用
本申请要求于2017年7月26日提交的题为“TRAINING A NEURAL NETWORK WITHREPRESENTATION OF USER INTERFACE DEVICES”的美国临时申请号62/537,311的优先权的权益,其内容通过引用全部合并于此。
技术领域
本公开涉及虚拟现实和增强现实成像和可视化系统,并且特别涉及用于训练和使用机器学习模型(例如,神经网络)来确定用户界面事件的用户界面设备的表示。
背景技术
深度神经网络(DNN)是一种计算机器学习模型。DNN属于一类人工神经网络(NN)。利用NN,构建了模拟生物神经网络特征的计算图。生物神经网络包括突出用于计算并且负责生物系统的许多能力的特征,否则这些特征可能难以通过其它方法捕获。在一些实现方式中,这种网络被布置成单向连接的顺序分层结构。例如,特定层的人工神经元的输出可以连接到后续层的人工神经元的输入。DNN可以是具有大量层(例如,10、100或更多层)的NN。
不同的NN在不同的视角中彼此不同。例如,不同NN的拓扑或架构(例如,层的数量和层如何互连)和权重可以是不同的。NN的权重可以近似类似于生物系统中神经连接的突触强度。权重影响从一层传播到另一层的效果强度。人工神经元(或NN的节点)的输出可以是其输入的加权和的非线性函数。NN的权重可以是在这些求和中出现的权重。
发明内容
在一方面,公开了一种可穿戴显示系统。该可穿戴显示系统包括:图像捕获设备,其被配置为捕获包括指针的图像;非暂态计算机可读存储介质,其被配置为存储:图像,与在图像上的图像位置处的图像相关联的虚拟用户界面(UI)设备,以及用于确定使用以下方式训练的UI事件的神经网络:与训练虚拟UI设备相关联的训练图像,该训练图像包括训练虚拟UI设备的表示和训练指针,以及关于训练虚拟UI设备和训练图像中的训练指针的训练UI事件;显示器,其被配置为当图像捕获设备捕获图像时,在显示位置处显示虚拟UI设备,其中,图像位置与显示位置相关;以及硬件处理器,其与图像捕获设备、显示器和非暂态计算机可读存储介质通信,该处理器由可执行指令编程为:从图像捕获设备接收图像;将虚拟UI设备的表示渲染到图像位置处的图像上;以及使用神经网络确定关于图像中的指针以及与图像相关联的虚拟UI设备的UI事件。
在另一方面,公开了一种用于训练神经网络以确定用户界面事件的系统。该系统包括:计算机可读存储器,其存储可执行指令;以及一个或多个处理器,其由可执行指令编程为至少:接收多个图像,其中多个图像中的一个图像包括多个指针中的一个指针,其中图像与在图像上的图像位置处的多个虚拟UI设备中的虚拟用户界面(UI)设备相关联,以及其中图像与关于虚拟UI设备和图像中的指针的多个UI事件中的UI事件相关联;将虚拟UI设备的表示渲染到图像位置处的图像上以生成训练图像;生成包括输入数据和对应目标输出数据的训练集,其中输入数据包括训练图像,以及其中对应的目标输出数据包括UI事件;以及使用训练集训练神经网络,以确定与虚拟UI设备和指针相关联的UI事件。
在另一方面,公开了一种用于训练神经网络以确定用户界面事件的方法。该方法在硬件处理器的控制下,并且包括:接收多个图像,其中多个图像中的第一图像包括多个指针中的一个指针的第一表示,其中第一图像与在第一图像中的第一图像位置处的多个虚拟UI设备的虚拟用户界面(UI)设备的第一表示相关联,以及其中第一图像与关于虚拟UI设备和第一图像中的指针的多个UI事件中的UI事件相关联;将虚拟UI设备的第一表示渲染到第一图像位置处的第一图像上以生成第一训练图像;生成包括输入数据和对应目标输出数据的训练集,其中输入数据包括第一训练图像,以及其中对应的目标输出数据包括UI事件;以及使用训练集来训练神经网络,以确定与虚拟UI设备和指针相关联的UI事件。
在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实现方式的细节。根据说明书、附图和权利要求,其它特征、方面和优点将变得显而易见。该概述和以下详细描述都不旨在限定或限制本公开主题的范围。
附图说明
图1示出了增强现实设备的用户感知的物理环境的示例。
图2示出了增强环境的示例,该增强环境包括由增强现实设备的用户感知的物理环境和虚拟遥控器。
图3示出了由增强现实设备的成像设备捕获的渲染到图像上的虚拟遥控器的按钮的表示的示例,该图像对应于用户感知的物理环境。
图4A和图4B示出了由具有在图像上渲染的按钮的表示的增强现实设备的两个成像设备捕获的示例立体图像对。
图5A-5D示出了用户界面设备的示例表示。
图6示出了训练神经网络以使用用户界面设备的表示来确定用户界面事件的说明性方法的流程图。
图7示出了使用神经网络以使用用户界面设备的表示来确定用户界面事件的说明性方法的流程图。
图8描绘了根据一个实施例的具有某些虚拟现实对象以及人观看的某些实际现实对象的增强现实场景的图示。
图9示出了根据一个实施例的可穿戴显示系统的示例。
图10示出了根据一个实施例的用于使用多个深度平面来模拟三维图像的方法的各方面。
图11示出了根据一个实施例的用于向用户输出图像信息的波导堆叠的示例。
图12示出了根据一个实施例的可以由波导输出的示例出射束。
图13是示出根据一个实施例的显示系统的示意图。
在整个附图中,可以重复使用附图标记来指示所引用的元件之间的对应关系。提供附图是为了说明在此描述的示例实施例,并且不旨在限制本公开的范围。
具体实现方式
概述
虚拟用户界面(UI)设备可以基于窗口、图标、菜单、指针(WIMP)UI设备的样式或实现方式。此类虚拟UI设备样式或实现方式在此被称为虚拟UI设备的朴素
Figure BDA0002369322540000041
实现方式。在一些实施例中,检测WIMP UI事件的过程被分成两个过程,第一过程是指针(例如,手指、指尖或手写笔)的位置的计算,并且第二过程是指针与虚拟UI设备的交互的确定。
挑战之一是需要对两个不同的对象(指针和虚拟UI设备)进行定位。在传统的2D图形用户界面(GUI)上,UI设备的位置是已知的,因为它在GUI指针设备(例如鼠标指针)使用的相同坐标中生成。利用增强现实设备(ARD,诸如例如参考图9描述的可穿戴显示系统900),UI设备本身可以被生成为出现在世界坐标系中的特定位置。可以引入由于ARD的姿势和ARD的校准引起的错误。在一些实现方式中,可以在ARD坐标系中(例如,关于ARD的坐标帧)渲染虚拟UI设备。利用ARD坐标系,ARD显示的校准可以不同于用于捕获指针图像以确定指针的位置的一个或多个面向外相机的校准。利用任一坐标系,可能需要减去两个数字(例如,虚拟UI设备的位置和指针的位置),并且必须检测到零或零交叉。在该过程中的噪声可能会使此类分析非常困难。即使没有更多的深度神经网络(DNN)用于定位指针,挑战仍然存在。在此公开了用于直接使用DNN确定此类交互或相交(在此称为UI事件)的系统和方法。在一些实施例中,还可以考虑指针和虚拟UI设备的位置。在一些实施例中,焦点可以用于确定指针与虚拟UI设备之间的交互或相交。指针尖端和UI设备可能针对交互和要发生的UI事件需要处于相同的焦点状态。
训练NN的过程涉及向网络呈现输入数据和对应的目标输出数据二者。包括示例输入和目标输出二者的该数据可以被称为训练集。通过训练过程,可以逐步或迭代地调整网络的权重,使得在给定训练集中的特定输入数据的情况下,网络的输出开始匹配(例如,尽可能接近)与该特定输入数据相对应的目标输出。
构建用于训练NN的训练集可能会带来挑战。训练集的构建对于训练NN并因此对NN的成功操作而言很重要。在一些实施例中,所需的数据量可能非常大,诸如网络的正确行为的数十、数百、数千、数百万或更多个示例。网络可以使用训练集进行学习,以正确地概括其学习结果来预测输入的正确输出(例如,原始训练集中可能不存在的新颖输入)。在此公开了用于生成训练数据的系统和方法,该训练数据用于训练NN以确定与虚拟UI设备和指针相关联的用户界面(UI)事件(例如,由手写笔激活虚拟按钮)。此类系统的示例可以是手势识别系统。
诸如头戴式增强现实显示器(ARD)、混合现实显示器(MRD)或虚拟现实显示器(VRD)的显示器可以实现此类训练的NN来确定关于虚拟UI设备和指针的UI事件。在此描述的某些示例指的是ARD,但这只是为了说明而不是限制。在其它示例中,可以使用MRD或VRD代替ARD。用户可以使用指针(诸如手指、指尖或手写笔)与用户环境的ARD或设备进行交互,从而导致UI事件,诸如虚拟UI设备(例如,按钮)的致动或激活。ARD可以使用NN来确定关于虚拟UI设备和指针的虚拟UI设备或UI事件的此类激活。可以使用具有在图像上渲染的UI设备的表示的图像来训练NN。
用于训练NN的UI设备的表示和由ARD显示给用户的UI设备的表示可以在样式上不同。例如,由ARD向用户显示的UI设备的表示可以是风格化的UI设备,诸如风格化的按钮。在图像上渲染的用于训练NN的UI设备的表示可以包括高对比度的同心形状(或具有相似或相同重心的形状)。在一些实现方式中,可以有利地标准化UI设备的此类表示,使得相似的UI设备在被渲染到用于训练NN的图像上时具有相似的表示。用于训练NN的UI设备的标准化表示可以被称为UI设备的标准表示。例如,当将不同类型的按钮渲染到用于训练NN的图像上时,它们可以具有相似的表示。UI设备的表示可以被渲染到捕获的图像上(例如,单视场图像、立体图像对或多视场图像集)。当用户使用NN与虚拟UI设备进行交互时,ARD可通过处理使用ARD的面向外相机捕获的指针图像来确定UI事件已发生。在NN处理图像以确定UI事件之前,可以将UI设备的标准表示渲染到用户所感知的捕获的图像上。在一些实现方式中,可以针对相同、相似或不同任务(例如,识别不同类型的UI事件,诸如用手指触摸或指向)标准化标准化表示以训练多个NN。
示例用户环境
图1示出了由ARD的用户感知的物理环境的示例。示例环境100a包括用户家的客厅。环境100a具有物理对象,诸如电视(TV)104、物理遥控器108(有时简称为遥控器)、电视柜112和窗户116。在用户佩戴ARD的同时,用户可以感知物理对象并与物理对象进行交互。例如,用户可以在佩戴ARD的同时观看电视104。用户可以使用物理遥控器108控制电视104。例如,用户可以控制物理遥控器108打开/关闭电视104或改变电视104的频道或音量。用户还可以使用虚拟遥控器与电视104互动。可以基于物理遥控器108的功能来生成虚拟遥控器。例如,虚拟遥控器可以模拟物理遥控器108的一些或全部功能(并且还可以提供附加或替代的功能)。
在一个实现方式中,虚拟遥控器的规范可以存储在数据存储设备中,诸如图9中所示的远程数据存储库932。规范可以包括有关如何渲染虚拟遥控器(例如,指定布局、按钮和其它控件等)、(例如,根据IRDA规范)模拟遥控器所需的通信信道、在该信道上进行模拟(例如,与“信道2”的选择相关联的确切IR脉冲序列等)的实际代码等的说明。
用户可以激活虚拟遥控器。激活后,ARD可以在用户的视野(FOV)中渲染虚拟遥控器。虚拟遥控器可以模拟目标对象(诸如物理遥控器)的功能。用户可以通过致动用户输入设备来激活虚拟遥控器,诸如例如在鼠标上点击,在触摸板上敲击,在触摸屏上滑动,悬停或触摸电容按钮,按下键盘或游戏控制器(例如5向d-pad)上的键,将操纵杆、魔杖或图腾指向目标,按下遥控器上的按钮,与用户输入设备进行其它交互等。用户也可以激活使用头部、眼睛或身体姿势(诸如凝视或指向目标对象一段时间)的虚拟遥控器。
在一些实现方式中,为了激活虚拟遥控器,用户可以指示对与虚拟遥控器相关联的目标设备的选择。例如,用户可以指示对物理遥控器的选择以激活对应的虚拟遥控器。如图1中所示,如果用户想要与基于物理遥控器108的功能的虚拟遥控器交互,则用户可以通过手势(诸如触摸,用手指指向,通过例如捏合或使用其它手势在视觉上封闭对象)来指示物理遥控器108。作为示例,用户可以在物理遥控器108的方向上指向延长的时间段。作为另一个示例,用户可以通过做出用于抓住物理遥控器108的手势来选择与物理遥控器108相关联的虚拟遥控器。用户还可以使用用户输入设备(例如,图11中所示的用户输入设备1104)来指示物理遥控器108。例如,用户可以使用手写笔指向物理遥控器。用户还可以通过选择虚拟遥控器控制的父设备来选择虚拟遥控器。用户可以针对此类选择使用手势并致动用户输入设备。用户可以经由ARD感知环境100a。用户可以感知到其左臂120a,该左臂120a关于电视104具有捏合手势。ARD可以将该捏合手势识别为向用户渲染和呈现与电视104相关联的虚拟遥控器的命令。作为另一个示例,如果用户想要选择用于控制电视104的虚拟遥控器,则用户可以使用身体姿势(诸如抓住电视104或指向电视104)来指示对电视104的选择。
示例增强环境
除了是显示器之外,ARD(或MRD或VRD)可以是输入设备。用于此类设备的输入的非限制性示例性模式包括手势(例如手势)或利用指针、手写笔或其它物理对象的动作。手势可能涉及用户的手的动作,诸如指向方向的手。动作可以涉及触摸、按下、释放、上下滑动或左右滑动,沿着轨迹移动或3D空间中的其它类型的运动。在一些实现方式中,诸如虚拟按钮或滑块的虚拟用户界面(UI)设备可以出现在用户感知的虚拟环境中。这些UI设备可以类似于二维(2D)或三维(3D)窗口、图标、菜单、指针(WIMP)UI设备(例如,出现在
Figure BDA0002369322540000081
iOSTM或AndroidTM操作系统中的UI设备)。这些UI设备的示例包括虚拟按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。
图2示出了增强环境200的示例,包括由增强现实设备的用户所感知的物理环境和虚拟遥控器。虚拟遥控器可以镜像物理遥控器的部分或全部功能或布局的至少一部分。这可以使熟悉物理遥控器的功能或布局的用户更容易操作虚拟遥控器。在用户选择虚拟遥控器后,ARD可以渲染该虚拟遥控器,使得其在用户附近视觉可见。例如,如图2中所示,ARD可以渲染包括控制面板128的虚拟遥控器124,该虚拟遥控器124在三维(3D)的特定位置处出现在用户触及的范围内(例如,在手臂长度内),使得用户可以方便地与虚拟遥控器124进行交互。在一些实施例中,随着用户在他的环境中四处移动,虚拟遥控器可以相应地与用户一起移动。例如,ARD可以在距用户一定距离处呈现虚拟遥控器124,而不管用户在用户环境中的当前位置如何。
ARD可以将虚拟遥控器124渲染为叠加在用户的物理环境上。例如,ARD可以渲染虚拟遥控器124,就好像它在墙前一样。虚拟遥控器124可以具有非透明的渲染,使得用户可以感知虚拟遥控器遮挡了用户物理环境的一部分,使得虚拟遥控器看起来好像在环境的一部分之前一样。在一些实现方式中,虚拟遥控器124可以被渲染为至少部分透明的,使得用户可以看穿虚拟遥控器。例如,如图2中所示,即使用户可以将虚拟遥控器124感知为在窗和墙壁的前面,用户也可以看到窗台和墙壁。与其它部分(例如,主体或框架)相比,虚拟遥控器的部分(例如,可以由用户激活或致动的虚拟UI设备,诸如按钮)可以较少透明地渲染,使得虚拟遥控器124遮挡较少的背景环境。
用户还可以移动虚拟遥控器124的渲染位置、大小或取向。例如,用户可以将虚拟遥控器124向上/向下、向左/向右等向用户靠近(或远离)地移动。用户还可以将虚拟遥控器124的渲染位置固定为与用户环境中的用户相距一定距离或位于用户环境中的特定位置(例如,三维方向中向用户显现)。
用户可以通过使用与ARD或用户环境中的设备(例如,电视104)交互的指针(例如,手指、指尖或手写笔),导致UI事件,诸如虚拟遥控器124的虚拟UI设备(例如按钮)的致动或激活。ARD可以使用NN来确定关于虚拟UI设备和指针的虚拟UI设备或UI事件的此类激活。可以使用具有UI设备的表示的图像来训练NN,这将在下面进一步详细描述,该图像可以与ARD向用户示出的UI设备的表示不同。用于渲染到一个或多个图像上以训练NN的UI设备的表示可以包括高对比度的同心形状(或具有相似或相同重心的形状)。UI设备的此类表示可以被渲染到捕获的图像上(例如,单视场图像、立体图像对或多视场图像集)。在用户使用NN与虚拟UI设备进行交互的同时,ARD可通过处理使用ARD的面向外的相机捕获的指针图像来确定UI事件已发生。在NN处理图像以确定UI事件之前,可以将UI设备的标准表示渲染到用户所感知的捕获的图像上。
在一些实现方式中,用于训练NN的UI设备的表示可以有利地标准化,使得相似的UI设备在渲染到用于训练NN的图像上时具有类似的表示。例如,在一些实现方式中,UI设备的标准表示是可绘制可渲染的表示可视化,该可视化用于特定类型的任何类型的UI设备。NN使用的标准表示可以但不必须与ARD使用户可见的表示相同。可以根据行业标准或设备类型的其它逻辑分组或分类来排列特定类型的设备(例如,电视遥控器,或按制造商分类的电视遥控器,或按制造商和电视类别(例如,LCD显示器、LED显示器、对角线尺寸、价格等)分类的电视遥控器)。在其它情况下,标准表示可以指代诸如可按下按钮的标准表示、滑动条的标准表示、触摸屏的标准表示等的功能。用于训练NN的UI设备的标准化表示可以被称为UI设备的标准表示。例如,当将不同类型的按钮渲染到用于训练NN的图像上时,它们可以具有相似的表示。在一些实现方式中,标准化表示可以被标准化以针对相同任务、相似任务(例如,按下按钮或释放按下的按钮)或不同任务(例如,识别诸如采用手指触摸或指向的不同类型的UI事件)来训练多个NN。
在图2中,用户可以使用ARD来感知环境200。环境200可以包括物理对象,诸如电视104、用于控制电视104的物理遥控器108、电视架112和窗口116。环境200还可以包括虚拟遥控器124。虚拟遥控器124可以模拟物理遥控器108的功能以控制电视104。例如,虚拟遥控器124的诸如按钮132a的虚拟UI设备的布局和功能可以与物理遥控器104的物理按钮基本上相同。
虚拟遥控器124可以包括虚拟UI设备,诸如虚拟键盘、虚拟按钮、虚拟开关、拨动开关或滑块、虚拟触摸表面或其任何组件(例如,键盘键)。这些虚拟UI设备可以是虚拟遥控器124的控制面板128的一部分。为了与虚拟遥控器124进行交互,用户可以关于虚拟UI设备发起UI事件(例如,激活或去激活)。例如,用户可以通过触摸、按下、释放、上/下或左/右滑动,沿着轨迹移动或3D空间中的其它类型的运动来与虚拟UI设备132a交互。
在诸如虚拟遥控器124的虚拟按钮的虚拟UI设备的致动或激活后,ARD可以与电视104通信,就好像它是物理遥控器108一样。作为示例,在图2中,用户可以使用指针(例如,右手120b的手指或手写笔)来激活虚拟UI设备132a。ARD可以使用面向外的成像系统来对指针的位置成像。如下面进一步描述的,基于指针的位置,ARD可以计算关于虚拟UI设备和指针的哪个UI事件(诸如激活)。在图2中所示的示例中,ARD可以确定用户的右手食指正在激活按钮132a。除了使用手势激活虚拟按钮外,用户还可以使用用户输入设备(诸如手写笔、指针、魔杖或图腾)激活虚拟按钮。
一旦ARD检测到用户已经激活了虚拟遥控器124的虚拟UI设备,则ARD可以相应地经由诸如IR发射机的信号发生器将信号发送到对应的设备(例如,电视104)以指示设备由用户执行基于虚拟UI设备的操作。例如,用户可以触摸虚拟遥控器124上的虚拟按钮132a。如果该按钮132a与增大电视104的音量相关联,则ARD可以相应地生成信号(诸如ARD上的IR发射机生成的IR信号)并将该信号传送到电视104(其可能具有IR检测器),从而使电视104增大其音量。由ARD生成的信号可以与由对应的物理遥控器生成的信号相同。
在信号是视线信号(诸如必须指向电视的IR检测器的IR信号)的情况下,ARD上的发射机可能需要指向设备(就像物理遥控器必须指向其关联的设备一样)。有利地,ARD可以被配置为(例如,分别通过使用ARD上的麦克风来确定声音强度的增加或使用面向外的相机来确定电视104的显示已发生变化)确定是否已经发生了所请求的命令(例如,增大电视104的音量或改变频道)。如果命令的效果不是由正被控制的设备产生的,则ARD可以指示用户改变用户的姿势,使得ARD的发射机指向正被控制的设备。例如,ARD可以生成可视图形(或声音指令)以将用户的头部指向正被控制的设备。在一些实现方式中,例如在使用无线RF信号或超声声信号时,ARD与设备之间的通信可能不需要视线畅通,并且前述功能可以是可选的。
当用户使用完虚拟遥控器104时,用户可以使用手势使虚拟遥控器124的显示消失。作为示例,当用户正在观看电视节目时,用户可以确定他不再需要虚拟遥控器。结果,用户可以挥手以指示他已经使用完虚拟遥控器124。用户还可以按下虚拟遥控器124上的虚拟UI设备(例如,电源按钮136a)以关闭虚拟遥控器124。作为响应,ARD可以停止显示虚拟遥控器124或显示虚拟遥控器124,使得它在视觉上几乎不可见(例如,具有增加的透明度),这可以帮助用户以后选择虚拟遥控器124。
在某些实现方式中,ARD可以自动地或响应于用户命令,将虚拟遥控器124从用户的FOV中暂时隐藏,或将虚拟遥控器124移动到用户的FOV之外或移动到用户的FOV的边缘。例如,如果满足阈值条件,则ARD也可以自动隐藏虚拟遥控器124。ARD可以检测到没有虚拟UI设备(诸如虚拟遥控器124的按钮)处于非活动状态持续阈值时间段(诸如10秒、1分钟、2分钟等)。ARD可以诸如通过增加虚拟遥控器124的透明度来逐渐淡出虚拟遥控器124。例如,作为淡出过程的一部分,虚拟遥控器124可以从不透明变为透明。ARD还可以通过减小虚拟遥控器124的可见性来淡出虚拟遥控器124。例如,ARD可以逐渐减小虚拟遥控器124的大小或将虚拟遥控器124的颜色从深色改变为浅色。
尽管在此的一些示例是在使用虚拟遥控(例如,激活一个或多个虚拟UI设备,诸如虚拟遥控器的按钮)来控制物理设备(例如,物理电视)的上下文中描述的,但这仅用于说明,而无意于限制。虚拟遥控器或虚拟UI设备的实施例可以另外地或可替代地用于控制虚拟设备。例如,ARD的用户可以使用虚拟遥控器来控制由ARD渲染并显示给用户的虚拟电视。
UI设备表示的示例渲染
在此公开了用于生成训练集(包括示例输入和目标输出),使用训练集训练神经网络(NN)以及使用训练的NN的系统和方法。NN的拓扑可以是任何功能拓扑,诸如Alex-Net或其派生类。NN的拓扑可以包括递归网络,该递归网络可以用来为类别分类提供时间上下文。
可以使用分类的输入数据集来训练NN。例如,不同的UI事件(例如,虚拟UI设备被激活或未被激活)可以对应于输入数据集中的不同类别值。在一些实施例中,输入数据集可以包括一些定量值。可以训练NN以识别与不同分类值相对应的两个或更多个状态,诸如正被激活的虚拟UI设备的状态以及未激活虚拟UI设备的状态。例如,如果虚拟UI设备是按钮,则可以训练NN识别状态:“按下”和“未按下”。其它状态(例如“触摸”)也是可能的。
示例输入和目标输出可以包括具有在其上渲染的虚拟UI设备的表示的图像。在图像上渲染的UI设备的表示可能不是用户可见的表示,而是可以用于特定类型的UI设备的可绘制可渲染的可视化。例如,在一些实现方式中,所有按钮类型的UI设备都可以表示为纯白色盘。
在一些实施例中,训练的NN可以使用相机图像来确定UI事件是否已经发生。可以放置相机以便看到指针(例如,手指或手写笔),并且可以将捕获的图像作为输入提供给NN。NN的输出可以包括关于UI事件是否已经发生的确定,以及如果是的话,则已经发生的特定UI事件。
在一些实施例中,UI设备在其用于训练NN的表示中,可以在训练以及在操作二者中被渲染到输入到NN的每个图像上。“渲染到……上”可以指的是,如果从用于捕获图像的相机的位置进行观看(并且单独或组合利用适合于相机及其相关镜头的测量的固有参数的视锥;固有参数可以包括例如相机的焦距、主点偏移和轴偏斜),则将UI设备以其表示渲染为精确地显示为如同其在虚拟位置处。
以该方式,图像是增强的图像,包含指针和虚拟UI设备的表示二者。当NN被训练时,所呈现的所有图像可以具有在每个图像上渲染的一个或多个虚拟UI设备的此类表示。每个此类图像可以与其状态(例如,“按下按钮”)相关联。可以在训练过程期间类似地将否定示例提供给DNN,其中可以在图像上渲染UI设备,但是可以不激活虚拟UI设备(例如,“未按下按钮”)。
图2示出了增强环境200的示例,该增强环境200包括由增强现实设备的用户感知的物理环境和虚拟遥控器。可以以任何适当的图形形式向用户可视地呈现包括遥控器124和虚拟UI事件(例如,按钮132a)的用户界面。可以为DNN提供由用户感知并由相机(诸如图11中的面向外的成像系统1154)捕获的用户环境图像的修改版本。例如,修改的图像可以包括带注释的虚拟UI设备,诸如UI设备的标准化表示,而不是实际向用户示出的版本(图3)。图3示出了由增强现实设备的成像设备捕获的,渲染到图像上的虚拟遥控器的按钮的表示的示例,该图像与由用户感知的物理环境对应。
在一些实施例中,可以不遮挡地渲染按钮或UI设备的表示,使得该表示可以出现在指针的“顶上”(例如,从图像的角度来看)(图3)。例如,在图3中示出了按钮132a的表示132b,遮挡了用户的指尖。按钮132a的表示132b显示为在用户的指尖“顶上”。无论NN是否使用具有遮挡或不具有遮挡而渲染的表示的图像来训练,NN都可以有利地确定具有遮挡或不具有遮挡而渲染的表示的图像中的UI事件。UI设备的表示的示例在下面参考图5A-5D进行描述。
在一些实施例中,还可以考虑指针和虚拟UI设备的位置。在一些实施例中,焦点可以用于确定指针与虚拟UI设备之间的交互或相交。针对要发生的交互和UI事件,指针尖端和UI设备可能需要处于相同的焦点状态。
在一些实施例中,可以同时向用户呈现多个虚拟UI设备。例如,如图2中所示,用户可以感知遥控器124的多个虚拟UI设备,诸如按钮132a、136a。其上渲染有表示的图像可以包括多个按钮的表示(例如,如图3中所示的按钮132a、136a的表示132b、136b)。可以确定UI事件中涉及的特定虚拟UI设备。例如,当生成训练集时,甚至可以在捕获图像后事后确定UI中涉及的虚拟UI设备。由于所需的精度可能较小,因此可以将基于关于虚拟UI设备的指针定位的方法用于该事后确定。
在一些实施例中,训练集可以包括成对的立体图像。例如,ARD的面向前的成像系统可以包括用于捕获立体图像的两个或更多个成像设备(例如,相机)。图4A和图4B示出了由具有在图像上渲染的按钮的表示的增强现实设备的两个成像设备捕获的示例立体图像对400a、400b。例如,在图像400a中示出了按钮132a、136a的表示132b1、136b1,并且在图像400b中示出了按钮132a、136a的对应的表示132b2、136b2。一对图像400a、400b中的按钮132a的表示132b1、132b2显示为在用户指尖的“顶上”。在图4A-4B中,如通过图像400a、400b中的左手120a和电视104的位置之间的可见差异所看到的,左手120a比右手120b更靠近用户,并且电视104和背景(例如,墙壁)离右手120b更远。因为右手120b和UI设备及其表示(例如,按钮132a、136a及其对应的表示132b1、132b2、136b1、136b2)处于相同的深度,所以右手120b和UI设备之间没有相对差异,并且它们的表示存在。在一些实现方式中,可以在训练NN和使用NN确定UI事件中使用单视场图像集。例如,ARD的面向前的成像系统可以包括用于捕获多视场图像的多个成像设备(例如,相机)。此类NN可以有利地具有在该情况下期望的更好的结果。
UI设备的示例表示
图5A-5D示出了用户界面(UI)设备的示例表示。为了促进UI设备的独特图像,用于训练NN的UI设备的表示可以包括高对比度的同心形状(或具有相似或相同重心的形状)。图5A示出了具有在指尖516a上渲染而没有被指尖516a遮挡的三个同心环504a-512a的按钮的表示500a。表示500a可以包括黑环508a,在黑环508a的外侧具有白环504a,在黑环508a的内侧具有白环512a。在图5A(和图5B-5D)中,与白环504a和512a相邻地示出的虚线不是按钮500a的表示的一部分。虚线在图5A中示出,以从由面向外的成像系统捕获的图像的该部分描绘围绕正被渲染的表示500a的白环。
图5B示出了具有在指尖516b上渲染而没有被指尖516b遮挡的两个同心环504b-508b的按钮的表示500b。该表示500b可以包括黑环508b,在黑环508b的外侧具有白环504b,而在黑环508b的内侧没有白环。图5C示出了具有在指尖516c上渲染而没有被指尖516c遮挡的两个环504c-508c和圆512c的按钮的表示500c。表示500c可以包括黑环508c,在黑环508c的外侧具有白环504c,在黑环508c的内侧具有白环。
图5D示出了具有三个同心环504d-512d的按钮的表示500d,其中三个同心环504d-512d在指尖516d上以alpha混合渲染而没有被指尖516d遮挡。该表示500d可以包括黑环508d,在黑环508d的外侧具有白环504d,并且在黑环508a的内侧具有白环512d,随着距黑环的距离增加,以诸如圆环的alpha混合变得越来越透明(例如,alpha透明度值接近零)来渲染该白环512d。在白环5的顶上示出的四个虚线不是按钮500d的表示的一部分。这些虚线在图5D中示出,以用不同的透明度值描绘白环512d的区域。在一些实施例中,白环512d的四个区域可以被认为是具有不同透明度值的四个同心环512d1-512d4。
在一些实现方式中,在用于训练NN的图像上渲染表示可以或不可以考虑指针的遮挡。例如,可以用结构化的光投影、飞行时间相机或其组合来立体地捕获指针的图像。根据这些图像,深度场可以与任何图像相关联。当渲染训练数据和输入数据二者时,该深度场可用于为UI设备的表示提供遮挡。
示例机器学习模型和NN
在一些实施例中,机器学习模型包括分类模型。分类模型可以包括监督分类模型、半监督分类模型、非监督分类模型或其组合。机器学习模型可以包括神经网络、线性回归模型、逻辑回归模型、决策树、支持向量机、朴素贝叶斯网络、k最近邻(KNN)模型、k均值模型、随机森林模型或其任何组合。机器学习模型可以包括关联规则学习模型、归纳逻辑编程模型、增强学习模型、特征学习模型、相似性学习模型、稀疏词典学习模型、遗传算法模型、基于规则的机器学习模型、学习分类器系统模型或其任何组合。
诸如深度神经网络(DNN)的神经网络(NN)的层可以将线性或非线性变换应用于其输入以生成其输出。深度神经网络层可以是归一化层、卷积层、softsign层、整流线性层、级联层、池化层、递归层、类初始层或其任何组合。归一化层可以归一化其输入的亮度,以通过例如L2归一化来生成其输出。例如,归一化层可以一次相对于彼此归一化多个图像的亮度,以生成多个归一化图像作为其输出。用于归一化亮度的方法的非限制性示例包括局部对比度归一化(LCN)或局部响应归一化(LRN)。局部对比度归一化可以通过在每个像素的基础上归一化图像的局部区域来非线性地归一化图像的对比度,以具有零的均值和一的方差(或者其它值的均值和方差)。局部响应归一化可以使局部输入区域上的图像归一化,以具有零均值和一的方差(或其它值的均值和方差)。归一化层可以加速训练过程。
卷积层可以应用一组内核,其卷积其输入以生成其输出。softsign层可以将softsign函数应用于其输入。softsign函数(softsign(x))可以是例如(x/(1+|x|))。softsign层可能会忽略每个元素异常值的影响。整流线性层可以是整流线性层单元(ReLU)或参数化的整流线性层单元(PReLU)。ReLU层可以将ReLU函数应用于其输入以生成其输出。ReLU函数ReLU(x)可以是例如max(0,x)。PReLU层可以将PReLU函数应用于其输入以生成其输出。例如,如果x≥0,则PReLU函数PReLU(x)可以是x,并且如果x<0,则可以是ax,其中a是正数。级联层可以级联其输入以生成其输出。例如,级联层可以级联四个5×5图像以生成一个20×20图像。池化层可以应用池化函数,该函数对其输入进行向下采样以生成其输出。例如,池化层可以将20×20图像向下采样为10×10图像。池化函数的非限制性示例包括最大池化、平均池化或最小池化。
在时间点t,递归层可以计算隐藏状态s(t),并且递归连接可以在时间t将隐藏状态s(t)提供给递归层作为后续时间点t+1的输入。递归层可以基于时间t的隐藏状态s(t)计算其在时间t+1的输出。例如,递归层可以将softsign函数应用于在时间t的隐藏状态s(t)以计算其在时间t+1的输出。在时间t+1的递归层的隐藏状态具有在时间t的递归层的隐藏状态s(t)作为其输入。递归层可以通过将例如ReLU函数应用于其输入来计算隐藏状态s(t+1)。类起始层可包括归一化层、卷积层、softsign层、整流线性层(诸如ReLU层和PReLU层)、级联层、池化层或其任何组合中的一个或多个。
在不同的实现方式中,NN中的层数可以不同。例如,DNN中的层数可以是50、100、200或更多。深度神经网络层的输入类型在不同的实现方式中可以是不同的。例如,层可以接收多个层的输出作为其输入。层的输入可以包括五个层的输出。作为另一个示例,层的输入可以包括NN的1%的层。层的输出可以是多个层的输入。例如,层的输出可以用作五个层的输入。作为另一个示例,层的输出可以用作NN的1%的层的输入。
层的输入大小或输出大小可以非常大。层的输入大小或输出大小可以是n×m,其中n表示输入或输出的宽度,并且m表示输入或输出的高度。例如,n或m可以是11、21、31或更多。在不同的实现方式中,层的输入或输出的通道大小可以是不同的。例如,层的输入或输出的通道大小可以是4、16、32、64、128或更多。在不同的实现方式中,层的内核大小可以不同。例如,内核大小可以是n×m,其中n表示内核的宽度,并且m表示内核的高度。例如,n或m可以是5、7、9或更多。在不同的实现方式中,层的步幅大小可以不同。例如,深度神经网络层的步幅大小可以是3、5、7或更多。
在一些实施例中,NN可以指代一起计算NN的输出的多个NN。可以针对不同的任务训练多个NN中的不同NN。例如,可以训练多个NN中的不同NN,以关于相似类型的虚拟UI设备和指针确定不同UI事件的发生(例如,不同类型的激活虚拟UI设备,诸如触摸或指向)。作为另一个示例,可以训练多个NN中的不同NN,以关于相似类型的虚拟UI设备和不同指针(例如,手写笔或指尖)以确定相似UI事件的发生。作为进一步示例,可以训练多个NN中的不同NN,以关于不同类型的虚拟UI设备(例如,按钮或滑块)和指针来确定相似UI事件的发生。处理器(例如,图9中的本地数据处理模块924的处理器)可以计算多个NN中的NN的输出以确定NN的输出。例如,多个NN中的NN的输出可以包括似然分数。处理器可以基于多个NN中的不同NN的输出的似然分数来确定包括多个NN的NN的输出。
示例神经网络训练方法
图6示出了训练机器学习模型(例如,神经网络)以使用用户界面设备的表示来确定用户界面事件的说明性方法600的流程图。在框604处,可以接收指针的图像。图像可以与图像中的图像位置处的虚拟用户界面(UI)设备(例如,虚拟按钮)相关联。该图像可以与关于UI设备和指针的UI事件相关联(例如,按钮已经被按下)。
UI事件可以对应于虚拟UI设备的多个状态中的状态。多个状态包括虚拟UI设备的激活或不激活,诸如触摸、按下、释放、向上/向下或向左/向右滑动,沿着轨迹移动或其它类型的运动。UI设备可以是按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。UI指针可以是与用户或用户的一部分相关联的对象,诸如指针、钢笔、铅笔、记号笔、荧光笔、用户的手指或其组合。
在框608处,可以将虚拟UI设备的表示渲染在图像位置处的图像上以生成训练图像。虚拟UI设备的该表示可以不同于向用户示出的UI设备的表示(例如,风格化的按钮)。在一些情况下,该表示是如在此所述的标准表示。渲染到图像上的虚拟UI设备的表示可以包括多个高对比度的形状。在一些实施例中,多个高对比度的形状包括多个高对比度的同心形状。可替代地或另外地,多个形状中的形状的重心可以在彼此的阈值距离内。阈值距离可以基于多个形状中的形状的大小的0、1、2、5、10或更多像素或百分比(例如,0%、0.1%、1%、2%或更多)。
在一些实施例中,多个形状可以包括彼此相邻的第一形状和第二形状。例如,第一形状可以在第二形状之内或之外。多个形状中的第一形状可以与第一颜色(例如,黑色或深色)相关联。多个形状中的第二形状可以与第二颜色(例如,白色或浅色)相关联。第二形状可以是部分透明的。例如,第二形状可以包括第一区域和第二区域。第二形状的第二区域可以进一步远离第二形状的第一区域。第二形状的第一区域可以与第一透明度值(例如,alpha透明度值)相关联。第二形状的第二区域与第二透明度值相关联。第二透明度值可以小于第一透明度值。例如,比第一区域更远的第二区域可以具有更大的透明度值并且更加透明。多个高对比度的形状可以包括具有第三颜色(例如,白色或浅色)的第三形状。第三形状可以与第一形状相邻。例如,第三形状可以在第一形状之内或之外。
在框612处,可以生成包括输入数据和对应的目标输出数据的训练集。输入数据可以包括训练图像。目标输出数据可以包括UI事件。在一些实施例中,训练集可以包括立体图像对或多视场图像集。例如,可以在立体图像对的第一图像上渲染虚拟UI设备的第一表示。虚拟UI设备的第二表示可以渲染在该对立体图像的第二图像上。两种表示可以不同、相同或具有不同的大小。
在框616处,可以使用训练集来训练神经网络(NN)以确定UI事件。训练集可以包括具有用于训练NN的UI设备的表示的单视场图像、立体图像对或多视场图像集。训练NN的过程涉及向网络呈现训练集的输入数据和对应的目标输出数据。通过训练过程,可以递增或迭代地调整网络的权重,使得在给定训练集中的特定输入数据的情况下,网络的输出变得匹配(例如,尽可能接近)与该特定的输入数据对应的目标输出。
用户界面事件确定的示例方法
图7示出了确定使用用户界面设备的表示的用户界面事件的使用机器学习模型(例如,神经网络)的说明性方法的流程图。诸如可头戴或可穿戴的ARD或显示系统的用户设备可以实现方法700。在框704处,ARD可以接收使用包括训练图像的训练集训练的神经网络(NN)。训练图像可以包括指针和虚拟UI设备的表示。训练图像可以与关于虚拟UI设备和指针的UI事件相关联。例如,NN可以是使用方法600训练的NN。
在框708处,ARD可以接收指针的图像。该图像与图像位置处的虚拟UI设备相关联。例如,当虚拟设备由ARD显示给用户时,可以通过ARD的面向前的成像系统捕获图像。UI设备可以是按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。UI指针可以是与用户或用户的一部分相关联的对象,诸如指针、钢笔、铅笔、记号笔、荧光笔、用户的手指或其组合。
在框712处,ARD可以将虚拟UI设备的表示渲染到与虚拟UI设备相关联的图像位置处的图像上。如参考方法600所详细描述的,虚拟UI设备的表示可以渲染到图像位置处的图像上以生成训练图像。虚拟UI设备的表示可以包括多个高对比度的形状。在一些实施例中,多个高对比度的形状包括多个高对比度的同心形状。可替代地或另外地,多个形状的形状的重心可以在彼此的阈值距离内。在一些实施例中,多个形状可以包括不同颜色(例如,黑色、深色、白色或浅色)的相邻形状。在框712处由ARD渲染的虚拟UI设备的表示可以与在框608处渲染的用于生成训练图像的UI设备的表示相似或相同。
在框716处,ARD可以使用NN来确定关于图像中的指针和与图像相关联的虚拟UI设备的UI事件。UI事件可以对应于虚拟UI设备的多个状态中的状态。多个状态包括虚拟UI设备的激活或不激活,诸如触摸、按下、释放、向上/向下或向左/向右滑动,沿着轨迹移动或其它类型的运动。可选地,ARD可以基于所确定的UI事件来生成虚拟内容、虚拟图像信息或其修改版本,并且使得该虚拟内容经由其显示器被提供给ARD的佩戴者。另外地或可替代地,ARD可以基于UI事件执行动作。例如,ARD可以使参考图1描述的电视104打开。在2017年12月1日提交的题为“VIRTUAL USER INPUT CONTROLS IN A MIXED REALITY ENVIRONMENT”的美国专利申请号15/829,249中提供了基于UI事件生成虚拟内容或执行动作的描述,其内容通过在此引用整体并入本文。
示例增强现实场景
现代计算和显示技术已经促进了用于所谓的“虚拟现实”或“增强现实”体验的系统的开发,其中数字再现图像或其部分以看起来好像是或者可以被感知是真实的方式向用户呈现。虚拟现实“VR”场景通常涉及数字或虚拟图像信息的呈现,而对其它实际真实世界的视觉输入没有透明度;增强现实“AR”场景通常涉及数字或虚拟图像信息的呈现,以作为对用户周围的真实世界的可视化的增强;或混合现实“MR”场景,其通常涉及将真实世界与虚拟世界融合以产生物理或虚拟对象共存并实时交互的新环境。事实证明,人类的视觉感知系统非常复杂,并且要产生促进舒适、自然感觉、虚拟图像元素以及其它虚拟或真实世界图像元素的丰富呈现的一种VR、AR或MR技术是有挑战的。在此公开的系统和方法解决了与VR、AR和MR技术有关的各种挑战。
图8描绘了具有某些虚拟现实对象以及由人观看的某些实际现实对象的增强现实场景的图示。图8描绘了增强现实场景800,其中,AR技术的用户看到了以人、树、背景中的建筑物以及混凝土平台820为特征的真实世界公园般的设置810。除了这些项之外,AR技术的用户还感知到,他“看到”了站在真实世界平台820上的机器人雕像830,以及以及似乎是大黄蜂的拟人化的飞过的类似卡通的头像角色840(例如,大黄蜂),即使这些元素在真实世界中不存在。
为了使三维(3D)显示器产生真实的深度感,且更具体地产生表面深度的模拟感,希望显示器视野中的每个点都生成与其虚拟深度相对应的适应性响应。如果对显示点的适应性响应不符合该点的虚拟深度(如由会聚和立体观测的双目深度提示确定),则人眼可能会经历适应冲突,从而导致成像不稳定,有害的眼睛疲劳,头痛,以及在缺乏适应信息的情况下,几乎完全缺少表面深度。
VR、AR和MR体验可以由具有显示器的显示系统提供,在该显示器中,与多个深度平面相对应的图像被提供给观看者。图像对于每个深度平面可能是不同的(例如,提供场景或对象的稍有不同的表示),并且可能会被观看者的眼睛分别聚焦,从而基于使位于不同深度平面上的场景的不同图像特征聚焦所需的眼睛适应度和/或基于观察在焦点外的不同深度平面上的不同图像特征,为用户提供深度提示。如在此其它地方所讨论的,此类深度提示提供了对深度的可信感知。为了产生或增强VR、AR和MR体验,显示系统可以使用生物特征信息来增强这些体验。
示例可穿戴显示系统
图9示出了可穿戴显示系统900的示例,其可用于向显示系统佩戴者或观看者904呈现VR、AR或MR体验。可穿戴显示系统900可被编程为执行在此描述的任何应用或实施例。显示系统900包括显示器908,以及支持该显示器908的功能的各种机械和电子模块和系统。显示器908可以耦接到框架912,该框架912可由显示系统用户、佩戴者或观看者904佩戴,并且被配置为将显示器908定位在佩戴者904的眼睛前方。显示器908可以是光场显示器。在一些实施例中,扬声器916耦接到框架912并且邻近用户的耳道定位。在一些实施例中,另一个扬声器(未示出)邻近用户的另一耳道定位以提供立体声/可成形声音控制。显示器908可操作地诸如通过有线引线或无线连接将920耦接到本地数据处理模块924,该本地数据处理模块924可以以各种配置安装,诸如固定地附接到框架912,固定地附接到用户佩戴的头盔或帽子,嵌入耳机中,或以其它方式可移除地附接到用户904(例如,以背包式配置,以带耦接式配置)。
框架912可以具有附接或安装在框架912上的一个或多个相机,以获得佩戴者的(两只)眼睛的图像。在一个实施例中,(多个)相机可以在佩戴者的眼睛前面安装到框架912,使得可以直接对眼睛成像。在其它实施例中,相机可以沿着框架912的柄部(例如,在佩戴者的耳朵附近)安装。在此类实施例中,显示器908可以涂覆有将来自佩戴者的眼睛的光反射回相机的材料。该光可以是红外光,因为虹膜特征在红外图像中很显著。
本地处理和数据模块924可以包括硬件处理器,以及非暂态数字存储器,诸如非易失性存储器(例如闪存),两者都可以用于辅助数据的处理、高速缓存和存储。数据可包括如下数据:(a)从传感器(其可以例如可操作地耦接到框架912或以其它方式附接到佩戴者904)捕获的数据,该传感器诸如图像捕获设备(诸如相机)、麦克风、惯性测量单元、加速度计、指南针、GPS单元、无线设备和/或陀螺仪;和/或(b)使用远程处理模块928和/或远程数据存储库932获取和/或处理的数据,可能用于在此类处理或取得之后通过显示器908。本地处理和数据模块924可以诸如经由有线或无线通信链路由通信链路936和/或940可操作地耦接到远程处理模块928和远程数据存储库932,使得这些远程模块928、932可用作本地处理和数据模块924的资源。(多个)图像捕获设备可用于捕获在眼图像处理过程中使用的眼睛图像。此外,远程处理模块928和远程数据存储库932可以可操作地彼此耦合。
在一些实施例中,远程处理模块928可以包括一个或多个处理器,该处理器被配置为分析和处理数据和/或图像信息,诸如由图像捕获设备捕获的视频信息。视频数据可以本地存储在本地处理和数据模块924中和/或远程数据存储库932中。在一些实施例中,远程数据存储库932可以包括数字数据存储设施,其可以通过互联网或“云”资源配置中的其它网络配置可用。在一些实施例中,存储所有数据并且在本地处理和数据模块924中执行所有计算,允许从远程模块完全自主使用。
在一些实现方式中,本地处理和数据模块924和/或远程处理模块928被编程为执行在此所述的系统和方法的实施例。图像捕获设备可以捕获特定应用的视频(例如,用于眼动追踪应用的佩戴者眼睛的视频,或用于手势识别应用的佩戴者的手或手指的视频)。可以通过处理模块924、928中的一个或二者来分析视频。在一些情况下,将虹膜代码生成的至少一些卸载到远程处理模块(例如,在“云”中)可以提高效率或计算速度。在此公开的系统和方法的参数可以存储在数据模块924和/或928中。
分析的结果可以被处理模块924、928中的一个或二者用于另外的操作或处理。例如,在各种应用中,可穿戴显示系统900可以使用生物度量识别、眼动追踪、手势、对象、姿势的识别或分类等。例如,可穿戴显示系统900可以分析佩戴者904的手的所捕获视频并识别出佩戴者的手以及可穿戴式显示系统的手势(例如,拾取真实或虚拟的对象,发信号通知同意或反对(例如,竖起拇指或“拇指向下”)等)。
在一些实施例中,本地处理模块924、远程处理模块928和云上系统可以执行在此公开的一些或全部方法。例如,远程处理模块928或云上系统可以执行以上参考图6描述以将虚拟用户界面(UI)设备(例如,按钮)的表示渲染到指针(例如,手写笔)的图像上并将该图像与虚拟UI设备的表示一起使用以训练神经网络(NN)来确定UI事件的方法600。作为另一示例,本地处理模块924可以执行以上参考图7描述的方法700。本地处理模块924可以从远程处理模块928或云上系统接收NN。本地处理模块924可以使用NN来确定关于图像中的指针以及与该图像相关联的虚拟UI设备的UI事件。
人的视觉系统是复杂的,并且提供对深度的真实感是具有挑战性的。不受理论的限制,相信由于聚散和适应的组合,对象的观看者可以将对象感知为三维的。两只眼睛相对于彼此的聚散运动(例如,会聚眼睛的视线以固定在对象上的瞳孔朝向或远离彼此的滚动运动)与眼睛晶状体的聚焦(或“适应”)密切相关。在正常情况下,改变眼睛晶状体的焦点或适应眼睛,以将焦点从一个对象改变为另一距离的另一对象,在一种称为“适应-聚散反射”的关系下,将自动对于相同距离导致聚散的匹配变化。同样,在正常情况下,聚散度的变化将触发适应性的匹配变化。在适应和聚散之间提供更好匹配的显示系统可以形成更逼真的或更舒适的三维图像模拟。
图10示出了用于使用多个深度平面来模拟三维图像的方法的各方面。参考图10,眼睛1002和1004适应在z轴上距眼睛1002和1004各种距离的对象,使得这些对象聚焦。眼睛1002和1004呈现特定的适应状态,以沿z轴以不同距离进入聚焦对象。因此,可以说特定的适应状态与深度平面1006中的特定一个深度平面相关联,与相关的焦距相关联,使得当眼睛对于那个深度平面处于适应状态时,特定深度平面中的对象或对象的一部分处于聚焦状态。在一些实施例中,可以通过为眼睛1002和1004中的每一个眼睛提供图像的不同表示,并且还通过提供与每个深度平面相对应的图像的不同表示,来模拟三维图像。尽管为了图示清楚而被示出为分离的,但是将理解例如随着沿z轴的距离增加,眼睛1002和1004的视场可以重叠。另外,虽然为了便于说明而显示为平坦的,但是应当理解,深度平面的轮廓可以在物理空间中弯曲,使得深度平面中的所有特征在特定的适应状态下都被眼睛聚焦。不受理论的限制,相信人眼通常可以解释有限数量的深度平面以提供深度感知。因此,通过向眼睛提供与这些有限数量的深度平面中的每一个深度平面相对应的图像的不同表示,可以实现感知深度的高度可信的模拟。
示例波导堆叠组件
图11示出了用于向用户输出图像信息的波导堆叠的示例。显示系统1100包括波导的堆叠,或者堆叠的波导组件1105,其可以用于使用多个波导1120、1122、1124、1126、1128向眼睛1110或大脑提供三维感知。在一些实施例中,显示系统1100可以对应于图9的系统900,图11示意性地更详细地示出了该系统900的一些部分。例如,在一些实施例中,波导组件1105可以被集成到图9的显示器908中。
继续参考图11,波导组件1105还可在波导之间包括多个特征1130、1132、1134、1136。在一些实施例中,特征1130、1132、1134、1136可以是透镜。在一些实施例中,特征1130、1132、1134、1136可以不是透镜。而是,它们可以是间隔件(例如,用于形成气隙的包层和/或结构)。
波导1120、1122、1124、1126、1128和/或多个透镜1130、1132、1134、1136可配置为以各种水平的波前曲率或光线发散将图像信息发送到眼睛。每个波导水平可以与特定的深度平面相关联并且可以被配置为输出与该深度平面相对应的图像信息。图像注入设备1140、1142、1144、1146、1148可被用于将图像信息注入波导1120、1122、1124、1126、1128,波导1120、1122、1124、1126、1128中的每一个波导可被配置为将入射光分布在每个相应的波导上,以朝向眼睛1110输出。光从图像注入设备1140、1142、1144、1146、1148的输出表面出射,并注入到波导1120、1122、1124、1126、1128的相应输入边缘中。在一些实施例中,单个光束(例如,准直光束)可以被注入到每个波导中,以输出克隆的准直光束的整个场,该准直光束以与关联于特定波导的深度平面相对应的特定角度(和发散量)指向眼睛1110。
在一些实施例中,图像注入设备1140、1142、1144、1146、1148是分立的显示器,每个显示器产生图像信息以分别注入到对应的波导1120、1122、1124、1126、1128中。在一些其它实施例中,图像注入设备1140、1142、1144、1146、1148是单个多路复用显示器的输出端,该显示器可以例如经由一个或多个光导管(诸如光纤电缆)将图像信息传递到图像注入设备1140、1142、1144、1146、1148中的每一个图像注入设备。
控制器1150控制堆叠波导组件1105和图像注入设备1140、1142、1144、1146、1148的操作。在一些实施例中,控制器1150包括编程(例如,非暂态计算机可读介质中的指令),该编程调节图像信息到波导1120、1122、1124、1126、1128的定时与提供。在一些实施例中,控制器1150可以是单个整体设备,或者是通过有线或无线通信信道连接的分布式系统。在一些实施例中,控制器1150可以是处理模块924或928(在图9中示出)的一部分。在一些实施例中,控制器可以与面向内的成像系统1152(例如,数码相机)、面向外的成像系统1154(例如,数码相机)和/或用户输入设备116通信。面向内的成像系统1152(例如,数字相机)可以用于捕获眼睛1110的图像,以例如确定眼睛1110的瞳孔的大小和/或取向。面向外的成像系统1154可用于对世界1158的一部分进行成像。用户可经由用户输入设备1166将命令输入到控制器1150,以与显示系统1100交互。
波导1120、1122、1124、1126、1128可配置为通过全内反射(TIR)在每个相应的波导内传播光。波导1120、1122、1124、1126、1128每个可以是平面的或具有另一种形状(例如弯曲的),具有主要的顶部和底部表面以及在那些主要的顶部和底部表面之间延伸的边缘。在所示的配置中,波导1120、1122、1124、1126、1128可各自包括光提取光学元件1160、1162、1164、1166、1168,该光提取光学元件被配置为通过将在每个相应波导中传播的光重定向到波导之外以将图像信息输出到眼睛1110,而从波导中提取光。提取的光也可以称为出耦合光,而光提取光学元件也可以称为出耦合光学元件。提取的光束由波导在波导中传播的光撞击光重定向元件的位置处输出。光提取光学元件1160、1162、1164、1166、1168例如可以是反射和/或衍射光学特征。虽然示出为设置在波导1120、1122、1124、1126、1128的底部主表面上以便于描述和使附图清晰,但是在一些实施例中,光提取光学元件1160,1162、1164、1166、1168可以设置在顶部和/或底部主表面上,和/或可以直接设置在波导1120、1122、1124、1126、1128的体积中。在一些实施例中,光提取光学元件1160、1162、1164、1166、1168可以形成为材料层,该材料层附接到透明基板以形成波导1120、1122、1124、1126、1128。在一些其它实施例中,波导1120、1122、1124、1126、1128可以是单片材料,并且光提取光学元件1160、1162、1164、1166、1168可以形成在该片材料的表面上和/或内部中。
继续参考图11,如在此所述,每个波导1120、1122、1124、1126、1128被配置为输出光以形成与特定深度平面对应的图像。例如,最靠近眼睛的波导1120可以被配置为将注入到此类波导1120中的准直光传送到眼睛1110。准直光可以代表光学无限远焦平面。下一个向上波导1122可以被配置为在准直光可以到达眼睛1110之前发出通过第一透镜1130(例如,负透镜)的准直光。第一透镜1130可以被配置为产生轻微的凸波前曲率,使得眼睛/大脑将来自下一个向上波导1122的光解释为来自光学无限远向内更靠近眼睛1110的第一焦平面。类似地,第三向上波导1124在到达眼睛1110之前通过第一透镜1130和第二透镜1132二者经过它的输出光。第一透镜1130和第二透镜1132的组合光焦度可以配置为产生另一增量的波前曲率,使得眼睛/大脑将来自第三波导1124的光解释为来自第二焦平面,该第二焦平面相比来自下一个向上波导1122的光从光学无限远更加向内接近人。
其它波导层(例如,波导1126、1128)和透镜(例如,透镜1134、1136)以类似的方式配置,堆叠中最高的波导1128通过其与眼睛之间的所有透镜发送其输出,用于代表最接近人的聚焦平面的合计聚焦度。为了在观看/解释来自堆叠波导组件1105另一侧的世界1158的光时补偿透镜1130、1132、1134、1136的堆叠,可以在堆叠的顶部设置补偿透镜层1138,以补偿下面的透镜堆叠1130、1132、1134、1136的合计焦度。此类配置提供与可用的波导/透镜配对一样多的感知焦平面。波导1120、1122、1124、1126、1128的光提取光学元件1160、1162、1164、1166、1168和透镜1130、1132、1134、1136的聚焦方面二者都可以是静态的(例如,不是动态的或电激励的)。在一些替代实施例中,上述一个或两者可以动态使用电激励特征。
继续参考图11,光提取光学元件1160、1162、1164、1166、1168可以被配置为既将光重定向到它们相应的波导之外,又对于与波导相关联的特定深度平面以适当的发散量或准直量输出该光。结果,具有不同相关联的深度平面的波导可以具有光提取光学元件的不同配置,该光提取光学元件取决于相关联的深度平面以不同的发散量输出光。在一些实施例中,如在此所讨论的,光提取光学元件1160、1162、1164、1166、1168可以是体积或表面特征,该体积或表面特征可以被配置为以特定角度输出光。例如,光提取光学元件1160、1162、1164、1166、1168可以是体积全息图、表面全息图和/或衍射光栅。在2015年6月25日公开的美国专利公开号2015/0178939中描述了诸如衍射光栅的光提取光学元件,其通过引用整体并入在此。在一些实施例中,特征1130、1132、1134、1136、1138可以不是透镜。而是,它们可以简单地是间隔件(例如,用于形成气隙的包层和/或结构)。
在一些实施例中,光提取光学元件1160、1162、1164、1166、1168是形成衍射图案的衍射特征,或“衍射光学元件”(在此也称为“DOE”)。优选地,DOE具有相对较低的衍射效率,使得光束的光的仅一部分在DOE的每个相交处朝向眼睛1110偏离,而其余的光经由全内反射继续移动通过波导。承载图像信息的光因此被分成多个相关的出射光束,该出射光束在多个位置处离开波导,并且结果是针对在波导内反弹的该特定的准直光束而朝向眼睛1110的相当均匀的出射发射图案。
在一些实施例中,一个或多个DOE可以在它们主动衍射的“开”状态与它们不明显衍射的“关”状态之间切换。例如,可切换的DOE可以包含聚合物分散液晶层,其中微滴在主体介质中包含衍射图案,并且微滴的折射率可以切换为与主体材料的折射率基本上匹配(在这种情况下,该图案不会明显衍射入射光),或者微滴可以切换到与主体介质的折射率不匹配的折射率(在这种情况下,该图案主动衍射入射光)。
在一些实施例中,深度平面和/或景深的数量和分布可以基于观看者的眼睛的瞳孔大小和/或取向动态地变化。在一些实施例中,可以使用面向内的成像系统1152(例如,数码相机)来捕获眼睛1110的图像以确定眼睛1110的瞳孔的大小和/或取向。在一些实施例中,面向内的成像系统1152可以附接到框架912(如图9中所示),并且可以与处理模块924和/或928电通信,该处理模块924和/或928可以处理来自面向内的成像系统1152的图像信息,以确定例如用户904的眼睛的瞳孔直径或取向。
在一些实施例中,面向内的成像系统1152(例如,数码相机)可以观察用户的运动,诸如眼睛运动和面部运动。面向内的成像系统1152可以用于捕获眼睛1110的图像以确定眼睛1110的瞳孔的大小和/或取向。面向内的成像系统1152可以用于获得用于确定用户正在看的方向(例如,眼睛姿势)或用户的生物度量识别(例如,经由虹膜识别)的图像。可以分析由面向内的成像系统1152获得的图像,以确定用户的眼睛姿势和/或情绪,显示系统1100可以使用用户的眼睛姿势和/或情绪来确定应向用户呈现哪些音频或视觉内容。显示系统1100还可以使用诸如惯性测量单元(IMU)、加速度计、陀螺仪等的传感器来确定头部姿势(例如,头部位置或头部取向)。头部姿势可以单独使用或与眼睛姿势结合使用以与主干轨道(stem track)互动和/或呈现音频内容。
在一些实施例中,可以针对每只眼睛使用一个相机,以分别确定每只眼睛的瞳孔大小和/或取向,从而允许向每只眼睛呈现图像信息以动态地为该只眼睛定制。在一些实施例中,可以为每只眼睛使用至少一个相机,以分别独立地确定每只眼睛的瞳孔大小和/或眼睛姿势,从而允许向每只眼睛呈现图像信息以动态地为该只眼睛定制。在一些其它实施例中,确定仅单只眼睛1110(例如,每对眼睛仅使用单个相机)的瞳孔直径和/或取向,并且假定其对于观看者904的两只眼睛是相似的。
例如,景深可以与观看者的瞳孔大小成反比变化。结果,随着观看者眼睛的瞳孔大小减小,景深增加,使得因为该平面的位置超出了眼睛的聚焦深度而无法辨别的一个平面可能会变得可辨别,并且随着瞳孔大小的减小和景深的相应增加,变得更加聚焦。同样地,可以随着瞳孔大小的减小而减少用于向观看者呈现不同图像的间隔开的深度平面的数量。例如,观看者可能在不将眼睛的适应度从一个深度平面调节到另一个深度平面的情况下无法在一个瞳孔大小下清楚地感知第一深度平面和第二深度平面二者的细节。然而,这两个深度平面可以同时在不改变适应度的情况下以另一个瞳孔大小对用户充分聚焦。
在一些实施例中,显示系统可以基于对瞳孔大小和/或取向的确定,或者基于接收指示特定瞳孔大小和/或取向的电信号,来改变接收图像信息的波导的数量。例如,如果用户的眼睛无法区分与两个波导相关联的两个深度平面,则可以对控制器1150进行配置或编程以停止向这些波导中的一个波导提供图像信息。有利地,这可以减少系统上的处理负担,从而增加系统的响应性。在波导的DOE可在开和关状态之间切换的实施例中,当波导确实接收到图像信息时,DOE可被切换到关状态。
在一些实施例中,可能希望使出射光束满足直径小于观看者的眼睛直径的条件。然而,鉴于观看者瞳孔大小的可变性,满足该条件可能是一个挑战。在一些实施例中,通过响应于观看者的瞳孔大小的确定而改变出射光束的大小,在宽范围的瞳孔大小上满足该条件。例如,随着瞳孔大小减小,出射光束的大小也可以减小。在一些实施例中,可以使用可变孔径来改变出射光束的大小。
显示系统1100可以包括对世界1158的一部分进行成像的面向外的成像系统1154(例如,数码相机)。世界1158的该部分可以被称为视野(FOV)并且成像系统1154有时被称为FOV相机。可用于由观看者904观看或成像的整个区域可以被称为视场(FOR)。FOR可以包括围绕显示系统1100的立体角的4π球面度。在显示系统1100的一些实现方式中,FOR可以包括围绕显示系统1100的用户904的基本上所有立体角,因为用户904可以移动他们的头和眼睛看用户周围(用户的前面、后面、上方、下方或侧面)的对象。从面向外的成像系统1154获得的图像可以用于跟踪用户做出的手势(例如,手或手指的手势),检测用户面前的世界1158中的对象等。
可以使用多种计算机视觉技术来执行对象识别或检测。例如,可穿戴系统可以分析由面向外的成像系统1154(参考图11描述)获取的图像,以执行场景重建、事件检测、视频跟踪、对象识别(例如,人或文档)、手势检测或识别、对象姿态估计、面部识别(例如,来自环境中的人或文档中的图像)、学习、索引、运动估计或图像分析(例如,识别文档中的标记,诸如照片、签名、识别信息、旅行信息等)等。可以使用一种或多种计算机视觉算法来执行这些任务。可以利用对象识别器对本地处理和数据模块924和/或远程处理模块928和远程数据存储库932进行编程,该对象识别器对图像进行爬取并对图像执行计算机视觉算法。计算机视觉算法的非限制性示例包括:尺度不变特征变换(SIFT)、加速鲁棒特征(SURF)、定向FAST和旋转BRIEF(ORB)、二进制鲁棒不变可扩展关键点(BRISK)、快速视网膜关键点(FREAK)、Viola-Jones算法、Eigenfaces方法、Lucas-Kanade算法、Horn-Schunk算法、均值漂移算法、视觉同时定位和映射(vSLAM)技术、顺序贝叶斯估计器(例如,卡尔曼滤波器、扩展卡尔曼滤波器等)、束调节、自适应阈值(和其它阈值技术)、迭代最近点(ICP)、半全局匹配(SGM)、半全局块匹配(SGBM)、特征点直方图、各种机器学习算法(诸如例如支持向量机、k最近邻算法、朴素贝叶斯、神经网络(包括卷积或深度神经网络)或其它有监督/无监督模型等)等。
对象识别或检测可以另外地或可替代地通过各种机器学习算法来执行。一旦训练后,机器学习算法就可以由ARD(例如,本地处理和数据模块924和/或远程处理模块928和远程数据存储库932)存储。机器学习算法的一些示例可以包括有监督或无监督的机器学习算法,包括回归算法(诸如例如普通最小二乘回归)、基于实例的算法(诸如例如学习向量量化)、决策树算法(诸如例如分类和回归树)、贝叶斯算法(诸如例如朴素贝叶斯)、聚类算法(诸如例如k均值聚类)、关联规则学习算法(诸如例如先验算法)、人工神经网络算法(诸如例如Perceptron)、深度学习算法(诸如例如Deep Boltzmann Machine或深度神经网络)、降维算法(诸如例如,主要成分分析)、集成算法(例如,堆叠泛化)和/或其它机器学习算法。在一些实施例中,可以为各个数据集定制各个模型。例如,可穿戴设备可以生成或存储基本模型。基本模型可以用作生成特定于数据类型(例如,遥现会话中的特定用户)、数据集(例如,用户在遥现会话中获得的附加图像集合)、有条件的情况或其它变化的附加模型的起点。在一些实施例中,可穿戴HMD可以被配置为利用多种技术来生成用于聚合数据分析的模型。其它技术可以包括使用预定义的阈值或数据值。
显示系统1100可以包括用户输入设备1156,用户可以通过该用户输入设备1156向控制器1150输入命令以与显示系统400交互。例如,用户输入设备1156可以包括触控板、触摸屏、操纵杆、多自由度(DOF)控制器、电容感测设备、游戏控制器、键盘、鼠标、方向垫(D-pad)、魔杖、触觉设备、图腾(例如,充当虚拟用户输入设备)等。在一些情况下,用户可以使用手指(例如,拇指)在触敏输入设备上按下或滑动以向显示系统1100提供输入(例如,向由显示系统1100提供的用户界面提供用户输入)。在使用显示系统1100期间,用户输入设备1156可以由用户的手握持。用户输入设备1156可以与显示系统1100进行有线或无线通信。
图12示出了由波导输出的出射光束的示例。示出了一个波导,但是应当理解,波导组件1105中的其它波导可以类似地起作用,其中波导组件1105包括多个波导。光1205在波导1120的输入边缘1210处注入到波导1120中,并通过全内反射(TIR)在波导1120内传播。在光1205入射在衍射光学元件(DOE)1160上的点处,一部分光作为出射光束1215离开波导。出射光束1215被示为基本上平行,但是取决于与波导1120相关联的深度平面,它们也可以被重定向以一定角度传播到眼睛1110(例如,形成发散的出射光束)。可以理解,基本上平行的出射光束可以指示具有光提取光学元件的波导,该光提取光学元件将光出耦合以形成看起来像设置在距眼睛1110较大距离(例如,光学无限远)的深度平面上的图像。其它波导或其它组光提取光学元件可能会输出发散度更大的出射光束图案,这将需要眼睛1110适应更近的距离以将其聚焦在视网膜上,并且会被大脑解释为来自比光学无限远更靠近眼睛1110的距离的光。
图13示出了显示系统1100的另一示例,该显示系统1100包括波导装置、将光光学耦合到波导装置或从波导装置光学耦合的光耦合器子系统,以及控制子系统。显示系统1100可以用于生成多焦点体积、图像或光场。显示系统1100可以包括一个或多个初级平面波导1304(在图13中仅示出一个)和与至少一些初级波导1304中的每个初级波导相关联的一个或多个DOE 1308。平面波导1304可以类似于参考图11讨论的波导1120、1122、1124、1126、1128。光学系统可以采用分布波导装置,以沿第一轴(在图13中为垂直或Y轴)中继光,并沿第一轴(例如,Y轴)扩展光的有效出射光瞳。分布波导装置可以例如包括分布平面波导1312和与分布平面波导1312相关联的至少一个DOE 1316(由双点划线示出)。分布平面波导1312在至少一些方面可以与初级平面波导1304相似或相同,具有与之不同的取向。同样,该至少一个DOE 1316在至少一些方面可以与DOE 1308相似或相同。例如,分布平面波导1312和/或DOE 1316可以分别由与初级平面波导1304和/或DOE 1308相同的材料组成。图13中所示的光学系统可集成到图9中所示的可穿戴显示系统900中。
中继的和出射光瞳扩展的光从分布波导装置光学耦合到一个或多个初级平面波导1304中。初级平面波导1304沿优选地正交于第一轴的第二轴(例如,从图13的角度看是水平或X轴)来中继光。特别地,第二轴可以是相对于第一轴的非正交轴。初级平面波导1304沿该第二轴(例如X轴)扩展了光的有效出射路径。例如,分布平面波导1312可沿垂直或Y轴中继和扩展光,并将该光传递到沿水平或X轴中继和扩展光的初级平面波导1304。
显示系统1100可以包括一个或多个彩色光源(例如,红色、绿色和蓝色激光)1320,其可以光学耦合到单模光纤1324的近端中。光纤1324的远端可以通过压电材料的中空管1328螺纹式连接或接收。远端从管1328突出为自由固定的柔性悬臂1332。压电管1328可与四个象限电极(未示出)相关联。电极可以例如镀在管1328的外侧、外表面或外周或外直径上。芯电极(未示出)也位于管1328的芯、中心、内周或内直径中。
例如经由电线1340电耦合的驱动电子设备1336驱动相对的电极对,以独立地在两个轴上弯曲压电管1328。光纤1324的突出的远侧末端具有谐振的机械模式。谐振的频率可以取决于光纤1324的直径、长度和材料特性。通过使压电管1328在光纤悬臂1332的第一机械谐振模式附近振动,使光纤悬臂1332振动,并且可以蜿蜒通过大的挠度。
通过刺激两个轴上的谐振振动,在填充二维(2-D)扫描的区域中双轴式扫描纤维悬臂1332的尖端。通过与光纤悬臂1332的扫描同步地调制(多个)光源1320的强度,从光纤悬臂1332出射的光形成图像。在美国专利公开号2014/0003762中提供了此类设置的描述,其全部内容通过引用并入于此。
光耦合器子系统的组件1344准直从扫描光纤悬臂1332发出的光。准直的光被镜面1348反射到窄分布平面波导1312中,该平面波导包含至少一个衍射光学元件(DOE)1316。准直的光通过全内反射沿分布平面波导1312垂直地传播(相对于图13的视图),并且在这样做时与DOE 1316重复相交。DOE 1316优选地具有低衍射效率。这使得一部分光(例如,10%)在与DOE 1316相交的每个点处朝着较大的初级平面波导1304的边缘衍射,并且一小部分光经由TIR在其原始轨迹上沿分布平面波导1312的长度向下继续。
在与DOE 1316相交的每个点处,附加的光朝向初级波导1312的入口衍射。通过将入射光分成多个出耦合组,在分布平面波导1312中,通过DOE 1316垂直扩展光的出射光瞳。从分布平面波导1312耦合出的该垂直扩展的光进入初级平面波导1304的边缘。
进入初级波导1304的光经由TIR沿着初级波导1304水平地传播(相对于图13的视图)。随着光在多个点处与DOE 1308相交,它经由TIR沿初级波导1304长度的至少一部分水平传播。DOE 1308可以有利地被设计或配置为具有作为线性衍射图案和径向对称衍射图案之和的相位分布,以产生光的偏转和聚焦二者。DOE 1308可以有利地具有低衍射效率(例如10%),使得在DOE 1308的每个相交点处,光束的仅一部分光朝向视图的眼睛偏转,而其余的光继续经由TIR传播通过波导1304。
在传播光和DOE 1308之间的每个相交点处,一小部分光朝向初级波导1304的相邻面衍射,从而允许光逸出TIR,并从初级波导1304的面出射。在一些实施例中,DOE 1308的径向对称衍射图案另外向衍射光赋予聚焦水平,既成形单个光束的光波前(例如,赋予曲率),又以与设计的聚焦水平相匹配的角度操纵光束。
因此,这些不同的路径可以使光通过多样的DOE 1308以不同的角度、聚焦水平和/或在出射光瞳处产生不同的填充图案而从主平面波导1304耦合出。出射光瞳处的不同填充图案可有利地用于创建具有多个深度平面的光场显示。波导组件中的每一层或堆叠中的一组层(例如3层)可用于生成相应的颜色(例如红色、蓝色、绿色)。因此,例如,可以采用第一组的三个相邻层来分别在第一焦深处产生红色、蓝色和绿色的光。可以采用第二组的三个相邻层分别在第二焦深处产生红色、蓝色和绿色的光。可以采用多组来生成具有各种焦深的完整3D或4D彩色图像光场。
附加方面
使用训练的神经网络确定UI事件的可穿戴显示系统示例
在第1方面,公开了一种可穿戴显示系统。该可穿戴显示系统包括:图像捕获设备,其被配置为捕获包括指针的图像;非暂态计算机可读存储介质,其被配置为存储:图像、与在图像上的图像位置处的图像相关联的虚拟用户界面(UI)设备,以及用于确定使用以下方式训练的UI事件的神经网络:与训练虚拟UI设备相关联的训练图像,该训练图像包括训练虚拟UI设备的表示和训练指针,以及关于训练虚拟UI设备和训练图像中的训练指针的训练UI事件;显示器,其被配置为当图像捕获设备捕获图像时,在显示位置处显示虚拟UI设备,其中,图像位置与显示位置相关;以及硬件处理器,其与图像捕获设备、显示器和非暂态计算机可读存储介质通信,该处理器由可执行指令编程为:从图像捕获设备接收图像;将虚拟UI设备的表示渲染到图像位置处的图像上;以及使用神经网络确定关于图像中的指针以及与图像相关联的虚拟UI设备的UI事件。处理器可基于UI事件生成虚拟内容,以及使显示器将虚拟内容呈现给可穿戴显示系统的穿戴者。
在第2方面,根据方面1所述的可穿戴显示系统,其中,处理器进一步被编程为基于UI事件来生成虚拟内容(或虚拟图像信息);并使显示器向可穿戴显示系统的穿戴者提供虚拟内容。
在第3方面,根据方面1-2中任一方面所述的可穿戴显示系统,其中,处理器进一步被编程为基于UI事件执行动作(例如,激活诸如电视、汽车等的另一设备,或者与另一设备(诸如电话、移动设备、ARD等)连接)。
在第4方面,根据方面1-3中的任一方面所述的可穿戴显示系统,其中,虚拟UI设备的表示包括多个高对比度的形状。
在第5方面,根据方面4所述的可穿戴显示系统,其中,多个高对比度的形状包括多个高对比度的同心形状。
在第6方面,根据方面4-5中任一方面所述的可穿戴显示系统,其中,多个形状的形状的重心在彼此的阈值距离内。
在第7方面,根据方面6所述的可穿戴显示系统,其中,阈值距离为0。
在第8方面,根据方面4-7中任一方面所述的可穿戴显示系统,其中,多个形状中的第一形状与第一颜色相关联,其中,多个形状中的第二形状与第二颜色相关联,以及其中,第一形状与第二形状相邻。
在第9方面,根据方面8所述的可穿戴显示系统,其中,第一颜色是黑色,以及其中,第二颜色是白色。
在第10方面,根据方面8-9中任一方面所述的可穿戴显示系统,其中,第二形状是部分透明的。
在第11方面,根据第10方面所述的可穿戴显示系统,其中,第二形状的第一区域与第一透明度值相关联,以及其中,第二形状的第二区域与第二透明度值相关联。
在第12方面,根据方面11所述的可穿戴显示系统,其中,第二形状的第二区域进一步远离第二形状的第一区域,以及其中,第二透明度值小于第一透明度值。
在第13方面,根据方面8-12中任一方面所述的可穿戴显示系统,其中,第二形状在第一形状内。
在第14方面,根据方面8-13中任一方面所述的可穿戴显示系统,其中,多个形状中的第三形状与第三颜色相关联,以及其中,第一形状与第一形状相邻。
在第15方面,根据第14方面所述的可穿戴显示系统,其中,第三颜色是白色。
在第16方面,根据方面14-15中任一方面所述的可穿戴显示系统,其中,第一形状在第三形状内。
在第17方面,根据方面1-16中任一方面所述的可穿戴显示系统,其中,UI事件对应于虚拟UI设备的多个状态中的一个状态。
在第18方面,根据第17方面所述的可穿戴显示系统,其中,多个状态包括虚拟UI设备的激活或不激活。
在第19方面,根据方面1-18中任一方面所述的可穿戴显示系统,其中,虚拟UI设备从包括以下各项的组中选择:按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。
在第20方面,根据方面1-19中任一方面所述的可穿戴显示系统,其中,UI指针包括与用户或用户的一部分相关联的对象。
在第21方面,根据方面20所述的可穿戴显示系统,与用户相关联的对象包括指针、钢笔、铅笔、记号笔、荧光笔或其组合,以及其中,用户的一部分包括用户的手指。
用于生成用于训练机器学习模型(例如,神经网络)的训练数据的计算机系统的示
在第22方面,公开了一种用于训练神经网络以确定用户界面事件的系统。该系统包括:计算机可读存储器,其存储可执行指令;以及一个或多个处理器,其由可执行指令编程为至少:接收多个图像,其中,多个图像中的一个图像包括多个指针中的一个指针,其中,图像与在图像上的图像位置处的多个虚拟用户界面(UI)设备中的虚拟UI设备相关联,以及其中,图像与关于虚拟UI设备和图像中的指针的多个UI事件中的UI事件相关联;将虚拟UI设备的表示渲染到图像位置处的图像上以生成训练图像;以及生成包括输入数据和对应目标输出数据的训练集,其中,输入数据包括训练图像,以及其中,对应的目标输出数据包括UI事件。
在第23方面,根据方面22所述的系统,其中,一个或多个处理器进一步被编程为使用训练集训练机器学习模型(例如,神经网络),以确定与虚拟UI设备和指针相关联的UI事件。
在第24方面,根据方面22-23中任一方面所述的系统,其中,虚拟UI设备的表示包括多个高对比度的形状。
在第25方面,根据方面24所述的系统,其中,多个高对比度的形状包括多个高对比度的同心形状。
在第26方面,根据方面24-25中任一方面所述的系统,其中,多个形状的形状的重心在彼此的阈值距离内。
在第27方面,根据方面26所述的系统,其中,阈值距离是0。
在第28方面,根据方面24-27中任一方面所述的系统,其中多个形状中的第一形状与第一颜色相关联,其中多个形状中的第二形状与第二颜色相关联,以及其中第一形状与第二形状相邻。
在第29方面,根据方面28所述的系统,其中第一颜色是黑色,以及其中第二颜色是白色。
在第30方面,根据方面28-29中任一方面所述的系统,其中第二形状是部分透明的。
在第31方面,根据方面30所述的系统,其中第二形状的第一区域与第一透明度值相关联,以及其中第二形状的第二区域与第二透明度值相关联。
在第32方面,根据方面31所述的系统,其中第二形状的第二区域进一步远离第二形状的第一区域,以及其中第二透明度值小于第一透明度值。
在第33方面,根据方面28-32中任一方面所述的系统,其中第二形状在第一形状内。
在第34方面,根据方面28-33中任一方面所述的系统,其中多个形状中的第三形状具有第三颜色,以及其中第一形状与第一形状相邻。
在第35方面,根据方面34所述的系统,其中第三颜色是白色。
在第36方面,根据方面34-35中任一方面所述的系统,其中第一形状在第三形状内。
在第37方面,根据方面22-36中任一方面所述的系统,其中UI事件对应于虚拟UI设备的多个状态中的一个状态。
在第38方面,根据方面37所述的系统,其中多个状态包括虚拟UI设备的激活或不激活。
在第39方面,根据方面22-38中任一方面所述的系统,其中多个虚拟UI设备包括按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。
在第40方面,根据方面22-39中任一方面所述的系统,其中多个UI指针包括与用户或用户的一部分相关联的对象。
在第41方面,根据方面40所述的系统,其中与用户相关联的对象包括指针、钢笔、铅笔、记号笔、荧光笔或其组合,以及其中用户的一部分包括用户的手指。
使用训练的神经网络确定UI事件的方法的示例
在第42方面,公开了一种用于使用神经网络确定UI事件的方法。该方法在硬件处理器的控制下,并且包括:访问使用以下方式训练的用于确定UI事件的神经网络:与训练虚拟UI设备相关联的训练图像,该训练图像包括训练虚拟UI设备的表示和训练指针,以及关于训练虚拟UI设备和训练图像中的训练指针的训练UI事件;接收包括指针的图像,其中虚拟用户界面(UI)设备与图像上的图像位置处的图像相关联,其中当图像被捕获(例如,由ARD的图像捕获设备捕获)时,虚拟UI设备显示在显示位置(例如,ARD显示器上的显示位置)处,以及其中图像位置与显示位置有关;从图像捕获设备接收图像;将虚拟UI设备的表示渲染到图像位置处的图像上;以及使用神经网络确定关于图像中的指针和与图像相关联的虚拟UI设备的UI事件。
在第43方面,根据方面42所述的方法,进一步包括:基于UI事件生成虚拟内容(或虚拟图像信息);以及可选地使虚拟内容被显示。
在第44方面,根据方面42-43中任一方面所述的方法,进一步包括:基于UI事件执行动作(例如,激活诸如电视、汽车等的另一设备,或者与另一设备(诸如电话、移动设备、ARD等)连接)。
在第45方面,根据方面42-44中任一方面所述的方法,其中虚拟UI设备的表示包括多个高对比度的形状。
在第46方面,根据方面45所述的方法,其中,多个高对比度的形状包括多个高对比度的同心形状。
在第47方面,根据方面45-46中任一方面所述的方法,其中多个形状的形状的重心在彼此的阈值距离内。
在第48方面,根据方面47所述的方法,其中,阈值距离是0。
在第49方面,根据方面45-48中任一方面所述的方法,其中多个形状中的第一形状与第一颜色相关联,其中多个形状中的第二形状与第二颜色相关联,以及其中第一形状与第二形状相邻。
在第50方面,根据方面49所述的方法,其中第一颜色是黑色,以及其中第二颜色是白色。
在第51方面,根据方面49-50中任一方面所述的方法,其中第二形状是部分透明的。
在第52方面,根据方面51所述的方法,其中第二形状的第一区域与第一透明度值相关联,以及其中第二形状的第二区域与第二透明度值相关联。
在第53方面,根据方面52所述的方法,其中第二形状的第二区域进一步远离第二形状的第一区域,以及其中第二透明度值小于第一透明度值。
在第54方面,根据方面49-53中任一方面所述的方法,其中第二形状在第一形状内。
在第55方面,根据方面49-54中任一方面所述的方法,其中多个形状中的第三形状与第三颜色相关联,以及其中第一形状与第一形状相邻。
在第56方面,根据方面55所述的方法,其中第三颜色是白色。
在第57方面,根据方面55-56中任一方面所述的方法,其中第一形状在第三形状内。
在第58方面,根据方面42-57中任一方面所述的方法,其中UI事件对应于虚拟UI设备的多个状态中的一个状态。
在第59方面,根据方面58所述的方法,其中多个状态包括虚拟UI设备的激活或不激活。
在第60方面,根据方面42-59中任一方面所述的方法,其中,虚拟UI设备选自包括如下的组:按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。
在第61方面,根据方面42-60中任一方面所述的方法,其中UI指针包括与用户或用户的一部分相关联的对象。
在第62方面,根据方面61所述的方法,其中与用户相关联的对象包括指针、钢笔、铅笔、记号笔、荧光笔或其组合,以及其中用户的一部分包括用户的手指。
用于训练机器学习模型(例如,神经网络)的方法的示例
在第63方面,公开了一种用于训练神经网络以确定用户界面事件的方法。该方法在硬件处理器的控制下并且包括:接收多个图像,其中多个图像中的第一图像包括多个指针中的一个指针的第一表示,其中第一图像与在第一图像中的第一图像位置处的多个虚拟UI设备的虚拟用户界面(UI)设备的第一表示相关联,以及其中第一图像与关于虚拟UI设备和第一图像中的指针的多个UI事件中的UI事件相关联;将虚拟UI设备的第一表示渲染到第一图像位置处的第一图像上以生成第一训练图像;生成包括输入数据和对应目标输出数据的训练集,其中输入数据包括第一训练图像,以及其中对应的目标输出数据包括UI事件;以及使用训练集来训练用于确定与虚拟UI设备和指针相关联的UI事件的神经网络。
在第64方面,根据方面63所述的方法,其中,多个图像中的第二图像包括指针的第二表示,其中第二图像与在第二图像中的第二图像位置处的虚拟UI设备的第二表示相关联,以及其中第二图像与UI事件相关联。
在第65方面,根据方面64所述的方法,其中第一图像和第二图像形成立体对。
在第66方面,根据方面64所述的方法,其中第一图像和第二图像是多视场图像集的图像。
在第67方面,根据方面64-66中任一方面所述的方法,进一步包括:将虚拟UI设备的第二表示渲染到第二图像位置处的第二图像上以生成第二训练图像,其中输入数据包括第二训练图像。
在第68方面,根据方面63-67中任一方面所述的方法,其中虚拟UI设备的第一表示包括多个高对比度的形状。
在第69方面,根据方面68所述的方法,其中多个高对比度的形状包括多个高对比度的同心形状。
在第70方面,根据方面68-69中任一方面所述的方法,其中多个形状的形状的重心在彼此的阈值距离内。
在第71方面,根据方面70所述的方法,其中阈值距离是0。
在第72方面,根据方面68-71中任一方面所述的方法,其中多个形状中的第一形状与第一颜色相关联,其中多个形状中的第二形状与第二颜色相关联,以及其中第一形状与第二形状相邻。
在第73方面,根据方面72所述的方法,其中第一颜色是黑色,以及其中第二颜色是白色。
在第74方面,根据方面72-73中任一方面所述的方法,其中第二形状是部分透明的。
在第75方面,根据方面74所述的方法,其中第二形状的第一区域与第一透明度值相关联,以及其中第二形状的第二区域与第二透明度值相关联。
在第76方面,根据方面75所述的方法,其中第二形状的第二区域进一步远离第二形状的第一区域,以及其中第二透明度值小于第一透明度值。
在第77方面,根据方面75-76中任一方面所述的方法,其中第二形状在第一形状内。
在第78方面,根据方面75-77中任一方面所述的方法,其中同心形状的第三形状具有第三颜色,以及其中第一形状与第一形状相邻。
在第79方面,根据方面78所述的方法,其中第三颜色是白色。
在第80方面,根据方面78-79中任一方面所述的方法,其中第一形状在第三形状内。
在第81方面,根据方面63-80中任一方面所述的方法,其中UI事件对应于虚拟UI设备的多个状态中的一个状态。
在第82方面,根据方面81所述的方法,其中多个状态包括虚拟UI设备的激活或不激活。
在第83方面,根据方面63-82中任一方面所述的方法,其中多个虚拟UI设备包括按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。
在第84方面,根据方面63-83中任一方面所述的方法,其中多个UI指针包括与用户或用户的一部分相关联的对象。
在第85方面,根据方面84所述的方法,其中与用户相关联的对象包括指针、钢笔、铅笔、记号笔、荧光笔或其组合,以及其中用户的一部分包括用户的手指。
其它注意事项
在此描述和/或附图中描绘的过程、方法和算法中的每一个可以在由一个或多个物理计算系统、硬件计算机处理器、专用电路和/或配置为执行专用和特定计算机指令的电子硬件执行的代码模块中体现,并且完全或部分地由代码模块自动化。例如,计算系统可以包括用特定计算机指令或专用计算机、专用电路等编程的通用计算机(例如服务器)。代码模块可以被编译并链接到可执行程序中,安装在动态链接库中,或者可以用解释的编程语言编写。在一些实施方式中,特定操作和方法可以由特定于给定功能的电路执行。
此外,本公开的功能的某些实现方式在数学上、计算上或技术上足够复杂,以使得专用硬件或一个或多个物理计算设备(利用适当的专用可执行指令)可能有必要例如由于所涉及的计算的量或复杂性而执行功能或者基本上实时地提供结果。例如,视频可以包括许多帧,每个帧具有数百万个像素,并且需要专门编程的计算机硬件来处理视频数据以在商业上合理的时间量内提供所需的图像处理任务或应用。另外,训练和执行神经网络在计算上可能具有挑战性。在一些情况下,神经网络由一个或多个图形处理单元(GPU)执行。
代码模块或任何类型的数据可以存储在任何类型的非暂态计算机可读介质上,诸如包括硬盘驱动器、固态存储器、随机存取存储器(RAM)、只读存储器(ROM)、光盘、易失性或非易失性存储设备,与它们相同或类似物的组合等的物理计算机存储设备。方法和模块(或数据)还可以作为生成的数据信号(例如,作为载波或其它模拟或数字传播信号的一部分)在各种计算机可读传输介质(包括基于无线的和有线的/基于电缆的介质)上发送,并且可以采用多种形式(例如,作为单个或多路复用模拟信号的一部分,或者作为多个离散数字分组或帧)。所公开的过程或过程步骤的结果可以持久地或以其它方式存储在任何类型的非暂态有形计算机存储设备中,或者可以经由计算机可读传输介质传送。
在此描述和/或附图中描绘的流程图中的任何过程、框、状态、步骤或功能应当理解为可能表示代码模块、代码段或代码部分,其包括用于实施特定功能(例如,逻辑或算术)或过程中的步骤的一个或多个可执行指令。各种过程、块、状态、步骤或功能可以与在此提供的说明性示例组合、重新排列、添加、删除、修改或以其它方式改变。在一些实施例中,附加或不同的计算系统或代码模块可以执行在此描述的一些或全部功能。在此描述的方法和过程也不限于任何特定序列,并且与其相关的块、步骤或状态可以以适当的其它顺序执行,例如,以串行、并行或以一些其它方式。可以向所公开的示例实施例添加任务或事件或从中移除任务或事件。此外,在此描述的实现方式中的各种系统组件的分离是出于说明性目的,并且不应被理解为在所有实现方式中都需要这种分离。应当理解,所描述的程序部件、方法和系统通常可以一起集成在单个计算机产品中或打包成多个计算机产品。许多实现方式变化都是可能的。
过程、方法和系统可以在网络(或分布式)计算环境中实现。网络环境包括企业范围的计算机网络、内联网、局域网(LAN)、广域网(WAN)、个人局域网(PAN)、云计算网络、众包计算网络、互联网和万维网。网络可以是有线或无线网络或任何其它类型的通信网络。
本公开的系统和方法各自具有若干创新方面,其中没有一个单独地对在此公开的期望属性负责或要求。在此所述的各种特征和过程可以彼此独立地使用,或者可以以各种方式组合。所有可能的组合和子组合都旨在落入本公开的范围内。对本领域技术人员来说,对本公开中描述的实现方式的各种修改是显而易见的,并且在不脱离本公开的精神或范围的情况下,在此定义的一般原理可以应用于其它实现方式。因此,权利要求不旨在限于在此所示的实现方式,而是与符合在此公开的本公开、原理和新颖特征的最宽范围相一致。
在单独实现方式的上下文中在本说明书中描述的某些特征也可以在单个实现方式中组合实施。相反,在单个实现方式的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实现方式中实现。此外,尽管上面的特征可以描述为以某些组合起作用并且甚至最初如此要求保护,但是在一些情况下可以从组合中排除来自所要求保护的组合的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变体。对于每个和所有实施例,单个特征或特征组并非必需或必不可少。
除非另有说明,或者在所使用的上下文中以其它方式理解,否则在此使用的条件语言,诸如“能够”、“可以”、“可能”、“可”、“例如”等通常旨在传达某些实施例包括某些特征、元件和/或步骤,而其它实施例不包括某些特征、元件和/或步骤。因此,这种条件语言通常不旨在暗示对于一个或多个实施例以任何方式所需的特征、元素和/或步骤,或者一个或多个实施例必须包括用于决定是否在任何特定实施例中包括或将要执行这些特征、元件和/或步骤(无论是否有作者输入或提示)的逻辑。术语“包含”、“包括”、“具有”等是同义的并且以开放式方式包含使用,并且不排除附加元件、特征、动作、操作等。此外,术语“或”在其包含意义上(而不是在其独有意义上)使用,因此当使用时,例如,为了连接元素列表,术语“或”表示列表中的一个、一些或全部元素。另外,除非另有说明,否则本申请和所附权利要求中使用的冠词“一”、“一个”和“该”应理解为表示“一个或多个”或“至少一个”。
如在此所使用的,指代项目列表中的“至少一个”的短语是指那些项目的任何组合,包括单个成员。例如,“A、B或C中的至少一个”旨在涵盖:A、B、C、A和B、A和C、B和C,以及A、B和C。除非另外特别说明,否则诸如短语“X、Y和Z中的至少一个”的联合语言以其它方式通过上下文理解为通常用于传达项目、术语等可以是X、Y或Z中的至少一个。因此,这种联合语言通常不旨在暗示某些实施例需要X中的至少一个、Y中的至少一个和Z中的至少一个各自存在。
类似地,虽然可以以特定顺序在附图中描绘操作,但应认识到,不需要以所示的特定顺序或按顺序执行这些操作,或者执行所有示出的操作,以实现期望的结果。此外,附图可以以流程图的形式示意性地描绘一个或多个示例过程。然而,未示出的其它操作可以包含在示意性示出的示例方法和过程中。例如,可以在任何所示操作之前、之后、同时或之间执行一个或多个附加操作。另外,可以在其它实施方式中重新排列或重新排序操作。在某些情况下,多任务处理和并行处理可能是有利的。此外,上述实施方式中的各种系统组件的分离不应被理解为在所有实现方式中都需要这种分离,并且应当理解,所描述的程序组件和系统通常可以在单个软件产品中集成在一起或者被打包到多种软件产品中。另外,其它实现方式在以下权利要求的范围内。在一些情况下,权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。

Claims (61)

1.一种可穿戴显示系统,包括:
图像捕获设备,其被配置为捕获包括指针的图像;
非暂态计算机可读存储介质,其被配置为存储:
所述图像,
与在所述图像上的图像位置处的所述图像相关联的虚拟用户界面(UI)设备,以及
使用以下方式训练的用于确定UI事件的神经网络:
与训练虚拟UI设备相关联的训练图像,所述训练图像包括所述训练虚拟UI设备的表示和训练指针,以及
关于所述训练虚拟UI设备和所述训练图像中的所述训练指针的训练UI事件;
显示器,其被配置为当所述图像捕获设备捕获所述图像时,在显示位置处显示所述虚拟UI设备,其中所述图像位置与所述显示位置相关;以及
硬件处理器,其与所述图像捕获设备、所述显示器和所述非暂态计算机可读存储介质通信,所述处理器由可执行指令编程为:
从所述图像捕获设备接收所述图像;
将所述虚拟UI设备的表示渲染到所述图像位置处的所述图像上;
使用所述神经网络确定关于所述图像中的所述指针以及与所述图像相关联的所述虚拟UI设备的UI事件;
基于所述UI事件生成虚拟内容;以及
使所述显示器将所述虚拟内容呈现给所述可穿戴显示系统的佩戴者。
2.根据权利要求1所述的可穿戴显示系统,其中所述虚拟UI设备的所述表示包括多个高对比度的形状。
3.根据权利要求2所述的可穿戴显示系统,其中所述多个高对比度的形状包括多个高对比度的同心形状。
4.根据权利要求2所述的可穿戴显示系统,其中所述多个形状的形状的重心在彼此的阈值距离内。
5.根据权利要求4所述的可穿戴显示系统,其中所述阈值距离是0。
6.根据权利要求2所述的可穿戴显示系统,
其中所述多个形状中的第一形状与第一颜色相关联,
其中所述多个形状中的第二形状与第二颜色相关联,以及
其中所述第一形状与所述第二形状相邻。
7.根据权利要求6所述的可穿戴显示系统,其中所述第一颜色是黑色,以及其中所述第二颜色是白色。
8.根据权利要求6所述的可穿戴显示系统,其中所述第二形状是部分透明的。
9.根据权利要求8所述的可穿戴显示系统,
其中所述第二形状的第一区域与第一透明度值相关联,以及
其中所述第二形状的第二区域与第二透明度值相关联。
10.根据权利要求9所述的可穿戴显示系统,
其中所述第二形状的所述第二区域进一步远离所述第二形状的所述第一区域,以及
其中所述第二透明度值小于所述第一透明度值。
11.根据权利要求6所述的可穿戴显示系统,其中所述第二形状在所述第一形状内。
12.根据权利要求6所述的可穿戴显示系统,
其中所述多个形状中的第三形状与第三颜色相关联,以及
其中所述第一形状与所述第一形状相邻。
13.根据权利要求12所述的可穿戴显示系统,其中第三颜色是白色。
14.根据权利要求12所述的可穿戴显示系统,其中第一形状在所述第三形状内。
15.根据权利要求1所述的可穿戴显示系统,其中所述UI事件对应于所述虚拟UI设备的多个状态中的一个状态。
16.根据权利要求15所述的可穿戴显示系统,其中所述多个状态包括所述虚拟UI设备的激活或不激活。
17.根据权利要求1所述的可穿戴显示系统,其中所述虚拟UI设备从包括以下各项的组中选择:按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。
18.根据权利要求1所述的可穿戴显示系统,其中所述UI指针包括与用户或所述用户的一部分相关联的对象。
19.根据权利要求18所述的可穿戴显示系统,
其中与所述用户相关联的所述对象包括指针、钢笔、铅笔、记号笔、荧光笔或其组合,以及
其中所述用户的所述一部分包括所述用户的手指。
20.一种用于训练用于确定用户界面事件的神经网络的系统,所述系统包括:
计算机可读存储器,其存储可执行指令;以及
一个或多个处理器,其由所述可执行指令编程为至少:
接收多个图像
其中所述多个图像中的一个图像包括多个指针中的一个指针,
其中所述图像与在所述图像上的图像位置处的多个虚拟用户界面(UI)设备中的虚拟UI设备相关联,以及
其中所述图像与关于所述虚拟UI设备和所述图像中的所述指针的多个UI事件中的UI事件相关联;
将所述虚拟UI设备的表示渲染到所述图像位置处的所述图像上以生成训练图像;
生成包括输入数据和对应目标输出数据的训练集,
其中所述输入数据包括所述训练图像,以及
其中所述对应的目标输出数据包括所述UI事件;以及
使用所述训练集训练神经网络,所述神经网络用于确定与所述虚拟UI设备和所述指针相关联的UI事件。
21.根据权利要求20所述的系统,其中所述虚拟UI设备的所述表示包括多个高对比度的形状。
22.根据权利要求21所述的系统,其中所述多个高对比度的形状包括多个高对比度的同心形状。
23.根据权利要求21所述的系统,其中所述多个形状的形状的所述重心在彼此的阈值距离内。
24.根据权利要求23所述的系统,其中所述阈值距离是0。
25.根据权利要求21所述的系统,
其中所述多个形状中的第一形状与第一颜色相关联,
其中所述多个形状中的第二形状与第二颜色相关联,以及
其中所述第一形状与所述第二形状相邻。
26.根据权利要求25所述的系统,其中所述第一颜色是黑色,以及其中所述第二颜色是白色。
27.根据权利要求25所述的系统,其中所述第二形状是部分透明的。
28.根据权利要求27所述的系统,
其中所述第二形状的第一区域与第一透明度值相关联,以及
其中所述第二形状的第二区域与第二透明度值相关联。
29.根据权利要求28所述的系统,
其中所述第二形状的所述第二区域进一步远离所述第二形状的所述第一区域,以及
其中所述第二透明度值小于所述第一透明度值。
30.根据权利要求25所述的系统,其中所述第二形状在所述第一形状内。
31.根据权利要求25所述的系统,其中所述多个形状中的第三形状具有第三颜色,以及其中所述第一形状与所述第一形状相邻。
32.根据权利要求31所述的系统,其中第三颜色是白色。
33.根据权利要求31所述的系统,其中第一形状在所述第三形状内。
34.根据权利要求20所述的系统,其中所述UI事件对应于所述虚拟UI设备的多个状态中的一个状态。
35.根据权利要求34所述的系统,其中所述多个状态包括所述虚拟UI设备的激活或不激活。
36.根据权利要求20所述的系统,其中所述多个虚拟UI设备包括按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。
37.根据权利要求20所述的系统,其中所述多个UI指针包括与用户或所述用户的一部分相关联的对象。
38.根据权利要求37所述的系统,
其中与所述用户相关联的所述对象包括指针、钢笔、铅笔、记号笔、荧光笔或其组合,以及
其中所述用户的所述一部分包括所述用户的手指。
39.一种用于训练用于确定用户界面事件的神经网络的方法,所述方法包括:
在硬件处理器的控制下:
接收多个图像,
其中所述多个图像中的第一图像包括多个指针中的一个指针的第一表示,
其中所述第一图像与在所述第一图像中的第一图像位置处的多个虚拟用户界面(UI)设备的虚拟UI设备的第一表示相关联,以及
其中所述第一图像与关于所述虚拟UI设备和所述第一图像中的所述指针的多个UI事件中的UI事件相关联;
将所述虚拟UI设备的第一表示渲染到所述第一图像位置处的所述第一图像上以生成第一训练图像;
生成包括输入数据和对应目标输出数据的训练集,
其中所述输入数据包括所述第一训练图像,以及
其中所述对应的目标输出数据包括所述UI事件;以及
使用所述训练集来训练神经网络,所述神经网络用于确定与所述虚拟UI设备和所述指针相关联的UI事件。
40.根据权利要求39所述的方法,
其中所述多个图像中的第二图像包括所述指针的第二表示,
其中所述第二图像与在所述第二图像中的第二图像位置处的所述虚拟UI设备的第二表示相关联,以及
其中所述第二图像与所述UI事件相关联。
41.根据权利要求40所述的方法,其中所述第一图像和所述第二图像形成立体对。
42.根据权利要求40所述的方法,其中所述第一图像和所述第二图像是多视场图像集的图像。
43.根据权利要求40所述的方法,进一步包括:
将所述虚拟UI设备的第二表示渲染到所述第二图像位置处的所述第二图像上以生成第二训练图像;
其中所述输入数据包括所述第二训练图像。
44.根据权利要求39所述的方法,其中所述虚拟UI设备的所述第一表示包括多个高对比度的形状。
45.根据权利要求44所述的方法,其中所述多个高对比度的形状包括多个高对比度的同心形状。
46.根据权利要求44所述的方法,其中所述多个形状的形状的所述重心在彼此的阈值距离内。
47.根据权利要求46所述的方法,其中所述阈值距离是0。
48.根据权利要求44所述的方法,
其中所述多个形状中的第一形状与第一颜色相关联,
其中所述多个形状中的第二形状与第二颜色相关联,以及
其中所述第一形状与所述第二形状相邻。
49.根据权利要求48所述的方法,其中所述第一颜色是黑色,以及其中所述第二颜色是白色。
50.根据权利要求48所述的方法,其中所述第二形状是部分透明的。
51.根据权利要求50所述的方法,
其中所述第二形状的第一区域与第一透明度值相关联,以及
其中所述第二形状的第二区域与第二透明度值相关联。
52.根据权利要求51所述的方法,
其中所述第二形状的所述第二区域进一步远离所述第二形状的所述第一区域,以及
其中所述第二透明度值小于所述第一透明度值。
53.根据权利要求51所述的方法,其中所述第二形状在所述第一形状内。
54.根据权利要求51所述的方法,其中所述同心形状的第三形状具有第三颜色,以及其中所述第一形状与所述第一形状相邻。
55.根据权利要求54所述的方法,其中第三颜色是白色。
56.根据权利要求54所述的方法,其中第一形状在所述第三形状内。
57.根据权利要求39所述的方法,其中所述UI事件对应于所述虚拟UI设备的多个状态中的一个状态。
58.根据权利要求57所述的方法,其中所述多个状态包括所述虚拟UI设备的激活或不激活。
59.根据权利要求39所述的方法,其中所述多个虚拟UI设备包括按钮、上下按钮、微调器、选择器、单选按钮、单选按钮列表、复选框、图片框、复选框列表、下拉列表、下拉菜单、选择列表、列表框、组合框、文本框、滑块、链接、键盘键、开关、滑块、触摸表面或其组合。
60.根据权利要求39所述的方法,其中所述多个UI指针包括与用户或用户的一部分相关联的对象。
61.根据权利要求60所述的方法,
其中与所述用户相关联的所述对象包括指针、钢笔、铅笔、记号笔、荧光笔或其组合,以及
其中所述用户的所述一部分包括所述用户的手指。
CN201880047400.4A 2017-07-26 2018-05-31 采用用户界面设备的表示来训练神经网络 Pending CN110914790A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762537311P 2017-07-26 2017-07-26
US62/537,311 2017-07-26
PCT/US2018/035467 WO2019022849A1 (en) 2017-07-26 2018-05-31 FORMATION OF A NEURONAL NETWORK WITH REPRESENTATIONS OF USER INTERFACE DEVICES

Publications (1)

Publication Number Publication Date
CN110914790A true CN110914790A (zh) 2020-03-24

Family

ID=65041323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880047400.4A Pending CN110914790A (zh) 2017-07-26 2018-05-31 采用用户界面设备的表示来训练神经网络

Country Status (9)

Country Link
US (3) US10922583B2 (zh)
EP (1) EP3659017B1 (zh)
JP (2) JP7149300B2 (zh)
KR (2) KR102666475B1 (zh)
CN (1) CN110914790A (zh)
AU (1) AU2018308418A1 (zh)
CA (1) CA3068448A1 (zh)
IL (2) IL293424A (zh)
WO (1) WO2019022849A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633284A (zh) * 2020-12-08 2021-04-09 北京信息科技大学 一种深度学习手写数字识别方法
CN116991298A (zh) * 2023-09-27 2023-11-03 子亥科技(成都)有限公司 一种基于对抗神经网络的虚拟镜头控制方法

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017068926A1 (ja) * 2015-10-21 2017-04-27 ソニー株式会社 情報処理装置及びその制御方法、並びにコンピュータ・プログラム
US10452974B1 (en) 2016-11-02 2019-10-22 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using a device's circumstances for autonomous device operation
EP3549109B1 (en) 2016-12-05 2023-04-19 Magic Leap, Inc. Virtual user input controls in a mixed reality environment
US10607134B1 (en) 2016-12-19 2020-03-31 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using an avatar's circumstances for autonomous avatar operation
AU2018308418A1 (en) 2017-07-26 2020-01-16 Magic Leap, Inc. Training a neural network with representations of user interface devices
WO2019055703A2 (en) 2017-09-13 2019-03-21 Magical Technologies, Llc VIRTUAL DISPLAY PANEL, FACILITATION OF COLLABORATION, AND MESSAGE OBJECTS FOR FACILITATING COMMUNICATION SESSIONS IN AN INCREASED REALITY ENVIRONMENT
US11861136B1 (en) * 2017-09-29 2024-01-02 Apple Inc. Systems, methods, and graphical user interfaces for interacting with virtual reality environments
WO2019079826A1 (en) 2017-10-22 2019-04-25 Magical Technologies, Llc DIGITAL ASSISTANT SYSTEMS, METHODS AND APPARATUSES IN AN INCREASED REALITY ENVIRONMENT AND LOCAL DETERMINATION OF VIRTUAL OBJECT PLACEMENT AND SINGLE OR MULTIDIRECTIONAL OBJECTIVES AS GATEWAYS BETWEEN A PHYSICAL WORLD AND A DIGITAL WORLD COMPONENT OF THE SAME ENVIRONMENT OF INCREASED REALITY
US10474934B1 (en) * 2017-11-26 2019-11-12 Jasmin Cosic Machine learning for computing enabled systems and/or devices
US11113887B2 (en) * 2018-01-08 2021-09-07 Verizon Patent And Licensing Inc Generating three-dimensional content from two-dimensional images
US11398088B2 (en) 2018-01-30 2022-07-26 Magical Technologies, Llc Systems, methods and apparatuses to generate a fingerprint of a physical location for placement of virtual objects
US10706584B1 (en) * 2018-05-18 2020-07-07 Facebook Technologies, Llc Hand tracking using a passive camera system
US11651559B2 (en) * 2018-06-01 2023-05-16 Siemens Aktiengesellschaft Augmented reality method for simulating wireless signal, and apparatus
US20190385372A1 (en) * 2018-06-15 2019-12-19 Microsoft Technology Licensing, Llc Positioning a virtual reality passthrough region at a known distance
US10725629B2 (en) * 2018-06-25 2020-07-28 Google Llc Identifying and controlling smart devices
WO2020030156A1 (zh) * 2018-08-10 2020-02-13 广东虚拟现实科技有限公司 图像处理方法、终端设备及计算机可读介质
US10567744B1 (en) * 2018-09-24 2020-02-18 Cae Inc. Camera-based display method and system for simulators
US10567743B1 (en) * 2018-09-24 2020-02-18 Cae Inc. See-through based display method and system for simulators
WO2020170105A1 (en) * 2019-02-18 2020-08-27 Purple Tambourine Limited Interacting with a smart device using a pointing controller
US11467656B2 (en) * 2019-03-04 2022-10-11 Magical Technologies, Llc Virtual object control of a physical device and/or physical device control of a virtual object
KR102211762B1 (ko) * 2019-04-02 2021-02-04 네이버웹툰 유한회사 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
US10620713B1 (en) * 2019-06-05 2020-04-14 NEX Team Inc. Methods and systems for touchless control with a mobile device
US20200397345A1 (en) * 2019-06-19 2020-12-24 University Of Southern California Human activity recognition using magnetic induction-based motion signals and deep recurrent neural networks
US11797876B1 (en) * 2019-06-26 2023-10-24 Amazon Technologies, Inc Unified optimization for convolutional neural network model inference on integrated graphics processing units
US10942585B2 (en) * 2019-07-22 2021-03-09 Zspace, Inc. Trackability enhancement of a passive stylus
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
US20210358294A1 (en) * 2020-05-15 2021-11-18 Microsoft Technology Licensing, Llc Holographic device control
US11782733B2 (en) 2020-10-14 2023-10-10 UiPath, Inc. Training an artificial intelligence / machine learning model to recognize applications, screens, and user interface elements using computer vision
US11914835B2 (en) * 2020-11-16 2024-02-27 Samsung Electronics Co., Ltd. Method for displaying user interface and electronic device therefor
JP2022186023A (ja) * 2021-06-04 2022-12-15 キヤノン株式会社 画像処理装置、撮像装置、画像処理方法およびプログラム
US11483642B1 (en) * 2021-07-27 2022-10-25 KaiKuTek Inc. Earphone device having gesture recognition functions
WO2023004509A1 (en) * 2021-07-28 2023-02-02 11089161 Canada Inc. (Dba: Looksgoodai) Method and system for automatic formatting of presentation slides
US20230053464A1 (en) * 2021-08-19 2023-02-23 Data-Core Systems, Inc. Systems, Methods, and Devices for Automatically Converting Explanation of Benefits (EOB) Printable Documents into Electronic Format using Artificial Intelligence Techniques
US12008331B2 (en) * 2021-12-23 2024-06-11 Microsoft Technology Licensing, Llc Utilizing visual and textual aspects of images with recommendation systems
US20230410441A1 (en) * 2022-06-21 2023-12-21 Snap Inc. Generating user interfaces displaying augmented reality graphics
GB2621112A (en) * 2022-07-25 2024-02-07 Sony Interactive Entertainment Europe Ltd Identifying devices in a mixed-reality environment
US12026325B2 (en) 2022-08-17 2024-07-02 Apple Inc. Handheld input devices with sleeves
WO2024043765A1 (ko) * 2022-08-25 2024-02-29 삼성전자 주식회사 Hmd(head mounted display) 장치에서 가상키보드를 표시하는 방법 및 장치
US20240329793A1 (en) * 2023-03-31 2024-10-03 Intel Corporation Technologies for device management in metaverse interactions

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090296985A1 (en) * 2007-11-29 2009-12-03 Nec Laboratories America, Inc. Efficient Multi-Hypothesis Multi-Human 3D Tracking in Crowded Scenes
US20140184496A1 (en) * 2013-01-03 2014-07-03 Meta Company Extramissive spatial imaging digital eye glass apparatuses, methods and systems for virtual or augmediated vision, manipulation, creation, or interaction with objects, materials, or other entities
CN105009039A (zh) * 2012-11-30 2015-10-28 微软技术许可有限责任公司 使用imu的直接全息图操纵
CN105188516A (zh) * 2013-03-11 2015-12-23 奇跃公司 用于增强和虚拟现实的系统与方法

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291560A (en) 1991-07-15 1994-03-01 Iri Scan Incorporated Biometric personal identification system based on iris analysis
US6222525B1 (en) 1992-03-05 2001-04-24 Brad A. Armstrong Image controllers with sheet connected sensors
US5583795A (en) 1995-03-17 1996-12-10 The United States Of America As Represented By The Secretary Of The Army Apparatus for measuring eye gaze and fixation duration, and method therefor
US5670988A (en) 1995-09-05 1997-09-23 Interlink Electronics, Inc. Trigger operated electronic device
JPH10200971A (ja) 1997-01-13 1998-07-31 Mitsubishi Electric Corp パーソナルコンピュータによるワイヤレスリモコンの信号発生装置
US7227526B2 (en) 2000-07-24 2007-06-05 Gesturetek, Inc. Video-based image control system
US7856055B2 (en) 2002-03-13 2010-12-21 Imax Corporation Systems and methods for digitally re-mastering or otherwise modifying motion pictures or other image sequences data
US8098901B2 (en) 2005-01-26 2012-01-17 Honeywell International Inc. Standoff iris recognition system
KR20050025927A (ko) 2003-09-08 2005-03-14 유웅덕 홍채인식을 위한 동공 검출 방법 및 형상기술자 추출방법과 그를 이용한 홍채 특징 추출 장치 및 그 방법과홍채인식 시스템 및 그 방법
USD514570S1 (en) 2004-06-24 2006-02-07 Microsoft Corporation Region of a fingerprint scanning device with an illuminated ring
US7248720B2 (en) 2004-10-21 2007-07-24 Retica Systems, Inc. Method and system for generating a combined retina/iris pattern biometric
JP2006146803A (ja) 2004-11-24 2006-06-08 Olympus Corp 操作装置及び遠隔操作システム
US11428937B2 (en) 2005-10-07 2022-08-30 Percept Technologies Enhanced optical and perceptual digital eyewear
US8696113B2 (en) 2005-10-07 2014-04-15 Percept Technologies Inc. Enhanced optical and perceptual digital eyewear
US20070081123A1 (en) 2005-10-07 2007-04-12 Lewis Scott W Digital eyewear
JP4824420B2 (ja) 2006-02-07 2011-11-30 アイテック株式会社 視線ベクトル検出方法及び同装置
US7970179B2 (en) 2006-09-25 2011-06-28 Identix Incorporated Iris data extraction
US8363783B2 (en) 2007-06-04 2013-01-29 Oraya Therapeutics, Inc. Method and device for ocular alignment and coupling of ocular structures
KR100927009B1 (ko) 2008-02-04 2009-11-16 광주과학기술원 증강 현실에서의 햅틱 상호 작용 방법 및 그 시스템
WO2010003044A2 (en) 2008-07-03 2010-01-07 Nec Laboratories America, Inc. Epithelial layer detector and related methods
US20100131947A1 (en) 2008-11-24 2010-05-27 Disney Enterprises, Inc. System and method for enabling a local user of a real-life simulation environment to interact with a remote user of a corresponding virtual environment
JP5262681B2 (ja) 2008-12-22 2013-08-14 ブラザー工業株式会社 ヘッドマウントディスプレイ及びそのプログラム
WO2010129074A1 (en) 2009-01-14 2010-11-11 Indiana University Research & Technology Corporation System and method for identifying a person with reference to a sclera image
WO2011091326A1 (en) 2010-01-22 2011-07-28 Optimedica Corporation Apparatus for automated placement of scanned laser capsulorhexis incisions
US8345984B2 (en) 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US20150309316A1 (en) 2011-04-06 2015-10-29 Microsoft Technology Licensing, Llc Ar glasses with predictive control of external device based on event input
JP5743416B2 (ja) 2010-03-29 2015-07-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP5257437B2 (ja) 2010-10-20 2013-08-07 コニカミノルタビジネステクノロジーズ株式会社 携帯端末及び処理装置の操作方法
US8683086B2 (en) 2010-11-17 2014-03-25 Flextronics Ap, Llc. Universal remote control with automated setup
US9304319B2 (en) 2010-11-18 2016-04-05 Microsoft Technology Licensing, Llc Automatic focus improvement for augmented reality displays
US10156722B2 (en) 2010-12-24 2018-12-18 Magic Leap, Inc. Methods and systems for displaying stereoscopy with a freeform optical system with addressable focus for virtual and augmented reality
CA2822978C (en) 2010-12-24 2019-02-19 Hong Hua An ergonomic head mounted display device and optical system
JP6316186B2 (ja) 2011-05-06 2018-04-25 マジック リープ, インコーポレイテッドMagic Leap,Inc. 広範囲同時遠隔ディジタル提示世界
JP5765133B2 (ja) 2011-08-16 2015-08-19 富士通株式会社 入力装置、入力制御方法及び入力制御プログラム
US10795448B2 (en) 2011-09-29 2020-10-06 Magic Leap, Inc. Tactile glove for human-computer interaction
US20130104085A1 (en) 2011-10-21 2013-04-25 Digital Artforms, Inc. Systems and methods for human-computer interaction using a two handed interface
RU2017115669A (ru) 2011-10-28 2019-01-28 Мэджик Лип, Инк. Система и способ для дополненной и виртуальной реальности
KR102116697B1 (ko) 2011-11-23 2020-05-29 매직 립, 인코포레이티드 3차원 가상 및 증강 현실 디스플레이 시스템
US20130147686A1 (en) 2011-12-12 2013-06-13 John Clavin Connecting Head Mounted Displays To External Displays And Other Communication Networks
JP2013172432A (ja) 2012-02-23 2013-09-02 Panasonic Corp 機器制御装置、機器制御方法、機器制御プログラム、及び集積回路
WO2013145223A1 (ja) 2012-03-29 2013-10-03 パイオニア株式会社 画像認識装置、画像認識方法、画像認識プログラム、及び記録媒体
CN103369480B (zh) 2012-03-30 2019-01-18 中兴通讯股份有限公司 分组域短信的实现方法、系统和用户设备
KR102028732B1 (ko) 2012-04-05 2019-10-04 매직 립, 인코포레이티드 능동 포비에이션 능력을 갖는 와이드-fov(field of view) 이미지 디바이스들
US9671566B2 (en) 2012-06-11 2017-06-06 Magic Leap, Inc. Planar waveguide apparatus with diffraction element(s) and system employing same
US9310559B2 (en) 2012-06-11 2016-04-12 Magic Leap, Inc. Multiple depth plane three-dimensional display using a wave guide reflector array projector
US9141916B1 (en) 2012-06-29 2015-09-22 Google Inc. Using embedding functions with a deep network
EP2826414B1 (en) 2012-07-31 2016-11-30 Japan Science and Technology Agency Point-of-gaze detection device, point-of-gaze detection method, personal parameter calculating device, personal parameter calculating method, program, and computer-readable storage medium
US8369595B1 (en) 2012-08-10 2013-02-05 EyeVerify LLC Texture features for biometric authentication
US9329678B2 (en) 2012-08-14 2016-05-03 Microsoft Technology Licensing, Llc Augmented reality overlay for control devices
AU2013315607A1 (en) 2012-09-11 2015-04-02 Magic Leap, Inc Ergonomic head mounted display device and optical system
IL293789B2 (en) 2013-01-15 2023-08-01 Magic Leap Inc A system for scanning electromagnetic imaging radiation
JP6127564B2 (ja) 2013-02-15 2017-05-17 コニカミノルタ株式会社 タッチ判定装置、タッチ判定方法、およびタッチ判定プログラム
US9147154B2 (en) 2013-03-13 2015-09-29 Google Inc. Classifying resources using a deep network
KR102458124B1 (ko) 2013-03-15 2022-10-21 매직 립, 인코포레이티드 디스플레이 시스템 및 방법
JP6165485B2 (ja) 2013-03-28 2017-07-19 国立大学法人埼玉大学 携帯端末向けarジェスチャユーザインタフェースシステム
WO2014182769A1 (en) 2013-05-07 2014-11-13 The Johns Hopkins University Automated and non-mydriatic fundus-perimetry camera for irreversible eye diseases
US9275308B2 (en) 2013-05-31 2016-03-01 Google Inc. Object detection using deep neural networks
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9874749B2 (en) 2013-11-27 2018-01-23 Magic Leap, Inc. Virtual and augmented reality systems and methods
US20140380249A1 (en) 2013-06-25 2014-12-25 Apple Inc. Visual recognition of gestures
CN103431840B (zh) 2013-07-31 2016-01-20 北京智谷睿拓技术服务有限公司 眼睛光学参数检测系统及方法
IL302408B2 (en) 2013-10-16 2024-09-01 Magic Leap Inc An augmented or virtual reality head device with intrapupillary distance adjustment
US9202144B2 (en) 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
US10095917B2 (en) 2013-11-04 2018-10-09 Facebook, Inc. Systems and methods for facial representation
JP6236296B2 (ja) 2013-11-14 2017-11-22 株式会社デンソーアイティーラボラトリ 学習装置、学習プログラム、及び学習方法
CN110542938B (zh) 2013-11-27 2023-04-18 奇跃公司 虚拟和增强现实系统与方法
US9857591B2 (en) 2014-05-30 2018-01-02 Magic Leap, Inc. Methods and system for creating focal planes in virtual and augmented reality
CN104750234B (zh) 2013-12-27 2018-12-21 中芯国际集成电路制造(北京)有限公司 可穿戴智能设备及可穿戴智能设备的互动方法
KR20160113592A (ko) * 2014-01-27 2016-09-30 엘지전자 주식회사 안경형 단말기와 그 안경형 단말기의 제어방법
US9430829B2 (en) 2014-01-30 2016-08-30 Case Western Reserve University Automatic detection of mitosis using handcrafted and convolutional neural network features
CN106461955B (zh) 2014-01-31 2019-08-13 奇跃公司 显示增强现实的方法
NZ722903A (en) 2014-01-31 2020-05-29 Magic Leap Inc Multi-focal display system and method
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
IL231862A (en) 2014-04-01 2015-04-30 Superfish Ltd Image representation using a neural network
WO2015164807A1 (en) 2014-04-25 2015-10-29 Texas State University Detection of brain injury and subject state with eye movement biometrics
US9766715B2 (en) 2014-05-01 2017-09-19 Seiko Epson Corporation Head-mount type display device, control system, method of controlling head-mount type display device, and computer program
JP6500477B2 (ja) 2015-02-12 2019-04-17 セイコーエプソン株式会社 頭部装着型表示装置、制御システム、頭部装着型表示装置の制御方法、および、コンピュータープログラム
WO2016018488A2 (en) 2014-05-09 2016-02-04 Eyefluence, Inc. Systems and methods for discerning eye signals and continuous biometric identification
USD759657S1 (en) 2014-05-19 2016-06-21 Microsoft Corporation Connector with illumination region
CN113253476B (zh) 2014-05-30 2022-12-27 奇跃公司 采用虚拟或增强现实装置生成虚拟内容显示的方法和系统
USD752529S1 (en) 2014-06-09 2016-03-29 Comcast Cable Communications, Llc Electronic housing with illuminated region
US9766806B2 (en) 2014-07-15 2017-09-19 Microsoft Technology Licensing, Llc Holographic keyboard display
US9536293B2 (en) 2014-07-30 2017-01-03 Adobe Systems Incorporated Image assessment using deep convolutional neural networks
US20160034811A1 (en) 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
US20160078359A1 (en) 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
US9659384B2 (en) 2014-10-03 2017-05-23 EyeEm Mobile GmbH. Systems, methods, and computer program products for searching and sorting images by aesthetic quality
EP3204888A4 (en) 2014-10-09 2017-10-04 Microsoft Technology Licensing, LLC Spatial pyramid pooling networks for image processing
WO2016054802A1 (en) 2014-10-10 2016-04-14 Beijing Kuangshi Technology Co., Ltd. Hierarchical interlinked multi-scale convolutional network for image parsing
US9900541B2 (en) 2014-12-03 2018-02-20 Vizio Inc Augmented reality remote control
KR102276339B1 (ko) 2014-12-09 2021-07-12 삼성전자주식회사 Cnn의 근사화를 위한 학습 장치 및 방법
JP2016162372A (ja) 2015-03-04 2016-09-05 キヤノン株式会社 情報処理システム及び情報処理方法
US9678664B2 (en) 2015-04-10 2017-06-13 Google Inc. Neural network for keyboard input decoding
US10007413B2 (en) 2015-04-27 2018-06-26 Microsoft Technology Licensing, Llc Mixed environment display of attached control elements
USD758367S1 (en) 2015-05-14 2016-06-07 Magic Leap, Inc. Virtual reality headset
CN112836664A (zh) 2015-08-21 2021-05-25 奇跃公司 使用眼睛姿态测量的眼睑形状估计
USD805734S1 (en) 2016-03-04 2017-12-26 Nike, Inc. Shirt
USD794288S1 (en) 2016-03-11 2017-08-15 Nike, Inc. Shoe with illuminable sole light sequence
KR102442569B1 (ko) 2016-07-14 2022-09-08 매직 립, 인코포레이티드 각막 곡률을 이용한 홍채 경계 추정
KR102648770B1 (ko) 2016-07-14 2024-03-15 매직 립, 인코포레이티드 홍채 식별을 위한 딥 뉴럴 네트워크
US20180033912A1 (en) 2016-07-28 2018-02-01 Lumileds Llc Iii-p light emitting device with a superlattice
KR102529137B1 (ko) 2016-08-22 2023-05-03 매직 립, 인코포레이티드 딥 러닝 센서들을 갖는 증강 현실 디스플레이 디바이스
RU2016138608A (ru) 2016-09-29 2018-03-30 Мэджик Лип, Инк. Нейронная сеть для сегментации изображения глаза и оценки качества изображения
US10489680B2 (en) 2016-10-04 2019-11-26 Magic Leap, Inc. Efficient data layouts for convolutional neural networks
AU2017361061B2 (en) 2016-11-15 2022-02-03 Magic Leap, Inc. Deep learning system for cuboid detection
EP3549109B1 (en) 2016-12-05 2023-04-19 Magic Leap, Inc. Virtual user input controls in a mixed reality environment
US10803616B1 (en) * 2017-04-13 2020-10-13 Facebook Technologies, Llc Hand calibration using single depth camera
AU2018308418A1 (en) 2017-07-26 2020-01-16 Magic Leap, Inc. Training a neural network with representations of user interface devices
US11756291B2 (en) * 2018-12-18 2023-09-12 Slyce Acquisition Inc. Scene and user-input context aided visual search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090296985A1 (en) * 2007-11-29 2009-12-03 Nec Laboratories America, Inc. Efficient Multi-Hypothesis Multi-Human 3D Tracking in Crowded Scenes
CN105009039A (zh) * 2012-11-30 2015-10-28 微软技术许可有限责任公司 使用imu的直接全息图操纵
US20140184496A1 (en) * 2013-01-03 2014-07-03 Meta Company Extramissive spatial imaging digital eye glass apparatuses, methods and systems for virtual or augmediated vision, manipulation, creation, or interaction with objects, materials, or other entities
CN105188516A (zh) * 2013-03-11 2015-12-23 奇跃公司 用于增强和虚拟现实的系统与方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633284A (zh) * 2020-12-08 2021-04-09 北京信息科技大学 一种深度学习手写数字识别方法
CN112633284B (zh) * 2020-12-08 2023-08-15 北京信息科技大学 一种深度学习手写数字识别方法
CN116991298A (zh) * 2023-09-27 2023-11-03 子亥科技(成都)有限公司 一种基于对抗神经网络的虚拟镜头控制方法
CN116991298B (zh) * 2023-09-27 2023-11-28 子亥科技(成都)有限公司 一种基于对抗神经网络的虚拟镜头控制方法

Also Published As

Publication number Publication date
US10922583B2 (en) 2021-02-16
JP2022177046A (ja) 2022-11-30
AU2018308418A1 (en) 2020-01-16
WO2019022849A1 (en) 2019-01-31
IL271929B (en) 2022-07-01
KR20220030315A (ko) 2022-03-10
KR102666475B1 (ko) 2024-05-21
JP7149300B2 (ja) 2022-10-06
IL271929A (en) 2020-02-27
US11630314B2 (en) 2023-04-18
KR20200034741A (ko) 2020-03-31
JP7198383B2 (ja) 2022-12-28
JP2020528597A (ja) 2020-09-24
IL293424A (en) 2022-07-01
EP3659017A4 (en) 2021-06-02
US20220245404A1 (en) 2022-08-04
US11334765B2 (en) 2022-05-17
CA3068448A1 (en) 2019-01-31
EP3659017B1 (en) 2023-04-05
EP3659017A1 (en) 2020-06-03
KR102368661B1 (ko) 2022-02-28
US20210133506A1 (en) 2021-05-06
US20190034765A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
US11334765B2 (en) Training a neural network with representations of user interface devices
JP7540112B2 (ja) 視野周辺の視覚的背光
US10977820B2 (en) Personalized neural network for eye tracking
EP3436863B1 (en) Interactions with 3d virtual objects using poses and multiple-dof controllers
US20240312158A1 (en) Object interactivity in virtual space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination