CN114616598A - 使用眼睛注视数据的文本布局解释 - Google Patents
使用眼睛注视数据的文本布局解释 Download PDFInfo
- Publication number
- CN114616598A CN114616598A CN202080026203.1A CN202080026203A CN114616598A CN 114616598 A CN114616598 A CN 114616598A CN 202080026203 A CN202080026203 A CN 202080026203A CN 114616598 A CN114616598 A CN 114616598A
- Authority
- CN
- China
- Prior art keywords
- text
- gaze
- layout
- training
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 claims abstract description 156
- 238000000034 method Methods 0.000 claims abstract description 55
- 230000015654 memory Effects 0.000 claims description 41
- 238000012795 verification Methods 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 18
- 239000011521 glass Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 9
- 239000004984 smart glass Substances 0.000 description 25
- 238000013480 data collection Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000004044 response Effects 0.000 description 12
- 230000003190 augmentative effect Effects 0.000 description 8
- 238000010200 validation analysis Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 208000010415 Low Vision Diseases 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 230000004303 low vision Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 244000299461 Theobroma cacao Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 241000208467 Macadamia Species 0.000 description 3
- 244000269722 Thea sinensis Species 0.000 description 3
- 235000009470 Theobroma cacao Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002035 prolonged effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000004424 eye movement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 235000005764 Theobroma cacao ssp. cacao Nutrition 0.000 description 1
- 235000005767 Theobroma cacao ssp. sphaerocarpum Nutrition 0.000 description 1
- 235000001046 cacaotero Nutrition 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000004570 mortar (masonry) Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- User Interface Of Digital Computer (AREA)
- Medical Informatics (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
从在阅读训练文本时执行的眼睛注视跟踪所收集到的注视数据可以用于训练至少一个布局解释模型。以这种方式,可以训练该至少一个布局解释模型以确定包括根据布局布置的单词的当前文本,用该至少一个布局解释模型处理当前文本以确定布局,并且输出具有根据布局布置的单词的当前文本。
Description
技术领域
本描述涉及用于理解文本的机器学习技术。
背景技术
书面语言通常具有默认布局或顺序。例如,在特定文档中,文本可以从左到右和/或从上到下表达。
光学字符识别(OCR)和相关技术已被开发用于视觉接收书面文本(例如,使用相机),并以替代格式表达接收的文本。例如,OCR技术可用于从不可编辑的文本中提供可编辑的文本,或使用文本到语音(TTS)技术提供文本的可听阅读。
然而,在许多情况下,视觉文本不遵循默认或易于辨别的布局或顺序。在这种情况下,OCR、TTS和相关技术可能会提供不正确的输出,或产生其它不期望的结果。
发明内容
根据一个一般方面,一种计算机程序产品可以有形地体现在非暂时性计算机可读存储介质上,并且可以包括指令,当该指令由至少一个计算设备执行时,该指令被配置成使该至少一个计算设备对于训练文本接收从在阅读训练文本时执行的眼睛注视跟踪所收集到的注视数据。指令在由该至少一个计算设备执行时可以进一步被配置成使该至少一个计算设备使用训练文本和注视数据训练至少一个布局解释模型。因此可以训练该至少一个布局解释模型以确定包括根据布局布置的单词的当前文本,用该至少一个布局解释模型处理当前文本以确定布局,并输出具有根据布局布置的单词的当前文本。
根据另一个一般方面,一种计算机实现的方法可以包括对于训练文本接收从在阅读训练文本时执行的眼睛注视跟踪所收集到的注视数据,并且使用训练文本和注视数据训练至少一个布局解释模型。因此可以训练该至少一个布局解释模型以确定包括根据布局布置的单词的当前文本,用该至少一个布局解释模型处理当前文本以确定布局,并输出具有根据布局布置的单词的当前文本。
根据另一个一般方面,一种系统可以包括包含指令的至少一个存储器,以及至少一个处理器,该至少一个处理器可操作地耦合到该至少一个存储器,并且该至少一个处理器被布置并配置成执行指令,当该指令被执行时,该指令使该至少一个处理器确定包括根据布局布置的单词的当前文本。当该指令被执行时,该指令可以进一步被配置成使该至少一个处理器用该至少一个布局解释模型处理当前文本以确定布局,使用从在阅读训练文本时执行的眼睛注视跟踪所收集到的训练文本和注视数据训练该至少一个布局解释模型,并且输出具有根据布局布置的单词的当前文本。
在附图和下面的描述中阐述了一个或多个实现方式的细节。从描述和附图以及从权利要求中,其它特征将是显而易见的。
附图说明
图1是使用眼睛注视数据进行文本布局解释的系统的框图。
图2是图示图1的系统的示例操作的流程图。
图3是可以使用图1和图2的技术处理的第一示例文本。
图4是可以使用图1和图2的技术处理的第二示例文本。
图5是图示用于训练图1的系统的示例技术的更详细的流程图。
图6是图示用于使用图1、图2以及图5的训练技术来部署模型的示例技术的更详细的流程图。
图7图示了可以与图1的系统一起使用的一副示例智能眼镜。
图8示出了根据至少一个示例实施例的计算机设备和移动计算机设备的示例。
具体实施方式
所描述的系统和技术使得能够容易理解可视文本,例如,书面文本,其可以不遵循已知、默认或标准布局或顺序的布局显示。例如,英语文档通常可以按照从上到下、从左到右的格式,或者使用一些其它定义的视觉层次结构书写,其中这些层次结构被选择为对应于观看者可能处理信息的顺序。但是,由于各种原因,许多文本实例并不遵循这种标准或易于预测的格式。在这种情况下,对于软件来说变得很难或不可能有效地解释或利用这些文本。结果,试图解释或利用此类文本的输出,例如,可听输出,可能难以理解,或者可能向用户提供错误信息。
例如,具有广告商品或服务的文本的标志可以用被设计成捕获用户的注意力的顺序来提供文本,其中以一种被认为会增加诱导购买所广告的商品或服务的可能性的特定方式进行上述顺序的设计。在其它示例中,可以以对应于标志区域中的邻近物理布局的方式或者以提供关于标志区域中的邻近物理布局的信息的方式来提供标志布局。例如,街道标志可以提供与附近物理布局相对应的街道名称或方向,诸如从高速公路采取哪个出口。在其它示例中,商店(例如,杂货店)内的标志可以被布置为视觉地指示基于地点的信息(例如,商店的哪个过道包含特定类型的物品,以及在过道的哪一侧)。
在许多情况下,人类用户能够基于上下文和个人经验从这样的文本推断预期含义。例如,在上面的示例中,广告商可以精确地以一种被认为会捕获消费者关于所广告的商品/服务的注意力的方式设计广告。有经验的司机可以很容易地从张贴的标志上解释行车方向(driving directions),而购物者例行使用张贴的标牌来定位商店内要购买的物品。
然而,在许多情况下,人类用户(标牌和其它文本表面上是为他们设计的)可能仍然难以理解这样的文本。例如,文本设计者可能在文本布局方面做得很差,或者用户可能包括非母语者、盲人或弱视用户,或有身体挑战而难以理解文本的其它用户。
可以实现本文描述的技术以通过为视觉文本提供可听的或其它输出来帮助这样的用户,该技术捕获和表达文本的预期含义(例如,语义含义)。此外,所描述的技术可用于提取、概括、识别或查询文本,而这些文本以其它方式可能无法用于此类目的。
特别地,如本文中详细描述的,这些技术利用来自大量用户的眼睛注视数据和大量文本来训练一个或多个机器学习(ML)模型以自动识别并使用合适的用于阅读文本实例的布局。然后可以部署经过训练的ML模型以在刚刚引用的示例类型和其它示例中帮助用户。
例如,智能眼镜的许多用户可能在佩戴这种智能眼镜的同时例行地阅读标志和其它文本。当这种智能眼镜被配备来执行注视跟踪,并且用户正确阅读特定文本时,则可以将所得的眼睛注视数据和文本存储为标记的训练集。因此,使用此类训练数据训练的ML模型将来也能够正确阅读相同或相似的文本。如果适当的大量的此类用户贡献了此类训练数据,则所得的ML模型可以在各种设置和上下文中提供准确的文本解释。
在一些情况下,能够构建用于解释文本布局的规则,并且此类规则可用于补充或增强经训练的ML模型的使用。然而,构建可用于在上面引用的所有可用类型的广告和标志的合适的规则集是不可行的,更不用说可以使用所描述的技术的所有其它设置,包括例如菜单、海报、报纸、杂志、书籍、演示文稿和各种其它类型的文件。
相比之下,所描述的技术可以针对所有这样的用例和其它用例以统一的方式实现。此外,所描述的技术可适用于跨多种语言、地区和其它上下文的此类用例。此外,所描述的技术可以廉价地并且具有高度的准确度和可靠性来实现。
图1是使用眼睛注视数据进行文本布局解释的系统的框图。在图1的示例中,注视跟踪设备102被配置成阅读训练文本104。训练设备106可以使用来自注视跟踪设备102的所得的注视数据和来自多个注视跟踪设备108的类似注视数据来训练一个或多个机器学习模型。
然后,即使在当前文本112具有非常规的布局114的情况下,文本阅读器110也能够阅读当前文本112。例如,在图1的简化示例中,布局114包括第一单词116,其大于第二单词118和第三单词120并且被定位在第二单词118和第三单词120之间。虽然人类读者可以容易地从第一单词116、第二单词118和第三单词120的内容、上下文和大小中推断阅读当前文本112的预期方式,传统的基于机器的文本阅读器(例如,典型的文本阅读软件)通常会以从上到下的方式阅读当前文本112,如“第二单词118、第一单词116、第三单词120。”
虽然图1提供了当前文本112的单个简化示例,但是从当前描述中可以领会到,文本阅读器110可以以快速、方便、可靠,并且不需要大量的处理能力或内存的方式解释和阅读极其大量和不同类型的文本布局。例如,除了上面提供的示例之外,文本阅读器110可以被配置成正确地阅读当前文本112,即使当布局114包括例如列、页眉、页脚、脚注、主题、标题、副标题、大纲和字幕,其中在例如文本大小、颜色、字体和文本强调技术(例如,粗体、下划线、斜体)方面具有多种类型的变化也是如此。当前文本112可以包括许多不同类型的物理地点/上下文中的标志,以及各种类型的网页、文档、文章和故事,并且包括图形、地图、表格和图表。
更详细地,训练文本104本身可以包括文本和相关联的文本元素的任何潜在布置或布局,其中一些在上面也被引用为出现在当前文本112内。注视跟踪设备102的单个用户可能会遇到训练文本104的许多不同实例,它们具有许多不同的布局。
例如,注视跟踪设备102可以表示便携式(例如,可穿戴)设备,因此随着注视跟踪设备102的用户从一个地方移动到另一个地方,该注视跟踪设备可以被运送到许多不同的物理地点。在这样的移动期间,可以观察和记录训练文本104的各种实例以供训练设备106使用。
此外,多个注视跟踪设备108表示其中大量用户各自利用对应大量的多个注视跟踪设备108的实现方式。当该多个注视跟踪设备108是便携式时,例如,可穿戴,则训练设备106可以被提供有对应大量的训练数据。
在一些实现方式中,多个注视跟踪设备108中的一个或多个可能不是便携式的,如下所述。尽管如此,训练设备106可以被提供有大量各种各样的训练数据,从而得到有效的训练。
如上面所引用的,注视跟踪设备102和多个注视跟踪设备108中的一个或多个可以实现为便携式(例如,可穿戴)设备。例如,注视跟踪设备102可以实现为头戴式设备(HMD),例如,实现为一副智能眼镜,诸如下面关于图7所图示和描述的那些。这样的HMD可以包括以下任何硬件(和相关联的软件),这些硬件(和相关的软件)可以佩戴在用户的头上,并且用或利用(leverages or utilizes)其在用户头上的位置,和/或依赖或增强用户能力(例如,视力、听力或头部位置/定向)以向用户提供功能。例如,除了智能眼镜之外,注视跟踪设备102可以包括或表示增强现实眼镜、护目镜、帽子、头盔、头带或其它头饰。更一般地,注视跟踪设备102可以被实现为可以被配置成提供这里描述的特征和功能的任何合适的计算设备,诸如以下关于图8所图示和描述的。
因此,在图1的示例中为了简洁和简单起见,注视跟踪设备102被图示为具有实现这里描述的技术所需的最小化的硬件和软件特征集。然而,将会领会到,可以包括图7和图8的硬件和软件特征中的任何特征,并且也包括未明确描述的其它硬件和软件特征,包括各种类型的传感器、显示器和输入/输出(I/O)元件。
因此,在各种实现方式中,图1的注视跟踪设备102可以对其用户来说具有一个或多个主要目的或效用。例如,智能眼镜可以被利用从而为用户提供增强现实(AR)功能。在其它实现方式中,注视跟踪设备102可以被实施为智能电话、膝上型计算机或个人计算机,其用户可以以任何期望的或传统的方式使用其中的任何一个。
在这样的主要用途期间或与其结合,注视跟踪设备102可以被配置成以次要或补充的方式执行这里描述的功能,其中对主要用途的干扰最小或没有对主要用途的干扰。例如,使用增强现实眼镜的用户可能会在不同的地方佩戴增强现实眼镜,并且可能会阅读可能在这些地方观察到的各种标志和其它文本(其中一些可能会用附加信息进行增强,作为增强现实眼镜的主要功能的一部分)。在其它示例中,用户可以阅读显示在个人计算机的网页上的文档。
在这些和其它场景中,注视跟踪设备102的相机122可以被注视跟踪模块124使用,从而存储注视数据126。参考图1,可以使用任何已知的或未来类型的注视跟踪技术,例如,其中在阅读训练文本104期间用户眼睛的位置和视角被检测并被记录。存在许多不同类型的眼睛跟踪和/或注视跟踪技术,并且可以常规地用于例如跟踪广告或网页设计的功效,或用于各种其它目的。
例如,在一些实现方式中,注视跟踪设备102的红外(IR)光源可以在阅读训练文本104的期间发生的一段时间内用于从用户的眼睛的反射,如由相机122检测到。可以使用相同或不同的相机来捕获训练文本104,例如,可以捕获训练文本104的图像。
因此,注视数据126应该被理解为至少包括训练文本104的图像,以及存储的相对于训练文本104的图像表征的眼睛移动数据。例如,在简化示例中,在简化示例中,注视数据126可以存储训练文本104的图像以及训练文本104内的个别单词,以对应于用户阅读训练文本104的顺序的顺序布置所述单个单词。在其它示例中,注视数据126可以将训练文本104的图像连同坐标系一起存储,该坐标系也用作公共参照框架以在阅读该训练文本104期间表征相对于该训练文本104的内容的眼睛移动。
在许多情况下,获得足够数量和质量的训练数据是设计和实现机器学习模型和相关系统的限制因素。例如,可能有必要指导和/或补偿那些提供训练数据到不期望或不可行的程度的用户。在其它示例中,可能简单地收集了大量训练数据,但是所得的训练数据的质量可能太低而无法实现预期结果。
然而,在图1中,所描述的用于收集注视数据126的技术假设或依赖于这样一个事实,即,大多数人类读者将以预期的方式阅读训练文本104,几乎不需要或不需要额外的指令。例如,如本文所述,训练文本104的布局可以被精确地设计和实现以鼓励读者以期望的方式阅读训练文本104和/或达到预期的效果。此外,如下所述,即使当一些用户错误地阅读训练文本104时,该技术也可能标识和过滤或移除所得的注视数据,使得注视数据126可以用其中以正确或预期的方式阅读训练文本104的实例来填充。
进一步在图1中,注视跟踪设备102包括注视数据处置器128(gaze data handler128),该注视数据处置器可以被配置成执行相对于注视数据126的收集的各种功能,包括注视数据126的收集的开始和停止(或以其它方式定义其中发生注视数据收集的时间段)、处理将被存储为注视数据126的数据、以及将注视数据传输到训练设备106。
例如,注视数据处置器128可以使用低功率数字信号处理器(DSP)来实现并且作为后台服务运行,该后台服务检测用于发起注视数据收集的一个或多个触发器。例如,当注视跟踪设备102包括可佩戴眼镜或其它类型的头戴式设备(HMD)时,注视数据处置器128可以检测到用户正在面对、阅读或者正在以其它方式与标志或训练文本104的其它潜在实例进行交互。
在一些实现方式中,注视数据处置器128可以使用适当训练的卷积神经网络(CNN)或其它ML算法来检测和分类这里提到的各种类型的训练文本104,诸如标志、菜单、海报或其它类型的文本。在其它示例中,注视数据处置器128可以监视注视跟踪模块124的活动以确定用户是否以及何时正在阅读任何文本,诸如训练文本104。
在其它实现方式中,注视数据处置器128可以响应来自用户的直接或间接命令以启动注视数据收集。例如,用户可以通过使用注视跟踪设备102的按钮或其它I/O功能,或者使用口头/可听命令来启动注视数据收集。
在其它实现方式中,注视数据处置器128可以利用其它触发器,诸如注视跟踪设备102的当前地点(例如,来自全球定位系统(GPS)信号,或基于具有商店、街道或其它类型的地点的已知位置)。例如,可以标识地理区域,其中已经为对应的训练文本收集非常少的注视数据,在这种情况下注视数据处置器128可能更有可能更频繁地启动注视数据收集。相反,在已经为对应的训练文本收集了大量注视数据的地理区域中,注视数据处置器128可能不太可能启动注视数据收集。
注视数据处置器128也可以基于其它因素来控制注视数据收集。例如,当注视跟踪设备102的电池电量低时,或者当环境照明(或其它可读性条件)很差时,可能不太可能进行注视数据收集。
另外,注视数据处置器128可以被配置成管理注视跟踪设备102的用户的注册和选择加入/选择退出请求。例如,一些用户可能希望选择加入使用出于布局训练目的的注视跟踪设备102,以援助可能受益于对于当前文本112的正确阅读的盲人或弱视用户,或将受益于当前文本112的正确阅读的其它用户。然而,其它用户出于布局训练的目的可以选择退出部分或全部的对于注视数据收集的参与。在一些情况下,出于用于布局训练的注视数据收集的目的,注视数据处置器128可以被包括在下载到注视跟踪设备102的应用中。
注视跟踪设备102还被图示为包括验证跟踪模块,该验证跟踪模块可以利用和/或存储验证数据132。例如,验证数据132可以表示结合注视数据126收集的任何数据,这在验证注视数据126的准确性、质量或其它方面可能是有用的。
例如,验证跟踪模块130可以收集由注视跟踪设备102的各种传感器或其它数据源跟踪的数据。示例传感器和跟踪数据可以包括GPS或其它地点数据、使用相机122捕获的图像数据,或者由音频传感器捕获的音频数据。验证数据132可以与注视数据126的捕获同时地、或紧接在其之前或之后被捕获。
例如,如本文所述,训练文本104可以具有结合显示训练文本104的周围物理布局而定义的文本布局。在一些实现方式中,训练文本104可以被包括在被定位以提供相对于该标志的物理环境的方向的标志中。
在这样的示例中,训练文本104可以包括提供相对于显示训练文本104的标志的物理左侧的方向的左侧文本,并且可以包括提供相对于在其上显示训练文本104的标志的物理右侧的方向的右侧文本。随着注视数据126被收集,然后验证跟踪模块130可以跟踪用户的后续移动。当为多个用户和/或在一段时间内执行时,使得对于关注左侧文本的用户倾向于向讨论中的标志的左侧前进的验证成为可能,从而验证训练文本104的方向性方面。
验证数据132还可以用于以实现文本阅读器110的更好或附加功能的方式来补充或增强注视数据,如下文详细描述的。例如,在当前文本112被包括在具有方向性方面的标志中时,如上述示例中,文本阅读器110可以被提供有执行TTS的能力,包括对于文本阅读器110的用户的描述这种方向性方面的可听指示。下面更详细地提供验证数据132的其它示例及其潜在用途。
因此训练设备106可以存储表示从注视跟踪设备102的注视数据126获得的注视数据的注视数据134,以及从各种注视跟踪设备108获得的类似注视数据。类似地,验证数据136可以从验证数据132以及从各种注视跟踪设备108获得的类似验证数据聚合。
因此,训练设备106的训练管理器138可以被提供有大量高质量训练数据,其可随着用户收集更多注视数据134和验证数据136而频繁更新和扩展。因此训练管理器138可以被配置成提供一个或多个布局解释模型140。例如,训练管理器138可以利用任何合适类型的监督、不监督或半监督机器学习算法,或它们的组合,这些机器学习算法可以使用注视数据134和验证数据136进行参数化,以获得布局解释模型140。
然后,当文本阅读器110遇到当前文本112或任何要阅读的文本时,文本阅读器110可以被配置成利用布局解释模型140以正确的方式阅读当前文本112。在图1的示例中,文本阅读器110包括上下文引擎142,该上下文引擎1可以被配置成确定当前文本112和/或文本阅读器110的当前上下文。
例如,上下文引擎142可以确定显示当前文本112的物理上下文。如上所述,可以使用定义物理位置的GPS坐标或其它上下文数据来确定这样的物理上下文。对于AR眼镜,可以给物理对象或地点加标签,并且也可以使用这样的标签。
与注视数据处置器128一样,上下文引擎142可以类似地基于检测到用户的长时间注视和/或指示要阅读当前文本112的尝试或期望的相关联的活动(例如,眼睛注视数据)来确定当前文本112的存在。同样地,对于用户来说能够向文本阅读器110提供直接或间接请求以阅读当前文本112,包括用户对其上显示当前文本112的标志或其它媒介的标识。
然后布局解释引擎144可以利用布局解释模型140以正确的方式阅读当前文本112,例如,根据当前文本的推断布局。在一些实现方式中,布局解释引擎144可以利用来自上下文引擎142的上下文信息来促进或补充这样的布局推断。
类似地,可能结合上下文引擎142的上下文输出,可以利用规则引擎146来辅助布局解释引擎144的操作。例如,规则引擎146可以提供对于当前文本的初始分类112和/或对于由上下文引擎142提供的上下文信息的初始分类,布局解释引擎144可以使用这种初始分类来选择布局解释模型140的特定布局解释模型。
然后,在一些实现方式中,上下文引擎142和/或规则引擎146可以被配置成提供布局解释的粗粒度或高级控制。例如,上下文引擎142和/或规则引擎146可以确定用户已经进入一种类型的商店,或者正在高速公路上行驶,使得布局解释引擎144可以选择用于这些类型的环境的一个或多个对应的布局解释模型140。
特别地,可以使用验证数据136来注释布局解释模型140以指示对于这种不同类型的环境的适用性。以此方式,布局解释引擎144可以容易地确定用于阅读当前文本112的合适的布局解释模型140。
如上所述,上下文引擎142也可以使用一个或多个机器学习算法来实现。例如,训练管理器138可以使用验证数据136来训练对应的上下文模型,使得上下文引擎可以准确且容易地推断当前文本的正确上下文。同时,在图1的示例中,规则引擎146可以被实现为规则的简单合集,其能够通过布局解释引擎144快速选择适当的布局解释模型140。
最后在图1的示例中,输出生成器148表示用于输出当前文本112的阅读的任何合适的硬件或软件,其中布局由布局解释引擎144确定。例如,输出生成器148可以包括TTS模块和相关联的音频硬件,或者可以配置成使用合适的视觉/显示硬件输出可编辑文本。
在一些实现方式中,输出的阅读文本可以被存储为搜索语料库的一部分,从而响应于接收到的针对该搜索语料库的查询而变得可用于潜在的包括。以此方式,例如,可以以准确的方式产生搜索报告和/或可以执行内容提取。
在图1中,注视跟踪设备102、训练设备106和文本阅读器110被实现为三个单独的设备和/或模块。在各种实现方式中,注视跟踪设备102、训练设备106和文本阅读器110可以被实现为一个或两个设备,或者四个或更多个设备。
例如,训练设备106可以表示具有大量计算资源的服务器的合集,这些服务器可以与各种注视跟踪设备102、108进行远程通信。这样,训练设备106可以聚合注视数据134和验证数据136,用于用这些数据进行快速和准确的训练。
虽然在训练设备106处图示了布局解释模型140,但是文本阅读器110可以远程访问布局解释模型140,并且/或者可以下载并本地存储布局解释模型140的一些或全部。类似地,注视跟踪设备102不需要在本地存储注视数据126或验证数据132,而是可以将所收集的注视数据126或验证数据132上传到训练设备106。
一般而言,文本阅读器110可以被实现为相对于注视跟踪设备102所引用的任何类型的设备中的一个或多个,或者实现为其它设备。在一些示例中,注视跟踪设备102和文本阅读器110可以被实现为不同类型的设备,其中文本阅读器110不需要执行注视数据收集。例如,文本阅读器110可以被实现为可能由盲人或弱视用户佩戴的一对耳塞来实现,配备它们(可能与智能手机或其它设备结合)以确定当前文本112并根据其正确布局将其可听再现输出给用户。
在其它实现方式中,注视跟踪设备102和文本阅读器110可以被实现为单个设备,其既收集注视数据126又提供用于文本阅读的布局解释。例如,如下面的图7中的一副智能眼镜可以周期性地跟踪并将注视数据126提供给训练设备106,并且然后在遇到当前文本112时,可以使用先前经训练的布局解释模型140来提供对该当前文本的读出,其中该布局解释模型已经通过注视跟踪设备102本身以及通过各种其它注视跟踪设备108训练过。
在这点上,将会领会到,本文中引用为当前文本112的文本在一些情况下可用作用于更新布局解释模型140的训练文本。类似地,图1的训练文本104可以在稍后由文本阅读器110作为当前阅读的文本读出。
图2是图示图1的系统的示例操作的流程图。在图2的示例中,操作202-210被图示为单独的、顺序的操作。然而,在各种示例实现中,操作202-210可以以重叠或并行的方式和/或以嵌套、迭代、循环或分支的方式实现。此外,可以包括、省略或替代各种操作或子操作。
在图2中,接收从在阅读训练文本时执行的眼睛注视跟踪所收集到的注视数据(202)。例如,图1的注视跟踪模块124可以使用相机122和相关硬件和软件接收在阅读训练文本104期间收集的注视数据126。如所描述的,训练文本104可以具有隐式布局,其被训练文本104的设计者或其它提供者用来以期望的方式布置、组织、强调、相关(例如,与训练文本的物理环境相关)或以其它方式并且出于训练文本104的主要预期目的来呈现。因为人类用户通常会在阅读训练文本104期间推断或以其它方式确定这样的布局,所以收集的注视数据将隐含地反映该布局。
可以使用训练文本和注视数据训练至少一个布局解释模型(204)。例如,训练管理器138可以使用注视数据126以及从其它注视跟踪设备108类似地获得的聚合注视数据134内的任何其它可用注视数据来训练布局解释模型140。因为注视数据126隐含地反映如上所述的训练文本104的布局,因此训练将固有地捕获布局的性质,并且捕获布局对于如何阅读训练文本104的影响。
可以确定包括根据布局布置的单词的当前文本(206)。例如,当前文本112可以由文本阅读器110检测。如所描述的,当前文本112,如训练文本104,可以具有由当前文本的设计者或其它提供者使用的隐式布局,该隐式布局用来以期望的方式布置、组织、强调、相关或以其它方式呈现当前文本112。
可以用所述至少一个布局解释模型处理当前文本以确定布局(208)。例如,布局解释引擎144可以使用布局解释模型140来处理当前文本112。由于布局解释模型140的训练性质,如上所述,处理将导致正确确定如隐式地包括在当前文本112中的原始布局。
然后可以输出具有根据布局布置的单词的当前文本(210)。例如,输出生成器148可以输出当前文本112,其具有被包括的单词,这些单词被布置为“第一单词116、第二单词118、第三单词120”,但是当前文本112的实际的从上到下的顺序或布局是“第二单词118、第一单词116、第三单词120”,如图1中所示。如所描述的,输出可以包括搜索语料库中包括的可听文本、可编辑文本和/或存储的文本。
图3是可以使用图1和图2的技术处理的第一示例文本。如所示的,图3包括表示杂货店过道标志的过道标志300。正如此类标志和其它类型商店(例如,五金店或便利店)中的标志通常出现的那样,过道标志300以旨在传达关于特定过道的信息的布局被设计,这些信息包括被包括在该过道中的物品类型、过道内此类物品的地点、特定过道与商店中其它过道的关系以及商店本身的品牌信息。
在图3的示例中,过道标志300包括将商店标识为“Village Market(农村市场)”的徽标302。在过道标志300的中央过道编号部分304中,过道标志300被标识为与过道2相关联。过道标志300的左侧306标识过道的第一侧,而过道标志300的右侧308标识过道的第二侧。标识符A 310将过道的左侧标识为“A”侧,而标识符B 311将过道的右侧标识为“B”侧。如所示的,A侧包括juice(果汁)312、Gatorade(佳得乐)314和hot cocoa(热可可)316,而B侧包括macadamia nuts(澳洲坚果)318、tea(茶)320、coffee(咖啡)322和creamers(奶精)324。
当被视为训练文本104的实例时,过道标志300可以由佩戴智能眼镜的用户阅读(例如,如下面的图7中所示),并且可以收集从阅读过道标志300的用户收集的注视数据。例如,用户可以忽略徽标302,因为徽标302被包括用于商店的品牌化目的,但不是过道标志的主要目的所需要的,即,导航到商店内的期望物品。
然后,所收集的注视数据可以反映用户观察过道编号304,并且然后从上到下阅读左侧306上的元素(例如,元素310、312、314、316),并且然后从上到下阅读右侧308上的元素(例如,元素311、318、320、322、324)。在一些情况下,如果这样的信息对找到期望的项目没有帮助,则用户可能在过道侧标识符A 310、B 311上花费较少的时间。
如相对于图1所描述的,用户的先前或后续动作可以被捕获并用作图1的验证数据132。例如,用户可以沿着过道2前进并查看或选择对应的物品,诸如佳得乐314,并且可以随后购买这样的物品。对应的数据可以被收集并保存为验证数据132,并用于验证过道标志300的左侧306对应于商店内物理过道2的左侧的事实。
出于收集用于训练的注视数据的目的,将从图3的示例中领会到,图1的注视数据126可以包括单个用户的多个过道标志实例。例如,商店可以包括10个或更多过道,每个过道都具有与过道标志300类似格式化的过道标志。当用户继续穿过商店时,用户可能阅读每个过道标志,并且所得的注视数据将反映过道标志300的上述布局。以这种方式,训练管理器138可以被提供有例如来自单个商店中的单个用户的10个注视数据实例以用于训练。因此,从多个商店和/或多个用户,可以向训练设备106提供大量注视数据134以及大量验证数据136。
当被视为当前文本112的实例时,过道标志300可以根据上述布局由文本阅读器110阅读,并反映在所图示的标志中。例如,文本阅读器110可以被包括在智能眼镜中(如图7所示),并且可以将过道标志300的文本读给用户,例如,盲人或弱视用户。
例如,输出生成器148可以将过道标志300标识为对应于过道,然后可以忽略徽标302,并且可以读出“aisle 2:left side,juice,Gatorade,hot cocoa;right side,macadamia nuts,tea,coffee,creamers(过道2:左侧,果汁,佳得乐,热可可;右侧,澳洲坚果,茶,咖啡,奶精)”。
阅读的、输出的文本也可以用在其它场景中。例如,商店可能希望对商店客户执行流量分析,以改进营销或实体店布局工作。通过以对应于商店现有布局的方式存储过道标志300的文本,可以更容易地将所得的表征商店内顾客移动的流量数据与现有布局相关以进行分析。
图4是可以使用图1和图2的技术处理的第二示例文本。图4图示了用于购买地铁卡的自动服务终端400(kiosk 400)。部分402包括显示元素“MetroCard(地铁卡)”404、“SoldHere!(这里销售!)”406以及“触摸Start以开始(开始)”408的屏幕。部分410包括单词“音频”以启动与自动服务终端的音频交互(例如,对于盲人或弱视用户)。元素412标识自动服务终端的“credit/atm card(信用卡/atm卡)”部分414。部分416标识“coins$1 25¢10¢5¢(硬币$1 25¢10¢5¢)”,与硬币提交槽418相邻。类似地,部分420标识“Bills$50$20$10$5$1(钞票$50$20$10$5$1)”,与钞票提交槽422相邻。元素424读作“MetroCard”,与MetroCard分配器426相邻,该MetroCard分配器426与“Single Ride(单程)”MetroCard的部分428相邻。最后在图4中,部分430标识自动服务终端400的“Change&Receipt(找零和收据)”部分。
当被视为训练文本104的实例时,图4所图示的的自动服务终端标牌,像图3的过道标志300那样,可以理解为提供对应注视数据126的实例。即,图1的注视跟踪模块124可以在阅读部分402时跟踪用户的眼睛注视数据,该部分402包括阅读“MetroCard”404,紧接着“Sold Here!”406,并且紧接着“touch Start to begin(start)”408。
然后通过信用卡、硬币或钞票支付的用户可以分别阅读部分412、416或420。然后用户可以阅读部分424、428以获得所得的MetroCard,并且最终可以阅读部分430以接收任何找零和收据。
当多个用户阅读自动服务终端400时,训练设备106处的聚合注视数据134可以反映自动服务终端400的完整训练数据集。例如,随着时间的推移,多个用户将使用所有支付选项(例如,信用卡、ATM卡、硬币或钞票),使得训练管理器138将会访问自动服务终端400内容的完整视图。
用户与自动服务终端400的功能的交互可以提供验证数据132和验证数据136的示例。例如,用户交互,诸如在部分402中触摸屏幕,或在部分414中插入信用卡(或将硬币放入槽418中,或将钞票放入槽422中),或接收从分配器426分配的MetroCard,可以用作验证数据。
当被视为当前文本112的实例时,自动服务终端400可以根据上述布局由文本阅读器110阅读,并反映在所图示的标牌中。也与图3的过道标志300一样,自动服务终端400图示了常规OCR或其它常规文本识别技术可能不能或不可能提供适当有用的输出。
自动服务终端400进一步图示,当输出生成器148阅读自动服务终端400的文本时,结合训练使用的验证数据可以被用作上下文或指导数据。例如,当阅读硬币部分416时,基于用户对这种动作的较早跟踪,输出生成器148还可以读出诸如“insert coins intoadjacent slot(将硬币插入到相邻槽中)”的指令。
图5是图示用于训练图1的系统的示例技术的更详细的流程图。在图1的示例中,为注视跟踪设备102的用户启动注视数据收集(502)。例如,注视数据处置器128可以被配置成在各种情况下或者响应于检测到或确定的环境触发器来启动注视数据收集。
例如,注视数据处置器128可以响应于用户请求/激活而激活注视跟踪模块124,或在预先确定的时间段内激活注视跟踪模块124,或连续地激活注视跟踪模块124,直到被用户停用。注视数据处置器128可以响应于使用相机122检测到用户相对于标志或其它文本的延长的注视,例如,超过预先确定的注视阈值而激活注视跟踪模块124。当用户处于预定义地点时,诸如当用户处于已知包括训练数据稀少的标志或其它文本的地点时,注视数据处置器128可以激活注视跟踪模块124。注视数据处置器128可以响应于外部考量,诸如电源的可用性或缺乏可用性(例如,电池电量)来激活注视跟踪模块124。注视数据处置器128可以响应于特定应用(例如,文档扫描应用)的打开而激活注视跟踪模块124。
然后可以检测训练文本(504)。例如,在刚刚提及的一些示例中,注视数据处置器128可以针对定义的或开放式的注视数据收集窗口激活注视跟踪模块124,在该定义的或开放式的注视数据收集窗口期间可以或可以不检测训练文本。在其它示例中,训练文本的检测可以是启动注视数据收集的触发器,诸如当注视数据处置器128检测到用户对文本的延长的注视(例如,超过注视阈值)时。
可以捕获训练文本的图像(506)。例如,相机122可以捕获其中提供训练文本104的标志或其它媒介的图像。
在阅读训练文本104期间可以跟踪眼睛注视数据(508)。例如,注视跟踪模块可以在定义的时间段内跟踪眼睛注视数据,或者直到用户的注视被确定为被引导远离训练文本104长达定义的时间段或到定义的程度。
可以收集验证数据(510)。例如,验证数据132可以从注视跟踪设备102的任何可用传感器或I/O功能,或者从与可能同时运行的其它应用(例如,支付应用)的接口收集。要收集的验证数据132的类型可以由注视数据处置器128定义和实现,并且可以结合眼睛注视数据的收集,或者响应于验证数据收集的用户启动,或响应于检测到的环境触发器(例如,特定唤醒词,或用户的定义移动或动作)而自动地收集。
尽管在图5的示例中是在眼睛注视跟踪之后示出验证数据收集,但是也可以收集在启动注视跟踪之前发生的验证数据132。例如,验证数据收集可以在定义的时间段内启动,或者响应于频繁或通常与眼睛注视数据的后续收集相关的环境触发器而启动。
然后可以将注视数据126和验证数据132传输到训练设备106(512)。例如,传输可以随着数据的收集而连续发生,或者分批发生,或者响应于用户启动的传输而发生。
因此布局解释模型140可以被训练(514)。如本文所述,训练管理器138可以被配置成跨许多不同的用户和聚合训练数据的实例执行训练,该聚合训练数据的实例包括注视数据134和验证数据136。因此,训练管理器138能够利用或充分利用(exploit)跨多个用户发生的模式以加强经训练的布局解释模型140部分的准确学习。例如,可以加强诸如是否完全理解(consumed at all)文本(诸如当“Village Market”徽标302被忽略时)的方面,以及其中理解信息的顺序。
可以例如使用验证数据来提供上下文指令(516),该上下文指令可以被文本阅读器110用于未来选择和实现特定的布局解释模型。上下文指令可以是简单的规则,或者可以包括例如使用验证数据训练的单独机器学习算法。
图6是更详细的流程图,其图示了用于使用图1、图2和5的训练技术来部署模型的示例技术。在图6的示例中,可以检测要阅读的当前文本112(602)。可以响应于相对于训练文本104在上文提及的任何因素或使用任何技术来识别当前文本112。例如,文本阅读器110可以访问检测到用户对于当前文本112或对于可能包含当前文本112的物理物品(诸如标志)上的延长的注视(例如,超过注视阈值)的相机。当前文本检测可以响应于用户启动而发生,或通过文本阅读器110的其它传感器或I/O功能而发生。
例如,盲人或弱视用户可能不能或不太可能直接注视当前文本112,即使当用户在该当前文本附近并且将受益于当前文本的知识时也是这样。例如,这样的用户可能在提供所需方向的标志附近。
在这样的情况和类似情况下,可以使用各种检测技术来启动对当前文本112的识别。例如,文本阅读器110(例如,上下文引擎142)可以确定附近的标志通常被接近(例如,在该标志的特定距离内,如由GPS确定的或通过使用云锚或其它地点技术确定的特定距离内)该标志的大量或大百分比用户阅读,或者该标志是提供某些类型的有用信息(例如,方向)的类型。以这些方式,可能不能或不太可能注意到或受益于该标志或其它当前文本的任何用户仍然可以被提供在该标志上的文本。
在其它示例中,用户可以提供感兴趣的当前文本的类别或类型,并且可以相应地关注当前文本检测。例如,用户可以指示对街道标志感兴趣,并且可以相对于街道标志而不是相对于广告和其它内容启动当前文本检测。在其它情况下,用户可以提供由智能眼镜检测到的手势,诸如指向当前文本112。在其它情况下,可以使用惯性测量单元(IMU)数据,诸如用户倾斜他或她的头部,或在预定量的时间内静止不动。
可以诸如由上下文引擎142确定上下文(604)。如上所述,尽管上下文确定是在当前文本检测之后图示的,但是上下文确定可以与当前文本检测同时发生或在当前文本检测之前发生。上下文确定可以基于简单的规则,或基于对上下文进行分类的单独机器学习算法,例如,基于使用收集的验证数据136执行的训练。
例如,上下文确定可以包括用户的地点和当前文本112的地点的分类,诸如标识当前文本112位于商店内、或在街道上、或在另一类型的地点中。上下文可以被广泛地确定,或者可以是高度特定的。例如,可以确定特定类型的商店(例如,杂货店),或者可以确定在特定地点的特定商店。
在一些情况下,当上下文足够具体时,可以检索先前存储的用于该上下文的注视数据以用于提供文本读出。例如,如果第一用户访问图3的杂货店并且过道标志300用作训练文本104,第二用户可以稍后访问同一杂货店并且将过道标志300视为当前文本112。然后,文本阅读器110可以实施合适的布局解释模型,或者可以简单地从第一用户检索先前确定的注视数据以执行文本读出。
然后可以选择规则(606),例如,用于确定要使用哪个布局解释模型140,以及如何使用确定的布局解释模型140。例如,确定的上下文可以是用于(基于该确定的上下文)选择特定布局解释模型的规则的基础。
例如,规则可以定义或标识与特定布局解释模型140相关联的模板,这些模板被确定为可能对应于当前文本112及其确定的上下文。例如,当上下文被确定为包括道路导航时,可以选择道路标志模板。
规则可以进一步确定文本读出发生的方式,以及是否提供相关联的上下文指令。此类规则的示例在上文中被引用,并且在下文中更详细地提供。
可以例如基于上下文和/或规则来选择布局解释模型(608)。在一些情况下,可以选择两个或更多个适用的布局解释模型,以增加所得的文本读出的准确性和可靠性。
可以提供当前文本112的读出(612),可能连同提供相关联的上下文指令(614)。例如,如上所述,读出可以通过TTS在听觉上发生,或者通过在用户可用的显示器上重新布置当前文本的词序而在视觉上提供。
在一些情况下,文本读出可能不直接提供给用户。例如,输出生成器148可以将阅读的文本存储在搜索语料库内或存储在可编辑文档内。在其它示例中,文本可以由文本阅读器110处理,但是可以简单地向用户提供对应的上下文指令,诸如“继续向前”。
更一般地,上下文指令可以包括可以被提供有当前文本112,或者基于当前文本112并且在利用当前文本112时可能有用的任何附加信息。可以由上下文引擎基于如在上面所引用的规则引擎的规则来提供上下文指令。例如,相关规则可能规定,当在特定上下文中使用特定布局解释模型时,还应提供指定的上下文指令。在上面结合图3为杂货店给出的示例中,可以向用户提供过道标志300的读出,连同指导用户关于如何继续阅读过道标志300的上下文指令。
例如,用户可以提供查询,诸如在杂货店内“where is Gatorade?(佳得乐在哪里?)”。在图3的示例中,文本阅读器110将确定杂货店的当前上下文,使用适当的规则和相关联的模板来标识所有可见的过道标志,并且将使用所标识的布局解释模型140来解释所有检测到的过道标志。可替选地,文本阅读器110可以确定所有这样的过道标志数据已经从先前的用户确定,并且可以对该数据进行查询。
一旦文本阅读器110确定佳得乐在过道3的左侧,在果汁和热可可之间,输出生成器148可以提供可听的上下文指令,诸如“proceed to aisle three and look forGatorade on a left-hand side of the aisle,between the juice and the hot cocoa(前进到过道3并寻找在过道的左侧的佳得乐,在果汁和热可可之间)”。
可以利用许多其它技术来解释和读出当前文本112。例如,解释和读出可能会考虑布局的各个方面,诸如使用大字体或粗体来强调特定单词,或增加/减少单词间距以指示单词之间的停顿。在这种情况下,例如,可听读出可以改变这些单词的发音或音量以提供准确或预期的读出。
图7图示了可以与图1的系统一起使用的一副示例智能眼镜700。如图7中所示,智能眼镜700包括镜片框架705、镜片框架710、中心框架支撑件715、镜片元件720、镜片元件725、延伸侧臂730、延伸侧臂735、图像捕获设备740(例如,相机)、机载计算系统745、扬声器750和麦克风755。
框架元件705、710和715中的每一个以及延伸侧臂730、735可以由塑料和/或金属的实心结构形成,或者可以由类似材料的中空结构形成,以便允许布线和组件互连是通过智能眼镜700在内部走线的。其它材料也是可能的。镜片元件720、725中的至少一个可以由能够适当地显示投影图像或图形的任何材料形成。镜片元件720、725中的每一个也可以足够透明以允许用户看透镜片元件。结合镜片元件的这两个特征可以促进增强现实或平视显示器,其中投影图像或图形叠加在用户透过镜片元件感知的真实世界视图上。
中心框架支撑件715和延伸侧臂730、735被配置成分别经由用户的鼻子和耳朵将智能眼镜700稳固到用户的面部。延伸侧臂730、735各自均可以是分别远离镜片框架705、710延伸的突出部,并且可以定位在用户的耳朵后方以将智能眼镜700固定到用户。延伸侧臂730、735可以通过围绕用户头部的后部延伸而进一步将智能眼镜700固定到用户。附加地或可替选地,例如,智能眼镜700可以连接到或粘附在头戴式头盔结构内。可穿戴眼镜的其它配置也是可能的。
机载计算系统745被示出以被定位在智能眼镜700的延伸侧臂730上;然而,机载计算系统745可以提供在智能眼镜700的其它部分上或者可以从智能眼镜700远程定位(例如,机载计算系统745可以有线或无线连接到智能眼镜700)。例如,机载计算系统745可以包括处理器和存储器。机载计算系统745可以被配置成接收和分析来自图像捕获设备740(并且可能来自其它传感设备)的数据并且生成用于由镜片元件720、725输出的图像。
图像捕获设备740可以是例如被配置成捕获静止图像和/或捕获视频的相机。在所图示的配置中,图像捕获设备740被定位在智能眼镜700的延伸侧臂730上;然而,图像捕获设备740可以设置在智能眼镜700的其它部分上。图像捕获设备740可以被配置成以各种分辨率或不同帧速率捕获图像。例如,许多具有小形状因子的图像捕获设备(诸如移动电话或网络摄像头中使用的相机)可以被合并到智能眼镜700的示例中。
图示了一个图像捕获设备740。但是,可以使用更多的图像捕获设备,并且每个设备都可以配置成捕获相同的视图,或捕获不同的视图。例如,图像捕获设备740可以面向前方以捕获用户感知的真实世界视图的至少一部分。然后由图像捕获设备740捕获的这个面向前方的图像可以被用于生成增强现实,其中计算机生成的图像看起来与用户感知的真实世界视图交互或叠加。
智能眼镜700可以被用于(例如,机载计算系统745)将(例如,由佩戴者的一只手或双手做出的)某些手势解释为用户输入。例如,智能眼镜700可以通过分析来自图像捕获设备740的图像数据来捕获手势,并且启动被定义为对应于某些手势的任务。此外,扬声器750和麦克风755可以用作输入/输出组件。例如,麦克风755可以检测可用于补充和/或修改与手势相关联的意图的语音。扬声器可以被配置成输出可以由用户听到的可听信号。可听信号可以与以下任务相关联,这些任务与响应于手势的任务相关联。例如,可听信号可以是指示任务已经完成的蜂鸣声。
在一些实现方式中,智能眼镜700可以确定用户的意图,诸如在本文所述的认证意图。在一些实现方式中,应当注意,智能眼镜700可以基于手势和来自数字助理的口头命令的组合来确定用户的意图。
将会领会到,虽然已经描述了各种示例实现方式,但是许多其它实现方式和相关联的方面也是可能的。例如,可以以多层次方式(multi-tiered manner)应用机器学习技术(例如,训练技术)。例如,可以相对于单个常见标志(例如,时代广场或其它人口稠密地区的标志)执行训练,或者相反,可以通过聚合跨越多个人口稀少的地区的相同或相似的标志(例如,常见的高速公路标志)来执行。此外,可以使用不同于以上作为示例提及的那些技术的其它技术来执行注视跟踪,其中该注视跟踪包括跟踪注视顺序、注视持续时间或其它注视方面。例如,可以通过补偿用户来获取注视跟踪数据,在这种情况下,可能需要相对较少数量的用户来收集许多训练数据实例。此外,在一些实现方式中,所收集的训练数据中的被确定为潜在的私人或以其它方式敏感的部分可以被有意地模糊或以其它方式排除。例如,可以向参与的用户提供选择或指配要排除的信息或信息类型的机会。
图8示出了可以与此处描述的技术一起使用的计算机设备1500和通用移动计算机设备1550的示例。计算机设备1500意图表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作台、个人数字助理、电视、服务器、刀片式服务器、大型计算机和其它适合的计算机。计算机设备1550意图表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、以及可穿戴设备,诸如可穿戴眼镜、头戴式设备(HMD)、智能手表、健身追踪器、智能指环、智能服装、以及其它相似的计算设备。此处示出的组件、它们的连接和关系以及它们的功能仅仅旨在为示例性的,并且不旨在限制本文档中描述的和/或要求保护的本发明的实现方式。
计算设备1500包括处理器1502、存储器1504、存储设备1506、连接至存储器1504和高速扩展端口1510的高速接口1508以及连接至低速总线1514和存储设备1506的低速接口1512。组件1502、1504、1506、1508、1510和1512中的每一个使用各种总线互相连接,并且可以安装在公共主板上或根据需要以其它方式安装。处理器1502可以处理在计算设备1500内执行的指令,包括存储在存储器1504中或存储设备1506上以在外部输入/输出设备(诸如耦合到高速接口1508的显示器1516)上显示GUI的图形信息的指令。在其它实现方式中,根据需要,可以将多个处理器和/或多个总线与多个存储器和多种存储器一起使用。同样,可以连接多个计算设备1500,其中,每个设备提供必要的操作的部分(例如,作为服务器库、一组刀片式服务器或多处理器系统)。
存储器1504存储计算设备1500内的信息。在一种实现方式中,存储器1504是一个或多个易失性存储器单元。在另一实现方式中,存储器1504是一个或多个非易失性存储器单元。存储器1504还可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
存储设备1506能够为计算设备1500提供大容量存储。在一种实现方式中,存储设备1506可以是或可以包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其它相似的固态存储器设备、或设备的阵列(包括存储区域网络或其它配置中的设备)。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令,这些指令在被执行时执行一个或多个方法,诸如上文所描述的那些方法。信息载体是计算机或机器可读介质,诸如存储器1504、存储设备1506或在处理器1502上的存储器。
高速控制器1508管理计算设备1500的带宽密集型操作,而低速控制器1512管理较低的带宽密集型操作。这种功能分配仅仅是示例性的。在一种实现方式中,高速控制器1508耦合到存储器1504、显示器1516(例如,通过图形处理器或加速器)和高速扩展端口1510,该高速扩展端口可以接受各种扩展卡(未示出)。在实现方式中,低速控制器1512耦合到存储设备1506和低速扩展端口1514。可以例如通过网络适配器来将可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口耦合到一个或多个输入/输出设备,诸如键盘、指向设备、扫描器或联网设备(诸如交换机或路由器)。
如图中所示出,可以以多种不同的形式来实现计算设备1500。例如,可以将该计算设备实现为标准服务器1520或多次实现在一组这种服务器中。还可以将该计算设备实现为机架服务器系统1524的一部分。另外,该计算设备可以实现在个人计算机(诸如膝上型计算机1522)中。可替代地,来自计算设备1500的组件可以与移动设备(未示出)(诸如设备1550)中的其它组件组合。这种设备中的每一个可以包含计算设备1500、1550中的一个或多个,并且整个系统可以由彼此通信的多个计算设备1500、1550组成。
除了其它组件之外,计算设备1550包括处理器1552、存储器1564、输入/输出设备(诸如显示器1554)、通信接口1566和收发器1568。设备1550还可以设置有用以提供额外存储的存储设备,诸如微型硬盘或其它设备。组件1550、1552、1564、1554、1566和1568中的每一个使用各种总线互相连接,并且组件中的若干个可以安装在公共主板上,或根据需要,以其它方式安装。
处理器1552可以执行计算设备1550内的指令,包括存储在存储器1564中的指令。可以将处理器实现为包括单独的和多个模拟和数字处理器的芯片的芯片集。处理器可以提供例如对设备1550的其它组件的协调,诸如用户界面、由设备1550运行的应用和通过设备1550进行的无线通信的控制。
处理器1552可以通过耦合到显示器1554的控制接口1558和显示器接口1556来与用户进行通信。例如,显示器1554可以是TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或其它适合的显示器技术。显示器接口1556可以包括用于驱动显示器1554以向用户呈现图形和其它信息的适合的电路系统。控制接口1558可以接收来自用户的命令并且对这些命令进行转换以提交至处理器1552。另外,外部接口1562可以被提供为与处理器1552通信,以使设备1550能够与其它设备进行附近区域通信。在一些实现方式中,外部接口1562可以提供例如有线通信,或在其它实现方式中可以提供无线通信,并且还可以使用多个接口。
存储器1564存储计算设备1550内的信息。可以将存储器1564实现为一个或多个计算机可读介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元中的一个或多个。还可以提供扩展存储器1574并且通过扩展接口1572将该扩展存储器1574连接到设备1550,该扩展接口1572可以包括例如SIMM(单线存储器模块)卡接口。这种扩展存储器1574可以为设备1550提供附加存储空间,或者还可以存储设备1550的应用或其它信息。具体地,扩展存储器1574可以包括用于实行或补充上文所描述的过程的指令,并且还可以包括安全信息。因此,例如,可以将扩展存储器1574提供为设备1550的安全模块,并且可以用允许安全使用设备1550的指令来对其进行编程。另外,可以经由SIMM卡与额外信息(诸如,将识别信息以不可侵入的方式放在SIMM卡上)一起来提供安全应用。
存储器可以包括例如闪存和/或NVRAM存储器,如下文所讨论。在一种实现方式中,计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令,这些指令在被执行时执行一个或多个方法,诸如上文所描述的那些方法。信息载体是计算机或机器可读介质,诸如存储器1564、扩展存储器1574或在处理器1552上的存储器,可以通过例如收发器1568或外部接口1562来接收该信息载体。
设备1550可以通过通信接口1566来无线地通信,在必要时,该通信接口可以包括数字信号处理电路系统。除此之外,通信接口1566可以提供在各种模式或协议下的通信,诸如GSM语音通话、SMS、EMS、或MMS短信发送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS。这种通信可以例如通过无线电频率收发器1568而发生。另外,短程通信可以通过诸如使用蓝牙、WiFi或其它这种收发器(未示出)而发生。另外,GPS(全球定位系统)接收器模块1570可以将额外的与导航和位置有关的无线数据提供给设备1550,根据需要,该无线数据可以供在设备1550上运行的应用使用。
设备1550还可以通过使用音频编解码器1560来可听地通信,该音频编解码器可以接收来自用户的口头信息,并且将口头信息转换为可用的数字信息。音频编解码器1560还可以为用户生成可听的声音,诸如通过扬声器,例如在设备1550的听筒中的扬声器。这种声音可以包括来自语音电话的声音,可以包括录制的声音(例如语音消息、音乐文件等),并且还可以包括通过在设备1550上操作的应用生成的声音。
如图中所示出,可以以多种不同的形式来实现计算设备1550。例如,可以将该计算设备实现为蜂窝电话1580。还可以将该计算设备实现为智能电话1582、个人数字助理或其它相似的移动设备的一部分。
因此,本文描述的各种技术的实现方式可以以数字电子电路、或以计算机硬件、固件、软件或它们的组合来实现。可以将实现方式实现为计算机程序产品,即,有形地体现在例如机器可读存储设备的信息载体中的计算机程序,以由数据处理装置(例如,可编程处理器、计算机或多台计算机)执行或控制数据处理装置的操作。可以以任何形式的编程语言(包括编译或解释语言)编写诸如上述计算机程序之类的计算机程序,并且可以以任何形式(包括作为独立程序或作为模块、部件、子例程或其它适合在计算环境中使用的单元)来部署该计算机程序。可以将计算机程序部署为在一个站点处的一台计算机或多台计算机上执行,或分布在多个站点上并通过通信网络互连。
方法步骤可以由执行计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程处理器来执行。方法步骤也可以由专用逻辑电路(例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行,并且装置可以实现为上述专用逻辑电路。
适合于执行计算机程序的处理器包括例如通用和专用微处理器以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的元件可以包括至少一个用于执行指令的处理器和一个或多个用于存储指令和数据的存储设备。通常,计算机还可包括一个或多个用于存储数据的大容量存储设备,例如,磁、磁光盘或光盘,或计算机可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传输到一个或多个大容量存储设备,或两者都有。适合于体现计算机程序指令和数据的信息载体包括所有形式的非易失性存储器,例如包括半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及CD-ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,可以在具有用于向用户显示信息的显示设备(例如,阴极射线管(CRT)或液晶显示器(LCD)监视器、和用户可以通过其向计算机提供输入的键盘和指示设备(例如,鼠标或轨迹球)的计算机上实现实现方式。其它种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,例如,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。
可以在包括后端部件(例如,作为数据服务器),或者包括中间件部件(例如,应用服务器),或者包括前端部件(例如,具有用户通过其可与实现方式进行交互的图形用户界面或Web浏览器的客户端计算机),或者包括这样的后端、中间件或前端部件的组合的计算系统中实现实现方式。部件可以通过数字数据通信的任何形式或媒介(例如,通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如,互联网。
尽管已经如本文中所描述的那样说明了所描述的实现方式的某些特征,但是本领域技术人员现在将想到许多修改、替换、改变和等同物。因此,将理解,所附权利要求旨在覆盖落入实施例的范围内的所有此类修改和改变。
Claims (20)
1.一种计算机程序产品,所述计算机程序产品有形地体现在非暂时性计算机可读存储介质上并且包括指令,当所述指令由至少一个计算设备执行时被配置成使所述至少一个计算设备:
对于训练文本,接收注视数据,所述注视数据是从在阅读所述训练文本时执行的眼睛注视跟踪所收集到的;以及
使用所述训练文本和所述注视数据,训练至少一个布局解释模型,所述至少一个布局解释模型被训练为:
确定包括根据布局所布置的单词的当前文本;
用所述至少一个布局解释模型来处理所述当前文本以确定所述布局;以及
输出具有根据所述布局所布置的所述单词的所述当前文本。
2.根据权利要求1所述的计算机程序产品,其中,所述指令在被执行时进一步被配置成使所述至少一个计算设备:
在超过注视阈值的时间段内检测对所述训练文本的注视;以及
基于超过所述注视阈值的所述注视来启动所述眼睛注视跟踪。
3.根据权利要求1所述的计算机程序产品,其中,所述指令在被执行时进一步被配置成使所述至少一个计算设备:
从指向所述训练文本的眼镜接收所述注视数据。
4.根据权利要求1所述的计算机程序产品,其中,所述指令在被执行时进一步被配置成使所述至少一个计算设备:
捕获所述训练文本的图像;以及
基于所述图像和所述注视数据来训练所述至少一个布局解释模型。
5.根据权利要求1所述的计算机程序产品,其中,所述指令在被执行时进一步被配置成使所述至少一个计算设备:
从多个用户接收包括所述注视数据的多个注视数据实例;
从所述多个用户接收包括所述训练文本的多个训练文本实例;
将所述多个注视数据实例与所述多个训练文本实例聚合在一起;以及
基于所聚合的多个注视数据实例和所聚合的多个训练文本实例,训练所述至少一个布局解释模型。
6.根据权利要求1所述的计算机程序产品,其中,所述指令在被执行时进一步被配置成使所述至少一个计算设备:
结合所述眼睛注视跟踪来捕获验证数据,所述验证数据表征被收集了所述注视数据的用户的动作;以及
基于所述验证数据来验证所述注视数据的准确性或完整性。
7.一种计算机实现的方法,所述方法包括:
对于训练文本,接收注视数据,所述注视数据是从在阅读所述训练文本时执行的眼睛注视跟踪所收集到的;以及
使用所述训练文本和所述注视数据,训练至少一个布局解释模型,所述至少一个布局解释模型被训练为:
确定包括根据布局所布置的单词的当前文本;
用所述至少一个布局解释模型来处理所述当前文本以确定所述布局;以及
输出具有根据所述布局所布置的所述单词的所述当前文本。
8.根据权利要求7所述的方法,进一步包括:
在超过注视阈值的时间段内检测对所述训练文本的注视;以及
基于超过所述注视阈值的所述注视来启动所述眼睛注视跟踪。
9.根据权利要求7所述的方法,进一步包括:
捕获所述训练文本的图像;以及
基于所述图像和所述注视数据来训练所述至少一个布局解释模型。
10.根据权利要求7所述的方法,进一步包括:
从指向所述训练文本的眼镜接收所述注视数据。
11.根据权利要求7所述的方法,进一步包括:
从多个用户接收包括所述注视数据的多个注视数据实例;
从所述多个用户接收包括所述训练文本的多个训练文本实例;
将所述多个注视数据实例与所述多个训练文本实例聚合在一起;以及
基于所聚合的多个注视数据实例和所聚合的多个训练文本实例,训练所述至少一个布局解释模型。
12.根据权利要求7所述的方法,进一步包括:
结合所述眼睛注视跟踪来捕获验证数据,所述验证数据表征被收集了所述注视数据的用户的动作;以及
基于所述验证数据来验证所述注视数据的准确性或完整性。
13.一种系统,包括:
至少一个存储器,所述至少一个存储器包括指令;以及
至少一个处理器,所述至少一个处理器能够操作地耦合到所述至少一个存储器并且被布置和被配置成执行指令,所述指令在被执行时使所述至少一个处理器:
确定包括根据布局所布置的单词的当前文本;
用至少一个布局解释模型来处理所述当前文本以确定所述布局,使用训练文本和注视数据来训练所述至少一个布局解释模型,所述注视数据是从在阅读所述训练文本时执行的眼睛注视跟踪所收集到的;以及
输出具有根据所述布局所布置的所述单词的所述当前文本。
14.根据权利要求13所述的系统,其中,所述系统进一步被配置成:
确定文本阅读器在所述当前文本附近;以及
基于确定所述文本阅读器在所述当前文本附近,使用所述文本阅读器来启动用所述至少一个布局解释模型对所述当前文本进行的处理。
15.根据权利要求13所述的系统,其中,所述系统进一步被配置成:
对所述当前文本的上下文进行分类;以及
基于所述上下文,从多个布局解释模型中选择所述至少一个布局解释模型。
16.根据权利要求13所述的系统,其中,所述系统进一步被配置成:
输出所述当前文本,包括提供具有根据所述布局所布置的所述单词的所述当前文本的文本到语音TTS可听输出。
17.根据权利要求13所述的系统,其中,所述系统进一步被配置成:
将所述当前文本与上下文指令一起输出,所述上下文指令在所述当前文本的上下文内提供关于所述当前文本的用户的指令,所述上下文指令是根据结合所述注视数据所捕获的验证数据而确定的。
18.根据权利要求13所述的系统,其中,所述系统进一步被配置成:
从指向所述当前文本的眼镜接收所述当前文本。
19.根据权利要求13所述的系统,其中,使用从多个用户接收的包括所述注视数据的多个注视数据实例和从所述多个用户接收的包括所述训练文本的多个训练文本实例,来训练所述至少一个布局解释模型。
20.根据权利要求13所述的系统,其中,使用多个注视数据实例与多个训练文本实例的聚合来训练所述至少一个布局解释模型。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2020/070650 WO2022076019A1 (en) | 2020-10-09 | 2020-10-09 | Text layout interpretation using eye gaze data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114616598A true CN114616598A (zh) | 2022-06-10 |
CN114616598B CN114616598B (zh) | 2023-08-04 |
Family
ID=73040385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080026203.1A Active CN114616598B (zh) | 2020-10-09 | 2020-10-09 | 使用眼睛注视数据的文本布局解释 |
Country Status (6)
Country | Link |
---|---|
US (3) | US11347927B2 (zh) |
EP (1) | EP4004694B1 (zh) |
JP (1) | JP7242902B2 (zh) |
KR (1) | KR102686451B1 (zh) |
CN (1) | CN114616598B (zh) |
WO (1) | WO2022076019A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719418A (zh) * | 2023-08-09 | 2023-09-08 | 湖南马栏山视频先进技术研究院有限公司 | 一种注视点预测模型的检验方法及装置 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11500226B1 (en) * | 2019-09-26 | 2022-11-15 | Scott Phillip Muske | Viewing area management for smart glasses |
US11551197B2 (en) * | 2021-01-01 | 2023-01-10 | Bank Of America Corporation | Smart-glasses based contactless automated teller machine (“ATM”) transaction processing |
US11556912B2 (en) | 2021-01-28 | 2023-01-17 | Bank Of America Corporation | Smartglasses-to-smartglasses payment systems |
US11734665B2 (en) | 2021-02-08 | 2023-08-22 | Bank Of America Corporation | Card-to-smartglasses payment systems |
US11998335B2 (en) * | 2021-04-19 | 2024-06-04 | Microsoft Technology Licensing, Llc | Systems and methods of capturing eye-gaze data |
US11619993B2 (en) | 2021-04-19 | 2023-04-04 | Microsoft Technology Licensing, Llc | Systems and methods for gaze-tracking |
US11804215B1 (en) * | 2022-04-29 | 2023-10-31 | Apple Inc. | Sonic responses |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195640B1 (en) * | 1999-01-29 | 2001-02-27 | International Business Machines Corporation | Audio reader |
CN106999337A (zh) * | 2014-11-18 | 2017-08-01 | 皇家飞利浦有限公司 | 眼睛训练系统和计算机程序产品 |
CN107077201A (zh) * | 2014-09-25 | 2017-08-18 | 微软技术许可有限责任公司 | 用于多模式会话交互中的口头语言理解的眼睛注视 |
CN107209552A (zh) * | 2014-09-02 | 2017-09-26 | 托比股份公司 | 基于凝视的文本输入系统和方法 |
CN109690553A (zh) * | 2016-06-29 | 2019-04-26 | 醒眸行有限公司 | 执行眼睛注视跟踪的系统和方法 |
CN111522430A (zh) * | 2018-12-21 | 2020-08-11 | 托比股份公司 | 注视追踪模型的训练 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2403558A (en) | 2003-07-02 | 2005-01-05 | Sony Uk Ltd | Document searching and method for presenting the results |
KR20120053803A (ko) * | 2010-11-18 | 2012-05-29 | 삼성전자주식회사 | 시선 궤적을 이용한 컨텐츠 표시 장치 및 방법 |
KR20140147057A (ko) * | 2013-06-18 | 2014-12-29 | 엘지전자 주식회사 | 안경형 단말기 및 안경형 단말기의 제어방법 |
US10726473B1 (en) * | 2014-04-30 | 2020-07-28 | Wells Fargo Bank, N.A. | Augmented reality shopping rewards |
KR102209511B1 (ko) | 2014-05-12 | 2021-01-29 | 엘지전자 주식회사 | 안경형 단말기와 그 안경형 단말기의 제어 방법 |
US9569701B2 (en) * | 2015-03-06 | 2017-02-14 | International Business Machines Corporation | Interactive text recognition by a head-mounted device |
JP6455254B2 (ja) | 2015-03-18 | 2019-01-23 | 大日本印刷株式会社 | 文章表示装置、プログラム及び制御方法 |
US10818084B2 (en) * | 2015-04-07 | 2020-10-27 | Geopogo, Inc. | Dynamically customized three dimensional geospatial visualization |
US10318613B2 (en) | 2015-08-25 | 2019-06-11 | Myscript | System and method of digital note taking |
US10884503B2 (en) | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
EP3403130A4 (en) * | 2016-01-12 | 2020-01-01 | eSIGHT CORP. | METHODS AND DEVICES FOR INCREASING LANGUAGE ELEMENT VISION |
US20170322679A1 (en) * | 2016-05-09 | 2017-11-09 | John C. Gordon | Modifying a User Interface Based Upon a User's Brain Activity and Gaze |
US10732708B1 (en) * | 2017-11-21 | 2020-08-04 | Amazon Technologies, Inc. | Disambiguation of virtual reality information using multi-modal data including speech |
US10810966B1 (en) * | 2019-01-15 | 2020-10-20 | Ambarella International Lp | Fusion of electronic mirror systems and driver monitoring for increased convenience and added safety |
-
2020
- 2020-10-09 JP JP2021564645A patent/JP7242902B2/ja active Active
- 2020-10-09 CN CN202080026203.1A patent/CN114616598B/zh active Active
- 2020-10-09 WO PCT/US2020/070650 patent/WO2022076019A1/en unknown
- 2020-10-09 EP EP20800536.3A patent/EP4004694B1/en active Active
- 2020-10-09 US US17/310,977 patent/US11347927B2/en active Active
- 2020-10-09 KR KR1020217030761A patent/KR102686451B1/ko active IP Right Grant
-
2022
- 2022-05-26 US US17/804,242 patent/US11941342B2/en active Active
-
2024
- 2024-03-25 US US18/615,813 patent/US20240232505A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195640B1 (en) * | 1999-01-29 | 2001-02-27 | International Business Machines Corporation | Audio reader |
CN107209552A (zh) * | 2014-09-02 | 2017-09-26 | 托比股份公司 | 基于凝视的文本输入系统和方法 |
CN107077201A (zh) * | 2014-09-25 | 2017-08-18 | 微软技术许可有限责任公司 | 用于多模式会话交互中的口头语言理解的眼睛注视 |
CN106999337A (zh) * | 2014-11-18 | 2017-08-01 | 皇家飞利浦有限公司 | 眼睛训练系统和计算机程序产品 |
CN109690553A (zh) * | 2016-06-29 | 2019-04-26 | 醒眸行有限公司 | 执行眼睛注视跟踪的系统和方法 |
CN111522430A (zh) * | 2018-12-21 | 2020-08-11 | 托比股份公司 | 注视追踪模型的训练 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116719418A (zh) * | 2023-08-09 | 2023-09-08 | 湖南马栏山视频先进技术研究院有限公司 | 一种注视点预测模型的检验方法及装置 |
CN116719418B (zh) * | 2023-08-09 | 2023-10-27 | 湖南马栏山视频先进技术研究院有限公司 | 一种注视点预测模型的检验方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
EP4004694B1 (en) | 2023-03-01 |
US20240232505A1 (en) | 2024-07-11 |
JP2022546658A (ja) | 2022-11-07 |
WO2022076019A1 (en) | 2022-04-14 |
US20220284168A1 (en) | 2022-09-08 |
US11941342B2 (en) | 2024-03-26 |
JP7242902B2 (ja) | 2023-03-20 |
EP4004694A1 (en) | 2022-06-01 |
KR20220047718A (ko) | 2022-04-19 |
US20220114327A1 (en) | 2022-04-14 |
CN114616598B (zh) | 2023-08-04 |
US11347927B2 (en) | 2022-05-31 |
KR102686451B1 (ko) | 2024-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114616598B (zh) | 使用眼睛注视数据的文本布局解释 | |
US10943398B2 (en) | Augmented reality device and operation thereof | |
US11170035B2 (en) | Context based media curation | |
US20240320939A1 (en) | System and method for selecting targets in an augmented reality environment | |
US12008596B1 (en) | Banking interface | |
JP6011938B2 (ja) | センサベースのモバイル検索、関連方法及びシステム | |
US10757254B1 (en) | Call center interface | |
US9182815B2 (en) | Making static printed content dynamic with virtual data | |
US9105011B2 (en) | Prepopulating application forms using real-time video analysis of identified objects | |
JP5843207B2 (ja) | 直観的コンピューティング方法及びシステム | |
US20130321255A1 (en) | Navigating content in an hmd using a physical object | |
JP2013522938A (ja) | 直観的コンピューティング方法及びシステム | |
US11598643B2 (en) | Augmented reality guidance interface | |
US20150149287A1 (en) | Responding to an advertisement using a mobile computing device | |
US20240144183A1 (en) | Mobile device interface | |
WO2013085927A1 (en) | Updating printed content with personalized virtual data | |
US20150135101A1 (en) | Function based interface | |
US20150135067A1 (en) | Intelligent data presentation | |
US20150130811A1 (en) | Banking interface | |
CN113112308B (zh) | 设备标注方法、系统和定向信息推送的方法和系统 | |
US20210097284A1 (en) | Techniques for presentation of electronic content related to printed material |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |