CN109478106B - 利用环境上下文以用于增强的通信吞吐量 - Google Patents

利用环境上下文以用于增强的通信吞吐量 Download PDF

Info

Publication number
CN109478106B
CN109478106B CN201780043799.4A CN201780043799A CN109478106B CN 109478106 B CN109478106 B CN 109478106B CN 201780043799 A CN201780043799 A CN 201780043799A CN 109478106 B CN109478106 B CN 109478106B
Authority
CN
China
Prior art keywords
user
utterances
suggested
data
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780043799.4A
Other languages
English (en)
Other versions
CN109478106A (zh
Inventor
M·莫里斯
S·K·卡内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN109478106A publication Critical patent/CN109478106A/zh
Application granted granted Critical
Publication of CN109478106B publication Critical patent/CN109478106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/144Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04886Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures by partitioning the display area of the touch-screen or the surface of the digitising tablet into independently controllable areas, e.g. virtual keyboards or menus
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

可以考虑用户的环境上下文以增强用户的通信吞吐量。“环境上下文”可以包括用户、设备和/或设备的传感器的空间周围,并且更广泛地表示用户在多种环境中的上下文,这些环境诸如例如用户的周围、数字环境,诸如用户或其他个人的与设备的交互或在设备附近进行的交互等。技术可以包括获取上下文数据以提供用户可以选择以代表用户而被输出的单词和/或短语的上下文预测的建议。在一些示例中,技术还可以使用上下文数据来对单词和/或短语建议加权、分类、排名和/或过滤。

Description

利用环境上下文以用于增强的通信吞吐量
背景技术
具有语音产生或理解障碍的人通常依赖于备选和增强通信 (“AAC”)技术以便重新获取这些功能。很多AAC技术遭受慢吞吐量(即,通信产生的速率)。例如,对于没有实质性认知或视力障碍的人(诸如具有诸如ALS的锁定综合症的人),基于眼睛注视的键入已经成为常见的AAC技术。然而,眼睛注视键入的吞吐量可以比未受损的口语对话慢一个数量级。这阻碍了大批人有意义地参与社会。
另外,发现人机接口难以学习或者利用特定人机接口不能实现的那些技术可能经历通信吞吐量损害。此外,语言障碍还会阻碍说不同语言的人之间的通信吞吐量。
发明内容
提供本发明内容是为了介绍与利用环境上下文以用于增强的通信吞吐量相关的简化概念。本发明内容并不旨在标识所要求保护的主题的必要特征,也并不旨在被用于确定所要求保护的主题的范围。
本文中描述的技术利用用户的环境上下文来增强用户的通信吞吐量。在一些示例中,本文中讨论的技术包括获取、检测和/或捕获关于用户的上下文的信息。在一些示例中,本文中讨论的技术包括捕获用户的周围(surrounding)的图像、标识图像中的显著对象和/或从图像获取显著对象标签,以及生成单词和/或短语的列表以提供给用户以用于用户选择代表用户而被输出。
在一些示例中,本文中讨论的技术可以使用附加的上下文信息来决定是否捕获图像。在一些示例中,技术可以使用上下文数据来在具有或没有捕获图像的情况下生成单词和/或短语。在一些示例中,本文中描述的技术可以使用上下文数据来对生成的单词和/或短语加权、过滤和/或分类。
本文中描述的技术可以被利用以增强针对受损和/或未受损用户的通信吞吐量。在一些示例中,本文中讨论的技术可以被用于教导第二语言或增强针对一个或多个用户的跨语言通信吞吐量。
附图说明
参考附图描述详细描述。在附图中,附图标记的(多个)最左边的数字标识首次出现附图标记的图。不同图中的相同的附图标记表示相似或相同的项目。
图1是被配置为通过利用如本文中讨论的环境上下文来增强用户的通信吞吐量的示例设备的框图。
图2是描绘其中可以实现通过利用环境上下文来增强通信吞吐量的技术的示例环境的框图。
图3包括向用户供应单词和/或短语建议以用于用户的选择和用于代表用户的输出的示例用户界面。
图4是包括用于增强用户的通信吞吐量的键盘和建议区域的示例用户界面。
图5包括用于向用户供应单词和/或短语建议以用于用户的选择和用于代表用户的输出的示例用户界面。
图6示出了用于表示单词和/或短语建议以加快通信吞吐量的示例用户界面。
图7示出了用于表示单词和/或建议以加快通信吞吐量的示例用户界面。
图8示出了用于表示单词和/或短语建议以加快通信吞吐量的示例用户界面和示例专用用户界面。
图9是示出用于至少部分基于利用上下文数据来增强针对用户的通信吞吐量的示例过程的流程图。
图10是示出用于至少部分基于利用包括图像的上下文数据来增强针对用户的通信吞吐量的示例过程的流程图。
图11是示出用于至少部分基于使用上下文数据代表用户标识候选话语来增强针对用户的通信吞吐量的示例过程的流程图。
具体实施方式
概述
本公开涉及通过利用环境上下文来增强通信吞吐量的技术。如本文中使用的,“环境上下文”意味着用户在多种环境中的一个或多个环境中的上下文,这些环境诸如例如用户的物理周围和/或数字环境,诸如用户或另一个体正在与之交互的设备、应用和/或服务。“环境上下文”有时被称为“上下文数据”。在一些示例中,本文中讨论的技术包括获取、检测和/或捕获关于用户的环境(例如,空间周围、数字环境等)的信息。在一些示例中,本文中讨论的技术包括捕获用户的物理周围的图像。在这些示例中,本文中讨论的技术还可以标识所捕获的图像中的一个或多个对象,这些对象是人可察觉的和/或潜在地与用户的话语(即,显著对象)相关。在一些示例中,本文中讨论的技术可以生成单词和/或短语的列表以提供给用户以用于由用户选择以代表用户而被输出。在一些示例中,单词和/或短语可以至少部分基于出现在图像中的显著对象和/或图像本身而被生成。在一些示例中,用户的空间周围可以包括一个或多个对象(例如,结构特征、人、物理对象、诸如发射光的可感知信号)。
在一些示例中,本文中讨论的技术可以使用上下文数据来决定是否捕获图像。在一些示例中,被用于决定不捕获图像的上下文数据可以包括环境标识符。环境标识符可以包括例如私人位置(例如,洗手间、卧室)、个人可标识位置(例如,家、汽车、起居室、工作场所、学校、朋友组“A”)、公共位置(例如,杂货店、电影院)、数字环境(例如,发短信、视频聊天)等。在一些示例中,环境标识符可以从上下文数据(例如,最近捕获的图像中的显著对象的共现、设备的应用数据、位置信息)被得出。在一些示例中,环境上下文包括上下文数据,并且本文中讨论的技术可以至少部分基于上下文数据来生成单词和/或短语以提供给用户以用于由用户选择和/或代表用户而被输出。
在一些示例中,上下文数据可以具有影响用户的话语的倾向。例如,如果用户刚刚进入杂货店,则该事实具有影响用户的话语的倾向(例如,用户更可能希望评论或询问关于杂货店中的东西的问题),或者用户是否最近使用用户的设备观看了电视节目,当用户与朋友或同事联系时,用户观看了电视节目的这一事实是具有影响用户的话语的倾向的上下文数据。
在一些示例中,上下文数据可以包括以下一项或多项:
·与用户相关联的注视数据(和/或与注视数据对应的对象);
·自用户的最后话语或者关于或代表用户而被进行的操作以来流逝的时间(例如,自向用户提供医疗援助或药物以来的时间);
·从接收自一个或多个传感器的用户的运动推断出的活动标识符(例如,压力传感器感测到卧床的个体未移动或已经掉落,加速度计和/ 或陀螺仪,运动数据对应于诸如例如坐着、跑步、步行、骑自行车、键入等活动);
·从应用获取的应用数据(例如,被提交给应用的先前话语、用于输入的、对应用的部分的选择、应用的活动部分、应用的目的或功能、应用使用历史、应用请求、存储的应用数据(诸如日历事件、照片或地理位置))或者通过向操作系统查询应用而获取的应用数据(例如,针对应用的可运行时间、应用的目的、由应用访问的寄存器的部分);
·操作系统信息或由操作系统提供的信息(例如,一天中的时间、设备和/或软件信息);
·用户的检测到的位置;
·话语输出目的地或目的(例如,字段的选择、用于显示的、对选项的选择、音频复制和/或传输,诸如经由文本消息接发服务、作为因特网搜索的录入);
·从相机、麦克风、操作系统、应用或存储器获取或通过网络接口而被获取的先前话语(例如,用户和/或其他人的话语、由网络接口
可访问的服务记录的话语);
·先前话语的语音、句法或语义信息;在由相机获取或以其他方式由设备取回的图像中被标识的显著对象;或者
·从上下文数据的子集的共现(例如,图像中的显著对象标签(诸如例如“thenlabels Onion(然后标记洋葱)”、“Knife(刀)”、“Spoon(勺子)”、“Table(桌子)”、“Sink(水槽)”、“Mixing (混合碗)”和“Spouse(配偶)”)和/或其他上下文信息的共现可以与个人可标识的环境标识符(诸如例如“home(家)”或“ktchen (厨房)”)相关联)得出的环境标识符。
在一些示例中,本文中描述的技术可以通过向可以至少部分基于上下文数据来产生关键字的一个或多个服务提供上下文数据的至少子集来基于上下文数据生成单词和/或短语。在一些示例中,本文中描述的技术可以经由API向视觉服务提供用户的周围的图像,该API被配置为标识图像中的(多个)显著对象并且确定针对(多个)显著对象的(多个) 标签。在一些示例中,视觉服务可以响应于被提供图像来标识显著对象并且返回显著对象标签,并且本文中描述的技术可以向用户呈现显著对象标签中的至少一个显著对象标签的表示。
在一些示例中,图像可以从计算设备的存储器被取回。在一些示例中,图像可以从在本地被存储的照片(例如,在相机卷上,在SD卡上) 和/或从在远程被存储的照片(例如,从照片共享站点、社交媒体站点、搜索引擎图像搜索结果)被取回。例如,用户可能想要表达关于除了当时用户的最接近的周围的图像之外的图像的某些内容。
在一些示例中,本文中描述的技术可以进一步使用单词的至少子集来经由以下一个或多个来生成短语:自然语言处理服务、启发式短语(例如,通常与所提供的单词相关联的短语、常用短语的静态列表、分类器生成的启发式短语)或人类服务(例如,向人供应单词和/或上下文数据的子集以用于短语的生成)(“(多个)短语生成服务”)。在一些示例中,单词的子集可以包括从视觉服务接收的一个或多个对象标签。在一些示例中,上下文数据已经包括可以被提供给(多个)短语生成服务的单词。例如,话语历史(例如,对话语的先前选择、接收和/或发送的文本)可能已经基本上准备好用于提供。在一些示例中,本文中讨论的技术可以准备用于供应给这样的服务的数据(例如,通过使用自然语言处理来选择先前话语的关键术语;从应用数据标识相关信息,诸如例如通过使用元数据来标识诸如电视节目名称的显著信息)。在一些示例中,本文中讨论的技术可以包括分类器,该分类器在接收的上下文数据和用户选择上被训练以确定应当向(多个)短语生成服务提供包含在上下文数据中或从上下文数据中可得出的哪些单词。
在一些示例中,技术可以使用上下文数据来在具有或没有捕获的图像的情况下生成单词和/或短语。在一些示例中,本文中描述的技术可以使用上下文数据来对生成的单词和/或短语加权、过滤和/或分类。在一些示例中,本文中描述的技术可以在生成单词和/或短语时使用上下文数据来对生成的单词和/或短语加权。例如,本文中描述的技术可以将上下文数据的至少子集提供给服务以生成单词和/或短语,并且本文中描述的技术可以对子集预加权或者可以在基于上下文数据的至少相同或不同子集生成单词和/或短语之后对生成的单词和/或短语之加权。例如,上下文数据可以将人标识为显著对象,因此本文中描述的技术可以基于人作为显著对象的标识来针对关注人的生成的短语的请求加权和/或对生成的短语加权。以这种方式,可以生成更多很可能针对存在的人的短语和/ 或将其呈现给用户。
在一些示例中,可以至少部分使用权重来对生成的短语分类和/或排名。在一些示例中,本文中描述的技术可以至少部分基于上下文数据来对生成的短语分类。例如,本文中描述的技术可以至少部分基于归因于短语的不同类型的权重来对生成的短语分组。例如,短语的类型可以根据以下一个或多个:语法形式(例如,询问、感叹、定性陈述)、短语的主语(例如,关于特定对象或主题的短语)、先前选择或话语的语法和/或语义(例如,如果文章先前被输出,则主题更可能接下来被输出,用户或另一人的先前话语、上下文语义可以消除单词和/或短语预测的歧义)、话语的预期接收者、预期输出(例如,指定要在显示器上被输出、作为代表用户的语音、作为文本消息而用于传输、作为web搜索)、上下文相关性(例如,短语与上下文数据相关或不考虑上下文数据的程度,诸如例如,话语是否与用户的周围的显著对象相关)、对象的显著性的度量(例如,由分类器确定、显著性的启发式地确定的度量、如由要被传输上下文的个体确定的)等。在一些示例中,本文中描述的技术可以至少部分基于上面讨论的权重来对短语排名。
类似地,本文中描述的技术可以至少部分基于上面讨论的权重和/ 或分类来对生成的单词和/或短语排名(例如,至少部分基于权重来从与显著对象最相关到最不相关来对短语排名)。
在一些示例中,在将生成的单词和/或短语作为建议提供给用户之前,本文中描述的技术可以附加地或备选地至少部分基于上下文数据的至少一部分来对生成的单词和/或短语过滤。例如,本文中描述的技术可以至少部分基于以下各项来对生成的单词和/或短语过滤:用户对显著对象的选择(例如,通过与显著对象的表示交互)、来自用户的附加输入(例如,如果用户开始输入单词的字母,则技术可以将结果限制为以包含对象的输入字母和短语开头的单词或者通常关于以该字母开头的主题的单词)、注视数据(例如,如果用户注视某人,则可以将建议过滤为与特定人或一般人有关的建议的话语;如果用户针对诸如搜索字段的应用查看图形用户界面(“GUI”)的特定部分,则可以对建议过滤以包括搜索项和/或询问)、应用上下文(例如,基于活动应用的目的的过滤、基于应用的输入和/或输出的过滤、基于应用的GUI的选择的部分的过滤)、对硬件和/或软件按钮的选择(例如,指示用户想要接收关于特定上下文的建议的图标(诸如例如周围或应用)或者建议的形式(诸如例如询问、感叹或评论))、感测到的活动(例如,步行、骑自行车、坐着、不活动)等。
通过对生成的单词和/或短语加权、分类、排名和/或过滤,在一些示例中,本文中描述的技术可以按照有组织的方式向用户表示加权、分类、排名和/或过滤的建议。在一些示例中,该表示可以包括以下一项或多项:通过人机接口的显示或触觉反馈部分或通过人机接口的扬声器在音频上绘出建议的表示。在一些示例中,本文中讨论的技术可以根据加权、分类、排名或过滤中的一项或多项来组织表示。例如,本文中讨论的技术可以使用分类功能来在显示器上的不同列表中或不同位置中表示建议。在一些示例中,本文中讨论的技术可以使用加权、分类、排名和/ 或过滤来确定显示器中的用于显示更多加权的建议的位置,因为显示器的不同部分更加好,因为用户更可能看到它们和/或确定建议的子集以表示何时不能一次表示建议中的所有建议(例如,由于显示空间、可理解性、基于用户的认知能力的设置、持续时间)。
本文中描述的技术可以被利用以增强针对受损和/或未受损用户的通信吞吐量。在一些示例中,本文中讨论的技术可以被用于教导第二语言或增强针对一个或多个用户的跨语言通信吞吐量。在一些示例中,生成的单词和/或短语可以包括一种或多种语言的单词和/或短语。在一些示例中,被提供给用户的建议可以包括第一语言和第二语言二者的单词和/或短语。在一些示例中,被提供给用户的建议可以包括由用户定义的语言中的单词和/或短语。在一些示例中,被提供给用户的建议可以包括第一语言的单词和/或短语,并且选择的建议可以按照第二语言而被输出。
在一些示例中,本文中讨论的技术通过减少通信吞吐量时间来“增强”通信,或者换言之,等效地,技术可以通过增加吞吐率(即,产生通信的速率,诸如例如,每分钟说出的单词、每分钟显示的单词、每分钟传输的单词等)来“增强”通信吞吐量。在一些示例中,本文中讨论的技术增强了包括针对个人而被设计以经由针对其设计接口的机器进行交互以通信的接口的技术。
如本文中使用的,生成的单词和/或短语在本文中被统称为建议。在一些示例中,生成的单词和/或短语是用户可能想要表达的单词和/或短语的预测(即,所计算的预期)。因此,它们在本文中可互换地被称为预测单词/短语和候选话语。在一些示例中,话语可以包括对用户可用的任何通信方法。例如,话语可以包括计算机生成的语音、文本(例如,用于显示和/或作为输入,诸如例如,web搜索查询中的文本)、象形表示和/或由用户或代表用户的任何通信的传输或输出。
术语“技术”可以是指(多个)系统、(多个)方法、利用指令而被编码的计算机可读介质、(多个)模块和/或算法、以及硬件逻辑(例如,现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)) 等,如由上文和整个文档中描述的上下文允许的。
示例设备
图1是描绘被配置为根据本文中讨论的技术操作以通过利用环境数据来增强通信吞吐量的示例设备100的组件的框图。示例设备100可以表示分布式计算资源102和/或(多个)计算设备104、或者实现本文中描述的技术中的一些或所有技术的其他计算设备中的一项或多项。在一些示例中,示例设备100可以包括可以经由一个或多个网络106彼此通信并且与外部设备(诸如(多个)计算设备104)通信的分布式计算资源102。在至少一个示例中,分布式计算资源102可以独立地或并行地实现本文中描述的技术。在一些示例中,(多个)计算设备104可以实现本文中讨论的整个技术。这样,分布式计算资源102和/或(多个)计算设备104可以包括用于实现本文中描述的技术的增强型通信吞吐量框架(“ECTF”)108。
在一些示例中,(多个)网络106可以包括诸如因特网的公共网络、诸如机构和/或个人内联网的专用网络、或者私有网络和公共网络的某种组合。(多个)网络106还可以包括任何类型的有线和/或无线网络,包括但不限于局域网(LAN)、广域网(WAN)、卫星网络、有线网络、 Wi-Fi网络、WiMax网络、移动通信网络(例如,3G、4G等)或它们的任何组合。(多个)网络106可以利用通信协议,包括基于分组和/或基于数据报的协议,诸如因特网协议(IP)、传输控制协议(TCP)、用户数据报协议(UDP)和/或其他类型的协议。此外,(多个)网络106 还可以包括促进网络通信和/或形成针对网络的硬件基础的很多设备,诸如交换机、路由器、网关、接入点、防火墙、基站、中继器、骨干设备等。在一些示例中,可以经由(多个)网络106接收视频以用于由CG 系统处理。在一些示例中,ECTF 108可以经由(多个)网络106向其他设备供应如本文中讨论的建议。
在一些示例中,示例设备100可以包括具有被可操作地连接到计算机可读介质112的一个或多个处理单元110的任何类型的计算设备。该连接可以经由总线114,总线114在某些情况中可以包括系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线以及任何种类的本地、外围设备和/或独立总线中的一项或多项,或者该连接可以经由另一可操作连接。(多个)处理单元110可以表示例如微处理器、控制器、或用于处理计算机可执行指令以控制设备的操作以便促进跨通道通信任何其他合适类型的处理器。在其中使用片上系统架构的一些示例中,(多个) 处理单元110可以包括通过在硬件(而不是软件或固件)中采用CG系统来实现该方法的一部分的一个或多个固定功能块(也被称为加速器)。
在一些示例中,(多个)分布式计算资源102可以包括在集群和/ 或其他分组配置中操作以共享资源、平衡负载、提高性能、提供故障转移支持和/或冗余和/或用于其他目的的一个或多个计算设备。虽然被示出为台式计算机,但是(多个)分布式计算资源102和/或(多个)计算设备104可以包括各种各样的设备类型,并且不限于任何特定类型的设备。例如,(多个)分布式计算资源102可以包括具有被可操作地连接到计算机可读介质、(多个)I/O接口和/或(多个)网络接口的一个或多个处理单元的任何类型的计算设备。
例如,示例设备100可以包括但不限于台式计算机、服务器计算机、 web服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算机、可穿戴计算机、植入式计算设备、电信设备、汽车计算机、支持网络的电视、瘦客户机、终端、个人数据助理(PDA)、游戏机、游戏设备、工作站、媒体播放器、个人视频记录器(PVR)、机顶盒、相机、用于包括在计算设备中的集成组件、电器、(多个)可穿戴设备、智能交通工具和/或任何其他种类的计算设备,诸如一个或多个分离的处理器设备,诸如CPU类型的处理器(例如,微处理器)、GPU和/或(多个) 加速器设备。
如本文中使用的,计算机可读介质112可以包括两种类型的计算机可读介质(即,计算机存储介质和通信介质)中的一种或多种。在一些示例中,计算机可读介质112是存储介质的示例,其可以包括以用于存储诸如计算机(或其他电子设备)可读和/或可执行指令、数据结构、程序模块和/或其他数据等信息的任何方法或技术实现以执行本文中描述的过程或方法的易失性和非易失性、非暂态机器可读、可移除和不可移除介质(以压缩或未压缩的形式)。计算机存储介质包括但不限于硬盘驱动、软盘、光盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、闪存、磁卡和/或光卡、固态存储器设备和/或适合于存储电子指令的其他类型的物理机器可读介质。
相反,在一些示例中,计算机可读介质112可以包括在诸如载波等调制的数据信号和/或其他传输机制中体现计算机可读指令、数据结构、程序模块和/或其他数据的通信介质。如本文中定义的,计算机存储介质不包括通信介质。
在一些示例中,如关于设备100所示的,计算机可读介质112可以存储由(多个)处理单元110可读取和/或可执行的指令。例如,被存储在计算机可读介质112上的可执行指令可以包括ECTF 108和可以由(多个)处理单元110可加载和可执行的其他模块、程序和/或应用(例如,操作系统116、(多个)应用118、固件)。在一些示例中,ECTF 108 可以包括用于完成本文中讨论的技术的一个或多个模块。在一些示例中, ECTF 108可以包括上下文捕获模块120、建议生成器122、建议供应器 124和/或(多个)ECTF服务126。在一些示例中,可以采用任何数目的模块,并且在本文中被描述为由一个或多个模块采用的技术可以由更多或更少数目的模块采用。在一些示例中,经由上下文捕获模块120、建议生成器122、建议供应器124和/或(多个)ECTF服务126,示例设备 100可以存储,从另一设备远程访问,或者使得可用。在一些示例中, (多个)ECTF服务126可以包括建议生成器122和/或建议供应器124。在一些示例中,(多个)ECTF服务126和ECTF 108可以在不同设备上被配置并且经由(多个)网络106通信。
在一些示例中,上下文捕获模块120可以根据本文中讨论的技术中的任何技术来将示例设备100配置为获取和/或捕获上下文数据。为了这样做,上下文捕获模块120可以经由(多个)网络106查询操作系统116、 (多个)应用118、(多个)ECTF服务126和/或其他设备,诸如在一些示例中的(多个)分布式计算资源102。在一些示例中,上下文捕获模块120还可以利用(多个)人机接口128来获取上下文数据。在一些示例中,例如,(多个)人机接口128可以包括(多个)相机、(多个) 麦克风、(多个)扬声器、(多个)显示器、(多个)触觉输入/输出设备、(多个)网络接口、(多个)输入/输出接口和/或(多个)设备、 (多个)运动传感器等中的一项或多项或者经由(多个)网络106或I/O 接口与之通信地连接。在一些示例中,根据本文中讨论的技术中的任何技术,上下文捕获模块120可以使用(多个)人机接口128的组件中的任何组件来获取上下文数据。在一些示例中,(多个)人机接口128的 I/O接口可以允许示例设备100与输入/输出设备通信,输入/输出设备诸如包括外围输入设备的用户输入设备(例如,键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、手势输入设备、注视输入等)和/ 或包括外围输出设备的输出设备(例如,显示器、打印机、音频扬声器、触觉输出等)。
在一些示例中,建议生成器122可以包括音频到文本转换服务、视频到音频和/或图像转换服务、视觉服务和/或自然语言处理服务,以便生成预测单词、标识从中生成其他单词和/或短语的单词和/或生成预测短语。在一些示例中,建议生成器122的服务可以经由应用程序编程接口(“API”)可用于ECTF 108。在一些示例中,建议生成器122可以包括启发式短语,建议生成器122将生成的单词插入启发式短语中。在一些示例中,建议生成器122可以开始于启发式短语的集合,建议生成器122可以使用机器学习(例如,通过深度学习网络、朴素贝叶斯分类器、有向图)、使用关于建议选择活动的数据和/或一个或多个用户的话语模式来增强启发式短语的该集合(例如,通过访问用户的过去的话语,通过访问被存储在云服务上的多个用户的过去的话语和/或选择)。在一些示例中,建议生成器122可以包括人类服务(例如,经由(多个)网络接口130向人提供上下文数据和/或生成的单词以用于建议生成)。
在一些示例中,建议生成器122可以从ECTF 108接收上下文数据,诸如例如视频、音频、图像和/或文本,并且建议生成器122可以根据上下文数据来预测可能具有影响用户话语的倾向的单词。在一些示例中,建议生成器122可以查询(多个)ECTF服务126以从接收自ECTF 108 的上下文数据获取可能具有影响用户话语的倾向的预测单词(例如,当上下文数据需要清除或解析以标识显著部分,上下文数据包括多于视频、音频和/或图像时)。
在一些示例中,建议生成器122可以使用预测单词来生成预测短语,或者建议生成器122可以查询(多个)ECTF服务126以获取预测短语。在一些示例中,建议生成器122和/或(多个)ECTF服务126可以包括用于生成预测短语和/或从文本(例如,从视频、音频、图像、应用数据、操作系统数据等转换的文本)标识可能的显著单词和/或针对预测单词和 /或预测短语生成权重的自然语言处理。
在一些示例中,建议供应器124可以按照合适的方式向用户提供建议(即,一个或多个预测单词和/或短语)以用于用户从建议选择。在一些示例中,建议供应器124可以包括用于GUI经由(多个)人机接口128 来表示建议的指令,如关于图3至图8所讨论的。在一些示例中,GUI 可以包括在图像的再现之上的建议的叠加。在一些示例中,建议可以被叠加在图像中建议所对应的显著对象之上。在一些示例中,GUI可以包括键盘。在一些示例中,GUI可以包括专用于建议的区域。在一些示例中,这一区域可以是由键盘表示占据的区域和/或显示器的另一区域。在一些示例中,建议可以被表示为文本条目完成(例如,如果用户选择“p”,则建议可以包括完成,诸如例如“paper pad(纸垫)”或“please bring me the paperpad(请带给我纸垫)”)。
在一些示例中,建议供应器124可以被配置为提供全词建议、短语建议、单词自动完成建议和/或自动拼写纠正建议等。在一些示例中,建议供应器124可以计算针对用户试图输入的候选单词的统计概率(即,建议供应器124可以尝试预期用户正试图输入的单词)。在一些示例中,建议供应器124可以针对模糊或容易出错的键盘来计算该概率,诸如基于书写和/或其他手势和/或滑动的技术等。
在一些示例中,建议供应器124可以被配置为接收用户对被呈现给用户的建议中的一个建议的选择。在一些示例中,这包括从人机接口128 接收建议供应器124可以将其关联的信息,诸如例如注视数据、触觉数据、输入/输出设备数据(例如,前额鼠标、按钮致动数据、指针设备数据)、相机数据、用户运动数据和/或听觉数据,作为对建议中的一个建议的选择。在一些示例中,用户可以使用“注视选择”来选择建议中的一个建议。例如,为了注视选择,用户可以在预定时间量内使用户注视建议中的一个建议以便选择建议。
在一些示例中,建议供应器124可以被配置为供应选择的建议作为输出。在一些示例中,建议供应器124可以将选择的建议格式化以符合选择的输出(例如,由用户选择由设置指定选择通过环境标识符的检测选择,例如,输出到针对“家庭”的环境标识符的音频和/或输出到针对“文本消息”的环境标识符的文本)。在一些示例中,建议供应器124 可以将选择的建议作为输出供应给操作系统116、一个或多个应用118、 (多个)人机接口128或(多个)网络接口130中的一项或多项(例如,以供应给通过网络被连接到示例设备100的设备)。如上所述,(多个) 人机接口128可以包括一个或多个组件,诸如例如(多个)相机、(多个)麦克风、(多个)扬声器、(多个)显示器、(多个)触觉输入/ 输出设备、(多个)网络接口、(多个)输入/输出接口和/或(多个) 设备、(多个)运动传感器等。
在一些示例中,(多个)ECTF服务126可以包括环境检测服务、建议生成器122(例如,当在第二设备上配置(多个)ECTF服务126 时)、自然语言处理服务和/或视觉服务。在一些示例中,(多个)ECTF 服务126可以经由网络远程可访问示例设备100。在一些示例中,环境检测服务可以包括机器学习(例如,分类器、深度学习模型、卷积深度神经网络),该机器学习将上下文数据作为输入并且至少部分基于上下文数据的一个或多个离散元素的(多个)共现来输出环境标识符。例如,如果上下文数据包括显著对象标签“Onion(洋葱)”、“Knife(刀)”、“Spoon(勺子)”、“Table(桌子)”、“Sink(水槽)”、“Mixing Bowl(混合碗)”和“Spouse(配偶)”,则环境检测服务可以将环境标识符(诸如例如,“home(家)”或“kitchen(厨房)”)连接到上下文数据。或者,在另一示例中,如果上下文数据包括应用数据,诸如包括术语“concert(音乐会)”的日历事件和上午8:00的时间、包括上午8:17的并列的操作系统数据、以及包括嘈杂音乐的捕获的音频,则环境检测服务可以连接环境标识符,诸如例如“concert(音乐会)”或“noisy surroundings(嘈杂的周围)”。在一些示例中,建议供应器124可以使用诸如“noisy surroundings(嘈杂的周围)”的环境标识符来选择输出形式(例如,对于“noisy surroundings(嘈杂的周围)”,建议提供124 可以选择不向(多个)人机接口128的扬声器输出选择的建议,并且可以取而代之将选择的建议输出到(多个)人机接口128的显示器)。在一些示例中,在将上下文数据提供给环境检测服务之前,可以由另一服务(诸如例如,视觉服务和/或自然语言处理服务)处理上下文数据。
在一些示例中,(多个)ECTF服务126的自然语言处理服务可以处理上下文数据以标识要提供给服务以生成预测单词和/或短语的潜在部分,生成预测单词和/或短语本身和/或清除或以其他方式准备上下文数据以供应给本文中讨论的技术的其他部分。在一些示例中,自然语言处理服务可以包括机器学习组件,诸如例如深度学习神经网络、卷积神经网络、有向非循环图、分类器等。在一些示例中,(多个)ECTF服务126(和/或建议生成器122)的自然语言处理服务可以生成用于生成预测单词和/或短语的上下文数据的权重和/或用于生成的预测单词和/或短语的权重。在一些示例中,(多个)ECTF服务126(和/或建议生成器122)可以附加地或备选地至少部分基于上下文数据对生成的单词和/ 或短语分类、排名和/或过滤。
在一些示例中,计算机可读介质112还可以包括数据存储库132。在一些示例中,数据存储库132包括数据存储装置,诸如数据库、数据仓库和/或其他类型的结构化或非结构化数据存储装置。在一些示例中,数据存储库132可以包括应用数据、操作系统数据、由人机接口128检测到的用户或其他人的先前话语和/或对建议的先前的选择。
示例设备100还可以包括用于实现通过(多个)网络106的通信的 (多个)网络接口130。这样的(多个)网络接口106可以包括用于通过网络106发送和接收通信的一个或多个网络接口控制器(NIC)或其他类型的收发器设备。
示例环境
图2是描绘其中本文中讨论的技术可以操作的示例环境200的框图。
示例环境200包括增强型通信吞吐量框架(“ECTF”)202,ECTF 202可以表示ECTF108,在一些示例中,ECTF 108利用ECTF 202从一个或多个源获取的上下文数据204(1)-(4)来增强针对用户206的通信吞吐量。图2示出了ECTF 202独立于设备,但是应当理解,ECTF202 可以在如上面关于示例设备100所讨论的任何设备上被配置。在一些示例中,ECTF 202可以获取以下中的一个或多个:来自技术的用户206 的周围208的上下文数据204(1)、来自(多个)设备210的上下文数据204(2)、ECTF 202捕获或以其他方式获取的上下文数据204(3)、或来自(多个)ECTF服务212的上下文数据204(4),(多个)ECTF 服务212可以表示(多个)ECTF服务126。在一些示例中,诸如图2 中所示的示例,(多个)ECTF服务212可以在与配置ECTF 202的设备不同的设备上被配置。在一些示例中,ECTF 202可以在(多个)设备 210上被配置,并且(多个)ECTF服务212可以在(多个)分布式计算资源216上被配置。
在一些示例中,ECTF 202可以被通信地耦合到人机接口,从而使得 ECTF 202可以向用户提供建议以用于选择,从用户接收建议的选择和/ 或向人机接口供应建议以用于代表用户输出。在一些示例中,ECTF 202 可以通过(多个)网络218将建议供应给以下一项或多项:另一设备,诸如可以表示示例设备100的设备214;存储在配置ECTF 202的同一设备上的应用等。
在一些示例中,上下文数据204(1)可以包括关于用户的物理周围的上下文数据,诸如例如,以下一项或多项:
·用户206的周围208的图像;·显著对象220(1)-(3)(例如,洋葱220(1)、香蕉220(2)、减价销售标志220(3))的显著对象标识符;
·周围208的位置(例如,坐标);
·与周围208对应的环境标识符(例如,“grocery store(杂货店)”);从周围208捕获的音频和/或视频;
·从周围208捕获的图像、音频和/或视频中检测到的话语(例如,来自附近的人的话语、设备210的话语、用户206的话语、诸如减价销售标志220(3)等文本的文本话语);
·用户的活动标识符(例如,用户“walking(步行)”、用户“standing (站立)”,用户“fallen(掉落)”);
·等等。
在一些示例中,设备210可以捕获或获取上下文数据204(1)的一部分。
在一些示例中,上下文数据204(2)可以包括从设备210获取的上下文数据。在一些示例中,上下文数据204(2)可以包括以下一项或多项:
·从应用获取的应用数据(例如,提交给应用的先前话语、用于输入的应用的部分的选择、应用的活动部分、应用的目的或功能、应用使用历史、应用请求、存储的应用数据(诸如日历事件、照片或地理位置))或者通过向操作系统查询应用而被获取的应用数据(例如,应用的正常运行时间、应用的目的、由应用访问的寄存器的部分);
·操作系统信息或由操作系统提供的信息(例如,一天中的时间、设备和/或软件信息);
·设备210的位置(例如,与设备210的IP地址对应的地理位置、设备210的GPS位置);
·话语输出目的地或目的(例如,字段的选择、用于显示的选项的选择、音频复制和/或传输、诸如经由文本消息接发服务、作为因特网搜索的输入);
·等等。
在一些示例中,上下文数据204(3)可以包括ECTF 202已经将其标识为可能显著以用于预测的上下文数据204(1)、(2)和/或(4) 的子集(例如,通过对上下文数据进行自然语言处理和/或分类)。在一些示例中,ECTF 202可以向(多个)ECTF服务212提供上下文数据204 (1)和(2)以生成预测单词和/或短语。在一些示例中,(多个)ECTF 服务包括视觉服务212(1)、自然语言处理服务212(2)、环境检测服务212(3)和本文中讨论的任何其他服务中的一个或多个。在一些示例中,(多个)ECTF服务212还可以包括数据存储库222。在一些示例中,数据存储库222可以包括来自本文中讨论的技术的其他用户的数据。例如,数据存储库222可以包括(多个)ECTF服务212可以用来训练组成(多个)ECTF服务212(诸如例如视觉服务212(1)、自然语言处理服务212(2)和/或环境检测服务212(3))的服务的其他用户的话语、建议、建议选择、其他上下文数据等。
在一些示例中,上下文数据204(4)可以包括预测单词和/或短语、环境标识符、显著对象标识符、先前建议选择、先前话语(无论是用户还是另一人)等中的一个或多个。
示例场景
图3描绘了用于向用户206表示单词和/或短语建议以加快用户206 的通信吞吐量的示例图形用户界面(“GUI”)300和302。在该示例中,这些技术可以根据本文中讨论的任何技术输出选择的建议。元素304是用户206的周围208的图像304的表示。在一些示例中,图像304可以包括根据本文中讨论的任何技术标识的显著对象306(1)(即,onion(s) ((多个)洋葱))、306(2)(即,banana(s)((多个)香蕉))和306(3)(即,减价销售标志)。在一些示例中,当存在多个相同类型的显著对象(即,洋葱)时,本文中讨论的技术可以标识成组的显著对象(即,洋葱)和/或单个显著对象。
在一些示例中,GUI 300可以包括预测单词的表示(即,在该示例中为“onion(洋葱)”和“banana(香蕉)”),诸如例如叠加标签308 (1)和308(2),如图3所示。在一些示例中,预测单词308(1)和 (2)可以从显著对象标签得出。图3中描绘的GUI 300还示出了加权、分类、排名和/或过滤的实例,其导致少于显示的所有可能的预测单词 (即,即使“sale sign(减价销售标志)”可以是另一预测单词,也仅显示“onion(洋葱)”和“banana(香蕉)”)。本文中讨论的技术可以使用加权、分类、排名或过滤中的一个或多个来决定显示仅与两个检测到的显著对象而不是三个对应的预测单词。例如,加权、分类、排名和/ 或过滤可以基于建议用户对商业或杂货项目感兴趣的上下文数据(例如,来自用户的前话语,来自平均注视数据,来自用户输入)、检测“onion (洋葱)”和“banana(香蕉)”的自然语言处理通常是话语的主题、基于先前话语的机器学习和/或将“onion(洋葱)”和“banana(香蕉)”标识为更有可能被选中的一个或多个用户的建议选择。
在一些示例中,GUI 302还可以包括预测单词和预测短语作为GUI 302中的叠加标签310(1)-(4)。在一些示例中,GUI 302可以响应于叠加标签308(1)的选择的接收而被呈现给用户206(例如,预测单词的表示的选择可以发起短语的生成,预测单词的表示的选择可以发起与预测单词相关的更多建议的呈现)。在一些示例中,GUI 302可以是至少部分基于至少部分基于上下文数据的加权、分类、排名或过滤而呈现的第一GUI。例如,本文中讨论的技术可以从应用中标识出用户206先前经由文本消息表达“Do we need onions?(我们需要洋葱吗?)”,或者周围208中的人可以表达“I think we need onions(我认为我们需要洋葱)”,这些技术可以经由麦克风和音频到文本转换来对其进行检测。
在一些示例中,自然语言处理可以确定可能与预测单词和/或显著对象标签相关联的短语。例如,自然语言处理服务可以确定关于洋葱的共同询问是它们是否是甜的,如叠加标签310(2)所反映的那样。在一些示例中,自然语言处理服务可以利用关于一个或多个用户的先前话语和/ 或建议选择的数据来做出这样的确定。
在一些示例中,即使没有提供与显著对象标签(或在一些示例中为预测字)“salesign(减价销售标志)”对应的标签,“sale sign(减价销售标志)”也可以用于预测与“salesign(减价销售标志)”有关的短语。例如,叠加标签310(3)可以是从包括显著对象标签“onion(洋葱)”和“sale sign(减价销售标志)”的上下文数据中预测的短语的表示。在一些示例中,环境检测服务可以从诸如显著对象标签“onion(洋葱)”、“banana(香蕉)”和“salesign(减价销售标志)”等上下文数据中检测到“grocery store(杂货店)”的环境标识符可以被包括在上下文数据中。在一些示例中,该环境标识符可以用于生成预测短语,诸如由叠加标签310(2)表示的预测短语,其可能更有可能在杂货店而不是诸如“home(家)”等环境中被询问。
在一些示例中,GUI 302可以包括基于启发法生成的预测短语的表示,诸如例如由叠加标签310(4)表示的预测短语。在一些示例中,启发式短语可以包括例如诸如“Pleasehand me_____(请给我_____)”等短语。在一些示例中,本文中的技术可以使用上下文数据的加权、分类、排名和/或过滤来确定要使用的短语生成的源(例如,自然语言处理、启发式短语、人类生成的短语)和/或短语应当采用何种形式(例如,句子完成、询问、定性陈述)。
图4描绘了用于表示单词和/或短语建议以加快通信吞吐量的示例 GUI 400。在一些示例中,GUI 400可以包括键盘表示402和用于呈现建议406(1)-(N)的区域404。图4还描绘了将选择的话语输出到应用和/或网络接口的示例(应用可以包括在图4中由GUI 408表示的GUI)。在一些示例中,应用可以是消息传递服务,诸如由GUI 408表示的消息传递服务。在一些示例中,上下文数据可以包括从应用数据接收的先前话语(诸如例如,先前的话语410(1)(例如,如图4中的不同的人的) 和410(2)(例如,如图4中的用户的)),在一些示例中,先前的话语410(2)可以是用户的先前的建议选择。
在一些示例中,GUI 400的区域404可以包括用于表示建议的N个空间。在一些示例中,本文中讨论的技术可以利用上下文数据来对建议加权、分类、排名和/或过滤以将大于N的数目的建议减少到N个建议。在一些示例中,本文中的技术可以包括向用户提供查看更多建议的选项。在该示例中,GUI 400可以根据加权、分类、排名和/或过滤用另外的N 个建议刷新建议406。在一些示例中,如图4所示,上下文数据可以包括键盘402的一部分的选择412(即,字母“D”的表示的选择)。图4 所示的示例建议包括作为使用该选择412(其可以是通过本文中描述的技术获取的上下文数据的一部分)来加权、分类、排名和/或过滤生成的建议的结果而出现的建议。例如,诸如建议406(2)和406(4)等建议可以是以相同字母(或在一些示例中为字母组合)开头的句子完成。在一些示例中,键盘选择412可以另外用于加权、分类、排名和/或过滤生成的建议。
图4还包括从与周围最相关(即,当环境标识符和/或显著对象标签包括“grocerystore(杂货店)”时的建议406(1))到与周围不相关(即,建议406(N))按照与用户的周围的相关性而排名的建议的示例。例如,图4还描绘了可以至少部分基于上下文数据(诸如例如,应用数据和/ 或先前的话语)来生成的建议406(N)。
在一些示例中,在图4中描绘的场景中,当用户选择建议时,可以将建议输出到应用并且在GUI 408中表示。在一些示例中,可以随后将该选择视为上下文数据。
图5描绘了用于表示单词和/或短语建议以加快通信吞吐量的示例 GUI 500和502。GUI 500是混合GUI,其包括周围的图像504、叠加标签506(1)和506(2)、建议区域508和键盘510。在一些示例中,GUI 包括建议区域并且键盘可以在应用或操作系统调用键盘时被使用。
在一些示例中,代替字母表示,键盘可以包括显著对象表示,诸如例如GUI 502的表示512(1)-(3)。在一些示例中,GUI 502可以包括显著对象表示,诸如例如,表示512(1)-(3)。在一些示例中,以这种方式表示建议的决定可以至少部分基于与系统的用户的认知能力对应的设置。
图6描绘了用于表示单词建议以加快通信吞吐量的示例GUI 600。示例GUI 600可以包括例如图像和/或视频(或其他环境上下文数据)的表示602;由统计语言模型生成的单词建议604(1)和(2),诸如例如经由API可访问的自然语言处理服务;以及至少部分基于环境上下文(例如,由表示602表示的图像和/或视频)而被生成的单词建议606(1)- (3)。在一些示例中,不需要显示表示602。在一些示例中,GUI 600 可以包括播放按钮608(即,用于查看环境上下文数据)、捕获按钮610 (即,用于发起环境上下文数据的捕获)和/或清除按钮612(即,用于移除环境上下文数据)或用于发起环境上下文的捕获、查看环境上下文数据、选择环境上下文数据、指定期望生成建议的环境上下文的一部分等的任何其他按钮。
在一些示例中,GUI 600可以包括用于切换基于上下文的建议的外观的切换按钮614。在一些示例中,切换按钮614可以在选项之间切换,包括基于上下文的建议打开、基于上下文的建议关闭、仅基于上下文的建议、前k个基于上下文的建议等中的一个或多个。在一些示例中,建议可以包括指示符616,该指示符616指示建议是使用环境上下文数据生成的。在一些示例中,指示符616可以包括建议的颜色、视觉指示符 (例如,星形、符号)或文本效果(例如,文本颜色、斜体、下划线、粗体、字体大小等)中的一项或多项。在一些示例中,GUI 600可以包括用户输入界面,诸如例如键盘618,如图所示。
图7描绘了用于表示单词和/或短语建议702(1)-(5)以加快通信吞吐量的示例GUI700。在一些示例中,图7中描绘的GUI 700可以仅包括环境上下文生成的建议。在一些示例中,GUI 700可以通过选择切换按钮614仅包括环境上下文生成的建议,诸如当GUI处于类似于图6 中描绘的GUI的状态的状态时。在一些示例中,可以按类型组织单词建议和短语建议,如图7所示(即,单词建议702(1)-(3)被分组在一起并且在左边,并且短语建议702(4)和(5)被分组在一起并且在右边)。尽管以这种方式描述建议,但是应当理解,可以使用加权、分类、排名和/或过滤来实现该排名。
图8描绘了示例GUI 800和示例专用GUI 802。在一些示例中,可以选择图像和/或视频(或其他环境上下文数据)的表示804以在GUI 800 与专用GUI 802之间转换。在一些示例中,本文中描述的任何GUI和/ 或GUI 802可以在专用于环境上下文通信的设备上被实现。在一些示例中,专用GUI 802可以包括单词建议806(1)-(3)和/或短语建议808 (1)-(3)。在一些示例中,为了便于使用,专用GUI 800可以被布置为在专用GUI 800内的相同或相似位置中显示建议的类型。例如,专用 GUI 800可以将单词建议放置在左侧并且将短语建议放置在右侧,如图所示;或者专用GUI 800可以将类似生成的建议放置在GUI中的类似位置(例如,从启发式短语“Please hand me a(n)___(请给我_____)”生成的短语出现在专用GUI 800中的类似位置——参见在专用GUI 800中的“Please hand me an onion(请给我洋葱)”和“Please hand me a banana (请给我香蕉)”的相似位置)。
在一些示例中,GUI可以至少部分基于建议之间的相关性来在GUI 空间中定位建议。例如,在另一示例中,短语建议“How much are the onions? (洋葱多少钱?)”可以更接近于单词建议802(3)“Sale(减价销售)”或与单词建议802(3)“Sale(减价销售)”相关的短语建议808(3)。尽管本文中描绘的GUI将建议描述为矩形视觉元素,但是可以预期,可以采用其他视觉表示方法和/或可以附加地或备选地利用其他感觉输出,诸如例如音频、触觉或脑波输出。
示例过程
图9至图11示出了可以全部或部分地执行的示例性过程900、1000 和1100。这些过程可以但不一定使用图1的示例设备100来执行。
图9描绘了用于至少部分基于利用上下文数据来增强用户的通信吞吐量的示例过程900。
在902处,根据本文中讨论的任何技术,ECTF 108可以获取关于设备的用户的上下文数据,该上下文数据包括可能具有影响用户话语的倾向的数据。
在904处,根据本文中讨论的任何技术,ECTF 108可以至少部分基于上下文数据来生成候选话语。
在906处,根据本文中讨论的任何技术,ECTF 108可以将一个或多个候选话语供应给人机接口以用于向用户表示。
图10描绘了用于至少部分基于利用包括图像的上下文数据来增强用户的通信吞吐量的示例过程1000。
在1002处,根据本文中讨论的任何技术,ECTF 108可以获取图像。在一些示例中,图像可以是用户的周围的图像。在一些示例中,图像可以按照其他方式而被捕获或取回。
在1004处,根据本文中讨论的任何技术,ECTF 108可以获取图像中的对象的显著对象标签。在这样的
在1006处,根据本文中讨论的任何技术,ECTF 108可以至少部分基于显著对象标签来生成预测单词。
在1008处,根据本文中讨论的任何技术,ECTF 108可以至少部分基于预测单词或显著对象标签中的一个或多个来生成预测短语。
在1010处,根据本文中讨论的任何技术,ECTF 108可以选择包括预测单词或预测短语中的一项或多项的子集。在一些示例中,选择包括至少部分基于上下文数据的加权、分类、排名和/或过滤中的一项或多项。
在1012处,根据本文中讨论的任何技术,ECTF 108可以选择包括预测单词或预测短语中的一项或多项的子集。
在1008处,根据本文中讨论的任何技术,ECTF 108可以经由人机接口提供子集的表示作为建议话语。
图11描绘了用于至少部分基于使用上下文数据代表用户标识候选话语来增强用户的通信吞吐量的示例过程1100。
在1102处,ECTF 108可以代表用户来标识候选话语。在一些示例中,操作802可以包括操作802(A)和802(B)中的一项或多项。
在1102(A)处,根据本文中讨论的任何技术,ECTF 108可以获取上下文数据。
在1102(B),根据本文中讨论的任何技术,ECTF 108可以至少部分基于上下文数据来生成候选话语。在一些示例中,操作1102(B)可以包括以下一项或多项:操作1102(B)(i),根据本文中讨论的任何技术,至少部分基于上下文数据对候选话语加权;操作1102(B)(ii),根据本文中讨论的任何技术,至少部分基于上下文数据来对候选话语进行过滤;或者操作1102(B)(iii),根据本文中讨论的任何技术,至少部分基于上下文数据对候选话语排名。
在1104处,根据本文中讨论的任何技术,ECTF 108可以向用户提供候选话语的表示。
在1106处,根据本文中讨论的任何技术,ECTF 108可以接收来自用户的对候选话语中的一个候选话语作为期望话语的选择。
在1108处,根据本文中讨论的任何技术,ECTF 108可以代表用户来输出期望话语。
示例条款
A.一种系统,包括:一个或多个相机;一个或多个处理器;人机接口;以及计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令在由所述一个或多个处理器执行时,将所述系统配置为执行包括操作,所述操作包括:通过所述一个或多个相机获取图像;获取针对所述图像中的对象的显著对象标签;至少部分基于所述显著对象标签来生成预测单词;至少部分基于所述预测单词或所述显著对象标签中的一项或多项来生成预测短语;从所述预测单词和所述预测短语中选择一个或多个建议话语;以及经由所述人机接口输出所述一个或多个建议话语的表示。
B.根据段落A所述的系统,所述输出包括:经由所述人机接口绘出所述图像;以及将所述一个或多个建议话语的表示绘出为被叠加在所述图像中与所述对象对应的位置之上的一个或多个标签。
C.根据段落A或段落B所述的系统,所述输出包括:以下一项或多项:经由所述人机接口将所述一个或多个建议话语绘出为符号、单词或短语完成,经由所述人机接口将所述一个或多个建议话语绘出为绘出键盘的一部分,在所述人机接口的专用部分处绘出,经由所述人机接口绘出所述一个或多个建议话语的图形表示,或者经由所述人机接口输出所述一个或多个建议话语作为音频。
D.根据段落A至C中任一项所述的系统,所述人机接口包括显示器,并且向所述人机接口输出所述一个或多个建议话语包括:在所述显示器的专用于环境上下文预测单词或短语的指定区域中,绘出所述一个或多个建议话语的、对应于与用户的周围相关的预测单词或短语对应的一部分;至少部分基于与所述用户的周围的相关性来对所述一个或多个建议话语的剩余部分排名;以及在所述显示器处、在所述指定区域之外以与所述排名对应的顺序绘出所述剩余部分。
E.根据段落A至D中任一项所述的系统,所述操作还包括:接收指示对所述一个或多个建议话语的词或短语的选择的输入;向以下一项或多项供应选择的单词或短语以用于输出:网络接口、被存储在所述计算机可读介质上的应用或所述人机接口。
F.根据段落A至E中任一项所述的系统,其中接收指示选择的输入包括:由所述一个或多个相机获取注视数据;以及将所述注视数据与所述人机接口的离散部分关联,所述离散部分与所述预测单词或预测短语中的一项对应。
G.根据段落A至F中任一项所述的系统,还包括一个或多个麦克风,并且所述操作还包括:经由所述一个或多个麦克风捕获音频数据;至少部分基于所述音频数据来确定会话上下文,所述会话上下文包括语法信息、语义信息或关键字中的一项或多项;以及其中以下至少一项进一步基于所述会话上下文:生成所述预测单词,生成所述预测短语,选择所述一个或多个建议话语,或者经由所述人机接口输出所述一个或多个建议话语。
H.根据段落A至G中任一项所述的系统,所述操作还包括:捕获所述系统的用户的注视数据;至少部分基于所述注视数据来标识所述显著对象或者所述人机接口的一部分中的至少一项;以及其中以下中的至少一项进一步基于所述标识:生成所述预测单词,生成所述预测短语,选择所述一个或多个建议话语,或者经由所述人机接口输出所述一个或多个建议话语。
I.根据段落A至H中任一项所述的系统,所述操作还包括:至少部分基于所述注视数据标识以下一项或多项:经由所述人机接口而被绘出的用户界面的一部分、所述对象的表示、所述图像的一部分、所述用户的环境的一部分或者针对经由所述人机接口而被绘出的输入的选项的子集。
J.根据段落A至I中任一项所述的系统,所述操作还包括:确定所述对象的条件或位置,所述对象是第一对象;确定针对所述图像中的第二对象的第二显著对象标签;标识所述第一对象相对于所述第二对象的相对位置;并且其中生成所述预测单词,生成所述预测短语,选择所述一个或多个建议话语,或者经由所述人机接口输出所述一个或多个建议话语的至少一项进一步基于以下一项或多项中的一项或多项:所述第二显著对象标签,所述图像中的所述第一对象和所述第二对象的共现,或者所述第一对象的条件、位置或相对位置。
K.根据段落A至J中任一项所述的系统,所述操作还包括:获取应用数据,所述应用数据包括以下一项或多项:正在使用的应用或最近使用的应用的标识以及正在使用的应用或最近使用的应用的功能的标识符,所述正在使用的应用或所述最近使用的应用的被指定用于接收所述一个或多个建议话语的一部分的标识符,或者由被存储在所述计算机可读介质上的应用存储的使用历史或数据;并且其中以下至少一项进一步基于所述应用数据:生成所述预测单词,生成所述预测短语,选择所述一个或多个建议话语,或者经由所述人机接口输出所述一个或多个建议话语。
L.根据段落A至K中任一项所述的系统,其中所述图像是所述用户的物理周围的图像。
M.一种方法,包括:代表用户标识候选话语,所述标识包括:获取上下文数据,所述上下文数据包括以下一项或多项:关于所述用户的物理周围物(surround)的数据,关于所述用户的数字上下文的数据,或者所述用户的历史数据;至少部分基于所述上下文数据来生成所述候选话语,所述生成包括以下一项或多项:至少部分基于所述上下文数据来对所述候选话语加权,至少部分基于所述上下文数据来对所述候选话语过滤,或者至少部分基于所述上下文数据对所述候选话语分类;以及向所述用户提供所述候选话语的表示;接收指示来自所述用户的、对所述候选话语中的一个候选话语作为期望话语的选择的输入;以及代表所述用户输出所述期望话语。
N.根据段落M所述的方法,所述上下文数据包括图像,并且所述方法还包括:标识所述图像中的显著对象;确定针对所述显著对象的显著对象标签;以及至少部分基于所述上下文数据和所述显著对象标签来生成所述候选话语。
O.根据段落M或N所述的方法,其中获取上下文数据还包括从本地存储装置或远程存储装置获取所述图像。
P.根据段落M至O中任一项所述的方法,其中所述图像是用户的物理周围的图像。
Q.根据段落M至P中任一项所述的方法,还包括,在接收到指示所述选择的输入之后:至少部分基于指示所述选择的输入和所述上下文数据来生成第二候选话语;接收指示来自所述用户的、对特定候选话语作为所述期望话语的选择的第二输入;以及代表所述用户输出所述期望话语。
R.一种设备,包括:一个或多个处理器;人机接口;计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令当被执行时,将所述处理器配置为执行操作,所述操作包括:获取关于所述设备的用户的上下文数据,所述上下文数据包括关于所述用户的数字环境的数据、关于所述用户的物理周围的数据或关于所述用户的历史数据中的一项或多项;至少部分基于所述上下文数据来生成候选话语;以及向所述人机接口输出所述候选话语中的一个或多个候选话语以用于所述候选话语向用户的表示。
S.根据段落R所述的设备,所述设备还包括以下一项或多项:被存储在所述计算机可读介质上的操作系统,被存储在所述计算机可读介质上的应用,相机,麦克风,网络接口,一个或多个传感器,其被配置为监测所述用户的运动;并且所述上下文数据包括以下一项或多项:与所述用户相关联的注视数据;自所述用户的最后话语或者关于所述用户或者代表所述用户而被进行的操作以来流逝的时间;从接收自所述一个或多个传感器的所述用户的运动推断的活动标识符;从所述应用或通过关于所述应用查询所述操作系统而被获取的应用数据;操作系统信息或由所述操作系统提供的信息;话语输出目的地或目的;从所述相机、所述麦克风、所述操作系统、所述应用或所述计算机可读介质或通过所述网络接口获取的先前话语;先前话语的语音、句法或语义信息;在由所述相机获取或以其他方式由所述设备取回的图像中被标识的显著对象;或者所述上下文数据的子集的共现的分类。
T.根据段落R或S所述的设备,所述设备还包括:扬声器,显示器,网络接口,被存储在所述计算机可读介质中的操作系统,以及被存储在所述计算机可读介质中的应用;并且所述操作还包括:接收指示来自所述用户的、对所述候选话语中的一个候选话语作为选择的话语的选择的输入;以及输出所述话语,所述输出包括以下一项或多项:经由所述人机接口表示所述候选话语;经由所述扬声器输出所述话语,经由所述显示器输出所述话语,或者向所述应用、所述操作系统或所述网络接口中的一项或多项输出所述话语。
结论
尽管用结构特征和/或方法动作特定的语言描述了本主题,但是应当理解,所附权利要求书中定义的主题不必限于所描述的具体特征或动作。而是,具体特征和动作被公开作为实现权利要求的示例形式。
本文中描述的模块表示可以存储在任何类型的计算机可读介质中并且可以在软件和/或硬件中被实现的指令。上述所有方法和过程可以在由一个或多个计算机或处理器、硬件或其某种组合执行的软件代码模块和/ 或计算机可执行指令中实施并且经由其来完全自动化。或者,一些或所有方法可以在专用计算机硬件中实施。
除非另外特别说明,否则诸如“可以(can)”、“可以(could)”、“可以(may)”或“可以(might)”等条件语言在上下文中被理解为表示某些示例包括而其他示例不包括某些特征、元素和/或步骤。因此,这种条件语言通常不旨在暗示某些特征、元素和/或步骤对于一个或多个示例是以任何方式所需要的,也不旨在暗示一个或多个示例必须包括用于在有或没有用户输入或提示的情况下决定是否要在任何特定示例中包括或执行某些特征、元素和/或步骤的逻辑。
除非另外特别说明,否则诸如短语“X、Y或Z中的至少一个”等联合语言应当被理解为表示项目、术语等可以是X、Y或Z、或其任何组合。除非明确描述为单数,否则“一个(a)”表示单数和复数。
本文中描述和/或附图中描绘的流程图中的任何例程描述、元素或块应当被理解为可能表示包括用于实现例程中的特定逻辑函数或元素的一个或多个计算机可执行指令的模块、片段或代码部分。备选实现被包括在本文中描述的示例的范围内,其中元素或功能可以被删除,或者不按照示出或讨论的顺序执行,包括基本上同步地或以相反的顺序,这取决于所涉及的功能,如本领域技术人员将理解的。
应当强调的是,可以对上述示例进行很多变化和修改,其中的元素应当被理解为是其他可接受的示例。所有这样的修改和变化旨在被包括在本公开的范围内并且由所附权利要求保护。

Claims (20)

1.一种用于通过减少产生通信的通信吞吐量时间或增加产生通信的通信吞吐率的、针对至少一个用户的改进的通信吞吐量的系统,所述系统包括:
一个或多个相机;
一个或多个麦克风;
一个或多个处理器;
人机接口;以及
计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令在由所述一个或多个处理器执行时,将所述系统配置为执行操作,所述操作包括:
通过所述一个或多个相机获取图像;
获取针对所述图像中的对象的显著对象标签;
经由所述一个或多个麦克风捕获音频数据;
基于所述音频数据来确定会话上下文,所述会话上下文包括语法信息、语义信息和关键字中的一项或多项;
基于所述显著对象标签来生成预测单词;
基于所述预测单词、所述显著对象标签、所述图像中的所述对象和所述会话上下文来生成预测短语;
从所述预测单词和所述预测短语中选择一个或多个建议话语;以及
经由所述人机接口输出所述一个或多个建议话语的表示,由此通过减少产生通信的所述通信吞吐量时间或增加产生通信的所述通信吞吐率来提供针对所述至少一个用户的改进的通信吞吐量。
2.根据权利要求1所述的系统,所述输出包括:
经由所述人机接口绘出所述图像;以及
将所述一个或多个建议话语的所述表示绘出为一个或多个标签,所述一个或多个标签被显示为所述图像中与所述对象对应的位置之上的一个或多个叠加标签。
3.根据权利要求1所述的系统,所述输出包括:
以下一项或多项:
经由所述人机接口将所述一个或多个建议话语绘出为符号、单词或短语完成,
经由所述人机接口将所述一个或多个建议话语绘出为绘出键盘的一部分,
在所述人机接口的专用部分处绘出,或者
经由所述人机接口绘出所述一个或多个建议话语的图形表示。
4.根据权利要求1所述的系统,所述人机接口包括显示器,并且向所述人机接口输出所述一个或多个建议话语包括:
在所述显示器的专用于环境上下文预测单词或短语的指定区域中,绘出所述一个或多个建议话语的、对应于与用户的周围相关的预测单词或短语的一部分;
基于与所述用户的所述周围的相关性来对所述一个或多个建议话语的剩余部分排名;以及
在所述显示器处、在所述指定区域之外以与所述排名对应的顺序绘出所述剩余部分,所述剩余部分被显示为所述图像中与所述用户的所述周围对应的位置之上的一个或多个叠加标签。
5.根据权利要求1所述的系统,所述操作还包括:
接收指示对所述一个或多个建议话语的单词或短语的选择的输入;
向以下一项或多项供应输出选择的所述单词或所述短语:
网络接口,
被存储在所述计算机可读介质上的应用,或者
所述人机接口。
6.根据权利要求5所述的系统,其中接收指示选择的输入包括:
通过所述一个或多个相机获取注视数据;以及
将所述注视数据与所述人机接口的离散部分关联,所述离散部分与所述预测单词或预测短语中的一项对应。
7.根据权利要求1所述的系统,其中以下至少一项进一步基于所述会话上下文:生成所述预测单词,选择所述一个或多个建议话语,以及经由所述人机接口输出所述一个或多个建议话语。
8.根据权利要求1所述的系统,所述操作还包括:
捕获所述系统的用户的注视数据;
基于所述注视数据来标识所述显著对象或者所述人机接口的一部分中的至少一项;并且
其中以下至少一项进一步基于所述标识:
生成所述预测单词,
生成所述预测短语,
选择所述一个或多个建议话语,或者
经由所述人机接口输出所述一个或多个建议话语。
9.根据权利要求8所述的系统,所述操作还包括:
基于所述注视数据标识以下一项或多项:
经由所述人机接口而被绘出的用户界面的一部分,
所述对象的表示,
所述图像的一部分,
所述用户的环境的一部分,或者
针对经由所述人机接口而被绘出的输入的选项的子集。
10.根据权利要求1所述的系统,所述操作还包括:
确定所述对象的条件或位置,所述对象是第一对象;
确定针对所述图像中的第二对象的第二显著对象标签;
基于所述对象的所述条件或所述位置并且基于所述第二对象的条件或位置来标识所述第一对象相对于所述第二对象的相对位置;并且
其中
生成所述预测单词,
生成所述预测短语,
选择所述一个或多个建议话语,或者
经由所述人机接口输出所述一个或多个建议话语,的至少一项进一步基于以下一项或多项中的一项或多项:
所述第二显著对象标签,
所述图像中的所述第一对象和所述第二对象的共现,或者
所述第一对象的所述条件、所述第一对象的所述位置或所述第一对象对所述第二对象的所述相对位置。
11.根据权利要求1所述的系统,所述操作还包括:
获取应用数据,所述应用数据包括以下一项或多项:
正在使用的应用或最近使用的应用的标识以及所述正在使用的应用或所述最近使用的应用的功能的标识符,
所述正在使用的应用或所述最近使用的应用的被指定用于接收所述一个或多个建议话语的一部分的标识符,或者
由被存储在所述计算机可读介质上的应用存储的使用历史或数据;并且
其中以下至少一项进一步基于所述应用数据:
生成所述预测单词,
生成所述预测短语,
选择所述一个或多个建议话语,或者
经由所述人机接口输出所述一个或多个建议话语。
12.根据权利要求1所述的系统,其中所述图像是所述用户的物理周围的图像。
13.一种用于通过减少产生通信的通信吞吐量时间或增加产生通信的通信吞吐率的、针对至少一个用户的改进的通信吞吐量的方法,所述方法包括:
通过一个或多个相机获取图像;
获取针对所述图像中的对象的显著对象标签;
经由一个或多个麦克风捕获音频数据;
基于所述音频数据来确定会话上下文,所述会话上下文包括语法信息、语义信息和关键字中的一项或多项;
基于所述显著对象标签来生成预测单词;
基于所述预测单词、所述显著对象标签、所述图像中的所述对象和所述会话上下文来生成预测短语;
从所述预测单词和所述预测短语中选择一个或多个建议话语;以及
经由人机接口向用户提供所述一个或多个建议话语的表示,由此通过减少产生通信的所述通信吞吐量时间或增加产生通信的所述通信吞吐率来提供针对所述至少一个用户的改进的通信吞吐量。
14.根据权利要求13所述的方法,还包括:
基于上下文数据和所述显著对象标签来生成所述一个或多个建议话语,所述上下文数据包括:关于所述用户的物理周围物的数据,关于所述用户的数字上下文的数据,并且所述生成包括:
至少部分基于所述上下文数据来对候选话语加权,
至少部分基于所述上下文数据来对所述候选话语过滤,以及
至少部分基于所述上下文数据来对所述候选话语分类。
15.根据权利要求14所述的方法,还包括:
从本地存储装置或远程存储装置获取另一图像。
16.根据权利要求15所述的方法,其中所述另一图像是所述用户的物理周围的图像。
17.根据权利要求14所述的方法,还包括:
接收指示来自所述用户的、对所述一个或多个建议话语中的一个建议话语作为期望话语的选择的输入;
在接收到指示所述选择的所述输入之后:
基于指示所述选择的所述输入和所述上下文数据来生成一个或多个第二建议话语;
接收指示来自所述用户的、对特定建议话语作为所述期望话语的选择的第二输入;以及
代表所述用户输出所述期望话语。
18.一种用于通过减少产生通信的通信吞吐量时间或增加产生通信的通信吞吐率的、针对至少一个用户的改进的通信吞吐量的设备,所述设备包括:
一个或多个处理器;
一个或多个相机;
一个或多个麦克风
人机接口;以及
计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令当被执行时,将所述一个或多个处理器配置为执行操作,所述操作包括:
通过所述一个或多个相机获取图像;
获取针对所述图像中的对象的显著对象标签;
经由所述一个或多个麦克风捕获音频数据;
基于所述音频数据来确定会话上下文,所述会话上下文包括语法信息、语义信息和关键字中的一项或多项;
基于所述显著对象标签来生成预测单词;
基于所述预测单词、所述显著对象标签、所述图像中的所述对象和所述会话上下文来生成预测短语;
从所述预测单词和所述预测短语中选择一个或多个建议话语;以及
经由所述人机接口输出所述建议话语中的所述一个或多个建议话语的表示,由此通过减少产生通信的所述通信吞吐量时间或增加产生通信的所述通信吞吐率来提供针对所述至少一个用户的改进的通信吞吐量。
19.根据权利要求18所述的设备,所述设备还包括以下一项或多项:
被存储在所述计算机可读介质上的操作系统,
被存储在所述计算机可读介质上的应用,
网络接口,以及
一个或多个传感器,其被配置为监测用户的运动,
其中确定所述会话上下文还基于以下一项或多项:
与所述用户相关联的注视数据;
自所述用户的最后话语或者关于所述用户或者代表所述用户而被进行的操作以来流逝的时间;
从接收自所述一个或多个传感器的所述用户的运动推断的活动标识符;
从所述应用或通过关于所述应用查询所述操作系统而被获取的应用数据;
操作系统信息或由所述操作系统提供的信息;
话语输出目的地或目的;
从所述一个或多个相机、所述一个或多个麦克风、所述操作系统、所述应用或所述计算机可读介质或通过所述网络接口获取的先前话语;
先前话语的语音、句法或语义信息;
在由所述设备取回的图像中被标识的显著对象;或者
所述会话上下文的子集的共现的分类。
20.根据权利要求18所述的设备,所述设备还包括:
扬声器,
显示器,
网络接口,
被存储在所述计算机可读介质中的操作系统,以及
被存储在所述计算机可读介质中的应用,
其中所述一个或多个处理器还被配置为执行所述操作,所述操作包括:
接收指示来自用户的、对所述一个或多个建议话语中的一个建议话语作为选择的话语的选择的输入;以及
输出选择的所述话语,所述输出包括以下一项或多项:
经由所述扬声器输出选择的所述话语,
经由所述显示器输出选择的所述话语,或者
向所述应用、所述操作系统或所述网络接口中的一项或多项输出选择的所述话语。
CN201780043799.4A 2016-07-15 2017-07-10 利用环境上下文以用于增强的通信吞吐量 Active CN109478106B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/211,794 2016-07-15
US15/211,794 US10223067B2 (en) 2016-07-15 2016-07-15 Leveraging environmental context for enhanced communication throughput
PCT/US2017/041288 WO2018013445A1 (en) 2016-07-15 2017-07-10 Leveraging environmental context for enhanced communication throughput

Publications (2)

Publication Number Publication Date
CN109478106A CN109478106A (zh) 2019-03-15
CN109478106B true CN109478106B (zh) 2022-11-15

Family

ID=59409757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780043799.4A Active CN109478106B (zh) 2016-07-15 2017-07-10 利用环境上下文以用于增强的通信吞吐量

Country Status (4)

Country Link
US (1) US10223067B2 (zh)
EP (1) EP3485357A1 (zh)
CN (1) CN109478106B (zh)
WO (1) WO2018013445A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD771646S1 (en) * 2014-09-30 2016-11-15 Apple Inc. Display screen or portion thereof with graphical user interface
US10339404B2 (en) * 2016-08-04 2019-07-02 International Business Machines Corporation Automated filtering of item comments
US20180197221A1 (en) * 2017-01-06 2018-07-12 Dragon-Click Corp. System and method of image-based service identification
US11631236B2 (en) * 2017-03-14 2023-04-18 Samsung Electronics Co., Ltd. System and method for deep labeling
USD829223S1 (en) * 2017-06-04 2018-09-25 Apple Inc. Display screen or portion thereof with graphical user interface
US11073904B2 (en) * 2017-07-26 2021-07-27 Microsoft Technology Licensing, Llc Intelligent user interface element selection using eye-gaze
CN111699469B (zh) * 2018-03-08 2024-05-10 三星电子株式会社 基于意图的交互式响应方法及其电子设备
US11763821B1 (en) 2018-06-27 2023-09-19 Cerner Innovation, Inc. Tool for assisting people with speech disorder
US20200092339A1 (en) * 2018-09-17 2020-03-19 International Business Machines Corporation Providing device control instructions for increasing conference participant interest based on contextual data analysis
US11188719B1 (en) * 2018-10-22 2021-11-30 Wells Fargo Bank, N.A. Predictive text system
US20200265270A1 (en) * 2019-02-20 2020-08-20 Caseware International Inc. Mutual neighbors
CN110008331B (zh) * 2019-04-15 2021-09-14 腾讯科技(深圳)有限公司 信息展示方法、装置、电子设备及计算机可读存储介质
CN110989892B (zh) * 2019-11-06 2022-01-11 北京奇艺世纪科技有限公司 文本显示方法、装置、电子设备及存储介质
WO2022232127A1 (en) * 2021-04-30 2022-11-03 Dathomir Laboratories Llc Text suggestion based on environmental context
CN114791769A (zh) * 2022-06-24 2022-07-26 湖北云享客数字智能科技有限公司 一种用户行为预测结果的大数据库建立方法
US20240020338A1 (en) * 2022-07-14 2024-01-18 Microsoft Technology Licensing, Llc Detecting Prominence of Objects in Video Information
WO2024098117A1 (en) * 2022-11-10 2024-05-16 Jimple Pty Ltd Communication aid, communication system, and associated methods

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1197879A2 (en) * 2000-10-10 2002-04-17 Eastman Kodak Company An agent for integrated annotation and retrieval of images
CN101233559A (zh) * 2005-06-27 2008-07-30 微软公司 用于不同语言的说话者之间的增强的交互和理解的上下文敏感通信和翻译方法
US8170916B1 (en) * 2007-09-06 2012-05-01 Amazon Technologies, Inc. Related-item tag suggestions
US8566329B1 (en) * 2011-06-27 2013-10-22 Amazon Technologies, Inc. Automated tag suggestions
CN104813275A (zh) * 2012-09-27 2015-07-29 谷歌公司 用于预测文本的方法和系统
WO2015112250A1 (en) * 2014-01-22 2015-07-30 Speak Agent, Inc. Visual-kinesthetic language construction
CN105005982A (zh) * 2014-04-04 2015-10-28 影像搜索者公司 包括对象选择的图像处理
CN105144040A (zh) * 2012-12-06 2015-12-09 微软技术许可有限责任公司 基于通信上下文的预测文本建议

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US56013A (en) * 1866-07-03 Improvement in goniometers
US6795806B1 (en) 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
US20050208457A1 (en) 2004-01-05 2005-09-22 Wolfgang Fink Digital object recognition audio-assistant for the visually impaired
US7719520B2 (en) * 2005-08-18 2010-05-18 Scenera Technologies, Llc Systems and methods for processing data entered using an eye-tracking system
US8515728B2 (en) * 2007-03-29 2013-08-20 Microsoft Corporation Language translation of visual and audio input
US8416981B2 (en) * 2007-07-29 2013-04-09 Google Inc. System and method for displaying contextual supplemental content based on image content
CN101965576B (zh) 2008-03-03 2013-03-06 视频监控公司 用于追踪、索引及搜寻的物件匹配
US8520979B2 (en) * 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US8489599B2 (en) * 2008-12-02 2013-07-16 Palo Alto Research Center Incorporated Context and activity-driven content delivery and interaction
WO2010118292A1 (en) 2009-04-09 2010-10-14 Dynavox Systems, Llc Calibration free, motion tolerant eye-gaze direction detector with contextually aware computer interaction and communication methods
US9602444B2 (en) * 2009-05-28 2017-03-21 Google Inc. Participant suggestion system
US8768313B2 (en) * 2009-08-17 2014-07-01 Digimarc Corporation Methods and systems for image or audio recognition processing
US8635058B2 (en) * 2010-03-02 2014-01-21 Nilang Patel Increasing the relevancy of media content
US9251717B2 (en) 2011-04-27 2016-02-02 Heidi LoStracco Augmentative and alternative communication language system
WO2013033842A1 (en) 2011-09-07 2013-03-14 Tandemlaunch Technologies Inc. System and method for using eye gaze information to enhance interactions
KR101891786B1 (ko) 2011-11-29 2018-08-27 삼성전자주식회사 아이 트래킹 기반의 사용자 기능 운용 방법 및 이를 지원하는 단말기
US10013053B2 (en) 2012-01-04 2018-07-03 Tobii Ab System for gaze interaction
US20130241805A1 (en) 2012-03-15 2013-09-19 Google Inc. Using Convergence Angle to Select Among Different UI Elements
US9519640B2 (en) * 2012-05-04 2016-12-13 Microsoft Technology Licensing, Llc Intelligent translations in personal see through display
US20130346068A1 (en) * 2012-06-25 2013-12-26 Apple Inc. Voice-Based Image Tagging and Searching
US20140152882A1 (en) 2012-12-04 2014-06-05 Hand Held Products, Inc. Mobile device having object-identification interface
US9791921B2 (en) * 2013-02-19 2017-10-17 Microsoft Technology Licensing, Llc Context-aware augmented reality object commands
US20150058708A1 (en) * 2013-08-23 2015-02-26 Adobe Systems Incorporated Systems and methods of character dialog generation
US20150116540A1 (en) 2013-10-28 2015-04-30 Jordan Gilman Method and apparatus for applying a tag/identification to a photo/video immediately after capture
US10565268B2 (en) * 2013-12-19 2020-02-18 Adobe Inc. Interactive communication augmented with contextual information
CN106030458B (zh) 2013-12-31 2020-05-08 谷歌有限责任公司 用于基于凝视的媒体选择和编辑的系统和方法
US9639887B2 (en) 2014-04-23 2017-05-02 Sony Corporation In-store object highlighting by a real world user interface
US9966065B2 (en) * 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US20170169595A1 (en) * 2014-06-13 2017-06-15 Mitsubishi Electric Corporation Information superimposed image display device, non-transitory computer-readable medium which records information superimposed image display program, and information superimposed image display method
US9881611B2 (en) * 2014-06-19 2018-01-30 Verizon Patent And Licensing Inc. System and method for providing voice communication from textual and pre-recorded responses
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content
US9836452B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1197879A2 (en) * 2000-10-10 2002-04-17 Eastman Kodak Company An agent for integrated annotation and retrieval of images
CN101233559A (zh) * 2005-06-27 2008-07-30 微软公司 用于不同语言的说话者之间的增强的交互和理解的上下文敏感通信和翻译方法
US8170916B1 (en) * 2007-09-06 2012-05-01 Amazon Technologies, Inc. Related-item tag suggestions
US8566329B1 (en) * 2011-06-27 2013-10-22 Amazon Technologies, Inc. Automated tag suggestions
CN104813275A (zh) * 2012-09-27 2015-07-29 谷歌公司 用于预测文本的方法和系统
CN105144040A (zh) * 2012-12-06 2015-12-09 微软技术许可有限责任公司 基于通信上下文的预测文本建议
WO2015112250A1 (en) * 2014-01-22 2015-07-30 Speak Agent, Inc. Visual-kinesthetic language construction
CN105005982A (zh) * 2014-04-04 2015-10-28 影像搜索者公司 包括对象选择的图像处理

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
From Captions to Visual Concepts and Back;Hao Fang et al;《Proceeding of the IEEE Conference on Computer Vision and Pattern Recognition》;20151231;1473-1482 *

Also Published As

Publication number Publication date
US10223067B2 (en) 2019-03-05
EP3485357A1 (en) 2019-05-22
WO2018013445A1 (en) 2018-01-18
CN109478106A (zh) 2019-03-15
US20180018144A1 (en) 2018-01-18

Similar Documents

Publication Publication Date Title
CN109478106B (zh) 利用环境上下文以用于增强的通信吞吐量
US11303590B2 (en) Suggested responses based on message stickers
JP6850877B2 (ja) オンデバイスモデルを使用するスマートリプライ
KR102599607B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드
US11347801B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
US11580970B2 (en) System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US11392213B2 (en) Selective detection of visual cues for automated assistants
JP2020521167A (ja) 画像および/または他のセンサデータに基づいている自動アシスタント要求の解決
US20160224591A1 (en) Method and Device for Searching for Image
CN110741331A (zh) 用于图像响应自动助理的系统、方法和装置
CN118056172A (zh) 用于提供免提通知管理的数字助理
US11561964B2 (en) Intelligent reading support
WO2023086133A1 (en) Command based personalized composite icons
WO2023086132A1 (en) Command based personalized composite templates
KR102498263B1 (ko) 어시스턴트 디바이스의 디스플레이에 렌더링할 콘텐츠 선택
CN110688011B (zh) 基于多模态客户端设备的模态的动态列表构成
Hossai et al. Design of a location-aware augmented and alternative communication system to support people with language and speech disorders.
Pires Personal Assistant for Improving the Social Life of Mobility-Impaired Citizens

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant