CN115879445A

CN115879445A - 未知词预测器和内容整合的翻译器

Info

Publication number: CN115879445A
Application number: CN202211631115.1A
Authority: CN
Inventors: G·克拉萨达基斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-05-31
Filing date: 2017-05-16
Publication date: 2023-03-31
Also published as: US11188711B2; WO2017209937A1; US20170344530A1; EP3465462A1; US10409903B2; CN109196496A; US20200034413A1; CN109196496B

Abstract

本公开的实施例涉及未知词预测器和内容整合的翻译器。本文中描述的技术使得用户能够通过注释和/或自动翻译被预测为是特定用户未知的特定词来丰富他们的词汇。用户体验利用未知词的自适应智能内嵌注释丰富的原始内容。该技术通过了解个体用户在特定语言中的词汇而针对个体用户被定制。当用户消费内容或者执行文档创作/编辑活动时，系统捕获被维持在针对特定用户的私有词汇分析存储(VAS)中的语言使用模式。VAS中的信息被用作确定词可能是用户已知的还是未知的机器分类器的输入。

Description

未知词预测器和内容整合的翻译器

相关专利申请

本申请是国际申请号为PCT/US2017/032780、国际申请日为2017年5月16日、优先权日为2016年5月31日、进入中国国家阶段日为2018年11月27日、中国申请号为201780032932.6的发明专利申请的分案申请。

背景技术

想要知道未知词的定义的用户可以在复印本或在线词典中查找它。搜索引擎或个人助理应用也可以提供词的定义作为直接搜索结果。另外，将文本从一种语言自动化计算机翻译为另一种语言使更多内容对更多人可用。

发明内容

提供本发明内容从而以简化的形式介绍下面在具体实施方式中进一步描述的一系列概念。本发明内容不旨在标识要求保护的主题的关键特征或必要特征，也不旨在孤立地用作确定要求保护的主题的范围的辅助。

本文中描述的技术使得用户能够通过注释和/或自动翻译被预测为是特定用户未知的特定词来丰富他们的词汇。翻译和/或注释可以在用户阅读的文档内根据上下文进行。例如，未知词可以利用已知的同义词来代替或者被链接到定义。用户体验利用解释预测的未知词的含义的自适应智能内嵌注释丰富的原始内容。原始内容可以是web页面、书、纸、电子邮件、社交帖子、博客条目、或者包括语言内容的任何其他形式的通信。注释可以采取以下形式：对人、地点或事物的解释；定义；翻译；同义词；一个或多个使用示例；使用同一词的又一条真实内容；或者某种其他形式的理解帮助。在一个方面中，未知词在文本中利用已知的同义词来代替。对该技术的使用可以允许用户理解否则由于有限的词汇将没有意义的内容。

该技术通过了解个体用户的特定语言的词汇而针对个体用户被定制。当用户消费内容(新闻、娱乐、社交帖子)或者执行文档阅读/创作/编辑活动或通过典型的在线通道(诸如聊天应用、电子邮件应用、语音/视频会议系统)通信时，系统捕获语言使用模式。这些模式可以被附加并维持在针对特定用户的丰富的私有词汇分析存储(VAS)中。VAS是包括一个或多个数据库或数据存储和分析组件的知识库，在模式、统计、特定词列表、频率和上下文数据方面描述用户如何使用一种或多种语言(以及该使用随时间的进展/变化)。

附图说明

下面参考附图详细描述本申请中描述的技术的各方面，其中：

图1是适合于实施本文中描述的技术的各方面的示例性计算环境的框图；

图2是根据本文中描述的技术的方面的描绘包括未知词标识和注释引擎的示例性计算环境的示图；

图3是根据本文中描述的技术的方面的描绘具有明显地强调的未知词的界面的示图；

图4是根据本文中描述的技术的方面的描绘具有针对未知词的解释性注释的界面的示图；

图5是根据本文中描述的技术的方面的描绘具有针对未知词的定义性注释的界面的示图；

图6是根据本文中描述的技术的方面的描绘具有针对未知词的翻译和同义词注释的界面的示图；

图7是描绘根据本文中描述的技术的方面的生成语言理解帮助的方法的示图；

图8是描绘根据本文中描述的技术的方面的生成语言理解帮助的方法的示图；

图9是描绘根据本文中描述的技术的方面的生成语言理解帮助的方法的示图；以及

图10是适合于实施本文中描述的技术的各方面的示例性计算环境的框图。

具体实施方式

在本文中具体地描述本申请的技术以满足法定要求。然而，描述本身不旨在限制本专利的范围。相反，发明人已经预见到要求保护的主题还可以以其他方式来体现，以包括结合其他现有的或未来的技术的与在本文档中描述的步骤不同的步骤或步骤的组合。此外，尽管术语“步骤”和/或“框”可以在本文中用于意指采用的方法的不同的元素，但是这些术语不应当被解读为暗指在所公开的本文中的各个步骤之中或之间的任何特定顺序，除非并且除了当个体步骤的顺序被明确描述时。

本文中描述的技术使得用户能够通过注释和/或自动翻译被预测为是特定用户未知的特定词来丰富他们的词汇。翻译和/或注释可以在用户阅读的文档内根据上下文进行。例如，未知词可以利用已知的同义词来代替或者被链接到定义。用户体验利用解释预测的未知词的含义的自适应智能内嵌注释丰富的原始内容。原始内容可以是web页面、书、文档、扫描纸、电子邮件、社交帖子、博客条目、包括文本的图像、或者包括语言内容的任何其他形式的通信。注释可以采取以下形式：对人、地点或事物的解释；定义；翻译；同义词；一个或多个使用示例；使用同一词的又一条真实内容；或者某种其他形式的理解帮助。对该技术的使用可以允许用户理解否则由于有限的词汇将没有意义的内容。

该技术通过了解个体用户的特定语言的词汇而针对个体用户被定制。当用户消费内容(新闻、娱乐、社交帖子)或者执行文档阅读/创作/编辑活动或通过典型的在线通道通信时，系统捕获被维持在针对特定用户的丰富的私有词汇分析存储(VAS)中的语言使用模式。VAS是在模式、统计、特定词列表、频率和上下文数据方面描述用户如何正在使用一种或多种语言(以及该使用随时间的进展/变化)的知识库。VAS还可以托管用户对一个或多个连接的词典/翻译服务正在进行的翻译请求的记录。请求的词可以被输入在短语手册中，短语手册可以为VAS的一部分或者与VAS分离。短语手册也可以被填充有由机器分类器确定为对用户未知的词。如本文中所使用的，短语机器分类器可以包括适合于确定词对一个人已知还是未知的目的的任何统计建模技术。VAS也可以托管或者连接到关于特定受众对词的使用率和某些词的可公共获得的统计和元数据。受众可以由诸如地理位置的各种人口统计特性定义。例如，采用英语语言的某些词的使用率可以在居住在澳大利亚的人与居住在美国的人之间显著不同。在一个国家内的各地区之间可以存在显著差异。受众可以基于年龄来定义，因为对于词使用可以存在代际差异。受众还可以通过职业来定义。例如，医生、律师、计算机程序员以及心理学家可以熟悉职业常见的个体词。

受众还可以通过兴趣来定义。例如，体育爱好者可以具有对在体育上下文下使用的词的深入理解，然而政治迷可以具有对在政治上下文下使用的词的深入理解，但是具有对在体育上下文下使用的词的浅显理解。包括阅读日志的用户数据可以用于确定用户兴趣。词可以类似地与上下文相关联。即使体育迷可能尚未被暴露于或使用特定词，诸如southpaw(左手投手)，但是体育迷比不是体育迷的人更有可能知道southpaw的含义(例如，左撇子投手)。因此，使用上下文作为输入的统计分类器可以对词“southpaw”对体育迷未知比对非体育迷未知分配较低置信度，即使给定两人的相同的暴露和使用水平。

用户的VAS可以被维持和保持在后台中作为为用户实现未知词预测的数据和信号的源：在VAS中提供的大量信息可以用于以已知的置信度水平预测任何给定词是否被预期为对用户是已知的。换言之，VAS的内容可以被用作分类器的输入从而以一定置信度水平来计算给定词是已知的还是未知的。如果词被分类为未知的并且用户正在打开包含该词的内容(例如，文章)，则系统在文章内利用关于未知词的内嵌提供的注释来丰富原始内容。这在没有来自用户的请求或动作的情况下顺利地发生。技术的各方面不限于使用二元分类器。例如，多类别分类器可以用于将词分类成诸如已知、熟悉、以及未知的若干不同类别中的一个。在其他情况下，分类器可以分配(例如)0与1之间的数值，该数值指示在特定时刻用户熟悉特定词的水平。

在一个方面中，二元分类机器用于将词分类为已知的或未知的。作为初始步骤，具有高于语言内的阈值共性或使用频率的词可以从分析中排除并且被指定为已知。例如，如“the(该)”、“you(你)”、“him(他)”以及“her(她)”的词在英语语言中被广泛地使用并且是已知的。二元分类机器可以被训练以分析VAS中与词汇知识有关的用户数据，诸如阅读或撰写的内容的文本，文本的页面上的停留时间，以及从技术得到的阅读分析，技术诸如注视检测，其中在个体词上花费的时间可以被测量。注视检测使用(多个)相机来跟踪页面或屏幕上的眼睛移动。返回到特定词或者似乎在某个词上绊住可以指示词是用户未知的。分类机器还可以利用受众数据，如先前所描述的。用户可以与一个或多个受众简档或特定人口统计分段相关联或者被分配给一个或多个受众简档或特定人口统计分段。这些简档或分段可以将额外输入提供到分类器并且用于确定词有可能是已知的还是未知的。

用户分段或简档可以用于建立针对用户的初始语言简档，其可以在接收到额外活动时被修改。不具有针对特定用户的内容消费数据或者具有针对特定用户的有限内容消费数据，但是知道地理位置、职业、年龄分组、性别、社交偏好和活动(例如体育页面点赞、推送等等)可以将用户与特定人口统计分段相关联，其之后用于初始地设置针对用户的预期已知词。分段和简档数据可以与针对用户的实际内容消费数据、创作活动、通信历史数据等等组合，以更新一个人的预期词汇。

在词典中、通过翻译服务、通过个人助理应用、搜索页面或者其他技术查找词也可以首先强烈地指示词是未知的。换言之，技术可以假设最近查找的词是未知的，并且在词出现在未来文本中时提供注释。当词由用户使用或者用户被暴露于其多次时，分类可以改变为已知。在一个方面中，由用户最近查找的词被自动添加到短语手册。作为另一情形，系统可以使用最近查找的词作为对未知词的同义词的注释。该情形通过将最近查找的词与用户已知的同义词相关联来帮助用户学习最近查找的词。

关于用户的语言的知识的信息的其他源可以包括在创作文档、电子邮件等等时做出的拼写和语法错误。在一个方面中，技术收集其中拼写或语法错误被自动校正或被用户手动校正的实例。

在一个方面中，系统针对被捕获并被维持到包括用户的短语手册(其可以包括具有分数和元数据的已知词和未知词的列表)的用户的VAS中的语言统计和元数据扫描向用户提供的内容(例如经由浏览器、应用、OS扩展、或呈现在线内容的预安装的组件，诸如网站或社交媒体帖子)。系统检查内容中的任何词语是否在短语手册中被列出为未知的，并且如果是的话，生成注释(例如注入使同义词或示例可视化的额外HTML元素)。注释丰富内容，因此帮助用户获得未知词在上下文中的含义，更好地理解内容，并且使用词作为他的词汇的一部分来开始。

在一个方面中，该注释包括利用已知的同义词来代替文本中的未知词。给定词可以具有许多同义词。上下文同义词与未知词共享上下文。例如，体育可以是棒球网站的上下文，并且政治可以是政治网站或与政治有关的社交帖子的上下文。各种同义词的主题紧密度可以从在知识库中提供的词的定义或者使用示例得到。主题还可以通过分析在具有相同上下文的内容中出现的频率来确定。例如，针对在体育文章中出现的未知词的同义词可以基于在体育文章的语料库内出现的频率相较于其他同义词被使用在体育上下文中的频率从许多可用的同义词之中选择。

当选择上下文同义词时还可以考虑总体使用的频率。因此，总体上不频繁地出现但是在体育文章中以更高比率使用的同义词可以在体育上下文中被选择，尤其是在查看者显示出熟悉体育文章的情况下。在一个方面中，仅有可能是用户已知的同义词针对关于特定上下文的紧密度被评估。

注释可以用与内容相同的语言或采用不同语言来提供。例如，内容可以采用西班牙语并且注释采用英语来呈现。注释的语言可以由用户通过偏好界面选择。备选地，系统可以学习个体用户理解的语言，从观察用户事件得到偏好，并且相应地选择注释的语言。例如，通常在英语语言词典中查找英语词的用户可以在阅读英语语言内容时接收英语语言注释。相反，通常寻求将英语词翻译成西班牙语的用户可以在阅读英语内容时接收西班牙语注释。在一个方面中，当采用第一语言的所有可用同义词也有可能是用户未知的时提供对未知词从第一语言到用户的母语(或者用户具有比内容语言更高流利水平的任何语言)的翻译。用户的已知语言可以由用户显式地提供或者通过观察用户消耗或创作的内容的语言来学习。

备选地，注释可以提供采用多种语言的内容。例如，注释可以提供采用英语的未知英语词的上下文同义词和未知英语词的法语翻译。注释可以提供采用阅读者非常了解的语言和阅读者不太流利的第二语言的内容。

系统可以跟踪用户反应或者接受要被自动用于自我改进和优化未知词预测系统的关于预测的反馈。系统维持用户的主动词汇的该知识以及其具有新添加的扩展。只要用户自然地消费了内容(从以文章、视频或音频的形式提供内容的几乎任何网站)，系统就可以标识那些未知的或很少使用的最近查找的词，并且内嵌地呈现他们最好的翻译或者帮助用户更好地理解并且开始使用它们的注释。

已经简单地描述了本文中描述的技术的各方面的概述，下面描述适合于在实施本技术中使用的示例性操作环境。

现在转到图1，提供了示出本公开的一些方面可以被采用于其中的示例操作环境100的框图。应当理解，本文中描述的这种布置和其他布置仅被阐述为示例。除了或代替示出的布置和元件可以使用其他布置和元件(例如，机器、接口、功能、顺序、以及功能的分组、等等)，并且一些元件可以为清楚性起见被完全省略。另外，本文中描述的许多元件是可以被实现为分立或分布式组件或结合其他组件实现、以及以任何适合的组合和位置实现的功能实体。本文中被描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件执行。例如，一些功能可以由执行存储在存储器中的指令的处理器执行。

除了其他未示出的组件，示例操作环境100包括许多用户设备，诸如用户设备102a和102b至102n；许多数据源，诸如数据源104a和104b至104n；服务器106；以及网络110。应当理解，图1中示出的环境100是一个适合的操作环境的示例。图1中示出的组件中的每个可以经由任何类型的计算设备(诸如例如结合图10描述的计算设备1000)来实施。这些组件可以经由网络110与彼此进行通信，网络110可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。在示例性实施方式中，网络110包括互联网和/或蜂窝网络以及各种可能的公共和/或私有网络中的任何网络。

用户设备102a和102b至102n可以是操作环境100的客户端侧上的客户端设备，而服务器106可以在操作环境100的服务器侧上。在一个方面中，文本内容可以通过用户设备来访问。技术的各方面可以修改文本内容以提供帮助用户理解预测的未知词的注释。用户通过用户设备的动作(包括文本创作)可以被监视以构建并且连续地丰富用户特定VAS。用户跨多个设备的动作可以被汇编成由包括具有频率的详细的词使用、上下文、短语和内容/文档属性的多个事件和条目组成的会话。例如，用户可以通过用户设备上的应用阅读数字书或web页面。该阅读活动可以是会话或会话的一部分，取决于存储模型被建模为多个记录/条目/文档。该会话组织由用户消费的所有词语以及频率、统计、元数据、上下文和时间戳，并且是用于VAS后处理和丰富的关键输入。类似地，用户可以撰写电子邮件或者其他文档，其可以用于确定用户的词汇并且最终确定其他词是已知的还是未知的。

服务器106可以包括被设计为结合用户设备102a和102b至102n上的客户端侧软件工作以便实施本公开内容中讨论的特征和功能的任何组合的服务器侧软件。例如，服务器106可以从个体或一组个体收集可以用于做出关于词是用户已知的还是未知的决定。另外，在服务器106上或在用户设备上做出关于词是已知的还是未知的确定。在一个方面中，浏览器插件或某个其他应用特征可以收集用户数据，将内容传递到未知词预测器，并且接收内容中的有可能未知的词的列表以及概率和/或置信度水平和/或额外元数据。也可以提供针对额外信息、同义词或示例可以由客户端使用和/或向用户暴露的URL和/或URI。例如，服务器106可以知道与特定语言相关联的在线词典、它们的API等等。实际链接或者关于哪些在线服务要查询并取回同义词、翻译或示例的元数据可以被包括。针对同义词、示例等等查询内部资源或可公共获得的在线资源可以是注释引擎224或者由其调用的单独组件的责任。客户端侧应用可以之后例如通过更新web页面的文档对象模型来修改内容，并且输出/注入利用提示、翻译、上下文同义词、示例、链接丰富的内容。操作环境100的这种划分被提供以说明适合的环境的一个示例，并且针对每个实施方式不存在服务器106以及用户设备102a和102b至102n的任何组合保持为单独实体的要求。

用户设备102a和102b至102n可以包括能够由用户使用的任何类型的计算设备。例如，在一个方面中，用户设备102a至102n可以是关于本文中的图10描述的类型的计算设备。通过举例而非限制的方式，用户设备可以被实现为个人计算机(PC)、膝上型计算机、移动或移动设备、智能电话、平板计算机、智能手表、可穿戴计算机、虚拟现实头戴式设备、增强现实眼镜、全息系统、个人数字助理(PDA)、MP3播放器、全球定位系统(GPS)或设备、视频播放器、手持通信设备、游戏设备或系统、娱乐系统、车辆计算机系统、嵌入式系统控制器、远程控件、电器、消费电子设备、工作站、或者这些描述的设备中的任何组合、或者任何其他适合的设备。

数据源104a和104b至104n可以包括数据源和/或数据系统，其将内容提供到操作环境100或者结合图2描述的系统200的组成。(例如，在一个方面中，一个或多个数据源104a至104n提供(或者可用于访问)内容210)。数据源104a和104b至104n可以与用户设备102a和102b至102n以及服务器106分立或者可以被并入和/或集成到那些组件中的至少一个中。数据源可以包括存储关于词和语言的信息、统计和元数据的知识库。例如，数据源104a至104n可以包括在线词典、知识库、翻译服务、上下文词典、拼写检查引擎、搜索引擎或可以用于生成注释的其他服务。另外，用户与由数据源104a至104n提供的服务的交互可以被收集在VAS中并且用于确定词是否是用户未知的。例如，在词典中查找的词可以被添加到短语手册作为VAS的一部分。

操作环境100可以用于实施图2中描述的系统200的组件中的一个或多个，包括用于收集用户数据、监视读写事件、生成注释以及标识未知词的组件。

现在结合图1参考图2，提供了示出适合于实施本文中描述的技术的方面并且被总体上指定为系统200的示例计算系统架构的各方面的框图。系统200分析内容，标识内容中的在某个时刻特定用户可能未知的词，并且生成针对那些未知词的解释性注释。系统200仅表示适合的计算系统架构的一个示例。除了或代替示出的那些布置和元件，可以使用其他布置和元件，并且一些元件可以为清楚性起见被完全省略。另外，关于操作环境100，本文中描述的许多元件是可以被实施为分立或分布式组件或结合其他组件实施、并且以任何适合的组合和位置的功能实体。例如，词汇丰富组件220的各方面可以被定位在不同的计算设备上或者可以全部被定位在相同的设备上。

示例系统200包括网络110，其结合图1来描述并且其通信地耦合系统200的组件，包括词汇丰富组件220。词汇丰富组件220(包括其组件222、224、226、227、228和230)可以被实现为一组编译的计算机指令或功能、程序模块、数据模型、数据库、数据存储、计算机软件服务、或者在一个或多个计算机系统(诸如例如结合图10描述的计算设备1000)上执行的过程的布置。

在一个方面中，由系统200的组件执行的功能与一个或多个应用、服务、或例程相关联。具体地，这样的应用、服务或例程可以操作于一个或多个用户设备(诸如用户设备102a)、服务器(诸如服务器106)上，可以跨一个或多个用户设备和服务器分布，或者被实施在云中。此外，在一些方面中，系统200的这些组件可以跨包括一个或多个服务器(诸如服务器106)和客户端设备(诸如用户设备102a)的网络分布，被分布在云中，或者可以驻留在诸如用户设备102a的用户设备上。此外，这些组件、由这些组件执行的功能、或者由这些组件执行的服务可以被实施在(多个)合适的抽象层处，诸如(多个)计算系统的操作系统层、应用层、硬件层、等等。备选地或另外，这些组件的功能和/或本文中描述的技术的各方面可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以被使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。另外，尽管本文中关于示例系统200中示出的特定组件描述了功能，但是预见到在一些方面中这些组件的功能可以被共享或者跨其他组件分布。

词汇丰富组件220可以在接收到用户正在访问内容的指示时接收或检索用于标识未知词的内容210。例如，词汇丰富组件220可以在接收到用户已经导航至网站的指示以及站点的URL或URI时访问网站内容。类似地，词汇丰富组件220可以访问电子阅读器应用中打开的书中的文本。内容可以是web页面、社交帖子、书、包括语音的音频记录、包括语音的视频记录、演示、文档、用户界面、等等。

在音频记录或视频记录的情况下，自然语言处理组件可以用于执行语音到文本转换。词汇丰富组件220可以之后分析文本以生成可能未知词的列表并且提供注释或其他形式的理解帮助。在视频内容的情况下，注释可以采取覆盖文本或者与视频中的未知词的外观的精确时刻对准的丰富文本的形式。在音频内容的情况下，注释可以采取与音频中的未知词的外观的精确时刻对准的字幕的形式。

词汇丰富组件220包括未知词预测器222、注释引擎224、用户语言数据存储226、公共语言数据存储228以及用户活动监视器230。这些组件可以一起工作以标识用户可能未知的词并且在内容内生成可以允许用户更好地理解特定上下文内的未知词的注释。注释可以被呈现在注释的内容240内。下面参考图3-7提供注释的内容的示例。

现在转到图3，根据本文中描述的技术的方面图示了包括视觉上区分开的未知词的内容显示。在这种情况下包括小说Moby Dick(白鲸记)的头几段的内容300包括带下划线的若干词以提供理解帮助可以通过对词的选择来访问的视觉指示。内容300中的视觉上区分开的词包括词“spleen(坏脾气)”310、“flourish(华丽辞藻)”312、“Cato(加图)”314、“insular(孤立的)”316、“Manhattoes(曼哈顿)”318、“circumambulate(绕行)”320和“sentinels(哨兵)”322。尽管在该示例中使用下划线，但是在视觉上区分词的其他方法是可能的。例如，词可以通过其字体、颜色、大小、下划线、双下划线、以及其他可见特性来在视觉上区分开以指示词是可选择的。

图3的示例中的视觉上区分开的词不是随机选择的或者针对一般受众选择的。相反，视觉上区分开的词基于个体查看者的词汇的指示词有可能是特定用户未知的知识来选择。如本文中所使用的，未知意味着用户不清楚词或短语的定义或含义。用户可能先前已经看见过词，但是词可能仍然是未知的。

词的状态(如可能是用户已知的或未知的)可以随时间改变。未知词可以在用户遇到或使用词时变成已知。例如，在不同时间消费完全相同的内容(例如文章)的给定用户可能得到不同预测的未知词。词的状态可以改变，因为用户可能已经变得熟悉初始预测的未知词中的一些未知词(通过额外的内容消费它们，在创作文档时使用它们，等等)。在这样的情况下，系统已经跟踪到用户已经使用了这些初始未知词的事实并且已经将词表征为在当前时间已知。因此，几个月后消费相同文章的相同用户可能得到针对可能未知词的不同预测。

消费完全相同的内容(例如文章)的任何两个用户可以基于每个用户对暴露数据的独特使用经由注释引擎224得到不同预测的未知词并且可能不同的同义词、链接和视觉帮助。图4、图5和图6图示了可以通过选择在视觉上区分开的词访问的不同理解帮助或邀请。

现在转到图4，根据本文中描述的技术的各方面图示了解释性注释330。解释性注释提供关于人、地点、实体或事物的信息。在用户选择了在视觉上区分开的词“Manhattoes”318时，Manhattoes的解释332被提供在解释性注释330中。在这种情况下，解释是“Manhattan:A borough of New York City(曼哈顿：纽约市的一个区)”。另外，使Manhattan 334带下划线，指示词Manhattan是可选择的并且可以导向(例如，到特定文档或在线资源(例如Wikipedia)的链接/URL)关于Manhattan的进一步细节。在一个方面中，解释性注释包括返回到在其中可以访问进一步信息的源内容的链接。例如，链接可以是到Wikipedia入口或者提供关于Manhattan的额外信息的知识库入口。

现在转到5，根据本文中描述的技术的方面提供了定义性注释340。定义性注释提供词的定义。当词具有多个定义时，可以考虑词在内容300内使用的上下文。例如，词作为名词、动词、形容词或言语的某个其他部分的使用可以被确定以选择最可能反映作者对该词的预期使用的定义。在该示例中，定义性注释340可以在用户对词“circumambulate”320进行选择时被浮现。circumambulate 320的定义342是“to walk all the way aroundsomething(围绕某种事物行走)”。定义可以从词典中访问以便生成注释。在一个方面中，定义性注释340包括到诸如在线词典的源内容的链接。

作为定义的备选，可以提供示例注释(未示出)。系统可以从跨用户、地理位置以及上下文消费的内容检索正被使用的未知词的真实示例。系统可以选择最相关和/或最流行的示例。示例可以是使用特定词的完整句子。示例还可以从诸如使用向导或词典的知识库被引出。

现在转到6，根据本文中描述的技术的方面提供了翻译注释和同义词注释。在这种情况下，单个注释350包括采用不同语言的翻译和采用未知词的语言的未知词的同义词。注释350可以在用户对未知词“sentinels”322进行选择时被浮现。注释350包括采用希腊语352对“sentinels”的翻译以及英语语言同义词354。当技术的各方面确定特定用户说多于一种语言时可以提供翻译。例如，技术可以在用户被观察到阅读采用不同语言的文本或者采用不同语言撰写时确定用户熟悉多于一种语言。例如，正在查看内容300的特定用户可能说英语作为第二语言并且说希腊语作为第一语言。在这种情况下，提供用用户的第一语言对采用第二语言的未知词的翻译352可以是有帮助的理解帮助。技术的各方面不限于任何特定语言或字母表。例如，在查看者被确定为懂西班牙语的情况下，“sentinels”可能已经被翻译成西班牙语作为“centinela(哨兵)”。同义词354用与基本内容300相同的语言被提供，该语言在本示例中为英语。翻译352和同义词354两者都可以被链接到源内容，或者备选的翻译或额外的同义词可以被访问。

注释可以采用与内容相同的语言或采用不同语言来提供。例如，内容可以采用西班牙语并且注释采用英语来呈现。注释的语言可以由用户通过偏好界面选择。备选地，系统可以学习个人理解的语言，从观察用户事件得到偏好，并且相应地选择注释的语言。例如，通常在英语语言词典中查找英语词的用户可以在阅读英语语言内容时接收英语语言注释。相反，通常寻求将英语词翻译成西班牙语的用户可以在阅读英语内容时接收西班牙语语言注释。在一个方面中，当采用第一语言的所有可用同义词也有可能是用户未知的时提供对未知词从第一语言到用户的母语(或者用户具有比内容语言更高流利水平的任何语言)的翻译。用户的已知语言可以由用户显式地提供或者通过观察用户消费或创作的内容的语言来学习。

返回到图2的描述，未知词预测器222标识内容210内的给定用户并且给定时刻可能未知的词。作为第一步骤，未知词预测器222可以使用宽泛过滤器来标识可能未知的词。例如，具有高于语言内的使用的阈值频率的词可以被排除为可能未知的词。在一个方面中，过滤器是用户特定的。例如，过滤器可以一般地基于与用户相关联的阅读水平来应用。阅读水平可以基于用户的阅读内容、阅读速度、以及在撰写通信时的词汇使用的正在进行的分析来计算。

在一方面中，可能未知的词之后被馈送到机器分类器中，机器分类器计算指示词在特定时间是特定用户未知的置信度分数。机器分类器可以接收与用户和公众相关的多个信号作为输入来确定词是未知的。机器分类器可以利用神经网络、支持向量机、广义线性建模、数据挖掘、文本挖掘、自然语言处理算法、回归、或决策树中的一个或多个，其在一些配置中可以被孤立地使用或者组合地使用作为机器分类器的一部分，以计算置信度分数或以其他方式在已知的谱(spectrum)/未知的谱上分类词。

在一个方面中，信号包括阅读数据。阅读数据可以包括来自由用户阅读的内容的文本、由用户阅读的内容的分类、阅读分析以及与用户的阅读习惯有关的其他数据。内容的分类可以是通过阅读水平、主题、源类型或其他因素的。阅读水平可以被编辑地确定，例如，如由描述各种书的阅读水平的知识库确定。阅读水平还可以通过分析句子长度、句子复杂度、以及使用的词汇的复杂度来分析地确定。主题可以通过分析针对已知著作(诸如书)的知识库来确定。主题还可以通过评估与诸如web页面的各种内容相关联的元数据来确定。主题还可以通过考虑文本的内容和源的分类方法来直接确定。主题可以用于定义用户的兴趣。例如，用户可以被分类为具有一个或多个兴趣，诸如体育、宗教信仰、政治、音乐等等。不同粒度水平是可能的。代替体育，用户可以被分类为对棒球、足球、橄榄球、篮球、田径或曲棍球具有兴趣。

在另一方面中，信号数据包括创作或撰写数据。创作撰写数据可以包括电子邮件的文本、社交帖子、文档、演示、以及由用户生成的其他通信和文档。

在另一方面中，信号数据包括查找的词。查找的词是用户为了获得关于其的额外信息或其翻译而搜索的那些词。例如，用户可能已经在在线词典或翻译服务中查找了词。用户可能已经通过搜索引擎、在线词典或个人助理应用搜索了词。

信号还可以包括用户反馈。用户反馈可以是显式的或隐式的。隐式反馈可以包括与先前呈现给用户的注释的用户交互。例如，当词被标识为未知并且与被用户忽视(例如，未使用，未消费，没有交互)的注释相关联时，无交互可以是暗示用户熟悉该词的隐式反馈。类似地，为了访问注释与未知词的交互暗示词被正确地标识为未知。显式反馈可以通过在注释中可用的机制来提供。例如，可选择的“移除”命令可以被提供在注释内，其在被选择的情况下使相关联的未知词从短语手册被移除并且被分类为已知。在该方面中，被显式地标识为已知的词可以被用作信号。

利用所有以上信号，各种词的暴露或使用的频率和最近程度可以被确定并且被用作机器分类器的输入。其他得到的信号是可能的。得到的信号通过在原始信号数据上执行操作来计算。

未知词预测器222的机器分类器部分生成未知词的列表。机器分类器可以使用能够确定词是已知还是未知的任何类型的技术或技术的组合。确定可以是二元的或者被表示为描述词是未知的概率的置信度因子。例如，神经网络、支持向量机、广义线性建模、数据挖掘、文本挖掘、自然语言处理算法、回归、或决策树在一些配置中可以被孤立地使用或组合地使用作为机器分类器的一部分。来自内容的未知词可以被添加到包括已知词和未知词两者的短语手册。被确定为未知的词可以是对后续确定的输入。未知词可以被传递到注释引擎224。

如先前参考图3-6图示的，注释引擎224可以改变显示的内容内的未知词的外观。不同的方法可用于改变词的外观。例如，当本文中描述的技术的各方面与web浏览器交互时，技术可以更新文档对象模型以改变内容的外观，从而使未知词带下划线或者以其他方式明显地与文本的其余部分区分开。

注释引擎224还可以构建注释，注释响应于选择或以其他方式与未知词交互而被显示。注释可以包括：人、地点、实体或事物的解释；词的定义；词在句子中的用法；采用不同语言对词的翻译；同义词；上下文同义词；或者某种其他形式的理解帮助。注释可以从诸如在线词典、web页面以及知识库的外部源构建。注释还可以由提供对特定词语在真实内容中的使用的真实示例的内部知识库/内容分析存储支持。注释可以包括到用于构建注释的在线源或者可能与提供关于未知词或短语的额外信息有关的其他在线源的链接。注释引擎224的输出是注释的内容240。

在一个变型中，注释引擎224利用具有相同或相似含义的其他词来代替内容内的词。在一个方面中，未知词利用已知词来代替。已知词可以被明显地指定为可选择。在选择时，注释可以被显示，示出原始未知词。相反的方法也是可能的。为未知词的同义词的已知词可以利用未知词来代替。这给出使用户被暴露于未知词的机会。在这种情况下，针对特定用户的未知词的总体列表，诸如在与用户相关联的短语手册中找到的那些未知词，可以用于生成针对这些词的同义词的列表。同义词可以与内容内的词进行比较。

在另一变型中，用户可以请求已知词的未知同义词。在一个方面中，可以使具有可用未知同义词的词可选择。在另一方面中，用户可以标识词并且请求未知同义词，即使词不是可选择的或者以其他方式在视觉上被区分开。

在一个方面中，可以选择上下文同义词。上下文同义词与未知词共享上下文。例如，体育可以是棒球网站的上下文并且政治可以是政治网站或与政治有关的社交帖子的上下文。未知词的上下文可以通过内容中的词、内容的源、与内容相关联的元数据以及其他信息来确定。上下文可以以各种粒度水平来确定。例如，上下文可以是体育或者其可以是棒球、橄榄球、篮球、等等。

各种同义词的上下文可以从词的定义或者在知识库中提供的使用示例得到。主题还可以通过分析在具有相同上下文的内容中出现的频率来确定。例如，针对在体育文章中出现的未知词的同义词可以基于在体育文章的语料库内出现的频率相较于其他同义词被使用在体育上下文中的频率从许多可用的同义词之中选择。除了同义词，技术的各方面可以利用上下文同义词或者其他理解帮助来代替首字母缩略词或俚语。

当选择上下文同义词时还可以考虑总体使用的频率。因此，总体上不频繁地出现，但是在体育文章中以更高比率使用的同义词可以在体育上下文中被选择，尤其是在查看者显示出熟悉体育文章的情况下。在一个方面中，仅有可能是用户已知的同义词针对关于特定上下文的紧密度被评估。

用户语言数据存储226可以包括由用户活动监视器230收集的原始语言数据。原始语言数据可以包括用户的阅读数据和阅读模式。原始语言数据可以包括关于个体用户的知识，诸如由用户使用的语言和用户在每种语言中具有的熟练程度。用户语言数据存储226还可以包括列出最近查找的词的短语手册。在一个方面中，短语手册可以是词汇分析存储(VAS)227的一部分。

VAS 227可以包括用户特定语言数据的子集。子集可以包括先前描述的信号中的全部信号作为对机器分类器或其他统计建模技术的输入。

公共语言数据存储228可以包括一般群体或者一般群体的特定子集内的使用模式。如提到的，子集可以通过由人口统计信息定义的受众数据分类，人口统计信息诸如年龄、收入、地理位置、国家、性别、职业、教育水平、生活方式相关的属性或其他因素。受众还可以由各种主题种类中的兴趣定义。公共语言数据存储还可以包括提供关于语法和词之间的关系的信息的词典和其他知识库。词可以通过含义、使用共性、或与上下文相关联的用户兴趣来分组。

用户监视器230可以存在于多个用户设备上并且生成用于确定词是已知的还是未知的用户阅读数据。用户监视器230可以生成每个阅读或创作事件(包括词、统计或元数据)的一系列记录或条目。用户监视器230可以生成关于与提供的注释的用户交互的隐式反馈。用户监视器230可以依靠由其他应用提供的信息来生成阅读统计或实施技术来生成这样的统计。例如，用户监视器230可以依靠注视检测技术来确定各种词和短语上的处理时间并且之后做出似乎减慢用户的阅读的词或短语的记录。用户监视器230可以访问由阅读者提供的应用程序接口以确定用户正在阅读什么以及用户多快地阅读给定书或其他内容。

现在转到图7，根据本文中描述的技术的方面描述了生成语言理解帮助的方法700。方法700可以由类似于词汇丰富组件220的系统来执行。

在步骤710处，构建词的用户特定短语手册。词采用第一语言并且有可能是特定用户未知的。短语手册中的词在某个时刻对用户是未知词并且可以随时间改变。在一个方面中，由用户搜索的词被添加到短语手册。例如，在词典中查找的或者被提交到翻译服务的词可以被包括在短语手册中。短语手册还可以包括如参考图2所解释的由机器分类器确定为用户未知的词。例如，内容可以由机器分类器评估以确定未知词。这些词中的一些或全部可以被注释在内容中，而且被添加到短语手册。在一个方面中，短语手册可以包括基于关于用户的人口统计信息被预期为未知的词。

在步骤720处，接收包括正由特定用户访问的文本的内容。内容可以是web页面、社交帖子、书、包括语音的音频记录、包括语音的视频记录、演示、文档、用户界面等等。在音频记录或视频记录的情况下，自然语言处理组件可以用于执行语音到文本转换。在一个方面中，内容由浏览器插件拦截以用于在用户导航到web页面时分析。插件可以执行分析或者将内容传递到安装在客户端设备或服务器上的另一组件以用于分析。文档应用、演示应用、电子阅读器、或者其他内容应用可以类似地检索内容以用于分析。

在步骤730处，通过将文本中的词与用户特定短语手册中的词进行比较来确定来自用户特定短语手册的未知词处于文本内。在一个方面中，将文本中的每个词与短语手册中的词进行比较以确定词是否有可能是未知的。未知词可以之后被标记为未知。

在步骤740处，更改内容内的未知词的外观以提供未知词是可选择的指示。更改未知词的外观的各种方式包括改变其颜色、在其下划线、在其下划双线等等。在一个方面中，外观通过将链接添加到未知词来改变并且外观根据显示内容的应用内的显示属性来自动改变。例如，文档应用可以将每个链接的词的颜色从黑色改变为蓝色。

在步骤750处，接收用户与未知词交互的指示。用户可以在触摸屏上、利用语音命令或手势、使用鼠标或触摸板、或者通过某种其他方法与词交互。词的选择是交互的一个示例，并且在词上悬停是另一个示例。

在步骤760处，提供关于未知词的额外信息的注释被输出以用于显示。注释可以包括：人、地点、实体或事物的解释；词的定义；词在句子中的用法；采用不同语言对词的翻译；同义词；或者某种其他形式的理解帮助。注释可以从诸如在线词典、web页面以及知识库的外部源构建。注释可以包括到用于构建注释的在线源或者可能与提供关于未知词或短语的额外信息有关的其他在线源的链接。

在一个变型中，本文中描述的技术利用具有相同或相似含义的其他词来代替内容内的词。在一个方面中，未知词利用已知词来代替。已知词可以被明显地指定为可选择。在选择时，注释可以被显示，示出原始未知词。相反的方法也是可能的。作为未知词的同义词的已知词可以利用未知词来代替。这给出使用户被暴露于未知词的机会。在这种情况下，针对特定用户的未知词的总体列表，诸如在与用户相关联的短语手册中找到的那些未知词，可以用于生成针对这些词的同义词的列表。同义词可以与内容内的词进行比较。

在一个方面中，可以选择上下文同义词。上下文同义词与未知词共享上下文。例如，体育可以是棒球网站的上下文并且政治可以是政治网站或与政治有关的社交帖子的上下文。未知词的上下文可以通过内容中的词、内容的源、与内容相关联的元数据以及其他信息来确定。内容可以以各种粒度水平来确定。例如，上下文可以是体育或者其可以是棒球、橄榄球、篮球、等等。

现在转到图8，根据本文中描述的技术的方面描述了生成语言理解帮助的方法800。方法800可以由类似于词汇丰富组件220的系统来执行。

在步骤810处，接收采用第一语言的文本内容。内容可以是web页面、社交帖子、书、包括语音的音频记录、包括语音的视频记录、演示、文档、用户界面等等。在音频记录或视频记录的情况下，自然语言处理组件可以用于执行语音到文本转换。在一个方面中，内容由浏览器插件或扩展拦截以用于在用户导航到web页面时分析。插件可以执行分析或者将内容传递到安装在客户端设备或服务器上的另一组件以用于分析。文档应用、演示应用、电子阅读器、或者其他内容应用可以类似地检索内容以用于分析。

在步骤820处，文本内容被扫描以标识具有高于由使用用户先前已经阅读或撰写的文本作为输入的机器分类器确定的用户未知的阈值置信度的词。在一个实施方式中，这可以实时完成。在另一实施方式中，未知词估计周期性地发生或者由特定事件触发。例如，当新内容正被消费，可以针对未知词估计检查词。

在步骤830处，输出文本内容以用于显示给用户，其中词具有与文本内容中的其他词不同的视觉外观以指示词是可选择的。更改未知词的外观的各种方式包括改变其颜色、在其下划线、在其下划双线等等。在一个方面中，外观通过将链接添加到未知词来改变，并且外观根据显示内容的应用内的显示属性来自动改变。例如，文档应用可以将每个链接的词的颜色从黑色改变为蓝色。用户可以选择词或以其他方式与词交互以接收注释，诸如先前参考图2-6描述的那些。注释可以提供理解帮助，例如针对未知词的翻译、定义、使用示例或上下文同义词。

现在转到图9，根据本文中描述的技术的方面描述了生成语言理解帮助的方法900。方法900可以由类似于词汇丰富组件220的系统来执行。

在步骤910处，通过收集针对特定用户的阅读数据和撰写数据来构建针对特定用户的用户特定词汇分析存储(VAS)。用户通过用户设备的动作(包括文本创作)可以被监视以构建用户特定VAS。用户跨多个设备的动作可以被编译成单个记录。例如，用户可以通过用户设备上的应用阅读书或web页面。该阅读活动可以形成阅读记录的一部分。类似地，用户可以撰写可以用于确定用户的词汇并且最终确定其他词语是已知的还是未知的电子邮件或其他文档。

VAS是在模式、统计、特定词列表、频率和上下文数据方面描述用户如何使用一种或多种语言(以及该使用随时间的进展/变化)的知识库。VAS还可以托管用户对一个或多个连接的词典/翻译服务正在进行的翻译请求的记录。请求的词可以被输入在短语手册中，短语手册可以为VAS的一部分或者与VAS分离。短语手册也可以被填充有由机器分类器确定为对用户未知的词。如本文中所使用的，短语机器分类器可以包括适合于确定词对一个人已知还是未知的目的的任何统计建模技术。VAS也可以托管或者连接到关于特定受众对词的使用率和某些词的可公共获得的统计和元数据。受众可以由诸如地理位置的各种人口统计特性定义。例如，采用英语语言的某些词的使用率可以在居住在澳大利亚的人与居住在美国的人之间显著不同。在一个国家内的各地区之间可以存在显著差异。受众可以基于年龄来定义，因为对于词使用可以存在代际差异。受众还可以通过职业来定义。例如，医生、律师、计算机程序员以及心理学家可以熟悉职业常见的个体词。

受众还可以通过兴趣来定义。例如，体育爱好者可以具有对在体育上下文下使用的词的深入理解，然而政治迷可以具有对在政治上下文下使用的词的深入理解，但是具有对在体育上下文下使用的词的浅显理解。包括阅读日志的用户数据可以用于确定用户兴趣。词可以类似地与上下文相关联。即使体育迷可能尚未被暴露于或使用特定词，诸如southpaw，但是体育迷比不是体育迷的人更有可能知道southpaw的含义(例如，左撇子投手)。因此，使用上下文作为输入的统计分类器可以对词“southpaw”对体育迷未知比对非体育迷未知分配较低置信度，即使给定两人的相同的暴露和使用水平。

在一个方面中，二元分类机器用于将词分类为已知的或未知的。作为初始步骤，具有高于语言内的阈值共性或使用频率的词可以从分析中排除并且被指定为已知。例如，如“the”、“you”、“him”以及“her”的词在英语语言中被广泛地使用并且是已知的。二元分类机器可以被训练以分析VAS中与词汇知识有关的用户数据，诸如阅读或撰写的内容的文本，文本的页面上的停留时间，以及从技术得到的阅读分析，技术诸如注视检测，其中在个体词上花费的时间可以被测量。注视检测使用(多个)相机来跟踪页面或屏幕上的眼睛移动。返回到特定词或者似乎在某个词上绊住可以指示词是用户未知的。分类机器还可以利用受众数据，如先前所描述的。用户可以与一个或多个受众简档或特定人口统计分段相关联或者被分配给一个或多个受众简档或特定人口统计分段。这些简档或分段可以将额外输入提供到分类器并且用于确定词有可能是已知的还是未知的。

关于用户的语言的知识的信息的其他源可以包括在组成文档、电子邮件等等时做出的拼写和语法错误。在一个方面中，技术收集其中拼写或语法错误被自动校正或被用户手动校正的实例。

在步骤920处，接收包括正由特定用户访问的文本的内容。内容可以是web页面、社交帖子、书、包括语音的音频记录、包括语音的视频记录、演示、文档、用户界面等等。在音频记录或视频记录的情况下，自然语言处理组件可以用于执行语音到文本转换。在一个方面中，内容由浏览器插件拦截以用于在用户导航到web页面时分析。插件可以执行分析或者将内容传递到安装在客户端设备或服务器上的另一组件以用于分析。文档应用、演示应用、电子阅读器、或者其他内容应用可以类似地检索内容以用于分析。

在步骤930处，文本中的词的子集被确定为用户可能未知的。本文中描述的技术可以使用宽泛过滤器来标识可能未知的词的子集。例如，具有高于语言内的使用的阈值频率的词可以被排除为可能未知的词。在一个方面中，过滤器是用户特定的。例如，过滤器可以一般地基于与用户相关联的阅读水平来应用。阅读水平可以基于用户的阅读内容、阅读速度、以及在撰写通信时的词汇使用的分析来计算。

在步骤940处，来自用户特定VAS的数据和可能未知的词的子集被输入到机器分类器中，机器分类器生成针对子集中的每个词的置信度分数。置信度分数指示词是特定用户可能未知的。机器分类器可以接收与用户和公众相关的多个信号作为输入来确定词是未知的。机器分类器可以利用神经网络、支持向量机、广义线性建模、数据挖掘、文本挖掘、自然语言处理算法、回归、或决策树中的一个或多个，其在一些配置中可以被孤立地使用或者组合地使用作为机器分类器的一部分，以计算置信度分数或以其他方式在已知的谱/未知的谱上分类词。

机器分类器生成针对评估的每个词的置信度分数。高于特定置信度分数的词可以被指定为未知。机器分类器可以使用能够做出分类的任何类型的技术或技术的组合。例如，神经网络、支持向量机、数据挖掘、或决策树在一些配置中可以被孤立地使用或组合地使用作为机器分类器的一部分。来自内容的未知词可以被添加到包括未知词的短语手册。被确定为未知的词可以是对后续确定的输入。

在步骤950处，从子集中选择未知词，因为它具有高于针对子集中的其他词计算的置信度分数的置信度分数。在一个方面中，只要置信度分数高于区分已知词与未知词之间的边界的阈值，具有最高置信度分数的词就被选择。在一个方面中，高于阈值的所有词被选择。在另一方面中，高于阈值的有限数量的词被选择。

在步骤960处，更改内容内的未知词的外观以提供未知词可选择的指示。更改未知词的外观的各种方式包括改变其颜色、在其下划线、在其下划双线等等。在一个方面中，外观通过将链接添加到未知词来改变，并且外观根据显示内容的应用内的显示属性来自动改变。例如，文档应用可以将每个链接的词的颜色从黑色改变为蓝色。

在步骤970处，接收用户与未知词交互的指示。用户可以在触摸屏上、利用语音命令或手势、使用鼠标或触摸板、或者通过某种其他方法与词交互。词的选择是交互的一个示例，并且在词上悬停是另一个示例。

在步骤980处，提供关于未知词的额外信息的注释被输出以用于显示。注释可以包括：人、地点、或事物的解释；词的定义；词在句子中的用法；采用不同语言对词的翻译；同义词；或者某种其他形式的理解帮助。注释可以从诸如在线词典、web页面以及知识库的外部源构建。注释可以包括到用于构建注释的在线源或者可能与提供关于未知词或短语的额外信息有关的其他在线源的链接。

在一个方面中，可以选择上下文同义词。上下文同义词与未知词共享上下文。例如，体育可以是棒球网站的上下文，并且政治可以是政治网站或与政治有关的社交帖子的上下文。未知词的上下文可以通过内容中的词、内容的源、与内容相关联的元数据以及其他信息来确定。内容可以以各种粒度水平来确定。例如，上下文可以是体育或者其可以是棒球、橄榄球、篮球、等等。

注释可以采用与内容相同的语言或采用不同语言来提供。例如，内容可以采用西班牙语并且注释采用英语来呈现。注释的语言可以由用户通过偏好界面选择。备选地，系统可以学习个人理解的语言，从观察用户事件得到偏好，并且相应地选择注释的语言。例如，通常在英语语言词典中查找英语词的用户可以在阅读英语语言内容时接收英语语言注释。相反，通常寻求将英语词翻译成西班牙语的用户可以在阅读英语内容时接收西班牙语语言注释。在一个方面中，当采用第一语言的所有可用同义词也有可能是用户未知的时提供对未知词从第一语言到用户的母语(或者用户具有比内容语言更高流利水平的任何语言)的翻译。用户的已知语言可以由用户显式地提供或者通过观察用户消耗或创作的内容的语言来学习。

示例性操作环境

总体上参考附图并且首先具体参考图10，用于实施本文中描述的技术的各方面的示例性操作环境被示出并被总体上指定为计算设备1000。计算设备1000是适当的计算环境的仅一个示例并且不旨在暗示对本本文中描述的技术的使用范围的任何限制。计算设备1000也不应当被解释为具有与图示的任何一个组件或组件的组合相关的任何依赖性或要求。

可以在计算机代码或机器可用指令的总体上下文中描述本文中描述的技术，计算机代码或机器可用指令包括计算机可执行指令，例如程序组件，其由计算机或诸如个人数字助理或其他手持设备的其他机器执行。总体上，包括例程、程序、对象、组件、数据结构、以及类似物的程序组件是指执行特定任务或实现特定抽象数据类型的代码。本文中描述的技术可以被实践在各种系统配置中，各种系统配置包括手持设备、消费电子产品、通用计算机、专用计算设备、等等。本文中描述的技术的各方面还可以被实践在分布式计算环境中，在分布式计算环境中任务由通过通信网络链接的远程处理设备执行。

继续参考图10，计算设备1000包括直接地或间接地与以下设备耦合的总线1010：存储器1012、一个或多个处理器1014、一个或多个呈现组件1016、输入/输出(I/O)端口1018、I/O组件1020、以及说明性电源1022。总线1010表示可以为一个或多个总线的事物(例如地址总线、数据总线、或其组合)。尽管为清楚起见利用线示出了图10的各个框，但是在现实中描绘各个组件不是如此清楚的，并且隐喻地，线将更准确地为灰色且模糊的。例如，可以将诸如显示设备的呈现组件认为是I/O组件。此外，处理器具有存储器。本文的发明人意识到这样是领域的性质，并且重申图10的示意图仅说明能够结合本文中描述的技术的一个或多个方面使用的示例性计算设备。不在诸如“工作站”、“服务器”、“笔记本计算机”、“手持设备”、等等的种类之间进行区分，因为全部被预见在图10的范围内并且指代“计算机”或“计算设备”。计算设备1000可以为PC、平板计算机、智能电话、虚拟现实头饰、增强现实头饰、游戏控制台、以及诸如此类。

计算设备1000通常包括各种计算机可读介质。计算机可读介质可以为可以由计算设备1000访问的并且包括易失性介质和非易失性介质、可移除介质和不可移除介质两者的任何可用介质。通过举例而非限制性的方式，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的易失性介质和非易失性介质两者、可移除介质和不可移除介质。

计算机存储介质包括RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多用盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备。计算机存储介质不包括传播的数据信号。

通信介质通常体现计算机可读介质、数据结构、程序模块或诸如载波或其他传输介质的经调制的数据信号中的其他数据并且包括任何信息递送介质。术语“经调制的数据信号”意指具有以使得在信号中编码信息的方式设置或改变的其特性中的一个或多个的信号。通过举例而非限制的方式，通信介质包括诸如有线网络或直接有线连接的有线介质和诸如声学、RF、红外和其他无线介质的无线介质。以上中的任何的组合还应当被包含在计算机可读介质的范围内。

存储器1012包括形式为易失性存储器和/或非易失性存储器的计算机存储介质。存储器1012可以为可移除的、不可移除的或其组合。示例性存储器包括固态存储器、硬盘驱动器、光盘驱动器、等等。计算设备1000包括从诸如总线1010、存储器1012或I/O组件1020的各个实体读取数据的一个或多个处理器1014。(多个)呈现组件1016将数据指示呈现给用户或其他设备。示例性呈现组件1016包括显示设备、扬声器、打印组件、振动组件、等等。I/O端口1018允许计算设备1000被逻辑地耦合到其他设备，包括I/O组件1020，其中的一些可以被内置。

说明性I/O组件包括麦克风、操纵杆、游戏垫、卫星天线、扫描仪、打印机、显示设备、无线设备、控制器(诸如触笔、键盘和鼠标)、自然用户界面(NUI)等等。在各方面中，笔式数字化器(未示出)和伴随的输入设备(也未示出但是其可以仅通过举例的方式包括笔或触笔)被提供以便数字地捕获徒手画的用户输入。笔式数字化器与(多个)处理器1014之间的连接可以是直接的或者经由利用串行端口、并行端口和/或其他接口和/或本领域中已知的系统总线的耦合。另外，数字化器输入组件可以是与诸如显示设备的输出组件分离的组件，或者在一些方面中，数字化器的可用输入区域可以与显示设备的显示区域共存、与显示设备集成、或者可以作为叠加或以其他方式附加到显示设备的单独设备而存在。任何和所有这样的变化以及其任何组合被预见为处于本文中描述的技术的各方面的范围之内。

NUI处理由用户生成的空中手势、语音或其他生理输入。合适的NUI输入可以被解释为用于结合计算设备1000呈现的墨笔划。这些请求可以被发送到适当的网络元件以用于进一步处理。NUI实现语音识别、触摸和触笔识别、脸部识别、生物特征识别、在屏幕上和邻近屏幕两者的手势识别、空中手势、头和眼跟踪、以及与计算设备1000上的显示相关联的触摸识别的任何组合。计算设备1000可以被装备有深度相机，例如立体相机系统、红外相机系统、RGB相机系统以及用于手势检测和识别的这些的组合。另外，计算设备1000可以被装备有使得能够检测运动的加速度计或陀螺仪。加速度计或陀螺仪的输出可以被提供到计算设备1000的显示器以绘制沉浸式增强现实或虚拟现实。

计算设备1000可以包括无线电装置1024。无线电装置发射并接收无线电通信。计算设备1000可以是适于通过各种无线网络接收通信和媒体的无线终端。计算设备1000可以经由诸如码分多址(“CDMA”)、全球移动系统(“GSM”)、或者时分多址(“TDMA”)以及其他的无线协议进行通信，以与其他设备进行通信。无线电通信可以是短距离连接、长距离连接、或短距离无线电信连接和长距离无线电信连接两者的组合。当我们指代“短”和“长”类型的连接时，我们不旨在指代两个设备之间的空间关系。相反，我们一般将短距离和长距离指代为不同种类或类型的连接(即，主要连接和次要连接)。短距离连接可以包括到提供对无线通信网络的访问的设备(例如，移动热点)的

连接，诸如使用802.11协议的WLAN连接。到另一计算设备的蓝牙连接是短距离连接的第二示例。长距离连接可以包括使用CDMA、GPRS、GSM、TDMA以及802.16协议中的一个或多个的连接。

技术的各方面已经被描述为说明性的而非限制性的。将理解，某些特征和子组合是有用的并且可以在没有对其他特征和子组合的引用的情况下来采用。这由权利要求的范围预见到并且在权利要求的范围之内。

Claims

1.一种生成语言理解帮助的方法，包括：

采用针对特定用户的第一语言更新词的用户特定短语手册，所述用户特定短语手册包括所述特定用户未知的词，所述特定用户未知的所述词至少部分基于与已知词的观察到的用户交互而被预测为对所述特定用户未知；

接收包括正由所述特定用户访问的文本的内容；

通过将所述文本中的词与所述用户特定短语手册中的词进行比较来确定所述特定用户未知的所述词处于所述文本内；

更改所述内容内的所述特定用户未知的所述词的外观以提供所述特定用户未知的所述词是可选择的指示；

接收用户与所述特定用户未知的所述词交互的指示；以及

输出提供关于所述特定用户未知的所述词的额外信息的注释以用于显示。

2.根据权利要求1所述的方法，其中所述额外信息是采用第二语言对所述特定用户未知的所述词的翻译，其中所述特定用户未知的所述词进一步根据特定受众对所述特定用户未知的所述词的公共获得的使用率而被确定。

3.根据权利要求1所述的方法，其中所述方法还包括：

确定所述特定用户已经搜索了关于第二未知词的信息或者至少两次撰写或说出所述第二未知词；以及

将所述第二未知词添加到所述用户特定短语手册作为已知词。

4.根据权利要求1所述的方法，其中所述用户特定短语手册由机器分类器填充，所述机器分类器基于针对所述特定用户的阅读数据将词分类为所述特定用户已知的或未知的，所述阅读数据包括所述特定用户阅读被分类的词语的速度。

5.根据权利要求4所述的方法，其中所述方法包括更新用户特定词汇分析存储(VAS)，所述用户特定VAS包括词在由所述特定用户撰写的文本和由所述特定用户阅读的文本内出现的频率，其中来自所述用户特定VAS的信息被用作所述机器分类器的输入以便对词进行分类。

6.根据权利要求5所述的方法，其中所述方法还包括更新所述用户特定VAS以包括所述特定用户与所述注释的交互。

7.根据权利要求5所述的方法，其中所述方法还包括更新所述用户特定VAS以包括用户兴趣，所述用户兴趣能够由所述机器分类器使用以计算给定词未知的置信度分数。

8.根据权利要求1所述的方法，其中所述内容是web页面。

9.一种生成语言理解帮助的方法，包括：

接收采用不是用户的第一语言的特定语言的文本内容；

扫描所述文本内容以标识具有高于由机器分类器确定的所述用户未知的阈值置信度的词，所述机器分类器使用所述用户先前已经阅读或撰写的文本内的与已知词的观察到的用户交互作为输入，其中所述已知词采用所述特定语言；以及

输出所述文本内容以用于显示给所述用户，其中所述词具有与所述文本内容中的其他词不同的视觉外观以指示所述词是可选择的。

10.根据权利要求9所述的方法，还包括：

接收用户与所述词的交互；以及

邻近所述词输出帮助所述用户理解所述词的注释。

11.根据权利要求10所述的方法，其中所述注释是采用与所述特定语言不同的第二语言对所述词的翻译，其中针对所述用户的用户简档指示所述用户熟悉所述第二语言。

12.根据权利要求10所述的方法，其中所述注释包括从知识库对所述词的解释，其中所述词是人、地点或事物中的一个。

13.根据权利要求10所述的方法，其中所述注释包括所述词的定义或者所述词正被使用在句子中的示例。

14.根据权利要求10所述的方法，其中所述注释包括所述词的上下文同义词。

15.根据权利要求9所述的方法，其中所述机器分类器还使用由所述用户在在线词典中查找的词的记录作为输入。

16.一种或多种计算机存储介质，其上包含有计算机可执行指令，所述计算机可执行指令当由计算设备执行时，执行生成语言理解帮助的方法，所述方法包括：

通过收集针对特定用户的用户读取数据和撰写数据来更新用户特定词汇分析存储(VAS)；

接收包括由所述特定用户访问的文本的内容；

使用所述用户特定VAS来确定所述文本中对所述用户潜在未知的词的子集，其中确定所述词的子集至少部分地基于先前尚未观察到与所述词的子集的用户交互而被确定，并且所述文本中潜在未知的所述词的子集采用除了所述用户的第一语言之外的语言；

将来自所述用户特定VAS的数据和潜在未知的所述词的子集输入到机器分类器中，所述机器分类器生成针对所述词的子集中的每个词的置信度分数，所述置信度分数指示词是否很可能对所述特定用户未知；

从所述词的子集中选择未知词，所述未知词具有高于针对所述词的子集中的其他词计算的其他置信度分数的一个置信度分数；

更改所述内容内的所述未知词的外观，以提供所述未知词是可选择的指示；

接收所述用户与所述未知词交互的指示；以及

输出提供关于所述未知词的额外信息的注释以用于显示。

17.根据权利要求16所述的介质，还包括收集用户交互数据，所述用户交互数据描述与所述注释的用户交互，并且将所述用户交互数据录入所述用户特定VAS中。

18.根据权利要求16所述的介质，还包括：

用所述未知词的同义词替换所述未知词，所述同义词未被所述机器分类器分类为未知。

19.根据权利要求16所述的介质，其中所述方法还包括将一般语言统计录入所述机器分类器中，所述一般语言统计包括群体内针对不同词的使用频率。

20.根据权利要求16所述的介质，其中所述方法还包括将与所述特定用户相关联的地理区域录入所述机器分类器中。