CN105637507A

CN105637507A - 文本跨度的智能选择

Info

Publication number: CN105637507A
Application number: CN201480055252.2A
Authority: CN
Inventors: P·潘特尔; M·盖蒙; A·D·富克斯曼; B·科尔迈尔; P·基拉卡马里
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2013-10-07
Filing date: 2014-10-01
Publication date: 2016-06-01
Anticipated expiration: 2034-10-01
Also published as: US9436918B2; EP3055787A1; US20150100562A1; CN105637507B; WO2015054218A1; WO2015053993A1; EP3055789A1; KR20160067202A; US20150100524A1; CN105612517A; TW201519075A

Abstract

预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度。文档和指示文档中特定位置的位置指针被接收并且被输入到不同的候选文本跨度生成方法。从不同的候选文本跨度生成方法中的每一个接收关于一个或多个记分候选文本跨度的排名列表。机器学习总体模型用于对从不同的候选文本跨度生成方法中的每一个接收到的每个记分候选文本跨度进行重新记分。所述总体模型是利用机器学习方法和来自真实意图用户文本跨度选择数据集的特征来训练的。从所述总体模型接收重新记分候选文本跨度排名列表。

Description

文本跨度的智能选择

背景技术

在当今的生产力环境中，用户在各应用中消费或著作各种内容的同时不断地研究话题，其中这些应用可以包括诸如电子阅读器等阅读器应用以及诸如文本处理器、电子表单、演示程序和社交网络等生产力应用。用户通常使用万维网(下文简称为Web)来研究话题。例如，用户可以在当前对他们显示的文档内选择文本跨度，并且随后可以针对选定的文本跨度搜索Web。

由于诸如经济全球化和正在进行中的计算、数据通信和计算机网络技术方面的进步的因素，全球范围的用户正在变得越来越移动化。现在各种类型的移动计算设备可通过商业方式获得，其允许用户普遍且方便地在移动的同时执行完全独立的计算与数据通信活动。智能手机和平板式计算机是此种移动计算设备的两个示例。移动计算设备的普及度持续快速增长，可获得的移动计算应用的类型也持续快速增长。因此，常规地使用移动计算设备来执行它们的在线计算、通信和信息管理任务(诸如刚刚描述的话题研究)的用户数量持续快速地增长。事实上，移动计算设备已经变成了许多用户的主要计算设备。

发明内容

提供该发明内容以便以下文在具体实施方式部分中进一步描述的简化形式来引入概念的选集。该发明内容不意在确定权利要求主题的关键特征或重要特征，也不意在用来辅助确定权利要求主题的范围。

本文所描述的智能选择技术实施例一般涉及对形成用户想要选择的单个词或一系列的两个或更多个词的文本跨度进行预测。在一个示例性实施例中，包括字符串的文档被接收到，并且指示文档中特定位置的位置指针也被接收到。然后，文档和位置指针输入到多个不同的候选文本跨度生成方法。然后，从不同的候选文本跨度生成方法中的每一个接收关于一个或多个记分候选文本跨度的排名列表。然后，使用机器学习总体模型(machine-learnedensemblemodel)来对从不同候选文本跨度生成方法中的每一个接收到的每个记分候选文本跨度进行重新记分，其中总体模型是利用机器学习方法和来自真实意图的用户文本跨度选择数据集的特征来训练的。然后，从总体模型接收重新记分候选文本跨度的排名列表。

在另一示例性实施例中，将文档和位置指针输入到机器学习超链接意图模型。然后，从超链接意图模型接收记分候选文本跨度的排名列表。

附图说明

结合下面的说明书、随附权利要求和附图，将更好的理解本文所描述的智能选择技术实施例的具体的特征、方面和优点，在附图中：

图1是示出用于预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度的过程的简化形式的一个实施例的流程图。

图2是示出用于预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度的总体学习架构的简化形式的示例性实施例的图。

图3是示出用于构建由本文所描述的智能选择技术实施例所使用的真实意图的用户文本跨度选择的数据集的大规模群集源方法的简化形式的示例性实施例的流程图。

图4是示出使用超链接意图模型方法来识别预测用户想要选择什么的候选文本跨度的过程的简化形式的示例性实施例的流程图。

图5是提供用于图4示范的过程的译码流的示例性实施例的简化形式的图形图示的图。

图6A和6B是示出用于预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度的过程的简化形式的另一实施例的流程图。

图7是示出可以实现如本文所述的智能选择技术的各个实施例和要素的通用计算机系统的简化示例的图。

具体实施方式

在智能选择技术实施例的以下描述中，参考了附图，附图构成说明书的一部分，并且在附图中通过示例的方式示出了能够实践智能选择技术的具体实施例。应理解，能够使用其它实施例，并且能够做出进行结构的改变，而不偏离智能选择技术实施例的范围。

还值得注意的是，为了清楚起见，借助具体术语来描述本文所描述的智能选择技术实施例，并不意在将这些实施例限于如此选择的具体术语。此外，应当理解，每个具体术语包括它的以广义上类似的方式操作来实现类似目的的全部技术等同词。本文提到的“一个实施例”或“另一实施例”或“示例性实施例”或“替选实施例”或“一个实现方式”或“另一实现方式”或“示例性实施方案”或“替选实施方案”意指与实施例或实现方式相结合描述的特定的特征、特定的结构或特定的特性能够包含在智能选择技术的至少一个实施例中。短语“在一个实施例中”、“在另一实施例中”、“在示例性实施例中”、“在替选实施例中”、“在一个实现方式中”、“在另一实现方式中”、“在示例性实现方式中”和“在替选实现方式中”在说明书各地方的出现不一定都指代同一实施例或实现方式，也不指代其它实施例/实现方式的相互排斥的单独的或替选的实施例/实现方式。另外，代表了智能选择技术的一个或多个的实施例或实现方式的过程流的次序本质上不指示任何特定次序，不暗示智能选择技术的任何限制。

1.0由用户进行的文本选择

术语“文档”在本文用来指代包括字符串(例如，文本)且能够显示在计算设备的显示屏上的任何信息项。术语“文本跨度”在本文用来指代包含在文档内且形成单一单元(例如，文本跨度形成实体、概念或话题)的一个或多个字符的序列(例如，文本的一个跨度)。从而，文本跨度能够形成单个词或者一系列两个或更多个的词，以及其它事物。在本文所描述的智能选择技术实施例中，用户选择他们正在阅读或著作的文档中的文本跨度。术语“触摸使能计算设备”在本文用来指代任何具有自然触摸用户接口的计算设备，自然触摸用户接口包括用户能够在其上面做出触摸手势的触摸敏感显示屏。

如计算与用户接口领域所意识到的，传统的个人计算机(PC)和膝上型/笔记本计算机长期以来包括指针设备(例如，鼠标、或跟踪板/触摸板等等)，用户能够使用该指针设备来选择显示给他们的信息的期望的项或部分。更特别地，以及通过示例而不是限制的方式，几十年来，传统PC和膝上型/笔记本计算机的用户已经依赖于使用指针设备来选择当前所显示的文档内的文本跨度，并且对选定的文本跨度执行各种功能。这些功能的示例包括但不限于：复制和粘贴选定的文本跨度，在词典或词库中查找选定的文本跨度，针对选定的文本跨度来搜索Web，以及翻译选定的文本跨度。

如上文所述的，常规地使用移动计算设备来执行其在线计算、通信和信息管理任务(诸如前述的在各种应用中消费或著作各种内容的同时研究话题)的用户的数量持续快速地增长。还如计算和用户接口领域所意识到的，移动计算设备仅是触摸使能计算设备的一个示例。当今，PC和膝上型/笔记本计算机还经常配置为触摸使能计算设备。因此，许多用户目前惯常地经由与各种触摸使能计算设备(的例如触摸敏感显示屏上的触摸手势)的触摸交互来执行文本跨度和相关功能选择。

还如计算和用户接口领域所意识到的，指针设备提供了高度的选择分辨能力(例如，选择分辨率)。虽然触摸使能计算设备的自然触摸用户接口能够为用户提供与计算设备的更加直观且存在争议的更加自然形式的用户交互，但是自然触摸用户接口还提供了比指针设备显著低程度的选择分辨能力。

2.0文本跨度的智能选择

一般而言，本文所描述的智能选择技术实施例提供了新的自然语言处理和文本选择范例，其允许用户选择当前正显示给用户的文档内的文本跨度。更特别地，给定包括字符串的文档中的特定位置的用户选择，智能选择技术实施例预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度，其中该预测的文本跨度在上下文与文档的内容相关。换言之，智能选择技术实施例基于用户在文档中选定的特定位置(例如，单个字符以及其它可能的事物)来预测用户的关注焦点。通过示例而不是限制的方式，假设用户正在触摸使能计算设备上阅读或著作关于叙利亚危机的文章并且他们在文章中出现的句子“TheRussianFederationhasproposedaplanforthedestructionofSyria’schemicalweapons”中的词“Federation”的任意部分上轻敲。智能选择技术实施例可能预测到，即使用户选择了词“Federation”，他们想要选择文本跨度“RussianFederation”(例如，他们想要的关注焦点是“RussianFederation”)。通过另一示例，假设用户正在阅读或著作体育新闻文章并且他们在文章中出现的句子“TheSanFrancisco49ersscoredbiginlastMonday’sgame”中的词“San”的任意部分上轻敲。智能选择技术实施例可能预测到，即使用户选择了词“San”，他们想要选择文本跨度“SanFrancisco49ers”(例如，他们想要的关注焦点是“SanFrancisco49ers”)。

在本文所描述的智能选择技术的示例性实施例中，智能选择技术实施例所执行的文本跨度预测适用于如下情况：用户想要对文本跨度进行研究，从而学习关于它的更多。用户可能进行的示范性的研究类型包括但不限于查找词典或词库或维基百科(Wikipedia)中的文本跨度，或者针对文本跨度搜索Web，或者翻译文本跨度。

值得注意的是，虽然本文在用户使用触摸使能计算设备来在计算设备的触摸敏感显示屏上阅读或著作文档的上下文中描述了智能选择技术实施例，其中用户通过在特定位置上方做出单一触摸手势(例如，轻敲)来选择文档中的该特定位置，但是智能选择技术的替选实施例是可能的，其中用户能够利用其它各种模态(modality)来选择位置。通过示例而不是限制的方式，在用户正用来阅读/著作文档的计算设备包括指针设备的情况下，用户能够利用指针设备来选择文档中的特定位置。在用户正用来阅读/著作文档的计算设备包括语音识别能力的情况下，用户能够通过讲出特定词来选择对应于文档中的该特定词的文档中的特定位置。在用户正用来阅读/著作文档的计算设备包括能够用来跟踪用户眼睛注视的面向用户的视频照相机的情况下，用户能够通过注视特定位置来选择文档中的该特定位置。

图1示出了用于预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度的过程的简化形式的一个实施例。如图1所例示的，该过程开始于接收包含字符串的文档(动作100)。然后，接收指示文档中特定位置的位置指针(动作102)。在本文所描述的智能选择技术的示例性实施例中，用户正在使用触摸使能计算设备且文档显示在计算设备的触摸敏感显示屏上，位置指针能够通过在文档中特定位置上用户触摸(例如，轻敲)显示屏来生成。在该特定位置对应于文档中具体字符的情况下，位置指针将是指示用户在文档中选定的该具体字符的字符偏移量。

再次参考图1，在文档和位置指针已经被接收到(动作100和102)之后，它们被输入到多个不同的候选文本跨度生成方法(动作104)，其示例性实施例将在下文进行更详细描述。然后，从不同的候选文本跨度生成方法中的每一个接收关于一个或多个记分候选文本跨度的排名列表(动作106)。然后，使用机器学习总体模型来对从不同的候选文本跨度生成方法中的每一个接收到的每个记分候选文本跨度进行重新记分，其中该模型是利用机器学习方法和来自由本文所述的智能选择技术实施例构建的真实意图用户文本跨度选择数据集的特征来训练的(动作108)。各种机器学习方法能够用于训练该总体模型。通过示例而不是限制的方式，在本文所描述的智能选择技术的一个实施例中，用来训练总体模型的机器学习方法是逻辑回归。在智能选择技术的另一实施例中，用来训练总体模型的机器学习方法是常规的梯度提升决策树方法。在智能选择技术的又另一实施例中，用来训练总体模型的机器学习方法是常规的支持向量机方法。下文更详细描述了机器学习总体模型和真实意图(true-intended)用户文本跨度选择数据集。然后，从机器学习的总体模型接收重新记分候选文本跨度排名列表(动作110)。

再次参考图1，在已从机器学习总体模型接收到重新记分候选文本跨度排名列表(动作110)之后，用户想要选择的文本跨度的一个或多个预测以如下方式提供给用户。在本文所描述的智能选择技术的一个实施例中，识别重新记分候选文本跨度排名列表中具有最高得分的候选文本跨度(动作112)，并且将所述识别的候选文本跨度作为对用户想要选择的文本跨度的预测显示给用户(动作114)。如根据下文的进一步详述所意识到的，所述识别的候选文本跨度在上下文与文档内容相关，并且可以是单个词或者包括两个或更多个词的短语。在智能选择技术的另一实施例中，重新记分候选文本跨度排名列表中的具有最高得分的两个或更多个候选文本跨度被识别(动作116)，并且这些识别的候选文本跨度作为对用户想要选择的文本跨度的提议预测被显示给用户(动作118)。同样如下文的进一步详述所意识到的，这些识别的候选文本跨度中的每一个在上下文与文档的内容相关，并且可以是单个词或者包括两个或更多个词的短语。

图2示出了用于预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度的总体学习架构(ensemblelearningframework)的简化形式的示例性实施例。如图2中所例示的，总体学习架构200包括前述多个不同的候选文本跨度生成方法202、机器学习总体模型204和真实意图用户文本跨度选择数据集206。真实意图用户文本跨度选择数据集206与机器学习总体模型204之间的虚线指示：数据集206仅用于训练模块204。在本文所描述的智能选择技术的示例性实施例中，不同的候选文本跨度生成方法202可以包括但不限于：多个不同的语言单元检测器方法210、或多个不同的试探方法212、或一个或多个不同的语言单元检测器方法210、或一个或多个不同的试探方法212的组合。不同的语言单元检测器方法210可以包括但不限于：超链接意图模型方法208、一个或多个不同的命名实体辨识器方法214、一个或多个的不同名词短语检测器方法216以及知识库查找方法218。不同的试探方法212可以包括但不限于：假设由位置指针识别的词是用户想要选择的文本跨度的试探220，以及基于大写的试探222。

同样如图2中所例示的并且如下文更详细说明的，不同的候选文本跨度生成方法202中的每一个接收用户正着手的文档以及指示文档中特定位置的位置指针，以及输出关于一个或多个记分候选文本跨度的排名列表。机器学习总体模型204接收文档、位置指针以及从不同的候选文本跨度生成方法202输出的全部记分候选文本跨度，对每个接收到的记分候选文本跨度重新记分，以及输出重新记分候选文本跨度排名列表。如下文更详细说明的，机器学习总体模型204是利用前述机器学习方法和来自真实意图用户文本跨度选择数据集206的特征来训练的元模型。

本文所描述的智能选择技术实施例由于各种原因是有益的，原因包括但不限于以下所述。智能选择技术实施例与任何触摸使能计算设备兼容且因此能够实现在任何触摸使能计算设备上。智能选择技术实施例还允许用户通过在触摸敏感显示屏上执行仅单个触摸手势(例如，轻敲)(例如，用户无须为选择多词文本跨度而执行一系列复杂的触摸手势)就能够选择多词文本跨度。智能选择技术实施例因此将常规的自然触摸用户接口以如下方式增强：使得在触摸使能计算设备上选择多词文本跨度时的用户体验明显更不麻烦。智能选择技术实施例还执行恢复(例如，预测)用户意图的语义任务。因此，智能选择技术实施例明显优于各种独立的常规语言分析方法，并且产生明显更精确的对用户想要选择的文本跨度的预测。

2.1智能选择范例定义

该章节描述了用于实现本文所描述的智能选择技术实施例的范例的简化形式的示例性实施例。

D表示全部文档的集合。用户选择在此处定义为指示给定文档中的特定位置d∈D的位置指针。如上文所述，在该特定位置对应于d中的具体字符的情况下，位置指针将是指示用户在d中选定的该具体字符的字符偏移量。S表示D中所有可能的用户选择的集合。S_d表示d中所有可能的用户选择的集合。σ＝〈x，y〉表示d中给定的记分候选文本跨度(例如，智能选择)，其中x∈S_d表示d中给定的候选文本跨度，并且表示该候选文本跨度的得分。φ表示由给定的文档和用户选择组成的对偶来产生关于一个或多个记分候选文本跨度的排名列表(例如，关于一个或多个记分智能选择的排名列表)的智能选择函数。φ能够由以下表达式给出：

φ : D \times S &RightArrow; (σ_{1}, ..., σ_{| S_{d} |} | x_{i} &Element; S_{d}, y_{i} &GreaterEqual; y_{i} + 1) .

使φ的输出由记分候选文本跨度排名列表构成而不是仅由单个文本跨度构成是有益的，因为这允许本文所描述的智能选择技术的实施例——其中向用户提议n个最高等级的候选文本跨度的列表(n是规定数)。

给定在文档d中进行的用户选择s，τ表示代表着用户想要选择什么的目标文本跨度。将意识到，本文所描述的不同的候选文本跨度生成方法中的每一个对应于智能选择函数φ的单独的实现方式。本文所描述的智能选择技术实施例使用机器学习总体模型，该机器学习总体模型是利用上述机器学习方法(例如，逻辑回归、或常规的梯度提升决策树方法或常规的支持向量机方法以及其它)以及来自真实意图用户文本跨度选择数据集的特征来训练的，以对由不同的候选文本跨度生成方法输出的记分候选文本跨度的组合集合进行评估和重新记分。因此，智能选择技术实施例能够用于从任何〈d，s〉对偶(例如，从任何文档中的任何用户选择)恢复/预测τ。

将意识到，即使对于人类，根据位置指针来预测用户的意图选择的任务也并非是不重要的。虽然存在一些非常清楚的切割案例(诸如在句子“WhileinDC,BarackObamametwith…”中将对词“Obama”的任何部分的用户选择扩展到“BarackObama”)，但是还存在其它的用户意图取决于诸如他们的兴趣的外在因素(以及其它可能的外在因素)的案例。通过示例而不是限制的方式，给定在文本跨度“UniversityofCaliforniaatSantaCruz”中的对词“California”的任何部分进行的用户选择，一些(虽然可能是极少数)用户可能对California州感兴趣，而其它用户可能对大学系统的UniversityofCalifornia感兴趣，而另外其它用户可能对位于SantaCruz的UniversityofCalifornia特别感兴趣。

2.2真实意图用户文本跨度选择的数据集

该部分描述了用于训练机器学习总体模型的真实意图用户文本跨度选择的数据集的构建。在本文所描述的智能选择技术的示例性实施例中，该数据集是利用使规定的用户集合与常规的触摸使能电子阅读设备交互的真实世界应用来构建的。在该应用中，集合中的每个用户正在阅读显示在电子阅读器上的给定书，并且从书中选择他们希望得到额外信息的文本跨度，其中该信息能够来自于各种在线信息资源，诸如词典或词库或维基百科或Web搜索以及各种其它在线信息资源。由于电子阅读器设备的自然触摸用户接口，集合中的每个用户受限于仅触摸单个词。注意的是，智能选择技术的替选实施例也是可能的，其中集合中的一个或多个的用户能够以各种其它方式做出他们的文本跨度选择。通过示例而不是限制的方式，给定用户能够阅读他们的书的纸质形式，并且能够利用亮光笔来做出他们的文本跨度选择。给定用户还能够在被配置有指针设备的计算设备的显示器屏幕上阅读他们的书，并且能够利用该指针设备来做出他们的文本跨度选择。

图3示出了用于构建真实意图用户文本跨度选择的数据集的大规模群集源方法的简化形式的示例性实施例。图3例示的群集源方法可视为大规模群集源(crowd-sourced)用户研究/练习。如在线信息资源领域所领悟到的，Wikibooks(其从http://www.wikibooks.org/可得到)是公共可得到的开放内容课本库。群集源方法实施例使用来自Wikibooks的英文课本的整个集合，其中该集合由横跨诸如计算、人类学和科学以及其它大量类别的2,696个课本构成。

如图3中例示的，群集源方法以选择来自公共书库中的规定数量的书的样本开始(动作300)。在本文所描述的智能选择技术的示例性实施例中，公共书库是Wikibooks，并且书的规定数量是100。其它实施例也是可能的，其中能够使用任何其它公共书库，并且其中书规定数量可以小于或大于100。然后，从每本选定的书中随机地采样一个段落(动作302)。随后，由规定数量的群集源用户来评估每个采样的段落，其中每个群集源(crowd-sourced)用户被指示利用诸如上述的在线信息资源而从他们想要更多地获知的样本段落中选择文本跨度(动作304)。在本文所描述的智能选择技术的示例性实施例中，群集源用户的规定数量是100，但是其它实施例也是可能的，其中群集源用户的规定数量可以是小于或大于100。

参考图3，在不同的群集源用户已经从采样的段落中选择他们的文本跨度(动作304)之后，从每个采样的段落中选择的文本跨度、连同规定从中选择文本跨度的特定采样段落的信息以及选择该文本跨度的用户数量一起，被存储在真实意图用户文本跨度选择数据集中。因此，所得到的真实意图用户文本跨度选择数据集包括〈d，τ〉对偶的集合，其中d规定给定的采样段落，并且τ规定由一个或多个群集源用户从该段落中选择的文本跨度以及选择该文本跨度的用户数量(换言之，τ是真实意图用户选择)。在本文所描述的智能选择技术的示例性实施例中，〈d，τ〉对偶中的每一个被指派给五个随机选出的合并(fold)中的一个(这将在下文进行更详细说明)，其用来训练机器学习总体模型。直观地，将意识到选择真实意图用户文本跨度选择数据集中的给定文本跨度的用户越多，该文本跨度就越可能为从中选择该文本跨度的采样段落的读者所感兴趣。本文所描述的智能选择技术的示例性实施例因此使用选择真实意图用户文本跨度选择数据集中的每个文本跨度的用户的数量作为文本跨度将由正在阅读包含该文本跨度的文档的用户选择的可能性的代理。

在已经构建了真实意图用户文本跨度选择数据集之后，用模拟用户文本跨度选择测试集对该真实意图用户文本跨度选择数据集进行如下增强。测试案例在本文定义成三元组〈d，s，τ〉，其中d规定给定采样段落，s规定模拟用户文本跨度选择，并且τ规定从该段落选出的文本跨度以及选择该文本跨度的用户的数量。对于真实意图用户文本跨度选择数据集中的每个〈d，τ〉对偶，规定数量(n)的对应测试案例是通过模拟基于触摸的用户文本跨度选择{〈d，τ，s₁〉，...，〈d，τ，s_n〉}来构建的，其中s₁，...，s_n对应于τ中的单个词。换言之，τ中的每个词被视为候选用户选择。其中仅单个用户选择τ的全部测试案例可以基于如下观察来丢弃：这些测试案例主要涉及到误差和噪声，诸如全部句子以及无意义的长句子片段，以及其它。所得到的其余测试案例的流量加权多集合(traffic-weightedmulti-set)被表示为测试集T_ALL。因此，每个测试案例〈d，s，τ〉在T_ALL中出现k次，其中k是在d中选择了τ的群集源用户的数量。

然后，将测试集T_ALL中的用户选择的分布划分成三个其它测试集，即T_HEAD、T_TORSO和T_TAIL。更特别地，在通常在统计领域中采用的分层采样方法之后：构建测试集T_HEAD，其包括频繁选择的意图用户选择；构建另一测试集T_TORSO，其包括不太频繁选择的意图用户选择；并且构建又另一测试集T_TAIL，其包括极少选择的意图用户选择。

2.3候选文本跨度生成方法

如自然语言处理领域意识到的，能够使用各种候选文本跨度生成方法来识别具有连贯特性的多词文本跨度。同样如自然语言处理领域意识到的，用户文本跨度选择经常是命名实体或名词短语或概念。该部分提供了能够由本文所描述的智能选择技术实施例使用的不同的候选文本跨度生成方法的示例性实施例的更详细说明。在随后的该更详细说明中，将理解的是本文所描述的位置指针识别用户在他们正着手的文档中选择的词。

本文所描述的真实意图用户文本跨度选择数据集中的信息指示，命名实体仅构成了用户想要选择的文本跨度的四分之一(近似地)，而名词短语和概念分别构成了用户想要选择的文本跨度的其它部分。因此，将意识到，没有单个常规的语言分析方法足以解决全部的不同用户文本跨度选择可能性。本文所描述的智能选择技术的一个实施例利用两个或更多个不同候选文本跨度生成方法的组合，从而受益于它们的互补能力来解决所有的不同类型的可能的用户意图文本跨度选择。

2.3.1语言单元检测器方法

该章节提供了能够由本文所描述的智能选择技术实施例使用的不同的语言单元检测器方法的示例性实施例的更详细的说明。从随后的更详细说明中意识到，本文所描述的示例性的语言单元检测器方法能够识别将由位置指针所识别的词纳入的命名实体、或名词短语、或概念。换言之，本文所描述的语言单元检测器方法使用基于语言成分(linguisticconstituency)或者基于知识库参与(knowledgebasepresence)的语言单元的概念。因此，在本文所述的每个语言单元检测器方法中，纳入了由位置指针所识别的词的任何检测到的语言单元可被当作候选文本跨度来对待。基于“给定的文本跨度越长(例如，在文本跨度中的字符越多)，其就越具体，并且越有可能是用户想要选择的”这一假设，由每个语言单元检测器方法所识别的每个候选文本跨度是基于候选文本跨度的归一化长度来记分的。因此，具有最大归一化长度的候选文本跨度将被赋予最高得分。

2.3.1.1命名实体辨识器方法

如自然语言处理领域将意识到的，存在能够用于识别诸如人、地方、组织等命名实体的各种常规命名实体辨识器方法。一般而言，本文所描述的智能选择技术实施例能够使用任何命名实体辨识器方法或两个或更多个不同的命名实体辨识器方法的任意组合。更特别地，在本文所述的智能选择技术的一个实施例中，能够使用任何命名实体辨识器方法来识别作为纳入了由位置指针所识别的词的命名实体的候选文本跨度。在智能选择技术的另一实施例中，任何两个或更多个不同的命名实体辨识器方法的组合能够用来识别作为将由位置指针所识别的词纳入的命名实体的候选文本跨度。在智能选择技术的示例性实施例中，当给定的命名实体辨识器方法不能识别纳入了由位置指针所识别的词的命名实体时，命名实体辨识器方法将会把该词作为其所识别的候选文本跨度而输出。

2.3.1.2名词短语检测器方法

如自然语言处理领域意识到的，存在能够用于识别诸如名词短语的语言成分的各种常规的名词短语检测器方法(有时称为剖析程序(parser)或分块程序(chunker))。一般而言，本文所描述的智能选择技术实施例能够使用任何名词短语检测器方法或者两个或更多个不同的名词短语检测器方法的任意组合。更特别地，在本文所描述的智能选择技术的一个实施例中，学习借助最大熵模型来剖析自然语言的常规的名词短语检测器方法用来识别作为将由位置指针所识别的词纳入的名词短语的候选文本跨度。在智能选择技术的另一实施例中，任意两个或更多个不同的名词短语检测器方法的组合能够用来识别作为将由位置指针所识别的词纳入的名词短语的候选文本跨度。在智能选择技术的示范性的实施例中，当给定的名词短语检测器方法不能识别纳入了由位置指针识别的词的任何名词短语时，命名实体辨识器方法将该词输出作为其所识别的候选文本跨度。

2.3.1.3知识库查找方法

在本文所描述的智能选择技术实施例中使用的知识库查找方法基于“知识库中的概念以及其它条目(entry)本质上是为人感兴趣的事物”的假设。知识库查找方法使用Web图形来识别候选文本跨度，所述候选文本跨度是：将由位置指针所识别的词纳入的命名实体、或将该词纳入的名词短语、或将该词纳入的概念。Web图形可以包括来自任意知识库的信息或者两个或更多个不同知识库的任意组合。能够由智能选择技术实施例所使用的示例性的知识库包括但不限于：Wikipedia(可从http://en.wikipedia.rog得到)、Freebase(可从http://www.freebase.com/得到)、以及来自供应针对如娱乐和金融(以及许多其它)等特定信息域的在线信息的提供商的一个或多个付费推送。在智能选择技术的示例性实施例中，当知识库查找方法不能识别将由位置指针所识别的词纳入的Web图形中的任何条目时，知识库查找方法将该词输出作为其所识别的候选文本跨度。

2.3.1.4超链接意图模型方法

如根据下面的更详细说明所意识到的，超链接意图模型方法是一种机器学习语言单元检测器方法，其基于如下直觉：在大的知识库中的锚文本(anchortext)可以是关于用户可能想要更多地获知什么的良好表示(例如，超链接意图模型方法假设这样的锚文本本质上类似于用户将在研究任务期间选择的文本跨度)。如因特网和在线信息领域将意识到的，锚文本是超链接中的可见的、用户可选的文本，常常给予用户关于超链接目的地的内容的描述性或上下文的信息。超链接意图模型建立于如下事实之上：即，知识库编辑者写入用于用户所可能感兴趣的实体、概念以及其它事物的锚文本。给定由位置指针所识别的词，超链接意图模型方法使用机器学习超链接意图方法来识别纳入该词的候选文本跨度，其中这些候选文本跨度中的每一个是从大的知识库中恢复的锚文本。在本文所描述的智能选择技术的示例性实施例中，大的知识库是Wikipedia，但是值得注意的是，智能选择技术的替选实施例也是可能的：其中能够使用任何其它类型的大的知识库，或者能够使用两个或更多个不同的知识库的组合。

更特别地，以及将如下文更详细描述的，给定由位置指针所识别的文档中的词，超链接意图模型方法经由利用两个不同的二元分类器所做出的贪婪二元决策来迭代地决定是否在文档中将该词向其左侧扩展一个词，或者在文档中向其右侧扩展一个词，其中迭代继续直到满足规定的停止条件。在本文所描述的智能选择技术的一个实施例中，该停止条件是:分类器指派的扩展概率在给定阈值以下。在本文所描述的智能选择技术的另一实施例中，该停止条件是达到最大预定选择长度。

图4示出了使用机器学习超链接意图模型来识别将由位置指针所识别的词纳入的候选文本跨度的过程的简化形式的示例性实施例。图5提供了用于图4例示的过程的译码流程的示例性实施例的简化形式的图形图示。如图4所例示的，过程开始于将由位置指针所识别的词指派为当前的候选文本跨度(动作400)。然后评估当前候选文本跨度的向其左侧一个词的扩展(动作402)，其中该评估包括使用超链接意图模型和左向二元分类器来对该左向扩展进行记分(动作404)，并且然后将该左向扩展及其得分存储在记分候选文本跨度排名列表中(动作406)。然后评估当前候选文本跨度向其右侧一个词的扩展(动作408)，其中该评估包括使用超链接意图模型和右向二元分类器来对该右向扩展进行记分(动作410)，然后将该右向扩展及其得分存储在记分候选文本跨度排名列表中(动作412)。值得注意的是，刚刚描述的对当前候选文本跨度向其左侧一个词的扩展的记分包括从外向内(fromtheoutsidein)评估该左向扩展(例如，从在当前候选文本跨度的紧邻左侧的词到候选文本跨度中的最左侧词的视角)。类似地，刚刚描述的对当前候选文本跨度向其右侧一个词的扩展的记分包括从外向内评估该右向扩展(例如，从当前候选文本跨度的紧邻右侧的词到候选文本跨度中的最右侧词的视角)。

再参考图4，在已经评估了当前候选文本跨度向其左侧一词的扩展以及向其右侧一词的扩展(动作402和408)之后，然后选择对于将当前候选文本跨度向其左侧扩展一词的得分以及对于将当前候选文本跨度向其右侧扩展一词的得分中的较大者(动作414)。每当该选定得分大于规定阈值时(动作416，是)，对应选定得分的扩展被指派为当前候选文本跨度(动作418)，并且重复动作402-416。每当该选定得分不大于规定阈值时(动作416，否)，将记分候选文本跨度排名列表输出(动作420)。

利用由随机地从知识库采样的锚文本自动生成的训练数据集来训练机器学习超链接意图模型，其中该训练数据包括肯定训练示例和否定训练示例。在本文所描述的智能选择技术的示例性实施例中，该训练数据集合以如下方式生成。规定数量的锚文本首先从大的知识库随机采样，其中每个采样的锚文本被当作用户意图选择来对待，并且每个采样锚文本中的每个词被当作模拟用户文本跨度选择来对待。然后，对于每个采样的锚文本，进行下面的动作。对于在由位置指针所识别的词的左侧且是采样锚文本的部分的每个词生成肯定训练示例。对于在由位置指针所识别的词的右侧且是采样锚文本的部分的每个词也生成肯定训练示例。对于在由位置指针所识别的词的左侧且在采样锚文本之外的每个词生成否定训练示例。对于在由位置指针所识别的词的右侧且在采样锚文本之外的每个词也生成否定训练示例。通过从不是任何采样锚文本的部分的大的知识库采样随机词也生成额外的否定训练示例。在大的知识库是Wikipedia的该训练实施例的示例性实现方式中，规定数量是8192，并且最终训练数据的集合包括近似260万个数据点，肯定训练示例与否定训练示例之比是1：20。

如图5中所例示的，在本文所描述的智能选择技术的示例性实施例中，左向二元分类器使用逻辑回归和左向特征集合，该左向特征集合包括在当前候选文本跨度上计算的特征(500)(初始为由位置指针所识别的词)、在当前候选文本跨度左侧的一个词(502)上计算的特征以及在该一个词502紧邻左侧的另一词506上计算的特征。类似地，右向二元分类器使用逻辑回归和右向特征集合，该右向特征集合包括在当前候选文本跨度(500)上计算的特征，在当前候选文本跨度右侧的一个词(504)上计算的特征，以及在该一个词504紧邻右侧的另一词508上计算的特征。左向特征集合和右向特征集合中的特征能够组合成以下五个不同的特征类。

第一特征类包括字符级特征，诸如大写、全大写格式、字符长度、开放/封闭的圆括号的存在、数字与非字母字符的存在及位置、以及最小和平均字符一元语法/二元语法/三元语法频率。在智能选择技术的示例性实施例中，这些频率基于根据大的知识库中的信息内容离线计算出的频率表。第二特征类包括停止词(stop-word)特征，其指示在出现于停止词列表中的停止词的存在。第三特征类包括TF-IDF(术语频率-逆文档频率)得分，其根据用于大知识库的信息内容统计预先计算出。第四特征类包括知识库特征，其指示给定字符串是否匹配前述Web图形中的项或项的部分。第五特征类包括捕获当前候选文本跨度的全字符串以及当前候选文本跨度的左侧/右侧的候选扩展词的全字符串的词法特征。

2.3.2试探方法

除了命名实体辨识器、名词短语检测器、用于识别候选文本跨度的知识库查找与超链接意图模型方法之外，各种试探方法也能够用于识别候选文本跨度。这种试探方法的示例将在下文更进一步详述。

在本文所述的智能选择技术的一个实施例中，使用试探，其假设由位置指针所识别的词是用户想要选择的文本跨度。因此，该特定试探仅输出作为由位置指针识别的词的单个候选文本跨度。

在本文所描述的智能选择技术的另一实施例中，使用基于大写的试探，其基于英语语言正确名称是大写的事实。假设用户是正在阅读或著作包含文本跨度“BarackObama”的文档的用户。如果用户选择词“Barack”的任何部分或词“Obama”的任何部分，则很可能用户对多词文本跨度“BarackObama”感兴趣。因此，基于大写的试探的示例性的实现方式以如下方式操作。每当由位置指针识别的词是大写的时，基于大写的试探将评估文档中该大写词左侧的字符串以及文档中该大写词的右侧的字符串，并且将该大写词扩展到大写词的最长可能不中断序列。基于大写的试探随后将输出该大写词的该最长可能不中断序列。基于大写的试探还可以输出存在于该大写词的该最长可能不中断序列内且包括由位置指针识别的大写词的每个其它的大写词子序列。通过示例而不是限制的方式，在用户选择文本跨度“WilliamF.Buckley,Jr.”内的词“Buckley”的任何部分的情况下，基于大写的试探将输出候选文本跨度“WilliamF.Buckley,Jr.”，并且还可以输出候选文本跨度：“F.Buckley”、“WilliamF.Buckley”、“Buckley,Jr.”和“F.Buckley,Jr.”。

2.4机器学习总体模型

机器学习总体模型是使用总体学习方法来对从不同候选文本跨度生成方法中的每一个接收到的每个记分候选文本跨度重新记分的元模型。如上所述，机器学习总体模型是利用机器学习方法(例如，逻辑回归、或常规的梯度提升决策树方法、或常规的支持向量机方法以及其它)和来自真实意图用户文本跨度选择数据集的特征来训练的。机器学习总体模型包括22个不同的特征，其能够分组成以下三个不同的特征类。第一特征类包括与单个候选文本跨度生成方法有关的特征。第二特征类包括与位置指针所识别的词有关的特征。第三特征类包括与由不同候选文本跨度生成方法输出的每个记分候选文本跨度有关的特征。

给定由机器学习总体模型重新记分的特定记分候选文本跨度，第一特征类中的特征包括特定候选文本跨度生成方法是否生成特定记分候选文本跨度且对指派给它的该特定方法记分。在该特定记分候选文本跨度不在由给定候选文本跨度生成方法输出的排名列表中的情况下，机器学习总体模型将其得分设置为零。在第二特征类和第三特征类中的特征解释了由位置指针识别的词的以及特定记分候选文本跨度的长度和大写特性(例如，记号(token)长度、大写记号的比率、大写字符的比率、第一记号和最后一记号是否大写，等等)。

如上所述的，在本文所描述的智能选择技术的示例性实施例中，真实意图用户文本跨度选择数据集中的每个〈d，τ〉对偶被指派给五个随机选的合并(fold)中的一个。通过在这些合并上执行交叉验证来训练机器学习总体模型。换言之，对于真实意图用户文本跨度选择数据集中的每个合并，使用机器学习总体模型来对该合并中的每一个<d，τ>对偶进行记分，同时使用其他四个合并中的<d，τ>对偶作为该模型的训练数据。值得注意的是，用于给定的<d，s>对偶的全部的真实意图用户文本跨度选择被指派给单个合并，使得在机器学习总体模型训练期间不能看到来自模拟用户文本跨度选择的测试集合的任何模拟用户文本跨度选择。

3.0额外的实施例

虽然已经具体参考实施例描述了智能选择技术，但是应当理解，可以在不偏离智能选择技术的真正的精神和范围的情况下对其做出改变和修改。通过示例而非限制的方式，图6A和图6B示出了用于预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度的过程的简化形式的另一实施例。如图6A所例示的，该过程以接收包括字符串的文档而开始(动作600)。然后，接收指示文档中的特定位置的位置指针(动作602)。在该特定位置对应于文档中的具体字符的情况下，位置指针将是指示文档中用户选定的该特定字符的字符偏移量。然后将文档和位置指针输入到前述机器学习超链接意图模型中(动作604)。然后，从超链接意图模型接收记分候选文本跨度排名列表(动作606)。然后，以如下方式将用户想要选择的文本跨度的一个或多个预测提供给用户。在本文所述的智能选择技术的一个实施例中，记分候选文本跨度排名列表中的具有最高得分的候选文本跨度被识别(动作608)，并且该被识别的候选文本跨度作为对用户想要选择的文本跨度的预测显示给用户(动作610)。在智能选择技术的另一实施例中，记分候选文本跨度排名列表中的具有最高得分的两个或更多个的候选文本跨度被识别(动作612)，并且这些被识别的候选文本跨度作为他们想要选择的文本跨度的提议预测而显示给用户(动作614)。

如图6B所例示的，文本跨度预测处理的替选实施例也是可能的：其中前述的机器学习总体模型用来对从超链接意图模型接收到的记分候选文本跨度中的每个进行重新记分(动作616)。然后，从总体模型接收到重新记分候选文本跨度排名列表(动作618)。然后，以如下方式将用户想要选择的文本跨度的一个或多个预测提供给用户。在本文所描述的智能选择技术的一个实施例中，重新记分候选文本跨度排名列表中的具有最高得分的候选文本跨度被识别(动作620)，并且该被识别的候选文本跨度作为对用户想要选择的文本跨度的预测而显示给用户(动作622)。在智能选择技术的另一实施例中，重新记分候选文本跨度排名列表中具有最高得分的两个或更多个候选文本跨度被识别(动作624)，并且这些被识别的候选文本跨度作为对用户想要选择的文本跨度的提议预测而显示给用户(动作626)。

还值得注意的是，任意或全部的前述实施例能够以任何期望形成额外的混合实施例的组合使用。虽然以特定于结构特征和/或方法行为的语言描述了智能选择技术实施例，但是应当理解的是，在随附权利要求中限定的主题不必局限于上述的具体特征或行为。相反，上述的具体特征和行为被公开作为实现权利要求的示例形式。

4.0示例性的操作环境

本文送描述的智能选择技术实施例能够在若干类型的通用或专用计算系统环境或配置内运行。图7示出了可以实现如本文所述的智能选择技术的各实施例和要素的通用计算机系统的简化示例。值得注意的是，由图7所示的简化计算设备10中的虚线或点划线所表示的任何框代表了简化计算设备的替选实施例。如下文所描述的，任何或全部的这些替选实施例可以与在该文档中通篇描述的其他替选实施例相结合使用。简化的计算设备10典型地见于具有至少某最小计算能力的设备，诸如个人计算机(PC)、服务器计算机、手持式计算设备、膝上型或移动计算机、诸如蜂窝电话和个人数字助理(PDA)等通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子设备、网络PC、微型计算机、主机式计算机以及音频或视频媒体播放器。

为了允许设备实现本文所描述的智能选择技术实施例，设备应当具有使能进行基本计算操作的足够的计算能力和系统存储器。特别地，图7所示的简化的计算设备10的计算能力通常由一个或多个处理单元12来示出，并且还可以包括一个或多个的图形处理单元(GPU)14，任一或两个与系统存储器16通信。注意，简化的计算设备10的处理单元12可以是专用微处理器(诸如数字信号处理器(DSP)、极长指令字(VLIW)处理器、现场可编程门阵列(FGPA)、或其他微控制器)或者可以是具有一个或多个处理核的常规的中央处理单元(CPU)。

另外，图7所示的简化的计算设备10还可以包括诸如通信接口18等其他组件。简化的计算设备10还可以包括一个或多个的常规计算机输入设备20(例如，指针设备、键盘、音频(例如，语音)输入设备、视频输入设备、触觉输入设备、手势识别设备、用于接收有线或无线数据传输的设备，等等)。简化的计算设备10还可以包括其他任选的组件，诸如一个或多个的常规计算机输出设备22(例如，(一个或多个)显示设备24、音频输出设备、视频输出设备、用于发射无线或有线数据传输的设备，等等)。注意，用于通用计算机的典型的通信接口18、输入设备20、输出设备22和存储设备26是本领域技术人员公知的，将不在此详述。

图7所示的简化的计算设备10还可以包括各种计算机可读介质。计算机可读介质可以是能够由计算机10经由存储设备26访问的任何可用介质，并且可以包括易失性和非易失性的介质，其可以是可移除的28和/或非可移除的30，用于存储诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据的信息。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质是指有形的计算机可读或机器可读介质或者诸如数字多功能盘(DVD)、光盘(CD)、软盘、磁带驱动器、硬盘驱动器、光盘驱动器、固态存储器设备、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、磁盒、磁带、磁盘存储或其他磁存储设备的存储设备。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等信息的留存还能够通过使用各种前述通信介质(与计算机存储介质相对)中的任一个对一个或多个调制数据信号或载波或其他传输机制或通信协议进行编码来实现，并且可以包括任何有线或无线信息输送机制。注意，术语“调制数据信号”或“载波”一般是指以对该信号中的信息进行编码的方式进行设定或改变其一个或多个特性的信号。例如，通信介质可以包括诸如载有一个或多个调制数据信号的有线网络或直接接线连接的有线介质以及诸如声波、射频(RF)、红外、激光以及用于发射和/或接收一个或多个调制数据信号或载波的其它无线介质等无线介质。

此外，具体实施本文所描述的一些或全部的各种智能选择技术实施例或其部分的软件、程序和/或计算机程序产品可以从计算机可读或机器可读介质或存储设备以及呈计算机可执行指令或其他数据结构形式的通信介质的任意期望组合来存储、接收、发送或读取。

最后，本文所描述的智能选择技术实施例可进一步用计算设备执行的诸如程序模块的计算机可执行指令的一般背景来描述。一般地，程序模块包括执行特定任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等。智能选择技术实施例还可以实现于分布式计算环境中，其中任务由通过一个或多个通信网络链接的一个或多个远程处理设备来执行，或者在通过一个或多个通信网络链接的一个或多个设备云内执行。在分布式计算环境中，程序模块可位于包括媒体存储设备的本地计算机存储介质和远程计算机存储介质两者中。另外，前述指令可以部分地或者完全地实现为硬件逻辑电路，其可以包括或者可以不包括处理器。

Claims

1.一种用于预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度的计算机实现方法，包括：

使用计算机来执行以下处理动作：

接收包含字符串的文档；

接收指示所述文档中的特定位置的位置指针；

将所述文档和所述位置指针输入到多个不同的候选文本跨度生成方法；

从所述不同的候选文本跨度生成方法中的每一个接收关于一个或多个记分候选文本跨度的排名列表；

使用机器学习总体模型来对从所述不同的候选文本跨度生成方法中的每一个接收到的每个所述记分候选文本跨度进行重新记分，所述总体模型是利用机器学习方法和来自真实意图用户文本跨度选择的数据集的特征来训练的；以及

从所述总体模型接收重新记分候选文本跨度排名列表。

2.如权利要求1所述的方法，进一步包括以下动作：

识别所述重新记分候选文本跨度排名列表中的具有最高得分的候选文本跨度；以及

向所述用户显示所述识别的候选文本跨度，以作为对用户想要选择的文本跨度的预测。

3.如权利要求1所述的方法，其中所述不同的候选文本跨度生成方法包括以下任一：

多个不同的语言单元检测器方法；或者

多个不同的试探方法；或者

一个或多个不同的语言单元检测器方法和一个或多个不同的试探方法的组合。

4.如权利要求3所述的方法，其中所述位置指针识别用户在所述文档中选定的词，并且所述不同的语言单元检测器方法包括超链接意图模型方法，所述超链接意图模型方法使用机器学习超链接意图模型来识别纳入了所述识别的词的候选文本跨度。

5.如权利要求3所述的方法，其中所述位置指针识别用户在所述文档中选定的词，并且所述不同的语言单元检测器方法包括一个或多个不同命名的实体辨识器方法，其中每个所述实体辨识器方法识别包含纳入了所述识别的词的命名实体的候选文本跨度。

6.如权利要求3所述的方法，其中所述位置指针识别用户在所述文档中选定的词，并且所述不同的语言单元检测器方法包括一个或多个不同名词短语检测器方法，其中每个所述名词短语检测器方法识别包含纳入了所述识别的词的名词短语的候选文本跨度。

7.如权利要求3所述的方法，其中所述位置指针识别用户在所述文档中选定的词，并且所述不同的语言单元检测器方法包括知识库查找方法，所述知识库查找方法使用Web图形来识别将纳入了所述识别的词的命名实体、或纳入了所述识别的词的名词短语、或纳入了所述识别的词的概念包括在内的候选文本跨度，所述Web图形包括来自一个或多个不同的知识库的信息。

8.如权利要求3所述的方法，其中所述位置指针识别用户在所述文档中选定的词，并且所述不同的试探方法包括以下中的一个或多个：

假设所述识别的词为用户想要选择的文本跨度的试探；或者

基于大写的试探，每当所述识别的词是大写的时，所述基于大写的试探评估所述识别的词的左侧的字符串和所述识别的词的右侧的字符串，并且将所述识别的词扩展到大写词的最长可能不中断序列。

9.一种用于预测形成用户想要选择的单个词或一系列两个或更多个词的文本跨度的计算机实现方法，包括：

使用计算机来执行以下处理动作：

接收包含字符串的文档；

接收指示所述文档中的特定位置的位置指针；

将所述文档和所述位置指针输入到机器学习超链接意图模型；以及

从所述超链接意图模型接收记分候选文本跨度排名列表。

10.如权利要求9所述的方法，其中所述位置指针识别用户在所述文档中选定的词，并且从所述超链接意图模型接收记分候选文本跨度排名列表的动作包括以下动作：

(a)将所述识别的词指派为当前候选文本跨度；

(b)评估所述当前候选文本跨度的向其左侧一个词的扩展，所述评估包括使用所述超链接意图模型和左向二元分类器来对所述左向扩展记分以及将所述左向扩展及其得分存储在所述记分候选文本跨度排名列表中的动作；

(c)评估所述当前候选文本跨度的向其右侧一个词的扩展，所述评估包括使用所述超链接意图模型和右向二元分类器来对所述右向扩展记分以及将所述右向扩展及其得分存储在所述记分候选文本跨度排名列表中的动作；

(d)选择对于将所述当前候选文本跨度向其左侧扩展一个词的得分和对于将所述当前候选文本跨度向其右侧扩展一个词的得分中的较大者；

(e)每当所述选定得分大于规定阈值时，将对应于所述选定得分的扩展指派为所述当前候选文本跨度，以及重复动作(b)-(e)。