CN109800386A

CN109800386A - 突出显示文档内文本的关键部分

Info

Publication number: CN109800386A
Application number: CN201811019802.1A
Authority: CN
Inventors: C·I·多克霍恩; S·M·菲茨杰拉德; R·R·马兰居利; L·M·拜卢姆; J·G·沃特斯; F·C·泰夫奈特; W·W-T·常
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2017-11-17
Filing date: 2018-09-03
Publication date: 2019-05-24
Anticipated expiration: 2038-09-03
Also published as: US20190155910A1; DE102018007060A8; US10198436B1; GB201814949D0; US10606959B2; DE102018007060A1; AU2018226398A1; CN109800386B; GB2568574A; AU2018226398B2

Abstract

描述了突出显示文档中文本的关键部分。获得具有文本的文档，并且使用概要技术来确定文档的关键部分。指示关键部分的关键部分数据被生成并被保持用于输出以生成突出显示的文档，其中突出显示覆盖被显示在文档内文本的所确定的关键部分上或附近。在一个或多个实现中，与突出显示的文档的读者交互被监视以生成读者反馈数据。然后可以将读者反馈数据与概要技术的输出进行组合，以便调整所确定的关键部分。在某些情况下，读者反馈数据也可用于改进概要技术。

Description

突出显示文档内文本的关键部分

背景技术

一些传统的自动概要技术可以自动创建包括来自文档的重要句子和短语的文档的概要。然后，用户可以查看概要，以便在不阅读整个文档的情况下快速了解文档的内容。但是，创建与文档本身分离的概要会带来高风险，如果该概要是错误的。例如，未在概要中包括重要句子可能完全改变用户对文档的理解，因为用户没有被呈现所有重要信息。因此，未包括甚至一个重要句子，也可能会大大降低概要的准确性。此外，由于通常会读此类概要而不是文档本身，因此概要中的错误可能无法被检测到。

发明内容

为了克服文档概要中的这些和其他问题，文档内的文本的关键部分在数字媒体环境中在文档内被突出显示。最初，获得与具有文本的文档相对应的数字内容，并且使用概要技术来确定文档的关键部分。通常，关键部分对应于文档的句子或短语，其具有对文档的高相对重要性。不是使用所确定的关键部分来生成与文档本身分离的概要或摘要，而是生成并维护指示关键部分的关键部分数据用于输出以生成突出显示的文档，其中突出显示覆盖被显示在所确定的文档内的文本的关键部分上或附近。

在一个或多个实现中，与突出显示的文档的读者交互被监视以生成读者反馈数据。例如，读者反馈数据可以包括关于文档中突出显示的关键部分的积极读者反馈或消极读者反馈、用于突出显示文档的、当前未被突出显示的其他部分的读者建议、或者与阅读文档的某些区域所花费的时间相对应的读者行为。然后可以将读者反馈数据与概要技术的输出组合，以便调整所确定的关键部分。这样做会使得文档中突出显示的关键部分在读者与突出显示的文档交互时动态地改变。例如，可以基于关于关键部分的消极读者反馈数据来移除文档的关键部分，或者可以基于用于将文档的未突出显示的部分进行突出显示的读者建议来将文档的当前未突出显示的部分突出显示为关键部分。

本发明内容以简化的形式介绍了概念的选择，这些概念将在下面的具体实施方式中被进一步描述。因此，本发明内容不旨在标识所要求保护的主题的必要特征，也不旨在用作辅助确定所要求保护的主题的范围。

附图说明

参考附图描述具体实施方式。

图1是可操作用于采用本文描述的技术的示例实现中的环境的图示。

图2描绘了其中关键部分识别器使用概要技术来确定文档内的文本的关键部分的示例实现中的系统。

图3描绘了其中阅读器应用显示指示文档内文本的关键部分的突出显示覆盖的示例实现中的系统。

图4图示了显示突出显示的文档的阅读器应用的示例，其中突出显示覆盖图指示文档内的文本的关键部分。

图5描绘了文档内的文本的关键部分被确定的示例过程。

图6描绘了其中文本的关键部分在文档内被突出显示的示例过程。

图7描绘了其中指示文档内文本的关键部分的关键部分数据基于读者反馈数据被修改的示例过程。

图8图示了包括表示可以实现本文描述的各种技术的一个或多个计算系统和/或设备的示例计算设备的示例系统。

具体实施方式

概述

读者越来越依赖于文档的概要，以便快速了解文档的内容或标识文档内的重要信息。概要技术可以被配置为通过从文档中标识和提取重要句子，然后将提取的句子与文档的文本分离地呈现来自动创建这样的概要。然而，传统的概要技术在他们是错误时具有高成本。例如，如果自动生成的概要未能包括来自文档的至关重要的句子，则除非用户完整地阅读原始文档，否则读者将无法确定该文档包括该句子。因此，不能包括甚至一个重要句子，也可能会大大降低概要的准确性。此外，现有技术创建静态概要，因此不能提供用于修改概要以包括在概要中最初未被标识并且被包括的重要信息的机制。

为了克服这些问题，概要模型将概要技术应用于具有文本的文档，以识别文档的关键部分，注入关键句子、关键短语或关键词语。概要技术可以对应于机器学习概要技术、基于规则的概要技术或其组合。关键部分对应于文档的句子或短语，其对文档具有高度相对重要性。指示关键部分的关键部分数据被生成并与文档相关联。不是使用所确定的关键部分来生成与文档分离的概要或摘要，而是维护关键部分数据以用于输出以形成突出显示的文档，其中关键部分通过在每个关键部分上或接近每个关键部分显示突出显示覆盖来在文档内被突出显示或以其他方式被标识。这样做使读者能够通过在突出显示的关键部分之间滚动来查看文档本身内文档的关键部分，这降低了关键部分将被显示在上下文之外或者未由概要技术标识的重要信息将被读者遗漏的风险。标识文档中的关键部分还通过提供文档内关键部分的轮廓来提高读者的阅读理解和效率。

在一个或一个以上实现中，通过用所捕获的读者反馈数据偏置概要技术的输出来进一步改进所确定的关键部分的准确度和相关性。所描述的技术为读者用于提供关于突出显示的文档内标识的关键部分的反馈或建议的平台。如果概要技术错误地突出显示关键部分，则该平台使得读者能够简单单击来移除突出显示。类似地，读者可以提供关于所选突出显示的正反馈，以便加强突出显示的关键部分，并且如果概要技术省略了关键部分，则读者可以突出显示该部分是重要的。基于读者交互生成读者反馈数据，并且将读者反馈数据传送回概要模型，概要模型使用读者反馈数据来调整所标识的关键部分，诸如添加或移除突出显示的文档内标识的关键部分。以这种方式，当读者与突出显示的文档交互时，突出显示的关键部分动态地改变和改进。另外，读取反馈数据使得概要模型能够利用人类反馈从每个文档中学习和改进，这是传统概要模型所缺少的。

在以下讨论中，首先描述可以采用本文描述的技术的示例环境。然后描述示例实现细节和过程，其可以在示例环境以及其他环境中执行。因此，示例过程的执行不限于示例环境，并且示例环境不限于示例过程的执行。

示例环境

图1是可操作用于采用本文描述的技术的示例实现中的数字媒体环境100的图示。图示的环境100包括具有关键部分识别器104的文档突出显示系统102和具有阅读器应用108的多个客户端设备106。文档突出显示系统102和多个客户端设备106经由网络110彼此通信地耦合。

可用于实现文档突出显示系统102和客户端设备106的计算设备可以以各种方式配置。例如，计算设备可以被配置为台式计算机、膝上型计算机、移动设备(例如，假设诸如平板计算机或移动电话的手持配置)等。因此，计算设备的可以在从具有大量存储器和处理器资源的完整资源设备(例如，个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如，移动设备)的范围内变化。另外，计算设备可以代表多个不同的设备，诸如由企业利用的用于“通过云”执行操作的多个服务器，如关于图8进一步描述的。

如上所述，文档突出显示系统102被示为包括关键部分识别器104，其至少部分地以文档突出显示系统102的一个或多个计算设备的硬件来实现。关键部分识别器104代表用于识别文档112内的文本的关键部分，以及用于生成代表所确定的关键部分的关键部分数据114的功能。在一些情况下，关键部分识别器104被配置为为多个文档生成关键部分数据114。例如，关键部分识别器104可以为一系列时间顺序文档112生成关键部分数据。关键部分数据114与相应的文档112相关联，并且包括文档内所确定的文本的关键部分的标识符或标签。如本文所述，所确定的关键部分可包括文档112的文本内的关键词、关键句和/或关键短语。

关键部分识别器104包括概要模型116，概要模型116表示用于使用机器学习和/或基于规则的概要技术来自动确定文档112中包含文档中最重要信息的文本的关键部分的功能。例如，概要模型116可以被实现为机器学习提取概要算法，其标识和选择文档的原始文本中的现有词语、短语或句子的子集以形成文档的概要。替代的，概要模型116可以被实现为抽象概要算法，其构建文档112的内部语义表示，并且然后使用自然语言生成技术来创建更接近人类可能表达的内容的概要。

与生成与文档本身分离的概要的现有概要技术不同，关键部分识别器104采用概要模型116以便于识别关键部分，然后生成包括相应文档中的关键部分的标识符的关键部分数据114。关键部分数据114可以被保持在文档突出显示系统102的存储装置118中，并且被配置用于输出以生成突出显示的文档，其中突出显示覆盖被显示在原始文档的文本的确定的关键部分上或附近。因此，突出显示覆盖图不是生成分离的概要，而是标识文档的原始文本中的已识别的关键部分。

阅读器应用108表示用于在客户端设备106处显示与突出显示的文档120相对应的数字内容的功能。“数字内容”可以指各种不同类型的数字内容，诸如文档和文档内的文本或图像、图像、视频、声音等。因此，可以创建数字内容以描述各种视觉、音频和/或触觉特征，诸如文档中的文本、突出显示覆盖或要包括在数字文档中的对象、文档的一般外观和感觉、等等。

阅读器应用108可以以各种不同方式实现，包括作为独立应用(例如，PDF阅读器)、在web浏览器中运行的web应用、或者扩展或插件(例如，web浏览器的插件)，仅举几例。突出显示的文档120包括与原始文档112的文本相对应的数字内容以及与指示由关键部分识别器104识别的文档的关键部分的突出显示覆盖相对应的附加数字内容。为了形成突出显示的文档120，阅读器应用108从文档突出显示系统102获得与相应文档112相关联的关键部分数据114。在一些情况下，诸如通过打开存储在客户端设备106上的文档或浏览到包含网页或文章的远程网站，文档112在客户端设备106处本地被打开。在这些场景中，文档112的标识符被传送到文档突出显示系统102。文档突出显示系统102然后经由网络110将对应于文档的标识符的关键部分数据114传送到客户端设备106。替代的，在在一些情况下，关键部分数据114可以与文档112本身一起被存储。阅读器应用108可使用关键部分数据114来标识文档112内对应于关键部分的文本的部分。然后，阅读器应用108显示与文档112的文本相对应的数字内容以及与标识文档内的关键部分的突出显示覆盖相对应的附加数字内容。

关键部分识别器104还被图示为包括调整模块122，调整模块122表示用于基于从客户端设备106获得的读者反馈数据124来调整或修改概要模块116的输出的功能。例如，除了显示突出显示的文档120，阅读器应用108可以包括用于监视与突出显示的文档120的读者交互并且基于读者交互来生成读者反馈数据122的功能。例如，读者反馈数据124可以包括读者阅读突出显示的文档的特定部分花费的时间量的指示、关于文档内突出显示的关键部分的积极或消极反馈、或者将文档的目前没有被突出显示的特定部分标识为关键部分的建议，仅举几例。调整模块122通过利用捕获的读者反馈数据124调整概要模型116的输出来使用读者反馈数据124来改善所确定的关键部分的准确度和相关性，诸如通过添加或移除突出显示文档120中标识的关键部分。

尽管被图示为远离客户端设备106被实现，但是所图示文档突出显示系统102的功能也可以全部或部分地在客户端设备106处被实现。例如，可以实现关键部分识别器104以标识文档中的关键部分并在客户端设备106处本地生成突出显示的文档。在一些情况下，对于隐私配置，还可以控制关键部分识别器104以禁用读者反馈数据124通过网络110的通信。对于高度安全的环境中的读者来说可能是重要的，以便于生成突出显示的文档而不通过网络110传送或接收数据。

关键部分识别器104和阅读器应用108的操作在以下描述中关于图2和3被更详细地描述，并且如在图4的示例突出显示的文档中所示。

确定文档中文本的关键部分

图2描绘了其中关键部分识别器使用概要技术来确定文档内的文本的关键部分的示例实现中的系统200。

在系统200中，关键部分识别器104获得文档112的文本202。文档112可以包括任意类型的文档或具有文本的内容，诸如网页、PDF或文字处理文档，仅举几个示例。在一些情况下，关键部分识别器104的文本转换模块(未图示)用于诸如通过将网页或PDF转换成可读文本来将文档112的文本202转换为概要模型116可读的格式。

接下来，关键部分识别器104将文本202提供给概要模型116。概要模型116将机器学习和/或基于规则的概要技术应用于文本202，以确定文档112的文本202的关键部分204。关键部分识别器104可以利用各种不同的机器学习或基于规则的概要技术来确定关键部分204，包括提取或抽象概要技术。在一些情况下，关键部分识别器104可以利用依赖于域的概要器，该概要器被专门配置为对特定类型的文档进行概要。例如，关键部分识别器104可以利用用于文章的第一概要器、用于法律文档的第二概要器等。在一些情况下，关键部分识别器104可以使用集合技术以便于聚合来自多个不同概要器的突出显示。

在一个或多个实现中，概要模型116使用提取概要技术来确定关键部分204。概要模型116可被利用以用于使用任意类型的提取概要技术来确定关键部分204。然而，在一些情况下，提取概要技术基于指示关键部分对文档的相对重要性的重要性分数来确定关键部分204。为了使用确定重要性分数的提取概要技术确定关键部分，概要模型116首先使用自然语言处理技术来标识文档的文本202的候选部分206。每个候选部分206可以对应于文档112的文本202内的句子，或者在一些情况下仅对应于文本202内的句子的一部分。例如，自然语言处理技术可以将文档112分割成候选部分206，并且标记每个候选部分。

接下来，针对于每个候选部分206，概要模型116生成指示相应候选部分206对文档112的相对重要性的重要性分数208。作为示例，重要性分数可以提供分数，该分数指示候选部分206对文档112在0到1的等级上的相对重要性，其中分数为1指示候选部分206对于文档112非常重要，而分数为0指示候选部分206对文档并不重要。然而，在不脱离所描述的技术的精神或范围的情况下，可以为候选部分生成各种不同类型的重要性分数或权重。

重要性分数208可以基于每个相应候选部分206内的关键词的频率来生成。例如，概要模型116可以使用术语频率-逆文档频率(TF-IDF)来确定重要性分数208。TF-IDF是数值统计量，该数值统计量反映了术语对整个文档的相对重要性。TF-IDF值与术语在文档中出现的次数成比例地增加，但是经常由术语在语料库中的频率偏移，这有助于调整一些术语在一般情况下更频繁出现的事实。

概要模型116可以使用TF-IDF来确定关键词的排序列表，并然后基于候选部分中高排名术语的频率来确定重要性分数208。例如，摘要模型116将确定候选部分206的高重要性分数208，候选部分206包括多个高排名的关键词。在一些情况下，候选部分206然后可以在列表中被排序或优先化，使得具有最高重要性分数的候选部分被列在列表的顶部。

概要模型116通过选择候选部分206的子集来确定关键部分204.为此，概要模型116利用概要滤波器210以基于每个相应候选部分的重要性分数来来选择候选部分的子集作为确定的关键部分。在一些情况下，可以使用除了重要性分数之外的准则来选择候选部分，诸如候选部分的主题。概要滤波器210选择具有最高重要性分数的一定百分比的候选部分作为关键部分。概要过滤器210可以被配置为选择小的总体百分比的候选部分作为关键部分(例如，小于10％)，使得所确定的关键部分204包括相对于文档112中的总文本量的少量文本。在一些情况下，可以基于其他因素来增加或减少百分比，诸如文档112的类型、文档112的大小、或用于指定要突出显示的文档的百分比的用户输入。

指示所确定的关键部分204的关键部分数据114被保持用于输出以生成突出显示的文档120，其中突出显示覆盖被显示在文本202的所确定的关键部分204上。例如，关键部分数据114可以包括用于文档112内的、被概要模型116确定为关键部分204的各种句子、短语或词语的标识符或指针。在一些情况下，关键部分数据114可包括可用于形成突出显示的文档的附加数据。例如，关键部分数据可以包括与每个关键部分相关联的重要性分数的指示，其可以被用于在对文档具有最高重要性的关键部分上显示突出显示覆盖连同附加的强调。在一些情况下，概要模型116还被配置为确定文档112的主题212并且利用关键部分数据114中的关键部分204来维护主题112。阅读器应用程序108可以利用主题212来过滤显示给读者的高亮显示，这将在下面关于图3和4更详细地讨论。

显示突出显示覆盖图以标识文本的关键部分

图3描绘了其中阅读器应用显示指示文档内文本的关键部分的突出显示覆盖的示例实现中的系统300。

在系统300中，阅读器应用108获得文档112连同关键部分数据114。在一些情况下，诸如通过打开存储在客户端设备106上的文档或浏览到包含网页或文章的远程网站，文档112在客户端设备106处被本地打开。在这些场景中，文档112的标识符被传送到文档突出显示系统102。文档突出显示系统102然后经由网络110将对应于文档的标识符的关键部分数据114传送到客户端设备106。替代的，在一些情况下，关键部分数据114可以与文档112本身一起被存储。然后，阅读器应用108通过在客户端设备106的显示设备上显示与文档112的文本202相对应的数字内容和与突出显示覆盖302相对应的附加数字内容来形成突出显示的文档120。突出显示覆盖302标识文档112内由关键部分数据126指示的关键部分。突出显示覆盖图302可以以各种不同的方式来标识文档内的关键部分，诸如通过突出显示、加下划线、粗体化或斜体化与关键部分相对应的文档的文本来。

作为示例，考虑图4，图4图示了显示突出显示的文档的阅读器应用的示例400，其中突出显示覆盖指示文档内的文本的关键部分。在示例400中，被图示为平板计算设备的客户端设备402执行阅读器应用108，该阅读器应用108在客户端设备的显示器406上显示与突出显示的文档404的页面相对应的数字内容。突出显示的文档404包括文本以及在文本的各个关键部分上的突出显示覆盖408。在该示例中，突出显示覆盖408以诸如灰色或黄色的特定颜色突出显示文本，并且还使得关键部分的文本被加粗。然而，如全文所述，阅读器应用108可以以各种不同方式显示突出显示覆盖408。

值得注意的是，突出显示文档112本身内的文本的关键部分使得读者能够在阅读关键部分时查看文档本身的文本的上下文，而不是阅读其中文档的上下文丢失的分离的概要或摘要。例如，读者可以阅读关键部分“Lorem ipsum dolor sit amet,eu vel laudemdenique evertitur,fuisset verterem inciderint eam id”，其在此示例中表示文本的关键部分，同时还能够阅读紧跟在该关键部分之前或之后的句子，以获得突出显示的关键部分的上下文。

阅读器应用108可以被实现为针对不同类型的关键部分显示不同类型的突出显示覆盖302(例如，不同的颜色)。例如，阅读器应用108可以使用第一颜色(例如，黄色)的突出显示覆盖图来识别文档112内的文本的关键部分，并且使用第二颜色(例如，红色)标识文档的最重要部分。替代地或另外地，阅读器应用108可以显示不同类型的突出显示覆盖以基于其他准则来区分关键部分，诸如将由概要模型116确定的关键部分与从读者反馈确定的关键部分区分开，或者基于主题来区分关键部分。值得注意的是，在不脱离所描述技术的精神或范围的情况下，可以使用各种不同类型的突出显示覆盖来指示各种不同类型的关键部分。

在许多情况下，阅读器应用108突出显示与文档内的完整句子相对应的关键部分。然而，阅读器应用108也可以被实现为识别句子的部分，诸如句子的词语或短语。例如，阅读器应用108可以仅突出显示关键句子内的名词或动词，以在关键部分的重要词语或短语上提供强调。这减少了文档中突出显示的总量，同时使读者专注于重要句子中的特定词语或短语。

在一个或多个实现中，阅读器应用108可基于读者输入来过滤所显示的突出显示覆盖302以查看与一个或一个以上选定主题或关键词相对应的关键突出显示覆盖。为此，阅读器应用108可以基于在关键部分数据114中标识的所确定的主题212来显示列出与文档112相关联的一个或多个主题或关键词的主题控件(未图示)。然后，读者可以从主题控件中选择一个或多个主题或关键词，以便基于所选主题或关键词来过滤突出显示的关键部分。例如，响应于接收用于从主题控件中选择主题的读者输入，通过移除与未被选择的主题相关联的突出显示覆盖的显示来过滤所显示的突出显示。以这种方式，阅读器应用108使读者能够打开或关闭文档112中标识的各种主题的突出显示。

替代地或另外地，阅读器应用108可以采用自然语言处理技术来基于读者查询来确定读者感兴趣的一个或多个主题。然后，阅读器应用可以基于所确定的一个或多个感兴趣的主题来过滤所显示的突出显示覆盖302。例如，考虑关于奥运会的文章。在这个示例中，读者可以输入“我有兴趣了解奥运会中的游泳”。然后，阅读器应用可以使用自然语言处理来确定读者感兴趣的主题，在该示例中该主题为游泳。然后过滤突出显示覆盖302以仅显示与主题“游泳”相关联的关键部分。

读者反馈数据

在一个或一个以上实现中，阅读器应用108被配置为监视与突出显示的文档120的读者交互，且基于读者交互来生成读者反馈数据124。阅读器应用108为读者提供平台，以通过显示与具有突出显示的文档的显示的各种反馈控件304相对应的数字内容，来容易地提供关于文档中突出显示的关键部分的反馈。通常，反馈控件304使得读者能够提供关于由文档内的突出显示覆盖302标识的文本的关键部分的积极反馈或消极反馈。然后可以基于用于反馈控制304的读者输入来生成读者反馈数据124。

在示例400中，阅读器应用108使得对应于反馈控件410的数字内容的显示接近突出显示覆盖408，其指示文本的关键部分“Lorem ipsum dolor sit amet,eu vel laudemdenique evertitur,fuisset verterem inciderint eam id”。在这种情况下，可以响应于对突出显示覆盖410的触摸输入或者在突出显示覆盖408的附近移动光标来显示反馈控件410。反馈控件410包括可选择的向上投票和向下投票控制，该可选择的向上投票和向下投票控制使得读者能够分别提供关于由突出显示覆盖408标识的文本的关键部分的积极反馈或消极反馈。

另外，阅读器应用108可以使得读者能够将文档112的、尚未被突出显示的文本的部分建议为文档中的关键部分。例如，阅读器应用108可以使读者能够选择或突出显示文本的当前未突出显示的部分，以便建议将所选择的部分标识为关键部分。例如，在图4中，读者手动突出显示文本“Quod blandit sed an,eum utinam possim deseruisse et”。响应于突出显示，阅读器应用108使得对应于接近所选文本的反馈控件412的附加数字内容的显示。反馈控件412包括可选择的向上投票控件、混淆控件和评论控件。向上投票控件使读者能够提供指示所选文本应被标识为关键部分的反馈，混淆控件使得读者能够指示所选文本是混淆的，并且评论控件使用户能够提供关于所选文本的评论。在示例400中，各种反馈控件被图示为在文档内显示在文本附近，但是在其他情况下，这样的反馈控件可以显示在阅读器应用界面的其他区域，诸如在阅读器应用界面的固定菜单栏位置处。在不脱离所描述技术的精神和范围的情况下，阅读器应用108可以向读者提供各种不同类型的反馈控制。

阅读器应用可基于读者输入和各种反馈控件304的选择来生成读者反馈数据124。例如，用于向上投票或向下投票突出显示的部分的读者输入使得阅读器应用108分别生成积极或者消极的读者反馈数据124。阅读器应用108还可以基于与突出显示的文档的读者交互而不是对反馈控件的输入来生成读者反馈数据124。例如，这种读者交互可以包括监视读者花在关注文档的特定部分上的时间量。这可以以各种不同的方式确定，诸如通过在读者阅读文档时跟踪光标或滚动移动、跟踪复制或选择的文本、跟踪读者的注视等等。

然后，读者反馈数据124在各种客户端设备处从阅读器应用108的实例被传送到关键部分识别器104。读者反馈数据124包括相关联的文档的标识符，其使关键部分识别器104能够将读者反馈数据124与对应文档相关联，并将读者反馈数据124与其他读者反馈数据124进行聚合，其他读者反馈数据124与从在各种客户端设备106处实现的阅读器应用108的多个实例接收的文档相关联。

文档突出显示系统102被配置为基于读者反馈数据124调整所确定的文本的关键部分。返回到图2，调整模块122可以基于与相应文档112相关联的读者反馈数据124来调整所确定的关键部分。调整模块122通过用读者反馈数据124偏置概要模型116的输出来调整所确定的键部分204，以便使概要模型116添加或移除所确定的键部分204。

在一个或多个实现中，调整模块122修改候选部分206的重要性分数208，其进而影响由概要过滤器210选择的关键部分204。例如，如果读者反馈数据124指示多个读者发现候选部分206是重要的，然后候选部分的重要性分数208增加，这可能使得候选部分被概要过滤器210选择为关键部分204。在图4中，例如，如果读者向上投票文本“Quod blandit sedan，eum utinam possim deseruisse et”，则这可能导致调整模块122使该文本的部分被标识为关键部分204。当然，调整模块122是否调整所标识的关键部分是基于提供相同或类似反馈的读者的数目。换句话说，来自单个读者的反馈可能不会引起调整，而来自100个读者的相同或类似反馈可能导致调整。

类似地，如果读者反馈数据124指示多个读者发现关键部分204不重要，则候选部分的重要性分数208减小，这可能使得概要过滤器210取消选择该部分作为关键部分。例如，在图4中，如果读者向下投票文本的突出显示的关键部分“Lorem ipsum dolor sit amet，eu vel laudem denique evertitur，fuisset verterem inciderint eam id”，这可能使得调整模块122导致该文本的关键部分被移除。因此，与静态的传统文档概要不同，所描述的技术动态地调整所确定的关键部分，以便基于读者反馈来提高所确定的关键部分204的准确性和相关性。

在一个或多个实现中，阅读器应用108可被进一步实现以显示用于指示读者阅读文档的各个区域花费的相对时间量的用户界面元素。这可以基于读者反馈数据124来确定。例如，在图4中，阅读器应用108呈现热图414作为滚动条的一部分。热图使用颜色编码来基于与文档的读者交互来指示文档的哪些部分是最重要的。在该示例中，较暗的颜色(例如，黑色)用于指示读者花费最多时间阅读的文档的大部分区域，而较浅的颜色(例如，灰色)用于指示读者花费较少时间阅读的文档区域。热图414可以与文档112的所有读者共享，以使得读者能够快速滚动到其他读者认为有用或有趣的文档区域。

调整模块122可以使用除读者反馈数据124之外的数据来调整概要模型116的输出。在一个或多个实现中，调整模块122基于候选部分是否包括一个或多个触发词214来调整所确定的关键部分。如本文所述，触发词214包括通常包括在文档内的重要或感兴趣的句子中的各种词语，从而提供句子是重要的语言提示。例如，这样的触发词214可以包括连词，其包括词语“但是”、“也”、“然而”、和“虽然”，仅举几个示例。触发词214还可以包括介词，其包括词语“在…上”、“在…之上”和“从…”，仅举几个示例。因此，如果候选部分包括触发词214，则调整模块122可以使候选部分206的重要性分数208增加，从而使得概要过滤器210选择候选部分作为关键部分204。

在一个或多个实现中，文档突出显示系统102使用读者反馈数据124来改进和改善概要模型116。文档突出显示系统102从在各种客户端设备106处实现的阅读器应用108的多个实例中接收与多个不同文档112相关联的读者反馈数据124。然后，文档突出显示系统102可以使用为系统中的针对所有文档接收的读者反馈数据124作为训练数据，以便改进概要模型116。例如，关于由概要模型116确定的关键部分的积极读者反馈指示概要模型116正确地确定了关键部分，而否定读者反馈可以指示概要模型116错误地确定了关键部分。因此，机器学习和/或深度学习技术可以应用于读者反馈数据124，以改进和改善概要模型116的各种规则。值得注意的是，本文描述的反馈平台使得很容易为读者提供反馈，这确保大量反馈数据将被接收。例如，正如在整个过程中所讨论的那样，该平台使很容易为读者强化突出显示，建议突出显示的移除或建议添加新突出显示。这意味着文档突出显示系统将接收大量的阅读反馈数据，这些阅读反馈数据可被用于创建大型训练数据集合。

如上所述，在一些情况下，关键部分识别器可以使用集合技术来聚合从多个不同类型的概要器接收的读者反馈。调整模块122可以被配置为：通过给予易于更频繁地同意用户的概要更多的权重，来基于读者反馈训练这些集合技术。

已经讨论了用于突出显示文档内的文本的关键部分的技术的示例细节，现在考虑一些示例过程来说明该技术的其他方面。

示例程序

本部分描述了在一个或多个实现中突出显示文档内文本的关键部分的示例过程。过程的各方面可以用硬件、固件或软件或其组合来实现。这些过程被示出为指定由一个或多个设备执行的操作的框的集合，并且不一定限于所示的用于执行各个框的操作的命令。

图5描绘了其中文档内的文本的关键部分被确定的示例过程500。最初，由计算设备获得包括具有文本的文档的数字内容(框502)。作为示例，关键部分识别器104获得具有文本202的文档112。

使用概要技术确定文档的文本的至少一个关键部分(框504)。如上所述，关键部分识别器104将概要模型116应用于文档的文本202。概要模型116确定文档112内的候选部分206(例如，句子或短语)。接下来，概要模型116基于每个候选部分206内的关键词的频率来确定重要性分数208。概要模型116的概要过滤器210选择候选部分206的子集作为确定的关键部分204。例如，概要过滤器210可以选择具有最高重要性分数208的候选部分。概要过滤器210被设计为选择小百分比的文档总文本作为关键部分204(例如，小于10％)。然而，在某些情况下，可以根据文档类型或文档大小或其他因素来增加或减少此百分比。

生成指示所确定的至少一个关键部分的关键部分数据(框506)，并且使用关键部分数据和文档的文本生成突出显示的文档。突出显示的文档包括附加数字内容，其包括在所确定的文本的至少一个关键部分上或附近显示的突出显示覆盖(框508)。作为示例，关键部分识别器104生成指示所确定的关键部分204的关键部分数据114，并保持用于输出的关键部分数据以生成突出显示的文档120，其中在所确定的文本的关键部分上显示对应于突出显示覆盖302的附加数字内容。

图6描绘了其中文本的关键部分在文档内被突出显示的示例过程600。最初，获得具有文本和标识文档内的文本的至少一个关键部分的关键部分数据的文档(框602)。关键部分是使用概要技术来自动确定的。作为示例，阅读器应用108从关键部分识别器104获得具有文本202和关键部分数据114的文档112，关键部分数据114标识文档112内的文本的一个或多个关键部分204。通过关键部分识别器104将概要模型116应用于文档112来自动确定关键部分。

显示包括文档文本的数字内容(框604)，并且在文档内的文本的所标识的至少一个关键部分上或附近显示包括突出显示覆盖的附加数字内容(框606)。作为示例，阅读器应用108显示突出显示的文档120，突出显示的文档120包括包含原始文档112的文本202的数字内容以及在所标识的关键部分204上方或附近的突出显示覆盖302。

可选地，在框608和610，监视与文档的读者交互(框608)，并且基于与文档的读者交互来生成读者反馈数据(框610)。然后，可以将读者反馈数据传送到关键部分识别器，以基于读者反馈数据来调整所标识的关键部分数据的至少一个关键部分(框612)。作为示例，阅读器应用108监视与突出显示的文档120的读者交互，并且基于读者交互来生成读者反馈数据124。然后可以将读者反馈数据提供给关键部分识别器104，以使关键部分识别器104能够调整关键部分数据114的经识别的关键部分204。

在一些情况下，阅读器应用108为读者提供平台以通过显示各种反馈控件304来提供关于在文档112中突出显示的关键部分204的反馈。通常，反馈控件304使用户能够提供关于由突出显示覆盖图302标识的文本的关键部分的积极或消极反馈。此外，阅读器应用108可以使读者能够建议在文档内尚未突出显示的关键部分。例如，阅读器应用108可以使阅读器能够选择文本的当前未突出显示的部分，并且作为响应提供反馈控件，该反馈控件使得用户能够提供关于所选部分的反馈。在这种场景中，基于对反馈控件304的用户输入来生成读者反馈数据。

图7描绘了其中基于读者反馈数据来修改指示文档内的文本的关键部分的关键部分数据的示例过程700。

接收指示文档的关键部分的关键部分数据。关键部分数据可用于生成突出显示的文档，其中关键部分在文档内被突出显示(框702)。作为示例，从文档突出显示系统102的存储装置118接收指示文档112的关键部分204的关键部分数据114。关键部分数据114可包括用于文档112内的、由概要模型116确定为关键部分204各种句子、短语或词语的标识符或指针。在一些情况下，关键部分数据114可包括可用于形成突出显示的文档的附加数据。例如，关键部分数据可以包括与每个关键部分相关联的重要性分数的指示，其可以被用于显示具有在具有对文档的最高重要性的关键部分上的附加的重点的突出显示覆盖。

从至少一个客户端设备获得基于与突出显示的文档的多个实例的用户交互的读者反馈数据(框704)。例如，关键部分识别器104从在各种客户端设备106处实现的阅读器应用108的多个实例获得读者反馈数据124。读者反馈数据124描述与突出显示的文档的读者交互，诸如读者花费在阅读突出显示的文档的特定部分上的时间量、关于文档中突出显示的关键部分的积极或消极反馈、或者将文档的特定部分标识为关键部分的请求，仅举几个示例。

基于读者反馈数据，通过从关键部分数据添加或移除至少一个关键部分，来调整所确定的文档的关键部分(框706)。作为示例，调整模块122通过用读者反馈数据124偏置概要模型116的输出来调整所确定的键部分204，以便使概要模型116添加或移除所确定的键部分204。在一个或者多个实现中，调整模块122修改候选部分206的重要性分数208，其进而影响由概要过滤器210选择的关键部分204。例如，如果读者反馈数据124指示多个读者发现候选部分206是重要的，然后候选部分的重要性分数208增加，这可能使得候选部分被概要过滤器210选为关键部分204。类似地，如果读者反馈数据124指示多个读者发现关键部分204不重要，则候选部分的重要性分数208减少，这可能使得概要过滤器210将该部分取消选择作为关键部分。因此，与静态的传统文档概要不同，所描述的技术动态地修改所确定的关键部分，以便提高所确定的关键部分204的准确性和相关性。

已经根据一个或多个实现描述了示例过程，现在考虑可以用于实现本文描述的各种技术的示例系统和设备。

示例系统和设备

图8在800处总体上图示了示例系统，该示例系统包括示例计算设备802，该示例计算设备表示可以实现本文描述的各种技术的一个或多个计算系统和/或设备。这通过包括关键部分识别器104来说明。计算设备802可以是，例如，服务提供商的服务器、与客户端(例如，客户端设备)相关联的设备、片上系统、以及/或任意其他合适的计算设备或计算系统。

如图所图示的示例计算设备802包括处理系统804、一个或多个计算机可读介质806、以及彼此通信地耦合的一个或多个I/O接口808。虽然未示出，但是计算设备802还可以包括系统总线或其将各种组件彼此耦合的其他数据和命令传输系统。系统总线可以包括不同总线结构的任意一个或组合，诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任意总线架构的处理器或本地总线。还构想了各种其他示例，诸如控制和数据线。

处理系统804表示使用硬件执行一个或多个操作的功能。因此，处理系统804被图示为包括可被配置为处理器、功能块等的硬件元件810。这可以包括在硬件中作为专用集成电路或使用一个或多个半导体形成的其他逻辑器件的实现。硬件元件810不受形成它们的材料或其中采用的处理机制的限制。例如，处理器可以包括半导体和/或晶体管(例如，电子集成电路(IC))。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读存储介质806被图示为包括存储器/存储组件812。存储器/存储组件812表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储组件812可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储组件812可以包括固定介质(例如，RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如，闪存、可移动硬盘驱动器、光盘等)。计算机可读介质806可以以各种其他方式配置，如下面进一步描述的。

输入/输出接口808表示用于使用设备/输出设备以允许用户向计算设备802输入命令和信息的功能，并且还允许将信息呈现给用户和/或其他组件或设备。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容或其他传感器)、相机(例如，可以是采用可见或不可见的波长，诸如红外频率，将运动识别为不涉及触摸的手势)、等等。输出设备的示例包括显示设备(例如，监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备802可以以下面进一步描述的各种方式配置以支持阅读器交互。

本文在软件、硬件元件或程序模块的一般上下文中描述了各种技术。通常，这样的模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文使用的术语“模块”、“功能”和“组件”通常表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着可以在具有各种处理器的各种商业计算平台上实现这些技术。

所描述的模块和技术的实现可以被存储在某种形式的计算机可读介质上或通过某种形式的计算机可读介质传输。计算机可读介质可以包括可以由计算设备802访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”可以指代与仅仅信号传输、载波或信号本身相比能够实现信息的持久和/或非暂态存储的媒体和/或设备。因此，计算机可读存储介质指的是非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质的硬件和/或以适于存储诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据的信息的方法或技术实现的存储设备。计算机可读存储介质的示例可包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储器、硬盘、磁带盒、磁带、磁盘存储器或其他磁存储设备、或适于存储所需信息并且可由计算机访问的其他存储设备、有形介质或制品。

“计算机可读信号介质”可以指信号承载介质，其被配置为诸如经由网络将指令发送到计算设备802的硬件。信号介质通常可以实施计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据，例如载波、数据信号或其他传输机制。信号介质还包括任意信息传递介质。术语“已调制数据信号”表示以对信号中的信息进行编码的方式设置或改变其特征中的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、RF、红外和其他无线介质的无线介质。

如前所述，硬件元件810和计算机可读介质806表示以硬件形式实现的模块、可编程设备逻辑和/或固定设备逻辑，其可以在一些实施例中被采用以用于实现本文描述的技术的至少一些方面，诸如执行一个或多个指令。硬件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅或其他硬件的其他实现的组件。在此上下文中，硬件可以作为处理设备操作，该处理设备执行由硬件以及用于存储用于执行的指令的硬件(例如，先前描述的计算机可读存储介质)实施的指令和/或逻辑定义的程序任务。

也可以采用前述的组合来实现本文描述的各种技术。因此，软件、硬件或可执行模块可以实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件810实现的一个或多个指令和/或逻辑。计算设备802可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，可以由计算设备802执行的作为软件模块的实现可以至少部分地以硬件实现，例如，通过计算机可读存储介质和/或处理系统804的硬件元件810的使用。指令/或功能可以由一个或多个制品(例如，一个或多个计算设备802和/或处理系统804)执行/操作，以实现本文描述的技术、模块和示例。

本文描述的技术可以由计算设备802的各种配置支持，并且不限于本文描述的技术的特定示例。该功能还可以全部或部分地通过使用分布式系统来实现，诸如经由如下所述的平台816在“云”814上实现。

云814包括和/或代表用于资源818的平台816。平台816抽象出云814的硬件(例如，服务器)和软件资源的底层功能。资源818可以包括在远离计算设备802的服务器上执行计算机处理时可以利用的应用和/或数据。资源818还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台816可以抽象资源和功能以将计算设备802与其他计算设备连接。平台816还可以用于抽象资源的缩放以提供对应的缩放级别以满足对经由平台816实现的资源818的需求。因此，在互连的设备实施例中，本文描述的功能的实现可以分布在整个系统800中。例如，功能可以部分地在计算设备802上以及经由抽象云814的功能的平台816来实现。

结论

尽管已经用结构特征和/或方法动作专用的语言描述了本发明，但是应该理解，所附权利要求中限定的本发明不一定限于所描述的具体特征或动作。相反，公开了具体特征和动作作为实现所要求保护的发明的示例形式。

Claims

1.一种在数字媒体环境中由计算设备实现的方法，所述数字媒体环境用于确定文档内文本的关键部分，所述方法包括：

由所述计算设备获得包括具有文本的文档的数字内容；

使用概要技术来确定所述文档的所述文本的至少一个关键部分；

生成指示所确定的所述至少一个关键部分的关键部分数据；以及

使用所述关键部分数据和具有文本的所述文档来生成突出显示的文档，所述突出显示的文档包括所述文档的文本和附加数字内容，所述附加数字内容包括在所确定的所述文本的所述至少一个关键部分上或附近显示的突出显示覆盖。

2.根据权利要求1所述的方法，还包括：

获取读者反馈数据，所述读者反馈数据基于与所述突出显示的文档的读者交互，在一个或多个客户端设备处被生成；以及

基于所述读者反馈数据，调整指示所确定的所述关键部分的所述关键部分数据。

3.根据权利要求2所述的方法，其中调整所述关键部分数据包括：基于所述读者反馈数据，从所述关键部分数据添加或移除所述文本的至少一个关键部分。

4.根据权利要求2所述的方法，其中所述读者反馈数据包括积极读者反馈或消极读者反馈，所述积极读者反馈或消极读者反馈是关于与所述突出显示的文档内的文本的相应关键部分相关联的至少一个突出显示覆盖。

5.根据权利要求2所述的方法，其中所述读者反馈数据包括用于突出显示所述文本的当前未突出显示的部分的读者建议。

6.根据权利要求1所述的方法，其中所述概要技术通过以下项来确定文本的所述至少一个关键部分：

标识所述文档的所述文本的候选部分；

生成针对文本的所述候选部分中的每个述候选部分的重要性分数，所述重要性分数指示每个相应候选部分对所述文档的相对重要性；以及

基于每个相应候选部分的所述重要性分数，过滤所述候选部分以选择所述候选部分的子集作为所确定的所述关键部分。

7.根据权利要求5所述的方法，其中所述过滤包括：选择具有最高重要性分数的预定百分比的所述候选部分。

8.根据权利要求1所述的方法，其中所述键部分包括所述文档内的句子或短语，所述句子或短语基于每个相应关键部分内的关键词的频率而对所述文档具有高相对重要性。

9.根据权利要求1所述的方法，其中所述文本概要技术包括机器学习提取概要技术。

10.一种在数字媒体环境中由客户端设备实现的方法，所述数字媒体环境用于突出显示文档内文本的关键部分，所述方法包括：

获得具有文本和关键部分数据的文档，所述关键部分数据标识所述文档内的文本的至少一个关键部分；

显示包括所述文档的所述文本的数字内容；

显示附加的数字内容，所述附加的数字内容包括在所标识的所述文档内的文本的所述至少一个关键部分上或附近的突出显示覆盖；

监视与所述文档的读者交互；

基于与所述文档的所述读者交互来生成读者反馈数据；以及

将所述读者反馈数据传送到关键部分识别器，以基于所述读者反馈数据来调整所标识的所述关键部分数据的至少一个关键部分。

11.根据权利要求10所述的方法，其中所述文本的所述关键部分使用机器学习或基于规则的概要技术而被确定，并且包括所述文档的概要。

12.根据权利要求10所述的方法，还包括：

在所述突出显示覆盖中的至少一个突出显示覆盖附近显示可选择的反馈控制；

接收对所述可选择的反馈控件的读者输入，所述读者输入提供关于由所述突出显示覆盖标识的对应关键部分的积极反馈或消极反馈；以及

基于对所述可选择的反馈控件的所述读者输入来生成读者反馈数据。

13.根据权利要求10所述的方法，还包括：

接收读者建议，以突出显示所述文档的当前未突出显示的部分；以及

基于所述读者建议来生成读者反馈数据。

14.根据权利要求1所述的方法，其中所标识的所述关键部分包括所述文档内的词语、短语或句子。

15.根据权利要求1所述的方法，其中显示所述突出显示覆盖还包括：基于每个相应关键部分对所述文档的相对重要性，为至少两个相应关键部分显示至少两种不同类型的突出显示覆盖。

16.根据权利要求10所述的方法，还包括：

接收读者输入，以基于所述文档的至少一个主题来过滤所述突出显示覆盖；以及

通过移除与所述至少一个主题不对应的突出显示覆盖的所述显示，来过滤所显示的所述突出显示覆盖。

17.根据权利要求10所述的方法，还包括：

接收读者查询；

使用自然语言处理技术来处理所述读者查询，以确定所述读者查询的至少一个主题；以及

过滤所显示的所述突出显示覆盖，以仅显示与所述读者查询的所述至少一个主题相对应的突出显示覆盖。

18.根据权利要求10所述的方法，还包括：显示用于指示读者花费在阅读所述文档的各个区域上的时间的相对量的至少一个用户界面元素。

19.一种在数字媒体环境中实现的用于基于读者反馈数据来调整文档的关键部分的系统，所述系统包括：

至少一个处理器；

存储器，具有存储在其上的计算机可读指令，所述计算机可读指令由所述处理器可执行以实现关键部分识别器以执行操作，所述操作包括：

接收指示文档的关键部分的关键部分数据，所述关键部分数据可用于生成突出显示的文档，在所述突出显示的文档中，所述关键部分在所述文档中被突出显示，所述关键部分使用概要技术而被确定；

从至少一个客户端设备获得读者反馈数据，所述读者反馈数据基于与所述突出显示的文档的读者交互而被生成；以及

基于所述读者反馈数据，通过从所述关键部分数据添加或移除至少一个所识别的所述关键部分，来调整由所述概要技术确定的所述文档的所述关键部分。

20.根据权利要求18所述的系统，其中所述操作还包括：应用一种或多种机器学习技术，以基于所述读者反馈数据来改进所述概要技术。