CN110390009A

CN110390009A - 生成文本内容的基于主题的概要

Info

Publication number: CN110390009A
Application number: CN201910045134.8A
Authority: CN
Inventors: K·克里什那; B·V·西里尼瓦桑
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2018-04-23
Filing date: 2019-01-17
Publication date: 2019-10-29
Also published as: US20190325066A1; AU2019200746A1; GB201901522D0; US10685050B2; DE102019000433A1; GB2573189A; AU2019200746B2

Abstract

词语生成模型获得文本内容和所请求的感兴趣主题，并生成被调整到感兴趣主题的文本内容的目标概要。为此，主题感知编码模型使用与感兴趣主题相对应的主题标签对文本内容进行编码，以生成主题感知编码文本。词语生成模型从主题感知编码文本中为基于主题的概要选择下一个词语。使用对训练数据的机器学习来训练词语生成模型以生成基于主题的概要，该训练数据包括多个文档、每个文档的相应概要、以及每个概要的相应主题。将所选择的下一个词语的反馈提供给词语生成模型。反馈使得词语生成模型基于下一个所选择的词语的反馈来为基于主题的概要选择后续词语。

Description

生成文本内容的基于主题的概要

背景技术

通过提供可由用户快速阅读的文本内容(例如文档或文章)的概述，可以使用文本内容的自动概要来为最终用户节省时间。常规的提取概要技术从输入文本内容中提取关键短语，并且然后选择这些短语的子集以放置在概要中。然而，由这些传统的概要技术生成的概要通常不像人类那样。此外，当期望概要的长度很小时，这种提取方法不变得不足，因为这要求用于简洁地“改写”输入内容以最大化在概要中传达的信息而不是选择最“信息性”的句子的方式。

神经网络的最新进展已经导致递归神经网络的使用以通过改写文档来生成概要。然而，这些算法仅允许单个概要的生成。虽然概要应当包含文档中信息的必要部分，但被特征化为“必要”的内容因人而异。此外，许多文档包括与多于一个感兴趣主题有关的主题，诸如政治和商业。对于一些读者来说，商业可能是主要的兴趣领域，而另一些人可能对政治更感兴趣。在这种场景中，单个概要可能不适合所有读者的主题偏好。

发明内容

为了克服这些问题，在数字媒体环境中生成被调整到感兴趣主题的文本内容的基于主题的概要。词语生成模型获得文本内容和所请求的感兴趣主题，并生成被调整到感兴趣主题的文本内容的目标概要。为此，主题感知编码模型使用与感兴趣主题相对应的主题标签对文本内容进行编码，以生成主题感知编码文本。词语生成模型从主题感知编码文本中为基于主题的概要选择下一个词语。使用对训练数据的机器学习来训练词语生成模型以生成基于主题的概要，所述训练数据包括多个文档、每个文档的相应概要、以及每个概要的相应主题。将所选择的下一个词语的反馈提供给词语生成模型。反馈使得词语生成模型基于下一个选择的词语的反馈来为基于主题的概要选择后续词语。

本发明内容以简化的形式介绍了一些概念，这些概念将在下面的具体实施方式中进一步描述。因此，本发明内容不旨在标识所要求保护的主题的必要特征，也不旨在用于辅助确定所要求保护的主题的范围。

附图说明

参考附图描述了具体实施方式。

图1是示例实现中的数字媒体环境的图示，其可操作用于采用生成本文描述的文本内容的基于主题的概要的技术。

图2描绘了示例实现中的系统，其中主题向量是从文本内容的语料库中学习的。

图3示出了一种系统，其中通过将主题向量应用于包括具有对应概要的文档的文本内容的语料库来生成中间数据集合。

图4示出了人工生成训练数据的系统。

图5描绘了示例实现中的系统，其中图1的词语生成模型和主题感知编码模型生成调整到感兴趣主题的文本内容的基于主题的概要。

图6示出了根据一个或多个实现的被配置为神经编码器时的词语生成模型的示例。

图7描绘了人工生成训练数据以使用机器学习来训练主题感知编码模型和词语生成模型的示例过程。

图8描绘了使用主题感知编码模型和词语生成模型来生成文本内容的基于主题的概要的示例过程。

图9示出了包括示例计算设备的示例系统，该示例计算设备代表可以实现本文描述的各种技术的一个或多个计算系统和/或设备。

具体实施方式

概述

本文描述了用于在数字媒体环境中生成文本内容的基于主题的概要的技术。基于主题的概要模块利用具有主题感知编码模型的词语生成模型来生成文本内容的概要，其被调整到所请求的感兴趣主题。词语生成模型可以对应于机器学习或基于规则的概要模型(例如神经网络)，其利用提取和/或抽象概要技术来生成文本内容的基于主题的概要。使用关于人工生成的训练数据的机器学习技术来训练词语生成模型和主题感知编码模型，以生成基于主题的概要。值得注意的是，词语生成模型和主题感知编码模型可用于生成针对单个文档的调整到感兴趣的不同请求主题的不同概要。因此，所描述的技术可以将概要生成调整到不同的兴趣主题以适应不同读者的主题偏好。

使用对训练数据的机器学习来训练主题感知编码模型和词语生成模型以生成调整到感兴趣主题的基于主题的概要，该训练数据包括多个数据集合，每个数据集合包括文档、文档的相应概要(例如人工生成的概要)、以及概要的相应主题。然而，概要模型需要大量的文本内容训练语料库来训练模型，并且难以找到包括标记有主题的文档和概要的大型文本内容数据集合。因此，在一个或多个实现中，所描述的技术人工地生成可用于训练主题感知编码模型和词语生成模型的训练数据。

为了人工生成训练数据，使用监督词语频率方案来从文档语料库中学习主题的特征(例如主题向量)，其中每个文档用主题标记。然后应用所学习的主题特征来修改大的未标记的文档语料库和人类生成的概要。为此，将学习的特征应用于每个概要以确定每个概要的感兴趣主题。然后将所有所选择的文档及其相应的概要和确定的主题聚合到中间数据集合中。

最后，通过从中间数据集合随机选择具有相应的第一概要和第一主题的第一文档以及具有相应的第二概要和第二主题的第二文档来人工生成训练数据。然后将第一文档与第二文档合并以生成第一新文档，然后将其与训练数据中的第一概要和第一主题相关联。类似地，第二文档与第一文档合并以生成第二新文档，然后该第二新文档与训练数据中的第二概要和第二主题相关联。然后丢弃第一文档和第二文档，并重复这些步骤，直到中间数据集合中的所有文档都耗尽为止。然后，人工生成的训练数据用于训练词语生成模型和主题感知编码模型，以使用机器学习来生成基于主题的概要。

基于主题的概要模块使用经训练的主题感知编码模型和词语生成模型来生成基于主题的概要。为此，基于主题的概要模块接收用于生成调整到感兴趣主题的文本内容的基于主题的概要的请求。输入的文本内容的文本被提供给主题感知编码模型，主题感知编码模型基于所请求的请求的感兴趣主题，逐词语地将文本内容编码成主题感知的编码文本。因此，基于所请求的针对概要的感兴趣主题，文本内容的输入文本被不同地编码。为了基于感兴趣主题对文本内容进行编码，主题感知编码模型基于所请求的感兴趣主题来选择主题标签或主题向量(例如单热向量)，并且然后将文本内容的每个词语映射到嵌入，并且将表示请求的感兴趣主题的所选择的主题向量附加到每个词语。然后将该整体级联向量传递通过主题感知编码模型的神经网络，该主题感知编码模型在每一步输出编码，从而导致一系列主题感知编码。

然后将文本内容的完全编码的文本提供给词语生成模型。词语生成模型的解码器通过处理基于主题的文本内容的编码来生成基于主题的概要。由于词语生成模型的解码器使用这些编码来生成概要，因此生成的概要进而依赖于所请求的感兴趣主题。为了生成基于主题的概要，词语生成模型生成文本内容中词语的关注分布。对于每个词语，关注分布指示选择概率值，该选择概率值指示对应词语被选择作为基于主题的概要的下一个生成词语的概率。用感兴趣主题编码文本内容鼓励通过训练来学习的感兴趣主题的最优选词语的选择。

词语生成模型基于输入的文本内容中的词语以及已经由词语生成模型生成的基于主题的概要的词语来确定选择概率值。所描述的技术在基于主题的概要的生成期间使用主题感知编码模型将由词语生成模型生成的词语调整为感兴趣主题。在使用词语生成模型和主题感知编码模型来生成每个词语之后，将关于所生成的词语的反馈提供回词语生成模型。词语生成模型可以使用反馈来调整概要的后续词语生成。值得注意的是，由于在生成概要期间利用感兴趣主题对输入的文本内容进行编码，因此基于利用感兴趣主题编码的输入文本和已生成的概要的词语两者来生成概要。这样，使用所描述的技术生成的概要生成被调整到所请求的感兴趣主题的文本内容的概要。

因此，所描述的技术利用概要算法来增强读者的阅读体验和文档消费。有鉴于此，这种主题调整的概要算法可以辅助提供更长文档的读者特定概要。由于遇到的文档的大小通常很大，因此文档中可能存在多个主题，并且这种方案可以帮助基于读者的主题兴趣来生成具有特定信息的概要。

在以下讨论中，首先描述可以采用本文描述的技术的示例环境。然后描述示例实现细节和过程，其可以在示例环境以及其他环境中执行。因此，示例过程的执行不限于示例环境，并且示例环境不限于示例过程的执行。

示例环境

图1是示例实现中的数字媒体环境100的图示，该数字媒体环境100可操作用于采用生成本文描述的文本内容的基于主题的概要的技术。所示环境100包括经由网络106通信地耦合的服务提供商系统102和客户端设备104。实现服务提供商系统102和客户端设备104的计算设备可以以各种方式配置。

例如计算设备可以被配置为台式计算机、膝上型计算机、移动设备(例如假设诸如平板计算机或移动电话的手持配置)等。因此，计算设备可以从具有大量存储器和处理器资源的全资源设备(例如个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如移动设备)的范围变化。另外，计算设备可以代表多个不同的设备，诸如企业用于“在云上”执行操作的多个服务器，如图9中所描述的。

客户端设备104被示为包括通信模块108，通信模块108代表经由网络106例如使用浏览器、支持网络的应用、操作系统等与服务提供商系统102进行通信的功能。例如通信模块108可以形成用于调整到感兴趣主题114的文本内容112的概要的请求110。如本文所述，文本内容112可以包括任意类型的文本内容，诸如文章、文字处理文档、网页上的文本、PDF等。如本文所述，感兴趣主题114可以包括任意类型的主题或类别，诸如商业、政治、体育、社交、军事、技术、教育、健康等。

可以经由网络106将请求110传送到服务提供商系统102。响应于请求110，服务提供商系统102生成并返回被调整到感兴趣主题114的输入文本内容112的基于主题的概要116。如本文所述，基于主题的概要116对应于输入文本内容112的简短简洁版本，其被调整到所请求的感兴趣主题114。尽管被示为远离客户端设备104实现，但是图示的服务提供商系统102的功能也可以全部或部分本地地在客户端设备104处实现。例如基于主题的概要模块118可以被实现为在从其接收到请求110的客户端设备104处本地地生成基于主题的概要116。

为了生成基于主题的概要116，服务提供者系统102采用基于主题的概要模块118，基于主题的概要模块118被配置为生成基于主题的概要116，基于主题的概要116被调整到所请求的感兴趣主题114。基于主题的概要模块118利用被配置为生成文本内容的概要的词语生成模型120，以及被训练为用所请求的感兴趣主题114对输入的文本内容112进行编码的主题感知编码模型122。词语生成模型120可以对应于可以生成文本内容概要的任意类型的词语生成模型或算法。在一些情况下，使用机器学习(例如神经网络)来训练词语生成模型120以生成文本内容的概要。例如词语生成模型120可以被实现为提取概要算法、抽象概要算法、序列到神经编码器的序列等。

服务提供商系统进一步示出为包括训练模块124，训练模块124生成包含形式(d，t，s)的多个实例的人工生成的训练数据126(“训练数据126”)，其中d是输入的文档或文章，t是概要的期望主题，并且s是要生成的理想概要。然后，训练模块124使用人工生成的训练数据126来使用机器学习技术来训练主题感知编码模型122和词语生成模型120。

在一个或多个实现中，词语生成模型120使用“逐词语”概要过程来生成基于主题的概要116的词语。为了生成基于主题的概要116的每个“下一个词语”，词语生成模型120基于文本内容112的输入文本和已经生成的目标概要的文本的组合来计算概率分布。在生成基于主题的概要116的每个词语之后，词语生成模型120接收关于所生成的词语的反馈。该反馈由词语生成模型用于生成基于主题的概要116的后续词语。与现有词语生成技术不同，词语生成模型120基于输入文本内容112的上下文以及到目前为止已经生成的概要的词语两者来生成用于目标概要的词语。为了使基于主题的概要116被调整到感兴趣主题114，由词语生成模型120采用的逐词语生成过程由主题感知编码模型122约束，主题感知编码模型122用主题向量对输入的文本内容112进行编码。

可以实现基于主题的概要模块118以针对各种不同的用例提供基于主题的概要116。在一些实例中，基于主题的概要模块118可以由文本内容112的内容作者(例如文章、论文或书籍的内容作者)使用，以快速且自动地生成其文本内容112的概要。基于主题的概要模块118使内容作者能够将概要调整到不同的主题，这可以使作者能够将概要调整到多个不同的目标受众。例如内容作者可能希望基于频繁使用这些平台的不同受众在不同平台处提供不同的概要。在其他示例中，基于主题的概要模块118可以由文本内容的客户或最终消费者使用。在此上下文中，基于主题的概要模块118可以辅助提供较长文章或论文的、可以通过移动通知或在可穿戴设备上容易地消费的消费者特定概要。在这种情况下，可以实现基于主题的概要模块118以将概要调整到所请求的消费者感兴趣主题。

通常，可以在本节中描述的示例过程的上下文中采用关于以上和以下示例描述的功能、特征和概念。此外，关于本文档中的不同附图和示例描述的功能、特征和概念可以彼此互换，并且不限于在特定附图或过程的上下文中的实现。此外，与本文中的不同代表性过程和对应附图相关联的框可以一起应用和/或以不同方式组合。因此，关于本文中的不同示例环境、设备、组件、附图和过程描述的单独功能、特征和概念可以以任意合适的组合使用，并且不限于由本说明书中列举的示例所表示的特定组合。

图2描绘了示例实现中的系统200，其中从文本内容的语料库中学习主题向量。

训练模块124首先使用基于监督的基于词语频率的方案来学习主题的特征。在系统200中，训练模块124包括分组模块202，分组模块202接收文本内容204的语料库，其包括用主题标签208标记的文档206，主题标签208标识每个相应文档206的主题。例如主题标签208可以标识每个文档的主题，诸如“政治”、“体育”、“教育”等。

分组模块202基于主题标签208将文本内容204的语料库的每个文档206分组为基于主题的组210，使得具有主题“t”的每个文档206被包括在由集合S_t代表的基于主题的组210中。

频率模块212确定每个基于主题的组210中的词语的词语频率214(“n”)。词语频率214对应于基于主题的组210的文档206中的给定词语的出现次数。向量生成模块216获得主题组210和词语频率214，并为每个主题t生成主题向量218(e_t＝(n₁，n₂...,n_v))，其中v＝\V\是在给定主题组210中的词语{w₁,w₂,...,w_v}的词汇表V的大小，并且n_t是在主题组S_t中出现词语w_t的频率(例如次数)。在某些情况下，向量e_t被标准化。

图3示出了系统300，其中通过将主题向量应用于包括具有对应概要的文档的文本内容的语料库来生成中间数据集合。在系统300中，训练模块124被示为包括主题识别器302，主题识别器302被配置为生成中间数据集合304。为此，主题识别器302接收文本内容306的语料库，其包括具有对应的人类生成的概要310的文档308作为(文档，概要)对的集合。主题识别器302通过确定每个概要310的主题312来修改文本内容306的语料库以生成中间数据集合304。

为了确定概要310的主题312，主题识别器302将主题向量218应用于每个相应的概要310。例如主题识别器302计算摘要310(在其词袋表示中)与先前提取的主题向量218之间的点积。在这种情况下，<v_s,e_tl>指示概要310和主题1的主题向量218之间的点积。主题识别器302然后选择具有最高计算点积的主题作为针对相应概要310的确定主题312。

可以基于最高计算点积与第二高点积的比较来确定所选择的主题312的置信度。例如如果<v_s,e_ti>具有最高的点积值，并且<v_s,e_tj>在点积的集合中具有第二高的点积值，然后将概要310分配给主题312(t_i)，具有由<v_s,e_ti>/<v_s,e_tj>给出的置信度。在一些情况下，如果置信度低于阈值，则从中间数据集合304中丢弃文档和相应概要。例如如果置信度小于给定置信度阈值(例如1.2)，则这指示概要不具有兴趣的主导主题，并且因此从中间数据集合304中丢弃文档。这样做使得训练模块124能够生成中间数据集合304以仅包括在文本中具有确定主题312主导的那些概要用于训练。然后，训练模块124将所有所选择的文档及其相应概要310和确定的主题312聚合成用于中间数据集合304的三元组<文档,主题,概要>。

图4示出了其中训练数据是人为地生成的系统400。在系统400中，训练模块124获得中间数据集合304，并生成人工生成的训练数据126。为此，训练模块124的合并模块402从中间数据集304中随机选择具有第一主题408的第一文档404和对应的第一概要406，以及具有第二主题414的第二摘要412的第二文档410，其中第一主题408和第二主题414是不同的。

接下来，合并模块402通过合并来自第一文档404和第二文档410两者的文本来生成第一新文档416。在一个或多个实现中，合并模块402通过从第一文档404和第二文档410顺序地拾取文本行来生成第一新文档416。在一些情况下，通过随机选择第一文档404或第二文档410中的一个来提取新行来完成每个新行的添加。这样做确保来自第一文档404或第二文档410的文本行在第一新文档416中以与它们在每个相应原始文档中相同的顺序发生。在生成第一新文档416之后，将其与第一概要406和第一主题408分组，然后添加到人工生成的训练数据126。

接下来，合并模块402重复这些步骤以生成要与第二概要412和第二主题414一起被分组的第二新文档418。例如合并模块402通过合并来自第二文档410和第一文档404的文本来生成第二新文档418。在一个或多个实现中，合并模块402通过从第二文档410和第一文档404顺序地拾取文本行来生成第二新文档418。在一些情况下，通过随机选择第二文档410或第一文档404中的一个来提取新行来完成每个新行的添加。这样做确保来自第二文档410和第一文档404的文本行在第二新文档418中以与它们在每个相应原始文档中相同的顺序发生。在生成第二新文档418之后，其与第二概要412和第二主题414一起被分组，然后被添加到人工生成的训练数据126。

在一些情况下，训练模块124然后从中间数据集合304丢弃第一文档404、第一概要406、和第一主题408以及第二文档410、第二概要412、和第二主题414。这些步骤然后重复，直到中间数据集合304耗尽为止。然后，人工生成的训练数据126用于训练词语生成模型120和主题感知编码模型122，以使用机器学习来生成基于主题的概要116。

图5描绘了示例实现中的系统500，其中图1的词语生成模型120和主题感知编码模型122生成被调整到感兴趣主题114的文本内容112的基于主题的概要116。

在系统500中，基于主题的概要模块118接收用于生成被调整到感兴趣主题114的文本内容112的基于主题的概要116的请求110。在一些情况下，该请求可以从文本内容112的内容作者接收，诸如文章、书籍的作者等。替代地，可以从文本内容112的消费者接收请求，以便生成文本内容的概要。如全文所述，请求110可以包括文本内容112以及感兴趣主题114的指示。

基于主题的概要模块118将输入的文本内容112的文本提供给主题感知编码模型122。主题感知编码模型122通过基于请求110的感兴趣主题114将文本内容112逐词语编码成主题感知编码的序列来生成主题感知编码的文本502。换句话说，文本内容112的输入文本基于针对概要的期望的感兴趣主题114被不同地编码。为了基于感兴趣主题114来对文本内容112进行编码，主题感知编码模型基于所请求的感兴趣主题114来选择主题向量218(例如单热向量)，然后将文本内容112的每个词语映射到嵌入，并且表示请求的感兴趣主题114的所选择的主题向量218被附加到每个词语。然后将该整体级联向量传递通过主题感知编码模型122的神经网络，其在每个步骤输出编码，导致一系列基于主题的编码。如上所述，主题向量218指示从基于监督词语频率的方案所学习的感兴趣主题的词语偏好。

然后，将文本内容112的主题感知编码文本502提供给词语生成模型120。词语生成模型120的关注解码器504接收文本内容112的主题感知编码文本502作为输入，并且生成在文本内容112中的词语508的关注分布506。关注分布506对于每个词语508指示选择概率值510。选择概率值510指示对应词语508被选择为用于基于主题的概要116的下一个生成词语的概率。关注解码器504基于输入的文本内容112中的词语以及已经由词语生成模型120生成的基于主题的概要116的词语来确定选择概率值510。

词语生成模型120进一步示出为包括选择模块512，选择模块512被配置为基于关注分布506为基于主题的概要116选择下一个生成的词语514，其由词语生成模型120的关注解码器504生成。如上所述，对文本内容进行编码以生成主题感知编码文本增加了通过机器学习训练所学习的感兴趣主题114的优选词语的选择概率值。因此，对输入文本进行编码鼓励针对概要的感兴趣主题114的最优选词语的选择。

在选择模块512选择下一个生成的词语514之后，将生成的词语添加到基于主题的概要116。此外，反馈模块516将所生成的词语反馈518提供给关注解码器504，关注解码器504可以使用所生成的词语反馈518以选择基于主题的概要116的后续词语，从而保持基于主题的概要116的词语生成的一致性。

图6示出了根据一个或多个实现的当被配置为神经编码器时的词语生成模型120的示例600。

在示例600中，词语生成模型120被实现为神经编码器，神经编码器可以被实现为将词语序列映射到另一个词语序列。例如通过对英语句子及其法语翻译的大语料库进行训练，词语生成模型120可以学习输出输入句子的法语翻译。该概念可以应用于配置词语生成模型120以生成文本内容的概要。为了确保概要的下一个生成的词语不仅仅依赖于先前生成的词语，词语生成模型120可以使用长短期存储器(LSTM)架构。LSTM架构使用门控机制，该门控机制将信息保留在存储器中，或丢弃先前的信息。

在示例600中，基于LSTM的编码器接收输入文本内容112的词语嵌入向量(“w_i”)作为输入，并计算编码器隐藏状态序列602(“h_i”)。最终的隐藏状态被传递到解码器，解码器还计算解码器隐藏状态604(“s_t”)并在每个解码时间步骤处生成目标词语的词语嵌入(“y_t”)。

如全文所讨论的，主题感知编码模块122接收输入文本内容112作为词语序列w₁w₂...w_n，并将输入词语映射到嵌入序列e_xe₂...e_n。如果有k个主题(t₁,t₂,...,t_k)，则每个主题由大小为k的单热向量表示，而t_i表示为(0,0,..1,0,0...)(例如第i个位置被设置为1，其余被设置为0)。因此，如果输入文本内容112是w₁w₂...w_n，并且所请求的概要116的感兴趣主题114是t，则文本内容112的词语被映射到序列(e₁,t),(e₂,t),......,(e_n,t)。值得注意的是，主题t的向量被附加到每个词语嵌入。然后将编码的文本被馈送到主题感知编码模型的基于LSTM的编码器，其计算编码器隐藏状态序列602(“h_i”)。基于LSTM的编码器的最终隐藏状态也被传递到解码器，该解码器还计算隐藏状态604(“s_t”)并在每个解码时间步骤处生成目标词语的词语嵌入(“y_t”)。

在生成基于主题的概要116的词语时，词语生成模型120将更多的注意力集中在输入文本内容112的某些部分而不是其他部分。例如在示例系统600中，词语生成模型120正在为输入文本内容112生成基于主题的概要116：“Germany emerges victorious in a2-0winagainst Argentina”。词语生成模型120可以通过更高地关注词语“victorious”和“win”来学习生成词语“beat”。为此，词语生成模型120使用以下算法来计算文本内容112中的所有词语上的关注分布504：

a^t＝softmax(e^t)

在上面的关注分布算法中，使用机器学习技术在文本内容的语料库上训练v、W_h、W_s和b_att。如上所述，关注分布504可以被认为是输入文本内容112中的、从训练语料库中学习的词语上的概率分布。作为编码器隐藏状态602的加权和的该上下文向量用于基于已经在定义的“上下文”窗口内生成的词语来确定要生成的概要的下一个词语。

为了再现输入文本内容112的事实片段，可以扩展词语生成模型120以包括概率项以决定是否如前所述生成词语或从输入文本内容112中拾取以复制事实细节。在解码器的每个阶段，计算概率P_gen，其指示是否从词汇表生成词语，或者使用关注分布504从源文本内容112复制。可以使用以下算法计算该概率：

在上面的算法中，基于文本的训练语料库来训练和b_gen。然后可以使用P_gen来确定算法给出的词汇表中词语的关注分布504：

第二项允许词语生成模型120使用关注分布504从输入文本内容112中选择要复制的词语。给定当前词语和上下文时，P(w)产生正在生成下一词语的概率。

示例过程

本部分描述用于生成文本内容的基于主题的概要的示例过程。过程的各方面可以用硬件、固件或软件或其组合来实现。这些过程被示为框集合，其指定由一个或多个设备执行的操作，并且不一定限于所示的用于执行相应框的操作的命令。

图7描绘了人工生成训练数据以使用机器学习来训练主题感知编码模型和词语生成模型的示例过程700。

通过至少一个计算设备获得包括文档和每个文档的相应概要的文本内容的语料库(框702)。举例来说，训练模块124的主题识别器302接收文本内容306的语料库，其包括具有对应的人生成的概要310的文档308作为(文档，概要)对的集合。

通过将主题向量应用于每个相应的概要来确定每个相应概要的主题(框704)。举例来说，训练模块124首先使用基于监督的词语频率的方案来学习主题的特征。为此，频率模块212确定每个基于主题的组210中的词语的词语频率214。词语频率214对应于基于主题的组210的文档206中的给定词语的出现次数。向量生成模块216获得主题组210和词语频率214，并为每个主题生成主题向量218。

为了确定概要310的主题312，主题识别器302将主题向量218应用于每个相应的概要310。例如主题识别器302计算概要310(在其词袋表示中)与先前提取的主题向量218之间的点积。在这种情况下，<v_s,e_t1>指示概要310和主题1的主题向量218之间的点积。主题识别器302选择具有最高计算的点积的主题作为相应概要310的确定主题312。

生成中间数据集合以包括文本内容的语料库的文档、每个文档的相应概要、以及每个概要的确定的主题(框706)。例如训练模块124将所有所选择的文档及其相应的概要310和确定的主题312聚合成中间数据集合304的三元组<文档，主题，概要>。

通过合并来自中间数据集合的第一文档和第二文档的文本以生成第一新文档，并将第一新文档与训练数据中的第一文档的概要和主题相关联，并且合并来自中间数据集合的第二文档和第一文档的文本来生成第二新文档，并将第二新文档与训练数据中的第二文档的概要和主题相关联来人工生成训练数据，(框708)。例如训练模块124的合并模块402通过合并来自第一文档404和第二文档410的文本来生成第一新文档416。在一个或多个实现中，合并模块402通过从第一文档404和第二文档410顺序拾取文本行来生成第一新文档416。在一些情况下，通过随机选择第一文档404或第二文档410中的一个来提取新行来完成每个新文本行的添加。这样做确保来自第一文档404或第二文档410的文本行在第一新文档416中以与其在每个相应原始文档中相同的顺序发生。在生成第一新文档416之后，其与第一概要406和第一主题408一起被分组，然后被添加到人工生成的训练数据126。

接下来，合并模块402重复这些步骤以生成要与第二概要412和第二主题414一起被分组的第二新文档418。例如合并模块402通过合并来自第二文档410和第一文档404两者的文本来生成第二新文档418。在一个或多个实现中，合并模块402通过从第二文档410和第一文档404顺序地拾取文本行来生成第二新文档418。在生成第二新文档418之后，其与第二概要412和第二主题414一起被分组，然后被添加到人工生成的训练数据126。

丢弃第一文档和第二文档(框710)。例如训练模块124从中间数据集合304中丢弃第一文档404、第一概要406和第一主题408以及第二文档410、第二概要412和第二主题414。在丢弃第一文档和第二文档之后，步骤708和710的合并和丢弃分别被重复，直到中间被耗尽。

然后，人工生成的训练数据被用来训练主题感知编码模型和词语生成模型，以使用人工生成的训练数据和机器学习来生成基于主题的概要(框712)。例如训练模块124使用人工生成的训练数据126来训练词语生成模型120和主题感知编码模型122，以使用机器学习生成基于主题的概要116。

图8描绘了使用主题感知编码模型和词语生成模型来生成文本内容的基于主题的概要的示例过程800。

由至少一个计算设备接收用于生成调整到感兴趣主题的文本内容的基于主题的概要的请求(框802)。作为示例，基于主题的概要模块118接收用于生成被调整到感兴趣主题114的文本内容112的基于主题的概要116的请求110。在一些情况下，可以从文本内容112的内容作者接收请求，诸如文章、书籍的作者等。替代地，可以从文本内容112的消费者接收请求，以便生成文本内容的概要。如全文所述，请求110可以包括文本内容112以及感兴趣主题114的指示。

通过至少一个计算设备的主题感知编码模型将文本内容编码成主题感知编码文本(框804)。作为示例，主题感知编码模型122通过基于请求110的感兴趣主题114将文本内容112逐词语地编码为主题感知编码的序列来生成主题感知编码的文本502。换句话说，文本内容112的输入文本基于针对概要的期望的感兴趣主题114被不同地编码。为了基于感兴趣主题114对文本内容112进行编码，主题感知编码模型基于所请求的感兴趣主题114来选择主题向量218(例如单热向量)，然后将文本内容112的每个词语映射到嵌入，并且将表示请求的感兴趣主题114的所选择的主题向量218附加到每个词语。然后将该整体级联向量传递通过主题感知编码模型122的神经网络，该神经网络在每个步骤输出编码，从而导致一系列基于主题的编码。

由至少一个计算设备的词语生成模型基于主题感知编码的文本生成包括来自文本内容的词语的关注分布和关注分布中的每个词语的选择概率值，选择概率值指示每个词语被选择作为文本内容的基于主题的概要的下一个词语的相应概率(框806)。例如词语生成模型120的关注解码器504接收文本内容112的主题感知编码文本502作为输入，并生成文本内容112中的词语508的关注分布506。关注分布506指示针对每个词语508的选择概率值510。选择概率值510指示对应词语508被选择作为基于主题的概要116的下一个生成词语的概率。关注解码器504基于输入的文本内容112中的词语以及已经由词语生成模型120生成的基于主题的概要116的词语来确定选择概率值510。

基于关注分布选择基于主题的概要的下一个词语(框808)。例如词语生成模型120的选择模块512基于由词语生成模型120的关注解码器504生成的关注分布506来为基于主题的概要116选择下一个生成的词语514。

向所述词语生成模型提供所选择的下一个词语的反馈，所述反馈使得词语生成模型基于下一个生成的词语的反馈来修改关注分布，以用于基于主题的概要的后续词语的选择(框810)。例如在由选择模块512选择下一个生成的词语514之后，将生成的词语添加到基于主题的概要116。此外，反馈模块516将所生成的词语反馈518提供给关注解码器504，关注解码器504可以使用生成的词语反馈518来选择基于主题的概要116的后续词语，从而保持基于主题的概要116的词语生成的一致性。

已经描述了根据一个或多个实现的示例过程，现在考虑可用于实现本文描述的各种技术的示例系统和设备。

示例系统和设备

图9示出了总体上在900处的示例系统，其包括示例计算设备902，示例计算设备902表示可以实现本文描述的各种技术的一个或多个计算系统和/或设备。这通过包括基于主题的概要模块118来说明。计算设备902可以是例如服务提供商的服务器、与客户端(例如客户端设备)相关联的设备、片上系统、和/或任意其他合适的计算设备或计算系统。

如图所示的示例计算设备902包括处理系统904、一个或多个计算机可读介质906、以及彼此通信地耦合的一个或多个I/O接口908。虽然未示出，但是计算设备902还可以包括系统总线或将各种组件彼此耦合的其他数据和命令传输系统。系统总线可以包括以下各项中的任意一个或组合：不同总线结构，诸如存储器总线或存储器控制器、外围总线、通用串行总线；和/或利用各种总线架构中的任意总线架构的处理器或本地总线。还构想了各种其他示例，诸如控制和数据线。

处理系统904表示使用硬件执行一个或多个操作的功能。因此，处理系统904被示为包括可被配置为处理器、功能块等的硬件元件910。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其他逻辑器件。硬件元件910不受形成它们的材料或其中采用的处理机制的限制。例如处理器可以包括半导体和/或晶体管(例如电子集成电路(IC))。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读存储介质906被示为包括存储器/存储装置912。存储器/存储装置912表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储组件912可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储组件912可以包括固定介质(例如RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如闪存、可移动硬盘驱动器、光盘等)。计算机可读介质906可以以下面进一步描述的各种其他方式配置。

输入/输出接口908表示允许用户向计算设备902输入命令和信息，并且还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如鼠标)、麦克风、扫描仪、触摸功能(例如被配置为检测物理触摸的电容性传感器或其他传感器)、相机(例如可以采用可见或不可见的波长，诸如红外频率，用于将运动识别为不涉及触摸的手势)等等。输出设备的示例包括显示设备(例如监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备902可以以下面进一步描述的各种方式来被配置以支持读取器交互。

本文可以在软件、硬件元件或程序模块的一般上下文中描述各种技术。通常，这样的模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文使用的术语“模块”、“功能”和“组件”通常表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着可以在具有各种处理器的各种商业计算平台上实现这些技术。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或通过某种形式的计算机可读介质发送。计算机可读介质可以包括可以由计算设备902访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”可以指代与仅信号传输、载波或信号本身相比，能够实现信息的持久和/或非暂态存储的介质和/或设备。因此，计算机可读存储介质指的是非信号承载介质。计算机可读存储介质包括硬件，诸如易失性和非易失性、可移动和不可移动介质和/或以适于信息的存储的方法或技术实现的存储设备，诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据。计算机可读存储介质的示例可包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储器、硬盘、磁带盒、磁带、磁盘存储器或其他磁存储设备、或适于存储所需信息并且可由计算机访问的其他存储设备、有形介质或制品。

“计算机可读信号介质”可以指信号承载介质，其被配置为诸如经由网络将指令发送到计算设备902的硬件。信号介质通常可以体现计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据，诸如载波、数据信号或其他传输机制。信号介质还包括任意信息传递介质。术语“已调制数据信号”表示以对信号中的信息进行编码的方式设置或改变其特征的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声学、RF、红外和其他无线介质的无线介质。

如前所述，硬件元件910和计算机可读介质906表示以硬件形式实现的模块、可编程设备逻辑和/或固定设备逻辑，其可以在一些实施例中被采用以实现本文描述的技术的至少一些方面，诸如执行一个或多个指令。硬件可以包括集成电路或片上系统的组件、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅或其他硬件的其他实现。在此上下文中，硬件可以作为处理设备操作，该处理设备执行由硬件以及用于存储用于执行的指令的硬件体现的指令和/或逻辑定义的程序任务，例如先前描述的计算机可读存储介质。

还可以采用前述的组合来实现本文描述的各种技术。因此，软件、硬件或可执行模块可以实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件910体现的一个或多个指令和/或逻辑。计算设备902可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，可以由计算设备902执行的作为软件的模块的实现可以例如通过计算机可读存储介质和/或处理系统904的硬件元件910的使用来至少部分地以硬件实现。指令/或功能可以由一个或多个制品(例如一个或多个计算设备902和/或处理系统904)可执行/可操作，以实现本文描述的技术、模块和示例。

本文描述的技术可以由计算设备902的各种配置支持，并且不限于本文描述的技术的特定示例。该功能还可以全部或部分地通过分布式系统的使用来实现，诸如经由如下所述的平台916在“云”914上实现。

云914包括和/或代表用于资源918的平台916。平台916抽象出云914的硬件(例如服务器)和软件资源的底层功能。资源918可以包括应用和/或数据，其可以在远离计算设备902的服务器上执行计算机处理的同时被利用。资源918还可以包括通过因特网和/或通过诸如蜂窝网络或Wi-Fi网络的订户网络提供的服务。

平台916可以抽象资源和功能以将计算设备902与其他计算设备连接。平台916还可以用于抽象资源的缩放以提供对应的缩放级别以满足经由平台916实现的对资源918的需求。因此，在互连的设备实施例中，本文描述的功能的实现可以分布在整个系统900中。例如功能可以部分地在计算设备902上以及经由抽象云914的功能的平台916来实现。

结论

尽管已经用结构特征和/或方法动作专用的语言描述了本发明，但是应当理解，所附权利要求中限定的本发明不一定限于所描述的具体特征或动作。相反，具体特征和动作作为实现所要求保护的发明的示例形式被公开。

Claims

1.一种在数字媒体环境中由至少一个计算设备实现的方法，所述数字媒体环境用于生成被调整到感兴趣主题的文本内容的基于主题的概要，所述方法包括：

由所述至少一个计算设备的主题感知编码模型用与所述感兴趣主题相对应的主题标签来对所述文本内容进行编码，以生成主题感知编码文本；

由所述至少一个计算设备的词语生成模型从所述主题感知编码文本中选择针对所述基于主题的概要的下一个词语，所述词语生成模型使用对训练数据的机器学习而被训练以生成基于主题的概要，所述训练数据包括多个文档、每个文档的相应概要、以及每个概要的相应主题；以及

将所选择的所述下一个词语的反馈提供给所述词语生成模型，所述反馈使得所述词语生成模型基于下一个选择的词语的所述反馈来为所述基于主题的概要选择后续词语。

2.根据权利要求1所述的方法，其中所述编码还包括通过将所述文本内容的每个词语映射到与所请求的所述感兴趣主题相对应的所述主题标签来生成所述主题感知编码文本。

3.根据权利要求2所述的方法，其中所述主题标签指示从基于监督词语频率的方案学习的所述感兴趣主题的词语偏好。

4.根据权利要求1所述的方法，其中编码所述文本内容以生成主题感知编码文本通过所述词语生成模型来增加所述文本内容中的所述感兴趣主题的优选词语的选择概率值。

5.根据权利要求1所述的方法，其中所述训练数据通过修改文档和相应概要的数据集合以包括每个概要的所述主题而被生成。

6.根据权利要求1所述的方法，其中所述主题感知编码模型和所述词语生成模型能够用于生成被调整到多个不同感兴趣主题的基于主题的概要。

7.根据权利要求1所述的方法，其中所述反馈在所述概要的生成期间被提供给所述词语生成模型。

8.根据权利要求1所述的方法，其中所述主题感知编码模型和所述词语生成模型包括神经网络。

9.一种在数字媒体环境中由至少一个计算设备实现的方法，所述方法包括：

获得中间数据集合，所述中间数据集合包括文档、针对每个文档的相应概要、和针对每个概要的主题；

通过以下各项来生成训练数据：

从所述中间数据集合选择第一文档和第二文档；

合并来自所述中间数据集合的第一文档和第二文档的文本以生成第一新文档，并将所述第一新文档与所述训练数据中的所述第一文档的对应概要和主题相关联，并且合并来自所述中间数据集合的所述第二文档和所述第一文档的文本以生成第二新文档，并将所述第二新文档与所述训练数据中的所述第二文档的对应概要和主题相关联；

丢弃所述第一文档和所述第二文档；以及

重复所述合并和丢弃，直到所述中间训练数据集合被耗尽；

以及

训练主题感知编码模型和词语生成模型，以使用所生成的训练数据和机器学习来生成基于主题的概要。

10.根据权利要求9所述的方法，还包括通过以下项来生成所述中间数据集合：

由所述至少一个计算设备获得包括所述文档和针对每个文档的所述相应概要的文本内容；以及

确定每个相应概要的所述主题。

11.根据权利要求10所述的方法，其中每个概要的所述主题通过将主题向量应用于每个相应概要而被确定，所述主题向量通过以下项生成：

由所述至少一个计算设备获得被标记有定义每个相应文档的主题的主题标签的文档；

基于所述主题标签将所述文档分组到基于主题的组中；

确定所述基于主题的组的所述文档中的词语的频率；

基于所述基于主题的组的所述文档中的词语的所述频率，针对每个基于主题的组来生成所述主题向量。

12.根据权利要求11所述的方法，其中通过将主题向量应用于每个相应概要来确定每个相应概要的所述主题还包括：

针对每个概要，计算所述概要和所述主题向量之间的点积；以及选择具有最高计算点积的所述主题作为所述相应概要的所确定的所述主题。

13.根据权利要求12所述的方法，还包括：

通过将所述最高计算点积除以第二高点积来计算所确定的所述主题的置信度值；以及

如果所述置信度值低于置信度阈值，则丢弃来自所述中间数据集合的所述文档和相应概要。

14.一种在数字媒体环境中实现的系统，所述数字媒体环境用于生成被调整到感兴趣主题的文本内容的基于主题的概要，所述系统包括：

至少一个处理器；

存储器，具有存储在其上的计算机可读指令，所述计算机可读指令由所述处理器可执行以实现基于主题的概要模块以执行包括以下项的操作：

由主题感知编码模型使用与所述感兴趣主题相对应的主题标签来对所述文本内容进行编码，以生成主题感知编码文本；

15.根据权利要求14所述的系统，其中所述编码还包括通过将所述文本内容的每个词语映射到与所请求的所述感兴趣主题相对应的所述主题标签来生成所述主题感知编码文本。

16.根据权利要求15所述的系统，其中所述主题标签指示从基于监督词语频率的方案学习的所述感兴趣主题的词语偏好。

17.根据权利要求14所述的系统，其中编码所述文本内容以生成主题感知编码文本通过所述词语生成模型来增加所述文本内容中的所述感兴趣主题的优选词语的选择概率值。

18.根据权利要求14所述的系统，其中所述主题感知编码模型和所述词语生成模型使用对训练数据的机器学习而被训练以生成被调整到感兴趣主题的基于主题的概要，所述训练数据包括多个数据集合，每个所述数据集合包括文档、所述文档的相应概要、和所述概要的相应主题。

19.根据权利要求18所述的系统，其中所述训练数据通过修改文档和相应概要的数据集合以包括每个概要的所述主题而被生成。

20.根据权利要求14所述的系统，其中所述主题感知编码模型和所述词语生成模型能够用于生成被调整到多个不同感兴趣主题的基于主题的概要。