CN109376234B

CN109376234B - 一种训练摘要生成模型的方法和装置

Info

Publication number: CN109376234B
Application number: CN201811177253.0A
Authority: CN
Inventors: 闫然; 王虎
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd; Jingdong Technology Holding Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2020-09-01
Anticipated expiration: 2038-10-10
Also published as: CN109376234A

Abstract

本发明公开了训练摘要生成模型的方法和装置，涉及深度学习技术领域。该方法的一具体实施方式包括：根据经预处理的数据，生成词级向量、第一编码隐层状态和第一隐层状态；根据词级向量、第一编码隐层状态和第一隐层状态，计算第一注意力度量；根据第一注意力度量，计算第一上下文向量；根据第一上下文向量，生成句级向量、第二编码隐层状态和第二隐层状态；根据句级向量、第二编码隐层状态和第二隐层状态，计算第二注意力度量并进行相似度处理；以及进行附加处理并生成摘要。该实施方式克服了传统摘要生成模型造成的词句重复问题。

Description

一种训练摘要生成模型的方法和装置

技术领域

本发明涉及深度学习技术领域，尤其涉及训练摘要生成模型的方法和装置。

背景技术

摘要生成是指利用自然语言处理技术来对一段或者多段文本进行分析处理，自动总结生成摘要，使得读者在不必通读全文的情况下花费较少的时间了解这一段或者多段文本的大致内容。该技术可以和文本分类、文本关键词提取等技术相结合，应用于智能文本分析系统、智能办公助手、智能新闻发布系统等领域。目前的自动摘要生成技术主要分为两大类：基于TextRank的抽取式的自动摘要生成以及基于深度学习的生成式的自动摘要生成。基于深度学习的生成式的自动摘要生成技术是一种基于神经网络的自动生成摘要的方法，而不是从一段或者多段文本中抽取关键句，本发明主要针对这类技术进行改进。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有技术可以利用神经网络自动生成摘要，因此容易出现重复生成一句话或者一个词的问题。

发明内容

有鉴于此，本发明实施例提供一种训练摘要生成模型的方法和装置，能够通过在对摘要生成模型的训练中引入具有相似度度量的多层注意力机制,得到文中较为重要的词和句,通过相似度度量抑制重复关注的相似的词或者句子的出现，显著降低了传统摘要生成模型造成的词句重复问题，并且通过引入上下文向量进一步提高了摘要生成模型的性能，有助于增加自动生成的摘要的连贯性和可读性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种训练摘要生成模型的方法。

根据本发明实施例的训练摘要生成模型的方法，包括：

根据经预处理的数据，生成词级向量、第一编码隐层状态和第一隐层状态；

根据所述词级向量、所述第一编码隐层状态和所述第一隐层状态，计算与所述经预处理的数据相对应的第一注意力度量；

根据所述第一注意力度量，计算第一上下文向量；

根据所述第一上下文向量，生成句级向量、第二编码隐层状态和第二隐层状态；

根据所述句级向量、所述第二编码隐层状态和所述第二隐层状态，计算第二注意力度量并进行相似度处理；以及

进行附加处理并生成摘要。

可选地，计算所述第一注意力度量或第二注意力度量是根据以下公式：

a^t＝softmax(e^t)

其中，a^t是所述第一注意力度量或第二注意力度量；

v是所述词级向量或所述句级向量；

是第i个词或句在t时刻的重要程度；

w_h、w_s和b_attn是需要学习的参数。

可选地，所述相似度处理进一步包括：

计算所述第一注意力度量或所述第二注意力度量中权重大于特定值的元素之间的相似度，在所述相似度大于阈值相似度的情况下，将所述元素中的一个或多个元素的概率值设置为零。。

可选地，所述附加处理包括：

根据所述第二注意力度量，计算第二上下文向量；

通过指针网络模块，计算所述经预处理的数据中的一个或多个非字典数据的概率分布。

可选地，计算所述第一上下文向量或所述第二上下文向量是根据以下公式：

其中，

是所述第一上下文向量或所述第二上下文向量；

是第i个词的所述第一注意力度量或第i个句的所述第二注意力度量；

h_i是第i个词或句的隐层状态。

可选地，所述经预处理的数据是通过以下步骤得到的：

将训练集中的每个文本摘要对拆分成词；

对所有经拆分的词进行词频统计；

对词频大于预定词频阈值的词进行编号并制作成词典；以及

将与所述词相对应的编号作为所述经预处理的数据。

根据本发明实施例的另一个方面，提供了一种训练摘要生成模型的装置。

根据本发明实施例的训练摘要生成模型的装置，包括：

第一编码器，用于根据经预处理的数据，生成词级向量和第一编码隐层状态；

第一解码器，用于根据所述词级向量和所述第一编码隐层状态第一隐层状态；

第一注意力模块，用于根据所述词级向量、所述第一编码隐层状态和所述第一隐层状态，计算与所述经预处理的数据相对应的第一注意力度量；

第一上下文模块，用于根据所述第一注意力度量，计算第一上下文向量；

第二编码器，用于根据所述第一上下文向量，生成句级向量和第二编码隐层状态；

第二解码器，用于根据所述句级向量和所述第二编码隐层状态生成第二隐层状态；

第二注意力模块，用于根据所述句级向量、所述第二编码隐层状态和所述第二隐层状态，计算第二注意力度量并进行相似度处理；以及

摘要生成模块，用于生成摘要。

可选地，计算所述第一注意力度量或所述第二注意力度量是根据以下公式：

a^t＝softmax(e^t)

其中，a^t是所述第一注意力度量或所述第二注意力度量；

v是所述词级向量或所述句级向量；

是第i个词或句在t时刻的重要程度；

w_h、w_s和b_attn是需要学习的参数。

可选地，进一步包括：

相似度处理模块，用于计算所述第一注意力度量或所述第二注意力度量中权重大于特定值的元素之间的相似度，在所述相似度大于阈值相似度的情况下，将所述元素中的一个或多个元素的概率值设置为零。

可选地，进一步包括：

第二上下文模块，用于根据所述第二注意力度量，计算第二上下文向量；以及

指针网络模块，用于计算所述经预处理的数据中的一个或多个非字典数据的概率分布。

其中，

是所述第一上下文向量或所述第二上下文向量；

h_i是第i个词或句的隐层状态。

可选地，进一步包括：

预处理模块，用于执行以下步骤：

将训练集中的每个文本摘要对拆分成词；

对所有经拆分的词进行词频统计；

对词频大于预定词频阈值的词进行编号并制作成词典；以及

将与所述词相对应的编号作为所述经预处理的数据。

根据本发明实施例的另一个方面，提供了一种训练摘要生成模型的电子设备。

根据本发明实施例的训练摘要生成模型的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例第一方面提供的训练摘要生成模型的方法。

根据本发明实施例的再一个方面，提供了一种计算机可读介质。

根据本发明实施例的计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例第一方面提供的训练摘要生成模型的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过在对摘要生成模型的训练中引入具有相似度度量的多层注意力机制, 得到文中较为重要的词和句,通过相似度度量抑制重复关注的相似的词或者句子的出现，显著降低了传统摘要生成模型造成的词句重复问题，并且通过引入上下文向量进一步提高了摘要生成模型的性能，有助于增加自动生成的摘要的连贯性和可读性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的训练摘要生成模型的方法的主要流程的示意图；

图2是根据本发明实施例的训练摘要生成模型的另一个方法的主要流程的示意图；

图3是根据本发明实施例的训练摘要生成模型的装置的主要模块的示意图；

图4是根据本发明实施例的训练摘要生成模型的装置的一种实施方式的示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的训练摘要生成模型的方法的主要流程的示意图，如图1所示，根据本发明实施例的训练摘要生成模型的方法包括步骤S101、S102、S103、S104、S105和S106。

S101：根据经预处理的数据，生成词级向量、第一编码隐层状态和第一隐层状态。

优选地，所述经预处理的数据是通过以下步骤得到的：将训练集中的每个文本摘要对拆分成词；对所有经拆分的词进行词频统计；对词频大于预定词频阈值的词进行编号并制作成词典；以及将与所述词相对应的编号作为所述经预处理的数据。

为了对摘要生成模型进行训练，首先要对数据进行预处理。在一些实施例中，需要被预处理的原始数据是包括多个文本-摘要对的数据集。预处理可以分为两步。

在一些实施例中，预处理第一步可以是将数据集中的全部文本和摘要进行分词，剔除出标点符号以外的特殊符号，得到多个词。接下来统计分词得到的多个词的词频，并选取词频大于预定词频阈值或者词的数量大于预定词量阈值的词和/或与该词相对应的频率制作词典。例如，词典中的词形如“我们12222”。在实际的训练过程中，训练集中通常不直接使用词本身来作为第一编码器的输入，而是通过将输入文本转换为词典中的词的编号从而得到对摘要生成模型的输入。例如，输入文本为“我们今天去北京了。”，摘要生成模型需要分别在词典中找到对应的词和词对应的编号，并使用编号作为第一编码器的输入。

在一些实施例中，预处理第二步可以是将数据集中的文本和摘要处理为一一对应的形式，并进行分句分词，在句与句之间加特殊标识符，使用分词分句之后的“文本-摘要”对，作为训练数据集。例如，文本摘要对可以为：

<s>被“问题产品a”和“产品a问题”吓坏了的 X地区妈妈开始动用各种关系和渠道，试图从其他地区为她们的孩子“淘”到纯正的“其他地区产品 a”。</s><s>然而，X地区巨大的产品a需求让A、 B等地不得不推出限购政策。</s>

“产品a地方企业”欲联手拯救X地区产品a业

优选地，在摘要生成模型中构建seq2seq模型，seq2seq模型是由两个编码器和两个解码器组成。所述两个编码器采用双向的 LSTM网络。所述两个解码器采用单向的LSTM网络。在一些实施例中，第一编码器和第一解码器是词语级的，而第二编码器和第二解码器是句子级的。

在一些实施方式中，S101可以由第一编码器和第一解码器完成，其中，第一编码器的输入为输入文本中的词或词在字典中的对应编号，输出为词级向量u_w以及第一编码隐层状态h_wt，第一解码器的输入为词级向量u_w以及第一编码隐层状态h_wt，输出为第一隐层状态Swt。

可选地，第一编码器的输入为输入文本中所有词在词典中的编号。在一些实施例中，输入文本中有些词在词典中可能不存在，针对这种情况可以引入指针网络，所述指针网络将在下面进一步描述。在一些实施例中，首先提取整个“文本-摘要”的词，根据划分句子的标识符<s></s>来划分句子，通常是给每句话中的每个词一个序号(给词典中不同的词不同的序号，文本中的词和词典中的词做映射，找到对应的序号)，把每句话中的所有的词的序号作为输入，输出固定长度的词语级别的向量u_w，对应的编码之后的隐层的状态为h_wt，将词语级别的向量输入到第一解码器，得到隐层状态Swt。

可选地，第二编码器的输入是第一编码器输出的每句话中每个词的词语级别的向量u_w经过第一注意力模块之后的加权和(例如，S103中的第一上下文向量，即，词语级别的上下文向量)，输出是固定长度的句子级别的向量u_s，对应的编码之后的隐层的状态为h_st，将句子级别的向量输入到第二编码器，得到隐层状态 Sst。

S102：根据所述词级向量、所述第一编码隐层状态和所述第一隐层状态，计算与所述经预处理的数据相对应的第一注意力度量。

为了解决生成的摘要中相同词句重复出现的问题，在两个编码器后面分别引入注意力网络层。在第一编码器之后的第一注意力层的作用是，找到该句中的哪些词语是比较重要的。在一些实施例中，第一注意力层的输入是第一编码器输出的词向量，输出是这些词的概率分布情况。同理对于在第二编码器之后的第二注意力层的作用是，找到整个文本中哪句话是比较重要的。第二注意力层的输入是第二编码器输出的句子向量，输出是这些句子的概率分布情况，从而有效的避免在在进行生成摘要的时候，只关注某一个词或者某一句话的情况的发生，而是尽可能的关注到文本中的全部的内容，进而有效的避免重复生成的问题的发生，也可以使生成的摘要包含的信息更加全面。

S103：根据所述第一注意力度量，计算第一上下文向量。

在一些实施例中，根据注意力机制计算出来的分布来计算解码器的隐层的加权和，得到上下文向量

(Context vector)。它可以使预测的词和上下文存在一定的关联，进一步提高了所生成摘要的连贯性。

S104：根据所述第一上下文向量，生成句级向量、第二编码隐层状态和第二隐层状态。

在一些实施方式中，S104可以由第二编码器和第二解码器完成，其中，第二编码器的输入为所述第一上下文向量，输出为句级向量u_s以及第二编码隐层状态h_st，第二解码器的输入为句级向量u_s以及第二编码隐层状态h_st，输出为第二隐层状态Sst。

S105：根据所述句级向量、所述第二编码隐层状态和所述第二隐层状态，计算第二注意力度量并进行相似度处理。

优选地，计算所述第一注意力度量或所述第二注意力度量是根据以下公式(1)和公式(2)：

a^t＝softmax(e^t) (2)

其中，a^t是所述第一注意力度量或所述第二注意力度量；

v是所述词级向量或所述句级向量；

是第i个词或句在t时刻的重要程度；

w_h、w_s和b_attn是需要学习的参数。

对于注意力机制的部分，是根据编码器和解码器的状态序列计算一个概率分布，根据概率的值的大小来进行计算出哪些词的重要性比较高，哪些词不太重要。对于概率的值越大的词语，重要性越高。

进一步地，相似度处理可以进一步包括：计算所述第一注意力度量或所述第二注意力度量中权重大于特定值的元素之间的相似度，在所述相似度大于阈值相似度的情况下，将所述元素中的一个或多个元素的概率值设置为零。例如，文本中多次出现“牛奶”和“milk”，计算得到“牛奶”和“milk”的相似度非常高，则可以将“milk”的概率值设置为0，避免摘要中重复出现两个意义相同只是使用词汇不同的句子。

S106：进行附加处理并生成摘要。

优选地，所述附加处理包括：

根据所述第二注意力度量，计算第二上下文向量；

进一步地，计算所述第一上下文向量或所述第二上下文向量是根据以下公式(3)：

其中，

是所述第一上下文向量或所述第二上下文向量；

h_i是第i个词或句的隐层状态。

优选地，利用指针网络(pointer network)和seq2seq结合，实现对于词典中不存在的词，直接从原文中提取相应的关键词，得到最终的概率分布，

在一些实施例中，在得到上下文向量之后，可以计算词典中词语的概率分布情况，即找到词典中的哪些词在该文本中很重要，计算公式如下面的公式(4)：

其中w′，w，b，b′都是需要学习的参数，计算出来的结果是词典中某个词出现在摘要中的概率的大小。

对于指针网络，是用于计算直接从文中进行复制词典中没有的词的概率，即某个词在这个文本中很重要，需要出现在摘要中，但是没有在词典中出现过，则需要根据以下公式(5)来进行计算。

其中w_h，w_s，w_x，b_gen都是需要学习的参数，计算出来的结果是文本中的某个不在词典中出现的词需要出现在摘要中的概率的大小。

在一些实施例中，可以根据最终的概率分布来生成并输出摘要，所述摘要可以包括一个或多个句子。

最终的概率分布的公式如下面的公式(6)：

在一些实施例中，可以使用文本-摘要对中的文本作为摘要生成模型的输入，在得到自动生成的摘要后，可以对文本-摘要对中的摘要和自动生成的摘要进行比较，以调整该摘要生成模型的参数。

本发明所提供的方法是为了训练并优化摘要生成模型，使得此模型能够实现输入一段或多段文本后自动生成并输出与输入文本相对应的摘要。因此，训练该模型的标准是希望自动生成的摘要能够尽可能的贴合输入文本的主题思想并且不对输入文本中的内容进行重复描述，从而达到节省读者阅读时间的效果。该模型采取seq2seq+指针网络(pointer network)的结构，通过引入注意力机制来获取输入文本中比较重要的词和句，并进一步通过计算词或句之间的相似度来增加对注意力机制(attention)的正则化约束，达到限制重复语句或词语生成的目的。

图2是根据本发明实施例的训练摘要生成模型的另一个方法的主要流程的示意图，如图2所示，根据本发明实施例的训练摘要生成模型的另一个方法包括步骤S201、S202、S203、S204、S205、 S206、S207、S208、S209、S210、S211、S212和S213。

步骤S201：将训练集中的每个文本摘要对拆分成词并对所有经拆分的词进行词频统计。

步骤S202：对词频大于预定词频阈值的词进行编号并制作成词典。

步骤S203：将与所述词相对应的编号作为所述经预处理的数据。

步骤S204：根据经预处理的数据，生成词级向量和第一编码隐层状态。

步骤S205：根据所述词级向量和所述第一编码隐层状态，生成第一隐层状态。

步骤S206：根据所述词级向量、所述第一编码隐层状态和所述第一隐层状态，计算与所述经预处理的数据相对应的第一注意力度量。

步骤S207：根据所述第一注意力度量，计算第一上下文向量。

步骤S208：根据所述第一上下文向量，生成句级向量和第二编码隐层状态。

步骤S209：根据所述句级向量和第二编码隐层状态，生成第二隐层状态。

步骤S210：根据所述句级向量、所述第二编码隐层状态和所述第二隐层状态，计算第二注意力度量并进行相似度处理。

步骤S211：根据所述第二注意力度量，计算第二上下文向量。

步骤S212：通过指针网络模块，计算所述经预处理的数据中的一个或多个非字典数据的概率分布。

步骤S213：生成摘要。

上述实施例具有如下优点或有益效果：通过在对摘要生成模型的训练中引入具有相似度度量的多层注意力机制,得到文中较为重要的词和句,通过相似度度量抑制重复关注的相似的词或者句子的出现，显著降低了传统摘要生成模型造成的词句重复问题，并且通过引入上下文向量进一步提高了摘要生成模型的性能，有助于增加自动生成的摘要的连贯性和可读性。

图3是根据本发明实施例的训练摘要生成模型的装置的主要模块的示意图。如图3所示，根据本发明实施例的训练摘要生成模型的装置300包括：

第一编码器301，用于根据经预处理的数据，生成词级向量和第一编码隐层状态；

第一解码器302，用于根据所述词级向量和所述第一编码隐层状态第一隐层状态；

第一注意力模块303，用于根据所述词级向量、所述第一编码隐层状态和所述第一隐层状态，计算与所述经预处理的数据相对应的第一注意力度量；

第一上下文模块304，用于根据所述第一注意力度量，计算第一上下文向量；

第二编码器305，用于根据所述第一上下文向量，生成句级向量和第二编码隐层状态；

第二解码器306，用于根据所述句级向量和所述第二编码隐层状态生成第二隐层状态；

第二注意力模块307，用于根据所述句级向量、所述第二编码隐层状态和所述第二隐层状态，计算第二注意力度量并进行相似度处理；以及

摘要生成模块308，用于生成摘要。

a^t＝softmax(e^t)

其中，a^t是所述第一注意力度量或第二注意力度量；

v是所述词级向量或所述句级向量；

是第i个词或句在t时刻的重要程度；

w_h、w_s和b_attn是需要学习的参数。

可选地，训练摘要生成模型的装置300进一步包括：

相似度处理模块309，用于计算所述第一注意力度量或所述第二注意力度量中权重大于特定值的元素之间的相似度，在所述相似度大于阈值相似度的情况下，将所述元素中的一个或多个元素的概率值设置为零。

可选地，第二注意力模块307可以进行相似度处理，也可以通过独立于其自身的相似度处理模块309进行相似度处理。

可选地，训练摘要生成模型的装置300进一步包括：

第二上下文模块310，用于根据所述第二注意力度量，计算第二上下文向量；以及

指针网络模块311，用于计算所述经预处理的数据中的一个或多个非字典数据的概率分布。

其中，

是所述第一上下文向量或所述第二上下文向量；

h_i是第i个词或句的隐层状态。

可选地，训练摘要生成模型的装置300进一步包括：

预处理模块312，用于执行以下步骤：

将训练集中的每个文本摘要对拆分成词；

对所有经拆分的词进行词频统计；

对词频大于预定词频阈值的词进行编号并制作成词典；以及

将与所述词相对应的编号作为所述经预处理的数据。

图4是根据本发明实施例的训练摘要生成模型的装置的一种实施方式的示意图。

各个模块的一种连接方式以及输入输出参数如图4所示，其中：

预处理模块401将训练集中的每个文本摘要对拆分成词并对所有经拆分的词进行词频统计，对词频大于预定词频阈值的词进行编号并制作成词典，并将与所述词相对应的编号作为所述经预处理的数据。

第一编码器402根据经预处理的数据，生成词级向量u_w和第一编码隐层状态h_wt。

第一解码器403根据所述词级向量u_w和所述第一编码隐层状态h_wt，生成第一隐层状态S_wt。

第一注意力模块404根据所述词级向量、所述第一编码隐层状态和所述第一隐层状态，计算与所述经预处理的数据相对应的第一注意力度量。

第一上下文模块405根据所述第一注意力度量，计算第一上下文向量。

第二编码器406根据所述第一上下文向量，生成句级向量u_s和第二编码隐层状态h_st。

第二解码器407根据所述句级向量u_s和第二编码隐层状态h_st，生成第二隐层状态S_st。

第二注意力模块408根据所述句级向量u_s、所述第二编码隐层状态h_st和所述第二隐层状态S_st，计算第二注意力度量并。

相似度处理模块409进行相似度处理。在一种实施例中，计算所述第一注意力度量或所述第二注意力度量中权重大于特定值的元素之间的相似度，在所述相似度大于阈值相似度的情况下，将所述元素中的一个或多个元素的概率值设置为零。第二上下文模块410根据所述第二注意力度量，计算第二上下文向量。

指针网络模块411通过指针网络模块，计算所述经预处理的数据中的一个或多个非字典数据的概率分布。

摘要生成模块412生成摘要。

图5示出了可以应用本发明实施例的训练摘要生成模型的方法或训练摘要生成模型的装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503 和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的训练摘要生成模型的方法一般由服务器505执行，相应地，训练摘要生成模型的装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分 606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609 从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一编码器、第一解码器和第一注意力模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一注意力模块还可以被描述为“用于根据所述词级向量、所述第一编码隐层状态和所述第一隐层状态，计算与所述经预处理的数据相对应的第一注意力度量的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：根据经预处理的数据，生成词级向量、第一编码隐层状态和第一隐层状态；根据所述词级向量、所述第一编码隐层状态和所述第一隐层状态，计算与所述经预处理的数据相对应的第一注意力度量；根据所述第一注意力度量，计算第一上下文向量；根据所述第一上下文向量，生成句级向量、第二编码隐层状态和第二隐层状态；根据所述句级向量、所述第二编码隐层状态和所述第二隐层状态，计算第二注意力度量；以及进行附加处理并生成摘要。

根据本发明实施例的技术方案，通过在对摘要生成模型的训练中引入具有相似度度量的多层注意力机制,得到文中较为重要的词和句,通过相似度度量抑制重复关注的相似的词或者句子的出现，显著降低了传统摘要生成模型造成的词句重复问题，并且通过引入上下文向量进一步提高了摘要生成模型的性能，有助于增加自动生成的摘要的连贯性和可读性。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。