CN113901200A

CN113901200A - 基于主题模型的文本摘要方法、装置及存储介质

Info

Publication number: CN113901200A
Application number: CN202111145727.5A
Authority: CN
Inventors: 范凌; 王喆
Original assignee: Tezign Shanghai Information Technology Co Ltd
Current assignee: Tezign Shanghai Information Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-07

Abstract

本发明提供一种基于主题模型的文本摘要方法、装置及存储介质，包括：基于seq2seq序列模型中的编码器对获取的文本信息进行编码，得到基于文本句法层面的第一中间语义向量；将所述第一中间语义向量输入至主题模型中，得到主题向量；根据所述主题向量和所述第一中间语义向量，并通过seq2seq序列模型中的解码器进行解码，生成目标摘要信息。利用由主题模型和seq2seq序列模型组成的联合学习网络，能够学习和保留全局语义信息，以及可以提供额外的语义指导来抓取文档重要语义信息，有助于捕获文本的语义信息作为关键信息来对解码器端的文本摘要生成进行指导，使得生成的文本摘要更贴合输入文档的语义信息。

Description

基于主题模型的文本摘要方法、装置及存储介质

技术领域

本申请涉及数据处理领域，具体而言，涉及一种基于主题模型的文本摘要方法、装置及存储介质。

背景技术

在当今的数字经济中，我们每天面临着大量的信息输入，伴随而来的是信息过载，这对于高效的信息消费形成了挑战，如何对海量的文本实现信息内容的浓缩和概括则成为了必要的研究课题。从较长的文本自动生成简短而连贯的片段和准确而简洁的摘要对许多下游任务都非常关键，比如一些信息检索和推荐系统。同时，通过算法的自动总结也可以减少用户的阅读时间，使用户的选择过程更容易，检索更有效，增加消费者能处理的文本数量。此外，通过摘要式的模型由于是基于训练语料，所以在预测生成阶段采取的是近乎统一的评价，相比于人工书写的摘要更加的客观。

现有的文本摘要主要分为两种方式，抽取式摘要：直接从文本中抽取一些拼接成新的文本摘要，不会修改任何单词；总结式摘要：通过对文本内容的理解直接将原始的大段文本从新概括的总结成简短的文本内容，产生全新的短语和句子，源于逐字捕捉原文的内容并重新生成新的摘要，这是一个更具挑战性的工作但是却与人类总结文本摘要的形式一致，也更为通用。本方法也是在此类方向上的探索实现。无论是哪种摘要任务，通常采取的都是seq2seq的结构，即序列到序列的结构，输入一段文本，输出一段文本，在这个模型中关键的一个因素就是我们如何表达和编码一段输入文本。传统的方式我们通过总结方法和自注意力模型方法来实现这个过程。

总结类方法就是探索文本的潜在表征，并将这些表征作为输入文本的解码序列输入解码器，这种方法有以下几个缺点：

(1)由于强调文本的潜在表征进行提取，并默认这些表征的相互交互都必须是相关的，但在现实中这种情况并不能保证，因为文本信息中可能会存在噪声点；

(2)只有当文本中的组内或集成信息的独立性被忽略时才能较好提取文本的离散信息，不能解决输入文本的信息重要性之间可能存在不均衡的问题。

针对以上缺点，基于序列的注意力机制应运而生，这种方法可以通过学习的注意力方式去处理文本中的不同信息，尤其以transformer架构中的self- attention最为常见，能很好的捕捉到文本中不均衡的短时序和长时序的文本信息，但是这种方法也有缺点：self-attention这种自注意力方法可以在句法层面上很好的捕捉上下文表征信息，但是却丢失了文本的语义层面的信息，这可能会降低seq2seq序列模型的表现效果，特别是对于摘要任务。

因此，亟需解决上述现有的文本摘要所存在的技术问题。

发明内容

本发明实施例提供一种基于主题模型的文本摘要方法、装置及存储介质，用以解决现有的文本摘要技术中所存在的文本信息中可能会存在噪声点、输入文本的信息重要性之间可能存在不均衡以及丢失文本的语义层面的信息的技术问题。

本发明实施例的第一方面，提供一种基于主题模型的文本摘要方法，包括：

基于seq2seq序列模型中的编码器对获取的文本信息进行编码，得到基于文本句法层面的第一中间语义向量；

将所述第一中间语义向量输入至主题模型中，得到主题向量；

根据所述主题向量和所述第一中间语义向量，并通过seq2seq序列模型中的解码器进行解码，生成目标摘要信息。

可选地，在第一方面的一种可能实现方式中，将所述第一中间语义向量输入至主题模型中，得到主题向量，包括：

根据第一损失函数对所述主题模型进行训练，所述主题模型的第一损失函数如下：

其中，D_KL是KL散度，用以衡量两个分布之间的差异；x是主题模型编码器的输入；h是主题模型的中间变量；

表示的是拟合正态分布的h概率分布；p_θ(h)是编码器端中间变量h的后验概率分布；logp_θ(xⁱ|z^i,l)表示是以z＝f(h) 作为输入，重新还原得到x的概率分布的似然估计。

可选地，在第一方面的一种可能实现方式中，所述将所述第一中间语义向量输入至主题模型中，得到主题向量，包括：

将所述第一中间语义向量通过变换的方式得到符合正态分布的中间语义向量；

对所述符合正态分布的中间语义向量使用Relu激活函数，以得到主题向量。

可选地，在第一方面的一种可能实现方式中，所述根据所述主题向量和所述第一中间语义向量，并通过seq2seq序列模型中的解码器进行解码，生成目标摘要信息，包括：

根据第二损失函数对联合学习网络进行训练，所述联合学习网络由主题模型和seq2seq序列模型组成；

基于训练后的联合学习网络得到目标摘要信息。

可选地，在第一方面的一种可能实现方式中，所述所述第二损失函数如下：

L＝αL_tm+βL_finetune

其中，α和β是两个超参数，Ltm是主题模型的损失函数，Lfinetune 是seq2seq序列模型的损失函数。

可选地，在第一方面的一种可能实现方式中，目标摘要信息的生成采用如下公式：

其中LM是language model，TM是topic model，两个部分都有head，表示两个模型都是多头注意力机制，多头注意力机制表示计算过程中向量最后一维的维度维度会按头数进行拆解；W_topic表示主题模型的输出的向量矩阵表示z(d)

表示单词矩阵的转置；y_i-1表示前i-1个输出结果，因为采用的是语言模型的思路，预测第i个文字的时候会利用前i-1个文字的结果。

本发明实施例的第二方面，提供一种基于主题模型的文本摘要装置，包括：

第一获取模块，用于基于seq2seq序列模型中的编码器对获取的文本信息进行编码，得到基于文本句法层面的第一中间语义向量；

第二获取模块，用于将所述第一中间语义向量输入至主题模型中，得到主题向量；

目标摘要生成模块，用于根据所述主题向量和所述第一中间语义向量，并通过seq2seq序列模型中的解码器进行解码，生成目标摘要信息。

可选地，在第二方面的一种可能实现方式中，所述目标摘要生成模块用于执行以下步骤，包括：

基于训练后的联合学习网络得到目标摘要信息。

可选地，在第二方面的一种可能实现方式中，主题模型的训练过程，包括：

表示的是拟合正态分布的h概率分布；p_θ(h)是编码器端中间变量h的后验概率分布；logp_θ(xⁱ|z^i，l)表示是以z＝f(h) 作为输入，重新还原得到x的概率分布的似然估计。

可选地，在第二方面的一种可能实现方式中，所述第二获取模块，用于执行以下步骤，包括：

可选地，在第二方面的一种可能实现方式中，所述所述第二损失函数如下：

L＝αL_tm+βL_finetune

可选地，在第二方面的一种可能实现方式中，目标摘要信息的生成采用如下公式：

本发明实施例的第三方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。

本发明提供的基于主题模型的文本摘要方法、装置及存储介质，能够基于seq2seq序列模型中的编码器对获取的文本信息进行编码，得到基于文本句法层面的第一中间语义向量；将所述第一中间语义向量输入至主题模型中，得到主题向量；根据所述主题向量和所述第一中间语义向量，并通过seq2seq序列模型中的解码器进行解码，生成目标摘要信息。利用由主题模型和seq2seq序列模型组成的联合学习网络，能够学习和保留全局语义信息，以及可以提供额外的语义指导来抓取文档重要语义信息，有助于捕获文本的语义信息作为关键信息来对解码器端的文本摘要生成进行指导，使得生成的文本摘要更贴合输入文档的语义信息。

附图说明

图1、2为基于主题模型的文本摘要方法的第一种实施方式的流程图；

图3为基于主题模型的文本摘要装置的第一种实施方式的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、 “第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指 A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、 B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B 相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A 确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与 B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或 “当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例1：

本发明提供一种基于主题模型的文本摘要方法，如图1和图2所示其流程图，包括：

步骤S110、基于seq2seq序列模型中的编码器对获取的文本信息进行编码，得到基于文本句法层面的第一中间语义向量。在本步骤中，该seq2seq序列模型由编码器和解码器构成；获取的文本信息可以是含有n个文字的文档，该文档可以表示为n个向量的形式，即输入序列X_1:n＝{X₁,X₂,...X_n}；然后通过编码器端转换成第一中间语义向量，得到提取了基于文本句法层面的语义表征作为编码器端的输出。采用编码器端的预训练语言模型的最后一层隐层输出，作为seq2seq 序列模型中的解码器端和主题模型的输入。

步骤S120、将所述第一中间语义向量输入至主题模型中，得到主题向量。

在本步骤中，主题模型采用变分编码器的思路，利用变分编码器进行编码，可以学习到全局特征，得到主题词汇的概率分布及主题向量，并将其作为指导 m 附加在seq2seq序列模型中的解码器端，让解码器端输出更贴合文本主题语义信息的摘要。其中变分编码器涉及的编码器和解码器是要区别于seq2seq序列 m 模型中的编码器和解码器的。

步骤S130、根据所述主题向量和所述第一中间语义向量，并通过seq2seq序列模型中的解码器进行解码，生成目标摘要信息。

在上述步骤S110-S130中，其文本摘要的生成过程主要包括：先将原始输入序列X1:n输入至seq2seq序列模型中的编码器端进行编码得到第一中间语义向量X1:n’；然后通过seq2seq序列模型中的解码器端进行解码生成最终的目标摘要Y1:m；在解码过程中融合了主题模型输出的主题向量作为影响因子。

在本步骤中，在解码过程中，当解码器端从词汇表中逐个概率选取字用于摘要表示的同时，同时将主题模型得到的基于语义层面的主题向量作为影响因子，来指导这个概率，使得生成的文本摘要更贴合输入文档的语义信息。在seq2seq 序列模型的解码器中有三层，第一层的输入是seq2seq序列模型的编码器输出的第一中间语义向量(与主题模型的输入相同)，在最后一层会采用一般注意力机制将编码器输出的第一中间语义向量与主题模型中的主题向量进行结合，然后在解码器端进行解码。其中采用如下公式进行结合：

其中，Q＝W^q·z_d代表query，是主题模型的输出；K＝W^k·H_1:n代表key，是 seq2seq编码器的输出；V＝W^v·H_1:n代表value,是seq2seq编码器的输出。

在本步骤中，通过transformer-based的解码器对所述第一中间语义向量进行解码，生成条件概率分布，得到输出序列Y_1:m，即摘要信息pdecoder(Y_1:m∣ X_1:n’)。transfomer-based的解码器是多个解码器块的叠加，利用语言模型LM 的特性，一方面会利用编码器端输出的中间语义向量X_1:n’；

另一方面对于第i步的推测结果yi会利用前i-1步的结果的Y_1:i-1，仅考虑主干网络的部分，我们可以将最终结果的推导，以下面的形式表示：

其中，

这里表示单词矩阵的转置；

在一个实施例中，将所述第一中间语义向量输入至主题模型中，得到主题向量，包括：

根据所述第一损失函数对所述主题模型进行训练，所述主题模型的第一损失函数如下：

在本步骤中，会先基于变分编码器中的编码器对输入的文本1进行编码，得到一个中间语义向量，然后通过变分编码器中的解码器进行解码，得到文本2；在这个过程中，编码器和解码器的参数是可学习的；将损失函数设置为文本1和文本2的差距，并根据该损失函数对主题模型(变分编码器)进行训练，其目的是能缩小文本1和文本2的差距。以达到“将一段话转变成一些主题词，再通过主题词把这段话能够还原出来”的目的，那么变分编码器的训练就完成。

在一个实施例中，所述将所述第一中间语义向量输入至主题模型中，得到主题向量，包括：

在本步骤中，变分编码器在训练的过程中还会设置一些约束，如图2中主题模型框架内所示：x表示seq2seq编码器端的输入，即第一中间语义向量； μ(x)和logσ(x)表示输入的第一中间语义向量要进行符合正态分布的约束；h 表示主题模型框架内通过变换得到的符合正态分布的中间语义向量；z表示h 通过Relu激活函数得到的z＝f(h)。在主题模型训练完成后，主题模型激活后的z作为输入文本的主题向量表示，

采用Wtopic∈RK×Vtopic表示；其中K表示主题数，Vtopic是词汇表大小。

在一个实施例中，根据所述主题向量和所述第一中间语义向量，并通过 seq2seq序列模型中的解码器进行解码，生成目标摘要信息，包括：

根据所述第二损失函数的值对联合学习网络进行训练，所述联合学习网络由主题模型和seq2seq序列模型组成；

基于训练后的联合学习网络得到目标摘要信息。

在本步骤中，该过程是seq2seq的LMhead和主题模型的TMHead联合指导共同产生的结果。

在一个实施例中，所述第二损失函数如下：

L＝αL_tm+βL_finetune

在本步骤中，首先整个文本的输入是文本1，最终联合学习网络的输出也可以看作是主干网络seq2seq最终的输出，即文本3，那么联合学习网络的损失函数与文本1和文本3有关，文本1就是原文，文本3就是生成的摘要信息，联合学习网络通过文本1输出文本3，对于文本3，我们有标准摘要答案(文本3’), 第二损失函数的目的就是使(文本3)和(文本3’)尽可能接近。

在一个实施例中，在基于训练后的联合学习网络得到目标摘要信息的过程中，目标摘要信息的生成采用如下公式：

本发明提供的技术方案，能够基于seq2seq序列模型中的编码器对获取的文本信息进行编码，得到基于文本句法层面的第一中间语义向量；将所述第一中间语义向量输入至主题模型中，得到主题向量；根据所述主题向量和所述第一中间语义向量，并通过seq2seq序列模型中的解码器进行解码，生成目标摘要信息。利用由主题模型和seq2seq序列模型组成的联合学习网络，能够学习和保留全局语义信息，以及可以提供额外的语义指导来抓取文档重要语义信息，有助于捕获文本的语义信息作为关键信息来对解码器端的文本摘要生成进行指导，使得生成的文本摘要更贴合输入文档的语义信息。

实施例2：

本发明的实施例还提供一种基于主题模型的文本摘要装置，如图3所示，包括：

在一个实施例中，所述目标摘要生成模块用于执行以下步骤，包括：

基于训练后的联合学习网络得到目标摘要信息。

在一个实施例中，可选地，在第二方面的一种可能实现方式中，将所述第一中间语义向量输入至主题模型中，得到主题向量，包括：

在一个实施例中，所述第二获取模块，用于执行以下步骤，包括：

对所述符合正态分布的中间语义向量使用Relu激活函数，以得到主题向量。在一个实施例中，所述所述第二损失函数如下：

L＝αL_tm+βLf_inetune

其中，α和β是两个超参数，Ltm是主题模型的损失函数，Lfinetune 是seq2seq中基于seq2seq序列模型中的第二解码器的损失函数。

实施例3：

整体逻辑

将神经主题模型和基于seq2seq的transformer模型构建的联合学习网络，能够学习和保留全局语义信息，以及可以提供额外的语义指导来抓取文档重要语义信息。采用编码器端的预训练语言模型的最后一层隐层输出，作为解码器端和主题模型的输入，同时将主题模型提取的语义分布通过注意机制，作为先验知识附加在解码器端，让解码器端输出更贴合文本主题语义信息的摘要，简要流程示例如下：

1.带有n个文字的文档首先通过编码生成数字向量，借由词汇矩阵对数字向量进行词向量编码，此过程中借由自注意力机制，得到提取了基于文本句法层面的语义表征作为编码器端的输出。

2.由于编码器端的输出已经具备了文本的上下文句法信息，在这个给定的语料下，主题模型以这个输出作为输入，利用主题矩阵(矩阵行数为指定主题类别，列数为主题词汇数)编码，则可以学习到全局特征，得到主题词汇的概率分布及信息编码表征，并将其作为指导附加在解码器端。

3.解码器端，是逐字生成文本摘要，采用时序模型的思路，一方面利用编码器端的全部输出，另一方面，在预测当前字的结果时，还需要利用解码器端前面生成的摘要文本信息。

4.同时，在解码过程中，当解码器端从词汇表中逐个概率选取字用于摘要表示的同时，同时将主题模型得到的基于语义层面的主题词汇编码表征作为影响因子，指导这个概率，使得生成的文本摘要更贴合输入文档的语义信息。

5.最终在解码器端生成包含m个文字的文本摘要。

效果验证：

我们衡量比较了我们的模型和当前学术界比较认可的BART模型(一种公认的对于摘要生成任务较好的SOTA模型)在CNN/DM数据集上的结果，采取的衡量指标是学术界认可的生成式任务的衡量指标ROUGE-1， ROUGE-2，ROUGE-L，我们的模型测试结果分别为44.38，22.19， 41.33，BART的结果为44.16，21.28，40.09，可以看到我们的模型虽然在ROUGE-2上的衡量指标略低于BART，在ROUGE-1和ROUGE- L均在SOTA模型上有所提高。

技术效果分析：

(1)在之前seq2seq序列模型的基础上提出了一个用于概括摘要的新主题模型框架，包含主题信息，有助于捕获文本的语义信息作为关键信息来对解码器端的文本摘要生成进行指导。这种通用框架在NLP中开辟了一个新的视角，并且可以扩展到其他语言任务。

(2)通过主题模型和基于注意力机制的transformer转换器来利用主题级特征，从而实现基于主题感知注意力的编码器-解码器，可有效提升文本摘要任务的表现效果。

(3)主题模型的部分可以抽取文档中的单词属于特定主题的概率，通过利用主题关联信息，对于文档中的词汇，我们的模型能够分配更多更可能代表关键词主题的词的权重，从而产生更好的总结。

(4)对于单采用transfomer的的seq2seq序列模型而言，由于主题模型的融合可以更好的捕获文本的语义信息，而不仅仅停留于上下文表征的句法信息内容，这意味在全局层面上，可以更好的生成整合了文档语义信息的文本摘要。

(5)在注意力机制的影响下，我们的模型会有条件的忽略到文本噪声，去掉一些文本无关信息对于概括摘要生成的影响，从而具有更高的鲁棒性

(6)对于文本中的长、短语料以及不均衡语料信息均能在主题模型的影响下通过解码器端以注意力机制进行此表中的文字序列采样输出摘要，缓解了传统模型对于语料均衡的限制条件。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits，ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元 (英文：Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，DSP)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。