CN111666756A

CN111666756A - 一种基于主题融合的序列模型文本摘要生成方法

Info

Publication number: CN111666756A
Application number: CN202010453197.XA
Authority: CN
Inventors: 熊才权; 王壮; 沈力
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-15
Anticipated expiration: 2040-05-26
Also published as: CN111666756B

Abstract

本发明公开了一种基于主题融合的序列模型文本摘要生成方法，首先对输入文本进行预处理，使用word2vec模型来进行词嵌入训练,然后对词嵌入处理之后的文本使用序列到序列框架编码和解码。编码器和解码器网络都是通过双向长短时记忆网络层来构建，最后加入主题融合注意力机制将主题化和上下文的对齐信息提供到深度学习架构中，来帮助模型生成更连贯、多样性更强和信息更丰富的摘要。该方法引入数学领域中常见的统计学方法以及计算机领域的深度学习方法方法，确定了一种较为通用的文本摘要方法，也为其他文本摘要模型提供了一种计算参考方法，可以改善文本摘要的生成效果。

Description

一种基于主题融合的序列模型文本摘要生成方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于主题融合的序列模型文本摘要生成方法。

背景技术

文本摘要是文本内容的缩影，是提高用户查找与阅读理解效率的重要工具，但传统的摘要由人工产生，成本高且效率低下，因此自动文本摘要技术应运而生。使机器理解人类语言是人工智能领域长期的目标，自动文本摘要在各种自然语言处理(NLP)应用中发挥了重要作用。

现有技术中，文本摘要主要可分为抽取式和概要式。抽取式要从原文中找出重要的句子，并将其组合成一段话作为原文的摘要，这种方式句子表述非常流畅，不会出现语法问题；概要式就需要计算机能理解自然语言的语义，并将其用计算机理解的表达方式将其表述出来，但概要式摘要的可读性较差。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

目前市面上广泛使用的文本摘要系统，绝大多数都是抽取式，这个方法比较简单，但存在很多问题，比如一旦源文本中有代词存在，摘要的一致性、连贯性则很难保证，简单的组合可能使人们无法清除地了解代词的指代关系，甚至会导致根本性错误，有可能会产生很大的影响。

由此可知，现有技术中的方法存在文本摘要生成效果不佳的技术问题。

发明内容

本发明提出一种基于主题融合的序列模型文本摘要生成方法，用于解决或者至少部分解决现有技术中的方法存在的文本摘要生成效果不佳的技术问题。

为了解决上述技术问题，本发明提供了一种基于主题融合的序列模型文本摘要生成方法，包括：

S1：对输入文本进行预处理和分词处理，通过主题模型获得输入文本的主题嵌入，并采用word2vec模型对分词处理后的文本进行词嵌入处理；

S2：构建基于主题融合的序列模型，在模型中使用BiLSTM网络层对词嵌入后的文本进行编码并得到最后一次的隐藏层状态，其中，最后一次的隐藏层状态包含词嵌入后的文本的语义特征；

S3：对输入文本的主题嵌入与最后一次的隐藏层状态进行联合注意力机制处理，获得输出序列；

S4：根据最后一次隐藏层状态中包含的语义特征和输出序列，解码生成输入文本的摘要。

在一种实施方式中，S1中通过主题模型获得输入文本的主题嵌入，包括：

引入LDA模型进行主题嵌入训练，最终得到输入文本的主题嵌入。

在一种实施方式中，S1中采用word2vec模型对分词处理后的文本进行词嵌入处理，具体包括：

word2vec模型采用skip-gram方法，并用Hierarchical Softmax优化计算，优化的目标函数通常取为对数似然函数，形式为：

式(1)表示已知当前词w_t的前提下，预测其上下文Context(w)，例如w_t-2,w_t-1,w_t+1,w_t+2。

在一种实施方式中，S2具体包括：

编码器采用BiLSTM神经网络，当输入遇到结束标识符则最后一次编码完成，整个文本通过编码器转变成语义编码c，每次的隐藏层都依赖前一次编码的隐藏层状态，通过循环迭代，最后一次的隐藏层状态包含了整个文本的语义特征，使用最后一次的隐藏层状态作为语义编码c，即：

其中，

为输入序列的文本嵌入，由T_x个固定长度为m的嵌入构成，在编码阶段中，每次编码都会有产生一个隐藏层状态，隐藏层状态由当前的文本向量输入和上一时刻序列编码的隐藏层状态决定，当前时刻t的隐藏层状态为：

h_t＝f(h_t-1,x_t) (3)

其中，h_t-1表示上一时刻序列编码的隐藏层状态，x_t表示当前的文本向量输入。

在一种实施方式中，S3具体包括：

S3.1：将步骤S2得到的文本向量隐藏层状态

中加入主题嵌入s，并输入到公式

中，得到新的隐藏层状态

表达式如下所示：

其中ω和b代表神经网络中的权重和偏置，tanh()是双曲正切函数，使用u_f和单词级上下文向量h_f之间的相似性来度量每个单词的重要性；

S3.2：通过联合注意力机制将主题信息合并到基于主题融合的序列模型中，获得输出序列。

在一种实施方式中，S3.2具体包括：

S3.2.1：通过联合注意力机制得到联合注意力权重

其中exp()表示指数函数：

S3.2.2：根据权重

的前向单词标注加权和以及主题前向加权和计算出注意力层的输出部分，如下式所示：

后向状态为：

S3.2.3：通过连接正向上下文表示F_c和反向上下文表示H_c，获得完整的上下文表示Y＝[F_c,H_c]，作为输出序列。

在一种实施方式中，S4具体包括：

将输出序列中的句子单元Y＝{Y₁,Y₂,...,Y_t}的整体概率分割为如下公式所示的条件概率：

而式(8)中每个单元的概率又可用下列公式表示：

p(Y_t|{Y₁,Y₂,...,Y_t-1},c)＝g(Y_t-1,h_t,c) (9)

公式(9)表示在一个非线性函数g()中，对于时间步t的输出Y_t，由时间步t的隐藏状态h_t，以及语义编码c和上一个输出Y_t-1得到，输出Y_t为输入文本的摘要。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于主题融合的序列模型文本摘要生成方法，首先对输入文本进行预处理和分词处理，通过主题模型获得输入文本的主题嵌入，并采用word2vec模型对分词处理后的文本进行词嵌入处理；然后构建基于主题融合的序列模型，在模型中使用BiLSTM网络层对词嵌入后的文本进行编码并得到最后一次的隐藏层状态；接着对输入文本的主题嵌入与最后一次的隐藏层状态进行联合注意力机制处理，获得输出序列；最后根据最后一次隐藏层状态中包含的语义特征和输出序列，解码生成输入文本的摘要。

相比于现有技术的方法，本发明通过将文本主题信息合并到双向LSTM序列到序列模型中，将主题化和上下文的对齐信息提供到深度学习架构中，来更好的处理文本摘要中长期依赖关系问题，避免漏掉在源文本句法结构中起关键作用的主题词汇以及词与词之间的关系，帮助模型生成更连贯、信息更丰富、更加贴合主题信息的摘要，故而改善了摘要生成的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于主题融合的序列模型文本摘要生成方法的整体网络框架意图；

图2为摘要生成的处理流程示意图。

具体实施方式

针对传统神经网络用于摘要任务的特殊性、数据规模大、结果相对发散和不一致、长文档语义编码等问题，使得摘要时总体性能提升并不明显的问题，本发明提供了一种基于主题融合的序列模型文本摘要生成方法。

本发明的技术方案是：

一种基于主题融合的序列模型文本摘要方法，通过将文本主题信息合并到双向LSTM序列到序列模型中，将主题化和上下文的对齐信息提供到深度学习架构中，来更好的处理文本摘要中长期依赖关系问题，避免漏掉在源文本句法结构中起关键作用的主题词汇以及词与词之间的关系，帮助模型生成更连贯、信息更丰富、更加贴合主题信息的摘要。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种基于主题融合的序列模型文本摘要生成方法，该方法包括：

具体来说，S1中，对输入文本进行预处理包括文本特殊字符的清洗，筛选出没有重要意义的停用词等。通过word2vec模型处理之后的文本，可以得到维度为m的词向量。

S2中，构建的基于主题融合的序列模型包括解码器和编码器，编码器和解码器网络都是通过Bidirectional LSTM层来构建的，编码器的作用是将输入的序列转换成固定长度的文本向量表示：同样的，解码器的作用是将编码器转换出的固定文本向量表示再次转化成输出文本序列。其中S2由编码器完成，通过编码器的作用对S1中处理得到的向量进行编码，得到输入文本的语义编码。

S3中，是进入联合注意力机制的处理过程。S4是解码器的工作过程，通过解码器的解码操作，得到最终的摘要。

请参见图1，为一种基于主题融合的序列模型文本摘要生成方法的整体网络框架意图，即基于主题融合的序列模型的实现原理图，Word embedding即为步骤S1得到的词向量，topic embedding为主题嵌入，

图2为摘要生成的处理流程示意图，创建序列到序列问题是指在序列到序列框架中使用BiLSTM网络对文本进行编码并得到最后一次的隐藏层状态，其包含了整个文本的语义特征，即通过模型编码得到输入文本的语义编码，然后通过模型解码得到最终的摘要。

在具体的实施过程中，本发明的主题嵌入是通过经典的主题模型获得的，如潜在的Latent Dirichlet Allocation(LDA)。在训练模型前，本发明使用LDA为输入文本分配主题。将具有与每个主题概率最高的前N个非通用词选择到主题词汇K中。当文本词汇表表示为V时，假设

给定一个输入句子x＝(x,...,x_m)，如果一个词

本发明可以将这个主题词嵌入称作

让它作为主题嵌入矩阵

中的一行，其中K为主题词汇量的大小。嵌入矩阵D_topic由相应的预训练主题分布矩阵进行归一化，其行与每个单词分配到每个主题的次数成正比，通过python的gensim框架，本发明引入LDA模型进行主题嵌入训练，最终得到主题嵌入s＝(s₁,...,s_n)。

在具体的实施过程中，假设输入单词的向量为x＝{x₁,...x_n}，则输出的单词向量为y＝{y₁,...y_m}，词嵌入的维度为m。

在一种实施方式中，S2具体包括：

其中，

h_t＝f(h_t-1,x_t) (3)

具体来说，设输入序列为

输出序列为

输入序列的文本嵌入表示由T_x个固定长度为m的嵌入构成，并将编码器阶段输入的序列的隐藏层定义为h_j，解码器阶段的隐藏层用s_i表示，在编码阶段或解码阶段中，每次编码或解码都会有一个隐藏层状态，并且这个状态不止是由当前的文本向量输入决定，还取决于上一时刻序列编码或解码的隐藏层状态。

在一种实施方式中，S3具体包括：

S3.1：将步骤S2得到的文本向量隐藏层状态

中加入主题嵌入s，并输入到公式

中，得到新的隐藏层状态

表达式如下所示：

在一种实施方式中，S3.2具体包括：

S3.2.1：通过联合注意力机制得到联合注意力权重

其中exp()表示指数函数：

S3.2.2：根据权重

后向状态为：

具体来说，由于所有的单词对上下文的信息都有不同的贡献，所以给单词分配不同的权重是解决这个问题的常用方法。在步骤2编码过程中，使BiLSTM结合主题注意力机制可以提高文本摘要的句子质量，注意力机制由一个全连接层和一个softmax层组成，它可以关注关键词的特征，减少非关键词对文本结构的影响。在实践中，该架构涉及复制网络中的第一个循环层，使得有两个并排的层，然后提供输入序列，由输入到第一层(表示为

)并提供序列到第二层的反向副本(表示为

)组成。前向状态的输出不连接到后向状态的输入，反之亦然。注意力机制由一个全连接层和一个softmax层组成，它可以关注关键词的特征，减少非关键词对文本情感的影响。

在具体实施过程中，可以采用Adam optimizer算法优化网络参数。通过Adam优化器对模型参数进行微调，证明了该算法是一种高效的反向传播算法。以交叉熵作为损失函数可以降低随机梯度过程中梯度消失的风险。

在一种实施方式中，S4具体包括：

而式(8)中每个单元的概率又可用下列公式表示：

p(Y_t|{Y₁,Y₂,...,Y_t-1},c)＝g(Y_t-1,h_t,c) (9)

本发明的有益效果是：基于主题融合的深度神经网络文本摘要方法，引入word2vec算法进行词嵌入训练，并使用改进后的序列到序列框架进行文本摘要，并使用国内通用的语料库数据对该算法进行检测，实验结果表明本发明提出的改进序列到序列框架的文本摘要算法是有效的。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。