CN109145105A

CN109145105A - 一种融合信息选择与语义关联的文本摘要模型生成算法

Info

Publication number: CN109145105A
Application number: CN201810830720.9A
Authority: CN
Inventors: 郭文忠; 陈立群; 郭昆; 陈羽中
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2019-01-04
Anticipated expiration: 2038-07-26
Also published as: CN109145105B

Abstract

本发明涉及一种融合信息选择与语义关联的文本摘要模型生成算法，首先基于Encoder‑Decoder模型的基础之上结合注意力机制以获取输入序列足够的信息；接着采用拷贝机制与覆盖度机制解决生成摘要中的未登入词问题与子句重复的问题；然后设计一种选择网络，通过该网络对原文进行二次编码以过滤冗余信息；最后通过比较原文与摘要的语义相关度，校正摘要的语义，提升摘要与原文的语义关联。

Description

一种融合信息选择与语义关联的文本摘要模型生成算法

技术领域

本发明涉及信息选择与语义关联领域，特别是一种融合信息选择与语义关联的文本摘要模型生成算法。

背景技术

基于encoder-decoder框架的Seq2Seq模型于2014年在机器翻译领域中被Sutskever等人提出并流行开来，其意义在于完全基于数据本身，从数据中学习特征出来，并且相比于其他抽象式摘要方法可以得到更好的效果。Rush等人在2015年发表的论文中将神经语言模型和基于上下文的输入编码器相结合，提出了一种基于encoder-decoder框架的句子摘要模型，在给定输入句子的情况下，逐个生成摘要的每个词。Lopyrev等人用LSTM作为encoder-decoder框架的模型，并且使用了注意力模型来生成新闻文章的标题，效果很好。同时又提出了一种简化版的注意力机制(attention mechanism)，相比于复杂版的注意力机制在解决新闻标题生成问题上有更好的效果。Cheng等人提出一种由分层文档encoder和基于注意力机制的抽取器组成的单文档摘要框架，该框架能实现词层面与句子层面的摘要。Tan等人提出一种新型的基于图结构的注意力机制，能发现文档中的显著的信息，在此基础之上提出一种分层次的解码算法生成长序列摘要。

近年来，Seq2Seq和注意力模型的大规模使用将抽象式的摘要研究提高了一个水平。然而在文本摘要的研究中仍然存在许多问题与瓶颈需待解决。例如，在语言模型普遍存在的未登入词(out-of-vocabulary)问题，人名、机构名等这些专有名词并未在给定的词表中出现，在生成摘要时无法生成这些词；在生成多句摘要时，Seq2Seq模型中普遍存在摘要结果中子句重复、信息冗余的问题；生成的摘要的语义与原文的语义可能存在偏差甚至大相径庭的情况。由此可见，生成摘要的准确性以及可读性有较大提升空间。

发明内容

有鉴于此，本发明的目的是提出一种融合信息选择与语义关联的文本摘要模型生成算法，能够综合改善生成摘要中存在的未登入词、句子重复、信息冗余以及生成摘要的语义与原文的语义存在偏差甚至大相径庭等问题。

本发明采用以下方案实现：一种融合信息选择与语义关联的文本摘要模型生成算法，包括以下步骤：

步骤S1：基于Encoder-Decoder模型的基础之上结合注意力机制，以获取输入序列的足够信息；

步骤S2：采用拷贝机制与覆盖度机制解决未登入词问题与生成摘要子句重复的问题；

步骤S3：设计一种选择网络，通过对编码器生成的隐含层进行过滤，从输入原文的编码信息中筛选出更为有用的信息作为输入原文的二次编码信息，以实现信息选择的目的，过滤冗余信息；

步骤S4：通过比较原文与摘要的语义相关度，校正摘要的语义，提升摘要与原文的语义关联，得到最后模型。

进一步地，步骤S1具体包括以下步骤：

步骤S11：将注意力机制引入Encoder-Decoder模型之中；

步骤S12：编码器将输入编码成一个向量序列；在解码的时候，每一步都会选择性的从向量序列中挑选一个子集进行进一步处理，生成当前步骤的语义向量；

步骤S13：在产生输出的时候，先产生一个注意力分布，表示接下来输出的时候要重点关注输入序列中的哪些部分，然后根据关注的区域来产生下一个输出。

进一步地，所述Encoder-Decoder模型采用双向LSTM作为编码器Encoder，生成由编码器各个隐含层状态所组成的序列其中表示正向LSTM的隐状态，表示反向LSTM的隐状态；解码器decoder由单向LSTM组成，在解码器执行第t步时，通过结合上一步生成词y_t-1与解码器状态s_t生成该步中的摘要结果y_t；

解码器执行第t步时的注意力分布采用下式计算：

式中，v、W_h、W_s、b_attn是待学习的参数，h_i表示编码器输出；

采用下式利用所述注意力分布生成语义向量c：

通过结合语义向量c与解码器状态s_t生成词表的概率分布P_vocab：

P_vocab＝softmax(V'(V[s_t,c]+b)+b')；

式中，V'、V、b、b'是待学习的参数，P_vocab表示生成下一个词时词表中所有词的概率分布，通过该概率分布，获取预测词的概率P(w)：

P(w)＝P_vocab(w)；

式中，w表示预测词。

进一步地，步骤S2具体包括以下步骤：

步骤S21：采用拷贝机制定义一个生成概率p_gen∈[0,1]：

式中，b_ptr为待学习的参数，σ为sigmoid激活函数，p_gen表示选择从词表生成词或是从输入序列中拷贝对应词的概率，c表示语义向量，s_t表示解码器状态，y_t表示当前步骤中的摘要结果；

步骤S22：通过将未登入词加入词表生成拓展词表并通过拓展词表的概率分布获取预测词的概率，进而将公式P(w)＝P_vocab(w)替换为：

式中，w_i表示出现在原文中的词；

步骤S23：采用覆盖度机制为维持一个覆盖度向量c^t，由于注意力分布含有原文的位置信息，通过避免相同位置词重复出现来避免生成重复的文本；覆盖度向量通过累加解码器之前步骤的注意力分布来表示：

式中，表示到解码器生成第t个词为止注意力分布对应的第i个词对生成摘要的影响的覆盖度向量；

步骤S24：将覆盖度向量融合到注意力机制中，表示在每一步生成注意力分布时能考虑到之前生成词的分布情况，避免生成重复的文本，即在公式中引入覆盖度向量，得到下式：

式中，w_c为待学习的参数；

步骤S25：采用下式来定义覆盖度损失以惩罚重复生成相同位置词的情况：

式中，表示表示到解码器生成第t个词为止注意力分布对应的第i个词对生成摘要的影响的覆盖度向量；在训练时，解码器第t步的损失函数定义如下：

式中，表示标准摘要结果中的目标词；

整个长度为T的摘要序列的损失为：

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：保留RNN的最后一个状态或是平均池化RNN的输出来提取句子或是整个文档的信息，并对原文进行卷积，获取词之间的上下文关系，获取文档中词的特征信息；

步骤S32：通过结合文档每个词的特征信息与整个文档的特征信息对编码器的输出进行选择，生成二次编码信息，使主要内容暴露出来。

进一步地，步骤S31具体为：

步骤S311：将一个长度为n的文档表示为一个矩阵W＝[w₁,w₂,…,w_n]∈R^n×d，其w_i中表示第i个词的词向量；一个宽度为h的卷积核K∈R^h×d能够将一个文档中连续的h个词进行卷积生成一个新的特征，通过卷积操作遍历整个文档能够生成一个特征映射f＝[f₁,f₂,...,f_n-h+1]∈R^n-h+1，其中f_i定义为：

f_i＝ReLU(K·W_i:i+h-1+b)；

式中，W_i:i+h-1表示窗口大小为h的词向量矩阵，b表示偏置；

步骤S312：通过最大池化特征映射，将结果f'作为卷积核K对应于该文档每个词的特征信息：

f'＝max(f)；

步骤S313：通过连结双向LSTM的正向最后一个隐含状态与反向第一个隐藏状态来表示整个文档的特征信息s：

进一步地，步骤S32具体包括以下步骤：

步骤S321：对于编码器每个输出结果h_i，选择网络通过将h_i与s、f'结合生成一个权重映射sGate_i：

sGate_i＝σ(I_sh_i+J_ss+K_sf'+b)

式中，I_s、J_s、K_s为待学习的参数；sGate_i综合文档的特征信息与文档中词的特征调整编码结果，对突出的主要信息赋予更高的权重，对于不重要的信息弱化其对整个文档的作用；

步骤S322：每个词根据该权重映射将编码器输出h_i映射为h_i'作为二次编码结果：

h_i'＝h_i·sGate_i；

步骤S323：选择二次编码结果h₁',h₂',...,h_n'代替原编码结果h₁,h₂,...,h_n作为输入解码器的文档编码结果，通过提高原文质量的方式来提高生成的摘要的质量。

进一步地，步骤S4具体包括以下步骤：

步骤S41：编码器Encoder的最后一个输出状态h_n能表达原文的语义V_t信息，解码器的最后一个输出状态s_m包含有原文与生成摘要二者的信息，使二者相减来表示摘要的语义信息V_s：

V_s＝s_m-h_n；

步骤S42：采用余弦相似度计算原文与摘要的语义相似度：

式中，V_s表示生成摘要的语义向量，V_t表示原文的语义向量；

步骤S43：在公式中引入语义相似度，得到最终的损失函数如下：

loss'＝loss-cos(V_S,V_t)；

在训练过程中降低最终的损失函数来最大化原文与生成摘要的余弦相似度、最小化覆盖度。

与现有技术相比，本发明有以下有益效果：本发明设计了一种选择网络对编码器的输出进行筛选，保留关键内容同时过滤掉无效的信息，提供给解码器高质量的编码结果，帮助减少生成摘要的冗余信息；通过将拷贝机制、覆盖度机制与语义相关性相融合，解决未登入词问题同时，减少重复信息的生成并提高摘要与原文的语义关联，提高摘要质量。

附图说明

图1为本发明实施例中Encoder-Decoder模型示意图。

图2为本发明实施例中基于注意力机制的Seq2Seq模型示意图。

图3为本发明实施例中双向LSTM作为编码器的Seq2Seq模型示意图。

图4为本发明实施例中词向量卷积模型示意图。

图5为本发明实施例中选择网络模型示意图。

图6为本发明实施例中融合信息选择与语义关联模型示意图。

图7为本发明实施例的方法流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图7所示，本实施例提供了一种融合信息选择与语义关联的文本摘要模型生成算法，包括以下步骤：

如图1所示，在Encoder-Decoder模型中，由于编码与解码之间的唯一联系为一个固定长度的语义向量c，编码器要将整个序列的信息压缩进c中，但是由于语义向量无法完全表示整个序列的信息，且先输入的内容携带的信息会被后输入的信息覆盖掉。输入序列越长，这个现象就越严重。这就使得在解码一开始就没有获得输入序列足够的信息，导致解码时的准确度降低。

在本实施例中，步骤S1具体包括以下步骤：

步骤S11：将注意力机制引入Encoder-Decoder模型之中；注意力模型不再要求编码器将所有输入信息编码到一个固定长度的向量中。

步骤S12：编码器将输入编码成一个向量序列；在解码的时候，每一步都会选择性的从向量序列中挑选一个子集进行进一步处理，生成当前步骤的语义向量；即图2所示的语义向量c1、c2、c3，这样，在产生每一个输出的时候，都能够做到充分利用输入序列携带的信息。

如图3所示，在本实施例中，所述Encoder-Decoder模型采用双向LSTM作为编码器Encoder，生成由编码器各个隐含层状态所组成的序列其中表示正向LSTM的隐状态，表示反向LSTM的隐状态；解码器decoder由单向LSTM组成，在解码器执行第t步时，通过结合上一步生成词y_t-1与解码器状态s_t生成该步中的摘要结果y_t；

解码器执行第t步时的注意力分布采用下式计算：

采用下式利用所述注意力分布生成语义向量c：

P_vocab＝softmax(V'(V[s_t,c]+b)+b')；

P(w)＝P_vocab(w)；

式中，w表示预测词。

在本实施例中，步骤S2具体包括以下步骤：

步骤S21：采用拷贝机制定义一个生成概率p_gen∈[0,1]：

式中，w_i表示出现在原文中的词；

式中，w_c为待学习的参数；

式中，表示标准摘要结果中的目标词；

整个长度为T的摘要序列的损失为：

在本实施例中，所述步骤S3具体包括以下步骤：

在本实施例中，步骤S31具体为：

f_i＝ReLU(K·W_i:i+h-1+b)；

式中，W_i:i+h-1表示窗口大小为h的词向量矩阵，b表示偏置；

f'＝max(f)；

过程如图4所示，采用3个卷积核进行卷积操作，其中每个卷积核宽度h为2。

步骤S313：由于RNN的最后一个输出包含有整个文档的特征信息，因此通过连结双向LSTM的正向最后一个隐含状态与反向第一个隐藏状态来表示整个文档的特征信息s：

在本实施例中，步骤S32具体包括以下步骤：

sGate_i＝σ(I_sh_i+J_ss+K_sf'+b)

h_i'＝h_i·sGate_i；

步骤S323：如图5所示，选择二次编码结果h₁',h₂',...,h_n'代替原编码结果h₁,h₂,...,h_n作为输入解码器的文档编码结果，通过提高原文质量的方式来提高生成的摘要的质量。

在本实施例中，步骤S4具体包括以下步骤：

步骤S41：如图6所示，编码器Encoder的最后一个输出状态h_n能表达原文的语义V_t信息，解码器的最后一个输出状态s_m包含有原文与生成摘要二者的信息，使二者相减来表示摘要的语义信息V_s：

V_s＝s_m-h_n；

步骤S42：采用余弦相似度计算原文与摘要的语义相似度：

步骤S43：为了使模型生成的摘要结果更全面，既能处理摘要中普遍存在的信息重复的问题和未登入词问题，又能改善原文与摘要语义存在偏差的情况，提出的语义关联的方法将拷贝机制、覆盖度机制与原文、摘要语义相关性相结合，减少重复信息的同时，提高摘要与原文的语义关联，从而提高摘要质量。在公式中引入语义相似度，得到最终的损失函数如下：

loss'＝loss-cos(V_S,V_t)；

上式考虑了原文-摘要的余弦相似度，训练过程通过降低损失函数来最大化原文与生成摘要的余弦相似度、最小化覆盖度，以提高原文摘要语义关联与降低生成摘要重复率，提升摘要结果质量。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种融合信息选择与语义关联的文本摘要模型生成算法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种融合信息选择与语义关联的文本摘要模型生成算法，其特征在于：步骤S1具体包括以下步骤：

步骤S11：将注意力机制引入Encoder-Decoder模型之中；

3.根据权利要求2所述的一种融合信息选择与语义关联的文本摘要模型生成算法，其特征在于：所述Encoder-Decoder模型采用双向LSTM作为编码器Encoder，生成由编码器各个隐含层状态所组成的序列其中表示正向LSTM的隐状态，表示反向LSTM的隐状态；解码器decoder由单向LSTM组成，在解码器执行第t步时，通过结合上一步生成词y_t-1与解码器状态s_t生成该步中的摘要结果y_t；

解码器执行第t步时的注意力分布采用下式计算：

采用下式利用所述注意力分布生成语义向量c：

P_vocab＝softmax(V′(V[s_t，c]+b)+b′)；

式中，V′、V、b、b′是待学习的参数，P_vocab表示生成下一个词时词表中所有词的概率分布，通过该概率分布，获取预测词的概率P(w)：

P(w)＝P_vocab(w)；

式中，w表示预测词。

4.根据权利要求1所述的一种融合信息选择与语义关联的文本摘要模型生成算法，其特征在于：步骤S2具体包括以下步骤：

步骤S21：采用拷贝机制定义一个生成概率p_gen∈[0，1]：

式中，w_i表示出现在原文中的词；

式中，w_c为待学习的参数；

式中，表示标准摘要结果中的目标词；

整个长度为T的摘要序列的损失为：

5.根据权利要求1所述的一种融合信息选择与语义关联的文本摘要模型生成算法，其特征在于：所述步骤S3具体包括以下步骤：

6.根据权利要求5所述的一种融合信息选择与语义关联的文本摘要模型生成算法，其特征在于：步骤S31具体为：

步骤S311：将一个长度为n的文档表示为一个矩阵W＝[w₁，w₂，...，w_n]∈R^n×d，其w_i中表示第i个词的词向量；一个宽度为h的卷积核K∈R^h×d能够将一个文档中连续的h个词进行卷积生成一个新的特征，通过卷积操作遍历整个文档能够生成一个特征映射f＝[f₁，f₂，...，f_n-h+1]∈R^n-h+1，其中f_i定义为：

f_i＝ReLU(K·W_i∶i+h-1+b)；

式中，W_i∶i+h1表示窗口大小为h的词向量矩阵，b表示偏置；

步骤S312：通过最大池化特征映射，将结果f′作为卷积核K对应于该文档每个词的特征信息：

f′＝max(f)；

。

7.根据权利要求5所述的一种融合信息选择与语义关联的文本摘要模型生成算法，其特征在于：步骤S32具体包括以下步骤：

步骤S321：对于编码器每个输出结果h_i，选择网络通过将h_i与s、f′结合生成一个权重映射sGate_i：

sGate_i＝σ(I_sh_i+J_ss+K_sf′+b)

步骤S322：每个词根据该权重映射将编码器输出h_i映射为h_i′作为二次编码结果：

h_i′＝h_i·sGate_i；

步骤S323：选择二次编码结果h₁′，h₂′，...，h_n′代替原编码结果h₁，h₂，...，h_n作为输入解码器的文档编码结果，通过提高原文质量的方式来提高生成的摘要的质量。

8.根据权利要求1所述的一种融合信息选择与语义关联的文本摘要模型生成算法，其特征在于：步骤S4具体包括以下步骤：

V_s＝s_m-h_n；

步骤S42：采用余弦相似度计算原文与摘要的语义相似度：

loss′＝loss-cos(V_S，V_t)；