CN115840815A

CN115840815A - 基于指针关键信息的自动摘要生成方法

Info

Publication number: CN115840815A
Application number: CN202211584209.8A
Authority: CN
Inventors: 黄文明; 卜祥辉
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-24

Abstract

本发明公开了一种基于指针关键信息的自动摘要生成方法，首先，通过预训练模型获取文章的多维语义特征的句向量；其次，使用指针选取关键词语义特征词向量；最后使用编码器进行摘要的生成。该方法中，采用神经网络搭建模型框架，使用自动化的学习和训练，免去了过多的人工干预，训练过程采用预测和验证两种方式，然后使模型计算损失并自动提高模型的准确率。本发明方法应用性强，在新闻生成标题、文案生成等方面将会有很大的应用。

Description

基于指针关键信息的自动摘要生成方法

技术领域

本发明属于自然语言处理技术领域，涉及Transformer模型、Bert模型等主流的深度学习模型，具体是基于指针关键信息，实现长文本生成简短摘要内容的方法。

背景技术

摘要生成是将一段文本压缩成包含原文主要信息的简短版本的任务，文本摘要技术一般可以分为两种提取方法：抽取式文摘，从输入文档抽取最适合的单词或句子并将它们总结起来。生成式文摘，自由生成摘要和产生新的单词和句子。抽取式算法更容易，因为复制源文档中文本块确保了语法和准确性。与抽取式相比，生成式算法更灵活，更容易产生流畅、连贯的摘要。

近年来，随着自然语言处理研究的进展，生成式文本摘要技术已成为热门研究课题并取得了显著的进展。Rush等人，Hu等人和Chopra等人已经提出了几种Encoder-Decoder方法。尽管他们取得了成功，但人们普遍认为生成文摘中上下文语义信息表征不足的问题依然存在。Bahdanau等人试图使用双向RNN计算从左到右和从右到左读取输入序列的两种不同表示来解决这个问题。最终的向量是通过连接这两个表示来计算的。之后摘要生成的最大问题就是未登录词。针对这个问题上See等人提出了指针生成网络PGN(Pointer-Generator-Network)，但该模型存在一个问题，对词汇表有很大依赖性，生成的摘要无约束而且不可控。

以往的生成式摘要的无约束性会导致不可控的问题。第一，生成的文摘包含事实错误和幻觉内容。第二，很难控制摘要的内容，很难让文摘的内容准确涉及文章重点信息。为了解决这个问题，本文提出一种提取关键词信息结合Transformer的模型。利用关键词信息控制生成的摘要更加贴近主题，使得生成的摘要能够抓住文章的重点信息，生成内容更贴近标准摘要。

随着深度学习技术的迅速发展，文本摘要取得了可喜的成果，神经网络模型的出现使生成式文摘技术成为可能。注意机制和基于Transformer的语言模型的成功，基于Pre-training的方法受到越来越多的关注，并在许多NLP任务中取得了最先进的表现。预训练编码器-解码器Transformer在摘要生成方面取得了巨大的成功。

近些年深度学习的快速发展，自然语言处理研究取得了巨大的进展。特别是在大规模预训练模型领域，Devlin等人和Peters等人在预训练语言模型取得了显著的进展。在现有的大多数生成式摘要模型中，如Lewis等人提出的BART(Bidirectional and Auto-Regressive Transformers)、Zhang等人提出的PEGASUS(Pre-train with Extracted Gap-sentences for Abstractive Summarization)和Qi等人提出的ProphetNet，都采用基于Transformer的架构。通常首先使用大量语料库以无监督的方式对它们进行预训练，然后进行微调。这些模型在各种文本理解任务中表现出了优越性，尤其在生成式摘要方面。尽管这些模型在基准测试中效果显著，在实际系统中，它们就会出现问题。主要原因在于它们可能严重依赖虚假模式进行预测，生成虚假内容。此外，在语言理解方面的许多先前的研究发现，全局语义可能会被基于Transformer的模型忽略。因为在这些模型中，自我注意力机制通常用于学习和预测单词水平的特征。从现有的预训练语言模型学习到的词嵌入中聚合而成的句向量被发现不能有效且充分的捕获句子之间的语义。这可能导致后续任务的性能下降。生成式摘要需要源文本的全局理解，而不仅仅是单个单词和句子的意思。所以本发明强调全局语义，并避免模型生成虚假内容。本发明方法中，保留预训练模型的优越性，利用关键信息弥补Transformer不能强调全局语义的问题。

发明内容

本发明针对现有摘要生成方法的缺陷，提出一种以关键词为指引信息的自动摘要生成方法。以往关键词提取单一的使用深度学习提取算法或者传统的关键词提取算法，本发明方法将两者结合使用，由于模型不能决定哪些关键词效果更佳，本发明方法引入PGN中的指针，利用指针选取最佳的关键词。

本发明基于指针关键信息的自动摘要生成方法，包括以下两个阶段：

阶段1：通过大量的数据训练，获取摘要生成模型；

阶段2：调用摘要生成模型。

阶段1所述获取摘要生成模型，具体包括以下步骤：

1.1)文本数据筛选和预处理；

1.2)通过编码器、解码器搭建深度学习模型；

1.3)通过数据集训练模型并进行调优，包括根据经验设置合适的超参数，对模型进行多次迭代训练；

1.4)获取摘要生成模型。

阶段2所述调用摘要生成模型，具体包括以下步骤：

2.1)将训练得到的模型封装为一个可执行、可视化程序；

2.2)接收用户的输入；

2.3)用户输入数据预处理，对句子进行分词和过滤字符，然后分类处理并提取文本特征；

2.4)调用摘要生成模型；

2.5)生成概括用户输入的简短摘要。

本发明方法中，步骤1.1)所述文本数据筛选和预处理，包括以下操作：过滤低于200字符的语句；过滤文本中的特殊字符；按照标点符号分句；按照词义进行分词；对照文本字典将文本转为数字。

本发明方法中，步骤1.2)所述搭建深度学习模型，包括以下步骤：文本句向量获取、TextRank关键信息获取、BiLSTM关键信息获取、指针关键信息获取、解码器设置。

所述文本句向量获取：

通过一个编码器对源文件进行编码，类似Transformer模型，与以往的仅通过BERT获取语义信息不同，首先通过BERT模型获取源文本的表征信息，然后在BERT预训练模型后添加一个自我注意块和一个前馈块，获取句向量：

x＝Bert(x)

x＝LN(x+SELFATTN(x))

x＝LN(x+FEEDFORWARD(x))

其中，x为输入文章的张量表示，LN为层标准化，SELFATTN是自我注意网络，FEEDFORWARD为前馈网络。

所述TextRank关键信息获取：

先使用TextRank对源文档进行提取关键词，之后获取关键词在原文中的索引，根据索引在句向量中提取关键词向量，随后将BiLSTM提取的关键词和TextRank中提取的关键词进行融合；TextRank就是将源文档分词，然后以每个词为点建立图模型，最后通过投票选出关键信息；TextRank有向图由点集合V和边集合E组成，两个点之间的权重为w，对于给定的点的v_i，v_i得分定义如下：

其中，V_j是点集合，v_k表示集合V_j中的第k个点，w_ji表示V_j中的第j个点和V_i中的第i个点之间的权重，w_jk表示集合V_j中的第j个点和第k个点之间的权重，d为阻尼系数，d的值一般为0.85，In(V_i)为指向给定点的集合，Out(V_j)为点指向的集合，递归计算各个点的得分直至收敛，根据得分的高低进行关键词的选取。

所述BiLSTM关键信息获取：

BiLSTM分别做解码器和编码器对原文本进行训练得到关键信息，通过使用参数，决定选取topK关键信息(K为决定要选取几个关键信息)；

在BiLSTM编码阶段，模型将分词后并向量化的文本x＝{x₁,x₂...,x_n}输入到BiLSTM中，得到隐藏状态输出{h₁,h₂,...,h_n}；解码时，单向的LSTM通过读取前一个时间戳的输出，得到解码器的隐藏状态s_t,用于预测当前的输出；最后将编码器的结果和解码器的隐藏状态输入到一个线性层和一个softmax层得到注意力分布

通过注意力分布能知道哪些单词在当前的预测过程中更重要，计算公式如下：

e_ti＝v^Ttanh(W_hh_i+W_ss_t)

v^T,W_h,W_s是可学习的参数，h_i是输入x_i的隐藏层状态，s_t表示解码器的隐藏状态，e_t表示经过线性层的中间隐藏状态，在关键信息融合阶段，通过指针在两种提取到的关键信息中进行选取；

解码阶段，模型将分词并向量化后的词语输入LSTM组成的编码器中，经过多层LSTM的迭代获取原文的多维度语义信息context，将context作为输入，输入到LSTM组成的编码器中，通过参数K选取得分排名前K的关键信息。

所述指针关键信息获取：

采用PGN中的单指针选用关键词，既允许通过指针复制TextRank提取的关键词，也允许复制LSTM提取的关键词，类似指针生成网络的注意力分布，以LSTM提取的关键词为基准关键词表计算注意力分布：

e＝vtanh(W_xx+W_bkb_key+b_attn)

a＝softmax(e)

v，W_x，W_bk，b_attn为可学习参数，x为源文件的词向量，b_key为BiLSTM提取的关键词。

注意力分布可以看作是每个关键词对源文本主题的影响因子，可以在后续传递信息给解码器哪些关键词更重要。

权重概率由上下文向量和两种关键词计算：

p＝σ(w_xx+w_bkb_key+w_tkt_key+b_p)

其中w_x，w_bk，w_tk，b_p是可学习参数，x，b_key，t_key分别是上下文信息，BiLSTM关键词和TextRank关键词，σ是sigmoid函数；

权重概率p作为一个软开关，在从基准关键词表中抽取关键词还是从TextRank关键词中进行选择，对于每个文档，结合两种关键词得到最终关键词信息e_k：

e_k＝pt_key+(1-p)a。

所述解码器设置：解码器必须同时处理关键词和源文件，解码器由6个相同的层组成，每层包含四个块，分别为一个多头注意力块y₁，两个交叉注意力块y₂和y₃，一个前馈块y₄，分别表示为：

y₁＝LN(y+MUTIHEADATTN(y))

y₂＝LN(y+CROSSATTN(y,k))

y₃＝LN(y+CROSSATTN(y,x))

y₄＝LN(y+FEEDFORWARD(y))

其中，y为目标摘要的向量表示，第一个交叉注意力块中的k为关键词和原文本经过注意力机制的输出，第二个交叉注意块中的x为上下文信息，理想情况下，第二个交叉注意块允许模型填充关键词信息的细节内容。

本发明阶段2，使用python的可视化界面，使用输入框和输出框，在用户输入后调用模型，生成摘要结果。

本发明方法，采用分阶段地进行摘要生成，过程清晰明了，不冗余，避免了严重依赖虚假模式进行预测的场景，而且通过关键信息克服了从现有的预训练语言模型学习到句向量，不能有效且充分的捕获句子之间的语义的问题。在调用模型阶段，通过对用户输入的文本进行各种过滤和筛选使文本内容更准确，使生成的摘要更贴近真实信息。本发明能够自动生成文本的摘要信息，避免了人工读取长篇的文章信息，在新闻标题生成方面将会有很大的应用。此外，本发明方法使用简单的复制机制，避免未登录词问题，并证明了关键词作为指导信息对新闻文本摘要的生成是非常有效的。

附图说明

图1是本发明方法整体流程示意图；

图2是本发明方法中数据预处理的流程示意图；

图3是本发明方法中深度学习模型构建示意图；

图4是本发明方法中调用摘要生成模型功能示意图；

图5是本发明方法中生成摘要的效果展示图。

具体实施方式

下面结合实施例和附图对本发明内容作进一步的说明，但不是对本发明的限定。

实施例

参照图1，基于指针关键信息的自动摘要生成方法，包括两个阶段：

阶段1：获取摘要生成模型，包括以下步骤：

1.1)文本数据筛选和预处理；

1.2)通过编码器、解码器搭建深度学习模型；

1.3)通过数据集训练模型并进行调优；

1.4)获得摘要生成模型，将训练好的模型保存在计算机中，并通过改变模型训练数据集或者迭代次数，以获得多类型的摘要生成模型；

阶段2：调用摘要生成模型，包括以下步骤：

2.1)将训练得到的模型封装为一个可执行、可视化程序；

2.2)接收用户的输入；

2.4)调用摘要生成模型；

2.5)生成概括用户输入的简短摘要。

参照图2，，本发明步骤1.1)文本数据筛选和预处理，优先过滤长度；之后将符合标准的文本，进行过滤特殊字符，一般为一些数字和无关的英文字符；接下来将过滤得到的文本按照标点符号进行分句处理，例如：感叹号、句号、问号等表示句子结束的符号；对于每个短句，按照中文的语义习惯进行分词处理，使用jieba分词工具进行分词；将字符和数字进行转换，字符和数字之间进行映射过程是将文本中的所有不重复字符(一个字也叫一个字符)读取出来，每个字符打上数字标签，形成字符与数据的一一映射关系，如数字“1”代表“我”，数字“2”代表“你”。本发明使用预训练模型的字典集。

参照图3，深度学习模型构建，包括以下步骤：文本句向量获取、TextRank关键信息获取、BiLSTM关键信息获取、指针关键信息获取、解码器设置。

文本句向量的获取途径：使用预训练模型并微调模型参数。本发明选取Bert预训练模型，通过BERT模型获取源文本的表征信息，然后在BERT预训练模型后添加一个自我注意块和一个前馈块，获取句向量，

x＝Bert(x)

x＝LN(x+SELFATTN(x))

x＝LN(x+FEEDFORWARD(x))。

TextRank模型使用的是一种基于图的方法，之后通过得分得到关键信息。TextRank关键信息获取：先使用TextRank对源文档进行提取关键词，之后获取关键词在原文中的索引，根据索引在上文提到的句向量中提取关键词向量，随后将BiLSTM提取的关键词和TextRank中提取的关键词进行融合；TextRank就是将源文档分词，然后以每个词为点建立图模型，最后通过投票选出关键信息；TextRank有向图由点集合V和边集合E组成，两个点之间的权重为w，对于给定的点的v_i，v_i得分定义如下：

/>

BiLSTM关键信息获取：BiLSTM分别做解码器和编码器对原文本进行训练得到关键信息，通过使用参数，决定选取topK关键信息(K为决定要选取几个关键信息)；

在BiLSTM编码阶段，模型将分词后并向量化的文本x＝{x₁,x₂...,x_n}输入到BiLSTM中，得到隐藏状态输出{h₁,h₂,…,h_n}；解码时，单向的LSTM通过读取前一个时间戳的输出，得到解码器的隐藏状态s_t,用于预测当前的输出；最后将编码器的结果和解码器的隐藏状态输入到一个线性层和一个softmax层得到注意力分布

e_ti＝v^Ttanh(W_hh_i+W_ss_t)

指针关键信息模块：采用PGN中的单指针选用关键词，既允许通过指针复制TextRank提取的关键词，也允许复制LSTM提取的关键词。类似指针生成网络的注意力分布，以LSTM提取的关键词为基准关键词表计算注意力分布：

e＝vtanh(W_xx+W_bkb_key+b_attn)

a＝softmax(e)

v，W_x，W_bk，b_attn为可学习参数，x为源文件的词向量，b_key为BiLSTM提取的关键词。注意力分布可以看作是每个关键词对源文本主题的影响因子，可以在后续传递信息给解码器哪些关键词更重要。权重概率由上下文向量和两种关键词计算：

p＝σ(w_xx+w_bkb_key+w_tkt_key+b_p)

其中w_x，w_bk，w_tk，b_p是可学习参数，x，b_key，t_key分别是上下文信息，BiLSTM关键词和TextRank关键词，σ是sigmoid函数。接下来，权重概率p作为一个软开关，在从基准关键词表中抽取关键词还是从TextRank关键词中进行选择。对于每个文档，结合两种关键词得到最终关键词信息e_k：

e_k＝pt_key+(1-p)a。

编码器设置：解码器必须同时处理关键词和源文件，解码器由6个相同的层组成，每层包含四个块，分别为一个多头注意力块y₁，两个交叉注意力块y₂和y₃，一个前馈块y₄，分别表示为：

y₁＝LN(y+MUTIHEADATTN(y))

y₂＝LN(y+CROSSATTN(y,k))

y₃＝LN(y+CROSSATTN(y,x))

y₄＝LN(y+FEEDFORWARD(y))

参照图4用户操作的流程，为本发明调用文本生成模型整体功能示意图。将用户要处理的文本输入在输入文本框中，点击生成摘要按钮获取摘要，或者点击生成关键信息按钮获取关键词，最后结果展示在文本框内。本发明中对应于一个词表，词表中保存着能够组成训练数据的所有字符集合。

为进一步说明根据用户信息生成对应文本的过程，实施例给出具体窗口按钮和生成内容，参照图5，用户输入：一段新闻文字，然后对输入文本进行预处理，提取出关键信息。之后调用模型，将内容信息输入到模型中，最后生成简短的新闻标题。

Claims

1.基于指针关键信息的自动摘要生成方法，其特征在于，所述方法包括两个阶段：

阶段1：获取摘要生成模型，包括以下步骤：

1.1)文本数据筛选和预处理，包括以下操作：过滤低于200字符的语句；过滤文本中的特殊字符；按照标点符号分句；按照词义进行分词；对照文本字典将文本转为数字；

1.2)通过编码器、解码器搭建深度学习模型，包括以下步骤：文本句向量获取、TextRank关键信息获取、BiLSTM关键信息获取、指针关键信息获取、解码器设置；

1.3)通过数据集训练模型并进行调优；

阶段2：调用摘要生成模型，包括以下步骤：

2.1)将训练得到的模型封装为一个可执行、可视化程序；

2.2)接收用户的输入；

2.4)调用摘要生成模型；

2.5)生成概括用户输入的简短摘要。

2.如权利要求1所述的基于指针关键信息的自动摘要生成方法，其特征在于：步骤1.2)所述文本句向量获取：

x＝Bert(x)

x＝LN(x+SELFATTN(x))

x＝LN(x+FEEDFORWARD(x))

3.如权利要求2所述的基于指针关键信息的自动摘要生成方法，其特征在于：步骤1.2)所述TextRank关键信息获取：

其中，V_j是点集合，v_k表示集合V_j中的第k个点，w_ji表示V_j中的第j个点和V_i中的第i个点之间的权重，w_jk表示集合V_j中的第j个点和第k个点之间的权重，d为阻尼系数，d的值为0.85，In(V_i)为指向给定点的集合，Out(V_j)为点指向的集合，递归计算各个点的得分直至收敛，根据得分的高低进行关键词的选取。

4.如权利要求3所述的基于指针关键信息的自动摘要生成方法，其特征在于：步骤1.2)所述BiLSTM关键信息获取：

BiLSTM分别做解码器和编码器对原文本进行训练得到关键信息，通过使用参数，决定选取topK关键信息，K为决定要选取几个关键信息；

在BiLSTM编码阶段，模型将分词后并向量化的文本x＝{x₁,x₂…,x_n}输入到BiLSTM中，得到隐藏状态输出{h₁,h₂,...,h_n}；解码时，单向的LSTM通过读取前一个时间戳的输出，得到解码器的隐藏状态s_t,用于预测当前的输出；最后将编码器的结果和解码器的隐藏状态输入到一个线性层和一个softmax层得到注意力分布

e_ti＝v^Ttanh(W_hh_i+W_ss_t)

5.如权利要求4所述的基于指针关键信息的自动摘要生成方法，其特征在于：步骤1.2)所述指针关键信息获取：

e＝vtanh(W_xx+W_bkb_key+b_attn)

a＝softmax(e)

v，W_x，W_bk，b_attn为可学习参数，x为源文件的词向量，b_key为BiLSTM提取的关键词；

权重概率由上下文向量和两种关键词计算：

p＝σ(w_xx+w_bkb_key+w_tkt_key+b_p)

其中w_x，w_bk，w_tk，b_p是可学习参数，x，b_key，t_key分别是上下文信息，BiLSTM关键词和TextRank关键词，而σ是sigmoid函数；

e_k＝pt_key+(1-p)a。

6.如权利要求5所述的基于指针关键信息的自动摘要生成方法，其特征在于：步骤1.2)所述解码器设置：

解码器必须同时处理关键词和源文件，解码器由6个相同的层组成，每层包含四个块，分别为一个多头注意力块y₁，两个交叉注意力块y₂和y₃，一个前馈块y₄，分别表示为：

y₁＝LN(y+MUTIHEADATTN(y))

y₂＝LN(y+CROSSATTN(y，k))

y₃＝LN(y+CROSSATTN(y，x))

y₄＝LN(y+FEEDFORWARD(y))