CN116069924A

CN116069924A - 一种融合全局和局部语义特征的文本摘要生成方法及系统

Info

Publication number: CN116069924A
Application number: CN202310096168.6A
Authority: CN
Inventors: 袁非牛; 戴维; 汪春梅
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-05-05

Abstract

本发明公开了一种融合全局和局部语义特征的文本摘要生成方法及系统，属于自然语言处理技术领域。该方法包括：接收待生成摘要的文本，并进行预处理；将所述预处理后的文本分别输入全局语义特征提取模块和局部语义特征提取模块，得到全局语义特征向量和局部语义特征向量；将其输入注意力机制中进行融合，得到上下文向量；根据得到的所述上下文向量，输入基于指针机制的解码层，得到最终生成的文本摘要。本发明融合局部语义特征与全局语义特征，加强了生成摘要的准确性和模型对语义信息提取的能力；使用基于指针机制的解码器，同时从原文和词表中抽取词汇组成最终生成的摘要，解决文本摘要领域常见的词表外单词OOV问题。

Description

一种融合全局和局部语义特征的文本摘要生成方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种融合全局和局部语义特征的文本摘要生成方法及系统。

背景技术

随着互联网时代的发展，大量的信息包括图片、视频、文本等不断涌现在网络上，影响着人们的生活。然而，在人们享受着信息给我们带来便利的同时，信息超载的问题越来越常见，如何从大量的信息当中准确的提取出最主要的内容显得尤为重要。文本信息作为互联网上最为常见的信息形式之一，如何准确的帮助用户从海量文本信息中获取最主要的信息成为目前亟待解决的问题。

自动文本摘要技术是自然语言处理技术中的一个分支，在输入一长串的文本后，通过机器快速提取出文本的主要内容并总结成摘要，可以帮助用户节省时间并提高阅读效率。目前自动文本摘要技术已经在许多领域诸如新闻标题生成、关键信息检索和舆情检测等领域得到了广泛的应用。

根据自动文本摘要的生成方式，可将其分为抽取式文本摘要和抽象式文本摘要。抽取式文本摘要通过直接从原文本中抽取词语和句子组成最终生成的摘要，此方法在摘要生成的句子可读性和流畅性等方面有着较好的表现。抽象式文本摘要通过从建立的词表中抽取单词组成最终生成的摘要，随着近些年深度学习的发展，抽象式文本摘要在语句生成的准确率和可读性方面均有着较好的发展。与此同时，摘要生成方法依旧存在着许多问题，诸如语义表达不清和词表外单词(out of vocabulary，OOV)等问题亟待解决

发明内容

为了解决当前技术中存在的缺陷，本发明引入卷积神经网络加强对文本全局语义特征的提取，并通过keybert关键词提取器和多头自注意力机制提取文本局部语义特征，提升传统模型的整体能力并解决摘要生成过程中语义表达不清和语义信息缺失等技术问题。

为了达到上述目的，本发明提供了一种融合全局和局部语义特征的文本摘要生成方法，包括如下步骤：

(1)接收待生成摘要的文本，并进行预处理；

(2)构建文本摘要生成模型，所述模型包括：全局语义特征提取模块和局部语义特征提取模块、注意力机制以及基于指针机制的解码层；

将所述预处理后的文本分别输入全局语义特征提取模块和局部语义特征提取模块，得到全局语义特征向量和局部语义特征向量；

将所述全局语义特征向量和局部语义特征向量输入注意力机制中进行融合，得到融合全局和局部语义特征的上下文向量；

根据得到的所述上下文向量，输入基于指针机制的解码层，得到最终生成的文本摘要；

(3)基于损失函数对模型进行训练，得到训练好的所述文本摘要生成模型；

(4)将经过步骤(1)处理后的待生成摘要的文本，输入训练好的所述文本摘要生成模型，生成文本摘要。

进一步的，所述预处理具体包括：

使用jieba分词器对文本进行分词处理；

去除无用的标签、特殊符号和停用词；

对于过长的所述文本进行截断处理。

进一步的，所述全局语义特征提取模块由卷积神经网络和单层双向的长短期序列网络组成，将卷积神经网络CNN和双向长短期记忆网络Bi-LSTM的输出进行融合，得到全局语义特征向量；

所述局部语义特征提取模块由keybert关键词提取器和基于transformer的多头自注意力机制组成。

进一步的，将卷积神经网络CNN和双向长短期记忆网络Bi-LSTM的输出进行融合具体为：

(2.1)所述预处理后的文本输入所述卷积神经网络CNN，计算公式如下：

m_i＝f(W_cx_i:i+h-1+b_c)

其中，h指的是卷积核的长度，x_i:i+h-1表示所述预处理后的文本中从第i个词向量开始到h个词向量组成的矩阵，f表示非线性激活函数，b_c为偏置项，W_c表示卷积核；

(2.2)所述预处理后的文本输入所述双向长短期记忆网络Bi-LSTM，计算公式如下：

其中，

和

分别表示该单词在Bi-LSTM隐藏层的正向状态和反向状态表示，h_i表示Bi-LSTM编码器隐藏层状态；

(2.3)融合得到全局语义特征向量：

p_i＝h_i+m_i

其中：p_i为全局语义特征向量。

进一步的，所述keybert关键词提取器具体过程如下：

首先使用BERT获取所述预处理后的文本的向量级表示，随后针对n元词组或短语与所述预处理后的文本向量进行相似度计算，根据结果查找出相似度最高的词组或短语，并将其作为关键词提取出来。

进一步的，所述transformer的多头自注意力机制具体过程如下：

所述关键词输入所述基于transformer的多头自注意力机制，根据所述关键词随机初始化Q、K、V三个初始化矩阵，得到注意力权重：

其中：d表示矩阵Q、K的维度；

并行处理多个注意力层并通过连接得到关键词向量K：

K＝Concat(head₁,head₂,...,head_n)W^o

其中，head_i表示多头自注意力机制力中第i个注意力的输出，W^o,W^Q,W^K,W^V为对应线性矩阵，K表示经过权重分配后的关键词向量。

进一步的，将所述全局语义特征向量和局部语义特征向量输入注意力机制中进行融合，得到融合全局和局部语义特征的上下文向量计算过程为；

e_t,i＝softmax(v^Ttanh(W_hp_i+W_ss_t+W_kK+b))

α_t,i＝softmax(e′_ti)

其中：p_i表示全局语义特征向量，

表示上下文向量，K为局部语义特征向量；s_t为LSTM解码层t时刻状态，v^T，W_h，W_s，W_k，b均为训练参数，α_t,i为注意力权重，tanh表示激活函数。

进一步的，所述基于指针机制的解码层计算方式如下：

其中：

表示上下文向量，s_t为LSTM解码层t时刻状态，x_t表示t时刻所述预处理后的文本词序列，σ表示sigmoid函数，P(w)代表最终生成单词的概率分布，P_voc代表从词表中抽取单词的概率分布，1-P_gen代表从原文本中抽取单词的概率，

b，V，

b_ptr均为训练参数。

进一步的，所述损失函数采用极大似然估计算法。

本发明还提供了一种融合全局和局部语义特征的文本摘要生成系统，包括：

文本获取模块：用于接收待生成摘要的文本，并进行预处理；

特征提取模块：用于将所述预处理后的文本分别输入全局语义特征提取模块和局部语义特征提取模块，得到全局语义特征向量和局部语义特征向量；并将其输入注意力机制中进行融合，得到融合全局和局部语义特征的上下文向量；

生成模块：用于根据得到的所述上下文向量，输入基于指针机制的解码层，得到最终生成的文本摘要。

本发明的有益效果：

1、全局语义特征提取模块增设了卷积神经网络CNN，提升了模型的全局语义特征提取能力和模型的整体能力。

2、引入局部语义特征提取模块，与全局语义特征提取模块的输出融合，加强了生成摘要的准确性和模型对语义信息提取的能力。

3、使用基于指针机制的解码器，用于同时从原文和词表中抽取词汇组成最终生成的摘要，解决文本摘要领域常见的词表外单词OOV问题。

附图说明

图1为本发明实施例融合全局和局部语义特征的文本摘要生成方法的流程示意图。

图2为本发明实施例文本摘要生成模型的结构示意图。

具体实施方式

下面结合附图及较佳实施例详细说明本发明的具体实施方式。

如图1所示，本发明实施例提供了一种融合全局和局部语义特征的文本摘要生成方法，包括以下步骤：

S101、接收待生成摘要的文本，并进行预处理；

使用jieba分词器对文本进行分词处理；

随后去除无用的标签、特殊符号和停用词；

最后对于过长的原文本进行截断处理，最大长度设置为100。

S102、构建文本摘要生成模型，所述模型包括：全局语义特征提取模块和局部语义特征提取模块、注意力机制以及基于指针机制的解码层；

如图2所示，构建文本摘要生成模型，具体如下：

(1)将所述预处理后的文本分别输入全局语义特征提取模块和局部语义特征提取模块，得到全局语义特征向量和局部语义特征向量；

(1.1)全局语义特征提取模块

全局语义特征提取模块由单层双向长短期序列网络和卷积神经网络组成，原文本的输入用x＝{x₁，x₂，x₃…x_i}表示，其中x_i表示原文本中第i个词，使用pytorch的nn.embedding模块进行词嵌入处理；

首先通过长短期序列神经网络Bi-LSTM输入模型并逐个成为编码器隐藏层状态h_i，

其中，

和

分别表示该单词在Bi-LSTM隐藏层的正向状态和反向状态表示，h_i表示Bi-LSTM编码器隐藏层状态。

同时，原文本从另一端输入CNN，其计算公式如下：

m_i＝f(W_cx_i:i+h-1+b_c)

其中，h指的是卷积核的长度，x_i:i+h-1表示从第i个词向量开始到h个词向量组成的矩阵，f表示非线性激活函数，b_c为偏置项，W_c表示卷积核。

将CNN和Bi-LSTM的输出结合，得到全局语义特征向量p_i＝h_i+m_i。

(1.2)局部语义特征提取模块

局部语义特征提取模块由keybert关键词提取器和基于transformer的多头自注意力机制组成。

keybert关键词提取器对原文本进行关键词提取包括：首先使用BERT提取原文本的向量级表示，随后基于n元词组将其与原文本进行相似度计算，本实施例基于余弦相似度计算公式：

sim_i＝cos(x_i,y)

其中：x_i为n-gram的第i个词向量，y为原文本向量。

随后，根据得到的关键词信息，输入基于transformer的多头自注意力机制。根据关键词信息随机初始化Q、K、V三个初始化矩阵。经过Q、K^T相乘后的一系列运算得到注意力权重，使用

作为分母进行缩放，d表示输入矩阵Q、K的维度。经过矩阵相乘和缩放后经过softmax层再与矩阵V点积，得到注意力权重，计算权重Attention(Q、K、V)的公式如下：

在多头注意力机制中，通常并行处理多个注意力层并通过连接得到最后的输出，其中单个注意力机制和总的结果计算公式如下：

K＝Concat(head₁,head₂,...,head_n)W^o

其中，head_i表示多头自注意力机制力中第i个注意力的输出，W^o,W^Q,W^K,W^V为对应线性矩阵，对各个注意力的输出进行拼接，再经过线性操作得到经过权重分配后的关键词向量K。

(2)将所述全局语义特征向量和局部语义特征向量输入注意力机制中进行融合，得到融合全局和局部语义特征的上下文向量；

具体融合全局和局部语义特征的注意力机制计算如下：

e_t,i＝softmax(v^Ttanh(W_ha_i+W_ss_t+W_kK+b))

α_t,i＝softmax(e′_ti)

其中，

表示上下文向量，s_t为LSTM解码层状态，v^T，W_h，W_s，W_k，b均为可训练参数，tanh表示激活函数。

(3)根据得到的所述上下文向量，输入基于指针机制的解码层，得到最终生成的文本摘要；

基于指针机制的解码层计算方式如下：

其中，

b，V，

b_ptr均为可训练参数。

S103、基于损失函数对模型进行训练，得到训练好的所述文本摘要生成模型；

本实施例采用极大似然估计(Maximum Likelihood Estimate,MLE)算法。MLE通过最大化序列到序列训练过程中的给定样本概率而得到，定义一篇文章的原文为x，生成的摘要为y＝{y₁ ^*，y₂ ^*，y₃ ^*…}，在训练中通过最小化以下损失函数来得到最佳结果：

其中，L_ml表示基于MLE的损失函数。基于MLE的方法在训练过程中可以逐个通过与标准摘要的比对逐个进行单词生成。

公开评价指标使用ROUGE和人工评测方式，本方法在最终评测结果中基于现有的基础模型，实验结果表明，ROUGE-1,ROUGE-2和ROUGE-L均有一定程度的提升，准确率分别达到了47.87％，31.12％和45.71％，本方法在引入局部语义信息提取模块和全局语义信息提取模块后，摘要生成的结果有着较好的准确率。

S104、将经过步骤S101处理后的待生成摘要的文本，输入训练好的所述文本摘要生成模型，生成文本摘要。

本发明另一实施例还提供了一种融合全局和局部语义特征的文本摘要生成系统，包括：

综上，本发明提出了一种融合局部语义信息和全局语义信息的文本摘要方法，并生成了融合局部语义信息和全局语义信息的摘要。基于指针机制的解码器通过从原文本和生成的词表中抽取单词组成最后的摘要，解决了常见的OOV问题。通过以上方法得到的摘要在语句的流畅性和关键词表达能力上有较好的效果。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。