CN113935308A

CN113935308A - 面向地球科学领域的文本摘要自动生成的方法和系统

Info

Publication number: CN113935308A
Application number: CN202111051884.XA
Authority: CN
Inventors: 邱芹军; 谢忠; 陶留锋; 吴亮; 李文佳; 黄振; 马莹
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2022-01-14

Abstract

本发明提供了面向地球科学领域的文本摘要自动生成方法及系统，方法包括利用微调BERT嵌入组件基于词嵌入初始化输入序列的值，编码器中BiLSTM组件对从前一层接收到的输入进行编码；卷积门控单元则根据每个时间步的先前输出重新训练核心信息；调用自注意力机制计算词汇自身权重，充分考虑句子中不同词语之间的语义以及语法联系，从而进一步强化全局信息；解码器部分将编码器输出的上下文向量进行解码，解码器中的BiLSTM组件对编码器输出的句子进行解码得到输出序列；微调的BERT网络模型捕捉句子之间的上下文关系，使得在每一个时刻都获得完整的上下文，最终使生成的摘要更准确。

Description

面向地球科学领域的文本摘要自动生成的方法和系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及面向地球科学领域的文本摘要自动生成的方法和系统。

背景技术

自动摘要生成是自然语言处理领域中的一个重要任务，其目的是保留一组文档的核心元素或一组与主题相关的文档的核心元素的同时，产生一种浓缩的文本表达，能够有效缓解数据总量庞大、信息密度低与用户高效精准获取信息间矛盾。近年来，自动文本摘要生成技术已经在自动报告生成、新闻标题生成等很多领域得以运用。

现有的摘要自动生成方法主要分为三类：抽取式摘要生成、生成式摘要生成和混合式摘要生成。

抽取式摘要通过考虑原文中句子的位置、词频、关键词等评估句子重要度，从原文中选择重要度高的句子组成摘要；生成式摘要则是在理解文章语义的基础上从词语层面上对句子进行压缩、提炼，最终用较少的单词和更清晰的语言生成摘要；而混合式摘要则是集合了抽取式文本摘要和生成式文本摘要的优点，提高了最终生成摘要的语言流畅性与精简性。

在现阶段，关于摘要自动生成的研究仅提供了部分解决方案。首先，很多现有的文本摘要生成方法主要是针对英文文本，并不适用于中文文本，尤其是缺少面向特定专业领域的中文摘要生成场景。中文文本的语法和语义比英文文本复杂的多，尤其是在地球科学领域，大量专业词汇的存在进一步增加了难度。汉语是以字符为基础，而英语是以词为基础的，而且在中文中单词之间没有分隔符，所以确定一个词的构成会很困难，同时在中文文本中存在大量的歧义情况。其次，现有大多数的文本摘要方法依赖于涉及高维稀疏数据的传统词袋表示，难以表示和捕获相关的信息。第三，近期对中文文本摘要的研究还处于起步阶段，中文文本摘要无法达到英文文本摘要相同的成熟度和可靠性水平。因此迫切需要构建面向中文地学领域的自动文本摘要算法。

发明内容

本发明解决的一个主要问题是传统的摘要生成方法主要针对英文文本，并不适用中文地质学领域，且生成的中文摘要文本歧义大、不准确。

根据本发明的一个方面，提供一种面向地球科学领域的文本摘要自动生成的方法，所述方法包括：

S1、获取地质文献的标题和摘要的原始数据；

S2、将所述原始数据中的单元词基于词嵌入操作转换为词向量矩阵；

S3、使用预训练好的BERT网络模型进行编码：

S301、将所述词向量矩阵作为输入序列输入所述BERT网络模型，利用卷积神经网络提取单元词间的局部连接特征，并使用ReLU函数生成输出结果，所述输出结果为：

其中，m_i为第i个特征图，f代表ReLU函数，w^k表示第一局部向量，q表示第二局部向量，k∈{3,5,7}，w_j ^k为第j个第一局部向量，q_j为第j个第二局部向量，q^[i:i+k-1]表示[i:i+k-1]向量；

S302、利用输出结果，调用自注意力机制获取全局连接特征；

S303、利用门控单元对所述局部连接特征和所述全局连接特征进行全局编码，生成编码器输出，所述编码器输出为：

其中，

为编码器输出，σ(g)为门控单元g的卷积神经网络函数，R^T×dim为T×dim的矩阵，T代表序列长度，dim代表向量维度，即层数；

S4、对所述编码器输出进行解码：

S401、利用全局注意力机制，使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量；

S402、根据所述上下文向量，利用解码器中嵌入的BiLSTM组件预测下一个单词，并得到输出序列；

S403、利用所述BERT网络模型捕捉所述输出序列中的上下文关系，并生成完整摘要。

进一步地，所述词向量矩阵表示为：

其中，X_1:T表示输入序列，x₁、x₂、x₃和x_T分别表示序列中第1、2、3和T个基本单元词，R^1×T表示长度为1×T的矩阵。

进一步地，步骤S301还包括：使用“BERT-Base Chinese”模型对所述输入序列进行微调。

进一步地，步骤S301还包括：将所述输出结果作为编码器中嵌入的BiLS TM组件的输入进行编码，使得编码内容双向传输。

进一步地，步骤S401还包括：考虑所有encoder的隐藏层状态，将解码器的当前隐藏层状态与每个编码器的隐藏层状态进行比较。

根据本发明的另一个方面，还公开一种面向地球科学领域的文本摘要自动生成的系统，所述系统包括：编码器模块、解码器模块和训练模块，所述训练模块用于预训练所述编码器模块，所述编码器模块用于对输入序列进行编码，所述解码器模块用于对所述编码器模块的输出结果进行解码。

进一步地，所述编码器模块包括：第一BERT网络模型、第一BiLSTM组件、卷积门控单元和自注意力机制；

所述第一BERT网络模型微调后用于通过词嵌入操作初始化输入序列的值；

所述第一BiLSTM组件用于对接收到的所述输入序列进行编码；

所述卷积门控单元用于根据每个时间步的先前输出重新训练核心信息；

所述自注意力机制用于计算词语自身的权重，充分考虑句子中不同词语之间的语义和语法联系，强化全局信息。

进一步地，所述解码器模块包括：

全局注意力机制、第二BiLSTM组件和第二BERT网络模型；

所述全局注意力机制用于使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量；

所述第二BiLSTM组件用于对编码器输出的句子进行解码，得到输出序列；

所述第二BERT网络模型微调后用于捕捉所述输出序列中句子之间的上下文关系，从而获得完整的摘要上下文。

本发明方法中使用的数据集主要通过检索已发表的文献数据，包括地质论评、地质学报、矿床地质和中国地质，我们从已发表的文献中收集摘要和标题，然后使用数据预处理清理收集的数据。开发了一系列规则来清理和格式化语料库，并且由于摘要和标题的长度可能会影响模型的性能，所以我们对摘要和标题的长度分布进行了统计，采用BERT开发了一个高效且有效的自动摘要系统，提出了一种基于双向长短时记忆网络模型的新中文文本摘要方法。在摘要自动生成任务的评价中，采用ROUGE-1、ROUGE-2、ROUGE-L作为评估指标，并基于所训练的模型在真实数据集上进行了一系列测试，并将生成的标题直接与原始文本摘要标题进行比较，结果表明本方法生成的标题更好，能够覆盖原文的核心信息，进一步证实了本方法提出的方法的有效性。

附图说明

本发明构成说明书的一部分附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

图1为本发明实施例中文本摘要自动生成的步骤流程示意图。

图2为本发明实施例中文本摘要模型总体结构示意图。

具体实施方式

下面将结合附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例一，如图1所示，为一种文本摘要自动生成的步骤流程示意图，方法步骤具体包括：

S1、获取地质文献的标题和摘要的原始数据；通过检索已发表的文献数据，包括地质论评、地质学报、矿床地质和中国地质，从已发表的文献中收集摘要和标题，然后通过预处理清理收集的原始数据。

S2、将所述原始数据中的单元词基于词嵌入操作转换为词向量矩阵；向量矩阵表示为：

具体地，以收集到的原始数据为输入，基于词嵌入操作将收集的文献数据中的基本词单元转化为向量，这一过程通过使用微调的BERT网络模型进行初始化，BERT网络模型在训练过程中使用“BERT-Base Chinese”模型对输入序列进行微调。

S3、使用预训练好的BERT网络模型进行编码：编码器主要分为四个部分：微调的BERT模型、一个BiLSTM组件、一组卷积门控单元和自注意力机制。微调BERT嵌入组件的目的是基于词嵌入初始化输入序列的值。而对于输入序列，BiLSTM组件用于对从前一层接收到的输入进行编码；卷积门控单元则专注于根据每个时间步的先前输出重新训练核心信息；自注意力机制则为计算词汇自身的权重，充分考虑句子中不同词语之间的语义以及语法联系，从而可以进一步强化其后的全局信息。

S301、将前述词向量矩阵作为输入序列输入所述BERT网络模型，利用卷积神经网络提取单元词间的局部连接特征，特别是获取n-gram特征。并且在考虑输入序列X平均长度的基础上，利用滤波器和感受野来掌握更丰富的局部连接特征。然后将两个局部向量q∈R^|q|和w^k∈R^{k∈{3，5，7}}进行卷积，形成特征图m∈R^|q|-k+1。并使用ReLU函数生成输出结果，输出结果为：

其中，m_i为第i个特征图，f代表ReLU函数，w^k表示第一局部向量，q表示第二局部向量，k∈{3,5,7}，w_j ^k为第j个第一局部向量，q_j为第j个第二局部向量。

将BERT网络模型的输出结果作为BiLSTM组件的输入，然后进行编码，使得编码内容可以从左到右和从右到左输出。

设表达式：

h＝GLU(h₁，h₂，h₃，...h_t)∈R^T×dim (3)

为BiLSTM组件从左到右和从右到左的处理步骤的内容输出，其中，dim为层数，GLU(·）表示门控线性单元，而h_i表示时间步长为t的编码器的隐藏状态，可以表示为：

其中，h_t为t时刻隐藏状态，

代表t时刻左边隐藏状态，

代表t时刻右边隐藏状态，R^1×2dim为长度为1×2dim的矩阵；

S302、利用输出结果，调用自注意力机制获取全局连接特征；

具体地，将CNN卷积得到的输出，通过self-attention机制计算各自的权重，充分考虑句子中不同词语之间的语义以及语法联系，从而可以进一步强化其后的全局信息。这使得网络模型能够学习长期依赖，不会消耗过多的计算资源。权重计算公式表示如下：

其中，Q和V表示由CNN生成的不同的矩阵，K则表示可学习的矩阵，d_k为向量Q的维度。

S303、利用门控单元对所述局部连接特征和所述全局连接特征进行全局编码，生成编码器输出，编码器输出为：

其中，

为编码器输出，σ(g)为门控单元g的卷积神经网络函数，R^T×dim为T×dim的矩阵，T代表序列长度，dim代表向量维度，即层数，h表示编码器的隐藏层状态；

S4、对编码器输出进行解码：解码器部分是将编码器输出的上下文向量c进行解码，R^T×dim中T代表序列长度，dim代表向量维度，解码器部分包含了三个部分：Globalattention、BiLSTM和微调的BERT模型。

S401、利用全局注意力机制，使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量；可以使得输入序列的每一个时间步将编码器编码为不同的上下文向量c。在解码时，结合每一个不同的上下文向量c进行解码输出，使得到的结果更加的准确。考虑所有encoder的隐藏层状态，将解码器的当前隐藏状态h_t与每个编码器的隐藏层状态

进行比较，计算公式表示如下：

其中，t为当前时刻，a_t是一个长度可变的对齐向量，长度是时间序列中encoder部分的长度，a_t(s)是由一个编码器的状态和一个解码器的状态对比得到的向量，s为原句子，将所有的a_t(s)向量整合成一个权重矩阵W_a，权重矩阵的计算公式如下：

a_t＝softmax(W_ah_t) (8)

对权重矩阵进行加权平均操作，即可得到t时刻的向量c_t。

S403、利用所述BERT网络模型捕捉所述输出序列中的上下文关系，使得在每一个时刻都可以获得完整的上下文，并生成完整精确的摘要。

实施例二，公开一种地球科学领域文本摘要自动生成的系统，包括：编码器模块、解码器模块和训练模块，训练模块用于预训练所述编码器模块，编码器模块用于对输入序列进行编码，解码器模块用于对编码器模块的输出结果进行解码。

编码器模块包括第一BERT网络模型、第一BiLSTM组件、卷积门控单元和自注意力机制；第一BERT网络模型微调后用于基于词嵌入操作初始化输入序列的值；第一BiLSTM组件用于对接收到的所述输入序列进行编码；卷积门控单元用于根据每个时间步的先前输出重新训练核心信息；自注意力机制用于计算词汇自身的权重，充分考虑句子中不同词语之间的语义和语法联系，强化全局信息。

解码器模块包括：全局注意力机制、第二BiLSTM组件和第二BERT网络模型；全局注意力机制用于使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量；第二BiLSTM组件用于对编码器输出的句子进行解码，得到输出序列；第二BERT网络模型微调后用于捕捉所述输出序列中句子之间的上下文关系，从而获得完整的摘要上下文。

下面给出实验结果证明本发明的技术效果：

根据表1和表2，一方面，利用经过微调的BERT模型实践本发明的摘要生成方法，取得了比word2vec和GloVe模型等其他模型更好、更精确的摘要文本结果。另一方面，基于在开发数据集上训练的神经网络模型中生成文本摘要比基于其他模型(即RNN、RNN-context、Super-AE、CGU)生成文本摘要具有更好的性能。再一方面，表1和表2的实验结果表明，使用BERT表示的深度学习显着改善了摘要系统的结果，并且优于目前最先进的生成方法。由于BERT模型在无监督预训练期间学习了大部分语言信息，因此即使使用小数据集也可以对其进行微调，因此性能优于必须从头开始训练的基于CNN或RNN下游的模型。

表1与其他词嵌入模型相比的定量评价结果

Model	ROUGE-1	ROUGE-2	ROUGE-L	BLEU
					Word2Vec+Classifier	0.705	0.611	0.625	0.513
GloVe+Classifier	0.713	0.623	0.641	0.531
					GloVe+RL	0.744	0.649	0.669	0.599
GloVe+BiLSTM	0.775	0.691	0.701	0.609
					GloVe+BiLSTM+Attention	0.789	0.711	0.725	0.631
本发明	0.814	0.781	0.846	0.676

表2与其他模型相比的定量评估结果

Model	ROUGE-1	ROUGE-2	ROUGE-L	BLEU
					RNN	0.738	0.705	0.781	0.621
RNN-context	0.744	0.721	0.797	0.633
					Super-AE	0.781	0.743	0.805	0.642
CGU	0.792	0.765	0.821	0.655
					本发明	0.814	0.781	0.846	0.676

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。