CN116562275B

CN116562275B - 一种结合实体属性图的自动文本摘要方法

Info

Publication number: CN116562275B
Application number: CN202310680690.9A
Authority: CN
Inventors: 周正斌; 花福军; 王震; 钟凯; 周阳; 赵奎
Original assignee: Creative Information Technology Co ltd
Current assignee: Creative Information Technology Co ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-15
Anticipated expiration: 2043-06-09
Also published as: CN116562275A

Abstract

本申请公开了一种结合实体属性图的自动文本摘要方法，属于自动文本摘要技术领域，方法先获取训练数据集，并采用自然语言处理工具对训练数据集进行解析处理，获得解析处理结果，依据解析处理结果，为训练数据集中的样本构建实体属性图；训练数据集包括原文本和标准摘要文本；对预训练语言模型进行结构改进，获得改进预训练语言模型，并分别将训练数据集的原文本和实体属性图输入改进预训练语言模型进行编码，获得文本上下文向量和图上下文向量；对文本上下文向量和图上下文向量进行联合解码，并以标准摘要文本为监督信号，生成原文本对应的文本摘要。本申请减少了文本摘要生成过程中的一致性错误，提高了摘要质量。

Description

一种结合实体属性图的自动文本摘要方法

技术领域

本发明涉及自动文本摘要技术领域，尤其涉及一种结合实体属性图的自动文本摘要方法。

背景技术

随着互联网技术的飞速发展，网络上每天都产生海量的数据，如何从这些数据中快速且准确地提取用户需要的信息已经成为自然语言处理领域的关键任务。自动文本摘要技术作为自然语言处理的一个重要研究方向，能够将原始文本的主要信息自动提取出来，具有较强的研究价值和应用价值。目前，自动文本摘要领域以生成式文本摘要方式为主，该摘要方式能够依据对原文的理解生成类似人类专家的摘要，但其生成的摘要容易出现与原文事实不一致的问题。

现在，大多数自动文本摘要任务是使用生成式自动文本摘要完成的，生成式文本摘要方法基于模型对输入文本的理解，逐一生成摘要中的单词，最终形成一篇摘要。此类摘要方法虽然类似于人类专家摘要的方法，能够生成出有差异性的文本，但是却可能存在事实一致性错误，即生成的摘要中包含和原文不一致的内容。以新闻文本为例，对于“甲在某某地点与警方发生冲突”这一则新闻，摘要模型可能最终输出“乙与警方发生冲突”，而其中乙并没有与警方发生冲突，这就属于摘要与原文不一致的情况。相关研究表明，生成式文本摘要中的此类错误以实体类错误为主，即示例中的实体或者实体属性生成错误，可见目前自动文本摘要任务生成的摘要质量有待进一步提高。

发明内容

本发明的目的在于克服现有技术的不足，提供一种结合实体属性图的自动文本摘要方法，有助于解决目前自动文本摘要方法生成摘要时存在一致性错误，生成摘要质量较差的问题。

本发明的目的是通过以下技术方案来实现的：

本申请提供一种结合实体属性图的自动文本摘要方法，包括：

获取训练数据集，并采用自然语言处理工具对训练数据集进行解析处理，获得解析处理结果，依据解析处理结果，为训练数据集中的样本构建实体属性图；所述训练数据集包括原文本和标准摘要文本；

对预训练语言模型进行结构改进，获得改进预训练语言模型，并分别将所述训练数据集的原文本和实体属性图输入所述改进预训练语言模型进行编码，获得文本上下文向量和图上下文向量；

对所述文本上下文向量和图上下文向量进行联合解码，并以所述标准摘要文本为监督信号，生成原文本对应的文本摘要。

进一步地，所述采用自然语言处理工具对训练数据集进行解析处理，获得解析处理结果，依据解析处理结果，为训练数据集中的样本构建实体属性图，具体包括：

对训练数据集中的原文本进行句子切分，获得句子切分结果；

对句子切分结果进行三元组解析，提取出每个句子的三元组；

采用自然语言处理工具对所述句子切分结果进行依存树解析和词性标注，获得每个句子的依存树以及句子的内词性信息；

基于每个句子的依存树以及句子的内词性信息，通过自然语言处理工具对原文本进行共同指代解析，获得原文本中句子间实体的共同指代关系；

依据所述依存树和内词性信息识别出实体包含的属性，并将实体与属性进行关联，获得原文本的实体与属性的第一关联关系；

依据所述三元组进行句子间实体与实体之间的关系识别，获得原文本的实体与实体之间的第二关联关系；

基于原文本中的第一关联关系和第二关联关系，依据共同指代关系，将不同句子中同一实体结点的第一关联关系和第二关联关系进行合并，为每个样本构建出对应的实体属性图。

进一步地，所述对预训练语言模型进行结构改进，获得改进预训练语言模型，并分别将所述训练数据集的原文本和实体属性图输入所述改进预训练语言模型进行编码，获得文本上下文向量和图上下文向量，具体包括：

对预训练语言模型进行结构改进，在预训练语言模型的编码器之后分别级联一个文本编码层和一个图编码层，并在文本编码层之后级联一个文本注意力层，获得文本编码器，同时在图编码层之后级联一个图注意力层，获得图编码器；

将原文本中的句子输入文本编码器进行编码处理，获得文本上下文向量；

将原文本的实体属性图输入图编码器进行编码处理，获得图上下文向量。

进一步地，所述对所述文本上下文向量和图上下文向量进行联合解码，并以所述标准摘要文本为监督信号，生成原文本对应的文本摘要，具体包括：

在改进预训练语言模型的文本编码器和图编码器之后级联一个联合解码器，获得初始预训练语言模型；

利用联合解码器对文本上下文向量和图上下文向量进行联合解码，并在联合解码过程中，以所述标准摘要文本为监督信号，采用极大似然损失函数计算初始预训练语言模型的摘要相关句标签损失；

依据摘要相关句标签损失对初始预训练语言模型进行模型参数调整，获得最终的预训练语言模型，将原文本输入最终的预训练语言模型进行编解码，生成原文本对应的文本摘要。

优选地，所述预训练语言模型为RoBERTa模型。

优选地，所述自然语言处理工具为Stanford CoreNLP。

优选地，所述文本编码层包括一层双向LSTM网络；所述图编码层包括一层GAT网络。

优选地，所述联合解码器包括单向LSTM网络。

本发明的有益效果：本发明提供了一种结合实体属性图的自动文本摘要方法，方法先获取训练数据集，并采用自然语言处理工具对训练数据集进行解析处理，获得解析处理结果，依据解析处理结果，为训练数据集中的样本构建实体属性图；训练数据集包括原文本和标准摘要文本；对预训练语言模型进行结构改进，获得改进预训练语言模型，并分别将训练数据集的原文本和实体属性图输入改进预训练语言模型进行编码，获得文本上下文向量和图上下文向量；对文本上下文向量和图上下文向量进行联合解码，并以标准摘要文本为监督信号，生成原文本对应的文本摘要。本申请通过为训练数据集中的样本构建实体属性图来生成摘要，充分考虑了原文中实体与属性之间的关系，同时对预训练语言模型进行结构改进，同时将训练数据集的原文本和实体属性图输入改进预训练语言模型进行编码，获得文本上下文向量和图上下文向量后进行联合解码，生成最终文本摘要，充分利用了实体与属性、实体与实体之间的所属与连接关系来指导文本生成过程，减少了文本摘要生成过程中的一致性错误，提高了摘要质量。

附图说明

图1是本发明的自动文本摘要方法流程图；

图2为本发明的摘要生成整体技术原理图；

图3为本方法实体属性图生成流程示意图；

图4为解码器的结构示意图。

实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

参照图1和图2所示，图1示出了一种结合实体属性图的自动文本摘要方法，图2示出了。如图1所示，方法包括：

S1：获取训练数据集，并采用自然语言处理工具对训练数据集进行解析处理，获得解析处理结果，依据解析处理结果，为训练数据集中的样本构建实体属性图。

其中，训练数据集是文本摘要任务训练所需要的数据集，训练数据集包括原文本和标准摘要文本。

S2：对预训练语言模型进行结构改进，获得改进预训练语言模型，并分别将训练数据集的原文本和实体属性图输入改进预训练语言模型进行编码，获得文本上下文向量和图上下文向量。

S3：对文本上下文向量和图上下文向量进行联合解码，并以标准摘要文本为监督信号，生成原文本对应的文本摘要。

进一步地，在一个实施例中，本申请采用自然语言处理工具对训练数据集进行解析处理，获得解析处理结果，依据解析处理结果，为训练数据集中的样本构建实体属性图，具体包括：

先对训练数据集中的原文本进行句子切分，获得句子切分结果；

采用自然语言处理工具对句子切分结果进行依存树解析和词性标注，获得每个句子的依存树以及句子的内词性信息；

依据依存树和内词性信息识别出实体包含的属性，并将实体与属性进行关联，获得原文本的实体与属性的第一关联关系；

依据三元组进行句子间实体与实体之间的关系识别，获得原文本的实体与实体之间的第二关联关系；

基于原文本中的第一关联关系和第二关联关系，依据共同指代关系，将不同句子中同一实体结点的第一关联关系和第二关联关系进行合并，合并前共同指代实体的关系与属性在合并之后属于同一实体，从而为每个样本构建出对应的实体属性图。

具体实践过程中，本申请对样本中的原文本都使用Stanford CoreNLP进行处理，并将处理结果以JSON格式保存。具体对训练数据集的数据处理过程如图3所示，首先执行CoreNLP的OpenIE任务，从原文本中提取出每个句子的主要三元组。其次执行依存树解析和词性标注任务，得到每个句子的依存树以及句子内词性信息。随后执行共同指代任务，得到句子间实体的共同指代关系。最后依据依存树信息将实体和对应属性关联起来，依据三元组及共同指代关系，将原文本中实体与实体关联起来，最终合并形成实体属性图。

进一步地，在一个实施例中，对预训练语言模型进行结构改进，获得改进预训练语言模型，并分别将训练数据集的原文本和实体属性图输入改进预训练语言模型进行编码，获得文本上下文向量和图上下文向量，具体包括：

具体实践过程中，基于预训练语言模型，在预训练语言模型的编码器之后级联一个文本编码层，从而生成文本表征；在文本编码层之后，级联一个文本注意力层，从而获取计算得文本上下文向量（即文本上下文表示），从而获得文本编码器。在前述的文本编码器中，原文本中的句子输入预训练语言模型之后，又经过文本编码层进一步编码，最终经过文本注意力层计算出文本上下文向量。

上述文本编码器中使用的预训练模型为RoBERTa模型，接收的输入最大长度为512，使用的词汇表为RoBERTa的词汇表。文本编码器中的文本编码层采用双向LSTM网络，隐含状态的纬度为128，编码过程具体如下：

；

其中为输入的文本序列，/>即为编码之后的词向量序列。

将步骤S1构建的实体属性图输入到图编码层中，以获得图中各结点的语义表示；在图编码层之上，级联一个图注意力层，用于获取图的上下文表示（即图上下文向量），从而获得图编码器；在图编码器中，步骤S1得到的实体属性图经过图编码层编码之后，得到各实体结点和属性结点的语义向量，经过图注意力层之后，计算得出图上下文向量。

具体的，在图编码器中，图编码层使用图注意力机制（GAT）进行实现，层数为1，并且采用局部注意力机制，只聚合结点的邻居结点信息，隐含状态的向量纬度为256，结点的编码过程可以表示为：

（1）；

（2）；

其中，表示结点i的最终编码，/>表示拼接操作，/>表示结点j的初始编码，表示结点j的最终编码， K表示多头注意力中的头数，/>表示/>结点的邻居结点，/>表示第k个头中结点/>相对与结点j的注意力分数，计算方式如式（2）所示，其中以及/>分别为第k个头中的第一参数矩阵和第二参数矩阵，T表示参数矩阵的转置。在经过一层GAT编码之后，结点编码完毕。

进一步地，在一个实施例中，本申请对文本上下文向量和图上下文向量进行联合解码，并以标准摘要文本为监督信号，生成原文本对应的文本摘要，具体包括：

利用联合解码器对文本上下文向量和图上下文向量进行联合解码，并在联合解码过程中，以标准摘要文本为监督信号，采用极大似然损失函数计算初始预训练语言模型的摘要相关句标签损失；

具体的，在文本编码器以及图编码器之后，级联一个联合解码器，依据步骤S2的文本上下文向量和图上下文向量，输出对应的文本摘要；在每个模型训练步骤中，解码器接收样本中的标准摘要作为监督信号进行摘要生成，采用极大似然损失函数计算模型的摘要相关句标签损失，从而对模型参数进行调整。

其中，本申请使用的联合解码器采用单向LSTM网络模型，其解码过程如参照图4所示。步骤S2中计算文本上下文向量的方法如下式（3）和（4）所示：

；

其中，S _t为LSTM联合解码器在时刻t的内部状态，为激活函数，在本模型中使用tanh函数激活函数，x _i为第i个词的向量表示，/>为可训练的模型参数，/>为注意力分数，/>以及/>是两个可训练的参数矩阵。

计算图上下文向量的方法如下式（5）和（6）所示：

；

其中，为结点i的向量表示，/>为激活函数，在本模型中使用tanh函数激活函数，/>为注意力分数，/>为可训练的模型参数，/>以及/>是两个可训练的参数矩阵。

在得到两个上下文向量之后，使用如下方法计算时刻t输出单词的概率分布，方法如下式（7）所示：

；

其中，为LSTM解码器在时刻/>的内部状态，/>为解码所需的参数矩阵。

在模型的训练过程中，使用的损失函数计算方法为极大似然损失函数，获取摘要的相关句标签损失值loss，具体如下式（8）所示：

；

其中为样本集合，/>为样本中的一个样本，/>为样本中的原文本，/>为样本中的参考摘要（即原文本的标准摘要），/>为模型参数，/>表示括号内事件发生的概率。

本发明在CNN/DM新闻数据集上进行了测试，测试表明本发明能够减少模型生成摘要中的实体类型错误。

表1 CNN/DM数据集摘要示例表

其中，表1中英文语句不涉及本申请方案的技术实施细节，不影响技术方案的实施。从表1可以看出，经过本发明改进后模型生成的摘要，相对于未有效利用实体信息的Pointer-Generator模型，在实体方面具有较强的一致性，不容易出现实体错误或者实体属性错误。

本申请通过建立原文中实体与实体、实体与属性之间的关系，并且利用到摘要过程中，具有较大的实际运用价值。本发明提供的一种结合实体属性图的自动文本摘要方法结合图神经网络，能够对原文实体与属性之间的关系进行建模，并且将这种关系利用到摘要的生成中，减少摘要中存在的实体和实体属性错误。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种结合实体属性图的自动文本摘要方法，其特征在于，包括：

所述采用自然语言处理工具对训练数据集进行解析处理，获得解析处理结果，依据解析处理结果，为训练数据集中的样本构建实体属性图，具体包括：

基于原文本中的第一关联关系和第二关联关系，依据共同指代关系，将不同句子中同一实体结点的第一关联关系和第二关联关系进行合并，为原文本中每个样本构建出对应的实体属性图；

2.根据权利要求1所述的一种结合实体属性图的自动文本摘要方法，其特征在于，所述对预训练语言模型进行结构改进，获得改进预训练语言模型，并分别将所述训练数据集的原文本和实体属性图输入所述改进预训练语言模型进行编码，获得文本上下文向量和图上下文向量，具体包括：

3.根据权利要求1所述的一种结合实体属性图的自动文本摘要方法，其特征在于，所述对所述文本上下文向量和图上下文向量进行联合解码，并以所述标准摘要文本为监督信号，生成原文本对应的文本摘要，具体包括：

4.根据权利要求1所述的一种结合实体属性图的自动文本摘要方法，其特征在于，所述预训练语言模型为RoBERTa模型。

5.根据权利要求1所述的一种结合实体属性图的自动文本摘要方法，其特征在于，所述自然语言处理工具为Stanford CoreNLP。

6.根据权利要求2所述的一种结合实体属性图的自动文本摘要方法，其特征在于，所述文本编码层包括一层双向LSTM网络；所述图编码层包括一层GAT网络。

7.根据权利要求3所述的一种结合实体属性图的自动文本摘要方法，其特征在于，所述联合解码器包括单向LSTM网络。