CN112559730B

CN112559730B - 基于全局性特征提取的文本摘要自动生成方法及系统

Info

Publication number: CN112559730B
Application number: CN202011423830.7A
Authority: CN
Inventors: 邹蕾; 费廷伟; 崔斌; 石磊; 杨波
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-08-24
Anticipated expiration: 2040-12-08
Also published as: CN112559730A

Abstract

本发明涉及一种基于全局性特征提取的文本摘要自动生成方法及系统，方法包括以下步骤：将包含多个句子的文本载入训练好的BERTSUM‑CNN‑LSTM‑attention编码模型中；通过BERTSUM网络对文本中每个句子进行编码，输出第一特征；通过CNN网络处理第一特征，提取包含不同句子之间关联关系的第二特征；通过LSTM网络处理第二特征，提取用于表征文本中句子依赖关系的第三特征；通过attention网络对第三特征进行规范化操作，得到对每个第三特征进行权重赋值的第四特征；将第四特征引出至输出层，用于获取文本中每个句子的摘要预测概率，进而生成文本的摘要。本发明对多句子文本进行准确理解，即考虑句子间的局部特征，又考虑整个文档的整体特征以确保本文摘要生成质量。

Description

基于全局性特征提取的文本摘要自动生成方法及系统

技术领域

本发明属于文本处理技术领域，具体涉及一种基于全局性特征提取的文本摘要自动生成方法及系统。

背景技术

法律诉讼作为解决纠纷的方式，与人民生活息息相关。随着社会经济的发展，越来越多的诉讼案件涌入法庭，随之而来的是大量的法律文书，案情摘要是对法律文书内容进行压缩、归纳和总结，法律文书的案情摘要对我国法治建设具有重要意义。如何从海量法律文本信息中获取关键信息便于办案人员把握案情，成为一种急需解决的问题。

目前，法律领域的案情摘要自动生成可采取基于文本摘要的方法来完成。基于摘要的研究主要包括抽取式摘要方法和生成式摘要两种方法。有学者提出将融合关键词的方法用于抽取式文本摘要生成，提出将关键词作为指示来提高文本抽取准确率，通过关键词与标题词相结合得到关键词列表，并依据此构建与当前文本相近的语料库从中抽取出主题相关词，最后采用算法完成摘要抽取。针对现有模型在生成摘要时会出现无关摘要词的问题，有研究提出将关键词融入到文本摘要生成过程中。该方法利用关键词信息并结合门控单元去除冗余信息，从而获得更精准的文本信息。

为了提高对文本的语义理解以进一步提升文本生成质量，学者将神经网络模型用于文本摘要，注入文本语言特征信息，构造一种改进的序列-序列的神经网络模型，该模型采用基于注意力机制的RNN模型，可以很好的进行语义理解，进而提高文本摘要生成效果。有学者结合CNN和LSTM模型对构造的汉字子块进行特征提取，解决未登录词问题，在下游的自然语言处理任务中取得了比较好的效果，然而在文本分类任务中，结果低于最佳模型BERT。也有学者提出一种基于BERT-PGN的模型完成中文新闻摘要自动生成任务，该方法以BERT模型获取文本词向量，得到更细粒度的上下文相关的文本表示，进而获得更高的文本摘要结果。

以上方法对于包含句子数量较少的文档取得了较高的文本摘要生成质量。但对公益诉讼案件诉前审查报告文档，通常包含多个句子，属于多句子文档生成问题，所以需要处理多句子文档文本生成问题。有学者将BERTSUM模型用于文本摘要生成，采用BERTSUM进行句子级别编码，获取每个文档的摘要，并将其与摘要层相结合，将摘要任务转化为分类任务，在摘要层分别实现了最优的生成结果。然而不足之处是在摘要层采用了Transformer模块使得参数过多，内存开销过大，尤其在有限的GPU资源条件下，无法完成文本的快速生成。在摘要层用LSTM代替Transformer来完成摘要生成，节省运算时间，实时性较好，但由于未考虑局部特征使得文本生成质量有所下降。也有研究提出提取TF-TDF特征并结合词向量得到文档的特征向量，并对特征向量进行聚类分析，得到具有共同主题的文档，对每个文档，采用BERTSUM进行句子级别编码，获取每个文档的摘要，最终确定目标文档，得到代表性摘要，其本质是对每个文档提取多个句子特征，直接选取全连接作为摘要层以获取句子摘要的预测值。全连接相比Transformer或LSTM，其预测结果有待提高。

发明内容

鉴于上述的分析，本发明旨在公开了一种基于全局性特征提取的文本摘要自动生成方法及系统，解决目前多个句子的文本摘要自动生成的问题。

本发明公开了一种基于全局性特征提取的文本摘要自动生成方法，包括以下步骤：

将包含多个句子的文本载入训练好的BERTSUM-CNN-LSTM-attention编码模型中；

通过BERTSUM网络对文本中每个句子进行编码，输出第一特征；

通过CNN网络处理第一特征，提取包含不同句子之间关联关系的第二特征；

通过LSTM网络处理第二特征，提取用于表征文本中句子依赖关系的第三特征；

通过attention网络对第三特征进行规范化操作，得到对每个第三特征进行权重赋值的第四特征；

将第四特征引出至输出层，用于获取文本中每个句子的摘要预测概率，进而生成文本的摘要。

进一步地，所述第一特征的表达式为：

Multihead_j＝Concat(head₁,...,head_i,...,head_N)W^S；式中，head_i为对BERTSUM网络第i个“头”的语义理解表示，

N是BERTSUM网络中“头”的数量；在head_i的表达式中，查询向量Q＝XW^Q，键值K＝XW^K，键值V＝XW^V；X为BERTSUM网络的输入句子词嵌入表示；W^Q、W^K、W^V、W^S为BERTSUM网络中的训练参数；QK^T为X中不同词之间的相似性；T为转置；softmax为激活函数；Concat为对矩阵进行拼接；j＝1,2,…,L；L为文本中句子的个数。

进一步地，所述第二特征的表达式C_j＝CNN(Multihead_j)；CNN网络具体包括：

CNN网络包括三层结构，其中第一层由R个卷积核构成，其滤波器尺寸为s₁；第二层由2R个卷积核构成，其中前R个滤波器尺寸为s₁，后R个滤波器尺寸为s₂，前R个滤波器和后R个滤波器的关系为串联；第三层由3R个卷积核构成，其中前R个滤波器尺寸为s₁，中间R个滤波器尺寸为s₂，后R个滤波器尺寸为s₃，三种滤波器的关系为串联；最终输出为三层滤波器输出的拼接；卷积核个数R满足使BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积等于3R；滤波器尺寸为s₁、s₂、s₃根据模型的F1指标进行调整。

进一步地，所述第三特征的表达式h＝[h₁,h₂,...,h_j,...,h_L]；

前向

后向

LSTM网络采用双向的结构。

进一步地，双向LSTM网络具体包括前向LSTM和后向LSTM；具体参数包括隐藏层维度和层数；其中，层数选为一层，隐藏层的维度在数值上为BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积；将LSTM隐藏层的输出作为单向LSTM的输出，最终双向LSTM的输出是前向LSTM和后向LSTM的拼接。

进一步地，所述第四特征h'＝tanh(γ)；γ＝hα^T；α＝softmax(W^T(tanh(h)))；W^T为网络中的训练参数。

进一步地，所述输出层的输出函数为

其中

和

表示全连接层的偏置和权重参数。

进一步地，BERTSUM-CNN-LSTM-attention编码模型在进行训练时，训练集的建立过程包括：

1)对作为训练样本的多个文本进行预处理；

所述预处理包括对每个文本去除停用词、去除特殊符号以及分词操作在内的处理；

2)对预处理后的文本进行标签标记；

标签标记的方法采用贪心算法；将预处理后的文本作为输入文本，与文本对应的摘要作为标签，以形成训练集。

进一步地，所述BERTSUM-CNN-LSTM-attention编码模型，在进行模型训练时的目标是最小化预测标签和真实标签的交叉熵损失函数，所述损失函数为

式中，M是训练样本的个数，k取值为2，

是第m个样本预测的第n个值，1{Truth}＝1,1{False}＝0。

本发明还公开了一种基于全局性特征提取的文本摘要自动生成系统，包括，用于进行文本摘要自动生成的训练好的编码模型；

所述编码模型包括BERTSUM网络模型、CNN网络模型、LSTM网络模型和attention网络模型；

所述BERTSUM网络模型，用于对输入文本中每个句子的首端标识符进行编码，输出对每个句子进行编码后的第一特征；

所述CNN网络模型，用于处理第一特征，提取包含不同句子之间关联关系的第二特征；

所述LSTM网络模型，用于处理第二特征，提取用于表征文本中句子依赖关系的第三特征；

所述attention网络，用于对第三特征进行规范化操作，得到对每个第三特征进行权重赋值的第四特征；

所述第四特征的输出至输出层，用于获取文本中每个句子的摘要预测概率，进而生成文本的摘要。

本发明至少可实现以下有益效果之一：

本发明对多句子文本进行准确理解，即考虑句子间的局部特征，又考虑整个文档的整体特征以确保本文摘要生成质量。

特别是，针对刑事或者民事诉讼法律文书，采用本发明对其进行案情摘要生成，也可对公益诉讼案件诉前审查文书进行检察建议文本生成。不仅具有实用性强、工程应用前景广等优点，而且还解决了人力资源浪费和效率不高等问题，可以辅助办案人员办案。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本实施例中的文本摘要自动生成方法流程图；

图2为本实施例中的部分标记样本示意图；

图3为本实施例中的BERTSUM词嵌入原理图；

图4为本实施例中的“单头”机制原理图；

图5为本实施例中的“多头”机制原理图；

图6为本实施例中的模型F1值随迭代次数变化示意图；

图7为本实施例中的不同方法ROGUE-L的召回率R指标随迭代次数的变化示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明的一个实施例公开了一种基于全局性特征提取的文本摘要自动生成方法，如图1所示，包括以下步骤：

步骤S1、将包含多个句子的文本载入训练好的BERTSUM-CNN-LSTM-attention编码模型中；

步骤S2、通过BERTSUM网络对文本中每个句子进行编码，输出第一特征；

步骤S3、通过CNN网络处理第一特征，提取包含不同句子之间关联关系的第二特征；

步骤S4、通过LSTM网络处理第二特征，提取用于表征文本中句子依赖关系的第三特征；

步骤S5、通过attention网络对第三特征进行规范化操作，得到对每个第三特征进行权重赋值的第四特征；

步骤S6、将第四特征引出至输出层，用于获取文本中每个句子的摘要预测概率，进而生成文本的摘要。

所述BERTSUM-CNN-LSTM-attention编码模型在BERTSUM网络中进行基于BERTSUM的词嵌入表示、基于BERT的特征提取，在基于CNN-LSTM-attention组合网络进行编码处理；通过事先建立好的训练集对BERTSUM-CNN-LSTM-attention编码模型训练编码模型中的模型参数。

具体的，训练集的建立过程包括：

1)对作为训练样本的多个法律文书文本进行预处理。

其中，预处理可以包括但不限于对每个文本案例去除停用词、去除特殊符号、分词操作。

2)对预处理后的文本进行标签标记。

标签标记的方法可以采用贪心算法。将诉讼案件作为输入文本，案件案情摘要作为标签，通过训练模型，完成法律案件文本摘要生成。

首先对诉讼案件进行标签标记，根据案情摘要对诉讼案件中的句子进行重要性标记，如两者相关，则当前句子标签为1，反之为0，从诉讼案件中抽取句子作为案情摘要的内容就转化为对诉讼案件中句子标签的预测，如果预测为1，则将其抽取出来，作为案情摘要。

如图2所示，为部分标记样本示意图。

具体的，模型训练时的目标是最小化预测标签和真实标签的交叉熵损失函数。

优选的，所述损失函数为

式中，M是训练样本的个数，k取值为2，

是第m个样本预测的第n个值，1{Truth}＝1,1{False}＝0。

对于训练好的BERTSUM-CNN-LSTM-attention编码模型；将包含多个句子的法律文书文本载入，进行处理得到文书的摘要信息；

具体的，BERTSUM-CNN-LSTM-attention编码模型中的BERTSUM网络对输入法律文书文本中每个句子的首端标识符进行编码，输出对每个句子进行编码后的第一特征；

所述第一特征的表达式为Multihead_j＝Concat(head₁,...,head_i,...,head_N)W^S；式中，head_i为对BERTSUM网络第i个“头”的语义理解表示，

N是BERTSUM网络中“头”的数量；在head_i的表达式中，查询向量Q＝XW^Q，键值K＝XW^K，键值V＝XW^V；X为BERTSUM网络的输入句子词嵌入表示；W^Q、W^K、W^V、W^S为BERTSUM网络中的训练参数；QK^T为X中不同词之间的相似性；T为转置；softmax为激活函数；Concat为对矩阵进行拼接。

更具体的，BERTSUM词嵌入是对于每个词被编码为词向量，每个词向量由TokenEmbeddings,Interval Segment Embeddings和Position Embeddings三部分相加组成；经过BERTSUM词嵌入获得文本的向量表示如图3所示，每一个句子以[cls]开始，[sep]结束。通过每个句子的首端标识符[cls]进行编码。

对于BERTSUM网络中的每个“头”采用图4中的“单头”机制进行处理，得到第i个“头”的语义理解表示，

通过

缩放可保证(QK^T)与(V)进行点乘操作时幅度不至于过大，而且在进行softmax操作后，使得后续梯度操作更为稳定。

为了获取更为丰富的语义表示，完成一词多义理解，在根据图5中的“多头”机制，“多头”模式“不共享参数”(不同的权重参数)，这种机制更加符合人类对语言的理解。

以此得到，第一特征的表达式为Multihead_j＝Concat(head₁,...,head_i,...,head_N)W^S。

为了提取不同句子之间的关联性，采用CNN对BERTSUM的编码多头输出进行进一步的编码，提取包含不同句子之间关联关系的第二特征，不同句子之间的关联性受限于滤波器尺寸，所述第二特征为局部性的特征。

具体的，所述第二特征的表达式C_j＝CNN(Multihead_j)；其中CNN网络具体包括：

CNN网络包括三层结构，其中第一层由R个卷积核构成，其滤波器尺寸为s₁；第二层由2R个卷积核构成，其中前R个滤波器尺寸为s₁，后R个滤波器尺寸为s₂，前R个滤波器和后R个滤波器的关系为串联；第三层由3R个卷积核构成，其中前R个滤波器尺寸为s₁，中间R个滤波器尺寸为s₂，后R个滤波器尺寸为s₃，三种滤波器的关系为串联；最终输出为三层滤波器输出的拼接；卷积核个数R满足使BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积等于3R；滤波器尺寸为s₁、s₂、s₃根据模型的F1指标进行调整。通过对模型进行调试，具体的s₁、s₂、s₃分别取3、5、7可使模型的F1指标最优。

进一步地，采用LSTM对CNN的输出进行特征提取，获得反映整个文本的整体特征的第三特征，所述第三特征可表征文本中句子依赖关系，特别是长距离的句子之间的依赖关系。

具体的，所述第三特征的表达式h＝[h₁,h₂,...,h_j,...,h_L]，L为句子的个数；

LSTM网络采用双向的结构；前向

即前向LSTM输出的结果；后向

即后向LSTM输出的结果；

其中双向LSTM网络具体包括：

前向LSTM和后向LSTM的具体参数包括隐藏层维度和层数；其中层数选为一层，隐藏层的维度在数值上为BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积；将LSTM隐藏层的输出作为单向LSTM的输出，最终双向LSTM的输出是前向LSTM和后向LSTM的拼接。对前向和后向隐藏层输出进行拼接可以更好的捕捉文本上下文表示，可以提高最终文本生成效果。

利用注意力机制对双向LSTM的输出进行规范化操作，进一步完成文本特征提取，目的是对不同的句子，赋予其不同的权重进而得到第四特征。

具体的，所述第四特征h'＝tanh(γ)；γ＝hα^T；α＝softmax(W^T(tanh(h)))；W^T为网络中的训练参数。

具体的，将第四特征引出至输出层的输出函数为

其中

和

表示全连接层的偏置和权重参数。摘要输出是一个二分类任务，分类为1的句子将其抽取出来，作为案情摘要。

采用本发明实施例的摘要生成方法的模型F1值随迭代次数变化如图6所示。从图中可以看出，最优迭代次数为5K，ROGUE-1,ROGUE-2,ROGUE-L的F1值分别达到最大值0.2742，0.1520，0.2351，再增加迭代次数，F1值会下降，所以迭代次数5K即可以保存最优结果，又可以节省训练时间，保证了文本的快速生成。

相比其他基于BERT的摘要生成方法，以自动文摘评测方法标准指标Rogue-1、Rogue-2和Rogue-L为评价指标，评价摘要生成质量。得出下表：

表1 ROUGE-1对比结果

表2 ROUGE-2对比结果

表3 ROUGE-L对比结果

由上表所示，在ROGUE-1、ROGUE-2、ROGUE-3的F1指标，本文方法相比BERT+RNN模型，在F1指标上有2％，1.8％，1.02％的提高，而且在三个指标的召回率R上取得了最好的效果，分别为58.16％，35.27％，52.21％。

本文方法对硬件环境要求更低，比如，运行速度更快，这更为实用。表4为各方法的运行速度与模型参数比较，如表4所示，本文方法的参数量为116M，训练速度为0.801秒每步，测试速度为0.072秒每步，优于BERT+Tranformer和BERT+RNN的各项指标。

表4运行速度与模型参数比较

结合对比结果可以得出，本文方法由于摘要层采用CNN+LSTM+Attention来代替Transformer，所以对硬件条件GPU等要求更低，可以在有限的硬件条件下保证文本摘要的生成质量，训练和测试速度均快于其他两个模型，保证了模型测试的实时性。

图7是不同方法ROGUE-L的召回率R指标随迭代次数的变化，从图中可以看出，本文方法BERTSUM+CNN+LSTM+attention在整个迭代过程中取得了最高的召回率，并且在5K的迭代次数取得最优值0.5178。

综上所述，本发明实施例对多句子文本进行准确理解，即考虑句子间的局部特征，又考虑整个文档的整体特征以确保本文摘要生成质量。特别是，针对刑事或者民事诉讼法律文书，采用本发明对其进行案情摘要生成，也可对公益诉讼案件诉前审查文书进行检察建议文本生成。不仅具有实用性强、工程应用前景广等优点，而且还解决了人力资源浪费和效率不高等问题，可以辅助办案人员办案。

本发明的另一个实施例还公开了一种基于全局性特征提取的文本摘要自动生成系统，包括，用于进行文本摘要自动生成的训练好的编码模型；

所述将第四特征的输出至输出层，用于获取文本中每个句子的摘要预测概率，进而生成文本的摘要。

本实施例中的方案细节和有益效果与上一实施例中相似，在此就不一一赘述。

以上所述，仅为本发明较佳的几个具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于全局性特征提取的文本摘要自动生成方法，其特征在于，包括以下步骤：

通过BERTSUM网络对文本中每个句子进行编码，输出第一特征；

所述第二特征为局部性的特征，表达式为C_j＝CNN(Multihead_j)；Multihead_j为第一特征，j＝1,2,…,L；L为文本中句子的个数；在CNN网络中通过设置滤波器尺寸来确定文本中不同句子之间的关联性；

CNN网络具体包括：

CNN网络包括三层结构，其中第一层由R个卷积核构成，其滤波器尺寸为s₁；第二层由2R个卷积核构成，其中前R个滤波器尺寸为s₁，后R个滤波器尺寸为s₂，前R个滤波器和后R个滤波器的关系为串联；第三层由3R个卷积核构成，其中前R个滤波器尺寸为s₁，中间R个滤波器尺寸为s₂，后R个滤波器尺寸为s₃，三种滤波器的关系为串联；最终输出为三层滤波器输出的拼接；卷积核个数R满足使BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积等于3R；其中，滤波器尺寸s₁＝3、s₂＝5、s₃＝7，用于使所述编码模型的F1指标最优；

2.根据权利要求1所述的文本摘要自动生成方法，其特征在于，所述第一特征的表达式为Multihead_j＝Concat(head₁,...,head_i,...,head_N)W^S；式中，head_i为对BERTSUM网络第i个“头”的语义理解表示，

3.根据权利要求2所述的文本摘要自动生成方法，其特征在于，所述第三特征的表达式h＝[h₁,h₂,...,h_j,...,h_L]；

前向

后向

LSTM网络采用双向的结构。

4.根据权利要求3所述的文本摘要自动生成方法，其特征在于，双向LSTM网络具体包括前向LSTM和后向LSTM；具体参数包括隐藏层维度和层数；其中，层数选为一层，隐藏层的维度在数值上为BERTSUM网络中“头”的数量与每一个“头”的尺寸乘积；将LSTM隐藏层的输出作为单向LSTM的输出，最终双向LSTM的输出是前向LSTM和后向LSTM的拼接。

5.根据权利要求4所述的文本摘要自动生成方法，其特征在于，所述第四特征h'＝tanh(γ)；γ＝hα^T；α＝softmax(W^T(tanh(h)))；W^T为网络中的训练参数。

6.根据权利要求5所述的文本摘要自动生成方法，其特征在于，所述输出层的输出函数为

其中

和

表示全连接层的偏置和权重参数。

7.根据权利要求1所述的文本摘要自动生成方法，其特征在于，BERTSUM-CNN-LSTM-attention编码模型在进行训练时，训练集的建立过程包括：

1)对作为训练样本的多个文本进行预处理；

2)对预处理后的文本进行标签标记；

8.根据权利要求1所述的文本摘要自动生成方法，其特征在于，所述BERTSUM-CNN-LSTM-attention编码模型，在进行模型训练时的目标是最小化预测标签和真实标签的交叉熵损失函数，所述损失函数为

式中，M是训练样本的个数，k取值为2，

是第m个样本预测的第n个值，1{Truth}＝1,1{False}＝0。

9.一种基于如权利要求1-8任一项所述的文本摘要自动生成方法的自动生成系统，其特征在于，包括，用于进行文本摘要自动生成的训练好的编码模型；

所述attention网络模型，用于对第三特征进行规范化操作，得到对每个第三特征进行权重赋值的第四特征；