CN114428852A

CN114428852A - 基于bert预训练模型的中文文本摘要抽取方法及装置

Info

Publication number: CN114428852A
Application number: CN202210032641.XA
Authority: CN
Inventors: 雷盟; 林怡静; 布宇凡
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-03

Abstract

本发明提供一种基于BERT预训练模型的中文文本摘要抽取方法及装置，所述方法包括：获取待抽取文本并基于LDA融合算法待抽取文本的关键词；将所述待抽取文本输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量；其中，所述BERT预训练语言模型通过对多个文本样本以及对应的样本句向量生成结果训练获取；对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要。本发明能够通过关键词反映文本的上下文语义，从而提高文本摘要的质量。

Description

基于BERT预训练模型的中文文本摘要抽取方法及装置

技术领域

本发明涉及文本摘要提取技术领域，尤其涉及一种基于BERT预训练模型的中文文本摘要抽取方法及装置。

背景技术

近年来，随着互联网的快速发展与信息技术的进步，文本数据呈指数级速度增长。面对海量的文本数据，传统的阅读方式人们首先需要对文章进行通篇阅读，然后对文章进行总结，概括文章核心内容，整个流程人工成本高，效率低。因此，在面对长文本的场景下，为了快速获取文章摘要，节约人工成本，自动文摘技术就应运而生了。

自动文摘目前主要有抽取式摘要和生成式摘要这两种研究方向。然而，现有技术中对中文文本摘要进行摘取的方法还存在着对句子的语义理解不够透彻，无法捕获长文本的上下文语义以及忽略句子的关键词等问题。

因此，如何通过提取文章中的关键词，提高关键词与文本的语义关系，从而提高抽取的文本摘要的质量，是当前课题亟需解决的技术问题。

发明内容

本发明提供一种基于BERT预训练模型的中文文本摘要抽取方法及装置，用以解决现有技术中抽取的文本摘要质量不高的缺陷，实现对抽取的文本摘要质量的提高。

本发明提供一种基于BERT预训练模型的中文文本摘要抽取方法，包括：

获取待抽取文本并基于LDA融合算法待抽取文本的关键词；

将所述待抽取文本输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量；

其中，所述BERT预训练语言模型通过对多个文本样本以及对应的样本句向量生成结果训练获取；

对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要。

根据本发明提供的一种基于BERT预训练模型的中文文本摘要抽取方法，基于LDA融合算法待抽取文本的关键词，具体包括：

将所述待抽取文本输入至LDA主题模型中，得到所述待抽取文本的关键词；

其中，所述LDA主题模型为对多个文本样本数据集进行无监督训练生成的。

根据本发明提供的一种基于BERT预训练模型的中文文本摘要抽取方法，所述对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要，具体包括：

获取所述句向量中任一目标句子与其他句子的余弦相似度；

基于所述余弦相似度计算得到各个所述句向量的权重；

对所述句向量的权重基于所述句子关键词、句子位置以及句子长度进行修正，输出所述句向量的权重修正结果，并基于所述权重修正结果得到所述待抽取文本的文本摘要。

根据本发明提供的一种基于BERT预训练模型的中文文本摘要抽取方法，所述基于所述余弦相似度计算得到各个所述句向量的权重，通过以下公式实现：

所述余弦相似度通过以下公式实现：

其中，v_i、v_j和v_k为不同的句子，d为阻尼系数，w_ji和w_jk分别为句子v_i和句子v_j之间的余弦相似度以及句子v_k和句子v_j之间的余弦相似度，WS(v_i)和WS(v_j)分别为句子v_i和v_j的权重；A、B是句子v_i、v_j所对应的句向量。

根据本发明提供的一种基于BERT预训练模型的中文文本摘要抽取方法，所述对所述句向量的权重基于所述句子关键词、句子位置以及句子长度进行修正，包括：

对所述句向量基于所述句子关键词进行判断，若所述句向量对应的句子包括所述关键词，则提高所述句向量的权重；

对所述句向量基于句子位置进行判断，若所述句向量对应的句子位于待抽取文本的首句，则提高所述句向量的权重；

对所述句向量基于句子长度进行判断，若所述句向量的长度小于目标长度，则降低所述句向量的权重。

根据本发明提供的一种基于BERT预训练模型的中文文本摘要抽取方法，所述BERT预训练语言模型包括：嵌入层、编码层和平均池化层；

所述将所述待抽取文本和所述关键词输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量，具体包括：

基于所述嵌入层，将所述待抽取文本以及对应的所述关键词转换为句向量；

将所述句向量输入至所述编码层，输出多种维度的句向量的表征信息；

将多种维度的句向量的表征信息输入至所述平均池化层，对多维度的句向量的表征信息进行处理，生成固定维度的句向量。

本发明还提供一种基于BERT预训练模型的中文文本摘要抽取装置，包括：

文本及关键词获取模块，用于获取待抽取文本并基于LDA融合算法待抽取文本的关键词；

句向量获取模块，用于将所述待抽取文本输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量；

其中，所述BERT预训练语言模型通过对多个文本样本、关键词样本以及对应的样本句向量生成结果训练获取；

文本摘要获取模块，用于对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于BERT预训练模型的中文文本摘要抽取装置方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于BERT预训练模型的中文文本摘要抽取装置方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于BERT预训练模型的中文文本摘要抽取装置方法的步骤。

本发明提供的基于BERT预训练模型的中文文本摘要抽取方法及装置，通过获取待抽取文本以及对待抽取文本进行关键词提取，并将待抽取文本基于BERT预训练语言模型获取固定维度的句向量，然后对句向量进行权重计算和权重修正，得到待抽取文本的文本摘要。本发明所获取的文本摘要基于待抽取文本进行关键词的获取，因此能够通过关键词反映文本的上下文语义，从而提高了文本摘要的质量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的基于BERT预训练模型的中文文本摘要抽取方法的流程示意图之一；

图2是本发明提供的基于BERT预训练模型的中文文本摘要抽取方法的流程示意图之二；

图3是本发明提供的基于BERT预训练模型的中文文本摘要抽取装置的结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图2描述本发明提供的基于BERT预训练模型的中文文本摘要抽取方法。

本发明提供一种基于BERT预训练模型的中文文本摘要抽取方法，包括但不限于以下步骤：

步骤110：获取待抽取文本并基于LDA融合算法待抽取文本的关键词；

具体地，本实施例中的待抽取文本为中文长文本，由于中文长文本具有表达宽泛性的特点，因此需要对待抽取文本进关键词提取。本实施例通过利用主题与文章、主题与词汇之间的关联来提取待抽取文本中的关键词，使得关键词与待抽取文本更具有语义关系。

步骤120：将所述待抽取文本和所述关键词输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量；

具体地，本实施例中，将已获取的待抽取文本及其关键词通过BERT预训练语言模型，生成与待抽取文本相对应的句向量。其中，句向量具有固定维度，并且生成的句向量对应的待抽取文本的句子包括关键词。因此，本实施例中的句向量是基于关键词生成的，具有一定的语义关联性。

本实施例中的BERT预训练语言模型用于对文本样本和关键词样本进行提取，进而得到文本样本的句向量。在训练过程中，BERT预训练语言模型输出的句向量结果可能产生误差值，可根据误差值对BERT预训练语言模型的模型参数进行调整。当目标准确度达到期望值时，保持此时的BERT预训练语言模型。其中，目标准确度达到预期指的是BERT预训练语言模型收敛，具体表现为：生成的句向量的误差值小于预设阈值，即表示BERT预训练语言模型训练完成。

步骤130：对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要。

具体地，基于BERT预训练语言模型生成的句向量，先对句向量的权重进行计算，然后综合考虑句向量中所对应的句子关键字的词性、句子的位置、句子长度等物理特征对句子权重的影响，使得生成的摘要更加具有概括性，提高文本摘要的质量。

本发明提供的基于BERT预训练模型的中文文本摘要抽取方法，通过获取待抽取文本以及对待抽取文本进行关键词提取，并将待抽取文本基于BERT预训练语言模型获取固定维度的句向量，然后对句向量进行权重计算和权重修正，得到待抽取文本的文本摘要。本发明所获取的文本摘要基于待抽取文本进行关键词的获取，因此能够通过关键词反映文本的上下文语义，从而提高了文本摘要的质量。

基于以上实施例，基于LDA融合算法待抽取文本的关键词，具体包括：

具体地，本实施例中，关键词是将待抽取文本基于LDA主题模型生成的。首先需要把文章按照中文标点符号进行分句，然后对每一个句子进行中文分词，同时需要过滤停用词，最后通过训练好的LDA主题模型获取文章的关键词。LDA主题模型的方法是基于语义特征，提取的关键字与文章更具有语义关系。

本实施例中，训练完成的LDA主题模型的联合分布概率为：

其中，z为文章主题，θ为主题向量，w为该主题下的词汇。然后计算出模型的主题-词分布模型，从而将概率值较高的词汇作为当前文章的关键词。

基于以上实施例，所述对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要，具体包括：

获取所述句向量中任一目标句子与其他句子的余弦相似度；

基于所述余弦相似度计算得到各个所述句向量的权重；

具体地，本实施基于图模型LexRank算法，先后通过对句向量的权重进行计算以及修正，从而得到待抽取文本的文本摘要。

LexRank算法是将文章中的句子在图模型下计算句子权重的方法，如果一个句子与其他很多的句子都是相似的，那么则认为这个句子是比较重要的，那么句子的权重得分也比较高。LexRank算法中句子之间的相似度计算往往是通过向量空间模型的方式求出句子对之间的余弦相似度。

所述基于所述余弦相似度计算得到各个所述句向量的权重，通过以下公式实现：

所述余弦相似度通过以下公式实现：

本实施例通过对各个句子的权重值进行计算，从而选出TOPK个句子作为摘要。即对句子根据权重进行排序，然后选取K个权重得分最高的句子。

基于以上实施例，所述对所述句向量的权重基于所述句子关键词、句子位置以及句子长度进行修正，包括：

具体地，本实施例为了得到更准确的摘要，需要在计算LexRank权重的时候考虑到句子的上述特征。对句子权重进行修正的步骤如下：

记句子v_i通过LexRank计算得到的权重为WS(v_i)：

1、句子是否包括关键词：

关键词往往能够代表文章的主题内容，如果一个句子包含关键词，那就应该提高该句的权重。并且，中文长文本中句子组成成分较为复杂，而对于文章摘要场景来说，应该给予名词，动名词等名词性的词语更高的权重。

2、句子的位置：

通常，文章首句往往包含的信息量较大，因此考虑给文章首句赋予较高的权重，其他位置的句子权重保持不变。

3、句子长度：

由于中文语境的复杂性，文中可能存在较短的句子，这些句子往往含有较低的信息量，通过筛选掉较短的句子，可以有效的保证摘要的质量。

本实施例，通过基于LexRank算法通过对句子关键词、句子位置以及句子长度进行修正，从而能够得到待抽取文本中更准确的摘要。

基于以上实施例，所述BERT预训练语言模型包括：嵌入层、编码层和平均池化层；

具体地，待抽取文本对应的句向量如以下公式所示：

其中，S_i表示句子对应的句向量，i表示文章中第i个句子，

表示文章第i个句子第j个词的词向量。

其中，position_j表示单词在句子中的位置，segment_i为句子的分割标志。

其中，position_j表示单词在句子中的位置，segment_i为句子的分割标志，由于本算法中只有一个句子，所以取0。句子经过BERT预训练模型的嵌入层，得到S′_i作为编码层的输入。

编码层是由多层transformer编码器组成的，句向量每经过一层transformer编码器，都会输出一个隐藏的句子向量表征，所以句子经过编码层可以表示为：

最终，为了保证得到维度相同的句向量并且句向量能够充分理解上下文语义，通过平均池化层(average pooling)，最终句向量可以表示为：

S＝MEAN(S″_i) (11)

本公式指对编码层输出的句向量进行维度平均，从而得到固定维度的句向量。

参照图2，本发明提供的基于BERT预训练模型的中文文本摘要抽取方法的步骤包括：

将文本数据进行预处理，其中包括对文本数据进行关键词提取，然后将预处理之后的数据输入到嵌入层。

本实施例中，嵌入层包括：Token嵌入层、Segment嵌入层以及Position嵌入层。

Token嵌入层用于将本实施例中的文本数据转化为句向量；

Segment嵌入层用于对句向量进行分割，分割为多个词向量；

Position嵌入层用于对词向量进行确认，并输出句向量；

经过嵌入层输出后的句向量经过BERT层，即编码层进行编码再经平均池化层得到固定维度的句向量。

然后将句向量基于LexRank算法进行句子权重修正，对句子长度进行过滤，最后得到文本数据对应的文本摘要。

下面对本发明提供的基于BERT预训练模型的中文文本摘要抽取装置进行描述，下文描述的基于BERT预训练模型的中文文本摘要抽取装置与上文描述的基于BERT预训练模型的中文文本摘要抽取方法可相互对应参照。

参照图3，本发明提供一种基于BERT预训练模型的中文文本摘要抽取装置，包括以下模块：

文本及关键词获取模块310，用于获取待抽取文本并基于LDA融合算法待抽取文本的关键词；

句向量获取模块320，用于将所述待抽取文本输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量；

文本摘要获取模块330，用于对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要。

本发明提供的基于BERT预训练模型的中文文本摘要抽取装置，通过获取待抽取文本以及对待抽取文本进行关键词提取，并将待抽取文本以及对应的关键词基于BERT预训练语言模型获取固定维度的句向量，然后对句向量进行权重计算和权重修正，得到待抽取文本的文本摘要。本发明所获取的文本摘要基于待抽取文本进行关键词的获取，因此能够通过关键词反映文本的上下文语义，从而提高了文本摘要的质量。

基于以上实施例，文本及关键词获取模块，具体用于：

基于以上实施例，文本摘要获取模块，具体用于：

获取所述句向量中任一目标句子与其他句子的余弦相似度；

基于所述余弦相似度计算得到各个所述句向量的权重；

基于以上实施例，文本摘要获取模块，用于基于所述余弦相似度计算得到各个所述句向量的权重，通过以下公式实现：

所述余弦相似度通过以下公式实现：

基于以上实施例，文本摘要获取模块具体用于：

句向量获取模块，具体用于：

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行基于BERT预训练模型的中文文本摘要抽取方法，该方法包括：

获取待抽取文本并基于LDA融合算法待抽取文本的关键词；

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于BERT预训练模型的中文文本摘要抽取方法，该方法包括：

获取待抽取文本并基于LDA融合算法待抽取文本的关键词；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于BERT预训练模型的中文文本摘要抽取方法，该方法包括：

获取待抽取文本并基于LDA融合算法待抽取文本的关键词；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，包括：

获取待抽取文本并基于LDA融合算法待抽取文本的关键词；

2.根据权利要求1所述的基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，

基于LDA融合算法待抽取文本的关键词，具体包括：

3.根据权利要求1所述的基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，

所述对所述句向量进行权重计算并基于所述关键词进行权重修正，得到所述待抽取文本的文本摘要，具体包括：

获取所述句向量中任一目标句子与其他句子的余弦相似度；

基于所述余弦相似度计算得到各个所述句向量的权重；

4.根据权利要求3所述的基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，

所述余弦相似度通过以下公式实现：

5.根据权利要求3所述的基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，

所述对所述句向量的权重基于所述句子关键词、句子位置以及句子长度进行修正，包括：

6.根据权利要求1所述的基于BERT预训练模型的中文文本摘要抽取方法，其特征在于，

所述BERT预训练语言模型包括：嵌入层、编码层和平均池化层；

所述将所述待抽取文本输入至BERT预训练语言模型中，得到所述待抽取文本固定维度的句向量，具体包括：

基于所述嵌入层，将所述待抽取文本转换为句向量；

7.一种基于BERT预训练模型的中文文本摘要抽取装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于BERT预训练模型的中文文本摘要抽取方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于BERT预训练模型的中文文本摘要抽取方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于BERT预训练模型的中文文本摘要抽取方法的步骤。