CN112559729B

CN112559729B - 一种基于层次多维变压器模型的文档摘要计算方法

Info

Publication number: CN112559729B
Application number: CN202011421016.1A
Authority: CN
Inventors: 申德周; 尹宏伟
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-06-24
Anticipated expiration: 2040-12-08
Also published as: CN112559729A

Abstract

本发明提出一种基于层次多维变压器模型的文档摘要计算方法，属于自然语言处理领域和机器学习领域。该方法在段落拆分与识别阶段，通过文档主题特征词预处理，将文档划分成多个段落，保留以特征词开头的段落，舍弃无关键特征的非重点段落，提高了计算效率；在重点句识别阶段，利用海量语料预训练多层变压器语言模型，在标注句语料上，训练句子权重判断模型，实现了识别段落中重点句，舍弃一般语句的目的；在重点字词识别阶段，利用重点字词标注语料，基于无长度限制的海量语料预训练多层变压器语言模型，训练字词序列到序列的权重模型，根据字词评分保留阈值内高评分，舍弃其他字词，提高了摘要计算精度。

Description

一种基于层次多维变压器模型的文档摘要计算方法

技术领域

本发明提出一种基于层次多维多层变压器的文档摘要计算方法，属于自然语言处理领域和机器学习领域。

背景技术

随着互联网的蓬勃发展，近年来企业、政府、个人的信息化数据都在急剧增长。并且随着社交媒体的出现与发展，非正式生活场景语料也在急剧增长。

如何利用有限的时间资源与计算资源，迅速寻找满足用户需求的正式内容与非正式内容是一个学术界与工业界共同的研究热点。

在自然语言处理领域，传统的变压器模型是一种结构良好的深度神经网络表示组件，被广泛应用于各类语言任务中。

在文本摘要计算方面，已有的基于规则的摘要计算方法受到规则制约，迁移效果较差，不满足通用领域摘要计算需求。而基于深度神经网络的摘要算法如BERTSUM(变压器摘要算法)摘要粒度上仅支持句子级别处理，因而不够理想。对于文本摘要计算，经典变压器算法具有运算资源大、难以快速计算的缺点；对于海量文本摘要计算方法，近年来也较少新算法提出，海量文本摘要计算的时间代价仍很高。本发明利用文本中的重点段落和句子以及无长度限制的变压器语言模型字词级抽取方法，高效而准确计算文本摘要，为海量数据处理提供了高效摘要计算关键技术。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于重点段落和句子以及无长度限制的变压器语言模型字词级抽取文本摘要方法。该发明基于预训练变压器语言模型，能够突破变压器算法的长度限制，将长句中的关键字词提取到摘要中，保留了计算精度，且节省了资源开销。

本发明提出一种层次多维多层变压器的文档摘要计算方法，其层次性体现在对文本的段、句、字和词等不同层次的处理方法上，具有多粒度特性，其特征在于，包括以下步骤：

1.段落拆分与识别阶段；具体步骤如下：

1-1)根据文档主题特征词将文档划分成多个段落；

1-2)保留以特征词开头的段落，舍弃其他段落。

2.重点句识别阶段；具体步骤如下：2-1)在训练阶段，利用标注句语料，基于海量语料预训练多层变压器语言模型，训练句子权重判断模型；

2-2)识别阶段，利用基于变压器的句子权重判断模型识别段落中重点句，舍弃其他句子；

3.重点字词识别阶段；具体步骤如下：3-1)在训练阶段，利用重点字词标注语料，基于无长度限制的海量语料预训练多层变压器语言模型，训练字词序列到序列的权重模型；

3-2)在识别阶段，利用无长度限制的海量语料预训练多层变压器语言模型序列到序列模型，根据字词评分保留阈值内高评分，舍弃其他字词。

本发明的特点及有益效果在于：

本发明采用重点段落识别技术，利用段落特征词保留重点段落，舍弃了大部分非重点文本，提高了计算效率，节约了计算资源；另外，根据抽样原理，基于限定长度的预训练变压器语言模型，设计了重点句识别方法；最后，基于无长度限制的预训练变压器语言模型，设计了重点字词识别的序列到序列模型，提高了计算精度。

附图说明

图1为本发明方法的整体流程图。

图2为本发明段落拆分与识别阶段流程图。

图3为本发明重点句识别流程图。

图4为本发明重点字词识别流程图。

具体实施方式

本发明提出一种基于层次多维多层变压器的文档摘要计算方法，下面结合附图和具体实施例对本发明进一步详细说明。

整体流程如图1所示，包括以下步骤：

1.段落拆分与重点段落识别阶段；算法流程如图2所示；具体步骤如下：

1-1)根据文档主题特征词将文档划分成多个段落；

1-2)保留以特征词开头的段落，舍弃其他段落。

2.重点句识别阶段；算法流程如图3所示；具体步骤如下：

2-1)在训练阶段，在标注句语料上训练基于海量语料预训练多层变压器语言模型，得到句子权重判断模型；

2-2)文本句子经过裁剪保留固定长度，经长度限制的变压器预训练语言模型编码后，依次经过遗忘层、全连接层，最终连接到重要性分类输出；

2-3)识别阶段，利用基于多层变压器中句子的多个编码状态充分表示句子特征，计算句子重要性权重，从而识别段落重点句，舍弃其他句子；

3.重点字词识别阶段；算法流程如图4所示；具体步骤如下：

3-1)在训练阶段，利用重点字词标注语料，基于无长度限制的海量语料预训练多层变压器语言模型，训练字词序列到序列的权重模型；

3-2)文本字词序列经无长度限制的变压器预训练语言模型编码后，依次连接遗忘层、全连接层，最后连接到字词重点标记序列输出；

3-3)无长度限制的变压器其优点在于，采用段记忆模块与相对位置编码机制来解决变压器存在的长序列计算过程中的计算效率问题，从而解决长距离序列依赖问题；

3-4)在识别阶段，利用无长度限制的海量语料预训练多层变压器语言模型序列到序列模型，根据字词评分保留阈值内高评分，舍弃其他字词。

算法流程简明易懂，计算过程高效，大大提升了文档摘要计算方法的效率。

由此可见，本发明达到了预期目的。

Claims

1.一种基于变压器模型的文档摘要计算方法，其特征在于，包括以下步骤：

步骤1.段落拆分与识别阶段；具体步骤如下：

步骤1-1.根据文档主题特征词将文档划分成多个段落；

步骤1-2.保留以特征词开头的段落，舍弃其他段落；

步骤2.重点句识别阶段；具体步骤如下：

步骤2-1.在训练阶段，利用标注句语料，基于海量语料预训练多层变压器语言模型，训练句子权重判断模型；

步骤2-2.识别阶段，利用基于变压器的句子权重判断模型识别段落中重点句，舍弃其他句子；

步骤3.重点字词识别阶段；具体步骤如下：

步骤3-1.在训练阶段，利用重点字词标注语料，基于无长度限制的海量语料预训练多层变压器语言模型，训练字词序列到序列的权重模型；

步骤3-2.在识别阶段，利用无长度限制的海量语料预训练多层变压器语言模型以及序列到序列模型，根据字词评分保留阈值内高评分的字词，舍弃其他字词。