CN111177366B

CN111177366B - 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统

Info

Publication number: CN111177366B
Application number: CN201911396046.9A
Authority: CN
Inventors: 李建欣; 毛乾任; 董善为; 李熙; 李倩; 孙睿
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-06-27
Anticipated expiration: 2039-12-30
Also published as: CN111177366A

Abstract

本发明通过深度学习的方法，构建训练数据与数据预处理；基于BERT模型预训练语言模型进行文档与查询内容编码；基于BERT模型的查询内容进行词编码；建立基于句子级别的层级结构(Hierarchical结构)模型，实现查询内容与文档关系语义建模；模型训练后封装，通过接口输出抽取式摘要五个步骤，使BERT模型学习词级别的特征向量表示，抽取代表文档的句子和查询的句子，并将上述特征导入Transformer模型进行句子级别的语义关系特征学习，结合查询模型的思想，学习查询内容与文档的关系，通过分类函数判定最终得到文本的摘要。

Description

一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统

技术领域

本发明涉及人工智能领域，尤其涉及一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统。

背景技术

随着互联网技术的发展，万维网上大量的文本信息飞速增长，从大量文本信息中提取重要的内容，已成为我们的一个迫切需求，而自动文本摘要(automatic textsummarization)则提供了一个高效的解决方案。对计算机而言，生成摘要是一件很有挑战性的任务。从一份或多份文本生成一份合格摘要，要求计算机在阅读原文本，并理解其内容，并根据轻重缓急对内容进行取舍，裁剪和拼接内容，最后生成流畅的短文本。因此，自动文本摘要需要依靠自然语言处理/理解的相关理论，是近几年来的重要研究方向之一。自动文本摘要通常可分为两类，分别是抽取式(extractive)和生成式(abstractive)。抽取式摘要判断原文本中重要的句子，抽取这些句子成为一篇摘要。而生成式方法则应用先进的自然语言处理的算法，通过转述、同义替换、句子缩写等技术，生成更凝练简洁的摘要。

抽取式的方法由于是从原文中抽取重要的句子组成摘要，只需要把抽取重要的句子按照顺序组合起来，这种方式相比于生成式逐字生成的方法具备更高的流畅性，其效果通常优于基于深度学习的生成式方法。但从抽取式的摘要方式可见，该方法并未针对原文理解其内容，重要句子的选择往往基于相似度计算保留其中的一句，这种方式的形成的摘要在句子之间的连贯性上难以保证。

本发明基于深度语言模型的抽取式自动文本摘要方法，深度语言模型建模实现对源文的语义编码，将源文的文字转换为稠密向量表示，实现文字在计算机中的计算。并且深度语言模型能够辅助高阶的语义特征编码在向量表示中。实现对源文的语义理解。并从词级别实现句子级别的语义表征的向量，通过分类模型判断与定位源文的句子中最适合作为摘要的句子，抽取出句子并拼接形成最后的摘要结果。

发明内容

由于抽取式文本摘要具备相对于生成式文本摘要更加优越的性能，特别是针对长文本摘要的应用场景，抽取式文本摘要研究仍然备受瞩目，也更能够直接应用于现实场景的开发实现，而目前已有的工作并没有从语义理解这个角度进行抽取式文本摘要的建模，造成抽取出的摘要存在偏离源文核心语义的现象。本发明正是针对深度语义理解表征的抽取式文本摘要进行深入研究，解决抽取式文本摘要方法在语义理解上存在的问题，提升摘要性能。

为达到上述目的，本发明采用了下列技术方案：

一种基于查询机制的抽取式文档摘要自动生成方法，包括：

步骤一：构建训练数据与数据预处理；

步骤二：基于BERT模型预训练语言模型进行语义编码；

步骤三：基于BERT模型的查询内容进行语义编码；

步骤四：建立基于句子级别的层级结构(Hierarchical结构)模型，实现查询内容与文档关系语义建模；

步骤五：模型训练后封装，通过接口输出抽取式摘要。

步骤一所述构建训练数据与数据预处理步骤包括：

获取输入源文本；

对输入源文本数据预处理，先进行源文本的分词，并在在每一个源文本分词后的词序列前后分别添加表示开始与结束的标签，整个序列作为输入模型的源文本序列；

对查询文本进行数据预处理，进行分词后，在查询内容的词序的前后加上开始与结束标签，整个序列作为输入模型的查询序列；

预处理好的源文本序列与查询文本序列，作为模型需要输入的数据，通过划分数据集，以训练集、验证集、测试集为8：1：1的比例，划分最后数据。

步骤二所述基于BERT模型预训练语言模型进行文档与查询内容编码步骤包括：

采用xavier函数随机初始化词的向量表示，得到源文本句子编码向量；

将所述源文本句子编码向量通过BERT模型进行对应的隐向量表示学习；

从学习结果中提取所述句子头部所述标签作为代表该句子的隐向量特征。

步骤三所述基于BERT模型的查询内容进行词编码步骤包括：

步骤四建立基于句子级别的语义关系模型步骤包括：

对查询内容使用BERT模型进行编码，查询内容为文档中的每一个句子；

编码的查询内容通过BERT模型进行对应的隐向量表示学习；

提取代表查询内容的所述隐向量特征，用以针对询问是否是作为摘要的查询对象特征向量表示。

步骤五所述模型训练后封装，通过接口输出抽取式摘要步骤包括：

设置针对句子分类的损失函数；

参数调优，将训练好的模型实现装置的接口封装，用于对于真实数据的抽取式摘要的生成。

一种基于查询机制的抽取式文档摘要自动生成装置，包括：

信息输入模块，用于输入源文本；

抽取式文档摘要自动生成模块，应用上述基于查询机制的抽取式文档摘要自动生成方法，对输入源文本进行摘要生成；

信息输出模块，将自动生成的摘要通过接口程序输出。

一种基于查询机制的抽取式文档摘要自动生成系统，包括：

至少一台服务器，以及与服务器连接的基于查询机制的抽取式文档摘要自动生成装置，所述服务器执行生成摘要过程时，通过所述基于查询机制的抽取式文档摘要自动生成装置，从信息输入模块得到源文本，并执行上述方法得到最终的与源文本对应的摘要。

本发明相对于现有技术的优点在于：

1、基于中文的语言模型，在词级别建模基础上提取句子级别的特征，通过计算句子集中句子的内在语义关系来计算句子的重要性，提取摘要句子。

由于算法中使用了BERT结构，使得在处理长文本的摘要时，通过自注意力的概率分布学习，比传统的基于文本排序的算法更能获得前后句之间的语义关系，使得得到的摘要句之间不仅每一个句子对于全文的重要度很高，而且整个摘要的整体性更好。

2、通过语言模型进行上下文语境理解的文本编码建模，结合抽取式方法从原文中抽取句子的思想，通过计算源文中句子是否能作为摘要句，而进行句子分类，采用查询机制的(Q&A)模型构建分类机制。问题部分在词级别独立于原文输入进BERT模型后，将经过自注意力训练的句子向量与原文的句子向量输入进二分类模型，判断其可以作为摘要的概率，最后实现摘要的生成。

附图说明

图1基于查询机制的抽取式文本摘要算法流程图；

图2基于查询机制的抽取式文本摘要模型图；

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本实施例使用抽取式方法，自动对输入的文本进行句子分析，分析出句子是否可以作为摘要句，然后将所有摘要句排序，输出最后提取出的摘要。

具体而言其实现方式为：选取文档中的句子作为Query句子，文档作为Document句子集，本发明提出一种查询机制式的摘要抽取方式，查询机制样本可描述为一个三元组：<D，Q，A>，其中D代表文档(document)，Q代表查询(query)，A则代表查询对象是摘要的分数(answer)，由于是从原文本中抽取相关的句子作为摘要的结果，这里将得到原文中每句话的分数。整个算法流程图如图1所示。

步骤一：构建训练数据与数据预处理

(1)从训练语料中划分文档与查询内容，并分别对文档与查询内容进行数据预处理，首先对输入源文本数据预处理，得到源文本内容后，在每一个源文本内容每一个句子的前后分别加上[cls]与[eos]标签，其中[cls]标签主要是用于句子建模过程中学习对句子的编码信息，可以代表整个句子内容的语义，而[eos]主要用于学习源文本结束的语义。

(2)对源文本进行分词处理，将每一个分词的后句子的所有token用序列{[x_s1-1]，[x_s1-2]，…，[x_s1-n]}。其中x表示词向量，s1-1表示第一句话第一个token。结合上诉步骤一的两个标签，整个源文本的句子表示的结构为{[cls₁]，[x_s1-1]，[x_s1-2]，…[cls₂]，[x_s2-1]，[x_s2-2]，…，[eos₁]}的Source数据。

(3)其次对查询内容进行数据预处理，本发明的目的是实现一个基于查询机制的抽取式文本摘要技术，建模过程需要大量的真实样本，构建训练数据集包括：源文本与源文中每一个询问是否可以作为摘要的句子。在对原文本进行数据处理构建后，需要对以查询内容同时灌入模型中进行训练。因此对查询内容的结构处理为{[cls_q]，[q]，[eos_q]}。获得最初的训练语料。

步骤二：实现基于BERT预训练语言模型的文档与查询内容编码

首先，进行文档和查询的预处理的数据后，需要以各自的词向量进行输入，编码学习对应的特征隐状态向量。本发明借助BERT预训练语言模型具备预训练的外界信息的特征，以及BERT内部的Transformer结构对于上下文特征编码能力。在抽取式文本摘要的编码器，本发明采用基于预训练语言模型BERT对文档和查询内容进行特征编码，这部分实现主要是为了提取文档中每一个句子的表示以及查询内容的表示。具体步骤包括：

(1)如模型图2所示所示，基于本发明采用的BERT对文档内容进行编码，获取文档内容向量表示，采用xavier函数随机初始化词的向量表示，得到源文本句子编码向量。

source_embedding＝Xavier(content)

(2)文档中的词所得句子编码向量通过BERT进行对应的隐状态向量表示学习。

T＝BERT(source_embedding)

(3)提取代表句子的隐状态向量特征表示T_cls，T_cls分别可以代表句子的整体特征。具体而言，该步骤即提取句子[cls_i]标签对应的隐状态向量。

T_cls＝GetCls(T)

步骤三：实现基于BERT的查询内容的词编码

查询内容为文档中的每一个句子，通过句子与文档进行语义关系建模，判断该句子是否是生成的摘要。而建模的前提也需要对查询内容进行编码输入模型，同样采用基于BERT去编码实现，通文档的编码一致，包括：

(1)对查询内容使用BERT进行编码。

query_embedding＝Xavier(query)

(2)编码的查询内容通过BERT进行对应的隐状态向量表示学习。T_q-w表示查询内容的所有的词表示：

T_q-w＝BERT(query_embedding)

(3)提取代表查询内容的隐状态向量特征表示T_q，T_q代表句子的整体特征，用以针对询问是否是作为摘要的查询对象特征向量表示。具体而言，该步骤即提取句子[cls_q]标签对应的隐状态向量。

T_q＝GetCls(T_q-w)

步骤四：基于句子级别的Hierarchical结构实现查询内容与文档关系语义建模

Hierarchical结构体现在对句子级别的编码中学习查询内容与文档的关系语义，主要是用(2)(3)分别提出的文档中所有代表句子的标签的隐状态向量T_cls与代表查询内容句子的标签的隐状态向量表示T_q，通过T_q对T_cls进行语义关系建模，得到最后的查询向量上层隐状态表示：T′_q，该向量用于最后的分类任务，即判定它是还是不是要抽取的摘要的句子。最后选取三个句子作为摘要的组成内容。具体而言：

(1)将(2)中文档的所有代表句子的隐状态向量和(3)得到的代表查询句子的隐状态向量作为输入到Transformer语义关系编码器中学习查询内容与句子的关系建模。得到句子级别的隐状态向量表示K为：

K＝Transformer(T_cls，T_q)

(2)得到查询向量上层隐状态表示：T′_q，

T′_q＝Get(K)

(3)T′_q作为分类的目标，设计分类函数得到该句子的是目标摘要句子的概率。其概率函数为：

P(y_x|x)＝softmax(W_gT′_q+b_g)

其中，W_g与b_g表示摘要抽取的概率计算中需要模型学习的参数。得到概率后，选择概率分布中概率最高的句子作为抽取的摘要的对象。

综上，本发明设计了一种基于分类任务的查询机制用以抽取式文本摘要建模，包括BERT对文档与查询内容进行特征编码；用T_cls，与T_q标签代表整个原文句子，与查询内容的整体语义；基于句子级别的Hierarchical结构实现查询内容与文档关系语义建模；分类器判定句子是否为抽取的对象。

步骤五：训练数据并根据交叉验证调优，并实现模型封装与装置的接口实现。

(1)设置针对句子分类的loss函数。采用cross entropy loss为：

其中，y_t表示模型训练过程中需要生成的真实的文本。P(y_t|x)表示句子判定为应该被抽取的应该被抽取的句子的概率分布，由(4)中的步骤四的概率函数求得。

(2)参数调优后，将训练好的模型实现接口封装，用于装置对于真实数据的抽取式摘要。

本发明相对于现有技术的优点在于：

本实施例方法使用了BERT结构，使得在处理长文本的摘要时，通过自注意力的概率分布学习，比传统的基于text rank的算法更能获得前后句之间的语义关系，使得得到的摘要句之间不仅每一个句子在全文的重要度很高，而且整个摘要的整体性更好。比如文章中出现了两个重要度都很高的句子，但是他们之间的语义相似度很高，那么该算法就可以学习到这个相关的特征，并自动降低其中一个句子的摘要概率。

采用查询机制的(Q&A)模型构建分类机制。问题部分在词级别独立于原文输入进BERT模型后，将经过自注意力训练的句子向量与原文的句子向量输入进二分类模型，判断其可以作为摘要的概率。这样也可以接受除了原文外的句子输入进模型进行训练，增加训练样本数量，可以更好的训练模型参数。

Claims

1.一种基于查询机制的抽取式文档摘要自动生成方法，其特征在于：

步骤一：构建训练数据与数据预处理；

步骤二：基于BERT模型预训练语言模型进行语义编码；

步骤三：基于BERT模型的查询内容进行语义编码；

步骤四：建立基于句子级别的Hierarchical结构的层级结构模型，实现查询内容与文档关系语义建模；

步骤五：模型训练后封装，通过接口输出抽取式摘要；

所述构建训练数据与数据预处理步骤包括：

获取输入源文本；

对输入源文本数据预处理，先进行源文本的分词，并在每一个源文本分词后的词序列前后分别添加表示开始与结束的标签，具体而言，在每一个源文本内容每一个句子的前后分别加上[cls]与[eos]标签，其中[cls]标签用于句子建模过程中学习对句子的编码信息，代表整个句子内容的语义，而[eos]用于学习源文本结束的语义，所述分词方式为，x表示词向量，“s1-1”表示第一句话第一个token，结合前面的两个标签，整个源文本的句子表示的结构为{[cls₁]，[x_s1-1]，[x_s1-2]，…[cls₂]，[x_s2-1]，[x_s2-2]，…，[eos]}的Source数据，整个序列作为输入模型的源文本序列；

预处理好的源文本序列与查询文本序列，作为模型需要输入的数据，通过划分数据集，以训练集、验证集、测试集为8：1：1的比例，划分最后数据；

所述基于BERT模型预训练语言模型进行文档与查询内容编码步骤包括：

从学习结果中提取所述句子头部所述标签作为代表该句子的隐向量特征；

所述基于BERT模型的查询内容进行词编码步骤包括：

对查询内容使用BERT模型进行编码，查询内容为文档中的每一个句子，通过句子与文档进行语义关系建模，判断该句子是否是生成的摘要，而建模的前提也需要对查询内容进行编码输入模型，同样采用基于BERT去编码实现，通文档的编码一致，包括：

步骤(1)对查询内容使用BERT进行编码；

query_embedding＝Xavier(query)；

步骤(2)编码的查询内容通过BERT进行对应的隐状态向量表示学习，T_q-w表示查询内容的所有的词表示：

T_q-w＝BERT(query_embedding)

步骤(3)提取代表查询内容的所述隐向量特征表示T_q，T_q代表句子的整体特征，用以针对询问是否是作为摘要的查询对象特征向量表示，具体而言，该步骤即提取句子[cls_q]标签对应的隐状态向量；

T_q＝GetCls(T_q-w)；

所述建立基于句子级别的Hierarchical结构的层级结构模型步骤包括：

将所述基于BERT模型预训练得到的源文句子和查询句子标签对应的隐向量输入进Transformer语义关系编码器中，进行句子级别的关系建模，并得到查询向量上层隐状态向量表示；

设计分类函数，通过摘要抽取的概率计算中需要模型学习的参数，将其带入softmax函数模型后，得到该句子的是目标摘要句子的概率，得到概率后，选择概率分布中概率最高的句子作为抽取的摘要的对象；

具体而言，所述Hierarchical结构体现在对句子级别的编码中学习查询内容与文档的关系语义，用所述步骤(2)、所述步骤(3)分别提出的文档中所有代表句子的标签的隐状态向量T_cls与代表查询内容句子的标签的隐状态向量表示T_q，通过T_q对T_cls进行语义关系建模，得到最后的查询向量上层隐状态表示：T'_q，该向量用于最后的分类任务，即判定它是还是不是要抽取的摘要的句子，最后选取三个句子作为摘要的组成内容，具体而言：

首先将所述步骤(2)中文档的所有代表句子的隐状态向量和所述步骤(3)得到的代表查询句子的隐状态向量作为输入到Transformer语义关系编码器中学习查询内容与句子的关系建模，得到句子级别的隐状态向量表示K为：

K＝Transformer(T_cls，T_q)

之后得到查询向量上层隐状态表示：T'_q，

T′_q＝Get(K)

最后T'_q作为分类的目标，设计分类函数得到该句子的是目标摘要句子的概率，其概率函数为：

P(t_x|x)＝softmax(W_gT′_q+b_g)

其中，W_g与b_g表示摘要抽取的概率计算中需要模型学习的参数，得到概率后，选择概率分布中概率最高的句子作为抽取的摘要的对象。

2.根据权利要求1所述的一种基于查询机制的抽取式文档摘要自动生成方法，其特征在于：所述模型训练后封装，通过接口输出抽取式摘要步骤包括：

设置针对句子分类的损失函数；

3.一种基于查询机制的抽取式文档摘要自动生成装置，其特征在于：包括：

信息输入模块，用于输入源文本；

抽取式文档摘要自动生成模块，应用权利要求1-2中任一所述基于查询机制的抽取式文档摘要自动生成方法，对输入源文本进行摘要生成；

信息输出模块，将自动生成的摘要通过接口程序输出。

4.一种基于查询机制的抽取式文档摘要自动生成系统，其特征在于：

至少一台服务器，以及与服务器连接的基于查询机制的抽取式文档摘要自动生成装置，所述服务器执行生成摘要过程时，通过所述基于查询机制的抽取式文档摘要自动生成装置，从数据输入模块得到源文本，并执行权利要求1-2之一方法得到最终的与源文本对应的摘要。