CN112559702B

CN112559702B - 基于Transformer的土木建筑信息领域自然语言问题生成方法

Info

Publication number: CN112559702B
Application number: CN202011249217.8A
Authority: CN
Inventors: 朱磊; 焦瑞; 黑新宏; 赵钦; 杨明松; 姚燕妮; 彭伟; 董林靖
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2022-09-30
Anticipated expiration: 2040-11-10
Also published as: CN112559702A

Abstract

本发明公开了基于Transformer的土木建筑信息领域自然语言问题生成方法，本模型通过分析Bert模型中每层学习到的信息分布，结合训练数据的有限特性，对Transformer的不同模块进行不同语料的训练，提出低层网络用于训练句法语法特性，高层网络用于训练获取语义特性的机制。然后，采用UniLM思想对Bert进行下游任务的微调，提升模型在土木建筑信息领域的自然语言文本生成能力。本方法提出的模型在土木建筑信息领域生成问题具有较高的可行性和有效性，并且达到了较高的自然语言问题生成水准。

Description

基于Transformer的土木建筑信息领域自然语言问题生成方法

技术领域

本发明属于计算机人工神经网络自然语言处理技术领域，具体涉及基于Transformer编码解码结构的土木建筑信息领域的自然语言问题生成方法。

背景技术

随着人工智能和大数据技术的不断发展，智能问答系统正在急速改变着人们的生活方式，也大大提升工作效率和使用体验。问题生成QG(Question Generation)作为问答系统的基本任务，其目标是给定句子或段落，自动生成自然语言问题。该任务已经被广泛应用到很多领域，例如，教育，医疗，物联网等。在教育领域，通过对给定的句子和段落进行阅读理解式的生成自然语言问题来辅助学习和教学任务[1]。针对土木建筑行业，问题生成可被用来构建对话机器人，辅助从业人员快速的查找和学习领域知识。此外，问答系统还可用来自动化构建问答数据集，从而大大降低人工标注工作量。对于问答系统，问题的提出是其核心步骤，有效的自然语言问题生成方法将帮助问答系统构建更为庞大且精准的领域自然语言问题。

发明内容

本发明的目的在于提供基于Transformer的土木建筑信息领域自然语言问题生成方法，降低了人工标注的工作量，解决了现有技术中存在的土木建筑信息领域自然语言问题生成难以自动化的问题。

本发明通过分析Bert模型中每层学习到的信息分布，结合训练数据的有限特性，对Transformer的不同模块进行不同语料的训练，提出低层网络用于训练句法语法特性，高层网络用于训练获取语义特性的机制。然后，采用UniLM思想对Bert进行下游任务的微调，提升模型在土木建筑信息领域的自然语言文本生成能力。

本发明所采用的技术方案是，基于Transformer的土木建筑信息领域自然语言问题生成方法，包括以下步骤：

步骤1：维基百科开放域文本的预训练。构建基于Transformer的12层堆叠模块，对中文维基百科文本公开语料进行人工预处理，形成上下句形式的统一结构，然后将处理好的维基百科语料输入进入模型进行模型预训练。

步骤2：土木建筑信息领域文本的预训练。取出第一步预训练的模型参数，然后对互联网上获取的800K条土木建筑信息文本语料进行二次预训练，获取领域知识。

步骤3：随机采样语料的编码训练。为了使得模型获取一定的句法和语法生成能力，本方法采集了开放域问答文本数据，并设计了对开放域问答和土木建筑问答数据的随机采样机制；不同的采样结果将通过嵌入方式输入到Transformer的不同层次模块中进行分层训练；

步骤4：训练优化与解码文本生成。在训练优化阶段，对于不同类型的采样数据，模型将取出不同层的Transformer模块进行梯度计算并反传优化；优化后的模型即可用于生成自然语言问题的推断，推断思路主要是采用了beam search技术。

步骤1和步骤2中，文本标记的方法，主要采用BERT模型的文本标记方法；预训练阶段采用同Bert相同的双向遮盖预训练机制和下半句预测训练机制。

步骤2中，所述双向遮盖词预测训练机制，允许token关注到其前后双向的文本内容；对上下文信息，这种方式可以进行有效编码，从而生成上下文的信息表示。

步骤2中，预训练阶段在具体实现时，模型随机对token进行“[MASK]”替换；类似于Bert模型随机对序列中15％的token进行替换；训练数据的替换在80％的概率上被替换为“[MASK]”，在10％的概率上被替换为其他token，还有10％的概率不对token进行替换。为了优化预训练在下游的问题生成效果，模型还对土木建筑信息语料进行了上下句的分割和组合，生成了上下句结构的文本；生成的文本被输入到模型中，进行下半句预测任务的训练优化。

步骤2中，下半句预测任务的训练优化具体实现时，模型随机对下半句进行替换。其中，50％的下半句被随机替换为其他序列，50％的下半句不进行替换；最终选择“[NSP]”token进行二分类预测，判定下半句是否为原始文本。

步骤3中，嵌入方式包括了Token词嵌入、段嵌入和位置嵌入；在嵌入编码时采用了UniLM的遮盖词策略，目的是提升模型的自然语言生成能力；

步骤3中，模型设计采用了12层UniLM思想的Transformer堆叠结构；

具体地，对给定输入序列{x_i}(i＝1,2,……,|X|)，其被打包成初始输入序列H⁰＝[x₁,x₂,x₃,……,x_|X|]，并将H⁰输入到了编码器结构的第一层编码模块。然后，Transformer每一层编码模块的输入都来自上一层的输出，即形式化描述为H^l＝Transformer(H^l-1)(l＝1,2,…,L)，其中L＝12层。

Q＝H^l-1W_l ^Q,K＝H^l-1W^K,V＝H^l-1W_l ^V

(公式2)

在模型的每一层中，前一层输出为H^l-1W^Q，d_h为模型的嵌入维度。查询矩阵Q，键值矩阵K和值矩阵V是通过三个参数矩阵W^Q，W^K，W^V(∈R^dh×dK)，经过对前一层的输出进行线性变换得到。

步骤3中，分层训练具体为采样得到的不同类型语料，在模型中使用不同层的编码解码进行训练。针对土木建筑信息领域文本时，模型将使用传统的Bert方案进行训练，梯度从最后一层依次向前传递训练模型参数；针对开放域文本对时，模型直接取出Transformer堆叠模块的中间层，调用反传梯度来更新编码器前半部分的参数，同时锁定其他层的Transformer模块，从而提升模型对于句法和语法的编码能力。

步骤3中按照不同数据采用不同模块进行训练的方法，模型对Bert进行了特定领域信息的嵌入和常用百科知识的学习，从而在语法和语义上增强真实文本的生成能力。

本发明的有益效果在于：

一种基于Transformer的土木建筑信息领域自然语言问题生成方法。本方法针对土木建筑信息领域少量的问答训练数据进行了少样本训练方案的设计，使用了Transformer基础的编码器-解码器结构，并且结合了UniLM思想。同时，将开放域问答数据进行了预训练处理，随机采样并在Transformer堆叠模块的不同层分别计算损失函数并反传梯度进行模型训练。本方法提出的模型在土木建筑信息领域生成问题具有较高的可行性和有效性，并且达到了较高的自然语言问题生成水准。

附图说明

图1是本发明基于Transformer的土木建筑信息领域自然语言问题生成方法主要流程；

图2本发明基于Transformer的土木建筑信息领域自然语言问题生成方法实施例中矩阵M的设置方式。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

基于Transformer编码解码结构的土木建筑信息领域的自然语言问题生成方法，如图1所示，包括以下步骤：

步骤1：维基百科开放域文本的预训练。构建基于Transformer的12层堆叠模块，对中文维基百科文本公开语料进行人工预处理，形成上下句形式的统一结构，然后将处理好的维基百科语料输入进入模型进行模型预训练。该预训练阶段主要采用了同Bert相同的双向遮盖预训练机制和下半句预测训练机制。大量开放域文本的预训练使得模型具备一定的常识。

步骤2：土木建筑信息领域文本的预训练。取出第一步预训练的模型参数，然后对互联网上获取的800K条土木建筑信息文本语料进行二次预训练，获取领域知识。该预训练阶段采用同Bert相同的双向遮盖预训练机制和下半句预测训练机制。大量土木建筑信息领域文本的预训练使得模型具有一定的领域知识。

步骤3：随机采样语料的编码训练。为了使得模型获取一定的句法和语法生成能力，本方法采集了2000K余条开放域问答文本数据，并设计了对开放域问答和土木建筑问答数据的随机采样机制。不同的采样结果将通过Embedding方式输入到Transformer的不同层次模块中进行分层训练。嵌入方式包括了Token词嵌入、段嵌入和位置嵌入。在嵌入编码时采用了UniLM的遮盖词策略，目的是提升模型的自然语言生成能力。其中，引入开放域问答数据是因为基于Wiki百科语料的少参数Bert预训练模型可以获取常用百科知识信息，从而在语法和语义上增强真实文本的生成能力。

步骤4：训练优化与解码文本生成。在训练优化阶段，对于不同类型的采样数据，模型将取出不同层的Transformer模块进行梯度计算并反传优化。优化后的模型即可用于生成自然语言问题的推断，推断思路主要是采用了beam search技术。

步骤1中，文本标记的方法，主要采用BERT模型的文本标记方法。这样的标记方法相比于BIO标记方法，降低了人工标记的复杂度，提升了人工标记效率。

步骤2中，预训练训练目标采用了Bert的双向遮盖预训练机制和下半句预测训练机制。双向遮盖词预测训练机制，允许token关注到其前后双向的文本内容。对上下文信息，这种方式可以进行有效编码，从而生成上下文的信息表示。具体实现时，模型随机对token进行“[MASK]”替换。类似于Bert，模型随机对序列中15％的token进行替换。训练数据的替换在80％的概率上被替换为“[MASK]”，在10％的概率上被替换为其他token，还有10％的概率不对token进行替换。为了优化预训练在下游的问题生成效果，模型还对土木建筑信息语料进行了上下句的分割和组合，生成了上下句结构的文本。生成的文本被输入到模型中，进行下半句预测任务的训练优化。具体实现时，模型随机对下半句进行替换。其中，50％的下半句被随机替换为其他序列，50％的下半句不进行替换。最终选择“[NSP]”token进行二分类预测，判定下半句是否为原始文本。

步骤3中，本方法模型设计并采用了12层UniLM思想的Transformer堆叠结构。具体地，对给定输入序列{x_i}(i＝1,2,……,|X|)，其被打包成初始输入序列H⁰＝[x₁,x₂,x₃,……,x_|X|]，并将H⁰输入到了编码器结构的第一层编码模块。然后，Transformer每一层编码模块的输入都来自上一层的输出，即形式化描述为H^l＝Transformer(H^l-1)(l＝1,2,…,L)，其中L＝12层。

Q＝H^l-1W_l ^Q,K＝H^l-1W^K,V＝H^l-1W_l ^V

(公式-2)

在模型的每一层中，前一层输出为H^l-1W^Q，d_h为模型的嵌入维度。查询矩阵Q，键值矩阵K和值矩阵V是通过三个参数矩阵W^Q，W^K，W^V(∈R^dh×dK)，经过对前一层的输出进行线性变换得到。值得注意的是，M矩阵决定了当前token是否可以看到上下文中的其他token。

a)Sequence-to-sequenceLM

在模型的训练过程中，原始文本和目标问句被拼接，然后被送入模型进行训练。其中，文本中的前半部的token可以和前后两个方向的文本进行关注，后半部的token仅仅能够关注到左边的前半部文本。例如，给定序列“[SOS]t₁ t₂ t₃[EOS]t₃ t₄ t₅”，t₁ t₂ t₃三个token仅可以关注到前5个token，而t₃ t₄ t₅能够关注到自身和自身之前的所有token文本。

图2展示了矩阵M的设置方式。其中S1表示输入序列拼接后的前半句，元素均被设置为“0”，用于表示其内部可以和前半段中所有token信息进行关联。S2表示输入序列拼接后的后半句，元素被设置为“-∞”，用于表示后半段可以和前半段信息进行关联。为了提高模型的文本生成能力，矩阵M中的S1序列设置为可以同时关注前文和后文信息，S2序列设置为仅仅能关注到包括自己在内的前文信息。对于右下方的子矩阵，我们设置上三角元素为“-∞”，其余元素为“0”，用于表示不能关注到当前token后面部分的文本信息。

由于计算资源和问答对数据规模的限制，需要采用预训练模型的迁移方案来提供足够的常用百科知识信息。因此，本文还使用少参数的Bert中最后一层Transformer来进行模型的参数初始化。

b)Different Data with Different Training Block

Transformer模型的高参数特性需要大量数据进行训练，但是土木建筑信息领域的问答对数据量比较小，因此仅对该领域问答进行模型训练可能缺失常用百科知识信息、语法和句法信息等。为了使生成问题更符合语言学规则等要求，模型中设计了一种随机采样机制。具体地，对于采样得到的不同类型语料，在模型中使用不同层的编码解码进行训练。针对土木建筑信息领域文本时，模型将使用传统的Bert方案进行训练，梯度从最后一层依次向前传递训练模型参数；针对开放域文本对时，模型直接取出Transformer堆叠模块的中间层，调用反传梯度来更新编码器前半部分的参数，同时锁定其他层的Transformer模块，从而提升模型对于句法和语法的编码能力。

按照不同数据采用不同模块进行训练的方法，模型对Bert进行了特定领域信息的嵌入和常用百科知识的学习，使其生成的问题更加符合了语法、句法等要求。

本发明通过使用谷歌Google在2018年提出的Transformer自注意力编码解码器结构，结合UniLM(联合遮盖训练语言模型)，构建深度学习AE(自编码结构)模型，完成对土木建筑信息领域的自然语言问题的生成任务，来帮助自动构建大规模问答数据。

实施例

本发明基于Transformer的土木建筑信息领域自然语言问题生成方法，包括以下步骤：

步骤1：维基百科开放域文本的预训练。构建基于Transformer的12层堆叠模块，对中文维基百科文本公开语料进行人工预处理，形成上下句形式的统一结构，然后将处理好的维基百科语料输入进入模型进行模型预训练。该预训练阶段主要采用了同Bert相同的双向遮盖预训练机制和下半句预测训练机制。大量开放域文本的预训练使得模型具备一定的常识。本文模型在对中文Wiki百科数据进行了词频统计，构建的词典规模为32162个。对于训练过程中词典外的token，我们将其定义为“[UNK]”标识符。并且，我们使用了12层的Transformer和384大小的隐藏层。

本方法定义最大序列长度被为512。Adam优化器的参数β₁＝0.9，β₂＝0.99，学习率被设置为2e-5，dropout比率设置为0.1，weight decay设置为0.01，batch size大小设置为50。其中预训练时间需持续两周时间。问题生成训练时，定义batch size大小为20，并在采用动态学习率的情况下对每种方案训练500个epoch，dropout比率设置为0.2。所有模型的问题生成训练时间均需超过3天。

本方法训练数据集包含了三部分数据：i)人工标注的中文土木建筑领域的问答数据集，共计4000条；ii)通过互联网爬取的开放域中文句子对数据集，共计400,000条；iii)土木建筑信息规范数据，共计800,000条。每部分的数据结构如下表所示。

表1.训练数据集

如表1所示，训练数据集中，土木建筑信息领域问答数据集主要用于模型中下游微调的迁移学习，使得模型具有问题生成能力；开放域句子对数据集主要训练模型的句法和语法生成能力；土木建筑信息规范数据集主要对模型进行预训练，使得模型具有先验常用百科知识信息。

原始土木建筑问答数据的输入序列大小被限制在了135个。通过对其进行词嵌入，生成3个5*135规模大小的Torch张量，结合上文提及的Attention Mask嵌入遮盖矩阵M，得到每条问答数据序列的完整嵌入表示。

同时，对于土木建筑信息领域未标记文本数据进行Bert模型的预训练，并且将嵌入表示输入到该预训练模型中。然后模型使用随机采样机制进行训练。对土木建筑信息领域问答对数据，模型使用Transformer编码器堆叠模块的最终层；对于开放域问答对数据，模型使用堆叠模块的中间层。模型解码预测的结果将被用于和原始训练数据给定的问题进行交叉熵的计算，得到的梯度值将通过Adam优化器对模型进行优化训练。

预训练过程中对土木建筑信息领域语料进行MLM遮盖预训练。

其目标函数的定义如下。

其中m(x)和X_\m(x)是遮盖词的向量表示。

问答对进行训练时，对于语料中给定的句子对

模型的训练目标是训练参数θ以最小化对数似然函数，具体定义如下。

其中X_i:j是被遮盖的n-gram span。

Claims

1.基于Transformer的土木建筑信息领域自然语言问题生成方法，包括以下步骤：

步骤1：维基百科开放域文本的预训练；构建基于Transformer的12层堆叠模块，对中文维基百科文本公开语料进行人工预处理，形成上下句形式的统一结构，然后将处理好的维基百科语料输入进入模型进行模型预训练；

步骤2：土木建筑信息领域文本的预训练；取出第一步预训练的模型参数，然后对互联网上获取的土木建筑信息文本语料进行二次预训练，获取领域知识；

步骤3：随机采样语料的编码训练；为了使得模型获取句法和语法生成能力，本方法采集了开放域问答文本数据，并设计了对开放域问答和土木建筑问答数据的随机采样机制；不同的采样结果将通过嵌入方式输入到Transformer的不同层次模块中进行分层训练；

步骤4：训练优化与解码文本生成；在训练优化阶段，对于不同类型的采样数据，模型将取出不同层的Transformer模块进行梯度计算并反传优化；优化后的模型用于生成自然语言问题的推断，推断采用了beam search技术；

所述步骤3中，嵌入方式包括了Token词嵌入、段嵌入和位置嵌入；在嵌入编码时采用了UniLM的遮盖词策略，目的是提升模型的自然语言生成能力；

所述步骤3中，模型设计采用了12层UniLM思想的Transformer堆叠结构；

具体地，对给定输入序列{x _i} (i=1, 2, ……, |X|)，其被打包成初始输入序列H ⁰=[x ₁, x ₂, x ₃, ……, x _|X|]，并将H ⁰输入到了编码器结构的第一层编码模块；然后，Transformer每一层编码模块的输入都来自上一层的输出，即形式化描述为H ^l=Transformer(H ^l-1) (l =1, 2, …, L)，其中L=12层；

在模型的每一层中，前一层输出为H ^l-1 W ^Q，d _h为模型的嵌入维度；查询矩阵Q，键值矩阵K和值矩阵V是通过三个参数矩阵W ^Q，W ^K，W ^V(∈R ^dh×dK)，经过对前一层的输出进行线性变换得到。

2.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法，其特征在于，所述步骤1和步骤2中，文本标记的方法，采用BERT模型的文本标记方法；预训练阶段采用同Bert相同的双向遮盖预训练机制和下半句预测训练机制。

3.根据权利要求2所述的基于Transformer的土木建筑信息领域自然语言问题生成方法，其特征在于，所述步骤2中，所述双向遮盖词预测训练机制，允许token关注到其前后双向的文本内容；对上下文信息进行有效编码，从而生成上下文的信息表示。

4.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法，其特征在于，所述步骤2中，预训练阶段在具体实现时，模型随机对token进行“[MASK]”替换；模型还对土木建筑信息语料进行了上下句的分割和组合，生成了上下句结构的文本；生成的文本被输入到模型中，进行下半句预测任务的训练优化。

5.根据权利要求4所述的基于Transformer的土木建筑信息领域自然语言问题生成方法，其特征在于，所述步骤2中，下半句预测任务的训练优化具体实现时，模型随机对下半句进行替换；其中，50%的下半句被随机替换为其他序列，50%的下半句不进行替换；最终选择“[NSP]”token进行二分类预测，判定下半句是否为原始文本。

6.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法，其特征在于，所述步骤3中，分层训练具体为采样得到的不同类型语料，在模型中使用不同层的编码解码进行训练；针对土木建筑信息领域文本时，模型将使用传统的Bert方案进行训练，梯度从最后一层依次向前传递训练模型参数；针对开放域文本对时，模型直接取出Transformer堆叠模块的中间层，调用反传梯度来更新编码器前半部分的参数，同时锁定其他层的Transformer模块。

7.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法，其特征在于，所述步骤3中按照不同数据采用不同模块进行训练的方法，模型对Bert进行了特定领域信息的嵌入和常用百科知识的学习。