CN112559702B - 基于Transformer的土木建筑信息领域自然语言问题生成方法 - Google Patents

基于Transformer的土木建筑信息领域自然语言问题生成方法 Download PDF

Info

Publication number
CN112559702B
CN112559702B CN202011249217.8A CN202011249217A CN112559702B CN 112559702 B CN112559702 B CN 112559702B CN 202011249217 A CN202011249217 A CN 202011249217A CN 112559702 B CN112559702 B CN 112559702B
Authority
CN
China
Prior art keywords
training
model
transformer
text
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011249217.8A
Other languages
English (en)
Other versions
CN112559702A (zh
Inventor
朱磊
焦瑞
黑新宏
赵钦
杨明松
姚燕妮
彭伟
董林靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202011249217.8A priority Critical patent/CN112559702B/zh
Publication of CN112559702A publication Critical patent/CN112559702A/zh
Application granted granted Critical
Publication of CN112559702B publication Critical patent/CN112559702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于Transformer的土木建筑信息领域自然语言问题生成方法,本模型通过分析Bert模型中每层学习到的信息分布,结合训练数据的有限特性,对Transformer的不同模块进行不同语料的训练,提出低层网络用于训练句法语法特性,高层网络用于训练获取语义特性的机制。然后,采用UniLM思想对Bert进行下游任务的微调,提升模型在土木建筑信息领域的自然语言文本生成能力。本方法提出的模型在土木建筑信息领域生成问题具有较高的可行性和有效性,并且达到了较高的自然语言问题生成水准。

Description

基于Transformer的土木建筑信息领域自然语言问题生成 方法
技术领域
本发明属于计算机人工神经网络自然语言处理技术领域,具体涉及基于Transformer编码解码结构的土木建筑信息领域的自然语言问题生成方法。
背景技术
随着人工智能和大数据技术的不断发展,智能问答系统正在急速改变着人们的生活方式,也大大提升工作效率和使用体验。问题生成QG(Question Generation)作为问答系统的基本任务,其目标是给定句子或段落,自动生成自然语言问题。该任务已经被广泛应用到很多领域,例如,教育,医疗,物联网等。在教育领域,通过对给定的句子和段落进行阅读理解式的生成自然语言问题来辅助学习和教学任务[1]。针对土木建筑行业,问题生成可被用来构建对话机器人,辅助从业人员快速的查找和学习领域知识。此外,问答系统还可用来自动化构建问答数据集,从而大大降低人工标注工作量。对于问答系统,问题的提出是其核心步骤,有效的自然语言问题生成方法将帮助问答系统构建更为庞大且精准的领域自然语言问题。
发明内容
本发明的目的在于提供基于Transformer的土木建筑信息领域自然语言问题生成方法,降低了人工标注的工作量,解决了现有技术中存在的土木建筑信息领域自然语言问题生成难以自动化的问题。
本发明通过分析Bert模型中每层学习到的信息分布,结合训练数据的有限特性,对Transformer的不同模块进行不同语料的训练,提出低层网络用于训练句法语法特性,高层网络用于训练获取语义特性的机制。然后,采用UniLM思想对Bert进行下游任务的微调,提升模型在土木建筑信息领域的自然语言文本生成能力。
本发明所采用的技术方案是,基于Transformer的土木建筑信息领域自然语言问题生成方法,包括以下步骤:
步骤1:维基百科开放域文本的预训练。构建基于Transformer的12层堆叠模块,对中文维基百科文本公开语料进行人工预处理,形成上下句形式的统一结构,然后将处理好的维基百科语料输入进入模型进行模型预训练。
步骤2:土木建筑信息领域文本的预训练。取出第一步预训练的模型参数,然后对互联网上获取的800K条土木建筑信息文本语料进行二次预训练,获取领域知识。
步骤3:随机采样语料的编码训练。为了使得模型获取一定的句法和语法生成能力,本方法采集了开放域问答文本数据,并设计了对开放域问答和土木建筑问答数据的随机采样机制;不同的采样结果将通过嵌入方式输入到Transformer的不同层次模块中进行分层训练;
步骤4:训练优化与解码文本生成。在训练优化阶段,对于不同类型的采样数据,模型将取出不同层的Transformer模块进行梯度计算并反传优化;优化后的模型即可用于生成自然语言问题的推断,推断思路主要是采用了beam search技术。
步骤1和步骤2中,文本标记的方法,主要采用BERT模型的文本标记方法;预训练阶段采用同Bert相同的双向遮盖预训练机制和下半句预测训练机制。
步骤2中,所述双向遮盖词预测训练机制,允许token关注到其前后双向的文本内容;对上下文信息,这种方式可以进行有效编码,从而生成上下文的信息表示。
步骤2中,预训练阶段在具体实现时,模型随机对token进行“[MASK]”替换;类似于Bert模型随机对序列中15%的token进行替换;训练数据的替换在80%的概率上被替换为“[MASK]”,在10%的概率上被替换为其他token,还有10%的概率不对token进行替换。为了优化预训练在下游的问题生成效果,模型还对土木建筑信息语料进行了上下句的分割和组合,生成了上下句结构的文本;生成的文本被输入到模型中,进行下半句预测任务的训练优化。
步骤2中,下半句预测任务的训练优化具体实现时,模型随机对下半句进行替换。其中,50%的下半句被随机替换为其他序列,50%的下半句不进行替换;最终选择“[NSP]”token进行二分类预测,判定下半句是否为原始文本。
步骤3中,嵌入方式包括了Token词嵌入、段嵌入和位置嵌入;在嵌入编码时采用了UniLM的遮盖词策略,目的是提升模型的自然语言生成能力;
步骤3中,模型设计采用了12层UniLM思想的Transformer堆叠结构;
具体地,对给定输入序列{xi}(i=1,2,……,|X|),其被打包成初始输入序列H0=[x1,x2,x3,……,x|X|],并将H0输入到了编码器结构的第一层编码模块。然后,Transformer每一层编码模块的输入都来自上一层的输出,即形式化描述为Hl=Transformer(Hl-1)(l=1,2,…,L),其中L=12层。
Q=Hl-1Wl Q,K=Hl-1WK,V=Hl-1Wl V
(公式2)
Figure BDA0002771047110000041
Figure BDA0002771047110000042
在模型的每一层中,前一层输出为Hl-1WQ,dh为模型的嵌入维度。查询矩阵Q,键值矩阵K和值矩阵V是通过三个参数矩阵WQ,WK,WV(∈Rdh×dK),经过对前一层的输出进行线性变换得到。
步骤3中,分层训练具体为采样得到的不同类型语料,在模型中使用不同层的编码解码进行训练。针对土木建筑信息领域文本时,模型将使用传统的Bert方案进行训练,梯度从最后一层依次向前传递训练模型参数;针对开放域文本对时,模型直接取出Transformer堆叠模块的中间层,调用反传梯度来更新编码器前半部分的参数,同时锁定其他层的Transformer模块,从而提升模型对于句法和语法的编码能力。
步骤3中按照不同数据采用不同模块进行训练的方法,模型对Bert进行了特定领域信息的嵌入和常用百科知识的学习,从而在语法和语义上增强真实文本的生成能力。
本发明的有益效果在于:
一种基于Transformer的土木建筑信息领域自然语言问题生成方法。本方法针对土木建筑信息领域少量的问答训练数据进行了少样本训练方案的设计,使用了Transformer基础的编码器-解码器结构,并且结合了UniLM思想。同时,将开放域问答数据进行了预训练处理,随机采样并在Transformer堆叠模块的不同层分别计算损失函数并反传梯度进行模型训练。本方法提出的模型在土木建筑信息领域生成问题具有较高的可行性和有效性,并且达到了较高的自然语言问题生成水准。
附图说明
图1是本发明基于Transformer的土木建筑信息领域自然语言问题生成方法主要流程;
图2本发明基于Transformer的土木建筑信息领域自然语言问题生成方法实施例中矩阵M的设置方式。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
基于Transformer编码解码结构的土木建筑信息领域的自然语言问题生成方法,如图1所示,包括以下步骤:
步骤1:维基百科开放域文本的预训练。构建基于Transformer的12层堆叠模块,对中文维基百科文本公开语料进行人工预处理,形成上下句形式的统一结构,然后将处理好的维基百科语料输入进入模型进行模型预训练。该预训练阶段主要采用了同Bert相同的双向遮盖预训练机制和下半句预测训练机制。大量开放域文本的预训练使得模型具备一定的常识。
步骤2:土木建筑信息领域文本的预训练。取出第一步预训练的模型参数,然后对互联网上获取的800K条土木建筑信息文本语料进行二次预训练,获取领域知识。该预训练阶段采用同Bert相同的双向遮盖预训练机制和下半句预测训练机制。大量土木建筑信息领域文本的预训练使得模型具有一定的领域知识。
步骤3:随机采样语料的编码训练。为了使得模型获取一定的句法和语法生成能力,本方法采集了2000K余条开放域问答文本数据,并设计了对开放域问答和土木建筑问答数据的随机采样机制。不同的采样结果将通过Embedding方式输入到Transformer的不同层次模块中进行分层训练。嵌入方式包括了Token词嵌入、段嵌入和位置嵌入。在嵌入编码时采用了UniLM的遮盖词策略,目的是提升模型的自然语言生成能力。其中,引入开放域问答数据是因为基于Wiki百科语料的少参数Bert预训练模型可以获取常用百科知识信息,从而在语法和语义上增强真实文本的生成能力。
步骤4:训练优化与解码文本生成。在训练优化阶段,对于不同类型的采样数据,模型将取出不同层的Transformer模块进行梯度计算并反传优化。优化后的模型即可用于生成自然语言问题的推断,推断思路主要是采用了beam search技术。
步骤1中,文本标记的方法,主要采用BERT模型的文本标记方法。这样的标记方法相比于BIO标记方法,降低了人工标记的复杂度,提升了人工标记效率。
步骤2中,预训练训练目标采用了Bert的双向遮盖预训练机制和下半句预测训练机制。双向遮盖词预测训练机制,允许token关注到其前后双向的文本内容。对上下文信息,这种方式可以进行有效编码,从而生成上下文的信息表示。具体实现时,模型随机对token进行“[MASK]”替换。类似于Bert,模型随机对序列中15%的token进行替换。训练数据的替换在80%的概率上被替换为“[MASK]”,在10%的概率上被替换为其他token,还有10%的概率不对token进行替换。为了优化预训练在下游的问题生成效果,模型还对土木建筑信息语料进行了上下句的分割和组合,生成了上下句结构的文本。生成的文本被输入到模型中,进行下半句预测任务的训练优化。具体实现时,模型随机对下半句进行替换。其中,50%的下半句被随机替换为其他序列,50%的下半句不进行替换。最终选择“[NSP]”token进行二分类预测,判定下半句是否为原始文本。
步骤3中,本方法模型设计并采用了12层UniLM思想的Transformer堆叠结构。具体地,对给定输入序列{xi}(i=1,2,……,|X|),其被打包成初始输入序列H0=[x1,x2,x3,……,x|X|],并将H0输入到了编码器结构的第一层编码模块。然后,Transformer每一层编码模块的输入都来自上一层的输出,即形式化描述为Hl=Transformer(Hl-1)(l=1,2,…,L),其中L=12层。
Q=Hl-1Wl Q,K=Hl-1WK,V=Hl-1Wl V
(公式-2)
Figure BDA0002771047110000081
Figure BDA0002771047110000082
在模型的每一层中,前一层输出为Hl-1WQ,dh为模型的嵌入维度。查询矩阵Q,键值矩阵K和值矩阵V是通过三个参数矩阵WQ,WK,WV(∈Rdh×dK),经过对前一层的输出进行线性变换得到。值得注意的是,M矩阵决定了当前token是否可以看到上下文中的其他token。
a)Sequence-to-sequenceLM
在模型的训练过程中,原始文本和目标问句被拼接,然后被送入模型进行训练。其中,文本中的前半部的token可以和前后两个方向的文本进行关注,后半部的token仅仅能够关注到左边的前半部文本。例如,给定序列“[SOS]t1 t2 t3[EOS]t3 t4 t5”,t1 t2 t3三个token仅可以关注到前5个token,而t3 t4 t5能够关注到自身和自身之前的所有token文本。
图2展示了矩阵M的设置方式。其中S1表示输入序列拼接后的前半句,元素均被设置为“0”,用于表示其内部可以和前半段中所有token信息进行关联。S2表示输入序列拼接后的后半句,元素被设置为“-∞”,用于表示后半段可以和前半段信息进行关联。为了提高模型的文本生成能力,矩阵M中的S1序列设置为可以同时关注前文和后文信息,S2序列设置为仅仅能关注到包括自己在内的前文信息。对于右下方的子矩阵,我们设置上三角元素为“-∞”,其余元素为“0”,用于表示不能关注到当前token后面部分的文本信息。
由于计算资源和问答对数据规模的限制,需要采用预训练模型的迁移方案来提供足够的常用百科知识信息。因此,本文还使用少参数的Bert中最后一层Transformer来进行模型的参数初始化。
b)Different Data with Different Training Block
Transformer模型的高参数特性需要大量数据进行训练,但是土木建筑信息领域的问答对数据量比较小,因此仅对该领域问答进行模型训练可能缺失常用百科知识信息、语法和句法信息等。为了使生成问题更符合语言学规则等要求,模型中设计了一种随机采样机制。具体地,对于采样得到的不同类型语料,在模型中使用不同层的编码解码进行训练。针对土木建筑信息领域文本时,模型将使用传统的Bert方案进行训练,梯度从最后一层依次向前传递训练模型参数;针对开放域文本对时,模型直接取出Transformer堆叠模块的中间层,调用反传梯度来更新编码器前半部分的参数,同时锁定其他层的Transformer模块,从而提升模型对于句法和语法的编码能力。
按照不同数据采用不同模块进行训练的方法,模型对Bert进行了特定领域信息的嵌入和常用百科知识的学习,使其生成的问题更加符合了语法、句法等要求。
本发明通过使用谷歌Google在2018年提出的Transformer自注意力编码解码器结构,结合UniLM(联合遮盖训练语言模型),构建深度学习AE(自编码结构)模型,完成对土木建筑信息领域的自然语言问题的生成任务,来帮助自动构建大规模问答数据。
实施例
本发明基于Transformer的土木建筑信息领域自然语言问题生成方法,包括以下步骤:
步骤1:维基百科开放域文本的预训练。构建基于Transformer的12层堆叠模块,对中文维基百科文本公开语料进行人工预处理,形成上下句形式的统一结构,然后将处理好的维基百科语料输入进入模型进行模型预训练。该预训练阶段主要采用了同Bert相同的双向遮盖预训练机制和下半句预测训练机制。大量开放域文本的预训练使得模型具备一定的常识。本文模型在对中文Wiki百科数据进行了词频统计,构建的词典规模为32162个。对于训练过程中词典外的token,我们将其定义为“[UNK]”标识符。并且,我们使用了12层的Transformer和384大小的隐藏层。
本方法定义最大序列长度被为512。Adam优化器的参数β1=0.9,β2=0.99,学习率被设置为2e-5,dropout比率设置为0.1,weight decay设置为0.01,batch size大小设置为50。其中预训练时间需持续两周时间。问题生成训练时,定义batch size大小为20,并在采用动态学习率的情况下对每种方案训练500个epoch,dropout比率设置为0.2。所有模型的问题生成训练时间均需超过3天。
步骤2:土木建筑信息领域文本的预训练。取出第一步预训练的模型参数,然后对互联网上获取的800K条土木建筑信息文本语料进行二次预训练,获取领域知识。该预训练阶段采用同Bert相同的双向遮盖预训练机制和下半句预测训练机制。大量土木建筑信息领域文本的预训练使得模型具有一定的领域知识。
步骤3:随机采样语料的编码训练。为了使得模型获取一定的句法和语法生成能力,本方法采集了2000K余条开放域问答文本数据,并设计了对开放域问答和土木建筑问答数据的随机采样机制。不同的采样结果将通过Embedding方式输入到Transformer的不同层次模块中进行分层训练。嵌入方式包括了Token词嵌入、段嵌入和位置嵌入。在嵌入编码时采用了UniLM的遮盖词策略,目的是提升模型的自然语言生成能力。其中,引入开放域问答数据是因为基于Wiki百科语料的少参数Bert预训练模型可以获取常用百科知识信息,从而在语法和语义上增强真实文本的生成能力。
本方法训练数据集包含了三部分数据:i)人工标注的中文土木建筑领域的问答数据集,共计4000条;ii)通过互联网爬取的开放域中文句子对数据集,共计400,000条;iii)土木建筑信息规范数据,共计800,000条。每部分的数据结构如下表所示。
表1.训练数据集
Figure BDA0002771047110000111
Figure BDA0002771047110000121
如表1所示,训练数据集中,土木建筑信息领域问答数据集主要用于模型中下游微调的迁移学习,使得模型具有问题生成能力;开放域句子对数据集主要训练模型的句法和语法生成能力;土木建筑信息规范数据集主要对模型进行预训练,使得模型具有先验常用百科知识信息。
步骤4:训练优化与解码文本生成。在训练优化阶段,对于不同类型的采样数据,模型将取出不同层的Transformer模块进行梯度计算并反传优化。优化后的模型即可用于生成自然语言问题的推断,推断思路主要是采用了beam search技术。
原始土木建筑问答数据的输入序列大小被限制在了135个。通过对其进行词嵌入,生成3个5*135规模大小的Torch张量,结合上文提及的Attention Mask嵌入遮盖矩阵M,得到每条问答数据序列的完整嵌入表示。
同时,对于土木建筑信息领域未标记文本数据进行Bert模型的预训练,并且将嵌入表示输入到该预训练模型中。然后模型使用随机采样机制进行训练。对土木建筑信息领域问答对数据,模型使用Transformer编码器堆叠模块的最终层;对于开放域问答对数据,模型使用堆叠模块的中间层。模型解码预测的结果将被用于和原始训练数据给定的问题进行交叉熵的计算,得到的梯度值将通过Adam优化器对模型进行优化训练。
预训练过程中对土木建筑信息领域语料进行MLM遮盖预训练。
其目标函数的定义如下。
Figure BDA0002771047110000131
其中m(x)和X\m(x)是遮盖词的向量表示。
问答对进行训练时,对于语料中给定的句子对
Figure BDA0002771047110000132
模型的训练目标是训练参数θ以最小化对数似然函数,具体定义如下。
Figure BDA0002771047110000133
其中Xi:j是被遮盖的n-gram span。

Claims (7)

1.基于Transformer的土木建筑信息领域自然语言问题生成方法,包括以下步骤:
步骤1:维基百科开放域文本的预训练;构建基于Transformer的12层堆叠模块,对中文维基百科文本公开语料进行人工预处理,形成上下句形式的统一结构,然后将处理好的维基百科语料输入进入模型进行模型预训练;
步骤2:土木建筑信息领域文本的预训练;取出第一步预训练的模型参数,然后对互联网上获取的土木建筑信息文本语料进行二次预训练,获取领域知识;
步骤3:随机采样语料的编码训练;为了使得模型获取句法和语法生成能力,本方法采集了开放域问答文本数据,并设计了对开放域问答和土木建筑问答数据的随机采样机制;不同的采样结果将通过嵌入方式输入到Transformer的不同层次模块中进行分层训练;
步骤4:训练优化与解码文本生成;在训练优化阶段,对于不同类型的采样数据,模型将取出不同层的Transformer模块进行梯度计算并反传优化;优化后的模型用于生成自然语言问题的推断,推断采用了beam search技术;
所述步骤3中,嵌入方式包括了Token词嵌入、段嵌入和位置嵌入;在嵌入编码时采用了UniLM的遮盖词策略,目的是提升模型的自然语言生成能力;
所述步骤3中,模型设计采用了12层UniLM思想的Transformer堆叠结构;
具体地,对给定输入序列{x i } (i=1, 2, ……, |X|),其被打包成初始输入序列H 0 =[x 1, x 2, x 3, ……, x |X|],并将H 0 输入到了编码器结构的第一层编码模块;然后,Transformer每一层编码模块的输入都来自上一层的输出,即形式化描述为H l =Transformer(H l-1 ) (l =1, 2, …, L),其中L=12层;
Figure 834805DEST_PATH_IMAGE001
在模型的每一层中,前一层输出为H l-1 W Q d h 为模型的嵌入维度;查询矩阵Q,键值矩阵K和值矩阵V是通过三个参数矩阵W Q W K W V (∈R dh×dK ),经过对前一层的输出进行线性变换得到。
2.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤1和步骤2中,文本标记的方法,采用BERT模型的文本标记方法;预训练阶段采用同Bert相同的双向遮盖预训练机制和下半句预测训练机制。
3.根据权利要求2所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤2中,所述双向遮盖词预测训练机制,允许token关注到其前后双向的文本内容;对上下文信息进行有效编码,从而生成上下文的信息表示。
4.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤2中,预训练阶段在具体实现时,模型随机对token进行“[MASK]”替换;模型还对土木建筑信息语料进行了上下句的分割和组合,生成了上下句结构的文本;生成的文本被输入到模型中,进行下半句预测任务的训练优化。
5.根据权利要求4所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤2中,下半句预测任务的训练优化具体实现时,模型随机对下半句进行替换;其中,50%的下半句被随机替换为其他序列,50%的下半句不进行替换;最终选择“[NSP]”token进行二分类预测,判定下半句是否为原始文本。
6.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤3中,分层训练具体为采样得到的不同类型语料,在模型中使用不同层的编码解码进行训练;针对土木建筑信息领域文本时,模型将使用传统的Bert方案进行训练,梯度从最后一层依次向前传递训练模型参数;针对开放域文本对时,模型直接取出Transformer堆叠模块的中间层,调用反传梯度来更新编码器前半部分的参数,同时锁定其他层的Transformer模块。
7.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤3中按照不同数据采用不同模块进行训练的方法,模型对Bert进行了特定领域信息的嵌入和常用百科知识的学习。
CN202011249217.8A 2020-11-10 2020-11-10 基于Transformer的土木建筑信息领域自然语言问题生成方法 Active CN112559702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011249217.8A CN112559702B (zh) 2020-11-10 2020-11-10 基于Transformer的土木建筑信息领域自然语言问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011249217.8A CN112559702B (zh) 2020-11-10 2020-11-10 基于Transformer的土木建筑信息领域自然语言问题生成方法

Publications (2)

Publication Number Publication Date
CN112559702A CN112559702A (zh) 2021-03-26
CN112559702B true CN112559702B (zh) 2022-09-30

Family

ID=75042928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011249217.8A Active CN112559702B (zh) 2020-11-10 2020-11-10 基于Transformer的土木建筑信息领域自然语言问题生成方法

Country Status (1)

Country Link
CN (1) CN112559702B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051897B (zh) * 2021-05-25 2021-09-10 中国电子科技集团公司第三十研究所 一种基于Performer结构的GPT2文本自动生成方法
CN113779992B (zh) * 2021-07-19 2024-10-15 西安理工大学 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法
CN113743095B (zh) * 2021-07-19 2024-09-20 西安理工大学 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN113836919A (zh) * 2021-09-30 2021-12-24 中国建筑第七工程局有限公司 一种基于迁移学习的建筑行业文本纠错方法
CN114328853B (zh) * 2021-10-25 2024-02-06 西安理工大学 一种基于Unilm优化语言模型的中文问题生成方法
CN114691858B (zh) * 2022-03-15 2023-10-03 电子科技大学 一种基于改进的unilm摘要生成方法
CN114818699B (zh) * 2022-04-30 2024-09-03 一贯智服(杭州)技术有限公司 一种关联知识生成方法、辅助标注系统及应用
CN114970569A (zh) * 2022-05-12 2022-08-30 北京云思智学科技有限公司 一种汉译英翻译试题的自动解题方法、装置及存储介质
CN114925658B (zh) * 2022-05-18 2023-04-28 电子科技大学 开放性文本生成方法以及存储介质
CN118535135A (zh) * 2023-02-14 2024-08-23 华为云计算技术有限公司 基于云服务的代码生成模型的训练方法和代码生成方法
CN116383364B (zh) * 2023-05-26 2023-09-12 华南理工大学 一种基于医生反馈与强化学习的医疗问答回复方法及系统
CN116820429B (zh) * 2023-08-28 2023-11-17 腾讯科技(深圳)有限公司 代码处理模型的训练方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016024759A (ja) * 2014-07-24 2016-02-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN111274362A (zh) * 2020-02-01 2020-06-12 武汉大学 一种基于transformer架构的对话生成方法
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111639163A (zh) * 2020-04-29 2020-09-08 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN111708882A (zh) * 2020-05-29 2020-09-25 西安理工大学 基于Transformer的中文文本信息缺失的补全方法
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
KR20200123945A (ko) * 2019-04-23 2020-11-02 현대자동차주식회사 자연어 생성 장치, 이를 포함하는 차량 및 자연어 생성 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11034019B2 (en) * 2018-04-19 2021-06-15 Brown University Sequence-to-sequence language grounding of non-Markovian task specifications

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016024759A (ja) * 2014-07-24 2016-02-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
KR20200123945A (ko) * 2019-04-23 2020-11-02 현대자동차주식회사 자연어 생성 장치, 이를 포함하는 차량 및 자연어 생성 방법
CN110647619A (zh) * 2019-08-01 2020-01-03 中山大学 一种基于问题生成和卷积神经网络的常识问答方法
CN111274362A (zh) * 2020-02-01 2020-06-12 武汉大学 一种基于transformer架构的对话生成方法
CN111639163A (zh) * 2020-04-29 2020-09-08 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
CN111563166A (zh) * 2020-05-28 2020-08-21 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111708882A (zh) * 2020-05-29 2020-09-25 西安理工大学 基于Transformer的中文文本信息缺失的补全方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Neural Question Generation based on Seq2Seq;Bingran Liu;《ACM》;20200529;第119-123页 *
结合Transformer模型与深度神经网络的数据到文本生成方法;许晓泓等;《重庆大学学报》;20191231(第07期);第91-100页 *
面向自然语言处理的预训练技术研究综述;李舟军等;《计算机科学》;20200324(第03期);第162-173页 *

Also Published As

Publication number Publication date
CN112559702A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112559702B (zh) 基于Transformer的土木建筑信息领域自然语言问题生成方法
He et al. See: Syntax-aware entity embedding for neural relation extraction
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN110516244B (zh) 一种基于bert的句子自动填充方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN112257465B (zh) 一种基于图像描述生成的多模态机器翻译数据增强方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN110688861A (zh) 一种多特征融合的句子级译文质量估计方法
CN113297364A (zh) 一种面向对话系统中的自然语言理解方法及装置
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN116662502A (zh) 基于检索增强的金融问答文本生成方法、设备及存储介质
CN116186216A (zh) 基于知识增强和双图交互的问题生成方法及系统
CN113743095B (zh) 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN115203236A (zh) 基于模板检索的文本到sql生成方法
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN112287641B (zh) 一种同义句生成方法、系统、终端及存储介质
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法
CN110969010A (zh) 一种基于关系指导及双通道交互机制的问题生成方法
CN114238621B (zh) 一种基于Transformer的编程问题帖标题自动生成方法
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN114780696A (zh) 适用于对话系统的以会话内容驱动的问题生成方法
CN113887249A (zh) 一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法
Wang et al. A multiple-integration encoder for multi-turn text-to-SQL semantic parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant