CN114757171A - 预训练语言模型的训练方法、语言模型的训练方法及装置 - Google Patents

预训练语言模型的训练方法、语言模型的训练方法及装置 Download PDF

Info

Publication number
CN114757171A
CN114757171A CN202210516988.1A CN202210516988A CN114757171A CN 114757171 A CN114757171 A CN 114757171A CN 202210516988 A CN202210516988 A CN 202210516988A CN 114757171 A CN114757171 A CN 114757171A
Authority
CN
China
Prior art keywords
word
training
sample text
modeling task
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210516988.1A
Other languages
English (en)
Inventor
陈谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210516988.1A priority Critical patent/CN114757171A/zh
Publication of CN114757171A publication Critical patent/CN114757171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开提供一种预训练语言模型的训练方法、语言模型的训练方法及装置,包括:获取样本文本,根据样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务,前向因果语言建模任务为由样本文本中在前的词预测样本文本中在后的词的建模任务,反向因果语言建模任务为由样本文本中在后的词预测样本文本中在前的词的建模任务,掩码语言建模任务为由样本文本中非掩码位置的词预测样本文本中掩码位置的词的建模任务,可以实现从多个维度进行预训练,从而实现训练的多样性和灵活性,且可以使得从多个维度训练得到的预训练语言模型具有较高的准确性和可靠性。

Description

预训练语言模型的训练方法、语言模型的训练方法及装置
技术领域
本公开涉及深度学习技术领域,尤其涉及一种预训练语言模型的训练方法、语言模型的训练方法及装置。
背景技术
随着互联网和人工智能技术的发展,预训练语言模型被广泛应用于各类自然语言处理任务,如对话系统、机器翻译、文本摘要、信息检索以及标题生成等等。
在相关技术中,可以采集样本数据,以基于样本数据对基础网络模型进行训练,从而得到预训练语言模型。
发明内容
本公开提供一种预训练语言模型的训练方法、语言模型的训练方法及装置,以提高预训练语言模型的可靠性。
第一方面,本公开实施例提供一种方法预训练语言模型的训练方法,包括:
获取样本文本;
根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务;
其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。
在本公开的一个实施例中,所述根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,包括:
对所述样本文本进行分词处理,得到所述样本文本中的每个词;
根据所述样本文本中的每个词执行预训练任务中的至少两种,得到预训练语言模型。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述反向因果语言建模任务,则根据所述样本文本中的每个词执行所述反向因果语言建模任务,包括:
针对所述样本文本中的任一词,根据所述任一词和未来词,预测得到所述任一词在所述样本文本中的在前相邻词;
其中,所述未来词为所述样本文中位于所述任一词之后的词;所述在前相邻词为所述样本文本中位于所述任一词之前且与所述任一词相邻的一个词。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述前向因果语言建模任务,则根据所述样本文本中的每个词执行所述前向因果语言建模任务,包括:
针对所述样本文本中的任一词,根据所述任一词和历史词,预测得到所述任一词在所述样本文本中的在后相邻词;
其中,所述历史词为所述样本文中位于所述任一词之前的词;所述在后相邻词为所述样本文本中位于所述任一词之后且与所述任一词相邻的一个词。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述掩码语言建模任务,则根据所述样本文本中的每个词执行所述掩码语言建模任务,包括:
对所述样本文本中的至少一个词进行掩码处理,得到掩码位置;
根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。
在本公开的一个实施例中,所述至少两种预训练任务的训练模式包括:交替训练模式、并行训练模式以及串行训练模式。
第二方面,本公开实施例提供一种语言模型的训练方法,包括:
获取目标任务场景的训练文本;
根据所述训练文本对预先训练的预训练语言模型进行训练,得到适用于所述目标任务场景的语言模型;
其中,所述预训练语言模型是基于如第一方面所述的方法训练得到的。
第三方面,本公开实施例提供一种预训练语言模型的训练装置,包括:
第一获取单元,用于获取样本文本;
执行单元,用于根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务;
其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。
在本公开的一个实施例中,所述执行单元,包括:
分词子单元,用于对所述样本文本进行分词处理,得到所述样本文本中的每个词;
执行子单元,用于根据所述样本文本中的每个词执行预训练任务中的至少两种,得到预训练语言模型。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述反向因果语言建模任务,则所述执行子单元用于,针对所述样本文本中的任一词,根据所述任一词和未来词,预测得到所述任一词在所述样本文本中的在前相邻词;
其中,所述未来词为所述样本文中位于所述任一词之后的词;所述在前相邻词为所述样本文本中位于所述任一词之前且与所述任一词相邻的一个词。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述前向因果语言建模任务,则所述执行子单元用于,针对所述样本文本中的任一词,根据所述任一词和历史词,预测得到所述任一词在所述样本文本中的在后相邻词;
其中,所述历史词为所述样本文中位于所述任一词之前的词;所述在后相邻词为所述样本文本中位于所述任一词之后且与所述任一词相邻的一个词。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述掩码语言建模任务,则所述执行子单元用于,对所述样本文本中的至少一个词进行掩码处理,得到掩码位置,并根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。
在本公开的一个实施例中,所述至少两种预训练任务的训练模式包括:交替训练模式、并行训练模式以及串行训练模式。
第四方面,本公开实施例提供一种语言模型的训练装置,包括:
第二获取单元,用于获取目标任务场景的训练文本;
训练单元,用于根据所述训练文本对预先训练的预训练语言模型进行训练,得到适用于所述目标任务场景的语言模型;
其中,所述预训练语言模型是基于如第一方面所述的方法训练得到的。
第五方面,本公开实施例提供一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使电子设备能够执行本公开第一方面或第二方面的所述的方法。
第六方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本公开第一方面或第二方面所述的方法。
第七方面,本公开实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本公开第一方面或第二方面所述的方法。
本公开实施例提供一种预训练语言模型的训练方法、语言模型的训练方法及装置,通过结合前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务中的至少两种预训练任务训练得到预训练语言模型的技术特征,可以实现从多个维度进行训练,可以实现预训练的多样性和灵活性,且可以使得从多个维度训练得到的预训练语言模型具有较高的准确性和可靠性。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开一个实施例的预训练语言模型的训练方法的流程图;
图2为本公开另一实施例的预训练语言模型的训练方法的流程图;
图3为本公开实施例的前向因果语言建模任务的原理示意图;
图4为本公开实施例的反向因果语言建模任务的原理示意图;
图5为本公开实施例的掩码语言建模任务的原理示意图;
图6为本公开一个实施例的语言模型的训练方法的示意图;
图7为本公开一个实施例的预训练语言模型的训练装置;
图8为本公开另一实施例的预训练语言模型的训练装置;
图9为本公开一个实施例的语言模型的训练装置的示意图;
图10为本公开一实施例提供的电子设备的硬件结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
自然语言处理(Natural Language Processing,NLP)技术,是指研究人与计算机交互的语言问题的一门技术。
随着互联网和人工智能技术的发展,预训练语言模型被广泛应用于各类自然语言处理任务,如对话系统、机器翻译、文本摘要、信息检索以及标题生成等等。
在一些实施例中,可以通过样本数据训练对基础网络模型进行训练,从而得到预训练语言模型,基础网络模型可以为无监督深度双向(BERT)模型,也可以为生成式无监督训练(GPT)模型等等。
为了提升预训练语言模型的效果,以提升自然语言处理任务的准确率,本公开的发明人经过创造性的劳动,得到了本公开的发明构思:执行多种预训练任务,以结合多种预训练任务训练得到预训练语言模型,其中,多种预训练任务包括前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务中的至少两种,
下面,通过具体实施例对本公开的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
请参阅图1,图1为本公开一个实施例的预训练语言模型的训练方法的流程图,如图1所示,该方法包括:
S101:获取样本文本。
示例性的,本实施例的执行主体可以为预训练语言模型的训练装置(下文简称为训练装置),训练装置可以为服务器(如本地服务器,或者云端服务器),也可以为计算机,也可以为终端设备,也可以为处理器,也可以为芯片等等,本实施例不做限定。
样本文本可以为一个句子,也可以为一段文本,也可以为一篇文章等等,本实施例对样本文本的篇幅长短不做限定,可以基于需求、历史记录以及试验等方式进行确定。同理,样本文本的数量也可以需求、历史记录以及试验等方式进行确定。
例如,针对精度要求较高的场景,样本文本的数量可以相对较多,而针对精度要求较低的场景,样本文本的数量可以相对较少。
S102:根据样本文本执行预训练任务中的至少两种,得到预训练语言模型。
其中,预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务。
前向因果语言建模任务为由样本文本中在前的词预测样本文本中在后的词的建模任务。反向因果语言建模任务为由样本文本中在后的词预测样本文本中在前的词的建模任务。掩码语言建模任务为由样本文本中非掩码位置的词预测样本文本中掩码位置的词的建模任务。
示例性的,可以是根据样本文本执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务中的两种,以训练得到预训练语言模型。也可以根据样本文本执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务,以训练得到预训练语言模型。
且执行上述三种任务中的两种任务,或者执行上述三种任务的顺序不做限定,即至少两种预训练任务的训练模式包括:交替训练模式、并行训练模式以及串行训练模式。
以交替训练模式为例,可以先执行前向因果语言建模任务,而后执行反向因果语言建模任务,再执行前向因果语言建模任务。以并行训练模式为例,可以分别执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务。以串行训练模式为例,可以先执行前向因果语言建模任务,而后执行反向因果语言建模任务。
结合上述分析可知,本公开实施例提供了一种预训练语言模型的训练方法,包括:获取样本文本,根据样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务,前向因果语言建模任务为由样本文本中在前的词预测样本文本中在后的词的建模任务,反向因果语言建模任务为由样本文本中在后的词预测样本文本中在前的词的建模任务,掩码语言建模任务为由样本文本中非掩码位置的词预测样本文本中掩码位置的词的建模任务,在本实施例中,通过结合前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务中的至少两种预训练任务训练得到预训练语言模型的技术特征,可以实现从多个维度进行预训练,从而实现训练的多样性和灵活性,且可以使得从多个维度训练得到的预训练语言模型具有较高的准确性和可靠性。
为使读者更加深刻的理解本公开的实现原理,现以结合三种预训练任务为例对本公开的实现原理进行详细地阐述。
请参阅图2,图2为本公开另一实施例的预训练语言模型的训练方法的流程图,如图2所示,该方法包括:
S201:获取样本文本。
应该理解的是,为了避免繁琐的陈述,关于本实施例与上述实施例相同的技术特征,本实施例不再赘述。
在一些实施例中,样本文本为无监督文本,即样本文本为没有标签的样本文本。
S202:对样本文本进行分词处理,得到样本文本中的每个词。
本实施例对分词处理的方式不做限定,例如可以先去除样本文本中的停用词,而后对去掉停用词的样本文本进行切词处理,从而得到样本文本中的每个词。其中,停用词为没有意义的词,如“的”等副词,“在”等介词等等。
S203:确定样本文本中的各词各自对应的词向量,并对每一词向量进行编码处理,得到每一词向量的编码向量。
示例性的,针对样本文本中的每一词,根据预设的词与索引之间的映射关系,确定该词对应的索引,并根据预设的索引与词向量矩阵的对应关系,从词向量矩阵中确定与该词对应的索引对应的词向量矩阵中的行,并基于该行确定该词的词向量。其中,词向量用于表征词在语义上的特征。
例如,如图3所示,样本文本中的词包括:x1、x2、x3以及x4,将x1、x2、x3、x4以及开头特殊符号(begin-of-sentence,BOS,用于标识样本文本的开头)输入至嵌入网络(embedding),输出x1、x2、x3、x4以及BOS各自对应的词向量。将各词向量输入至编码网络(transformer),得到各词向量各自对应的编码向量。
如图3所示,transformer包括多头自注意力(multi-head self-attention)网络和前馈神经网络(feed forward network)。且transformer为N层的编码结构,其中,N为大于等于1的正整数。即如图3所示,transformer的一层编码结构包括一层多头自注意力网络和一层前馈神经网络,且词向量经过当前层的多头自注意力网络后,进入至当前层的前馈神经网络,再进入至下一层的多头自注意力网络,以此类推。
S204:针对样本文本中的任一词,根据任一词的编码向量和历史词的编码向量,预测得到该任一词的前向预测结果。
即该任一词的前向预测结果为样本文本中位于该任一词之后且与该任一词相邻的一个词。历史词为样本文中位于任一词之前的词。
示例性的,结合上述分析和如图3所示,将每一编码向量输入至多层感知器(Multilayer Perceptron,MLP)模型,输出每一编码向量的前向预测结果。如图3所示,多层感知器模型根据BOS的编码向量,输出样本文本中的第一个词x1;多层感知器模型根据根据BOS的编码向量和x1的编码向量,输出样本文本中的第二个词x2,以此类推,多层感知器模型根据根据BOS的编码向量、x1的编码向量、x2的编码向量、x3的编码向量以及x4的编码向量,输出结尾特殊符号(end-of-sentence,EOS,用于标识样本文本的结尾)。
S205:根据前向预测结果确定前向预训练损失函数。即前向预训练损失函数表征基于前向因果语言建模任务的损失函数。
S206:针对样本文本中的任一词,根据任一词的编码向量和未来词的编码向量,预测得到该任一词的反向预测结果。
即该任一词的反向预测结果为样本文本中位于该任一词之前且与该任一词相邻的一个词。未来词为样本文中位于任一词之后的词。
示例性的,结合上述分析和如图4所示,将每一编码向量输入至多层感知器模型,输出每一编码向量的反向预测结果。如图4所示,多层感知器模型根据BOS的编码向量,输出样本文本中的最后一个词x4;多层感知器模型根据根据BOS的编码向量和x4的编码向量,输出样本文本中的第三个词x3,以此类推,多层感知器模型根据根据BOS的编码向量、x4的编码向量、x3的编码向量、x2的编码向量以及x1的编码向量,输出结尾特殊符号。
S207:根据反向预测结果确定反向预训练损失函数。即反向预训练损失函数表征基于反向因果语言建模任务的损失函数。
S208:对样本文本中的至少一个词进行掩码处理,得到掩码位置,并根据样本文本中非掩码位置的词对掩码位置的词进行掩码预测,得到掩码预测结果。其中,掩码预测结果表征样本文本中掩码位置的词。
示例性的,结合上述分析和如图5所示,对样本文本中的最后一个词(即x4)进行掩码处理,如图5所示,x4被掩码处理标识为mask,将每一编码向量输入至多层感知器模型,多层感知器模型根据x1的编码向量、x2的编码向量以及x3的编码向量,输出x4。
S209:根据掩码预测结果确定掩码预训练损失函数。即掩码预训练损失函数表征基于掩码语言建模任务的损失函数。
S210:根据前向预训练损失函数、反向预训练损失函数以及预训练损失函数进行反向调参处理,得到预训练语言模型。
示例性的,结合上述分析,可以确定前向预训练损失函数、反向预训练损失函数以及预训练损失函数的平均损失值,并根据平均损失值对嵌入网络、transformer以及多层感知器模型的参数进行调整,直至满足迭代次数或者平均损失值小于预设的损失阈值。同理,损失阈值可以基于需求、历史记录以及试验等方式确定。
结合上述分析可知,可以采用串行训练模式训练得到预训练语言模型,则在另一些实施例中,也可以基于前向预训练损失函数对前向因果语言建模任务的各模型的参数进行调整,以满足前向因果语言建模任务的损失函数最小值之后,再执行反向因果语言建模任务,并可以基于反向预训练损失函数对反向因果语言建模任务的各模型的参数进行调整,以满足反向因果语言建模任务的损失函数最小值之后,再执行掩码语言建模任务。
若采用并行训练模式训练得到预训练语言模型,则可以同时执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务,可以采用上述平均损失值的方式训练得到预训练语言模型,也可以基于各自对应的损失函数调整各自对应的模型的参数,以得到预训练语言模型。
若采用交替训练模式训练得到预训练语言模型,则可以当基于前向预训练损失函数对前向因果语言建模任务的各模型的参数进行调整,满足一定需求时(没有达到损失函数最小值),执行反向因果语言建模任务,并在基于反向预训练损失函数对反向因果语言建模任务的各模型的参数进行调整,满足一定需求时(没有达到损失函数最小值),再执行前向因果语言建模任务。
值得说明的是,关于执行前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务更多的组合方式,此处不再一一列举。即各建模任务可以为独立的实施例,也可以为相互组合的实施例,且对各建模任务相互组合的方式和顺序等不做限定,可以基于需求等确定。
由于训练模式具有多样性,因此,训练得到预训练语言模型的方式也具有多样性,即通过采用本实施例提供的训练模式,可以提高训练得到预训练语言模型的多样性和灵活性的技术效果。
基于上述分析可知,前向因果语言建模任务可以根据样本文本中的在前的词预测在后的词,即前向因果语言建模任务可以利用历史的信息预测未来的信息;反向因果建模任务可以利用样本文本中的在后的词预测在前的词,即前向因果语言建模任务可以利用未来的信息预测历史的信息;掩码语言建模任务可以根据样本文本中未被掩码的词预测被掩码的词,即掩码语言建模任务可以利用确定的信息预测不确定的信息。从而当采用如图2所示的实施例训练得到预训练语言模型时,可以使得预训练语言模型既能学习到利用历史的信息预测未来的信息的能力,又能学习到利用未来的信息预测历史的信息的能力,还能学习到利用确定的信息预测不确定的信息的能力,从而使得预训练语言模型具有更强且更为准确的预测能力。
请参阅图6,图6为本公开一个实施例的语言模型的训练方法的示意图。
如图6所示,该方法包括:
S601:获取目标任务场景的训练文本。
示例性的,本实施例的执行主体可以为语言模型的训练装置,该训练装置与上述预训练语言模型的训练装置可以为相同的装置,也可以为不同的装置,本实施例不做限定。
结合上述分析可知,预训练语言模型被广泛应用于各类自然语言处理任务,如对话系统、机器翻译、文本摘要、信息检索以及标题生成等等,相应的,目标任务场景可以为对话系统的场景,也可以为机器翻译的场景、文本摘要的场景、信息检索的场景以及标题生成的场景等等。
以对话系统的场景为例,训练文本为对话系统的场景下的文本,如人机交互的对话文本。其他场景以此类推,此处不做一一列举。
S602:根据训练文本对预先训练的预训练语言模型进行训练,得到适用于目标任务场景的语言模型。
其中,预训练语言模型是基于如上任一实施例所述的方法训练得到的。
结合上述实施例,若目标任务场景为对话系统的场景,则语言模型可以根据用户发起的对话信息确定与对话信息对应的反馈信息。
例如,智能音箱中部署有对话系统,对话系统中包括语言模型,用户可以通过语音或者触控的方式向智能音箱发起查询天气的对话信息,则语言模型可以根据确定用户的查询天气的意图,对话系统可以根据该意图确定输出反馈信息。其中,反馈信息用于表征天气信息。
值得说明的是,由于预训练语言模型具有更强且更为准确的预测能力,因此,基于预训练模型训练得到的语言模型具有较强的语言理解能力,从而可以提高语言模型的理解准确率。
请参阅图7,图7为本公开一个实施例的预训练语言模型的训练装置,如图7所示,该装置700包括:
第一获取单元701,用于获取样本文本。
执行单元702,用于根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务。
其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。
请参阅图8,图8为本公开另一实施例的预训练语言模型的训练装置,如图8所示,该装置800包括:
第一获取单元801,用于获取样本文本。
执行单元802,用于根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务。
其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。
结合图8可知,在一些实施例中,执行单元802,包括:
分词子单元8021,用于对所述样本文本进行分词处理,得到所述样本文本中的每个词。
执行子单元8022,用于根据所述样本文本中的每个词执行预训练任务中的至少两种,得到预训练语言模型。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述反向因果语言建模任务,则所述执行子单元8022用于,针对所述样本文本中的任一词,根据所述任一词和未来词,预测得到所述任一词在所述样本文本中的在前相邻词。
其中,所述未来词为所述样本文中位于所述任一词之后的词;所述在前相邻词为所述样本文本中位于所述任一词之前且与所述任一词相邻的一个词。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述前向因果语言建模任务,则所述执行子单元8022用于,针对所述样本文本中的任一词,根据所述任一词和历史词,预测得到所述任一词在所述样本文本中的在后相邻词。
其中,所述历史词为所述样本文中位于所述任一词之前的词;所述在后相邻词为所述样本文本中位于所述任一词之后且与所述任一词相邻的一个词。
在本公开的一个实施例中,若执行的至少两种预训练任务中包括所述掩码语言建模任务,则所述执行子单元8022用于,对所述样本文本中的至少一个词进行掩码处理,得到掩码位置,并根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。
在本公开的一个实施例中,所述至少两种预训练任务的训练模式包括:交替训练模式、并行训练模式以及串行训练模式。
请参阅图9,图9为本公开一个实施例的语言模型的训练装置的示意图,如图9所示,该装置900包括:
第二获取单元901,用于获取目标任务场景的训练文本。
训练单元902,用于根据所述训练文本对预先训练的预训练语言模型进行训练,得到适用于所述目标任务场景的语言模型。
其中,所述预训练语言模型是基于如第一方面所述的方法训练得到的。
图10为本公开实施例提供的电子设备的硬件结构示意图。如图10所示,本公开实施例的电子设备1000可以包括:至少一个处理器1001(图10中仅示出了一个处理器);以及,与至少一个处理器通信连接的存储器1002。其中,存储器1002存储有可被至少一个处理器1001执行的指令,指令被至少一个处理器1001执行,以使电子设备1000能够执行前述任一方法实施例中的技术方案。
可选的,存储器1002既可以是独立的,也可以跟处理器1001集成在一起。
当存储器1002是独立于处理器1001之外的器件时,电子设备1000还包括:总线1003,用于连接存储器1002和处理器1001。
本公开实施例提供的电子设备可以执行前述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不再赘述。
本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,当计算机程序被处理器执行时用于实现前述任一方法实施例中的技术方案。
本公开实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一方法实施例中的技术方案。
本公开实施例还提供了一种芯片,包括:处理模块与通信接口,该处理模块能执行前述方法实施例中的技术方案。
进一步地,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述方法实施例中的技术方案。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本公开附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备中。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (12)

1.一种预训练语言模型的训练方法,包括:
获取样本文本;
根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务;
其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。
2.根据权利要求1所述的方法,其中,所述根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,包括:
对所述样本文本进行分词处理,得到所述样本文本中的每个词;
根据所述样本文本中的每个词执行预训练任务中的至少两种,得到预训练语言模型。
3.根据权利要求2所述的方法,其中,若执行的至少两种预训练任务中包括所述反向因果语言建模任务,则根据所述样本文本中的每个词执行所述反向因果语言建模任务,包括:
针对所述样本文本中的任一词,根据所述任一词和未来词,预测得到所述任一词在所述样本文本中的在前相邻词;
其中,所述未来词为所述样本文中位于所述任一词之后的词;所述在前相邻词为所述样本文本中位于所述任一词之前且与所述任一词相邻的一个词。
4.根据权利要求2或3所述的方法,其中,若执行的至少两种预训练任务中包括所述前向因果语言建模任务,则根据所述样本文本中的每个词执行所述前向因果语言建模任务,包括:
针对所述样本文本中的任一词,根据所述任一词和历史词,预测得到所述任一词在所述样本文本中的在后相邻词;
其中,所述历史词为所述样本文中位于所述任一词之前的词;所述在后相邻词为所述样本文本中位于所述任一词之后且与所述任一词相邻的一个词。
5.根据权利要求2-4任一项所述的方法,其中,若执行的至少两种预训练任务中包括所述掩码语言建模任务,则根据所述样本文本中的每个词执行所述掩码语言建模任务,包括:
对所述样本文本中的至少一个词进行掩码处理,得到掩码位置;
根据所述样本文本中非掩码位置的词预测得到所述掩码位置的词。
6.根据权利要求1所述的方法,其中,所述至少两种预训练任务的训练模式包括:交替训练模式、并行训练模式以及串行训练模式。
7.一种语言模型的训练方法,包括:
获取目标任务场景的训练文本;
根据所述训练文本对预先训练的预训练语言模型进行训练,得到适用于所述目标任务场景的语言模型;
其中,所述预训练语言模型是基于如权利要求1-6任一项所述的方法训练得到的。
8.一种预训练语言模型的训练装置,包括:
第一获取单元,用于获取样本文本;
执行单元,用于根据所述样本文本执行预训练任务中的至少两种,得到预训练语言模型,其中,所述预训练任务包括:前向因果语言建模任务、反向因果语言建模任务以及掩码语言建模任务;
其中,所述前向因果语言建模任务为由所述样本文本中在前的词预测所述样本文本中在后的词的建模任务;所述反向因果语言建模任务为由所述样本文本中在后的词预测所述样本文本中在前的词的建模任务;所述掩码语言建模任务为由所述样本文本中非掩码位置的词预测所述样本文本中掩码位置的词的建模任务。
9.一种语言模型的训练装置,包括:
第二获取单元,用于获取目标任务场景的训练文本;
训练单元,用于根据所述训练文本对预先训练的预训练语言模型进行训练,得到适用于所述目标任务场景的语言模型;
其中,所述预训练语言模型是基于如权利要求1-6任一项所述的方法训练得到的。
10.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述电子设备能够执行权利要求1-6中任一项所述的方法;或者,所述指令被所述至少一个处理器执行,以使所述电子设备能够执行权利要求7所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法;或者,所述计算机程序被处理器执行时实现权利要求7所述的方法。
12.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法;或者,该计算机程序被处理器执行时实现权利要求7所述的方法。
CN202210516988.1A 2022-05-12 2022-05-12 预训练语言模型的训练方法、语言模型的训练方法及装置 Pending CN114757171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210516988.1A CN114757171A (zh) 2022-05-12 2022-05-12 预训练语言模型的训练方法、语言模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210516988.1A CN114757171A (zh) 2022-05-12 2022-05-12 预训练语言模型的训练方法、语言模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN114757171A true CN114757171A (zh) 2022-07-15

Family

ID=82334548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210516988.1A Pending CN114757171A (zh) 2022-05-12 2022-05-12 预训练语言模型的训练方法、语言模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN114757171A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358213A (zh) * 2022-10-20 2022-11-18 阿里巴巴(中国)有限公司 模型数据处理及模型预训练方法、电子设备及存储介质
CN116227484A (zh) * 2023-05-09 2023-06-06 腾讯科技(深圳)有限公司 模型训练方法、装置、设备、存储介质和计算机程序产品
CN116227506A (zh) * 2023-05-08 2023-06-06 湘江实验室 一种具有高效非线性注意力结构的机器翻译方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358213A (zh) * 2022-10-20 2022-11-18 阿里巴巴(中国)有限公司 模型数据处理及模型预训练方法、电子设备及存储介质
CN116227506A (zh) * 2023-05-08 2023-06-06 湘江实验室 一种具有高效非线性注意力结构的机器翻译方法
CN116227484A (zh) * 2023-05-09 2023-06-06 腾讯科技(深圳)有限公司 模型训练方法、装置、设备、存储介质和计算机程序产品
CN116227484B (zh) * 2023-05-09 2023-07-28 腾讯科技(深圳)有限公司 模型训练方法、装置、设备、存储介质和计算机程序产品

Similar Documents

Publication Publication Date Title
CN111222317B (zh) 序列标注方法、系统和计算机设备
US11816442B2 (en) Multi-turn dialogue response generation with autoregressive transformer models
CN114757171A (zh) 预训练语言模型的训练方法、语言模型的训练方法及装置
CN111738016B (zh) 多意图识别方法及相关设备
US20210200961A1 (en) Context-based multi-turn dialogue method and storage medium
CN110853626B (zh) 基于双向注意力神经网络的对话理解方法、装置及设备
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN110197279B (zh) 变换模型训练方法、装置、设备和存储介质
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
CN113239702A (zh) 意图识别方法、装置、电子设备
Kim et al. Construction of machine-labeled data for improving named entity recognition by transfer learning
CN111428470A (zh) 文本连贯性判定及其模型训练方法、电子设备及可读介质
CN111563391A (zh) 机器翻译方法、装置及电子设备
CN117151121B (zh) 一种基于波动阈值与分割化的多意图口语理解方法
CN109885830A (zh) 语句释义方法、装置、计算机设备
CN113408704A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN113449489A (zh) 标点符号标注方法、装置、计算机设备和存储介质
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN110767217B (zh) 音频分割方法、系统、电子设备和存储介质
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN111353295A (zh) 序列标注方法、装置、存储介质及计算机设备
CN116150311A (zh) 文本匹配模型的训练方法、意图识别方法及装置
CN114416981A (zh) 一种长文本的分类方法、装置、设备及存储介质
CN114492404A (zh) 一种长文本的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination