CN116502176A - 一种语言模型的预训练方法、装置、介质及电子设备 - Google Patents

一种语言模型的预训练方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN116502176A
CN116502176A CN202310333653.0A CN202310333653A CN116502176A CN 116502176 A CN116502176 A CN 116502176A CN 202310333653 A CN202310333653 A CN 202310333653A CN 116502176 A CN116502176 A CN 116502176A
Authority
CN
China
Prior art keywords
text
sample
training
language model
sample text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310333653.0A
Other languages
English (en)
Inventor
郑行
袁始股
孙清清
张天翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310333653.0A priority Critical patent/CN116502176A/zh
Publication of CN116502176A publication Critical patent/CN116502176A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本说明书公开了一种语言模型的预训练方法、装置、介质及电子设备,可先获取样本文本,将样本文本输入到特征提取网络,以提取样本文本的文本特征,并通过提示网络生成提示特征。然后将文本特征和提示特征融合,得到融合特征。最后针对预设的每个训练任务,根据融合特征以及该训练任务的训练目标,对语言模型中的编码端进行预训练。通过在预训练语言模型的编码端添加提示网络,使得在对语言模型进行预训练时候,可以将样本文本的文本特征和通过提示网络得到的提示特征进行融合,进而根据训练任务,完成训练目标,使得预训练后的语言模型可以更好的适配应用场景中的实际任务,以提高语言模型执行任务的能力,达到更好的效果。

Description

一种语言模型的预训练方法、装置、介质及电子设备
技术领域
本申请涉及人工智能领域,尤其涉及一种语言模型的预训练方法、装置、介质及电子设备。
背景技术
随着科技的发展,隐私数据日益受到关注。随着科技的发展,人工智能飞速发展。其中,自然语言处理(Natural Language Processing,NLP)受到广泛关注,自然语言处理研究的是人与计算机之间通过自然语言进行有效通信的各种理论和方法。
一般的,可将通用语料作为样本,对模型进行预训练得到预训练语言模型,后续用于对不同场景下的语言文本的进行处理,以实现不同场景下的实际业务,例如:对用户购物后的评价语句进行情感分析以评估该物品的受欢迎度、根据用户的浏览记录进行文本挖掘以给用户推荐相关信息等等。但是由于不同场景下的语言文本的结构差异大,预训练语言模型难以适配不同场景下的实际业务。因此,如何使预训练语言模型适配不同场景下的实际业务是一个亟待解决的问题。
基于此,本申请说明书提供了一种语言模型的预训练方法。
发明内容
本说明书提供一种语言模型的预训练方法及装置、存储介质及电子设备,以至少部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种语言模型的预训练方法,所述方法用于训练语言模型中的编码端,所述编码端至少包括特征提取网络和提示网络,所述方法包括:
获取样本文本;
将所述样本文本输入所述特征提取网络,以通过所述特征提取网络从所述样本文本中提取文本特征;并,通过所述提示网络生成提示特征;
根据所述文本特征以及所述提示特征,确定融合特征;
针对预设的每个训练任务,根据所述融合特征以及该训练任务的训练目标,对所述编码端进行预训练。
可选地,通过所述提示网络生成提示特征,具体包括:
获得提示信息,并将所述提示信息输入所述提示网络,以通过所述特征提取网络从所述提示信息中提取提示特征。
可选地,所述语言模型中还包括解码端;
将所述样本文本输入所述特征提取网络,具体包括:
通过掩膜对所述样本文本进行处理,并将处理后的样本文本输入所述特征提取网络;
根据所述融合特征以及该训练任务的训练目标,对所述编码端进行训练,具体包括:
将所述融合特征输入解码端,得到将所述处理后的样本文本进行还原的输出文本;
以所述输出文本与所述样本文本之间的差异最小为目标,对所述编码端进行训练。
可选地,将所述样本文本输入所述特征提取网络,具体包括:
针对每个样本文本,确定与该样本文本相关的衍生文本;
将该样本文本以及该样本文本的衍生文本作为正样本,输入所述语言模型的编码端;
将除该样本文本的其他样本文本作为负样本,输入所述语言模型的编码端;
根据所述文本特征以及所述提示特征,确定融合特征,具体包括:
基于输入的正样本,根据从所述正样本中提取的文本特征以及所述提示特征,确定正样本对应的融合特征;
基于输入的负样本,根据从所述负样本中提取的文本特征以及所述提示特征,确定负样本对应的融合特征;
根据所述融合特征以及该训练任务的训练目标,对所述编码端进行训练,具体包括:
以各正样本对应的融合特征之间的相似度最大,且所述正样本对应的融合特征与所述负样本对应的融合特征之间的相似度最小为目标,对所述编码端进行训练。
可选地,确定与该样本文本相关的衍生文本,具体包括:
确定该样本文本的平行语料文本,将所述平行语料文本作为该样本文本的衍生文本;或,在所述样本文本中插入停用词,将插入停用词后的该样本文本作为衍生文本。
可选地,所述方法还包括:
确定预训练完成的语言模型所要应用于的目标业务;
根据所述目标业务,获取业务样本文本以及所述业务样本文本对应的标注;
根据所述业务样本文本以及所述业务样本文本对应的标注,对预训练得到的语言模型进行微调,得到训练完成的语言模型。
可选地,根据所述业务样本文本以及所述业务样本文本对应的标注,对预训练得到的语言模型进行微调,具体包括:
将所述业务样本文本输入所述语言模型,确定输出结果;
根据所述输出结果以及所述业务样本文本对应的标注,确定损失;
根据所述损失,调整所述语言模型的提示网络的参数。
本说明书提供了一种语言模型的预训练装置,所述装置用于训练语言模型中的编码端,所述编码端至少包括特征提取网络和提示网络,包括:
获取模块,用于获取样本文本;
提取模块,用于将所述样本文本输入所述特征提取网络,以通过所述特征提取网络从所述样本文本中提取文本特征;并,通过所述提示网络生成提示特征;
融合模块,用于根据所述文本特征以及所述提示特征,确定融合特征;
训练模块,用于针对预设的每个训练任务,根据所述融合特征以及该训练任务的训练目标,对所述编码端进行预训练。
可选地,所述提取模块,具体用于获得提示信息,并将所述提示信息输入所述提示网络,以通过所述特征提取网络从所述提示信息中提取提示特征。
可选地,所述语言模型中还包括解码端;
所述提取模块,具体用于通过掩膜对所述样本文本进行处理,并将处理后的样本文本输入所述特征提取网络;
所述训练模块,具体用于将所述融合特征输入解码端,得到将所述处理后的样本文本进行还原的输出文本;以所述输出文本与所述样本文本之间的差异最小为目标,对所述编码端进行训练。
可选地,所述提取模块,具体用于针对每个样本文本,确定与该样本文本相关的衍生文本;将该样本文本以及该样本文本的衍生文本作为正样本,输入所述语言模型的编码端;将除该样本文本的其他样本文本作为负样本,输入所述语言模型的编码端;
所述融合模块,具体用于基于输入的正样本,根据从所述正样本中提取的文本特征以及所述提示特征,确定正样本对应的融合特征;基于输入的负样本,根据从所述负样本中提取的文本特征以及所述提示特征,确定负样本对应的融合特征;
所述训练模块,具体用于以各正样本对应的融合特征之间的相似度最大,且所述正样本对应的融合特征与所述负样本对应的融合特征之间的相似度最小为目标,对所述编码端进行训练。
可选地,所述提取模块,具体用于确定该样本文本的平行语料文本,将所述平行语料文本作为该样本文本的衍生文本;或,在所述样本文本中插入停用词,将插入停用词后的该样本文本作为衍生文本。
可选地,所述训练模块,还用于确定预训练完成的语言模型所要应用于的目标业务;根据所述目标业务,获取业务样本文本以及所述业务样本文本对应的标注;根据所述业务样本文本以及所述业务样本文本对应的标注,对预训练得到的语言模型进行微调,得到训练完成的语言模型。
可选地,所述训练模块,还用于将所述业务样本文本输入所述语言模型,确定输出结果;根据所述输出结果以及所述业务样本文本对应的标注,确定损失;根据所述损失,调整所述语言模型的提示网络的参数。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语言模型的预训练方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语言模型的预训练方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的语言模型的预训练方法中,首先可获取样本文本,将样本文本输入到特征提取网络,以提取样本文本的文本特征,并通过提示网络生成提示特征。然后将文本特征和提示特征融合,得到融合特征。最后针对预设的每个训练任务,根据融合特征以及该训练任务的训练目标,对语言模型中的编码端进行预训练。
从上述方法中可以看出,通过在预训练语言模型的编码端添加提示网络,使得在对语言模型进行预训练时候,可以将样本文本的文本特征和通过提示网络得到的提示特征进行融合,进而根据训练任务,完成训练目标。使得预训练后的语言模型可以更好的适配应用场景中的实际任务,以提高语言模型执行实际任务的能力,使语言模型在执行实际任务时达到更好的效果。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附
图中:
图1为本说明书中一种语言模型的预训练方法的流程示意图;
图2为本说明书提供的语言模型的预训练示意图;
图3为本说明书提供的语言模型的预训练示意图;
图4为本说明书提供的一种语言模型的预训练装置示意图;
图5为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本说明书提供的一种语言模型的预训练方法的流程示意图,具体可包括以下步骤:
S100:获取样本文本。
由于不同场景下的实际业务中的语言文本具有较大的结构差异,因此预训练语言模型很难适配不同场景下的实际业务。基于此,本说明书提供了一种语言模型的预训练方案,以使得预训练后的语言模型更好的适配不同场景下的实际业务,拥有更好的执行业务的能力。其中,执行本说明书技术方案的执行主体可为任何具备计算能力的设备(如:服务器),现以服务器为执行主体进行本说明书技术方案的说明。
在对语言模型进行预训练时,服务器可先获取样本文本。该样本文本可为通用语料,可在语料库中获取,以使得语言模型可以学习到样本文本中的基本逻辑。
S102:将所述样本文本输入所述特征提取网络,以通过所述特征提取网络从所述样本文本中提取文本特征;并,通过所述提示网络生成提示特征。
S104:根据所述文本特征以及所述提示特征,确定融合特征。
在本说明书的一个或多个实施例中,为了使得预训练完成的语言模型可以更好的适配各应用场景中的实际任务,可以在语言模型的编码端添加提示网络,以使得语言模型在预训练过程中就可通过提示网络学习提取提示特征。也就是说使得语言模型可基于该提示特征对样本文本中的文本特征进行提取,使得语言模型的编码端可以学习到:在该提示特征的影响下,在样本文本中应该提取到什么样的文本特征。
具体的,服务器可将获取到的样本文本输入到语言模型的编码端的特征提取网络中,使得特征提取网络可提取样本文本中的文本特征。并且,可获取提示信息,通过编码端的提示网络提取该提示信息中的提示特征。并将提示特征和文本特征融合得到融合特征,以在后续步骤中可通过该融合特征并结合训练任务的训练目标对编码端进行训练。
其中,提示信息可与输入的样本文本共同给予语言模型一种“提示”,使得语言模型学习文本的上下文的联系,且使得语言模型可以学习提示信息对于样本文本的影响。该提示信息可以是来源于语言模型在不同场景下的实际任务的提示文本,也可以是长度为指定token个数的文本,具体本说明书不做限制。
S106:针对预设的每个训练任务,根据所述融合特征以及该训练任务的训练目标,对所述编码端进行预训练。
服务器可针对预设的每个训练任务,根据融合特征以及该训练任务的训练目标,对语言模型中的编码端进行预训练。在本说明书的一个或多个实施例中,该语言模型中有编码端,该编码端中包括特征提取网络、提示网络。所述训练任务可以为掩码学习任务,由于掩码学习任务需要对编码端提取到的融合特征进行处理以得到处理后的输出文本。因此该语言模型中还可包括解码端,则服务器可在上述步骤S102中先通过掩膜对样本文本进行处理,例如,样本文本为:“今天天气真好。”,那么掩膜处理后的,也就是说将样本文本中的token掩盖或者替换掉后,该样本文本可为:“今[mask]天[mask]真好。”。并将处理后的样本文本“今[mask]天[mask]真好。”输入特征提取网络,以提取处理后的样本文本中的文本特征。并将该文本特征和提示特征融合得到融合特征。然后,将该融合特征输入语言模型的解码端,得到将掩膜处理的样本文本还原后的输出文本,沿用上例,则输出文本为“今日天空真好。”。最后以输出文本即“今日天空真好。”和样本文本即“今天天气真好。”之间的差异最小为目标,对语言模型的编码端进行训练。
需要说明的是,在本说明书的一个或多个实施例中,对语言模型的参数调整是针对编码端而言的,并不需要对解码端的参数进行调整。
在本说明书的一个或多个实施例中,在上述掩膜处理的过程中,可按照一定的概率将样本文本中的token掩盖,或者以一定的概率将样本文本中的token替换为其他token等等。
如图2所示,为本说明书提供的语言模型的预训练示意图。在图2中可见,该语言模型中有编码端和解码端,编码端中有特征提取网络和提示网络。将样本文本进行掩膜处理后输入特征提取网络,将提示信息输入提示网络,并将得到的文本特征和提示特征融合得到融合特征。融合特征输入解码端后得到输出文本。进而可根据输出文本以及样本文本确定使损失,以根据该损失调整语言模型中编码端的参数。
其中,进行特征融合时,可采用全局上下文网络(Global Context Network,GCNet)、金字塔场景解析网络(Spatial Pyramid Pooling Network,PSPNet)等等,具体采用什么特征融合方法本说明书不做限制。并且,如何对样本文本进行掩膜处理已经是较为成熟的技术,本说明书不再赘述。
通过对样本文本进行掩膜处理,并且通过提示网络提取提示特征,将提示特征与文本特征进行融合得到融合特征。以将融合特征输入解码端得到输出文本,进而以输出文本与样本文本之间的差异最小为目标对语言模型的编码端进行预训练,以得到预训练完成的语言模型。使得语言模型可学习到文本的上下文的联系与语言的基本逻辑,并且将提示特征融合到文本特征中,使得预训练完成的语言模型可以更好的适配不同场景下的实际任务。
基于图1所示的语言模型的预训练方法,服务器通过在预训练语言模型的编码端添加提示网络,使得在对语言模型进行预训练时,可以提取样本文本的文本特征,并将该文本特征与通过提示网络得到的提示特征融合,进而根据融合特征以及训练任务,完成训练目标。通过在编码端设置提示网络以提取提示特征,基于该提示特征对语言模型进行预训练,使得语言模型可学习到提示文本和样本文本之间的关系,即在该提示特征的影响下,在样本文本中应该提取到什么样的文本特征。进而使得预训练后的语言模型可以基于提示特征进行提取样本文本中的文本特征,以使得预训练后的语言模型可以更好的适配不同场景中的实际任务,以提高语言模型执行任务的能力,达到更好的效果。
进一步的,上述语言模型的预训练方法中使用的是掩码学习任务,该掩码学习任务需要得到编码端提取到的融合特征对应的输出文本,因此语言模型中设置有解码端,以使得该解码端对融合特征进行处理得到输出文本。但是,在没有解码端的情况下,为了使该语言模型仍可进行预训练,则训练任务可为对比学习任务。
具体的,在本说明书的一个或多个实施例中,在上述步骤S102中将样本文本输入到特征提取网络时,还可针对每个样本文本,确定与该样本文本相关的衍生文本。
其中,该样本文本的语义和衍生文本的语义是相似的,也就是说,样本文本的语义和衍生文本的语义的相似度是大于预设阈值的。因此,在确定该样本文本相关的衍生文本时,可以通过确定该样本文本的平行语料文本,将平行语料文本作为该样本文本的衍生文本。或者在样本文本中插入停用词,将插入停用词后的该样本文本作为衍生文本。还可进行同义词替换、重复语句中的无意义的词语等等,只要可确定与样本文本语义相似的衍生文本即可,具体的确定衍生文本的方法本说明书不做限制。
然后将该样本文本以及该样本文本的衍生文本作为正样本,将除样本文本的其他样本文本作为负样本,然后将正样本与负样本分别输入到语言模型的编码端,以对正样本以及负样本进行特征提取,得到正样本对应的文本特征和提示特征融合后的融合特征,以及负样本对应的文本特征和提示特征融合后的融合特征。并以各正样本对应的融合特征之间的相似度最大,且正样本对应的融合特征与负样本对应的融合特征之间的相似度最小为目标,对语言模型的编码端进行训练。
在本说明书的一个或多个实施例中,在实施对比学习任务时,虽然语言模型中的样本文本是没有标注的,但是由于与样本文本相关的衍生文本和样本文本在语义上是相似的,因此对于样本文本以及与样本文本相关的衍生文本而言,提取到的文本特征之间也应该是相似的。而样本文本、与样本文本相关的衍生文本相对于其他样本文本而言,相对来说,在语义上是不相似的,因此提取到的样本文本、与样本文本相关的衍生文本的文本特征与提取到的其他样本文本的文本特征之间是不相似的。因此,可以以各正样本(即与样本文本相关的衍生文本和样本文本)对应的融合特征之间的相似度最大,且正样本对应的融合特征与负样本(即其他样本文本)对应的融合特征之间的相似度最小为目标,对语言模型的编码端进行训练。
如图3所示,为本说明书提供的语言模型的预训练示意图。在图3中可见,样本文本有n个,针对样本文本1,可对样本文本1进行数据增强处理,以确定出样本文本1的衍生文本。然后将样本文本1与样本文本1的衍生文本作为正样本,将除样本文本1的样本文本2~n作为负样本,分别输入到特征提取网络,并结合提示网络提取到的提示信息中的提示特征,得到正样本对应的融合特征以及负样本对应的融合特征。进而,可以以各正样本对应的融合特征之间的相似度最大,且正样本对应的融合特征与负样本对应的融合特征之间的相似度最小为目标,也就是说,以正样本之间(同一类别的样本之间)的距离近,且正样本和负样本之间(不同类别的样本之间)的距离远为目标,对编码端进行训练,使得预训练后的语言模型具备更好的表征能力,以适配不同场景下的实际任务(如:语句相似度匹配、语句中的目标识别、语句的情感分类)。
需要说明的是,在上述语言模型的预训练方法中,所述编码端中的特征提取网络和提示网络的顺序不分先后,图2与图3仅仅是一种示例,也可以提示网络在前,特征提取网络在后。并且,进行上述预设的训练任务(掩码学习任务与对比学习任务)的顺序不分先后。
更进一步的,在本说明书的一个或多个实施例中,对于预训练后的语言模型,服务器还可确定其所要应用于的目标业务,也就是其所应用的具体场景中,例如:该预训练后的语言模型应用于的目标业务为对用户购物后的评价语句进行情感分析以评估该物品是否受欢迎。然后根据该目标业务,可获取业务样本文本以及业务样本文对应的标注。例如:该业务样本文本可为用户的评价语句“这个杯子很漂亮,我特别喜欢。”,该业务样本文本对应的标注为“正面”(即受用户欢迎)。
进而根据业务样本文本以及业务样本文本对应的标注,对预训练后的语言模型进行微调,得到训练完成的语言模型,以使得训练完成的语言模型可执行该目标业务。
其中,在对预训练后的语言模型进行微调时,由于预训练后的语言模型已经很好的学习到了对于文本的表征,因此可以只微调提示网络部分,也就是说冻结包括特征提取网络在内的其他网络的参数,以调整较少的语言模型中的参数,可以节省大量算力。具体的,将业务样本文本输入预训练后的语言模型,确定输出结果。然后根据输出结果以及业务样本文本对应的标注,确定损失。也就是说,将每个业务样本文本对应的输出结果以及每个业务样本文本对应的标注,输入到损失函数中,根据该损失函数计算损失。进而确定使损失最小的梯度,根据梯度下降方法来调整预训练后的语言模型中的提示网络的参数,使每个业务样本文本对应的输出结果与每个业务样本文本对应的标注之间的差异最小。
按照上述方法,使用业务样本文本和业务样本文本对应的标注来训练该预训练后的语言模型,使得训练完成的语言模型可以执行该业务,且提高了语言模型执行目标业务的能力,在其应用的场景中可达到更好的效果。
当然,在对预训练后的语言模型进行微调时,也可同时调整预训练后的语言模型中的特征提取网络以及提示网络的参数。具体的,在对特征提取网络以及提示网络的参数同时进行微调时候,可根据一定的权重进行调整,由于特征提取网络在一定程度上已经很好的学习到了对样本文本的文本特征的提取,而提示网络是要根据该语言模型具体应用于的目标业务确定提示的,因此在根据该语言模型具体应用于的目标业务进行参数调整时,提示网络参数的调整的权重大于特征提取网络参数的调整的权重。
需要说明的是,在本说明书的一个或多个实施例中,无论是在上述语言模型的预训练方法中还是在上述预训练语言模型的训练方法中,具体何时确定语言模型的(预)训练结束,本说明书不做限制。例如,当(预)训练迭代次数达到预设阈值时,确定该语言模型的(预)训练结束,或者,当确定出的损失小于预设数值时,确定该语言模型的(预)训练结束。
基于上述内容所述的语言模型的预训练方法,本说明书实施例还对应的提供一种用于语言模型的预训练装置示意图,如图4所示。
图4为本说明书实施例提供的一种语言模型的预训练装置的示意图,所述装置用于训练语言模型中的编码端,所述编码端至少包括特征提取网络和提示网络,所述装置包括:
获取模块400,用于获取样本文本;
提取模块402,用于将所述样本文本输入所述特征提取网络,以通过所述特征提取网络从所述样本文本中提取文本特征;并,通过所述提示网络生成提示特征;
融合模块404,用于根据所述文本特征以及所述提示特征,确定融合特征;
训练模块406,用于针对预设的每个训练任务,根据所述融合特征以及该训练任务的训练目标,对所述编码端进行预训练。
可选地,所述提取模块402,具体用于获得提示信息,并将所述提示信息输入所述提示网络,以通过所述特征提取网络从所述提示信息中提取提示特征。
可选地,所述语言模型中还包括解码端;
所述提取模块402,具体用于通过掩膜对所述样本文本进行处理,并将处理后的样本文本输入所述特征提取网络;
所述训练模块406,具体用于将所述融合特征输入解码端,得到将所述处理后的样本文本进行还原的输出文本;以所述输出文本与所述样本文本之间的差异最小为目标,对所述编码端进行训练。
可选地,所述提取模块402,具体用于针对每个样本文本,确定与该样本文本相关的衍生文本;将该样本文本以及该样本文本的衍生文本作为正样本,输入所述语言模型的编码端;将除该样本文本的其他样本文本作为负样本,输入所述语言模型的编码端;
所述融合模块404,具体用于基于输入的正样本,根据从所述正样本中提取的文本特征以及所述提示特征,确定正样本对应的融合特征;基于输入的负样本,根据从所述负样本中提取的文本特征以及所述提示特征,确定负样本对应的融合特征;
所述训练模块406,具体用于以各正样本对应的融合特征之间的相似度最大,且所述正样本对应的融合特征与所述负样本对应的融合特征之间的相似度最小为目标,对所述编码端进行训练。
可选地,所述提取模块402,具体用于确定该样本文本的平行语料文本,将所述平行语料文本作为该样本文本的衍生文本;或,在所述样本文本中插入停用词,将插入停用词后的该样本文本作为衍生文本。
可选地,所述训练模块406,还用于确定预训练完成的语言模型所要应用于的目标业务;根据所述目标业务,获取业务样本文本以及所述业务样本文本对应的标注;根据所述业务样本文本以及所述业务样本文本对应的标注,对预训练得到的语言模型进行微调,得到训练完成的语言模型。
可选地,所述训练模块406,还用于将所述业务样本文本输入所述语言模型,确定输出结果;根据所述输出结果以及所述业务样本文本对应的标注,确定损失;根据所述损失,调整所述语言模型的提示网络的参数。
本说明书实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述内容所述的语言模型的预训练方法。
基于上述内容所述的语言模型的预训练方法,本说明书实施例还提出了图5所示的电子设备的示意结构图。如图5,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述内容所述的语言模型的预训练方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (16)

1.一种语言模型的预训练方法,所述方法用于训练语言模型中的编码端,所述编码端至少包括特征提取网络和提示网络,所述方法包括:
获取样本文本;
将所述样本文本输入所述特征提取网络,以通过所述特征提取网络从所述样本文本中提取文本特征;并,通过所述提示网络生成提示特征;
根据所述文本特征以及所述提示特征,确定融合特征;
针对预设的每个训练任务,根据所述融合特征以及该训练任务的训练目标,对所述编码端进行预训练。
2.如权利要求1所述的方法,通过所述提示网络生成提示特征,具体包括:
获得提示信息,并将所述提示信息输入所述提示网络,以通过所述特征提取网络从所述提示信息中提取提示特征。
3.如权利要求1所述的方法,所述语言模型中还包括解码端;
将所述样本文本输入所述特征提取网络,具体包括:
通过掩膜对所述样本文本进行处理,并将处理后的样本文本输入所述特征提取网络;
根据所述融合特征以及该训练任务的训练目标,对所述编码端进行训练,具体包括:
将所述融合特征输入解码端,得到将所述处理后的样本文本进行还原的输出文本;
以所述输出文本与所述样本文本之间的差异最小为目标,对所述编码端进行训练。
4.如权利要求1所述的方法,将所述样本文本输入所述特征提取网络,具体包括:
针对每个样本文本,确定与该样本文本相关的衍生文本;
将该样本文本以及该样本文本的衍生文本作为正样本,输入所述语言模型的编码端;
将除该样本文本的其他样本文本作为负样本,输入所述语言模型的编码端;
根据所述文本特征以及所述提示特征,确定融合特征,具体包括:
基于输入的正样本,根据从所述正样本中提取的文本特征以及所述提示特征,确定正样本对应的融合特征;
基于输入的负样本,根据从所述负样本中提取的文本特征以及所述提示特征,确定负样本对应的融合特征;
根据所述融合特征以及该训练任务的训练目标,对所述编码端进行训练,具体包括:
以各正样本对应的融合特征之间的相似度最大,且所述正样本对应的融合特征与所述负样本对应的融合特征之间的相似度最小为目标,对所述编码端进行训练。
5.如权利要求4所述的方法,确定与该样本文本相关的衍生文本,具体包括:
确定该样本文本的平行语料文本,将所述平行语料文本作为该样本文本的衍生文本;或,在所述样本文本中插入停用词,将插入停用词后的该样本文本作为衍生文本。
6.如权利要求1所述的方法,所述方法还包括:
确定预训练完成的语言模型所要应用于的目标业务;
根据所述目标业务,获取业务样本文本以及所述业务样本文本对应的标注;
根据所述业务样本文本以及所述业务样本文本对应的标注,对预训练得到的语言模型进行微调,得到训练完成的语言模型。
7.如权利要求6所述的方法,根据所述业务样本文本以及所述业务样本文本对应的标注,对预训练得到的语言模型进行微调,具体包括:
将所述业务样本文本输入所述语言模型,确定输出结果;
根据所述输出结果以及所述业务样本文本对应的标注,确定损失;
根据所述损失,调整所述语言模型的提示网络的参数。
8.一种语言模型的预训练装置,所述装置用于训练语言模型中的编码端,所述编码端至少包括特征提取网络和提示网络,所述装置具体包括:
获取模块,用于获取样本文本;
提取模块,用于将所述样本文本输入所述特征提取网络,以通过所述特征提取网络从所述样本文本中提取文本特征;并,通过所述提示网络生成提示特征;
融合模块,用于根据所述文本特征以及所述提示特征,确定融合特征;
训练模块,用于针对预设的每个训练任务,根据所述融合特征以及该训练任务的训练目标,对所述编码端进行预训练。
9.如权利要求8所述的装置,所述提取模块,具体用于获得提示信息,并将所述提示信息输入所述提示网络,以通过所述特征提取网络从所述提示信息中提取提示特征。
10.如权利要求8所述的装置,所述语言模型中还包括解码端;
所述提取模块,具体用于通过掩膜对所述样本文本进行处理,并将处理后的样本文本输入所述特征提取网络;
所述训练模块,具体用于将所述融合特征输入解码端,得到将所述处理后的样本文本进行还原的输出文本;以所述输出文本与所述样本文本之间的差异最小为目标,对所述编码端进行训练。
11.如权利要求8所述的装置,所述提取模块,具体用于针对每个样本文本,确定与该样本文本相关的衍生文本;将该样本文本以及该样本文本的衍生文本作为正样本,输入所述语言模型的编码端;将除该样本文本的其他样本文本作为负样本,输入所述语言模型的编码端;
所述融合模块,具体用于基于输入的正样本,根据从所述正样本中提取的文本特征以及所述提示特征,确定正样本对应的融合特征;基于输入的负样本,根据从所述负样本中提取的文本特征以及所述提示特征,确定负样本对应的融合特征;
所述训练模块,具体用于以各正样本对应的融合特征之间的相似度最大,且所述正样本对应的融合特征与所述负样本对应的融合特征之间的相似度最小为目标,对所述编码端进行训练。
12.如权利要求11所述的装置,所述提取模块,具体用于确定该样本文本的平行语料文本,将所述平行语料文本作为该样本文本的衍生文本;或,在所述样本文本中插入停用词,将插入停用词后的该样本文本作为衍生文本。
13.如权利要求8所述的装置,所述训练模块,还用于确定预训练完成的语言模型所要应用于的目标业务;根据所述目标业务,获取业务样本文本以及所述业务样本文本对应的标注;根据所述业务样本文本以及所述业务样本文本对应的标注,对预训练得到的语言模型进行微调,得到训练完成的语言模型。
14.如权利要求13所述的装置,所述训练模块,还用于将所述业务样本文本输入所述语言模型,确定输出结果;根据所述输出结果以及所述业务样本文本对应的标注,确定损失;根据所述损失,调整所述语言模型的提示网络的参数。
15.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-7任一所述的方法。
16.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-7任一所述的方法。
CN202310333653.0A 2023-03-28 2023-03-28 一种语言模型的预训练方法、装置、介质及电子设备 Pending CN116502176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310333653.0A CN116502176A (zh) 2023-03-28 2023-03-28 一种语言模型的预训练方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310333653.0A CN116502176A (zh) 2023-03-28 2023-03-28 一种语言模型的预训练方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN116502176A true CN116502176A (zh) 2023-07-28

Family

ID=87319368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310333653.0A Pending CN116502176A (zh) 2023-03-28 2023-03-28 一种语言模型的预训练方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN116502176A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720124A (zh) * 2023-08-11 2023-09-08 之江实验室 一种教育文本分类方法、装置、存储介质及电子设备
CN116881428A (zh) * 2023-09-06 2023-10-13 杭州华鲤智能科技有限公司 一种语言模型训练方法及装置
CN117194992A (zh) * 2023-11-01 2023-12-08 支付宝(杭州)信息技术有限公司 一种模型训练、任务执行方法、装置、存储介质及设备
CN117351946A (zh) * 2023-10-27 2024-01-05 之江实验室 一种语音识别方法、装置、存储介质及电子设备
CN117369783A (zh) * 2023-12-06 2024-01-09 之江实验室 一种安全代码生成模型的训练方法及装置
CN117786061A (zh) * 2023-12-06 2024-03-29 之江实验室 一种基于时空注意力机制的大语言模型预测方法及装置
CN117807961A (zh) * 2024-03-01 2024-04-02 之江实验室 一种文本生成模型的训练方法、装置、介质及电子设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720124A (zh) * 2023-08-11 2023-09-08 之江实验室 一种教育文本分类方法、装置、存储介质及电子设备
CN116881428A (zh) * 2023-09-06 2023-10-13 杭州华鲤智能科技有限公司 一种语言模型训练方法及装置
CN116881428B (zh) * 2023-09-06 2023-11-21 杭州华鲤智能科技有限公司 一种语言模型训练方法及装置
CN117351946A (zh) * 2023-10-27 2024-01-05 之江实验室 一种语音识别方法、装置、存储介质及电子设备
CN117194992A (zh) * 2023-11-01 2023-12-08 支付宝(杭州)信息技术有限公司 一种模型训练、任务执行方法、装置、存储介质及设备
CN117194992B (zh) * 2023-11-01 2024-04-19 支付宝(杭州)信息技术有限公司 一种模型训练、任务执行方法、装置、存储介质及设备
CN117369783A (zh) * 2023-12-06 2024-01-09 之江实验室 一种安全代码生成模型的训练方法及装置
CN117369783B (zh) * 2023-12-06 2024-02-23 之江实验室 一种安全代码生成模型的训练方法及装置
CN117786061A (zh) * 2023-12-06 2024-03-29 之江实验室 一种基于时空注意力机制的大语言模型预测方法及装置
CN117786061B (zh) * 2023-12-06 2024-06-04 之江实验室 一种基于时空注意力机制的大语言模型预测方法及装置
CN117807961A (zh) * 2024-03-01 2024-04-02 之江实验室 一种文本生成模型的训练方法、装置、介质及电子设备
CN117807961B (zh) * 2024-03-01 2024-05-31 之江实验室 一种文本生成模型的训练方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
CN116502176A (zh) 一种语言模型的预训练方法、装置、介质及电子设备
CN116188632A (zh) 一种图像的生成方法、装置、存储介质及电子设备
CN112735407B (zh) 一种对话处理方法及装置
CN117194992B (zh) 一种模型训练、任务执行方法、装置、存储介质及设备
CN115828162B (zh) 一种分类模型训练的方法、装置、存储介质及电子设备
CN115146601A (zh) 语言处理任务的执行方法、装置、可读存储介质以及设备
CN116303989A (zh) 一种面向多种检索场景的专利检索方法、装置、设备
CN113887206B (zh) 一种模型训练及关键词提取方法及装置
CN117540825A (zh) 基于强化学习的预训练模型的构建方法及装置和电子设备
CN116630480B (zh) 一种交互式文本驱动图像编辑的方法、装置和电子设备
CN117934933A (zh) 一种图像识别模型的训练方法、目标检测的方法以及装置
CN116186330B (zh) 一种基于多模态学习的视频去重方法及装置
CN117591622A (zh) 一种模型训练和业务执行方法、装置、存储介质及设备
CN117828360A (zh) 一种模型训练、代码生成方法、装置、存储介质及设备
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN115017915B (zh) 一种模型训练、任务执行的方法及装置
CN116863484A (zh) 一种字符识别的方法、装置、存储介质及电子设备
CN116186231A (zh) 一种回复文本的生成方法、装置、存储介质及电子设备
CN117058525B (zh) 一种模型的训练方法、装置、存储介质及电子设备
CN117351946B (zh) 一种语音识别方法、装置、存储介质及电子设备
CN117079646B (zh) 一种语音识别模型的训练方法、装置、设备及存储介质
CN118690848A (zh) 一种语言模型的预训练方法、装置、介质及电子设备
CN115952271B (zh) 一种生成对话信息的方法、装置、存储介质及电子设备
CN117875413B (zh) 一种知识图谱本体中概念构建方法、装置、介质及设备
CN115423485B (zh) 数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination