CN115114433B - 语言模型的训练方法、装置、设备及存储介质 - Google Patents
语言模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115114433B CN115114433B CN202210555573.5A CN202210555573A CN115114433B CN 115114433 B CN115114433 B CN 115114433B CN 202210555573 A CN202210555573 A CN 202210555573A CN 115114433 B CN115114433 B CN 115114433B
- Authority
- CN
- China
- Prior art keywords
- text
- mask
- language model
- sample
- input text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 226
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000003860 storage Methods 0.000 title claims abstract description 32
- 238000009826 distribution Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 28
- 238000010276 construction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 64
- 230000008451 emotion Effects 0.000 description 27
- 238000004458 analytical method Methods 0.000 description 22
- 238000012545 processing Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 16
- 238000003058 natural language processing Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 9
- 230000009977 dual effect Effects 0.000 description 8
- 230000010076 replication Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 239000011229 interlayer Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008909 emotion recognition Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 description 1
- 101000701393 Homo sapiens Serine/threonine-protein kinase 26 Proteins 0.000 description 1
- 102100030617 Serine/threonine-protein kinase 26 Human genes 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语言模型的训练方法、装置、设备及存储介质,涉及人工智能领域。方法包括:基于提示文本和样本文本构建第一输入文本,提示文本中包含样本标签,样本标签为样本文本的标签,第一输入文本中缺少样本标签;基于第一输入文本构建第二输入文本,第二输入文本与第一输入文本的语义一致,第二输入文本中包含样本标签,且缺少部分文本内容,其中,缺少的文本内容属于样本文本;基于第一输入文本和第二输入文本调整预训练语言模型,预训练语言模型用于基于输入文本的上下文信息预测输入文本中的缺失内容。本申请实施例方案有助于提高少样本场景下语言模型的训练质量。
Description
技术领域
本申请实施例涉及人工智能领域,特别涉及一种语言模型的训练方法、装置、设备及存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)在机器语言和人类语言之间架起沟通的桥梁,实现了人机交流的目的。预训练语言模型(pre-trained LanguageModel)将自然语言处理带入一个新的阶段,其研究思路是先通过大数据预训练,而后基于下游任务对预训练模型进行小数据微调。
相关技术中,为了使后续微调阶段与预训练阶段执行相同任务,以提高语言模型训练质量,通常采用提示性微调(prompt-tuning)方式进行微调。提示性微调过程中,计算机设备在样本文本前或后拼接提示文本,并利用预训练语言模型对提示文本中包含的样本标签进行概率分布预测,进而基于预测得到的概率分布对预训练语言模型进行微调。
然而,在少样本场景下,即微调过程中具有标签的样本较少时,预训练语言模型的微调效果不佳,影响最终训练得到的语言模型的质量。
发明内容
本申请实施例提供了一种语言模型的训练方法、装置、设备及存储介质,能够提高少样本场景下语言模型的训练质量。所述技术方案如下:
一方面,本申请实施例提供了一种语言模型的训练方法,所述方法包括:
基于提示文本和样本文本构建第一输入文本,所述提示文本中包含样本标签,所述样本标签为所述样本文本的标签,所述第一输入文本中缺少所述样本标签;
基于所述第一输入文本构建第二输入文本,所述第二输入文本与所述第一输入文本的语义一致,所述第二输入文本中包含所述样本标签,且缺少部分文本内容,其中,缺少的文本内容属于所述样本文本;
基于所述第一输入文本和所述第二输入文本调整预训练语言模型,所述预训练语言模型用于基于输入文本的上下文信息预测所述输入文本中的缺失内容。
另一方面,本申请实施例提供了一种语言模型的训练装置,所述装置包括:
第一构建模块,用于基于提示文本和样本文本构建第一输入文本,所述提示文本中包含样本标签,所述样本标签为所述样本文本的标签,所述第一输入文本中缺少所述样本标签;
第二输入文本生成模块,用于基于所述第一输入文本构建第二输入文本,所述第二输入文本与所述第一输入文本的语义一致,所述第二输入文本中包含所述样本标签,且缺少部分文本内容,其中,缺少的文本内容属于所述样本文本;
语言模型预训练模块,用于基于所述第一输入文本和所述第二输入文本调整预训练语言模型,所述预训练语言模型用于基于输入文本的上下文信息预测所述输入文本中的缺失内容。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的语言模型的训练方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段程序,所述至少一条指令由处理器加载并执行以实现如上述方面所述的语言模型的训练方法。
另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的语言模型的训练方法。
本申请实施例中,计算机设备基于提示文本和样本文本构建包含上下文语境但缺失样本标签的第一输入文本,并在第一输入文本的基础上,构建包含样本标签但缺失部分上下文语境的第二输入文本,从而利用由第一输入文本和第二输入文本对预训练语言模型进行调整;在少样本场景下,通过构建语义一致的复述对,并利用复述对对预训练语言模型进行调整,实现了样本数量扩充,有助于提高少样本场景下预训练语言模型的调整质量,进而提高最终训练得到的语言模型的模型质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的实施环境的示意图;
图2示出了本申请一个示例性实施例提供的语言模型的训练方法的流程图;
图3是本申请一个示例性实施例示出的语言模型训练过程的实施示意图;
图4示出了本申请另一个示例性实施例示出的语言模型的训练方法的流程图;
图5是本申请一个示例性实施例示出的第一输入文本的示意图;
图6是本申请一个示例性实施例示出的第二输入文本的示意图;
图7是本申请一个示例性实施例示出的语言模型训练过程的原理示意图;
图8是本申请另一个示例性实施例提供的语言模型的训练方法的流程图;
图9是本申请另一个示例性实施例示出的语言模型训练过程的原理示意图;
图10是本申请一个示例性实施例示出的语言模型应用过程的流程图;
图11是本申请一个示例性实施例示出的语言模型预测效果的对比图;
图12是本申请一个示例性实施例提供的语言模型的训练装置的结构框图;
图13是本申请一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了方便理解,下面对本申请实施例中涉及的名词进行说明。
预训练语言模型:基于大规模文本语料进行语言建模预训练的模型。模型首先在大规模无监督的语料上进行长时间的无监督的预先训练(pre-training),获得通用的语言建模和表示能力。实际应用时只需要在原有语言表示模型上增加针对特定任务获得输出结果的输出层,并使用任务语料对模型进行少许训练即可。
提示性微调(Prompt Tuning):运用大规模预训练模型,给定人工设计或可学习的前缀/后缀提示输入,对齐语言建模任务的语言模型微调方法。提示性微调的核心为在语言模型的预训练过程中嵌入一段文本信息,文本信息基于预训练学习的文本构建,是对学习文本的再加工,嵌入的文本信息缺少学习文本的重点内容,并且提示性微调任务以填充缺失内容为任务目标。例如对于文本分类任务,设计一段缺失类型标签信息的文本嵌入,任务目标即为填充缺失的类型标签,文本分类任务经过提示性微调转变成一个填空任务。
对偶任务:运用任务的对称性正则化,构造对称任务,有效加强模型学习效果,适用于少样本场景。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Natural Language Processing,NLP)是计算机科学,人工智能,语言学关注计算机和人类语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域的研究涉及自然语言与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。通过自然语言处理,人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
预训练语言模型将计算机自然语言处理领域的发展引入了一个新的阶段,是现阶段实现自然语言处理的关键方法。深度学习不断发展的过程中,模型参数飞速增加,在NLP领域中,往往需要花费大量的人力和物力成本来构造大量的标注数据。与此同时,大量无标注的开放语料数据触手可及。预训练语言模型无需人工标签,模型可以利用上述语料数据,从海量的语料中学习到更好的语言表示的同时,提升对下游任务的效果。
随着预训练语言模型体量的不断增大,对其进行fine-tune的硬件要求、数据需求和实际代价也在不断上涨。预训练语言模型结合提示性训练模板,搭建出一种针对下游任务情景进行微调的更小巧轻量、更普适高效的语言模型训练方法。提示性微调嵌入提示性文本信息,通过回忆学习的方式实现语言模型针对下游任务的微调。提示性微调所能实现的微调效果与构建的提示文本有很强的相关性,模型的表现依赖于使用的模板。因此,在少样本的场景下可以构建提示模板的标记数据十分有限,进而在模型设计难度大的同时,有限提示文本应用于提示性微调方法的模型训练的训练效果较差。
为了提高少样本情景下预训练语言模型结合提示性微调方法的训练效果,本申请实施例提供了一种对偶语境下的提示性微调方案,采用该方案能够基于基本的提示性微调文本构建对偶学习任务,提高样本容量,提高对有限标注数据的利用效率,使得语言模型训练在少样本场景中得到比传统微调方案更好的训练效果。
本申请实施例提供的语言模型的训练方法,可以应用于内容分类、情感分析、语义匹配等场景。下面结合几种应用场景进行说明。
1、内容分类场景
内容分类场景下,本申请实施例提供的语言模型的训练方法,可以用于训练具有文本分类功能的语言模型,且训练完成的语言模型可以部署在具有内容需求的服务器中。比如,该服务器可以是资讯类应用程序的后台服务器,用于对发布的资讯(资讯标题或者资讯全文)进行分类(例如体育资讯、娱乐资讯、科技资讯);或者,该服务器可以是视频类应用程序的后台服务器,用于基于视频的文本描述对视频进行分类(比如搞笑视频、新闻视频等等)。
语言模型训练过程中,计算机设备首先利用大规模文本语料进行模型预训练,得到预训练语言模型,然后利用包含文本分类标签的样本文本对应预训练语言模型进行调整。其中,计算机设备采用提示性微调方式对预训练语言模型进行调整时,基于样本文本和提示文本构建对偶语境下的复述对,从而利用复述对进行模型调整。
应用阶段,服务器基于提示模板和待分类文本构建输入文本,并将输入文本输入训练得到语言模型,得到语言模型输出的分类标签,从而基于该分类标签对待分类文本对应的内容进行分类。比如,资讯类应用程序的后台服务器基于资讯分类标签,将发布的资讯添加到对应的资讯频道;视频类应用程序的后台服务器基于视频分类标签,将视频添加到对应的视频推荐池中。
2、情感分析场景
情感分析场景下,本申请实施例提供的语言模型的训练方法,可以用于训练具有情感分析功能的语言模型,且训练完成的语言模型可以部署在具有情感识别需求的服务器中。比如,该服务器可以是服务类应用程序或内容类应用程序的评论管理服务器,用于对用户发布的评论内容进行情感识别(例如积极、消极)。
语言模型训练过程中,计算机设备首先利用大规模文本语料进行模型预训练,得到预训练语言模型,然后利用包含情感标签的样本文本对应预训练语言模型进行调整。其中,计算机设备采用提示性微调方式对预训练语言模型进行调整时,基于样本文本和提示文本构建对偶语境下的复述对,从而利用复述对进行模型调整。
应用阶段,服务器基于提示模板和情感分析相关文本构建输入文本,并将输入文本输入训练得到语言模型,得到语言模型输出的情感分析标签,从而基于该情感分析标签对待分析文本对应的内容进行情感分析。比如,服务类应用程序的后台服务器基于情感分析标签,对用户上传的评论内容进行情感分析,由此可以基于分析结构统计评论情感倾向。进一步的,后台服务器可以对特定情感的评论内容进行后处理,比如屏蔽消极的评论内容,或者,高亮积极的评论内容等等。
3、语义匹配场景
语义匹配场景下,本申请实施例提供的语言模型的训练方法,可以用于训练具有语义匹配功能的语言模型,且训练完成的语言模型可以部署在具有语义匹配需求的服务器中。比如,该服务器可以是自动回复问询类应用程序的后台服务器,用于对用户输入的问询内容进行语义匹配,从候选问题中确定出语义匹配的目标问题,并将该目标问题对应的回答反馈给用户;或者该服务器可以是语音助手类应用程序的后台服务器,用于对用户输入的指令内容进行语义匹配,从候选任务中确定出语义匹配的目标任务,并执行该任务。
语言模型训练过程中,计算机设备首先利用大规模文本语料进行模型预训练,得到预训练语言模型,然后利用包含下游任务常见问询文本的样本文本对应预训练语言模型进行调整。其中,计算机设备采用提示性微调方式对预训练语言模型进行调整时,基于样本文本和提示文本构建对偶语境下的复述对,从而利用复述对进行模型调整。
应用阶段,服务器基于提示模板和下游任务常见输入文本构建输入文本,并将输入文本输入训练得到语言模型,得到语言模型输出的语义匹配文本,从而获取该语义匹配文本对应的自动回复文本,并进行反馈。比如,自动回复问询类应用程序的后台服务器通过语言模型对用户输入的问询内容进行语义匹配,找到候选问题中于用户语义匹配的目标问题,从而将目标问题的答案反馈给用户。
上述仅以几种常见的应用场景为例进行示意性说明,本申请实施例提供的方法还可以应用于其他需要对文本进行分类处理的场景,本申请实施例并不对实际应用场景构成限定。
图1示出了本申请一个示例性实施例提供的实施环境的示意图。本实施例以语言模型为情感分析模型,且训练得到的情感分析模型应用于评论服务器为例进行说明,该实施环境中包括终端110和服务器120。其中,终端110与服务器120之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端110是具有通过网络实现评论功能的电子设备。该电子设备可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端,也可以是台式电脑、投影式电脑等终端,本申请实施例对此不做限定。
并且,该评论功能可以是论坛、博客中的文章评论功能、服务类应用程序(比如外卖应用、购物应用、票务应用等等)提供的服务评论功能或内容类应用程序(比如新闻应用、视频应用、短视频应用等等)提供的内容评论功能等等,本申请实施例对此不作限定。
图1中,终端110中安装有服务类或内容类应用程序,且该服务类或内容类应用程序支持用户发表评论信息。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中,服务器120为终端110中应用程序的后台服务器,用于为应用程序提供评论情感分析功能。
本实施例中,服务器120中设置有情感分析模型,该情感分析模型是基于语言模型预训练+提示性微调(使用了对偶任务)训练得到,具有识别评论情感倾向的能力。
如图1所示,终端110输入评论后,,服务器120将评论内容文本121与提示性文本122拼接,将拼接后的文本作为情感分析模型123的输入,由情感分析模型123进行情感分析,并输出情感分析结果124。若情感分析结果124指示该评论内容为负面评论,服务器120进一步向终端110反馈负面评论提示125,提示用户是否确认进行评论发布。
在一种可能的实施方式中,上述文本情感分析模型可以由服务器120训练并部署,也可以由计算机训练并部署在服务器120处,本实施例对此不作限定。
为了方便表述,下述各个实施例以语言模型的训练方法由计算机设备执行为例进行说明。
请参考图2,其示出了本申请一个示例性实施例提供的语言模型的训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤:
步骤201,基于提示文本和样本文本构建第一输入文本,其中,提示文本中包含样本标签,样本标签为样本文本的标签,第一输入文本中缺少样本标签。
其中,第一输入文本是基础的提示性模型训练范式,第一输入文本中含有完整的样本文本,且样本文本前或后拼接有缺少样本标签的提示文本,该样本标签为样本文本对应的标注信息。
针对实现不同功能的语言模型,该样本标签的类型可能不同。比如,当用于训练具有情感倾向预测功能的语言模型时,该样本标签即用于表征样本文本所表达的情感倾向(例如积极,消极);当用于训练具有内容分类功能的语言模型时,该样本标签即用于表征样本文本所表达内容的类型(例如体育、娱乐、科技)等等,本申请实施例并不对样本标签的具体类型进行限定。
可选的,该提示文本由提示模板以及样本标签构成。其中,该提示模板可以通过人工方式进行设置(依赖于专家级经验),也可以通过自动学习得到(减少设计过程对于专业知识的依赖性),比如continuous prompt(连续提示)、softprompt(软提示),本申请实施例对此并不进行限定。
示意性的,如图3所示,样本文本301对应的提示文本302中包含样本标签“体育”,该样本标签即用于指示样本文本301的文本类型。基于样本文本301以及提示文本302构建得到的第一输入文本303中缺失样本标签“体育”。
步骤202,基于第一输入文本构建第二输入文本,第二输入文本与第一输入文本的语义一致,第二输入文本中包含样本标签,且缺少部分文本内容,其中,缺少的文本内容属于样本文本。
为了提升少样本场景下的模型微调效果,本申请实施例中计算机设备采用构建对偶任务的方式,构建与第一输入文本具有相同语义的第二输入文本,以此提升样本数量,并提高已有标注数据的利用率。
其中,第二输入文本中包含完整的提示文本,即第二输入文本中包含样本标签,但第二输入文本中的样本文本存在部分文本内容缺失。
可选的,针对不同的样本文本,第二输入文本中缺失的文本内容的数量可能相同,也可能不同。在一些实施例中,缺失的文本内容的数量与样本文本的长度相关。
示意性的,如图3所示,计算机设备基于第一输入文本303构建得到的第二输入文本304中包含样本标签“体育”,但缺失文本内容“赛跑”和“世界”。
步骤203,基于第一输入文本和第二输入文本调整预训练语言模型,预训练语言模型用于基于输入文本的上下文信息预测输入文本中的缺失内容。
示意性的,如图3所示,计算机设备基于第一输入文本303和第二输入文本304对预训练语言模型305进行微调,预训练语言模型305基于第一输入文本303的上下文信息预测缺失样本标签“体育”,同时基于第二输入文本304的上下文信息预测缺失文本内容“赛跑”和“世界”。
其中,该预训练语言模型可以是BERT(基于变换器的双向编码器表示技术,Bidirectional Encoder Representations from Transformers)、ELMo(基于语言模型的词向量,Embeddings from Language Models)、GPT(生成式预训练模型,Generative Pre-Training)等预训练语言模型的任意一种,本申请实施例对预训练语言模型的具体类型不作限定。
构建得到的第一输入文本和第二输入文本形成了复述对(Paraphrase),在利用复述对预训练语言模型进行微调时,即利用预训练语言模型分别对第一输入文本中缺失的样本标签进行概率分布预测,对第二输入文本中缺失的文本内容进行概率分布预测,从而以样本标签以及缺失文本内容为监督,基于概率分布预测结果对预训练语言模型的模型参数进行调整。其中,计算机设备可以通过梯度下降或者反向传播算法进行模型微调,本申请实施例对此不作限定。
综上所述,本申请实施例中,计算机设备基于提示文本和样本文本构建包含上下文语境但缺失样本标签的第一输入文本,并在第一输入文本的基础上,构建包含样本标签但缺失部分上下文语境的第二输入文本,从而利用由第一输入文本和第二输入文本对预训练语言模型进行调整;在少样本场景下,通过构建语义一致的复述对,并利用复述对对预训练语言模型进行调整,实现了样本数量扩充,有助于提高少样本场景下预训练语言模型的调整质量,进而提高最终训练得到的语言模型的模型质量。
在一种可能的实施方式中,预训练语言模型的最后一层用于实现掩码语言建模任务(Masked Language Modeling),相应的,在构建第一输入文本和第二输入文本的过程中,计算机设备可以将缺失内容替换为掩码(mask),从而在微调过程中,利用预训练语言模型对掩码出的文本进行概率分布预测,下面结合示例性的实施例进行说明。
请参考图4,其示出了本申请另一个示例性实施例提供的语言模型的训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤:
步骤401,将提示文本中的样本标签替换为第一掩码,得到掩码替换后的提示文本。
其中,提示文本是指提示性微调模型嵌入的文本,是对样本文本的再加工,用于进行提示性学习。样本标签是提示文本中的一个子文本,从任务整体看来,样本标签是语言模型的学习目标,本实施例中,计算机设备在构建第一输入文本时,即使用掩码替换提示文本中的样本标签。
如图5所示,在构建的第一输入文本中,[MASK]位置即为第一掩码位置,e(*)表示样本文本中子文本或符号的嵌入式(embedding)表示,h(*)表示采用continuous prompt的提示文本中子文本的嵌入式表示。
步骤402,对掩码替换后的提示文本和样本文本进行文本拼接,得到第一输入文本。
进一步的,计算机设备将掩码替换后的提示文本拼接在样本文本的目标位置,得到第一输入文本,其中,该目标位置可以为样本文本的头部或尾部,本实施例对此不作限定。如图5所示,掩码替换后的提示文本被拼接在样本文本的尾部。
步骤403,将第一输入文本中的第一掩码替换为样本标签,以及将样本文本中的目标子文本替换为第二掩码,得到第二输入文本。
为了充分利用样本文本中的文本内容,以及样本标签与样本文件的语义相关性,计算机设备在构建第二输入文本时,可以将第一输入文本中的第一掩码恢复为样本标签,并对第一输入文本中的样本文本进行部分掩码处理,得到第二输入文本。后续微调过程中,第二输入样本作为辅助任务,使预训练语言模型学习基于标签和上下文预测缺失文本内容,增强语言模型的该任务场景下的建模表现。
关于被替换为掩码的目标子文本的数量,为了保证与第一输入文本的语义一致性,避免因包含过多掩码导致必要语义信息缺失,在一种可能的实施方式中,计算机设备基于样本文本的文本长度,确定掩码数量,掩码数量与文本长度呈正相关关系。
在一个示意性的例子中,计算机设备基于文本长度的10%确定掩码数量。比如,当样本文本的文本长度为15时,计算机设备将其中的2个目标子文本替换为第二掩码。本申请实施例并不对目标子文本占样本文本的具体比例进行限定。
关于目标子文本的选取方式,在一种可能的实施方式中,计算机设备从样本文本中随机选取掩码数量的目标子文本,以保证多轮迭代训练过程中,样本文本中子样本被掩码替换的多样性,有助于提高语言模型的泛化能力。
基于图5所示的第一输入文本构建的第二输入文本如图6所示,其中,[MASK]位置即为第二掩码位置(样本文本中的mood和savour被掩码替换),e(*)表示样本文本中子文本、符号以及样本标签的嵌入式(embedding)表示,h(*)表示采用continuous prompt的提示文本中子文本的嵌入式表示。
步骤404,通过第一预训练语言模型对第一输入文本中的第一掩码进行预测,得到第一预测结果。
第一预训练语言模型是用于对第一输入文本中掩码位置进行预测的预训练语言模型,将第一输入文本输入第一预训练语言模型后,第一预训练语言模型输出的第一预测结果即为第一掩码处样本标签的概率分布。
在一些实施例中,第一预训练语言模型由输入层、隐藏层、输出头构成。其中,输入层用于对第一输入样本进行词嵌入(word-embedding)处理,得到第一输入样本中各个词汇、符号、掩码的嵌入式表示;隐藏层则用于基于上下文对嵌入式表示进行文本特征提取;输出头则用于基于掩码位置对应的文本特征,输出掩码位置处文本的概率分布。
在一种可能的实施方式中,本步骤可以包括如下子步骤:
1、通过第一预训练语言模型的隐藏层对第一输入文本进行特征提取,得到第一输入文本中子文本对应的子文本特征。
需要说明的是,通过隐藏层进行特征提取前,第一预训练语言模型首先通过输入层对第一输入文本进行词嵌入处理,得到第一输入文本的嵌入式表示,然后将第一输入文本的嵌入式表示输入隐藏层,由隐藏层进行文本特征提取,得到各个子文本的子文本特征。
示意性的,如图7所示,第一预训练语言模型由第一输入层701、第一隐藏层702以及第一输出头703构成。第一输入文本输入第一预训练语言模型后,第一输入层701对第一输入文本进行词嵌入处理,并将处理得到的嵌入式表示输入第一隐藏层702,由第一隐藏层702逐级进行文本特征提取,得到各个字文本的子文本特征7021。
2、基于第一掩码对应的子文本特征,通过第一预训练语言模型的输出头输出第一掩码对应的第一概率分布,第一概率分布用于表征第一掩码对应不同候选标签的概率。
进一步的,隐藏层将第一掩码对应的子文本特征输入输出头,由输出头基于子文本特征对第一掩码处的标签进行预测,得到第一掩码对应不同候选标签的概率,即第一概率分布。其中,各个候选标签对应概率之和为1。
其中,候选标签是对下游任务进行标注的标注数据,是第一掩码位置有可能对应的标签。在一个示意性的例子中,当语言模型用于对资讯进行分类时,该候选标签可以包括体育、科技、娱乐等等。
示意性的,如图7所示,第一隐藏层702将第一掩码对应的子文本特征7021输入第一输出头703后,第一输出头703输出第一概率分布,该第一概率分布中包含great和terrible这两种候选标签各自对应的概率。
步骤405,通过第二预训练语言模型对第二输入文本中的第二掩码进行预测,得到第二预测结果,第一预训练语言模型和第二预训练语言模型为孪生模型。
本实施例中,计算机设备采用孪生模型训练方式,基于复述对进行模型微调。其中,第一预训练语言模型和第二预训练语言模型具有相同的模型结构,且模型之间部分权重共享。比如,孪生模型的输入层以及隐藏层的权重共享,而输出层的权重独享(因为预测的内容不同)。
第二训练语言模型是用于对第二输入文本中的掩码位置进行预测的预训练语言模型,将第二输入文本输入第二预训练语言模型后,第二预训练语言模型输出的第二预测结果即为第二掩码处缺失文本内容的概率分布。
在一些实施例中,第二预训练语言模型由输入层、隐藏层、输出头构成。其中,输入层用于对第二输入样本进行词嵌入(word-embedding)处理,得到第二输入样本中各个词汇、符号、掩码的嵌入式表示;隐藏层则用于基于上下文对嵌入式表示进行文本特征提取;输出头则用于基于掩码位置对应的文本特征,输出掩码位置处文本的概率分布。
在一种可能的实施方式中,本步骤可以包括如下子步骤:
1、通过第二预训练语言模型的隐藏层对第二输入文本进行特征提取,得到第二输入文本中子文本对应的子文本特征。
需要说明的是,同样的,通过隐藏层进行特征提取前,第二预训练语言模型首先通过输入层对第二输入文本进行词嵌入处理,得到第二输入文本的嵌入式表示,然后将第二输入文本的嵌入式表示输入隐藏层,由隐藏层进行文本特征提取,得到各个子文本的子文本特征。
示意性的,如图7所示,第二预训练语言模型由第二输入层704、第二隐藏层705以及第二输出头706构成。第二输入文本输入第二预训练语言模型后,第二输入层704对第二输入文本进行词嵌入处理,并将处理得到的嵌入式表示输入第二隐藏层705,由第二隐藏层705逐级进行文本特征提取,得到各个字文本的子文本特征7051。
2、基于第二掩码对应的子文本特征,通过第二预训练语言模型的输出头输出第二掩码对应的第二概率分布,第二概率分布用于表征第二掩码对应不同候选词汇的概率。
进一步的,隐藏层将第二掩码对应的子文本特征输入输出头,由输出头基于子文本特征对第二掩码处的词汇进行预测,得到第二掩码对应不同候选词汇的概率,即第二概率分布。其中,各个候选词汇(预先构建的词汇表,词汇量通常较大)对应概率之和为1。
示意性的,如图7所示,第二隐藏层705将第二掩码对应的子文本特征7051输入第二输出头706后,第二输出头706输出第二概率分布,该第二概率分布中包含词汇库中各候选词汇各自对应的概率。
步骤406,基于样本标签和第一预测结果确定第一损失值。
得到第一掩码对应的第一预测结果后,计算机设备以样本标签为监督,确定第一预测结果与样本标签之间的预测损失,即第一损失值。其中,第一损失值越小,表明第一预测结果越准确,第一损失值越大,表明第一预测结果越不准确。后续过程中,即以最小化损失值为目标进行模型微调。
在一种可能的实施方式中,计算机设备将样本标签与第一预测结果之间的交叉熵损失确定为第一损失值。第一损失值可以表示为:
其中,N为样本数,Y为候选标签集合,i为第i个样本,k为第k个候选标签。yik在第i个样本的样本标签和第k个候选标签相一致时值取1,pik为第i个样本对应样本标签为第k个候选标签的概率。
步骤407,基于目标子文本和第二预测结果确定第二损失值。
与计算第一损失值过程类似的,得到第二掩码对应的第二预测结果后,计算机设备以第二掩码对应的目标子文本为监督,确定第二预测结果与目标子文本之间的预测损失,即第二损失值。后续过程中,即以最小化损失值为目标进行模型微调。
在一种可能的实施方式中,计算机设备基于输出头输出的第二掩码位置对应的第二概率分布,选取负对数似然函数为损失函数计算第二损失值,第二损失值可以表示为:
其中,i是第i个样本,j是第j个掩码位置。yi为第i个样本的样本文本,Xp为提示文本,为语言模型预测第二掩码位置的词汇,p为第二概率分布。在预训练语言模型的迭代训练中,后续程序基于负对数似然函数调整预训练语言模型。
步骤408,基于第一损失值和第二损失值,训练第一预训练语言模型和第二预训练语言模型。
进一步的,计算机设备基于第一损失值和第二损失值确定总损失值,从而基于总损失值分别训练孪生模型(第一预训练语言模型和第二预训练语言模型)。可选的,计算机设备可以基于第一损失值和第二损失值各自对应的损失权重,加权计算总损失值。
示意性的,训练孪生模型所采用的总损失值可以表示为:
其中,Mi为第i个样本的掩码个数,j为掩码位置,N为样本数。基于总损失,调整语言模型的参数,计算机设备通过梯度下降算法同步更新两个模型的参数,达到语言模型训练的效果。
本实施例中,计算机设备利用第一预训练语言模型和第二预训练语言模型分别对第一输入文本和第二输入文本中的掩码位置进行预测,得到第一预测结果和第二预测结果,并通过第一预测结果和第二预测结果分别计算第一损失值和第二损失值来调整语言模型参数,有助于提高少样本场景下预训练语言模型的调整质量,进而提高最终训练得到的语言模型的模型质量。
由于第一输入文本和第二输入文本的语义一致,因此第一预训练语言模型和第二预训练语言模型中同一层级输出的语义特征之间应该也具有高度一致性。
为了进一步提高模型微调质量,除了基于输出头输出的预测结果确定损失外,计算机设备还可以基于孪生模型提取到的中间层语义特征确定损失。下面采用示例性的实施例进行说明。
请参考图8,其示出了本申请另一个示例性实施例提供的语言模型的训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明,该方法包括如下步骤:
步骤801,将提示文本中的样本标签替换为第一掩码,得到掩码替换后的提示文本。
步骤802,对掩码替换后的提示文本和样本文本进行文本拼接,得到第一输入文本。
步骤803,将第一输入文本中的第一掩码替换为样本标签,以及将样本文本中的目标子文本替换为第二掩码,得到第二输入文本。
步骤804,通过第一预训练语言模型对第一输入文本中的第一掩码进行预测,得到第一预测结果。
步骤805,通过第二预训练语言模型对第二输入文本中的第二掩码进行预测,得到第二预测结果,第一预训练语言模型和第二预训练语言模型为孪生模型。
步骤806,基于样本标签和第一预测结果确定第一损失值。
步骤807,基于目标子文本和第二预测结果确定第二损失值。
上述步骤801至807的实施方式可以参考步骤401至407,本实施例在此不做赘述。
步骤808,基于第一语义特征和第二语义特征确定第三损失值,第一语义特征为第一预训练语言模型在预测过程中输出的中间层语义特征,第二语义特征为第二预训练语言模型在预测过程中输出的中间层语义特征。
在一种可能的实施方式中,由于第一预训练语言模型和第二预训练语言模型的隐藏层的结构一致,因此计算机设备可以从两个预训练语言模型的同一层级中获取同一对象的中间层语义特征,并基于两者语义特征的差异确定第三损失值。
可选的,计算机设备确定第三损失值的过程可以包括如下步骤。
1、计算机设备获取第一预训练语言模型中第k隐藏层输出的第一语义特征,以及获取第二预训练语言模型中第k隐藏层输出的第二语义特征。
第一输入文本和第二输入文本构成的复述对进行对偶任务,要求两文本信息在语法结构和词法结构上保持高度一致。隐藏层通过提取第一输入文本和第二输入文本的全部语义特征来保证模型的预测准确性。第一隐藏层提取第一语义特征,第一语义特征中包含第一输入文本中全部子文本、掩码、符号的语义特征。第二隐藏层提取第二语义特征,第二语义特征中包含第二输入文本中全部子文本、掩码、符号的语义特征。
在一种可能的实施方式中,计算机设备可以获取多个隐藏层输出的语义特征。比如,当语言模型包括5个隐藏层时,计算机设备可以提取其中第3层到第5层隐藏层的输出的语义特征。
2、从第一语义特征中确定第一掩码对应的第一掩码语义特征,以及从第二语义特征中确定样本标签对应的标签语义特征。
为了提高预训练语言模型对第一掩码处样本标签的预测准确度,计算机设备从第一语义特征中提取第一掩码对应的第一掩码语义特征,并从第二语义特征中提取样本标签对应的标签语义特征,并对齐第一掩码语义特征和标签语义特征。
需要说明的是,语义特征是由输入文本中子文本向量所呈现的,对比各个隐藏层中掩码位置对应的子文本向量,与其在第二输入文本相应位置的样本文本的子文本向量,可以对齐二者的语义特征。其中,第一输入文本中的第一掩码位置对应第二输入文本的样本标签位置,语言模型对第一掩码的预测结果即为模型表现效果,对齐二者间的语义特征可以提高掩码位置文本预测的准确程度。
3、从第二语义特征中确定第二掩码对应的第二掩码语义特征,以及从第一语义特征中确定目标子文本对应的子文本语义特征。
类似的,为了提高预训练语言模型对第二掩码处目标子文本的预测准确度,计算机设备从第二语义特征中提取第二掩码对应的第二掩码语义特征,并从第一语义特征中提取目标子文本对应的子文本语义特征,并对齐第二掩码语义特征和子文本语义特征。
4、基于第一掩码语义特征、标签语义特征、第二掩码语义特征以及子文本语义特征,确定第三损失值。
在一种可能的实施方式中,计算机设备通过距离约束任务构造损失函数,从而计算第三损失值。第三损失值表征预训练语言模型预测的第一掩码语义特征与标签语义特征之间的偏差,体现预训练语言模型对样本标签预测的准确性;第三损失值还表征预训练语言模型预测的第二掩码语义特征与子文本语义特征之间的偏差,体现预训练语言模型对目标子文本预测的准确性。
在一个示意性的例子当中,对齐层间语义特征以距离约束任务作为训练目标,第三损失值可以表示为:
其中,Ti为第i个样本文本的文本长度;
/>
h为各层的中间层语义特征,i为第i个样本,j为第j个掩码,S为预训练语言模型中隐藏层的层数。
示意性的,如图9所示,计算机设备除了基于第一输出头703和第二输出头706的输出确定第一损失值和第二损失值外,还基于第一隐藏层702和第二隐藏层705中掩码位置对应的语义特征进行对齐,从而计算得到第三损失值。
步骤809,基于第一损失值、第二损失值以及第三损失值,训练第一预训练语言模型和第二预训练语言模型。
进一步的,计算机设备基于第一损失值和第二损失值以及第三损失值确定总损失值,从而基于总损失值分别训练语言模型。可选的,计算机设备可以基于第一损失值、第二损失值以及第三损失值各自对应的损失权重,加权计算总损失值。
本实施例中,通过引入了层间语义特征作为约束,即通过获取孪生模型中同一层级输出的中间层语义特征,并对同一掩码位置处的中间层语义特征进行对齐,从而基于语义特征之间的差异确定第三损失值,进而结合第三损失值进行模型微调,有助于提高模型微调的效率,并有助于提高模型的训练质量。
通过上述实施例提供的方法完成语言模型训练后,训练得到的语言模型的应用过程如图10所示。
步骤1001,基于提示模板和目标文本构建目标输入文本,提示模板中标签对应的位置采用第三掩码替代。
在具体应用的过程中,不需要构建复述对。在应用语言模型时基于下游任务的需要,选择合适的提示模板与目标文本进行拼接构建目标输入文本。例如,对于情感分析类任务,当目标文本为“这个电影很好看”时,构建得到的目标输入文本为“这个电影很好看,我[MASK]这个电影”。
步骤1002,通过目标语言模型对目标输入文本中的第三掩码进行预测,得到第三掩码对应的第三预测结果,目标语言模型是经过调整的预训练语言模型。
进一步的,计算机设备将目标输入文本输入语言模型,得到语言模型输出的第三预测结果,其中,该第三预测结果即用于表征第三掩码处候选标签的概率分布。
需要说明的是,语言模型对目标输入文本进行词嵌入、特征提取以及概率分布预测的过程可以参考上述实施例,本实施例在此不作赘述。
步骤1003,基于第三预测结果确定目标文本对应的目标标签。
在一种可能的实施方式中,当第三预测结果为各个候选标签的概率分布时,计算机设备将最高概率对应的候选标签确定为目标标签。
示意性的,当第三预测结果为“喜欢99%,讨厌1%”时,计算机设备确定目标标签为“喜欢”。
本申请在语言模型的训练阶段构建了一个复述对作为输入文本,同时构造了两个对应的孪生网络,提升了计算复杂度。但当语言模型实际应用于下游任务进行预测时,无需构建复述对,仅需构建一个目标输入文本输入语言模型即可进行标签的预测,计算复杂度和基础的预训练+提示性微调的模型训练方法相同。本申请在没有增加落地计算复杂度和模型容量的情况下可以达到提升该基础模型训练质量的效果。
为了验证本申请实施例提供方案在语言模型训练上的优势,利用公开英文数据集对训练得到的语言模型进行性能测试,得到的性能测试结果如图11所示。相较于采用传统方式训练得到的语言模型,采用本申请实施例提供方案所训练得到的语言模型的性能表现更加优异(平均提升了2.51%)。
请参考图12,其示出了本申请一个示例性实施例提供的语言模型的训练装置的结构框图,该装置包括:
第一构建模块1201,用于基于提示文本和样本文本构建第一输入文本,所述提示文本中包含样本标签,所述样本标签为所述样本文本的标签,所述第一输入文本中缺少所述样本标签;
第二构建模块1202,用于基于所述第一输入文本构建第二输入文本,所述第二输入文本与所述第一输入文本的语义一致,所述第二输入文本中包含所述样本标签,且缺少部分文本内容,其中,缺少的文本内容属于所述样本文本;
训练模块1203,用于基于所述第一输入文本和所述第二输入文本调整预训练语言模型,所述预训练语言模型用于基于输入文本的上下文信息预测所述输入文本中的缺失内容。
可选的,所述第一构建模块1201,用于:
将所述提示文本中的所述样本标签替换为第一掩码,得到掩码替换后的所述提示文本;
对掩码替换后的所述提示文本和所述样本文本进行文本拼接,得到所述第一输入文本;
所述第二构建模块1202,用于:
将所述第一输入文本中的所述第一掩码替换为所述样本标签,以及将所述样本文本中的目标子文本替换为第二掩码,得到所述第二输入文本。
可选的,所述训练模块1203,用于:
通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测,得到第一预测结果;
通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测,得到第二预测结果,所述第一预训练语言模型和所述第二预训练语言模型为孪生模型;
基于所述样本标签和所述第一预测结果确定第一损失值;
基于所述目标子文本和所述第二预测结果确定第二损失值;
基于所述第一损失值和所述第二损失值,训练所述第一预训练语言模型和所述第二预训练语言模型。
可选的,所述训练模块1203,用于:
通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测,得到第一预测结果;
通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测,得到第二预测结果,所述第一预训练语言模型和所述第二预训练语言模型为孪生模型;
基于所述样本标签和所述第一预测结果确定第一损失值;
基于所述目标子文本和所述第二预测结果确定第二损失值;
基于第一语义特征和第二语义特征确定第三损失值,所述第一语义特征为所述第一预训练语言模型在预测过程中输出的中间层语义特征,所述第二语义特征为所述第二预训练语言模型在预测过程中输出的中间层语义特征;
基于所述第一损失值、所述第二损失值以及所述第三损失值,训练所述第一预训练语言模型和所述第二预训练语言模型。
可选的,通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测,得到第一预测结果的过程中,所述训练模块1203,用于:
通过所述第一预训练语言模型的隐藏层对所述第一输入文本进行特征提取,得到所述第一输入文本中子文本对应的子文本特征;
基于所述第一掩码对应的子文本特征,通过所述第一预训练语言模型的输出头输出所述第一掩码对应的第一概率分布,所述第一概率分布用于表征所述第一掩码对应不同候选标签的概率。
可选的,通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测,得到第二预测结果的过程中,所述训练模块1203,用于:
通过所述第二预训练语言模型的隐藏层对所述第二输入文本进行特征提取,得到所述第二输入文本中子文本对应的子文本特征;
基于所述第二掩码对应的子文本特征,通过所述第二预训练语言模型的输出头输出所述第二掩码对应的第二概率分布,所述第二概率分布用于表征所述第二掩码对应不同候选词汇的概率。
可选的,基于第一语义特征和第二语义特征确定第三损失值的过程中,所述训练模块1203,用于:
获取所述第一预训练语言模型中第k隐藏层输出的所述第一语义特征,以及所述第二预训练语言模型中第k隐藏层输出的所述第二语义特征;
从所述第一语义特征中确定所述第一掩码对应的第一掩码语义特征,以及从所述第二语义特征中确定所述样本标签对应的标签语义特征;
从所述第二语义特征中确定所述第二掩码对应的第二掩码语义特征,以及从所述第一语义特征中确定所述目标子文本对应的子文本语义特征;
基于所述第一掩码语义特征、所述标签语义特征、所述第二掩码语义特征以及所述子文本语义特征,确定所述第三损失值。
可选的,基于所述第一掩码语义特征、所述标签语义特征、所述第二掩码语义特征以及所述子文本语义特征,确定所述第三损失值得过程中,所述训练模块1203,用于:
确定所述第一掩码语义特征与所述标签语义特征之间的第一特征距离;
确定所述第二掩码语义特征与所述子文本语义特征之间的第二特征距离;
基于所述第一特征距离和所述第二特征距离确定所述第三损失值。
可选的,将所述样本文本中的目标子文本替换为第二掩码的过程中,所述第二构建模块1202,用于:
基于所述样本文本的文本长度,确定掩码数量,所述掩码数量与所述文本长度呈正相关关系;
将所述样本文本中所述掩码数量的所述目标子文本替换为所述第二掩码。
可选的,所述装置还包括预测模块,用于:
基于提示模板和目标文本构建目标输入文本,所述提示模板中标签对应的位置采用第三掩码替代;
通过目标语言模型对所述目标输入文本中的所述第三掩码进行预测,得到所述第三掩码对应的第三预测结果,所述目标语言模型是经过调整的所述预训练语言模型;
基于所述第三预测结果确定所述目标文本对应的目标标签。
综上所述,本申请实施例中,计算机设备基于提示文本和样本文本,通过第一构建模块以及第二构建模块构建缺少样本标签的第一输入文本,并以第一输入文本为基础构建第二输入文本,第二输入文本与第一输入文本保持高度的语义一致,并且包含样本标签,缺少部分文本内容。进而利用生成的两个输入文本构成的复述对通过训练模块调整预训练语言模型,得到在少样本场景的下游任务中表现良好的语言模型。采用本申请实施例提供的方案,基于提示文本和样本文本构建第一输入文本和第二输入文本,采用输入文本构成的复述对调整预训练语言模型,能够在扩充样本数量的同时,提高了少样本场景下预训练语言模型的调整质量,进而提高最终训练得到的语言模型的模型质量。
请参考图13,其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲:所述计算机设备1300包括中央处理单元(Central Processing Unit,CPU)1301、包括随机存取存储器1302和只读存储器1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还可以包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
在一些实施例中,所述基本输入/输出系统1306可以包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说,所述大容量存储设备1307可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM,Random Access Memory)、只读存储器(ROM,Read Only Memory)、闪存或其他固态存储其技术,只读光盘(Compact Disc Read-Only Memory,CD-ROM)、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1301执行,一个或多个程序包含用于实现上述方法的指令,中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。
根据本申请的各种实施例,所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。
本申请实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令,至少一条指令由处理器加载并执行以实现上述任一实施例所述的语言模型的训练方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (13)
1.一种语言模型的训练方法,其特征在于,所述方法包括:
基于提示文本和样本文本构建第一输入文本,所述提示文本中包含样本标签,所述样本标签为所述样本文本的标签,所述第一输入文本中缺少所述样本标签,所述第一输入文本中的所述样本标签被替换为第一掩码;
基于所述第一输入文本构建第二输入文本,所述第二输入文本与所述第一输入文本的语义一致,所述第二输入文本中包含所述样本标签,且所述样本文本中的目标子文本被替换为第二掩码;
通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测,得到第一预测结果;
通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测,得到第二预测结果,所述第一预训练语言模型和所述第二预训练语言模型为孪生模型;
基于所述样本标签和所述第一预测结果确定第一损失值;
基于所述目标子文本和所述第二预测结果确定第二损失值;
基于所述第一损失值和所述第二损失值,训练所述第一预训练语言模型和所述第二预训练语言模型,预训练语言模型用于基于输入文本的上下文信息预测输入文本中的缺失内容。
2.根据权利要求1所述的方法,其特征在于,所述基于提示文本和样本文本构建第一输入文本,包括:
将所述提示文本中的所述样本标签替换为第一掩码,得到掩码替换后的所述提示文本;
对掩码替换后的所述提示文本和所述样本文本进行文本拼接,得到所述第一输入文本;
所述基于所述第一输入文本构建第二输入文本,包括:
将所述第一输入文本中的所述第一掩码替换为所述样本标签,以及将所述样本文本中的目标子文本替换为第二掩码,得到所述第二输入文本。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于第一语义特征和第二语义特征确定第三损失值,所述第一语义特征为所述第一预训练语言模型在预测过程中输出的中间层语义特征,所述第二语义特征为所述第二预训练语言模型在预测过程中输出的中间层语义特征;
基于所述第一损失值、所述第二损失值以及所述第三损失值,训练所述第一预训练语言模型和所述第二预训练语言模型。
4.根据权利要求1或3所述的方法,其特征在于,所述通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测,得到第一预测结果,包括:
通过所述第一预训练语言模型的隐藏层对所述第一输入文本进行特征提取,得到所述第一输入文本中子文本对应的子文本特征;
基于所述第一掩码对应的子文本特征,通过所述第一预训练语言模型的输出头输出所述第一掩码对应的第一概率分布,所述第一概率分布用于表征所述第一掩码对应不同候选标签的概率。
5.根据权利要求1或3所述的方法,其特征在于,所述通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测,得到第二预测结果,包括:
通过所述第二预训练语言模型的隐藏层对所述第二输入文本进行特征提取,得到所述第二输入文本中子文本对应的子文本特征;
基于所述第二掩码对应的子文本特征,通过所述第二预训练语言模型的输出头输出所述第二掩码对应的第二概率分布,所述第二概率分布用于表征所述第二掩码对应不同候选词汇的概率。
6.根据权利要求3所述的方法,其特征在于,所述基于第一语义特征和第二语义特征确定第三损失值,包括:
获取所述第一预训练语言模型中第k隐藏层输出的所述第一语义特征,以及所述第二预训练语言模型中第k隐藏层输出的所述第二语义特征;
从所述第一语义特征中确定所述第一掩码对应的第一掩码语义特征,以及从所述第二语义特征中确定所述样本标签对应的标签语义特征;
从所述第二语义特征中确定所述第二掩码对应的第二掩码语义特征,以及从所述第一语义特征中确定所述目标子文本对应的子文本语义特征;
基于所述第一掩码语义特征、所述标签语义特征、所述第二掩码语义特征以及所述子文本语义特征,确定所述第三损失值。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一掩码语义特征、所述标签语义特征、所述第二掩码语义特征以及所述子文本语义特征,确定所述第三损失值,包括:
确定所述第一掩码语义特征与所述标签语义特征之间的第一特征距离;
确定所述第二掩码语义特征与所述子文本语义特征之间的第二特征距离;
基于所述第一特征距离和所述第二特征距离确定所述第三损失值。
8.根据权利要求2所述的方法,其特征在于,所述将所述样本文本中的目标子文本替换为第二掩码,包括:
基于所述样本文本的文本长度,确定掩码数量,所述掩码数量与所述文本长度呈正相关关系;
将所述样本文本中所述掩码数量的所述目标子文本替换为所述第二掩码。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于提示模板和目标文本构建目标输入文本,所述提示模板中标签对应的位置采用第三掩码替代;
通过目标语言模型对所述目标输入文本中的所述第三掩码进行预测,得到所述第三掩码对应的第三预测结果,所述目标语言模型是经过调整的所述预训练语言模型;
基于所述第三预测结果确定所述目标文本对应的目标标签。
10.一种语言模型的训练装置,其特征在于,所述装置包括:
第一构建模块,用于基于提示文本和样本文本构建第一输入文本,所述提示文本中包含样本标签,所述样本标签为所述样本文本的标签,所述第一输入文本中缺少所述样本标签,所述第一输入文本中的所述样本标签被替换为第一掩码;
第二构建模块,用于基于所述第一输入文本构建第二输入文本,所述第二输入文本与所述第一输入文本的语义一致,所述第二输入文本中包含所述样本标签,且所述样本文本中的目标子文本被替换为第二掩码;
训练模块,用于通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测,得到第一预测结果;
通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测,得到第二预测结果,所述第一预训练语言模型和所述第二预训练语言模型为孪生模型;
基于所述样本标签和所述第一预测结果确定第一损失值;
基于所述目标子文本和所述第二预测结果确定第二损失值;
基于所述第一损失值和所述第二损失值,训练所述第一预训练语言模型和所述第二预训练语言模型,预训练语言模型用于基于输入文本的上下文信息预测输入文本中的缺失内容。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至9任一所述的语言模型的训练方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至9任一所述的语言模型的训练方法。
13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至9任一所述的语言模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210555573.5A CN115114433B (zh) | 2022-05-19 | 2022-05-19 | 语言模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210555573.5A CN115114433B (zh) | 2022-05-19 | 2022-05-19 | 语言模型的训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115114433A CN115114433A (zh) | 2022-09-27 |
CN115114433B true CN115114433B (zh) | 2024-04-02 |
Family
ID=83326650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210555573.5A Active CN115114433B (zh) | 2022-05-19 | 2022-05-19 | 语言模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114433B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110941945A (zh) * | 2019-12-02 | 2020-03-31 | 百度在线网络技术(北京)有限公司 | 语言模型预训练方法和装置 |
CN111539223A (zh) * | 2020-05-29 | 2020-08-14 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN112084337A (zh) * | 2020-09-17 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法及设备 |
CN113408284A (zh) * | 2021-01-12 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 文本处理模型的训练方法、装置、电子设备及存储介质 |
CN113792113A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言模型获得及任务处理方法、装置、设备及介质 |
CN113901799A (zh) * | 2021-12-07 | 2022-01-07 | 苏州浪潮智能科技有限公司 | 模型训练、文本预测方法、装置、电子设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11086918B2 (en) * | 2016-12-07 | 2021-08-10 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for multi-label classification |
JP2019185551A (ja) * | 2018-04-13 | 2019-10-24 | 株式会社Preferred Networks | アノテーション付テキストデータの拡張方法、アノテーション付テキストデータの拡張プログラム、アノテーション付テキストデータの拡張装置、及び、テキスト分類モデルの訓練方法 |
US11461644B2 (en) * | 2018-11-15 | 2022-10-04 | D-Wave Systems Inc. | Systems and methods for semantic segmentation |
-
2022
- 2022-05-19 CN CN202210555573.5A patent/CN115114433B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN110941945A (zh) * | 2019-12-02 | 2020-03-31 | 百度在线网络技术(北京)有限公司 | 语言模型预训练方法和装置 |
CN111539223A (zh) * | 2020-05-29 | 2020-08-14 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN113792113A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言模型获得及任务处理方法、装置、设备及介质 |
CN112084337A (zh) * | 2020-09-17 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法及设备 |
CN113408284A (zh) * | 2021-01-12 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 文本处理模型的训练方法、装置、电子设备及存储介质 |
CN113901799A (zh) * | 2021-12-07 | 2022-01-07 | 苏州浪潮智能科技有限公司 | 模型训练、文本预测方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115114433A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Keneshloo et al. | Deep reinforcement learning for sequence-to-sequence models | |
WO2022037256A1 (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN112084337B (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110580292B (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN113065358B (zh) | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN110750998B (zh) | 一种文本输出方法、装置、计算机设备和存储介质 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
Guo et al. | Who is answering whom? Finding “Reply-To” relations in group chats with deep bidirectional LSTM networks | |
Ye et al. | Chinese named entity recognition based on character-word vector fusion | |
CN115115984A (zh) | 视频数据处理方法、装置、程序产品、计算机设备和介质 | |
Guo et al. | Smart edge-based fake news detection using pre-trained BERT model | |
Hsueh et al. | A Task-oriented Chatbot Based on LSTM and Reinforcement Learning | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN113918710A (zh) | 文本数据处理方法、装置、电子设备和可读存储介质 | |
CN116562286A (zh) | 一种基于混合图注意力的智能配置事件抽取方法 | |
CN115114433B (zh) | 语言模型的训练方法、装置、设备及存储介质 | |
CN113627197B (zh) | 文本的意图识别方法、装置、设备及存储介质 | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN112989024A (zh) | 文本内容的关系提取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |