CN115759001A - 语言模型训练方法、文本预测方法以及装置 - Google Patents

语言模型训练方法、文本预测方法以及装置 Download PDF

Info

Publication number
CN115759001A
CN115759001A CN202211201583.5A CN202211201583A CN115759001A CN 115759001 A CN115759001 A CN 115759001A CN 202211201583 A CN202211201583 A CN 202211201583A CN 115759001 A CN115759001 A CN 115759001A
Authority
CN
China
Prior art keywords
text
sample
mask
template
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211201583.5A
Other languages
English (en)
Inventor
李鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211201583.5A priority Critical patent/CN115759001A/zh
Publication of CN115759001A publication Critical patent/CN115759001A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本说明书实施例提供语言模型训练方法、文本预测方法以及装置,其中所述语言模型训练方法包括:获取第一样本集,其中,第一样本集包括多组样本文本对;利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;对各转换样本文本进行掩码处理,获得多个掩码样本文本;利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。通过利用引导模板对多组样本文本对统一进行格式转换,使得模型可以兼顾多种格式的样本文本对,提高模型的训练效率以及模型普适性,降低模型的维护成本。

Description

语言模型训练方法、文本预测方法以及装置
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种语言模型训练方法。本说明书一个或者多个实施例同时涉及一种文本预测方法,一种语言模型训练装置,一种文本预测装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序。
背景技术
随着计算机技术的发展,越来越多的工作和学习任务可以自动化处理,计算机技术已经逐步应用于各种日常的教育、学习活动中,例如利用计算机技术对文本进行预测,从而大大节省人力资源。
目前,通常针对不同的任务产出不同的模型,每一个任务都需要大量的标注数据,人工标注成本极高。而且,多个模型的效果评估,发布部署,优化更新等开发成本会成倍上涨。因此,亟需一种高效、普适性高且成本低的模型训练方案。
发明内容
有鉴于此,本说明书实施例提供了一种语言模型训练方法。本说明书一个或者多个实施例同时涉及一种文本预测方法,一种语言模型训练装置,一种文本预测装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种语言模型训练方法,包括:
获取第一样本集,其中,第一样本集包括多组样本文本对;
利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;
对各转换样本文本进行掩码处理,获得多个掩码样本文本;
利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。
根据本说明书实施例的第二方面,提供了一种文本预测方法,包括:
获取源文本;
将源文本输入文本预测模型,得到针对源文本的预测结果,其中,文本预测模型为基于预测任务类型,对如本说明书实施例第一方面提供的方法训练得到的预训练语言模型进行训练得到。
根据本说明书实施例的第三方面,提供了一种语言模型训练装置,包括:
第一获取模块,被配置为获取第一样本集,其中,第一样本集包括多组样本文本对;
转换模块,被配置为利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;
掩码模块,被配置为对各转换样本文本进行掩码处理,获得多个掩码样本文本;
第一训练模块,被配置为利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。
根据本说明书实施例的第四方面,提供了一种文本预测装置,包括:
第二获取模块,被配置为获取源文本;
输入模块,被配置为将源文本输入文本预测模型,得到针对源文本的预测结果,其中,文本预测模型为基于预测任务类型,对如本说明书实施例第一方面提供的方法训练得到的预训练语言模型进行训练得到。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述第一方面或第二方面所提供方法的步骤。
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述第一方面或第二方面所提供方法的步骤。
根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面或第二方面所提供方法的步骤。
本说明书一个实施例提供的语言模型训练方法,获取第一样本集,其中,第一样本集包括多组样本文本对;利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;对各转换样本文本进行掩码处理,获得多个掩码样本文本;利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。通过利用引导模板对多组样本文本对统一进行格式转换,使得模型可以兼顾多种格式的样本文本对,提高模型的训练效率以及模型普适性,降低模型的维护成本。
附图说明
图1是本说明书一个实施例提供的一种语言模型训练系统的框架图;
图2是本说明书一个实施例提供的另一种语言模型训练系统的框架图;
图3是本说明书一个实施例提供的一种语言模型训练方法的流程图;
图4是本说明书一个实施例提供的一种文本预测方法的流程图;
图5是本说明书一个实施例提供的一种文本预测界面的示意图;
图6是本说明书一个实施例提供的一种语言模型训练方法的处理过程流程图;
图7是本说明书一个实施例提供的另一种语言模型训练方法的处理过程流程图;
图8是本说明书一个实施例提供的一种语言模型训练装置的结构示意图;
图9是本说明书一个实施例提供的一种文本预测装置的结构示意图;
图10是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
模板学习(prompt learning):通过定义好的模板(prompt),将下游任务转换为统一的完形填空形式,再通过掩码语言模型(MLM,Mask Language Model)将预训练和推理过程进行统一,进而提高推理预测效果的方法。
语言模型:通过海量无监督文本数据预训练产出的神经网络模型。
无监督预训练:预训练过程不依赖标注数据,只使用海量文本数据进行遮挡词预测的预训练方法。
在本说明书中,提供了一种语言模型训练方法,本说明书同时涉及一种文本预测方法,一种语言模型训练装置,一种文本预测装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
随着自然语言技术从预训练(pre-train)、微调(fine-tune)向模板调整(prompt-tune)的发展,业界也越来越多地将注意力放在底层模型的技术更新上。在文本处理场景,特别是在线对话机器人场景中的知识挖掘任务,存在多个相关的下游任务,而如何通过优化底层语言模型的效果,进而提高下游任务效果,就变得尤为重要。
目前,在自然语言处理中,从预训练语言模型出发,借助下游任务的标注数据进行fine-tune,产出属于某一个下游任务的模型,相关的模型包括:问答(QA,Query-Answer)匹配模型、QA负向模型,答案有效性判断模型,问题补全模型等等。而在线对话机器人场景下的知识挖掘任务面对的数据源比较复杂,通常需要多个算法模型互相配合,才能产出比较理想的结果。互相配合是指各个任务组成一条处理链路(pipeline),比如先做QA匹配获得候选QA对,再做问题-问题(QQ,Query-Query)匹配,将问题文本聚类,最后进行QA负向识别,过滤处理结果,去除QA中的负向情绪,如辱骂等。如此多的模型,如果每一个都通过pre-train,fine-tune的方式实现,不光每一个任务都需要大量的标注数据,人工标注成本极高,而且,多个模型的效果评估,发布部署,优化更新等开发成本会成倍上涨。因此,亟需一种高效、普适性高且成本低的模型训练方案。
为了提高模型的训练效率以及模型普适性,降低模型的维护成本,本说明书提供了一种语言模型训练方法,通过自定义的prompt以及海量的无监督对话数据进行模型训练,不仅实现了训练、预测过程的统一,同时,实现了多个下游任务模型的统一。并且,在其他任务上不需要依赖人工标注数据,就能达到不错的预测效果。
具体地,获取第一样本集,其中,第一样本集包括多组样本文本对;利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;对各转换样本文本进行掩码处理,获得多个掩码样本文本;利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。通过利用引导模板对多组样本文本对统一进行格式转换,使得模型可以兼顾多种格式的样本文本对,提高模型的训练效率以及模型普适性,降低模型的维护成本。
参见图1,图1示出了本说明书一个实施例提供的一种语言模型训练系统的框架图,其中,语言模型训练系统包括服务端和客户端;
客户端:向服务端发送第一样本集,其中,第一样本集包括多组样本文本对;
服务端:获取第一样本集,其中,第一样本集包括多组样本文本对;利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;对各转换样本文本进行掩码处理,获得多个掩码样本文本;利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型;将预训练语言模型发送至客户端;
客户端:接收服务端发送的预训练语言模型。
应用本说明书实施例的方案,获取第一样本集,其中,第一样本集包括多组样本文本对;利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;对各转换样本文本进行掩码处理,获得多个掩码样本文本;利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。通过利用引导模板对多组样本文本对统一进行格式转换,使得模型可以兼顾多种格式的样本文本对,提高模型的训练效率以及模型普适性,降低模型的维护成本。
参见图2,图2示出了本说明书一个实施例提供的另一种语言模型训练系统的框架图,该系统可以包括服务端100以及多个客户端200。多个客户端200之间通过服务端100可以建立通信连接,在在线对话场景中,服务端100即用来在多个客户端200之间提供辅助服务,多个客户端200可以分别作为发送端或接收端,通过服务端100实现实时通信。
用户通过客户端200可与服务端100进行交互以接收其它客户端200发送的数据,或将数据发送至其它客户端200等。在在线交互场景中,可以是用户通过客户端200向服务端100发布数据流,服务端100根据该数据流训练获得预训练语言模型,并将该预训练语言模型推送至其他建立通信的其他客户端中。
其中,客户端200与服务端100之间通过网络建立连接。网络为客户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端200所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端100。
客户端200可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端200可以基于服务端提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real TimeCommunication)SDK开发获得等。客户端200可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端100可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。
需要说明的是,服务端100可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的语言模型训练方法一般由服务端执行,但是,在本说明书的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的语言模型训练方法。在其它实施例中,本说明书实施例所提供的语言模型训练方法还可以是由客户端与服务端共同执行。
参见图3,图3示出了本说明书一个实施例提供的一种语言模型训练方法的流程图,具体包括以下步骤:
步骤302:获取第一样本集,其中,第一样本集包括多组样本文本对。
本说明书一个或多个实施例中,可以通过多个下游任务的样本数据,对掩码语言模型进行训练,获得预训练语言模型,训练完成后,预训练语言模型可以对多个下游任务进行统一,提高预训练语言模型的普适性和训练效率。
具体地,多个下游任务的样本数据也即多组样本文本对。对多个下游任务进行统一是指将不同下游任务的样本数据利用自定义的模板转换成格式统一的转换样本文本,送入掩码语言模型进行训练。样本文本对是指以成对(pair)方式存在的文本数据。多个下游任务包括但不限于问答匹配、答案有效性判断,问题补全。样本文本对包括但不限对话文本对、评论文本对、描述文本对等,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
需要说明的是,在训练掩码语言模型时,需要获取包括多组样本文本对的第一样本集,一般情况下,获取第一样本集的方式可以是人工输入大量样本文本对组成第一样本集,也可以是从其他数据获取设备或者数据库中读取大量样本文本对组成第一样本集,获取第一样本集的方式具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
示例性地,获取第一样本集,第一样本集中包括三组样本文本对,这三组样本文本对分别为从电商对话中获得的样本文本对1“贵店有止逆阀的链接吗?-非常抱歉的说,咱家现在暂时没有的哦”、从评论中获得的样本文本对2“这首歌好好听!-我觉得一点也不好听!”、从商品详情页获得的样本文本对3“网状鞋面。-透气舒适,解放双脚。”。
步骤304:利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本。
本说明书一个或多个实施例中,在获取第一样本集之后,由于第一样本集中包括多组样本文本对,为了使得掩码语言模型能够理解样本文本对,可以采用模板变换的方法对样本文本对进行处理,也即利用引导模板,对第一样本集中包括的多组样本文本对进行格式转换,获得符合引导模板对应的文本格式的多个转换样本文本。
具体地,引导模板用于对各样本文本对进行格式转换,引导模板对应的文本格式可以是自然语言格式,当然还可以是其他格式,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
示例性地,样本文本对为“贵店有止逆阀的链接吗?-非常抱歉的说,咱家现在暂时没有的哦”,获取引导模板为“问题:。答案:。”,利用引导模板,对样本文本对进行格式转换,将样本文本对转换为纯自然语言的通用形式,获得符合引导模板对应的文本格式的转换样本文本为“问题:贵店有止逆阀的链接吗。答案:非常抱歉的说,咱家现在暂时没有的哦。”。进一步地,引导模板还可以为“query:。Answer:。”、“问题是。答案是。”、“Query is andanswer is”等等,引导模板具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
本说明书一种可选的实现方式中,由于第一样本集中包括多组样本文本对,并不是所有样本文本对都是问答类型,因此,可以根据各样本文本对的文本类型,确定各样本文本对对应的引导模板,也即,上述利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本的步骤之前,还可以包括以下步骤:
识别各样本文本对的文本类型;
根据各样本文本对的文本类型,确定各样本文本对对应的引导模板;
利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本的步骤,包括:
利用各样本文本对对应的引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本。
本说明书实施例中,识别各样本文本对的文本类型的方式,可以是获取预设类型词表,将各样本文本对和预设类型词表进行匹配,确定各样本文本对的文本类型。还可以利用文本类型识别模型,确定各样本文本对的文本类型。
在获得各样本文本对的文本类型之后,可以直接将文本类型对应的引导模板确定为样本文本对对应的引导模板,进一步地,若文本类型对应的引导模板有多个,则可以在多个引导模板中随机选择一个引导模板,或者向客户端展示该文本类型对应的多个引导模板,接收客户端针对多个引导模板的选择指令,确定样本文本对对应的引导模板。
在确定各样本文本对对应的引导模板之后,可以分别利用各样本文本对各自对应的引导模板,对各样本文本对进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本。
示例性地,假设预设类型词表中包括“问答类型对应的关键词包括:请问、有...吗?”,将样本文本对1“贵店有止逆阀的链接吗?-非常抱歉的说,咱家现在暂时没有的哦”与预设类型词表进行匹配,确定该样本文本对的文本类型为“问答类型”。利用文本类型识别模型,确定样本文本对2“这首歌好好听!-我觉得一点也不好听!”的文本类型为“评论类型”。根据问答类型,确定样本文本对1对应的引导模板1为“问题:。答案:。”,根据评论类型确定样本文本对2对应的引导模板2为“原文本:。评论文本:。”。进一步地,确定样本文本对1对应的转换样本文本1为“问题:贵店有止逆阀的链接吗。答案:非常抱歉的说,咱家现在暂时没有的哦。”,确定样本文本对2对应的转换样本文本2为“原文本:这首歌好好听。评论文本:我觉得一点也不好听。”。
应用本说明书实施例的方案,识别各样本文本对的文本类型,根据文本类型,确定各样本文本对对应的引导模板,实现了不同文本类型的样本文本对对应不同的引导模板,使得可以根据样本文本对有针对性地进行格式转换,降低转换样本文本与样本文本对之间的差异,保证训练数据的真实性,进一步提高预训练语言模型的准确性。
本说明书一种可选的实现方式中,由于样本文本对包括两个子文本,因此,在确定引导模板之后,可以将这两个子文本填充至引导模板的槽位中,实现将样本文本对转换成符合引导模板对应文本格式的转换样本文本。也即,引导模板包括第一子模板和第二子模板;上述利用各样本文本对对应的引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本的步骤,可以包括以下步骤:
识别各样本文本对的文本属性,确定各样本文本对中的具有第一文本属性的第一子文本和具有第二文本属性的第二子文本;
将第一子文本填充至第一子模板,并将第二子文本填充至第二子模板,获得符合引导模板对应文本格式的多个转换样本文本。
本说明书实施例中,由于样本文本对中包括两个子文本,这两个子文本的文本属性是不同的,因此,可以对样本文本对的文本属性进行识别,确定文本属性不同的第一子文本和第二子文本,并将第一子文本和第二子文本填充至引导模板中与文本属性对应的子模板中,获得转换样本文本。
实际应用中,识别各样本文本对的文本属性的方式,可以是获取预设属性词表,将各样本文本对和预设类型词表进行匹配,分别确定各样本文本对中两个子文本的文本属性,获得具有第一文本属性的第一子文本和具有第二文本属性的第二子文本。还可以利用文本属性识别模型,确定各样本文本对的文本属性。
在确定样本文本对中具有第一文本属性的第一子文本和具有第二文本属性的第二子文本之后,可以确定引导模板中第一文本属性对应的第一子模板和第二文本属性对应的第二子模板,直接将第一子文本填充至第一子模板,并将第二子文本填充至第二子模板,获得填充后的第一子模板和填充后的第二子模板,根据引导模板的文本格式,将第一子模板和第二子模板进行文本拼接,获得符合引导模板对应文本格式的多个转换样本文本。
应用本说明书实施例的方案,识别各样本文本对的文本属性,确定各样本文本对中的具有第一文本属性的第一子文本和具有第二文本属性的第二子文本,将第一子文本填充至第一子模板,并将第二子文本填充至第二子模板,获得符合引导模板对应文本格式的多个转换样本文本,统一多组样本文本对的格式,使得预训练语言模型能够统一多个下游任务,提高了模型的普适性。
以文本类型包括问答类型,引导模板包括问题子模板和答案子模板为例,上述利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本的步骤,可以包括以下步骤:
识别各样本文本对的文本属性,确定各样本文本对中的问题文本以及答案文本;
将问题文本填充至问题子模板,并将答案文本填充至答案子模板,获得符合引导模板对应文本格式的多个转换样本文本。
具体地,假设样本文本对为“贵店有止逆阀的链接吗?-非常抱歉的说,咱家现在暂时没有的哦”,该样本文本对对应的引导模板为“问题:。答案:。”。利用文本属性识别模型识别样本文本对的文本属性,获得第一文本属性“问题文本”对应的第一子文本为“贵店有止逆阀的链接吗?”,获得第二文本属性“答案文本”对应的第二子文本为“非常抱歉的说,咱家现在暂时没有的哦”。确定引导模板中第一文本属性对应的问题子模板为“问题:。”,第二文本属性对应的答案子模板为“答案:。”,将问题文本填充至问题子模板,并将答案文本填充至答案子模板,获得填充后的问题子模板为“问题:贵店有止逆阀的链接吗。”,填充后的答案子模板为“答案:非常抱歉的说,咱家现在暂时没有的哦。”,将填充后的问题子模板和答案子模板按照引导模板的文本格式进行合并,确定获得符合引导模板对应文本格式的转换样本文本“问题:贵店有止逆阀的链接吗。答案:非常抱歉的说,咱家现在暂时没有的哦。”。
应用本说明书实施例的方案,识别各样本文本对的文本属性,确定各样本文本对中的问题文本以及答案文本,将问题文本填充至问题子模板,并将答案文本填充至答案子模板,获得符合引导模板对应文本格式的多个转换样本文本,统一问答类型的多组样本文本对的格式,使得预训练语言模型能够统一多个下游任务,提高了模型的普适性。
步骤306:对各转换样本文本进行掩码处理,获得多个掩码样本文本。
本说明书一个或多个实施例中,获取第一样本集,其中,第一样本集包括多组样本文本对,利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本之后,进一步地,可以对各转换样本文本进行掩码处理,获得多个掩码样本文本。
具体地,掩码处理是指将转换样本文本中的字符替换成其他字符,以使原来的字符被掩盖的过程。
实际应用中,对各转换样本文本进行掩码处理,获得多个掩码样本文本的过程可以是随机选择转换样本文本中15%的字符(token),然后再将这些字符以80%的概率用掩码字符(MASK)替换掉,10%的概率用预设的掩码字符表中的其余字符替换,还有10%的概率保持不变,然后将这15%的字符(token)的位置记录下来,其中,掩码字符表中包括但不限于MASK、COVER、HIDE。
进一步地,由于样本文本对包括两个子文本,因此,可以对这两个子文本等概率掩码,也即,引导模板包括第一子模板和第二子模板;上述对各转换样本文本进行掩码处理,获得多个掩码样本文本的步骤,可以包括以下步骤:
根据第一子模板和第二子模板,分别确定各转换样本文本中,与第一子模板对应的第一转换样本子文本,以及与第二子模板对应的第二转换样本子文本;
按照预设掩码比例,分别对第一转换样本子文本和第二转换样本子文本进行掩码,获得多个掩码样本文本。
本说明书实施例中,根据第一子模板和第二子模板,确定转换样本文本中,与第一子模板对应的第一转换样本子文本,以及与第二子模板对应的第二转换样本子文本的方式,可以是将转换样本文本和分别和第一子模板和第二子模板进行匹配,确定第一转换样本子文本和第二转换样本子文本。在确定第一转换样本子文本和第二转换样本子文本之后,获取预设掩码比例,例如15%,按照预设掩码比例,对第一转换样本子文本和第二转换样本子文本分别进行等概率掩码,获得掩码样本文本。
示例性地,假设转换样本文本为“问题:贵店有止逆阀的链接吗。答案:非常抱歉的说,咱家现在暂时没有的哦。”,引导模板为“问题:。答案:。”,其中,引导模板中的第一子模板为“问题:。”,第二子模板为“答案:。”,将转换样本文本分别和第一子模板和第二子模板进行匹配,确定第一转换样本子文本为“问题:贵店有止逆阀的链接吗。”,第二转换样本子文本为“答案:非常抱歉的说,咱家现在暂时没有的哦。”,按照预设掩码比例,分别对第一转换样本子文本和第二转换样本子文本进行掩码,获得掩码样本文本“问题:贵店有止[MASK1]阀的链接吗。答案:非常[MASK2]的说,咱家现在暂时没有的哦。”。
应用本说明书实施例的方案,根据第一子模板和第二子模板,分别确定各转换样本文本中,与第一子模板对应的第一转换样本子文本,以及与第二子模板对应的第二转换样本子文本,按照预设掩码比例,分别对第一转换样本子文本和第二转换样本子文本进行掩码,获得多个掩码样本文本,使得模型训练过程中,考虑到样本文本对中包括的两个子文本,提高模型的准确性。
步骤308:利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。
本说明书一个或多个实施例中,获取第一样本集,利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本,对各转换样本文本进行掩码处理,获得多个掩码样本文本之后,进一步地,可以利用多个掩码样本文本,对掩码语言模型进行训练获得预训练语言模型。
应用本说明书实施例的方案,获取第一样本集,其中,第一样本集包括多组样本文本对;利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;对各转换样本文本进行掩码处理,获得多个掩码样本文本;利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。通过利用引导模板对多组样本文本对统一进行格式转换,使得模型可以兼顾多种格式的样本文本对,提高模型的训练效率以及模型普适性,降低模型的维护成本。
实际应用中,可以将多个掩码样本文本输入掩码语言模型中,对掩码样本文本中被掩码位置的字符进行预测,并计算被掩码位置的预测结果和被掩码位置的原始字符之间的损失值,根据损失值反向调整掩码语言模型的模型参数,直至达到第一训练停止条件的情况下,获得完成训练的预训练语言模型。也即,上述利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型的步骤,可以包括以下步骤:
提取第一掩码样本文本,其中,第一掩码样本文本为多个掩码样本文本中的任一个;
将第一掩码样本文本输入掩码语言模型,获得第一掩码样本文本中被掩码位置的第一预测结果;
根据第一预测结果和第一掩码样本文本中被掩码位置的原始字符,计算获得第一损失值;
基于第一损失值,调整掩码语言模型的模型参数,并返回执行提取第一掩码样本文本的步骤;
在达到第一训练停止条件的情况下,获得完成训练的预训练语言模型。
本说明书一种可能的实现方式中,第一训练停止条件包括第一损失值小于或等于第一预设阈值。将第一掩码样本文本输入掩码语言模型,获得第一掩码样本文本中被掩码位置的第一预测结果,在得到第一预测结果后,根据第一预测结果和第一掩码样本文本中被掩码位置的原始字符,计算获得第一损失值,将第一损失值与第一预设阈值进行比较。
具体地,若第一损失值大于第一预设阈值,则说明第一预测结果与第一掩码样本文本中被掩码位置的原始字符的差异较大,掩码语言模型对于第一掩码样本文本的预测能力较差,此时可以调整掩码语言模型的模型参数,并返回执行提取第一掩码样本文本的步骤,继续对掩码语言模型进行训练,直至第一损失值小于或等于第一预设阈值,说明第一预测结果与第一掩码样本文本中被掩码位置的原始字符的差异较小,达到第一训练停止条件,获得完成训练的预训练语言模型。
应用说明书实施例的方案,根据第一预测结果和第一掩码样本文本中被掩码位置的原始字符,计算获得第一损失值,将第一损失值与第一预设阈值进行比较,在大于第一预设阈值的情况下继续训练掩码语言模型,直至第一损失值小于或等于第一预设阈值的情况下完成预训练,通过不断对掩码语言模型的模型参数进行调整,能使最终得到的预训练语言模型更加精准。
本说明书另一种可能的实现方式中,除了比较第一损失值和第一预设阈值的大小关系之外,还可以结合迭代次数,确定当前的掩码语言模型是否训练完成。
具体地,若第一损失值大于第一预设阈值,则调整掩码语言模型的模型参数,并返回执行提取第一掩码样本文本的步骤,继续对掩码语言模型进行训练,直至达到第一预设迭代次数的情况下,停止迭代,得到完成训练的预训练语言模型,其中,第一预设阈值和第一预设迭代次数具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
实际应用中,计算第一损失值的函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,在本申请中,不对计算损失值的函数做限定。
优选地,可以利用交叉熵损失函数计算第一损失值,通过利用交叉熵损失函数,计算第一预测结果和第一掩码样本文本中被掩码位置的原始字符的交叉熵作为第一损失值,提高了计算第一损失值的效率,从而提高了模型的训练效率。
值得说明的是,掩码样本文本中被掩码位置可能是一个,也可能是多个,在被掩码位置为多个的情况下,可以分别获取各掩码位置处原始字符对应的权重,基于该权重,计算第一损失值,也即,上述根据第一预测结果和第一掩码样本文本中被掩码位置的原始字符,计算获得第一损失值的步骤,可以包括以下步骤:
在被掩码位置为多个的情况下,分别获取被掩码位置的原始字符对应的权重;
根据第一预测结果、第一掩码样本文本中被掩码位置的原始字符以及权重,计算获得第一损失值。
具体地,如果被掩码的字符的集合为M,可以利用负对数似然函数计算第一损失值。若被掩码位置的原始字符对应的权重相同,则表示每个被掩码的字符在模型训练过程中的贡献平等。
应用本说明书实施例的方案,在被掩码位置为多个的情况下,分别获取被掩码位置的原始字符对应的权重,根据第一预测结果、第一掩码样本文本中被掩码位置的原始字符以及权重,计算获得第一损失值,根据实际训练需求设置对应的权重,使得训练得到的模型更加准确。
本说明书一种可选的实现方式中,获得预训练语言模型之后,该预训练语言模型可以视为知识挖掘场景中的一种底座模型,进一步地,可以获取对应场景下的具体样本文本对对该预训练语言模型进行训练,获得符合一定任务的模型。也即,上述利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型的步骤之后,还可以包括以下步骤:
获取第二样本集,其中,第二样本集包括多组电商对话文本;
利用引导模板,对各电商对话文本分别进行格式转换,获得符合引导模板对应文本格式的多个转换电商文本;
对各转换电商文本进行掩码处理,获得多个掩码电商文本;
利用多个掩码电商文本,对预训练语言模型进行训练,获得电商对话模型。
具体地,电商对话文本为电商场景中的文本对,如商品介绍文本对、商品咨询文本对、商品评价文本对等等,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
本说明书实施例中,获取第二样本集的方式与步骤302相同,利用引导模板,对各电商对话文本分别进行格式转换,获得符合引导模板对应文本格式的多个转换电商文本的方式与步骤304相同,对各转换电商文本进行掩码处理,获得多个掩码电商文本的方式与步骤306相同,利用多个掩码电商文本,对预训练语言模型进行训练,获得电商对话模型的方式与步骤308相同,本实施例便不再进行赘述。
应用本说明书实施例的方案,获取包括多组电商对话文本的第二样本集,利用多组电商对话文本训练预训练语言模型,获得应用于电商场景的电商对话模型,使得模型更加具有场景针对性,提高在电商场景中,模型的准确性。
进一步地,在利用多组电商对话文本训练预训练语言模型,获得电商对话模型之后,该电商对话模型可以处理电商对话场景中的文本,获得对应的处理结果,也即,上述利用多个掩码电商文本,对预训练语言模型进行训练,获得电商对话模型的步骤之后,还可以包括以下步骤:
获取咨询文本;
将咨询文本输入电商对话模型中,获得针对咨询文本的咨询结果。
具体地,咨询文本为针对电商场景中的咨询文本,该咨询文本的咨询对象可以是商品、服务等等,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
示例性地,获取咨询文本为“请问蓝牙耳机能修吗?”,将该咨询文本输入电商对话模型中,即可获得针对该咨询文本的咨询结果“非常抱歉的说,本店暂不提供维修服务”。
应用本说明书实施例的方案,获取咨询文本,将咨询文本输入精准的电商对话模型中,获得针对咨询文本的咨询结果,提高了咨询效率以及咨询结果的准确性。
参见图4,图4示出了本说明书一个实施例提供的一种文本预测方法的流程图,具体包括以下步骤:
步骤402:获取源文本。
步骤404:将源文本输入文本预测模型,得到针对源文本的预测结果,其中,文本预测模型为基于预测任务类型,对如上述语言模型训练方法训练得到的预训练语言模型进行训练得到。
具体地,源文本为待预测的文本,具体根据预测任务类型进行设置,本说明书实施例对此不作任何限定。本说明书实施例中,以源文本为待校正文本为例,将待校正文本输入文本预测模型,得到针对该待校正文本的预测结果,进一步地,可以根据该预测结果,对待校正文本进行校正。源文本还可以是问题文本,将问题文本输入文本预测模型,即可获得针对问题文本的预测答案。当然,源文本还可以是待分析文本,将待分析文本输入文本预测模型,即可得到针对待分析文本的情感文本、主旨文本等等。
示例性地,参见图5,图5示出了本说明书一个实施例提供的一种文本预测界面的示意图。用户在文本预测界面中的输入框输入“请问有贵店有双棉胶吗”,操作“确定”控件,服务端可以将获取该源文本,将该源文本输入文本预测模型,获得针对该源文本的预测结果为“棉-面”,并将该预测结果反馈至客户端,以使客户端在预测结果显示框显示该预测结果。进一步地,用户可以根据该预测结果,对源文本进行校正,确定校正后的源文本为“请问有贵店有双面胶吗”。
需要说明的是,用户对控件进行操作的方式包括点击、双击、触控、鼠标悬停、滑动、长按等任一方式,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
应用本说明书实施例的方案,获取源文本,将源文本输入文本预测模型,得到针对源文本的预测结果,其中,文本预测模型为基于预测任务类型,对如上述语言模型训练方法训练得到的预训练语言模型进行训练得到,使得获得的预测结果更加准确。
参见图6,图6示出了本说明书一个实施例提供的一种语言模型训练方法的处理过程流程图,具体包括以下步骤:
步骤602:获取第一样本集,其中,第一样本集包括多组样本文本对。
步骤604:识别各样本文本对的文本类型。
步骤606:根据各样本文本对的文本类型,确定各样本文本对对应的引导模板。
步骤608:识别各样本文本对的文本属性,确定各样本文本对中的具有第一文本属性的第一子文本和具有第二文本属性的第二子文本。
步骤610:将第一子文本填充至引导模板中的第一子模板,并将第二子文本填充至引导模板中的第二子模板,获得符合引导模板对应文本格式的多个转换样本文本。
步骤612:根据第一子模板和第二子模板,分别确定各转换样本文本中,与第一子模板对应的第一转换样本子文本,以及与第二子模板对应的第二转换样本子文本。
步骤614:按照预设掩码比例,分别对第一转换样本子文本和第二转换样本子文本进行掩码,获得多个掩码样本文本。
步骤616:利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。
应用说明书实施例的方案,通过利用引导模板对多组样本文本对统一进行格式转换,使得模型可以兼顾多种格式的样本文本对,提高模型的训练效率以及模型普适性,降低模型的维护成本。
参见图7,图7示出了本说明书一个实施例提供的另一种语言模型训练方法的处理过程流程图。
以样本文本对为“贵店有止逆阀的链接吗-非常抱歉的说。咱家现在暂时没有的哦。”,引导模板为“问题:。答案:。”为例:
利用引导模板,对样本文本对进行格式转换(prompt engineering),获得符合引导模板对应文本格式的转换样本文本“问题:贵店有止逆阀的链接吗。答案:非常抱歉的说。咱家现在暂时没有的哦。”。对转换样本文本进行掩码处理,获得掩码样本文本“[CLS]问题:贵店有止[MASK1]阀的链接吗。答案:非常[MASK2]的说。咱家现在暂时没有的哦。[SEP]”。其中,[CLS]标志放在第一个句子的首位,表示经过模型得到的表征向量可以用于后续的分类任务。[SEP]用于分开两个输入句子,例如输入句子A和B,可以在句子A,B后面增加[SEP]标志。
将掩码样本文本输入预训练语言模型(Pre-trained Language Model)中,通过多层tansformer的变换,进行模板调整(prompt-tune),获得[MASK1]位置处的特征向量(MASK1Embedding)以及[MASK2]位置处的特征向量(MASK2 Embedding)。进一步地,根据MASK1Embedding和MASK2 Embedding对词表中的词(vocab)进行预测,如[MASK1]位置处的正例为逆,负例为停,[MASK2]位置处的正例为抱歉,负例为愉快。正例和负例都是用来训练模型的,利用模型的预测值与数据的真实标签(正例为1,负例为0)进行损失函数计算,再通过反向传播,梯度下降调整模型参数,最终使模型的预测值接近真实标签。
需要说明的是,损失函数为掩码位置的交叉熵损失函数,预训练语言模型包括但不限于BERT、ALBERT、生成式预训练模型(GPT,Generative Pre-Training),具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
应用本说明书实施例的方案,将知识挖掘任务中的多个下游任务对应的模型进行统一,降低了模型的维护成本,并且,统一模型的训练和预测过程,预测过程更加贴近训练过程,使得最终的预测效果更好。
与上述语言模型训练方法实施例相对应,本说明书还提供了语言模型训练装置实施例,图8示出了本说明书一个实施例提供的一种语言模型训练装置的结构示意图。如图8所示,该装置包括:
第一获取模块802,被配置为获取第一样本集,其中,第一样本集包括多组样本文本对;
转换模块804,被配置为利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;
掩码模块806,被配置为对各转换样本文本进行掩码处理,获得多个掩码样本文本;
第一训练模块808,被配置为利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。
可选地,该装置还包括:识别模块,被配置为识别各样本文本对的文本类型;根据各样本文本对的文本类型,确定各样本文本对对应的引导模板;转换模块804,进一步被配置为利用各样本文本对对应的引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本。
可选地,引导模板包括第一子模板和第二子模板;转换模块804,进一步被配置为识别各样本文本对的文本属性,确定各样本文本对中的具有第一文本属性的第一子文本和具有第二文本属性的第二子文本;将第一子文本填充至第一子模板,并将第二子文本填充至第二子模板,获得符合引导模板对应文本格式的多个转换样本文本。
可选地,文本类型包括问答类型,引导模板包括问题子模板和答案子模板;转换模块804,进一步被配置为识别各样本文本对的文本属性,确定各样本文本对中的问题文本以及答案文本;将问题文本填充至问题子模板,并将答案文本填充至答案子模板,获得符合引导模板对应文本格式的多个转换样本文本。
可选地,引导模板包括第一子模板和第二子模板;掩码模块806,进一步被配置为根据第一子模板和第二子模板,分别确定各转换样本文本中,与第一子模板对应的第一转换样本子文本,以及与第二子模板对应的第二转换样本子文本;按照预设掩码比例,分别对第一转换样本子文本和第二转换样本子文本进行掩码,获得多个掩码样本文本。
可选地,第一训练模块808,进一步被配置为提取第一掩码样本文本,其中,第一掩码样本文本为多个掩码样本文本中的任一个;将第一掩码样本文本输入掩码语言模型,获得第一掩码样本文本中被掩码位置的第一预测结果;根据第一预测结果和第一掩码样本文本中被掩码位置的原始字符,计算获得第一损失值;基于第一损失值,调整掩码语言模型的模型参数,并返回执行提取第一掩码样本文本的步骤;在达到第一训练停止条件的情况下,获得完成训练的预训练语言模型。
可选地,第一训练模块808,进一步被配置为在被掩码位置为多个的情况下,分别获取被掩码位置的原始字符对应的权重;根据第一预测结果、第一掩码样本文本中被掩码位置的原始字符以及权重,计算获得第一损失值。
可选地,该装置还包括:第二训练模块,被配置为获取第二样本集,其中,第二样本集包括多组电商对话文本;利用引导模板,对各电商对话文本分别进行格式转换,获得符合引导模板对应文本格式的多个转换电商文本;对各转换电商文本进行掩码处理,获得多个掩码电商文本;利用多个掩码电商文本,对预训练语言模型进行训练,获得电商对话模型。
可选地,该装置还包括:获得模块,被配置为获取咨询文本;将咨询文本输入电商对话模型中,获得针对咨询文本的咨询结果。
应用本说明书实施例的方案,获取第一样本集,其中,第一样本集包括多组样本文本对;利用引导模板,对各样本文本对分别进行格式转换,获得符合引导模板对应文本格式的多个转换样本文本;对各转换样本文本进行掩码处理,获得多个掩码样本文本;利用多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。通过利用引导模板对多组样本文本对统一进行格式转换,使得模型可以兼顾多种格式的样本文本对,提高模型的训练效率以及模型普适性,降低模型的维护成本。
上述为本实施例的一种语言模型训练装置的示意性方案。需要说明的是,该语言模型训练装置的技术方案与上述的语言模型训练方法的技术方案属于同一构思,语言模型训练装置的技术方案未详细描述的细节内容,均可以参见上述语言模型训练方法的技术方案的描述。
与上述文本预测方法实施例相对应,本说明书还提供了文本预测装置实施例,图9示出了本说明书一个实施例提供的一种文本预测装置的结构示意图。如图9所示,该装置包括:
第二获取模块902,被配置为获取源文本;
输入模块904,被配置为将源文本输入文本预测模型,得到针对源文本的预测结果,其中,文本预测模型为基于预测任务类型,对如上述语言模型训练方法训练得到的预训练语言模型进行训练得到。
应用本说明书实施例的方案,获取源文本,将源文本输入文本预测模型,得到针对源文本的预测结果,其中,文本预测模型为基于预测任务类型,对如上述语言模型训练方法训练得到的预训练语言模型进行训练得到,使得获得的预测结果更加准确。
上述为本实施例的一种文本预测装置的示意性方案。需要说明的是,该文本预测装置的技术方案与上述的文本预测方法的技术方案属于同一构思,文本预测装置的技术方案未详细描述的细节内容,均可以参见上述文本预测方法的技术方案的描述。
图10示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接,数据库1050用于保存数据。
计算设备1000还包括接入设备1040,接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本说明书的一个实施例中,计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图10所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1000可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。
其中,处理器1020用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述语言模型训练方法或文本预测方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的语言模型训练方法或文本预测方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述语言模型训练方法或文本预测方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述语言模型训练方法或文本预测方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的语言模型训练方法或文本预测方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述语言模型训练方法或文本预测方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述语言模型训练方法或文本预测方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的语言模型训练方法或文本预测方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述语言模型训练方法或文本预测方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种语言模型训练方法,包括:
获取第一样本集,其中,所述第一样本集包括多组样本文本对;
利用引导模板,对各样本文本对分别进行格式转换,获得符合所述引导模板对应文本格式的多个转换样本文本;
对各转换样本文本进行掩码处理,获得多个掩码样本文本;
利用所述多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。
2.根据权利要求1所述的方法,所述利用引导模板,对各样本文本对分别进行格式转换,获得符合所述引导模板对应文本格式的多个转换样本文本的步骤之前,还包括:
识别所述各样本文本对的文本类型;
根据所述各样本文本对的文本类型,确定所述各样本文本对对应的引导模板;
所述利用引导模板,对各样本文本对分别进行格式转换,获得符合所述引导模板对应文本格式的多个转换样本文本的步骤,包括:
利用各样本文本对对应的引导模板,对所述各样本文本对分别进行格式转换,获得符合所述引导模板对应文本格式的多个转换样本文本。
3.根据权利要求2所述的方法,所述引导模板包括第一子模板和第二子模板;所述利用各样本文本对对应的引导模板,对所述各样本文本对分别进行格式转换,获得符合所述引导模板对应文本格式的多个转换样本文本的步骤,包括:
识别所述各样本文本对的文本属性,确定所述各样本文本对中具有第一文本属性的第一子文本和具有第二文本属性的第二子文本;
将所述第一子文本填充至所述第一子模板,并将所述第二子文本填充至所述第二子模板,获得符合所述引导模板对应文本格式的多个转换样本文本。
4.根据权利要求2所述的方法,所述文本类型包括问答类型,所述引导模板包括问题子模板和答案子模板;所述利用引导模板,对各样本文本对分别进行格式转换,获得符合所述引导模板对应文本格式的多个转换样本文本的步骤,包括:
识别所述各样本文本对的文本属性,确定所述各样本文本对中的问题文本以及答案文本;
将所述问题文本填充至所述问题子模板,并将所述答案文本填充至所述答案子模板,获得符合所述引导模板对应文本格式的多个转换样本文本。
5.根据权利要求1所述的方法,所述引导模板包括第一子模板和第二子模板;所述对各转换样本文本进行掩码处理,获得多个掩码样本文本的步骤,包括:
根据所述第一子模板和所述第二子模板,分别确定所述各转换样本文本中,与所述第一子模板对应的第一转换样本子文本,以及与所述第二子模板对应的第二转换样本子文本;
按照预设掩码比例,分别对所述第一转换样本子文本和所述第二转换样本子文本进行掩码,获得多个掩码样本文本。
6.根据权利要求1-5任一项所述的方法,所述利用所述多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型的步骤,包括:
提取第一掩码样本文本,其中,所述第一掩码样本文本为所述多个掩码样本文本中的任一个;
将所述第一掩码样本文本输入所述掩码语言模型,获得所述第一掩码样本文本中被掩码位置的第一预测结果;
根据所述第一预测结果和所述第一掩码样本文本中被掩码位置的原始字符,计算获得第一损失值;
基于所述第一损失值,调整所述掩码语言模型的模型参数,并返回执行所述提取第一掩码样本文本的步骤;
在达到第一训练停止条件的情况下,获得完成训练的预训练语言模型。
7.根据权利要求6所述的方法,所述根据所述第一预测结果和所述第一掩码样本文本中被掩码位置的原始字符,计算获得第一损失值的步骤,包括:
在所述被掩码位置为多个的情况下,分别获取所述被掩码位置的原始字符对应的权重;
根据所述第一预测结果、所述第一掩码样本文本中被掩码位置的原始字符以及所述权重,计算获得第一损失值。
8.根据权利要求1所述的方法,所述利用所述多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型的步骤之后,还包括:
获取第二样本集,其中,所述第二样本集包括多组电商对话文本;
利用引导模板,对各电商对话文本分别进行格式转换,获得符合所述引导模板对应文本格式的多个转换电商文本;
对各转换电商文本进行掩码处理,获得多个掩码电商文本;
利用所述多个掩码电商文本,对所述预训练语言模型进行训练,获得电商对话模型。
9.根据权利要求8所述的方法,所述利用所述多个掩码电商文本,对所述预训练语言模型进行训练,获得电商对话模型的步骤之后,还包括:
获取咨询文本;
将所述咨询文本输入所述电商对话模型中,获得针对所述咨询文本的咨询结果。
10.一种文本预测方法,包括:
获取源文本;
将所述源文本输入文本预测模型,得到针对所述源文本的预测结果,其中,所述文本预测模型为基于预测任务类型,对如权利要求1-7任一项所述方法训练得到的预训练语言模型进行训练得到。
11.一种语言模型训练装置,包括:
第一获取模块,被配置为获取第一样本集,其中,所述第一样本集包括多组样本文本对;
转换模块,被配置为利用引导模板,对各样本文本对分别进行格式转换,获得符合所述引导模板对应文本格式的多个转换样本文本;
掩码模块,被配置为对各转换样本文本进行掩码处理,获得多个掩码样本文本;
第一训练模块,被配置为利用所述多个掩码样本文本,对掩码语言模型进行训练,获得预训练语言模型。
12.一种文本预测装置,包括:
第二获取模块,被配置为获取源文本;
输入模块,被配置为将所述源文本输入文本预测模型,得到针对所述源文本的预测结果,其中,所述文本预测模型为基于预测任务类型,对如权利要求1-7任一项所述方法训练得到的预训练语言模型进行训练得到。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至9任意一项或者权利要求10所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至9任意一项或者权利要求10所述方法的步骤。
CN202211201583.5A 2022-09-29 2022-09-29 语言模型训练方法、文本预测方法以及装置 Pending CN115759001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211201583.5A CN115759001A (zh) 2022-09-29 2022-09-29 语言模型训练方法、文本预测方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211201583.5A CN115759001A (zh) 2022-09-29 2022-09-29 语言模型训练方法、文本预测方法以及装置

Publications (1)

Publication Number Publication Date
CN115759001A true CN115759001A (zh) 2023-03-07

Family

ID=85350607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211201583.5A Pending CN115759001A (zh) 2022-09-29 2022-09-29 语言模型训练方法、文本预测方法以及装置

Country Status (1)

Country Link
CN (1) CN115759001A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402164A (zh) * 2023-06-06 2023-07-07 之江实验室 基于预训练语言模型的机器人任务生成方法、装置及介质
CN117216220A (zh) * 2023-09-25 2023-12-12 福建实达集团股份有限公司 一种大语言模型的使用方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402164A (zh) * 2023-06-06 2023-07-07 之江实验室 基于预训练语言模型的机器人任务生成方法、装置及介质
CN116402164B (zh) * 2023-06-06 2023-09-05 之江实验室 基于预训练语言模型的机器人任务生成方法、装置及介质
CN117216220A (zh) * 2023-09-25 2023-12-12 福建实达集团股份有限公司 一种大语言模型的使用方法及装置

Similar Documents

Publication Publication Date Title
CN110555095B (zh) 人机对话方法和装置
CN111143535B (zh) 用于生成对话模型的方法和装置
CN115759001A (zh) 语言模型训练方法、文本预测方法以及装置
CN113127624B (zh) 问答模型的训练方法及装置
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN110781663A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN111428010A (zh) 人机智能问答的方法和装置
US20230029759A1 (en) Method of classifying utterance emotion in dialogue using word-level emotion embedding based on semi-supervised learning and long short-term memory model
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN111666416A (zh) 用于生成语义匹配模型的方法和装置
CN115391499A (zh) 生成多任务生成模型的方法、问答对生成方法和相关装置
CN117332072B (zh) 对话处理、语音摘要提取以及目标对话模型训练方法
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN116050405A (zh) 文本处理、问答文本处理及文本处理模型训练方法
CN111639162A (zh) 信息交互方法和装置、电子设备和存储介质
CN113988086A (zh) 对话处理方法及装置
CN116010581A (zh) 一种基于电网隐患排查场景的知识图谱问答方法及系统
CN112036954A (zh) 物品推荐方法和装置、计算机可读存储介质、电子设备
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN112801721B (zh) 信息处理方法、装置、电子设备及存储介质
CN116597866A (zh) 情绪识别的方法、装置、设备及存储介质
CN110633476B (zh) 用于获取知识标注信息的方法及装置
CN114913871A (zh) 目标对象分类方法、系统、电子设备及存储介质
CN114138947A (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination