CN116910549A - 模型训练方法、装置、计算机设备及存储介质 - Google Patents

模型训练方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN116910549A
CN116910549A CN202310879760.3A CN202310879760A CN116910549A CN 116910549 A CN116910549 A CN 116910549A CN 202310879760 A CN202310879760 A CN 202310879760A CN 116910549 A CN116910549 A CN 116910549A
Authority
CN
China
Prior art keywords
training
text
text data
model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310879760.3A
Other languages
English (en)
Inventor
何孝松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202310879760.3A priority Critical patent/CN116910549A/zh
Publication of CN116910549A publication Critical patent/CN116910549A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种模型训练方法、装置、计算机设备及存储介质,涉及人工智能技术领域。该方法包括:获取文本数据集,所述文本数据集中包括多条第一文本数据;针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集;利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。如此,针对任一条第一文本数据可以生成长度不同的多个第一训练文本,从而丰富了训练样本集,解决了预训练过程中的语料不足的问题,从而提高模型预训练的效果。

Description

模型训练方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练方法、装置、计算机设备及存储介质。
背景技术
随着人工智能技术的发展,许多应用领域利用人工智能模型实现问答对的自动化生成,以更好地为用户提供个性化服务,同时降低人工成本。从自然语言处理(naturelanguage processing,NLP)领域来说,往往会因为在模型预训练过程中,因训练预料的缺乏,导致得到的预训练模型的效果大打折扣。
发明内容
本申请提出了一种模型训练方法、装置、计算机设备及存储介质,以解决语料缺乏对模型预训练的影响。
第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:获取文本数据集,所述文本数据集中包括多条第一文本数据;针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集;利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。
第二方面,本申请实施例提供了一种模型训练装置,所述装置包括:文本数据获取模块,用于获取文本数据集,所述文本数据集中包括多条第一文本数据;训练样本获取模块,用于针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集;模型训练模块,用于利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。
第三方面,本申请实施例提供了一种计算机设备,包括:一个或多个处理器;存储器;一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。
本申请提供的方案中,获取文本数据集,所述文本数据集中包括多条第一文本数据;针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集;利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。如此,针对一条第一文本数据可以生成长度不同的多个第一训练样本,从而丰富了训练样本集,解决了预训练过程中的语料不足的问题,从而提高模型预训练的效果。同时,使得第一训练样本集中包含的第一训练文本的随机性更高,从而可以提升预训练得到的预训练模型针对不同长度序列的文本的语序特征的提取能力,即使得预训练模型具备更强的处理不同长度文本的能力,从而提高了针对初始语言模型的预训练的效果。同时,还能提高预训练模型在后续的各种下游训练任务中的表现能力。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的模型训练方法的流程示意图。
图2示出了图1中步骤S130在一种实施方式中的子步骤的流程示意图。
图3示出了本申请另一实施例提供的模型训练方法的流程示意图。
图4是根据本申请一实施例提供的一种模型训练装置的框图。
图5是本申请实施例的用于执行根据本申请实施例的模型训练方法的计算机设备的框图。
图6是本申请实施例的用于保存或者携带实现根据本申请实施例的模型训练方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如S110、S120等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。以及,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
发明人提出一种模型训练方法、装置、计算机设备及存储介质。下面对本申请实施例提供的模型训练方法进行详细描述。
请参照图1,图1为本申请一实施例提供的一种模型训练方法的流程示意图。下面将结合图1对本申请实施例提供的模型训练方法进行详细阐述。该模型训练方法可以包括以下步骤:
步骤S110:获取文本数据集,所述文本数据集中包括多条第一文本数据。
在本实施例中,文本数据集可以是从本地数据库中直接获取的大量文本数据的集合,也可以从通过有线或无线网络从网络数据库中下载所需的大量文本数据的集合,当然,其他的文本数据集获取方式也在本申请的保护范围内,在此不再具体进行限定。
其中,文本数据集可以至少包括简体中文、繁体中文、英文、日文、法文以及韩文等类型的文本中的至少一种,本实施例对此不作限制。
步骤S120:针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集。
在本实施例中,若待进行预训练的初始语言模型为传输文本到文本转换器(transfer text-to-text transformer,T5模型),对应地,上述目标掩蔽比例即为Corruption Rate。其中,多种目标掩蔽比例可以是从一个均匀分布的取值范围内任取的多个样本值,该均匀分布的取值范围可以表示为Corruption Rate~U(CR L,CRH);其中,U代表均匀分布,CRL和CRH为(0,1)之间的小数,并且CRH大于CRL,CRL代表目标掩蔽比例采样的下限,CRH代表目标掩蔽比例采样的上限。可以理解地,目标掩蔽比例采样的上下限的取值可以通过多次实践统计分析得来。
具体地,按照多种目标掩蔽比例进行掩蔽(mask)处理,可以理解为,针对每条所述第一文本数据中的文本内容,按照多种所述目标掩蔽比例筛选出部分文本内容,并对所述部分文本内容添加对应的掩码,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。
其中,mask可以用于构建张量的过滤器,可以通俗地理解为在原始张量上盖上一层掩膜,从而屏蔽或选择一些特定元素
示例性地,以第一文本数据为“Thank you for inviting me to your partylast week.”,多种目标掩蔽比例为30%、20%和50%,此时,则可以以第一文本数据中的单词为筛选单位,从第一文本数据汇中随机筛选出30%、20%和50%的单词,并对筛选出的单词添加对应的掩码,从而可以得到与第一文本数据对应的三条不同的第一训练文本,并将这三条不同的第一训练文本添加至第一训练样本集中。
例如,以30%的目标掩蔽比例进行掩蔽处理后,得到的第一训练样本可以表示为“Thank you<X>me to your party<Y>week.”。可见,第一文本数据中的“for inviting”以及“last”即为被筛选出来的部分文本内容,<X>可以看作为针对“for inviting”这部分文本内容添加的掩码,<Y>则可以看作为针对“last”这部分文本内容提添加的对应的掩码。可以通俗地理解,通过<X>和<Y>来屏蔽被筛选出的部分文本内容。
例如,以20%的目标掩蔽比例进行掩蔽处理后,得到的第一训练样本可以表示为“Thank you for inviting me to<Z>last week.”。
例如,以50%的目标掩蔽比例进行掩蔽处理后,得到的第一训练样本可以表示为“Thank you<A>me to<B>last<C>.”。
显然,针对一条第一文本数据按照多种目标掩蔽比例来构造出多种文本序列长度不同的第一训练文本,即使针对包含的文本数量较少的文本数据集,也能构建出序列长度随机且数量较多的第一训练样本集。
步骤S130:利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。
其中,第一训练样本集中包含的每个第一训练样本不携带标签信息,对初始语言模型进行的预训练为自监督训练。
在一些实施方式中,所述初始语言模型包括编码模块以及解码模块,请参阅图2,步骤S130可以包括以下步骤S131至步骤S134中的内容:
步骤S131:利用所述编码模块对所述第一训练文本进行编码,得到文本编码结果。
在该实施方式中,编码模块于对输入至初始语言模型的第一训练文本进行特征提取以获得特征向量,作为上述文本编码结果。
步骤S132:利用所述解码模块对所述文本编码结果进行解码,得到被掩蔽处理的文本内容的还原文本结果。
进一步地,由解码模块对编码模块提取的特征向量进行特征还原,以获得还原结果,即得到被掩蔽处理的文本内容。
步骤S133:根据所述还原文本结果与所述第一训练文本之间的差异程度,确定目标损失值。
以第一训练文本为“Thank you<X>me to your party<Y>week.”为例,掩码<X>掩蔽了文本内容“for inviting”,掩码<Y>掩蔽了文本内容“last”。前述还原文本结果即针对<X>和<Y>进行还原。此时,<X>和<Y>掩蔽的文本内容可以看作为伪标签,通过比较还原文本结果与第一训练文本对应的伪标签的差异程度,来确定目标损失值。其中,该伪标签也可以理解为模型需要输出的Targets,其格式可以但不限于为“<X>for inviting<Y>last<Z>”
在一些实施方式中,考虑到针对有编码模块和解码模块构成的初始语言模型会存在生成重复问题,可以基于所述还原文本结果中的文本重复程度,以及所述还原文本结果与所述第一训练文本之间的差异程度,确定所述目标损失值。
具体地,通过引入非似然损失函数(Unlikelihood Loss)至预训练阶段,以减少已经生成的token在当前时间不生成的概率,以达到缓解无意义的重复生成的现象。前述非似然损失函数可以通过以下公式表示:
其中,Ct可以理解为当前词之前生成而其他词(不包括当前词),可以看作为unlikelihood部分,用于获取还原文本结果中的文本重复程度,,即用于让初始语言模型学习预测原理Ct中的token,从而让不正确的词重复变得更少以及让频繁出现的词变得更少。-logpθ(xt|x<t)可以看作为likelihood部分,用于通过反向传播让初始语言模型学习预测更接近生成目标。α用于控制unlikelihood的比例,其具体取值可以是预先设置的,具体使用何数值可以根据实际应用需求自行设置。
由于在预训练阶段引入了unlikelihood Loss,意味着对预训练模型引入一种减少已生成token的概率归纳偏执,不仅能赋予预训练模型缓解重复生成现象的能力(且此种能力在下游微调的时候也依旧具备),还能在预训练阶段引入更多无监督信号从而提高数据利用率。
步骤S134:根据所述目标损失值,对所述编码模块以及所述解码模块的参数进行调整,直至满足所述第一训练条件,得到所述预训练模型。
进一步地,在获取到目标损失值之后,即可对编码模块以及解码模块的参数进行迭代调整,直至满足第一训练条件,从而得到预训练模型。
其中,第一训练条件可以为:目标损失值小于预设值、目标损失值不再变化、或者训练次数达到预设次数等。可以理解的,在根据第一训练样本集对初始语言模型进行多个训练周期的迭代训练后,其中,每个训练周期包括多次的迭代训练,不断对初始语言模型中的参数以及初始特征进行优化,使得上述目标损失值越来越小,最后变小为一个固定值,或者小于以上预设值,此时,则表示初始语言模型已收敛;当然也可以是在训练次数达到预设次数后,确定初始语言模型已经收敛,此时,则可以将初始语言模型作为上述预训练模型。其中,预设值以及预设次数均为预先设置的,也可以根据不同的应用场景对其数值进行调整,本实施例对此不作限制。
在另一些实施方式中,可以不预先针对文本数据集生成对应的第一训练样本集,可以在对初始语言模型的预训练过程中,调用文本数据集中的任一条第一文本数据时,临时利用前述步骤S120来生成任一条第一文本数据对应的多个第一训练文本,并将临时生成的第一训练文本输入至初始语言模型进行预训练。
在本实施例中,利用多种目标掩蔽比例,对文本数据集中的每条第一文本数据进行掩蔽处理,从而得到与每条第一文本数据对应的不同序列长度的多个第一训练样本,作为第一训练样本集。如此,使得第一训练样本集中包含的第一训练文本的随机性更高,从而可以提升预训练得到的预训练模型针对不同长度序列的文本的语序特征的提取能力,即使得预训练模型具备更强的处理不同长度文本的能力,从而提高了针对初始语言模型的预训练的效果。同时,还能提高预训练模型在后续的各种下游训练任务中的表现能力。
请参照图3,图3为本申请另一实施例提供的一种模型训练方法的流程示意图。下面将结合图3对本申请实施例提供的模型训练方法进行详细阐述。该模型训练方法可以包括以下步骤:
步骤S210:获取文本数据集,所述文本数据集中包括多条第一文本数据。
在本实施例中,文本数据集可以包括不同领域的大量的文本数据,例如,金融领域、医疗领域、教育领域以及计算机领域等,如此,基于多种领域的文本数据集构建的第一训练样本集进行初始语言模型的预训练,可以提高最终得到的预训练模型的普适性,以及使得预训练模型可以对不同领域的文本均能较好地提取其语序特征。
在一些实施方式中,为提高预训练模型对某特定领域的文本的特征提取能力。可以针对特定领域进行初始语言模型的预训练,基于此,则可以获取目标领域(即特定领域)的文本数据集,作为用于构建第一训练样本集中文本数据集。
步骤S220:针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例以及多种平均掩蔽长度进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。
在本实施例中,为进一步提高构造的第一训练样本集中第一训练样本的随机性,可以针对每条第一文本数据中的文本内容,按照多种目标掩蔽比例以及多种平均掩蔽长度进行掩蔽处理,得到每条第一文本数据对应的多个第一训练文本,作为第一训练样本集。
可选地,针对每条第一文本数据中的文本内容,按照多种目标掩蔽比例以及同一平均掩蔽长度进行掩蔽处理,得到每条第一文本数据对应的多个第一训练文本,作为第一训练样本集。
可选地,针对每条第一文本数据中的文本内容,按照同种目标掩蔽比例以及多种平均掩蔽长度进行掩蔽处理,得到每条第一文本数据对应的多个第一训练文本,作为第一训练样本集。
其中,初始语言模型为T5模型,上述平均掩蔽长度则可以为Corruption SpanLength。其中,多种平均掩蔽长度可以是从一个均匀分布的取值范围内任取的多个样本值,该均匀分布的取值范围可以表示为Corruption Span Leng th~U(CSLL,CSLH);其中,U代表均匀分布,CSLL和CSLH为整数,并且CSLH大于CSLL,CSLL代表平均掩蔽长度采样的下限,CSLH代表平均掩蔽长度的上限。可以理解地,平均掩蔽长度采样的上下限的取值可以通过多次实践统计分析得来。
也就是说,针对第一文本数据中的文本内容,进行需要mask的部分文本内容的筛选时,同时根据目标掩蔽比例以及平均掩蔽长度进行筛选,即筛选出的部分文本内容的序列长度占第一文本数据的序列长度的比值与目标掩蔽比例的差值小于第一阈值,并且筛选出的部分文本内容被分成多个子部分,多个子部分的平均序列长度与平均掩蔽长度的差值小于第二阈值。
如此,通过多种目标掩蔽比例以及多种平均掩蔽长度来进行掩蔽处理,构建第一训练样本集,进一步提高了第一训练样本集中的第一训练文本的随机性格,同时也能进一步解决因文本数据集中所包含的第一文本数据缺乏造的第一训练样本集中样本缺乏的问题,即针对任一条第一文本数据均可以构造出更多种不同的第一训练文本,扩充了第一训练样本集中的样本数量,进而保证了后续基于第一训练样本集进行初始语言模型的预训练的效果。
在一些实施方式中,考虑到初始语言模型可能是针对某一目标领域进行针对性预训练的。因此,可以确定每条所述第一文本数据中与所述目标领域关联程度大于目标阈值的文本内容,作为每条所述第一文本数据中的目标文本内容。针对每条所述第一文本数据中的目标文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。如此,可以保证预训练得到的预训练模型可以准确地还原与目标关联的更为重要的文本内容。
在另一些实施方式中,还可以在目标掩蔽比例为50%的情况下,采用ReverseTraining。Reverse Training可以简单理解为在进行预训练之前,一条文本数据会被处理成Inputs和Targets,模型会以Inputs为输入,预测Targets。在这个过程中,只有模型的编码模块见到Inputs,只有解码模块见到Targets,数据的利用率并不高。考虑到Inputs和Targets的形式并无本质区别,如果能将Inputs和Targets反转,即以Targets为输入,预测Inputs,那么该文本数据的所有信息都被模型训练到,从而提高数据的利用率。也就是说,Targets可以看作为前面实施例提及的伪标签,即可以将伪标签的数据内容作为第一样本文本,将原本的第一样本文本的内容又作为伪标签,构建一个训练样本。在目标掩蔽比例为50%的情况下,基于同一目标掩蔽比例可以生成两个训练样本
步骤S230:利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。
在本实施例中,步骤S230的具体实施方式可以参阅前述实施例中的内容,在此不再赘述。
在另一些实施方式中,初始语言模型还可以为BART模型,BART也是一种序列到序列模型(Sequence to Sequence,seq2seq)的降噪预训练生成式模型,BART模型进行预训练的训练样本也需要对文本数据进行破坏,再用破坏后的文本回复原文本。而BART模型对文本数据进行训练样本集的构造策略中也包括,Token Masking和Token Deletion,同理,也可以运用前述实施例提及的通过将Token Masking的比例采样自一个均匀分布、TokenDeletion的个数采样自一个均匀分布,以此来最终构建的训练样本集中的样本文本的随机性,同时也在增加了训练样本集中训练样本的数量。
步骤S240:获取目标任务对应的第二训练样本集,所述第二训练样本集包括多个第二训练文本,每个第二训练文本携带有目标标签。
进一步地,在完成对初始语言模型的预训练,得到预训练模型之后,即可根据需要实现的目标任务,对该预训练模型进行微调训练,即可快速使得微调训练后的模型能够实现目标任务。换句话说,将预训练模型中编码模块和解码模块的参数作为微调训练的初始化参数值,如此,避免了需要利用大量有标签的样本进行模型训练,从而节省了人工标注成本,同时也可以提高对实现目标任务的模型的训练的效率。
其中,目标任务可以包括问句生成任务、文本分类任务、文本翻译任务、问句相关性任务、阅读理解任务和答案排序任务等任务中的至少一种。也就是说,可以直接利用预训练模型进行单任务的下游训练,也可以利用预训练模型进行多任务的下游训练。
在本实施中,获取目标任务对应的第二训练样本集可以是从本地数据库中直接获取的大,也可以从通过有线或无线网络从网络数据库中下载的合,当然,其他类型的获取方式也在本申请的保护范围内,在此不再具体进行限定。
其中,第二训练文本可以但不限于为以下格式“任务标识”+任务文本+目标标签,示例性地,“任务标识”可以是翻译任务“将中文翻译成英文”,任务文本即为待翻译的中文文本,目标标签即为待翻译的中文文本对应的英文译文。
步骤S250:根据第二训练样本集,对所述预训练模型进行有监督训练,直至满足第二训练条件,得到所述目标任务对应的目标模型。
基于此,可以利用第二训练样本集对预训练模型进行有监督训练,即将第二训练文本输入至预训练模型中,得到预训练模型生成的预测标签(即预测文本),在基于预测标签与目标标签之间的差异程度,确定第一损失值;并基于第一损失值,对预训练模型中的部分模型参数进行迭代优化,直至满足第二训练条件,即可得到目标任务对应的目标模型。
其中,第二训练条件可以为:第一损失值小于预设值、第一损失值不再变化、或者训练次数达到预设次数等。可以理解的,在根据第一训练样本集对预训练模型进行多个训练周期的迭代训练后,其中,每个训练周期包括多次的迭代训练,不断对预训练模型中的参数以及初始特征进行优化,使得上述第一损失值越来越小,最后变小为一个固定值,或者小于以上预设值,此时,则表示预训练模型已收敛;当然也可以是在训练次数达到预设次数后,确定预训练模型已经收敛,此时,则可以将预训练模型作为上述预训练模型。其中,预设值以及预设次数均为预先设置的,也可以根据不同的应用场景对其数值进行调整,本实施例对此不作限制。
本实施例的有监督训练也可以看作为针对预训练模型进行目标任务的微调训练,可以在微调训练过程中固定部分无需更新的网络参数,进对需要调整改的网络参数进行适应调整,从而避免整个预训练模型会产生灾难性遗忘的问题。从而达到,既能利用之前已经训练好的神经网络模型的训练带来的泛化提升,又能针对目标领域进行一定性的适应性的学习。同时,这种训练方式还可以节省在模型微调阶段的时间,因为相较于预训练模型的全参数更新,只更新预训练模型的部分参数所需训练更新时间更少。
通过一个典型的文本生成任务(广告文本生成:离散短文本->长文本)来验证本申请的模型训练方法的有效性,实验方法是使用不同策略的预训练模型,在下游任务上进行相同配置的微调,比较其ROUGE和BLEU值。测试结果如下表1:
表1
其中,动态噪声即为前述提及的通过多种目标掩蔽比例以及多种平均掩蔽长度来构建第一训练样本集的技术手段。可以看到在同样的设置下,加入Unlikelihood Loss对模型带来了大幅的效果提升,通过对比生成内容时发现,由于上述文本生成任务是一个data-to-text的任务,结果中存在大量的无意义重复现象,在预训练阶段引入UnlikelihoodLoss,模型在微调时依然保留了缓解重复现象的能力;同时,动态噪声的策略在不影响其他指标的同时,对于一种自动评价翻译文本的方法(a Method for Automatic Evaluationof Machine Translation,BLEU)值的提升比较关键。
BLEU的中心思想是和专业人工翻译越接近就越好。根据一个度量的数值来衡量机器翻译与一个或多个参考人工翻译的接近程度来判断机器翻译的质量。因此,机器翻译评价体系需要两个要素,一个“翻译接近度”数值指标和一个高质量的人工参考翻译语料库。ROUGEDE的中心思想是通过将模型生成的摘要或者回答与参考答案(一般是人工生成的)进行比较计算,得到对应的得分。ROUGE指标与BLEU指标非常类似,均可用来衡量生成结果和标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。
除此之外,还针对中文开放域话生成的应用,验证本申请的模型训练方法的有效性。并且与公开模型CDial-GPT(ALarge-scale Chinese Short-Text ConversationDataset and Chinese pre-training dialog models)进行了对比实验。具体的,实验涉及两个中文开放域对话生成数据集,LCCC(Large-scale Cleaned Chinese Conversation)数据集和STC(semi-tied covariance matrices)数据集,模型的输入加入了Speaker Token以及Role Embedding,学习目标为负对数似然损失(Negative Log-Likelihood Loss,NLLLoss),解码策略为Nucleus Sampling。为了更全面地进行模型对比,我们比较了两个模型在zero-shot(只使用LCCC进行继续预训练,在STC上进行测试)和fine-tune(使用LCCC进行继续预训练,同时使用STC进行fine-tune)时的效果。比对结果如下表2和表3:
表2zero-shot效果
表3fine-tune效果
其中,ppl是用在NLP领域衡量语言模型好坏的指标;Dist是用于度量生成文本的多样性。经过表2以及表3,可以看出使用本申请所述模型训练方法得到的预训练模型在中文开放域对话生成上,Fine-tune效果好于CDialog-GPT,并且,在Zero-shot上效果更为明显。
在本实施例中,通过多种目标掩蔽比例以及多种平均掩蔽长度进行掩蔽处理,来构建随机性更高的第一训练样本集,提高使得预训练模型具备更强的处理不同长度文本的能力,从而提高了针对初始语言模型的预训练的效果。并且,在预训练阶段引入Unlikelihood Loss,可赋予模型缓解重复生成现象的能力,在微调阶段依旧具备该能力不会被遗忘,无需每次在针对不同任务对预训练模型进行微调时,均需要引入UnlikelihoodLoss来避免重复生成的问题。
请参照图4,其中示出了本申请一实施例提供的一种模型训练装置300的结构框图。该装置300可以包括:文本数据获取模块310、训练样本获取模块320和模型训练模块330。
文本数据获取模块310用于获取文本数据集,所述文本数据集中包括多条第一文本数据。
训练样本获取模块320用于针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集。
模型训练模块330用于利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。
在一些实施方式中,训练样本获取模块320可以具体用于针对每条所述第一文本数据中的文本内容,按照多种所述目标掩蔽比例筛选出部分文本内容,并对所述部分文本内容添加对应的掩码,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。
在另一些实施方式中,训练样本获取模块320还可以具体用于针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例以及多种平均掩蔽长度进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。
在一些实施方式中,所述初始语言模型包括编码模块以及解码模块,模型训练模块330可以包括:编码单元、解码单元、损失值确定单元以及迭代训练单元。其中,编码单元可以用于利用所述编码模块对所述第一训练文本进行编码,得到文本编码结果。解码单元可以用于利用所述解码模块对所述文本编码结果进行解码,得到被掩蔽处理的文本内容的还原文本结果。损失值确定单元可以用于根据所述还原文本结果与所述第一训练文本之间的差异程度,确定目标损失值。迭代训练单元可以用于据所述目标损失值,对所述编码模块以及所述解码模块的参数进行调整,直至满足所述第一训练条件,得到所述预训练模型。
在该方式下,基于所述还原文本结果中的文本重复程度,以及所述还原文本结果与所述第一训练文本之间的差异程度,确定所述目标损失值。
在一些实施方式中,模型训练装置300还可以包括:第二训练样本集获取模块以及微调模块。其中,第二训练样本集获取模块可以用于在所述利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型之后,获取目标任务对应的第二训练样本集,所述第二训练样本集包括多个第二训练文本,每个第二训练文本携带有目标标签。微调模块可以用于根据第二训练样本集,对所述预训练模型进行有监督训练,直至满足第二训练条件,得到所述目标任务对应的目标模型。
在该方式下,文本数据获取模块310可以具体用于:确定每条所述第一文本数据中与所述目标领域关联程度大于目标阈值的文本内容,作为每条所述第一文本数据中的目标文本内容;针对每条所述第一文本数据中的目标文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
综上所述,通过多种目标掩蔽比例以及多种平均掩蔽长度进行掩蔽处理,来构建随机性更高的第一训练样本集,提高使得预训练模型具备更强的处理不同长度文本的能力,从而提高了针对初始语言模型的预训练的效果。并且,在预训练阶段引入UnlikelihoodLoss,可赋予模型缓解重复生成现象的能力,在微调阶段依旧具备该能力不会被遗忘,无需每次在针对不同任务对预训练模型进行微调时,均需要引入Unlikelihood Loss来避免重复生成的问题。
下面将结合图5对本申请提供的一种计算机设备进行说明。
参照图5,图5示出了本申请实施例提供的一种计算机设备400的结构框图,本申请实施例提供的上述方法可以由该计算机设备400执行。该计算机设备可以是具有数据处理功能的电子终端,该电子终端包括但不限于智能手机、智能手表、平板电脑、笔记本电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器以及MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器等;当然,该计算机设备也可以是服务器,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例中的计算机设备400可以包括一个或多个如下部件:处理器401、存储器402、以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器402中并被配置为由一个或多个处理器501执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器401可以包括一个或者多个处理核。处理器401利用各种接口和线路连接整个计算机设备400内的各个部分,通过运行或执行存储在存储器402内的指令、程序、代码集或指令集,以及调用存储在存储器402内的数据,执行计算机设备400的各种功能和处理数据。可选地,处理器501可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器401可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以集成到处理器701中,单独通过一块通信芯片进行实现。
存储器402可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器402可用于存储指令、程序、代码、代码集或指令集。存储器402可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储计算机设备400在使用中所创建的数据(比如上述的各种对应关系)等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参考图6,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质500中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质500可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质500包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以例如以适当形式进行压缩。
在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种模型训练方法,其特征在于,所述方法包括:
获取文本数据集,所述文本数据集中包括多条第一文本数据;
针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集;
利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。
2.根据权利要求1所述的方法,其特征在于,所述针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集,包括:
针对每条所述第一文本数据中的文本内容,按照多种所述目标掩蔽比例筛选出部分文本内容,并对所述部分文本内容添加对应的掩码,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。
3.根据权利要求1所述的方法,其特征在于,所述针对每条所述第一文本数据,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集,包括:
针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例以及多种平均掩蔽长度进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。
4.根据权利要求1所述的方法,其特征在于,所述初始语言模型包括编码模块以及解码模块,所述利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型,包括:
利用所述编码模块对所述第一训练文本进行编码,得到文本编码结果;
利用所述解码模块对所述文本编码结果进行解码,得到被掩蔽处理的文本内容的还原文本结果;
根据所述还原文本结果与所述第一训练文本之间的差异程度,确定目标损失值;
根据所述目标损失值,对所述编码模块以及所述解码模块的参数进行调整,直至满足所述第一训练条件,得到所述预训练模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述还原文本结果与所述第一训练文本之间的差异程度,确定目标损失值,包括:
基于所述还原文本结果中的文本重复程度,以及所述还原文本结果与所述第一训练文本之间的差异程度,确定所述目标损失值。
6.根据权利要求1-5任一项所述的方法,其特征在于,在所述利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型之后,所述方法还包括:
获取目标任务对应的第二训练样本集,所述第二训练样本集包括多个第二训练文本,每个第二训练文本携带有目标标签;
根据第二训练样本集,对所述预训练模型进行有监督训练,直至满足第二训练条件,得到所述目标任务对应的目标模型。
7.根据权利要求6所述的方法,其特征在于,所述针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集,包括:
确定每条所述第一文本数据中与所述目标领域关联程度大于目标阈值的文本内容,作为每条所述第一文本数据中的目标文本内容;
针对每条所述第一文本数据中的目标文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为所述第一训练样本集。
8.一种模型训练装置,其特征在于,所述装置包括:
文本数据获取模块,用于获取文本数据集,所述文本数据集中包括多条第一文本数据;
训练样本获取模块,用于针对每条所述第一文本数据中的文本内容,按照多种目标掩蔽比例进行掩蔽处理,得到每条所述第一文本数据对应的多个第一训练文本,作为第一训练样本集;
模型训练模块,用于利用所述第一训练样本集,对初始语言模型进行预训练,直至满足第一训练条件,得到预训练模型。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。
CN202310879760.3A 2023-07-17 2023-07-17 模型训练方法、装置、计算机设备及存储介质 Pending CN116910549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310879760.3A CN116910549A (zh) 2023-07-17 2023-07-17 模型训练方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310879760.3A CN116910549A (zh) 2023-07-17 2023-07-17 模型训练方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN116910549A true CN116910549A (zh) 2023-10-20

Family

ID=88366328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310879760.3A Pending CN116910549A (zh) 2023-07-17 2023-07-17 模型训练方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN116910549A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351197A (zh) * 2023-12-04 2024-01-05 北京联影智能影像技术研究院 图像分割方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117351197A (zh) * 2023-12-04 2024-01-05 北京联影智能影像技术研究院 图像分割方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN110110041A (zh) 错词纠正方法、装置、计算机装置及存储介质
US20170351663A1 (en) Iterative alternating neural attention for machine reading
CN109816438B (zh) 信息推送方法及装置
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
CN110147444B (zh) 基于神经网络语言模型的文本预测方法、装置及存储介质
CN109992781B (zh) 文本特征的处理方法、装置和存储介质
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN110825969A (zh) 数据处理方法、装置、终端和存储介质
CN116910549A (zh) 模型训练方法、装置、计算机设备及存储介质
CN112434131A (zh) 基于人工智能的文本错误检测方法、装置、计算机设备
CN110287341A (zh) 一种数据处理方法、装置以及可读存储介质
CN113934851A (zh) 用于文本分类的数据增强方法、装置及电子设备
CN110727871A (zh) 基于卷积分解深度模型的多模态数据采集及综合分析平台
CN112837669A (zh) 语音合成方法、装置及服务器
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN115186056A (zh) 文本风格迁移方法、装置、电子设备及存储介质
CN114281996A (zh) 长文本分类方法、装置、设备及存储介质
CN112668325B (zh) 一种机器翻译增强方法、系统、终端及存储介质
CN116547681A (zh) 用于持续演进内容的动态语言模型
CN117708428A (zh) 推荐信息预测方法、装置以及电子设备
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN114118087A (zh) 实体确定方法、装置、电子设备及存储介质
CN114595346A (zh) 内容检测模型的训练方法、内容检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination