CN115114396A

CN115114396A - 一种语言模型的训练方法、样本数据的构建方法及装置

Info

Publication number: CN115114396A
Application number: CN202210435206.1A
Authority: CN
Inventors: 王冠颖; 汪硕芃; 王丽; 张聪; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-09-27

Abstract

本申请涉及一种语言模型的训练方法，包括：获取语句样本数据集，所述语句样本数据集中的语句样本分别包含文本标签部分，所述文本标签用于表征对应语句样本的类别；以预定的方式对所述语句样本中除所述文本标签外的其他部分进行破坏处理；将破坏处理后的语句样本输入至语言模型中，获得预测结果；基于所述预测结果和所述语句样本，确定是否满足预设的收敛条件；若不满足条件，则对语言模型进行参数调整，并基于参数调整后的语言模型进行下一轮的训练，直到满足预设的收敛条件，得到目标语言模型。本申请通过特别生成的包含有文本标签的语句样本数据集，作为在初语言模型训练中的依据，能够有效生成目标语言模型，进而实现目标类别语句样本的扩展。

Description

一种语言模型的训练方法、样本数据的构建方法及装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种语言模型的训练方法、一种样本数据的构建方法及装置、电子设备、存储介质。

背景技术

随着互联网技术的飞速发展，信息量以及应用信息的程度呈现几何级数的方式增长，信息对整个社会的影响逐步提高到绝对重要的地位。自然语言信息作为信息大数据中的常见类型，自然语言数据规模越来越大，复杂程度越来越高，如何高效实现自然语言信息处理成为日渐聚焦的重点问题。

语言模型作为自然语言处理过程中常用手段，可对自然语句样本进行概率建模，也可用于估计任意一个给定样本序列的概率，或者预测样本序列中词在某个位置上出现的概率，是样本语义的理解和表示建模的关键技术。在自然语句数据处理过程中，语言模型的数据集质量极大地影响模型效果，语言模型数据集的扩展是提升数据集质量的关键，如何实现大规模语言模型中语句样本数据集的有效扩展、进而提高语言模型中语句样本数据集的准确性显得至关重要。目前，在现有技术中，通常使用的自然语句数据集扩展方法主要有:随机词语替换法、核心属性词替换法、以及模型自增强方法等。然而，上述的方法均存在需要人工干预清洗、语义不通顺、无法实现样本定向扩展以及样本扩展效率低下等诸多问题，因此，获得一种能够基于样本类别进行样本扩展的语言模型，成为自然语言处理的关键。

发明内容

本发明提供一种语言模型的训练方法、样本数据的构建方法及装置、电子设备、存储介质，以解决现有语言模型无法依照语句样本类别信息进行样本扩展的问题。所述技术方案如下：

本申请提供了一种语言模型的训练方法，包括：

获取语句样本数据集，所述语句样本数据集中的语句样本分别包含文本标签部分，所述文本标签用于表征对应的语句样本的类别；

以预定的方式对所述语句样本中除所述文本标签外的其他部分进行破坏处理；

将破坏处理后的语句样本输入至语言模型中，获得预测结果；

基于所述预测结果和所述语句样本，确定是否满足预设的收敛条件；

若不满足预设的收敛条件，则对所述语言模型进行参数调整，并基于参数调整后的语言模型进行下一轮的训练，直到满足所述预设的收敛条件，得到目标语言模型。

可选的，获取初始语句样本，所述初始语句样本包含对应的符号标签，所述符号标签用于表征对应的初始语句样本的类别；

将所述符号标签转换为文本标签，并将所述文本标签嵌入至所述初始语句样本中的预设位置，得到语句样本。

可选的，所述将所述文本标签嵌入至所述初始语句样本中的预设位置，得到语句样本，包括：

将所述文本标签和预设符号进行组合，得到组合标签；

将所述组合标签嵌入至所述初始语句样本中的预设位置，得到语句样本。

本申请还提供了一种样本数据的构建方法，包括：

获取第一目标语句样本；

将所述第一目标语句样本对应的第一标签修改为第二标签，得到包含所述第二标签的第二目标语句样本，其中，所述第二标签为嵌入所述第二目标语句样本的预设位置的文本标签，所述第一标签和所述第二标签均用于表征所述第一目标语句样本的类别，且所述第二标签与所述第一标签表征的所述类别不同；

对所述第二目标语句样本中除所述第二标签外的其他部分进行破坏处理，将破坏处理后的所述第二目标语句样本输入至目标语言模型中，以通过所述目标语言模型得到恢复的目标语句，将所述目标语句作为所述第一目标语句样本对应的扩展语句样本。

可选的，所述第一目标语句样本为包含第一标签的语句样本，所述第一标签位于所述第一目标语句样本的预设位置。

可选的，对所述第二目标语句样本中除所述第二标签外的其他部分进行破坏处理，包括：

针对所述第二目标语句样本中除所述第二标签外的其他部分，通过词性标注解析法，获得所述第二目标语句样本中除所述第二标签外的其他部分中各分词地方词性；

结合所述第二目标语句样本各分词的词性，对所述第二目标语句样本中属于目标词性的部分分词进行掩码遮挡处理，得到破坏处理后的第二目标语句样本。

可选的，获取当前的语句场景；根据语句场景确定所述目标词性。

可选的，将所述第一目标语句样本对应的第一标签修改为第二标签，得到包含所述第二标签的第二目标语句样本，包括：

所述第一目标语句样本对应的第一标签修改为第二标签；

将所述第二标签与预设符号进行组合，得到组合标签；

将所述第二组合标签嵌入所述第一目标语句样本中的预设位置，得到第二目标语句样本。

可选的，所述第二标签与所述第一标签的词性相反。

可选的，所述目标语句为所述第一目标语句对应的难负样本。

本申请还提供了一种语言模型的训练装置，包括：

获取单元，用于获取语句样本数据集，所述语句样本数据集中的语句样本分别包含文本标签部分，所述文本标签用于表征对应的语句样本的类别；

改造单元，用于以预定的方式对所述语句样本中除所述文本标签外的其他部分进行破坏处理；

处理单元，用于将破坏处理后的语句样本输入至语言模型中，获得预测结果；

判断单元，用于基于所述预测结果和所述语句样本，确定是否满足预设的收敛条件；

后处理单元，用于若不满足预设的收敛条件，则对所述语言模型进行参数调整，并基于参数调整后的语言模型进行下一轮的训练，直到满足所述预设的收敛条件；

输出单元，用于输出目标语言模型。

本申请还提供了一种样本数据的构建装置，包括：

获取单元，用于获取第一目标语句样本；

改造单元，用于将所述第一目标语句样本对应的第一标签修改为第二标签，得到包含所述第二标签的第二目标语句样本，其中，所述第二标签为嵌入所述第二目标语句样本的预设位置的文本标签，所述第一标签和所述第二标签均用于表征所述第一目标语句样本的类别，且所述第二标签与所述第一标签表征的所述类别不同；

处理单元，用于对所述第二目标语句样本中除所述第二标签外的其他部分进行破坏处理，将破坏处理后的所述第二目标语句样本输入至目标语言模型中，以通过所述目标语言模型得到恢复的目标语句，将所述目标语句作为所述第一目标语句样本对应的扩展语句样本；

输出单元，用于输出第一目标语句样本对应的扩展语句样本。

本申请还提供了一种电子设备，包括：

存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令，执行所述计算机可执行指令：

本申请一实施例提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器加载并执行以下步骤：

与现有技术相比，本申请提供的语言模型的训练方法，通过获取语句样本数据集，语句样本数据集中的语句样本分别包含文本标签部分，文本标签用于表征对应的语句样本的类别；以预定的方式对语句样本中除文本标签外的其他部分进行破坏处理；将破坏处理后的语句样本输入至语言模型中，获得预测结果；基于预测结果和语句样本，确定是否满足预设的收敛条件；若不满足预设的收敛条件，则对语言模型进行参数调整，并基于参数调整后的语言模型进行下一轮的训练，直到满足预设的收敛条件，得到目标语言模型。利用了语言模型的语言能力和原语句样本的类别信息，用带类别信息的语句样本微调语言模型，实现了语言模型的改造，生成的目标语言模型具备依照类别信息扩展生成新语句样本的功能；该方法生成的目标语言模型只需要少量样本做微调，在样本少的情况下同样生效。

本申请另提供的样本数据的构建方法，通过获取第一目标语句样本；将第一目标语句样本对应的第一标签修改为第二标签，得到包含所述第二标签的第二目标语句样本，其中，第二标签为嵌入所述第二目标语句样本的预设位置的文本标签，第一标签和第二标签均用于表征第一目标语句样本的类别，且所述第二标签与所述第一标签表征的所述类别不同；对第二目标语句样本中除第二标签外的其他部分进行破坏处理，将破坏处理后的第二目标语句样本输入至目标语言模型中，以通过目标语言模型得到恢复的目标语句，将目标语句作为第一目标语句样本对应的扩展语句样本。由于包含有第二标签的第二目标语句样本能够反映样本的类别信息，且第二标签与第一标签表征的类别不同，将其破坏处理后输入目标语言模型中，模型实现破坏样本的恢复重建过程中，会自然的引入第二标签类别产生的信息重建影响，从而将第一句式和第二标签建立“嫁接”效果，从而产生全新形式的扩展样本。采用本申请提供的样本数据的构建方法，能够较为准确生成目标类别语言样本，特别适合于生成难负样本。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种语言模型的训练方法的流程图；

图2是本申请一实施例提供的以预定的方式对语句样本进行破坏处理的方法流程图；

图3是本申请另一实施例提供的一种样本数据的构建方法流程图；

图4是本申请另一实施例提供的将第二目标语句样本破坏处理的方法流程图；

图5是本申请一实施例提供的语言模型的训练装置的结构示意图；

图6是本申请另一实施例提供的样本数据构建的装置结构示意图；

图7是本申请一实施例提供的电子设备的结构示意图；

图8是本申请一实施例提供的存储介质的结构示意图；

具体实施方式

为使本申请实施例的目的、技术方案及优点更加清晰明了，在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

需要说明的是，本申请实施例各部分及附图中的术语“第一”、“第二”及“第三”等是用于区别类似的对象，而不表示彼此之间具有任何特定的顺序或先后次序。该类数据在适当情况下可以互换，以便本文所描述的本申请实施例能够以除本文图示或描述的内容之外的其他顺序实施。

本申请中的术语“包括”和“具有”以及他们的任何变形，旨在覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请中，除非另有明确说明，术语“或”包括所有可能的组合，但不可行的除外。例如，如果表达为一个数据库可能包括A或B，则除非另有特别规定或不可行，可能包括数据库A，或B，或者A和B。另外一个例子，如果表达为某个数据库可能包括A、B或C，则除非另有特别规定或不可行，所述数据库可以包括数据库A、或B、或C、或者A和B、或者A和C、或者B和C、或者A和B和C。

在现有的语言模型训练方法有多种，其中，最常用的方法如下：

随机词语替换法。主要利用自然语言中已知的反义词对。随机选择句中的词语，并替换成它的反义词，如将“是”替换为“不是”、“差”替换成“好”等。这种替换使得样本仅有少数字面改变，但语义却大概率发生变化，实现语言模型训练，以及数据集样本扩展。该方法不能适配于所有的样本。反义词可以替换的词语有限，并且部分词语直接替换还会造成语义不通顺等问题，实际使用中往往需要人工清洗。

核心属性词替换法。该方法是对随机词语替换法中所属方法的补充。随机词语替换法中反义词的数量有限，而且并不能适配所有的样本扩展任务。如对于话题领域分类(“美食”、“军事”、“诗词”等)，将样本“这包子真不错”替换成“这包子真烂”，并没有改变样本所属类别(仍然属于美食)。因此，该方法首先识别不同分类的“核心属性词”，针对属性词做类别间的替换。该方法弥补了随机词语替换法中的部分缺陷。但对于每个不同任务，都需要基于统计找到对应类别的核心属性词，这个过程可能会导致属性词误识别，进而错误传导。此外，属性词的替换也可能生成语义不通顺的句子，如将“我喜欢吃包子”替换成“我喜欢吃书”。

模型自增强方法。该方法利用模型自身识别能力，循环迭代实现样本扩展。先用所有的样本训练，得到初代分类模型。再用初代模型对训练数据做预测，预测类别出错的部分即为扩展样本。最后针对扩展样本进行进一步训练，循环迭代。模型自增强是实际训练时较为通用的方法。这种方法实际上是从已有样本池里选择样本，不适用于样本少的情况。

针对现有技术存在的上述问题，本申请提供了一种语言模型的训练方法，以及一种样本数据的构建方法。利用带类别信息的语句样本微调语言模型，生成的目标语言模型具备依照类别信息扩展生成新样本的功能；并且利用特殊的样本数据的构建方法，将破坏处理后的第二目标语句样本输入目标语言模型中，实现语句样本依据第二标签的内容扩展，较为准确生成目标类别语句样本，产生全新形式的扩展样本。下面结合具体实施例及附图对本申请所述的方法、装置、电子设备以及存储介质做进一步详细说明。

本申请第一实施例提供一种语言模型的训练方法。

图1是本实施例提供的语言模型的训练方法的流程图。以下结合图1对本实施例提供的语言模型的训练进行详细描述。以下描述所涉及的实施例用于解释本申请的技术方案，并不作为实际使用的限定。

请参看图1，该图为本申请第一实施例的流程图，包括如下步骤：

步骤S101，获取语句样本数据集，所述语句样本数据集中的语句样本分别包含文本标签部分，所述文本标签用于表征对应的语句样本的类别。

本步骤的作用是获得用于训练语言模型的语句样本数据集中的语句样本。

所述语句样本，包括以语句形式呈现的所有信息样本，示例性的，语句样本可以为：日常生活中的对话语句样本、以及以口头语句形式呈现的独白语句样本，或者可以为以书写、阅读时的文字形式呈现的书面语句样本，亦或是思维活动进行的、不出声的内部思维语句样本。

所述语句样本数据集，可以是通过搜集日常交流的聊天对话产生的语句，形成数据集，也可以是来自社交网络的社交媒体消息中搜集的语句组成的数据集，还可以是图书馆所藏书籍的文本中抽取句子形成的数据集，语句样本数据集来源此处不作具体限定。一个语句样本数据集，是从这些来源搜集整理并经过人工或者机器智能等方式进行筛选、标注的语句样本的集合；例如，针对网络评论搜集的语句样本数据集，可以是从各个销售网站搜集获得的1000条汉语语句，每一条都已经人工或者机器确认是正确的语句，并且每个语句都根据不同的情况打上标签，包括态度倾向的分类标签，如好评、差评；也可以包括领域的标签，例如：军事、历史、文学。本申请的最终目的，就是在一个初始语句样本数据集已经有的语句样本的基础上，扩展出更多数量的语句样本，例如，初始语句样本数据集只有1000个句子，通过本申请提供的方法，能够扩展出 10000个句子，这些句子可以用于进行进一步的模型训练，或者其他可能的用处。本实施例则是为此目的训练一种语言模型。

示例性地，本步骤具体获得的是与好评相关的语句样本数据集。

对于如何获取语句样本数据集，可参考相关技术或后续实施例，此处不再赘述。

可选地，获取初始语句样本，所述初始语句样本包含对应的符号标签，所述符号标签用于表征对应的初始语句样本的类别；

所述符号标签为语句样本类别(label)标签，这些类别标签可以将初始语句样本进行分类。比如：评价场景中的好评、差评等态度倾向类别标签；情感场景中的快乐、悲伤等情绪类别标签；话题场景中的物品名称书籍、食品等分类标签，所述语句样本类别标签形式多样，此处不作具体限定。在所述语句样本数据集中，对每一个语句样本都分配了符号标签，但是，该标签是作为该语句样本的属性标识，而不是该语句样本本身的一部分。例如，符号标签：label “1”代表评价场景中正面评价类别、label“0”代表评价场景中负面评价类别。

将所述符号标签转换为文本标签，并将所述文本标签嵌入至所述初始语句样本中的预设位置，得到语句样本。例如，将符号标签label“1”转换为文本标签“好评”，将符号标签label“0”转换为文本标签“差评”，将符号标签label“7*7”转换为文本标签“军事”等。

需要理解的是，本步骤则是将上述初始语句样本中的符号标签转换为对应的文本标签，并将该文本标签作为文本嵌入语句样本中，这样，该语句样本的标签信息就成为了语句样本的一部分，即，该语句样本不仅仅包括其原始语句信息还包含其类别信息。

将所述文本标签嵌入至所述初始语句样本中的预设位置，得到语句样本。其中的嵌入方式包括：将所述语句样本的文本标签，添加到所述语句样本前端或后端，得到含有文本标签的语句样本。

例如，语句样本“这家餐馆真好吃”，包括态度倾向类别符号标签“1”(label)，所述标签“1”代表正面评价，据此，将其转化为文本标签“好评”，嵌入语言样本本体中的预设位置，改造为“好评这家餐馆真好吃”或“这家餐馆真好吃好评”。

可选地，所述将所述文本标签嵌入至所述初始语句样本中的预设位置，得到语句样本，包括：

将所述文本标签和预设符号进行组合，得到组合标签；

其中，预设符号作为文本标签的标签标识符，并以设定方式将所述标签标识符与所述文本标签组合，将组合后的标签标识符和文本标签嵌入所述语句样本体中。

该步骤中，示例性地，预设符号可以为单引号‘’、冒号：、感叹号！等多种形式，该预设符号作为文本标签的标签标识符用于在语言模型训练中，引起模型对文本标签的识别。比如：“‘好评’这家餐馆真好吃”、“这家餐馆真好吃好评：”。

以冒号作为所述文本形式的特殊标记，将冒号添加到所述文本标签后端作为所述预设符号与所述文本标签组合的设定方式。

示例性地，针对好评语句样本数据集中语句样本：“这家餐馆真好吃”，改造为“好评：这家餐馆真好吃”或“这家餐馆真好吃好评：”。

上述将文本标签嵌入语句样本中的方法都能达成本申请的目的，但是一种较为简单，并且便于后续模型训练使用的方法是，将文本标签放在语句样本的前端，并在后面打上冒号，即“好评：这家餐馆真好吃”这种模式；不同的嵌入文本标签的方式可能对训练速度产生一定影响。

示例性地：

原语句样本数据集格式：

Context(场景)	label
		这家餐馆真好吃	1
吃出了铁丝	0

改进后语句样本数据集格式：

Context(场景)
	好评：这家餐馆真好吃
差评：吃出了铁丝

步骤S102，以预定的方式对所述语句样本中除所述文本标签外的其他部分进行破坏处理。

本步骤的作用是获得破坏后的语句样本；破坏语句样本的目的，是为了在后续模型训练中，可以采用预定的方式对语言模型进行训练。本步骤中，在保留改造后语句样本的文本标签的基础上，通过随机挑选分词[Token]进行掩码遮挡，利用[MASK]替换[Token]，实现改造后语句样本的破坏。

可选的，随机挑选30％～50％的分词[Token]进行掩码遮挡时，效果最佳。

同时，在采用上述文本标签放在语句样本的前端，并在后面打上冒号的文本标签的嵌入方式的情况下，掩码遮挡机制可以包括不得遮挡样本前部的冒号以及冒号之前的文本的要求。

本实施例还提供了本步骤的一种可选的实现方式，图2是本实施例提供的对语句样本以预定的方式进行破坏的方法流程图。如图2所示，本实施例提供的对语句样本以预定的方式进行破坏的具体步骤如下：

步骤S102-1，获得所述语句样本。

需要理解的是，上述的语句样本为包含文本标签的语句样本。

示例性地，本步骤获取的语句样本为“好评：这家餐馆真好吃”、“早餐：早餐适合吃油条豆浆”。

对于如何获取语句样本，可参考相关技术或后续实施例，此处不再赘述。

步骤S102-2，通过词性标注解析法，获得所述语句样本中除所述文本标签外的其他部分中各分词地方词性。

需要理解的是，词性标注解析法(Part-Of-Speech tagging,POS tagging)也被称为语法标注或词类消疑，是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。词性标注可以由人工或特定算法完成，使用机器学习方法实现词性标注是自然语言处理的研究内容。

示例性的，POS_TAG结果示例:

word	这家	餐馆	真	好吃
					词性	r	n	d	a

所述分词，为文本处理过程中将自然语句文本依据语义及词性精确切开，得到词汇片段。

步骤S102-3，结合所述语句样本各分词地方词性，对所述语句样本各分词地方词性的部分分词进行掩码遮挡处理，得到破坏处理后的语句样本。

对于不同的训练目的，其关键的词语可能具有不同的词性，因此，在训练时应当遮挡的词语的词性也不相同，例如，在评价场景中，与评价直接相关的关键词可能是形容词居多，因此，应当侧重遮挡形容词，而在话题类别的场景中，则名词更为重要，可以侧重遮挡名词。

例如，在评价的场景里，可以侧重掩码遮挡掉形容词“a”和动词“v”并重新预测。在话题场景里，可以侧重掩码遮挡掉名词“n”和动词“v”。

示例性地，在评价场景中“好评：这家餐馆真好吃”掩码遮挡改造为“好评：这家餐馆真[MASK]”或“好评：这家[MASK]真好吃”；在话题场景中，“早餐：早餐适合吃油条豆浆”掩码遮挡改造为“早餐：早餐适合吃[MASK]”或“早餐：早餐适合[MASK]油条豆浆”。其中，[MASK]是掩码遮挡的代表符号。

步骤S103，将破坏处理后的语句样本输入至语言模型中，获得预测结果。

本步骤的作用是利用语言模型的语言功能获得预测结果，并通过该方式实现语言模型的训练。

所述预测结果为所述语言模型根据所述破坏处理后的语句样本的文本标签，定向输出恢复重建的语句样本的预测结果。

所述语言模型可为BART模型、BERT模型、copynet模型中的任意一种。例如，语言模型比如为BART(Bidirectional and Auto-Regressive Transformers) 模型，即一种预训练语言模型，是兼具上下文语境信息和自回归特性的模型。 BART由6层transformer-encoder编码器和6层transformer-decoder编码器叠加而成。每一个transformer编码器，从下往上依次为多头attention层、归一化层、全连接层、归一化层。Encoder编码器的作用是将一个句子转化成相应向量； decoder编码器的作用是将向量解码生成新的语句样本。

例如，将破环后的语句样本“好评：这家餐馆真[MASK]”输入BART模型的encoder-decoder结构中，BART模型根据所述破坏处理后的语句样本的文本标签，定向的输出预测结果。预测结果的目标是对语句样本[MASK]掩码遮挡的分词进行复现。例如，原始样本是“这家餐馆真好吃”，加上组合标签后的语句样本为：“好评：这家餐馆真好吃”破坏后的语句样本为“好评：这家餐馆真 [MASK]”，则该模型接收的样本为“好评：这家餐馆真[MASK]”，模型根据组合标签中文本标签的类型“好评”，进行“好评”类分词的预测。可以预测为“好吃”、“不错”、“赞”“实惠”“美味”“漂亮”“完美”等诸多好评类的词汇。其训练目标就是将预测分词恢复为“好吃”。

由于增加了文本标签“好评：”，该模型在不断的训练过程中，会逐渐学习到该文本标签“好评”在恢复重建过程中具有的导向作用，这样，在经过一定训练后，该模型对于前面有文本标签“好评：”的训练样本将给出类似如下结果的预测分词：“好吃”、“不错”、“赞”“实惠”“美味”“漂亮”“完美”“出色”等。这些预测分词没有达到恢复到原始分词的目标，但是，却具有相似的含义。所述语言模型根据预测的分词，输出恢复重建的语句样本。所述语言模型训练的目标为恢复重现所述语句样本。

示例性地，“早餐：早餐适合吃油条豆浆”，将破环后的语句样本“早餐：早餐适合吃[MASK]”输入BART模型中，模型根据文本标签“早餐”，定向的预测的分词可以为“油条”“包子”“面条”“稀饭”“燕麦”“酸奶”等诸多早餐类的词汇。最终模型输出恢复重建的语句样本，可以为“早餐：早餐适合吃油条”、“早餐：早餐适合吃包子”、“早餐：早餐适合吃燕麦”等。BART语言模型的训练目标为恢复重现原语句样本“早餐：早餐适合吃油条豆浆”。

步骤S104，基于所述预测结果和所述语句样本，确定是否满足预设的收敛条件。

本步骤的作用是判断训练的语言模型是否满足预设条件。

模型根据所述预测结果，输出恢复重建的所述破坏处理后的语句样本，得到重建语句样本。

计算所述重建语句样本与所述初始语句样本的损失函数的损失熵，判断上述的损失熵是否满足预设的收敛条件。

可选的，上述损失函数的损失熵下降到0.05～0.1时，将该语言模型作为目标语言模型。

示例性地，依照上述步骤的举例，语言模型的训练目标就是将该语句样本恢复为“好评：这家餐馆真好吃”。对于训练效果，就以加入文本标签后的语句样本为评价依据，根据与该语句样本的差距计算损失，并评价重建恢复的效果。当上述的损失熵持续下降至最终趋于平缓时，当损失熵下降到0.05～0.1时，将该训练的BART语言模型作为目标语言模型。

在BART语言模型中，BART模型根据所述破坏处理后的语句样本的文本标签“好评：”，定向的预测分词结果可以为“好吃”、“不错”、“赞”“实惠”等， BART模型中decoder结构输出的语句样本“好评：这家餐馆真不错”、“好评：这家餐馆真赞”、“好评：这家餐馆真出色”等与初始语句样本“这家餐馆真好吃”不断进行匹配，计算decoder输出的语句样本与初始语句样本的损失函数的损失熵，当decoder输出的语句样本与初始语句样本的损失值持续下降至最终趋于平缓时，得到迭代调整后的目标BART模型。该目标BART模型依据文本标签类别作为语句样本恢复重建过程向导，可输出与文本类别标签匹配的语句样本。

步骤S105，若不满足预设的收敛条件，则对所述语言模型进行参数调整，并基于参数调整后的语言模型进行下一轮的训练，直到满足所述预设的收敛条件，得到目标语言模型。

本步骤的作用是获取满足预设条件的目标语言模型。

所述语言模型进行参数调整是指对语言模型训练过程中多编码器的参数进行调整。

可选的，所述参数调整还可以为对随机挑选的掩码遮挡的分词[Token]比例进行调整。

需要理解的是，当上述掩码遮挡的分词[Token]比例值太大时，容易导致初始语句样本的恢复重建过程难度增加，语言模型的收敛速度过慢；当上述掩码遮挡的分词[Token]比例值太小时，容易出现初始语句样本的恢复重建过程难度较低，语言模型学习不到类别标签文字的影响。

示例性地，依照上述步骤的举例，上述的语言模型训练过程中，未达到损失熵下降到0.05～0.1的预设条件。因此，进一步优化调整随机挑选的掩码遮挡的分词[Token]比例，将该比例可调整为33％～35％进行下一轮的训练，直到满足预设的收敛条件，将该训练的BART语言模型作为目标语言模型。

上述第一实施例提供了一种语言模型的训练方法，由于训练过程中利用文本标签，使其在恢复样本语言的过程中，能够提供各种在文本标签导向作用下形成的具有相关倾向的输出结果，这些结果正是扩展语言样本数据集需要的。

进一步，本申请第二实施例提供了一种样本数据的构建方法。

图3是本实施例提供的一种样本数据的构建方法的流程图。

如图3所示，本实施例提供的样本数据的构建方法包括如下步骤：

步骤S201，获取第一目标语句样本。

本步骤的作用是获取用于改造的第一目标语句样本。

所述第一目标语句样本为包含有第一标签的语句样本，所述第一标签用于表征对应的语句样本的类别，所述第一标签位于所述第一目标语句样本的预设位置。

所述第一标签的可为文本标签、还可以为符号标签，所述第一标签的类型本实施例不做具体限定。例如，第一标签为代表好评意义的符号标签“label“1””、或文本标签“差评”。

所述第一目标语句样本，包括以语言形式呈现的所有信息样本，示例性的，第一目标语句样本可以为：日常生活中的对话语句样本、以及以口头语言形式呈现的独白语句样本，或者可以为以书写、阅读时的文字形式呈现的书面语句样本，亦或是思维活动进行的、不出声的内部思维语句样本。

可选的，所述第一目标语句样本还可以为待预测扩展的正样本。

需要理解的是正样本是指与真值对应的目标类别的样本；负样本是指与真值不对应的其他所有目标类别的样本；难负样本是负样本的一种，指的是和正样本字面相似，但标签相反的数据。上述的标签是指根据语句样本当前的语句场景所确定的标签。上述难负样本的构建，尤其适用于评价场景中。

第一目标语句样本都已经人工或者机器确认是正确的语句，并且每个语句都根据不同的情况打上第一标签，包括态度倾向的分类标签，如好评、差评；也可以包括领域的标签，例如：军事、历史、文学。本申请的最终目的，就是在一个初始语言样本数据集已经有的语句样本的基础上，扩展出更多数量的语句样本，例如，初始语言样本数据集只有1000个句子，通过本申请提供的方法，能够扩展构建出10000个句子，这些句子可以用于进行进一步的模型训练，或者其他可能的用处。本实施例则是为此目的构建样本数据，尤其适用于难负样本的构建。

示例性地，本步骤获取的第一目标语句样本为“label“1”：这家餐馆真好吃”、“诗词：年轻适合读李白”。

对于如何获取第一目标语句样本，可参考相关技术或后续实施例，此处不再赘述。

步骤S202，将所述第一目标语句样本对应的第一标签修改为第二标签，得到包含所述第二标签的第二目标语句样本，其中，所述第二标签为嵌入所述第二目标语句样本的预设位置的文本标签，所述第一标签和所述第二标签均用于表征所述第一目标语句样本的类别，且所述第二标签与所述第一标签表征的所述类别不同。

本步骤的作用是基于第二标签完成第一目标语句样本的改造。

示例性地，可将第一目标语句样本“label“1”这家餐馆真好吃”中的第一标签“label“1””修改为第二标签“差评”，得到包含所述第二标签的第二目标语句样本“差评这家餐馆真好吃”。

示例性地，可将第一目标语句样本“诗词年轻适合读李白”中的第一标签“诗词”修改为第二标签“军事”，得到包含所述第二标签的第二目标语句样本“军事年轻适合读李白”。

所述第一目标语句样本对应的第一标签修改为第二标签；

将所述第二标签与预设符号进行组合，得到组合标签；

可选的，所述第二标签与所述第一标签的词性相反。

需要理解的是，第一标签的词性相反是指与所述第一标签词性的含义相反的第二标签。例如，第一标签为“美丽”则第二标签依据第一标签词性含义可为“丑陋”；第一标签为“昂贵”则第二标签可为“便宜”。

该步骤中，示例性地，将第一目标语句样本“好评这家餐馆真好吃”中的第一标签“好评”修改为第二标签“差评：”，得到包含所述第二标签的第二目标语句样本“差评：这家餐馆真好吃”。

步骤S203，对所述第二目标语句样本中除所述第二标签外的其他部分进行破坏处理，将破坏处理后的所述第二目标语句样本输入至目标语言模型中，以通过所述目标语言模型得到恢复的目标语句，将所述目标语句作为所述第一目标语句样本对应的扩展语句样本。

本步骤的作用是实现第二目标语句样本的破坏处理。

本步骤中，在保留第二标签的基础上，通过随机挑选分词[Token]进行掩码遮挡，利用[MASK]替换[Token]，实现第二目标语句样本的破坏。

对所述第二目标语句样本中除所述第二标签外的其他部分进行破坏处理，包括：针对所述第二目标语句样本中除所述第二标签外的其他部分，通过词性标注解析法，获得所述第二目标语句样本中除所述第二标签外的其他部分中各分词地方词性；

该步骤获得的扩展语句样本中，也包含对于第一目标语句对应的难负样本的扩展。

本实施例还提供了本步骤的一种可选的实现方式，图4是本实施例提供的将第二目标语句样本进行破坏处理的方法流程图。如图4所示，本实施例提供的将第二目标语句样本进行破坏处理的具体步骤如下：

步骤S203-1，针对第二目标语句样本，通过词性标注解析法，获得预调后语言样本中各分词词性。

示例性的，POS_TAG结果示例:

word	年轻	适合	读	李白
					词性	a	v	v	n

所述分词，为文本处理过程中将自然语句文本依据语义及词性精确切开，得到的词汇片段。

步骤S203-2，依据第二目标语句样本的第二标签，结合语句样本各分词词性，对语句样本部分分词进行掩码遮挡破坏处理，得到破坏处理后的第二目标语句样本。

示例性地，在评价的场景里，掩码遮挡掉形容词“a”和动词“v”并重新预测。在话题场景里，掩码遮挡掉名词“n”和动词“v”。比如：“差评：这家餐馆真好吃”掩码遮挡破坏处理为“差评：这家餐馆真[MASK]”；“军事：年轻适合读李白”掩码遮挡破坏处理为“军事：[MASK]适合读[MASK]”或“军事：年轻适合[MASK][MASK]”等。

所述目标语言模型，可为训练后的：目标BART语言模型、目标BERT语言模型、目标copynet语言模型中的任意一种。

示例性地，将破坏处理后的第二目标语句样本“差评：这家餐馆真[MASK]”、“军事：[MASK]适合读[MASK]”输入经过本申请第一实施例目标语言模型进行恢复重建，该目标语言模型已经由于训练过程中对文本标签的嵌入使用，自然而然的习得了文本标签对重建语句样本的导向作用。因此，在重建上述改变了文本标签类别的语句样本的时候，会选择改变后的文本标签更可能使用的词汇；这样，就将原始语句样本的句式和更改后文本标签的词汇结合起来，获得了两种类型的语言之间的“嫁接”效果。

例如：据第二目标语句样本为“差评：这家餐馆真好吃”，对其进行掩码遮挡破坏后，为“差评：这家餐馆真[MASK]”；将其提供给所述目标BART语言模型；由于该语句样本的第二标签为“差评：”，而经过训练的目标BART语言模型已经习得了具有“差评：”标签的情况下应该选择的词汇，因此，很可能提供如下恢复方式“这家餐馆真差劲”“这家餐馆真不怎么样”等等，这样，就在采用好评句式的情况下，获得了差评的语言样本，实现了两种类型的语言样本的嫁接。

对于语言识别而言，特别难识别的就是采用了一种类别的句式而实际含义相反的语句，这种语句的语言样本称为难负样本，由于本申请第二实施例提供的技术方案的特性，特别适于生成难负样本。

上述扩展的语句样本可用于语言模型数据集的扩展，扩大数据集的涵盖范围，进而提升数据集质量；同时，扩展的语句样本还可用于语言模型的训练，提高语言模型的定向预测精准度。

本申请第三实施例提供一种与上述第一实施例对应的装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参考本申请方法实施例。

图5为本申请第一实施例提供的语言模型的训练装置的结构示意图，如图5 所示，本申请实施例的语言模型的训练装置500包括：获取单元501、改造单元 502、处理单元503、判断单元504、后处理单元505、输出单元506。其中：

获取单元501，用于获取语句样本数据集，所述语句样本数据集中的语句样本分别包含文本标签部分，所述文本标签用于表征对应的语句样本的类别。

改造单元502，用于以预定的方式对所述语句样本中除所述文本标签外的其他部分进行破坏处理。

处理单元503，用于将破坏处理后的语句样本输入至语言模型中，获得预测结果。

判断单元504，用于基于所述预测结果和所述语句样本，确定是否满足预设的收敛条件。

后处理单元505，用于若不满足预设的收敛条件，则对所述语言模型进行参数调整，并基于参数调整后的语言模型进行下一轮的训练，直到满足所述预设的收敛条件，得到目标语言模型。

输出单元506，用于输出目标语言模型。

将所述文本标签和预设符号进行组合，得到组合标签；

将所述组合标签嵌入至所述初始语句样本中的预设位置，得到语句样本。本申请第四实施例提供一种与上述第二实施例对应的装置实施例。图6为本申请第四实施例装置结构示意图，如图6所示，本申请实施例的样本数据的构建装置600包括：获取单元601、改造单元602、处理单元603、输出单元604。其中：

获取单元601，用于获取第一目标语句样本。

改造单元602，用于将所述第一目标语句样本对应的第一标签修改为第二标签，得到包含所述第二标签的第二目标语句样本，其中，所述第二标签为嵌入所述第二目标语句样本的预设位置的文本标签，所述第一标签和所述第二标签均用于表征所述第一目标语句样本的类别，且所述第二标签与所述第一标签表征的所述类别不同。

处理单元603，用于对所述第二目标语句样本中除所述第二标签外的其他部分进行破坏处理，将破坏处理后的所述第二目标语句样本输入至目标语言模型中，以通过所述目标语言模型得到恢复的目标语句，将所述目标语句作为所述第一目标语句样本对应的扩展语句样本。

输出单元604，用于输出第一目标语句样本对应的扩展语句样本。

所述第一目标语句样本对应的第一标签修改为第二标签；

将所述第二标签与预设符号进行组合，得到组合标签；

可选的，所述第二标签与所述第一标签的词性相反。

本申请第五实施例提供一种与上述实施例对应的电子设备实施例。

图7是为本申请一实施例提供的电子设备的结构示意图，如图7所示，本申请的电子设备700、包括：处理器701和存储器702。

所述存储器用于存储程序指令；

将所述文本标签和预设符号进行组合，得到组合标签；

本申请第六实施例提供一种与上述实施例对应的存储介质实施例。

图8是为本申请一实施例提供的存储介质的结构示意图,如图8所示，本申请的存储介质800、包括：计算机可读存储介质801和处理器802。

本申请提供一种存储介质，存储有指令，所述指令能够被处理器加载并执行以下步骤：

将所述文本标签和预设符号进行组合，得到组合标签；

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

Claims

1.一种语言模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取初始语句样本，所述初始语句样本包含对应的符号标签，所述符号标签用于表征对应的初始语句样本的类别；

3.根据权利要求2所述的方法，其特征在于，所述将所述文本标签嵌入至所述初始语句样本中的预设位置，得到语句样本，包括：

将所述文本标签和预设符号进行组合，得到组合标签；

4.一种样本数据的构建方法，其特征在于，包括：

获取第一目标语句样本；

5.根据权利要求4所述的方法，其特征在于，所述第一目标语句样本为包含第一标签的语句样本，所述第一标签位于所述第一目标语句样本的预设位置。

6.根据权利要求4所述的方法，其特征在于，对所述第二目标语句样本中除所述第二标签外的其他部分进行破坏处理，包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取当前的语句场景；

根据语句场景确定所述目标词性。

8.根据权利要求4所述的方法，其特征在于，将所述第一目标语句样本对应的第一标签修改为第二标签，得到包含所述第二标签的第二目标语句样本，包括：

所述第一目标语句样本对应的第一标签修改为第二标签；

将所述第二标签与预设符号进行组合，得到组合标签；

9.根据权利要求4所述的方法，其特征在于，所述第二标签与所述第一标签的词性相反。

10.根据权利要求9所述的方法，其特征在于，所述目标语句为所述第一目标语句对应的难负样本。

11.一种语言模型的训练装置，其特征在于，包括：

输出单元，用于输出目标语言模型。

12.一种样本数据的构建装置，其特征在于，包括：

获取单元，用于获取第一目标语句样本；

13.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令执行如权利要求1至10中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的方法。