CN117094383A

CN117094383A - 一种语言模型的联合训练方法、系统、设备及存储介质

Info

Publication number: CN117094383A
Application number: CN202311352530.8A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2023-11-21
Anticipated expiration: 2043-10-19
Also published as: CN117094383B

Abstract

本发明提供一种语言模型的联合训练方法、系统、设备及存储介质，涉及自然语言处理领域，所述方法流程为：基于领域语料库和下游任务样本库构建多维的相似性字典；基于预训练样本库和下游任务样本库进行语言模型的联合训练；在进行语言模型联合训练的过程中，基于下游任务样本库构建难分样本库，并且基于难分样本库和多维的相似性字典重构预训练样本库；基于迭代重构的预训练样本库重复进行语言模型的预训练。本发明采用使用基于数据增强的联合训练方式，可以自动过滤更小、更高质量的预训练样本库，而无需对领域语料库进行任何预处理，提高语言模型对特定下游任务的适应性，有效解决下游任务微调过程中产生的灾难性遗忘问题。

Description

一种语言模型的联合训练方法、系统、设备及存储介质

技术领域

本发明涉及自然语言处理领域，具体而言，涉及一种语言模型的联合训练方法、系统、设备及存储介质。

背景技术

自然语言处理（Natural Language Processing，NLP）领域，尤其是涉及预训练技术领域，主要运用迁移学习的思想，将在源领域数据集中学习到的先验知识，迁移到目标领域，以改进不同目标任务的学习效果。

近年来，随着人工智能领域快速发展，特别是在深度学习技术的支持下，NLP在各项任务中都取得了巨大进展。在这些任务中，预训练技术的发展起到了至关重要的作用。预训练模型为解决深度神经网络中大规模参数学习问题提供了一种有效的方案，这种方案最早使用在计算机视觉（Computer Vision，CV）领域，其核心思想是先在大数据集上对深度神经网络进行预训练得到模型参数，然后将训练好的模型应用到各种具体的下游任务，以避免从头开始训练并减少对标注数据的过度依赖，结果表明，模型的性能得到了显著提高。随着NLP领域研究的不断深入，在大型语料库上进行预训练将有助于解决下游任务。

预训练与预训练应用往往有两个阶段：1）领域自适应预训练阶段，2）下游任务微调阶段，采用“预训练-微调”的主流预训练方法通常需要在两个不同的语料库上进行，旨在提高预训练模型的鲁棒性和泛化能力。由于所需的语料库非常庞大，在预训练过程中计算资源消耗很大。因此，为了提高预训练模型的有效性，为不同的任务选择语料库是一个重要的研究课题。

传统的预训练方法往往将预训练和下游任务分开，使得预训练过程在很大程度上依赖于预训练样本库。这导致只要预训练样本库中存在脏数据或噪声，预训练过程将学习到大量错误的表达或与领域无关的表达。因此，现有的预训练过程通常需要在预训练之前对预训练样本库进行数据分析和数据处理，而这项工作强烈依赖于经验知识，预训练过程存在成本过高问题。同时，现有的模型方法中，在下游任务微调阶段还存在灾难性遗忘等问题。

发明内容

本发明提供一种语言模型的联合训练方法、系统、设备及存储介质，在降低预训练成本的基础上，解决现有技术在下游任务微调过程中产生的灾难性遗忘问题。

在第一方面，本发明实施例中提供一种语言模型的联合训练方法，所述方法流程如下：

基于领域语料库和下游任务样本库构建多维的相似性字典；

基于预训练样本库和下游任务样本库进行语言模型的联合训练；

在进行语言模型联合训练的过程中，基于下游任务样本库构建难分样本库，并且基于难分样本库和多维的相似性字典重构预训练样本库；

基于迭代重构的预训练样本库重复进行语言模型的预训练。

于上述实施例中，采用基于数据增强的联合训练方式，可以自动过滤更小、更高质量的预训练样本库，而无需对领域语料库进行任何预处理，提高语言模型对特定下游任务的适应性，有效解决下游任务微调过程中产生的灾难性遗忘问题。

作为本申请一些可选实施方式，基于领域语料库和下游任务样本库构建多维的相似性字典的流程如下：

对领域语料库中每个领域语料样本和下游任务样本库中每个下游任务样本进行多维相似度计算，以获取每个下游任务样本和每个领域语料样本的多维相似度值；

基于多维相似度值从领域语料库中选取和每个下游任务样本相似的领域语料样本；

基于每个下游任务样本和相似的领域语料样本构建多维的相似性字典。

于上述实施例中，为了对重构的预训练样本库进行数据增强，建立领域语料库与下游任务样本库之间的相似性字典是一个非常重要的环节。通过从多个维度衡量文本之间的相似程度，从而筛选出与语言模型错误文本相似的文本构建预训练样本库，实现数据增强。

作为本申请一些可选实施方式，所述多维相似度值包括情感相似度值、主题相似度值、传统相似度值的综合计算。

于上述实施例中，文本之间的相似度往往涉及多个维度，例如情感、主题、文本风格等，通过从多维度衡量文本之间的相似程度，能够更全面的建立领域语料库与下游任务样本库之间的相似性字典。

作为本申请一些可选实施方式，所述情感相似度值的计算流程如下：

对所有领域语料样本和所有下游任务样本进行情感极性分析，以获取对应的情感极性值；

基于情感极性值对每个领域语料样本和每个下游任务样本进行情感相似度计算，以获取对应的情感相似度值。

作为本申请一些可选实施方式，所述主题相似度值的计算流程如下：

将所有领域语料样本和所有下游任务样本相结合，以形成对应的文本文档集合；

对文本文档集合中领域语料样本和下游任务样本进行独立单元拆分，以获取下游任务样本和领域语料样本的若干独立单元；

计算每个独立单元在当前的下游任务样本或领域语料样本中的词频值以及在文本文档集合中的逆文档频率值；

基于词频值和逆文档频率值进行每个独立单元的重要性分析，以获取每个独立单元的重要性值，并且将所有独立单元的重要性值组合成一个主题特征向量；

基于主题特征向量对每个领域语料样本和每个下游任务样本进行主题相似度计算，以获取对应的主题相似度值。

作为本申请一些可选实施方式，所述传统相似度值的计算流程如下：

将每个领域语料样本和每个下游任务样本输入神经网络模型进行文本转化，以获取对应的两个表征向量；

基于两个表征向量对每个领域语料样本和每个下游任务样本进行传统相似度计算，以获取对应的传统相似度值。

作为本申请一些可选实施方式，所述多维相似度值的综合计算流程如下：

预设情感相似度值、主题相似度值以及传统相似度值对应的权重值；

基于情感相似度值、主题相似度值以及传统相似度值对应的权重值进行多维相似度计算，以得到多维相似度值。

于上述实施例中，通过调整相似度对应的权重值能够调整语言模型对不同类型文本的特征提取能力，使得语言模型的适应性和准确性更强。

作为本申请一些可选实施方式，基于预训练样本库和下游任务样本库进行语言模型的联合训练的流程如下：

对预训练样本库中所有预训练样本进行预处理和随机掩盖；

基于预处理和随机掩盖后的预训练样本进行语言模型的预训练，并且使用损失函数来更新模型的参数；

基于下游任务样本库中所有下游任务样本进行模型微调训练和判断，并且使用损失函数来微调模型的参数。

于上述实施例中，将预训练阶段和下游微调阶段联合训练，在下游微调的同时，不断重复学习预训练样本库中的知识，这可以扩展语言模型的泛化能力，避免其陷入局部最优，出现灾难性遗忘问题。

作为本申请一些可选实施方式，在进行语言模型联合训练的过程中，基于下游任务样本库构建难分样本库的流程如下：

在基于下游任务样本库中所有下游任务样本进行模型微调训练和判断的过程中，如果语言模型分类错误，则将对应的下游任务样本作为难分样本；

遍历下游任务样本库中所有下游任务样本，以得到对应的难分样本库。

作为本申请一些可选实施方式，基于难分样本库和多维的相似性字典重构预训练样本库的流程如下：

基于多维的相似性字典，遍历难分样本库中所有难分样本，以筛选和每个难分样本相似的领域语料样本；

基于筛选后的领域语料样本重构预训练样本库。

于上述实施例中，经过多联合轮训练后，语言模型能够自动化完语料选择、领域预训练、模型微调过程，并提高原始预训练大模型在下游任务的表现能力。

作为本申请一些可选实施方式，所述语言模型为BERT模型。

在第二方面，本发明提供一种语言模型的联合训练系统，相似性字典构建单元，所述相似性字典构建单元基于领域语料库和下游任务样本库构建多维的相似性字典；

联合训练单元，所述联合训练单元基于预训练样本库和下游任务样本库进行语言模型的联合训练；

预训练样本库重构单元，所述预训练样本库重构单元在进行语言模型联合训练的过程中，基于下游任务样本库构建难分样本库，并且基于难分样本库和多维的相似性字典重构预训练样本库；

预训练单元，所述预训练单元基于迭代重构的预训练样本库重复进行语言模型的预训练。

在第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行计算机程序时实现所述一种语言模型的联合训练方法。

在第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述一种语言模型的联合训练方法。

本发明的有益效果如下：

本发明采用联合训练策略，通过对领域语料样本的预训练学习，不断复习领域中的知识，以缓解传统在下游微调过程中产生的灾难性遗忘问题。

本发明在联合训练策略的基础上，通过对预训练样本库的数据增强，提高语言模型对难分样本的特征提取能力，使得预训练过程更加自动化，避免繁琐的数据分析和数据处理过程。

本发明在数据增强的基础上，通过多维的相似性字典从多维度补充语言模型缺乏的信息，从而更好的完成下游任务。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本邻域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明的实施例所述硬件运行环境的计算机设备结构示意图；

图2是本发明的实施例所述语言模型的联合训练方法的流程图；

图3是本发明的实施例所述BERT模型提取文本特征的流程图；

图4是本发明的实施例所述语言模型的联合训练系统的框图。

实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了降低预训练成本，解决灾难性遗忘问题，本发明提供一种语言模型的联合训练方法、系统、设备及存储介质，在介绍本申请的具体技术方案之前，先介绍下本申请实施例方案涉及的硬件运行环境。

请参阅图1，图1为本申请实施例方案涉及的硬件运行环境的计算机设备结构示意图。

如图1所示，该计算机设备可以包括：处理器，例如中央处理器（CentralProcessing Unit，CPU），通信总线、用户接口，网络接口，存储器。其中，通信总线用于实现这些组件之间的连接通信。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选的，用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口（如无线保真接口）。存储器可以是高速的随机存取存储器（Random Access Memory，RAM）存储器，也可以是稳定的非易失性存储（Non-VolatileMemory，NVM），例如磁盘存储器，存储器可选的还可以是独立于前述处理器的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器中可以包括操作系统、网络通信模块、用户接口模块以及软件程序的存储模块。

在图1所示的计算机设备中，网络接口主要用于与网络服务器进行数据通信；用户接口主要用于与用户进行数据交互；本申请计算机设备中的处理器、存储器可以设置在计算机设备中，所述计算机设备通过处理器调用存储器中存储的语言模型的联合训练系统，并执行本申请实施例提供的语言模型的联合训练方法。

基于前述实施例的硬件环境，本申请的实施例提供了一种语言模型的联合训练方法，请参阅图2，图2为语言模型的联合训练方法的流程图，所述方法包括以下步骤：

（1）基于领域语料库和下游任务样本库构建多维的相似性字典；

通常情况下，传统相似度计算只考虑了文本之间的语义和词汇信息；但在实际情况下，文本之间的相似度往往涉及多个维度，例如情感、主题、文本风格等。并且，BERT模型对于不同领域文本的不同维度的特征提取能力有所不同，例如BERT对于新闻文本的主题特征的提取能力强，而对于论文文本的文本风格特征的提取能力相对较弱，因此，需要增强BERT模型对论文文本的文本风格特征的提取能力。

为了更好地重构预训练样本库，本发明实施例采样了一个“领域-下游任务”的多维相似度计算方式，该多维相似度计算方式可以更准确地反映文本之间的相似度。

请参阅图3，图3为BERT模型提取文本特征的流程图，为了构建领域语料库与下游任务样本库之间的多维的相似性字典，首先需要针对领域语料样本s₁与下游任务样本s₂，计算这两个样本的多维相似度值score(s_1，s₂)，其中，所述多维相似度值score(s_1，s₂)包括情感相似度值score^SA(s_1，s₂)、主题相似度值score^TA(s_1，s₂)、传统相似度值score^BERT(s_1，s₂)的综合计算。

于本发明实施例中，情感相似度值score^SA(s_1，s₂)是指文本之间情感极性值的相似度值。情感极性分析可以将文本分为负面情感、正面情感等，因此可以通过计算情感极性值的相似度值评估文本之间的相似程度。

具体的，本发明实施例可以选择文本处理方法对文本之间的情感极性进行分析。其中，文本处理方法提供了一个简单的应用程序接口（API）来执行常见的自然语言处理任务，包括情感分析；其使用自然语言处理工作包（NLTK库）进行情感极性分析，并返回一个介于-1和1之间的情感极性值，-1表示负面情感，1表示正面情感，至此，可以得到领域语料样本s₁与下游任务样本s₂之间的情感相似度值为score^SA(s_1，s₂)。

于本发明实施例中，主题相似度值score^TA(s_1，s₂)是指文本之间文本主题的相似度值。在自然语言处理和文本挖掘中，文本主题是指文本中涉及的重要特征或主要话题，与文本中的单词、短语和句子密切相关。因此，在主题相似度值计算过程中，通常会考虑文本中出现的单词、短语和句子等因素，从而确定两个文本在主题上的相似程度。

具体的，所述主题相似度值score^TA(s_1，s₂)的计算流程如下：

①为了计算文本中单词的出现次数，将所有领域语料样本s₁和所有下游任务样本s₂相结合，以形成对应的文本文档集合；

②针对中文文本，需要对文本进行分词处理，将文本拆分为若干独立单元（token）；而针对英文文本，需要将空格作为分隔符，每个单词为一个token；

③计算每个token在对应文本中的词频值（TF，Term Frequency），即该token在当前文本中出现次数的倒数；以及在所有文本中的逆文档频率值（IDF，Inverse DocumentFrequency），即该token在整个领域语料库和下游任务样本库中出现次数的倒数；

④将每个token的词频值TF和逆文档频率值IDF相乘，以获取每个token的重要性值，并且将所有token的重要性值组合成一个主题特征向量；

⑤对于领域语料样本s₁与下游任务样本s₂分别计算其主题特征向量，然后计算主题特征之间的相似度，用于表示领域语料样本s₁与下游任务样本s₂之间的主题相似度值score^TA(s_1，s₂)。

于本发明实施例中，传统相似度值score^BERT(s_1，s₂)通常使用BERT模型将领域语料样本s₁与下游任务样本s₂转化为一个向量，并且使欧式距离衡量两个文本所对应的向量之间的相似度值。

具体的，所述传统相似度值score^BERT(s_1，s₂)的计算流程如下：

①将领域语料样本s₁与下游任务样本s₂输入BERT模型进行文本转化，经过BERT模型特征提取后，可以得到文本的词表征(Token Embedding)、段表征(Segment Embedding)和位置表征(Position Embedding)，并且将三类表征对位相加，以得到领域语料样本s₁的表征向量E₁以及下游任务样本s₂的表征向量E₂；

②采用欧式距离衡量这两个表征向量E₁和E₂的相似度值，以作为传统相似度值score^BERT(s_1，s₂)，计算公式如下：score^BERT(s_1，s₂)=||E₁-E₂||²。

于本发明实施例中，多维相似度值score(s_1，s₂)经过对文本之间的情感相似度值score^SA(s_1，s₂)、主题相似度值score^TA(s_1，s₂)和传统相似度值score^BERT(s_1，s₂)计算后，从多维评估两个文本之间的相似度，从而得到一个综合的相似度值，计算公式如下：

score(s_1，s₂)=α_1·score^SA(s_1，s₂)+α_2·score^TA(s_1，s₂)+α_3·score^BERT(s_1，s₂) ；

其中，α₁、α₂、α₃为文本相似侧重的权重，若α₁偏高，则侧重于增强BERT模型在文本情感表达方向的特征提取能力；若α₂偏高，则侧重于增强BERT模型在文本主题方向的特征提取能力；更一般的情况，基于BERT模型的传统相似度更为重要和全面，因此一般情况下选择较大α₃。

为了构建特定的领域语料库与下游任务样本库的多维的相似性字典，需要计算每个领域语料样本s₁与下游任务样本s₂之间多维的相似度。下游任务样本库的文本数量远远小于领域语料库的文本数量，因此针对每个下游任务样本s₂从领域语料库中选取领域语料样本s₁计算两个文本的多维相似度score(s_1，s₂)；得到下游任务样本s₂的相似分数数组，并且将相似分数数组排序。

为了构建特定的领域语料库与下游任务样本库的多维的相似性字典，从相似分数数组排序中选取前K个对应文本作为与s₂最相似的语料文本构建相似索引字典；其中，参数K根据实际情况进行设置，本发明实施例对此不做限制。

（2）基于预训练样本库和下游任务样本库进行BERT模型的联合训练；

由于传统预训练方法通常将预训练阶段与下游微调阶段分开，因此，当在下游微调任务中通过忘记模型在领域语料库中学习知识时，将导致微调过程出现灾难性的遗忘问题，因此需要将预训练过程和下游微调过程联合训练，在下游微调过程的同时，不断重复学习预训练样本库中的知识，这可以扩展BERT模型的泛化能力，避免其陷入局部最优，出现灾难性遗忘问题。但是单纯使用联合训练是不可行的，这是由于预训练样本库往往很大，是下游任务样本库的几万倍，单纯的联合训练不仅会加大计算资源的需求，还会增加BERT模型计算复杂度。

因此，本发明实施例为了解决下游微调过程中出现的灾难性遗忘问题。首先基于基础的联合训练策略进行联合训练，旨在学习特定任务的同时，通过对领域语料库的重复加深学习，捕捉领域语料库特有的语法规则；然后在相似性字典重构的预训练样本库的基础上进行预训练，将极大缩小预训练所需的数据规模，从而使得联合训练具有可行性。

于本发明实施例中，BERT模型的联合训练流程如下：

（2.1）对预训练样本库中所有预训练样本进行预处理和随机掩盖；

具体的，对预训练样本进行预处理和随机掩盖的流程如下：

①对预训练样本进行分词处理，以得到若干独立单元（token），并且将token转化为表征向量，例如使用word2vec将每个token转换为一个向量，其中，word2vec是NLP领域的一项技术，可以将token转化为可计算的向量的过程；

②采用特殊token添加的方式构建BERT模型的输入数据，其中，添加一些特殊的token，包括[CLS]（表示句子开始）、[SEP]（表示句子分割）和[PAD]（用于填充）。通常情况下，在第一个句子的开头插入 [CLS] 标记，在每个句子的末尾插入 [SEP] 标记。例如，对于两个句子“我喜欢吃冰淇淋”和“你呢？”，输入数据可以表示为“[CLS] 我喜欢吃冰淇淋[SEP] ”和“你呢? [SEP] [PAD] [PAD] [PAD] [PAD] ”这两种输入格式；其中，为了保持语句长度一致，增加4个[PAD]符，以得到一个文本序列tokens；

③预训练样本输入BERT模型进行文本转化，经过BERT模型特征提取后，可以得到文本的词表征(Token Embedding)、段表征(Segment Embedding)和位置表征(PositionEmbedding)，并且将三类表征对位相加，以得到预训练样本的表征向量E_S；

④BERT模型采用了两个预训练任务：掩蔽语言模型（Masked Language Model，MLM）和下游任务（Next Sentence Prediction，NSP）；掩蔽语言模型任务是指将输入文本中的某些token随机遮盖，然后让BERT模型预测被掩盖位置的token；下游任务是指给定两个句子，判断其是否是连续的；这两个句子都可以帮助模型学习上下文相关的信息和语义关系，由于很多研究对BERT模型中下游任务的效果提出了质疑，因此发明实施例只采取掩蔽语言模型作为预训练任务，掩蔽语言模型以序列中的所有其他单词为条件来预测掩蔽单词。

给定一个文本序列tokens，当训练掩蔽语言模型时，使用特殊 [MASK]随机选择要屏蔽的单词，或者用随机token替换，训练目标是在掩蔽位置恢复原始token。

（2.2）基于预处理和随机掩盖后的预训练样本进行BERT模型的预训练，并且使用损失函数来更新模型的参数；

即将经过预处理和随机屏蔽的文本tokens来训练BERT模型；训练期间，BERT模型使用随机梯度下降（SGD）等优化算法来最小化损失函数L_MLM。

（2.3）基于下游任务样本库中所有下游任务样本进行BERT模型的微调训练和判断，并且使用损失函数来微调模型的参数。

在预训练过程中，通常会使用大量的未标记数据训练模型。但是，最终目标是将模型应用于某些下游任务，这些任务通常需要标记数据来进行训练。因此，预训练过程的下一步是使用标记数据来微调模型，以使其更好地适应下游任务。在自然语言处理（NLP）中，下游任务有很多种，一般来说包括：

①文本分类：将一段文本分类到一个或多个类别中；

②命名实体识别：从文本中识别出命名实体（例如人名、地名、组织机构名称等）；

③问答：给出给定问题的答案，通常涉及对文本的理解和推理；

④机器翻译：将一种语言的文本翻译成另一种语言的文本；

⑤文本生成：生成与给定文本相关的文本，例如摘要、对话、故事等；

⑥文本匹配：判断两个文本是否具有相似性或匹配程度；

⑦情感分析：对一段文本进行情感分类，例如积极、消极等。

当完成下游任务选择后，下游微调阶段通过计算下游任务样本库中每个下游任务样本的损失L_task来微调整个预训练模型的参数。

当前常规方法由于预训练所需数据非常庞大，无法将预训练阶段与下游任务阶段进行联合训练；而本发明实施例利用多维的相似字典重构方的方式，将极大缩小预训练阶段所需的数据规模，从而使得联合训练具有可行性。该策略首先将预训练样本库和下游任务样本库同时加载到存储器中。在每个训练事件中，通过计算预训练样本库中每个样本的MLM损失函数L_MLM来完成模型中BERT参数的更新；在学习了所有预训练样本之后，下游微调阶段通过计算下游任务样本库的每个下游任务样本的损失L_task来微调整个预训练模型的参数。因此，预训练阶段的语言模型被用作信息增强的目标函数，与特定任务的优化函数相结合，以获得联合训练损失函数，表示为：L=∑L_MLM+∑L_task；

（3）在进行BERT模型联合训练的过程中，基于下游任务样本库构建难分样本库，并且基于难分样本库和多维的相似性字典重构预训练样本库；

该步骤通过数据增强策略，重构预训练语料，选取适合的文本作为“补充知识”，完成语料选择过程。基于选择出的预训练样本，采用数据增强策略，完成“预训练-微调”的联合训练方式，从而得到更适配下游任务的预训练阶段。

传统的预训练方式往往将预训练和下游任务分开，使得预训练过程在很大程度上依赖于预训练样本库。这导致只要预训练样本库中存在脏数据或噪声，预训练过程将学习到错误的表达或领域无关的表达。因此，现有的预训练过程通常需要在预训练之前对领域语料库进行数据分析和数据处理，而这项工作强烈依赖于经验知识。

预训练与下游任务联合训练是一种可以有效缓解灾难性遗忘问题。然而，由于预训练语料库的规模很大，需要大量的计算资源和时间，使得联合训练不可行。因此，本发明实施例在联合训练过程中，针对下游任务中判断错误的文本，重构预训练过程中的文本。重建的预训练样本库中的文本与任务文本具有相似的表达方式（特殊的语序、语言描述逻辑等），在这样的预训练样本库上进行预训练将加深BERT模型对这些特殊表达的理解，增强其特征提取能力。

例如，如果BERT模型无法识别论文实验结论中描述的表达式：“我们观察到SCIBERT在生物医学任务上优于BERT Base（带微调的+1.92 F1和不带微调的+3.59 F1）”。这表明，当前的BERT模型缺乏对数值型实验结论文本的特征提取能力。此时，从领域语料库中选择与该数字类型文本相似的语料库文本，并重建预训练样本库。在该预训练样本库下继续进行的BERT预训练可以加强BERT模型与该类文本的特征提取能力的相关性，可以补充BERT模型对该领域下表达的理解能力。

在每一轮下游任务微调期间，通过标记当前BERT模型在当前下任务文本集中无法正确分类的样本，获得一组难分样本。随后，使用预先建立的多维的相似性字典，可以获得前K相似的领域样本，其具有与每个难分样本相似的表达和文本。通过聚合所有难分样本的前K个领域样本，可以获得更小、更高质量的预训练样本库。这种方式一方面使预训练和微调的联合训练变得可行，另一方面减少了预训练中不相关样本和噪声对BERT模型的影响。

（4）基于迭代重构的预训练样本库重复进行语言模型的预训练，以实现模型优化，具体的，优化阶段使用随机梯度下降（SGD）等优化算法来最小化损失函数L；并且在待训练结束，重新读取完整BERT模型，对待测试文本进行下游任务进行测试。

综上，本发明将预训练过程与下游微调过程相结合，以缓解微调阶段产生的灾难性遗忘问题，并且在联合训练过程中，通过标记BERT模型判断为错误的下游任务样本，从领域语料库中选择相似的语料库文本重建预训练样本库。其中，BERT模型无法正确分类下游任务样本，说明BERT模型对该样本的某个自然语言特征无法识别。传统预训练方法库中，类似的特定表达样本量较少。因此，重采样后的预训练样本与上述错误样本有相似的特征，通过重复预训练，能加强模型对这类特征的提取能力。而在这样的语料上进行预训练任务，会加深BERT模型对这些特殊表达的理解，增强其特征提取能力。因此，通过使用基于数据增强的联合训练方式，可以自动过滤更小、更高质量的预训文本集，而无需对领域语料库进行任何预处理，这可以提高模型对特定任务的适应性，有效缓解灾难性遗忘问题。

其中，为了能够重构预训练样本库、进行数据增强，建立领域语料样本与下游任务样本之间相似性字典是一个非常重要的环节。通常情况下，传统的文本相似度计算只考虑文本之间的语义和词汇信息。但在实际情况下，文本之间的相似度往往涉及多个维度，例如情感、主题、文本风格等。因此，本发明实施例从多个维度衡量文本之间的相似程度，从而筛选出与BERT模型错误文本相似的文本构建预训练样本库，通过进一步学习这些文本，增强预训练模型对这类文本特征提取能力，更好的完成指定的下游任务。

本发明实施例中，为了构建领域语料库与下游任务样本库之间的相似性字典，设计了一个新的“领域-下游任务”的多维相似度计算方式。并且基于“预训练-微调”的联合训练重构预训练语料，从而实现数据增强。以提升原始BERT模型对无法识别文本特征的提取能力。经过多轮训练后，本发明实施例提出的方法能自动化完成“语料选择-领域预训练-模型微调”过程，并提高原始预训练大模型在下游任务的表现能力。

此外，在一种实施例中，基于与前述实施例相同的发明思路，本发明实施例提供了一种数据结构转化的系统，所述系统与实施例1的所述方法一一对应，请参阅图4，图4为语言模型的联合训练系统的结构框图，所述系统包括：

相似性字典构建单元，所述相似性字典构建单元基于领域语料库和下游任务样本库构建多维的相似性字典；

需要说明的是，本实施例中语言模型的联合训练系统中各单元是与前述实施例中的语言模型的联合训练方法中的各步骤一一对应，因此，本实施例的具体实施方式和达到的技术效果可参照前述语言模型的联合训练方法的实施方式，这里不再赘述。

此外，在一种实施例中，本申请还提供一种计算机设备，所述计算机设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法。

此外，在一种实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台多媒体终端设备(可以是手机，计算机，电视接收机，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语言模型的联合训练方法，其特征在于，所述方法流程如下：

基于领域语料库和下游任务样本库构建多维的相似性字典；

基于迭代重构的预训练样本库重复进行语言模型的预训练。

2.根据权利要求1所述的一种语言模型的联合训练方法，其特征在于，基于领域语料库和下游任务样本库构建多维的相似性字典的流程如下：

3.根据权利要求2所述的一种语言模型的联合训练方法，其特征在于，所述多维相似度值包括情感相似度值、主题相似度值、传统相似度值的综合计算。

4.根据权利要求3所述的一种语言模型的联合训练方法，其特征在于，所述情感相似度值的计算流程如下：

5.根据权利要求3所述的一种语言模型的联合训练方法，其特征在于，所述主题相似度值的计算流程如下：

6.根据权利要求3所述的一种语言模型的联合训练方法，其特征在于，所述传统相似度值的计算流程如下：

7.根据权利要求3所述的一种语言模型的联合训练方法，其特征在于，所述多维相似度值的综合计算流程如下：

8.根据权利要求1所述的一种语言模型的联合训练方法，其特征在于，基于预训练样本库和下游任务样本库进行语言模型的联合训练的流程如下：

对预训练样本库中所有预训练样本进行预处理和随机掩盖；

9.根据权利要求8所述的一种语言模型的联合训练方法，其特征在于，在进行语言模型联合训练的过程中，基于下游任务样本库构建难分样本库的流程如下：

10.根据权利要求9所述的一种语言模型的联合训练方法，其特征在于，基于难分样本库和多维的相似性字典重构预训练样本库的流程如下：

基于筛选后的领域语料样本重构预训练样本库。

11.根据权利要求1所述的一种语言模型的联合训练方法，其特征在于，所述语言模型为BERT模型。

12.一种语言模型的联合训练系统，其特征在于，所述系统包括：

13.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行计算机程序时实现权利要求1-11中任一项所述一种语言模型的联合训练方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-11中任一项所述一种语言模型的联合训练方法。