CN115269767A

CN115269767A - 模型训练方法、装置和存储介质

Info

Publication number: CN115269767A
Application number: CN202110402522.4A
Authority: CN
Inventors: 韩骁枫; 王宝军; 张宇洋; 张钊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2022-11-01

Abstract

本申请涉及人工智能技术领域中的迁移学习领域，尤其涉及一种模型训练方法、装置和存储介质，所述方法包括：根据带标注的辅助语言的训练数据得到第一训练数据；将所述第一训练数据输入第一模型，得到多个第一预测结果；根据所述多个第一预测结果确定所述第一模型是否满足训练收敛条件，在不满足训练收敛条件的情况下，将目标语言的训练数据输入第一模型得到伪标注，将包括带伪标注的目标语言的训练数据加入所述第一训练数据中，重复执行根据带标注的辅助语言的训练数据得到第一训练数据及之后的步骤，直至满足训练收敛条件，得到训练好的第一模型。根据本申请实施例，可以实现目标自然语言理解模型在目标语言上的预测精度。

Description

模型训练方法、装置和存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种模型训练方法、装置和存储介质。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。也就是说，人工智能研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

迁移学习作为人工智能领域的一个重要领域，因其可以利用相似源域的知识来帮助完成目标域的学习任务而越来越受到重视。对于当前的主流基于迁移学习的自然语言理解模型，在富资源的语言中效果很好，然而针对低资源的小语种语言，由于缺乏足够多的标注数据，训练效果不是很好，导致模型在低资源语言上的预测精度不高，影响了相关产品用户的体验。

发明内容

有鉴于此，提出了一种模型训练方法、装置和存储介质。

第一方面，本申请的实施例提供了一种模型训练方法，该方法包括：根据带标注的辅助语言的训练数据得到第一训练数据；将所述第一训练数据输入第一模型，得到多个第一预测结果，其中，所述第一模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，每个适配器和相应的网络模块输出所述第一训练数据的一个第一预测结果；根据所述多个第一预测结果确定所述第一模型是否满足训练收敛条件，在不满足训练收敛条件的情况下，将目标语言的训练数据输入第一模型得到伪标注，将包括带伪标注的目标语言的训练数据加入所述第一训练数据中，重复执行根据带标注的辅助语言的训练数据得到第一训练数据及之后的步骤，直至满足训练收敛条件，得到训练好的第一模型，所述第一模型用于对目标语言进行自然语言理解，所述辅助语言与目标语言不同。

根据本申请实施例，通过得到第一训练数据，将第一训练数据输入第一模型，得到多个第一预测结果，根据所述多个第一预测结果确定所述第一模型是否满足训练收敛条件，在不满足训练收敛条件的情况下，将目标语言的训练数据输入第一模型得到伪标注，将包括带伪标注的目标语言的训练数据加入所述第一训练数据中，重复执行根据带标注的辅助语言的训练数据得到第一训练数据及之后的步骤，直至满足训练收敛条件，得到训练好的第一模型，可以实现模型自监督学习的过程，通过自身迭代训练的过程可以获得伪标注且不断地优化伪标注的准确度，无需进行人工标注，减少噪音，通过确定伪标注也可以使得模型满足自监督学习的条件，进一步提高模型的精度，通过第一模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，每个适配器和相应的网络模块输出所述第一训练数据的一个第一预测结果，通过输出的多个第一预测结果可以实现投票，更大化地利用已有的训练资源，提高模型的性能。

根据第一方面，在所述模型训练方法的第一种可能的实现方式中，每个适配器内部进行不同的维度变化，包括：每个适配器对输入向量的维度进行压缩和恢复，各适配器的压缩倍数不同。

根据本申请实施例，可以实现模型输出不完全相同的预测结果，实现模型的集成学习，更大化的利用已有的训练资源，提高模型的精度。

根据第一方面，在所述模型训练方法的第二种可能的实现方式中，根据带标注的辅助语言的训练数据得到第一训练数据，包括：根据辅助语言和目标语言的对应关系，将带标注的所述辅助语言的训练数据中，预定概率的辅助语言的训练数据替换为目标语言的训练数据，保留原辅助语言的标注，得到第一训练数据。

根据本申请实施例，通过按预定概率将辅助语言的训练数据替换为目标语言的训练数据，保留原辅助语言的标注，可以减少在不进行替换而直接获得伪标注的情况下，预测结果包含的噪声，提高模型的鲁棒性和准确率。

根据第一方面或第一方面的第一种或第二种可能的实现方式，在所述模型训练方法的第三种可能的实现方式中，将目标语言的训练数据输入第一模型得到伪标注，包括：将目标语言的训练数据输入第一模型，得到与各适配器对应的多个第二预测结果；在所述多个第二预测结果相同，且对应的置信度都大于第一阈值的情况下，确定所述第二预测结果为所输入的目标语言的训练数据的伪标注。

根据本申请实施例，可以通过适配器对应的多个第二预测结果投票选出伪标注，使得确定的伪标注精度更高，噪声更少，可以更好的应用于模型的训练，使得训练出的模型精度更高。

根据第一方面，在所述模型训练方法的第四种可能的实现方式中，该方法还包括：对第二模型进行训练，得到训练好的第二模型，其中所述第二模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，所述第二模型的训练任务为遮蔽语言模型MLM任务；将所述训练好的第二模型中的适配器和网络模块调整为用于自然语言理解的适配器和网络模块，得到所述第一模型。

根据本申请实施例，通过根据MLM任务对第二模型进行训练，可以使得模型在辅助语言和目标语言上的实现效果更好，且通过将所述训练好的第二模型中的适配器和网络模块调整为用于自然语言理解的适配器和网络模块，得到所述第一模型，由于第二模型已做过MLM任务训练，第一模型可以更好的适应目标语言的自然语言理解任务的训练，使得训练好的模型的性能更好，且节省了训练资源。

根据第一方面的第四种可能的实现方式，在所述模型训练方法的第五种可能的实现方式中，所述第二模型还包括特征提取模块、线性变换模块和特征转换模块，特征提取模块用于提取训练数据的特征向量；所述线性变换模块用于将所提取到的特征向量中的第一标记特征向量转换至辅助语言和目标语言的双语言特征空间，得到第二标记特征向量，标记特征向量表示训练数据中词的特征；所述特征转换模块用于对第二标记特征向量进行转换并输出给各适配器。

根据本申请实施例，由于第一模型在辅助语言和目标语言上进行训练，通过将所提取到的特征向量中的第一标记特征向量转换至辅助语言和目标语言的双语言特征空间，得到第二标记特征向量，标记特征向量表示训练数据中词的特征，可以使得第二模型在辅助语言和目标语言上的效果更好，从而在根据第二模型得到第一模型后，第一模型在辅助语言和目标语言上的效果更好，模型在训练的过程中针对性更强，使得最终训练好的模型可以在目标语言上表现得更好，模型的推断结果更准确。

第二方面，本申请的实施例提供了一种模型训练装置，该装置包括：第一确定模块，用于根据带标注的辅助语言的训练数据得到第一训练数据；第二确定模块，用于将所述第一训练数据输入第一模型，得到多个第一预测结果，其中，所述第一模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，每个适配器和相应的网络模块输出所述第一训练数据的一个第一预测结果；判断模块，用于根据所述多个第一预测结果确定所述第一模型是否满足训练收敛条件，第三确定模块，用于在不满足训练收敛条件的情况下，将目标语言的训练数据输入第一模型得到伪标注，将包括带伪标注的目标语言的训练数据加入所述第一训练数据中，重复执行根据带标注的辅助语言的训练数据得到第一训练数据及之后的步骤，直至满足训练收敛条件，得到训练好的第一模型，所述第一模型用于对目标语言进行自然语言理解，所述辅助语言与目标语言不同。

根据第二方面，在所述模型训练装置的第一种可能的实现方式中，每个适配器内部进行不同的维度变化，包括：每个适配器对输入向量的维度进行压缩和恢复，各适配器的压缩倍数不同。

根据第二方面，在所述模型训练装置的第二种可能的实现方式中，根据带标注的辅助语言的训练数据得到第一训练数据，包括：根据辅助语言和目标语言的对应关系，将带标注的所述辅助语言的训练数据中，预定概率的辅助语言的训练数据替换为目标语言的训练数据，保留原辅助语言的标注，得到第一训练数据。

根据第二方面或第二方面的第一种或第二种可能的实现方式，在所述模型训练装置的第三种可能的实现方式中，将目标语言的训练数据输入第一模型得到伪标注，包括：将目标语言的训练数据输入第一模型，得到与各适配器对应的多个第二预测结果；在所述多个第二预测结果相同，且对应的置信度都大于第一阈值的情况下，确定所述第二预测结果为所输入的目标语言的训练数据的伪标注。

根据第二方面，在所述模型训练装置的第四种可能的实现方式中，该装置还包括：训练模块，用于对第二模型进行训练，得到训练好的第二模型，其中所述第二模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，所述第二模型的训练任务为遮蔽语言模型MLM任务；调整模块，用于将所述训练好的第二模型中的适配器和网络模块调整为用于自然语言理解的适配器和网络模块，得到所述第一模型。

根据第二方面的第四种可能的实现方式，在所述模型训练装置的第五种可能的实现方式中，所述第二模型还包括特征提取模块、线性变换模块和特征转换模块，特征提取模块用于提取训练数据的特征向量；所述线性变换模块用于将所提取到的特征向量中的第一标记特征向量转换至辅助语言和目标语言的双语言特征空间，得到第二标记特征向量，标记特征向量表示训练数据中词的特征；所述特征转换模块用于对第二标记特征向量进行转换并输出给各适配器。

第三方面，本申请的实施例提供了一种模型训练装置，该装置包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的模型训练方法。

第四方面，本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的模型训练方法。

第五方面，本申请的实施例提供了一种终端设备，该终端设备可以执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的模型训练方法。

第六方面，本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行上述第一方面或者第一方面的多种可能的实现方式中的一种或几种的模型训练方法。

本申请的这些和其他方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出人工智能主体框架的一种结构示意图。

图2示出根据本申请一实施例的模型训练装置的结构图。

图3示出根据本申请一实施例的预训练阶段的模型训练方法的流程图。

图4示出根据本申请一实施例的迭代训练阶段的模型训练方法的流程图。

图5示出根据本申请一实施例的模型训练方法的流程图。

图6示出根据本申请一实施例的模型训练方法的流程图。

图7示出根据本申请一实施例的模型训练方法的流程图。

图8示出根据本申请一实施例的模型训练装置的结构图。

图9示出根据本申请一实施例的模型训练装置的结构图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

在现有技术的一种实现方式中，自然语言理解模型在富资源即富标注数据(例如中文、英文等)上的效果很好，对于低资源即缺乏标注数据的小语种语言，现有的自然语言理解模型多采用迁移学习的方法，通过跨语言学习模型从富资源语言上学习知识，以迁移至低资源语言上，然而现有技术中，对于大量低资源的目标语言的无标注语料，通常需要对其进行人工标注后才能满足模型自监督学习的条件，且现有技术中模型自监督学习时的生成的标注的正确率低，导致噪声过大，影响模型预测的精度，模型的性能较低。

为了解决上述技术问题，本申请提供了一种模型训练方法，本申请实施例的模型训练方法能够对自然语言理解模型进行训练，得到目标模型，使得目标模型在目标语言上的性能更佳，保持较高的预测精度。

首先对人工智能系统总体工作流程进行描述，图1示出人工智能主体框架的一种结构示意图，如图1所示，下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中，“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片提供，前述智能芯片包括但不限于中央处理器(central processing unit，CPU)、嵌入式神经网络处理器(neural-network processing unit，NPU)、图形处理器(graphics processing unit，GPU)、专用集成电路(application specific integrated circuit，ASIC)和现场可编程逻辑门阵列(field programmable gate array，FPGA)等硬件加速芯片；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、平安城市等。

通过本申请实施例的模型训练方法训练好的模型，可以应用于人工智能的各种领域中，训练好的模型可以是自然语言理解模型，用于实现目标语言上的自然语言理解的各种任务，如词性标注、句法分析、文本分类、信息抽取、问答系统任务等等。应当理解，此处举例仅为方便对本申请实施例的应用场景进行理解，不对本申请实施例的应用场景进行穷举。其中，目标语言可以是缺乏标注数据的低资源的语言，例如是小语种语言(马来语、印度语等等)，本申请对此不作限制。

图2示出根据本申请一实施例的模型训练装置的结构图。如图2所示，本申请一实施例的模型训练装置可以应用于服务器中，服务器还可以是虚拟机，服务器中可以包含一个或多个CPU，还可以包含一个或多个GPU。

其中，还可以通过如图2所示的服务器实现对模型的调用，经由服务器训练好的模型还可以部署在终端设备上，由终端设备的语音助手等模块实现对模型的调用。输入文本和输出结果可以根据自然语言理解模型的任务确定，自然语言理解模型的任务可包括基于对文本语义的理解、对文本的情感的理解等等进行文本分类的任务，以及对文本词性进行标注的任务、文本句法分析的任务、文本信息抽取的任务等等，本申请对于自然语言理解模型具体可完成的任务类型不作限制。例如，在自然语言理解模型为用于进行目标语言上的文本分类的模型的情况下，输入文本可以是包含目标语言的句子、文档等，输出结果可以是对输入文本的分类结果，例如，在分类任务为判断文本情感的情况下，输出结果可以是输入文本对应的文本情感类别标注(如消极、中立、积极等等)。

在一种可能的实现方式中，本申请一实施例的模型训练方法可以分为预训练和迭代训练两个阶段。

图3示出根据本申请一实施例的预训练阶段的模型训练方法的流程图。如图3所示，在预训练阶段，在使用的初始模型不是开源的多语言模型(如mBert模型，XLM模型等等)的情况下，可以首先对初始模型进行预训练。图3(a)示出对初始模型进行预训练的流程图，如图3(a)所示，初始模型可以包括特征提取模块，特征转换模块和下游网络模块。其中，特征提取模块可以用于对输入的大量无标注训练数据进行特征提取，得到对应的特征向量，特征向量可以包括标记特征向量(token embeddings)、掩膜特征向量(mask embeddings)和位置特征向量(position embeddings)，标记特征向量可以用于表示输入词的特征，掩膜特征向量可以用于表示句子中遮掩的词的特征，位置特征向量可以用于表示输入词在句子中的位置特征,特征转换模块可以用于对上述特征向量进行特征转换，以输入至下游网络模块中，下游网络模块的结构可以根据模型的训练任务确定，下游网络模块可以用于根据该训练任务，输出相应的结果，在对初始模型进行预训练的阶段，训练任务可以是遮蔽语言模型(masked language modeling，MLM)任务，使得模型可以更好的应用在多语言上，通过对如图3(a)所示的初始模型进行预训练可以得到训练好的初始模型。本申请对于对初始模型进行预训练的方法不作限制，输入模型的多语言的无标注训练数据，可以是从包含大量文本的数据库中，获取的多种语言的文本数据，本申请对于获取多语言无标注训练数据的方法也不作限制。

在训练好的初始模型的基础上，可以对初始模型的结构进行改变，得到可用于后续迭代训练的自然语言理解模型，并对该改变的模型进行预训练，得到预训练后的模型。通过对模型的结构进行改变并进一步预训练，训练好的模型可以更好的适应后续迭代训练的过程。

图3(b)示出对改变后的自然语言理解模型进行预训练的流程图，如图3(b)所示，改变后的模型在预训练好的初始模型的基础上，还包括了线性变换模块和适配器模块，线性变换模块可以用于对特征提取模块中得到的标记特征向量进行线性变换，以将标记特征向量对应的多语言特征空间，映射到富资源语言和目标语言的双语言特征空间下，使得标记特征向量可以更好的体现富资源语言和目标语言的特征，使得模型在这两种语言上达到更好的训练效果，线性变换的结果可提供给特征转换模块。其中，线性变换的方式可以形如y＝W*x+B，其中，y可以表示变换后对应双语言特征空间的标记特征向量，x可以表示对应多语言特征空间的标记特征向量，W和B可以表示可学习参数。多语言特征空间中的标记特征向量可以反映多种语言的特征，可包括多种富资源语言(例如英语、德语、日语等多种语言)和多种低资源语言(例如马来语、印尼语等多种语言)，双语言特征空间中的标记特征向量反映富资源语言(例如英语、德语、日语等中的一种)和目标语言(目标语言可以是低资源语言，例如马来语、印尼语等中的一种)两种语言的特征。富资源语言可以是有足够的带标注训练数据的语言(如英语等)，目标语言可以是缺乏带标注训练数据的语言(如马来语等小语种语言)，富资源语言不同于目标语言。适配器模块中可以包括多个适配器，每一个适配器接收特征转换模块的输出，并分别连接对应的下游网络模块，以输出相应的输出结果，其中，对于适配器模块中的适配器和下游网络模块，可以共享特征提取模块、线性变换模块和特征转换模块的所有参数，而适配器模块中的每一个适配器可具有相同的结构和不同的维度变换方式，每一个适配器对应的下游网络模块可具有相同的结构，通过适配器不同的维度变换方式，在训练过程中下游网络模块可学习到不同的网络参数，使得模型中相当于存在多个分类器(分别对应多个下游网络模块)，因此改变后的模型可以是集成学习的网络结构，例如在适配器模块中包含N个适配器的情况下，该N个适配器可以分别对应N个下游网络，通过该适配器模块中的多个适配器，可以使得一组输入可以对应N组不完全相同的输出结果，输出结果分别对应相应的下游网络和适配器，相当于多出了N-1组训练结果，通过对多组输出结果进行损失优化，可以更大化地利用已有的训练资源。

其中，输入的训练数据可以包括多种语言的无标注训练数据，还可以仅包括富资源语言以及目标语言的无标注训练数据，且由于MLM任务无需带有标注的训练数据，因此基于MLM任务，可以通过无标注训练数据完成预训练，以节省训练资源，压缩模型大小，本申请对此不作限制。

图3(c)示出了适配器模块的结构图。适配器模块中可以包括至少一个适配器，如图3(c)所示，适配器1、适配器2、适配器N可以表示适配器模块中的适配器，每个适配器可以是瓶颈结构，适配器可包括隐藏层，隐藏层可包括两层线性变换层和一层激活层，线性变换层可用于对特征转换模块输出的特征向量进行维度压缩和维度恢复，激活层可用于对特征向量进行非线性映射，使得适配器为非线性变换的模块，通过适配器可以实现对特征向量的非线性变换。如图3(c)适配器中上下两层的六边形结构可表示线性变换层，线性变换层中间连接的矩形结构可以表示激活层，其中，通过第一个线性变换层后，特征向量的维度被压缩，而在通过第二个线性变换层后，特征向量的维度被恢复，使得通过隐藏层后，适配器输出的维度保持不变，例如，每个适配器中的隐藏层的输入维度和输出维度可以表示为H，而每个适配器中的第一个线性变换层压缩的维度各不相同，各适配器隐藏层内部的维度在压缩后可以满足H/k,H/2k……H/nk，例如适配器1的隐藏层内部维度压缩后为H/k的情况下，适配器2的隐藏层内部维度压缩后可以为H/2k，适配器N的隐藏层内部维度压缩后可以为H/nk，其中，H表示适配器原本对应的输入维度和输出维度，k可以表示预先设定的维度变化倍率，n可以表示适配器的个数。通过各适配器隐藏层内部不同的维度变化，可以使得模型在训练的过程中各适配器以及对应的下游网络模块区别于其他适配器和下游网络模块，学习到不同的参数，由此各个下游网络模块在训练中可以输出不完全相同的输出结果。进一步地，通过适配器实现对特征向量的非线性变换，使得各下游网络模块学习到的参数彼此不限于线性的范围，提高训练的效果。

在对改变的模型进行预训练的过程中，输入的无标注训练数据可以包括图3(a)中输入的多种语言的无标注训练数据中，富资源语言和目标语言的训练数据，下游网络模块适应的训练任务可以为MLM任务，由于迭代训练中着重利用富资源语言和目标语言，通过MLM任务对模型进行预训练，可以使得模型能够在富资源语言和目标语言上有更好的表现，多个下游网络模块可以分别输出对应的多个预测结果，可以根据对应的预测结果对模型进行损失优化，最终得到预训练好的自然语言理解模型。

需要说明的是，本申请对于富资源语言以及目标语言的具体类型不作限制，本申请对于对图3(b)所示的自然语言理解模型进行预训练的方法也不作限制。

图4示出根据本申请一实施例的迭代训练阶段的模型训练方法的流程图。其中，可以在图3(b)中改变结构后预训练好的自然语言理解模型的基础上，对模型进行迭代训练。为了简化显示，图3(b)中的多个下游网络任务模块在图4(a)和图4(b)中以统一的一个下游网络模块表示，图4(a)和图4(b)中的下游网络模块适应的训练任务可以根据模型的自然语言理解任务确定，如文本分类任务、信息抽取任务等等，本申请对此不作限制。如图4所示，可以通过循环重复步骤(a)和步骤(b)进行迭代训练，迭代训练的流程包括：

步骤(a)，利用code-switching语码转换方法随机替换部分训练数据，微调训练模型；

其中，输入的训练数据可以包括富资源的带标注训练数据，本申请对于富资源的训练数据的语言类型不作限定，如图4(a)所示，以富资源训练数据为英语训练数据为例进行说明。

在第一次迭代开始时，在输入的训练数据仅包括英语的带标注训练数据，而不包括目标语言的带标注训练数据的情况下，此时通过模型得到的输出的预测结果会包含大量噪声，通过code-switching方法对带标注的英语训练数据进行随机替换可以降低噪声。

因此，在步骤(a)中，可以根据如图4(a)中所示的英语和目标语言的双语词典，利用code-switching方法随机替换英语训练数据中预定概率的训练数据，保留训练数据对应的原英语标注，其中，预定概率可以根据训练任务的需要进行设定，比如预定概率为10％，则可以随机替换掉英语训练数据中10％的英语。保留的标注可以是训练数据对应的英语的标注，进行替换后，输入的训练数据中可以包括未被替换的英语训练数据，以及替换后带原英语标注的目标语言的训练数据，可以利用该训练数据对模型的相关参数进行微调训练，相较于不利用code-switching方法进行随机替换，使用该种方法训练后的模型准确率更高。

自第二次迭代开始，由于在第一次迭代时，可以根据步骤(b)确定带伪标注的目标语言训练数据，训练数据中还可以包含如图4(a)中虚线框所示的带伪标注的目标语言训练数据，以及对原始的英语的带标注训练数据利用code-switching方法，重新替换部分训练数据后得到的新的带原英语标注的目标语言的训练数据。可以利用该训练数据对模型进行训练，对模型的相关参数进行微调训练。确定带伪标注的目标语言训练数据的方法将在步骤(b)中进行介绍。

步骤(b)，确定带伪标注的训练数据，将带伪标注的训练数据加入训练数据。

由于仅利用上述随机替换的方法，无法满足模型启动自监督学习的条件，通过确定带伪标注的训练数据可以使得模型进行自监督学习，能够更好的在目标语言上完成相关自然语言理解任务。

其中，可以将目标语言的无标注训练数据输入模型，预测得到相应的预测结果和置信度，对于模型中的n个下游网络，可以对应得到n个预测结果以及相应的置信度，对于某一条数据，可以在对应的n个预测结果一致，且n个预测结果对应的置信度都大于预定阈值的情况下，确定该预测结果为该训练数据对应的伪标注，在进行完第一次迭代的情况下，可以将该带伪标注的训练数据加入步骤(a)中的训练数据，伪标注可以作为训练数据的标注参与模型训练。通过上述对多个预测结果进行投票的方法确定伪标注，可以使得获得的伪标注的精度更高，由此降低标注错误带来的噪声，提高模型的精度，且无需人工标注即可使模型能够进行自监督学习，减少人力物力。

其中，每一次迭代的过程中，步骤(b)中输入的目标语言的无标注数据可以包括原始的全部目标语言的无标注数据，可以在每次迭代时重新确定带伪标注的训练数据，并更新步骤(a)中的训练数据，将本次迭代中重新确定的带伪标注的数据替换步骤(a)中的训练数据中，上一次迭代时确定的带伪标注的数据。

之后，可以重复步骤(a)-步骤(b)-步骤(a)的迭代训练过程，迭代中每次训练完成后，判断模型的损失函数值是否满足要求，并在不满足要求时，更新模型中的相关参数，替换第一训练数据中带伪标注的目标语言的训练数据，以及重新随机替换带标注的英语训练数据中的英语训练数据，重新进行迭代，直至模型的损失函数收敛至较小的数值，得到迭代训练后的目标自然语言理解模型。通过迭代训练的过程，可以不断地提高训练数据的质量，减少噪音，从而提高最终训练好的目标模型的精度。需要说明的是，本申请对于迭代训练过程中进行损失优化的方法不作限制，损失函数收敛的数值大小可以预先设定，本申请对此也不作限制。

图5示出根据本申请一实施例的模型训练方法的流程图。如图5所示，所述方法包括：

步骤S501，根据带标注的辅助语言的训练数据得到第一训练数据；

步骤S502，将所述第一训练数据输入第一模型，得到多个第一预测结果，其中，所述第一模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，每个适配器和相应的网络模块输出所述第一训练数据的一个第一预测结果；

步骤S503，根据所述多个第一预测结果确定所述第一模型是否满足训练收敛条件，

步骤S504，在不满足训练收敛条件的情况下，将目标语言的训练数据输入第一模型得到伪标注，将包括带伪标注的目标语言的训练数据加入所述第一训练数据中，重复执行根据带标注的辅助语言的训练数据得到第一训练数据及之后的步骤，直至满足训练收敛条件，得到训练好的第一模型，所述第一模型用于对目标语言进行自然语言理解，所述辅助语言与目标语言不同。

其中，标注或伪标注的内容与模型的自然语言理解任务相适应，例如在训练数据的类型为文本时，标注或伪标注可以表示文本的情感类型、文字的词性等。举例来说，如果模型用于文本的情感类型分类，则英文文本“I’m angry”和表示情感的标注“生气”，可以作为“带标注的辅助语言训的练数据”中的一条训练数据及其标注。网络模块可以参照前文中的下游网络模块，第一模型中适配器的数量可以根据任务的需要确定，得到的多个第一预测结果可以相同，也可以不同，训练收敛条件可以是模型的损失函数收敛到预定数值。辅助语言可以是有足够的带标注训练数据的语言(例如前文中的富资源语言)，如英语、汉语等，目标语言可以是缺乏带标注训练数据的语言(例如前文中的低资源语言)，如马来语等小语种语言，本申请对于辅助语言和目标语言的具体类型不作限制。本申请对于第一模型用于的自然语言理解的具体任务类型也不作限制。

步骤S501-步骤S504的示例可以参照图4中对模型进行迭代训练的过程。

在一种可能的实现方式中，每个适配器内部进行不同的维度变化，包括：每个适配器对输入向量的维度进行压缩和恢复，各适配器的压缩倍数不同。

其中，适配器压缩的倍数可以根据训练任务的需要以及适配器的个数确定，例如，各适配器之间的压缩倍数可以满足线性变化。本申请对于适配器之间维度变化的变化量或变化方式不作限制。

上述适配器对维度进行压缩和恢复，以及不同适配器压缩倍数不同的示例可以参照前文图3(c)中相关的叙述。

在一种可能的实现方式中，根据带标注的辅助语言的训练数据得到第一训练数据，包括：根据辅助语言和目标语言的对应关系，将带标注的所述辅助语言的训练数据中，预定概率的辅助语言的训练数据替换为目标语言的训练数据，保留原辅助语言的标注，得到第一训练数据。

其中，辅助语言和目标语言的对应关系可以通过辅助语言-目标语言的双语字典确定，也可以通过其他方式确定，本申请对此不作限制，预定概率可以根据任务的需要进行设定，在每一次迭代中，可以重新替换辅助语言的训练数据，还可以重新设定预定概率，本申请对此不作限制。

上述过程的示例可参照图4中步骤(a)。

图6示出根据本申请一实施例的模型训练方法的流程图。如图6所示，将目标语言的训练数据输入第一模型得到伪标注，包括：

步骤S601，将目标语言的训练数据输入第一模型，得到与各适配器对应的多个第二预测结果；

步骤S602，在所述多个第二预测结果相同，且对应的置信度都大于第一阈值的情况下，确定所述第二预测结果为所输入的目标语言的训练数据的伪标注。

其中，目标语言的训练数据本身可以是无标注数据，例如可以仅包含目标语言的文本训练数据。多个第二预测结果可以相同，也可以不相同，第一阈值可以根据自然语言识别任务的需要预先设定，目标语言的训练数据可以有伪标注，也可以没有伪标注，例如，如果某条目标语言的训练数据的多个第二预测结果不完全相同，或者多个第二预测结果相同，但是部分第二预测结果的置信度低于第一阈值，则可认为该条目标语言的训练数据没有伪标注，不必加入第一训练数据中。在每一次迭代中，可以重新确定目标语言的训练数据的伪标注，还可以重新设定第一阈值，本申请对此不作限制。

上述过程的示例可参照图4中步骤(b)。

图7示出根据本申请一实施例的模型训练方法的流程图。如图7所示，所述方法还包括：

步骤S701，对第二模型进行训练，得到训练好的第二模型，其中所述第二模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，所述第二模型的训练任务为遮蔽语言模型MLM任务；

步骤S702，将所述训练好的第二模型中的适配器和网络模块调整为用于自然语言理解的适配器和网络模块，得到所述第一模型。

其中，第二模型包括的适配器数量可以根据任务的需要确定，将所述训练好的第二模型中的适配器和网络模块调整为用于自然语言理解的适配器和网络模块，可以是对适配器和网络模块的结构进行调整，以适应于第一模型的自然语言理解任务。

步骤S701-步骤S702的示例可以参照图3(b)中对模型进行预训练的过程。

在一种可能的实现方式中，该第二模型还包括特征提取模块、线性变换模块和特征转换模块，特征提取模块用于提取训练数据的特征向量；线性变换模块用于将所提取到的特征向量中的第一标记特征向量转换至辅助语言和目标语言的双语言特征空间，得到第二标记特征向量，标记特征向量表示训练数据中词的特征；特征转换模块用于对第二标记特征向量进行转换并输出给各适配器。

其中，双语言特征空间可以是特征向量对应的辅助语言和目标语言的特征空间，特征提取模块提取的训练数据的特征向量可以是多语言特征空间的。特征转换模块还可以对除第二标记特征向量外的其他特征向量进行转换并输出给各适配器，本申请对此不作限制。

特征提取模块、线性变换模块和特征转换模块的示意性结构可参照图3(b)中模型中的对应模块所示。

图8示出根据本申请一实施例的模型训练装置的结构图。如图8所示，该装置包括：

第一确定模块801，用于根据带标注的辅助语言的训练数据得到第一训练数据；

第二确定模块802，用于将所述第一训练数据输入第一模型，得到多个第一预测结果，其中，所述第一模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，每个适配器和相应的网络模块输出所述第一训练数据的一个第一预测结果；

判断模块803，用于根据所述多个第一预测结果确定所述第一模型是否满足训练收敛条件，

第三确定模块804，用于在不满足训练收敛条件的情况下，将目标语言的训练数据输入第一模型得到伪标注，将包括带伪标注的目标语言的训练数据加入所述第一训练数据中，重复执行根据带标注的辅助语言的训练数据得到第一训练数据及之后的步骤，直至满足训练收敛条件，得到训练好的第一模型，所述第一模型用于对目标语言进行自然语言理解，所述辅助语言与目标语言不同。

在一种可能的实现方式中，将目标语言的训练数据输入第一模型得到伪标注，包括：将目标语言的训练数据输入第一模型，得到与各适配器对应的多个第二预测结果；在所述多个第二预测结果相同，且对应的置信度都大于第一阈值的情况下，确定所述第二预测结果为所输入的目标语言的训练数据的伪标注。

在一种可能的实现方式中，该装置还包括：训练模块，用于对第二模型进行训练，得到训练好的第二模型，其中所述第二模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，所述第二模型的训练任务为遮蔽语言模型MLM任务；调整模块，用于将所述训练好的第二模型中的适配器和网络模块调整为用于自然语言理解的适配器和网络模块，得到所述第一模型。

在一种可能的实现方式中，所述第二模型还包括特征提取模块、线性变换模块和特征转换模块，特征提取模块用于提取训练数据的特征向量；所述线性变换模块用于将所提取到的特征向量中的第一标记特征向量转换至辅助语言和目标语言的双语言特征空间，得到第二标记特征向量，标记特征向量表示训练数据中词的特征；所述特征转换模块用于对第二标记特征向量进行转换并输出给各适配器。

图9示出根据本申请一实施例的模型训练装置的结构图。如图9所示，该装置40包括至少一个处理器1801，至少一个存储器1802、至少一个通信接口1803。此外，该装置还可以包括天线等通用部件，在此不再详述。

处理器1801可以是通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路。处理器1801可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphicsprocessing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

通信接口1803，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，核心网，无线局域网(Wireless Local Area Networks，WLAN)等。

存储器1802可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器1802用于存储执行以上方案的应用程序代码，并由处理器1801来控制执行。所述处理器1801用于执行所述存储器1802中存储的应用程序代码。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本申请的实施例提供了一种模型训练装置，包括：处理器以及用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述方法。

本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RandomAccess Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Electrically Programmable Read-Only-Memory，EPROM或闪存)、静态随机存取存储器(Static Random-Access Memory，SRAM)、便携式压缩盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、数字多功能盘(Digital Video Disc，DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

这里所描述的计算机可读程序指令或代码可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(Instruction Set Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(Local Area Network，LAN)或广域网(WideArea Network，WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(Field-ProgrammableGate Array，FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行相应的功能或动作的硬件(例如电路或ASIC(Application SpecificIntegrated Circuit，专用集成电路))来实现，或者可以用硬件和软件的组合，如固件等来实现。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其它变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

根据带标注的辅助语言的训练数据得到第一训练数据；

将所述第一训练数据输入第一模型，得到多个第一预测结果，其中，所述第一模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，每个适配器和相应的网络模块输出所述第一训练数据的一个第一预测结果；

根据所述多个第一预测结果确定所述第一模型是否满足训练收敛条件，

在不满足训练收敛条件的情况下，将目标语言的训练数据输入第一模型得到伪标注，将包括带伪标注的目标语言的训练数据加入所述第一训练数据中，重复执行根据带标注的辅助语言的训练数据得到第一训练数据及之后的步骤，直至满足训练收敛条件，得到训练好的第一模型，所述第一模型用于对目标语言进行自然语言理解，所述辅助语言与目标语言不同。

2.根据权利要求1所述的方法，其特征在于，每个适配器内部进行不同的维度变化，包括：

每个适配器对输入向量的维度进行压缩和恢复，各适配器的压缩倍数不同。

3.根据权利要求1所述的方法，其特征在于，根据带标注的辅助语言的训练数据得到第一训练数据，包括：

根据辅助语言和目标语言的对应关系，将带标注的所述辅助语言的训练数据中，预定概率的辅助语言的训练数据替换为目标语言的训练数据，保留原辅助语言的标注，得到第一训练数据。

4.根据权利要求1-3任一项所述的方法，其特征在于，将目标语言的训练数据输入第一模型得到伪标注，包括：

将目标语言的训练数据输入第一模型，得到与各适配器对应的多个第二预测结果；

在所述多个第二预测结果相同，且对应的置信度都大于第一阈值的情况下，确定所述第二预测结果为所输入的目标语言的训练数据的伪标注。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对第二模型进行训练，得到训练好的第二模型，其中所述第二模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，所述第二模型的训练任务为遮蔽语言模型MLM任务；

将所述训练好的第二模型中的适配器和网络模块调整为用于自然语言理解的适配器和网络模块，得到所述第一模型。

6.根据权利要求5所述的方法，其特征在于，所述第二模型还包括特征提取模块、线性变换模块和特征转换模块，

特征提取模块用于提取训练数据的特征向量；

所述线性变换模块用于将所提取到的特征向量中的第一标记特征向量转换至辅助语言和目标语言的双语言特征空间，得到第二标记特征向量，标记特征向量表示训练数据中词的特征；

所述特征转换模块用于对第二标记特征向量进行转换并输出给各适配器。

7.一种模型训练装置，其特征在于，所述装置包括：

第一确定模块，用于根据带标注的辅助语言的训练数据得到第一训练数据；

第二确定模块，用于将所述第一训练数据输入第一模型，得到多个第一预测结果，其中，所述第一模型包括多个适配器，每个适配器连接一个网络模块，每个适配器内部进行不同的维度变化，每个适配器和相应的网络模块输出所述第一训练数据的一个第一预测结果；

判断模块，用于根据所述多个第一预测结果确定所述第一模型是否满足训练收敛条件，

第三确定模块，用于在不满足训练收敛条件的情况下，将目标语言的训练数据输入第一模型得到伪标注，将包括带伪标注的目标语言的训练数据加入所述第一训练数据中，重复执行根据带标注的辅助语言的训练数据得到第一训练数据及之后的步骤，直至满足训练收敛条件，得到训练好的第一模型，所述第一模型用于对目标语言进行自然语言理解，所述辅助语言与目标语言不同。

8.一种模型训练装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令时实现权利要求1-6任意一项所述的方法。

9.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-6中任意一项所述的方法。

10.一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行权利要求1-6中任意一项所述的方法。