CN117521759A

CN117521759A - 大模型的训练方法和装置

Info

Publication number: CN117521759A
Application number: CN202410010377.9A
Authority: CN
Inventors: 徐富荣; 郭清沛; 杨铭
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-02-06
Anticipated expiration: 2044-01-04
Also published as: CN117521759B

Abstract

本说明书实施例提供一种大模型的训练方法和装置，所述大模型包括具有相同第一结构的第一数目个第一网络层；方法包括：在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；在取消所述第一约束条件限制的情况下，对初步训练后的所述大模型进行继续训练。能够保证模型快速收敛。

Description

大模型的训练方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及大模型的训练方法和装置。

背景技术

在人工智能领域，大模型是指具有大量参数的模型，例如，拥有超过10亿个参数的深度神经网络，它们能够处理海量数据、完成各种复杂的任务，如自然语言处理、计算机视觉、语音识别等。随着计算机硬件性能的不断提升和深度学习算法的不断优化，大模型的发展也越来越快速。大模型的参数规模不断扩大，训练时间也越来越长，性能也随之提升。现在，大模型已经成为人工智能领域的重要研究方向之一，许多企业和机构都在研发自己的大模型，以期在各种任务上取得更好的表现。

现有技术中，可以搜集大量样本数据来训练自己的大模型，其中，样本数据可能涉及用户的隐私数据，需要保护隐私数据不被泄露。此外，在训练大模型时，由于模型的参数量过大常常造成模型不收敛。

发明内容

本说明书一个或多个实施例描述了一种大模型的训练方法和装置，能够保证模型快速收敛。

第一方面，提供了一种大模型的训练方法，大模型包括具有相同第一结构的第一数目个第一网络层；方法包括：

在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；

在取消所述第一约束条件限制的情况下，对初步训练后的所述大模型进行继续训练。

在一种可能的实施方式中，所述第一结构包括第一网络部分和第二网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；其中，所述第二约束条件限定，子训练过程中不同的第一网络层的第一网络部分采用相同的参数。

进一步地，所述大模型具体为适用于图片模态和文本模态的多模态大模型，所述第一网络部分包括自注意力子层，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层。

在一种可能的实施方式中，所述大模型还包括具有相同第二结构的第二数目个第二网络层；所述第一约束条件还限定，在所述初步训练过程中，不同的第二网络层采用相同的参数。

进一步地，所述第二结构包括第三网络部分和第四网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；所述第二约束条件限定，在子训练过程中，不同的第二网络层的第三网络部分采用相同的参数。

进一步地，所述第一结构包括第一网络部分和第二网络部分；所述第二约束条件还限定，在子训练过程中，不同的第一网络层的第一网络部分采用相同的参数。

进一步地，所述大模型具体为适用于图片模态和文本模态的多模态大模型，所述第一网络部分包括自注意力子层，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层；所述第三网络部分为两个模态共享的自注意力子层，所述第四网络部分包括两个模态共享的第三前馈神经网络子层。

在一种可能的实施方式中，所述大模型为适用于图片模态和文本模态的多模态大模型，其输入包括图片模态的第一初始向量和文本模态的第二初始向量，输出包括图片模态的第一融合向量和文本模态的第二融合向量；所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量，所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量，所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量，所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。

进一步地，所述初步训练和/或所述继续训练包括如下的训练方式：通过最大化正样本对中包括的样本图片和样本句子的相似性分数，并且最小化负样本对中包括的样本图片和样本句子的相似性分数，调整模型参数；相似性分数根据样本图片的图片融合向量和样本句子的句子融合向量的向量相似度而确定。

进一步地，所述初步训练和/或所述继续训练包括如下的训练方式：随机掩盖所述第一初始向量中部分图像块对应的块嵌入向量，或者，随机掩盖所述第二初始向量中部分分词对应的词嵌入向量，通过模型的输出预测掩盖的图像块或分词，根据预测的掩盖对象和实际的掩盖对象，调整模型参数。

第二方面，提供了一种大模型的训练装置，大模型包括具有相同第一结构的第一数目个第一网络层；装置包括：

第一训练单元，用于在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；

第二训练单元，用于在取消所述第一约束条件限制的情况下，对所述第一训练单元得到的初步训练后的所述大模型进行继续训练。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，针对大模型包括具有相同第一结构的第一数目个第一网络层这样的结构特征，采用了如下的训练方式：首先在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；然后在取消所述第一约束条件限制的情况下，对初步训练后的所述大模型进行继续训练。由上可见，本说明书实施例，在所述初步训练过程中，不同的第一网络层采用相同的参数，使得模型训练中待调整的参数量相对于原参数量大大减小，后续在所述继续训练过程中，再逐步扩大待调整的参数量，能够保证模型快速收敛。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2为本说明书披露的另一个实施例的实施场景示意图；

图3为本说明书披露的另一个实施例的实施场景示意图；

图4示出根据一个实施例的大模型的训练方法流程图；

图5示出根据一个实施例的大模型的训练装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及大模型的训练，大模型包括具有相同第一结构的第一数目个第一网络层，可以理解的是，不同的第一网络层具有相同的结构，也就是说，大模型具有重复结构。参照图1，本说明书实施例，大模型具有重复结构，该重复结构构成大模型的主要组成部分，可选地，大模型在具有上述重复结构的基础上，还可以包含其他的组成部分。举例来说，图1中的大模型包括L1层的第一网络层，该L1层的第一网络层就属于重复结构，此外，还包括了第二网络层和第三网络层，其中，第二网络层和第三网络层为可选组成部分。图1中示出了大模型的一种可能的组成结构，与图1所示的情况不同，大模型可以仅包括L1层的第一网络层，或者仅包括L1层的第一网络层和第二网络层，或者仅包括L1层的第一网络层和第三网络层。

需要说明的是，当大模型中还包括第二网络层和/或第三网络层时，对于第二网络层和/或第三网络层的层数不做具体限定，也就是说，大模型可以仅包括一层第二网络层，也可以包括多层具有相同结构的第二网络层，类似地，大模型可以仅包括一层第三网络层，也可以包括多层具有相同结构的第三网络层，多层具有相同结构的第二网络层或第三网络层形成重复结构。本说明书实施例，大模型可以仅包括一组重复结构，也可以包括多组重复结构。

本说明书实施例，大模型具有大量参数，可以达到百亿级参数量，如果不进行预训练参数初始化，完全从0开始训练（train from scratch），常常会出现模型训练过程中不收敛。

通常地，会采用逐层训练的方式训练大模型，对于一个共有L层的大模型，先训练好第一层固定住，再训练第二层，固定住第一、二层，训练第3层，直至第L层，训练步骤比较多，无法实现快速收敛。

为了解决上述问题，本说明书实施例，从大模型的结构特征出发，先对不同的第一网络层采用相同的参数，对模型进行初步训练，使得模型训练中待调整的参数量相对于原参数量大大减小，后续在继续训练过程中，再逐步扩大待调整的参数量，能够保证模型快速收敛。

图2为本说明书披露的另一个实施例的实施场景示意图。该实施场景中，大模型具体为多模态大模型。多模态大模型是输入包含多种模态具有大量参数的模型，比如，图片模态、文本模态、音频模态、视频模态。本说明书实施例，多模态大模型的输入包含图片模态和文本模态，例如，样本图片包括的多个图像块分别对应的块嵌入向量和样本句子包括的多个分词分别对应的词嵌入向量，样本句子为“一个棒球运动员正在扔棒球”，样本图片为与样本句子的内容相一致的图片，图片中通过色彩或线条等表达与文字相一致的内容。模型结构涉及自注意力子层（multi-head self-attention，MHA）和前馈神经网络子层（feed-forward network，FFN）。参照图2，模型结构一共L层，其中，前L-F层为L-F个第一网络层，后F层为F个第二网络层，第一网络层具有第一结构，第一结构包括第一网络部分和第二网络部分，所述第一网络部分为两个模态共享的自注意力子层MHA，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层V-FFN和对应于文本模态的第二前馈神经网络子层L-FFN。第二网络层具有第二结构，第二结构包括第三网络部分和第四网络部分，所述第三网络部分为两个模态共享的自注意力子层MHA，所述第四网络部分包括两个模态共享的第三前馈神经网络子层VL-FFN。

其中，模型一共L层，前L-F层MHA部分不同模态共享，FFN部分不同模态独享，后F层MHA部分和FFN部分都是不同模态共享，结构堆叠使得不同模态之间在不同层进行融合，通过尽可能共享不同模态的参数，来增强模型对不同模态的融合能力，有利于提升多模态的表征能力。

本说明书实施例，大模型可以为企业和机构自行研发的大模型，具有大量参数，例如达到百亿级参数量。以大模型具体为多模态大模型为例，可以通过增加深度和宽度来增大模型参数量，提升模型对多模态内容的表征能力。其中，增加深度就是增加层数，增加宽度可以是把输入数据的特征维度增大，或者把MHA 子层中多头注意力的头数增大等。

可以理解的是，图2中第一网络层和第二网络层均属于重复结构。本说明书实施例，在一种可选的方案中，可以先对不同的第一网络层采用相同的参数，以及对不同的第二网络层采用相同的参数，对模型进行初步训练，使得模型训练中待调整的参数量相对于原参数量大大减小，后续在继续训练过程中，再逐步扩大待调整的参数量，能够保证模型快速收敛；在另一种可选的方案中，若L-F远大于F，也就是说，第一网络层是大模型的主要组成部分，第二网络层是大模型的次要组成部分，则可以忽略第二网络层的参数量，仅对不同的第一网络层采用相同的参数，对模型进行初步训练，使得模型训练中待调整的参数量相对于原参数量大大减小，后续在继续训练过程中，再逐步扩大待调整的参数量，能够保证模型快速收敛。

需要说明的是，图2所示的多模态大模型的模型结构仅为一种可能的模型结构，本说明书实施例，当进行多模态大模型的训练时，多模态大模型的结构可以是灵活多样的，只要其包括具有相同第一结构的第一数目个第一网络层即可，对于第一网络层的具体结构并不限定，并不局限于图2所示的模型结构，例如，第一网络层具有第一结构，第一结构包括第一网络部分和第二网络部分，所述第一网络部分包括对应于图片模态的第一自注意力子层V-MHA和对应于文本模态的第二注意力子层L-MHA，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层V-FFN和对应于文本模态的第二前馈神经网络子层L-FFN。

图3为本说明书披露的另一个实施例的实施场景示意图。大模型具体为图2所示的多模态大模型，模型结构涉及MHA子层和FFN子层，图3示出了MHA子层和FFN子层的可能的结构。参照图3，MHA子层针对其输入x依次进行正则化处理、线性处理、注意力机制处理、正则化处理、线性处理，MHA子层的输出作为FFN子层的输入，FFN子层针对其输入依次进行正则化处理、线性处理、激活处理、正则化处理、线性处理。其中，正则化处理进行归一化或标准化操作，归一化是指将输入映射到 0-1 之间，例如将彩色图像的像素值除以255，将像素值归一化到0-1；标准化是指对输入数据进行处理，使其具有均值为0，方差为1的高斯分布，例如，LN属于常见的标准化操作。线性处理，可通过Linear函数实现，其中涉及大量参数，在模型训练之前可以先对这些参数进行初始化。注意力机制处理，注意力机制就是通常所说的Attention机制，在深度学习领域，模型往往需要接收和处理大量的数据，然而在特定的某个时刻，往往只有少部分的某些数据是重要的，这种情况就非常适合采用Attention机制。激活处理，例如采用的激活函数为ReLU，ReLu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生。

由图3可见，在MHA子层和FFN子层中也存在着重复结构，例如，在MHA子层中正则化处理、线性处理均重复出现，在FFN子层中正则化处理、线性处理也均重复出现。

本说明书实施例，可以先对具有相同结构的不同处理单元采用相同的参数，对模型进行初步训练，使得模型训练中待调整的参数量相对于原参数量大大减小，后续在继续训练过程中，再逐步扩大待调整的参数量，能够保证模型快速收敛。其中，上述处理单元可以指代模型的网络层，或者网络层进一步划分的子层，或者子层进一步划分的处理结构等。此外，具有相同结构的不同处理单元可以是相邻的两个处理单元，例如，图1中的相邻的两个第一网络层，也可以是不相邻的两个处理单元，例如，图2中的前L-F层中的任意两个MHA子层，或者，图3中MHA子层中的两个正则化处理结构。

图4示出根据一个实施例的大模型的训练方法流程图，所述大模型包括具有相同第一结构的第一数目个第一网络层，该方法可以基于图1、图2或图3所示的实施场景。如图4所示，该实施例中大模型的训练方法包括以下步骤：步骤41，在第一约束条件下对大模型进行初步训练；第一约束条件限定，在初步训练过程中，不同的第一网络层采用相同的参数；步骤42，在取消第一约束条件限制的情况下，对初步训练后的大模型进行继续训练。下面描述以上各个步骤的具体执行方式。

首先在步骤41，在第一约束条件下对大模型进行初步训练；第一约束条件限定，在初步训练过程中，不同的第一网络层采用相同的参数。可以理解的是，不同的第一网络层采用相同的参数，可以使得第一数目个第一网络层的总参数量减小为一个第一网络层的参数量。

本说明书实施例，大模型可以仅包括第一数目个第一网络层，还可以不仅包括第一数目个第一网络层，还包括其他的网络层，例如，图1中大模型不仅包括第一数目个第一网络层还包括第二网络层和/或第三网络层，大模型可以仅具有一个第二网络层也可以具有多个相同结构的第二网络层，类似地，大模型可以仅具有一个第三网络层也可以具有多个相同结构的第三网络层。

在一个示例中，所述大模型还包括具有相同第二结构的第二数目个第二网络层；所述第一约束条件还限定，在所述初步训练过程中，不同的第二网络层采用相同的参数。

该示例中，不同的第二网络层采用相同的参数，可以使得第二数目个第二网络层的总参数量减小为一个第二网络层的参数量，从而进一步减小了整个大模型的总参数量。

然后在步骤42，在取消第一约束条件限制的情况下，对初步训练后的大模型进行继续训练。可以理解的是，取消第一约束条件限制，也就是说，不同的第一网络层可以采用不同的参数，使得继续训练过程相对于初步训练过程模型的参数量增加。

本说明书实施例，在继续训练过程中可以不采用任何约束条件，完全放开所有参数继续进行训练；或者，将继续训练划分为先后进行的多个子训练，在每个子训练中采取不同的约束条件，最后一个子训练中不采取约束条件，使得采取约束条件的子训练中不同的第一网络层中部分参数相同，后进行的子训练相对于先进行的子训练，不同的第一网络层中越少参数相同，逐步放开参数进行训练，最后进行的子训练可以放开所有参数进行训练。

在一个示例中，所述第一结构包括第一网络部分和第二网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；其中，所述第二约束条件限定，子训练过程中不同的第一网络层的第一网络部分采用相同的参数。

其中，第一网络部分可以包括两个模态共享的自注意力子层，或者，第一网络部分可以包括对应于图片模态的第一自注意力子层和对应于文本模态的第二自注意力子层。

举例来说，图2中模型的前L-F层为第一数目个第一网络层，第一网络部分为自注意力子层MHA，第二网络部分包括第一前馈神经网络子层V-FFN和第二前馈神经网络子层L-FFN。

在一个示例中，所述大模型还包括具有相同第二结构的第二数目个第二网络层；所述第一约束条件还限定，在所述初步训练过程中，不同的第二网络层采用相同的参数。进一步地，所述第二结构包括第三网络部分和第四网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；所述第二约束条件限定，在子训练过程中，不同的第二网络层的第三网络部分采用相同的参数。

该示例中，针对大模型包括具有相同第一结构的第一数目个第一网络层，还包括具有相同第二结构的第二数目个第二网络层，在初步训练过程，不同的第一网络层采用相同的参数，不同的第二网络层也采用相同的参数；在继续训练过程，可以完全放开对第一网络层的参数限制，对第二网络层在先后进行的多个子训练中逐步放开参数进行训练。

该示例中，针对大模型包括具有相同第一结构的第一数目个第一网络层，还包括具有相同第二结构的第二数目个第二网络层，在初步训练过程，不同的第一网络层采用相同的参数，不同的第二网络层也采用相同的参数；在继续训练过程，对第一网络层和第二网络层均在先后进行的多个子训练中逐步放开参数进行训练。

举例来说，图2中模型的前L-F层为第一数目个第一网络层，第一网络部分为自注意力子层MHA，第二网络部分包括第一前馈神经网络子层V-FFN和第二前馈神经网络子层L-FFN。图2中模型的后F层为第二数目个第二网络层，第三网络部分为自注意力子层MHA，第四网络部分包括第三前馈神经网络子层VL-FFN。

在一个示例中，所述大模型为适用于图片模态和文本模态的多模态大模型，其输入包括图片模态的第一初始向量和文本模态的第二初始向量，输出包括图片模态的第一融合向量和文本模态的第二融合向量；所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量，所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量，所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量，所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。

该示例中，将一个图片划分成了多个图像块，例如，将一个图片按照横向和纵向分别切分的方式划分成大小相等的9个图像块；将样本句子进行了分词处理，单个分词可以包括一个或多个字。

该示例，采用对比损失任务训练大模型，有利于大模型后续用于检索任务时得到很好的检索效果。

该示例，采用掩码训练任务训练大模型，可以将掩码训练任务和对比损失任务相结合，一阶段采用掩码训练任务训练大模型，二阶段再采用对比损失任务训练大模型，有利于大模型后续用于一些偏理解的任务上取得很好的效果，例如，生成任务等。

本说明书实施例，针对大参数量的模型直接从0开始训练（train from scratch）存在收敛性问题，通过不断放开参数训练的方式来使得多模态大模型能够快速收敛。以图2所示的多模态大模型为例，可以采取如下的三步训练法：

第一步，进行层间参数共享。不同层采用相同的参数，使得总参数量近似是原参数量N的： N/L，训练到收敛为止；

第二步，进行MHA子层参数共享。不同层的MHA子层采用相同的参数，逐渐放开参数量进行训练到收敛；

第三步，放开所有参数进行训练到收敛。

需要说明的是，上述三步训练法是一种可选的训练过程，实际中，不断放开参数训练的方式具体可以是两步、三步、四步等，可结合具体的模型结构，选择完成训练所需要的步数。

通过本说明书实施例提供的方法，针对大模型包括具有相同第一结构的第一数目个第一网络层这样的结构特征，采用了如下的训练方式：首先在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；然后在取消所述第一约束条件限制的情况下，对初步训练后的所述大模型进行继续训练。由上可见，本说明书实施例，在所述初步训练过程中，不同的第一网络层采用相同的参数，使得模型训练中待调整的参数量相对于原参数量大大减小，后续在所述继续训练过程中，再逐步扩大待调整的参数量，能够保证模型快速收敛。

根据另一方面的实施例，还提供一种大模型的训练装置，所述大模型包括具有相同第一结构的第一数目个第一网络层，该装置用于执行本说明书实施例提供的方法。图5示出根据一个实施例的大模型的训练装置的示意性框图。如图5所示，该装置500包括：

第一训练单元51，用于在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；

第二训练单元52，用于在取消所述第一约束条件限制的情况下，对所述第一训练单元51得到的初步训练后的所述大模型进行继续训练。

可选地，作为一个实施例，所述第一结构包括第一网络部分和第二网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；其中，所述第二约束条件限定，子训练过程中不同的第一网络层的第一网络部分采用相同的参数。

可选地，作为一个实施例，所述大模型还包括具有相同第二结构的第二数目个第二网络层；所述第一约束条件还限定，在所述初步训练过程中，不同的第二网络层采用相同的参数。

可选地，作为一个实施例，所述大模型为适用于图片模态和文本模态的多模态大模型，其输入包括图片模态的第一初始向量和文本模态的第二初始向量，输出包括图片模态的第一融合向量和文本模态的第二融合向量；所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量，所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量，所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量，所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。

通过本说明书实施例提供的装置，针对大模型包括具有相同第一结构的第一数目个第一网络层这样的结构特征，采用了如下的训练方式：首先第一训练单元51在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；然后第二训练单元52在取消所述第一约束条件限制的情况下，对初步训练后的所述大模型进行继续训练。由上可见，本说明书实施例，在所述初步训练过程中，不同的第一网络层采用相同的参数，使得模型训练中待调整的参数量相对于原参数量大大减小，后续在所述继续训练过程中，再逐步扩大待调整的参数量，能够保证模型快速收敛。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图4所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图4所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种大模型的训练方法，所述大模型包括具有相同第一结构的第一数目个第一网络层；所述方法包括：

2.如权利要求1所述的方法，其中，所述第一结构包括第一网络部分和第二网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；其中，所述第二约束条件限定，子训练过程中不同的第一网络层的第一网络部分采用相同的参数。

3.如权利要求2所述的方法，其中，所述大模型具体为适用于图片模态和文本模态的多模态大模型，所述第一网络部分包括自注意力子层，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层。

4.如权利要求1所述的方法，其中，所述大模型还包括具有相同第二结构的第二数目个第二网络层；所述第一约束条件还限定，在所述初步训练过程中，不同的第二网络层采用相同的参数。

5.如权利要求4所述的方法，其中，所述第二结构包括第三网络部分和第四网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；所述第二约束条件限定，在子训练过程中，不同的第二网络层的第三网络部分采用相同的参数。

6.如权利要求5所述的方法，其中，所述第一结构包括第一网络部分和第二网络部分；所述第二约束条件还限定，在子训练过程中，不同的第一网络层的第一网络部分采用相同的参数。

7.如权利要求6所述的方法，其中，所述大模型具体为适用于图片模态和文本模态的多模态大模型，所述第一网络部分包括自注意力子层，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层；所述第三网络部分为两个模态共享的自注意力子层，所述第四网络部分包括两个模态共享的第三前馈神经网络子层。

8.如权利要求1所述的方法，其中，所述大模型为适用于图片模态和文本模态的多模态大模型，其输入包括图片模态的第一初始向量和文本模态的第二初始向量，输出包括图片模态的第一融合向量和文本模态的第二融合向量；所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量，所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量，所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量，所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。

9.如权利要求8所述的方法，其中，所述初步训练和/或所述继续训练包括如下的训练方式：通过最大化正样本对中包括的样本图片和样本句子的相似性分数，并且最小化负样本对中包括的样本图片和样本句子的相似性分数，调整模型参数；相似性分数根据样本图片的图片融合向量和样本句子的句子融合向量的向量相似度而确定。

10.如权利要求8所述的方法，其中，所述初步训练和/或所述继续训练包括如下的训练方式：随机掩盖所述第一初始向量中部分图像块对应的块嵌入向量，或者，随机掩盖所述第二初始向量中部分分词对应的词嵌入向量，通过模型的输出预测掩盖的图像块或分词，根据预测的掩盖对象和实际的掩盖对象，调整模型参数。

11.一种大模型的训练装置，所述大模型包括具有相同第一结构的第一数目个第一网络层；所述装置包括：

12.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

13.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项的所述的方法。