CN117407754A

CN117407754A - 一种多模态大模型训练策略确定方法、电子设备及介质

Info

Publication number: CN117407754A
Application number: CN202311415357.1A
Authority: CN
Inventors: 罗引; 魏靖烜; 郝艳妮; 陈博; 马先钦; 徐楠; 曹家; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-16
Anticipated expiration: 2043-10-27
Also published as: CN117407754B

Abstract

本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质，涉及多模态大模型训练策略确定领域，所述方法包括：获取初始多模态大模型对应的状态列表A；使用预设的一阶段训练策略，对初始多模态大模型进行训练，以得到第一中间多模态大模型列表B；使用预设的两阶段训练策略，分别对处于A中每一状态的初始多模态大模型进行训练，以得到第二中间多模态大模型列表C；获取B对应的第一性能参数列表α＝(α₁，α₂，α₃)以及C对应的第二性能参数列表β＝(β₁，β₂，β₃)；若α₁＜β₁、α₂＜β₂且α₃＜β₃，则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略；本发明能够达到确定出最佳的模型训练策略的目的。

Description

一种多模态大模型训练策略确定方法、电子设备及介质

技术领域

本发明涉及多模态大模型训练策略确定领域，特别是涉及一种多模态大模型训练策略确定方法、电子设备及介质。

背景技术

随着深度学习技术的发展，多模态大模型已经在各种任务中取得了显著的效果，包括图像分类、目标检测、语义分割、自然语言处理等；然而，多模态大模型使用之前，需要对其进行训练，训练策略多种多样，采用不同的训练策略，在训练多模态大模型时对资源的消耗不同，最终训练得到的多模态大模型的性能也不同；因此，在多模态大模型的训练过程中，如何合理地选择和优化模型的各个部分，以及如何选择和优化训练策略，成为了亟待解决的问题。

发明内容

针对上述技术问题，本发明提供了一种多模态大模型训练策略确定方法、电子设备及介质，以解决现有技术中，在多模态大模型的训练过程中，如何合理地选择和优化模型的各个部分，以及如何选择和优化训练策略的问题。

根据本申请的第一方面，提供了一种多模态大模型训练策略确定方法，所述方法应用于训练初始多模态大模型，所述初始多模态大模型包括目标大语言模型W1、目标图像编码器W2和初始连接器W3；其中，目标大语言模型用于处理输入的文本信息，目标图像编码器用于处理输入的图像信息，初始连接器用于将目标大语言模型输出的文本信息和目标图像编码器输出的图像信息进行对齐；

所述方法包括以下步骤：

S100，获取初始多模态大模型对应的每一状态，以得到状态列表A＝(A₁，A₂，A₃)；其中，A₁、A₂和A₃分别为初始多模态大模型对应的第一状态、第二状态和第三状态；初始多模态大模型对应的状态为A₁时，W1、W2和W3均处于解冻状态；初始多模态大模型对应的状态为A₂时，W1和W3均处于解冻状态，W2处于冻结状态；初始多模态大模型对应的状态为A₃时，W2和W3均处于解冻状态，W1处于冻结状态。

S200，使用预设的一阶段训练策略，分别对处于A中每一状态的初始多模态大模型进行训练，以得到第一中间多模态大模型列表B＝(B₁，B₂，B₃)；其中，B₁为对处于A₁的初始多模态大模型训练得到的中间多模态大模型，B₂为对处于A₂的初始多模态大模型训练得到的中间多模态大模型，B₃为对处于A₃的初始多模态大模型训练得到的中间多模态大模型。

S300，使用预设的两阶段训练策略，分别对处于A中每一状态的初始多模态大模型进行训练，以得到第二中间多模态大模型列表C＝(C₁，C₂，C₃)；其中，C₁为对处于A₁的初始多模态大模型训练得到的中间多模态大模型，C₂为对处于A₂的初始多模态大模型训练得到的中间多模态大模型，C₃为对处于A₃的初始多模态大模型训练得到的中间多模态大模型。

S400，获取B中每一中间多模态大模型的性能参数，以得到第一性能参数列表α＝(α₁，α₂，α₃)；并获取C中每一中间多模态大模型的性能参数，以得到第二性能参数列表β＝(β₁，β₂，β₃)；其中，α₁为B₁的性能参数，α₂为B₂的性能参数，α₃为B₃的性能参数，β₁为C₁的性能参数，β₂为C₂的性能参数，β₃为C₃的性能参数。

S500，若α₁＜β₁、α₂＜β₂且α₃＜β₃，则将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略。

根据本申请的另一方面，还提供了一种非瞬时性计算机可读存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现上述多模态大模型训练策略确定方法。

根据本申请的另一方面，还提供了一种电子设备，包括处理器和上述非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

本发明的多模态大模型训练策略确定方法，获取初始多模态大模型的每一状态，分别使用一阶段训练策略和两阶段训练策略对处于每一状态的初始多模态大模型进行训练，得到第一中间多模态大模型列表B和第二中间多模态大模型列表C；获取第一中间多模态大模型列表B中每一中间多模态大模型的性能参数以及第二中间多模态大模型列表C中每一中间多模态大模型的性能参数，以得到第一性能参数列表α和第二性能参数列表β；若α中的每一性能参数均小于β中对应的性能参数，表示使用预设的两阶段训练策略训练得到的中间多模态大模型的性能较好，因此，将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略；从而能够达到确定出最佳的模型训练策略的目的。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多模态大模型训练策略确定方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其他方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其他结构及/或功能性实施此设备及/或实践此方法。

在现有的技术中，有一些已经对这些问题进行了研究。例如，OpenAI的CLIP模型就是一个典型的多模态模型，它使用对比学习策略，通过大量的训练数据和训练资源，实现了图像和文本的对齐。然而，CLIP模型的训练过程需要大量的计算资源，并且对于噪声较大的数据集，可能需要设计特定的距离度量或采取其他方式来处理。

另一方面，BLIP-2模型使用了Q-Former作为对齐策略，通过两阶段的学习来进行表示学习和生成学习。这种方法在处理复杂的图像和文本任务时表现出了优越的性能，但是，这种方法可能会增加模型的计算复杂性，并且需要额外的调优以达到最佳性能。

此外，还有一些模型，如LLAVA和mPLUG-Owl，分别使用了模态融合和门控交叉注意力。这些模型在处理多模态任务时表现出了优越的性能，但是，它们的训练过程可能会受到数据集的质量影响，对于噪声较大的数据集，可能需要设计特定的距离度量或采取其他方式来处理。

尽管现有技术在多模态大模型训练上已有所突破，但仍面临不少技术挑战。特别是在优化模型的各个组成部分以及确保模型性能的提升方面。对于多模态大模型，关键在于综合考虑模型的各个部分，确保在追求各部分的局部最优时，整体模型能够达到全局最优。

面向多模态大模型的研发在当前的技术探索中，尚存在以下明显的技术缺陷和挑战：

首先，对于模型不同模块的训练，现有的策略通常采用固定的训练策略，如冻结某些模块，只训练特定的模块。然而，这种策略可能无法充分利用模型的全部能力，导致模型的性能受到限制。例如，如果在训练过程中冻结了大语言模型和图像编码器，只训练连接器，可能会导致模型无法充分学习和理解图像和文本之间的复杂关系。

其次，对于采用一阶段和两阶段训练对于最终结果的影响，现有的策略通常倾向于采用一阶段训练策略。然而，这种策略可能会导致模型在训练初期就过度拟合训练数据，导致模型的泛化能力下降。相比之下，两阶段训练策略，通过先进行预训练，然后进行微调，可以有效避免过拟合问题，提高模型的泛化能力，但是时间成本较高。

再次，对于连接器的选择，现有的多模态模型大多采用了对比学习、Q-Former、模态融合和门控交叉注意力等连接器，但这些连接器在处理复杂的多模态任务时，仍然存在一些问题。比如：对比学习的目标是在共享特征空间中对齐图像和文本，使得匹配的图像-文本对的编码距离最小化，而非匹配对的距离最大化。这种方法在多模态模型的预训练中被广泛使用，一些经典工作，如CLIP、CLOOB、ALIGN和DeCLIP等，都是用对比损失联合学习文本编码器和图像编码器。然而，其效果可能会受到数据集的质量影响，对于噪声较大的数据集，可能需要设计特定的距离度量或采取其他方式来处理。Q-Former是一种轻量级查询Transformer(Query Transformer，Q-Former)，用以弥合视觉和语言模型之间的语义鸿沟，捕获输入模态间的复杂相互作用。这种机制能够捕捉到更丰富的跨模态相互作用，提高模型的表现。然而，这种机制可能会增加模型的计算复杂性，并且需要大量的训练数据以及额外的调优以达到最佳性能，当数据量不足或者训练不充分时，会产生负面作用。模态融合能够将视觉和文本信息整合为一个丰富的表示，这有助于提高模型的表现。然而，融合技术的选择可能会影响模型的性能，需要根据具体任务进行选择和调优。门控交叉注意力机制使模型能够更好地控制跨模态的信息流，它可以提高模型在处理有噪声输入时的鲁棒性。然而，这种机制可能会增加模型的计算复杂性，且一般适用于特定任务的训练，在通用预训练方面会受到一些制约。

最后，对于是否采用Lora的问题，现有的策略通常倾向于采用Lora进行训练。然而，Lora虽然可以提高模型的训练速度，但可能会牺牲模型的性能，导致模型的效果下降。

综合考虑，现有的多模态大模型架构在处理复杂的多模态任务时，仍然存在一些明显的缺陷和不足，需要进一步的研究和改进。

下面将参照图1所述的多模态大模型训练策略确定方法的流程图，对一种多模态大模型训练策略确定方法进行介绍。

所述多模态大模型训练策略确定方法应用于训练初始多模态大模型，所述初始多模态大模型包括目标大语言模型W1、目标图像编码器W2和初始连接器W3；其中，目标大语言模型用于处理输入的文本信息，目标图像编码器用于处理输入的图像信息，初始连接器用于将目标大语言模型输出的文本信息和目标图像编码器输出的图像信息进行对齐。

本实施例中，目标大语言模型为已知的若干大语言模型中的一种，例如，目标大语言模型为OpenLLaMa-13B大语音模型，目标图像编码器为已知的若干图像编码器中的一种，例如，目标图像编码器为VIT-L/14图像编码器；初始连接器则可以选择任一已知的连接器，例如，连接器选择为线性映射连接器。

本实施例中，目标大语言模型输出的文本信息和目标图像编码器输出的图像信息的维度可能不同，例如，目标大语言模型输出的文本信息为512维，目标图像编码器输出的图像信息的维度为4096维，连接器能够将二者的维度进行对齐，以便于后续处理。

所述多模态大模型训练策略确定方法包括以下步骤：

本实施例中，对于目标大语言模型W1、目标图像编码器W2和初始连接器W3，均可以设置为解冻状态或者冻结状态，因此，能够得到初始多模态大模型对应的3个状态；处于冻结状态的模块，在训练时该模块的参数不变；例如，若目标大语言模型设置为冻结状态，那么，在对初始多模态大模型训练的过程中，目标大语言模型的参数保持不变，不参与梯度更新；若目标大语言模型设置为冻结状态，那么，在对初始多模态大模型训练的过程中，目标大语言模型的参数会随着训练的进行而变化，且参与梯度更新。

本实施例中，可以理解的是，一阶段训练策略是对处于解冻状态的模块进行同时训练，具体包括以下步骤：

S210，若初始多模态大模型的状态为A₁，则使用预设的第一训练集同时对W1、W2和W3进行训练，以得到B₁。

S220，若初始多模态大模型的状态为A₂，则使用预设的第一训练集同时对W1和W3进行训练，不对W2进行训练，以得到B₂。

S230，若初始多模态大模型的状态为A₃，则使用预设的第一训练集同时对W2和W3进行训练，不对W1进行训练，以得到B₃。

本实施例中，第一训练集可以采用现有的图像-文本集LAION-CC-SBU，大小为558K；训练过程中使用交叉熵损失函数(CrossEntropyLoss)来计算每一状态下的初始多模态大模型的损失。

首先，本实施例中将初始多模态大模型的输出(outputs)通过语言模型头(lm_head)进行处理，得到预测的标记分布logits＝lm_head(outputs)。

然后，将预测的标记分布(logits)和实际的标记(labels)进行比较，计算损失：loss＝CrossEntropyLoss(logits，labels)；其中，logits是初始多模态大模型预测的标记分布，labels是实际的标记。

本实施例中，可以理解的是，两阶段训练策略是先对连接器进行训练，然后再对处于解冻状态的其他模块以及连接器同时训练，具体包括以下步骤：

S310，若初始多模态大模型的状态为A₁，则将W1和W2调整为冻结状态，保持W3为解冻状态。

S320，使用预设的第二训练集对W3进行训练。

本实施例中，第二训练集与第一训练集不同，例如，第二训练集可以采用现有的训练集llava_instruct，大小为158k。

S330，若W3的训练符合预设的训练条件，则将W1和W2调整为解冻状态，并使用预设的第一训练集同时对W1、W2和W3进行训练，以得到C₁。

本实施例中，使用第一训练集同时对W1、W2和W3进行训练，能够使得初始多模态大模型通过监督微调最终学习的数据样式为第一训练集中的数据样式，便于与B中的中间多模态大模型进行性能对比。

S340，若初始多模态大模型的状态为A₂，则将W1调整为冻结状态。

S350，使用预设的第二训练集对W3进行训练。

S360，若W3的训练符合预设的训练条件，则将W1调整为解冻状态，并使用预设的第一训练集同时对W1和W3进行训练，以得到C₂。

本实施例中，初始多模态大模型的状态为A₂时，也是先训练连接器，然后在训练其他模块，此处不加赘述。

S370，若初始多模态大模型的状态为A₃，则将W2调整为冻结状态。

S380，使用预设的第二训练集对W3进行训练。

S390，若W3的训练符合预设的训练条件，则将W2调整为解冻状态，并使用预设的第一训练集同时对W2和W3进行训练，以得到C₃。

本实施例中，由于采用的训练策略不同，每一中训练策略对应的中间多模态大模型的性能参数是不同的，具体的，α可以通过以下步骤得到：

S410，获取B中每一中间多模态大模型对应的训练时长，以得到第一训练时长列表T＝(T₁，T₂，T₃)；其中，T₁为B₁对应的训练时长，T₂为B₂对应的训练时长，T₃为B₃对应的训练时长。

本实施例中，每一中间多模态大模型对应的训练时长为每一中间多模态大模型从训练开始到训练结束所用的时长，每一中间多模态大模型训练结束条件可以为相邻两次训练结束后对应的损失函数的差值在预设范围内。

S420，使用B中每一中间多模态大模型对预设的标准样本集进行结果预测，并获取B中每一中间多模态大模型对预设的标准样本集进行结果预测所用的预测时长，以得到预测结果列表U＝(U₁，U₂，U₃)以及预测时长列表H＝(H₁，H₂，H₃)；其中，U₁为B₁对应的预测结果，U₂为B₂对应的预测结果，U₃为B₃对应的预测结果；H₁为B₁对应的预测时长，H₂为B₂对应的预测时长，H₃为B₃对应的预测时长。

本实施例中，标准样本集为人工标注的样本集，其对应有真实结果；例如，对标准样本集中的所有样本进行分类，其对应的标准分类结果即为真实结果；可以使用B中每一中间多模态大模型对预设的标准样本集进行结果预测，且同时获取B中每一中间多模态大模型对预设的标准样本集进行结果预测所用的预测时长，能够得到U和H。

S430，根据U和预设的标准样本集对应的真实结果，确定B中每一中间多模态大模型对应的预测结果与真实结果的相似度，以得到相似度列表F＝(F₁，F₂，F₃)；其中，F₁为B₁对应的预测结果与真实结果的相似度，F₂为B₂对应的预测结果与真实结果的相似度，F₃为B₃对应的预测结果与真实结果的相似度。

需要说明的是，本实施例中，本领域技术人员能够根据实际需要采用现有的模型的预测结果与真实结果的相似度的确定方法，确定B中每一中间多模态大模型对应的预测结果与真实结果的相似度，此处不加赘述。

S440，根据T、H和F，确定α＝(α₁，α₂，α₃)；其中，α₁＝F₁-λ×T₁/MAX(T)-ω×H₁/MAX(H)；α₂＝F₂-λ×T₂/MAX(T)-ω×H₂/MAX(H)；α₃＝F₃-λ×T₃//MAX(T)-ω×H₃/MAX(H)；λ为预设的训练时长权重，ω为预设的预测时长权重；MAX()为预设的求最大值函数；0＜λ＜1，0＜ω＜1。

本实施例中，评判一个多模态大模型的性能，不能仅仅参考模型预测结果的准确性，多模态大模型输出预测结果所用的时长以及训练该多模态大模型所用的时长也是比较重要的因素；以α₁为例，α₁＝F₁-λ×T₁/MAX(T)-ω×H₁/MAX(H)；在确定B₁对应的性能参数α₁时，同时考虑B₁对应的预测结果与真实结果的相似度、训练B₁的所用的训练时长以及B₁对预设的标准样本集进行结果预测所用的预测时长，由此确定出的B₁的性能参数更加准确、合理。

进一步的，在确定α₁时，对T₁和H₁进行归一化处理，使得T₁/MAX(T)以及H₁/MAX(H)处于0到1的范围内，而F₁也处于0到1的范围内，从而使得α₁也处于0到1的范围内；同样的，α₂和α₃也处于0到1的范围内，便于后续对比性能参数。

本实施例中，λ和ω可以根据用户的实际需求进行是设置，例如，若用户1对模型的训练时间要求较低，对模型的预测时间要求较高，那么，可以设置λ＜ω；若用户2对模型的训练时间要求较高，对模型的预测时间要求较低，那么，可以设置λ＞ω；从而可以根据用户的实际需求来调整训练时间和预测时间对应的权重的大小，使得模型的性能参数更加符合用户的实际需求。

进一步的，β也可以采用与α相同的方法得到，此处不加赘述。

本实施例中，若α₁＜β₁、α₂＜β₂且α₃＜β₃，表示无论在那一状态下，使用预设的两阶段训练策略训练得到的中间多模态大模型的性能均较好，因此，将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略。

本实施例的多模态大模型训练策略确定方法，获取初始多模态大模型的每一状态，分别使用一阶段训练策略和两阶段训练策略对处于每一状态的初始多模态大模型进行训练，得到第一中间多模态大模型列表B和第二中间多模态大模型列表C；获取第一中间多模态大模型列表B中每一中间多模态大模型的性能参数以及第二中间多模态大模型列表C中每一中间多模态大模型的性能参数，以得到第一性能参数列表α和第二性能参数列表β；若α中的每一性能参数均小于β中对应的性能参数，表示使用预设的两阶段训练策略训练得到的中间多模态大模型的性能较好，因此，将预设的两阶段训练策略确定为初始多模态大模型对应的目标训练策略；从而能够达到确定出最佳的模型训练策略的目的。

进一步的，通过上述步骤确定出最佳的训练策略之后，由于连接器的选择是随机的，不一定是最优的连接器，连接器在多模态大模型中起到至关重要的作用，它负责将来自不同模态的信息进行有效的融合，以提高模型的性能。因此，本申请还提供一种目标连接器的确定方法，具体包括以下步骤：

S600，获取已知的每一种连接器，以得到连接器列表L＝(L₁，L₂，…，L_i，…，L_n)，i＝1，2，…n；其中，L_i为已知的第i种连接器，n为已知的连接器的数量。

S610，使用L中的每一种已知的连接器替换初始多模态大模型对应的初始连接器，以得到候选多模态大模型列表QT＝(QT₁，QT₂，…，QT_i，…，QT_n)；其中，QT_i为使用L_i替换初始多模态大模型对应的初始连接器得到的候选多模态大模型；其中，每一候选多模态大模型的状态相同。

S620，使用目标训练策略对QT中的每一候选多模态大模型进行训练，以得到备用多模态大模型列表BT＝(BT₁，BT₂，…，BT_i，…，BT_n)；其中，BT_i为使用目标训练策略对QT_i进行训练得到的备用多模态大模型。

本实施例中，可以选择在A中的任一状态下，使用目标训练策略对QT中的每一候选多模态大模型进行训练。

S630，获取BT中每一备用多模态大模型的性能参数，以得到第三性能参数列表η＝(η₁，η₂，…，η_i，…，η_n)；其中，η_i为BT_i对应的性能参数。

S640，获取目标性能参数QU＝MAX(η)；其中，MAX()为预设的求最大值函数。

S650，将QU对应的备用多模态大模型对应的连接器确定为目标连接器。

本实施例中，通过上述步骤S600-S650，能够在确定目标大语言模型和目标图像编码器的情况下，确定出最优的连接器，进一步提高得到的多模态大语言模型的性能。

本实施例中，经过实验，在OpenLLaMa-13B(解冻)+连接器(解冻)+VIT-L/14和两阶段训练策略训练前提下，发现使用线性映射作为连接器效果更佳，因此，在相同条件下，优先考虑线性映射。

线性映射连接器是一种简单而有效的连接器，它通过一个线性变换将一个模态的特征映射到另一个模态的特征空间，从而实现特征的融合。

进一步的，在步骤S500之后，所述方法还包括以下步骤：

S700，获取用户预设的期望训练时长TH。

S710，若TH＜TY，则在对初始多模态大模型的训练过程中，使用Lora模型对初始多模态大模型进行微调；否则，不使用Lora模型对初始多模态大模型进行微调。

本实施例中，Lora是一种局部重参数化策略，它可以在保持模型大小不变的情况下，提高模型的性能；在本实施例中，Lora通过在模型的全连接层引入局部重参数化，使得模型能够在保持模型大小不变的情况下，提高模型的性能。

在本实施例中，可以通过实验来比较使用Lora和不使用Lora的模型的性能，以找到最适合特定任务的策略；实验表明，在相同情况下使用Lora和不使用Lora的全量微调相比，结果略差，但是，使用Lora时，训练时间大大缩短；因此，在考虑时间和效率的前提下，优先考虑Lora，否则，进行全量微调。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

根据本申请的这种实施方式的电子设备。电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于：上述至少一个处理器、上述至少一个储存器、连接不同系统组件(包括储存器和处理器)的总线。

其中，所述储存器存储有程序代码，所述程序代码可以被所述处理器执行，使得所述处理器执行本说明书中描述的各种实施例中的步骤。

储存器可以包括易失性储存器形式的可读介质，例如随机存取储存器(RAM)和/或高速缓存储存器，还可以进一步包括只读储存器(ROM)。

储存器还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括储存器总线或者储存器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种多模态大模型训练策略确定方法，其特征在于，所述方法应用于训练初始多模态大模型，所述初始多模态大模型包括目标大语言模型W1、目标图像编码器W2和初始连接器W3；其中，目标大语言模型用于处理输入的文本信息，目标图像编码器用于处理输入的图像信息，初始连接器用于将目标大语言模型输出的文本信息和目标图像编码器输出的图像信息进行对齐；

所述方法包括以下步骤：

S100，获取初始多模态大模型对应的每一状态，以得到状态列表A＝(A₁，A₂，A₃)；其中，A₁、A₂和A₃分别为初始多模态大模型对应的第一状态、第二状态和第三状态；初始多模态大模型对应的状态为A₁时，W1、W2和W3均处于解冻状态；初始多模态大模型对应的状态为A₂时，W1和W3均处于解冻状态，W2处于冻结状态；初始多模态大模型对应的状态为A₃时，W2和W3均处于解冻状态，W1处于冻结状态；

S200，使用预设的一阶段训练策略，分别对处于A中每一状态的初始多模态大模型进行训练，以得到第一中间多模态大模型列表B＝(B₁，B₂，B₃)；其中，B₁为对处于A₁的初始多模态大模型训练得到的中间多模态大模型，B₂为对处于A₂的初始多模态大模型训练得到的中间多模态大模型，B₃为对处于A₃的初始多模态大模型训练得到的中间多模态大模型；

S300，使用预设的两阶段训练策略，分别对处于A中每一状态的初始多模态大模型进行训练，以得到第二中间多模态大模型列表C＝(C₁，C₂，C₃)；其中，C₁为对处于A₁的初始多模态大模型训练得到的中间多模态大模型，C₂为对处于A₂的初始多模态大模型训练得到的中间多模态大模型，C₃为对处于A₃的初始多模态大模型训练得到的中间多模态大模型；

S400，获取B中每一中间多模态大模型的性能参数，以得到第一性能参数列表α＝(α₁，α₂，α₃)；并获取C中每一中间多模态大模型的性能参数，以得到第二性能参数列表β＝(β₁，β₂，β₃)；其中，α₁为B₁的性能参数，α₂为B₂的性能参数，α₃为B₃的性能参数，β₁为C₁的性能参数，β₂为C₂的性能参数，β₃为C₃的性能参数；

2.根据权利要求1所述的多模态大模型训练策略确定方法，其特征在于，步骤S200包括以下步骤：

S210，若初始多模态大模型的状态为A₁，则使用预设的第一训练集同时对W1、W2和W3进行训练，以得到B₁；

S220，若初始多模态大模型的状态为A₂，则使用预设的第一训练集同时对W1和W3进行训练，不对W2进行训练，以得到B₂；

3.根据权利要求1所述的多模态大模型训练策略确定方法，其特征在于，步骤S300包括以下步骤：

S310，若初始多模态大模型的状态为A₁，则将W1和W2调整为冻结状态，保持W3为解冻状态；

S320，使用预设的第二训练集对W3进行训练；

S330，若W3的训练符合预设的训练条件，则将W1和W2调整为解冻状态，并使用预设的第一训练集同时对W1、W2和W3进行训练，以得到C₁；

S340，若初始多模态大模型的状态为A₂，则将W1调整为冻结状态；

S350，使用预设的第二训练集对W3进行训练；

S360，若W3的训练符合预设的训练条件，则将W1调整为解冻状态，并使用预设的第一训练集同时对W1和W3进行训练，以得到C₂；

S370，若初始多模态大模型的状态为A₃，则将W2调整为冻结状态；

S380，使用预设的第二训练集对W3进行训练；

4.根据权利要求1所述的多模态大模型训练策略确定方法，其特征在于，α通过以下步骤得到：

S410，获取B中每一中间多模态大模型对应的训练时长，以得到第一训练时长列表T＝(T₁，T₂，T₃)；其中，T₁为B₁对应的训练时长，T₂为B₂对应的训练时长，T₃为B₃对应的训练时长；

S420，使用B中每一中间多模态大模型对预设的标准样本集进行结果预测，并获取B中每一中间多模态大模型对预设的标准样本集进行结果预测所用的预测时长，以得到预测结果列表U＝(U₁，U₂，U₃)以及预测时长列表H＝(H₁，H₂，H₃)；其中，U₁为B₁对应的预测结果，U₂为B₂对应的预测结果，U₃为B₃对应的预测结果；H₁为B₁对应的预测时长，H₂为B₂对应的预测时长，H₃为B₃对应的预测时长；

S430，根据U和预设的标准样本集对应的真实结果，确定B中每一中间多模态大模型对应的预测结果与真实结果的相似度，以得到相似度列表F＝(F₁，F₂，F₃)；其中，F₁为B₁对应的预测结果与真实结果的相似度，F₂为B₂对应的预测结果与真实结果的相似度，F₃为B₃对应的预测结果与真实结果的相似度；

5.根据权利要求1所述的多模态大模型训练策略确定方法，其特征在于，在步骤S500之后，所述方法还包括以下步骤：

S600，获取已知的每一种连接器，以得到连接器列表L＝(L₁，L₂，…，L_i，…，L_n)，i＝1，2，…n；其中，L_i为已知的第i种连接器，n为已知的连接器的数量；

S610，使用L中的每一种已知的连接器替换初始多模态大模型对应的初始连接器，以得到候选多模态大模型列表QT＝(QT₁，QT₂，…，QT_i，…，QT_n)；其中，QT_i为使用L_i替换初始多模态大模型对应的初始连接器得到的候选多模态大模型；其中，每一候选多模态大模型的状态相同；

S620，使用目标训练策略对QT中的每一候选多模态大模型进行训练，以得到备用多模态大模型列表BT＝(BT₁，BT₂，…，BT_i，…，BT_n)；其中，BT_i为使用目标训练策略对QT_i进行训练得到的备用多模态大模型；

S630，获取BT中每一备用多模态大模型的性能参数，以得到第三性能参数列表η＝(η₁，η₂，…，η_i，…，η_n)；其中，η_i为BT_i对应的性能参数；

S640，获取目标性能参数QU＝MAX(η)；其中，MAX()为预设的求最大值函数；

6.根据权利要求1所述的多模态大模型训练策略确定方法，其特征在于，在步骤S500之后，所述方法还包括以下步骤：

S700，获取用户预设的期望训练时长TH；

7.根据权利要求1所述的多模态大模型训练策略确定方法，其特征在于，目标大语言模型包括OpenLLaMa-13B大语言模型。

8.一种非瞬时性计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项所述的多模态大模型训练策略确定方法。

9.一种电子设备，其特征在于，包括处理器和权利要求8所述的非瞬时性计算机可读存储介质。