CN117709483A

CN117709483A - 用于多模态大语言模型的迭代优化方法及系统

Info

Publication number: CN117709483A
Application number: CN202311726942.3A
Authority: CN
Inventors: 杨云淏; 张静然; 谢延; 谢治宇; 沈复民; 申恒涛; 李佩芸; 李乐
Original assignee: Chengdu Koala Youran Technology Co ltd
Current assignee: Chengdu Koala Youran Technology Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-15

Abstract

本发明公开了用于多模态大语言模型的迭代优化方法及系统，方法包括：选择评估基准对目标多模态大语言模型进行评估，用模型能够正确完成的所有指令构建成功案例池；用模型不能够正确完成的所有指令构建失败案例池；通过训练好的大语言模型对成功案例池中的成功源指令进行进化，以替换评估基准中对应的成功源指令；通过训练好的大语言模型对失败案例池中的失败源指令进行处理，以生成训练指令作为增量训练数据集；用增量训练数据集对目标多模态大语言模型进行训练。本发明实现了动态的、反馈导向的训练与评估机制，确保模型的持续优化，确保产生更为有针对性和高效的指令数据，从而更加精确地补充模型的不足之处。

Description

用于多模态大语言模型的迭代优化方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及用于多模态大语言模型的迭代优化方法及系统。

背景技术

现行技术中的多模态大语言模型主要由两大部分构成：一个是负责视觉特征提取的视觉模块，另一个是大语言模型部分。这样的模型的微调通常分为两个关键阶段。在第一阶段，通过使用大量的文本-图像配对数据，模型会学习如何联合其视觉和文本的特征。而在第二阶段，模型则主要依赖高质量的标注指令数据进行深度微调。值得注意的是，这些高质量的指令数据对于确保模型的最终性能起到决定性的作用。

为了更深入地挖掘和优化多模态大语言模型的潜能，当前的研究主要集中在两大方向：一是构建更优质的指令微调数据集，二是设计更精确的评测基准。1）在指令数据集的构建方面，方法包括：从已有的公开数据集中筛选并手工构造指令数据集，或者利用如GPT这样的单模态大语言模型，基于图像的注释信息自动生成指令数据集，从而大大减少人力成本。2）在评测基准方面，研究者们已经提出了多种不同的评测标准，以便更为全面和精确地评估多模态大语言模型的各项性能。

尽管上述的研究取得了一定的进展，但仍存在一些关键的不足之处，具体如下：

1）模型训练与评估的孤立性：当前的多模态大语言模型的训练和评估流程相对独立。虽然评测基准能够揭示模型在不同能力上的表现，但要根据这些反馈来进一步优化模型并不是一个直观的过程。特别是当评测基准非常全面，而模型的缺陷涉及多个不同的，甚至是隐晦的方面时。一个可能的应对策略是由专家对评估结果进行深入的观察和分析，并据此注释或收集新的微调指令数据。但这无疑会带来巨大的人力成本。

2）评测基准的静态性：目前的评测基准相对固定，不具备自适应性。随着模型技术的快速发展和能力的持续提升，简单且固定的评测基准可能不再适用。它们可能无法深入地评估模型的真实性能，也难以为模型的进一步优化提供有益的指导。

发明内容

针对上述问题，本发明提供了如下的技术方案：

用于多模态大语言模型的迭代优化方法，包括步骤：

S1、选择评估基准对目标多模态大语言模型进行评估，用目标多模态大语言模型能够正确完成的所有指令构建成功案例池；用目标多模态大语言模型不能够正确完成的所有指令构建失败案例池；

S2、通过训练好的大语言模型对所述成功案例池中的成功源指令进行进化，以替换评估基准中对应的成功源指令，作为新的评估基准；

S3、通过训练好的大语言模型对所述失败案例池中的失败源指令进行处理，以生成训练指令作为增量训练数据集；

S4、用所述增量训练数据集对目标多模态大语言模型进行训练；判断训练后的目标多模态大语言模型是否收敛，若是，则优化结束；若否，则重复步骤S1-S4。

在一些较优的实施例中，步骤S2中所述通过训练好的大语言模型对所述成功案例池中的成功源指令进行进化的方法包括：

要求训练好的大语言模型对所述成功案例池中的成功源指令所覆盖的知识和能力进行分析，并输出能更深地覆盖上述知识和能力的进化后指令，以替换评估基准中对应的成功源指令，作为新的评估基准。

在一些较优的实施例中，步骤S3中所述通过训练好的大语言模型对所述失败案例池中的失败源指令进行处理的方法包括：

S301、对失败案例池中的失败源指令进行分类；

S302、随机选择问题类型1,n]，从失败案例池中随机选择若干属于类型/>的失败源指令作为上下文学习示例，n为问题类型总数；

S303、从公开图像数据集中先随机选择若干图像，再选择与所述上下文学习示例相似的若干图像，共同作为查询图像集；

S304、依次将所述上下文学习示例、查询图像集中提取的单幅查询图像和提示语作为提示指令，要求训练好的大语言模型生成针对查询图像的训练提示语；

S305、将所述单幅查询图像和训练提示语融合作为训练指令。

在一些较优的实施例中，步骤S303中所述从公开图像数据集中选择与上下文学习示例相似的若干第二查询图像的方法包括：

S3031、使用训练好的图像编码器提取所述公开图像数据集中图像/>的特征向量，k为公开图像数据集中的图像数量；

S3032、使用训练好的图像编码器提取所述上下文学习示例中示例图像的特征向量/>，j为所选上下文学习示例数量；

S3033、计算与/>间的相似度：/>，按相似度从高到低选择若干图像作为第二查询图像。

在一些较优的实施例中，步骤S304中提示语的优化方法包括：

S3041、要求训练好的大语言模型根据当前提示语生成若干过渡指令，选择模糊和/或不适宜的过渡指令作为负例；

S3042、利用负例引导训练好的大语言模型对当前提示语进行修改，生成改进提示语；

S3043、将若干负例和改进提示语融合，生成最终的提示语。

在一些较优的实施例中，步骤S4中所述用增量训练数据集对目标多模态大语言模型进行训练的方法包括：

在第轮训练中生成最新的训练数据/>后，使用本轮及之前生成的所有训练数据对目标多模态大语言模型进行微调训练。

本发明还公开了用于多模态大语言模型的迭代优化系统，包括：

评估基准模块，用于存储、读取和修改评估基准，并利用评估基准对目标多模态大语言模型进行评估；

成功案例模块，分别与评估基准模块和训练好的大语言模型连接，用于存储、读取和修改目标多模态大语言模型能够正确完成的所有指令，通过训练好的大语言模型对成功源指令进行进化，以替换评估基准模块中存储的评估基准对应的成功源指令；

失败案例模块，分别与评估基准模块和训练好的大语言模型连接，用于存储、读取和修改目标多模态大语言模型不能够正确完成的所有指令，通过训练好的大语言模型对失败源指令进行处理，以生成训练指令作为增量训练数据集；

训练模块，分别与失败案例模块和目标多模态大语言模型连接，用于利用所述增量训练数据集对目标多模态大语言模型进行训练；

循环模块，分别与目标多模态大语言模型和评估基准模块连接，用于判断训练后的目标多模态大语言模型是否收敛，若是，则结束优化流程；若否，则控制评估基准模块用最新的评估基准对目标多模态大语言模型进行评估。

有益效果

本发明实现了一个动态的、反馈导向的训练与评估机制，可以根据多模态大语言模型的实际性能和评估结果进行动态调整，确保模型的持续优化，通过引导指令的进化与生成，可以确保产生更为有针对性和高效的指令数据，从而更加精确地补充模型的不足之处；随着指令的不断进化，评估基准也会进行相应的更新，确保评估基准始终与模型的最新能力相匹配，避免了评估结果的滞后或失真。本发明的自动化流程减少了人为干预和专家评估的需要，从而大大节省了人力成本。

附图说明

图1为本发明一种较优实施例中的用于多模态大语言模型的迭代优化方法步骤示意图；

图2为本发明一种较优实施例中的用于多模态大语言模型的迭代优化方法流程示意图；

图3为发明一种较优实施例中的用于多模态大语言模型的迭代优化系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1-图2所示，本实施例提供了一种用于多模态大语言模型的迭代优化方法，包括步骤：

S1、选择评估基准对目标多模态大语言模型进行评估，用目标多模态大语言模型能够正确完成的所有指令构建成功案例池；用目标多模态大语言模型不能够正确完成的所有指令构建失败案例池。

其中，多模态大语言模型 (Multimodal Large Language Model) 是一种深度学习模型，它能够处理并结合来自多个不同模态（如文本、图像、声音等）的数据，通常由两个或更多的子模型组成，例如一个文本处理模型和一个图像处理模型，这些子模型经过训练后可以协同工作，例如OPENAI公司发布的GPT系列模型，GOOGLE公司发布的Bard模型等。

评估基准 (Evaluation Benchmark) 是用于评估机器学习模型性能的一组数据、任务和评价指标。例如多模态大语言模型的综合评价标准MME。

所述指令 (Instruction) 是指导向模型的文本提示或请求，用于引导模型生成特定的输出或行为。在多模态大语言模型中，指令常用于引导模型执行特定任务，如生成文本描述、回答问题或执行某种操作。在本发明中，所述“指令”是一个综合性的输入，由三个部分组成：“上下文示例”、“查询图像”和“提示语”。其中，“上下文示例”提供了模型需要参考的上下文信息；“查询图像”为模型提供了视觉信息；而“提示语”则为模型提供了具体的执行指导。

S2、通过训练好的大语言模型对所述成功案例池中的成功源指令进行进化，以替换评估基准中对应的成功源指令，作为新的评估基准。应当理解的是，所述成功源指令是指成功案例池中存储的、源自评估基准的且被模型正确完成的指令，同理，所述失败源指令是指失败案例池中存储的、源自评估基准的且被未模型正确完成的指令。所述训练好的大语言模型是指已完成训练并可自由使用的大语言模型，在本发明中，优选的使用GPT系列模型作为训练好的大语言模型来进行目标多模态大语言模型的优化辅助。

所述进化指令是针对成功案例池的，对于在本轮评估中模型成功完成的指令，需要进一步深化该指令，以更好地评估模型。

所述通过训练好的大语言模型对所述成功案例池中的成功源指令进行进化的目的是，针对成功案例池中在本轮评估中模型成功完成的指令进行进一步深化该指令，以更好地评估模型。其进化方法可以是为训练好的大语言模型设定某些限制条件，使其在满足这些条件的同时完成任务，从而完成构建，例如，要求模型在描述图像时，只使用不超过20个词，或者只使用特定的词汇；也可以是在成功源指令的基础上，加入更具挑战性的问题或要求，例如原始的指令是“描述图像中的活动”，进化后的指令可以是“描述图像中的活动，并推测这些活动的背后可能的情境”。

在一些较优的实施例中，给出了一种根通过训练好的大语言模型对所述成功案例池中的成功源指令进行进化的方法，包括：要求训练好的大语言模型对所述成功案例池中的成功源指令所覆盖的知识和能力进行分析，并输出能更深地覆盖上述知识和能力的进化后指令，以替换评估基准中对应的成功源指令，作为新的评估基准。

下面给出一种具体操作示例：

1、知识与能力分析：首先，训练好的大语言模型被要求分析成功案例池中的成功源指令，特别是这些指令所涉及的知识和能力。

2、构建进化指令：

2.1、图像信息继承：进化后的指令继承了原始指令的图像信息。

2.2、知识与能力的深化：通过特定的提示语，要求模型对原始指令所涉及的知识和能力进行深入分析。

2.3、设计新指令：基于上述深入分析，设计一条新的指令，旨在更为深入地涵盖和评估相关的知识和能力。

3、提供答案：为新设计的进化指令提供一个标准答案，以便于后续评估目标多模态大语言模型的执行情况。

S3、通过训练好的大语言模型对所述失败案例池中的失败源指令进行处理，以生成训练指令作为增量训练数据集。所述训练指令作用是作为增量训练数据以提升目标多模态大语言模型能力。训练指令的生成可以是通过人工分析失败的原因，找到模型的弱点，明确要求模型生成与失败任务相关的新训练数据。例如，如果模型在某个图像+文本的任务上失败，生成指令可以是：“查看以下图像，然后生成一个与图像内容相关的描述，并提供五个可能的答案选项。”

在一些较优的实施例中，还给出了一种通过训练好的大语言模型对所述失败案例池中的失败源指令进行处理的方法，包括：

S301、对失败案例池中的失败源指令进行分类；优选的，可以将失败源指令划分为12个不同的问题种类中，包括：1.身份推理，2.物理属性推理，3.性质识别，4.功能推理，5.物体定位，6.场景识别，7.空间关系分析，8.物理关系分析，9.动作识别，10.图像风格分析，11.图像主题分析，12.基于知识的推理。

S302、随机选择问题类型1,n]，从失败案例池中随机选择若干属于类型/>的失败源指令作为上下文学习示例，n为问题类型总数；该步骤主要是为了有效选择合适的图像和上下文学习示例，采用的是一种自适应失败案例选择方法。

S303、从公开图像数据集中先随机选择若干图像，再选择与所述上下文学习示例相似的若干图像，共同作为查询图像集；本领域技术人员应当知晓，考察图像相似性的方法有很多，为了更详细的说明本发明的技术方案，在一些较优的实施例中提供了一种基于余弦相似度计算的上下文学习示例相似图像选择方法，应当指出的是，该方法不应被理解为唯一的实现方法，其具体包括：

S3031、使用训练好的图像编码器提取所述公开图像数据集中所有图像的特征向量/>，k为公开图像数据集中的图像数量；其中，所述训练好的图像编码器可以是基于开源CLIP模型的图像编码器。

S3032、使用训练好的图像编码器（image encoder）提取所述上下文学习示例中示例图像的特征向量/>，j为所选上下文学习示例数量；

S3033、计算与/>间的相似度：/>，按相似度从高到低选择若干图像作为与上下文学习示例相似的图像。

S304、依次将所述上下文学习示例、查询图像集中提取的单幅查询图像和提示语作为提示指令，要求训练好的大语言模型生成针对查询图像的训练提示语；如前所述，所述提示语（prompt）是指令的一部分，用来引导模型生成特定类型的回复或完成特定的任务。现有技术中，提示语大多由本领域技术人员根据自身经验进行编制。在一些较优的实施例中，给出了一种引导多模态大语言模型自行生成提示语的示例，具体包括：

步骤S304中提示语的优化方法包括：

S3042、利用负例引导训练好的大语言模型对当前提示语进行修改，以避免生成类似于负例的问题，生成改进提示语；

S3043、将若干负例和改进提示语融合，生成最终的提示语；此处选择的负例数量不应过多，其作用是提示模型不要生成类似问题。

S305、将所述单幅查询图像和训练提示语融合作为训练指令。

S4、用所述增量训练数据集对目标多模态大语言模型进行训练；判断训练后的目标多模态大语言模型是否收敛，若是，则优化结束；若否，则重复步骤S1-S4。应当理解的是，由于对多模态大语言模型进行全参数微调会带来极大的开销，因此本发明采用微调的方式对目标多模态大语言模型进行训练。在一些较优的实施例中，在第轮训练中生成最新的训练数据/>后，使用本轮及之前生成的所有训练数据/>对目标多模态大语言模型进行微调训练。具体的，本实施例还给出了一种基于Low-Rank微调的具体训练步骤，包括：

冻结住大部分的模型参数，只对连接视觉模块和大语言模型的线性投影层进行微调；

假设模型某层的参数为，Low-Rank微调为模型添加了一些额外的参数，其中/>，而且/>，其推理过程则相应变为。

应当理解的是，所述收敛的目标是模型的性能大致饱和或达到迭代次数限制。

如图3所示，本实施是在上述实施例1的基础上展开的，本实施例提供了一种用于多模态大语言模型的迭代优化系统，包括：

在一些较优的实施例中，所述成功案例模块通过训练好的大语言模型对成功源指令进行进化的方法包括：要求训练好的大语言模型对所述成功案例池中的成功源指令所覆盖的知识和能力进行分析，并输出能更深地覆盖上述知识和能力的进化后指令，以替换评估基准中对应的成功源指令，作为新的评估基准。

进一步的，失败案例模块通过训练好的大语言模型对失败源指令进行处理的方法包括：

S301、对失败案例池中的失败源指令进行分类；

S305、将所述单幅查询图像和训练提示语融合作为训练指令。

更进一步的是，所述失败案例模块从公开图像数据集中选择与所述上下文学习示例相似的若干第二查询图像的方法包括：

在另一些较优的实施例中，所述失败案例模块对提示语的优化方法包括：

S3043、将若干负例和改进提示语融合，生成最终的提示语。

所述训练模块用增量训练数据集对目标多模态大语言模型进行训练的方法包括：

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.用于多模态大语言模型的迭代优化方法，其特征在于，包括步骤：

2.如权利要求1所述的用于多模态大语言模型的迭代优化方法，其特征在于，步骤S2中所述通过训练好的大语言模型对所述成功案例池中的成功源指令进行进化的方法包括：

3.如权利要求1所述的用于多模态大语言模型的迭代优化方法，其特征在于，步骤S3中所述通过训练好的大语言模型对所述失败案例池中的失败源指令进行处理的方法包括：

S301、对失败案例池中的失败源指令进行分类；

S305、将所述单幅查询图像和训练提示语融合作为训练指令。

4.如权利要求3所述的用于多模态大语言模型的迭代优化方法，其特征在于，步骤S303中所述从公开图像数据集中选择与上下文学习示例相似的若干第二查询图像的方法包括：

5.如权利要求3所述的用于多模态大语言模型的迭代优化方法，其特征在于，步骤S304中提示语的优化方法包括：

S3043、将若干负例和改进提示语融合，生成最终的提示语。

6.如权利要求1所述的用于多模态大语言模型的迭代优化方法，其特征在于，步骤S4中所述用增量训练数据集对目标多模态大语言模型进行训练的方法包括：

7.用于多模态大语言模型的迭代优化系统，其特征在于，包括：