CN117218498B

CN117218498B - 基于多模态编码器的多模态大语言模型训练方法及系统

Info

Publication number: CN117218498B
Application number: CN202311477951.3A
Authority: CN
Inventors: 曹自强; 秦罗政; 付国宏; 曹敏
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2023-11-08
Filing date: 2023-11-08
Publication date: 2024-02-23
Anticipated expiration: 2043-11-08
Also published as: CN117218498A

Abstract

本发明公开了基于多模态编码器的多模态大语言模型训练方法及系统，涉及电子信息技术领域，包括构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成；训练流程包括基于多模态编码器抽取文本指令可知的图像Queries，生成文本回复并计算损失函数；推理流程包括基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。本发明所述方法借助多模态编码器使抽取的图像特征在早期与输入的文本指令交互，使抽取的图像特征能够更精准地与输入的文本指令对齐，运用现成模型已有的知识，降低了训练成本，本发明在精准性、训练成本和扩展性方面都取得更加良好的效果。

Description

基于多模态编码器的多模态大语言模型训练方法及系统

技术领域

本发明涉及电子信息技术领域，具体为基于多模态编码器的多模态大语言模型训练方法及系统。

背景技术

随着ChatGPT、GPT-4等大语言模型(Large Language Model, LLM)展现了在文本上强大的理解、推理和生成能力，尤其是其拥有与人类通过自然语言进行交互并合理完成人类指令的能力，激发了工业界和学术界的广泛兴趣。有鉴于此，工业界和学术界针对大语言模型进行了多方面的应用与系统的研究，使得大语言模型在机器助手、翻译、代码生成、数学解题、复杂现实推理、对话生成、故事生成、机器人决策等领域展现出了非常高的实用价值与落地可能，极大地提高了这些领域的生产效率和产品质量。

由于大语言模型是面向文本单模态的，大语言模型只能根据输入的文本生成文本，无法理解图片、视频、语音等在人类社会中时常用到的其他模态。为了增强大语言模型能力，为用户提供更加丰富的交互方式，让大语言模型的生成结果与用户输入进一步对齐，多模态大语言模型(Multimodal Large Language Model, MLLM)应运而生。依托于大语言模型强大的理解和推理能力，多模态大语言模型能够输入文本、图片、视频、语音等多种模态，对它们进行统一的理解与推理，并据此生成合理的文本回复。

为了训练多模态大语言模型，需要通过图像编码器将对图片的感知、理解能力迁移给大语言模型，而由于大语言模型和图像编码器的参数量都很大，从零开始联合训练的成本十分高昂。与此同时，之前的工作已经贡献了很多预训练好的图像编码器和大语言模型，拥有不错的单模态性能。有鉴于此，BLIP2提出利用一个参数量较小、可学习的适配器连接一个冻结的图像编码器和一个冻结的大语言模型的训练方法，让图像编码器抽取的图像特征能够被大语言模型理解。

BLIP2式的训练方法与从零开始训练的训练方法相比，有训练成本低，性能表现优异的特点这使得采用类似BLIP2的适配器训练多模态大语言模型是当前工业界和学术界的主流选择，典型的采用BLIP2式训练的模型有InstructBLIP、 MiniGPT4 、VisualGLM和Video-LLaMA等。

但是，使用BLIP2式的训练方法训练多模态大语言模型，存在许多问题：文本指令未知的图像编码。BLIP2式的训练方法使用单模态图像编码器对输入图像进行特征编码，这种单模态图像编码器只能在只输入图像的情况下对图像特征进行编码，这使得图像编码时对输入文本指令未知。对输入文本指令未知的图像编码限制了抽取图像特征与文本指令的对齐程度，进而限制了多模态大语言模型跟随指令的能力。

适配器训练成本较大。BLIP2式的训练方法需要训练一个适配器。适配器会对图像编码器抽取的图像特征进行精炼，精炼出可以为大语言模型理解的图像Queries，以对齐图像编码器和大语言模型。在图像编码器和大语言模型都已经预训练好的情况下，BLIP2的训练方法仍然需要准备几百万图文对数据用于训练拥有1亿8800万可学习参数的适配器，训练开销仍有不小的优化空间。

缺乏对图片上物体的理解、推理能力。由于通用图像编码器没有设计针对图片上物体的输入处理方式，缺乏对针对图片上物体的理解、推理能力。

发明内容

鉴于上述存在的问题，提出了本发明。

因此，本发明解决的技术问题是：现有的多模态大语言模型训练方法存在训练成本较大，文本指令未知的图像编码，以及如何实现对图片上物体的理解、推理能力的优化问题。

为解决上述技术问题，本发明提供如下技术方案：构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成；对模型进行训练基于多模态编码器抽取文本指令可知的图像Queries，生成文本回复并计算损失函数；模型推理基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。

作为本发明所述的基于多模态编码器的多模态大语言模型训练方法的一种优选方案，其中：所述多模态大语言模型训练框架包括参数冻结的多模态编码器，多模态编码器在同一个表征空间同时表示图片和文本，多模态编码器经过掩码建模预训练，通过多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列，在编码器最后一层隐层状态包含图文联合信息，通过投影层投影后得到图像Queries；参数冻结，经过预训练的大语言模型，结合输入的图像Queries和文本数据，根据模型已有知识进行对输入语义的理解、推理和生成，通过并行推理技术及大模型推理加速技术，在实时应用场景中生成文本回复；投影层将多模态编码器抽取的连续掩码序列的最后一层隐层状态映射到大语言模型的表征空间，当冻结多模态编码器得到图像Queries和大语言模型时，大语言模型理解经过投影后多模态编码器提炼的总结性图文联合信息。

作为本发明所述的基于多模态编码器的多模态大语言模型训练方法的一种优选方案，其中：所述对模型进行训练包括基于多模态编码器抽取文本指令可知的图像Queries，首先将输入图像，输入文本指令/>和/>个掩码标记组成的连续掩码序列，拼接成一个序列/>，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态/>包含经过精炼的总结性图文联合信息，隐层状态表示为：

；

将隐层状态送入一个参数可学习的线性投影层/>，通过线性变换将隐层状态从多模态编码器/>的表征空间投影到大语言模型/>的表征空间，/>转变成大语言模型理解的/>个图像Queries，转换过程表示为：

；

其中，为/>个图像Queries中的第/>个。

作为本发明所述的基于多模态编码器的多模态大语言模型训练方法的一种优选方案，其中：所述对模型进行训练还包括生成文本回复并计算生成文本与金标文本的交叉熵损失函数，通过用户输入的图像和文本指令/>，数据的预期输出金标文本，/>表示金标文本的第/>个词，将抽取的图像Queries和文本指令拼接，送入大语言模型，大语言模型将以教师监督和自回归的方式生成文本回复，并通过计算损失函数，得到用于更新可学习投影层参数的梯度，更新投影层参数；

得到输入大语言模型/>，得到最后一层隐层状态/>表示为：

；

通过一个线性层和Softmax得到最终概率表示为：

；

其中，为线性层参数，设模型参数为/>，本阶段的损失函数/>表示为：

；

对损失函数求模型参数/>的偏导数，得到梯度/>表示为：

；

采用小批量梯度下降法，计算出一个小批量里每个数据的梯度，计算平均值/>表示为：

；

更新模型参数，表示为：

；

其中，为小批量平均梯度，/>为学习率。

作为本发明所述的基于多模态编码器的多模态大语言模型训练方法的一种优选方案，其中：所述模型推理包括基于多模态编码器抽取文本指令可知的图像Queries，多模态编码器经过掩码建模预训练，根据多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态包含经过精炼的总结性图文联合信息，经投影层投影后得到图像Queries。

作为本发明所述的基于多模态编码器的多模态大语言模型训练方法的一种优选方案，其中：所述模型推理还包括基于大语言模型面向文本指令和图像Queries生成文本回复，将抽取的图像Queries和文本指令拼接，送入大语言模型，利用大语言模型生成文本回复，生成过程表示为：

；

其中，为/>个图像Queries中的第/>个，0<i≤k。

作为本发明所述的基于多模态编码器的多模态大语言模型训练方法的一种优选方案，其中：所述模型推理还包括当用户上传一张包含物品的图片时，系统将图片与用户提供的文字描述输入到多模态编码器中进行编码，多模态编码器生成图文联合信息，并通过投影层将隐层状态转换为图像Queries，系统检测输入的关键词，预测用户意图，若系统检测到关键词价值和使用，预测用户希望了解物品的价值和使用方法，基于预测的用户意图，系统将向大语言模型提出问题，若预测用户希望了解物品的价值，系统向大语言模型提问物品价值，若用户意图是了解使用方法，系统提问物品的使用方法，大语言模型将根据问题生成答案，系统将物品信息和预测的答案整理并返回给用户，若物品为五金类，向用户提供使用方法，店铺以及平均价格，若物品为食品类，向用户提供食用方法，店铺以及平均价格；

当用户上传一张包含人物的图片时，系统检测输入的关键词，预测用户意图，若系统检测到关键词人物关系和人物经历，预测用户希望了解人物的关系和经历，基于预测的用户意图，系统将向大语言模型提出问题，若预测用户希望了解人物的关系，系统向大语言模型提问人物的姓名和人物关系，若用户意图是了解人物经历，系统提问人物的生平事迹，大语言模型将根据问题生成答案，系统将人物信息和预测的答案整理并返回给用户；

当用户上传一张包含景点的图片时，系统检测输入的关键词，预测用户意图，若系统检测到关键词特点和旅行，预测用户希望了解景点的特点和旅行建议，基于预测的用户意图，系统将向大语言模型提出问题，若预测用户希望了解景点特点，系统向大语言模型提问景点特点，若用户意图是了解旅行建议，系统提问旅行建议，大语言模型将根据问题生成答案，系统将景点信息和预测的答案整理并返回给用户，若景点未开放或在用户所在地及景点位置间有相同景观特点的地区或景点，推荐相同景观特点的地区或景点给用户；

当用户上传一张包含动物的图片时，系统检测输入的关键词，预测用户意图，若系统检测到关键词习性和种类，预测用户希望了解动物习性和种类，基于预测的用户意图，系统将向大语言模型提出问题，若预测用户希望了解动物习性，系统向大语言模型提问动物习性，若用户意图是了解动物种类，系统提问动物种类，大语言模型将根据问题生成答案，系统将动物信息和预测的答案整理并返回给用户，若为保护动物或大型动物，向用户推荐用户所在地附近有用户上传动物的动物园，若为可饲养宠物，向用户推荐宠物店并给出宠物平均价格。

对于有经验或有特殊需要的用户，用户通过自由输入prompt并与MLLM进行交互，当用户上传食材图片并询问模型烹饪菜肴时，模型根据食材图片向用户提供菜肴烹饪方式及烹饪所需的食材，当用户选择一种菜肴并向模型询问完整烹饪方法时，模型列出完整的食材配料列表和菜肴烹饪步骤；

当用户上传风景图片并询问模型游览地点需要注意什么时，模型根据图片风景特点细节提醒用户注意天气状况，隐藏的危险地区，若存在动物生活痕迹，提醒用户不要伤害打扰动物，保护生态平衡，当用户要求模型给出一篇旅行博客时，模型基于包括图片地点，风景，旅行经历方面撰写一篇博客。

本发明的另外一个目的是提供基于多模态编码器的多模态大语言模型训练系统，其能通过构建训练框架模块向多模态编码器同时送入输入图像和文本指令，实现早期图文交互，解决了生成的图像特征与文本指令不对齐的问题。

作为本发明所述的基于多模态编码器的多模态大语言模型训练系统的一种优选方案，其中：包括构建训练框架模块、模型训练模块、模型推理模块；所述构建训练框架模块用于将参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成多模态大语言模型训练框架；所述模型训练模块基于多模态编码器抽取文本指令可知的图像Queries，生成文本回复并计算生成文本与金标文本的交叉熵损失函数；所述模型推理模块基于多模态编码器抽取文本指令可知的图像Queries，并基于大语言模型面向文本指令和图像Queries生成文本回复。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序是实现基于多模态编码器的多模态大语言模型训练方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现基于多模态编码器的多模态大语言模型训练方法的步骤。

本发明的有益效果：本发明提供的基于多模态编码器的多模态大语言模型训练方法实现了文本指令可知的图像编码，借助多模态编码器使抽取的图像特征在早期就与输入的文本指令进行交互，这使得抽取的图像特征能够更精准地与输入的文本指令对齐，且大幅运用现成模型已有的知识，极大的降低了所需的训练成本，通过复用多模态编码器知识，可以通过不同的多模态编码器扩展功能，从而实现其他多模态大语言模型所缺失的功能，本发明在精准性、训练成本和扩展性方面都取得更加良好的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造劳动的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例提供的基于多模态编码器的多模态大语言模型训练方法的整体流程图。

图2为本发明第二个实施例提供的基于多模态编码器的多模态大语言模型训练方法的文本指令可知的图像编码对比图。

图3为本发明第三个实施例提供的基于多模态编码器的多模态大语言模型训练系统的整体流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

实施例1

参照图1，为本发明的一个实施例，提供了基于多模态编码器的多模态大语言模型训练方法，包括：

S1：构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成。

更进一步的，多模态大语言模型训练框架包括参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成。

应说明的是，参数冻结的多模态编码器，多模态编码器在同一个表征空间同时表示图片和文本，多模态编码器经过掩码建模预训练，通过多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列，在编码器最后一层隐层状态包含图文联合信息，通过投影层投影后得到图像Queries；参数冻结，经过预训练的大语言模型，结合输入的图像Queries和文本数据，根据模型已有知识进行对输入语义的理解、推理和生成，通过并行推理技术及大模型推理加速技术，在实时应用场景中生成文本回复；投影层将多模态编码器抽取的连续掩码序列的最后一层隐层状态映射到大语言模型的表征空间，当冻结多模态编码器得到图像Queries和大语言模型时，大语言模型理解经过投影后多模态编码器提炼的总结性图文联合信息。

还应说明的是，典型的多模态编码器有OFA、BEiT3、Kosmos-2等，多模态编码器能够在同一个表征空间同时表示图片、文本，擅长图文联合建模，多模态编码器的预训练任务形式多样，但一般都包括图文对比学习、掩码学习两类预训练任务，图文对比学习任务赋予了多模态编码器进行模态融合前的单模态特征抽取能力，其学习目标是学会一个计算一对图片和文本之间相似度的相似度函数表示为：

；

其中，和/>分别表示输入图片和输入文本在/>处被抽取的全局特征；和/>是两个线性函数，分别用于将/>和/>标准化为更低维的表示，方便后续的相似度计算操作，在学习过程中，希望图片和输入文本匹配的相似度接近1，而不匹配的图文对相似度为0，整个过程用InfoNCE损失函数进行优化，掩码学习任务则是训练多模态编码器利用图片和上下文信息去预测被掩码操作遮盖的词，一般来说，掩码操作会遮盖整个输入文本序列中15%的词，并将它们替换为/>作为标记，设/>为经过掩码操作的输入文本序列，/>为模型输出的被遮盖词的概率分布，那么掩码学习的损失函数为交叉熵损失函数，优化目标是让/>对应的被遮盖的词的概率接近1，而其余词的概率接近0，多模态编码器常用预训练任务掩码建模训练了多模态编码器的多模态掩码建模能力和多模态上下文总结能力，有鉴于此，本专利提出的方法充分利用了多模态编码器的这两个能力，经过掩码建模预训练，多模态编码器非常擅长根据多模态上下文（输入的图片和文字）恢复文本中被掩码的部分，这也就意味着，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态包含经过精炼的总结性图文联合信息，可天然用于图像Queries的抽取，使用多模态编码器抽取图像Queries还有额外的好处，由于在抽取时就综合考虑了图文两个输入模态，这样抽取的图像Queries不仅实现了文本指令可知还实现了早期图文交互。

还应说明的是，投影层可以用线性层、多层感知机等多种神经网络结构进行实现，投影层用于将连续掩码序列的最后一层隐层状态从多模态编码器的表征空间映射到大语言模型/>的表征空间，从而实现从/>个连续掩码序列的最后一层隐层状态/>到/>个图像Queries/>，这样，即使不联合训练多模态编码器/>和大语言模型/>，多模态编码器提炼的总结性图文联合信息也能够被大语言模型理解，除此之外，经实验证明，多模态编码器经过预训练得到的知识也能通过投影层以大语言模型可以理解的方式传递给后者，使得多模态编码器的知识可以被大语言模型复用，这一点为搭建多个多模态编码器组成的多专家系统提供动机，可以通过搭建多专家系统集成多个多模态编码器的优势，通过多专家优势互补增强模型通用领域的能力并扩展本专利提出的方法所能完成的任务范围。

还应说明的是，典型的大语言模型有LLaMA、Vicuna、ChatGLM等，大语言模型是一种基于Transformer解码器的模型，通过海量数据预训练，大语言模型将人类世界的知识都保存在其极大规模的模型参数（大语言模型的参数规模能达到几百亿、几千亿），大语言模型展现了强大的理解、推理和生成能力，并且因其拥有与人类通过自然语言进行交互并合理完成人类指令的能力，近两年备受人们关注，在本发明提出的方法中，借助了已经训练好的、现成的大语言模型对人类世界知识的海量储备、对自然语言的强大的理解、推理和生成能力，根据人类输入的文本指令和输入图像的内容，生成流畅、准确、全面、无害的文本回复。

还应说明的是，本发明提出的方法在结构上比主流MLLM架构更轻量更科学，不仅丢弃了笨重的适配器组件，而且也不再需要从零开始学习随机初始化的图像Queries，充分利用了模型组件已有的知识，这使得本发明方法的架构更简洁清楚，各组件更加职责明确，除此之外，通过实验，发现由于本发明提出方法的架构比主流MLLM架构更为高效，这使得只需要后者一半的图像Queries数目就能达到比后者更优异的性能和更广泛的适用任务范围。

S2：对模型进行训练包括基于多模态编码器抽取文本指令可知的图像Queries，生成文本回复并计算损失函数。

更进一步的，对模型进行训练包括基于多模态编码器抽取文本指令可知的图像Queries。

应说明的是，首先将输入图像，输入文本指令/>和/>个掩码标记组成的连续掩码序列/>，拼接成一个序列/>，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态/>包含经过精炼的总结性图文联合信息，隐层状态表示为：

；

其中，为/>个图像Queries中的第/>个。

更进一步的，对模型进行训练还包括生成文本回复并计算生成文本与金标文本的交叉熵损失函数。

应说明的是，通过用户输入的图像和文本指令/>，数据的预期输出金标文本，/>表示金标文本的第/>个词，将抽取的图像Queries和文本指令拼接，送入大语言模型，大语言模型将以教师监督和自回归的方式生成文本回复，并通过计算损失函数，得到用于更新可学习投影层参数的梯度，更新投影层参数；得到输入大语言模型/>，得到最后一层隐层状态/>表示为：

；

通过一个线性层和Softmax得到最终概率表示为：

；

对损失函数求模型参数/>的偏导数，得到梯度/>表示为：

；

更新模型参数，表示为：

；

其中，为小批量平均梯度，/>为学习率。

还应说明的是，设批量大小，学习率/>，在训练流程的前10%的更新步数，采用学习率线性热身策略，让学习率从0线性递增到2e-5，让模型在初步试错中找到一个较好的优化方向，之后，由于模型参数更新方向基本稳定，再将学习率缓慢衰减至3e-6，防止模型出现灾难性遗忘的现象，整个训练过程能在4张NVIDIA RTX A5000（24GB）显卡在8小时内完成，训练要求和成本都很低。

S3：模型推理包括基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。

更进一步的，模型推理包括基于多模态编码器抽取文本指令可知的图像Queries。

应说明的是，多模态编码器经过掩码建模预训练，根据多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态包含经过精炼的总结性图文联合信息，经投影层投影后得到图像Queries。

更进一步的，模型推理还包括基于大语言模型面向文本指令和图像Queries生成文本回复。

应说明的是，将抽取的图像Queries和文本指令拼接，送入大语言模型，利用大语言模型生成文本回复，生成过程表示为：

；

其中，为/>个图像Queries中的第/>个，0<i≤k。

更进一步的，模型推理还包括模型推理流程。

应说明的是，所述模型推理还包括当用户上传一张包含物品的图片时，系统将图片与用户提供的文字描述输入到多模态编码器中进行编码，多模态编码器生成图文联合信息，并通过投影层将隐层状态转换为图像Queries，系统检测输入的关键词，预测用户意图，若系统检测到关键词价值和使用，预测用户希望了解物品的价值和使用方法，基于预测的用户意图，系统将向大语言模型提出问题，若预测用户希望了解物品的价值，系统向大语言模型提问物品价值，若用户意图是了解使用方法，系统提问物品的使用方法，大语言模型将根据问题生成答案，系统将物品信息和预测的答案整理并返回给用户，若物品为五金类，向用户提供使用方法，店铺以及平均价格，若物品为食品类，向用户提供食用方法，店铺以及平均价格；

实施例2

参照图2，为本发明的一个实施例，提供了基于多模态编码器的多模态大语言模型训练方法，为了验证本发明的有益效果，通过经济效益计算和仿真实验进行科学论证。

本发明提出的方法实现了文本指令可知的图像编码，相比于现有方法在文本指令未知的情况下对图片进行编码的做法，本发明方法借助多模态编码器使抽取的图像特征在早期就与输入的文本指令进行交互，这使得抽取的图像特征能够更精准地与输入的文本指令对齐。

从图2可以看出，模型被期望能够根据输入的图片信息，正确地完成指令的要求并生成合理的文本答案，Input栏是喂给模型的输入，Golden栏是人类的作答结果，Ours是本发明方法的生成结果，其余各栏是其他MLLM的生成结果，由于图2文本指令没有聚焦于图片中的主要物体，那些采用文本指令未知的图像编码的模型的性能表现明显下降，所有其他模型生成的回复要么是不正确的，要么没有与输入的文本指令对齐，只有本发明模型的生成结果完美完成了指令要求并给出了正确答案。

本发明方法大幅运用现成模型已有的知识，这极大的降低了本发明方法所需的训练成本，使得本发明方法所需要训练的参数只有500万，而BLIP2的训练方法需要训练1亿8800万参数，全量微调的方法所需训练的参数量在十亿量级。

表1 MLLM训练参数量和训练样本数统计表

如表1所示，和其他BLIP2式的MLLM相比，由于本发明不再训练适配器，本发明方法的训练负担相当小，可训练参数仅为5M，是BLIP2的2.66%，本发明模型充分利用了多模态编码器已有的模态对齐预训练知识，这使得本发明方法只需要一小部分高质量训练数据用于对齐多模态编码器和LLM，因此从两个高质量多模态数据集LLaVA-Instruct-150k和cc_sbu_align分别采样了10,000个和3,400个样本用于训练，训练数据集规模仅为BLIP2的0.056‰。

本发明方法拥有复用多模态编码器知识的能力，这使得本发明方法可以通过不同的多模态编码器扩展功能，从而实现其他多模态大语言模型所缺失的功能，比如复用OFA编码器对图像上物体的感知、理解和推理能力和复用LayoutLM编码器对单据理解、文档理解的能力，在使用OFA编码器的模型上进行GroundedQA对比试验，其输入是图片、图片上物体的坐标信息和文本指令，输出是文本。

表2 GQA实验对照表

如表2所示，OFA编码器有Grounded Objects识别能力，构造Grouded QA数据集检测该能力是否被复用，本发明模型大幅超越了所有的baseline，这意味着OFA编码器独有对的Grounded Objects的感知和理解能力能够被LLM复用，从而使得本发明模型也拥有了进行GQA任务的能力，与之形成鲜明对比的是，由于不能理解输入的Objects坐标信息，VisualGLM、MiniGPT4和InstructBLIP不能把Objects的视觉信息与它们的语义对齐，这使得这些模型倾向于拒绝跟随指令或简单地对输入图片进行caption。

实施例3

参照图3，为本发明的一个实施例，提供了基于多模态编码器的多模态大语言模型训练系统，包括构建训练框架模块，模块训练模块，模块推理模块。

其中构建训练框架模块用于将参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成多模态大语言模型训练框架；模块训练模块基于多模态编码器抽取文本指令可知的图像Queries，生成文本回复并计算生成文本与金标文本的交叉熵损失函数；模块推理模块基于多模态编码器抽取文本指令可知的图像Queries，并基于大语言模型面向文本指令和图像Queries生成文本回复。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置）、便携式计算机盘盒（磁装置）、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编辑只读存储器（EPROM或闪速存储器）、光纤装置以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于多模态编码器的多模态大语言模型训练方法，其特征在于，包括：

构建多模态大语言模型训练框架由参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成；

对模型进行训练基于多模态编码器抽取文本指令可知的图像Queries，生成文本回复并计算损失函数；

模型推理基于多模态编码器抽取文本指令可知的图像Queries和基于大语言模型面向文本指令和图像Queries生成文本回复。

2.如权利要求1所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述多模态大语言模型训练框架包括参数冻结的多模态编码器，多模态编码器在同一个表征空间同时表示图片和文本，多模态编码器经过掩码建模预训练，通过多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列，在编码器最后一层隐层状态包含图文联合信息，通过投影层投影后得到图像Queries；

参数冻结，经过预训练的大语言模型，结合输入的图像Queries和文本数据，根据模型已有知识进行对输入语义的理解、推理和生成，通过并行推理技术及大模型推理加速技术，在实时应用场景中生成文本回复；

投影层将多模态编码器抽取的连续掩码序列的最后一层隐层状态映射到大语言模型的表征空间，当冻结多模态编码器得到图像Queries和大语言模型时，大语言模型理解经过投影后多模态编码器提炼的总结性图文联合信息。

3.如权利要求1所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述对模型进行训练包括基于多模态编码器抽取文本指令可知的图像Queries，首先将输入图像x_i，输入文本指令x_p和k个掩码标记组成的连续掩码序列x_m＝[M][M]…[M]，拼接成一个序列(x_i,x_p,x_m)，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态H＝(h₁,h₂,…,h_k)包含经过精炼的总结性图文联合信息，隐层状态表示为：

(_,_,H)＝ME(x_i,x_p,x_m)

将隐层状态H送入一个参数可学习的线性投影层W_p，通过线性变换将隐层状态H从多模态编码器ME的表征空间投影到大语言模型LLM的表征空间，H转变成大语言模型理解的k个图像Queries，转换过程表示为：

q_i＝W_ph_i

其中，q_i为k个图像Queries中的第i个。

4.如权利要求3所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述对模型进行训练还包括生成文本回复并计算生成文本与金标文本的交叉熵损失函数，通过用户输入的图像x_i和文本指令x_p，数据的预期输出金标文本x_g＝(w₁,w₂,w₃,…w_n)，ω_i表示金标文本的第i个词，且1≤i≤n，将抽取的图像Queries和文本指令拼接，送入大语言模型，大语言模型将以教师监督和自回归的方式生成文本回复，并通过计算损失函数，得到用于更新可学习投影层参数的梯度，更新投影层参数；

得到w_i-1输入大语言模型LLM，得到最后一层隐层状态h′_i-1表示为：

h′_i-1＝LLM(w_i-1)

通过一个线性层和Softmax得到最终概率表示为：

p(x_i|x₁,x₂,…,x_i-1)＝softmax(W_yh_i-1′)

其中，W_y为线性层参数，设模型参数为θ，本阶段的损失函数L表示为：

对损失函数L求模型参数θ的偏导数，得到梯度g表示为：

采用小批量梯度下降法，计算出一个小批量里每个数据的梯度g_i，且1≤i≤b，计算平均值表示为：

更新模型参数θ，表示为：

其中，为小批量平均梯度，α为学习率。

5.如权利要求1所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述模型推理包括基于多模态编码器抽取文本指令可知的图像Queries，多模态编码器经过掩码建模预训练，根据多模态上下文恢复文本中被掩码的部分，被输入到多模态编码器的连续掩码序列的在编码器最后一层隐层状态包含经过精炼的总结性图文联合信息，经投影层投影后得到图像Queries。

6.如权利要求5所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述模型推理还包括基于大语言模型面向文本指令和图像Queries生成文本回复，将抽取的图像Queries和文本指令拼接，送入大语言模型，利用大语言模型生成文本回复，生成过程表示为：

Output＝LLM(q₁,q₂,…q_k,x_p)

其中，q_i为k个图像Queries中的第i个，0<i≤k。

7.如权利要求6所述的基于多模态编码器的多模态大语言模型训练方法，其特征在于：所述模型推理还包括当用户上传一张包含物品的图片时，系统将图片与用户提供的文字描述输入到多模态编码器中进行编码，多模态编码器生成图文联合信息，并通过投影层将隐层状态转换为图像Queries，系统检测输入的关键词，预测用户意图，若系统检测到关键词价值和使用，预测用户希望了解物品的价值和使用方法，基于预测的用户意图，系统将向大语言模型提出问题，若预测用户希望了解物品的价值，系统向大语言模型提问物品价值，若用户意图是了解使用方法，系统提问物品的使用方法，大语言模型将根据问题生成答案，系统将物品信息和预测的答案整理并返回给用户，若物品为五金类，向用户提供使用方法，店铺以及平均价格，若物品为食品类，向用户提供食用方法，店铺以及平均价格；

当用户上传一张包含动物的图片时，系统检测输入的关键词，预测用户意图，若系统检测到关键词习性和种类，预测用户希望了解动物习性和种类，基于预测的用户意图，系统将向大语言模型提出问题，若预测用户希望了解动物习性，系统向大语言模型提问动物习性，若用户意图是了解动物种类，系统提问动物种类，大语言模型将根据问题生成答案，系统将动物信息和预测的答案整理并返回给用户，若为保护动物或大型动物，向用户推荐用户所在地附近有用户上传动物的动物园，若为可饲养宠物，向用户推荐宠物店并给出宠物平均价格；

8.一种采用如权利要求1～7任一所述的基于多模态编码器的多模态大语言模型训练方法的系统，其特征在于：包括构建训练框架模块、模型训练模块、模型推理模块；

所述构建训练框架模块用于将参数冻结的多模态编码器、参数冻结的大语言模型和投影层组成多模态大语言模型训练框架；

所述模型训练模块基于多模态编码器抽取文本指令可知的图像Queries，生成文本回复并计算生成文本与金标文本的交叉熵损失函数；

所述模型推理模块基于多模态编码器抽取文本指令可知的图像Queries，并基于大语言模型面向文本指令和图像Queries生成文本回复。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于多模态编码器的多模态大语言模型训练方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于多模态编码器的多模态大语言模型训练方法的步骤。