CN117292146A

CN117292146A - 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法

Info

Publication number: CN117292146A
Application number: CN202311421186.3A
Authority: CN
Inventors: 张�杰; 靳雨桐; 周涵; 陈扬
Original assignee: Zhongke Suzhou Intelligent Computing Technology Research Institute
Current assignee: Zhongke Suzhou Intelligent Computing Technology Research Institute
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2023-12-26

Abstract

本发明公开了一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法，其中构建方法包括收集图像和文本，并处理图像和文本形成图像‑文本数据对，其中图像‑文本数据对中包含一一对应的图像数据和文本数据；对文本数据和图像数据进行编码，提取出文本编码特征和图像编码特征；采用双向交叉注意力模块来对齐和融合文本编码特征和图像编码特征；采用图像‑文本数据对及其对应标签，从文本数据、图像数据、文本特征和图像特征的融合三个维度来约束多模态大语言模型的训练。大语言模型在训练过程中利用了文本‑图像数据的互约束加强了大语言模型对场景的精准理解，使得大语言模型在推理过程中，回答的准确度得到提升。

Description

一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法

技术领域

本发明涉及多模态大型语言模型技术领域，尤其涉及一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法。

背景技术

自20世纪50年代图灵测试被提出以来，研究人员一直在探索和开发能够理解并掌握语言的人工智能技术。作为重要的研究方向之一，语言模型得到了学术界的广泛研究，从早期的统计语言模型和神经语言模型开始，发展到基于Transformer的预训练语言模型。近年来，研究者们通过扩大预训练语言模型的参数量和数据量，发现大语言模型(LargeLanguage Model，LLM)在解决各种自然语言处理(Natural Language Processing，NLP)任务方面显示出强大的能力，同时，还展示出许多小模型不具备的特殊能力，如上下文学习能力、逐步推理能力等，但大语言模型无法理解视觉。与此同时，视觉大模型也在缓慢的发展。考虑到互补的可能，研究者们把单模态的LLM和视觉模型同时运行，结合出了多模态大语言模型(Multimodal Large Language Model，MLLM)的新领域。

随着ChatGPT在各领域展现出非凡能力，多模态大型语言模型(MLLM)近来也成为了研究的热点，它利用强大的大型语言模型(LLM)作为“大脑”，可以执行各种多模态任务。目前，研究界已经做出了许多努力来开发有能力的和开源的多模态大语言模型，并展示了一些令人惊讶的实用能力，例如基于图像编写网站代码、理解模态的深度含义和无OCR的数学推理。

现有的多模态大语言模型主要分为3种类型：

(1)多模态指令调优(Multimodal Instruction Tuning，MIT)

指令调优是通过在一组以指令格式组成的数据集上微调预训练的LLM，以实现对未见任务的泛化能力提升。这一思想已经成功应用到在自然语言处理领域中的一系列工作中，如ChatGPT、InstructGPT、FLAN和OPT-IML。

传统的监督微调方法需要大量特定任务的数据，而提示方法通过引入提示项来减少对大规模数据的依赖，虽然少样本性能有所提升，但零样本性能相对平均。指令调优与这两种方法不同，它着重于学习如何推广到未见任务，并与多任务提示密切相关。传统的多模态模型仅适用于前两种调优方法，缺乏零样本能力。因此，最近的研究致力于将指令调优扩展到多模态领域。

在扩展到多模态时，需要对数据和模型进行相应的调整。在数据方面，研究人员通常通过改编现有基准数据集或进行自我指导来获取适用于多模态指令调优的数据集；在模型方面，一种常见的方法是将外部模态信息注入到LLM中，并将其作为强大的推理器。相关工作可以直接对齐外部嵌入和LLM，也可以借助专家模型将外部模态转化为LLM可接受的自然语言。

(2)多模态上下文学习(Multimodal In-Context Learning，M-ICL)

与传统的通过大量数据学习隐含模式的监督学习范式不同，上下文学习(In-Context Learning，ICL)的核心在于类比学习。在ICL的设置中，LLM通过少量示例和可选指令进行学习，并能够在新问题上进行推广，以实现少样本学习并解决复杂且未见过的任务。ICL通常以无需训练的方式实现，因此可以灵活地集成到不同的框架中的推理阶段。与ICL密切相关的技术是指令调优(Instruction Tuning)，经过实证验证指令调优能够增强ICL的能力。

在MLLM的背景下，ICL已经扩展到更多的模态，形成了多模态ICL(M-ICL)。在多模态应用中，M-ICL主要用于解决各种视觉推理任务和教导LLM使用外部工具，前一种情况通常涉及从少量特定任务的示例中学习，并推广到新的但类似的问题。通过指令所提供的信息，LLM可以理解任务的目标和输出模板，并生成预期的答案。而与之相反，关于工具使用的示例通常仅包含文本信息，并且更加精细。这些示例通常由一系列可以按顺序执行的步骤组成，以完成特定任务。因此，第二种情景与思维链(Chain of Thought，CoT)密切相关。

(3)多模态思维链(Multimodal Chain of Thought，M-CoT)

CoT的主要思想是提示LLM不仅输出最终答案，还要输出导致答案的推理过程，类似于人类的认知过程。受到自然语言处理领域的启发，已经提出了多个工作来将单模态的CoT扩展到多模态CoT(M-CoT)。

受到工具增强的LLM成功的启发，还有一些研究探索了调用外部工具或视觉基础模型进行视觉推理任务的可能性。这些工作将LLM作为具有不同角色的辅助工具，构建了任务特定或通用的视觉推理系统。与传统的视觉推理模型相比，这些工作表现强大的泛化能力和更好的互动性和控制性。

纵观多模态大语言模型研究现状，可以发现多模态大语言模型感知能力有待提升，目前的MLLM在感知能力方面受限，可能导致获取的视觉信息不完整或错误。其次，多模态大语言模型的推理能力有待加强，在某些情况下，即使MLLM能够计算出正确的结果，但推理过程中仍可能出现错误。再次，多模态大语言模型的指令跟随能力有待提升。部分MLLM在明确的指令下仍无法生成预期的答案，这需要指令调优覆盖更多任务以提高泛化能力。最后，多模态大语言模型的参数训练有待优化。目前的MLLM在训练中需要大量的计算资源，除了国内的头部互联网公司有研发实力外，小型公司的研发受限，因此需要更高效的训练方法来发挥有限计算资源下MLLM的潜力。

综上MLLM虽然应用前景广泛，但MLLM的发展仍处于初级阶段们还有很多方面有待提升。

发明内容

为克服上述缺点，本发明的目的在于提供一种面向工业场景的构建多模态大语言模型的方法，大语言模型在训练过程中利用了文本-图像数据的互约束加强了大语言模型对场景的精准理解，使得大语言模型在推理过程中，回答的准确度得到提升。

为了达到以上目的，本发明采用的技术方案是：一种面向工业场景的构建多模态大语言模型的方法，包括以下步骤：

数据收集，收集图像和文本，并处理图像和文本形成图像-文本数据对，其中图像-文本数据对中包含一一对应的图像数据和文本数据；

数据编码，对所述文本数据和图像数据进行编码，提取出文本编码特征和图像编码特征；

特征融合，采用双向交叉注意力模块来对齐和融合文本编码特征和图像编码特征；

模型训练，采用图像-文本数据对及其对应标签，从文本数据、图像数据、文本编码特征和图像编码特征的融合三个维度来约束多模态大语言模型的训练。

本发明的有益效果在于：

一、本发明提升多模态大语言模型推理过程中的准确性，大语言模型在训练过程中利用了图像-文本数据对的互约束加强了大语言模型对场景的精准理解，使得大语言模型在推理过程中，回答的准确度得到提升。

二、本发明使多模态大语言模型的训练高效，节约算力，降低研究成本。

进一步来说，对所述文本数据进行编码，提取文本编码特征时，采用自然语言处理模型，通过自注意力机制和位置编码来学习文本数据的高层语义特征形成文本编码特征。

进一步来说，对所述图像数据进行编码，提取图像编码特征时，采用视觉基础编码模型，提取图像数据的高层语义特征形成图像编码特征。视觉基础编码模型为VIT-Large(Vision Transformer)，通过引入视觉基础编码模型更高效的提取视觉信息。

进一步来说，收集图像和文本，并处理图像和文本形成图像-文本数据对具体包括：

将不同的文本转化为统一格式的文本数据；

将文本数据和对应的图像配对，形成图像-文本数据对。

由于文本的格式各异，将文本转换为同一格式的文本数据，便于后续的文本编码模块处理。

进一步来说，对所述文本数据进行编码，提取文本编码特征具体包括：

对收集得到的所有文本数据进行单词提取，生成词袋；

将词袋中的单词与词向量中的值一一对应；

此时每个词语都对应一个唯一识别的编号，提取的每个位置的特征值表示对应位置词语在文档中出现的次数。

进一步来说，采用双向交叉注意力模块来对齐和融合文本编码特征和图像的编码特征具体包括：

使用一个全连接层将文本编码特征和图像编码特征分别映射到一个共同的向量空间中；

使用双向交叉注意力机制从不同的输入中检索信息；

将检索到的信息添加到原来的文本编码特征、图像编码特征中，使得图像和文本的相似度尽可能高；

使用多层感知器网络来提取融合后的特征。

进一步来说，所述从文本数据、图像数据、文本编码特征和图像编码特征的融合三个维度来约束多模态大语言模型的训练，训练阶段的总损失为L_total＝L_text+L_image+L_fusion，其中

F_T表示提取到的文本编码特征，/>表示文本编码特征对应的预设真实值，CrossEntropyLoss表示交叉熵损失函数；

F_I表示提取到的图像编码特征，/>表示图像编码特征对应的预设真实值；

其中表示融合后的图像编码特征，/>表示融合后的文本编码特征，其中/> F_T2I表示文本向图像对齐的特征，F_I2T表示图像向文本对齐的特征，其中F_T2I,F_I2T＝Bi-XAtt(F_I,F_T)，Bi-XAtt表示双向交叉注意力模块。

本发明还公开一种多模态大语言模型应用方法，包括如下步骤：

接收工业场景的产品图和指令文本；

将所述工业场景的产品图和指令文本输入上述的方法得到的多模态大语言模型中；

在多模态大语言模型后接下游解码头，冻结多模态大语言模型对文本数据和图像数据进行特征提取；

调整下游解码头的参数，即可得到对应指令文本的结果。

本发明提升多模态大语言模型的指令跟随能力。通过指令调优覆盖分类、检测、分割等多种任务，来提高该模型响应指令的能力。

本发明还公开一种面向工业场景的构建多模态大语言模型的系统，包括：

获取模块，所述获取模块用于收集图像和文本，并处理图像和文本形成图像-文本数据对，其中图像-文本数据对中包含一一对应的图像数据和文本数据；

文本编码模块，所述文本编码模块对文本数据进行编码，提取出文本编码特征；

图像编码模块，所述图像编码模块对图像数据进行编码，提取出图像编码特征；

特征融合模块，所述特征融合模块采用双向交叉注意力模块来对齐和融合文本编码特征和图像编码特征；

训练模块，所述训练模块采用图像-文本数据对及其对应标签，从文本数据、图像数据、文本编码特征和图像编码特征的融合三个维度来约束多模态大语言模型的训练。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，执行指令被处理器执行时用于实现上述的面向工业场景的构建多模态大语言模型的方法。

附图说明

图1为本发明一实施例的流程图；

图2为本发明一实施例中系统框图；

图3为本发明一实施例中获取的图像和数据示意图；

图4为本发明一实施例中图像-文本数据对的示意图；

图5为本发明另一实施例的流程图；

图6为本发明另一实施例的流程图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本发明的一种面向工业场景的构建多模态大语言模型的方法，数据是构建大模型的基础。训练一个性能好且泛化能力强的大模型需要庞大的数据量，然而工业场景中数据的收集十分困难，尤其是在工业质检场景中，真实的缺陷比例只有不到1％，且工业产品种类多、特性差异大，又受到数据采集环境的限制，使得收集到的数据往往质量不高，为数据标注及处理增加难度。基于以上的数据环境背景，本发明看到多模态大语言模型的研究方向应该是仅仅依靠极少量的目标样本，就可以对工业场景中任务进行准确的预测，即多模态大语言模型应具有零样本或者少样本学习的能力(zero-shot or few-shot learning)，本发明探索将文本数据和图像数据结合的方法，以便更好地学习目标场景的统一范式。首先进行数据收集和处理，然后构建多模态大语言模型。参见附图1所示，构建多模态大语言模型的方法具体包括以下步骤：

步骤一、数据收集，收集图像和文本，并处理图像和文本形成图像-文本数据对，其中图像-文本数据对中包含一一对应的图像数据和文本数据。

参见附图3所示，是产线上使用时，其中图像来源于产线上的相机拍摄到的产品图，文本来源于产线工人导入的产品工单。由于工人导入的产品工单的形式各异，因此需要对文本进行处理，统一文本的格式，形成固定的文本标签。利用包含丰富信息的工单文本，本实施例中对将不同型号和特性的产品数据进行文本描述和图像对应处理，从而实现将繁杂的产品外观、结构和缺陷标准统一成固定的文本数据描述并与对应的图像对应。

对所述文本数据进行编码，提取文本编码特征具体包括收集图像和文本，并处理图像和文本形成图像-文本数据对具体包括将不同的文本转化为统一格式的文本数据；将文本数据和对应的图像配对，形成图像-文本数据。

参见附图4所示，统一格式的文本数据描述为Format：A Cup H is{xxx}，W is{xxx}，图4中，左侧文本是指收集到的工单数据，右侧图像是指工单对应的产品图，这样形成图像-文本数据对，可以为后续的大语言模型训练提供高层次的抽象信息指导，支持多模态大语言模型的学习和泛化能力的提升。这种将文本和图像数据进行结合的方法被称为多模态学习(multi-modal learning)，它可以有效地利用不同类型的数据，从而提高数据的利用率和大模型的性能。

步骤二、数据编码，对所述文本数据和图像数据进行编码，提取出文本编码特征和图像编码特征。

本实施例中，参见附图2所示，采用文本编码模块对文本数据进行编码，提取出文本数据中的文本编码特征T_i，i为正整数；采用图像编码模块对图像数据进行编码，提取出图像数据中的图像编码特征I_i。本实施例中，采用结合文本数据和图像数据的多模态训练方式，设计一种图像、文本双流的架构，为了让文本的高语义特征充分指导图像特征的学习，大模型的训练目标是让文本编码模块和数据编码模块的特征趋于一致，从而在更广泛的特征空间中对目标场景进行建模。

在一个实施例中，对所述图像数据进行编码，提取图像编码特征时，采用视觉基础编码模型，提取图像数据的高层语言特征形成图像编码特征，例如物体部件、形状等。视觉基础编码模型为VIT-Large(Vision Transformer),通过引入视觉基础编码模型更高效的提取视觉信息。

在一个实施例中，对所述文本数据进行编码，提取文本编码特征时，采用自然语言处理模型，通过自注意力机制和位置编码来学习文本数据的高层语义特征形成文本编码特征，如词义、语法、语义等。自然语言处理模型基于text Transformer。

文本编码特征的提取具体包括：

对收集得到的所有文本数据进行单词提取，生成词袋；将词袋中的单词与词向量中的值一一对应；此时每个词语都对应一个唯一识别的编号，提取的每个位置的特征值表示的是对应位置词语在文档中出现的次数。

步骤三、特征融合，采用双向交叉注意力模块来对齐和融合文本编码特征和图像编码特征。

这种融合的方式可以使得模型能够更全面地感知目标场景的特征，从而提高模型的泛化能力和预测准确度。

参见附图2所示，采用双向交叉注意力模块来对齐和融合文本编码特征和图像的编码特征具体包括：首先使用一个全连接层将文本编码特征和图像编码特征分别映射到一个共同的向量空间中；接着使用双向交叉注意力机制从不同的输入中检索信息；然后将检索到的信息添加到原来的文本编码特征、图像编码特征中，使得图像和文本的相似度尽可能高；最后使用多层感知器网络来提取融合后的特征。

步骤四、模型训练，采用所述图像-文本数据对及其对应标签，从文本数据、图像数据、文本编码特征和图像编码特征的融合三个维度来约束多模态大语言模型的训练。

在具体的训练过程中，本发明采用文本-图像对及其对应标签来约束多模态大语言模型的训练，从文本数据、图像数据、文本特征和图像特征的融合三个维度进行约束，训练阶段的总损失为L_total。

文本数据的约束L_text如下：

其中，F_T表示文本编码器提取到的文本编码特征，表示文本编码特征对应的预设真实值，CrossEntropyLoss表示交叉熵损失函数。

图像数据的约束L_image如下：

其中，F_I表示图像编码模块提取到的图像编码特征，表示图像编码特征对应的预设真实值。

对于文本特征和图像特征的融合，我们采用双向交叉注意力模块从不同的输入中检索信息，然后将检索到的表示添加到原来的特征中，使得图像和文本的相似度尽可能高，文本特征和图像特征的融合过程如下：

F_T2I,F_I2T＝Bi-XAtt(F_I,F_T)

其中，F_T2I表示文本向图像对齐的特征，F_I2T表示图像向文本对齐的特征，Bi-XAtt表示双向交叉注意力模块，表示融合后的图像特征，/>表示融合后的文本特征，文本特征和图像特征的融合约束L_fusion如下：

其中，CrossEntropyLoss表示交叉熵损失函数。

综上，训练阶段的总损失L_total为：

L_total＝L_text+L_image+L_fusion

本实施例中，通过文本和图像的约束，保证了图像编码模块和文本编码模块的特征提取能力和泛化能力；通过文本和图像融合的约束，保证了文本高层语义特征对图像特征的指导能力和泛化能力，并且保证了多模态大语言模型具有对数据场景的精准理解。通过总损失的约束，得到一个多模态大语言模型，该大语言模型具有较好的泛化性能和精度，同时具有对于未知场景的适应能力。

由于构建好的多模态大语言模型参数庞大，其具备了完备的特征空间表达、优异的特征提取和场景理解能力，但这并不能直接应用于下游任务中。因为不同的实际视觉问题具有独特的环境、标准和数据特征，以及不同的需求。因此，实际应用时需要在多模态大语言模型的基础上进行微调，以定向增强模型在目标任务中的数据特性、任务类型和场景理解能力。本发明还公开一种多模态大语言模型应用方法，参见附图5所示，包括如下步骤：

步骤100、接收工业场景的产品图和指令文本；

步骤200、将所述工业场景的产品图和指令文本输入上述的方法得到的多模态大语言模型中；

步骤300、在多模态大语言模型后接下游解码头，冻结多模态大语言模型对文本数据和图像数据进行特征提取；

步骤400、调整下游解码头的参数，即可得到对应指令文本的结果。

如图6所示，图像为工业场景中的产品图，文本数据为指令文本，多模态大语言模型对文本和图像数据提取特征，提取到的特征送入通过跨模态交互网络(MutilTransformer Encoder And Decoder)进行文本和图像特征融合，得到高维的融合特征。

在实际的应用场景中存在数据收集难且数据质量良莠不齐等多中问题，通常只能收集到少量数据。本实施例中，采用少样本学习的方法，通过文本的高抽象表述快速迁移到实际问题的目标特征空间上，实现基于少样本的快速学习。此外，本实施例中通过设计具体的下游解码头，如分类(Classify)头、检测(Detection)头、分割(Segment)头，在无需重新训练上游多模态大语言模型参数的情况下，只重新训练下游解码部分参数即可完成模型的迁移学习，减少了训练时间和成本。如针对工业质检任务，我们需收集少量工业缺陷数据集，训练检测头，即可快速得到一个质检能力强的模型，对于分类和分割任务也是同理。由于多模态大语言模型具有任务拓展性强、泛化能力强的特点，因此针对碎片化的质检需求，本发明可以统一解决，这种技术不仅可以提高模型的精度，同时保证了对于未知数据场景的适应能力，为工业场景中的应用提供了强大的解决方案。

本发明还公开一种面向工业场景的构建多模态大语言模型的系统，参见附图2所示，包括获取模块、文本编码模块、图像编码模块、特征融合模块和训练模块。

所述获取模块用于收集图像和文本，并处理图像和文本形成图像-文本数据对，其中图像-文本数据对中包含一一对应的图像数据和文本数据；所述文本编码模块对文本数据进行编码，提取出文本编码特征；所述图像编码模块对图像数据进行编码，提取出图像编码特征；所述特征融合模块采用双向交叉注意力模块来对齐和融合文本编码特征和图像编码特征；所述训练模块通过设计的总损失约束预配置的大语言模型的学习，得到多模态大语言模型，采用图像-文本数据对及其对应标签，从文本数据、图像数据、文本编码特征和图像编码特征的融合三个维度来约束多模态大语言模型的训练。

在一个实施例中，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，执行指令被处理器执行时用于实现上述的构建多模态大语言模型的方法。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Python、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人了解本发明的内容并加以实施，并不能以此限制本发明的保护范围，凡根据本发明精神实质所做的等效变化或修饰，都应涵盖在本发明的保护范围内。

Claims

1.一种面向工业场景的构建多模态大语言模型的方法，其特征在于：包括以下步骤：

模型训练，采用所述图像-文本数据对及其对应标签，从文本数据、图像数据、文本编码特征和图像编码特征的融合三个维度来约束多模态大语言模型的训练。

2.根据权利要求1所述的面向工业场景的构建多模态大语言模型的方法，其特征在于：对所述文本数据进行编码，提取文本编码特征时，采用自然语言处理模型，通过自注意力机制和位置编码来学习文本数据的高层语义特征形成文本编码特征。

3.根据权利要求1所述的面向工业场景的构建多模态大语言模型的方法，其特征在于：对所述图像数据进行编码，提取图像编码特征时，采用视觉基础编码模型，提取图像数据的高层语义特征形成图像编码特征。

4.根据权利要求1所述的面向工业场景的构建多模态大语言模型的方法，其特征在于：收集图像和文本，并处理图像和文本形成图像-文本数据对具体包括：

将不同的文本转化为统一格式的文本数据；

将文本数据和对应的图像配对，形成图像-文本数据对。

5.根据权利要求4所述的面向工业场景的构建多模态大语言模型的方法，其特征在于：对所述文本数据进行编码，提取文本编码特征具体包括：

对收集得到的所有文本数据进行单词提取，生成词袋；

将词袋中的单词与词向量中的值一一对应；

6.根据权利要求1-5任一所述的面向工业场景的构建多模态大语言模型的方法，其特征在于：采用双向交叉注意力模块来对齐和融合文本编码特征和图像的编码特征具体包括：

使用双向交叉注意力机制从不同的输入中检索信息；

使用多层感知器网络来提取融合后的特征。

7.根据权利要求1述的面向工业场景的构建多模态大语言模型的方法，其特征在于：所述从文本数据、图像数据、文本编码特征和图像编码特征的融合三个维度来约束多模态大语言模型的训练，训练阶段的总损失为L_total＝L_text+L_image+L_fusion，其中

其中/>表示融合后的图像编码特征，/>表示融合后的文本编码特征，其中/> F_T2I表示文本向图像对齐的特征，F_I2T表示图像向文本对齐的特征，其中F_T2I,F_I2T＝Bi-XAtt(F_I,F_T)，Bi-XAtt表示双向交叉注意力模块。

8.一种多模态大语言模型应用方法，其特征在于：包括如下步骤

接收工业场景的产品图和指令文本；

将所述工业场景的产品图和指令文本输入根据如权利要求1至7中任一项所述的方法得到的多模态大语言模型中；

调整下游解码头的参数，即可得到对应指令文本的结果。

9.一种面向工业场景的构建多模态大语言模型的系统，其特征在于：包括获取模块，所述获取模块用于收集图像和文本，并处理图像和文本形成图像-文本数据对，其中图像-文本数据对中包含一一对应的图像数据和文本数据；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，执行指令被处理器执行时用于实现权利要求1至7任一项所述的面向工业场景的构建多模态大语言模型的方法。