CN117709356A

CN117709356A - 一种面向组织知识管理的多模态大模型实现方法及系统

Info

Publication number: CN117709356A
Application number: CN202410166754.8A
Authority: CN
Inventors: 王宾; 李照川; 李捷明; 储佳祥; 张尧臣; 郭凤; 苏航
Original assignee: Inspur Software Technology Co Ltd
Current assignee: Inspur Software Technology Co Ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-03-15

Abstract

本发明公开了一种面向组织知识管理的多模态大模型实现方法及系统，属于数据处理技术领域，该方法的实现包括：多模态模型基础架构：使用基于图文共同理解的基础大模型架构CLIP，并对其进行了针对性的修改设计；基于组织知识数据的多模态大模型预训练架构：使用针对图像和文本空间的向量混合映射机制；使用对比学习方法对产生的图像和文本向量做相关性匹配；多模态模型连接大语言模型架构：根据上游多模态模型产生的联合语义信息准确的输送给大语言模型，并利用大语言模型的微调技术生成准确的答案。本发明实现了对多源信息的深度综合理解，能够高效、精准地处理各类复杂数据，提升组织机构在知识获取、整合及应用方面的能力。

Description

一种面向组织知识管理的多模态大模型实现方法及系统

技术领域

本发明涉及数据处理技术领域，具体地说是一种面向组织知识管理的多模态大模型实现方法及系统。

背景技术

在现代组织机构中，文档和数据通常是图像、文字和图表的复合体，这种多元化的内容格式极大地增加了组织知识管理的复杂度。由于信息呈现方式的多样性，如何准确理解文档中的所有含义，并深入挖掘其中的相互联系，已成为行业的迫切需求。首先，多格式内容的整合对信息解读能力提出了更高的要求。组织需要能够不仅解读单一类型的数据（如文本或图表），而且理解这些不同格式如何相互补充和相互作用。这要求从事知识管理的专业人员具备跨学科的技能和高度的分析能力，以便有效地融合和解释这些多样化的信息源。其次，寻找文档中不同元素之间的深层联系变得更加困难。在多元化的信息环境中，不同类型的数据（如图像、文本、图表）之间的关联可能并不直观。因此，深入挖掘这些联系，以揭示更加全面和深入的洞见，对于提高政策制定的质量和效率至关重要。

目前，处理多模态数据的主流架构大致可以分为两大类别。

第一种架构是结合图文识别模与传统自然语言模型。这种方法主要是利用图文识别模型来生成图像的简短文字描述，然后将这些描述与自然语言模型结合。尽管这种架构能够利用图文识别产生基本的文字说明，但它在深层次地理解图像与文字共存情况下的相互联系方面存在局限。此外，当涉及到图像中隐含的复杂语义时，传统的语言模型通常无法完全捕捉和解释这些语义内容。

第二种架构则是先使用一个较小的图文识别模型对图像进行初步理解，并将图像转换成文字描述，然后再将这些文字输入给大型语言模型进行深入分析。这种方法的主要问题在于，图像转换为文字的过程可能导致丰富的视觉语义信息的丢失。由于这种丢失，当这些信息与其他文本信息有关联时，大型语言模型接收到的输入将仅包含有限的、丢失语义的信息。这种信息的不完整性可能对大型模型在下游任务中进行语义预测的准确性产生不利影响。因此，尽管这种方法可以简化图像内容的处理，但在保持信息完整性和提高模型理解能力方面存在挑战。

发明内容

本发明的技术任务是针对以上不足之处，提供一种面向组织知识管理的多模态大模型实现方法及系统，实现了对多源信息的深度综合理解，能够高效、精准地处理各类复杂数据，进而提升组织机构在知识获取、整合及应用方面的能力。

本发明解决其技术问题所采用的技术方案是：

一种面向组织知识管理的多模态大模型实现方法，该方法的实现包括：

S1、多模态模型基础架构；

使用基于图文共同理解的基础大模型架构CLIP，并对其进行了针对性的修改设计；

S2、基于组织知识数据的多模态大模型预训练架构；

使用针对图像和文本空间的向量混合映射机制；使用对比学习方法对产生的图像和文本向量做相关性匹配；

S3、多模态模型连接大语言模型架构；

根据上游多模态模型产生的联合语义信息准确的输送给大语言模型，并利用大语言模型的微调技术生成准确的答案。

优选的，所述步骤S1，具体实施步骤包括：

S101、设计文本编码器，用于理解和编码文本信息；文本编码器采用文本Transformer架构作为基础，有效捕获文本中跨越长距离的依赖关系；

S102、针对组织知识管理数据的图像部分，设计图像编码器；图像编码器包括一个视觉Transformer结构，其具备从海量图像中提炼出核心视觉模式和结构的能力，进而将其转化为高维特征向量。

所述图像编码器的视觉Transformer结构，借助自注意力机制，神经网络在处理图像时能够捕获全局性的依赖关系；

通过训练大量图像样本，该神经网络可以自主地识别和提取出关键的视觉模式和结构，通过深入分析图像中的像素分布及其空间关系，将复杂的视觉信息转化为高维特征向量。

优选的，所述步骤S2，具体实施步骤包括：

S201、设计向量嵌入流程架构，由文本编码器和图像编码器产生的特征向量被映射到一个共同的多维特征空间中；

S202、采用对比学习的方法，通过比较不同的样本来学习特征表示，以便能够将相似的样本区分于不相似的样本；所述对比学习包括选择和比较正样本和负样本；

S203、构建针对组织知识管理的图像-文本对数据集，以有效实现图像-文本配对学习；并在CLIP模型环境下从组织内部资源中提取相关图像和文本描述，以便训练模型理解和分类组织特定的多模态信息。

优选的，在所述多维特征空间中，图像和文本特征向量的接近程度，使用点积或余弦相似度方法计算；具体如下：

设有n 个文本向量和n个图片向量，其中，表示n个图片向量，表示n个文本向量，CLIP计算出所有/>中可能的图片与文本向量组合的相似度。

优选的，所述对比学习包括选择和比较正样本和负样本，

每张图片都尝试与 n 段文本配对，模型要找出哪段是与图片描述最匹配的文字，使用以下公式计算其正样本的损失函数：

；

每段文本向量都尝试与 n 张图片配对，模型要判断哪张图片最匹配，则使用以下公式计算其负样本的损失函数：

。

优选的，所述在CLIP模型的应用环境中从组织内部的数据资源中收集大量相关的图像和文本描述，包括从组织的文档库、报告、和其他数字资产中提取这些图像-文本对。

优选的，所述步骤S3，具体实施步骤包括：

S301、对图像编码器和文本编码器进行训练，旨在产生一组相互对应、高维度的图像特征向量和文本特征向量；

S302、设定多模态向量对齐模块，实现多模态向量对齐，多模态向量对齐模块通过实施特定的提示词架构，对齐大型语言模型的语义理解向量；在多模态向量对齐之后，使用大型语言模型对这些已对齐的向量进行进一步的微调；

S303、在微调阶段优化模型性能并细致评估输出，确保提升多模态数据处理能力。

优选的，所述微调，

融合图像和文本信息，确保这些信息在语言模型中保持一致性和相关性；

采用prompt tuning技术，保持大型语言模型（LLM）不变，通过定制软提示应对不同任务，针对不同的任务，通过使用不同的软提示来激活大型语言模型的相应下游任务功能。

优选的，Prompt Tuning被定义为使用固定模板或范式，以促使大型语言模型适应特定的下游任务，包括单样本Prompt、少样本Prompt 和零样本Prompt，

单样本Prompt指的是在prompt中仅提供一个相关示例；少样本Prompt则包含几个示例；零样本Prompt不包含任何示例，仅依赖于prompt的描述性文本来引导模型完成任务。

本发明还要去保护一种面向组织知识管理的多模态大模型系统，包括混合多模态大模型基础架构，基于组织知识数据的多模态大模型预训练架构和CLIP多模态架构对接大语言模型生成架构；

该系统实现上述的面向组织知识管理的多模态大模型实现方法。

本发明的一种面向组织知识管理的多模态大模型实现方法及系统与现有技术相比，具有以下有益效果：

本方法融合了基于图像和文本混合理解的CLIP（Contrastive Language–ImagePre-training）模型与大语言模型，实现了对多源信息的深度综合理解。此外，针对组织机构在知识管理方面的独特需求，进行了定制化调整，以确保其能够高效、精准地处理各类复杂数据，进而提升组织机构在知识获取、整合及应用方面的能力。

首先，本方法显著提升了知识获取的广度和深度。在传统的知识管理模式下，组织机构往往只能依赖单一形态的信息，如文本资料或统计数据，这在一定程度上限制了知识来源的多样性。然而，本发明提出的多模态的架构的出现打破了这一局限。它能够同时处理和分析文本、图像、音频、视频等多种形态的信息，将这些原本孤立的数据源有效整合起来。这不仅极大地拓展了组织机构的知识视野，还使得他们能够更全面、更深入地了解社会现象和问题。例如，通过分析社交媒体上的图像和视频内容，组织机构可以更直观地了解公众的情绪和需求，从而为政策制定提供更丰富的参考依据。

其次，本方法在增强知识应用的灵活性和创新性方面也发挥了重要作用。在传统的知识管理模式下，组织机构在决策过程中往往受到既有知识和经验的限制，难以发现新的机会和问题。然而，多模态大模型通过跨模态的信息融合分析，能够揭示出数据间隐含的关联和规律。这使得组织机构能够突破既有框架的束缚，发现以往被忽视的问题和机会。例如，在应对突发公共事件时，组织机构可以利用多模态大模型对多种来源的信息进行综合分析，快速准确地识别出事件的关键要素和发展趋势，从而制定出更有针对性的应对措施。这种创新性的应用不仅提升了组织机构的应变能力和决策效率，也为社会的持续进步注入了新的动力。

附图说明

图1是本发明实施例提供的面向组织知识管理的多模态大模型架构示图；

图2是本发明实施例提供的CLIP多模态感知结构示图；

图3是本发明实施例提供的多模态大语言模型的Prompt Tuning架构示图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明实施例提供一种面向组织知识管理的多模态大模型实现方法，该方法的实现包括：

S1、多模态模型基础架构；

S2、基于组织知识数据的多模态大模型预训练架构；

S3、多模态模型连接大语言模型架构；

其中，所述步骤S1，具体实施步骤为：

所述步骤S2，具体实施步骤为：

S203、为了有效实现图像-文本配对学习，构建针对组织知识管理的图像-文本对数据集，并在CLIP模型环境下从组织内部资源中提取相关图像和文本描述，以便训练模型理解和分类组织特定的多模态信息。

所述步骤S3，具体实施步骤为：

S303、在微调阶段优化模型性能并细致评估输出，确保提升多模态数据处理能力；采用prompt tuning技术，保持大型语言模型（LLM）不变，通过定制软提示应对不同任务，提高效率和灵活性，避免重复调整或重训练。

S304、Prompt Tuning 是本方法中用于使大型语言模型（LLM）适应特定下游任务的技术，它根据prompt中提供的示例数量，被分类为单样本（One-Shot）、少样本（Few-Shot）或零样本（Zero-Shot）Prompt。单样本Prompt 包含一个示例，少样本Prompt 包含几个示例，而零样本Prompt 不依赖于示例，只需描述性文本提示。这些方法均旨在增强模型的适应性和泛化能力。

以下结合附图1-3对混合多模态大模型基础架构，基于组织知识数据的多模态大模型预训练架构以及 CLIP对接大语言模型生成架构进行详细描述。

A、在设计混合多模态大模型基础架构中，针对组织知识数据的特点，使用基于图文共同理解的基础大模型架构CLIP（Constrastive Language-Image Pre-training），并对其进行了针对性的修改设计，其具体的设计如下：

A1、针对组织知识管理数据的图像部分，设计了图像编码器。包括一个视觉Transformer结构，它具备从海量图像中提炼出核心视觉模式和结构的能力，进而将其转化为高维特征向量；借助自注意力机制，神经网络在处理图像时能够捕获全局性的依赖关系；通过训练大量图像样本，此神经网络可以自主地识别和提取出关键的视觉模式和结构。通过深入分析图像中的像素分布及其空间关系，将复杂的视觉信息转化为高维特征向量。经过这一深度神经网络的处理，图像数据被有效地编码成高维特征向量，这些向量蕴含了图像的关键视觉信息，为后续的模式识别和多模态数据分析提供了有力支持。

A2、针对组织知识管理中的文本部分，设计了文本编码器旨在理解和编码文本信息，其采用文本Transformer架构作为基础，有效捕获文本中跨越长距离的依赖关系；该文本编码器接收输入的文本（例如对图像的描述），并将其转换为特征向量，这些特征向量在维度上与由图像编码器所生成的向量保持一致，以实现有效的信息匹配和整合。

B、根据设计A所采用的2种不同的编码器，设计如下预训练的架构：

B1.由所述图像编码器和文本编码器产生的特征向量被映射到一个共同的多维特征空间中。在这个特征空间中，图像和文本特征向量的接近程度通过它们之间的相似度来衡量，本方法使用点积或余弦相似度方法计算。具体如下：

B2、为了更准确的匹配得到的文本和图像的特征向量序列，本方法采用了对比学习的方法。它的核心思想是通过比较不同的样本来学习特征表示，以便能够将相似的样本区分于不相似的样本。对比学习涉及选择和比较正样本和负样本：

；

。

B3、为了有效地实施图像-文本配对学习，需要构建一个组织知识管理相关的图像-文本对数据集。在CLIP模型的应用环境中，这意味着从组织内部的数据资源中收集大量相关的图像和文本描述。例如，可以从组织的文档库、报告、和其他数字资产中提取这些图像-文本对。与CLIP的原始研究相比，此处的数据集将专注于组织特定的内容和场景。在传统的图像分类方法中，模型通常以图像为输入，并预测与之相关的文本（类别）作为输出。在这种新的应用场景下，模型将被训练以理解和分类组织知识管理中的特定图像和文本信息。

C、在使用CLIP多模态架构对接大语言模型生成的设计中，主要添加了以下模块：

C1、为了构建基于CLIP的多模态模型，首先利用阶段A和B训练的图像编码器和文本编码器。这一过程旨在生成一系列高维度、相互匹配的图像和文本特征向量。接着，设定一个多模态向量对齐模块。在多模态向量对齐模块中，实施了特定的提示词架构工程，其目的是对齐大型语言模型的语义理解向量，以确保图像和文本数据在语义层面上的有效对应和整合。

C2、在多模态向量对齐之后，将使用大型语言模型对这些已对齐的向量进行进一步的微调。这一步骤的目的是使语言模型能够更好地理解和处理来自CLIP模型的图像和文本特征向量。在转换过程中，注意力集中于如何有效融合图像和文本信息，确保这些信息在语言模型中保持一致性和相关性。本发明设计特定的提示模板，使得大语言模型能够更好地理解和使用这些融合的多模态信息。

C3.在本方法中，模型的微调阶段不仅涉及对模型本身的性能优化以提升其在执行特定任务上的效率，而且包括对模型输出的细致评估。这一评估的目的是确保通过微调生成的prompt实际上增强了模型处理多模态数据的能力。重要的是，本方法采用了prompttuning技术，这意味着维护的是一套不变的大型语言模型（LLM）。针对不同的任务，仅需通过使用不同的软提示（soft prompt）来激活大型语言模型的相应下游任务功能。这种方法的优势在于它提供了一种高效且灵活的方式来应用同一模型于多种任务，而无需对模型本身进行重复的调整或重训练。

C4、Prompt Tuning 在本方法中被定义为使用一定的固定模板或范式，以促使大型语言模型（LLM）适应特定的下游任务。从是否在prompt中提供示例的角度来看，此技术可进一步细分为单样本（One-Shot）Prompt、少样本（Few-Shot）Prompt 和零样本（Zero-Shot）Prompt。单样本Prompt指的是在prompt中仅提供一个相关示例，而少样本Prompt则包含少量示例。相反，零样本Prompt不包含任何示例，仅依赖于prompt的描述性文本来引导模型完成任务。这些不同类型的Prompt Tuning 方法在提升模型对于特定任务的适应性方面起到关键作用，同时也为探索模型泛化能力和灵活性提供了重要的研究视角。

本方法旨在提高组织机构知识管理的效率和准确性；能够并行处理和解析图像、文本以及图表等多种数据类型，通过这种并行处理机制，系统可在较短时间内，准确地完成复合格式文档的分析和理解，从而显著提高文档处理的效率和准确性。

本方法专门设计用于发现和理解文档中不同元素间的潜在关联。该机制对于挖掘数据中隐藏的洞见和知识至关重要，特别适用于政策制定和公共服务优化等应用场景。通过对多种数据类型的综合分析和解读，支持基于数据的决策过程。这种决策支持系统能够提高政策制定的科学性和有效性，增强公共管理的透明度和服务质量。

本发明实施例还提供了一种面向组织知识管理的多模态大模型系统，包括混合多模态大模型基础架构，基于组织知识数据的多模态大模型预训练架构和CLIP多模态架构对接大语言模型生成架构；

该系统实现上述实施例所述的面向组织知识管理的多模态大模型实现方法。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种面向组织知识管理的多模态大模型实现方法，其特征在于，该方法的实现包括：

S1、多模态模型基础架构；

S2、基于组织知识数据的多模态大模型预训练架构；

S3、多模态模型连接大语言模型架构；

2.根据权利要求1所述的一种面向组织知识管理的多模态大模型实现方法，其特征在于，所述步骤S1，具体实施步骤包括：

3.根据权利要求2所述的一种面向组织知识管理的多模态大模型实现方法，其特征在于，所述步骤S2，具体实施步骤包括：

4.根据权利要求3所述的一种面向组织知识管理的多模态大模型实现方法，其特征在于，在所述多维特征空间中，图像和文本特征向量的接近程度，使用点积或余弦相似度方法计算；具体如下：

5.根据权利要求4所述的一种面向组织知识管理的多模态大模型实现方法，其特征在于，所述对比学习包括选择和比较正样本和负样本，

；

。

6.根据权利要求3或4或5所述的一种面向组织知识管理的多模态大模型实现方法，其特征在于，所述在CLIP模型的应用环境中从组织内部的数据资源中收集大量相关的图像和文本描述，包括从组织的文档库、报告、和其他数字资产中提取这些图像-文本对。

7.根据权利要求3所述的一种面向组织知识管理的多模态大模型实现方法，其特征在于，所述步骤S3，具体实施步骤包括：

S302、设定多模态向量对齐模块，实现多模态向量对齐；在多模态向量对齐之后，使用大型语言模型对这些已对齐的向量进行进一步的微调；

8.根据权利要求7所述的一种面向组织知识管理的多模态大模型实现方法，其特征在于，所述微调，

采用prompt tuning技术，保持大型语言模型不变，通过定制软提示应对不同任务，针对不同的任务，通过使用不同的软提示来激活大型语言模型的相应下游任务功能。

9.根据权利要求8所述的一种面向组织知识管理的多模态大模型实现方法，其特征在于，Prompt Tuning被定义为使用固定模板或范式，以促使大型语言模型适应特定的下游任务，包括单样本Prompt、少样本Prompt 和零样本Prompt，

10.一种面向组织知识管理的多模态大模型系统，其特征在于，包括混合多模态大模型基础架构，基于组织知识数据的多模态大模型预训练架构和CLIP多模态架构对接大语言模型生成架构；

该系统实现权利要求1至9任一所述的面向组织知识管理的多模态大模型实现方法。