CN117743315A

CN117743315A - 一种为多模态大模型系统提供高质量数据的方法

Info

Publication number: CN117743315A
Application number: CN202410186243.2A
Authority: CN
Inventors: 李会; 张峰; 李照川; 林一伟; 张尧臣; 王宾
Original assignee: Inspur Software Technology Co Ltd
Current assignee: Inspur Software Technology Co Ltd
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-03-22
Anticipated expiration: 2044-02-20
Also published as: CN117743315B

Abstract

本发明涉及数据处理技术领域，特别涉及一种为多模态大模型系统提供高质量数据的方法。该为多模态大模型系统提供高质量数据的方法，梳理行业业务知识，形成所属技术领域行业知识库，进行预处理和数据标注后，形成训练集，验证集和测试集，将文本块中的知识点转换成向量形式；针对个性化需求对模型参数进行微调，以优化模型性能指标；设计提示词，确保大语言模型能够准确理解所属行业知识的语义和结构；对用户提出的问题进行向量化处理，提交给大语言模型进行查询，获取与之最匹配的答案。该为多模态大模型系统提供高质量数据的方法，通过行归集整理，形成系统性、关联性、易用性的知识集，不仅提供了高质量数据，还为智能化服务提供了支撑。

Description

一种为多模态大模型系统提供高质量数据的方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种为多模态大模型系统提供高质量数据的方法。

背景技术

目前，绝大多数的传统数字政务领域行业知识库管理体系的核心技术是基于传统的自然语言处理架构和基于分词器的知识图谱构建，其架构限制了其在满足现代政府和社会需求方面的效率和灵活性。传统数字政务领域行业知识库管理体系存在以下问题：

首先，信息时效性不足：传统数字政务领域行业知识库通常基于静态数据和文件，难以实时更新和反映政府政策、法规和事件的最新变化。

其次，难以应对复杂查询：传统数字政务领域行业知识库可能需要用户使用特定的关键字或术语来提出查询，这对于非专业用户或需要复杂信息的查询来说可能不够友好。

再次，缺乏上下文感知：传统数字政务领域行业知识库通常缺乏对问题背后上下文的深刻理解，这使得它们难以处理需要考虑多个相关政策或需要理解复杂政府行动的问题，这可能导致提供不准确或不完整的答案。

同时，无法个性化定制：传统数字政务领域行业知识库通常提供通用性的信息，而不考虑用户的特定需求或背景，使得用户无法获取与其个人情境相关的定制化建议或信息。

最后，困难的知识维护：维护传统知识库需要政府机构不断投入资源以确保信息的准确性和完整性，导致高昂的维护成本和较慢的信息更新速度。

综上，传统数字政务领域行业知识库管理体系存在信息时效性、查询复杂性、上下文理解、个性化定制、维护成本、多语言支持和用户互动等方面的问题。

大模型具有对人类语义的深度理解和处理能力，这是其核心优势。这些模型借助巨量数据进行学习，精准捕捉和模拟人类的语言习惯和表达方式，在与人类的互动中呈现出更高的理解和响应能力。此外，大模型还结合了深度思考和强化学习技术，不仅能回答问题，更能进行复杂的思考和推理，进一步推动了人工智能技术向模拟人类大脑功能的方向发展。

大模型的应用对传统政务知识问答检索库产生了深刻影响。传统检索库依赖固定数据和预设查询模式，而大模型则通过动态学习和持续更新的政务领域行业知识库，能够为用户提供更丰富、准确和个性化的信息服务。这意味着用户可以通过自然语言提出问题，获得更直接和精确的答案，从而显著提高信息检索的效率和质量。

数据质量对于提升大模型的性能和准确性具有重要影响。高质量的数据可以帮助大模型更好地学习数据的规律和特征，从而提高模型的泛化能力和性能。此外，数据的分布和多样性也会影响大模型的性能，因而需要可能选择与实际应用场景相关的、多样化的数据集。

基于上述情况，发明提出了一种为多模态大模型系统提供高质量数据的方法。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的为多模态大模型系统提供高质量数据的方法。

本发明是通过如下技术方案实现的：

一种为多模态大模型系统提供高质量数据的方法，其特征在于：包括以下步骤：

步骤S1、梳理行业业务知识，理清管理部门、服务对象、管理行为与管理权力事项四者之间的关系，形成所属技术领域行业知识库；

步骤S2、对所属技术领域行业知识库的数据进行预处理和数据标注，形成训练集，验证集和测试集三个数据集，使用分词器将文本分成文本块，并将文本块中的知识点转换成向量形式；

步骤S3、在结构化部署的基础大模型基础上，针对行业知识组织的个性化需求对模型参数进行微调，以优化模型性能指标，适应所属技术领域行业知识库的特定需求；

步骤S4、针对所属技术领域行业知识库的特定需求，设计相应的提示词，确保大语言模型能够准确理解所属技术领域行业知识的语义和结构；

步骤S5、对用户提出的问题进行向量化处理，填入提示词模板，并将提示词模板提交给大语言模型进行查询，获取与之最匹配的答案。

所述步骤S1中，实现流程如下：

步骤S1.1、以服务对象为核心厘清管理部门、服务对象、管理行为与管理权力四者之间的关系；梳理管理部门，并根据各部门的工作职责挖掘细化各部门所管理的服务对象，形成管理部门-服务对象模型；

步骤S1.2、基于管理部门-服务对象模型，对管理部门的服务对象进行梳理，并分析服务对象具有的行为事件，形成管理部门与服务对象及管理行为三者之间的关联关系，再结合管理部门的管理权力事项，将管理部门、服务对象、管理行为与管理权力事项四者之间的关系进行关联，形成所属技术领域行业知识库。

所述步骤S2中，实现流程如下：

步骤S2.1、将所属技术领域行业知识数据集划分为训练集，验证集和测试集三个数据集，使用交叉验证来评估模型的性能，通过分层抽样保证每个类别的数据在三个测试集中具有代表性，避免数据偏差；

步骤S2.2、对所属技术领域行业知识数据集进行预处理，包括数据清洗，去重，去噪以及数据标准化，去除不需要的数据，修复数据集中的缺失值和错误，处理异常数据和噪声；

对所属技术领域行业知识数据集中的数据进行数据标注，标注数据的文件类型和应用场景；所述文件类型但不限于包括文本、图片和视频，所述应用场景包括但不限于自然语言处理、计算机视觉和视频场景；

步骤S2.4、针对标注后的行业知识数据集，通过引入文字提取textract架构和光学字符识别OCR技术，将其整理和转换为纯文本格式，最终生成非结构化文本数据；

步骤S2.5、使用分词器将生成的生成非结构化文本数据分成文本块，并确保每个文本块具有相对完整和独立的语义；

步骤S2.6、采用特定于提示词架构的内嵌工具，对每个文本块中的每个知识点进行处理，将其向量化，并以键值对的形式存储，以便后续的快速匹配索引。

所述步骤S2.5中，分词器通过倒排召回方式对文档进行分词，生成关系项Term集合，并建立关系项Term与文档的映射；

对用户输入内容同样进行分词，获取关系项Term列表，并使用BM25公式对关系项Terms打分排序，返回排序结果给用户。

所述步骤S3中，在结构化部署的基础大模型基础上，通过添加与所属技术领域行业相关的关键词、短语及数据隐私规定，采用数据增强技术提升模型泛化能力，针对行业知识组织的个性化需求进行模型参数微调，以优化模型性能指标。

所述步骤S3中，采用迁移学习方法，利用在其他技术领域预训练的模型参数作为初始参数，然后将其微调为所属行业知识组织所需的模型参数。

所述步骤S4中，实现流程如下：

步骤S4.1、针对所属行业知识组织的个性化需求，设计提示词，提示词包括关键词、实体与关系，并采用实体链接与关系抽取技术，将相关信息与原始文本中的实体和关系相链接，进行大语言模型提示词模板的设计；

步骤S4.2、基于LangChain提示词架构，将提示词模板作为输入，进行思维链初始化，并通过配备记忆单元，将大语言模型推理的结果作为历史对话的输入进行存储和记忆，从而构建更为连贯和高效的思维链；

步骤S4.3、对设计的提示词进行验证和优化，通过实验或测试来评估其效果；根据评估结果对提示词进行调整和改进，以提高模型的性能和准确性。

所述步骤S5中，实现流程如下：

步骤S5.1、利用提示词架构内嵌工具对用户提出的问题进行处理，将每个问题与文本块中的每个知识点向量化；

步骤S5.2、将生成的向量填入提示词模板中，并将提示词模板提交给大语言模型进行查询，采用向量聚类算法获取与之最匹配的答案；

步骤S5.3、利用多模态感知技术设计架构，集成数据解析和格式转换技术，根据用户的输入感知其输出需求，并自动转换输出格式以满足用户需求；

步骤S5.4、当大语言模型接到请求之后，对目标完成过程分阶段进行规划，并明确每个阶段任务的具体流程和任务完成的步骤，通过提示词架构进行任务下发；

步骤S5.5、通过设计代理架构，训练大型语言模型使用第三方工具来解决实际问题；

步骤S5.6、采用基于规则的方法或机器学习算法，对生成的反馈内容进行自动或半自动的敏感词检测和过滤，以识别涉及敏感信息或不当言论的文本；若检测到敏感词或不当言论，则对其进行删除、替换或标注，以确保反馈内容的安全性和合规性。

一种为多模态大模型系统提供高质量数据的设备，其特征在于：包括存储器和处理器；所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如上所述的方法。

一种计算机可读存储介质，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行本发明为多模态大模型系统提供高质量数据的方法。

本发明的有益效果是：该为多模态大模型系统提供高质量数据的方法，通过对行业知识进行归集整理，形成基础性、系统性、关联性、易用性的知识集，为多模态大模型系统提供高质量数据，进而面向行业工作人员提供智能问答、智能搜索、智能生成等智能化服务支撑。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明为多模态大模型系统提供高质量数据的流程示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明中的技术方案，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

该为多模态大模型系统提供高质量数据的方法，包括以下步骤：

步骤S5、对用户提出的问题进行向量化处理，填入提示词模板，并将提示词模板提交给大语言模型进行查询，获取与之最匹配（距离最近、相似度最高）的答案。

所述步骤S1中，实现流程如下：

其中，服务对象的主体包括但不限于人、财、物与文化形态；

服务对象分类包括但不限于公众群体、组织主体、文化形态、资产财产、公共设施、公共安全与自然资源。

服务对象的行为达100余类；比如自然人的落户、转移、入学、考试、出入境、结婚、生育、购房、买房、毕业、就业、社会保险保、租房、换车、购车、养老、死亡殡葬等；基于法人的行为包括：注册管理、经营管理、生成监督、流通管理、开办企业、资质申请、投资立项、扩大生产、办理社保、申请专利、纳税缴费、申请贷款、申请破产、企业延续、引进人才、安全生产等。

所述步骤S2中，实现流程如下：

步骤S2.1、对所属技术领域行业知识库的数据包含csv、tsv、zip、图像、视频、文本、音频等类型文件；为了便于训练和评估模型，将行业知识数据集划分为训练集，验证集和测试集三个数据集，使用交叉验证来评估模型的性能，通过分层抽样保证每个类别的数据在三个测试集中具有代表性，避免数据偏差；

步骤S2.2、对所属技术领域行业知识数据集进行预处理，包括数据清洗，去重，去噪以及数据标准化，去除不需要的数据，修复数据集中的缺失值和错误，处理异常数据和噪声，以保证数据质量，避免对模型的干扰，提高模型训练的效率；

步骤S2.3、为了让大语言模型能够更好的学习理解数据，对所属技术领域行业知识数据集中的数据进行数据标注，标注数据的文件类型和应用场景；

数据的文件类型包括文本、图片和视频，应用场景如文本三元组识别、图像分类、目标检测、语义分割、跟踪标注等，快速高效地完成原始政务知识数据集的标注，用于后续多模态大模型的开发；

步骤S2.4、针对标注后的行业知识数据集，通过引入文字提取textract架构和光学字符识别OCR（Optical Character Recognition）技术，将其整理和转换为纯文本格式，最终生成非结构化文本数据；

步骤S2.6、采用特定于提示词架构的内嵌工具，对每个文本块中的每个知识点进行处理，将其向量化，并以键值对的形式存储，以便后续的快速匹配索引；目前支持多个词嵌入的基础模型，例如：M3E，text2vec，BAAI系列模型。

所述步骤S3中，在结构化部署的基础大模型基础上，通过添加与所属技术领域行业相关的关键词、短语及数据隐私规定，采用特定的数据增强技术提升模型泛化能力，针对行业知识组织的个性化需求进行模型参数微调，以优化模型性能指标。

采用迁移学习方法，利用在其他技术领域预训练的模型参数作为初始参数，然后将其微调为所属行业知识组织所需的模型参数；

所述步骤S4中，实现流程如下：

步骤S4.1、针对所属行业知识组织的个性化需求，设计相应的提示词，提示词包括关键词、实体与关系，并采用实体链接与关系抽取技术，将相关信息与原始文本中的实体和关系相链接，进行大语言模型提示词模板的设计；

所述步骤S5中，实现流程如下：

步骤S5.2、将生成的向量填入提示词模板中，并将提示词模板提交给大语言模型进行查询，采用向量聚类算法获取与之最匹配（距离最近、相似度最高）的若干答案；

具体实现时，包括输入处理模块、需求感知模块以及输出转换模块。用户的输入首先被输入处理模块分析，随后需求感知模块根据预设算法识别用户的特定输出要求。最后，输出转换模块根据识别到的需求，将内容整理成所需的格式。例如，当用户希望所生成的内容以PDF、Word文档或图文混合的形式出现时，系统能够识别这一需求并相应地转换输出格式。

步骤S5.4、当大语言模型接到请求之后，会进行思考，对目标完成过程分阶段进行规划，并明确每个阶段任务的具体流程和任务完成的步骤，通过详细的提示词架构进行任务下发；

具体实现时，包括调度模块，规划模块和行动模块。使用调度模块和规划模块对任务进行自主拆解。动态地创建实例并将任务分配给不同的智能体，使用户能够轻松地引入新的智能体，并提升现有智能体的性能。在规划模块中生成和修正任务的计划。该计划将任务拆分为多个子任务，并为每个子任务设定关键节点，从而使智能体能够逐步推进任务的完成。

利用Memory和History等记忆代理，并结合一些提示词架构，能够从过往经验中学习并不断优化自身。同时，采用Command驱动的流程架构，使得本系统可以实现自主运行，并根据不同的指令和任务做出相应的反应和操作。这种自主运行的能力使得本系统能够更加高效地完成各种任务，提升用户体验和效率。

行动模块用于承担着实现目标和完成子任务的责任。行动者通过运用多种工具来应对子任务，并且能够与人类协作以共同完成任务。在行动模块内部，配置了一个工具服务器，该服务器中的每个工具都配备了对应的语言模型调用接口。当需要协作完成任务时，工具服务器的接口将提供必要的辅助调用功能。

步骤S5.5、通过设计代理架构，训练大型语言模型在特定领域有效使用第三方工具来解决实际问题；例如，当提示词工程指导大语言模型处理数学问题的时候，大语言模型可以使用数学问题处理工具进行分析。

该为多模态大模型系统提供高质量数据的设备，包括存储器和处理器；所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如上所述的方法。

该计算机可读存储介质，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行该为多模态大模型系统提供高质量数据的方法。

以上对本发明实例中的一种为多模态大模型系统提供高质量数据的方法进行了详细的介绍。本部分采用具体实例对发明的原理及实施方式进行了阐述，以上实例仅用于帮助理解本发明的核心思想，在不脱离本发明原理的情况下，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

Claims

1.一种为多模态大模型系统提供高质量数据的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法，其特征在于：所述步骤S1中，实现流程如下：

3.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法，其特征在于：所述步骤S2中，实现流程如下：

步骤S2.3、对所属技术领域行业知识数据集中的数据进行数据标注，标注数据的文件类型和应用场景；所述文件类型但不限于包括文本、图片和视频，所述应用场景包括但不限于自然语言处理、计算机视觉和视频场景；

4.根据权利要求3所述的为多模态大模型系统提供高质量数据的方法，其特征在于：所述步骤S2.5中，分词器通过倒排召回方式对文档进行分词，生成关系项Term集合，并建立关系项Term与文档的映射；

5.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法，其特征在于：所述步骤S3中，在结构化部署的基础大模型基础上，通过添加与所属技术领域行业相关的关键词、短语及数据隐私规定，采用数据增强技术提升模型泛化能力，针对行业知识组织的个性化需求进行模型参数微调，以优化模型性能指标。

6.根据权利要求1或5所述的为多模态大模型系统提供高质量数据的方法，其特征在于：所述步骤S3中，采用迁移学习方法，利用在其他技术领域预训练的模型参数作为初始参数，然后将其微调为所属行业知识组织所需的模型参数。

7.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法，其特征在于：所述步骤S4中，实现流程如下：

8.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法，其特征在于：所述步骤S5中，实现流程如下：

9.一种为多模态大模型系统提供高质量数据的设备，其特征在于：包括存储器和处理器；所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1至8任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-8所述的为多模态大模型系统提供高质量数据的方法。