CN117743315A - 一种为多模态大模型系统提供高质量数据的方法 - Google Patents
一种为多模态大模型系统提供高质量数据的方法 Download PDFInfo
- Publication number
- CN117743315A CN117743315A CN202410186243.2A CN202410186243A CN117743315A CN 117743315 A CN117743315 A CN 117743315A CN 202410186243 A CN202410186243 A CN 202410186243A CN 117743315 A CN117743315 A CN 117743315A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- knowledge
- industry
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000012795 verification Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000007726 management method Methods 0.000 claims description 57
- 230000006399 behavior Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008520 organization Effects 0.000 claims description 9
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000009960 carding Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000001427 coherent effect Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 abstract description 2
- 238000004220 aggregation Methods 0.000 abstract description 2
- 230000009897 systematic effect Effects 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000009471 action Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及数据处理技术领域,特别涉及一种为多模态大模型系统提供高质量数据的方法。该为多模态大模型系统提供高质量数据的方法,梳理行业业务知识,形成所属技术领域行业知识库,进行预处理和数据标注后,形成训练集,验证集和测试集,将文本块中的知识点转换成向量形式;针对个性化需求对模型参数进行微调,以优化模型性能指标;设计提示词,确保大语言模型能够准确理解所属行业知识的语义和结构;对用户提出的问题进行向量化处理,提交给大语言模型进行查询,获取与之最匹配的答案。该为多模态大模型系统提供高质量数据的方法,通过行归集整理,形成系统性、关联性、易用性的知识集,不仅提供了高质量数据,还为智能化服务提供了支撑。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种为多模态大模型系统提供高质量数据的方法。
背景技术
目前,绝大多数的传统数字政务领域行业知识库管理体系的核心技术是基于传统的自然语言处理架构和基于分词器的知识图谱构建,其架构限制了其在满足现代政府和社会需求方面的效率和灵活性。传统数字政务领域行业知识库管理体系存在以下问题:
首先,信息时效性不足:传统数字政务领域行业知识库通常基于静态数据和文件,难以实时更新和反映政府政策、法规和事件的最新变化。
其次,难以应对复杂查询:传统数字政务领域行业知识库可能需要用户使用特定的关键字或术语来提出查询,这对于非专业用户或需要复杂信息的查询来说可能不够友好。
再次,缺乏上下文感知:传统数字政务领域行业知识库通常缺乏对问题背后上下文的深刻理解,这使得它们难以处理需要考虑多个相关政策或需要理解复杂政府行动的问题,这可能导致提供不准确或不完整的答案。
同时,无法个性化定制:传统数字政务领域行业知识库通常提供通用性的信息,而不考虑用户的特定需求或背景,使得用户无法获取与其个人情境相关的定制化建议或信息。
最后,困难的知识维护:维护传统知识库需要政府机构不断投入资源以确保信息的准确性和完整性,导致高昂的维护成本和较慢的信息更新速度。
综上,传统数字政务领域行业知识库管理体系存在信息时效性、查询复杂性、上下文理解、个性化定制、维护成本、多语言支持和用户互动等方面的问题。
大模型具有对人类语义的深度理解和处理能力,这是其核心优势。这些模型借助巨量数据进行学习,精准捕捉和模拟人类的语言习惯和表达方式,在与人类的互动中呈现出更高的理解和响应能力。此外,大模型还结合了深度思考和强化学习技术,不仅能回答问题,更能进行复杂的思考和推理,进一步推动了人工智能技术向模拟人类大脑功能的方向发展。
大模型的应用对传统政务知识问答检索库产生了深刻影响。传统检索库依赖固定数据和预设查询模式,而大模型则通过动态学习和持续更新的政务领域行业知识库,能够为用户提供更丰富、准确和个性化的信息服务。这意味着用户可以通过自然语言提出问题,获得更直接和精确的答案,从而显著提高信息检索的效率和质量。
数据质量对于提升大模型的性能和准确性具有重要影响。高质量的数据可以帮助大模型更好地学习数据的规律和特征,从而提高模型的泛化能力和性能。此外,数据的分布和多样性也会影响大模型的性能,因而需要可能选择与实际应用场景相关的、多样化的数据集。
基于上述情况,发明提出了一种为多模态大模型系统提供高质量数据的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的为多模态大模型系统提供高质量数据的方法。
本发明是通过如下技术方案实现的:
一种为多模态大模型系统提供高质量数据的方法,其特征在于:包括以下步骤:
步骤S1、梳理行业业务知识,理清管理部门、服务对象、管理行为与管理权力事项四者之间的关系,形成所属技术领域行业知识库;
步骤S2、对所属技术领域行业知识库的数据进行预处理和数据标注,形成训练集,验证集和测试集三个数据集,使用分词器将文本分成文本块,并将文本块中的知识点转换成向量形式;
步骤S3、在结构化部署的基础大模型基础上,针对行业知识组织的个性化需求对模型参数进行微调,以优化模型性能指标,适应所属技术领域行业知识库的特定需求;
步骤S4、针对所属技术领域行业知识库的特定需求,设计相应的提示词,确保大语言模型能够准确理解所属技术领域行业知识的语义和结构;
步骤S5、对用户提出的问题进行向量化处理,填入提示词模板,并将提示词模板提交给大语言模型进行查询,获取与之最匹配的答案。
所述步骤S1中,实现流程如下:
步骤S1.1、以服务对象为核心厘清管理部门、服务对象、管理行为与管理权力四者之间的关系;梳理管理部门,并根据各部门的工作职责挖掘细化各部门所管理的服务对象,形成管理部门-服务对象模型;
步骤S1.2、基于管理部门-服务对象模型,对管理部门的服务对象进行梳理,并分析服务对象具有的行为事件,形成管理部门与服务对象及管理行为三者之间的关联关系,再结合管理部门的管理权力事项,将管理部门、服务对象、管理行为与管理权力事项四者之间的关系进行关联,形成所属技术领域行业知识库。
所述步骤S2中,实现流程如下:
步骤S2.1、将所属技术领域行业知识数据集划分为训练集,验证集和测试集三个数据集,使用交叉验证来评估模型的性能,通过分层抽样保证每个类别的数据在三个测试集中具有代表性,避免数据偏差;
步骤S2.2、对所属技术领域行业知识数据集进行预处理,包括数据清洗,去重,去噪以及数据标准化,去除不需要的数据,修复数据集中的缺失值和错误,处理异常数据和噪声;
对所属技术领域行业知识数据集中的数据进行数据标注,标注数据的文件类型和应用场景;所述文件类型但不限于包括文本、图片和视频,所述应用场景包括但不限于自然语言处理、计算机视觉和视频场景;
步骤S2.4、针对标注后的行业知识数据集,通过引入文字提取textract架构和光学字符识别OCR技术,将其整理和转换为纯文本格式,最终生成非结构化文本数据;
步骤S2.5、使用分词器将生成的生成非结构化文本数据分成文本块,并确保每个文本块具有相对完整和独立的语义;
步骤S2.6、采用特定于提示词架构的内嵌工具,对每个文本块中的每个知识点进行处理,将其向量化,并以键值对的形式存储,以便后续的快速匹配索引。
所述步骤S2.5中,分词器通过倒排召回方式对文档进行分词,生成关系项Term集合,并建立关系项Term与文档的映射;
对用户输入内容同样进行分词,获取关系项Term列表,并使用BM25公式对关系项Terms打分排序,返回排序结果给用户。
所述步骤S3中,在结构化部署的基础大模型基础上,通过添加与所属技术领域行业相关的关键词、短语及数据隐私规定,采用数据增强技术提升模型泛化能力,针对行业知识组织的个性化需求进行模型参数微调,以优化模型性能指标。
所述步骤S3中,采用迁移学习方法,利用在其他技术领域预训练的模型参数作为初始参数,然后将其微调为所属行业知识组织所需的模型参数。
所述步骤S4中,实现流程如下:
步骤S4.1、针对所属行业知识组织的个性化需求,设计提示词,提示词包括关键词、实体与关系,并采用实体链接与关系抽取技术,将相关信息与原始文本中的实体和关系相链接,进行大语言模型提示词模板的设计;
步骤S4.2、基于LangChain提示词架构,将提示词模板作为输入,进行思维链初始化,并通过配备记忆单元,将大语言模型推理的结果作为历史对话的输入进行存储和记忆,从而构建更为连贯和高效的思维链;
步骤S4.3、对设计的提示词进行验证和优化,通过实验或测试来评估其效果;根据评估结果对提示词进行调整和改进,以提高模型的性能和准确性。
所述步骤S5中,实现流程如下:
步骤S5.1、利用提示词架构内嵌工具对用户提出的问题进行处理,将每个问题与文本块中的每个知识点向量化;
步骤S5.2、将生成的向量填入提示词模板中,并将提示词模板提交给大语言模型进行查询,采用向量聚类算法获取与之最匹配的答案;
步骤S5.3、利用多模态感知技术设计架构,集成数据解析和格式转换技术,根据用户的输入感知其输出需求,并自动转换输出格式以满足用户需求;
步骤S5.4、当大语言模型接到请求之后,对目标完成过程分阶段进行规划,并明确每个阶段任务的具体流程和任务完成的步骤,通过提示词架构进行任务下发;
步骤S5.5、通过设计代理架构,训练大型语言模型使用第三方工具来解决实际问题;
步骤S5.6、采用基于规则的方法或机器学习算法,对生成的反馈内容进行自动或半自动的敏感词检测和过滤,以识别涉及敏感信息或不当言论的文本;若检测到敏感词或不当言论,则对其进行删除、替换或标注,以确保反馈内容的安全性和合规性。
一种为多模态大模型系统提供高质量数据的设备,其特征在于:包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如上所述的方法。
一种计算机可读存储介质,其特征在于:包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行本发明为多模态大模型系统提供高质量数据的方法。
本发明的有益效果是:该为多模态大模型系统提供高质量数据的方法,通过对行业知识进行归集整理,形成基础性、系统性、关联性、易用性的知识集,为多模态大模型系统提供高质量数据,进而面向行业工作人员提供智能问答、智能搜索、智能生成等智能化服务支撑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明为多模态大模型系统提供高质量数据的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
该为多模态大模型系统提供高质量数据的方法,包括以下步骤:
步骤S1、梳理行业业务知识,理清管理部门、服务对象、管理行为与管理权力事项四者之间的关系,形成所属技术领域行业知识库;
步骤S2、对所属技术领域行业知识库的数据进行预处理和数据标注,形成训练集,验证集和测试集三个数据集,使用分词器将文本分成文本块,并将文本块中的知识点转换成向量形式;
步骤S3、在结构化部署的基础大模型基础上,针对行业知识组织的个性化需求对模型参数进行微调,以优化模型性能指标,适应所属技术领域行业知识库的特定需求;
步骤S4、针对所属技术领域行业知识库的特定需求,设计相应的提示词,确保大语言模型能够准确理解所属技术领域行业知识的语义和结构;
步骤S5、对用户提出的问题进行向量化处理,填入提示词模板,并将提示词模板提交给大语言模型进行查询,获取与之最匹配(距离最近、相似度最高)的答案。
所述步骤S1中,实现流程如下:
步骤S1.1、以服务对象为核心厘清管理部门、服务对象、管理行为与管理权力四者之间的关系;梳理管理部门,并根据各部门的工作职责挖掘细化各部门所管理的服务对象,形成管理部门-服务对象模型;
其中,服务对象的主体包括但不限于人、财、物与文化形态;
服务对象分类包括但不限于公众群体、组织主体、文化形态、资产财产、公共设施、公共安全与自然资源。
步骤S1.2、基于管理部门-服务对象模型,对管理部门的服务对象进行梳理,并分析服务对象具有的行为事件,形成管理部门与服务对象及管理行为三者之间的关联关系,再结合管理部门的管理权力事项,将管理部门、服务对象、管理行为与管理权力事项四者之间的关系进行关联,形成所属技术领域行业知识库。
服务对象的行为达100余类;比如自然人的落户、转移、入学、考试、出入境、结婚、生育、购房、买房、毕业、就业、社会保险保、租房、换车、购车、养老、死亡殡葬等;基于法人的行为包括:注册管理、经营管理、生成监督、流通管理、开办企业、资质申请、投资立项、扩大生产、办理社保、申请专利、纳税缴费、申请贷款、申请破产、企业延续、引进人才、安全生产等。
所述步骤S2中,实现流程如下:
步骤S2.1、对所属技术领域行业知识库的数据包含csv、tsv、zip、图像、视频、文本、音频等类型文件;为了便于训练和评估模型,将行业知识数据集划分为训练集,验证集和测试集三个数据集,使用交叉验证来评估模型的性能,通过分层抽样保证每个类别的数据在三个测试集中具有代表性,避免数据偏差;
步骤S2.2、对所属技术领域行业知识数据集进行预处理,包括数据清洗,去重,去噪以及数据标准化,去除不需要的数据,修复数据集中的缺失值和错误,处理异常数据和噪声,以保证数据质量,避免对模型的干扰,提高模型训练的效率;
步骤S2.3、为了让大语言模型能够更好的学习理解数据,对所属技术领域行业知识数据集中的数据进行数据标注,标注数据的文件类型和应用场景;
数据的文件类型包括文本、图片和视频,应用场景如文本三元组识别、图像分类、目标检测、语义分割、跟踪标注等,快速高效地完成原始政务知识数据集的标注,用于后续多模态大模型的开发;
步骤S2.4、针对标注后的行业知识数据集,通过引入文字提取textract架构和光学字符识别OCR(Optical Character Recognition)技术,将其整理和转换为纯文本格式,最终生成非结构化文本数据;
步骤S2.5、使用分词器将生成的生成非结构化文本数据分成文本块,并确保每个文本块具有相对完整和独立的语义;
步骤S2.6、采用特定于提示词架构的内嵌工具,对每个文本块中的每个知识点进行处理,将其向量化,并以键值对的形式存储,以便后续的快速匹配索引;目前支持多个词嵌入的基础模型,例如:M3E,text2vec,BAAI系列模型。
所述步骤S2.5中,分词器通过倒排召回方式对文档进行分词,生成关系项Term集合,并建立关系项Term与文档的映射;
对用户输入内容同样进行分词,获取关系项Term列表,并使用BM25公式对关系项Terms打分排序,返回排序结果给用户。
所述步骤S3中,在结构化部署的基础大模型基础上,通过添加与所属技术领域行业相关的关键词、短语及数据隐私规定,采用特定的数据增强技术提升模型泛化能力,针对行业知识组织的个性化需求进行模型参数微调,以优化模型性能指标。
采用迁移学习方法,利用在其他技术领域预训练的模型参数作为初始参数,然后将其微调为所属行业知识组织所需的模型参数;
所述步骤S4中,实现流程如下:
步骤S4.1、针对所属行业知识组织的个性化需求,设计相应的提示词,提示词包括关键词、实体与关系,并采用实体链接与关系抽取技术,将相关信息与原始文本中的实体和关系相链接,进行大语言模型提示词模板的设计;
步骤S4.2、基于LangChain提示词架构,将提示词模板作为输入,进行思维链初始化,并通过配备记忆单元,将大语言模型推理的结果作为历史对话的输入进行存储和记忆,从而构建更为连贯和高效的思维链;
步骤S4.3、对设计的提示词进行验证和优化,通过实验或测试来评估其效果;根据评估结果对提示词进行调整和改进,以提高模型的性能和准确性。
所述步骤S5中,实现流程如下:
步骤S5.1、利用提示词架构内嵌工具对用户提出的问题进行处理,将每个问题与文本块中的每个知识点向量化;
步骤S5.2、将生成的向量填入提示词模板中,并将提示词模板提交给大语言模型进行查询,采用向量聚类算法获取与之最匹配(距离最近、相似度最高)的若干答案;
步骤S5.3、利用多模态感知技术设计架构,集成数据解析和格式转换技术,根据用户的输入感知其输出需求,并自动转换输出格式以满足用户需求;
具体实现时,包括输入处理模块、需求感知模块以及输出转换模块。用户的输入首先被输入处理模块分析,随后需求感知模块根据预设算法识别用户的特定输出要求。最后,输出转换模块根据识别到的需求,将内容整理成所需的格式。例如,当用户希望所生成的内容以PDF、Word文档或图文混合的形式出现时,系统能够识别这一需求并相应地转换输出格式。
步骤S5.4、当大语言模型接到请求之后,会进行思考,对目标完成过程分阶段进行规划,并明确每个阶段任务的具体流程和任务完成的步骤,通过详细的提示词架构进行任务下发;
具体实现时,包括调度模块,规划模块和行动模块。使用调度模块和规划模块对任务进行自主拆解。动态地创建实例并将任务分配给不同的智能体,使用户能够轻松地引入新的智能体,并提升现有智能体的性能。在规划模块中生成和修正任务的计划。该计划将任务拆分为多个子任务,并为每个子任务设定关键节点,从而使智能体能够逐步推进任务的完成。
利用Memory和History等记忆代理,并结合一些提示词架构,能够从过往经验中学习并不断优化自身。同时,采用Command驱动的流程架构,使得本系统可以实现自主运行,并根据不同的指令和任务做出相应的反应和操作。这种自主运行的能力使得本系统能够更加高效地完成各种任务,提升用户体验和效率。
行动模块用于承担着实现目标和完成子任务的责任。行动者通过运用多种工具来应对子任务,并且能够与人类协作以共同完成任务。在行动模块内部,配置了一个工具服务器,该服务器中的每个工具都配备了对应的语言模型调用接口。当需要协作完成任务时,工具服务器的接口将提供必要的辅助调用功能。
步骤S5.5、通过设计代理架构,训练大型语言模型在特定领域有效使用第三方工具来解决实际问题;例如,当提示词工程指导大语言模型处理数学问题的时候,大语言模型可以使用数学问题处理工具进行分析。
步骤S5.6、采用基于规则的方法或机器学习算法,对生成的反馈内容进行自动或半自动的敏感词检测和过滤,以识别涉及敏感信息或不当言论的文本;若检测到敏感词或不当言论,则对其进行删除、替换或标注,以确保反馈内容的安全性和合规性。
该为多模态大模型系统提供高质量数据的设备,包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如上所述的方法。
该计算机可读存储介质,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行该为多模态大模型系统提供高质量数据的方法。
以上对本发明实例中的一种为多模态大模型系统提供高质量数据的方法进行了详细的介绍。本部分采用具体实例对发明的原理及实施方式进行了阐述,以上实例仅用于帮助理解本发明的核心思想,在不脱离本发明原理的情况下,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
Claims (10)
1.一种为多模态大模型系统提供高质量数据的方法,其特征在于:包括以下步骤:
步骤S1、梳理行业业务知识,理清管理部门、服务对象、管理行为与管理权力事项四者之间的关系,形成所属技术领域行业知识库;
步骤S2、对所属技术领域行业知识库的数据进行预处理和数据标注,形成训练集,验证集和测试集三个数据集,使用分词器将文本分成文本块,并将文本块中的知识点转换成向量形式;
步骤S3、在结构化部署的基础大模型基础上,针对行业知识组织的个性化需求对模型参数进行微调,以优化模型性能指标,适应所属技术领域行业知识库的特定需求;
步骤S4、针对所属技术领域行业知识库的特定需求,设计相应的提示词,确保大语言模型能够准确理解所属技术领域行业知识的语义和结构;
步骤S5、对用户提出的问题进行向量化处理,填入提示词模板,并将提示词模板提交给大语言模型进行查询,获取与之最匹配的答案。
2.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法,其特征在于:所述步骤S1中,实现流程如下:
步骤S1.1、以服务对象为核心厘清管理部门、服务对象、管理行为与管理权力四者之间的关系;梳理管理部门,并根据各部门的工作职责挖掘细化各部门所管理的服务对象,形成管理部门-服务对象模型;
步骤S1.2、基于管理部门-服务对象模型,对管理部门的服务对象进行梳理,并分析服务对象具有的行为事件,形成管理部门与服务对象及管理行为三者之间的关联关系,再结合管理部门的管理权力事项,将管理部门、服务对象、管理行为与管理权力事项四者之间的关系进行关联,形成所属技术领域行业知识库。
3.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法,其特征在于:所述步骤S2中,实现流程如下:
步骤S2.1、将所属技术领域行业知识数据集划分为训练集,验证集和测试集三个数据集,使用交叉验证来评估模型的性能,通过分层抽样保证每个类别的数据在三个测试集中具有代表性,避免数据偏差;
步骤S2.2、对所属技术领域行业知识数据集进行预处理,包括数据清洗,去重,去噪以及数据标准化,去除不需要的数据,修复数据集中的缺失值和错误,处理异常数据和噪声;
步骤S2.3、对所属技术领域行业知识数据集中的数据进行数据标注,标注数据的文件类型和应用场景;所述文件类型但不限于包括文本、图片和视频,所述应用场景包括但不限于自然语言处理、计算机视觉和视频场景;
步骤S2.4、针对标注后的行业知识数据集,通过引入文字提取textract架构和光学字符识别OCR技术,将其整理和转换为纯文本格式,最终生成非结构化文本数据;
步骤S2.5、使用分词器将生成的生成非结构化文本数据分成文本块,并确保每个文本块具有相对完整和独立的语义;
步骤S2.6、采用特定于提示词架构的内嵌工具,对每个文本块中的每个知识点进行处理,将其向量化,并以键值对的形式存储,以便后续的快速匹配索引。
4.根据权利要求3所述的为多模态大模型系统提供高质量数据的方法,其特征在于:所述步骤S2.5中,分词器通过倒排召回方式对文档进行分词,生成关系项Term集合,并建立关系项Term与文档的映射;
对用户输入内容同样进行分词,获取关系项Term列表,并使用BM25公式对关系项Terms打分排序,返回排序结果给用户。
5.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法,其特征在于:所述步骤S3中,在结构化部署的基础大模型基础上,通过添加与所属技术领域行业相关的关键词、短语及数据隐私规定,采用数据增强技术提升模型泛化能力,针对行业知识组织的个性化需求进行模型参数微调,以优化模型性能指标。
6.根据权利要求1或5所述的为多模态大模型系统提供高质量数据的方法,其特征在于:所述步骤S3中,采用迁移学习方法,利用在其他技术领域预训练的模型参数作为初始参数,然后将其微调为所属行业知识组织所需的模型参数。
7.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法,其特征在于:所述步骤S4中,实现流程如下:
步骤S4.1、针对所属行业知识组织的个性化需求,设计提示词,提示词包括关键词、实体与关系,并采用实体链接与关系抽取技术,将相关信息与原始文本中的实体和关系相链接,进行大语言模型提示词模板的设计;
步骤S4.2、基于LangChain提示词架构,将提示词模板作为输入,进行思维链初始化,并通过配备记忆单元,将大语言模型推理的结果作为历史对话的输入进行存储和记忆,从而构建更为连贯和高效的思维链;
步骤S4.3、对设计的提示词进行验证和优化,通过实验或测试来评估其效果;根据评估结果对提示词进行调整和改进,以提高模型的性能和准确性。
8.根据权利要求1所述的为多模态大模型系统提供高质量数据的方法,其特征在于:所述步骤S5中,实现流程如下:
步骤S5.1、利用提示词架构内嵌工具对用户提出的问题进行处理,将每个问题与文本块中的每个知识点向量化;
步骤S5.2、将生成的向量填入提示词模板中,并将提示词模板提交给大语言模型进行查询,采用向量聚类算法获取与之最匹配的答案;
步骤S5.3、利用多模态感知技术设计架构,集成数据解析和格式转换技术,根据用户的输入感知其输出需求,并自动转换输出格式以满足用户需求;
步骤S5.4、当大语言模型接到请求之后,对目标完成过程分阶段进行规划,并明确每个阶段任务的具体流程和任务完成的步骤,通过提示词架构进行任务下发;
步骤S5.5、通过设计代理架构,训练大型语言模型使用第三方工具来解决实际问题;
步骤S5.6、采用基于规则的方法或机器学习算法,对生成的反馈内容进行自动或半自动的敏感词检测和过滤,以识别涉及敏感信息或不当言论的文本;若检测到敏感词或不当言论,则对其进行删除、替换或标注,以确保反馈内容的安全性和合规性。
9.一种为多模态大模型系统提供高质量数据的设备,其特征在于:包括存储器和处理器;所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序时实现如权利要求1至8任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于:包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-8所述的为多模态大模型系统提供高质量数据的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410186243.2A CN117743315B (zh) | 2024-02-20 | 2024-02-20 | 一种为多模态大模型系统提供高质量数据的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410186243.2A CN117743315B (zh) | 2024-02-20 | 2024-02-20 | 一种为多模态大模型系统提供高质量数据的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117743315A true CN117743315A (zh) | 2024-03-22 |
CN117743315B CN117743315B (zh) | 2024-05-14 |
Family
ID=90261185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410186243.2A Active CN117743315B (zh) | 2024-02-20 | 2024-02-20 | 一种为多模态大模型系统提供高质量数据的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743315B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118260458A (zh) * | 2024-04-07 | 2024-06-28 | 广东钰顺数字科技有限公司 | 一种基于大语言模型的ai服务系统、装置 |
CN118331152A (zh) * | 2024-05-22 | 2024-07-12 | 山东和信智能科技有限公司 | 基于自然语言大模型的工业控制系统逻辑优化方法及系统 |
CN118377883A (zh) * | 2024-06-21 | 2024-07-23 | 杭州电子科技大学 | 一种通过思维链策略重写查询的会话式检索方法 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022153441A (ja) * | 2021-10-28 | 2022-10-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム |
CN115374291A (zh) * | 2022-08-23 | 2022-11-22 | 浪潮软件科技有限公司 | 基于业务对象的知识库构建方法及系统 |
KR102504562B1 (ko) * | 2022-10-06 | 2023-02-28 | 대한민국 | Ai에 의한 재난안전지식 통합관리시스템 |
CN115858758A (zh) * | 2022-12-28 | 2023-03-28 | 国家电网有限公司信息通信分公司 | 一种多非结构化数据识别的智慧客服知识图谱系统 |
CN116521893A (zh) * | 2023-04-28 | 2023-08-01 | 苏州浪潮智能科技有限公司 | 智能对话系统的控制方法、控制装置和电子设备 |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
US20230326212A1 (en) * | 2021-12-09 | 2023-10-12 | Kpmg Llp | System and method for implementing a multimodal assistant using large language models |
CN117033608A (zh) * | 2023-09-28 | 2023-11-10 | 中国电子科技集团公司第十研究所 | 一种基于大语言模型的知识图谱生成式问答方法及系统 |
WO2023225858A1 (zh) * | 2022-05-24 | 2023-11-30 | 中山大学 | 一种基于常识推理的阅读型考题生成系统及方法 |
CN117172319A (zh) * | 2023-09-19 | 2023-12-05 | 上海图源素数字科技有限公司 | 基于大语言模型的自然资源行业知识库构建方法及系统 |
CN117253576A (zh) * | 2023-10-30 | 2023-12-19 | 来未来科技(浙江)有限公司 | 基于中文医疗大模型的门诊电子病历生成方法 |
CN117290480A (zh) * | 2023-09-27 | 2023-12-26 | 中电九天智能科技有限公司 | 一种基于大语言模型的微调方法、系统、设备及介质 |
US20240029714A1 (en) * | 2022-07-12 | 2024-01-25 | Bharath Chintagunta | Speech signal processing and summarization using artificial intelligence |
CN117520491A (zh) * | 2023-10-27 | 2024-02-06 | 山东浪潮科学研究院有限公司 | 一种基于大语言模型的智能问答方法与装置 |
CN117556010A (zh) * | 2023-11-13 | 2024-02-13 | 广域铭岛数字科技有限公司 | 基于知识库与大模型的文档生成系统、方法、设备及介质 |
WO2024031891A1 (zh) * | 2022-08-10 | 2024-02-15 | 浙江大学 | 知识表征解耦的分类模型的微调方法、装置和应用 |
US20240054035A1 (en) * | 2022-08-15 | 2024-02-15 | Pandravada Bhargav | Dynamically generating application programming interface (api) methods for executing natural language instructions |
-
2024
- 2024-02-20 CN CN202410186243.2A patent/CN117743315B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022153441A (ja) * | 2021-10-28 | 2022-10-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム |
US20230326212A1 (en) * | 2021-12-09 | 2023-10-12 | Kpmg Llp | System and method for implementing a multimodal assistant using large language models |
WO2023225858A1 (zh) * | 2022-05-24 | 2023-11-30 | 中山大学 | 一种基于常识推理的阅读型考题生成系统及方法 |
US20240029714A1 (en) * | 2022-07-12 | 2024-01-25 | Bharath Chintagunta | Speech signal processing and summarization using artificial intelligence |
WO2024031891A1 (zh) * | 2022-08-10 | 2024-02-15 | 浙江大学 | 知识表征解耦的分类模型的微调方法、装置和应用 |
US20240054035A1 (en) * | 2022-08-15 | 2024-02-15 | Pandravada Bhargav | Dynamically generating application programming interface (api) methods for executing natural language instructions |
CN115374291A (zh) * | 2022-08-23 | 2022-11-22 | 浪潮软件科技有限公司 | 基于业务对象的知识库构建方法及系统 |
KR102504562B1 (ko) * | 2022-10-06 | 2023-02-28 | 대한민국 | Ai에 의한 재난안전지식 통합관리시스템 |
CN115858758A (zh) * | 2022-12-28 | 2023-03-28 | 国家电网有限公司信息通信分公司 | 一种多非结构化数据识别的智慧客服知识图谱系统 |
CN116521893A (zh) * | 2023-04-28 | 2023-08-01 | 苏州浪潮智能科技有限公司 | 智能对话系统的控制方法、控制装置和电子设备 |
CN116628172A (zh) * | 2023-07-24 | 2023-08-22 | 北京酷维在线科技有限公司 | 基于知识图谱的政务服务领域多策略融合的对话方法 |
CN117172319A (zh) * | 2023-09-19 | 2023-12-05 | 上海图源素数字科技有限公司 | 基于大语言模型的自然资源行业知识库构建方法及系统 |
CN117290480A (zh) * | 2023-09-27 | 2023-12-26 | 中电九天智能科技有限公司 | 一种基于大语言模型的微调方法、系统、设备及介质 |
CN117033608A (zh) * | 2023-09-28 | 2023-11-10 | 中国电子科技集团公司第十研究所 | 一种基于大语言模型的知识图谱生成式问答方法及系统 |
CN117520491A (zh) * | 2023-10-27 | 2024-02-06 | 山东浪潮科学研究院有限公司 | 一种基于大语言模型的智能问答方法与装置 |
CN117253576A (zh) * | 2023-10-30 | 2023-12-19 | 来未来科技(浙江)有限公司 | 基于中文医疗大模型的门诊电子病历生成方法 |
CN117556010A (zh) * | 2023-11-13 | 2024-02-13 | 广域铭岛数字科技有限公司 | 基于知识库与大模型的文档生成系统、方法、设备及介质 |
Non-Patent Citations (3)
Title |
---|
OGUZHAN TOPSAKAL ET AL: "Creating Large Language Model Applications Utilizing LangChain:A Primer on Devoloping LLM Apps Fast", 《INTERNATIONAL CONFERENCE ON APPLIED ENGINEERING AND NATURAL SCIENCE》, 31 July 2023 (2023-07-31) * |
刘倩倩等: "图书情报领域大模型的应用模式和数据治理", 《图书馆杂志》, vol. 42, no. 12, 8 November 2023 (2023-11-08) * |
周烨恒;石嘉晗;徐睿峰;: "结合预训练模型和语言知识库的文本匹配方法", 中文信息学报, no. 02, 15 February 2020 (2020-02-15) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118260458A (zh) * | 2024-04-07 | 2024-06-28 | 广东钰顺数字科技有限公司 | 一种基于大语言模型的ai服务系统、装置 |
CN118331152A (zh) * | 2024-05-22 | 2024-07-12 | 山东和信智能科技有限公司 | 基于自然语言大模型的工业控制系统逻辑优化方法及系统 |
CN118377883A (zh) * | 2024-06-21 | 2024-07-23 | 杭州电子科技大学 | 一种通过思维链策略重写查询的会话式检索方法 |
CN118377883B (zh) * | 2024-06-21 | 2024-08-20 | 杭州电子科技大学 | 一种通过思维链策略重写查询的会话式检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117743315B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117743315B (zh) | 一种为多模态大模型系统提供高质量数据的方法 | |
US10922342B2 (en) | Schemaless systems and methods for automatically building and utilizing a chatbot knowledge base or the like | |
CN117033571A (zh) | 知识问答系统构建方法及系统 | |
US20200143261A1 (en) | Systems and methods for processing content using a pattern language | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
Mazzei et al. | Analyzing social robotics research with natural language processing techniques | |
CN113988071A (zh) | 一种基于金融知识图谱的智能对话方法及装置、电子设备 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN117235215A (zh) | 基于大模型和知识图谱的生成对话方法、系统及介质 | |
Kortum et al. | Dissection of AI job advertisements: A text mining-based analysis of employee skills in the disciplines computer vision and natural language processing | |
Richards | Merging individual conceptual models of requirements | |
CN111651569A (zh) | 一种电力领域的知识库问答方法及系统 | |
CN118193677A (zh) | 关键人物姓名纠错方法、系统、电子设备和存储介质 | |
Chen | An intelligent question-answering system for course learning based on knowledge graph | |
Calle Gallego et al. | QUARE: towards a question-answering model for requirements elicitation | |
Stollberg et al. | H-Techsight—A next generation knowledge management platform | |
Saini | Artificial intelligence empowered domain modelling bot | |
US20230081891A1 (en) | System and method of managing knowledge for knowledge graphs | |
Saifan et al. | Feature location enhancement based on source code augmentation with synonyms of terms | |
Walker et al. | The Promise and Challenge of Large Language Models for Knowledge Engineering: Insights from a Hackathon | |
Tzanova | AI in Academic Libraries: Success, Pitfalls, Perceptions, and Why We Need AI Literacy | |
CN118070925B (zh) | 模型训练方法、装置、电子设备、存储介质及程序产品 | |
CN118503396B (zh) | 基于开放提示词的erp系统大模型调用方法、设备及介质 | |
CN117851577B (zh) | 基于知识图谱增强大语言模型的政府服务问答方法 | |
Xu et al. | Research on intelligent campus and visual teaching system based on Internet of things |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |