CN117033603A - 一种垂直领域大模型的构建方法、装置、设备及存储介质 - Google Patents

一种垂直领域大模型的构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117033603A
CN117033603A CN202311088641.2A CN202311088641A CN117033603A CN 117033603 A CN117033603 A CN 117033603A CN 202311088641 A CN202311088641 A CN 202311088641A CN 117033603 A CN117033603 A CN 117033603A
Authority
CN
China
Prior art keywords
model
industry
data set
instruction data
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311088641.2A
Other languages
English (en)
Inventor
张天宇
路兴
杜强
郝凯静
王贺娜
史琬滢
胡泽婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing E Hualu Information Technology Co Ltd
Original Assignee
Beijing E Hualu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing E Hualu Information Technology Co Ltd filed Critical Beijing E Hualu Information Technology Co Ltd
Priority to CN202311088641.2A priority Critical patent/CN117033603A/zh
Publication of CN117033603A publication Critical patent/CN117033603A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及垂直领域模型构建技术领域,公开了一种垂直领域大模型的构建方法、装置、设备及存储介质,方法包括:根据垂直领域的各行业场景需求确定指令数据集的结构和形式;根据各行业具有专业表述的文献生成初始指令数据集并对其进行逻辑性审核及数据增强形成高质量指令数据集;基于高质量指令数据集训练精调大模型;构建分级行业知识库及行业知识图谱融入精调大模型;基于各个行业主题或类别训练多个行业小模型,构建精调大模型结合行业小模型的应用框架作为垂直领域大模型用于语义理解和专业内容生成。本发明通过构建高质量行业数据集及精调大模型+多个专业小模型的应用框架,实现了专业知识的准确引入,提高了垂直领域大模型的综合能力。

Description

一种垂直领域大模型的构建方法、装置、设备及存储介质
技术领域
本发明涉及垂直领域模型构建技术领域,具体涉及一种垂直领域大模型的构建方法。
背景技术
通用大模型使用的训练数据大多来自于互联网公开的海量文本数据,这些数据存在着表述不专业、结构不统一、涉及领域多样、知识范围跨度大等特点,与垂直领域对高质量的行业数据要求相距甚远。此外,通用大模型在回答的结构上也往往具有明显的总分总结构,回答的针对性不强。垂直领域大模型应该具备更强的领域专业性和实用性,具有更多的垂直领域知识,在知识输出和结果展示方面,具有更明显的专业领域特征。
在具体的垂直领域中,拥有或能产生专业数据的各单位之间往往并不共享数据,并且均有自己的数据标准和要求,导致垂直领域的专业数据相较于公开互联网数据而言总是匮乏的。这些专业数据使用范围较小,对处理人员的专业能力要求很高,并且手动整理数据需要消耗大量的时间和人工成本,同时也会因为人为误差导致专业数据质量不高。
当前,垂直大模型竞赛仍然处于初级阶段,各大企业和各单位均有自己的大模型使用需求。需求的不同决定了在构建专业数据集的时候,必须要使用与自身需求相匹配的标准,这也导致了不同标准的数据无法快速、高效地实现不同来源的专业数据之间的汇聚、共享,难以形成高质量的标准数据。
以上涉及的构建垂直大模型面临的问题之间不完全独立,会相互影响。因此,如果不能从全局的高度体系化处理这些数据,大模型的生成幻觉、行业知识量不足、专业知识理解难等问题就无法解决。
发明内容
有鉴于此,本发明提供了一种垂直领域大模型的构建方法、装置、设备及存储介质,以解决现有垂直领域中行业数据不足、质量不高、缺乏统一标准、专业性要求高等数据困难,导致用于垂直领域的大模型生成幻觉、模型本身的行业知识量不足、专业知识理解难的问题。
第一方面,本发明提供了一种垂直领域大模型的构建方法,包括:
根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别,并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式;
将各行业具有专业表述的文献进行拆分形成不同数据形式,并对应生成初始指令数据集;
对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性,并对审核后初始指令数据集进行数据增强,形成高质量指令数据集;
基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,得到精调大模型;
构建垂直领域的分级行业知识库及行业知识图谱,并将分级行业知识库及行业知识图谱融入精调大模型;
基于各个行业主题或类别训练分类模型和命名实体识别模型,作为多个行业小模型,用于对行业数据进行信息提取和文本分类;
构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成。
本实施例提供的垂直领域大模型的构建方法,整合和处理大量的行业内知识和数据,形成知识库和数据库,通过构建精调大模型+多个专业小模型的新型应用框架,实现了专业知识的准确引入,在指令数据集、模型精调策略上的处理实现了与原始模型的意图对齐,在提升大模型专业能力的同时,提高了专业大模型的综合能力。企业和专业人士可以利用这些模型作为智能助手,获取实时的、准确的行业信息,快速解决问题、做出决策和规划战略。
在一种可选的实施方式中,所述方法还包括:构建满足垂直领域模型评估的两级指标评估体系,其包括一级评估指标及二级评估指标;
所述一级评估指标用于评估模型生成的文本是否自然流畅,信息准确、全面详尽、在不同输入下的输出是否稳定一致,是否生成重复内容或固定的表达方式,包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标;
所述二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准,基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果,基于评估结果指导其优化与改进。
本实施例提供的能满足垂直专业大模型评估的两级指标评估体系,给出了一种合理的评估垂直大模型的方式,不仅可以检验垂直大模型在专业领域的应用能力,还可以用于指导模型的优化与改进。
在一种可选的实施方式中,所述将各行业具有专业表述的文献进行拆分形成不同数据形式,包括:
将文献拆分得到的数据分为基于标题或提问生成摘要、基于章节小标题或段落概述生成对应描述和解释、基于提问、概述或摘要生成对应的解决方法、基于上文段落生成合理的下文段落中的至少一种。
在一种可选的实施方式中,所述对审核后初始指令数据集进行数据增强的过程,包括:
将多个具有递进关系的问题以及多个相互独立的问题设置成一个提问、同义词替换、同语义描述替换、不同形式和结构的问题改写、将指令中的答案作为输入答案输入模型自动生成问题中的至少一种。
本发明实施例提供的数据增强方法对于打造垂直领域行业大模型至关重要,是构建不同领域垂直大模型的技术基础。即从垂直大模型的目标特点出发,制作与目标任务和场景需求相符合的大规模行业数据集。将论文、方案、报告、新闻、书籍等包含大量专业知识的载体通过文本切分及形式转换的方式,构建规模性的高质量行业数据集。
在一种可选的实施方式中,所述基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,包括:
基于高质量指令数据集中的字符数、词数或句子数指标来衡量指令数据集文本的长度,遍历高质量指令数据集,将每个文本根据其长度归类到相应的长度区间中,根据不同长度区间的文本数量和重要性,制定采样策略来选择用于模型训练的数据样本,并给所有的数据样本添加合理的衔接用语;并设定预设训练步数及预设微调方式对预设模型进行训练,并记录模型在多轮训练中的阶段性结果和相关参数。
本发明实施例在指令数据集、模型精调策略上,通过创建数据平衡、添加衔接用语、设置合理长度参数,实现了与原始模型的意图对齐,在提升大模型专业能力的同时,最大程度上保持了其他通用能力。
在一种可选的实施方式中,所述分级行业知识库,包括:一级知识库以及一级知识库下属的二级知识库;
所述一级知识库按照行业知识块所属的主题或类别,建设不同主题或类别对应的知识库,所述一级知识库中保存大型知识块的摘要,记录与主题或类别相符合的描述信息;
所述二级知识库中保存的不同主题或类别细分的知识片段;
所述行业知识图谱存储各个行业内的专业表述、时间、地点、人物、事件、关系的知识信息,用于记录复杂实体间的关系及引入无法计算语义相似度和约定俗成的专业名称或概念。
本发明实施例通过将知识库与知识图谱与精调大模型的有机结合,为未来大模型的应用方向提供了参考和借鉴。知识图谱在知识片段的存储上具有独特的优势,使用知识图谱可以高效地维护时间、地点、人物、事件、关系等等知识信息。使用包含目标领域知识片段的知识图谱之后,可以充分释放大模型的推理能力,有效解决大模型在事实性描述方面易出错的难题。分级行业知识库根据垂直行业知识本身的特点、知识库引入大模型的基本逻辑,将一个大型行业知识库分解为二级知识库,通过这种方式实现了行业知识的高效、准确引入,提高了垂直大模型的文本生成质量和生成内容的价值。
在一种可选的实施方式中,所述构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成,包括:
基于多个行业小模型对信息进行信息提取和文本分类,并将多个行业小模型的输出结果作为精调大模型的输入,得到垂直领域语义理解和专业内容生成结果。
本发明实施例通过构建精调大模型+多个专业小模型的新型应用框架,充分发挥不同模型的优势,从文本生成任务的本质出发,最大化模型在特定目标上的表现水平。使用专业的小模型计算提问的类别,如果一个提问中包含多个不同类型的问题,使用小模型分类后在不同子库中寻找相关度最高的知识片段。提高了检索的准确度和检索速度。大模型在相关问题的回答上,会更加准确。
第二方面,本发明提供了一种垂直领域大模型的构建装置,所述装置包括:
指令数据集结构和形式确定模块,用于根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别,并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式;
初始指令数据集生成模块,用于将各行业具有专业表述的文献进行拆分形成不同数据形式,并对应生成初始指令数据集;
高质量指令数据集生成模块,用于对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性,并对审核后初始指令数据集进行数据增强,形成高质量指令数据集;
精调大模型生成模块,用于基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,得到精调大模型;
知识库及知识图谱引入模块,用于构建垂直领域的分级行业知识库及行业知识图谱,并将分级行业知识库及行业知识图谱融入精调大模型;
行业小模型生成模块,基于各个行业主题或类别训练分类模型和命名实体识别模型,作为多个行业小模型,用于对行业数据进行信息提取和文本分类;
垂直领域大模型生成模块,用于构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成。
在一种可选的实施方式中,所述装置还包括:
评估模块,用于构建满足垂直领域模型评估的两级指标评估体系,其包括一级评估指标及二级评估指标;
所述一级评估指标用于评估模型生成的文本是否自然流畅,信息准确、全面详尽、在不同输入下的输出是否稳定一致,是否生成重复内容或固定的表达方式,包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标;
所述二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准,基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果,基于评估结果指导其优化与改进。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的垂直领域大模型的构建方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的垂直领域大模型的构建方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的垂直领域大模型的构建方法的流程示意图;
图2是本发明实施例提供的垂直领域大模型构建过程的整个技术流程图;
图3是本发明实施例提供的利用分级评估指标对模型进行评估打分的示意图;
图4是根据本发明实施例的垂直领域大模型的构建装置的结构框图;
图5是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明实施例,提供了一种垂直领域大模型的构建方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种垂直领域大模型的构建方法,可用于计算机设备终端,图1是根据本发明实施例的垂直领域大模型的构建方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别,并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式。
本发明实施例以煤矿领域为例,煤矿领域垂直大模型需要管理煤矿相关信息,比如地理位置、地震、投产时间、设计生产年限等。通过获取完整的安全事故案例、实际的操作规程,生成智慧矿山建设方案。基于这样的需求和任务,煤矿专业的数据就需要以具体的煤矿的信息作为主要范围,比如压力支护、一通三防、矿井基建等主题。因为要生成智慧矿山建设方案,所以指令数据集里面必须有包含方案数据的相关结构和形式。仅作为举例,不以此为限。
步骤S102,将各行业具有专业表述的文献进行拆分形成不同数据形式,并对应生成初始指令数据集。
本发明实施例中,将来源于论文、方案、报告、新闻、书籍等具有专业表述的文章做自动化拆分形成专业的指令数据集,根据垂直模型生成目标的不同,可生成不同的数据形式,例如:
1)将文献拆分得到的数据分为基于标题、提问生成摘要;
2)基于章节小标题或段落概述生成对应描述和解释;
3)基于提问、概述、摘要生成对应的解决方法;
4)基于上文段落生成合理的下文段落等多种数据形式。
具体地,例如:论文标题为“基于数字孪生技术的大型煤矿远程智能监控研究”,指令数据集就是{"instruction":’给定标题“基于数字孪生技术的大型煤矿远程智能监控研究”,生成对应的摘要’,"output":’论文中的具体摘要,……’},{"instruction":’关于数字孪生技术的煤矿监控可以怎么展开写呢’,"output":’论文中的具体摘要,……’}。
以上数据形式仅作为示例,不以此为限。通过生成不同的数据形式降低了行业数据的标注成本,丰富了行业数据的知识维度,并提高了最终精调模型在内容生成上的多样性。
步骤S103,对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性,并对审核后初始指令数据集进行数据增强,形成高质量指令数据集。
实际应用中,例如:instruction中的论文标题在切分的时候,有几个字符漏掉了,存在语义缺失,因此就需要做一个语义审核。再例如,提问或答案只有两个字符,长度过短不符合对指令数据的要求,instruction中的提问是一件事情,output中的回答是却另外一件事情,不符合语义逻辑。
审查规则例如是:(1)将问题或答案的长度小于等于3的视为无效语句,直接删除,具体数值长度阈值可以根据具体行业数据特点进行合理设定。(2)使用主题分析模型,分析提问和答案的主题,如果主题不统一,表明提问和答案指代不是一件事,将其视为无效数据。
本发明实施例,对审核后初始指令数据集进行数据增强的过程,包括:
1)将多个具有递进关系的问题以及多个相互独立的问题设置成一个提问,目的是提高模型的综合理解和处理能力;例如:
{
"instruction":"Ⅰ级自燃发火危险程度矿井必须具备哪些条件?Ⅱ级自然发火危险程度矿井必须具备哪些条件?",
"output":"这里需要分别回答上面的两个问题,Ⅰ级和Ⅱ级自燃存在递进关系"
}
2)同义词替换,有助于模型学习不同表达方式下的语义和信息,增加模型对不同表述的理解能力;
3)同语义描述替换,丰富数据集中的样本,使模型在处理相似语义的指令时具备更好的泛化能力;
4)问题改写,使模型学习到不同形式和结构的问题,提高模型对多样问题的理解和回答能力;
5)答案输入模型自动生成问题,将指令中的答案作为输入让模型自动生成相应的问题。这样做可以让模型学习到问题和答案之间的关联,培养模型在生成问题时的逻辑和语义理解能力。例如目前只有一段专业的描述,缺少对应的提问,可以把这段描述输入通用大模型(例如chatgpt)让模型生成对应的问题,这样就构成了一个问答对,即指令数据集。
步骤S104,基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,得到精调大模型。
本发明实施例基于指令数据集的实际情况和需求,根据字符数、词数或句子数等指标来衡量指令数据集文本的长度,遍历指令数据集,将每个文本根据其长度归类到相应的长度区间中,根据不同长度区间的文本数量和重要性,制定采样策略来选择用于模型训练的数据样本。实际中,将长度区间分为[0,100],[101,600],[601,1200],[1201,n],并按照1:3:4:2比例设定一定数量的指令数据集,通过这种方式,在数据集中创建更多的平衡。需要说明的是,长度n为模型的语义理解极限,超过这个值模型能力会大幅下滑。
最后,对精调大模型输出指令对应的答案中所有的数据添加合理的衔接用语,目的是让数据更加通顺,更加符合人的阅读习惯。例如:以下指令集中输出答案中的“Ⅰ级和Ⅱ级自燃发火的条件如下,其中:答案。以上就是关于Ⅰ级和Ⅱ级自燃发火的条件”均为添加的衔接用语。
{
"instruction":"Ⅰ级自燃发火危险程度矿井必须具备哪些条件?Ⅱ级自然发火危险程度矿井必须具备哪些条件?",
"output":"Ⅰ级和Ⅱ级自燃发火的条件如下,其中:答案。以上就是关于Ⅰ级和Ⅱ级自燃发火的条件"
}。
本发实施例中,在模型训练之前,需要选择合适的参数和合理的微调策略,包括计算数据集中问题和答案的最大长度,训练步数,合适的PEFT微调方法等内容。记录模型在多轮训练中的阶段性结果和相关参数,便于在后续的模型验证中用于优化模型。
步骤S105,构建垂直领域的分级行业知识库及行业知识图谱,并将分级行业知识库及行业知识图谱融入精调大模型。
本发明实施例将对一个统一的大型知识库的维护,细分为对多级知识库的综合协调管理。首先,按照专业知识块所属的主题或类别,建设不同主题对应的一级知识库,一级知识库中保存大型知识块的摘要,记录大量与主题相符合的描述信息。然后,构建对应于一级知识库的二级知识库,二级知识库中保存的是一级知识库下属各个细分专业真正有用的知识片段。知识库的分级将在一个庞大知识库中寻找答案的过程分解为在目标主题以及目标主题对应的知识群体中寻找最佳答案的元过程,通过这种方式有效地避免了假性语义相似知识块的干扰,不仅加快了知识块的获取速度,更提高了目标知识引入的准确性,有效解决大模型生成幻觉问题。
行业知识图谱存储对应行业内的专业表述、时间、地点、人物、事件、关系等知识信息。对于行业内具有变动频繁、表述专业、事物关系复杂等特征的信息,大模型并不能很好地吸收和处理。行业知识图谱可以看作知识库的一个补充,在多维度信息维护上具有独特的优势,可以记录更小片段的知识、复杂的人物或实体之间的关系,可以引入无法计算语义相似度和约定俗成的专业名称或概念。
知识图谱作为行业的背景知识引入外部知识最终都是如下形式“你现在是一个煤矿行业的专家,现在告诉你这些知识,(郭屯煤矿投产时间是1999年,运输量是每周50吨),现在需要你基于以上知识回答后面引号里的指令,指令为:”{请介绍一下郭屯煤矿}”,请你准确理解指令。现在你已经理解了前面的内容,回答内容如下:。",模型会根据给它的背景知识约束来对应回答问题。
步骤S106,基于各个行业主题或类别训练分类模型和命名实体识别模型,作为多个行业小模型,用于对行业数据进行信息提取和文本分类;
本发明实施例根据确定的行业主题或类别,训练分类模型和命名实体识别模型。分类模型用于对查询语句进行主题分类,找到对应的一级知识库。命名实体识别模型抽取出查询语句中包含的专业词汇、人物、地点等信息。
步骤S107,构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成。
具体地,基于多个行业小模型对信息进行信息提取和文本分类,并将多个行业小模型的输出结果作为精调大模型的输入,得到垂直领域语义理解和专业内容生成结果。
本发明基于新型应用框架,实现将行业知识库与行业知识图谱中的外部知识引入精调大模型。分类模型用于对查询语句进行主题分类,找到对应的一级知识库。命名实体识别模型抽取出查询语句中包含的专业词汇、人物、地点等信息,结合知识图谱可以准确给出相关词汇解释、人物或事件联系等有用知识。新型应用框架不仅利用了小模型在特定任务上的性能优势,而且引入的更细化的知识片段可以充分释放精调大模型在专业知识上的理解能力,实现知识库和知识图谱的有机结合。
本发明实施例提供的方法还包括:构建满足垂直领域模型评估的两级指标评估体系,其包括一级评估指标及二级评估指标;一级评估指标用于评估模型生成的文本是否自然流畅,信息准确、全面详尽、在不同输入下的输出是否稳定一致,是否生成重复内容或固定的表达方式,包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标;二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准,基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果,基于评估结果指导其优化与改进。整体的流程图如图2所示,
本发明实施例基于详细的打分依据(例如图3中的打分标准),尽可能避免人工评估的存在的主观性,从多个维度实现对精调大模型的评估与验证,从而指导大模型的优化与改进。
在本实施例中还提供了一种垂直领域大模型的构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种垂直领域大模型的构建装置,如图4所示,包括:
指令数据集结构和形式确定模块401,用于根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别,并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式;
初始指令数据集生成模块402,用于将各行业具有专业表述的文献进行拆分形成不同数据形式,并对应生成初始指令数据集;
高质量指令数据集生成模块403,用于对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性,并对审核后初始指令数据集进行数据增强,形成高质量指令数据集;
精调大模型生成模块404,用于基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,得到精调大模型;
知识库及知识图谱引入模块405,用于构建垂直领域的分级行业知识库及行业知识图谱,并将分级行业知识库及行业知识图谱融入精调大模型。
行业小模型生成模块406,基于各个行业主题或类别训练分类模型和命名实体识别模型,作为多个行业小模型,用于对行业数据进行信息提取和文本分类;
垂直领域大模型生成模块407,用于构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成。
在一实施例中,上述装置,还包括:
评估模块,用于构建满足垂直领域模型评估的两级指标评估体系,其包括一级评估指标及二级评估指标;所述一级评估指标用于评估模型生成的文本是否自然流畅,信息准确、全面详尽、在不同输入下的输出是否稳定一致,是否生成重复内容或固定的表达方式,包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标;所述二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准,基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果,基于评估结果指导其优化与改进。
本实施例中的垂直领域大模型的构建装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种计算机设备,具有上述图4所示的垂直领域大模型的构建装置。
请参阅图5,图5是本发明可选实施例提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (11)

1.一种垂直领域大模型的构建方法,其特征在于,所述方法包括:
根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别,并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式;
将各行业具有专业表述的文献进行拆分形成不同数据形式,并对应生成初始指令数据集;
对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性,并对审核后初始指令数据集进行数据增强,形成高质量指令数据集;
基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,得到精调大模型;
构建垂直领域的分级行业知识库及行业知识图谱,并将分级行业知识库及行业知识图谱融入精调大模型;
基于各个行业主题或类别训练分类模型和命名实体识别模型,作为多个行业小模型,用于对行业数据进行信息提取和文本分类;
构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成。
2.根据权利要求1所述的方法,其特征在于,还包括:
构建满足垂直领域模型评估的两级指标评估体系,其包括一级评估指标及二级评估指标;所述一级评估指标用于评估模型生成的文本是否自然流畅,信息准确、全面详尽、在不同输入下的输出是否稳定一致,是否生成重复内容或固定的表达方式,包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标;所述二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准,基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果,基于评估结果指导其优化与改进。
3.根据权利要求1所述的方法,其特征在于,所述将各行业具有专业表述的文献进行拆分形成不同数据形式,包括:将文献拆分得到的数据分为基于标题或提问生成摘要、基于章节小标题或段落概述生成对应描述和解释、基于提问、概述或摘要生成对应的解决方法、基于上文段落生成合理的下文段落中的至少一种。
4.根据权利要求2所述的方法,其特征在于,所述对审核后初始指令数据集进行数据增强的过程,包括:
将多个具有递进关系的问题以及多个相互独立的问题设置成一个提问、同义词替换、同语义描述替换、不同形式和结构的问题改写、将指令中的答案作为输入答案输入模型自动生成问题中的至少一种。
5.根据权利要求3所述的方法,其特征在于,所述基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,包括:
基于高质量指令数据集中的字符数、词数或句子数指标来衡量指令数据集文本的长度,遍历高质量指令数据集,将每个文本根据其长度归类到相应的长度区间中,根据不同长度区间的文本数量和重要性,制定采样策略来选择用于模型训练的数据样本,并给所有的数据样本添加合理的衔接用语;
并设定预设训练步数及预设微调方式对预设模型进行训练,并记录模型在多轮训练中的阶段性结果和相关参数。
6.根据权利要求1所述的方法,其特征在于,所述分级行业知识库,包括:一级知识库以及一级知识库下属的二级知识库;
所述一级知识库按照行业知识块所属的主题或类别,建设不同主题或类别对应的知识库,所述一级知识库中保存大型知识块的摘要,记录与主题或类别相符合的描述信息;
所述二级知识库中保存的不同主题或类别细分的知识片段;
所述行业知识图谱存储各个行业内的专业表述、时间、地点、人物、事件、关系的知识信息,用于记录复杂实体间的关系及引入无法计算语义相似度和约定俗成的专业名称或概念。
7.根据权利要求6所述的方法,其特征在于,所述构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成,包括:
基于多个行业小模型对信息进行信息提取和文本分类,并将多个行业小模型的输出结果作为精调大模型的输入,得到垂直领域语义理解和专业内容生成结果。
8.一种垂直领域大模型的构建装置,其特征在于,所述装置包括:
指令数据集结构和形式确定模块,用于根据垂直领域的各行业场景需求确定涉及的数据范围和数据包括的主题或类别,并基于各行业对应的目标任务输出形式确定指令数据集的结构和形式;
初始指令数据集生成模块,用于将各行业具有专业表述的文献进行拆分形成不同数据形式,并对应生成初始指令数据集;
高质量指令数据集生成模块,用于对初始指令数据集按照预设审核规则进行审核使其具有语义逻辑性,并对审核后初始指令数据集进行数据增强,形成高质量指令数据集;
精调大模型生成模块,用于基于预设参数和微调策略利用所述高质量指令数据集对预设模型进行训练,得到精调大模型;
知识库及知识图谱引入模块,用于构建垂直领域的分级行业知识库及行业知识图谱,并将分级行业知识库及行业知识图谱融入精调大模型;
行业小模型生成模块,基于各个行业主题或类别训练分类模型和命名实体识别模型,作为多个行业小模型,用于对行业数据进行信息提取和文本分类;
垂直领域大模型生成模块,用于构建精调大模型结合多个行业小模型的应用框架作为垂直领域大模型,用于垂直领域语义理解和专业内容生成。
9.根据权利要求8所述的装置,其特征在于,还包括:
评估模块,用于构建满足垂直领域模型评估的两级指标评估体系,其包括一级评估指标及二级评估指标;所述一级评估指标用于评估模型生成的文本是否自然流畅,信息准确、全面详尽、在不同输入下的输出是否稳定一致,是否生成重复内容或固定的表达方式,包括自然性和流畅性评估指标、准确性评估指标、信息完整性和稳定性评估指标、多样性和创造性评估指标;所述二级评估指标包括所述一级指标所述包含评估指标的细分指标及对应的具体评价标准,基于具体评价标准的得分得到垂直领域语义理解和专业内容生成模型的评估结果,基于评估结果指导其优化与改进。
10.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的垂直领域大模型的构建方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的垂直领域大模型的构建方法。
CN202311088641.2A 2023-08-28 2023-08-28 一种垂直领域大模型的构建方法、装置、设备及存储介质 Pending CN117033603A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311088641.2A CN117033603A (zh) 2023-08-28 2023-08-28 一种垂直领域大模型的构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311088641.2A CN117033603A (zh) 2023-08-28 2023-08-28 一种垂直领域大模型的构建方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117033603A true CN117033603A (zh) 2023-11-10

Family

ID=88641081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311088641.2A Pending CN117033603A (zh) 2023-08-28 2023-08-28 一种垂直领域大模型的构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117033603A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786414A (zh) * 2024-02-23 2024-03-29 云南联合视觉科技有限公司 一种构建医学指令数据集的方法
CN117786414B (zh) * 2024-02-23 2024-05-10 云南联合视觉科技有限公司 一种构建医学指令数据集的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786414A (zh) * 2024-02-23 2024-03-29 云南联合视觉科技有限公司 一种构建医学指令数据集的方法
CN117786414B (zh) * 2024-02-23 2024-05-10 云南联合视觉科技有限公司 一种构建医学指令数据集的方法

Similar Documents

Publication Publication Date Title
Fielding et al. Opening up open-ended survey data using qualitative software
Özkaya Bibliometric Analysis of the Studies in the Field of Mathematics Education.
CN110334212A (zh) 一种基于机器学习的领域性审计知识图谱构建方法
US20150379092A1 (en) Recommending literacy activities in view of document revisions
Wassan Discovering big data modelling for educational world
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN103605706A (zh) 一种基于知识地图的资源检索方法
CN111460145A (zh) 一种学习资源推荐方法、设备及存储介质
Zhou et al. Application analysis of data mining technology in ideological and political education management
Naghdi et al. Identifying the components of education and human capital development in the transition from the traditional university to the future university by mixed method
Leblay et al. Computational fact-checking: Problems, state of the art, and perspectives
Jia et al. An Approach to Improving the Analysis of Literature Data in Chinese through an Improved Use of Citespace.
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
Wang College Student Employment Management Recommendation System Based on Decision Tree Algorithm
Khekare et al. Design of Automatic Key Finder for Search Engine Optimization in Internet of Everything
CN117033603A (zh) 一种垂直领域大模型的构建方法、装置、设备及存储介质
CN115408532A (zh) 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质
Zhao et al. Classification Method of Aerobics Course Online Teaching Resources Based on Artificial Intelligence Technology
Swatek et al. Revisiting family matters: how citation patterns in the journal of second language writing reveal the changing nature of the second language writing Field and the decreasing role of composition studies in it
Wang et al. Research on the Youth Group's Expectations for the Future Development of self-Media while in the Digital Economy
Sun Mathematical Modeling and Simulation of Online Teaching Effect Evaluation Based on Decision Tree Algorithm
Tian et al. Design of intelligent mining system for learning needs based on intelligent mining technology
Ngo et al. Exploration and integration of job portals in Vietnam
US20230419044A1 (en) Tagging for subject matter or learning schema
Li Realization of English Instructional Resources Clusters Reconstruction System Using the Machine Learning Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination