CN117669737B

CN117669737B - 一种端到端地理行业大语言模型构建及使用方法

Info

Publication number: CN117669737B
Application number: CN202311756691.3A
Authority: CN
Inventors: 仲清; 吴恩平; 苏丽萍; 熊兆; 李小飞
Original assignee: Zhongke Xingtu Digital Earth Hefei Co ltd
Current assignee: Zhongke Xingtu Digital Earth Hefei Co ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-04-26
Anticipated expiration: 2043-12-20
Also published as: CN117669737A

Abstract

本发明公开了一种端到端地理行业大语言模型构建及使用方法，包括步骤：S0、LLM微调训练获得GeoLLM；S1、用户请求文本输入到GeoLLM；S2、GeoLLM依据，输出最优中间回复，中间回复包括文本任务类型和AI理解结果；S3、依据文本任务类型和AI理解结果生成文本回复和/或调用领域工具执行结果；S4、依据文本回复和/或领域工具执行结果，生成助理回复150。本发明通过统一格式的大模型输入输出，输入端去掉对prompt设计的依赖，输出端进行格式统一化。将LLM的预期文本回复和地理行业LLM需具备的领域知识和领域工具调用等信息转化成特定格式的文本描述形式，减少领域知识库选择和领域工具任务编排的工作，减少整体应用框架的复杂度。

Description

一种端到端地理行业大语言模型构建及使用方法

技术领域

本发明涉及地理行业大语言模型构建技术领域，尤其涉及一种端到端地理行业大语言模型构建及使用方法。

背景技术

在基于大语言模型的人机交互对话场景，通常是通用大语言模型在某个具体领域(例如医学、金融、电商等)落地应用的场景，由于通用大语言模型的参数限制以及领域数据隐私限制，通用LLM不能掌握足够多特定领域知识，现有地理领域大语言模型落地应用系统主要通过领域任务提示(prompt)管理配合LLM扩展插件的技术框架来实现。

现有方法用领域知识继续微调LLM的训练方法能够给通用LLM增加领域知识的有效方式，但也有一定局限，知识微调往往只涉及了领域内的文本类知识，虽然能加深LLM对领域文本知识的理解，但还没有涉及对地理领域插件工具的调用理解。

现有方法用指定prompt改善领域执行效果，该方式虽然开发成本低，但对提示库的数量和质量要求很高，而且不同用户输入往往需要选择合适的prompt， prompt选取又引入了单独的工作量。Prompt选取通常使用相似检索模型，检索储备输入库，匹配到相似输入以后，将对应的prompt拼接到当前用户输入后，一并输入LLM，从而实现基于prompt的领域应用引导。因此该过程对数据资源依赖较大，对储备输入库的内容丰富程度和匹配准确率都有很高的要求。

现有方法通过LLM技术框架扩展领域接口执行能力，类似langchain这样的LLM应用框架具备Agent插件扩展功能，支持配置领域执行接口的功能和参数说明，对需要调用其它工具的用户请求，以Agent插件 prompt的方式引导LLM生成合理的调用方案，从而扩展LLM的能力边界。但该方法由于缺乏对领域工具和知识的深度微调，因而模型对领域工具的理解不够深入，同样对prompt的依赖较大，模型对领域内各种工具和知识库的理解程度也会限制最终系统应用的准确率。

因此现有技术方案缺乏统一格式的输入输出，尤其是输入端prompt选择依赖给领域LLM应用增加了新的工作。

现有技术方案缺乏对非纯文本形式领域知识的微调训练，这两部分对于主动对话判别和后续知识关联具有关键作用，现有系统通常只在生成阶段使用统一的编码器，编码后的隐式向量在知识关联阶段的可解释性和关联精度都不如显式知识挖掘的效果显著。

上述缺点影响现有领域大模型交互的准确率和用户体验。

为了解决现有技术方案在大模型在地理行业落地应用的不足，本申请提出了一种新的端到端地理行业大语言模型训练技术，通过对大语言模型输入输出的统一结构化设计，将地理行业知识和地理领域接口工具集合融合到大模型训练过程，实现端到端地理行业大语言模型训练。

文献号为CN116842126A的专利文献公开一种利用LLM实现知识库精准输出的方法、介质及系统，该方法、介质及系统更好地发挥LLM的语言理解与生成能力,实现对大规模知识库的精准检索和表达，但其方法对prompt的依赖较大，对提示库的数量和质量要求很高，prompt选取引入了单独的工作量，因此该过程对数据资源依赖较大，对储备输入库的内容丰富程度和匹配准确率都有很高的要求。

文献号为CN116776895A的专利文献公开一种面向API推荐的知识引导大型语言模型查询澄清方法，该发明与基于知识图谱或基于语言模型的方法不同，将KG与LLM结合起来引导LLM，提高了准确性、效率和流畅性；但其同时存在对prompt的依赖较大，对提示库的数量和质量要求很高，工作量大的问题。

发明内容

本发明的目的在于提供一种端到端地理行业大语言模型构建及使用方法，解决多类型地理任务输出端无法统一，框架的复杂度高，不易对领域知识库和领域工具调用的问题。

本发明的目的可以通过以下技术方案实现：一种端到端地理行业大语言模型构建及使用方法，包括以下步骤：

S0、对LLM大语言模型进行微调训练，获得地理行业大语言模型GeoLLM；

S1、将用户请求文本输入到地理行业大语言模型GeoLLM；

S2、地理行业大语言模型GeoLLM依据用户请求文本，输出最优中间回复，所述中间回复包括文本任务类型和AI理解结果；

S3、依据文本任务类型和AI理解结果生成文本回复和/或调用领域工具执行结果；

S4、依据文本回复和/或领域工具执行结果，生成助理回复。

进一步地：所述文本任务类型包括信息抽取类、生成问答类和任务执行类。

进一步地：所述AI理解结果包括领域知识提取、领域数据库、领域接口、Agent插件和搜索引擎判定。

进一步地：所述LLM大语言模型采用baichuan-7B或chatglm-6B语言模型。

进一步地：所述对LLM大语言模型采用LoRA进行微调训练。

进一步地：所述LLM大语言模型进行微调训练的步骤为：

S11、获取输入输出样本集；

S12、利用输入输出样本集对LLM大语言模型进行训练；

S13、根据训练时loss计算值对LLM大语言模型参数P0使用梯度下降进行优化；

S14、采用LoRA通过新增低秩参数微调LLM大语言模型参数P0，得到参数为P的地理行业大语言模型GeoLLM。

进一步地：所述LoRA通过新增低秩参数微调LLM大语言模型公式为：

；

其中，为微调模型隐向量，为预训练权重，为增量权重，为低秩矩阵， r为低秩矩阵纬度，d为权重矩阵维度，k为共用矩阵维度；，使用随机高斯初始化，使用零初始化；

根据微调模型隐向量对参数为P0的LLM大语言模型调整后获得参数P的地理行业大语言模型GeoLLM。

进一步地：所述S2中最优中间回复获取的方法为：

所述地理行业大语言模型GeoLLM采用beam search方法获取最优中间回复，公式为：

；

其中，为用户请求文本，n为中间回复总字数，，为第t个文字生成成分，为已生成成分，为最优中间回复。

本发明的有益效果：

1、本发明通过统一格式的GeoLLM模型输入输出，把地理行业GeoLLM的应用需求分为信息抽取类、生成问答类、任务执行类三类，使用统一训练样本设计后，输入端去掉对prompt设计的依赖，输出端进行格式统一化。将GeoLLM的预期文本回复和地理行业LLM需具备的领域知识、领域工具调用等信息转化成特定格式的文本描述形式，不同类型的用户输入-输出均使用统一的“用户：，助理回复：/>”格式，从而去除了地理行业GeoLLM对动态prompt的依赖，将领域知识和接口领域工具调用信息统一转化成文本描述进行训练，可以减少领域知识库选择和领域工具任务编排的工作，减少整体应用框架的复杂度。

2、本发明对非纯文本格式的领域知识进行深度微调，模型训练时通过统一的样本构建方式，使用LoRA微调方案，确保地理领域大模型应用需求得到补充训练，模型预测时，不再需要对用户输入的意图类型进行分类判别，也不需要进行prompt选择，直接将用户请求输入大模型，得到输出结果信息后，从输出结果中可以判断该用户请求是否需要进一步进行地理领域工具的调用，对需要则按照大模型输出的调用信息和参数信息完成调用，并将执行结果与回复模板进行合并，最终返回用户完整的执行结果回复，深度微调可以大大提升模型对领域知识及工具集的理解准确率，更好地帮助用户完成复杂任务的执行设计。

3、本发明本方案提出的端到端统一样本技术微调后的大模型，应用架构简洁统一，与现有技术相比，对领域知识能够有更深层次的融合，泛化性更强，外，本发明还可以方便地进行新知识的补充训练，并且适用于任何其它领域中，具有很强的灵活性及扩展性，能显著提升通用大模型在具体领域落地应用的效果。

附图说明

图1为本发明一种端到端地理行业大语言模型构建的流程示意图；

图2为本发明一种端到端地理行业大语言模型LoRA微调流程示意图。

110、用户请求文本；120、GeoLLM；130、中间回复；140、领域知识和领域工具；150、助理回复；

210、输入输出样本；220、LLM；230、LoRA微调。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中表示，其中自始至终相同或类似的符号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解对本发明的限制。

如图1-图2所示，本发明公开一种端到端地理行业大语言模型构建及使用方法，包括以下步骤：

S0、对LLM220大语言模型进行微调训练，获得地理行业大语言模型GeoLLM120；

S1、将用户请求文本110输入到地理行业大语言模型GeoLLM120；

S2、地理行业大语言模型GeoLLM120依据用户请求文本110，输出最优中间回复130，所述中间回复130包括文本任务类型和AI理解结果；

S4、依据文本回复和/或领域工具执行结果，生成助理回复150。

涉及术语介绍：

LLM220（large pretrained language model）：大规模预训练语言模型，特指参数量在十亿规模以上的语言模型。

Prompt：提示，LLM220的prompt通常是一段特殊文本，其核心思想是将生成的文本作为输入的一部分，以此来引导模型生成更加准确、合理的文本。

LoRA（Low-Rank Adaptation）：是一种基于低秩适应的微调技术，通过在LLM220的权重矩阵上应用分解低秩矩阵，将模型的参数量大幅减少，从而降低计算复杂度和内存需求。

如图1所示，本申请采用统一格式的输入输出设计，为了对不同类型的用户请求使用同样格式的输入和输出形式，例如：将各种不同类型的用户输入输出均使用统一格式“用户请求文本：，助理回复：”。

其中表示用户原始的请求文本，/>是依据/>获得的助理回复150。

如表1、2、3所示，地理行业对GeoLLM120模型的应用需求一般可以分为信息抽取类、生成问答类、任务执行类三类。

其中信息抽取类应用需求，可以如表1所示，

表1 信息抽取类应用需求示例

生成问答类应用需求，可以如表2所示：

表2 生成问答类应用需求示例

任务执行类应用需求，可以如表3所示：

通过上述表1、2、3可以看出，本申请获取的GeoLLM120的最优中间回复130，包括对任务类型的判断，根据中间回复130生产AI理解结果，判断涉及的领域知识和领域工具140调用，从而使任务类型的判断和AI理解结果均转化成特定格式的文本描述形式；可以使这些不同类型的用户输入输出均使用统一的“用户：，助理回复：/>”格式。

采用本申请的方法，用户进行查询检索时，不再需要进行prompt的选择，从而去除了对动态prompt的依赖。

如表1、2、3所示，AI理解结果可以包括领域知识提取、领域数据库、领域接口、Agent插件和搜索引擎判定。

LLM220大语言模型采用baichuan-7B或chatglm-6B语言模型，baichuan-7B或chatglm-6B语言模型一般为开源十亿以上参数规模的大语言模型，选用baichuan-7B或chatglm-6B语言模型作为基础模型具有较好的中文场景效果。

可以进一步采用LoRA微调230对LLM220大语言模型进行优化微调，获取地理行业大语言模型GeoLLM120，步骤可以为：

S11、获取输入输出样本210集；

输入输出样本210集是较为理想的用户请求文本110输入和中间回复130输出的对应关系集合，用户请求文本110与中间回复130有较为理想的对应关系。

S12、利用输入输出样本210集对LLM220大语言模型进行训练；

由于地理行业不同任务类型的用户请求输入对应有有不同的输出内容，本申请将领域知识和领域工具140调用及参数信息统一转化成最优中间回复130的一部分输出，训练时统一使用转化后的文本信息进行训练，输出时可按照统一格式规范对应到底层接口，完成调用传参等操作，将领域知识和领域工具140调用信息统一转化成文本描述进行训练，可以减少领域知识库选择和领域工具任务编排的工作，并且增强模型对领域知识和领域工具140集的理解准确率。

S13、根据训练时loss计算值对LLM220大语言模型参数P0使用梯度下降进行优化；

S14、采用LoRA通过新增低秩参数微调LLM220大语言模型参数P0，得到参数为P的地理行业大语言模型GeoLLM120。

如图2所示为LoRA微调230的技术架构图，微调基于现有开源LLM220模型(例如已开源通用LLM chatglm-6B)，其原有参数体系记为，微调过程使用具有完成输入输出的样本。

输入模型，根据loss计算值对微调参数使用梯度下降进行优化，LoRA微调230部分通过新增低秩参数微调模型效果，新增参数包括，为低秩矩阵，表示基座模型中与微调有关的参数部分，是原有参数的一个子集，微调的过程通过新的样本训练，模型隐向量与原模型相比也发生微调变化。这里的模型隐向量表示用户输入文本经过LLM220转化成数字化表征后形成的中间向量，由于模型引入新的参数，的计算方法发生了变化(原计算方法为)，新的模型隐向量计算方法为：

；

其中，，x，其中代表LLM220网络模型中前一层的传入向量，x，r为新引入的较低向量纬度，通常为2、4、8等小数值，d为权重矩阵维度，k为共用矩阵维度；初始化时对使用随机高斯初始化，对使用零初始化。

原有参数体系记为的LLM220微调后得到参数为P的GeoLLM120。

GeoLLM120采用beam search方法生成得到中间回复130，beam search解码算法根据用户输入逐字依次生成，当生成第t个字时，所有已生成成分以及用户输入都是已知条件，beam search按照最大条件概率得到模型针对的最优回复，该过程公式可以描述为：

；

其中，为用户请求文本110，n为中间回复总字数，，为第t个文字生成成分，为已生成成分，为最优中间回复130，其中包含分析过程和可能需要执行的接口参数信息。

得到中间回复130后，从中间回复130中可以判断该用户请求是否需要进一步进行领域知识和领域工具140的调用，如果没有后续调用，则直接输出内容回复用户。如果需要（例如表1、2、3），则按照大模型输出的调用信息recall和参数信息args完成调用，按照S105步骤对文本回复和调用执行结果合并，将执行结合与回复模板response_test进行合并，最终返回用户完整的执行结果回复。

本发明公开了一种端到端地理行业大语言模型构建及使用方法，通过对大语言模型输入输出的统一结构化设计，将地理行业知识和地理领域接口工具集合融合到大模型训练过程，实现端到端地理行业大语言模型训练。

利用本发明方法可以有效解决现有通用大语言模型在地理行业的落地应用，有效解决：现有方法领域任务提示prompt管理配合LLM220扩展插件的技术框架来实现，对提示库的数量和质量要求很高，通用模型对领域内各种工具和知识库的理解程度也会限制最终系统应用的准确率；另一方面现有方法用领域知识微调LLM220的训练方法虽然能加深LLM220对领域文本知识的理解，但还没有涉及对各种领域插件工具的调用理解。

本发明通过对大语言模型输入输出的统一结构化设计，将地理行业知识和地理领域接口工具集合融合到大模型训练过程，实现端到端地理行业大语言模型训练，本发明将地理行业对GeoLLM120的应用需求分为信息抽取类、生成问答类、任务执行类三类，针对这三类用户输入，将GeoLLM120的预期文本回复和地理行业GeoLLM120需具备的领域知识和领域工具140调用等信息转化成特定格式的文本描述形式。从而使得不同类型的用户输入-输出均使用统一的“用户：，助理回复：”格式，从而去除了地理GeoLLM对动态prompt的依赖；将领域知识和领域工具140调用信息统一转化成文本描述进行训练，可以减少领域知识库选择和领域工具任务编排的工作，并且增强模型对领域知识和领域工具 140集的理解准确率。

本发明模型训练时通过这种统一的样本构建方式，使用LoRA微调230方案，确保地理领域大模型应用需求得到补充训练，模型预测时，不再需要对用户输入的意图类型进行分类判别，也不需要进行prompt选择，直接将用户请求文本110输入大模型，得到中间信息输出后，从输出结果中可以判断该用户请求是否需要进一步进行其它领域工具的调用，如果需要则按照大模型输出的调用信息和参数信息完成调用，并将执行结合与回复模板进行合并，最终返回用户完整的执行结果回复，用这种端到端技术微调后的大模型，应用简便，与现有技术相比，能更好地融合地理领域知识，泛化性更强，能显著提升对话交互系统的智能化体验。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、 “固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或 “下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征 “之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

Claims

1.一种端到端地理行业大语言模型构建及使用方法，其特征在于，包括以下步骤：

S1、将用户请求文本Q_{i(i＝1,2...n)}输入到地理行业大语言模型GeoLLM；

S2、地理行业大语言模型GeoLLM依据用户请求文本Q_{i(i＝1,2...n)}，输出最优中间回复，所述中间回复包括文本任务类型和AI理解结果；

S4、依据文本回复和/或领域工具执行结果，生成助理回复A_{i(i＝1,2...m)}；

所述对LLM大语言模型采用LoRA进行微调训练；

所述LLM大语言模型进行微调训练的步骤为：

S11、获取输入输出样本集；

S12、利用输入输出样本集对LLM大语言模型进行训练；

S14、采用LoRA通过新增低秩参数微调LLM大语言模型参数P0，得到参数为P的地理行业大语言模型GeoLLM；

所述LoRA通过新增低秩参数微调LLM大语言模型公式为：

h＝W₀x+ΔW_xx＝W₀x+BAx

其中，h为微调模型隐向量，W₀为预训练权重，ΔW_x为增量权重，B和A为低秩矩阵，r为低秩矩阵纬度，d为权重矩阵维度，k为共用矩阵维度；B∈R^d*r,A∈R^r*k,W₀∈R^d*k，A使用随机高斯初始化，B使用零初始化；

根据微调模型隐向量h对参数为P0的LLM大语言模型调整后获得参数P的地理行业大语言模型GeoLLM。

2.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法，其特征在于：所述文本任务类型包括信息抽取类、生成问答类和任务执行类。

3.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法，其特征在于：所述AI理解结果包括领域知识提取、领域数据库、领域接口、Agent插件和搜索引擎判定。

4.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法，其特征在于：所述LLM大语言模型采用baichuan-7B或chatglm-6B语言模型。

5.根据权利要求1所述的一种端到端地理行业大语言模型构建及使用方法，其特征在于：所述S2中最优中间回复获取的方法为：

N_best＝MAX(P(N|Q))

其中，Q为用户请求文本，n为中间回复总字数，1≤t≤N，N_t为第t个文字生成成分，N_<t为已生成成分，N_best为最优中间回复。