CN117909458A

CN117909458A - 基于llm模型的模具专业问答系统的构建方法

Info

Publication number: CN117909458A
Application number: CN202311690776.6A
Authority: CN
Inventors: 贝毅君; 方植滨; 姜岩
Original assignee: School of Software Technology of ZJU
Current assignee: School of Software Technology of ZJU
Priority date: 2023-12-11
Filing date: 2023-12-11
Publication date: 2024-04-19

Abstract

本发明公开了一种基于LLM模型的模具专业问答系统的构建方法，结合检索式问答和生成式问答的优点来构建模具专业问答系统，解决了检索式问答难以解决复杂问题的难题，并缓解了生成式问答偶发的模型幻觉问题，同时针对构建模具专业问答系统需要模具领域的高质量和高范围的标注数据，使用LoRA技术解决了模型要求的高硬件条件问题；本发明的方法采取知识库结合微调大语言模型的结构，在数据集方面，利用ChatGPT解决知识库需要模具领域的高质量和高范围数据，在模型构建方面，利用模具无结构数据和题目数据训练和微调了大语言模型问答系统上出现的无法理解和处理复杂问题，构建了模具专业问答模型。

Description

基于LLM模型的模具专业问答系统的构建方法

技术领域

本发明涉及一种模具专业问答系统，尤其是涉及一种基于LLM模型的模具专业问答系统的构建方法。

背景技术

大语言模型LLM指使用深度学习方法，通过训练庞大的神经网络模型来处理和生成自然语言文本的模型。这些模型能够理解和生成人类语言，可以用于各种自然语言处理任务，如文本生成、机器翻译、对话系统等。

知识库是一个存储和组织知识的数据库。它通常包含结构化和非结构化数据，例如事实、概念、关系等。知识库可以由人工创建，也可以通过自动化方法从不同来源(如互联网、文献资料)中提取和整理得到。在大语言模型中，知识库可以作为背景知识被引入，以便模型在回答问题或生成文本时能够利用其中的信息。知识图谱是常见的知识库存储形式，知识图谱是一种用于表示和组织结构化知识的图形模型。它是一个包含实体、属性和实体之间关系的语义网络。知识图谱旨在捕捉现实世界中的事物及其之间的关联，并以可计算的方式存储和查询这些信息。

问答系统是一种人机交互的系统，旨在回答用户提出的问题。它可以基于特定领域的知识或通用知识进行工作。

目前主流问答系统主要分为两类：检索式问答(Retrieval-based QA)和生成式问答(Generative QA)。

检索式问答系统根据预定义的问题-答案从专业领域知识库中检索到的相关信息来回答用户问题。将用户的问句进行语法、句法分析和关键词提取，给信息检索提供凭证支撑构成排序查询模型，从而给出最靠前准确的答案。但是对模具领域知识库来说，这种方法对质量和覆盖范围要求相对较高，不仅需要具备丰富、准确的信息，并能够涵盖用户可能提出的各种问题，同时对于复杂问题或需要推理能力的问题，基于检索的方法可能无法提供令人满意的答案，难以处理复杂问题。

生成式问答系统则通过理解问题并生成新的文本来回答问题，这些文本不是预先定义好的。这种方法首先使用大规模无监督模具领域数据对语言模型进行预训练，使其学习到模具领域知识。然后通过在特定任务上进行微调，将模型应用于问答任务。但是这种方法对大量模具领域标注数据依赖较高，微调阶段通常需要模具领域标注数据来指导优化，因此对于模具领域而言，获取大规模标注数据可能是一项挑战。同时模型计算资源要求高，预训练模型通常具有巨大的参数量，需要大量计算资源，而且完全使用大语言模型生成内容容易出现错误，出现模型幻觉。

但是在职业教育中，目前没有针对职业教育中模具专业的问答系统的技术，而直接使用主流的检索式问答或生成式问答则会出现难以解决复杂问题和幻觉的问题，同时要求大量标注的模具专业数据和高硬件条件问题。

发明内容

本发明所要解决的技术问题是提供一种基于LLM模型的模具专业问答系统的构建方法，其构建的问答系统结合检索式问答和生成式问答的优点，解决了检索式问答难以解决复杂问题和缓解生成式问答偶发的模型幻觉问题。

本发明解决上述技术问题所采用的技术方案为：一种基于LLM模型的模具专业问答系统的构建方法，包括以下步骤：

步骤1：针对每个模具专业文档，进行信息抽取和实体识别，提取关键信息，构建知识图谱，同时对知识库中的信息准确性、完整性和时效性进行验证和评估，对同一实体生成多条信息，选择相似度更高的信息增加到知识库中；

步骤2：使用预训练模型在大规模无监督数据上进行预训练，得到具有丰富的模具领域知识的大语言模型，并在此基础上，在模具领域的标注数据上使用职业教育中模具专业的题目进行适应于模具专业问答场景的微调；

步骤3：设计一个接收用户提出的问题的用户友好接口，并将问答过程设计为：当用户提出问题后，首先对问题进行文本处理和语义理解，然后利用知识库中的数据进行检索，生成初步答案，再使用微调后的大语言模型对初步答案进行进一步处理，最终生成更准确和完整的答案作为解释呈现给用户，同时监测和收集用户反馈，定期更新知识库内容。

与现有技术相比，本发明的优点在于结合检索式问答和生成式问答的优点来构建模具专业问答系统，解决了检索式问答难以解决复杂问题的难题，并缓解了生成式问答偶发的模型幻觉问题，同时针对构建模具专业问答系统需要模具领域的高质量和高范围的标注数据，使用LoRA技术解决了模型要求的高硬件条件问题；本发明的方法采取知识库结合微调大语言模型的结构，在数据集方面，利用ChatGPT解决知识库需要模具领域的高质量和高范围数据，在模型构建方面，利用模具无结构数据和题目数据训练和微调了大语言模型问答系统上出现的无法理解和处理复杂问题，构建了模具专业问答模型。

附图说明

图1为本发明模具专业问答系统构建方法的框图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

实施例一：一种基于LLM模型的模具专业问答系统的构建方法，具体方法为：

步骤1_1：针对每个模具专业文档，使用采取NLP技术(自然语言处理技术)对原始数据进行预处理，包括分句、分词、去除停用词，解决文本数据的结构化和清洗问题，产生更易处理的文本表示，再采用实体识别与命名实体识别技术对文本进行实体识别，例如模具名词、动词等，解决从文本中提取关键实体的问题，产生有益于后续关系抽取的信息，然后利用关系抽取技术，挖掘文本中的语义关系来提取实体之间的关联信息，解决从文本中提取实体之间关系的问题，产生更丰富和准确的知识表示，然后将抽取到的实体和关系组织成知识图谱的形式，以便更好地表示和查询知识，最后使用图数据库来存储知识图谱，解决知识表示和查询问题，并产生更高效地管理和利用知识的有益效果；

步骤1_2：针对在知识图谱中的实体和联系，利用ICL技术预设模板结合ChatGPT对信息扩充，增加知识库，对同一实体生成多条信息，并利用相似度算法，选择相似度更高的信息，所述的ICL技术，是指用有限的示例提高语言模型在特定任务上的性能，而不是用作数据增强的技术。ICL的核心思想是提供一个具有上下文的语言模型，通常由一系列输入-输出对组成，无需额外的训练，指导模型在新的输入上执行任务，因此利用ChatGPT的强大ICL能力，构造模板，输入给ChatGPT，并要求ChatGPT返回格式化的数据，再利用正则匹配，解析ChatGPT的输出数据；利用ICL(In-context Learning)并结合ChatGPT的框架，解决模具领域数据稀缺问题，产生数据集扩充与模型性能提升有益效果。随着数据集的增大，模型的性能会得到提升，从而对任务会产生有益效果。通过扩充数据集，还可以提高模型的泛化能力，使其更好地用于问答任务；

步骤2_1：使用预训练模型在大规模无监督数据上进行预训练，以使其学习到丰富的模具领域知识；

步骤2_2：由于训练一个大语言模型要求的硬件设备条件很高，目前设备硬件无法支持，因此使用LoRA技术，通过冻结预训练模型的权重，并在每个Transformer块中注入可训练层称为秩分解矩阵，从而大大减少了可训练参数的数量和GPU内存需求，在具体实现上，LoRA并没有直接分解矩阵，而是通过反向传播来学习分解后的矩阵，常规的反向传播可以获得权重更新ΔW，它通常被计算为损失乘以学习率的负梯度，而在每个Transformer块中注入秩分解矩阵后，可以进一步优化模型的适应能力；以已经预训练好的大语言模型作为基础，在模具领域的标注数据上使用职业教育中模具专业的题目进行微调，包括选择题、填空题、判断题、简答题等。通过微调过程，使得大语言模型能够更好地适应于模具专业问答的场景；采用LoRA技术，解决了大语言模型需要高要求的硬件条件的问题，使得能够在本地的硬件条件下进行大语言模型的训练。

步骤3_1：设计一个用于接收用户提出问题的用户友好接口，用户通过文本输入或语音输入的方式向问答系统提问；

步骤3_2：设计问答过程为：当用户提出问题后，首先对问题进行文本处理和语义理解，以便更好地与知识库和大语言模型进行交互；再利用知识库中的数据进行检索，找到与问题相关的信息，并生成初步答案加入用户提问中，利用计算问题和知识库中文本之间的语义相似度，使用预训练的词向量模型Word2Vec进行表示学习，对知识库中的文本进行分句、分词等预处理步骤，训练Word2Vec模型：使用预处理后的语料库训练Word2Vec模型，使用Skip-gram算法，并通过调整参数设置来优化模型性能，Word2Vec模型会学习到每个单词对应的向量表示，使得具有相似上下文关系的单词在向量空间中距离较近，将用户提问进行与知识库相同的预处理步骤即分句、分词，对于每个句子或单词，利用训练好的Word2Vec模型获取其对应的向量表示，用户提问中的每个句子或单词，计算其与知识库中每个文本句子的语义相似度，根据计算得到的语义相似度，对知识库中的文本进行排序，将与用户提问最相关的文本排在前面，然后使用微调后的大语言模型对初步答案进行进一步处理和生成，获得更准确和完整的最终答案；将生成的最终答案和数据库的数据作为解释呈现给用户，并提供支持文本或证据来支持答案；Word2Vec模型通过学习单词之间的语义关系，能够捕捉到单词之间的上下文关联性，结合Word2Vec模型和知识库，可以实现基于语义相似度的信息搜索，从而提供更好的语义表示，这种方法能够更准确地匹配用户提问和知识库中的内容，并找到与问题相关的信息，提高搜索结果的质量和准确性，并为用户提供更有用和相关性更强的答案。

步骤3_3：监测和收集用户反馈，不断改进问答系统的性能和效果，定期更新知识库内容，并重新训练和微调大语言模型，以保持系统的准确性和时效性。

Claims

1.一种基于LLM模型的模具专业问答系统的构建方法，其特征在于包括以下步骤：

2.如权利要求1所述的一种基于LLM模型的模具专业问答系统的构建方法，其特征在于步骤1的具体方法为：

步骤1_1：针对每个模具专业文档，使用自然语言处理技术对原始数据进行预处理，包括分句、分词、去除停用词，再采用实体识别与命名实体识别技术对文本进行实体识别，然后利用关系抽取技术，挖掘文本中的语义关系来提取实体之间的关联信息，然后将抽取到的实体和关系组织成知识图谱的形式，最后使用图数据库来存储知识图谱；

步骤1_2：针对在知识图谱中的实体和联系，利用ICL技术预设模板结合ChatGPT对信息扩充，增加知识库，对同一实体生成多条信息，并利用相似度算法，选择相似度更高的信息，所述的ICL技术，是指用有限的示例提高语言模型在特定任务上的性能，提供一个具有上下文的语言模型，通常由一系列输入-输出对组成，无需额外的训练，指导模型在新的输入上执行任务。

3.如权利要求1所述的一种基于LLM模型的模具专业问答系统的构建方法，其特征在于步骤2的具体方法为：

步骤2_2：使用LoRA技术，通过冻结预训练模型的权重，以已经预训练好的大语言模型作为基础，在模具领域的标注数据上使用职业教育中模具专业的题目进行微调，包括选择题、填空题、判断题、简答题等。通过微调过程，使得大语言模型能够更好地适应于模具专业问答的场景。

4.如权利要求1所述的一种基于LLM模型的模具专业问答系统的构建方法，其特征在于步骤3的具体方法为：

步骤3_2：设计问答过程为：当用户提出问题后，首先对问题进行文本处理和语义理解，以便更好地与知识库和大语言模型进行交互；再利用知识库中的数据进行检索，找到与问题相关的信息，并生成初步答案；然后使用微调后的大语言模型对初步答案进行进一步处理和生成，获得更准确和完整的最终答案；将生成的最终答案和数据库的数据作为解释呈现给用户，并提供支持文本或证据来支持答案；