CN117909458A - 基于llm模型的模具专业问答系统的构建方法 - Google Patents
基于llm模型的模具专业问答系统的构建方法 Download PDFInfo
- Publication number
- CN117909458A CN117909458A CN202311690776.6A CN202311690776A CN117909458A CN 117909458 A CN117909458 A CN 117909458A CN 202311690776 A CN202311690776 A CN 202311690776A CN 117909458 A CN117909458 A CN 117909458A
- Authority
- CN
- China
- Prior art keywords
- question
- model
- answering
- mold
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000005516 engineering process Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 10
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于LLM模型的模具专业问答系统的构建方法,结合检索式问答和生成式问答的优点来构建模具专业问答系统,解决了检索式问答难以解决复杂问题的难题,并缓解了生成式问答偶发的模型幻觉问题,同时针对构建模具专业问答系统需要模具领域的高质量和高范围的标注数据,使用LoRA技术解决了模型要求的高硬件条件问题;本发明的方法采取知识库结合微调大语言模型的结构,在数据集方面,利用ChatGPT解决知识库需要模具领域的高质量和高范围数据,在模型构建方面,利用模具无结构数据和题目数据训练和微调了大语言模型问答系统上出现的无法理解和处理复杂问题,构建了模具专业问答模型。
Description
技术领域
本发明涉及一种模具专业问答系统,尤其是涉及一种基于LLM模型的模具专业问答系统的构建方法。
背景技术
大语言模型LLM指使用深度学习方法,通过训练庞大的神经网络模型来处理和生成自然语言文本的模型。这些模型能够理解和生成人类语言,可以用于各种自然语言处理任务,如文本生成、机器翻译、对话系统等。
知识库是一个存储和组织知识的数据库。它通常包含结构化和非结构化数据,例如事实、概念、关系等。知识库可以由人工创建,也可以通过自动化方法从不同来源(如互联网、文献资料)中提取和整理得到。在大语言模型中,知识库可以作为背景知识被引入,以便模型在回答问题或生成文本时能够利用其中的信息。知识图谱是常见的知识库存储形式,知识图谱是一种用于表示和组织结构化知识的图形模型。它是一个包含实体、属性和实体之间关系的语义网络。知识图谱旨在捕捉现实世界中的事物及其之间的关联,并以可计算的方式存储和查询这些信息。
问答系统是一种人机交互的系统,旨在回答用户提出的问题。它可以基于特定领域的知识或通用知识进行工作。
目前主流问答系统主要分为两类:检索式问答(Retrieval-based QA)和生成式问答(Generative QA)。
检索式问答系统根据预定义的问题-答案从专业领域知识库中检索到的相关信息来回答用户问题。将用户的问句进行语法、句法分析和关键词提取,给信息检索提供凭证支撑构成排序查询模型,从而给出最靠前准确的答案。但是对模具领域知识库来说,这种方法对质量和覆盖范围要求相对较高,不仅需要具备丰富、准确的信息,并能够涵盖用户可能提出的各种问题,同时对于复杂问题或需要推理能力的问题,基于检索的方法可能无法提供令人满意的答案,难以处理复杂问题。
生成式问答系统则通过理解问题并生成新的文本来回答问题,这些文本不是预先定义好的。这种方法首先使用大规模无监督模具领域数据对语言模型进行预训练,使其学习到模具领域知识。然后通过在特定任务上进行微调,将模型应用于问答任务。但是这种方法对大量模具领域标注数据依赖较高,微调阶段通常需要模具领域标注数据来指导优化,因此对于模具领域而言,获取大规模标注数据可能是一项挑战。同时模型计算资源要求高,预训练模型通常具有巨大的参数量,需要大量计算资源,而且完全使用大语言模型生成内容容易出现错误,出现模型幻觉。
但是在职业教育中,目前没有针对职业教育中模具专业的问答系统的技术,而直接使用主流的检索式问答或生成式问答则会出现难以解决复杂问题和幻觉的问题,同时要求大量标注的模具专业数据和高硬件条件问题。
发明内容
本发明所要解决的技术问题是提供一种基于LLM模型的模具专业问答系统的构建方法,其构建的问答系统结合检索式问答和生成式问答的优点,解决了检索式问答难以解决复杂问题和缓解生成式问答偶发的模型幻觉问题。
本发明解决上述技术问题所采用的技术方案为:一种基于LLM模型的模具专业问答系统的构建方法,包括以下步骤:
步骤1:针对每个模具专业文档,进行信息抽取和实体识别,提取关键信息,构建知识图谱,同时对知识库中的信息准确性、完整性和时效性进行验证和评估,对同一实体生成多条信息,选择相似度更高的信息增加到知识库中;
步骤2:使用预训练模型在大规模无监督数据上进行预训练,得到具有丰富的模具领域知识的大语言模型,并在此基础上,在模具领域的标注数据上使用职业教育中模具专业的题目进行适应于模具专业问答场景的微调;
步骤3:设计一个接收用户提出的问题的用户友好接口,并将问答过程设计为:当用户提出问题后,首先对问题进行文本处理和语义理解,然后利用知识库中的数据进行检索,生成初步答案,再使用微调后的大语言模型对初步答案进行进一步处理,最终生成更准确和完整的答案作为解释呈现给用户,同时监测和收集用户反馈,定期更新知识库内容。
与现有技术相比,本发明的优点在于结合检索式问答和生成式问答的优点来构建模具专业问答系统,解决了检索式问答难以解决复杂问题的难题,并缓解了生成式问答偶发的模型幻觉问题,同时针对构建模具专业问答系统需要模具领域的高质量和高范围的标注数据,使用LoRA技术解决了模型要求的高硬件条件问题;本发明的方法采取知识库结合微调大语言模型的结构,在数据集方面,利用ChatGPT解决知识库需要模具领域的高质量和高范围数据,在模型构建方面,利用模具无结构数据和题目数据训练和微调了大语言模型问答系统上出现的无法理解和处理复杂问题,构建了模具专业问答模型。
附图说明
图1为本发明模具专业问答系统构建方法的框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
实施例一:一种基于LLM模型的模具专业问答系统的构建方法,具体方法为:
步骤1_1:针对每个模具专业文档,使用采取NLP技术(自然语言处理技术)对原始数据进行预处理,包括分句、分词、去除停用词,解决文本数据的结构化和清洗问题,产生更易处理的文本表示,再采用实体识别与命名实体识别技术对文本进行实体识别,例如模具名词、动词等,解决从文本中提取关键实体的问题,产生有益于后续关系抽取的信息,然后利用关系抽取技术,挖掘文本中的语义关系来提取实体之间的关联信息,解决从文本中提取实体之间关系的问题,产生更丰富和准确的知识表示,然后将抽取到的实体和关系组织成知识图谱的形式,以便更好地表示和查询知识,最后使用图数据库来存储知识图谱,解决知识表示和查询问题,并产生更高效地管理和利用知识的有益效果;
步骤1_2:针对在知识图谱中的实体和联系,利用ICL技术预设模板结合ChatGPT对信息扩充,增加知识库,对同一实体生成多条信息,并利用相似度算法,选择相似度更高的信息,所述的ICL技术,是指用有限的示例提高语言模型在特定任务上的性能,而不是用作数据增强的技术。ICL的核心思想是提供一个具有上下文的语言模型,通常由一系列输入-输出对组成,无需额外的训练,指导模型在新的输入上执行任务,因此利用ChatGPT的强大ICL能力,构造模板,输入给ChatGPT,并要求ChatGPT返回格式化的数据,再利用正则匹配,解析ChatGPT的输出数据;利用ICL(In-context Learning)并结合ChatGPT的框架,解决模具领域数据稀缺问题,产生数据集扩充与模型性能提升有益效果。随着数据集的增大,模型的性能会得到提升,从而对任务会产生有益效果。通过扩充数据集,还可以提高模型的泛化能力,使其更好地用于问答任务;
步骤2_1:使用预训练模型在大规模无监督数据上进行预训练,以使其学习到丰富的模具领域知识;
步骤2_2:由于训练一个大语言模型要求的硬件设备条件很高,目前设备硬件无法支持,因此使用LoRA技术,通过冻结预训练模型的权重,并在每个Transformer块中注入可训练层称为秩分解矩阵,从而大大减少了可训练参数的数量和GPU内存需求,在具体实现上,LoRA并没有直接分解矩阵,而是通过反向传播来学习分解后的矩阵,常规的反向传播可以获得权重更新ΔW,它通常被计算为损失乘以学习率的负梯度,而在每个Transformer块中注入秩分解矩阵后,可以进一步优化模型的适应能力;以已经预训练好的大语言模型作为基础,在模具领域的标注数据上使用职业教育中模具专业的题目进行微调,包括选择题、填空题、判断题、简答题等。通过微调过程,使得大语言模型能够更好地适应于模具专业问答的场景;采用LoRA技术,解决了大语言模型需要高要求的硬件条件的问题,使得能够在本地的硬件条件下进行大语言模型的训练。
步骤3_1:设计一个用于接收用户提出问题的用户友好接口,用户通过文本输入或语音输入的方式向问答系统提问;
步骤3_2:设计问答过程为:当用户提出问题后,首先对问题进行文本处理和语义理解,以便更好地与知识库和大语言模型进行交互;再利用知识库中的数据进行检索,找到与问题相关的信息,并生成初步答案加入用户提问中,利用计算问题和知识库中文本之间的语义相似度,使用预训练的词向量模型Word2Vec进行表示学习,对知识库中的文本进行分句、分词等预处理步骤,训练Word2Vec模型:使用预处理后的语料库训练Word2Vec模型,使用Skip-gram算法,并通过调整参数设置来优化模型性能,Word2Vec模型会学习到每个单词对应的向量表示,使得具有相似上下文关系的单词在向量空间中距离较近,将用户提问进行与知识库相同的预处理步骤即分句、分词,对于每个句子或单词,利用训练好的Word2Vec模型获取其对应的向量表示,用户提问中的每个句子或单词,计算其与知识库中每个文本句子的语义相似度,根据计算得到的语义相似度,对知识库中的文本进行排序,将与用户提问最相关的文本排在前面,然后使用微调后的大语言模型对初步答案进行进一步处理和生成,获得更准确和完整的最终答案;将生成的最终答案和数据库的数据作为解释呈现给用户,并提供支持文本或证据来支持答案;Word2Vec模型通过学习单词之间的语义关系,能够捕捉到单词之间的上下文关联性,结合Word2Vec模型和知识库,可以实现基于语义相似度的信息搜索,从而提供更好的语义表示,这种方法能够更准确地匹配用户提问和知识库中的内容,并找到与问题相关的信息,提高搜索结果的质量和准确性,并为用户提供更有用和相关性更强的答案。
步骤3_3:监测和收集用户反馈,不断改进问答系统的性能和效果,定期更新知识库内容,并重新训练和微调大语言模型,以保持系统的准确性和时效性。
Claims (4)
1.一种基于LLM模型的模具专业问答系统的构建方法,其特征在于包括以下步骤:
步骤1:针对每个模具专业文档,进行信息抽取和实体识别,提取关键信息,构建知识图谱,同时对知识库中的信息准确性、完整性和时效性进行验证和评估,对同一实体生成多条信息,选择相似度更高的信息增加到知识库中;
步骤2:使用预训练模型在大规模无监督数据上进行预训练,得到具有丰富的模具领域知识的大语言模型,并在此基础上,在模具领域的标注数据上使用职业教育中模具专业的题目进行适应于模具专业问答场景的微调;
步骤3:设计一个接收用户提出的问题的用户友好接口,并将问答过程设计为:当用户提出问题后,首先对问题进行文本处理和语义理解,然后利用知识库中的数据进行检索,生成初步答案,再使用微调后的大语言模型对初步答案进行进一步处理,最终生成更准确和完整的答案作为解释呈现给用户,同时监测和收集用户反馈,定期更新知识库内容。
2.如权利要求1所述的一种基于LLM模型的模具专业问答系统的构建方法,其特征在于步骤1的具体方法为:
步骤1_1:针对每个模具专业文档,使用自然语言处理技术对原始数据进行预处理,包括分句、分词、去除停用词,再采用实体识别与命名实体识别技术对文本进行实体识别,然后利用关系抽取技术,挖掘文本中的语义关系来提取实体之间的关联信息,然后将抽取到的实体和关系组织成知识图谱的形式,最后使用图数据库来存储知识图谱;
步骤1_2:针对在知识图谱中的实体和联系,利用ICL技术预设模板结合ChatGPT对信息扩充,增加知识库,对同一实体生成多条信息,并利用相似度算法,选择相似度更高的信息,所述的ICL技术,是指用有限的示例提高语言模型在特定任务上的性能,提供一个具有上下文的语言模型,通常由一系列输入-输出对组成,无需额外的训练,指导模型在新的输入上执行任务。
3.如权利要求1所述的一种基于LLM模型的模具专业问答系统的构建方法,其特征在于步骤2的具体方法为:
步骤2_1:使用预训练模型在大规模无监督数据上进行预训练,以使其学习到丰富的模具领域知识;
步骤2_2:使用LoRA技术,通过冻结预训练模型的权重,以已经预训练好的大语言模型作为基础,在模具领域的标注数据上使用职业教育中模具专业的题目进行微调,包括选择题、填空题、判断题、简答题等。通过微调过程,使得大语言模型能够更好地适应于模具专业问答的场景。
4.如权利要求1所述的一种基于LLM模型的模具专业问答系统的构建方法,其特征在于步骤3的具体方法为:
步骤3_1:设计一个用于接收用户提出问题的用户友好接口,用户通过文本输入或语音输入的方式向问答系统提问;
步骤3_2:设计问答过程为:当用户提出问题后,首先对问题进行文本处理和语义理解,以便更好地与知识库和大语言模型进行交互;再利用知识库中的数据进行检索,找到与问题相关的信息,并生成初步答案;然后使用微调后的大语言模型对初步答案进行进一步处理和生成,获得更准确和完整的最终答案;将生成的最终答案和数据库的数据作为解释呈现给用户,并提供支持文本或证据来支持答案;
步骤3_3:监测和收集用户反馈,不断改进问答系统的性能和效果,定期更新知识库内容,并重新训练和微调大语言模型,以保持系统的准确性和时效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311690776.6A CN117909458A (zh) | 2023-12-11 | 2023-12-11 | 基于llm模型的模具专业问答系统的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311690776.6A CN117909458A (zh) | 2023-12-11 | 2023-12-11 | 基于llm模型的模具专业问答系统的构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117909458A true CN117909458A (zh) | 2024-04-19 |
Family
ID=90688067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311690776.6A Pending CN117909458A (zh) | 2023-12-11 | 2023-12-11 | 基于llm模型的模具专业问答系统的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117909458A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118377877A (zh) * | 2024-05-05 | 2024-07-23 | 佛山职业技术学院 | 教务大模型系统及数据清洗方法 |
-
2023
- 2023-12-11 CN CN202311690776.6A patent/CN117909458A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118377877A (zh) * | 2024-05-05 | 2024-07-23 | 佛山职业技术学院 | 教务大模型系统及数据清洗方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271505B (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN107562863A (zh) | 聊天机器人回复自动生成方法及系统 | |
CN110287482B (zh) | 半自动化分词语料标注训练装置 | |
CN113505209A (zh) | 一种面向汽车领域的智能问答系统 | |
CN116701431A (zh) | 一种基于大语言模型的数据检索方法及系统 | |
CN109829052A (zh) | 一种基于人机交互的开放式对话方法和系统 | |
CN117370580A (zh) | 一种基于知识图谱增强大语言模型双碳领域服务方法 | |
CN117236337B (zh) | 基于混合提示学习完成历史知识图谱生成自然语言方法 | |
CN117909458A (zh) | 基于llm模型的模具专业问答系统的构建方法 | |
CN116932776A (zh) | 一种基于知识图谱的大模型知识更新方法和装置 | |
CN110851584A (zh) | 一种法律条文精准推荐系统和方法 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN117271792A (zh) | 一种基于大模型构建企业领域知识库的方法 | |
CN117972049A (zh) | 一种基于大语言模型的医疗器械申报材料生成方法及系统 | |
CN117909466A (zh) | 领域问答系统、构造方法、电子设备及存储介质 | |
CN116991976A (zh) | 模型训练方法、装置、电子设备及可读存储介质 | |
CN118170894B (zh) | 一种知识图谱问答方法、装置及存储介质 | |
CN118070925B (zh) | 模型训练方法、装置、电子设备、存储介质及程序产品 | |
CN113626566B (zh) | 一种基于合成数据的知识对话跨域学习方法 | |
CN118152547B (zh) | 一种根据提问者理解能力的机器人回答方法、介质及系统 | |
CN117972070B (zh) | 一种面向大模型表格问答方法 | |
CN114036946B (zh) | 一种文本特征提取及辅助检索的系统及方法 | |
CN110489529B (zh) | 一种基于句法结构和重排序的对话生成方法 | |
CN118535682A (zh) | 一种结合关键词提取与语义分析的检索增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |