CN116821310B - 一种基于大模型和知识图谱的企业知识库问答系统 - Google Patents

一种基于大模型和知识图谱的企业知识库问答系统 Download PDF

Info

Publication number
CN116821310B
CN116821310B CN202311087001.XA CN202311087001A CN116821310B CN 116821310 B CN116821310 B CN 116821310B CN 202311087001 A CN202311087001 A CN 202311087001A CN 116821310 B CN116821310 B CN 116821310B
Authority
CN
China
Prior art keywords
question
module
input
fault
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311087001.XA
Other languages
English (en)
Other versions
CN116821310A (zh
Inventor
刘丁枭
马晋辰
王绍兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co ltd filed Critical Beijing Zhipu Huazhang Technology Co ltd
Priority to CN202311087001.XA priority Critical patent/CN116821310B/zh
Publication of CN116821310A publication Critical patent/CN116821310A/zh
Application granted granted Critical
Publication of CN116821310B publication Critical patent/CN116821310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于企业知识库技术领域,涉及一种基于大模型和知识图谱的企业知识库问答系统,包括:设备维修相关数据;知识图谱构建模块,其基于设备维修相关数据,采用大模型构建设备维修知识图谱;故障问题及其解决方案生成模块,其基于不同的故障类型,以设备维修相关数据和设备维修知识图谱为输入,采用大模型生成不同的故障问题及其解决方案;问题输入模块一,其供用户输入咨询问题;问题匹配模块,其采用大模型对不同的故障问题进行扩展,以使咨询问题与不同的故障问题相匹配,并将咨询问题与不同的故障问题及其对应的解决方案相关联,从而获得问答对;问答对输出模块,其输出问答对。本发明可以提高企业知识库问答系统的质量和效率。

Description

一种基于大模型和知识图谱的企业知识库问答系统
技术领域
本发明属于企业知识库技术领域,涉及一种企业知识库问答系统,尤其涉及一种基于大模型和知识图谱的企业知识库问答系统。
背景技术
在今天的企业中,知识库问答系统已经成为了重要的信息交互方式之一。企业知识库问答系统可以帮助员工在日常工作中快速获取所需信息,提高工作效率和质量。然而,由于企业知识库中的信息量庞大且多样化,传统的检索方式已经难以满足员工的需求。
近年来,基于大模型和知识图谱的问答系统已经成为研究热点。大模型可以通过深度学习技术对大规模语料库进行训练,从而获取丰富的语言知识。知识图谱则可以将语言知识和实体知识进行结合,形成一个丰富的知识网络。
但是,现有的企业知识库问答系统还存在一些问题。例如,知识图谱中的实体和关系数量庞大,如何高效地进行查询和匹配仍然是一个挑战。
因此,针对上述现有技术中存在的缺陷,需要研发一种新型的企业知识库问答系统。
发明内容
为了克服现有技术的缺陷,本发明提出一种基于大模型和知识图谱的企业知识库问答系统,其能够提高企业知识库问答系统的质量和效率。
为了实现上述目的,本发明提供如下技术方案:
一种基于大模型和知识图谱的企业知识库问答系统,其特征在于,包括:
设备维修相关数据;
知识图谱构建模块,其用于基于所述设备维修相关数据,采用大模型构建设备维修知识图谱;
故障问题及其解决方案生成模块,其用于基于不同的故障类型,分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;
问题输入模块一,其用于供用户输入咨询问题;
问题匹配模块,其用于采用大模型对所述不同的故障问题进行扩展,以使所述问题输入模块一输入的咨询问题与所述不同的故障问题相匹配,并将所述问题输入模块一输入的咨询问题与所述不同的故障问题及其对应的解决方案相关联,从而获得问答对;
问答对输出模块,其用于输出所述问答对。
优选地,所述知识图谱构建模块包括:
知识建模子模块,其用于依据知识图谱中的知识结构对所述设备维修相关数据进行业务抽象和数据建模,从而建立知识图谱概念模型,所述知识图谱概念模型定义了实体、关系和属性;
实体识别子模块,其用于利用大模型对所述设备维修相关数据进行实体识别,识别出实体名称及其属性;
关系抽取子模块,其用于利用大模型对所述设备维修相关数据进行关系抽取,抽取出实体之间的关系;
图谱构建子模块,其用于基于所述实体识别和关系抽取的结果对所述知识图谱概念模型进行填充,以获得所述设备维修知识图谱。
优选地,所述知识图谱概念模型分为物理结构、故障和维修方案,所述物理结构定义了设备名称、设备类型、设备尺寸以及设备之间存在的包含关系;所述故障定义了故障名称、故障级别、故障原因以及所述设备与对应故障之间存在的引发关系;所述维修方案定义了方案名称、维修方法、维修工具、维修时长、所述维修方案与所述故障之间存在的解决关系以及所述设备与对应维修方案之间存在的适用关系。
优选地,所述不同的故障类型包括事实类故障、原因类故障、统计类故障、解决方案类故障和预防措施类故障,并且,所述分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案具体为:对于事实类故障和统计类故障,以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;对于原因类故障、解决方案类故障和预防措施类故障,以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案。
优选地,所述问题匹配模块对所述不同的故障问题进行向量化,并将所述问题输入模块一输入的咨询问题进行向量化,然后计算所述不同的故障问题的向量与所述问题输入模块一输入的咨询问题的向量的相似度,在相似度满足一定阈值时,认为所述问题输入模块一输入的咨询问题与所述不同的故障问题相匹配。
优选地,采用余弦相似度计算所述不同的故障问题的向量与所述问题输入模块一输入的咨询问题的向量的相似度。
优选地,所述基于大模型和知识图谱的企业知识库问答系统,其特征在于,进一步包括:
问题输入模块二,其也用于供用户输入咨询问题;
基于问答模型的阅读理解模块,其用于基于所述设备维修相关数据和所述问题输入模块二输入的咨询问题,采用问答模型获得问答对,并由所述问答对输出模块对所述问答对进行输出。
优选地,所述基于问答模型的阅读理解模块包括:
数据预处理子模块,其用于将所述设备维修相关数据按照业务逻辑进行切分,得到一系列的段落;
向量化子模块,其用于通过预训练的词向量模型将每个所述段落以及所述问题输入模块二输入的咨询问题转化为向量;
文本匹配子模块,其用于计算所述问题输入模块二输入的咨询问题的向量与每个所述段落的向量的相似度,并依据相似度找到与所述问题输入模块二输入的咨询问题最相似的段落;
问答模型,其用于基于所述问题输入模块二输入的咨询问题与所述最相似的段落生成对应的解决方案,从而获得问答对。
优选地,所述基于大模型和知识图谱的企业知识库问答系统,其特征在于,进一步包括:
大模型微调模块,其用于基于所述故障问题及其解决方案生成模块生成的不同的故障问题及其对应的解决方案对大模型进行微调,以获得问答大模型;
问题输入模块三,其也用于供用户输入咨询问题;
问答大模型,其用于基于所述设备维修相关数据和所述问题输入模块三输入的咨询问题生成对应的解决方案,从而获得问答对。
优选地,所述问题匹配模块获得的问答对的优先级大于所述基于问答模型的阅读理解模块获得的问答对的优先级且所述基于问答模型的阅读理解模块获得的问答对的优先级大于所述问答大模型获得的问答对的优先级。
与现有技术相比,本发明的基于大模型和知识图谱的企业知识库问答系统具有如下有益技术效果中的一者或多者:
1、本发明通过结合大模型和知识图谱,能够根据企业文本资料快速生成合适的问答对,提高企业知识的使用频率和效率。
2、本发明利用知识图谱中的结构化企业知识,提高了企业知识对话的准确性和质量;同时,利用大模型的语言生成能力,生成的问答对具有较高的易读性和可理解性,便于人员执行。
3、本发明将所有的设备维修资料按照业务逻辑切分为不同的段落,向量化段落并匹配最相似的文本,将匹配到的文本和问题一起输入给大模型,最后大模型输出解决方案。
4、本发明基于生成的故障问题及其对应的解决方案对大模型进行微调,能够针对特定的问题分别进行问答对的生成。
5、本发明采用了三种获得问答对的不同方法,且三种方法获得的问答对具有不同的优先级,从而确保能够获得问答对且获得的问答对更加准确和高质量。
6、本发明可广泛应用于各种企业知识库场景,具有较强的实用性和推广价值。
附图说明
图1是本发明的基于大模型和知识图谱的企业知识库问答系统的构成示意图。
图2是本发明的基于大模型和知识图谱的企业知识库问答系统的知识图谱构建模块的构成示意图。
图3是本发明的基于大模型和知识图谱的企业知识库问答系统的基于问答模型的阅读理解模块的构成示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,实施例的内容不作为对本发明的保护范围的限制。
为了解决现有的企业知识库问答系统所存在的问题,本专利提供了一种基于大模型和知识图谱结合的企业知识库问答系统,其通过结合大模型和知识图谱,能够根据企业文本资料快速生成合适的问答对,提高企业知识的使用频率和效率;而且,其利用知识图谱中的结构化企业知识,提高了企业知识对话的准确性和质量;同时,利用大模型的语言生成能力,生成的问答对具有较高的易读性和可理解性,便于人员执行。此外,其所有的设备维修资料按照业务逻辑切分为不同的段落,向量化段落并匹配最相似的文本,将匹配到的文本和问题一起输入给大模型,最后大模型输出解决方案;最后,其基于生成的故障问题及其对应的解决方案对大模型进行微调,能够针对特定的问题分别进行问答对的生成。
在介绍本发明的基于大模型和知识图谱的企业知识库问答系统,先介绍一下本发明中用到的一些基本概念和术语,以便于本领域技术人员更好地理解本发明。
1、大模型:大模型是指具有数十亿个参数的深度学习模型,例如GPT-3、GLM-130B等模型。它们通常由多个层次组成,每个层次都由大量的神经元组成。大模型的工作原理是基于深度学习的基本原理,即利用大量的数据来训练模型,使其能够自动地发现数据中的模式和规律,并用这些规律来预测新的数据。在训练过程中,大模型会不断地调整其参数,以使其在训练数据上表现得越来越好。
2、Prompt:Prompt是指用来引导人工智能语言模型生成特定类型回复的文本输入。它的原理是基于预训练的语言模型的能力,它可以根据给定的输入生成符合语法和语义的文本输出。Prompt的输入通常是一些关键词或短语,它们用来描述想要生成的文本类型或内容。
当一个 prompt 被输入到语言模型中时,模型会使用其中的信息来生成一段文本。这个文本可能是一个问答、一个问题、一篇文章等等,具体取决于 prompt 的具体内容。在生成文本的过程中,模型会考虑到前面的输入内容,以及它在预训练时学习到的语言知识和规则。
3、知识图谱:其是存储知识的一种数据库,里面存储的是一些三元组,如(张三,出生地,上海)等,每个三元组都表示一个事实。知识图谱也可以看成图的形式,如上述三元组,张三和上海是节点,出生地是张三指向上海的一条有向有标签的边。
4、概念:知识图谱中的一类实体,例如水果、梨果等。
5、实体(实例):知识图谱中具体的某个实物,例如苹果,山楂等。
6、属性:知识图谱中概念或实体所具有的特征,例如苹果的产地、颜色等。
7、关系:知识图谱中概念、实体、属性三者自己与自己或者某两者之间的关系,例如实体苹果是水果概念下的其中一个实体、苹果的颜色属性可以是红色、粉色、金黄色等。
8、知识建模:指的是建立知识图谱的概念模型。
9、设备故障:指设备失去或降低其规定功能的事件或现象。表现为设备的某些零件失去原有的精度或性能,使设备不能正常运行、技术性能降低,致使设备中断生产或效率降低而影响生产。
10、设备故障维修方案:是指针对设备出现故障或需要进行维护保养时,制定的具体维修计划和操作步骤。
下面详细介绍本发明的基于大模型和知识图谱的企业知识库问答系统。
图1示出了本发明的基于大模型和知识图谱的企业知识库问答系统的构成示意图。如图1所示,本发明的基于大模型和知识图谱的企业知识库问答系统包括设备维修相关数据和三个不同的问答对生成子系统。
其中,所述设备维修相关数据包括维修手册、设备说明书、维修记录和维修分析报告。这些数据是进行设备维修的基础和保障,它们包含了设备的结构、工作原理、维修历史和故障分析等信息,对于设备的故障诊断和维修方案的制定都有很大的帮助。以下是这些数据的具体描述和作用:
1. 维修手册:维修手册是一份针对特定设备的详细维修指南,包括维修步骤、维修工具和材料、维修时间和地点等信息。
2. 设备说明书:设备说明书是一份详细介绍设备结构、工作原理和使用方法的文档,包括设备的技术参数、使用说明、维修保养等信息。设备说明书可以帮助维修人员了解设备的结构和工作原理,为故障的诊断和维修方案的制定提供基础和保障。
3. 维修记录:维修记录是对设备维修过程和结果的详细记录,包括维修时间、维修人员、维修内容、使用的工具和材料、维修效果等信息。维修记录可以帮助维修人员了解设备的历史维修情况,为故障的诊断和维修方案的制定提供参考和依据。
4. 维修分析报告:维修分析报告是对设备故障原因和维修效果进行分析和总结的报告,包括故障原因、维修方案和操作、维修效果等信息。维修分析报告可以帮助维修人员总结经验,提高维修水平和维修质量,同时也可以为设备的维护保养提供参考和依据。
第一个问答对生成子系统包括:
一、知识图谱构建模块。
所述知识图谱构建模块用于基于所述设备维修相关数据构建设备维修知识图谱。
与现有技术中的知识图谱构建方法不同,在本发明中,基于所述设备维修相关数据,采用大模型构建设备维修知识图谱。具体地,如图2所示,所述知识图谱构建模块包括:
1、知识建模子模块。
知识建模指的是基于领域内应用的属性、知识特点、实际需求,依据知识图谱中的知识结构进行业务抽象和数据建模,主要是实体定义、关系定义、属性定义,从而搭建知识图谱的上层概念体系。上层概念体系的作用就是规范了数据的表达,每一条数据必须满足Schema中预先定义好的实体定义、关系定义以及属性定义。
在本发明中,所述知识建模子模块用于依据知识图谱中的知识结构对所述设备维修相关数据进行业务抽象和数据建模,从而建立知识图谱概念模型,所述知识图谱概念模型定义了实体、关系和属性。
其中,在构建Schema的过程中,将设备维修相关数据分为物理结构、故障、维修方案。也就是,所述知识图谱概念模型分为物理结构、故障和维修方案。其中,所述物理结构定义了设备名称及其属性,例如,设备类型、设备尺寸等,以及设备之间的关系,例如,设备之间存在的包含关系。所述故障定义了故障名称及其属性,例如,故障级别、故障原因等,以及所述设备与对应故障之间存在的引发关系。所述维修方案定义了方案名称及其属性,例如,维修方法、维修工具、维修时长等,以及所述维修方案与所述故障之间存在的解决关系和所述设备与对应维修方案之间存在的适用关系。
2、实体识别子模块。
所述实体识别子模块用于利用大模型对所述设备维修相关数据进行实体识别,识别出实体名称及其属性。识别出的实体包括设备、故障和维修方案。
由此,通过实体识别,可以识别出设备的名称及其属性,例如,型号、尺寸等,设备对应故障的名称及其属性,例如,级别、原因等,以及设备对应维修方案的名称及其属性,例如,维修方法、维修工具、维修时长等。
例如,以下的prompt对文本进行实体抽取:
请将下面的文本中的设备的名称、类别、起始位置和结束位置等实体抽取出来:
文本: [待抽取的文本]
实体抽取结果:
a.实体1: [实体1名称]
类型: [实体1类型]
起始位置: [实体1起始位置]
结束位置: [实体1结束位置]
b.实体2: [实体2名称]
类型: [实体2类型]
起始位置: [实体2起始位置]
结束位置: [实体2结束位置]
c. ...
将所有实体都抽取出来,并按照起始位置从小到大排序。
其中,[待抽取的文本]是需要进行实体抽取的文本内容,[实体名称]是抽取出的实体名称,[实体类型]是实体所属的类别,[实体起始位置]和[实体结束位置]是实体在文本中的起始位置和结束位置。抽取出的实体可以按照起始位置从小到大排序,方便后续的处理和分析。
3、关系抽取子模块。
所述关系抽取子模块用于利用大模型对所述设备维修相关数据进行关系抽取,抽取出实体之间的关系。
本发明中,抽取出的实体之间的关系包括:设备之间的包含关系、设备与对应故障之间的引发关系、对应维修方案与对应故障之间的解决关系以及设备与对应维修方案之间的适用关系等等。
例如,可以使用以下的prompt对文本进行关系抽取:
请将下面的文本中的关系抽取出来:
文本: [待抽取的文本]
关系抽取结果:
a. 关系1: [关系1名称]
实体1: [实体1名称]
实体2: [实体2名称]
b. 关系2: [关系2名称]
实体1: [实体1名称]
实体2: [实体2名称]
c. ...
请将所有关系都抽取出来,包括关系名称、实体1名称、实体2名称。
其中,[待抽取的文本]是需要进行关系抽取的文本内容,[关系名称]是抽取出的关系名称,[实体名称]是关系中涉及到的实体名称。抽取出的关系可以包括实体之间的关联、动作、属性等,如"屏幕连接到电源板"、"电源板故障导致无法开机"、"屏幕大小为50英寸"等。在抽取出的关系中,需要明确指出关系的主体和客体,以及关系的名称和类型。
在本发明中,在进行实体识别和关系抽取时,可以将所述设备维修相关数据按照业务逻辑进行切分,得到一系列的段落,并将切分得到的段落作为prompt输入到大模型中,从而由所述大模型进行实体识别和关系抽取。
4、图谱构建子模块。
所述图谱构建子模块用于基于所述实体识别和关系抽取的结果对所述知识图谱概念模型进行填充,以获得所述设备维修知识图谱。
通过实体识别,识别出了实体及其属性,通过关系抽取,抽取出了实体之间的关系,将实体及其属性以及实体之间的关系填入所述知识图谱概念模型,就可以获得所述设备维修知识图谱。
以电视机维修为例,可以将设备维修相关数据分为物理结构、故障和维修方案三类,具体可以包括以下:
物理结构:
设备名称:电视屏幕、电源板、主板、音频板等。
设备类型:屏幕、电源、主板、音频等。
设备尺寸:屏幕大小、外壳尺寸等。
包含关系:电视机包含电视屏幕、电源板、主板、音频板等设备。
故障:
故障名称:无法开机、画面无显示、无法调节音量等。
故障原因:电源故障、屏幕损坏、主板故障等。
引发关系:电源故障引发无法开机故障、屏幕损坏引发画面无显示故障等。
维修方案:
维修方法:更换电源板、更换屏幕、更换主板等。
维修工具:螺丝刀、扳手、焊接工具等。
维修时长:维修所需时间。
解决关系:更换电源板解决无法开机故障、更换屏幕解决画面无显示故障等。
二、故障问题及其解决方案生成模块。
所述故障问题及其解决方案生成模块用于基于不同的故障类型,分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;
在本发明,将故障分为事实类、原因类、统计类、解决方案类、预防措施类等类别。
其中,事实类:主要描述故障的基本事实和现象,包括故障发生的时间、地点、持续时间、影响范围、涉及的设备或系统等信息。
原因类:主要描述故障的根本原因,包括技术原因等。
统计类:主要对故障进行统计和分析,包括故障的发生频次、发生规律、影响程度等信息。
解决方案类:主要描述解决故障的方案和方法,包括针对故障的具体解决措施、所需资源、时间和人员等。
预防措施类:主要描述如何预防故障的发生,包括改进设备或系统、加强维护、提高人员素质等方面的建议和措施。
发明人通过大量的研究发现,对于事实类故障和统计类故障,以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案,生成的故障问题及其对应的解决方案的准确率能够达到90%以上,而以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案,生成的故障问题及其对应的解决方案的准确率只有50-60%。同时,对于原因类故障、解决方案类故障和预防措施类故障,以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案,成的故障问题及其对应的解决方案的准确率能够达到90%以上,而以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案,生成的故障问题及其对应的解决方案的准确率只有50-60%。
因此,在本发明中,对于事实类故障和统计类故障,以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;对于原因类故障、解决方案类故障和预防措施类故障,以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案。
例如,可以使用以下的prompt来生成以设备维修知识图谱为输入的事实类故障的故障问题及其对应的解决方案:
生成基于设备知识图谱的事实类故障的故障问题及其对应的解决方案:
输入:[设备类型] [属性][属性值]
输出:[设备类型] 的 [属性]是什么? [属性值]
例子:
输入:洗衣机 洗涤容量 8公斤
输出:洗衣机的洗涤容量是多少? 8公斤
具体地,在生成故障问题及其对应的解决方案时,基于图谱概念体系中的关系,分别遍历即可得到所有的事实类故障的故障问题及其对应的解决方案。
同时,例如,可以使用以下prompt来基于一段文本生成解决方案类故障的故障问题及其对应的解决方案:
“[文本] 基于上述文本生成故障和对应的解决方案”
例子:
输入: 电脑是一种电子设备,它能够处理信息并执行各种任务。其基本原理是通过计算机硬件和软件的相互协作实现的。电脑的硬件组成包括中央处理器(CPU)、内存、硬盘、输入设备和输出设备。其中,CPU 是电脑的核心部件,它负责执行指令、处理数据和控制电脑的操作。内存用于存储正在被处理的数据和程序,而硬盘则用于长期存储数据和程序。输入设备包括键盘、鼠标等,用于将用户的指令输入电脑,而输出设备则包括显示器、打印机等,用于将电脑处理的结果输出给用户。电脑的工作原理是通过将用户输入的指令和数据转换成数字信号(二进制代码),然后由 CPU 进行处理。CPU 在执行指令时,将数据从内存中读取到寄存器中进行计算,并将计算结果存储回内存中。这个过程被称为“取指令、执行指令、存储结果”的机器周期。电脑的软件则通过编程语言编写,使得 CPU 能够按照程序的指令进行处理,并最终实现各种功能。总之,电脑的工作原理是通过计算机硬件和软件的相互协作完成的,其中 CPU 是电脑的核心部件,它负责执行指令、处理数据和控制电脑的操作。
基于上述文本生成故障和对应的解决方案
输出:
故障:电脑无法启动
解决方案:
检查电源是否插好并通电,确保电源开关处于打开状态。
检查电脑的插头和电源线是否连接牢固,尝试重新插拔电源线和数据线。
检查电脑内存是否插好,如果内存条松动或者脱落,电脑将无法启动。可以尝试重新插拔内存条。
检查电脑的风扇是否正常运转,过热会导致电脑无法启动。可以清洁电脑内部灰尘,并检查风扇是否正常工作。
检查电脑的硬盘是否正常,如果硬盘损坏,电脑也无法启动。可以尝试使用硬盘检测工具检查硬盘是否存在问题。
如果以上方法都无法解决问题,建议联系电脑售后服务或专业电脑维修人员进行检查和修理。
同理,在生成解决方案类故障的故障问题及其对应的解决方案时,基于所有资料,遍历即可得到所有的解决方案类故障的故障问题及其对应的解决方案。
三、问题输入模块一。
所述问题输入模块一用于供用户输入咨询问题。例如,供用户输入“洗衣机甩干功能失效可能是由什么原因引起的?”或“如何检查洗衣机甩干功能是否正常工作?”等等。
四、问题匹配模块。
所述问题匹配模块用于采用大模型对所述不同的故障问题进行扩展,以使所述问题输入模块一输入的咨询问题与所述不同的故障问题相匹配,并将所述问题输入模块一输入的咨询问题与所述不同的故障问题及其对应的解决方案相关联,从而获得问答对;
通过所述故障问题及其解决方案生成模块,虽然能够将故障问题与对应的解决方案关联起来,但是,众所周知的是,用户在使用时,其输入的咨询问题与所述故障问题及其解决方案生成模块生成的故障问题可能不完全一致,在这种情况下,如果不对所述故障问题进行扩展,在用户输入与所述故障问题相似的问题时,仍然无法将用户输入的所述相似的问题与对应的解决方案关联起来。
由此,在本发明中,采用大模型对所述不同的故障问题进行扩展,以获得与所述不同的故障问题相似的多个相似问题,并将所述多个相似问题与所述不同的故障问题及其对应的解决方案相关联,从而实现咨询问题与解决方案的统一。
例如,针对原因类故障,可以采用如下prompt。
“基于[故障问题],给出相关的故障问题”
诸如:针对[洗衣机甩干功能坏了],给出相关故障问题
可以得到:以下是一些与洗衣机甩干功能故障相关的问题:
洗衣机甩干功能失效可能是由什么原因引起的?
如何检查洗衣机甩干功能是否正常工作?
如果洗衣机甩干功能失效,是否需要修理或更换零件?
如何维护洗衣机的甩干功能,以避免出现故障?
洗衣机甩干功能失效会对洗衣机的其他部件产生影响吗?
如何解决洗衣机甩干功能失效导致的洗衣质量问题?
由此,在用户输入“洗衣机甩干功能失效可能是由什么原因引起的?如何检查洗衣机甩干功能是否正常工作?如果洗衣机甩干功能失效,是否需要修理或更换零件?如何维护洗衣机的甩干功能,以避免出现故障?洗衣机甩干功能失效会对洗衣机的其他部件产生影响吗?如何解决洗衣机甩干功能失效导致的洗衣质量问题?”中的任何一个问题时,都将其与故障问题“洗衣机甩干功能坏了”及其对应的解决方案关联起来,从而解决了用户输入的咨询问题与故障问题不完全一致的问题。
在本发明中,可以对故障问题进行向量化,并将用户输入的咨询问题进行向量化,然后计算故障问题的向量与用户输入的咨询问题的向量的相似度,在相似度满足一定阈值(例如,大于0.9)时,认为用户输入的咨询问题是与故障问题相匹配。
具体地,可以采用余弦相似度等相似度计算方法计算所述故障问题的向量与所述用户输入的咨询问题的向量的相似度。具体的计算方法属于现有技术,为了简化,在此不对其进行详细描述。
五、问答对输出模块。
所述问答对输出模块用于输出所述问答对。由此,将用户的咨询问题及其对应的解决方案呈现给用户,从而为用户提供参考。
由此,所述第一个问答对生成子系统可以针对用户输入的咨询问题给出相应的解决方案,实现了问答系统的功能。
当然,在本发明中,为了使得生成的问答对更加适合现场使用,所述第一问答对生成子系统可以进一步包括人工审核模块。也就是,将所述用户输入的咨询问题与所述不同的故障问题及其对应的解决方案相关联后,将其关联关系交给所述人工审核模块,由专家进行交互编辑,通过专家编辑后,使得问题与答案的问答对更加适合现场使用。
第二个问答对生成子系统包括:
一、问题输入模块二。
所述问题输入模块二也用于供用户输入咨询问题。例如,供用户输入“洗衣机甩干功能失效可能是由什么原因引起的?”或“如何检查洗衣机甩干功能是否正常工作?”等等。
二、基于问答模型的阅读理解模块。
所述基于问答模型的阅读理解模块用于基于所述设备维修相关数据和所述问题输入模块二输入的咨询问题,采用问答模型获得问答对,并由所述问答对输出模块对所述问答对进行输出。
在本发明中,如图3所示,所述基于问答模型的阅读理解模块包括:
1、数据预处理子模块。
所述数据预处理子模块用于将所述设备维修相关数据按照业务逻辑进行切分,得到一系列的段落。
2、向量化子模块。
所述向量化子模块用于通过预训练的词向量模型将每个所述段落以及所述问题输入模块二输入的咨询问题转化为向量。
在本发明中,所述预训练的词向量模型可以是word2vec、GloVe、BERT、GPT等。通过所述向量化子模块,可以将每个段落以及所述问题输入模块二输入的咨询问题转化为一个固定维度的向量。
3、文本匹配子模块。
所述文本匹配子模块用于计算所述问题输入模块二输入的咨询问题的向量与每个所述段落的向量的相似度,并依据相似度找到与所述问题输入模块二输入的咨询问题最相似的段落。
在本发明中,可以使用余弦相似度等常用的相似度计算方法计算所述问题输入模块二输入的咨询问题的向量与每个所述段落的向量的相似度,以找到与咨询问题最相似的段落。
4、问答模型。
所述问答模型用于基于所述问题输入模块二输入的咨询问题与所述最相似的段落生成对应的解决方案,从而获得问答对。
在本发明中,所述问答模型可以是基于检索的模型,也可以是基于生成的模型,比如T5、GPT-3、GLM-130B等。
下面以一个例子说明所述第二个问答对生成子系统具体如何获得问答对的。
当用户遇到一个故障,例如:汽车火花塞坏了怎么办?
首先通过向量相似度计算找到与该问题最相近的文本切片,通过匹配找到了如下3段。
第一段:“汽车火花塞是发动机点火系统的一部分,它的主要作用是在汽车发动机燃烧混合气时提供点火能量。汽车发动机需要燃烧汽油或柴油才能产生动力,而点火系统则是将混合气点燃的关键。火花塞通过点火线圈将电能转换为高压电弧,从而点燃混合气。”
第二段:“火花塞在正常使用过程中,会因为高温和氧化等原因而老化失效,甚至出现损坏。如果汽车火花塞出现故障,会导致汽车发动机不正常工作,例如启动困难、加速不畅、抖动、油耗增加等问题。因此,一旦发现汽车火花塞故障,需要及时修理或更换。”
第三段:“更换火花塞:如果汽车火花塞损坏严重或老化失效,需要更换新的火花塞。这是一项相对简单的维修任务,但需要一定的机械知识和工具。清洁火花塞:有时,如果火花塞上积累了太多的碳和油污,会导致点火系统出现故障。在这种情况下,可以使用火花塞清洗器或其他专业清洁工具来清洁火花塞。调整火花塞间隙:火花塞间隙是指火花塞中心电极和接地电极之间的距离。如果间隙不正确,会影响点火系统的工作。可以使用专业的工具来调整火花塞间隙。”
然后,给到问答模型的prompt是
针对“汽车火花塞坏了怎么办?”通过整理 [“汽车火花塞是发动机点火系统的一部分,它的主要作用是在汽车发动机燃烧混合气时提供点火能量。汽车发动机需要燃烧汽油或柴油才能产生动力,而点火系统则是将混合气点燃的关键。火花塞通过点火线圈将电能转换为高压电弧,从而点燃混合气。”
“火花塞在正常使用过程中,会因为高温和氧化等原因而老化失效,甚至出现损坏。如果汽车火花塞出现故障,会导致汽车发动机不正常工作,例如启动困难、加速不畅、抖动、油耗增加等问题。因此,一旦发现汽车火花塞故障,需要及时修理或更换。”
“更换火花塞:如果汽车火花塞损坏严重或老化失效,需要更换新的火花塞。这是一项相对简单的维修任务,但需要一定的机械知识和工具。清洁火花塞:有时,如果火花塞上积累了太多的碳和油污,会导致点火系统出现故障。在这种情况下,可以使用火花塞清洗器或其他专业清洁工具来清洁火花塞。调整火花塞间隙:火花塞间隙是指火花塞中心电极和接地电极之间的距离。如果间隙不正确,会影响点火系统的工作。可以使用专业的工具来调整火花塞间隙。”]得到解决方案”。
输出的结果为:
针对“汽车火花塞坏了怎么办?”通过整理 [“汽车火花塞是发动机点火系统的一部分,它的主要作用是在汽车发动机燃烧混合气时提供点火能量。汽车发动机需要燃烧汽油或柴油才能产生动力,而点火系统则是将混合气点燃的关键。火花塞通过点火线圈将电能转换为高压电弧,从而点燃混合气。”
“火花塞在正常使用过程中,会因为高温和氧化等原因而老化失效,甚至出现损坏。如果汽车火花塞出现故障,会导致汽车发动机不正常工作,例如启动困难、加速不畅、抖动、油耗增加等问题。因此,一旦发现汽车火花塞故障,需要及时修理或更换。”
“更换火花塞:如果汽车火花塞损坏严重或老化失效,需要更换新的火花塞。这是一项相对简单的维修任务,但需要一定的机械知识和工具。清洁火花塞:有时,如果火花塞上积累了太多的碳和油污,会导致点火系统出现故障。在这种情况下,可以使用火花塞清洗器或其他专业清洁工具来清洁火花塞。调整火花塞间隙:火花塞间隙是指火花塞中心电极和接地电极之间的距离。如果间隙不正确,会影响点火系统的工作。可以使用专业的工具来调整火花塞间隙。”]得到解决方案
第三个问答对生成子系统包括:
一、大模型微调模块。
所述大模型微调模块用于基于所述故障问题及其解决方案生成模块生成的不同的故障问题及其对应的解决方案对大模型进行微调,以获得问答大模型。
对大模型进行微调是指使用预先训练好的模型(通常是由大量数据和计算资源训练而成的)来进行特定任务的训练。微调可以使用PTuning、Lora、Freeze等方式。
例如
解决方案的指令“怎么处理?”
输入:洗衣机滚筒坏了
输出:
1、确认问题:首先需要确认滚筒是否真的出了问题。可以先检查一下洗衣机的电源是否通电,以及其他部件是否正常工作。如果电源和其他部件都正常,那么问题可能就在滚筒上。
2、拆卸滚筒:如果确认滚筒有问题,那么需要拆卸滚筒。具体方法可以参考洗衣机的使用说明书或者网上的教程。通常需要先拆卸洗衣机外壳,然后拆卸滚筒上的固定螺丝,最后才能将滚筒取出来。
3、检查滚筒:拆卸滚筒后,需要检查滚筒的轴承、皮带等部件是否损坏或磨损。如果有问题,需要及时更换。另外,需要清洁滚筒内部的污垢和异物。
4、更换部件:如果滚筒的轴承、皮带等部件损坏,需要及时更换。可以在维修店购买相应的备件,并按照说明进行更换。如果您不确定如何更换,可以请专业人士帮忙。
5、组装滚筒:更换完部件后,需要重新组装滚筒,并将其安装回洗衣机中。组装过程应该按照倒序进行,即按照拆卸时的相反顺序进行组装。
基于类似于上述数据的格式采用所述大模型微调模块对大模型进行微调即可获得问答大模型。
二、问题输入模块三。
所述问题输入模块三也用于供用户输入咨询问题。例如,供用户输入“洗衣机甩干功能失效可能是由什么原因引起的?”或“如何检查洗衣机甩干功能是否正常工作?”等等。
需要说明的是,在本发明中,所述问题输入模块一、问题输入模块二和问题输入模块三可以是同一个模块,也可以是独立的三个不同的模块。
三、问答大模型。
所述问答大模型用于基于所述设备维修相关数据和所述问题输入模块三输入的咨询问题生成对应的解决方案,从而获得问答对,并由所述问答对输出模块进行输出。
在本发明中,在用户输入一个咨询问题的时候,所述第一个问答对生成子系统、第二个问答对生成子系统和第三个问答对生成子系统是串联的,优先级分别为第一个问答对生成子系统、第二个问答对生成子系统、第三个问答对生成子系统。
本发明采用了三种获得问答对的不同方法,且三种方法获得的问答对具有不同的优先级,从而确保能够获得问答对且获得的问答对更加准确和高质量。
本发明通过结合大模型和知识图谱,能够根据企业文本资料快速生成合适的问答对,提高企业知识使用频率。同时,本发明利用知识图谱中的结构化企业知识,提高了企业知识对话的准确性和质量。而且,本发明利用大模型的语言生成能力,生成的问答对具有较高的易读性和可理解性,便于人员执行。因此,本发明可广泛应用于各种企业知识库场景,具有较强的实用性和推广价值。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制。本领域的技术人员,依据本发明的思想,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (7)

1.一种基于大模型和知识图谱的企业知识库问答系统,其特征在于,包括:
设备维修相关数据;
知识图谱构建模块,其用于基于所述设备维修相关数据,采用大模型构建设备维修知识图谱;
故障问题及其解决方案生成模块,其用于基于不同的故障类型,分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;
问题输入模块一,其用于供用户输入咨询问题;
问题匹配模块,其用于采用大模型对所述不同的故障问题进行扩展,以使所述问题输入模块一输入的咨询问题与所述不同的故障问题相匹配,并将所述问题输入模块一输入的咨询问题与所述不同的故障问题及其对应的解决方案相关联,从而获得问答对;
问答对输出模块,其用于输出所述问答对;
所述知识图谱构建模块包括:
知识建模子模块,其用于依据知识图谱中的知识结构对所述设备维修相关数据进行业务抽象和数据建模,从而建立知识图谱概念模型,所述知识图谱概念模型定义了实体、关系和属性;
实体识别子模块,其用于利用大模型对所述设备维修相关数据进行实体识别,识别出实体名称及其属性;
关系抽取子模块,其用于利用大模型对所述设备维修相关数据进行关系抽取,抽取出实体之间的关系;
图谱构建子模块,其用于基于所述实体识别和关系抽取的结果对所述知识图谱概念模型进行填充,以获得所述设备维修知识图谱;
所述知识图谱概念模型分为物理结构、故障和维修方案,所述物理结构定义了设备名称、设备类型、设备尺寸以及设备之间存在的包含关系;所述故障定义了故障名称、故障级别、故障原因以及所述设备与对应故障之间存在的引发关系;所述维修方案定义了方案名称、维修方法、维修工具、维修时长、所述维修方案与所述故障之间存在的解决关系以及所述设备与对应维修方案之间存在的适用关系;
所述不同的故障类型包括事实类故障、原因类故障、统计类故障、解决方案类故障和预防措施类故障,并且,所述分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案具体为:对于事实类故障和统计类故障,以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;对于原因类故障、解决方案类故障和预防措施类故障,以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案。
2.根据权利要求1所述的基于大模型和知识图谱的企业知识库问答系统,其特征在于,所述问题匹配模块对所述不同的故障问题进行向量化,并将所述问题输入模块一输入的咨询问题进行向量化,然后计算所述不同的故障问题的向量与所述问题输入模块一输入的咨询问题的向量的相似度,在相似度满足一定阈值时,认为所述问题输入模块一输入的咨询问题与所述不同的故障问题相匹配。
3.根据权利要求2所述的基于大模型和知识图谱的企业知识库问答系统,其特征在于,采用余弦相似度计算所述不同的故障问题的向量与所述问题输入模块一输入的咨询问题的向量的相似度。
4.根据权利要求1-3中任一项所述的基于大模型和知识图谱的企业知识库问答系统,其特征在于,进一步包括:
问题输入模块二,其也用于供用户输入咨询问题;
基于问答模型的阅读理解模块,其用于基于所述设备维修相关数据和所述问题输入模块二输入的咨询问题,采用问答模型获得问答对,并由所述问答对输出模块对所述问答对进行输出。
5.根据权利要求4所述的基于大模型和知识图谱的企业知识库问答系统,其特征在于,所述基于问答模型的阅读理解模块包括:
数据预处理子模块,其用于将所述设备维修相关数据按照业务逻辑进行切分,得到一系列的段落;
向量化子模块,其用于通过预训练的词向量模型将每个所述段落以及所述问题输入模块二输入的咨询问题转化为向量;
文本匹配子模块,其用于计算所述问题输入模块二输入的咨询问题的向量与每个所述段落的向量的相似度,并依据相似度找到与所述问题输入模块二输入的咨询问题最相似的段落;
问答模型,其用于基于所述问题输入模块二输入的咨询问题与所述最相似的段落生成对应的解决方案,从而获得问答对。
6.根据权利要求5所述的基于大模型和知识图谱的企业知识库问答系统,其特征在于,进一步包括:
大模型微调模块,其用于基于所述故障问题及其解决方案生成模块生成的不同的故障问题及其对应的解决方案对大模型进行微调,以获得问答大模型;
问题输入模块三,其也用于供用户输入咨询问题;
问答大模型,其用于基于所述设备维修相关数据和所述问题输入模块三输入的咨询问题生成对应的解决方案,从而获得问答对。
7.根据权利要求6所述的基于大模型和知识图谱的企业知识库问答系统,其特征在于,所述问题匹配模块获得的问答对的优先级大于所述基于问答模型的阅读理解模块获得的问答对的优先级且所述基于问答模型的阅读理解模块获得的问答对的优先级大于所述问答大模型获得的问答对的优先级。
CN202311087001.XA 2023-08-28 2023-08-28 一种基于大模型和知识图谱的企业知识库问答系统 Active CN116821310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311087001.XA CN116821310B (zh) 2023-08-28 2023-08-28 一种基于大模型和知识图谱的企业知识库问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311087001.XA CN116821310B (zh) 2023-08-28 2023-08-28 一种基于大模型和知识图谱的企业知识库问答系统

Publications (2)

Publication Number Publication Date
CN116821310A CN116821310A (zh) 2023-09-29
CN116821310B true CN116821310B (zh) 2023-12-08

Family

ID=88116919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311087001.XA Active CN116821310B (zh) 2023-08-28 2023-08-28 一种基于大模型和知识图谱的企业知识库问答系统

Country Status (1)

Country Link
CN (1) CN116821310B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117609440A (zh) * 2023-10-27 2024-02-27 中国司法大数据研究院有限公司 一种面向裁判文书的文档级智能问答实现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717018A (zh) * 2019-04-15 2020-01-21 中国石油大学(华东) 一种基于知识图谱的工业设备故障维修问答系统
CN110765277A (zh) * 2019-10-22 2020-02-07 河海大学常州校区 一种基于知识图谱的移动端的在线设备故障诊断平台
CN115700512A (zh) * 2022-09-01 2023-02-07 上海工程技术大学 一种基于知识图谱的车辆故障推理方法
WO2023029512A1 (zh) * 2021-08-30 2023-03-09 康键信息技术(深圳)有限公司 基于知识图谱的医疗问题解答方法、装置、设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717018A (zh) * 2019-04-15 2020-01-21 中国石油大学(华东) 一种基于知识图谱的工业设备故障维修问答系统
CN110765277A (zh) * 2019-10-22 2020-02-07 河海大学常州校区 一种基于知识图谱的移动端的在线设备故障诊断平台
WO2023029512A1 (zh) * 2021-08-30 2023-03-09 康键信息技术(深圳)有限公司 基于知识图谱的医疗问题解答方法、装置、设备及介质
CN115700512A (zh) * 2022-09-01 2023-02-07 上海工程技术大学 一种基于知识图谱的车辆故障推理方法

Also Published As

Publication number Publication date
CN116821310A (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
Gao et al. Retrieval-augmented generation for large language models: A survey
CN116821310B (zh) 一种基于大模型和知识图谱的企业知识库问答系统
CN111427775B (zh) 一种基于Bert模型的方法层次缺陷定位方法
US7627551B2 (en) Retrieving case-based reasoning information from archive records
CN111309607B (zh) 一种代码方法级别的软件缺陷定位方法
US9270749B2 (en) Leveraging social media to assist in troubleshooting
CN113487211A (zh) 核电装备质量追溯方法、系统、计算机设备及介质
CN112818008A (zh) 核电调试故障智能诊断的方法、系统、介质及电子设备
Bhatia et al. Ontology based framework for detecting ambiguities in software requirements specification
Cheng et al. A similarity integration method based information retrieval and word embedding in bug localization
JP2012243125A (ja) 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
CN117035099A (zh) 基于大模型和知识图谱的企业知识库问答对生成方法
CN114676698A (zh) 一种基于知识图谱的设备故障关键信息提取方法及系统
Zhao et al. A new method using LLMs for keypoints generation in qualitative data analysis
Simanjuntak Proposed framework for automatic grading system of ER diagram
CN112131344A (zh) 基于自动聚类技术的电力设备故障诊断方法及系统
CN117290404A (zh) 一种主配网故障处理方法快速检索实用方法及系统
Richels Building good models is not enough
CN116974799A (zh) 一种基于知识图谱的照明系统的故障诊断方法及系统
Nedumov et al. Automation of data normalization for implementing master data management systems
Dixit et al. Extracting semantics from maintenance records
Ye et al. An open data cleaning framework based on semantic rules for Continuous Auditing
Rajput et al. An ontology-based text-mining method to develop intelligent information system using cluster based approach
Wang et al. FastTransLog: A Log-based Anomaly Detection Method based on Fastformer
Chai et al. A software defect management system based on knowledge base

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant