CN117035099A - 基于大模型和知识图谱的企业知识库问答对生成方法 - Google Patents
基于大模型和知识图谱的企业知识库问答对生成方法 Download PDFInfo
- Publication number
- CN117035099A CN117035099A CN202311087006.2A CN202311087006A CN117035099A CN 117035099 A CN117035099 A CN 117035099A CN 202311087006 A CN202311087006 A CN 202311087006A CN 117035099 A CN117035099 A CN 117035099A
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- fault
- maintenance
- large model
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012423 maintenance Methods 0.000 claims abstract description 130
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000003449 preventive effect Effects 0.000 claims description 8
- 238000013136 deep learning model Methods 0.000 claims description 4
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000005406 washing Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 16
- 238000001035 drying Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 6
- 230000008439 repair process Effects 0.000 description 5
- 241000220225 Malus Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000000306 component Substances 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000007257 malfunction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 2
- 239000008358 core component Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- FFRBMBIXVSCUFS-UHFFFAOYSA-N 2,4-dinitro-1-naphthol Chemical compound C1=CC=C2C(O)=C([N+]([O-])=O)C=C([N+]([O-])=O)C2=C1 FFRBMBIXVSCUFS-UHFFFAOYSA-N 0.000 description 1
- 241001092040 Crataegus Species 0.000 description 1
- 235000014493 Crataegus Nutrition 0.000 description 1
- 235000014443 Pyrus communis Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于企业知识库技术领域,涉及一种基于大模型和知识图谱的企业知识库问答对生成方法,其包括以下步骤:1)、基于设备维修相关数据,采用大模型构建设备维修知识图谱;2)、基于不同的故障类型,分别以设备维修相关数据和设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;3)、采用大模型对所述不同的故障问题进行扩展,以获得与不同的故障问题相似的多个相似问题,并将多个相似问题与所述不同的故障问题及其对应的解决方案相关联,从而实现问题与解决方案的统一。本发明将大模型和知识图谱相结合,并利用知识图谱中的实体和关系对问题进行解析和匹配,从而提高了企业知识库问答系统的质量和效率。
Description
技术领域
本发明属于企业知识库技术领域,涉及一种企业知识库问答对生成方法,尤其涉及一种基于大模型和知识图谱的企业知识库问答对生成方法。
背景技术
在今天的企业中,知识库问答系统已经成为了重要的信息交互方式之一。企业知识库问答系统可以帮助员工在日常工作中快速获取所需信息,提高工作效率和质量。然而,由于企业知识库中的信息量庞大且多样化,传统的检索方式已经难以满足员工的需求。
近年来,基于大模型和知识图谱的问答系统已经成为研究热点。大模型可以通过深度学习技术对大规模语料库进行训练,从而获取丰富的语言知识。知识图谱则可以将语言知识和实体知识进行结合,形成一个丰富的知识网络。
但是,现有的企业知识库问答系统还存在一些问题。例如,知识图谱中的实体和关系数量庞大,如何高效地进行查询和匹配仍然是一个挑战。
因此,针对上述现有技术中存在的缺陷,需要研发一种新型的企业知识库问答对生成方法。
发明内容
为了克服现有技术的缺陷,本发明提出一种基于大模型和知识图谱的企业知识库问答对生成方法,其能够提高企业知识库问答的质量和效率。
为了实现上述目的,本发明提供如下技术方案:
一种基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,包括以下步骤:
1)、基于设备维修相关数据,采用大模型构建设备维修知识图谱;
2)、基于不同的故障类型,分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;
3)、采用大模型对所述不同的故障问题进行扩展,以获得与所述不同的故障问题相似的多个相似问题,并将所述多个相似问题与所述不同的故障问题及其对应的解决方案相关联,从而实现问题与解决方案的统一。
优选地,所述步骤1)具体包括:
知识建模,依据知识图谱中的知识结构对所述设备维修相关数据进行业务抽象和数据建模,从而建立知识图谱概念模型,所述知识图谱概念模型定义了实体、关系和属性;
实体识别,利用大模型对所述设备维修相关数据进行实体识别,识别出实体名称及其属性;
关系抽取,利用大模型对所述设备维修相关数据进行关系抽取,抽取出实体之间的关系;
知识图谱构建,基于所述实体识别和关系抽取的结果对所述知识图谱概念模型进行填充,以获得所述设备维修知识图谱。
优选地,所述知识图谱概念模型分为物理结构、故障和维修方案,所述物理结构定义了设备名称、设备类型、设备尺寸以及设备之间存在的包含关系;所述故障定义了故障名称、故障级别、故障原因以及所述设备与对应故障之间存在的引发关系;所述维修方案定义了方案名称、维修方法、维修工具、维修时长、所述维修方案与所述故障之间存在的解决关系以及所述设备与对应维修方案之间存在的适用关系。
优选地,所述步骤2)中,所述不同的故障类型包括事实类故障、原因类故障、统计类故障、解决方案类故障和预防措施类故障,并且,所述分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案具体为:对于事实类故障和统计类故障,以所述设备维修知识图谱的三元组为输入,采用大模型生成不同的故障问题及其对应的解决方案;对于原因类故障、解决方案类故障和预防措施类故障,以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案。
优选地,在所述步骤3)中,对所述不同的故障问题进行向量化,并将所述多个相似问题进行向量化,然后计算所述不同的故障问题的向量与所述多个相似问题的向量的相似度,在相似度满足一定阈值时,认为所述多个相似问题是与所述不同的故障问题相似的问题。
优选地,采用余弦相似度计算所述不同的故障问题的向量与所述多个相似问题的向量的相似度。
优选地,所述基于大模型和知识图谱的企业知识库问答对生成方法进一步包括:
4)、人工审核:将所述多个相似问题与所述不同的故障问题及其对应的解决方案相关联后,将其关联关系交给专家进行交互编辑。
优选地,所述设备维修相关数据包括维修手册、设备说明书、维修记录和维修分析报告。
优选地,所述大模型是指具有数十亿个参数的深度学习模型,包括GPT-3模型和GLM-130B。
与现有技术相比,本发明的基于大模型和知识图谱的企业知识库问答对生成方法具有如下有益技术效果中的一者或多者:
1、本发明通过结合大模型和知识图谱,能够根据企业文本资料快速生成合适的问答对,提高企业知识的使用频率和效率。
2、本发明利用知识图谱中的结构化企业知识,提高了企业知识对话的准确性和质量。
3、本发明利用大模型的语言生成能力,生成的问答对具有较高的易读性和可理解性,便于人员执行。
4、本发明可广泛应用于各种企业知识库场景,具有较强的实用性和推广价值。
附图说明
图1为本发明的基于大模型和知识图谱的企业知识库问答对生成方法的流程图。
图2为本发明中构建设备维修知识图谱的方法的流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,实施例的内容不作为对本发明的保护范围的限制。
为了解决现有的企业知识库问答对生成时所存在的问题,本专利提供了一种基于大模型和知识图谱结合的企业知识库问答对生成方法,旨在提高企业知识库问答的质量和效率。该方法将大模型和知识图谱相结合,并利用知识图谱中的实体和关系对问题进行解析和匹配,从而提高了问答系统的效果。
在介绍本发明的基于大模型和知识图谱的企业知识库问答对生成方法,先介绍一下本发明中用到的一些基本概念和术语,以便于本领域技术人员更好地理解本发明。
1、大模型:大模型是指具有数十亿个参数的深度学习模型,例如GPT-3、GLM-130B等模型。它们通常由多个层次组成,每个层次都由大量的神经元组成。大模型的工作原理是基于深度学习的基本原理,即利用大量的数据来训练模型,使其能够自动地发现数据中的模式和规律,并用这些规律来预测新的数据。在训练过程中,大模型会不断地调整其参数,以使其在训练数据上表现得越来越好。
2、Prompt:Prompt是指用来引导人工智能语言模型生成特定类型回复的文本输入。它的原理是基于预训练的语言模型的能力,它可以根据给定的输入生成符合语法和语义的文本输出。Prompt的输入通常是一些关键词或短语,它们用来描述想要生成的文本类型或内容。
当一个 prompt 被输入到语言模型中时,模型会使用其中的信息来生成一段文本。这个文本可能是一个回答、一个问题、一篇文章等等,具体取决于 prompt 的具体内容。在生成文本的过程中,模型会考虑到前面的输入内容,以及它在预训练时学习到的语言知识和规则。
3、知识图谱:其是存储知识的一种数据库,里面存储的是一些三元组,如(张三,出生地,上海)等,每个三元组都表示一个事实。知识图谱也可以看成图的形式,如上述三元组,张三和上海是节点,出生地是张三指向上海的一条有向有标签的边。
4、概念:知识图谱中的一类实体,例如水果、梨果等。
5、实体(实例):知识图谱中具体的某个实物,例如苹果,山楂等。
6、属性:知识图谱中概念或实体所具有的特征,例如苹果的产地、颜色等。
7、关系:知识图谱中概念、实体、属性三者自己与自己或者某两者之间的关系,例如实体苹果是水果概念下的其中一个实体、苹果的颜色属性可以是红色、粉色、金黄色等。
8、知识建模:指的是建立知识图谱的概念模型。
9、设备故障:指设备失去或降低其规定功能的事件或现象。表现为设备的某些零件失去原有的精度或性能,使设备不能正常运行、技术性能降低,致使设备中断生产或效率降低而影响生产。
10、设备故障维修方案:是指针对设备出现故障或需要进行维护保养时,制定的具体维修计划和操作步骤。
下面详细介绍本发明的基于大模型和知识图谱的企业知识库问答对生成方法。
图1示出了本发明的基于大模型和知识图谱的企业知识库问答对生成方法的流程图。如图1所示,本发明的基于大模型和知识图谱的企业知识库问答对生成方法包括以下步骤:
一、构建设备维修知识图谱。
在本发明中,涉及的是设备维修知识库问答对的生成,因此,首先是基于设备维修相关数据构建设备维修知识图谱。
在本发明中,所述设备维修相关数据包括维修手册、设备说明书、维修记录和维修分析报告。这些数据是进行设备维修的基础和保障,它们包含了设备的结构、工作原理、维修历史和故障分析等信息,对于设备的故障诊断和维修方案的制定都有很大的帮助。以下是这些数据的具体描述和作用:
1. 维修手册:维修手册是一份针对特定设备的详细维修指南,包括维修步骤、维修工具和材料、维修时间和地点等信息。
2. 设备说明书:设备说明书是一份详细介绍设备结构、工作原理和使用方法的文档,包括设备的技术参数、使用说明、维修保养等信息。设备说明书可以帮助维修人员了解设备的结构和工作原理,为故障的诊断和维修方案的制定提供基础和保障。
3. 维修记录:维修记录是对设备维修过程和结果的详细记录,包括维修时间、维修人员、维修内容、使用的工具和材料、维修效果等信息。维修记录可以帮助维修人员了解设备的历史维修情况,为故障的诊断和维修方案的制定提供参考和依据。
4. 维修分析报告:维修分析报告是对设备故障原因和维修效果进行分析和总结的报告,包括故障原因、维修方案和操作、维修效果等信息。维修分析报告可以帮助维修人员总结经验,提高维修水平和维修质量,同时也可以为设备的维护保养提供参考和依据。
与现有技术中的知识图谱构建方法不同,在本发明中,基于设备维修相关数据,采用大模型构建设备维修知识图谱。具体地,如图2所示,本发明中构建设备维修知识图谱的方法包括以下步骤:
1、知识建模。
知识建模指的是基于领域内应用的属性、知识特点、实际需求,依据知识图谱中的知识结构进行业务抽象和数据建模,主要是实体定义、关系定义、属性定义,从而搭建知识图谱的上层概念体系。上层概念体系的作用就是规范了数据的表达,每一条数据必须满足Schema中预先定义好的实体定义、关系定义以及属性定义。
在本发明中,知识建模具体为依据知识图谱中的知识结构对所述设备维修相关数据进行业务抽象和数据建模,从而建立知识图谱概念模型,所述知识图谱概念模型定义了实体、关系和属性。
其中,在构建Schema的过程中,将设备维修相关数据分为物理结构、故障、维修方案。也就是,所述知识图谱概念模型分为物理结构、故障和维修方案。其中,所述物理结构定义了设备名称及其属性,例如,设备类型、设备尺寸等,以及设备之间的关系,例如,设备之间存在的包含关系。所述故障定义了故障名称及其属性,例如,故障级别、故障原因等,以及所述设备与对应故障之间存在的引发关系。所述维修方案定义了方案名称及其属性,例如,维修方法、维修工具、维修时长等,以及所述维修方案与所述故障之间存在的解决关系和所述设备与对应维修方案之间存在的适用关系。
2、实体识别。
利用大模型对所述设备维修相关数据进行实体识别,识别出实体名称及其属性。识别出的实体包括设备、故障和维修方案。
由此,通过实体识别,可以识别出设备的名称及其属性,例如,型号、尺寸等,设备对应故障的名称及其属性,例如,级别、原因等,以及设备对应维修方案的名称及其属性,例如,维修方法、维修工具、维修时长等。
例如,以下的prompt对文本进行实体抽取:
请将下面的文本中的设备的名称、类别、起始位置和结束位置等实体抽取出来:
文本: [待抽取的文本]
实体抽取结果:
a.实体1: [实体1名称]
类型: [实体1类型]
起始位置: [实体1起始位置]
结束位置: [实体1结束位置]
b.实体2: [实体2名称]
类型: [实体2类型]
起始位置: [实体2起始位置]
结束位置: [实体2结束位置]
c. ...
将所有实体都抽取出来,并按照起始位置从小到大排序。
其中,[待抽取的文本]是需要进行实体抽取的文本内容,[实体名称]是抽取出的实体名称,[实体类型]是实体所属的类别,[实体起始位置]和[实体结束位置]是实体在文本中的起始位置和结束位置。抽取出的实体可以按照起始位置从小到大排序,方便后续的处理和分析。
3、关系抽取。
利用大模型对所述设备维修相关数据进行关系抽取,抽取出实体之间的关系。
本发明中,抽取出的实体之间的关系包括:设备之间的包含关系、设备与对应故障之间的引发关系、对应维修方案与对应故障之间的解决关系以及设备与对应维修方案之间的适用关系等等。
例如,可以使用以下的prompt对文本进行关系抽取:
请将下面的文本中的关系抽取出来:
文本: [待抽取的文本]
关系抽取结果:
a. 关系1: [关系1名称]
实体1: [实体1名称]
实体2: [实体2名称]
b. 关系2: [关系2名称]
实体1: [实体1名称]
实体2: [实体2名称]
c. ...
请将所有关系都抽取出来,包括关系名称、实体1名称、实体2名称。
其中,[待抽取的文本]是需要进行关系抽取的文本内容,[关系名称]是抽取出的关系名称,[实体名称]是关系中涉及到的实体名称。抽取出的关系可以包括实体之间的关联、动作、属性等,如"屏幕连接到电源板"、"电源板故障导致无法开机"、"屏幕大小为50英寸"等。在抽取出的关系中,需要明确指出关系的主体和客体,以及关系的名称和类型。
在本发明中,在进行实体识别和关系抽取时,可以将所述设备维修相关数据按照业务逻辑进行切分,得到一系列的段落,并将切分得到的段落作为prompt输入到大模型中,从而由所述大模型进行实体识别和关系抽取。
4、知识图谱构建。
基于所述实体识别和关系抽取的结果对所述知识图谱概念模型进行填充,以获得所述设备维修知识图谱。
通过实体识别,识别出了实体及其属性,通过关系抽取,抽取出了实体之间的关系,将实体及其属性以及实体之间的关系填入所述知识图谱概念模型,就可以获得所述设备维修知识图谱。
以电视机维修为例,可以将设备维修相关数据分为物理结构、故障和维修方案三类,具体可以包括以下:
物理结构:
设备名称:电视屏幕、电源板、主板、音频板等。
设备类型:屏幕、电源、主板、音频等。
设备尺寸:屏幕大小、外壳尺寸等。
包含关系:电视机包含电视屏幕、电源板、主板、音频板等设备。
故障:
故障名称:无法开机、画面无显示、无法调节音量等。
故障原因:电源故障、屏幕损坏、主板故障等。
引发关系:电源故障引发无法开机故障、屏幕损坏引发画面无显示故障等。
维修方案:
维修方法:更换电源板、更换屏幕、更换主板等。
维修工具:螺丝刀、扳手、焊接工具等。
维修时长:维修所需时间。
解决关系:更换电源板解决无法开机故障、更换屏幕解决画面无显示故障等。
二、基于不同的故障类型,分别以所述设备维修相关数据和所述设备维修知识图谱的为输入,采用大模型生成不同的故障问题及其对应的解决方案。
在本发明,将故障分为事实类、原因类、统计类、解决方案类、预防措施类等类别。
其中,事实类:主要描述故障的基本事实和现象,包括故障发生的时间、地点、持续时间、影响范围、涉及的设备或系统等信息。
原因类:主要描述故障的根本原因,包括技术原因等。
统计类:主要对故障进行统计和分析,包括故障的发生频次、发生规律、影响程度等信息。
解决方案类:主要描述解决故障的方案和方法,包括针对故障的具体解决措施、所需资源、时间和人员等。
预防措施类:主要描述如何预防故障的发生,包括改进设备或系统、加强维护、提高人员素质等方面的建议和措施。
发明人通过大量的研究发现,对于事实类故障和统计类故障,以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案,生成的故障问题及其对应的解决方案的准确率能够达到90%以上,而以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案,生成的故障问题及其对应的解决方案的准确率只有50-60%。同时,对于原因类故障、解决方案类故障和预防措施类故障,以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案,成的故障问题及其对应的解决方案的准确率能够达到90%以上,而以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案,生成的故障问题及其对应的解决方案的准确率只有50-60%。
因此,在本发明中,对于事实类故障和统计类故障,以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;对于原因类故障、解决方案类故障和预防措施类故障,以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案。
例如,可以使用以下的prompt来生成以设备维修知识图谱为输入的事实类故障的故障问题及其对应的解决方案:
生成基于设备知识图谱的事实类故障的故障及其对应的解决方案:
输入:[设备类型] [属性][属性值]
输出:[设备类型] 的 [属性]是什么? [属性值]
例子:
输入:洗衣机 洗涤容量 8公斤
输出:洗衣机的洗涤容量是多少? 8公斤
具体地,在生成故障问题及其对应的解决方案时,基于图谱概念体系中的关系,分别遍历即可得到所有的事实类故障的故障问题及其对应的解决方案。
同时,例如,可以使用以下prompt来基于一段文本生成解决方案类故障的故障问题及其对应的解决方案:
“[文本] 基于上述文本生成故障和对应的解决方案”
例子:
输入: 电脑是一种电子设备,它能够处理信息并执行各种任务。其基本原理是通过计算机硬件和软件的相互协作实现的。电脑的硬件组成包括中央处理器(CPU)、内存、硬盘、输入设备和输出设备。其中,CPU 是电脑的核心部件,它负责执行指令、处理数据和控制电脑的操作。内存用于存储正在被处理的数据和程序,而硬盘则用于长期存储数据和程序。输入设备包括键盘、鼠标等,用于将用户的指令输入电脑,而输出设备则包括显示器、打印机等,用于将电脑处理的结果输出给用户。电脑的工作原理是通过将用户输入的指令和数据转换成数字信号(二进制代码),然后由 CPU 进行处理。CPU 在执行指令时,将数据从内存中读取到寄存器中进行计算,并将计算结果存储回内存中。这个过程被称为“取指令、执行指令、存储结果”的机器周期。电脑的软件则通过编程语言编写,使得 CPU 能够按照程序的指令进行处理,并最终实现各种功能。总之,电脑的工作原理是通过计算机硬件和软件的相互协作完成的,其中 CPU 是电脑的核心部件,它负责执行指令、处理数据和控制电脑的操作。
基于上述文本生成故障和对应的解决方案
输出:
故障:电脑无法启动
解决方案:
检查电源是否插好并通电,确保电源开关处于打开状态。
检查电脑的插头和电源线是否连接牢固,尝试重新插拔电源线和数据线。
检查电脑内存是否插好,如果内存条松动或者脱落,电脑将无法启动。可以尝试重新插拔内存条。
检查电脑的风扇是否正常运转,过热会导致电脑无法启动。可以清洁电脑内部灰尘,并检查风扇是否正常工作。
检查电脑的硬盘是否正常,如果硬盘损坏,电脑也无法启动。可以尝试使用硬盘检测工具检查硬盘是否存在问题。
如果以上方法都无法解决问题,建议联系电脑售后服务或专业电脑维修人员进行检查和修理。
同理,在生成解决方案类故障的故障问题及其对应的解决方案时,基于所有资料,遍历即可得到所有的解决方案类故障的故障问题及其对应的解决方案。
三、采用大模型对所述不同的故障问题进行扩展,以获得与所述不同的故障问题相似的多个相似问题,并将所述多个相似问题与所述不同的故障问题及其对应的解决方案相关联,从而实现问题与解决方案的统一。
通过步骤二,虽然能够将故障问题与对应的解决方案关联起来,但是,众所周知的是,用户在使用时,其输入的问题与步骤二生成的故障问题可能不完全一致,在这种情况下,如果不对所述故障问题进行扩展,在用户输入与所述故障问题相似的问题时,仍然无法将用户输入的所述相似的问题与对应的解决方案关联起来。
由此,在本发明中,采用大模型对所述不同的故障问题进行扩展,以获得与所述不同的故障问题相似的多个相似问题,并将所述多个相似问题与所述不同的故障问题及其对应的解决方案相关联,从而实现问题与解决方案的统一。
例如,针对原因类故障,可以采用如下prompt。
“基于[故障问题],给出相关的故障问题”
诸如:针对[洗衣机甩干功能坏了],给出相关故障问题
可以得到:以下是一些与洗衣机甩干功能故障相关的问题:
洗衣机甩干功能失效可能是由什么原因引起的?
如何检查洗衣机甩干功能是否正常工作?
如果洗衣机甩干功能失效,是否需要修理或更换零件?
如何维护洗衣机的甩干功能,以避免出现故障?
洗衣机甩干功能失效会对洗衣机的其他部件产生影响吗?
如何解决洗衣机甩干功能失效导致的洗衣质量问题?
由此,在用户输入“洗衣机甩干功能失效可能是由什么原因引起的?如何检查洗衣机甩干功能是否正常工作?如果洗衣机甩干功能失效,是否需要修理或更换零件?如何维护洗衣机的甩干功能,以避免出现故障?洗衣机甩干功能失效会对洗衣机的其他部件产生影响吗?如何解决洗衣机甩干功能失效导致的洗衣质量问题?”中的任何一个问题时,都将其与故障问题“洗衣机甩干功能坏了”及其对应的解决方案关联起来,从而解决了用户输入的问题与故障问题不完全一致的问题。
在本发明中,可以对故障问题进行向量化,并将用户输入的问题进行向量化,然后计算故障问题的向量与用户输入的问题的向量的相似度,在相似度满足一定阈值(例如,大于0.9)时,认为用户输入的问题是与故障问题是相似的问题。
具体地,可以采用余弦相似度等相似度计算方法计算所述故障问题的向量与所述用户输入的问题的向量的相似度。具体的计算方法属于现有技术,为了简化,在此不对其进行详细描述。
基于上述三个步骤,可以针对用户输入的问题给出相应的解决方案,实现了问题与答案的问答对的生成。
最后,在本发明中,为了使得生成的问答对更加适合现场使用,可以进一步增加人工审核步骤。也就是,将所述多个相似问题与所述不同的故障问题及其对应的解决方案相关联后,将其关联关系交给专家进行交互编辑,通过专家编辑后,使得问题与答案的问答对更加适合现场使用。
本发明通过结合大模型和知识图谱,能够根据企业文本资料快速生成合适的问答对,提高企业知识使用频率。同时,本发明利用知识图谱中的结构化企业知识,提高了企业知识对话的准确性和质量。而且,本发明利用大模型的语言生成能力,生成的问答对具有较高的易读性和可理解性,便于人员执行。因此,本发明可广泛应用于各种企业知识库场景,具有较强的实用性和推广价值。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制。本领域的技术人员,依据本发明的思想,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (9)
1.一种基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,包括以下步骤:
1)、基于设备维修相关数据,采用大模型构建设备维修知识图谱;
2)、基于不同的故障类型,分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;
3)、采用大模型对所述不同的故障问题进行扩展,以获得与所述不同的故障问题相似的多个相似问题,并将所述多个相似问题与所述不同的故障问题及其对应的解决方案相关联,从而实现问题与解决方案的统一。
2.根据权利要求1所述的基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,所述步骤1)具体包括:
知识建模,依据知识图谱中的知识结构对所述设备维修相关数据进行业务抽象和数据建模,从而建立知识图谱概念模型,所述知识图谱概念模型定义了实体、关系和属性;
实体识别,利用大模型对所述设备维修相关数据进行实体识别,识别出实体名称及其属性;
关系抽取,利用大模型对所述设备维修相关数据进行关系抽取,抽取出实体之间的关系;
知识图谱构建,基于所述实体识别和关系抽取的结果对所述知识图谱概念模型进行填充,以获得所述设备维修知识图谱。
3.根据权利要求2所述的基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,所述知识图谱概念模型分为物理结构、故障和维修方案,所述物理结构定义了设备名称、设备类型、设备尺寸以及设备之间存在的包含关系;所述故障定义了故障名称、故障级别、故障原因以及所述设备与对应故障之间存在的引发关系;所述维修方案定义了方案名称、维修方法、维修工具、维修时长、所述维修方案与所述故障之间存在的解决关系以及所述设备与对应维修方案之间存在的适用关系。
4.根据权利要求3所述的基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,所述步骤2)中,所述不同的故障类型包括事实类故障、原因类故障、统计类故障、解决方案类故障和预防措施类故障,并且,所述分别以所述设备维修相关数据和所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案具体为:对于事实类故障和统计类故障,以所述设备维修知识图谱为输入,采用大模型生成不同的故障问题及其对应的解决方案;对于原因类故障、解决方案类故障和预防措施类故障,以所述设备维修相关数据为输入,采用大模型生成不同的故障问题及其对应的解决方案。
5.根据权利要求4所述的基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,在所述步骤3)中,对所述不同的故障问题进行向量化,并将所述多个相似问题进行向量化,然后计算所述不同的故障问题的向量与所述多个相似问题的向量的相似度,在相似度满足一定阈值时,认为所述多个相似问题是与所述不同的故障问题相似的问题。
6.根据权利要求5所述的基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,采用余弦相似度计算所述不同的故障问题的向量与所述多个相似问题的向量的相似度。
7.根据权利要求1-6中任一项所述的基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,进一步包括:
4)、人工审核:将所述多个相似问题与所述不同的故障问题及其对应的解决方案相关联后,将其关联关系交给专家进行交互编辑。
8.根据权利要求7所述的基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,所述设备维修相关数据包括维修手册、设备说明书、维修记录和维修分析报告。
9.根据权利要求8所述的基于大模型和知识图谱的企业知识库问答对生成方法,其特征在于,所述大模型是指具有数十亿个参数的深度学习模型,包括GPT-3模型和GLM-130B。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087006.2A CN117035099A (zh) | 2023-08-28 | 2023-08-28 | 基于大模型和知识图谱的企业知识库问答对生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311087006.2A CN117035099A (zh) | 2023-08-28 | 2023-08-28 | 基于大模型和知识图谱的企业知识库问答对生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117035099A true CN117035099A (zh) | 2023-11-10 |
Family
ID=88631632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311087006.2A Pending CN117035099A (zh) | 2023-08-28 | 2023-08-28 | 基于大模型和知识图谱的企业知识库问答对生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117035099A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407514A (zh) * | 2023-11-28 | 2024-01-16 | 星环信息科技(上海)股份有限公司 | 一种解决计划生成方法、装置、设备及存储介质 |
CN117875433A (zh) * | 2024-03-12 | 2024-04-12 | 科沃斯家用机器人有限公司 | 问答方法、装置、设备及可读存储介质 |
-
2023
- 2023-08-28 CN CN202311087006.2A patent/CN117035099A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407514A (zh) * | 2023-11-28 | 2024-01-16 | 星环信息科技(上海)股份有限公司 | 一种解决计划生成方法、装置、设备及存储介质 |
CN117875433A (zh) * | 2024-03-12 | 2024-04-12 | 科沃斯家用机器人有限公司 | 问答方法、装置、设备及可读存储介质 |
CN117875433B (zh) * | 2024-03-12 | 2024-06-07 | 科沃斯家用机器人有限公司 | 问答方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116821310A (zh) | 一种基于大模型和知识图谱的企业知识库问答系统 | |
US12001518B2 (en) | Method for predicting matching degree between resume and post, and related device | |
CN117035099A (zh) | 基于大模型和知识图谱的企业知识库问答对生成方法 | |
CN107590254A (zh) | 具有合并处理方法的大数据支撑平台 | |
Lin et al. | Using semantic similarity in crawling-based web application testing | |
JP2007157058A (ja) | 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム | |
CN114900346B (zh) | 基于知识图谱的网络安全测试方法及系统 | |
Saini et al. | Automated traceability for domain modelling decisions empowered by artificial intelligence | |
CN102662929A (zh) | 一种基于本体的问题智能分析处理的方法和装置 | |
An et al. | Real-time Statistical Log Anomaly Detection with Continuous AIOps Learning. | |
Simanjuntak | Proposed framework for automatic grading system of ER diagram | |
CN112131344A (zh) | 基于自动聚类技术的电力设备故障诊断方法及系统 | |
TWI785724B (zh) | 資訊倉庫創建方法、電子設備及儲存介質 | |
CN115269862A (zh) | 一种基于知识图谱的电力问答与可视化系统 | |
GB2572760A (en) | Method and system for generating insight | |
CN114036319A (zh) | 一种电力知识抽取方法、系统、装置及存储介质 | |
Sun et al. | Research on intelligent question answering framework of open education based on knowledge graph | |
Zhang et al. | Question answering based assisted decision for electric power fault diagnosis | |
Yubing et al. | The application of data mining technology in distance learning evaluation | |
Cao et al. | Retracted: Application of natural language processing technology based on TensorFlow framework in text mining and discovery algorithm | |
Liu et al. | Application of Artificial Intelligence Technology in the Identification of Technological Security Risks | |
Yuqiong | [Retracted] Application of Outlier Detection Model in Korean Language and Culture Communication System Based on Artificial Intelligence | |
Wang et al. | MARV: Multi-task learning and Attention based Rumor Verification scheme for Social Media | |
Li et al. | Fault Diagnosis and System Maintenance Based on Large Language Models and Knowledge Graphs | |
Szerszen | Question answering on introductory Java programming concepts using the Transformer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |