CN117271700B - 集成智能学习功能的设备使用与维修知识库的构建系统 - Google Patents

集成智能学习功能的设备使用与维修知识库的构建系统 Download PDF

Info

Publication number
CN117271700B
CN117271700B CN202311566295.4A CN202311566295A CN117271700B CN 117271700 B CN117271700 B CN 117271700B CN 202311566295 A CN202311566295 A CN 202311566295A CN 117271700 B CN117271700 B CN 117271700B
Authority
CN
China
Prior art keywords
knowledge base
maintenance
knowledge
equipment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311566295.4A
Other languages
English (en)
Other versions
CN117271700A (zh
Inventor
李红江
傅黎
沈锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Blue Sea Technology Co ltd
Original Assignee
Wuhan Blue Sea Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Blue Sea Technology Co ltd filed Critical Wuhan Blue Sea Technology Co ltd
Priority to CN202311566295.4A priority Critical patent/CN117271700B/zh
Publication of CN117271700A publication Critical patent/CN117271700A/zh
Application granted granted Critical
Publication of CN117271700B publication Critical patent/CN117271700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了集成智能学习功能的设备使用与维修知识库的构建系统,包括:知识库构建模块用于基于两种知识存储方式对设备使用维修技术文档进行并行处理,并基于并行处理结果构建图数据库和向量数据库,得到设备运维知识库;知识库使用模块用于基于用户提交的查询需求同时对设备运维知识库中的图数据库和向量数据库进行相似性搜索,并将相似性搜索结果输入至大语言模型进行处理,得到用户所需的目标数据;知识库更新模块用于基于设备运维知识库使用的同时获取实时设备使用维修技术文档,并基于实时设备使用维修技术文档的获取类型采用差异更新流程对设备运维知识库进行迭代更新。保障了满足用户查询需求的全面性,提高了用户对设备使用维修的效果。

Description

集成智能学习功能的设备使用与维修知识库的构建系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种集成智能学习功能的设备使用与维修知识库的构建系统。
背景技术
目前,基于知识图谱的知识库应用比较多,但是每个领域知识库的构建和升级是一个比较有困难的目标,这些领域包括大型复杂设备运维;
目前在大型复杂设备运维过程中,当用户需要设备进行使用、故障诊断和故障维修时,需要用户根据自身需求从相应手册中查询相应的目标数据,且每一类型都是独立的,不能将相互之间存在相关的数据进行同步调取,从而容易导致对设备使用维修知识的查询发生遗漏,导致设备使用维修知识查询不全面,影响对设备使用维修的效果;
因此,为了克服上述缺陷,本发明提供了一种集成智能学习功能的设备使用与维修知识库的构建系统。
发明内容
本发明提供一种集成智能学习功能的设备使用与维修知识库的构建系统,用以通过两种方式对设备使用维修技术文档并行处理构建设备运维知识库,保障了设备运维知识库的全面及可靠,其次,通过对用户提交的查询需求进行解析,实现同时从设备运维知识库中的图数据库和向量数据库进行相似性搜索,保障了对用户查询需求进行准确可靠的解析,也保障了最终查询到的数据满足用户查询需求的可靠性,最后,在设备运维知识库的使用过程中实时对设备运维知识库进行迭代更新,保障了设备运维知识库中知识的有效性,也保障了满足用户查询需求的全面性,提高了用户对设备使用维修的效果。
本发明提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,包括:
知识库构建模块,用于基于两种知识存储方式对设备使用维修技术文档进行并行处理,并基于并行处理结果构建图数据库和向量数据库,得到设备运维知识库;
知识库使用模块,用于基于用户提交的查询需求同时对设备运维知识库中的图数据库和向量数据库进行相似性搜索,并将相似性搜索结果输入至大语言模型进行处理,得到用户所需的目标数据;
知识库更新模块,用于基于设备运维知识库使用的同时获取实时设备使用维修技术文档,并基于实时设备使用维修技术文档的获取类型采用差异更新流程对设备运维知识库进行迭代更新。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,知识库构建模块中两种知识存储方式包括:知识图谱存储方式和向量数据存储方式。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,知识库构建模块,包括:
策略适配单元,用于获取两种知识存储方式的运行特性,并基于运行特性确定两种知识存储方式对设备使用维修技术文档进行并行处理时的并行处理策略;
流程构建单元,用于基于并行处理策略构建两种知识存储方式的处理流程,并对两种知识存储方式的处理流程进行封装部署后得到知识库构建流程,且基于知识库构建对设备使用维修技术文档进行处理,构建设备运维知识库。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,流程构建单元,包括:
第一种知识存储方式的处理流程包括:
文档预处理子单元,用于基于预设文档分类指标对设备使用维修技术文档中的设备使用维修数据进行聚类,得到子数据集合,并对子数据集合进行格式化及拆分处理,得到每一预设文档分类指标对应的内容描述文本条目集合;
结构分析提取子单元,用于:
对每一内容描述文本条目集合进行结构化分析提取,得到知识图谱的三元组知识表达,并基于三元组知识表达的逻辑特征将三元组知识表达进行逻辑关联;
基于逻辑关联结果得到设备使用与维修知识图谱,并将设备使用与维修知识图谱存入图数据库。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,结构分析提取单元,包括:
训练集获取子单元,用于基于预设文档分类指标确定数据查询索引,并基于预设数据库中的数据查询引擎对数据查询索引进行分析后对预设数据库中的预设数据进行遍历,得到预设文档分类指标对应的目标查询数据;
模型构建及分析子单元,用于:
构建三元组元素分类模型,并基于目标查询数据对三元组元素分类模型进行迭代学习训练,且确定每一次迭代学习训练后的模型参数与基准参数的拟合度;
当拟合度达到预设阈值时,得到目标三元组元素分类模型,并基于目标三元组元素分类模型对内容描述文本条目集合中每一描述文本进行分词,得到N个子句;
基于目标三元组元素分类模型对N个子句进行去重及分类,并基于去重及分类结果进行三元组元素分析,得到分词特征,且基于分词特征得到每一内容描述文本条目集合中的第一三元组知识表达。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,模型构建及分析子单元,包括:
数据解析子单元,用于调取预设大语言模型,并基于大语言模型对内容描述文本条目集合中每一描述文本进行分析,提取每一描述文本的语言模式和语义规则;
三元组生成子单元,用于基于语言模式和语义规则确定不同描述文本之间的上下文逻辑关系,并基于上下文逻辑关系生成第二三元组知识表达;
互补子单元,用于将第一三元组知识表达和第二三元组知识表达进行差异互补,并基于差异互补得到最终的三元组知识表达。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,流程构建单元,包括:
第二种知识存储方式的处理流程包括:
文档切分子单元,用于基于设定参数将设备使用维修技术文档切分为文本切片,并将文本切片作为第一向量转换元素;
向量转换子单元,用于:
获取得到的内容描述文本条目集合,并将内容描述文本条目集合中的描述文本作为第二向量转换元素;
基于预训练词嵌入模型将第一向量转换元素和第二向量转换元素同步映射为高维度实数向量,并将高维度实数向量存入向量数据库;
知识库生成子单元,用于将图数据库和向量数据库进行汇总,得到设备运维知识库。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,知识库使用模块,包括:
查询请求单元,用于获取用户提交的提问文本及查询需求,并对提问文本及查询需求进行语句分段后同时在图数据库和向量数据库中进行相似性搜索,分别得到结构化数据和相关性描述文本;
处理单元,用于对相关性描述文本进行解析,确定相关性描述文本的语义特征,并基于语义特征构建提示词,并将结构化数据、提示词以及提问文本及查询需求输入至大语言模型进行特征筛选,得到用户所需的目标数据。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,处理单元,包括:
参数确定子单元,用于基于目标时间段后的设备运维知识库中的知识图谱内容确定模型微调参数,并基于模型微调参数对大语言模型进行迭代训练;
模型验证子单元,用于基于知识图谱内容对迭代训练后的大语言模型进行性能校验,并在校验通过后对原始的大语言模型进行替换。
优选的,一种集成智能学习功能的设备使用与维修知识库的构建系统,知识库更新模块,包括:
文档更新单元,用于基于设备运维知识库使用的同时获取实时设备使用维修技术文档,并基于实时设备使用维修技术文档的资料属性确定信息来源;
知识库更新单元,用于:
当信息来源为手动获取时,基于知识库构建流程对实时设备使用维修技术文档进行解析,并基于解析结果对原始设备运维知识库进行迭代更新;
当信息来源为网络爬取时,对实时设备使用维修技术文档进行结构解析,提取实时设备使用维修技术文档的目标摘要,并将目标摘要与原始设备运维知识库的摘要库进行相似度匹配;
若相似度达到阈值时,则判定符合更新要求,并基于知识库构建流程对原始设备运维知识库进行迭代更新,完成基于差异更新流程对设备运维知识库的迭代更新。
与现有技术相比,本发明的有益效果如下:
1.通过两种方式对设备使用维修技术文档并行处理构建设备运维知识库,保障了设备运维知识库的全面及可靠,其次,通过对用户提交的查询需求进行解析,实现同时从设备运维知识库中的图数据库和向量数据库进行相似性搜索,保障了对用户查询需求进行准确可靠的解析,也保障了最终查询到的数据满足用户查询需求的可靠性,最后,在设备运维知识库的使用过程中实时对设备运维知识库进行迭代更新,保障了设备运维知识库中知识的有效性,也保障了满足用户查询需求的全面性,提高了用户对设备使用维修的效果。
2.通过根据预设文档分类指标对预设数据库中的预设数据进行遍历,实现对满足预设文档分类指标的训练数据进行准确有效的获取,其次,通过遍历得到的目标查询数据对三元组元素分类模型进行训练,并对每一次训练后的模型参数进行校验,确保最终得到的三元组元素分类模型的准确可靠,最后,通过得到的目标三元组元素分类模型对内容描述文本条目集合中每一描述文本进行分析,实现对三元组知识表达进行准确有效的获取,提高了设备使用维修知识对应的知识图谱构建的准确性,也便于提高对用户查询需求进行查询的可靠性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在本申请文件中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种集成智能学习功能的设备使用与维修知识库的构建系统的结构图;
图2为本发明实施例中一种集成智能学习功能的设备使用与维修知识库的构建系统中设备运维知识库构建流程示意图;
图3为本发明实施例中一种集成智能学习功能的设备使用与维修知识库的构建系统中知识库使用模块的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,如图1所示,包括:
知识库构建模块,用于基于两种知识存储方式对设备使用维修技术文档进行并行处理,并基于并行处理结果构建图数据库和向量数据库,得到设备运维知识库;
知识库使用模块,用于基于用户提交的查询需求同时对设备运维知识库中的图数据库和向量数据库进行相似性搜索,并将相似性搜索结果输入至大语言模型进行处理,得到用户所需的目标数据;
知识库更新模块,用于基于设备运维知识库使用的同时获取实时设备使用维修技术文档,并基于实时设备使用维修技术文档的获取类型采用差异更新流程对设备运维知识库进行迭代更新。
该实施例中,设备运维知识库构建流程示意图如图2所示。
该实施例中,知识库构建模块中两种知识存储方式包括:知识图谱存储方式和向量数据存储方式。
该实施例中,设备使用维修技术文档是提前已知的,记录的是设备使用和维修所涉及到的所有领域知识。
该实施例中,并行处理指的是通过知识图谱存储方式和向量数据存储方式同时对设备使用维修技术文档进行分析,从而构建既包含有结构化规则的特定内容,也包含无规则切分的文本切片的向量数据。
该实施例中,图数据库指的是对设备使用维修技术文档进行文档预处理后,构建的设备使用维修技术文档对应的知识图谱对应的数据库。
该实施例中,向量数据库指的是通过对设备使用维修技术文档进行文档拆分以及文本向量化处理后得到的设备使用维修技术文档对应的向量数据库。
该实施例中,查询需求指的是用户提交的提问文本以及需要查询的知识类型,例如可以是用户输入的故障描述和希望查找故障原因等。
该实施例中,将相似性搜索结果输入至大语言模型进行处理指的是通过大语言模型对相似性搜索结果进行筛选以及逻辑推理,最终得到符合用户查询的数据(即目标数据)。
该实施例中,大语言模型指的是基于深度学习的人工智能模型,通过大规模的训练数据和复杂的神经网络结构,能够生成高质量的自然语言文本,能够从大量的文本数据中学习语言模式和语义规则,并能够根据上下文生成连贯、合理的文本内容。
该实施例中,实时设备使用维修技术文档指的是在设备运维知识库使用过程中产生的新的设备使用维修技术文档。
该实施例中,获取类型包括两种,一种是工作人员手动添加,一种是通过网络自动搜索爬取到的。
该实施例中,差异更新流程指的是不同获取类型的设备使用维修技术文档对应的设备运维知识库更新方法。
上述技术方案的有益效果是:通过两种方式对设备使用维修技术文档并行处理构建设备运维知识库,保障了设备运维知识库的全面及可靠,其次,通过对用户提交的查询需求进行解析,实现同时从设备运维知识库中的图数据库和向量数据库进行相似性搜索,保障了对用户查询需求进行准确可靠的解析,也保障了最终查询到的数据满足用户查询需求的可靠性,最后,在设备运维知识库的使用过程中实时对设备运维知识库进行迭代更新,保障了设备运维知识库中知识的有效性,也保障了满足用户查询需求的全面性,提高了用户对设备使用维修的效果。
实施例2:
在实施例1的基础上,本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,知识库构建模块,包括:
策略适配单元,用于获取两种知识存储方式的运行特性,并基于运行特性确定两种知识存储方式对设备使用维修技术文档进行并行处理时的并行处理策略;
流程构建单元,用于基于并行处理策略构建两种知识存储方式的处理流程,并对两种知识存储方式的处理流程进行封装部署后得到知识库构建流程,且基于知识库构建对设备使用维修技术文档进行处理,构建设备运维知识库。
该实施例中,运行特征指的是两种知识存储方式的运行方式以及运行特点,包括对数据的处理方法等。
该实施例中,并行处理策略是用于表征两种知识存储方式对设备使用维修技术文档进行处理时,二者之间的相互影响关系,包括数据资源的调用以及数据资源的分配等。
该实施例中,处理流程指的是两种知识存储方式对设备使用维修技术文档进行处理的具体步骤以及具体步骤之间的顺序限定等。
上述技术方案的有益效果是:通过对两种知识存储方式的运行特性进行分析,实现根据分析结果分别构建每一中知识存储方式对应的处理流程,最后,将两种知识存储方式对应的处理流程进行封装部署,实现对设备运维知识库的构建流程进行准确有效的获取,为进行设备运维知识库的构建提供了便利。
实施例3:
在实施例2的基础上,本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,流程构建单元,包括:
第一种知识存储方式的处理流程包括:
文档预处理子单元,用于基于预设文档分类指标对设备使用维修技术文档中的设备使用维修数据进行聚类,得到子数据集合,并对子数据集合进行格式化及拆分处理,得到每一预设文档分类指标对应的内容描述文本条目集合;
结构分析提取子单元,用于:
对每一内容描述文本条目集合进行结构化分析提取,得到知识图谱的三元组知识表达,并基于三元组知识表达的逻辑特征将三元组知识表达进行逻辑关联;
基于逻辑关联结果得到设备使用与维修知识图谱,并将设备使用与维修知识图谱存入图数据库。
该实施例中,预设文档分类指标是提前设定好的,具体是设备操作使用、故障诊断和故障维修三种类型。
该实施例中,设备使用维修数据是设备使用维修技术文档中包含的具体内容。
该实施例中,子数据集合指的是对设备使用维修技术文档中的数据根据预设文档分类指标进行分类后得到的每一类型的数据组。
该实施例中,格式化及拆分处理指的是将子数据集合转换为标准的形式,具体可以是字体设置、段落格式设置以及图文整合等,拆分的目的是将各子数据集合中的描述文本拆分为多个词汇,从而便于进行三元组结构的提取。
该实施例中,内容描述文本条目集合指的是将每一子数据集合进行格式化处理和拆分后得到的文本内容,即能够指标表征设备使用、故障诊断以及故障维修的数据词汇。
该实施例中,结构化分析提取的目的是为了获取三元组知识表达,其中,三元组包括主语、谓语以及宾语,三元组知识表达可以是主语表示资源,谓语表示资源间的关系,宾语表示与主语相关的值或资源,这种三元组的形式使得知识图谱能够非常灵活地表示和推理各种关系。
该实施例中,逻辑特征是用于表征三元组之间的关联关系。
上述技术方案的有益效果是:通过对设备使用维修技术文档进行分类、格式化以及拆分处理,实现对每一类型数据的内容描述文本条目集合进行准确有效的获取,其次,对每一内容描述文本条目集合进行结构话提取,实现对每一内容描述文本条目集合的三元组知识表达进行准确有效的确定,为构建知识图谱提供了数据支撑,最后,根据三元组知识表达实现对知识图谱进行准确可靠的构建,实现对图数据库进行准确可靠的构建,保障了最终得到的设备运维知识库的准确可靠性。
实施例4:
在实施例3的基础上,本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,结构分析提取单元,包括:
训练集获取子单元,用于基于预设文档分类指标确定数据查询索引,并基于预设数据库中的数据查询引擎对数据查询索引进行分析后对预设数据库中的预设数据进行遍历,得到预设文档分类指标对应的目标查询数据;
模型构建及分析子单元,用于:
构建三元组元素分类模型,并基于目标查询数据对三元组元素分类模型进行迭代学习训练,且确定每一次迭代学习训练后的模型参数与基准参数的拟合度;
当拟合度达到预设阈值时,得到目标三元组元素分类模型,并基于目标三元组元素分类模型对内容描述文本条目集合中每一描述文本进行分词,得到N个子句;
基于目标三元组元素分类模型对N个子句进行去重及分类,并基于去重及分类结果进行三元组元素分析,得到分词特征,且基于分词特征得到每一内容描述文本条目集合中的第一三元组知识表达。
该实施例中,数据查询索引是根据预设文档分类指标确定的,是在预设数据库中进行数据调取的依据,其中,预设数据库是提前设定好的,用于存储多找那个不同类型的数据。
该实施例中,数据查询引擎是提前已知的,用于根据数据查询索引对预设数据库中的数据进行便利查询,即调取数据的工具。
该实施例中,预设数据即为预设数据库中存储的数据。
该实施例中,目标查询数据指的是根据预设文档分类指标从预设数据库中最终调取到的数据,与预设文档分类指标要求的数据类型相同。
该实施例中,基准参数是提前设定好的,用于表征对三元组元素分类模型的性能要求,即三元组元素提取的准确性要求等。
该实施例中,拟合度是用于表征每一次迭代学习训练后的模型参数与基准参数之间的相似程度,拟合度越大,越满足基准参数的要求。
该实施例中,预设阈值是提前已知的,是用于衡量迭代学习训练后的模型参数是否满足基准参数的最低标准,是可以进行调整的。
该实施例中,目标三元组元素分类模型指的是最终得到的满足基准参数要求的模型。
该实施例中,子句指的是对内容描述文本条目集合中每一描述文本进行分词后得到的数据片段。
该实施例中,分词特征指的是三元组元素分析后,每一子句对应的具体数据内容以及各子句之间的相互依赖关系。
该实施例中,第一三元组知识表达指的是通过分词和传统网络模型来完成三元组生成。
该实施例中,以故障诊断为例,需要对每一条故障描述进行拆解和分类,设计实现解析5种三元组推理规则,分别是故障现象和故障现象之间存在的并发症关系、故障前操作导致的故障现象、故障原因导致故障现象、报警信息关联的故障现象、设备部位常见的故障现象等,目标三元组元素分类模型识别设备部位、故障现象、执行操作、故障原因等,并根据分词特征构建以上分类之间的关系。
上述技术方案的有益效果是:通过根据预设文档分类指标对预设数据库中的预设数据进行遍历,实现对满足预设文档分类指标的训练数据进行准确有效的获取,其次,通过遍历得到的目标查询数据对三元组元素分类模型进行训练,并对每一次训练后的模型参数进行校验,确保最终得到的三元组元素分类模型的准确可靠,最后,通过得到的目标三元组元素分类模型对内容描述文本条目集合中每一描述文本进行分析,实现对三元组知识表达进行准确有效的获取,提高了设备使用维修知识对应的知识图谱构建的准确性,也便于提高对用户查询需求进行查询的可靠性。
实施例5:
在实施例4的基础上,本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,模型构建及分析子单元,包括:
数据解析子单元,用于调取预设大语言模型,并基于大语言模型对内容描述文本条目集合中每一描述文本进行分析,提取每一描述文本的语言模式和语义规则;
三元组生成子单元,用于基于语言模式和语义规则确定不同描述文本之间的上下文逻辑关系,并基于上下文逻辑关系生成第二三元组知识表达;
互补子单元,用于将第一三元组知识表达和第二三元组知识表达进行差异互补,并基于差异互补得到最终的三元组知识表达。
该实施例中,预设大语言模型指的是基于深度学习的人工智能模型,通过大规模的训练数据和复杂的神经网络结构,能够生成高质量的自然语言文本,能够从大量的文本数据中学习语言模式和语义规则,并能够根据上下文生成连贯、合理的文本内容。
该实施例中,语言模式指的是每一描述文本采用的描述方式。
该实施例中,语义规则指的是每一描述文本对应的具体数据内容以及在表达数据内容时采用的表达方式。
该实施例中,第二三元组知识表达指的是直接利用大语言模型的自然语言理解能力和逻辑推理能力得到的三元组知识表达,其中,主要利用大模型的ICL能力以及提示词构建能力,ICL就是给定一定样本,输入的样本越多,输出的效果越好。
该实施例中,差异互补指的是将两种方式产生的第一三元组知识表达和第二三元组知识表达进行查缺补漏,从而确保最终得到的三元组知识表达的准确可靠性。
上述技术方案的有益效果是:通过大语言模型直接对内容描述文本条目集合中每一描述文本进行分析,实现对第二三元组知识表达进行准确有效的提取,最后,将得到的第二三元组知识表达与第一三元组知识表达进行匹配,二者进行差异互补,保障了最终得到的三元组知识表达的可靠性。
实施例6:
在实施例2的基础上,本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,流程构建单元,包括:
第二种知识存储方式的处理流程包括:
文档切分子单元,用于基于设定参数将设备使用维修技术文档切分为文本切片,并将文本切片作为第一向量转换元素;
向量转换子单元,用于:
获取得到的内容描述文本条目集合,并将内容描述文本条目集合中的描述文本作为第二向量转换元素;
基于预训练词嵌入模型将第一向量转换元素和第二向量转换元素同步映射为高维度实数向量,并将高维度实数向量存入向量数据库;
知识库生成子单元,用于将图数据库和向量数据库进行汇总,得到设备运维知识库。
该实施例中,设定参数是提前设定好的,用于表征对设备使用维修技术文档进行切分的长度以及规则等。
该实施例中,第一向量转换元素指的是将设备使用维修技术文档进行切分后的数据作为文本向量转换的一部分。
该实施例中,第二向量转换元素指的是将文档预处理(即每一内容描述文本条目集合进行分类,格式化以及拆分后的数据)后的数据作为文本向量转换的另一部分。
该实施例中,预训练词嵌入模型是提前设定好的,用于将文本进行向量转换处理,其中,高维度实数向量即为预训练词嵌入模型对第一向量转换元素和第二向量转换元素进行向量转换的结果。
该实施例中,基于预训练词嵌入模型将第一向量转换元素和第二向量转换元素同步映射为高维度实数向量的目的是这样向量化的内容有对设备技术文档进行无规则切分的文本切片,也有对设备技术文档的预处理后输出的规则化特定内容(如故障诊断中的故障描述)文本条目,使得构成向量化内容兼具完整性和精细化特点。
上述技术方案的有益效果是:通过采用第二种知识存储方式对设备使用维修技术文档进行处理,实现对向量数据库进行准确有效的构建,最后,将得到的图数据库和向量数据库进行汇总,实现对设备运维知识库进行准确可靠的构建,为用户进行知识查询提供了可靠依据,也保障了用户最终查询到的数据的全面性以及可靠性。
实施例7:
在实施例1的基础上,本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,如图3所示,知识库使用模块,包括:
查询请求单元,用于获取用户提交的提问文本及查询需求,并对提问文本及查询需求进行语句分段后同时在图数据库和向量数据库中进行相似性搜索,分别得到结构化数据和相关性描述文本;
处理单元,用于对相关性描述文本进行解析,确定相关性描述文本的语义特征,并基于语义特征构建提示词,并将结构化数据、提示词以及提问文本及查询需求输入至大语言模型进行特征筛选,得到用户所需的目标数据。
该实施例中,提问文本指的是用户提交的问题,例如可以是故障的描述以及希望查询的数据内容。
该实施例中,语句分段可以是按标点符号分句。
该实施例中,结构化数据指的是通过图数据库进行相似性搜索得到的结果,相关性描述文本指的是通过向量数据库进行相似性搜索得到的结果,例如以故障诊断的场景为例,用户输入故障描述希望找到故障原因,系统首先对故障描述按标点符号分句,使用知识库构建中训练的分类模型识别故障部位、故障现象和故障操作并在知识图谱中匹配,除了推理出故障原因以及解决办法之外,还会推理出与已经发现的故障相关的未发现的设备故障;
系统同时使用用户输入的故障描述在向量库中做相似性搜索,获得和故障描述相似的文本。
该实施例中,语义特征是对相关性描述文本进行分析后,提取到的相关性描述文本的具体数据内容。
该实施例中,提示词是根据相关性描述文本构建的,是为大语言模型进行特征筛选提供的依据,例如提示词可以是“故障原因”等。
该实施例中,特征筛选指的是根据提示词对结构化数据中与提示词相关的数据进行提取,最终得到用户所需的数据。
上述技术方案的有益效果是:通过对用户提交的提问文本以及查询需求进行解析,实现同时在图数据库和向量数据库中进行准确有效的相似性搜索,其次,将相似性搜索结果输入至大语言模型进行特征筛选,实现对用户所需的母包数据进行准确可靠的查询,保障了用户最终得到的目标数据的可靠性以及提高了最终得到的目标数据与查询需求的一致性。
实施例8:
在实施例7的基础上,本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,处理单元,包括:
参数确定子单元,用于基于目标时间段后的设备运维知识库中的知识图谱内容确定模型微调参数,并基于模型微调参数对大语言模型进行迭代训练;
模型验证子单元,用于基于知识图谱内容对迭代训练后的大语言模型进行性能校验,并在校验通过后对原始的大语言模型进行替换。
该实施例中,目标时间段是提前设定好的,用于表征对设备运行知识库的使用时长。
该实施例中,模型微调参数是根据知识图谱确定的,是用于对大语言模型进行完善的数据参数。
该实施例中,性能校验指的是通过知识图谱内容对迭代训练后的大语言模型的分析能力进行测试,例如可以是当大语言模型对知识图谱内容的分析结果与知识图谱内容的标准内容一致时,则完整对大语言模型的调整。
该实施例中,大语言模型是知识库构建、使用以及迭代更新的工具。
上述技术方案的有益效果是:通过对大语言模型进行参数调整,保障了设备运维知识库的实时有效性以及可靠性,提高了对用户查询需求进行数据查询的可靠性。
实施例9:
在实施例1的基础上,本实施例提供了一种集成智能学习功能的设备使用与维修知识库的构建系统,知识库更新模块,包括:
文档更新单元,用于基于设备运维知识库使用的同时获取实时设备使用维修技术文档,并基于实时设备使用维修技术文档的资料属性确定信息来源;
知识库更新单元,用于:
当信息来源为手动获取时,基于知识库构建流程对实时设备使用维修技术文档进行解析,并基于解析结果对原始设备运维知识库进行迭代更新;
当信息来源为网络爬取时,对实时设备使用维修技术文档进行结构解析,提取实时设备使用维修技术文档的目标摘要,并将目标摘要与原始设备运维知识库的摘要库进行相似度匹配;
若相似度达到阈值时,则判定符合更新要求,并基于知识库构建流程对原始设备运维知识库进行迭代更新,完成基于差异更新流程对设备运维知识库的迭代更新。
该实施例中,资料属性指的是设备使用维修技术文档的获取方式。
该实施例中,信息来源包括手动获取和网络爬取。
该实施例中,结构解析的目的是为了对实时设备使用维修技术文档的内容进行解读,从而提取实时设备使用维修技术文档的摘要信息(即实时设备使用维修技术文档的目标摘要)。
该实施例中,摘要库是原始设备运维知识库中包含的所有设备使用维修知识对应的摘要信息,是经过人工筛选用于设备知识库构建的全部技术资料文档的摘要集合。
该实施例中,阈值是提前设定好的。
上述技术方案的有益效果是:通过在设备运维知识库使用的同时获取实时设备使用维修技术文档,并对实时设备使用维修技术文档的信息来源进行有效解析,从而便于根据信息来源采用不同的知识库迭代更新方式对设备运维知识库进行更新,避免的无关数据添加至设备运维知识库中,保障了设备运维知识库的准确可靠性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种集成智能学习功能的设备使用与维修知识库的构建系统,其特征在于,包括:
知识库构建模块,用于基于两种知识存储方式对设备使用维修技术文档进行并行处理,并基于并行处理结果构建图数据库和向量数据库,得到设备运维知识库;
知识库使用模块,用于基于用户提交的查询需求同时对设备运维知识库中的图数据库和向量数据库进行相似性搜索,并将相似性搜索结果输入至大语言模型进行处理,得到用户所需的目标数据;
知识库更新模块,用于基于设备运维知识库使用的同时获取实时设备使用维修技术文档,并基于实时设备使用维修技术文档的获取类型采用差异更新流程对设备运维知识库进行迭代更新;
其中,知识库构建模块,包括:
策略适配单元,用于获取两种知识存储方式的运行特性,并基于运行特性确定两种知识存储方式对设备使用维修技术文档进行并行处理时的并行处理策略;
流程构建单元,用于基于并行处理策略构建两种知识存储方式的处理流程,并对两种知识存储方式的处理流程进行封装部署后得到知识库构建流程,且基于知识库构建对设备使用维修技术文档进行处理,构建设备运维知识库;
其中,流程构建单元,包括:
第一种知识存储方式的处理流程包括:
文档预处理子单元,用于基于预设文档分类指标对设备使用维修技术文档中的设备使用维修数据进行聚类,得到子数据集合,并对子数据集合进行格式化及拆分处理,得到每一预设文档分类指标对应的内容描述文本条目集合;
结构分析提取子单元,用于:
对每一内容描述文本条目集合进行结构化分析提取,得到知识图谱的三元组知识表达,并基于三元组知识表达的逻辑特征将三元组知识表达进行逻辑关联;
基于逻辑关联结果得到设备使用与维修知识图谱,并将设备使用与维修知识图谱存入图数据库;
其中,结构分析提取单元,包括:
训练集获取子单元,用于基于预设文档分类指标确定数据查询索引,并基于预设数据库中的数据查询引擎对数据查询索引进行分析后对预设数据库中的预设数据进行遍历,得到预设文档分类指标对应的目标查询数据;
模型构建及分析子单元,用于:
构建三元组元素分类模型,并基于目标查询数据对三元组元素分类模型进行迭代学习训练,且确定每一次迭代学习训练后的模型参数与基准参数的拟合度;
当拟合度达到预设阈值时,得到目标三元组元素分类模型,并基于目标三元组元素分类模型对内容描述文本条目集合中每一描述文本进行分词,得到N个子句;
基于目标三元组元素分类模型对N个子句进行去重及分类,并基于去重及分类结果进行三元组元素分析,得到分词特征,且基于分词特征得到每一内容描述文本条目集合中的第一三元组知识表达。
2.根据权利要求1所述的一种集成智能学习功能的设备使用与维修知识库的构建系统,其特征在于,知识库构建模块中两种知识存储方式包括:知识图谱存储方式和向量数据存储方式。
3.根据权利要求1所述的一种集成智能学习功能的设备使用与维修知识库的构建系统,其特征在于,模型构建及分析子单元,包括:
数据解析子单元,用于调取预设大语言模型,并基于大语言模型对内容描述文本条目集合中每一描述文本进行分析,提取每一描述文本的语言模式和语义规则;
三元组生成子单元,用于基于语言模式和语义规则确定不同描述文本之间的上下文逻辑关系,并基于上下文逻辑关系生成第二三元组知识表达;
互补子单元,用于将第一三元组知识表达和第二三元组知识表达进行差异互补,并基于差异互补得到最终的三元组知识表达。
4.根据权利要求1所述的一种集成智能学习功能的设备使用与维修知识库的构建系统,其特征在于,流程构建单元,包括:
第二种知识存储方式的处理流程包括:
文档切分子单元,用于基于设定参数将设备使用维修技术文档切分为文本切片,并将文本切片作为第一向量转换元素;
向量转换子单元,用于:
获取得到的内容描述文本条目集合,并将内容描述文本条目集合中的描述文本作为第二向量转换元素;
基于预训练词嵌入模型将第一向量转换元素和第二向量转换元素同步映射为高维度实数向量,并将高维度实数向量存入向量数据库;
知识库生成子单元,用于将图数据库和向量数据库进行汇总,得到设备运维知识库。
5.根据权利要求1所述的一种集成智能学习功能的设备使用与维修知识库的构建系统,其特征在于,知识库使用模块,包括:
查询请求单元,用于获取用户提交的提问文本及查询需求,并对提问文本及查询需求进行语句分段后同时在图数据库和向量数据库中进行相似性搜索,分别得到结构化数据和相关性描述文本;
处理单元,用于对相关性描述文本进行解析,确定相关性描述文本的语义特征,并基于语义特征构建提示词,并将结构化数据、提示词以及提问文本及查询需求输入至大语言模型进行特征筛选,得到用户所需的目标数据。
6.根据权利要求5所述的一种集成智能学习功能的设备使用与维修知识库的构建系统,其特征在于,处理单元,包括:
参数确定子单元,用于基于目标时间段后的设备运维知识库中的知识图谱内容确定模型微调参数,并基于模型微调参数对大语言模型进行迭代训练;
模型验证子单元,用于基于知识图谱内容对迭代训练后的大语言模型进行性能校验,并在校验通过后对原始的大语言模型进行替换。
7.根据权利要求1所述的一种集成智能学习功能的设备使用与维修知识库的构建系统,其特征在于,知识库更新模块,包括:
文档更新单元,用于基于设备运维知识库使用的同时获取实时设备使用维修技术文档,并基于实时设备使用维修技术文档的资料属性确定信息来源;
知识库更新单元,用于:
当信息来源为手动获取时,基于知识库构建流程对实时设备使用维修技术文档进行解析,并基于解析结果对原始设备运维知识库进行迭代更新;
当信息来源为网络爬取时,对实时设备使用维修技术文档进行结构解析,提取实时设备使用维修技术文档的目标摘要,并将目标摘要与原始设备运维知识库的摘要库进行相似度匹配;
若相似度达到阈值时,则判定符合更新要求,并基于知识库构建流程对原始设备运维知识库进行迭代更新,完成基于差异更新流程对设备运维知识库的迭代更新。
CN202311566295.4A 2023-11-23 2023-11-23 集成智能学习功能的设备使用与维修知识库的构建系统 Active CN117271700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311566295.4A CN117271700B (zh) 2023-11-23 2023-11-23 集成智能学习功能的设备使用与维修知识库的构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311566295.4A CN117271700B (zh) 2023-11-23 2023-11-23 集成智能学习功能的设备使用与维修知识库的构建系统

Publications (2)

Publication Number Publication Date
CN117271700A CN117271700A (zh) 2023-12-22
CN117271700B true CN117271700B (zh) 2024-02-06

Family

ID=89208526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311566295.4A Active CN117271700B (zh) 2023-11-23 2023-11-23 集成智能学习功能的设备使用与维修知识库的构建系统

Country Status (1)

Country Link
CN (1) CN117271700B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090807A (zh) * 2019-12-16 2020-05-01 秒针信息技术有限公司 一种基于知识图谱的用户识别方法及装置
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112307218A (zh) * 2020-10-21 2021-02-02 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
US10943072B1 (en) * 2019-11-27 2021-03-09 ConverSight.ai, Inc. Contextual and intent based natural language processing system and method
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN112749558A (zh) * 2020-09-03 2021-05-04 腾讯科技(深圳)有限公司 一种目标内容获取方法、装置、计算机设备和存储介质
WO2023098288A1 (zh) * 2021-12-01 2023-06-08 浙江大学 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
CN116756295A (zh) * 2023-08-16 2023-09-15 北京盛通知行教育科技集团有限公司 知识库的检索方法、装置及存储介质
CN116842151A (zh) * 2023-06-01 2023-10-03 阿里巴巴(中国)有限公司 问答模型构建、知识库创建、搜索问答方法、电子设备
CN116932708A (zh) * 2023-04-18 2023-10-24 清华大学 大语言模型驱动的开放域自然语言推理问答系统及方法
CN117076719A (zh) * 2023-10-12 2023-11-17 北京枫清科技有限公司 一种基于大语言模型的数据库联合查询方法、装置和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220207343A1 (en) * 2020-12-22 2022-06-30 International Business Machines Corporation Entity disambiguation using graph neural networks
US20230028381A1 (en) * 2021-07-20 2023-01-26 Microsoft Technology Licensing, Llc Enterprise knowledge base system for community mediation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10943072B1 (en) * 2019-11-27 2021-03-09 ConverSight.ai, Inc. Contextual and intent based natural language processing system and method
CN111090807A (zh) * 2019-12-16 2020-05-01 秒针信息技术有限公司 一种基于知识图谱的用户识别方法及装置
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112749558A (zh) * 2020-09-03 2021-05-04 腾讯科技(深圳)有限公司 一种目标内容获取方法、装置、计算机设备和存储介质
CN112307218A (zh) * 2020-10-21 2021-02-02 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
WO2023098288A1 (zh) * 2021-12-01 2023-06-08 浙江大学 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统
CN116932708A (zh) * 2023-04-18 2023-10-24 清华大学 大语言模型驱动的开放域自然语言推理问答系统及方法
CN116842151A (zh) * 2023-06-01 2023-10-03 阿里巴巴(中国)有限公司 问答模型构建、知识库创建、搜索问答方法、电子设备
CN116756295A (zh) * 2023-08-16 2023-09-15 北京盛通知行教育科技集团有限公司 知识库的检索方法、装置及存储介质
CN117076719A (zh) * 2023-10-12 2023-11-17 北京枫清科技有限公司 一种基于大语言模型的数据库联合查询方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合知识图谱和语义匹配的医疗问答系统;徐若卿;《现代电子技术》;全文 *

Also Published As

Publication number Publication date
CN117271700A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN112612902B (zh) 一种电网主设备的知识图谱构建方法及设备
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答系统
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN111291161A (zh) 法律案件知识图谱查询方法、装置、设备及存储介质
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
US8176048B2 (en) Method and system for maximum-informativeness information extraction using a domain-specific ontology
US8954360B2 (en) Semantic request normalizer
CN105787134B (zh) 智能问答方法、装置及系统
CN109471889B (zh) 报表加速方法、系统、计算机设备和存储介质
RU2544739C1 (ru) Способ преобразования структурированного массива данных
WO2020155749A1 (zh) 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
CN112445894A (zh) 基于人工智能的商务智能系统及其分析方法
KR20120064559A (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
Popping Online tools for content analysis
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
RU2718978C1 (ru) Способ управления автоматизированной системой правовых консультаций
CN117271700B (zh) 集成智能学习功能的设备使用与维修知识库的构建系统
CN116703337A (zh) 一种基于人工智能技术的项目文档审查系统及方法
McNeill et al. Communication in emergency management through data integration and trust: an introduction to the CEM-DIT system
Di Pietro et al. Semantic crawling: an approach based on named entity recognition
CN116303923A (zh) 一种知识图谱问答方法、装置、计算机设备和存储介质
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
Popping Online tools for content analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant