CN116541510A - 一种基于知识图谱的故障案例推荐方法 - Google Patents
一种基于知识图谱的故障案例推荐方法 Download PDFInfo
- Publication number
- CN116541510A CN116541510A CN202310519853.5A CN202310519853A CN116541510A CN 116541510 A CN116541510 A CN 116541510A CN 202310519853 A CN202310519853 A CN 202310519853A CN 116541510 A CN116541510 A CN 116541510A
- Authority
- CN
- China
- Prior art keywords
- fault
- case
- knowledge
- entity
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 42
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 208000024891 symptom Diseases 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 14
- 238000010276 construction Methods 0.000 abstract description 14
- 238000009795 derivation Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 9
- 238000012423 maintenance Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000009776 industrial production Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Animal Behavior & Ethology (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识图谱的故障案例推荐方法,包括:通过信息抽取的方式从输入故障案例文本中提取实体以及关系,采用知识图谱的形式进行知识关联,形成基于三元组的故障画像表示体系,构建故障案例知识图谱;基于知识图谱完成故障节点定位,并进行根因分析,确定疑似根因,利用疑似根因和故障设备综合实现相似案例的多路召回;将包含疑似根因、相同故障设备的案例全部召回,并以相似度为基准实现对输入案例的案例推荐。本发明通过画像构建中的知识抽取方法,可以完成故障知识图谱的自动构建,基于知识图谱和贝叶斯网络的根因分析方法,不仅能提高案例推荐准确率,还能够为用户提供具备可解释性的根因推导过程。
Description
技术领域
本发明涉及软件工程技术中的推荐领域,特别涉及一种基于知识图谱的故障案例推荐方法。
背景技术
故障案例推荐技术是近年来在机器学习、自然语言处理和知识图谱等领域的发展基础上逐渐形成的一种技术。早期使用基于规则和统计的方式来推荐案例,基于规则方法主要通过专家经验和规则库来推荐最佳解决方案,但是具有规则库的局限性和规则不易维护等问题;基于统计的方法主要通过对历史数据进行分析和统计,来推荐最佳解决方案,主要包括基于协同过滤和基于矩阵分解的方法,其中基于协同过滤和基于矩阵分解的方法较为成熟。
随着深度学习技术的发展,基于深度学习的方法逐渐兴起,它主要通过多层次的神经网络结构,来学习数据的特征,主要包括基于自编码器、基于循环神经网络和基于卷积神经网络的方法。而基于知识图谱的推荐技术是故障案例推荐技术的新兴方法之一,该技术主要包括知识图谱构建、知识图谱推理和知识图谱搜索等步骤,其中知识图谱推理和搜索是核心步骤。该技术的主要优点是可以结合专家知识和历史数据,建立完整的知识图谱,并通过知识图谱推理技术,来推荐最佳解决方案。
现有方案中“一种基于知识图谱的运维知识推荐方法”(专利号:202211255747.2)。该方法的缺点是:单纯根据设备、部件、类型进行搜索,推荐时只根据难度和运维能力进行排序,不能充分利用故障案例中的知识数据,无法充分利用故障案例数据。
“一种基于知识图谱的知识推理和故障诊断方法”(专利号:202210328887.1)。该方法的缺点是:在进行知识推理补全时,依赖于神经网络,具有结果无法预知的缺点,同时不具有可解释性,推荐时只使用基于神经网络的相似度计算,不能利用知识图谱中的关系进行推理,无法精准的通过故障现象得出故障解决方案。
“一种基于知识图谱的机床故障诊断方法”(专利号:202110692310.4)。该方法的缺点是:知识图谱需要不断更新维护才能保证准确性和实用性,这需要投入一定的人力和资源,依赖于专业领域知识的建立和维护,如果使用者不具备相关知识,可能难以理解和应用该方法。
发明内容
针对现有技术中存在的问题,提供了一种基于知识图谱的故障案例推荐方法,提出“故障画像”的概念,利用知识图谱关联案例文本的知识信息,不可以全面展现文本的多维度信息,并进行层级关联,形成体系化表示结构,解决缺少故障实体之间的关联、表示维度过于单一的问题,基于信息抽取的故障画像构建方法,实现画像和知识图谱的自动构建,最后基于画像和根因分析,实现故障案例推荐。
本发明采用的技术方案如下:一种基于知识图谱的故障案例推荐方法,包括:
通过信息抽取的方式从输入故障案例文本中提取实体以及关系,采用知识图谱的形式进行知识关联,形成基于三元组的故障画像表示体系,构建故障案例知识图谱;
基于知识图谱完成故障节点定位,并进行根因分析,确定疑似根因,利用疑似根因和故障设备综合实现相似案例的多路召回;
将包含疑似根因、相同故障设备的案例全部召回,并以相似度为基准实现对输入案例的案例推荐。
进一步的,故障画像包括故障基础信息、故障设备信息、故障内容信息、故障影响信息以及故障属性信息。
进一步的,所述信息抽取过程为:
采用预训练语言模型BERT对句子进行编码;
采用二分类监测头实体的起始,完成头实体识别;
对于识别得到的头实体,将BERT编码对应位置的向量序列输入到BiLSTM中编码,再将其与BERT编码后的句子向量、远程监督的先验特征和BERT中位置向量进行拼接,进而完成特定关系的尾实体识别。
进一步的,所述确定疑似根因的过程为:
基于知识图谱在故障知识库中进行匹配,对于匹配到的疑似根因节点集合,形成多个关联簇,完成故障知识定位,从而得到候选根因节点集合;
利用候选根因节点集合生成关联子图,通过构建贝叶斯网络,基于所有匹配到的故障症状节点推理出候选根因节点的出现概率,选取排序靠前的候选根因列表作为疑似根因。
进一步的,匹配时,采用混合匹配算法进行匹配,所述匹配算法包括精确匹配、模糊匹配和语义匹配;其中,精准匹配指实体文本完全相同,模糊匹配指基于Jaccard和编辑距离完成匹配,语义匹配指使用词向量表示和余弦相似度完成匹配。
进一步的,所述案例推荐的具体过程为:
将包含相同关键词、故障设备以及疑似根因的案例全部召回,得到候选推荐案例集合;
利用知识表示学习得到候选推荐案例集合中对应故障实体的特征向量表示;
通过对案例包含的故障实体进行TF-IDF和类别加权获得案例的画像表示,计算输入案例和找回案例画像嵌入的余弦相似度,并按照相似度得分进行降序排序,得到案例推荐列表。
进一步的,所述特征向量表示方法为:选定实体所属句子部分内容作为实体的文本信息,利用Transformer提取文本特征,并且基于融合实体上下文信息的表示特征,利用TransE模型学习实体的结构特征,最终通过门控机制将实体的文本特征和结构特征进行融合,得到表示实体的特征向量。
进一步的,获得案例的画像表示具体过程为:
获得案例中所有实体的向量表示;
分别计算实体的TF-IDF值,并对实体向量进行TF-IDF加权;
根据每个实体所属类别对每个向量进行分类,得到不同类别的实体向量集合;
对每个类别的实体向量进行加权平均得到案例的画像表示。
进一步的,所述TF-IDF值计算方法为:
其中,∑e∈casecount(e)为实体e所在故障案例包含实体个数,为故障案例中所有实体的总频数,∑c∈casecount(case)表示故障知识库中所有案例数,∑c∈case∩e∈ccount(case)为包含实体e的所有案例总数。
进一步的,所述余弦相似度计算方法为:
其中,I1、I2分别表示输入案例和召回案例的画像表示。
与现有技术相比,采用上述技术方案的有益效果为:本发明通过故障画像能够对故障案例进行形象化的表示,通过画像构建中的知识抽取方法,可以完成故障知识图谱的自动构建。实现的基于知识图谱和贝叶斯网络的根因分析方法,不仅能提高案例推荐准确率,还能够为用户提供具备可解释性的根因推导过程。
附图说明
图1为本发明提出的案例推荐流程图。
图2为本发明一实施例中故障画像的数据模式图。
图3为本发明一实施例中基于知识图谱的故障画像表示示意图。
图4为本发明一实施例中基于主语感知的实体关系联合抽取模型示意图。
图5为本发明一实施例中故障数据DAG(有向无环)结构图。
图6为本发明一实施例中融合故障实体描述的知识表示学习模型示意图。
图7为本发明一实施例中案例推荐结果评估示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
本发明的实施例中提出了“故障画像”的概念,利用知识图谱关联案例文本的知识信息,不可以全面展现文本的多维度信息,并进行层级关联,形成体系化表示结构,解决缺少故障实体之间的关联、表示维度过于单一的问题。同时针对故障案例中包信息冗余且杂乱的问题,采用基于信息抽取的故障画像构建方法,实现画像和知识图谱的自动构建。利用基于知识图谱的根因分析方法,解决仅利用故障描述文本匹配带来的信息单一问题,结合基于画像和根因分析,实现故障案例推荐。具体方案如下:
如图1所示,一种基于知识图谱的故障案例推荐方法,包括:
通过信息抽取的方式从输入故障案例文本中提取实体以及关系,采用知识图谱的形式进行知识关联,形成基于三元组的故障画像表示体系,构建故障案例画像及知识图谱;
基于知识图谱完成故障节点定位,并进行根因分析,确定疑似根因,利用疑似根因和故障设备综合实现相似案例的多路召回;
将包含疑似根因、相同故障设备的案例全部召回,并以相似度为基准实现对输入案例的案例推荐。
具体的,本实施例提出的故障案例推荐方法主要体现在三个部分:故障画像及知识图谱构建、根因分析和案例推荐。
(一)故障画像及知识图谱构建
本实施例中故障画像模型包含基础信息、设备信息、内容信息、影响信息以及属性信息等五部分内容。
其中,如图2所示,故障基础信息包含故障日期和案例编号等基本信息;故障设备信息包含故障设备的基本信息,例如设备类型、型号和厂家等内容;故障内容信息分为描述信息和处理信息两部分,对案例文本进行不同模块拆解,并且文本中包含大量的故障实体和关系信息;故障影响信息分别考虑故障的严重等级和故障发生的概率等级,作为故障发生带来的影响结果;故障属性信息涵盖故障编号、故障类型和关键词等属性信息,补充故障的基本属性。
需要说明的是,由于故障案例中包含不同类型的知识,故障内容信息的原始形式是非结构化文本,因此本实施例构建的知识图谱中的节点包含故障设备、故障标题、问题描述、告警信息、处理过程、根本原因和解决方案等多个类型通过信息抽取的方式从文本中提取故障实体、关系以及案例关键词等内容,故障实体按照不同的节点类型进行存储,实体间的关系通过节点间的边进行关联,关键词等信息通过故障的标签形式进行存储。如图3所示为本实施例提出的基于知识图谱的故障画像表示模型。
进一步的,在故障画像构建上,如图4所示,本实施例采用基于主语感知的实体关系联合抽取模型完成,具体的,该模型包括BERT编码器、头实体识别模块以及特定关系的尾实体识别模块。
(1)BERT编码器
本实施例采用预训练的语言模型BERT对故障案例句子进行编码。如公式1和公式2所示为模型的学习过程。
H0=SWs+Wp (1)
Hn=Transformer(Hn-1) (2)
其中,S、Ws、Wp和Hn分别代表字符的one-hot向量矩阵、字符嵌入矩阵、位置嵌入矩阵和第n层的隐藏状态向量。
(2)头实体识别模块
通过二分类检测头实体的起始,从而完成头实体识别。具体过程如下所示:
其中,HN[i]表示BERT编码第i个位置的向量,Pi为先验特征第i个位置的向量,WS_Start和bS_End分别表示头实体首尾位置的权重矩阵和偏置向量,σ代表sigmoid函数,γ和β是LN层的超参数,和/>为第i个位置是头实体首尾位置的概率。
(3)特定关系的尾实体识别模块
对于识别的头实体,将BERT编码器对应位置的向量序列Vsub输入BiLSTM编码,将其与BERT编码后的句子向量HN、远程监督的先验特征P和BERT中位置向量Pos进行拼接,具体如公式5所示。
xi=LNβ',γ'(EN[i],BiLSTM(Vsub)[i],Pi,Posi) (5)
需要说明的是,本实施例中采用的条件LN与传统LB不同之处在于,将关系融合到LN的超参数γ和β中,参见公式6和公式7展示了条件LN的转换过程。
β'=Wβ×rl+β (6)
γ'=Wγ×rl+γ (7)
其中,rl代表关系的向量。进一步对尾实体进行识别,如公式8-公式10所示。
其中,k和v是句子的单词向量,q为xi。
由于训练集和现有故障知识库中包含大量关系三元组,本实施例借鉴远程监督的思想,即如果三元组的头实体和尾实体均出现在句子中,则选取该三元组作为候选三元组。其中,三元组包含头实体、关系、尾实体三个元素。
需要说明的是,在其他实施例中BILSTM可以替换为BiGRU等。
(二)根因分析
本实施例基于知识图谱在故障知识库中进行匹配,对于匹配到的疑似根因节点集合,形成多个关联簇,完成故障知识定位,从而得到候选根因节点集合;利用候选根因节点集合生成关联子图,通过构建贝叶斯网络,基于所有匹配到的故障症状节点推理出候选根因节点的出现概率,选取排序靠前的候选根因列表作为疑似根因。
其中,采用混合匹配算法在故障知识库中进行匹配,生成疑似根因节点集合。对于搜索到的疑似根因节点集合,形成多个关联簇,完成故障知识定位任务。
基于得到利用疑似根因节点集合生成关联子图,通过构建贝叶斯网络,基于故障症状描述信息推理故障根因的概率,生成故障的根因传播路径。
具体的,贝叶斯网络用二元组G=(GD,γ)表示,其中,GD=(N,E)为DAG结构,N代表疑似根因节点集合,E代表有向边集合,γ={P(Ni|pa(Ni))}为条件概率集合,pa(Ni)表示节点Ni的父疑似根因节点集合。如图5所示为知识图谱结构转换成有向无环图的形式。
条件概率为有向无环图中有向边的概率,即P(Ni|pa(Ni))。通过公式11计算有向边P(Ni|pa(Ni))的概率。P(Ni,pa(Ni))为节点Ni和其父节点pa(Ni)同时出现的概率,对应知识图谱中实体Ni和pa(Ni)共同出现的概率,即边<Ni,pa(Ni)>出现的概率。如公式12所示,为知识图谱中连接Ni和pa(Ni)边的概率,/>为匹配到关联子图的边总数。P(pa(Ni))代表父节点pa(Ni)出现的概率,对应于知识图谱中实体pa(Ni)的概率,计算公式如13所示,/>为Ni的父节点对应实体的出现次数,/>为匹配到的关联子图中同类型实体频数总和。
将故障症状节点记为X,根因节点记为Y,故障节点记为M。如公式14所示,通过贝叶斯公式计算P(Yi|Xi),P(Xi)为故障症状Xi出现的概率,P(Xi)定义为节点匹配概率。
P(Xi,Yi)=P(Yi)×(φ(Yi,M)+δ×φ(C,M))×φ(M,Xi) (15)
φ(a,b)=v(e<a,b>)×P(b|a) (16)
如公式15所示,P(Xi,Yi)为故障症状Xi和根因Yi同时出现的概率。P(Yi)为根因节点Yi的出现概率,计算逻辑与公式13保持一致。φ(Yi,M)、φ(Yi,M)和φ(M,Xi)分别为有向边<Yi,M>、<C,M>和<M,Xi>的加权概率值,δ为故障设备匹配标志,若故障设备匹配成功,则δ置为1,否则为0。
其中,公式16示了有向边<a,b>的加权概率值的计算方法,v(e<a,b>)为有向边<a,b>的权重因子,P(b|a)代表<a,b>的条件概率值,计算公式如11所示。
需要说明的是,如果故障包含的根因或症状越多,每个症状或根因的权值就越低,通过公式17,将有向边的频数与该故障相连症状或根因的有向边频数总和的比值作为有向边权重。
最后,如公式18,基于概率P(Yi|Xj)、P(Xj)以及所有匹配到的症状节点推理出根因节点的概率。定义P(Xi)为故障症状匹配的概率,作为Xj的初始概率。通过综合所有故障症状,计算出候选根因的出现概率,选取排序靠前的根因列表作为结果,完成疑似根因的推理过程。
(4)案例推荐
本实施例将包含相同关键词、故障设备以及疑似根因的案例全部召回,得到候选推荐案例集合;再利用知识表示学习得到候选推荐案例集合中对应故障实体的特征向量表示;最后通过对案例包含的故障实体进行TF-IDF和类别加权获得案例的画像表示,计算输入案例和找回案例画像嵌入的余弦相似度,并按照相似度得分进行降序排序,得到案例推荐列表。具体的,
知识表示学习方法如下:
如图6所示,对于三元组<h,r,t>,h、r、t分别表示头实体、关系、尾实体,选定实体所属句子窗口为10的内容作为实体的文本信息,利用Transformer提取实体文本特征,并且基于融合实体上下文信息的表示特征,利用TransE模型学习实体的结构特征,最终通过门控机制将实体的文本特征和结构特征进行融合。
如公式19所示为实体的联合建模,其中es代表实体的文本编码向量,eg代表实体的结构特征向量,σ∈[0,1]来权衡两种信息。类似transE模型,公式20定义了联合表示的得分函数E(h,r,t)。
e=σ⊙es+(1-σ)⊙eg (19)
在本实施例中,优选采用最大化正负例间隔来优化模型损失,如公式21所示,其中T代表正例,T’为负例,γ表示正负例间最大间隔。随机替换真实三元组<h,r,t>获得三元组的负例。具体如公式22所示,从实体集合N中或关系集合E中随机选取一个实体或关系,对真实三元组讲行替换。
T′={<h′,r,t|h′∈N>}∪{<h,r′,t|r′∈E>}∪{<h,r,t′|t′∈N>} (22)
进一步的,在得到每个实体的表示后,其中,es为实体的文本表示,eg为实体的三元组表示,融合两者信息作为实体的完整表示。TF-IDF和类别加权获得案例的画像表示的具体过程如下:
如图上述的算法1所示,类别权重{α1,α2,α3,α4,α5,α6}分别代表实体节点所属类别的权重,包括故障标题、问题描述、告警信息、处理过程、解决方案和根本原因六种类型,分别对应六种权重。
本实施例中设置为α1=1.0,α2=0.9,α3=0.9,α4=0.5,α5=0.5,α6=1.0。公式23为实体tf-idf值计算方法。
其中,∑e∈casecount(e)为实体e所在故障案例包含实体个数,为故障案例中所有实体的总频数,∑c∈casecount(case)表示故障知识库中所有案例数,∑c∈case∩e∈ccount(case)为包含实体e的所有案例总数。
通过算法1得到故障案例的画像表示,利用公式24计算其与输入案例画像表示的余弦相似度,值越大代表两者的相似度越高。
至此,即可形成推荐列表。
本发明通过故障画像表示模型,能够对故障案例进行形象化的表示,通过画像构建中的知识抽取方法,可以完成故障知识图谱的自动构建。实现的基于知识图谱和贝叶斯网络的根因分析方法,不仅能提高案例推荐准确率,还能够为用户提供具备可解释性的根因推导过程。
为了验证本发明的效果,将故障知识库中包含的100条案例与人工改写的50条新增案例分别作为测试集,分别选取推理结果前1、3、5和8个根因节点作为推理结果,将其和真实数据情况进行对比,计算各自的准确率和误差率。
表1为根因分析实验结果,其中N为测试案例数目,Nk表示选定的推理节点存在于真实案例根因中的文本数目,通过Nk与N的比值计算推理准确率,即Acc。T代表测试集包含的真实根因节点数目,εT为推理错误的误差节点总数,同理Pε为推理误差率,依据εT与T的比值表示。测试集1的准确率达到83%,证明了基于贝叶斯推理的根因分析算法具备强大的推理能力。测试集2作为改写数据,准确率达到了72%,侧面证明故障节点匹配算法的表现优秀。
表1故障根因推理实验结果评估
为验证案例推荐效果,分别选取文本匹配推荐的先进算法作为对比算法。基于无监督语言模型SimCSE,简称“文本匹配”;基于ES(Elastic Search,ES)的搜索方法,简称“ES检索”。ES检索将故障描述分词并过滤掉停用词,对分词结果建立倒排索引,按照词汇共现结果计算文档关联度。为验证知识表示模型的作用,选用Word2Vec的词向量平均作为实体向量,和本发明的推荐效果进行对比实验,简称“Word2Vec实体表示”,作为对比算法3。图7展示了选取k={1,3,5,10}的对比模型和本发明提出的FCBR模型的效果。
通过对比,基于文本匹配的方式取得的效果相对较差,主要在于案例文本中干扰信息太多,有效信息占比较少。同时无监督文本匹配模型SimCSE考虑了语义信息的匹配,因此p@1超过了ES检索。ES检索利用倒排索引方式进行匹配,可以根据文本中重复字段进行案例关联,精确率明显提升,再次证明案例文本中有效信息较少,直接依赖全文进行匹配的效果低于依赖关键词的结果。而本发明提出的基于知识图谱的推荐方法取得了最优的结果,p@10达到了81.35。相比于ES检索,FCBR不仅考虑了关键词、故障设备等信息,还对故障的根因进行了挖掘,更加符合解决故障问题的处理流程,因此取得了最优的效果,证明本发明提出的推荐算法的优越性。同时使用Word2Vec词向量作为实体表示的效果低于基于知识表示的匹配效果,证明知识表示模型为实体提供更丰富的语义信息。
最后,还给出一些适用于本发明的案例推荐方法的应用场景,具体如下:
1、工业生产优化:基于知识图谱的故障案例推荐方法可以应用于工业生产过程中,通过实时监控生产设备的运行情况,并根据设备故障的表现和原因,快速识别和匹配相关的故障案例,并推荐相应的解决方案,从而提高生产效率和质量。同时,该方法可以收集历史故障案例数据,通过数据挖掘和机器学习算法,优化生产流程,预测潜在故障,并提前进行预防和处理。
2、工业设备维护:基于知识图谱的故障案例推荐方法可以应用于工业设备的维护领域,通过记录设备维护的历史数据和故障案例,并与知识图谱进行对比和匹配,推荐最适合的维护方案和故障排除方法,从而延长设备寿命,降低维护成本。同时,该方法还可以自动监测设备的状态和健康状况,及时识别潜在的故障和问题,并提供相应的解决方案,使设备维护更加高效和精准。
3、工业设备设计:基于知识图谱的故障案例推荐方法可以应用于工业设备的设计领域,通过分析历史故障案例和解决方案,从而提高设备的设计可靠性和稳定性,减少设计中的漏洞和不足。同时,该方法可以自动识别和记录设计中的问题和缺陷,快速推荐最优解决方案,并为未来的设计提供有益的经验和教训。
4、智能客服领域。知识图谱可以将公司的知识和数据转化为机器可读的格式,使得机器可以更好地理解用户的问题和需求。基于知识图谱的故障案例推荐方法可以用于智能客服系统中,帮助用户快速找到解决问题的方法,提高用户满意度。
5、物联网领域。物联网中的设备和传感器可以不断地产生数据,并且这些数据通常是分散的、杂乱的。知识图谱可以将这些数据整合起来,形成一个统一的故障知识库,从而帮助用户更好地理解物联网设备的状态和故障。基于知识图谱的故障案例推荐方法可以用于物联网设备的故障预测和诊断。
6、智能故障分析:基于知识图谱的故障案例推荐方法可以应用于智能故障分析领域,通过对大量故障案例进行数据挖掘和机器学习,建立更加准确的知识图谱,并通过智能算法对故障案例进行分析和推荐,实现故障自动诊断和处理。该方法可以提高故障分析的准确性和速度,避免人工分析中的疏漏和错误,大幅度提高工业生产的效率和质量。
7、能源领域。基于知识图谱的故障案例推荐方法可以应用于能源领域,帮助用户更好地了解能源设备的状态和故障,提高能源的使用效率和减少浪费。
需要说明的是,在本发明实施例的描述中,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接连接,也可以通过中间媒介间接连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义;实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于知识图谱的故障案例推荐方法,其特征在于,包括:
通过信息抽取的方式从输入故障案例文本中提取实体以及关系,采用知识图谱的形式进行知识关联,形成基于三元组的故障画像表示体系,构建故障案例知识图谱;
基于知识图谱完成故障节点定位,并进行根因分析,确定疑似根因,利用疑似根因和故障设备综合实现相似案例的多路召回;
将包含疑似根因、相同故障设备的案例全部召回,并以相似度为基准实现对输入案例的案例推荐。
2.根据权利要求1所述的基于知识图谱的故障案例推荐方法,其特征在于,故障画像包括故障基础信息、故障设备信息、故障内容信息、故障影响信息以及故障属性信息。
3.根据权利要求1或2所述的基于知识图谱的故障案例推荐方法,其特征在于,所述信息抽取过程为:
采用预训练语言模型BERT对句子进行编码;
采用二分类监测头实体的起始,完成头实体识别;
对于识别得到的头实体,将BERT编码对应位置的向量序列输入到BiLSTM中编码,再将其与BERT编码后的句子向量、远程监督的先验特征和BERT中位置向量进行拼接,进而完成特定关系的尾实体识别。
4.根据权利要求3所述的基于知识图谱的故障案例推荐方法,其特征在于,所述确定疑似根因的过程为:
基于知识图谱在故障知识库中进行匹配,对于匹配到的疑似根因节点集合,形成多个关联簇,完成故障知识定位,从而得到候选根因节点集合;
利用候选根因节点集合生成关联子图,通过构建贝叶斯网络,基于所有匹配到的故障症状节点推理出候选根因节点的出现概率,选取排序靠前的候选根因列表作为疑似根因。
5.根据权利要求4所述的基于知识图谱的故障案例推荐方法,其特征在于,匹配时,采用混合匹配算法进行匹配,所述匹配算法包括精确匹配、模糊匹配和语义匹配;其中,精准匹配指实体文本完全相同,模糊匹配指基于Jaccard和编辑距离完成匹配,语义匹配指使用词向量表示和余弦相似度完成匹配。
6.根据权利要求4所述的基于知识图谱的故障案例推荐方法,其特征在于,所述案例推荐的具体过程为:
将包含相同关键词、故障设备以及疑似根因的案例全部召回,得到候选推荐案例集合;
利用知识表示学习得到候选推荐案例集合中对应故障实体的特征向量表示;
通过对案例包含的故障实体进行TF-IDF和类别加权获得案例的画像表示,计算输入案例和找回案例画像嵌入的余弦相似度,并按照相似度得分进行降序排序,得到案例推荐列表。
7.根据权利要求6所述的基于知识图谱的故障案例推荐方法,其特征在于,所述特征向量表示方法为:选定实体所属句子部分内容作为实体的文本信息,利用Transformer提取文本特征,并且基于融合实体上下文信息的表示特征,利用TransE模型学习实体的结构特征,最终通过门控机制将实体的文本特征和结构特征进行融合,得到表示实体的特征向量。
8.根据权利要求6或7所述的基于知识图谱的故障案例推荐方法,其特征在于,获得案例的画像表示具体过程为:
获得案例中所有实体的向量表示;
分别计算实体的TF-IDF值,并对实体向量进行TF-IDF加权;
根据每个实体所属类别对每个向量进行分类,得到不同类别的实体向量集合;
对每个类别的实体向量进行加权平均得到案例的画像表示。
9.根据权利要求8所述的基于知识图谱的故障案例推荐方法,其特征在于,所述TF-IDF值计算方法为:
其中,∑e∈casecount(e)为实体e所在故障案例包含实体个数,为故障案例中所有实体的总频数,∑c∈casecount(case)表示故障知识库中所有案例数,∑c∈case∩e∈ ccount(case)为包含实体e的所有案例总数。
10.根据权利要求8所述的基于知识图谱的故障案例推荐方法,其特征在于,所述余弦相似度计算方法为:
其中,I1、I2分别表示输入案例和召回案例的画像表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310519853.5A CN116541510A (zh) | 2023-05-09 | 2023-05-09 | 一种基于知识图谱的故障案例推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310519853.5A CN116541510A (zh) | 2023-05-09 | 2023-05-09 | 一种基于知识图谱的故障案例推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541510A true CN116541510A (zh) | 2023-08-04 |
Family
ID=87444879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310519853.5A Pending CN116541510A (zh) | 2023-05-09 | 2023-05-09 | 一种基于知识图谱的故障案例推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541510A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821712A (zh) * | 2023-08-25 | 2023-09-29 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
CN116910175A (zh) * | 2023-09-13 | 2023-10-20 | 人工智能与数字经济广东省实验室(广州) | 自动化移动设备故障层级树构建方法、装置及储存介质 |
CN117150042A (zh) * | 2023-09-01 | 2023-12-01 | 海通证券股份有限公司 | 基于知识图谱推荐应急预案的方法、装置、设备和介质 |
CN117272170A (zh) * | 2023-09-20 | 2023-12-22 | 东旺智能科技(上海)有限公司 | 一种基于知识图谱的it运维故障根因分析方法 |
CN117520927A (zh) * | 2024-01-04 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 检测异常账户的方法和装置 |
CN117851612A (zh) * | 2024-01-10 | 2024-04-09 | 星环信息科技(上海)股份有限公司 | 基于图嵌入的卫星故障诊断方法、装置、设备及存储介质 |
-
2023
- 2023-05-09 CN CN202310519853.5A patent/CN116541510A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821712A (zh) * | 2023-08-25 | 2023-09-29 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
CN116821712B (zh) * | 2023-08-25 | 2023-12-19 | 中电科大数据研究院有限公司 | 非结构化文本与知识图谱的语义匹配方法及装置 |
CN117150042A (zh) * | 2023-09-01 | 2023-12-01 | 海通证券股份有限公司 | 基于知识图谱推荐应急预案的方法、装置、设备和介质 |
CN117150042B (zh) * | 2023-09-01 | 2024-04-16 | 海通证券股份有限公司 | 基于知识图谱推荐应急预案的方法、装置、设备和介质 |
CN116910175A (zh) * | 2023-09-13 | 2023-10-20 | 人工智能与数字经济广东省实验室(广州) | 自动化移动设备故障层级树构建方法、装置及储存介质 |
CN116910175B (zh) * | 2023-09-13 | 2023-12-01 | 人工智能与数字经济广东省实验室(广州) | 自动化移动设备故障层级树构建方法、装置及储存介质 |
CN117272170A (zh) * | 2023-09-20 | 2023-12-22 | 东旺智能科技(上海)有限公司 | 一种基于知识图谱的it运维故障根因分析方法 |
CN117272170B (zh) * | 2023-09-20 | 2024-03-08 | 东旺智能科技(上海)有限公司 | 一种基于知识图谱的it运维故障根因分析方法 |
CN117520927A (zh) * | 2024-01-04 | 2024-02-06 | 支付宝(杭州)信息技术有限公司 | 检测异常账户的方法和装置 |
CN117520927B (zh) * | 2024-01-04 | 2024-05-21 | 支付宝(杭州)信息技术有限公司 | 检测异常账户的方法和装置 |
CN117851612A (zh) * | 2024-01-10 | 2024-04-09 | 星环信息科技(上海)股份有限公司 | 基于图嵌入的卫星故障诊断方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dieber et al. | Why model why? Assessing the strengths and limitations of LIME | |
CN116541510A (zh) | 一种基于知识图谱的故障案例推荐方法 | |
CN113723632B (zh) | 一种基于知识图谱的工业设备故障诊断方法 | |
CN114579875B (zh) | 基于知识图谱的设备故障诊断与维修知识推荐系统 | |
US7158983B2 (en) | Text analysis technique | |
Wang et al. | Convolutional neural networks for expert recommendation in community question answering | |
CN117453921B (zh) | 一种大语言模型的数据信息标签处理方法 | |
CN111143553B (zh) | 一种实时文本数据流的特定信息识别方法及系统 | |
CN110232395A (zh) | 一种基于故障中文文本的电力系统故障诊断方法 | |
CN110909529B (zh) | 一种公司形象提升系统的用户情感分析和预判系统 | |
CN111506732A (zh) | 一种文本多层次标签分类方法 | |
CN113065356B (zh) | 一种基于语义分析算法的it设备运维故障建议处理方法 | |
CN114756686A (zh) | 一种基于知识图谱的知识推理和故障诊断方法 | |
CN112257441A (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN114756687A (zh) | 基于自学习实体关系联合抽取的钢铁产线设备诊断方法 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN113806547A (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN114676346A (zh) | 新闻事件处理方法、装置、计算机设备和存储介质 | |
Tallapragada et al. | Improved Resume Parsing based on Contextual Meaning Extraction using BERT | |
CN114218406A (zh) | 基于传动知识图谱的传动解决方案生成方法及系统 | |
CN117574898A (zh) | 基于电网设备的领域知识图谱更新方法及系统 | |
Hedderich et al. | Label-descriptive patterns and their application to characterizing classification errors | |
CN117149974A (zh) | 一种子图检索优化的知识图谱问答方法 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |