CN114461784A - 一种非结构化设备故障知识的分类及知识萃取方法 - Google Patents
一种非结构化设备故障知识的分类及知识萃取方法 Download PDFInfo
- Publication number
- CN114461784A CN114461784A CN202210053559.5A CN202210053559A CN114461784A CN 114461784 A CN114461784 A CN 114461784A CN 202210053559 A CN202210053559 A CN 202210053559A CN 114461784 A CN114461784 A CN 114461784A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- fault
- equipment
- extraction
- diagnosis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种非结构化设备故障知识的分类及知识萃取方法,该方法包括:采集待诊断设备的故障诊断知识并分类;基于故障诊断知识的分类,建立对应的知识萃取方法,进行第一次知识萃取,抽取概念、属性和不同概念属性之间的关联关系,形成局部知识;对局部知识进行第二次知识萃取,将得到的浅知识和深知识整合为复合式知识,形成全局知识库,实现多源信息的集成与融合。本发明的方法有效解决了目前设备故障诊断领域中对经验、资源重用率较低的问题,将大量非结构化故障数据和经验知识转换为机器可处理的诊断维护知识,实现了故障诊断中隐性知识显性化,显性知识规范化,具有完备、一致性好和精确的优点,以提高后续诊断准确度和维护决策效率。
Description
技术领域
本发明属于设备故障诊断技术领域,尤其涉及一种非结构化设备故障知识的分类及知识萃取方法。
背景技术
随着设备大型化、结构复杂化、运行自动化和智能化等特点的突出、设备相关数据量的增加以及人工智能技术的迅速发展,设备故障诊断进入“大数据”和智能化管理时代。
知识萃取是从结构化和非结构化源中创建知识,所产生的知识需要采用机器可读和机器可解释的格式,并需要以一种人类也便于理解及逻辑推断的方式来表示。知识萃取应用于设备故障诊断领域,能够有效缩短故障诊断的响应时间,协助决策,提升设备维护的可操作性,提升设备诊断维修策略的可靠性和有效性。
但目前设备诊断中对经验、资源重用率较低且故障诊断知识存在非规范性,因此如何将经验数据、专家知识和知识萃取技术等结合在一起,更科学高效地萃取大量非结构化故障数据和经验知识,并转换为机器可处理的诊断维护知识,实现隐性知识显性化,显性知识规范化,提高诊断准确度和维护决策效率亟待研究。
在设备故障诊断领域,知识萃取有两个亟待解决的瓶颈问题:
1)故障领域知识的多源异构性
故障领域知识内涵丰富,具有多源异构的特征,设备故障知识分布于不同企业、不同部门、不同维修人员当中,同时也以多种形式存在如设备运行状态数据、维护记录、故障诊断经验、设备结构资料、各部件工艺参数,这些知识具有多样性、复杂性、经验性和非规范性等特点,如何对该领域知识进一步分类,从而能够选择出智能故障诊断系统的关键知识,是提高知识萃取效率的关键。
2)可获取知识的非规范性
故障领域知识具有较强的非规范性,在相当程度上増加了对故障诊断知识进行有效的归纳、整理、挖掘和应用的难度,同时也降低了其可重用性和可集成性,为智能故障诊断的有效开展实施带来了困难。如何减小和降低故障领域知识的非规范性的不利影响,准确的提取关键知识,实现面向智能诊断的故障领域知识快速有效获取、处理、传播和应用,是知识萃取研究的另一个难点。
从知识萃取的研究现状来看,目前针对隐性知识萃取和显性知识萃取的研究都受到了学者的关注。学者针对知识的不同应用场景和不同的领域设计了隐性知识萃取方法。针对显性知识萃取的方法目前研究较多,基于机器学习的知识萃取方法逐渐朝着人工智能的方向发展,基于自然语言分析的知识抽取方法朝着语义和本体结合的方向发展。基于专家经验的知识获取方法重在获取专家头脑中的隐性知识,基于数据挖掘的知识获取方法重在获取设备检测数据中的隐性知识。但目前关于设备故障诊断领域的知识获取方面的研究多集中在基于数据挖掘的知识获取,还存在对经验、资源重用率较低的特点且故障诊断知识的非规范性即不完备性、不一致性和不精确性。
因此亟需探索适用于设备智能故障诊断与维护的知识萃取的理论、技术和方法,能够将经验数据、专家知识和特征提取等技术等结合在一起,使隐性设备知识显性化、半结构化和结构化的显性知识(如文档、标准、模型、工具、参数等)标准化。所以,针对知识、经验资源的特点,利用知识萃取进行特征提取和专家经验挖掘相结合的研究设备诊断知识建模和服务方式亟需研究。
发明内容
本发明的目的在于克服现有技术缺陷,提出了一种非结构化设备故障知识的分类及知识萃取方法。
为了实现上述目的,本发明提出了一种非结构化设备故障知识的分类及知识萃取方法,所述方法包括:
步骤1)采集待诊断设备的故障诊断知识;
步骤2)对故障诊断知识进行分类;
步骤3)基于故障诊断知识的分类,建立对应的知识萃取方法,进行第一次知识萃取,抽取概念、属性和不同概念属性之间的关联关系,形成局部知识;
步骤4)对局部知识进行第二次知识萃取,将得到的浅知识和深知识整合为复合式知识形成全局知识库,实现多源信息的集成与融合。
作为上述方法的一种改进,所述步骤1)具体包括:
收集检修专家的重要信息反馈、故障日报、分析报告和专家结论;
收集应急故障手册、修程修制、用户手册和检修技术条件;
采集设备实时检测得到的基础数据、运行数据、故障统计和其他设备实时信息。
作为上述方法的一种改进,所述步骤2)具体包括:
对故障诊断知识进行分类,其中,
将检修专家的重要信息反馈、故障日报、分析报告和专家结论归为检修专家历史经验知识;
将应急故障手册、修程修制、用户手册和检修技术条件归为检修专业技术文档;
将设备实时检测采集的基础数据、运行数据、故障统计和其他设备实时信息归为设备实时检测采集信息。
作为上述方法的一种改进,所述步骤3)具体包括:
对于检修专家历史经验知识和检修专业技术文档,采用基于深度学习的命名实体识别技术进行设备故障的特征提取,以结构化形式呈现;
对于设备实时检测采集的状态信息,采用Apriori算法进行关联规则挖掘,获得故障信息与状态信息的关联关系。
作为上述方法的一种改进,所述对于检修专家历史经验知识和检修专业技术文档,采用基于深度学习的命名实体识别技术进行设备故障的特征提取,以结构化形式呈现;具体包括:
对于检修专家历史经验知识和检修专业技术文档,将文档中的事故故障文本转换为段落,将段落转换为句子,将句子转化为人工标注的序列;
通过word2vec将标注的序列转换为词向量,构建基于深度学习和统计学习的事故故障文本特征提取混合模型,提取出事故故障文本的关键特征,从而实现将非结构化事故故障文本数据转换为结构化数据。
作为上述方法的一种改进,所述事故故障文本特征提取混合模型包括依次连接的Bi-LSTM层、CRF层和输出层,模型的输入为词向量,输出为事故故障文本的关键特征,所述关键特征包括故障原因、故障维修人员、故障模块、故障症状、解决方案和影响因素。
作为上述方法的一种改进,所述对于设备实时检测采集的状态信息,采用Apriori算法进行关联规则挖掘,获得故障信息与状态信息的关联关系;具体包括:
通过设备实时检测采集的状态信息建立事务数据库;
通过迭代检索得到事务数据库中包含的所有频繁项集;
由频繁项集产生该状态信息对应的强关联规则,从而获得故障信息与状态信息的关联关系。
作为上述方法的一种改进,所述通过迭代检索得到事务数据库中包含的所有频繁项集;具体包括:
使用最小支持度作为判断频繁项集的标准,找出满足最小支持度的频繁1项集L1,对L1的自身连接生成的集合执行剪枝策略产生候选项集C2,对C2中的项进行满足最小支持度判定挖掘得到频繁2项集L2,以此类推,迭代进行,直至无法找到频繁k项集为止,对应的频繁(k-1)项集的集合即为所有频繁项集。
作为上述方法的一种改进,所述步骤4)具体包括:
对局部知识进行第二次知识萃取,将经过反复多次的试验以及相关演绎式推理得到的诊断结构的知识归为浅知识;
将基于数据建立功能模型、结构模型、因果关系模型以及过程模型而进行故障诊断的知识归为深知识;
将浅知识和深知识整合为复合式知识,通过浅层推理,初步完成故障假设的生成,再进行深层推理和诊断,对故障假设做出相应的确认和解释,从而形成全局知识库,实现故障诊断领域知识的概念术语统一、多源信息的集成与融合。
与现有技术相比,本发明的优势在于:
本发明的方法有效解决了目前设备故障诊断领域中对经验、资源重用率较低的问题,通过将大量非结构化故障数据和经验知识转换为机器可处理的诊断维护知识,实现了故障诊断中隐性知识显性化,显性知识规范化,具有完备、一致性好和精确的优点,以提高后续诊断准确度和维护决策效率。
附图说明
图1是本发明设备故障知识分类模型与关键知识识别评估模型示意图;
图2是本发明基于两阶段的非规范故障深层次知识萃取方法的框架图;
图3是事故故障文本特征提取混合模型结构示意图。
具体实施方式
本发明利用知识萃取技术对专家经验和设备信息进行深层次挖掘,将知识管理理论和定量方法如数据挖掘、自然语言处理、深度学习等方法相结合,重点研究设备故障知识分类模型与关键知识识别评估、非规范故障知识萃取方法和技术,建立基于两阶段的非规范故障深层次知识萃取模型,将大量非结构化故障数据和经验知识转换为机器可处理的诊断维护知识,实现隐性知识显性化,显性知识规范化,以提高诊断准确度和维护决策效率。
针对目前设备故障诊断领域中对经验、资源重用率较低的特点且故障诊断知识的非规范性即不完备性、不一致性和不精确性的特点,利用知识萃取技术对专家经验和设备信息进行深层次挖掘,将知识管理理论和定量方法如数据挖掘、自然语言处理、深度学习等方法相结合,重点研究设备故障知识分类模型与关键知识识别评估、非规范故障知识萃取方法和技术。结合故障诊断的知识需求,建立设备故障知识分类标准和模型,对多源异构的知识进行分类并提出关键知识识别评估模型,识别需要萃取的关键知识。针对故障诊断知识的非规范性即不完备性、不一致性和不精确性的特点,研究解决故障知识非规范性的知识萃取方法,建立基于两阶段的非规范故障深层次知识萃取模型,将多源、异构、非规范的故障知识规范化,以提高诊断准确度和维护决策效率。
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
一、设备故障知识分类模型与关键知识识别评估
设备的维护与故障诊断知识具有多源异构的特征,相关知识分布在产业链上的多个企业或同一企业的不同部门中,如设备企业保存有设备运行状态数据、维护记录、故障诊断经验等;设备的制造部门保存有详细的设备结构资料、各部件工艺参数等;设备的设计部门保存有各部件设计参数、资料等,因此,设备维护与故障诊断知识具有多源的特征。这些知识以不同形式的载体呈现,如纸质文档、电子文档、不同系统的数据库等。因此如何对设备故障知识进行分类、识别和评估,从而确定需要提取的关键知识,是提高知识萃取效率的关键。
智能维修系统的目的是对机械故障进行诊断以便及时维修,知识划分类型可以根据故障诊断的知识依据划分为浅知识、深知识。
浅知识是专家启发性经验知识,经过反复多次的试验以及大量相关的演绎式推理,从而总结出相应的诊断结构的知识。基于浅知识的故障智能诊断系统,属于依据经验知识的机械设备故障诊断方式。
深知识是基于大量数据建立功能模型、结构模型、因果关系模型以及过程模型从而进行故障诊断的知识,基于深知识的智能设备故障诊断技术,通常是通过应用建立模型方面的知识来完成相应的诊断工作。浅知识能够提高故障诊断的准确性,但是面对复杂设备诊断时知识面会受限。深知识能够基于完整的数据库进行便捷诊断,维护工作难度小,但是推理过程的复杂程度较高。
复合式知识,在智能维修系统建立时,往往采用浅知识和深知识结合的复合式设备故障诊断方式,首先需要通过浅层的推理,初步完成故障假设的生成,之后再对其进行深层的推理和诊断,对其做出相应的确认和解释,使得机械设备的推荐系统可以具备更为强大的求解能力,进而全面实现高效的故障诊断。
在此背景下,浅知识主要指专家的经验等隐性知识,深知识的应用则需要基于隐性知识和大量的显性知识。复合式故障诊断能够提高诊断效果,所以需要合理应用浅知识和深知识。因此,根据智能维修设备和故障识别的目的,按照浅知识和深知识建立一套故障知识的分类标准,能充分梳理出对故障诊断和维修有用的知识,为关键知识的识别评估打下基础。
关键知识的识别评估是知识萃取研究领域学者经常忽视的问题。由于设备相关数据集和知识集的异构性、复杂性和特殊性,对所有的相关知识进行萃取难度较高、成本较大,有些知识对于智能维修系统识别故障的作用有限。因此建立设备故障诊断领域的关键知识评估模型能够有效的对设备相关知识重要性进行评估,选取关键知识进行萃取,提高知识萃取过程的有效性和目的性。
本部分将建立设备故障知识分类模型与关键知识识别评估模型,如图1所示。
1、设备故障知识分类模型
在对设备故障知识特点进行分析梳理的基础上,结合故障诊断、预测和维修对知识的需求差异,从浅知识和深知识的角度,建立设备故障知识分类标准和模型,对多源异构的知识进行分类研究。
2、关键知识识别评估模型
主要从浅知识和深知识两个层面建立评估体系,识别需要萃取的关键知识。一是建立浅知识评估标准,确定专家经验这类浅知识需要提取的关键知识要点,建立知识重要性评估指标和模型;二是建立深知识评估标准,基于对设备故障诊断的贡献性分析提出深知识所需要的关键知识类型(如设备维修记录、特定的约束关系、相关定律知识等)。
二、基于两阶段的非规范故障深层次知识萃取方法研究
故障诊断知识具有很强的经验性特征,并且这些经验性的人类专家知识往往属于非规范知识。所谓非规范知识是对不确定的、模糊的、不完整的、不精确的、非恒常的、不一致的等等内涵难处理的知识的总称。故障诊断知识的非规范性表现在不完备性、不一致性和不精确性。
传统的知识萃取方法往往只能限定于数量不是很巨大、范围明确、结构健全、内容(相对)完整且一致的规范知识。一旦遇到稍稍超出系统边界的问题或稍稍违背这些特征的知识,比如出现矛盾的知识、海量的知识、常识性知巧、外延和内涵随时间场景而变化的非规范知识时,以往的知识萃取方法常常表现出脆弱性。因此针对非规范性知识的萃取方法亟待研究。
在明确需要萃取的知识类型和关键要素后,本部分将重点研究解决故障知识非规范性的知识萃取方法,建立基于两阶段的非规范故障深层次知识萃取模型,将多源、异构、非规范的故障知识规范化。如图2所示,为本发明基于两阶段的非规范故障深层次知识萃取方法的框架图。
针对现有的故障诊断知识和数据分为三类进行第一次知识萃取:诊断检修专业技术文档(如应急故障处理手册、修程修制、用户手册和检修技术条件等)、诊断检修专家历史经验知识(如重要信息反馈、故障日报、分析报告和专家结论等)以及设备实时检测采集信息(如设备采集数据、运行数据等),针对不同的知识类型特点分别研究相适应的知识萃取方法,进行第一次知识萃取。
1、针对检修专家历史经验知识数据和检修专业技术文档,主要采用基于深度学习的命名实体识别技术进行设备故障的特征提取,将事故故障特征提取转化为序列标注的问题,主要过程是将事故故障文本转换为段落,将段落转换为句子,将句子转化为人工标注的序列。再通过word2vec将标注的序列转换为词向量,构建基于深度学习和统计学习的的事故故障文本特征提取混合模型,最后在TensorFlow1.2深度学习框架之上应用Python3.6,以实际某铁路局的设备故障文本数据为例,进行实验分析。
SA-1)事故故障文本语料标注方法:首先制定事故故障文本特征提取的标准和规范,明确需要标注的实体类型和标记符号。之后将事故故障文本数据转换为字符串序列,并对每个字符根据其所属实体类型通过BIO标记法进行标记,从而生成事故故障标注的原始语料。主要过程是将事故故障文本转换为段落,将段落转换为句子,最后将句子转换为单个字符人工标注的序列,通过定义不同的实体类型可实现事故故障文本中的所蕴含的实体。
SA-2)基于word2vec的事故故障文本词向量生成方法:针对事故故障文本标注的文字序列,需要转换为向量才能够让计算机进行识别,进而作为深度神经网络的输入。文本向量的分布式表示方法为目前应用最多的方式,采用word2vec的Skip-gram模型根据目标词预测上下文,从而获得故障文本的词向量表示。
Skip-gram模型最终目标就是通过神经网络学习隐含层中的权重,使得根据给定词one-hot词向量预测出输出词的概率最大,从而获得目标词的词向量。
SA-3)基于Bi-LSTM+CRF的混合的事故故障特征提取模型:通过结合传统统计方法与深度学习技术的命名实体识别技术,建立基于Bi-LSTM+CRF的混合的事故故障特征提取模型,通过Bi-LSTM的复杂非线性变换获得事故故障文本标注序列向量的上下文信息,之后将输出的预测序列输入到CRF然后利用CRF层全局范围内的条件状态转移概率矩阵,学习Bi-LSTM输出预测序列之间的关系,修正输出序列的准确性,最后通过CRF参数调优,找出铁路事故故障文本特征提取的最优模型,提取出事故故障文本的关键特征,如事故故障发生的时间、地点、原因、处置措施、定性定责等,从而实现非结构化事故故障文本数据向结构化数据的转换。基于Bi-LSTM+CRF的事故故障文本特征提取包含基于人工标注的事故故障特征提取模型调优与最优模型预测应用两个步骤,图3主要是描述基于人工标注的事故故障特征提取的整体架构设计,其主要包含文本标注层、词向量转换层、Bi-LSTM层、CRF层和模型输出等5层。
SA-4)实验分析:
基于TensorFlow 1.2+Python3.6在GPU机器上进行设备故障特征提取实验分析,所选数据源为某铁路局在2015年1月至2016年12月的CIR设备故障检修数据。实验选取76份事故故障文本数据,共计139250个BIO标记序列作为训练集,22份事故故障文本,共计37672个BIO标记序列作为测试集。Bi-LSTM模型的主要参数设置如下:
表1 Bi-LSTM模型的主要参数设置
参数名称 | 说明 | 取值 |
num_layers | Bi-LSTM层数 | 1 |
num_units | Bi-LSTM单元数 | 128 |
seq_length | 序列长度参数 | 128 |
batch_size | 批次处理样本数 | 64 |
learning_rate | 学习率 | 0.002 |
dropout_rate | 丢弃参数避免模型过拟合 | 0.5 |
Clip | 梯度裁剪 | 10 |
经过训练得到铁路事故故障文本特征提取最优模型后,对测试集的BIO标记序列进行预测,主要采取准确率(Precision),召回率(Recall)和F-score作为模型评价和对比的指标,可以看出模型可以较好的识别铁路设备故障文本数据中的特征,提取出故障原因、维修人员、模块、症状、解决方案、影响因素等关键知识。
表2验证结果
实体名称 | Precision | Recall | F1 |
故障原因 | 86.69% | 87.85% | 82.23% |
故障维修人员 | 80.66% | 80.07% | 80.34% |
故障模块 | 83.56% | 82.64% | 83.39% |
故障症状 | 89.41% | 81.85% | 84.63% |
解决方案 | 87.96% | 88.09% | 88.25% |
影响因素 | 91.76% | 92.05% | 93.38% |
2、针对设备实时检测采集的数据采用知识发现的方法,采用关联规则挖掘的Apriori算法进行数据挖掘和关系抽取,从大量的故障数据中寻找故障信息与状态信息之间的关联关系。
所述Apriori算法的处理过程包括:首先通过设备采集数据、运行数据等设备实时检测采集信息建立事务数据库;然后通过迭代检索出事务数据库中包含的所有频繁项集;最后由检索出的频繁项集产生设备实时检测采集信息的强关联规则,获得故障信息与状态信息的关联关系。
具体相关定义如下:
·项与项集:设itemset={item1,item_2,...,item_m}是所有项的集合,其中,item_k(k=1,2,...,m)成为项。项的集合称为项集(itemset),包含k个项的项集称为k项集(k-itemset)。
·事务与事务集:一个事务T是一个项集,它是itemset的一个子集,每个事务均与一个唯一标识符Tid相联系。不同的事务一起组成了事务集D,它构成了关联规则发现的事务数据库。
·关联规则:关联规则是形如A=>B的蕴涵式,其中A、B均为itemset的子集且均不为空集,而A交B为空。
·支持度(support):关联规则的支持度定义:Support(A->B)=P(AB)
置信度(confidence):关联规则的置信度定义:
·项集的出现频度(support count):包含项集的事务数,简称为项集的频度、支持度计数或计数。
·频繁项集(frequent itemset):如果项集I的相对支持度满足事先定义好的最小支持度阈值(即I的出现频度大于相应的最小出现频度(支持度计数)阈值),则I是频繁项集。
·强关联规则:满足最小支持度和最小置信度的关联规则,即待挖掘的关联规则
具体实现步骤如下:
SB)挖掘频繁项集
SB-1)每个项都是候选1项集的集合C1的成员。算法扫描所有的事务,获得每个项,生成C1(见下文代码中的create_C1函数)。然后对每个项进行计数。然后根据最小支持度从C1中删除不满足的项,从而获得频繁1项集L1。
SB-2)对L1的自身连接生成的集合执行剪枝策略产生候选2项集的集合C2,然后,扫描所有事务,对C2中每个项进行计数。同样的,根据最小支持度从C2中删除不满足的项,从而获得频繁2项集L2。
SB-3)对L2的自身连接生成的集合执行剪枝策略产生候选3项集的集合C3,然后,扫描所有事务,对C3每个项进行计数。同样的,根据最小支持度从C3中删除不满足的项,从而获得频繁3项集L3。
SB-4)以此类推,对Lk-1的自身连接生成的集合执行剪枝策略产生候选k项集Ck,然后,扫描所有事务,对Ck中的每个项进行计数。然后根据最小支持度从Ck中删除不满足的项,从而获得频繁k项集。
SC)由频繁项集产生关联规则
一旦找出了频繁项集,就可以直接由它们产生强关联规则。产生步骤如下:
SC-1)对于每个频繁项集itemset,产生itemset的所有非空子集(这些非空子集一定是频繁项集);
S→count(l)
其中min-conf是最小置信度阈值。
总结来看:首先找出频繁1项集,记为L1;然后利用L1来产生候选项集C2,对C2中的项进行判定挖掘出L2,即频繁2项集;不断如此循环下去直到无法发现更多的频繁k项集为止。最后产生设备实时检测采集信息的强关联规则,获得故障信息与状态信息的关联关系。
3、深层次知识萃取研究:针对第一次萃取的知识进行二次萃取,即“深层次”知识萃取。第一次萃取目的是克服知识存在的非规范性,因此针对不同的资料类型分别建立对应知识萃取方法,抽取知识包含的概念、属性和不同概念属性之间的关联关系,形成局部的知识。第二次萃取即“深层次”知识萃取是为了整合局部知识,浅知识和深知识是基于设备诊断方式的不同对设备故障诊断领域的全局知识进行划分,并不局限于一种知识类型。因此为了进一步提炼浅知识和深知识,提高故障诊断的准确性,需要对不同类型的知识进行整合成为复合式知识,形成全局知识库。通过对局部的知识进行深层次萃取,实现故障诊断领域知识的概念术语统一、多源信息的集成与融合,得到故障现象、故障模式、故障原因、征兆表现等深层次、规范的且结构化的知识,便于后续实现高效且准确的诊断。
本发明的方法针对故障知识资源的特点,基于以往的设备维修记录进行知识萃取和科学表达,结合本体在知识表示方面的优势,利用知识萃取、特征提取和专家经验挖掘相结合研究故障知识建模和服务方式,有效萃取、组织与优化利用诊断维护知识资源,有效解决了目前设备故障诊断领域中对经验、资源重用率较低的特点且故障诊断知识的非规范性即不完备性、不一致性和不精确性的问题。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种非结构化设备故障知识的分类及知识萃取方法,所述方法包括:
步骤1)采集待诊断设备的故障诊断知识;
步骤2)对故障诊断知识进行分类;
步骤3)基于故障诊断知识的分类,建立对应的知识萃取方法,进行第一次知识萃取,抽取概念、属性和不同概念属性之间的关联关系,形成局部知识;
步骤4)对局部知识进行第二次知识萃取,将得到的浅知识和深知识整合为复合式知识形成全局知识库,实现多源信息的集成与融合。
2.根据权利要求1所述的非结构化设备故障知识的分类及知识萃取方法,其特征在于,所述步骤1)具体包括:
收集检修专家的重要信息反馈、故障日报、分析报告和专家结论;
收集应急故障手册、修程修制、用户手册和检修技术条件;
采集设备实时检测得到的基础数据、运行数据、故障统计和其他设备实时信息。
3.根据权利要求2所述的非结构化设备故障知识的分类及知识萃取方法,其特征在于,所述步骤2)具体包括:
对故障诊断知识进行分类,其中,
将检修专家的重要信息反馈、故障日报、分析报告和专家结论归为检修专家历史经验知识;
将应急故障手册、修程修制、用户手册和检修技术条件归为检修专业技术文档;
将设备实时检测采集的基础数据、运行数据、故障统计和其他设备实时信息归为设备实时检测采集信息。
4.根据权利要求3所述的非结构化设备故障知识的分类及知识萃取方法,其特征在于,所述步骤3)具体包括:
对于检修专家历史经验知识和检修专业技术文档,采用基于深度学习的命名实体识别技术进行设备故障的特征提取,以结构化形式呈现;
对于设备实时检测采集的状态信息,采用Apriori算法进行关联规则挖掘,获得故障信息与状态信息的关联关系。
5.根据权利要求4所述的非结构化设备故障知识的分类及知识萃取方法,其特征在于,所述对于检修专家历史经验知识和检修专业技术文档,采用基于深度学习的命名实体识别技术进行设备故障的特征提取,以结构化形式呈现;具体包括:
对于检修专家历史经验知识和检修专业技术文档,将文档中的事故故障文本转换为段落,将段落转换为句子,将句子转化为人工标注的序列;
通过word2vec将标注的序列转换为词向量,构建基于深度学习和统计学习的事故故障文本特征提取混合模型,提取出事故故障文本的关键特征,从而实现将非结构化事故故障文本数据转换为结构化数据。
6.根据权利要求5所述的非结构化设备故障知识的分类及知识萃取方法,其特征在于,所述事故故障文本特征提取混合模型包括依次连接的Bi-LSTM层、CRF层和输出层,模型的输入为词向量,输出为事故故障文本的关键特征,所述关键特征包括故障原因、故障维修人员、故障模块、故障症状、解决方案和影响因素。
7.根据权利要求4所述的非结构化设备故障知识的分类及知识萃取方法,其特征在于,所述对于设备实时检测采集的状态信息,采用Apriori算法进行关联规则挖掘,获得故障信息与状态信息的关联关系;具体包括:
通过设备实时检测采集的状态信息建立事务数据库;
通过迭代检索得到事务数据库中包含的所有频繁项集;
由频繁项集产生该状态信息对应的强关联规则,从而获得故障信息与状态信息的关联关系。
8.根据权利要求7所述的非结构化设备故障知识的分类及知识萃取方法,其特征在于,所述通过迭代检索得到事务数据库中包含的所有频繁项集;具体包括:
使用最小支持度作为判断频繁项集的标准,找出满足最小支持度的频繁1项集L1,对L1的自身连接生成的集合执行剪枝策略产生候选项集C2,对C2中的项进行满足最小支持度判定挖掘得到频繁2项集L2,以此类推,迭代进行,直至无法找到频繁k项集为止,对应的频繁(k-1)项集的集合即为所有频繁项集。
9.根据权利要求1所述的非结构化设备故障知识的分类及知识萃取方法,其特征在于,所述步骤4)具体包括:
对局部知识进行第二次知识萃取,将经过反复多次的试验以及相关演绎式推理得到的诊断结构的知识归为浅知识;
将基于数据建立功能模型、结构模型、因果关系模型以及过程模型而进行故障诊断的知识归为深知识;
将浅知识和深知识整合为复合式知识,通过浅层推理,初步完成故障假设的生成,再进行深层推理和诊断,对故障假设做出相应的确认和解释,从而形成全局知识库,实现故障诊断领域知识的概念术语统一、多源信息的集成与融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210053559.5A CN114461784A (zh) | 2022-01-18 | 2022-01-18 | 一种非结构化设备故障知识的分类及知识萃取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210053559.5A CN114461784A (zh) | 2022-01-18 | 2022-01-18 | 一种非结构化设备故障知识的分类及知识萃取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114461784A true CN114461784A (zh) | 2022-05-10 |
Family
ID=81408756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210053559.5A Pending CN114461784A (zh) | 2022-01-18 | 2022-01-18 | 一种非结构化设备故障知识的分类及知识萃取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114461784A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844194A (zh) * | 2016-12-21 | 2017-06-13 | 北京航空航天大学 | 一种多层次软件故障诊断专家系统的构建方法 |
CN106919981A (zh) * | 2015-12-24 | 2017-07-04 | 北京航天测控技术有限公司 | 一种面向综合诊断工程的知识获取与管理系统 |
CN110033101A (zh) * | 2019-03-07 | 2019-07-19 | 华中科技大学 | 基于融合特征的知识图谱的水电机组故障诊断方法和系统 |
CN111311059A (zh) * | 2020-01-16 | 2020-06-19 | 成都大汇物联科技有限公司 | 基于知识图谱的水车室故障诊断方法 |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN111751135A (zh) * | 2020-06-24 | 2020-10-09 | 开滦(集团)有限责任公司电信分公司 | 一种提升机群远程监测监管与智能故障诊断系统 |
CN111950084A (zh) * | 2020-08-11 | 2020-11-17 | 中国民航大学 | 一种面向机载航线维修的航电故障诊断系统的实现方法 |
CN112462736A (zh) * | 2020-11-13 | 2021-03-09 | 华北电力大学 | 一种基于数据分析的风电机组故障诊断方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN113723632A (zh) * | 2021-08-27 | 2021-11-30 | 北京邮电大学 | 一种基于知识图谱的工业设备故障诊断方法 |
-
2022
- 2022-01-18 CN CN202210053559.5A patent/CN114461784A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919981A (zh) * | 2015-12-24 | 2017-07-04 | 北京航天测控技术有限公司 | 一种面向综合诊断工程的知识获取与管理系统 |
CN106844194A (zh) * | 2016-12-21 | 2017-06-13 | 北京航空航天大学 | 一种多层次软件故障诊断专家系统的构建方法 |
CN110033101A (zh) * | 2019-03-07 | 2019-07-19 | 华中科技大学 | 基于融合特征的知识图谱的水电机组故障诊断方法和系统 |
CN111311059A (zh) * | 2020-01-16 | 2020-06-19 | 成都大汇物联科技有限公司 | 基于知识图谱的水车室故障诊断方法 |
CN111751135A (zh) * | 2020-06-24 | 2020-10-09 | 开滦(集团)有限责任公司电信分公司 | 一种提升机群远程监测监管与智能故障诊断系统 |
CN111737496A (zh) * | 2020-06-29 | 2020-10-02 | 东北电力大学 | 一种电力设备故障知识图谱构建方法 |
CN111950084A (zh) * | 2020-08-11 | 2020-11-17 | 中国民航大学 | 一种面向机载航线维修的航电故障诊断系统的实现方法 |
CN112462736A (zh) * | 2020-11-13 | 2021-03-09 | 华北电力大学 | 一种基于数据分析的风电机组故障诊断方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN113723632A (zh) * | 2021-08-27 | 2021-11-30 | 北京邮电大学 | 一种基于知识图谱的工业设备故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428054B (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
CN114579875B (zh) | 基于知识图谱的设备故障诊断与维修知识推荐系统 | |
CN112612902B (zh) | 一种电网主设备的知识图谱构建方法及设备 | |
CN111967761B (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN110597999A (zh) | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 | |
CN113779272B (zh) | 基于知识图谱的数据处理方法、装置、设备及存储介质 | |
CN109918505B (zh) | 一种基于文本处理的网络安全事件可视化方法 | |
CN111597347A (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN112395424A (zh) | 一种复杂产品质量问题追溯方法及系统 | |
CN112463981A (zh) | 一种基于深度学习的企业内部经营管理风险识别提取方法及系统 | |
CN111737477A (zh) | 一种基于知识产权大数据的情报调查方法、系统和存储介质 | |
CN116384889A (zh) | 基于自然语言处理技术的情报大数据智能分析方法 | |
CN113487211A (zh) | 核电装备质量追溯方法、系统、计算机设备及介质 | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN115794798A (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN114817454A (zh) | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 | |
CN114461784A (zh) | 一种非结构化设备故障知识的分类及知识萃取方法 | |
Tang et al. | Risk minimization based ontology mapping | |
CN115828888A (zh) | 一种针对多种网络日志进行语义解析及结构化的方法 | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 | |
CN114185875A (zh) | 一种基于云计算的大数据统一分析处理系统 | |
CN112084332A (zh) | 一种基于深度双向语言文本处理网络的违章分类方法 | |
Hong | [Retracted] Application of Data Mining in Network Information Dynamic Push Software | |
Feng et al. | Research on the technology of data cleaning in big data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220510 |