CN110781671A - 一种智能ietm故障维修记录文本的知识挖掘方法 - Google Patents

一种智能ietm故障维修记录文本的知识挖掘方法 Download PDF

Info

Publication number
CN110781671A
CN110781671A CN201911034442.7A CN201911034442A CN110781671A CN 110781671 A CN110781671 A CN 110781671A CN 201911034442 A CN201911034442 A CN 201911034442A CN 110781671 A CN110781671 A CN 110781671A
Authority
CN
China
Prior art keywords
fault
word
text
matrix
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911034442.7A
Other languages
English (en)
Other versions
CN110781671B (zh
Inventor
李爱国
张晓云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Science and Technology
Original Assignee
Xian University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Science and Technology filed Critical Xian University of Science and Technology
Priority to CN201911034442.7A priority Critical patent/CN110781671B/zh
Publication of CN110781671A publication Critical patent/CN110781671A/zh
Application granted granted Critical
Publication of CN110781671B publication Critical patent/CN110781671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能IETM故障维修记录文本的知识挖掘方法,包括步骤:一、收集设备故障维修记录文本数据;二、建立设备故障词库;三、获取词项文档矩阵;四、生成主题文档矩阵;五、训练标签特征矩阵;六、构建神经网络;七、设备故障维修记录文本的分类。本发明利用LDA主题模型对词项文档矩阵特征提取,得到标签特征矩阵,提供故障维修记录文本的分类标签,快速对设备故障维修记录文本分类,并且分类结果准确,另外将卷积神经网络中的池化层替换成循环层,卷积神经网络中卷积层具有共享权值的优点、循环层具有解决文本长期依赖关系的问题的优点,为智能IETM平台中故障维修辅助系统提供了充足的知识数据。

Description

一种智能IETM故障维修记录文本的知识挖掘方法
技术领域
本发明属于知识挖掘技术领域,具体涉及一种智能IETM故障维修记录文本的知识挖掘方法。
背景技术
在人机交互技术、大数据技术、虚拟现实技术等技术的不断推动下,传统的IETM(Interaction Electronic Technical Manuel)已经不能满足装备的故障维修和保障工作的需求。智能IETM应具有自动学习的思维逻辑,正确的分析和判断能力,其中知识是不可缺少的组成元素。文本知识挖掘是从包含大量噪声的设备运行状况信息数据中提取有效的知识数据,完成故障诊断知识的获取。知识获取是整个智能IETM故障维修辅助系统的核心,同时也是重点和难点。解决知识获取困难问题,便于完成智能IETM故障维修辅助知识库的建立。
目前,故障维修记录文本信息主要采用自然语言处理技术,针对故障维修记录文本数据本身的特点,将一些通用的文本处理算法应用到设备故障维修记录文本知识挖掘处理领域,主要是对文本预处理和特征提取等一些操作。目前在智能IETM故障维修领域中仍存在对文本处理不足的问题:第一,在设备故障维修文本特征提取过程中,设备故障维修记录是由不同的维护人员记录,会出现文本长短不一致问题,最短文本有可能几个字,最长文本达到几十个字,有相当一部分文本记录数据中存在量词、数字等停用词;第二,在设备故障维修记录文本分类中,存在对文本词汇的词义和语义的关系处理,以及文本上下之间的依赖关系问题的处理不足;经典的文本分类算法无法满足上述问题,因此出现准确率低和故障诊断误差的问题。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种智能IETM故障维修记录文本的知识挖掘方法,利用LDA主题模型对词项文档矩阵特征提取,得到标签特征矩阵,提供故障维修记录文本的分类标签,快速对设备故障维修记录文本分类,并且分类结果准确,另外将卷积神经网络模型中的池化层替换成循环层,卷积神经网络模型中卷积层具有共享权值的优点、循环层具有解决文本长期依赖关系的问题的优点,为智能IETM平台中故障维修辅助系统提供了充足的知识数据,便于推广使用。
为解决上述技术问题,本发明采用的技术方案是:一种智能IETM故障维修记录文本的知识挖掘方法,其特征在于,该方法包括以下步骤:
步骤一、收集设备故障维修记录文本数据:设备数据收集人员通过智能IETM平台对设备故障维修记录文本数据进行采集和记录,故障维修记录文本数据以自然语言的形式记录在设备故障维修记录表中,所述设备故障维修记录表包括故障原因编码、故障原因描述、维修措施和反映问题描述,其中,故障原因编码表示故障原因的唯一标识符号;故障现象描述表示设备运行过程中出现故障时发生的现象描述;故障原因描述表示从故障原因描述中,由本领域专业人员确定故障出现的原因情况;维修措施表示针对当前出现的故障而采取对应维修措施的方案;
步骤二、建立设备故障词库:利用结巴分词工具和哈工大停用词表对收集的设备故障维修记录文本数据进行分词并去噪,在利用人工筛选的方式建立设备故障词库;
步骤三、获取词项文档矩阵:利用词袋假设对设备故障词库中的词项进行分析,并建立设备故障词库中词项的词项文档矩阵;
步骤四、生成主题文档矩阵,过程如下:
步骤401、根据公式
Figure BDA0002251054640000021
计算词项文档矩阵中第i个词项wordi的词频TFi,其中,f(wordi)为表示第i个词项wordi在词项文档矩阵中出现的次数,n表示词项文档矩阵中词项的总数;
步骤402、根据公式计算词项文档矩阵中出现第i个词项wordi的文档频率IDFi,其中,d表示文档,sum(d)表示词项文档矩阵中总的文档数目,N{d,wordi∈d}表示词项文档矩阵中包含第i个词项wordi的文档总数目;
步骤403、根据公式wi=TFi×IDFi,计算词项文档矩阵中第i个词项wordi的权重值wi
步骤404、将词项文档矩阵中n个词项的权重值从高到底进行降序排列,选取权重值排前[0.3n]~[0.4n]的词项作为主题,主题值即为[0.3n]~[0.4n],其中,[·]为取整函数;
步骤405、利用LDA主题模型对词项文档矩阵进行降维与特征提取处理,将文档中词项空间转换为主题空间,生成设备故障维修记录文本的主题文档矩阵;
步骤五、训练标签特征矩阵:利用LDA主题模型对设备故障维修记录表中反映问题描述属性数据进行训练,得到标签特征矩阵,作为文本分类的标签;
步骤六、构建神经网络模型:构建结构依次为输入层、卷积层、循环层、全连接层和输出层的神经网络模型;
其中,采用Word2Vec算法对故障原因描述和反映问题描述对应的文本进行词向量表示,生成设备故障维修记录文本对应的词向量矩阵X1:J=[x1,x2,...,xj,...,xJ]∈RJ×k,其中,J表示输入文本的长度,k表示统计出整个词向量的长度,R表示实数矩阵,xj表示第j个词汇对应的词向量;将词向量矩阵和标签特征矩阵合并,作为神经网络模型的输入层;
神经网络模型的卷积层采用3×1的卷积核,并引入ReLU为激活函数;
神经网络模型的循环层采用GRU结构模型;
神经网络模型的输出层为产生各个故障原因的概率分布;
步骤七、设备故障维修记录文本的分类:分析故障原因描述和反应问题描述之间的映射关系,将表征故障原因描述的词向量输入神经网络模型,神经网络模型输出层多个产生故障原因描述的概率值,选取概率值最大的故障原因描述确定故障原因,实现设备故障维修记录文本的分类。
上述的一种智能IETM故障维修记录文本的知识挖掘方法,其特征在于:所述LDA主题模型包括三层贝叶斯网络词项、文档和主题。
上述的一种智能IETM故障维修记录文本的知识挖掘方法,其特征在于:所述生成设备故障维修记录文本对应的词向量矩阵X1:J=[x1,x2,...,xj,...,xJ]∈RJ×k可表示为
Figure BDA0002251054640000041
其中,
Figure BDA0002251054640000042
为串联算子。
上述的一种智能IETM故障维修记录文本的知识挖掘方法,其特征在于:所述神经网络模型的输出层为Sigmoid函数,所述神经网络模型的输出层中损失函数使用交叉熵函数。
本发明与现有技术相比具有以下优点:
1、本发明通过设备数据收集人员利用智能IETM平台对设备故障维修记录文本数据进行采集和记录,利用LDA主题模型对设备反映问题描述属性进行标签的特征提取,然后通过循环层替换卷积神经网络模型中的池化层,建立一种分类CNN+GRU模型,设备的故障原因描述和反映问题描述之间往往具有一定的因果联系,这种因果关系是设备故障分类的重要依据,采用Word2Vec算法对故障原因描述和反映问题描述对应的文本进行词向量表示,生成设备故障维修记录文本对应的词向量矩阵,并输入分类CNN+GRU模型,分类CNN+GRU模型输出为产生该故障原因的概率,由于反映问题描述作为该模型的标签,这样就可以将故障原因描述和反映问题描述进行相关联,能够提高设备故障维修记录文本的分类的准确率、召回率,该方法有效可行,便于推广使用。
2、本发明不受处理领域的限制,通过LDA主题模型对故障标签特征提取,即是对文本分类实现类别的标签提取,当故障维修文本记录不断增加时,也增加了人工提取分类标签的难度和工作量,分类标签提取不仅可以提高人工提取标签的工作效率,而且还为下一步故障维修记录文本分类提高准确率;通过卷积神经网络模型中的池化层被循环神经网络模型GRU结构模型替换,建立分类CNN+GRU模型进行故障维修记录文本分类,该模型融合了卷积神经网络模型中卷积层的共享权值的优点以及循环网络模型能够解决文本长期依赖关系的问题的优点,使用效果好。
3、本发明方法步骤简单,将表征故障原因描述的词向量输入神经网络模型,神经网络模型输出层多个产生故障原因描述的概率值,选取概率值最大的故障原因描述确定故障原因,实现设备故障维修记录文本的分类,分类结果准确,为智能IETM平台中故障维修辅助系统提供了充足的知识数据,实现简便。
综上所述,本发明利用LDA主题模型对词项文档矩阵特征提取,得到标签特征矩阵,提供故障维修记录文本的分类标签,快速对设备故障维修记录文本分类,并且分类结果准确,另外将卷积神经网络模型中的池化层替换成循环层,卷积神经网络模型中卷积层具有共享权值的优点、循环层具有解决文本长期依赖关系的问题的优点,为智能IETM平台中故障维修辅助系统提供了充足的知识数据,便于推广使用。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明方法的方法流程框图。
具体实施方式
如图1所示,本发明的一种智能IETM故障维修记录文本的知识挖掘方法,包括以下步骤:
步骤一、收集设备故障维修记录文本数据:设备数据收集人员通过智能IETM平台对设备故障维修记录文本数据进行采集和记录,故障维修记录文本数据以自然语言的形式记录在设备故障维修记录表中,所述设备故障维修记录表包括故障原因编码、故障原因描述、维修措施和反映问题描述,其中,故障原因编码表示故障原因的唯一标识符号;故障现象描述表示设备运行过程中出现故障时发生的现象描述;故障原因描述表示从故障原因描述中,由本领域专业人员确定故障出现的原因情况;维修措施表示针对当前出现的故障而采取对应维修措施的方案;
步骤二、建立设备故障词库:利用结巴分词工具和哈工大停用词表对收集的设备故障维修记录文本数据进行分词并去噪,在利用人工筛选的方式建立设备故障词库;
需要说明的是,利用结巴分词工具和哈工大停用词表对收集的设备故障维修记录文本数据进行分词并去噪,对设备故障维修文本记录进行分词,并将一些没有实际意义的词汇删除,该过程需要进行分词处理和停用词过滤,将有实际意义的词汇保留下来。
步骤三、获取词项文档矩阵:利用词袋假设对设备故障词库中的词项进行分析,并建立设备故障词库中词项的词项文档矩阵;
步骤四、生成主题文档矩阵,过程如下:
步骤401、根据公式
Figure BDA0002251054640000061
计算词项文档矩阵中第i个词项wordi的词频TFi,其中,f(wordi)为表示第i个词项wordi在词项文档矩阵中出现的次数,n表示词项文档矩阵中词项的总数;
步骤402、根据公式
Figure BDA0002251054640000062
计算词项文档矩阵中出现第i个词项wordi的文档频率IDFi,其中,d表示文档,sum(d)表示词项文档矩阵中总的文档数目,N{d,wordi∈d}表示词项文档矩阵中包含第i个词项wordi的文档总数目;
需要说明的是,
Figure BDA0002251054640000063
中为了避免分母为零的情况,在对数分式中分母上加1。
步骤403、根据公式wi=TFi×IDFi,计算词项文档矩阵中第i个词项wordi的权重值wi
步骤404、将词项文档矩阵中n个词项的权重值从高到底进行降序排列,选取权重值排前[0.3n]~[0.4n]的词项作为主题,主题值即为[0.3n]~[0.4n],其中,[·]为取整函数;
步骤405、利用LDA主题模型对词项文档矩阵进行降维与特征提取处理,将文档中词项空间转换为主题空间,生成设备故障维修记录文本的主题文档矩阵;
需要说明的是,将词项文档矩阵中n个词项的权重值从高到底进行降序排列,选取其中权重值高的故障现象词汇,权重值主要思想是一个文档中出现某个词的频率越高,则该词对于文本的重要性越高,也表明了该词能够区分不同类别的能力越大;主题值的取值影响文本分类的准确率,当主题值的取值偏小时,文本分类的准确率较差;当主题值的取值偏大时,对故障维修记录文本数据达不到降维和去噪声的目的,因此优选的主题值选取[0.3n]~[0.4n]。
步骤五、训练标签特征矩阵:利用LDA主题模型对设备故障维修记录表中反映问题描述属性数据进行训练,得到标签特征矩阵,作为文本分类的标签;
需要说明的是,通过设备数据收集人员利用智能IETM平台对设备故障维修记录文本数据进行采集和记录,利用LDA主题模型对设备反映问题描述属性进行标签的特征提取,LDA主题模型不仅是词与词之间的相关性,而且是相邻词汇之间构成上下文信息关系,故障标签特征提取是对文本分类实现类别的标签提取,当故障维修文本记录的不断增加时,也增加了人工提取分类标签的难度和工作量,因此标签特征提取部分为下一步故障维修记录文本分类提供基础,然后通过循环层替换卷积神经网络模型中的池化层,建立一种分类CNN+GRU模型,设备的故障原因描述和反映问题描述之间往往具有一定的因果联系,这种因果关系是设备故障分类的重要依据,采用Word2Vec算法对故障原因描述和反映问题描述对应的文本进行词向量表示,生成设备故障维修记录文本对应的词向量矩阵,并输入分类CNN+GRU模型,分类CNN+GRU模型输出为产生该故障原因的概率,由于反映问题描述作为该模型的标签,这样就可以将故障原因描述和反映问题描述进行相关联,能够提高设备故障维修记录文本的分类的准确率、召回率,该方法有效可行。
步骤六、构建神经网络模型:构建结构依次为输入层、卷积层、循环层、全连接层和输出层的神经网络模型;
其中,采用Word2Vec算法对故障原因描述和反映问题描述对应的文本进行词向量表示,生成设备故障维修记录文本对应的词向量矩阵X1:J=[x1,x2,...,xj,...,xJ]∈RJ×k,其中,J表示输入文本的长度,k表示统计出整个词向量的长度,R表示实数矩阵,xj表示第j个词汇对应的词向量;将词向量矩阵和标签特征矩阵合并,作为神经网络模型的输入层;
需要说明的是,词向量矩阵是将文本转化为数学模型便于计算机进行操作,采用Word2Vec算法对故障原因描述和反映问题描述对应的文本进行词向量表示将文本转换成数值的特征向量,从中进行提取文本的语义和句法信息,避免了One-hot编码在表示词向量中出现特征维度过高和数据稀疏问题,而且可以根据词与词之间的位置关系反映在语义上的联系,便于计算机进行处理。
神经网络模型的卷积层采用3×1的卷积核,并引入ReLU为激活函数,能够有效地改善深度学习网络的学习效率,并且能够减少深度学习网络中收敛迭代次数;
神经网络模型的循环层采用GRU结构模型,GRU结构模型用于处理序列数据,解决文本长期依赖关系的问题,利用GRU结构模型处理,该结构主要简化了节点状态和门单元设计,从而减少了模型的参数,使每个循环单元自适应捕获不同时间尺度的依赖关系;
神经网络模型的输出层为产生各个故障原因的概率分布;
需要说明的是,不受处理领域的限制,通过LDA主题模型对故障标签特征提取,即是对文本分类实现类别的标签提取,当故障维修文本记录不断增加时,也增加了人工提取分类标签的难度和工作量,分类标签提取不仅可以提高人工提取标签的工作效率,而且还为下一步故障维修记录文本分类提高准确率;通过卷积神经网络模型中的池化层被循环神经网络模型GRU结构模型替换,建立分类CNN+GRU模型进行故障维修记录文本分类,该模型融合了卷积神经网络模型中卷积层的共享权值的优点以及循环网络模型能够解决文本长期依赖关系的问题的优点,使用效果好。
步骤七、设备故障维修记录文本的分类:分析故障原因描述和反应问题描述之间的映射关系,将表征故障原因描述的词向量输入神经网络模型,神经网络模型输出层多个产生故障原因描述的概率值,选取概率值最大的故障原因描述确定故障原因,实现设备故障维修记录文本的分类,分类结果准确,为智能IETM平台中故障维修辅助系统提供了充足的知识数据,实现简便。
本实施例中,所述LDA主题模型包括三层贝叶斯网络词项、文档和主题。
本实施例中,所述生成设备故障维修记录文本对应的词向量矩阵X1:J=[x1,x2,...,xj,...,xJ]∈RJ×k可表示为
Figure BDA0002251054640000091
其中,
Figure BDA0002251054640000092
为串联算子。
本实施例中,所述神经网络模型的输出层为Sigmoid函数,所述神经网络模型的输出层中损失函数使用交叉熵函数。
本发明利用LDA主题模型对词项文档矩阵特征提取,得到标签特征矩阵,提供故障维修记录文本的分类标签,快速对设备故障维修记录文本分类,并且分类结果准确,另外将卷积神经网络模型中的池化层替换成循环层,卷积神经网络模型中卷积层具有共享权值的优点、循环层具有解决文本长期依赖关系的问题的优点,为智能IETM平台中故障维修辅助系统提供了充足的知识数据。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

Claims (4)

1.一种智能IETM故障维修记录文本的知识挖掘方法,其特征在于,该方法包括以下步骤:
步骤一、收集设备故障维修记录文本数据:设备数据收集人员通过智能IETM平台对设备故障维修记录文本数据进行采集和记录,故障维修记录文本数据以自然语言的形式记录在设备故障维修记录表中,所述设备故障维修记录表包括故障原因编码、故障原因描述、维修措施和反映问题描述,其中,故障原因编码表示故障原因的唯一标识符号;故障现象描述表示设备运行过程中出现故障时发生的现象描述;故障原因描述表示从故障原因描述中,由本领域专业人员确定故障出现的原因情况;维修措施表示针对当前出现的故障而采取对应维修措施的方案;
步骤二、建立设备故障词库:利用结巴分词工具和哈工大停用词表对收集的设备故障维修记录文本数据进行分词并去噪,在利用人工筛选的方式建立设备故障词库;
步骤三、获取词项文档矩阵:利用词袋假设对设备故障词库中的词项进行分析,并建立设备故障词库中词项的词项文档矩阵;
步骤四、生成主题文档矩阵,过程如下:
步骤401、根据公式
Figure FDA0002251054630000011
计算词项文档矩阵中第i个词项wordi的词频TFi,其中,f(wordi)为表示第i个词项wordi在词项文档矩阵中出现的次数,n表示词项文档矩阵中词项的总数;
步骤402、根据公式
Figure FDA0002251054630000012
计算词项文档矩阵中出现第i个词项wordi的文档频率IDFi,其中,d表示文档,sum(d)表示词项文档矩阵中总的文档数目,N{d,wordi∈d}表示词项文档矩阵中包含第i个词项wordi的文档总数目;
步骤403、根据公式wi=TFi×IDFi,计算词项文档矩阵中第i个词项wordi的权重值wi
步骤404、将词项文档矩阵中n个词项的权重值从高到底进行降序排列,选取权重值排前[0.3n]~[0.4n]的词项作为主题,主题值即为[0.3n]~[0.4n],其中,[·]为取整函数;
步骤405、利用LDA主题模型对词项文档矩阵进行降维与特征提取处理,将文档中词项空间转换为主题空间,生成设备故障维修记录文本的主题文档矩阵;
步骤五、训练标签特征矩阵:利用LDA主题模型对设备故障维修记录表中反映问题描述属性数据进行训练,得到标签特征矩阵,作为文本分类的标签;
步骤六、构建神经网络模型:构建结构依次为输入层、卷积层、循环层、全连接层和输出层的神经网络模型;
其中,采用Word2Vec算法对故障原因描述和反映问题描述对应的文本进行词向量表示,生成设备故障维修记录文本对应的词向量矩阵X1:J=[x1,x2,...,xj,...,xJ]∈RJ×k,其中,J表示输入文本的长度,k表示统计出整个词向量的长度,R表示实数矩阵,xj表示第j个词汇对应的词向量;将词向量矩阵和标签特征矩阵合并,作为神经网络模型的输入层;
神经网络模型的卷积层采用3×1的卷积核,并引入ReLU为激活函数;
神经网络模型的循环层采用GRU结构模型;
神经网络模型的输出层为产生各个故障原因的概率分布;
步骤七、设备故障维修记录文本的分类:分析故障原因描述和反应问题描述之间的映射关系,将表征故障原因描述的词向量输入神经网络模型,神经网络模型输出层多个产生故障原因描述的概率值,选取概率值最大的故障原因描述确定故障原因,实现设备故障维修记录文本的分类。
2.按照权利要求1所述的一种智能IETM故障维修记录文本的知识挖掘方法,其特征在于:所述LDA主题模型包括三层贝叶斯网络词项、文档和主题。
3.按照权利要求1所述的一种智能IETM故障维修记录文本的知识挖掘方法,其特征在于:所述生成设备故障维修记录文本对应的词向量矩阵X1:J=[x1,x2,...,xj,...,xJ]∈RJ×k可表示为
Figure FDA0002251054630000031
其中,
Figure FDA0002251054630000032
为串联算子。
4.按照权利要求1所述的一种智能IETM故障维修记录文本的知识挖掘方法,其特征在于:所述神经网络模型的输出层为Sigmoid函数,所述神经网络模型的输出层中损失函数使用交叉熵函数。
CN201911034442.7A 2019-10-29 2019-10-29 一种智能ietm故障维修记录文本的知识挖掘方法 Active CN110781671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911034442.7A CN110781671B (zh) 2019-10-29 2019-10-29 一种智能ietm故障维修记录文本的知识挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911034442.7A CN110781671B (zh) 2019-10-29 2019-10-29 一种智能ietm故障维修记录文本的知识挖掘方法

Publications (2)

Publication Number Publication Date
CN110781671A true CN110781671A (zh) 2020-02-11
CN110781671B CN110781671B (zh) 2023-02-14

Family

ID=69387129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911034442.7A Active CN110781671B (zh) 2019-10-29 2019-10-29 一种智能ietm故障维修记录文本的知识挖掘方法

Country Status (1)

Country Link
CN (1) CN110781671B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309933A (zh) * 2020-02-13 2020-06-19 中国科学院自动化研究所 文化资源数据自动标注系统
CN111427934A (zh) * 2020-04-26 2020-07-17 北京工业大数据创新中心有限公司 一种异常事件及其上下文事件的关联挖掘方法及系统
CN111459131A (zh) * 2020-03-04 2020-07-28 辽宁工程技术大学 一种故障过程因果关系文本转化为符号序列的方法
CN111881259A (zh) * 2020-07-30 2020-11-03 贵州电网有限责任公司 一种基于文本挖掘的设备故障概率评估方法及系统
CN112183994A (zh) * 2020-09-23 2021-01-05 南方电网数字电网研究院有限公司 一种设备状态的评估方法、装置、计算机设备和存储介质
CN112307218A (zh) * 2020-10-21 2021-02-02 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN113515402A (zh) * 2021-06-08 2021-10-19 中联重科股份有限公司 用于工程设备的故障信息分类方法、装置及工程设备
CN113704073A (zh) * 2021-09-02 2021-11-26 交通运输部公路科学研究所 一种汽车维修记录库异常数据的检测方法
CN113759865A (zh) * 2021-04-23 2021-12-07 通辽霍林河坑口发电有限责任公司 一种具有辅助分析功能的故障判断系统
CN114972869A (zh) * 2022-05-30 2022-08-30 西北工业大学 一种基于反事实因果学习的红外微弱目标检测方法
CN117332777A (zh) * 2023-09-21 2024-01-02 广东省交通开发有限公司 一种充电桩故障的统计分析方法
CN112000791B (zh) * 2020-08-26 2024-02-02 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021679A (zh) * 2017-12-07 2018-05-11 国网山东省电力公司电力科学研究院 一种并行化的电力设备缺陷文本分类方法
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021679A (zh) * 2017-12-07 2018-05-11 国网山东省电力公司电力科学研究院 一种并行化的电力设备缺陷文本分类方法
WO2019153551A1 (zh) * 2018-02-12 2019-08-15 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张小川等: "融合CNN和LDA的短文本分类研究", 《软件工程》 *
陈亮等: "并行LDA主题模型在电力客服工单文本挖掘中的应用", 《科技创新导报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309933A (zh) * 2020-02-13 2020-06-19 中国科学院自动化研究所 文化资源数据自动标注系统
CN111309933B (zh) * 2020-02-13 2023-11-10 中国科学院自动化研究所 文化资源数据自动标注系统
CN111459131B (zh) * 2020-03-04 2023-01-24 辽宁工程技术大学 一种故障过程因果关系文本转化为符号序列的方法
CN111459131A (zh) * 2020-03-04 2020-07-28 辽宁工程技术大学 一种故障过程因果关系文本转化为符号序列的方法
CN111427934A (zh) * 2020-04-26 2020-07-17 北京工业大数据创新中心有限公司 一种异常事件及其上下文事件的关联挖掘方法及系统
CN111881259A (zh) * 2020-07-30 2020-11-03 贵州电网有限责任公司 一种基于文本挖掘的设备故障概率评估方法及系统
CN111881259B (zh) * 2020-07-30 2023-06-20 贵州电网有限责任公司 一种基于文本挖掘的设备故障概率评估方法及系统
CN112000791B (zh) * 2020-08-26 2024-02-02 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法
CN112183994A (zh) * 2020-09-23 2021-01-05 南方电网数字电网研究院有限公司 一种设备状态的评估方法、装置、计算机设备和存储介质
CN112307218B (zh) * 2020-10-21 2022-08-05 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN112307218A (zh) * 2020-10-21 2021-02-02 浙江大学 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN113759865A (zh) * 2021-04-23 2021-12-07 通辽霍林河坑口发电有限责任公司 一种具有辅助分析功能的故障判断系统
CN113515402A (zh) * 2021-06-08 2021-10-19 中联重科股份有限公司 用于工程设备的故障信息分类方法、装置及工程设备
CN113704073A (zh) * 2021-09-02 2021-11-26 交通运输部公路科学研究所 一种汽车维修记录库异常数据的检测方法
CN113704073B (zh) * 2021-09-02 2024-06-04 交通运输部公路科学研究所 一种汽车维修记录库异常数据的检测方法
CN114972869A (zh) * 2022-05-30 2022-08-30 西北工业大学 一种基于反事实因果学习的红外微弱目标检测方法
CN114972869B (zh) * 2022-05-30 2024-02-20 西北工业大学 一种基于反事实因果学习的红外微弱目标检测方法
CN117332777A (zh) * 2023-09-21 2024-01-02 广东省交通开发有限公司 一种充电桩故障的统计分析方法

Also Published As

Publication number Publication date
CN110781671B (zh) 2023-02-14

Similar Documents

Publication Publication Date Title
CN110781671B (zh) 一种智能ietm故障维修记录文本的知识挖掘方法
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN110633366B (zh) 一种短文本分类方法、装置和存储介质
CN108073568A (zh) 关键词提取方法和装置
CN111159407A (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN111858842A (zh) 一种基于lda主题模型的司法案例筛选方法
CN114881043B (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN112507124A (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN113065356A (zh) 一种基于语义分析算法的it设备运维故障建议处理方法
CN117235243A (zh) 民用机场大语言模型训练优化方法及综合服务平台
CN112989058B (zh) 信息分类方法、试题分类方法、设备、服务器和存储介质
CN113378024B (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN113722494A (zh) 一种基于自然语言理解的设备故障定位方法
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN113065352B (zh) 一种电网调度工作文本的操作内容识别方法
Shirzad et al. Deep Learning approach for text, image, and GIF multimodal sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant