CN107391727A - 设备故障序列模式的挖掘方法及装置 - Google Patents
设备故障序列模式的挖掘方法及装置 Download PDFInfo
- Publication number
- CN107391727A CN107391727A CN201710648158.3A CN201710648158A CN107391727A CN 107391727 A CN107391727 A CN 107391727A CN 201710648158 A CN201710648158 A CN 201710648158A CN 107391727 A CN107391727 A CN 107391727A
- Authority
- CN
- China
- Prior art keywords
- failure
- text
- word
- failure text
- idf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种设备故障序列模式的挖掘方法及装置,涉及设备故障维修技术领域,该方法包括:获取故障文本的相似度矩阵,其中,故障文本包括多条故障文本,故障文本为用于描述至少一个设备的故障信息的文本,相似度矩阵中包括任意两个故障文本之间的相似度;基于相似度矩阵在故障文本中提取频繁项目集;在频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集,缓解现有的序列模式挖掘算法无法在非结构化的故障信息中提取有效序列模式的技术问题。
Description
技术领域
本发明涉及设备故障维修领域,尤其是涉及一种设备故障序列模式的挖掘方法及装置。
背景技术
在存储格式上,设备的故障历史信息多以表格的形式进行储存。每行记录着一次设备故障信息,由日期、设备号、故障件型号、故障件名称、故障件编号、故障详细情况、处理结果等列记录模块组成,具有一定的结构化特征,其中,故障详细情况列记录是非结构化的文本描述。不同故障报告方所记录的故障详细情况的文本描述因人而异,呈现非结构化特征。
因此,如何从这些设备故障半结构化文本资料中提取有效信息,实现设备故障序列模式的挖掘,为预防性维修决策提供指导成为亟待解决的技术问题。
由于故障文本信息的非结构化特性,现有的序列模式挖掘算法不适用于这种情况。针对上述问题,还未提出有效解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种设备故障序列模式的挖掘方法及装置,以缓解现有的序列模式挖掘算法无法在非结构化的故障信息中提取有效序列模式的技术问题。
第一方面,本发明实施例提供了一种设备故障序列模式的挖掘方法,包括:获取故障文本的相似度矩阵,其中,所述故障文本包括多条故障文本,所述故障文本为用于描述至少一个设备的故障信息的文本,所述相似度矩阵中包括任意两个故障文本之间的相似度;基于所述相似度矩阵在所述故障文本中提取频繁项目集;在所述频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。
进一步地,获取故障文本的相似度矩阵包括:获取待处理的所述故障文本;对所述故障文本进行分词处理;利用向量空间模型对执行所述分词处理之后的所述故障文本进行格式转化,转化成采用向量空间模型方法所表示的中间故障文本;基于所述中间故障文本构建TF-IDF模型,其中,所述TF-IDF模型中包括所述中间故障文本中每个词语的TF-IDF值;基于所述TF-IDF模型确定所述相似度矩阵。
进一步地,基于所述中间故障文本构建TF-IDF模型包括:基于所述中间故障文本统计所述故障文本中每个词语的词频,其中,所述词频表示所述词语在所述故障文本中出现的次数;基于所述中间故障文本计算所述故障文本中每个词语的逆文档频率;结合所述词频和逆文档频率计算每个词语的TF-IDF值;基于所述每个词语的TF-IDF值构建所述TF-IDF模型。
进一步地,基于所述中间故障文本计算所述故障文本中每个词语的逆文档频率包括:通过公式计算词语ti的所述逆文档频率,其中,所述|D|表示所述故障文本中的文本数量,dj为所述故障文本中表示包含所述词语ti的文本,idfi为所述词语ti的所述逆文档频率。
进一步地,基于所述每个词语的TF-IDF值构建所述TF-IDF模型包括:通过公式tfidfi,j=tfi,j×idfi计算所述词语ti的TF-IDF值,其中,tfidfi,j为所述词语ti的TF-IDF值,tfi,j为所述词语ti的词频;通过公式对所述词语ti的TF-IDF值进行归一化处理,得到处理之后的TF-IDF值。
进一步地,所述相似度矩阵包括多个行向量,基于所述相似度矩阵在所述故障文本中提取频繁项目集包括:统计行向量Ak中相似度值大于或者等于第一阈值的数量,k依次取1至N,N为所述故障文本的数量;判断数量是否大于或者等于第二阈值;如果判断出是,则将所述行向量Ak所对应的故障文本作为所述频繁项目集中的一个元素。
进一步地,在所述频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集包括:统计目标故障序列模式的支持度和共现度,其中,所述支持度用于表示所述故障序列模式在全部设备中发生的总次数,所述共现度用于表示所述故障序列模式在多少台设备中发生过,所述故障序列模式表示发生第一条故障之后发生第二条故障,所述第一条故障和所述第二条故障为所述频繁项目集中的任意两条故障;在所述支持度大于第三阈值,且所述共现度大于第四阈值的情况下,将所述故障序列模式作为所述目标故障序列模式集中的元素。
第二方面,本发明实施例还提供一种设备故障序列模式的挖掘装置,包括:获取单元,用于获取故障文本的相似度矩阵,其中,所述故障文本包括多条故障文本,所述故障文本为用于描述至少一个设备的故障信息的文本,所述相似度矩阵中包括任意两个故障文本之间的相似度;提取单元,用于基于所述相似度矩阵在所述故障文本中提取频繁项目集;挖掘单元,用于在所述频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。
进一步地,获取单元包括:获取模块,用于获取待处理的所述故障文本;分词模块,用于对所述故障文本进行分词处理;转化模块,用于利用向量空间模型对执行所述分词处理之后的所述故障文本进行格式转化,转化成采用向量空间模型方法所表示的中间故障文本;构建模块,用于基于所述中间故障文本构建TF-IDF模型,其中,所述TF-IDF模型中包括所述中间故障文本中每个词语的TF-IDF值;第一确定模块,用于基于所述TF-IDF模型确定所述相似度矩阵。
进一步地,所述构建模块用于:基于所述中间故障文本统计所述故障文本中每个词语的词频,其中,所述词频表示所述词语在所述故障文本中出现的次数;基于所述中间故障文本计算所述故障文本中每个词语的逆文档频率;结合所述词频和逆文档频率计算每个词语的TF-IDF值;基于所述每个词语的TF-IDF值构建所述TF-IDF模型。
在本发明实施例中,首先获取故障文本的相似度矩阵,其中,故障文本包括多条故障文本,故障文本为用于描述至少一个设备的故障信息的文本,相似度矩阵中包括任意两个故障文本之间的相似度;然后,基于相似度矩阵在故障文本中提取频繁项目集;最后,在频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。本发明在对非结构化的故障文本信息进行文本相似度的衡量的基础上,定义故障序列模式挖掘的算法框架,实现从故障文本信息中挖掘序列模式的需求,对使用过程中所记录数据进行有效利用,为设备维修和保障工作提供指导,进而缓解了现有的序列模式挖掘算法无法在非结构化的故障信息中提取有效序列模式的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种设备故障序列模式的挖掘方法的流程图;
图2是根据本发明实施例的一种设备故障序列模式的挖掘方法的示意图;
图3是根据本发明实施例的一种设备故障序列模式的挖掘装置的示意图;
图4是根据本发明实施例的一种设备故障序列模式的挖掘装置中获取单元的示意图;
图5是根据本发明实施例的一种设备故障序列模式的挖掘装置中提取单元的示意图;
图6是根据本发明实施例的一种设备故障序列模式的挖掘装置中挖掘单元的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
根据本发明实施例,提供了一种设备故障序列模式的挖掘方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种设备故障序列模式的挖掘方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取故障文本的相似度矩阵,其中,故障文本包括多条故障文本,故障文本为用于描述至少一个设备的故障信息的文本,相似度矩阵中包括任意两个故障文本之间的相似度;
步骤S104,基于相似度矩阵在故障文本中提取频繁项目集;
步骤S106,在频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。
在本发明实施例中,首先获取故障文本的相似度矩阵,其中,故障文本包括多条故障文本,故障文本为用于描述至少一个设备的故障信息的文本,相似度矩阵中包括任意两个故障文本之间的相似度;然后,基于相似度矩阵在故障文本中提取频繁项目集;最后,在频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。本发明在对非结构化的故障文本信息进行文本相似度的衡量的基础上,定义故障序列模式挖掘的算法框架,实现从故障文本信息中挖掘序列模式的需求,对使用过程中所记录数据进行有效利用,为设备维修和保障工作提供指导,进而缓解了现有的序列模式挖掘算法无法在非结构化的故障信息中提取有效序列模式的技术问题。
在一个实施例中,上述步骤S102,即,获取故障文本的相似度矩阵包括如下步骤:
步骤S1021,获取待处理的故障文本;
步骤S1022,对故障文本进行分词处理;
步骤S1023,利用向量空间模型对执行分词处理之后的故障文本进行格式转化,转化成采用向量空间模型方法所表示的中间故障文本;
步骤S1024,基于中间故障文本构建TF-IDF模型,其中,TF-IDF模型中包括中间故障文本中每个词语的TF-IDF值;
步骤S1025,基于TF-IDF模型确定相似度矩阵。
在本发明实施例中,故障文本中包括至少一台设备的故障情况的文本描述,例如,第1台设备的各次故障情况的文本描述,第2台设备的各次故障情况的文本描述,以及第3台设备的各次故障情况的文本描述等等。
具体地,首先对故障文本进行分词处理,然后利用向量空间模型表示方法将其转化为计算机可以识别的结构化信息(即,中间故障文本),接下来,基于该可以识别的结构化信息构建TF-IDF模型,其中,TF-IDF模型又可以称为词频-逆文档频率模型;最后,根据TF-IDF模型计算故障文本的余弦相似度,从而得到故障文本描述的相似度矩阵sim_matrix。
需要说明的是,在TF-IDF模型里,词频(term frequency,简称tf)指在一条给定的文本中某一个给定的词语在该文本中出现的次数。对于在文本dj中的词语ti来说,它的词频tfi,j即该词在文本dj中出现的次数。
在一个实施例中,步骤S1024,基于中间故障文本构建TF-IDF模型包括如下步骤:
步骤S11,基于中间故障文本统计故障文本中每个词语的词频,其中,词频表示词语在故障文本中出现的次数;
例如,第1台设备中故障文本描述为:2发滑油散热器蜂窝孔渗油,该故障文本经过分词处理之后得到以下词语:2,发滑油,散热器,蜂窝,孔,渗油。如果中间故障文本中包括20条文本,那么就需要统计“2,发滑油,散热器,蜂窝,孔,渗油”中的每个词语在中间故障文本中出现的次数,并将该次数作为该词语的词频。
步骤S12,基于中间故障文本计算故障文本中每个词语的逆文档频率;
具体地,可以通过公式计算词语ti的逆文档频率,其中,|D|表示故障文本中的文本数量,dj为故障文本中表示包含词语ti的文本,idfi为词语ti的逆文档频率。|{j:ti∈dj}|表示包含词语ti的文本总数(即tfi,j≠0的文本数目)。
步骤S13,结合词频和逆文档频率计算每个词语的TF-IDF值;
具体地,可以通过公式tfidfi,j=tfi,j×idfi计算每个词语的TF-IDF值,其中,tfidfi,j为词语ti的TF-IDF值,tfi,j为词语ti的词频。然后,通过公式对词语ti的TF-IDF值进行归一化处理,得到处理之后的TF-IDF值。
步骤S14,基于每个词语的TF-IDF值构建TF-IDF模型。
在基于TF-IDF模型确定相似度矩阵的过程中,可以通过测量两个向量的夹角的余弦值来度量它们之间的相似性。计算公式如下:
其中,这里Ai和Bi分别代表向量A和B的各分量。其中,各分量表示为TF-IDF模型中每条故障文本中每个词语的TF-IDF值分量。当衡量文本相似度时,由于TF-IDF值不能为负数,因此两条文本的余弦相似度范围从0到1。
在确定出相似度矩阵之后,就可以基于该相似度矩阵在故障文本中提取频繁项目集。如果相似度矩阵包括多个行向量,那么基于相似度矩阵在故障文本中提取频繁项目集包括如下步骤:
步骤S1041,统计行向量Ak中相似度值大于或者等于第一阈值的数量,k依次取1至N,N为故障文本的数量;
步骤S1042,判断数量是否大于或者等于第二阈值;
步骤S1043,如果判断出是,则将行向量Ak所对应的故障文本作为频繁项目集中的一个元素。
具体地,利用步骤S102中计算得到的相似度矩阵,参考最小相似度阈值min_sim(即,上述第一阈值),得到项目的相似集合,然后与最小频繁度阈值min_freq(即,第二阈值)进行比较,得到频繁项目集。
计算的过程如下面伪代码所示:
在确定出频繁项目集之后,就可以在频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集,具体过程包括如下步骤:
步骤S1061,统计故障序列模式的支持度和共现度,其中,支持度用于表示故障序列模式在全部设备中发生的总次数,共现度用于表示故障序列模式在多少台设备中发生过,故障序列模式表示发生第一条故障之后发生第二条故障,第一条故障和第二条故障为频繁项目集中任意两条故障。
具体地,如果频繁项目集中包括多条故障文本,那么故障序列模式可以表示为第p条故障文本所对应的故障发生后,发生第q条故障文本所对应的故障,表示为:p→q。此时,就可以确定故障序列模式p→q在全部设备中的发生次数(即,支持度),以及确定故障序列模式p→q在多少台设备中发生过(即,共现度)。
步骤S1062,在支持度大于第三阈值,且共现度大于第四阈值的情况下,将故障序列模式作为目标故障序列模式集中的元素。
在步骤S104中所得到的频繁项目集的基础上,进行故障序列模式的挖掘。考虑事件的先后次序和两事件发生相隔的最大事件窗口阈值max_win来挖掘序列模式,使得序列模式满足最小支持度阈值min_sup(即,第三阈值)和设备最小共现度阈值min_occ(即,第四阈值),保证挖掘出来的序列模式具有有效性和普遍性。
计算的过程如下面伪代码所示:
其中,|D|表示故障文本数据库中故障文本描述的数量;R表示设备对象的集合;|R|表示设备对象的数量;i表示第i条故障文本描述;r表示第r台设备;freq(i)表示第i条故障文本描述的频繁度;L表示频繁项目集;p→q表示故障序列模式(发生第p条故障后发生第q条故障);表示第r台设备的故障序列模式(发生第p条故障后发生第q条故障);sup(p→q)表示故障序列模式p→q的支持度;occ(p→q)表示故障序列模式p→q的共现度;S表示故障序列模式集合。
综上,本发明提供的方法有两点优点:
(1)传统的序列模式挖掘方法将对象视为完全分辨的,即两个对象之间的关系只有相同和不同两种,当对象为非结构化的故障情况文本描述时,由于自然语言的特性,不同个体对同一件事情的描述可能有所差别,频繁项目很少,进而难以找出故障序列模式。本发明实施例提供的方法在做故障序列模式挖掘之前,先对故障文本描述进行了相似度的衡量,以更好的完成故障序列模式的挖掘。
(2)本发明实施例提供的方法在故障序列模式挖掘过程中定义了最大事件窗口阈值和最小共现度阈值,其中,最大事件窗口阈值避免了挖掘出来的故障序列模式中事件之间相隔过多,对预防性维修指导性不够的情况,最小共现度阈值避免了挖掘出来的故障序列模式只在小部分设备中频繁发生,不具有普遍性的情况。本发明实施例提供的方法在此基础上定义了故障序列模式挖掘的算法框架。
下面以具体的案例说明本发明实施例提供的方法的具体实施方式。如表1所示的即为故障文本,在该故障文本中包括:有3台设备共计20条故障情况文本描述,其中,第1台设备和第2台设备分别有7条故障情况文本描述,第3台设备有6条故障情况文本描述,需要在其中找出故障序列模式。对应设备ID和故障序号在表1列出:
表1
结合上述案例,本发明实施例提供的方法的具体实施步骤如下:
步骤一、计算故障文本描述的相似度矩阵
使用工具对故障文本进行分词处理,分词处理结果如表2所示:
表2
利用向量空间模型表示方法将其转化为计算机可以识别的结构化信息(即,上述中间故障文本),如表3所示。具体地,可以把表2中的分好的词按照词典形式按顺序进行记录。例如,表2中文本序号1所示的分词结果。从0开始记录,即该分词结果中“2”表示为“0”,分词结果“发滑油”表示为“1”。在如表3所示的文本序号为1的向量空间模型表示中,(1,1)中第一个数字“1”表示“发滑油”在词典中的位置,第二个数字“1”表示“发滑油”出现的次数,这里是1次,即为数字1。
表3
利用表3所示的向量空间模型表示形式计算TF-IDF值进行计算,得到的TF-IDF模型,TF-IDF模型如表4所示。
表4
可以得到20×20的故障文本描述的相似度矩阵,如下所示:
步骤二、找出频繁项目集
设定最小相似度阈值min_sim=0.6,最小频繁度阈值min_freq=3,利用伪代码程序计算可以得到频繁项目集文本序号为[1,2,5,7,8,10,11,13,15,16,17,19],具体地,找出的频繁项目集的结果如表5所示。
表5
步骤三、故障序列模式挖掘
设定最大事件窗口阈值max_win=4,最小支持度阈值min_sup=4,设备最小共现度阈值min_occ=2,利用伪代码程序计算可以得到挖掘出故障序列模式,结果如表6所示。
表6
满足阈值的序列模式共有3组,均为{“4发滑油散热器蜂窝结构漏油”→“2发滑油散热器蜂窝孔渗油”},根据序列模式支持度和共现度的结果来看,在该算法框架下每组序列模式共发生4次,在2台设备上出现过。根据结果来看,在设备的维修保障过程中,如果有发动机的滑油散热器发生漏油或渗油等问题,各个发动机的滑油散热器都应该去做检查。
综上各实施例提供的设备故障序列模式的挖掘方法,为了直观理解上述过程,以图2所示的设备故障序列模式的挖掘方法的示意图为例进行说明,该方法主要包括:计算故障文本描述的相似度矩阵,基于相似度矩阵产生频繁项目集,基于频繁项目集挖掘故障序列模式集。其中,计算故障文本描述的相似度矩阵包括对故障文本进行分词处理,采用向量空间模型对分词处理之后的相似度矩阵进行变换,计算TF-IDF模型,基于TF-IDF模型计算余弦相似度矩阵,具体实现过程如上,这里不再赘述。
实施例二:
本发明实施例还提供了一种设备故障序列模式的挖掘装置,该设备故障序列模式的挖掘装置主要用于执行本发明实施例上述内容所提供的设备故障序列模式的挖掘方法,以下对本发明实施例提供的设备故障序列模式的挖掘装置做具体介绍。
图3是根据本发明实施例的一种设备故障序列模式的挖掘装置的示意图,如图3所示,该设备故障序列模式的挖掘装置主要包括:获取单元31,提取单元32和挖掘单元33,其中:
获取单元31,用于获取故障文本的相似度矩阵,其中,故障文本包括多条故障文本,故障文本为用于描述至少一个设备的故障信息的文本,相似度矩阵中包括任意两个故障文本之间的相似度;
提取单元32,用于基于相似度矩阵在故障文本中提取频繁项目集;
挖掘单元33,用于在频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。
在本发明实施例中,首先获取故障文本的相似度矩阵,其中,故障文本包括多条故障文本,故障文本为用于描述至少一个设备的故障信息的文本,相似度矩阵中包括任意两个故障文本之间的相似度;然后,基于相似度矩阵在故障文本中提取频繁项目集;最后,在频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。本发明在对非结构化的故障文本信息进行文本相似度的衡量的基础上,定义故障序列模式挖掘的算法框架,实现从故障文本信息中挖掘序列模式的需求,对使用过程中所记录数据进行有效利用,为设备维修和保障工作提供指导,进而缓解了现有的序列模式挖掘算法无法在非结构化的故障信息中提取有效序列模式的技术问题。
可选地,如图4所示,获取单元包括:获取模块41,用于获取待处理的故障文本;分词模块42,用于对故障文本进行分词处理;转化模块43,用于利用向量空间模型对执行分词处理之后的故障文本进行格式转化,转化成采用向量空间模型方法所表示的中间故障文本;构建模块44,用于基于中间故障文本构建TF-IDF模型,其中,TF-IDF模型中包括中间故障文本中每个词语的TF-IDF值;第一确定模块45,用于基于TF-IDF模型确定相似度矩阵。
可选地,构建模块44用于:基于中间故障文本统计故障文本中每个词语的词频,其中,词频表示词语在故障文本中出现的次数;基于中间故障文本计算故障文本中每个词语的逆文档频率;结合词频和逆文档频率计算每个词语的TF-IDF值;基于每个词语的TF-IDF值构建TF-IDF模型。
可选地,构建模块44还用于:通过公式计算词语ti的逆文档频率,其中,|D|表示故障文本中的文本数量,dj为故障文本中表示包含词语ti的文本,idfi为词语ti的逆文档频率。
可选地,构建模块44还用于:通过公式tfidfi,j=tfi,j×idfi计算词语ti的TF-IDF值,其中,tfidfi,j为词语ti的TF-IDF值,tfi,j为词语ti的词频;通过公式对词语ti的TF-IDF值进行归一化处理,得到处理之后的TF-IDF值。
可选地,在相似度矩阵包括多个行向量的情况下,如图5所示,提取单元32包括:第一统计模块51,用于统计行向量Ak中相似度值大于或者等于第一阈值的数量,k依次取1至N,N为故障文本的数量;判断模块52,用于判断数量是否大于或者等于第二阈值;第二确定模块53,用于在判断出是的情况下,将行向量Ak所对应的故障文本作为频繁项目集中的一个元素。
可选地,如图6所示,挖掘单元33包括:第二统计模块61,用于统计故障序列模式的支持度和共现度,其中,支持度用于表示所述故障序列模式在全部设备中发生的总次数,共现度用于表示所述故障序列模式在多少台设备中发生过,故障序列模式表示发生第一条故障之后发生第二条故障,第一条故障和第二条故障为频繁项目集中的任意两条故障;第三确定模块62,用于在支持度大于第三阈值,且共现度大于第四阈值的情况下,将故障序列模式作为目标故障序列模式集中的元素。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的进行一种设备故障序列模式的挖掘方法和装置的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种设备故障序列模式的挖掘方法,其特征在于,包括:
获取故障文本的相似度矩阵,其中,所述故障文本包括多条故障文本,所述故障文本为用于描述至少一个设备的故障信息的文本,所述相似度矩阵中包括任意两个故障文本之间的相似度;
基于所述相似度矩阵在所述故障文本中提取频繁项目集;
在所述频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。
2.根据权利要求1所述的方法,其特征在于,获取故障文本的相似度矩阵包括:
获取待处理的所述故障文本;
对所述故障文本进行分词处理;
利用向量空间模型对执行所述分词处理之后的所述故障文本进行格式转化,转化成采用向量空间模型方法所表示的中间故障文本;
基于所述中间故障文本构建TF-IDF模型,其中,所述TF-IDF模型中包括所述中间故障文本中每个词语的TF-IDF值;
基于所述TF-IDF模型确定所述相似度矩阵。
3.根据权利要求2所述的方法,其特征在于,基于所述中间故障文本构建TF-IDF模型包括:
基于所述中间故障文本统计所述故障文本中每个词语的词频,其中,所述词频表示所述词语在所述故障文本中出现的次数;
基于所述中间故障文本计算所述故障文本中每个词语的逆文档频率;
结合所述词频和逆文档频率计算每个词语的TF-IDF值;
基于所述每个词语的TF-IDF值构建所述TF-IDF模型。
4.根据权利要求3所述的方法,其特征在于,基于所述中间故障文本计算所述故障文本中每个词语的逆文档频率包括:
通过公式计算词语ti的所述逆文档频率,其中,所述|D|表示所述故障文本中的文本数量,dj为所述故障文本中表示包含所述词语ti的文本,idfi为所述词语ti的所述逆文档频率。
5.根据权利要求4所述的方法,其特征在于,基于所述每个词语的TF-IDF值构建所述TF-IDF模型包括:
通过公式tfidfi,j=tfi,j×idfi计算所述词语ti的TF-IDF值,其中,tfidfi,j为所述词语ti的TF-IDF值,tfi,j为所述词语ti的词频;
通过公式对所述词语ti的TF-IDF值进行归一化处理,得到处理之后的TF-IDF值。
6.根据权利要求1所述的方法,其特征在于,所述相似度矩阵包括多个行向量,基于所述相似度矩阵在所述故障文本中提取频繁项目集包括:
统计行向量Ak中相似度值大于或者等于第一阈值的数量,k依次取1至N,N为所述故障文本的数量;
判断数量是否大于或者等于第二阈值;
如果判断出是,则将所述行向量Ak所对应的故障文本作为所述频繁项目集中的一个元素。
7.根据权利要求1所述的方法,其特征在于,在所述频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集包括:
统计故障序列模式的支持度和共现度,其中,所述支持度用于表示所述故障序列模式在全部设备中发生的总次数,所述共现度用于表示所述故障序列模式在多少台设备中发生过,所述故障序列模式表示发生第一条故障之后发生第二条故障,所述第一条故障和所述第二条故障为所述频繁项目集中的任意两条故障;
在所述支持度大于第三阈值,且所述共现度大于第四阈值的情况下,将所述故障序列模式作为所述目标故障序列模式集中的元素。
8.一种设备故障序列模式的挖掘装置,其特征在于,包括:
获取单元,用于获取故障文本的相似度矩阵,其中,所述故障文本包括多条故障文本,所述故障文本为用于描述至少一个设备的故障信息的文本,所述相似度矩阵中包括任意两个故障文本之间的相似度;
提取单元,用于基于所述相似度矩阵在所述故障文本中提取频繁项目集;
挖掘单元,用于在所述频繁项目集中进行故障序列模式的挖掘,得到目标故障序列模式集。
9.根据权利要求8所述的装置,其特征在于,获取单元包括:
获取模块,用于获取待处理的所述故障文本;
分词模块,用于对所述故障文本进行分词处理;
转化模块,用于利用向量空间模型对执行所述分词处理之后的所述故障文本进行格式转化,转化成采用向量空间模型方法所表示的中间故障文本;
构建模块,用于基于所述中间故障文本构建TF-IDF模型,其中,所述TF-IDF模型中包括所述中间故障文本中每个词语的TF-IDF值;
第一确定模块,用于基于所述TF-IDF模型确定所述相似度矩阵。
10.根据权利要求9所述的装置,其特征在于,所述构建模块用于:
基于所述中间故障文本统计所述故障文本中每个词语的词频,其中,所述词频表示所述词语在所述故障文本中出现的次数;
基于所述中间故障文本计算所述故障文本中每个词语的逆文档频率;
结合所述词频和逆文档频率计算每个词语的TF-IDF值;
基于所述每个词语的TF-IDF值构建所述TF-IDF模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710648158.3A CN107391727B (zh) | 2017-08-01 | 2017-08-01 | 设备故障序列模式的挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710648158.3A CN107391727B (zh) | 2017-08-01 | 2017-08-01 | 设备故障序列模式的挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107391727A true CN107391727A (zh) | 2017-11-24 |
CN107391727B CN107391727B (zh) | 2020-03-06 |
Family
ID=60344401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710648158.3A Active CN107391727B (zh) | 2017-08-01 | 2017-08-01 | 设备故障序列模式的挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391727B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710613A (zh) * | 2018-05-22 | 2018-10-26 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、终端设备及介质 |
CN109902283A (zh) * | 2018-05-03 | 2019-06-18 | 华为技术有限公司 | 一种信息输出方法及装置 |
CN112579327A (zh) * | 2019-09-27 | 2021-03-30 | 阿里巴巴集团控股有限公司 | 一种故障检测方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110276832A1 (en) * | 2008-11-18 | 2011-11-10 | European Aeronautic Defence And Space Company Eads France | Method for recognising sequential patterns for a method for fault message processing |
CN103761173A (zh) * | 2013-12-28 | 2014-04-30 | 华中科技大学 | 一种基于日志的计算机系统故障诊断方法及装置 |
CN105183912A (zh) * | 2015-10-12 | 2015-12-23 | 北京百度网讯科技有限公司 | 异常日志确定方法和装置 |
CN105677833A (zh) * | 2016-01-06 | 2016-06-15 | 云南电网有限责任公司电力科学研究院 | 一种基于文本挖掘技术提取断路器故障特征信息的方法 |
CN106327323A (zh) * | 2016-08-19 | 2017-01-11 | 清华大学 | 银行频繁项模式挖掘方法及挖掘系统 |
-
2017
- 2017-08-01 CN CN201710648158.3A patent/CN107391727B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110276832A1 (en) * | 2008-11-18 | 2011-11-10 | European Aeronautic Defence And Space Company Eads France | Method for recognising sequential patterns for a method for fault message processing |
CN103761173A (zh) * | 2013-12-28 | 2014-04-30 | 华中科技大学 | 一种基于日志的计算机系统故障诊断方法及装置 |
CN105183912A (zh) * | 2015-10-12 | 2015-12-23 | 北京百度网讯科技有限公司 | 异常日志确定方法和装置 |
CN105677833A (zh) * | 2016-01-06 | 2016-06-15 | 云南电网有限责任公司电力科学研究院 | 一种基于文本挖掘技术提取断路器故障特征信息的方法 |
CN106327323A (zh) * | 2016-08-19 | 2017-01-11 | 清华大学 | 银行频繁项模式挖掘方法及挖掘系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902283A (zh) * | 2018-05-03 | 2019-06-18 | 华为技术有限公司 | 一种信息输出方法及装置 |
CN108710613A (zh) * | 2018-05-22 | 2018-10-26 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、终端设备及介质 |
WO2019223103A1 (zh) * | 2018-05-22 | 2019-11-28 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、装置、终端设备及介质 |
CN108710613B (zh) * | 2018-05-22 | 2022-04-08 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、终端设备及介质 |
CN112579327A (zh) * | 2019-09-27 | 2021-03-30 | 阿里巴巴集团控股有限公司 | 一种故障检测方法、装置及设备 |
CN112579327B (zh) * | 2019-09-27 | 2024-05-14 | 阿里巴巴集团控股有限公司 | 一种故障检测方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107391727B (zh) | 2020-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102282516B (zh) | 异常检测方法及异常检测系统 | |
Zio | Integrated deterministic and probabilistic safety assessment: concepts, challenges, research directions | |
CN104169909B (zh) | 上下文解析装置及上下文解析方法 | |
CN107872454A (zh) | 一种基于大数据技术的超大型互联网平台安全等级保护威胁信息监测与分析系统及方法 | |
CN104794136A (zh) | 故障分析方法和装置 | |
CN105335496A (zh) | 基于余弦相似度文本挖掘算法的客服重复来电处理方法 | |
CN106294313A (zh) | 学习用于实体消歧的实体及单词嵌入 | |
CN107391727A (zh) | 设备故障序列模式的挖掘方法及装置 | |
CN104077727B (zh) | 变电站电气设备台账智能录入方法与系统 | |
CN109614501A (zh) | 一种基于知识图谱的工业隐患规范化上报方法及系统 | |
CN103593336A (zh) | 一种基于语义分析的知识推送系统及方法 | |
Seriai et al. | Mining features from the object-oriented source code of software variants by combining lexical and structural similarity | |
WO2021154539A1 (en) | Oilfield data file classification and information processing systems | |
WO2019050624A1 (en) | PROCESSING COMPUTER JOURNAL MESSAGES FOR VISUALIZATION AND RECOVERY | |
CN107609217A (zh) | 碰撞校核数据的处理方法及装置 | |
CN102541937A (zh) | 一种网页信息探测方法及系统 | |
CN109413023A (zh) | 机器识别模型的训练及机器识别方法、装置、电子设备 | |
CN107679135A (zh) | 面向网络文本大数据的话题检测与跟踪方法、装置 | |
CN110019519A (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN106469187A (zh) | 关键词的提取方法及装置 | |
CN106650446A (zh) | 基于系统调用的恶意程序行为识别方法和系统 | |
CN107861974B (zh) | 一种自适应网络爬虫系统及其数据获取方法 | |
CN109271362A (zh) | 一种基于区块链的数据处理系统 | |
CN106156179A (zh) | 一种信息检索方法及装置 | |
CN106874306A (zh) | 人口信息人像比对系统关键性能指标评测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |