CN111191447B - 一种设备缺陷的分类方法、装置及设备 - Google Patents

一种设备缺陷的分类方法、装置及设备 Download PDF

Info

Publication number
CN111191447B
CN111191447B CN201911309790.0A CN201911309790A CN111191447B CN 111191447 B CN111191447 B CN 111191447B CN 201911309790 A CN201911309790 A CN 201911309790A CN 111191447 B CN111191447 B CN 111191447B
Authority
CN
China
Prior art keywords
equipment
defect
description text
probability
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911309790.0A
Other languages
English (en)
Other versions
CN111191447A (zh
Inventor
谢鹏飞
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911309790.0A priority Critical patent/CN111191447B/zh
Publication of CN111191447A publication Critical patent/CN111191447A/zh
Application granted granted Critical
Publication of CN111191447B publication Critical patent/CN111191447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种设备缺陷的分类方法、装置及设备,所述方法包括:对设备缺陷描述文本进行分词处理,得到分词结果;对分词结果进行向量化表示,得到设备缺陷描述文本对应的词向量矩阵;将词向量矩阵输入经过训练的设备缺陷分类模型,得到分类结果。本申请利用经过训练的设备缺陷分类模型对设备缺陷描述文本的词向量矩阵进行处理,得到该设备缺陷描述文本的分类结果,以表明该设备缺陷描述文本所属的设备缺陷类别。本申请基于机器学习对设备缺陷进行分类,能够提高分类效率且保证分类准确性,还可以结合基于历史数据计算的历史平均概率,以及机器学习得到的模型计算概率,确定设备缺陷描述文本的最终分类结果,进一步提高设备缺陷分类结果的准确性。

Description

一种设备缺陷的分类方法、装置及设备
技术领域
本申请涉及数据处理领域,具体涉及一种设备缺陷的分类方法、装置及设备。
背景技术
在火电领域中,巡检员或其他员工一旦发现设备发生故障,需要记录故障现象,并由专业人员基于故障现象对故障导致的设备缺陷进行分类,以便基于分类结果及时对设备缺陷进行处理,保证设备的正常运行。
目前,对故障导致的设备缺陷进行分类的方式,主要由工作人员通常查设备缺陷分类手册等人工手段实现,显然耗时较长且准确率得不到保证。
发明内容
有鉴于此,本申请提供了一种设备缺陷的分类方法,能够通过机器学习的方式对设备缺陷进行分类,提高了分类效率以及分类结果的准确率。
第一方面,为实现上述发明目的,本申请提供了一种设备缺陷的分类方法,所述方法包括:
对设备缺陷描述文本进行分词处理,得到分词结果;
对所述分词结果进行向量化表示,得到所述设备缺陷描述文本对应的词向量矩阵;
将所述词向量矩阵输入经过训练的设备缺陷分类模型中,经过处理后,得到所述设备缺陷描述文本的分类结果。
一种可选的实施方式中,所述对设备缺陷描述文本进行分词处理,得到分词结果之后,还包括:
获取所述分词结果中的设备名称;
基于历史数据,针对每个预设缺陷类别,计算所述设备名称对应的设备的平均历史概率;
相应的,所述分类结果包括所述设备缺陷描述文本属于各个预设缺陷类别的模型计算概率;所述将所述词向量矩阵输入经过训练的设备缺陷分类模型中,经过处理后,得到所述设备缺陷描述文本的分类结果之后,还包括:
结合每个预设缺陷类别对应的平均历史概率和模型计算概率,确定所述设备缺陷描述文本的最终分类结果。
一种可选的实施方式中,所述结合每个预设缺陷类别的所述平均历史概率和所述模型计算概率,确定所述设备缺陷描述文本的最终分类结果,包括:
为所述平均历史概率和所述模型计算概率分别设置权重值;
基于所述权重值,计算所述设备缺陷描述文本属于各个预设缺陷类别的概率;
将最大概率对应的预设缺陷类别确定为所述设备缺陷描述文本的最终分类结果。
一种可选的实施方式中,所述为所述平均历史概率和所述模型计算概率分别设置权重值,包括:
基于所述历史数据的数据量,为所述平均历史概率设置权重值。
第二方面,本申请提供了一种设备缺陷的分类装置,所述装置包括:
分词模块,用于对设备缺陷描述文本进行分词处理,得到分词结果;
向量化模块,用于对所述分词结果进行向量化表示,得到所述设备缺陷描述文本对应的词向量矩阵;
分类模块,用于将所述词向量矩阵输入经过训练的设备缺陷分类模型中,经过处理后,得到所述设备缺陷描述文本的分类结果。
一种可选的实施方式中,所述装置还包括:
获取模块,用于获取所述分词结果中的设备名称;
计算模块,用于基于历史数据,针对每个预设缺陷类别,计算所述设备名称对应的设备的平均历史概率;
相应的,所述分类结果包括所述设备缺陷描述文本属于各个预设缺陷类别的模型计算概率;所述装置还包括:
确定模块,用于结合每个预设缺陷类别对应的平均历史概率和模型计算概率,确定所述设备缺陷描述文本的最终分类结果。
一种可选的实施方式中,所述确定模块,包括:
第一设置子模块,用于为所述平均历史概率和所述模型计算概率分别设置权重值;
计算子模块,用于基于所述权重值,计算所述设备缺陷描述文本属于各个预设缺陷类别的概率;
确定子模块,用于将最大概率对应的预设缺陷类别确定为所述设备缺陷描述文本的最终分类结果。
一种可选的实施方式中,所述第一设置子模块,包括:
第二设置子模块,用于基于所述历史数据的数据量,为所述平均历史概率设置权重值。
第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现上述任一项所述的方法。
第四方面,本申请提供了一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的方法。
本申请实施例提供的设备缺陷的分类方法,利用经过训练的设备缺陷分类模型对设备缺陷描述文本的词向量矩阵进行处理,得到该设备缺陷描述文本的分类结果,以表明该设备缺陷描述文本所属的设备缺陷类别。可见,本申请实施例基于机器学习的方式对设备缺陷进行分类,能够提高分类效率且保证分类准确性。
进一步的,本申请还可以结合基于历史数据计算的历史平均概率,以及机器学习得到的模型计算概率,确定设备缺陷描述文本的最终分类结果。显然,本申请实施例能够进一步的提高设备缺陷分类结果的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种设备缺陷的分类方法的流程图;
图2为本申请实施例提供的另一种设备缺陷的分类方法的流程图;
图3为本申请实施例提供的一种设备缺陷的分类装置的结构示意图;
图4为本申请实施例提供的一种设备缺陷的分类设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,对设备缺陷的分类是通过查设备缺陷分类手册或基于工作经验完成的,显然耗时较长且准确率得不到保证,因此,如何高效且准确的确定出设备缺陷的类别是工作人员的迫切需求。
为此,本申请提供了一种设备缺陷的分类方法,能够基于自然语言处理方式和机器学习的方式,对设备缺陷进行分类,得到更准确的分类结果,且分类效率得到了很大的提高。
具体的,本申请在接收到设备缺陷描述文本后,首先对其进行分词处理,得到分词结果。其次,对分词结果进行向量化表示,得到该设备缺陷描述文本对应的词向量矩阵。最终,将该词向量矩阵输入设备缺陷分类模型中,经过模型处理后,得到该设备缺陷描述文本的分类结果。显然,基于机器学习对设备缺陷描述文本进行处理,得到的分类结果更准确且效率更高。
以下本申请提供了一种设备缺陷的分类方法,参考图1,为本申请实施例提供的一种设备缺陷的分类方法的流程图,所述方法包括:
S101:对设备缺陷描述文本进行分词处理,得到分词结果。
本申请实施例中,设备缺陷描述文本为设备发生故障后记录的故障现象。例如,设备缺陷描述文本可以为“某机组某系统的石灰乳搅拌箱的下料口堵塞”。
本申请实施例中,针对需要进行设备缺陷分类的设备缺陷描述文本,首先进行分词处理,得到分词结果。其中,分词结果中包括若干词。具体的分词处理方式本申请实施例不做限定。
为了提高设备缺陷分类的准确性,本申请实施例可以将分词结果中的停用词剔除。具体的,预先设置停用词表,用于记录停用词,然后,将分词结果中的各个分词分别与停用词表进行匹配,如果匹配成功,则将该分词从分词结果中剔除;否则,对其进行保留。其中,停用词可以为无实际意义的预设语气助词、预设标点符号等。
S102:对所述分词结果进行向量化表示,得到所述设备缺陷描述文本的词向量矩阵。
本申请实施例中,将分词结果中的各个词进行向量化表示,得到每个词的词向量,然后利用分词结果中各个词的词向量,共同构成词向量矩阵,作为该设备缺陷描述文本的词向量矩阵。
一种可选的实施方式中,分词结果可以包括设备缺陷描述文本经过分词处理得到的词和该词对应的词频,其中,词频是指词在该设备缺陷描述文本中出现的次数。基于分词结果中各个词与词频的对应关系,对各个词进行向量化表示,得到每个词的词向量,用于构成该设备缺陷描述文本的词向量矩阵。
本申请实施例可以利用其它方式实现对分词结果的向量化表示,本申请对此不作限制。
S103:将所述词向量矩阵输入经过训练的设备缺陷分类模型中,经过处理后,得到所述设备缺陷描述文本的分类结果。
本申请实施例中,在得到设备缺陷描述文本对应的词向量矩阵之后,将该设备缺陷描述文本对应的词向量矩阵作为设备缺陷分类模型的输入,经过设备缺陷分类模型的处理后,得到该设备缺陷描述文本的分类结果。
实际应用中,在利用设备缺陷分类模型对设备缺陷描述文本对应的词向量矩阵进行处理之前,首先对设备缺陷分类模型进行训练。一种可选的实施方式中,可以利用卷积神经网络构建设备缺陷分类模型,具体的,卷积神经网络可以采用两个卷积层和一个全连接层,每个卷积层连接批量归一化层,每个批量归一化层连接一个池化层,每个池化层连接一个全连接层,一个softmax作为输出层。然后,利用历史数据中已完成缺陷消除的数据作为训练样本,对设备缺陷分类模型进行训练,得到经过训练的设备缺陷分类模型。
本申请实施例中,经过训练的设备缺陷分类模型的输入为设备缺陷描述文本对应的词向量矩阵,输出为该设备缺陷描述文本的分类结果。具体的,分类结果包括该设备缺陷描述文本属于各个预设缺陷类别的模型计算概率,以及将模型计算概率最大的预设缺陷类别作为该设备缺陷描述文本所属的设备缺陷类别。
本申请实施例提供的设备缺陷的分类方法,利用经过训练的设备缺陷分类模型对设备缺陷描述文本的词向量矩阵进行处理,得到该设备缺陷描述文本的分类结果,以表明该设备缺陷描述文本所属的设备缺陷类别。可见,本申请实施例基于机器学习的方式对设备缺陷进行分类,能够提高分类效率且保证分类准确性。
为了进一步提高设备缺陷分类结果的准确性,本申请实施例还提供了一种设备缺陷的分类方法,在上述实施例的基础上,进一步结合历史数据确定设备缺陷描述文本属于各个预设缺陷类别的平均历史概率,最终结合平均历史概率和模型计算概率,确定设备缺陷描述文本的最终分类结果。
参考图2,为本申请实施例提供的另一种设备缺陷的分类方法的流程图,该方法包括:
S201:对设备缺陷描述文本进行分词处理,得到分词结果。
S202:获取所述分词结果中的设备名称。
本申请实施例中,在得到设备缺陷描述文本的分词结果之后,从该分词结果中获取设备名称。一种可选的实施方式中,预先设置存储有设备名称的词典,将分词结果中的各个词与该词典中的各个设备名称进行匹配,如果匹配成功,则可以说明该词属于设备名称,否则说明该词不属于设备名称。
S203:基于历史数据,针对每个预设缺陷类别,计算所述设备名称对应的设备的平均历史概率。
本申请实施例中,历史数据可以为预设时间段内的设备缺陷分类数据,例如最近一个月内的设备缺陷分类数据。
实际应用中,针对每个设备名称对应的设备,统计历史数据中该设备发生各个预设缺陷类别的次数,然后基于统计的次数,计算每个设备发生任一预设缺陷类别的历史概率,再次,计算分词结果中的设备名称对应的设备分别发生各个预设缺陷类别的平均历史概率。
假设分类结果中的设备名称对应的设备包括d1......dm,共m个设备,假设预设缺陷类别包括一类缺陷、二类缺陷和三类缺陷,共三个缺陷类别,则以设备d1为例,首先基于历史数据,统计d1分别发生一类缺陷、二类缺陷和三类缺陷的次数,假设分别为N11、N12和N13,则d1发生一类缺陷的历史概率p11为:
Figure BDA0002324205670000071
d1发生二类缺陷的历史概率p12为:
Figure BDA0002324205670000072
d1发生三类缺陷的历史概率p13为:
Figure BDA0002324205670000073
对于某些边缘设备而言,即使完全损坏也不会造成很大的影响,因此,在分类结果中的设备名称对应的设备中存在预设边缘设备时,可以直接将其发生各个预设缺陷类别的概率置0。
依照上述方式,分别计算d1......dm发生一类缺陷、二类缺陷和三类缺陷的历史概率,然后基于历史概率,计算分词结果中的各个设备分别发生一类缺陷、二类缺陷和三类缺陷的平均历史概率,具体的,分词结果中的设备名称对应的设备发生一类缺陷的平均历史概率
Figure BDA0002324205670000075
为:
Figure BDA0002324205670000074
其中,m表示分词结果中的设备名称对应的设备个数;Ni1表示历史数据中第i个设备di发生一类缺陷的次数;Ni2表示历史数据中第i个设备di发生二类缺陷的次数;Ni3表示历史数据中第i个设备di发生三类缺陷的次数。
依照上述方式,分别计算分词结果中的设备名称对应的设备发生一类缺陷的平均历史概率
Figure BDA0002324205670000081
和/>
Figure BDA0002324205670000082
为:
Figure BDA0002324205670000083
Figure BDA0002324205670000084
S204:对所述分词结果进行向量化表示,得到所述设备缺陷描述文本对应的词向量矩阵。
S205:将所述词向量矩阵输入经过训练的设备缺陷分类模型中,经过处理后,得到所述设备缺陷描述文本的分类结果;其中,分类结果包括该设备缺陷描述文本属于各个预设缺陷类别的模型计算概率。
本申请实施例中,设备缺陷分类模型对设备缺陷描述文本的词向量矩阵进行处理后,得到的分类结果包括该设备缺陷描述文本属于各个预设缺陷类别的模型计算概率。
假设预设缺陷类别包括上述一类缺陷、二类缺陷和三类缺陷,设备缺陷分类模型输出的分类结果可以包括[pc1,pc2,pc3],其中,pc1用于表示设备缺陷描述文本属于一类缺陷的模型计算概率;pc2用于表示设备缺陷描述文本属于二类缺陷的模型计算概率;pc3用于表示设备缺陷描述文本属于三类缺陷的模型计算概率。
S206:结合每个预设缺陷类别对应的平均历史概率和模型计算概率,确定所述设备缺陷描述文本的最终分类结果。
本申请实施例中,在得到设备缺陷描述文本的分词结果中的设备发生每个预设缺陷类别的平均历史概率,以及该设备缺陷描述文本属于每个预设缺陷类别的模型计算概率之后,结合二者计算该设备缺陷描述文本的最终分类结果。
继续沿用上述举例,假设得到上述
Figure BDA0002324205670000085
和/>
Figure BDA0002324205670000086
以及[pc1,pc2,pc3],结合/>
Figure BDA0002324205670000087
Figure BDA0002324205670000088
和[pc1,pc2,pc3],计算设备缺陷描述文本的最终分类结果。
一种可选的实施方式中,可以根据需求为平均历史概率和模型计算概率分别设置权重值。具体的,可以为平均历史概率设置权重值C1,以及为模型计算概率设置权重值C2,则设备缺陷描述文本的最终分类结果包括一类缺陷的概率pa1,如下:
Figure BDA0002324205670000091
设备缺陷描述文本的最终分类结果包括二类缺陷的概率pa2,如下:
Figure BDA0002324205670000092
设备缺陷描述文本的最终分类结果包括三类缺陷的概率pa3,如下:
Figure BDA0002324205670000093
实际应用中,将最大概率对应的预设缺陷类别确定为设备缺陷描述文本的最终分类结果,假设pa1>pa2且pa1>pa3,则pa1对应一类缺陷为设备缺陷描述文本的最终分类结果,即该设备缺陷描述文本属于一类缺陷。
另一种可选的实施方式中,由于历史数据的数据量影响着历史平均概率的准确性,因此,本申请实施例可以基于历史数据的数据量,为平均历史概率设置权重值,相应的,对于模型计算概率的权重值设置方式不做限定,以下以模型计算概率的权重值为1举例。
通常,历史数据的数据量越大,基于历史数据确定的历史平均概率的可信度越高,因此可以为其设置的权重值越大。但是,如果历史数据的数据量无限大,则为其设置的权重值也足够大,则可能造成基于机器学习得到模型计算概率的权重值相对非常小,导致用于确定最终分类结果的模型计算概率的作用得不到体现。为此,本申请实施例提供了一种可选的方式,基于历史数据的数据量为平均历史概率设置权重值C,具体如下:
Figure BDA0002324205670000094
其中,K和C0分别为预设正数常量,N为历史数据中发生缺陷的总次数,Ntmax和Ntmin均为预设常量,Ntmax表示历史数据的阈值上限,用于避免因历史数据的数据量过大导致的机器学习得到的模型计算概率的作用不体现的问题,Ntmin表示历史数据的阈值下线,用于在历史数据的数据量过小时控制历史平均概率的权重值的设置。
依然沿用上述举例,则设备缺陷描述文本的最终分类结果包括一类缺陷的概率pa1,如下:
Figure BDA0002324205670000101
设备缺陷描述文本的最终分类结果包括二类缺陷的概率pa2,如下:
Figure BDA0002324205670000102
设备缺陷描述文本的最终分类结果包括三类缺陷的概率pa3,如下:
Figure BDA0002324205670000103
通过比较pa1、pa2和pa3的大小,确定设备缺陷描述文本的最终分类结果。具体的,将概率最大的预设缺陷类别作为设备缺陷描述文本所属的缺陷类别。
另外,本申请实施例还可以提供设备缺陷描述文本所属的缺陷类别的概率。一种实现方式中,如果pa1、pa2和pa3中的最大概率未超过1,则可以直接将最大概率作为设备缺陷描述文本所属的缺陷类别的概率。如果pa1、pa2和pa3中的最大概率超过1,则为了体现实际的概率,可以将最大概率在概率之和中的占比作为设备缺陷描述文本所属的缺陷类别的概率。
依然沿用上述举例,假设设备缺陷描述文本所属的缺陷类别为一类缺陷,则对应的概率P,如下:
Figure BDA0002324205670000104
本申请实施例提供的设备缺陷的分类方法中,结合基于历史数据计算的历史平均概率,以及机器学习得到的模型计算概率,确定设备缺陷描述文本的最终分类结果。显然,本申请实施例能够进一步的提高设备缺陷分类结果的准确性。
与上述方法实施方式相对应的,本申请还提供了一种设备缺陷的分类装置,参考图3,为本申请实施例提供的一种设备缺陷的分类装置的结构示意图,所述装置包括:
分词模块301,用于对设备缺陷描述文本进行分词处理,得到分词结果;
向量化模块302,用于对所述分词结果进行向量化表示,得到所述设备缺陷描述文本对应的词向量矩阵;
分类模块303,用于将所述词向量矩阵输入经过训练的设备缺陷分类模型中,经过处理后,得到所述设备缺陷描述文本的分类结果。
一种可选的实施方式中,所述装置还包括:
获取模块,用于获取所述分词结果中的设备名称;
计算模块,用于基于历史数据,针对每个预设缺陷类别,计算所述设备名称对应的设备的平均历史概率;
相应的,所述分类结果包括所述设备缺陷描述文本属于各个预设缺陷类别的模型计算概率;所述装置还包括:
确定模块,用于结合每个预设缺陷类别对应的平均历史概率和模型计算概率,确定所述设备缺陷描述文本的最终分类结果。
一种可选的实施方式中,所述确定模块,包括:
第一设置子模块,用于为所述平均历史概率和所述模型计算概率分别设置权重值;
计算子模块,用于基于所述权重值,计算所述设备缺陷描述文本属于各个预设缺陷类别的概率;
确定子模块,用于将最大概率对应的预设缺陷类别确定为所述设备缺陷描述文本的最终分类结果。
一种可选的实施方式中,所述第一设置子模块,包括:
第二设置子模块,用于基于所述历史数据的数据量,为所述平均历史概率设置权重值。
本申请实施例提供的设备缺陷的分类装置,利用经过训练的设备缺陷分类模型对设备缺陷描述文本的词向量矩阵进行处理,得到该设备缺陷描述文本的分类结果,以表明该设备缺陷描述文本所属的设备缺陷类别。可见,本申请实施例基于机器学习的方式对设备缺陷进行分类,能够提高分类效率且保证分类准确性。
进一步的,本申请还可以结合基于历史数据计算的历史平均概率,以及机器学习得到的模型计算概率,确定设备缺陷描述文本的最终分类结果。显然,本申请实施例能够进一步的提高设备缺陷分类结果的准确性。
另外,本申请实施例还提供了一种设备缺陷的分类设备,参见图4所示,可以包括:
处理器401、存储器402、输入装置403和输出装置404。设备缺陷的分类设备中的处理器401的数量可以一个或多个,图4中以一个处理器为例。在本发明的一些实施例中,处理器401、存储器402、输入装置403和输出装置404可通过总线或其它方式连接,其中,图4中以通过总线连接为例。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行设备缺陷的分类设备的各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置403可用于接收输入的数字或字符信息,以及产生与设备缺陷的分类设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现上述设备缺陷的分类设备的各种功能。
另外,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现设备缺陷的分类功能。
可以理解的是,对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请实施例所提供的一种设备缺陷的分类方法、装置及设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (4)

1.一种设备缺陷的分类方法,其特征在于,所述方法包括:
对设备缺陷描述文本进行分词处理,得到分词结果;
获取所述分词结果中的设备名称;
基于历史数据,针对每个预设缺陷类别,计算所述设备名称对应的设备的平均历史概率;
对所述分词结果进行向量化表示,得到所述设备缺陷描述文本对应的词向量矩阵;
将所述词向量矩阵输入经过训练的设备缺陷分类模型中,经过处理后,得到所述设备缺陷描述文本的分类结果,其中,所述分类结果包括所述设备缺陷描述文本属于各个预设缺陷类别的模型计算概率;
结合每个预设缺陷类别对应的平均历史概率和模型计算概率,确定所述设备缺陷描述文本的最终分类结果,包括:
为所述平均历史概率和所述模型计算概率分别设置权重值,包括:
基于所述历史数据的数据量,为所述平均历史概率设置权重值C,具体如下:
Figure FDA0004277186570000011
其中,K和C0分别为预设正数常量,N为历史数据中发生缺陷的总次数,Ntmax和Ntmin均为预设常量,Ntmax表示历史数据的阈值上限,用于避免因历史数据的数据量过大导致的机器学习得到的模型计算概率的作用不体现的问题,Ntmin表示历史数据的阈值下线,用于在历史数据的数据量过小时控制历史平均概率的权重值的设置;
基于所述权重值,计算所述设备缺陷描述文本属于各个预设缺陷类别的概率;
将最大概率对应的预设缺陷类别确定为所述设备缺陷描述文本的最终分类结果。
2.一种设备缺陷的分类装置,其特征在于,所述装置包括:
分词模块,用于对设备缺陷描述文本进行分词处理,得到分词结果;
获取模块,用于获取所述分词结果中的设备名称;
计算模块,用于基于历史数据,针对每个预设缺陷类别,计算所述设备名称对应的设备的平均历史概率;
向量化模块,用于对所述分词结果进行向量化表示,得到所述设备缺陷描述文本对应的词向量矩阵;
分类模块,用于将所述词向量矩阵输入经过训练的设备缺陷分类模型中,经过处理后,得到所述设备缺陷描述文本的分类结果,其中,所述分类结果包括所述设备缺陷描述文本属于各个预设缺陷类别的模型计算概率;
确定模块,用于结合每个预设缺陷类别对应的平均历史概率和模型计算概率,确定所述设备缺陷描述文本的最终分类结果,包括:
第一设置子模块,用于为所述平均历史概率和所述模型计算概率分别设置权重值,包括:
第二设置子模块,用于基于所述历史数据的数据量,为所述平均历史概率设置权重值C,具体如下:
Figure FDA0004277186570000021
其中,K和C0分别为预设正数常量,N为历史数据中发生缺陷的总次数,Ntmax和Ntmin均为预设常量,Ntmax表示历史数据的阈值上限,用于避免因历史数据的数据量过大导致的机器学习得到的模型计算概率的作用不体现的问题,Ntmin表示历史数据的阈值下线,用于在历史数据的数据量过小时控制历史平均概率的权重值的设置;
计算子模块,用于基于所述权重值,计算所述设备缺陷描述文本属于各个预设缺陷类别的概率;
确定子模块,用于将最大概率对应的预设缺陷类别确定为所述设备缺陷描述文本的最终分类结果。
3.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现如权利要求1所述的方法。
4.一种电子设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1所述的方法。
CN201911309790.0A 2019-12-18 2019-12-18 一种设备缺陷的分类方法、装置及设备 Active CN111191447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911309790.0A CN111191447B (zh) 2019-12-18 2019-12-18 一种设备缺陷的分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911309790.0A CN111191447B (zh) 2019-12-18 2019-12-18 一种设备缺陷的分类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111191447A CN111191447A (zh) 2020-05-22
CN111191447B true CN111191447B (zh) 2023-07-14

Family

ID=70710095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911309790.0A Active CN111191447B (zh) 2019-12-18 2019-12-18 一种设备缺陷的分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111191447B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874291A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 文本分类的处理方法及装置
CN108021679A (zh) * 2017-12-07 2018-05-11 国网山东省电力公司电力科学研究院 一种并行化的电力设备缺陷文本分类方法
CN108596470A (zh) * 2018-04-19 2018-09-28 浙江大学 一种基于TensorFlow框架的电力设备缺陷文本处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874291A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 文本分类的处理方法及装置
CN108021679A (zh) * 2017-12-07 2018-05-11 国网山东省电力公司电力科学研究院 一种并行化的电力设备缺陷文本分类方法
CN108596470A (zh) * 2018-04-19 2018-09-28 浙江大学 一种基于TensorFlow框架的电力设备缺陷文本处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘梓权等.基于卷积神经网络的 电力设备缺陷文本分类模型研究.《电网技术》.2018,第42卷(第42期),第644-651页. *

Also Published As

Publication number Publication date
CN111191447A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN106874581B (zh) 一种基于bp神经网络模型的建筑空调能耗预测方法
CN111914090A (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN110728313B (zh) 一种用于意图分类识别的分类模型训练方法及装置
CN112163553B (zh) 物料价格核算方法、装置、存储介质和计算机设备
CN108416032A (zh) 一种文本分类方法、装置及存储介质
CN113608916A (zh) 故障诊断的方法、装置、电子设备及存储介质
CN111178196B (zh) 一种细胞分类的方法、装置及设备
CN113095511A (zh) 一种在自动化主站实现操作到位的判断方法及装置
CN112100374A (zh) 文本聚类方法、装置、电子设备及存储介质
CN112419268A (zh) 一种输电线路图像缺陷检测方法、装置、设备及介质
CN111242191A (zh) 基于多分类器集成的信用评级方法及装置
CN115659823A (zh) 基于属性约简的翼型气动力系数预测方法、电子设备及存储介质
CN109101487A (zh) 对话角色区分方法、装置、终端设备及存储介质
CN117235608B (zh) 风险检测方法、装置、电子设备及存储介质
CN111191447B (zh) 一种设备缺陷的分类方法、装置及设备
CN111311025B (zh) 一种基于气象相似日的负荷预测方法
CN111241269B (zh) 一种短信文本分类方法、装置、电子设备及存储介质
CN117218408A (zh) 基于因果纠偏学习的开放世界目标检测方法及装置
CN115357718A (zh) 主题集成服务重复材料发现方法、系统、设备和存储介质
CN112749079B (zh) 软件测试的缺陷分类方法、装置及计算设备
CN113869194A (zh) 基于深度学习的变参数铣削加工过程信号标记方法及系统
CN114115150A (zh) 基于数据的热泵系统在线建模方法及装置
CN113641823A (zh) 文本分类模型训练、文本分类方法、装置、设备及介质
CN113052244A (zh) 一种分类模型训练方法和一种分类模型训练装置
CN111768290A (zh) 确定业务的风险权重系数的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant