CN106250934A - 一种缺陷数据的分类方法及装置 - Google Patents

一种缺陷数据的分类方法及装置 Download PDF

Info

Publication number
CN106250934A
CN106250934A CN201610663209.5A CN201610663209A CN106250934A CN 106250934 A CN106250934 A CN 106250934A CN 201610663209 A CN201610663209 A CN 201610663209A CN 106250934 A CN106250934 A CN 106250934A
Authority
CN
China
Prior art keywords
data
disaggregated model
classification
training sample
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610663209.5A
Other languages
English (en)
Other versions
CN106250934B (zh
Inventor
袁耀
李战鹰
王颂
李锐海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute of Southern Power Grid Co Ltd
Original Assignee
Power Grid Technology Research Center of China Southern Power Grid Co Ltd
Research Institute of Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Power Grid Technology Research Center of China Southern Power Grid Co Ltd, Research Institute of Southern Power Grid Co Ltd filed Critical Power Grid Technology Research Center of China Southern Power Grid Co Ltd
Priority to CN201610663209.5A priority Critical patent/CN106250934B/zh
Publication of CN106250934A publication Critical patent/CN106250934A/zh
Application granted granted Critical
Publication of CN106250934B publication Critical patent/CN106250934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供一种缺陷数据的分类方法及装置,涉及输变电设备的数据分析领域,能够缩短数据清理所耗费的时间。具体方案包括:建立分类模型以及训练样本集;所述分类数据为用于分类缺陷数据的朴素贝叶斯模型,所述训练样本集为用于训练所述分类模型的缺陷数据集;建立所述训练样本集的特征词库,并对所述训练样本集进行文本分类;对所述训练样本集的特征词库以及分类后的文本进行编码,建立所述分类模型可识别的特征矩阵以及类别向量;根据所述特征矩阵以及所述类别向量训练所述分类模型;利用经过训练的所述分类模型分类缺陷数据。本发明用于缺陷数据的分类。

Description

一种缺陷数据的分类方法及装置
技术领域
本发明涉及输变电设备的数据分析领域,尤其涉及一种缺陷数据的分类方法及装置。
背景技术
近年来,大数据分析在各行各业中的应用逐渐增多,人们也逐渐意识到大数据分析给社会经济所带来的各种价值。近年来,电网公司在安全生产领域,积累了包括设备状态实时数据、可靠性数据、负荷数据、运维试验数据等大量的数据,为进行数据的分析和提供辅助决策提供了基础。
从实际工作中来看,目前设备管理部门对生产数据的利用率较低,其中一个主要原因在于生产数据质量不高,不满足分析的需要。即使想开展对数据的高级分析应用,仍需要花费大量的时间在数据质量提升工作上。
例如,数据质量目前存在的主要问题有关键字段的填报格式不统一、填报人员填报的缺陷信息不准确等,如表1所示,填报人员常错误填报设备类别,“原填报类别”为填报人员实际填写的类别,“应填报类别”为正确的类别,表1所示为常出现错误的集中类别,比如设备名称为“电流互感器/A相电流互感器”,应归类为“电流互感器”,而填报人员则填报为“油浸式电流互感器”。
表1设备名称字段数据清理示例
针对数据质量问题,技术人员每月都需要对各地上报的近千条缺陷数据进行人工清理,清理时间占到了整个缺陷数据分析过程的60%左右。如何减少人工工作量,快速高效地完成对缺陷数据的分类,成为缺陷数据分析技术发展的瓶颈。
发明内容
本发明的实施例提供一种缺陷数据的分类方法及装置,能够实现对缺陷数据的自动识别与归类,缩短数据清理所耗费的时间。
为了达成上述目的,本发明采用如下解决方案:
第一方面,提供一种缺陷数据的分类方法,包括:
建立分类模型以及训练样本集;所述分类数据为用于分类缺陷数据的朴素贝叶斯模型,所述训练样本集为用于训练所述分类模型的缺陷数据集;
建立所述训练样本集的特征词库,并对所述训练样本集进行文本分类;
对所述训练样本集的特征词库以及分类后的文本进行编码,建立所述分类模型可识别的特征矩阵以及类别向量;
根据所述特征矩阵以及所述类别向量训练所述分类模型;
利用经过训练的所述分类模型分类缺陷数据。
第二方面,提供一种缺陷数据的分类装置,用于执行第一方面所提供的分类方法。
本发明的实施例所提供的缺陷数据的分类方法及装置,基于朴素贝叶斯原理建立用于分类缺陷数据的分类模型,并通过训练样本集对分类模型进行训练,利用经过训练的所述分类模型来分类缺陷数据,从而减少人工工作量,快速高效地完成对缺陷数据的分类,缩短数据清理所耗费的时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例所提供的缺陷数据的分类方法流程示意图;
图2为本发明的实施例所提供的缺陷数据的分类装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本发明的实施例提供一种缺陷数据的分类方法,结合图1所示,包括以下步骤:
101、建立分类模型。
分类数据为用于完成对变电设备的缺陷数据的自动分类。
缺陷数据常包括多个字段,用于描述缺陷的多种属性,例如发生缺陷的设备、部位、缺陷类别、缺陷原因等。
分类模型可以根据目标字段,对缺陷数据进行分类。目标字段包括缺陷类别字段、缺陷部位字段、缺陷原因字段中的任一字段,或者也可以包括一个以上字段。
需要特别指出的是,以上几种字段仅为例举而非穷举。本实施例中将以目标字段具体为设备名称字段的情形为例进行说明。
变电设备缺陷数据的自动识别与归类属于文本分类范畴。在机器学习领域,有许多针对数据回归、分类的算法,如贝叶斯理论、逻辑回归模型、支持向量机、神经网络等。
本实施例中以分类模型具体为朴素贝叶斯模型的情形为例进行说明。
朴素贝叶斯模型分类缺陷数据的原理说明如下:
对于两个事件Y和X,在事件X发生的前提下,事件Y发生的概率可表示为P(Y|X),根据贝叶斯公式,有:
P ( Y | X ) = P ( X | Y ) P ( Y ) P ( X ) - - - ( 1 )
因此,对于一个文本分类问题,给定样本特征X,该样本特征X属于Y类别的概率为P(Y|X)。
假设样本特征X={X1,X2,......Xm},即X为m维的样本特征向量。假设样本类别Y={y1,y2,......yn},即Y为n维的类别向量。那么,对于某一条数据,其属于第j类的概率为:
P ( Y j | X ) = P ( X | Y j ) P ( Y j ) P ( X ) - - - ( 2 )
根据式(2)可以计算出第i(1≤i≤m)个样本特征分别属于n个类别的概率。将这n个概率值中的最大值记作pmax
p m a x = m a x { P ( Y j | X ) = P ( X | Y j ) P ( Y j ) P ( X ) } .
pmax对应的类别为第i个样本特征所属的类别。
对于式(2),由于分母P(X)对于所有类别都相等,因此为了求得pmax,只需分子P(X|Yj)P(Yj)的最大值即可。
P(Yj)表示所有样本数据中第j(1≤j≤n)个类别所占的概率,即:
P ( Y j ) = N j N - - - ( 3 )
其中,N表示样本总量,Nj表示第j类样本量。
对于P(X|Yj),表示样本数据为第j类别时其样本特征的分布概率,即:
P(X|Yj)=P(X1,X2,......Xm|Yj) (4)
对于朴素贝叶斯模型,其假设样本特征量{X1,X2,......Xm}之间相互独立,则(4)式可表示为:
P ( X | Y j ) = P ( X 1 , X 2 , ...... X m | Y j ) = Π k = 1 m P ( X k | Y j ) - - - ( 5 )
其中,k表示第k个特征。
P(Xk|Yj),可表示为:
P ( X k | Y j ) = N ( k , j ) N j - - - ( 6 )
(6)式中,N(k,j)表示j类别样本数据中Xk特征出现的样本数。
联立式(2)~(6),即可求出给定某一条数据时其属于第j类的概率P(Yj|X)。
102、建立训练样本集。
训练样本集为用于训练分类模型的缺陷数据集。本实施例中以2012年-2013年南方电网输变电一次设备(即110kV及以上)的紧急、重大缺陷数据共4799条作为分类模型模型的训练样本集。
103、建立训练样本集的特征词库,并对训练样本集进行文本分类。
将样本集中的缺陷设备名称进行分类,共分为了17类,分别为:GIS(英文全称:GasInsulated Switch Gear,汉语:气体绝缘开关设备)(可包含HGIS(英文全称:Hybrid GIS,汉语:混合气体绝缘开关设备))、变压器、电抗器、电力电缆、电流互感器、电容器、电压互感器、断路器、隔离开关、机组、架空线路、滤波器、母线、套管、避雷器、蓄电池、阻波器。
对于缺陷数据设备名称的特征词库,本实施例通过专家经验的方式进行建立,总共从4799条样本数据中的设备名称字段中归纳提取出51个特征词,如表2所示。
表2
当然,也可采用其它方式建立特征词库,举例说明如下:
S1、对于训练样本集的数据,使用文本分词的方法(具体可以为基于词典的分词方法或基于统计的分词方法)将所有语句进行分词,得到基于训练样本的初始词库。
S2、初始词库后中往往含有许多噪音词,如语气助词、副词、介词、连词。这些词对特征词库的建立没有任何贡献,一方面噪音词降低了文本分类的准确度,另一方面增加了模型训练成本,因此可过滤掉噪音词,减少特征词的个数,提高模型训练效率。
S3、在经过S1、S2两步操作后得到的特征词库已初具雏形,但还需要特征降维的处理。特征降维的目的是从原始特征库中选出最能代表文本内容的特征词,其基本思想是通过构造某种评价函数对特征词库进行计算,得到每个特征词的评价值,然后对特征词评价值进行排序,选择评价值较高的特征词。目前,常用到的评价函数有信息增益、期望交叉熵、互信息、卡方统计、文本证据权重等。
通过S1-S3步骤后,可建立得到满足基本需求的特征词库。
可选的,可对特征词库进行修正以提高其准确度,具体修正的方法将在步骤107说明。
104、建立分类模型可识别的特征矩阵以及类别向量。
对训练样本集的特征词库以及分类后的文本进行编码,建立分类模型可识别的特征矩阵以及类别向量。
结合步骤103,设备名称共分为17类,将设备类别按照1~17进行编码。
对特征词,如果该特征词出现在设备名称字段的语句中,则为1,否则为0。此时建立得到N×K维的特征矩阵X和N×1维的样本类别向量Y,如(7)式所示。
Y ( N , 1 ) = 1 2 . . . Y i . . . 3 18 - - - ( 7 )
(7)式中,N=4799、K=51、Xik={0,1}、Yi={1,2,......17}、i表示第i条样本数据、k表示第k个特征词。
105、根据特征矩阵以及类别向量训练分类模型。
从训练样本集的缺陷设备名称语句中提取形成特征矩阵X和类别向量Y。运用朴素贝叶斯模型,根据式(2)~(6)即可计算得出类别向量的分布概率P(X|Yj)和每类设备的分布概率P(Yj)。
106、利用经过训练的分类模型分类缺陷数据。
完成训练后,即可通过分类模型来分类缺陷数据,完成数据清理。
为提高分类准确性,可对分类模型的准确性进行验证,如果存在分类错误,则首先执行步骤107对分类模型进行修正,完成修正后在执行步骤106对缺陷数据做分类。
107、修正分类模型。
107-1、建立测试样本集,利用分类模型分类测试样本集的数据。
测试样本集用于验证分类模型分类缺陷数据的正确程度,本实施例中以南方电网2014年1-2月的输变电一次设备紧急、重大缺陷数据共347条作为测试样本集。
结合步骤103及104中对训练样本集的处理过程,对测试样本集做相同的处理,包括建立测试样本集的特征词库,并对测试样本集进行文本分类,建立分类模型可识别的特征矩阵以及类别向量,然后利用分类模型对训练样本集的数据进行分类。分类结果如表3所示,其中正确归类337条,错误归类10条,归类准确率为97.1%。
表3
107-2、从分类结果中筛选出分类错误项,并根据分类错误项修正分类模型。
结合表3,分类错误项共10项。以下结合表4对分类错误原因进行分析。
表4
针对表3验证数据中分类模型预测错误的10条数据,表4中列出了每条数据对应的特征词(包括特征词组合)对应的缺陷数据在训练集中的样本数量。由表4可以看出,分类模型预测错误的数据,其特征词组合在训练样本集中占比均很小,所占比例均小于0.1%。
为了分析训练样本量对预测结果的影响,本实施例在训练样本集中分别加入了10、15、20、25、50条特征词组合“#、主变、开关”对应的缺陷数据,即“#1主变高压侧101开关”数据,重新训练分类模型,并对2014年1-2月的347条紧急重大缺陷数据设备名称再次进行分类,结果如表5所示,表5中n为加入“#1主变高压侧101开关”数据的条数。对于未添加训练样本量的其他缺陷设备名称数据,预测结果仍为错误。
表5
设备名称 n=10 n=15 n=20 n=25 n=50
#1主变高压侧101开关 错误 错误 正确 正确 正确
由表5可知,训练样本集中,特征词所对应缺陷数据对朴素贝叶斯模型的预测结果有着直接的影响,训练样本越多,朴素贝叶斯模型的分类结果越准确。
对于本实施例中建立的分类模型,建议训练样本集中样本量应至少达到25条,即占整个训练样本集的0.5%。
基于以上分析,本实施例中对修正分类模型的过程分三个步骤说明如下:
步骤一,确定稀缺特征词,稀缺特征词包括分类错误项所对应的至少一个特征词。结合图表4,稀缺特征词可以包括特征词一列中所包括的至少一个特征词或者特征词组合。
步骤二,提高稀缺特征词所对应的缺陷数据在训练样本集中的比例。提供两种具体实现方式如下:
第一种,在训练样本集中加入n条稀缺特征词所对应的缺陷数据,使得稀缺特征词所对应的缺陷数据在训练样本集所占的比例超过预设阈值。预设阈值可以通过实验测试的方式确定,在本实施例中预设阈值取值可以为0.5%。
第二种,在训练样本集中加入n条稀缺特征词所对应的缺陷数据,使得P(Ya|X)>P(Yb|X)。其中,Ya为分类错误项所对应的正确分类,Yb为分类模型所确定的分类错误项所对应的错误分类。
根据式(2)~(6),在已知某一文本特征词向量X后,各个设备类别的概率为:
P ( Y j | X ) = P ( Y j ) Π k = 1 r P ( X k | Y j ) = N j N Π k = 1 r N ( k , j ) N j - - - ( 8 )
(8)式中,r为样本数据中含有特征词的个数,r≤m。在X已知的条件下,假设正确分类得到的类别为Ya,但分类模型分类确定的错误类别为Yb,即说明P(Ya|X)<P(Yb|X)。
在表4中,根据朴素贝叶斯模型计算出的“#1主变高压侧101开关”数据为断路器设备的概率为0.0009,为变压器的概率为0.0024,因此分类模型确定分类为变压器。为了对朴素贝叶斯模型进行修正,需要在训练样本中加入n条“#1主变高压侧101开关”数据,提高特征词组合“#、主变、开关”在训练样本集中的占比。加入后,设备类别为Ya或Yb的概率为:
P ( Y a | X ) = P ( Y a ) Π k = 1 r P ( X k | Y a ) = N a + n N + n Π k = 1 r N ( k , a ) + n N a + n P ( Y b | X ) = P ( Y b ) Π k = 1 r P ( X k | Y b ) = N b N + n Π k = 1 r N ( k , b ) N b - - - ( 9 )
n的取值只需使得P(Ya|X)>P(Yb|X)即可。
步骤三,利用更新后的训练样本集重新训练分类模型,得到经过修正的分类模型。
本发明的实施例所提供的缺陷数据的分类方法,基于朴素贝叶斯原理建立用于分类缺陷数据的分类模型,并通过训练样本集对分类模型进行训练,利用经过训练的分类模型来分类缺陷数据,从而减少人工工作量,缩短数据清理所耗费的时间。进一步地,通过对分类模型进行修正,利用修正后的分类模型分类缺陷数据,可以提高分类的正确性,达到快速、准确分类的目的。
本发明的实施例还提供一种缺陷数据的分类装置,用于执行上述实施例中所描述的缺陷数据的分类方法。分类装置所执行的步骤,与图1所对应的实施例中所描述的步骤相同,此处只作简要说明。
参照图2所示,分类装置20包括:
数据管理单元201,用于建立分类模型以及训练样本集。分类数据为用于分类缺陷数据的朴素贝叶斯模型,训练样本集为用于训练分类模型的缺陷数据集。
数据预处理单元202,用于建立训练样本集的特征词库,并对训练样本集进行文本分类。还用于对训练样本集的特征词库以及分类后的文本进行编码,建立分类模型可识别的特征矩阵以及类别向量。
训练单元203,用于根据特征矩阵以及类别向量训练分类模型。
数据分类单元204,用于利用经过训练的分类模型分类缺陷数据。
可选的,数据管理单元201,还用于建立测试样本集。测试样本集用于验证分类模型分类缺陷数据的正确程度。
数据分类单元204,还用于利用分类模型分类测试样本集的数据。
分类装置20还包括测试验证单元205,用于从分类结果中筛选出分类错误项,并根据分类错误项指示训练单元203修正分类模型。
可选的,测试验证单元205,具体用于确定稀缺特征词,稀缺特征词包括分类错误项所对应的至少一个特征词。
数据管理单元201,还用于提高稀缺特征词所对应的缺陷数据在训练样本集中的比例。
训练单元203,还用于利用更新后的训练样本集重新训练分类模型。
可选的,数据管理单元201,具体用于在训练样本集中加入n条稀缺特征词所对应的缺陷数据,使得P(Ya|X)>P(Yb|X)。
其中,Ya为分类错误项所对应的正确分类,Yb为分类模型所确定的分类错误项所对应的错误分类。
可选的,数据管理单元201,具体还用于在训练样本集中加入n条稀缺特征词所对应的缺陷数据,使得稀缺特征词所对应的缺陷数据在训练样本集所占的比例超过预设阈值。
本发明的实施例所提供的缺陷数据的分类装置,基于朴素贝叶斯原理建立用于分类缺陷数据的分类模型,并通过训练样本集对分类模型进行训练,利用经过训练的分类模型来分类缺陷数据,从而减少人工工作量,缩短数据清理所耗费的时间。进一步地,通过对分类模型进行修正,利用修正后的分类模型分类缺陷数据,可以提高分类的正确性,达到快速、准确分类的目的。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种缺陷数据的分类方法,其特征在于,包括;
建立分类模型以及训练样本集;所述分类数据为用于分类缺陷数据的朴素贝叶斯模型,所述训练样本集为用于训练所述分类模型的缺陷数据集;
建立所述训练样本集的特征词库,并对所述训练样本集进行文本分类;
对所述训练样本集的特征词库以及分类后的文本进行编码,建立所述分类模型可识别的特征矩阵以及类别向量;
根据所述特征矩阵以及所述类别向量训练所述分类模型;
利用经过训练的所述分类模型分类缺陷数据。
2.根据权利要求1所述的分类方法,其特征在于,所述利用经过训练的所述分类模型分类缺陷数据之前,所述分类方法还包括:
建立测试样本集,利用所述分类模型分类所述测试样本集的数据;所述测试样本集用于验证所述分类模型分类缺陷数据的正确程度;
从分类结果中筛选出分类错误项,并根据所述分类错误项修正所述分类模型。
3.根据权利要求2所述的分类方法,其特征在于,所述根据所述分类错误项修正所述分类模型,包括:
确定稀缺特征词,所述稀缺特征词包括所述分类错误项所对应的至少一个特征词;
提高所述稀缺特征词所对应的缺陷数据在所述训练样本集中的比例,利用更新后的所述训练样本集重新训练所述分类模型。
4.根据权利要求3所述的分类方法,其特征在于,所述利用经过训练的所述分类模型分类缺陷数据,包括:
以pmax对应的类别为样本特征所属的类别;
其中,X为样本特征向量,Y为类别向量,X={X1,X2,……Xm},Y={y1,y2,……yn}。
5.根据权利要求4所述的分类方法,其特征在于,所述提高所述稀缺特征词所对应的缺陷数据在所述训练样本集中的比例,包括:
在所述训练样本集中加入n条所述稀缺特征词所对应的缺陷数据,使得P(Ya|X)>P(Yb|X);
其中,Ya为所述分类错误项所对应的正确分类,Yb为所述分类模型所确定的所述分类错误项所对应的错误分类。
6.根据权利要求4所述的分类方法,其特征在于,所述提高所述稀缺特征词所对应的缺陷数据在所述训练样本集中的比例,包括:
在所述训练样本集中加入n条所述稀缺特征词所对应的缺陷数据,使得所述稀缺特征词所对应的缺陷数据在所述训练样本集所占的比例超过预设阈值。
7.根据权利要求1-6任一项所述的分类方法,其特征在于,所述利用经过训练的所述分类模型分类缺陷数据,包括:
利用经过训练的所述分类模型,根据所述缺陷数据的目标字段分类缺陷数据;其中,所述目标字段包括缺陷类别字段、缺陷部位字段、缺陷原因字段中的任一字段。
8.一种缺陷数据的分类装置,其特征在于,包括:
数据管理单元,用于建立分类模型以及训练样本集;所述分类数据为用于分类缺陷数据的朴素贝叶斯模型,所述训练样本集为用于训练所述分类模型的缺陷数据集;
数据预处理单元,用于建立所述训练样本集的特征词库,并对所述训练样本集进行文本分类;还用于对所述训练样本集的特征词库以及分类后的文本进行编码,建立所述分类模型可识别的特征矩阵以及类别向量;
训练单元,用于根据所述特征矩阵以及所述类别向量训练所述分类模型;
数据分类单元,用于利用经过训练的所述分类模型分类缺陷数据。
9.根据权利要求8所述的分类装置,其特征在于,
所述数据管理单元,还用于建立测试样本集;所述测试样本集用于验证所述分类模型分类缺陷数据的正确程度;
所述数据分类单元,还用于利用所述分类模型分类所述测试样本集的数据;
所述分类装置还包括测试验证单元,用于从分类结果中筛选出分类错误项,并根据所述分类错误项指示所述训练单元修正所述分类模型。
10.根据权利要求9所述的分类装置,其特征在于,
所述测试验证单元,具体用于确定稀缺特征词,所述稀缺特征词包括所述分类错误项所对应的至少一个特征词;
所述数据管理单元,还用于提高所述稀缺特征词所对应的缺陷数据在所述训练样本集中的比例;
所述训练单元,还用于利用更新后的所述训练样本集重新训练所述分类模型。
CN201610663209.5A 2016-08-12 2016-08-12 一种缺陷数据的分类方法及装置 Active CN106250934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610663209.5A CN106250934B (zh) 2016-08-12 2016-08-12 一种缺陷数据的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610663209.5A CN106250934B (zh) 2016-08-12 2016-08-12 一种缺陷数据的分类方法及装置

Publications (2)

Publication Number Publication Date
CN106250934A true CN106250934A (zh) 2016-12-21
CN106250934B CN106250934B (zh) 2019-11-01

Family

ID=57592712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610663209.5A Active CN106250934B (zh) 2016-08-12 2016-08-12 一种缺陷数据的分类方法及装置

Country Status (1)

Country Link
CN (1) CN106250934B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777237A (zh) * 2016-12-27 2017-05-31 武汉延锋时代检测技术服务有限公司 一种表面缺陷的分析方法
CN107247450A (zh) * 2017-05-05 2017-10-13 武汉理工大学 基于贝叶斯网络的断路器故障诊断方法
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN107908620A (zh) * 2017-11-15 2018-04-13 珠海金山网络游戏科技有限公司 一种基于工作文档预判用户职业的方法和装置
CN108596470A (zh) * 2018-04-19 2018-09-28 浙江大学 一种基于TensorFlow框架的电力设备缺陷文本处理方法
CN109060021A (zh) * 2018-08-03 2018-12-21 河海大学 一种基于贝叶斯理论的电抗器健康状态评估方法
CN109063094A (zh) * 2018-07-27 2018-12-21 吉首大学 一种建立中医药知识图谱的方法
CN110597874A (zh) * 2019-08-26 2019-12-20 数字广东网络建设有限公司 数据分析模型的创建方法、装置、计算机设备和存储介质
CN113590396A (zh) * 2021-07-23 2021-11-02 南方电网深圳数字电网研究院有限公司 一次设备的缺陷诊断方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类系统
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN105550291A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 文本分类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类系统
CN102033964A (zh) * 2011-01-13 2011-04-27 北京邮电大学 基于块划分及位置权重的文本分类方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN105550291A (zh) * 2015-12-10 2016-05-04 百度在线网络技术(北京)有限公司 文本分类方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777237A (zh) * 2016-12-27 2017-05-31 武汉延锋时代检测技术服务有限公司 一种表面缺陷的分析方法
CN106777237B (zh) * 2016-12-27 2019-10-01 武汉延锋时代检测技术股份有限公司 一种表面缺陷的分析方法
CN107247450A (zh) * 2017-05-05 2017-10-13 武汉理工大学 基于贝叶斯网络的断路器故障诊断方法
CN107833603A (zh) * 2017-11-13 2018-03-23 医渡云(北京)技术有限公司 电子病历文档分类方法、装置、电子设备及存储介质
CN107908620A (zh) * 2017-11-15 2018-04-13 珠海金山网络游戏科技有限公司 一种基于工作文档预判用户职业的方法和装置
CN108596470A (zh) * 2018-04-19 2018-09-28 浙江大学 一种基于TensorFlow框架的电力设备缺陷文本处理方法
CN109063094A (zh) * 2018-07-27 2018-12-21 吉首大学 一种建立中医药知识图谱的方法
CN109060021A (zh) * 2018-08-03 2018-12-21 河海大学 一种基于贝叶斯理论的电抗器健康状态评估方法
CN110597874A (zh) * 2019-08-26 2019-12-20 数字广东网络建设有限公司 数据分析模型的创建方法、装置、计算机设备和存储介质
CN110597874B (zh) * 2019-08-26 2022-05-27 数字广东网络建设有限公司 数据分析模型的创建方法、装置、计算机设备和存储介质
CN113590396A (zh) * 2021-07-23 2021-11-02 南方电网深圳数字电网研究院有限公司 一次设备的缺陷诊断方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN106250934B (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
CN106250934B (zh) 一种缺陷数据的分类方法及装置
CN110705873B (zh) 一种配电网运行状态画像分析方法
CN105868912A (zh) 基于数据融合的电力变压器状态评价方法及装置
CN106384210A (zh) 一种基于检修风险收益的输变电设备检修优先级排序方法
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN104077493B (zh) 一种电力继电保护系统状态评估指标体系的构建方法
CN109102157A (zh) 一种基于深度学习的银行工单派单方法及系统
CN110517130A (zh) 一种智能记账方法及其系统
CN111738462A (zh) 电力计量装置故障抢修主动服务预警方法
CN107340766A (zh) 基于相似度的电力调度告警信号文本归类及故障诊断方法
CN107491783B (zh) 基于改进密度峰值聚类算法的变压器故障类型分类方法
CN106326458A (zh) 一种基于文本分类的城市管理案件分类方法
CN106650959A (zh) 一种基于改进灰色聚类的配电网抢修能力评估方法
CN109858503A (zh) 基于梯度提升决策树的牵引变流器故障诊断方法
CN107305653A (zh) 基于属性数学的低压配电台区综合评价方法及装置
CN108304567A (zh) 高压变压器工况模式识别与数据分类方法及系统
CN103955596A (zh) 一种基于交通事故采集技术的事故热点综合判定方法
CN109766416A (zh) 一种新能源政策信息抽取方法及系统
CN105389302B (zh) 一种电网设计评审指标结构信息识别方法
CN104967097A (zh) 基于支持向量分类机的励磁涌流识别方法
CN110569363A (zh) 一种决策流组件生成方法、装置、电子设备及存储介质
CN112508254B (zh) 变电站工程项目投资预测数据的确定方法
CN108681802A (zh) 一种电动汽车充电设施信息互操作评价方法
CN110310048B (zh) 一种配网规划全过程评估方法及装置
CN104217263A (zh) 一种配电开关设备关键状态量的优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210602

Address after: 510700 3rd, 4th and 5th floors of building J1 and 3rd floor of building J3, No.11 Kexiang Road, Science City, Luogang District, Guangzhou City, Guangdong Province

Patentee after: China Southern Power Grid Research Institute Co.,Ltd.

Address before: 510080 West Tower 13-20 Floor, Shui Jungang 6 and 8 Dongfeng East Road, Yuexiu District, Guangzhou City, Guangdong Province

Patentee before: China Southern Power Grid Research Institute Co.,Ltd.

Patentee before: CSG POWER GRID TECHNOLOGY RESEARCH CENTER