实施例
本发明的实施例提供一种缺陷数据的分类方法,结合图1所示,包括以下步骤:
101、建立分类模型。
分类数据为用于完成对变电设备的缺陷数据的自动分类。
缺陷数据常包括多个字段,用于描述缺陷的多种属性,例如发生缺陷的设备、部位、缺陷类别、缺陷原因等。
分类模型可以根据目标字段,对缺陷数据进行分类。目标字段包括缺陷类别字段、缺陷部位字段、缺陷原因字段中的任一字段,或者也可以包括一个以上字段。
需要特别指出的是,以上几种字段仅为例举而非穷举。本实施例中将以目标字段具体为设备名称字段的情形为例进行说明。
变电设备缺陷数据的自动识别与归类属于文本分类范畴。在机器学习领域,有许多针对数据回归、分类的算法,如贝叶斯理论、逻辑回归模型、支持向量机、神经网络等。
本实施例中以分类模型具体为朴素贝叶斯模型的情形为例进行说明。
朴素贝叶斯模型分类缺陷数据的原理说明如下:
对于两个事件Y和X,在事件X发生的前提下,事件Y发生的概率可表示为P(Y|X),根据贝叶斯公式,有:
因此,对于一个文本分类问题,给定样本特征X,该样本特征X属于Y类别的概率为P(Y|X)。
假设样本特征X={X1,X2,......Xm},即X为m维的样本特征向量。假设样本类别Y={y1,y2,......yn},即Y为n维的类别向量。那么,对于某一条数据,其属于第j类的概率为:
根据式(2)可以计算出第i(1≤i≤m)个样本特征分别属于n个类别的概率。将这n个概率值中的最大值记作pmax,
pmax对应的类别为第i个样本特征所属的类别。
对于式(2),由于分母P(X)对于所有类别都相等,因此为了求得pmax,只需分子P(X|Yj)P(Yj)的最大值即可。
P(Yj)表示所有样本数据中第j(1≤j≤n)个类别所占的概率,即:
其中,N表示样本总量,Nj表示第j类样本量。
对于P(X|Yj),表示样本数据为第j类别时其样本特征的分布概率,即:
P(X|Yj)=P(X1,X2,......Xm|Yj) (4)
对于朴素贝叶斯模型,其假设样本特征量{X1,X2,......Xm}之间相互独立,则(4)式可表示为:
其中,k表示第k个特征。
P(Xk|Yj),可表示为:
(6)式中,N(k,j)表示j类别样本数据中Xk特征出现的样本数。
联立式(2)~(6),即可求出给定某一条数据时其属于第j类的概率P(Yj|X)。
102、建立训练样本集。
训练样本集为用于训练分类模型的缺陷数据集。本实施例中以2012年-2013年南方电网输变电一次设备(即110kV及以上)的紧急、重大缺陷数据共4799条作为分类模型模型的训练样本集。
103、建立训练样本集的特征词库,并对训练样本集进行文本分类。
将样本集中的缺陷设备名称进行分类,共分为了17类,分别为:GIS(英文全称:GasInsulated Switch Gear,汉语:气体绝缘开关设备)(可包含HGIS(英文全称:Hybrid GIS,汉语:混合气体绝缘开关设备))、变压器、电抗器、电力电缆、电流互感器、电容器、电压互感器、断路器、隔离开关、机组、架空线路、滤波器、母线、套管、避雷器、蓄电池、阻波器。
对于缺陷数据设备名称的特征词库,本实施例通过专家经验的方式进行建立,总共从4799条样本数据中的设备名称字段中归纳提取出51个特征词,如表2所示。
表2
当然,也可采用其它方式建立特征词库,举例说明如下:
S1、对于训练样本集的数据,使用文本分词的方法(具体可以为基于词典的分词方法或基于统计的分词方法)将所有语句进行分词,得到基于训练样本的初始词库。
S2、初始词库后中往往含有许多噪音词,如语气助词、副词、介词、连词。这些词对特征词库的建立没有任何贡献,一方面噪音词降低了文本分类的准确度,另一方面增加了模型训练成本,因此可过滤掉噪音词,减少特征词的个数,提高模型训练效率。
S3、在经过S1、S2两步操作后得到的特征词库已初具雏形,但还需要特征降维的处理。特征降维的目的是从原始特征库中选出最能代表文本内容的特征词,其基本思想是通过构造某种评价函数对特征词库进行计算,得到每个特征词的评价值,然后对特征词评价值进行排序,选择评价值较高的特征词。目前,常用到的评价函数有信息增益、期望交叉熵、互信息、卡方统计、文本证据权重等。
通过S1-S3步骤后,可建立得到满足基本需求的特征词库。
可选的,可对特征词库进行修正以提高其准确度,具体修正的方法将在步骤107说明。
104、建立分类模型可识别的特征矩阵以及类别向量。
对训练样本集的特征词库以及分类后的文本进行编码,建立分类模型可识别的特征矩阵以及类别向量。
结合步骤103,设备名称共分为17类,将设备类别按照1~17进行编码。
对特征词,如果该特征词出现在设备名称字段的语句中,则为1,否则为0。此时建立得到N×K维的特征矩阵X和N×1维的样本类别向量Y,如(7)式所示。
(7)式中,N=4799、K=51、Xik={0,1}、Yi={1,2,......17}、i表示第i条样本数据、k表示第k个特征词。
105、根据特征矩阵以及类别向量训练分类模型。
从训练样本集的缺陷设备名称语句中提取形成特征矩阵X和类别向量Y。运用朴素贝叶斯模型,根据式(2)~(6)即可计算得出类别向量的分布概率P(X|Yj)和每类设备的分布概率P(Yj)。
106、利用经过训练的分类模型分类缺陷数据。
完成训练后,即可通过分类模型来分类缺陷数据,完成数据清理。
为提高分类准确性,可对分类模型的准确性进行验证,如果存在分类错误,则首先执行步骤107对分类模型进行修正,完成修正后在执行步骤106对缺陷数据做分类。
107、修正分类模型。
107-1、建立测试样本集,利用分类模型分类测试样本集的数据。
测试样本集用于验证分类模型分类缺陷数据的正确程度,本实施例中以南方电网2014年1-2月的输变电一次设备紧急、重大缺陷数据共347条作为测试样本集。
结合步骤103及104中对训练样本集的处理过程,对测试样本集做相同的处理,包括建立测试样本集的特征词库,并对测试样本集进行文本分类,建立分类模型可识别的特征矩阵以及类别向量,然后利用分类模型对训练样本集的数据进行分类。分类结果如表3所示,其中正确归类337条,错误归类10条,归类准确率为97.1%。
表3
107-2、从分类结果中筛选出分类错误项,并根据分类错误项修正分类模型。
结合表3,分类错误项共10项。以下结合表4对分类错误原因进行分析。
表4
针对表3验证数据中分类模型预测错误的10条数据,表4中列出了每条数据对应的特征词(包括特征词组合)对应的缺陷数据在训练集中的样本数量。由表4可以看出,分类模型预测错误的数据,其特征词组合在训练样本集中占比均很小,所占比例均小于0.1%。
为了分析训练样本量对预测结果的影响,本实施例在训练样本集中分别加入了10、15、20、25、50条特征词组合“#、主变、开关”对应的缺陷数据,即“#1主变高压侧101开关”数据,重新训练分类模型,并对2014年1-2月的347条紧急重大缺陷数据设备名称再次进行分类,结果如表5所示,表5中n为加入“#1主变高压侧101开关”数据的条数。对于未添加训练样本量的其他缺陷设备名称数据,预测结果仍为错误。
表5
设备名称 |
n=10 |
n=15 |
n=20 |
n=25 |
n=50 |
#1主变高压侧101开关 |
错误 |
错误 |
正确 |
正确 |
正确 |
由表5可知,训练样本集中,特征词所对应缺陷数据对朴素贝叶斯模型的预测结果有着直接的影响,训练样本越多,朴素贝叶斯模型的分类结果越准确。
对于本实施例中建立的分类模型,建议训练样本集中样本量应至少达到25条,即占整个训练样本集的0.5%。
基于以上分析,本实施例中对修正分类模型的过程分三个步骤说明如下:
步骤一,确定稀缺特征词,稀缺特征词包括分类错误项所对应的至少一个特征词。结合图表4,稀缺特征词可以包括特征词一列中所包括的至少一个特征词或者特征词组合。
步骤二,提高稀缺特征词所对应的缺陷数据在训练样本集中的比例。提供两种具体实现方式如下:
第一种,在训练样本集中加入n条稀缺特征词所对应的缺陷数据,使得稀缺特征词所对应的缺陷数据在训练样本集所占的比例超过预设阈值。预设阈值可以通过实验测试的方式确定,在本实施例中预设阈值取值可以为0.5%。
第二种,在训练样本集中加入n条稀缺特征词所对应的缺陷数据,使得P(Ya|X)>P(Yb|X)。其中,Ya为分类错误项所对应的正确分类,Yb为分类模型所确定的分类错误项所对应的错误分类。
根据式(2)~(6),在已知某一文本特征词向量X后,各个设备类别的概率为:
(8)式中,r为样本数据中含有特征词的个数,r≤m。在X已知的条件下,假设正确分类得到的类别为Ya,但分类模型分类确定的错误类别为Yb,即说明P(Ya|X)<P(Yb|X)。
在表4中,根据朴素贝叶斯模型计算出的“#1主变高压侧101开关”数据为断路器设备的概率为0.0009,为变压器的概率为0.0024,因此分类模型确定分类为变压器。为了对朴素贝叶斯模型进行修正,需要在训练样本中加入n条“#1主变高压侧101开关”数据,提高特征词组合“#、主变、开关”在训练样本集中的占比。加入后,设备类别为Ya或Yb的概率为:
n的取值只需使得P(Ya|X)>P(Yb|X)即可。
步骤三,利用更新后的训练样本集重新训练分类模型,得到经过修正的分类模型。
本发明的实施例所提供的缺陷数据的分类方法,基于朴素贝叶斯原理建立用于分类缺陷数据的分类模型,并通过训练样本集对分类模型进行训练,利用经过训练的分类模型来分类缺陷数据,从而减少人工工作量,缩短数据清理所耗费的时间。进一步地,通过对分类模型进行修正,利用修正后的分类模型分类缺陷数据,可以提高分类的正确性,达到快速、准确分类的目的。
本发明的实施例还提供一种缺陷数据的分类装置,用于执行上述实施例中所描述的缺陷数据的分类方法。分类装置所执行的步骤,与图1所对应的实施例中所描述的步骤相同,此处只作简要说明。
参照图2所示,分类装置20包括:
数据管理单元201,用于建立分类模型以及训练样本集。分类数据为用于分类缺陷数据的朴素贝叶斯模型,训练样本集为用于训练分类模型的缺陷数据集。
数据预处理单元202,用于建立训练样本集的特征词库,并对训练样本集进行文本分类。还用于对训练样本集的特征词库以及分类后的文本进行编码,建立分类模型可识别的特征矩阵以及类别向量。
训练单元203,用于根据特征矩阵以及类别向量训练分类模型。
数据分类单元204,用于利用经过训练的分类模型分类缺陷数据。
可选的,数据管理单元201,还用于建立测试样本集。测试样本集用于验证分类模型分类缺陷数据的正确程度。
数据分类单元204,还用于利用分类模型分类测试样本集的数据。
分类装置20还包括测试验证单元205,用于从分类结果中筛选出分类错误项,并根据分类错误项指示训练单元203修正分类模型。
可选的,测试验证单元205,具体用于确定稀缺特征词,稀缺特征词包括分类错误项所对应的至少一个特征词。
数据管理单元201,还用于提高稀缺特征词所对应的缺陷数据在训练样本集中的比例。
训练单元203,还用于利用更新后的训练样本集重新训练分类模型。
可选的,数据管理单元201,具体用于在训练样本集中加入n条稀缺特征词所对应的缺陷数据,使得P(Ya|X)>P(Yb|X)。
其中,Ya为分类错误项所对应的正确分类,Yb为分类模型所确定的分类错误项所对应的错误分类。
可选的,数据管理单元201,具体还用于在训练样本集中加入n条稀缺特征词所对应的缺陷数据,使得稀缺特征词所对应的缺陷数据在训练样本集所占的比例超过预设阈值。
本发明的实施例所提供的缺陷数据的分类装置,基于朴素贝叶斯原理建立用于分类缺陷数据的分类模型,并通过训练样本集对分类模型进行训练,利用经过训练的分类模型来分类缺陷数据,从而减少人工工作量,缩短数据清理所耗费的时间。进一步地,通过对分类模型进行修正,利用修正后的分类模型分类缺陷数据,可以提高分类的正确性,达到快速、准确分类的目的。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。