CN106250934A

CN106250934A - 一种缺陷数据的分类方法及装置

Info

Publication number: CN106250934A
Application number: CN201610663209.5A
Authority: CN
Inventors: 袁耀; 李战鹰; 王颂; 李锐海
Original assignee: China South Power Grid International Co ltd; Power Grid Technology Research Center of China Southern Power Grid Co Ltd
Current assignee: China South Power Grid International Co ltd
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2016-12-21
Anticipated expiration: 2036-08-12
Also published as: CN106250934B

Abstract

本发明的实施例提供一种缺陷数据的分类方法及装置，涉及输变电设备的数据分析领域，能够缩短数据清理所耗费的时间。具体方案包括：建立分类模型以及训练样本集；所述分类数据为用于分类缺陷数据的朴素贝叶斯模型，所述训练样本集为用于训练所述分类模型的缺陷数据集；建立所述训练样本集的特征词库，并对所述训练样本集进行文本分类；对所述训练样本集的特征词库以及分类后的文本进行编码，建立所述分类模型可识别的特征矩阵以及类别向量；根据所述特征矩阵以及所述类别向量训练所述分类模型；利用经过训练的所述分类模型分类缺陷数据。本发明用于缺陷数据的分类。

Description

一种缺陷数据的分类方法及装置

技术领域

本发明涉及输变电设备的数据分析领域，尤其涉及一种缺陷数据的分类方法及装置。

背景技术

近年来，大数据分析在各行各业中的应用逐渐增多，人们也逐渐意识到大数据分析给社会经济所带来的各种价值。近年来，电网公司在安全生产领域，积累了包括设备状态实时数据、可靠性数据、负荷数据、运维试验数据等大量的数据，为进行数据的分析和提供辅助决策提供了基础。

从实际工作中来看，目前设备管理部门对生产数据的利用率较低，其中一个主要原因在于生产数据质量不高，不满足分析的需要。即使想开展对数据的高级分析应用，仍需要花费大量的时间在数据质量提升工作上。

例如，数据质量目前存在的主要问题有关键字段的填报格式不统一、填报人员填报的缺陷信息不准确等，如表1所示，填报人员常错误填报设备类别，“原填报类别”为填报人员实际填写的类别，“应填报类别”为正确的类别，表1所示为常出现错误的集中类别，比如设备名称为“电流互感器/A相电流互感器”，应归类为“电流互感器”，而填报人员则填报为“油浸式电流互感器”。

表1设备名称字段数据清理示例

针对数据质量问题，技术人员每月都需要对各地上报的近千条缺陷数据进行人工清理，清理时间占到了整个缺陷数据分析过程的60％左右。如何减少人工工作量，快速高效地完成对缺陷数据的分类，成为缺陷数据分析技术发展的瓶颈。

发明内容

本发明的实施例提供一种缺陷数据的分类方法及装置，能够实现对缺陷数据的自动识别与归类，缩短数据清理所耗费的时间。

为了达成上述目的，本发明采用如下解决方案：

第一方面，提供一种缺陷数据的分类方法，包括：

建立分类模型以及训练样本集；所述分类数据为用于分类缺陷数据的朴素贝叶斯模型，所述训练样本集为用于训练所述分类模型的缺陷数据集；

建立所述训练样本集的特征词库，并对所述训练样本集进行文本分类；

对所述训练样本集的特征词库以及分类后的文本进行编码，建立所述分类模型可识别的特征矩阵以及类别向量；

根据所述特征矩阵以及所述类别向量训练所述分类模型；

利用经过训练的所述分类模型分类缺陷数据。

第二方面，提供一种缺陷数据的分类装置，用于执行第一方面所提供的分类方法。

本发明的实施例所提供的缺陷数据的分类方法及装置，基于朴素贝叶斯原理建立用于分类缺陷数据的分类模型，并通过训练样本集对分类模型进行训练，利用经过训练的所述分类模型来分类缺陷数据，从而减少人工工作量，快速高效地完成对缺陷数据的分类，缩短数据清理所耗费的时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例所提供的缺陷数据的分类方法流程示意图；

图2为本发明的实施例所提供的缺陷数据的分类装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明的实施例提供一种缺陷数据的分类方法，结合图1所示，包括以下步骤：

101、建立分类模型。

分类数据为用于完成对变电设备的缺陷数据的自动分类。

缺陷数据常包括多个字段，用于描述缺陷的多种属性，例如发生缺陷的设备、部位、缺陷类别、缺陷原因等。

分类模型可以根据目标字段，对缺陷数据进行分类。目标字段包括缺陷类别字段、缺陷部位字段、缺陷原因字段中的任一字段，或者也可以包括一个以上字段。

需要特别指出的是，以上几种字段仅为例举而非穷举。本实施例中将以目标字段具体为设备名称字段的情形为例进行说明。

变电设备缺陷数据的自动识别与归类属于文本分类范畴。在机器学习领域，有许多针对数据回归、分类的算法，如贝叶斯理论、逻辑回归模型、支持向量机、神经网络等。

本实施例中以分类模型具体为朴素贝叶斯模型的情形为例进行说明。

朴素贝叶斯模型分类缺陷数据的原理说明如下：

对于两个事件Y和X，在事件X发生的前提下，事件Y发生的概率可表示为P(Y|X)，根据贝叶斯公式，有：

P (Y | X) = \frac{P (X | Y) P (Y)}{P (X)} - - - (1)

因此，对于一个文本分类问题，给定样本特征X，该样本特征X属于Y类别的概率为P(Y|X)。

假设样本特征X＝{X₁，X₂，......X_m}，即X为m维的样本特征向量。假设样本类别Y＝{y₁，y₂，......y_n}，即Y为n维的类别向量。那么，对于某一条数据，其属于第j类的概率为：

P (Y_{j} | X) = \frac{P (X | Y_{j}) P (Y_{j})}{P (X)} - - - (2)

根据式(2)可以计算出第i(1≤i≤m)个样本特征分别属于n个类别的概率。将这n个概率值中的最大值记作p_max，

p_{m a x} = m a x {P (Y_{j} | X) = \frac{P (X | Y_{j}) P (Y_{j})}{P (X)}} .

p_max对应的类别为第i个样本特征所属的类别。

对于式(2)，由于分母P(X)对于所有类别都相等，因此为了求得p_max，只需分子P(X|Y_j)P(Y_j)的最大值即可。

P(Y_j)表示所有样本数据中第j(1≤j≤n)个类别所占的概率，即：

P (Y_{j}) = \frac{N_{j}}{N} - - - (3)

其中，N表示样本总量，N_j表示第j类样本量。

对于P(X|Y_j)，表示样本数据为第j类别时其样本特征的分布概率，即：

P(X|Y_j)＝P(X₁，X₂，......X_m|Y_j) (4)

对于朴素贝叶斯模型，其假设样本特征量{X₁，X₂，......X_m}之间相互独立，则(4)式可表示为：

P (X | Y_{j}) = P (X_{1}, X_{2}, ...... X_{m} | Y_{j}) = Π_{k = 1}^{m} P (X_{k} | Y_{j}) - - - (5)

其中，k表示第k个特征。

P(X_k|Y_j)，可表示为：

P (X_{k} | Y_{j}) = \frac{N (k, j)}{N_{j}} - - - (6)

(6)式中，N(k，j)表示j类别样本数据中X_k特征出现的样本数。

联立式(2)～(6)，即可求出给定某一条数据时其属于第j类的概率P(Y_j|X)。

102、建立训练样本集。

训练样本集为用于训练分类模型的缺陷数据集。本实施例中以2012年-2013年南方电网输变电一次设备(即110kV及以上)的紧急、重大缺陷数据共4799条作为分类模型模型的训练样本集。

103、建立训练样本集的特征词库，并对训练样本集进行文本分类。

将样本集中的缺陷设备名称进行分类，共分为了17类，分别为：GIS(英文全称：GasInsulated Switch Gear，汉语：气体绝缘开关设备)(可包含HGIS(英文全称：Hybrid GIS，汉语：混合气体绝缘开关设备))、变压器、电抗器、电力电缆、电流互感器、电容器、电压互感器、断路器、隔离开关、机组、架空线路、滤波器、母线、套管、避雷器、蓄电池、阻波器。

对于缺陷数据设备名称的特征词库，本实施例通过专家经验的方式进行建立，总共从4799条样本数据中的设备名称字段中归纳提取出51个特征词，如表2所示。

表2

当然，也可采用其它方式建立特征词库，举例说明如下：

S1、对于训练样本集的数据，使用文本分词的方法(具体可以为基于词典的分词方法或基于统计的分词方法)将所有语句进行分词，得到基于训练样本的初始词库。

S2、初始词库后中往往含有许多噪音词，如语气助词、副词、介词、连词。这些词对特征词库的建立没有任何贡献，一方面噪音词降低了文本分类的准确度，另一方面增加了模型训练成本，因此可过滤掉噪音词，减少特征词的个数，提高模型训练效率。

S3、在经过S1、S2两步操作后得到的特征词库已初具雏形，但还需要特征降维的处理。特征降维的目的是从原始特征库中选出最能代表文本内容的特征词，其基本思想是通过构造某种评价函数对特征词库进行计算，得到每个特征词的评价值，然后对特征词评价值进行排序，选择评价值较高的特征词。目前，常用到的评价函数有信息增益、期望交叉熵、互信息、卡方统计、文本证据权重等。

通过S1-S3步骤后，可建立得到满足基本需求的特征词库。

可选的，可对特征词库进行修正以提高其准确度，具体修正的方法将在步骤107说明。

104、建立分类模型可识别的特征矩阵以及类别向量。

对训练样本集的特征词库以及分类后的文本进行编码，建立分类模型可识别的特征矩阵以及类别向量。

结合步骤103，设备名称共分为17类，将设备类别按照1～17进行编码。

对特征词，如果该特征词出现在设备名称字段的语句中，则为1，否则为0。此时建立得到N×K维的特征矩阵X和N×1维的样本类别向量Y，如(7)式所示。

Y (N, 1) = [\begin{matrix} 1 \\ 2 \\ . \\ . \\ . \\ Y_{i} \\ . \\ . \\ . \\ 3 \\ 18 \end{matrix}] - - - (7)

(7)式中，N＝4799、K＝51、X_ik＝{0，1}、Y_i＝{1，2，......17}、i表示第i条样本数据、k表示第k个特征词。

105、根据特征矩阵以及类别向量训练分类模型。

从训练样本集的缺陷设备名称语句中提取形成特征矩阵X和类别向量Y。运用朴素贝叶斯模型，根据式(2)～(6)即可计算得出类别向量的分布概率P(X|Y_j)和每类设备的分布概率P(Y_j)。

106、利用经过训练的分类模型分类缺陷数据。

完成训练后，即可通过分类模型来分类缺陷数据，完成数据清理。

为提高分类准确性，可对分类模型的准确性进行验证，如果存在分类错误，则首先执行步骤107对分类模型进行修正，完成修正后在执行步骤106对缺陷数据做分类。

107、修正分类模型。

107-1、建立测试样本集，利用分类模型分类测试样本集的数据。

测试样本集用于验证分类模型分类缺陷数据的正确程度，本实施例中以南方电网2014年1-2月的输变电一次设备紧急、重大缺陷数据共347条作为测试样本集。

结合步骤103及104中对训练样本集的处理过程，对测试样本集做相同的处理，包括建立测试样本集的特征词库，并对测试样本集进行文本分类，建立分类模型可识别的特征矩阵以及类别向量，然后利用分类模型对训练样本集的数据进行分类。分类结果如表3所示，其中正确归类337条，错误归类10条，归类准确率为97.1％。

表3

107-2、从分类结果中筛选出分类错误项，并根据分类错误项修正分类模型。

结合表3，分类错误项共10项。以下结合表4对分类错误原因进行分析。

表4

针对表3验证数据中分类模型预测错误的10条数据，表4中列出了每条数据对应的特征词(包括特征词组合)对应的缺陷数据在训练集中的样本数量。由表4可以看出，分类模型预测错误的数据，其特征词组合在训练样本集中占比均很小，所占比例均小于0.1％。

为了分析训练样本量对预测结果的影响，本实施例在训练样本集中分别加入了10、15、20、25、50条特征词组合“#、主变、开关”对应的缺陷数据，即“#1主变高压侧101开关”数据，重新训练分类模型，并对2014年1-2月的347条紧急重大缺陷数据设备名称再次进行分类，结果如表5所示，表5中n为加入“#1主变高压侧101开关”数据的条数。对于未添加训练样本量的其他缺陷设备名称数据，预测结果仍为错误。

表5

设备名称	n＝10	n＝15	n＝20	n＝25	n＝50
						#1主变高压侧101开关	错误	错误	正确	正确	正确

由表5可知，训练样本集中，特征词所对应缺陷数据对朴素贝叶斯模型的预测结果有着直接的影响，训练样本越多，朴素贝叶斯模型的分类结果越准确。

对于本实施例中建立的分类模型，建议训练样本集中样本量应至少达到25条，即占整个训练样本集的0.5％。

基于以上分析，本实施例中对修正分类模型的过程分三个步骤说明如下：

步骤一，确定稀缺特征词，稀缺特征词包括分类错误项所对应的至少一个特征词。结合图表4，稀缺特征词可以包括特征词一列中所包括的至少一个特征词或者特征词组合。

步骤二，提高稀缺特征词所对应的缺陷数据在训练样本集中的比例。提供两种具体实现方式如下：

第一种，在训练样本集中加入n条稀缺特征词所对应的缺陷数据，使得稀缺特征词所对应的缺陷数据在训练样本集所占的比例超过预设阈值。预设阈值可以通过实验测试的方式确定，在本实施例中预设阈值取值可以为0.5％。

第二种，在训练样本集中加入n条稀缺特征词所对应的缺陷数据，使得P(Y_a|X)＞P(Y_b|X)。其中，Y_a为分类错误项所对应的正确分类，Y_b为分类模型所确定的分类错误项所对应的错误分类。

根据式(2)～(6)，在已知某一文本特征词向量X后，各个设备类别的概率为：

P (Y_{j} | X) = P (Y_{j}) Π_{k = 1}^{r} P (X_{k} | Y_{j}) = \frac{N_{j}}{N} Π_{k = 1}^{r} \frac{N (k, j)}{N_{j}} - - - (8)

(8)式中，r为样本数据中含有特征词的个数，r≤m。在X已知的条件下，假设正确分类得到的类别为Y_a，但分类模型分类确定的错误类别为Y_b，即说明P(Y_a|X)＜P(Y_b|X)。

在表4中，根据朴素贝叶斯模型计算出的“#1主变高压侧101开关”数据为断路器设备的概率为0.0009，为变压器的概率为0.0024，因此分类模型确定分类为变压器。为了对朴素贝叶斯模型进行修正，需要在训练样本中加入n条“#1主变高压侧101开关”数据，提高特征词组合“#、主变、开关”在训练样本集中的占比。加入后，设备类别为Y_a或Y_b的概率为：

\{\begin{matrix} P (Y_{a} | X) = P (Y_{a}) Π_{k = 1}^{r} P (X_{k} | Y_{a}) = \frac{N_{a} + n}{N + n} Π_{k = 1}^{r} \frac{N (k, a) + n}{N_{a} + n} \\ P (Y_{b} | X) = P (Y_{b}) Π_{k = 1}^{r} P (X_{k} | Y_{b}) = \frac{N_{b}}{N + n} Π_{k = 1}^{r} \frac{N (k, b)}{N_{b}} \end{matrix} - - - (9)

n的取值只需使得P(Y_a|X)＞P(Y_b|X)即可。

步骤三，利用更新后的训练样本集重新训练分类模型，得到经过修正的分类模型。

本发明的实施例所提供的缺陷数据的分类方法，基于朴素贝叶斯原理建立用于分类缺陷数据的分类模型，并通过训练样本集对分类模型进行训练，利用经过训练的分类模型来分类缺陷数据，从而减少人工工作量，缩短数据清理所耗费的时间。进一步地，通过对分类模型进行修正，利用修正后的分类模型分类缺陷数据，可以提高分类的正确性，达到快速、准确分类的目的。

本发明的实施例还提供一种缺陷数据的分类装置，用于执行上述实施例中所描述的缺陷数据的分类方法。分类装置所执行的步骤，与图1所对应的实施例中所描述的步骤相同，此处只作简要说明。

参照图2所示，分类装置20包括：

数据管理单元201，用于建立分类模型以及训练样本集。分类数据为用于分类缺陷数据的朴素贝叶斯模型，训练样本集为用于训练分类模型的缺陷数据集。

数据预处理单元202，用于建立训练样本集的特征词库，并对训练样本集进行文本分类。还用于对训练样本集的特征词库以及分类后的文本进行编码，建立分类模型可识别的特征矩阵以及类别向量。

训练单元203，用于根据特征矩阵以及类别向量训练分类模型。

数据分类单元204，用于利用经过训练的分类模型分类缺陷数据。

可选的，数据管理单元201，还用于建立测试样本集。测试样本集用于验证分类模型分类缺陷数据的正确程度。

数据分类单元204，还用于利用分类模型分类测试样本集的数据。

分类装置20还包括测试验证单元205，用于从分类结果中筛选出分类错误项，并根据分类错误项指示训练单元203修正分类模型。

可选的，测试验证单元205，具体用于确定稀缺特征词，稀缺特征词包括分类错误项所对应的至少一个特征词。

数据管理单元201，还用于提高稀缺特征词所对应的缺陷数据在训练样本集中的比例。

训练单元203，还用于利用更新后的训练样本集重新训练分类模型。

可选的，数据管理单元201，具体用于在训练样本集中加入n条稀缺特征词所对应的缺陷数据，使得P(Y_a|X)＞P(Y_b|X)。

其中，Y_a为分类错误项所对应的正确分类，Y_b为分类模型所确定的分类错误项所对应的错误分类。

可选的，数据管理单元201，具体还用于在训练样本集中加入n条稀缺特征词所对应的缺陷数据，使得稀缺特征词所对应的缺陷数据在训练样本集所占的比例超过预设阈值。

本发明的实施例所提供的缺陷数据的分类装置，基于朴素贝叶斯原理建立用于分类缺陷数据的分类模型，并通过训练样本集对分类模型进行训练，利用经过训练的分类模型来分类缺陷数据，从而减少人工工作量，缩短数据清理所耗费的时间。进一步地，通过对分类模型进行修正，利用修正后的分类模型分类缺陷数据，可以提高分类的正确性，达到快速、准确分类的目的。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种缺陷数据的分类方法，其特征在于，包括；

根据所述特征矩阵以及所述类别向量训练所述分类模型；

利用经过训练的所述分类模型分类缺陷数据。

2.根据权利要求1所述的分类方法，其特征在于，所述利用经过训练的所述分类模型分类缺陷数据之前，所述分类方法还包括：

建立测试样本集，利用所述分类模型分类所述测试样本集的数据；所述测试样本集用于验证所述分类模型分类缺陷数据的正确程度；

从分类结果中筛选出分类错误项，并根据所述分类错误项修正所述分类模型。

3.根据权利要求2所述的分类方法，其特征在于，所述根据所述分类错误项修正所述分类模型，包括：

确定稀缺特征词，所述稀缺特征词包括所述分类错误项所对应的至少一个特征词；

提高所述稀缺特征词所对应的缺陷数据在所述训练样本集中的比例，利用更新后的所述训练样本集重新训练所述分类模型。

4.根据权利要求3所述的分类方法，其特征在于，所述利用经过训练的所述分类模型分类缺陷数据，包括：

以p_max对应的类别为样本特征所属的类别；

其中，X为样本特征向量，Y为类别向量，X＝{X₁,X₂,……X_m}，Y＝{y₁,y₂,……y_n}。

5.根据权利要求4所述的分类方法，其特征在于，所述提高所述稀缺特征词所对应的缺陷数据在所述训练样本集中的比例，包括：

在所述训练样本集中加入n条所述稀缺特征词所对应的缺陷数据，使得P(Y_a|X)>P(Y_b|X)；

其中，Y_a为所述分类错误项所对应的正确分类，Y_b为所述分类模型所确定的所述分类错误项所对应的错误分类。

6.根据权利要求4所述的分类方法，其特征在于，所述提高所述稀缺特征词所对应的缺陷数据在所述训练样本集中的比例，包括：

在所述训练样本集中加入n条所述稀缺特征词所对应的缺陷数据，使得所述稀缺特征词所对应的缺陷数据在所述训练样本集所占的比例超过预设阈值。

7.根据权利要求1-6任一项所述的分类方法，其特征在于，所述利用经过训练的所述分类模型分类缺陷数据，包括：

利用经过训练的所述分类模型，根据所述缺陷数据的目标字段分类缺陷数据；其中，所述目标字段包括缺陷类别字段、缺陷部位字段、缺陷原因字段中的任一字段。

8.一种缺陷数据的分类装置，其特征在于，包括：

数据管理单元，用于建立分类模型以及训练样本集；所述分类数据为用于分类缺陷数据的朴素贝叶斯模型，所述训练样本集为用于训练所述分类模型的缺陷数据集；

数据预处理单元，用于建立所述训练样本集的特征词库，并对所述训练样本集进行文本分类；还用于对所述训练样本集的特征词库以及分类后的文本进行编码，建立所述分类模型可识别的特征矩阵以及类别向量；

训练单元，用于根据所述特征矩阵以及所述类别向量训练所述分类模型；

数据分类单元，用于利用经过训练的所述分类模型分类缺陷数据。

9.根据权利要求8所述的分类装置，其特征在于，

所述数据管理单元，还用于建立测试样本集；所述测试样本集用于验证所述分类模型分类缺陷数据的正确程度；

所述数据分类单元，还用于利用所述分类模型分类所述测试样本集的数据；

所述分类装置还包括测试验证单元，用于从分类结果中筛选出分类错误项，并根据所述分类错误项指示所述训练单元修正所述分类模型。

10.根据权利要求9所述的分类装置，其特征在于，

所述测试验证单元，具体用于确定稀缺特征词，所述稀缺特征词包括所述分类错误项所对应的至少一个特征词；

所述数据管理单元，还用于提高所述稀缺特征词所对应的缺陷数据在所述训练样本集中的比例；

所述训练单元，还用于利用更新后的所述训练样本集重新训练所述分类模型。