CN106202274B

CN106202274B - 一种基于贝叶斯网络的缺陷数据自动文摘分类方法

Info

Publication number: CN106202274B
Application number: CN201610506195.6A
Authority: CN
Inventors: 黄绪勇; 孙鹏; 刘文波; 王裴劼; 张�浩; 陈达; 胡勇
Original assignee: Electric Power Research Institute of Yunnan Power System Ltd
Current assignee: Electric Power Research Institute of Yunnan Power System Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2019-10-15
Anticipated expiration: 2036-06-30
Also published as: CN106202274A

Abstract

一种基于贝叶斯网络的缺陷数据自动文摘分类方法，包括：a.对每条缺陷数据中缺陷表象、缺陷部位、缺陷描述、缺陷设备、缺陷原因各象限中的文本信息进行整合，将整合后的缺陷记录作为一个文本分析对象；利用中文分词系统对缺陷文本样本进行分词；b.利用贝叶斯分类算法，分别对缺陷样本数据进行设备名称、缺陷部位、缺陷类型三个分析维度的文摘分类，得到部分缺陷维度的分类类型；c.根据缺陷数据内部各维度之间的关联关系，利用已分类出的部分缺陷维度文摘构建缺陷文摘信息的贝叶斯网络模型，得到缺陷模型的学习规则；d.对实际缺陷数据进行自动文摘和分类处理，从而规范缺陷数据，为设备缺陷相关的分析应用提供基础数据。

Description

一种基于贝叶斯网络的缺陷数据自动文摘分类方法

技术领域：

本发明涉及电力设备数据处理技术，尤其涉及一种基于贝叶斯网络的缺陷数据自动文摘分类方法。

背景技术：

设备缺陷数据自身包含的数据信息很丰富，缺陷数据的记录是采用人为定性的填写表单方式。不同的工作人员缺陷判断的思路不同，导致录入系统的缺陷数据呈现出信息口语化、缺失、表述模糊等特征。在数据规模剧增、数据结构错综复杂的大背景下，挖掘数据资源中有价值的模式和规律，指导电力设备运行，辅助设备风险监控。因此，根据实际缺陷数据现状，寻求一种更高效、科学的设备缺陷数据处理方法，构建贝叶斯网络模型，实现缺陷数据的自动文摘分类，对提高电网系统运行决策、风险监控水平具有重要指导意义。

发明内容：

本发明的一种基于贝叶斯网络的缺陷数据自动文摘分类方法，所述方法包括：

a.对每条缺陷数据中缺陷表象、缺陷部位、缺陷描述、缺陷设备、缺陷原因各象限中的文本信息进行整合，将整合后的缺陷记录作为一个文本分析对象；利用中文分词系统对缺陷文本样本进行分词；

b.利用贝叶斯分类算法，分别对缺陷样本数据进行设备名称、缺陷部位、缺陷类型三个分析维度的文摘分类，得到部分缺陷维度的分类类型；

c.根据缺陷数据内部各维度之间的关联关系，利用已分类出的部分缺陷维度文摘构建缺陷文摘信息的贝叶斯网络模型，得到缺陷模型的学习规则；

d.对实际缺陷数据进行自动文摘和分类处理，从而规范缺陷数据，为设备缺陷相关的分析应用提供基础数据。

其中，步骤a所述缺陷样本数据包括缺陷发现时间、缺陷原因、缺陷表象、缺陷部位、缺陷描述、缺陷设备等文本信息；在合并文本信息过程中，对各项中重复描述的文本内容进行删减，得到一条简洁的缺陷数据。

其中，步骤a所述中文分词系统是中科院设计的ICTCLAS2016分词系统，对每条合并后的缺陷数据进行批量分词，得到缺陷文本信息样本。

其中，步骤b所述分别对缺陷样本进行设备名称、缺陷类型、缺陷部位维度上的贝叶斯分类处理；该过程是指通过利用贝叶斯网络学习已分类好属性类别的缺陷样本，得到能分别识别设备名称、缺陷部位、缺陷类型三个文摘维度的分类模型，对缺陷数据进行初步的分类处理，得到缺陷数据的部分文摘信息；

其中，步骤b所述各维度的分类处理过程基本相同，都是在提取词干后，利用贝叶斯网络对样本数据进行学习，网络模型由不同的各类别属性来进行构建，其次将遗传搜索算法作为贝叶斯网络结构的搜索路劲，训练学习得到<设备名称>维度的贝叶斯模型；

步骤b01：在对<设备名称>维度进行分类时，设缺陷数据集为TD＝{[T₁,SM₁],[T₂,SM₂]...,[T_n,SM_n]}，其中，T_i表示第i条缺陷样本信息，SM_i表示T_i缺陷数据的设备名称类别。将数据集划分为训练集和测试集，先对缺陷文本数据进行字符串属性转换，转换成可标识的向量类型，获得TFIDF数据，文本转化为矢量后，对缺陷文本数据中的停用词进行过滤，并对文本进行词干提取；在提取到准关键词后，利用贝叶斯网络对样本数据进行学习，网络模型由不同的各类别属性来进行构建，其次将遗传搜索算法作为贝叶斯网络结构的搜索路劲，训练学习得到<设备名称>维度的贝叶斯模型。

步骤b02和b03：依上述数据处理过程，分别建立缺陷数据<缺陷部位>、<缺陷类别>维度的缺陷数据集，然后在已有缺陷数据样本的基础上，进行贝叶斯网络模型的训练，得到三个缺陷维度的分类模型，用于设备缺陷数据各维度上的分类处理。

其中，步骤c所述根据步骤b分类出的设备名称、缺陷部位、缺陷类型信息，利用步骤b中已分类出的部分历史缺陷数据摘要和历史缺陷数据在各维度上的信息，构建缺陷自动文摘的贝叶斯网络模型，学习训练得到对应模型的学习规则。

设数据集

TD＝{[T₁,SM₁,SL₁,QB₁,QL₁,QY₁],...,[T_n,SM_n,SL_n,QB_n,QL_n,QY_n]}，数据集中，SL_i,QB_i,QL_i,QY_i分别表示T_i缺陷数据的设备类型、缺陷部位、缺陷类型、缺陷原因类别。将设备名称、设备类型、缺陷部位、缺陷类型、缺陷原因作为贝叶斯网络结构的训练节点，在步骤b中初步分类出来的设备名称、缺陷部位、缺陷类型维度的信息基础上，估计网络的条件概率表，可分别尝试使用K2或TAN算法、爬山法、模拟退火、禁忌搜索和遗传算法等不同搜索算法，得到不同搜索策略下训练生成的网络模型，将网络参数调整至最优，通过比较各学习方案中模型的自动文摘准确率、时间效率等参数，来最终确定不同分析场景下、不同缺陷数据的自动文摘分类处理模型，实现缺陷数据的标准化，提高缺陷分析数据的质量。

其中，步骤d所述，是指通过训练历史缺陷样本数据得到分类模型后，根据设备所有缺陷类型的缺陷数据，分别进行分类和数据的文摘提取，得到缺陷数据的分类分析结论及规范化表述形式。

有益效果：本发明针对系统缺陷数据不规范、缺失、表述模糊等问题，利用缺陷数据内部之间的关联，构建贝叶斯网络模型，实现缺陷数据的自动文摘分类，不仅规范了历史缺陷数据的记录，还将缺陷数据做了较为精确的分类，为其他的设备缺陷分析功能提供质量较好的基础数据，发挥电网数据在设备运行决策、风险监控中的重要应用价值。

附图说明：

图1为本发明的流程图。

具体实施方式

为使本发明的技术方案和优势更加清楚，下面根据说明附图1对本方法作具体说明描述：

步骤a.首先，对每条缺陷数据中缺陷表象、缺陷部位、缺陷描述、缺陷设备、缺陷原因各象限中的文本信息进行整合，在合并文本信息过程中，对各项中重复描述的文本内容进行删减，得到一条简洁的缺陷数据。将整合后的缺陷记录作为一个文本分析对象；

然后，利用中科院设计的ICTCLAS2016分词系统对合并后的每条缺陷数据进行批量分词处理，得到缺陷文本信息样本。

步骤b.利用贝叶斯分类算法，分别对缺陷样本进行设备名称、缺陷类型、缺陷部位维度上的贝叶斯分类处理；该过程是指通过利用贝叶斯网络学习已分类好属性类别的缺陷样本，得到能分别识别设备名称、缺陷部位、缺陷类型三个文摘维度的分类模型，对缺陷数据进行初步的分类处理，得到缺陷数据的部分文摘信息；

步骤c.根据步骤b分类出的设备名称、缺陷部位、缺陷类型信息，学习缺陷数据内部各维度之间的关联关系，利用已分类出的部分缺陷维度文摘构建缺陷文摘信息的贝叶斯网络模型，得到缺陷模型的学习规则；

设数据集

步骤d.通过训练历史缺陷样本数据得到分类模型后，根据设备所有缺陷类型的缺陷数据，分别进行分类和数据的文摘提取，得到缺陷数据的分类分析结论及规范化表述形式。

Claims

1.一种基于贝叶斯网络的缺陷数据自动文摘分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于贝叶斯网络的缺陷数据自动文摘分类方法，其特征在于，步骤b所述分别对缺陷样本进行设备名称、缺陷类型、缺陷部位维度上的贝叶斯分类处理；该过程是指通过利用贝叶斯网络学习已分类好属性类别的缺陷样本，得到能分别识别设备名称、缺陷部位、缺陷类型三个文摘维度的分类模型，对缺陷数据进行初步的分类处理，得到缺陷数据的部分文摘信息；

其中，步骤b所述各维度的分类处理过程基本相同，都是在提取词干后，利用贝叶斯网络对样本数据进行学习，网络模型由不同的各类别属性来进行构建，其次将遗传搜索算法作为贝叶斯网络结构的搜索路径，训练学习得到设备名称维度的贝叶斯模型。

3.根据权利要求1所述的一种基于贝叶斯网络的缺陷数据自动文摘分类方法，其特征在于，步骤c所述根据步骤b分类出的设备名称、缺陷部位、缺陷类型信息，利用步骤b中已分类出的部分历史缺陷数据摘要和历史缺陷数据在各维度上的信息，构建缺陷自动文摘的贝叶斯网络模型，学习训练得到对应模型的学习规则；

设数据集

TD＝{[T₁,SM₁,SL₁,QB₁,QL₁,QY₁],...,[T_n,SM_n,SL_n,QB_n,QL_n,QY_n]}，数据集中，SL_i,QB_i,QL_i,QY_i分别表示T_i缺陷数据的设备类型、缺陷部位、缺陷类型、缺陷原因类别；将设备名称、设备类型、缺陷部位、缺陷类型、缺陷原因作为贝叶斯网络结构的训练节点，在步骤b中初步分类出来的设备名称、缺陷部位、缺陷类型维度的信息基础上，估计网络的条件概率表，可分别尝试使用K2或TAN算法、爬山法、模拟退火、禁忌搜索和遗传算法的不同搜索算法，得到不同搜索策略下训练生成的网络模型，将网络参数调整至最优，通过比较各学习方案中模型的自动文摘准确率、时间效率参数，来最终确定不同分析场景下、不同缺陷数据的自动文摘分类处理模型，实现缺陷数据的标准化，提高缺陷分析数据的质量。

4.根据权利要求1所述的一种基于贝叶斯网络的缺陷数据自动文摘分类方法，其特征在于，步骤d所述，是指通过训练历史缺陷样本数据得到分类模型后，根据设备所有缺陷类型的缺陷数据，分别进行分类和数据的文摘提取，得到缺陷数据的分类分析结论及规范化表述形式。