CN106202274B - 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 - Google Patents
一种基于贝叶斯网络的缺陷数据自动文摘分类方法 Download PDFInfo
- Publication number
- CN106202274B CN106202274B CN201610506195.6A CN201610506195A CN106202274B CN 106202274 B CN106202274 B CN 106202274B CN 201610506195 A CN201610506195 A CN 201610506195A CN 106202274 B CN106202274 B CN 106202274B
- Authority
- CN
- China
- Prior art keywords
- defect
- data
- classification
- dimension
- defective data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)
Abstract
一种基于贝叶斯网络的缺陷数据自动文摘分类方法,包括:a.对每条缺陷数据中缺陷表象、缺陷部位、缺陷描述、缺陷设备、缺陷原因各象限中的文本信息进行整合,将整合后的缺陷记录作为一个文本分析对象;利用中文分词系统对缺陷文本样本进行分词;b.利用贝叶斯分类算法,分别对缺陷样本数据进行设备名称、缺陷部位、缺陷类型三个分析维度的文摘分类,得到部分缺陷维度的分类类型;c.根据缺陷数据内部各维度之间的关联关系,利用已分类出的部分缺陷维度文摘构建缺陷文摘信息的贝叶斯网络模型,得到缺陷模型的学习规则;d.对实际缺陷数据进行自动文摘和分类处理,从而规范缺陷数据,为设备缺陷相关的分析应用提供基础数据。
Description
技术领域:
本发明涉及电力设备数据处理技术,尤其涉及一种基于贝叶斯网络的缺陷数据自动文摘分类方法。
背景技术:
设备缺陷数据自身包含的数据信息很丰富,缺陷数据的记录是采用人为定性的填写表单方式。不同的工作人员缺陷判断的思路不同,导致录入系统的缺陷数据呈现出信息口语化、缺失、表述模糊等特征。在数据规模剧增、数据结构错综复杂的大背景下,挖掘数据资源中有价值的模式和规律,指导电力设备运行,辅助设备风险监控。因此,根据实际缺陷数据现状,寻求一种更高效、科学的设备缺陷数据处理方法,构建贝叶斯网络模型,实现缺陷数据的自动文摘分类,对提高电网系统运行决策、风险监控水平具有重要指导意义。
发明内容:
本发明的一种基于贝叶斯网络的缺陷数据自动文摘分类方法,所述方法包括:
a.对每条缺陷数据中缺陷表象、缺陷部位、缺陷描述、缺陷设备、缺陷原因各象限中的文本信息进行整合,将整合后的缺陷记录作为一个文本分析对象;利用中文分词系统对缺陷文本样本进行分词;
b.利用贝叶斯分类算法,分别对缺陷样本数据进行设备名称、缺陷部位、缺陷类型三个分析维度的文摘分类,得到部分缺陷维度的分类类型;
c.根据缺陷数据内部各维度之间的关联关系,利用已分类出的部分缺陷维度文摘构建缺陷文摘信息的贝叶斯网络模型,得到缺陷模型的学习规则;
d.对实际缺陷数据进行自动文摘和分类处理,从而规范缺陷数据,为设备缺陷相关的分析应用提供基础数据。
其中,步骤a所述缺陷样本数据包括缺陷发现时间、缺陷原因、缺陷表象、缺陷部位、缺陷描述、缺陷设备等文本信息;在合并文本信息过程中,对各项中重复描述的文本内容进行删减,得到一条简洁的缺陷数据。
其中,步骤a所述中文分词系统是中科院设计的ICTCLAS2016分词系统,对每条合并后的缺陷数据进行批量分词,得到缺陷文本信息样本。
其中,步骤b所述分别对缺陷样本进行设备名称、缺陷类型、缺陷部位维度上的贝叶斯分类处理;该过程是指通过利用贝叶斯网络学习已分类好属性类别的缺陷样本,得到能分别识别设备名称、缺陷部位、缺陷类型三个文摘维度的分类模型,对缺陷数据进行初步的分类处理,得到缺陷数据的部分文摘信息;
其中,步骤b所述各维度的分类处理过程基本相同,都是在提取词干后,利用贝叶斯网络对样本数据进行学习,网络模型由不同的各类别属性来进行构建,其次将遗传搜索算法作为贝叶斯网络结构的搜索路劲,训练学习得到<设备名称>维度的贝叶斯模型;
步骤b01:在对<设备名称>维度进行分类时,设缺陷数据集为TD={[T1,SM1],[T2,SM2]...,[Tn,SMn]},其中,Ti表示第i条缺陷样本信息,SMi表示Ti缺陷数据的设备名称类别。将数据集划分为训练集和测试集,先对缺陷文本数据进行字符串属性转换,转换成可标识的向量类型,获得TFIDF数据,文本转化为矢量后,对缺陷文本数据中的停用词进行过滤,并对文本进行词干提取;在提取到准关键词后,利用贝叶斯网络对样本数据进行学习,网络模型由不同的各类别属性来进行构建,其次将遗传搜索算法作为贝叶斯网络结构的搜索路劲,训练学习得到<设备名称>维度的贝叶斯模型。
步骤b02和b03:依上述数据处理过程,分别建立缺陷数据<缺陷部位>、<缺陷类别>维度的缺陷数据集,然后在已有缺陷数据样本的基础上,进行贝叶斯网络模型的训练,得到三个缺陷维度的分类模型,用于设备缺陷数据各维度上的分类处理。
其中,步骤c所述根据步骤b分类出的设备名称、缺陷部位、缺陷类型信息,利用步骤b中已分类出的部分历史缺陷数据摘要和历史缺陷数据在各维度上的信息,构建缺陷自动文摘的贝叶斯网络模型,学习训练得到对应模型的学习规则。
设数据集
TD={[T1,SM1,SL1,QB1,QL1,QY1],...,[Tn,SMn,SLn,QBn,QLn,QYn]},数据集中,SLi,QBi,QLi,QYi分别表示Ti缺陷数据的设备类型、缺陷部位、缺陷类型、缺陷原因类别。将设备名称、设备类型、缺陷部位、缺陷类型、缺陷原因作为贝叶斯网络结构的训练节点,在步骤b中初步分类出来的设备名称、缺陷部位、缺陷类型维度的信息基础上,估计网络的条件概率表,可分别尝试使用K2或TAN算法、爬山法、模拟退火、禁忌搜索和遗传算法等不同搜索算法,得到不同搜索策略下训练生成的网络模型,将网络参数调整至最优,通过比较各学习方案中模型的自动文摘准确率、时间效率等参数,来最终确定不同分析场景下、不同缺陷数据的自动文摘分类处理模型,实现缺陷数据的标准化,提高缺陷分析数据的质量。
其中,步骤d所述,是指通过训练历史缺陷样本数据得到分类模型后,根据设备所有缺陷类型的缺陷数据,分别进行分类和数据的文摘提取,得到缺陷数据的分类分析结论及规范化表述形式。
有益效果:本发明针对系统缺陷数据不规范、缺失、表述模糊等问题,利用缺陷数据内部之间的关联,构建贝叶斯网络模型,实现缺陷数据的自动文摘分类,不仅规范了历史缺陷数据的记录,还将缺陷数据做了较为精确的分类,为其他的设备缺陷分析功能提供质量较好的基础数据,发挥电网数据在设备运行决策、风险监控中的重要应用价值。
附图说明:
图1为本发明的流程图。
具体实施方式
为使本发明的技术方案和优势更加清楚,下面根据说明附图1对本方法作具体说明描述:
步骤a.首先,对每条缺陷数据中缺陷表象、缺陷部位、缺陷描述、缺陷设备、缺陷原因各象限中的文本信息进行整合,在合并文本信息过程中,对各项中重复描述的文本内容进行删减,得到一条简洁的缺陷数据。将整合后的缺陷记录作为一个文本分析对象;
然后,利用中科院设计的ICTCLAS2016分词系统对合并后的每条缺陷数据进行批量分词处理,得到缺陷文本信息样本。
步骤b.利用贝叶斯分类算法,分别对缺陷样本进行设备名称、缺陷类型、缺陷部位维度上的贝叶斯分类处理;该过程是指通过利用贝叶斯网络学习已分类好属性类别的缺陷样本,得到能分别识别设备名称、缺陷部位、缺陷类型三个文摘维度的分类模型,对缺陷数据进行初步的分类处理,得到缺陷数据的部分文摘信息;
其中,步骤b所述各维度的分类处理过程基本相同,都是在提取词干后,利用贝叶斯网络对样本数据进行学习,网络模型由不同的各类别属性来进行构建,其次将遗传搜索算法作为贝叶斯网络结构的搜索路劲,训练学习得到<设备名称>维度的贝叶斯模型;
步骤b01:在对<设备名称>维度进行分类时,设缺陷数据集为TD={[T1,SM1],[T2,SM2]...,[Tn,SMn]},其中,Ti表示第i条缺陷样本信息,SMi表示Ti缺陷数据的设备名称类别。将数据集划分为训练集和测试集,先对缺陷文本数据进行字符串属性转换,转换成可标识的向量类型,获得TFIDF数据,文本转化为矢量后,对缺陷文本数据中的停用词进行过滤,并对文本进行词干提取;在提取到准关键词后,利用贝叶斯网络对样本数据进行学习,网络模型由不同的各类别属性来进行构建,其次将遗传搜索算法作为贝叶斯网络结构的搜索路劲,训练学习得到<设备名称>维度的贝叶斯模型。
步骤b02和b03:依上述数据处理过程,分别建立缺陷数据<缺陷部位>、<缺陷类别>维度的缺陷数据集,然后在已有缺陷数据样本的基础上,进行贝叶斯网络模型的训练,得到三个缺陷维度的分类模型,用于设备缺陷数据各维度上的分类处理。
步骤c.根据步骤b分类出的设备名称、缺陷部位、缺陷类型信息,学习缺陷数据内部各维度之间的关联关系,利用已分类出的部分缺陷维度文摘构建缺陷文摘信息的贝叶斯网络模型,得到缺陷模型的学习规则;
设数据集
TD={[T1,SM1,SL1,QB1,QL1,QY1],...,[Tn,SMn,SLn,QBn,QLn,QYn]},数据集中,SLi,QBi,QLi,QYi分别表示Ti缺陷数据的设备类型、缺陷部位、缺陷类型、缺陷原因类别。将设备名称、设备类型、缺陷部位、缺陷类型、缺陷原因作为贝叶斯网络结构的训练节点,在步骤b中初步分类出来的设备名称、缺陷部位、缺陷类型维度的信息基础上,估计网络的条件概率表,可分别尝试使用K2或TAN算法、爬山法、模拟退火、禁忌搜索和遗传算法等不同搜索算法,得到不同搜索策略下训练生成的网络模型,将网络参数调整至最优,通过比较各学习方案中模型的自动文摘准确率、时间效率等参数,来最终确定不同分析场景下、不同缺陷数据的自动文摘分类处理模型,实现缺陷数据的标准化,提高缺陷分析数据的质量。
步骤d.通过训练历史缺陷样本数据得到分类模型后,根据设备所有缺陷类型的缺陷数据,分别进行分类和数据的文摘提取,得到缺陷数据的分类分析结论及规范化表述形式。
Claims (4)
1.一种基于贝叶斯网络的缺陷数据自动文摘分类方法,其特征在于,所述方法包括:
a.对每条缺陷数据中缺陷表象、缺陷部位、缺陷描述、缺陷设备、缺陷原因各象限中的文本信息进行整合,将整合后的缺陷记录作为一个文本分析对象;利用中文分词系统对缺陷文本样本进行分词;
b.利用贝叶斯分类算法,分别对缺陷样本数据进行设备名称、缺陷部位、缺陷类型三个分析维度的文摘分类,得到部分缺陷维度的分类类型;
c.根据缺陷数据内部各维度之间的关联关系,利用已分类出的部分缺陷维度文摘构建缺陷文摘信息的贝叶斯网络模型,得到缺陷模型的学习规则;
d.对实际缺陷数据进行自动文摘和分类处理,从而规范缺陷数据,为设备缺陷相关的分析应用提供基础数据。
2.根据权利要求1所述的一种基于贝叶斯网络的缺陷数据自动文摘分类方法,其特征在于,步骤b所述分别对缺陷样本进行设备名称、缺陷类型、缺陷部位维度上的贝叶斯分类处理;该过程是指通过利用贝叶斯网络学习已分类好属性类别的缺陷样本,得到能分别识别设备名称、缺陷部位、缺陷类型三个文摘维度的分类模型,对缺陷数据进行初步的分类处理,得到缺陷数据的部分文摘信息;
其中,步骤b所述各维度的分类处理过程基本相同,都是在提取词干后,利用贝叶斯网络对样本数据进行学习,网络模型由不同的各类别属性来进行构建,其次将遗传搜索算法作为贝叶斯网络结构的搜索路径,训练学习得到设备名称维度的贝叶斯模型。
3.根据权利要求1所述的一种基于贝叶斯网络的缺陷数据自动文摘分类方法,其特征在于,步骤c所述根据步骤b分类出的设备名称、缺陷部位、缺陷类型信息,利用步骤b中已分类出的部分历史缺陷数据摘要和历史缺陷数据在各维度上的信息,构建缺陷自动文摘的贝叶斯网络模型,学习训练得到对应模型的学习规则;
设数据集
TD={[T1,SM1,SL1,QB1,QL1,QY1],...,[Tn,SMn,SLn,QBn,QLn,QYn]},数据集中,SLi,QBi,QLi,QYi分别表示Ti缺陷数据的设备类型、缺陷部位、缺陷类型、缺陷原因类别;将设备名称、设备类型、缺陷部位、缺陷类型、缺陷原因作为贝叶斯网络结构的训练节点,在步骤b中初步分类出来的设备名称、缺陷部位、缺陷类型维度的信息基础上,估计网络的条件概率表,可分别尝试使用K2或TAN算法、爬山法、模拟退火、禁忌搜索和遗传算法的不同搜索算法,得到不同搜索策略下训练生成的网络模型,将网络参数调整至最优,通过比较各学习方案中模型的自动文摘准确率、时间效率参数,来最终确定不同分析场景下、不同缺陷数据的自动文摘分类处理模型,实现缺陷数据的标准化,提高缺陷分析数据的质量。
4.根据权利要求1所述的一种基于贝叶斯网络的缺陷数据自动文摘分类方法,其特征在于,步骤d所述,是指通过训练历史缺陷样本数据得到分类模型后,根据设备所有缺陷类型的缺陷数据,分别进行分类和数据的文摘提取,得到缺陷数据的分类分析结论及规范化表述形式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610506195.6A CN106202274B (zh) | 2016-06-30 | 2016-06-30 | 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610506195.6A CN106202274B (zh) | 2016-06-30 | 2016-06-30 | 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202274A CN106202274A (zh) | 2016-12-07 |
CN106202274B true CN106202274B (zh) | 2019-10-15 |
Family
ID=57464431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610506195.6A Active CN106202274B (zh) | 2016-06-30 | 2016-06-30 | 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202274B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777237B (zh) * | 2016-12-27 | 2019-10-01 | 武汉延锋时代检测技术股份有限公司 | 一种表面缺陷的分析方法 |
CN108875045B (zh) * | 2018-06-28 | 2021-06-04 | 第四范式(北京)技术有限公司 | 针对文本分类来执行机器学习过程的方法及其系统 |
CN109615266B (zh) * | 2018-12-26 | 2022-11-04 | 贵州电网有限责任公司 | 基于数据挖掘的电网异常信息的文本分析决策方法 |
CN110909774B (zh) * | 2019-11-08 | 2023-01-17 | 海南电网有限责任公司海南输变电检修分公司 | 一种基于贝叶斯分类的变电设备发热缺陷原因判别方法 |
CN115440043B (zh) * | 2021-09-26 | 2023-07-25 | 国信军创(岳阳)六九零六科技有限公司 | 基于rfid车辆识别实时路况信息道路监控管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737350A (zh) * | 2012-06-08 | 2012-10-17 | 南方电网科学研究院有限责任公司 | 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 |
CN103136360A (zh) * | 2013-03-07 | 2013-06-05 | 北京宽连十方数字技术有限公司 | 一种互联网行为标注引擎及对应该引擎的行为标注方法 |
CN104699772A (zh) * | 2015-03-05 | 2015-06-10 | 孟海东 | 一种基于云计算的大数据文本分类方法 |
CN105512687A (zh) * | 2015-12-15 | 2016-04-20 | 北京锐安科技有限公司 | 训练情感分类模型和文本情感极性分析的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090049018A1 (en) * | 2007-08-14 | 2009-02-19 | John Nicholas Gross | Temporal Document Sorter and Method Using Semantic Decoding and Prediction |
-
2016
- 2016-06-30 CN CN201610506195.6A patent/CN106202274B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737350A (zh) * | 2012-06-08 | 2012-10-17 | 南方电网科学研究院有限责任公司 | 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 |
CN103136360A (zh) * | 2013-03-07 | 2013-06-05 | 北京宽连十方数字技术有限公司 | 一种互联网行为标注引擎及对应该引擎的行为标注方法 |
CN104699772A (zh) * | 2015-03-05 | 2015-06-10 | 孟海东 | 一种基于云计算的大数据文本分类方法 |
CN105512687A (zh) * | 2015-12-15 | 2016-04-20 | 北京锐安科技有限公司 | 训练情感分类模型和文本情感极性分析的方法及系统 |
Non-Patent Citations (1)
Title |
---|
《贝叶斯分类算法在社交网站信息过滤中的应用分析》;李志义等;《图书情报工作》;20140731;第58卷(第13期);100-106 * |
Also Published As
Publication number | Publication date |
---|---|
CN106202274A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202274B (zh) | 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 | |
CN109189767A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN106557778A (zh) | 通用物体检测方法和装置、数据处理装置和终端设备 | |
CN110532398B (zh) | 基于多任务联合神经网络模型的家族图谱自动构建方法 | |
CN108596038B (zh) | 一种结合形态学分割和神经网络的粪便中红细胞识别方法 | |
CN104820724B (zh) | 文本类教育资源知识点预测模型获得方法及模型应用方法 | |
CN106294344A (zh) | 视频检索方法和装置 | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN109166591A (zh) | 一种基于音频特征信号的分类方法 | |
CN107194617A (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN110069630A (zh) | 一种改进的互信息特征选择方法 | |
CN102012977A (zh) | 一种基于概率神经网络集成的信号肽预测方法 | |
CN103886030A (zh) | 基于代价敏感决策树的信息物理融合系统数据分类方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN106934055A (zh) | 一种基于不充分模态信息的半监督网页自动分类方法 | |
CN109446964A (zh) | 基于端到端单级多尺度检测器的面部检测分析方法及装置 | |
CN115376101A (zh) | 一种面向自动驾驶环境感知的增量式学习方法和系统 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN104361015A (zh) | 一种邮件分类识别方法 | |
CN114898220A (zh) | 一种高空作业车结构件的智能生产控制方法 | |
CN114972222A (zh) | 细胞信息统计方法、装置、设备及计算机可读存储介质 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
CN111666748B (zh) | 一种自动化分类器的构造方法以及识别决策的方法 | |
CN113052217A (zh) | 预测结果标识及其模型训练方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20170901 Address after: Yunda economic and Technological Development Zone in Yunnan province Kunming city 650206 West Road No. 105 Applicant after: Electric Power Research Institute of Yunnan Power System Ltd Address before: Yunda economic and Technological Development Zone in Yunnan province Kunming city 650217 West Road No. 105 Applicant before: Electric Power Research Institute of Yunnan Power System Ltd Applicant before: Kunming Enersun Technology Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |