CN102737350A - 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 - Google Patents

一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 Download PDF

Info

Publication number
CN102737350A
CN102737350A CN2012101892666A CN201210189266A CN102737350A CN 102737350 A CN102737350 A CN 102737350A CN 2012101892666 A CN2012101892666 A CN 2012101892666A CN 201210189266 A CN201210189266 A CN 201210189266A CN 102737350 A CN102737350 A CN 102737350A
Authority
CN
China
Prior art keywords
data
module
power transmission
algorithm
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101892666A
Other languages
English (en)
Inventor
李锐海
刘磊
廖永力
杨晴
邓安明
高尚飞
尹福荣
邓丽林
张玉龙
邓全燕
陈达
杨远帜
陆叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CSG Electric Power Research Institute
Research Institute of Southern Power Grid Co Ltd
Kunming Enersun Technology Co Ltd
Original Assignee
Research Institute of Southern Power Grid Co Ltd
Kunming Enersun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute of Southern Power Grid Co Ltd, Kunming Enersun Technology Co Ltd filed Critical Research Institute of Southern Power Grid Co Ltd
Priority to CN2012101892666A priority Critical patent/CN102737350A/zh
Publication of CN102737350A publication Critical patent/CN102737350A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,它由数据分解器(1)、聚类器(2)、结果处理器(3)组成,用于分类处理输变电设备缺陷数据。本发明具有把目前杂乱能力输变电设备缺陷数据分类的能力,能从文字描述中提取关键信息,能自主学习,自我完善。主要核心算法是最大匹配算法的两种变体的中文单词识别(MMSEG)、词频、反文档算法(TFIDF)和支持向量机(SVM),MMSEG用于分解知识,词频、反文档算法用于评估信息内某类信息的重要程度,SVM用来处理机器学习问题。

Description

一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具
技术领域
本发明涉及一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,尤其是能处理杂乱数据的工具
背景技术
随着电力行业的发展,输变电设备缺陷已经影响到电网的安全,为加强对输变电设备的缺陷管理,提高设备健康水平,对输变电设备缺陷数据的收集处理是一个重要环节,然而目前输变电设备缺陷数据杂乱无章,不能将输变电设备缺陷归类处理。
目前对输变电设备缺陷的管理还没有完全统一的标准方式,所以形成了大量的历史杂乱数据,人工对海量历史数据的处理需要大量的人力成本,机器学习自主学习判断可以很大减少成本,更经济,更有效。
MMSEG算法实现了前面讨论的最大匹配算法的简单和复杂形式。更进一步来说,为了消除未被复杂最大匹配算法所消除的歧义,又实现消除歧义的规则。
词频、反文档算法(TFIDF)是文档特征权值表示常用方法。该方法简单易行,通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。
支持向量机是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习的问题的新工具,它是一种新的机器学习方法,它以结构风险最小为原则,它本质上是求解凸二次规划问题,在解决小样本、非线性和高维模式识别问题中有较大优势。
发明内容
本发明的目的是提供一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,配置设定后,无需要人工干涉,自主独立的对输变电设备缺陷数据进行聚类处理,分类过程中能自我完善知识样本库,精确化分析判断能力。
为了实现上述目的,本发明提供如下技术方案:
一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,本发明特征在于,,它由数据分解器、聚类器、结果处理器依序连接组成;
其中:在数据分解器内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;
在聚类器内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;
在结果处理器内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块;
经由数据分解器把数据分解成机器能识别的单元数据,聚类器把单元数据处理归类后再还原为原始数据,结果处理器把处理结果以文件,数据库储存等已配置好的方式分发到相应目标类别;
上述的词频、反文档算法是以词、字、或更小单位为输入的计算评估方法,所以拿到数据后要先把它们分解为其能识别的单位数据,基分解方法是最大匹配算法的两种变体的中文单词识别(MMSEG)和Aho-Corasick算法实现;
本发明所述的支持向量机把对样本数据以词频、反文档算法训练的结果以文件方式记忆存储于知识库,当拿到数据时,它用训练好的方法来分类数据;
本发明步骤如下:
其数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下:
1)其将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据。
2)其数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文;
3)其中文数据分解为词,其特征在于,用基于最大匹配算法的两种变体的中文单词识别(MMSEG)算法实现;
4)其英文数据分词,其特征在于,用Aho-Corasick(以下简称AC)算法实现。
3、其聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;
1)其练识别方法以词频、反文档算法为方法基础,以支持向量机为智能学习算法,以文本样本为知识内容;
2)其记忆方法及结果训练以文件的方式存储训练结果,以供判断使用;
3)其问题分析训练后它以文件的方式存储训练结果,以供分析判断使用。
其结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。
本系统的有益效果是,本系统实现了一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,能自主分类处理输变电设备缺陷数据。把目前杂乱无章的输变电设备缺陷数据规范化,标准化,训练机器学习知识库让其自主判断聚类输变电设备缺陷数据从技术上改变了输变电设备缺陷数据的分析处理方式,它有自主学习功能,实现了以机器代替人力的工作。
附图说明
图1是本发明的结构示意图。
具体实施方式
如图1所示,一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,本发明特征在于,它由数据分解器1、聚类器2、结果处理器3依序连接组成;
其中:在数据分解器1内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;
在聚类器2内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;
在结果处理器3内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块;
本发明数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下:
1)将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据;
2)数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文;
3)中文数据分解为词用基于最大匹配算法的两种变体的中文单词识别MMSEG算法实现;
4)英文数据分词用Aho-Corasick算法实现。
本发明聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;
1)练识别方法以词频、反文档算法为方法基础,以支持向量机为机器智能学习算法,以文本样本为知识内容;
2)记忆方法及结果训练后它以文件的方式存储训练结果,以供判断使用;
3)问题分析在训练后它以文件的方式存储训练结果,以供分析判断使用;
本发明结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。
本发明由数据分解器1、聚类器2、结果处理器3组成;该数据分解器1聚类器2通过信息交互后把结果传送到结果处理器3,结果处理器把信息分发后再与聚类器2交互,形成结果处理器3新的知识库。
如图1所示,具体实施方案如下:
其数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据。具体分解过程如下:
1)其将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据。
2)其数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文。
3)其中文数据分解为词,其特征在于,用基于最大匹配算法的两种变体的中文单词识别(MMSEG)算法实现。
4)其英文数据分词,其特征在于,用Aho-Corasick(以下简称AC)算法实现。
3、其聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程。
1)其练识别方法以词频、反文档算法为方法基础,以支持向量机为智能学习算法,以文本样本为知识内容。
2)其记忆方法及结果训练以文件的方式存储训练结果,以供判断使用。
3)其问题分析训练后它以文件的方式存储训练结果,以供分析判断使用。
其结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。

Claims (4)

1.一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,其特征在于,它由数据分解器(1)、聚类器(2)、结果处理器(3)依序连接组成;
其中:在数据分解器(1)内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;
在聚类器(2)内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;
在结果处理器(3)内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块。
2.根据权利要求1所述的一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,其特征在于,数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下:
1)将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据;
2)数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文;
3)中文数据分解为词用基于最大匹配算法的两种变体的中文单词识别MMSEG算法实现;
4)英文数据分词用Aho-Corasick算法实现。
3.根据权利要求1所述的一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,其特征在于,聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;
1)练识别方法以词频、反文档算法为方法基础,以支持向量机为机器智能学习算法,以文本样本为知识内容;
2)记忆方法及结果训练后它以文件的方式存储训练结果,以供判断使用;
3)问题分析在训练后它以文件的方式存储训练结果,以供分析判断使用。
4.根据权利要求1所述的一种输变电设备缺陷数据机器自主聚类工具,其特征在于,结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。
CN2012101892666A 2012-06-08 2012-06-08 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 Pending CN102737350A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101892666A CN102737350A (zh) 2012-06-08 2012-06-08 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101892666A CN102737350A (zh) 2012-06-08 2012-06-08 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具

Publications (1)

Publication Number Publication Date
CN102737350A true CN102737350A (zh) 2012-10-17

Family

ID=46992788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101892666A Pending CN102737350A (zh) 2012-06-08 2012-06-08 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具

Country Status (1)

Country Link
CN (1) CN102737350A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202274A (zh) * 2016-06-30 2016-12-07 云南电网有限责任公司电力科学研究院 一种基于贝叶斯网络的缺陷数据自动文摘分类方法
CN106646043A (zh) * 2016-12-13 2017-05-10 国网江苏省电力公司淮安供电公司 配电网铁磁谐振在线监测系统及铁磁谐振分类识别方法
CN106846170A (zh) * 2016-12-22 2017-06-13 国网上海市电力公司 一种发电机组跳闸监测方法及其监测装置
CN108664538A (zh) * 2017-11-30 2018-10-16 全球能源互联网研究院有限公司 一种输变电设备疑似家族性缺陷的自动辨识方法及系统
CN111340258A (zh) * 2020-03-13 2020-06-26 新兴铸管股份有限公司 一种基于互联网的铸管产品质量管理方法
CN115186778A (zh) * 2022-09-13 2022-10-14 福建省特种设备检验研究院 一种基于文本分析的承压类特种设备隐患识别方法及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430680A (zh) * 2008-12-31 2009-05-13 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
CN101430680A (zh) * 2008-12-31 2009-05-13 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吕万里: "中文文本分类技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202274A (zh) * 2016-06-30 2016-12-07 云南电网有限责任公司电力科学研究院 一种基于贝叶斯网络的缺陷数据自动文摘分类方法
CN106202274B (zh) * 2016-06-30 2019-10-15 云南电网有限责任公司电力科学研究院 一种基于贝叶斯网络的缺陷数据自动文摘分类方法
CN106646043A (zh) * 2016-12-13 2017-05-10 国网江苏省电力公司淮安供电公司 配电网铁磁谐振在线监测系统及铁磁谐振分类识别方法
CN106646043B (zh) * 2016-12-13 2019-03-26 国网江苏省电力公司淮安供电公司 配电网铁磁谐振在线监测系统及铁磁谐振分类识别方法
CN106846170A (zh) * 2016-12-22 2017-06-13 国网上海市电力公司 一种发电机组跳闸监测方法及其监测装置
CN106846170B (zh) * 2016-12-22 2020-12-25 国网上海市电力公司 一种发电机组跳闸监测方法及其监测装置
CN108664538A (zh) * 2017-11-30 2018-10-16 全球能源互联网研究院有限公司 一种输变电设备疑似家族性缺陷的自动辨识方法及系统
CN108664538B (zh) * 2017-11-30 2022-02-01 全球能源互联网研究院有限公司 一种输变电设备疑似家族性缺陷的自动辨识方法及系统
CN111340258A (zh) * 2020-03-13 2020-06-26 新兴铸管股份有限公司 一种基于互联网的铸管产品质量管理方法
CN115186778A (zh) * 2022-09-13 2022-10-14 福建省特种设备检验研究院 一种基于文本分析的承压类特种设备隐患识别方法及终端

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN106447285B (zh) 基于多维度领域关键知识的招聘信息匹配方法
CN102737350A (zh) 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具
CN109885768A (zh) 工单处理方法、装置及系统
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN102194013A (zh) 一种基于领域知识的短文本分类方法及文本分类系统
CN113033198B (zh) 相似文本推送方法、装置、电子设备及计算机存储介质
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
Abdelaal et al. Improve the automatic classification accuracy for Arabic tweets using ensemble methods
CN105975455A (zh) 基于双向递归神经网络的信息分析系统
Pratama et al. The sentiment analysis of Indonesia commuter line using machine learning based on twitter data
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN107194617A (zh) 一种app软件工程师软技能分类系统及方法
CN104361010A (zh) 一种纠正新闻分类的自动分类方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111382248A (zh) 一种问题回复方法、装置、存储介质及终端设备
CN104142960A (zh) 互联网数据分析系统
JP5098631B2 (ja) メール分類システム、メール検索システム
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN103218420A (zh) 一种网页标题提取方法及装置
Alsharef et al. Exploring the efficiency of text-similarity measures in automated resume screening for recruitment
CN112257425A (zh) 一种基于数据分级模型的电力数据分析方法及系统
CN105447076A (zh) 基于网页标签的安全监控方法和系统
CN111522945A (zh) 一种基于卡方检验的诗词风格分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20121017