CN102737350A - 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 - Google Patents
一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 Download PDFInfo
- Publication number
- CN102737350A CN102737350A CN2012101892666A CN201210189266A CN102737350A CN 102737350 A CN102737350 A CN 102737350A CN 2012101892666 A CN2012101892666 A CN 2012101892666A CN 201210189266 A CN201210189266 A CN 201210189266A CN 102737350 A CN102737350 A CN 102737350A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- power transmission
- algorithm
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,它由数据分解器(1)、聚类器(2)、结果处理器(3)组成,用于分类处理输变电设备缺陷数据。本发明具有把目前杂乱能力输变电设备缺陷数据分类的能力,能从文字描述中提取关键信息,能自主学习,自我完善。主要核心算法是最大匹配算法的两种变体的中文单词识别(MMSEG)、词频、反文档算法(TFIDF)和支持向量机(SVM),MMSEG用于分解知识,词频、反文档算法用于评估信息内某类信息的重要程度,SVM用来处理机器学习问题。
Description
技术领域
本发明涉及一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,尤其是能处理杂乱数据的工具
背景技术
随着电力行业的发展,输变电设备缺陷已经影响到电网的安全,为加强对输变电设备的缺陷管理,提高设备健康水平,对输变电设备缺陷数据的收集处理是一个重要环节,然而目前输变电设备缺陷数据杂乱无章,不能将输变电设备缺陷归类处理。
目前对输变电设备缺陷的管理还没有完全统一的标准方式,所以形成了大量的历史杂乱数据,人工对海量历史数据的处理需要大量的人力成本,机器学习自主学习判断可以很大减少成本,更经济,更有效。
MMSEG算法实现了前面讨论的最大匹配算法的简单和复杂形式。更进一步来说,为了消除未被复杂最大匹配算法所消除的歧义,又实现消除歧义的规则。
词频、反文档算法(TFIDF)是文档特征权值表示常用方法。该方法简单易行,通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。
支持向量机是数据挖掘中的一项新技术,是借助于最优化方法解决机器学习的问题的新工具,它是一种新的机器学习方法,它以结构风险最小为原则,它本质上是求解凸二次规划问题,在解决小样本、非线性和高维模式识别问题中有较大优势。
发明内容
本发明的目的是提供一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,配置设定后,无需要人工干涉,自主独立的对输变电设备缺陷数据进行聚类处理,分类过程中能自我完善知识样本库,精确化分析判断能力。
为了实现上述目的,本发明提供如下技术方案:
一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,本发明特征在于,,它由数据分解器、聚类器、结果处理器依序连接组成;
其中:在数据分解器内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;
在聚类器内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;
在结果处理器内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块;
经由数据分解器把数据分解成机器能识别的单元数据,聚类器把单元数据处理归类后再还原为原始数据,结果处理器把处理结果以文件,数据库储存等已配置好的方式分发到相应目标类别;
上述的词频、反文档算法是以词、字、或更小单位为输入的计算评估方法,所以拿到数据后要先把它们分解为其能识别的单位数据,基分解方法是最大匹配算法的两种变体的中文单词识别(MMSEG)和Aho-Corasick算法实现;
本发明所述的支持向量机把对样本数据以词频、反文档算法训练的结果以文件方式记忆存储于知识库,当拿到数据时,它用训练好的方法来分类数据;
本发明步骤如下:
其数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下:
1)其将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据。
2)其数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文;
3)其中文数据分解为词,其特征在于,用基于最大匹配算法的两种变体的中文单词识别(MMSEG)算法实现;
4)其英文数据分词,其特征在于,用Aho-Corasick(以下简称AC)算法实现。
3、其聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;
1)其练识别方法以词频、反文档算法为方法基础,以支持向量机为智能学习算法,以文本样本为知识内容;
2)其记忆方法及结果训练以文件的方式存储训练结果,以供判断使用;
3)其问题分析训练后它以文件的方式存储训练结果,以供分析判断使用。
其结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。
本系统的有益效果是,本系统实现了一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,能自主分类处理输变电设备缺陷数据。把目前杂乱无章的输变电设备缺陷数据规范化,标准化,训练机器学习知识库让其自主判断聚类输变电设备缺陷数据从技术上改变了输变电设备缺陷数据的分析处理方式,它有自主学习功能,实现了以机器代替人力的工作。
附图说明
图1是本发明的结构示意图。
具体实施方式
如图1所示,一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,本发明特征在于,它由数据分解器1、聚类器2、结果处理器3依序连接组成;
其中:在数据分解器1内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;
在聚类器2内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;
在结果处理器3内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块;
本发明数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下:
1)将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据;
2)数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文;
3)中文数据分解为词用基于最大匹配算法的两种变体的中文单词识别MMSEG算法实现;
4)英文数据分词用Aho-Corasick算法实现。
本发明聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;
1)练识别方法以词频、反文档算法为方法基础,以支持向量机为机器智能学习算法,以文本样本为知识内容;
2)记忆方法及结果训练后它以文件的方式存储训练结果,以供判断使用;
3)问题分析在训练后它以文件的方式存储训练结果,以供分析判断使用;
本发明结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。
本发明由数据分解器1、聚类器2、结果处理器3组成;该数据分解器1聚类器2通过信息交互后把结果传送到结果处理器3,结果处理器把信息分发后再与聚类器2交互,形成结果处理器3新的知识库。
如图1所示,具体实施方案如下:
其数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据。具体分解过程如下:
1)其将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据。
2)其数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文。
3)其中文数据分解为词,其特征在于,用基于最大匹配算法的两种变体的中文单词识别(MMSEG)算法实现。
4)其英文数据分词,其特征在于,用Aho-Corasick(以下简称AC)算法实现。
3、其聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程。
1)其练识别方法以词频、反文档算法为方法基础,以支持向量机为智能学习算法,以文本样本为知识内容。
2)其记忆方法及结果训练以文件的方式存储训练结果,以供判断使用。
3)其问题分析训练后它以文件的方式存储训练结果,以供分析判断使用。
其结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。
Claims (4)
1.一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,其特征在于,它由数据分解器(1)、聚类器(2)、结果处理器(3)依序连接组成;
其中:在数据分解器(1)内分别设置有缺陷数据读取模块、缺陷数据分解模块、缺陷数据获取模块、缺陷数据过滤模块、聚类环境初始化模块;
在聚类器(2)内分别设置有识别判断方法模块、记忆方法及结果模块、问题分析模块、分类处理模块;
在结果处理器(3)内分别设置有数据库信息配置模块、结果结构配置模块、结果文件分发模块、新知识入库模块、老知识更新模块。
2.根据权利要求1所述的一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,其特征在于,数据分解器将输变电设备缺陷数据分解成聚类算法能识别的数据;具体分解过程如下:
1)将缺陷数据分为三类:设备缺陷数据={数字数据,中文数据,英文数据},其特征在于,方法是用ASCII码比较每个字符,若存在ASCII码范围外的字符,则判断这个字符串中文,用正则表达式判断如果都是0~9则判断为数字数据;
2)数字数据={编码数字,数值数字},其中代码数字是一种编码代表某种类型,将编码数字对应转化成中文或英文;
3)中文数据分解为词用基于最大匹配算法的两种变体的中文单词识别MMSEG算法实现;
4)英文数据分词用Aho-Corasick算法实现。
3.根据权利要求1所述的一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具,其特征在于,聚类器包含训练识别方法、记忆方法及结果、问题分析、结果判定过程;
1)练识别方法以词频、反文档算法为方法基础,以支持向量机为机器智能学习算法,以文本样本为知识内容;
2)记忆方法及结果训练后它以文件的方式存储训练结果,以供判断使用;
3)问题分析在训练后它以文件的方式存储训练结果,以供分析判断使用。
4.根据权利要求1所述的一种输变电设备缺陷数据机器自主聚类工具,其特征在于,结果处理器有结果入库、结果文件分发、知识库管理功能,其中结果入库把处理结果添加到数据库,结果文件分发把结果文件分发到不同目标文件夹,知识库管理功能把处理结果添加进知识库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101892666A CN102737350A (zh) | 2012-06-08 | 2012-06-08 | 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012101892666A CN102737350A (zh) | 2012-06-08 | 2012-06-08 | 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102737350A true CN102737350A (zh) | 2012-10-17 |
Family
ID=46992788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012101892666A Pending CN102737350A (zh) | 2012-06-08 | 2012-06-08 | 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102737350A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202274A (zh) * | 2016-06-30 | 2016-12-07 | 云南电网有限责任公司电力科学研究院 | 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 |
CN106646043A (zh) * | 2016-12-13 | 2017-05-10 | 国网江苏省电力公司淮安供电公司 | 配电网铁磁谐振在线监测系统及铁磁谐振分类识别方法 |
CN106846170A (zh) * | 2016-12-22 | 2017-06-13 | 国网上海市电力公司 | 一种发电机组跳闸监测方法及其监测装置 |
CN108664538A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
CN111340258A (zh) * | 2020-03-13 | 2020-06-26 | 新兴铸管股份有限公司 | 一种基于互联网的铸管产品质量管理方法 |
CN115186778A (zh) * | 2022-09-13 | 2022-10-14 | 福建省特种设备检验研究院 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101430680A (zh) * | 2008-12-31 | 2009-05-13 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及系统 |
US7606714B2 (en) * | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
-
2012
- 2012-06-08 CN CN2012101892666A patent/CN102737350A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7606714B2 (en) * | 2003-02-11 | 2009-10-20 | Microsoft Corporation | Natural language classification within an automated response system |
CN101430680A (zh) * | 2008-12-31 | 2009-05-13 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及系统 |
Non-Patent Citations (1)
Title |
---|
吕万里: "中文文本分类技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202274A (zh) * | 2016-06-30 | 2016-12-07 | 云南电网有限责任公司电力科学研究院 | 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 |
CN106202274B (zh) * | 2016-06-30 | 2019-10-15 | 云南电网有限责任公司电力科学研究院 | 一种基于贝叶斯网络的缺陷数据自动文摘分类方法 |
CN106646043A (zh) * | 2016-12-13 | 2017-05-10 | 国网江苏省电力公司淮安供电公司 | 配电网铁磁谐振在线监测系统及铁磁谐振分类识别方法 |
CN106646043B (zh) * | 2016-12-13 | 2019-03-26 | 国网江苏省电力公司淮安供电公司 | 配电网铁磁谐振在线监测系统及铁磁谐振分类识别方法 |
CN106846170A (zh) * | 2016-12-22 | 2017-06-13 | 国网上海市电力公司 | 一种发电机组跳闸监测方法及其监测装置 |
CN106846170B (zh) * | 2016-12-22 | 2020-12-25 | 国网上海市电力公司 | 一种发电机组跳闸监测方法及其监测装置 |
CN108664538A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
CN108664538B (zh) * | 2017-11-30 | 2022-02-01 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
CN111340258A (zh) * | 2020-03-13 | 2020-06-26 | 新兴铸管股份有限公司 | 一种基于互联网的铸管产品质量管理方法 |
CN115186778A (zh) * | 2022-09-13 | 2022-10-14 | 福建省特种设备检验研究院 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN106447285B (zh) | 基于多维度领域关键知识的招聘信息匹配方法 | |
CN102737350A (zh) | 一种基于机器学习算法的输变电设备缺陷数据机器自主聚类工具 | |
CN109885768A (zh) | 工单处理方法、装置及系统 | |
CN102411563A (zh) | 一种识别目标词的方法、装置及系统 | |
CN102194013A (zh) | 一种基于领域知识的短文本分类方法及文本分类系统 | |
CN113033198B (zh) | 相似文本推送方法、装置、电子设备及计算机存储介质 | |
CN103049569A (zh) | 基于向量空间模型的文本相似性匹配方法 | |
CN111767716A (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
Abdelaal et al. | Improve the automatic classification accuracy for Arabic tweets using ensemble methods | |
CN105975455A (zh) | 基于双向递归神经网络的信息分析系统 | |
Pratama et al. | The sentiment analysis of Indonesia commuter line using machine learning based on twitter data | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN107194617A (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN104361010A (zh) | 一种纠正新闻分类的自动分类方法 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN111382248A (zh) | 一种问题回复方法、装置、存储介质及终端设备 | |
CN104142960A (zh) | 互联网数据分析系统 | |
JP5098631B2 (ja) | メール分類システム、メール検索システム | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN103218420A (zh) | 一种网页标题提取方法及装置 | |
Alsharef et al. | Exploring the efficiency of text-similarity measures in automated resume screening for recruitment | |
CN112257425A (zh) | 一种基于数据分级模型的电力数据分析方法及系统 | |
CN105447076A (zh) | 基于网页标签的安全监控方法和系统 | |
CN111522945A (zh) | 一种基于卡方检验的诗词风格分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20121017 |