CN104866574A - 一种基于knn算法的断路器缺陷等级划分方法 - Google Patents
一种基于knn算法的断路器缺陷等级划分方法 Download PDFInfo
- Publication number
- CN104866574A CN104866574A CN201510267932.7A CN201510267932A CN104866574A CN 104866574 A CN104866574 A CN 104866574A CN 201510267932 A CN201510267932 A CN 201510267932A CN 104866574 A CN104866574 A CN 104866574A
- Authority
- CN
- China
- Prior art keywords
- text
- defect
- vector
- word
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本发明涉及一种基于KNN算法的断路器缺陷等级划分方法。现有的等级划分方法为通过运维人员经验判断,费时费力且正确率受人为影响较大。本发明首先建立“断路器缺陷文本词库”,然后针对断路器缺陷文本属于短文本的特点,提出了文本预处理方法,将其转化为可直接计算的向量。接着采用KNN算法,寻找与待分类缺陷文本最相近的几条文本,并加权计算出待分类缺陷文本所属的缺陷等级。本发明对断路器缺陷文本的分类计算效率高,方便应用。
Description
技术领域
本发明属于电力系统技术领域,具体是涉及一种基于KNN算法的断路器缺陷等级划分方法。
背景技术
断路器的历史缺陷文本是断路器历史缺陷情况的载体,可被用于断路器的状态评价中以完善断路器的状态评价模型,是断路器可靠性的一大表征。断路器的历史缺陷文本中包含设备型式、电压等级、厂家、出厂时间、名称、所在变电所等基本设备信息,还包含缺陷发现时间、缺陷描述文本、缺陷等级等缺陷内容。其中缺陷等级是断路器历史缺陷文本评判的核心。缺陷等级通常采用运维人员现场运行经验判断,不仅费时费力,而且存在相同缺陷被不同运维人员判断为不同等级的情况。因此需要对其进行科学分类。由于缺陷文本通常采用中文自然语言记录,采用机器分析具有难度,目前鲜见缺陷文本被处理的相关研究。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于KNN算法的断路器缺陷等级划分方法。
本发明方法包括以下步骤:
步骤1:建立“断路器缺陷文本词库”,这是根据电力专业知识由发明人人工建立。
步骤2:分词,依据步骤1建立的词库,将缺陷文本中的中文字符串合理地切分成词语序列,这是中文文本信息处理必备且最为基础的环节。
步骤3:词频统计,是对文本中所有词进行出现频次的统计并据此排序。完整的词频统计结果包括了文本中出现的所有词,可用这些词构成文本向量的向量空间。每个词对应向量空间中一维。
步骤4:去除停用词,去除无法表征文本的词,执行中考虑先建立停用词表,再将词频统计结果和停用词表中的词进行对照,删去词频统计结果中的停用词。
步骤5:文本向量化,是把经过上述处理的文本转化为数字向量的表示结果。每一条文本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词。具体方法为根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每一维对应的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否则为0。
步骤6:量化缺陷文本的缺陷程度,紧急为3,重要为2,一般为1。本步骤由专家组根据专业知识完成。
步骤7:针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库。
步骤8:计算待归类文本与缺陷文本库中每个文本的文本相近程度。对待归类缺陷文本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每一个文本的相似度:
式中,Sij为待归类文本i与文本库中文本j之间的相似度,M为向量的维数,Wil为文本i的特征向量的第l维的值,Wjl为文本j的特征向量的第l维的值。
步骤9:按照文本相似度,在文本库中选出与待归类文本最相似的k条文本,其中k值可设置。
步骤10:利用式(2)计算待归类缺陷文本i描述的缺陷严重程度yi:
其中,yl为第l条缺陷文本描述的缺陷严重程度。
步骤11:根据计算结果将该缺陷的严重程度归类,如计算结果为yi∈(1,1.5],则归为一般类,计算结果为yi∈(1.5,2.5),则归为严重类,计算结果为yi∈[2.5,3),则归为紧急类。
本发明首先建立“断路器缺陷文本词库”。然后对具体缺陷文本进行分析处理,将文本转化为可直接运算的向量,这一过程被称为文本预处理。针对缺陷文本为短文本的特点,文本预处理过程包括分词、词频统计、去停用词、文本向量化,最终形成向量。此外还要对已分类缺陷文本的缺陷等级进行量化。文本预处理后采用KNN算法对待归类缺陷文本进行分类。通过将待归类的缺陷文本与已归类的缺陷文本进行相似度计算,选出其中与待归类缺陷文本最相近的k条文本,加权计算待归类缺陷文本的缺陷等级,从而完成待归类缺陷文本缺陷程度的分类。经过算例验证可知,该方法具有较高的分类正确率。
具体实施方式
本发明首先建立“断路器缺陷文本词库”,并对中文缺陷文本进行预处理,将其转化为向量形式;然后采用KNN算法,通过将未分类的缺陷文本与已分类好的缺陷文本进行对比,评判文本相似度,根据最相近的几条文本的等级,加权评判出待分类的缺陷文本的等级。
本实施例的具体步骤:
步骤1:建立“断路器缺陷文本词库”,这是根据电力专业知识由发明人人工建立。
步骤2:分词,依据步骤1建立的词库,将缺陷文本中的字符串合理地切分成词语序列,这是中文文本信息处理必备且最为基础的环节。
步骤3:词频统计,是对文本中所有词进行出现频次的统计并据此排序。完整的词频统计结果包括了文本中出现的所有词,可用这些词构成文本向量的向量空间。每个词对应向量空间中一维。
步骤4:去除停用词,去除无法表征文本的词,执行中考虑先建立停用词表,再将词频统计结果和停用词表中的词进行对照,删去词频统计结果中的停用词。
步骤5:文本向量化,是把经过上述处理的文本转化为数字向量的表示结果。每一条文本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词。具体方法为根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每一维对应的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否则为0。
步骤6:量化缺陷文本的缺陷程度,紧急为3,重要为2,一般为1。
步骤7:针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库。
步骤8:计算待归类文本与缺陷文本库中每个文本的文本相近程度。对待归类缺陷文本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每一个文本的相似度:
式中,Sij为待归类文本i与文本库中文本j之间的相似度,M为向量的维数,Wil为文本i的特征向量的第l维的值,Wjl为文本j的特征向量的第l维的值。
步骤9:按照文本相似度,在文本库中选出与待归类文本最相似的k条文本,其中k值可设置。
步骤10:利用式(2)计算待归类缺陷文本i描述的缺陷严重程度yi:
其中,yl为第l条缺陷文本描述的缺陷严重程度。
步骤11:根据计算结果将该缺陷的严重程度归类,如计算结果为yi∈(1,1.5],则归为一般类,计算结果为yi∈(1.5,2.5),则归为严重类,计算结果为yi∈[2.5,3),则归为紧急类。
Claims (2)
1.一种基于KNN算法的断路器缺陷检测方法,其特征在于该方法包括以下步骤:
步骤1:建立断路器缺陷文本词库;
步骤2:分词;
依据步骤1建立的词库,将缺陷文本中的中文字符串切分成词语序列;
步骤3:词频统计;
对文本中所有词进行出现频次的统计并据此排序;完整的词频统计结果包括了文本中出现的所有词,可用这些词构成文本向量的向量空间;每个词对应向量空间中一维;
步骤4:去除停用词,即去除无法表征文本的词,
建立停用词表,再将词频统计结果和停用词表中的词进行对照,删去词频统计结果中的停用词;
步骤5:文本向量化,即把经过上述处理的文本转化为数字向量的表示结果;每一条文本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词;
具体是根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每一维对应的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否则为0;
步骤6:量化缺陷文本的缺陷程度,紧急为3,重要为2,一般为1;
步骤7:针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库;
步骤8:计算待归类文本与缺陷文本库中每个文本的文本相近程度;对待归类缺陷文本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每一个文本的相似度Sij:
式中,Sij为待归类文本i与文本库中文本j之间的相似度,M为向量的维数,Wil为文本i的特征向量的第l维的值,Wjl为文本j的特征向量的第l维的值;
步骤9:按照文本相似度,在文本库中选出与待归类文本最相似的k条文本;
步骤10:利用式(2)计算待归类缺陷文本i描述的缺陷严重程度yi:
其中,yl为第l条缺陷文本描述的缺陷严重程度。
2.根据权利要求1所述的一种基于KNN算法的断路器缺陷检测方法,其特征在于:根据步骤10计算结果将该缺陷的严重程度归类,计算结果为yi∈(1,1.5],则归为一般类,计算结果为yi∈(1.5,2.5),则归为严重类,计算结果为yi∈[2.5,3),则归为紧急类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510267932.7A CN104866574A (zh) | 2015-05-23 | 2015-05-23 | 一种基于knn算法的断路器缺陷等级划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510267932.7A CN104866574A (zh) | 2015-05-23 | 2015-05-23 | 一种基于knn算法的断路器缺陷等级划分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104866574A true CN104866574A (zh) | 2015-08-26 |
Family
ID=53912400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510267932.7A Pending CN104866574A (zh) | 2015-05-23 | 2015-05-23 | 一种基于knn算法的断路器缺陷等级划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104866574A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303296A (zh) * | 2015-09-29 | 2016-02-03 | 国网浙江省电力公司电力科学研究院 | 一种电力设备全寿命状态评价方法 |
CN105677833A (zh) * | 2016-01-06 | 2016-06-15 | 云南电网有限责任公司电力科学研究院 | 一种基于文本挖掘技术提取断路器故障特征信息的方法 |
CN107368946A (zh) * | 2017-06-16 | 2017-11-21 | 中国南方电网有限责任公司超高压输电公司检修试验中心 | 基于多维度分析的断路器家族性缺陷辨识方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103837770A (zh) * | 2014-02-26 | 2014-06-04 | 广东电网公司电力科学研究院 | 电力设备缺陷检测维护方法 |
CN104615533A (zh) * | 2015-01-15 | 2015-05-13 | 南京大学 | 一种基于移动即时通讯软件的软件缺陷智能跟踪管理方法 |
-
2015
- 2015-05-23 CN CN201510267932.7A patent/CN104866574A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103837770A (zh) * | 2014-02-26 | 2014-06-04 | 广东电网公司电力科学研究院 | 电力设备缺陷检测维护方法 |
CN104615533A (zh) * | 2015-01-15 | 2015-05-13 | 南京大学 | 一种基于移动即时通讯软件的软件缺陷智能跟踪管理方法 |
Non-Patent Citations (2)
Title |
---|
LIN PO-CHUN等: "Intelligent maintenance model for condition assessment of circuit breakers using fuzzy set theory and evidential reasoning", 《IETGENERATION TRANSMISSION & DISTRIBUTION》 * |
刘怀亮等: "基于SVM与KNN的中文文本分类比实证研究", 《情报理论与实践》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303296A (zh) * | 2015-09-29 | 2016-02-03 | 国网浙江省电力公司电力科学研究院 | 一种电力设备全寿命状态评价方法 |
CN105303296B (zh) * | 2015-09-29 | 2019-04-23 | 国网浙江省电力公司电力科学研究院 | 一种电力设备全寿命状态评价方法 |
CN105677833A (zh) * | 2016-01-06 | 2016-06-15 | 云南电网有限责任公司电力科学研究院 | 一种基于文本挖掘技术提取断路器故障特征信息的方法 |
CN105677833B (zh) * | 2016-01-06 | 2019-03-12 | 云南电网有限责任公司电力科学研究院 | 一种基于文本挖掘技术提取断路器故障特征信息的方法 |
CN107368946A (zh) * | 2017-06-16 | 2017-11-21 | 中国南方电网有限责任公司超高压输电公司检修试验中心 | 基于多维度分析的断路器家族性缺陷辨识方法 |
CN107368946B (zh) * | 2017-06-16 | 2020-08-11 | 中国南方电网有限责任公司超高压输电公司检修试验中心 | 基于多维度分析的断路器家族性缺陷辨识方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377901B (zh) | 一种针对配电线路跳闸填报案例的文本挖掘方法 | |
CN109633368A (zh) | 基于vmd和dfa的含分布式电源配电网电能质量扰动检测方法 | |
CN107340766B (zh) | 基于相似度的电力调度告警信号文本归类及故障诊断方法 | |
CN111274814B (zh) | 一种新型的半监督文本实体信息抽取方法 | |
CN111079430A (zh) | 一种组合深度学习和概念图谱的电力故障事件抽取方法 | |
CN105426839A (zh) | 基于稀疏自动编码器的电力系统过电压分类方法 | |
CN105974265A (zh) | 一种基于svm分类技术的电网故障原因诊断方法 | |
CN105138953A (zh) | 一种基于连续的多实例学习的视频中动作识别的方法 | |
CN106250934A (zh) | 一种缺陷数据的分类方法及装置 | |
CN104866574A (zh) | 一种基于knn算法的断路器缺陷等级划分方法 | |
CN110543921A (zh) | 一种基于波形学习的电缆早期故障识别方法 | |
CN112199496A (zh) | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 | |
CN102543079A (zh) | 一种实时的音频信号分类方法及设备 | |
CN103439594A (zh) | Sf6电气设备故障诊断系统与方法 | |
CN103337248A (zh) | 一种基于时间序列核聚类的机场噪声事件识别方法 | |
CN112861417A (zh) | 一种基于加权和选择性朴素贝叶斯的变压器故障诊断方法 | |
Mariko et al. | The financial causality extraction shared task (FinCausal 2022) | |
CN111045902A (zh) | 服务器的压力测试方法及装置 | |
CN110766215B (zh) | 基于特征自适应选择和wdnn的风电爬坡事件预测方法 | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
CN110020190B (zh) | 一种基于多示例学习的可疑威胁指标验证方法及系统 | |
CN111090747A (zh) | 一种基于神经网络分类的电力通信故障应急处置方法 | |
CN111079647A (zh) | 一种断路器缺陷识别方法 | |
CN111737993B (zh) | 一种配电网设备的故障缺陷文本提取设备健康状态方法 | |
CN104391798A (zh) | 一种软件特征信息的提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150826 |
|
WD01 | Invention patent application deemed withdrawn after publication |