CN104866574A - 一种基于knn算法的断路器缺陷等级划分方法 - Google Patents

一种基于knn算法的断路器缺陷等级划分方法 Download PDF

Info

Publication number
CN104866574A
CN104866574A CN201510267932.7A CN201510267932A CN104866574A CN 104866574 A CN104866574 A CN 104866574A CN 201510267932 A CN201510267932 A CN 201510267932A CN 104866574 A CN104866574 A CN 104866574A
Authority
CN
China
Prior art keywords
text
defect
vector
word
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510267932.7A
Other languages
English (en)
Inventor
王慧芳
马润泽
邱剑
余佳文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510267932.7A priority Critical patent/CN104866574A/zh
Publication of CN104866574A publication Critical patent/CN104866574A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明涉及一种基于KNN算法的断路器缺陷等级划分方法。现有的等级划分方法为通过运维人员经验判断,费时费力且正确率受人为影响较大。本发明首先建立“断路器缺陷文本词库”,然后针对断路器缺陷文本属于短文本的特点,提出了文本预处理方法,将其转化为可直接计算的向量。接着采用KNN算法,寻找与待分类缺陷文本最相近的几条文本,并加权计算出待分类缺陷文本所属的缺陷等级。本发明对断路器缺陷文本的分类计算效率高,方便应用。

Description

一种基于KNN算法的断路器缺陷等级划分方法
技术领域
本发明属于电力系统技术领域,具体是涉及一种基于KNN算法的断路器缺陷等级划分方法。
背景技术
断路器的历史缺陷文本是断路器历史缺陷情况的载体,可被用于断路器的状态评价中以完善断路器的状态评价模型,是断路器可靠性的一大表征。断路器的历史缺陷文本中包含设备型式、电压等级、厂家、出厂时间、名称、所在变电所等基本设备信息,还包含缺陷发现时间、缺陷描述文本、缺陷等级等缺陷内容。其中缺陷等级是断路器历史缺陷文本评判的核心。缺陷等级通常采用运维人员现场运行经验判断,不仅费时费力,而且存在相同缺陷被不同运维人员判断为不同等级的情况。因此需要对其进行科学分类。由于缺陷文本通常采用中文自然语言记录,采用机器分析具有难度,目前鲜见缺陷文本被处理的相关研究。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于KNN算法的断路器缺陷等级划分方法。
本发明方法包括以下步骤:
步骤1:建立“断路器缺陷文本词库”,这是根据电力专业知识由发明人人工建立。
步骤2:分词,依据步骤1建立的词库,将缺陷文本中的中文字符串合理地切分成词语序列,这是中文文本信息处理必备且最为基础的环节。
步骤3:词频统计,是对文本中所有词进行出现频次的统计并据此排序。完整的词频统计结果包括了文本中出现的所有词,可用这些词构成文本向量的向量空间。每个词对应向量空间中一维。
步骤4:去除停用词,去除无法表征文本的词,执行中考虑先建立停用词表,再将词频统计结果和停用词表中的词进行对照,删去词频统计结果中的停用词。
步骤5:文本向量化,是把经过上述处理的文本转化为数字向量的表示结果。每一条文本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词。具体方法为根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每一维对应的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否则为0。
步骤6:量化缺陷文本的缺陷程度,紧急为3,重要为2,一般为1。本步骤由专家组根据专业知识完成。
步骤7:针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库。
步骤8:计算待归类文本与缺陷文本库中每个文本的文本相近程度。对待归类缺陷文本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每一个文本的相似度:
S ij = Σ l = 1 M W il × W jl Σ l = 1 M W il 2 Σ l = 1 M W jl 2 - - - ( 1 )
式中,Sij为待归类文本i与文本库中文本j之间的相似度,M为向量的维数,Wil为文本i的特征向量的第l维的值,Wjl为文本j的特征向量的第l维的值。
步骤9:按照文本相似度,在文本库中选出与待归类文本最相似的k条文本,其中k值可设置。
步骤10:利用式(2)计算待归类缺陷文本i描述的缺陷严重程度yi
y i = Σ l = 1 k S il y l Σ l = 1 k S il - - - ( 2 )
其中,yl为第l条缺陷文本描述的缺陷严重程度。
步骤11:根据计算结果将该缺陷的严重程度归类,如计算结果为yi∈(1,1.5],则归为一般类,计算结果为yi∈(1.5,2.5),则归为严重类,计算结果为yi∈[2.5,3),则归为紧急类。
本发明首先建立“断路器缺陷文本词库”。然后对具体缺陷文本进行分析处理,将文本转化为可直接运算的向量,这一过程被称为文本预处理。针对缺陷文本为短文本的特点,文本预处理过程包括分词、词频统计、去停用词、文本向量化,最终形成向量。此外还要对已分类缺陷文本的缺陷等级进行量化。文本预处理后采用KNN算法对待归类缺陷文本进行分类。通过将待归类的缺陷文本与已归类的缺陷文本进行相似度计算,选出其中与待归类缺陷文本最相近的k条文本,加权计算待归类缺陷文本的缺陷等级,从而完成待归类缺陷文本缺陷程度的分类。经过算例验证可知,该方法具有较高的分类正确率。
具体实施方式
本发明首先建立“断路器缺陷文本词库”,并对中文缺陷文本进行预处理,将其转化为向量形式;然后采用KNN算法,通过将未分类的缺陷文本与已分类好的缺陷文本进行对比,评判文本相似度,根据最相近的几条文本的等级,加权评判出待分类的缺陷文本的等级。
本实施例的具体步骤:
步骤1:建立“断路器缺陷文本词库”,这是根据电力专业知识由发明人人工建立。
步骤2:分词,依据步骤1建立的词库,将缺陷文本中的字符串合理地切分成词语序列,这是中文文本信息处理必备且最为基础的环节。
步骤3:词频统计,是对文本中所有词进行出现频次的统计并据此排序。完整的词频统计结果包括了文本中出现的所有词,可用这些词构成文本向量的向量空间。每个词对应向量空间中一维。
步骤4:去除停用词,去除无法表征文本的词,执行中考虑先建立停用词表,再将词频统计结果和停用词表中的词进行对照,删去词频统计结果中的停用词。
步骤5:文本向量化,是把经过上述处理的文本转化为数字向量的表示结果。每一条文本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词。具体方法为根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每一维对应的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否则为0。
步骤6:量化缺陷文本的缺陷程度,紧急为3,重要为2,一般为1。
步骤7:针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库。
步骤8:计算待归类文本与缺陷文本库中每个文本的文本相近程度。对待归类缺陷文本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每一个文本的相似度:
S ij = Σ l = 1 M W il × W jl Σ l = 1 M W il 2 Σ l = 1 M W jl 2 - - - ( 1 )
式中,Sij为待归类文本i与文本库中文本j之间的相似度,M为向量的维数,Wil为文本i的特征向量的第l维的值,Wjl为文本j的特征向量的第l维的值。
步骤9:按照文本相似度,在文本库中选出与待归类文本最相似的k条文本,其中k值可设置。
步骤10:利用式(2)计算待归类缺陷文本i描述的缺陷严重程度yi
y i = Σ l = 1 k S il y l Σ l = 1 k S il - - - ( 2 )
其中,yl为第l条缺陷文本描述的缺陷严重程度。
步骤11:根据计算结果将该缺陷的严重程度归类,如计算结果为yi∈(1,1.5],则归为一般类,计算结果为yi∈(1.5,2.5),则归为严重类,计算结果为yi∈[2.5,3),则归为紧急类。

Claims (2)

1.一种基于KNN算法的断路器缺陷检测方法,其特征在于该方法包括以下步骤:
步骤1:建立断路器缺陷文本词库;
步骤2:分词;
依据步骤1建立的词库,将缺陷文本中的中文字符串切分成词语序列;
步骤3:词频统计;
对文本中所有词进行出现频次的统计并据此排序;完整的词频统计结果包括了文本中出现的所有词,可用这些词构成文本向量的向量空间;每个词对应向量空间中一维;
步骤4:去除停用词,即去除无法表征文本的词,
建立停用词表,再将词频统计结果和停用词表中的词进行对照,删去词频统计结果中的停用词;
步骤5:文本向量化,即把经过上述处理的文本转化为数字向量的表示结果;每一条文本对应一个特征向量,特征向量的每一维对应词频统计结果中的每一个词;
具体是根据文本向量的向量空间,再根据分词结果,将每条文本中的词与向量空间每一维对应的词作对照,如果相同,则在该文本对应的特征向量中,将该词对应的维记为1,否则为0;
步骤6:量化缺陷文本的缺陷程度,紧急为3,重要为2,一般为1;
步骤7:针对每一个缺陷文本,重复步骤2~6,建立缺陷文本库;
步骤8:计算待归类文本与缺陷文本库中每个文本的文本相近程度;对待归类缺陷文本执行步骤2~5,完成文本向量化,然后采用式(1)计算待测文本与缺陷文本库中每一个文本的相似度Sij
S ij = Σ l = 1 M W il × W jl Σ l = 1 M W il 2 Σ l = 1 M W jl 2 - - - ( 1 )
式中,Sij为待归类文本i与文本库中文本j之间的相似度,M为向量的维数,Wil为文本i的特征向量的第l维的值,Wjl为文本j的特征向量的第l维的值;
步骤9:按照文本相似度,在文本库中选出与待归类文本最相似的k条文本;
步骤10:利用式(2)计算待归类缺陷文本i描述的缺陷严重程度yi
y i = Σ l = 1 k S il y l Σ l = 1 k S il - - - ( 2 )
其中,yl为第l条缺陷文本描述的缺陷严重程度。
2.根据权利要求1所述的一种基于KNN算法的断路器缺陷检测方法,其特征在于:根据步骤10计算结果将该缺陷的严重程度归类,计算结果为yi∈(1,1.5],则归为一般类,计算结果为yi∈(1.5,2.5),则归为严重类,计算结果为yi∈[2.5,3),则归为紧急类。
CN201510267932.7A 2015-05-23 2015-05-23 一种基于knn算法的断路器缺陷等级划分方法 Pending CN104866574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510267932.7A CN104866574A (zh) 2015-05-23 2015-05-23 一种基于knn算法的断路器缺陷等级划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510267932.7A CN104866574A (zh) 2015-05-23 2015-05-23 一种基于knn算法的断路器缺陷等级划分方法

Publications (1)

Publication Number Publication Date
CN104866574A true CN104866574A (zh) 2015-08-26

Family

ID=53912400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510267932.7A Pending CN104866574A (zh) 2015-05-23 2015-05-23 一种基于knn算法的断路器缺陷等级划分方法

Country Status (1)

Country Link
CN (1) CN104866574A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303296A (zh) * 2015-09-29 2016-02-03 国网浙江省电力公司电力科学研究院 一种电力设备全寿命状态评价方法
CN105677833A (zh) * 2016-01-06 2016-06-15 云南电网有限责任公司电力科学研究院 一种基于文本挖掘技术提取断路器故障特征信息的方法
CN107368946A (zh) * 2017-06-16 2017-11-21 中国南方电网有限责任公司超高压输电公司检修试验中心 基于多维度分析的断路器家族性缺陷辨识方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103837770A (zh) * 2014-02-26 2014-06-04 广东电网公司电力科学研究院 电力设备缺陷检测维护方法
CN104615533A (zh) * 2015-01-15 2015-05-13 南京大学 一种基于移动即时通讯软件的软件缺陷智能跟踪管理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103837770A (zh) * 2014-02-26 2014-06-04 广东电网公司电力科学研究院 电力设备缺陷检测维护方法
CN104615533A (zh) * 2015-01-15 2015-05-13 南京大学 一种基于移动即时通讯软件的软件缺陷智能跟踪管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIN PO-CHUN等: "Intelligent maintenance model for condition assessment of circuit breakers using fuzzy set theory and evidential reasoning", 《IETGENERATION TRANSMISSION & DISTRIBUTION》 *
刘怀亮等: "基于SVM与KNN的中文文本分类比实证研究", 《情报理论与实践》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105303296A (zh) * 2015-09-29 2016-02-03 国网浙江省电力公司电力科学研究院 一种电力设备全寿命状态评价方法
CN105303296B (zh) * 2015-09-29 2019-04-23 国网浙江省电力公司电力科学研究院 一种电力设备全寿命状态评价方法
CN105677833A (zh) * 2016-01-06 2016-06-15 云南电网有限责任公司电力科学研究院 一种基于文本挖掘技术提取断路器故障特征信息的方法
CN105677833B (zh) * 2016-01-06 2019-03-12 云南电网有限责任公司电力科学研究院 一种基于文本挖掘技术提取断路器故障特征信息的方法
CN107368946A (zh) * 2017-06-16 2017-11-21 中国南方电网有限责任公司超高压输电公司检修试验中心 基于多维度分析的断路器家族性缺陷辨识方法
CN107368946B (zh) * 2017-06-16 2020-08-11 中国南方电网有限责任公司超高压输电公司检修试验中心 基于多维度分析的断路器家族性缺陷辨识方法

Similar Documents

Publication Publication Date Title
CN110377901B (zh) 一种针对配电线路跳闸填报案例的文本挖掘方法
CN109633368A (zh) 基于vmd和dfa的含分布式电源配电网电能质量扰动检测方法
CN107340766B (zh) 基于相似度的电力调度告警信号文本归类及故障诊断方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN111079430A (zh) 一种组合深度学习和概念图谱的电力故障事件抽取方法
CN105426839A (zh) 基于稀疏自动编码器的电力系统过电压分类方法
CN105974265A (zh) 一种基于svm分类技术的电网故障原因诊断方法
CN105138953A (zh) 一种基于连续的多实例学习的视频中动作识别的方法
CN106250934A (zh) 一种缺陷数据的分类方法及装置
CN104866574A (zh) 一种基于knn算法的断路器缺陷等级划分方法
CN110543921A (zh) 一种基于波形学习的电缆早期故障识别方法
CN112199496A (zh) 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN102543079A (zh) 一种实时的音频信号分类方法及设备
CN103439594A (zh) Sf6电气设备故障诊断系统与方法
CN103337248A (zh) 一种基于时间序列核聚类的机场噪声事件识别方法
CN112861417A (zh) 一种基于加权和选择性朴素贝叶斯的变压器故障诊断方法
Mariko et al. The financial causality extraction shared task (FinCausal 2022)
CN111045902A (zh) 服务器的压力测试方法及装置
CN110766215B (zh) 基于特征自适应选择和wdnn的风电爬坡事件预测方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN110020190B (zh) 一种基于多示例学习的可疑威胁指标验证方法及系统
CN111090747A (zh) 一种基于神经网络分类的电力通信故障应急处置方法
CN111079647A (zh) 一种断路器缺陷识别方法
CN111737993B (zh) 一种配电网设备的故障缺陷文本提取设备健康状态方法
CN104391798A (zh) 一种软件特征信息的提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150826

WD01 Invention patent application deemed withdrawn after publication