CN108959245A - 电网设备缺陷文本的质量检测方法 - Google Patents

电网设备缺陷文本的质量检测方法 Download PDF

Info

Publication number
CN108959245A
CN108959245A CN201810585186.XA CN201810585186A CN108959245A CN 108959245 A CN108959245 A CN 108959245A CN 201810585186 A CN201810585186 A CN 201810585186A CN 108959245 A CN108959245 A CN 108959245A
Authority
CN
China
Prior art keywords
defect
text
quality
defect text
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810585186.XA
Other languages
English (en)
Other versions
CN108959245B (zh
Inventor
王慧芳
邵冠宇
何奔腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810585186.XA priority Critical patent/CN108959245B/zh
Publication of CN108959245A publication Critical patent/CN108959245A/zh
Application granted granted Critical
Publication of CN108959245B publication Critical patent/CN108959245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • General Factory Administration (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了电网设备缺陷文本的质量检测方法。本发明首先,通过对大量实际缺陷文本的分析,总结出电网设备缺陷文本的格式特点及容易出现的不完整、不具体、冗余度过高等问题。然后,基于相应问题,定义了缺陷文本质量检测指标和指标计算规则,并提出了层次‑自适应灰色关联分析法的检测方法。该方法先利用层次分析法计算缺陷文本质量指标权重,再利用自适应灰色关联分析法计算缺陷文本质量评分。最后,结合实例对电力设备缺陷文本进行质量检测,验证缺陷文本质量检测方法的有效性。本发明为提升和保证电网缺陷文本的质量、促进缺陷文本的规范化、改善缺陷文本挖掘效果奠定了基础,也为电网设备其他文本的质量检测提供了示范。

Description

电网设备缺陷文本的质量检测方法
技术领域
本发明属于电力系统领域,具体地说是电网设备缺陷文本的质量检测方法。
背景技术
随着智能电网建设地深入推进,电力系统各个环节产生了海量的多源异构数据,以文本、音频、图像为代表的非结构化数据增长最为迅速。其中描述电网设备缺陷的文本,蕴含着与设备及电网安全最为密切的信息,受到了技术和管理人员的重视,比如为掌握缺陷规律或设备质量情况,对缺陷进行各种视角的分类和统计。由于人工对缺陷文本进行分类和统计,工作量大、效率低,结果依赖于人工主观经验,如何提高缺陷文本的挖掘效率是需要解决的问题。
目前,自然语言处理技术日益成熟,利用机器学习方法或者深度学习方法对中文文本进行挖掘已可实现。然而,实际的电网设备缺陷文本常常存在一些各种原因造成的不规范问题,如描述不完整、有歧义等,若将这些存在质量问题的文本作为有效文本进行挖掘,会给挖掘结果带来一定偏差。因此需要对历史缺陷文本进行质量检测,只有通过质量检测,结果好的才能作为有效文本,结果差的则要进行质量提升后再作为有效文本。
电网设备缺陷文本由于语义复杂,进行文本挖掘难度大。一些研究针对电网设备缺陷文本,进行了不同目的的挖掘,然而共性的问题是挖掘结果受缺陷文本质量影响较大。目前尚不存在缺陷文本质量的检测方法公开发表。
发明内容
本发明所要解决的技术问题是由于电网设备缺陷文本质量存在问题而给电网文本挖掘结果带来偏差,提出一种电网设备缺陷文本质量检测方法,该方法:
首先,分析电网设备缺陷文本的格式特点和内容特点,总结实际缺陷文本中可能出现的问题,如:缺陷描述遗漏对缺陷程度的记录或缺陷描述冗余、设备分层容易遗漏或写错某一层次的内容、缺陷等级与缺陷描述不匹配等。
然后,依据缺陷文本的实际问题,针对性提出完整度I1、精确度I2、冗余度I3作为文本质量检测指标,并结合缺陷文本格式特点中不同部分(如缺陷描述、设备分层等)的重要程度,定义不同指标的量化规则。按该量化规则,利用自然语言处理领域较为成熟的分词、词性标注等技术并结合正则表达式、字符串匹配等方法对实际缺陷文本进行判断,计算其在不同指标上的得分。
最后,提出层次-自适应灰色关联分析法,将层次分析法得到的指标权重向量ωmax,和灰色关联分析法的关联系数矩阵Bm×n相结合,其中m为缺陷文本数,n为指标数,并对关联系数中含有的分辨系数ρ根据实际缺陷文本质量做出自适应调整,计算得到缺陷文本的质量检测结果。
本发明的有益效果:在对实际电网设备缺陷文本格式和内容分析研究的基础上,提出了缺陷文本质量检测的定义、指标及量化规则和具体的质量检测方法——“层次-自适应灰色关联分析法”,并针对性地根据不同设备类型自适应调整此方法中的分辨系数,使质量检测结果更为准确合理。本发明为提升和保证电网缺陷文本的质量、促进缺陷文本的规范化、改善缺陷文本挖掘效果奠定了基础,也为电网设备其他文本的质量检测提供了示范。
附图说明
图1不同类型设备缺陷文本平均质量检测结果。
具体实施方式
本实施例以电网设备缺陷文本存在的实际质量问题为依据,提出文本质量检测指标并定义相应量化规则。采用“层次-自适应灰色关联分析法”进行缺陷文本质量检测。具体步骤如下:
步骤1.对电网企业的大量电力设备缺陷文本进行分析,结合国家电网公司输变电一次设备缺陷分类标准(下文简称标准),总结出实际缺陷文本的格式特点。并在格式特点的基础上总结出缺陷文本的常见问题,如:缺陷描述遗漏对缺陷程度的记录或缺陷描述冗余、设备分层容易遗漏或写错某一层次的内容、缺陷等级与缺陷描述不匹配等。
步骤2.依据缺陷文本的实际问题,针对性提出完整度I1、精确度I2、冗余度I3作为文本质量检测指标,并结合缺陷文本格式特点中不同部分(如缺陷描述、设备分层等)的重要程度,定义不同指标的量化规则。给出缺陷文本质量检测的含义为:根据缺陷文本在不同指标上的得分判断其规范程度的过程。具体的量化规则如下:①判断缺陷文本中是否存在缺陷描述及缺陷程度,若两者都存在则将I1记为1;只存在缺陷描述时,可通过缺陷等级对程度进行补全,将I1记为0.8;两者都不存在则记为0。②判断缺陷发生位置是否包含国家电网输变电一次设备缺陷分类标准中设备分层的五个级别,每个级别的权重依次为0.3、0.1、0.2、0.1、0.3,若记录中存在该级别词汇,则从0加上对应权重。最后将每个级别获得权重相加,可得到0~1的权重作为I2的值。若同一级别出现多个词语,此级别的权重也只累加一次。若某些词被不同等级共有,则采用累加的方式计算I2。③判断单条缺陷文本中字符重复率是否达到70%,若超过70%,将I3记为0,反之记为1。此阈值可保证所有的标准语句均不被判定为冗余语句。
步骤3.按上述量化规则,利用自然语言处理领域较为成熟的分词、词性标注等技术并结合正则表达式、字符串匹配等方法对实际缺陷文本进行处理和判断,计算其在不同指标上的得分。具体方法为:①首先利用隐马尔可夫模型(Hidden Markov Model,HMM)和维特比(vertibi)算法结合电力本体字典,对单条缺陷文本进行分词、去除停用词和词性标注的预处理;②根据字符重复率求出文本在冗余度上得分;③结合标准给出的设备分层词语,利用字符串匹配的方法确定缺陷文本在精确度上的得分;④利用正则表达式和词性标注结果,分析缺陷描述和缺陷程度存在与否,得到完整度得分。按上述计算缺陷文本在指标上得分的方法可得缺陷文本原始质量检测矩阵Sm×n。其中,行数m代表缺陷文本个数,每一行的行向量称为缺陷文本的初始质量向量Se;n为指标个数,即n=3;矩阵中的元素为每条缺陷文本在不同指标上的得分。
步骤4.提出“层次-自适应灰色关联分析法”计算缺陷文本的质量评分,具体方法为:
(1)通过对大量缺陷文本的实际特点加以分析,结合步骤2给出的不同指标的量化规则,分析得出完整度稍重要于精确度、而精确度明显重要于冗余度的结论,经过一致性检验,可得层次分析法的判断矩阵A为然后利用最大特征值法求出归一化后的特征向量ωmax,作为不同指标的相对权重向量。
(2)通过计算第i条缺陷文本在第j个指标上的关联系数。其中,s0j为理想向量在第j个指标上的值,即为1;sij为矩阵Sm×n中第i条缺陷文本第j个指标上的得分;ρ为分辨系数,按照“缺陷文本在不同指标上得分有所变化时,尽量使关联系数的变化较为明显,从而体现在最终的评分上”的原则,找出最大时ρ的取值,其中并考虑关联系数为正数。为保证质量检测时对同一类设备具有统一的标准,将第l类设备的分辨系数定义为
(3)经计算得到不同缺陷文本在不同指标上的关联系数后,由βi(j)构成关联矩阵Bm×n。利用由层次分析法得到的指标权重ωmax,根据S'm=Bm×nmax求出l类设备缺陷文本的评分列向量S'm,S'm的m维分别代表m条缺陷文本的质量检测得分。
应用例:将本发明提出的电网设备缺陷文本质量检测方法应用于实际的25000多条不同类型设备的缺陷文本。不同指标及对应量化规则如表1。示例的两条变压器缺陷文本的质量检测结果如表2;图1为不同类型电力设备缺陷文本的平均质量检测结果。
表1缺陷文本质量检测指标及量化规则
表2不同缺陷文本及其质量检测结果

Claims (3)

1.电网设备缺陷文本的质量检测方法,其特征在于该方法包括以下步骤:
步骤1.对电网企业的大量电力设备缺陷文本进行分析,结合国家电网公司输变电一次设备缺陷分类标准,总结出实际缺陷文本的格式特点,并在格式特点的基础上总结出缺陷文本的常见问题;
步骤2.依据缺陷文本的实际问题,针对性提出完整度I1、精确度I2、冗余度I3作为文本质量评价指标,并结合缺陷文本格式特点中不同部分的重要程度,定义不同指标的量化规则,并给出缺陷文本质量检测的定义;
步骤3.按上述量化规则,利用分词、词性标注并结合正则表达式、字符串匹配对实际缺陷文本进行处理和判断,计算其在不同指标上的得分,具体方法是:
①首先利用隐马尔可夫模型和维特比算法结合电力本体字典,对单条缺陷文本进行分词、去除停用词和词性标注的预处理;
②根据字符重复率求出文本在冗余度上得分;
③结合标准给出的设备分层词语,利用字符串匹配的方法确定缺陷文本在精确度上的得分;
④利用正则表达式和词性标注结果,分析缺陷描述和缺陷程度存在与否,得到完整度得分;
按上述方法计算缺陷文本在指标上得分,得到缺陷文本原始质量评价矩阵Sm×n;其中,行数m代表缺陷文本个数,每一行的行向量称为缺陷文本的初始质量向量Se;n为指标个数,即n=3;矩阵中的元素为每条缺陷文本在不同指标上的得分;
步骤4.提出“层次-自适应灰色关联分析法”,计算缺陷文本的质量,具体是:
(1)通过对大量缺陷文本的实际特点加以分析,结合步骤2给出的不同指标的量化规则,得层次分析法的判断矩阵A为然后利用最大特征值法求出归一化后的特征向量ωmax,作为不同指标的相对权重向量;
(2)通过计算第i条缺陷文本在第j个指标上的关联系数;其中s0j为理想向量在第j个指标上的值,即为1;sij为矩阵Sm×n中第i条缺陷文本第j个指标上的得分;ρ为分辨系数;
(3)计算得到不同缺陷文本在不同指标上的关联系数后,由βi(j)构成关联矩阵Bm×n;利用由层次分析法得到指标权重ωmax,根据S'm=Bm×nmax求出l类设备缺陷文本的评分列向量S'm,S'm的m维分别代表m条文本的质量检测结果。
2.根据权利要求1所述的电网设备缺陷文本的质量检测方法,其特征在于:步骤2中给出缺陷文本质量检测的定义:根据缺陷文本在不同指标上的得分判断其规范程度的过程,量化规则具体如下:
①判断缺陷文本中是否存在缺陷描述及缺陷程度,若两者都存在则将I1记为1;只存在缺陷描述时,通过缺陷等级对程度进行补全,将I1记为0.8;两者都不存在则记为0;
②判断缺陷发生位置是否包含国家电网输变电一次设备缺陷分类标准给出设备分层中的五个级别,每个级别的权重依次为0.3、0.1、0.2、0.1、0.3,若记录中存在该级别词汇,则从0加上对应权重;最后将每个级别获得权重相加,可得到0~1的权重作为I2的值;若同一级别出现多个词语,此级别的权重也只累加一次;若某些词被不同等级共有,则采用累加的方式计算I2
③判断单条缺陷文本中字符重复率是否达到70%,若超过70%,将I3记为0,反之记为1。
3.根据权利要求1所述的电网设备缺陷文本的质量检测方法,其特征在于:步骤4的(2)中,在计算第i条缺陷文本在第j个指标上的关联系数时,按照“缺陷文本在不同指标上得分有所变化时,尽量使关联系数的变化较为明显,从而体现在最终的评分上”的原则,分辨系数ρ选择最大时的取值,其中并且考虑关联系数为正数;为保证质量检测时对同一类设备具有统一的标准,将第l类设备的分辨系数定义为
CN201810585186.XA 2018-06-08 2018-06-08 电网设备缺陷文本的质量检测方法 Active CN108959245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810585186.XA CN108959245B (zh) 2018-06-08 2018-06-08 电网设备缺陷文本的质量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810585186.XA CN108959245B (zh) 2018-06-08 2018-06-08 电网设备缺陷文本的质量检测方法

Publications (2)

Publication Number Publication Date
CN108959245A true CN108959245A (zh) 2018-12-07
CN108959245B CN108959245B (zh) 2021-01-01

Family

ID=64493347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810585186.XA Active CN108959245B (zh) 2018-06-08 2018-06-08 电网设备缺陷文本的质量检测方法

Country Status (1)

Country Link
CN (1) CN108959245B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365468A (zh) * 2020-11-11 2021-02-12 南通大学 基于AA-gate-Unet的海上风电塔筒涂层缺陷检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090177447A1 (en) * 2008-01-04 2009-07-09 National Tsing Hua University Method for Estimating Software Development Effort
CN105427053A (zh) * 2015-12-07 2016-03-23 广东电网有限责任公司江门供电局 一种应用于配网建设改造方案与供电质量评估指标的关联影响分析模型
CN105955960A (zh) * 2016-05-06 2016-09-21 浙江大学 基于语义框架的电网缺陷文本挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090177447A1 (en) * 2008-01-04 2009-07-09 National Tsing Hua University Method for Estimating Software Development Effort
CN105427053A (zh) * 2015-12-07 2016-03-23 广东电网有限责任公司江门供电局 一种应用于配网建设改造方案与供电质量评估指标的关联影响分析模型
CN105955960A (zh) * 2016-05-06 2016-09-21 浙江大学 基于语义框架的电网缺陷文本挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘金兰: "熵权-层次分析法与灰色-层次分析法研究", 《万方数据知识服务平台》 *
秦璇: "电力统计数据的质量评估及其异常检测方法", 《万方数据知识服务平台》 *
邱剑 等: "文本信息挖掘技术及其在断路器全寿命状态评价中的应用", 《电力系统自动化》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365468A (zh) * 2020-11-11 2021-02-12 南通大学 基于AA-gate-Unet的海上风电塔筒涂层缺陷检测方法

Also Published As

Publication number Publication date
CN108959245B (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN111104789B (zh) 文本评分方法、装置和系统
CN111221939B (zh) 评分方法、装置和电子设备
US8301640B2 (en) System and method for rating a written document
CN112508334B (zh) 融合认知特性及试题文本信息的个性化组卷方法及系统
CN107562918A (zh) 一种数学题知识点发现与批量标签获取方法
CN113723094B (zh) 文本处理方法、模型训练方法、设备及存储介质
CN109472462A (zh) 一种基于多模型堆栈融合的项目风险评级方法及装置
CN108874984A (zh) 一种对质量较差电网设备缺陷文本的质量提升方法
CN104317882B (zh) 一种决策级中文分词融合方法
CN114610901A (zh) 一种电网运行数据融合方法、装置及存储介质
CN111079582A (zh) 一种图像识别的英语作文跑题判断方法
US20240168554A1 (en) Domain adaptation method and system for gesture recognition
CN112015760A (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN114969334A (zh) 异常日志检测方法、装置、电子设备及可读存储介质
CN108959245A (zh) 电网设备缺陷文本的质量检测方法
CN111598331B (zh) 一种基于科研多维特征的项目可行性预测分析方法
Selvarasa et al. Short Tamil sentence similarity calculation using knowledge-based and corpus-based similarity measures
CN113762589A (zh) 一种输变电工程变更预测系统及方法
Liu et al. Overhead transmission line condition assessment based on intention classification and slot filling using optimized BERT model
Eid et al. Automated essay scoring linguistic feature: Comparative study
Wei et al. Power system text information matehing researeh based on deep learning
CN116738962B (zh) 一种面向社交媒体的事实核查方法及系统
Punchihewa et al. A language modelling approach to authorship identification for online examinations in sinhala
CN117540727B (zh) 基于albert模型与rpa技术的主观题评分方法及系统
Tang Design of Automatic Scoring System for English Reading Comprehension: Based on Natural Language Processing Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant