CN105955960A - 基于语义框架的电网缺陷文本挖掘方法 - Google Patents

基于语义框架的电网缺陷文本挖掘方法 Download PDF

Info

Publication number
CN105955960A
CN105955960A CN201610300754.8A CN201610300754A CN105955960A CN 105955960 A CN105955960 A CN 105955960A CN 201610300754 A CN201610300754 A CN 201610300754A CN 105955960 A CN105955960 A CN 105955960A
Authority
CN
China
Prior art keywords
defect
groove
semantic
semantic frame
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610300754.8A
Other languages
English (en)
Other versions
CN105955960B (zh
Inventor
曹靖
陈陆燊
邱剑
王慧芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201610300754.8A priority Critical patent/CN105955960B/zh
Publication of CN105955960A publication Critical patent/CN105955960A/zh
Application granted granted Critical
Publication of CN105955960B publication Critical patent/CN105955960B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于语义框架的电网缺陷文本信息挖掘方法。挖掘电网缺陷文本中的特征信息,用于实现各种缺陷自动统计需求。现有的统计方法基于人工,不仅费时费力,而且正确率受主观影响大。本发明首先进行缺陷文本句法结构知识提取和本体字典构建;然后运用语义槽填充方法,将缺陷文本的关键词填入语义槽;接着利用语义关联度算法将乱序的槽整合为语义框架;最后,进行词串合并,实现语义框架的精简。语义框架构建完成后,可方便地实现不同需求的缺陷自动统计。本发明对缺陷文本的统计准确率高,应用方便。

Description

基于语义框架的电网缺陷文本挖掘方法
技术领域
本发明属于电力系统技术领域,具体是涉及基于语义框架的电网缺陷文本挖掘方法。
背景技术
电网企业在设备运维管理过程中,会以中文形式记录设备的故障、缺陷、检修、消缺等信息。这些信息以文本形式保存在信息管理系统中,不仅反映电力设备个体健康状态的既往史,还蕴藏着丰富的同类设备可靠性信息。从中文文本信息到容易被使用的可靠性信息,需要探索复杂的信息挖掘技术和信息挖掘过程。目前上述信息挖掘难题尚未得到完善解决。电网企业每年要进行的设备缺陷分类与分析统计工作,往往依靠人工进行,不仅工作量大,耗时耗力,而且由于主观因素和经验差异,分类与统计工作的正确性难以验证。因此基于缺陷文本的信息挖掘技术研究十分重要和迫切。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于语义框架的电网缺陷文本挖掘方法。
在电网缺陷文本中,语义框架可视为描述一个缺陷事件的最小单元。一个完整语义框架(frame)可由四个语义槽(slot)构成,分别为:F={Pb,Ps,A,C}。其中,F表示语义框架,Pb、Ps、A、C为语义槽,分别表示设备大部件、小部件、缺陷属性和缺陷程度。语义槽是语义框架的元素,分为核心语义槽与非核心语义槽。其中,Ps与A为核心语义槽;Pb与C为非核心语义槽。
本发明定义近距离匹配算法如下:以核心语义槽a为基点,取非核心语义槽b,定义a与b之间的字符数为路径距离Dis(a,b)。Dis(a,b)越小,表示语义槽关联度越大,故选择与a最小路径距离的b与之匹配。
本发明方法包括以下步骤:
步骤1:分词。基于隐马尔科夫模型(HMM,Hidden Markov Model)对缺陷文本进行分词。
步骤2:词频特征提取。对分词结果进行词频统计,从高频到低频对词语排序,并剔除符号、人名、地名等停用词。
步骤3:共现特征提取。Pb、Ps、A、C四槽共同出现的情况不多,缺陷文本中大部分的语义框架都存在缺槽现象,非核心槽Pb与C常常缺失,核心槽Ps与A总是存在的(极个别特殊案例除外)。
步骤4:词位特征提取。四个槽的位置顺序具有很强的规律性,最典型的排列顺序为Pb-Ps-A-C,Pb-Ps-C-A。
步骤5:构建本体字典。参考国标、导则和相关规程,对上述高频词进行筛选、分类,基于本体论构建字典。本体论最早起源于哲学领域,是对客观存在的事物及其事物之间的关系的抽象概括。这一步目前需要手工构建,工作量大。
上述步骤1-5是对所有历史缺陷文本进行综合处理,实现缺陷文本句法结构知识的获取和本体字典的构建。这是文本挖掘的基础工作。
步骤6:槽填充。基于本体字典,提取文本中的有意义词,填入槽中,并记录词位信息。其中,词位信息是指某词首字之前的所有字符数目;有意义词分为本体字典中的词条和数字两类,数字一律填入C槽。
步骤7:语义框架构建。利用近距离匹配方法,根据语义关联度进行各类槽之间的匹配。语义框架由经过匹配的槽构成,考虑到槽缺失的情况,一个语义框架可能包含2~4个槽。
步骤8:词串合并。在一个语义框架中,连续的Ps槽,如Ps1、Ps2、···、Psn可合并为一个新的Ps槽,即:Ps1Ps2Ps3···Psn=Ps。同时,新的Ps作为有意义字串加入本体字典。
上述步骤6-8是对每一条具体缺陷文本进行处理,通过槽填充、语义框架构建和词串合并功能,实现缺陷文本中关键缺陷信息的挖掘。
针对经过6-8步骤处理过的所有缺陷,实现可靠性方面的各种统计功能。比如:a.针对某一设备,统计既往发生的缺陷种类以及数量;b.针对某一地区,统计某类设备发生缺陷的数量以及缺陷种类;c.在某地区某时间段内,针对某类设备的各类大部件,统计发生的缺陷类型和数量;等等。上述统计结果可以为设备设计、制造、运维等提供依据。
本发明的有益效果:本发明对缺陷文本的统计准确率高,应用方便。
附图说明
图1为槽填充实例图;
图2为语义框架构建图;
图3有载分接开关缺陷种类与数量的关系图。
具体实施方式
以下结合实例对本发明具体的实施步骤作进一步说明:
步骤1:分词。基于隐马尔科夫模型(HMM,Hidden Markov Model)对缺陷文本进行分词。
步骤2:词频特征提取。对分词结果进行词频统计,从高频到低频对词语排序,并剔除符号、人名、地名等停用词。
步骤3:共现特征提取。Pb、Ps、A、C四槽共同出现的情况不多,缺陷文本中大部分的语义框架都存在缺槽现象,非核心槽Pb与C常常缺失,核心槽Ps与A总是存在的(极个别特殊案例除外)。
步骤4:词位特征提取。四个槽的位置顺序具有很强的规律性,最典型的排列顺序为Pb-Ps-A-C,Pb-Ps-C-A。
步骤5:构建本体字典。参考国标、导则和相关规程,对上述高频词进行筛选、分类,基于本体论构建字典。本体论最早起源于哲学领域,是对客观存在的事物及其事物之间的关系的抽象概括。这一步目前需要手工构建,工作量大。
上述步骤1-5是对所有历史缺陷文本进行综合处理,实现缺陷文本句法结构知识的获取和本体字典的构建。这是文本挖掘的基础工作。
步骤6:槽填充。基于本体字典,提取文本中的有意义词,填入槽中,并记录词位信息。其中,词位信息是指某词首字之前的所有字符数目;有意义词分为本体字典中的词条和数字两类,数字一律填入C槽。
步骤7:语义框架构建。利用近距离匹配方法,根据语义关联度进行各类槽之间的匹配。语义框架由经过匹配的槽构成,考虑到槽缺失的情况,一个语义框架可能包含2~4个槽。
步骤8:词串合并。在一个语义框架中,连续的Ps槽,如Ps1、Ps2、···、Psn可合并为一个新的Ps槽,即:Ps1Ps2Ps3···Psn=Ps。同时,新的Ps作为有意义字串加入本体字典。
上述步骤6-8是对每一条具体缺陷文本进行处理,通过槽填充、语义框架构建和词串合并功能,实现缺陷文本中关键缺陷信息的挖掘。在后面将以实例给出示范。
统计应用。针对经过6-8步骤处理过的所有缺陷,实现可靠性方面的各种统计功能。比如:a.针对某一设备,统计既往发生的缺陷种类以及数量;b.针对某一地区,统计某类设备发生缺陷的数量以及缺陷种类;c.在某地区某时间段内,针对某类设备的各类大部件,统计发生的缺陷类型和数量;等等。上述统计结果可以为设备设计、制造、运维等提供依据。
下面以一条缺陷文本为例分析文本的处理流程,然后再展示部分统计结果,其结果基于某电网公司2004-2013十年间共保存的1616条变压器缺陷文本。
待处理的缺陷描述文本为:#1主变呼吸器硅胶变色,散热片渗油,有载分接开关拒动。
1)槽填充。
执行槽填充算法,根据本体字典依次将文本中的有意义词填入各槽,得到如图1所示的初始框架。
2)语义框架构建。
根据初始框架中各类词的词位信息,计算词与词之间的距离远近,然后根据构建规则进行匹配,如图2示意。以Ps(或A)为核心,利用作差比较法,可得与Ps(或A)语义相关度最大的其他槽,构建出中间语义框架。例如,寻找“硅胶”的匹配槽时,Dis(“硅胶”,“变色”)=|8-10|=2,Dis(“硅胶”,“渗油”)=|8-16|=8,故“变色”离“硅胶”更近,二者应当匹配。处理结果如表1所示,词语按文本顺序排列。
表1语义框架结果
3)词串合并。
表1中,第一行与第二行除Ps外,其余三个槽都相同,因而合并两行的Ps,记为“呼吸器硅胶”,并将此词串作为有意义字串存入本体字典。当有多行存在这样的情况时,以两行为单位依次合并。词串合并一方面使结构化数据更精确,另一方面也可自动完善字典。本例词串合并后的结果如表2所示。需说明的是,实际应用中本体字典词用编码表示。
表2词串合并后的结果
部分统计结果:
统计该电网十年间变压器有载分接开关的缺陷种类与数量,结果如图3所示。其中,横坐标为基于国标的有载分接开关九大类缺陷,1-9分别代表:1绝缘性能,2直流电阻,3抗短路能力,4温度,5油性能,6老化,7机械特性,8外观,9通信;纵坐标代表相应缺陷发生的次数。例如,“绝缘性能”为54,表示该电网变压器有载分接开关发生54次绝缘性能缺陷;“油性能”缺陷数最多,有183次,说明有载分接开关的“油性能”容易出现缺陷。
本发明第一次将语义框架与语义槽理论应用于电网缺陷文本,并自主提出近距离匹配算法、词串合并的方法,解决了句子成分难以划分的问题,为缺陷文本的信息挖掘提供了另一种技术。经处理后的文本,可以方便地进行各类统计,大大节约了人工劳动。

Claims (3)

1.基于语义框架的电网缺陷文本挖掘方法,其特征在于该方法包括以下步骤:
步骤1:分词;
采用基于隐马尔科夫模型对缺陷文本进行分词;
步骤2:词频特征提取;
对分词结果进行词频统计,从高频到低频对词语排序,并剔除符号、人名、地名;
步骤3:共现特征提取;
Pb、Ps、A、C四槽共同出现的情况不多,缺陷文本中大部分的语义框架都存在缺槽现象,非核心槽Pb与C常常缺失,核心槽Ps与A总是存在;
其中Pb、Ps、A、C为语义槽,分别表示设备大部件、小部件、缺陷属性和缺陷程度,这四个语义槽构成一个完整语义框架;
步骤4:词位特征提取;
四个槽的位置顺序具有很强的规律性,最典型的排列顺序为Pb-Ps-A-C,Pb-Ps-C-A;
步骤5:构建本体字典;
参考国标、导则和相关规程,对高频词进行筛选、分类,基于本体论构建字典;
上述步骤1-5是对所有历史缺陷文本进行综合处理,实现缺陷文本句法结构知识的获取和本体字典的构建;
步骤6:槽填充;
基于本体字典,提取文本中的有意义词,填入槽中,并记录词位信息;其中,词位信息是指某词首字之前的所有字符数目;有意义词分为本体字典中的词条和数字两类,数字一律填入C槽;
步骤7:语义框架构建;
利用近距离匹配方法,根据语义关联度进行各类槽之间的匹配;语义框架由经过匹配的槽构成,考虑到槽缺失的情况,一个语义框架可能包含2~4个槽;
步骤8:词串合并;
在一个语义框架中,连续的Ps槽合并为一个新的Ps槽,同时,新的Ps作为有意义字串加入本体字典;
上述步骤6-8是对每一条具体缺陷文本进行处理,通过槽填充、语义框架构建和词串合并功能,实现缺陷文本中关键缺陷信息的挖掘。
2.根据权利要求1所述的基于语义框架的电网缺陷文本挖掘方法,其特征在于:所述近距离匹配方法具体是:以核心语义槽a为基点,取非核心语义槽b,定义a与b之间的字符数为路径距离Dis(a,b);Dis(a,b)越小,表示语义槽关联度越大,故选择与a最小路径距离的b与之匹配。
3.基于语义框架的电网缺陷文本挖掘应用,其特征在于采用权利要求1所述的方法,包括:
a.针对某一设备,统计既往发生的缺陷种类以及数量;
b.针对某一地区,统计某类设备发生缺陷的数量以及缺陷种类;
c.在某地区某时间段内,针对某类设备的各类大部件,统计发生的缺陷类型和数量。
CN201610300754.8A 2016-05-06 2016-05-06 基于语义框架的电网缺陷文本挖掘方法 Expired - Fee Related CN105955960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610300754.8A CN105955960B (zh) 2016-05-06 2016-05-06 基于语义框架的电网缺陷文本挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610300754.8A CN105955960B (zh) 2016-05-06 2016-05-06 基于语义框架的电网缺陷文本挖掘方法

Publications (2)

Publication Number Publication Date
CN105955960A true CN105955960A (zh) 2016-09-21
CN105955960B CN105955960B (zh) 2018-10-02

Family

ID=56913863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610300754.8A Expired - Fee Related CN105955960B (zh) 2016-05-06 2016-05-06 基于语义框架的电网缺陷文本挖掘方法

Country Status (1)

Country Link
CN (1) CN105955960B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874984A (zh) * 2018-06-11 2018-11-23 浙江大学 一种对质量较差电网设备缺陷文本的质量提升方法
CN108959245A (zh) * 2018-06-08 2018-12-07 浙江大学 电网设备缺陷文本的质量检测方法
CN110321425A (zh) * 2019-07-11 2019-10-11 云南电网有限责任公司电力科学研究院 一种电网缺陷类型的判断方法及装置
CN113555018A (zh) * 2021-07-20 2021-10-26 海信视像科技股份有限公司 语音交互方法及装置
CN113971210A (zh) * 2021-12-27 2022-01-25 宇动源(北京)信息技术有限公司 一种数据字典生成方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103837770A (zh) * 2014-02-26 2014-06-04 广东电网公司电力科学研究院 电力设备缺陷检测维护方法
US20150205863A1 (en) * 2013-06-25 2015-07-23 Hartford Fire Insurance Company System and method for evaluating text to support multiple insurance applications
CN105303296A (zh) * 2015-09-29 2016-02-03 国网浙江省电力公司电力科学研究院 一种电力设备全寿命状态评价方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150205863A1 (en) * 2013-06-25 2015-07-23 Hartford Fire Insurance Company System and method for evaluating text to support multiple insurance applications
CN103837770A (zh) * 2014-02-26 2014-06-04 广东电网公司电力科学研究院 电力设备缺陷检测维护方法
CN105303296A (zh) * 2015-09-29 2016-02-03 国网浙江省电力公司电力科学研究院 一种电力设备全寿命状态评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
R GRISHMAN, B MIN: "New York University KBP 2010 Slot-Filling System", 《PROCEEDINGS OF THE THIRD TEXT ANALYSIS CONFERENCE 》 *
邱剑等: "文本信息挖掘技术及其在断路器全寿命状态评价中的应用", 《电力系统自动化》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959245A (zh) * 2018-06-08 2018-12-07 浙江大学 电网设备缺陷文本的质量检测方法
CN108874984A (zh) * 2018-06-11 2018-11-23 浙江大学 一种对质量较差电网设备缺陷文本的质量提升方法
CN108874984B (zh) * 2018-06-11 2021-01-01 浙江大学 一种对质量较差电网设备缺陷文本的质量提升方法
CN110321425A (zh) * 2019-07-11 2019-10-11 云南电网有限责任公司电力科学研究院 一种电网缺陷类型的判断方法及装置
CN110321425B (zh) * 2019-07-11 2023-07-21 云南电网有限责任公司电力科学研究院 一种电网缺陷类型的判断方法及装置
CN113555018A (zh) * 2021-07-20 2021-10-26 海信视像科技股份有限公司 语音交互方法及装置
CN113555018B (zh) * 2021-07-20 2024-05-28 海信视像科技股份有限公司 语音交互方法及装置
CN113971210A (zh) * 2021-12-27 2022-01-25 宇动源(北京)信息技术有限公司 一种数据字典生成方法、装置、电子设备及存储介质
CN113971210B (zh) * 2021-12-27 2022-04-08 宇动源(北京)信息技术有限公司 一种数据字典生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN105955960B (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN105955960A (zh) 基于语义框架的电网缺陷文本挖掘方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN112699246B (zh) 基于知识图谱的领域知识推送方法
CN110377901B (zh) 一种针对配电线路跳闸填报案例的文本挖掘方法
CN102890698B (zh) 微博话题标签自动化描述方法
CN106095749A (zh) 一种基于深度学习的文本关键词提取方法
CN103927397B (zh) 一种基于区块树的Web页面链接块的识别方法
CN105677833B (zh) 一种基于文本挖掘技术提取断路器故障特征信息的方法
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
Sekine A new direction for sublanguage NLP
CN113609844B (zh) 一种基于混合模型和聚类算法的电力专业词库构建方法
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN110765231A (zh) 一种基于共指融合的篇章事件抽取方法
CN104317965A (zh) 基于语料的情感词典构建方法
CN114936276A (zh) 答案生成方法、装置、电子设备及存储介质
CN103186523A (zh) 电子设备及其自然语言分析方法
CN104994128A (zh) 一种数据编码类型识别及转码方法和装置
CN110032736A (zh) 一种文本分析方法、装置及存储介质
CN111858905A (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN105279208A (zh) 一种数据标示方法和管理系统
CN113312356A (zh) 基于多模式字符串的设备材料名称匹配方法
CN103810386A (zh) 一种基于非监督学习的继电保护装置聚类方法
CN111340253B (zh) 一种主网检修申请单的解析方法及系统
CN106447172A (zh) 一种基于pms台账的数据校验方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181002