CN105955960A - 基于语义框架的电网缺陷文本挖掘方法 - Google Patents
基于语义框架的电网缺陷文本挖掘方法 Download PDFInfo
- Publication number
- CN105955960A CN105955960A CN201610300754.8A CN201610300754A CN105955960A CN 105955960 A CN105955960 A CN 105955960A CN 201610300754 A CN201610300754 A CN 201610300754A CN 105955960 A CN105955960 A CN 105955960A
- Authority
- CN
- China
- Prior art keywords
- defect
- groove
- semantic
- semantic frame
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于语义框架的电网缺陷文本信息挖掘方法。挖掘电网缺陷文本中的特征信息,用于实现各种缺陷自动统计需求。现有的统计方法基于人工,不仅费时费力,而且正确率受主观影响大。本发明首先进行缺陷文本句法结构知识提取和本体字典构建;然后运用语义槽填充方法,将缺陷文本的关键词填入语义槽;接着利用语义关联度算法将乱序的槽整合为语义框架;最后,进行词串合并,实现语义框架的精简。语义框架构建完成后,可方便地实现不同需求的缺陷自动统计。本发明对缺陷文本的统计准确率高,应用方便。
Description
技术领域
本发明属于电力系统技术领域,具体是涉及基于语义框架的电网缺陷文本挖掘方法。
背景技术
电网企业在设备运维管理过程中,会以中文形式记录设备的故障、缺陷、检修、消缺等信息。这些信息以文本形式保存在信息管理系统中,不仅反映电力设备个体健康状态的既往史,还蕴藏着丰富的同类设备可靠性信息。从中文文本信息到容易被使用的可靠性信息,需要探索复杂的信息挖掘技术和信息挖掘过程。目前上述信息挖掘难题尚未得到完善解决。电网企业每年要进行的设备缺陷分类与分析统计工作,往往依靠人工进行,不仅工作量大,耗时耗力,而且由于主观因素和经验差异,分类与统计工作的正确性难以验证。因此基于缺陷文本的信息挖掘技术研究十分重要和迫切。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于语义框架的电网缺陷文本挖掘方法。
在电网缺陷文本中,语义框架可视为描述一个缺陷事件的最小单元。一个完整语义框架(frame)可由四个语义槽(slot)构成,分别为:F={Pb,Ps,A,C}。其中,F表示语义框架,Pb、Ps、A、C为语义槽,分别表示设备大部件、小部件、缺陷属性和缺陷程度。语义槽是语义框架的元素,分为核心语义槽与非核心语义槽。其中,Ps与A为核心语义槽;Pb与C为非核心语义槽。
本发明定义近距离匹配算法如下:以核心语义槽a为基点,取非核心语义槽b,定义a与b之间的字符数为路径距离Dis(a,b)。Dis(a,b)越小,表示语义槽关联度越大,故选择与a最小路径距离的b与之匹配。
本发明方法包括以下步骤:
步骤1:分词。基于隐马尔科夫模型(HMM,Hidden Markov Model)对缺陷文本进行分词。
步骤2:词频特征提取。对分词结果进行词频统计,从高频到低频对词语排序,并剔除符号、人名、地名等停用词。
步骤3:共现特征提取。Pb、Ps、A、C四槽共同出现的情况不多,缺陷文本中大部分的语义框架都存在缺槽现象,非核心槽Pb与C常常缺失,核心槽Ps与A总是存在的(极个别特殊案例除外)。
步骤4:词位特征提取。四个槽的位置顺序具有很强的规律性,最典型的排列顺序为Pb-Ps-A-C,Pb-Ps-C-A。
步骤5:构建本体字典。参考国标、导则和相关规程,对上述高频词进行筛选、分类,基于本体论构建字典。本体论最早起源于哲学领域,是对客观存在的事物及其事物之间的关系的抽象概括。这一步目前需要手工构建,工作量大。
上述步骤1-5是对所有历史缺陷文本进行综合处理,实现缺陷文本句法结构知识的获取和本体字典的构建。这是文本挖掘的基础工作。
步骤6:槽填充。基于本体字典,提取文本中的有意义词,填入槽中,并记录词位信息。其中,词位信息是指某词首字之前的所有字符数目;有意义词分为本体字典中的词条和数字两类,数字一律填入C槽。
步骤7:语义框架构建。利用近距离匹配方法,根据语义关联度进行各类槽之间的匹配。语义框架由经过匹配的槽构成,考虑到槽缺失的情况,一个语义框架可能包含2~4个槽。
步骤8:词串合并。在一个语义框架中,连续的Ps槽,如Ps1、Ps2、···、Psn可合并为一个新的Ps槽,即:Ps1Ps2Ps3···Psn=Ps。同时,新的Ps作为有意义字串加入本体字典。
上述步骤6-8是对每一条具体缺陷文本进行处理,通过槽填充、语义框架构建和词串合并功能,实现缺陷文本中关键缺陷信息的挖掘。
针对经过6-8步骤处理过的所有缺陷,实现可靠性方面的各种统计功能。比如:a.针对某一设备,统计既往发生的缺陷种类以及数量;b.针对某一地区,统计某类设备发生缺陷的数量以及缺陷种类;c.在某地区某时间段内,针对某类设备的各类大部件,统计发生的缺陷类型和数量;等等。上述统计结果可以为设备设计、制造、运维等提供依据。
本发明的有益效果:本发明对缺陷文本的统计准确率高,应用方便。
附图说明
图1为槽填充实例图;
图2为语义框架构建图;
图3有载分接开关缺陷种类与数量的关系图。
具体实施方式
以下结合实例对本发明具体的实施步骤作进一步说明:
步骤1:分词。基于隐马尔科夫模型(HMM,Hidden Markov Model)对缺陷文本进行分词。
步骤2:词频特征提取。对分词结果进行词频统计,从高频到低频对词语排序,并剔除符号、人名、地名等停用词。
步骤3:共现特征提取。Pb、Ps、A、C四槽共同出现的情况不多,缺陷文本中大部分的语义框架都存在缺槽现象,非核心槽Pb与C常常缺失,核心槽Ps与A总是存在的(极个别特殊案例除外)。
步骤4:词位特征提取。四个槽的位置顺序具有很强的规律性,最典型的排列顺序为Pb-Ps-A-C,Pb-Ps-C-A。
步骤5:构建本体字典。参考国标、导则和相关规程,对上述高频词进行筛选、分类,基于本体论构建字典。本体论最早起源于哲学领域,是对客观存在的事物及其事物之间的关系的抽象概括。这一步目前需要手工构建,工作量大。
上述步骤1-5是对所有历史缺陷文本进行综合处理,实现缺陷文本句法结构知识的获取和本体字典的构建。这是文本挖掘的基础工作。
步骤6:槽填充。基于本体字典,提取文本中的有意义词,填入槽中,并记录词位信息。其中,词位信息是指某词首字之前的所有字符数目;有意义词分为本体字典中的词条和数字两类,数字一律填入C槽。
步骤7:语义框架构建。利用近距离匹配方法,根据语义关联度进行各类槽之间的匹配。语义框架由经过匹配的槽构成,考虑到槽缺失的情况,一个语义框架可能包含2~4个槽。
步骤8:词串合并。在一个语义框架中,连续的Ps槽,如Ps1、Ps2、···、Psn可合并为一个新的Ps槽,即:Ps1Ps2Ps3···Psn=Ps。同时,新的Ps作为有意义字串加入本体字典。
上述步骤6-8是对每一条具体缺陷文本进行处理,通过槽填充、语义框架构建和词串合并功能,实现缺陷文本中关键缺陷信息的挖掘。在后面将以实例给出示范。
统计应用。针对经过6-8步骤处理过的所有缺陷,实现可靠性方面的各种统计功能。比如:a.针对某一设备,统计既往发生的缺陷种类以及数量;b.针对某一地区,统计某类设备发生缺陷的数量以及缺陷种类;c.在某地区某时间段内,针对某类设备的各类大部件,统计发生的缺陷类型和数量;等等。上述统计结果可以为设备设计、制造、运维等提供依据。
下面以一条缺陷文本为例分析文本的处理流程,然后再展示部分统计结果,其结果基于某电网公司2004-2013十年间共保存的1616条变压器缺陷文本。
待处理的缺陷描述文本为:#1主变呼吸器硅胶变色,散热片渗油,有载分接开关拒动。
1)槽填充。
执行槽填充算法,根据本体字典依次将文本中的有意义词填入各槽,得到如图1所示的初始框架。
2)语义框架构建。
根据初始框架中各类词的词位信息,计算词与词之间的距离远近,然后根据构建规则进行匹配,如图2示意。以Ps(或A)为核心,利用作差比较法,可得与Ps(或A)语义相关度最大的其他槽,构建出中间语义框架。例如,寻找“硅胶”的匹配槽时,Dis(“硅胶”,“变色”)=|8-10|=2,Dis(“硅胶”,“渗油”)=|8-16|=8,故“变色”离“硅胶”更近,二者应当匹配。处理结果如表1所示,词语按文本顺序排列。
表1语义框架结果
3)词串合并。
表1中,第一行与第二行除Ps外,其余三个槽都相同,因而合并两行的Ps,记为“呼吸器硅胶”,并将此词串作为有意义字串存入本体字典。当有多行存在这样的情况时,以两行为单位依次合并。词串合并一方面使结构化数据更精确,另一方面也可自动完善字典。本例词串合并后的结果如表2所示。需说明的是,实际应用中本体字典词用编码表示。
表2词串合并后的结果
部分统计结果:
统计该电网十年间变压器有载分接开关的缺陷种类与数量,结果如图3所示。其中,横坐标为基于国标的有载分接开关九大类缺陷,1-9分别代表:1绝缘性能,2直流电阻,3抗短路能力,4温度,5油性能,6老化,7机械特性,8外观,9通信;纵坐标代表相应缺陷发生的次数。例如,“绝缘性能”为54,表示该电网变压器有载分接开关发生54次绝缘性能缺陷;“油性能”缺陷数最多,有183次,说明有载分接开关的“油性能”容易出现缺陷。
本发明第一次将语义框架与语义槽理论应用于电网缺陷文本,并自主提出近距离匹配算法、词串合并的方法,解决了句子成分难以划分的问题,为缺陷文本的信息挖掘提供了另一种技术。经处理后的文本,可以方便地进行各类统计,大大节约了人工劳动。
Claims (3)
1.基于语义框架的电网缺陷文本挖掘方法,其特征在于该方法包括以下步骤:
步骤1:分词;
采用基于隐马尔科夫模型对缺陷文本进行分词;
步骤2:词频特征提取;
对分词结果进行词频统计,从高频到低频对词语排序,并剔除符号、人名、地名;
步骤3:共现特征提取;
Pb、Ps、A、C四槽共同出现的情况不多,缺陷文本中大部分的语义框架都存在缺槽现象,非核心槽Pb与C常常缺失,核心槽Ps与A总是存在;
其中Pb、Ps、A、C为语义槽,分别表示设备大部件、小部件、缺陷属性和缺陷程度,这四个语义槽构成一个完整语义框架;
步骤4:词位特征提取;
四个槽的位置顺序具有很强的规律性,最典型的排列顺序为Pb-Ps-A-C,Pb-Ps-C-A;
步骤5:构建本体字典;
参考国标、导则和相关规程,对高频词进行筛选、分类,基于本体论构建字典;
上述步骤1-5是对所有历史缺陷文本进行综合处理,实现缺陷文本句法结构知识的获取和本体字典的构建;
步骤6:槽填充;
基于本体字典,提取文本中的有意义词,填入槽中,并记录词位信息;其中,词位信息是指某词首字之前的所有字符数目;有意义词分为本体字典中的词条和数字两类,数字一律填入C槽;
步骤7:语义框架构建;
利用近距离匹配方法,根据语义关联度进行各类槽之间的匹配;语义框架由经过匹配的槽构成,考虑到槽缺失的情况,一个语义框架可能包含2~4个槽;
步骤8:词串合并;
在一个语义框架中,连续的Ps槽合并为一个新的Ps槽,同时,新的Ps作为有意义字串加入本体字典;
上述步骤6-8是对每一条具体缺陷文本进行处理,通过槽填充、语义框架构建和词串合并功能,实现缺陷文本中关键缺陷信息的挖掘。
2.根据权利要求1所述的基于语义框架的电网缺陷文本挖掘方法,其特征在于:所述近距离匹配方法具体是:以核心语义槽a为基点,取非核心语义槽b,定义a与b之间的字符数为路径距离Dis(a,b);Dis(a,b)越小,表示语义槽关联度越大,故选择与a最小路径距离的b与之匹配。
3.基于语义框架的电网缺陷文本挖掘应用,其特征在于采用权利要求1所述的方法,包括:
a.针对某一设备,统计既往发生的缺陷种类以及数量;
b.针对某一地区,统计某类设备发生缺陷的数量以及缺陷种类;
c.在某地区某时间段内,针对某类设备的各类大部件,统计发生的缺陷类型和数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610300754.8A CN105955960B (zh) | 2016-05-06 | 2016-05-06 | 基于语义框架的电网缺陷文本挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610300754.8A CN105955960B (zh) | 2016-05-06 | 2016-05-06 | 基于语义框架的电网缺陷文本挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105955960A true CN105955960A (zh) | 2016-09-21 |
CN105955960B CN105955960B (zh) | 2018-10-02 |
Family
ID=56913863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610300754.8A Expired - Fee Related CN105955960B (zh) | 2016-05-06 | 2016-05-06 | 基于语义框架的电网缺陷文本挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105955960B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874984A (zh) * | 2018-06-11 | 2018-11-23 | 浙江大学 | 一种对质量较差电网设备缺陷文本的质量提升方法 |
CN108959245A (zh) * | 2018-06-08 | 2018-12-07 | 浙江大学 | 电网设备缺陷文本的质量检测方法 |
CN110321425A (zh) * | 2019-07-11 | 2019-10-11 | 云南电网有限责任公司电力科学研究院 | 一种电网缺陷类型的判断方法及装置 |
CN113555018A (zh) * | 2021-07-20 | 2021-10-26 | 海信视像科技股份有限公司 | 语音交互方法及装置 |
CN113971210A (zh) * | 2021-12-27 | 2022-01-25 | 宇动源(北京)信息技术有限公司 | 一种数据字典生成方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103837770A (zh) * | 2014-02-26 | 2014-06-04 | 广东电网公司电力科学研究院 | 电力设备缺陷检测维护方法 |
US20150205863A1 (en) * | 2013-06-25 | 2015-07-23 | Hartford Fire Insurance Company | System and method for evaluating text to support multiple insurance applications |
CN105303296A (zh) * | 2015-09-29 | 2016-02-03 | 国网浙江省电力公司电力科学研究院 | 一种电力设备全寿命状态评价方法 |
-
2016
- 2016-05-06 CN CN201610300754.8A patent/CN105955960B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150205863A1 (en) * | 2013-06-25 | 2015-07-23 | Hartford Fire Insurance Company | System and method for evaluating text to support multiple insurance applications |
CN103837770A (zh) * | 2014-02-26 | 2014-06-04 | 广东电网公司电力科学研究院 | 电力设备缺陷检测维护方法 |
CN105303296A (zh) * | 2015-09-29 | 2016-02-03 | 国网浙江省电力公司电力科学研究院 | 一种电力设备全寿命状态评价方法 |
Non-Patent Citations (2)
Title |
---|
R GRISHMAN, B MIN: "New York University KBP 2010 Slot-Filling System", 《PROCEEDINGS OF THE THIRD TEXT ANALYSIS CONFERENCE 》 * |
邱剑等: "文本信息挖掘技术及其在断路器全寿命状态评价中的应用", 《电力系统自动化》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959245A (zh) * | 2018-06-08 | 2018-12-07 | 浙江大学 | 电网设备缺陷文本的质量检测方法 |
CN108874984A (zh) * | 2018-06-11 | 2018-11-23 | 浙江大学 | 一种对质量较差电网设备缺陷文本的质量提升方法 |
CN108874984B (zh) * | 2018-06-11 | 2021-01-01 | 浙江大学 | 一种对质量较差电网设备缺陷文本的质量提升方法 |
CN110321425A (zh) * | 2019-07-11 | 2019-10-11 | 云南电网有限责任公司电力科学研究院 | 一种电网缺陷类型的判断方法及装置 |
CN110321425B (zh) * | 2019-07-11 | 2023-07-21 | 云南电网有限责任公司电力科学研究院 | 一种电网缺陷类型的判断方法及装置 |
CN113555018A (zh) * | 2021-07-20 | 2021-10-26 | 海信视像科技股份有限公司 | 语音交互方法及装置 |
CN113555018B (zh) * | 2021-07-20 | 2024-05-28 | 海信视像科技股份有限公司 | 语音交互方法及装置 |
CN113971210A (zh) * | 2021-12-27 | 2022-01-25 | 宇动源(北京)信息技术有限公司 | 一种数据字典生成方法、装置、电子设备及存储介质 |
CN113971210B (zh) * | 2021-12-27 | 2022-04-08 | 宇动源(北京)信息技术有限公司 | 一种数据字典生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105955960B (zh) | 2018-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105955960A (zh) | 基于语义框架的电网缺陷文本挖掘方法 | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN112699246B (zh) | 基于知识图谱的领域知识推送方法 | |
CN110377901B (zh) | 一种针对配电线路跳闸填报案例的文本挖掘方法 | |
CN102890698B (zh) | 微博话题标签自动化描述方法 | |
CN106095749A (zh) | 一种基于深度学习的文本关键词提取方法 | |
CN103927397B (zh) | 一种基于区块树的Web页面链接块的识别方法 | |
CN105677833B (zh) | 一种基于文本挖掘技术提取断路器故障特征信息的方法 | |
CN110929520B (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
Sekine | A new direction for sublanguage NLP | |
CN113609844B (zh) | 一种基于混合模型和聚类算法的电力专业词库构建方法 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN110765231A (zh) | 一种基于共指融合的篇章事件抽取方法 | |
CN104317965A (zh) | 基于语料的情感词典构建方法 | |
CN114936276A (zh) | 答案生成方法、装置、电子设备及存储介质 | |
CN103186523A (zh) | 电子设备及其自然语言分析方法 | |
CN104994128A (zh) | 一种数据编码类型识别及转码方法和装置 | |
CN110032736A (zh) | 一种文本分析方法、装置及存储介质 | |
CN111858905A (zh) | 模型训练方法、信息识别方法、装置、电子设备及存储介质 | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
CN105279208A (zh) | 一种数据标示方法和管理系统 | |
CN113312356A (zh) | 基于多模式字符串的设备材料名称匹配方法 | |
CN103810386A (zh) | 一种基于非监督学习的继电保护装置聚类方法 | |
CN111340253B (zh) | 一种主网检修申请单的解析方法及系统 | |
CN106447172A (zh) | 一种基于pms台账的数据校验方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181002 |