CN110377901A - 一种针对配电线路跳闸填报案例的文本挖掘方法 - Google Patents

一种针对配电线路跳闸填报案例的文本挖掘方法 Download PDF

Info

Publication number
CN110377901A
CN110377901A CN201910536380.3A CN201910536380A CN110377901A CN 110377901 A CN110377901 A CN 110377901A CN 201910536380 A CN201910536380 A CN 201910536380A CN 110377901 A CN110377901 A CN 110377901A
Authority
CN
China
Prior art keywords
text
report
phrase
vocabulary
component system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910536380.3A
Other languages
English (en)
Other versions
CN110377901B (zh
Inventor
刘绚
尚银辉
车亮
于宗超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201910536380.3A priority Critical patent/CN110377901B/zh
Publication of CN110377901A publication Critical patent/CN110377901A/zh
Application granted granted Critical
Publication of CN110377901B publication Critical patent/CN110377901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种针对配电线路跳闸填报案例的文本挖掘方法,对已有文本进行分析,获取其分词,词性,句法关系结果,结合文本叙述特征,定义抽取关系,从原始文本中抽取大量事实多元组短语,采用基于word2vec词向量训练模型进行短语相似度筛选,将筛选后的小范围短语基于编辑距离计算确定抽取结果。以某次填报文本为例,给出针对其故障现象及故障原因两部分内容的具体抽取流程结果,最后通过对多个样本抽取结果统计,其两种目标抽取准确率均能达到70%以上。

Description

一种针对配电线路跳闸填报案例的文本挖掘方法
技术领域
本发明文本挖掘领域,具体为一种针对配电线路跳闸填报案例的文本挖掘方法。
背景技术
文本挖掘亦称“文本数据挖掘”或“文本知识发现”,是从文本中抽取隐含的,未知的,潜在有用的模型的过程[1]。对文本信息的挖掘主要是发现某些文字的规律以及文字,语义,语法间的联系,作为近年来自然语言处理领域的一个重要分支,其在譬如机器翻译,信息检索,信息过滤等语言处理中已得到广泛应用[2]。
文本挖掘遵循经典数据挖掘的一般模型,其处理框架包括预处理任务,核心挖掘操作,表现层元素以及浏览精炼技术[3],针对不同文本处理任务,以相应框架处理方式对文本信息进行挖掘。文本挖掘大致包括两类,一种是对文档集的整体操作,主要是处理文本分类,聚类,是对整体文本提取特征信息;另一种是对单个文本进行挖掘,主要是文本内部内容角度入手,挖掘单个文本中有价值的信息,主要可用于结构分析,文本摘要,信息抽取等功能[4]。国外自上世纪50年代开始就已开始文本挖掘相关领域研究,H.P.Luhn提出基于词频统计的文本分类思想,对于文本分类领域提供重要思路,目前国外文本挖掘以能够从实验性阶段进入到实用化阶段,已推出出一系列文本挖掘平台,包括IBM的文本智能挖掘机,Autonomy的Concept Agents以及TelTech的TelTech平台,对文本挖掘效果良好[5]。
与英文文本不同,中文文本表述存在自身的特殊性,中文的字,词,词组,句子,段,节,章,篇的多层复杂叙述结构使得其在不同层级转换过程中存在歧义与多义现象[6],此外,英文文本与中文文本在包括词的构成方法、词性、词与词之间是否通过空格分隔等方面都存在明显差异,因此英文文本的处理方式难以直接应用于中文文本的处理。针对复杂中文文本的处理,国内目前有多个科研单位从事这一方面工作,其中最具代表性的包括中科院研发出的ICTCLAS系统以及哈尔滨工业大学研发出的LTP系统,通过基于这样的语言处理平台,能够实现对中文文本的包括分词,词性标注,句法分析,命名实体识别等多种功能[7],为中文文本信息挖掘提供技术基础。
中文文本作为一项重要又困难的技术,当应用于各专业领域时,需紧密结合专业领域知识,因此更为困难。目前,国内文本挖掘技术在电力系统中的应用较少,主要为简单的文本分类,浙江大学利用卷积神经网络分析电力设备缺陷文本,实现将缺陷自动分为“一般”、“重要”和“紧急”3类[8];山东电科院针对大量电力设备典型故障案例的描述性文本数据难以利用自动化手段理解和分析的问题,构建基于双向长短期记忆网络(BiLSTM)的分类模型,将故障案例文本中的句子分为问题、原因和其他3类,从而抽取故障因果关系[9]。文献[10]提出一种基于语义框架的电网缺陷文本挖掘模型,实现对电网缺陷自动分类与统计。已有文献只是针对词义及严重程度进行分类,未涉及逻辑关系的判断。而考虑到电网文本复杂叙述结构,因此需要深入考虑文本内容的逻辑关系,挖掘其文本中所含大量有意义信息,从而实现对原始文本进行内容划分,实现对文本的结构化处理。
发明内容
本发明旨在提供一种针对配电线路跳闸填报案例的文本挖掘方法,优化填报文本处理进程,提升填报质量。
为解决上述技术问题,本发明所采用的技术方案是:一种针对配电线路跳闸填报案例的文本挖掘方法,包括以下步骤:
1)基于电力领域专有词汇建立自定义词典;结合中文常用冗余词汇建立冗余词词典;
2)通过对语料库中全部填报文本基于已建立自定义词典进行分词,基于word2vec进行词向量化模型训练,得到词向量化模型;对全部填报文本的分词结果进行词频统计,结合词向量化模型中词语相似词汇确立相似度筛选中的核心词汇;
3)基于pyltp对单个填报文本依次进行分词处理,词性标注,句法分析;
4)基于实际样本填报特征定义抽取核心词性及相关句法结构的抽取关系,结合步骤3)中的分词、词性及句法结果对实际填报样本中符合相关关系的短语进行抽取,得到多组事实多元组短语;
5)基于词向量化模型中词汇相似度,比较步骤4)中事实多元组短语中词汇与步骤2)中所确定的核心词汇之间的相似度,针对不同核心词设立其相似度阈值,阈值范围内的相似词汇为与故障现象或故障原因相关的词汇,基于相似度阈值筛选掉部分事实多元组短语;
6)基于步骤2)中核心词汇建立字符编辑典型样本,计算步骤5)中余下的事实多元组短语与典型样本之间的字符编辑距离,最小距离对应的事实多元组短语即确定为最终结果。
步骤3)的具体实现过程包括:
针对单个填报文本,结合所建立的自定义词典及停用词词典,基于pyltp中的cws.model分词模型对文本进行分词,得到分词结果;
基于所述分词结果,结合自定义词典中词汇及其词性,以及pyltp中的pos.model词性标注模型对分词结果进行词性标注,得到其词性标注结果;
基于分词结果以及词性标注结果,以及pyltp中的parser.model依存句法分析模型,分析分词结果中不同词之间的句法关联关系。
步骤4)的具体实现过程包括:
设定作为抽取核心的词性种类,基于已获取的词性标注结果,定位其中符合所设定的词性种类的词作为抽取核心;
以所有抽取核心为中心,设定需要抽取的句法结构关系,对满足所设定句法关系的短语进行抽取,得到多组事实多元组短语。
步骤4)中,锁定动词,形容词,介词词汇,初步定位短语位置;以实际文本为基础,结合中文叙述特点,抽取主要叙述句法,利用抽取元组对短语模板匹配抽取,得到一份填报文本的多组事实多元组短语。
步骤5)的具体实现过程包括:
以已获取的多组事实多元组短语为基础,通过对全部填报文本语料库进行词向量化建模及词频统计,结合词向量化模型中高频词语的相似词汇内容确定筛选的动词核心及名词核心,本发明中高频词语设定为在填报文本语料库中出现频度大于100的词汇。
比较每组事实多元组短语中的词汇同动词核心之间的相似度,对小于相似度阈值的短语进行删除;
计算余下的事实多元组短语中的词汇同名词核心之间的相似度,对小于相似度阈值的短语进行删除。
步骤6)的具体实现过程包括:
以所有动词核心和名词核心为基础,构建两种核心中所有词的彼此全部组合作为典型样本;
基于经过短语相似度筛选所得到的余下事实多元组短语,计算每一组事实多元组短语与典型样本之间的字符编辑距离,其中最小值对应该组事实多元组短语的字符编辑距离;
比较所有事实多元组短语的字符编辑距离,距离最小对应的事实多元组即为所需结果。
与现有技术相比,本发明所具有的有益效果为:本发明从大量配电线路跳闸填报文本出发,考虑到配电线路跳闸是一种常见故障[11],当前针对这类文本更多采用人工处理方式,造成工作量大效率低下,而且容易受主观因素影响的问题,采用智能化手段进行配电线路跳闸原因填报处理,对优化填报文本处理进程,提升填报质量具有重要的意义。
附图说明
图1是本发明方法流程图。
具体实施方式
配电线路跳闸填报文本内容介绍如下。
在电网生产管理系统中,通常存储着大量关于配电线路跳闸情况的分析报告,依照填报需求报告应详细描述故障情况,包含故障点地形地貌、故障时天气、保护动作情况、故障现象、故障电流值,并初步分析引发故障的原因等六大因素,其中故障现象描述以及故障原因分析为关键,这一部分内容将同现场实际照片相比对,验证报告正确性。但是文本中可能缺失这部分要素,或者即便存在相关内容,也存在故障现象描述不清,故障原因分析不足问题,表1给出某省电科院统计的某段时间某地跳闸原因填报评价情况。可发现配电线路跳闸情况填报质量整体水平较差,因此为及时掌握配电线路跳闸实际情况,提升对跳闸文本评价速度,应当采用智能化手段抽取填报文本中关键的故障现象以及故障原因描述。通过及时对填报文本中的信息进行分析,对提升填报文本质量,设备检修,未来跳闸预测等方面都具有重大意义。
表1:跳闸原因填报等级评价情况
配电线路跳闸填报文本特点介绍如下。
不同于一般中文文本内容,配电线路跳闸填报文本存在如下特点:
1)填报文本一般包括故障点地形地貌、故障时天气、保护动作情况、故障现象、故障电流值及故障原因六大要素。但要素可能缺失,同时六大要素在填报文本中的位置并不固定,这主要由书写人员习惯造成;
2)填报文本长度差别很大,基于已有填报文本信息统计发现较短文本可以只有15个字,而较长文本可以达到412个字。不同长度文本分析难度并不一致,同时文本结构,格式也不尽相同,同样的问题其叙述结构可能是主谓宾句式,也可以是倒装句式,格式并不固定;
3)填报文本中部分关于某一问题的叙述可能分散在多个句子之中,或者关键词之间存在过多句法关系转折词汇,使得文本结构复杂化,如“避雷器受雷雨天气影响导致被雷击穿”;“线路由于大雪导致树竹倒覆引起跳闸”,问题叙述关键词之间联系性的分析复杂;
4)配电线路填报文本是针对实时跳闸情况填报,其跳闸原因并不相同,有树障,变压器故障等多种原因。而针对初始文本智能化处理时并不知道具体原因,因此在多种原因情况下,都应针对所需内容完成智能抽取;
5)故障现象,故障原因部分词汇可能含有大量修饰语,譬如“10kV线35#-36#杆中B相”,“电排专变台区C相避雷器”等,即故障名词大都有多个词汇组合而成,这类情况时需要准确挖掘全部词汇。而当前语言处理平台只能识别单个词汇,因此需要对词汇进行完善补充,准确反映故障问题;
考虑到上述填报文本特点,因此填报文本针对其中故障现象及故障原因的内容抽取与普通文本抽取方式并不相同,需要考虑其具体特点实现填报文本智能化处理。本发明研究对配电线路跳闸填报文本进行分析,实现从整体的故障填报文本中获取关于故障原因以及故障现象的相关内容功能。考虑到所需要获取信息是掺杂在原始故障填报文本中的,可能出现在文本任何位置,信息边界模糊,难以直接进行固定式匹配抽取。同时考虑到中文文本叙述句法结构特性,且大部分中文填报文本相似内容的叙述结构具有相似性特点,因此考虑以文本叙述特点作为文本智能抽取方案切入点,从而实现配电线路跳闸填报文本智能抽取。
按照当前国家电网针对配电线路跳闸原因填报文本要求,相应文本中应当详细描述故障情况,包含故障点地形地貌、故障时天气、保护动作情况、故障现象、故障电流值等要素,并初步分析引发故障的原因。在这六大因素中,故障原因分析为关键,同时,故障现象作为对故障情况的直接描述,也能够直接推导相应故障原因,因此此条件也应当充分以验证故障原因分析的正确性。因此,在实际填报文本中,故障现象与故障原因最能反映故障情况,应当从填报文本中提取对这两部分内容,帮助对故障情况进行快速了解,并能与相应故障图片进行对比,评估文本填报准确性。
考虑到填报文本叙述结构不定,故障现象以及故障原因部分是嵌杂在整个文本之中,因此难以使用直接的模板匹配法等方法对填报文本进行内容匹配提取,而应当对整个文本进行智能分析,实现对所需内容部分的抽取。考虑到中文文本叙述结构特点,因此本发明考虑对初始文本进行句法分析,抽取出其中符合某些特定句法结构的事实多元组短语;而后通过对文本进行词向量化训练,获得词向量化模型,对抽取出的事实多元组短语进行相似度分析,将差别较大的短语摒弃,实现大范围事实多元组短语的初步筛选,使得所需要的内容定位缩小到小范围内的部分事实多元组短语;而后结合文本特点,计算不同事实多元组短语与典型目标样本之间的编辑距离,将目标定位到编辑距离最小对应的短语,实现小范围结果准确定位,获得最终所需要的内容,即为所需的故障原因以及故障现象描述,图1给出填报文本智能抽取方案流程图。
依据图1,将填报文本智能抽取方案流程分为多个功能模块,以下给出各个功能模块的具体描述以及词典部分,词频统计和词向量模型部分的构建方法以及作用描述。
词典部分:包括停用词词典与自定义词典。停用词词典主要功能为减少文本冗余,使得文本分类准确率有所提高,停用词包括标点符号、特殊符号以及无具体含义的词语,如“我”、“啊”、“哦”等。同时本发明停用词库还具有简化文本句法结构,考虑到中文叙述中填报叙述会在故障原因,故障现象描述部分加一些冗余附加词,使得文本句法复杂化,很难通过句法关系进行抽取,因此对这类词也进行停用;自定义词典则主要牵涉到电力领域的一些专有词汇,这类词汇通过现有语言平台进行分词中不易准确划分,因此需要预先给定这类词汇的划分规则,从而提高分词的准确率,同时需要给定这些词汇词性,以便进行词性分析。
词向量化模型和词频统计:词向量化模型意为对词汇进行向量化表示,将词进行分布式表征,将文本中每个有意义的词映射成一个固定长度的向量,然后将这些词的向量放在一起形成一个词向量空间,因此每个向量就是该空间的一个点,根据词之间的余弦距离或者欧氏距离来判断词汇之间的语义上的关系。本发明使用word2vec工具中的skip-gram词向量模型方案,对初始文本分词后进行词向量化模型训练得到其训练模型;词频即统计每个有意义的词在文本中出现的次数作为特征,因此,这一部分首先通过分词工具以及词典部分对初始大量文本进行分词处理,而后对每个词出现的次数进行统计,其词频统计结果主要应用于确立短语相似度筛选部分中核心动词以及核心名词。对于满足一定频度要求的词汇都可以作为备用核心词汇,将这类词汇经过词向量化模型分析其相似词内容,对于相似词内容中包含大量有关故障现象以及故障原因词汇的对应名词或动词作为核心词用于短语筛选。
文本分析部分:包括文本分词,词性标注,句法分析三个部分。本发明以哈工大开发的ltp平台为基础,采用基于pyltp的中文文本分词工具,在分词部分,引用外部自定义词典与停用词词典,结合分词工具对填报文本进行分词处理;而后的词性标注(part ofspeech tagging)又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。因此以分词结果为基础,结合自定义词典中给定的词汇自定义词性,对分词结果进行标注;句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependencyparsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(constituent structure parsing)或者短语结构分析(phrase structureparsing);另外一种是以获取局部成分为目的的句法分析,被称为依存分析(dependencyparsing)。本发明以依存关系作为基础,采用通用数据集标注模型,结合以获得的分词结果与词性标注结果,采用基于贪心决策动作拼装句法方法,获得其依存句法关系。
文本抽取部分:文本抽取以词性为抽取核心;以句法为抽取关系。考虑到句法构成特点以及本发明需要抽取部分的文本特点,采用的抽取核心包括动词,形容词,介词。在抽取部分,首先锁定这类词汇,初步定位短语位置;而后考虑通过句法关系进行抽取,以实际文本为基础,结合中文叙述特点,抽取主要叙述句法(主要包括主语谓语宾语关系,宾语前置主谓关系,介宾关系主谓动补,前置宾语介宾关系等十余种句法关系),抽取元组主要为二元组与三元组,同时考虑到部分叙述文本特点,本发明文本抽取还包括短语模板匹配抽取,得到一份填报文本的多组事实多元组短语。
短语相似度筛选部分:以词向量化模型与词频统计结果确定与故障原因,故障现象关联性大且具有一定频度的名词以及动词作为聚类核心,而后对文本抽取部分获取的多组事实多元组短语中的所有词汇进行向量化表示,根据划定的动词以及名词典型聚类中心,对短语向量进行相似度中心聚类,设定阈值,如果一组短语中能够包含与某个名词核心以及某个动词核心相似度满足阈值的词汇,则该组短语留用并进入下一模块,通过此方法筛选掉其中的部分与目标词汇相似度不高的短语向量,完成对多组事实多元组短语的相似度筛选,将大范围的事实多元组短语目标缩小到特定部分多元组短语。
字符编辑距离部分:此部分为对上一模块中满足相似度的所有短语进行编辑距离计算,从而确定最终短语结果。编辑距离是针对二组字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串[12]。通过划定典型文本(典型文本是通过相似度筛选部分名词聚类核心库以及动词聚类核心库中的词汇的遍历组合所形成的短语),通过基于Levenshtein Distance算法的字符串编辑距离计算,主要包括增加,删除,替换三类步骤。获取抽取文本到目标典型文本之间转化过程所需距离,通过计算所有事实多元组短语到目标样本之间的编辑距离,确定其中最小值对应的十四多元组短语即为所需要抽取的内容。
填报文本智能抽取流程:
步骤1:基于电力领域专有词汇建立自定义词典,基于减少文本冗余性考虑建立停用词词典;
步骤2:通过对近3万余填报文本基于已建立词典进行分词,通过word2vec进行词向量化模型训练,得到其词向量化模型(.model);同时对全部文本的分词结果进行词频统计,结合词向量化模型中词语相似词汇确立相似度筛选中的核心词汇;
步骤3:基于pyltp对初始填报文本依次进行分词处理,词性标注,句法分析;
步骤4:基于实际样本填报特征定义抽取核心词性及相关句法结构的抽取关系,结合步骤3中的分词、词性及句法结果对文本中符合相关关系的短语进行抽取,得到多组事实多元组短语;
步骤5:基于词向量化模型中词汇相似度,比较步骤4中事实多元组短语中词汇与步骤2中所确定的核心词汇之间的相似度,通过设立相似度阈值筛选掉一部分的事实多元组短语;
步骤6:基于步骤2中核心词汇建立字符编辑典型样本,计算步骤5中余下的事实多元组短语与典型样本之间的字符编辑距离,最小距离对应的事实多元组短语即确定为最终结果。
为验证本发明所提出填报文本智能抽取方案的正确性,本发明对某省电科院2016年1月到2018年9月间所记录的29140份配电线路跳闸原因填报文本为基础,以python3.5为实验平台,结合哈工大所开发的pyltp0.2.1自然语言工具,对填报文本进行智能分析,抽取文本中故障原因以及故障现象部分的内容,最后基于完整的抽取算法通过随机验证300组填报文本,计算其抽取成功率,验证本发明所提出方案的正确性。
基于图1的填报文本智能抽取方案,确定了各个模块的功能与相互间承接关系。其中词典部分主要通过人为设定,本发明统计大量电力系统专业词汇作为自定义词库,以典型冗余无效词以及填报文本中常用的使得句法复杂化的部分冗余词汇构成停用词词库。针对词向量化表示,则是通过pyltp平台对全部的29140份文本进行分词处理并保存分词结果,而后以python中的word2vec工具对分词结果进行词向量化训练,获得最终的text.model文件。词频统计则是基于上述分词结果,统计各个有意义词汇的频度,表2给出所保存的词频统计部分结果。
表2:词频统计结果
文本分析模块以ltp中cws.model(分词模型),pos.model(词性标注模型),parser.model(依存句法分析模型)结合前述自定义词典与停用词词典,对填报文本进行文本分析。以下表5中第一行所列出的某次具体填报文本为例,在表5中依次给出其分词结果,词性分析结果,句法分析结果。
以上述填报文本经过文本分析得到的分词,词性,句法结果为基础,依据图1中的填报文本抽取流程,对文本进行抽取。首先以词性为抽取核心,通过定位特殊词性的词汇,将文本抽取任务定位到这些关键词位置;而后以句法结构为抽取关系,将抽取核心同其余词汇满足设定句法关系的事实多元组短语进行抽取。为了确保抽取抽取完整性,需要对所识别的实体进行完善,即对词汇前缀表达以及后缀表达进行循环补充,其中词汇前缀表述满足ATT句法关系,后缀表述满足VOB或者SBV关系,从而将单个词汇扩充完善为详细的事实短语。表3;表4分别给出本算法中故障现象与故障原因部分所设定的所有词性与句法条件。其中故障现象表述通常无固定格式,可以多种表述形式嵌入在填报文本中,因此需要对其抽取多种句法结构;而故障原因相对具有一定表述格式,因此只需设定较少关系,而会在抽取前先进行模板匹配,将满足表述格式的部分首先抽取出来,再进行后续句法抽取,避免因抽取过多使得抽取结果中干扰型结果过多。表6以故障现象为例,将表5中文本实例根据所设定词性以及句法得到最终的多组事实多元组短语。
表3:填报文本故障现象抽取条件
表4:填报文本故障原因抽取条件
表5:文本分析框架
表6:填报文本故障现象抽取结果
在抽取出大量多元事实多元组短语之后,会包含大量无关短语,而我们需要是从大量抽取出的事实多元组短语中选择正确的所需内容。筛选过程首先以词汇相似度进行筛选。根据上述短语相似度筛选模块表述,首先需确定聚类核心,因此本算法先对所有文本进行词频统计,将频度在100次以上的所有与故障现象或者故障原因相关的词汇作为备用聚类核心,而后基于woed2vec训练得到的模型比较所有备用聚类核心的相似词汇中包含的故障现象或者故障原因相关词汇,给包含大量相关词汇的聚类核心划定不同阈值,使得其在相似度阈值范围内基本全部为与故障现象或故障原因相关的词汇。通过这种方法,分别从备用聚类核心库中选择部分词汇作为故障现象以及故障原因的聚类核心。表7,表8分别给出故障现象以及故障原因的聚类核心词汇。通过将抽取得到的多组事实多元组短语中的词汇与表中的聚类核心进行相似度比较,当存在满足相似度阈值情况时,对应事实多元组短语留用,只有一组短语存在词汇能够满足动词库中某个聚类核心以及名词库中某个聚类核心的相似度阈值情况下,该组短语才能够留用并进入抽取方案下一模块。表9以表6中的抽取结果为基础,在经过相似度筛选模块之后,原始的25组事实多元组短语范围能够缩小到3组短语。
表7:故障现象聚类核心词汇
表8:故障原因聚类核心词汇
表9:填报文本短语相似度筛选结果
谓语+直接宾语关系 (发现,10kV创业园线03高压电缆分解箱受潮湿)
主语谓语宾语关系 (10kV创业园线03高压电缆分解箱,严重受,潮湿)
主语谓语宾语关系 (10kV创业园线03高压电缆分解箱,严重受,导致放电)
在通过相似度筛选模块之后,所需抽取内容能够从大范围的事实多元组短语缩小到小范围的几组事实多元组短语,为了从小范围目标短语中确定所需答案,通过计算表9中筛选结果与典型样本之间的Levenshtein Distance,典型样本的构造是通过表7或者表8中动词库与名词库中词汇的随机组合。通过对比,最小的Levenshtein Distance对应的事实多元组短语即为所需答案,表10给出字符编辑距离模块结果。
表10:字符编辑距离筛选结果
主语谓语宾语关系 (10kV创业园线03高压电缆分解箱,严重受,潮湿)
上述以某次配电线路跳闸填报文本为例,结合图1中填报文本抽取方案,给出故障现象抽取的实际流程,最终能够获取其中关于故障现象的描述信息。
本发明以当前文本处理中被广泛应用的三种评价标准对系统性能进行评价,其包括:精确度PRE(Precision,正确抽取的个数占全部抽取个数的百分比),召回率REC(Recall正确抽取的个数占全部可能正确抽取个数的百分比)以及F值(前两者的加权平均值)[13]。
精确度:
召回率:
F值:
准确率:
其中cn、ln、en分别表示正确抽取的目标短语个数、没有抽取出的目标短语个数和错误抽取的目标短语个数,β是PRE和REC的权重之比。当β等于1时,表示两者同等重要;当β大于1时,表示PRE比REC更重要;当β小于1时,表示REC比PRE更重要,的值常被设定为:0.5、1、2,本发明中β为1。
考虑到故障现象描述是一种发散性描述,且结合实际文本可发现绝大部分填报文本中都包含故障现象,因此针对故障现象抽取效果测试时所用样本为随机选择的未知样本。而故障原因作为一种推论性描述,其叙述应当符合一定格式,因此针对故障原因抽取首先需通过“判断、推测、分析、疑似”等词汇定位故障原因描述位置,通过截取相应位置的文本信息,依照故障现象抽取方案对截取出的文本进行处理得到其故障原因结果。由于大部分文本中并未包含故障原因描述,通过对某省近3年填报文本分析,文本包含故障原因比例仅为10%左右。因此针对故障原因抽取效果测试时所用样本为筛选后包含故障原因描述的填报文本。考虑到填报文本故障现象及故障原因部分描述具有相似性,因此本发明针对故障现象及故障原因总共选择400组未知样本进行算法效果测试。
下表11与表12分别给出其部分现象及原因抽取结果,表13中给出其评估指标结果。其中本发明抽取错误(en)指抽取出的结果不对或者抽取信息不完整,故障原因的指标结果则是基于筛选后的包含故障原因的填报文本。由表中结果可知,故障现象及原因的REC都很高,这表明当包含描述结果时绝大部分文本都能抽取出一组结果。而0.783及0.758的精确度则表明算法抽取出的结果还是一部分抽取错误,本发明所设计的一整套算法总体针对故障现象其ACC达到72%,针对故障原因其ACC达到75%,整体准确率结果良好。表明所设计算法在针对跳闸案例填报文本中故障现象及故障原因的信息挖掘效果较好。
表11:部分填报文本故障现象抽取结果
(1) 故障现象 (发现:10KV东道北线南塘湖支线3号杆用户专变故障)
(2) 故障现象 (发现:10KV复新西线锦绣豪庭01电缆分支箱电缆附件烧坏)
(3) 故障现象 (10kV创业园线03高压电缆分解箱箱:严重受:潮湿)
(4) 故障现象 (巡视人员陶春华:5111巡视:未发现故障)
(5) 故障现象 (未发现:设备故障)
(6) 故障现象 (上塘砖厂砖:变:烧断)
(7) 故障现象 (风电站电工电话:通知:其专变隔离开关引流线A大风刮断)
(8) 故障现象 (前段巡线:未发现:异常)
(9) 故障现象 (10kV西镇线61杆瓷瓶故障导致,将故障点隔离并实施抢修)
(10) 故障现象 (旁边建筑施工布幔:落到:终端架空导线)
表12:部分填报文本故障原因抽取结果
(1) 故障原因 (小鸟碰线路设备导致)
(2) 故障原因 (为该专变故障)
(3) 故障原因 (为瞬间故障)
(4) 故障原因 (小鸟碰线路设备导致)
(5) 故障原因 (烟花触碰)
(6) 故障原因 (该专变故障引起)
(7) 故障原因 (外力因素鸟害引起)
(8) 故障原因 (跳闸小区广告布造成)
(9) 故障原因 (大雪压树枝触碰)
(10) 故障原因 (是大屋仔壁矿专变跌落开关污闪造成开关跳闸)
表13:填报文本信息挖掘算法评估指标
本发明考虑当前配电线路跳闸原因填报文本进行评价还是采用人工手动评价模式,这种方式不仅工作量大效率低,而且结果的科学性依赖于人工主观经验。因此考虑通过智能分析技术实现填报文本的智能化处理。
本发明将文本挖掘技术应用于配电线路跳闸原因填报文本,通过对填报文本进行智能分析,依照词性和句法关系设定抽取其中大量事实多元组短语,而后依据词向量化训练模型对比短语与目标样本短语间相似度,筛选掉大量无关短语,将筛选出的短语通过计算与样本间编辑距离,距离最小值对应短语即为所需抽取内容,以江西省的实际填报文本进行效果测试,抽取准确率能达到70%以上,效果良好,在未来研究中,可以通过完善词典部分内容,聚类核心词汇库进行更好优化,也可以对短语筛选过程进行优化,以更准确获取所需内容。同时可以结合本发明具体文本挖掘流程,通过针对特定领域定义其抽取条件及聚类核心词汇,实现对特定领域中特定目标的挖掘。
本发明所用到的参考文献如下:
[1]Ramanathan V,Meyyappan T.Survey of Text Mining[M].Springer NewYork,2004.
[2]Zhong N,Li Y,Wu S T.Effective Pattern Discovery for Text Mining[J].IEEE Transactions on Knowledge and Data Engineering,2011,24(1):30-44.
[3]许鑫.基于文本特征计算的信息分析方法[M].上海科学技术文献出版社,2015.
[4]袁军鹏,朱东华,李毅,et al.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4.
[5]蒋良孝,蔡之华.文本挖掘及其应用[J].现代计算机(专业版),2003(2):29-31.
[6]梅馨,邢桂芬.文本挖掘技术综述[J].江苏大学学报(自然科学版),2003,24(5):72-76.
[7]http://ltp-cloud.com[OL]
[8]刘梓权,王慧芳,曹靖,et al.基于卷积神经网络的电力设备缺陷文本分类模型研究[J].电网技术,2018.
[9]杜修明,秦佳峰,郭诗瑶,et al.电力设备典型故障案例的文本挖掘[J].高电压技术,2018,44(4):1078-1084.
[10]曹靖,陈陆燊,邱剑,et al.基于语义框架的电网缺陷文本挖掘技术及其应用[J].电网技术,2017(02):311-317.
[11]邓清,毛鹏.江西电网500kV输电线路跳闸统计分析[J].江西电力,2013,37(4):60-62.
[12]Ristad E S,Yianilos P N.Learning string edit distance[J].IEEETransactions on Pattern Analysis&Machine Intelligence,1996,20(5):522-532.
[13]曾军,周国富.基于机器学习的多语言文本抽取系统实现[J].计算机应用与软件,2017(4).

Claims (6)

1.一种针对配电线路跳闸填报案例的文本挖掘方法,其特征在于,包括以下步骤:
1)基于电力领域专有词汇建立自定义词典;结合中文常用冗余词汇建立冗余词词典;
2)通过对语料库中全部填报文本基于已建立自定义词典进行分词,基于word2vec进行词向量化模型训练,得到词向量化模型;对全部填报文本的分词结果进行词频统计,结合词向量化模型中词语相似词汇确立相似度筛选中的核心词汇;
3)基于pyltp对单个填报文本依次进行分词处理,词性标注,句法分析;
4)基于实际样本填报特征定义抽取核心词性及相关句法结构的抽取关系,结合步骤3)中的分词、词性及句法结果对实际填报样本中符合相关关系的短语进行抽取,得到多组事实多元组短语;
5)基于词向量化模型中词汇相似度,比较步骤4)中事实多元组短语中词汇与步骤2)中所确定的核心词汇之间的相似度,针对不同核心词设立其相似度阈值,阈值范围内的相似词汇为与故障现象或故障原因相关的词汇,基于相似度阈值筛选掉部分事实多元组短语;
6)基于步骤2)中核心词汇建立字符编辑典型样本,计算步骤5)中余下的事实多元组短语与典型样本之间的字符编辑距离,最小距离对应的事实多元组短语即确定为最终结果。
2.根据权利要求1所述的针对配电线路跳闸填报案例的文本挖掘方法,其特征在于,步骤3)的具体实现过程包括:
针对单个填报文本,结合所建立的自定义词典及停用词词典,基于pyltp中的cws.model分词模型对文本进行分词,得到分词结果;
基于所述分词结果,结合自定义词典中词汇及其词性,以及pyltp中的pos.model词性标注模型对分词结果进行词性标注,得到其词性标注结果;
基于分词结果以及词性标注结果,以及pyltp中的parser.model依存句法分析模型,分析分词结果中不同词之间的依存句法关联关系。
3.根据权利要求1所述的针对配电线路跳闸填报案例的文本挖掘方法,其特征在于,步骤4)的具体实现过程包括:
设定作为抽取核心的词性种类,基于已获取的词性标注结果,定位其中符合所设定的词性种类的词作为抽取核心;
以所有抽取核心为中心,设定需要抽取的句法结构关系,对满足所设定句法关系的短语进行抽取,得到多组事实多元组短语。
4.根据权利要求1所述的针对配电线路跳闸填报案例的文本挖掘方法,其特征在于,步骤4)中,锁定动词,形容词,介词词汇,初步定位短语位置;以实际文本为基础,结合中文叙述特点,抽取主要叙述句法;同时利用抽取元组对短语模板匹配抽取,得到一份填报文本的多组事实多元组短语。
5.根据权利要求1所述的针对配电线路跳闸填报案例的文本挖掘方法,其特征在于,步骤5)的具体实现过程包括:
以已获取的多组事实多元组短语为基础,通过对全部填报文本语料库进行词向量化建模及词频统计,结合词向量化模型中高频词语的相似词汇内容确定筛选的动词核心及名词核心;所述高频词语设定为在填报文本语料库中出现频度大于100的词汇。
比较每组事实多元组短语中的词汇同动词核心之间的相似度,对小于相似度阈值的短语进行删除;
计算余下的事实多元组短语中的词汇同名词核心之间的相似度,对小于相似度阈值的短语进行删除。
6.根据权利要求1所述的针对配电线路跳闸填报案例的文本挖掘方法,其特征在于,步骤6)的具体实现过程包括:
以所有动词核心和名词核心为基础,构建两种核心中所有词的彼此全部组合作为典型样本;
基于经过短语相似度筛选所得到的余下事实多元组短语,计算每一组事实多元组短语与典型样本之间的字符编辑距离,其中最小值对应该组事实多元组短语的字符编辑距离;
比较所有事实多元组短语的字符编辑距离,距离最小对应的事实多元组即为所需结果。
CN201910536380.3A 2019-06-20 2019-06-20 一种针对配电线路跳闸填报案例的文本挖掘方法 Active CN110377901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910536380.3A CN110377901B (zh) 2019-06-20 2019-06-20 一种针对配电线路跳闸填报案例的文本挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910536380.3A CN110377901B (zh) 2019-06-20 2019-06-20 一种针对配电线路跳闸填报案例的文本挖掘方法

Publications (2)

Publication Number Publication Date
CN110377901A true CN110377901A (zh) 2019-10-25
CN110377901B CN110377901B (zh) 2022-11-18

Family

ID=68249040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910536380.3A Active CN110377901B (zh) 2019-06-20 2019-06-20 一种针对配电线路跳闸填报案例的文本挖掘方法

Country Status (1)

Country Link
CN (1) CN110377901B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459131A (zh) * 2020-03-04 2020-07-28 辽宁工程技术大学 一种故障过程因果关系文本转化为符号序列的方法
CN111553807A (zh) * 2019-10-28 2020-08-18 国网辽宁省电力有限公司抚顺供电公司 重点机房停电信息核查方法
CN112036179A (zh) * 2020-08-28 2020-12-04 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
CN112632557A (zh) * 2020-12-22 2021-04-09 厦门大学 基于模糊测试的内核漏洞挖掘方法、介质、设备及装置
CN112732934A (zh) * 2021-01-11 2021-04-30 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法
CN112966400A (zh) * 2021-04-23 2021-06-15 重庆大学 一种基于多源信息融合的离心风机趋势预测方法
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213804A1 (en) * 2008-11-14 2011-09-01 Korea Institute Of Science & Technology Information System for extracting ralation between technical terms in large collection using a verb-based pattern
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213804A1 (en) * 2008-11-14 2011-09-01 Korea Institute Of Science & Technology Information System for extracting ralation between technical terms in large collection using a verb-based pattern
CN105677873A (zh) * 2016-01-11 2016-06-15 中国电子科技集团公司第十研究所 基于领域知识模型的文本情报关联聚类汇集处理方法
CN109271626A (zh) * 2018-08-31 2019-01-25 北京工业大学 文本语义分析方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553807A (zh) * 2019-10-28 2020-08-18 国网辽宁省电力有限公司抚顺供电公司 重点机房停电信息核查方法
CN111459131A (zh) * 2020-03-04 2020-07-28 辽宁工程技术大学 一种故障过程因果关系文本转化为符号序列的方法
CN111459131B (zh) * 2020-03-04 2023-01-24 辽宁工程技术大学 一种故障过程因果关系文本转化为符号序列的方法
CN113743096A (zh) * 2020-05-27 2021-12-03 南京大学 一种基于自然语言处理的众包测试报告相似度检测的方法
CN112036179A (zh) * 2020-08-28 2020-12-04 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
CN112036179B (zh) * 2020-08-28 2024-03-26 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
CN112632557A (zh) * 2020-12-22 2021-04-09 厦门大学 基于模糊测试的内核漏洞挖掘方法、介质、设备及装置
CN112732934A (zh) * 2021-01-11 2021-04-30 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法
CN112732934B (zh) * 2021-01-11 2022-05-27 国网山东省电力公司电力科学研究院 电网设备分词词典和故障案例库构建方法
CN112966400A (zh) * 2021-04-23 2021-06-15 重庆大学 一种基于多源信息融合的离心风机趋势预测方法

Also Published As

Publication number Publication date
CN110377901B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN110377901A (zh) 一种针对配电线路跳闸填报案例的文本挖掘方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
Su et al. A corpus-based approach to automatic compound extraction
CN105677873A (zh) 基于领域知识模型的文本情报关联聚类汇集处理方法
CN110390006A (zh) 问答语料生成方法、装置和计算机可读存储介质
CN112818008A (zh) 核电调试故障智能诊断的方法、系统、介质及电子设备
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN108197175A (zh) 技术监督数据的处理方法和装置、存储介质、处理器
CN113609844B (zh) 一种基于混合模型和聚类算法的电力专业词库构建方法
CN109101483A (zh) 一种针对电力巡检文本的错误识别方法
CN107844466A (zh) 一种故障录波文件分析模型自动生成系统及方法
CN111832977A (zh) 一种基于自然语言解析的检修申请自动成票方法
CN109684447A (zh) 一种基于文本挖掘的电网调度运行日志故障信息分析方法
CN107577713B (zh) 基于电力词典的文本处理方法
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN105955960B (zh) 基于语义框架的电网缺陷文本挖掘方法
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN114282010A (zh) 基于知识图谱的电网运行故障识别方法、系统及存储介质
CN113010695A (zh) 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN112420042A (zh) 电力系统的控制方法及装置
CN116386617A (zh) 基于大数据的英文语义识别分析方法
CN116340534A (zh) 一种识别新能源异常数据的知识图谱构建方法和系统
CN113139061B (zh) 一种基于词向量聚类的案件特征提取方法
CN113961708A (zh) 一种基于多层次图卷积网络的电力设备故障溯源方法
CN114283030A (zh) 一种基于知识图谱的配电方案推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant