CN109977228A

CN109977228A - 电网设备缺陷文本的信息辨识方法

Info

Publication number: CN109977228A
Application number: CN201910215568.8A
Authority: CN
Inventors: 王慧芳; 邵冠宇; 何奔腾
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-07-05
Anticipated expiration: 2039-03-21
Also published as: CN109977228B

Abstract

本发明提出了一种电网设备缺陷文本的信息辨识方法。本发明首先，利用依存句法分析技术，基于主变缺陷文本和国家电网主变缺陷分类标准文本构建依存句法树，并结合缺陷文本的实际特点对依存句法树进行剪枝、切分和重构；然后，针对构建好的依存句法树，提出基于依存关系的树匹配算法，找出与实际缺陷对应的标准表述，辨识出缺陷文本包含的实际缺陷信息。最后，采用主变压器缺陷文本构建算例，分析本发明缺陷信息辨识方法的准确性。本发明从语义角度对缺陷文本进行分析，辨识出文本包含的精确缺陷信息，为设备的故障率建模和健康状态评价等问题提供指导。

Description

电网设备缺陷文本的信息辨识方法

技术领域

本发明属于电力系统领域，具体地说是一种电网设备缺陷文本的信息辨识方法。

背景技术

输变电设备在安装、调试、运行和维护阶段，积累了大量非结构化的文本数据。其中，设备缺陷文本蕴含着与设备健康状态和运行可靠性密切相关的信息。计算机若能自动从缺陷文本中辨识出设备发生的精确缺陷，就能大幅减轻人工分析缺陷文本的工作量，在设备状态监测装置不完善的情况下，为设备缺陷管理和健康状态评价提供有效的数据支撑，同时也能为设备的故障率分析、剩余寿命预测以及状态检修等研究做出更有效的指导。然而，由于实际缺陷情况的复杂性和人工记录的随意性，相较于国家电网公司给出的缺陷标准形式，实际缺陷文本存在着大量的不规范记录，给计算机自动理解和处理缺陷文本数据带来了较大困难。因此需要一种从缺陷文本中精确自动辨识缺陷信息的方法。

自然语言处理(Natural Language Processing，NLP)是计算机科学与人工智能交叉领域的一个重要研究方向。国外已有学者从在线抓取和离线记录两种数据获取方式的角度分析了电力文本挖掘意义与可行性。为了充分地挖掘缺陷文本蕴含信息，有研究从分类、统计、检索等不同视角利用卷积神经网络和知识图谱等技术对电力设备缺陷文本进行挖掘，但需要人为经验模板的介入，或者仅涉及对整条缺陷文本的处理，并未从句子内部语义的角度对文本进行精细化挖掘，难以做到设备缺陷的精确判断与辨识。有研究采用改进KNN算法分析缺陷文本，对电力设备进行健康状态评价，但仅通过缺陷等级粗略反映设备的健康状态，还无法应用于多种缺陷冗杂记录的复杂缺陷文本。

发明内容

本发明所要解决的技术问题是针对电网设备缺陷文本存在的表述问题给电网设备文本挖掘带来的困难，提出一种对电网设备缺陷文本的信息辨识方法。

本发明解决技术问题所采取的技术方案为：

本发明首先，采用自然语言处理领域的依存句法分析技术，对主变压器实际缺陷文本和国家电网主变缺陷分类标准文本分别构建依存句法树，并结合缺陷文本的实际特点以及中文篇章连贯性理论和语义框架理论，对依存句法树进行剪枝、切分和重构。然后对构建好的两类依存句法树，提出基于依存关系的树匹配算法，同时考虑节点和路径的一致性，并保证节点之间依存关系相同，找出与实际缺陷对应的标准表述，实现辨识出实际缺陷文本包含的标准缺陷信息的目标。

本发明的有益效果：

在对大量缺陷文本的内容问题和格式特点进行分析的基础上，针对电力缺陷文本现存的语义描述的模糊性、一条缺陷文本记录多种缺陷情况的冗杂性，本发明提出了一种缺陷信息的精确辨识方法。本发明对传统的基于状态转移框架的依存句法分析模型进行改进，结合中文文本的投射性特点，提出了一种基于“左贪心出栈”规则的依存句法分析模型，解决原有依存句法分析时存在的“错误级联问题”，提升捕捉词语之间关系的准确率，为辨识文本与缺陷语义信息奠定基础；根据自然语言处理领域中篇章衔接性理论和语义框架理论设计了一种对依存句法树剪枝、切分和重构的方法，保留了文本中与缺陷相关的有效信息，去除了冗余文本对缺陷辨识的影响；改进了树匹配算法，同时考虑结构、节点信息以及依存关系，设计了一种计算缺陷文本和标准文本依存句法树相似性的依存句法树匹配算法，相比于传统的树匹配算法和文本相似度计算方法，提高了准确性和匹配速度，从而实现缺陷文本中辨识出准确的缺陷信息；最后，采用实际主变压器缺陷文本构建算例，分析本发明缺陷信息辨识方法的准确性。算例表明，本发明树匹配算法相比于传统树匹配算法和语义相似度计算方法在效率和准确性上有明显提升。

综上，本发明实现了对缺陷文本中缺陷信息的自动精确辨识，通过辨识出的缺陷信息可以为设备的健康状态评价、故障率分析以及设备检修决策提供指导。同时，引入的依存句法分析模型对于电力领域文本的语义分析和理解具有通用性。

附图说明

图1前馈神经网络特征输入和解码算法结构；

图2构建主变缺陷文本的依存句法树流程；

图3构建依存句法树的公共匹配节点序列流程；

图4某条具体标准文本剪枝后的依存句法树；

图5某条具体标准文本剪枝前的依存句法树；

图6某条具体历史缺陷文本切分重构后的依存句法树；

图7某条具体历史缺陷文本切分重构前的依存句法树。

具体实施方式

本发明采用的基于状态转移框架的依存句法分析模型结构如附图1所示，构建主变缺陷文本的依存句法树流程如附图2所示。对缺陷文本处理生成依存句法分析树后，结合语义框架理论对依存句法树进行剪枝，结合篇章衔接性理论对依存句法树进行切分重构和补全，对国家电网给出的输变电一次设备缺陷分类标准进行同样处理。然后设计了一种针对实际缺陷依存句法树和标准文本依存句法树的树匹配算法，构建依存句法树的公共匹配节点序列流程如附图3所示。从依存句法分析准确率，图4-7实际缺陷文本依存句法树剪枝、切分、重构前后的对比，以及本发明树匹配算法和传统树匹配算法、语义相似度计算方法在耗时和准确率上的比较等方面，验证本发明提出的缺陷信息辨识方法在各个环节的有效性。

本发明的具体步骤如下：

步骤1.建立基于状态转移框架的依存句法分析模型，针对实际的电网设备缺陷文本和国家电网公司给出的缺陷标准文本生成依存句法树，具体方法为：

(1)建立状态转移框架，将构建依存树时生成两个词的依存关系的过程对应为不同的动作状态。动作状态通过维护队列Q、栈S、依存关系集合A这样的三元组<Q,S,A>表示。初始状态下，负责处理生成依存关系的栈中只有虚拟根节点ROOT，句子所有词都在Q中。通过不同动作，将Q中的词移入S处理，直至Q为空、S只含ROOT节点，句法分析过程结束。

动作分为三种：添加左依存关系并将依存词出栈(left-arc，LA)，添加右依存关系并将依存词出栈(right-arc，RA)，将队列首词入栈(shift，SH)。其中LA和RA两种动作以栈顶词和栈次顶词为目标词进行判断，并结合中文投射性理论，设计了一种“左贪心”出栈规则解决“错误级联”问题：若为左依存关系则直接将依存词出栈，若为右依存关系则需判断依存词是否是右侧任一词的核心词，若不是，将依存词出栈，反之则不出栈。待左依存关系全部判断完毕后，重新从栈顶开始判断词语之间的右依存关系。

(2)确定依存关系与状态转移动作。将依存关系和转移动作的判定看作是分类问题，由特征输入和解码算法确定。本发明选取栈顶、栈次顶和队列首端3个词，每个词的最左最右、次左次右子节点和最左最右孙子节点共6个词作为词特征，即词特征输入量为18；再选取上述词对应的词性作为词性特征，即词性特征输入量也为18；选取栈顶、栈次顶词与其子节点和孙子节点的依存关系作为第三类特征输入，即依存关系特征输入量为12；最后将标点看作独立词，利用和词同样的处理方式作为特征输入。本发明采用含有单隐藏层的BP神经网络进行解码，输入层由词向量映射模型(word2vec)训练得到的上述特征向量拼接而成，隐藏层采用“线性拟合+立方激活”方式学习与输出依存关系动作类别相关的高维特征，输出层利用softmax分类器分类，得到不同依存关系动作的概率，取概率最大的依存关系动作为当前处理动作，并得到依存关系，即根据缺陷文本生成了依存句法树。

步骤2.结合实际缺陷文本特点，对依存句法树进行剪枝、切分和重构，生成只包含核心语义信息的精简依存句法树，具体方法为：

(1)针对剪枝过程，规则如下：

1)找到根节点，作为缺陷文本中的谓语；

2)找到与根节点依存关系为主谓关系的子节点，深度优先搜索遍历依存句法树，找出依存关系为定语修饰且词性为名词的节点，得到缺陷主体；

3)找出与根节点依存关系为动宾和并列关系的子节点，深度优先搜索出依存关系为动宾关系的子节点及其定语，此过程必须满足当前词语和待搜索词严格的父子关系，得到缺陷发生的宾语部分；

4)若与根节点为并列关系的节点仍存在并列关系的子节点，则继续按上述方法寻找宾语；

5)找出与根节点依存关系为状语修饰的子节点及其并列节点，得到描述缺陷程度部分；

6)对于和根节点依存关系为独立结构的子节点，采用与根节点同样的处理方式生成新树。

(2)针对切分过程，结合篇章衔接性理论，对于已经剪枝过的缺陷依存句法树，判断树中是否存在独立于根节点描述缺陷的新缺陷子树，若存在则将该子树切分出来，保证每棵句法树对应一种实际缺陷。篇章衔接性理论将衔接分为五种情况，缺陷文本主要出现三种情况的衔接：前后句缺陷设备描述替换、缺陷谓词省略和程度修饰衔接。本发明利用word2vec方法结合电力同义词表计算缺陷设备和缺陷描述谓词的语义相似度，判断是否存在替换和省略的情况；分析根节点的动词子节点和根节点的依存关系是否为状中关系或并列关系，判断是否存在程度修饰的语义衔接情况。若都不存在，则将以该动词为根的子树切分为独立子树，并将被切分子树前的末尾标点删除，消除前一棵树切分后末尾标点对其语义独立性的影响。

(3)针对重构过程，若被切分子树本身含有主语部分，则在国家电网给出的标准中搜索其上级设备分层描述并补全，若不含，则将原树中与根节点为主谓关系的节点为根的子树，作为被切分子树的主语。

步骤3.对待匹配缺陷文本依存句法树和目标标准文本依存句法树进行匹配。首先构建两棵树的公共匹配节点序列，为避免引入类似基于操作策略匹配算法的冗余操作问题，保留待匹配节点和目标节点之间祖先-后代关系，同时允许待匹配树存在冗余节点，保证匹配的松弛性；然后根据两棵树的公共匹配节点序列，计算缺陷文本句法树和标准文本句法树的相似度，确定实际缺陷文本和标准文本的对应关系，从而辨识出实际缺陷文本中蕴含的缺陷信息。其过程具体如下：

(1)将树分解为从根节点到叶节点不同路径的节点序列集合，考虑依存关系和节点词是否匹配，以叶节点为递归出口，允许路径上某些节点不一致，利用深度优先搜索得到匹配的公共序列集合。构建两棵树的公共匹配节点序列的流程如附图3所示；

(2)将待匹配句法树和目标树的根节点分别设为node1和node2，输入节点匹配Match函数进行判断，Match函数参考电力文本同义词表，判断两个节点词及它们与各自父节点的依存关系是否相同。若相同，在公共匹配序列中添加两个节点。若不同，判断node1是否在node2为根的子树中，若在，将node2置为子树中的对应匹配节点；若不在，将node2置为其子节点，若node2已经为子树中与node1依存关系相同的路径下的叶节点，作为此递归过程的出口，返回公共匹配序列。否则将非叶节点node1按层序遍历的方式置为其子节点，并记录依存关系，继续按该依存关系将node2置为对应子节点，重复递归调用Match函数进行判断。按上述方法进行遍历时，以node2所在树为目标树，优先考虑与待匹配节点node1依存关系相同的子节点路径，减少了完全层序遍历子节点匹配的时间复杂度，并判断待匹配节点是否存在于目标树节点的子树中，保证了匹配的松弛性。

(3)得到两棵树的公共匹配节点序列后，计算两棵树相似度的公式如下：

其中，Sim(A,B)为两棵树的相似度，取值范围为0～1，A，B代表两个句子的依存树，H_c1和H_c2分别为句子A、B在公共匹配节点序列中的词语总权重，H₁和H₂为A、B两个句子所有词语总权重。以H₁为例，词语权重的计算公式如式(2)，H₂、H_c1和H_c2同理。

其中，h₁为句子A依存句法树的高度，根节点为0；h_1i则是第i个词语在句法树中的高度；p_i为第i个词在句中出现的频率，计算方法如下：

tn_i为词语i在整个句子中的出现次数，tn为计及重复的整个句子出现过的总词数。

(4)经过上述计算，由两棵树的公共匹配序列可得到两棵树的相似度，即为实际缺陷文本和标准文本的相似度。找出与实际缺陷文本最相似的一条或多条标准文本，即完成了对实际缺陷文本的缺陷信息辨识。由于标准可能未包含所有实际缺陷情况，本发明采用0.6作为相似度阈值：若标准与缺陷文本的相似度最大值小于0.6，则认为此缺陷并未被记录在标准内，直接将切分重构后的句法分析树还原回正常语序，作为辨识出的缺陷信息；否则，采用缺陷情况的标准描述作为辨识出的缺陷信息。

本发明还可以包括此步骤：以实际主变压器缺陷文本为例，按前述步骤进行缺陷信息的辨识和提取，分析依据实际缺陷文本生成的依存句法树准确性，比较剪枝、切分和重构前后的依存句法树，比较本发明树匹配算法和传统树匹配方法在速度和准确性上的差异，验证本发明树匹配算法的有效性。

应用例

将本发明提出的缺陷信息精确辨识方法应用于实际的2000多条主变压器缺陷文本。采用附图2流程构建依存句法树。利用五倍交叉验证对依存分析训练语料进行划分和训练测试：将语料顺序打乱并分为5份，将4份作为训练集另1份作为测试集，训练5次取5个测试集上评定指标结果的平均值作为模型的评定结果。

采用无依存关系准确率(Unlabeled Attachment Scores，UAS)和有依存关系准确率(Labeled Attachment Scores，LAS)作为本发明依存句法分析模型的效果评定指标，具体公式如下：

其中，n_{node_match}为测试集中由依存句法分析模型生成的依存句法树中核心词与由测试集构建的依存分析训练语料中对应核心词相同的节点总数；n_{node_label_match}代表测试集中不仅核心词相同且依存关系一致的节点总数；n_{node_all}为依存句法树中节点总数即总词数。

将标准状态转移依存句法分析模型作为对比基线模型，与左贪心出栈规则下不同特征输入情况加以比较，对比结果如表1所示。

表1两种模型在不同特征输入情况下的效果比较

从表1可以看出本发明提出的左贪心出栈模型在一定程度上解决了基线模型处理中文时存在的“错误级联”问题，并且在加入标点信息和词嵌入映射预处理过程后，从UAS和LAS的值来看都取得了最好的效果。

以某条国家电网公司输变电一次设备缺陷分类标准文本为例，附图4为剪枝后的依存句法树结构，剪枝前的依存句法树结构见附图5。以某条实际缺陷文本为例，其切分重构后的依存句法树结构如附图6所示，切分重构前的依存句法树结构见附图7。

从附图4和附图5可以看出剪枝后，依存句法树只保留了与核心谓词“发热”直接相连的主语部分和程度修饰部分，即缺陷主体和缺陷程度，去掉了与缺陷描述无关的“根据...导则”，减弱语义无关树枝对后续句法树的切分重构以及树匹配算法准确性的影响。从附图6可以看出，此实际缺陷文本的依存句法树实际上包含了三种缺陷：风扇风叶脱落，散热片污秽，指示灯不亮。在切分时，结合词性和依存关系，发现核心谓词“故障”与“污秽”和“不亮”之间为独立结构，判断出不同缺陷谓词之间不存在替换、省略和语义衔接情况，故将“污秽”和“不亮”为根节点的子树切分。在对被切分子树主语部分进行重构补全时，结合国家电网给出的标准对设备分层的描述，发现“散热片”和“指示灯”均属于“强油循环”的下级部件，故将“强油循环”节点到“主变压器”节点树枝衔接至被切分子树，最终对应三种缺陷情况的经切分重构后的依存句法树如附图7所示。

对2000多条主变缺陷文本和509条国家电网输变电一次设备缺陷分类标准文本生成的依存句法树进行剪枝、切分和重构处理后，利用本发明设计的依存树匹配算法找出实际缺陷文本在语义上对应的最相似标准文本。表2展示了由本发明依存树匹配算法和传统树匹配算法中的简单树匹配算法、时间序列动态规划法找出的最相似标准文本，以及非树匹配算法的文本相似度计算领域中潜在狄利克雷分布(latent dirichlet allocation,LDA)模型和tf-idf模型得到的最相似标准文本进行了对比。其中算法耗时在Intel Corei5-3210M处理器环境下进行测试，其主频为2.5GHz，数据总线宽度为64位，具有双核心四线程。

表2实际历史缺陷文本在不同树匹配算法下得到的最相似标准文本结果比较

从表2可以看出，对于只包含一种缺陷情况的缺陷文本，本发明树匹配算法相比于时间动态规划法和两种相似度计算方法能得到更为准确的标准缺陷描述，而简单树匹配算法并不能找出相似度大于0.6的标准文本；对于含有多种缺陷情况的缺陷文本，若不进行本发明中的切分重构步骤，得到的仅为描述一种缺陷情况的单条标准文本，且语义准确性较差。从耗时角度来看，本发明树匹配算法耗时接近于简单树匹配算法，且在信息辨识的准确性上优于其他方法。

为展示本发明树匹配算法对缺陷信息辨识的整体效果，从实际缺陷文本中随机抽取200条，统计不同种类的缺陷文本辨识出的缺陷信息准确的文本数，如表3所示。表中未出现缺陷是指实际缺陷文本中记录的未出现在标准中的缺陷；单缺陷和多缺陷分别指在已出现缺陷中，实际一条缺陷文本所记录的缺陷情况是一种还是多种。从表中可以看出，未出现缺陷文本数大约占缺陷文本总数的25％，多缺陷占10％，其余为单条文本记录单条缺陷的情况。经切分后，20条多缺陷文本被分成44条单缺陷，最后统计准确辨识出的缺陷数量为155条，缺陷信息辨识准确率约为88％，证明了本发明树匹配算法的有效性。

表3实际历史缺陷文本缺陷信息辨识准确性统计

Claims

1.电网设备缺陷文本的信息辨识方法，其特征在于该方法包括以下步骤：

步骤1. 建立基于状态转移框架的依存句法分析模型，针对实际的电力设备缺陷文本生成依存句法树，具体如下：

(1)依存句法分析框架的建立：将构建依存树时生成两个词的依存关系的过程对应为不同的动作状态；通过维护队列Q、栈S和依存关系集合A这样的三元组<Q,S,A>来表示；

(2)初始状态下，负责处理生成依存关系的栈中只有虚拟根节点ROOT，句子所有词都在维护队列Q中；通过不同动作，将维护队列Q中的词移入栈S处理，直至维护队列Q为空、栈S只含ROOT节点，句法分析过程结束；动作分为三种：添加左依存关系并将依存词出栈，添加右依存关系并将依存词出栈，将队列首词入栈，其中前两种动作以栈顶词和栈次顶词为目标词进行判断；

(3)动作确定后，将依存关系的判定看作是分类问题，由特征输入和解码算法确定；选取栈顶、栈次顶和队列首端3个词，每个词的最左最右、次左次右子节点和最左最右孙子节点共6个词作为词特征，即词特征输入量为18；再选取上述词对应的词性作为词性特征，即词性特征输入量也为18；选取栈顶、栈次顶词与其子节点和孙子节点的依存关系作为第三类特征输入，即依存关系特征输入量为12；最后将标点看作独立词，利用和词同样的处理方式作为特征输入；

采用含有单隐藏层的BP神经网络进行解码，输入层由词向量映射模型训练得到的特征向量拼接而成，隐藏层采用“线性拟合+立方激活”方式学习与输出依存关系动作类别相关的高维特征，输出层利用softmax分类器分类，得到不同依存关系动作的概率，取概率最大的依存关系动作为当前处理动作，并得到依存关系，即根据实际缺陷文本生成了依存句法树；

步骤2. 结合实际缺陷文本特点，对依存句法树进行剪枝、切分和重构，生成只包含核心语义信息的精简依存句法树，具体是：

(1)针对剪枝过程，利用依存句法树中的依存关系，采用深度优先搜索的方法依次找出缺陷文本中的缺陷主体、宾语、描述缺陷程度的状语部分，并对与根节点独立关系的子节点，采用同样方法进行搜索；

(2)针对切分过程，利用篇章衔接性理论对依存句法树中前后谓词节点是否存在前后句缺陷设备描述替换、缺陷谓词省略和程度修饰衔接情况，利用词向量映射模型结合电力同义词表计算缺陷设备和缺陷描述谓词的语义相似度，判断是否存在替换和省略的情况；分析根节点的动词子节点和根节点的依存关系是否为状中关系或并列关系，判断是否存在程度修饰的语义衔接情况；若都不存在，则将以该动词为根的子树切分为独立子树，并将被切分子树前的末尾标点删除，消除前一棵树切分后末尾标点对其语义独立性的影响；

(3)针对重构过程，主要是针对被切分独立子树恢复其主语部分，若被切分子树本身含有主语部分，则在国家电网给出的标准中搜索其上级设备分层描述并补全，若不含，则将原树中与根节点为主谓关系的节点为根的子树，作为被切分子树的主语；

步骤3. 对待匹配缺陷文本依存句法树和目标标准文本依存句法树进行匹配，具体是：

为避免引入类似基于操作策略匹配算法的冗余操作问题，构建两棵树的公共匹配节点序列计算两棵树的相似性；保留待匹配节点和目标节点之间祖先-后代关系，同时允许待匹配树存在冗余节点，保证匹配的松弛性；

根据两棵树的公共匹配节点序列，计算缺陷文本句法树和标准文本句法树的相似度，确定实际缺陷文本和标准文本的对应关系，从而辨识出实际缺陷文本中蕴含的缺陷信息。

2.根据权利要求1所述的电网设备缺陷文本的信息辨识方法，其特征在于：在状态转移框架的依存句法分析模型中，根据中文投射性理论，若依存词与核心词之间为左依存关系，那么依存词不会是核心词右边部分的核心词，但若为右依存关系则可能继续添加右依存关系；所以为避免由当前动作错误引发的后续动作均错误的“错误级联”现象，在判断栈顶两个词的依存关系时，提出“左贪心”出栈方法，即：若为左依存关系则直接将依存词出栈，若为右依存关系则需判断依存词是否是右侧任一词的核心词，若不是，将依存词出栈，反之则不出栈；待左依存关系全部判断完毕后，重新从栈顶开始判断词语之间的右依存关系。

3.根据权利要求1所述的电网设备缺陷文本的信息辨识方法，其特征在于：构建两棵树的公共匹配节点序列具体是：将待匹配句法树和目标树的根节点分别设为node1和node2，输入节点匹配Match函数进行判断，判断两个节点词及它们与各自父节点的依存关系是否相同；若相同，在公共匹配序列中添加两个节点；若不同，判断node1是否在node2为根的子树中，若在，将node2置为子树中的对应匹配节点；若不在，将node2置为其子节点，若node2已经为子树中与node1依存关系相同的路径下的叶节点，作为递归过程的出口，返回公共匹配序列；否则将非叶节点node1按层序遍历的方式置为其子节点，并记录依存关系，继续按该依存关系将node2置为对应子节点，重复递归调用Match函数进行判断。