CN107832457A

CN107832457A - 基于TextRank算法的输变电设备缺陷词库建立方法及系统

Info

Publication number: CN107832457A
Application number: CN201711192266.0A
Authority: CN
Inventors: 秦佳峰; 杨祎; 林颖; 李程启; 白德盟; 周超; 贾然; 刘洋; 李龙龙; 孙景文
Original assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-03-23

Abstract

本发明公开了一种基于TextRank算法的输变电设备缺陷词库建立方法及系统，包括：把给定的输变电设备缺陷文本T按照完整句子进行分割；对于任何一个子句子，进行分词处理和词性标注处理；构建候选关键词图；采用共现关系构造任两个节点之间的边；采用TextRank算法对传播各节点的权重进行迭代，得到每个节点的权重分值；对各节点权重分值进行倒序排序，从而得到最重要的T个单词，构建缺陷词库。本发明有益效果：本发明针对输变电的缺陷数据，通过TextRank算法进行关键词的提取，从而建立输变电设备缺陷的关键词词库，帮助后续的研究。

Description

基于TextRank算法的输变电设备缺陷词库建立方法及系统

技术领域

本发明涉及的是一种基于TextRank算法的输变电设备缺陷词库建立方法及系统。

背景技术

输变电设备的安全运行是整个电网运行的基础，对设备能够进行全面、准确的分析和判断，是输变电设备状态检修和全生命周期管理的一个前提。目前对电力设备的缺陷分析，通常是人工或者半智能的通过字符串比对等方法进行，缺乏更有效、更智能的分析手段，导致人工工作量大，同时分析结果具有主观性，无法体现设备缺陷的关联性，从而无法对设备的缺陷进行更进一步的分析。

随着智能电网的发展，电力行业也步入到了“大数据的时代”，各项数据挖掘的技术也在电力设备的状态评估中应用开来，但是作为能够反映输变电设备状态的缺陷，由于存储在数据库中的数据通常为人工填写，数据缺乏规范性，故做数据分析时存在难度。

发明内容

本发明的目的就是为了解决上述问题，提出了一种基于TextRank算法的输变电设备缺陷词库建立方法及系统，该方法及系统通过开源的TextRank算法对输变电设备的缺陷数据进行关键字提取，然后建立缺陷词库。

为了实现上述目的，本发明采用如下技术方案：

一种基于TextRank算法的输变电设备缺陷词库建立方法，包括：

(1)把给定的输变电设备缺陷文本T按照完整句子进行分割，将文本T分为m个子句子，即T＝[S₁,S₂,···,S_m]；

(2)对于任何一个子句子S_i∈T，进行分词处理和词性标注处理，只保留指定词性的单词，即S_i＝[t_i,1,t_i,2···t_i,m]，其中t_i,j∈S_j是保留后的候选关键词；

(3)构建候选关键词图G＝(V,E)，其中V为节点集，由步骤(2)中生成的候选关键词组成；E为图的边集合，E是V×V的子集；对于一个给定的点V_i，lnV_i为指向该点的点集合，点V_i指向的点集合表示为Out(V_i)；

(4)采用共现关系构造任两个节点之间的边，设置滑动窗口为K，如果两个节点对应的词汇在长度为K的窗口中共现，则两个节点之间存在边；

(5)采用TextRank算法对传播各节点的权重进行迭代，直至其收敛，得到每个节点的权重分值；

(6)对各节点权重分值进行倒序排序，从而得到最重要的T个单词，构建缺陷词库。

进一步地，所述步骤(2)中，采用分词器实现分词处理和词性标注处理。

进一步地，在构建有向有权图时，只筛选设定词性的词作为节点，同时删除停用词。

进一步地，所述步骤(5)的具体方法为：

构建有向有权图G＝(V,E)，其中，V为节点集，E为图的边集合，E是V×V的子集；

设W_ji为在图中任两个节点V_i，V_j之间边的权重；

对于一个给定的点V_i，lnV_i为指向该点的点集合，点V_i指向的点集合表示为Out(V_i)；

其中点V_i的得分权重定义如下所示：

其中，d为阻尼系数，代表从图中某一特定点指向其他任意点的概率，取值范围为0到1；

计算各节点权重的时候，给图中的节点指定任意的初值，然后递归计算直到权重结果收敛。

进一步地，所述步骤(6)中，对得到的最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。

本发明还公开了一种基于TextRank算法的输变电设备缺陷词库建立系统，包括：

用于把给定的输变电设备缺陷文本T按照完整句子进行分割，将文本T分为m个子句子装置；

用于对任何一个子句子，进行分词处理和词性标注处理的装置；

用于构建候选关键词图的装置；

用于采用共现关系构造任两个节点之间的边的装置；

用于采用TextRank算法对传播各节点的权重进行迭代，直至其收敛，得到每个节点的权重分值的装置；

用于对各节点权重分值进行倒序排序，从而得到最重要的T个单词，构建缺陷词库的装置。

进一步地，用于对任何一个子句子，进行分词处理和词性标注处理的装置具体为：分词器。

进一步地，所述用于采用TextRank算法对传播各节点的权重进行迭代，直至其收敛，得到每个节点的权重分值的装置具体包括：

构建有向有权图G＝(V,E)的单元，其中，V为节点集，E为图的边集合，E是V×V的子集；

计算点V_i的得分权重的单元；

进一步地，还包括：

对得到的最重要的T个单词，在原始文本中进行标记的装置；

若形成相邻词组，则组合成多词关键词的装置。

本发明有益效果：

本发明利用TextRank算法设计了一种输变电设备缺陷词库建立方法，可以建立一个输变电设备缺陷的关键词词库，用于后续缺陷数据的比对和分析。

本发明针对输变电的缺陷数据，通过TextRank算法进行关键词的提取，从而建立输变电设备缺陷的关键词词库，帮助后续的研究。

附图说明

图1为本发明关键词提取方法流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步的说明。

本发明提供了一种基于TextRank算法的输变电设备缺陷词库建立方法，能够对输变电缺陷数据进行关键词提取，建立缺陷词库。

TextRank算法主要根据文本本身的特征去提取关键词。TextRank算法是文本基于图的排序算法当中的一种。TextRank算法通过将文本分割为若干个组成单元(单词或句子)并建立相应的图模型，然后利用投票机制对文本中的重要的成分进行相应的排序，它仅利用单篇文档本身提供的信息就可以实现关键词提取。

TextRank的一般模型是可以用一个有向有权图G＝(V,E)来进行表示的。由点集合V以及图的边集合E组成，其中E是V×V的子集。W_ji为在图中任两点V_i，V_j之间边的权重，对于一个给定的点V_i，lnV_i为指向该点的点集合，点V_i指向的点集合表示为Out(V_i)。其中点V_i的得分定义如下所示：

式中d为阻尼系数，代表从图中某一特定点指向其他任意点的概率，取值范围为0到1在使用TextRank算法来计算图中各个点的得分的时候，需要给图中的点指定以下任意的初值，然后递归计算直到收敛。

本发明基于TextRank算法的输变电设备缺陷词库建立方法，如图1所示，包括以下步骤：

1)把给定的文本T按照完整句子进行分割，即T＝[S₁,S₂,···,S_m]。

2)对于任何一个句子S_i∈T，进行分词处理和词性标注处理，然后过滤掉停用词，只保留指定词性的单词，比如动词、名词、形容词，即S_i＝[t_i,1,t_i,2···t_i,m]，其中t_i,j∈S_j是保留后的候选关键词。

本实施例采用ANSJ中文分词器实现分词处理和词性标注处理，它采用了高频词的匹配方式，不使用规则，用统计重复串识别新词，根据词性去掉干扰词的做法。分词器自带词性标注功能，可以将名词、动词、形容词等进行标注，如：词性类别包括形容词(/a)、动词(/v)、名词(/n)、动名词(/vn)、副词(/d)。

3)构建候选关键词图G＝(V,E)，其中V为节点集，由步骤(2)生成的候选关键词组成，然后采用共现关系(co-occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示的是窗口的大小，也就是最多共现的单词数目为K个。

共现即共同出现，也就是词语搭配可能共同出现，习惯性搭配中词项相互期待和预见。设置滑动窗口为K，窗口里面的词组若存在共现关系则构造边。

在构建有向有权图时候，只筛选特定词性的词作为节点，比如名词，动词，形容词等，同时删除停用词。

4)采用TextRank算法对传播各节点的权重进行迭代，直至其收敛。

设W_ji为在图中任两个节点V_i，V_j之间边的权重；

其中点V_i的得分定义如下所示：

得分相当于权重，通过结点之间的投票或推荐机制，实现重要性排序，一个结点链入的结点集表示其投票支持者，投票者越重要、数量越多，则被投票者的排名越靠前。

计算各节点权重的时候，给图中的节点指定任意的初值，然后递归计算直到权重结果收敛。当两次迭代结果之间的差异非常小，趋近于零时，停止迭代运算，然后按照分值大小进行排序输出。

5)对节点权重进行倒序排序，从而得到最重要的T个单词，以此构建输变电设备缺陷词库。

6)由步骤(5)得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。

用于对任何一个子句子，进行分词处理和词性标注处理的装置；具体为：分词器。

用于构建候选关键词图的装置；

用于采用共现关系构造任两个节点之间的边的装置；

用于采用TextRank算法对传播各节点的权重进行迭代，直至其收敛，得到每个节点的权重分值的装置；具体包括：

计算点V_i的得分权重的单元；

用于对各节点权重分值进行倒序排序，从而得到最重要的T个单词，构建缺陷词库的装置。计算各节点权重的时候，给图中的节点指定任意的初值，然后递归计算直到权重结果收敛。

进一步地，还包括：

对得到的最重要的T个单词，在原始文本中进行标记的装置；

若形成相邻词组，则组合成多词关键词的装置。

为验证上面提出的基于TextRank算法的输变电设备缺陷词库建立方法及系统的可行性和准确性，采用实际的输变电设备缺陷数据进行词库建立的评估。

以下面缺陷数据为例

通过该方法提取关键词如下：

将提取到的关键词可以加入到输变电设备关键词词库，同时提取到关键词可以与设备所处位置、气象信息、负载信息等进行关联分析。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于TextRank算法的输变电设备缺陷词库建立方法，其特征在于，包括：

2.如权利要求1所述的一种基于TextRank算法的输变电设备缺陷词库建立方法，其特征在于，所述步骤(2)中，采用分词器实现分词处理和词性标注处理。

3.如权利要求1所述的一种基于TextRank算法的输变电设备缺陷词库建立方法，其特征在于，在构建有向有权图时，只筛选设定词性的词作为节点，同时删除停用词。

4.如权利要求1所述的一种基于TextRank算法的输变电设备缺陷词库建立方法，其特征在于，所述步骤(5)的具体方法为：

设W_ji为在图中任两个节点V_i，V_j之间边的权重；

其中点V_i的得分权重定义如下所示：

<mrow> <mi>W</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>d</mi> <mo>&times;</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mi>i</mi> </mrow> </msub> <mrow> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>V</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <mi>O</mi> <mi>u</mi> <mi>t</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> </mfrac> <mi>W</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

5.如权利要求1所述的一种基于TextRank算法的输变电设备缺陷词库建立方法，其特征在于，所述步骤(6)中，对得到的最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。

6.一种基于TextRank算法的输变电设备缺陷词库建立系统，其特征在于，包括：

用于构建候选关键词图的装置；

用于采用共现关系构造任两个节点之间的边的装置；

7.如权利要求6所述的基于TextRank算法的输变电设备缺陷词库建立系统，其特征在于，用于对任何一个子句子，进行分词处理和词性标注处理的装置具体为：分词器。

8.如权利要求6所述的基于TextRank算法的输变电设备缺陷词库建立系统，其特征在于，所述用于采用TextRank算法对传播各节点的权重进行迭代，直至其收敛，得到每个节点的权重分值的装置具体包括：

计算点V_i的得分权重的单元；

9.如权利要求6所述的基于TextRank算法的输变电设备缺陷词库建立系统，其特征在于，还包括：

对得到的最重要的T个单词，在原始文本中进行标记的装置；

若形成相邻词组，则组合成多词关键词的装置。