CN115048492A

CN115048492A - 电力设备缺陷信息的处理方法、装置、设备及存储介质

Info

Publication number: CN115048492A
Application number: CN202210695552.3A
Authority: CN
Inventors: 陈鹏; 孔力; 金杨; 邰彬; 章坚; 汪进锋; 吕鸿; 姚瑶; 黄杨珏; 王志华
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-13

Abstract

本发明公开一种电力设备缺陷信息的处理方法、装置、设备及存储介质，通过利用预设的改进BILSTM算法，对结构化文本信息进行文本增强，得到目标结构化文本信息，以保证缺陷文本的质量，从而提高后续构建的知识图谱的内容质量；再利用预设的改进BERT算法，对非结构化文本信息进行实体抽取，得到目标实体信息，以实现针对具有异构性、多样性和碎片化等特征的电力设备缺陷文本的信息抽取，同时利用改进BERT算法能够提高实体抽取精度；最后基于目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱，从而以知识图谱方式对电力设备缺陷信息进行管理，能够有效提高知识管理的全面性和可靠性，为后续应用提高知识支持。

Description

电力设备缺陷信息的处理方法、装置、设备及存储介质

技术领域

本发明涉及电力设备运维技术领域，尤其涉及一种电力设备缺陷信息的处理方法、装置、设备及存储介质。

背景技术

在电力设备故障发生后，通常会对电力设备所存在的缺陷进行快速识别并及时消缺，以保证电力系统的可靠性。为助于后续故障识别和消缺，电力设备缺陷信息以文本方式进行记录，其包含故障问题描述和故障原因分析等关键信息，蕴含着丰富的与电力设备运行维护相关的经验知识。

目前，由于电力设备缺陷文本的领域性较强，且由人工记录，所以其表达方式不符合通用语法，存在篇幅较长、句法结构复杂以及难以准确划分文本的主谓成分的问题，再加上待抽取的实体类型多样，不仅有词语短语类型，还包括特定类型的句子，因此需要对电力设备缺陷文本进行知识管理。但是，当前知识管理工作主要基于语法结构清晰的大型传统文本数据集进行，其无法适用于具有异构性、多样性和碎片化等特征的电力设备缺陷文本。因此，亟需一种适用于电力设备缺陷信息的处理方法。

发明内容

本发明提供一种电力设备缺陷信息的处理方法、装置、设备及存储介质，以解决当前知识管理方式无法适用于电力设备缺陷文本的技术问题。

为解决上述技术问题，第一方面，本发明提供一种电力设备缺陷信息的处理方法，包括：

获取电力设备缺陷信息，电力设备缺陷信息包括结构化文本信息和非结构化文本信息；

利用预设的改进BILSTM算法，对结构化文本信息进行文本增强，得到目标结构化文本信息；

利用预设的改进BERT算法，对非结构化文本信息进行实体抽取，得到目标实体信息；

基于目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱。

作为优选，改进BILSTM算法包括UCNN算法和第一BILSTM算法，利用预设的改进BILSTM算法，对结构化文本信息进行文本增强，得到目标结构化文本信息，包括：

对结构化文本信息进行预处理，得到预处理后的结构化文本信息，预处理包括文本分词、去停用词和同义词替换；

利用UCNN算法，对预处理后的结构化文本信息进行词语特征提取，得到预处理后的结构化文本信息的词语特征；

利用第一BILSTM算法，根据词语特征，对预处理后的结构化文本信息进行文本分类，得到目标结构化文本信息。

作为优选，UCNN算法的表达式为：

其中，o(u,v)为词语特征，

为非共享卷积核，w_i,j为

中在(i,j)处的权重值，K_r×s表示预处理后的结构化文本信息对应的词向量集，k_u-i,v-j为K_r×s中的词向量。

作为优选，改进BERT算法包括BERT算法、第二BILSTM算法和CRF算法，利用预设的改进BERT算法，对非结构化文本信息进行实体抽取，得到目标实体信息，包括：

利用BERT算法，对非结构化文本信息进行编码，得到字向量和位置向量；

利用第二BILSTM算法，根据字向量和位置向量，对非结构化文本信息进行上下文语义特征提取，得到非结构化文本信息的上下文语义特征；

利用CRF算法，根据上下文语义特征，对非结构化文本信息进行命名实体识别，得到非结构化文本信息的实体标签；

根据实体标签，对非结构化文本信息进行实体抽取，得到目标实体信息。

作为优选，实体标签包括设备标签和位置标签，目标实体信息包括缺陷设备名称、缺陷位置名称、设备缺陷信息和缺陷处理策略，根据实体标签，对非结构化文本信息进行实体抽取，得到目标实体信息，包括：

根据设备标签，在非结构化文本信息中，抽取与设备标签对应的缺陷设备名称；

根据缺陷设备名称对应的位置标签，在非结构化文本信息中，抽取与位置标签对应的缺陷位置名称；

根据缺陷位置名称，在非结构化文本信息中，抽取与缺陷位置名称对应的设备缺陷信息，设备缺陷信息包括设备缺陷等级、设备缺陷原因、设备缺陷现象和设备缺陷类型；

根据设备缺陷现象，在非结构化文本信息中，抽取与设备缺陷现象对应的缺陷处理策略。

作为优选，基于目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱，包括：

利用基于相似性传播的知识融合策略，对目标结构化文本信息和目标实体信息进行知识融合，得到目标文本实体信息；

基于Neo4j数据库的知识存储策略，对目标文本实体信息进行知识存储，以构建电力设备缺陷知识图谱。

作为优选，基于相似性传播的知识融合策略包括相似度算法，相似度算法用于对目标结构化文本信息和目标实体信息中的实体进行语义匹配，相似度算法为：

其中，Y_i表示第i个实体的向量，Y_s表示第s个实体的向量。

第二方面，本发明还提供一种电力设备缺陷信息的处理装置，包括：

获取模块，用于获取电力设备缺陷信息，电力设备缺陷信息包括结构化文本信息和非结构化文本信息；

增强模块，用于利用预设的改进BILSTM算法，对结构化文本信息进行文本增强，得到目标结构化文本信息；

抽取模块，用于利用预设的改进BERT算法，对非结构化文本信息进行实体抽取，得到目标实体信息；

构建模块，用于基于目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱。

第三方面，本发明还提供一种计算机设备，包括处理器和存储器，存储器用于存储计算机程序，计算机程序被处理器执行时实现如权第一方面的电力设备缺陷信息的处理方法。

第四方面，本发明还提供一种计算机可读存储介质，其存储有计算机程序，计算机程序被处理器执行时实现如第一方面的电力设备缺陷信息的处理方法。

与现有技术相比，本发明具备以下有益效果：

本发明通过利用预设的改进BILSTM算法，对结构化文本信息进行文本增强，得到目标结构化文本信息，以保证缺陷文本的质量，从而提高后续构建的知识图谱的内容质量；再利用预设的改进BERT算法，对非结构化文本信息进行实体抽取，得到目标实体信息，以实现针对具有异构性、多样性和碎片化等特征的电力设备缺陷文本的信息抽取，同时利用改进BERT算法能够提高实体抽取精度；最后基于目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱，从而以知识图谱方式对电力设备缺陷信息进行管理，能够有效提高知识管理的全面性和可靠性，为后续应用提高知识支持。

附图说明

图1为本发明实施例示出的电力设备缺陷信息的处理方法的流程示意图；

图2为本发明实施例示出的基于改进BI－LSTM算法的文本增强示意图；

图3为本发明实施例示出的基于改进BERT算法的实体抽取示意图；

图4为本发明实施例示出的Bert算法的结构示意图；

图5为本发明实施例示出的Bert模型输入的结构示意图；

图6为本发明实施例示出的自注意力机制的示意图；

图7为本发明实施例示出的BILSTM算法的结构示意图；

图8为本发明实施例示出的知识更新结果的对比示意图；

图9为本发明实施例示出的电力设备缺陷信息的处理装置的结构示意图；

图10为本发明实施例示出的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1，图1为本发明实施例提供的一种电力设备缺陷信息的处理方法的流程示意图。首先基于BILSTM的上下文语义信息提取策略，解决BERT在实体抽取时上下文语义获取不够全面的问题。再基于CRF的标签预测分支改进策略，解决BERT仅考虑局部信息容易陷入局部最优的问题。最后基于改进BERT算法，可以快速从电力设备缺陷文本中抽取实体信息。本发明实施例的方法可应用于计算机设备，该计算机设备包括但不限于智能手机、笔记本电脑、平板电脑、桌上型计算机、物理服务器和云服务器等设备。如图1所示，本实施例的电力设备缺陷信息的处理方法包括步骤S101至步骤S104，详述如下：

步骤S101，获取电力设备缺陷信息，所述电力设备缺陷信息包括结构化文本信息和非结构化文本信息。

在本步骤中，结构化文本信息为具有清晰语法结构的文本信息，非结构化文本信息为语法结构不清晰的文本信息。

步骤S102，利用预设的改进BILSTM算法，对所述结构化文本信息进行文本增强，得到目标结构化文本信息。

在步骤中，BILSTM算法为双向长短时记忆算法，改进BILSTM算法包括UCNN算法和第一BILSTM算法，UCNN算法为U型卷积神经网络算法。其中，基于UCNN的词语语义特征提取策略能够解决BILSTM更多关注句子含义而忽略文本单词特征的问题；在改进BILSTM算法的训练阶段，采用基于LeakyRelu激活函数重构策略解决BILSTM存在梯度消失的问题，以及采用基于Foscal Loss损失函数重构策略解决缺陷文本数据不平衡的问题。

可选地，在文本增强之前，对结构化文本信息进行数据预处理。具体地，基于结巴分词进行文本分词，并引入自定义词典作为辅助词典进行分词；再去除停用词，并基于同义词词典进行文本数据的共指标准化，以完成数据预处理。

在一实施例中，所述改进BILSTM算法包括UCNN算法和第一BILSTM算法，所述步骤S102，包括：

对所述结构化文本信息进行预处理，得到预处理后的结构化文本信息，所述预处理包括文本分词、去停用词和同义词替换；

利用所述UCNN算法，对预处理后的所述结构化文本信息进行词语特征提取，得到预处理后的所述结构化文本信息的词语特征；

利用所述第一BILSTM算法，根据所述词语特征，对预处理后的所述结构化文本信息进行文本分类，得到所述目标结构化文本信息。

在本实施例中，在对电力缺陷文本及进行分词、去停用词和共指标准化后，基于改进BILSTM算法对文本进行文本增强。如图2所示，首先基于UCNN对分词后的文本词语进行特征提取，然后再输入BILSTM进行句子语义理解，进而进行文本分类。其中，UCNN算法通过卷积核在原始词向量数据上进行卷积计算并滑动，实现文本词语特征的提取。与传统CNN不同，在原始数据的不同位置，UCNN采用具有不同权值大小的卷积核。因此，所述UCNN算法的表达式为：

其中，o(u,v)为所述词语特征，

为非共享卷积核，w_i,j为

中在(i,j)处的权重值，K_r×s表示预处理后的所述结构化文本信息对应的词向量集，k_u-i,v-j为K_r×s中的词向量。

根据UCNN框架可知，上述卷积核权重矩阵

在相对词向量原始数据

滑动位置(u,v)发生改变时可能发生变化。而传统CNN在不同位置上将保持同样的权重矩阵

显然，本发明的UCNN更有利于对差异化词语的提取。在此基础上，通过UCNN计算得到缺陷文本的特征图的大小r′×s′，其计算公式为：

式中，t为UCNN滑动步幅，p为自动填充层数。

最后，可获得表征缺陷文本词语含义的特征矩阵K_r′×s′，并进一步输入到BILSTM进行后续处理。

本发明在改进BILSTM算法的训练阶段，在Relu函数的基础上，引入LeakyRelu作为UCNN－BILSTM算法的激活函数，其表达式为：

y＝max(ax,x)；

式中，x为激活函数输入，y为激活函数输出，a(0<a<1)为函数的反向梯度。

本发明引入Foscal Loss损失函数以解决不平衡数据带来的影响，从而保证模型精度，Foscal Loss计算公式为：

式中，L_FL(y,y′)为Foscal Loss损失函数。α为平衡因子，用于平衡不同类别样本的数量的不平衡。γ为调制系数，用于提升损失函数对于更难分类类别的敏感度。通过FoscalLoss损失函数能够解决电力设备缺陷文本数据集不平衡的问题，保证模型的准确性，从而使结构化缺陷文本质量得到明显改善，保证知识图谱数据的可靠性。

示例性地，在Windows操作系统中训练改进BILSTM算法，硬件配置包括：CPU型号为i9 9980xe 3GHz，GPU型号为GTX2080，实验环境为Python3.8+Pytorch1.10.2+cuda11.3。数据集共包含5679条缺陷文本，其中外部影响2699条，设备老化1461条，施工质量784条，运维质量527条，产品质量181条，验收质量26条；紧急缺陷3292条，重大缺陷2387条。训练集，验证集，测试集按6：2：2进行切分。

文本分类模型训练超参数设置如下：Embeding Size为300，UCNN Layer为1，UCNNCell为300，BILSTM Layer为2，BILSTM Cell为512，全连接层数为2，全连接隐藏单元为256，Dropout为0.2，学习率为OneCycleLR自适应学习率(初始学习率1e－4)，Ecoph为240。

为体现改进BILSTM算法的整体表现，基于传统主流文本分类模型TextCNN、SVM和BILSTM，在相同的数据集上进行训练，并比较多种算法之间的整体表现。具体结果如下表所示。

如上表可见，在文本缺陷类别分类中，改进BILSTM算法的性能明显优于TextCNN、SVM和BILSTM算法，其预测精确度高于75％，明显优于其他算法在70％以下的预测精确度。可见，与传统主流文本分类算法相比，在对电力设备缺陷文本进行分类时，改进BILSTM改进算法有着更好的表现。

步骤S103，利用预设的改进BERT算法，对所述非结构化文本信息进行实体抽取，得到目标实体信息。

在本步骤中，BERT算法为Bidirectional Encoder RepresentationsfromTransformers语言模型算法，改进BERT算法包括BERT算法、第二BILSTM算法和CRF算法，CRF算法为条件随机场算法。

在一实施例中，所述步骤S1013，包括：

利用所述BERT算法，对所述非结构化文本信息进行编码，得到字向量和位置向量；

利用所述第二BILSTM算法，根据字向量和所述位置向量，对所述非结构化文本信息进行上下文语义特征提取，得到所述非结构化文本信息的上下文语义特征；

利用所述CRF算法，根据所述上下文语义特征，对所述非结构化文本信息进行命名实体识别，得到所述非结构化文本信息的实体标签；

根据所述实体标签，对所述非结构化文本信息进行实体抽取，得到所述目标实体信息。

在本实施例中，示例性地，改进BERT算法的实体抽取流程如图3所示，首先利用BERT预训练语言模型中的Transformer结构，对输入层缺陷文本中的单个字符进行编码，训练得到单个字符对应的字向量和位置向量，并作为BILSTM层的初始化输入；然后利用BILSTM层对输入的缺陷文本的向量信息进行双向编码，进一步计算得到文本上下文相关的语义信息；最后将包含上下文信息的语义向量输入到CRF层，采用Viterbi算法进行解码，由CRF模型计算得到全局最优结果，输出概率最大的标签序列，从而得到缺陷文本中每个字符的实体类别。

对于BERT算法：BERT是一种深度双向语言表征模型，其结构如图4所示。由图4可知，BERT模型的第一层为输入层，E_i代表输入的单词，第二层和第三层中的TrmE代表Transformer编码结构，第四层中的T_i代表输出结果，N代表输入词的总数。

示例性地，如图5所示，BERT模型的输入层由字向量、句向量和位置向量3部分组成，[CLS]为文本的开始标志，[SEP]为句子间分隔或文本的结束标志。Token是通过查询字向量表将缺陷文本中的每个字转换为一维向量，表示单词原始的词向量，Segment用于区分不同缺陷文本，表示当前单词位于缺陷文本中的句向量位置，Position用于表示当前单词在缺陷文本中的序列位置。其次，BERT模型的第2层和第3层中一共有12层TrmE网络，每层TrmE网络均由6层Encoder组成。其中TrmE网络主要使用自注意力机制，该机制用于计算每个词与其上下文之间的关系权重，并将权重给到上下文中的每个词，以及根据权重对该词的词向量进行更新，从而得到新的词向量，新的词向量包含该词自身与其上下文的语义信息。

示例性地，自注意力机制的产生过程如图6所示。在图6中，输入为查询向量、键向量和值向量，将其分别表示为Q、K和V，其计算公式分别为：

Q＝XW^Q，K＝XW^K，V＝XW^V；

式中，X为输入矩阵，W^Q，W^K，W^V为权重矩阵。自注意力机制输出的关系权重的计算公式为：

式中，

为惩罚因子，用来确保Q与K的乘积不会过大。

Bert模型使用基于自注意力机制的多头注意力机制，头的个数也是自注意力机制的个数。在多头注意力机制中，每个自注意力机制关注同一个词的不同上下文信息，其输出矩阵head_i可表示为：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)；

多头注意力机制的输出矩阵MultiHead计算公式为：

MulitiHead(Q，K，V)＝Concat(head₁，head₂…head_k)W^O；

式中，Concat是将每个head_i相连后与连接矩阵W^O相乘的结果。

最后，BERT模型根据第4层词向量输出结果。该模型在对词向量进行表征时，可以获得富含缺陷文本语义信息的字符向量，较完整地保存文本的语义信息。

对于第二BILSTM算法：通过BILSTM算法进一步对缺陷文本的字符向量进行上下文语义信息提取，得到更全面的上下文语义特征，从而确保命名实体抽取模型语义学习的稳健性。传统LSTM算法只有一层网络从前向后对句子进行编码，只掌握句子从前到后的上下文信息，但没有掌握从后到前的上下文信息。如图7所示，本发明的第二BILSTM算法是由前向LSTM算法和后向LSTM算法组合而成的，可以实现上下文信息的双向学习。最终BILSTM层的输出表示为：

h(t)＝[o_pre,o_pos]；

式中，h为BILSTM算法前向和后向输出拼接的结果，t为时间步，o_pre,o_pos分别为前向LSTM和后向LSTM的输出。

对于CRF算法：为从缺陷文本获取全局信息并应用到模型输出中，本发明将softmax层替换为CRF层。CRF属于判别式概率模型，可以对有序序列进行标注和切分。对于序列X＝(x₁,x₂,…,x_n)，状态序列Y＝(y₁,y₂,…y_n)的条件概率P(y|x)的计算公式为：

式中，f_k是特征函数，w_k是f_k的权重，Z(x)是归一化函数。

CRF模型采用最大化对数似然函数进行训练，对于给定电力设备缺陷文本A的标签序列y的条件概率计算公式为：

Loss＝log(P(y|A))；

式中，

为真实标签，yA为给定缺陷文本A全部可能的标签组合，Loss为定义的损失函数。

在采用CRF的进行电力设备缺陷文本实体标签的最终预测时，采用viterbi算法得到全局最优解，其求解公式为：

式中，y^*为得分取得最大值的电力设备缺陷文本标签序列。

可见，在BERT的序列标注任务中采用CRF预测标签输出，可以对预测标签间的依赖关系进行有效约束，从而获得全局最优序列。

对于实体抽取，在一实施例中，所述实体标签包括设备标签和位置标签，所述目标实体信息包括缺陷设备名称、缺陷位置名称、设备缺陷信息和缺陷处理策略，所述根据所述实体标签，对所述非结构化文本信息进行实体抽取，得到所述目标实体信息，包括：

根据所述设备标签，在所述非结构化文本信息中，抽取与所述设备标签对应的缺陷设备名称；

根据所述缺陷设备名称对应的所述位置标签，在所述非结构化文本信息中，抽取与所述位置标签对应的缺陷位置名称；

根据所述缺陷位置名称，在所述非结构化文本信息中，抽取与所述缺陷位置名称对应的设备缺陷信息，所述设备缺陷信息包括设备缺陷等级、设备缺陷原因、设备缺陷现象和设备缺陷类型；

根据所述设备缺陷现象，在所述非结构化文本信息中，抽取与所述设备缺陷现象对应的缺陷处理策略。

在本实施例中，在电力设备缺陷文本的实体关系抽取时，直接通过实体标签判断实体类型，然后根据定义好的实体关系建立实体关系抽取规则，抽取规则如下：

首先，以缺陷设备名称为中心，根据缺陷设备名称的实体标签equipment，提取出缺陷设备的名称；

其次，根据实体标签position，提取出与之有关的缺陷部位名称；

然后，以提取出的缺陷部位名称为实体中心，依次根据各类实体标签，提取出与之有关的设备缺陷等级、设备缺陷原因、设备缺陷现象、设备缺陷类型；

最后，以设备缺陷现象为实体中心，提取出缺陷处理措施。

示例性地，在Windows操作系统中进行实体抽取，开发语言为Python，版本为Python3.8，深度学习框架Tensorflow版本为1.12.0，Bert模型为Bert－Base－Chinese版本，硬件配置：CPU型号为i9 9980xe 3GHz，GPU型号为GTX2080。

将BERT－BILSTM－CRF命名实体抽取算法与HMM、CRF、BILSTM、BILSTM－CRF和BERT等主流算法进行对比分析，然后对BERT－BILSTM－CRF的实体抽取结果进行分析，测试结果如下表所示。

由上表可知，在采用HMM、CRF、BILSTM、BILSTM－CRF、BERT与本发明的BERT－BILSTM－CRF算法对电力设备缺陷文本进行实体抽取时，本发明的改进BERT算法在缺陷现象、缺陷设备、缺陷等级、处理措施、缺陷部位、缺陷原因和缺陷类型7类实体上，均取得最优的抽取效果。改进BERT算法在准确率、召回率和F1值上均有一定程度的提升，可以有效对命名实体抽取结果进行提升，有利于后续的实体关系抽取，并且可为构建知识图谱提供可靠的数据。

步骤S104，基于所述目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱。

在本步骤中，基于Neo4j数据库提出基于相似性传播的集体实体融合策略，以解决缺陷文本数据来源广泛和不易融合的问题；基于Neo4j数据库提出知识存储策略，以解决缺陷文本体量较大和不易存储查询的问题；基于Neo4j数据库提出知识更新策略，以解决实时缺陷数据更新速度慢的问题。本发明构建的电力设备缺陷知识图谱，具有全面可靠的知识，可以为后续其应用提供知识支持。

Neo4j数据库为一个高性能的NOSQL(Not Only SQL，非关系型数据库)图形数据库，其属于一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，其结构化数据存储于网络上。

在一实施例中，所述步骤S104，包括：

利用基于相似性传播的知识融合策略，对所述目标结构化文本信息和所述目标实体信息进行知识融合，得到目标文本实体信息；

基于Neo4j数据库的知识存储策略，对所述目标文本实体信息进行知识存储，以构建所述电力设备缺陷知识图谱。

在本实施例中，对于知识融合：采用基于相似性传播的集体实体知识融合策略进行知识融合。在一实施例中，基于相似性传播的知识融合策略包括预先余弦相似度算法，所述相似度算法用于对所述目标结构化文本信息和所述目标实体信息中的实体进行语义匹配，所述余弦相似度算法为：

其中，Y_i表示第i个实体的向量，Y_s表示第s个实体的向量。

根据相似度传播算法，对实体对进行语义匹配。假设具有相似命名的两个相连实体之间具有较高的相似性，实体之间的相似性可以不断被传播，直至实体遍历完成或者到达设定的阈值，具体策略如下表所示。

对于知识存储：采用基于Cypher语句的知识存储策略进行知识存储。

将基于文本增强后的结构化缺陷文本(即上述目标结构化文本信息)和信息抽取后的非结构化缺陷文本(即上述目标实体信息)构建三元组，然后进行CSV文件的批量导入。利用LOAD CSV命令将构建好三元组的CSV文件进行批量导入。在进行数据导入之前，首先将CSV文件放到Neo4j文件夹下的import目录下，以便进行下一步的数据批量上传。在进行CSV文件导入时，首先在后台启动Neo4j数据库，将数据导入到数据库。在导入上述电力设备缺陷文本数据之后，结构化和非结构化缺陷文本被完整的存储到电力设备缺陷知识图谱中，缺陷数据导入速度较快，知识图谱存储完成。

对于知识更新：采用知识更新策略实现知识更新。

在产生新的缺陷文本时，首先通过基于相似性传播的集体实体融合策略将新的缺陷文本与原有知识进行融合，接着对融合后的缺陷文本进行判断，如果缺陷文本数据中存在新的实体类，则在知识图谱中创建新的实体类，反之，将知识融合后的数据加入知识图谱，完成知识更新。

示例性地，知识更新效果如图8所示。图8中，在知识更新前，配电变压器的缺陷部位包括中压套管、接地引下线、油箱/油枕、接地刀闸、架空导线和计量终端6种，在知识更新后，配电变压器的缺陷部位在原有的基础上，新增加调压开关、母线、盖板和低压套管3种。

需要说明的是，本发明的电力设备缺陷信息的处理方法，能够解决由于电力设备体量大、多源异构、信息冗余杂乱而导致的信息展示和映射较难的问题，并构建成型的电力设备缺陷知识网络，为电力设备的缺陷消除过程提供准确专业的解决方法，具有很好的应用前景。

为执行上述方法实施例对应的电力设备缺陷信息的处理方法，以实现相应的功能和技术效果。参见图9，图9示出本发明实施例提供的一种电力设备缺陷信息的处理装置的结构框图。为便于说明，仅示出与本实施例相关的部分，本发明实施例提供的电力设备缺陷信息的处理装置，包括：

获取模块901，用于获取电力设备缺陷信息，所述电力设备缺陷信息包括结构化文本信息和非结构化文本信息；

增强模块902，用于利用预设的改进BILSTM算法，对所述结构化文本信息进行文本增强，得到目标结构化文本信息；

抽取模块903，用于利用预设的改进BERT算法，对所述非结构化文本信息进行实体抽取，得到目标实体信息；

构建模块904，用于基于所述目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱。

在一实施例中，所述改进BILSTM算法包括UCNN算法和第一BILSTM算法，所述增强模块902，具体用于：

在一实施例中，所述UCNN算法的表达式为：

其中，o(u,v)为所述词语特征，

为非共享卷积核，w_i,j为

在一实施例中，所述改进BERT算法包括BERT算法、第二BILSTM算法和CRF算法，所述抽取模块903，包括：

编码单元，用于利用所述BERT算法，对所述非结构化文本信息进行编码，得到字向量和位置向量；

提取单元，用于利用所述第二BILSTM算法，根据字向量和所述位置向量，对所述非结构化文本信息进行上下文语义特征提取，得到所述非结构化文本信息的上下文语义特征；

识别单元，用于利用所述CRF算法，根据所述上下文语义特征，对所述非结构化文本信息进行命名实体识别，得到所述非结构化文本信息的实体标签；

抽取单元，用于根据所述实体标签，对所述非结构化文本信息进行实体抽取，得到所述目标实体信息。

在一实施例中，所述实体标签包括设备标签和位置标签，所述目标实体信息包括缺陷设备名称、缺陷位置名称、设备缺陷信息和缺陷处理策略，所述抽取单元，具体用于：

在一实施例中，所述构建模块904，具体用于：

在一实施例中，所述基于相似性传播的知识融合策略包括相似度算法，所述相似度算法用于对所述目标结构化文本信息和所述目标实体信息中的实体进行语义匹配，所述相似度算法为：

其中，Y_i表示第i个实体的向量，Y_s表示第s个实体的向量。

上述的电力设备缺陷信息的处理装置可实施上述方法实施例的电力设备缺陷信息的处理方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本发明实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

图10为本发明一实施例提供的计算机设备的结构示意图。如图10所示，该实施例的计算机设备100包括：至少一个处理器1000(图10中仅示出一个)处理器、存储器1001以及存储在所述存储器1001中并可在所述至少一个处理器1000上运行的计算机程序1002，所述处理器1000执行所述计算机程序1002时实现上述任意方法实施例中的步骤。

所述计算机设备100可以是智能手机、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器1000、存储器1001。本领域技术人员可以理解，图10仅仅是计算机设备100的举例，并不构成对计算机设备100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器1000可以是中央处理单元(Central Processing Unit，CPU)，该处理器1000还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器1001在一些实施例中可以是所述计算机设备100的内部存储单元，例如计算机设备100的硬盘或内存。所述存储器1001在另一些实施例中也可以是所述计算机设备100的外部存储设备，例如所述计算机设备100上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器1001还可以既包括所述计算机设备100的内部存储单元也包括外部存储设备。所述存储器1001用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。

另外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的步骤。

本发明实施例提供一种计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行时实现上述各个方法实施例中的步骤。

在本发明所提供的几个实施例中，可以理解的是，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电力设备缺陷信息的处理方法，其特征在于，包括：

获取电力设备缺陷信息，所述电力设备缺陷信息包括结构化文本信息和非结构化文本信息；

利用预设的改进BILSTM算法，对所述结构化文本信息进行文本增强，得到目标结构化文本信息；

利用预设的改进BERT算法，对所述非结构化文本信息进行实体抽取，得到目标实体信息；

基于所述目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱。

2.如权利要求1所述的电力设备缺陷信息的处理方法，其特征在于，所述改进BILSTM算法包括UCNN算法和第一BILSTM算法，所述利用预设的改进BILSTM算法，对所述结构化文本信息进行文本增强，得到目标结构化文本信息，包括：

3.如权利要求2所述的电力设备缺陷信息的处理方法，其特征在于，所述UCNN算法的表达式为：

其中，o(u，v)为所述词语特征，

为非共享卷积核，w_i，j为

中在(i，j)处的权重值，K_r×s表示预处理后的所述结构化文本信息对应的词向量集，k_u-i，v-j为K_r×s中的词向量。

4.如权利要求1所述的电力设备缺陷信息的处理方法，其特征在于，所述改进BERT算法包括BERT算法、第二BILSTM算法和CRF算法，所述利用预设的改进BERT算法，对所述非结构化文本信息进行实体抽取，得到目标实体信息，包括：

5.如权利要求4所述的电力设备缺陷信息的处理方法，其特征在于，所述实体标签包括设备标签和位置标签，所述目标实体信息包括缺陷设备名称、缺陷位置名称、设备缺陷信息和缺陷处理策略，所述根据所述实体标签，对所述非结构化文本信息进行实体抽取，得到所述目标实体信息，包括：

6.如权利要求1所述的电力设备缺陷信息的处理方法，其特征在于，所述基于所述目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱，包括：

7.如权利要求6所述的电力设备缺陷信息的处理方法，其特征在于，所述基于相似性传播的知识融合策略包括相似度算法，所述相似度算法用于对所述目标结构化文本信息和所述目标实体信息中的实体进行语义匹配，所述相似度算法为：

其中，Y_i表示第i个实体的向量，Y_s表示第s个实体的向量。

8.一种电力设备缺陷信息的处理装置，其特征在于，包括：

获取模块，用于获取电力设备缺陷信息，所述电力设备缺陷信息包括结构化文本信息和非结构化文本信息；

增强模块，用于利用预设的改进BILSTM算法，对所述结构化文本信息进行文本增强，得到目标结构化文本信息；

抽取模块，用于利用预设的改进BERT算法，对所述非结构化文本信息进行实体抽取，得到目标实体信息；

构建模块，用于基于所述目标结构化文本信息和目标实体信息，构建电力设备缺陷知识图谱。

9.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的电力设备缺陷信息的处理方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的电力设备缺陷信息的处理方法。