CN113946684A

CN113946684A - 电力基建知识图谱构建方法

Info

Publication number: CN113946684A
Application number: CN202111096719.6A
Authority: CN
Inventors: 范荣全; 赵星俨; 舒俊霖; 赵晓芳; 黄剑波; 刘俊勇; 杨昌建; 杨江平; 刘有波; 唐杨; 张智
Original assignee: Sichuan University; State Grid Sichuan Electric Power Co Ltd
Current assignee: Sichuan University; State Grid Sichuan Electric Power Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-01-18

Abstract

本发明公开了电力基建知识图谱构建方法，包括如下步骤：获取原始数据，通过数据获取模块获取文档、表格及新闻的原始数据；数据预处理，将获取得到的原始数据进行预处理，分别得到结构化数据与非结构化数据的预处理后的数据；知识抽取，对结构化数据，进行知识抽取得到三元组；对非结构化数据，首先采用BiLSTM‑CRF进行命名实体识别，将命名实体识别后的非结构化数据采用BERT模型进行实体关系抽取；将知识抽取得到的知识进行知识融合，得到实体‑关系‑实体的三元组，获得实体‑关系‑实体的三元组后，进行知识表示，形成知识图谱，并存储于Neo4j图数据库中。

Description

电力基建知识图谱构建方法

技术领域

本发明涉及电力基建与知识图谱领域，具体是电力基建知识图谱构建方法。

背景技术

现代电力网络能够迅速发展的一个重要原因即是电力基建的发展。随着电力网络规模的不断扩大，越来越多的物联网、人工智能等技术被引入电力基建中，电力基建包含大量的人机料法环信息，基建过程中的新设备、新方法也让电力基建过程变得更加复杂。在这种情况下，电力基建的业务将面临越来越大的挑战。电力基建过程中存在大量的多源异构数据，管理类别众多且繁杂，管理效率低下。

知识图谱是一种语义网，它以结构化的形式表示事物以及事物之间的关系，可以有效利用大量的结构化、半结构化和非结构化数据。知识图谱的构建包括知识抽取、知识融合与知识表示等。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱主要应用于搜索引擎；领域知识图谱主要应用于特定的领域，专业化程度更高，已在医疗、法律、金融、电商等领域有应用。

领域知识图谱构建的一个关键挑战是缺乏领域内的数据集且专业术语和概念较多。传统的基于规则或基于模板的知识抽取需要人工构建大量的规则模板，适用范围有限，难以适应复杂的需求。

因此，构建知识图谱，减少人工的精力消耗，实现自动化地从原始数据中获取知识，并以Neo4j图数据库进行可视化存储是十分有必要的。

发明内容

本发明的目的在于克服现有技术的不足，提供电力基建知识图谱构建方法，包括如下步骤：

步骤一，获取原始数据，通过数据获取模块获取文档、表格及新闻的原始数据；

步骤二，数据预处理，将获取得到的原始数据进行预处理，分别得到结构化数据与非结构化数据的预处理后的数据；

步骤三，知识抽取，对结构化数据，进行知识抽取得到三元组；对非结构化数据，首先采用BiLSTM-CRF进行命名实体识别，将命名实体识别后的非结构化数据采用BERT模型进行实体关系抽取；

步骤四，将知识抽取得到的知识进行知识融合，得到实体-关系-实体的三元组，获得实体-关系-实体的三元组后，进行知识表示，形成知识图谱，并存储于Neo4j图数据库中。

进一步的，所述的将获取得到的原始数据进行预处理，分别得到结构化数据与非结构化数据的预处理后的数据，包括如下过程，对非结构化数据，将不同格式的数据转化为Txt文本格式，并进行分词处理；对存储于传统关系型数据库中的结构化数据，把对应字段映射为知识图谱中的实体与关系。

进一步的，所述的对非结构化数据，首先采用BiLSTM-CRF进行命名实体识别，将命名实体识别后的非结构化数据采用BERT模型进行关系抽取，包括如下过程：

通过词嵌入算法将单词序列转化为向量形式，得到词向量V_word＝(v₁,v₂,v₃,…,v_n)，其中n为向量维度；将文本进行编码，然后解码获得每个词的序列标签，使用双向长短期记忆神经网络进行命名实体识别，再结合条件随机场对双向长短期记忆神经网络的输出进行约束，从样本中识别出实体。

进一步的，所述的知识融合包括共指消解，利用Word2vec算法进行共指消解，两个词的词向量分别为X_word＝(x₁,x₂,x₃,…,x_n)和Y_word＝(y₁,y₂,y₃,…,y_n)，计算余弦值

若余弦值越大则两个词相似度越高，当余弦值超过设定的阈值时，则两个词可以看作是指代的同一含义，即实现共指消解。

进一步的，所述的使用BERT模型进行实体间关系抽取，包括定义相对于主语实体的位置序列为

式中，s1和s2分别为主语实体的开始和结束位置，表示了和主语实体的相关位置；

定于宾语实体的位置序列为

将位置序列转换为位置向量，和BERT的表示向量进行拼接，然后将向量序列输入给双向长短期记忆神经网络，获取每个方向上的最后一个隐含层状态，进行关系抽取。

本发明的有益效果是：本发明基于BiLSTM-CRF结合BERT模型构建知识图谱，实现基于知识图谱的电力基建人机料法环信息管理系统，以Neo4j为存储介质的可视化系统，能够针对电力基建过程进行综合信息管理。通过Neo4j图数据库，将电力基建人机料法环相关信息通过图的形式存储起来，更有利于信息的利用。通过构建该系统，可以有利于辅助基建施工部门对基建过程进行管理，提高管理水平和管理效率。

附图说明

图1为电力基建知识图谱构建方法的流程图；

图2为利用BERT模型进行关系抽取的示意图；

图3为单个LSTM单元总体框架图；

图4为BiLSTM-CRF模型的示意图；

图5为用BiLSTM-CRF结合BERT模型的知识图谱构建方法及可视化系统示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，电力基建知识图谱构建方法，包括如下步骤：

所述的将获取得到的原始数据进行预处理，分别得到结构化数据与非结构化数据的预处理后的数据，包括如下过程，对非结构化数据，将不同格式的数据转化为Txt文本格式，并进行分词处理；对存储于传统关系型数据库中的结构化数据，把对应字段映射为知识图谱中的实体与关系。

所述的对非结构化数据，首先采用BiLSTM-CRF进行命名实体识别，将命名实体识别后的非结构化数据采用BERT模型进行关系抽取，包括如下过程：

所述的知识融合包括共指消解，利用Word2vec算法进行共指消解，两个词的词向量分别为X_word＝(x₁,x₂,x₃,…,x_n)和Y_word＝(y₁,y₂,y₃,…,y_n)，计算余弦值

所述的使用BERT模型进行实体间关系抽取，包括定义相对于主语实体的位置序列为

定于宾语实体的位置序列为

具体的，步骤1，原始数据获取，主要通过网络爬虫技术合法获取并下载各电网公司或建筑单位公开发布的文档以及电力基建过程的表格。

步骤2，对原始数据进行预处理，针对非结构化数据，需将各种格式的数据转化为Txt文本格式，并进行分词处理，以便进行下一步工作。

步骤3，针对存储于传统关系型数据库中的结构化数据，只需要把对应字段映射为知识图谱中的节点(实体)与边(关系)。

步骤4，针对占所有数据中大部分的非结构化数据，首先利用词嵌入算法将单词序列转化为向量形式，得到词向量V_word＝(v₁,v₂,v₃,…,v_n)，其中n为向量维度。

步骤5，将文本进行编码，然后解码获得每个词的序列标签。

步骤6，输入为上一步骤的序列标签，使用双向长短期记忆(BiLSTM)神经网络进行命名实体识别，再结合条件随机场(CRF)对BiLSTM的输出进行约束，从较少样本中识别出实体。BiLSTM-CRF模型如图2所示。

单个LSTM单元的总体框架如图3所示。输入为前一时刻的隐层状态h_t-1，当前时刻的输入词为X_t。由公式f_t＝σ(W_f·[h_t-1,x_t]+b_f)计算遗忘门σ的值f_t，选择要遗忘的信息；然后由公式i_t＝σ(W_i·[h_t-1,x_t]+b_i)与

计算记忆门的值i_t和临时细胞状态

由公式

计算当前时刻的细胞状态；由公式o_t＝σ(W_o[h_t-1,x_t]+b_o)与h_t＝o_t*tanh(C_t)计算输出门的值o_t和隐层状态h_t；将所有时刻的隐层状态结合起来，便得到了隐层状态序列(h₀,h₁,h₂,…,h_n-1)。

BiLSTM的具体原理为，将前向的LSTM与后向的LSTM相结合，前向LSTM得到前向隐层状态序列，后向LSTM得到后向隐层状态序列，将前向和后向隐层状态序列拼接，输出每个字的序列标签。

由于BiLSTM输出可能会出现难以避免的误差，因此加入CRF对输出序列进行约束，提高输出准确率。

步骤7，进行知识融合，包括实体消歧和共指消解。由于电力基建属于专业领域，专业名词较多，基本不存在一词对应多个含义的情况，因此不需要进行实体消歧，但需要利用Word2vec算法进行共指消解。如两个词的词向量分别为X_word＝(x₁,x₂,x₃,…,x_n)和Y_word＝(y₁,y₂,y₃,…,y_n)，计算其余弦值

若余弦值越大则两个词相似度越高。相似度高的两个词可以看作是指代的同一含义，即实现了共指消解。

步骤8，使用BERT模型进行实体间关系抽取。如图2所示，[CLS]为起始位，$与#为分隔不同实体的分隔符，即输入的结构为：[CLS]句子[分隔符]主语实体[分隔符]宾语实体[分隔符]。由H＝[h₀,h₁,…,h_n,h_n+1]表示[CLS]句子[分隔符]之间词汇经BERT得到的向量表示；H_s＝[h_s1,h_s1+1,…,h_s2]表示主语实体；H_o＝[h_o1,h_o1+1,…,h_o2]表示宾语实体；定义相对于主语实体的位置序列为

式中，s1和s2分别为主语实体的开始和结束位置，表示了和主语实体的相关位置。

同样地，定于宾语实体的位置序列为

将位置序列转换为位置向量，和BERT的表示向量进行拼接，如图2中的a所示。

然后将向量序列输入给BiLSTM，获取每个方向上的最后一个隐含层状态，进行关系抽取。

步骤9，将以上步骤得到的[实体-关系-实体]对存储于Neo4j图数据库中。2

本申请提出了一种针对结构化数据如关系型数据库中的数据，完成从结构化数据到知识图谱到映射，实现从数据库向知识图谱的转化；针对非结构化数据，主要采用深度学习的方法，对电力基建过程产生的文本和网页信息进行知识抽取，完成实体识别与关系抽取，并将知识融合后的数据以RDF文件的形式存入到Neo4j中，通过Neo4j图数据库实现知识图谱的可视化展示并可以使用Neo4j自带的Cypher查询语言进行语义查询.

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.电力基建知识图谱构建方法，其特征在于，包括如下步骤：

步骤三，对结构化数据，进行知识抽取得到实体-关系-实体的三元组；对非结构化数据，首先采用BiLSTM-CRF进行命名实体识别，将命名实体识别后的非结构化数据采用BERT模型进行实体关系抽取，将知识抽取得到的知识进行知识融合，得到实体-关系-实体的三元组。

步骤四，获得实体-关系-实体的三元组后，进行知识表示，形成知识图谱，并存储于Neo4j图数据库中。

2.根据权利要求1所述的电力基建知识图谱构建方法，其特征在于，所述的将获取得到的原始数据进行预处理，分别得到结构化数据与非结构化数据的预处理后的数据，包括如下过程，对非结构化数据，将不同格式的数据转化为Txt文本格式，并进行分词处理；对存储于传统关系型数据库中的结构化数据，把对应字段映射为知识图谱中的实体与关系。

3.根据权利要求1所述的电力基建知识图谱构建方法，其特征在于，所述的对非结构化数据，首先采用BiLSTM-CRF进行命名实体识别，将命名实体识别后的非结构化数据采用BERT模型进行关系抽取，包括如下过程：

4.根据权利要求1所述的电力基建知识图谱构建方法，其特征在于，所述的知识融合包括共指消解，利用Word2vec算法进行共指消解，两个词的词向量分别为X_word＝(x₁,x₂,x₃,…,x_n)和Y_word＝(y₁,y₂,y₃,…,y_n)，计算余弦值

5.根据权利要求1所述的电力基建知识图谱构建方法，其特征在于，所述的使用BERT模型进行实体间关系抽取，包括定义相对于主语实体的位置序列为

式中，s1和s2分别为主语实体的开始和结束位置，表示了和主语实体的相关位置；定于宾语实体的位置序列为