CN113486193A

CN113486193A - 一种基于机器学习的电网基建工程数据知识图谱构建方法

Info

Publication number: CN113486193A
Application number: CN202110841736.1A
Authority: CN
Inventors: 袁兆祥; 齐立忠; 韩文军; 孙小虎; 蒋玮; 周颖
Original assignee: State Grid Economic And Technological Research Institute Co LtdB412 State Grid Office; Southeast University
Current assignee: STATE GRID ECONOMIC AND TECHNOLOGICAL RESEARCH INSTITUTE CO. LTD.B412, STATE GRID OFFICE; Southeast University; Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-08

Abstract

本发明公开一种基于机器学习的电网基建工程数据知识图谱构建方法，利用依存关系模型和双向长短期记忆人工神经网络混合模型对电网基建工程非结构化的文本数据和半结构化的表格数据中的信息进行抽取，通过知识融合挖掘数据中文本所蕴藏的有价值的信息，进而构建基建工程数据知识图谱。该图谱将不同类型文件中的自然语言转化为语义知识库中的节点和关系，并且能够实现智能搜索以及关联信息推荐功能。

Description

一种基于机器学习的电网基建工程数据知识图谱构建方法

技术领域

本发明涉及电力大数据分析领域领域，具体的是一种知识图谱构建方法。

背景技术

电网基建工程项目具有规模大、周期长且涉及单位多等特点，因此决定了电网工程从设计、施工到验收的全流程中将产生大量来源丰富，格式复杂多样的数据。包含结构化数据，如三维几何模型逻辑模型等；半结构化数据如设备清册、甲供材料明细表等；非结构化的文本数据如设计说明书、实验报告等。从其中海量的文本型数据中可以获取与电网拓扑、资产、设备相关的信息，并可以拓展、校验运检、调度、财务等系统的数据。

然后由于这些文本数据的建立主要用于工程相关人员的阅读，绝大多数文本内容的格式和语义未经优化，不利于计算机处理和理解。据统计，基建工程里超过70％的文本信息以非结构化的形式存储，这极大地增加了应用这些数据获取信息的难度和成本。因此，亟需研究有效的信息抽取技术从而能够自动化地分析非结构化的电网基建工程自然语言文本数据，从中挖掘有价值的知识，并以结构化形式呈现给用户。

发明内容

为解决上述背景技术中提到的不足，本发明的目的在于提供一种基于机器学习的电网基建工程数据知识图谱构建方法，通过层次化地存储有价值的信息，为运检、调度、财务等业务系统的数据采集提供新的结构化数据来源。

本发明的目的可以通过以下技术方案实现：

本发明提供一种基于机器学习的电网基建工程数据知识图谱构建方法，电网基建工程数据包括非结构化文本数据和半结构化表格数据，所述非结构化文本数据为基建工程项目设计和应用过程中产生的说明书、试验报告等word、pdf文件，半结构化表格数据为设备清册等excel文件，电网基建工程数据利用自然语言处理技术进行信息抽取和融合，知识图谱构建方法具体包括以下步骤：

步骤10)获取电网基建工程原始数据，建立实体原始数据集；

步骤20)基于one-hot编码理论，对步骤10)建立的原始数据集进行数据清洗、数据集成、数据变换，生成包含one-hot向量的实体规范数据集；

步骤30)基于双向LSTM+CRF机器学习模型原理，对步骤20)建立的实体规范数据集中的数据进行命名实体识别，生成实体识别数据集。

步骤40)基于依存关系模型，对步骤30)建立的实体识别数据集进行关系、属性抽取，构建实体关系属性数据集；

步骤50)基于聚类算法，对步骤40)建立的关系属性数据集进行实体消歧和共指消解，剔除冗余、错误知识，生成实体融合数据集；

步骤60)对步骤50)生成的实体融合数据集进行实体节点编号，构建包含实体节点、实体间关系、实体属性信息的实体知识三元组；

步骤70)基于Neo4j数据集原理，将步骤60)建立的知识三元组导入Neo4j数据库，生成基建工程数据知识图谱。

具体的，步骤30)中，将编码后的one-hot向量输入双向长短时记忆模型(LongShort-Term Memory，LSTM)，完成实体上下文信息的捕捉。并采用条件随机场模型(Constant Rate Factor，CRF)进行全局优化，将此任务视为一种序列标注问题。在分词的同时可以一并完成词性标注、命名实体识别的任务。LSTM模型如下：

i_i＝σ(W_ie(w_i-1)+U_ih_i-1+V_ic_i-1+b_i) (1)，

f_i＝σ(W_fe(w_i-1)+U_fh_i-1+V_fc_i-1+b_f) (2)，

o_i＝σ(W_oe(w_i-1)+U_oh_i-1+V_oc_i-1+b_o) (3)，

h_i＝o_i⊙tanh(c_i) (7)；

其中，i_i、f_i和o_i分别表示输入门、遗忘门和输出门，c_i表示记忆单元，h_i-1和w_i-1是前一时刻的输入隐藏层表示，h_i是当前时刻的输出隐藏层表示；

CRF模型如下：

ψ_t(y',y,X)＝exp(W_y',yh_i+b_y',y) (9)；

其中，P(Y|X)为条件概率，W_y',y和b_y',y分别是参数权重和偏置。

具体的，所述步骤40)中，采用基于最大生成树(maximum spanning trees,MST)理论的依存句法分析器(MSTParser)分析句子中词与词之间的支配于被支配的关系(依存关系)从而揭示其句法结构，即通过分析句子中包含的“主谓宾”、“定状补”等语法成分，并分析各成分之间的关系。MSTParser数学模型如下：

其中，s表示分值；y是句子x的一颗依存树；(i,j)是y中的节点对；f(·)是高维二元特征函数向量；f(x_i,x_j)表示节点x_i和x_j之间的依存关系，取值为0或1；w是特征f(·)的权值向量，在确定了特征集合后由样本训练得到。本发明采用子孙和父子信息(2o-carreras)算法进行解码，从而得到打分最高的树。

具体的，步骤50)中，知识融合任务可以表示成一个四元组ED：

ED＝{M,E,K,f} (11)；

其中，E＝{e₁,e₂,…,e_T}表示所有实体概念的集合；M＝{m₁,m₂,…,m_N}是指文档集合中需要进行消歧的指称；K表示可用于实体消歧的知识源，或称背景知识；f＝M×K→E是实体消歧函数。本发明不考虑背景知识K，只使用指称所在的上下文信息，采用基于文本向量空间的聚类方法进行知识融合。在实体概念集合E未知的情况下，实体消歧函数f可以转变为对文档集合中所有指称M＝{m₁,m₂,…,m_N}进行聚类的问题。

具体的，所述步骤60)中，所构建的包含实体节点、实体间关系、实体属性信息的实体知识三元组，可生成标准csv格式的节点文件和关系文件。节点文件的每一行代表一个实体，每个实体都包括“ID”(节点编号)、“name”(实体名称)和“label”(实体标签)三种数据，同样关系文件中每一行代表的是两个实体之间的属性关系，包括“:START_ID”(起始节点编号)、“:END_ID”(结束节点编号)、“name”(关系名称)、“:TYPE”(关系类型)。

具体的，所述步骤70)中，将步骤60)抽取出的实体节点和关系边分别存储于Neo4j图数据库的neostore.nodestore.db和neostore.relationshipstore.db文件中，以RDF三元组的形式展现，最终生成基建工程数据知识图谱。

本发明的有益效果：

本发明完成了对非结构化文本数据和半结构化表格数据的挖掘，使得繁杂的工程数据得到充分分析应用。电网基建工程数据知识图谱能够满足不同用户的自动检索需求，并且作为知识共享的平台打破了部门间交互基建工程数据的壁垒，有效的支撑了上层数据应用的开展。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明中命名实体识别示意图；

图2为本发明中关系抽取示意图。

图中命名实体识别采用BIESO标注体系标注实体，词性标注结果采用863词性标注集。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的组件或元件必须具有特定的方位，以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示：给定汉字序列X＝x₀x₁…x_T,在训练好的词向量表中查找每个汉字x_i对应的词向量

其中d₁表示向量维度。LSTM由三个门和一个存储记忆单元控制，它的输入是前一时刻的隐藏层表示h_i-1和w_i-1，输出是当前时刻的隐藏层表示h_i。前向LSTM得到每个“字”对应的分布式表示

(d₂表示隐藏层神经元数目)，同理后向LSTM得到另一个分布式表示

可以捕捉e_i及左侧的上下文信息e₀…e_i-1e_i，

可以捕捉e_i及左侧的上下文信息e_ie_i+1…e_T。所以Bi-LSTM拼接

和

以期通过

捕捉以e_i为中心的全局特征。最后通过条件随机场模型进行解码，获得分词、词性标注、命名实体识别的结果。

假设句子x的依存分析结果为y，模型参数为θ，采用条件概率模型Score(x_i|y_i；θ)，训练过程即寻找使目标函数

最大的θ，其中，N为实例个数。

最大生成树依存句法分析器定义整棵句法树的打分是树中各条边打分的加权和：

其中，s表示分值；y是句子x的一颗依存树；(i,j)是y中的节点对；f(·)是高维二元特征函数向量；f(x_i,x_j)表示节点x_i和x_j之间的依存关系，取值为0或1，如一棵依存树中两个词“设计”和“图纸”存在依存关系，则：

w是特征f(·)的权值向量，在确定了特征集合后由样本训练得到。采用子孙和父子信息算法进行解码，从而得到打分最高的树。如图2所示，本句中的核心谓词是“位于”。定位到句子的核心动词之后，便可找到与此动词构成主谓关系(SBV)的主语“工程”以及构成动宾关系(VOB)的宾语“太平村”。其次，句子的其它成分间也存在支配关系。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于机器学习的电网基建工程数据知识图谱构建方法，其特征在于，电网基建工程数据包括非结构化文本数据和半结构化表格数据，所述非结构化文本数据为基建工程项目设计和应用过程中产生的说明书、试验报告等word、pdf文件，半结构化表格数据为设备清册等excel文件，电网基建工程数据利用自然语言处理技术进行信息抽取和融合，所述知识图谱构建方法具体包括以下步骤：

步骤10)获取电网基建工程原始数据，建立实体原始数据集；

2.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法，其特征在于，所述步骤30)中，将编码后的one-hot向量输入双向长短时记忆模型LSTM，完成实体上下文信息的捕捉。并采用条件随机场模型CRF进行全局优化，将此任务视为一种序列标注问题。在分词的同时可以一并完成词性标注、命名实体识别的任务；

LSTM模型如下：

i_i＝σ(W_ie(w_i-1)+U_ih_i-1+V_ic_i-1+b_i) (1)，

f_i＝σ(W_fe(w_i-1)+U_fh_i-1+V_fc_i-1+b_f) (2)，

o_i＝σ(W_oe(w_i-1)+U_oh_i-1+V_oc_i-1+b_o) (3)，

h_i＝o_i⊙tanh(c_i) (7)；

CRF模型如下：

ψ_t(y',y,X)＝exp(W_y',yh_i+b_y',y) (9)；

3.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法，其特征在于，所述步骤40)中，采用基于最大生成树MST理论的依存句法分析器MSTParser分析句子中词与词之间的支配于被支配的关系从而揭示其句法结构，即通过分析句子中包含的“主谓宾”、“定状补”等语法成分，并分析各成分之间的关系；

MSTParser数学模型如下：

其中，s表示分值；y是句子x的一颗依存树；(i,j)是y中的节点对；f(·)是高维二元特征函数向量；f(x_i,x_j)表示节点x_i和x_j之间的依存关系，取值为0或1；w是特征f(·)的权值向量，在确定了特征集合后由样本训练得到。本发明采用子孙和父子信息2o-carreras算法进行解码，从而得到打分最高的树。

4.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法，其特征在于，所述步骤50)中，知识融合任务表示成一个四元组ED：

ED＝{M,E,K,f} (11)；

其中，E＝{e₁,e₂,…,e_T}表示所有实体概念的集合；M＝{m₁,m₂,…,m_N}是指文档集合中需要进行消歧的指称；K表示可用于实体消歧的知识源，或称背景知识；f＝M×K→E是实体消歧函数；

不考虑背景知识K，只使用指称所在的上下文信息，采用基于文本向量空间的聚类方法进行知识融合；在实体概念集合E未知的情况下，实体消歧函数f可以转变为对文档集合中所有指称M＝{m₁,m₂,…,m_N}进行聚类的问题。

5.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法，其特征在于，所述步骤60)中，所构建的包含实体节点、实体间关系、实体属性信息的实体知识三元组，可生成标准csv格式的节点文件和关系文件；节点文件的每一行代表一个实体，每个实体都包括“ID”、“name”和“label”三种数据，同样关系文件中每一行代表的是两个实体之间的属性关系，包括“:START_ID”、“:END_ID”、“name”、“:TYPE”。

6.根据权利要求1所述的基于机器学习的电网基建工程数据知识图谱构建方法，其特征在于，所述步骤70)中，将步骤60)抽取出的实体节点和关系边分别存储于Neo4j图数据库的neostore.nodestore.db和neostore.relationshipstore.db文件中，以RDF三元组的形式展现，最终生成基建工程数据知识图谱。