CN117874244A

CN117874244A - 一种电力安全生产风险防控知识图谱的构建方法及系统

Info

Publication number: CN117874244A
Application number: CN202311677582.2A
Authority: CN
Inventors: 靳丹; 范雪峰; 吴兆彬; 薛鑫; 金珑; 张成杨; 周龙; 何军; 侯炎伦; 蔡健; 张少辉; 王亚峰; 张乐桢; 王妮; 陈彦发; 孙启娟; 李相�; 魏立保
Original assignee: Baiyin Power Supply Company State Grid Gansu Electric Power Co
Current assignee: Baiyin Power Supply Company State Grid Gansu Electric Power Co
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-04-12

Abstract

本发明公开了一种电力安全生产风险防控知识图谱的构建方法，包括：获取电力安全生产风险防控数据；对所述电力安全生产风险防控数据进行清洗；将清洗后的电力安全生产风险防控数据进行变换和编码，转换成适合计算机处理的向量形式；基于Bi‑LSTM‑CRF模型对向量形式的电力安全生产风险防控数据进行实体识别，获得实体识别结果；基于卷积神经网络模型，对所述实体识别结果进行关系抽取，获得分类后的最终特征向量；使用Neo4j‑import命令将节点与关系文件导入Neo4j数据库中，形成电力安全生产风险防控知识图谱。该方法可以将电力安全生产风险防控领域的数据和知识进行结构化整理，形成一个动态的、可视化的安全知识库，全面实现对安全生产的精细化管控。

Description

一种电力安全生产风险防控知识图谱的构建方法及系统

技术领域

本发明涉及电力安全生产技术领域，更具体的说是涉及一种电力安全生产风险防控知识图谱的构建方法及系统。

背景技术

知识图谱是一种结构化的、语义化的知识表示方式，它通过将现实世界中的实体、概念、关系等信息进行抽象和组织，构建起一个具有层次结构的知识网络。

随着人工智能和大数据技术的发展，知识图谱已经在各个领域广泛应用。但由于电网作业现场点多广面，存在多个作业点同时进行，作业人员分散在不同的地点，缺乏统一的过程管控手段，使得现场安全难以有效监控和控制。另外，电力安全规程及各类反违章制度繁多并且采用线下方式进行，而作业人员流动性大，自身技术水平有差异，导致大量作业人员未经过有效培训或培训效果不佳就入场从事高风险施工作业，难以有效辨识作业风险点。

目前，构建电力安全生产风险防控知识图谱的方法主要有，一是手工构建知识图谱：优点：知识的准确性、可靠性高，可控性好。缺点：需要人工投入大量的时间和精力；随着电力的逐步发展，新的电力安全风险会不断出现，电力安全生产风险防控知识图谱中信息则需要不断的更新和维护，而手动构建知识图谱难以及时更新和更新，降低知识图谱的可靠性和实用性，同时导致作业人员无法获取最新安全信息，从而增加电力安全事故发生的风险。二是基于人工智能构建知识图谱,从大量的数据中自动提取和组织知识，提高知识的获取和利用效率，但由于数据来源多样，导致数据质量不稳定，无法给作业用户提供可靠的决策依据。

因此，如何设计一种电力安全生产风险防控知识图谱的构建方法，提高电池的性能和可靠性是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种电力安全生产风险防控知识图谱的构建方法及系统，将电力安全生产风险防控领域的数据和知识进行结构化整理，形成一个动态的、可视化的安全知识库、风险防控知识库。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种电力安全生产风险防控知识图谱的构建方法，其特征在于，包括：

步骤一、获取电力安全生产风险防控数据；

步骤二、对所述电力安全生产风险防控数据进行清洗；

步骤三、将清洗后的电力安全生产风险防控数据进行变换和编码，转换成适合计算机处理的向量形式；

步骤四、基于Bi-LSTM-CRF模型对向量形式的电力安全生产风险防控数据进行实体识别，获得实体识别结果，作为节点文件；

步骤五、基于卷积神经网络模型，对所述实体识别结果进行关系抽取，获得分类后的最终特征向量，作为关系文件；

步骤六、使用Neo4j-import命令将所述节点文件与关系文件导入Neo4j数据库中，形成电力安全生产风险防控知识图谱。

优选的，所述步骤二，对所述电力安全生产风险防控数据进行清洗，包括：

将所述电力安全生产风险防控数据统一文件格式；

对统一文件格式后的文本数据进行数据清洗，去除非法字符、空格、换行符和停用词；

运用滑动窗口对长句进行拆分重组处理。

优选的，所述步骤三，将清洗后的电力安全生产风险防控数据进行变换和编码，转换成适合计算机处理的向量形式，包括：

对电力安全生产风险防控数据语句中的每个不重复的字分别进行编号，假设每个词语映射到一个d维的词向量，获得词向量矩阵L；

使用skip-gram模型对所述词向量矩阵L进行优化训练，为每个词语学习准确的词向量表示；

模型训练结束后，得到优化后的词向量矩阵L*；所述词向量矩阵L*包含所有词语的分布式向量表示。

优选的，所述步骤四，基于Bi-LSTM-CRF模型对向量形式的电力安全生产风险防控数据进行实体识别，获得实体识别结果，包括：

给定电力安全生产风险防控数据汉字序列X＝x₀，x₁...x_T，在训练好的词向量表中查找每个汉字x_i对应的词向量e_i；

基于前向LSTM得到每个“字”对应的隐藏层表示可以捕捉e(i)及左侧的上下文信息e₀…e_i-1，e_i；

基于后向LSTM得到每个“字”对应的另一个隐藏层表示可以捕捉e(i)及右侧的上下文信息e_i，e_i+1，…e_T；

对和/>进行拼接，捕捉所述词向量e(i)为中心的全局特征，得到标签序列Y＝y₀，y₁…y_T，构建P(Y|X)条件概率模型。

优选的，所述步骤四，基于Bi-LSTM-CRF模型对向量形式的电力安全生产风险防控数据进行实体识别，获得实体识别结果，还包括：

使用维特比算法对模型进行解码，得到句子结尾第T个“字”所对应的标签；

对所述句子结尾第T个“字”所对应的标签进行回溯，找到最优的标签路径；

采用BIESO标注体系标注实体，对地名和组织机构名进行表示，采用863词性标注集标注词性，获得实体识别结果。

优选的，所述步骤五，基于卷积神经网络模型，对所述实体识别结果进行关系抽取，获得分类后的最终特征向量，包括：

基于所述实体识别结果，获得句子的最终词序列及对应向量；

对所述对应向量进行卷积运算，并将卷积结果通过非线性的激活函数得到一系列特征结果值；

对所述一系列特征结果值经过池化过程进行降维操作，得到每个滤波器中的最大特征值；

将所述每个滤波器中的最大特征值合并形成最终特征向量，通过分类器对所述最终特征向量进行分类。

优选的，所述步骤六，使用Neo4j-import命令将节点与关系文件导入Neo4j数据库中，形成电力安全生产风险防控知识图谱，包括：

根据安全生产风险防控的领域知识，定义相关的节点类型和关系类型；

将从文本中识别出的实体作为节点构建节点文件，根据实体之间的关系构建关系文件；

将所述节点文件和关系文件使用Neo4j-import命令导入到Neo4j数据库中，构建电力安全生产风险防控知识图谱。

第二方面，本发明提供一种电力安全生产风险防控知识图谱的构建系统，用于实现上述电力安全生产风险防控知识图谱的构建方法。

经由上述的技术方案可知，与现有技术相比，本发明技术方案存在以下

有益效果：

1.通过对电力安全生产防控知识的整合、特征分析、精简优化、样本训练等操作，运用卷积神经网络、双向长短期记忆神经网络和条件随机场模型，实现文本的实体准确识别和抽取，并构建一个全面的、动态更新的知识图谱。

2.通过基于神经网络的电力安全生产风险防控知识图谱的构建，我们能够更好地整合、理解和管理电力安全生产风险防控知识，更准确地评估和预测电力安全生产风险，并提供相应的防控措施险，从而提高电力安全生产的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的电力安全生产风险防控知识图谱的构建方法流程图；

图2为本发明提供的词向量表示模型示意图；

图3为本发明提供的基于Bi-LSTM-CRF模型实体识别的过程示意图；

图4为本发明提供的Bi-LSTM-CRF模型运算完成后的结果示意图；

图5为本发明提供的电力安全生产风险防控知识图谱的构建系统框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1；

如图1所示，本实施例提供一种电力安全生产风险防控知识图谱的构建方法，包括：

步骤一、获取电力安全生产风险防控数据；

步骤二、对所述电力安全生产风险防控数据进行清洗；

通过通过以上方法，构建基于神经网络的电力安全生产风险防控知识图谱，可以将电力安全生产风险防控领域的数据和知识进行结构化整理，形成一个动态的、可视化的安全知识库、风险防控知识库，方便对电网安全作业人员进行进行培训和教育，提高员工的安全意识和操作技能，同时辅助用户快速查找和了解电网安全作业管理规范中的相关条款和要求，全面实现对安全生产的精细化管控。

以下分别对上述各个步骤做进一步的详细说明：

在步骤一中，电力安全生产风险防控数据包括结构化数据和非结构化数据；结构化数据包括：行业标准文件、政府文件、电网公司内部管理办法文件、电网公司内部规程文件；非结构化数据包括：实际的现场检查和调查、事故案例分析、安全巡检、员工培训记录。

这些数据可以通过传感器、监测设备、人工巡检、安全管理系统等多种方式进行收集和记录。

在步骤二中，对所述电力安全生产风险防控数据进行清洗，包括：

将所述电力安全生产风险防控数据统一文件格式；对统一文件格式后的文本数据进行数据清洗，去除非法字符、空格、换行符和停用词；运用滑动窗口对长句进行拆分重组处理。

在本实施例中，首先对获取到的数据进行清洗，删除文本数据集中换行符、空格、杂乱字符等一些无用的字符。然后针对国家电网公司安全生产反违章工作管理办法文本、2023年安全生产工作意见文本、安全职责规范文本、国家电网公司电力安全工作规程(配电部分)文本等篇章的句子进行划分，进行归类，处理好每条句子。具体如下：

1)文本数据集是由.doc,.docx,.txt,.pdf等格式文件构成，对应将其都转换为.txt文件格式。

2)将收集到的文本数据集进行数据清洗，一般的操作有去除非法字符、空格、换行符等。

3)去除停用词：在文本中频繁出现但没有实际含义的词语，如“的”、“是”、“在”等。去除停用词可以减少数据的维度，提高后续处理的效率。

4)对长句拆分重组处理，运用滑动窗口，例如一个句子中一个主语实体对应多个宾语实体，例如句子“各类钢丝绳、脚手杆(管)、脚手板、紧固件等受力工器具以及防护用具等均应存放在干燥、通风处。”对该句子进行分割、重组处理。

示例如下(a-f)所示。

a各类钢丝绳均应存放在干燥、通风处。

b各类脚手杆(管)均应存放在干燥、通风处。

c各类脚手板均应存放在干燥、通风处。

d各类紧固件均应存放在干燥、通风处。

e各类受力工器具均应存放在干燥、通风处。

f各类防护工具均应存放在干燥、通风处。

在步骤三中，将清洗后的电力安全生产风险防控数据进行变换和编码，转换成适合计算机处理的向量形式，包括：

对语句中的每个不重复的字分别进行编号，假设每个词语映射到一个d维的词向量，获得词向量矩阵L；使用skip-gram模型对所述词向量矩阵L进行优化训练，为每个词语学习准确的词向量表示；模型训练结束后，得到优化后的词向量矩阵L*；所述词向量矩阵L*包含所有词语的分布式向量表示。

在本实施例中，将文本中获得的原始数据经过变换和编码，转换成适合计算机处理的向量形式。例如“提升供电可靠性”中有6个不重复的字，分别编号0—5，则“提”字可表示为[1,0,0,0,0,0]。由此，假设每个词语映射到一个d维的词向量，那么词汇表V对应一个词向量矩阵L。

如图2所示，同时使用skip-gram模型优化词向量矩阵L，为每个词语学习准确的词向量表示。

给定任意n元组(w,C)＝w_i-c，...w_i-1，w_i，w_i+1，...w_i+c，模型直接利用中心词的词向量e(w_i)预测上下文中第t个词w_t的概率:

式中：w_i表示中心词；e(w_i)∈R^d表示w_i对应的d维词向量，可通过检索词向量矩阵L获得；C表示背景窗口大小，是词表规模。模型的目标函数是优化词向量矩阵以最大化所有上下文词的对数似然：

模型训练结束后，得到优化后的词向量矩阵L*，包含了词表V中所有词语的分布式向量表示。

在步骤四中，基于Bi-LSTM-CRF模型对向量形式的电力安全生产风险防控数据进行实体识别，获得实体识别结果，包括：

给定汉字序列X＝x₀，x₁，...x_T，在训练好的词向量表中查找每个汉字x_i对应的词向量e_i；基于前向LSTM得到每个“字”对应的隐藏层表示可以捕捉e(i)及左侧的上下文信息e₀…e_i-1，e_i；基于后向LSTM得到每个“字”对应的另一个隐藏层表示/>可以捕捉e(i)及右侧的上下文信息e_ie_i+1…e_T；对/>和/>进行拼接，捕捉所述词向量e(i)为中心的全局特征，得到标签序列Y＝y₀，y₁…y_T，构建P(Y|X)条件概率模型。

如图3所示，在本实施例中，以句子“交通道口使用软跨时，施工地段两侧应设立交通警示标志牌，控制绳索人员应注意交通安全”为例展示Bi-LSTM-CRF模型学习句子抽象表示的过程。给定汉字序列X＝x₀，x₁...x_T，在训练好的词向量表中查找每个汉字x_i对应的词向量e_i∈R^d1，其中d1表示向量维度。LSTM由3个门和1个存储记忆单元控制，它的输入是前一时刻的隐藏层表示h_i-1和前一时刻的输出w_i-1，输出是当前时刻的隐藏层表示h_i。计算方法如下：

i_i＝σ(W_ie(w_i-1)+U_ih_i-1+V_ic_i-1+b_i) (3)

f_i＝σ(W_fe(w_i-1)+U_fc_i-1+V_fc_i-1+b_f) (4)

o_i＝σ(W_oe(w_i-1)+U_oh_i-1+V_Oc_i-1+b_o) (5)

h_i＝o_i⊙tanh(c_i) (9)

式中：i_i、f_i和o_i分别表示输入门、遗忘门和输出门；c_i表示记忆单元；W_i,U_i,V_i,W_f,U_f,V_f,W_o,U₀,V₀,W_c,U_c和b_i,b_f,b_o表示线性关系的系数和偏移；σ(x)为sigmoid激活函数；⊙表示点积。

前向LSTM得到每个“字”对应的隐藏层表示(d₂表示隐藏层神经元数目)，同理后向LSTM得到另一个隐藏层表示/>

可以捕捉e(i)及左侧的上下文信息e₀…e_i-1，e_i，/>可以捕捉e(i)

及右侧的上下文信息e_i，e_i+1…e_T。所以Bi-LSTM拼接和/>以期通过捕捉以e(i)为中心的全局特征，得到标签序列Y＝y₀，y₁…y_T。通过以下公式对条件概率P(Y|X)进行建模：

式中：λ_k是参数；f_k(y_i+1，y_i，X，i)是定义在序列X的2个相邻标记位置的转移函数。

使用维特比算法对模型进行解码，得到句子结尾第T个“字”所对应的标签；对所述句子结尾第T个“字”所对应的标签进行回溯，找到最优的标签路径；采用BIESO标注体系标注实体，使用“Ns”和“Ni”分别表示地名和组织机构名，采用863词性标注集标注词性，获得实体识别结果。

在本实施例中，模型的解码使用维特比算法，维持2组变量δ_t(y)和δ_t(y)记录到t时刻为止以标签y结束的路径所对应的最大概率，/>记录δ_t(y)对应路径(t-1)时刻的标签：

δ_t(y)＝max{δ_t-1(y')P(y\y')P(x_t\y)} (12)

式中：y'＝y,y_t-1,…,y₁；P(y|y')为状态转移概率；P(x_t|y)为发射概率。

当计算到句子结尾第T个“字”时，利用上述公式可得到第T个“字”所对应的标签：

然后，利用下式进行回溯，找到最优的标签路径：

采用BIESO标注体系标注实体，“B”表示实体的开始，“E”表示实体的结束词，“I”表示实体的内部，“E”表示单个字的词，“O”表示不构成命名实体。并且使用“Ns”和“Ni”分别表示地名和组织机构名。词性标注结果采用863词性标注集。

模型运算完成后，得到的结果如图4所示。

在步骤五中，基于卷积神经网络模型，对所述实体识别结果进行关系抽取，获得分类后的最终特征向量，包括：基于所述实体识别结果，获得句子的最终词序列及对应向量；对所述对应向量进行卷积运算，并将卷积结果通过非线性的激活函数得到一系列特征结果值；对所述一系列特征结果值经过池化过程进行降维操作，得到每个滤波器中的最大特征值；将所述每个滤波器中的最大特征值合并形成最终特征向量，通过分类器对所述最终特征向量进行分类。

基于第四步骤已识别出的实体和上下文的文本通过查询词向量矩阵L*对应的向量表示，最终句子的词序列变为:

x＝(x₁,x₂,…,x_n,x_n+1,x_n+2,x_n+3) (16)

对应的向量

v＝(v₁,v₂,…,v_n+3) (17)

其中，v_i为列向量，维度为词向量的维度与位置向量的维度之和.

下面进行卷积过程相当于矩阵的一个滑动窗口，卷积核类似于滤波器。在卷积运算过程中可以将滤波器看作一个权值矩阵，

w＝(w₁,w₂,…,w_l) (18)

w_i为列向量，维度等于词向量和位置向量的维度之和，l为滤波器的尺寸。将上述过程中得到的句子向量进行卷积运算，并将卷积结果通过非线性的激活函数得到一系列结果值:

s＝(s₁,s₂,…,s_n-l+4) (19)

其中b为偏置量，h(·)为非线性的sigmoid函数。

池化过程主要是针对卷积过程中得到的特征进行降维操作，形成最终特征。通常采取最大池化策略，即从卷积层中每个滤波器中得到的一系列特征值中选取得分最高的一个特征作为池化层的保留值，即

f＝maxs＝max{s₁,s₂,…,s_n-l+4} (21)

其余的特征全部舍弃。然后将各个滤波器中的最大特征值合并形成最终的特征向量并进入分类器进行分类。

在步骤六中，使用Neo4j-import命令将节点与关系文件导入Neo4j数据库中，形成电力安全生产风险防控知识图谱，包括：

导入完成后，通过Neo4j数据库的图数据库模型，查询和探索电力安全生产风险防控知识图谱，了解实体之间的关系、属性以及其它相关信息，完成风险预警和决策制定。

实施例2；

本实施例提供一种电力安全生产风险防控知识图谱的构建系统，用于上述电力安全生产风险防控知识图谱的构建方法。

如图5所示，包括：数据获取模块、数据清洗模块、数据预处理模块、实体识别模块、关系抽取模块和知识存储模块。

所述数据获取模块与数据清洗模块连接，用于获取电力安全生产风险防控数据，并将数据传输给数据清洗模块进行后续处理；

所述数据清洗模块与数据预处理模块连接，用于对所述电力安全生产风险防控数据进行清洗，将清洗后的数据传输给数据预处理模块进行后续处理；

所述数据预处理模块与实体识别模块连接，用于将清洗后的电力安全生产风险防控数据进行变换和编码，转换成适合计算机处理的向量形式；

所述实体识别模块与关系抽取模块连接，用于基于Bi-LSTM-CRF模型对向量形式的电力安全生产风险防控数据进行实体识别，获得实体识别结果；

所述关系抽取模块与知识存储模块连接，用于基于卷积神经网络模型，对所述实体识别结果进行关系抽取，获得分类后的最终特征向量；

所述知识存储模块，该模块与其他模块之间主要通过文件传输进行数据交互，用于使用Neo4j-import命令将节点与关系文件导入Neo4j数据库中，形成电力安全生产风险防控知识图谱。

基于上述实施例中电力安全生产风险防控知识图谱的构建方法及系统，构建基于神经网络的电力安全生产风险防控知识图谱，可以将电力安全生产风险防控领域的数据和知识进行结构化整理，形成一个动态的、可视化的安全知识库、风险防控知识库，方便对电网安全作业人员进行进行培训和教育，提高员工的安全意识和操作技能，同时辅助用户快速查找和了解电网安全作业管理规范中的相关条款和要求，全面实现对安全生产的精细化管控。

通过对电力安全生产防控知识的整合、特征分析、精简优化、样本训练等操作，运用卷积神经网络、双向长短期记忆神经网络和条件随机场模型，实现文本的实体准确识别和抽取，并构建一个全面的、动态更新的知识图谱。

通过基于神经网络的电力安全生产风险防控知识图谱的构建，能够更好地整合、理解和管理电力安全生产风险防控知识，更准确地评估和预测电力安全生产风险，并提供相应的防控措施险，从而提高电力安全生产的效率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种电力安全生产风险防控知识图谱的构建方法，其特征在于，包括：

步骤一、获取电力安全生产风险防控数据；

步骤二、对所述电力安全生产风险防控数据进行清洗；

2.根据权利要求1所述的一种电力安全生产风险防控知识图谱的构建方法，其特征在于，所述步骤二，对所述电力安全生产风险防控数据进行清洗，包括：

将所述电力安全生产风险防控数据统一文件格式；

运用滑动窗口对长句进行拆分重组处理。

3.根据权利要求1所述的一种电力安全生产风险防控知识图谱的构建方法，其特征在于，所述步骤三，将清洗后的电力安全生产风险防控数据进行变换和编码，转换成适合计算机处理的向量形式，包括：

4.根据权利要求1所述的一种电力安全生产风险防控知识图谱的构建方法，其特征在于，所述步骤四，基于Bi-LSTM-CRF模型对向量形式的电力安全生产风险防控数据进行实体识别，获得实体识别结果，包括：

给定电力安全生产风险防控数据汉字序列X＝x₀，x₁...x_T，在训练好的词向量表中查找每个汉字x_i对应的词向量e_j；

5.根据权利要求1所述的一种电力安全生产风险防控知识图谱的构建方法，其特征在于，所述步骤四，基于Bi-LSTM-CRF模型对向量形式的电力安全生产风险防控数据进行实体识别，获得实体识别结果，还包括：

6.根据权利要求1所述的一种电力安全生产风险防控知识图谱的构建方法，其特征在于，所述步骤五，基于卷积神经网络模型，对所述实体识别结果进行关系抽取，获得分类后的最终特征向量，包括：

7.根据权利要求1所述的一种电力安全生产风险防控知识图谱的构建方法，其特征在于，所述步骤六，使用Neo4j-import命令将节点与关系文件导入Neo4j数据库中，形成电力安全生产风险防控知识图谱，包括：

8.一种电力安全生产风险防控知识图谱的构建系统，用于实现如权利1-7任一项所述的电力安全生产风险防控知识图谱的构建方法。