CN114139709A - 基于图神经网络的电力专业知识图谱自动补全方法 - Google Patents

基于图神经网络的电力专业知识图谱自动补全方法 Download PDF

Info

Publication number
CN114139709A
CN114139709A CN202111462812.4A CN202111462812A CN114139709A CN 114139709 A CN114139709 A CN 114139709A CN 202111462812 A CN202111462812 A CN 202111462812A CN 114139709 A CN114139709 A CN 114139709A
Authority
CN
China
Prior art keywords
triple
graph
entity
neural network
electric power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111462812.4A
Other languages
English (en)
Inventor
陈文刚
宰洪涛
何龙
张轲
马伟天
何洪英
方杰
罗滇生
奚瑞瑶
尹希浩
符芳育
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jincheng Power Supply Co of State Grid Shanxi Electric Power Co Ltd
Original Assignee
Jincheng Power Supply Co of State Grid Shanxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jincheng Power Supply Co of State Grid Shanxi Electric Power Co Ltd filed Critical Jincheng Power Supply Co of State Grid Shanxi Electric Power Co Ltd
Priority to CN202111462812.4A priority Critical patent/CN114139709A/zh
Publication of CN114139709A publication Critical patent/CN114139709A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及人工智能及电力领域。公开了一种基于图神经网络的电力专业知识图谱自动补全方法,采用图神经网络对图外实体进行表征,将图外实体纳入电力专业人工知识图谱框架中,实现了对人工建立的电力专业知识图谱进行自动补全;丰富了电力专业人工知识图谱内容,还能避免对图外实体重新训练,减轻机器设备运算负担,降低学习成本,通过TransE算法学习现有的知识特征,挖掘知识实体间的隐藏关系,实现了电力专业人工知识图谱根据外界接收信息执行自动补全的功能。补全后的电力专业人工知识图谱信息更加充实、全面,使电力设备运维相关知识的智能查询和关联搜索结果更加完善,为电力设备运维管理人员提供更加全面的参考意见。

Description

基于图神经网络的电力专业知识图谱自动补全方法
技术领域
本发明涉及深度学习技术领域,具体涉及基于图神经网络的电力专业知识图谱自动补全方法。
背景技术
电力设备是在电力系统中承担电能传输与变换作用的设备,特点是价格昂贵、结构复杂。为了保证电力系统的正常稳定运行,需要对电力设备进行日常运维管理,运维管理的内容主要包括设备的在线监测、状态评估以及故障预判及维护;运维管理所需要的知识庞杂,故需要依托大量专业理论和专家经验,故对运维人员的专业素养有较高的要求;为了减少运维人员对于电力设备日常运维过程中得到的评估和判断结果的主观性,提升运维能力,需要构建电力专业知识图谱。
知识图谱是一种知识表示方法,在本质上是一个结构化语义知识库,它以三元组(即头实体h,关系r和尾实体t)的形式对客观世界中的实体及其相互关系进行建模,这些三元组通过共有的实体或属性相互连接,构成网状的知识结构。电力专业知识图谱能够实现电力设备运维相关的知识存储、智能搜索、辅助决策等功能。
目前,电力专业知识图片多为人工建立;但是人工建立的电力专业知识图谱仅包含现有的理论和经验信息,知识结构较为简单,内容不够丰富,知识实体之间关系挖掘不够充分。故急需一种对人工建立的电力专业知识图谱进行自动补全的方案。
发明内容
本发明的主要目的是提供一种基于图神经网络的电力专业知识图谱自动补全方法,旨在解决目前急需一种对人工建立的电力专业知识图谱进行自动补全的方案的问题。
本发明提出的技术方案为:
一种基于图神经网络的电力专业知识图谱自动补全方法,包括:
构建样本中心模块,以用于获取电力专业人工知识图谱,并提取电力专业人工知识图谱对应的三元组信息,其中,所述三元组信息包括首实体、关系和尾实体;
构建图嵌入模块,以用于将所述样本中心模块获取的首实体、关系和尾实体分别用同等维度的特征向量表示;
构建图神经网络模块,以用于根据电力专业人工知识图谱上的相对位置关系,将每个三元组的实体向量用其相邻区域的实体向量进行更新表示,以具有对图外实体的表征能力;
构建计分模块,以用于根据所述样本中心模块提取的三元组信息对三元组更新后的特征向量进行分数计算,以得到三元组对应的得分;
构建三元组识别模块,以用于根据设定的阈值和三元组的得分以识别三元组是否为合格的电力专业知识三元组;
基于样本中心模块、图嵌入模块、图神经网络模块、计分模块和三元组识别模块,构建基于图神经网络的电力专业三元组识别模型;
将外界三元组输入所述识别模型,以对电力专业人工知识图谱进行展开补全。
优选的,所述将外界三元组输入完成优化后的所述识别模型,以对电力专业人工知识图谱进行展开补全,之前还包括:
通过所述样本中心模块基于所述电力专业人工知识图谱对应的三元组信息构造电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集;
基于所述训练集对所述识别模型进行训练;
基于所述验证集对完成训练的所述识别模型进行验证,以对所述识别模型进行优化。
优选的,所述构建图嵌入模块,以用于将所述样本中心模块获取的首实体、关系和尾实体分别用同等维度的特征向量表示,包括:
通过图嵌入模块将三元组中字符转化为向量,公式如下:
Figure BDA0003389246640000031
其中,a表示三元组的首实体,b表示三元组的尾实体,r表示三元组中关系,即(a,r,b)表示三元组信息,fGE()为图嵌入转化函数,s为图嵌入后由首实体的向量表示、关系的向量表示和尾实体的向量表示组成的三元组,S是由s组成的集合;a为首实体的向量表示,A为首实体的向量表示的集合;b为尾实体的向量表示,B为尾实体的向量表示的集合;r为关系的向量表示,R为关系的向量表示的集合。
优选的,所述构建所述图神经网络模块,以用于根据电力专业人工知识图谱上的相对位置关系,将每个三元组的实体向量用其相邻区域的实体向量进行更新表示,包括:
将三元组的首实体设为图神经网络模块的首节点,将三元组的尾实体设为图神经网络模块的尾节点,将三元组首实体的向量表示以及三元组尾实体的向量表示设为图神经网络模块的节点特征,并将三元组的关系设为图神经网络模块的边;
对于图神经网络模块中任意节点,将节点邻域的所有节点特征,通过转换函数进行特征变换,其中,变换公式如下:
Figure BDA0003389246640000032
其中,Ha为节点e的首邻域节点a经过变换后的特征信息,Hb为节点e的尾邻域节点b经过变换后的特征信息;
Figure BDA0003389246640000033
为图神经网络模块用于首节点特征变换的参数矩阵,
Figure BDA0003389246640000034
为图神经网络模块用于尾节点特征变换的参数矩阵,矩阵初始值随机设置;
将节点e的首尾邻域节点变换后的特征信息汇总作为节点e更新后的特征信息;
将经过图神经网络模块更新后的三元组向量表示为(va,r,vb),且有(va,r,vb)∈SG,其中,va为经图神经网络模块更新后的三元组首实体特征,vb为经图神经网络模块更新后的三元组尾实体特征,三元组关系特征r在图神经网络中未被更新。
优选的,所述构建计分模块,以用于根据所述样本中心模块提取的三元组信息对三元组更新后的特征向量进行分数计算,以得到三元组对应的得分,包括:
通过所述计分模块根据TransE算法设计得分函数,其中,得分函数的计算公式如下:
fscore(a,r,b)=‖va+r-vb‖,
其中,fscore(a,r,b)为所述得分函数,||.||为向量范数运算符号,可选择1-范数、2-范数、…、p-范数来计算得分;当向量范数运算符号以p-范数计算得分时,若三元组向量(va,r,vb)为d维向量,且va+r-vb=(x1,x2,…,xd)则得分函数的计算公式如下:
Figure BDA0003389246640000041
优选的,所述通过所述样本中心模块基于所述电力专业人工知识图谱对应的三元组信息构造电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集,包括:
将电力专业人工知识图谱中的三元组标记为黄金三元组;
基于所述黄金三元组抽取电力专业正三元组;
基于所述三元组信息构建电力专业负三元组;
基于所述正三元组和所述负三元组构建电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集。
优选的,所述基于所述三元组信息构建电力专业负三元组,包括:
从人工电力专业知识图谱中抽取任意正三元组;
对抽取的正三元组中的首实体或尾实体进行替换,并判断替换后的三元组是否符合电力规则,以构造与正三元组一一对应的负三元组,其中,所述负三元组即是不符合电力规则的三元组;
所述基于所述正三元组和所述负三元组构建电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集,包括:
设定黄金三元组集合的元素个数为ngold,将每个正三元组和其对应的负三元组合并构成正负三元组备选样本,以得到所述ngold个正负三元组备选样本,将所有的正负三元组备选样本组成集合以形成正负三元组备选样本集;
将备选样本集中的各样本顺序打乱,并按照预设比例划分为训练集Strain和验证集Svalid
优选的,所述基于所述训练集对所述识别模型进行训练,包括:
对所述识别模型进行多次训练,训练内容为:通过所述样本中心模块将训练集输入所述计分模块,并进行损失计算,然后通过优化器对所述识别模型的网络参数及图嵌入向量进行修正,其中,损失函数公式如下:
Figure BDA0003389246640000051
其中,floss()为损失函数,spair为训练集正负三元组样本,k为样本中正三元组(a,r,b)与负三元组(a*,r,b*)之间的理想距离,a*为与正三元组对应的负三元组的首实体,b*为与正三元组对应的负三元组的尾实体;
设置优化器,采用反向传播算法调节模型参数,以最小化训练集样本损失值总和
Figure BDA0003389246640000052
为优化目标,设实体和关系向量维度为d,迭代更新模型中的待修正参数为
Figure BDA0003389246640000053
Figure BDA0003389246640000054
经过ntrain次迭代训练后,以得到完成训练的所述识别模型。
优选的,所述基于所述验证集对完成训练的所述识别模型进行验证,以对所述识别模型进行优化,包括:
通过所述样本中心模块将验证集输入已完成训练的所述识别型的所述计分模块,并计算三元组识别准确率;
根据所述识别准确率,调整三元组识别模块的阈值,当所述识别准确率取到最大值时,确定此时的阈值为所述识别模型的所述三元组识别模块的阈值的最终优选取值。
优选的,所述将外界三元组输入完成优化后的所述识别模型,以对电力专业人工知识图谱进行展开补全,包括:
将满足第三条件的外界三元组标记为第一三元组,其中,所述第三条件为:外界三元组不属于黄金三元组集合,且外界三元组中的首实体与黄金三元组集合中某一首实体相同,且外界三元组中的尾实体与黄金三元组集合中某一尾实体相同,且外界三元组中的关系与黄金三元组集合中某一关系相同;
将第一三元组输入至所述识别模型的计分模块,调取首实体及尾实体的图神经网络特征向量及关系向量,以及尾实体的图神经网络特征向量及关系向量,经过得分函数计算得分;
通过所述三元组识别模块根据得分进行正负三元组识别,若识别结果为合格的电力专业知识三元组,则将对应的第一三元组纳入所述人工知识图谱,以实现图谱补全;若识别结果为不合格的电力专业知识三元组,则舍弃对应的第一三元组,不对电力专业人工知识图谱做补全;
将满足第四条件的外界三元组标记为第二三元组,其中,第四条件为:外界三元组不属于黄金三元组集合,且若外界三元组中的首实体与黄金三元组集合中某一首实体相同,则外界三元组中的尾实体与黄金三元组集合中任意尾实体都不相同,或若外界三元组中的首实体与黄金三元组集合中任意首实体都不相同,则外界三元组中的尾实体与黄金三元组集合中某一尾实体相同,且外界三元组中的关系与黄金三元组集合中某一关系相同;
将所有的第二三元组和电力专业人工知识图谱中所有三元组构成新的三元组集合;
将新的三元组集合输入至所述识别模型的图嵌入模块,并将新的三元组集合中各三元组中的图外实体的图嵌入向量设为零向量;
将第二三元组中的图外实体通过图神经网络节点更新算法获得的特征向量,与第二三元组中的图内实体及关系的特征向量输入计分模块,以通过所述得分函数得到得分;
通过三元组识别模块根据得分输出识别结果,若识别结果为合格的电力专业知识三元组,则在电力专业人工知识图谱原有的实体上增添关系,以及图外实体,以实现电力专业人工知识图谱补全;若识别结果为不合格的电力专业知识三元组,舍弃对应的第二三元组,不对电力专业人工知识图谱做补全;
当外界三元组既不满足第三条件,也不满足第四条件时,舍弃所述外界三元组。
通过上述技术方案,能实现以下有益效果:
本发明提出的基于图神经网络的电力专业知识图谱自动补全方法,在对电力专业人工知识图谱进行补全的方案中考虑了针对图外实体的知识图谱补全,采用图神经网络对图外实体进行表征,从而将图外实体纳入电力专业人工知识图谱框架中,从而实现对人工建立的电力专业知识图谱进行自动补全;丰富了电力专业人工知识图谱内容,还能避免对图外实体重新训练,减轻机器设备运算负担,降低学习成本,通过计分模块学习现有的知识特征,挖掘知识实体间的隐藏关系,实现电力专业人工知识图谱根据外界接收信息执行自动补全功能。补全后的电力专业人工知识图谱信息更加充实、全面,可以使电力设备运维相关知识的智能查询和关联搜索结果更加完善,为电力设备运维管理人员提供更加全面的参考意见。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法第一实施例的流程图;
图2为本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法第一实施例中基于图神经网络的电力专业三元组识别模型的结构示意图;
图3为本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法对人工电力专业知识图谱的信息补全效果(部分)。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提出一种基于图神经网络的电力专业知识图谱自动补全方法。
如附图1所示,在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第一实施例中,本实施例包括如下步骤:
步骤S110:构建样本中心模块,以用于获取电力专业人工知识图谱,并提取电力专业人工知识图谱对应的三元组信息,其中,所述三元组信息包括首实体、关系和尾实体。
具体的,如附图2所示,这里的样本中心模块又分为图内样本处理部分和图外样本处理部分。样本中心模块负责收集外界输入的三元组,和电力专业人工知识图谱中所有三元组,样本中心模块再根据不同情况将对三元组进行处理,具体内容见后续步骤作详细介绍。
步骤S120:构建图嵌入模块,以用于将所述样本中心模块获取的首实体a、关系r和尾实体b分别用同等维度的特征向量表示。
步骤S130:构建图神经网络模块,以用于根据电力专业人工知识图谱上的相对位置关系,将每个三元组的实体向量用其相邻区域的实体向量进行更新表示,以使所述识别模型具有对图外实体的表征能力。
具体的,这里的图外实体即是外界输入的三元组中与黄金三元组集合中任意实体都不相同的实体。
步骤S140:构建计分模块,以用于根据所述样本中心模块提取的三元组信息对三元组更新后的特征向量进行分数计算,以得到三元组对应的得分。
具体的,这里的计分模块主要包括以TransE算法设计的得分函数。
步骤S150:构建三元组识别模块,以用于根据设定的阈值和三元组的得分以识别三元组是否为合格的电力专业知识三元组。
步骤S160:基于样本中心模块、图嵌入模块、图神经网络模块、计分模块和三元组识别模块,构建基于图神经网络的电力专业三元组识别模型(以下简称为识别模型)。
步骤S170:将外界三元组输入所述识别模型,以对电力专业人工知识图谱进行展开补全。
具体的,这里的展开补全步骤主要包括外界知识筛选分类、图谱外知识补全和图谱内知识补全。这里的外界三元组中的实体即为图外实体。
本发明提出的基于图神经网络的电力专业知识图谱自动补全方法,在对电力专业人工知识图谱进行补全的方案中考虑了针对图外实体的知识图谱补全,采用图神经网络对图外实体进行表征,从而将图外实体纳入电力专业人工知识图谱框架中,从而实现对人工建立的电力专业知识图谱进行自动补全;丰富了电力专业人工知识图谱内容,还能避免对图外实体重新训练,减轻机器设备运算负担,降低学习成本,通过计分模块学习现有的知识特征,挖掘知识实体间的隐藏关系,实现电力专业人工知识图谱根据外界接收信息执行自动补全功能。补全后的电力专业人工知识图谱信息更加充实、全面,可以使对电力设备运维相关知识的智能查询和关联搜索结果更加完善,为电力设备运维管理人员提供更加全面的参考意见。
此外,本方法考虑了外界三元组存在混乱、无序、种类多样、与图谱内知识重复率高的情况,设计了外界三元组知识筛选分类原则,避免外界多类三元组混杂,难以处理的问题,提升了电力专业知识图谱的补全效率;考虑了人工方法得到的电力专业知识图谱的欠完备性,采用机器学习方法对人工电力专业知识图谱进行补全;考虑了图外实体难以表征导致含有图外实体的三元组难以通过机器学习方法识别的问题,利用基于图神经网络的电力专业三元组识别模型,实现了对带图外实体三元组的识别和补全,扩大了知识图谱的补全范围,提升了电力专业知识图谱的完备性。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第二实施例中,基于第一实施例,步骤S170,之前还包括如下步骤:
步骤S210:通过所述样本中心模块基于所述电力专业人工知识图谱对应的三元组信息构造电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集。
步骤S220:基于所述训练集对所述识别模型进行训练。
步骤S230:基于所述验证集对完成训练的所述识别模型进行验证,以对所述识别模型进行优化。
具体的,训练和验证的目的是对识别模型进行优化。即使识别模型学习到电力专业人工三元组的特征,从而提高对电力专业三元组的识别能力,以便于后续对电力专业人工知识图谱进行补全。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第三实施例中,基于第一实施例,步骤S120,包括如下步骤:
步骤S310:通过图嵌入模块将三元组中字符转化为向量,以数学语言的形式便于神经网络对电力专业领域三元组特征的学习和提取,具体的转换公式如下:
Figure BDA0003389246640000101
其中,a表示三元组的首实体,b表示三元组的尾实体,r表示三元组中关系,即(a,r,b)表示三元组信息,fGE()为图嵌入转化函数,s为图嵌入后由首实体的向量表示、关系的向量表示和尾实体的向量表示组成的三元组,S是由s组成的集合;a为首实体的向量表示,A为首实体的向量表示的集合;b为尾实体的向量表示,B为尾实体的向量表示的集合;r为关系的向量表示,R为关系的向量表示的集合。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第四实施例中,基于第一实施例,步骤S130,包括如下步骤:
步骤S410:将三元组的首实体设为图神经网络模块的首节点,将三元组的尾实体设为图神经网络模块的尾节点,将三元组首实体的向量表示以及三元组尾实体的向量表示设为图神经网络模块的节点特征,并将三元组的关系设为图神经网络模块的边。
步骤S420:对于图神经网络模块中任意节点,将节点e邻域的所有节点特征(包括节点e的首邻域特征集合和尾邻域特征集合),通过转换函数进行特征变换,其中,节点e的变换公式如下:
Figure BDA0003389246640000102
其中,Ha为节点e的首邻域节点a经过变换后的特征信息,Hb为节点e的尾邻域节点b经过变换后的特征信息;
Figure BDA0003389246640000103
为图神经网络模块用于首节点特征变换的参数矩阵,
Figure BDA0003389246640000104
为图神经网络模块用于尾节点特征变换的参数矩阵,矩阵初始值随机设置,在训练过程中通过优化器进行更改,使图神经网络模块具备特征提取能力;ftrans()为图神经网络转换函数,该函数可采用双曲正切函数、sigmoid函数、线性整流函数中任一中,也可通过机器学习方法如卷积神经网络、长短时记忆网络等实现该函数效果。
步骤S430:将节点e的首尾邻域节点变换后的特征信息汇总作为节点e更新后的特征信息。
步骤S440:将经过图神经网络模块更新后的三元组向量表示为(va,r,vb),且有(va,r,vb)∈SG,其中,va为经图神经网络模块更新后的三元组首实体特征,vb为经图神经网络模块更新后的三元组尾实体特征,三元组关系特征r在图神经网络中未被更新。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第五实施例中,基于第四实施例,步骤S430,包括如下步骤:
步骤S510:将节点e的首邻域变换后的节点特征信息集合标记为Ca,且Ca={Ha|(a,r,e)∈S},将节点e的尾邻域变换后的节点特征信息集合记为Cb,且Cb={Hb|(e,r,b)∈S}。
步骤S520:通过聚合函数fsum()对Ca和Cb中的全体特征信息映射为节点e的特征向量ve,从而完成对节点e信息的更新,其中,节点e的信息汇聚公式如下:
ve=fsum(Ca∪Cb),
其中,聚合函数fsum()有多种实现方式,如求和函数、取平均函数、取最大值函数等,本处以取平均函数为例,则节点e信息汇聚公式如下:
Figure BDA0003389246640000111
式中,ne为节点e的邻域总节点数。
步骤S530:令图神经网络转换函数ftrans()为双曲正切函数,即用tanh()表示,则可将图神经网络模块的节点信息更新过程表示为:
Figure BDA0003389246640000112
其中,对图神经网络节点e的特征信息更新过程中没有涉及节点e自身的特征信息e,所以当输入数据中出现含有一个新知识实体的三元组时,可用其邻域特征信息对该新知识实体进行表征。
具体的,对图神经网络模块中所有节点按照上述两个阶段进行信息更新,则完成了对所有知识实体的特征信息更新。经过图神经网络更新后的三元组向量表示为(va,r,vb)∈SG,其中,va为经图神经网络更新后的三元组首实体特征,vb为经图神经网络更新后的三元组尾实体特征,三元组关系特征r在图神经网络中未被更新。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第六实施例中,基于第二实施例,步骤S140,包括如下步骤:
步骤S610:通过所述计分模块根据TransE算法设计得分函数。
具体的,TransE计分模块的作用是依据样本中心模块提供的三元组信息(a,r,b)对三元组更新后的特征向量(va,r,vb)进行分数计算,为训练过程的损失计算和对三元组的分类判别提供依据。
得分函数的基本原理是计算(首实体向量va+关系向量r)和尾实体向量vb之间的距离,当首尾实体和关系能构成符合电力专业知识逻辑的三元组(即为合格的电力专业知识三元组),即“正三元组”时,算得的距离值(即得分)较小;当首尾实体和关系组成的三元组不符合电力专业知识逻辑的三元组(即不合格的电力专业知识三元组),即“负三元组”时,算得的距离值(即得分)较大。
其中,得分函数fscore(a,r,b)的计算公式如下:
fscore(a,r,b)=‖va+r-vb‖,
其中,fscore(a,r,b)为所述得分函数,||.||为向量范数运算符号,可选择1-范数、2-范数、…、p-范数来计算得分;当向量范数运算符号以p-范数计算得分时,若三元组向量(va,r,vb)为d维向量,且va+r-vb=(x1,x2,…,xd)则得分函数的计算公式如下:
Figure BDA0003389246640000121
其中,xi(i=1,2,…,d)为(首实体向量va+关系向量r)与尾实体向量vb作差之后得到的向量的第i维度值。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第七实施例中,基于第六实施例,步骤S150,包括如下步骤:
步骤S710:获取阈值TH。
步骤S720:根据得分函数获取三元组的得分fscore(a,r,b)。
步骤S730:当得分fscore(a,r,b)小于阈值TH时,则所述三元组识别模块判断对应的三元组为合格的电力专业知识三元组,即该三元组为正三元组,用“+”表示。
步骤S740:当所述得分fscore(a,r,b)大于或等于阈值TH时,则所述三元组识别模块判断对应的三元组为不合格的电力专业知识三元组,即该三元组为负三元组,用“-”表示。
具体的,用输出函数fout(a,r,b)表示对三元组(a,r,b)识别过程为:
Figure BDA0003389246640000131
具体的,识别模型采用图嵌入算法,以便于识别模型对电力专业三元组的特征学习和提取,引入图神经网络模块实现对人工图谱内外实体进行表征,将图外实体纳入原有知识图谱框架中,从而丰富了知识图谱内容,通过TransE模块挖掘知识实体间的隐藏关系,挖掘出更多的潜在知识信息,实现电力专业知识图谱自动补全。通过构建样本中心模块、图嵌入模块、图神经网络模块、TransE计分模块、三元组识别模块,电力专业三元组识别模型得以初步建立。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第八实施例中,基于第二实施例,第二实施例初步搭建了的电力专业三元组识别模型,识别模型中图嵌入模块的首尾实体向量表示a和b、关系向量表示r,图神经网络模块的参数矩阵
Figure BDA0003389246640000132
以及三元组识别模块的阈值参数TH均为随机赋值,因此识别模型正负三元组计算得分区分不明显,对三元组识别准确率不高,不具备对电力专业知识图谱自动补全能力。所以需要构造电力专业样本数据从而对电力专业三元组识别模型参数进行优化。
需要构造的电力专业样本数据包括训练集样本数据和验证集样本数据。其中,训练集样本数据用于对模型中a、b、r、
Figure BDA0003389246640000133
的优化,验证集样本数据用于确定三元组识别模块的阈值参数TH的最优取值。
训练集和验证集样本数据的构造依托由专业理论和专家经验搭建的人工电力专业知识图谱,在模型的样本中心内完成。
步骤S210,包括如下步骤:
步骤S810:将电力专业人工知识图谱中的三元组标记为黄金三元组。
步骤S820:基于所述黄金三元组抽取电力专业正三元组。
具体的,因电力专业人工知识图谱中的三元组被标记为“黄金三元组”;由所有黄金三元组组成的集合记为Sgold,Sgold中所有首实体集合记为Agold,所有尾实体集合记为Bgold;则Sgold中的三元组均为电力专业正三元组,而由电力专业正三元组组成的集合即为电力专业正三元组备选样本集。
步骤S830:基于所述三元组信息构建电力专业负三元组。
步骤S840:基于所述正三元组和所述负三元组构建电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第九实施例中,基于第八实施例,步骤S830,包括如下步骤:
步骤S910:从人工电力专业知识图谱中抽取任意正三元组;记为spos=(a,r,b),
步骤S920:对抽取的正三元组中的首实体或尾实体进行替换,并判断替换后的三元组是否符合电力规则,以构造与正三元组一一对应的负三元组,其中,所述负三元组即是不符合电力规则的三元组(即不合格的电力专业知识三元组),且负三元组记为sneg=(a*,r,b*),且满足a*=a、b*≠b,或a*≠a、b*=b,构造过程遵循如下规则:
第一、对抽取的正三元组中的首实体或尾实体进行替换时,仅对抽取的正三元组spos中的首实体或尾实体进行替换,禁止同时替换首实体和尾实体,避免可能构造出符合电力专业知识逻辑的潜在正三元组。
第二、将黄金三元组Sgold中与抽取的正三元组中的首实体a存在关系的实体的数量标记为na,将黄金三元组Sgold中与抽取的正三元组中的尾实体b存在关系的实体的数量标记为nb
当na大于nb时,则认定与首实体a相关的电力专业知识信息相较于尾实体b相关的电力专业知识信息发掘更多,因此以a为首实体更容易构造负三元组,应保留抽取的正三元组的首实体a且替换尾实体b以构造负三元组sneg=(a*,r,b*),且满足a*=a且b*≠b。
当na小于nb时,则保留抽取的正三元组的尾实体b且替换首实体a以构造负三元组sneg=(a*,r,b*),且满足a*≠a且b*=b。
当na等于nb时,则随机替换首实体或尾实体。
第三、若对抽取的正三元组的首实体a进行替换,则替换后的实体a*和负三元组sneg需满足第一条件:a*∈Agold,且
Figure BDA0003389246640000151
第四、若对抽取的正三元组的尾实体b进行替换,则替换后的实体b*和负三元组sneg需满足第二条件:b*∈Bgold,且
Figure BDA0003389246640000152
第五、负三元组sneg需进行电力规则判断,确保sneg是不符合电力规则的三元组。
样本中心抽取黄金三元组集合Sgold中所有三元组spos,并根据每个黄金三元组遵循上述备选样本负三元组构建原则构建与spos对应的负三元组sneg,负三元组集合记为Sneg
步骤S840,包括如下步骤:
步骤S930:设黄金三元组集合的元素个数为ngold,将每个正三元组和其对应的负三元组合并构成正负三元组备选样本spair={spos,sneg},以得到ngold个正负三元组备选样本,将所有的正负三元组备选样本组成集合以形成正负三元组备选样本集,且正负三元组备选样本集为Spair={spair_i|i=1,2,…,ngold}。
步骤S940:将备选样本集Spair中的各样本顺序打乱,并按照预设比例(例如10:1,即10个训练集对应1个验证集)划分为训练集Strain和验证集Svalid
具体的,正负三元组备选样本集的构造,为识别模型的优化和调参提供了全面、可靠的训练集和验证集数据。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第十实施例中,基于第六实施例,步骤S220,包括如下步骤:
步骤S1010:对所述识别模型进行多次训练,训练内容为:通过所述样本中心模块将训练集spair∈Strain输入所述Trans计分模块,并进行损失计算,然后通过优化器对所述识别模型的网络参数及图嵌入向量进行修正。
其中,电力专业三元组识别模型的损失计算需遵循如下原则:当损失值趋于零时,正负三元组得分之间应存在明显差距,且正三元组得分应趋近于零;因此,所述损失函数如下:
Figure BDA0003389246640000161
其中,floss()为损失函数,spair为训练集正负三元组样本,k为样本中正三元组(a,r,b)与负三元组(a*,r,b*)之间的理想距离,k值越大,随着训练次数的增加,正负三元组得分之间的空隙越明显,更有利于三元组识别模块对正负三元组的准确分类;a*为与正三元组对应的负三元组的首实体,b*为与正三元组对应的负三元组的尾实体。
步骤S1020:设置优化器,所述优化器为Adam优化器,采用反向传播算法,以最小化训练集样本损失总和
Figure BDA0003389246640000162
为优化目标,设实体和关系向量维度为d,迭代更新模型中的待修正参数为
Figure BDA0003389246640000163
Figure BDA0003389246640000164
经过ntrain次迭代训练后,其中,ntrain为预设的迭代训练次数,d×d表示维度为d×d的实数矩阵集合,以得到完成训练的所述识别模型。
具体的,经过若干次训练,增大正三元组得分和负三元组得分的区别。训练后的识别模型对正三元组及负三元组的计算得分有了明显断层,理想情况下,所有正三元组得分近似于零,所有负三元组得分均大于k。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第十一实施例中,基于第二实施例,步骤S230,包括如下步骤:
步骤S1110:通过所述样本中心模块将验证集spair∈Svalid输入已完成训练的所述识别型的Trans计分模块,并计算三元组识别准确率。
具体的,设验证集Svalid的三元组个数为nvalid,识别正确的验证集样本记为Sright={spos,sneg|fscore(spos)<TH,fscore(sneg)≥TH},Sright中的元素个数记为|Sright|,则三元组识别准确率的计算公式如下:
Figure BDA0003389246640000165
其中,lacc为所述识别准确率。
步骤S1120:根据所述识别准确率,调整三元组识别模块的阈值TH,当所述识别准确率lacc取到最大值时,确定此时的阈值TH为所述识别模型的所述三元组识别模块的阈值的最终优选取值。
具体的,经过训练阶段和验证阶段对参数的优化,基于图神经网络的电力专业三元组识别模型对电力领域知识三元组有了较强的特征提取能力,并可以准确区分符合电力专业知识逻辑的正三元组和不符合电力专业知识逻辑的负三元组。为识别与电力专业人工知识图谱关联的潜在正三元组,实现知识图谱图自动补全提供了技术保障。
在本发明提出的一种基于图神经网络的电力专业知识图谱自动补全方法的第十二实施例中,基于第八实施例,步骤S170,包括如下步骤:
步骤S1201:对外界三元组进行筛选分类。
具体的,由于来自外界的知识三元组存在混乱、无序、种类多样、与电力专业人工知识图谱重复率高的情况,开展电力专业人工知识图谱补全工作首先需要通过样本中心模块对收集的外界三元组进行筛选分类。
具体的,对外界三元组进行筛选分类,以使参与电力专业人工知识图谱补全的外界三元组满足如下条件:
1、三元组的关系种类必须是电力专业人工知识图谱中已存在的关系种类。
2、三元组的首实体和尾实体当中至少有一个实体是电力专业人工知识图谱内存在的实体。
3、三元组不与黄金三元组集合Sgold中任意元素重复。
步骤S1202:将满足第三条件的外界三元组标记为第一三元组,其中,所述第三条件为:外界三元组不属于黄金三元组集合,且外界三元组中的首实体与黄金三元组集合中某一首实体相同,且外界三元组中的尾实体与黄金三元组集合中某一尾实体相同。
具体的,即外界三元组满足
Figure BDA0003389246640000171
且a∈Agold,且b∈Bgold
步骤S1203:将第一三元组输入至所述识别模型的TransE计分模块,调取首实体及尾实体的图神经网络特征向量及关系向量,以及尾实体的图神经网络特征向量及关系向量,经过得分函数计算得分。
具体的,对外界三元组进行图谱内知识补全时,由于实体特征和关系特征已经被识别模型习得,故采用上述方式。
步骤S1204:通过所述三元组识别模块根据得分进行正负三元组识别,若识别结果为合格的电力专业知识三元组,则将对应的第一三元组纳入所述人工知识图谱,即在电力专业人工知识图谱原有的实体a和b之间增添关系r,以实现图谱补全;若识别结果为不合格的电力专业知识三元组,则舍弃对应的第一三元组,不对电力专业人工知识图谱做补全。
具体的,上述步骤S1203和步骤S1204即是对所述满足调节的外界三组组(即第一三元组)进行图谱内知识补全。
步骤S1205:将满足第四条件的外界三元组标记为第二三元组,其中,第四条件为:外界三元组不属于黄金三元组集合,且若外界三元组中的首实体与黄金三元组集合中某一首实体相同,则外界三元组中的尾实体与黄金三元组集合中某一尾实体不相同,或若外界三元组中的首实体与黄金三元组集合中某一首实体不相同,则外界三元组中的尾实体与黄金三元组集合中某一尾实体相同。
具体的,即外界三元组满足:
Figure BDA0003389246640000181
Figure BDA0003389246640000182
且b∈Bgold,或满足:
Figure BDA0003389246640000183
且a∈Agold,且
Figure BDA0003389246640000184
步骤S1206:将所有的第二三元组和电力专业人工知识图谱中所有三元组构成新的三元组集合。
具体的,对外界三元组进行图谱外知识补全时,由于三元组中存在没有被识别模型学习过的图外实体,故采用上述方式。
步骤S1207:将新的三元组集合输入至所述识别模型的图嵌入模块,并将新的三元组集合中各三元组中的图外实体的图嵌入向量设为零向量,避免其他图内实体信息更新时受到图外实体的干扰。
步骤S1208:将第二三元组中的图外实体通过图神经网络节点更新算法获得的特征向量,与第二三元组中的图内实体及关系的特征向量输入TransE计分模块,以通过所述得分函数得到得分。
步骤S1209:通过三元组识别模块根据得分进行正负三元组识别,若识别结果为合格的电力专业知识三元组,则在电力专业人工知识图谱原有的实体(首实体a或尾实体b)上增添关系r,以及图外实体(首实体a或尾实体b),以实现电力专业人工知识图谱补全;若识别结果为不合格的电力专业知识三元组,舍弃对应的第二三元组,不对电力专业人工知识图谱做补全。
具体的,上述步骤S1205-步骤S1209即是对所述满足调节的外界三组组(即第二三元组)进行图谱外知识补全。
步骤S1210:当外界三元组既不满足第三条件,也不满足第四条件时,舍弃所述外界三元组,不进行补全。
具体的,整个外界信息筛选分类工作在样本中心完成。经过初步筛选后保留下来的外界三元组与人工知识图谱中现有的三元组不重复,并且被分成两类,分别进行图谱外知识补全和图谱内知识补全。
本发明以对某人工电力专业知识图谱补全为例,展示本发明提出的所述的基于图神经网络的电力专业知识图谱补全方法的具体操作及实验效果。该人工电力专业知识图谱包含500个黄金三元组,将三元组集合记为Sgold。图谱实体中有变压器、电器套管等电气设备的类型、部件、部位、故障现象、故障原理等信息,关系有“类型有”、“部件有”、“发生”、“原因可能是”等。
首先,按照搭建基于图神经网络的电力专业三元组识别模型,可在spyder开发环境下,通过python编程实现模型搭建。模型的图嵌入向量维度d=20,其他参数初始值随机设置。
其次,将待补全的人工电力专业知识图谱内的所有三元组信息(即Sgold)输送到模型的数据中心,并遵照第八实施例的方案构造训练集和验证集的备选样本。得到500组备选样本,记为Spair,随后将备选样本的顺序打乱并重新排序,以前450组样本为训练集,后50组样本为验证集。
表1展示了备选样本集的部分正负三元组信息。
Figure BDA0003389246640000191
Figure BDA0003389246640000201
表1
随后,构造的训练集和验证集先后输入识别模型,经过训练阶段和验证阶段对模型参数进行优化,训练过程中的模型训练次数设为300次,损失函数的正负三元组理想距离值k设为20。
最后,根据第十二实施例,对训练后的基于图神经网络的电力专业三元组识别模型进行人工电力专业知识图谱补全实验。首先,向模型输入10组不含图外实体的三元组对人工电力知识图谱进行图内新知识补全实验,其中5组为正三元组,5组为负三元组;其次,输入10组含有图外实体的三元组对人工电力知识图谱进行图外新知识补全实验,同样包含5个正三元组和5个负三元组。表2展示了训练后的模型对外界输入数据的部分识别情况,限于篇幅,仅列举8组数据实验结果。
本发明方法训练后的模型对实验数据识别结果(部分)如表2所示(表中带“*”词表示该词为图外实体):
Figure BDA0003389246640000202
Figure BDA0003389246640000211
表2
通过表2可以看出,实验中,本发明提出的方法对表中列举的4个正三元组中有3组判断为“+”,其中并补全至人工电力专业知识图谱;对表中列举的4个负三元组均判断为“-”,避免将不符合电气专业知识逻辑的信息添加到人工电力专业知识图谱。
训练后的电力专业三元组识别模型对20组实验数据准确识别了17组,其中图内新知识补全实验的10组均识别正确,图外新知识补全实验的10组数据识别正确7组。本发明方法中的模型对实验三元组识别准确率为85%。
图3展示本发明方法对人工电力专业知识图谱的信息补全效果,由于篇幅限制,仅展示图谱的部分内容。
图3中,由本发明方法补全的图外实体由灰色实心圆圈表示,补全的关系由灰色虚线箭头表示,而人工电力专业知识图谱信息由白色圆圈和黑色箭头表示。
此外,为进一步说明本发明的优越性,去除电力专业三元组识别模型中的图神经网络模块,利用剩余模块构建基于Trans算法的电力专业三元组识别模型,并对该模型按照本发明方法进行训练和验证以调整模型参数,然后对训练后的基于Trans算法的电力专业三元组识别模型进行人工电力专业知识图谱补全实验,实验结果如下表1所示:
表3为Trans算法模型对人工电力专业知识图谱补全的实验结果。表中带“*”词表示该词为图外实体。
Figure BDA0003389246640000221
Figure BDA0003389246640000231
表3
通过表3可以看出,Trans算法由于无法学习图外实体的特征,对带有图外实体的三元组无法进行计分及正负识别,对实验数据中的四个正三元组仅能补全其中的2个,对知识图谱的补全信息少于本发明提出的方法;基于Trans算法的电力专业三元组识别模型对实验数据的识别准确率仅为50%,远低于本发明方法对实验数据的识别准确率。
本发明方法在保证电力专业知识图谱补全信息的可靠性和准确性的同时,扩大人工电力专业知识图谱的信息量,由于图神经网络的引入,提高了对带有图外实体三元组的特征学习能力,能有效识别并补全带有图外实体的知识信息,从而扩大了对人工电力专业知识图谱的信息补全范围。
同时,本发明提出了一种基于图神经网络的电力专业三元组识别模型构建方法。该方法首先搭建图嵌入算法模块将知识图谱中的三元组转化为向量集,便于模型对电力专业三元组的特征学习和提取;其次,搭建图神经网络模块,利用三元组实体邻居信息,实现对三元组实体特征的更新,在识别模型不重新学习的情况下,达到利用已习得的图内实体特征表征图外实体的目的,有效减轻机器设备运算负担,降低机器学习成本;最终再搭建TransE计分模块和三元组识别模块计算外界三元组得分并识别三元组正负类别。该方法使电力专业三元组识别模型提升了对电力专业三元组的识别准确率,提高了对带有图外实体三元组的特征学习能力,降低了电力专业三元组识别及知识图谱补全工作所需的时间成本和人力消耗。
本发明还提出了基于电力专业三元组识别模型的样本构造方法。该方法解决模型无法学习到负三元组的特征,对负三元组的识别准确率低,从而无法有效提升模型的电力专业三元组识别能力的问题,并设立负三元组构造规则避免构造的负样本数据与现有和潜在的正样本数据产生冲突的问题,为电力专业三元组识别模型的优化和调参提供了全面、可靠的训练数据。
本发明还提出了电力专业三元组识别模型参数优化方法。本发明提出损失函数设计原则:当样本损失值趋于零时,正负三元组得分之间应存在明显差距,且正三元组得分应趋近于零。本发明基于上述原则设计损失函数,并采用Adam作为模型参数优化器。本发明对模型参数优化方法降低了模型对三元组的识别难度,提升了模型对正负三元组的识别能力,从而提高模型对三元组的识别准确度以及模型训练收敛速度。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,包括:
构建样本中心模块,以用于获取电力专业人工知识图谱,并提取电力专业人工知识图谱对应的三元组信息,其中,所述三元组信息包括首实体、关系和尾实体;
构建图嵌入模块,以用于将所述样本中心模块获取的首实体、关系和尾实体分别用同等维度的特征向量表示;
构建图神经网络模块,以用于根据电力专业人工知识图谱上的相对位置关系,将每个三元组的实体向量用其相邻区域的实体向量进行更新表示,以具有对图外实体的表征能力;
构建计分模块,以用于根据所述样本中心模块提取的三元组信息对三元组更新后的特征向量进行分数计算,以得到三元组对应的得分;
构建三元组识别模块,以用于根据设定的阈值和三元组的得分以识别三元组是否为合格的电力专业知识三元组;
基于样本中心模块、图嵌入模块、图神经网络模块、计分模块和三元组识别模块,构建基于图神经网络的电力专业三元组识别模型;
将外界三元组输入所述识别模型,以对电力专业人工知识图谱进行展开补全。
2.根据权利要求1所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述将外界三元组输入完成优化后的所述识别模型,以对电力专业人工知识图谱进行展开补全,之前还包括:
通过所述样本中心模块基于所述电力专业人工知识图谱对应的三元组信息构造电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集;
基于所述训练集对所述识别模型进行训练;
基于所述验证集对完成训练的所述识别模型进行验证,以对所述识别模型进行优化。
3.根据权利要求1所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述构建图嵌入模块,以用于将所述样本中心模块获取的首实体、关系和尾实体分别用同等维度的特征向量表示,包括:
通过图嵌入模块将三元组中字符转化为向量,公式如下:
Figure FDA0003389246630000021
其中,a表示三元组的首实体,b表示三元组的尾实体,r表示三元组中关系,即(a,r,b)表示三元组信息,fGE()为图嵌入转化函数,s为图嵌入后由首实体的向量表示、关系的向量表示和尾实体的向量表示组成的三元组,S是由s组成的集合;a为首实体的向量表示,A为首实体的向量表示的集合;b为尾实体的向量表示,B为尾实体的向量表示的集合;r为关系的向量表示,R为关系的向量表示的集合。
4.根据权利要求1所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述构建所述图神经网络模块,以用于根据电力专业人工知识图谱上的相对位置关系,将每个三元组的实体向量用其相邻区域的实体向量进行更新表示,包括:
将三元组的首实体设为图神经网络模块的首节点,将三元组的尾实体设为图神经网络模块的尾节点,将三元组首实体的向量表示以及三元组尾实体的向量表示设为图神经网络模块的节点特征,并将三元组的关系设为图神经网络模块的边;
对于图神经网络模块中任意节点,将节点邻域的所有节点特征,通过转换函数进行特征变换,其中,变换公式如下:
Figure FDA0003389246630000022
其中,Ha为节点e的首邻域节点a经过变换后的特征信息,Hb为节点e的尾邻域节点b经过变换后的特征信息;
Figure FDA0003389246630000023
为图神经网络模块用于首节点特征变换的参数矩阵,
Figure FDA0003389246630000024
为图神经网络模块用于尾节点特征变换的参数矩阵,矩阵初始值随机设置;
将节点e的首尾邻域节点变换后的特征信息汇总作为节点e更新后的特征信息;
将经过图神经网络模块更新后的三元组向量表示为(va,r,vb),且有(va,r,vb)∈SG,其中,va为经图神经网络模块更新后的三元组首实体特征,vb为经图神经网络模块更新后的三元组尾实体特征,三元组关系特征r在图神经网络中未被更新。
5.根据权利要求2所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述构建计分模块,以用于根据所述样本中心模块提取的三元组信息对三元组更新后的特征向量进行分数计算,以得到三元组对应的得分,包括:
通过所述计分模块根据TransE算法设计得分函数,其中,得分函数的计算公式如下:
fscore(a,r,b)=‖va+r-vb‖,
其中,fscore(a,r,b)为所述得分函数,||.||为向量范数运算符号,可选择1-范数、2-范数、…、p-范数来计算得分;当向量范数运算符号以p-范数计算得分时,若三元组向量(va,r,vb)为d维向量,且va+r-vb=(x1,x2,…,xd)则得分函数的计算公式如下:
Figure FDA0003389246630000031
6.根据权利要求2所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述通过所述样本中心模块基于所述电力专业人工知识图谱对应的三元组信息构造电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集,包括:
将电力专业人工知识图谱中的三元组标记为黄金三元组;
基于所述黄金三元组抽取电力专业正三元组;
基于所述三元组信息构建电力专业负三元组;
基于所述正三元组和所述负三元组构建电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集。
7.根据权利要求6所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述基于所述三元组信息构建电力专业负三元组,包括:
从人工电力专业知识图谱中抽取任意正三元组;
对抽取的正三元组中的首实体或尾实体进行替换,并判断替换后的三元组是否符合电力规则,以构造与正三元组一一对应的负三元组,其中,所述负三元组即是不符合电力规则的三元组;
所述基于所述正三元组和所述负三元组构建电力专业正负三元组备选样本集,并将所述备选样本集分为训练集和验证集,包括:
设定黄金三元组集合的元素个数为ngold,将每个正三元组和其对应的负三元组合并构成正负三元组备选样本,以得到所述ngold个正负三元组备选样本,将所有的正负三元组备选样本组成集合以形成正负三元组备选样本集;
将备选样本集中的各样本顺序打乱,并按照预设比例划分为训练集Strain和验证集Svalid
8.根据权利要求5所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述基于所述训练集对所述识别模型进行训练,包括:
对所述识别模型进行多次训练,训练内容为:通过所述样本中心模块将训练集输入所述计分模块,并进行损失计算,然后通过优化器对所述识别模型的网络参数及图嵌入向量进行修正,其中,损失函数公式如下:
Figure FDA0003389246630000041
其中,floss()为损失函数,spair为训练集正负三元组样本,k为样本中正三元组(a,r,b)与负三元组(a*,r,b*)之间的理想距离,a*为与正三元组对应的负三元组的首实体,b*为与正三元组对应的负三元组的尾实体;
设置优化器,采用反向传播算法调节模型参数,以最小化训练集样本损失值总和
Figure FDA0003389246630000042
为优化目标,设实体和关系向量维度为d,迭代更新模型中的待修正参数为
Figure FDA0003389246630000043
Figure FDA0003389246630000044
经过ntrain次迭代训练后,以得到完成训练的所述识别模型。
9.根据权利要求2所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述基于所述验证集对完成训练的所述识别模型进行验证,以对所述识别模型进行优化,包括:
通过所述样本中心模块将验证集输入已完成训练的所述识别型的所述计分模块,并计算三元组识别准确率;
根据所述识别准确率,调整三元组识别模块的阈值,当所述识别准确率取到最大值时,确定此时的阈值为所述识别模型的所述三元组识别模块的阈值的最终优选取值。
10.根据权利要求6所述的一种基于图神经网络的电力专业知识图谱自动补全方法,其特征在于,所述将外界三元组输入完成优化后的所述识别模型,以对电力专业人工知识图谱进行展开补全,包括:
将满足第三条件的外界三元组标记为第一三元组,其中,所述第三条件为:外界三元组不属于黄金三元组集合,且外界三元组中的首实体与黄金三元组集合中某一首实体相同,且外界三元组中的尾实体与黄金三元组集合中某一尾实体相同;
将第一三元组输入至所述识别模型的计分模块,调取首实体及尾实体的图神经网络特征向量及关系向量,经过得分函数计算得分;
通过所述三元组识别模块根据得分进行正负三元组识别,若识别结果为合格的电力专业知识三元组,则将对应的第一三元组纳入所述人工知识图谱,以实现图谱补全;若识别结果为不合格的电力专业知识三元组,则舍弃对应的第一三元组,不对电力专业人工知识图谱做补全;
将满足第四条件的外界三元组标记为第二三元组,其中,第四条件为:外界三元组不属于黄金三元组集合,且若外界三元组中的首实体与黄金三元组集合中某一首实体相同,则外界三元组中的尾实体与黄金三元组集合中某一尾实体不相同,或若外界三元组中的首实体与黄金三元组集合中某一首实体不相同,则外界三元组中的尾实体与黄金三元组集合中某一尾实体相同
将所有的第二三元组和电力专业人工知识图谱中所有三元组构成新的三元组集合;
将新的三元组集合输入至所述识别模型的图嵌入模块,并将新的三元组集合中各三元组中的图外实体的图嵌入向量设为零向量;
将第二三元组中的图外实体通过图神经网络节点更新算法获得的特征向量,与第二三元组中的图内实体及关系的特征向量输入计分模块,以通过所述得分函数得到得分;
通过三元组识别模块根据得分输出识别结果,若识别结果为合格的电力专业知识三元组,则在电力专业人工知识图谱原有的实体上增添关系,以及图外实体,以实现电力专业人工知识图谱补全;若识别结果为不合格的电力专业知识三元组,舍弃对应的第二三元组,不对电力专业人工知识图谱做补全;
当外界三元组既不满足第三条件,也不满足第四条件时,舍弃所述外界三元组。
CN202111462812.4A 2021-12-02 2021-12-02 基于图神经网络的电力专业知识图谱自动补全方法 Pending CN114139709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111462812.4A CN114139709A (zh) 2021-12-02 2021-12-02 基于图神经网络的电力专业知识图谱自动补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111462812.4A CN114139709A (zh) 2021-12-02 2021-12-02 基于图神经网络的电力专业知识图谱自动补全方法

Publications (1)

Publication Number Publication Date
CN114139709A true CN114139709A (zh) 2022-03-04

Family

ID=80387341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111462812.4A Pending CN114139709A (zh) 2021-12-02 2021-12-02 基于图神经网络的电力专业知识图谱自动补全方法

Country Status (1)

Country Link
CN (1) CN114139709A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684200A (zh) * 2023-07-31 2023-09-01 北京天防安全科技有限公司 网络安全漏洞的攻击模式的知识补全方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116684200A (zh) * 2023-07-31 2023-09-01 北京天防安全科技有限公司 网络安全漏洞的攻击模式的知识补全方法及系统
CN116684200B (zh) * 2023-07-31 2023-09-26 北京天防安全科技有限公司 网络安全漏洞的攻击模式的知识补全方法及系统

Similar Documents

Publication Publication Date Title
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
Zhou et al. Fuzzy classifier design using genetic algorithms
US8239336B2 (en) Data processing using restricted boltzmann machines
CN113378913B (zh) 一种基于自监督学习的半监督节点分类方法
CN112800770B (zh) 一种基于异构图注意力网络的实体对齐方法
CN113065974B (zh) 一种基于动态网络表示学习的链路预测方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN114092742B (zh) 一种基于多角度的小样本图像分类装置和方法
CN107665339B (zh) 一种通过神经网络实现人脸属性转换的方法
CN112784929A (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN113011529B (zh) 文本分类模型的训练方法、装置、设备及可读存储介质
CN112767186A (zh) 一种基于7-子图拓扑结构的社交网络链接预测方法
CN115578248A (zh) 一种基于风格引导的泛化增强图像分类算法
CN110825935A (zh) 社区核心人物挖掘方法、系统、电子设备及可读存储介质
CN114139709A (zh) 基于图神经网络的电力专业知识图谱自动补全方法
CN113705709A (zh) 一种改进的半监督图像分类方法、设备及存储介质
CN116563410A (zh) 基于两级生成对抗网络的电气设备电火花图像生成方法
CN117149952A (zh) 一种基于aigc的多场景内容生成系统
CN116758379B (zh) 一种图像处理方法、装置、设备及存储介质
CN111414937A (zh) 物联网场景下提升多分支预测单模型鲁棒性的训练方法
CN116431821A (zh) 基于常识感知的知识图谱补全方法及问答系统
CN115617666A (zh) 基于gpt2模型中文测试用例补全方法
CN115909441A (zh) 人脸识别模型建立方法、人脸识别方法和电子设备
CN113033653A (zh) 一种边-云协同的深度神经网络模型训练方法
CN114677751B (zh) 学习状态的监控方法、监控装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination