CN115828882A - 面向大坝安全知识库风险联动的实体对齐方法和系统 - Google Patents

面向大坝安全知识库风险联动的实体对齐方法和系统 Download PDF

Info

Publication number
CN115828882A
CN115828882A CN202211164831.3A CN202211164831A CN115828882A CN 115828882 A CN115828882 A CN 115828882A CN 202211164831 A CN202211164831 A CN 202211164831A CN 115828882 A CN115828882 A CN 115828882A
Authority
CN
China
Prior art keywords
entity
alignment
attribute
training
dam safety
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211164831.3A
Other languages
English (en)
Other versions
CN115828882B (zh
Inventor
李志兴
杜建民
蒋金磊
毛莺池
张浩江
薛扬帆
苏健
孟欢
王远
聂兵兵
曹林
戚荣志
杨崇香
王珊珊
魏子钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Group Technology Innovation Center Co Ltd, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202211164831.3A priority Critical patent/CN115828882B/zh
Publication of CN115828882A publication Critical patent/CN115828882A/zh
Application granted granted Critical
Publication of CN115828882B publication Critical patent/CN115828882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种面向大坝安全知识库风险联动的实体对齐方法和系统,包括:大坝安全知识库中的知识图谱信息提取,针对大坝安全知识图谱进行知识抽取的操作,构造下述两个模型组件的基本大坝安全训练数据集;基于结构特征的对齐模型,使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离得到对齐结果;基于属性特征的对齐模型,通过使用预训练BERT模型进行知识的属性特征嵌入,解决属性特征语义捕获不充分的问题;迭代协同训练,解决缺少监督数据的问题,交替利用结构和属性信息进行实体对齐,达到对训练数据集的迭代拓展;对齐模型预测,通过上述对齐模型对大坝安全知识库进行实体对齐操作,实现应急工况下的大坝安全知识库风险联动。

Description

面向大坝安全知识库风险联动的实体对齐方法和系统
技术领域
本发明涉及一种基于协同训练的面向大坝安全知识库风险联动的实体对齐方法和系统,属于自然语言处理技术领域。
背景技术
互联网的迅速发展带来数据的爆炸式增长,如何将信息结构化以便更快速精确的检索信息亟待解决,由此,知识图谱(Knowledge Graph,KG)的概念应运而生。知识图谱提出的初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验,其本质是一种大规模的语义网络(Semantic Network),结构化的语义知识库(Knowledge Base,KB),形式化的描述物理世界中的概念及其相互关系。随着相关技术的不断发展,知识图谱已经广泛应用于智能搜索、智能问答、个性化推荐等领域。
如今知识图谱技术已经被逐渐运用于社会的各个领域。其中,在大坝安全领域,知识图谱技术被广泛运用于大坝安全的知识库构建以及应急响应系统的风险联动当中。目前大坝安全的知识库构建工作硕果累累,但是这些构建的知识图谱大多是分散而独立的,当前的大坝安全知识图谱中存在着图谱中的多个实体指向客观世界的相同事物的问题,各个知识图谱之间存在大量重复的知识,同时实体对齐方法对监督数据依赖性较强,且知识图谱构建时由于侧重点不同从而知识图谱出现稀疏或不完整的情况,导致实体对齐任务效果不佳,从而影响知识图谱之间联动的准确性,这些问题都阻碍了大坝安全数据的有效集成与复用,因此提高实体对齐效果,从而提高在大坝发生应急工况时安全知识库的风险联动的准确性是当务之急。
发明内容
发明目的:针对现有技术中存在的难题,本发明提供一种基于协同训练的面向大坝安全知识库风险联动的实体对齐方法和系统,对知识图谱进行了基于协同训练的实体对齐(entity alignment)工作。将存在于不同的大坝安全知识图谱中,但指向客观世界中同一物体的名称对应起来,并得到它们之间评估相似性程度的置信度。该任务可以对大坝安全知识图谱进行扩充,从而提高大坝安全知识图谱的质量和覆盖范围,从而在大坝发生应急工况下,提高风险联动的准确性,使得有关部门做出更有效的决策。
技术方案:一种基于协同训练的大坝安全知识库风险联动的实体对齐方法,针对具有结构信息和属性信息的两张大坝安全知识图谱进行知识抽取的操作,并分别构造两个模型组件的基本大坝安全训练数据集,使用一种结构对齐模型:根据不同知识图谱的关系三元组,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离得到对齐结果;使用一种属性对齐模型:通过使用预训练的BERT模型对属性特征进行嵌入,解决与大坝安全知识相关的属性特征语义捕获不充分的问题;通过协同训练框架解决缺少监督数据的问题,交替利用结构信息和属性信息对实体进行对齐,并将新得到的对齐结果加入大坝安全训练数据集达到对训练数据集的迭代拓展,进而提高实体对齐的效果。
方法包括如下内容:
(1)大坝安全知识图谱信息提取:在建立好大坝安全知识库的基础上,对大坝安全知识图谱进行知识抽取的操作,得到结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,并利用种子对齐分别构造基于结构特征的对齐模型和基于属性特征的对齐模型的基本大坝安全训练数据集,其中种子含义是指出现在不同知识图谱中的同义实体,即预先对齐的实体。
所述属性视角的实体嵌入三元组包含实体内部的语义信息,所属结构视角的实体嵌入关系三元组包含实体外部的语义信息。
(2)基于结构特征的对齐模型:使用GCN对上述结构视角的实体嵌入关系三元组进行编码并对齐,首先根据不同知识图谱的关系三元组及种子对齐构建结构图,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离,从而判断实体间的相似度。
(3)基于属性特征的对齐模型:使用BERT对上述属性视角的实体嵌入三元组进行编码并对齐,将实体对齐作为下游目标来调整一个预先训练的BERT模型,将属性类型和属性值分别使用预训练的BERT进行嵌入,对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度。
(4)迭代协同训练:首先基于少量的“种子对齐”,对两个视角的对齐模型——基于结构特征的对齐模型和基于属性特征的对齐模型进行训练,并对未标记的实体进行对齐预测。然后从每次预测得到的结果中选出可信的对齐结果,并将其加入已标记的大坝安全训练数据集中,得到新的训练数据集,之后使用新的训练数据再次训练对齐模型。基于此,不断迭代交替的训练两个视角的对齐模型,逐渐加强实体对齐,直到两个视角的对齐模型都不再预测新的对齐实体对。通过对大坝安全训练数据集的迭代拓展,交替利用结构信息和属性信息对实体进行对齐,使两种信息达到相辅相成的作用,进而提高实体对齐的效果。
迭代协同训练是通过协同训练框架解决缺少监督数据的问题,交替利用结构信息和属性信息对实体进行对齐,并将新得到的对齐结果加入大坝安全训练数据集达到对训练数据集的迭代拓展,进而提高实体对齐的效果。本发明利用一种基于协同训练的实体对齐模型,针对现有的实体对齐方法对监督数据依赖性较强的问题,在训练数据缺失的情况下发挥作用,并提升大坝安全知识库的知识图谱实体对齐效果。
(5)将本发明的实体对齐方法嵌入大坝安全知识库系统并运行于计算机设备上,针对大坝的知识库实现实体对齐,提高在应急工况发生的情况下,风险联动寻找对应的处置决策的准确性。
进一步的,所述(1)大坝安全知识图谱信息提取中,给定两个具有结构信息和属性信息的知识图谱G1、G2,以及“种子对齐”L(m),构造基本大坝安全训练数据集,大坝安全训练数据集包括结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,具体步骤如下:
(1.1)从大坝安全知识库中,取大坝应急响应文本,从大坝应急响应文本中提取信息三元组,样例如下:
大坝数据集文本描述案例
Figure BDA0003860881400000031
利用大坝应急响应文本提取三元组后,构建大坝安全知识图谱。将一个大坝安全知识图谱表示为G=(E,R,A,V,T),由实体集合E,关系谓词集合R,属性谓词集合A,属性值集合V以及三元组集合T组成,其中T=Tr∪Ta,Tr和Ta分别表示实体嵌入关系三元组的集合和实体嵌入三元组的集合;
(1.2)给定两个大坝安全知识图谱G1=(E1,R1,A1,V1,T1)和G2=(E2,R2,A2,V2,T2),分别使用GCN模型和BERT模型对Tr和Ta进行编码并训练,将已找到的对齐实体对作为训练数据的“种子对齐”。最终得到的数据集形式为三元组的集合,形式例如:(渗流,位置,混凝土接缝)。
进一步的,所述步骤(2)中基于结构特征的对齐模型,利用两层GCN在结构图上对实体进行编码,来计算实体向量之间的距离,从而判断实体间的相似度的具体步骤如下:
(2.1)根据不同知识图谱的结构视角的实体嵌入关系三元组及“种子对齐”,以实体为节点,以关系为边为不同的大坝安全知识图谱构建结构图;
(2.2)使用两层GCN在结构图上对实体进行编码;
GCN模型的输入是一个实体结构特征矩阵
Figure BDA0003860881400000032
其中n表示实体个数,d表示实体结构特征向量的维度。经过如下卷积计算:
Figure BDA0003860881400000033
其中,σ为激活函数,取ReLU(·)=max(0,·);A为n×n连通矩阵,用来表示图的结构信息;
Figure BDA0003860881400000041
I为单位矩阵,用来增加当前实体的自身信息;
Figure BDA0003860881400000042
Figure BDA0003860881400000043
的对角节点度矩阵,W为权重矩阵,其中H(0)代表第一层GCN输入的特征矩阵,W(0)代表第一层GCN的权重矩阵,W(1)代表第二层GCN的权重矩阵。
为了使GCN能够在向量空间中尽可能的接近嵌入等价实体,通过一组已知的“种子对齐”L作为训练数据来训练模型,希望正例实体对的距离小于负例实体对的距离。最小化以下损失函数为:
Figure BDA0003860881400000044
其中,正例实体对p=(ei,ej)∈L,负例实体对p′=(ei′,ej′)∈Lp′,负例实体对通过最近邻法选择n个与替换实体余弦最相似的实体作为候选实体替换E1或E2中的实体ei或ej来构造;实体距离的打分函数为:f(p)=||h(ei),h(ej)||1
其中,h(ei)和h(ej)分别表示两个实体结构向量的长度,f(p)是计算了实体结构向量之间的曼哈顿距离;γ>0是分隔正负实体对齐的边界超参数。
(2.3)实体对齐过程中,通过双层GCN模型学习实体的结构特征向量,并计算该特征向量与另一知识图谱中的每个实体的结构特征向量之间的距离,对距离进行从小到大排序,选择距离最小的结果作为下一次迭代的新对齐实体。
进一步的,所述步骤(3)中基于BERT的属性特征的对齐模型的具体执行步骤如下:
(3.1)将实体对齐作为下游目标来调整一个预先训练的BERT模型;
(3.2)将属性视角的实体嵌入三元组映射为属性类型和属性值分别使用预训练的BERT进行嵌入;
(3.3)对属性值和属性类型进行交互并传入多层感知机MLP,得到实体对的相似度,将得到的实体相似度进行排序,将选择距离最小的结果作为下一次迭代的新对齐实体。
进一步的,所述步骤(4)中基于迭代协同训练的具体步骤如下:
(4.1)根据少量已对齐的大坝文本实体集L将基于大坝安全的三元组集合T分为结构视角的实体嵌入关系三元组的集合Tr和属性视角的实体嵌入三元组集合Ta。根据Tr训练并得到基于结构特征的对齐模型Fr,使用Fr对未标记的实体集进行对齐预测,将得到的最优结果Lr加入属性视角的实体嵌入三元组集合Ta中,得到新的标注数据集。同理,根据新的标注数据集训练并得到基于属性信息的对齐模型Fa,使用Fa对未标记的实体集进行预测,将得到的最优结果L′a加入结构视角的实体嵌入关系三元组的集合Tr中,得到新的标注数据集;
(4.2)使用新的训练数据再次训练对齐模型,对上述两个对齐模型进行不断的迭代,直至模型收敛,最终得到基于协同训练的面向大坝安全知识库风险联动的实体对齐模型。
进一步的,所述步骤(5)中运用模型实现大坝安全知识库中知识图谱的实体对齐。将训练好的基于协同训练的面向大坝安全知识库风险联动的实体对齐模型应用到计算机设备上,基于计算机设备对大坝应急响应知识库进行计算,实现大坝应急响应知识库的实体对齐。
一种大坝安全知识库风险联动的实体对齐系统,包括:
训练集单元,在建立好大坝安全知识库的基础上,对大坝安全知识图谱进行知识抽取的操作,得到结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,并利用种子对齐分别构造基于结构特征的对齐模型和基于属性特征的对齐模型的基本大坝安全训练数据集;
基于结构特征的对齐模型,使用GCN对上述结构视角的实体嵌入关系三元组进行编码并对齐,首先根据不同知识图谱的关系三元组及种子对齐构建结构图,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离,从而判断实体间的相似度;
基于属性特征的对齐模型,使用BERT对上述属性视角的实体嵌入三元组进行编码并对齐,将实体对齐作为下游目标来调整一个预先训练的BERT模型,将属性类型和属性值分别使用预训练的BERT进行嵌入,对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度;
迭代协同训练单元:首先基于少量的“种子对齐”,对两个视角的对齐模型——基于结构特征的对齐模型和基于属性特征的对齐模型进行训练,并对未标记的实体进行对齐预测;然后从每次预测得到的结果中选出可信的对齐结果,并将其加入已标记的大坝安全训练数据集中,得到新的训练数据集,之后使用新的训练数据再次训练对齐模型;基于此,不断迭代交替的训练两个视角的对齐模型,直到两个视角的对齐模型都不再预测新的对齐实体对。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法的计算机程序。
有益效果:与现有技术相比,针对现有的实体对齐方法对监督数据依赖性较强,且知识图谱构建时由于侧重点不同从而知识图谱出现稀疏或不完整的情况,导致实体对齐任务效果不佳的问题,本发明利用一种基于协同训练的实体对齐模型。该模型将实体特征划分为独立的结构和属性视角,并分别使用GCN和BERT来训练实体对齐模型,有效捕获实体属性的语义相似性。针对训练数据中“种子实体”不足的问题,利用co-training协同训练的方式将训练过程中得到的新的高质量对齐实体对作为正确样本用于辅助另一视角下的模型训练,通过两个视角相互补充和加强,实现结构信息和属性信息的融合,从而提升实体对齐效果。将co-training协同训练方法应用于大坝安全知识库的实体对齐任务中,利用少量监督数据,借助实体关系特征和属性特征相互补充和加强,提高实体对齐准确率,从而风险发生时,能够有效联动大坝安全知识库,寻找对应的应急方案和措施,提高风险联动的准确性,从而有效提高了大坝安全数据的集成与复用。结果表明,本发明基于结构和属性特征的协同训练模型能够在训练数据缺失的情况下发挥作用,从而有效可以有效实现面向大坝安全知识库实体对齐,应用在系统中可以有效提高风险联动的准确性,为应急工况的发生做好切实的保障工作。
附图说明
图1为具体实施例的方法流程图;
图2为知识图谱的实例图;
图3为基于结构特征的对齐模型示意图;
图4为基于属性特征的对齐模型示意图。
具体实施方式
下面结合具体实施例,如图2所示大坝安全知识库中的突发事件分级和应急预案两个知识图谱,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于协同训练的面向大坝安全知识库风险联动的实体对齐方法,具体流程如图1所示,包括如下步骤:
(1)大坝安全知识图谱信息提取:在建立好大安全知识库的基础上,给定两个具有结构信息和属性信息的大坝安全知识图谱KG1、KG2,以及“种子对齐”L,基于上述信息得到包括结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组的大坝安全训练数据集。大坝安全的数据库数据集的数据源主要来源于历年专项检查报告和日常巡检报告两部分。本实施例中,大坝安全的数据库数据集主要来源于黄登、景洪、漫湾等各个大坝历年专项检查报告和日常巡检报告两部分,共计1500篇报告,包含地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修和日常检查等,除大量三元组之外,还囊括了文本描述信息,其案例如下所示。首先根据大坝安全知识图谱提取出参考实体和结构三元组,然后从大坝安全知识图谱中提取所有涉及对齐中实体的属性三元组。
默认情况下,每个大坝安全的数据库数据集提供30%的实体对作为“种子对齐”,剩余的对齐实体对作为测试数据。根据大坝安全知识图谱提取出参考实体和结构三元组,然后从大坝安全的数据库数据集中提取所有涉及对齐中实体的属性三元组。
Figure BDA0003860881400000071
其中大坝安全的数据库数据集分为风险分级和应急处置措施两个部分。两个部分的数据集中各自有600个实体,关系和属性数目均在30个左右。在所有实验中,将大坝安全的数据库数据集70%的数据用于监督训练,20%的数据作为验证数据,10%的数据作为测试数据集。
具体步骤如下:
(1.1)将大坝安全知识图谱表示为G=(E,R,A,V,T),由实体集合E,关系谓词集合R,属性谓词集合A,属性值集合V以及三元组集合T组成,其中T=Tr∪Ta,Tr和Ta分别表示实体嵌入关系三元组的集合和实体嵌入三元组的集合;
(1.2)给定两个大坝安全知识图谱G1=(E1,R1,A1,V1,T1)和G2=(E2,R2,A2,V2,T2),分别使用GCN模型和BERT模型对Tr和Ta进行编码并训练,将已找到的对齐实体对作为训练数据的“种子对齐”,记作L(m),实体对齐的目的是找到每个实体对M={(ei,ej)∈E1×E2|ei≡ej},其中“≡”表示等价关系,L(m)∈M。
(2)基于结构特征的对齐模型:使用GCN对上述结构视角的实体嵌入关系三元组进行编码并对齐,首先根据不同大坝安全知识图谱的关系三元组及“种子对齐”构建结构图,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离得到对齐结果。基于结构特征的对齐模型具体结构如图3所示,具体步骤如下:
(2.1)根据不同的基于大坝安全的知识图谱的关系三元组及“种子对齐”,以实体为节点,以关系为边为不同的知识图谱构建结构图。在GCN模型中,邻接矩阵A定义了卷积计算中实体的邻域,体现了实体与其他实体之间的关系。考虑到大坝安全知识图谱是多关系图,根据实体之间的关系来计算边的权重值,形成图的邻接矩阵A,让aij∈A表示对齐信息从第i个实体传播到第j个实体的程度,权重越大,则邻居实体对当前实体的影响越大。
(2.2)如图3所示,使用两层GCN在结构图上对实体进行编码;采用双层GCN对齐进行训练。GCN模型的输入是一个实体结构特征矩阵
Figure BDA0003860881400000072
其中n表示实体个数,d表示实体结构特征向量的维度。经过如下卷积计算:
Figure BDA0003860881400000081
其中,σ为激活函数,取ReLU(·)=max(0,·);邻接矩阵A为n×n连通矩阵,用来表示图的结构信息;
Figure BDA0003860881400000082
I为单位矩阵,用来增加当前实体的自身信息;
Figure BDA0003860881400000083
Figure BDA0003860881400000084
的对角节点度矩阵,W为权重矩阵。
为了使GCN能够在向量空间中尽可能的接近嵌入等价实体,通过一组已知的“种子对齐”L作为训练数据来训练模型,希望正例实体对的距离小于负例实体对的距离。最小化以下损失函数:
Figure BDA0003860881400000085
其中,p为正例实体,p'为负例实体,负例实体对通过最近邻法选择n个与替换实体余弦最相似的实体作为候选实体替换E1或E2中的实体ei或ej来构造;
(2.3)f(p)=||h(ei),h(ej)||1是实体距离的打分函数,计算实体结构向量之间的曼哈顿距离;γ>0是分隔正负实体对齐的边界超参数。实体对齐过程中,对于大坝安全知识图谱中的每个实体,通过双层GCN模型学习其结构嵌入,并计算它与另一大坝安全知识图谱中的每个实体之间的距离,对距离进行从小到大排序,选择最优结果作为下一次迭代的新对齐实体。计算实体向量之间的距离得到对齐结果。
(3)基于属性特征的对齐模型:使用BERT对上述属性视角的实体嵌入三元组进行编码并对齐,将实体对齐作为下游目标来调整一个预先训练的BERT模型,将属性类型和属性值分别使用预训练的BERT进行嵌入,对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度。基于BERT的属性对齐模型的示意图如图4所示,其具体步骤如下:
(3.1)将实体对齐作为下游目标来调整一个预先训练的BERT模型,构造训练数据D={(e,e′+,e′-)},其中每个三元组(e,e′+,e′-)∈D包含一个被查询的实体e∈E,一个正例实体e′+∈E′和一个从E′中随机抽取的负例实体e′-。对于大坝安全的数据库数据集中的每个实体e,使用预训练的BERT模型接受实体名称作为输入,通过MLP层过滤其CLS标签的对应值,将得到的结果作为该实体的向量表示:
C(e)=MLP(CLS(e))
并基于该向量表示和边缘损失来微调BERT模型,定义如下:
Figure BDA0003860881400000091
其中,m为边缘超参数,g(·)表示向量C(e)和C(e′)的曼哈顿距离函数,负样本的采样方式是根据两个实体的余弦相似度来采样。在后续对属性信息进行处理时,将BERT模型参数固定。
(3.2)将属性类型和属性值分别使用预训练的BERT进行嵌入,对于属性特征的处理,实体e和e′的某个属性三元组分别为(e,ai,vi),(e′,aj′,vj′),如果实体属性值相似,则属性名称应该也是相似的。根据属性名称和属性值分别计算其相似度矩阵:M和S,以属性名称为例,根据实体e,e′的多个属性名称向量求得相似度矩阵M,其中Mij=sim(C(ai),C(aj′)),Mij表示实体e的第i个属性的名称ai与实体e′的第j个属性的名称aj′的余弦相似度。将M与S作乘法运算,即
Figure BDA0003860881400000092
得到最终的实体属性相似度矩阵,最后使用双重聚合方法对S进行计算,得到属性信息的交互向量。
双重聚合即分别从矩阵S的行方向和列方向进行聚合,最终将两个方向的聚合结果向量进行拼接操作。以行聚合为例,首先对每行进行最大池化运算,对于第i行向量si={si0,si1,...,sin},取其中的最大值
Figure BDA0003860881400000093
然后使用高斯核函数对
Figure BDA0003860881400000094
进行一对多映射,得到多个映射值,组成向量Kr(Si);最后在列方向上对Kr(S)矩阵求对数平均值,得到长度为L的向量。具体公式如下所示:
Figure BDA0003860881400000095
Figure BDA0003860881400000096
Figure BDA0003860881400000097
Figure BDA0003860881400000098
其中,
Figure BDA0003860881400000099
表示第i行的最大向量值,Kr(Si)表示高斯核函数对对
Figure BDA00038608814000000910
进行一对多映射,得到多个映射值,组成的向量值,L向量为Kr(S)在列方向上对矩阵求对数平均值,n表示最大邻居数,L表示高斯核个数,r表示行聚合。将行聚合和列聚合的结果向量进行拼接,得到属性信息的相似度向量
Figure BDA00038608814000000911
为:
Figure BDA0003860881400000101
其中,表示
Figure BDA0003860881400000102
拼接运算,c表示列聚合。
(3.3)对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度。
将实体e和e′的名称相似度与属性信息的交互向量进行聚合,得到实体对(e,e′)的相似度向量,然后使用MLP网络计算实体之间的相似度分数g(e,e′),公式如下:
Figure BDA0003860881400000103
Figure BDA0003860881400000104
实体对齐过程中,先根据实体的C(e)向量计算m个余弦相似度最高的候选对齐实体,然后再使用以上方法分别计算m个候选实体与e间的相似度分数值g(e,e′),最后对结果进行从大到小排列,将最优结果作为下一次迭代的新对齐实体。
(4)基于co-training迭代协同训练:模型通过对大坝安全的文本训练数据集的迭代拓展,交替利用结构信息和属性信息对实体进行对齐,使两种信息达到相辅相成的作用,进而提高实体对齐的效果,具体流程如图1所示。基于co-training迭代协同训练的具体步骤如下:
(4.1)根据少量已对齐的实体集L将训练数据集T分为结构视角的实体嵌入关系三元组的数据集Xr和属性视角的实体嵌入三元组的数据集Xa,根据Xr训练并得到基于结构信息的对齐模型Fr,使用Fr对未标记的实体集进行对齐预测,将得到的最优结果L'r加入属性视角的训练数据集Xa中,得到新的标注数据集。同理,根据新的标注数据集训练并得到基于属性信息的对齐模型Fa,使用Fa对未标记的实体集进行预测,将得到的最优结果L'a加入结构视角的训练数据集Xr中,得到新的标注数据集;
(4.2)从每次预测得到的结果中选出可信的对齐结果,并将其加入已标记的补充训练数据集中,使用新的训练数据再次训练对齐模型。对上述两个对齐模型进行不断的迭代,直至模型收敛。
(5)将训练好的模型运用于计算机设备上,针对大坝安全知识库的知识图谱进行实体对齐,以图2实例为例,在应急工况“非正常泄水的工况”发生的情况下导致了河道堵塞,在系统中运行模型通过实体对齐进行风险联动,可以得到风险分级知识图谱中的“坝体非正常泄水”和应急响应措施知识图谱中的“大坝挡(泄)水安全险情Ⅰ级”两个实体相较近似,因此判断该险情为“大坝挡(泄)水安全险情”。同时又发生了河道堵塞的问题,在实体对齐的风险联动中发现“大坝挡(泄)水安全险情Ⅰ级”实体的措施关系中有实体“若为河道堵塞,及时清除下游障碍保证行洪”,因此系统可以判断险情为“大坝挡(泄)水安全险情Ⅰ级”,因此采取“大坝挡(泄)水安全险情Ⅰ级”对应的应急措施。
训练好的模型包括:
1)图谱构建模块:通过对大坝安全文件的知识抽取构建知识图谱;
2)编码训练模块:对知识图谱利用基于结构特征的对齐模型和基于属性特征的对齐模型进行编码训练;
3)协同训练模块:将基于结构特征的对齐模型和基于属性特征的对齐模型进行协同训练得到基于协同训练的面向大坝安全知识库风险联动的实体对齐模型;
4)模型预测模块:将训练好的模型嵌入系统,实现对大坝安全知识图谱的实体对齐,提高大坝安全知识库风险联动的准确性。
针对大坝数据集,即主要来源于黄登、景洪、漫湾等各个大坝历年专项检查等资料,共计1500篇报告,包含地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修和日常检查等构成的知识图谱进行实体对齐,结果实体的对齐效果显著提升,并且该模型的性能总体上优于其他的对齐方法,切实提高了知识库系统的风险联动准确性。除实体的结构特征之外,本基于大坝安全的实体对齐模型还结合了大坝安全知识图谱的特点,利用了实体的属性特征,这在结构特征信息不足时为精确对齐提供了更多的帮助。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
将训练好的基于协同训练的面向大坝安全知识库风险联动的实体对齐模型应用到计算机设备上,基于所述应用设备对大坝安全知识库进行计算,实现大坝知识库的实体对齐。
一种大坝安全知识库风险联动的实体对齐系统,包括:
训练集单元,在建立好大坝安全知识库的基础上,对大坝安全知识图谱进行知识抽取的操作,得到结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,并利用种子对齐分别构造基于结构特征的对齐模型和基于属性特征的对齐模型的基本大坝安全训练数据集;
基于结构特征的对齐模型,使用GCN对上述结构视角的实体嵌入关系三元组进行编码并对齐,首先根据不同知识图谱的关系三元组及种子对齐构建结构图,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离,从而判断实体间的相似度;
基于属性特征的对齐模型,使用BERT对上述属性视角的实体嵌入三元组进行编码并对齐,将实体对齐作为下游目标来调整一个预先训练的BERT模型,将属性类型和属性值分别使用预训练的BERT进行嵌入,对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度;
迭代协同训练单元:首先基于少量的“种子对齐”,对两个视角的对齐模型——基于结构特征的对齐模型和基于属性特征的对齐模型进行训练,并对未标记的实体进行对齐预测;然后从每次预测得到的结果中选出可信的对齐结果,并将其加入已标记的大坝安全训练数据集中,得到新的训练数据集,之后使用新的训练数据再次训练对齐模型;基于此,不断迭代交替的训练两个视角的对齐模型,直到两个视角的对齐模型都不再预测新的对齐实体对。
上述的本发明实施例基于协同训练的大坝安全知识库风险联动的实体对齐方法各步骤或基于协同训练的大坝安全知识库风险联动的实体对齐系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (8)

1.一种基于协同训练的大坝安全知识库风险联动的实体对齐方法,其特征在于,包括如下内容:
(1)大坝安全知识图谱信息提取:在建立好大坝安全知识库的基础上,对大坝安全知识图谱进行知识抽取的操作,得到结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,并利用种子对齐分别构造基于结构特征的对齐模型和基于属性特征的对齐模型的基本大坝安全训练数据集;
(2)基于结构特征的对齐模型:使用GCN对上述结构视角的实体嵌入关系三元组进行编码并对齐,首先根据不同知识图谱的关系三元组及种子对齐构建结构图,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离,从而判断实体间的相似度;
(3)基于属性特征的对齐模型:使用BERT对上述属性视角的实体嵌入三元组进行编码并对齐,将实体对齐作为下游目标来调整一个预先训练的BERT模型,将属性类型和属性值分别使用预训练的BERT进行嵌入,对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度;
(4)迭代协同训练:首先基于“种子对齐”,对两个视角的对齐模型——基于结构特征的对齐模型和基于属性特征的对齐模型进行训练,并对未标记的实体进行对齐预测;然后从每次预测得到的结果中选出可信的对齐结果,并将其加入已标记的大坝安全训练数据集中,得到新的训练数据集,之后使用新的训练数据再次训练对齐模型;不断迭代交替的训练两个视角的对齐模型,直到两个视角的对齐模型都不再预测新的对齐实体对。
(5)将实体对齐方法嵌入大坝安全知识库系统并运行于计算机设备上,针对大坝的知识库实现实体对齐。
2.根据权利要求1所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法,其特征在于,所述(1)大坝安全知识图谱信息提取中,给定两个具有结构信息和属性信息的知识图谱G1、G2,以及“种子对齐”L(m),构造基本大坝安全训练数据集,大坝安全训练数据集包括结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,具体步骤如下:
(1.1)从大坝安全知识库中,取大坝应急响应文本,从大坝应急响应文本中提取信息三元组;利用大坝应急响应文本提取三元组后,构建大坝安全知识图谱;将一个大坝安全知识图谱表示为G=(E,R,A,V,T),由实体集合E,关系谓词集合R,属性谓词集合A,属性值集合V以及三元组集合T组成,其中T=Tr∪Ta,Tr和Ta分别表示实体嵌入关系三元组的集合和实体嵌入三元组的集合;
(1.2)给定两个大坝安全知识图谱G1=(E1,R1,A1,V1,T1)和G2=(E2,R2,A2,V2,T2),分别使用GCN模型和BERT模型对Tr和Ta进行编码并训练,将已找到的对齐实体对作为训练数据的“种子对齐”;最终得到的数据集形式为三元组的集合。
3.根据权利要求1所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法,其特征在于,所述步骤(2)中基于结构特征的对齐模型,利用两层GCN在结构图上对实体进行编码,来计算实体向量之间的距离,从而判断实体间的相似度的具体步骤如下:
(2.1)根据不同知识图谱的结构视角的实体嵌入关系三元组及“种子对齐”,以实体为节点,以关系为边为不同的大坝安全知识图谱构建结构图;
(2.2)使用两层GCN在结构图上对实体进行编码;
(2.3)实体对齐过程中,通过双层GCN模型学习实体的结构特征向量,并计算该特征向量与另一知识图谱中的每个实体的结构特征向量之间的距离,对距离进行从小到大排序,选择距离最小的结果作为下一次迭代的新对齐实体。
4.根据权利要求1所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法,其特征在于,所述步骤(3)中基于BERT的属性特征的对齐模型的具体执行步骤如下:
(3.1)将实体对齐作为下游目标来调整一个预先训练的BERT模型;
(3.2)将属性视角的实体嵌入三元组映射为属性类型和属性值分别使用预训练的BERT进行嵌入;
(3.3)对属性值和属性类型进行交互并传入多层感知机MLP,得到实体对的相似度,将得到的实体相似度进行排序,将选择距离最小的结果作为下一次迭代的新对齐实体。
5.根据权利要求1所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法,其特征在于,所述步骤(4)中基于迭代协同训练的具体步骤如下:
(4.1)根据已对齐的大坝文本实体集L将基于大坝安全的三元组集合T分为结构视角的实体嵌入关系三元组的集合T和属性视角的实体嵌入三元组集合Ta;根据Tr训练并得到基于结构特征的对齐模型Fr,使用Fr对未标记的实体集进行对齐预测,将得到的最优结果L'r加入属性视角的实体嵌入三元组集合Ta中,得到新的标注数据集;同理,根据新的标注数据集训练并得到基于属性信息的对齐模型Fa,使用Fa对未标记的实体集进行预测,将得到的最优结果L'a加入结构视角的实体嵌入关系三元组的集合Tr中,得到新的标注数据集;
(4.2)使用新的训练数据再次训练对齐模型,对上述两个对齐模型进行不断的迭代,直至模型收敛。
6.一种大坝安全知识库风险联动的实体对齐系统,其特征在于,包括:
训练集单元,在建立好大坝安全知识库的基础上,对大坝安全知识图谱进行知识抽取的操作,得到结构视角的实体嵌入关系三元组和属性视角的实体嵌入三元组,并利用种子对齐分别构造基于结构特征的对齐模型和基于属性特征的对齐模型的基本大坝安全训练数据集;
基于结构特征的对齐模型,使用GCN对上述结构视角的实体嵌入关系三元组进行编码并对齐,首先根据不同知识图谱的关系三元组及种子对齐构建结构图,然后使用两层GCN在结构图上对实体进行编码,最后计算实体向量之间的距离,从而判断实体间的相似度;
基于属性特征的对齐模型,使用BERT对上述属性视角的实体嵌入三元组进行编码并对齐,将实体对齐作为下游目标来调整一个预先训练的BERT模型,将属性类型和属性值分别使用预训练的BERT进行嵌入,对属性值和属性类型进行交互并传入多层感知机MLP得到实体对的相似度;
迭代协同训练单元:首先基于少量的“种子对齐”,对两个视角的对齐模型——基于结构特征的对齐模型和基于属性特征的对齐模型进行训练,并对未标记的实体进行对齐预测;然后从每次预测得到的结果中选出可信的对齐结果,并将其加入已标记的大坝安全训练数据集中,得到新的训练数据集,之后使用新的训练数据再次训练对齐模型;不断迭代交替的训练两个视角的对齐模型,直到两个视角的对齐模型都不再预测新的对齐实体对。
7.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-5中任一项所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法。
8.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-5中任一项所述的基于协同训练的大坝安全知识库风险联动的实体对齐方法的计算机程序。
CN202211164831.3A 2022-09-23 2022-09-23 面向大坝安全知识库风险联动的实体对齐方法和系统 Active CN115828882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211164831.3A CN115828882B (zh) 2022-09-23 2022-09-23 面向大坝安全知识库风险联动的实体对齐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211164831.3A CN115828882B (zh) 2022-09-23 2022-09-23 面向大坝安全知识库风险联动的实体对齐方法和系统

Publications (2)

Publication Number Publication Date
CN115828882A true CN115828882A (zh) 2023-03-21
CN115828882B CN115828882B (zh) 2023-06-16

Family

ID=85523831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211164831.3A Active CN115828882B (zh) 2022-09-23 2022-09-23 面向大坝安全知识库风险联动的实体对齐方法和系统

Country Status (1)

Country Link
CN (1) CN115828882B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202041A (zh) * 2016-07-01 2016-12-07 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN113342809A (zh) * 2021-05-31 2021-09-03 北京工商大学 一种基于图神经网络的互联网食品实体对齐方法及系统
CN114969367A (zh) * 2022-05-30 2022-08-30 大连民族大学 基于多方面子任务交互的跨语言实体对齐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202041A (zh) * 2016-07-01 2016-12-07 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
CN112131404A (zh) * 2020-09-19 2020-12-25 哈尔滨工程大学 一种四险一金领域知识图谱中实体对齐方法
CN113342809A (zh) * 2021-05-31 2021-09-03 北京工商大学 一种基于图神经网络的互联网食品实体对齐方法及系统
CN114969367A (zh) * 2022-05-30 2022-08-30 大连民族大学 基于多方面子任务交互的跨语言实体对齐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAYING ZHANG 等: "From electronic health records to terminology base: A novel knowledge base enrichment approach", 《JOURNAL OF BIOMEDICAL INFORMATICS》, pages 1 - 9 *
任尊晓 等: "一种基于多尺度特征和改进采样策略的异构网络对齐方法", 《数据采集与处理》, vol. 36, no. 4, pages 779 - 788 *

Also Published As

Publication number Publication date
CN115828882B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
CN109145939B (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN113033520B (zh) 一种基于深度学习的树木线虫病害木识别方法及系统
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN112217674B (zh) 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN113672865A (zh) 一种基于深度图高斯过程的交通流量预测方法
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
CN111523713A (zh) 一种预测油田中剩余油饱和度分布的方法和装置
Li et al. Risk analysis of dam based on artificial bee colony algorithm with fuzzy c-means clustering
CN111259167B (zh) 用户请求风险识别方法及装置
CN115982374B (zh) 大坝应急响应知识库联动的多视角学习实体对齐方法和系统
CN114003900A (zh) 变电站二次系统网络入侵检测方法、装置及系统
CN115828882B (zh) 面向大坝安全知识库风险联动的实体对齐方法和系统
CN116362593A (zh) 河湖生态安全评价模型的构建方法、评价方法及装置
CN115577696A (zh) 一种基于wbs树的项目相似度评估及分析方法
Tong Research on multiple classification detection for network traffic anomaly based on deep learning
CN114862588A (zh) 一种面向区块链交易行为的异常检测方法
CN114757581A (zh) 一种金融交易风险评估方法、装置、电子设备及计算机可读介质
CN117133116B (zh) 一种基于时空关联网络的交通流预测方法及系统
WO2022066239A1 (en) Representation learning of semi-structured data
CN114880492A (zh) 一种基于图卷积神经网络的bow图匹配方法及系统
CN118069985A (zh) 美学评分分布预测模型的构建和多模态图像美学评估方法
Rukmi et al. An Advanced Graph Embedding Framework with Node Embedding to Design Water Pipeline Networks
Shi et al. Weighted Graph Convolutional Network for Collaborative Filtering Considering Entity Similarity
CN117216374A (zh) 内容推荐方法、装置、计算机可读存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant