CN115982374A - 大坝应急响应知识库联动的多视角学习实体对齐方法和系统 - Google Patents

大坝应急响应知识库联动的多视角学习实体对齐方法和系统 Download PDF

Info

Publication number
CN115982374A
CN115982374A CN202211539459.XA CN202211539459A CN115982374A CN 115982374 A CN115982374 A CN 115982374A CN 202211539459 A CN202211539459 A CN 202211539459A CN 115982374 A CN115982374 A CN 115982374A
Authority
CN
China
Prior art keywords
entity
emergency response
dam
knowledge base
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211539459.XA
Other languages
English (en)
Other versions
CN115982374B (zh
Inventor
毛莺池
薛扬帆
李志兴
汪强
杜建民
张宁权
蒋金磊
张浩江
万旭
王龙宝
苏健
孟欢
段云超
刘晋曦
梁国峰
魏子钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Original Assignee
Hohai University HHU
Huaneng Group Technology Innovation Center Co Ltd
Huaneng Lancang River Hydropower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Huaneng Group Technology Innovation Center Co Ltd, Huaneng Lancang River Hydropower Co Ltd filed Critical Hohai University HHU
Priority to CN202211539459.XA priority Critical patent/CN115982374B/zh
Publication of CN115982374A publication Critical patent/CN115982374A/zh
Application granted granted Critical
Publication of CN115982374B publication Critical patent/CN115982374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种大坝应急响应知识库联动的多视角学习实体对齐方法和系统,包括:大坝应急响应知识库的知识图谱构建,针对大坝应急响应文件进行知识抽取的操作,构建大坝应急响应知识图谱;提出基于BERT嵌入的多视角学习实体对齐方法,融入非结构化文本描述特征改善实体编码,将实体文本描述与实体结构及属性相结合,对实体进行充分表示;同时,以将共享注意力权重作用于属性类型嵌入与属性值嵌入,防止噪声属性造成结果偏差;通过上述对齐方法对大坝应急响应知识库的知识图谱进行实体对齐操作,实现应急发生时的大坝应急响应知识库联动。

Description

大坝应急响应知识库联动的多视角学习实体对齐方法和系统
技术领域
本发明涉及一种大坝应急响应知识库联动的多视角学习实体对齐方法和系统,属于文本数据处理技术领域。
背景技术
互联网的迅速发展带来数据的爆炸式增长,如何将信息结构化以便更快速精确的检索信息亟待解决,由此,知识图谱(Knowledge Graph,KG)的概念应运而生。知识图谱提出的初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验,其本质是一种大规模的语义网络(Semantic Network),结构化的语义知识库(Knowledge Base,KB),形式化的描述物理世界中的概念及其相互关系。随着相关技术的不断发展,知识图谱已经广泛应用于智能搜索、智能问答、个性化推荐等领域。
如今知识图谱技术已经被逐渐运用于社会的各个领域。其中,在大坝安全应急工况风险联动领域,知识图谱技术被广泛运用于大坝安全的知识库构建以及应急响应系统的风险联动当中。目前大坝安全的知识库构建工作硕果累累,但是这些构建的知识图谱大多是分散而独立的,当前的大坝安全知识图谱中存在着图谱中的多个实体指向客观世界的相同事物的问题,各个知识图谱之间存在大量重复的知识,同时实体对齐方法对监督数据依赖性较强,且知识图谱构建时由于侧重点不同从而知识图谱出现稀疏或不完整的情况,导致实体对齐任务效果不佳,从而影响知识图谱之间联动的准确性,这些问题都阻碍了大坝安全数据的有效集成与复用,因此提高实体对齐效果,从而提高在大坝发生应急工况时安全知识库的风险联动的准确性是当务之急。
已有实体对齐方法存在数据特征利用不充分,在知识图谱稀疏或属性信息稀少的情况下对齐准确率较低,对实体语义捕获不充分等问题。在关系稀疏且属性信息较少的情况下,仅通过关系三元组和属性三元组较难判断对齐,同时实体名称略有区别,但是两者的文本描述部分具有很大的相似性,很容易出现相同的实体或者具有类似结构的表述内容。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种大坝应急响应知识库联动的多视角学习实体对齐方法和系统,对知识图谱进行了基于BERT模型(一种预训练的语言表征模型)的多视角学习实体对齐(entity alignment)工作。将存在于不同的大坝安全知识图谱中,但指向客观世界中同一物体的名称对应起来,并得到它们之间评估相似性程度的置信度。该任务可以对大坝安全知识图谱进行扩充,从而提高大坝安全知识图谱的质量和覆盖范围,从而在大坝发生应急工况下,提高风险联动的准确性,使得有关部门做出更有效的决策。
本发明提出大坝应急响应知识库联动的多视角学习实体对齐方法,该方法通过融合实体文本描述特征,解决知识图谱稀疏时仅依赖关系和属性进行对齐的准确率低以及数据特征利用不充分的问题;通过使用预训练的BERT模型对属性及文本描述特征进行嵌入,解决使用字符级别属性嵌入时语义捕获不充分的问题。同时,在属性嵌入部分考虑到并非所有的属性对实体对齐的贡献都一样,可能存在许多无用的噪声属性,因此为了学习到不同属性的重要程度,以共享注意力权重的形式作用于属性类型嵌入与属性值嵌入。解决在知识图谱稀疏的情况下,三元组信息缺少时实体对齐概率较低的问题。
技术方案:一种大坝应急响应知识库联动的多视角学习实体对齐方法,利用大坝应急响应文件数据,进行知识抽取构建三元组的操作,利用Neo4j构建大坝应急响应知识库的知识图谱;将实体的结构特征和实体的属性及文本描述特征表示为嵌入的特征向量;将上述向量进行拼接实现联合语义表示;将需要实体对齐的两个实体的联合语义表示向量输入孪生神经网络计算实体相似度,来实现实体对齐;实体对齐方法嵌入大坝应急响应知识库系统中进行实体对齐操作。
方法包括如下内容:
(1)大坝应急响应知识库的知识图谱构建:利用大坝安全的风险工况应急响应文件数据,对文件数据中的知识进行知识抽取操作,得到构建知识图谱所需的三元组,利用抽取所得三元组构建大坝应急响应知识库的知识图谱。
(2)实体的特征嵌入:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分。其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示。
(3)实体的语义联合表示:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。
(4)基于孪生神经网络的实体对齐匹配方法:将得到的实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐,通过以上基于孪生神经网络的实体对齐匹配方法构建多视角学习实体对齐模型。
将实体对齐方法嵌入大坝应急响应知识库系统并运行于计算机设备上,针对大坝应急响应知识库中的图谱进行实体对齐操作,从而实现应急工况发生时,知识库之间的联动,提高风险联动的准确性,从而提高应急措施的实施效率。
进一步的,所述(1)大坝应急响应知识库的知识图谱构建,具体步骤如下:
(1.1)从大坝安全知识库中,取大坝应急响应文本数据,从大坝应急响应文本数据中提取信息三元组,得到三元组集合。
(1.2)利用图数据库Neo4j在构建好的三元组集合的基础上,构建大坝应急响应知识库的知识图谱,所得知识图谱中的实体用于下文方法中知识库联动的实体对齐操作。
进一步的,所述步骤(2)中实体的特征嵌入,将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分。具体步骤如下:
(2.1)实体结构特征嵌入:基于TransE模型进行嵌入,对于TransE模型中生成反例的随机采样法,使用截断式反例三元组生成方式。
给定一个关系三元组(h,r,t),TransE将头实体h、尾实体t和关系r都嵌入到统一的低维向量空间中,使得实体和关系满足约束:h+r≈t,即r是头尾实体之间的翻译关系。为了在学习中实现这一假设,通过不断调整h、r,使得h+r尽可能与t相等,定义打分函数为:fr(h,t)=-||h+r-t||1/2
其中,使用||·||1/2代表在该打分函数中使用l1范数或l2范数皆可。在(4)中基于孪生神经网络的多视角学习实体对齐模型训练过程中,TransE采用最大间隔方法,最小化目标函数,目标函数如下:
Figure BDA0003976646050000031
其中,(h,r,t)∈S是知识库中的正例三元组,即知识图谱中真实存在的三元组。(h′,r,t′)∈S′是负采样的三元组,即将正例三元组的头实体或尾实体替换成实体集中的其他实体,从而生成知识图谱内不存在的三元组。γ是取值大于0的间隔距离超参数,在训练时多视角学习实体对齐模型采用梯度下降法。
对于负采样的三元组S′,采用截断式反例三元组生成方式,以期生成高质量的反例三元组。在训练过程中生成反例的具体做法:对于一个待替换的实体,通过计算该实体与其他实体之间的向量相似度找到距离该实体最近的前k个实体,进而从该k个实体中随机采样任一实体来替换该实体,生成对应的反例三元组。与原始的TransE模型通过随机采样生成反例的方式相比,随机采样的方式生成反例三元组的速度快,但不能保证生成质量,可能对训练产生消极作用,而采用截断式反例生成方式生成的反例更容易与正例拥有相同的类型或相似的关系,从而能够对训练有积极的帮助。
(2.2)属性特征及文本描述特征嵌入:对于实体的属性特征和文本描述特征的嵌入部分,多视角学习实体对齐模型基于BERT模型对实体的属性和文本描述特征分别进行特征向量表示。BERT利用MLM(masked language model)进行预训练并且采用深层的双向Transformer组件来构建整个多视角学习实体对齐模型,因此最终生成能够融合左右上下文信息的深层双向语言表征,使嵌入向量具有更丰富的语义信息。首先利用预训练的BERT模型接受上述大坝安全知识图谱中的三元组中的文本信息作为输入,取分类标签的对应值,然后使用MLP进行映射,将得到的结果作为实体描述信息的向量表示。
首先对于文本描述特征,进行上述操作得到实体描述信息的向量表示:Edesc=MLP(CLS(d)),其中CLS指的是分类标签,d为特征向量。对于属性特征,考虑到并非所有的属性对实体对齐的贡献都一样,可能存在许多无用的噪声属性,在知识图谱稀疏的情况下对对齐结果产生偏差。为了学习到不同属性的重要程度,以共享注意力权重的形式作用于属性类型嵌入与属性值嵌入。首先,将属性分为属性类型和属性值,使用BERT分别进行嵌入,取其分类标签的对应值CLS(ai)和CLS(vi),为方便记作
Figure BDA0003976646050000041
Figure BDA0003976646050000042
实体的M个属性类型嵌入表示为
Figure BDA0003976646050000043
可以计算其不同属性类型的重要性:
Figure BDA0003976646050000044
其中,Wa表示的是
Figure BDA0003976646050000045
的权重矩阵。这里使用属性类型嵌入来获得注意力权重,属性值的权重应该与其属性类型的权重一致,分别得到属性类型和属性值为:
Figure BDA0003976646050000046
Figure BDA0003976646050000047
其中
Figure BDA0003976646050000048
是第i个属性类型的嵌入向量,
Figure BDA0003976646050000049
是对应属性值的嵌入向量。将属性类型和属性值的最终嵌入向量进行拼接操作,然后使用MLP进行映射,得到该实体属性的向量表示:
Figure BDA00039766460500000410
进一步的,所述步骤(3)中实体的语义联合表示的具体执行步骤如下:
(3.1)基于以上操作对结构特征、属性特征及文本描述特征的编码,分别得到其向量表示,采用向量拼接的方式将三种表示向量进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。拼接得到的向量既保留了结构信息,也保留了属性及文本描述中的语义信息,即:实体的联合语义表示
Figure BDA0003976646050000051
其中,ETransE代表基于TransE模型编码得到的实体结构信息,Eattr代表基于BERT模型编码得到的实体属性信息,Edesc代表基于BERT编码得到的实体描述信息,通过
Figure BDA0003976646050000052
运算符将三个向量进行拼接操作,得到实体的联合语义表示。
进一步的,所述步骤(4)中基于孪生神经网络的实体对齐匹配方法的具体执行步骤如下:
(4.1)孪生神经网络(Siamese neural network)是基于两个人工神经网络建立的耦合架构,由两个结构相同且权重共享的神经网络拼接而成。以两个样本为输入到两个神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度。
本方法所使用的孪生神经网络模型由两个对称的子网络和一个距离评估函数组成,将向量拼接所得到的实体联合语义向量作为网络底层的输入,通过CNN层和全连接层对隐层特征进行融合;同时,两个子网络的CNN层和全连接层之间共享权重,将两个子网络的输出经过距离评估函数进行计算。将两个实体联合语义向量样本Ea和Eb作为输入,经过由CNN层和全连接层组成的子网络得到两个输出,分别记为Gw(Ea)和Gw(Eb)。计算它们的欧式距离,使用l2范式,公式如下:Dw(Ea,Eb)=||Gw(Ea)-Gw(Eb)||。其中,Ea、Eb分别为实体A和实体B的联合语义向量。
(4.2)在欧式距离的基础上,将最小化相同类的数据之间的距离,最大化不同类之间的距离,使用对比损失函数来计算实体之间的相似性,具体公式如下:
Figure BDA0003976646050000053
其中,Dw为两个样本Ea和Eb的欧式距离,Y为两个样本是否匹配的标签,Y=1代表两个样本相似或者匹配,Y=0则代表不匹配。L0和L1相当于一个系数,为了满足以上损失函数的特点,使得L0单调递增,L1单调递减。通过损失计算来评价两个实体的相似程度,从而实现实体对齐。
进一步的,运用上述方法在大坝应急响应知识库系统中实现大坝安全知识库中知识图谱的实体对齐。将大坝应急响应知识库联动的多视角实体对齐方法应用到计算机设备上,基于计算机设备对大坝应急响应知识库进行计算,实现大坝应急响应知识库联动的实体对齐。
一种大坝应急响应知识库联动的多视角学习实体对齐系统,包括:
知识图谱模块:在建立完成大坝应急响应知识库的基础上,对大坝应急响应文件数据进行知识抽取的操作,得到用于构建知识图谱的三元组,利用Neo4j图数据库进行大坝应急响应知识图谱的构建;
实体的特征嵌入模块:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示;
实体的语义联合表示模块:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,得到实体联合语义向量;
基于孪生神经网络的实体对齐匹配模块:将实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的大坝应急响应知识库联动的多视角学习实体对齐方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的大坝应急响应知识库联动的多视角学习实体对齐方法的计算机程序。
有益效果:与现有技术相比,针对现有的实体对齐方法大多仅使用了知识图谱中的实体结构特征,对实体其他特征如实体名称、属性值、文本描述等利用不充分的情况,导致实体对齐任务效果不佳的问题。本发明利用基于BERT的多视角实体对齐方法,解决在知识图谱稀疏的情况下,三元组信息缺少时实体对齐概率较低的问题。本发明同时引入实体的结构信息和语义信息,来解决知识图谱稀疏时仅使用单一特征时实体对齐准确率较低的问题;通过采用BERT方法对属性特征和文本描述特征进行嵌入,能够很好的捕获语义上下文的特征信息,辅助实体对齐任务;同时以共享注意力权重的形式作用于属性嵌入,防止引入噪声属性造成结果偏差,提高系统的实体对齐效果。实现在应急工况发生时,大坝的应急响应知识库之间的快速联动,有效迅速寻找对应工况的应急措施,实现安全风险的有效预防和应对,切实保障大坝的日常安全。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例的知识图谱的实例图;
图3为本发明实施例的基于BERT嵌入的多视角学习实体对齐模型架构图;
图4为本发明实施例的孪生神经网络模型示意图;
图5本发明实施例的大坝数据集中实体三元组及文本描述示例。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,大坝应急响应知识库联动的多视角学习实体对齐方法,包括如下步骤:
(1)大坝应急响应知识库的知识图谱构建:利用大坝安全的风险工况应急响应文件数据,对文件数据中的知识进行知识抽取操作,得到构建知识图谱所需的三元组,利用抽取所得三元组构建大坝应急响应知识库的知识图谱。具体步骤如下:
(1.1)大坝安全的三元组的数据源主要来源于大坝应急管控文件数据和日常巡检报告数据两部分。其中巡检报告数据包含地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修和日常检查等获取的数据,除大量三元组之外,还囊括了文本描述信息。首先根据大坝应急响应知识库的知识图谱提取出参考实体和结构三元组,然后从知识库中提取所有涉及对齐中实体的属性三元组,具体文本案例如下:
大坝应急相遇文本描述案例
Figure BDA0003976646050000071
利用大坝应急响应文本提取三元组后,构建大坝安全知识图谱。最终得到的数据集形式为三元组的集合,形式例如:(渗流,位置,混凝土接缝)。
(1.2)得到三元组后根据所得三元组,利用图数据库Neo4j构建知识图谱,大坝应急响应知识库的两个知识图谱,如图2所示。应急响应知识库中得到的大坝数据集统计数据如下所示:
大坝数据集统计数据
Figure BDA0003976646050000072
在该大坝数据集中,将各个数据集70%的数据用于监督训练,20%的数据作为验证数据,10%的数据作为测试数据集。
(2)实体的特征嵌入:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分。其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示。基于BERT嵌入的多视角学习实体对齐模型架构如图3所示,具体步骤如下:
(2.1)实体结构特征嵌入:基于TransE模型进行嵌入,对于TransE模型中生成反例的随机采样法,使用截断式反例三元组生成方式;
给定一个关系三元组(h,r,t),TransE将头实体h、尾实体t和关系r都嵌入到统一的低维向量空间中,使得实体和关系满足约束:h+r≈t,即r是头尾实体之间的翻译关系。以关系三元组(渗流,位置,混凝土接缝)为例,TransE的目标是将头实体“渗流”的向量加上关系“位置”的向量,尽可能的等于尾实体“混凝土接缝”的向量。为了在学习中实现这一假设,通过不断调整h、r,使得h+r尽可能与t相等,定义打分函数为:fr(h,t)=-||h+r-t||1/2
其中,使用||·||1/2代表在该打分函数中使用l1范数或l2范数皆可。在模型训练过程中,TransE采用最大间隔方法,最小化目标函数,目标函数如下:
Figure BDA0003976646050000081
其中,(h,r,t)∈S是知识库中的正例三元组,即知识图谱中真实存在的三元组,如(渗流,位置,混凝土接缝)就是一个正例三元组。(h′,r,t′)∈S′是负采样的三元组,即将正例三元组的头实体或尾实体替换成实体集中的其他实体,从而生成知识图谱内不存在的三元组。γ是取值大于0的间隔距离超参数,在训练时模型采用梯度下降法。
对于负采样的三元组S′,采用截断式反例三元组生成方式,以期生成高质量的反例三元组。以关系三元组(渗流,位置,混凝土接缝)为例,生成一个反例三元组为(渗流,位置,射水),实体“混凝土接缝”和实体“射水”基本没有关系,导致该反例对训练帮助有限;相反,生成一个反例三元组(渗流,位置,渐变段混凝土)则对训练帮助更大,这是因为实体“混凝土接缝”和实体“渐变段混凝土”属于同一类型,两者在向量空间中的距离也更为接近。
(2.2)属性特征及文本描述特征嵌入:对于实体的属性特征和文本描述特征的嵌入部分,多视角学习实体对齐模型基于BERT模型对其分别进行特征向量表示,本发明通过基于孪生神经网络的实体对齐匹配方法,得到多视角学习实体对齐模型。BERT利用MLM(masked language model)进行预训练并且采用深层的双向Transformer组件来构建整个多视角学习实体对齐模型,因此最终生成能够融合左右上下文信息的深层双向语言表征,使嵌入向量具有更丰富的语义信息。首先利用预训练的BERT接受上述大坝安全知识图谱中的三元组中的文本信息作为输入,取分类标签的对应值,然后使用MLP进行映射,将得到的结果作为该实体的向量表示。
首先对于文本描述特征,进行上述操作得到该实体描述信息的向量表示:Edesc=MLP(CLS(d)),其中CLS指的是分类标签,d为特征向量。对于属性特征,考虑到并非所有的属性对实体对齐的贡献都一样,可能存在许多无用的噪声属性,在知识图谱稀疏的情况下对对齐结果产生偏差。为了学习到不同属性的重要程度,以共享注意力权重的形式作用于属性类型嵌入与属性值嵌入。首先,将属性分为属性类型和属性值,使用BERT分别进行嵌入,取其分类标签的对应值CLS(ai)和CLS(vi),为方便记作
Figure BDA0003976646050000091
Figure BDA0003976646050000092
其中
Figure BDA0003976646050000093
是第i个属性类型的嵌入向量,
Figure BDA0003976646050000094
是对应属性值的嵌入向量。实体的M个属性类型嵌入表示为
Figure BDA0003976646050000095
可以计算其不同属性类型的重要性αI,其计算公式为:
Figure BDA0003976646050000096
其中,Wa表示的是
Figure BDA0003976646050000097
的权重矩阵。这里使用属性类型嵌入来获得注意力权重,属性值的权重应该与其属性类型的权重一致,分别得到属性类型和属性值为:
Figure BDA0003976646050000098
Figure BDA0003976646050000099
将属性类型和属性值的最终嵌入向量进行拼接操作,然后使用MLP进行映射,得到该实体属性的向量表示:
Figure BDA00039766460500000910
(3)实体的语义联合表示:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种表示向量进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。具体步骤如下:
(3.1)基于以上操作对结构特征、属性特征及文本描述特征的编码,分别得到其向量表示,本节采用向量拼接的方式将三种表示向量进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中。拼接得到的向量既保留了结构信息,也保留了属性及文本描述中的语义信息,即:
Figure BDA00039766460500000911
其中,ETransE代表基于TransE模型编码得到的实体结构信息,Eattr代表基于BERT模型编码得到的实体属性信息,Edesc代表基于BERT编码得到的实体描述信息,通过
Figure BDA00039766460500000912
运算符将三个向量进行拼接操作,得到实体的联合语义表示。
(4)基于孪生神经网络的实体对齐匹配方法:将得到的实体的联合语义表示向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。具体步骤如下:
(4.1)如图4所示,使用的孪生神经网络模型由两个对称的子网络和一个距离评估函数组成,将向量拼接所得到的实体联合语义向量作为网络底层的输入,通过CNN层和全连接层对隐层特征进行融合;同时,两个子网络的CNN层和全连接层之间共享权重,将其输出经过距离评估函数进行计算。将两个样本Ea和Eb作为输入,经过由CNN层和全连接层组成的子网络得到两个输出,分别记为Gw(Ea)和Gw(Eb)。计算它们的欧式距离,使用l2范式,公式如下:Dw(Ea,Eb)=||Gw(Ea)-Gw(Eb)||。其中,Ea、Eb分别为实体A和实体B的联合语义向量。
(4.2)在欧式距离的基础上,将最小化相同类的数据之间的距离,最大化不同类之间的距离,使用对比损失函数来计算实体之间的相似性,具体公式如下:
Figure BDA0003976646050000101
其中,Dw为两个样本Ea和Eb的欧式距离,Y为两个样本是否匹配的标签,Y=1代表两个样本相似或者匹配,Y=0则代表不匹配。L0和L1相当于一个系数,为了满足以上损失函数的特点,使得L0单调递增,L1单调递减。通过损失计算来评价两个实体的相似程度,从而实现实体对齐。
(5)将上述多视角学习实体对齐方法运用于计算机设备上,针对大坝应急响应知识库的知识图谱进行实体对齐,以图5实例为例,在两处文本中提取的(渗流,主体,1号机进水口)和(渗水,位置,混凝土接缝处)两个三元组中,实体“渗流”和“渗水”指代的事物相同,通过本模型方法可以在多视角实体对齐系统中实现实体对齐,将渗流和渗水两个实体进行对齐后可以有效地进行应急响应的措施应对。
如图2所示,在应急工况“非正常渗水的工况”发生的情况下导致了河道堵塞,在系统中运行模型通过实体对齐进行风险联动,可以得到应急分级知识图谱中的“坝体非正常渗水”和应急措施知识图谱中的“大坝挡(渗)水安全险情Ⅰ级”两个实体相较近似,因此判断该险情为“大坝挡(渗)水安全险情”。同时又发生了河道堵塞的问题,在实体对齐的风险联动中发现“大坝挡(渗)水安全险情Ⅰ级”实体的措施关系中有实体“若为河道堵塞,及时清除下游障碍保证行洪”,因此系统可以判断险情为“大坝挡(渗)水安全险情Ⅰ级”,因此采取“大坝挡(渗)水安全险情Ⅰ级”对应的应急措施。
大坝应急响应知识库联动的多视角学习实体对齐系统,包括:
知识图谱模块:在建立完成大坝应急响应知识库的基础上,对大坝应急响应文件数据进行知识抽取的操作,得到用于构建知识图谱的三元组,利用Neo4j图数据库进行大坝应急响应知识图谱的构建;
实体的特征嵌入模块:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示;
实体的语义联合表示模块:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,得到实体联合语义向量;
基于孪生神经网络的实体对齐匹配模块:将实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。针对大坝数据集,即主要来源于黄登、景洪、漫湾等各个大坝应急管控文件数据和日常巡检报告数据。其中巡检报告数据包含地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修和日常检查等获取的数据,除大量三元组之外,还囊括了文本描述信息。通过构造知识图谱进行实体对齐,利用本系统进行实体对齐的对齐效果显著提升,并且该模型的性能总体上优于其他的对齐方法,切实提高了应急响应知识库在应急工况发生时风险联动的效率,切实保障大坝安全。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
上述的本发明实施例大坝应急响应知识库联动的多视角学习实体对齐方法,各步骤与大坝应急响应知识库联动的多视角学习实体对齐系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (9)

1.一种大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,包括如下内容:
(1)大坝应急响应知识库的知识图谱构建:利用大坝安全的风险工况应急响应文件数据,对文件数据中的知识进行知识抽取操作,得到构建知识图谱所需的三元组,利用抽取所得三元组构建大坝应急响应知识库的知识图谱;
(2)实体的特征嵌入:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示;
(3)实体的语义联合表示:基于对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中;
(4)基于孪生神经网络的实体对齐匹配方法:将得到的实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。
2.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,将实体对齐方法嵌入大坝应急响应知识库系统并运行于计算机设备上,针对大坝应急响应知识库中的图谱进行实体对齐操作。
3.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,所述(1)大坝应急响应知识库的知识图谱构建,具体步骤如下:
(1.1)从大坝应急响应知识库中,取大坝应急响应文本数据,从大坝应急响应文本数据中利用常用实体抽取方法抽取构建知识图谱所需三元组,得到三元组集合
(1.2)利用所得三元组,在图数据库Neo4j中构建大坝应急响应知识库的知识图谱。
4.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,所述步骤(2)中实体的特征嵌入,将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;具体步骤如下:
(2.1)实体结构特征嵌入:基于TransE模型进行嵌入,对于TransE模型中生成反例的随机采样法,使用截断式反例三元组生成方式;
(2.2)属性特征及文本描述特征嵌入:首先利用预训练的BERT接受相应的文本信息作为输入,取分类标签的对应值,然后使用MLP进行映射,将得到的结果作为该实体的向量表示。
5.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,所述步骤(3)中实体的语义联合表示的实现过程为:基于以上操作对结构特征、属性特征及文本描述特征的编码,分别得到其向量表示,采用向量拼接的方式将三种表示向量进行拼接,利用文本语义空间的一致性,将不同的知识库映射到同一语义空间中,得到实体的联合语义表示。
6.根据权利要求1所述的大坝应急响应知识库联动的多视角学习实体对齐方法,其特征在于,所述步骤(4)中基于孪生神经网络的实体对齐匹配方法的具体执行步骤如下:
(4.1)孪生神经网络是基于两个人工神经网络建立的耦合架构,由两个结构相同且权重共享的神经网络拼接而成;以两个样本为输入到两个神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度;
(4.2)在欧式距离的基础上,将最小化相同类的数据之间的距离,最大化不同类之间的距离,使用对比损失函数来计算实体之间的相似性,通过损失计算来评价两个实体的相似程度,从而实现实体对齐。
7.一种大坝应急响应知识库联动的多视角学习实体对齐系统,其特征在于,包括:
知识图谱模块:在建立完成大坝应急响应知识库的基础上,对大坝应急响应文件数据进行知识抽取的操作,得到用于构建知识图谱的三元组,利用Neo4j图数据库进行大坝应急响应知识图谱的构建;
实体的特征嵌入模块:将实体特征嵌入分为结构特征嵌入和属性特征及文本描述特征嵌入两个部分;其中实体结构特征基于TransE模型进行嵌入,实体属性特征及文本描述特征基于BERT模型对实体分别进行特征向量表示;
实体的语义联合表示模块:基于上述对结构特征、属性特征及文本描述特征的编码得到的向量表示,采用向量拼接的方式将三种向量表示进行拼接,得到实体联合语义向量;
基于孪生神经网络的实体对齐匹配模块:将实体联合语义向量输入孪生神经网络,通过两个神经网络分别将其映射到新的空间,形成输入在新的空间中的表示,最后通过损失计算来评价两个样本的相似程度,来评估两个实体的相似程度,从而实现实体对齐。
8.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的大坝应急响应知识库联动的多视角学习实体对齐方法。
9.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-6中任一项所述的大坝应急响应知识库联动的多视角学习实体对齐方法的计算机程序。
CN202211539459.XA 2022-12-02 2022-12-02 大坝应急响应知识库联动的多视角学习实体对齐方法和系统 Active CN115982374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211539459.XA CN115982374B (zh) 2022-12-02 2022-12-02 大坝应急响应知识库联动的多视角学习实体对齐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211539459.XA CN115982374B (zh) 2022-12-02 2022-12-02 大坝应急响应知识库联动的多视角学习实体对齐方法和系统

Publications (2)

Publication Number Publication Date
CN115982374A true CN115982374A (zh) 2023-04-18
CN115982374B CN115982374B (zh) 2023-07-04

Family

ID=85965619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211539459.XA Active CN115982374B (zh) 2022-12-02 2022-12-02 大坝应急响应知识库联动的多视角学习实体对齐方法和系统

Country Status (1)

Country Link
CN (1) CN115982374B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195894A (zh) * 2023-07-18 2023-12-08 安徽省交通规划设计研究总院股份有限公司 一种多维特征融合的桥梁康养领域实体对齐方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198719A1 (en) * 2000-12-04 2002-12-26 International Business Machines Corporation Reusable voiceXML dialog components, subdialogs and beans
CN105487905A (zh) * 2015-11-27 2016-04-13 东软集团股份有限公司 一种混合应用的更新方法和装置
US20190065156A1 (en) * 2017-08-25 2019-02-28 Salesforce.Com, Inc. Overriding component attributes in a web application builder
CN109976756A (zh) * 2019-03-11 2019-07-05 宸瑞普惠(广州)科技有限公司 Ui显示效果一致性的处理方法与系统
CN112052000A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 组件复用、渲染方法及装置
US20210105340A1 (en) * 2019-10-08 2021-04-08 Magic Leap, Inc. Methods, systems, and computer program products for implementing cross-platform mixed-reality applications with a scripting framework
CN112988917A (zh) * 2021-03-31 2021-06-18 东南大学 一种基于多种实体上下文的实体对齐方法
CN113298426A (zh) * 2021-06-17 2021-08-24 华能澜沧江水电股份有限公司 知识图谱驱动的大坝安全评判权重动态拟定方法及系统
CN114090783A (zh) * 2021-10-15 2022-02-25 北京大学 一种异构知识图谱融合方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020198719A1 (en) * 2000-12-04 2002-12-26 International Business Machines Corporation Reusable voiceXML dialog components, subdialogs and beans
CN105487905A (zh) * 2015-11-27 2016-04-13 东软集团股份有限公司 一种混合应用的更新方法和装置
US20190065156A1 (en) * 2017-08-25 2019-02-28 Salesforce.Com, Inc. Overriding component attributes in a web application builder
CN109976756A (zh) * 2019-03-11 2019-07-05 宸瑞普惠(广州)科技有限公司 Ui显示效果一致性的处理方法与系统
CN112052000A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 组件复用、渲染方法及装置
US20210105340A1 (en) * 2019-10-08 2021-04-08 Magic Leap, Inc. Methods, systems, and computer program products for implementing cross-platform mixed-reality applications with a scripting framework
CN112988917A (zh) * 2021-03-31 2021-06-18 东南大学 一种基于多种实体上下文的实体对齐方法
CN113298426A (zh) * 2021-06-17 2021-08-24 华能澜沧江水电股份有限公司 知识图谱驱动的大坝安全评判权重动态拟定方法及系统
CN114090783A (zh) * 2021-10-15 2022-02-25 北京大学 一种异构知识图谱融合方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195894A (zh) * 2023-07-18 2023-12-08 安徽省交通规划设计研究总院股份有限公司 一种多维特征融合的桥梁康养领域实体对齐方法

Also Published As

Publication number Publication date
CN115982374B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
WO2022135120A1 (zh) 一种融合图结构和文本信息的自适应知识图谱表示学习方法
CN103617280B (zh) 一种中文事件信息挖掘方法和系统
CN111753101B (zh) 一种融合实体描述及类型的知识图谱表示学习方法
CN111985245A (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
US20240163684A1 (en) Method and System for Constructing and Analyzing Knowledge Graph of Wireless Communication Network Protocol, and Device and Medium
CN113177132B (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN110490254B (zh) 一种基于双重注意力机制层次网络的图像语义生成方法
CN111538848A (zh) 一种融合多源信息的知识表示学习方法
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN109460460B (zh) 一种面向智能应用的领域本体构建方法
CN115631365A (zh) 一种融合知识图谱的跨模态对比零样本学习方法
CN115809340A (zh) 一种知识图谱的实体更新方法及系统
CN115982374B (zh) 大坝应急响应知识库联动的多视角学习实体对齐方法和系统
CN114841140A (zh) 依存分析模型及基于依存分析的中文联合事件抽取方法
Moreira et al. Distantly-supervised neural relation extraction with side information using BERT
CN114780777A (zh) 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN116245107B (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
Xu et al. HTtext: A TextCNN-based pre-silicon detection for hardware Trojans
WO2023137918A1 (zh) 文本数据的分析方法、模型训练方法、装置及计算机设备
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
Li et al. Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning
CN114694098A (zh) 基于图像识别与知识图谱的电网基建施工风险管控方法
CN113064967A (zh) 基于深度迁移网络的投诉举报可信度分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant