CN113361279A - 一种基于双邻域图神经网络的医疗实体对齐方法及系统 - Google Patents

一种基于双邻域图神经网络的医疗实体对齐方法及系统 Download PDF

Info

Publication number
CN113361279A
CN113361279A CN202110709149.7A CN202110709149A CN113361279A CN 113361279 A CN113361279 A CN 113361279A CN 202110709149 A CN202110709149 A CN 202110709149A CN 113361279 A CN113361279 A CN 113361279A
Authority
CN
China
Prior art keywords
entity
neighborhood
entities
attribute
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110709149.7A
Other languages
English (en)
Other versions
CN113361279B (zh
Inventor
史新晨
章永龙
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN202110709149.7A priority Critical patent/CN113361279B/zh
Publication of CN113361279A publication Critical patent/CN113361279A/zh
Application granted granted Critical
Publication of CN113361279B publication Critical patent/CN113361279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于双邻域图神经网络的医疗实体对齐方法及系统,属于自然语言处理中的知识图谱融合领域。本发明首先抽取医疗实体对及相应的关系和属性,预处理后构建实体对齐数据集;然后通过双邻域特征聚合生成实体邻域和属性邻域的节点特征,并通过串联操作和跳跃连接生成全局感知的实体表示;最后进行实体相似度计算与训练,并用训练完的模型预测源实体的目标实体。本发明提出的方法将医疗知识图谱中的相关属性视为一类特殊的节点,从而将实体和属性建模在统一的网络中,并使用双邻域图神经网络对图中的节点进行嵌入,这样可以同时捕获实体邻域和属性邻域中的结构相似性,最终生成语义丰富的实体表示,达到提高医疗实体对齐准确性的目的。

Description

一种基于双邻域图神经网络的医疗实体对齐方法及系统
技术领域
本发明属于自然语言处理中的知识图谱融合领域,特别涉及一种基于双邻域图神经网络的医疗实体对齐方法及系统。
背景技术
随着数据挖掘的繁荣发展,众多领域都产生了相应的知识图谱。在医疗领域,医疗知识图谱中知识来源的多样性导致了知识重复、知识质量良莠不齐、知识间关联不够明确等问题。例如阿奇霉素在百度百科中被称为希舒美,在A+医学百科中别名有阿齐霉素、阿奇红霉素、叠氮红霉素等,商品名有泰力特、希舒美、舒美特等。实体对齐可以自动识别不同医疗知识图谱中的等价实体,是医学知识融合中非常重要的一步。
目前,基于嵌入的实体对齐是实体对齐任务中的主流方法,它的关键思想是将知识图谱中的元素(如实体和关系)表示为低维向量(称为嵌入),使得实体的语义相关性被嵌入空间的几何结构捕获。根据嵌入模型的不同,基于嵌入的实体对齐可以分为两大类,即基于翻译的实体对齐和基于图神经网络的实体对齐。第一类方法使用TransE及其变体建模知识图谱的结构,它们将关系解释为从其头部实体到其尾部实体的翻译。第二类方法使用图神经网络对知识图谱进行嵌入,因为图神经网络对于建模图结构的数据有很好的效果。此外,除了关系三元组,还有一些方法引入实体属性、文本描述等了额外的信息来提高实体对齐的结果。但是现有的方法对于属性三元组的利用仍然存在两个缺陷。首先,这些方法都是在分开的网络中建模关系三元组和属性三元组,来自实体邻域和属性邻域的对齐信号仅仅被保留在他们自身的网络之中,而不能跨网络进行传播。其次,有些方法使用了预训练的词向量或者机器翻译等外部工具,这不仅使得最终的实体对齐结果依赖于工具本身的质量,还会增加模型的复杂度和训练开销。
发明内容
发明目的:针对上述现有方法存在的技术问题,本发明的目的在于提供一种基于双邻域图神经网络的医疗实体对齐方法及系统,能够有效利用属性信息,生成语义更加丰富的实体表示,并具有参数少、训练开销小、对齐结果准确性高等特点。
技术方案:为实现上述发明目的,本发明采用的技术方案为:
一种基于双邻域图神经网络的医疗实体对齐方法,包括以下步骤:
步骤1,从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
步骤2,将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;
步骤3,通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
步骤4,根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
进一步地,步骤1中具体过程包括:
步骤1-1,随机抽取不同医疗知识图谱中对齐的医疗实体对;
步骤1-2,抽取步骤1-1获得的实体的关系和属性信息,以关系三元组和属性三元组的方式存储;
步骤1-3,对获得的数据进行预处理,将实体、关系和属性进行编号,只保留属性类型而舍弃具体的属性值,并过滤掉仅出现过一次的属性。
进一步地,步骤2中使用图注意力网络进行双邻域特征聚合,具体为:
使用图注意力网络GAT1在实体邻域进行特征聚合,通过聚合实体ei邻居实体的表示,从而更新实体ei的实体邻域特征
Figure BDA0003132572920000021
表示实体ei在图注意力网络GAT1第l层的实体邻域特征;
使用图注意力网络GAT2在属性邻域进行特征聚合,通过聚合实体ei拥有的属性的表示,从而更新实体ei的属性邻域特征
Figure BDA0003132572920000022
通过聚合属性a所属的实体表示,从而更新属性a的特征
Figure BDA0003132572920000023
表示实体ei在图注意力网络GAT2第l层的属性邻域特征,,
Figure BDA0003132572920000024
表示属性a第l层的特征,作为下一层神经网络输入的属性表示。
进一步地,步骤2中使用Highway gate的门控机制,将实体邻域特征和属性邻域特征进行整合:
Figure BDA0003132572920000025
Figure BDA0003132572920000026
其中,ReLU表示激活函数,σ是非线性激活函数tanh,M和b是各层共享的权重矩阵和偏置向量,
Figure BDA0003132572920000031
表示实体ei第l层的特征,作为下一层神经网络的输入的实体表示。
进一步地,步骤3中具体过程包括:
步骤3-1,将步骤2中的实体邻域特征和属性邻域特征进行串联得到双邻域实体特征:
Figure BDA0003132572920000032
其中,||表示串联操作;
步骤3-2,将图神经网络每一层的双邻域特征通过跳跃连接输出并串联在一起,生成全局感知的实体表示:
Figure BDA0003132572920000033
其中,L表示神经网络的层数。
进一步地,步骤4中具体过程包括:
步骤4-1,根据实体嵌入之间的曼哈顿距离来判断两个实体是否对齐,两个实体在嵌入空间中的曼哈顿距离越小,他们的相似度就越大,也就越可能对齐:
Figure BDA0003132572920000034
其中,
Figure BDA0003132572920000037
表示曼哈顿距离,
Figure BDA0003132572920000035
分别表示实体e1、e2全局感知的实体表示;
步骤4-2,模型训练,采用误差逆传播算法,最小化损失函数,不断优化模型中的参数,损失函数定义如下:
Figure BDA0003132572920000036
其中,γ>0是一个间隔超参数,S是预对齐的实体对集合,S′是负样本的集合,在训练模型时,采用“早停”策略防止过拟合。
步骤4-3,用训练完的模型预测源实体的目标实体,并输出实体对齐的结果。
进一步地,使用最邻近采样算法进行负采样,得到负样本集合。
基于相同的发明构思,本发明提供的一种基于双邻域图神经网络的医疗实体对齐系统,包括:
数据集构建模块,用于从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
双邻域图神经网络模块,用于将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;用于通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
以及模型训练与预测模块,用于根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
基于相同的发明构思,本发明提供的一种基于双邻域图神经网络的医疗实体对齐系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于双邻域图神经网络的医疗实体对齐方法。
有益效果:本发明将医疗知识图谱中的相关属性视为一类特殊的节点,从而将实体和属性建模在统一的网络中,并使用双邻域图神经网络对图中的节点进行嵌入,这样可以同时捕获实体邻域和属性邻域中的结构相似性,最终生成语义丰富的实体表示,达到提高医疗实体对齐准确性的目的。与现有技术相比,其显著优点为:1)本发明除了使用关系三元组,还引入了属性三元组,这样可以得到语义更加丰富的实体表示,进一步提高实体对齐的结果;2)本发明将实体和属性建模在统一的网络之中,这样做使得训练集里的对齐信号可以更有效地传播,实体邻域和属性邻域的信息可以交互并且得到增强;3)本发明提出的双邻域图神经网络模型本质上是图注意力网络的一种变体,它不仅可以通过显示地聚合邻居节点来更新中心节点的表示,还可以为不同的邻居训练出不同的注意力系数;4)本发明没有使用预训练的词向量或机器翻译等外部工具,模型简单,训练时空开销小,并且可以得到比较准确的实体对齐结果。
附图说明
图1为本发明实施例的流程示意图。
图2为本发明实施例的双邻域特征聚合示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
结合图1本发明实施例一的流程示意图,本发明提出了一种基于双邻域图神经网络的医疗实体对齐方法,包括以下步骤:
步骤1,医疗实体对齐数据集构建,从链接开放数据项目(LOD)所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
步骤2,双邻域特征聚合,将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;
步骤3,生成实体表示,通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
步骤4,相似度计算与训练,根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
进一步地,在实施例一中,步骤1中所述医疗实体对齐数据集构建,具体过程包括:
步骤1-1,LOD项目存储了众多的医疗知识图谱,利用inter-language links(ILLs)随机抽取不同知识图谱中一定数量的对齐的医疗实体对;
步骤1-2,抽取步骤1-1获得的实体的关系和属性信息,以关系三元组和属性三元组的方式存储;
步骤1-3,对获得的数据进行预处理,将实体、关系和属性进行编号,只保留属性类型而舍弃具体的属性值,并过滤掉那些仅出现过一次的“独有”属性;
步骤1-4,随机选取数据集中70%的预对齐的实体对作为训练数据,剩下的30%作为测试数据。
采用本实施例的方案,我们从DBpedia和YAGO中抽取医疗相关的实体、关系和属性,构建了一个医疗实体对齐数据集,该数据集包含5000组预对齐的实体对。采用真实世界的数据集,可以对方法的性能进行充分的测试。
进一步地,在实施例一中,步骤2中所述双邻域特征聚合,具体过程包括:
步骤2-1,构建实体-属性图,将知识图谱中的实体和属性建模在统一的网络中,关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接;
步骤2-2,使用图注意力网络(Graph attention networks,GAT)GAT1在实体邻域进行特征聚合,通过聚合实体ei邻居实体的表示,从而获得实体ei的实体邻域特征
Figure BDA0003132572920000061
Figure BDA0003132572920000062
表示实体ei在图注意力网络GAT1第l层的实体邻域特征;
步骤2-3,使用GAT2在属性邻域进行特征聚合,通过聚合实体ei拥有的属性的表示,从而更新实体ei的属性邻域特征
Figure BDA0003132572920000063
通过聚合属性a所属的实体表示,从而更新属性a的特征
Figure BDA0003132572920000064
表示实体ei在图注意力网络GAT2第l层的属性邻域特征,
Figure BDA0003132572920000065
表示属性a第l层的特征,作为下一层神经网络输入的属性表示。
步骤2-4,使用Highway gate的门控机制,将实体邻域特征和属性邻域特征进行整合,以融合多方面的实体语义信息并保持实体嵌入的维度不变:
Figure BDA0003132572920000066
Figure BDA0003132572920000067
其中,ReLU表示激活函数,σ是非线性激活函数tanh,M和b是各层共享的权重矩阵和偏置向量。
Figure BDA0003132572920000068
表示实体ei第l层的特征,作为下一层神经网络的输入的实体表示。
图2即为实施例一中双邻域特征聚合的示意图,实心节点表示医疗实体,空心节点表示医疗实体的属性。采用本实施例的方案,将实体和属性建模在统一的网络之中,这样做使得训练集里的对齐信号可以更有效地传播,实体邻域和属性邻域的信息可以交互并且得到增强。此外,通过Highway gate可以分配实体邻域特征和属性邻域特征自适应的权重系数,使融合得到的实体特征更具表达力。
进一步地,在实施例一中,步骤3所述生成实体表示,具体过程包括:
步骤3-1,将步骤2中的实体邻域特征和属性邻域特征进行串联得到双邻域实体特征,串联操作可以尽量保持实体特征的语义:
Figure BDA0003132572920000069
步骤3-2,将图神经网络每一层的双邻域特征通过跳跃连接输出并串联在一起,生成全局感知的实体表示,它包含了实体的高层语义信息:
Figure BDA00031325729200000610
其中,L表示神经网络的层数。
采用本实施例的方案,我们将实体邻域特征和属性邻域特征进行串联,这样可以尽量保持实体特征的语义。由于图神经网络每一层中的实体嵌入都代表不同的语义,将每一层的双邻域特征串联在一起作为最终的实体表示,可以获取实体的高层语义信息。
进一步地,在实施例一中,步骤4所述相似度计算与训练,具体过程包括:
步骤4-1,我们根据实体嵌入之间的距离来判断两个实体是否对齐,两个实体在嵌入空间中的曼哈顿距离越小,他们的相似度就越大,也就越可能对齐:
Figure BDA0003132572920000071
步骤4-2,模型训练,采用误差逆传播算法,最小化损失函数,不断优化模型中的参数。基于双邻域图神经网络的实体对齐方法,损失函数定义如下:
Figure BDA0003132572920000072
其中,γ>0是一个间隔超参数,S是预对齐的实体对集合,S′是负样本的集合。具体来说,我们使用最邻近采样算法进行负采样,这样可以获得比较有挑战性的负样本,从而增强模型的健壮性。最小化上面的损失函数,可以使正样本之间的距离尽量小,而负样本之间的距离尽量大。此外,在训练模型时,我们采用“早停”策略防止过拟合。
步骤4-3,用训练完的模型预测源实体的目标实体,并输出实体对齐的结果。
采用本实施例的方案,图神经网络的层数为2,实体和属性嵌入的维度为100,每对正样本采样30对负样本,每训练10轮采样一次,γ=1。
实施例二
基于相同的发明构思,本实施例提供的一种基于双邻域图神经网络的医疗实体对齐系统,包括:数据集构建模块,用于从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;双邻域图神经网络模块,用于将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;用于通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;以及模型训练与预测模块,用于根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。各模块的详细实施步骤参见上述实施例一,此处不再赘述。
实施例三
基于相同的发明构思,本实施例提供的一种基于双邻域图神经网络的医疗实体对齐系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现实施例一中的基于双邻域图神经网络的医疗实体对齐方法。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (9)

1.一种基于双邻域图神经网络的医疗实体对齐方法,其特征在于,包括以下步骤:
步骤1,从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
步骤2,将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;
步骤3,通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
步骤4,根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
2.根据权利要求1所述的基于双邻域图神经网络的医疗实体对齐方法,其特征在于,步骤1中具体过程包括:
步骤1-1,随机抽取不同医疗知识图谱中对齐的医疗实体对;
步骤1-2,抽取步骤1-1获得的实体的关系和属性信息,以关系三元组和属性三元组的方式存储;
步骤1-3,对获得的数据进行预处理,将实体、关系和属性进行编号,只保留属性类型而舍弃具体的属性值,并过滤掉仅出现过一次的属性。
3.根据权利要求1所述的基于双邻域图神经网络的医疗实体对齐方法,其特征在于,步骤2中使用图注意力网络进行双邻域特征聚合,具体为:
使用图注意力网络GAT1在实体邻域进行特征聚合,通过聚合实体ei邻居实体的表示,从而更新实体ei的实体邻域特征
Figure FDA0003132572910000011
表示实体ei在图注意力网络GAT1第l层的实体邻域特征;
使用图注意力网络GAT2在属性邻域进行特征聚合,通过聚合实体ei拥有的属性的表示,从而更新实体ei的属性邻域特征
Figure FDA0003132572910000012
通过聚合属性a所属的实体表示,从而更新属性a的特征
Figure FDA0003132572910000013
表示实体ei在图注意力网络GAT2第l层的属性邻域特征,
Figure FDA0003132572910000014
表示属性a第l层的特征,作为下一层神经网络输入的属性表示。
4.根据权利要求3所述的基于双邻域图神经网络的医疗实体对齐方法,其特征在于,步骤2中使用Highway gate的门控机制,将实体邻域特征和属性邻域特征进行整合:
Figure FDA0003132572910000021
Figure FDA0003132572910000022
其中,ReLU表示激活函数,σ是非线性激活函数tanh,M和b是各层共享的权重矩阵和偏置向量,
Figure FDA0003132572910000023
表示实体ei第l层的特征,作为下一层神经网络的输入的实体表示。
5.根据权利要求4所述的基于双邻域图神经网络的医疗实体对齐方法,其特征在于,步骤3中具体过程包括:
步骤3-1,将步骤2中的实体邻域特征和属性邻域特征进行串联得到双邻域实体特征:
Figure FDA0003132572910000024
其中,||表示串联操作;
步骤3-2,将图神经网络每一层的双邻域特征通过跳跃连接输出并串联在一起,生成全局感知的实体表示:
Figure FDA0003132572910000025
其中,L表示神经网络的层数。
6.根据权利要求1所述的基于双邻域图神经网络的医疗实体对齐方法,其特征在于,步骤4中具体过程包括:
步骤4-1,根据实体嵌入之间的曼哈顿距离来判断两个实体是否对齐,两个实体在嵌入空间中的曼哈顿距离越小,他们的相似度就越大,也就越可能对齐:
Figure FDA0003132572910000026
其中,
Figure FDA0003132572910000029
表示曼哈顿距离,
Figure FDA0003132572910000027
分别表示实体e1、e2全局感知的实体表示;
步骤4-2,模型训练,采用误差逆传播算法,最小化损失函数,不断优化模型中的参数,损失函数定义如下:
Figure FDA0003132572910000028
其中,γ>0是一个间隔超参数,S是预对齐的实体对集合,S′是负样本的集合,在训练模型时,采用“早停”策略防止过拟合。
步骤4-3,用训练完的模型预测源实体的目标实体,并输出实体对齐的结果。
7.根据权利要求6所述的基于双邻域图神经网络的医疗实体对齐方法,其特征在于,使用最邻近采样算法进行负采样,得到负样本集合。
8.一种基于双邻域图神经网络的医疗实体对齐系统,其特征在于,包括:
数据集构建模块,用于从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
双邻域图神经网络模块,用于将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;用于通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
以及模型训练与预测模块,用于根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
9.一种基于双邻域图神经网络的医疗实体对齐系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于双邻域图神经网络的医疗实体对齐方法。
CN202110709149.7A 2021-06-25 2021-06-25 一种基于双邻域图神经网络的医疗实体对齐方法及系统 Active CN113361279B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110709149.7A CN113361279B (zh) 2021-06-25 2021-06-25 一种基于双邻域图神经网络的医疗实体对齐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110709149.7A CN113361279B (zh) 2021-06-25 2021-06-25 一种基于双邻域图神经网络的医疗实体对齐方法及系统

Publications (2)

Publication Number Publication Date
CN113361279A true CN113361279A (zh) 2021-09-07
CN113361279B CN113361279B (zh) 2023-07-25

Family

ID=77536380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110709149.7A Active CN113361279B (zh) 2021-06-25 2021-06-25 一种基于双邻域图神经网络的医疗实体对齐方法及系统

Country Status (1)

Country Link
CN (1) CN113361279B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080761A (zh) * 2022-06-08 2022-09-20 昆明理工大学 一种基于语义感知的低资源知识图谱实体对齐方法
CN116958149A (zh) * 2023-09-21 2023-10-27 湖南红普创新科技发展有限公司 医疗模型训练方法、医疗数据分析方法、装置及相关设备
CN117610662A (zh) * 2024-01-19 2024-02-27 江苏天人工业互联网研究院有限公司 一种通过gat提取代表性子图信息的知识图谱嵌入方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130132402A1 (en) * 2011-11-21 2013-05-23 Nec Laboratories America, Inc. Query specific fusion for image retrieval
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
US20180103052A1 (en) * 2016-10-11 2018-04-12 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems
CN111489168A (zh) * 2020-04-17 2020-08-04 支付宝(杭州)信息技术有限公司 一种目标对象的风险识别方法、装置和处理设备
CN111930964A (zh) * 2020-09-17 2020-11-13 腾讯科技(深圳)有限公司 内容处理方法、装置、设备及存储介质
CN112069823A (zh) * 2020-09-17 2020-12-11 华院数据技术(上海)有限公司 信息处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082183A1 (en) * 2011-02-22 2018-03-22 Thomson Reuters Global Resources Machine learning-based relationship association and related discovery and search engines
US20130132402A1 (en) * 2011-11-21 2013-05-23 Nec Laboratories America, Inc. Query specific fusion for image retrieval
US20180103052A1 (en) * 2016-10-11 2018-04-12 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems
CN111489168A (zh) * 2020-04-17 2020-08-04 支付宝(杭州)信息技术有限公司 一种目标对象的风险识别方法、装置和处理设备
CN111930964A (zh) * 2020-09-17 2020-11-13 腾讯科技(深圳)有限公司 内容处理方法、装置、设备及存储介质
CN112069823A (zh) * 2020-09-17 2020-12-11 华院数据技术(上海)有限公司 信息处理方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080761A (zh) * 2022-06-08 2022-09-20 昆明理工大学 一种基于语义感知的低资源知识图谱实体对齐方法
CN116958149A (zh) * 2023-09-21 2023-10-27 湖南红普创新科技发展有限公司 医疗模型训练方法、医疗数据分析方法、装置及相关设备
CN116958149B (zh) * 2023-09-21 2024-01-12 湖南红普创新科技发展有限公司 医疗模型训练方法、医疗数据分析方法、装置及相关设备
CN117610662A (zh) * 2024-01-19 2024-02-27 江苏天人工业互联网研究院有限公司 一种通过gat提取代表性子图信息的知识图谱嵌入方法

Also Published As

Publication number Publication date
CN113361279B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN109902183B (zh) 一种基于多样图注意力机制的知识图谱嵌入方法
CN113361279A (zh) 一种基于双邻域图神经网络的医疗实体对齐方法及系统
CN111737535B (zh) 一种基于元结构和图神经网络的网络表征学习方法
CN113919441A (zh) 一种基于超图变换网络的分类方法
WO2023065859A1 (zh) 物品推荐方法、装置及存储介质
CN112529168A (zh) 一种基于gcn的属性多层网络表示学习方法
CN114764549B (zh) 基于矩阵乘积态的量子线路模拟计算方法、装置
CN113962358A (zh) 一种基于时序超图注意力神经网络的信息扩散预测方法
CN111914094A (zh) 一种基于三元交互的知识图谱表示学习方法
CN108804473A (zh) 数据查询的方法、装置和数据库系统
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
Al-Khiaty et al. Matching UML class diagrams using a Hybridized Greedy-Genetic algorithm
WO2023231720A9 (zh) 药物疾病关联预测方法、装置、电子设备和可读存储介质
CN115952424A (zh) 一种基于多视图结构的图卷积神经网络聚类方法
CN115879505A (zh) 一种自适应相关感知无监督深度学习异常检测方法
CN113836174B (zh) 基于强化学习dqn算法的异步sql连接查询优化方法
US11947503B2 (en) Autoregressive graph generation machine learning models
de Oliveira et al. Low-cost heuristics for matrix bandwidth reduction combined with a Hill-Climbing strategy
CN111078896A (zh) 基于prmatc算法的知识库补全方法
Liang et al. The graph embedded topic model
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和系统
CN110457543B (zh) 一种基于端到端多视角匹配的实体消解方法和系统
Fu et al. Hyperbolic Geometric Latent Diffusion Model for Graph Generation
CN114611990A (zh) 一种网络信息体系要素体系贡献率评估方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant