CN113361279A - 一种基于双邻域图神经网络的医疗实体对齐方法及系统 - Google Patents
一种基于双邻域图神经网络的医疗实体对齐方法及系统 Download PDFInfo
- Publication number
- CN113361279A CN113361279A CN202110709149.7A CN202110709149A CN113361279A CN 113361279 A CN113361279 A CN 113361279A CN 202110709149 A CN202110709149 A CN 202110709149A CN 113361279 A CN113361279 A CN 113361279A
- Authority
- CN
- China
- Prior art keywords
- entity
- neighborhood
- entities
- attribute
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000002776 aggregation Effects 0.000 claims abstract description 19
- 238000004220 aggregation Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000008447 perception Effects 0.000 claims abstract description 9
- 230000009977 dual effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 101001094079 Homo sapiens Sodium- and chloride-dependent GABA transporter 2 Proteins 0.000 claims description 6
- 102100035242 Sodium- and chloride-dependent GABA transporter 2 Human genes 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 101000639970 Homo sapiens Sodium- and chloride-dependent GABA transporter 1 Proteins 0.000 claims description 3
- 101150064359 SLC6A1 gene Proteins 0.000 claims description 3
- 102100033927 Sodium- and chloride-dependent GABA transporter 1 Human genes 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013519 translation Methods 0.000 description 4
- 230000014616 translation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 229960004099 azithromycin Drugs 0.000 description 2
- MQTOSJVFKKJCRP-BICOPXKESA-N azithromycin Chemical compound O([C@@H]1[C@@H](C)C(=O)O[C@@H]([C@@]([C@H](O)[C@@H](C)N(C)C[C@H](C)C[C@@](C)(O)[C@H](O[C@H]2[C@@H]([C@H](C[C@@H](C)O2)N(C)C)O)[C@H]1C)(C)O)CC)[C@H]1C[C@@](C)(OC)[C@@H](O)[C@H](C)O1 MQTOSJVFKKJCRP-BICOPXKESA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- ULGZDMOVFRHVEP-RWJQBGPGSA-N Erythromycin Natural products O([C@@H]1[C@@H](C)C(=O)O[C@@H]([C@@]([C@H](O)[C@@H](C)C(=O)[C@H](C)C[C@@](C)(O)[C@H](O[C@H]2[C@@H]([C@H](C[C@@H](C)O2)N(C)C)O)[C@H]1C)(C)O)CC)[C@H]1C[C@@](C)(OC)[C@@H](O)[C@H](C)O1 ULGZDMOVFRHVEP-RWJQBGPGSA-N 0.000 description 1
- -1 azido erythromycin Chemical compound 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 229960003276 erythromycin Drugs 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于双邻域图神经网络的医疗实体对齐方法及系统,属于自然语言处理中的知识图谱融合领域。本发明首先抽取医疗实体对及相应的关系和属性,预处理后构建实体对齐数据集;然后通过双邻域特征聚合生成实体邻域和属性邻域的节点特征,并通过串联操作和跳跃连接生成全局感知的实体表示;最后进行实体相似度计算与训练,并用训练完的模型预测源实体的目标实体。本发明提出的方法将医疗知识图谱中的相关属性视为一类特殊的节点,从而将实体和属性建模在统一的网络中,并使用双邻域图神经网络对图中的节点进行嵌入,这样可以同时捕获实体邻域和属性邻域中的结构相似性,最终生成语义丰富的实体表示,达到提高医疗实体对齐准确性的目的。
Description
技术领域
本发明属于自然语言处理中的知识图谱融合领域,特别涉及一种基于双邻域图神经网络的医疗实体对齐方法及系统。
背景技术
随着数据挖掘的繁荣发展,众多领域都产生了相应的知识图谱。在医疗领域,医疗知识图谱中知识来源的多样性导致了知识重复、知识质量良莠不齐、知识间关联不够明确等问题。例如阿奇霉素在百度百科中被称为希舒美,在A+医学百科中别名有阿齐霉素、阿奇红霉素、叠氮红霉素等,商品名有泰力特、希舒美、舒美特等。实体对齐可以自动识别不同医疗知识图谱中的等价实体,是医学知识融合中非常重要的一步。
目前,基于嵌入的实体对齐是实体对齐任务中的主流方法,它的关键思想是将知识图谱中的元素(如实体和关系)表示为低维向量(称为嵌入),使得实体的语义相关性被嵌入空间的几何结构捕获。根据嵌入模型的不同,基于嵌入的实体对齐可以分为两大类,即基于翻译的实体对齐和基于图神经网络的实体对齐。第一类方法使用TransE及其变体建模知识图谱的结构,它们将关系解释为从其头部实体到其尾部实体的翻译。第二类方法使用图神经网络对知识图谱进行嵌入,因为图神经网络对于建模图结构的数据有很好的效果。此外,除了关系三元组,还有一些方法引入实体属性、文本描述等了额外的信息来提高实体对齐的结果。但是现有的方法对于属性三元组的利用仍然存在两个缺陷。首先,这些方法都是在分开的网络中建模关系三元组和属性三元组,来自实体邻域和属性邻域的对齐信号仅仅被保留在他们自身的网络之中,而不能跨网络进行传播。其次,有些方法使用了预训练的词向量或者机器翻译等外部工具,这不仅使得最终的实体对齐结果依赖于工具本身的质量,还会增加模型的复杂度和训练开销。
发明内容
发明目的:针对上述现有方法存在的技术问题,本发明的目的在于提供一种基于双邻域图神经网络的医疗实体对齐方法及系统,能够有效利用属性信息,生成语义更加丰富的实体表示,并具有参数少、训练开销小、对齐结果准确性高等特点。
技术方案:为实现上述发明目的,本发明采用的技术方案为:
一种基于双邻域图神经网络的医疗实体对齐方法,包括以下步骤:
步骤1,从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
步骤2,将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;
步骤3,通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
步骤4,根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
进一步地,步骤1中具体过程包括:
步骤1-1,随机抽取不同医疗知识图谱中对齐的医疗实体对;
步骤1-2,抽取步骤1-1获得的实体的关系和属性信息,以关系三元组和属性三元组的方式存储;
步骤1-3,对获得的数据进行预处理,将实体、关系和属性进行编号,只保留属性类型而舍弃具体的属性值,并过滤掉仅出现过一次的属性。
进一步地,步骤2中使用图注意力网络进行双邻域特征聚合,具体为:
使用图注意力网络GAT2在属性邻域进行特征聚合,通过聚合实体ei拥有的属性的表示,从而更新实体ei的属性邻域特征通过聚合属性a所属的实体表示,从而更新属性a的特征表示实体ei在图注意力网络GAT2第l层的属性邻域特征,,表示属性a第l层的特征,作为下一层神经网络输入的属性表示。
进一步地,步骤2中使用Highway gate的门控机制,将实体邻域特征和属性邻域特征进行整合:
进一步地,步骤3中具体过程包括:
步骤3-1,将步骤2中的实体邻域特征和属性邻域特征进行串联得到双邻域实体特征:
其中,||表示串联操作;
步骤3-2,将图神经网络每一层的双邻域特征通过跳跃连接输出并串联在一起,生成全局感知的实体表示:
其中,L表示神经网络的层数。
进一步地,步骤4中具体过程包括:
步骤4-1,根据实体嵌入之间的曼哈顿距离来判断两个实体是否对齐,两个实体在嵌入空间中的曼哈顿距离越小,他们的相似度就越大,也就越可能对齐:
步骤4-2,模型训练,采用误差逆传播算法,最小化损失函数,不断优化模型中的参数,损失函数定义如下:
其中,γ>0是一个间隔超参数,S是预对齐的实体对集合,S′是负样本的集合,在训练模型时,采用“早停”策略防止过拟合。
步骤4-3,用训练完的模型预测源实体的目标实体,并输出实体对齐的结果。
进一步地,使用最邻近采样算法进行负采样,得到负样本集合。
基于相同的发明构思,本发明提供的一种基于双邻域图神经网络的医疗实体对齐系统,包括:
数据集构建模块,用于从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
双邻域图神经网络模块,用于将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;用于通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
以及模型训练与预测模块,用于根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
基于相同的发明构思,本发明提供的一种基于双邻域图神经网络的医疗实体对齐系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于双邻域图神经网络的医疗实体对齐方法。
有益效果:本发明将医疗知识图谱中的相关属性视为一类特殊的节点,从而将实体和属性建模在统一的网络中,并使用双邻域图神经网络对图中的节点进行嵌入,这样可以同时捕获实体邻域和属性邻域中的结构相似性,最终生成语义丰富的实体表示,达到提高医疗实体对齐准确性的目的。与现有技术相比,其显著优点为:1)本发明除了使用关系三元组,还引入了属性三元组,这样可以得到语义更加丰富的实体表示,进一步提高实体对齐的结果;2)本发明将实体和属性建模在统一的网络之中,这样做使得训练集里的对齐信号可以更有效地传播,实体邻域和属性邻域的信息可以交互并且得到增强;3)本发明提出的双邻域图神经网络模型本质上是图注意力网络的一种变体,它不仅可以通过显示地聚合邻居节点来更新中心节点的表示,还可以为不同的邻居训练出不同的注意力系数;4)本发明没有使用预训练的词向量或机器翻译等外部工具,模型简单,训练时空开销小,并且可以得到比较准确的实体对齐结果。
附图说明
图1为本发明实施例的流程示意图。
图2为本发明实施例的双邻域特征聚合示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
结合图1本发明实施例一的流程示意图,本发明提出了一种基于双邻域图神经网络的医疗实体对齐方法,包括以下步骤:
步骤1,医疗实体对齐数据集构建,从链接开放数据项目(LOD)所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
步骤2,双邻域特征聚合,将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;
步骤3,生成实体表示,通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
步骤4,相似度计算与训练,根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
进一步地,在实施例一中,步骤1中所述医疗实体对齐数据集构建,具体过程包括:
步骤1-1,LOD项目存储了众多的医疗知识图谱,利用inter-language links(ILLs)随机抽取不同知识图谱中一定数量的对齐的医疗实体对;
步骤1-2,抽取步骤1-1获得的实体的关系和属性信息,以关系三元组和属性三元组的方式存储;
步骤1-3,对获得的数据进行预处理,将实体、关系和属性进行编号,只保留属性类型而舍弃具体的属性值,并过滤掉那些仅出现过一次的“独有”属性;
步骤1-4,随机选取数据集中70%的预对齐的实体对作为训练数据,剩下的30%作为测试数据。
采用本实施例的方案,我们从DBpedia和YAGO中抽取医疗相关的实体、关系和属性,构建了一个医疗实体对齐数据集,该数据集包含5000组预对齐的实体对。采用真实世界的数据集,可以对方法的性能进行充分的测试。
进一步地,在实施例一中,步骤2中所述双邻域特征聚合,具体过程包括:
步骤2-1,构建实体-属性图,将知识图谱中的实体和属性建模在统一的网络中,关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接;
步骤2-2,使用图注意力网络(Graph attention networks,GAT)GAT1在实体邻域进行特征聚合,通过聚合实体ei邻居实体的表示,从而获得实体ei的实体邻域特征 表示实体ei在图注意力网络GAT1第l层的实体邻域特征;
步骤2-3,使用GAT2在属性邻域进行特征聚合,通过聚合实体ei拥有的属性的表示,从而更新实体ei的属性邻域特征通过聚合属性a所属的实体表示,从而更新属性a的特征表示实体ei在图注意力网络GAT2第l层的属性邻域特征,表示属性a第l层的特征,作为下一层神经网络输入的属性表示。
步骤2-4,使用Highway gate的门控机制,将实体邻域特征和属性邻域特征进行整合,以融合多方面的实体语义信息并保持实体嵌入的维度不变:
图2即为实施例一中双邻域特征聚合的示意图,实心节点表示医疗实体,空心节点表示医疗实体的属性。采用本实施例的方案,将实体和属性建模在统一的网络之中,这样做使得训练集里的对齐信号可以更有效地传播,实体邻域和属性邻域的信息可以交互并且得到增强。此外,通过Highway gate可以分配实体邻域特征和属性邻域特征自适应的权重系数,使融合得到的实体特征更具表达力。
进一步地,在实施例一中,步骤3所述生成实体表示,具体过程包括:
步骤3-1,将步骤2中的实体邻域特征和属性邻域特征进行串联得到双邻域实体特征,串联操作可以尽量保持实体特征的语义:
步骤3-2,将图神经网络每一层的双邻域特征通过跳跃连接输出并串联在一起,生成全局感知的实体表示,它包含了实体的高层语义信息:
其中,L表示神经网络的层数。
采用本实施例的方案,我们将实体邻域特征和属性邻域特征进行串联,这样可以尽量保持实体特征的语义。由于图神经网络每一层中的实体嵌入都代表不同的语义,将每一层的双邻域特征串联在一起作为最终的实体表示,可以获取实体的高层语义信息。
进一步地,在实施例一中,步骤4所述相似度计算与训练,具体过程包括:
步骤4-1,我们根据实体嵌入之间的距离来判断两个实体是否对齐,两个实体在嵌入空间中的曼哈顿距离越小,他们的相似度就越大,也就越可能对齐:
步骤4-2,模型训练,采用误差逆传播算法,最小化损失函数,不断优化模型中的参数。基于双邻域图神经网络的实体对齐方法,损失函数定义如下:
其中,γ>0是一个间隔超参数,S是预对齐的实体对集合,S′是负样本的集合。具体来说,我们使用最邻近采样算法进行负采样,这样可以获得比较有挑战性的负样本,从而增强模型的健壮性。最小化上面的损失函数,可以使正样本之间的距离尽量小,而负样本之间的距离尽量大。此外,在训练模型时,我们采用“早停”策略防止过拟合。
步骤4-3,用训练完的模型预测源实体的目标实体,并输出实体对齐的结果。
采用本实施例的方案,图神经网络的层数为2,实体和属性嵌入的维度为100,每对正样本采样30对负样本,每训练10轮采样一次,γ=1。
实施例二
基于相同的发明构思,本实施例提供的一种基于双邻域图神经网络的医疗实体对齐系统,包括:数据集构建模块,用于从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;双邻域图神经网络模块,用于将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;用于通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;以及模型训练与预测模块,用于根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。各模块的详细实施步骤参见上述实施例一,此处不再赘述。
实施例三
基于相同的发明构思,本实施例提供的一种基于双邻域图神经网络的医疗实体对齐系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现实施例一中的基于双邻域图神经网络的医疗实体对齐方法。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (9)
1.一种基于双邻域图神经网络的医疗实体对齐方法,其特征在于,包括以下步骤:
步骤1,从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
步骤2,将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;
步骤3,通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
步骤4,根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
2.根据权利要求1所述的基于双邻域图神经网络的医疗实体对齐方法,其特征在于,步骤1中具体过程包括:
步骤1-1,随机抽取不同医疗知识图谱中对齐的医疗实体对;
步骤1-2,抽取步骤1-1获得的实体的关系和属性信息,以关系三元组和属性三元组的方式存储;
步骤1-3,对获得的数据进行预处理,将实体、关系和属性进行编号,只保留属性类型而舍弃具体的属性值,并过滤掉仅出现过一次的属性。
7.根据权利要求6所述的基于双邻域图神经网络的医疗实体对齐方法,其特征在于,使用最邻近采样算法进行负采样,得到负样本集合。
8.一种基于双邻域图神经网络的医疗实体对齐系统,其特征在于,包括:
数据集构建模块,用于从链接开放数据项目所存储的医疗知识图谱中,抽取医疗领域对齐的实体对以及相应的关系和属性,并对得到的数据进行预处理;
双邻域图神经网络模块,用于将实体和属性建模在统一的网络中,通过关系三元组定义实体和实体之间的拓扑连接,属性三元组定义实体和属性之间的拓扑连接,使用图神经网络分别在实体邻域和属性邻域进行特征聚合,生成实体邻域特征和属性邻域特征,并使用门控机制进行特征整合以保持实体嵌入的维度不变;用于通过串联操作得到每一层的双邻域特征,并通过跳跃连接输出,生成全局感知的实体表示;
以及模型训练与预测模块,用于根据两个实体在嵌入空间的距离计算相似度,对网络模型进行训练,并用训练完的模型预测源实体的目标实体。
9.一种基于双邻域图神经网络的医疗实体对齐系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于双邻域图神经网络的医疗实体对齐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110709149.7A CN113361279B (zh) | 2021-06-25 | 2021-06-25 | 一种基于双邻域图神经网络的医疗实体对齐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110709149.7A CN113361279B (zh) | 2021-06-25 | 2021-06-25 | 一种基于双邻域图神经网络的医疗实体对齐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361279A true CN113361279A (zh) | 2021-09-07 |
CN113361279B CN113361279B (zh) | 2023-07-25 |
Family
ID=77536380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110709149.7A Active CN113361279B (zh) | 2021-06-25 | 2021-06-25 | 一种基于双邻域图神经网络的医疗实体对齐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361279B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080761A (zh) * | 2022-06-08 | 2022-09-20 | 昆明理工大学 | 一种基于语义感知的低资源知识图谱实体对齐方法 |
CN116958149A (zh) * | 2023-09-21 | 2023-10-27 | 湖南红普创新科技发展有限公司 | 医疗模型训练方法、医疗数据分析方法、装置及相关设备 |
CN117610662A (zh) * | 2024-01-19 | 2024-02-27 | 江苏天人工业互联网研究院有限公司 | 一种通过gat提取代表性子图信息的知识图谱嵌入方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130132402A1 (en) * | 2011-11-21 | 2013-05-23 | Nec Laboratories America, Inc. | Query specific fusion for image retrieval |
US20180082183A1 (en) * | 2011-02-22 | 2018-03-22 | Thomson Reuters Global Resources | Machine learning-based relationship association and related discovery and search engines |
US20180103052A1 (en) * | 2016-10-11 | 2018-04-12 | Battelle Memorial Institute | System and methods for automated detection, reasoning and recommendations for resilient cyber systems |
CN111489168A (zh) * | 2020-04-17 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 一种目标对象的风险识别方法、装置和处理设备 |
CN111930964A (zh) * | 2020-09-17 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 内容处理方法、装置、设备及存储介质 |
CN112069823A (zh) * | 2020-09-17 | 2020-12-11 | 华院数据技术(上海)有限公司 | 信息处理方法和装置 |
-
2021
- 2021-06-25 CN CN202110709149.7A patent/CN113361279B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082183A1 (en) * | 2011-02-22 | 2018-03-22 | Thomson Reuters Global Resources | Machine learning-based relationship association and related discovery and search engines |
US20130132402A1 (en) * | 2011-11-21 | 2013-05-23 | Nec Laboratories America, Inc. | Query specific fusion for image retrieval |
US20180103052A1 (en) * | 2016-10-11 | 2018-04-12 | Battelle Memorial Institute | System and methods for automated detection, reasoning and recommendations for resilient cyber systems |
CN111489168A (zh) * | 2020-04-17 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 一种目标对象的风险识别方法、装置和处理设备 |
CN111930964A (zh) * | 2020-09-17 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 内容处理方法、装置、设备及存储介质 |
CN112069823A (zh) * | 2020-09-17 | 2020-12-11 | 华院数据技术(上海)有限公司 | 信息处理方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080761A (zh) * | 2022-06-08 | 2022-09-20 | 昆明理工大学 | 一种基于语义感知的低资源知识图谱实体对齐方法 |
CN116958149A (zh) * | 2023-09-21 | 2023-10-27 | 湖南红普创新科技发展有限公司 | 医疗模型训练方法、医疗数据分析方法、装置及相关设备 |
CN116958149B (zh) * | 2023-09-21 | 2024-01-12 | 湖南红普创新科技发展有限公司 | 医疗模型训练方法、医疗数据分析方法、装置及相关设备 |
CN117610662A (zh) * | 2024-01-19 | 2024-02-27 | 江苏天人工业互联网研究院有限公司 | 一种通过gat提取代表性子图信息的知识图谱嵌入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113361279B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109783817B (zh) | 一种基于深度强化学习的文本语义相似计算模型 | |
CN109902183B (zh) | 一种基于多样图注意力机制的知识图谱嵌入方法 | |
CN113361279A (zh) | 一种基于双邻域图神经网络的医疗实体对齐方法及系统 | |
CN111737535B (zh) | 一种基于元结构和图神经网络的网络表征学习方法 | |
CN113919441A (zh) | 一种基于超图变换网络的分类方法 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN112529168A (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
CN114764549B (zh) | 基于矩阵乘积态的量子线路模拟计算方法、装置 | |
CN113962358A (zh) | 一种基于时序超图注意力神经网络的信息扩散预测方法 | |
CN111914094A (zh) | 一种基于三元交互的知识图谱表示学习方法 | |
CN108804473A (zh) | 数据查询的方法、装置和数据库系统 | |
CN112257841A (zh) | 图神经网络中的数据处理方法、装置、设备及存储介质 | |
Al-Khiaty et al. | Matching UML class diagrams using a Hybridized Greedy-Genetic algorithm | |
WO2023231720A9 (zh) | 药物疾病关联预测方法、装置、电子设备和可读存储介质 | |
CN115952424A (zh) | 一种基于多视图结构的图卷积神经网络聚类方法 | |
CN115879505A (zh) | 一种自适应相关感知无监督深度学习异常检测方法 | |
CN113836174B (zh) | 基于强化学习dqn算法的异步sql连接查询优化方法 | |
US11947503B2 (en) | Autoregressive graph generation machine learning models | |
de Oliveira et al. | Low-cost heuristics for matrix bandwidth reduction combined with a Hill-Climbing strategy | |
CN111078896A (zh) | 基于prmatc算法的知识库补全方法 | |
Liang et al. | The graph embedded topic model | |
CN115544307A (zh) | 基于关联矩阵的有向图数据特征提取与表达方法和系统 | |
CN110457543B (zh) | 一种基于端到端多视角匹配的实体消解方法和系统 | |
Fu et al. | Hyperbolic Geometric Latent Diffusion Model for Graph Generation | |
CN114611990A (zh) | 一种网络信息体系要素体系贡献率评估方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |