CN115440384A - 一种基于多任务学习的医疗知识图谱的处理方法及系统 - Google Patents

一种基于多任务学习的医疗知识图谱的处理方法及系统 Download PDF

Info

Publication number
CN115440384A
CN115440384A CN202210607082.0A CN202210607082A CN115440384A CN 115440384 A CN115440384 A CN 115440384A CN 202210607082 A CN202210607082 A CN 202210607082A CN 115440384 A CN115440384 A CN 115440384A
Authority
CN
China
Prior art keywords
entity
relationship
graph
medical knowledge
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210607082.0A
Other languages
English (en)
Inventor
李刚
杨文林
张阁
丁丽媛
何召锋
程祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Kangsheng Health Consulting Co Ltd
Original Assignee
Hangzhou Kangsheng Health Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Kangsheng Health Consulting Co Ltd filed Critical Hangzhou Kangsheng Health Consulting Co Ltd
Priority to CN202210607082.0A priority Critical patent/CN115440384A/zh
Publication of CN115440384A publication Critical patent/CN115440384A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多任务学习的医疗知识图谱的处理方法及系统,其中所述方法包括:选择目标医疗知识图谱和多个参考医疗知识图谱;将所述目标医疗知识图谱与所述多个参考医疗知识图谱输入基于注意力机制的实体‑关系共享网络;对所述实体‑关系共享网络的输出采用基于GCN的图谱表示;更新对齐种子集;基于所述实体‑关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。与现有技术相比,本发明考虑了知识图谱中实体之间的关系和属性信息,以及关系的重要程度,提升实体表示质量;采用迭代式对齐种子更新方法,不断更新和扩充对齐种子集;提出多任务的迁移学习方法提升实体对齐效果,能够更好的地对知识图谱进行扩充。

Description

一种基于多任务学习的医疗知识图谱的处理方法及系统
技术领域
本发明属于数据挖掘和深度学习领域,尤其涉及一种基于多任务学习的医疗知识图谱的处理方法及系统。
背景技术
随着社会的不断发展,医疗健康产业也越来越受到关注。然而,医疗健康产业面临医疗支出升高、医疗人员不足等重大挑战。人工智能技术的不断发展为解决这些挑战提供了思路。构建中文医疗知识图谱对于开发医疗健康自动问答等医疗系统、推动医疗健康行业的发展具有重要作用。
而知识图谱可分为通用知识图谱和行业知识图谱。通用知识图谱注重广度,强调融合更多的实体,较行业知识图谱而言,其准确度不够高,并且受概念范围的影响,很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。通用知识图谱主要应用于智能搜索、智能问答、个性化推荐等领域。行业知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义。行业知识图谱中,实体的属性与数据模式往往比较丰富,需要考虑到不同的业务场景与使用人员。
由于知识图谱中的知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题,所以必须要进行知识的融合。知识融合是高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
而现实场景中,需要对齐多个知识图谱,这些知识图谱两两之间仅包含少量标签数据,使用现有的半监督实体方法效果不佳。
发明内容
针对上述现有技术中存在的缺陷,本发明提供一种基于多任务学习的医疗知识图谱的处理方法,包括以下步骤:
步骤S101、选择目标医疗知识图谱和多个参考医疗知识图谱;
步骤S103、将所述目标医疗知识图谱与所述多个参考医疗知识图谱输入基于注意力机制的实体-关系共享网络;
步骤S105、对所述实体-关系共享网络的输出采用基于GCN的图谱表示;
步骤S107、更新对齐种子集;
步骤S109、基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。
其中,所述步骤S103包括:
将所述目标医疗知识图谱和多个参考医疗知识图谱的实体的特征向量和图的结构输入所述基于注意力机制的实体-关系共享网络。
其中,所述将所述目标医疗知识图谱和多个参考医疗知识图谱的实体的特征向量和图的结构输入所述基于注意力机制的实体-关系共享网络,具体包括:
将<实体-关系-实体>三元组信息定义为:ti,r:<ei,ri,j,ej>,表示对于实体ei和ej关于关系r之间的三元组;
在所述共享网络中,三元组ti,r中尾实体ej与头实体ei的空间距离hi,r被定义为:
hi,r=ej-ri,j
因此,实体ei与关系r的重要程度可以通过下式计算得到:
ae,r=||ei-hi,r||;
其中,ae,r表示实体e与关系r的权重值,ae,r∈{-1,1},[-1,0]的ae,r值在实体表示模块中均不加入计算。基于此,生成不同关系对应的邻居实体对当前实体的权重矩阵Ae,r
其中,所述权重矩阵Ae,r由共享参数构成。
其中,所述步骤S105包括:
基于共享网络输出的的实体-关系权重矩阵Ae,r,获得图谱实体表示向量ve,其计算方式定义为:
Figure RE-GDA0003925941660000031
其中,关系
Figure RE-GDA0003925941660000032
Nr是实体的邻居结点集合,ae,r表示第i个实体和第 j个实体之间通过不同的关系连接的传播程度,ae,r∈Ae,r
Figure RE-GDA0003925941660000033
表示实体第 l层的属性特征的权重,σ是线性激活函数tanh,A是一个n×n连通矩阵,表示图的结构信息。
其中,所述步骤S105中,在GCN网络训练的过程中通过最小化损失函数来训练GCN模型,其中将实体关系表示损失函数定义为:
Figure RE-GDA0003925941660000034
实体属性表示损失函数定义为:
Figure RE-GDA0003925941660000035
其中,
Figure RE-GDA0003925941660000036
是实体关系表示的损失函数,
Figure RE-GDA0003925941660000037
是实体属性表示的损失函数,
Figure RE-GDA0003925941660000038
是正样例(e,v)的负样例,通过把e或者v用KG1或者KG2中随机选择的实体进行替换得到,α,β>0,是分隔对齐实体中正样例和负样例的超参数函数,函数d(e,v)=cos(e,v),[x]+=max{0,x}。
其中,所述步骤S107包括:通过对向量空间中距离小于设定阈值的候选实体进行排序和过滤,最终将排名第一的实体对扩充到对齐种子集中。
其中,所述步骤S109包括:
给定三个知识图谱KG1、KG2和KG3,分为两个对齐任务,其中图谱KG1和KG2之间含有少量对齐标签
Figure RE-GDA0003925941660000039
图谱KG2和KG3之间含有少量对齐标签,标记为
Figure RE-GDA00039259416600000310
实体经过实体表示模块分别表示为
Figure RE-GDA00039259416600000311
Figure RE-GDA0003925941660000044
将图谱KG1和KG2实体对齐任务的损失定义为:
Figure RE-GDA0003925941660000041
图谱KG2和KG3实体对齐任务的损失定义为:
Figure RE-GDA0003925941660000042
其中,整体的损失函数定义为:
Figure RE-GDA0003925941660000043
其中,α和β是两个可学习的参数,用来服从高斯分布作为同方差不确定性的衡量方法。
本发明还提出了一种基于多任务学习的医疗知识图谱的处理系统,其包括:
选定模块,其用于选择目标医疗知识图谱和多个参考医疗知识图谱;
基于注意力的实体-关系共享模块,其用于接收所述目标医疗知识图谱与所述多个参考医疗知识图谱的输入;
基于GCN的图谱表示模块,其用于对所述实体-关系共享网络的输出采用基于GCN的图谱表示;
基于迭代式的种子实体扩充模块,其用于更新对齐种子集;
基于参数共享的多任务协同训练模块,其用于基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。
与现有技术相比,本发明考虑了知识图谱中实体之间的关系和属性信息,以及关系的重要程度,提升实体表示质量;采用迭代式对齐种子更新方法,不断更新和扩充对齐种子集;提出多任务的迁移学习方法提升实体对齐效果,能够更好的地对知识图谱进行扩充。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种基于多任务学习的医疗知识图谱的处理方法流程图;
图2是示出根据本发明实施例的一种基于多任务学习的医疗知识图谱的处理系统的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在 A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
实体对齐(Entity Alignment),也被也称为实体匹配(entity matching) 或实体解析(entity resolution),是知识图谱融合的技术之一,其旨通过找到当前图谱和其他外部图谱中指向真实世界同一事物的实体,进而利用其他图谱中的关系和属性信息,对当前知识图谱进行扩充和完善。其主要是通过消除异构数据中实体冲突、指向不明等不一致性问题,从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。
实施例一、
如图1所示,本发明公开了一种基于多任务学习的医疗知识图谱的处理方法,包括以下步骤:
步骤S101、选择目标医疗知识图谱和多个参考医疗知识图谱;
步骤S103、将所述目标医疗知识图谱与所述多个参考医疗知识图谱输入基于注意力机制的实体-关系共享网络;
步骤S105、对所述实体-关系共享网络的输出采用基于GCN的图谱表示;
步骤S107、更新对齐种子集;
步骤S109、基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。
实施例二、
本发明提出的一种基于多任务学习的医疗知识图谱的处理方法,包括以下步骤:
步骤S101、选择目标医疗知识图谱和多个参考医疗知识图谱;
步骤S103、将所述目标医疗知识图谱与所述多个参考医疗知识图谱输入基于注意力机制的实体-关系共享网络;
步骤S105、对所述实体-关系共享网络的输出采用基于GCN的图谱表示;
步骤S107、更新对齐种子集;
步骤S109、基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。
其中,所述步骤S103包括:
将所述目标医疗知识图谱和多个参考医疗知识图谱的实体的特征向量和图的结构输入所述基于注意力机制的实体-关系共享网络。
其中,所述将所述目标医疗知识图谱和多个参考医疗知识图谱的实体的特征向量和图的结构输入所述基于注意力机制的实体-关系共享网络,具体包括:
将<实体-关系-实体>三元组信息定义为:ti,r:<ei,ri,j,ej>,表示对于实体ei和ej关于关系r之间的三元组;
在所述共享网络中,三元组ti,r中尾实体ej与头实体ei的空间距离hi,r被定义为:
hi,r=ej-ri,j
因此,实体ei与关系r的重要程度可以通过下式计算得到:
ae,r=||ei-hi,r||;
其中,ae,r表示实体e与关系r的权重值,ae,r∈{-1,1},[-1,0]的ae,r值在实体表示模块中均不加入计算。基于此,生成不同关系对应的邻居实体对当前实体的权重矩阵Ae,r
其中,所述权重矩阵Ae,r由共享参数构成。
其中,所述步骤S105包括:
基于共享网络输出的的实体-关系权重矩阵Ae,r,获得图谱实体表示向量ve,其计算方式定义为:
Figure RE-GDA0003925941660000081
其中,关系
Figure RE-GDA0003925941660000082
Nr是实体的邻居结点集合,ae,r表示第i个实体和第 j个实体之间通过不同的关系连接的传播程度,ae,r∈Ae,r
Figure RE-GDA0003925941660000083
表示实体第 l层的属性特征的权重,σ是线性激活函数tanh,A是一个n×n连通矩阵,表示图的结构信息。
其中,所述步骤S105中,在GCN网络训练的过程中通过最小化损失函数来训练GCN模型,其中将实体关系表示损失函数定义为:
Figure RE-GDA0003925941660000084
实体属性表示损失函数定义为:
Figure RE-GDA0003925941660000085
其中,
Figure RE-GDA0003925941660000086
是实体关系表示的损失函数,
Figure RE-GDA0003925941660000087
是实体属性表示的损失函数,
Figure RE-GDA0003925941660000088
是正样例(e,v)的负样例,通过把e或者v用KG1或者KG2中随机选择的实体进行替换得到,α,β>0,是分隔对齐实体中正样例和负样例的超参数函数,函数d(e,v)=cos(e,v),[x]+=max{0,x}。
其中,所述步骤S107包括:通过对向量空间中距离小于设定阈值的候选实体进行排序和过滤,最终将排名第一的实体对扩充到对齐种子集中。
其中,所述步骤S109包括:
给定三个知识图谱KG1、KG2和KG3,分为两个对齐任务,其中图谱KG1和KG2之间含有少量对齐标签
Figure RE-GDA0003925941660000089
图谱KG2和KG3之间含有少量对齐标签,标记为
Figure RE-GDA00039259416600000810
实体经过实体表示模块分别表示为
Figure RE-GDA00039259416600000811
Figure RE-GDA00039259416600000812
将图谱KG1和KG2实体对齐任务的损失定义为:
Figure RE-GDA00039259416600000813
图谱KG2和KG3实体对齐任务的损失定义为:
Figure RE-GDA0003925941660000091
其中,整体的损失函数定义为:
Figure RE-GDA0003925941660000092
其中,α和β是两个可学习的参数,用来服从高斯分布作为同方差不确定性的衡量方法。
实施例四
本发明还提出了一种基于多任务学习的医疗知识图谱的处理系统,其包括:
选定模块,其用于选择目标医疗知识图谱和多个参考医疗知识图谱;
基于注意力的实体-关系共享模块,其用于接收所述目标医疗知识图谱与所述多个参考医疗知识图谱的输入;
基于GCN的图谱表示模块,其用于对所述实体-关系共享网络的输出采用基于GCN的图谱表示;
基于迭代式的种子实体扩充模块,其用于更新对齐种子集;
基于参数共享的多任务协同训练模块,其用于基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。
该系统主要包括四个模块:
第一个模块,基于Attention的实体-关系共享模块:通过注意力机制 (AttentionMechanism)对实体间关系的重要性进行建模;
第二个模块,基于GCN的图谱表示模块:通过图卷积神经网络(GraphConvolutional Network,GCN)学习图谱实体关系和属性特征;
第三个模块,基于迭代式的种子实体扩充模块:采用迭代式对齐种子更新方法,不断更新和扩充对齐种子集;
第四个模块,基于参数共享的多任务协同训练模块:通过共享模型参数来联合训练多个任务,实现多任务之间的迁移学习。
下面我们将详细介绍这四个模块的内容。
基于Attention的实体-关系共享模块
基于Attention的实体-关系共享模块结构如图2所示。实体-关系共享模块将相应实体的特征向量和图的结构作为输入,即:<实体-关系-实体> 三元组信息,定义为:ti,r:<ei,ri,j,ej>,表示对于实体ei和ej关于关系r之间的三元组。在注意力网络中,三元组ti,r中尾实体ej与头实体ei的空间距离hi,r被定义为:
hi,r=ej-ri,j
因此,实体ei与关系r的重要程度可以通过下式计算得到:
ae,r=||ei-hi,r||
其中,ae,r表示实体e与关系r的权重值,ae,r∈{-1,1},[-1,0]的ae,r值在实体表示模块中均不加入计算。基于此,生成不同关系对应的邻居实体对当前实体的权重矩阵Ae,r
基于GCN的图谱表示模块
知识图谱中包含大量的实体结构和属性信息,其中结构属性也称作关系信息。本发明采用图卷积神经网络(GCN)生成知识图谱实体表示,将知识图谱中存在的大量关系和属性信息作为输入,通过学习实体关系和属性特征,把邻居实体信息编码成实值向量,最终生成实体的特征表示。GCN 能够将知识图谱中的实体表示向量映射到同一个低维向量空间中,使得等价实体的空间距离更近,用于实体对齐模块中向量的相似性度量。
将GCN层中的每个实体的关系特征向量为hr和属性特征向量为ha。由于实体的关系数目远大于实体属性数目,因此在模型输入层中,hr (0)的初始化是随机生成的,并且在模型训练过程中会不断更新;ha (0)在模型训练过程中是固定值。特别地,定义HR和HA表示所有实体关系和属性的特征矩阵,卷积计算方法如下:
Figure RE-GDA0003925941660000101
其中,
Figure RE-GDA0003925941660000111
分别表示1层的关系特征和属性特征的权重矩阵,相应地,[;]为两个矩阵的级联,激活函数σ为ReLU(·)=max(0,·)。特别地,A是一个n×n连通矩阵,表示图的结构信息;
Figure RE-GDA0003925941660000112
I是单位矩阵,
Figure RE-GDA0003925941660000113
Figure RE-GDA0003925941660000114
的对角矩阵。
此外,考虑到知识图谱是由关系连接的多重图,由不同的关系连接的等价实体的差异性可能很大。因此,本发明利用实体-关系注意力模块学习到的实体-关系权重矩阵Ae,r,从而获得图谱实体表示向量ve,其计算方式定义为:
Figure RE-GDA0003925941660000115
其中,关系
Figure RE-GDA0003925941660000116
Nr是实体的邻居结点集合,ae,r表示第i个实体和第 j个实体之间通过不同的关系连接的传播程度,ae,r∈Ae,r
Figure RE-GDA0003925941660000117
表示实体第 1层的属性特征的权重,σ是线性激活函数tanh,A是一个n×n连通矩阵,表示图的结构信息。
本发明中定义的两个图谱对应的GCN模型分别被定义成GCN1和GCN2,均为两层的网络结构。在GCN网络中,所有层的实体关系特征向量的维数设置成dr,特征向量的维数设置成da,GCN1和GCN2两个模型共享WR。最终GCN的输出实体的向量表示,维度是(dr+da),用于后续的对齐步骤中。
为了使等价实体在GCN网络中获得更接近的向量表示,本发明使用少量已有的对齐种子作为监督信息,并设计基于边界的评分排序损失函数,在GCN网络训练的过程中通过最小化损失函数来训练GCN模型。具体地,本发明将实体关系表示损失函数定义为:
Figure RE-GDA0003925941660000118
实体属性表示损失函数定义为:
Figure RE-GDA0003925941660000121
其中,
Figure RE-GDA0003925941660000122
是实体关系表示的损失函数,
Figure RE-GDA0003925941660000123
是实体属性表示的损失函数,
Figure RE-GDA0003925941660000124
是正样例(e,v)的负样例,通过把e或者v用KG1或者KG2中随机选择的实体进行替换得到。α,β>0,是分隔对齐实体中正样例和负样例的超参数函数,函数d(e,v)=cos(e,v),[x]+=max{0,x}。
基于迭代式的对齐实体扩充模块
在实体表示模块中,同一空间中相近的实体表示称为候选实体。为了对候选实体进行筛选,本发明设计对齐实体扩充模块,通过对向量空间中距离小于设定阈值的候选实体进行排序和过滤,最终将排名第一的实体对扩充到对齐种子集中。定义不同知识图谱中的实体e1和e2的距离为d(e1,e2),定义筛选的阈值为γ,如果d(e1,e2)<γ,模型判定此对实体的距离满足阈值范围,则可进行扩充,否则模型判定此对实体距离过大,不可能为对齐的实体,不对该实体对进行扩充。本发明基于翻译模型的思想,将实体对齐视为实体之间特定关系的转化,具体地,给定两个待对齐的实体e1∈KG1, e2∈KG2,若实体e1与e2等价,则满足以下条件:
Figure RE-GDA0003925941660000125
其中,
Figure RE-GDA0003925941660000126
是对齐关系。基于此,距离函数d定义为:
Figure RE-GDA0003925941660000127
通过相似度的计算以及排名来获取待扩展的对齐实体对,随着迭代的进行,模型不断扩充对齐种子集,提升模型训练性能。
基于参数共享的多任务协同训练模块
在模型训练阶段,本发明设计基于参数共享的多任务协同训练方法,通过关联多个对齐任务之间的迁移来提升各个对齐模型的性能。给定三个知识图谱KG1、KG2和KG3,分为两个对齐任务,其中图谱KG1和KG2之间含有少量对齐标签
Figure RE-GDA0003925941660000131
图谱KG2和KG3之间含有少量对齐标签,标记为
Figure RE-GDA0003925941660000132
实体经过实体表示模块分别表示为
Figure RE-GDA0003925941660000133
Figure RE-GDA0003925941660000134
本算法将图谱KG1和KG2实体对齐任务的损失定义为:
Figure RE-GDA0003925941660000135
图谱KG2和KG3实体对齐任务的损失定义为:
Figure RE-GDA0003925941660000136
此外,为了同时学习两个对齐任务,并保证各个实体对齐任务的对齐效果,本发明通过共享实体-关系注意力网络参数,来同时训两个实体对齐任务。模型整体的损失函数定义为:
Figure RE-GDA0003925941660000137
其中,α和β是两个可学习的参数,用来服从高斯分布作为同方差不确定性的衡量方法。
实施例四、
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (10)

1.一种基于多任务学习的医疗知识图谱的处理方法,包括以下步骤:
步骤S101、选择目标医疗知识图谱和多个参考医疗知识图谱;
步骤S103、将所述目标医疗知识图谱与所述多个参考医疗知识图谱输入基于注意力机制的实体-关系共享网络;
步骤S105、对所述实体-关系共享网络的输出采用基于GCN的图谱表示;
步骤S107、更新对齐种子集;
步骤S109、基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。
2.如权利要求1所述方法,其中所述步骤S103包括:
将所述目标医疗知识图谱和多个参考医疗知识图谱的实体的特征向量和图的结构输入所述基于注意力机制的实体-关系共享网络。
3.如权利要求2所述方法,其中所述将所述目标医疗知识图谱和多个参考医疗知识图谱的实体的特征向量和图的结构输入所述基于注意力机制的实体-关系共享网络,具体包括:
将<实体-关系-实体>三元组信息定义为:ti,r:<ei,ri,j,ej>,表示对于实体ei和ej关于关系r之间的三元组;
在所述共享网络中,三元组ti,r中尾实体ej与头实体ei的空间距离hj,r被定义为:
hi,r=ej-ri,j
因此,实体ei与关系r的重要程度可以通过下式计算得到:
ae,r=||ei-hi,r||;
其中,ae,r表示实体e与关系r的权重值,ae,r∈{-1,1},[-1,0]的ae,r值在实体表示模块中均不加入计算。基于此,生成不同关系对应的邻居实体对当前实体的权重矩阵Ae,r
4.如权利要求3所述方法,其中所述权重矩阵Ae,r由共享参数构成。
5.如权利要求3所述方法,其中所述步骤S105包括:
基于共享网络输出的的实体-关系权重矩阵Ae,r,获得图谱实体表示向量ve,其计算方式定义为:
Figure FDA0003671774290000021
其中,关系
Figure FDA0003671774290000022
Nr是实体的邻居结点集合,ae,r表示第i个实体和第j个实体之间通过不同的关系连接的传播程度,ae,r∈Ae,r
Figure FDA0003671774290000023
表示实体第l层的属性特征的权重,σ是线性激活函数tanh,A是一个n×n连通矩阵,表示图的结构信息。
6.如权利要求5所述方法,其中所述步骤S105中,在GCN网络训练的过程中通过最小化损失函数来训练GCN模型,其中将实体关系表示损失函数定义为:
Figure FDA0003671774290000024
实体属性表示损失函数定义为:
Figure FDA0003671774290000025
其中,
Figure FDA0003671774290000026
是实体关系表示的损失函数,
Figure FDA0003671774290000027
是实体属性表示的损失函数,
Figure FDA0003671774290000028
是正样例(e,v)的负样例,通过把e或者v用KG1或者KG2中随机选择的实体进行替换得到,α,β>0,是分隔对齐实体中正样例和负样例的超参数函数,函数d(e,v)=cos(e,v),[x]+=max{0,x}。
7.如权利要求1所述方法,其中所述步骤S107包括:通过对向量空间中距离小于设定阈值的候选实体进行排序和过滤,最终将排名第一的实体对扩充到对齐种子集中。
8.如权利要求1所述方法,其中所述步骤S109包括:
给定三个知识图谱KG1、KG2和KG3,分为两个对齐任务,其中图谱KG1和KG2之间含有少量对齐标签
Figure FDA0003671774290000031
图谱KG2和KG3之间含有少量对齐标签,标记为
Figure FDA0003671774290000032
实体经过实体表示模块分别表示为
Figure FDA0003671774290000033
Figure FDA0003671774290000034
将图谱KG1和KG2实体对齐任务的损失定义为:
Figure FDA0003671774290000035
图谱KG2和KG3实体对齐任务的损失定义为:
Figure FDA0003671774290000036
9.如权利要求8所述方法,其中整体的损失函数定义为:
Figure FDA0003671774290000037
其中,α和β是两个可学习的参数,用来服从高斯分布作为同方差不确定性的衡量方法。
10.一种基于多任务学习的医疗知识图谱的处理系统,其包括:
选定模块,其用于选择目标医疗知识图谱和多个参考医疗知识图谱;
基于注意力的实体-关系共享模块,其用于接收所述目标医疗知识图谱与所述多个参考医疗知识图谱的输入;
基于GCN的图谱表示模块,其用于对所述实体-关系共享网络的输出采用基于GCN的图谱表示;
基于迭代式的种子实体扩充模块,其用于更新对齐种子集;
基于参数共享的多任务协同训练模块,其用于基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。
CN202210607082.0A 2022-05-31 2022-05-31 一种基于多任务学习的医疗知识图谱的处理方法及系统 Pending CN115440384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210607082.0A CN115440384A (zh) 2022-05-31 2022-05-31 一种基于多任务学习的医疗知识图谱的处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210607082.0A CN115440384A (zh) 2022-05-31 2022-05-31 一种基于多任务学习的医疗知识图谱的处理方法及系统

Publications (1)

Publication Number Publication Date
CN115440384A true CN115440384A (zh) 2022-12-06

Family

ID=84241269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210607082.0A Pending CN115440384A (zh) 2022-05-31 2022-05-31 一种基于多任务学习的医疗知识图谱的处理方法及系统

Country Status (1)

Country Link
CN (1) CN115440384A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227592A (zh) * 2023-05-06 2023-06-06 城云科技(中国)有限公司 一种多源知识图谱对齐模型及其构建方法、装置及应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227592A (zh) * 2023-05-06 2023-06-06 城云科技(中国)有限公司 一种多源知识图谱对齐模型及其构建方法、装置及应用
CN116227592B (zh) * 2023-05-06 2023-07-18 城云科技(中国)有限公司 一种多源知识图谱对齐模型及其构建方法、装置及应用

Similar Documents

Publication Publication Date Title
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN109816032B (zh) 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN109558942B (zh) 一种基于浅度学习的神经网络迁移方法
CN111046671A (zh) 基于图网络融入词典的中文命名实体识别方法
CN111476315A (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
CN113792768A (zh) 超图神经网络分类方法和装置
CN115564027A (zh) 多模态学习行为分析方法、系统及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
Mai et al. Optimization of interval type-2 fuzzy system using the PSO technique for predictive problems
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN112214595A (zh) 类别确定方法、装置、设备及介质
CN114925212A (zh) 一种自动判断并融合知识图谱的关系抽取方法及系统
CN115440384A (zh) 一种基于多任务学习的医疗知识图谱的处理方法及系统
Lonij et al. Open-world visual recognition using knowledge graphs
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
CN115858725B (zh) 一种基于无监督式图神经网络的文本噪声筛选方法及系统
US11875250B1 (en) Deep neural networks with semantically weighted loss functions
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN116975578A (zh) 逻辑规则网络模型训练方法、装置、设备、程序及介质
CN116432660A (zh) 一种情感分析模型的预训练方法、装置和电子设备
CN116958624A (zh) 指定材质的识别方法、装置、设备、介质及程序产品
CN115392236A (zh) 一种文档级关系抽取方法、系统、设备及存储介质
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination