CN115440384A

CN115440384A - 一种基于多任务学习的医疗知识图谱的处理方法及系统

Info

Publication number: CN115440384A
Application number: CN202210607082.0A
Authority: CN
Inventors: 李刚; 杨文林; 张阁; 丁丽媛; 何召锋; 程祥
Original assignee: Hangzhou Kangsheng Health Consulting Co Ltd
Current assignee: Hangzhou Kangsheng Health Consulting Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-12-06

Abstract

本发明公开了一种基于多任务学习的医疗知识图谱的处理方法及系统，其中所述方法包括：选择目标医疗知识图谱和多个参考医疗知识图谱；将所述目标医疗知识图谱与所述多个参考医疗知识图谱输入基于注意力机制的实体‑关系共享网络；对所述实体‑关系共享网络的输出采用基于GCN的图谱表示；更新对齐种子集；基于所述实体‑关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。与现有技术相比，本发明考虑了知识图谱中实体之间的关系和属性信息，以及关系的重要程度，提升实体表示质量；采用迭代式对齐种子更新方法，不断更新和扩充对齐种子集；提出多任务的迁移学习方法提升实体对齐效果，能够更好的地对知识图谱进行扩充。

Description

一种基于多任务学习的医疗知识图谱的处理方法及系统

技术领域

本发明属于数据挖掘和深度学习领域，尤其涉及一种基于多任务学习的医疗知识图谱的处理方法及系统。

背景技术

随着社会的不断发展，医疗健康产业也越来越受到关注。然而，医疗健康产业面临医疗支出升高、医疗人员不足等重大挑战。人工智能技术的不断发展为解决这些挑战提供了思路。构建中文医疗知识图谱对于开发医疗健康自动问答等医疗系统、推动医疗健康行业的发展具有重要作用。

而知识图谱可分为通用知识图谱和行业知识图谱。通用知识图谱注重广度，强调融合更多的实体，较行业知识图谱而言，其准确度不够高，并且受概念范围的影响，很难借助本体库对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。通用知识图谱主要应用于智能搜索、智能问答、个性化推荐等领域。行业知识图谱通常需要依靠特定行业的数据来构建，具有特定的行业意义。行业知识图谱中，实体的属性与数据模式往往比较丰富，需要考虑到不同的业务场景与使用人员。

由于知识图谱中的知识来源广泛，存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题，所以必须要进行知识的融合。知识融合是高层次的知识组织，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。

而现实场景中，需要对齐多个知识图谱，这些知识图谱两两之间仅包含少量标签数据，使用现有的半监督实体方法效果不佳。

发明内容

针对上述现有技术中存在的缺陷，本发明提供一种基于多任务学习的医疗知识图谱的处理方法，包括以下步骤：

步骤S101、选择目标医疗知识图谱和多个参考医疗知识图谱；

步骤S103、将所述目标医疗知识图谱与所述多个参考医疗知识图谱输入基于注意力机制的实体-关系共享网络；

步骤S105、对所述实体-关系共享网络的输出采用基于GCN的图谱表示；

步骤S107、更新对齐种子集；

步骤S109、基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。

其中，所述步骤S103包括：

将所述目标医疗知识图谱和多个参考医疗知识图谱的实体的特征向量和图的结构输入所述基于注意力机制的实体-关系共享网络。

其中，所述将所述目标医疗知识图谱和多个参考医疗知识图谱的实体的特征向量和图的结构输入所述基于注意力机制的实体-关系共享网络，具体包括：

将<实体-关系-实体>三元组信息定义为：t_i，r：<e_i，r_i，j，e_j>，表示对于实体e_i和e_j关于关系r之间的三元组；

在所述共享网络中，三元组t_i，r中尾实体e_j与头实体e_i的空间距离h_i，r被定义为：

h_i，r＝e_j-r_i，j；

因此，实体e_i与关系r的重要程度可以通过下式计算得到：

a_e，r＝||e_i-h_i，r||；

其中，a_e，r表示实体e与关系r的权重值，a_e，r∈{-1，1}，[-1，0]的a_e，r值在实体表示模块中均不加入计算。基于此，生成不同关系对应的邻居实体对当前实体的权重矩阵A_e，r。

其中，所述权重矩阵A_e，r由共享参数构成。

其中，所述步骤S105包括：

基于共享网络输出的的实体-关系权重矩阵A_e，r，获得图谱实体表示向量v_e，其计算方式定义为：

其中，关系

N^r是实体的邻居结点集合，a_e，r表示第i个实体和第 j个实体之间通过不同的关系连接的传播程度，a_e，r∈A_e，r，

表示实体第 l层的属性特征的权重，σ是线性激活函数tanh，A是一个n×n连通矩阵，表示图的结构信息。

其中，所述步骤S105中，在GCN网络训练的过程中通过最小化损失函数来训练GCN模型，其中将实体关系表示损失函数定义为：

实体属性表示损失函数定义为：

其中，

是实体关系表示的损失函数，

是实体属性表示的损失函数，

是正样例(e，v)的负样例，通过把e或者v用KG₁或者KG₂中随机选择的实体进行替换得到，α，β＞0，是分隔对齐实体中正样例和负样例的超参数函数，函数d(e，v)＝cos(e，v)，[x]₊＝max{0，x}。

其中，所述步骤S107包括：通过对向量空间中距离小于设定阈值的候选实体进行排序和过滤，最终将排名第一的实体对扩充到对齐种子集中。

其中，所述步骤S109包括：

给定三个知识图谱KG₁、KG₂和KG₃，分为两个对齐任务，其中图谱KG₁和KG₂之间含有少量对齐标签

图谱KG₂和KG₃之间含有少量对齐标签，标记为

实体经过实体表示模块分别表示为

和

将图谱KG₁和KG₂实体对齐任务的损失定义为：

图谱KG₂和KG₃实体对齐任务的损失定义为：

其中，整体的损失函数定义为：

其中，α和β是两个可学习的参数，用来服从高斯分布作为同方差不确定性的衡量方法。

本发明还提出了一种基于多任务学习的医疗知识图谱的处理系统，其包括：

选定模块，其用于选择目标医疗知识图谱和多个参考医疗知识图谱；

基于注意力的实体-关系共享模块，其用于接收所述目标医疗知识图谱与所述多个参考医疗知识图谱的输入；

基于GCN的图谱表示模块，其用于对所述实体-关系共享网络的输出采用基于GCN的图谱表示；

基于迭代式的种子实体扩充模块，其用于更新对齐种子集；

基于参数共享的多任务协同训练模块，其用于基于所述实体-关系共享网络的共享参数和更新后对齐种子集分别对所述目标知识图谱进行处理。

与现有技术相比，本发明考虑了知识图谱中实体之间的关系和属性信息，以及关系的重要程度，提升实体表示质量；采用迭代式对齐种子更新方法，不断更新和扩充对齐种子集；提出多任务的迁移学习方法提升实体对齐效果，能够更好的地对知识图谱进行扩充。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本发明实施例的一种基于多任务学习的医疗知识图谱的处理方法流程图；

图2是示出根据本发明实施例的一种基于多任务学习的医疗知识图谱的处理系统的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……，但这些……不应限于这些术语。这些术语仅用来将……区分开。例如，在不脱离本发明实施例范围的情况下，第一……也可以被称为第二……，类似地，第二……也可以被称为第一……。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在 A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本发明的可选实施例。

实体对齐(Entity Alignment)，也被也称为实体匹配(entity matching) 或实体解析(entity resolution)，是知识图谱融合的技术之一，其旨通过找到当前图谱和其他外部图谱中指向真实世界同一事物的实体，进而利用其他图谱中的关系和属性信息，对当前知识图谱进行扩充和完善。其主要是通过消除异构数据中实体冲突、指向不明等不一致性问题，从顶层创建一个大规模的统一知识库，从而帮助机器理解多源异质的数据，形成高质量的知识。

实施例一、

如图1所示，本发明公开了一种基于多任务学习的医疗知识图谱的处理方法，包括以下步骤：

步骤S101、选择目标医疗知识图谱和多个参考医疗知识图谱；

步骤S107、更新对齐种子集；

实施例二、

本发明提出的一种基于多任务学习的医疗知识图谱的处理方法，包括以下步骤：

步骤S101、选择目标医疗知识图谱和多个参考医疗知识图谱；

步骤S107、更新对齐种子集；

其中，所述步骤S103包括：

h_i，r＝e_j-r_i，j；

因此，实体e_i与关系r的重要程度可以通过下式计算得到：

a_e，r＝||e_i-h_i，r||；

其中，所述权重矩阵A_e，r由共享参数构成。

其中，所述步骤S105包括：

其中，关系

实体属性表示损失函数定义为：

其中，

是实体关系表示的损失函数，

是实体属性表示的损失函数，

其中，所述步骤S109包括：

图谱KG₂和KG₃之间含有少量对齐标签，标记为

实体经过实体表示模块分别表示为

和

将图谱KG₁和KG₂实体对齐任务的损失定义为：

图谱KG₂和KG₃实体对齐任务的损失定义为：

其中，整体的损失函数定义为：

实施例四

基于迭代式的种子实体扩充模块，其用于更新对齐种子集；

该系统主要包括四个模块：

第一个模块，基于Attention的实体-关系共享模块：通过注意力机制 (AttentionMechanism)对实体间关系的重要性进行建模；

第二个模块，基于GCN的图谱表示模块：通过图卷积神经网络(GraphConvolutional Network，GCN)学习图谱实体关系和属性特征；

第三个模块，基于迭代式的种子实体扩充模块：采用迭代式对齐种子更新方法，不断更新和扩充对齐种子集；

第四个模块，基于参数共享的多任务协同训练模块：通过共享模型参数来联合训练多个任务，实现多任务之间的迁移学习。

下面我们将详细介绍这四个模块的内容。

基于Attention的实体-关系共享模块

基于Attention的实体-关系共享模块结构如图2所示。实体-关系共享模块将相应实体的特征向量和图的结构作为输入，即：<实体-关系-实体> 三元组信息，定义为：t_i，r：<e_i，r_i，j，e_j>，表示对于实体e_i和e_j关于关系r之间的三元组。在注意力网络中，三元组t_i，r中尾实体e_j与头实体e_i的空间距离h_i，r被定义为：

h_i，r＝e_j-r_i，j

因此，实体e_i与关系r的重要程度可以通过下式计算得到：

a_e，r＝||e_i-h_i，r||

基于GCN的图谱表示模块

知识图谱中包含大量的实体结构和属性信息，其中结构属性也称作关系信息。本发明采用图卷积神经网络(GCN)生成知识图谱实体表示，将知识图谱中存在的大量关系和属性信息作为输入，通过学习实体关系和属性特征，把邻居实体信息编码成实值向量，最终生成实体的特征表示。GCN 能够将知识图谱中的实体表示向量映射到同一个低维向量空间中，使得等价实体的空间距离更近，用于实体对齐模块中向量的相似性度量。

将GCN层中的每个实体的关系特征向量为h_r和属性特征向量为h_a。由于实体的关系数目远大于实体属性数目，因此在模型输入层中，h_r ⁽⁰⁾的初始化是随机生成的，并且在模型训练过程中会不断更新；h_a ⁽⁰⁾在模型训练过程中是固定值。特别地，定义H_R和H_A表示所有实体关系和属性的特征矩阵，卷积计算方法如下：

其中，

分别表示1层的关系特征和属性特征的权重矩阵，相应地，[；]为两个矩阵的级联，激活函数σ为ReLU(·)＝max(0，·)。特别地，A是一个n×n连通矩阵，表示图的结构信息；

I是单位矩阵，

是

的对角矩阵。

此外，考虑到知识图谱是由关系连接的多重图，由不同的关系连接的等价实体的差异性可能很大。因此，本发明利用实体-关系注意力模块学习到的实体-关系权重矩阵A_e，r，从而获得图谱实体表示向量v_e，其计算方式定义为：

其中，关系

表示实体第 1层的属性特征的权重，σ是线性激活函数tanh，A是一个n×n连通矩阵，表示图的结构信息。

本发明中定义的两个图谱对应的GCN模型分别被定义成GCN₁和GCN₂，均为两层的网络结构。在GCN网络中，所有层的实体关系特征向量的维数设置成d_r，特征向量的维数设置成d_a，GCN₁和GCN₂两个模型共享W_R。最终GCN的输出实体的向量表示，维度是(d_r+d_a)，用于后续的对齐步骤中。

为了使等价实体在GCN网络中获得更接近的向量表示，本发明使用少量已有的对齐种子作为监督信息，并设计基于边界的评分排序损失函数，在GCN网络训练的过程中通过最小化损失函数来训练GCN模型。具体地，本发明将实体关系表示损失函数定义为：

实体属性表示损失函数定义为：

其中，

是实体关系表示的损失函数，

是实体属性表示的损失函数，

是正样例(e，v)的负样例，通过把e或者v用KG₁或者KG₂中随机选择的实体进行替换得到。α，β＞0，是分隔对齐实体中正样例和负样例的超参数函数，函数d(e，v)＝cos(e，v)，[x]₊＝max{0，x}。

基于迭代式的对齐实体扩充模块

在实体表示模块中，同一空间中相近的实体表示称为候选实体。为了对候选实体进行筛选，本发明设计对齐实体扩充模块，通过对向量空间中距离小于设定阈值的候选实体进行排序和过滤，最终将排名第一的实体对扩充到对齐种子集中。定义不同知识图谱中的实体e₁和e₂的距离为d(e₁，e₂)，定义筛选的阈值为γ，如果d(e₁，e₂)＜γ，模型判定此对实体的距离满足阈值范围，则可进行扩充，否则模型判定此对实体距离过大，不可能为对齐的实体，不对该实体对进行扩充。本发明基于翻译模型的思想，将实体对齐视为实体之间特定关系的转化，具体地，给定两个待对齐的实体e₁∈KG₁， e₂∈KG₂，若实体e₁与e₂等价，则满足以下条件：

其中，

是对齐关系。基于此，距离函数d定义为：

通过相似度的计算以及排名来获取待扩展的对齐实体对，随着迭代的进行，模型不断扩充对齐种子集，提升模型训练性能。

基于参数共享的多任务协同训练模块

在模型训练阶段，本发明设计基于参数共享的多任务协同训练方法，通过关联多个对齐任务之间的迁移来提升各个对齐模型的性能。给定三个知识图谱KG₁、KG₂和KG₃，分为两个对齐任务，其中图谱KG₁和KG₂之间含有少量对齐标签

图谱KG₂和KG₃之间含有少量对齐标签，标记为

实体经过实体表示模块分别表示为

和

本算法将图谱KG₁和KG₂实体对齐任务的损失定义为：

图谱KG₂和KG₃实体对齐任务的损失定义为：

此外，为了同时学习两个对齐任务，并保证各个实体对齐任务的对齐效果，本发明通过共享实体-关系注意力网络参数，来同时训两个实体对齐任务。模型整体的损失函数定义为：

实施例四、

本公开实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。