CN111309930B

CN111309930B - 一种基于表示学习的医学知识图谱实体对齐方法

Info

Publication number: CN111309930B
Application number: CN202010151549.6A
Authority: CN
Inventors: 滕飞; 钟文; 许强; 李天瑞
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2023-02-28
Anticipated expiration: 2040-03-06
Also published as: CN111309930A

Abstract

本发明提供了一种基于表示学习的医学知识图谱实体对齐方法，实体的完全字符串匹配，去除公有实体得到待对齐实体；通过知识表示学习模型对两个知识图谱中的三元组进行训练，得到每个实体的嵌入向量；计算待对齐实体与标准实体的语义距离，找出语义距离值最高的前十个推荐实体；通过构造医学知识数据的词根集，去除词根完全不同的候选实体；判断待对齐实体与推荐实体是否为同一科室和部位，去除推荐实体中不可靠的结果；将最后获得的待对齐实体与推荐实体进行标注，找出推荐实体中与待对齐实体指向相同的实体，完成实体对齐。本发明在表示学习的基础上，根据医学领域知识的特点，加入词根和规则对候选实体进行筛选，得到更精确的实体对齐结果。

Description

一种基于表示学习的医学知识图谱实体对齐方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于表示学习的医学知识图谱实体对齐方法。

背景技术

随着互联网的发展，互联网医学科普搜索需求急剧增加，互联网上现有的医学科普网站种类繁多，比如疾病百科网、39健康网、寻医问药网等。虽然这些网站包含丰富的医疗知识，但是网站导航过于专业让普通用户无法快速找到所需的内容，而且缺乏针对性，无法根据用户的不同问题给出针对性的回答，因此，基于知识图谱技术构建智慧医疗的任务刻不容缓。知识图谱是一种大规模的语义网络，以三元组(头实体，关系，尾实体)的形式表示知识，在信息检索、智能问答、推荐系统等领域广为应用，然而医学知识图谱数据来源众多，通常包含了大量相互重合的三元组信息。如果要同时使用不同数据源的医学知识图谱，就必须将实体进行对齐来判断差别数据源中的不同实体是否指向现实世界中的同一事物。由于医学领域对于实体对齐结果的精度要求非常高，给在该领域实现对齐工作带来了巨大的挑战。

通过对现有的专利及相关技术的检索发现，针对医学领域的实体对齐方法几乎没有，但在通用知识图谱领域，提出一种基于多源数据的知识融合方法,该发明基于实体名和实体属性对实体进行分块聚合，将同一分块内不同来源的实体作为候选实体对，减少计算复杂度，然后采用实体对齐算法计算实体间的相似度，如果相似度值大于预先给定的阈值，则认为二者指向同一实体，最终得到不同数据源之间所有实体的等价链接；以及根据预设的频率选择方法生成实体对齐种子集，然后通过关系三元组和属性三元组联合嵌入模块生成对应三元组的联合嵌入空间，迭代训练选取语义距离最小的一对实体组成实体对，最后将满足预设距离阈值的实体对添加到实体对齐种子集进行更新，迭代直至不存在满足预设距离阈值的实体对。

然而，上述方法依赖预先设定的阈值，而阈值的选取没有固定的标准，只能依靠经验和实验来估计，给实体对齐的结果产生决定性影响，也无法判断对齐结果的可靠性，因此很难适用于对精度要求高的医学领域，同时上述方法相似度计算的方法相对单一，不易应用到更多的领域知识图谱，基于此，本发明采用表示学习进行医学知识图谱实体对齐，将实体映射成低维稠密向量学习实体的深度特征，不依赖任何文本信息，不受语言特征和结构信息的限制，具有很好的可扩展性。由于知识图谱实体数量巨大，在对齐过程中既要确保找出所有指向相同的实体，也要减少对齐的工作量，因此本发明在表示学习的基础上，根据医学领域知识的特点，加入词根和规则对候选实体进行筛选，得到更精确的对齐结果，词根作用是作为实体中的一个有代表意义的子串，且能够反映该医学实体中的重要特征。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于表示学习的医学知识图谱实体对齐方法，解决了医学知识图谱实体对齐中阈值选取模糊和模型结构单一，导致无法保证对齐结果可靠性的问题。

为了达到以上目的，本发明采用的技术方案为：

本方案提供一种基于表示学习的医学知识图谱实体对齐方法，包括以下步骤：

S1、去除标准医学知识图谱K₁和待对齐医学知识图谱K₂中的公有实体，得到标准医学知识图谱K₁的剩余实体E′₁和待对齐医学知识图谱K₂的剩余实体E'₂；

S2、通过知识表示学习模型分别对标准医学知识图谱K₁和待对齐医学知识图谱K₂中所有的三元组T₁和T₂进行训练，得到剩余实体E′₁中每个实体的嵌入向量和剩余实体E'₂中每个实体的嵌入向量；

S3、利用余弦相似度函数计算得到剩余实体E′₁中每个实体的嵌入向量和剩余实体E'₂中每个实体的嵌入向量的相似度值，并根据所述相似度值得到剩余实体E'₂中每个待对齐实体与剩余实体E′₁中所有实体相似度值最高的前十个推荐实体；

S4、根据标准医学知识图谱K₁的所有实体E₁和待对齐医学知识图谱K₂中的所有实体E₂构造词根集，并利用词根集获取剩余实体E'₂中待对齐实体的词根与所述前十个推荐实体的词根，并去除词根不相同的推荐实体；

S5、判断所述剩余实体E'₂中待对齐实体所在的科室或部位是否与经删除不同词根后的推荐实体{e₁,e₂,...,e_m}所在的科室或部位相同，若是，则保留该推荐实体，否则，删除该推荐实体，并根据判断结果得到新的推荐实体{e₁,e₂,...,e_l}，其中，m表示删除不同词根后的推荐实体数,l表示删除不同科室或部位后的推荐实体数；

S6、将剩余实体E'₂中待对齐实体与步骤S5中新的推荐实体{e₁,e₂,...,e_l}进行标注，并找出新的推荐实体{e₁,e₂,...,e_l}与剩余实体E'₂中待对齐实体指向相同的实体，从而完成医学知识图谱实体对齐。

进一步地，所述步骤S3中相似度值的表达式如下：

其中，

表示相似度值，

表示剩余实体E′₁中每个实体的嵌入向量，

表示剩余实体E'₂中每个实体的嵌入向量，

和

分别表示嵌入向量

和

的模。

再进一步地，所述步骤S4包括以下步骤：

S401、根据标准医学知识图谱K₁的所有实体E₁和待对齐医学知识图谱K₂中的所有实体E₂构建词典W，W＝{W₁,W₂,...,W_n},并对W_i进行子串解析，其中，W_i表示词典中的某个词，i＝1,2,...,n,n表示E₁和E₂为的实体数量之和；

S402、将解析后的子串分别置于整个词典W中进行频数统计，并选取频数前3的子串作为词根；

S403、判断是否遍历完整个词典W，若是，则对选取的词根作去重处理，得到词根集W_E，并进入步骤S404，否则，返回步骤S402；

S404、分别对剩余实体E'₂中待对齐实体与其对应的剩余实体E′₁中前十个推荐实体进行子串解析，并判断解析后的子串是否存在于词根集W_E中，若是，则分别得到剩余实体E′₁中前十个推荐实体的子串集{W_e11,W_e12,...,W_e110}和剩余实体E'₂中待对齐实体的子串集W_e2，并进入步骤S405，否则，重复步骤S404，直至遍历完剩余实体E'₂中所有子串和E′₁中前十个推荐实体的子串；

S405、判断子串集{W_e11,W_e12,...,W_e110}与子串集W_e2中是否有相同的子串，若有，则保留生成该子串集的推荐实体，否则，删除该推荐实体，去除词根不相同的推荐实体，并根据判断结果得到新的推荐实体{e₁,e₂,...,e_m}，并进入步骤S5，其中，m表示删除没有相同词根后的推荐实体数。

再进一步地，所述步骤S402中词根还包括：

针对有频数相同时，选择长度最长的子串作为词根。

再进一步地，所述步骤S6具体为：

将剩余实体E'₂中每个待对齐实体在剩余实体E′₁中的推荐实体{e₁,e₂,...,e_l}进行标注，并找出推荐实体{e₁,e₂,...,e_l}中与待对齐实体指向相同的实体，得到实体对(e_sim1,e_sim2)，从而完成医学知识图谱的实体对齐，其中，e_sim1为剩余实体E′₁中的推荐实体，e_sim2为剩余实体E'₂中的待对齐实体。

本发明的有益效果：

(1)本发明通过知识表示学习模型进行候选实体的推荐，可以解决模型单一导致的特征学习不足，对齐效果差的问题；

(2)本发明充分利用医学知识的特点，构造有意义的词根，反映医学实体中的重要特征，确保找出所有指向相同的实体，也减少了实体对齐的工作量；

(3)本发明根据医学知识所包含的特殊规则，实体的部位和科室可以判定实体是否指向同一实体，进一步减少推荐结果的数量同时也保证了准确性；

(4)本发明采用标注的方法得到对齐的正确实体，在医学领域，对齐结果的正确性关乎到医学知识图谱的可靠性，采用本发明已经极大减少了标注的工作量，同时还保证了医学知识图谱的质量。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例

假设存在一个标准的医学知识图谱K₁＝{E₁,R₁,T₁},E₁为K₁中的所有实体，R₁为K₁中的所有关系，T₁为K₁中的所有三元组；待对齐的医学知识图谱K₂＝{E₂,R₂,T₂},E₂为K₂中的所有实体，R₂为K₂中的所有关系，T₂为K₂中的所有三元组。最终目的是将K₂中的所有实体E₂与K₁中的所有实体E₁进行对齐，找出指向相同的实体。

如图1所示，本发明公开了一种基于表示学习的医学知识图谱实体对齐方法，其实现方法如下：

S1、去除标准医学知识图谱K₁和待对齐医学知识图谱K₂中的公有实体，得到标准医学知识图谱K₁的剩余实体E′₁和待对齐医学知识图谱K₂的剩余实体E'₂。

本实施例中，实体的完全字符串匹配，找出两个知识图谱中的完全相同的实体，即公有实体E_sim。对于对齐知识图谱K₁，剩余实体为E′₁＝E₁-E_sim，对于待对齐知识图谱K₂，剩余实体为E'₂＝E₂-E_sim，则最终目的转化为将E'₂中的每个实体与E′₁中的所有实体进行对齐。

本实施例中，通过知识表示学习模型对K₁和K₂中的所有三元组T₁和T₂进行训练，直到知识表示学习模型的损失函数小于设定值，从而得到E'₂与E′₁中每个实体的嵌入向量，

为E′₁中每个实体的嵌入向量，

为E'₂中每个实体的嵌入向量。

S3、利用余弦相似度函数计算得到剩余实体E′₁中每个实体的嵌入向量和剩余实体E'₂中每个实体的嵌入向量的相似度值，并根据所述相似度值得到剩余实体E'₂中每个待对齐实体与剩余实体E′₁中所有实体相似度值最高的前十个推荐实体；相似度值的表达式如下：

其中，

表示相似度值，

表示剩余实体E′₁中每个实体的嵌入向量，

表示剩余实体E'₂中每个实体的嵌入向量，

和

分别表示嵌入向量

和

的模

S4、根据标准医学知识图谱K₁的所有实体E₁和待对齐医学知识图谱K₂中的所有实体E₂构造词根集，并利用词根集获取剩余实体E'₂中待对齐实体的词根与所述前十个推荐实体的词根，并去除词根不相同的推荐实体；其实现方法如下：

本实施例中，假设词典W为E₁与E₂中的所有实体，词典中共有n个词，n为E₁和E₂为的实体数量之和，W＝{W₁,W₂,...,W_n}，对W_i(i＝1,2,...,n)进行子串解析。在医学数据中，一个长度为L的实体存在L-1+L-2+....+1个子串，且子串中至少有一个为词根，规定词根的字数不小于2，对于一个实体而言，其子串出现频率越高，越有可能是一个词根。以“髌前囊炎”实体为例，其子串就包括“髌前”、“前囊”、“囊炎”、“髌前囊”、“前囊炎”、“髌前囊炎”。

S402、将解析后的子串分别置于整个词典W中进行频数统计，并选取频数前3的子串作为词根；针对有频数相同时，选择长度最长的子串作为词根。

本实施例中，当对“髌前囊炎”进行拆解后，将其子串分别置于整个字典W中进行频数统计。选取频数前3的子串作为词根，若有频数相同，但长度更长的子串，则优先选择长度更长的，由此将可能是词根的子串添加到词根集中。

S405、判断子串集{W_e11,W_e12,...,W_e110}与子串集W_e2中是否有相同的子串，若有，则保留生成该子串集的推荐实体，否则，删除该推荐实体，去除词根不相同的推荐实体，并根据判断结果得到新的推荐实体{e₁,e₂,...,e_m}，并进入步骤S5，其中，m表示删除不同词根后的推荐实体数；

S5、判断所述剩余实体E'₂中待对齐实体所在的科室或部位是否与经删除不同词根后的推荐实体{e₁,e₂,...,e_m}所在的科室或部位相同，若是，则保留该推荐实体，否则，删除该推荐实体，并根据判断结果得到新的推荐实体{e₁,e₂,...,e_l}，其中，m表示删除没有相同词根后的推荐实体数,l表示删除不同科室或部位后的推荐实体数；

S6、将剩余实体E'₂中待对齐实体与步骤S5中新的推荐实体进行标注，并找出新的推荐实体与剩余实体E'₂中待对齐实体指向相同的实体，从而完成医学知识图谱实体对齐，其具体为：

本发明通过以上设计，在表示学习的基础上，根据医学领域知识的特点，加入词根和规则(科室或部位是否相同的判断)对候选实体进行筛选，得到更精确的实体对齐结果，解决了医学知识图谱实体对齐中阈值选取模糊和模型结构单一，导致无法保证对齐结果可靠性的问题。

Claims

1.一种基于表示学习的医学知识图谱实体对齐方法，其特征在于，包括以下步骤：

S1、去除标准医学知识图谱K₁和待对齐医学知识图谱K₂中的公有实体，得到标准医学知识图谱K₁的剩余实体E’₁和待对齐医学知识图谱K₂的剩余实体E'₂，其中，实体的完全字符串匹配，找出两个知识图谱中的完全相同的实体，即公有实体E_sim；对于对齐标准医学知识图谱K₁，剩余实体为E’₁＝E₁-E_sim，对于待对齐医学知识图谱K₂，剩余实体为E'₂＝E₂-E_sim，则将E'₂中的每个实体与E’₁中的所有实体进行对齐；

S2、通过知识表示学习模型分别对标准医学知识图谱K₁和待对齐医学知识图谱K₂中所有的三元组T₁和T₂进行训练，得到剩余实体E’₁中每个实体的嵌入向量和剩余实体E'₂中每个实体的嵌入向量；

S3、利用余弦相似度函数计算得到剩余实体E’₁中每个实体的嵌入向量和剩余实体E'₂中每个实体的嵌入向量的相似度值，并根据所述相似度值得到剩余实体E'₂中每个待对齐实体与剩余实体E’₁中所有实体相似度值最高的前十个推荐实体；

所述步骤S4包括以下步骤：

S401、根据标准医学知识图谱K₁的所有实体E₁和待对齐医学知识图谱K₂中的所有实体E₂构建词典W，W＝{W₁,W₂,...,W_n}，并对W_i进行子串解析，其中，W_i表示词典中的某个词，i＝1,2,...,n,n表示E₁和E₂为的实体数量之和；

S402、将解析后的子串分别置于整个词典W中进行频数统计，并选取频数前3的子串作为词根；所述步骤S402中词根还包括：针对有频数相同时，选择长度最长的子串作为词根；

S404、分别对剩余实体E'₂中待对齐实体与其对应的剩余实体E’₁中前十个推荐实体进行子串解析，并判断解析后的子串是否存在于词根集W_E中，若是，则分别得到剩余实体E’₁中前十个推荐实体的子串集{W_e11,W_e12,...,W_e110}和剩余实体E'₂中待对齐实体的子串集W_e2，并进入步骤S405，否则，重复步骤S404，直至遍历完剩余实体E'₂中所有子串和E’₁中前十个推荐实体的子串；

S405、判断子串集{W_e11,W_e12,...,W_e110}与子串集W_e2中是否有相同的子串，若有，则保留生成该子串集的推荐实体，否则，删除该推荐实体，去除词根不相同的推荐实体，并根据判断结果得到新的推荐实体{e₁,e₂,...,e_m}，并进入步骤S5，其中，m表示删除没有相同词根后的推荐实体数；

2.根据权利要求1所述的基于表示学习的医学知识图谱实体对齐方法，其特征在于，所述步骤S3中相似度值的表达式如下：

其中，

表示相似度值，

表示剩余实体E’₁中每个实体的嵌入向量，

表示剩余实体E'₂中每个实体的嵌入向量，

和

分别表示嵌入向量

和

的模。

3.根据权利要求1所述的基于表示学习的医学知识图谱实体对齐方法，其特征在于，所述步骤S6具体为：

将剩余实体E'₂中每个待对齐实体在剩余实体E’₁中的推荐实体{e₁,e₂,...,e_l}进行标注，并找出推荐实体{e₁,e₂,...,e_l}中与待对齐实体指向相同的实体，得到实体对(e_sim1,e_sim2)，从而完成医学知识图谱的实体对齐，其中，e_sim1为剩余实体E’₁中的推荐实体，e_sim2为剩余实体E'₂中的待对齐实体。