CN110990579B

CN110990579B - 跨语言的医学知识图谱构建方法、装置与电子设备

Info

Publication number: CN110990579B
Application number: CN201911044916.6A
Authority: CN
Inventors: 张勇; 邢春晓; 盛明; 李超; 李欣
Original assignee: Tsinghua University; Beijing Tsinghua Changgeng Hospital
Current assignee: Tsinghua University; Beijing Tsinghua Changgeng Hospital
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2022-12-02
Anticipated expiration: 2039-10-30
Also published as: CN110990579A

Abstract

本发明实施例提供一种跨语言的医学知识图谱构建方法、装置与电子设备，其中所述方法包括：基于不同语言的医疗标准，通过将生成的跨语言且异构的数据集中的概念与关系进行融合，获取跨语言的概念知识图谱；通过对来自医院、开放数据集和社交数据集中所述不同语言的电子病历进行实体、事件和关系的抽取与融合，获取跨语言的实例知识图谱；将所述跨语言的概念知识图谱与所述跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱。本发明实施例通过对多种不同语言的医疗标准和实例电子病历分别进行分析与信息提取，能够更加准确地对知识库中不同语言形成的知识图谱进行融合，从而得到更加准确、可靠的医学知识图谱。

Description

跨语言的医学知识图谱构建方法、装置与电子设备

技术领域

本发明涉及医学知识图谱技术领域，更具体地，涉及一种跨语言的医学知识图谱构建方法、装置与电子设备。

背景技术

随着信息技术的发展，知识数量的迅速增长，知识库的体量也在持续增加。由于知识图谱可以在语义知识库的基础上对海量知识进行结构化描述，因而其也在这一背景下实现了高度发展。同时，随着知识全球化的发展，跨语言的知识共享正变得越来越重要。

然而，在医疗健康领域，跨语言知识图谱的构建正面临着诸多问题。一方面，不同语言的语料库体量差异巨大，如英文语料库体量往往超过中文语料库十倍以上；另一方面，不同的语言体系间语义的规则也存在较大差异。这些因素都对知识库中不同语言形成的知识图谱的准确融合产生了严重的不利影响，为跨语言医学知识图谱的构建带来了挑战。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种跨语言的医学知识图谱构建方法、装置与电子设备，用以更加准确地对知识库中不同语言形成的知识图谱进行融合，从而得到更加准确、可靠的医学知识图谱。

第一方面，本发明实施例提供一种跨语言的医学知识图谱构建方法，包括：

基于不同语言的医疗标准，通过将生成的跨语言且异构的数据集中的概念与关系进行融合，获取跨语言的概念知识图谱；

通过对来自医院、开放数据集和社交数据集中所述不同语言的电子病历进行实体、事件和关系的抽取与融合，获取跨语言的实例知识图谱；

将所述跨语言的概念知识图谱与所述跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱。

其中可选的，所述获取跨语言的概念知识图谱的步骤具体包括：

将所述不同语言的医疗标准在所述不同语言间进行互相映射，生成统一的跨语言医疗规则知识库，所述跨语言医疗规则知识库为跨语言且具有异构特征的数据集；

利用机器学习算法，对所述跨语言且异构的数据集中的概念和关系分别进行相互融合，生成所述跨语言的概念知识图谱。

其中可选的，所述获取跨语言的实例知识图谱的步骤具体包括：

分别从医院、所述开放数据集和所述社交数据集中收集所述不同语言的电子病历，并对所述电子病历分别进行实体提取、事件提取和关系提取，对应生成实体语料库、事件语料库和关系语料库；

利用机器学习算法，对所述实体语料库、所述事件语料库和所述关系语料库进行融合，生成所述跨语言的实例知识图谱。

其中可选的，所述利用机器学习算法，对所述跨语言且异构的数据集中的概念和关系分别进行相互融合的步骤具体包括：利用机器学习算法，并结合医生的先验知识，对所述跨语言且异构的数据集中的概念和关系分别进行相互融合；

在所述生成所述跨语言的概念知识图谱的步骤之后，还包括：利用机器学习算法，并结合医生的先验知识，在所述跨语言的概念知识图谱中添加新的跨语言链接，或者，更新所述跨语言的概念知识图谱中的跨语言链接。

其中可选的，所述利用机器学习算法，并结合医生的先验知识，对所述跨语言且异构的数据集中的概念和关系分别进行相互融合的步骤具体包括：

根据医生的输入设置，将实体关系模型中的列映射到资源描述框架模型中概念知识图中的节点，并根据医生输入的常用医学概念，以与所述跨语言医疗规则知识库中的数据相同的格式，在所述跨语言医疗规则知识库中添加新的医学概念；

根据医生输入的同义词，对所述跨语言医疗规则知识库中的同义词进行定义，并结合资源描述框架模型中概念知识图中的所述节点、所述新的医学概念和定义的同义词，利用机器学习算法，对所述概念和所述关系分别进行相互融合；

所述利用机器学习算法，并结合医生的先验知识，在所述跨语言的概念知识图谱中添加新的跨语言链接的步骤具体包括：

基于医生输入的医学实例，利用机器学习算法，提取使用频率超过设定限制的医学概念和关系，并将提取的医学概念和关系形成第一候选跨语言链接；

利用机器学习算法，从所述跨语言的概念知识图谱中发掘第二候选跨语言链接，并对所述第一候选跨语言链接和所述第二候选跨语言链接进行筛选，获取权重较高者作为所述新的跨语言链接，添加至所述跨语言的概念知识图谱中。

其中可选的，所述将所述不同语言的医疗标准在所述不同语言间进行互相映射的步骤具体包括：

分析所述医疗标准的词汇特征，获取所述医疗标准中各字符串分别对应的唯一代码，并将所述唯一代码映射到所述医疗标准的源词汇表；

基于所述源词汇表，获取所述唯一代码对应的源词汇，并通过所述源词汇映射所述医疗标准中包含的医学概念和关系的唯一识别码；

根据所述唯一识别码，将所述不同语言的医学概念和关系分别进行相互映射。

其中可选的，所述对所述电子病历分别进行实体提取、事件提取和关系提取的步骤具体包括：

根据医生输入的先验医学知识，生成第一提取规则，并基于所述电子病历的语义模式和用户需求，生成第二提取规则；

利用机器学习算法，基于所述第一提取规则和所述第二提取规则，对所述电子病历分别进行实体提取、事件提取和关系提取，并在实体提取和关系提取过程中，根据医生的输入设置，对提取的实体和关系进行基于实体语料库的序列注释。

第二方面，本发明实施例提供一种跨语言的医学知识图谱构建装置，包括：

第一知识图谱构建模块，用于基于不同语言的医疗标准，通过将生成的跨语言且异构的数据集中的概念与关系进行融合，获取跨语言的概念知识图谱；

第二知识图谱构建模块，用于通过对来自医院、开放数据集和社交数据集中所述不同语言的电子病历进行实体、事件和关系的抽取与融合，获取跨语言的实例知识图谱；

知识图谱输出模块，用于将所述跨语言的概念知识图谱与所述跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上第一方面所述的跨语言的医学知识图谱构建方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机指令，所述计算机指令被计算机执行时，实现如上第一方面所述的跨语言的医学知识图谱构建方法的步骤。

本发明实施例提供的跨语言的医学知识图谱构建方法、装置与电子设备，通过对多种不同语言的医疗标准和实例电子病历分别进行分析、信息提取与融合，对应构建出跨语言的概念知识图谱和概念知识图谱，并基于此进一步构建出跨语言的事实知识图谱，能够使得对知识库中不同语言形成的知识图谱的融合更加准确，从而得到更加准确、可靠的医学知识图谱。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的跨语言的医学知识图谱构建方法的流程示意图；

图2为根据本发明实施例提供的跨语言的医学知识图谱构建方法中构建跨语言的概念知识图谱的流程示意图；

图3为根据本发明实施例提供的跨语言的医学知识图谱构建方法中构建跨语言的概念知识图谱过程中医生的协助处理示意图；

图4为根据本发明实施例提供的跨语言的医学知识图谱构建方法中构建跨语言的实例知识图谱的流程示意图；

图5为根据本发明实施例提供的跨语言的医学知识图谱构建方法中构建跨语言的实例知识图谱过程中医生的协助处理示意图；

图6为本发明实施例提供的跨语言的医学知识图谱构建装置的结构示意图；

图7为本发明实施例提供的跨语言的医学知识图谱构建装置的结构分区示意图；

图8为根据本发明实施例提供的跨语言的医学知识图谱构建装置中医生协助工具集的结构示意图；

图9为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明实施例的一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明实施例保护的范围。

本发明实施例针对现有技术对跨语言知识图谱的构建存在的准确性低的问题，通过对多种不同语言的医疗标准和实例电子病历分别进行分析、信息提取与融合，对应构建出跨语言的概念知识图谱和概念知识图谱，并基于此进一步构建出跨语言的事实知识图谱，能够使得对知识库中不同语言形成的知识图谱的融合更加准确，从而得到更加准确、可靠的医学知识图谱。以下将具体通过多个实施例对本发明实施例进行展开说明和介绍。

图1为本发明实施例提供的跨语言的医学知识图谱构建方法的流程示意图，如图1所示，该方法包括：

S101，基于不同语言的医疗标准，通过将生成的跨语言且异构的数据集中的概念与关系进行融合，获取跨语言的概念知识图谱。

可以理解为，本发明实施例首先对医疗领域中的理论知识，也即概念知识，进行跨语言的知识图谱构建。具体而言，先将不同语言(如中文和英文)的医疗标准在不同语言间进行互相映射，生成统一的中文跨语言医疗规则知识库，之后可以在医生的参与以及机器学习的算法协助下，对生成的跨语言、异构数据集的概念和关系进行融合，形成跨语言的概念知识图谱。其中，概念知识图谱是一种特定的知识图谱类型，即为完全由概念类节点组成的知识图谱。在本发明实施例中，概念知识图谱表示与医学标准、概念等理论知识相关的图谱。

S102，通过对来自医院、开放数据集和社交数据集中不同语言的电子病历进行实体、事件和关系的抽取与融合，获取跨语言的实例知识图谱。

可以理解为，本步骤根据医疗领域中的实例知识进行知识图谱构建。具体而言，对于来自医院、开放数据集和社交媒体等实例数据库的不同语言的电子病历，从中分别进行实体提取、事件提取和关系提取，对应生成实体语料库、事件语料库以及关系语料库，之后在机器学习算法的辅助下，对抽取到的数据，也即实体语料库、事件语料库以及关系语料库中的数据，进行融合，形成跨语言的实例知识图谱。其中，完全由实例类型的节点组成的知识图谱被称为实例知识图谱。在本发明实施例中，实例知识图谱表示与医疗诊断事实、病历等实例知识相关的图谱。

S103，将跨语言的概念知识图谱与跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱。

可以理解为，本发明实施例的最后，将医疗领域中跨语言的理论知识与医疗实例知识进行融合，也即将跨语言的概念知识图谱与跨语言的实例知识图谱进行合成处理，形成针对特定医学领域的跨语言的事实知识图谱。该跨语言的事实知识图谱可协助医生解决实际的医疗问题。

本发明实施例提供的跨语言的医学知识图谱构建方法，通过对多种不同语言的医疗标准和实例电子病历分别进行分析、信息提取与融合，对应构建出跨语言的概念知识图谱和概念知识图谱，并基于此进一步构建出跨语言的事实知识图谱，能够使得对知识库中不同语言形成的知识图谱的融合更加准确，从而得到更加准确、可靠的医学知识图谱。

其中，根据上述各实施例可选的，获取跨语言的概念知识图谱的步骤具体包括：将不同语言的医疗标准在不同语言间进行互相映射，生成统一的跨语言医疗规则知识库，跨语言医疗规则知识库为跨语言且具有异构特征的数据集；利用机器学习算法，对跨语言且异构的数据集中的概念和关系分别进行相互融合，生成跨语言的概念知识图谱。

可以理解为，如图2所示，为根据本发明实施例提供的跨语言的医学知识图谱构建方法中构建跨语言的概念知识图谱的流程示意图，主要包括以下处理步骤：

S201，将不同语言的医疗标准和中文医疗标准进行互相映射，生成统一的带中文跨语言医疗规则知识库。

S202，在医生的参与以及机器学习的算法协助下，对生成的跨语言、异构数据集的概念和关系进行融合，形成跨语言的概念知识图谱。

进一步的，如图2所示，在生成跨语言的概念知识图谱的步骤之后，本发明实施例的方法还可以包括步骤S203，利用机器学习算法，并结合医生的先验知识，在跨语言的概念知识图谱中添加新的跨语言链接，或者，更新跨语言的概念知识图谱中的跨语言链接。

同样的，考虑到对于医学领域中事实知识图谱的构建来说，电子病历的来源不同和缺乏医生先验知识的修正，也为跨语言知识融合带来了难以对齐等问题。为此，本发明实施例通过医生的介入，进一步强化跨语言医疗知识图谱融合的可靠性。也即，本发明实施例中利用机器学习算法，对跨语言且异构的数据集中的概念和关系分别进行相互融合的步骤具体包括：利用机器学习算法，并结合医生的先验知识，对跨语言且异构的数据集中的概念和关系分别进行相互融合。

其中可选的，利用机器学习算法，并结合医生的先验知识，对跨语言且异构的数据集中的概念和关系分别进行相互融合的步骤具体包括：根据医生的输入设置，将实体关系(Entity Relation,ER)模型中的列映射到资源描述框架(Resource DescriptionFramework,RDF)模型中概念知识图中的节点，并根据医生输入的常用医学概念，以与跨语言医疗规则知识库中的数据相同的格式，在跨语言医疗规则知识库中添加新的医学概念；根据医生输入的同义词，对跨语言医疗规则知识库中的同义词进行定义，并结合RDF模型中概念知识图中的节点、新的医学概念和定义的同义词，利用机器学习算法，对概念和关系分别进行相互融合。

其中可选的，利用机器学习算法，并结合医生的先验知识，在跨语言的概念知识图谱中添加新的跨语言链接的步骤具体包括：基于医生输入的医学实例，利用机器学习算法，提取使用频率超过设定限制的医学概念和关系，并将提取的医学概念和关系形成第一候选跨语言链接；利用机器学习算法，从跨语言的概念知识图谱中发掘第二候选跨语言链接，并对第一候选跨语言链接和第二候选跨语言链接进行筛选，获取权重较高者作为新的跨语言链接，添加至跨语言的概念知识图谱中。

具体而言，本发明实施例的机器学习算法可以是CRF、LSTM-CRF等算法，本发明对此不作限制。另外，在跨语言的概念知识图谱的构建过程中，可根据医生的先验知识，由医生提供如图3所示的协助处理。图3为根据本发明实施例提供的跨语言的医学知识图谱构建方法中构建跨语言的概念知识图谱过程中医生的协助处理示意图，包括：

(1)协助映射节点。医生手动将ER模型中的列映射到RDF模型中概念知识图中的节点。

(2)定义新概念。当一个概念不存在于跨语言医疗规则知识库中时，医生手动定义最常用于所选特定疾病的中文医学概念，将该概念以与跨语言医疗规则知识库相同的形式添加。

(3)定义同义词。医生用中文定义同义词，避免融合过程中冗余工作。

(4)医学实例概念发现和关系挖掘。对医生提供的医学实例，从中将经常出现的概念和关系提取出来添加至概念知识图谱。

(5)跨语言医学概念注释。使用机器学习算法从构建好的跨语言概念知识图谱中发现新的跨语言链接，伙同医生提供的跨语言链接进行筛选，将权重高的添加进跨语言概念知识图谱中。

本发明实施例通过医生的参与，能够更加高效、完整并准确地构建跨语言的概念知识图谱。

其中，根据上述各实施例可选的，将不同语言的医疗标准在不同语言间进行互相映射的步骤具体包括：分析医疗标准的词汇特征，获取医疗标准中各字符串分别对应的唯一代码，并将唯一代码映射到医疗标准的源词汇表；基于源词汇表，获取唯一代码对应的源词汇，并通过源词汇映射医疗标准中包含的医学概念和关系的唯一识别码；根据唯一识别码，将不同语言的医学概念和关系分别进行相互映射。

具体而言，以表1示出的医疗标准UMLS为例，对本发明实施例中不同语言的医疗标准间的映射处理进行说明，其中表1为医疗标准UMLS示例表。

表1，医疗标准UMLS示例表

对于UMLS所含的医学概念和关系，通过唯一的识别码CUI，将中文的医学概念与UMLS中现有的英语概念进行映射。在UMLS中，AUI可以表示该概念的源词汇。在UMLS中，CUI可以对应于多个AUI。通过分析UMLS的词汇特征，同义词库中的所有字符串都具有唯一的代码SUI。将字符串的唯一代码SUI映射到其源词汇表，然后获取其AUI，再通过其AUI映射CUI。

基于这种映射方式，可以将UMLS存储的医学词库的中文医学知识库，通过每个字符串具有的唯一代码，将特定概念的中文表达式存储在UMLS中新添加的列CNMAE中。在合并所有医学知识库之后，将其构建为异构的多源数据库。

具体地，本发明实施例采用的映射算法可以为R2RML算法等，本发明对此不作限制。

其中，根据上述各实施例可选的，获取跨语言的实例知识图谱的步骤具体包括：分别从医院、开放数据集和社交数据集中收集不同语言的电子病历，并对电子病历分别进行实体提取、事件提取和关系提取，对应生成实体语料库、事件语料库和关系语料库；利用机器学习算法，对实体语料库、事件语料库和关系语料库进行融合，生成跨语言的实例知识图谱。

可以理解为，如图4所示，为根据本发明实施例提供的跨语言的医学知识图谱构建方法中构建跨语言的实例知识图谱的流程示意图，主要包括以下处理步骤：

S401，收集来自医院、开放数据集和社交媒体的不同语言的电子病历。

S402，从电子病历中进行实体提取、事件提取和关系提取，分别对应得到实体语料库、事件语料库和关系语料库。

需要说明的是，对于提供API的电子病历，此步骤使用API进行结构化与非结构化提取，对于中文病历与未提供API的电子病历，通过医生的协助进行提取。

S403，将从中文和英文的结构化实例(如记录病人基本信息的表格或病人化验单等具有一定结构的实例数据)转换的RDF数据、从非结构化实例(如医生手写的病历以及语料库中的描述性段落等非结构化的实例数据)中提取的知识和医生的先验知识进行融合，形成跨语言的实例知识图谱。

其中，根据上述各实施例可选的，对电子病历分别进行实体提取、事件提取和关系提取的步骤具体包括：根据医生输入的先验医学知识，生成第一提取规则，并基于电子病历的语义模式和用户需求，生成第二提取规则；利用机器学习算法，基于第一提取规则和第二提取规则，对电子病历分别进行实体提取、事件提取和关系提取，并在实体提取和关系提取过程中，根据医生的输入设置，对提取的实体和关系进行基于实体语料库的序列注释。

具体而言，本发明实施例的机器学习算法可以是CRF、LSTM-CRF等算法，本发明对此不作限制。另外，在跨语言的实例知识图谱的构建过程中，可根据医生的先验知识，由医生提供如图5所示的协助处理。图5为根据本发明实施例提供的跨语言的医学知识图谱构建方法中构建跨语言的实例知识图谱过程中医生的协助处理示意图，包括：

(1)基于医生的先验医学知识，提供提取规则。

(2)基于电子病历的语义模式和用户需求生成提取规则。当一个概念不存在于跨语言医疗规则知识库中时，医生手动定义最常用于所选特定疾病的中文医学概念，将该概念以与跨语言医疗规则知识库相同的形式添加。

(3)在实体和关系提取中进行基于实体语料库的序列注释。

需要说明的是，实体和关系语料库由医生的领域知识和概念以及概念知识图谱中的关系支持。使用机器学习算法等对齐提取的实体和关系，将与其唯一代码对齐，以实现跨语言实体映射。

基于相同的发明构思，本发明实施例根据上述各实施例提供一种跨语言的医学知识图谱构建装置，该装置用于在上述各实施例中实现跨语言的医学知识图谱构建。因此，在上述各实施例的跨语言的医学知识图谱构建方法中的描述和定义，可以用于本发明实施例中各个执行模块的理解，具体可参考上述实施例，此处不在赘述。

根据本发明实施例的一个实施例，跨语言的医学知识图谱构建装置的结构如图6所示，为本发明实施例提供的跨语言的医学知识图谱构建装置的结构示意图，该装置可以用于实现上述各方法实施例中跨语言的医学知识图谱构建，该装置包括：第一知识图谱构建模块601、第二知识图谱构建模块602和知识图谱输出模块603。其中：

第一知识图谱构建模块601用于基于不同语言的医疗标准，通过将生成的跨语言且异构的数据集中的概念与关系进行融合，获取跨语言的概念知识图谱；第二知识图谱构建模块602用于通过对来自医院、开放数据集和社交数据集中不同语言的电子病历进行实体、事件和关系的抽取与融合，获取跨语言的实例知识图谱；知识图谱输出模块603用于将跨语言的概念知识图谱与跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱。

具体而言，本发明实施例中第一知识图谱构建模块601对医疗领域中的理论知识，也即概念知识，进行跨语言的知识图谱构建。具体而言，第一知识图谱构建模块601先将不同语言(如中文和英文)的医疗标准在不同语言间进行互相映射，生成统一的中文跨语言医疗规则知识库，之后可以在医生的参与以及机器学习的算法协助下，对生成的跨语言、异构数据集的概念和关系进行融合，形成跨语言的概念知识图谱。

之后，第二知识图谱构建模块602根据医疗领域中的实例知识进行知识图谱构建。具体而言，对于来自医院、开放数据集和社交媒体等实例数据库的不同语言的电子病历，第二知识图谱构建模块602从中分别进行实体提取、事件提取和关系提取，对应生成实体语料库、事件语料库以及关系语料库，之后在机器学习算法的辅助下，对抽取到的数据，也即实体语料库、事件语料库以及关系语料库中的数据，进行融合，形成跨语言的实例知识图谱。

再之后，知识图谱输出模块603将医疗领域中跨语言的理论知识与医疗实例知识进行融合，也即将跨语言的概念知识图谱与跨语言的实例知识图谱进行合成处理，形成针对特定医学领域的跨语言的事实知识图谱。该跨语言的事实知识图谱可协助医生解决实际的医疗问题。

本发明实施例提供的跨语言的医学知识图谱构建装置，通过设置相应的执行模块，对多种不同语言的医疗标准和实例电子病历分别进行分析、信息提取与融合，对应构建出跨语言的概念知识图谱和概念知识图谱，并基于此进一步构建出跨语言的事实知识图谱，能够使得对知识库中不同语言形成的知识图谱的融合更加准确，从而得到更加准确、可靠的医学知识图谱。

可以理解的是，本发明实施例中可以通过硬件处理器(hardware processor)来实现上述各实施例的装置中的各相关程序模块。并且，本发明实施例的跨语言的医学知识图谱构建装置利用上述各程序模块，能够实现上述各方法实施例的跨语言的医学知识图谱构建流程，在用于实现上述各方法实施例中跨语言的医学知识图谱构建时，本发明实施例的装置产生的有益效果与对应的上述各方法实施例相同，可以参考上述各方法实施例，此处不再赘述。

另外，可以说明的是，对于本发明实施例的跨语言的医学知识图谱构建装置，可以按其实现的功能，对其进行重新划分，包括：

跨语言概念知识图谱的构建模块，用于将多个数据源转换为跨语言、统一的语义规则知识库并生成跨语言的概念知识图谱；

跨语言实例知识图谱的构建模块，用于从收集到的跨语言电子病历、开放数据集与社交媒体中采集的数据中抽取实体语料库、事件语料库与关系语料库，并生成跨语言的实例知识图谱；

提取模块，用于提取构建实例知识图谱所需的实体、事件和关系。

另外，还包括构建概念知识图谱与实例知识图谱过程中用于支持医生所提供协助的工具集，包含：

规则库模块，用于协助医生将ER模型中的列映射到RDF模型中概念知识图中的节点；

专家语料库模块，用于让医生定义并添加未存储在跨语言医疗规则知识库的新概念；

同义词模块，用于让医生用中文定义同义词，以避免在融合过程中无意义的重复性工作；

注释模块和概念发现模块，用于利用机器学习方法从现有数据集中发现可能的跨语言链接以及医生提供的跨语言链接进行筛选后加入概念知识图谱中。

另外，还包括使用结合概念知识图谱和实例知识图谱形成的事实知识图谱提供服务的功能模块。

具体而言，如图7所示，为本发明实施例提供的跨语言的医学知识图谱构建装置的结构分区示意图，包括：

数据输入区。对于跨语言的概念知识图谱和实例知识图谱生成所需的来自不同语言的数据进行一些自动处理的部分。

数据处理区。由医生手动干预对输入的跨语言数据进行处理的部分。

数据输出区。生成以及更新可用的跨语言概念知识图谱和实例知识图谱，这两者的结合即为高准确度的跨语言事实知识图谱。

另外，如图8所示，为根据本发明实施例提供的跨语言的医学知识图谱构建装置中医生协助工具集的结构示意图，包括：

模型池：解析器使用Jena将本体导入到模型中。协调器内置了一组协调规则来调整模型。

匹配库：管理四种匹配方法，包括V-Doc,I-Sub,GMO和PBM。其中，V-Doc和I-Sub是基于语言的匹配器，GMO是基于图的匹配器，PBM使用分而治之策略来映射大量实体。

映射管理器：映射管理器进行映射规则生成和计算。

对齐集：以RDF模型生成匹配文件，并使用传统的准确率/召回率对其进行评估。

中央控制器：手动调整参数，选择匹配库中要匹配的方法。

存储库：用于存储中间数据。

本发明实施例通过提供医生辅助工具集，能够通过医生的介入，进一步强化跨语言医疗知识图谱融合的可靠性。

作为本发明实施例的又一个方面，本实施例根据上述各实施例提供一种电子设备，该电子设备包括存储器、处理器及存储在该存储器上并可在该处理器上运行的计算机程序，该处理器执行该计算机程序时，实现如上述各实施例所述的跨语言的医学知识图谱构建方法的步骤。

进一步的，本发明实施例的电子设备还可以包括通信接口和总线。参考图9，为本发明实施例提供的电子设备的实体结构示意图，包括：至少一个存储器901、至少一个处理器902、通信接口903和总线904。

其中，存储器901、处理器902和通信接口903通过总线904完成相互间的通信，通信接口903用于该电子设备与医疗标准与实例数据设备之间的信息传输；存储器901中存储有可在处理器902上运行的计算机程序，处理器902执行该计算机程序时，实现如上述各实施例所述的跨语言的医学知识图谱构建方法的步骤。

可以理解为，该电子设备中至少包含存储器901、处理器902、通信接口903和总线904，且存储器901、处理器902和通信接口903通过总线904形成相互间的通信连接，并可完成相互间的通信，如处理器902从存储器901中读取跨语言的医学知识图谱构建方法的程序指令等。另外，通信接口903还可以实现该电子设备与医疗标准与实例数据设备之间的通信连接，并可完成相互间信息传输，如通过通信接口903实现对不同语言的医疗标准数据和实例电子病历的获取等。

电子设备运行时，处理器902调用存储器901中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：基于不同语言的医疗标准，通过将生成的跨语言且异构的数据集中的概念与关系进行融合，获取跨语言的概念知识图谱；通过对来自医院、开放数据集和社交数据集中不同语言的电子病历进行实体、事件和关系的抽取与融合，获取跨语言的实例知识图谱；将跨语言的概念知识图谱与跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱等。

上述的存储器901中的程序指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。或者，实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还根据上述各实施例提供一种非暂态计算机可读存储介质，其上存储有计算机指令，该计算机指令被计算机执行时，实现如上述各实施例所述的跨语言的医学知识图谱构建方法的步骤，例如包括：基于不同语言的医疗标准，通过将生成的跨语言且异构的数据集中的概念与关系进行融合，获取跨语言的概念知识图谱；通过对来自医院、开放数据集和社交数据集中不同语言的电子病历进行实体、事件和关系的抽取与融合，获取跨语言的实例知识图谱；将跨语言的概念知识图谱与跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱等。

本发明实施例提供的电子设备和非暂态计算机可读存储介质，通过执行上述各实施例所述的跨语言的医学知识图谱构建方法的步骤，对多种不同语言的医疗标准和实例电子病历分别进行分析、信息提取与融合，对应构建出跨语言的概念知识图谱和概念知识图谱，并基于此进一步构建出跨语言的事实知识图谱，能够使得对知识库中不同语言形成的知识图谱的融合更加准确，从而得到更加准确、可靠的医学知识图谱。

可以理解的是，以上所描述的装置、电子设备及存储介质的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，既可以位于一个地方，或者也可以分布到不同网络单元上。可以根据实际需要选择其中的部分或全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解，各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令，用以使得一台计算机设备(如个人计算机，服务器，或者网络设备等)执行上述各方法实施例或者方法实施例的某些部分所述的方法。

另外，本领域内的技术人员应当理解的是，在本发明实施例的申请文件中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的说明书中，说明了大量具体细节。然而应当理解的是，本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明实施例公开并帮助理解各个发明方面中的一个或多个，在上面对本发明实施例的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

最后应说明的是：以上实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述实施例对本发明实施例进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种跨语言的医学知识图谱构建方法，其特征在于，包括：

将所述跨语言的概念知识图谱与所述跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱；

所述获取跨语言的概念知识图谱的步骤具体包括：

利用机器学习算法，对所述跨语言且异构的数据集中的概念和关系分别进行相互融合，生成所述跨语言的概念知识图谱；

所述利用机器学习算法，对所述跨语言且异构的数据集中的概念和关系分别进行相互融合的步骤具体包括：

利用机器学习算法，并结合医生的先验知识，对所述跨语言且异构的数据集中的概念和关系分别进行相互融合；

所述利用机器学习算法，并结合医生的先验知识，对所述跨语言且异构的数据集中的概念和关系分别进行相互融合的步骤具体包括：

根据医生输入的同义词，对所述跨语言医疗规则知识库中的同义词进行定义，并结合资源描述框架模型中概念知识图中的所述节点、所述新的医学概念和定义的同义词，利用机器学习算法，对所述概念和所述关系分别进行相互融合。

2.根据权利要求1所述的跨语言的医学知识图谱构建方法，其特征在于，所述获取跨语言的实例知识图谱的步骤具体包括：

3.根据权利要求1所述的跨语言的医学知识图谱构建方法，其特征在于，

4.根据权利要求3所述的跨语言的医学知识图谱构建方法，其特征在于，

5.根据权利要求1所述的跨语言的医学知识图谱构建方法，其特征在于，所述将所述不同语言的医疗标准在所述不同语言间进行互相映射的步骤具体包括：

6.根据权利要求2所述的跨语言的医学知识图谱构建方法，其特征在于，所述对所述电子病历分别进行实体提取、事件提取和关系提取的步骤具体包括：

7.一种跨语言的医学知识图谱构建装置，其特征在于，包括：

知识图谱输出模块，用于将所述跨语言的概念知识图谱与所述跨语言的实例知识图谱相结合，形成跨语言的事实知识图谱；

所述获取跨语言的概念知识图谱的步骤具体包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至6中任一项所述的跨语言的医学知识图谱构建方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被计算机执行时，实现如权利要求1至6中任一项所述的跨语言的医学知识图谱构建方法的步骤。